À l’origine, je voulais que cet article soit une expérimentation. Il serait écrit intégralement par la voix. Donc, contrairement à mon habitude, je n’utiliserais pas le clavier mais je me contenterais de dicter l’article. L’usage du clavier ne serait que pour de la remise en forme. Ajouter les points, les virgules et autres signes de ponctuation qui auraient été oubliés lors de ma dictée.
Lors d’un précédent article, j’évoquais le réseau de neurones des IA et les entraînements nécessaires à leur fonctionnement. La reconnaissance vocale se base sur ces mécanismes. Ainsi, il existe de nombreux logiciels qui permettent de saisir du texte avec sa voix uniquement. Avec le temps, ces logiciels se sont améliorés. Ils reconnaissent toujours plus de mots et distinguent les accents. Alors testons-les.
Commençons par la solution de Microsoft. Baptisé sobrement Speech, ce module de reconnaissance vocale ne semble pas s’adapter à mon accent du ‘Sud’. Je ne compte pas le nombre de mots erronés. Mon accent n’est pas assez parisien. La reconnaissance est lente. Il faut patienter entre chaque phrase. Un commercial me dirait que cela permet de mieux préparer la prochaine phrase.
Cerise sur le gâteau, quand il n’efface pas la phrase précédente, Speech s’arrête et bloque le clavier virtuel. Je renonce à continuer mon expérience et je passe à la solution d’Apple. Je n’ai pas de Mac, je dois donc me contenter de dicter sur mon iPhone. Et la surprise est bonne. Si certains mots ne passent toujours pas, la reconnaissance est fluide. Peu de temps d’attente. Quel progrès depuis les débuts de Siri !
Dernier test avec Google. J’ai toujours été impressionné par leur solution. Pourtant, je les trouve moins réactifs qu’Apple. Comme s’ils n’avaient pas cherché à progresser dans ce domaine.
Cet exercice m’a permis de relever certaines limites de l’utilisation de ces logiciels. S’il est facile de dicter une phrase, il est plus compliqué de concevoir tout un article avec cette méthode. En même temps que l’on dicte, il est nécessaire de penser à la ponctuation. Et je ne suis pas professeur de français. Je me suis retrouvé avec des phrases à rallonge sans que le logiciel ne sépare les blocs sujet/verbe/complément.
En même temps que l’on parle, il est nécessaire de penser la phrase suivante. Ce point là n’est pas n’est pas de la responsabilité du logiciel de reconnaissance. Mais avant de vouloir dicter vos pensées, je vous conseille de rédiger un plan. Cela vous évitera de tourner en rond ou de vous éparpiller dans vos idées.
La deuxième limite de ces solutions est l’homonymie. Pour un même son, ils ne savent pas si je parle de la couleur, de la matière ou de l’insecte. Certains logiciels essaient de contextualiser pour retrouver le terme le plus cohérent mais les erreurs se remarquent immédiatement.
La troisième limite est l’accent. S’il caractérise notre région d’origine et déroge à l’uniformité de notre société, il est aussi une difficulté pour les logiciels. Ainsi, aucun des 3 produits testés n’a su reconnaître le mot ‘accent’ lorsque je le dictais. Même en parlant lentement, même en distinguant les syllabes, les logiciels refusaient de reconnaître ce mot. Seraient-ils glottophobes ?
Vous me direz, les sociétés qui proposent ces solutions sont américaines. Il est normal que leurs produits ne soient pas aussi efficaces avec d’autres langues. Les mêmes problèmes existent pourtant en anglais. Un texan, un londonien et un indien qui parlent ensemble ont beaucoup de mal à se comprendre. Alors imaginez le logiciel de reconnaissance vocale qui doit faire la synthèse de leurs débats.
Vous connaissez peut-être le test de Turing pour déterminer la capacité d’une intelligence artificielle. Je propose le test de Pivot pour les logiciels de reconnaissance vocale. S’ils font moins de 5 fautes à la dictée de Bernard Pivot, alors ils peuvent être utilisés sans risque.