Clé à emporter
- Le jour approche à grands pas où vous ne pourrez plus distinguer le discours généré par ordinateur de la réalité.
- Google a récemment dévoilé LaMDA, un modèle qui pourrait permettre des conversations plus naturelles.
- Produire un discours de type humain nécessite également une grande quantité de puissance de traitement.
Pour le moment, il est facile de savoir quand vous parlez à un ordinateur, mais cela pourrait bientôt changer grâce aux récentes avancées de l'IA.
Google a récemment dévoilé LaMDA, un modèle expérimental qui, selon la société, pourrait renforcer la capacité de ses assistants d'intelligence artificielle conversationnelle et permettre des conversations plus naturelles. LaMDA vise à finir par converser normalement sur presque tout sans aucune formation préalable.
C'est l'un des nombreux projets d'IA qui pourraient vous amener à vous demander si vous parlez à un être humain.
"Mon estimation est qu'au cours des 12 prochains mois, les utilisateurs commenceront à être exposés et à s'habituer à ces nouvelles voix plus émotionnelles", James Kaplan, PDG de MeetKai, un assistant vocal virtuel d'intelligence artificielle et de recherche moteur, a déclaré dans une interview par e-mail.
"Une fois que cela se produira, le discours synthétisé d'aujourd'hui sonnera pour les utilisateurs comme le discours du début des années 2000 nous semble aujourd'hui."
Assistants vocaux avec caractère
LaMDA de Google est basé sur Transformer, une architecture de réseau de neurones inventée par Google Research. Contrairement à d'autres modèles de langage, le LaMDA de Google a été formé au dialogue réel.
Une partie du défi de faire un discours d'IA au son naturel est la nature ouverte des conversations, a écrit Eli Collins de Google dans un article de blog.
"Une conversation avec un ami à propos d'une émission télévisée pourrait se transformer en une discussion sur le pays où l'émission a été filmée avant de s'installer dans un débat sur la meilleure cuisine régionale de ce pays", a-t-il ajouté.
Les choses bougent vite avec la parole robotique. Eric Rosenblum, associé directeur de Tsingyuan Ventures, qui investit dans l'IA conversationnelle, a déclaré que certains des problèmes les plus fondamentaux de la parole assistée par ordinateur sont pratiquement résolus.
Par exemple, le taux de précision dans la compréhension de la parole est déjà extrêmement élevé dans des services tels que les transcriptions effectuées par le logiciel Otter.ai ou les notes médicales prises par DeepScribe.
"La prochaine frontière, cependant, est beaucoup plus difficile", a-t-il ajouté.
"Conserver la compréhension du contexte, qui est un problème qui va bien au-delà du traitement du langage naturel, et de l'empathie, comme les ordinateurs interagissant avec les humains, nécessite de comprendre la frustration, la colère, l'impatience, etc. Ces deux problèmes sont en cours d'élaboration, mais les deux sont loin d'être satisfaisants."
Les réseaux de neurones sont la clé
Pour générer des voix réalistes, les entreprises utilisent des technologies telles que les réseaux de neurones profonds, une forme d'apprentissage automatique qui classe les données par couches, Matt Muldoon, président nord-américain de ReadSpeaker, une société qui développe des logiciels de synthèse vocale, a déclaré dans une interview par e-mail.
"Ces couches affinent le signal, le triant en classifications plus complexes", a-t-il ajouté. "Le résultat est un discours synthétique qui ressemble étrangement à celui d'un humain."
Une autre technologie en cours de développement est Prosody Transfer, qui consiste à combiner le son d'une voix de synthèse vocale avec le style de parole d'une autre, a déclaré Muldoon. Il y a aussi l'apprentissage par transfert, qui réduit la quantité de données d'entraînement nécessaires pour produire une nouvelle voix neuronale de synthèse vocale.
Kaplan a déclaré que la production d'un discours de type humain nécessite également une énorme puissance de traitement. Les entreprises développent des puces d'accélération neuronale, qui sont des modules personnalisés qui fonctionnent en conjonction avec des processeurs classiques.
"La prochaine étape consistera à intégrer ces puces dans un matériel plus petit, comme c'est déjà le cas actuellement pour les caméras lorsque l'IA pour la vision est requise", a-t-il ajouté. "Il ne faudra pas longtemps avant que ce type de capacité informatique soit disponible dans les écouteurs eux-mêmes."
L'un des défis du développement de la parole basée sur l'IA est que tout le monde parle différemment, de sorte que les ordinateurs ont tendance à avoir du mal à nous comprendre.
"Pensez aux accents de la Géorgie, de Boston et du Dakota du Nord, et si l'anglais est ou non votre langue principale", a déclaré Monica Dema, qui travaille sur l'analyse de la recherche vocale chez MDinc, dans un e-mail. "En pensant globalement, cela coûte cher pour toutes les régions d'Allemagne, de Chine et d'Inde, mais cela ne signifie pas que ce n'est pas ou ne peut pas être fait."