Les conversations avec votre ordinateur peuvent devenir plus réalistes

Table des matières:

Les conversations avec votre ordinateur peuvent devenir plus réalistes
Les conversations avec votre ordinateur peuvent devenir plus réalistes
Anonim

Clé à emporter

  • Meta utilise l'IA pour créer des programmes capables d'exprimer des émotions par la parole.
  • L'équipe d'intelligence artificielle de l'entreprise a déclaré avoir fait des progrès dans la modélisation des vocalisations expressives, telles que les rires, les bâillements, les pleurs et les "bavardages spontanés" en temps réel.
  • L'IA est également utilisée pour améliorer la reconnaissance vocale.
Image
Image

Vous pourrez bientôt avoir une conversation plus naturelle avec votre ordinateur, grâce à la puissance de l'intelligence artificielle (IA).

Meta a déclaré avoir fait des progrès significatifs dans ses efforts pour créer des systèmes vocaux générés par l'IA plus réalistes. L'équipe d'intelligence artificielle de l'entreprise a déclaré qu'elle avait fait des progrès dans la capacité de modéliser des vocalisations expressives, telles que le rire, le bâillement et les pleurs, en plus du "bavardage spontané" en temps réel.

"Dans une conversation donnée, les gens échangent plein de signaux non verbaux, comme les intonations, l'expression émotionnelle, les pauses, les accents, les rythmes, qui sont tous importants pour les interactions humaines", a écrit l'équipe dans un récent article de blog.. "Mais les systèmes d'IA d'aujourd'hui ne parviennent pas à capturer ces signaux riches et expressifs, car ils n'apprennent qu'à partir du texte écrit, qui capture ce que nous disons mais pas comment nous le disons."

Discours plus intelligent

Dans le billet de blog, l'équipe de Meta AI a déclaré qu'elle s'efforçait de surmonter les limites des systèmes d'IA traditionnels qui ne peuvent pas comprendre les signaux non verbaux dans la parole, tels que les intonations, les expressions émotionnelles, les pauses, les accents et les rythmes. Les systèmes sont freinés car ils ne peuvent apprendre qu'à partir d'un texte écrit.

Mais le travail de Meta diffère des efforts précédents car ses modèles d'IA peuvent utiliser des modèles de traitement du langage naturel pour capturer toute la nature du langage parlé. Les méta-chercheurs affirment que les nouveaux modèles peuvent permettre aux systèmes d'IA de transmettre le sentiment qu'ils souhaitent transmettre, comme l'ennui ou l'ironie.

"Dans un avenir proche, nous nous concentrerons sur l'application de techniques sans texte pour créer des applications en aval utiles sans nécessiter ni étiquettes de texte gourmandes en ressources ni systèmes de reconnaissance automatique de la parole (ASR), tels que la réponse aux questions (par exemple, "Comment va le météo?"), " l'équipe a écrit dans le billet de blog. "Nous pensons que la prosodie dans la parole peut aider à mieux analyser une phrase, ce qui facilite la compréhension de l'intention et améliore les performances de la réponse aux questions."

AI Powers Comprehension

Non seulement les ordinateurs s'améliorent pour communiquer du sens, mais l'IA est également utilisée pour améliorer la reconnaissance vocale.

Les informaticiens travaillent sur la reconnaissance vocale par ordinateur depuis au moins 1952, lorsque trois chercheurs des Bell Labs ont créé un système capable de reconnaître des chiffres numériques uniques, a déclaré le directeur de la technologie d'AI Dynamics, Ryan Monsurate, dans un e-mail à Fil de vie. Dans les années 1990, les systèmes de reconnaissance vocale étaient disponibles dans le commerce, mais avaient toujours un taux d'erreur suffisamment élevé pour décourager l'utilisation en dehors de domaines d'application très spécifiques tels que les soins de santé.

"Maintenant que les modèles d'apprentissage en profondeur ont permis aux modèles d'ensemble (comme ceux de Microsoft) d'atteindre des performances surhumaines en matière de reconnaissance vocale, nous avons la technologie pour permettre une communication verbale indépendante du locuteur avec des ordinateurs à grande échelle", a déclaré Monsurate. "La prochaine étape consistera à réduire les coûts afin que tous ceux qui utilisent Siri ou les assistants IA de Google aient accès à ce niveau de reconnaissance vocale."

Image
Image

L'IA est utile pour la reconnaissance vocale car elle peut s'améliorer au fil du temps grâce à l'apprentissage, a déclaré Ariel Utnik, directeur des revenus et directeur général de la société vocale AI Verbit.ai, à Lifewire dans une interview par e-mail. Par exemple, Verbit affirme que sa technologie d'intelligence artificielle interne détecte et filtre les bruits de fond, fait écho et transcrit les locuteurs, quel que soit leur accent, pour générer des transcriptions et des sous-titres détaillés et professionnels à partir de vidéos et d'audio en direct et enregistrés.

Mais Utnik a déclaré que la plupart des plates-formes de reconnaissance vocale actuelles ne sont précises qu'à 75-80 %.

"L'IA ne remplacera jamais complètement les humains, car l'examen personnel par les transcripteurs, les relecteurs et les éditeurs est nécessaire pour garantir une transcription finale de haute qualité et d'une précision optimale", a-t-il ajouté.

Une meilleure reconnaissance vocale pourrait également être utilisée pour empêcher les pirates, a déclaré Sanjay Gupta, vice-président responsable mondial du développement des produits et de l'entreprise chez la société de reconnaissance vocale Mitek Systems, dans un e-mail. Les recherches indiquent que d'ici deux ans, 20 % de toutes les attaques de prise de contrôle de compte réussies utiliseront l'augmentation de la voix synthétique, a-t-il ajouté.

"Cela signifie qu'à mesure que la technologie de contrefaçon devient plus sophistiquée, nous devons simultanément créer une sécurité avancée capable de combattre ces tactiques parallèlement aux contrefaçons d'image et de vidéo", a déclaré Gupta. "La lutte contre l'usurpation de voix nécessite une technologie de détection de la vivacité, capable de faire la distinction entre une voix en direct et une version enregistrée, synthétique ou générée par ordinateur d'une voix."

Correction 2022-05-04: Correction de l'orthographe du nom de Ryan Monsurate au paragraphe 9.

Conseillé: