Comment l'IA pourrait rendre le discours de l'ordinateur plus naturel

Table des matières:

Comment l'IA pourrait rendre le discours de l'ordinateur plus naturel
Comment l'IA pourrait rendre le discours de l'ordinateur plus naturel
Anonim

Clé à emporter

  • Les entreprises font la course pour trouver des moyens de rendre le son de la parole générée par ordinateur plus réaliste.
  • NVIDIA a récemment dévoilé des outils capables de capturer le son de la parole naturelle en vous permettant de former une IA avec votre propre voix.
  • Intonation, émotion et musicalité sont les caractéristiques qui manquent encore aux voix artificielles, selon un expert.
Image
Image

La parole générée par ordinateur pourrait bientôt sembler beaucoup plus humaine.

Le fabricant de composants informatiques NVIDIA a récemment dévoilé des outils capables de capturer le son de la parole naturelle en vous permettant de former une IA avec votre voix. Le logiciel peut également prononcer les mots d'un orateur en utilisant la voix d'une autre personne. Cela fait partie d'une poussée croissante pour rendre le langage informatique plus réaliste.

"La technologie avancée d'IA vocale permet aux utilisateurs de parler naturellement, en combinant de nombreuses requêtes en une seule phrase et en éliminant le besoin de répéter constamment les détails de la requête d'origine", Michael Zagorsek, directeur de l'exploitation de la société de reconnaissance vocale SoundHound, a déclaré Lifewire dans une interview par e-mail.

"L'ajout de plusieurs langues, désormais disponibles sur la plupart des plates-formes d'IA vocale, rend les assistants vocaux numériques accessibles dans davantage de zones géographiques et pour davantage de populations", a-t-il ajouté.

Robospeech Rising

Alexa d'Amazon et Siri d'Apple sonnent beaucoup mieux que le discours d'un ordinateur d'il y a seulement dix ans, mais ils ne seront pas confondus de si tôt avec des voix humaines authentiques.

Pour rendre la parole artificielle plus naturelle, l'équipe de recherche sur la synthèse vocale de NVIDIA a développé un modèle RAD-TTS. Le système permet aux individus d'enseigner un modèle de synthèse vocale (TTS) avec leur voix, y compris le rythme, la tonalité, le timbre et d'autres facteurs.

La société a utilisé son nouveau modèle pour créer une narration vocale plus conversationnelle pour sa série de vidéos I Am AI.

"Avec cette interface, notre producteur vidéo pourrait s'enregistrer en train de lire le script vidéo, puis utiliser le modèle d'IA pour convertir son discours dans la voix de la narratrice. En utilisant cette narration de base, le producteur pourrait alors diriger l'IA comme un acteur vocal - ajustant le discours synthétisé pour mettre l'accent sur des mots spécifiques et modifiant le rythme de la narration pour mieux exprimer le ton de la vidéo ", a écrit NVIDIA sur son site Web.

Plus dur que ça en a l'air

Donner un son naturel à la parole générée par ordinateur est un problème délicat, selon les experts.

"Vous devez enregistrer des centaines d'heures de la voix de quelqu'un pour en créer une version informatique", a déclaré Nazim Ragimov, PDG de la société de logiciels de synthèse vocale Kukarella, à Lifewire dans une interview par e-mail. "Et l'enregistrement doit être de haute qualité, enregistré dans un studio professionnel. Plus il y a d'heures de voix de qualité chargées et traitées, meilleur est le résultat."

La synthèse vocale peut être utilisée dans les jeux, pour aider les personnes souffrant de troubles vocaux ou pour aider les utilisateurs à traduire d'une langue à l'autre avec leur propre voix.

L'intonation, l'émotion et la musicalité sont les caractéristiques qui manquent encore aux voix de synthèse, a déclaré Ragimov.

Si l'IA peut ajouter ces chaînons manquants, le discours généré par ordinateur sera « indiscernable des voix d'acteurs réels », a-t-il ajouté. "C'est un travail en cours. D'autres voix pourront rivaliser avec les animateurs de radio. Bientôt, vous verrez des voix capables de chanter et de lire des livres audio."

La technologie vocale est de plus en plus populaire dans un large éventail d'entreprises.

"L'industrie automobile a récemment adopté l'IA vocale comme moyen de créer des expériences de conduite plus sûres et plus connectées", a déclaré Zagorsek.

"Depuis lors, les assistants vocaux sont devenus de plus en plus omniprésents, car les marques cherchent des moyens d'améliorer l'expérience client et de répondre à la demande de méthodes plus simples, plus sûres, plus pratiques, efficaces et hygiéniques pour interagir avec leurs produits et services."

Généralement, l'IA vocale convertit les requêtes en réponses dans un processus en deux étapes qui commence par transcrire la parole en texte à l'aide de la reconnaissance automatique de la parole (ASR), puis intègre ce texte dans un modèle de compréhension du langage naturel (NLU).

Image
Image

L'approche de SoundHound combine ces deux étapes en un seul processus pour suivre la parole en temps réel. La société affirme que cette technique permet aux assistants vocaux de comprendre le sens des requêtes des utilisateurs, avant même que la personne ait fini de parler.

Les avancées futures de la parole informatique, y compris la disponibilité d'une variété d'options de connectivité allant de l'embarqué uniquement (aucune connexion au cloud requise) à l'hybride (embarqué plus cloud) et au cloud uniquement donneront plus de choix aux entreprises de tous les secteurs en termes de coût, de confidentialité et de disponibilité de la puissance de traitement », a déclaré Zagoresk.

NVIDIA a déclaré que ses nouveaux modèles d'IA vont au-delà du travail de voix off.

"La synthèse vocale peut être utilisée dans les jeux, pour aider les personnes souffrant de troubles vocaux ou pour aider les utilisateurs à traduire d'une langue à l'autre avec leur propre voix", a écrit la société. "Il peut même recréer les performances de chanteurs emblématiques, correspondant non seulement à la mélodie d'une chanson, mais également à l'expression émotionnelle derrière la voix."

Conseillé: