Ces voix de livres audio AI super impressionnantes sont-elles bonnes ou mauvaises ?

Table des matières:

Ces voix de livres audio AI super impressionnantes sont-elles bonnes ou mauvaises ?
Ces voix de livres audio AI super impressionnantes sont-elles bonnes ou mauvaises ?
Anonim

Clé à emporter

  • DeepZen utilise l'IA (intelligence artificielle) pour créer des livres audio étonnamment réalistes à partir de texte.
  • La technologie utilise de vrais acteurs de la voix humaine pour fournir les éléments de base.
  • Amazon et Audible n'acceptent pas actuellement les livres audio générés par ordinateur.
Image
Image

DeepZen est une entreprise qui crée des voix de synthèse utilisées dans les livres audio, basées sur les voix réelles d'acteurs humains. La qualité est effrayante, assez bonne pour être écoutée pendant des heures à la fois. Le gadget ici est le composant AI (intelligence artificielle), qui peut lire le texte et déduire la réponse émotionnelle correcte en fonction du contexte. Il met ensuite cette émotion dans la voix.

C'est impressionnant et très pratique. Mais voulons-nous vraiment une expérience audio homogénéisée ? Et qu'en est-il de ces doubleurs ?

"Du point de vue de l'éditeur indépendant, tout ce qui réduit le coût de la production de livres audio est très intéressant", a déclaré Rick Carlile, propriétaire de l'éditeur indépendant Carlile Media, à Lifewire par e-mail.

"Mais cette attraction suppose que le produit serait de qualité égale à la narration traditionnelle. Je ne pense pas que nous en soyons encore à cent pour cent. Ne vous méprenez pas, DeepZen est étonnamment bon. C'est un percée formidable, et ses créateurs méritent d'immenses éloges et succès. Mais ce n'est pas encore parfait."

Audio C'est "assez bon"

La meilleure façon de comprendre la qualité de DeepZen est d'écouter les échantillons. Si vous ne saviez pas qu'ils étaient générés par ordinateur, vous ne vous en rendriez peut-être même pas compte. Pas avant un moment en tout cas. Supposons que l'IA de DeepZen soit parfaite et qu'elle n'interprète jamais mal les notes émotionnelles qu'elle est censée produire.

Image
Image

Même alors, un humain peut offrir des interprétations plus nuancées et souvent plus surprenantes. Un acteur pourrait donner une tournure inattendue aux mots qu'un ordinateur n'envisagerait même jamais. Et en réalité, l'interprétation de l'IA n'est sûrement pas encore aussi bonne que celle d'un doubleur professionnel.

"En tant que personne qui travaille sur des films et plus récemment dans le monde de la narration audio, bien que je sois impressionné par l'IA, je sais pertinemment qu'il existe des profondeurs profondes de sens qu'une machine ne peut pas interpréter", voix professionnelle l'acteur Paul Cram a déclaré à Lifewire par e-mail.

"Y aura-t-il une vague d'auteurs inconnus qui l'utiliseront ? Je vous garantis qu'il y en aura parce que c'est "assez bon"."

Être assez bon, combiné à la commodité et aux économies de coûts, pourrait suffire à inciter les éditeurs indépendants à utiliser ce service.

"Les livres audio peuvent coûter jusqu'à 500 $ par heure d'audio finie (beaucoup plus pour une voix de célébrité), et cela n'inclut pas le coût du temps de gestion et d'administration", explique Carlile. "Pouvoir réduire de moitié ce coût en téléchargeant simplement un manuscrit sur un fournisseur comme DeepZen est extrêmement attrayant."

Trouble de conversation

Ce n'est pas encore aussi simple que de licencier vos doubleurs et de télécharger des manuscrits sur DeepZen. Il existe actuellement un obstacle à l'oration facile des livres audio par l'IA, et il vient d'Amazon.

Image
Image

"Actuellement, ACX, la voie de l'auto-éditeur vers la distribution de livres audio Audible et Amazon, n'acceptera pas les livres audio qu'un humain n'a pas enregistrés", déclare Carlile.

Pourquoi ? Qualité. Voici l'entrée de la FAQ du site Web:

"La synthèse vocale ou d'autres enregistrements automatisés ne sont pas autorisés. Les auditeurs audibles choisissent des livres audio pour l'interprétation du matériel, ainsi que pour l'histoire. Pour répondre à cette attente, votre livre audio doit être enregistré par un humain."

Cela signifie que les livres audio générés par DeepZen sont sortis pour le moment, du moins. C'est de la pure spéculation, mais DeepZen semblerait être une assez bonne acquisition pour Amazon, lui permettant de vendre le service et de le conserver uniquement pour les livres Audible. Et même si cela ne se produit pas, si la qualité des livres audio générés par ordinateur est aussi bonne, il semble alors peu de raisons de ne pas faire exception à cette règle.

Seriez-vous heureux d'écouter des livres audio ainsi créés ? Quand cela arrive, la plupart des gens ne s'en doutent même pas. Certains préféreront peut-être la perfection des voix générées par ordinateur, car elles seront exemptes des tics vocaux et des habitudes qui peuvent parfois distraire. La technologie convient également aux jeux vidéo, aux publicités télévisées et radiophoniques et à tout autre scénario dans lequel vous engageriez un doubleur.

La technologie de DeepZen constituerait également un excellent moyen de créer automatiquement des podcasts d'actualités à partir d'articles écrits, ce qui pourrait être pratique pour les déplacements.

Et qu'en est-il de ces doubleurs ? Eh bien, il y aura au moins une opportunité: ils peuvent aller travailler pour DeepZen.

Conseillé: