L'IA peut désormais comprendre vos vidéos en les regardant

Table des matières:

L'IA peut désormais comprendre vos vidéos en les regardant
L'IA peut désormais comprendre vos vidéos en les regardant
Anonim

Clé à emporter

  • Les chercheurs affirment qu'ils peuvent apprendre à l'IA à étiqueter des vidéos en les regardant et en les écoutant.
  • Le système d'IA apprend à représenter les données pour capturer les concepts partagés entre les données visuelles et audio.
  • Cela fait partie d'un effort pour apprendre à l'IA à comprendre des concepts que les humains n'ont aucun mal à apprendre mais que les ordinateurs ont du mal à saisir.

Image
Image

Un nouveau système d'intelligence artificielle (IA) pourrait regarder et écouter vos vidéos et étiqueter ce qui se passe.

Les chercheurs du MIT ont développé une technique qui apprend à l'IA à capturer des actions partagées entre la vidéo et l'audio. Par exemple, leur méthode peut comprendre que l'acte d'un bébé qui pleure dans une vidéo est lié au mot prononcé "pleurer" dans un clip sonore. Cela fait partie d'un effort visant à enseigner à l'IA comment comprendre des concepts que les humains n'ont aucun mal à apprendre, mais que les ordinateurs ont du mal à saisir.

"Le paradigme d'apprentissage répandu, l'apprentissage supervisé, fonctionne bien lorsque vous disposez d'ensembles de données bien décrits et complets", a déclaré l'expert en intelligence artificielle Phil Winder à Lifewire dans une interview par e-mail. "Malheureusement, les ensembles de données sont rarement complets car le monde réel a la mauvaise habitude de présenter de nouvelles situations."

IA plus intelligente

Les ordinateurs ont du mal à comprendre les scénarios de tous les jours, car ils ont besoin de traiter des données plutôt que du son et des images comme les humains. Lorsqu'une machine "voit" une photo, elle doit coder cette photo en données qu'elle peut utiliser pour effectuer une tâche telle qu'une classification d'image. L'IA peut s'enliser lorsque les entrées se présentent sous plusieurs formats, comme des vidéos, des clips audio et des images.

"Le principal défi ici est de savoir comment une machine peut aligner ces différentes modalités ? En tant qu'êtres humains, c'est facile pour nous", a déclaré Alexander Liu, chercheur au MIT et premier auteur d'un article sur le sujet. communiqué de presse. "Nous voyons une voiture, puis entendons le bruit d'une voiture qui passe, et nous savons que c'est la même chose. Mais pour l'apprentissage automatique, ce n'est pas si simple."

L'équipe de Liu a développé une technique d'IA qui, selon eux, apprend à représenter des données pour capturer des concepts partagés entre des données visuelles et audio. Grâce à ces connaissances, leur modèle d'apprentissage automatique peut identifier où une action spécifique se déroule dans une vidéo et l'étiqueter.

Le nouveau modèle prend des données brutes, telles que des vidéos et leurs légendes de texte correspondantes, et les encode en extrayant des caractéristiques ou des observations sur des objets et des actions dans la vidéo. Il cartographie ensuite ces points de données dans une grille, connue sous le nom d'espace d'intégration. Le modèle regroupe des données similaires sous forme de points uniques dans la grille; chacun de ces points de données, ou vecteurs, est représenté par un mot individuel.

Par exemple, un clip vidéo d'une personne en train de jongler peut être associé à un vecteur nommé "jonglerie".

Les chercheurs ont conçu le modèle de sorte qu'il ne puisse utiliser que 1 000 mots pour étiqueter les vecteurs. Le modèle peut décider quelles actions ou quels concepts il veut encoder dans un seul vecteur, mais il ne peut utiliser que 1 000 vecteurs. Le modèle choisit les mots qui, selon lui, représentent le mieux les données.

"S'il y a une vidéo sur les cochons, le modèle peut attribuer le mot "cochon" à l'un des 1 000 vecteurs. Ensuite, si le modèle entend quelqu'un prononcer le mot "cochon" dans un clip audio, il devrait toujours utiliser le même vecteur pour coder cela ", a expliqué Liu.

Vos vidéos décodées

De meilleurs systèmes d'étiquetage comme celui développé par le MIT pourraient aider à réduire les biais dans l'IA, a déclaré Marian Beszedes, responsable de la recherche et du développement à la société de biométrie Innovatrics, à Lifewire dans une interview par e-mail. Beszedes a suggéré que l'industrie des données peut voir les systèmes d'IA du point de vue du processus de fabrication.

"Les systèmes acceptent les données brutes comme entrées (matières premières), les prétraitent, les ingèrent, prennent des décisions ou des prédictions et produisent des analyses (produits finis)", a déclaré Beszedes. "Nous appelons ce flux de processus "l'usine de données" et, comme les autres processus de fabrication, il doit être soumis à des contrôles de qualité. L'industrie des données doit traiter le biais de l'IA comme un problème de qualité.

"Du point de vue du consommateur, des données mal étiquetées rendent, par exemple, la recherche en ligne d'images/vidéos spécifiques plus difficile", a ajouté Beszedes. "Avec une IA correctement développée, vous pouvez faire un étiquetage automatique, beaucoup plus rapide et plus neutre qu'avec un étiquetage manuel."

Image
Image

Mais le modèle MIT a encore quelques limites. D'une part, leurs recherches se sont concentrées sur des données provenant de deux sources à la fois, mais dans le monde réel, les humains rencontrent simultanément de nombreux types d'informations, a déclaré Liu

"Et nous savons que 1 000 mots fonctionnent sur ce type d'ensemble de données, mais nous ne savons pas s'il peut être généralisé à un problème réel", a ajouté Liu.

Les chercheurs du MIT affirment que leur nouvelle technique surpasse de nombreux modèles similaires. Si l'IA peut être entraînée à comprendre les vidéos, vous pourrez éventuellement ignorer les vidéos de vacances de votre ami et obtenir un rapport généré par ordinateur à la place.

Conseillé: