Clé à emporter
- Nvidia a récemment dévoilé une technique qui transforme des photos 2D en scènes 3D en quelques secondes.
- La méthode utilise la puissance de l'ordinateur pour approximer le comportement de la lumière dans le monde réel.
- Le métaverse est un domaine où les scènes 3D sont utiles car elles peuvent être visualisées depuis n'importe quelle perspective de caméra.
La nouvelle technologie d'intelligence artificielle (IA) de Nvidia pourrait bientôt transformer des photos 2D en scènes 3D en quelques secondes, rendant la création d'espaces virtuels immersifs comme le métaverse aussi simple que le traitement de texte.
Nvidia a récemment démontré la méthode photo appelée Instant NeRF, qui utilise la puissance de calcul pour se rapprocher du comportement de la lumière dans le monde réel. Il pourrait transformer vos vieilles photos en une scène de jeu vidéo, ou il peut être utilisé pour entraîner des robots et des voitures autonomes à comprendre la taille et la forme d'objets du monde réel.
"L'imagerie 3D apporte un nouveau monde de transformation", a déclaré Oren Debbi, PDG de Visionary.ai, une société de vision par ordinateur qui exécute ses algorithmes 3D sur la plate-forme Nvidia, à Lifewire dans une interview par e-mail. "En utilisant la 3D, vous imitez la profondeur du monde réel dans la scène et rendez l'image plus vivante et réaliste. Outre les caméras AR/VR et industrielles, où la 3D est très courante, nous la voyons maintenant utilisée sur presque tous les smartphones sans le l'utilisateur le sait même."
Ajouter des cotes
La première photo instantanée, prise il y a 75 ans avec un appareil photo Polaroid, visait à capturer rapidement le monde 3D dans une image 2D. Aujourd'hui, les chercheurs en intelligence artificielle travaillent à l'opposé: transformer une collection d'images fixes en une scène 3D numérique en quelques secondes.
Connu sous le nom de rendu inverse, le processus utilise l'IA pour approximer le comportement de la lumière dans le monde réel, permettant aux chercheurs de reconstruire une scène 3D à partir d'une poignée d'images 2D prises sous différents angles. Nvidia affirme avoir développé une approche qui accomplit cette tâche presque instantanément.
Nvidia a utilisé cette approche avec une nouvelle technologie appelée Neural Radiance Fields, ou NeRF. La société affirme que le résultat, baptisé Instant NeRF, est la technique NeRF la plus rapide à ce jour. Le modèle ne nécessite que quelques secondes pour s'entraîner sur quelques dizaines de photos fixes et peut ensuite rendre la scène 3D résultante en quelques dizaines de millisecondes.
"Si les représentations 3D traditionnelles comme les maillages polygonaux s'apparentent à des images vectorielles, les NeRF sont comme des images bitmap: elles capturent de manière dense la façon dont la lumière rayonne à partir d'un objet ou dans une scène", David Luebke, vice-président de la recherche graphique chez Nvidia, a déclaré dans un communiqué de presse: « En ce sens, Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l'ont été pour la photographie 2D, augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D.”
La collecte de données pour alimenter un NeRF nécessite que le réseau de neurones capture quelques dizaines d'images prises à partir de plusieurs positions autour de la scène, ainsi que la position de la caméra de chacune de ces prises de vue.
Le NeRF forme un petit réseau de neurones pour reconstruire la scène en prédisant la couleur de la lumière rayonnant dans n'importe quelle direction, à partir de n'importe quel point de l'espace 3D.
L'attrait de la 3D
Le métaverse est un domaine où les scènes 3D sont utiles car elles peuvent être visualisées depuis n'importe quelle perspective de caméra, a déclaré Brad Quinton, fondateur de la plate-forme Perceptus pour la réalité augmentée (RA), à Lifewire dans une interview par e-mail. Tout comme nous pouvons traverser une pièce dans la vraie vie et voir son contenu sous de nombreux angles différents, avec une scène 3D reconstruite, nous pouvons virtuellement nous déplacer dans un espace et le voir sous n'importe quelle perspective.
"Cela peut être particulièrement utile pour créer des environnements à utiliser dans la réalité virtuelle", a déclaré Quinton.
Des programmes comme la capture d'objets d'Apple utilisent une technique appelée photogrammétrie pour créer des objets 3D virtuels à partir d'une série d'images 2D. Les modèles 3D seront largement utilisés dans les applications de réalité virtuelle et de RA, a prédit Quinton. Par exemple, certaines IA, comme celle de la plate-forme Perceptus AR, utilisent des modèles 3D pour créer une compréhension du monde réel, ce qui permet des applications AR en temps réel.
L'utilisation d'images 3D imite également la profondeur réelle d'une scène et rend l'image plus vivante et réaliste, a déclaré Debbi. Pour créer un effet Bokeh (alias mode portrait ou mode cinématique), un mappage de profondeur 3D est nécessaire. La technique est utilisée sur presque tous les smartphones.
"C'est déjà la norme pour les vidéastes professionnels qui tournent des films, et cela devient la norme pour tous les consommateurs", a ajouté Debbi.