Le modèle ImageBind est une preuve de concept pour l'avenir des systèmes d'IA générative.
Meta a annoncé la sortie d'un nouveau modèle d'IA open source qui combine plusieurs flux de données, notamment du texte, de l'audio, des données visuelles, thermiques, de mouvement et de profondeur.
Le modèle, appelé ImageBind, n'a pas encore de applications concrètes, mais il offre un aperçu de l'avenir des systèmes d'IA générative qui peuvent créer des expériences immersives et multisensorielles. Il est également intéressant de noter que Meta continue de partager ses recherches en IA, alors que ses concurrents OpenAI et Google sont devenus plus secrets.
Le concept de base de la recherche est de lier plusieurs types de données dans un seul index multidimensionnel (ou "espace d'encastrement", pour utiliser le langage de l'IA). Cette idée sous-tend l'essor récent de l'IA générative.
Le modèle ImageBind est le premier à combiner six types de données en un seul espace d'encastrement : visuel (sous forme d'image et de vidéo), thermique (images infrarouges), texte, audio, information de profondeur et de mouvement. L'unité de mesure inertielle (IMU) est la plus intrigante de toutes les données utilisées. Elle permet de générer des lectures de mouvements à partir d'un téléphone ou d'une montre intelligente. Les IMU sont utilisées pour un large éventail de tâches, de la bascule d'un téléphone de paysage en portrait à la distinction entre différents types d'activité physique.
L'idée est que les futurs systèmes d'IA seront capables de recouper ces données de la même manière que les systèmes d'IA actuels le font pour les entrées de texte. Imaginez par exemple un dispositif de réalité virtuelle futuriste qui génère non seulement des entrées audio et visuelles, mais aussi votre environnement et vos mouvements sur une scène physique. Vous pourriez lui demander d'émuler une longue traversée en mer, et il vous placerait non seulement sur un navire avec le bruit des vagues en arrière-plan, mais aussi le roulis du pont sous vos pieds et la fraîcheur de l'air marin.
Dans un article de blog, Meta note que d'autres flux d'entrée sensorielle pourraient être ajoutés aux modèles futurs, notamment le toucher, la parole, l'odeur et les signaux fMRI du cerveau. L'entreprise affirme également que la recherche "rapproche les machines de la capacité des humains à apprendre simultanément, de manière holistique et directe à partir de nombreuses formes d'informations".
Il est clair que ces recherches sont très spéculatives, et il est probable que les applications immédiates de cette recherche seront beaucoup plus limitées. Par exemple, l'année dernière, Meta a présenté un modèle d'IA qui génère de courts et flous vidéos à partir de descriptions textuelles. Des travaux tels que ImageBind montrent comment les versions futures du système pourraient intégrer d'autres flux de données, générant par exemple de l'audio pour correspondre à la sortie vidéo.
Ce qui rend cette recherche intéressante pour les observateurs de l'industrie, c'est que Meta a décidé de rendre son modèle open source - une pratique de plus en plus scrutée dans le monde de l'IA. Les opposants à l'open source, tels qu'OpenAI, affirment que cette pratique est préjudiciable aux créateurs, car les concurrents peuvent copier leur travail et que cela pourrait être potentiellement dangereux, en permettant à des acteurs malveillants de tirer parti des modèles d'IA de pointe. Les partisans répondent que l'open source permet aux tiers de scruter les systèmes pour détecter les failles et d'améliorer certains de leurs défauts. Ils notent également que cela pourrait même offrir un avantage commercial, car cela permet essentiellement aux entreprises de recruter des développeurs tiers comme travailleurs non rémunérés pour améliorer leur travail.
Meta s'est jusqu'à présent fermement positionné en faveur de l'open source, même s'il a connu des difficultés. Sa dernière modèle de langage, LLaMA, a par exemple fuité en ligne plus tôt cette année. En quelque sorte, son manque de réalisations commerciales en matière d'IA (l'entreprise n'a pas de chatbot à rivaliser avec Bing, Bard ou ChatGPT) a permis cette approche. Et pour l'instant, avec ImageBind, il continue sur cette voie.
En fin de compte, l'objectif de Meta est de fournir des outils permettant aux gens de créer du contenu multimédia immersif en utilisant l'IA. Ce modèle ImageBind est un jalon important dans cette direction. En fournissant un modèle open source, Meta espère inspirer d'autres chercheurs et développeurs à s'engager dans cette voie. Tout en restant dans l'ombre de ses concurrents, l'entreprise a clairement une vision ambitieuse pour l'avenir de l'IA, qui pourrait changer fondamentalement la façon dont nous interagissons avec la technologie.