Kosmos-2 pourrait être révolutionnaire pour Embodiment AI.
- Une nouvelle recherche financée par Microsoft se penche sur la physicalité de l'IA.
- Le modèle de langage, Kosmos-2, a été formé pour percevoir les concepts spatiaux.
- Il vient également avec sa propre connaissance de l'espace.
Microsoft a récemment investi beaucoup d'argent dans le financement de la recherche sur l'IA. Orque 13B est open source au public après qu'une équipe de chercheurs réunis et financés par Microsoft l'ait construit.
LongueMem est l'espoir de Microsoft pour une longueur de contexte illimitée dans les modèles d'IA. Et c'est aussi un produit de la recherche financée par le géant de la technologie basé à Redmond.
Phi-1, un nouveau modèle de langage pour le codage, est capable d'apprendre et de développer des connaissances par lui-même. Microsoft a financé la recherche pour cela.
Et il semble que Embodiment AI soit la prochaine quête du développement de l'IA. Mais Microsoft pourrait bien avoir la réponse avec une autre recherche sur l'IA. Il s'agit cette fois
Cosmos-2, un nouveau modèle d'IA qui jette les bases de l'IA d'incarnation.Kosmos-2 de Microsoft est le prototype Embodiment AI
C'est peut-être la première fois que vous entendez parler d'Incorporation AI. Eh bien, le nom est assez évocateur en soi. Alors, qu'est-ce que Embodiment AI, pourriez-vous demander?
Embodiment AI est un domaine de l'intelligence artificielle qui se concentre sur le développement d'agents intelligents qui ont un corps physique et peuvent interagir avec le monde de manière significative.
Le concept est basé sur l'idée que le corps physique joue un rôle important dans la façon dont un agent apprend et prend des décisions.
En d'autres termes, si l'IA avait un corps et bougeait, alors elle pourrait en tirer des leçons et réagir et former des réponses, ainsi qu'interagir en conséquence. Et si vous pensez que nous entrons dans le territoire de la science-fiction, tenez bon. L'IA a toujours été censée devenir physique.
Selon la recherche, Kosmos-2 est un modèle de langage qui permet de nouvelles capacités de perception des descriptions d'objets (par exemple, des boîtes englobantes) et d'ancrage du texte dans le monde visuel. Les chercheurs représentés se réfèrent aux expressions sous forme de liens dans Markdown, c'est-à-dire "text span", où les descriptions d'objets sont des séquences de jetons de localisation.
Avec des corpus multimodaux, ils ont construit des données à grande échelle de paires image-texte ancrées (appelées GrIT) pour former le modèle. En plus d'intégrer les capacités existantes des MLLM dans Kosmos-2, le modèle intègre également la capacité de mise à la terre dans les applications.
Cela signifie que le langage a fait des pas en avant dans la perception de l'espace et dans la création de sa propre perception, action et modélisation du monde. Les chercheurs pensent ainsi que Kosmos-2 est la base d'une IA physique. Vous pouvez lire la recherche ici.
Que pensez-vous de Microsoft Kosmos 2? Serait-il bon que l'IA ait une forme physique ou non? Faites-nous savoir dans la section commentaires ci-dessous.