Kosmos-2 könnte für Embodiment AI revolutionär sein.
- Neue von Microsoft finanzierte Forschung befasst sich mit der Körperlichkeit von KI.
- Das Sprachmodell Kosmos-2 wurde darauf trainiert, räumliche Konzepte wahrzunehmen.
- Es bringt auch sein eigenes Wissen über den Weltraum mit.
Microsoft hat in letzter Zeit viel Budget in die Finanzierung der KI-Forschung gesteckt. Orca 13B ist Open Source für die Öffentlichkeit, nachdem ein von Microsoft zusammengestelltes und finanziertes Forscherteam es erstellt hat.
LongMem ist Microsofts Hoffnung auf unbegrenzte Kontextlänge in KI-Modellen. Und es ist auch ein Forschungsprodukt, das vom in Redmond ansässigen Technologieriesen finanziert wird.
Phi-1, ein neues Sprachmodell für die Codierung, ist in der Lage, selbstständig Wissen zu lernen und zu entwickeln. Microsoft hat die Forschung dafür finanziert.
Und es scheint, dass Embodiment AI das nächste Ziel in der KI-Entwicklung ist. Aber Microsoft könnte die Antwort mit einer weiteren Forschung zu KI finden. Diesmal geht es darum Kosmos-2, ein neues KI-Modell, das den Grundstein für Embodiment AI legt.
Microsofts Kosmos-2 ist der Embodiment AI-Prototyp
Vielleicht hören Sie zum ersten Mal von Embodiment AI. Nun, der Name ist an sich schon ziemlich suggestiv. Was ist also Embodiment AI, fragen Sie sich vielleicht?
Embodiment AI ist ein Bereich der künstlichen Intelligenz, der sich auf die Entwicklung intelligenter Agenten konzentriert, die einen physischen Körper haben und auf sinnvolle Weise mit der Welt interagieren können.
Das Konzept basiert auf der Idee, dass der physische Körper eine wichtige Rolle dabei spielt, wie ein Agent lernt und Entscheidungen trifft.
Mit anderen Worten: Wenn KI einen Körper hätte und sich bewegen würde, könnte sie daraus lernen und reagieren und Antworten bilden sowie entsprechend interagieren. Und wenn Sie glauben, dass wir Science-Fiction-Territorium betreten, bleiben Sie standhaft. KI sollte immer physisch werden.
Der Studie zufolge handelt es sich bei Kosmos-2 um ein Sprachmodell, das neue Möglichkeiten zur Wahrnehmung von Objektbeschreibungen (z. B. Begrenzungsrahmen) und zur Verankerung von Text in der visuellen Welt ermöglicht. Die Forscher stellten Referenzausdrücke als Links in Markdown dar, d. h. als „Textspanne“, wobei Objektbeschreibungen Sequenzen von Standort-Tokens sind.
Zusammen mit multimodalen Korpora konstruierten sie umfangreiche Daten aus geerdeten Bild-Text-Paaren (GrIT genannt), um das Modell zu trainieren. Neben der Integration der vorhandenen Fähigkeiten von MLLMs in Kosmos-2 integriert das Modell auch die Erdungsfähigkeit in Anwendungen.
Dies bedeutet, dass die Sprache Fortschritte bei der Wahrnehmung des Raums und der Entwicklung ihrer eigenen Wahrnehmung, Handlung und Weltmodellierung gemacht hat. Die Forscher glauben, dass Kosmos-2 auf diese Weise die Grundlage für eine physische KI darstellt. Sie können die Forschung lesen Hier.
Was denken Sie über Microsoft Kosmos 2? Wäre es gut, wenn KI eine physische Form hätte oder nicht? Lassen Sie es uns im Kommentarbereich unten wissen.