Microsoft Kosmos-2: Hur AI kunde interagera med världen

Kosmos-2 kan vara revolutionerande för Embodiment AI.

  • Ny forskning finansierad av Microsoft fördjupar sig i AI-fyslighet.
  • Språkmodellen, Kosmos-2, tränades för att uppfatta rumsliga begrepp.
  • Det kommer också med sin egen kunskap om rymden.
Microsoft kosmos 2

Microsoft har lagt mycket budget på att finansiera AI-forskning på sistone. Orca 13B är öppen källkod för allmänheten efter att ett team av forskare samlat och finansierat av Microsoft byggt det.

LongMem är Microsofts förhoppning om obegränsad kontextlängd i AI-modeller. Och det är också en produkt av forskning finansierad av den Redmond-baserade teknikjätten.

Phi-1, en ny språkmodell för kodning, kan lära sig och utveckla kunskap på egen hand. Microsoft finansierade forskningen för det.

Och det verkar som om Embodiment AI är nästa uppdrag inom AI-utveckling. Men Microsoft kanske bara har svaret med en annan forskning om AI. Den här gången handlar det om Kosmos-2, en ny AI-modell som lägger grunden för Embodiment AI.

Microsofts Kosmos-2 är Embodiment AI-prototypen

Kanske är det första gången du hör talas om Embodiment AI. Tja, namnet är ganska suggestivt i sig. Så vad är Embodiment AI, kanske du frågar dig?

Embodiment AI är ett område av artificiell intelligens som fokuserar på utvecklingen av intelligenta agenter som har en fysisk kropp och kan interagera med världen på ett meningsfullt sätt.

Konceptet bygger på idén att den fysiska kroppen spelar en betydande roll i hur en agent lär sig och fattar beslut.Microsoft kosmos 2

Med andra ord, om AI skulle ha en kropp och skulle röra sig, då skulle den kunna lära sig av detta och svara och bilda svar, samt interagera därefter. Och om du tror att vi går in i science fiction-territorium, håll ut. AI var alltid tänkt att bli fysisk.

Enligt forskningen är Kosmos-2 en språkmodell som möjliggör nya möjligheter att uppfatta objektbeskrivningar (t.ex. avgränsande rutor) och jorda text till den visuella världen. De representerade forskarna hänvisar till uttryck som länkar i Markdown, det vill säga "textspan", där objektbeskrivningar är sekvenser av platssymboler.

Tillsammans med multimodala korpus konstruerade de storskalig data av jordade bild-text-par (kallade GrIT) för att träna modellen. Förutom att integrera de befintliga funktionerna hos MLLMs i Kosmos-2, integrerar modellen också jordningsförmågan i applikationer.

Detta betyder att språket har tagit steg framåt för att uppfatta rymden och komma med sin egen uppfattning, handling och världsmodellering. Forskarna tror att Kosmos-2 är grunden för en fysisk AI. Du kan läsa forskningen här.

Vad tycker du om Microsoft Kosmos 2? Skulle det vara bra om AI har en fysisk form eller inte? Låt oss veta i kommentarsfältet nedan.

Chrome får Fluent Overlay Scrollbars på Windows 11

Chrome får Fluent Overlay Scrollbars på Windows 11MicrosoftWindows 11

Flytande överlagringsrullningslister ändrar hur du rullar i ChromeMicrosoft har arbetat med att modernisera Chromiums överlagrings- och icke-överlagringsrullningslister så att de matchar Windows 11...

Läs mer
Samarbetsanteckningar kommer att ersätta kanalmötesanteckningar i Microsoft Teams

Samarbetsanteckningar kommer att ersätta kanalmötesanteckningar i Microsoft TeamsMicrosoftMicrosoft Team

Bytet kommer att ske i december.Microsoft Teams kommer nu att ha Collaborative Notes istället för Channel Meeting-anteckningarna, eftersom ersättningen kommer att ske i december 2023, enligt den se...

Läs mer
Microsoft Edge VSR kan nu uppskala 1080p-videor också

Microsoft Edge VSR kan nu uppskala 1080p-videor ocksåMicrosoft

Microsoft hoppar över maximal videoupplösning för förbättring från 720p till 1080p.Med Edges Video Super Resolution-funktion kan du njuta av HD-kvalitet på lågupplösta videor, tack vare AI-teknik. ...

Läs mer