Kosmos-2 kan vara revolutionerande för Embodiment AI.
- Ny forskning finansierad av Microsoft fördjupar sig i AI-fyslighet.
- Språkmodellen, Kosmos-2, tränades för att uppfatta rumsliga begrepp.
- Det kommer också med sin egen kunskap om rymden.
Microsoft har lagt mycket budget på att finansiera AI-forskning på sistone. Orca 13B är öppen källkod för allmänheten efter att ett team av forskare samlat och finansierat av Microsoft byggt det.
LongMem är Microsofts förhoppning om obegränsad kontextlängd i AI-modeller. Och det är också en produkt av forskning finansierad av den Redmond-baserade teknikjätten.
Phi-1, en ny språkmodell för kodning, kan lära sig och utveckla kunskap på egen hand. Microsoft finansierade forskningen för det.
Och det verkar som om Embodiment AI är nästa uppdrag inom AI-utveckling. Men Microsoft kanske bara har svaret med en annan forskning om AI. Den här gången handlar det om Kosmos-2, en ny AI-modell som lägger grunden för Embodiment AI.
Microsofts Kosmos-2 är Embodiment AI-prototypen
Kanske är det första gången du hör talas om Embodiment AI. Tja, namnet är ganska suggestivt i sig. Så vad är Embodiment AI, kanske du frågar dig?
Embodiment AI är ett område av artificiell intelligens som fokuserar på utvecklingen av intelligenta agenter som har en fysisk kropp och kan interagera med världen på ett meningsfullt sätt.
Konceptet bygger på idén att den fysiska kroppen spelar en betydande roll i hur en agent lär sig och fattar beslut.
Med andra ord, om AI skulle ha en kropp och skulle röra sig, då skulle den kunna lära sig av detta och svara och bilda svar, samt interagera därefter. Och om du tror att vi går in i science fiction-territorium, håll ut. AI var alltid tänkt att bli fysisk.
Enligt forskningen är Kosmos-2 en språkmodell som möjliggör nya möjligheter att uppfatta objektbeskrivningar (t.ex. avgränsande rutor) och jorda text till den visuella världen. De representerade forskarna hänvisar till uttryck som länkar i Markdown, det vill säga "textspan", där objektbeskrivningar är sekvenser av platssymboler.
Tillsammans med multimodala korpus konstruerade de storskalig data av jordade bild-text-par (kallade GrIT) för att träna modellen. Förutom att integrera de befintliga funktionerna hos MLLMs i Kosmos-2, integrerar modellen också jordningsförmågan i applikationer.
Detta betyder att språket har tagit steg framåt för att uppfatta rymden och komma med sin egen uppfattning, handling och världsmodellering. Forskarna tror att Kosmos-2 är grunden för en fysisk AI. Du kan läsa forskningen här.
Vad tycker du om Microsoft Kosmos 2? Skulle det vara bra om AI har en fysisk form eller inte? Låt oss veta i kommentarsfältet nedan.