Microsoft Kosmos-2: Hvordan AI kunne interagere med verden

Kosmos-2 kunne være revolutionerende for Embodiment AI.

Ny forskning finansieret af Microsoft dykker ned i kunstig intelligens.
Sprogmodellen, Kosmos-2, blev trænet til at opfatte rumlige begreber.
Det kommer også med sin egen viden om rummet.

Microsoft har brugt meget budget på at finansiere AI-forskning på det seneste. Orca 13B er open source for offentligheden, efter at et team af forskere samlet og finansieret af Microsoft byggede det.

LongMem er Microsofts håb om ubegrænset kontekstlængde i AI-modeller. Og det er også et produkt af forskning finansieret af den Redmond-baserede teknologigigant.

Phi-1, en ny sprogmodel for kodning, er i stand til at lære og udvikle viden på egen hånd. Microsoft finansierede forskningen til det.

Og det ser ud til, at Embodiment AI er den næste søgen i AI-udvikling. Men Microsoft har måske bare svaret med en anden forskning om AI. Denne gang handler det om Kosmos-2, en ny AI-model, der lægger grundlaget for Embodiment AI.

Microsofts Kosmos-2 er Embodiment AI-prototypen

instagram story viewer

Måske er det første gang, du hører om Embodiment AI. Nå, navnet er ret suggestivt i sig selv. Så hvad er Embodiment AI, spørger du måske?

Embodiment AI er et felt af kunstig intelligens, der fokuserer på udviklingen af intelligente agenter, der har en fysisk krop og kan interagere med verden på en meningsfuld måde.

Konceptet er baseret på ideen om, at den fysiske krop spiller en væsentlig rolle i, hvordan en agent lærer og træffer beslutninger. Microsoft kosmos 2

Med andre ord, hvis AI ville have en krop og ville bevæge sig, så kunne den lære af dette og reagere og danne svar, samt interagere derefter. Og hvis du tror, vi går ind i science fiction-territorium, så hold fast. AI skulle altid blive fysisk.

Ifølge forskningen er Kosmos-2 en sprogmodel, der muliggør nye muligheder for at opfatte objektbeskrivelser (f.eks. afgrænsningsfelter) og jorde tekst til den visuelle verden. De repræsenterede forskere omtaler udtryk som links i Markdown, det vil sige "tekstspænd", hvor objektbeskrivelser er sekvenser af lokationstokens.

Sammen med multimodale corpora konstruerede de data i stor skala af jordede billed-tekst-par (kaldet GrIT) for at træne modellen. Ud over at integrere de eksisterende muligheder for MLLM'er i Kosmos-2, integrerer modellen også jordforbindelseskapaciteten i applikationer.

Det betyder, at sproget har taget skridt fremad til at opfatte rummet og komme med sin egen opfattelse, handling og verdensmodellering. Forskerne tror på denne måde, at Kosmos-2 er grundlaget for en fysisk AI. Du kan læse undersøgelsen her.

Hvad synes du om Microsoft Kosmos 2? Ville det være godt, hvis AI har en fysisk form eller ej? Fortæl os det i kommentarfeltet nedenfor.