Kosmos-2 bi lahko bil revolucionaren za Embodiment AI.
- Nova raziskava, ki jo financira Microsoft, se ukvarja s fizičnostjo umetne inteligence.
- Jezikovni model Kosmos-2 smo usposobili za zaznavanje prostorskih konceptov.
- Prihaja tudi z lastnim znanjem o vesolju.

Microsoft je v zadnjem času namenil veliko sredstev za financiranje raziskav AI. Orca 13B je odprtokoden za javnost, potem ko ga je zgradila skupina raziskovalcev, ki jo je zbral in financiral Microsoft.
LongMem je Microsoftovo upanje za neomejeno dolžino konteksta v modelih AI. Je tudi rezultat raziskave, ki jo je financiral tehnološki velikan s sedežem v Redmondu.
Phi-1, nov jezikovni model za kodiranje, se je sposoben sam učiti in razvijati znanje. Microsoft je financiral raziskavo za to.
In zdi se, da je Embodiment AI naslednja naloga v razvoju AI. Toda Microsoft bi morda dobil odgovor z drugo raziskavo o AI. Tokrat gre za Kozmos-2, nov model AI, ki postavlja temelje za Embodiment AI.
Microsoftov Kosmos-2 je prototip umetne inteligence Embodiment
Morda prvič slišite za Embodiment AI. No, ime je že samo po sebi precej sugestivno. Kaj je torej Embodiment AI, se boste morda vprašali?
Embodiment AI je področje umetne inteligence, ki se osredotoča na razvoj inteligentnih agentov, ki imajo fizično telo in lahko komunicirajo s svetom na smiseln način.
Koncept temelji na ideji, da ima fizično telo pomembno vlogo pri tem, kako se agent uči in sprejema odločitve.
Z drugimi besedami, če bi umetna inteligenca imela telo in bi se premikala, bi se lahko iz tega učila in se odzivala ter oblikovala odgovore ter ustrezno sodelovala. In če mislite, da vstopamo na področje znanstvene fantastike, vztrajajte. AI naj bi vedno postal fizičen.
Po raziskavi je Kosmos-2 jezikovni model, ki omogoča nove zmožnosti zaznavanja opisov predmetov (npr. omejevalnih polj) in prizemljitve besedila v vizualni svet. Predstavljeni raziskovalci se nanašajo na izraze kot povezave v Markdownu, tj. »besedilni razpon«, kjer so opisi objektov zaporedja žetonov lokacije.
Skupaj z multimodalnimi korpusi so zgradili obsežne podatke utemeljenih parov slika-besedilo (imenovanih GrIT) za usposabljanje modela. Poleg integracije obstoječih zmožnosti MLLM v Kosmos-2, model integrira tudi zmožnost ozemljitve v aplikacije.
To pomeni, da je jezik naredil korak naprej v zaznavanju prostora in prišel do lastne percepcije, delovanja in modeliranja sveta. Raziskovalci tako menijo, da je Kosmos-2 temelj za fizično umetno inteligenco. Lahko preberete raziskavo tukaj.
Kaj menite o Microsoft Kosmos 2? Ali bi bilo dobro, če bi AI imel fizično obliko ali ne? Sporočite nam v spodnjem oddelku za komentarje.