A Kosmos-2 forradalmi lehet az Embodiment AI számára.
- A Microsoft által finanszírozott új kutatás a mesterséges intelligenciával foglalkozik.
- A nyelvi modellt, a Kosmos-2-t a térbeli fogalmak érzékelésére képezték ki.
- Saját térismerettel is jár.
A Microsoft az utóbbi időben nagy költségvetést fektetett az AI-kutatás finanszírozására. Orca 13B nyílt forráskódú a nyilvánosság számára, miután a Microsoft által összeállított és finanszírozott kutatócsoport megépítette.
LongMem a Microsoft reménye a korlátlan kontextushosszra az AI modellekben. És ez egyben a redmondi technológiai óriás által finanszírozott kutatás terméke is.
Phi-1, a kódolás új nyelvi modellje, képes önállóan tanulni és tudást fejleszteni. A kutatást a Microsoft finanszírozta.
És úgy tűnik, az Embodiment AI a következő küldetés az AI-fejlesztésben. De a Microsoft talán csak egy másik mesterséges intelligencia kutatással tudja meg a választ. Ezúttal kb Kozmosz-2, egy új mesterséges intelligencia modell, amely lefekteti az Embodiment AI alapjait.
A Microsoft Kosmos-2-je az Embodiment AI prototípusa
Talán most hall először az Embodiment AI-ről. Nos, a név önmagában is sokat sejtető. Tehát mi az az Embodiment AI, kérdezheti?
Az Embodiment AI a mesterséges intelligencia olyan területe, amely olyan intelligens ágensek kifejlesztésére összpontosít, amelyek fizikai testtel rendelkeznek, és értelmes módon kölcsönhatásba léphetnek a világgal.
A koncepció azon az elgondoláson alapul, hogy a fizikai test jelentős szerepet játszik abban, hogy az ügynök hogyan tanul és hogyan hoz döntéseket.
Más szóval, ha az AI-nak lenne teste és mozogna, akkor tanulhatna ebből, és válaszolhatna és válaszokat formálhatna, és ennek megfelelően kölcsönhatásba léphetne. És ha úgy gondolja, hogy a sci-fi területére lépünk, tartsa meg a helyét. Az AI-nak mindig is fizikaivá kellett volna válnia.
A kutatás szerint a Kozmosz-2 egy olyan nyelvi modell, amely új képességeket tesz lehetővé az objektumleírások (pl. határolódobozok) észlelésében és a szöveg vizuális világba való megalapozásában. A kutatók a hivatkozási kifejezéseket a Markdown-ban linkekként, azaz „szövegtartományként” jelölték meg, ahol az objektumleírások helyjelzők sorozatai.
A multimodális korpuszokkal együtt földelt kép-szöveg párok (GRI) nagyméretű adatait konstruálták a modell betanításához. Amellett, hogy az MLLM-ek meglévő képességeit integrálja a Kosmos-2-be, a modell a földelési képességet is integrálja az alkalmazásokba.
Ez azt jelenti, hogy a nyelv lépéseket tett a tér érzékelése felé, és előállt saját észlelésével, cselekvésével és világmodellezésével. A kutatók úgy gondolják, hogy a Kosmos-2 a fizikai mesterséges intelligencia alapja. A kutatást olvashatod itt.
Mi a véleményed a Microsoft Kosmos 2-ről? Jó lenne, ha az AI-nak van fizikai formája vagy sem? Tudassa velünk az alábbi megjegyzések részben.