Kosmos-2 może być rewolucyjny dla Embodiment AI.
- Nowe badania finansowane przez Microsoft zagłębiają się w fizyczność sztucznej inteligencji.
- Model języka, Kosmos-2, został przeszkolony w zakresie postrzegania pojęć przestrzennych.
- Ma również własną wiedzę o przestrzeni.
Microsoft przeznacza ostatnio dużo środków na finansowanie badań nad sztuczną inteligencją. Orka 13B jest ogólnodostępnym oprogramowaniem typu open source po tym, jak zespół badaczy zebrał i sfinansował go Microsoft.
Długa pamięć to nadzieja Microsoftu na nieograniczoną długość kontekstu w modelach AI. Jest to również produkt badań finansowanych przez giganta technologicznego z Redmond.
Phi-1, nowy model językowy do kodowania, jest w stanie samodzielnie uczyć się i rozwijać wiedzę. Microsoft sfinansował badania.
I wydaje się, że Embodiment AI to kolejne zadanie w rozwoju AI. Ale Microsoft może po prostu znaleźć odpowiedź dzięki innym badaniom nad sztuczną inteligencją. Tym razem chodzi o Kosmos-2, nowy model AI, który kładzie podwaliny pod Embodiment AI.
Microsoft Kosmos-2 to prototyp Embodiment AI
Być może po raz pierwszy słyszysz o Embodiment AI. Cóż, nazwa sama w sobie jest dość sugestywna. Więc czym jest Embodiment AI, możesz zapytać?
Embodiment AI to dziedzina sztucznej inteligencji, która koncentruje się na rozwoju inteligentnych agentów, którzy mają fizyczne ciało i mogą wchodzić w znaczące interakcje ze światem.
Koncepcja opiera się na założeniu, że ciało fizyczne odgrywa znaczącą rolę w tym, jak agent uczy się i podejmuje decyzje.
Innymi słowy, gdyby sztuczna inteligencja miała ciało i poruszała się, mogłaby się z tego uczyć, odpowiadać i formułować odpowiedzi, a także odpowiednio wchodzić w interakcje. A jeśli myślisz, że wkraczamy na teren science fiction, trzymaj się. Sztuczna inteligencja zawsze miała stać się fizyczna.
Według badań Kosmos-2 jest modelem językowym, który umożliwia nowe możliwości postrzegania opisów obiektów (np. ramek ograniczających) i łączenia tekstu ze światem wizualnym. Reprezentowani badacze odnoszą wyrażenia jako linki w Markdown, tj. „Rozpiętość tekstu”, gdzie opisy obiektów są sekwencjami tokenów lokalizacji.
Wraz z multimodalnymi korpusami skonstruowali wielkoskalowe dane z ugruntowanych par obraz-tekst (tzw. GrIT), aby wytrenować model. Oprócz integracji istniejących możliwości MLLM w Kosmos-2, model integruje również możliwość uziemienia z aplikacjami.
Oznacza to, że język poczynił kroki naprzód w postrzeganiu przestrzeni i wymyślaniu własnej percepcji, działania i modelowania świata. Naukowcy uważają, że w ten sposób Kosmos-2 jest podstawą fizycznej sztucznej inteligencji. Możesz przeczytać badania Tutaj.
Co sądzisz o Microsoft Kosmos 2? Czy byłoby dobrze, gdyby sztuczna inteligencja miała formę fizyczną, czy nie? Daj nam znać w sekcji komentarzy poniżej.