O Kosmos-2 pode ser revolucionário para a Embodiment AI.
- Nova pesquisa financiada pela Microsoft investiga a fisicalidade da IA.
- O modelo de linguagem, Kosmos-2, foi treinado para perceber conceitos espaciais.
- Ele também vem com seu próprio conhecimento do espaço.
A Microsoft tem colocado muito orçamento para financiar pesquisas de IA ultimamente. Orca 13B é de código aberto para o público depois que uma equipe de pesquisadores montada e financiada pela Microsoft o construiu.
LongMem é a esperança da Microsoft de comprimento de contexto ilimitado em modelos de IA. E também é um produto de pesquisa financiada pela gigante de tecnologia de Redmond.
Phi-1, um novo modelo de linguagem para codificação, é capaz de aprender e desenvolver conhecimento por conta própria. A Microsoft financiou a pesquisa para isso.
E parece que a Embodiment AI é a próxima missão no desenvolvimento de IA. Mas a Microsoft pode ter a resposta com outra pesquisa sobre IA. desta vez é sobre Kosmos-2, um novo modelo de IA que estabelece as bases para a Embodiment AI.
O Kosmos-2 da Microsoft é o protótipo da Embodiment AI
Talvez esta seja a primeira vez que você ouve sobre o Embodiment AI. Bem, o nome é bastante sugestivo por si só. Então, o que é Embodiment AI, você pode perguntar?
Embodiment AI é um campo da inteligência artificial que se concentra no desenvolvimento de agentes inteligentes que possuem um corpo físico e podem interagir com o mundo de maneira significativa.
O conceito é baseado na ideia de que o corpo físico desempenha um papel significativo na forma como um agente aprende e toma decisões.
Em outras palavras, se a IA tivesse um corpo e se movesse, poderia aprender com isso e responder e formar respostas, bem como interagir de acordo. E se você acha que entramos no território da ficção científica, mantenha-se firme. A IA sempre deveria se tornar física.
De acordo com a pesquisa, o Kosmos-2 é um modelo de linguagem que permite novos recursos de percepção de descrições de objetos (por exemplo, caixas delimitadoras) e texto de base para o mundo visual. Os pesquisadores representados referem-se a expressões como links em Markdown, ou seja, “extensão de texto”, onde as descrições de objetos são sequências de tokens de localização.
Juntamente com corpora multimodais, eles construíram dados em larga escala de pares imagem-texto fundamentados (chamados GrIT) para treinar o modelo. Além de integrar as capacidades existentes de MLLMs no Kosmos-2, o modelo também integra a capacidade de aterramento em aplicações.
Isso significa que a linguagem deu passos adiante para perceber o espaço e criar sua própria percepção, ação e modelagem de mundo. Os pesquisadores pensam que dessa forma o Kosmos-2 é a base para uma IA física. Você pode ler a pesquisa aqui.
O que você acha do Microsoft Kosmos 2? Seria bom se a IA tivesse uma forma física ou não? Deixe-nos saber na seção de comentários abaixo.