Kosmos-2 は、身体化 AI にとって革命的なものとなる可能性があります。
- Microsoft が資金提供した新しい研究では、AI の物理性が詳しく調査されています。
- 言語モデルである Kosmos-2 は、空間概念を認識するようにトレーニングされました。
- また、宇宙に関する独自の知識も付属しています。

Microsoftは最近、AI研究への資金提供に多額の予算をつぎ込んでいる。 オルカ 13B Microsoft が集めて資金提供した研究者チームが構築した後、オープンソースとして公開されています。
ロングメム これは、AI モデルのコンテキストの長さを無制限にするという Microsoft の希望です。 そして、これはレドモンドに本拠を置くテクノロジー大手企業が資金提供した研究の成果でもある。
ファイ-1は、コーディングのための新しい言語モデルであり、それ自体で知識を学習し発展させることができます。 マイクロソフトはその研究に資金を提供しました。
そして、Embedded AI が AI 開発の次の課題であるようです。 しかし、Microsoft は AI に関する別の研究で答えを見つけるかもしれません。 今回はそれについてです コスモス2、Embedded AI の基礎を築く新しい AI モデル。
Microsoft の Kosmos-2 は、Enbody AI プロトタイプです
もしかしたら、Embedded AI について初めて聞いたかもしれません。 まあ、名前自体はかなり示唆的です。 では、具体化 AI とは何でしょうか?
身体化 AI は、肉体を持ち、有意義な方法で世界と対話できる知的エージェントの開発に焦点を当てた人工知能の分野です。
この概念は、エージェントがどのように学習し、意思決定を行うかにおいて、身体が重要な役割を果たすという考えに基づいています。
つまり、AI が体を持って動くとしたら、そこから学習して応答し、答えを導き出し、それに応じて対話することができるのです。 そして、私たちが SF の領域に入ってしまったと思われるのであれば、その立場を堅持してください。 AIは常に物理的なものになると考えられていました。
研究によると、Kosmos-2 は、オブジェクトの説明 (境界ボックスなど) を認識し、テキストを視覚的な世界に定着させる新しい機能を可能にする言語モデルです。 研究者らは、参照式をマークダウンのリンク、つまり「テキスト スパン」として表現し、オブジェクトの説明は位置トークンのシーケンスであると表現しました。
彼らは、マルチモーダル コーパスと連携して、モデルをトレーニングするために、根拠のある画像とテキストのペア (GrIT と呼ばれる) の大規模データを構築しました。 このモデルは、Kosmos-2 の MLLM の既存の機能を統合するだけでなく、接地機能もアプリケーションに統合します。
これは、言語が空間を認識し、独自の認識、動作、世界モデルを考案するという点で一歩前進したことを意味します。 研究者らは、Kosmos-2 が物理 AI の基盤であると考えています。 研究内容を読むことができます ここ.
Microsoft Kosmos 2 についてどう思われますか? AIは物理的な形を持っていれば良いのでしょうか? 以下のコメントセクションでお知らせください。