InstructDiffusion は意味論的な意味を理解することができ、それを使用して画像を編集します。
- InstructDiffusion は、過去の命令を使用して意味論的な意味を理解する能力を獲得できる AI です。
- このモデルは、優れた一般化機能も備えています。
- 視覚的な手がかりについて学習すると、モデルはそれを大幅に拡張して、さらに学習します。
マイクロソフトの最新AIモデル、 拡散を指示する、指示に従って、画像、またはアップロードできる画像を根本的に変換します。 Microsoft Research Asia によって開発されたこのモデルは、AI と人間の指示を組み合わせて、さまざまな視覚的なタスクを生成して完了するインターフェイスです。
言い換えれば、編集、変更、または変換したい画像を選択すると、InstructDiffusion がコンピュータ ビジョンを起動して、入力に基づいて画像を変更します。
マイクロソフトがリリース 紙 数日前にこのモデルを作成しましたが、InstructDiffusion にはすでに デモプレイグラウンド、モデルを自分で試すことができます。
IntructDiffusion の主な革新は、モデルが画像に関する事前知識を必要とせず、代わりに拡散プロセスを使用してピクセルを操作することです。 このモデルは、セグメンテーション、キーポイント検出、復元などの多くの便利な機能を備えています。 実際には、InstructDiffusion は指示を使用して画像を変更します。
一例として、Microsoft Research Asia は、モデルに指示するだけで写真の透かしを削除することができました。
Microsoft の InstructDiffusion は、指示の背後にある意味を区別できます。
InstructDifffusion など、他の多くの Microsoft AI モデル、タスクを解決する際に革新的な行動が可能です。 Microsoft Research Asia は、InstructDiffusion が理解タスクと生成タスクを実装していると主張しています。
モデルは、セグメンテーションやキーポイント検出などの理解タスクを使用して、編集する領域とピクセルを特定します。
たとえば、モデルはセグメンテーションを使用して、「画像の右側の男性を赤く塗る」という指示の領域を適切に特定します。 キーポイント検出の場合、指示は次のようになります。画像の左端にある男性の膝を黄色で囲みます。
生成タスクは、編集タスクと復元タスクで構成されます。 InstructDiffusion は画像を編集するだけでなく、モデルは指示に基づいて画像の新しい要素も生成します。
Microsoft InstructDiffusion の最も有望な機能は、受け取ったすべての命令をうまく一般化して、その背後にある意味を一貫して深く理解する能力です。 言い換えれば、モデルはユーザーが与えた指示を記憶しており、それを使用して自身をさらにトレーニングします。
しかし、モデルはまた、指示の背後にある意味を区別することも学習し、目に見えないタスクを解決したり、要素を生成する新しい方法を考案したりするようになります。 意味論的な意味を理解するこの機能により、InstructDifussion は他の同様のモデルよりも一歩進んでおり、それらを上回っています。
ただし、InstructDiffusion はさらに一歩進んだものです AGI到達まで: すべての命令の背後にある意味論的な意味を深く理解し、コンピューター ビジョンをうまく一般化できるこのモデルは、AI 開発を大きく前進させるでしょう。
Microsoft Research Asia では、それを試すことができます。 デモプレイグラウンド、しかし、それもできます そのコードを使用する 独自の AI モデルをトレーニングします。
このモデルについてどう思いますか? 試してみますか?