phi-1 は、Microsoft のコーディング用の新しい言語モデルです。
- Microsoft は AI 研究に多額の資金を提供しています。
- Orca がオープンソースになると発表した後、phi-1 も登場しました。
- phi-1 はそれ自体で知識を統合することができます。
Microsoft は AI 開発に本当に大きな一歩を踏み出しています。 先月、AI は Microsoft Build カンファレンスの最前線にあり、レドモンドに本拠を置く技術会社は次のように発表しました。 Copilot が Windows 11 に登場. ネイティブの組み込みアプリとして、必要なものすべてが揃っています。
Microsoft Teams にも AI が登場します。 Recap Ai ツール内. また、Microsoft Fabric を含め、Microsoft の他の多くのツールでも AI が使用されることになります。
しかし、マイクロソフトもAI研究に資金を提供しているようだ。 つい最近、テクノロジー大手が発表した Orca 13B はオープンソースになります. と LongMem は AI 研究におけるもう 1 つの優れた点です: これは、コンテキストの長さを無制限にするための答えです。
そして今、AI 研究における新たな大きな進歩が、もちろん Microsoft によってもたらされる時が来ています。 phi-1 と呼ばれる新しい 1.3B パラメータ モデル コーディング LLM は、わずか 4 日間のトレーニングで GPT 3.5 を上回るパフォーマンスを示したと報告されています。
phi-1 とは何ですか? また、どのようにして GPT を上回る性能を備えているのでしょうか?
ファイ-1 コード用の新しい 1.3B パラメータ言語モデルです、競合モデルよりも大幅に小さいサイズです。 言語モデルは 4 日間、70 億以上のトークン (合計で 500 億をわずかに超えるトークン) でトレーニングされ、その後 2 億未満のトークンで微調整されました。
phi-1 は競合モデルよりも大幅に小型であるにもかかわらず、50.6% を達成しました。 [メールで保護されています] HumanEval での精度と 55.5% [メールで保護されています] MBPP (主に基本的な Python プログラム) での精度。これは、LLM 世代を 1 つだけ使用した場合に最高の自己報告数値の 1 つです。
さらに、既存のモデルと比較してはるかに少ないトークンでトレーニングされているにもかかわらず、phi-1 には依然として多くの可能性があります。
HumanEval の改善は、言語モデルとしての phi-1 の最大の成果です。 調整後、phi-1 は微調整データセットに含まれていないタスクを実行することができました。 これは、モデルが微調整プロセスを適応させて改善したことを意味します。
そして最も注目すべき点は、そもそも知識が明示的に存在していなかったにもかかわらず、phi-1 は事前トレーニング中に取得した知識を再編成し、統合したことです。
短い言葉で言えば、phi-1 はトレーニング中に学習するだけでなく、それ自体で知識を拡張します。 あらゆるレベルで GPT 3.5 を上回るパフォーマンスを達成しており、小型モデルが GPT 4 のような大型モデルに対抗するのも時間の問題です。
この新しい AI モデルについてどう思いますか? AI 研究はどこに向かっていると思いますか? 以下のコメント欄にぜひご意見をお聞かせください。