phi-1 — це нова мовна модель Microsoft для кодування.
- Microsoft фінансує багато досліджень ШІ.
- Після оголошення про те, що Orca буде відкритим кодом, phi-1 також тут.
- phi-1 здатний самостійно закріплювати знання.
Microsoft дійсно робить великий крок у розробці ШІ. Минулого місяця штучний інтелект був в авангарді конференції Microsoft Build, а технологія з Редмонда навіть оголосила, що Copilot з’явиться у Windows 11. Як рідна вбудована програма для всього, що вам потрібно,
AI також приходить до Microsoft Teams, у своєму інструменті Recap Ai. І багато інших інструментів від Microsoft використовуватимуть штучний інтелект, зокрема Microsoft Fabric.
Але, здається, Microsoft також фінансує дослідження ШІ. Нещодавно технологічний гігант оголосив Orca 13B буде відкритим кодом. І LongMem є ще одним хорошим моментом у дослідженнях ШІ: це відповідь на необмежену довжину контексту.
І тепер настав час для ще одного великого прориву в дослідженнях штучного інтелекту, звичайно ж, від Microsoft. Як повідомляється, нова 1.3B-параметрична модель кодування LLM, яка називається phi-1, перевершує GPT 3.5 лише за 4 дні навчання.
Що таке phi-1 і чим він уже перевершує GPT?
Фі-1 це нова 1.3B-параметрична модель мови для коду, значно меншого розміру, ніж конкуруючі моделі. Мовну модель тренували протягом 4 днів, понад 7 млрд токенів (загалом було помічено трохи більше 50 млрд токенів) з подальшим налаштуванням менше ніж 200 млн токенів.
Незважаючи на те, що він набагато менший, ніж конкуруючі моделі, phi-1 досяг 50,6% [електронна пошта захищена] точність на HumanEval і 55,5% [електронна пошта захищена] точність на MBPP (здебільшого базові програми Python), які є одними з найкращих самооцінених показників за допомогою лише одного покоління LLM.
Крім того, незважаючи на те, що phi-1 навчається на набагато меншій кількості токенів порівняно з існуючими моделями, phi-1 все ще має великий потенціал.
Покращення HumanEval є найбільшим досягненням phi-1 як мовної моделі. Після налаштування phi-1 вдалося виконати завдання, які не були представлені в наборі даних точного налаштування. Це означає, що модель адаптувала та вдосконалила процес тонкого налаштування.
І найпримітніше те, що phi-1 реорганізував і консолідував знання, отримані під час попереднього навчання, хоча вони спочатку там явно не були присутні.
Коротше кажучи, phi-1 не тільки навчається під час навчання, але й розширює знання самостійно. Їй вдалося перевершити GPT 3.5 на всіх рівнях, і це лише питання часу, коли маленька модель візьме участь у великих, як GPT 4.
Що ви думаєте про цю нову модель ШІ? Як ви думаєте, куди рухаються дослідження ШІ? Не забудьте повідомити нам свою думку в розділі коментарів нижче.