phi-1 არის Microsoft-ის ახალი ენობრივი მოდელი კოდირებისთვის.
- მაიკროსოფტი აფინანსებს AI კვლევებს.
- მას შემდეგ, რაც გამოცხადდა, რომ Orca იქნება ღია წყარო, phi-1 ასევე აქ არის.
- phi-1-ს შეუძლია ცოდნის კონსოლიდაცია დამოუკიდებლად.
მაიკროსოფტი მართლაც დიდ ნაბიჯს დგამს ხელოვნური ინტელექტის განვითარებაში. გასულ თვეში, AI იყო Microsoft Build კონფერენციის წინა პლანზე და რედმონდზე დაფუძნებულმა ტექნოლოგიამ კი გამოაცხადა, რომ Copilot მოდის Windows 11-ზე. როგორც მშობლიური ჩაშენებული აპლიკაცია, ყველაფრისთვის, რაც გჭირდებათ,
AI მოდის Microsoft-ის გუნდებშიც, თავის Recap Ai ინსტრუმენტში. და Microsoft-ის მრავალი სხვა ინსტრუმენტი გამოიყენებს AI-ს, მათ შორის Microsoft Fabric-ს.
მაგრამ როგორც ჩანს, Microsoft ასევე აფინანსებს AI კვლევებს. ცოტა ხნის წინ, ტექნიკურმა გიგანტმა გამოაცხადა Orca 13B იქნება ღია წყარო. და LongMem არის კიდევ ერთი კარგი წერტილი AI კვლევაში: ეს არის პასუხი შეუზღუდავი კონტექსტის სიგრძეზე.
და ახლა არის დრო კიდევ ერთი დიდი გარღვევისთვის AI კვლევაში, რა თქმა უნდა, Microsoft-ისგან. ახალი 1.3B-პარამეტრიანი მოდელის კოდირების LLM, სახელწოდებით phi-1, აჯობებს GPT 3.5-ს, მხოლოდ 4 დღის ვარჯიშში.
რა არის phi-1 და როგორ აჯობებს ის უკვე GPT-ს?
ფი-1 არის ახალი 1.3B პარამეტრიანი ენის მოდელი კოდისთვის, კონკურენტ მოდელებთან შედარებით მნიშვნელოვნად მცირე ზომით. ენის მოდელის ტრენინგი ჩატარდა 4 დღის განმავლობაში, 7B-ზე მეტი ჟეტონი (სულ 50B-ზე ოდნავ მეტი ნანახი) მოჰყვა დაზუსტება 200M-ზე ნაკლებ ჟეტონზე.
მიუხედავად იმისა, რომ კონკურენტ მოდელებზე გაცილებით მცირეა, ph-1-მა მიაღწია 50.6%-ს. [ელფოსტა დაცულია] სიზუსტე HumanEval-ზე და 55,5% [ელფოსტა დაცულია] სიზუსტე MBPP-ზე (ძირითადად ძირითადი პითონის პროგრამები), რომლებიც ერთ-ერთი საუკეთესო თვითრეპორტირებული რიცხვია მხოლოდ ერთი LLM თაობის გამოყენებით.
უფრო მეტიც, მიუხედავად იმისა, რომ უკვე არსებულ მოდელებთან შედარებით გაცილებით ნაკლებ ტოკენებზეა გაწვრთნილი, ph-1-ს მაინც ბევრი პოტენციალი აქვს.
HumanEval-ის გაუმჯობესებები არის phi-1 უდიდესი მიღწევა, როგორც ენის მოდელი. დარეგულირების შემდეგ, phi-1-მა მოახერხა ამოცანების შესრულება, რომლებიც არ იყო წარმოდგენილი დაზუსტების მონაცემთა ბაზაში. ეს ნიშნავს, რომ მოდელი ადაპტირებულია და გააუმჯობესა დახვეწის პროცესი.
და ყველაზე საყურადღებო ის არის, რომ ფი-1-მა მოახდინა წინასწარი ტრენინგის დროს მიღებული ცოდნის რეორგანიზაცია და კონსოლიდაცია, მიუხედავად იმისა, რომ ეს ცოდნა თავიდანვე აშკარად არ იყო წარმოდგენილი.
მოკლედ რომ ვთქვათ, phi-1 არა მხოლოდ სწავლობს ტრენინგის დროს, არამედ ავრცელებს ცოდნას დამოუკიდებლად. მან მოახერხა GPT 3.5-ს ყველა დონეზე აჯობა, და მხოლოდ დროის საკითხია, სანამ პატარა მოდელი არ მიიღებს დიდებს, როგორიცაა GPT 4.
რას ფიქრობთ ამ ახალ AI მოდელზე? როგორ ფიქრობთ, სად მიდის AI კვლევა? დარწმუნდით, რომ შეგვატყობინეთ თქვენი მოსაზრებები კომენტარების განყოფილებაში ქვემოთ.