phi-1 is het nieuwe taalmodel van Microsoft voor coderen.
- Microsoft financiert veel AI-onderzoek.
- Na de aankondiging dat Orca open source zal zijn, is phi-1 er ook.
- phi-1 is in staat om zelf kennis te consolideren.
Microsoft zet echt een grote stap in de ontwikkeling van AI. Vorige maand stond AI in de voorhoede van de Microsoft Build-conferentie, en de op Redmond gebaseerde technologie heeft dat zelfs aangekondigd Copilot komt naar Windows 11. Als native ingebouwde app, voor alles wat je nodig hebt,
AI komt ook naar Microsoft Teams, in zijn Recap Ai-tool. En veel andere tools van Microsoft zullen AI gebruiken, waaronder Microsoft Fabric.
Maar het lijkt erop dat Microsoft ook AI-onderzoek financiert. Zo maakte de techgigant onlangs bekend Orca 13B zal open source zijn. En LongMem is een ander goed punt in AI-onderzoek: het is het antwoord voor onbeperkte contextlengte.
En nu is er tijd voor een nieuwe grote doorbraak in AI-onderzoek, uiteraard afkomstig van Microsoft. Het nieuwe 1.3B-parameter model codering LLM, genaamd phi-1, presteert naar verluidt beter dan GPT 3.5, in slechts 4 dagen training.
Wat is phi-1 en hoe presteert het al beter dan GPT?
Phi-1 is een nieuw 1.3B-parametertaalmodel voor code, met een aanzienlijk kleiner formaat dan concurrerende modellen. Het taalmodel werd gedurende 4 dagen getraind, meer dan 7 miljard tokens (iets meer dan 50 miljard totale tokens gezien), gevolgd door finetuning op minder dan 200 miljoen tokens.
Ondanks dat hij een stuk kleiner is dan de concurrerende modellen, behaalde phi-1 50,6% [e-mail beveiligd] nauwkeurigheid op HumanEval en 55,5% [e-mail beveiligd] nauwkeurigheid op MBPP (Mostly Basic Python Programs), die een van de beste zelfgerapporteerde cijfers zijn met slechts één LLM-generatie.
Bovendien heeft phi-1, ondanks dat het op veel minder tokens is getraind in vergelijking met bestaande modellen, nog steeds veel potentieel.
De verbeteringen op HumanEval zijn de phi-1 grootste prestaties, als taalmodel. Na het afstemmen slaagde phi-1 erin om taken uit te voeren die niet in de gegevensset voor fijnafstemming waren opgenomen. Dit betekent dat het model het afstemmingsproces heeft aangepast en verbeterd.
En het meest opmerkelijke is dat phi-1 de opgedane kennis tijdens de vooropleiding reorganiseerde en consolideerde, ook al was de kennis daar in de eerste plaats niet expliciet aanwezig.
Kortom, phi-1 leert niet alleen tijdens de training, maar breidt de kennis ook zelf uit. Het is erin geslaagd om GPT 3.5 op elk niveau te overtreffen, en het is slechts een kwestie van tijd voordat het kleine model het opneemt tegen de grote, zoals GPT 4.
Wat vind je van dit nieuwe AI-model? Waar denk je dat AI-onderzoek naartoe gaat? Laat ons uw mening weten in de opmerkingen hieronder.