phi-1 é o novo modelo de linguagem da Microsoft para codificação.
- A Microsoft está financiando muitas pesquisas de IA.
- Depois de anunciar que o Orca será de código aberto, o phi-1 também está aqui.
- phi-1 é capaz de consolidar o conhecimento por conta própria.
A Microsoft está realmente dando um grande passo no desenvolvimento da IA. No mês passado, a IA estava na vanguarda da conferência Microsoft Build, e a tecnologia baseada em Redmond até anunciou que Copilot está chegando ao Windows 11. Como um aplicativo integrado nativo, para tudo que você precisa,
A IA também está chegando ao Microsoft Teams, em sua ferramenta Recap Ai. E muitas outras ferramentas da Microsoft usarão IA, incluindo o Microsoft Fabric.
Mas parece que a Microsoft também está financiando pesquisas de IA. Recentemente, a gigante da tecnologia anunciou Orca 13B será de código aberto. E LongMem é outro ponto positivo na pesquisa de IA: é a resposta para comprimento de contexto ilimitado.
E agora há tempo para outro grande avanço na pesquisa de IA, vindo da Microsoft, é claro. O novo LLM de codificação de modelo de parâmetro 1.3B, chamado phi-1, está supostamente superando GPT 3.5, em apenas 4 dias de treinamento.
O que é phi-1 e como ele já supera o GPT?
Phi-1 é um novo modelo de linguagem de parâmetro 1.3B para código, com um tamanho significativamente menor do que os modelos concorrentes. O modelo de linguagem foi treinado por 4 dias, mais de 7 bilhões de tokens (um pouco mais de 50 bilhões de tokens totais vistos) seguido de ajuste fino em menos de 200 milhões de tokens.
Apesar de bem menor que os modelos concorrentes, o phi-1 atingiu 50,6% [e-mail protegido] precisão em HumanEval e 55,5% [e-mail protegido] precisão em MBPP (Mostly Basic Python Programs), que são um dos melhores números auto-relatados usando apenas uma geração de LLM.
Além disso, apesar de ser treinado com muito menos tokens em comparação com os modelos existentes, o phi-1 ainda tem muito potencial.
As melhorias no HumanEval são as maiores conquistas do phi-1, como modelo de linguagem. Após o ajuste, o phi-1 conseguiu executar tarefas que não foram apresentadas no conjunto de dados de ajuste fino. Isso significa que o modelo adaptou e melhorou o processo de ajuste fino.
E o mais notável é que o phi-1 reorganizou e consolidou o conhecimento adquirido durante o pré-treinamento, mesmo que o conhecimento não estivesse explicitamente presente lá em primeiro lugar.
Em palavras mais curtas, o phi-1 não apenas aprende durante o treinamento, mas também expande o conhecimento por conta própria. Ele conseguiu superar o GPT 3.5 em todos os níveis, e é apenas uma questão de tempo até que o modelo pequeno enfrente os grandes, como o GPT 4.
O que você acha desse novo modelo de IA? Para onde você acha que a pesquisa de IA está indo? Certifique-se de nos informar suas opiniões na seção de comentários abaixo.