phi-1 es el nuevo modelo de lenguaje de Microsoft para la codificación.
- Microsoft está financiando una gran cantidad de investigación en IA.
- Después de anunciar que Orca será de código abierto, phi-1 también está aquí.
- phi-1 es capaz de consolidar el conocimiento por sí mismo.
Microsoft realmente está dando un gran paso en el desarrollo de IA. El mes pasado, AI estuvo a la vanguardia de la conferencia Microsoft Build, y la tecnología con sede en Redmond incluso anunció que Copilot llegará a Windows 11. Como una aplicación integrada nativa, para todo lo que necesita,
La IA también llegará a los equipos de Microsoft, en su herramienta Recap Ai. Y muchas otras herramientas de Microsoft usarán IA, incluido Microsoft Fabric.
Pero parece que Microsoft también está financiando la investigación de IA. Recientemente, el gigante tecnológico anunció Orca 13B será de código abierto. Y LongMem es otro buen punto en la investigación de IA: es la respuesta para una longitud de contexto ilimitada.
Y ahora hay tiempo para otro gran avance en la investigación de la IA, proveniente de Microsoft, por supuesto. Según se informa, el nuevo modelo de 1.3B parámetros que codifica LLM, llamado phi-1, está superando a GPT 3.5, en solo 4 días de entrenamiento.
¿Qué es phi-1 y cómo ya supera a GPT?
Phi-1 es un nuevo modelo de lenguaje de parámetros 1.3B para código, con un tamaño significativamente más pequeño que los modelos de la competencia. El modelo de lenguaje se entrenó durante 4 días, más de 7 000 millones de tokens (un poco más de 50 000 millones de tokens en total vistos) seguido de un ajuste fino en menos de 200 millones de tokens.
A pesar de ser mucho más pequeño que los modelos de la competencia, phi-1 alcanzó el 50,6 % [correo electrónico protegido] precisión en HumanEval y 55.5% [correo electrónico protegido] precisión en MBPP (programas de Python en su mayoría básicos), que son uno de los mejores números autoinformados que utilizan solo una generación de LLM.
Además, a pesar de estar entrenado con muchos menos tokens en comparación con los modelos existentes, phi-1 todavía tiene mucho potencial.
Las mejoras en HumanEval son los mayores logros de phi-1, como modelo de lenguaje. Después del ajuste, phi-1 logró ejecutar tareas que no aparecían en el conjunto de datos de ajuste fino. Esto significa que el modelo se adaptó y mejoró el proceso de ajuste.
Y lo más notable es que phi-1 reorganizó y consolidó el conocimiento adquirido durante el preentrenamiento, aunque el conocimiento no estaba explícitamente presente allí en primer lugar.
En pocas palabras, phi-1 no solo aprende durante el entrenamiento, sino que también amplía el conocimiento por sí mismo. Logró superar a GPT 3.5 en todos los niveles, y es solo cuestión de tiempo hasta que el modelo pequeño se enfrente a los grandes, como GPT 4.
¿Qué opinas de este nuevo modelo de IA? ¿Hacia dónde crees que se dirige la investigación en IA? Asegúrese de hacernos saber sus opiniones en la sección de comentarios a continuación.