El CEO de Mistral Confirma la 'Filtración' de un Nuevo Modelo de IA de Código Abierto que se Acerca al Rendimiento de GPT-4

Los últimos días han sido un torbellino para la comunidad de IA de código abierto, incluso considerando sus estándares generalmente acelerados.

Cronología de Eventos:

El 28 de enero, un usuario llamado “Miqu Dev” subió una colección de archivos a HuggingFace, una plataforma líder para modelos de IA de código abierto. Este upload presentó el modelo de lenguaje grande (LLM) “miqu-1-70b,” que parece ser un modelo nuevo.

La entrada en HuggingFace, aún disponible al momento de escribir, destacaba que este LLM utilizaba el mismo formato de prompt que Mistral, una prominente empresa de IA parisina conocida por su modelo Mixtral 8x7b. Muchos consideran a Mixtral como el LLM de código abierto con mejor rendimiento actualmente, una versión afinada del Llama 2 de Meta.

Un Descubrimiento Viral:

Ese mismo día, un usuario anónimo en 4chan (posiblemente “Miqu Dev”) compartió un enlace a los archivos de miqu-1-70b. A medida que la información se esparció, usuarios en X (anteriormente Twitter) comenzaron a discutir sobre el impresionante rendimiento del modelo en tareas comunes de LLM, según pruebas de referencia, rivalizando con GPT-4 de OpenAI en el EQ-Bench.

Reacciones de la Comunidad:

Investigadores en aprendizaje automático se manifestaron en LinkedIn con interés. Maxime Labonne, un científico de ML en JP Morgan & Chase, cuestionó si "Miqu" significaba "MIstral QUantized". Notó: “Gracias a @152334H, ahora tenemos una versión no cuantizada de miqu disponible,” sugiriendo un potencial de rendimiento superior al de GPT-4 en futuras iteraciones afinadas. La cuantización es una técnica que permite a los modelos de IA funcionar en hardware menos potente al simplificar secuencias numéricas complejas en su arquitectura.

Especulación y Confirmación:

Surge la especulación de que "Miqu" podría ser un modelo de Mistral filtrado recientemente, dado el enfoque discreto de la empresa al lanzar actualizaciones. Arthur Mensch, cofundador y CEO de Mistral, confirmó esta teoría, anunciando en X que un empleado entusiasta de un cliente de acceso anticipado había filtrado una versión cuantizada de un modelo antiguo que habían entrenado abiertamente. Mensch explicó: “Reentrenamos este modelo a partir de Llama 2 el día en que accedimos a nuestro clúster.” En lugar de exigir la eliminación de la publicación en HuggingFace, Mensch dejó un comentario sugiriendo que el autor podría considerar la debida atribución.

Implicaciones para el Panorama de la IA:

La nota de Mensch para "¡mantente atento!" sugiere que Mistral está desarrollando una versión del modelo "Miqu" que podría rivalizar con GPT-4. Esto podría marcar un momento crucial no solo para la IA generativa de código abierto, sino para todo el panorama de la IA. Desde su lanzamiento en marzo de 2023, GPT-4 ha sido reconocido como el LLM más avanzado disponible, superando incluso los modelos Gemini de Google que se anticipaban durante mucho tiempo.

La aparición de un modelo de código abierto similar a GPT-4 podría ejercer una presión competitiva sustancial sobre OpenAI, especialmente a medida que las empresas buscan cada vez más modelos que combinen elementos de código abierto y propietario. Aunque OpenAI podría mantener una ventaja con su más rápido GPT-4 Turbo y GPT-4V (visión), la comunidad de IA de código abierto está cerrando rápidamente la brecha. La pregunta que queda es: ¿será suficiente la ventaja inicial y las ofertas únicas de OpenAI para mantenerlo a la vanguardia de los LLM?

Most people like

Find AI tools in YBX