El Allen Institute for AI (AI2), una organización sin fines de lucro fundada en 2014 por el fallecido cofundador de Microsoft, Paul Allen, ha presentado OLMo, un modelo de lenguaje grande de código abierto (LLM) que se describe como “verdaderamente de código abierto” y una alternativa “de última generación” a los modelos restrictivos y cerrados. Esta iniciativa marca un cambio significativo en el desarrollo de IA.
A diferencia de otros modelos que solo comparten código y pesos, OLMo ofrece recursos integrales, incluidos código de entrenamiento, datos de entrenamiento y herramientas asociadas, junto con herramientas de evaluación. Lanzado bajo una licencia aprobada por la Open Source Initiative, todos los componentes de OLMo, incluidos código, pesos y puntos de control intermedios, están disponibles bajo la Licencia Apache 2.0.
El anuncio llega en un momento crucial, ya que la IA de código abierto avanza rápidamente para alcanzar modelos propietarios como GPT-4 de OpenAI y Claude de Anthropic. Por ejemplo, el CEO de la startup parisina Mistral confirmó recientemente la aparición de un nuevo modelo de IA de código abierto que se acerca al rendimiento de GPT-4. Además, Meta lanzó recientemente una versión mejorada de su modelo de generación de código, Code Llama 70B, mientras se espera con anticipación la próxima iteración del Llama LLM.
Sin embargo, el sector de la IA de código abierto enfrenta críticas de algunos investigadores, reguladores y responsables políticos. Un controvertido artículo de opinión en IEEE Spectrum afirmaba que “la IA de código abierto es inherentemente peligrosa”.
El marco de OLMo promueve un enfoque “completamente abierto”, proporcionando acceso total a datos de preentrenamiento, código de entrenamiento, pesos del modelo y procesos de evaluación. Esto incluye código de inferencia, métricas de entrenamiento, registros de entrenamiento y un conjunto de evaluación de desarrollo que presenta más de 500 puntos de control para cada modelo, supervisados durante todo el proceso de entrenamiento bajo el proyecto Catwalk.
Los investigadores de AI2 planean mejorar continuamente OLMo introduciendo diferentes tamaños de modelos, modalidades, conjuntos de datos y capacidades. “Muchos modelos de lenguaje hoy en día carecen de transparencia”, afirmó Hanna Hajishirzi, líder del proyecto y directora sénior de Investigación en NLP en AI2. “Los investigadores no pueden comprender completamente el funcionamiento de un modelo sin acceso a los datos de entrenamiento. Nuestro marco empodera a los investigadores para estudiar científicamente los LLM, lo cual es esencial para desarrollar IA segura y confiable”.
Nathan Lambert, científico de ML en AI2, enfatizó que OLMo representa un nuevo paradigma en los LLM. “OLMo permite enfoques novedosos en la investigación y despliegue de ML, facilitando el desarrollo científico en cada etapa del proceso”, comentó.
La comunidad de IA de código abierto ha respondido entusiastamente al lanzamiento de OLMo. Jonathan Frankle, científico jefe en MosaicML y Databricks, lo calificó como “un gran salto para la ciencia abierta”. El CTO de Hugging Face también comentó en redes sociales que el modelo “está expandiendo los límites de la IA de código abierto”.
El científico jefe de Meta, Yann LeCun, destacó en el comunicado de prensa de AI2 que “los modelos fundacionales abiertos impulsan la innovación en la IA generativa, y una comunidad de código abierto vibrante es clave para moldear el futuro de la IA”.