A medida que gigantes tecnológicos como Google, Samsung y Microsoft mejoran sus capacidades de inteligencia artificial generativa en PCs y dispositivos móviles, Apple se une a la competencia con OpenELM, una nueva suite de modelos de lenguaje de código abierto (LLMs) diseñados para funcionar completamente en dispositivos independientes sin necesidad de conexión a la nube.
Recientemente lanzado en la comunidad de código AI Hugging Face, OpenELM incluye modelos pequeños optimizados para tareas eficientes de generación de texto.
Visión general de OpenELM
La familia OpenELM consta de ocho modelos: cuatro preentrenados y cuatro ajustados por instrucciones, que varían en tamaño desde 270 millones hasta 3 mil millones de parámetros. Estos parámetros representan las conexiones entre las neuronas artificiales en un LLM, y un número más alto generalmente indica un mejor rendimiento.
El preentrenamiento permite al modelo generar texto coherente, pero se centra principalmente en predecir texto a partir de indicaciones. En contraste, el ajuste por instrucciones ayuda al modelo a ofrecer respuestas más relevantes y específicas. Por ejemplo, al preguntar "enséñame a hornear pan", un modelo preentrenado podría responder inadecuadamente "en un horno de casa", mientras que un modelo ajustado daría pasos completos.
Apple ha puesto a disposición los pesos de sus modelos OpenELM bajo una "licencia de código de muestra", que permite su uso comercial y modificación, siempre que cualquier redistribución no modificada mantenga el aviso y las advertencias correspondientes. Sin embargo, Apple advierte a los usuarios que estos modelos pueden producir resultados que son inexactos, dañinos, sesgados u objetables.
Este lanzamiento marca un cambio significativo para Apple, tradicionalmente conocida por su secretismo y ecosistemas tecnológicos cerrados. Anteriormente, la compañía introdujo Ferret, un modelo de lenguaje de código abierto con capacidades multimodales, subrayando su compromiso con la comunidad de IA de código abierto.
Características clave de OpenELM
OpenELM, que significa Modelos de Lenguaje Eficientes de Código Abierto, se dirige a aplicaciones en dispositivos, siguiendo estrategias similares a las de competidores como Google, Samsung y Microsoft. Por ejemplo, el reciente modelo Phi-3 Mini de Microsoft opera completamente en smartphones, mostrando la tendencia hacia soluciones de IA portátiles.
El desarrollo de OpenELM fue liderado por Sachin Mehta, con importantes contribuciones de Mohammad Rastegari y Peter Zatloukal. Los modelos vienen en cuatro tamaños: 270 millones, 450 millones, 1.1 mil millones y 3 mil millones de parámetros, todos más pequeños que muchos modelos líderes, que típicamente superan los 7 mil millones de parámetros. Fueron entrenados en un conjunto de datos masivo de 1.8 billones de tokens provenientes de plataformas como Reddit, Wikipedia y arXiv.org, asegurando una amplia comprensión del lenguaje.
Perspectivas de rendimiento
Los benchmarks de rendimiento de OpenELM indican resultados sólidos, particularmente del modelo de 450 millones de parámetros ajustado por instrucciones. Notablemente, el modelo OpenELM de 1.1 mil millones supera a OLMo, un lanzamiento reciente del Allen Institute for AI, demostrando efectividad mientras requiere significativamente menos tokens para el preentrenamiento.
En diversos benchmarks, el OpenELM-3B preentrenado ha mostrado las siguientes precisiones:
- ARC-C: 42.24%
- MMLU: 26.76%
- HellaSwag: 73.28%
Los comentarios iniciales de los usuarios sugieren que, si bien OpenELM produce resultados confiables y alineados, carece de creatividad y es menos propenso a explorar temas no convencionales o NSFW. En comparación, el Phi-3 Mini de Microsoft, con su mayor conteo de parámetros y longitud de contexto, domina en métricas de rendimiento.
Conclusión
A medida que se prueban y refinan los modelos OpenELM, prometen mejorar las aplicaciones de IA en dispositivos. Será interesante observar cómo la comunidad aprovecha esta iniciativa de código abierto, especialmente dado el entusiasmo por el compromiso de Apple con la transparencia y la colaboración en el espacio de la IA.