Alors que des géants de la technologie comme Google, Samsung et Microsoft améliorent leurs capacités d'IA générative sur PC et appareils mobiles, Apple fait son entrée avec OpenELM, une nouvelle suite de modèles linguistiques à grande échelle open-source (LLM) conçus pour fonctionner intégralement sur des appareils autonomes sans nécessiter de connexion au cloud. Lancé récemment sur la communauté de code d'IA Hugging Face, OpenELM comprend de petits modèles optimisés pour des tâches de génération de texte efficaces.
Présentation d'OpenELM
La famille OpenELM se compose de huit modèles—quatre pré-entraînés et quatre adaptés aux instructions—variant en taille de 270 millions à 3 milliards de paramètres. Ces paramètres représentent les connexions entre les neurones artificiels dans un LLM, où un nombre plus élevé indique généralement une meilleure performance.
Le pré-entraînement permet au modèle de générer un texte cohérent, en se concentrant sur la prédiction de texte selon des requêtes. En revanche, l'adaptation aux instructions aide le modèle à fournir des réponses plus pertinentes et spécifiques. Par exemple, lorsqu'on demande "apprends-moi à faire du pain", un modèle pré-entraîné pourrait répondre de manière incomplète avec "dans un four domestique", alors qu'un modèle adapté aux instructions donnerait des étapes détaillées.
Apple a mis à disposition les poids de ses modèles OpenELM sous une « licence de code d'exemple », permettant l'utilisation commerciale et la modification, sous réserve que toute redistribution non modifiée conserve les avis et disclaimers accompagnants. Cependant, Apple met en garde les utilisateurs que ces modèles peuvent produire des résultats inexactes, nuisibles, biaisés ou inappropriés.
Ce lancement marque un tournant significatif pour Apple, traditionnellement connu pour son secret et ses écosystèmes technologiques fermés. Précédemment, la société avait introduit Ferret, un modèle linguistique open-source avec des capacités multimodales, soulignant son engagement envers la communauté de l'IA open-source.
Caractéristiques Clés d'OpenELM
OpenELM, qui signifie Modèles Linguistiques Efficaces Open-source, cible les applications sur appareils, suivant les stratégies de concurrents tels que Google, Samsung et Microsoft. Le récent modèle Phi-3 Mini de Microsoft, par exemple, fonctionne entièrement sur des smartphones, illustrant la tendance vers des solutions d'IA portables.
Le développement d'OpenELM a été dirigé par Sachin Mehta, avec des contributions significatives de Mohammad Rastegari et Peter Zatloukal. Les modèles se déclinent en quatre tailles : 270 millions, 450 millions, 1,1 milliard et 3 milliards de paramètres—tous plus petits que de nombreux modèles de pointe, qui dépassent généralement les 7 milliards de paramètres. Ils ont été entraînés sur un ensemble de données massives de 1,8 trillion de tokens provenant de plateformes comme Reddit, Wikipedia et arXiv.org, garantissant une compréhension linguistique diversifiée.
Insights sur la Performance
Les benchmarks de performance d'OpenELM indiquent des résultats solides, notamment pour la variante instruction de 450 millions de paramètres. Notamment, le modèle OpenELM de 1,1 milliard de paramètres surpasse OLMo, une sortie récente de l’Institut Allen pour l’IA, démontrant son efficacité tout en nécessitant significativement moins de tokens pour le pré-entraînement.
Sur divers benchmarks, l'OpenELM-3B pré-entraîné a montré les précisions suivantes :
- ARC-C : 42,24%
- MMLU : 26,76%
- HellaSwag : 73,28%
Les premiers retours d'utilisateurs suggèrent qu'OpenELM produit des résultats fiables et alignés, mais manque de créativité et est moins enclin à explorer des sujets non conventionnels ou NSFW. En comparaison, le Phi-3 Mini de Microsoft, avec son nombre de paramètres plus élevé et sa longueur de contexte, domine les métriques de performance.
Conclusion
Alors que les modèles OpenELM sont testés et affinés, ils promettent d'améliorer les applications d'IA sur appareils. Il sera fascinant d’observer comment la communauté exploitera cette initiative open-source, surtout compte tenu de l’excitation entourant l’engagement d’Apple en faveur de la transparence et de la collaboration dans l’espace de l’IA.