Après Microsoft Build et Google I/O, Apple devait répondre à d'importantes attentes en présentant ses capacités d'IA sur appareil lors de la Conférence mondiale des développeurs 2024. Apple a intégré avec succès l'IA générative dans l'expérience utilisateur sur tous ses appareils, démontrant des avancées impressionnantes dans ce domaine.
Une des caractéristiques marquantes des démonstrations d'Apple était le traitement intensif sur appareil. En tirant parti de ses processeurs avancés et d'une richesse de recherche ouverte, Apple a proposé des fonctionnalités d'IA de haute qualité et à faible latence sur ses téléphones et ordinateurs. Voici un aperçu des capacités d'IA sur appareil d'Apple :
Vue d'ensemble du modèle d'Apple
Lors de la présentation de l'État de la Nation d'Apple et d'un article de blog publié le 10 juin, il a été révélé qu'Apple utilise un modèle de 3 milliards de paramètres. Bien qu'Apple n'ait pas divulgué le modèle de base spécifique utilisé, il a récemment introduit plusieurs modèles ouverts, dont la famille de modèles de langage OpenELM, qui comprend une version de 3 milliards de paramètres optimisée pour les appareils à ressources limitées.
OpenELM a subi des modifications pour améliorer la qualité du modèle sans augmenter le nombre de paramètres, suggérant que le modèle de fondation d'Apple pourrait être une variante spécialisée d'OpenELM-3B. Ce modèle a été formé sur 1,8 trillion de tokens de données ouvertes, y compris des données sous licence et publiquement disponibles collectées par AppleBot.
Partenariats pour les données sous licence
Apple a établi des partenariats pour des données sous licence, incluant un contrat de 25 à 50 millions de dollars avec Shutterstock pour des images et un accord potentiel de 50 millions de dollars avec de grandes organisations de nouvelles et d'édition.
Techniques de formation et d'optimisation
Le modèle a été affiné pour suivre efficacement les instructions grâce à l'apprentissage par renforcement avec retour humain (RLHF) et un algorithme d'ajustement par échantillonnage de rejet impliquant un comité de professeurs. Le RLHF utilise des données annotées par des humains pour affiner les modèles de langage selon les préférences des utilisateurs, une méthode rendue populaire avec la sortie de ChatGPT. L’échantillonnage de rejet génère plusieurs exemples d'apprentissage, sélectionnant le meilleur résultat pour les mises à jour du modèle, technique également employée par l'équipe de Llama-2.
Optimisations techniques
Apple a mis en œuvre plusieurs techniques pour améliorer la performance du modèle tout en préservant l'efficacité des ressources. Le modèle de fondation utilise l'« attention par requêtes groupées » (GQA), développée par Google Research, pour accélérer la vitesse d'inférence avec un impact minimal sur la mémoire et le calcul. Le modèle emploie également la « palettisation », qui compresse les poids en utilisant des tables de recherche, ainsi que la quantification, qui réduit le nombre de bits par paramètre.
Les modèles sont optimisés pour les appareils équipés de puces M1 et ultérieures, ainsi que pour les iPhone 15 Pro et Pro Max dotés de la puce A17 Pro. Cela suggère l'utilisation de techniques d'optimisation adaptées aux puces d'Apple, comme le modèle de langage de grande taille (LLM) introduit en flash l'année dernière.
Métriques de performance
Les résultats rapportés sur un iPhone 15 Pro montrent une latence de premier token d'environ 0,6 millisecondes par token de demande, avec un taux de génération de 30 tokens par seconde. Par exemple, soumettre une demande de 1 000 tokens donnerait une réponse en 0,6 seconde, générant par la suite des tokens à un rythme de 30 par seconde—démontrant des performances impressionnantes.
Personnalisation avec l'adaptation à basse rangée
Pour améliorer la fonctionnalité sans dupliquer le modèle, les ingénieurs d'Apple ont développé des versions affinées utilisant des adaptateurs d'adaptation à basse rangée (LoRA). LoRA met à jour un petit sous-ensemble de poids pour des tâches spécifiques, et les adaptateurs—chacun de moins de 100 mégaoctets—permettent aux appareils de stocker plusieurs options pour diverses fonctions telles que la correction d'épreuves, la synthèse et les réponses aux e-mails.
Évaluation des performances
Selon les évaluations d'Apple, son modèle surpasse généralement des modèles de taille similaire ou même plus grands, tels que Gemma-2B, Mistral-7B et Phi-3B-Mini.
En résumé, l'IA sur appareil d'Apple illustre le potentiel de la combinaison de modèles compacts avec des techniques d'optimisation efficaces, des données de qualité et un matériel robuste. L'entreprise a réalisé des progrès significatifs dans l'équilibre entre précision et expérience utilisateur. Il sera intéressant de voir comment cette technologie performera lorsqu'elle sera déployée auprès des consommateurs cet automne.