Lors du Mobile World Congress 2024, Qualcomm élargit son portefeuille de capacités d'intelligence artificielle avec la série Snapdragon pour les appareils Android. L'entreprise a déjà présenté des fonctionnalités AI remarquables pour son fleuron Snapdragon 8 Gen 3, notamment l'édition de médias activée par la voix, la génération d'images sur l'appareil avec Stable Diffusion, et un assistant virtuel avancé utilisant des modèles linguistiques de grande taille proposés par Meta.
Aujourd'hui, Qualcomm a présenté des améliorations à ces fonctionnalités AI. Une des nouveautés est le Large Language and Vision Assistant (LLaVa), conçu spécifiquement pour les smartphones. Cet outil innovant fonctionne comme un chatbot, similaire à ChatGPT, mais intègre les capacités de Google Lens. Grâce à cela, la solution de Qualcomm peut traiter à la fois des entrées textuelles et des images.
Par exemple, vous pouvez télécharger une photo d'un plateau de charcuterie et demander son contenu. L'assistant AI, basé sur un grand modèle multimodal (LMM) traitant plus de 7 milliards de paramètres, identifiera divers fruits, fromages, viandes, et noix présents sur l'image. Il peut également gérer des questions de suivi, permettant un échange naturel. Alors que ChatGPT et des produits similaires ont également ajouté des capacités multimodales, ils reposent sur une architecture basée sur le cloud, impliquant des serveurs distants pour le traitement des données. L'approche de Qualcomm se concentre sur le traitement sur appareil, garantissant des réponses plus rapides et une meilleure confidentialité, avec un risque minimal d'intrusion des données. Qualcomm souligne : « Ce LMM fonctionne à un taux de réponse réactif sur l'appareil, offrant ainsi une plus grande confidentialité, fiabilité, personnalisation et efficacité économique. » Les détails concernant le lancement de l'assistant virtuel basé sur LLaVa en tant qu'application indépendante ou sa tarification restent à confirmer.
Le prochain grand annonce de Qualcomm explore les aspects créatifs de la génération et de la manipulation d'images. Récemment, Qualcomm a démontré la génération d'images texte-à-image la plus rapide au monde sur un smartphone utilisant la technologie Stable Diffusion. Aujourd'hui, l'entreprise a fourni un aperçu de la génération d'images basée sur LoRA.
LoRA, ou Low-Rank Adaptation, est une technique novatrice développée par Microsoft, offrant une approche différente de la génération d'images par rapport à des outils d'IA générative traditionnels comme DALL·E. Former des modèles d'IA peut être coûteux, lent et exigeant en matière de matériel. LoRA répond à ces défis en réduisant significativement le poids des modèles, en se concentrant sur des segments spécifiques et en limitant le nombre de paramètres pendant le processus de formation. Cela entraîne des exigences de mémoire réduites et des opérations plus rapides, simplifiant considérablement l'adaptation des modèles texte-à-image.
La méthode de distillation LoRA a été efficacement intégrée au modèle Stable Diffusion pour générer des images à partir de descriptions textuelles. Grâce à son efficacité et sa facilité d'adaptabilité, LoRA est considérée comme bien adaptée aux smartphones. Qualcomm croit en son potentiel, et même le concurrent MediaTek adopte cette approche pour les fonctionnalités d'IA générative sur sa puce phare Dimensity 9300.
Au MWC 2024, Qualcomm présente également une variété de fonctionnalités d'IA, dont certaines sont déjà disponibles sur le Samsung Galaxy S24 Ultra. Parmi ces capacités figurent la possibilité d'étendre le canevas d'une image grâce à un remplissage AI génératif et la génération de vidéos alimentée par l'IA, qui est particulièrement ambitieuse. Il sera fascinant de voir comment Qualcomm mettra en œuvre ces technologies avancées sur les smartphones.