Lorsque Google DeepMind a lancé Gemma en février dernier, l'entreprise a présenté deux modèles open source avec respectivement 2 milliards et 7 milliards de paramètres. Lors de la conférence des développeurs Google I/O de cette année, la société a dévoilé la série Gemma 2, commencant par un modèle léger doté d'un impressionnant 27 milliards de paramètres. Cependant, sa sortie est prévue pour juin.
« Ce modèle de 27 milliards de paramètres a été choisi délibérément », a déclaré Josh Woodward, vice-président de Google Labs, lors d'une récente table ronde. « Il est optimisé pour les GPU de dernière génération d'Nvidia ou un hôte TPU unique dans Vertex AI, ce qui le rend convivial. Nous constatons déjà une qualité excellente, avec des performances dépassant celles de modèles deux fois plus volumineux. »
Gemma est conçu pour les développeurs souhaitant intégrer l'IA dans des applications et des dispositifs sans exigences importantes en matière de mémoire ou de puissance de traitement. Cela en fait une solution idéale pour des environnements aux ressources limitées, tels que les smartphones, les appareils IoT et les ordinateurs personnels. Depuis son lancement initial, Google a introduit plusieurs variantes, dont CodeGemma pour la complétion de code, RecurrentGemma pour une meilleure efficacité mémoire, et le tout récent PaliGemma pour les tâches de vision-langage.
Avec ses 27 milliards de paramètres, Gemma 2 est destiné à offrir une précision et des performances accrues pour des tâches plus complexes par rapport à ses prédécesseurs. L'accès à un plus grand ensemble de données d'entraînement permet à l'IA de générer des réponses de meilleure qualité plus rapidement.
Bien que Woodward ait indiqué que Gemma 2 est conçu pour fonctionner sur un TPU unique, il a fait référence spécifiquement au TPUv5e, la dernière génération de puces de Google lancée en août dernier. Cela signifie que Gemma 2 nécessitera une puce AI spécialisée pour optimiser les calculs, entraînant une latence réduite et une plus grande efficacité pour des tâches telles que la reconnaissance d'images et le traitement du langage naturel. Cette efficacité se traduit par des économies de coûts pour les développeurs, leur permettant de réinvestir des ressources dans leurs applications.
Le lancement de Gemma 2 coïncide avec celui de GPT-4o d'OpenAI, son LLM multimodal, et se positionne comme une « mise à niveau significative », en particulier pour les utilisateurs gratuits de ChatGPT.