Google a dévoilé PaliGemma, un nouveau modèle multimodal de vision-langage dans sa collection Gemma d'ouvrages légers et ouverts. Conçu pour la description d'images, le questionnement visuel et la recherche d'images, PaliGemma s'ajoute à ses homologues, CodeGemma et RecurrentGemma, et est désormais disponible pour les développeurs souhaitant l'intégrer dans leurs projets.
Annoncé lors de la conférence des développeurs de Google, PaliGemma se distingue au sein de la famille Gemma comme le seul modèle dédié à la traduction de l'information visuelle en langage écrit. En tant que petit modèle de langage (SLM), il fonctionne efficacement sans nécessiter une mémoire ou une puissance de traitement étendues, ce qui le rend idéal pour les appareils aux ressources limitées tels que les smartphones, les appareils IoT et les ordinateurs personnels.
Les développeurs seront sans doute séduits par le potentiel de PaliGemma pour améliorer leurs applications. Il peut aider les utilisateurs à générer du contenu, optimiser les capacités de recherche et assister les malvoyants à mieux comprendre leur environnement. Alors que de nombreuses solutions d'IA reposent sur le cloud et utilisent de grands modèles de langage (LLM), les SLM comme PaliGemma contribuent à réduire la latence, minimisant ainsi le temps entre l'entrée et la réponse. Cela en fait un choix privilégié pour les applications dans des zones avec une connectivité Internet peu fiable.
Bien que les applications web et mobiles soient les cas d'utilisation principaux de PaliGemma, son intégration dans des appareils portables comme des lunettes intelligentes, qui pourraient rivaliser avec les Ray-Ban Meta Smart Glasses, ou des dispositifs tels que le Rabbit r1 ou le Humane AI Pin, est envisageable. Le modèle pourrait également améliorer les robots domestiques et de bureau. S'appuyant sur la même recherche et technologie que Google Gemini, PaliGemma offre aux développeurs un cadre familier et solide pour leurs projets.
En plus de lancer PaliGemma, Google a introduit la version la plus vaste de Gemma à ce jour, avec un impressionnant total de 27 milliards de paramètres.