Google lance PaliGemma : son premier modèle multimodal de vision-langage ouvert pour des capacités IA améliorées.

Home Actualités IA Google lance PaliGemma : son premier modèle multimodal de vision-langage ouvert pour des capacités IA améliorées.

Google a dévoilé PaliGemma, un nouveau modèle multimodal de vision-langage dans sa collection Gemma d'ouvrages légers et ouverts. Conçu pour la description d'images, le questionnement visuel et la recherche d'images, PaliGemma s'ajoute à ses homologues, CodeGemma et RecurrentGemma, et est désormais disponible pour les développeurs souhaitant l'intégrer dans leurs projets.

Annoncé lors de la conférence des développeurs de Google, PaliGemma se distingue au sein de la famille Gemma comme le seul modèle dédié à la traduction de l'information visuelle en langage écrit. En tant que petit modèle de langage (SLM), il fonctionne efficacement sans nécessiter une mémoire ou une puissance de traitement étendues, ce qui le rend idéal pour les appareils aux ressources limitées tels que les smartphones, les appareils IoT et les ordinateurs personnels.

Les développeurs seront sans doute séduits par le potentiel de PaliGemma pour améliorer leurs applications. Il peut aider les utilisateurs à générer du contenu, optimiser les capacités de recherche et assister les malvoyants à mieux comprendre leur environnement. Alors que de nombreuses solutions d'IA reposent sur le cloud et utilisent de grands modèles de langage (LLM), les SLM comme PaliGemma contribuent à réduire la latence, minimisant ainsi le temps entre l'entrée et la réponse. Cela en fait un choix privilégié pour les applications dans des zones avec une connectivité Internet peu fiable.

Bien que les applications web et mobiles soient les cas d'utilisation principaux de PaliGemma, son intégration dans des appareils portables comme des lunettes intelligentes, qui pourraient rivaliser avec les Ray-Ban Meta Smart Glasses, ou des dispositifs tels que le Rabbit r1 ou le Humane AI Pin, est envisageable. Le modèle pourrait également améliorer les robots domestiques et de bureau. S'appuyant sur la même recherche et technologie que Google Gemini, PaliGemma offre aux développeurs un cadre familier et solide pour leurs projets.

En plus de lancer PaliGemma, Google a introduit la version la plus vaste de Gemma à ce jour, avec un impressionnant total de 27 milliards de paramètres.

Google lance la série Gemma 2 : un modèle de 27 milliards de paramètres capable de fonctionner sur une seule TPU.

Avec l'ouverture de GPT-4o par OpenAI, qui a encore besoin de payer pour ChatGPT Plus ?

Most people like

ContentRadar

Élevez votre stratégie sur les réseaux sociaux grâce à notre espace de gestion de contenu alimenté par l'IA, conçu spécifiquement pour LinkedIn et X. Simplifiez la création de publications, améliorez l'engagement de votre audience et optimisez votre processus de planification de contenu—tout cela avec la puissance de l'intelligence artificielle. Transformez votre présence en ligne et maximisez votre potentiel de mise en réseau sans effort !

Gestion de contenu IA AI Social Media Assistant

Presentations.AI

1.5M

Presentations.AI est une application innovante alimentée par l'intelligence artificielle, conçue pour permettre aux utilisateurs de créer des présentations visuellement attrayantes en toute simplicité.

Application alimentée par l'IA AI Presentation Generator

SlideAI

38.9K

Êtes-vous en manque de temps mais devez-vous réaliser des présentations captivantes ? Grâce à nos outils innovants, vous pouvez concevoir des présentations époustouflantes en quelques minutes. Dites adieu aux longues heures de préparation et bonjour à des diapositives dynamiques et professionnelles qui capteront l'attention de votre auditoire. Découvrez à quel point il est facile de transformer vos idées en présentations visuellement attrayantes sans compromettre la qualité.

Alimenté par l'IA AI Presentation Generator

Gala Coach

8.9K

Un coach IA dédié à soutenir vos objectifs de santé et de bien-être.

IA AI Coaching

Find AI tools in YBX