Google dévoile Gemini 1.5 Flash : un modèle multimodal ultra-rapide avec une fenêtre de contexte innovante de 1 million de tokens.

Google a lancé Gemini 1.5 Flash, un modèle multimodal compact conçu pour évoluer et s'adapter à des tâches à haute fréquence. Avec une fenêtre de contexte d'un million de tokens, il est désormais disponible en preview publique via l'API Gemini dans Google AI Studio.

De plus, Gemini 1.5 Pro, introduit en février, va bénéficier d'une mise à jour majeure avec une fenêtre de contexte élargie à deux millions de tokens, contre un million auparavant. Les développeurs intéressés doivent s'inscrire sur la liste d'attente pour accéder à cette mise à jour.

Quoi de neuf dans Gemini 1.5 ?

Gemini 1.5 Flash et Gemini 1.5 Pro répondent à des besoins différents. Gemini 1.5 Flash met l'accent sur la rapidité de sortie et est idéal pour des tâches rapides nécessitant une faible latence. En revanche, Gemini 1.5 Pro est optimisé pour des tâches complexes nécessitant un raisonnement multi-étapes, avec des performances comparables à celles du modèle Ultra 1.0 de Google. Selon Josh Woodward, vice-président de Google Labs, les développeurs devraient opter pour Gemini 1.5 Flash pour des réponses rapides, tandis que Gemini 1.5 Pro est plus adapté aux applications complexes.

Cette approche par niveaux permet aux développeurs de choisir parmi une gamme de modèles d'IA, s'éloignant ainsi d'une stratégie uniforme. En offrant diverses capacités, Google améliore l'expérience utilisateur dans les services alimentés par l'IA. Cependant, une limitation pour certains développeurs pourrait être que Gemini 1.5 Flash n'est pas entraîné sur des ensembles de données suffisamment vastes. Dans ce cas, une mise à niveau vers Gemini 1.5 Pro pourrait être avantageuse.

La gamme de modèles Gemini comprend des options allant de Gemma et Gemma 2 aux modèles Gemini Nano, Gemini 1.5 Flash, Gemini 1.5 Pro, et Gemini 1.0 Ultra. Comme le souligne Woodward, "Les développeurs peuvent passer d'une taille à l'autre selon leur cas d'utilisation," tout en conservant des capacités d’entrée multimodale et une expérience backend homogène.

Cette annonce intervient peu après qu'OpenAI ait présenté son propre concurrent, GPT-4o, un modèle de langage multimodal destiné à un accès large des utilisateurs, incluant une application bureau.

Les deux modèles Gemini 1.5 sont désormais disponibles en preview publique dans plus de 200 pays et territoires, y compris l'Espace économique européen, le Royaume-Uni et la Suisse.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles