Google améliore activement sa série Gemini alors qu'il s'apprête à lancer la version 2.0. Aujourd'hui, l'entreprise a dévoilé deux nouvelles variantes : le Gemini 1.5 Flash-8B, une version réduite du Gemini 1.5, et des mises à jour des modèles Gemini 1.5 Flash et Gemini 1.5 Pro. Selon Google, ces modèles présentent des améliorations significatives dans divers benchmarks internes, avec des augmentations de performance notables pour le 1.5 Flash et des capacités renforcées en mathématiques, codage et prompts complexes pour le 1.5 Pro.
"Le Gemini 1.5 Flash est actuellement la meilleure option pour les développeurs dans le monde entier," a déclaré Logan Kilpatrick, responsable produit de Google AI Studio, dans un post sur X.
Dernières itérations expérimentales des modèles Gemini
Sorti en mai, le Gemini 1.5 Flash est conçu pour gérer de longs contextes et analyser des informations détaillées provenant de plus de 10 millions de tokens. Cela lui permet de traiter des entrées multimodales volumineuses, y compris des documents, des vidéos et des audios.
La nouvelle version à 8 milliards de paramètres du Gemini 1.5 Flash offre une expérience améliorée, tandis que le Gemini 1.5 Pro mis à jour améliore les performances en codage et dans les tâches complexes, remplaçant sans difficulté son modèle précédent lancé en août. Kilpatrick a indiqué qu'une version prête pour la production devrait arriver dans les semaines à venir, probablement avec des fonctionnalités d'évaluation. Il a souligné que ces modèles expérimentaux sont essentiels pour recueillir les retours des développeurs et faciliter les mises à jour rapides.
Les dernières itérations des Gemini 1.5 Flash et Pro ont une limite d'un million de tokens et sont disponibles pour des tests gratuits via Google AI Studio et l'API Gemini, avec des plans pour les intégrer au point de terminaison expérimental Vertex AI. Un niveau gratuit sera proposé, et une version de production est attendue prochainement.
À partir du 3 septembre, Google redirigera automatiquement les requêtes vers le nouveau modèle, éliminant progressivement l'ancienne version de Google AI Studio et de l'API pour éviter toute confusion. "Nous sommes impatients d'entendre vos retours et de voir comment ce modèle pourrait permettre de nouveaux cas d'utilisation multimodale," a partagé Kilpatrick sur X.
Une échelle sans précédent pour le Gemini 1.5
Les chercheurs de Google DeepMind décrivent l'échelle du Gemini 1.5 comme étant "sans précédent" parmi les modèles de langage contemporains. Kilpatrick a exprimé sa gratitude pour l'enthousiasme de la communauté envers le modèle expérimental initial lancé plus tôt ce mois-ci, soulignant le travail acharné accompli pour réaliser ces innovations.
Retour mixte sur les récentes mises à jour
Les premiers retours de la communauté ont été variés, allant des éloges enthousiastes aux notes de scepticisme. Dans une récente mise à jour du classement par la Large Model Systems Organization (LMSO), le Gemini 1.5 Flash est passé de la 23e à la 6e place sur la base de 20 000 votes de la communauté, démontrant sa compétitivité avec des modèles comme Llama et surpassant certaines des anciennes offres de Google.
Bien que certains utilisateurs aient noté des "améliorations solides," notamment en analyse d'image, des critiques ont également émergé. Certains ont questionné la fréquence des mises à jour, plaidant pour une version plus substantielle comme le Gemini 2.0. D'autres ont décrit la nouvelle version comme souffrant de "la maladie du codage paresseux," semblable aux problèmes signalés avec GPT-4 Turbo, affirmant qu'elle a des difficultés avec des sorties plus longues et la cohérence.
Les commentaires sur les choix de noms de Google ont également fait surface, les utilisateurs remettant humoristiquement en question la créativité des noms des modèles. Le discours autour des modèles Gemini continue d'évoluer, reflétant les complexités des avancées en IA et les attentes des utilisateurs.