Google Cloud a lancé deux versions de son modèle d'IA phare : Gemini 1.5 Flash et Gemini 1.5 Pro. Gemini 1.5 Flash est un modèle multimodal compact avec une fenêtre de contexte de 1 million de tokens, conçu pour des tâches à haute fréquence. Présenté pour la première fois en mai lors de Google I/O, il est désormais accessible aux développeurs. Le modèle plus puissant, Gemini 1.5 Pro, introduit en février, offre une impressionnante fenêtre de contexte de 2 millions de tokens, en faisant la version la plus avancée du modèle de langage de Google à ce jour.
Le lancement de ces variantes de Gemini illustre comment la technologie d'IA de Google peut aider les entreprises à créer des agents et des solutions d'IA innovants. Lors d'un récent point de presse, le PDG de Google Cloud, Thomas Kurian, a souligné l'« incroyable élan » de l'adoption de l'IA générative, notant que de grandes organisations — comme Accenture, Airbus et Goldman Sachs — s'appuient sur la plateforme de Google. Kurian attribue cette dynamique aux capacités des modèles de Google, combinées à la plateforme Vertex, promettant des avancées rapides dans les deux domaines.
Gemini 1.5 Flash
Gemini 1.5 Flash offre aux développeurs une latence réduite, des tarifs économiques, et une fenêtre de contexte idéale pour des applications comme les agents de chat dans le commerce de détail et le traitement de documents. Google affirme qu’en moyenne, Gemini 1.5 Flash est 40 % plus rapide que GPT-3.5 Turbo pour le traitement d’entrées de 10 000 caractères. De plus, il propose un coût d'entrée quatre fois inférieur à celui du modèle d'OpenAI et prend en charge la mise en cache du contexte pour des entrées dépassant 32 000 caractères.
Gemini 1.5 Pro
Gemini 1.5 Pro dispose d'une unique fenêtre de contexte de 2 millions de tokens, lui permettant d'analyser plus de texte et de générer des réponses détaillées. Kurian explique que cela signifie que les utilisateurs peuvent entrer un contenu conséquent, comme une vidéo haute définition de deux heures ou plus de 60 000 lignes de code, sans avoir besoin de le segmenter. De nombreuses entreprises découvrent déjà la valeur significative de la puissance de traitement améliorée de ce modèle.
Kurian distingue les deux modèles en fonction des besoins des utilisateurs : Gemini 1.5 Pro est idéal pour le traitement de contenus longs, tandis que Flash convient mieux aux applications à faible latence.
Mise en Cache du Contexte pour Gemini 1.5
Pour aider les développeurs à maximiser le potentiel des fenêtres de contexte de Gemini, Google introduit la mise en cache du contexte, maintenant en prévisualisation publique pour les deux modèles. Cette fonctionnalité permet aux modèles de stocker et de réutiliser les informations déjà traitées, réduisant considérablement les coûts de calcul — jusqu'à 75 % — en éliminant la nécessité de recalculer les réponses pour de longues conversations ou documents.
Débit Provisionné pour Gemini
La nouvelle fonctionnalité de débit provisionné permet aux développeurs de gérer efficacement leur utilisation des modèles Gemini en contrôlant le nombre de requêtes qu'un modèle peut traiter à travers le temps. Cette option offre une plus grande prévisibilité et fiabilité par rapport à l'ancien modèle de paiement à l'utilisation. Kurian a noté que le débit provisionné permet aux clients de réserver une capacité d'inférence, assurant des performances constantes même lors de pics de demande, comme ceux rencontrés par les plateformes de médias sociaux lors de grands événements.
Le débit provisionné est désormais disponible en général, offrant aux développeurs un meilleur contrôle sur leurs charges de travail de production et des garanties de niveaux de service concernant les temps de réponse et la disponibilité.