Les chercheurs découvrent que Google Gemini est moins performant que GPT-3.5 Turbo.

Home Actualités IA Les chercheurs découvrent que Google Gemini est moins performant que GPT-3.5 Turbo.

Updated on décembre 19 2023

Oh, Google. Allez-vous un jour lancer avec succès un produit d'IA dès le premier essai ?

Moins d'un mois après le lancement de Gemini, son très attendu concurrent de ChatGPT, Google a été critiqué pour des interactions mises en scène confirmées dans sa démo promotionnelle. Des recherches récentes indiquent que la version la plus avancée disponible pour les consommateurs, Gemini Pro, est à la traîne par rapport au modèle de langage GPT-3.5 Turbo d'OpenAI dans la plupart des tâches.

Les résultats, présentés par une équipe de l’Université Carnegie Mellon et de BerriAI dans leur article « Une analyse approfondie des capacités linguistiques de Gemini », révèlent que Gemini Pro obtient des performances légèrement inférieures à celles de GPT-3.5 Turbo dans divers tests. Publiée sur arXiv.org, l'étude souligne qu'au 19 décembre 2023, l'exactitude de Gemini Pro est bien moins impressionnante que celle du modèle plus ancien d'OpenAI.

Un porte-parole de Google a répondu que des recherches internes montrent que Gemini Pro surpasse GPT-3.5 et qu'une version plus puissante, Gemini Ultra, sera lancée début 2024, surperformant apparemment GPT-4 lors de tests internes. Ils ont déclaré : « Gemini Pro dépasse les modèles optimisés pour l'inférence comme GPT-3.5 et performe de manière comparable avec d'autres modèles leaders ».

Les chercheurs ont testé quatre modèles de langage : Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo, et Mixtral 8x7B de Mistral. Ils ont utilisé le site d'agrégation d'IA, LiteLLM, pour évaluer les modèles sur quatre jours, en utilisant divers prompts, y compris 57 questions à choix multiples dans les domaines STEM, les sciences humaines et les sciences sociales.

Dans leur test de réponse à des questions basées sur des connaissances, Gemini Pro a obtenu 64.12/60.63, tandis que GPT-3.5 Turbo a atteint 67.75/70.07 et GPT-4 Turbo a marqué 80.48/78.95. Notamment, Gemini a systématiquement favorisé la réponse « D », indiquant un biais potentiellement dû à un insuffisant ajustement des instructions pour les formats à choix multiples. De plus, il a rencontré des difficultés dans des catégories spécifiques telles que la sexualité humaine et la logique formelle en raison de restrictions sur les réponses pour des raisons de sécurité.

Gemini Pro a surpassé GPT-3.5 Turbo dans les questions de microéconomie de lycée et de sécurité ; cependant, ces gains étaient minimes. Lors des tests de requêtes plus longues ou plus complexes, Gemini Pro a montré une précision diminuée par rapport aux deux modèles GPT, bien qu'il ait excellé dans des tâches de tri de mots et de manipulation de symboles.

En matière de programmation, Gemini s'est également avéré insuffisant, performants moins bien que GPT-3.5 Turbo dans les tâches de complétion de code Python. Bien que Gemini Pro ait montré un potentiel en traduction linguistique—surpassant GPT-3.5 Turbo et GPT-4 Turbo dans plusieurs langues—il a également montré une tendance à bloquer des réponses pour de nombreux couples de langues en raison de modérations de contenu.

Les implications de ces résultats sont significatives pour les ambitions d'IA de Google. À l'approche du lancement de Gemini Ultra, Google peut continuer à être à la traîne par rapport à OpenAI en matière de performance en IA générative. Fait intéressant, la recherche a également révélé que le Mixtral 8x7B de Mistral a moins bien performé que GPT-3.5 Turbo dans la plupart des tâches, suggérant que, même si Gemini Pro n'est pas le meilleur, il surpasse certains concurrents émergents.

Dans l'ensemble, l'étude renforce l'idée qu'OpenAI maintient actuellement son avance dans le paysage de l'IA générative. Comme l'ont souligné des experts tels que le professeur Ethan Mollick de l'Université de Pennsylvanie, pour la plupart des applications individuelles, GPT-4 reste le choix supérieur—du moins jusqu'à ce que Gemini Ultra soit lancé l'année prochaine.

Un Chevy à 1 $ : Est-ce Possible ? Exploration des Chatbots IA et de leurs Risques dans le Service Client Automobile

Patronus AI identifie des vulnérabilités de sécurité 'préoccupantes' dans les principaux systèmes d'IA.

Most people like

ReplyAI

10.3K

Transformez votre expérience email : Rédigez des emails 10x plus rapidement avec GPT-V Dans le monde numérique d'aujourd'hui, rédiger des emails efficacement est primordial. Avec GPT-V, vous pouvez améliorer votre productivité et simplifier vos communications, vous permettant d'écrire des emails jusqu'à 10 fois plus vite. Découvrez comment cet outil puissant peut révolutionner votre façon de communiquer avec vos collègues, clients et amis, vous permettant de vous concentrer sur l'essentiel.

GPT AI Reply Assistant

AutoShorts.ai

AutoShorts.ai | Générateur de Vidéos Sans Visage N°1 pour TikTok et YouTube

Générateur de vidéos TikTok AI Video Generator

Vidu AI

424.5K

Créez sans effort des vidéos de haute qualité avec notre générateur vidéo IA. Transformez vos idées en contenu visuel impressionnant en un rien de temps !

Générateur vidéo IA Text to Video

AssemblyAI

591.2K

AssemblyAI propose des modèles d'IA puissants conçus pour transcrire et comprendre la parole de manière fluide via une API intuitive. Notre technologie simplifie le processus, permettant aux utilisateurs de tirer pleinement parti de la reconnaissance vocale sans effort.

Modèles d'IA AI Speech Recognition

Find AI tools in YBX