Les chercheurs découvrent que Google Gemini est moins performant que GPT-3.5 Turbo.

Oh, Google. Allez-vous un jour lancer avec succès un produit d'IA dès le premier essai ?

Moins d'un mois après le lancement de Gemini, son très attendu concurrent de ChatGPT, Google a été critiqué pour des interactions mises en scène confirmées dans sa démo promotionnelle. Des recherches récentes indiquent que la version la plus avancée disponible pour les consommateurs, Gemini Pro, est à la traîne par rapport au modèle de langage GPT-3.5 Turbo d'OpenAI dans la plupart des tâches.

Les résultats, présentés par une équipe de l’Université Carnegie Mellon et de BerriAI dans leur article « Une analyse approfondie des capacités linguistiques de Gemini », révèlent que Gemini Pro obtient des performances légèrement inférieures à celles de GPT-3.5 Turbo dans divers tests. Publiée sur arXiv.org, l'étude souligne qu'au 19 décembre 2023, l'exactitude de Gemini Pro est bien moins impressionnante que celle du modèle plus ancien d'OpenAI.

Un porte-parole de Google a répondu que des recherches internes montrent que Gemini Pro surpasse GPT-3.5 et qu'une version plus puissante, Gemini Ultra, sera lancée début 2024, surperformant apparemment GPT-4 lors de tests internes. Ils ont déclaré : « Gemini Pro dépasse les modèles optimisés pour l'inférence comme GPT-3.5 et performe de manière comparable avec d'autres modèles leaders ».

Les chercheurs ont testé quatre modèles de langage : Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo, et Mixtral 8x7B de Mistral. Ils ont utilisé le site d'agrégation d'IA, LiteLLM, pour évaluer les modèles sur quatre jours, en utilisant divers prompts, y compris 57 questions à choix multiples dans les domaines STEM, les sciences humaines et les sciences sociales.

Dans leur test de réponse à des questions basées sur des connaissances, Gemini Pro a obtenu 64.12/60.63, tandis que GPT-3.5 Turbo a atteint 67.75/70.07 et GPT-4 Turbo a marqué 80.48/78.95. Notamment, Gemini a systématiquement favorisé la réponse « D », indiquant un biais potentiellement dû à un insuffisant ajustement des instructions pour les formats à choix multiples. De plus, il a rencontré des difficultés dans des catégories spécifiques telles que la sexualité humaine et la logique formelle en raison de restrictions sur les réponses pour des raisons de sécurité.

Gemini Pro a surpassé GPT-3.5 Turbo dans les questions de microéconomie de lycée et de sécurité ; cependant, ces gains étaient minimes. Lors des tests de requêtes plus longues ou plus complexes, Gemini Pro a montré une précision diminuée par rapport aux deux modèles GPT, bien qu'il ait excellé dans des tâches de tri de mots et de manipulation de symboles.

En matière de programmation, Gemini s'est également avéré insuffisant, performants moins bien que GPT-3.5 Turbo dans les tâches de complétion de code Python. Bien que Gemini Pro ait montré un potentiel en traduction linguistique—surpassant GPT-3.5 Turbo et GPT-4 Turbo dans plusieurs langues—il a également montré une tendance à bloquer des réponses pour de nombreux couples de langues en raison de modérations de contenu.

Les implications de ces résultats sont significatives pour les ambitions d'IA de Google. À l'approche du lancement de Gemini Ultra, Google peut continuer à être à la traîne par rapport à OpenAI en matière de performance en IA générative. Fait intéressant, la recherche a également révélé que le Mixtral 8x7B de Mistral a moins bien performé que GPT-3.5 Turbo dans la plupart des tâches, suggérant que, même si Gemini Pro n'est pas le meilleur, il surpasse certains concurrents émergents.

Dans l'ensemble, l'étude renforce l'idée qu'OpenAI maintient actuellement son avance dans le paysage de l'IA générative. Comme l'ont souligné des experts tels que le professeur Ethan Mollick de l'Université de Pennsylvanie, pour la plupart des applications individuelles, GPT-4 reste le choix supérieur—du moins jusqu'à ce que Gemini Ultra soit lancé l'année prochaine.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles