Investigadores descubren que Google Gemini se queda corto en comparación con GPT-3.5 Turbo.

Oh, Google. ¿Alguna vez lanzarás un producto de IA con éxito a la primera?

Menos de un mes después del lanzamiento de Gemini, su esperado competidor de ChatGPT, Google recibió críticas sustanciales por lo que se confirmó que eran interacciones escenificadas en su demostración promocional. Investigaciones recientes indican que la versión más avanzada disponible para consumidores, Gemini Pro, queda rezagada frente al modelo de lenguaje de OpenAI, GPT-3.5 Turbo, en la mayoría de las tareas.

Los hallazgos, presentados por un equipo de la Universidad Carnegie Mellon y BerriAI en su documento "Una Mirada Profunda a las Capacidades Lingüísticas de Gemini", revelan que Gemini Pro tiene un rendimiento ligeramente inferior al de GPT-3.5 Turbo en diversas tareas. El artículo, publicado en arXiv.org, destaca que, a fecha del 19 de diciembre de 2023, la precisión de Gemini Pro es notablemente menos impresionante que la del modelo más antiguo de OpenAI.

Un portavoz de Google respondió asegurando que la investigación interna muestra que Gemini Pro supera a GPT-3.5 y anunció que una versión más poderosa, Gemini Ultra, llegará a principios de 2024, supuestamente superando a GPT-4 en pruebas internas. Declararon: “Gemini Pro supera a modelos optimizados para inferencia como GPT-3.5 y se desempeña de manera comparable con otros modelos líderes.”

Los investigadores probaron cuatro modelos de lenguaje: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo, y Mixtral 8x7B de Mistral. Utilizaron un sitio agregador de IA, LiteLLM, para evaluar los modelos durante cuatro días, utilizando varios mensajes, incluyendo 57 preguntas de opción múltiple en STEM, humanidades y ciencias sociales.

En su prueba de preguntas y respuestas basada en conocimientos, Gemini Pro logró 64.12/60.63, mientras que GPT-3.5 Turbo alcanzó 67.75/70.07 y GPT-4 Turbo 80.48/78.95. Notablemente, Gemini favoreció consistentemente la opción “D,” indicando un sesgo posiblemente debido a la falta de ajuste en la instrucción para formatos de opción múltiple. Además, tuvo dificultades en categorías específicas como la sexualidad humana y lógica formal debido a restricciones en las respuestas de seguridad.

Gemini Pro sí superó a GPT-3.5 Turbo en preguntas de microeconomía de secundaria y seguridad; sin embargo, estas mejoras fueron mínimas. Al probar consultas más largas o complejas, Gemini Pro mostró menor precisión en comparación con ambos modelos GPT, aunque se destacó en tareas de clasificación de palabras y manipulación de símbolos.

En capacidades de programación, Gemini volvió a quedarse corto, teniendo un rendimiento inferior al de GPT-3.5 Turbo en tareas de finalización de código Python. Aunque Gemini Pro mostró potencial en traducción de idiomas —superando a GPT-3.5 Turbo y GPT-4 Turbo en varios idiomas—, también exhibió una tendencia a bloquear respuestas en varios pares de idiomas debido a la moderación de contenido.

Las implicaciones de estos hallazgos son significativas para las ambiciones de IA de Google. A medida que se aproxima el lanzamiento de Gemini Ultra, Google podría seguir rezagándose frente a OpenAI en rendimiento de IA generativa. Curiosamente, la investigación también indicó que Mixtral 8x7B de Mistral tuvo un rendimiento inferior al de GPT-3.5 Turbo en la mayoría de las tareas, sugiriendo que, aunque Gemini Pro no es el mejor, todavía supera a algunos competidores emergentes.

En general, el estudio refuerza la idea de que OpenAI mantiene actualmente su liderazgo en el panorama de IA generativa. Como señalaron expertos como el profesor de la Universidad de Pensilvania, Ethan Mollick, para la mayoría de las aplicaciones individuales, GPT-4 sigue siendo la opción superior, al menos hasta que se lance Gemini Ultra el próximo año.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles