Investigadores descubren que Google Gemini se queda corto en comparación con GPT-3.5 Turbo.

Home Noticias de IA Investigadores descubren que Google Gemini se queda corto en comparación con GPT-3.5 Turbo.

Updated on diciembre 19 2023

Oh, Google. ¿Alguna vez lanzarás un producto de IA con éxito a la primera?

Menos de un mes después del lanzamiento de Gemini, su esperado competidor de ChatGPT, Google recibió críticas sustanciales por lo que se confirmó que eran interacciones escenificadas en su demostración promocional. Investigaciones recientes indican que la versión más avanzada disponible para consumidores, Gemini Pro, queda rezagada frente al modelo de lenguaje de OpenAI, GPT-3.5 Turbo, en la mayoría de las tareas.

Los hallazgos, presentados por un equipo de la Universidad Carnegie Mellon y BerriAI en su documento "Una Mirada Profunda a las Capacidades Lingüísticas de Gemini", revelan que Gemini Pro tiene un rendimiento ligeramente inferior al de GPT-3.5 Turbo en diversas tareas. El artículo, publicado en arXiv.org, destaca que, a fecha del 19 de diciembre de 2023, la precisión de Gemini Pro es notablemente menos impresionante que la del modelo más antiguo de OpenAI.

Un portavoz de Google respondió asegurando que la investigación interna muestra que Gemini Pro supera a GPT-3.5 y anunció que una versión más poderosa, Gemini Ultra, llegará a principios de 2024, supuestamente superando a GPT-4 en pruebas internas. Declararon: “Gemini Pro supera a modelos optimizados para inferencia como GPT-3.5 y se desempeña de manera comparable con otros modelos líderes.”

Los investigadores probaron cuatro modelos de lenguaje: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo, y Mixtral 8x7B de Mistral. Utilizaron un sitio agregador de IA, LiteLLM, para evaluar los modelos durante cuatro días, utilizando varios mensajes, incluyendo 57 preguntas de opción múltiple en STEM, humanidades y ciencias sociales.

En su prueba de preguntas y respuestas basada en conocimientos, Gemini Pro logró 64.12/60.63, mientras que GPT-3.5 Turbo alcanzó 67.75/70.07 y GPT-4 Turbo 80.48/78.95. Notablemente, Gemini favoreció consistentemente la opción “D,” indicando un sesgo posiblemente debido a la falta de ajuste en la instrucción para formatos de opción múltiple. Además, tuvo dificultades en categorías específicas como la sexualidad humana y lógica formal debido a restricciones en las respuestas de seguridad.

Gemini Pro sí superó a GPT-3.5 Turbo en preguntas de microeconomía de secundaria y seguridad; sin embargo, estas mejoras fueron mínimas. Al probar consultas más largas o complejas, Gemini Pro mostró menor precisión en comparación con ambos modelos GPT, aunque se destacó en tareas de clasificación de palabras y manipulación de símbolos.

En capacidades de programación, Gemini volvió a quedarse corto, teniendo un rendimiento inferior al de GPT-3.5 Turbo en tareas de finalización de código Python. Aunque Gemini Pro mostró potencial en traducción de idiomas —superando a GPT-3.5 Turbo y GPT-4 Turbo en varios idiomas—, también exhibió una tendencia a bloquear respuestas en varios pares de idiomas debido a la moderación de contenido.

Las implicaciones de estos hallazgos son significativas para las ambiciones de IA de Google. A medida que se aproxima el lanzamiento de Gemini Ultra, Google podría seguir rezagándose frente a OpenAI en rendimiento de IA generativa. Curiosamente, la investigación también indicó que Mixtral 8x7B de Mistral tuvo un rendimiento inferior al de GPT-3.5 Turbo en la mayoría de las tareas, sugiriendo que, aunque Gemini Pro no es el mejor, todavía supera a algunos competidores emergentes.

En general, el estudio refuerza la idea de que OpenAI mantiene actualmente su liderazgo en el panorama de IA generativa. Como señalaron expertos como el profesor de la Universidad de Pensilvania, Ethan Mollick, para la mayoría de las aplicaciones individuales, GPT-4 sigue siendo la opción superior, al menos hasta que se lance Gemini Ultra el próximo año.

¿Es posible obtener un Chevy por $1? Explorando los chatbots de IA y sus riesgos en el servicio al cliente automotriz.

Patronus AI Identifica Vulnerabilidades de Seguridad 'Preocupantes' en Principales Sistemas de IA

Most people like

UChat

26.8K

UChat es una plataforma de chatbot innovadora que permite a las empresas automatizar sus operaciones de manera sencilla, sin necesidad de habilidades de programación.

plataforma de chatbot AI Chatbot

skills.ai

58.8K

skills.ai es una herramienta de IA innovadora diseñada específicamente para científicos de datos. Optimiza el proceso de codificación, mejora la visualización de datos, descubre información valiosa y simplifica la creación de presentaciones impactantes. Con skills.ai, los profesionales de datos pueden trabajar de manera más eficiente y efectiva, transformando su flujo de trabajo analítico.

Otro AI Analytics Assistant

Flux Image

10.6K

Transforma tu narración visual con un generador de imágenes de stock basado en IA diseñado para crear fotos impresionantes y de alta calidad sin esfuerzo. Descubre el poder de la inteligencia artificial para generar imágenes atractivas adaptadas a tus necesidades. Mejora tus proyectos y cautiva a tu audiencia con solo unos pocos clics.

Generador de imágenes por IA AI Art Generator

Parlay Ideas | AI Powered Class Discussions

85.1K

Presentamos nuestra revolucionaria plataforma impulsada por IA, diseñada para enriquecer las discusiones en clase. Con tecnología de vanguardia, esta herramienta fomenta conversaciones atractivas, promueve el pensamiento crítico y optimiza la participación tanto para educadores como para estudiantes. Transforma tu entorno de aprendizaje hoy mismo con nuestra intuitiva plataforma que revoluciona la manera en que se facilitan las discusiones en el aula.

Impulsado por IA AI Education Assistant

Find AI tools in YBX