Elon Musk presenta Grok-1.5: acercándose a los hitos de rendimiento de GPT-4.

Apenas unas semanas después de la liberación de Grok-1 como código abierto, xAI de Elon Musk se prepara para lanzar una versión mejorada de su modelo de lenguaje grande (LLM) — Grok-1.5 — la próxima semana.

Grok-1.5 busca mejorar las capacidades de razonamiento y resolución de problemas, acercándose así a modelos establecidos como GPT-4 de OpenAI y Claude 3 de Anthropic. Aunque puede manejar contextos largos, aún se queda atrás de Gemini 1.5 Pro, que admite una ventana de contexto de hasta 1 millón de tokens.

¿Qué hay de nuevo en Grok-1.5?

Anunciado inicialmente el pasado noviembre, Grok-1 se inspiró en "La guía del autoestopista galáctico" y fue diseñado para ayudar a los usuarios en su búsqueda de conocimiento, sin importar su origen o postura política. En pruebas previas, Grok-1 superó a Llama-2-70B y GPT-3.5.

Con Grok-1.5, xAI afirma haber realizado mejoras significativas en métricas clave. En exámenes, Grok-1.5 obtuvo un 50.6% en el benchmark MATH, un 90% en GSM8K y un 74.1% en HumanEval, evidenciando avances considerables en tareas de programación y matemáticas.

Además, Grok-1.5 alcanzó un 81.3% en el benchmark MMLU, reflejando una mejora notable respecto al 73% de Grok-1. Con una ventana de contexto de hasta 128,000 tokens, Grok-1.5 puede procesar hasta 16 veces más información que su predecesor, lo que le permite analizar y resumir documentos extensos mientras mantiene una eficacia superior en el seguimiento de instrucciones.

Competencia con Modelos Líderes

Grok-1.5 no solo supera a Grok-1, sino que cierra la brecha de rendimiento con modelos líderes como Gemini 1.5 Pro, GPT-4 y Claude 3. Por ejemplo, el 81.3% de Grok-1.5 en MMLU supera al recién lanzado Mistral Large, pero aún se queda atrás del 83.7% de Gemini 1.5 Pro, el 86.4% de GPT-4 y el 86.8% de Claude 3 Opus. En el benchmark GSM8K, también se sitúa un poco por debajo de las ofertas de Google, OpenAI y Anthropic. Sin embargo, Grok-1.5 se destaca en HumanEval, superando a todos los modelos salvo Claude 3 Opus.

Brian Roemmele, consultor tecnológico, anticipa que Grok-2, actualmente en entrenamiento, se establecerá como una de las plataformas de IA LLM más potentes tras su lanzamiento, superando a OpenAI en múltiples métricas.

Disponibilidad de Grok-1.5

xAI planea desplegar Grok-1.5 la próxima semana, comenzando con pruebas para los primeros usuarios del chatbot Grok en la plataforma X (anteriormente Twitter). El lanzamiento será gradual, introduciendo nuevas características, como un posible "modo divertido", mientras se amplía el acceso a más usuarios.

La liberación inicial de Grok en X formó parte de una estrategia para aumentar la adopción tanto de Grok como de la plataforma X. Actualmente, Grok está disponible mediante una suscripción 'Premium+' de $16 al mes, pero Musk anunció que también será accesible para todos los suscriptores Premium de $8 al mes. Además, los seguidores verificados en ciertos niveles de suscripción recibirán beneficios Premium, incluido el acceso gratuito a Grok.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles