Un nuevo modelo de lenguaje grande (LLM) ha aparentemente eclipsado al GPT-4 de OpenAI solo un mes después de su lanzamiento. El chatbot Claude 3.5 Sonnet, desarrollado por Anthropic, afirma liderar la industria en pruebas de referencia de terceros, siendo más rápido y rentable que los anteriores modelos Claude.
Sin embargo, lanzar un nuevo modelo y reclamar superioridad no garantiza que los usuarios experimenten mejoras en su rendimiento. (Familia Google Gemini, tomen nota: aunque se dice que superan a GPT-4 en ciertos métricas, el uso en el mundo real cuenta una historia diferente).
En contraste, Claude 3.5 Sonnet ha captado gran atención desde su lanzamiento, con influenciadores de IA y usuarios avanzados compartiendo sus experiencias positivas en línea. Ellos demuestran las impresionantes capacidades de este LLM, considerado "el más inteligente" disponible hoy en día.
Mejorando Habilidades de Programación y Creación de Productos
La influyente de IA en empresas, Allie K. Miller, destacó en X que Claude 3.5 Sonnet creó un juego completamente jugable basado únicamente en una captura de pantalla, logrando esta hazaña en menos de treinta segundos.
Además, la cuenta informativa de X @TestingCatalog News mostró el nuevo espacio "Artifacts", presentado junto a Claude 3.5 Sonnet, que demuestra su capacidad para ejecutar código real en un formulario web funcional diseñado por el chatbot. El modelo incluso recreó imágenes inspiradas en la película Hackers de 1995.
Pietro Schirano, fundador de la startup de generación de imágenes de IA EverArt, comentó en X cómo la combinación de Claude 3.5 Sonnet con la herramienta Maestro mostró "chispa de AGI".
Respaldo del Personal de Anthropic a Claude 3.5 Sonnet
Aunque los defensores del modelo, el líder de relaciones con desarrolladores de Anthropic, Alex Albert, tuiteó sobre la creciente destreza de Claude 3.5 Sonnet en programación y en la solución autónoma de solicitudes de extracción. Sugerió que un porcentaje significativo del código podría ser generado por LLMs en el próximo año.
De manera similar, la empleada técnica de Anthropic, Maggie Vo, compartió en X que Claude 3.5 Sonnet ahora maneja "la mitad de mi trabajo... y no podría estar más feliz".
Presión Sobre OpenAI
Con Claude 3.5 Sonnet superando a GPT-4 y con precios competitivos, OpenAI enfrenta una creciente presión para justificar las ofertas de su modelo. Ethan Mollick, profesor en la Wharton School of Business, comparó la función Artifacts con una versión simplificada del Intérprete de Código de GPT-4 de OpenAI.
El usuario @kimmonismus fue más lejos, afirmando que OpenAI corre el riesgo de "dormirse en AGI", el objetivo de desarrollar una IA que supere a los humanos en tareas con valor económico. Criticaron a la compañía por anunciar características adicionales de GPT-4 que aún no se han materializado, como nuevas modalidades de voz.
Limitaciones Persisten
A pesar del entusiasmo por Claude 3.5 Sonnet, los críticos señalaron que aún lucha con tareas cognitivas básicas, como jugar al tres en raya. El periodista tecnológico Timothy B. Lee, conocido como @binarybits en X, destacó que el modelo a veces comete errores humorísticos, compartiendo una captura de pantalla en la que afirmaba erróneamente que tres cuartos valen más que 100 centavos.
En general, Claude 3.5 Sonnet representa un avance significativo para Anthropic y el panorama de los LLMs. Aunque quedan algunos problemas, el modelo demuestra que los avances en la tecnología de IA continúan acelerándose, impulsados por los recursos computacionales actuales.