Las evaluaciones de terceros no han logrado replicar los métricas de rendimiento compartidas anteriormente por Matt Shumer, cofundador y CEO de la startup de escritura con IA HyperWrite, en relación con Reflection 70B. Como resultado, Shumer enfrenta acusaciones de fraude en X.
Un nuevo competidor ha surgido en el panorama de la IA: Matt Shumer ha anunciado Reflection 70B, un modelo de lenguaje grande (LLM) basado en Llama 3.1-70B Instruct de Meta. Este modelo incorpora una técnica innovadora de autocorrección de errores, mostrando un rendimiento impresionante en los benchmarks de terceros.
En una publicación en X, Shumer declaró que Reflection 70B es “el mejor modelo de IA de código abierto del mundo.” Compartió un gráfico de rendimiento comparativo, destacando los resultados superiores del modelo.
Pruebas Rigurosas y Rendimiento
Reflection 70B ha pasado por pruebas exhaustivas utilizando benchmarks como MMLU y HumanEval, con el Decontaminador LLM de LMSys asegurando resultados sin contaminación. Los hallazgos demuestran que Reflection supera consistentemente a los modelos de la serie Llama de Meta y compite estrechamente con los modelos comerciales líderes.
Los usuarios pueden experimentar este modelo en el sitio de demostración. Sin embargo, Shumer mencionó que el anuncio ha generado un tráfico significativo, y su equipo está buscando rápidamente más GPUs para satisfacer la demanda.
Capacidades Únicas de Reflection 70B
Shumer enfatizó que Reflection 70B ofrece ventajas distintivas, especialmente en la identificación y corrección de errores. Explicó: “Los LLM a menudo alucinan sin la capacidad de corregir su rumbo. ¿Qué pasaría si un LLM pudiera aprender a reconocer y corregir sus propios errores?”
Este enfoque dio origen al nombre “Reflection”, ya que el modelo puede evaluar sus salidas por precisión antes de presentarlas al usuario. Su ventaja radica en el "ajuste reflexivo", una técnica que le permite identificar deficiencias en su razonamiento y corregirlas antes de finalizar una respuesta.
Reflection 70B introduce tokens especiales para el razonamiento estructurado y la corrección de errores, facilitando la interacción del usuario. Durante la inferencia, el modelo proporciona salidas de razonamiento dentro de etiquetas designadas, permitiendo correcciones en tiempo real cuando identifica errores.
La demostración incluye indicaciones sugeridas, como contar la letra “r” en “Strawberry” y determinar cuál número es mayor, 9.11 o 9.9—tareas que muchos modelos de IA, incluidos los modelos propietarios conocidos, a menudo calculan incorrectamente. En nuestras pruebas, Reflection 70B proporcionó finalmente la respuesta correcta tras una breve demora.
Esta funcionalidad hace que el modelo sea particularmente valioso para tareas que requieren alta precisión, ya que descompone el razonamiento en pasos distintos para mejorar la exactitud. Reflection 70B está disponible para descarga a través de Hugging Face, y se espera que el acceso a la API esté disponible más tarde hoy a través de Hyperbolic Labs.
Expectativa por Reflection 405B
El lanzamiento de Reflection 70B es solo el comienzo. Shumer anunció que un modelo aún más grande, Reflection 405B, debutará la próxima semana. Mencionó esfuerzos en curso para integrar Reflection 70B en el producto principal de asistente de escritura de IA de HyperWrite, afirmando: “Compartiré más sobre esto pronto.”
Reflection 405B tiene como objetivo superar incluso a los mejores modelos de código cerrado actualmente disponibles. Shumer también indicó que se publicará un informe detallado sobre el proceso de entrenamiento y los benchmarks, ofreciendo información sobre las innovaciones detrás de la serie Reflection.
Construido sobre Llama 3.1 70B Instruct de Meta, Reflection 70B mantiene compatibilidad con herramientas y flujos de trabajo existentes a través del formato de chat de Llama.
Contribución de Datos Sintéticos por Glaive
Un factor vital en el éxito de Reflection 70B es el dato sintético generado por Glaive, una startup enfocada en crear conjuntos de datos específicos para casos de uso. La plataforma de Glaive permite el entrenamiento rápido de modelos de lenguaje pequeños y dirigidos, abordando un importante cuello de botella en el desarrollo de IA: la disponibilidad de datos de alta calidad y específicos para tareas.
Al producir conjuntos de datos sintéticos adaptados a necesidades específicas, Glaive permite a las empresas ajustar modelos de manera eficiente y económica. La compañía ha demostrado éxito previamente con modelos más pequeños, como un modelo de 3B de parámetros que superó a contrapartes más grandes de código abierto en tareas como HumanEval. Spark Capital ha respaldado a Glaive con una inversión semilla de $3.5 millones, apoyando su visión de un ecosistema de IA democratizado.
Aprovechando la tecnología de Glaive, el equipo de Reflection generó datos sintéticos de alta calidad, acelerando dramáticamente el desarrollo. Según Shumer, el proceso de entrenamiento tomó tres semanas, involucrando cinco iteraciones del modelo, con un conjunto de datos personalizado construido utilizando los sistemas de Glaive.
Antecedentes de HyperWrite
Aunque puede parecer que Reflection 70B apareció de repente, Shumer ha estado inmerso en el sector de la IA durante años. Cofundó lo que inicialmente se llamó Otherside AI en 2020 junto a Jason Kuperberg en Melville, Nueva York. La empresa ganó tracción con HyperWrite, su producto insignia, que evolucionó de una extensión de Chrome para redactar correos electrónicos a un asistente completo de escritura IA capaz de redactar ensayos y organizar correos. Hasta noviembre de 2023, HyperWrite contaba con dos millones de usuarios, lo que le valió a sus fundadores un lugar en la lista "30 menores de 30" de Forbes.
En marzo de 2023, HyperWrite aseguró $2.8 millones de inversores, incluido Madrona Venture Group, lo que permitió la introducción de funciones innovadoras impulsadas por IA que transforman los navegadores web en asistentes virtuales que manejan diversas tareas.
Shumer enfatiza que la precisión y la seguridad siguen siendo primordiales para HyperWrite, especialmente a medida que profundiza en la automatización compleja. La plataforma refina continuamente su herramienta de asistente personal, reflejando el mismo cuidado por la precisión y la responsabilidad que se encuentra en Reflection 70B.
Perspectivas Futuras para HyperWrite y los Modelos Reflection
Mirando hacia adelante, Shumer planea avances aún mayores para la serie Reflection. Con el inminente lanzamiento de Reflection 405B, cree que superará significativamente el rendimiento de modelos propietarios como GPT-4o de OpenAI.
Esto representa desafíos no solo para OpenAI, que supuestamente busca nuevas inversiones sustanciales de grandes actores como Nvidia y Apple, sino también para otros proveedores de modelos de código cerrado como Anthropic y Microsoft.
A medida que el panorama de la IA generativa evoluciona, el equilibrio de poder está cambiando una vez más. El debut de Reflection 70B marca un momento crucial para la IA de código abierto, brindando a desarrolladores e investigadores acceso a una herramienta poderosa que rivaliza con los modelos propietarios. Con su enfoque innovador en el razonamiento y la corrección de errores, Reflection podría establecer un nuevo estándar para las capacidades de los modelos de código abierto.