En solo un fin de semana, el nuevo competidor en modelos de IA de código abierto enfrentó un escrutinio significativo que puso en duda su reputación. Reflection 70B, una variante del modelo de lenguaje grande Llama 3.1 de Meta lanzada por la startup neoyorquina HyperWrite (anteriormente OthersideAI), fue elogiada por alcanzar referentes impresionantes. Sin embargo, evaluaciones posteriores por testers independientes cuestionaron la validez de estas afirmaciones.
El 6 de septiembre de 2024, el cofundador de HyperWrite, Matt Shumer, proclamó en la red social X que Reflection 70B era "el mejor modelo de código abierto del mundo". Shumer detalló que el modelo utiliza "Reflection Tuning", una técnica que permite a los LLMs verificar la precisión de sus resultados antes de mostrarlos a los usuarios, mejorando su rendimiento en diversos dominios.
Sin embargo, el 7 de septiembre, una organización llamada Artificial Analysis desafió públicamente esta afirmación. Su análisis señaló que Reflection 70B obtuvo el mismo puntaje en MMLU que Llama 3 70B, pero quedó notablemente por debajo de Llama 3.1 70B de Meta, lo que contrastaba con los resultados iniciales de HyperWrite.
Shumer admitió más tarde que los pesos del modelo se vieron comprometidos durante el proceso de carga en Hugging Face, lo que podría explicar las discrepancias en el rendimiento en comparación con las pruebas internas.
El 8 de septiembre, tras probar una API privada, Artificial Analysis reconoció haber observado resultados impresionantes pero no verificados, que no cumplían con las afirmaciones originales de HyperWrite. También formularon preguntas críticas sobre el lanzamiento de una versión no probada del modelo y la falta de pesos publicados para la versión de la API privada.
Miembros de la comunidad en hilos de Reddit dedicados a la IA también expresaron escepticismo sobre el rendimiento y los orígenes de Reflection 70B. Algunos afirmaron que parecía ser una variante de Llama 3 en lugar del anticipado Llama 3.1, aumentando aún más las dudas sobre su legitimidad. Un usuario incluso acusó a Shumer de perpetrar "fraude en la comunidad de investigación en IA".
A pesar de la negativa, algunos usuarios defendieron a Reflection 70B, citando un buen rendimiento en sus casos de uso. Sin embargo, la rápida transición de la emoción a la crítica resalta la naturaleza volátil del panorama de la IA.
Por 48 horas, la comunidad de investigación en IA esperó actualizaciones de Shumer sobre el rendimiento del modelo y los pesos corregidos. El 10 de septiembre, finalmente abordó la controversia, diciendo: "Me adelanté con este anuncio y pido disculpas. Tomamos decisiones basadas en la información que teníamos. Sé que muchos están emocionados por este potencial, pero escépticos. Un equipo está trabajando arduamente para averiguar qué ocurrió. Una vez que aclaremos los hechos, mantendremos transparencia con la comunidad".
Shumer también hizo referencia a una publicación de Sahil Chaudhary, fundador de Glaive AI, quien validó la confusión en torno a las afirmaciones del modelo y comentó sobre la dificultad para reproducir los puntajes de referencia. Chaudhary declaró: "Quiero abordar las críticas válidas. Estoy investigando la situación y proporcionaré un resumen transparente pronto. En ningún momento ejecuté modelos de otros proveedores y busco explicar las discrepancias, incluidos comportamientos inesperados como omitir ciertos términos. Tengo mucho por descubrir sobre los benchmarks y agradezco la paciencia de la comunidad mientras reconstruyo la confianza".
La situación sigue sin resolverse, y persiste el escepticismo en torno a Reflection 70B y sus afirmaciones dentro de la comunidad de IA de código abierto.