Surgen preguntas sobre el rendimiento del nuevo líder en IA de código abierto, Reflection 70B, acusado de 'fraude'.

Home Noticias de IA Surgen preguntas sobre el rendimiento del nuevo líder en IA de código abierto, Reflection 70B, acusado de 'fraude'.

Updated on septiembre 8 2024

En solo un fin de semana, el nuevo competidor en modelos de IA de código abierto enfrentó un escrutinio significativo que puso en duda su reputación. Reflection 70B, una variante del modelo de lenguaje grande Llama 3.1 de Meta lanzada por la startup neoyorquina HyperWrite (anteriormente OthersideAI), fue elogiada por alcanzar referentes impresionantes. Sin embargo, evaluaciones posteriores por testers independientes cuestionaron la validez de estas afirmaciones.

El 6 de septiembre de 2024, el cofundador de HyperWrite, Matt Shumer, proclamó en la red social X que Reflection 70B era "el mejor modelo de código abierto del mundo". Shumer detalló que el modelo utiliza "Reflection Tuning", una técnica que permite a los LLMs verificar la precisión de sus resultados antes de mostrarlos a los usuarios, mejorando su rendimiento en diversos dominios.

Sin embargo, el 7 de septiembre, una organización llamada Artificial Analysis desafió públicamente esta afirmación. Su análisis señaló que Reflection 70B obtuvo el mismo puntaje en MMLU que Llama 3 70B, pero quedó notablemente por debajo de Llama 3.1 70B de Meta, lo que contrastaba con los resultados iniciales de HyperWrite.

Shumer admitió más tarde que los pesos del modelo se vieron comprometidos durante el proceso de carga en Hugging Face, lo que podría explicar las discrepancias en el rendimiento en comparación con las pruebas internas.

El 8 de septiembre, tras probar una API privada, Artificial Analysis reconoció haber observado resultados impresionantes pero no verificados, que no cumplían con las afirmaciones originales de HyperWrite. También formularon preguntas críticas sobre el lanzamiento de una versión no probada del modelo y la falta de pesos publicados para la versión de la API privada.

Miembros de la comunidad en hilos de Reddit dedicados a la IA también expresaron escepticismo sobre el rendimiento y los orígenes de Reflection 70B. Algunos afirmaron que parecía ser una variante de Llama 3 en lugar del anticipado Llama 3.1, aumentando aún más las dudas sobre su legitimidad. Un usuario incluso acusó a Shumer de perpetrar "fraude en la comunidad de investigación en IA".

A pesar de la negativa, algunos usuarios defendieron a Reflection 70B, citando un buen rendimiento en sus casos de uso. Sin embargo, la rápida transición de la emoción a la crítica resalta la naturaleza volátil del panorama de la IA.

Por 48 horas, la comunidad de investigación en IA esperó actualizaciones de Shumer sobre el rendimiento del modelo y los pesos corregidos. El 10 de septiembre, finalmente abordó la controversia, diciendo: "Me adelanté con este anuncio y pido disculpas. Tomamos decisiones basadas en la información que teníamos. Sé que muchos están emocionados por este potencial, pero escépticos. Un equipo está trabajando arduamente para averiguar qué ocurrió. Una vez que aclaremos los hechos, mantendremos transparencia con la comunidad".

Shumer también hizo referencia a una publicación de Sahil Chaudhary, fundador de Glaive AI, quien validó la confusión en torno a las afirmaciones del modelo y comentó sobre la dificultad para reproducir los puntajes de referencia. Chaudhary declaró: "Quiero abordar las críticas válidas. Estoy investigando la situación y proporcionaré un resumen transparente pronto. En ningún momento ejecuté modelos de otros proveedores y busco explicar las discrepancias, incluidos comportamientos inesperados como omitir ciertos términos. Tengo mucho por descubrir sobre los benchmarks y agradezco la paciencia de la comunidad mientras reconstruyo la confianza".

La situación sigue sin resolverse, y persiste el escepticismo en torno a Reflection 70B y sus afirmaciones dentro de la comunidad de IA de código abierto.

LightEval: Una Herramienta de Código Abierto de Hugging Face para Mejorar la Responsabilidad en la IA

Prepárate para una Era de Fluctuaciones Inesperadas en los Precios de las GPU

Most people like

Replayed - YouTube Video Editing Team Service

21.8K

Mejora el crecimiento de tu canal de YouTube con estrategias de edición personalizadas, diseñadas para aumentar el compromiso y atraer a más espectadores.

Edición de YouTube AI YouTube Assistant

FAT2FIT

5.9K

Presentamos FAT2FIT: una innovadora plataforma impulsada por IA, diseñada para facilitar transformaciones corporales personalizadas acorde a tus metas de fitness únicas. Con tecnología de vanguardia y orientación experta, empoderamos a las personas para lograr su físico ideal de manera más efectiva que nunca.

transformación corporal Other

HitPaw Voice Changer

2.4M

Transforma tu voz al instante con un innovador cambiador de voz AI en tiempo real que ofrece una amplia gama de efectos impresionantes. ¡Experimenta una modulación de voz fluida y eleva tu creatividad audio hoy mismo!

Cambiador de voz AI Voice Changer

Synthesia

1.9M

Produce fácilmente videos profesionales con avatares de IA y voces en múltiples idiomas—sin necesidad de actores ni equipos costosos. ¡Descubre hoy una experiencia de creación de videos sin interrupciones!

creación de video AI Content Generator

Find AI tools in YBX