Surgen preguntas sobre el rendimiento del nuevo líder en IA de código abierto, Reflection 70B, acusado de 'fraude'.

Home Noticias de IA Surgen preguntas sobre el rendimiento del nuevo líder en IA de código abierto, Reflection 70B, acusado de 'fraude'.

Updated on septiembre 8 2024

En solo un fin de semana, el nuevo competidor en modelos de IA de código abierto enfrentó un escrutinio significativo que puso en duda su reputación. Reflection 70B, una variante del modelo de lenguaje grande Llama 3.1 de Meta lanzada por la startup neoyorquina HyperWrite (anteriormente OthersideAI), fue elogiada por alcanzar referentes impresionantes. Sin embargo, evaluaciones posteriores por testers independientes cuestionaron la validez de estas afirmaciones.

El 6 de septiembre de 2024, el cofundador de HyperWrite, Matt Shumer, proclamó en la red social X que Reflection 70B era "el mejor modelo de código abierto del mundo". Shumer detalló que el modelo utiliza "Reflection Tuning", una técnica que permite a los LLMs verificar la precisión de sus resultados antes de mostrarlos a los usuarios, mejorando su rendimiento en diversos dominios.

Sin embargo, el 7 de septiembre, una organización llamada Artificial Analysis desafió públicamente esta afirmación. Su análisis señaló que Reflection 70B obtuvo el mismo puntaje en MMLU que Llama 3 70B, pero quedó notablemente por debajo de Llama 3.1 70B de Meta, lo que contrastaba con los resultados iniciales de HyperWrite.

Shumer admitió más tarde que los pesos del modelo se vieron comprometidos durante el proceso de carga en Hugging Face, lo que podría explicar las discrepancias en el rendimiento en comparación con las pruebas internas.

El 8 de septiembre, tras probar una API privada, Artificial Analysis reconoció haber observado resultados impresionantes pero no verificados, que no cumplían con las afirmaciones originales de HyperWrite. También formularon preguntas críticas sobre el lanzamiento de una versión no probada del modelo y la falta de pesos publicados para la versión de la API privada.

Miembros de la comunidad en hilos de Reddit dedicados a la IA también expresaron escepticismo sobre el rendimiento y los orígenes de Reflection 70B. Algunos afirmaron que parecía ser una variante de Llama 3 en lugar del anticipado Llama 3.1, aumentando aún más las dudas sobre su legitimidad. Un usuario incluso acusó a Shumer de perpetrar "fraude en la comunidad de investigación en IA".

A pesar de la negativa, algunos usuarios defendieron a Reflection 70B, citando un buen rendimiento en sus casos de uso. Sin embargo, la rápida transición de la emoción a la crítica resalta la naturaleza volátil del panorama de la IA.

Por 48 horas, la comunidad de investigación en IA esperó actualizaciones de Shumer sobre el rendimiento del modelo y los pesos corregidos. El 10 de septiembre, finalmente abordó la controversia, diciendo: "Me adelanté con este anuncio y pido disculpas. Tomamos decisiones basadas en la información que teníamos. Sé que muchos están emocionados por este potencial, pero escépticos. Un equipo está trabajando arduamente para averiguar qué ocurrió. Una vez que aclaremos los hechos, mantendremos transparencia con la comunidad".

Shumer también hizo referencia a una publicación de Sahil Chaudhary, fundador de Glaive AI, quien validó la confusión en torno a las afirmaciones del modelo y comentó sobre la dificultad para reproducir los puntajes de referencia. Chaudhary declaró: "Quiero abordar las críticas válidas. Estoy investigando la situación y proporcionaré un resumen transparente pronto. En ningún momento ejecuté modelos de otros proveedores y busco explicar las discrepancias, incluidos comportamientos inesperados como omitir ciertos términos. Tengo mucho por descubrir sobre los benchmarks y agradezco la paciencia de la comunidad mientras reconstruyo la confianza".

La situación sigue sin resolverse, y persiste el escepticismo en torno a Reflection 70B y sus afirmaciones dentro de la comunidad de IA de código abierto.

LightEval: Una Herramienta de Código Abierto de Hugging Face para Mejorar la Responsabilidad en la IA

Prepárate para una Era de Fluctuaciones Inesperadas en los Precios de las GPU

Most people like

Cursor - The AI-first Code Editor

28.7K

Cursor es un editor de código impulsado por IA, diseñado para mejorar la colaboración en la programación en pareja, permitiendo a los desarrolladores codificar de manera más eficiente y efectiva juntos.

Primero en IA AI Code Assistant

RunDiffusion

266.5K

Revoluciona tu proceso creativo con nuestra plataforma de creación de imágenes en la nube, diseñada para liberar tu potencial artístico. Ya seas un diseñador gráfico profesional o un apasionado aficionado, nuestras herramientas y funciones intuitivas te permiten crear visuales impresionantes sin esfuerzo. Únete a una comunidad de creativos y explora las infinitas posibilidades del diseño digital, todo desde la comodidad de la nube. ¡Elevate tus proyectos con facilidad hoy mismo!

plataforma basada en la nube AI Art Generator

zhida.ai

zhida.ai es un producto de búsqueda por IA lanzado por Zhihu, cuyo objetivo es ayudar a los usuarios a «descubrir el mundo a través de preguntas». Los usuarios pueden hacer cualquier pregunta en línea y recibir respuestas generadas.

Respuesta a preguntas AI Search Engine

Shugar.ai

179K

Explora el cautivador mundo de los personajes generados por inteligencia artificial, diseñados para experiencias interactivas inmersivas. Estas creaciones inteligentes revolucionan la narrativa, los videojuegos y los entornos virtuales al ofrecer interacciones dinámicas y responsivas a los usuarios. Descubre cómo la inteligencia artificial mejora el desarrollo de personajes, enriqueciendo y haciendo más atractivas las narrativas. Desata la creatividad en tus proyectos y aprende cómo estos personajes innovadores pueden llevar tus experiencias interactivas a nuevos niveles.

personajes de IA AI Character

Find AI tools in YBX