Des questions se posent sur la performance du nouveau leader de l'IA open source, Reflection 70B, accusé de 'fraude'.

Home Actualités IA Des questions se posent sur la performance du nouveau leader de l'IA open source, Reflection 70B, accusé de 'fraude'.

Updated on septembre 8 2024

En un seul week-end, le nouveau prétendant dans le domaine des modèles d'IA open source a fait face à une intense scrutiny, remettant en question sa réputation. Reflection 70B, une variante du modèle de langage Llama 3.1 de Meta, lancée par la startup new-yorkaise HyperWrite (anciennement OthersideAI), avait été saluée pour avoir atteint des résultats impressionnants. Cependant, des évaluations ultérieures par des testeurs indépendants ont soulevé des doutes sur la validité de ces affirmations.

Le 6 septembre 2024, Matt Shumer, cofondateur d'HyperWrite, a proclamé sur le réseau social X que Reflection 70B était "le meilleur modèle open source au monde". Shumer a expliqué que le modèle utilisait la "Reflection Tuning", une technique permettant aux LLM de vérifier l'exactitude de leurs résultats avant de les présenter aux utilisateurs, améliorant ainsi les performances dans divers domaines.

Cependant, le 7 septembre, une organisation nommée Artificial Analysis a publiquement contesté cette affirmation. Leur analyse a révélé que Reflection 70B avait obtenu le même score MMLU que Llama 3 70B, mais était largement derrière le Llama 3.1 70B de Meta, créant ainsi un constat frappant par rapport aux résultats initiaux d'HyperWrite.

Shumer a ensuite admis que les poids du modèle avaient été compromis lors du processus de téléchargement sur Hugging Face, ce qui pourrait expliquer les écarts de performance par rapport aux tests internes.

Le 8 septembre, après avoir testé une API privée, Artificial Analysis a reconnu avoir observé des résultats impressionnants mais non vérifiés qui ne correspondaient pas aux affirmations initiales d'HyperWrite. Ils ont également soulevé des questions cruciales concernant la publication d'une version non testée du modèle et l'absence de poids publiés pour la version API privée.

Les membres de la communauté sur Reddit, axés sur l'IA, ont également exprimé leur scepticisme quant aux performances et aux origines de Reflection 70B. Certains ont affirmé qu'il semblait être une variante de Llama 3 plutôt que le Llama 3.1 attendu, suscitant d'autres doutes sur sa légitimité. Un utilisateur a même accusé Shumer de "fraude dans la communauté de recherche en IA."

Malgré les critiques, certains utilisateurs ont défendu Reflection 70B, faisant état de bonnes performances dans leurs cas d'utilisation. Cependant, cette transition rapide d'enthousiasme à la critique souligne la nature volatile du paysage de l'IA.

Pendant 48 heures, la communauté de recherche en IA a attendu des nouvelles de Shumer sur les performances du modèle et les poids corrigés. Le 10 septembre, il a enfin abordé la controverse, déclarant : "J'ai anticipé cette annonce et je m'excuse. Nous avons pris des décisions basées sur l'information dont nous disposions. Je sais que beaucoup sont enthousiasmés par ce potentiel tout en étant sceptiques. Une équipe travaille avec diligence pour comprendre ce qui s'est passé. Une fois que nous aurons clarifié les faits, nous maintiendrons la transparence avec la communauté."

Shumer a mentionné une publication de Sahil Chaudhary, fondateur de Glaive AI, qui a validé la confusion autour des affirmations du modèle et a souligné la difficulté de reproduire les scores de référence. Chaudhary a déclaré : "Je veux aborder les critiques légitimes. J'enquête sur la situation et je fournirai bientôt un résumé transparent. À aucun moment je n'ai exécuté des modèles d'autres fournisseurs, et je vise à expliquer les écarts, y compris des comportements inattendus comme le fait de sauter certains termes. J'ai beaucoup à découvrir concernant les benchmarks et j'apprécie la patience de la communauté pendant que je reconstruis la confiance."

La situation demeure non résolue, avec un scepticisme persistant autour de Reflection 70B et de ses affirmations au sein de la communauté IA open source.

LightEval : Un outil open-source de Hugging Face pour renforcer la responsabilité de l'IA

Préparez-vous à une ère de fluctuations imprévisibles des prix des GPU

Most people like

Tatship

33.3K

Explorez virtuellement des modèles de tatouages avant de les inscrire sur votre peau.

Essai de tatouage virtuel AI Tattoo Generator

Xpression Camera

54.4K

Élevez instantanément votre style avec l'application Xpression Camera, conçue pour transformer votre apparence en temps réel. Améliorez vos photos et vidéos sans effort et découvrez des possibilités infinies d'expression personnelle !

application de caméra virtuelle AI Avatar Generator

moveme.tv

132.1K

Découvrez des recommandations de films personnalisées avec moveme.tv ! Adaptée à votre humeur unique, notre plateforme sélectionne les meilleurs films disponibles sur tous les services de streaming, garantissant que votre prochaine soirée cinéma corresponde parfaitement à vos émotions.

films Other

Continual Engine

9.7K

Solutions d'accessibilité alimentées par l'IA : transformantes, économiques et efficaces.

IA Captions or Subtitle

Find AI tools in YBX