En un seul week-end, le nouveau prétendant dans le domaine des modèles d'IA open source a fait face à une intense scrutiny, remettant en question sa réputation. Reflection 70B, une variante du modèle de langage Llama 3.1 de Meta, lancée par la startup new-yorkaise HyperWrite (anciennement OthersideAI), avait été saluée pour avoir atteint des résultats impressionnants. Cependant, des évaluations ultérieures par des testeurs indépendants ont soulevé des doutes sur la validité de ces affirmations.
Le 6 septembre 2024, Matt Shumer, cofondateur d'HyperWrite, a proclamé sur le réseau social X que Reflection 70B était "le meilleur modèle open source au monde". Shumer a expliqué que le modèle utilisait la "Reflection Tuning", une technique permettant aux LLM de vérifier l'exactitude de leurs résultats avant de les présenter aux utilisateurs, améliorant ainsi les performances dans divers domaines.
Cependant, le 7 septembre, une organisation nommée Artificial Analysis a publiquement contesté cette affirmation. Leur analyse a révélé que Reflection 70B avait obtenu le même score MMLU que Llama 3 70B, mais était largement derrière le Llama 3.1 70B de Meta, créant ainsi un constat frappant par rapport aux résultats initiaux d'HyperWrite.
Shumer a ensuite admis que les poids du modèle avaient été compromis lors du processus de téléchargement sur Hugging Face, ce qui pourrait expliquer les écarts de performance par rapport aux tests internes.
Le 8 septembre, après avoir testé une API privée, Artificial Analysis a reconnu avoir observé des résultats impressionnants mais non vérifiés qui ne correspondaient pas aux affirmations initiales d'HyperWrite. Ils ont également soulevé des questions cruciales concernant la publication d'une version non testée du modèle et l'absence de poids publiés pour la version API privée.
Les membres de la communauté sur Reddit, axés sur l'IA, ont également exprimé leur scepticisme quant aux performances et aux origines de Reflection 70B. Certains ont affirmé qu'il semblait être une variante de Llama 3 plutôt que le Llama 3.1 attendu, suscitant d'autres doutes sur sa légitimité. Un utilisateur a même accusé Shumer de "fraude dans la communauté de recherche en IA."
Malgré les critiques, certains utilisateurs ont défendu Reflection 70B, faisant état de bonnes performances dans leurs cas d'utilisation. Cependant, cette transition rapide d'enthousiasme à la critique souligne la nature volatile du paysage de l'IA.
Pendant 48 heures, la communauté de recherche en IA a attendu des nouvelles de Shumer sur les performances du modèle et les poids corrigés. Le 10 septembre, il a enfin abordé la controverse, déclarant : "J'ai anticipé cette annonce et je m'excuse. Nous avons pris des décisions basées sur l'information dont nous disposions. Je sais que beaucoup sont enthousiasmés par ce potentiel tout en étant sceptiques. Une équipe travaille avec diligence pour comprendre ce qui s'est passé. Une fois que nous aurons clarifié les faits, nous maintiendrons la transparence avec la communauté."
Shumer a mentionné une publication de Sahil Chaudhary, fondateur de Glaive AI, qui a validé la confusion autour des affirmations du modèle et a souligné la difficulté de reproduire les scores de référence. Chaudhary a déclaré : "Je veux aborder les critiques légitimes. J'enquête sur la situation et je fournirai bientôt un résumé transparent. À aucun moment je n'ai exécuté des modèles d'autres fournisseurs, et je vise à expliquer les écarts, y compris des comportements inattendus comme le fait de sauter certains termes. J'ai beaucoup à découvrir concernant les benchmarks et j'apprécie la patience de la communauté pendant que je reconstruis la confiance."
La situation demeure non résolue, avec un scepticisme persistant autour de Reflection 70B et de ses affirmations au sein de la communauté IA open source.