Les évaluations de tiers n'ont pas réussi à reproduire les performances annoncées par Matt Shumer, cofondateur et PDG de la startup d'écriture IA HyperWrite, concernant le modèle Reflection 70B. En conséquence, Shumer fait face à des accusations de fraude sur X.
Un nouveau concurrent s'est manifesté sur le marché de l'IA : Matt Shumer a présenté Reflection 70B, un grand modèle de langage (LLM) basé sur Llama 3.1-70B Instruct de Meta. Ce modèle intègre une technique novatrice d'auto-correction des erreurs, affichant des performances impressionnantes lors des benchmarks externes.
Dans un post sur X, Shumer a déclaré que Reflection 70B était « le meilleur modèle d'IA open-source au monde », accompagnant ses propos d'un graphique de performance qui souligne les résultats supérieurs du modèle.
Tests Rigoureux et Performance
Reflection 70B a été soumis à des tests approfondis utilisant des benchmarks tels que MMLU et HumanEval, avec le LLM Decontaminator de LMSys garantissant des résultats sans contamination. Les résultats montrent que Reflection surpasse constamment les modèles de la série Llama de Meta et rivalise étroitement avec les modèles commerciaux leaders.
Les utilisateurs peuvent tester ce modèle directement sur le site de démonstration. Toutefois, Shumer a noté que l'annonce a généré un trafic considérable, et son équipe est en train de se procurer des GPU supplémentaires pour répondre à la demande.
Capacités Uniques de Reflection 70B
Shumer a souligné que Reflection 70B présente des avantages distincts, notamment dans l'identification et la correction des erreurs. Il a expliqué : « Les LLM hallucineraient souvent sans pouvoir rectifier le tir. Que se passerait-il si un LLM pouvait apprendre à reconnaître et corriger ses propres erreurs ? »
Cette réflexion a donné naissance au nom « Reflection », car le modèle peut évaluer ses sorties pour en vérifier l'exactitude avant de les présenter à l'utilisateur. Sa particularité réside dans le « réflexion tuning », une technique qui lui permet d'identifier les défauts dans son raisonnement et de les corriger avant de finaliser une réponse.
Reflection 70B introduit des tokens spéciaux pour le raisonnement structuré et la correction d'erreurs, permettant une interaction fluide avec l'utilisateur. Lors de l'inférence, le modèle fournit des sorties de raisonnement dans des balises désignées, permettant des corrections en temps réel lorsqu'il identifie des erreurs.
La démo du playground propose des suggestions de prompts, telles que compter la lettre « r » dans « Fraise » ou déterminer quel nombre est plus grand, 9.11 ou 9.9—des tâches que de nombreux modèles d'IA, y compris des modèles propriétaires bien connus, ont souvent du mal à exécuter correctement. Lors de nos tests, Reflection 70B a finalement donné la bonne réponse après un léger délai.
Cette fonctionnalité rend le modèle particulièrement précieux pour des tâches nécessitant une grande précision, car il décompose le raisonnement en étapes distinctes pour une meilleure précision. Reflection 70B est disponible en téléchargement via Hugging Face, avec un accès API prévu plus tard dans la journée par le biais de Hyperbolic Labs.
Anticipation pour Reflection 405B
La sortie de Reflection 70B n'est que le début. Shumer a annoncé qu'un modèle encore plus grand, Reflection 405B, sera lancé la semaine prochaine. Il a mentionné les efforts en cours pour intégrer Reflection 70B dans le produit principal d'assistance à l'écriture AI de HyperWrite, déclarant : « Je partagerai plus d'informations à ce sujet bientôt. »
Reflection 405B vise à surpasser même les meilleurs modèles fermés actuellement disponibles. Shumer a également indiqué qu'un rapport détaillé sur le processus d'entraînement et les benchmarks sera publié, offrant des aperçus sur les innovations derrière la série Reflection.
Basé sur Llama 3.1 70B Instruct de Meta, Reflection 70B maintient la compatibilité avec les outils et pipelines existants grâce au format de chat Llama.
Contribution des Données Synthétiques par Glaive
Un facteur essentiel du succès de Reflection 70B est la production de données synthétiques par Glaive, une startup spécialisée dans la création de jeux de données spécifiques aux cas d'utilisation. La plateforme de Glaive permet un entraînement rapide de petits modèles de langage ciblés, répondant à un goulet d'étranglement significatif dans le développement de l'IA : la disponibilité de données de haute qualité et spécifiques à des tâches.
En produisant des jeux de données synthétiques adaptés à des besoins spécifiques, Glaive permet aux entreprises de peaufiner les modèles de manière efficace et économique. La société a précédemment connu le succès avec des modèles plus petits, comme un modèle de 3 milliards de paramètres qui a surpassé de plus grands modèles open-source dans des tâches comme HumanEval. Spark Capital a soutenu Glaive avec un investissement initial de 3,5 millions de dollars, soutenant sa vision d'un écosystème d'IA démocratisé.
En s'appuyant sur la technologie de Glaive, l'équipe de Reflection a généré des données synthétiques de haute qualité, accélérant considérablement le développement. Selon Shumer, le processus d'entraînement a duré trois semaines, impliquant cinq itérations du modèle, avec un ensemble de données personnalisé construit à l'aide des systèmes de Glaive.
Historique de HyperWrite
Bien que l'apparition de Reflection 70B semble soudaine, Shumer est impliqué dans le secteur de l'IA depuis des années. Il a cofondé ce qui était initialement appelé Otherside AI en 2020 avec Jason Kuperberg à Melville, New York. L'entreprise a gagné en notoriété avec HyperWrite, son produit phare, qui a évolué d'une extension Chrome pour créer des courriels en un assistant d'écriture IA complet capable de rédiger des essais et d'organiser des courriels. En novembre 2023, HyperWrite comptait deux millions d'utilisateurs, permettant à ses fondateurs de figurer sur la liste « 30 Under 30 » de Forbes.
En mars 2023, HyperWrite a sécurisé 2,8 millions de dollars d'investissements, y compris de la part de Madrona Venture Group, permettant l'introduction de fonctionnalités innovantes pilotées par l'IA qui transforment les navigateurs web en assistants virtuels pour diverses tâches.
Shumer souligne que la précision et la sécurité demeurent primordiales pour HyperWrite, surtout à mesure qu'elle explore des automatisations complexes. La plateforme continue de peaufiner son outil d'assistance personnelle, reflétant le même souci de précision et de responsabilité que l'on retrouve dans Reflection 70B.
Perspectives Futures pour HyperWrite et les Modèles Reflection
En regardant vers l'avenir, Shumer envisage des avancées encore plus ambitieuses pour la série Reflection. Avec le lancement imminent de Reflection 405B, il estime qu'il dépassera considérablement les performances des modèles propriétaires comme GPT-4o d'OpenAI.
Cela pose des défis non seulement pour OpenAI, qui cherche apparemment d'importants nouveaux investissements de grands acteurs comme Nvidia et Apple, mais aussi pour d'autres fournisseurs de modèles fermés comme Anthropic et Microsoft.
Alors que le paysage de l'IA générative évolue, l'équilibre des pouvoirs est à nouveau en train de changer. Le lancement de Reflection 70B marque un moment clé pour l'IA open-source, offrant aux développeurs et aux chercheurs l'accès à un outil puissant qui rivalise avec les modèles propriétaires. Grâce à son approche novatrice en matière de raisonnement et de correction d'erreurs, Reflection pourrait établir une nouvelle référence pour les capacités des modèles open-source.