NVIDIA Présente le Modèle Open-Source Nemotron-70B, Dépassant GPT-4o et Claude 3.5 en Performances

NVIDIA Ouvre le Modèle Nemotron-70B en Accélérant l’Avancement de l’IA

Récemment, NVIDIA a rendu son dernier modèle puissant, le Nemotron-70B, accessible en open source. Depuis son lancement, il a suscité de vives discussions au sein de la communauté IA, surpassant plus de 140 modèles, y compris GPT-4, GPT-4 Turbo et Claude 3.5 Sonnet, dans divers benchmarks, se plaçant juste derrière le dernier modèle d’OpenAI, o1.

Construit sur la base du Llama-3.1-70B, le Nemotron-70B a été entraîné grâce à l'apprentissage par renforcement à partir de retours humains (RLHF) et à une méthode d'entraînement mixte novatrice intégrant des modèles de Bradley-Terry et une analyse de régression pour le modélisation des récompenses. Le jeu de données d'entraînement disponible publiquement, couplé à des signaux de récompense basés sur Llama-3.1-Nemotron-70B-Reward, permet au modèle d'utiliser les invites HelpSteer2-Préférence pour générer des réponses plus alignées avec les préférences humaines.

Lors des évaluations, comme le test difficile de l’Arena des Grands Modèles LMSYS, le Nemotron-70B a atteint un score de 85 ; il a obtenu 57.6 sur AlpacaEval 2 LC et 8.98 sur le GPT-4-Turbo MT-Bench. Ces résultats témoignent de ses capacités exceptionnelles.

Les évaluations des utilisateurs montrent que le Nemotron-70B excelle dans la résolution de questions complexes. Par exemple, lors du calcul du nombre de bananes, le modèle a analysé avec précision et déduit la réponse correcte. Bien qu'il ait commis une légère erreur concernant la date de décès d'une célébrité de 89 ans, son rendement global reste impressionnant.

Les résultats du modèle sur des requêtes difficiles sont également significatifs. Bien qu'il n'ait pas complètement réussi certains tests, ses premières réponses étaient stimulantes. Par exemple, lors d'une discussion sur la distance de la Lune et sa praticabilité, le modèle a engagé une discussion détaillée d'un point de vue physique, menant à des conclusions raisonnables.

Des experts de l'industrie suggèrent que la stratégie d'NVIDIA de rendre constamment des modèles puissants open source vise à stimuler les ventes de chips. À mesure que la complexité des modèles augmente, les entreprises sont contraintes de commander davantage de chips pour l'entraînement, permettant aux modèles open source de dynamiser efficacement les ventes de matériel. Cependant, cette stratégie met une pression considérable sur les startups, qui peinent à rivaliser avec les géants de la technologie en termes de commercialisation et de visibilité. Si elles ne parviennent pas à réaliser des bénéfices, elles risquent de perdre des investissements.

Malgré ces défis, la sortie en open source du Nemotron-70B apporte sans aucun doute une valeur significative à la communauté IA. Ce modèle fait progresser la technologie de l'IA, offrant aux chercheurs et aux développeurs des options et des possibilités améliorées. L'initiative open source d'NVIDIA insuffle non seulement une nouvelle énergie dans le domaine, mais établit également une base pour l'émergence de modèles open source de haute qualité, favorisant une croissance collaborative au sein du secteur de l'IA.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles