Le Dernier Modèle "Strawberry" O1 d'OpenAI : Une Révolution dans les Capacités de Raisonnement
Le 12 septembre, OpenAI a lancé de manière inattendue son modèle "Strawberry", marquant le début de sa nouvelle gamme de modèles de raisonnement, appelée O1. Actuellement, les versions de prévisualisation O1 (o1-preview) et mini (o1-mini) sont disponibles pour les abonnés ChatGPT Plus et Team, tandis que les utilisateurs Enterprise et Edu y accéderont dès la semaine prochaine. OpenAI prévoit également d'offrir eventuallement O1-mini à tous les utilisateurs gratuits, bien qu'aucune date précise n'ait été confirmée.
Selon OpenAI, le modèle O1 aborde la résolution de problèmes de manière similaire au raisonnement humain, excelling dans des tâches liées aux mathématiques, à la programmation et à la science.
Pour évaluer les capacités du modèle o1-preview, un journaliste du Daily Economic News a réalisé des tests sur cinq dimensions : le Strawberry Test, la programmation, la création de mini-jeux, les mathématiques et l'économie, ainsi que les connaissances factuelles. Les résultats ont montré que o1-preview surpassait les précédents modèles d'OpenAI en programmation et en raisonnement mathématique, générant du code fonctionnel de manière fluide et trouvant de manière autonome des solutions à des scénarios complexes. De plus, o1-preview a fait preuve d'un style de raisonnement humain considérablement amélioré, bien que sa performance dans les évaluations de connaissances factuelles ait été insuffisante.
Les Capacités de Raisonnement de O1
Le modèle O1 représente une avancée significative pour OpenAI dans la création d'une IA semblable à l'humain. OpenAI a décidé d'abandonner entièrement l'image de marque "GPT" pour ce modèle, qui incarne une capacité fondamentalement nouvelle. Il aborde systématiquement les problèmes à travers des étapes discrètes mimant le raisonnement humain.
Jakub Pachocki, le scientifique en chef d'OpenAI, a noté que O1 adopte une approche plus prudente face aux questions, analysant progressivement et décomposant les problèmes pour fournir des réponses améliorées, en réfléchissant aux processus de pensée humaine.
En programmation compétitive et en mathématiques, O1 s'est classé parmi les meilleurs, avec une précision dans les benchmarks physiques, biologiques et chimiques dépassant même celle des titulaires de doctorat humains.
Résultats Complets des Tests
1. Strawberry Test
Le journaliste a testé la question simple : « Combien de 'r' y a-t-il dans le mot 'strawberry' ? » O1-preview a fourni une réponse étonnamment précise, surpassant les modèles précédents.
2. Programmation
Dans les tâches de programmation, lorsqu'il a été confronté au classique problème "Two Sum", o1-preview a révélé un processus de raisonnement détaillé avec la solution. Lorsqu'on lui a demandé d'optimiser la réponse, O1 a mis neuf secondes pour confirmer qu'il avait fourni la solution optimale et a judicieusement proposé une variante sous-optimale.
3. Création de Mini-Jeux
Lors du test de création de mini-jeux, o1-preview a généré un code de jeu Pong fonctionnant parfaitement en 19 secondes, accompagné d'un guide d'apprentissage et de remarques motivantes. Lorsqu'on lui a demandé de créer un jeu plus complexe, O1 a itéré pour produire un jeu de saut captivant, démontrant ses capacités de raisonnement innovantes.
4. Tests Scientifiques
Lors des tests de mathématiques et d'économie, o1-preview a fourni des aperçus fondamentaux pour des problèmes célèbres comme l'équation d'Euler, tout en maintenant une logique globale claire. Pour des questions complexes sur les systèmes économiques, O1 a proposé une réflexion et des solutions multidimensionnelles.
5. Connaissances Factuelles
Dans les applications de connaissances factuelles, o1-preview a mal interprété des requêtes simples, confondant des anecdotes avec des événements historiques réels, tandis que GPT-4o a montré une performance supérieure dans ce domaine.
Conclusion
En résumé, l'affirmation d'OpenAI selon laquelle le modèle O1 approcherait le raisonnement humain n'est pas une exagération. Ses processus de pensée révèlent une utilisation du langage plus humaine, bien qu'OpenAI reconnaisse que sa conception et ses capacités de traitement de texte restent en deçà de celles de GPT-4o.
Bien qu'O1 excelle dans plusieurs domaines, il continue d'afficher des fluctuations de performance dans la gestion des requêtes simples. OpenAI a indiqué que des mises à jour futures traiteront ces lacunes, soulignant qu'il ne s'agit que de la phase préliminaire du modèle de raisonnement.