Avancées en Raisonnement AI : Présentation de Quiet-STaR
Les humains ont une capacité unique à raisonner, se posant des questions de type « si » et « pourquoi » et interprétant des informations implicites pour résoudre des problèmes complexes. Cependant, les modèles d'IA traditionnels ont peiné à atteindre ce niveau de raisonnement. Des chercheurs de l'Université de Stanford et de Notbad AI, Inc. ont développé Quiet-STaR, une extension novatrice du modèle Self-Taught Reasoner (STaR), qui enseigne à l'IA à réfléchir avant de répondre, imitant ainsi les processus de pensée humains.
Améliorations de Quiet-STaR
Quiet-STaR a été intégré au modèle Mistral 7B, améliorant considérablement ses capacités de raisonnement en zéro-shot. Des avancées notables ont été observées dans :
- L'exactitude de réponse de CommonsenseQA (passant de 36,3 % à 47,2 %)
- La résolution de problèmes de mathématiques de niveau école primaire dans GSM8K (de 5,9 % à 10,9 %)
Ces améliorations sont directement corrélées au nombre de tokens représentant les pensées internes du modèle. Les chercheurs affirment : « Quiet-STaR représente un pas vers des modèles linguistiques capables d'apprendre à raisonner de manière plus générale et évolutive. »
Limites précédentes du Raisonnement IA
Les approches antérieures du raisonnement AI s'appuyaient fortement sur un entraînement spécifique à chaque tâche, ce qui limitait la généralisabilité. Les modèles étaient souvent formés avec des ensembles de données soigneusement sélectionnés, centrés sur des tâches étroites, ce qui restreignait leur capacité à s'adapter à une large gamme de scénarios.
Par exemple, bien qu'un modèle linguistique ajusté au raisonnement humain ait surpassé une IA de réponse directe, ces méthodologies demeurent confinées à des ensembles de données spécifiques. Le modèle STaR a démontré que les IA pouvaient améliorer leurs compétences en raisonnement grâce à un apprentissage itératif à partir d'ensembles de données de questions-réponses, mais la dépendance à des données sélectionnées a limité son évolutivité.
« S'entraîner à partir de ces ensembles de données ne couvrira qu'une fraction des tâches de raisonnement », soutiennent les chercheurs, soulignant la nécessité pour les modèles d'extraire des justifications à partir d'entrées textuelles variées.
La Méthodologie Quiet-STaR
La technique Quiet-STaR fonctionne en générant plusieurs pensées internes à chaque token, s'engageant dans un processus de « réflexion » avant de fournir une réponse. Cela permet à l'IA d'évaluer un texte futur avec un contexte enrichi. En utilisant l'algorithme REINFORCE, le modèle optimise ses prédictions, écartant les sorties moins précises et affinant itérativement son raisonnement durant l'entraînement.
Pour encourager un raisonnement généraliste, les chercheurs ont utilisé une invite zéro-shot (« Pensons étape par étape ») et ont formé Quiet-STaR sur des ensembles de données textuelles variées provenant du web, tels qu'OpenWebMath et Colossal Clean Crawled Corpus. « Quiet-STaR permet à un modèle de réfléchir calmement à chaque niveau de token, facilitant une distribution qui renforce son utilité », notent-ils.