Avances en el Razonamiento Artificial: Presentamos Quiet-STaR
Los humanos tienen una habilidad única para razonar, considerando el “si” y el “por qué”, e interpretando información implícita para resolver problemas complejos. Sin embargo, los modelos de IA tradicionales han tenido dificultades con este nivel de razonamiento. Investigadores de la Universidad de Stanford y Notbad AI, Inc. han desarrollado Quiet-STaR, una innovadora extensión del modelo Self-Taught Reasoner (STaR), que enseña a la IA a pensar antes de responder, imitando los procesos de pensamiento humano.
Mejoras de Quiet-STaR
Quiet-STaR se implementó en el modelo Mistral 7B, mejorando significativamente sus capacidades de razonamiento en cero disparos. Se observaron avances notables en:
- Exactitud de respuestas en CommonsenseQA (del 36.3% al 47.2%)
- Resolución de problemas matemáticos de la escuela primaria en GSM8K (del 5.9% al 10.9%)
Estas mejoras están directamente correlacionadas con la cantidad de tokens que representan los pensamientos internos del modelo. Los investigadores afirman: “Quiet-STaR marca un paso hacia modelos de lenguaje que pueden aprender a razonar de manera más general y escalable.”
Limitaciones Previas en el Razonamiento de IA
Los enfoques anteriores para el razonamiento de IA dependieron en gran medida de entrenamientos específicos, lo que llevó a una generalización limitada. Los modelos solían entrenarse con conjuntos de datos cuidadosamente seleccionados enfocados en tareas estrechas, restringiendo su capacidad para adaptarse a un rango más amplio de escenarios.
Por ejemplo, mientras que un modelo de lenguaje afinado para el razonamiento humano superaba a una IA de respuesta directa, estas metodologías permanecen confinadas a conjuntos de datos específicos. El modelo STaR demostró que las IAs podían mejorar sus habilidades de razonamiento a través del aprendizaje iterativo a partir de conjuntos de datos de preguntas y respuestas, pero la dependencia de datos seleccionados limitó su escalabilidad.
“Entrenar con estos conjuntos de datos solo cubrirá inherentemente una fracción de las tareas de razonamiento,” argumentan los investigadores, enfatizando la necesidad de que los modelos extraigan razonamientos de entradas textuales diversas.
Metodología Quiet-STaR
La técnica Quiet-STaR opera generando múltiples pensamientos internos en cada token, participando en un proceso de “pensamiento” antes de proporcionar una respuesta. Esto permite a la IA evaluar textos futuros con un contexto mejorado. Mediante el uso del algoritmo REINFORCE, el modelo optimiza sus predicciones, desechando salidas menos precisas y refinando iterativamente su razonamiento durante el entrenamiento.
Para fomentar el razonamiento generalista, los investigadores emplearon un aviso de cero disparos (“Pensemos paso a paso”) y entrenaron a Quiet-STaR con conjuntos de datos diversos de texto web como OpenWebMath y Colossal Clean Crawled Corpus. “Quiet-STaR permite que un modelo piense tranquilamente a nivel de cada token, facilitando una distribución que mejora su utilidad,” señalan.