Los modelos de lenguaje grandes (LLMs) dependen fundamentalmente de la calidad y el alcance de los datos utilizados en su entrenamiento. Los investigadores han buscado durante mucho tiempo métodos efectivos que permitan a estos modelos autocorregirse durante la generación de resultados. Iniciativas tempranas, como el enfoque multiagente desarrollado en el MIT, han mostrado resultados prometedores en esta área. Sin embargo, hallazgos recientes de Google DeepMind revelan que los LLMs pueden experimentar una disminución en su rendimiento al intentar autocorregirse de manera independiente.
En su artículo titulado “Los modelos de lenguaje grandes no pueden autocorregir su razonamiento todavía”, los investigadores de Google DeepMind llevaron a cabo extensos experimentos para aclarar las limitaciones de las capacidades de autocorrección de los LLMs. Su análisis subrayó un desafío significativo: cuando estos modelos intentan rectificar sus errores basándose únicamente en su propio juicio—sin ninguna guía externa—tienen dificultades. Este es un cambio notable con respecto a investigaciones anteriores que indicaban que la autocorrección intrínseca podría ser efectiva cuando es guiada por “oráculos”, es decir, etiquetas correctas preestablecidas. La ausencia de estos oráculos resulta en una falta de mejora en la precisión de los modelos.
El equipo señaló que los LLMs deben poseer capacidades de autocorrección, especialmente dado que la retroalimentación externa es “inaccesible en muchas aplicaciones del mundo real”.
Desafíos en la Autocorrección
Las alucinaciones, que son salidas erróneas generadas por los LLMs, representan uno de los varios desafíos que enfrentan estos modelos. Aunque ningún sistema está exento de tales inexactitudes, existen estrategias de mitigación, como el método del árbol AST propuesto por Gorilla y un enfoque de Sociedad Multiagente que están explorando investigadores del MIT.
Imagina un escenario donde un chatbot de servicio al cliente, basado en LLM, se da cuenta de que ha proporcionado una respuesta incorrecta y rectifica el error de forma autónoma. La comunidad de investigación en IA se está enfocando cada vez más en convertir este escenario en realidad. Los investigadores de Google consideraron este objetivo, pero señalaron que muchas mejoras que se atribuyen a la autocorrección son probablemente el resultado de solicitudes iniciales mal diseñadas, opacadas por retroalimentaciones bien elaboradas. “En tales casos”, afirmaron, “integrar la retroalimentación en la instrucción inicial o refinar la solicitud inicial podría generar mejores resultados y menores costos”.
Sin embargo, este ajuste no cumple con la aspiración de permitir que los LLMs se autocorrijan completamente por su cuenta. Por ejemplo, instar a un modelo a “Revisar tu respuesta anterior e identificar errores” puede dar lugar a resultados incorrectos, incluso si la respuesta inicial era precisa.
Exploración de la Consistencia en las Salidas
La investigación involucró varios modelos, incluido ChatGPT de OpenAI, en pruebas de referencia donde se les encargó la generación de código. Subsecuentemente, sistemas basados en agentes criticaron estas respuestas por errores para facilitar la autocorrección. Este proceso reveló que, aunque ningún modelo de IA produce consistentemente salidas idénticas, múltiples LLMs podrían alcanzar un acuerdo sobre una respuesta consistente de manera colectiva.
La investigación enfatiza el concepto de autoconstancia, argumentando que las mejoras observadas no provienen de la autocorrección, sino de una mayor consistencia a través de las salidas del modelo. La distinción radica en si el mecanismo de votación se basa en insights impulsados por el modelo o en simples recuentos de respuestas. Por lo tanto, para categorizar algo como autocorrección, es esencial excluir los efectos de selección que surgen de la generación de múltiples salidas.
El Camino hacia la Autocorrección Efectiva
La pregunta que queda es: ¿cuándo se hará factible la verdadera autocorrección en los LLMs? Google DeepMind sugiere que las capacidades autocorrectoras podrían resultar particularmente beneficiosas en aplicaciones que requieren generación de respuestas más seguras. El estudio señala modelos que incorporan etiquetas de verdad fundamental, como el sistema “Constitucional AI” de Claude, que podrían ayudar a los LLMs a evitar respuestas incorrectas durante el proceso de razonamiento.
En la actualidad, los LLMs carecen de la capacidad de autocorregir su razonamiento de manera independiente sin una entrada externa. Los investigadores expresan que es excesivamente optimista suponer que estos modelos desarrollarán eventualmente capacidades de autocorrección autónoma. En cambio, abogan por mejoras en los modelos actuales para prepararlos mejor para una eventual autocorrección.
Para avanzar en este importante campo, hacen un llamado a los investigadores para que adopten una visión crítica de la autocorrección, reconociendo su potencial al mismo tiempo que comprenden sus limitaciones. Este enfoque equilibrado posicionará mejor a los LLMs para mejoras en precisión y fiabilidad, guiando su evolución como herramientas precisas y confiables en diversas aplicaciones.