Google DeepMind presenta el marco 'Self-Discover' para mejorar los LLMs y potenciar el rendimiento de GPT-4.

Con un esfuerzo por mejorar las capacidades de razonamiento de los modelos de lenguaje de gran tamaño (LLMs), investigadores de Google DeepMind y la Universidad del Sur de California han presentado un innovador marco de "auto-descubrimiento" en la creación de prompts. Publicado en arXiv y Hugging Face, este enfoque revolucionario supera las técnicas de prompting existentes y ha demostrado mejoras en el rendimiento de varios modelos, incluyendo GPT-4 de OpenAI y PaLM 2 de Google.

"El auto-descubrimiento aumenta significativamente el rendimiento de GPT-4 y PaLM 2 en pruebas de razonamiento exigentes, como BigBench-Hard y MATH, en hasta un 32% en comparación con las metodologías de Chain of Thought (CoT)", afirman los investigadores en su publicación. Este marco de auto-descubrimiento permite a los LLMs identificar estructuras de razonamiento específicas de la tarea de forma autónoma para abordar problemas de manera efectiva. Al analizar múltiples módulos de razonamiento atómico—como pensamiento crítico y razonamiento paso a paso—los modelos pueden construir un marco de razonamiento explícito para seguir durante la resolución de problemas.

Uno de los aspectos más atractivos de este enfoque es su eficiencia, que requiere de 10 a 40 veces menos potencia computacional, lo que lo hace altamente beneficioso para las empresas.

Evolución del Razonamiento en LLMs

Los LLMs han evolucionado para abordar una variedad de tareas, gracias a su capacidad para procesar instrucciones, razonar y generar respuestas coherentes. Utilizando la arquitectura de transformadores, estos modelos emplean diversas estrategias de prompting basadas en teorías cognitivas sobre el razonamiento y la resolución de problemas humanos, que incluyen prompting de cadena de pensamiento con pocos y sin ejemplos, descomposición de tareas en subproblemas y prompting reflexivo para derivar principios generales.

Aunque estos métodos, especialmente la cadena de pensamiento, son efectivos, a menudo dependen de suposiciones implícitas sobre cómo abordar una tarea. Los investigadores argumentan que esto puede no ser óptimo, ya que cada tarea tiene una estructura intrínseca única que puede beneficiarse de una técnica adaptada. Con su última investigación, el equipo de DeepMind y USC propone un marco integral de prompting que identifica de forma autónoma la estructura subyacente para seleccionar la estrategia de razonamiento más adecuada optimizando la eficiencia.

"El auto-descubrimiento se modela a partir de cómo los humanos crean programas internos de razonamiento para resolver problemas. A partir de un conjunto de módulos de razonamiento atómico en lenguaje natural, como ‘descomponer en subtareas’ y ‘pensamiento crítico’, el LLM compone una estructura de razonamiento coherente intrínseca a la tarea en la Etapa 1, y luego aplica esta estructura en la Etapa 2 para resolver instancias específicas de la tarea", amplían los investigadores.

Ganancias Notables en el Rendimiento

Para evaluar la efectividad del nuevo marco, los investigadores lo probaron en múltiples modelos, incluidos GPT-4 y PaLM 2-L, en 25 tareas de razonamiento, como BigBench-Hard y MATH. El marco de auto-descubrimiento superó al método de cadena de pensamiento en 21 de las 25 tareas, logrando incrementos de rendimiento de hasta el 32% y mejorando significativamente la eficiencia al requerir entre 10 y 40 veces menos potencia computacional en la inferencia.

Según los resultados, al probarse con GPT-4, el método de auto-descubrimiento alcanzó precisiones del 81%, 85% y 73% en las tareas de Big-Bench Hard, Thinking for Doing y MATH, respectivamente. En contraste, el método de cadena de pensamiento obtuvo precisiones más bajas de 75%, 52% y 71%. Se observó una brecha de rendimiento similar en comparación con el enfoque de planificar y resolver.

Para PaLM 2-L, las precisiones alcanzadas fueron del 67%, 69% y 50.5% en las tres tareas, superando la cadena de pensamiento (60%, 40% y 42%) y el planificar y resolver (61%, 42% y 49%).

Avanzando en las Capacidades de Razonamiento de la IA

El marco de prompting de auto-descubrimiento tiene el potencial de revolucionar la forma en que los LLMs abordan la resolución de problemas, acercándolos a lograr una inteligencia general. Los estudios sobre transferibilidad indican que las estructuras de razonamiento compuestas son ampliamente aplicables en diferentes tipos de modelos y comparten características con el razonamiento humano.

"De cara al futuro, estamos ansiosos por seguir explorando el razonamiento estructurado en LLMs para mejorar las capacidades de resolución de problemas y descubrir nuevas vías para la colaboración humano-IA", concluyó el equipo.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles