Mejorando el Rendimiento de LLM en Tareas No Codificadas a Través de Datos de Preentrenamiento

Home Noticias de IA Mejorando el Rendimiento de LLM en Tareas No Codificadas a Través de Datos de Preentrenamiento

Los grandes modelos de lenguaje (LLMs) suelen ser pre-entrenados con extensos conjuntos de datos que incluyen tanto texto como código. Si bien el código es fundamental para los modelos centrados en tareas de programación, su inclusión se ha vuelto cada vez más común, incluso en los LLMs diseñados para aplicaciones no relacionadas con la codificación.

En un estudio reciente, investigadores de Cohere exploraron cómo la presencia de datos de código en el pre-entrenamiento de LLMs impacta su rendimiento general en diversas tareas más allá de la codificación. “Aunque los profesionales han coincidido de manera anecdótica en que los datos de código son vitales para el rendimiento de los LLMs, se ha realizado poca investigación sobre su impacto preciso en tareas no relacionadas con el código”, señalaron los investigadores.

Su investigación confirma que el código mejora significativamente el rendimiento de los LLMs en una variedad de tareas no codificadas, con implicaciones para aplicaciones de entrenamiento en el mundo real.

Investigando el Impacto del Código

Los investigadores llevaron a cabo una serie de experimentos para evaluar cómo el código influye en el rendimiento general de los LLMs. Los factores clave incluían la cantidad de código en los datos de entrenamiento, el momento de introducción del código durante el entrenamiento, la calidad del código y el tamaño de los modelos.

Utilizando un enfoque de entrenamiento en dos fases, realizaron un "pre-entrenamiento continuado" en modelos previamente entrenados, incorporando diferentes proporciones de texto y código a lo largo de un número fijo de tokens. Esto fue seguido por una fase de "enfriamiento", enfatizando conjuntos de datos de mayor calidad durante las etapas de entrenamiento final.

El modelo base fue entrenado únicamente con texto. Otros modelos fueron pre-entrenados en conjuntos de datos equilibrados de texto y código, o en datos solo de código antes de pasar al texto. Evaluaron modelos que variaban de 470 millones a 2.8 mil millones de parámetros en varios benchmarks centrados en conocimientos del mundo, razonamiento en lenguaje natural y rendimiento de código.

Los Beneficios del Código para Tareas No Codificadas

Los experimentos demostraron que el código mejoró sustancialmente el rendimiento de los LLMs en tareas no codificadas. En razonamiento en lenguaje natural, los modelos entrenados con código superaron consistentemente a sus contrapartes solo de texto. De hecho, el pre-entrenamiento exclusivo en código logró el mejor rendimiento en estos benchmarks.

“Esto indica que comenzar con un modelo pre-entrenado que tenga una mezcla de código influye positivamente en las tareas de razonamiento en lenguaje natural”, explicaron los investigadores. En tareas de conocimiento del mundo, un conjunto de datos equilibrado de código y texto durante el pre-entrenamiento produjo los mejores resultados. Los investigadores sugirieron que “el rendimiento óptimo en tareas de conocimiento del mundo depende de una mezcla equilibrada de datos para la inicialización y una mayor proporción de texto durante el pre-entrenamiento continuo”.

En tareas generativas, tanto los modelos solo de código como los equilibrados superaron a los modelos solo de texto, lo que indica que la incorporación de código no solo mejora el razonamiento, sino también la calidad generativa. Además, observaron que los beneficios de añadir código aumentaban con el tamaño del modelo, siendo las mejoras más significativas en el conocimiento del mundo y el rendimiento de código, seguidas de mejoras modestas en el razonamiento en lenguaje natural.

“Estos resultados sugieren que el intercambio entre las tareas de lenguaje natural y la generación de código se intensifica a medida que el tamaño del modelo crece”, afirmaron.

Aunque los LLMs suelen mostrar comportamientos emergentes a escalas mayores, los investigadores no pudieron probar modelos muy grandes debido a limitaciones de costos. Sin embargo, se mantienen optimistas sobre que sus hallazgos se extenderán a escalas superiores. “Dado que nuestros resultados son válidos desde 470M hasta 2.8B parámetros, creemos que se aplicarán a modelos aún más grandes y a presupuestos de tokens”, señalaron.

El estudio también reveló que incorporar código sintético de alta calidad en los datos de pre-entrenamiento mejora notablemente el rendimiento, abordando las limitaciones del código generado por humanos. “Nuestro código sintético se creó a partir de enunciados de problemas para producir soluciones validadas en Python”, dijo Viraat Aryabumi, autor principal y becario de investigación en Cohere. “Esto abre un potencial futuro, ya que aprovechar un modelo docente de alto rendimiento es esencial para generar código sintético efectivo”.

Además, encontraron que integrar datos adyacentes al código, como solicitudes de extracción y commits de GitHub, mejoró las capacidades de razonamiento. La incorporación de código en la fase de enfriamiento condujo a mejoras adicionales en el rendimiento en tareas no codificadas, ofreciendo valiosas ideas para las empresas que buscan afinar modelos con sus propios datos en lugar de entrenarlos desde cero.

“La fase de enfriamiento se alinea estrechamente con el ajuste fino en cuanto a costos, calidad de datos y requisitos de recursos, proporcionando ganancias sustanciales. Recomendamos incluir código a lo largo del proceso de entrenamiento”, enfatizó Aryabumi. “Utilizar código de alta calidad—como bases de código internas y datos adyacentes al código—también puede mejorar los resultados durante el enfriamiento”.

A medida que Cohere se enfoca en desarrollar LLMs para aplicaciones empresariales, estos hallazgos podrían influir en futuras implementaciones de modelos y productos, ofreciendo potencialmente una variedad de modelos pre-entrenados con diferentes mezclas de texto y código ajustadas para tareas específicas. Las empresas podrán afinar estos modelos con datos propios para un rendimiento óptimo.

“Nuestros hallazgos son altamente relevantes para los desarrolladores y probablemente conducirán al lanzamiento de modelos más eficientes”, afirmó Aryabumi. “Lo sorprendente es cómo el código mejora el rendimiento más allá de las tareas relacionadas con la codificación, y esto informa nuestro enfoque para desarrollar modelos de vanguardia”.

Cómo Rec Room Redujo Exitosamente la Toxicidad en el Chat de Voz de los Jugadores en un 70%

AWS Presenta HPC como Servicio: Facilitando el Acceso a Supercomputadoras para Todos

Most people like

Zocket

19.6K

Crea anuncios de clic para enviar mensajes de forma rápida y sencilla en solo segundos.

GenAI AI Ad Creative Assistant

Dreamswipe

8.5K

Las plataformas de contenido y chat basadas en inteligencia artificial están revolucionando la forma en que las empresas interactúan con sus clientes. Al aprovechar la avanzada tecnología de inteligencia artificial, estas plataformas facilitan una comunicación fluida, mejoran el engagement del usuario y optimizan la creación de contenido. A medida que las organizaciones dependen cada vez más de soluciones digitales para mejorar las experiencias del cliente y aumentar la eficiencia, entender las capacidades y beneficios de las herramientas impulsadas por inteligencia artificial se ha vuelto esencial. Descubre cómo estas tecnologías innovadoras no solo transforman el servicio al cliente, sino que también redefinen la entrega de contenido en el panorama digital.

tecnología de IA AI Content Generator

Glasp

4.8M

Glasp es un innovador marcador social en la web diseñado para capacitar a los usuarios a organizar y compartir su contenido destacado de manera fluida. Al transformar la forma en que interactúas con la información en línea, Glasp facilita la conexión con otros mientras gestionas tus destacados de manera efectiva.

resaltador de la web social AI Knowledge Base

Veggie AI

43.7K

En una era donde el contenido visual reina, aprovechar el poder de un generador de videos con inteligencia artificial puede transformar tu proceso creativo. Con algoritmos avanzados, estas herramientas permiten a los usuarios crear videos personalizables que cautivan audiencias y transmiten mensajes de manera efectiva. Ya seas un comercializador, educador o creador de contenido, descubrir cómo aprovechar la tecnología de IA para la producción de videos puede revolucionar tu enfoque, ofreciendo un control mejorado sobre cada aspecto de tus proyectos. Sumérgete en el mundo de la creación de videos impulsados por IA y desbloquea infinitas posibilidades para tu narración hoy.

Generación de video controlable Image to Video

Find AI tools in YBX