Sakana AI utiliza algoritmos evolutivos para descubrir arquitecturas innovadoras para modelos generativos.

Una técnica innovadora desarrollada por la startup Tokioense Sakana AI, conocida como Evolución de Modelos Combinados, automatiza la creación de modelos generativos. Inspirado en la selección natural, este enfoque combina elementos de modelos existentes para producir iteraciones más avanzadas.

Sakana AI, cofundada en agosto de 2023 por investigadores destacados de IA como los exexpertos de Google David Ha y Llion Jones—coautor del influyente artículo "Attention Is All You Need"—se posiciona a la vanguardia de la innovación en IA generativa.

Revolucionando el Desarrollo de Modelos

La técnica Evolución de Modelos Combinados de Sakana permite a desarrolladores y organizaciones crear y explorar nuevos modelos de manera rentable, eliminando la necesidad de entrenar y ajustar modelos propietarios costosos. Recientemente, la startup presentó modelos de lenguaje grande (LLMs) y modelos de visión-lenguaje (VLMs) desarrollados con esta innovadora técnica.

Entendiendo la Combinación de Modelos

Entrenar modelos generativos suele ser costoso y complejo. Sin embargo, con la llegada de modelos abiertos como Llama 2 y Mistral, los desarrolladores están aprovechando la combinación de modelos, fusionando componentes de dos o más modelos pre-entrenados para formar uno nuevo. Este método permite que el modelo combinado herede las fortalezas de sus predecesores sin requerir entrenamiento adicional, convirtiéndolo en una opción económica. Muchos modelos líderes en las clasificaciones de Open LLM son variantes combinadas de modelos fundamentales populares.

Los investigadores de Sakana AI destacan: “Una comunidad vibrante de investigadores, hackers y artistas está desarrollando activamente nuevos modelos fundamentales mediante el ajuste y la combinación de modelos existentes.” Con más de 500,000 modelos disponibles en Hugging Face, la combinación de modelos ofrece amplias oportunidades para crear soluciones innovadoras a costos mínimos, aunque requiere una considerable intuición y conocimiento del dominio.

Introduciendo la Evolución de Modelos Combinados

Sakana AI busca optimizar el proceso de combinación de modelos mediante un enfoque sistemático. Basado en algoritmos evolutivos—técnicas de optimización que imitan la selección natural—Evolución de Modelos Combinados identifica las formas más efectivas de combinar diferentes modelos.

David Ha enfatiza: “La capacidad de evolucionar nuevos modelos a partir de diversos existentes tiene implicaciones cruciales.” En medio de la creciente demanda de recursos para entrenar modelos fundamentales, este enfoque evolutivo podría ser beneficioso para instituciones o gobiernos que buscan desarrollar rápidamente prototipos sin una inversión sustancial. Evolución de Modelos Combinados opera automáticamente, evaluando las capas y pesos de los modelos existentes para crear nuevas arquitecturas ajustadas a las necesidades del usuario.

Demostrando la Combinación Evolutiva

Para explorar el potencial de este enfoque, los investigadores de Sakana AI aplicaron Evolución de Modelos Combinados para crear un LLM japonés capaz de razonamiento matemático y un VLM japonés. Los modelos resultantes superaron varios benchmarks sin optimización explícita. Por ejemplo, su EvoLLM-JP, un LLM japonés de 7 mil millones de parámetros, se destacó incluso frente a algunos competidores de 70 mil millones de parámetros.

Para el VLM japonés, el equipo combinó LLaVa-1.6-Mistral-7B con Shisa-Gamma 7B, obteniendo EvoVLM-JP, que superó tanto a LLaVa-1.6-Mistral-7B como al preexistente JSVLM. Ambos modelos están disponibles en Hugging Face y GitHub.

Sakana AI también está adaptando sus métodos de combinación evolutiva para modelos de generación de imágenes, con el objetivo de mejorar el rendimiento de Stable Diffusion XL para indicaciones en japonés.

Visión de Sakana AI

Fundada por David Ha y Llion Jones, Sakana AI busca aprovechar conceptos inspirados en la naturaleza, como la evolución y la inteligencia colectiva, para crear modelos de IA fundamentales. El equipo cree que el futuro de la IA no girará en torno a un sistema singular y todoabarcador, sino más bien a una red de sistemas de IA especializados, adaptados a nichos distintos, colaborando y evolucionando para satisfacer diversas necesidades.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles