Sakana AI utiliza algoritmos evolutivos para revelar arquiteturas inovadoras para modelos generativos.

Uma técnica inovadora desenvolvida pela startup Sakana AI, localizada em Tóquio, chamada Evolutionary Model Merge, automatiza a criação de modelos generativos. Inspirada na seleção natural, essa abordagem combina elementos de modelos existentes para produzir iterações mais avançadas.

A Sakana AI, cofundada em agosto de 2023 por renomados pesquisadores de IA, como os ex-especialistas do Google David Ha e Llion Jones—coautor do influente artigo "Attention Is All You Need"—está na vanguarda da inovação em IA generativa.

Revolucionando o Desenvolvimento de Modelos

A técnica Evolutionary Model Merge da Sakana permite que desenvolvedores e organizações criem e explorem novos modelos de forma econômica, eliminando a necessidade de treinamento e ajuste fino dispendiosos de modelos proprietários. Recentemente, a startup apresentou grandes modelos de linguagem (LLMs) e modelos de linguagem visual (VLMs) desenvolvidos com esta técnica inovadora.

Entendendo a Mesclagem de Modelos

O treinamento de modelos generativos é frequentemente caro e complexo. No entanto, com a emergência de modelos abertos como Llama 2 e Mistral, os desenvolvedores estão aproveitando a mesclagem de modelos—combinando componentes de dois ou mais modelos pré-treinados para formar um novo. Esse método permite que o modelo mesclado herde os pontos fortes de seus predecessores sem requerer treinamento adicional, tornando-se uma opção muito econômica. Muitos modelos líderes nas classificações de Open LLM são agora variantes mescladas de modelos fundacionais populares.

Os pesquisadores da Sakana AI afirmam: “Uma comunidade vibrante de pesquisadores, hackers e artistas está ativamente desenvolvendo novos modelos fundacionais por meio do ajuste fino e da mesclagem de modelos existentes.” Com mais de 500.000 modelos disponíveis no Hugging Face, a mesclagem de modelos oferece amplas oportunidades para criar soluções inovadoras a custos mínimos, embora exija intuição e conhecimento específico.

Apresentando o Evolutionary Model Merge

A Sakana AI visa otimizar o processo de mesclagem de modelos usando uma abordagem sistemática. Baseando-se em algoritmos evolutivos—técnicas de otimização que imitam a seleção natural—o Evolutionary Model Merge identifica as maneiras mais eficazes de combinar diferentes modelos.

David Ha enfatiza: “A capacidade de evoluir novos modelos a partir de diversos modelos existentes tem implicações cruciais.” Diante do aumento da demanda por recursos para o treinamento de modelos fundacionais, essa abordagem evolutiva pode se mostrar benéfica para instituições ou governos que buscam desenvolver rapidamente protótipos sem um investimento substancial.

O Evolutionary Model Merge opera automaticamente, avaliando camadas e pesos de modelos existentes para criar novas arquiteturas adaptadas às necessidades dos usuários.

Demonstrando a Mesclagem Evolutiva

Para explorar o potencial dessa abordagem, os pesquisadores da Sakana AI aplicaram o Evolutionary Model Merge para criar um LLM japonês capaz de raciocínio matemático e um VLM japonês. Os modelos resultantes superaram várias referências sem otimização explícita. Por exemplo, o EvoLLM-JP, um LLM japonês com 7 bilhões de parâmetros, se destacou até mesmo em comparação a concorrentes com 70 bilhões de parâmetros.

Para o VLM japonês, a equipe mesclou LLaVa-1.6-Mistral-7B com Shisa-Gamma 7B, resultando no EvoVLM-JP, que superou tanto o LLaVa-1.6-Mistral-7B quanto o JSVLM pré-existente. Ambos os modelos estão disponíveis no Hugging Face e GitHub.

A Sakana AI também está adaptando seus métodos de mesclagem evolutiva para modelos de difusão de geração de imagens, com o objetivo de melhorar o desempenho do Stable Diffusion XL para prompts em japonês.

A Visão da Sakana AI

Fundada por David Ha e Llion Jones, a Sakana AI busca aproveitar conceitos inspirados na natureza, como evolução e inteligência coletiva, para criar modelos de IA fundacionais. A equipe acredita que o futuro da IA não girará em torno de um único sistema abrangente, mas sim em uma rede de sistemas de IA especializados, adaptados a nichos distintos, colaborando e evoluindo para atender a diversas necessidades.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles