Hoje, a Cohere for AI (C4AI), a divisão de pesquisa sem fins lucrativos da startup canadense de IA, anunciou o lançamento dos pesos abertos do Aya 23, uma família inovadora de modelos de linguagem multilíngues. O Aya 23 está disponível em duas variantes: 8B e 35B parâmetros. Neste contexto, os parâmetros representam a força das conexões entre neurônios artificiais, sendo que números maiores indicam um modelo mais poderoso e capaz. Este lançamento faz parte da iniciativa Aya do C4AI, que visa aprimorar as capacidades multilíngues.
C4AI tornou os pesos do Aya 23 de código aberto, permitindo que pesquisadores de terceiros ajustem o modelo para atender a necessidades específicas. Embora isso não constitua um lançamento totalmente aberto (que incluiria dados de treinamento e detalhes da arquitetura), oferece flexibilidade significativa, semelhante aos modelos Llama da Meta.
Construído sobre seu antecessor, o Aya 101, o Aya 23 suporta 23 idiomas: árabe, chinês (simplificado e tradicional), tcheco, holandês, inglês, francês, alemão, grego, hebraico, hindi, indonésio, italiano, japonês, coreano, persa, polonês, português, romeno, russo, espanhol, turco, ucraniano e vietnamita. A Cohere for AI afirma que esses modelos ampliam as capacidades de modelagem de linguagem de ponta para quase metade da população mundial. Além disso, o Aya 23 supera não apenas o Aya 101, mas também outros modelos abertos, como o Gemma do Google e as ofertas da Mistral, proporcionando respostas de maior qualidade nos idiomas suportados.
Quebrando Barreiras Linguísticas com Aya
Embora os modelos de linguagem grandes (LLMs) tenham ganhado destaque nos últimos anos, a maioria se concentrou principalmente no inglês, resultando em dificuldades para idiomas menos recursos. Os pesquisadores do C4AI identificaram duas questões-chave: a escassez de modelos pré-treinados multilíngues robustos e a falta de dados de treinamento diversificados em estilo de instrução. Para enfrentar esses desafios, o C4AI lançou a iniciativa Aya, em parceria com mais de 3.000 pesquisadores independentes de 119 países. Sua primeira conquista foi a Coleção Aya, um vasto conjunto de dados multilíngue em estilo de instrução, contendo 513 milhões de prompts e respostas, que foi usado para criar o LLM ajustado por instruções cobrindo 101 idiomas.
Lançado em fevereiro de 2024, o Aya 101 marcou um avanço significativo na modelagem de linguagem multilíngue. No entanto, foi baseado no mT5, que agora está desatualizado, e seu design amplo diluiu o desempenho em idiomas individuais. Com a introdução do Aya 23, a Cohere for AI adotou uma abordagem equilibrada, concentrando-se em 23 idiomas para aprimorar o desempenho. Esses modelos, baseados na série Command da Cohere e na Coleção Aya, melhoram a qualidade de geração ao focar recursos em menos idiomas.
Os resultados de avaliação indicam que o Aya 23 supera o Aya 101 e outros modelos amplamente utilizados como Gemma e Mistral em várias tarefas discriminativas e generativas. As melhorias incluem até 14% em tarefas discriminativas, 20% em tarefas generativas e um aumento de 41,6% no MMLU multilíngue. Notavelmente, o Aya 23 alcança um aumento de 6,6x em raciocínio matemático multilíngue em comparação ao Aya 101.
Acessível Agora
A Cohere for AI deu mais um passo importante em direção a modelos multilíngues de alto desempenho. Os pesos abertos dos modelos 8B e 35B estão agora disponíveis no Hugging Face sob a licença pública internacional Creative Commons atribuição-não-comercial 4.0. “Ao liberar os pesos da família de modelos Aya 23, nosso objetivo é capacitar pesquisadores e profissionais a avançar em modelos e aplicações multilíngues,” afirmaram os pesquisadores. Os usuários também podem experimentar os novos modelos gratuitamente no Cohere Playground.