Hoje, a Cohere for AI, o laboratório de pesquisa sem fins lucrativos fundado pela Cohere em 2022, apresentou Aya, um modelo de linguagem de código aberto que suporta 101 idiomas—mais do que o dobro do número oferecido pelos modelos de código aberto existentes.
Acompanhando esse lançamento está o conjunto de dados Aya, que inclui anotações humanas essenciais para treinar modelos em idiomas menos comuns. Os pesquisadores da Cohere for AI também desenvolveram métodos para melhorar o desempenho dos modelos com dados limitados de treinamento.
Lançado em janeiro de 2023, o projeto Aya envolveu mais de 3.000 colaboradores de 119 países. Sara Hooker, VP de Pesquisa da Cohere e líder da Cohere for AI, comentou que o projeto acabou se mostrando muito mais extenso do que o inicialmente previsto, com mais de 513 milhões de anotações de instruções afinadas. Esses dados cruciais são considerados "pó de ouro", vitais para refinar o treinamento de LLMs além dos dados básicos coletados na internet.
Ivan Zhang, cofundador e CTO da Cohere, compartilhou no X que a equipe está lançando demonstrações humanas em mais de 100 idiomas para ampliar a acessibilidade dos LLMs, garantindo que atendam a um público global, não apenas falantes de inglês. Ele elogiou isso como uma conquista científica e operacional notável da Hooker e da equipe da Cohere for AI.
Desbloqueando o Potencial dos LLMs para Idiomas e Culturas Sub-representados
De acordo com um post no blog da Cohere, o modelo e o conjunto de dados Aya têm como objetivo ajudar pesquisadores a explorar o potencial dos LLMs para diversos idiomas e culturas que têm sido amplamente negligenciados pelos modelos existentes. Os benchmarks da Cohere for AI revelam que o modelo Aya supera significativamente os melhores modelos multilíngues de código aberto, como mT0 e Bloomz, ao mesmo tempo que expande a cobertura para mais de 50 idiomas anteriormente não atendidos, incluindo somali e uzbeque.
Hooker destacou que modelos que suportam mais de seis idiomas são considerados "extremos", e apenas alguns conseguem uma verdadeira performance "multilíngue massiva" com cerca de 25 idiomas.
Enfrentando o Déficit de Dados Além do Inglês
Hooker explicou que existe um "precipício" de dados fora do domínio do aprimoramento de dados em inglês, tornando o conjunto de dados Aya excepcionalmente raro. Ela acredita que os pesquisadores selecionarão idiomas desse conjunto de dados para desenvolver modelos para comunidades linguísticas específicas—uma necessidade crucial. No entanto, observou que o principal desafio técnico reside na precisão, já que usuários em todo o mundo esperam modelos personalizados adaptados aos seus idiomas.
Aleksa Gordic, ex-pesquisador do Google DeepMind e criador do YugoGPT, que superou o Mistral e o Llama 2 para os idiomas sérvio, bósnio, croata e montenegrino, enfatizou a importância de conjuntos de dados multilíngues como o Aya. Ele afirmou que, para desenvolver LLMs de alta qualidade para idiomas não ingleses, são essenciais fontes de dados altas e abundantes.
Embora considere que o esforço é um passo na direção certa, Gordic ressaltou que uma comunidade de pesquisa global e apoio governamental são necessários para criar e manter grandes conjuntos de dados de alta qualidade, preservando idiomas e culturas no cenário evolutivo da IA.
O modelo e os conjuntos de dados Aya da Cohere for AI já estão disponíveis no Hugging Face.