Сегодня Cohere for AI (C4AI), некоммерческое исследовательское подразделение канадского стартапа Cohere в области искусственного интеллекта, объявило о выпуске открытых весов модели Aya 23, современного семейства многоязычных языковых моделей. Aya 23 доступна в двух вариантах: с 8 миллиардом и 35 миллиардами параметров. В этом контексте параметры отражают силу связей между искусственными нейронами, и более крупные числа указывают на более мощную и способную модель. Данный релиз является частью инициативы C4AI под названием Aya, целью которой является улучшение многоязычных возможностей.
C4AI сделала веса Aya 23 открытыми для сторонних исследователей, позволяя им адаптировать модель под свои специфические нужды. Хотя это не является полноценным открытым релизом (который включал бы данные для обучения и детали архитектуры), такой подход предоставляет значительную гибкость, аналогичную моделям Llama от Meta.
Новая модель Aya 23, значительно улучшившая своего предшественника Aya 101, поддерживает 23 языка: арабский, китайский (упрощённый и традиционный), чешский, голландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский. Cohere for AI утверждает, что эти модели расширяют передовые возможности языкового моделирования для почти половины населения мира. Кроме того, Aya 23 превосходит не только Aya 101, но и другие открытые модели, такие как Gemma от Google и предложения от Mistral, обеспечивая более качественные ответы на поддерживаемых языках.
Сломая языковые барьеры с Aya
Хотя большие языковые модели (LLM) получили популярность в последние годы, большинство из них сосредоточены в основном на английском. В результате многие модели испытывают трудности с языками с меньшими ресурсами. Исследователи C4AI выявили две ключевые проблемы: нехватку надежных многоязычных предварительно обученных моделей и отсутствие разнообразных данных для обучения в стиле инструкций. Для решения этих задач C4AI запустила инициативу Aya, объединившись с более чем 3000 независимыми исследователями из 119 стран. Их первым достижением стала Aya Collection — обширный многоязычный датасет в стиле инструкций с 513 миллионами запросов и завершений, использованный для создания LLM, охватывающей 101 язык.
Выпущенная в феврале 2024 года, Aya 101 стала значительным шагом вперед в многоязычном языковом моделировании. Однако она была построена на основе устаревшей mT5, и ее широкий дизайн снижал производительность по отдельным языкам. С введением Aya 23 Cohere for AI перешла к более сбалансированному подходу, сосредоточив внимание на 23 языках для повышения производительности. Эти модели, основанные на серии Command от Cohere и Aya Collection, улучшают качество генерации, фокусируя ресурсы на меньшем количестве языков.
Результаты оценок показывают, что Aya 23 превосходит Aya 101 и другие широко используемые модели, такие как Gemma и Mistral, в различных дискриминационных и генеративных задачах. Улучшения составляют до 14% в дискриминационных задачах, 20% в генеративных и 41.6% в многоязычной MMLU. Особенно заметно, что Aya 23 демонстрирует рост в области многоязычного математического мышления в 6.6 раз по сравнению с Aya 101.
Теперь доступно
Cohere for AI сделала еще один важный шаг к созданию высокопроизводительных многоязычных моделей. Открытые веса моделей 8B и 35B теперь доступны на Hugging Face под лицензией Creative Commons Attribution-NonCommercial 4.0 International.
«Выпуская веса модели Aya 23, мы стремимся дать возможность исследователям и практикам развивать многоязычные модели и приложения», — отметили исследователи. Пользователи также могут бесплатно экспериментировать с новыми моделями на Cohere Playground.