Сегодня Cohere for AI, некоммерционная исследовательская лаборатория, основанная компанией Cohere в 2022 году, представила Aya — открытую модель большого языка (LLM), поддерживающую 101 язык, что более чем вдвое превышает количество языков, предлагаемых существующими открытыми моделями.
Вместе с этим релизом представлен и набор данных Aya, содержащий человеческие аннотации, необходимые для обучения моделей на менее распространенных языках. Исследователи Cohere for AI также разработали методы, позволяющие улучшать производительность моделей при ограниченных объемах обучающих данных.
Проект Aya, запущенный в январе 2023 года, стал значительным усилием, в котором участвовали более 3000 человек из 119 стран. Сара Хукер, вице-президент по исследованиям в Cohere и руководитель Cohere for AI, отметила, что проект оказался гораздо более масштабным, чем ожидалось, с более чем 513 миллионами аннотаций, отточенных по инструкциям. Эти критически важные данные считаются «золотым материалом», необходимым для совершенствования обучения LLM, выходящего за рамки базовых данных, собранных из Интернета.
Иван Чжан, соучредитель и CTO Cohere, поделился в X, что команда выпускает демонстрации на более чем 100 языках, чтобы расширить доступность LLM и обеспечить его использование на глобальном уровне, а не только для англоязычных пользователей. Он высоко оценил это как замечительное научное и операционное достижение команды под руководством Хукер.
Раскрытие Потенциала LLM для Недостаточно Представленных Языков и Культур
Согласно блогу Cohere, модель и набор данных Aya направлены на то, чтобы помочь исследователям раскрыть потенциал LLM для множества языков и культур, которые остаются в значительной степени незамеченными существующими моделями. Бенчмарки Cohere for AI показывают, что модель Aya превосходит лучшие открытые многоязычные модели, такие как mT0 и Bloomz, значительно расширяя охват до более чем 50 ранее не обслуживаемых языков, включая сомали и узбекский.
Хукер подчеркнула, что модели, поддерживающие более шести языков, считаются «экстремальными», и лишь немногие добиваются настоящей «масштабной многоязычной» производительности, охватывающей около 25 языков.
Решение Проблемы Данных За Пределами Английского Языка
Хукер пояснила, что существует «пропасть» данных за пределами области тонкой настройки на английском, что делает набор данных Aya исключительно редким. Она считает, что исследователи будут выбирать языки из набора данных для разработки моделей для конкретных языковых сообществ, что является критически важной задачей. Однако основная техническая проблема заключается в точности, так как пользователи по всему миру ожидают персонализированные модели, адаптированные к их языкам.
Алекса Горджич, бывший исследователь Google DeepMind и создатель YugoGPT, который превзошел Mistral и Llama 2 для сербского, боснийского, хорватского и черногорского языков, подчеркнул важность многоязычных наборов данных, таких как Aya. Он отметил, что для разработки качественных LLM для неанглийских языков необходимы источники данных высокого качества и в большом объеме.
Хотя он считает это усилие шагом в правильном направлении, Горджич отметил, что необходимо создание глобального исследовательского сообщества и поддержка со стороны государств для создания и поддержания крупных, высококачественных наборов данных, чтобы сохранить языки и культуры в условиях меняющегося AI-ландшафта.
Модель и наборы данных Aya от Cohere for AI теперь доступны на Hugging Face.