今日、2022年に設立された非営利研究ラボ「Cohere for AI」は、101の言語に対応するオープンソースの大規模言語モデル(LLM)「Aya」を発表しました。この数は既存のオープンソースモデルの2倍以上です。伴って、より珍しい言語のモデルを訓練するために必要な人間による注釈が含まれた「Ayaデータセット」もリリースされました。Cohere for AIの研究者たちは、限られた訓練データを用いてモデル性能を向上させる方法も開発しています。
Ayaプロジェクトは2023年1月に開始され、119か国から3,000人以上の協力者が参加する大規模な取り組みとなりました。Cohereで研究担当VPを務めるサラ・フッカー氏は、プロジェクトが当初の予想を大きく上回る規模になり、5億1300万件以上の指示微調整注釈を獲得したことを述べました。この重要なデータは、インターネットから収集した基本的なデータを超えてLLMの訓練を洗練させるために欠かせない「ゴールドダスト」とされています。
Cohereの共同創設者でCTOのイヴァン・ジャン氏は、X(旧Twitter)で、チームが100以上の言語にわたる人間のデモを公開することで、LLMの利用可能性を広げ、英語話者だけでなく、グローバルなオーディエンスに対応することを目指していると述べました。フッカー氏とCohere for AIチームの驚くべき科学的かつ運営上の成果を称賛しています。
代表的な言語と文化に与える影響
Cohereのブログによれば、Ayaモデルとデータセットは、既存のモデルに見落とされてきた多様な言語や文化のLLMの潜在能力を引き出すことを目的としています。Cohere for AIのベンチマークによると、AyaモデルはmT0やBloomzなどの最高のオープンソース多言語モデルを大幅に上回り、ソマリ語やウズベク語を含む50以上の言語へも対応を広げています。フッカー氏は、6言語以上を支えるモデルは「極端」とされ、真に「マッシブマルチリンガル」となるのは25言語程度のわずか数モデルに限られます。
英語以外のデータ不足に対する対処
フッカー氏は、英語以外の微調整データに「崖」が存在し、Ayaのデータセットが非常に希少であることを説明しました。彼女は、研究者たちが特定の言語コミュニティのモデルを開発するためにこのデータセットから言語を選択するだろうと考えていますが、主な技術的課題は精度であると述べました。世界中のユーザーが自分の言語に合わせたパーソナライズされたモデルを期待しているからです。
元Google DeepMindの研究者で、MistralやLlama 2を上回る成果を上げたセルビア語、ボスニア語、クロアチア語、モンテネグロ語用のYugoGPTを開発したアレクサ・ゴルディッチ氏は、Ayaのような多言語データセットの重要性を強調しました。彼は、非英語言語向けの高品質なLLMを開発するには、高品質で豊富なデータ源が不可欠であると述べています。
彼はこの努力が適切な方向への一歩と考えつつも、言語と文化をAIの進化する環境の中で保持するためには、グローバルな研究コミュニティと政府の支援が必要だと指摘しました。Cohere for AIのAyaモデルとデータセットは、Hugging Face上で公開されています。