Cohere for AIが101言語をサポートするオープンソースLLMを発表：グローバルなAIコミュニケーションを促進

Home AIニュース Cohere for AIが101言語をサポートするオープンソースLLMを発表：グローバルなAIコミュニケーションを促進

今日、2022年に設立された非営利研究ラボ「Cohere for AI」は、101の言語に対応するオープンソースの大規模言語モデル（LLM）「Aya」を発表しました。この数は既存のオープンソースモデルの2倍以上です。伴って、より珍しい言語のモデルを訓練するために必要な人間による注釈が含まれた「Ayaデータセット」もリリースされました。Cohere for AIの研究者たちは、限られた訓練データを用いてモデル性能を向上させる方法も開発しています。

Ayaプロジェクトは2023年1月に開始され、119か国から3,000人以上の協力者が参加する大規模な取り組みとなりました。Cohereで研究担当VPを務めるサラ・フッカー氏は、プロジェクトが当初の予想を大きく上回る規模になり、5億1300万件以上の指示微調整注釈を獲得したことを述べました。この重要なデータは、インターネットから収集した基本的なデータを超えてLLMの訓練を洗練させるために欠かせない「ゴールドダスト」とされています。

Cohereの共同創設者でCTOのイヴァン・ジャン氏は、X（旧Twitter）で、チームが100以上の言語にわたる人間のデモを公開することで、LLMの利用可能性を広げ、英語話者だけでなく、グローバルなオーディエンスに対応することを目指していると述べました。フッカー氏とCohere for AIチームの驚くべき科学的かつ運営上の成果を称賛しています。

代表的な言語と文化に与える影響

Cohereのブログによれば、Ayaモデルとデータセットは、既存のモデルに見落とされてきた多様な言語や文化のLLMの潜在能力を引き出すことを目的としています。Cohere for AIのベンチマークによると、AyaモデルはmT0やBloomzなどの最高のオープンソース多言語モデルを大幅に上回り、ソマリ語やウズベク語を含む50以上の言語へも対応を広げています。フッカー氏は、6言語以上を支えるモデルは「極端」とされ、真に「マッシブマルチリンガル」となるのは25言語程度のわずか数モデルに限られます。

英語以外のデータ不足に対する対処

フッカー氏は、英語以外の微調整データに「崖」が存在し、Ayaのデータセットが非常に希少であることを説明しました。彼女は、研究者たちが特定の言語コミュニティのモデルを開発するためにこのデータセットから言語を選択するだろうと考えていますが、主な技術的課題は精度であると述べました。世界中のユーザーが自分の言語に合わせたパーソナライズされたモデルを期待しているからです。

元Google DeepMindの研究者で、MistralやLlama 2を上回る成果を上げたセルビア語、ボスニア語、クロアチア語、モンテネグロ語用のYugoGPTを開発したアレクサ・ゴルディッチ氏は、Ayaのような多言語データセットの重要性を強調しました。彼は、非英語言語向けの高品質なLLMを開発するには、高品質で豊富なデータ源が不可欠であると述べています。

彼はこの努力が適切な方向への一歩と考えつつも、言語と文化をAIの進化する環境の中で保持するためには、グローバルな研究コミュニティと政府の支援が必要だと指摘しました。Cohere for AIのAyaモデルとデータセットは、Hugging Face上で公開されています。

会議のインサイトを解放する：Otter.aiの革新的な「Meeting GenAI」で会話から得られる知見を変革する

効果的な広告戦略：生成AI、ジャンルを超えたコンテンツ、ゲーミフィケーションの活用 | AppLovin

Most people like

Gita GPT

13.6K

あなたの個人的なAIチャットボット、Gita GPTをご紹介します。Gita GPTは、バガヴァット・ギーターからの霊的な洞察を提供します。Gita GPTと共に深い教えを探求し、あなたの質問に対する答えを見つけることで、霊的な旅を豊かにしましょう。

スピリチュアリティ AI Chatbot

Currux Vision

5.4K

Currux Visionは、インテリジェントインフラ向けに設計された高度なAIシステムを開発し、さまざまなプロジェクトの監視、最適化、収益化を可能にします。最先端の技術を活用することで、プロジェクトの効率を向上させ、よりスマートな未来のための革新的な解決策を推進します。

スマートインフラストラクチャー AI Product Description Generator

FluxAI.art

16.8K

AIの力で、テキストから魅力的で高品質な画像を作成しましょう。あなたの言葉を、手軽に視覚的に魅力的なアートに変換します。

AI画像生成器 AI Art Generator

BypassAI

327K

AI生成テキストを完全に見えなくする秘密を解き明かしましょう。人間と機械生成コンテンツの境界が曖昧になる今日のデジタル環境では、AIの文章が本物の人間の表現とシームレスに融合するためのテクニックを習得することが不可欠です。SEO、クリエイティブプロジェクト、またはプロフェッショナルな目的でコンテンツを強化したい場合でも、このガイドはAIテキストを不可視化するための実践的な戦略を提供します。あなたのライティングアプローチを変革し、コンテンツの信頼性を高める準備を整えましょう！

AIヒューマナイザー AI Rewriter

Find AI tools in YBX