Silo AIが欧州向けに開発した新しいオープンソース言語モデル「Poro」を発表

ヘルシンキを拠点とするAIスタートアップ、Silo AIは、24の公式欧州連合言語に対応した多言語AI機能を強化することに特化したオープンソースの大規模言語モデル(LLM)「Poro」を発表し、大きな注目を集めています。このモデルは、Silo AIの生成AI部門であるSiloGenと、トゥルク大学のTurkuNLP研究グループが共同で開発したもので、EU全体の言語処理に革新をもたらすことを目指しています。

「デジタル主権の問題です」と、Silo AIのCEO、ピーター・サーリンは述べています。「私たちは、ヨーロッパの価値観や文化、言語を体現するモデルを求めています。目的は、ヨーロッパの企業や組織が、その価値を維持しながら独自のモデルを構築できるようにすることです。」

Poro 34Bモデルは、34.2億パラメータを持ち、フィンランド語で「トナカイ」を意味します。BLOOM変換器アーキテクチャとALiBiエンベッディングを採用し、英語やフィンランド語、PythonやJavaなどのプログラミング言語を含む211兆トークンの多様なデータセットで訓練されました。また、Poroはフィンランドのカヤーニにあるヨーロッパ最強のスパコンLUMI上で訓練されており、512のAMD Instinct MI250X GPUを搭載し、74ペタフロップスの計算能力を誇ります。

サーリンは、Poroがフィンランドのようなリソースの乏しい言語のための自然言語モデルの訓練という大きな課題に取り組んでいると強調しています。Poroは、英語などリソースの豊富な言語のデータを活用したクロスリンガルトレーニング戦略を採用しています。

Poroは、フランスのスタートアップMistral AIからリリースされた資金調達の大きなMistral 7Bに次ぐ、ヨーロッパで生まれた二つ目の主要なオープンソースLLMです。Poroの発表は、急速に進化する生成AIの世界でヨーロッパの存在感を強め、AI研究開発機関間の競争が激化していることを示しています。

Poro研究チェックポイント

SiloGenは、Poroの研究チェックポイントプログラムを通じて透明性を重視し、モデルの訓練過程を文書化することにコミットしています。「訓練過程でチェックポイントを公開する方針です。これは比較的新しいアプローチです」とサーリンは説明しました。「モデル訓練の透明性は一般的ではありません。」

Poro 34Bの初期チェックポイントは、訓練の30%を捉えています。初期のベンチマークでは、Poroがすでに最先端の結果を達成していることが示されています。フィンランド語のFIN-bench評価では、PoroはFinGPTのような専門的な単言語フィンランドモデルを超えています。

「モデルは、訓練が30%完了した段階で、低リソース言語に対して優れたパフォーマンスを示しました」とサーリンは指摘します。関連する言語間で共通のパターンを特定することで、Poroは訓練データが限られていても優れた成果を発揮します。また、Poroの多言語能力は英語のパフォーマンスを損なうことなく、フィンランド語のベンチマークで他の既存モデルを上回り、英語でも同等以上の成果を目指しています。

ビッグテックに対するオープンソースの選択肢

サーリンは、Poroのようなオープンソースモデルこそが、今後のAIの未来を担うと信じています。「多くのオープンソースの代替策が登場するでしょう。オープンソースに基づく透明な未来が最も安心だと思います。」彼はまた、データとモデルが規制基準に適合するよう設計されていることも強調しました。Silo AIは、訓練過程においてPoroチェックポイントを定期的に公開し、すべてのEU言語に対するオープンソースモデルの家族を構築することを目指しています。

トゥルク大学との共同開発

Poroの開発は、Silo AIとトゥルク大学との有意義なパートナーシップを反映しています。TurkuNLPの研究者たちはフィンランド語のオープンソースリソースで先駆的な役割を果たしています。「私たちの研究グループと数名の教授たちが力を合せ、収益資金を使って会社のスケールアップを図っています」とサーリンは述べました。「300名以上の大半がAI関連分野の博士号を所有しており、業界の多くとは大きく異なります。」

この協力関係は、Silo AIの実践的なAI技術とトゥルク大学の多言語モデリング研究のリーダーシップを融合させ、リソースの乏しいヨーロッパ言語のAI能力を向上させるための効果的な産学連携のモデルを示しています。

ヨーロッパはオープンソースAIでリードする準備が整ったのか?

Poroの発表は、自然言語処理における新たなオープンコラボレーションと透明性の時代の始まりを意味します。Poro研究チェックポイントのようなイニシアティブは、これまで主要なテック企業が独占していた洞察やリソースを提供します。

「アリアンツやロールス・ロイス、ホンダ、フィリップスなどのクライアントと提携し、将来的な規制や利用可能なモデルに関する懸念があるという声を聞いています」とサーリンは述べました。

Poroがその潜在能力を発揮すれば、強力な多言語モデルへのアクセスを民主化し、ヨーロッパのテクノロジー巨人に対するネイティブの選択肢を提供する可能性があります。まだ初期段階ではありますが、Poroは言語AIをアクセス可能かつオープンにし、独自のサイロから公共の領域へと移行する重要な一歩を象徴しています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles