テニクスの使命:大規模言語モデルにおける壊滅的な忘却を克服し、AIパフォーマンスを向上させる解決策

大規模言語モデル(LLM)のメリットを最大限に引き出すためには、企業はドメイン特化型のデータを使用してモデルを微調整する必要があります。このプロセスにより、モデルの関連性のある出力生成能力が向上します。しかし、事前学習されたモデルの微調整には重要な課題があります。それは、異なるデータ分布に対する重みの調整が「壊滅的な忘却」を引き起こし、モデルが以前に習得した知識を失う危険性です。このような劣化は、LLMの性能や推論能力に悪影響を及ぼします。

音声AI企業のTenyxは、この問題に対処するための微調整ソリューションを発表しました。彼らのプラットフォームは、企業が基本的な知識や安全対策を損なうことなく、LLMを特定のニーズに合わせて調整することを可能にします。

「壊滅的な忘却は、機械学習のコミュニティで長年の課題です」とTenyxのCEOであり創設者のイタマール・アレル氏は述べています。「従来、モデルは新しいデータで継続的に学習しながら旧情報を保持できると考えられていました。」

微調整のリスク

アレル氏は、微調整が企業アプリケーションにとってますます重要になっていると強調しています。しかしながら、データサイエンティストは元のトレーニングデータセットに完全にアクセスできないことが多く、従来の微調整方法では忘却効果を抑えることができません。これにより、重要な機能が失われ、有害または偏ったコンテンツにアクセスするリスクが生じます。

たとえば、LLaMA 7Bをカスタマーサービスのチャットボットとして使用する場合、一般的な顧客とのやり取りで微調整する必要があります。LoRAのような標準技術を使用すると、ホテルと空港間の距離を正確に答えたり、「12月7日に4泊します」という文から状況を推測したりする貴重な知識が失われる可能性があります。

「微調整されたモデルは特定のタスクで優れた性能を示す一方で、広範な知識や推論に関しては不正確または偏った応答を生成する恐れがあります」とアレル氏は指摘しました。

LoRAの限界

LoRAは計算効率の良さから人気ですが、アレル氏は、壊滅的な忘却に対処するために設計されていないと説明しています。微調整によってデータ分布が元のものから大きく逸脱すると、予測できない歪みが生じます。「私たちの調査によると、LoRAには利点があるものの、知識や推論の喪失という同じリスクを伴っています」とアレル氏は述べています。モデルの複雑さは、これらの歪みを特定し修正する難しさを増します。さらに、従来の微調整方法は、人間のフィードバックからの強化学習(RLHF)を通じて確立された安全プロトコルを弱める可能性があり、偏った出力を防ぐために重要です。「RLHFも訓練プロセスであり、微調整中に影響を受けます」とアレル氏は強調しました。

現行の対策の非効率性

現状、企業は壊滅的な忘却を管理するために多くの機械学習エンジニアに頼り、最適な成果を得るために微調整を制限しプロンプトエンジニアリングを利用しています。しかし、このアプローチは一貫性に欠け、高コストであり、実行の理由や時期について明確な理解が不十分です。また、微調整中に知識や推論を評価することは、手動介入が必要で自動化の可能性がなく、プロセスを複雑にしています。

Tenyxの微調整アプローチ

Tenyxの革新的な微調整方法は、どのモデルパラメータを更新して新しいデータから学ぶことができるかを特定し、以前の入力と出力のマッピングをほぼ保持します。彼らのプラットフォームは、微調整中に行う更新がモデルの元のデータ処理能力を損なわないことを保証します。「訓練されたLLMを分析することで、私たちの方法は最適な更新パラメータを判断し、新しいデータを学びながら壊滅的な忘却を最小化します」とアレル氏は説明しました。Tenyxのアプローチは、初期のLLMトレーニング中に形成された幾何学的表現の新しい数学的解釈を活用し、以前に学習した知識を保持しながら変更に対応します。

重要なことに、Tenyxの方法はRLHFの保護を維持し、ホワイトハウスの安全で信頼できるAIに関する行政命令を含む規制ガイドラインに準拠しています。

Tenyxの微調整方法の結果

Tenyxは、人気のある企業およびオープンソースの微調整アルゴリズムを評価するパイロットスタディにおいて、セーフティ、熟練度、知識保持において顕著な利点を示しました:

- 安全性: Tenyxはリスクを11%削減し、OpenAIの-66%、Together AIの-94%、LoRAの-91%を上回りました。

- 熟練度: OpenAIのGPT 3.5 Turboはパラメータのため初期の熟練度が優れていましたが、TenyxのLlama-2 7Bは微調整後に優れた性能を発揮しました。

- 知識: Tenyxは壊滅的な忘却の損失をわずか3%と記録し、OpenAIの10%、Together AIの40%、LoRAの43%に対して優位性を示しました。

「壊滅的な忘却は、深層学習における認識されたハードルであり、最も進んだモデルにも影響を及ぼします」とスタンフォード大学のノア・グッドマン准教授は述べています。「モデルが新しいドメインデータで微調整されると、その領域での性能が通常向上しますが、確立された能力が変化するリスクがあります。」

グッドマン氏は続けて、「Tenyxはこの複雑な課題に取り組むための革新的な解決策を探求する強力な研究チームを持っています」と述べました。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles