ハイパーライトのリフレクション70Bを発見:世界最強のオープンソースAIモデル

サードパーティによる評価は、AIライティングスタートアップHyperWriteの共同創設者兼CEOであるマット・シューマーが以前発表したReflection 70Bに関するパフォーマンスデータを再現することができませんでした。その結果、シューマーはX上で詐欺の非難に直面しています。

AIの世界に新たな競争者が登場しました。シューマーは、Metaのオープンソースモデル「Llama 3.1-70B Instruct」に基づく大規模言語モデル(LLM)、Reflection 70Bを発表しました。このモデルは、革新的なエラー自己修正技術を取り入れており、第三者のベンチマークで素晴らしいパフォーマンスを示しています。

Xの投稿において、シューマーはReflection 70Bを「世界最高のオープンソースAIモデル」と宣言し、そのベンチマークパフォーマンスチャートを共有し、モデルの優れた結果を強調しました。

徹底的なテストとパフォーマンス

Reflection 70Bは、MMLUやHumanEvalなどのベンチマークを使用して緻密にテストされ、LMSysのLLM Decontaminatorが結果のクリーンさを確保しました。この結果、ReflectionはMetaのLlamaSiriーズのモデルを一貫して上回り、商業用モデルとも接近した競争力を示しています。

ユーザーはデモサイトでこのモデルを直接体験できますが、シューマーによれば、発表後のトラフィックが著しく増加しているため、チームは迅速に追加のGPUを調達しています。

Reflection 70Bのユニークな機能

シューマーは、Reflection 70Bが誤りの特定と修正において独自の利点を提供すると強調しました。「LLMはしばしばハルシネーションを起こし、自己修正できません。もしLLMが自分のミスを認識し修正できるとしたら?」と彼は述べています。

この洞察が「Reflection」の名の由来となり、モデルは出力の正確性を評価した上でユーザーに提示します。その強みは「リフレクションチューニング」と呼ばれる技術にあり、理論上の欠点を特定し、最終的な返答を完成させる前に修正します。

Reflection 70Bは、構造的な推論とエラー修正のための特別なトークンを導入し、スムーズなユーザーインタラクションを実現します。推論中、モデルは指定されたタグ内で理由の出力を提供し、エラーを特定した際にはリアルタイムで修正を行います。

プレイグラウンドのデモには、「Strawberry」の中の「r」の数を数えることや、9.11と9.9のどちらが大きいかを判断するなどの提案されたプロンプトが含まれています。これらは多くのAIモデル、特に著名な商業モデルが間違えることが多いタスクです。我々のテストでは、Reflection 70Bは短い遅延の後、最終的に正しい答えを提供しました。

この機能により、モデルは高精度を要するタスクに特に価値があります。Reflection 70BはHugging Face経由でダウンロード可能で、APIアクセスはHyperbolic Labsを通じて今日中に提供される予定です。

Reflection 405Bへの期待

Reflection 70Bのリリースは始まりに過ぎません。シューマーは、さらに大規模なモデルであるReflection 405Bが来週登場すると発表しました。彼はReflection 70BをHyperWriteの主要なAIライティングアシスタント製品に統合するための取り組みが進行中であると述べ、「これについてはすぐに詳しくお知らせします」と述べています。

Reflection 405Bは、現在利用可能なトップのクローズドソースモデルを超えることを目指しています。シューマーはまた、トレーニングプロセスとベンチマークに関する詳細なレポートが公開され、ReflectionSiriーズの背後にある革新についての洞察が得られることを示唆しています。

MetaのLlama 3.1 70B Instructに基づくReflection 70Bは、既存のツールやパイプラインとの互換性を保ちながら、Llamaチャット形式を通じて利用可能です。

Glaiveによる合成データの貢献

Reflection 70Bの成功において重要な要素は、ユースケース特化型データセットを作成するスタートアップGlaiveによって生成された合成データです。Glaiveのプラットフォームは、小規模で特定の言語モデルを迅速に訓練することを可能にし、高品質かつタスク特化型データの入手が難しいというAI開発のボトルネックを解決します。

特定のニーズに合わせた合成データセットを生成することで、Glaiveは企業がモデルを効率的かつ経済的に微調整できるようにします。同社は、HumanEvalのタスクで大規模なオープンソースモデルを上回った3Bパラメータモデルなど、小規模なモデルで成功を収めています。Spark CapitalはGlaiveに350万ドルのシード投資を行い、民主化されたAIエコシステムのビジョンを支援しています。

Glaiveの技術を活用することで、Reflectionチームは高品質の合成データを生成し、開発を加速しました。シューマーによれば、トレーニングプロセスは3週間かかり、5回のモデルの反復を含み、Glaiveのシステムを使用してカスタムデータセットが構築されました。

HyperWriteの背景

Reflection 70Bが突如現れたように見えるかもしれませんが、シューマーはすでに数年間AI業界に身を置いています。彼は2020年にニューヨーク州メルビルでジェイソン・キューパーグと共に当初Otherside AIと呼ばれる会社を共同設立しました。当社は、メール作成用のChrome拡張機能から、エッセイ作成やメール整理を可能にする包括的なAIライティングアシスタントとして進化したHyperWriteで注目を浴びました。2023年11月時点で、HyperWriteは200万人のユーザーを抱え、創設者はForbesの「30 Under 30」リストに名を連ねました。

2023年3月、HyperWriteはMadrona Venture Groupなどの投資家から280万ドルを調達し、さまざまなタスクを処理する仮想アシスタントとしてWebブラウザを変革する革新的なAI機能の導入を可能にしました。

シューマーは、特に複雑な自動化に取り組む中で、正確性と安全性がHyperWriteの最優先事項であると強調しています。プラットフォームは、Reflection 70Bと同様の精度と責任感を反映しつつ、個人アシスタントツールを継続的に改善しています。

HyperWriteとReflectionモデルの将来展望

今後、シューマーはReflectionSiriーズのさらなる大きな進展を計画しています。Reflection 405Bの発表が迫る中、彼はこれがOpenAIのGPT-4oなどの商業モデルの性能を著しく上回ると信じています。

このことは、NvidiaやAppleのような主要なプレーヤーからの新たな大規模な投資を求めているとされるOpenAIにとっての挑戦だけでなく、AnthropicやMicrosoftなどの他のクローズドソースモデル提供者にとっても同様です。

生成AIの風景が進化する中、再び力の均衡が変わりつつあります。Reflection 70Bの登場は、オープンソースAIにおける重要な瞬間を示し、開発者や研究者に商業モデルに匹敵する強力なツールへのアクセスを提供します。推論とエラー修正に関する革新的なアプローチを持つReflectionは、オープンソースモデルの能力に新たな基準を確立するかもしれません。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles