AI2がオープンソースOLMoモデルを多様なデータセットと二段階カリキュラムで強化し、パフォーマンスを向上させる

Home AIニュース AI2がオープンソースOLMoモデルを多様なデータセットと二段階カリキュラムで強化し、パフォーマンスを向上させる

水曜日、アレンAI研究所（AI2）は、70億パラメーターのモデル「OLMo 1.7-7B」のアップデートを発表しました。この強化版は、より広範で多様なDolmaデータセットを活用しており、洗練されたトレーニングプロセスが特徴です。

OLMoは2月に初めて発表され、「真のオープンソースの最先端大規模言語モデル」として位置づけられています。このモデルは、包括的な事前トレーニングデータ、トレーニングコード、モデルの重み、評価指標を備えています。

最新のアップデートにより、OLMo 1.7-7Bはコンテキスト長を2,048トークンから4,096トークンに拡張し、洗練されたトレーニング技術とアーキテクチャの強化によりパフォーマンスが向上しています。Dolma 1.7データセットには、Dolma CCやRefined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipediaなど多様な資料から取得した23兆トークンが含まれています。

従来のDolma 1.5は主にウェブデータを利用していましたが、新しいDolma 1.7は専門知識、複雑な推論、コーディングを必要とするタスクに対するモデルの能力を強化しています。AI2は、内容の質を確保するためにデデュープ（重複除去）手法を改善し、段落レベルの重複スコアから算出した既定の閾値を超える重複文書を除外しました。

Dolma 1.7では、洗練された品質フィルタリングシステムも導入されています。FastText分類器が文書の質を評価し、構造のしっかりしたコンテンツと低品質な素材を区別します。高品質なソースにはWikipedia、小規模なWeb RSSフィード、Semantic Scholarが含まれ、低品質な文書は成人向けコンテンツや誤情報サイトが該当します。この分類器は約25GBのデータで訓練されています。

さらに、OLMo 1.7は二段階のトレーニングカリキュラムを採用しています。最初に研究者たちはモデルをゼロからトレーニングし、次の段階ではDolma 1.7のキュレーションされたサブセットで追加の500億トークンを用いて段階的に学習率をゼロに減少させながらトレーニングを進めます。この高品質サブセットは、全てのWikipedia、OpenWebMath、Flanデータを含め、特定のソースを除外したうえで、残りのデータセットの割合が適切にバランスされます。

AI2によれば、これらの強化によりOLMo 1.7-7Bは、Massive Multitask Language Understanding（MMLU）ベンチマークでLlama 2-7Bを超え、GSM8KデータセットではLlama-2-13Bを上回るとしています。

アップデートされたOLMoモデルはApache 2.0の下でライセンスされ、Dolma 1.7はODC-BYの下で提供されています。両者はHugging Faceで利用可能です。

シスコ・ハイパーシールドの紹介：AI時代のための革新的なセキュリティアプローチ

ボストン・ダイナミクス必見！Mentee Roboticsが次世代「AIファースト」ロボットを発表

Most people like

录咖

94.6K

AI駆動の音声・映像処理プラットフォーム：コンテンツ制作と編集の効率と精度を向上人工知能技術の急速な発展に伴い、音声・映像処理プラットフォームはコンテンツ制作の分野を未だかつてない方法で変革しています。AI駆動のツールは編集の自動化、画質の向上、音声品質の最適化を実現し、クリエイターの作業効率を大幅に向上させます。ソーシャルメディア、ビデオ制作、ライブ配信のいずれにおいても、これらのプラットフォームはユーザーにスマートなソリューションを提供し、コンテンツ制作をより簡単かつ効率的にします。AI駆動の音声・映像処理プラットフォームを探求し、創作体験を全面的に向上させましょう。

音声・映像処理 AI Video Recording

Blaze

467.5K

ブランドの声を完璧に捉えるコンテンツを制作するために設計されたAI駆動のツールをご紹介します。オーディエンスとのエンゲージメントを目指す方やブランドアイデンティティを強化したい方に最適です。この革新的なソリューションは、あなたのアイデアをターゲット市場に響く魅力的なストーリーへと変貌させます。あなたのニーズに特化した最先端の技術で、今日からコンテンツ戦略を向上させましょう。

AIツール AI Content Generator

Subscribr

56.6K

YouTube向けAI脚本作成ツールのご紹介：コンテンツ制作プロセスを革新しよう！魅力的な脚本でYouTube動画を向上させたいですか？私たちのAI脚本作成ツールは、あなたのようなクリエイターのために特別に設計されています。高度なアルゴリズムと言語処理機能を活用し、魅力的なコンテンツを迅速かつ簡単に生成します。作家のブロックにさようならを告げ、創造的な自由にこんにちは！チュートリアル、ブログ、または教育コンテンツを制作する際も、私たちのツールはあなたの脚本を魅力的にし、オーディエンスに合わせてカスタマイズします。動画制作を向上させ、視聴者をかつてないほど魅了しましょう！

AI駆動の AI YouTube Assistant

Read

1.8M

リードを紹介します：スマートスケジューリング、詳細な分析、簡潔な要約、カスタマイズされた提案を通じて会議の健康を向上させるあなたのパートナーです！生産性とウェルビーイングを最優先する、革新的な会議のアプローチを体験してください。

自動化された会議報告 AI Meeting Assistant

Find AI tools in YBX