GAIAベンチマーク:次世代AIが現実世界の課題に挑む

新しい人工知能ベンチマーク「GAIA」は、ChatGPTのようなチャットボットが日常のタスクにおいて人間のような推論能力やスキルを持つかどうかを評価するために設計されました。Meta、Hugging Face、AutoGPT、GenAIのチームによって開発されたGAIAは、基本的な能力である推論や複数のモダリティの処理、ウェブブラウジング、ツールの適切な使用を必要とする現実的な質問を提示しています。この研究は、arXivに発表された論文で報告されています。

研究者たちは、GAIAの質問は「人間にとっては概念的にシンプルだが、ほとんどの先進的なAIには難しい」という立場を示しています。テストでは、人間参加者のスコアは92パーセントという高得点を記録しましたが、GPT-4はプラグインを使用しても15パーセントにとどまりました。著者たちは、「この顕著なパフォーマンスの違いは、大規模言語モデル(LLM)が法務や化学などの特定のタスクで人間を上回っている最近の傾向と対照的です」と述べています。

GAIAは人間のような能力に焦点を当てる

従来のベンチマークが人間にとって難しいタスクを強調するのに対し、研究者たちはAIの平均的な人間の堅実性に匹敵する能力を示すタスクに焦点を当てるべきだと主張しています。GAIAチームは、明確な答えを持つ466の現実的な質問を作成しました。このうち300の質問はGAIAリーダーボードのために非公開とされ、残りの166の質問と答えは開発用のセットとして利用可能です。

「GAIAの解決はAI研究における画期的な成果を意味します」とMeta AIの主著者グレゴワール・ミアロンは述べています。「私たちは、GAIAが提示する課題を克服することが次世代AIシステムの実現に向けた重要なステップであると考えています。」

AIと人間のパフォーマンスギャップ

現在、最高スコアを持つのは手動選択されたプラグインを使用したGPT-4で、正確性は30パーセントに達しています。ベンチマーク作成者は、GAIAを解決できるAIは合理的な時間内に人工一般知能(AGI)を持つと見なされる可能性があると提案しています。

著者たちは、「論文では、AIを複雑な数学や科学、法律の試験でテストする傾向を批判し、人間にとって難易度が高いタスクが必ずしも現代のシステムにとって難しいわけではないことを指摘しています」と説明しています。GAIAは、「2022年ユーロビジョン・ソング・コンテストをどの都市が開催したか?」や「最新の2022年レゴのウィキペディア記事に掲載されている画像の数は?」といった実用的な質問に重点を置いています。

「私たちは、AGIの開発が日常の質問において平均的な人間と同様の堅実性を示すシステムの能力に依存していると考えています」と研究者たちは記述しています。

GAIAがAI開発に与える影響

GAIAの導入は、AI研究における重要な転換点を示しており、広範な影響を与える可能性があります。専門知識だけでなく、日常タスクにおける人間のような能力を強調することで、GAIAは現在のAIベンチマークの限界を押し広げています。

将来のAIシステムがGAIAによって測定される常識、適応性、推論能力を示すことができれば、実用的なAGIを達成する可能性があります。これは、より高度なAIアシスタントやサービス、製品の実现につながるでしょう。しかし、研究者たちは、現在のチャットボットがGAIAを解決する上で大きな課題に直面していると警告しています。これは推論、ツールの利用、および多様な現実世界のシナリオを管理する能力における既存の限界を反映しています。

GAIAの課題に取り組む中で、研究者たちの発見は、より有能で多様性に富み、信頼性の高いAIシステムの実現に向けた進展を浮き彫りにします。また、GAIAのようなベンチマークは、AIが共感、創造性、倫理的意思決定などの人間の価値を優先するように形成される方法についての批判的思考を促します。

GAIAベンチマークのリーダーボードでは、どの次世代LLMがこの評価で現在優れているのかを確認することができます。

Most people like

Find AI tools in YBX