人工一般知能(AGI)—さまざまなタスクにおいて人間レベルの能力を持つAIシステム—の追求は、科学者の間で情熱的な議論を引き起こしています。専門家の意見はさまざまで、AGIの実現にはまだ時間がかかると考える者もいれば、十年以内に生まれると予測する者もいます。特に、一部の専門家は現在の大規模言語モデル(LLM)に「AGIの兆し」がすでに見られると信じています。
この議論を明確にするために、Google DeepMindのチーフAGIサイエンティスト、シェーン・レッグ氏率いるチームが、AGIシステムとその前駆体の能力と行動を分類するための新しいフレームワークを発表しました。
AGIの定義
AGI開発の大きな課題の一つは、明確な定義を確立することです。DeepMindの研究者たちは、チューリングテスト、コーヒーテスト、意識の評価、経済的指標、タスク関連のベンチマークを含む9つの定義を評価し、各定義がAGIの本質を完全に捉えられない限界を強調しています。
たとえば、LLMがチューリングテストを通過できる一方で、説得力のあるテキストを作成することだけではAGIとは見なされません。これは、現在のこれらモデルの制限を示しています。さらに、機械に意識を持たせることは依然として曖昧な探求です。特定のテストに失敗する—例えば、不慣れなキッチンでコーヒーを淹れることができない—ことはAGIではないことを示しますが、単にタスクをこなすことがそれを確認するわけではありません。
AGIについての理解を深めるため、研究者たちは人工知能を評価するための6つの基準を提案しています:
1. 能力重視: AGIの測定は、人間のような理解や意識といった捉えにくい特質よりも能力を重視すべきです。
2. 一般性とパフォーマンス: 評価は、AIがこなすタスクの範囲とそのパフォーマンスを考慮する必要があります。
3. 認知要件: AGIは認知的・Meta認知的なタスクに関与すべきですが、物理的な具現化は必須ではありません。
4. タスクポテンシャル: AGIレベルのタスクを遂行する能力があれば、現在利用可能でなくても問題ありません。稼働を求めることは、倫理的・法的な非技術的課題を生むからです。
5. 生態的妥当性: AGIの測定は、社会に価値のある実世界のタスクを重視するべきです。
6. 経路モデル: AGIは単一の到達点ではなく、さまざまなレベルの知性を持つ連続体を表しています。
知性のスペクトル
DeepMindは、「パフォーマンス」と「一般性」を5つのレベルにわたって評価するマトリックスを作成しています。これには、AIが存在しない状態から超人AGIまでが含まれます。パフォーマンスはAIの能力が人間のスキルと比較してどの程度かを示し、一般性はAIが効果的に処理できるタスクの幅を測定します。
このマトリックスは、狭いAIと一般AIを区別します。たとえば、AlphaZeroやAlphaFoldのような超人狭いAIシステムは特定のタスクに優れています。ChatGPT、Bard、Llama 2といった先進的な言語モデルは、エッセイ執筆のような特定のタスクでは「有能」(レベル2)に分類される一方、数学や推論といった分野では「新興」(レベル1)に留まっています。
研究者たちは、現在の先進的な言語モデルはより広範なタスクにおいて高いパフォーマンスを示すまでレベル1一般AI(「新興AGI」)に分類されると主張しています。また、理論的な分類が現実のパフォーマンスと必ずしも一致しないことに注意すべきだと警告しています。たとえば、テキストから画像を生成するシステムが人間のアーティストと比べて高品質な画像を作成できる場合でも、時折の不正確さにより「名人」として認められないことがあります。
DeepMindは、言語スキル、推論能力、創造性を含むさまざまな認知的およびMeta認知的タスクを網羅するAGIのベンチマークを提唱しています。彼らは、十分一般的な知性が考え出すすべてのタスクを定義することは困難であり、AGIベンチマークは新たなタスクに応じて動的に適応する枠組みであるべきだと提案しています。
自律性とリスク評価
DeepMindはAIシステムの自律性と関連するリスクを評価するためのマトリックスを紹介しています。これは、すべてのタスクが人間によって実行されるレベル0から、完全自律を示すレベル5までの範囲を含み、レベルの間で人間とAIが責任を共有する状況を示します。
AIシステムのリスクは、自律性が増すにつれて進化します。低レベルでは、リスクは労働者のスキルの低下や産業の混乱を含むかもしれません。自律性が高まると、個人へのターゲットを絞った操作や、完全自律エージェントとの倫理的な不整合といった深刻な懸念が生じる可能性があります。
DeepMindのフレームワークには限界や批判もありますが、人間の能力を超えるAIシステムの開発に向けた進捗を測るための重要な指針として機能しています。