GAIA基準：下一代人工智慧應對現實世界挑戰

Home AI新聞 GAIA基準：下一代人工智慧應對現實世界挑戰

Updated on 十一月 27 2023

一項新的人工智慧基準測試GAIA旨在評估像ChatGPT這樣的聊天機器人是否能在日常任務中展現類似人類的推理和技能。由Meta、Hugging Face、AutoGPT和GenAI的團隊開發，GAIA根據研究人員發布在arXiv上的論文，提出了需要基本能力的現實問題，例如推理、多模態處理、網頁瀏覽和工具使用熟練度。

研究人員表示，GAIA的問題「對人類來說概念上簡單，但對大多數先進的人工智慧來說卻富有挑戰性。」在測試中，參與者的得分高達92％，而配備插件的GPT-4則僅獲得15％的分數。作者指出：「這一顯著的表現差距與大型語言模型（LLMs）在法律或化學等專業任務上超越人類的近期趨勢形成對比。」

GAIA專注於類人能力而非專業知識

與傳統基準測試強調對人類困難的任務不同，研究人員主張應專注於揭示人工智慧與普通人類相比的能力。GAIA團隊設計了466個具有明確答案的現實問題，其中300個保持私密以供公共GAIA排行榜使用，而166個問題及其答案則作為開發集公開。

Meta AI的首席作者Grégoire Mialon表示：「解決GAIA將代表人工智慧研究的一個里程碑。我們相信，克服GAIA所提出的挑戰是邁向下一代人工智慧系統的重要一步。」

人類與人工智慧的表現差距

目前，最高的GAIA分數由手動選擇插件的GPT-4所持有，達到30％的準確率。基準測試創作者建議，能夠解決GAIA的人工智慧將在合理的時間內被歸類為具備人工一般智能（AGI）。

作者解釋道：「本論文批評了使用複雜的數學、科學和法律考試來測試人工智慧的趨勢，指出對人類具有挑戰性的任務對現代系統來說不一定是難題。」GAIA強調了實際問題，例如「根據官方網站，哪座城市舉辦了2022年歐洲歌唱大賽？」和「在最新的2022年樂高維基百科條目中列出了多少圖片？」

研究人員表示：「我們認為AGI的發展取決於系統在這些日常問題上展示出與普通人類相似的穩健性。」

GAIA對人工智慧發展的潛在影響

GAIA的推出標誌著人工智慧研究的一次重大轉變，可能帶來深遠影響。通過強調日常任務中的類人能力，而不僅僅是專業知識，GAIA推進了當前人工智慧基準的邊界。

如果未來的人工智慧系統能夠展示常識、適應性和推理能力，如同GAIA所衡量，這表明它們可能實現實用的AGI，從而促進人工智慧助手、服務和產品的提升。然而，研究人員警告，當前的聊天機器人在解決GAIA方面仍面臨相當的挑戰，反映出推理、工具使用和管理各種現實場景的現有限制。

隨著研究人員挑戰GAIA的難題，他們的研究成果將為創造更具能力、多樣性和可信任的人工智慧系統提供指導。此外，像GAIA這樣的基準測試促進了對如何塑造人工智慧以優先考慮人類價值觀（如同理心、創造力和倫理決策）的深入思考。

對於有興趣的人，GAIA基準排行榜提供了對新一代大型語言模型在該評估中表現的洞察。

亞馬遜 AWS 在 Re:Invent 會議上將以創新生成式人工智慧解決方案超越微軟

伊隆·馬斯克的xAI本週將推出「Grok」聊天機器人：您需要了解的資訊

Most people like

AI Cover Generator

9.6K

介紹一款創新的 AI 工具，簡化高品質歌曲翻唱的創作過程，讓您輕鬆上手。無論您是經驗豐富的音樂人，還是充滿熱情的初學者，我們的平台都能輕鬆幫助您創造驚人的翻唱作品。

AI 封面生成器 AI Cover Generator

NoteGPT

3.3M

輕鬆自動縮略視頻、文章和文字，運用人工智能技術。與智能AI助手進行對話，以獲取更深入的見解。輕鬆生成文字記錄，自動化您的筆記過程，並有效管理您的資料夾。享受我們為您便利而設計的先進工具帶來的高效生產力。

AI 摘要工具 AI YouTube Assistant

Unscreen

795.2K

Unscreen 是一個使用方便的工具，旨在輕鬆去除視頻背景，無需使用色鍵技術。體驗無縫的視頻編輯，使用這一創新解決方案提升您的內容。

影片背景去除 AI Short Clips Generator

iCustoms

9.1K

徹底改變海關申報：全球企業的人工智慧解決方案在這個日益互聯的世界中，全球企業面臨著複雜的海關申報挑戰。利用尖端的人工智慧解決方案可以簡化海關流程，提高效率和合規性。深入了解這些創新技術如何改變您的業務運營，並輕鬆駕馭國際貿易。

海關申報 AI CRM Assistant

Find AI tools in YBX