GAIA基準:下一代人工智慧應對現實世界挑戰

一項新的人工智慧基準測試GAIA旨在評估像ChatGPT這樣的聊天機器人是否能在日常任務中展現類似人類的推理和技能。由Meta、Hugging Face、AutoGPT和GenAI的團隊開發,GAIA根據研究人員發布在arXiv上的論文,提出了需要基本能力的現實問題,例如推理、多模態處理、網頁瀏覽和工具使用熟練度。

研究人員表示,GAIA的問題「對人類來說概念上簡單,但對大多數先進的人工智慧來說卻富有挑戰性。」在測試中,參與者的得分高達92%,而配備插件的GPT-4則僅獲得15%的分數。作者指出:「這一顯著的表現差距與大型語言模型(LLMs)在法律或化學等專業任務上超越人類的近期趨勢形成對比。」

GAIA專注於類人能力而非專業知識

與傳統基準測試強調對人類困難的任務不同,研究人員主張應專注於揭示人工智慧與普通人類相比的能力。GAIA團隊設計了466個具有明確答案的現實問題,其中300個保持私密以供公共GAIA排行榜使用,而166個問題及其答案則作為開發集公開。

Meta AI的首席作者Grégoire Mialon表示:「解決GAIA將代表人工智慧研究的一個里程碑。我們相信,克服GAIA所提出的挑戰是邁向下一代人工智慧系統的重要一步。」

人類與人工智慧的表現差距

目前,最高的GAIA分數由手動選擇插件的GPT-4所持有,達到30%的準確率。基準測試創作者建議,能夠解決GAIA的人工智慧將在合理的時間內被歸類為具備人工一般智能(AGI)。

作者解釋道:「本論文批評了使用複雜的數學、科學和法律考試來測試人工智慧的趨勢,指出對人類具有挑戰性的任務對現代系統來說不一定是難題。」GAIA強調了實際問題,例如「根據官方網站,哪座城市舉辦了2022年歐洲歌唱大賽?」和「在最新的2022年樂高維基百科條目中列出了多少圖片?」

研究人員表示:「我們認為AGI的發展取決於系統在這些日常問題上展示出與普通人類相似的穩健性。」

GAIA對人工智慧發展的潛在影響

GAIA的推出標誌著人工智慧研究的一次重大轉變,可能帶來深遠影響。通過強調日常任務中的類人能力,而不僅僅是專業知識,GAIA推進了當前人工智慧基準的邊界。

如果未來的人工智慧系統能夠展示常識、適應性和推理能力,如同GAIA所衡量,這表明它們可能實現實用的AGI,從而促進人工智慧助手、服務和產品的提升。然而,研究人員警告,當前的聊天機器人在解決GAIA方面仍面臨相當的挑戰,反映出推理、工具使用和管理各種現實場景的現有限制。

隨著研究人員挑戰GAIA的難題,他們的研究成果將為創造更具能力、多樣性和可信任的人工智慧系統提供指導。此外,像GAIA這樣的基準測試促進了對如何塑造人工智慧以優先考慮人類價值觀(如同理心、創造力和倫理決策)的深入思考。

對於有興趣的人,GAIA基準排行榜提供了對新一代大型語言模型在該評估中表現的洞察。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles