Meta Galactica 作者談論模型艱難的推出經歷

一年前,就在 OpenAI 推出 ChatGPT 之前,Meta 發布了自己的大型語言模型——Galactica。這一模型引發了重大爭議,並在推出幾天後便被撤回。現在,原作者之一分享了該項目的艱辛歷程。

Ross Taylor 是 Papers with Code 平台的共同創辦人,該平台負責存檔機器學習研究論文,他在 Galactica 的開發中扮演了關鍵角色,這一模型是基於科學文獻訓練的。不幸的是,該模型的演示遭遇了嚴重問題,生成了不存在論文的引用。

在 X(前身為 Twitter)上,Taylor 誠實地反思了團隊面臨的挑戰,他承認:“在推出演示時,我們過度擴張,失去了情境意識”,並未進行充分的質量檢查。他認識到,雖然他們預料到可能會遭受批評,但工作負擔的強度使專注力模糊。

雖然該模型的性能優於 Google 的 PaLM 和 DeepMind 的 Chinchilla,但演示仍然掩蓋了 Galactica 的真正能力。Taylor 解釋說,演示的初衷是測試大型語言模型對科學問題的響應。然而,他指出,“我們應該更早意識到”,記者們往往會將該模型測試超出其預期範疇。

有趣的是,他將部分反響歸因於用戶的認知,聲稱許多人將 Galactica 視為一個成熟產品,儘管它僅僅是基礎模型的演示。“我們將願景放在了網站上,這誤導了預期,”他表示。他指出,雖然這場爭議本可減輕,但對於 Galactica 可能生成“虛假科學”的擔憂被過度誇大了。

當時,來自邁爾斯·普朗克研究所的知名人士 Michael Black 表達了擔憂,建議 Galactica 可能引發一波深層科學捏造。統一建模語言的主要開發者 Grady Booch 批評該模型為“僅僅是大量的統計無稽之談”。作為回應,Taylor 將許多批評標籤為“非常愚蠢”,堅定表示該項目如果更謹慎規劃本可更成功地推出。

回首過去,Taylor 堅持該研究的價值,甚至認為發布演示的決定是開放性行為的體現。“這種前所未有的開放性是錯誤的,因為它暴露了自身的脆弱性,”他承認。Meta 對開源方法的承諾,最終導致了 LLaMA 及其更高級別產品 Llama 2 的開發,Galactica 的見解為這些後續模型提供了重要信息。

最後,Taylor 表示願意再次進行相同的項目,他說:“做某事並後悔總比什麼都不做要好。”他強調,儘管這段經歷依然痛苦,但所獲得的教訓是無價的。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles