在 VB Transform 2024 會議上,IBM 的David Cox 強調了開放創新對企業生成式 AI 重要性,並回顧了公司對開源技術的長期承諾。作為 AI 模型副總裁及 MIT-IBM Watson AI 實驗室主任,Cox 提出了既具挑戰性又能激勵科技界的願景。
Cox 表示:「開放創新真的是人類進步的故事」,強調這一概念對技術進步的重要性。他指出目前 AI 發展的關鍵時刻:「我們必須對投資地點及避免鎖定做出決策。」
Cox 挑戰了對 AI 開放性的簡單二元觀點,指出:「開放並不僅僅是一種東西,它涵蓋了許多含義。」他提到了來自科技巨頭、大學甚至政府的開放模型新生態系統。
然而,他對許多大型語言模型 (LLMs) 的開放品質表示擔憂。「在某些情況下,你只得到一袋數字,對其生產方式一無所知。」這種缺乏透明度使重現性變得複雜,並削弱了基本的開源原則。
Cox 將當前的開放 LLM 和傳統的開源軟件進行比較,強調了促成其成功的特徵,包括頻繁更新、結構化釋出周期、安全補丁和活躍的社區貢獻。「所有內容都經過明確定義,允許公司和更廣泛的社區進行增量貢獻。」他指出。
他批評現今的開放 LLM 狀態,表示:「儘管令人印象深刻,但它們通常缺乏核心的開源特徵。」Cox 指出,某些提供商的不一致釋出時間表使得模型在初始推出後可能不再更新。根據他的觀察,這種不一致性削弱了開源的真正意義,限制了 AI 中的社區驅動創新。
Cox 強調了 IBM 通過 Granite 系列開源 AI 模型對透明度的承諾。他表示:「我們披露了模型的所有信息」,強調他們已開源所有處理程式碼,以確保質量和可濾除不當內容。
Cox 聲稱,這種開放性並不會妨礙性能。他展示了 Granite 模型的基準測試,宣稱:「你不必為優越性能而犧牲透明度。」
他對 LLM 提出了新穎的觀點,將其視為數據表徵,而不僅僅是對話工具。隨著預計 LLM 將涵蓋幾乎所有公開可用數據,Cox 指出一個重要問題:企業的專有知識在這些模型中幾乎未被代表。
為解決此問題,他提出了一項任務,旨在將企業數據納入基礎模型,以釋放其全部潛力。雖然存在檢索增強生成 (RAG) 等技術,Cox 卻認為它們往往未能發揮獨特的企業知識和專有信息。
Cox 為企業概述了三步驟的做法:確定可信的開放基礎模型、創建業務數據的新表徵,然後進行部署和價值創造。他強調在選擇基礎模型時需要透明度,尤其是在受監管的行業中,指出許多模型提供商並不披露其數據。
挑戰在於如何有效融合專有數據與基礎模型。Cox 認為,選擇的基礎模型必須具備高性能、透明度以及開源特性,以便提供企業所需的控制和靈活性。
為了實現他的願景,Cox 介紹了 InstructLab,這是 IBM 和 Red Hat 之間的一個聯合計劃,旨在將企業知識整合進 AI 模型中。「InstructLab 使 LLM 的真正開源貢獻變得可能。」他解釋道。
該項目利用一個結構化的世界知識和技能分類體系,使用戶能夠精確提升模型性能。這一結構化方法讓企業專屬見解的整合變得更加容易,降低了領域專家的自定義門檻。
InstructLab 使用「教師」模型生成合成訓練數據,無縫將專有數據與基礎模型結合而不妥協性能。值得注意的是,它將模型更新周期加速至僅一天,對比傳統的漫長釋出周期。
Cox 的見解和 IBM 的 InstructLab 標誌著企業 AI 採用的變革,從通用模型轉向反映每家公司獨特專業知識的定制解決方案。隨著技術的演進,競爭優勢可能在於有效地將機構知識轉化為 AI 驅動的見解。AI 的下一章不僅僅關乎智能機器,更是機器能夠像用戶一樣深入理解業務。