在最近的一項合作中,人工智慧初創公司Gradient與雲計算平台Crusoe聯手,將Llama-3模型的上下文窗口擴展至驚人的100萬個標記。上下文窗口指的是大型語言模型(LLM)能夠處理的輸入和輸出標記數量,對於多種應用至關重要。
科技公司和領先的AI實驗室正積極競爭,以增強其LLM的上下文窗口。在短短幾個月內,標記的支持數量從幾千個急劇上升至超過一百萬。然而,擁有廣泛上下文窗口的模型,例如Anthropic Claude(20萬標記)、OpenAI GPT-4(12.8萬標記)和Google Gemini(100萬標記),主要在私有設置中使用。
開源長文上下文LLM的需求
Gradient與尋求將LLM整合到業務運營中的企業客戶合作。在Llama-3推出之前,該公司在客戶項目中面臨著嚴重的上下文限制。例如,編程助手這類重要工具通常只能生成短程代碼片段。但現在,企業渴望增強這些功能,以開發完整的代碼模塊。
“為了實現這一點,語言模型必須參考整個代碼庫或多個GitHub存儲庫,”Gradient AI首席科學家Leo Pekelis解釋道。逐步提供完整的代碼庫既緩慢又容易出錯,因為模型無法一次性獲取全部內容。
“將整個代碼庫輸入語言模型的上下文中可以解決許多問題,實現更準確和高效的解決方案,”Pekelis補充道。
由於向第三方傳送數據的限制,許多公司無法利用像Gemini或Claude這樣的私人模型。這驅使Gradient團隊開發擁有100萬標記上下文的開源模型。
開放研究貢獻
LLM的商業化減少了AI實驗室分享發現和研究的意願。儘管公司持續擴展上下文窗口,但它們不太願意透露所使用的代碼、數據或優化模型的策略。儘管如此,開放研究社群仍致力於分享知識和推進模型。Gradient在全球大學和研究機構的研究貢獻中獲益良多。
他們利用Meta的Llama 3的80億和700億參數版本,這些版本的默認上下文窗口為8000個標記,並採用了來自Berkeley AI Research的技術,使其在不造成內存和計算資源過載的情況下實現更長的上下文長度。最初的代碼來自新加坡的一個開源項目,而關鍵數學公式則來源於上海的一個實驗室。他們針對Nvidia的基準進行性能評估,將其模型與其他長上下文LLM(如Gemini)進行比較。
“如果沒有開放研究社群,許多進展將無法實現,”Pekelis指出。“開放研究對我們的工作影響深遠。”
克服計算挑戰
獲取計算資源是LLM研究中的主要挑戰。大多數AI實驗室依賴大型GPU叢集進行訓練和測試。Gradient與Crusoe合作,探討長文上下文LLM,利用Crusoe專門的AI雲進行成本效益模型開發。
“這個時機恰到好處,因為我們正啟動[Nvidia] L40S叢集,”Crusoe的高級開發者倡導者Ethan Petersen說。“我們的目標是證明這些芯片能支持大規模訓練,而不僅僅是推斷。”
大型科技公司競相獲取昂貴的高端GPU,如A100、H100和即將到來的B100,每個GPU的價格都高達數萬美元,伺服器叢集的總成本更是高達數百萬美元。Crusoe提供這些GPU並為客戶定制解決方案。與Gradient密切合作,他們定制L40S叢集,顯著降低了訓練成本。
“我們與像Gradient這樣的合作夥伴的做法,專注於根據其需求提供最有效的計算解決方案,而在這種情況下,L40S非常理想,”Crusoe的首席產品官Patrick McGregor表示。“通過定制計算產品,我們提供了巨大的價值。”
Pekelis提到,在L40S叢集上的網絡優化所實現的創新使他們能夠迅速訓練模型,並在Llama-3推出後不久釋出。其他雲服務提供商缺乏同樣的協作靈活性,這使得自定義配置變得複雜。
模型評估技術
評估長上下文窗口的一個關鍵基準是“針對稻草堆中的針”測試,該測試是在長文本序列中測試特定信息。
“我們的模型在這個測試中幾乎達到完美的表現,有效上下文長度可達200萬,僅可與我在Gemini 1.5 Pro中見過的情況相媲美,”Pekelis說。
然而,“針對稻草堆中的針”測試可能無法完全反映模型的整體上下文性能。團隊還採用了更複雜的評估方法,如多個“稻草堆中的針”或對抗性針,這些方法引入了相互矛盾的信息。
他們利用Nvidia的RULER基準評估模型,該基準包含針對長上下文語言模型的13個任務,具有可變的序列長度和復雜性。該團隊還在提升模型的多次上下文學習能力,讓它們能夠通過在提示中包含數百或數千個示例來靈活適應新任務。
長上下文LLM的企業應用
Pekelis認為,開放的長上下文模型將為尋求構建基於LLM的應用的公司和開發者搭建橋樑。
“目前,個人AI應用和企業解決方案之間存在明顯差距,後者仍滯後,”他指出。“讓語言模型能夠在上下文窗口中處理更多信息,將開啟新的可能性。”
更長的上下文可以促進代理系統的運作,讓多個語言模型共同運作,處理更多信息而需的請求更少。此外,長上下文LLM還可以簡化複雜數據處理任務,例如風格模仿。
“您無需收集和預處理來自不同來源的數據來訓練模型以模仿我的寫作風格,而是可以簡單地輸入我以前的所有電子郵件,模型就能學會像我一樣寫作,”Pekelis解釋道。
此外,擁有廣泛上下文窗口的LLM可以減少對檢索增強生成(RAG)的依賴,RAG需要為每個提示提取相關文檔。假設一個擁有無限上下文的LLM可以將所有文檔融入提示中,並根據查詢選擇最相關的部分——不過,它仍然需要在每個新的聊天會話中重新查詢,因為上下文有限。
增強的上下文窗口還降低了創建原型和概念驗證的障礙,幫助產品團隊理解語言模型的潛力。
“通常,教育客戶了解可能性是關鍵的第一步,”Pekelis總結道。“開發原型或初步示例展示了企業的轉型潛力。”