新研究揭示語言模型的無限語境
近期來自 Google 的研究顯示,大型語言模型(LLM)突破性地引入了無限注意力(Infini-attention)技術。這一創新方法使 LLM 能夠處理無限長度的文本,同時保持穩定的記憶和計算需求。
理解語境視窗
“語境視窗”指的是模型可以同時處理的標記數量。例如,當與 ChatGPT 的對話超出其語境視窗時,性能會顯著下降,因為較早的標記可能會被丟棄。隨著組織針對特定應用定制 LLM,將自定義文檔和知識整合進提示中,延長語境長度的焦點已成為獲得競爭優勢的關鍵。
無限注意力:LLM 的遊戲改變者
根據 Google 研究人員的說法,運用無限注意力的模型能夠有效管理超過一百萬個標記,而不會增加內存使用量。理論上,這一趨勢可能會延伸得更遠。
作為 LLM 背後的架構,變壓器(Transformers)傳統上以“平方複雜度”運作,這意味著將輸入大小從 1,000 增加到 2,000 標記會導致內存和計算時間成為四倍。這種低效是由於自注意力機制引起的,每個標記需與其他所有標記交互。
為了解決這些限制,以往的研究產生了多種延長 LLM 語境長度的方法。無限注意力結合了傳統的注意力機制與“壓縮記憶”模塊,有效處理長程和短程的語境依賴。
無限注意力的運作方式
無限注意力保留了原有的注意力機制,同時整合壓縮記憶以處理延長的輸入。當輸入超過其語境長度時,模型將舊的注意力狀態傳輸至壓縮記憶,保持記憶參數不變以提升效率。最終輸出由壓縮記憶和局部注意力融合而成。
研究人員指出:“這一關鍵修改使現有 LLM 能夠通過持續的預訓練和微調,擴展至無限語境。”
性能與應用
無限注意力的有效性在長序列的基準測試中進行評估。在長語境語言建模中,無限注意力表現卓越,顯示出較低的困惑度分數,這代表更高的連貫性,同時需求的內存顯著更少。
在“密碼檢索”測試中,無限注意力成功從長達一百萬個標記的文本中檢索出隨機數,並在處理長達五十萬個標記的總結任務中表現優於其他方法。
儘管 Google 尚未釋出具體模型細節或代碼以供獨立驗證,但其研究成果與 Gemini 觀察結果一致,後者也支持數百萬個標記的語境。
長語境 LLM 的未來
長語境 LLM 是各大 AI 實驗室的重要研究領域。例如,Anthropic 的 Claude 3 可支持多達 200,000 個標記,而 OpenAI 的 GPT-4 支持 128,000 個標記的語境窗口。
無限語境 LLM 的一大優勢是能夠更輕鬆地自定義應用程式。相比依賴複雜技術如微調或檢索增強生成(RAG),無限語境模型理論上能夠處理眾多文檔,準確找出每個查詢的最相關內容。此外,用戶還能通過大量示例輸入來提升特定任務的表現,而無需進行微調。
然而,無限語境並不會完全取代現有的方法,而是會降低進入門檻,使開發者能夠快速原型應用,並且工程成本最小化。隨著組織採納這些進展,優化 LLM 工作流程仍然對解決成本、速度和準確性挑戰至關重要。