Meta推出Megalodon大型語言模型，挑戰Transformer架構

Home AI新聞 Meta推出Megalodon大型語言模型，挑戰Transformer架構

Meta與南加州大學的研究者們開發出一種新的機器學習模型，成功解決了與Transformer架構相關的關鍵挑戰。該模型名為Megalodon，顯著擴大了上下文窗口至數百萬個標記，同時減少了內存使用。實驗表明，Megalodon在處理大量文本方面優於類似的Transformer模型，使其成為Transformer架構的潛在繼承者。

理解上下文窗口

“上下文窗口”是指模型能夠同時處理的標記數量。更廣泛的上下文窗口增強了大型語言模型（LLM）進行長期對話、分析更大文檔和改善上下文學習的能力。然而，擴大Transformer的上下文窗口會帶來可觀的計算成本。

Transformer的運作具有“二次複雜性”，這意味著輸入大小加倍會使內存和計算時間增加四倍。這一關係源自自注意力機制，每個輸入序列的元素均相互比較。

Meta的Megalodon基於2022年提出的移動平均門控注意力技術（MEGA），它優化了注意力機制，大幅降低模型的複雜性，使LLM能在不過度消耗內存的情況下處理更長的輸入。MEGA結合了指數移動平均（EMA），平衡了局部和遠距標記關係的重要性，確保隨著上下文的擴展保持連貫性。

Megalodon的關鍵創新

Megalodon在架構上對MEGA進行了多項改進，使其性能可與Transformer的全注意力機制相對應。它使用“分塊注意力”，將輸入序列拆分為固定塊，將複雜度從二次降為線性。此方法還促進更多的並行性，加快了模型訓練的速度。

研究人員在2000萬個標記上訓練了一個擁有70億參數的Megalodon版本，並將其與Llama-2-7B和13B模型進行基準測試。結果顯示，Megalodon-7B在訓練困惑度和各種下游任務上超越了用於訓練Llama-2-7B的最新Transformer，在某些情況下，其性能甚至接近Llama-2-13B。

儘管Megalodon在4000個標記的上下文窗口下運行速度稍慢於Llama-2，但由於計算效率的提升，它在32000個標記的上下文長度下表現優異。早期實驗結果顯示，Megalodon能有效建模無限長度的序列。

研究團隊還在不同數據模態的小規模實驗中取得了令人鼓舞的成果，並計劃將Megalodon適應於多模態應用。Megalodon的代碼已在GitHub上以MIT許可證發布，允許不限使用和商業化。

Transformer的主導地位

儘管持續探索諸如Mamba（AI21 Labs商業使用）和MIT開發的液態神經網絡等替代架構，但Transformer依然是語言模型的主導架構。Meta不斷創新，推出Megalodon等模型，同時增強其Transformer系列，包括最近發布的Llama-3。

將新架構調整以匹配Transformer現有的廣泛工具和庫生態系統是一項挑戰。這些工具促進模型訓練、微調和在各種應用和設備上的優化，使Transformer保持領先。

研究人員也在修改Transformer架構，以減輕其計算需求。例如，Google的Infini-attention旨在支持無限制的上下文窗口，而不增加內存需求，目前模型可以處理數十萬個標記的輸入。

隨著AI研究的迅速發展，認識到這一領域的動態性至關重要。2017年當Transformer首次推出時，鮮有人預料到其深遠的影響。未來的模型可能超越Transformer的能力。

伊隆·馬斯克的「不錯」評價掀起了Meta Llama 3人工智慧的關注熱潮

微軟推出VASA-1：一個使人類頭像生動起來的新AI框架，透過聲音和歌曲實現動態表現。

Most people like

Firstup

9.5K

在當今快速變化的工作環境中，促進員工參與對於組織的成功至關重要。利用人工智慧驅動的員工參與平台，能夠透過先進技術提升團隊的動力、合作及整體生產力。透過數據驅動的洞察力和個性化策略，這一創新解決方案使企業能夠打造更具連結性和動力的勞動力，最終提升績效和留才率。探索以人工智慧為核心的策略如何改變您組織的參與模式，並促成一個蓬勃發展的工作文化。

員工參與 AI Analytics Assistant

Heidi

561.3K

在當今快速變化的醫療環境中，臨床醫師常常因行政工作而感到不堪重負，無法專注於病患照護。AI書記技術應運而生，成為改變遊戲規則的方案，旨在簡化文檔處理並提高效率。通過智能轉錄和數據輸入解決方案，AI書記能夠為臨床醫師節省數天寶貴時間，使他們能夠專注於真正重要的事情：提供卓越的病患照護。

人工智慧寫手 Healthcare

SuperStudentAI

13K

您是否在努力整理學習材料，或尋找創新的方法準備考試？我們的AI學習助手將為您提供幫助！這款智能工具不僅能有效地整理您的學習資源，還能生成定制化的測驗，以加強您的學習。採用更智慧的學習方式，提升您的考試表現，讓這個尖端的AI解決方案伴您左右。

人工智慧學習助手 AI Education Assistant

Air Fry AI

37.1K

探索空氣炸鍋 AI，您的專屬資源，提供以人工智慧驅動的專業空氣炸鍋操作說明和食譜。

氣炸鍋 AI Content Generator

Find AI tools in YBX