麻省理工學院衍生公司 Liquid 推出最先進的非變壓器人工智慧模型

Home AI新聞麻省理工學院衍生公司 Liquid 推出最先進的非變壓器人工智慧模型

Liquid AI，一家由前麻省理工學院計算機科學與人工智能實驗室（CSAIL）研究人員共同創立的初創公司，已推出其首款多模態人工智能模型：Liquid Foundation Models（LFM）。

與許多當前依賴於變壓器架構的生成性AI模型不同，尤其是2017年著名的“Attention Is All You Need”框架，Liquid AI旨在探索生成預訓練變壓器（GPT）的替代方案。LFM的構建遵循“第一原則”，類似於工程師在設計引擎和飛機時的思路。

這些創新的LFM表現出比可比的變壓器模型（如Meta的Llama 3.1-8B和微軟的Phi-3.5 3.8B）更佳的性能。LFM有三種尺寸，分別為LFM 1.3B（小型）、LFM 3B和大型LFM 40B MoE（專家混合模型），各型號的參數數量不同，以“B”表示十億。通常，參數數量越高，模型在多樣任務上表現的能力也會越強。

LFM 1.3B版本在諸多第三方基準測試中已超越Meta的Llama 3.2-1.2B和微軟的Phi-1.5，包括大規模多任務語言理解（MMLU）測試，這是非GPT架構的重要成就。這三種模型均在高性能與內存效率之間取得平衡；例如，Liquid的LFM-3B僅需16 GB內存，而Meta的Llama-3.2-3B則需要超過48 GB。

Liquid AI的後訓練負責人Maxime Labonne在社交媒體上表達了對LFM的自豪，並強調其高效性以及在性能基準測試中超越變壓器模型的能力，且內存使用量顯著更少。這些模型為多種應用進行了優化，包括金融、生物技術和消費電子的企業解決方案，以及在邊緣設備上的部署。

然而，需要注意的是，LFM並非開源。用戶必須通過Liquid的推理平台訪問這些模型，如Lambda Chat或Perplexity AI。Liquid開發LFM的方法結合了基於動態系統理論、信號處理和數值線性代數的計算單元，從而生成能夠處理各類時序數據（包括視頻、音頻、文本和時間序列）的通用AI模型。

去年有報導指出Liquid AI專注於Liquid Neural Networks（LNN），這是一種CSAIL開發的架構，旨在提高人工神經元的效率和適應性。與傳統的深度學習模型需要大量神經元來處理複雜任務不同，LNN顯示出當結合創新數學技術時，少量神經元也能達到類似效果。

LFM利用這一適應性，在推理過程中允許進行實時調整，且計算開銷極小。例如，LFM-3B模型在處理長上下文時表現出色，且內存佔用小於Google的Gemma-2、微軟的Phi-3和Meta的Llama-3.2等模型。

通過其多模態能力，Liquid AI應對金融服務、生物技術及消費電子等行業的各種挑戰。目前處於預覽階段，Liquid AI鼓勵早期用戶測試這些模型並提供反饋。完整的發布活動定於2024年10月23日在麻省理工學院Kresge禮堂舉行，並接受RSVP。為了準備，Liquid AI計劃發布一系列技術博客文章，並鼓勵用戶開展紅隊行動，以針對未來改進進行壓力測試。

隨著Liquid Foundation Models的推出，Liquid AI旨在建立自己在基礎模型領域的顯著地位，結合卓越的性能與無與倫比的內存效率。

微軟研究人員推出數據增強大型語言模型應用開發框架

一天建成：這款開源AI工具直擊Google的NotebookLM