Liquid AI,一家由前麻省理工學院計算機科學與人工智能實驗室(CSAIL)研究人員共同創立的初創公司,已推出其首款多模態人工智能模型:Liquid Foundation Models(LFM)。
與許多當前依賴於變壓器架構的生成性AI模型不同,尤其是2017年著名的“Attention Is All You Need”框架,Liquid AI旨在探索生成預訓練變壓器(GPT)的替代方案。LFM的構建遵循“第一原則”,類似於工程師在設計引擎和飛機時的思路。
這些創新的LFM表現出比可比的變壓器模型(如Meta的Llama 3.1-8B和微軟的Phi-3.5 3.8B)更佳的性能。LFM有三種尺寸,分別為LFM 1.3B(小型)、LFM 3B和大型LFM 40B MoE(專家混合模型),各型號的參數數量不同,以“B”表示十億。通常,參數數量越高,模型在多樣任務上表現的能力也會越強。
LFM 1.3B版本在諸多第三方基準測試中已超越Meta的Llama 3.2-1.2B和微軟的Phi-1.5,包括大規模多任務語言理解(MMLU)測試,這是非GPT架構的重要成就。這三種模型均在高性能與內存效率之間取得平衡;例如,Liquid的LFM-3B僅需16 GB內存,而Meta的Llama-3.2-3B則需要超過48 GB。
Liquid AI的後訓練負責人Maxime Labonne在社交媒體上表達了對LFM的自豪,並強調其高效性以及在性能基準測試中超越變壓器模型的能力,且內存使用量顯著更少。這些模型為多種應用進行了優化,包括金融、生物技術和消費電子的企業解決方案,以及在邊緣設備上的部署。
然而,需要注意的是,LFM並非開源。用戶必須通過Liquid的推理平台訪問這些模型,如Lambda Chat或Perplexity AI。Liquid開發LFM的方法結合了基於動態系統理論、信號處理和數值線性代數的計算單元,從而生成能夠處理各類時序數據(包括視頻、音頻、文本和時間序列)的通用AI模型。
去年有報導指出Liquid AI專注於Liquid Neural Networks(LNN),這是一種CSAIL開發的架構,旨在提高人工神經元的效率和適應性。與傳統的深度學習模型需要大量神經元來處理複雜任務不同,LNN顯示出當結合創新數學技術時,少量神經元也能達到類似效果。
LFM利用這一適應性,在推理過程中允許進行實時調整,且計算開銷極小。例如,LFM-3B模型在處理長上下文時表現出色,且內存佔用小於Google的Gemma-2、微軟的Phi-3和Meta的Llama-3.2等模型。
通過其多模態能力,Liquid AI應對金融服務、生物技術及消費電子等行業的各種挑戰。目前處於預覽階段,Liquid AI鼓勵早期用戶測試這些模型並提供反饋。完整的發布活動定於2024年10月23日在麻省理工學院Kresge禮堂舉行,並接受RSVP。為了準備,Liquid AI計劃發布一系列技術博客文章,並鼓勵用戶開展紅隊行動,以針對未來改進進行壓力測試。
隨著Liquid Foundation Models的推出,Liquid AI旨在建立自己在基礎模型領域的顯著地位,結合卓越的性能與無與倫比的內存效率。