Zyphra 發布 Zamba：革命性的 SSM 混合基礎模型，實現更廣泛設備上的 AI 存取能力

Home AI新聞 Zyphra 發布 Zamba：革命性的 SSM 混合基礎模型，實現更廣泛設備上的 AI 存取能力

Zyphra Technologies即將推出一款革命性的基礎模型，旨在進一步去中心化人工智慧。Zamba是一個開源AI模型，擁有70億個參數，利用該公司的Mamba區塊和全球共享注意層。此創新模型旨在提升各種設備的智慧，同時大幅降低推理成本。

每個設備的AI

Zyphra Technologies的CEO Krithik Puthalath表示：「我們的願景是創造個人化的AI。我們的使命是促進人與人之間更好的聯繫。儘管科技與社交媒體曾承諾帶來更緊密且充實的世界，但我們仍然未能實現。我們渴望改變AI的未來。」

Puthalath強調，大公司對AI的中心化是個關鍵問題。「在追求通用人工智慧的過程中，像OpenAI和Anthropic等公司開發了雲端的單一大型模型，這些模型專為所有人設計。這種方法存在局限性，導致人們對這些系統缺乏信任，使AI顯得冷漠無情。雖然ChatGPT提供有價值的回應，但缺乏真正的記憶、個性化以及長期適應能力。」

小型語言模型的價值

儘管Zyphra的70億參數模型與OpenAI、Anthropic或Meta的數十億模型相比似乎有限，但Zyphra的策略集中於部署小型語言模型(SML)，以優化AI在日常設備中的整合。

Zyphra的聯合創始人及首席科學家Beren Millidge認為，雖然他們的初始模型BlackMamba擁有10億參數，作為概念證明，但70億參數才適合實現有意義的互動。「這一尺寸使幾乎所有設備都能本地運行。」他解釋說。相反，較大的模型通常需要強大的GPU集群，對大多數用戶來說無法接觸，這進一步強化了Zyphra對去中心化的承諾。

「這是將AI拉近用戶的過程，」Puthalath補充道。「通過開發小型且高效的模型，針對特定用例，我們實現了即時反應而無需依賴雲端基礎設施。這不僅改善了用戶體驗，也降低了運營成本，讓我們能更有資源投入創新。」

與成熟模型競爭

Zyphra聲稱，Zamba在各種標準評估中超越了其他開源模型，如LLaMA 1和LLaMA 2 7B，且訓練數據用量不足一半。儘管最初測試是在內部進行，Zyphra計劃釋出模型的權重供公眾評估。

當被詢問Zamba架構的開發過程時，Millidge表示，他們的方法根植於對現有模型挑戰和潛在解決方案的實用直覺。他們也從神經科學中獲得靈感，創造了一種模仿大腦功能的結構。Zamba包含一個由Mamba區塊組成的單一全局記憶區，允許高效的信息共享，類似於人腦皮層與海馬體之間的互動。

Zyphra的過程包含大量實驗。「僅憑直覺不足以解決問題，」Millidge指出。「我們必須進行實驗，以發現哪些有效，哪些無效，然後進行相應的迭代。」

開源的Zamba基礎模型現已在Hugging Face上提供，邀請用戶探索其潛能。

微軟與人工智慧領導者G42攜手合作，強化在阿聯酋的影響力，投資15億美元。

史丹佛報告：人工智慧在多個領域超越人類，然而成本卻持續飆升