Zyphra 發布 Zamba:革命性的 SSM 混合基礎模型,實現更廣泛設備上的 AI 存取能力

Zyphra Technologies即將推出一款革命性的基礎模型,旨在進一步去中心化人工智慧。Zamba是一個開源AI模型,擁有70億個參數,利用該公司的Mamba區塊和全球共享注意層。此創新模型旨在提升各種設備的智慧,同時大幅降低推理成本。

每個設備的AI

Zyphra Technologies的CEO Krithik Puthalath表示:「我們的願景是創造個人化的AI。我們的使命是促進人與人之間更好的聯繫。儘管科技與社交媒體曾承諾帶來更緊密且充實的世界,但我們仍然未能實現。我們渴望改變AI的未來。」

Puthalath強調,大公司對AI的中心化是個關鍵問題。「在追求通用人工智慧的過程中,像OpenAI和Anthropic等公司開發了雲端的單一大型模型,這些模型專為所有人設計。這種方法存在局限性,導致人們對這些系統缺乏信任,使AI顯得冷漠無情。雖然ChatGPT提供有價值的回應,但缺乏真正的記憶、個性化以及長期適應能力。」

小型語言模型的價值

儘管Zyphra的70億參數模型與OpenAI、Anthropic或Meta的數十億模型相比似乎有限,但Zyphra的策略集中於部署小型語言模型(SML),以優化AI在日常設備中的整合。

Zyphra的聯合創始人及首席科學家Beren Millidge認為,雖然他們的初始模型BlackMamba擁有10億參數,作為概念證明,但70億參數才適合實現有意義的互動。「這一尺寸使幾乎所有設備都能本地運行。」他解釋說。相反,較大的模型通常需要強大的GPU集群,對大多數用戶來說無法接觸,這進一步強化了Zyphra對去中心化的承諾。

「這是將AI拉近用戶的過程,」Puthalath補充道。「通過開發小型且高效的模型,針對特定用例,我們實現了即時反應而無需依賴雲端基礎設施。這不僅改善了用戶體驗,也降低了運營成本,讓我們能更有資源投入創新。」

與成熟模型競爭

Zyphra聲稱,Zamba在各種標準評估中超越了其他開源模型,如LLaMA 1和LLaMA 2 7B,且訓練數據用量不足一半。儘管最初測試是在內部進行,Zyphra計劃釋出模型的權重供公眾評估。

當被詢問Zamba架構的開發過程時,Millidge表示,他們的方法根植於對現有模型挑戰和潛在解決方案的實用直覺。他們也從神經科學中獲得靈感,創造了一種模仿大腦功能的結構。Zamba包含一個由Mamba區塊組成的單一全局記憶區,允許高效的信息共享,類似於人腦皮層與海馬體之間的互動。

Zyphra的過程包含大量實驗。「僅憑直覺不足以解決問題,」Millidge指出。「我們必須進行實驗,以發現哪些有效,哪些無效,然後進行相應的迭代。」

開源的Zamba基礎模型現已在Hugging Face上提供,邀請用戶探索其潛能。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles