一款突破性的開源語言模型在 Hugging Face 最新排名中被評為全球最佳。這個名為「Smaug-72B」的模型今天由專注於解決人工智慧和機器學習複雜挑戰的初創企業 Abacus AI 公開發布。Smaug-72B 是「Qwen-72B」的精細調整版本,後者也是由阿里巴巴集團的研究團隊在幾個月前推出的另一個知名語言模型。
值得注意的是,Smaug-72B 在多項關鍵基準測試中超越了 OpenAI 的 GPT-3.5 和 Mistral Medium 這兩個最先進的專有語言模型,並且在許多評估中額外大幅領先 Qwen-72B。
根據 Hugging Face 的開源 LLM 排行榜,該榜單評估開源語言模型在各種自然語言任務上的表現,Smaug-72B 現在是唯一一個平均分數超過 80 的開源模型。雖然其尚未達到指示人類水平表現的 90-100 分平均分,但它的發布暗示著開源人工智慧格局可能的變化,預示著未來可能與長期被視為難以觸及的大型科技公司相媲美。
開源的優勢
「Abacus AI 的 Smaug-72B 現在領跑 LLM 排行榜,成為首個實現 80 平均得分的模型,」Abacus AI 的首席執行官 Bindu Reddy 在 X.com 發表的帖子中表示。「我們的下一個目標是發表這些技術的研究論文,並將其應用於 Mistral 的頂尖模型,包括針對 LLama-2 的 70B 精細調整版本 Miqu。我們使用的技術特別針對推理和數學能力,這解釋了其在 GSM8K 中的出色得分!我們會在即將發布的論文中提供更多見解。」
自發布以來,Smaug-72B 不僅在整體表現上脫穎而出,還因其在推理和數學任務中的卓越能力而備受矚目,這得益於 Abacus AI 應用的特定精細調整技術,從而提升了性能。
其他值得注意的開源進展包括 Qwen 1.5,這是一組從 0.5B 到 72B 參數的小型卻強大的語言模型,由 Qwen 推出。Qwen 1.5 超越了流行的專有模型如 Mistral Medium 和 GPT-3.5,具備 32k 的上下文長度和對各種工具的兼容性,促進快速本地推斷。此外,Qwen 還推出了 Qwen-VL-Max,這是一款大型視覺語言模型,與 Google 的 Gemini Ultra 和 OpenAI 的 GPT-4V 相抗衡。
未來的 AI 影響
Smaug-72B 和 Qwen 1.5 的崛起在 AI 社區和更廣泛的科技圈內引發了熱議。許多專家讚揚 Abacus AI 和 Qwen 對開源 AI 的貢獻,突顯了過去一年來的快速進展。
「想想不到一年前,我們還對 Dolly 這樣的模型感到興奮,」AI 講者兼分析師 Sahar Mor 在 LinkedIn 的言論中反映出開源模型的快速進展。
目前,Smaug-72B 和 Qwen 1.5 均可在 Hugging Face 公開訪問,允許用戶隨意下載、使用和修改。Abacus AI 和 Qwen 也打算將其模型提交到 llmsys 人類評估排行榜,這是一項旨在測量語言模型在類人任務中表現的新指標。他們暗示未來會有更多開源模型的專案以及探索多樣的應用。
Smaug-72B 和 Qwen 1.5 展示了開源 AI 在最近幾個月的快速演進,象徵著創新和民主化的轉變浪潮,挑戰大型科技公司的主導地位,擴大開發者和研究者的機會。雖然 Smaug-72B 是否能在 Hugging Face 排行榜上保持領導地位尚未可知,但顯然開源 AI 正在取得顯著進展。