探索 HyperWrite 的 Reflection 70B:全球最強大的開源 AI 模型

第三方評估無法複製AI寫作初創公司HyperWrite的聯合創始人兼CEO馬特·舒默(Matt Shumer)之前所分享的Reflection 70B的性能指標,因此舒默在X平台上面臨詐騙指控。

在AI領域出現了一位新競爭者:舒默宣布了Reflection 70B,一種基於Meta開源Llama 3.1-70B Instruct的大型語言模型(LLM)。該模型採用創新的自我糾錯技術,並在第三方基準測試中展示了卓越的性能。

舒默在X平台上宣稱Reflection 70B是“世界上最頂尖的開源AI模型”,並分享了一張基準性能圖表,突顯該模型的卓越成果。

嚴格測試與性能

Reflection 70B經過廣泛的測試,使用了如MMLU和HumanEval等基準,並由LMSys的LLM Decontaminator確保結果不受污染。測試結果顯示,Reflection持續超越Meta的Llama系列模型,並與領先的商業模型競爭激烈。

用戶可以在演示網站上親自體驗此模型。然而,舒默指出,該公告引起了大量流量,他的團隊正在快速尋找額外的GPU以應對需求。

Reflection 70B的獨特能力

舒默強調Reflection 70B在錯誤識別和糾正方面具有獨特優勢。他解釋道:“大型語言模型通常會幻覺而無法自我糾正。如果一個LLM能夠學會識別並糾正自己的錯誤會怎樣?”

這一見解促成了“Reflection”這一名稱,因為該模型能夠在向用戶展示輸出之前評估其準確性。其優勢在於“反思調整”,這一技術使其能夠在最終回應之前識別推理中的不足並加以修正。

Reflection 70B引入了專為結構化推理和錯誤糾正設計的特殊標記,促進用戶無縫互動。在推理過程中,模型在指定標籤內提供推理輸出,使其在識別錯誤時能實時進行修正。

演示版包含建議提示,例如計算“Strawberry”中“r”的數量,或判斷9.11和9.9哪個數字更大——許多AI模型(包括知名的專有模型)在此類任務中常常造成計算錯誤。在我們的測試中,Reflection 70B在短暫延遲後最終給出了正確答案。

該功能使模型在需要高準確度的任務中尤為重要,因為它將推理分解為明確的步驟以提高精度。Reflection 70B可通過Hugging Face下載,API存取預計於今天稍後通過Hyperbolic Labs開放。

對Reflection 405B的期待

Reflection 70B的發布僅僅是開始。舒默宣布,規模更大的模型Reflection 405B將於下週亮相。他提到正在努力將Reflection 70B整合進HyperWrite的主要AI寫作助手產品中,並表示:“我將很快分享更多信息。”

Reflection 405B旨在超越當前頂尖的閉源模型。舒默還指出,將發布關於訓練過程和基準的詳細報告,讓人們了解Reflection系列背後的創新。

基於Meta的Llama 3.1 70B Instruct,Reflection 70B確保與現有工具和流程的相容性,通過Llama聊天格式進行工作。

Glaive的合成數據貢獻

Reflection 70B成功的一個重要因素是由Glaive提供的合成數據,該初創公司專注於創建特定使用案例的數據集。Glaive的平台使小型、針對性的語言模型的快速訓練成為可能,解決了AI開發中的一個重大瓶頸:高質量、任務特定數據的可用性。

通過生成針對特定需求的合成數據集,Glaive使企業能夠高效和經濟地微調模型。該公司以前在小型模型方面取得成功,例如一個3B參數模型在HumanEval任務中超越了更大開源對手。Spark Capital以350萬美元的種子投資支持Glaive,力挺其推動AI生態系統民主化的願景。

借助Glaive的技術,Reflection團隊生成了高質量的合成數據,大幅加快了開發進程。根據舒默的說法,訓練過程僅用三週,涉及五次模型迭代,並使用Glaive的系統構建了定制數據集。

HyperWrite的背景

雖然Reflection 70B似乎是突然出現,但舒默在AI領域已經深耕多年。他於2020年與傑森·庫柏伯格(Jason Kuperberg)在紐約梅爾維爾共同創辦了最初名為Otherside AI的公司。該公司隨著其旗艦產品HyperWrite而受到了關注,該產品由一個用于撰寫電子郵件的Chrome擴展發展為一個全面的AI寫作助手,可以草擬文章和組織電子郵件。截至2023年11月,HyperWrite擁有200萬用戶,讓其創始人登上《福布斯》“30位30歲以下”名單。

在2023年3月,HyperWrite獲得了280萬美元的投資,包括Madrona Venture Group,這使得其推出創新的AI驅動功能變得可能,將網絡瀏覽器轉變為處理各種任務的虛擬助手。

舒默強調,準確性和安全性是HyperWrite的重中之重,尤其在進入複雜自動化領域時。該平台不斷完善其個人助手技術,體現了與Reflection 70B相同的精確性和責任感。

HyperWrite和Reflection模型的未來展望

展望未來,舒默計劃為Reflection系列帶來更大的進步。隨著Reflection 405B即將推出,他相信這將顯著超越像OpenAI的GPT-4這樣的專有模型的性能。

這對於OpenAI來說面臨著不小的挑戰,據報導該公司正尋求來自像Nvidia和Apple等大型投資者的重大新投資,同時也對其他閉源模型提供商如Anthropic和Microsoft提出了挑戰。

隨著生成AI領域的發展,權力平衡再次發生變化。Reflection 70B的問世標誌著開源AI的一個重要時刻,為開發者和研究人員提供了一個可與專有模型對比的強大工具。憑藉其創新的推理與錯誤糾正方法,Reflection或將為開源模型的能力樹立全新標杆。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles