微軟發布 Orca 2:小型語言模型超越其更大競爭對手

即使在 OpenAI 面臨權力鬥爭和大規模離職的時刻,微軟卻在其 AI 雄心壯志上持續前進。今日,微軟推出了 Orca 2,這是一對小型語言模型,其在零樣本條件下的複雜推理任務中,表現出與五至十倍於其規模的更大型模型相匹配或超越的能力,其中包括 Meta 的 Llama-2 Chat-70B。

Orca 2 模型有兩種規模:70 億和 130 億參數。它們建立在之前的 130 億參數 Orca 模型之上,該模型通過模仿更大型且更先進模型的逐步推理,展示了驚人的推理能力。

微軟研究人員在部落格文章中表示:「透過 Orca 2,我們證明了增強的訓練信號和方法使得小型語言模型能達到通常僅限於更大型模型的推理能力。」這兩個模型已開源以供進一步研究,讓企業,特別是那些資源有限的企業,有更易於獲取的選擇,以滿足其特定需求,而無需龐大的計算力。

小型模型的推理教學

儘管像 GPT-4 這樣的大型語言模型在推理和複雜問答能力方面一貫出色,小型模型卻歷史上表現不佳。為了彌補這一差距,微軟研究人員使用專門的合成數據集對 Llama 2 基礎模型進行了微調。

研究人員不僅僅是模仿大型模型的行為(一種稱為模仿學習的常見技術),還推進了一種不同的方法。他們訓練小型模型使用多樣的問題解決策略,以適應不同的任務。例如,儘管 GPT-4 可以直接回答複雜查詢,小型模型可能會受益於將任務分解為可管理的步驟。

研究人員在最新論文中寫道:「在 Orca 2 中,我們教導模型多種推理技術(逐步、回憶再生成、回憶-推理-生成、直接回答等),並專注於幫助它識別每項任務最有效的策略。」訓練數據來源於更強大的教師模型,使學生模型能夠學會何時以及如何應用不同的推理方法。

Orca 2 超越更大型模型

在零樣本設置下,經過 15 個多元基準測試評估——包括語言理解、常識推理、多步推理、數學問題解決、閱讀理解、摘要生成和真實性檢測——Orca 2 模型交出了引人注目的結果,往往在性能上匹配或超越五至十倍更大型模型的表現。

平均基準結果顯示,Orca 2 的兩個模型表現優於 Llama-2-Chat-13B、Llama-2-Chat-70B、WizardLM-13B 和 WizardLM-70B,唯獨在 GSM8K 基準中,一個擁有超過 8,500 個小學數學問題的數據集中,WizardLM-70B 超過 Orca。

企業實施考量

雖然這些性能提升對於尋求高效且高性能模型的企業團隊來說具有鼓舞人心的潛力,但必須認識到 Orca 2 模型可能繼承所有語言模型共同存在的限制,以及其基礎模型的限制。

微軟強調,創建 Orca 模型所使用的技術也可應用於其他現有模型。「儘管 Orca 2 存在若干限制,但其在推理、專業化、控制和安全性方面進一步發展的潛力是顯而易見的。仔細篩選的合成數據的戰略性使用是這些改進的關鍵。隨著更大型模型持續表現優異,我們在 Orca 2 上的工作代表了多樣化語言模型應用的重要一步。」研究團隊總結道。

小型語言模型的未來

隨著開源 Orca 2 模型的推出和該領域的持續研究,可以明顯看到,更多高性能的小型語言模型即將問世。

最近,由 AI 老將 李開復 創立的中國初創企業 01.AI 推出了一款 340 億參數的模型,其在中文和英文中的表現超過了 70 億 Llama 2 和 180 億 Falcon 模型。該初創企業還提供一個參數數量為 60 億的小型版本,並在已建立的 AI/ML 基準上表現良好。

此外,閃電 AI(Mistral AI)——一個以獨特的 Word Art 標誌和創紀錄的 1.18 億美元種子輪融資而引起關注的巴黎初創企業——推出了一款 70 億參數的模型,其表現超過了包括 Meta 的 Llama 2 13B 在內的更大型競爭對手。

Most people like

Find AI tools in YBX