語言模型是強大的工具,能夠生成自然語言,應用於各種任務,包括摘要、翻譯、回答問題和撰寫文章。然而,訓練和運行這些模型的成本不菲,尤其是在要求高準確度和低延遲的專業領域中。
蘋果公司最新的人工智慧研究為此問題提供了創新的解決方案。這家iPhone製造商的新論文「從有限領域數據中實現低成本推理的專業語言模型」提出了一種成本效益高的AI開發策略,使得高端技術變得對以往因高昂費用而止步不前的企業更具可及性。
這項研究迅速引起關注,甚至被Hugging Face的每日論文報導,顯示出人工智慧專案的財務格局正在發生重大變化。研究人員確定了四個主要成本領域:預訓練預算、專業化預算、推理預算和領域內訓練集的規模。他們主張,仔細管理這些支出,可實現高效且經濟的AI模型的創建。
開創低成本語言處理
該團隊詳細說明了挑戰所在:「大型語言模型雖然多功能,但在沒有充足推理預算和廣泛領域內訓練集的情況下,應用起來相當困難。」為了應對這一挑戰,他們提出了兩條主要路徑:對於預訓練預算充裕者,採用超網絡和專家混合模型;而財務限制更緊張的環境則選擇小型、選擇性訓練的模型。
該研究評估了多種機器學習方法,包括超網絡、專家混合模型、重要性取樣和蒸餾,並在生物醫學、法律和新聞三個領域進行了實證。研究結果顯示,模型性能根據上下文而異。例如,在較大的預訓練預算下,超網絡和專家混合模型的困惑度表現更佳,而在關鍵取樣數據集上訓練的小型模型對於資金有限的專業化需求尤為有利。
論文還提供了根據領域和預算考量選擇最佳方法的實用指南。作者堅信,他們的研究能夠提升語言模型在更廣泛應用中的可得性和效用。
以預算意識顛覆產業
這項研究為不斷增長的提高語言模型效率和適應性的工作貢獻了一份力量。例如,Hugging Face最近與Google合作,促進用戶友好的專業語言模型的創建與共享,以滿足不同領域和語言的需求。
儘管還需對下游任務進行進一步評估,研究強調了重新訓練大型AI模型與適應較小、高效模型之間的權衡。採用正確的技術,兩種策略都能實現精確的結果。總而言之,研究結論指出,最有效的語言模型不一定是最大的,而是最適合其預期應用的模型。