“如果不使用受著作權保護的資料,今天領先的AI模型將無法訓練,”OpenAI在其向英國上議院的申請中聲明,這一消息在今年早些時候引發了廣泛關注。實際上,這一論點正是該公司公開與法律上為其具爭議性的數據收集實踐辯護的核心,包括用於訓練其GPT-3.5/4大型語言模型的AI模型,這些模型推動了其熱門產品ChatGPT,以及暗示性地包括競爭者如Google、Mistral、Meta、Anthropic和Cohere。批評者認為OpenAI應該獲得明確的許可或支付使用受著作權保護資料的授權費,但該公司則表示其做法屬於合理的轉化使用,並且運作在互聯網的長期標準下,許多公司多年來一直在抓取內容以支援搜尋引擎索引及其他有用功能,始終未引發大規模投訴。目前,這一爭議仍在多起持續的訴訟中進行。
然而,一個新的模型正挑戰這一假設,至少在於創造有用模型不依賴於受著作權保護資料的觀點上。這個新的大型語言模型名為KL3M(Kelvin Legal Large Language Model,發音為“Clem”),由273 Ventures開發,這是一家成立兩年的初創公司,由伊利諾伊理工學院的法律教授兼該公司的首席策略官Daniel Martin Katz與他的“長期合作者”Michael Bommarito共同創辦,後者是273 Ventures的首席執行官。這對搭檔曾共同創立AI法律初創公司LexPredict,並將其出售給全球法律公司Elevate。
KL3M於2024年2月底發布,然而,今天它成為首個獲得獨立審計公司Fairly Trained頒發的“許可模型(L)認證”的大型語言模型,Fairly Trained是一個由前Stability AI高管Ed Newton-Rex於今年早些時候成立的非營利組織。Wired雜誌是首家報導此消息的媒體。
Fairly Trained(L)認證僅頒發給能夠通過申請及審核過程證明其AI模型訓練數據是根據“與享有進行此類協議所需權利的方簽訂合約”或是公共領域/開放許可獲得的公司。這一認證的成本在150美元至500美元的年度費用之間,或是500美元一次性支付及6000美元年度費用。顯然,KL3M符合這些要求。
“今天我們非常高興地宣布,Kelvin Legal Large Language Model(KL3M)已獲得Fairly Trained認證,”Katz在社交媒體X上寫道。“KL3M是第一個獲得這項認證的任何類別的LLM。”
“生成式AI可以不利用受著作權保護的作品而存在,”Fairly Trained在宣佈KL3M及另外四家實體獲得認證的部落格文章中寫道,包括提供AI語音和歌唱模型的Voicemod、音樂公司Infinite Album和Lemonaide,以及AI驅動的團體Frostbite Orckings。
KL3M是如何訓練的?
根據Katz的說法,自成立以來,273 Ventures一直在“仔細收集不會造成問題的資料”,這些資料來自如美國政府文檔釋放和過去的法律檔案等公共領域的來源。“我們不確定是否可以不使用大量受著作權資料進行這種操作[訓練AI模型],”Katz表示。“我們認為在某種範圍內成功是可能的,尤其是在法律、金融和監管領域,這些領域中有相當多的資料是沒有版權的。”
Katz強調,並非所有這些行業提供統一的公共領域文件,各國的情況差異巨大——例如,在英國某些政府實體或機構可以對其生成的文件和數據施加版權保護。273 Ventures早期幾個月的大部分工作是在篩選哪些文件和數據可用於訓練KL3M而不侵犯或有侵犯的風險。這些資料最終也被打包成產品,即Kelvin Legal DataPack,該包含有超過1500億個標記,並於2023年8月發布。
KL3M的訓練則基於“高品質、策劃的英語子集”,包括對10,000份文件的手動審查和“大約3500億個標記的數據集。”273 Ventures在此處詳細描述了KL3M的訓練過程。
目前的結果是,KL3M有兩個版本:kl3m-170m,擁有1.7億個參數(影響AI模型的屬性),以及更大的kl3m-1.7b擁有17億個參數。雖然kl3m-170m的性能較低,但可在如配備M1晶片的Macbook Air等低功耗且成本低的硬體上運行,而更大的模型則需要配備Nvidia RTX 4060 8GB的硬體(以及許多其他競爭對手的LLM)。
273 Ventures還計劃下月發布一個擁有37億個參數的KL3M變體。
KL3M的用途和成本?
在其產品網頁上,KL3M被宣傳為能夠幫助“撰寫和修訂時間條目及發票,撰寫和修訂合同條款,撰寫和修訂SEC申報,如10-K和8-K報告,明顯的專利草稿…”
雖然KL3M是針對法律事務所和法律行業設計的——該行業客戶特別敏感於資料來源和合法性的問題——Katz告訴媒體,他對KL3M在目標行業之外的普遍應用感到驚訝。“從這個角度思考:法律觸及社會中的每個主題,”Katz解釋道。“政府發布了大量資料,教你概念和語言使用……我個人有點驚訝,但它確實具有超出我們預期的更廣泛的適用性。”
在上月首次宣布該模型時,273 Ventures製作了幾個圖表,以基準和比較KL3M與同類模型的性能,發現1.7億參數的版本在撰寫法律材料和維基條目時,其困惑度(即標記預測錯誤)低於(因此更好)其他10個領先模型,包括GPT-2 Large和openllama3b_v2。
KL3M的1.7億參數模型在毒性輸出方面的表現也遠低於(更好)同類的小型模型,包括微軟的Phi-2。此時,Katz表示,該模型已在幾家他因保密原因不便具名的法律事務所客戶中得到應用。