Google 擴展了其人工智慧模型系列,以應對該領域的關鍵挑戰。今天,該公司推出了 DataGemma,這是一套開源、經過指導調校的模型,旨在減少幻覺現象——即大型語言模型 (LLM) 產生不準確回覆,特別是在統計查詢中。
這些新模型已在 Hugging Face 提供,供研究和學術用途,並在現有的 Gemma 系列基礎上進行擴展,利用來自 Google Data Commons 平台的豐富實際數據。該公共平台擁有一個開放知識圖譜,包含超過 2400 億個數據點,這些數據源自各個領域的可靠機構,包括經濟、科學和健康等。
應對事實幻覺現象
大型語言模型革新了科技,驅動了從代碼生成到客戶支持的應用程序,並優化了企業資源的使用。儘管取得了顯著進展,幻覺問題,尤其是與數字和統計數據相關的問題,依然存在。
根據 Google 研究人員的說法,這一現象的成因包括 LLM 輸出的概率性特徵以及訓練數據中事實覆蓋的不充分。由於公用數據的格式和架構多樣,傳統的基礎技術在處理統計查詢時面臨挑戰,這需要大量上下文才能進行準確解釋。
為了彌補這些缺口,研究人員將 Data Commons,這個最大規模的標準化公共統計數據庫,與 Gemma 語言模型系列結合,創造了 DataGemma。
創新的方法提升準確性
DataGemma 採用了兩種不同的方法來提高事實的準確性:
1. 檢索交錯生成 (RIG):這種方法通過將 LLM 的原始輸出與 Data Commons 中的相關統計數據進行比較,來整合事實準確性。經過調整的 LLM 生成描述性自然語言查詢,這些查詢轉換成結構化數據查詢,以檢索統計相關的答案,包括引用。
2. 檢索增強生成 (RAG):這種方法通過利用原始統計問題來提取相關變量,並形成針對 Data Commons 的自然語言查詢,來增強模型。提取的數據與原始問題相結合,然後用於促使長上下文的 LLM(如 Gemini 1.5 Pro)生成精確答案。
測試顯示出良好的結果
在涉及 101 個查詢的初步測試中,使用 RIG 調整的 DataGemma 模型將事實準確性提高了 5-17%,達到約 58% 的準確率。雖然 RAG 的結果稍微低一些,仍然超過了基準模型。
DataGemma 成功回答了 24-29% 的查詢,使用了來自 Data Commons 的統計回覆,並在數值準確性上保持了 99%的標準。然而,它在從數字中推斷準確性方面面臨了 6-20% 的挑戰。
RIG 和 RAG 技術在提高統計查詢模型的準確性方面都顯示出效力,特別是在研究和決策背景中。RIG 提供了速度,而 RAG 提供了更豐富的數據,但依賴於信息的可用性和大型上下文處理能力。
Google 旨在通過公開發布結合 RIG 和 RAG 的 DataGemma 推進這些方法的研究。該公司表示:“我們的研究仍在進行中,並致力於隨著這項工作的擴展進一步完善這些方法,確保嚴格測試,並通過漸進式、限量訪問的方法將增強功能整合到 Gemma 和 Gemini 模型中。”