微軟研究人員推出數據增強大型語言模型應用開發框架

Home AI新聞微軟研究人員推出數據增強大型語言模型應用開發框架

增強大型語言模型（LLMs）的知識，以超越其訓練數據，對於企業應用至關重要。整合特定領域和客戶知識進入LLMs的著名方法是檢索增強生成（RAG）。然而，基本的RAG方法往往無法滿足需求。

構建有效的數據增強LLM應用需仔細考慮多項因素。微軟研究人員近期提出一個框架，將不同類型的RAG任務根據所需外部數據類型和推理複雜度進行分類。研究人員指出：“數據增強LLM應用並非一種放之四海而皆準的解決方案。真實世界的需求，尤其是在專業領域，往往複雜多變，且與所提供數據及所需推理之間的關係可能顯著不同。”

為了應對這種複雜性，研究人員提出了一個四級用戶查詢分類：

- 明確事實：需要從數據中檢索直接陳述的事實的查詢。

- 隱含事實：需要推斷未陳述的信息的查詢，通常涉及基本推理。

- 可解釋的理由：需要理解並應用外部資源中具體領域規則的查詢。

- 隱藏的理由：需要揭示數據中未明確陳述的隱含推理方法的查詢。

每個查詢層級都面臨獨特的挑戰，並需針對性解決方案。

數據增強LLM應用分類

明確事實查詢

這些查詢專注於直接檢索數據中明確陳述的事實。其特點在於對特定外部數據的直接依賴。基本的RAG常用於此，LLM從知識庫中檢索相關信息以生成回應。然而，RAG流程的每個階段都會出現挑戰。例如，在索引階段，RAG系統必須管理大型非結構化數據集，這些數據集可能包含圖片和表格等多模態元素。多模態文檔解析和嵌入模型能幫助將文本和非文本元素的語義上下文映射到共享空間中。

在信息檢索階段，檢索數據的相關性至關重要。開發者可以通過使用合成答案來提升檢索準確性，將查詢與文檔存儲對齊。此外，在答案生成階段，微調讓LLM能甄別相關信息並忽略知識庫中的雜音。

隱含事實查詢

這些查詢要求LLMs超越單純檢索進行推理。例如，用戶可能會問：“公司X在上個季度賣了多少產品？”或“公司X與公司Y的策略有何主要區別？”這些問題需要多步驟的問題回答，涉及來自多個來源的數據。

隱含事實查詢的複雜性要求使用先進的RAG技術，例如交錯檢索與思考鏈（IRCoT）和檢索增強思考（RAT）。結合知識圖譜和LLMs，也為複雜推理提供了結構化方法，能有效連結不同概念。

可解釋的理由查詢

這些查詢要求LLMs在事實內容的基礎上應用特定領域的規則。研究人員解釋說：“可解釋的理由查詢是一個依賴外部數據來獲取理由的明確類別。”這類查詢通常涉及與特定問題相關的明確指導或思維過程。

例如，客戶服務聊天機器人可能需要整合規定的退貨處理流程和客戶背景。將這些理由整合到LLMs中可能相當具有挑戰性，需使用包括增強學習和優化提示評估的調整技術。

隱藏的理由查詢

這些查詢面臨最大的挑戰，因為它們涉及嵌入在數據中但未明確陳述的推理方法。例如，模型可能需要分析歷史數據來提取應用於當前問題的模式。

研究人員觀察到：“揭開隱藏理由查詢的本質，需要高級的分析技術來解碼和利用嵌入在不同數據來源中的潛在智慧。”針對這些查詢的有效解決方案可以涉及上下文學習，以訓練LLMs選擇和提取相關信息。特定領域的微調亦至關重要，使模型能進行複雜推理並識別所需的外部數據。

建立LLM應用的啟示

微軟研究的調查和框架顯示了LLMs在利用外部數據進行實用應用方面的演變，同時突顯了突出的挑戰。企業可利用此框架，對整合外部知識進入其LLMs作出明智的決策。