大型語言模型(LLMs)的興起促進了嵌入模型的興趣,這些深度學習系統將各類數據轉化為數字表示形式。嵌入模型對於檢索增強生成(RAG)至關重要,這是LLMs在企業環境中的一個關鍵應用。然而,它們的潛力超越了RAG。過去一年中,嵌入應用的顯著進展使我們對2024年的創新充滿期待。
嵌入的運作原理
嵌入將數據(如圖像或文本文件)轉化為數字列表,以表示其最重要的特徵。嵌入模型經過大量數據集的訓練,學會區分各類數據。在計算機視覺中,嵌入可能突顯物體、形狀和顏色等特徵;在文本應用中,它們捕捉與概念、地點、人員和組織等相關的語義信息。
在RAG應用中,嵌入模型編碼公司的文件特徵,並將每個文件的嵌入存儲在向量庫中,這是一種專門用於比較嵌入的數據庫。當系統接收到新的提示時,會計算其嵌入並檢索具有相似值的文件,然後將相關文檔的內容納入提示,指導LLM生成具上下文的回應。這種精簡的流程使LLMs能夠根據未包含在訓練數據中的專有信息提供見解,解決像幻覺這樣的挑戰,避免LLMs因信息不足而生成不準確的事實。
超越基本的RAG
儘管RAG顯著增強了LLM的功能,但檢索和嵌入的好處遠不止簡單的文件匹配。LlamaIndex的首席執行官Jerry Liu表示:“嵌入主要用於檢索,也常用於增強概念的可視化。然而,檢索的範疇更廣,能支持各種企業應用。”根據Liu的說法,檢索是任何LLM用例中的基本組成部分。LlamaIndex正在開發工具和框架,以將LLM提示與多種任務連接,比如與SQL數據庫互動和自動化工作流程。Liu補充道:“檢索對於為LLMs增添相關上下文至關重要,我預計大多數企業應用都將需要某種形式的檢索。”
嵌入在文件檢索之外的應用中也發揮作用。伊利諾伊大學與清華大學的研究人員開發了利用嵌入技術選擇最相關和多樣化的訓練數據子集的技術,顯著降低了訓練成本,同時保持高質量。
嵌入在企業應用中的角色
Qdrant的首席執行官Andre Zayarni表示:“向量嵌入使我們能夠處理任何非結構化或半結構化數據。語義搜索——而RAG就是一種語義搜索——只是其中一種應用。”Zayarni指出,將文本數據擴展到包括圖像、音頻和視頻是至關重要的,新型多模態變壓器將促進此過程。Qdrant已在各種應用中實施嵌入模型,包括異常檢測、推薦系統和時間序列分析。“隨著新嵌入模型的出現,預計應用數量將上升,潛在的用例仍然有很多,”Zayarni說。
越來越多的企業正在利用嵌入模型從大量非結構化數據中篩選信息,幫助他們分類客戶反饋和社交媒體帖子以識別趨勢和情感變化。Cohere的嵌入負責人Nils Reimers解釋說:“嵌入非常適合於希望分析大型數據集以獲取趨勢和見解的企業。”
微調嵌入模型
在2023年,對使用自定義數據集微調LLMs取得了一些進展,但這一過程仍具挑戰性。只有少數擁有必要數據和專業知識的公司能夠有效地進行微調。Liu預計:“應該會出現RAG到微調的過渡——最初利用RAG來提高可及性,然後通過微調進行優化。”儘管預計會有更多公司進行LLMs和嵌入的微調,但這一數字可能仍然低於使用RAG的公司,除非微調過程變得顯著容易。
微調嵌入模型本身也面臨著挑戰,包括對數據變化的敏感性。對短查詢的訓練可能會影響對長查詢的性能,反之亦然。如果訓練集中於“什麼”問題,嵌入可能在解答“為什麼”問題時遇到困難。“企業需要強大的內部機器學習團隊來有效地進行嵌入微調,因此,現成的解決方案在許多情況下更具實用性,”Reimers建議。
儘管如此,在簡化嵌入模型訓練過程方面已取得進展。微軟的一項研究表明,像Mistral-7B這樣的預訓練模型可以使用由強大LLM生成的緊湊數據集進行嵌入任務的微調,從而簡化傳統的資源密集型方法。
隨著LLMs和嵌入模型的快速發展,預計在未來幾個月內會有更多的激動人心的進展。