什么時候應該使用RAG、TAG和RAFT AI?
檢索增強生成 (RAG) 和表增強生成 (TAG) 都是提高人工智能 (AI) 利用外部數據生成準確且相關信息的能力的技術。其他選擇包括檢索增強微調 (RAFT) 和檢索中心生成 (RCG)。
了解何時使用 RAG、TAG、RAFT 和 RCG 對于成功和高效的 AI 實施至關重要。所有這些都專注于提高大型語言模型 (LLM) 的性能。LLM 根據可能過時或不完整的訓練數據生成響應。RAG、TAG、RAFT 和 RCG 是解決這些限制的方法。
RAG 專注于從文檔和網頁等非結構化數據源檢索和合并信息。TAG 專注于查詢和利用數據庫中的結構化數據。
RAG 首先添加原始訓練數據集之外的新信息,這些信息通常從外部來源收集。提交查詢后,它會轉換為向量表示形式,就像通用 LLM 的作一樣。向量表示與知識數據庫中存儲的向量相匹配。
LLM 本質上是不確定的,可能不會為給定查詢生成相同的輸出。需要及時工程來產生一致的響應。在 RAG 中,提示工程用于合并相關的外部數據,以增強模型的上下文理解,目標是生成更詳細和(希望)富有洞察力的響應。
最佳 RAG作的關鍵是通過定期更新使外部數據庫盡可能保持最新狀態。這使系統能夠提供最相關的響應,即使沒有耗時且昂貴的培訓更新(圖 1)。
圖 1.RAG作流程圖。(圖片:GeeksforGeeks)
TAG 如何運作?
雖然 RAG 對于訪問原始訓練數據集中不存在的信息特別有用,但 TAG 可用于增強搜索引擎功能等應用,特別是在涉及結構化數據和復雜查詢的場景中。TAG 通過一系列步驟實現(圖 2)。
例如,用戶向搜索引擎提交查詢。
系統識別并檢索相關數據,可能使用 SQL 查詢在表或數據庫中查找特定信息。
提示工程用于將檢索到的數據合并到用戶查詢中,從而創建更詳細的“增強提示”。
LLM 使用增強的提示來生成比僅使用原始查詢更精確、更集中的響應。
圖 2.TAG 實現和數據流的示例。(圖片:K2view)
TAG 比 RAG 更適合查詢數據庫和根據多個條件過濾數據等應用程序。TAG 的計算強度低于 RAG,在處理大型數據集和復雜查詢時效率更高。
改進 RAG
RAFT 和 RAG 都是利用外部知識來提高 LLM 性能的方法。RAG 將外部數據源動態集成到 LLM 的響應生成過程中。
微調是 LLM 本身的一種持續改進。RAFT 涉及對 LLM 的額外培訓,以提高其在特定任務或特定領域的表現。該過程修改了法學碩士的內部參數,以更好地與特定任務的細微差別保持一致。
RAFT 在涉及動態信息環境和需要細致響應的應用程序的情況下特別有用。然而,它需要高質量的數據并且計算要求很高。如果實施不當,可能會導致以前學過的常識的丟失,稱為災難性遺忘。
以檢索為中心的生成
RCG 是提高 LLM 性能的另一種方法。它特別用于解釋復雜的索引或特選數據。RAG 和 RCG 都可用于在推理過程中從特選源獲取信息。雖然模型是 RAG 中的主要信息源,并得到增量數據的幫助,但在 RCG 中,大多數數據都是模型外部的。
RCG 沒有增強 LLM 性能,而是專注于確定數據的優先級以限制響應(圖 3)。
RAG 專為需要將常識與外部數據源中的特定信息相結合并回答復雜問題的任務而設計。
RCG 經過優化,可保持原始信息的上下文、風格和準確性,例如摘要、釋義或創建一致的內容。
圖 3.RAG 和 RCG LLM 實現的比較。(圖片:英特爾實驗室)
總結
RAG 旨在使用來自非結構化數據源(如文檔和網頁)的信息。TAG 專注于查詢和利用來自表或數據庫等來源的結構化數據。RAG 的擴展包括 RAFT,它為 LLM 提供額外的訓練,以提高其在特定任務或特定領域的性能,以及 RCG,它保持原始信息的上下文、風格和準確性。









評論