RAG 已過時：強化學習智能體（RL Agents）將成為新一代檢索架構

2025-10-06 07:32:42

在過去，搜尋系統多半仰賴「檢索 + 排序 / 重排（RAG, Retrieval-Augmented Generation）」機制：先做稀疏檢索（如 BM25）、或密集向量檢索，再用 cross-encoder、融合多種排序策略，最後將檢索到的內容交給大型模型做摘要或生成。這樣的流程已經是多數搜尋與問答系統的主流架構。

但近來，基於大型語言模型（LLM）搭配工具、並在循環（loop）中自主決定何時要搜尋、何時停止的「Agentic Search（代理搜尋）」逐漸展現出更強的能力：即便工具本身不是最強，透過智能的策略與決策，代理仍可以超越傳統 RAG 流程的表現。

然而，純粹的 agentic 搜尋通常成本高、延遲大、上下文膨脹嚴重。為了讓這個方向實用可行，研究者與工程團隊開始採用強化學習（RL）來訓練模型，使它們學會更聰明地使用搜尋工具、停止搜尋時機，並抑制多餘或無效的操作。這正是 Inference在文章中指出的「RL 將代理搜尋帶向下一層」的主張。

核心觀念與演進

傳統 RAG 的瓶頸與限制

傳統的檢索 + 重排方法，在許多簡單查詢下已表現不錯，但面對複雜查詢或多步推理任務，就容易力不從心。
要顧及使用者偏好、語境、潛在的多義性等因素，僅靠單一步驟檢索往往不夠靈活。
若一味擴大上下文、增加工具，但沒有機制控制策略，系統容易變得龐大、低效。

Agentic Search：工具 + 智能決策

Agentic Search 的核心思路是：讓 LLM 在一個「思考 → 決策 → 採取行動 → 觀察結果（loop）」的循環中，自主選擇哪些工具要用、何時要搜尋、何時停止。在這個過程中，它能混用多種工具（如 grep、向量檢索、結構化資料查詢、網頁搜尋等），並依據當前上下文和結果靈活調整策略。

這種設計讓代理可以：

探索式地搜尋：不必一次就把所有內容塞入上下文，而是按需「借用」外部知識。
制衡成本與性能：根據效益決定是否繼續搜尋或停止。
使用多樣工具：在不同任務、資料形式中選擇最合適的方式。

引入強化學習（RL）的必要性

如前所述，純粹的代理搜尋即便在理論上強大，實務上常因計算與延遲成本太高而難以應用。為了解決這個問題，引入强化學習的方法使模型能：

學習什麼時候該搜尋（或停止搜尋）
學著在不同工具間做取捨
透過獎勵機制懲罰無效操作、獎勵有效行為

在 Inference 的文章中，他們提到 RL 強化後的模型能「主動調查、在必要時搜尋、遇到足夠證據就停止搜尋、在不同工具間切換」的能力，並通過這些行為來壓縮不必要的探索成本。

一個具體例子是論文 DeepRetrieval：它用 3B 大小模型、透過 RL 使其在多個 QA 資料集上超越 GPT-4o / Claude 等模型的性能。Inference.net 也指出，用 RL 訓練一個擅長檢索的小模型，來輔助再交付給大型模型做生成/摘要，這樣的架構可能更有效率（而不是讓同一模型兼任檢索與生成工作）。

挑戰與未來方向

雖然 Agentic Search + RL 是一條極具潛力的路徑，但要讓它成為廣泛可用的技術，還有許多挑戰需要克服：

上下文管理與膨脹
如果代理在搜尋過程中頻繁地拉入資料，可能導致上下文 window 太大、效率下降。如何在循環過程中壓縮、摘要或整理上下文，是一大難題。
錯誤回收與冗餘搜尋
有時候代理可能做過多不必要的搜尋（over-search），或反之搜尋不足（under-search）。這些行為降低效率與答案品質。近年已有研究指出，搜尋行為的不確定性與模型本身的信心水平有密切關係。
評估指標不足
傳統評估多只看最終答案的正確性，忽略代理搜尋在過程中的中間決策是否合理／高效。新的評估框架如 RAVine（Reality-Aligned Evaluation for Agentic Search）致力於填補這個空白，對代理的整個搜尋過程進行更細緻、對應真實場景的評分。
專業資料域與工具整合
不同任務、不同資料域（如程式碼庫、學術論文、公司內部資料庫）對搜尋與工具需求大不相同。代理要能對各種工具與資料格式具備靈活策略，這是一項整合與通用性的挑戰。
計算成本與延遲
即便 RL 能降低搜尋成本，agentic 搜尋仍比傳統 RAG 更複雜、資源消耗更高。如何在性能與資源間找到平衡，是商業落地的關鍵。

小結與展望

Agentic Search 可被視為從「被動檢索」邁向「自主探索」的一大步：語言模型不只是被動地接受上下文與工具，而是具有選擇性地決策何時搜尋、如何搜尋、何時停止。當與強化學習結合時，代理搜尋的效率與智慧有機會大幅提升。Inference.net 在其文章中指出，雖然過去 agentic 搜尋因成本與效率問題尚不成熟，加入 RL 後有潛力改寫「檢索／問答」這個領域的主流方式。Inference.net

未來的關鍵可能在於：