
在過去,搜尋系統多半仰賴「檢索 + 排序 / 重排(RAG, Retrieval-Augmented Generation)」機制:先做稀疏檢索(如 BM25)、或密集向量檢索,再用 cross-encoder、融合多種排序策略,最後將檢索到的內容交給大型模型做摘要或生成。這樣的流程已經是多數搜尋與問答系統的主流架構。
但近來,基於大型語言模型(LLM)搭配工具、並在循環(loop)中自主決定何時要搜尋、何時停止的「Agentic Search(代理搜尋)」逐漸展現出更強的能力:即便工具本身不是最強,透過智能的策略與決策,代理仍可以超越傳統 RAG 流程的表現。
然而,純粹的 agentic 搜尋通常成本高、延遲大、上下文膨脹嚴重。為了讓這個方向實用可行,研究者與工程團隊開始採用強化學習(RL)來訓練模型,使它們學會更聰明地使用搜尋工具、停止搜尋時機,並抑制多餘或無效的操作。這正是 Inference在文章中指出的「RL 將代理搜尋帶向下一層」的主張。
核心觀念與演進
傳統 RAG 的瓶頸與限制
-
傳統的檢索 + 重排方法,在許多簡單查詢下已表現不錯,但面對複雜查詢或多步推理任務,就容易力不從心。
-
要顧及使用者偏好、語境、潛在的多義性等因素,僅靠單一步驟檢索往往不夠靈活。
-
若一味擴大上下文、增加工具,但沒有機制控制策略,系統容易變得龐大、低效。

Agentic Search:工具 + 智能決策
Agentic Search 的核心思路是:讓 LLM 在一個「思考 → 決策 → 採取行動 → 觀察結果(loop)」的循環中,自主選擇哪些工具要用、何時要搜尋、何時停止。在這個過程中,它能混用多種工具(如 grep、向量檢索、結構化資料查詢、網頁搜尋等),並依據當前上下文和結果靈活調整策略。
這種設計讓代理可以:
-
探索式地搜尋:不必一次就把所有內容塞入上下文,而是按需「借用」外部知識。
-
制衡成本與性能:根據效益決定是否繼續搜尋或停止。
-
使用多樣工具:在不同任務、資料形式中選擇最合適的方式。

引入強化學習(RL)的必要性
如前所述,純粹的代理搜尋即便在理論上強大,實務上常因計算與延遲成本太高而難以應用。為了解決這個問題,引入强化學習的方法使模型能:
-
學習什麼時候該搜尋(或停止搜尋)
-
學著在不同工具間做取捨
-
透過獎勵機制懲罰無效操作、獎勵有效行為
在 Inference 的文章中,他們提到 RL 強化後的模型能「主動調查、在必要時搜尋、遇到足夠證據就停止搜尋、在不同工具間切換」的能力,並通過這些行為來壓縮不必要的探索成本。
一個具體例子是論文 DeepRetrieval:它用 3B 大小模型、透過 RL 使其在多個 QA 資料集上超越 GPT-4o / Claude 等模型的性能。Inference.net 也指出,用 RL 訓練一個擅長檢索的小模型,來輔助再交付給大型模型做生成/摘要,這樣的架構可能更有效率(而不是讓同一模型兼任檢索與生成工作)。
挑戰與未來方向
雖然 Agentic Search + RL 是一條極具潛力的路徑,但要讓它成為廣泛可用的技術,還有許多挑戰需要克服:
-
上下文管理與膨脹
如果代理在搜尋過程中頻繁地拉入資料,可能導致上下文 window 太大、效率下降。如何在循環過程中壓縮、摘要或整理上下文,是一大難題。 -
錯誤回收與冗餘搜尋
有時候代理可能做過多不必要的搜尋(over-search),或反之搜尋不足(under-search)。這些行為降低效率與答案品質。近年已有研究指出,搜尋行為的不確定性與模型本身的信心水平有密切關係。 -
評估指標不足
傳統評估多只看最終答案的正確性,忽略代理搜尋在過程中的中間決策是否合理/高效。新的評估框架如 RAVine(Reality-Aligned Evaluation for Agentic Search)致力於填補這個空白,對代理的整個搜尋過程進行更細緻、對應真實場景的評分。 -
專業資料域與工具整合
不同任務、不同資料域(如程式碼庫、學術論文、公司內部資料庫)對搜尋與工具需求大不相同。代理要能對各種工具與資料格式具備靈活策略,這是一項整合與通用性的挑戰。 -
計算成本與延遲
即便 RL 能降低搜尋成本,agentic 搜尋仍比傳統 RAG 更複雜、資源消耗更高。如何在性能與資源間找到平衡,是商業落地的關鍵。
小結與展望
Agentic Search 可被視為從「被動檢索」邁向「自主探索」的一大步:語言模型不只是被動地接受上下文與工具,而是具有選擇性地決策何時搜尋、如何搜尋、何時停止。當與強化學習結合時,代理搜尋的效率與智慧有機會大幅提升。Inference.net 在其文章中指出,雖然過去 agentic 搜尋因成本與效率問題尚不成熟,加入 RL 後有潛力改寫「檢索/問答」這個領域的主流方式。Inference.net
未來的關鍵可能在於:
-
如何設計獎勵機制,使代理能在複雜場景中更合理決策
-
如何評估與監控代理在不同階段的表現
-
如何在不同任務/資料域中,抽象出通用策略或工具組合
-
如何在資源限制(網路、延遲、成本)下,做到足夠好的代理搜尋
原文連結:
RAG Is Over: RL Agents Are the New Retrieval Stack