RAG 已過時:強化學習智能體(RL Agents)將成為新一代檢索架構

在過去,搜尋系統多半仰賴「檢索 + 排序 / 重排(RAG, Retrieval-Augmented Generation)」機制:先做稀疏檢索(如 BM25)、或密集向量檢索,再用 cross-encoder、融合多種排序策略,最後將檢索到的內容交給大型模型做摘要或生成。這樣的流程已經是多數搜尋與問答系統的主流架構。

但近來,基於大型語言模型(LLM)搭配工具、並在循環(loop)中自主決定何時要搜尋、何時停止的「Agentic Search(代理搜尋)」逐漸展現出更強的能力:即便工具本身不是最強,透過智能的策略與決策,代理仍可以超越傳統 RAG 流程的表現。

然而,純粹的 agentic 搜尋通常成本高、延遲大、上下文膨脹嚴重。為了讓這個方向實用可行,研究者與工程團隊開始採用強化學習(RL)來訓練模型,使它們學會更聰明地使用搜尋工具、停止搜尋時機,並抑制多餘或無效的操作。這正是 Inference在文章中指出的「RL 將代理搜尋帶向下一層」的主張。

 

核心觀念與演進

傳統 RAG 的瓶頸與限制

  • 傳統的檢索 + 重排方法,在許多簡單查詢下已表現不錯,但面對複雜查詢或多步推理任務,就容易力不從心。

  • 要顧及使用者偏好、語境、潛在的多義性等因素,僅靠單一步驟檢索往往不夠靈活。

  • 若一味擴大上下文、增加工具,但沒有機制控制策略,系統容易變得龐大、低效。

 

Agentic Search:工具 + 智能決策

Agentic Search 的核心思路是:讓 LLM 在一個「思考 → 決策 → 採取行動 → 觀察結果(loop)」的循環中,自主選擇哪些工具要用、何時要搜尋、何時停止。在這個過程中,它能混用多種工具(如 grep、向量檢索、結構化資料查詢、網頁搜尋等),並依據當前上下文和結果靈活調整策略。

這種設計讓代理可以:

  • 探索式地搜尋:不必一次就把所有內容塞入上下文,而是按需「借用」外部知識。

  • 制衡成本與性能:根據效益決定是否繼續搜尋或停止。

  • 使用多樣工具:在不同任務、資料形式中選擇最合適的方式。

 

引入強化學習(RL)的必要性

如前所述,純粹的代理搜尋即便在理論上強大,實務上常因計算與延遲成本太高而難以應用。為了解決這個問題,引入强化學習的方法使模型能:

  • 學習什麼時候該搜尋(或停止搜尋)

  • 學著在不同工具間做取捨

  • 透過獎勵機制懲罰無效操作、獎勵有效行為

在 Inference 的文章中,他們提到 RL 強化後的模型能「主動調查、在必要時搜尋、遇到足夠證據就停止搜尋、在不同工具間切換」的能力,並通過這些行為來壓縮不必要的探索成本。

一個具體例子是論文 DeepRetrieval:它用 3B 大小模型、透過 RL 使其在多個 QA 資料集上超越 GPT-4o / Claude 等模型的性能。Inference.net 也指出,用 RL 訓練一個擅長檢索的小模型,來輔助再交付給大型模型做生成/摘要,這樣的架構可能更有效率(而不是讓同一模型兼任檢索與生成工作)。

 

挑戰與未來方向

雖然 Agentic Search + RL 是一條極具潛力的路徑,但要讓它成為廣泛可用的技術,還有許多挑戰需要克服:

  1. 上下文管理與膨脹
    如果代理在搜尋過程中頻繁地拉入資料,可能導致上下文 window 太大、效率下降。如何在循環過程中壓縮、摘要或整理上下文,是一大難題。

  2. 錯誤回收與冗餘搜尋
    有時候代理可能做過多不必要的搜尋(over-search),或反之搜尋不足(under-search)。這些行為降低效率與答案品質。近年已有研究指出,搜尋行為的不確定性與模型本身的信心水平有密切關係。

  3. 評估指標不足
    傳統評估多只看最終答案的正確性,忽略代理搜尋在過程中的中間決策是否合理/高效。新的評估框架如 RAVine(Reality-Aligned Evaluation for Agentic Search)致力於填補這個空白,對代理的整個搜尋過程進行更細緻、對應真實場景的評分。

  4. 專業資料域與工具整合
    不同任務、不同資料域(如程式碼庫、學術論文、公司內部資料庫)對搜尋與工具需求大不相同。代理要能對各種工具與資料格式具備靈活策略,這是一項整合與通用性的挑戰。

  5. 計算成本與延遲
    即便 RL 能降低搜尋成本,agentic 搜尋仍比傳統 RAG 更複雜、資源消耗更高。如何在性能與資源間找到平衡,是商業落地的關鍵。

 

小結與展望

Agentic Search 可被視為從「被動檢索」邁向「自主探索」的一大步:語言模型不只是被動地接受上下文與工具,而是具有選擇性地決策何時搜尋、如何搜尋、何時停止。當與強化學習結合時,代理搜尋的效率與智慧有機會大幅提升。Inference.net 在其文章中指出,雖然過去 agentic 搜尋因成本與效率問題尚不成熟,加入 RL 後有潛力改寫「檢索/問答」這個領域的主流方式。Inference.net

未來的關鍵可能在於:

  • 如何設計獎勵機制,使代理能在複雜場景中更合理決策

  • 如何評估與監控代理在不同階段的表現

  • 如何在不同任務/資料域中,抽象出通用策略或工具組合

  • 如何在資源限制(網路、延遲、成本)下,做到足夠好的代理搜尋

 

原文連結:
RAG Is Over: RL Agents Are the New Retrieval Stack

 

如果您喜歡我們的網站,並且希望支持我們的工作,您可以考慮捐款。我們接受各種形式的捐款,包括一次性捐款和定期捐款。您的捐款將幫助我們維護和改進網站,並為用戶提供更好的體驗。

課程推薦

AI虛擬角色生成實戰班

AI虛擬角色生成實戰班

本課程將帶你從 AI 虛擬角色的概念出發,認識 AI Persona 的生成流程與應用方式,學會打造專屬自己的 AI 分身。課程中會學習 Prompt 提示詞撰寫、真人感人像生成、固定角色模板建立,並延伸出同一角色的多場景、多服裝與多情境照片。

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

本課程從安裝部署、身份設定、技能安裝到實戰應用,帶你從零建立一個專屬的 AI 工作助手-OpenClaw 龍蝦,這個 AI 助手可以替你蒐集情報、摘要文件、整理郵件、生成內容、定時提醒,全部自動完成。

輸入折扣碼 TC1625FR 還可以額外獲得 NT$500 優惠喔。

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

如何只用文字說明提示就生成不同的圖像結果?亦或是會議上的語音檔轉文字?這是一堂通盤性、全面性的Google Gemini AI多媒體生成工具應用實戰!

輸入折扣碼 TC1609EW 還可以額外獲得 NT$500 優惠喔。

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

本門課將教你如何善用 AI 功能與工具,進行自動分析數據提供有幫助的建議與洞察,以及使用 AI 驅動的公式自動化計算。

輸入折扣碼 TC1615VU 還可以額外獲得 NT$500 優惠喔。

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

這門課程將帶你循序漸進掌握 n8n 的自動化技巧,從基礎認識與操作入門,到進階節點應用與流程控制,再到 Google 服務的整合實作,最後延伸至部署思維與 OpenAI API 的智慧化串接。

輸入折扣碼 TC1600UY 還可以額外獲得 NT$500 優惠喔。

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

利用 AI 提升網站設計效率與 SEO 排名!了解如何透過 ChatGPT 等工具快速建立 HTML 架構,優化關鍵字與用戶體驗,讓網站更具競爭力。

輸入折扣碼 TC1533SL 還可以額外獲得 NT$500 優惠喔。

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

《PChome雜誌》攜手 5 位在 AI 領域的專業講師,打造上述 6 堂實用課程,教你學會時下最好用的 AI 工具,導入生成式 AI 來產製工作內容,改造並升級你的工作流程。

輸入折扣碼 ZERO2024 還可以額外獲得 NT$400 優惠喔。

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

本課程專為希望深入了解 HTML 並有效結合 SEO 策略的學員設計。我們將重點放在 HTML 的深度學習與應用上,同時穿插介紹如何透過搜索引擎優化提升網站能見度。透過即時互動式的直播教學,加上 ChatGPT 的輔助,您將學習到如何建立一個結構優良、美觀且符合 SEO 標準的網站。這不僅會提升網站的用戶體驗,還會大幅提高網站的搜索引擎排名,進而增加訪客流量和潛在客戶。
用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

在快速變遷的職場中,提升競爭力成為關鍵。透過引領潮流的AI技術,ChatGPT和Midjourney將助您勇攀高峰。無論您是AI新手還是專家,這個課程將引導您從入門到精通,解密AI的奧秘,並學習如何運用於職場。
GitHub Copilot AI 程式碼編輯工具應用實務班

GitHub Copilot AI 程式碼編輯工具應用實務班

讓學員瞭解有效地使用該工具來加速開發流程、提高程式碼品質和生產力。課程重點放在以 JavaScript 程式語言為例,介紹 Copilot 的基本原理、使用方法和最佳實踐。

輸入折扣碼 TC1456JA 還可以額外獲得 NT$500 優惠喔。

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

掌握Clipchamp AI的操作技巧,靈活運用Clipchamp AI進行影片編輯和創作,實現創意表達和傳播目的。

輸入折扣碼 TC1451JAN 還可以額外獲得 NT$500 優惠喔。

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

Looker Studio除了可協助使用者監控網站流量、廣告成效、選擇匯入資源的管道之外,還可以將數據資料多平台整合、數據報表即時更新、數據範本可重複套用的效益,透過自動化系統,將數據全部匯入同一個報表平台,是企業不可或缺的重要工具。

輸入折扣碼 TC1270JIA 還可以額外獲得 NT$500 優惠喔。

和我們交流

加入我們的社群,裡面會有一些技術的內容、有趣的技術梗,以及職缺的分享,歡迎和我們一起討論。