Agentic Engineering 的 8 個等級

翻譯自 The 8 Levels of Agentic Engineering,可以檢視目前自己的開發方式

--

AI 的程式撰寫能力正超越我們有效運用它的能力。這也是為什麼在 SWE-bench 分數上拼命追求極致,卻無法與工程管理層真正關心的生產力指標對齊。當 Anthropic 的團隊能在 10 天內推出像 Cowork 這樣的產品,而另一個團隊使用相同模型卻無法突破一個壞掉的 POC,其差異在於:一個團隊已經縮小了能力與實踐之間的落差,而另一個團隊尚未做到。

這個落差不會在一夜之間消失。它是透過不同的等級逐步縮小的。總共有 8 個等級。你們大多數人可能已經超過前幾個等級,而且應該渴望達到下一個等級,因為每往上一個等級,產出都會有巨大的飛躍,而模型能力的進步會進一步放大這些提升。

另一個你應該關心的原因是多人效應。你的產出比你想像中更依賴你的隊友的等級。假設你是等級 7 的高手,在你睡覺時透過背景代理提交了多個優質 PR。如果你的 repo 在合併前需要同事審核,而那位同事是等級 2,仍然在手動審查 PR,那會壓制你的產出。因此,把你的團隊整體往上拉,對你來說是符合自身利益的。

從與多個使用 AI 輔助程式開發的團隊與個人交流中,我觀察到以下這樣的等級進展,雖然並非完全線性:

 

Levels 1 & 2:Tab Complete 與 Agent IDE

我會快速帶過這兩個等級,主要是為了完整性。可以自由略讀。

一切始於 Copilot 與 tab 補全。按下 tab,自動補齊程式碼。對許多人來說這可能早已被遺忘,或對新進入 agentic engineering 的人而言甚至直接跳過。它偏向對經驗豐富的開發者有利,因為他們能先建立程式骨架,再由 AI 填補細節。

以 AI 為核心的 IDE,例如 Cursor,透過將聊天與你的程式碼庫連接,改變了遊戲規則,使跨多檔案的修改變得容易許多。但其上限始終受到 context 限制。模型只能幫助它看得到的內容,而令人困擾的是,它常常不是沒有看到正確的 context,就是看到了太多錯誤的 context。

在這個等級,大多數人也會在其選擇的 coding agent 中嘗試 plan mode:將一個模糊的想法轉換為結構化的逐步計畫,讓 LLM 依此執行,並對該計畫進行迭代,然後再觸發實作。在這個階段這樣的方式運作良好,也是維持控制的一種合理方式。不過我們會在後面的等級看到,對 plan mode 的依賴會逐漸減少。

 

Level 3:Context Engineering

2025 年的年度關鍵詞,context engineering 成為一件重要的事情,因為模型已經足夠穩定,能在適當數量的指令與剛好的 context 下可靠地執行任務。過多雜訊的 context 與描述不足的 context 一樣糟糕,因此重點在於提升每個 token 的資訊密度。「每一個 token 都必須為自己的存在而戰」成為口號。


同樣的訊息,用更少的 token 表達——資訊密度是關鍵(來源:humanlayer/12-factor-agents)

在實務上,context engineering 涉及的範圍比多數人想像的更廣。它包含你的 system prompt 與規則檔(例如 .cursorrules、CLAUDE.md)。它也包含你如何描述工具,因為模型會閱讀這些描述來決定要呼叫哪些工具。它包含對對話歷史的管理,確保長時間運行的 agent 不會在第十輪後失去主軸。它還包含每一輪要暴露哪些工具,因為過多的選項會讓模型像人類一樣不知所措。

現在你已經比較少聽到 context engineering 這個詞。天平已經傾向於更能容忍雜訊並能在混亂情境中推理的模型(更大的 context window 也有所幫助)。然而,對於 context 使用的敏感度仍然重要。以下是一些仍然會受到影響的情境:

較小的模型對 context 更敏感。語音應用通常使用較小的模型,而 context 大小也會影響第一個 token 的產生時間,進而影響延遲。
高 token 消耗的工具與模態。例如 Playwright 類型的 MCP 與影像輸入會快速消耗 token,使你比預期更早進入 Claude Code 的「compact session」狀態。
擁有數十個工具的 agent,模型花費更多 token 在解析工具 schema,而非做實際工作。

更廣泛的重點是,context engineering 並沒有消失,它只是進化了。焦點從過濾不良 context,轉為確保正確的 context 在正確的時間出現。這個轉變為第 4 等級鋪路。

 

Level 4:Compounding Engineering

Context engineering 改善的是當前 session。Compounding engineering 改善的是之後每一次 session。由 Kieran Klaassen 推廣,compounding engineering 成為一個轉折點,不只對我,對許多人來說都讓「vibe coding」不再只是原型開發。

它是一個 plan、delegate、assess、codify 的循環。你用足夠的 context 規劃任務,讓 LLM 能成功完成。你將任務委派出去。你評估輸出結果。然後關鍵在於,你將學到的東西寫入:什麼有效、什麼失敗、下次應該遵循什麼模式。


這個循環:plan、delegate、assess、codify——每一輪都讓下一輪更好

codify 這一步使其產生複利效果。LLM 是無狀態的。如果它重新引入你昨天剛移除的依賴,那麼除非你明確告訴它不要這樣做,否則明天它還會再做一次。最常見的做法是更新 CLAUDE.md(或等效的規則檔),讓這些經驗內建於未來的每一次 session 中。一個提醒:將所有東西都寫入規則檔的本能可能會適得其反(太多指令等於沒有指令)。更好的做法是建立一個環境,使 LLM 能夠自行輕易找到有用的 context,例如維護一個最新的 docs/ 資料夾(這會在第 7 等級再提到)。

實踐 compounding engineering 的人通常對輸入給 LLM 的 context 非常敏感。當 LLM 出錯時,他們會本能地先思考是否缺少 context,而不是質疑模型能力。這種直覺讓第 5 到第 8 等級成為可能。

 

Level 5:MCP and Skills

Level 3 與 Level 4 解決的是 context。Level 5 解決的是能力。MCP 與自訂 skills 讓你的 LLM 能夠存取你的資料庫、你的 API、你的 CI pipeline、你的設計系統、用於瀏覽器測試的 Playwright,以及用於通知的 Slack。模型不再只是思考你的 codebase,而是可以對它採取行動。

關於 MCP 與 skills 已經有很多優質資料,因此我不會重複解釋它們是什麼。但以下是一些我使用它們的例子:我的團隊共享一個 PR review skill,我們持續對它進行迭代(現在仍然如此),它會根據 PR 的性質,有條件地啟動子代理。一個負責資料庫整合安全性。另一個執行複雜度分析,以標記冗餘或過度設計。另一個檢查 prompt 的健康狀態,以確保 prompt 符合團隊的標準格式。它同時也會執行 linters 與 Ruff。


一個 PR 會觸發一個 review skill,進而分派給多個專門的子代理——每個代理檢查不同的品質面向

為什麼要對 review skill 投入這麼多?因為當 agent 開始大量產出 PR 時,人類的審查會成為瓶頸,而不是品質把關。Latent Space 提出了一個有說服力的觀點:我們熟知的程式碼審查已經死亡。取而代之的是自動化、一致且由 skill 驅動的審查。

在 MCP 方面,我使用 Braintrust MCP,讓我的 LLM 能夠查詢評估日誌並直接進行修改。我使用 DeepWiki MCP,讓我的 agent 能夠存取任何開源 repo 的文件,而不需要手動將其拉進 context。

當團隊中有多個人各自撰寫相同 skill 的不同版本時,就值得將它們整合成共享 registry。Block(節哀)有一篇很好的說明:他們建立了一個內部 skills 市集,包含超過 100 個 skills,並為特定角色與團隊提供精選套件。skills 會像程式碼一樣被管理:PR、審查、版本歷史。

還有一個值得注意的趨勢:LLM 越來越常使用 CLI 工具,而不是 MCP(幾乎每家公司都在推出:Google Workspace CLI、Braintrust 即將推出)。原因是 token 效率。MCP 伺服器會在每一輪將完整工具 schema 注入 context,不論 agent 是否使用。CLI 則相反:agent 執行特定指令,只有相關輸出會進入 context。我大量使用 agent-browser,就是基於這個原因,而不是使用 Playwright MCP。

在繼續之前,有一點很重要。Level 3 到 Level 5 是後續一切的基礎。LLM 在某些事情上表現出奇地好,在其他方面則表現不佳,你需要建立對這些邊界的直覺,才能在其上疊加更多自動化。如果你的 context 混亂、prompt 不完整或描述錯誤、工具描述不清楚,那麼 Level 6 到 Level 8 只會放大混亂。

 

Level 6:Harness Engineering & Automated Feedback Loops

這就是火箭真正開始發射的地方。

Context engineering 是在整理模型看到的內容。Harness engineering 則是建立整個環境、工具與回饋迴圈,使 agent 能在沒有你介入的情況下穩定運作。給 agent 的不只是編輯器,而是回饋機制。


OpenAI 的 Codex harness——一整套觀測系統整合到 agent 中,使其能查詢、關聯並推理自己的輸出(來源:OpenAI)

OpenAI 的 Codex 團隊將 Chrome DevTools、觀測工具與瀏覽器操作整合到 agent runtime,使其可以截圖、操作 UI、查詢日誌並驗證自己的修復。給定一個 prompt,agent 可以重現 bug、錄製影片並實作修復。接著它會透過操作應用進行驗證、開 PR、回應 review,並合併,只有在需要判斷時才升級給人類。agent 不只是寫程式,它能看到程式的結果並進行迭代,就像人類一樣。

我的團隊開發用於技術故障排除的語音與聊天 agent,因此我建立了一個 CLI 工具 converse,讓任何 LLM 都能與我們的後端端點進行逐輪對話。LLM 會修改程式碼,使用 converse 測試對話流程,並持續迭代。有時這些自我改善的迴圈會持續數小時。當結果可驗證時特別強大:對話必須遵循特定流程,或在特定情境下呼叫工具(例如轉接真人客服)。

支撐這一切的概念是 backpressure:自動化回饋機制(型別系統、測試、lint、pre-commit hooks),讓 agent 能在沒有人工介入下偵測並修正錯誤。如果你想要自主性,你就需要 backpressure。否則你只會得到一台產出垃圾的機器。這也延伸到安全性。Vercel 的 CTO 指出,agent、生成的程式碼與你的機密應該位於不同的信任區域,因為埋在日誌中的 prompt injection 可能誘使 agent 洩漏憑證。安全邊界就是 backpressure:它限制 agent 在失控時能做什麼,而不只是它應該做什麼。

這裡有兩件事有幫助:

為吞吐量設計,而不是完美。當每次 commit 都要求完美時,agent 會反覆處理同一個 bug,甚至覆蓋彼此的修復。更好的方式是允許小型非阻塞錯誤,並在發布前做最終品質檢查。我們對人類同事也是如此。

限制大於指令。逐步提示(「先做 A,再做 B,再做 C」)正在過時。根據我的經驗,定義邊界比提供檢查清單更有效,因為 agent 會執著於清單而忽略其他內容。更好的 prompt 是:「這是我想要的結果,直到通過所有測試為止。」

Harness engineering 的另一半,是確保 agent 能在沒有你的情況下導航你的 repo。OpenAI 的做法是:將 AGENTS.md 控制在約 100 行,作為目錄,指向其他結構化文件,並將文件更新納入 CI,而不是依賴容易過時的手動更新。

當你建立了這一切後,自然會出現一個問題:如果 agent 能驗證自己的工作、導航 repo 並自行修正錯誤,那你為什麼還需要坐在電腦前?

提醒一下,對於處於早期等級的人,接下來的內容可能會顯得陌生(但可以先收藏之後再回來看)。

 

Level 7:Background Agents

熱門觀點:plan mode 正在消失。

Claude Code 的創作者 Boris Cherny,目前仍然在 80% 的任務中使用 plan mode。但隨著每一代模型的進步,在規劃後的一次成功率持續上升。我認為我們正接近一個臨界點:plan mode 作為獨立的人類介入步驟會逐漸消失。不是因為規劃不重要,而是因為模型已經足夠擅長自行規劃。前提是你已經完成 Level 3 到 Level 6 的工作。如果你的 context 乾淨、限制明確、工具描述清楚、回饋迴圈完善,模型可以可靠地自行規劃。如果沒有,你仍然需要監督。

需要澄清的是,規劃本身不會消失,只是形式改變。對新手而言,plan mode 仍然是正確的起點(如 Level 1 與 2 所述)。但在 Level 7 的複雜功能中,「規劃」更像探索:探索 codebase、在 worktree 中建立原型、映射解決方案空間。而且越來越多是由背景代理替你完成這些探索。

這很重要,因為這正是解鎖背景代理的關鍵。如果 agent 能生成可靠計畫並執行,而不需要你批准,它就可以在你做其他事情時非同步運作。這是從「我在切換多個分頁」到「工作在我不在時持續進行」的關鍵轉變。

Ralph loop 是常見的入門方式:一個自動化 agent 迴圈,重複執行 coding CLI,直到所有 PRD 項目完成,每次迭代都使用新的乾淨 context。根據我的經驗,Ralph loop 很難設計,PRD 的任何不完整都會帶來問題,過於接近「丟了就不管」。

你可以並行執行多個 Ralph loop,但當 agent 數量增加,你會發現你的時間花在協調、排序、檢查與推進,而不是寫程式。你已經變成中階管理者。你需要一個 orchestrator agent 來負責調度,讓你專注於意圖,而不是物流。

Dispatch 同時在 3 個模型上啟動 5 個 worker——你的主 session 保持精簡,而 agent 在背後工作
Dispatch 同時在 3 個模型上啟動 5 個 worker——你的主 session 保持精簡,而 agent 在背後工作

我大量使用的工具是 Dispatch,一個我為 Claude Code 建立的 skill,它將你的 session 轉為指揮中心。你維持單一乾淨 session,而 worker 在隔離 context 中執行工作。dispatcher 負責規劃、委派與追蹤,讓主 context 保持可控。當 worker 卡住時,它會提出問題,而不是靜默失敗。

Dispatch 在本地運行,適合快速開發:回饋快、容易除錯、無需基礎設施。Ramp 的 Inspect 則適合長時間自主任務:每個 agent 在雲端 sandbox VM 中運行。PM 在 Slack 發現 UI bug,Inspect 會接手處理,即使你的電腦關閉。代價是運營複雜度,但能換取規模與可重現性。我的建議是兩者並用。

在這個等級,一個非常有效的模式是:用不同模型做不同工作。優秀的工程團隊不是由複製人組成,而是由不同背景與思維的人組成。LLM 也是如此。我會用 Opus 實作、Gemini 探索、Codex 做 review,整體產出比單一模型更強。

同時,你必須將實作者與審查者分離。如果同一模型同時實作與評估,它會有偏誤,忽略問題並錯誤地認為任務已完成。這不是惡意,而是人類也不會自己批改自己的考卷。用不同模型或不同 prompt 做 review,品質會大幅提升。


不要讓同一模型批改自己的考卷——將實作與審查分離

背景代理也讓你能將 CI 與 AI 結合。例如:每次 merge 自動更新文件、修復安全問題、升級依賴並執行測試。良好的 context、複利規則、強大的工具與自動回饋迴圈,現在都能自動運行。

 

Level 8:Autonomous Agent Teams

目前還沒有人完全掌握這個等級,但已有一些團隊在嘗試。

在 Level 7 中,是一個 orchestrator LLM 將工作分派給 worker LLM(hub-and-spoke)。Level 8 則移除這個瓶頸。agent 彼此直接協作,自行認領任務、分享資訊、標記依賴、解決衝突,而不需要透過中央協調。

Claude Code 的 Agent Teams 功能是早期實作:多個 instance 在同一 codebase 並行工作,各自擁有 context 並直接溝通。Anthropic 使用 16 個 agent 建立一個可編譯 Linux 的 C 編譯器。Cursor 使用數百個 agent 連續數週建立瀏覽器並遷移 codebase。

但仔細看會發現問題。Cursor 發現沒有階層時,agent 變得保守且停滯。Anthropic 的 agent 在沒有 CI 時會破壞既有功能。所有實驗者都同意:多 agent 協作仍然很困難,尚未達最佳狀態。

我認為模型目前還不足以支撐這個等級的自主性,而且速度慢、token 成本高,對多數日常工作來說不划算。Level 7 才是目前最有槓桿的地方。未來 Level 8 可能成為主流,但現在應該專注於 Level 7。

 

Level ?

不可避免的下一個問題:接下來是什麼?

當你能順暢地協調 agent 團隊後,介面不需要再只是文字。語音對語音(甚至思維對思維)的互動將成為自然發展。看著你的應用,用語音描述修改,並即時看到變化。

很多人追求完美的一次生成(one-shot)。但這假設人類知道自己想要什麼,而事實並非如此。軟體開發一直都是迭代的,未來也會如此。只是會變得更容易、更快,並超越純文字互動。

所以:你現在在哪個等級?
你正在做什麼,讓自己邁向下一個等級?

 

如果您喜歡我們的網站,並且希望支持我們的工作,您可以考慮捐款。我們接受各種形式的捐款,包括一次性捐款和定期捐款。您的捐款將幫助我們維護和改進網站,並為用戶提供更好的體驗。

課程推薦

AI虛擬角色生成實戰班

AI虛擬角色生成實戰班

本課程將帶你從 AI 虛擬角色的概念出發,認識 AI Persona 的生成流程與應用方式,學會打造專屬自己的 AI 分身。課程中會學習 Prompt 提示詞撰寫、真人感人像生成、固定角色模板建立,並延伸出同一角色的多場景、多服裝與多情境照片。

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

OpenClaw 龍蝦 AI 代理人實作課:零基礎打造 AI 辦公代理人

本課程從安裝部署、身份設定、技能安裝到實戰應用,帶你從零建立一個專屬的 AI 工作助手-OpenClaw 龍蝦,這個 AI 助手可以替你蒐集情報、摘要文件、整理郵件、生成內容、定時提醒,全部自動完成。

輸入折扣碼 TC1625FR 還可以額外獲得 NT$500 優惠喔。

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

Google Gemini AI 多媒體生成工具應用實戰:從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

如何只用文字說明提示就生成不同的圖像結果?亦或是會議上的語音檔轉文字?這是一堂通盤性、全面性的Google Gemini AI多媒體生成工具應用實戰!

輸入折扣碼 TC1609EW 還可以額外獲得 NT$500 優惠喔。

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

AI 數據自動化工具實戰班:Google Sheet x Apps Script x NotebookLM 暨資料處理函數

本門課將教你如何善用 AI 功能與工具,進行自動分析數據提供有幫助的建議與洞察,以及使用 AI 驅動的公式自動化計算。

輸入折扣碼 TC1615VU 還可以額外獲得 NT$500 優惠喔。

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

這門課程將帶你循序漸進掌握 n8n 的自動化技巧,從基礎認識與操作入門,到進階節點應用與流程控制,再到 Google 服務的整合實作,最後延伸至部署思維與 OpenAI API 的智慧化串接。

輸入折扣碼 TC1600UY 還可以額外獲得 NT$500 優惠喔。

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

用 AI 生成網站? AI 高效網站設計實戰課:ChatGPT X HTML X SEO

利用 AI 提升網站設計效率與 SEO 排名!了解如何透過 ChatGPT 等工具快速建立 HTML 架構,優化關鍵字與用戶體驗,讓網站更具競爭力。

輸入折扣碼 TC1533SL 還可以額外獲得 NT$500 優惠喔。

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

AI工作術全面學習實戰營:6 堂精選課程,學會最好用 AI 工具,翻轉你的人生

《PChome雜誌》攜手 5 位在 AI 領域的專業講師,打造上述 6 堂實用課程,教你學會時下最好用的 AI 工具,導入生成式 AI 來產製工作內容,改造並升級你的工作流程。

輸入折扣碼 ZERO2024 還可以額外獲得 NT$400 優惠喔。

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

本課程專為希望深入了解 HTML 並有效結合 SEO 策略的學員設計。我們將重點放在 HTML 的深度學習與應用上,同時穿插介紹如何透過搜索引擎優化提升網站能見度。透過即時互動式的直播教學,加上 ChatGPT 的輔助,您將學習到如何建立一個結構優良、美觀且符合 SEO 標準的網站。這不僅會提升網站的用戶體驗,還會大幅提高網站的搜索引擎排名,進而增加訪客流量和潛在客戶。
用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

用AI強化職場競爭力 ChatGPT、Midjourney從入門到精通

在快速變遷的職場中,提升競爭力成為關鍵。透過引領潮流的AI技術,ChatGPT和Midjourney將助您勇攀高峰。無論您是AI新手還是專家,這個課程將引導您從入門到精通,解密AI的奧秘,並學習如何運用於職場。
GitHub Copilot AI 程式碼編輯工具應用實務班

GitHub Copilot AI 程式碼編輯工具應用實務班

讓學員瞭解有效地使用該工具來加速開發流程、提高程式碼品質和生產力。課程重點放在以 JavaScript 程式語言為例,介紹 Copilot 的基本原理、使用方法和最佳實踐。

輸入折扣碼 TC1456JA 還可以額外獲得 NT$500 優惠喔。

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

ChatGPT X Clipchamp AI 生成影片、配音與字幕應用實戰班

掌握Clipchamp AI的操作技巧,靈活運用Clipchamp AI進行影片編輯和創作,實現創意表達和傳播目的。

輸入折扣碼 TC1451JAN 還可以額外獲得 NT$500 優惠喔。

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

如何串接多種數位工具資訊?Looker Studio 資料視覺化實戰班|GoogleAds x FB廣告 x GA流量數據

Looker Studio除了可協助使用者監控網站流量、廣告成效、選擇匯入資源的管道之外,還可以將數據資料多平台整合、數據報表即時更新、數據範本可重複套用的效益,透過自動化系統,將數據全部匯入同一個報表平台,是企業不可或缺的重要工具。

輸入折扣碼 TC1270JIA 還可以額外獲得 NT$500 優惠喔。

和我們交流

加入我們的社群,裡面會有一些技術的內容、有趣的技術梗,以及職缺的分享,歡迎和我們一起討論。