在網頁自動化的領域中,傳統以 selector 為核心的框架往往在網站更新、元素變動時就「報銷」。Magnitude 則打破這項瓶頸,透過「視覺先導」的操作邏輯,讓開發者以自然語言指令與 AI 驅動的代理模型完成操作,自動登入、資料擷取、按鈕點擊再也不需繁瑣 selector。
這款開源工具結合 GPT/Claude 模型與電腦視覺技術,具備高度語意理解、結構化擷取與視覺驗證能力,正在改寫自動化流程的開發方式。
Magnitude 的五大關鍵特色
-
以畫面為主的「Vision-first」框架
不再倚賴 DOM selector,改由 AI 判讀畫面中元件位置與意圖,即使 UI 改版也能適應。 -
自然語言驅動操作
使用類似agent.act('登入帳號', { data: {...} })
的方式即可操作頁面,語意與人類描述一致。 -
智慧結構化資料擷取
透過agent.extract()
+ zod schema,可從畫面擷取表格、欄位、標題等內容,自動結構化輸出。 -
流程可驗證與回測
利用agent.verify()
驗證畫面中是否包含預期元素、訊息,適合作為測試框架使用。 -
多模型支援、自由擴充
預設支援 Claude Sonnet 4,也可接入開源模型如 Qwen 2.5 VL。開發者可將 Magnitude 整合進內部平台或以 API 模式串接。
Magnitude 為前端自動化、網頁抓取、測試框架帶來革命性新解。其以人類理解為中心、視覺為導向的操作模式,不但大幅簡化流程,還提高穩定性與通用性,如果有瀏覽器自動化的需求,是可以嘗試的工具。