
NanoBrowser 是一個開源的瀏覽器擴充工具,目標是把「用對話驅動的 AI」變成可執行網頁自動化的代理(agent):你用自然語言下指令,內部由多個 AI 智能體協作(Planner、Navigator、Validator 等)來計畫、執行並檢查操作,最後在頁面上完成搜尋、填表、抓取資料或其它重複性工作。專案以「在本地瀏覽器中執行、選用你自己的 LLM 金鑰」為核心理念,強調開源透明與隱私保護。
主要特色
-
多智能體架構(Multi-Agent):不同智能體分工(例如規劃者制定步驟、導覽者在頁面上執行、驗證者檢查結果),能處理較複雜的工作流程。
-
在瀏覽器本地運行,私密性友好:運作主要在使用者的瀏覽器環境,使用者自行提供 LLM API Key(例如 OpenAI),資料不會自動上傳到專案方伺服器。
-
支援多種 LLM 選項:可用你偏好的模型/供應商(OpenAI、Claude、或未來支援的本地模型),彈性高且無訂閱限制(以用戶自己的 API 計費為主)。
-
即時視覺回饋與聊天式介面:以側邊欄聊天 UI 與可視化操作回饋呈現,讓你能在指令執行時監控流程、手動干預或調整策略。
-
開源與透明:專案碼公開在 GitHub,社群討論活躍,可檢視權限、實作細節與 roadmap。
常見應用情境
-
自動擷取多個網站的產品資訊、價格或聯絡方式(資料收集/爬取)。
-
自動填表與申請(例如大量測試表單、QA 自動化)。
-
以自然語言指令執行工作:例如「幫我在 X 網站搜尋 2024 年的報告並把連結存成 CSV」。
-
在 QA / 測試流程中,自動跑步驟並比對頁面結果(自動化測試輔助)。
如何開始
-
在 Chrome / Edge 的擴充商店或官方網站安裝 NanoBrowser(或到 GitHub / 官方站點查看安裝指引)。
-
開啟擴充,將你自己的 LLM API key(例如 OpenAI key)設定在擴充中(平台通常提供多個 provider 的選擇)。
-
在側邊欄與 AI 對話,輸入想做的任務(例:「在 example.com 搜尋 X,下載前三個結果的 PDF」)。
-
監看 AI 的 Planner → Navigator → Validator 流程,必要時可暫停或給予更精確的指令。
NanoBrowser 把「以自然語言指令驅動的網頁自動化」帶到了瀏覽器裡 — 它既能加速工作流程,也降低了自動化門檻。