WaterCrawl 是一套結合 Python、Django、Scrapy、Celery 等技術,聚焦於將網站內容轉化為適用於大型語言模型(LLM)的結構化資料的開源框架 。不僅提供高度自定義與擴展性,還支援自架與雲端 SaaS 型態,特別符合追求透明度與自主掌控的使用者需求。
特色一:高彈性爬取控制
-
深度與範圍調整:可設定爬取深度(depth)、限定的 domain、路徑控制等,適合精準擷取特定區段或全網站探索 。
-
異步進度監控:透過 Server-Sent Events(SSE)即時回傳抓取狀況,能監控進度、錯誤或中斷,對於資料量大、需要調整時十分實用 。
特色二:精準資料擷取與清洗
-
Selector 支援:使用者可透過選擇器(CSS/XPath)指定擷取內容,過濾廣告、頁尾等無用區塊。
-
結果格式豐富:支援下載 PDF、JPG 截圖與 HTML,提供多元的處理選項 。
特色三:AI 智能處理加值
-
OpenAI 整合:內建對接 OpenAI API,可將原始 HTML 處理後,轉變成可供 LLM 使用的結構化內容 。
-
LLM Ready 輸出:支援訓練資料構建,如文本摘要、主題摘取、內容分類等,免手動二次處理 。
特色四:外掛架構與 SDK 多語言支援
-
豐富外掛系統:官方釋出 WaterCrawl plugin 與 OpenAI plugin,社群亦提供整合 Dify、n8n 等方案 。
-
官方 SDK:支援 Python、Go、Node.js、PHP,Rust 正在開發中,便於與既有後端整合。
WaterCrawl 是一個具備完整機能的開源爬蟲平台,不但在爬取與清洗上靈活度高,更進一步提供 AI 資料處理能力,使其走在時代前端,尤其適合想建立內容庫或透過 LLM 應用的團隊。