WaterCrawl：AI 驅動的網站爬蟲與資料擷取平台

網址

https://github.com/watercrawl/watercrawl

2025-06-23 17:26:59

WaterCrawl 是一套結合 Python、Django、Scrapy、Celery 等技術，聚焦於將網站內容轉化為適用於大型語言模型（LLM）的結構化資料的開源框架。不僅提供高度自定義與擴展性，還支援自架與雲端 SaaS 型態，特別符合追求透明度與自主掌控的使用者需求。

特色一：高彈性爬取控制

深度與範圍調整：可設定爬取深度（depth）、限定的 domain、路徑控制等，適合精準擷取特定區段或全網站探索。
異步進度監控：透過 Server-Sent Events（SSE）即時回傳抓取狀況，能監控進度、錯誤或中斷，對於資料量大、需要調整時十分實用。

特色二：精準資料擷取與清洗

Selector 支援：使用者可透過選擇器（CSS/XPath）指定擷取內容，過濾廣告、頁尾等無用區塊。
結果格式豐富：支援下載 PDF、JPG 截圖與 HTML，提供多元的處理選項。

特色三：AI 智能處理加值

OpenAI 整合：內建對接 OpenAI API，可將原始 HTML 處理後，轉變成可供 LLM 使用的結構化內容。
LLM Ready 輸出：支援訓練資料構建，如文本摘要、主題摘取、內容分類等，免手動二次處理。

特色四：外掛架構與 SDK 多語言支援

豐富外掛系統：官方釋出 WaterCrawl plugin 與 OpenAI plugin，社群亦提供整合 Dify、n8n 等方案。
官方 SDK：支援 Python、Go、Node.js、PHP，Rust 正在開發中，便於與既有後端整合。

WaterCrawl 是一個具備完整機能的開源爬蟲平台，不但在爬取與清洗上靈活度高，更進一步提供 AI 資料處理能力，使其走在時代前端，尤其適合想建立內容庫或透過 LLM 應用的團隊。

如果您喜歡我們的網站，並且希望支持我們的工作，您可以考慮捐款。我們接受各種形式的捐款，包括一次性捐款和定期捐款。您的捐款將幫助我們維護和改進網站，並為用戶提供更好的體驗。

AdventureLog：開源旅行日誌，視覺化你的每段旅程 GAHAG：來自日本的免費圖片、素材庫

課程推薦

AI虛擬角色生成實戰班

本課程將帶你從 AI 虛擬角色的概念出發，認識 AI Persona 的生成流程與應用方式，學會打造專屬自己的 AI 分身。課程中會學習 Prompt 提示詞撰寫、真人感人像生成、固定角色模板建立，並延伸出同一角色的多場景、多服裝與多情境照片。

OpenClaw 龍蝦 AI 代理人實作課：零基礎打造 AI 辦公代理人

本課程從安裝部署、身份設定、技能安裝到實戰應用，帶你從零建立一個專屬的 AI 工作助手－OpenClaw 龍蝦，這個 AI 助手可以替你蒐集情報、摘要文件、整理郵件、生成內容、定時提醒，全部自動完成。

輸入折扣碼 TC1625FR 還可以額外獲得 NT$500 優惠喔。

Google Gemini AI 多媒體生成工具應用實戰：從 Imagen 4、Veo 3、Chirp、Lyria 到 nano-banana

如何只用文字說明提示就生成不同的圖像結果？亦或是會議上的語音檔轉文字？這是一堂通盤性、全面性的Google Gemini AI多媒體生成工具應用實戰！

輸入折扣碼 TC1609EW 還可以額外獲得 NT$500 優惠喔。

AI 數據自動化工具實戰班：Google Sheet x Apps Script x NotebookLM 暨資料處理函數

本門課將教你如何善用 AI 功能與工具，進行自動分析數據提供有幫助的建議與洞察，以及使用 AI 驅動的公式自動化計算。

輸入折扣碼 TC1615VU 還可以額外獲得 NT$500 優惠喔。

3 小時掌握自動化工作新手應用實作 – n8n AI Agent

這門課程將帶你循序漸進掌握 n8n 的自動化技巧，從基礎認識與操作入門，到進階節點應用與流程控制，再到 Google 服務的整合實作，最後延伸至部署思維與 OpenAI API 的智慧化串接。

輸入折扣碼 TC1600UY 還可以額外獲得 NT$500 優惠喔。

用 AI 生成網站？ AI 高效網站設計實戰課：ChatGPT X HTML X SEO

利用 AI 提升網站設計效率與 SEO 排名！了解如何透過 ChatGPT 等工具快速建立 HTML 架構，優化關鍵字與用戶體驗，讓網站更具競爭力。

輸入折扣碼 TC1533SL 還可以額外獲得 NT$500 優惠喔。

AI工作術全面學習實戰營：6 堂精選課程，學會最好用 AI 工具，翻轉你的人生

《PChome雜誌》攜手 5 位在 AI 領域的專業講師，打造上述 6 堂實用課程，教你學會時下最好用的 AI 工具，導入生成式 AI 來產製工作內容，改造並升級你的工作流程。

輸入折扣碼 ZERO2024 還可以額外獲得 NT$400 優惠喔。

HTML與SEO實戰應用—並以ChatGPT助力提升網站品質與流量

本課程專為希望深入了解 HTML 並有效結合 SEO 策略的學員設計。我們將重點放在 HTML 的深度學習與應用上，同時穿插介紹如何透過搜索引擎優化提升網站能見度。透過即時互動式的直播教學，加上 ChatGPT 的輔助，您將學習到如何建立一個結構優良、美觀且符合 SEO 標準的網站。這不僅會提升網站的用戶體驗，還會大幅提高網站的搜索引擎排名，進而增加訪客流量和潛在客戶。