AnyCrawl 是由 Any4AI 團隊開發的一款開源高效網頁爬蟲工具,採用 Node.js + TypeScript 打造,目標是將網站資料轉換成「LLM Ready」(適用大語言模型)的結構化內容,支持搜尋引擎結果(SERP)、單頁爬取與全站遍歷,同時具備多執行緒與多進程架構,適合批次、大量資料的自動化爬取需求 。
核心特色功能
-
多場景支持:
-
SERP 爬取:批次搜尋引擎(Google/Bing/Baidu),自動擷取結果與摘要。
-
單頁內容抓取:快速獲取靜態或動態內容頁面的文字與媒體。
-
全站爬行:智慧化網站遍歷,遞歸下載多頁內容。
-
-
高性能架構:
同時採用 multi-thread 與 multi-process,並支援 Redis 快取/排程,讓大型爬取任務平行進行迅速又穩定。 -
LLM Ready 輸出:
預設生成乾淨的 Markdown 或結構化資料,方便餵入大語言模型進行 RAG、摘要或二次處理 。 -
支援多種瀏覽器引擎:
使用 Cheerio 處理靜態 HTML,也可切換至 Puppeteer 或 Playwright 處理 JavaScript 載入網頁,依需求自由選擇 。 -
Docker 快速部署:
附帶docker-compose.yml
,使本地或雲端佈署更快速/一致,適用於自架服務亦可作為後端 API 模式使用 。 -
API Playground:
內建 API 可測試 JSON 輸出方案,並自動生成程式碼範例,適合開發者快速導入使用 。
如果你需要一款高效、支援 SERP、JavaScript 跑框架、並能輸出給大語言模型的全能爬蟲工具,AnyCrawl 是一個值得嘗試的開發工具。