Crawlee 是由 Apify 推出的開源爬蟲與瀏覽器自動化函式庫,支援 Node.js 與 Python。它整合 HTTP requests、Cheerio、Puppeteer、Playwright 等技術,並提供反阻擋策略、請求佇列、代理輪替、儲存插件等進階功能,讓你可以快速建立可靠的爬蟲專案。
核心功能特色
-
單一界面支援 HTTP 與瀏覽器爬取:可以在不改程式太多的情況下,靈活切換 Cheerio(純 HTML)與 Puppeteer/Playwright(模擬完整瀏覽器)。
-
內建佇列與儲存管理:支援 Breadth‑First、Depth‑First 掃描策略與可暫停的 Persistent Queue,也能將結果儲存為 JSON、CSV 或下載檔案 。
-
反被封機制:提供代理自動輪替(proxy rotation)、Session 管理與仿人類瀏覽器指紋,減少爬蟲被阻擋風險。
-
CLI 與範本快速上手:透過
npx crawlee create my-crawler
快速產生專案範本,立即執行 。 -
可擴充架構:提供中介程序(middleware)、routing、錯誤重試等機制,適合打造專案級工具 。
-
Node.js 與 Python 雙支援:Python 版本已穩定,支援 BeautifulSoup、Playwright,適合 AI、LLM 或資料工程專案。
-
Docker-ready 與雲端部署友好:官方提供 Dockerfile,支援部署於 Apify Serverless 或自行主機 。
Crawlee 是一個由淺入深、可擴充的網頁爬蟲生態系,兼具易用性與開發者友善特性。無論你是想快速完成資料爬取任務,還是想構建模組化、自動化的爬蟲系統,Crawlee 都是值得投入的選項。