Windows‑MCP 是由 CursorTouch 團隊開發的開源 MCP (Model Context Protocol) Server,可讓大型語言模型(LLM)如 Claude Desktop、Gemini CLI 與 Windows OS 直接互動。它橋接 AI Agent 與 Windows GUI,並能模擬點擊、鍵盤輸入、擷取截圖、執行 PowerShell 操作等功能,是 Windows 自動化與 Agent 應用的重要基礎設施。
核心功能與特色
-
原生整合 Windows UI 自動化:可打開 App、點擊螢幕、模擬滑鼠鍵盤、控制視窗、滾動頁面,並擷取 UI 狀態快照,無需額外依賴電腦視覺模型
-
可搭配任意 LLM:並非綁定特定模型,只要具備 MCP Clients(例如 Claude Desktop 或 Gemini CLI)即可呼叫 Windows 操作工具
-
豐富工具集支援操作自動化:包含
Click-Tool
、Type-Tool
、Clipboard-Tool
、Scroll-Tool
、Shell-Tool
、State-Tool
、Launch-Tool
、Scrape-Tool
等,功能涵蓋截圖、應用開啟、鍵盤輸入、刮取網頁內容等 -
輕量開源、易於部署:使用 Python(3.12+)、UV / pip 安裝,提供 MIT 授權,非常適合本地部署與二次開發
-
支援 Windows 7/8/10/11:兼容廣泛作業系統版本
-
操作延遲在 1.5–2.3 秒間:實測操作延遲根據系統負載與 LLM 回應速度有所變動,適用一般自動化場景
Windows‑MCP 讓 AI Agent 真正掌控 Windows 系統,是一款功能強大且開源的 MCP Bridge 工具。不只能執行常見的滑鼠鍵盤操作,更能完整讀取 UI 元件、擷取系統狀態、執行腳本與爬蟲。對於想打造智能桌面助手、自動化流程或 AI 自控程式的技術人員而言,Windows‑MCP 是一張強而有力的 MVP 工具。