Pixelle-MCP 是由 AIDC-AI(Alibaba International Digital Commerce Group 的 AI 團隊)開發的開源專案,旨在搭橋 ComfyUI 與 LLM(大型語言模型),讓使用者可以不寫程式碼就把 ComfyUI 的 workflow 變成 MCP Tool,支援文本、圖片、語音/聲音、影片等多模態生成,是多媒體 AI 創作與整合的強力工具。
核心特色與功能亮點
-
全模態(Full-modal)支援,包括文字(Text)、圖片(Image)、聲音/語音(Sound/Speech)與影片(Video),換句話說,不只有靜態圖片,也能處理影音與音效等。
-
基於 ComfyUI 生態系統:Pixelle MCP 可以直接使用在 ComfyUI 裡設計並輸出的 workflow,無需從零設計各種節點與流程。
-
零程式碼開發模式(Zero-code Development):使用者只要設計好 workflow,依照規範標記參數與輸出節點,匯出 API 格式,就能讓系統自動把它轉為 MCP 工具(MCP Tool)被 LLM 呼叫。這降低對技術門檻的需求。
-
MCP Server + Web 介面 + 文件服務整合一體化:除了可被 MCP 客戶端(像是 Cursor、Claude Desktop 等)連接外,也附帶圖形化網頁介面(Web UI),並有檔案上傳/下載與儲存的功能。部署方式含 CLI、Docker、pip 等多種。
-
支援多種 LLM 模型及框架:如 OpenAI、Claude、Gemini、Qwen、DeepSeek 等模型皆能與其整合使用。
使用流程與應用情境
以下是 Pixelle MCP 的典型使用流程與適用場景,幫助你了解實際怎麼用:
-
在 ComfyUI 裡設計一個工作流程(workflow),例如文字轉圖片、圖片濾鏡處理等。
-
確保 workflow 的節點有標記必要的輸入與輸出參數(依照 Pixelle-MCP 要求,例如節點標題中指定輸入、輸出參數名稱)以便工具識別。
-
匯出該 workflow 為 API 格式(不是 UI 格式)。
-
把這個 workflow 檔案置入 Pixelle MCP 的工作流程資料夾(custom workflows 或類似路徑),讓系統載入。
-
啟動 Pixelle MCP(可透過 CLI、docker 或服務方式),連接你的 LLM 模型與 ComfyUI。
-
透過 Web UI 或 MCP 客戶端呼叫這些 workflow 生成圖片/影音/文字結果。
適用場景範例:
-
圖像生成與影音創作:設計師或創作者希望把靜態圖片變為簡短動畫或混合媒體輸出。
-
聲音、影像與文字的多媒體內容製作:例如你要做一段影片示範,加上語音說明與圖片效果。
-
快速 prototyping:想測試某個 AI workflow 在 ComfyUI 裡的效果,並立刻能被語言助手呼叫與使用。
-
非專業開發者使用:想透過視覺工具與已有模組完成創意產出,而不用深入撰寫後端程式。
總結來說,Pixelle MCP 是一款把視覺化 workflow 與語言模型整合的創新框架,它讓使用者能以零程式碼方式把 ComfyUI 裡的設計轉為 MCP 可被 LLM 呼叫的工具。對於想建構多媒體 AI 內容創作流程、快速 prototyping 或非程式背景但有創意需求的人來說,是非常值得關注與使用的專案。