如果你曾辛苦把設計稿或網頁截圖一格一格自己複製到程式碼裡,那麼由香港中文大學團隊(CUHK MMLab 與 ARISE Lab)開發的 ScreenCoder 絕對值得一看。它是一套突破傳統的視覺到程式碼生成系統,能夠把任何 UI 截圖或設計 mockup 轉換成乾淨、結構清楚、可修改的前端 HTML/CSS 程式碼。
背後的技術架構採用了 模組化多智能體(modular multi-agent)設計,將整個流程拆成三個可解釋的小系統:第一個「Grounding」負責用視覺語言模型識別 UI 組件;接著由「Planning」生成分層的布局結構;最後「Generation」則根據脈絡與使用者需求生成最終的 HTML 與 CSS 程式碼。這樣的拆解方式能大幅提升排版準確度與結構正確性,優於單一黑盒模型。
主要功能一覽
-
模組式理解流程:將視覺理解、版面規劃與碼碼生成分層執行,提高生成品質與可追溯性。
-
輸出標準且可編輯的程式碼:不只是粗糙模型,是乾淨、可維護、可直接部署的前端程式碼。
-
高度可客製化:你可以依需求微調布局比例、命名或樣式,方便整合進專案中。
-
Hugging Face Demo 可試用:程式預覽可在 Hugging Face Spaces 上體驗,或自行下載程式碼在本地透過
python app.py
運行。 -
研究貢獻與推動資料生成:除了即時應用,ScreenCoder 同時具備「資料引擎」功能,可自動生成大量 UI‑code 配對,用於訓練與強化開源 VLM(視覺語言模型)。團隊也已在 Qwen2.5‑VL 等模型上進行微調與強化學習,取得明顯成果。
ScreenCoder 對於快速 prototyping、UI-dev 工作流程都非常實用。想像你只要截一張設計稿(或網站畫面),按下執行,便能取得初步的 HTML + CSS 結構。接著可以快速客製化,少了從零撰寫的時間,整體開發流程更高效。
對於設計師來說,也能節省轉交開發的等待時間;而前端工程師則能直接接手乾淨的程式碼,減少溝通誤差。整體協作更順暢。
另外,如果你有對 VLM 或 AI 生成模型感興趣,這套系統同時具有推動資料集構建的能力,可用於訓練未來模型、提升識別與生成精度,是很有前瞻性的研究工具。
總結來說,ScreenCoder 不只是一套視覺轉程式碼的 AI 工具,更是結合模組化架構與高品質生成的研究實作,它有效拉近設計與開發的橋樑。對於追求效率與實用性的 Taiwan 前端社群來說,是一款讓人期待的開源神器。