Wan2.2 是由 Wan-Video 團隊釋出的開源大型影片生成模型,屬於基礎級別的擴散式生成框架。它支援文字轉影片(Text-to-Video, T2V) 與圖片轉影片(Image-to-Video, I2V),並能輸出 720P @ 24fps 的高品質影片。
核心特色
-
Mixture-of-Experts 架構(MoE)
透過多專家架構分工處理不同時間步驟的去噪任務,在相同計算成本下提升模型容量與效果。 -
電影級美學生成
訓練數據包含精細標記的美學標籤(光影、構圖、色彩、對比度),可精準控制影片風格。 -
複雜動態表現
訓練數據規模大幅提升(圖片 +65.6%、影片 +83.2%),能處理更複雜的動作與語義內容。 -
高效能 720P 影片生成
採用 Wan2.2-VAE,壓縮比達 16×16×4,可在消費級顯卡(如 RTX 4090)運行,生成 720P 24fps 高畫質影片,是目前最快的開源高畫質影片模型之一。 -
多模態支援
同時支援文字生成影片與圖片生成影片,適合更多創作情境。
優點與限制
優點
-
支援 720P 高畫質輸出,效果優於許多同類模型。
-
可在單卡 GPU 運行,降低使用門檻。
-
結合 MoE 架構,美學與動態表現更自然。
-
完全開源,適合學術與產業雙重應用。
限制
-
仍需高效能 GPU(如 RTX 4090)才能流暢執行。
-
雖支援電影級美學,但對特定風格控制仍有學習曲線。
-
訓練與生成仍存在計算成本,對一般使用者不算輕量。
總結來說,Wan2.2 展現了影片生成模型在畫質、動態與美學上的新突破。它結合 Mixture-of-Experts 架構與大規模訓練數據,不僅能輸出高品質影片,還能控制美學風格,對創作者、研究人員與產業應用來說都是強大的工具。隨著更多開源社群的貢獻,Wan2.2 有望成為 AI 視覺生成的重要基礎模型之一。