VoxCPM2：用一段語音打造專屬配音，零成本AI聲音克隆開源專案

網址

2026-04-13 08:29:12

在語音 AI 技術快速演進的背景下，由 OpenBMB 與清華大學合作推出的 VoxCPM2，定位為一款主打「高品質聲音克隆與語音生成」的開源模型。其核心特色在於：只需一段短音訊，甚至僅用文字描述，就能生成具備特定音色、情緒與語速的語音，並支援多語言與高擬真輸出。相較於多數商業語音平台，VoxCPM2 強調完全開源、本地運行與零訂閱成本，讓語音生成技術的門檻大幅降低。

與市面上如 ElevenLabs 這類採訂閱制的服務相比，VoxCPM2 的最大差異在於其「免費且可完全掌控」。ElevenLabs 每月費用約從 5 美元到 99 美元不等，商業方案甚至高達 1,320 美元；而 VoxCPM2 則可直接在本地 GPU 上運行，沒有 API 呼叫費用、沒有按字計費，也不需長期訂閱。這使其在成本與彈性上具有明顯優勢，特別適合開發者與內容創作者。

在功能與技術面上，VoxCPM2 並不只是傳統 TTS（文字轉語音）模型，而是一個整合「聲音設計 + 聲音克隆 + 情境語音生成」的完整語音系統。模型約 20 億參數，並基於約 200 萬小時語音資料訓練，在語音自然度與細節還原上具有不錯表現，甚至在部分語音相似度測試中超越商業服務。

以下整理其主要功能與特色：

聲音設計（Text-to-Voice）
可直接用文字描述聲音特徵（如性別、年齡、語氣），AI 從零生成對應聲音，無需參考音訊。
聲音克隆（Voice Cloning）
上傳一段短音訊，即可複製該聲音的音色、口音、節奏與語速。
可控語音生成
可調整情緒與語速，例如「語氣更歡快、語速更快」，提升應用彈性。
高精度克隆（Audio + Transcript）
搭配音訊與逐字稿，可更精準還原語音細節。
多語言支援
支援約 30 種語言（含中文、英文、日文、韓文等），且可自動適應語言情境。
上下文感知能力
能根據文本內容自動調整語氣，例如新聞、故事會呈現不同語感。
即時生成效能
在高階顯卡（如 RTX 4090）上可達低延遲生成，甚至快於播放速度。
本地部署與低門檻
約 8GB 顯存即可運行，並支援 pip install voxcpm 快速安裝。
LoRA 微調能力
可用 5～10 分鐘個人音訊訓練專屬聲音模型。
48kHz 錄音室級輸出
提供高品質語音，無需額外後處理。

從實際應用情境來看，VoxCPM2 特別適合以下幾類使用者：AI 開發者（建立語音產品）、內容創作者（影片配音、有聲書）、以及需要大量語音生成的企業（客服、自動播報）。實務上會發現，其最大優勢在於「可控性與成本結構」，尤其是在長期使用或大量生成語音的情境下，本地部署能顯著降低支出。

值得注意的是，在 Minimax-MLS 語音相似度測試中，VoxCPM2 在英語、中文與阿拉伯語等語言的表現，皆優於 ElevenLabs，顯示其在聲音還原度上的競爭力。對比傳統配音產業（每個專案約 250～1000 美元）與錄音室成本（每小時約 200 美元），這類模型也正在重新定義語音製作的成本結構。

整體而言，VoxCPM2 不僅是一個技術展示，更代表語音 AI 正從「雲端服務」走向「本地可控工具」。對於希望建立自有語音系統、降低長期成本，或探索語音生成應用的開發者與創作者而言，這是一個具備高度潛力的開源解決方案。