ACE-Step 是由 ACE Studio 與 StepFun 團隊共同開發的開源音樂生成模型 ,透過 Hugging Face 上的互動式介面 ACE-Step Space,使用者只需輸入文字描述,即可生成完整的音樂作品,無論是旋律、和聲還是節奏,都能展現出驚人的一致性與創意。
ACE-Step 的強大功能源自其獨特的架構設計。結合了 diffusion-based 生成技術、Sana 的 Deep Compression AutoEncoder(DCAE)以及輕量級的線性 Transformer,使其在生成速度、音樂結構的連貫性以及可控性方面達到業界領先水準。
主要特點包括:
-
高速生成:在 NVIDIA A100 GPU 上,僅需約 20 秒即可生成長達 4 分鐘的音樂,速度是傳統大型語言模型的 15 倍。
-
多語言支援:支援 19 種語言,包括中文、英文、日文、韓文、法文等,特別適合多語言音樂創作需求。
-
多樣化風格:從流行、搖滾到爵士、電子音樂,ACE-Step 能夠根據文字描述生成各種音樂風格,滿足不同創作需求。
-
細緻控制:提供歌詞編輯、音樂重繪(repainting)、變奏生成等功能,讓創作者能夠精細調整音樂內容。
-
開源與可擴展性:完整的開源代碼與訓練腳本,方便開發者進行二次開發與模型微調。
雖然 ACE-Step 在多數情況下表現優異,但仍存在一些技術挑戰。例如,在處理某些語言(如中文饒舌)或特定音樂風格時,可能出現連貫性不足或風格不明確的情況。此外,對於罕見樂器的模擬效果也有待提升。
未來,開發團隊計劃推出更多功能模組,如 RapMachine(專注於饒舌音樂生成)、StemGen(多軌音樂生成)以及 Singing2Accompaniment(從人聲生成伴奏)等,進一步拓展 ACE-Step 的應用範疇。