卡卡字幕助手 VideoCaptioner：用 LLM 把「產字幕→斷句→校正→翻譯」一次做完的開源字幕工具

網址

https://github.com/WEIFENG2333/VideoCaptioner

2025-12-13 08:03:21

如果你常做 YouTube、課程錄影、訪談剪輯，或是接案要幫客戶把影片快速上字幕，應該很懂「產字幕」只是第一步：接下來還有斷句要順、專有名詞要對、時間軸要準、甚至要翻成多語。GitHub 上這個 WEIFENG2333 / VideoCaptioner（卡卡字幕助手），主打就是把整條字幕流程用一套工具串起來，並且結合大語言模型（LLM）來做字幕斷句、校正、優化與翻譯，讓字幕讀起來更像「人寫的」，而不是機器硬切。

這個專案在做什麼？

VideoCaptioner 的定位很清楚：它是一款「基於 LLM 的影片字幕處理助手」，把 語音辨識 → 字幕斷句 → 字幕優化/校正 → 字幕翻譯做成一條龍流程，並強調操作簡單、硬體門檻低，甚至 不一定要 GPU也能跑出好用的字幕。
另外專案也提到新版加入了不少實用功能，例如 VAD（語音活動偵測）、人聲分離、字級時間戳、批量字幕等，對需要處理大量素材的人來說非常加分。

服務/工具特色

不用只靠「純語音辨識」的生字幕：很多工具產出的字幕會很碎、標點亂、斷句怪；VideoCaptioner 用 LLM 做二次整理，重點是把「可讀性」拉起來。
翻譯不只一種路線：可以選擇用 LLM 翻譯（品質通常最好、語氣更自然），也能用微軟翻譯或 Google 翻譯走「速度」路線。
本地/線上都能搭：語音辨識支援線上介面（中英為主）與本地 Whisper（多語），你可以依照素材語言、速度需求、隱私考量做選擇。
對大量工作流很友善：批量處理、並發轉錄、以及「分段轉錄再自動合併」這類設計，明顯就是衝著大量影片處理的情境來的。
有介面、也保留工程師路線：Windows 甚至提供打包版本（不用自己配環境），macOS/Linux 則提供 run.sh 幫你自動建虛擬環境、裝依賴、檢查 ffmpeg/aria2 等工具。

安裝與使用體驗：新手跟工程師都照顧到

以「想趕快用起來」來說，Windows 使用者可以直接從 Release 下載可執行程式，專案也提到包體不大、安裝後可直接跑，接著把影片檔拖進視窗就能啟動全自動流程（每一步也可以拆開單獨跑）。
如果你是 macOS/Linux 使用者，走原始碼路線也不麻煩：git clone 後跑 run.sh，它會自動檢查 Python、建立虛擬環境、安裝依賴與檢查系統工具，對不想手動踩坑的人很貼心。
另外它也提供 Docker（beta）部署方式，對想放在家用小主機、NAS、或公司內網跑任務的人來說，維護起來會更省事。

效果與成本：字幕品質往往取決於你怎麼「選模型」

專案提供了一個實測案例：處理一支約 14 分鐘的 1080p 影片，使用本地 Whisper 做辨識，再用 gpt-5-mini 做優化與翻譯，整體時間大約數分鐘等級，且 LLM 成本被估計到非常低。
我自己的看法是：這類工具真正的「甜蜜點」在於——你可以把語音辨識交給穩定的 ASR，把「語氣、斷句、專有名詞、人話翻譯」交給 LLM。當你願意花一點時間把 API、模型、執行緒數調到適合自己的工作流，成品會比單純生字幕更接近可直接上片的狀態。