WhisperLiveKit 是一個由 QuentinFuxa 提供的開源 Python 套件,專為本地/全端語音即時轉文字(STT)與講者辨識設計,結合 FastAPI 後端與簡潔的 Web 前端介面,透過瀏覽器即可完成即時字幕顯示與說話者標記,完全離線使用,降低隱私風險與延遲成本。
功能亮點一覽
-
多項先進研究模型集成
-
SimulStreaming(2025 年 SOTA):Ultra-low latency transcription with AlignAtt policy
-
WhisperStreaming(2023 年 SOTA):LocalAgreement 策略實現低延遲轉錄
-
Streaming Sortformer(2025 年 SOTA):高級即時講者區隔
-
Diart(2021):即時講者辨識技術
-
Silero VAD(2024):企業級聲音活動偵測
-
-
支援多使用者與語者辨識
後端支援多用戶連線,整合 VAD(Voice Activity Detection)機制,降低無音訊時的資源消耗。 -
靈活部署選項
支援 Docker 容器化部署(支援 GPU 或 CPU),並可整合多種後端模組,例如 speaker diarization(Sortformer、Diart)、原始 Whisper、timestamped Whisper、Apple Silicon 最佳化、OpenAI API 等。 -
Python API 整合方便
支援以 FastAPI 和 WebSocket 顯示轉錄資料流,方便嵌入現有系統或開發客製應用。
相較於 OpenAI Whisper 模型設計是針對整句完整語音進行辨識,直接將短片段逐一送入,容易導致語意中斷、字句缺漏,特別常見錯斷字或漏音, WhisperLiveKit 則結合多項即時處理技術,如 SimulStreaming 與 WhisperStreaming,可進行智慧緩衝與增量式處理,確保語音上下文完整性與準確度。
總而言之,WhisperLiveKit 是一款強大、開箱即用的本地即時語音轉錄與說話者辨識工具。結合最先進的 STT 與 speaker diarization 技術,提供完整的現場轉錄解決方案。對想建立會議系統、直播字幕、語音筆記工具等功能者而言,值得一試。