Sora 2 登場：AI 影片與聲音生成的全新時代

網址

2025-10-02 08:10:25

OpenAI 在 2025 年 9 月 30 日正式推出 Sora 2，作為其最新的影片與音訊生成模型。這是繼最初的 Sora 模型之後的重要升級，旨在讓 AI 生成影片不只是「看起來像」而是更加物理正確、連貫、可控制。

OpenAI 把原先的 Sora 模型稱為影片生成的「GPT-1 時刻」，因為它讓影片生成初顯可能性（例如物體恆存性 emergent behavior）。而 Sora 2 則被視為一個可能的「GPT-3.5 時刻」：更強、更精準、更複雜。

特色與技術突破

以往的影片生成模型在執行 prompt 時，常見的問題包括物體扭曲、場景變形、違反重力或物理常識等。Sora 2 在這些方面進步很多：

這種對物理一致性的重視，使 Sora 2 在模擬真實世界的影片時，更具可信度。

Sora 2 能接受複雜、多鏡頭、多步驟的提示指令，同時能在整個影片中「持續追蹤世界狀態」與一致性。

此外，它對風格的支援也相當廣泛：不論是寫實、電影風格，甚至是動畫／二次元（anime）風格，Sora 2 都能應對自如。

不同於只生成影像的系統，Sora 2 是一個影片＋音訊的綜合系統：

不只是背景音效、環境音、音景（soundscape），還能生成語音與對話。
在某些情況下，你可以將真實世界的聲音或人物插入：透過「錄製自己的影片與音訊」來生成可放入 Sora 場景的 cameo（客串）版本，模型能以高保真度重現你的長相與聲音。

這種插入真實元素的能力，使得創作者可以將自己、朋友、動物或其他對象，無縫嵌入生成影片之中。

OpenAI 同時推出了一款名為 Sora 的 iOS 應用程式，以 Sora 2 為後端引擎。用戶可以在 app 中創作影片、重混他人生成內容、探索社群影片或將自己／朋友以 cameo 方式插入場景。

插入自己／他人的方式相對簡單：使用者只需進行一次錄影 + 音訊紀錄以驗證身份與擷取樣貌，之後就能將自己放進任何場景。

此外，app 的社交 feed 設計強調「以創造為主、而非只看影片」的體驗，OpenAI 特別指出，他們不會以瘋狂滾動或觀看時間作為優化目標。

該 app 尚處於邀請制（invite-based）階段，先在美國與加拿大推出，之後會逐步擴展到其他國家。

OpenAI 在這次推出時也特別強調，影片／社交領域帶來了一些特有風險（如沉迷、濫用、肖像濫用、深偽影片等），他們設計了以下幾項機制：

用戶控制與選擇權
使用者可以控制自己影片／肖像的使用權限，決定誰可將他／她當作 cameo，並且可以隨時撤銷或刪除包含自己 cameo 的影片。
推薦系統設計與對用戶健康的關注
App 默認優先展示與用戶互動或關注的人所創作的內容，而非單純以觀看次數或停留時間為優化目標。
他們也內建機制定期詢問用戶心理狀態，提示可以調整 feed。
未成年使用者管理
對於青少年（teens）帳號，會有預設的生成次數限制、較嚴格的 cameo 權限，以及退出無限瀏覽等控制機制。
父母也可以透過 ChatGPT 的家長控制介面，覆蓋這些限制、管理訊息與個人化推薦設定等。
內容審查與安全機制
OpenAI 表示會擴大人工審查團隊，快速處理欺凌、濫用、違規內容案件。
同時他們在模型設計與政策制定上，已有許多技術與制度考量以防止惡意使用（如未經同意的肖像合成、深偽影片等）
透明商業模式
OpenAI 表示目前唯一的計劃是，在需求超出計算資源限制時，用戶可以付費生成額外影片。他們強調，這樣的設計不會以營利為導向犧牲用戶福祉。