OpenAI 近期正式推出新一代模型 GPT-5.4。這一版本在推理能力、文件生成、電腦操作能力與真實工作場景的表現上都有顯著提升,被視為 OpenAI 目前最強的生產力 AI 模型之一。
與前一代 GPT-5.2 相比,GPT-5.4 不僅更準確,也更適合用於企業與專業工作流程,例如分析資料、撰寫文件、製作簡報或自動化執行任務。
以下帶你快速了解 GPT-5.4 的幾個核心突破。
一、AI 開始真正能完成「專業工作」
OpenAI 在新的評測 GDPval 中,測試 AI 在 44 種職業情境中的表現,例如:
-
製作銷售簡報
-
建立財務模型
-
排班與行政管理
-
製造流程設計
在這些測試中,GPT-5.4 在 83% 的比較中達到或超過專業人士水準,明顯高於 GPT-5.2 的 70.9%。
這代表 AI 已經不只是回答問題,而是可以直接產出「可用的工作成果」。
例如:
-
商業簡報
-
Excel 財務模型
-
專業報告
-
營運分析文件
在實際測試中,人類評審 68% 的情況更偏好 GPT-5.4 製作的簡報。
二、文件、Excel、簡報能力大幅提升
GPT-5.4 的設計特別針對 知識工作(knowledge work) 進行優化,例如:
文件生成
-
長篇報告結構更完整
-
更少錯誤與幻覺
Excel / 試算表
在模擬投資銀行分析師的 Excel 建模任務中:
-
GPT-5.4:87.3%
-
GPT-5.2:68.4%
顯示其 數據分析與建模能力明顯提升。
簡報設計
GPT-5.4 生成的簡報在:
-
視覺多樣性
-
版面結構
-
圖像使用
方面都比舊版本更好。
三、AI 可以直接操作電腦
GPT-5.4 的另一個重大突破是 原生的電腦操作能力(Computer Use)。
它可以透過截圖理解畫面,並透過滑鼠與鍵盤操作完成任務,例如:
-
在瀏覽器操作網站
-
填寫表單
-
寄送 email
-
排行事曆
-
操作軟體介面
在測試 AI 操作桌面系統的 OSWorld benchmark 中:
-
GPT-5.4 成功率:75%
-
GPT-5.2:47%
甚至 已超過人類平均表現(72%)。
這也被視為 AI Agent 技術的重要里程碑。
四、視覺理解與文件解析能力更強
GPT-5.4 同時提升了 多模態能力,尤其是圖像與文件理解:
-
可處理高解析度圖片
-
更準確解析 PDF 或文件內容
-
更擅長理解 UI 畫面
在 MMMU-Pro(視覺推理測試)中,GPT-5.4 的成功率達 81.2%,優於 GPT-5.2。
此外,模型現在可支援 最高 10.24M 像素的圖片輸入。
五、幻覺更少、準確度更高
OpenAI 表示 GPT-5.4 是目前 最具事實準確性的模型:
-
單一事實錯誤下降 33%
-
整體回答含錯誤的機率下降 18%
相比 GPT-5.2 有明顯改善。
這對於需要高準確度的場景(法律、金融、研究)尤其重要。
六、開發者與 AI Agent 的重要平台
GPT-5.4 同時整合了 GPT-5.3-Codex 的強大程式能力,並支援:
-
API
-
Codex
-
ChatGPT
-
Agent 系統
模型也支援 最高 1M token context window(實驗功能),可以處理超大型文件或程式碼專案。
這讓 GPT-5.4 成為 AI Agent、自動化系統與企業 AI 的核心模型。
結語:AI 正在變成「數位員工」
GPT-5.4 的重點不只是更聰明,而是更 能完成真實工作。
它具備:
-
更強推理能力
-
更好的文件與數據處理
-
電腦操作能力
-
更低的錯誤率
-
更大的上下文
這意味著 AI 不再只是聊天工具,而是開始成為 真正能完成任務的 AI Agent 與數位員工。
未來 AI 的發展,很可能不再只是「回答問題」,而是 直接幫你把工作完成。














