Google 發布 Gemini 3.1 Pro：推理能力翻倍，重回頂級 AI 模型行列

2026-02-20 21:10:11

2026 年 2 月 19 日，Google 推出了新一代模型 Gemini 3.1 Pro（Preview）。距離 Gemini 3 Pro 上線僅約三個月，本次更新的最大亮點是推理能力大幅提升，同時維持原有定價，並以預覽版形式向開發者、企業與一般用戶全面開放。

在去年 11 月 Gemini 3 Pro 剛推出時曾短暫登上頂尖模型行列，但隨後被其他模型超越。根據第三方評測機構 Artificial Analysis 的數據，Gemini 3.1 Pro 在綜合智能表現上再次回到領先位置，重新進入第一梯隊。

推理能力成為本次最大突破

Gemini 3.1 Pro 的核心升級集中在高階推理能力。
在測試模型解決全新邏輯問題能力的 ARC-AGI-2 基準中，分數從上一代的 31.1% 大幅提升至 77.1%，成長超過一倍，顯示其在未知模式推理方面有明顯進步，並超越多數競品模型。

在高難度學術推理測試 Humanity’s Last Exam 中，Gemini 3.1 Pro 也取得更高分數，整體表現優於多款主流模型。同時，在評估科學知識理解能力的 GPQA Diamond 測試中，該模型拿到目前最高水準的成績，進一步強化其在複雜知識推理與理解上的優勢。

整體而言，這一代模型特別強調深度思考、邏輯推演與跨領域理解能力的提升。

編碼能力與 Agent 任務同步強化

除了推理能力外，Gemini 3.1 Pro 在程式開發與自動化代理（Agent）任務上的表現也顯著提升。

在競賽級程式能力測試 LiveCodeBench Pro 中，其評分大幅上升，顯示模型在寫程式、解題與演算法能力上有明顯進步。而在實務程式修復測試 SWE-Bench Verified 中，表現已與頂級模型幾乎持平，代表其在真實工程場景中的實用性大幅提高。

Agent 能力方面提升更為明顯。在長鏈任務測試中，成功率接近翻倍，顯示模型在處理多步驟、複雜流程任務時更穩定。同時，在搜尋型 Agent 評測中排名第一，代表其在資訊檢索與任務執行整合方面具有優勢。
此外，Google 也推出專門優化 Agent 使用場景的 custom tools 端點，支援結合 Bash 指令與自訂函式的混合操作。

並非所有評測全面領先

雖然 Gemini 3.1 Pro 在多項推理與綜合能力測試中表現突出，但並未在所有維度全面領先。
例如在 LM Arena 的使用者投票排名中，部分競品模型在文本品質與程式能力上仍維持優勢；而在專家級任務測試中，也有模型取得更高分。這反映目前 AI 發展仍屬多強競爭格局，不同模型在不同任務領域各有強項。

開發者重要更新與 API 改進

在開發者體驗方面，本次版本帶來多項實用更新。
檔案上傳限制由 20MB 提升至 100MB，使大型資料分析更加方便；同時新增可直接輸入 YouTube URL 進行影片分析的功能，強化多模態應用場景。

另外新增「medium thinking level」選項，讓開發者可以在推理深度與成本之間進行彈性調整，更適合實務部署。
需要注意的是，本次也包含破壞性變更，原本的 total_reasoning_tokens 欄位已更名為 total_thought_tokens，開發時需同步調整。

超大上下文與原生多模態能力

Gemini 3.1 Pro 支援最高 100 萬 token 的輸入上下文與 6.4 萬 token 的輸出長度，適合處理大型文件、程式碼庫與長內容分析。
模型同時具備原生多模態能力，可直接理解文字、圖片、音訊、影片以及程式碼資料，強化跨媒體應用的整合能力。

定價維持不變，性價比提升

在價格方面，Gemini 3.1 Pro 延續與 Gemini 3 Pro 相同的定價策略。
200k token 以內的輸入與輸出價格維持原標準，超過後則採用較高階梯費率。
在能力顯著提升但價格未調整的情況下，整體性價比被認為明顯提高，特別適合需要高推理能力與大型上下文的應用場景。

使用方式與開放管道

一般用戶可透過 Gemini App 與 NotebookLM 使用該模型，但需訂閱 Google AI Pro 或 Ultra 方案。
開發者則可透過 AI Studio、Gemini API、Gemini CLI、Vertex AI、Android Studio 與 Google Antigravity 等平台接入，模型識別名稱為「gemini-3.1-pro-preview」。