
Google 近日宣布 Gemini 2.5 Flash Image 模型正式進入產品階段,並新增了對多種長寬比 (aspect ratios) 的支援。這代表開發者與創作者不僅能生成更高品質的圖片,也能更靈活地應用於不同場景,如電影級畫面、社群媒體貼文或行動裝置內容。
多種長寬比支援
在此次更新中,Gemini 2.5 Flash Image 提供了 10 種常見長寬比,涵蓋橫向、直向、正方形與靈活比例,方便對應各式創作需求:
-
橫向 (Landscape):21:9、16:9、4:3、3:2
-
正方形:1:1
-
直向 (Portrait):9:16、3:4、2:3
-
靈活 (Flexible):5:4、4:5
這讓使用者可以更精準地生成符合需求的影像,例如 16:9 的影片截圖、1:1 的 Instagram 帖文、或 9:16 的短影片畫面。
模型功能亮點
除了長寬比支援,Gemini 2.5 Flash Image 在影像生成與編輯能力上也有多項進化:
-
圖像融合 (Image Blending)
可將多張圖片結合,創造出更具創意的混合效果。 -
角色一致性 (Consistent Characters)
在多張圖像中維持同一角色的特徵,適合用於故事創作或遊戲角色生成。 -
自然語言編輯 (Targeted Edits)
使用自然語言指令即可針對影像做特定修改,更直觀也更精準。 -
世界知識整合 (World Knowledge)
融合 Gemini 模型的語義理解與世界知識,讓圖像生成更貼近真實與需求。
實際應用案例
-
Cartwheel:結合 Gemini 與 3D 姿勢控制工具(Pose Mode),提升角色角度與構圖的靈活性。
-
Volley:在遊戲中即時生成與修改角色肖像或場景,並將延遲控制在 10 秒內,提升互動體驗。
-
教育與行銷:在 Kaggle、Cerebral Valley 等社群中,開發者已經利用此模型創建 STEM 教材、行銷設計與 AR 內容。
如何開始使用
開發者可透過以下平台體驗並部署 Gemini 2.5 Flash Image:
-
Gemini API
-
Google AI Studio(內建 Build Mode,可快速從 Prompt 開始製作與 Remix)
-
Vertex AI
文章也提供了 Python 範例程式碼,示範如何呼叫 API 並設定長寬比,如 16:9 的影像輸出。
定價資訊
-
每張圖片:0.039 美元
-
文字輸出:每百萬 Token 收費 30 美元
對於需要大量影像生成的應用,例如行銷、自媒體、遊戲或教育平台,建議事先評估成本與應用場景。
未來展望
Gemini 2.5 Flash Image 的生產化與多樣化功能,代表 Google 在生成式 AI 圖像領域邁出重要一步。它在控制力、創作自由度、延遲表現之間取得平衡,讓開發者能更有效地整合進真實產品與互動應用中。
然而,隨著生成影像的應用日益廣泛,相關的版權、倫理與內容安全 仍是不可忽視的挑戰。如何在技術創新與合規安全之間取得平衡,將會是未來持續觀察的重點。
原文來源:
Gemini 2.5 Flash Image now ready for production with new aspect ratios