
Nano-Banana Pro 代表了較上一代模型的一大躍進,從「趣味」的圖像生成轉向「功能性」的專業素材製作。它在文字渲染、角色一致性、視覺合成、世界知識(搜尋)和高解析度(4K)輸出方面表現卓越。
繼開發者指南介紹如何上手 AI Studio 和 API 之後,本指南將涵蓋核心功能以及如何有效地編寫提示詞(Prompt)。
作者:Guillaume Vernade,Google DeepMind Gemini 開發者推廣大使
本文內容包含: 0. 提示詞的黃金法則
-
文字渲染、資訊圖表與視覺合成
-
角色一致性與病毒式縮圖
-
結合 Google 搜尋的實據生成 (Grounding)
-
進階編輯、修復與上色
-
維度轉換 (2D ↔ 3D)
-
高解析度與材質
-
思考與推理
-
單次生成分鏡腳本與概念藝術
-
結構控制與版面引導
-
下一步?
第 0 章:提示詞的黃金法則
Nano-Banana Pro 是一個「會思考」的模型。它不只是匹配關鍵字;它理解意圖、物理規律和構圖。為了獲得最佳結果,請停止使用「標籤堆砌」(例如:狗、公園、4k、逼真),開始像個創意總監一樣行事。
1. 修改,不要重新生成 (Edit, Don't Re-roll) 該模型非常擅長理解對話式的修改。如果一張圖片有 80% 是正確的,不要從頭生成一張新的。相反地,只需要求你需要修改的具體部分。
-
範例:「這很棒,但把光線改成日落,並把文字變成霓虹藍。」
2. 使用自然語言與完整句子 像在給人類藝術家下指令一樣與模型對話。使用正確的語法和描述性形容詞。
-
壞的寫法:「酷車,霓虹,城市,夜晚,8k。」
-
好的寫法:「一個電影般的廣角鏡頭,拍攝一輛未來風格的跑車在夜晚雨中的東京街道上飛馳。霓虹燈招牌倒映在濕潤的路面和汽車的金屬底盤上。」
3. 具體且具描述性 模糊的提示詞只會產生普通的結果。定義主體、場景、光線和氛圍。
-
主體: 不要只說「一個女人」,要說「一位穿著復古香奈兒風格套裝的優雅老婦人」。
-
材質感: 描述質地。「霧面處理」、「拉絲鋼」、「柔軟的天鵝絨」、「揉皺的紙」。
4. 提供情境(「為什麼」或「給誰看」) 因為模型會「思考」,提供情境有助於它做出合乎邏輯的藝術決策。
-
範例:「為一本巴西高檔美食食譜製作一張三明治的圖片。」(模型會推斷出專業的擺盤、淺景深和完美的光線)。
1. 文字渲染、資訊圖表與視覺合成
Nano-Banana Pro 擁有 SOTA(目前最先進)的能力,可以渲染清晰、風格化的文字,並將複雜的資訊合成為視覺格式。
最佳實踐:
-
壓縮: 要求模型將密集的文字或 PDF「壓縮」成視覺輔助工具。
-
風格: 指定你想要「精緻的編輯風格」、「技術圖表」還是「手繪白板」的外觀。
-
引言: 清楚指定你想要放在引號中的文字。
提示詞範例:
財報資訊圖表(資料攝取): [輸入 Google 最新財報的 PDF]
"Generate a clean, modern infographic summarizing the key financial highlights from this earnings report. Include charts for 'Revenue Growth' and 'Net Income', and highlight the CEO's key quote in a stylized pull-quote box." (製作一張乾淨、現代的資訊圖表,總結這份財報的關鍵財務亮點。包含「營收成長」和「淨利」的圖表,並在風格化的引言框中強調執行長的關鍵語錄。)

(註:需要上傳 PDF)
復古資訊圖表:
"Make a retro, 1950s-style infographic about the history of the American diner. Include distinct sections for 'The Food,' 'The Jukebox,' and 'The Decor.' Ensure all text is legible and stylized to match the period." (製作一張關於美式餐館歷史的 1950 年代復古風格資訊圖表。包含「食物」、「點唱機」和「裝潢」等不同區塊。確保所有文字清晰易讀,並符合該時代的風格。)

技術圖表:
"Create an orthographic blueprint that describes this building in plan, elevation, and section. Label the 'North Elevation' and 'Main Entrance' clearly in technical architectural font. Format 16:9." (建立一張正投影藍圖,以平面圖、立面圖和剖面圖來描述這棟建築。用技術建築字體清楚標示「北立面」和「主要入口」。格式 16:9。)

白板摘要(教育用):
"Summarize the concept of 'Transformer Neural Network Architecture' as a hand-drawn whiteboard diagram suitable for a university lecture. Use different colored markers for the Encoder and Decoder blocks, and include legible labels for 'Self-Attention' and 'Feed Forward'." (將「Transformer 神經網路架構」的概念總結為適合大學講座的手繪白板圖。使用不同顏色的麥克筆繪製編碼器 (Encoder) 和解碼器 (Decoder) 區塊,並包含清晰的標籤如「Self-Attention」和「Feed Forward」。)

2. 角色一致性與病毒式縮圖
Nano-Banana Pro 支援最多 14 張參考圖片(其中 6 張可達高保真度)。這允許進行「身份鎖定 (Identity Locking)」——將特定人物或角色放入新場景中而不造成臉部變形。
最佳實踐:
-
身份鎖定: 明確說明:「保持人物的臉部特徵與圖片 1 完全相同。」
-
表情/動作: 在保持身份的同時,描述情緒或姿勢的變化。
-
病毒式構圖: 在單次生成中結合主體、大膽的圖形和文字。
提示詞範例:
「病毒式縮圖」(身份 + 文字 + 圖形):
"Design a viral video thumbnail using the person from Image 1. Face Consistency: Keep the person's facial features exactly the same as Image 1, but change their expression to look excited and surprised. Action: Pose the person on the left side, pointing their finger towards the right side of the frame. Subject: On the right side, place a high-quality image of a delicious avocado toast. Graphics: Add a bold yellow arrow connecting the person's finger to the toast. Text: Overlay massive, pop-style text in the middle: '3分鐘搞定!' (Done in 3 mins!). Use a thick white outline and drop shadow. Background: A blurred, bright kitchen background. High saturation and contrast." (使用圖片 1 中的人物設計一張病毒式影片縮圖。臉部一致性:保持人物臉部特徵與圖片 1 完全相同,但將表情改為興奮和驚訝。動作:將人物放在左側,手指指向畫面右側。主體:在右側放置一張美味酪梨吐司的高品質圖片。圖形:添加一個醒目的黃色箭頭,連接人物的手指和吐司。文字:在中間疊加巨大的波普風格文字:'3分鐘搞定!'。使用粗白色邊框和陰影。背景:模糊、明亮的廚房背景。高飽和度和對比度。)

(註:需要上傳參考圖片)
「毛茸茸的朋友」場景(群體一致性): [輸入 3 張不同絨毛生物的圖片]
"Create a funny 10-part story with these 3 fluffy friends going on a tropical vacation. The story is thrilling throughout with emotional highs and lows and ends in a happy moment. Keep the attire and identity consistent for all 3 characters, but their expressions and angles should vary throughout all 10 images. Make sure to only have one of each character in each image." (用這 3 個毛茸茸的朋友去熱帶度假創造一個有趣的 10 段故事。故事全程驚險刺激,情緒起伏跌宕,最後以快樂的時刻結束。保持所有 3 個角色的服裝和身份一致,但這 10 張圖片中的表情和角度應該有所變化。確保每張圖片中每個角色只出現一次。)

(註:需要上傳參考圖片)
品牌素材生成: [輸入 1 張產品圖片]
"Create 9 stunning fashion shots as if they’re from an award-winning fashion editorial. Use this reference as the brand style but add nuance and variety to the range so they convey a professional design touch. Please generate nine images, one at a time." (創作 9 張令人驚艷的時尚照片,彷彿來自獲獎的時尚社論。使用此參考圖作為品牌風格,但在系列中增加細微差別和多樣性,以傳達專業的設計感。請一次生成一張,共九張圖片。)

(註:需要上傳參考圖片)
3. 結合 Google 搜尋的實據生成 (Grounding)
Nano-Banana Pro 利用 Google 搜尋根據即時數據、時事或事實驗證來生成圖像,減少在時效性主題上的幻覺。
最佳實踐:
-
要求視覺化動態數據(天氣、股票、新聞)。
-
模型在生成圖像之前會先「思考」(推理)搜尋結果。
提示詞範例:
事件視覺化:
"Generate an infographic of the best times to visit the U.S. National Parks in 2025 based on current travel trends." (根據目前的旅遊趨勢,製作一張 2025 年造訪美國國家公園最佳時間的資訊圖表。)

4. 進階編輯、修復與上色
該模型擅長透過對話式提示詞進行複雜的編輯。這包括「局部重繪 (In-painting)」(移除/添加物體)、「修復 (Restoration)」(修復舊照片)、「上色 (Colorization)」(漫畫/黑白照片)和「風格轉換 (Style Swapping)」。
最佳實踐:
-
語意指令: 你不需要手動遮罩;只需自然地告訴模型要改變什麼。
-
物理理解: 你可以要求複雜的變化,如「在這個玻璃杯裡裝滿液體」,以測試物理生成能力。
提示詞範例:
物體移除與局部重繪:
"Remove the tourists from the background of this photo and fill the space with logical textures (cobblestones and storefronts) that match the surrounding environment." (移除這張照片背景中的遊客,並用符合周圍環境的合理材質(鵝卵石和店面)填補空間。)

(註:需要上傳照片)
漫畫/連環畫上色: [輸入黑白漫畫格]
"Colorize this manga panel. Use a vibrant anime style palette. Ensure the lighting effects on the energy beams are glowing neon blue and the character's outfit is consistent with their official colors." (為這個漫畫格上色。使用充滿活力的動漫風格調色板。確保能量束的光效是發光的霓虹藍,且角色的服裝與其官方配色一致。)

(註:需要上傳圖片)
在地化(文字翻譯 + 文化適應): [輸入倫敦公車站廣告的圖片]
"Take this concept and localize it to a Tokyo setting, including translating the tagline into Japanese. Change the background to a bustling Shibuya street at night." (採用這個概念並將其在地化為東京場景,包括將標語翻譯成日文。將背景更改為夜晚熙攘的澀谷街道。)

(註:需要上傳圖片)
光線/季節控制: [輸入夏天的房子圖片]
"Turn this scene into winter time. Keep the house architecture exactly the same, but add snow to the roof and yard, and change the lighting to a cold, overcast afternoon." (將此場景變為冬季。保持房屋結構完全相同,但在屋頂和院子裡加雪,並將光線改為寒冷、陰天的午後。)

(註:需要上傳圖片)
5. 維度轉換 (2D ↔ 3D)
一個強大的新功能是將 2D 示意圖轉換為 3D 視覺化,反之亦然。這對於室內設計師、建築師和迷因創作者來說非常理想。
提示詞範例:
2D 平面圖轉 3D 室內設計板:
"Based on the uploaded 2D floor plan, generate a professional interior design presentation board in a single image. Layout: A collage with one large main image at the top (wide-angle perspective of the living area), and three smaller images below (Master Bedroom, Home Office, and a 3D top-down floor plan). Style: Apply a Modern Minimalist style with warm oak wood flooring and off-white walls across ALL images. Quality: Photorealistic rendering, soft natural lighting." (根據上傳的 2D 平面圖,在一張圖片中生成專業的室內設計提案板。版面:拼貼畫,頂部有一張大的主圖(起居區的廣角透視),下方有三張較小的圖片(主臥室、家庭辦公室和 3D 俯視平面圖)。風格:在所有圖片中應用現代極簡風格,搭配溫暖的橡木地板和米白色牆壁。品質:照片級真實感渲染,柔和的自然光。)

(註:需要上傳平面圖)
2D 轉 3D 迷因轉換:
"Turn the 'This is Fine' dog meme into a photorealistic 3D render. Keep the composition identical but make the dog look like a plush toy and the fire look like realistic flames." (將「This is Fine」狗狗迷因變成照片級真實的 3D 渲染圖。保持構圖完全相同,但讓狗看起來像絨毛玩具,火看起來像真實的火焰。)

6. 高解析度與材質
Nano-Banana Pro 支援原生 1K 到 4K 圖像生成。這對於詳細的材質或大尺寸列印特別有用。
最佳實踐:
-
如果你的 API/介面允許,請明確要求高解析度(2K 或 4K)。
-
描述高保真細節(瑕疵、表面紋理)。
提示詞範例:
4K 材質生成:
"Harness native high-fidelity output to craft a breathtaking, atmospheric environment of a mossy forest floor. Command complex lighting effects and delicate textures, ensuring every strand of moss and beam of light is rendered in pixel-perfect resolution suitable for a 4K wallpaper." (利用原生高保真輸出,打造一個令人屏息、充滿氛圍的長滿苔蘚的森林地面環境。控制複雜的光效和細膩的紋理,確保每一縷苔蘚和光束都以適合 4K 桌布的像素級完美解析度渲染。)

複雜邏輯(思考模式):
"Create a hyper-realistic infographic of a gourmet cheeseburger, deconstructed to show the texture of the toasted brioche bun, the seared crust of the patty, and the glistening melt of the cheese. Label each layer with its flavor profile." (製作一張超逼真的美味起司漢堡資訊圖表,將其解構以展示烤布里歐麵包的質地、肉餅煎烤的焦脆外皮以及起司融化的光澤。標註每一層的風味簡介。)

7. 思考與推理
Nano-Banana Pro 預設為「思考」流程,在渲染最終輸出之前,它會生成過渡性的思考圖像(不收費)來完善構圖。這允許進行數據分析和解決視覺問題。
提示詞範例:
解方程式:
"Solve log_{x^2+1}(x^4-1)=2 in C on a white board. Show the steps clearly." (在白板上解方程式 log_{x^2+1}(x^4-1)=2 (在複數域 C 中)。清楚顯示步驟。)

視覺推理:
"Analyze this image of a room and generate a 'before' image that shows what the room might have looked like during construction, showing the framing and unfinished drywall." (分析這張房間的圖片,並生成一張「施工前」的圖片,顯示該房間在施工期間可能看起來的樣子,展示框架和未完成的石膏板。)

(註:需要上傳圖片)
8. 單次生成分鏡腳本與概念藝術
你可以在沒有網格的情況下生成連續藝術或分鏡腳本,確保在單次對話中保持連貫的敘事流暢度。這在「電影概念藝術」(例如:即將上映電影的假流出圖)中也很受歡迎。
提示詞範例:
"Create an addictively intriguing 9-part story with 9 images featuring a woman and man in an award-winning luxury luggage commercial. The story should have emotional highs and lows, ending on an elegant shot of the woman with the logo. The identity of the woman and man and their attire must stay consistent throughout but they can and should be seen from different angles and distances. Please generate images one at a time. Make sure every image is in a 16:9 landscape format." (創作一個令人著迷的 9 段故事,包含 9 張圖片,以一男一女為主角拍攝獲獎的豪華行李箱廣告。故事應該有情緒的起伏,並以女子與商標的優雅鏡頭作結。男女主角的身份和服裝必須全程保持一致,但可以且應該從不同的角度和距離展示。請一次生成一張圖片。確保每張圖片都是 16:9 的橫向格式。)

9. 結構控制與版面引導
輸入圖片不限於角色參考或要編輯的主體。你可以使用它們來嚴格控制最終輸出的構圖和版面。對於需要將餐巾紙草圖、線框圖或特定網格佈局轉化為精美素材的設計師來說,這是一個顛覆性的功能。
最佳實踐:
-
草稿與素描: 上傳手繪草圖,以確切定義文字和物體應放置的位置。
-
線框圖 (Wireframes): 使用現有版面或線框圖的截圖來生成高保真的 UI 模型。
-
網格: 使用網格圖像強制模型為方塊遊戲或 LED 顯示器生成素材。
提示詞範例:
草圖轉最終廣告:
"Create a ad for a [product] following this sketch." (依照這張草圖為 [產品] 製作一個廣告。)

(註:需要上傳草圖)
從線框圖生成 UI 模型:
"Create a mock-up for a [product] following these guidelines." (依照這些準則為 [產品] 建立一個模型。)

(註:需要上傳線框圖)
像素藝術與 LED 顯示器:
"Generate a pixel art sprite of a unicorn that fits perfectly into this 64x64 grid image. Use high contrast colors." (Tip: Developers can then programmatically extract the center color of each cell to drive a connected 64x64 LED matrix display). (生成一個獨角獸的像素藝術精靈圖 (Sprite),使其完美適應這張 64x64 的網格圖像。使用高對比度顏色。)(提示:開發者隨後可以透過程式提取每個單元格的中心顏色,以驅動連接的 64x64 LED 矩陣顯示器。)

(註:需要上傳網格圖像)
精靈圖 (Sprites):
"Sprite sheet of a woman doing a backflip on a drone, 3x3 grid, sequence, frame by frame animation, square aspect ratio. Follow the structure of the attached reference image exactly.." (一個女人在無人機上後空翻的精靈圖表 (Sprite sheet),3x3 網格,連續動作,逐幀動畫,正方形比例。請完全依照附檔參考圖片的結構。) (提示:你可以隨後提取每個單元格並製作成 gif)

10. 下一步?
現在你已經掌握了提示詞的基礎知識,以下是你開始構建的方法:
-
在 UI 中實驗: Google AI Studio 是測試提示詞和參數最快的方式。
-
查看應用程式庫 (App Gallery) 中真正酷炫的 Nano-banana 驅動應用程式。
-
Vibe-code 你的夢想應用程式: 將你最好的提示詞轉化為一個應用程式,並透過 AI Studio Build 輕鬆與朋友分享。
-
構建應用程式: 準備好寫程式了嗎?查看開發者指南或 Gemini API 食譜 (Cookbook) 以獲取指南和程式碼片段。
-
技術深入研究: 閱讀完整的 Gemini API 文件,了解有關速率限制、定價和整合的詳細資訊。
原文連結:The Complete Guide to Nano Banana Pro: 10 Tips for Professional Asset Production