谷歌新推出的 Nano Banana 模型,可以透過 AI 編輯和生成圖像,令人印象深刻

  • Nano Banana 是 Google 新視覺模型 Gemini 2.5 Flash Image 的代號。
  • 允許對話編輯、角色一致性以及增強臉部和手部的照片真實感。
  • 可在適用於 iOS、Android 和網路的 Gemini 上使用;免費,但有使用限制和開發人員 API 存取權限。
  • 使用 SynthID 和過濾器來加強安全性,阻止敏感內容和真實或名人的編輯。

使用 AI Nano Banana 進行影像編輯

最近幾天, 奈米香蕉 他悄悄地出現在各種AI模型的討論和對比測試中,引起了科技界半數人的注意。在這個綽號背後,傳聞終於得到證實:他是GoogleGemini 2.5 Flash Image的代言人,這是Google提出的一項利用文字編輯和生成圖像的方案。

該提案不僅僅是從頭開始創建圖像:它的重點是 精確編輯 在多次修改中保持風格、人物和物件的一致性。所有這些都由自然語言指令引導,無需掌握複雜的後製工具。

什麼是奈米香蕉?為什麼它現在會出現?

在早期階段,該模型出現在以下排名中: LM競技場 以「奈米香蕉」的別名,憑藉其搜尋結果的品質不斷攀升。谷歌給它取了個名字:我們說的是 Gemini 2.5 Flash 影像,Gemini 生態系中集中視覺部分的關鍵組件。

人們的興趣不僅來自於整體表現,也來自於 解釋上下文 圖像:它了解場景中的內容並在不同版本之間應用一致的更改,這是其他系統在連續請求多次修改時一直難以解決的問題。

對話式編輯:從提示到圖像對話

好消息是,編輯不再是一個反覆試驗的過程,而變成了 迭代對話用戶不需要重新開始每個想法,而是可以詢問“讓天空更具戲劇性”、“在長凳上添加一隻狗”或“將汽車的顏色改為紅色”,並不斷進行調整而不會失去思路。

此外,Nano Banana 還可以 選擇特定區域 從照片中應用局部變更:移除物件、替換背景或合併新元素,同時尊重燈光、陰影和透視,具有比前幾代更自然的視覺融合。

提高視覺一致性和照片真實感

發電機的一個常見抱怨是缺乏 相同的字符 在連續的版本中保持相同的角色、產品或風格。在此,模型會專注於關鍵的比例、特徵和細節,以便主角在每個版本中都能被辨識。

谷歌聲稱特別關注 臉和手,傳統上有問題的區域。在逼真的肖像和場景中,光線、紋理和結構方面的飛躍顯而易見,偽影和失真也更少。

除了糾正之外, 進階作文:將多張照片中的元素組合到一個新的數位生成環境中,或者在不破壞場景的情況下將樣式和圖案從一張圖像轉移到另一張圖像(例如,將翅膀圖案轉移到連身裙上)。

在哪裡使用 Nano Banana 以及如何開始使用(行動、網路等)

該模型可在 雙子座應用程式 en iOS y Android除了網頁版之外(雖然我不太適用)。你無需啟動任何特殊功能:只需上傳圖片並描述更改即可。它適用於人像、寵物、風景以及幾乎所有日常場景。

在實踐中,只需寫一些簡單的說明即可:「把這個 加托 在海灘的沙灘上」、「從背景中移除所有人」或「將背景更改為馬丘比丘」。系統會保留需要保留的內容,僅修改請求的內容,谷歌內部將其速度描述為「閃電般快」。

對於使用 iPhone 的使用者來說,體驗很簡單:開啟 Gemini,選擇 編輯圖像 並上傳照片。 Android 和 Web 端也遵循同樣的邏輯,跨平台結果一致。

增加價值的工具和流程

除了透過自然語言指令進行的基本調整(顏色、黑白、對比)外,Nano Banana 還允許 多班次版本 以鏈條的方式:粉刷牆壁、添加家具並繼續改變環境元素,而無需重新開始。

另一個有用的功能是 特質保存 外觀變化:修改髮色或衣服,同時保持臉部特徵和照片其餘部分的穩定,避免典型的背景或燈光不平衡。

與 Gemini 應用程式整合增加了一個實用點:你可以 混合影像 將內容從一個插入到另一個,轉換風格或以更大的創造性控制創作新場景。

安全、浮水印和使用過濾器

超現實主義編輯的興起需要加強壁壘。谷歌整合了 合成ID,一種嵌入在影像中的難以察覺的數位水印,即使在修改後也可以驗證其來源。

同時,系統適用 安全過濾器 封鎖暴力或露骨色情內容,並限制編輯真人和名人的圖片。在適當的情況下,Google 會提供額外的警告或訊號,以防止濫用並方便追溯。

Nano Banana 的可用性、開發人員存取權限和成本

對於最終用戶來說,Gemini 中的編輯功能 免費提供 日常使用限制合理。無需手動選擇模型:它會在編輯流程中自動運行。

在專業環境中,它可以透過以下方式集成 API 來自 Gemini、Google AI Studio 和 Vertex AI。谷歌報告稱,開發者每百萬個代幣的成本為 30 美元,根據使用情況,這個基準可以轉化為每張處理圖像大約幾美分的成本。

競爭和市場地位

此次發布是在以下背景下進行的: OpenAI、Midjourney 和 Adob​​e 他們在視覺生成和編輯方面領先。 Nano Banana 致力於透過一致性、速度和對話式編輯的組合來縮小差距,其在 LM Arena 中的表現使其 早期可見性.

關鍵在於它在高要求的任務中如何發展,以及它是否保持 大規模一致性 當更多的用戶和第三方應用程式透過現實案例給系統帶來壓力時。

充分利用它的快速提示

使用自然語言和具體表達會有所幫助:「在原始​​照片中, 將背景變成日落 並保持主題不變。 」指出應該保留的內容可以減少意外並提高編輯鏈的一致性。

對於複雜的變更,最好將其分為幾個步驟: 首先是背景,然後是燈光,最後是精細的顏色或紋理調整。這可以更好地控制結果並最大限度地減少偽影。

如今,Nano Banana 專注於單一流程的生成, 迭代編輯 其風格和特性保持一致,並具備主動安全控制,可在 Gemini 應用和網頁端廣泛使用。對於使用者和創意團隊而言,速度、情境理解和 API 存取的結合,讓日常和專業應用輕鬆便捷。