文 | 刺猬公社,作者|朗寧,編輯|陳梅希
八月中旬,一個低調的匿名模型悄然登陸海外 AI 測評平臺 LMArena,沒有開發者標簽,也沒有品牌背書,只有一個奇怪的代號 "Nano Banana"。
雖然看起來老實巴交的,但 Nano Banana 卻在平臺的 Battle 模式中,展現出驚人的圖像一致性和自然語言編輯能力,輕松擊敗了眾多知名對手。網友們被其一騎絕塵的硬實力折服,自發為它打上 " 一致性之王 " 和 "Photoshop 殺手 " 等標簽。
很快,Nano Banana 的熱度從 AI 測評平臺蔓延至 Reddit 和 Discord 的技術論壇中,人們激烈討論模型本身的同時,都試圖揭開背后開發者的神秘面紗。
正當網友眾說紛紜、如火如荼地解謎時,谷歌 AI Studio 負責人 Logon 在 X 平臺發布了一個香蕉表情符號,DeepMind 產品經理 Naina 也分享了一張香蕉藝術貼墻作品,加上谷歌以往就有將小型模型命名為 Nano 的歷史,答案變得呼之欲出。
這場匿名模型引發的全球競猜游戲,以谷歌官宣認領而告終,但顛覆性的 AI 圖像狂潮,才剛剛開始。
Nano Banana 風暴席卷互聯網
Nano Banana 正式上線一周后,谷歌實驗室總裁 Josh Woodward 在 X 平臺透露,該模型全面推出后已累計完成超2 億次圖像編輯,為 Gemini 吸引了超過 1000 萬新用戶,其火爆程度甚至導致谷歌內部"TPU 嚴重過載,SRE 警報不停 "。
洶涌而來的熱情用戶,讓 Nano Banana 幾乎刷屏了全球各大社交媒體,人們爭先恐后參與體驗、開發新玩法、分享傳播的盛景,不禁令業內人士發出 " 好像 2023 年 ChatGPT 時刻 " 的感嘆。
率先出圈的是 Nano Banana 多元素拼接的玩法,用戶可以上傳一張多元素排布圖,并給圖中每個物品打好標簽,然后在指令中下達你想要生成的圖片概述即可。
比如一位叫 Travis David 的用戶在 X 發文稱,他將 13 個元素排布在一張圖里上傳到 Nano Banana,輕松獲得了一張堪比 VOGUE 雜志的時尚大片。
多元素拼接功能在海量用戶的開發下,很快出現各類邪修玩法。
最基礎的當屬 " 實現 OOTD 自由 ",以往需要費勁心思扒明星同款穿搭的時尚博主們,如今只要把圖片上傳給 Nano Banana,模型就能秒出穿搭清單,甚至二次元動漫角色的穿搭也能被轉化為 OOTD 圖。
實測過程中,刺猬公社發現,用戶甚至可以讓 Nano Banana 按照指令生成某種風格的模特穿搭圖,再將生成的穿搭圖拆解為 OOTD,全程僅耗時三分鐘。拆解 OOTD 過程中,它犯了一個小小的錯誤,導致 " 靴子 " 單品出現兩次,提出修改指令時,它也能 " 聽懂人話 ",只刪掉多余元素,沒有改動圖片的其他部分。
這個使用場景反過來同樣驚艷,對于日常真人出鏡拍攝 OOTD 的網紅模特來說,大可以省去畫全妝、找場地、擺 pose 等一系列為了出片所做的繁瑣工作,選一張狀態好的全身照、一張面部寫真,再把穿搭單品圖片上傳,寫真級別且無需修圖的素材轉瞬即得。
除了應用于人與物之間的圖像生成,網友們還發現 Nano Banana 同樣適用于人與人關系的拼貼,這讓一眾追星黨們直呼萬歲。
無論是遙不可及的好萊塢巨星,還是叱咤風云的商界巨擎,就算是叫囂著自己是火星人的馬斯克,只要一聲令(prompt ) 下,都得千里奔赴來跟你拍一張合照。
而更進階、也是近期最出圈的玩法,就是利用 Nano Banana 自制手辦。
簡單的操作是上傳自家毛孩子、明星、二次元偶像的圖片,直接下令生成適用手辦制作的圖像,Nano Banana 就會給出建模圖,甚至連手辦成品的細節圖乃至視頻也能獲取。
雖然還沒有用戶實測做出手辦的分享,但刺猬公社發現在萬能的電商平臺上,已有商家開始承接基于 Nano Banana 生成圖像的手辦制作。經我們詢問,該商家表示 AI 生成的手辦建模圖只能作為參考,實物做出來仍有差距。
很多人看到這里也許已瞠目結舌,但 Nano Banana 的全部實力遠不止于此,比如它在地圖和建筑領域的空間推理圖像再生效果,就讓很多專業人士嘖嘖稱奇。
Nano Banana 的地圖視覺推理能力之強,可以在只上傳一張平面地圖的情況下,按照用戶打的標簽和指令,平地起高樓般生成地圖對應的實景。
相對應地,如果用戶上傳一張城市建筑實景圖,Nano Banana 又能清晰地給出圖中建筑的模型圖,或者按照用戶的要求標注圖片建筑的相關信息。
不僅如此,有網友實測這個功能同樣適用于數碼電子產品甚至智能汽車。
隨著 Nano Banana 的走紅,層出不窮的創意玩法以日為單位被開發出來,利用模型做漫畫分鏡、給線圖上色,甚至直接生成有連貫劇情的電影畫面…… .
上述一切的發生只用了短短兩周時間,其爆發速度甚至超越了當年橫空出世的 ChatGPT。
剝開 Nano Banana 的香蕉皮
剝開這款 AI 產品的香蕉皮,就會發現 Nano Banana 能夠風靡社交媒體,絕非僅是互聯網營銷的勝利,更是一場技術范式的突破。
通俗來說,Nano Banana 的技術突破可以理解為一整套針對" 理解 - 生成 - 保持一致 - 快速迭代 "閉環的工程化解決方案。
在理解上,早期的 AI 模型往往 " 偏科 " 嚴重,ChatGPT 有很強的文字讀寫能力,但不太懂圖像;而 Midjourney 和 DALL-E 3 為代表的模型,繪圖能力雖強但對文字的解讀卻很淺顯,經常把指令的需求搞錯。
原因在于這些傳統模型更像一個 " 翻譯官 ",它將用戶的指令(prompt)轉化成一個中間的、抽象的數學表示,然后圖像生成模型再根據這個數學表示來繪圖。
這種單向管道式的工作原理,一方面不可避免地會在 " 中間表示 " 環節丟失大量原始指令的細微語義;另一方面,它很難原生地處理圖像輸入,當用戶上傳一張圖片進行編輯時,模型需要先將圖片 " 反向翻譯 " 成中間表示,然后再進一步繪圖。
而 Nano Banana 則像一個生于多語言環境的人,從訓練之初就以文本、圖像、代碼等數據給模型學習,因此它不再需要將一個模態 " 翻譯 " 成另一個模態,而是天然就具有多模態語義對齊能力。正是這種在文字和圖像之間無縫絲滑的切換能力,使得用戶可以用日常對話的形式(模糊指令),無痛用嘴修圖。
Nano Banana 的技術突破遠不止于此,它在交錯式生成與一致性保持上,也對傳統模型進行了降維打擊。
顧名思義,交錯式生成指模型能夠在一個連續的、多步驟的會話中,綜合理解所有上下文的能力,包括用戶之前下達的文字指令、上傳的圖片,以及模型自己生成的歷史結果;而一致性保持則指模型在多次生成和編輯中,保持特定主題(人物、物體、風格)的核心能力,也是 AI 圖像模型長期競逐的 " 圣杯 "。
用一個例子來呈現 Nano Banana 與傳統模型的差距,假設任務是為哈利波特創作一組不同場景下的插圖。
傳統模型就像是與多位獨立的插畫師合作,每次下達任務前,你都需要用文字重新描述哈利的全部特征 " 黑頭發、綠眼睛、圓眼鏡,額頭有閃電傷疤 ",但令人抓狂的是,每個插畫師對文字的理解不盡相同,最終得到的每張圖片的哈利雖然都有上述特征,但看起來并不像同一個人。
不僅如此,獨立插畫師之間對彼此的風格并不了解,如果你想讓插畫師 B 繪制 " 哈利在圖書館復習的場景,且與插畫師 A 負責的魁地奇球場分鏡風格一致 ",這幾乎是不可能完成的任務,因為插畫師 B 既不知道魁地奇球場什么樣,也不知道插畫師 A 的風格是什么。
而 Nano Banana 則像一位與你長期合作的資深插畫師,你只需要在最開始工作時告訴他哈利的特征,然后就能與老友對話般輕松和流暢的方式,讓這位記憶力絕佳的藝術家,聽從你的調遣。
此外,Nano Banana 還有著遠超傳統模型的快速迭代能力。
任何好模型若無法快速響應用戶,都會極大降低破圈與普及的潛力。在對用戶指令的響應與快速迭代上,傳統模型就像用打字機寫作,任何一個修改都可能需要重打整頁紙,而 Nano Banana 則進化到了 word 寫作,可以隨時刪除 / 修改局部,并立刻看到整篇文章(圖像)的新面貌。
Nano Banana 能實現這一突破,不僅在于團隊將模型壓縮優化到實際產品中以秒級響應(實測約 13 秒 / 張)返還高清圖像,上述多模態語義對齊、交錯式生成和一致性保持等優勢的加持,也是 Nano Banana 對用戶指令快速響應迭代的重要原因。
顛覆、重塑與共生
從問世到席卷全球的兩周時間,Nano Banana 的沖擊波同樣撼動了資本市場與產業端的神經。
谷歌發布 Nano Banana 當日,創意軟件巨頭 Adobe 的股價就應聲下跌約 2%;比即時波動更關鍵的是長線走勢,據 Business Insider 報道,Adobe 的股價在過去一年累計下跌了 35%,主要原因之一就是極速發展的人工智能帶來的顛覆性變革。
顛覆帶來的危機感隨著網友不斷解鎖 Nano Banana 的新玩法,傳導至更多職業領域。
一位剛入行的電商服裝模特告訴刺猬公社,原本中小商家聘請模特拍攝每天成本約 1500 元 / 人,上架時間至少以周為單位,而 Nano Banana 能將這一整套流程壓縮至分鐘級," 如果 AI 生成圖像的細節繼續完善下去,未來肯定不需要這么多真人模特了 "。
還有很多電商攝影師、后期修圖師,乃至視覺設計師,也紛紛在社媒平臺發帖調侃稱眼看著被 AI 搶了飯碗,準備轉行去賣咖啡、送外賣、開滴滴。
AI 在產業端造成的轟動不僅發生在圖像賽道,就在谷歌上線 Nano Banana 的前一天,翻譯界的最高學府蒙特雷國際研究學院宣布關閉,這家曾培養了大量外交官、翻譯專家和國際 NGO 組織負責人的頂級名校,自 ChatGPT 問世以來生源大幅銳減,最終陷入財務困境。
但歷史上的技術革命告訴我們,創新從未單純地使某個行業消亡,舊生產關系被顛覆的同時,必然伴隨產業重構和新職業的誕生。
模特行業不會消亡,但將走向分化," 批量平替 " 需求勢必會被 AI 取代,但只有人類才能表現出的 " 故事性 " 與 " 情感細節 ",始終是市場的稀缺資源。
與此同時,商業攝影師、修圖師和設計師的角色也在被重塑,他們的核心價值不再局限于操控相機或軟件,而是延展到審美判斷、敘事構思和情緒引導,以及最關鍵的新能力:駕馭 AI 實現創作意圖。
而對于 Adobe 在內的工具型平臺而言,摩根士丹利分析師認為,這些應用軟件在 AI 時代的價值,在于提供 " 最后一公里 " 服務。
事實上,互聯網用戶對于圖像和文字生成的需求,無論是千人千面的多樣化程度,還是用戶基數決定的龐大且碎片化的指令數量,都決定了通用 AI 模型很難提供端到端的完美解決方案。
因此就像物流運輸公司負責中途貨運,最后一公里交由快遞站點配送一樣,Adobe 等平臺目前也開始接入第三方基礎大模型,并基于自身的數據與資源進行后期訓練,最終打造出更貼合用戶需求、更專業的 AI 落地產品。
換一種視角看,這場技術浪潮并不是一場零和游戲。Nano Banana 的出現加速了產業洗牌,但同時也在打開新的機會窗口。無論是創作者、設計師還是企業,真正的挑戰并非如何抵擋 AI,而是如何找到與之協作的路徑。
工業革命時期的機器擴展了人類的肌肉力量,如今的生成式 AI 則在延展人類的想象力和表達力。或許我們正在進入一個全新的內容創作階段,在這里,人與 AI 并非對立的兩極,而是互為補充的伙伴關系。
與 AI 共生的時代,正緩緩拉開帷幕。