
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
機器之心報道
編輯:楊文
神秘AI模型納米香蕉火了 , 冒出了一批假網站 , 李鬼和李逵傻傻分不清 。
近日 , AI社區又冒出了一個神秘的圖像生成和編輯模型 , 名叫納米香蕉 。
它在 LMArena 平臺的“Battle”模式中被發現 , 但未在公開排行榜上列出 , 也沒有官方開發者明確聲明其所有權 。
很多網友都追蹤著蛛絲馬跡 , 猜測這可能是谷歌的研究模型 。
周二 , 谷歌 AI Studio 產品負責人 Logan Kilpatrick 在 X 上發布了一個香蕉表情符號 。
谷歌 DeepMind 產品經理 Naina Raisinghani 也發布了一張與意大利藝術家 Maurizio Cattelan 2019 年創作的膠帶粘貼香蕉藝術作品類似的圖片 。
再加上谷歌過去曾將其較小的模型稱為“Nano” , 以及其生成的圖像與Google的Imagen或Gemini系列相似 。
以上種種 , 似乎都在暗示它出自谷歌之手 。
該模型不僅在文本編輯、風格融合和場景理解等方面表現更優 , 還可以上傳兩張圖片、輸入提示詞將其中的元素融合 。
例如 , 上傳一摞書和臥室床頭柜的圖片 , 輸入提示詞“將一摞書翻到直立并放在兩個書擋之間的桌子上 。 ”
它能準確理解復雜的文本提示 , 將橫放的三本書立起來 , 并加上書擋貨架到柜子上 。
上傳一張模特照再加上一張套裝帽子圖 , 輸入提示詞:“把棒球帽戴在女人身上 。 ”
棒球帽上有復雜的文字和圖案 , 納米香蕉編輯后的圖片保留了帽子上的所有細節 , 同時光線、視角和構圖也能保持一致 。
在產品照片、場景搭建圖、廣告等商業場景下 , Nano-Banana的表現也穩定得不錯 。
當然 , 它也不是完美無缺的 , 在某些情況下 , Nano-Banana生成的圖像可能會出現機器人、提示邏輯或瞄準位置不一致等視覺問題 , 人物的手指也偶爾會出現變形的情況 。
如果細看上生成的書籍 , 就能發現其中的瑕疵:書名出現了「鬼畫符」 。
由于尚無官方API或正式的官網鏈接 , 我們只能通過LMArena隨機體驗該模型 。
很快 , 每次都得靠運氣才能遇到 Nano Banana , 體驗很驚喜 。
更搞笑的是 , 網上出現了多個假網站 , 聲稱提供 Nano Banana 服務 , 讓網友李鬼和李逵傻傻分不清 。
納米香蕉一手評測
我們也來了一個手測評 。
lmarena官網 , 選擇戰斗模式 , 可以直接輸入提示詞進行文生圖 , 也可以上傳圖片、輸入提示詞再進行AI編輯 。
官網鏈接:https://lmarena.ai/
頁面會出現兩個匿名模型同時生成圖片 , 只有當我們選出生成質量最好的一張圖片時 , 平臺才會亮出對戰雙方的身份 。
先來試試文生圖效果 。
我們輸入同樣的提示詞:以寶麗來照片拍攝風格呈現一幅肖像風格圖像 。 照片中 , 一位化妝師留著長長的卷發 , 身著寬松的服裝 。 她面容精致 , 散發著隨意的氣息 , 對著鏡頭比出和平手勢 , 營造出一種極致自由的氛圍 。 圖像略帶顆粒感 , 色彩鮮艷迷人 , 1:1比例 。
第一幅是 Nano Banana 的「作品」 , 第二幅是 ChatGPT 生成的效果 。 先前生成的圖片背景有雜亂的眼影盤、指甲油等 , 更符合提示詞中的「化妝師」身份 , 而且人物的動作、服裝更自然 , 手部也沒有細節明顯的瑕疵;而背部背景同樣單一 , 大拇指也有些虛化 。
再來試試它的圖片編輯功能 。
上傳一張舊金山阿拉莫廣場的野餐照片 , 輸入提示詞:在公園里添加一些人形機器人 , 使它們與環境融為一體 。
乍一看我們還以為納米香蕉「跳舞」了 , 直到在畫面右側找到了一個正在行走的類人機器人 , 它完全適應了環境 , 毫無違和感 。
我們上傳一張人物攝影照片 , 讓 Nano Banana 進行逆向工程繪畫其創作過程 。
提示詞:展示之前設置的場景 , 模特坐著滾動她的手機 , 模特身后有一個女人在整理她的頭發 , 一個男人站在梯子上 , 在背景中掛上窗簾 , 露出后面的工作室 。
有網友用Nano Banana讓碧梨和邁克爾·杰克遜跨時空自拍:
我們也嘗試了下 。 上傳馬斯克和奧特曼的照片 , 輸入提示詞:兩個人正在開心地自拍 。
Nano Banana確實生成了一張自拍照 , 馬斯克的形象、動作也幾乎找不出什么問題 , 只是奧特曼大變樣 。
為了不「冤枉」它 , 我們又給了它一次機會 , 納米香蕉還是翻車 。
入口繼續升級 。 上傳小扎、面具肖像照和一張風景照 , 讓 Nano Banana 把兩個人自然地放在圖三中 。
Gemini 2.0 flash生成的效果完全認不出這兩個大佬 , 而Nano Banana將二人完美巴基斯坦圖三環境中 , 不過手指等細節方面還是有瑕疵 。
進階玩法
如果把 Nano-Banana 和谷歌的 Veo3 結合在一起 , 會碰撞出怎樣的火花?
@a16z 合伙人 Justine Moore 就搞了一個新工作流 , 用于制作簡短的視頻 。
該視頻下方是一個游戲或電影中的潛行任務場景 , 角色從昏暗的博物館中盜取了一幅名畫 , 引發了激光警報 。
她還放出了制作教程 。 取出第一個視頻片段的最后一幀 , 然后將幀上傳到 lmarena 上的 Nano Banana , 提示生成下一個場景 , 例如「角色轉向走廊」 , 然后將新生成的幀用 Veo 3 進行動畫制作 。
X網友@ZHO_ZHO_ZHO則發現了Nano-Banana另一種好玩的玩法——把插畫變成手辦 。
上傳一張圖片 , 輸入提示詞:將這張照片轉換成人物模型 。 在它后面放置一個印有人物圖像的盒子 , 以及一臺顯示 Blender 建模過程的電腦 。 在盒子前面 , 放置一個圓形塑料底座 , 人物模型站在上面 。 盡量使用透明的 PVC 材質 , 并盡可能將場景設置在室內 。
根據該博主評測 , Nano-Banana生成的圖幾乎沒有AI味道 , 五官和細節都保留得很好 , 真實感 。
然后再用Veo3將其制作為8秒視頻 。提示詞:用雙手拿起圖形并從各個角度展示 。
底下評論區踴躍網友也按照上述工作流程整活 。 比如哪吒道德抱拳的:
【谷歌搞了一個神秘模型Nano-Banana?實測:強到離譜,但有3大硬傷】
還有哆啦A夢的 , 正面看哆啦A夢的尾巴挺正常 , 但轉個身就大變樣:
我們也復刻了下 , 上傳一張Q版插畫圖片 , 輸入以上提示詞 。
效果如下:
最后打開Gemini 2.5 Pro , 選擇視頻 , 上傳生成的圖片 , 輸入提示詞 , 靜待1分鐘左右 , 就能獲得一段8秒視頻 。
上周末 , 谷歌Veo 3對所有Gemini用戶免費開放 , 供其體驗AI視頻生成功能 。
這個免費體驗活動僅持續到太平洋時間8月24日晚上10點(北京時間8月25日上午1點) 。 在此期間 , 免費用戶每天最多生成3個8秒的視頻片段 , 每個視頻都包含自動生成的音頻 。
通常 , Veo 3 的視頻生成功能僅對 Google AI Pro 或 Ultra 訂閱用戶開放 。 Pro 用戶每天可生成 3 個視頻 , 而 Ultra 用戶的損耗為 10 個視頻 。
感興趣的朋友也去體驗一波吧 。
https://x.com/ginacostag_/status/1959234207127134340
https://x.com/venturetwins/status/1957155767888548160
https://x.com/techhalla/status/1959186906115354692
https://x.com/ZHO_ZHO_ZHO/status/1958550998815023573
文中視頻鏈接:https://mp.weixin.qq.com/s/ClnR2h_YGXtWNrpJ3TOilA
推薦閱讀
- 谷歌讓AI學會看天氣:一個模型同時掌握看云、測風、觀雨的技能
- 谷歌大腦之父首次坦白,茶水間閑聊引爆萬億帝國,AI自我突破觸及門檻
- 谷歌Gemini一次提示能耗≈看9秒電視,專家:別太信,有誤導性
- 蘋果AI華人總監跳槽Meta,核心團隊再-1,庫克被迫求助谷歌
- 李楠點評谷歌Pixel 10:這才是真正的AI手機 友商都是噱頭
- iPhone 17 Pro之后蘋果手機再無高通基帶:一個時代終結
- 你有沒有試過,自己去申請一個emoji?
- 數字螞力周蕓:客服是電商下一個增長入口
- 谷歌的一個小調整,揭開了手機快充的真面目
- 谷歌Pixel 10系列發布,搶先蘋果發3nm N3P工藝
