挑戰谷歌!硅谷150人創企發新模型,性能比肩香蕉、價格便宜三成!

挑戰谷歌!硅谷150人創企發新模型,性能比肩香蕉、價格便宜三成!

文章圖片

挑戰谷歌!硅谷150人創企發新模型,性能比肩香蕉、價格便宜三成!

文章圖片

【挑戰谷歌!硅谷150人創企發新模型,性能比肩香蕉、價格便宜三成!】挑戰谷歌!硅谷150人創企發新模型,性能比肩香蕉、價格便宜三成!

文章圖片

挑戰谷歌!硅谷150人創企發新模型,性能比肩香蕉、價格便宜三成!

文章圖片

挑戰谷歌!硅谷150人創企發新模型,性能比肩香蕉、價格便宜三成!

智東西
編譯 | 楊京麗
編輯 | 李水青
智東西3月24日消息 , 3月23日 , 硅谷初創公司Luma AI正式推出全新圖像模型Uni-1 。 該模型將圖像理解與圖像生成統一起來 , 因而既能思考又能創作 。 Uni-1基準測試與Google的Gemini 3 Pro持平 , 并且在高分辨率圖像生成任務中成本降低了約10%到30% , 空間理解能力測試得分甚至超過谷歌Nano Banana 2和OpenAI GPT Image 1.5 。
Luma AI官宣圖片模型Uni-1(圖源:X)
創立于2021年的Luma AI此前以視頻生成工具Dream Machine聞名 。 此次Uni-1的發布標志著其從單一視頻生成向“統一智能”方向轉型 。 該模型最早于3月5日隨Luma Agents創意平臺一同亮相 , 3月22日的公開發布則面向更廣泛的開發者和用戶 。
值得注意的是 , Uni-1大膽地在底層架構上做了一次“換道” , 拋棄了當前主流的擴散模型(Diffusion)路線 , 轉而采用自回歸生成架構 , 即大語言模型所使用的“逐token預測”方法 。 這意味著 , Uni-1在生成圖像時能夠像語言模型一樣進行推理 , 而非僅僅“降噪出圖” 。 一家150人的舊金山初創公司 , 正在試圖重新定義AI圖像生成的技術范式 。
智東西也親身體驗了一下 。 我讓它“生成一張宿命感照片 , 一個長發飄飄的女子身穿戰國袍 , 配了把劍” , 輸入提示詞后 , 他會先花幾秒鐘分析我的需求 , 然后再進行創作 。 創作花了差不多5分鐘終于完成了 , 生成的畫面很有電影感 , 頭發、衣擺隨風自然飄動 , 服飾很有質感 。 整體語義理解精準、細節豐富 , 但是仔細看可以發現劍出現了兩把 , 貌似有點小問題 。
Uni-1生成的圖片(圖源:Lumalabs)
體驗鏈接在這里 , 大家也可以去試試 。https://app.lumalabs.ai/

一、告別擴散模型 , Uni-1用“語言模型的方式”畫圖要理解Uni-1的意義 , 需要先理解它替代了什么 。 目前AI圖像生成領域的主流方案是擴散模型 , 即從隨機噪聲出發 , 在文本嵌入的引導下逐步去噪 , 最終生成一張圖像 。 Midjourney、Stable Diffusion、谷歌Imagen 3等知名模型均基于這一范式 。 擴散模型的視覺效果不錯 , 但有一個根本性缺陷:它不具備真正的“推理”能力 , 無法在生成過程中思考空間關系、物理合理性或邏輯約束 。
業界此前的應對方式是“打補丁” 。 比如 , DALL-E 3用GPT-4先改寫用戶提示詞 , 再交給生成模型;谷歌Imagen 3則依賴Gemini做前置推理 。 這些方案本質上引入了一道“翻譯層” , 用來消除創作中的理解偏差 。
X上網友對于Uni-1的評價(圖源:X)
Uni-1則選擇了一種完全不同的方式 。 據Luma AI的技術文檔 , Uni-1采用純解碼器(decoder-only)自回歸Transformer架構 , 即文本和圖像token在同一序列中交錯排列 , 共享傳播通道 , 不依賴獨立的視覺編碼器 。 Luma AI稱 , Uni-1能在圖像合成前和合成中進行結構化內部推理 , 包括分解指令、解決約束和規劃構圖 。
在實際操作中 , 模型可將多張寵物照片中的動物合成到一個全新場景中 , 穿上學術禮服、站在寫滿科學圖表的白板前 , 保留每只動物的獨特特征 。 以往這些任務通常需要大量手動調整或后期處理 。
Uni-1技術文檔中示例圖片(圖源:Lumalabs)

二、關鍵跑分:推理能力拉開差距 , 邏輯推理得分翻倍基于推理的視覺編輯的基準測試工具RISEBench從時間、因果、空間和邏輯四大維度對圖像生成AI進行了跑分 , Uni-1綜合分0.51 , 谷歌Nano Banana 2得分0.50 , Nano Banana Pro是0.49 , OpenAI GPT Image 1.5是0.46 。 總分看著咬得很緊 , 我們可以聚焦不同維度來比一比:
空間推理:Uni-1得分0.58 , Nano Banana 2僅0.47; 邏輯推理:Uni-1得分0.32 , 略次于Nano Banana 2(0.38) , 是GPT Image 1.5(0.15)和Qwen-Image-2(0.17)的兩倍以上 。 五款圖片生成模型RISEBench跑分對比(圖源:Lumalabs)
在ODinW-13物體檢測基準測試中 , Uni-1完整版得分46.2 mAP , 幾乎追平谷歌Gemini 3 Pro的46.3 , 大幅領先Qwen3-VL-Thinking的43.2 。 值得注意的是 , Uni-1僅具備理解能力(未經生成訓練)的變體得分為43.9 , 而完整版提升了2.3分 。 這直接證明了一個關鍵假設:學會生成圖像 , 能反過來提升模型的圖像理解能力 。
物體檢測基準測試Uni-1幾乎追平谷歌Gemini 3 Pro(圖源:Lumalabs)
在與Midjourney v8的對比中 , 科技媒體The Decoder的測試認為Uni-1在復雜推理類生成任務上“明顯優于Midjourney v8” 。 有Reddit用戶在逐一對比后評價:“在真正的邏輯推理、復雜場景理解、空間合理性這些方面 , Uni-1完全碾壓 。 ”不過 , Midjourney在藝術風格化和審美質感方面仍保有優勢 。

三、定價策略:高分辨率比谷歌便宜 , 瞄準企業客戶根據公開定價數據 , Uni-1在企業常用的2K分辨率上具有明顯的價格優勢:
谷歌Nano Banana 2在低分辨率上仍有價格優勢 , 0.5K圖像約0.045美元/張(約合人民幣0.31元) , 1K圖像約0.067美元/張(約合人民幣0.46元) 。 對于大規模生產高分辨率圖像的企業團隊而言 , Uni-1在質量和成本兩端同時占優 。 Luma AI在輸出端的token定價為每百萬token 45.45美元(約合人民幣322元) 。
面向個人用戶 , 定價則分為包年、包月和單次計價三種模式 。 作為一家初創公司 , Luma AI無法在分發渠道和基礎設施上與谷歌抗衡 , “性能更強、價格更低”是它能打動客戶的核心籌碼 。
Uni-1定價(圖源:Uni-1官網)

四、社區反?。 捍印疤崾敬逝鱸似鋇健罷嬲拇醋骺刂啤?Uni-1發布后 , 盡管大規模獨立測試仍在進行中 , 早期社區反應積極 。
X平臺用戶反饋良好 , 網友直言 , 圖像生成終于不用費勁想提示詞了 。 Reddit上一位進行了逐項對比測試的用戶給出了更細致的評價:Nano Banana 2在速度和文字渲染上仍有優勢 , 但在“真正的邏輯推理、復雜場景理解和需要深度思考的編輯任務”上 , Uni-1略勝一籌 。 該用戶總結道:“如果你在意的是圖像真正‘合理’ , 而不只是‘好看又快’ , Uni-1是目前的最佳選擇 。 ”
X上網友對于Uni-1的評價(圖源:X)
不過 , 也有用戶持觀望態度 。 部分用戶表示仍在等待完整API權限以進行獨立測試 , 對非拉丁文字的處理效果、極端邊緣場景以及最高分辨率下的生成速度仍有疑問 。 客觀地說 , 社區的興奮更多針對“新技術路線的突破感” , 長期表現仍需時間驗證 。
目前Uni-1可在lumalabs.ai免費體驗 , API訪問正在逐步開放 。

結語:Luma真的能后來居上嗎?從Uni-1的發布可以預測到 , AI圖像生成的競爭正在從“誰的圖更好看”轉向“誰的模型更能理解指令” 。 擴散模型統治這一領域已有三年之久 , 而自回歸架構以大語言模型式的推理能力切入 , 第一次在核心基準測試上證明了這條路線的可行性 , 也可能影響未來更多實驗室的技術路線選擇 。
真正的考驗在于 , Uni-1能否在API大規模調用、多語言支持和生成速度上經受住企業級場景的檢驗 。 這場“架構之爭”才剛剛進入正賽 。 你認為自回歸路線能在圖像生成領域站穩腳跟嗎?
來源:VentureBeat、Lumalabs、X、The Decoder

    推薦閱讀