挑戰谷歌！硅谷150人創企發新模型，性能比肩香蕉、價格便宜三成！

2026-04-25 芯片人工智能 ai it芯片海力士

文章圖片

文章圖片

【挑戰谷歌！硅谷150人創企發新模型，性能比肩香蕉、價格便宜三成！】

文章圖片

文章圖片

智東西
編譯 | 楊京麗
編輯 | 李水青
智東西3月24日消息， 3月23日，硅谷初創公司Luma AI正式推出全新圖像模型Uni-1 。該模型將圖像理解與圖像生成統一起來，因而既能思考又能創作。 Uni-1基準測試與Google的Gemini 3 Pro持平，并且在高分辨率圖像生成任務中成本降低了約10%到30% ，空間理解能力測試得分甚至超過谷歌Nano Banana 2和OpenAI GPT Image 1.5 。
Luma AI官宣圖片模型Uni-1（圖源：X）
創立于2021年的Luma AI此前以視頻生成工具Dream Machine聞名。此次Uni-1的發布標志著其從單一視頻生成向“統一智能”方向轉型。該模型最早于3月5日隨Luma Agents創意平臺一同亮相， 3月22日的公開發布則面向更廣泛的開發者和用戶。
值得注意的是， Uni-1大膽地在底層架構上做了一次“換道” ，拋棄了當前主流的擴散模型（Diffusion）路線，轉而采用自回歸生成架構，即大語言模型所使用的“逐token預測”方法。這意味著， Uni-1在生成圖像時能夠像語言模型一樣進行推理，而非僅僅“降噪出圖” 。一家150人的舊金山初創公司，正在試圖重新定義AI圖像生成的技術范式。
智東西也親身體驗了一下。我讓它“生成一張宿命感照片，一個長發飄飄的女子身穿戰國袍，配了把劍” ，輸入提示詞后，他會先花幾秒鐘分析我的需求，然后再進行創作。創作花了差不多5分鐘終于完成了，生成的畫面很有電影感，頭發、衣擺隨風自然飄動，服飾很有質感。整體語義理解精準、細節豐富，但是仔細看可以發現劍出現了兩把，貌似有點小問題。
Uni-1生成的圖片（圖源：Lumalabs）
體驗鏈接在這里，大家也可以去試試。https://app.lumalabs.ai/

一、告別擴散模型， Uni-1用“語言模型的方式”畫圖要理解Uni-1的意義，需要先理解它替代了什么。目前AI圖像生成領域的主流方案是擴散模型，即從隨機噪聲出發，在文本嵌入的引導下逐步去噪，最終生成一張圖像。 Midjourney、Stable Diffusion、谷歌Imagen 3等知名模型均基于這一范式。擴散模型的視覺效果不錯，但有一個根本性缺陷：它不具備真正的“推理”能力，無法在生成過程中思考空間關系、物理合理性或邏輯約束。
業界此前的應對方式是“打補丁” 。比如， DALL-E 3用GPT-4先改寫用戶提示詞，再交給生成模型；谷歌Imagen 3則依賴Gemini做前置推理。這些方案本質上引入了一道“翻譯層” ，用來消除創作中的理解偏差。
X上網友對于Uni-1的評價（圖源：X）
Uni-1則選擇了一種完全不同的方式。據Luma AI的技術文檔， Uni-1采用純解碼器（decoder-only）自回歸Transformer架構，即文本和圖像token在同一序列中交錯排列，共享傳播通道，不依賴獨立的視覺編碼器。 Luma AI稱， Uni-1能在圖像合成前和合成中進行結構化內部推理，包括分解指令、解決約束和規劃構圖。
在實際操作中，模型可將多張寵物照片中的動物合成到一個全新場景中，穿上學術禮服、站在寫滿科學圖表的白板前，保留每只動物的獨特特征。以往這些任務通常需要大量手動調整或后期處理。
Uni-1技術文檔中示例圖片（圖源：Lumalabs）

二、關鍵跑分：推理能力拉開差距，邏輯推理得分翻倍基于推理的視覺編輯的基準測試工具RISEBench從時間、因果、空間和邏輯四大維度對圖像生成AI進行了跑分， Uni-1綜合分0.51 ，谷歌Nano Banana 2得分0.50 ， Nano Banana Pro是0.49 ， OpenAI GPT Image 1.5是0.46 。總分看著咬得很緊，我們可以聚焦不同維度來比一比：
空間推理：Uni-1得分0.58 ， Nano Banana 2僅0.47；邏輯推理：Uni-1得分0.32 ，略次于Nano Banana 2（0.38），是GPT Image 1.5（0.15）和Qwen-Image-2（0.17）的兩倍以上。五款圖片生成模型RISEBench跑分對比（圖源：Lumalabs）
在ODinW-13物體檢測基準測試中， Uni-1完整版得分46.2 mAP ，幾乎追平谷歌Gemini 3 Pro的46.3 ，大幅領先Qwen3-VL-Thinking的43.2 。值得注意的是， Uni-1僅具備理解能力（未經生成訓練）的變體得分為43.9 ，而完整版提升了2.3分。這直接證明了一個關鍵假設：學會生成圖像，能反過來提升模型的圖像理解能力。
物體檢測基準測試Uni-1幾乎追平谷歌Gemini 3 Pro（圖源：Lumalabs）
在與Midjourney v8的對比中，科技媒體The Decoder的測試認為Uni-1在復雜推理類生成任務上“明顯優于Midjourney v8” 。有Reddit用戶在逐一對比后評價：“在真正的邏輯推理、復雜場景理解、空間合理性這些方面， Uni-1完全碾壓。 ”不過， Midjourney在藝術風格化和審美質感方面仍保有優勢。

三、定價策略：高分辨率比谷歌便宜，瞄準企業客戶根據公開定價數據， Uni-1在企業常用的2K分辨率上具有明顯的價格優勢：
谷歌Nano Banana 2在低分辨率上仍有價格優勢， 0.5K圖像約0.045美元/張（約合人民幣0.31元）， 1K圖像約0.067美元/張（約合人民幣0.46元）。對于大規模生產高分辨率圖像的企業團隊而言， Uni-1在質量和成本兩端同時占優。 Luma AI在輸出端的token定價為每百萬token 45.45美元（約合人民幣322元）。
面向個人用戶，定價則分為包年、包月和單次計價三種模式。作為一家初創公司， Luma AI無法在分發渠道和基礎設施上與谷歌抗衡， “性能更強、價格更低”是它能打動客戶的核心籌碼。
Uni-1定價（圖源：Uni-1官網）

四、社區反?。捍印疤崾敬逝鱸似鋇健罷嬲拇醋骺刂啤?Uni-1發布后，盡管大規模獨立測試仍在進行中，早期社區反應積極。
X平臺用戶反饋良好，網友直言，圖像生成終于不用費勁想提示詞了。 Reddit上一位進行了逐項對比測試的用戶給出了更細致的評價：Nano Banana 2在速度和文字渲染上仍有優勢，但在“真正的邏輯推理、復雜場景理解和需要深度思考的編輯任務”上， Uni-1略勝一籌。該用戶總結道：“如果你在意的是圖像真正‘合理’ ，而不只是‘好看又快’ ， Uni-1是目前的最佳選擇。 ”
X上網友對于Uni-1的評價（圖源：X）
不過，也有用戶持觀望態度。部分用戶表示仍在等待完整API權限以進行獨立測試，對非拉丁文字的處理效果、極端邊緣場景以及最高分辨率下的生成速度仍有疑問。客觀地說，社區的興奮更多針對“新技術路線的突破感” ，長期表現仍需時間驗證。
目前Uni-1可在lumalabs.ai免費體驗， API訪問正在逐步開放。

結語：Luma真的能后來居上嗎？從Uni-1的發布可以預測到， AI圖像生成的競爭正在從“誰的圖更好看”轉向“誰的模型更能理解指令” 。擴散模型統治這一領域已有三年之久，而自回歸架構以大語言模型式的推理能力切入，第一次在核心基準測試上證明了這條路線的可行性，也可能影響未來更多實驗室的技術路線選擇。
真正的考驗在于， Uni-1能否在API大規模調用、多語言支持和生成速度上經受住企業級場景的檢驗。這場“架構之爭”才剛剛進入正賽。你認為自回歸路線能在圖像生成領域站穩腳跟嗎？
來源：VentureBeat、Lumalabs、X、The Decoder

推薦閱讀

上一篇：測完凱迪仕K70 Pro Max發現，智能門鎖還得選貴的

下一篇：馬斯克放話，AI6年底流片