蘋果圖像模型Manzano曝光 媲美ChatGPT

蘋果圖像模型Manzano曝光 媲美ChatGPT

文章圖片

蘋果圖像模型Manzano曝光 媲美ChatGPT

文章圖片

蘋果圖像模型Manzano曝光 媲美ChatGPT

文章圖片


【蘋果圖像模型Manzano曝光 媲美ChatGPT】近日 , 蘋果公司發布了一篇研究論文 , 揭曉了其在圖像處理領域的最新力作:一個名為Manzano的新型圖像模型 。 此舉被視為蘋果在生成式AI領域追趕并挑戰行業巨頭OpenAI和谷歌的重要信號 。

Manzano的核心突破在于它巧妙地融合了圖像理解與圖像生成這兩項關鍵能力 。 當前 , 許多開源模型往往顧此失彼 , 難以同時精通這兩項任務 , 而商業閉源系統則普遍具備這種雙重能力 。 蘋果的研究表明 , Manzano的設計旨在彌合這一差距 , 使其在處理效率和最終效果上 , 能夠與GPT-4o及谷歌的圖像生成技術等頂級商業系統相提并論 。

盡管蘋果尚未公開發布Manzano , 也未提供任何公開演示 , 但其研究團隊分享的論文及附帶的低分辨率樣本 , 已經足夠展示其強大的潛力 。 在面對復雜和挑戰性的提示時 , Manzano的生成結果與GPT-4o及谷歌Nano Banana模型的輸出不相上下 。

Manzano之所以能實現這一技術飛躍 , 其關鍵在于采用了一種創新的混合圖像標記器 。 這一設計理念讓模型能夠同時輸出兩種不同類型的標記:用于圖像理解的連續標記 , 它以浮點數形式精確表征圖像內容;用于圖像生成的離散標記 , 它將圖像內容歸納為固定的類別 。 由于這兩種標記源自同一個編碼器 , 從而有效避免了傳統模型中因架構分離而可能產生的內在沖突和信息損失 。

在整體架構上 , Manzano由三部分構成:混合分詞器、一個統一的語言模型以及一個獨立的、專用于最終輸出的圖像解碼器 。 為了適應不同場景的需求 , 蘋果還構建了三種不同參數規模的圖像解碼器 , 分別為9000萬、1.75億和3.52億參數 , 能夠支持從256像素到2048像素不等的圖像分辨率 。

性能測試結果印證了Manzano架構的優越性 。 在多個行業基準測試中 , 該模型均表現出色 。 特別是在處理文本密集型的視覺任務時 , 其30億參數版本的模型得分尤為突出 。 研究同時揭示 , 隨著模型參數量從3億穩步增加至30億 , 其綜合性能也呈現出持續且顯著的提升 。

除了完成傳統的圖像編輯工作 , Manzano還展現了執行更高級任務的能力 , 包括根據文字提示進行內容編輯、實現藝術風格的遷移、對圖像進行智能填充和無縫擴展 , 甚至還能進行深度估計 。
蘋果認為 , Manzano不僅是現有模型的一個可行替代方案 , 其模塊化的設計思想更有可能對未來多模態人工智能的發展路徑產生深遠影響 , 預示著一個更加高效、整合的AI新時代的到來 。

    推薦閱讀