美團新獨立APP,點不了菜只能點AI

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

文章圖片

美團新獨立APP,點不了菜只能點AI

用外賣的打法做AI模型?美團這是跟“又快又穩”杠上了(doge) 。
兩個月哐哐發了多款模型后 , 美團依舊動作不停——
最新開源LongCat-Flash-Omni , 從名字你也能看出來了(Omni意為“全能的”) , 沒錯 , 這款模型終于支持多模態了!

任務雖更復雜 , 但模型實力不減 , 一出手依舊是“開源即SOTA”:
在綜合性的全模態基準測試(如Omni-Bench WorldSense)上 , 超越Qwen3-Omni、Gemini-2.5-Flash , 這款模型直接達到了開源SOTA水準 , 而且能和閉源的Gemini-2.5-Pro相媲美 。
即使單拉出來文本、圖像、音頻、視頻等各項模態能力 , 它也依舊能打(單項能力均位居開源模型前列) , 真正實現了“全模態不降智” 。

而且啊 , 這款模型還有一個亮點 , 那就是“快”(天下武功唯快不破?)——
繼承LongCat-Flash系列“快”的基因 , 這款Omni模型總參數560B , 激活參數僅27B , 這種“大總參小激活”的MoE架構 , 使其在保持龐大知識容量的同時 , 實現了極高的推理效率 。
不妨來直觀感受一下它的生成速度:

可以看到 , 從輸入指令到生成第一個token的時間間隔非常短暫 , 整個過程相當絲滑 。
據悉 , 在當前主流旗艦模型的性能標準和參數規模下 , 這是首個能夠實現全模態實時交互的開源模型 。
以及有意思的是 , 美團發布這一成果時恰逢“Cursor‘自研’模型套殼國產開源”的八卦發酵之際 , 因此美團AI實力被低估的看法正在受到熱議 。 (網友os:看看人家外賣公司 , 對比過于慘烈~)

目前 , 這款模型已在美團旗下的LongCat APP和Web端上線 , 人人都能免費體驗 。
老規矩 , 一手實測火速走起~
實測美團新模型打開LongCat APP , 從首頁可以看到 , 它目前支持文字/語音兩種輸入方式 , 并能進行語音通話(視頻通話功能正在跑步入場中) , Web端還支持上傳圖片和文件 。

別的不說 , 最近很火的“讓AI幫忙數羊哄睡”的服務自然不能落下 。
視頻鏈接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
好好好 , AI你也偷懶是吧(doge)每數到三就跳到十 , 還能自圓其說是小羊干的 , 這下數到100還不是手拿把掐 。
而眼見和LongCat聊天有點意思 , 那視頻通話內測當然得繼續安排上 。
隨手拿過一個用光的香水瓶 , 接連拋出幾個問題:
這是什么?你能看到什么?瓶身上的字是什么意思?能帶上飛機嗎…
沒想到LongCat絲毫不慌 , 仔細“看過”后挨個解答了我們的問題:
視頻鏈接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
看來“能看會說”這種基本功 , 已經難不倒咱們多模態選手LongCat了 。
【美團新獨立APP,點不了菜只能點AI】咳咳 , 言歸正傳我們再來測試一下文本/圖片的輸入情況 。
在典中典的六邊形小球彈跳問題上 , LongCat對物理世界規則的理解也表現不錯:
Prompt:顯示球在旋轉的六邊形內彈跳 。 球應該受到重力和摩擦力的影響 , 并且必須逼真地從旋轉的墻壁上反彈 。
由于貼心地附上了代碼和可視化方案 , 所以我們火速把相關代碼跑了出來 , 結果be like:

另外 , 在圖片理解測試中 , 我們發現LongCat非常適合用來“玩梗” 。
隨便讓它識別一張梗圖 , 當我們還在苦思冥想時 , 人家秒秒鐘給出了正確答案:

321 , 答案揭曉:鴨(壓)歲錢 。

最后再來看一下語音輸入 , 我們找了段復雜環境下的騎手送餐錄音 , 給LongCat上點難度 。
音頻鏈接:https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
nice , 即使是在BGM和環境音的干擾下 , LongCat也順利識別出了人聲信息 , 并給出了相應意見 。

總之這波實測下來 , 對LongCat-Flash-Omni最大的感受就兩個字——快、穩 。
即使面對復雜多模態任務 , 它也能做到即時響應 , 整個交互體驗尤為絲滑 。
而且 ,不管是聊天問答、語音識別 , 還是那種腦筋急轉彎式的推理題 , 它都能第一時間接得住、接得對 。
可以說 , Omni既延續了LongCat系列在對話和深度思考方面的傳統優勢 , 將回答的專業度拉滿 , 又自帶“Flash”系列的快基因——
好好好 , 果然不愧是LongCat-Flash-Chat和LongCat-Flash-Thinking的親傳弟子(Chat主打快、Think主打專業) 。

此時回看LongCat系列的成長路徑 , 美團迭代模型的邏輯也很清晰了——先快、再專、后全 。
第一步 , 速度優先 。 先把底層打通 , 把模型響應、語音識別、實時生成這幾件事做到“絲滑不卡” 。 對用戶來說 , 這就是“好用”的基礎門檻 。 第二步 , 專業深耕 。 速度有了 , 再往深里卷 。 LongCat在復雜邏輯推理、物理仿真、嘈雜語音識別等領域 , 明顯做了不少優化 。 可以看出 , 美團不只是要做一個“會聊的AI” , 而是想做能在復雜場景下穩定發揮的“懂業務的AI” 。 第三步 , 全面拓展 。 雖然目前LongCat還沒開放圖片/視頻生成功能 , 但結合美團在視覺、地圖、語音導航這些本地服務領域的深厚積累 , 全模態路線幾乎是板上釘釘 。 到時候文字、語音、視覺全打通 , 也就順理成章了 。畢竟前不久 , 美團就已經單獨發了一個視頻模型LongCat-Video , 其穩定生成長視頻的能力(一般可生成5分鐘)也給人留下深刻印象 。
視頻源自:@quarterturn;視頻鏈接;https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
又快又全 , 怎么做到的?其實 , 做全模態大模型的并不只有美團——只是要么做得不夠好 , 要么做得沒美團快 。
畢竟要讓AI“聽得懂、看得清、反應快” , 遠比想象中難得多:
一曰多模態融合難度高 。 文本、語音、圖像、視頻……不同模態在結構和時間維度上差異明顯 , 強制融合反而會導致單模態任務效果不佳 , 樣樣通但樣樣松 。
二曰離線理解與流式交互難兼容 。 模型看懂是一回事 , 邊看邊說是另一回事 。 兩種模式的處理邏輯差異巨大 , 難以在同一架構中結合 。
三曰實時交互性能受限 。 現有模型能看能聽 , 但一到實時對話就卡殼 , 延遲高、響應慢 , 用戶體驗感差 。 要想模型實時性好 , 就離不開高質量的模型架構設計和基礎設施部署 。
四曰大規模訓練效率低 。 多模態模型數據量龐大 , 模塊之間配合復雜 , 影響模型訓練速度 。
而LongCat-Flash-Omni之所以能夠脫穎而出 , 關鍵在于它在架構層面重構了多模態融合的底層邏輯 。

主干部分延續LongCat系列的高效架構設計 , 采用完全端到端的統一架構ScMoE , 能夠同時接收文本、音頻、圖像、視頻及任意組合的多模態輸入 。
實時交互層面 , 團隊設計了創新的流式音視頻處理機制 , 通過分塊式音視頻特征交織策略 , 模型能夠將音頻與視頻特征按照時間片段同步輸入LLM , 實現低延遲的實時語音生成與視覺響應 。
訓練上 , 模型采用漸進式早期多模融合訓練 , 先從純文本預訓練出發 , 依次引入音頻和視覺數據 , 再逐步建立跨模態語義對齊與時序建模能力 。
再通過多階段退火(指先大膽探索 , 再小心收斂)與上下文擴展訓練 , 將上下文窗口擴展至128K tokens , 最終模型在多模態長時記憶、多輪對話、時序推理等能力上具備顯著優勢 , 并支持超8分鐘的音視頻交互 。

而且為了提升多模態訓練效率 , 團隊還提出了模態解耦并行(MDP)訓練方案 , 可以對LLM及編碼器的性能、內存占用進行獨立優化 , 確保訓練過程中系統長期穩定運行 。
正是憑借這種全模態覆蓋+端到端架構+大參數量高效推理 , LongCat-Flash-Omni達成了平衡:既有覆蓋文本、圖像、視頻、語音的全模態能力 , 又能在開源體系下達到與閉源模型相媲美的實時交互體驗 , 初步解決了參數大但推理慢的行業痛點 。
軟硬件“兩條腿走路” , 美團原來下的是這樣一盤棋u1s1 , 今年以來美團的一系列動作確實給人一種“眼花繚亂”的印象——
7月 , 它接連領投了兩家明星具身智能企業它石智航星海圖;然后從8月底開始 , 又密集發布LongCat-Flash-Chat、LongCat-Flash-Thinking、LongCat-Video等一系列模型 。
而且推出的AI新品也不少 , 包括AI編程應用NoCode、AI生活助手小美智能體……
人們不禁要問了:美團這是要干啥?

帶著同款好奇 , 量子位在仔細梳理后發現 , 原來美團這些看似“東一榔頭西一棒槌”的動作 , 實則內有乾坤 。
總結下來就是 , 美團正在靠著軟硬件“兩條腿走路” , 以最終實現數字世界(比特)和物理世界(原子)的深度連接 。
沒錯 , 又是“連接”這個因為太抽象宏觀而容易被大家忽視的點 。 記得美團方面曾表示:
我們是一家連接線下業務和線上世界的科技公司 。 在AI時代 , 我們將繼續扮演這樣的連接者角色 , 實現數字世界和物理世界之間的連接 , 這是我們的強項所在 。
這一目標落到實處即為 , 軟件這邊要朝著“世界模型”不斷邁進 , 硬件這邊則要圍繞“具身智能”加速落地 。
這背后的邏輯很清晰:作為一家從移動互聯網起家的公司 , 美團比誰都清楚軟件的威力 。 但越往產業深處走 , 它越意識到 , 要將軟件的影響力延伸至物理世界 , 硬件是不可或缺的載體與瓶頸;而反過來 , 一個強大的“世界模型” , 又能極大降低對硬件性能的苛刻要求 , 從而找到成本與效率的最優解 。
有了這一判斷基準 , 美團之前的所有動作就都能一一對號入座了 。
比如說大模型 , 從最基礎的對話機器人→深度思考模型→Video與Omni多模態模型 , 美團無疑是在為構建那個能深度理解現實并與其交互的“世界模型”打下根基 。
而多年自研并頻頻出手投資具身智能 , 則是其“世界模型”能力在機器人、自動駕駛等關鍵場景中最核心的落地與兌現 。
實際上 , 為了實現“世界模型+具身智能”的完美結合 , 美團如同一位老謀深算的棋手 , 其布局遠比外界看到的更早、也更為體系化 。
早在2017年 , 當無人化概念方興未艾 , 美團方面就在一場行業峰會上提出了著名的“互聯網下半場”概念——上天、入地、全球化 。
其中“上天”即指用高科技賦能全行業 。 美團那時候就強調:
未來甚至會利用無人駕駛技術和機器人來配送 。
由此可見 , 用科技重塑服務業的遠見 , 早已深植于美團的戰略構想之中 。
通過盤點其歷年投資的代表性項目 , 我們不難發現這樣一條清晰的脈絡:
2018~2020年 , 以加固美團本地生活護城河為目標 , 投資聚焦在消費領域 。 要么是美團本地生活業務延伸 , 如美菜網、普渡機器人;要么是消費品牌 , 如喜茶、蜜雪冰城 。
2021年 , 當集團戰略升級為“零售+科技”后 , 雖然消費項目仍是重點之一 , 但當中科技項目的占比開始提升 。 尤其在無人配送方面 , 一大批與機器人和自動駕駛相關的項目獲得了美團青睞 。
而從2022年開始 , 美團更是全面加碼了科技投資 。 從自動駕駛 , 到半導體AI芯片、再到各類具身機器人 , 美團持續押注未來核心基礎設施 。

這些技術看似龐雜 , 但其內在邏輯高度統一——
美團投資的 , 早已不是某一種單一的機器人功能 , 而是“讓整個物理世界都能被精確計算和高效調度”的整套技術路徑 。
在這條路徑中 , AI是大腦 , 低空飛行與自動駕駛是腿腳 , 它們共同構成了一個超越具身智能的、更宏大的Robotics版圖 。
關于具身智能 , 在剛剛落幕的2025美團機器人研究院學術年會上 , 美團副總裁毛一年清晰指出:
未來5到10年 , 具身智能正是這一切的核心技術范式 。

他表示 , 美團的關鍵詞是autonomy(無人化)——讓技術驅動零售行業變革 。 過去數年 , 美團自研的無人機開始翻山跨海送漢堡、披薩 , 無人車完成了數以百萬計的訂單 , 風雨無阻 , 而機場、酒店、園區場景中 , 小黃蜂也在承擔閃購配送任務 。
(注:美團還是全國唯一獲得民航局許可在中國全境合法飛行的無人機 , 而且在晚上也能飛 。 )
顯而易見 , 在美團的戰略拼圖中 , 這些看似獨立的智能終端 , 正逐漸串聯成一張覆蓋“低空—地面—社區”的立體化服務網絡 。它們并非簡單的設備疊加 , 而是美團將技術能力注入零售場景、實現系統效率躍遷的關鍵載體 。
至此 , 美團在無數實踐中沉淀出的核心方法論已不言自明——零售是場景 , 科技是賦能 。
當AI成為大腦 , 機器人成為雙手雙腳 , 具身智能與世界模型結合 , 連接起的就不僅是線上線下 , 更是比特與原子、虛擬與現實、算法與人類生活 。
Anyway , 雖然美團從未正面講述過它的“科技”圖景 , 但方向其實早已明明白白——
幫大家吃得更好 , 生活更好 。
只不過這回 , 美團要“喂飽”的 , 不止是胃 , 還有未來 。
LongCat Chat(APP需自行下載): https://longcat.aiHugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-OmniGitHub: https://github.com/meituan-longcat/LongCat-Flash-Omni
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀