美團新獨立APP，點不了菜只能點AI_芯片|硬盤

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

用外賣的打法做AI模型？美團這是跟“又快又穩”杠上了（doge）。
兩個月哐哐發了多款模型后，美團依舊動作不停——
最新開源LongCat-Flash-Omni ，從名字你也能看出來了（Omni意為“全能的”），沒錯，這款模型終于支持多模態了！

任務雖更復雜，但模型實力不減，一出手依舊是“開源即SOTA”：
在綜合性的全模態基準測試（如Omni-Bench WorldSense）上，超越Qwen3-Omni、Gemini-2.5-Flash ，這款模型直接達到了開源SOTA水準，而且能和閉源的Gemini-2.5-Pro相媲美。
即使單拉出來文本、圖像、音頻、視頻等各項模態能力，它也依舊能打（單項能力均位居開源模型前列），真正實現了“全模態不降智” 。

而且啊，這款模型還有一個亮點，那就是“快”（天下武功唯快不破？）——
繼承LongCat-Flash系列“快”的基因，這款Omni模型總參數560B ，激活參數僅27B ，這種“大總參小激活”的MoE架構，使其在保持龐大知識容量的同時，實現了極高的推理效率。
不妨來直觀感受一下它的生成速度：

可以看到，從輸入指令到生成第一個token的時間間隔非常短暫，整個過程相當絲滑。
據悉，在當前主流旗艦模型的性能標準和參數規模下，這是首個能夠實現全模態實時交互的開源模型。
以及有意思的是，美團發布這一成果時恰逢“Cursor‘自研’模型套殼國產開源”的八卦發酵之際，因此美團AI實力被低估的看法正在受到熱議。（網友os：看看人家外賣公司，對比過于慘烈~）

目前，這款模型已在美團旗下的LongCat APP和Web端上線，人人都能免費體驗。
老規矩，一手實測火速走起~
實測美團新模型打開LongCat APP ，從首頁可以看到，它目前支持文字/語音兩種輸入方式，并能進行語音通話（視頻通話功能正在跑步入場中）， Web端還支持上傳圖片和文件。

別的不說，最近很火的“讓AI幫忙數羊哄睡”的服務自然不能落下。
視頻鏈接：https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
好好好， AI你也偷懶是吧（doge）每數到三就跳到十，還能自圓其說是小羊干的，這下數到100還不是手拿把掐。
而眼見和LongCat聊天有點意思，那視頻通話內測當然得繼續安排上。
隨手拿過一個用光的香水瓶，接連拋出幾個問題：
這是什么？你能看到什么？瓶身上的字是什么意思？能帶上飛機嗎…
沒想到LongCat絲毫不慌，仔細“看過”后挨個解答了我們的問題：
視頻鏈接：https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
看來“能看會說”這種基本功，已經難不倒咱們多模態選手LongCat了。
【美團新獨立APP，點不了菜只能點AI】咳咳，言歸正傳我們再來測試一下文本/圖片的輸入情況。
在典中典的六邊形小球彈跳問題上， LongCat對物理世界規則的理解也表現不錯：
Prompt：顯示球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響，并且必須逼真地從旋轉的墻壁上反彈。
由于貼心地附上了代碼和可視化方案，所以我們火速把相關代碼跑了出來，結果be like：

另外，在圖片理解測試中，我們發現LongCat非常適合用來“玩梗” 。
隨便讓它識別一張梗圖，當我們還在苦思冥想時，人家秒秒鐘給出了正確答案：

321 ，答案揭曉：鴨（壓）歲錢。

最后再來看一下語音輸入，我們找了段復雜環境下的騎手送餐錄音，給LongCat上點難度。
音頻鏈接：https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
nice ，即使是在BGM和環境音的干擾下， LongCat也順利識別出了人聲信息，并給出了相應意見。

總之這波實測下來，對LongCat-Flash-Omni最大的感受就兩個字——快、穩。
即使面對復雜多模態任務，它也能做到即時響應，整個交互體驗尤為絲滑。
而且，不管是聊天問答、語音識別，還是那種腦筋急轉彎式的推理題，它都能第一時間接得住、接得對。
可以說， Omni既延續了LongCat系列在對話和深度思考方面的傳統優勢，將回答的專業度拉滿，又自帶“Flash”系列的快基因——
好好好，果然不愧是LongCat-Flash-Chat和LongCat-Flash-Thinking的親傳弟子（Chat主打快、Think主打專業）。

此時回看LongCat系列的成長路徑，美團迭代模型的邏輯也很清晰了——先快、再專、后全。
第一步，速度優先。先把底層打通，把模型響應、語音識別、實時生成這幾件事做到“絲滑不卡” 。對用戶來說，這就是“好用”的基礎門檻。第二步，專業深耕。速度有了，再往深里卷。 LongCat在復雜邏輯推理、物理仿真、嘈雜語音識別等領域，明顯做了不少優化。可以看出，美團不只是要做一個“會聊的AI” ，而是想做能在復雜場景下穩定發揮的“懂業務的AI” 。第三步，全面拓展。雖然目前LongCat還沒開放圖片/視頻生成功能，但結合美團在視覺、地圖、語音導航這些本地服務領域的深厚積累，全模態路線幾乎是板上釘釘。到時候文字、語音、視覺全打通，也就順理成章了。畢竟前不久，美團就已經單獨發了一個視頻模型LongCat-Video ，其穩定生成長視頻的能力（一般可生成5分鐘）也給人留下深刻印象。
視頻源自：@quarterturn；視頻鏈接；https://mp.weixin.qq.com/s/Aia058is0yR9vfA_Yoypwg
又快又全，怎么做到的？其實，做全模態大模型的并不只有美團——只是要么做得不夠好，要么做得沒美團快。
畢竟要讓AI“聽得懂、看得清、反應快” ，遠比想象中難得多：
一曰多模態融合難度高。文本、語音、圖像、視頻……不同模態在結構和時間維度上差異明顯，強制融合反而會導致單模態任務效果不佳，樣樣通但樣樣松。
二曰離線理解與流式交互難兼容。模型看懂是一回事，邊看邊說是另一回事。兩種模式的處理邏輯差異巨大，難以在同一架構中結合。
三曰實時交互性能受限。現有模型能看能聽，但一到實時對話就卡殼，延遲高、響應慢，用戶體驗感差。要想模型實時性好，就離不開高質量的模型架構設計和基礎設施部署。
四曰大規模訓練效率低。多模態模型數據量龐大，模塊之間配合復雜，影響模型訓練速度。
而LongCat-Flash-Omni之所以能夠脫穎而出，關鍵在于它在架構層面重構了多模態融合的底層邏輯。

主干部分延續LongCat系列的高效架構設計，采用完全端到端的統一架構ScMoE ，能夠同時接收文本、音頻、圖像、視頻及任意組合的多模態輸入。
實時交互層面，團隊設計了創新的流式音視頻處理機制，通過分塊式音視頻特征交織策略，模型能夠將音頻與視頻特征按照時間片段同步輸入LLM ，實現低延遲的實時語音生成與視覺響應。
訓練上，模型采用漸進式早期多模融合訓練，先從純文本預訓練出發，依次引入音頻和視覺數據，再逐步建立跨模態語義對齊與時序建模能力。
再通過多階段退火（指先大膽探索，再小心收斂）與上下文擴展訓練，將上下文窗口擴展至128K tokens ，最終模型在多模態長時記憶、多輪對話、時序推理等能力上具備顯著優勢，并支持超8分鐘的音視頻交互。

而且為了提升多模態訓練效率，團隊還提出了模態解耦并行（MDP）訓練方案，可以對LLM及編碼器的性能、內存占用進行獨立優化，確保訓練過程中系統長期穩定運行。
正是憑借這種全模態覆蓋+端到端架構+大參數量高效推理， LongCat-Flash-Omni達成了平衡：既有覆蓋文本、圖像、視頻、語音的全模態能力，又能在開源體系下達到與閉源模型相媲美的實時交互體驗，初步解決了參數大但推理慢的行業痛點。
軟硬件“兩條腿走路” ，美團原來下的是這樣一盤棋u1s1 ，今年以來美團的一系列動作確實給人一種“眼花繚亂”的印象——
7月，它接連領投了兩家明星具身智能企業它石智航星海圖；然后從8月底開始，又密集發布LongCat-Flash-Chat、LongCat-Flash-Thinking、LongCat-Video等一系列模型。
而且推出的AI新品也不少，包括AI編程應用NoCode、AI生活助手小美智能體……
人們不禁要問了：美團這是要干啥？

帶著同款好奇，量子位在仔細梳理后發現，原來美團這些看似“東一榔頭西一棒槌”的動作，實則內有乾坤。
總結下來就是，美團正在靠著軟硬件“兩條腿走路” ，以最終實現數字世界（比特）和物理世界（原子）的深度連接。
沒錯，又是“連接”這個因為太抽象宏觀而容易被大家忽視的點。記得美團方面曾表示：
我們是一家連接線下業務和線上世界的科技公司。在AI時代，我們將繼續扮演這樣的連接者角色，實現數字世界和物理世界之間的連接，這是我們的強項所在。
這一目標落到實處即為，軟件這邊要朝著“世界模型”不斷邁進，硬件這邊則要圍繞“具身智能”加速落地。
這背后的邏輯很清晰：作為一家從移動互聯網起家的公司，美團比誰都清楚軟件的威力。但越往產業深處走，它越意識到，要將軟件的影響力延伸至物理世界，硬件是不可或缺的載體與瓶頸；而反過來，一個強大的“世界模型” ，又能極大降低對硬件性能的苛刻要求，從而找到成本與效率的最優解。
有了這一判斷基準，美團之前的所有動作就都能一一對號入座了。
比如說大模型，從最基礎的對話機器人→深度思考模型→Video與Omni多模態模型，美團無疑是在為構建那個能深度理解現實并與其交互的“世界模型”打下根基。
而多年自研并頻頻出手投資具身智能，則是其“世界模型”能力在機器人、自動駕駛等關鍵場景中最核心的落地與兌現。
實際上，為了實現“世界模型+具身智能”的完美結合，美團如同一位老謀深算的棋手，其布局遠比外界看到的更早、也更為體系化。
早在2017年，當無人化概念方興未艾，美團方面就在一場行業峰會上提出了著名的“互聯網下半場”概念——上天、入地、全球化。
其中“上天”即指用高科技賦能全行業。美團那時候就強調：
未來甚至會利用無人駕駛技術和機器人來配送。
由此可見，用科技重塑服務業的遠見，早已深植于美團的戰略構想之中。
通過盤點其歷年投資的代表性項目，我們不難發現這樣一條清晰的脈絡：
2018~2020年，以加固美團本地生活護城河為目標，投資聚焦在消費領域。要么是美團本地生活業務延伸，如美菜網、普渡機器人；要么是消費品牌，如喜茶、蜜雪冰城。
2021年，當集團戰略升級為“零售+科技”后，雖然消費項目仍是重點之一，但當中科技項目的占比開始提升。尤其在無人配送方面，一大批與機器人和自動駕駛相關的項目獲得了美團青睞。
而從2022年開始，美團更是全面加碼了科技投資。從自動駕駛，到半導體AI芯片、再到各類具身機器人，美團持續押注未來核心基礎設施。

這些技術看似龐雜，但其內在邏輯高度統一——
美團投資的，早已不是某一種單一的機器人功能，而是“讓整個物理世界都能被精確計算和高效調度”的整套技術路徑。
在這條路徑中， AI是大腦，低空飛行與自動駕駛是腿腳，它們共同構成了一個超越具身智能的、更宏大的Robotics版圖。
關于具身智能，在剛剛落幕的2025美團機器人研究院學術年會上，美團副總裁毛一年清晰指出：
未來5到10年，具身智能正是這一切的核心技術范式。

他表示，美團的關鍵詞是autonomy（無人化）——讓技術驅動零售行業變革。過去數年，美團自研的無人機開始翻山跨海送漢堡、披薩，無人車完成了數以百萬計的訂單，風雨無阻，而機場、酒店、園區場景中，小黃蜂也在承擔閃購配送任務。
（注：美團還是全國唯一獲得民航局許可在中國全境合法飛行的無人機，而且在晚上也能飛。）
顯而易見，在美團的戰略拼圖中，這些看似獨立的智能終端，正逐漸串聯成一張覆蓋“低空—地面—社區”的立體化服務網絡。它們并非簡單的設備疊加，而是美團將技術能力注入零售場景、實現系統效率躍遷的關鍵載體。
至此，美團在無數實踐中沉淀出的核心方法論已不言自明——零售是場景，科技是賦能。
當AI成為大腦，機器人成為雙手雙腳，具身智能與世界模型結合，連接起的就不僅是線上線下，更是比特與原子、虛擬與現實、算法與人類生活。
Anyway ，雖然美團從未正面講述過它的“科技”圖景，但方向其實早已明明白白——
幫大家吃得更好，生活更好。
只不過這回，美團要“喂飽”的，不止是胃，還有未來。
LongCat Chat（APP需自行下載）: https://longcat.aiHugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-OmniGitHub: https://github.com/meituan-longcat/LongCat-Flash-Omni
— 完 —
量子位 QbitAI
關注我們，第一時間獲知前沿科技動態

美團新獨立APP，點不了菜只能點AI

推薦閱讀

黑芝麻餡料怎么做

順風局和逆風局什么意思

ppt能放視頻嗎

男生抽條是什么意思

天貓同意換貨會預留庫存嗎商家同意換貨時有留庫存嗎

微信收不到公眾號的紅包

不是武漢戶口可以在武漢買房嗎

夢見洞房洞房花燭

開齋2021年是哪一天開齋2021年是幾月幾日

鍵盤怎么切換中文輸入法鍵盤如何切換中文輸入法

建成房屋如何挖地下室

麥昆小白鞋黃斑怎么去

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別

我買了堅果手機，感覺系統好像沒有過度動畫

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢