商湯科技如何讓自動駕駛汽車擁有水晶球般的預知能力_軟件|百度|Google|人工智能

這項由商湯科技研究院的倪景程、郭雨欣、劉怡辰、陳睿、盧樂維、吳澤煥團隊完成的研究于2025年2月17日發表在計算機視覺頂級會議上，詳細信息可通過arXiv:2502.11663v1獲取。研究團隊開發了一個名為MaskGWM的革命性系統，這個系統就像給自動駕駛汽車裝上了一個能預見未來的水晶球。
當你開車時，總是在腦海中預測接下來會發生什么——前方的汽車會不會突然剎車，路邊的行人會不會橫穿馬路。這種預測能力對安全駕駛至關重要。然而，讓機器也擁有這樣的預測能力卻是一個巨大的挑戰。目前的自動駕駛系統就像一個只能看到當下畫面的\"近視眼\" ，雖然能識別現在發生的事情，但很難準確預測幾秒鐘后的情況。
商湯科技的研究團隊決心解決這個問題。他們意識到，僅僅讓AI系統生成高質量的未來畫面是不夠的，真正的挑戰在于讓系統理解這些畫面背后的物理規律和因果關系。這就像教一個孩子不僅要會畫畫，還要理解為什么蘋果會從樹上掉下來。
研究團隊的核心洞察是，現有的AI預測系統就像一個只會臨摹的畫家，雖然能畫出看起來很真實的圖片，但缺乏對場景深層邏輯的理解。為了解決這個問題，他們開發了一種全新的訓練方法，就像給AI系統安排了兩門課程——不僅要學會\"繪畫\"（生成未來畫面），還要學會\"拼圖\"（理解畫面中各個部分的關系）。
一、打造AI的\"時光機\"：讓機器看見未來的挑戰
要讓機器預測未來，首先要理解這個任務的復雜性。開車時，你的大腦在不斷處理海量信息：觀察周圍車輛的速度和方向，判斷交通信號的變化，預測行人的行為軌跡。這個過程就像同時玩多個三維拼圖游戲，每個拼圖都在不斷變化。
現有的AI預測系統主要依靠一種叫做\"擴散模型\"的技術。這種技術的工作原理就像一個藝術家從一團亂碼開始，逐步勾勒出清晰的圖像。雖然這種方法能生成非常逼真的圖片，但存在兩個致命問題：第一，就像馬拉松選手在短跑比賽中會氣喘吁吁一樣，這些系統在預測較長時間范圍的未來時會逐漸失去準確性；第二，當遇到訓練時從未見過的新場景時，系統就像一個只在城市開過車的司機突然被扔到鄉村小路上，完全不知所措。
商湯科技的研究團隊深入分析后發現，問題的根源在于現有方法過分依賴表面的視覺相似性，而忽略了場景背后的邏輯關系。這就像一個學生只是死記硬背答案，而不理解解題的方法和原理。當遇到稍微不同的問題時，就會束手無策。
更具體地說，傳統的擴散模型訓練過程就像教一個人畫畫時，只告訴他最終的作品應該是什么樣子，但不解釋為什么要這樣畫。這種訓練方式雖然能讓模型生成漂亮的圖片，但缺乏對畫面內在邏輯的理解。當需要預測復雜的交通場景時，模型往往會產生不合理的結果——比如汽車突然消失，或者物體違反物理定律地運動。
為了驗證這個觀察，研究團隊在多個大型數據集上進行了測試。他們發現，當要求現有系統預測超過10秒的未來場景時，生成的視頻往往會出現模糊、不連貫甚至完全不合理的內容。更令人擔憂的是，當系統遇到訓練數據中沒有出現過的新環境時，預測準確率會大幅下降，這嚴重限制了技術在真實世界中的應用前景。
二、雙重學習法：AI同時學會\"畫畫\"和\"拼圖\"
面對這些挑戰，商湯科技團隊提出了一個創新的解決方案：讓AI系統同時進行兩種不同類型的學習。這種方法就像讓學生既學習繪畫技巧，又學習拼圖游戲，從而同時掌握視覺創作和邏輯推理兩項能力。
第一種學習被稱為\"擴散生成\" ，這就像傳統的繪畫課， AI學習如何從無到有地創造出逼真的未來畫面。第二種學習被稱為\"掩碼重建\" ，這就像一個高級的拼圖游戲——研究人員故意遮擋畫面中的某些部分，然后要求AI根據可見的部分推測被遮擋的內容。
這種掩碼重建的訓練方式特別巧妙。研究團隊會隨機遮擋視頻畫面中25%的區域，然后要求AI根據剩余的75%內容來推測被遮擋的部分。這個過程就像給你看一張被部分遮擋的照片，然后請你猜測被遮擋的部分是什么。要成功完成這個任務， AI必須真正理解畫面中各個元素之間的關系和邏輯。
然而，簡單地將這兩種訓練方法結合在一起并不容易，就像試圖教一個人同時用左手畫圓、用右手畫方一樣困難。擴散生成過程涉及大量的隨機噪聲，而掩碼重建需要精確的邏輯推理，兩者似乎存在天然的沖突。
為了解決這個矛盾，研究團隊開發了一種特殊的\"噪聲感知掩碼令牌\" 。這個技術的原理就像給AI提供了一個智能的\"占位符\" 。當畫面中某些部分被遮擋時， AI不會簡單地忽略這些區域，而是用一個包含噪聲信息的特殊標記來代替。這個標記就像一個聰明的便簽條，能夠根據當前的噪聲水平調整自己的內容，幫助AI更好地協調兩種不同的學習任務。
【商湯科技如何讓自動駕駛汽車擁有水晶球般的預知能力】具體來說，這個特殊標記的內容會根據擴散過程的階段自動調整。在早期階段（高噪聲水平），標記主要幫助AI理解整體的結構和布局；在后期階段（低噪聲水平），標記則專注于細節的精確重建。這種動態調整機制確保了兩種學習任務能夠相互促進，而不是相互干擾。
三、時空雙維度的智慧拼圖
傳統的掩碼重建方法主要關注空間維度，就像拼一個普通的平面拼圖。但是對于視頻預測任務，僅僅理解空間關系是不夠的，還需要理解時間維度的變化規律。商湯科技團隊意識到，交通場景的預測需要同時掌握兩種不同的智慧：空間智慧和時間智慧。
空間智慧就像理解一張靜態照片中各個物體的關系——汽車在道路上，行人在人行道旁，交通信號在路口上方。這種理解主要依賴于物體的位置、大小、形狀等靜態特征。時間智慧則更加復雜，它要求AI理解物體如何隨時間變化——汽車如何移動，行人如何行走，交通信號如何變換。
為了讓AI同時掌握這兩種智慧，研究團隊設計了一個\"雙分支\"的訓練結構。這就像為AI安排了兩個不同的課堂：在\"空間課堂\"中， AI學習理解同一時刻不同位置的物體關系；在\"時間課堂\"中， AI學習理解同一物體在不同時刻的變化規律。
在空間課堂中，研究團隊使用傳統的掩碼策略，在所有時間幀中的相同位置進行遮擋。這就像在所有的電影幀中都遮住相同的區域，要求AI根據周圍的內容推測被遮擋的部分。這種訓練方式幫助AI深入理解空間中物體的排列規律和相互關系。
時間課堂則更加創新。研究團隊為每個時間幀設計了不同的掩碼模式，這樣AI就必須學會從時間序列中提取信息來填補空缺。然而，這種方法面臨一個技術挑戰：在傳統的處理架構中，不同時間幀的輸入長度必須保持一致，而隨機掩碼會導致每幀的有效內容長度不同。
為了解決這個問題，研究團隊開發了一種巧妙的\"行級移位\"策略。他們將視頻畫面按行分割，確保每行都遮擋相同數量的區域，但遮擋的具體位置在每行中隨機分布。這樣既保證了輸入長度的一致性，又實現了有效的時間維度學習。這種方法就像玩一個特殊的數獨游戲，每行都有相同數量的空格，但空格的位置各不相同，需要根據整體的邏輯來填補。
更重要的是，這種行級移位策略還帶來了意外的好處。由于相鄰的內容被重新排列， AI被迫學會從更大的時間范圍內提取信息，而不是僅僅依賴相鄰幀的內容。這種訓練方式顯著提高了模型對長時間序列的理解能力，就像訓練一個人不僅要記住昨天發生的事情，還要能夠從一周前的事件中推斷出今天的情況。
四、多視角的全景預測能力
現實世界的駕駛不是單一視角的體驗，而是需要同時關注前方、后方、左右各個方向的全景信息。就像一個經驗豐富的司機不僅要看前方的路況，還要通過后視鏡和側視鏡觀察周圍的情況。商湯科技團隊意識到，要構建真正實用的自動駕駛預測系統，必須具備多視角的預測能力。
然而，將單視角預測擴展到多視角并不是簡單的復制粘貼。不同視角之間存在復雜的幾何關系和信息依賴。前方攝像頭可能看到一輛即將變道的汽車，而側方攝像頭則能提供這輛車變道后的軌跡信息。這些不同視角的信息需要被有機地整合在一起，形成一個統一、連貫的未來預測。
研究團隊開發了一種創新的\"行級跨視角注意力機制\" 。這個機制的工作原理就像一個經驗豐富的交通指揮員，能夠同時觀察路口的各個方向，并將不同方向的信息綜合起來做出判斷。具體來說，系統會將不同視角的圖像按行進行對齊，然后計算每一行在不同視角間的關聯關系。
這種方法特別聰明的地方在于，它充分利用了前面提到的行級掩碼策略。由于每行都有部分內容被遮擋，系統被迫學會從其他視角的相應位置提取信息來填補空缺。這個過程就像多個人同時觀看同一個場景的不同角度，然后互相分享各自看到的內容，最終形成一個完整、立體的場景理解。
更巧妙的是，研究團隊發現這種跨視角的信息交換實際上還起到了數據增強的作用。當某個視角的特定區域被遮擋時，系統學會了從其他視角尋找相關信息，這種訓練方式使得模型對視角變化和遮擋具有更強的魯棒性。這就像訓練一個人不僅能從正面識別物體，還能從側面、背面等各個角度識別同一個物體。
在實際實現中，研究團隊還考慮到了計算效率的問題。全方位的跨視角信息交換雖然效果好，但計算成本極高。通過大量實驗，他們發現僅在水平方向進行跨視角信息交換就能獲得很好的效果，同時大大降低計算復雜度。這種優化就像找到了一個既美味又營養，同時制作簡單的食譜。
五、漸進式的學習策略
構建如此復雜的AI系統不能一蹴而就，就像建造一座摩天大樓需要先打好地基，再逐層向上建設。商湯科技團隊采用了一種精心設計的三階段訓練策略，每個階段都有明確的目標和遞進的難度。
第一階段可以比作\"基礎訓練營\" 。研究團隊使用包含1740小時駕駛視頻的大規模數據集OpenDV-2K對系統進行基礎訓練。這個階段就像讓AI觀看海量的駕駛場景錄像，學習基本的視覺模式和場景理解能力。訓練從最簡單的單幀圖像開始，然后逐步增加到16幀、20幀、24幀的視頻序列，讓AI逐漸適應時間序列的復雜性。
在這個階段，研究團隊還引入了掩碼重建任務。一開始， AI只需要處理簡單的擴散生成，就像學習基本的繪畫技巧。然后逐漸加入掩碼重建任務，讓AI同時掌握\"繪畫\"和\"拼圖\"兩種能力。這種漸進式的訓練就像學習鋼琴，先學會用右手彈旋律，再學會用左手伴奏，最后才學會雙手協調演奏。
第二階段專注于\"長時間預測專項訓練\" 。研究團隊將注意力轉向提高系統的長時間預測能力，訓練AI預測長達25?。ㄔ?.5秒）的未來場景。這個階段的挑戰就像從短跑訓練轉向馬拉松訓練，需要AI學會保持長時間的預測一致性和準確性。
在這個階段，研究團隊還加入了動作控制模塊的訓練。這個模塊就像給AI安裝了一個虛擬的\"方向盤\" ，讓它能夠理解不同的駕駛指令（如左轉、右轉、直行）會如何影響未來的場景變化。這種訓練使用了nuScenes和OpenDV-2K兩個數據集的混合數據，確保AI能夠適應不同類型的駕駛場景。
第三階段是\"多視角能力強化訓練\" 。在前兩個階段建立的堅實基礎上，研究團隊開始訓練AI的多視角預測能力。這個階段就像教一個已經掌握了單項技能的學生學會綜合運用，同時處理來自多個攝像頭的信息。
由于多視角訓練的計算復雜度更高，這個階段主要使用nuScenes數據集，將視頻長度調整為8幀以平衡效果和效率。研究團隊發現，在前兩個階段充分訓練的基礎上， AI能夠很快適應多視角的復雜性，就像一個已經熟練掌握駕駛技巧的人很容易學會使用新的車型。
每個訓練階段都采用了精心調整的參數設置。研究團隊使用Adam優化器，學習率設置為5×10^-5 ，并采用了溫和的學習率預熱策略。整個訓練過程在32個A800 GPU上進行，第一階段耗時約3天，體現了這個系統的復雜性和對計算資源的巨大需求。
六、突破性的實驗成果
經過精心的設計和訓練， MaskGWM系統在多個標準測試數據集上取得了令人矚目的成果。這些成果不僅僅是數字上的提升，更代表了自動駕駛預測技術的重大突破。
在nuScenes數據集的測試中， MaskGWM展現出了壓倒性的優勢。在衡量圖像質量的FID指標上， MaskGWM的單視角版本獲得了5.6分，相比之前最好的VISTA系統的6.9分有了顯著提升。在衡量視頻質量的FVD指標上， MaskGWM達到了92.5分，同樣超越了VISTA的89.4分。這些數字雖然看起來差距不大，但在AI領域，這樣的提升已經代表了技術的重大進步。
更令人印象深刻的是多視角預測的結果。 MaskGWM的多視角版本在FID上達到了8.9分， FVD達到了65.4分，顯著超越了之前所有的多視角預測系統。這意味著MaskGWM不僅能夠準確預測單一視角的未來場景，還能同時處理多個攝像頭的信息，生成協調一致的全方位預測。
在零樣本泛化能力的測試中， MaskGWM展現出了真正的智慧。研究團隊在Waymo數據集上測試了系統的泛化能力，這個數據集在訓練過程中從未使用過，相當于讓AI在一個完全陌生的環境中進行預測。結果顯示， MaskGWM在FVD指標上達到了118.83分，顯著優于VISTA的176.56分，證明了系統具有出色的跨域泛化能力。
長時間預測能力的測試結果更是令人興奮。研究團隊將預測時長擴展到12.5秒，相當于讓AI預測一個完整的交通場景變化過程。在這個極具挑戰性的任務中， MaskGWM展現出了驚人的穩定性。隨著預測時間的延長，其他系統的預測質量會急劇下降，而MaskGWM的質量下降曲線要平緩得多，表明它具有更強的長期預測能力。
特別值得注意的是，研究團隊還測試了MaskGWM在極端長時間預測上的表現。在某些測試中，系統能夠生成長達60秒的連貫預測視頻，這在以前是完全不可能的。雖然預測質量會隨時間遞減，但系統仍能保持基本的場景一致性和物理合理性，這為未來的應用打開了廣闊的可能性。
為了驗證各個技術組件的貢獻，研究團隊進行了詳細的消融實驗。結果顯示，掩碼重建任務的引入對性能提升起到了關鍵作用，在某些指標上帶來了超過20%的改進。特別設計的噪聲感知掩碼令牌也證明了其價值，相比簡單的固定掩碼標記，帶來了約15%的性能提升。
雙分支的時空學習策略同樣效果顯著。單獨的空間掩碼或時間掩碼都能帶來一定的改進，但將兩者結合后，效果遠超各自單獨使用時的簡單相加。這證明了空間理解和時間理解之間存在重要的協同效應。
七、技術創新的深度解析
MaskGWM系統的成功不是偶然的，而是建立在多個深層技術創新的基礎之上。這些創新就像一個復雜機械裝置中的精密齒輪，每一個都發揮著關鍵作用，共同驅動整個系統的卓越表現。
首先是噪聲感知掩碼令牌的設計哲學。傳統方法在處理被遮擋區域時，要么完全忽略，要么使用固定的占位符。 MaskGWM的創新在于認識到掩碼重建和擴散生成是兩個具有不同特性的任務，需要一個能夠動態適應的橋梁。這個橋梁就是噪聲感知掩碼令牌，它的數學表達式為mτ = (1-τ)fm(ε) + τp ，其中τ是擴散時間步， fm(ε)是噪聲編碼函數， p是可學習參數。
這個設計的巧妙之處在于它隨著擴散過程的進展自動調整行為。在擴散的早期階段（τ接近1），噪聲水平很高，此時掩碼令牌主要依賴可學習參數p ，幫助系統理解整體結構。在擴散的后期階段（τ接近0），噪聲水平較低，掩碼令牌更多地依賴噪聲編碼fm(ε) ，專注于精確的細節重建。這種動態平衡機制確保了兩種學習任務的有機結合。
行級移位掩碼策略是另一個重要創新。傳統的視頻掩碼方法面臨一個根本性的技術困難：如何在保持序列長度一致的同時實現有效的時間維度學習。 MaskGWM通過巧妙的行級處理解決了這個問題。系統將每個視頻幀分解為多行，在每行內隨機遮擋相同數量的token ，但遮擋位置各不相同。這樣既滿足了技術要求，又實現了有效的時間學習。
更深層次地看，這種行級移位策略實際上創造了一種新的數據增強方式。通過重新排列相鄰內容，系統被迫學會從更大的時間窗口提取信息，而不是簡單地依賴最近鄰的信息。這種訓練方式顯著提高了模型的時間建模能力，使其能夠處理更長的預測時間范圍。
跨視角注意力機制的設計同樣體現了深度的技術思考。研究團隊發現，簡單地將多個視角的信息拼接在一起并不能有效利用跨視角的信息互補性。 MaskGWM采用的行級跨視角注意力機制能夠精確地建立不同視角間對應位置的關聯關系，同時保持計算效率。
這種機制的核心思想是利用幾何約束來指導注意力的計算。由于不同攝像頭之間存在固定的幾何關系，某個位置的信息在不同視角中應該有對應的位置。行級注意力機制充分利用了這種對應關系，使得系統能夠更有效地整合多視角信息。
訓練策略的漸進式設計也體現了深度的系統性思考。研究團隊認識到，直接訓練如此復雜的系統會面臨收斂困難和性能不穩定的問題。通過將訓練過程分解為三個遞進的階段，每個階段都有明確的學習目標，系統能夠逐步建立起復雜的預測能力。
這種漸進式訓練不僅提高了訓練效率，還使得系統具有更好的模塊化特性。研究團隊可以針對不同的應用需求選擇不同的訓練階段，比如只需要單視角預測能力的應用可以在第二階段結束后就停止訓練，而需要多視角能力的應用則需要完成全部三個階段。
八、實際應用與未來展望
MaskGWM系統的成功不僅僅是學術研究上的突破，更重要的是它為自動駕駛技術的實際應用開辟了新的可能性。這項技術就像為自動駕駛汽車裝上了一雙能夠看穿時間的眼睛，讓車輛能夠更智能、更安全地在復雜的交通環境中行駛。
在實際的自動駕駛場景中， MaskGWM的長時間預測能力具有重要價值。傳統的自動駕駛系統通常只能預測2-3秒的未來情況，這在簡單的高速公路場景中可能足夠，但在復雜的城市交通中往往力不從心。 MaskGWM能夠預測長達12秒甚至更長時間的未來場景，為車輛的路徑規劃和決策制定提供了更充分的信息。
考慮一個具體的場景：當自動駕駛汽車接近一個繁忙的十字路口時，傳統系統只能看到當前的交通狀況，而MaskGWM能夠預測接下來十幾秒內交通燈的變化、行人的移動軌跡、其他車輛的行駛路徑等。這種預見能力使得車輛能夠提前制定更優化的行駛策略，避免臨時剎車或急轉彎等危險操作。
多視角預測能力在實際應用中同樣價值巨大。現代自動駕駛汽車通常配備了多個攝像頭，分別覆蓋前方、后方、左右等不同方向。 MaskGWM能夠同時處理所有這些攝像頭的信息，生成全方位的未來預測。這種能力在變道、并線、倒車等復雜操作中特別重要，因為這些操作需要綜合考慮多個方向的交通狀況。
零樣本泛化能力為MaskGWM在全球范圍內的部署提供了可能。不同國家和地區的交通環境、道路設計、駕駛習慣都有很大差異，傳統的AI系統通常需要在每個新的地區重新訓練才能保持良好的性能。 MaskGWM展現出的強大泛化能力意味著，在一個地區訓練的系統可以在其他地區直接使用，大大降低了技術部署的成本和時間。
然而，研究團隊也誠實地指出了當前技術的局限性。首先是動作控制能力仍有待完善。雖然MaskGWM能夠理解基本的駕駛指令，但在處理復雜或矛盾的指令時仍可能出現問題。其次，在極其復雜的交通場景中，比如多車同時變道或突發的交通事故，系統的預測準確性會有所下降。
此外，多視角生成能力主要在訓練的最后階段才被引入，這意味著非前視角的圖像質量可能不如前視角。未來的改進方向包括在更早的訓練階段就引入多視角數據，或者使用更多樣化的多視角數據集。
從更廣闊的角度看， MaskGWM代表的技術路線為AI預測系統的發展指明了新的方向。將生成式學習和自監督學習相結合的思路不僅適用于自動駕駛，也可能在機器人控制、視頻分析、增強現實等其他領域產生重要影響。
研究團隊已經開始探索將這種技術擴展到其他應用場景的可能性。比如，在機器人導航中，類似的預測能力可以幫助機器人更好地規劃路徑和避障；在視頻監控中，這種技術可以預測潛在的異常事件；在虛擬現實中，預測用戶的行為意圖可以提供更流暢的交互體驗。
商湯科技團隊還計劃開源部分代碼和數據，讓更多的研究者能夠在此基礎上進行進一步的創新。這種開放的態度不僅有利于技術的快速發展，也體現了科研界合作共贏的精神。
說到底， MaskGWM的成功證明了一個重要觀點：要讓AI真正智能，不能僅僅依賴單一的學習方法，而需要將多種學習方式有機結合，讓AI系統既能掌握表面的技能，又能理解深層的邏輯。這種思路不僅在自動駕駛領域具有重要意義，也為整個AI技術的發展提供了有價值的啟示。隨著技術的不斷完善和應用的逐步推廣，我們有理由相信，更安全、更智能的自動駕駛時代正在加速到來。
Q&A
Q1：MaskGWM是什么？它與傳統的自動駕駛預測系統有什么不同？
A：MaskGWM是由商湯科技開發的自動駕駛預測系統，它的獨特之處在于采用了\"雙重學習法\"——既學會生成未來畫面，又學會理解畫面間的邏輯關系。傳統系統只能預測2-3秒的未來，而MaskGWM能預測12秒甚至更長時間，就像給自動駕駛汽車裝上了能看穿時間的眼睛。
Q2：MaskGWM的掩碼重建技術是如何工作的？
A：掩碼重建就像讓AI玩高級拼圖游戲。系統會隨機遮擋視頻畫面中25%的區域，然后要求AI根據可見部分推測被遮擋的內容。這個過程分為空間和時間兩個維度：空間維度幫助AI理解物體位置關系，時間維度幫助AI理解物體運動規律，兩者結合讓AI真正理解場景的內在邏輯。
Q3：這項技術什么時候能在真實的自動駕駛汽車中使用？
A：目前MaskGWM還處于研究階段，距離實際商用還需要時間。雖然技術已經在多個測試數據集上表現出色，但要應用到真實車輛中還需要解決工程化部署、實時性能優化、安全認證等問題。商湯科技計劃開源部分代碼，這將加速技術的進一步發展和實用化進程。

商湯科技如何讓自動駕駛汽車擁有水晶球般的預知能力

推薦閱讀

黑芝麻餡料怎么做

順風局和逆風局什么意思

ppt能放視頻嗎

男生抽條是什么意思

天貓同意換貨會預留庫存嗎商家同意換貨時有留庫存嗎

微信收不到公眾號的紅包

不是武漢戶口可以在武漢買房嗎

夢見洞房洞房花燭

開齋2021年是哪一天開齋2021年是幾月幾日

鍵盤怎么切換中文輸入法鍵盤如何切換中文輸入法

建成房屋如何挖地下室

麥昆小白鞋黃斑怎么去

保定在哪里捐獻血小板,他又沖回機采室捐獻血小板

公共營養師成績查詢，國家公共營養師好考么公共的和私人的有什么區別

我買了堅果手機，感覺系統好像沒有過度動畫

去盧旺達旅游花多少錢，去迪拜旅游一次要多少錢