L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式

L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式

文章圖片

L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式

文章圖片

L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式

文章圖片

L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式

文章圖片

L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式

文章圖片

L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式

文章圖片

L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式

機器之心報道
作者:澤南
AI 正在進入下半場 , 最先進化的會是輔助駕駛?
最近 , 有關 AI 大模型進入瓶頸的討論越來越多 。 強化學習之父 Rich Sutton 發表的前瞻論文《體驗時代》指出 , 人工智能正在從依賴人類生成數據向體驗式學習的范式轉變 。
OpenAI 前研究員姚順雨則直言不諱地表示 AI 正在進入「下半場」 。 他認為 , 需要為現實世界的任務開發新的 AI 評估或配置 。 更重要的是 , 要實現超越人類的智能 , AI 就必須超越模仿人類 , 依賴一種可隨智能體改進而擴展的新數據源 。
在自動駕駛領域 , AI 范式轉變的趨勢同樣也已顯現 。
上周剛剛結束的全球計算機視覺學術頂會 ICCV 2025 上 , 理想汽車自動駕駛高級算法專家詹錕在研討會上發表了以《世界模型:讓我們從數據閉環走向訓練閉環》(World Model: Evolving from Data Closed-loop to Training Closed-loop)為主題的演講 。

詹琨在 ICCV 2025 具身智能研討會(Learning to See: Advancing Spatial Understanding for Embodied Intelligence)上發表了主題演講 。
理想詳細闡述了自己「從數據到訓練」的系統化思路 , 提出了全球首個將世界模型與強化學習閉環落地于量產自動駕駛系統的完整架構 。
自規則算法時代到大模型時代 , 理想不僅是技術演進的親歷者 , 同時也是行業趨勢的塑造者 。 它這次在 AI 頂會上的亮相恰逢一個技術的重要節點 , AI 的「下半場」有更多挑戰 , 也有更多的突破點 。
世界模型加入 VLA 閉環
理想 LiAD 的新技術路線
在 ICCV 大會上 , 理想系統介紹了自身在先進輔助駕駛技術上的技術路線 , 并由點帶面 , 用近期的一系列研究工作將其串聯起來 。
目前理想汽車的輔助駕駛技術(LiAuto AD Max) , 是以 VLA(Vision Language Action , 視覺語言行動模型)為核心的可交互自動駕駛方案 。 理想輔助駕駛的發展經歷了從規則算法到端到端方案的進化 。 在去年 , 理想率先提出雙系統方案 —— 使用 E2E 和 VLM 結合構建輔助駕駛系統 , 逐漸成為 AI 時代的主流路線 。

通過直接輸入傳感器信號 , 輸出駕駛軌跡來全量學習人類駕駛行為的方式 , 理想的輔助駕駛能力實現了能力的突破 。 自去年端到端輔助駕駛上線后 , 理想落地技術的 MPI(人類接管里程)水平在近 12 個月以內提升明顯 。
這是理想輔助駕駛技術的數據量和接管里程(MPI)之間的比值:

然而在 AI 模型的訓練數據擴展到 1000 萬 Clips 之后 , 理想發現基本的端到端、增加數據模范學習的方式面臨著邊際效應 , 技術提升再次出現了瓶頸 。
研究人員發現:在輔助駕駛任務上 , 很多場景的數據是稀疏的 , 自然采集到的數據不足以訓練 AI , 但這些少見的場景(CornerCase)正是輔助駕駛需要改進的重點 。 在構建 L4 級的自動駕駛系統時 , 這些問題都需要得到解決 。
面對缺乏數據源的挑戰 , 理想的思路是從單一的數據閉環中走出來 , 進入更加系統的訓練閉環 。 后者不僅意味著數據采集 , 還包含在給定訓練目標的情況下 , 不斷通過環境生成和環境反饋來進行迭代 , 最終達到訓練的目標 。
這種閉環的核心在于訓練目標的達成 , 而不是單純收集新的數據 。

具體而言 , 理想希望構建一套具備先驗知識和駕駛能力的 VLA 車端模型 , 并構建云端世界模型的訓練環境為其進行訓練 。 訓練環境中既包含采集到的真實世界數據 , 也包含合成數據 , 又包含可以跟隨模型一起探索的數據 。 然后 , 通過強化學習的體系 , 包括 RLHF/RLVR/RLAIF 等范式 , 可以不斷訓練模型 , 最終實現迭代訓練的目標 。
這套基于世界模型的龐大系統 , 其中要用到的技術會涉及到環境構建、智能體構建、反饋構建以及場景的多種推演 。 它主要支撐三種關鍵內容的產出:
具備區域級別的仿真和評估 , 能夠讓車端模型在其中進行長時序的擬真評測; 具備合成新數據的能力 , 能構建多樣的場景集 , 讓 AI 做到舉一反三; 能成為強化學習的世界引擎 , 讓模型在其中自由探索、獲得反饋 。根據上述目標 , 就需要有多種關鍵的模塊和技術棧提供支持 , 比如場景重建能力、多傳感器渲染能力、多模態生成能力、交通智能體、3D 資產庫、評價反饋系統等等 。 與此同時 , AI 基礎設施的算力和效率也至關重要 。
首先是環境的重建 。 自 2023 年起 , 理想團隊一直在探索 3DGS 在自動駕駛重建領域的工作 , 最近一段時間 , 理想探索了重建 + 生成的路線 , 其新一代 AI 系統既具備重建的穩定性 , 又有生成的泛化能力 。

隨著 VGGT 等優秀的三維 Feedforward 的工作發展 , 理想也在探索下一代更加依賴生成的世界模型渲染系統 。 今年 , 理想參與的研究《Hierarchy UGP: Hierarchy Unified Gaussian Primitive for Large-Scale Dynamic Scene Reconstruction》就被 ICCV 大會收錄 。

Hierarchy UGP 的核心思想是構建一個由根層、子場景層和圖元層組成的層次結構 , 并使用在四維空間中定義的統一高斯圖元(UGP)作為表示 。 這種設計極大地增強了模型容量 , 能夠建模大規模場景 , 并重建任意動態元素 。
在構建仿真系統的同時 , 理想自動駕駛團隊也在大量應用合成數據 。
理想目前已經可以做到通過提示詞(Prompt)直接生成全部的視頻和點云 , 這類應用會用于一些少見但重要的場景 , 比如面對一些新法規準入條件 , 新的地區環境等等 。

有了世界模型的合成數據能力后 , AI 模型在訓練的數據配比上更為合理 , 理想的輔助駕駛系統在實際道路表現的穩定性和能力的泛化上均有了很大的改善 。

正如 AI 先驅者們的觀察 , 在新架構上 , 訓練閉環的效率是技術迭代的關鍵 。
在現實世界數據「耗盡」之后 , 隨著合成數據能力的增強 , 數據分布的配比改進 , LiAD 的輔助駕駛能力還會越來越強 。 新的 VLA 方案推動了 Data Scaling Laws 的持續延伸 —— 在自動駕駛的場景下 , 數據量越大 , 輔助駕駛能力就越強 。
從前沿成果到未來方向
自 2021 年起 , 理想汽車自動駕駛團隊的前沿探索成果越來越多 , 僅中稿學術會議的就有 32 篇 , 其方向正在從感知 BEV E2E 任務 , 擴展到 VLM/VLA/ 世界模型等前沿方向 。
本屆 ICCV 大會上 , 理想自動駕駛團隊共有五篇論文入選 。 除了在 workshop 中介紹的 Hierarchy UGP 之外 , 其研究成果還覆蓋了 3D 數據集、端到端自動駕駛框架、3D 重建、視頻模擬等方面 。
在論文《3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views》中 , 研究人員提出了業界首個大規模 3D 真實汽車數據集 3DRealCar 。 它通過對 2500 輛汽車 , 三種不同光照條件下的精細 3D 掃描 , 獲得了貼近真實世界水平的汽車圖像和點云 , 可幫助人們實現高保真的 3D 重建 。

在論文《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》中 , 研究人員提出了端到端自動駕駛框架 World4Drive , 它利用視覺基礎模型構建潛在世界模型 , 用于生成和評估多模態規劃軌跡 。

World4Drive 首先提取場景特征 , 隨后基于當前場景特征和駕駛意圖生成多模態規劃軌跡 , 并在預測多個未來狀態 , 它還引入世界模型選擇器模塊來評估和選擇最佳軌跡 , 可以實現無需感知標注的端到端規劃 。
論文《HiNeuS: High-fidelity Neural Surface Mitigating Low-texture and Reflective Ambiguity》中 , 作者提出統一框架 HiNeuS , 解決了復雜場景下神經表面重建的多個持續挑戰:既可以透過連續遮擋建模后面的形狀 , 也能把規則形狀正確對齊好 , 還能在不犧牲全局內容的情況下保持細節 。

論文《RoboPearls: Editable Video Simulation for Robot Manipulation》中 , 作者提出了用于機器人操作的可編輯視頻模擬框架 RoboPearls , 它基于 3DGS 構建 , 能夠從演示視頻構建照片般逼真、視圖一致的模擬 , 并支持各種模擬算子 , 包括各種對象操作 。

在 ICCV 上 , 理想除了展示一系列研究之外 , 也聚焦了幾個新方向 。
現在的輔助駕駛領域里 , 最具挑戰的應用場景是強化學習引擎 。
現有的仿真場景對泛化性要求不高 , 合成數據可以不要求實時性 , 可以通過更大規模的模型和 pipeline 來優化 。 但是 , 強化學習既要求泛化性也要求時效性 , 還要求大規模的并發 。 因此理想認為 , 強化學習引擎最關鍵的五個因素在于:世界模型、3D 資產、仿真智能體、獎勵模型和性能優化 。

其中 , 世界模型、3D 資產和仿真智能體主要解決環境是否真實的問題 , 獎勵模型則會直接對強化學習產生最重要的影響 , 性能優化是決定強化學習能否大規模應用的關鍵 。 理想正在持續推進這一系列技術難題的攻關與突破 。
交互式智能體是目前業界面臨的另一大挑戰 , 這可能是一個比單車 L4 還要困難的問題 。 理想認為 , 可以通過調整強化學習 reward 的方式約束多個智能體的行為 , 改變 Agent(智能體)的行為分布 , 達到樣本多樣性 , 從而實現減少主動碰撞 , 提高運行效率等效果 。
詹琨表示 , 理想正在開展的交互智能體工作 MAD 很快就會發表 。
或許過不了多久 , LiAD 又會迎來一次技術突破 。
驅動行業進化
2023 年 1 月 , 理想定下了「成為人工智能企業」的目標 , 作為全球首個展示 VLA 輔助駕駛范式的車企 , 理想在 AI 領域的長線投入與產出 , 已經證明了其布局 AI 的決心 。
從投入占比來看 , 理想的研發資金近一半投在了人工智能領域 , 已經建起的四支 AI 團隊分別負責輔助駕駛、理想同學、智能工業和智能商業 。
從實際落地的效果看 , 理想的兩大戰略級 AI 產品 —— 輔助駕駛和理想同學自 2024 年以來快速迭代 , 都取得了重大技術突破 。 今年 8 月份 , 隨理想 i8 正式交付的 VLA 司機大模型 , 讓理想汽車成為了行業首個推送 VLA 司機大模型的汽車企業 。 在這之前 , 基于 MindGPT 的理想同學還走出了車機 , 上線了手機 App 。
更進一步 , 理想在 AI 技術突破的同時也在推動著行業的發展 。 其公開的研究成果、開源的項目已經在引領未來自動駕駛技術的方向 。 理想開源的部分輔助駕駛代碼和數據庫 , 已經被超過 3200 名開發者收藏或調用 , 其提出的 VLA 范式 , 也在逐漸成為行業共識 。
【L4大方向有了:理想自動駕駛團隊,在全球AI頂會上揭幕新范式】未來 AI 帶來的生產力大升級 , 會有理想出的一份力 。

    推薦閱讀