一副手套,干翻硅谷炫技派!中國隊殺入戰場,狂卷100萬小時數據

一副手套,干翻硅谷炫技派!中國隊殺入戰場,狂卷100萬小時數據

文章圖片

一副手套,干翻硅谷炫技派!中國隊殺入戰場,狂卷100萬小時數據

文章圖片

一副手套,干翻硅谷炫技派!中國隊殺入戰場,狂卷100萬小時數據

文章圖片

一副手套,干翻硅谷炫技派!中國隊殺入戰場,狂卷100萬小時數據

文章圖片

一副手套,干翻硅谷炫技派!中國隊殺入戰場,狂卷100萬小時數據

文章圖片

編輯:桃子 好困
【新智元導讀】硅谷具身智能玩家都在為「沒數據練手」集體焦慮 。 沒想到 , 這家中國黑馬成為了荒原的孤勇者 , 在最真實的作業流程中 , 開辟出100萬小時的原始礦脈 。


當Figure AI用390億美金估值描繪端到端模型的未來 , 當波士頓動力展示頭能360度旋轉的Atlas , 幾乎所有目光都聚焦在「大腦」與「身體」的進化上 。
但有一家中國公司 , 卻選擇另辟蹊徑:他們把寶押在了一副數據手套上 , 潛入物流倉庫和工廠車間 , 去采集工人最真實、一手的操作數據 。
2026年2月初 , 靈初智能創始人、CEO王啟斌向我們表示 , 「數據量不夠 , 模型層面的任何精巧架構調整都毫無意義」 。

他們正嘗試用「人類原生數據」的采集與訓練體系 , 直擊具身智能最根本的生存難題——數據荒 , 并在最樸素的物流倉庫里 , 驗證其商業與技術閉環的可行性 。



數據荒原上的抉擇:
放棄「夾爪」 , All in「人類原生數據」


整個具身智能圈 , 彌漫著一股相似的焦慮 。
隔夜的新消息總在加劇這種焦慮:Gen-0宣布手握27萬小時真實交互數據 , Sunday的UMI工具在社區病毒式傳播 , Physical Intelligence的π0.6展示了驚人的策略泛化能力 。 大洋彼岸的每一個新Demo , 都像在反復追問:我們的數據在哪里?
焦慮的源頭非常具體——機器人學習的命門 , 卡在了「數據」上 。
這與大語言模型的境遇截然不同 。 GPT們可以暢飲互聯網上近乎無限的文本與圖像 , 數據獲取成本極低 。 但機器人不同 , 它的每一次交互、每一個動作 , 都必須在物理世界中「一拳一腳」地打出來 。 這背后是硬件的磨損、時間的消耗和難以避免的試錯成本 。
獲取高質量機器人數據的難度和代價 , 與爬取網絡文本完全不在一個量級 。 這才是所有具身智能玩家必須共同面對的、最堅硬的現實 。
「所有人都在談論數據飛輪 , 但最難的恰恰是冷啟動」 , 王啟斌直言 。 這位在云跡科技、京東歷經機器人產業化多年的老兵 , 深知傳統項目制機器人方案的問題 。 每一個新場景都意味著硬件定制、算法重寫 , 無法形成規模效應與通用能力 。
2024年9月靈初智能成立時 , 團隊做出了兩個看似違背當時潮流的決策:不優先解決問題 , 而是專注「操作」這一更核心的難點;不做簡單易行的夾爪 , 而是堅定地選擇五指靈巧手 。
「我們瞄準的是一個價值十億美元級別的問題」 , 王啟斌判斷 , 具身智能將是一個以十年為單位的漫長賽道 , 而當下整個產業仍處于「硬件初步可用、數據剛剛起步、模型遠未成熟」的極早期階段 。
行業主流的數據采集方案是「機器人中心(Robot-Centric)」 , 典型代表是UMI模式:讓人手持一個與目標機器人完全相同的夾爪進行操作 。 這套方案的優點是成本相對較低 , 但存在一個根本性缺陷——它采集的是「機器數據」 , 而非「人類數據」 。
聯合創始人陳源培一針見血地指出:「UMI的本質是人帶了一個工具 , 采集的是機器人夾爪的數據 。 它無法泛化 , 你今天用UMI采的數據 , 根本無法直接用到五指靈巧手上」 。
這位擁有跨界背景的00后 , 從土木工程轉向AI , 師從北京大學楊耀東教授 , 并在斯坦福大學李飛飛實驗室訪學 , 深度參與了早期觸覺數據手套的研究 。
因此 , 靈初智能選擇了一條更為激進的技術路線:「人類中心(Human-Centric)」 。

他們自主研發了全球首個靈巧手真實世界數采引擎Psi-SynEngine 。
其中的真人數據采集手套能夠精確捕捉人手的21個關節自由度、高精度觸覺信息 , 并同步記錄頭戴與手部視角的視覺數據 。
其革命性不在于硬件本身 , 而在于部署模式:讓物流分揀員、商超收銀員、家政服務人員在日常工作中無感佩戴 , 在不改變任何既有作業流程(SOP)的前提下 , 自然采集人類最本真的操作數據 。

成本是這套方案的殺手級優勢 。 王啟斌透露 , 通過手套采集數據的綜合成本 , 可以降至真機遙操作方案的十分之一左右 。
未來 , 通過可攜帶的便攜式眾包版本 , 這一成本還有進一步下探的空間 , 為百萬小時級數據采集掃清經濟障礙 。
更關鍵的是數據的「泛化性」價值 。 人手數據通過算法遷移(Retargeting) , 可以適配到不同構型、不同尺寸的機器人末端執行器上 。
而UMI采集的夾爪數據 , 則與特定硬件深度綁定 , 「今天用這個夾爪采的數據 , 明天換一個夾爪可能就完全作廢了」 。 在追求通用能力的長期戰中 , 人類數據的潛在價值呈指數級放大 。



從技術構想到商業落地:
將現有三個場景做深、做透


再理想的技術路徑 , 也必須在最苛刻的商業場景中接受考驗 。
靈初智能將落地切口精準地鎖定在物流行業的細分場景 , 例如配貨打包、裝箱檢查、按訂單分揀 。

「外界大大低估了物流場景的復雜性 , 這絕不僅僅是簡單的『抓取-放置』(Pick and Place)」 , 王啟斌解釋 , 以不少公司都宣稱要做商超場景為例 , 看似只是補個貨 , 真實作業卻是一長串的復雜操作鏈:整箱補貨、商品上架、掛鉤懸掛、冰箱內飲品整理乃至過期商品下架 , 每一步動作都不同、都在變化 。 對機器人而言 , 真正的挑戰是要持續穩定地完成整套流程 。
進展比預期更為迅速 。 在服裝供包這一場景中 , 靈初智能的系統已經實現了對上千種不同尺碼、材質、形狀服裝的穩定抓取與供包 , 每小時可以處理800件衣服 , 據稱這是目前國內該場景已知的最高效率水平 。 該系統已進入客戶現場「實戰跟跑」 , 進行最后的穩定性打磨 , 而裝箱檢查場景也已完成首階段驗證 。

「我們展示的不是實驗室Demo , 而是已經產生初步商業收入的解決方案」 , 王啟斌在肯定進展的同時保持了高度克制 。
他明確表示 , 2026年公司的策略是「收斂而非擴張」:不會盲目追求覆蓋場景數量的增長 , 而是集中所有資源 , 將現有的三個場景做深、做透 , 實現從POC到規?;l貨的完整閉環 。
在技術架構的深層 , 靈初智能展現出與其團隊年齡不相符的成熟與系統化思考 。

  • 訓練管線已全面轉向以強化學習(RL)為主導 。 「模仿學習做出的動作往往遲緩、卡頓 , 」陳源培解釋 , 「而強化學習能讓機器人通過自我探索 , 突破人類遙操作的速度上限 , 并通過持續優化獎勵函數(Reward) , 使任務成功率不斷爬坡」 。 公司目前采用「Offline to Online RL」的完整管線 , 從一開始就建立在海量數據集驅動的強化學習框架上 。

  • 仿真數據正在從訓練主力轉變為輔助角色 。 團隊早期曾利用仿真的高并行性快速驗證想法 , 例如「打麻將機器人」的Demo 。 然而 , 隨著對真實場景復雜度認知的加深 , 仿真與現實之間的鴻溝(Sim-to-Real Gap) , 尤其是在涉及軟體、柔性物體交互時 , 變得難以跨越 。 「未來真正有用的‘仿真’ , 可能是基于世界模型的想象推演 , 而非傳統的物理引擎 。 」陳源培表示 。

  • 對于「世界模型」 , 陳源培說 , 團隊關注所有進展 , 但人力重點投入在「跨本體上」 , 即如何將人類手套采集的多模態數據 , 高質量地遷移到形態各異的機器人靈巧手上 。 「這本質上是一個風格遷移問題 , 輸入是人手的操作視頻 , 輸出是目標機器人的動作序列 。 這是我們技術棧的護城河之一」 , 陳源培解釋 。

  • 觸覺數據的應用體現了其實用主義哲學 。 手套集成了觸覺傳感器 , 觸覺的核心價值在數據遷移的閉環糾偏中凸顯:當算法將人手軌跡映射到機械手時 , 若產生毫米級的位姿偏差 , 觸覺信號能夠提供「已接觸物體」的關鍵反饋 , 從而實時補償誤差 , 這是純視覺系統難以做到的 。 但團隊清醒地認識到 , 并非所有任務都需要高精度觸覺反饋 。 「有 , 肯定是最好的;但沒有 , 也并非不能工作』 。

在商業模式上 , 靈初智能旗幟鮮明地拒絕成為「數據批發商」 。 「純粹出售原始數據沒有長期價值」 , 陳源培判斷 , 「最終要么進化成能定義數據標準和格式的模型公司 , 要么退化為人力外包公司」 。
靈初規劃的閉環是:通過自研設備采集人類數據 → 訓練出具有強泛化能力的預訓練模型(大腦)→ 在垂直場景中通過「預訓練+少量場景數據微調」實現快速部署與商業化 → 商業落地產生的數據及收益反哺更大規模的數據采集與模型訓練 。




具身的智能涌現
百萬小時只是門檻


站在2026年初的時間點 , 靈初智能為自身與行業劃下了一道清晰且雄心勃勃的基線 。
【一副手套,干翻硅谷炫技派!中國隊殺入戰場,狂卷100萬小時數據】數據規模被確立為不可妥協的硬性門檻 。 「我敢肯定 , 通用操作能力的涌現一定是百萬小時量級以上的事情」 , 陳源培援引了自動駕駛領域的先例——特斯拉FSD V12驗證了端到端智能駕駛模型需要百萬小時級數據的喂養 。
而具身智能面臨的環境復雜度和動作維度遠高于駕駛 , 「這個數據量級只會更多 , 不會更少」 。
因此 , 公司2026年的首要戰略目標 , 就是將其人類原生數據的規模推至100萬小時 , 并基于此訓練出新一代的通用操作預訓練模型 。
產品路線圖已然清晰:2026年 , 發布一版能夠完成長周期復雜任務、展現強泛化能力的模型;同時 , 未來計劃推出具備類人交互流暢度、堪比當年ChatGPT震撼效果的里程碑式模型 。

談到可能來自互聯網大廠或跨界巨頭的競爭 , 靈初智能顯得很淡定 。
「具身智能領域存在著嚴重的『數據孤島』效應」 , 陳源培分析道 , 「物流場景的數據與工業裝配場景的數據分布差異極大 。
大廠或許能在內部搭建仿真環境或小型試驗場收集數據 , 但他們難以獲取真實業務場景中‘野生的’、高價值的數據流 。 」
「如果我們能先一步把機器人鋪進真實的物流倉庫、工廠車間 , 把住數據的源頭 , 這個雪球滾起來」 , 陳源培認為 , 「后來者哪怕資金再雄厚 , 他們獲取數據的成本、速度和質量 , 都會跟我們拉開差距 。
在具身智能這個領域 , 真實數據反饋壘起來的護城河 , 可能比算法論文的護城河還要深、還要寬」 。
靈初智能的路徑很「中國」:不玩炫技Demo , 看商業訂單;不空談AGI , 扎進物流、車間;不信算法神話 , 死磕數據基建 。
他們認準了 , 決定機器人未來的「原始礦藏」 , 就在這最苦最累的數據土壤里 。

    推薦閱讀