專訪銀河通用王鶴:真正能“干活”的機器人,不怕價格戰丨涌現36人

專訪銀河通用王鶴:真正能“干活”的機器人,不怕價格戰丨涌現36人

文章圖片

專訪銀河通用王鶴:真正能“干活”的機器人,不怕價格戰丨涌現36人

涌現(Emergence) , 是生成式AI浪潮的一個關鍵現象:當模型規模擴大至臨界點 , AI會展現出人類一般的智慧 , 能理解、學習甚至創造 。
「涌現」也發生在現實世界——硅基文明一觸即發 , AI領域的創業者、創造者 , 正在用他們的智慧與頭腦 , 點亮實現AGI的漫漫征途 。
在新舊生產力交替之際 , 《智能涌現》推出新欄目「涌現36人」 , 我們將通過與業界關鍵人物的對話 , 記錄這一階段的新思考 。
文|王方玉
編輯|蘇建勛
“除了跳跳舞、翻翻跟頭 , 人形機器人還能干什么?”
北京大學助理教授、銀河通用機器人創始人及CTO王鶴可能是最有資格回答朱嘯虎上述“靈魂拷問”的人 。 由他創立的銀河通用是國內具身智能賽道的獨角獸 , 也是行業第一梯隊中最專注機器人“腦”的一家 。
自2023年5月成立至今 , 銀河通用只發布過一款機器人本體產品Galbot(G1) , 卻發布了多款具身大模型 。 公司將大部分資源和資金投向了具身大模型研發 , 致力于提升機器人的通用性和泛化性 。
銀河通用創始人王鶴 圖源:企業授權
在王鶴博士看來 , 人形機器人卷本體的結果是把機器人賣出鋼鐵原材料的價格 , 目前市場上已經出現了價格戰的苗頭;只有具身智能模型能力的提升 , 才能賦予人形機器人更高的價值 。
通用具身大模型是人類前沿技術的“無人區” , 背負這一宏大命題的王鶴 , 談起具身模型當下的發展 , 卻是出人意料的“保守”和務實:
“我特別不建議去講具身的AGI , 很多公司都希望一步實現具身的AGI , 這一點我不認同 。 ”
“具身智能模型還有很多不成熟的地方 , 距離什么活兒都能干可能需要五年到十年的時間 。 ”
“大量的科研成果在過去這么長的時間里一直有出現 , 但可規模化生產的產品卻一直沒有落地 。 ”
當下 , 不少國內具身智能模型廠商熱衷于“秀肌肉”:通過“疊衣服、刮胡子、拉拉鏈”等復雜操作的demo(樣片)來展示其模型的泛化能力;銀河通用則埋頭于攻克“不那么復雜”的移動、抓取、放置技能 , 其對具身操作模型的命名一點也“不性感”——抓取基礎大模型GraspVLA 。
王鶴對《智能涌現》直言 , 銀河通用也在研發用衣架掛衣服的技能 , 但這種復雜操作只是一種科研成果 , 距離落地和產品化還有很遠距離 。
目前具身智能模型最接近場景落地的技能就是相對“簡單”的MobilePick and Place(移動、抓取、放置) 。 銀河通用正致力于將MobilePick and Place技能在藥店、零售等部分場景率先落地應用 。
據介紹 , 銀河通用聯合合作伙伴推出了全球首個人形機器人智慧零售解決方案 , 目前已經在北京開了近10家由機器人進行24小時無人值守的藥店 , 銀河通用的人形機器人不間斷自動精確揀藥 , 并交付給騎手 。
公司計劃今年在北京、上海、深圳等城市共開100家無人值守零售店 。 目前這一應用場景已經實現了市場化 , 預計今年將為銀河通用帶來近億元人民幣的收入 。
在前不久的智源大會開幕式現場 , 銀河通用機器人Galbot在主論壇舞臺進行了現場直播真機演示 。 機器人在王鶴的語音指令下自主、精確地移動到準確位置并將飲料從貨架取出 , 實現了復雜貨架抓取與交付的全流程自主執行 , 全程無遙操 , 無需場景數據預采集 。
銀河通用在智源大會現場展示抓取和交付 圖源:企業授權
王鶴坦言 , 具身智能進入任何一個場景 , 都需要進行一些數據上的準備 , 才能打造百分百成功的產品 。 Mobile , Pick and Place技能還在持續更新中 , 銀河通用選擇從零售業的貨架場景做起 , 逐漸提升操作的泛化性 。
在王鶴看來 , 能把Mobile , Pick and Place這類“簡單”操作的泛化性問題徹底解決 , 就已經是整個人類具身智能和機器人歷史上的的重要里程碑 。 據他測算 , 這一技能的成熟可以打開數千億元的新市場 , 在零售、前置倉、車廠SPS分揀等多個場景中幫助人類完成繁重勞動 。
從泛化性的角度衡量 , 如果無所不能的人形機器人是100 , 掌握Mobile , Pick and Place技能的機器人是10 , 在零售業的貨架場景進行Mobile , Pick and Place的落地僅僅是“1” 。
當下的銀河通用 , 已實現“從0到1”的突破 , 正向通用具身智能的終極目標邁進 。
【專訪銀河通用王鶴:真正能“干活”的機器人,不怕價格戰丨涌現36人】以下是《智能涌現》和銀河通用創始人及CTO王鶴的對話 。 內容略經編輯:

迎賓表演市場只是曇花一現 , 要訓練機器人做高價值工作《智能涌現》:公司現在員工規模有多大?
王鶴:我們現在百余人 。
《智能涌現》:好像比同一梯隊的同行要少一些 。
王鶴:現階段我們還是聚焦產研團隊 。 銀河通用目前 , 推出了一款人形機器人產品Galbot G1 , 圍繞著在工業、零售、服務業等場景的核心需求出發 , 主打技能是移動、抓取、放置等 。
我認為這個技能可以在工業、商業、服務業等各種廣闊的場景里 , 構建一個完整閉環的Skill Set技能集 , 而不是去做很多發散的小技能 , 或者是多種多樣的全品類的機器人產品 , 因為這樣會導致用人規模大很多 。
《智能涌現》:銀河通用只做了一款本體 , 但發布了多款模型 , 是把更多資源傾斜在模型上嗎?
王鶴:其實公司里做“硬件”的成員反而比做“軟件”的更多 , 這個可能跟外界的想象不一樣 。 外界可能認為銀河通用只做一款產品 , 所以需要的硬件工程師不多 。 實際上我們和很多同行的機器人標準不一樣 。
如果機器人只用作科研、硬件平臺 , 以及秀5分鐘的demo這種呈現形式對于產品的可靠性不要求高 。 這和一個真正能24小時工作的機器人可靠性差距非常大 , 因為它不能落地應用 。
銀河通用的硬件圍繞著一款產品進行了多輪次、密集的迭代升級 , 這樣我們才能真正實現機器人在無人值守藥店場景里24小時工作 。 假如硬件出現問題 , 需要工程師來現場修理 , 這樣成本會很高 。 所以我們產品的設計初衷 , 就按照造車規級、甚至是高于車規級的標準去打造人形機器人產品 。
《智能涌現》:從資金投入上呢?
王鶴:作為一個具身大模型公司 , 我們投入最大的還是模型的研發 。 但這塊不是靠堆人 , 因為沒有一家公司是靠堆模型訓練的員工來把模型做好 。 而是要建立整個從數據的基建到模型訓練、測試 , 一整套閉環的團隊 。 這里面算力費用占比很大 。 事實上 , 做模型的一些頂尖的天才級的人物 , 他們在哪一家公司的人數都不多 。
《智能涌現》:重視合成數據是銀河通用很鮮明的一個標簽 。 不過很多同行也都說自己會用仿真數據 , 再結合一些互聯網視頻、真機數據等 , 大家的區別在哪里?
王鶴:合成數據這個東西 , 不會的人用不好它 , 所以有人會說什么仿真“有毒”等等 。 銀河通用能取得現在的成績 , 合成數據在其中扮演了非常重要的角色 , 基于我們自主研發的合成數據技術 , 我們的具身大模型的訓練成本得以極大降低 。 同時我們也強調虛實融合 , 這讓我們的具身大模型能真正跑在全球的領先地位 。 這正說明我們真正能用好合成數據 。
比如互聯網視頻數據誰都可以下載 , 比它有一點門檻的是遙操 。 我們目前在商超、零售環境部署的具身機器人用到了遙操的真實數據 , 但它的比例遠低于仿真合成數據 。
合成數據的方式需要廠商有比較好的圖形學、物理仿真、物理渲染和自動動作合成管線 , 包括驗證閉環的一系列全套的基建 , 需要長期的積累和核心技術know-how 。 這些積累 , 也是銀河通用為什么能把模型做得更好、而且更泛化的一個關鍵原因 。
銀河通用Galbot機器人 圖源:企業授權
《智能涌現》:你們的機器人本體是輪式底盤的 , 可以理解銀河通用更加注重發展機器人的上肢操作能力嗎?
王鶴:要看是在哪一端側重 , 在產品端我們以落地的需求作為指引 。
現在客戶絕大多數考慮到企業自身的需求 , 比如在工廠和商超零售場景做一些移動、抓取、放置工作 , 都是要求底盤式的 。 雙足機器人容易產生噪聲 , 且續航還短 。 而我們的輪式底盤的機器人6-8個小時才充一次電 , 相較雙足式有天然優勢 。
從研發的角度衡量 , 銀河通用是全棧布局整個具身智能 , 針對雙足人形機器人也有布局 , 但現階段它并不是產品端真正可以廣泛應用的產品 。
《智能涌現》:迎賓、表演是今年新興起來的場景 , 同行們都在大力進軍 , 銀河通用為什么沒搶占這個場景?
王鶴:我的看法是 , 現在這些炫酷的場景是曇花一現 。 市場最終不是靠一波流量來取勝的 , 真正能夠留存下來靠的是好的用戶體驗 。
銀河通用始終重視用戶體驗 。 比如大堂的迎賓機器人有很多 , 但主要是做了一些不痛不癢的工作 。 我們在做的是次時代的接待機器人產品 , 要讓客戶愿意用 , 可以真正協助人來工作 。 只要能做到這一點 , 我相信廣闊的市場可以任你遨游 。
所以我們并不是說不做 , 而是已經在布局 , 目前處于由很多點的技術形成線 , 正在線形成面的一個過程中 。

“移動、抓取、放置”的市場空間很大 , 但技術還未完全成熟《智能涌現》:投資方給我們商業化的壓力大嗎?
王鶴:投資人給了我們很大的支持 , 這些支持不僅在財務投資上 , 也有戰略協同資源上 。 目前 , 我們已經有扎實的落地成果 , 公司今年應該能有可觀的收入規模 。
《智能涌現》:教育和科研市場呢 , 你們有沒有布局?
王鶴:我覺得還是大家對于優先級的認知不一樣 。 教育市場到底是一個多profitable的市?。 克奶旎ò迨嵌嗌傯ǎ渴導噬?, 已有充分多的雙足企業加入了對教育市場的角逐 。 銀河通用會聚焦于自己有優勢的領域 , 從需求的角度出發 , 讓機器人真正滿足目前市場中存在的痛點 。
銀河通用關注的不是把人形機器人本體當做鋼鐵原材料一樣的賣 , 因為人形機器人卷下去的后果是 , 大家以后都趨向于按材料成本定價 。 我們期望的是人形機器人能發揮有價值的工作 , 讓具身智能真正創造智能化的價值 。
《智能涌現》:您看到現在市場上有這種價格戰的趨勢嗎?
王鶴:是的 , 現在是在瘋狂降價 。 現在降到了小幾萬 , 未來可能有人報價更低 。 我們其實是樂見整個行業通過快速的硬件迭代 , 讓硬件成本快速下降的 。 供應鏈的降本對于銀河通用也有利 。
問題在于這個售價的機器人到底能解決什么問題 。 我們現在專注做的是高價值的事情 , 我們一臺機器人售價是大幾十萬元 , 客戶仍然很愿意用 , 因為這顯著緩解了三班倒員工的用人成本壓力 。 這也是我們(預期)能夠實現億級收入的原因 。
《智能涌現》:你賣幾十萬 , 為什么客戶還能接受?
王鶴:我上面也提到過 , 別家賣便宜的人形機器人 , 用戶對它的心理預期和我們做場景落地的機器人的心理預期是不一樣的 。 我們的產品成熟度和可靠性的要求是不一樣的 。
銀河通用的機器人可以連續工作一個月不出一次差錯 , 這是我們核心競爭力優勢 。 我把我們的機器人叫“場景落地機器人” , 市面上用于科研和商場表演的那種 , 叫做“研發平臺型機器人” 。
《智能涌現》:你們主打的技能就是圍繞著移動、抓取、放置 , 但也有觀點認為這類“PPT操作”(即Pick抓取、Place放置和Transfer轉運)可以解決的實際問題、適應的應用場景非常有限 。
王鶴:首先我不認可“PPT操作”的說法 。 我更傾向于用“Mobile , Pick and Place” , 這也是國際上大家認知里更通用的表達 。
現在在零售、倉儲、車廠SPS分揀等場景中 , 我們看到的是大量的員工在做“移動、抓取、放置”的工作 。 如果有人認為這個市場可以開發的空間不大 , 那可能是因為他們沒有真正了解市場需求 。 我看到的是一個數十萬臺的潛在市場 , 比現在全球工業機器人的總產值還要高 。
《智能涌現》:這類“移動、抓取、放置”的機器人為什么還沒有廣泛落地應用起來?
王鶴:“Mobile , Pick and Place”技能還遠未成熟 , 即使是技術比較領先的谷歌Deepmind的RT機器人也做不到落地 。 像銀河通用在智源大會現場展示的智慧零售 , 讓機器人負責取貨、送貨、上架 , 目前我沒見其他廠商可以復現 , 特別是勇于在現場直播演示 。
《智能涌現》:很多廠商會炫一些機器人拉拉鏈、刮胡子和疊衣服等更復雜的操作 , 他們投資方也將此視為比較高的技術成果 。
王鶴:現在很多廠商在把不能落地的、不能產品化的一些科研亮點 , 說成是他們的產品 。 我們需要思考 , 疊衣服機器人到底什么時候產品化?現階段它能達到效率要求、平整度要求和泛化性要求嗎?
因為有這個科研成果 , 所以機器人產品就更好賣 , 這個邏輯是不成立的 。 實際上 , 大量的科研成果在過去這么長的時間里一直有出現 , 但可規模化生產的產品卻一直沒有落地 。
我們其實也在研發新的技能 , 也會用衣架掛衣服 。 銀河通用的合成數據背后有上百萬件的衣服的虛擬資產 。 但實話實說 , 疊衣服要做到實用、可落地的程度 , 誰都還沒有做到 。
《智能涌現》:銀河通用對外披露的落地場景 , 主要在藥店、工廠和零售場景 , 這些場景哪些是市場化的 , 哪些還處于POC(Proof of Concept , 概念驗證)階段?
王鶴:藥店和零售場景已經是完全市場化了 , 我們的收入很大一部分來自這塊 。
工廠場景驗證還處于POC階段 , 因為工廠場景有些工作對于節拍、準確度和可靠性要求是很高的 。 特別是在高精尖制造當中 , 像新能源車的生產線 , 停工哪怕一分鐘 , 都會帶來巨大的損失 。 包括特斯拉和Figure AI , 大家都處在POC階段 , 都在打磨產品 , 讓它最終可以整合到新開的產線當中 。
銀河通用率先在全球交付了很多行業標桿性POC項目 , 比如某國際知名車企場景里的SPS分揀POC、奔馳的搬物料箱子和天窗轉運的POC、極氪的搬運POC 。 銀河通用的進展是相當快的 。 但這個場景真正轉化進入產線還需要一定時間 。
《智能涌現》:這些車企不是你們的投資方 。
王鶴:對 , 剛剛提到的幾家車企合作方都不是我們的投資方 , 汽車廠商本身有很強的自動化的需求 , 所以和我們建立了戰略性的合作關系 。

具身智能行業相對“混亂” , 真正愿意做實事的人少《智能涌現》:你們發布過多個模型 , 除了具身抓取基礎大模型GraspVLA , 其他模型有商業化嗎 , 比如剛發布的產品級端到端導航大模型TrackVLA 。
王鶴:TrackVLA我們會把它往C端的產品去打造 。 它能夠在場景里跟人有很好的互動 , 包括做一些從工業巡檢到商超的跟隨搬運等等能力 。 我們現在也在跟合作方宇樹科技 , 包括跟場景方一起去推動TrackVLA模型的應用 。
我們的模型也可以跨不同的機器狗泛化 。 導航能力相較于操作能力更易于泛化到不同的本體上 。
《智能涌現》:星塵智能和智元機器人都和Physical Intelligence(PI)合作了 , 用上頭部的模型是不是可以更快商業化?
王鶴:我不了解他們和PI合作的具體細節 。 我了解到PI在廣泛的地收集各個廠家的真機數據 。 從數據的角度 , 我不認同PI的做法 。 跨本體的、大量的、不同的機器人數據 , 對于機器人的訓練來說是一個低質數據 。
《智能涌現》:現在全球第一梯隊的具身智能模型能力 , 如果類比AI大模型 , 處于哪個階段?
王鶴:這很難去類比 , 具身智能模型涉及的維度更高 。
例如在自動駕駛領域 , 大家會講L1-L5 , 自動駕駛是圍繞著開車這一件事 , 而具身智能涵蓋了非常多的事 , 你可以做好“Mobile , Pick and Place” , 但不一定能抱小孩、扶老人起床 。
在具身智能的每一款產品上都有L1到L5的不同層級 。 我們的期望是 , 具身智能產品能夠被稱作產品時 , 至少應該達到L4的水平 , 即具備自主性 , 而非僅僅是輔助 。
相較于大型語言模型 , 我認為通用具身智能的實現是一個長期的技術進步的過程 , 而非短暫的智能爆發 。
《智能涌現》:所以具身智能模型的“ChatGPT時刻”還有較遠的距離 。
王鶴:是的 。 ChatGPT展現了通用問答的能力 , 而具身智能模型想要什么活兒都能做 , 從硬件和傳感器到數據采集還有很多事情要做 , 還有很多不成熟的地方 , 它可能需要五年到十年的時間 。
我們人類干活的時候 , 實際上除了視覺、語言、動作(即Vision-Language-Action) , 還有聽覺、嗅覺、味覺、觸覺以及對溫度的感知 , 在不同的任務中都有去不同程度的使用 。 所以VLA模型只是一個起點 , 如果想達到人類級別的具身智能 , 那還需要不斷融入新模態 。
那VLA現在能干什么呢?我覺得是把“Mobile , Pick and Place”先做得非常泛化 , 在一個可批量復制的場景里做好 , 比如所有零售店、所有工廠的分揀線 。 如果這個能達到 , 這會是整個人類具身智能和機器人歷史上的的一個里程碑 。 它的意義不亞于我們今天機器人實現了“黑燈工廠” 。
《智能涌現》:業內同行都在往這個里程碑的方向走嗎?還是在追求一些別的技術突破 。
王鶴:我覺得行業里真正愿意做實事的人少 , 愿意賣硬件、賣平臺的人多 。 把東西賣給用戶后 , 用戶怎么用它不需要對功能負責了 , 這種廠商多 。 真正愿意去做模型的廠商里 , 做學術研究的人多 , 真正做能落地的模型產品的人少 。 這兩個“少”都導致了具身智能行業相對“混亂”的局面 。
《智能涌現》:“Mobile , Pick and Place”要在服務業 , 諸如藥店、便利店落地 , 還有哪些待改進的地方嗎?
王鶴:具身智能進入任何一個場景 , 都需要進行一些數據上的準備 。 不管是合成數據 , 還是真機數據的小規模采集 , 甚至不排除做場景中的強化學習 , 才能打造成一個百分百成功的產品 。
我們目前追求的并不是所有的“Mobile , Pick and Place”都做 , 而是先圍繞著貨架 , 甚至是超市的貨架 , 先保證它很好的泛化 , 最后才是我們日常環境中各種地方放的東西 。 所以這條路沒有大家想得那么簡單 。
《智能涌現》:在“Mobile , Pick and Place”之外 , 銀河通用的下一個Milestone會是什么操作 , 做了哪些技術的儲備?
王鶴:銀河通用有數位業界頂尖學者 , 大家在一起推動科研創新的進程 。 從研究上講 , 我們會不斷地推進新的技能 , 包括足式機器人 , 靈巧手的研究——這也是我獲過多次Best Paper的殊榮 , 更加終極的末端、本體上面的技能的學習 。
對于研發 , 我們的戰略就是引領 , 并且永遠保證在一線 。 銀河通用的使命是讓通用機器人服務千行百業 , 千家萬戶 。

    推薦閱讀