
文章圖片

文章圖片
【聊模型的王興興】《智能涌現》制圖
王興興表示 , 宇樹雖然對于模型的投入保持謹慎狀態 , 但其實“模型團隊人數算多的” 。
文|邱曉芬
編輯|蘇建勛
當行業里都認為 , 宇樹是一個做機器人本體的公司 , 宇樹科技創始人王興興 , 在世界機器人大會(WRC)期間的一番言論 , 打破了這刻板印象 。
WRC上 , 王興興在他的主題演講中 , 將大段篇幅留給了模型、算法和數據 , 其中不少觀點引起了行業廣泛討論——
比如 , 對于當前機器人大火的VLA(Vision-Language-Action)路線 , 王興興直言 , 他持有一定的懷疑態度 。 他甚至認為 , “這是一個相對傻瓜式的架構” 。
原因是具身領域的現存數據量不夠 。 王興興認為 , 當VLA模型與真實世界交互的時候 , 背后的數據質量、數量 , 并不太夠用 。
這已經是個共識 , 但不少具身公司都瘋狂用堆真機數據、仿真數據、甚至建數采廠的方式來彌補 。
王興興對此也直言不諱——“大家對于基礎數據的關注度太高了” , 相反 , 他認為應該把焦點放在具身機器人的模型架構上 , 因為現在的模型“不夠好、也不夠統一” 。
“宇樹的模型團隊其實不算小”此前王興興在公開場合中多次強調 , 宇樹的核心優勢在于機器人本體硬件而非大腦 , 過往的種種表述 , 很容易讓外界產生 , “宇樹不做機器人大腦”的印象 。
而在WRC期間 , 王興興向《智能涌現》等媒體表示 , 宇樹雖然對于模型的投入保持謹慎狀態 , 但其實“模型團隊人數算多的 , 但相比于AI大廠算少的 。 ”
△王興興接受媒體采訪中 《智能涌現》拍攝
但是 , 他也堅信 , 在模型上部署人員數量多寡 , 與最終的結果并不強掛鉤——至少 , 從過去AI領域的經驗來看 , 創新不一定在大廠中發生 。
“不是資源多、錢多、人多 , 就能做出全球最好、最早的技術 , 一個中小型團隊 , 也是有概率做出更好的模型 , 只是壓力也會很大 。 ”王興興對《智能涌現》等媒體說到 。
在大腦的路線選擇上 , 王興興選擇多方下注 , 他的另一個引發行業熱議的論點 , 有關當下最熱門的“VLA” 。
王興興并不認同行業里在VLA模型還不夠好的情況下 , 就瘋狂堆一大堆數據去訓練 。 因為 , 對于一個能力更強的具身模型來說 , 或許只要很少的數據 , 就能以更高的成功率做訓練 。
當然 , 宇樹不是完全不使用VLA , 在演講中 , 王興興也提到 , 宇樹也在嘗試在VLA模型上 , 加AI進行訓練 。
不過 , 在大腦路線上 , 宇樹顯然會更傾向于視頻的路線 。 去年 , 谷歌已經發布了視頻驅動的世界模型 , 王興興說 , 早在去年 , 宇樹已經嘗試了類似的方法 。
具體而言 , 就是先讓視頻生成模型生成一個「機器人整理房間」的視頻 , 再用這個視頻去驅動機器人 , 完成整理房間的任務 。
△王興興演講截圖
王興興判斷 , 這種視頻的路線 , 未來或許會比VLA的路線發展更快、收斂的概率更大 。 只是 , 這種視頻的路線也不是100%完美 。 由于對視頻質量要求過高 , 會導致GPU消耗過多 。
但未來機器人的算力問題如何解決 , 王興興也有了一定的預期 。
他判斷 , 未來機器人領域 , 需要搭建低成本、大規模、分布式的算力集群 。 他認為 , 未來如果一個工廠里有 100 個機器人 , 那工廠里面大概率可以搭建一個分布式的服務器集群 , 因為機器人需要更低的通訊延遲 。
宇樹機器人 , 只表演 , 不干活?從今年春晚的機器人扭秧歌丟手絹 , 再到今年WAIC、WRC大火的機器人格斗 , 這讓很多人以為 , 宇樹的機器人不干活 , 只做表演 。
尤其是 , 一眾新入局者 , 都在費盡心思把機器人送進工廠擰螺絲、疊衣服、疊被子 , 形成了對比 。
王興興直言 , 現階段要讓機器人進工廠、進家庭干活 , 并不太現實 , 而在當前 , 表演則是機器人相對容易落地的方向 。
相反 , 在宇樹的內部 , 思考如何讓機器人干活的員工 , 也是最多的 。
他也解釋了為什么宇樹很少對外宣傳機器人干活的場景——“機器人干活 , 對于AI模型的挑戰很大 , 目前我們的實現也并不理想 。 ”
對于“干活”這件事 , 王興興提出了自己的看法——他希望 , 機器人不應該只做單功能性的事情 , 比如整理衣服、燒菜 , 而應該是通用型、多功能的 , 比如能在工廠端茶倒水 , 又能做表演 。
王興興這次也對機器人的節點下了判斷:機器人的ChatGPT時刻 , 最快可能2-3 年實現 , 最慢可能是3-5年 。 他認為 , 這波具身智能浪潮 , 不會超過10年 。
不過 , ChatGPT時刻長啥樣?
王興興設想了一個畫面——在一個場館里 , 人形機器人隨意走來走去 , 你隨機吩咐一個機器人做點事情 , 他都能幫你完成時 , 這才達到了機器人的“臨界點” 。
封面來源|作者拍攝
歡迎關注
推薦閱讀
- iPhone 18 Fold明年發布 蘋果首款折疊屏手機真的要來了
- 研究者警告:強化學習暗藏「策略懸崖」,AI對齊的根本性挑戰浮現
- 偷數據的AI公司被抓到了
- Portégé Z40L-N 深度體驗:拓展商務筆記本的全能邊界?
- 搶占趨勢,就是搶占用戶心智的窗口期
- 新版微信輸入法體驗:張小龍站臺的產品,承載著微信AI的野心?
- 大型語言模型穩定強化學習的新路徑:幾何平均策略優化GMPO
- HKC T2755U顯示器深度評測- 4K 雙模,蘋果生態的創作搭子
- vivo Vision官宣8月21日發布 比蘋果的體驗還要好?
- 專訪星海圖趙行:熱鬧的Demo不等于泛化能力,具身智能勝負仍在數據量
