具身智能,騰訊「低調入局」

具身智能,騰訊「低調入局」

文章圖片


頭圖來源:騰訊Robotics X 官網
早在2700年前的古希臘神話中 , 工匠之神打造的青銅巨人Talos , 已經在克里特島上巡視、守衛領土 。 它擁有自主意識 , 被視為「最早的安保機器人」 。
騰訊首席科學家張正友用這個故事作為演講的開場 , 人類這種對機械智能體的渴望 , 從青銅鍛造爐一直延續到了今天的實驗室 。
這種渴望在今年的世界人工智能大會(WAIC)上 , 尤其強烈 。
機器人領域尤其是人形機器人成為了絕對的焦點 。 世博展覽館二樓H3館尤為震撼 , 匯聚了包括上海智元、傅利葉、杭州宇樹科技、深圳樂聚、北京人形機器人中心等十余家公司的超百臺人形機器人 。
當人形機器人以前所未有的熱度席卷科技圈 , 幾乎所有目光都聚焦于那個越來越像人的「新物種」時 , 騰訊Robotics X實驗室卻選擇了一條看起來不那么「時髦」的路 。
圖片來源:騰訊
7月27日 , 在WAIC 2025騰訊論壇上 , 他們正式發布了具身智能開放平臺Tairos , 一個代號「鈦螺絲」的軟件平臺 。 這是這家巨頭在長達七年的前沿探索后 , 對產業階段、自身定位和未來路徑的一次深度思考與戰略選擇 。

一、 機器人的「iPhone時刻」遠未到來「現在的機器人行業大概處在什么階段?」
面對這個問題 , 騰訊首席科學家、Robotics X實驗室主任張正友的回答很克制:「我覺得甚至其實還沒到‘大哥大’時代 。 」 他認為 , 行業的「iPhone時刻」遠未到來 , 甚至可能還看不到iPhone的影子。
這個判斷 , 是理解騰訊如今所有選擇的邏輯基礎 。
時間拉回2018年 , Robotics X實驗室剛剛成立 。 張正友坦言 , 那時行業一片荒蕪 , 甚至找不到一家成熟的機器人本體廠商可以合作 , 團隊不得不從硬件到軟件進行全棧自研 。
從多模態四足機器人Max到輪腿式機器人Ollie , 再到人居環境機器人原型「小五」 , 這些一度令人驚艷的硬件原型 , 更多是實驗室為了驗證和牽引技術研發而「開的坑」。 它們是研究載體 , 而非產品線上的商品 。
2023年成了分水嶺 。
大模型的浪潮讓具身智能一夜之間從學界、業界走向公眾 , 資本和創業者蜂擁而入 , 機器人硬件公司瘋狂涌現 。
騰訊團隊在走訪了全國超過六十家機器人企業后發現 , 一個巨大的市場缺口正在顯現:大量企業能將硬件本體打磨得非常出色 , 但在軟件和智能上的投入卻不足 , 因為這是一個需要長期、巨大投入的無底洞 。
具身智能的落地是一個極其復雜、環環相扣的系統工程。 從需要巨大投入的基礎模型 , 到效率低下、成本高昂的場景數據采集 , 再到缺少流程化工具的訓練仿真 , 以及令人「頭大」的真機部署和升級 , 每一個環節都藏著不少「坑」。
市場的需求變化 , 讓騰訊看到了新的可能性 。 既然行業的「黑莓時代」才剛剛開始 , 探索各種可能的硬件形態是所有玩家的必修課。 那么 , 與其過早下注某一種具體的機器人形態 , 不如退后一步 , 為所有「探索者」提供通用的「平臺」和「開發工具」 。
圖片來源:騰訊
這便是Tairos平臺的由來 。 張正友反復向媒體強調「產品化」與「商業化」的區別 。 「我們是不賺錢的 , ‘鈦螺絲’這個平臺不是以賺錢為目的。 」
他透露 , 實驗室成立七年來一直不以收入為目標 , 這是一項著眼于未來的技術儲備和戰略投資 。
在張正友看來 , 真正的智能 , 必須是身體與智能的緊密結合、和諧交融。 機器人的「心」(智能)必須知道「身」(本體)的狀態 。
這種「身心合一」的追求 , 對應他提出的一個關鍵技術理念——IPDE(Integrated Physical-Digital Embodiment) , 即「虛實集成智能體」——虛實世界和真實世界的無縫結合 。 」
機器人可以在數字世界里「想象」或「仿真」一個動作 , 預判其在真實世界執行的后果。 如果想象的結果與真實執行的預期偏差很大 , 那么機器人就必須修正自己的規劃。 這種在虛擬中預演、在現實中修正的循環 , 正是實現「身心合一」的技術路徑 。
這種哲學思考并非一時興起 , 而是張正友長期個人修行的沉淀 。 他談到自己正在第四遍翻譯《道德經》 , 「每翻譯一遍 , 重新看一遍 , 我都有不同的啟發 。 」
而現在 , 時機成熟了 , 是時候將這些前沿的科研成果 , 變成一個可以賦能行業的標準化產品了 。

二、 解構Tairos:為機器人注入「左腦、右腦和小腦」如果說行業的共識是為機器人打造一個聰慧的「大腦」 , 那么Tairos的目標就是成為那個可以被靈活調用的「外腦」 。 它的核心設計理念是模塊化與完整性 。
「每一個廠家可以選取他自己想要的模塊 , 」張正友解釋道 , 「比如他的感知做得很好 , 那就不需要我們的感知模塊 。 如果規劃做得不夠好 , 那就用我們的規劃模塊。 」 這種靈活性 , 大大降低了廠商的研發門檻 。
這個「大腦」由三個核心模型和一套云端服務構成 , 分別扮演著不同的角色。
右腦:多模態感知模型——讓機器人看懂3D世界這個模型致力于讓機器人真正理解自己所處的物理環境。
但張正友指出 , 這不僅僅是拍張照片然后重建3D模型那么簡單 。 「很多3D建模是‘死’的 , 所有東西都連在一起 , 」他解釋說 , 「但機器人需要知道 , 這個杯子是可以被抓取的 , 它是一個獨立實體。 」 Tairos的感知模型致力于構建一個可交互的、語義化的三維世界地圖 。
此外 , 它試圖擺脫當前主流VLA(視覺-語言-行為)模型對海量2D圖像數據的過度依賴 。 張正友認為 , 2D圖像缺少3D世界的深度信息 , 導致數據需求量極大 。 「從3D角度看 , 一個杯子我只需要一個3D描述就夠了 , 數據效率會高很多。 」
左腦:規劃大模型——讓機器人理解任務并思考如果說感知是「看懂」 , 規劃就是「理解」和「思考」。 這個模型能讓機器人理解復雜的指令 , 并將其拆解成一個個可執行的步驟 。
騰訊方面的數據顯示 , 在復雜的長序列人機交互任務中 , 該模型的成功率達到了80% , 超過了GPT-4o等領先的閉源系統。
張正友認為 , 僅靠文本訓練的大模型在物理世界規劃上存在天然缺陷 。 「現實世界很多東西是無法用文字描述的 , 比如地面的花紋、摩擦力 , 」他舉例說 , 「動物沒有語言 , 但它們依然能在3D世界里很好地生存、覓食。 」 這說明 , 對物理世界的深度理解 , 是比語言更底層的規劃基礎 。
【具身智能,騰訊「低調入局」】小腦:感知行動聯合大模型——打通「看見」到「做到」這是最關鍵的閉環 , 負責將「思考」轉化為精準、安全的物理行動。 近來 , 一些機器人失控的案例恰恰暴露了這一環節的脆弱 , 比如一個機器人被懸空吊起后瘋狂亂動——張正友分析根本原因在于機器人缺乏對自身狀態的感知——它不知道自己雙腳已離地 , 沒有了摩擦力 , 卻仍在執行地面行走的動作模式 , 從而導致失控。
Tairos的「小腦」模型 , 正是要將力覺、觸覺等多模態感知信息融合進來 , 形成對物理規律的深度理解 , 從而讓行動更智能、更安全。
除了三大模型 , Tairos還提供了一整套云端仿真平臺和開發工具鏈。 通過騰訊游戲級別的3D場景生成技術 , 開發者可以在云端高保真環境中一鍵驗證算法 , 解決傳統仿真工具部署復雜、場景單一的痛點。

三、 超越人形熱:探索人機共存的更優形態在WAIC論壇現場 , 搭載了Tairos平臺的宇樹G1機器人與張正友的互動 , 成為了平臺能力最直觀的證明 。
當張正友說「到我身邊來」時 , 機器人自主規劃路徑并準確地停在他身旁;當被問及「講臺上有什么」時 , 它能清晰地回答「一個電腦 , 一束花 , 兩個麥克風」。
整個過程全部由算法驅動 , 沒有任何人為遙控。 現場一位工作人員透露 , 由于是實時演算 , 機器人每天的回答和表現都可能不一樣 , 充滿了算法帶來的「驚喜」。
盡管人形機器人是當下的絕對主角 , 但張正友對此卻保持著審慎和開放的態度 。 他認為 , 過早地將終極形態鎖定在「人形」上 , 可能會限制行業的想象力 。
他給出了三個理由:





效率問題:人類的進化形態是為了適應數百萬年前的復雜自然環境 , 但在現代人居的平坦環境中 , 雙足行走的效率并不高。 這正是騰訊早期探索「輪腿一體」機器人Max和Ollie的原因 , 他們追求的是效率 , 而非單純的仿生。想象力限制:以人為藍本 , 會不自覺地限制技術潛力的發揮 。 「人不可能進化出一個屏幕 , 」他舉例道 , 「但機器人可以 。 通過屏幕 , 信息傳遞速度可以比語音快幾倍 , 為什么不利用這些現代技術呢? 」 本體探索仍需過程:什么才是最適合人居環境的機器人形態?這依然是一個開放性問題。 因此 , Tairos平臺的設計是本體無關的 , 無論是雙足、四足還是機械臂 , 都可以接入并獲得其賦能 。對于具身智能的未來 , 張正友判斷將在五個方向上持續發展 , 并將其總結為「IDEAS」框架 : 虛實集成世界 (IPhD): 數字世界與真實世界的深度融合與相互影響。技術門檻降低 (Democratization): 交互方式的演進使得人人都能輕松與機器打交道。智能演進 (Evolving intelligence): AI、本體、環境一體化互動 , 加速產業創新。智能體化 (Agentization): AI從被動系統演進到主動交互的智能體 , 并可能涌現集體智能。感知拓展 (Sensing): 感知技術從單一視覺向視覺、觸覺、力覺等多模態融合。雖然不像一些初創公司那樣樂觀 , 張正友也對既定方向充滿信心 。「我當時規劃了10年的時間 , 現在7年過去了 , 我覺得可能再有三年會差不多 , 」他對未來給出了自己的時間表——讓實驗室的技術 , 特別是機器人的感知、規劃和行動能力 , 發展到足夠成熟的水平 , 從而能夠支撐起像「養老」這樣極具挑戰性的、需要與人進行安全復雜交互的場景應用。至于當前具身智能的「過熱」 , 在他看來 , 反而是一件好事 。 「參與的人越來越多 , 這行業發展才會越來越快。 」 而騰訊的角色 , 就是在這一歷史進程中 , 保持足夠的耐心和戰略定力 , 通過開放自身積累七年的核心能力 , 為整個行業鋪好路、擰緊「螺絲」 , 助力所有同行者一起 , 更快地抵達那個「iPhone時刻」 。

    推薦閱讀