
文章圖片

文章圖片

文章圖片

文章圖片

11月14日 , 由模力社區(qū)、機器之心主辦的「虛實共振:模型×終端技術沙龍」在北京圓滿落幕 。 本次沙龍緊扣具身智能這一產(chǎn)業(yè)高地 , 聚焦“模型×終端”的深度融合 , 匯聚來自產(chǎn)業(yè)界、投資界的多位專家代表 , 從世界模型構建、VLA 技術突破、真機評測標準到數(shù)據(jù)驅動范式等維度展開了前瞻性探討 。 活動不僅全景式展示了當前技術落地的關鍵路徑 , 更為構建模型與終端協(xié)同演進的未來生態(tài)勾勒出清晰的演進圖景 。
嘉賓云集 , 共話行業(yè)發(fā)展
上海張江科學之門科技發(fā)展有限公司副總經(jīng)理 管鳳華
活動伊始 , 上海張江科學之門科技發(fā)展有限公司副總經(jīng)理 管鳳華作為主辦方代表進行推介 。 她介紹 , 張江模力社區(qū)作為上海人工智能產(chǎn)業(yè)的核心集聚區(qū) , 依托張江科學城三十余年的科創(chuàng)基礎 , 是國家參與全球科技競爭的重要引擎 。 其三大先導產(chǎn)業(yè)規(guī)模達 4700 億元 , 占上海市 GDP 四分之一 , 匯聚超 2.4 萬家企業(yè)與眾多高新技術主體 。 社區(qū)聚焦垂類人工智能 , 構建全棧式產(chǎn)業(yè)生態(tài) , 涵蓋算力、模型與語料三大要素 , 并通過多層次政策支持 , 包括首年百萬算力補貼及最高兩千萬專項扶持 。 地理上實現(xiàn)“10 分鐘產(chǎn)業(yè)觸達、5 分鐘生活配套” , 并建設 AI 小鎮(zhèn)服務中心 , 推動技術驗證與商業(yè)應用 。 結合青創(chuàng)政策、全周期金融護航及水綠交融的城市環(huán)境 , 張江致力于打造有溫度的科創(chuàng)高地 , 助力企業(yè)與人才共創(chuàng)未來 。 未來 , 模力社區(qū)期待與更多企業(yè)攜手同行 , 共建開放協(xié)同、繁榮共生的產(chǎn)業(yè)生態(tài) , 共同推動人工智能技術創(chuàng)新與產(chǎn)業(yè)躍遷 。
北京極佳視界科技有限公司合伙人副總裁 毛繼明
北京極佳視界科技有限公司合伙人副總裁毛繼明先生指出 , 世界模型是構建物理世界通用智能的核心基座 , 極佳科技在世界模型和具身大腦上的深厚積累就是要成為物理世界通用智能的引領者 , 成為物理世界的“OpenAI” , 機器人時代的“蘋果” 。 具身智能發(fā)展可分為三階段:從硬件產(chǎn)業(yè)鏈成熟 , 到通用模型解決“通用大腦”問題 , 最終實現(xiàn)機器人具備物理世界認知并大規(guī)模應用 。 物理世界通用智能需要融合語言智能與世界模型 , 其中世界模型可以認為是物理世界通用智能的底層“操作系統(tǒng)” , 將會成為構建物理世界通用智能的核心基座 , 世界模型未來重要性日益凸顯 , 將會持續(xù)驅動算法從端到端走向世界動作模型的全新范式演進 , 行業(yè)巨頭如英偉達、Google、Tesla、華為、理想等等 Physical AI 公司正在積極布局 , 共同推動智能時代從“工具延伸”邁向有意識、大規(guī)模改造世界的新紀元 。
Dexmal 原力靈機創(chuàng)始團隊成員 汪天才
在具身智能浪潮下 , VLA(視覺-語言-動作)模型面臨兩大挑戰(zhàn):缺乏統(tǒng)一高效的開源工具箱 , 以及缺乏大規(guī)模公正的真機物理評測 。 Dexmal 原力靈機創(chuàng)始團隊成員汪天才先生介紹了一站式 VLA 開源工具箱 Dexbotic , 它整合多種數(shù)據(jù)格式與構型 , 提供強預訓練模型 , 支持快速開發(fā)與多仿真器統(tǒng)一評測 , 顯著提升研發(fā)效率 3-7 倍;同時 , 原力靈機推出全球首個具身智能的真機評測平臺 RoboChallenge , 基于大規(guī)模任務集Table30(包含 30 個精心設計的日常任務、2.4 萬段視頻數(shù)據(jù))進行公平測試 , 用戶可在線提交模型并獲得詳盡的性能反?。 淮送?, 配套開源硬件 DOS-W1 支持模塊化數(shù)據(jù)采集與即插即用 , 全面降低研發(fā)門檻 。 Dexbotic、RoboChallenge 和 DOS-W1 三者正在形成協(xié)同效應 , 從軟件、硬件、標準方面推動 VLA 技術發(fā)展與生態(tài)共建 。
靈御智能創(chuàng)始人金戈
靈御智能創(chuàng)始人金戈先生在演講中提出 , 具身智能目前面臨“不可能三角”的挑戰(zhàn)——即通用性、可靠性和速度難以兼顧 。 傳統(tǒng)工業(yè)機器人自主性不足 , 模型驅動方式雖快但泛化能力弱 , 核心問題在于高質(zhì)量真機數(shù)據(jù)的嚴重匱乏 。 他強調(diào)“人在環(huán)中”是經(jīng)過驗證的可靠路徑 , 通過人類介入收集復雜場景數(shù)據(jù) , 可提升模型魯棒性 , 例如自動駕駛安全員和智能零售中的實時反饋 。 漸進式發(fā)展路徑主張先部署有人遠程操作的機器人 , 積累真實數(shù)據(jù)以迭代優(yōu)化 , 逐步實現(xiàn)自主化 , 類似呼叫中心向AI過渡的歷程 。 其公司推出的輪臂機器人以可負擔價格 , 結合低延遲遙操與3D感知技術 , 已應用于機場清潔等場景 , 顯著降低成本并推動商業(yè)飛輪運轉 。 這一路徑優(yōu)先聚焦工業(yè)等高容錯需求領域 , 暫避家庭復雜環(huán)境 , 以數(shù)據(jù)驅動實現(xiàn)具身智能的務實演進 。
智在無界靈巧手團隊負責人袁昊琦
智在無界靈巧手團隊負責人袁昊琦先生提出 , 利用海量人類視頻數(shù)據(jù)訓練視覺-語言-動作大模型 , 是實現(xiàn)機器人泛化操作的新路徑 。 當前主流方法依賴真機遙操數(shù)據(jù) , 成本高、多樣性差且受限于特定本體 。 團隊通過收集互聯(lián)網(wǎng)人類第一視角操作視頻 , 構建自動化標注流程 , 利用自回歸架構實現(xiàn)端到端手部動作預測 , 使模型在未見過的場景中具有強泛化能力 。 該方法顯著降低預訓練對機器人真機數(shù)據(jù)的依賴;結合少量真機數(shù)據(jù)或仿真數(shù)據(jù)后訓練 , 實現(xiàn)真機靈巧手高成功率、泛化的自主操作 。 團隊開源的模型支持不同本體、不同任務的微調(diào) , 推動具身智能向高效、可擴展的方向演進 , 實現(xiàn)“從人類數(shù)據(jù)中涌現(xiàn)智能”的愿景 。
圓桌對話環(huán)節(jié) , 來自貝陪科技創(chuàng)始人兼 CEO 黃纓寧、阿爾法公社合伙人劉罡、影智科技產(chǎn)品負責人錢莊一同圍繞「AI 模型與終端形態(tài)的未來圖景」展開討論 , 由機器之心副主編張倩擔任主持人 。
從左向右依次為:機器之心副主編張倩、貝陪科技創(chuàng)始人兼 CEO 黃纓寧、阿爾法公社合伙人劉罡、影智科技產(chǎn)品負責人錢莊
貝陪科技創(chuàng)始人兼 CEO 黃纓寧女士從可豆陪陪在兒童 AI 陪伴產(chǎn)品的實踐出發(fā) , 深刻詮釋了具身智能的本質(zhì)在于“物理存在”與真實世界交互的能力 。 她指出 , 傳統(tǒng) AI 多依賴攝像頭采集數(shù)據(jù)后進行云端判別 , 而具身智能則通過機器人本體實現(xiàn)即時感知與反饋 , 形成閉環(huán)響應 。 她強調(diào) , 未來 AI 不僅是工具 , 更是與兒童建立情感關系的“伙伴” , 因此產(chǎn)品必須兼顧技術智能性與心理友好性 , 尤其在兒童發(fā)展關鍵期 , 需深入拆解使用場景、尊重成長規(guī)律 。 其理念體現(xiàn)了從功能導向向關系建構的躍遷 , 推動 AI 向具備社會屬性的啟蒙角色演進 。
阿爾法公社合伙人劉罡先生從早期投資視角系統(tǒng)剖析了具身智能的發(fā)展邏輯與趨勢 。 他認為 , 具身智能是具備物理載體的人工智能 , 核心在于實現(xiàn)對物理世界的主動感知與自主交互 。 相較于上一代判別式 AI , 當前技術更強調(diào)從被動識別到主動決策、從單模態(tài)處理到多模態(tài)融合等 。 他指出 , 新一代 AI 硬件產(chǎn)品 , 先不要關注“形” , 要先關注“神” 。 拋開形態(tài) , 哪些核心技術的攻克 , 能帶來 10 倍的增長變化 , 就容易使產(chǎn)品具備規(guī)模化能力 。 作為 AI 硬件賽道最活躍的投資機構之一 , 阿爾法公社致力于支持具備前瞻視野和卓越領導力 , 能夠在市場中定義新品類、創(chuàng)造新規(guī)則的非凡創(chuàng)業(yè)者 , 推動 AI 與物理世界交匯的范式轉變 。
影智科技產(chǎn)品負責人錢莊先生結合 AI 咖啡機器人的產(chǎn)業(yè)實踐 , 揭示了具身智能的技術驅動力與商業(yè)化路徑 。 他認為 ,2017 年以語音識別為代表的感官 AI 化是第一波浪潮 , 而當前大模型驅動的認知生成能力 , 則使機器具備類人思維與行動整合能力 , 真正實現(xiàn)“大腦+四肢”的協(xié)同 。 他觀察到 , AI 領域正呈現(xiàn)新的“摩爾定律”——算力與算法日新月異 , 但關鍵挑戰(zhàn)在于如何將前沿技術轉化為大眾可感可用的服務 。 影智科技通過 AI+ 機器人打造全球領先的咖啡大師 , 正是將復雜技術封裝為自然交互體驗的典范 , 展現(xiàn)了具身智能從實驗室走向日常生活的現(xiàn)實圖景 。
本次技術沙龍 , 不僅為行業(yè)搭建了開放協(xié)作的交流平臺 , 也是一次思想碰撞與智慧交融的行業(yè)活動 。 嘉賓們的真知灼見 , 從模型架構、數(shù)據(jù)閉環(huán)、硬件平臺到商業(yè)路徑 , 系統(tǒng)性地勾勒出“虛實共振”的演進脈絡 , 展現(xiàn)出 AI 從感知理解走向行動干預、從虛擬認知邁向物理交互的宏大趨勢 。
【虛實共振:模型×終端技術沙龍圓滿舉辦】
推薦閱讀
- 通過視覺安全提示與深度對齊實現(xiàn)大型視覺語言模型的安全對齊
- 卡帕西大模型橫評方法太好玩!四大AI匿名參賽評分,最強出乎意料
- 大模型瘦身術:上交大團隊創(chuàng)新異構計算,實現(xiàn)GPU計算零等待
- AI安全新漏洞:一首詩就能攻破頂級大模型?
- “美國公司制造的最好開源模型”,基模來自DeepSeek
- 毫無預兆的,Gartner給大模型開發(fā)平臺排了座次
- Meta超級智能實驗室又發(fā)論文,模型混一混,性能直接SOTA
- 火山引擎多媒體實驗室提出VQ-Insight,AIGC視頻畫質(zhì)理解大模型
- DTS框架讓大模型推理準確率提升6%,推理長度縮短23%
- AI視覺GPT時刻!Meta新模型一鍵“分割世界”,網(wǎng)友直呼太瘋狂了
