叢樂/王夢迪再出手!打造首個AI-XR協同科學家,可實時指導和糾偏

叢樂/王夢迪再出手!打造首個AI-XR協同科學家,可實時指導和糾偏

文章圖片

叢樂/王夢迪再出手!打造首個AI-XR協同科學家,可實時指導和糾偏

文章圖片

叢樂/王夢迪再出手!打造首個AI-XR協同科學家,可實時指導和糾偏

文章圖片


這對華人學術伉儷再次出手!美國斯坦福大學教授叢樂和美國普林斯頓大學教授王夢迪二人和團隊以及合作者研發出一款名為 LabOS 的 AI 應用 , 并在相關論文中表示 LabOS 是業內首個 Al-XR Co-Scientist 。 他們在論文中寫道:“LabOS 可以充當 AI 導師 , 指導新手達到專家級水平 , 無需進行手把手培訓或長時間試錯 。 ”假如一個真人科學家進入實驗室卻沒遵循無菌操作規范?或者一個真人科學家的試劑孵育時間與標準方案不符?LabOS 都會記下這些操作偏差并提供指導 。 而當向 LabOS 提供實驗記錄和參考方案的時候 , 它不僅能夠識別每個步驟 , 還能生成分步指導 , 更能將實驗操作和參考方案進行匹配 , 必要時還能做出情境感知警告 , 并能給出下一步操作的建議 , 這意味著 LabOS 已經具備在真實濕實驗室中開展科研工作的能力 。 更關鍵的是 , 隨著使用時間的疊加以及測試時擴展系統性能的提升 , LabOS 能夠實現自我進化 , 這讓它擁有像真人科學家一樣的成長規律 , 從而能夠持續應對科研探索中的新挑戰 。

(來源:https://arxiv.org/pdf/2510.14861)

在構造上 , LabOS 集成了多模型 AI 智能體、智能眼鏡與人機協作界面 , 這讓 LabOS 能夠觀察到真人科學家所看到的內容 , 以及讓 LabOS 能夠理解實驗情境并提供實時輔助 。 研究中 , 本次團隊通過癌癥免疫學、生物機制研究和干細胞工程這三項生物醫學研究方向展現了 LabOS 的能力 。

在癌癥免疫學的案例中 , 他們要求 LabOS 去發現一個癌癥免疫治療靶點 , 為此他們先是讓 LabOS 生成假設 , 并通過多步推理分析進行靶點識別 , 期間 AI 智能體推薦將 CEACAM6 作為推定靶點 , 隨后他們在增強自然殺傷細胞抗腫瘤活性的實驗中驗證了這一靶點 。

在生物機制研究的案例中 , 他們利用 LabOS 成功識別出了能夠調控細胞融合的基因 ITSN1 。

在干細胞工程的案例中 , 他們通過佩戴智能眼鏡來與 LabOS 進行交互 , 每隔 5 秒-10 秒 LabOS 都能將第一人稱視角的數據流傳輸到服務器并能調用視覺語言模型(VLM , Vision-Language-Model)智能體 。

(來源:https://arxiv.org/pdf/2510.14861)

LabOS 的本領也獲得了第三方的認可 。 在 Humanity's Last Exam 中 , LabOS 達到大約 32% 的最高準確率;在 LAB-Bench: DBQA 和 LAB-Bench: LitQA 中 , LabOS 分別達到 61% 與 65% 的最高準確率 , 較次優模型最高高出 8% 。 其中 , Humanity's Last Exam 是一個由全球近千名領域專家共同打造的多模態基準測試 , 涵蓋數學、自然科學和人文社科等上百個學科的數千個高難度問題 。

(來源:https://arxiv.org/pdf/2510.14861)

既然 LabOS 是一個 XR Co-Scientist , 那么它的人機交互必然要通過 XR 界面進行 。 當前 , 市面上的 XR 硬件基本都支持界面渲染、手勢識別以及運行 Unity/Android 應用成語 。 基于此 , 在使用 LabOS 的時候 , 既可以將眼鏡數據流傳輸到本地 GPU 服務器 , 也可以將眼鏡數據流傳輸到云端 , 從而進行實時的智能體推理 。 當本地 GPU 服務器接收到 5 秒-10 秒的短視頻片段之后 , 就能將視頻轉發到 LabOS AI 智能體進行分析和推理 , 并能將結構化的 JSON 輸出返回到 XR 眼鏡 , 在 JSON 信息獲得解析之后 , 就能為真人科學家提供實時的視覺反饋與音頻反饋 。

研究中 , 該團隊分別測試了 AR/XR 眼鏡和 VR/XR 頭顯 , 其中 AR/XR 眼鏡的效果更好 。 原因在于 , AR/XR 眼鏡擁有開放式的周邊視野 , 其重量一般低于 85 克可以確保真人佩戴的舒適度 , 同時支持 2 小時以上的續航時間 , 以及支持 6 自由度和手勢識別的三維感知人機交互 。 通過 AR/XR 智能眼鏡界面和實時多模態感知 , LabOS 可以將 AI 推理直接連接到實驗室 , 使用時只需佩戴 XR 眼鏡即可獲得 AI 智能體提供的自適應情境感知指導 , 這些指導包括分布指令、錯誤檢測與修正提示 , 甚至包括適用于無菌流程的手勢或語音交互 。

為了讓 LabOS 具備“實驗室視覺” , 研究人員收集了 200 余段他們在真實實驗中使用相機和佩戴智能眼鏡時拍攝的第一人稱視角視頻 , 基于此合成了一個名為 LabSuperVision(LSV)的基準數據集 , 以用于評估 AI 模型的實驗室感知能力和實驗室推理能力 。 研究人員在論文中寫道 , LSV 是一個由真人標注的實驗室視頻數據集 , 能被用于實驗室操作視頻的理解和推理設計 。 LSV 中包含 200 個高質量的視頻會話 , 每個視頻的長度一般在 2 分鐘-10 分鐘 , 最長的達到 45 分鐘 , 這些視頻會話由 7 名真人科學家在儀器區、試驗臺和組織培養室等實驗室場景錄制 , 確保捕捉到了真實的科研操作過程 。

(來源:https://arxiv.org/pdf/2510.14861)

由于一些主流 AI 模型在 LSV 上數據集表現較為平淡 , 所以研究人員使用了一些公開的科研實驗視頻、他們自己內部錄制的數據以及真人標注的數據來針對 VLM 進行后期訓練 。 通過此 , 他們打造出一款名為 LabOS VLM 的模型 , 該模型可以解析 XR 眼鏡的視覺輸入 , 并能將視覺嵌入和語言模型加以對齊 , 從而能夠針對和實驗室場景相關的視頻進行解讀和推理 , 這讓 LabOS 能夠監控操作、檢測偏差和驗證結果 , 以及能將多模態數據流與其他科研方案進行同步 , 這讓 LabOS 能以協研科學家的身份真正地在實驗室中實現感知、理解與協同操作 。 LabOS 還支持科研工作流程的三維空間建模和四維空間建模 , 能夠捕獲儀器、樣品和真人操作之間的時空關系 , 并能實現過程回放、假設分析和基于模擬的培訓 。

(來源:https://arxiv.org/pdf/2510.14861)

據了解 , LabOS 采用多智能體推理架構 , 其中包含規劃、開發、評審和工具創建等智能體 , 它們可以共同執行假設生成、實驗設計、數據分析和自適應改進 。 LabOS 還具備自我進化的能力 , 通過基于網絡搜索、科學文獻和相關數據它可以自主生成一種名為“工具海洋”的模塊 , 從而能夠不斷擴展分析能力 。 這種自我進化的特性讓 LabOS 尤其擅長通過推理時擴展來解決新的科研課題 。 基于此 , LabOS 讓科研實驗室具備了 AI 可感知能力和 AI 可操作能力 , 故能被用于干實驗推理的智能體 AI 系統 , 也能和支持 XR 的多模態人機協同濕實驗操作界面相集成 , 借此創建一個端到端的框架 , 從而能夠連接假設生成、實驗設計、物理驗證和自動文檔記錄 。

圖 | 相關論文(來源:https://arxiv.org/pdf/2510.14861)

從相關論文可知 , LabOS 希望解決的問題是:科學成果的誕生依賴于以下兩個相互關聯的領域:第一個是提出預測或猜想的計算領域 , 第二個是能夠證明猜想的實驗領域 。 近年來 , AI 通過加速模擬、預測和設計已經徹底改變了計算領域 , 但物理實驗室依然是未能被 AI“攻克的山頭” 。 此前 , AI 在感知能力、協調性和重復性上仍然存在一定不足 , 而科研實驗結果往往要依賴于那些難以從人類這里“繼承”給 AI 的真人操作技能 。 與此同時 , 此前的智能體 AI 主要活躍在數字領域 , 即根據文本、數據和模擬來規劃實驗和合成工具 。 但是 , 智能體 AI 無法感知動態實驗室環境 , 更無法進行實際操作 。 另一方面 , 類似于實驗室機械臂之類的自動化機器人固然具備一定能力 , 但大多必須遵循已被設計好的規則 , 這不僅導致重新部署的成本較高 , 而且很難適應真實科研環境的變化 。

而 LabOS 通過多模態感知、自主進化智能體以及 XR 賦能的人機協作 , 將計算推理與物理實驗融為一體 。 如前所述 , LabOS 已能在癌癥免疫治療靶點和干細胞工程等領域得到應用 , 這表明 LabOS 能夠突破計算設計的局限 , 直接地參與實驗過程 , 從而能將真實世界中的科研實驗室轉變為人類與機器共同進化、智能協作的發現場域 。

參考資料:
論文原文https://arxiv.org/pdf/2510.14861
https://ece.princeton.edu/people/mengdi-wang
【叢樂/王夢迪再出手!打造首個AI-XR協同科學家,可實時指導和糾偏】https://profiles.stanford.edu/186687

    推薦閱讀