DeepMind哈薩比斯最新認知都在這里了

DeepMind哈薩比斯最新認知都在這里了

文章圖片

DeepMind哈薩比斯最新認知都在這里了

文章圖片

DeepMind哈薩比斯最新認知都在這里了

文章圖片

DeepMind哈薩比斯最新認知都在這里了

Nano Banana如此火爆 , 讓谷歌DeepMind CEO哈薩比斯在最新訪談中又一次聊起了AGI 。
如果我們在未來十年內擁有完全的AGI , 將開創一個科學的黃金時代 , 一種新的文藝復興 。
Nano Banana當然不是AGI , 但它也體現了哈薩比斯認為AGI系統所需的一些關鍵能力和特征 。
哈薩比斯曾經預測過我們可能會在2030年左右實現AGI , 但亟待突破的瓶頸在于:目前AI系統并非真正的“博士級智能” , 因為它們僅僅是在某些領域表現出色 , 但在其他方面仍會犯簡單錯誤 。
并且 , 今天的AI還沒有“真正的創造力” , 不能提出新的猜想或者假設 。
要構建AGI , 需要理解我們周圍的世界和物理世界 , 而不僅僅是語言或數學的抽象世界 。
雖然面對著上述挑戰 , 但哈薩比斯依然堅信AGI的到來將開啟一個“科學的黃金時代” , 并在能源、健康等多個領域為人類帶來巨大益處 。
網友表示:迄今為止 , 這是關于通往AGI之路的挑戰和機遇的最真實對話之一 。
話不多說 , 量子位為大家翻譯整理了這次訪談 , 讓我們一起來看:
能生成逼真的物理交互場景 , 本身就是系統深度理解世界規律的證明 。 人形機器人對日常任務極具價值 , 但專用機器人形態同樣有其不可替代的應用場景 。 AGI應該具備原始的創造能力 , 而不僅僅是優化現有體系 。 并非所有人都能獲得相同輸出質量 , 因為其中還涉及使用技巧、審美視野和敘事能力等專業素養 。 我認為在未來10年內 , 藥物研發周期有望從數年甚至十年縮短到幾周甚至幾天 。 Nano Banana的強大之處不僅在于它是頂尖圖像生成器 , 更在于其驚人的一致性 。 混合系統的終極目標是將已驗證的解決方案上游化整合到學習組件中 。 ……
諾貝爾獎和谷歌DeepMind主持人:首先 , 恭喜你獲得諾貝爾獎 。 感謝X , 感謝AlphaFold取得的驚人突破 。 也許你之前講過 , 但我知道在座的各位都很想聽你講述一下 , 你獲得諾貝爾獎時身在何處、當時的情景是怎樣的?
哈薩比斯:那是一個非常超現實的時刻(笑) , 這一切都太讓人難以置信了 。 他們會在一切上線前大約10分鐘通知你 。 當你接到來自瑞典的電話時 , 你會如遭雷擊——這是每個科學家夢寐以求的電話 。 然后是幾場儀式 , 在瑞典與皇室成員一起度過了整整一周 , 太神奇了 。
最神奇的是 , 他們會從保險箱的金庫中取出諾貝爾獎證書 , 然后你就可以在上面簽名 , 與其他偉大的獲獎者并列 。 這是一個相當不可思議的時刻 , 在其他頁面你可以看到費曼和費恩、瑪麗·居里、愛因斯坦和尼爾斯·玻爾 , 然后你繼續往后翻 , 就可以把自己的名字也寫進那本書里 。
主持人:你是不是隱隱約約覺得自己被提名了 , 知道這件事可能就要降臨到你頭上?
哈薩比斯:說到底 , 現在這個時代還能把消息封鎖得這么嚴密 , 其實挺驚人的——但這項技術確實像瑞典的國寶一樣被保護著 。 所以外界只能聽到些風聲 , 比如有人認為AlphaFold或許配得上這種級別的重視 。 但評獎標準既要看科學突破性 , 也要衡量現實影響力 , 而后者可能需要20、30年才能顯現 。 所以誰都無法預料突破何時到來、甚至是否真能實現 。 這恰恰正是科研最迷人的地方 。
主持人:真是太驚喜了 , 恭喜你 。 說到DeepMind 。 Alphabet作為龐大的集團旗下業務線眾多 , DeepMind在其中扮演著什么角色?主要承擔哪些責任?
哈薩比斯:我們現在其實把DeepMind和谷歌DeepMind看作一個整體——幾年前兩家完成了合并 , 整合了谷歌和Alphabet旗下所有人工智能團隊的力量 。 可以說 , 我們匯聚了各團隊的優勢資源 , 組建成了這個統一的部門 。
我更愿意這樣形容:我們就像是整個谷歌和Alphabet的“發動機艙” 。 我們不僅正在構建核心的Gemini模型 , 還開發包括視頻模型、交互式世界模型在內的多種AI模型 。 現在這些模型已全面接入谷歌生態 , 幾乎每款產品、每個交互界面都運行著我們研發的AI模型 。
如今已有數十億用戶通過AI概覽、AI模式或Gemini應用與我們的模型交互——而這僅僅是個開始 。 我們正在將AI深度集成到Workspace、Gmail等全線產品中 。 對我們來說 , 這是一個絕佳的機會:既能開展前沿研究 , 又可以立刻讓全球用戶體驗到成果 。
主持人:你的團隊有多少人 , 他們的情況如何?是科學家、工程師嗎?你的團隊構成是什么樣的?
哈薩比斯:我們團隊目前約有5000人 , 主要由工程師和博士研究員組成……我猜占比80%以上 , 算下來差不多有三四千名頂尖技術人才吧 。

Genie 3世界模型主持人:現在模型迭代特別快 , 不斷有新模型甚至全新類別的模型出現 , 比如前幾天發布的Genie世界模型 。 那么 , Genie世界模型是什么呢?我們準備了演示視頻 , 可以在現場直播的時候討論一下 。
演示視頻:你看到的不只是游戲或者視頻 , 它們是由Genie 3生成的完整虛擬世界 。 作為世界模型的新突破 , 現在你只需用文字描述一個場景 , Genie 3就能即時生成可交互的沉浸式環境 , 讓你真正“走進”自己創造的想象世界 。
哈薩比斯:是的 , 你看到的所有這些動態畫面和可交互世界——注意看 , 現在有人正在用方向鍵和空格鍵實時操控這個3D環境 。 關鍵點在于:所有這些像素都是即時生成的 , 在玩家探索到某個區域之前 , 那個地方根本不存在任何內容 。
比如這個場景:有人正在房間里涂鴉墻面 , 玩家轉頭再回看時 , 剛才的涂鴉痕跡還在墻上 , 而這一部分以前是不存在的 。 更神奇的是 , 你隨時可以輸入“穿雞仔服的人”或“水上摩托”之類的指令 , AI就會實時把這些元素融入場景 。 我覺得這的確令人驚嘆 。
主持人:看到這一點是有些難以理解的 , 我們都玩過3D的沉浸式電子游戲 , 但目前還沒有創建任何對象的功能 。 你沒有用Unity或者Unreal這類3D引擎預先制作物體 , 看到的全是AI實時生成的2D圖像 , 卻產生了完全沉浸式的3D體驗——這才是真正突破認知的地方 。
哈薩比斯:這個模型本質上是在通過逆向工程學習物理規律 。 它分析了數百萬段YouTube等平臺的真實世界視頻 , 從中自主推導出了現實世界的運行邏輯 。 雖然目前還不完美 , 但已經能生成持續一兩分鐘的高度一致性交互場景 。 特別值得注意的是:它的生成范圍遠超人類活動 。 你既可以操控沙灘上的小狗 , 也能與水母互動 , 真正實現了對多元世界的模擬還原 。
主持人:傳統3D渲染引擎的工作原理是程序員預先編寫所有物理規則 , 比如光線如何反射、物體如何運動 。 你創建一個3D模型 , 引擎根據預設程序計算光影效果 , 最終渲染出畫面 。 但Genie的突破在于它僅通過觀看海量視頻 , 就自主領悟了這些物理規律 。 沒有任何人工編程的物理法則 , 純粹通過觀察學習就掌握了光影反射、物體運動等復雜原理 。
哈薩比斯:是的 , 它不僅用了真實視頻數據 , 還結合了游戲引擎的合成數據進行訓練 。 這個項目對我有特殊意義 , 真正讓我震撼的是 , 上世紀90年代我剛入行時 , 曾親手編寫游戲AI和圖形引擎 , 當時光是要手動編程實現多邊形建模和物理引擎就難如登天 。 而現在看著Genie:水面的動態反光、材質的流動感、物體的物理行為等等 , 所有這些曾經需要嘔心瀝血編程的效果 , 現在都能開箱即用 。
主持人:很難用語言形容這個模型究竟解決了多復雜的難題 , 這種突破性真的超乎想象 。 這項技術將帶我們走向何方 , 如果我們把這個模型快進到……第五代?
哈薩比斯:我們開發這類模型的初衷始終明確 , 雖然普通語言模型(如Gemini基礎版)在不斷進步 , 但從Gemini誕生第一天起 , 我們就立志打造真正的多模態系統——它能處理任意類型的輸入 , 包括圖像、音頻、視頻 , 并且生成任意形式的輸出 。
這關乎通用人工智能(AGI)的核心命題:真正的AGI必須理解我們的物理世界 , 而不僅僅是語言或數學的抽象領域 。 這種物理認知能力正是當前機器人技術缺失的關鍵一環 , 也是智能眼鏡等日常AI助手真正實用化的前提——它們必須理解你所處的物理環境及其運行規律 。
因此 , Genie模型和我們的頂級文生視頻系統Veo , 本質上都是在構建“世界模型” 。 這些都是我們構建理解世界動態、世界物理規律的世界模型的體現 , 能生成逼真的物理交互場景 , 本身就是系統深度理解世界規律的證明 。

機器人技術革命主持人:這項技術最終將通向機器人技術的革命性突破 。 雖然這只是其中一個應用方向 , 但也許我們可以探討一下 , 目前視覺-語言-動作模型的最高水平是怎樣的?
我們設想中的通用系統是這樣的:一個具備攝像頭觀測能力的機器 , 我可以使用語言 , 可以用文字或語音告訴它 , 我希望你去做這件事 。 然后它就知道如何在現實世界中采取實際行動來做某件事 。
哈薩比斯:沒錯 。 你可以看看我們的Gemini , 也就是Gemini的實時版本 , 在這個版本中你可以舉起手機 , 將其對準周圍的世界——我建議你們任何人都去試試——它對現實世界的理解已經達到了一種神奇的程度 。 我們考慮下一步將其融入某種更便捷的設備中 , 比如眼鏡 , 然后它將成為真正的日常助手 , 當你走在街上時 , 它就能向你推薦各種事物 。 我們還可以將其嵌入到谷歌地圖中 。
在機器人領域 , 我們構建了一個名為“Gemini機器人模型”的東西 , 它是在雙子座模型基礎上 , 利用額外的機器人數據進行微調的 。 在今年夏天發布的演示中 , 有兩個機械手在桌面上操作物體 , 你可以直接和機器人對話 , 比如“把黃色的物體放進紅色的桶里” , 它就能將語言轉化為精準的動作指令 。
這就是多模態模型的力量 , 而不是僅僅是一個針對機器人的模型 , 它能將現實世界理解能力融入交互過程 。 最終你需要的不僅是人性化的交互界面(UI/UX) , 還有讓機器人具備安全導航世界的認知能力 。
主持人:我向桑達爾(谷歌CEO)提過這個問題 , 這是否意味著最終能構建出類似Unix或安卓系統的通用機器人操作系統層?到那時 , 如果這個系統能在足夠多的設備上穩定運行 , 機器人設備、公司和產品將會大量涌現 , 在全球范圍內突然蓬勃發展 , 因為通用的軟件基礎已經存在 。
哈薩比斯:沒錯 。 我們確實在推行“安卓模式”的戰略 , 如果你愿意這么說的話 。 我們正在打造跨機器人的通用操作系統層 , 同時也在探索垂直整合:將最新模型與特定機器人類型深度結合 , 實現端到端的學習優化 。 這兩條路徑都相當有趣 , 我們正在并行推進 。
主持人:你認為人形機器人是一種好的外形設計嗎?這方面存在一些爭議 , 有的人認為人類環境本就為人形設計 , 但特定任務可能需要專用形態——比如疊衣服、洗碗或清潔 , 或許需要不同的結構設計 。
哈薩比斯:我認為這兩者都會有一席之地 。 其實在5-10年前 , 我曾堅信特定任務需要專用機器人 , 在工業領域尤其如此 。 實驗室和生產線需要的機器人類型截然不同 , 都需要針對具體任務進行形態優化 。
但對于通用或個人用途的機器人而言 , 人形形態可能至關重要 , 因為我們所處的物理世界本就是為人類設計的 。 臺階、門廊等所有設施都基于人體工學建造 , 與其改造世界 , 不如讓機器人適配現有人類環境 , 這種設計思路顯然更合理 。
所以我認為有理由說 , 人形形態對日常任務極具價值 , 但專用機器人形態同樣有其不可替代的應用場景 。
主持人:你對未來五年、七年 , 數以千計的人有什么展望?我的意思是 , 你對機器人技術有什么愿景嗎?
哈薩比斯:我有 , 而且我在這上面花了不少時間 。 我感覺我們在機器人技術領域還處于早期階段 , 未來幾年內會出現真正的“顛覆性時刻” , 但當前算法仍需升級 。 這些機器人模型依賴的通用基礎需要變得更可靠、更精準地理解世界 , 我相信這些突破將在未來兩三年內實現 。
然后還有硬件方面 , 關鍵問題在于規模化的時機選擇 。 我認為最終我們會有數百萬臺機器人幫助社會并提高生產力 , 但當你與硬件專家交流時 , 要確定在什么階段擁有合適的硬件水平才能選擇擴展方案 。 當我們計劃建造工廠生產數萬乃至數十萬臺特定機器人時 , 硬件設計就會固化 , 很難快速迭代更新 。
這就形成一個悖論:如果過早規模化 , 六個月后可能出現更可靠、更靈活的新一代設計 。 但最終目標仍是讓數百萬機器人服務社會提升生產力 , 因此必須在硬件成熟度與規模化需求間找到平衡點 。
主持人:聽起來用計算機領域的類比來說 , 我們現在處于70年代的PC初期階段 。 各種原型機涌現 , 但尚未形成統一標準 。
哈薩比斯:是的 , 有可能 。 我想也許這就是我們所處的情況 , 除了10年的變化可能在1年內發生 。 所以 , 沒錯 , 得快速更新 。
主持人:1984年或許就是這樣一個年份(指1年內發生10年的變化) 。
哈薩比斯:沒錯 , 就是這樣 。

衡量AGI的方法主持人:那么 , 讓我們來談談其他應用 , 比如你最熱愛的科學應用領域 。 我一直覺得AI最偉大的使命是解決人類當前技術和認知能力無法突破的難題 , 而我們可以釋放所有這些潛力 。 你最感興趣的科學領域和科學突破有哪些?我們需要怎樣的模型來實現這些突破呢?
哈薩比斯:我畢生致力于AI研究的核心動力 , 就是希望用AI加速科學發現、改善人類健康——這無疑是AI最重要的使命 。 我覺得如果我們以正確的方式構建AGI , 它將成為科學的終極工具 。
DeepMind已經在這方面開辟了道路 , 除了最著名的AlphaFold , 我們的AI系統還應用于材料設計、核聚變等離子體控制、天氣預測、國際數學奧林匹克競賽解題等多個科學領域 。 同樣類型的系統再經過一些微調 , 基本上就能解決很多這類復雜問題 。
但我認為我們只是觸及了AI所能做到的事情的表面 , 還有一些東西是缺失的 。 我想說 , 如今的AI還不具備真正的創造力 , 因為它還無法提出新的猜想或新的假設 。 它或許能夠證明你提供給它的某些東西 , 但它本身無法提出新的想法或理論 。 這實際上將成為衡量AGI是否成熟的關鍵測試之一 。
主持人:作為人類 , 創造力是什么?
哈薩比斯:我認為是直覺上的飛躍 , 讓我們常常對歷史上最杰出的科學家和藝術家們致以敬意 。 也許這是通過類比或類比推理來完成的 , 心理學和神經科學對此有多種理論解釋 , 也有關于我們人類科學家如何開展研究的理論 。 一個有效的測試方法是 , 給AI設置1901年的知識截止點 , 看它能否像1905年的愛因斯坦那樣提出狹義相對論 。 如果能夠實現這種創造性躍遷 , 或許就意味著我們接近真正的AGI了 。
以十年前擊敗世界冠軍的AlphaGo為例:它不僅贏了比賽 , 還為圍棋發明了前所未見的新策略 , 這一著名的第37手棋出現在第二局比賽中 , 如今已成為研究對象 。 但問題在于 , AI系統能否想出像圍棋一樣優雅、令人滿足、在美學上同樣美麗的游戲 , 而不只是一種新策略呢?目前 , 對這些問題的答案是否定的 。 我認為這正是真正通用系統所缺失的:AGI應該具備這種原始創造能力 , 而不僅僅是優化現有體系 。
主持人:你能分析一下缺少什么嗎?也許與達里奧、薩姆等人分享的觀點有關 , 即AGI在幾年內就能實現 , 你是否認同這一觀點?從系統架構的角度看 , 當前究竟缺乏哪些關鍵組件?
哈薩比斯:嗯 , 我認為這其中的根本問題在于 , 我們能否復制人類頂尖科學家那種直覺飛躍 , 而非漸進式進步?我常說 , 優秀科學家與偉大科學家的區別在于創造力 , 他們能從其他領域發現可類比模式 , 遷移到解決目標問題上 。 我認為有朝一日 , AI將能夠做到這一點 , 但它目前還不具備實現這種突破所需的推理能力和某些思維能力 。 此外 , 系統的一致性也是當前短板 。
所以你經常聽到我們的一些競爭對手談論現有系統具備“博士智能水平” , 我覺得那是一派胡言 。 它們確實在某些領域達到博士級能力 , 但整體遠未達到通用智能應有的水平 , 真正的AGI應該在所有領域都保持博士級表現 。
事實上 , 眾所周知 , 在與當今的聊天機器人互動時 , 如果你以某種特定方式提問 , 它們甚至會在高中數學和簡單計數等方面犯簡單錯誤 。 對于真正的AGI系統來說 , 這應該是不可能的 。 我覺得 , 我們距離擁有一個能夠完成這些任務的AGI系統 , 大概還有5-10年的時間 。
此外 , 持續學習能力也是一個關鍵的缺失:系統需要能實時吸收新知識、調整行為模式 。 或許規模擴大會帶來突破 , 但我認為還需要一兩個根本性的技術突破 , 這些可能會在未來5年左右出現 。

Nano Banana與創意工具的未來主持人:與此同時 , 一些報告和所使用的評分系統似乎正在表明兩件事:其一 , 大型語言模型性能正在趨同;其二 , 代際性能提升速度正在放緩或趨于平緩 。 這兩點觀察大體上是正確的 , 還是并非如此呢?
哈薩比斯:不-不 。 我的意思是 , 我們內部并沒有看到這種情況 。 我們仍在見證巨大的進步速度 , 但同時也在更廣泛地審視事物 。 你看 , 我們有Genie模型和Veo模型 , 以及Nano Banana 。
主持人:對 , 這簡直太瘋狂了 。 像我這種從Adobe Photoshop、Kai’s Power Tools時代過來的人 , 現在看到Bryce 3D這樣的圖形系統能實現實時識別 , 這完全顛覆了我們當年的工作流程 。
哈薩比斯:嗯 , 我認為很多這類創意工具的未來就是 , 你只需與它們產生共鳴 , 或者直接和它們交流 , 它們就會足夠穩定 。 Nano Banana的強大之處不僅在于它是頂尖圖像生成器 , 更在于其驚人的一致性:它能夠理解指令 , 按照你的要求進行更改 , 同時保持其他元素不變 。 這樣你就可以用它進行迭代 , 最終得到你想要的輸出結果 。 我認為 , 這就是許多這類創意工具的未來走向 , 也在一定程度上預示了發展方向 , 人們喜歡它 , 也喜歡用它進行創作 。
主持人:我記得小時候得買關于Adobe Photoshop的書 , 然后通過閱讀這些書來學習如何從圖像中去除某些東西、如何填充、羽化以及諸如此類的操作 。 現在任何人都可以使用Nano Banana來做到這一點 , 他們只需向軟件說明自己想做的事情 , 模型就會幫他們實現 。
哈薩比斯:我想你會看到兩件事 , 一是這些工具讓每個人都能使用和創作 , 而不必像我們過去那樣學習極其復雜的用戶體驗(UX)和用戶界面(UI) 。 另一方面 , 我認為我們會 , 而且我們也正在與電影制作人、頂級創作者和藝術家合作 , 他們正在幫助我們設計這些新工具應該是什么樣子 。
像我的朋友達倫·阿倫諾夫斯基(著名導演)團隊正在用Veo和我們的其他一些工具制作電影 , 他們的反饋正在幫我們重塑下一代創作工具的功能設計 。 我們發現 , 它也能讓最優秀的專業人士如虎添翼、火力全開 , 專業創作者能實現十倍百倍的效率提升 , 以極低成本嘗試各種創意構想 , 最終精準實現理想效果 。
這實際上形成雙軌賦能效應:我們正在將其普及化 , 以供日常使用 , 供油管創作者等大眾用戶降低門檻 , 另一方面又為高端創作者提供放大器——但并非所有人都能獲得相同輸出質量 , 因為其中還涉及使用技巧、審美視野和敘事能力等專業素養 。 真正擅長這些工具的優秀創作者 , 能借此實現前所未有的迭代速度 。
主持人:我們能進入一個每個人都能描述自己感興趣的內容類型的世界嗎?比如播放類似戴夫·馬修斯的音樂或沉浸式體驗《勇敢的心》電影中的游戲 。 未來我們會走向個性化內容定制 , 還是保持傳統一對多的創作模式?從文化層面看——這或許有點哲學意味——我們是否會失去集體共享的敘事體驗?當每個人都在虛擬世界中構建個人化故事時 , 由創作者主導的公共文化記憶是否會消失?
哈薩比斯:實際上 , 我預見了一個世界 , 作為一名在90年代就開始投身游戲行業的游戲設計師和程序員 , 我對此思考頗多 , 我認為未來娛樂將出現全新的藝術形式 , 即一種融合共創的體驗 。 頂級創意先鋒仍將主導創作 , 他們能用相同工具打造出比普通人更高質量的動態敘事體驗 。 數百萬人既可以沉浸在這些世界中 , 也能參與部分內容的共創 。 主創者可能扮演“世界編輯”的角色 , 協調整體敘事框架 。 這正是我預見的未來幾年圖景 , 也是我們希望通過Genie等技術探索的方向 。
主持人:能否談談你目前的時間分配呢 , 是否主要專注于Isomorphic Labs?或許可以先簡要說明Isomorphic的研究方向 。 你在這方面投入很多精力嗎?
哈薩比斯:我確實在主導Isomorphic Labs 。 這家從我們團隊分拆的公司 , 旨在依托我們的技術 , 徹底變革藥物研發 。 基于AlphaFold的蛋白質結構突破 , 我們正在構建多個“相鄰的AlphaFold”系統 , 比如設計能精準結合靶點且無副作用的化合物 。 我認為在未來10年內 , 藥物研發周期有望從數年甚至十年縮短到幾周甚至幾天 。
主持人:你覺得這個很快就能進入臨床階段 , 還是仍處于探索階段?
哈薩比斯:我們正在構建平臺化系統 , 目前與禮來公司(Eli Lilly)——我想你之前應該有他們CEO的發言——還有諾華(Novartis)建立了重要合作 , 同時推進內部藥物研發項目 。 我認為我們將在明年某個時候進入臨床前階段 。
主持人 :那么 , 候選藥物會被移交給制藥公司 , 然后由他們推進后續流程嗎?
哈薩比斯:沒錯 。 我們正在開展癌癥、免疫學和腫瘤學方面的研究 , 并且與MD安德森等機構展開了合作 。

“科學的黃金時代”主持人:我想回到你關于AGI的觀點 。 模型可以是概率性還是確定性的?確定性模型像邏輯算法 , 每次輸入都輸出相同結果;而概率性模型會做選擇 , 比如選擇這封信的概率是80% , 選擇那封信的概率是90% , 依此類推 。 在藥物研發建模中 , 我們需要多少確定性模型來匹配分子相互作用的物理化學原理?又該如何構建新型確定性模型 , 使其與數據驅動的概率模型協同工作 。
哈薩比斯:這是個很棒的問題 。 實際上 , 目前 , 而且我認為可能在未來五年左右的時間里 , 我們正在構建一種你們可能稱之為混合模型的東西 。 AlphaFold本身就是一個混合模型 , 其中有學習組件 , 也就是你提到的概率組件 , 它是基于網絡、變壓器等構建的;而且它從你提供的數據中學習 , 包括任何你能獲取的數據 。 但在很多情況下 , 生物學和化學領域并沒有足夠的數據可供學習 , 所以你還得把一些你已經知道的化學和物理規則融入其中 。
例如 , 對于AlphaFold來說 , 原子鍵角必須符合化學原理、原子間不能出現非法重疊 。 理論上模型能自學這些規則 , 但會浪費大量學習能力 。 所以實際上 , 把它當作一種約束條件會更加高效 。
所有混合系統都面臨這個核心難題 。 就像AlphaGo使用了神經網絡學習圍棋模式識別 , 蒙特卡洛樹搜索負責策略規劃 。 關鍵在于如何將學習系統與更具定制性、量身打造的系統相結合 , 并且讓它們真正協同良好地運作 。 而這做起來相當棘手 。
主持人:你認為那種架構最終會帶來AGI所需的突破嗎?是否存在需要解決的確定性組件 。
【DeepMind哈薩比斯最新認知都在這里了】哈薩比斯:混合系統的終極目標是將已驗證的解決方案上游化整合到學習組件中 。 所以 , 如果你能進行端到端學習 , 并直接從給定的數據中預測出你想要的結果 , 那總是更好的 。 一旦你使用這些混合系統中的一個弄清楚了某件事 , 你就會嘗試回過頭去逆向工程你所做的事情 , 看看是否能將所學的知識、信息融入到學習系統中 。 這大致就是我們在AlphaZero(Alpha Go的更通用形式)上所做的事情 。 AlphaGo包含圍棋特定知識 , 而AlphaZero摒棄了所有人類棋譜數據 , 完全通過自我對弈學習 。 這種范式使其能掌握任何游戲 , 而不僅僅是圍棋 。
主持人:關于AI產生的能源需求已經出現了很多炒作 , 這是我們幾周前在華盛頓特區舉辦的AI峰會的重要組成部分 。 如今 , 這似乎是科技領域里人人都在談論的頭號話題:這些電力將從哪里來?我想問:通過模型架構創新、硬件優化或軟硬件協同設計 , 能否顯著降低單次輸出的能耗與成本?這種技術進步是否會緩和能源需求曲線的陡增趨勢?還是說幾何級數增長的能源需求依然不可避免?
哈薩比斯:有趣的是 , 我認為這兩種情況都是真實的 , 尤其是我們谷歌和DeepMind這類需要每日為數十億用戶提供AI概述服務的企業 , 它必須極其高效、極低延遲且服務成本非常低廉 。 我們開創了多種技術實現這一點 , 比如蒸餾 。 在蒸餾中 , 你實際上是讓一個更大的模型在內部訓練較小的模型 , 對吧?隨著時間的推移 , 如果你看看過去兩年的進展 , 相同性能下的模型能效已提升了10倍甚至100倍 。
當前的能效提升未能降低總需求的原因在于 , 我們尚未實現AGI 。 前沿模型仍需持續擴大規模來實驗新想法 , 而服務端能效則在同步優化 , 所以這兩件事都是真的 。
最后 , 我認為從能源角度來看 , AI系統在電網系統和電氣系統效率、材料設計、新型特性、新能源等方面回饋給能源和氣候變化等領域的貢獻 , 將遠遠超過其消耗 。 我認為在未來10年里 , AI將在所有這些方面發揮作用 , 其帶來的益處將遠遠超過它目前消耗的能源 。
主持人:作為最后一個問題 , 請描述一下10年后的世界 。
哈薩比斯:好吧 , 我的意思是 , 你知道的 , 10年 , 甚至10周在AI領域都是另一個時代了 。 但我確實認為 , 如果我們在未來十年內擁有完全的AGI , 將開創一個科學的黃金時代 , 一種新的文藝復興 。 我認為我們將看到其從能源到人類健康等各個領域的益處 。
主持人:太神奇了 。 請和我一起感謝諾貝爾獎得主哈薩比斯 , 謝謝 。
參考鏈接:
[1
https://x.com/demishassabis/status/1967280577200943528
[2
https://www.youtube.com/watch?v=Kr3Sh2PKA8Y
本文來自微信公眾號“量子位” , 作者:不圓 , 36氪經授權發布 。

    推薦閱讀