李飛飛深度解讀:為什么空間智能是通往AGI的關鍵技術?

李飛飛深度解讀:為什么空間智能是通往AGI的關鍵技術?


編輯 重點君
12月12日 , 斯坦福大學教授、“AI教母”李飛飛在最新訪談中 , 回顧了她職業生涯中的關鍵時刻 , 并分析AI作為一項文明技術 , 對全球經濟、教育和勞動力市場帶來的深遠影響 。
李飛飛詳細介紹了她在2009年構建的ImageNet項目 , 如何成為AI領域的大數據拐點 。
現代人工智能的突破源于一個核心科學假設:機器可以像人類幼兒觀察世界一樣 , 通過感知海量物體和場景進行學習 , 而證明這一假設需要一個前所未有的大規模數據集 。 李飛飛表示 , 構建ImageNet的核心挑戰是獲取數以千萬計的高質量的人工標注圖像 。 為保證機器訓練的能力質量 , 她選擇眾包工程的方式 , 利用亞馬遜土耳其機器人(Amazon Mechanical Turk)進行大規模并行處理 , 將數十億張圖像濃縮為1500萬張高質量數據 , 使ImageNet成為了當時人工智能領域最大的計算機視覺訓練和評估數據集 。
2012年 , ImageNet的海量數據、神經網絡算法 , 以及GPU支持的快速并行計算首次結合 , 共同促成了“ImageNet分類深度卷積神經網絡方法”的實現 。 許多人認為 , 這標志著現代人工智能時代的正式開啟 。
對于未來AI的探索方向 , 李飛飛認為 , World Labs正在構建下一代空間智能 。 World Labs的核心技術模型Marble , 能夠根據用戶輸入的文本或上傳的圖像素材 , 在幾分鐘內生成一個可供拖動和探索的3D數字世界 。 她強調了Marble對前沿科技的推動作用:
一方面 , Marble可以作為機器人訓練的模擬環境 , 生成海量且多樣化的訓練數據 。 盡管這一應用目前尚處于早期階段 , 但它為機器人提供了進入現實世界之前的“飛行模擬器” 。
另一方面 , Marble還能應用于精神病學研究 , 以極低成本改變環境維度 , 幫助研究人員對患有強迫癥等心理障礙的人群進行觸發因素和治療方法的研究 。
李飛飛稱自己為“務實的樂觀主義者” , 她不相信極端的烏托邦或悲觀主義論調 , 認為人們當前忽略了人在人工智能中的重要性 。 在AI的未來影響方面 , 她認為有兩個領域的影響被普遍低估:
教育領域的變革:AI將加速提供學習機會 , 并將對現有的學校體系和人力資本評估格局產生影響 , 傳統的學歷背景將不再是評估工人資質的唯一標準。
勞動力市場的“混亂中間階段”:“所有工作都會消失”的言論被夸大了 , 但政策制定者、學者和社會普遍低估了從知識型工作者到藍領、再到服務業 , 這一系列正在發生的“混亂的中間階段”的變革過程 。
最后 , 針對年輕人的職業發展 , 李飛飛強調了“學習如何學習”的重要性 , 她建議年輕人利用AI工具終身學習來強化自我 。 同時她指出 , 在教育評估中 , 不應將人類與AI對立 , 而是應鼓勵學生利用批判性思維 , 整合跨學科知識 , 改進AI的初步答案 , 展示人類學習者的價值 。

李飛飛訪談內容劃重點:1.ImageNet與現代AI的誕生
ImageNet在2007年至2009年間構建 , 是AI領域“大數據”的轉折點 。 它的重要性在于與神經網絡算法、GPU(圖形處理器)的結合 , 實現了圖像識別領域的里程碑式突破 , 這一時刻被許多人認為是現代人工智能的開端 。
2.空間智能是AI領域的下一個前沿
李飛飛的創業公司World Labs專注于空間智能 , 她認為這與語言智能一樣 , 是解鎖機器能力的根本性技術 。 空間智能是人類在三維世界中“看與做”的完整閉環 , 涵蓋了理解環境、與環境互動、創造事物等能力 。 AI在這方面仍處于早期階段 , 但潛力巨大 。
3.警惕AI發展中對人的主體性的忽視
AI是一種文明級技術 , 對經濟、社會、文化產生深遠影響 。 李飛飛強調AI的核心是人 , 人創造、使用并受到AI的影響 。 她最大的擔憂是 , 在AI發展過程中 , 人們作為個體和社區的自尊心和主體感可能會被剝奪 。
4.“學會學習”的能力比學位更重要
在AI時代 , 擁有“學會學習的能力”比學位更加重要 。 她透露World Labs在招聘軟件工程師時 , 更看重應聘者對AI協作工具的使用意愿、學習速度和成長心態 。 她建議學校的評估體系應進行調整 , 展示AI工具的水平 , 并讓學生挑戰超越這個基準 , 成為最優秀的人類創造者 。
5.科學是多代人思想的非線性傳承
李飛飛反對“單一天才神話” , 認為科學發展并非單線、而是多代科學家和工程師跨學科思想相互影響、共同努力的非線性傳承 。 她指出ImageNet大數據假設就受到了心理學家關于兒童視覺學習研究的啟發 。

以下是李飛飛訪談內容實錄:1. 童年經歷與教育歷程
主持人:李博士 , 很高興見到您 , 感謝您抽出時間 。
李飛飛:嗨 , Tim 。 很高興來到這里 , 我感到非常興奮 。
主持人:讓我們開始這次對話吧 。 請您按時間順序介紹一下您的基本情況 。 您是在哪里長大的?您能描述一下您的成長經歷嗎?因為據我所知 , 您的父母在我的經驗中 , 對中國父母來說是相當不同尋常的 。 您能談談這一點嗎?
李飛飛:我會說我的童年歲月 , 是一部《雙城記》 。 我出生在北京 , 但大部分童年是在中國的一個叫成都的小鎮度過的 , 那里以熊貓聞名 。 在我15歲的時候 , 我和媽媽加入了在美國的爸爸 , 去了一個叫帕西帕尼(Parsippany)的新澤西小鎮 。 我從一個相對典型的中國中產階級家庭的孩子 , 變成了一個完全不同世界里的新移民 , 還是在新澤西 。 我需要學習一門新的語言、一種新的文化 , 去擁抱一個陌生的國家 。 后來我去了普林斯頓大學 , 主修物理學 。 然后我去了加州理工學院攻讀博士學位 , 學習人工智能(AI) 。
主持人:我想聽聽您父母雙方的情況 , 但我想多了解一些關于您父親的事 。 據我所知 , 他似乎是一個非常異想天開、富有創意的靈魂 。 這與一些人形成鮮明對比 , 比如我在播客上邀請過卜沙(Bo Shao) , 他是一位了不起的企業家 , 他的父親可以說是人們想象中會聯想到的那種“虎爸” 。 在卜沙的成長過程中 , 他父親非常嚴格 , 如果卜沙贏得了一次數學競賽 , 他會得到額外的關愛 , 并被允許擁有某些獎勵 。 您能描述一下您的父母嗎?
【李飛飛深度解讀:為什么空間智能是通往AGI的關鍵技術?】李飛飛:首先 , 很明顯您讀過我的書 , 謝謝您 。 確實如此 , 小時候你并不知道這些 , 但當我回顧自己的成長經歷時 , 我才發現:天哪 , 我的爸爸真的一點也不“典型” 。
我的爸爸那時就很愛大自然 , 現在仍然很愛 。 他只是充滿了好奇心 。 他能在不那么嚴肅的事物中找到幽默和樂趣 , 例如他非常喜歡蟲子和昆蟲 。 在20世紀80年代的中國長大 , 物質資源并不十分充裕 。 我們居住的城市成都當時正在擴張 , 我們住在城市邊緣的公寓小區 , 但我父母都在市中心工作 。 所以周末 , 我爸爸就會帶我在還有稻田的田野里玩 , 那里有水牛 , 我還有一只小狗 。 我的記憶里基本上就是和蟲子打交道 。
有時候我和爸爸會去附近的山里畫畫 , 那是因為我上了一門兒童美術課 。 我對父親整個童年的記憶就是他非常不嚴肅 , 他完全不關心我的成績 , 也不關心我在課堂上做了什么 , 更不關心我是否帶回了任何比賽獎項 。 這與他的價值觀無關 。 即使我們來到新澤西后 , 生活變得非常艱難 , 這是移民生活的一部分 , 我們一度非常貧困 。 我記得他仍然在庭院甩賣(yard sale)上玩得非常開心 。 庭院甩賣幾乎是我們每個周末的活動 , 他會把它當成尋寶游戲來玩 。 他就是這樣 , 對生活充滿了好奇心 , 保有一顆孩子般的心性 。
主持人:為什么您的父母要來到新澤西呢?是什么促成了這個決定 , 或者說背后的原因是什么?
李飛飛:我給您兩個答案 。 從我青春期早期的視角來看 , 我當時并不知道原因 。 我爸爸在我12歲時就離開了 , 我和媽媽是在我15歲時搬去和他會合的 。 那幾年正值青少年的年紀 , 腦子里會冒出很多奇怪的想法 。 我只知道他們說“我們去美國吧” , 我當時一點概念都沒有 。 我真的不知道會發生什么 。 我模糊地感覺到自己不是一個典型的孩子 , 我是一個女孩 , 但我超愛物理 , 甚至還特別喜歡戰斗機 。 我可以告訴你所有我喜歡的戰斗機型號 , 我都非常喜歡 。 所以我只是知道有這些因素 。 事后來看 , 我的父母他們是非常勇敢的人 , 因為我不確定在這個年齡 , 我是否會做出同樣的決定 。 離開一個我熟悉的國家 , 去到一個我不了解、不會說當地語言、一無所知的地方 。
而且請注意 , 那還是在互聯網和人工智能出現之前的時代 。 所以當你要去另一個國家時 , 你就被“切斷”了 , 你就像是去了另一個星球 。 是的 。 我覺得他們非常勇敢 。 作為一個心智成熟的女兒 , 我意識到他們希望我能獲得一個機會 , 一個他們認為對我的教育而言是前所未有的機會 。
主持人:我也想聽聽您母親的情況 , 因為僅從您父親的背景來看 , 就感覺非常迷人且不同尋常 , 那么人們可能會想 , 這種動力和對技術的專注是來自哪里呢?我很想聽您對此的回答 , 同時也想請您解釋一下 , 鮑勃·薩貝拉(Bob Sabella)是誰?
李飛飛:好的 , 這里主要有兩個問題:我媽媽是否注入了這種動力和技術熱情?以及鮑勃在我的生活中扮演了什么角色?
首先 , 我媽媽在技術方面可以說是一竅不通 , 我現在有時候還會笑話她 。 這么說吧 , 她不擅長數學 。 所以我想 , 技術上的熱情是我與生俱來的 , 是先天的 。 我爸爸雖然更偏向技術 , 但他比起方程更愛昆蟲和小蟲子 。 作為一個教育者這么多年 , 無論對我自己還是對我的孩子 , 我認為你必須尊重自然界中的奇跡 , 內心保有這種愛與熱情 , 以及隨之而來的激情和好奇心 。
但我媽媽確實是一個更有紀律性的人 。 她也不是那種“虎媽”——我不記得我媽媽曾經追著我要成績 。 我的父母從來都不在乎我是否帶獎項回家 。 我可以告訴您 , 我們家里沒有任何“墻上掛件”來展示這些 。 這一點一直延續到了今天 , 我自己的房子和辦公室里都沒有任何成就或獎項的裝飾 。
我媽媽不在乎那些榮譽 。 但她確實在意我是否是一個專注的人 。 如果我要做某件事 , 她不希望我邊做作業邊玩 。 她會說:“先把作業做完 。 在下午六點前完成 。 如果你不把作業做完 , 剩下的時間就不能做任何其他事 。 ”“你必須為后果負責 。 ”所以 , 她灌輸了一些紀律 , 但也就到此為止 。 她比我爸爸更嚴厲 。
鮑勃是我在新澤西泰坦高中二年級的科學老師 。 高中時我開始上AP微積分 , 但他很快就成為了在我這個青少年小移民的成長歲月中 , 最有影響力的人 。 他成了我的導師、我的朋友 , 后來他全家都成了我的“美國家人” 。 后來我自己成為教師后 , 整天教書真是很累 。 更糟的是 , 他還會利用他的午休時間為我上那節額外的課 。 現在我比十幾歲時更懂得感激 , 我現在比作為一個青少年時更感激 。 感謝那些付出額外努力的老師 。 這真是難以置信 。
我真的認為公立教師是我們社會中被低估的英雄 。 因為他們要應對來自各種背景的孩子 , 他們正在應對不斷變化的時代 。 那種故事 , 鮑勃會和我分享的 , 關于他如何去做的那些額外的努力 , 不僅僅是對我 , 而是對許多學生也是如此 。 因為這是一個以移民為主的城鎮 , 青春期問題尤為突出 。 所以他的學生們來自全世界各地 , 以及他怎樣幫助了他們和他們的家人 。
2. ImageNet的產生背景
主持人:我很好奇ImageNet是如何產生的 , 你可以用任何你喜歡的方式介紹 。 你可以告訴大家它是什么、后來變成了什么以及為什么重要 , 然后再談談它是如何開始的;或者你也可以直接談談它是如何開始的 。
李飛飛:那我就來解釋一下什么是ImageNet 。 ImageNet 表面上是在2007到2009年間構建的 , 那時我還是一名助理教授在普林斯頓 , 然后我搬到了斯坦福 。 所以在這段過渡時期 , 我的學生和我共同構建了這個 , 在那時人工智能領域中最大的 , 用于計算機視覺或視覺智能的訓練和評估數據集 。
ImageNet 在今天是大數據的拐點 。 在ImageNet 之前 , AI 作為一個領域 , 并沒有從事大數據方面的工作 。 正因為如此以及其他一些原因 , 人工智能陷入停滯 。 公眾認為那就是AI 寒冬 。 即便作為一名研究人員 , 當時是個年輕研究員 , 對我來說這是最令人興奮的領域 , 但我明白它沒有展示出公眾所需的突破 。
但ImageNet 與另外兩種現代計算要素共同作用 。 其中一種叫做神經網絡算法 。 另一種是現代芯片 , 稱為GPU(圖形處理單元) 。 這三件事在2012 年匯聚成了一項標志性工作、里程碑式的工作 , 名為 ImageNet 分類深度卷積神經網絡方法 。
那是一篇論文 , 表明由ImageNet 提供的大量數據的結合 , 以及通過 GPU 實現的快速并行計算 , 并且一個神經網絡算法可以實現在圖像識別領域的 AI 表現 。 許多人稱那個特定的里程碑為現代AI 的誕生 。 如果把元素都算進去 , 我的工作可以說是其中的三分之一 。 我認為那就是它的重要性 。 我真的非常幸運和受寵若驚 , 我自己的工作在讓現代AI 成為現實方面起了關鍵作用 。
事實證明 , 物理教給我的不僅僅是數學和物理 。 它真正帶給我的是這種去提出大膽問題的熱情 。 所以到了本科快結束時 , 我也想要一個屬于我自己的大膽問題 。 我并不滿足于僅僅去追隨別人大膽的問題 。 通過閱讀書籍等等 , 我意識到我的熱情不在于物質層面 , 而更多是關于智能 。
我當時真的非常著迷于這個問題 , 那就是“什么是智能”以及“我們如何制造智能機器” 。 那時候我發誓我根本不知道那叫做AI 。 我只知道我想研究智能以及智能機器 。 之后我申請了研究生院 , 我想我認為就是在那一刻我成為了一名初露頭角的AI 科學家 。 那是我的正規訓練 , 作為計算機科學家在AI 方面的 。 然后我的物理學訓練在某種意義上繼續著 , 物理學教會我提出大膽的問題 , 并把它們變成指引方向的北極星 。 用科學術語來說 , 那顆北極星就變成了一個假設 。
對我來說 , 確立我的北極星目標非常重要 。 而我的第一個北極星目標 , 在接下來的這些年里 , 就是解決視覺智能的問題 。 就是我們讓機器“看見”世界的方式 。 而且不僅僅是通過“看見” RGB 顏色或光的明暗程度 , 就是要理解所見之物的意義 。 我在看著你 , Tim 。 我看到你 。 我看到你身后有一幅很美的畫 。 我不知道那是不是真的 。 我看到你就那樣坐在椅子上 , 就像在看一樣 。 “看見”就是理解這個世界的方式 。 所以那就成了我的北極星問題 。 而我當時的假設是我必須解決目標識別問題 。
主持人:我能在這兒打斷你一下嗎?因為這是關鍵點 。 我要讀一段來自Wired 的文章 , 里面詳細討論了你 。 他們說“問題是一位研究員可能會寫出一個算法用于識別狗和另一個用于識別貓 。 然后李開始想知道這個問題是否不是模型 , 而是數據 。 她認為如果一個孩子通過體驗來學習觀察 , 通過觀察感知視覺世界無數物體和場景 , 在她早年 , 也許計算機可以用類似的方式學習 。 ”我希望你能進一步詳細說明這一點 。 對我來說問題是 , 你當時是怎么看見這一點的?為什么它沒有更早發生?
李飛飛:我們都是歷史的學生 。 我其實不喜歡科學史敘述的一點是過于強調單一天才 。 我們知道牛頓發現了現代物理學定律 , 但他確實是個天才 , 這并不妨礙對牛頓的尊重 。 但是 , 科學是一脈相承的傳統 , 而科學實際上是非線性的傳承 。
例如 , 為什么我會被這個假說所啟發?因為許多其他科學家激勵了我 。 在我的書中 , 我談到了這位教授的一系列工作 , 比爾曼 , 他是一位心理學家 。 他對AI 不感興趣 , 而是對理解心智感興趣 。 我在讀他的論文 , 他特別談到了幼兒在早期能夠學習到的大量視覺物體 。 那件作品本身并不是那樣的意象 。 但如果不讀那件作品 , 我就不會提出我的假設 。
主持人:我很高興你強調這一點 , 單一英雄旅程的簡單性很有吸引力 , 它很簡單 , 但幾乎從不真實 。
李飛飛:這可能永遠不是真的 。 即使是我最大的偶像 , 愛因斯坦 。 任何認識我的人 , 任何讀過我書的人都知道我有多敬佩他 , 我只是愛他所做的一切 。 狹義相對論方程是洛倫茲變換的延續 。 就連愛因斯坦 , 他也是在許多其他人的工作基礎上發展的 。 所以我認為這非常重要 , 尤其是我相信我們會談到這一點 。
我現在在硅谷的中心給你打電話 。 我們正處在人工智能熱潮之中 。 很顯然 , 我對我的領域感到非常自豪 , 但我認為 , 當媒體或其他渠道講述人工智能的故事時 , 幾乎總是只講幾個天才 , 而事實并非如此 。 這是幾代人的共同努力 , 由促成這一領域發展的計算機科學家、認知科學家和工程師們共同完成的 。
主持人:談到ImageNet , 我很想請你談談其中一些關鍵性的決定或時刻 , 它們在塑造ImageNet的成功過程中起到了關鍵作用 。 比如說 , 如果你想讓機器學會識別物體 , 更接近孩子學習的路徑 , 你就需要標注大量的圖像 。 我閱讀了關于Mechanical Turk如何介入 , 以及隨后出現的競爭性方面 , 這似乎推動了一些重要的分水嶺時刻 。 你能具體談談有哪些因素或決策促成了它的成功嗎?
李飛飛:很多人問我這個問題 , 因為在ImageNet之后 , 很多人嘗試去制作數據集 , 但仍然只有極少數取得了成功 。 那么是什么讓ImageNet如此成功呢?我認為其中一個成功因素是時機 。 我們確實是最先看到大數據影響的人之一 , 那非常有決定性 , 或者說 , 那種定性的改變本身就是成功的一部分 。 但正如你所問 , 大數據的假設不僅僅在于規模 。 實際上 , 很多人誤解了ImageNet以及其他數據集的重要性 。 伴隨數據集而來的 , 是一個關于“應該提出什么問題”的科學假設 。 例如 , 在視覺識別中 , 你可以制作一個用于辨別RGB顏色值的數據集 , 但它的影響力不會像圍繞對象組織的數據集那樣大 。
我們可以深入探討原因 。 這不是因為RGB本身更簡單 , 而是因為你必須以正確的方式提出科學問題 。 另一個例子是 , 與其制作一個物體的數據集 , 你為什么不做一個城市的數據集呢?那比對象復雜得多 , 但那就太復雜了 。 所以 , 對于每一個科學探索 , 你都必須有正確的假設 , 并提出正確的問題 。 因此 , 成功的一個部分是我們定義了“視覺對象分類”這個正確的假設 。
我想那是第一種正確性 。 另一種正確性是人們可能認為 , “哦 , 這很簡單 , 你只需要收集大量數據 。 ”首先 , 這很費力 。 但即便撇開費力不談 , 你如何定義質量?你可能會說 , 如果數量足夠大 , 我們就不在乎質量 。 但你如何在兩者之間進行權衡?什么才算是“大”?什么是“好”?以及你如何權衡這些?這是一個非常深奧的科學問題 , 我們需要做大量研究 。 另一個非常困難的決策是:什么定義了圖像質量?是不是每張圖像都有更高的分辨率?它是逼真攝影風格的嗎?是不是因為這是日常影像 , 看起來很雜亂?所有產品照都是看起來很干凈的嗎?這些問題如果你離得太遠 , 根本不會想到去問 。 但作為一名科學家 , 當我們在構建物體識別的深層問題時 , 我們必須從如此多的維度去提問 。
然后你提到了亞馬遜土耳其機器人(Amazon Mechanical Turk) 。 那實際上是絕望的產物 。 當我們提出這些假設時 , 我們的結論是我們至少需要數以千萬計的高質量圖片 , 覆蓋所有可能的多樣維度 。 無論是用戶照片、產品拍攝 , 還是圖庫攝影之類的 , 我們都需要高質量的標簽 。 一旦我們做出那個決定 , 我們意識到這必須由人從數十億張圖像中篩選出來 , 因此我們變得非常絕望 。 我們當時想 , 我們要怎么做到這一點?
我確實嘗試過雇用普林斯頓的本科生 。 普林斯頓的本科生非常聰明 , 但是他們非常重視時間的價值 , 而且他們很昂貴 。 即使我有天文數字的錢 , 那也會花非常長的時間 。 所以 , 我們真的被卡住了很久 。 我們以為還有其他捷徑 , 但事實是人工標注是金標準 。 我們希望訓練的機器能以人類能力為衡量標準 , 所以當時我們不能走捷徑 。
因此 , 我們不得不采用后來被稱為眾包工程的方法 。 那時眾包還是一項非常新的技術 , 大概才剛一歲左右 , 由亞馬遜提供 。 他們創建了一個在線市場 , 讓人們通過做一些小型任務來賺取報酬 。 我記得當我第一次聽說Amazon Mechanical Turk時 , 我就登錄了我的Amazon賬戶 。 我查看的第一個任務 , 只是想試一試 , 是轉寫葡萄酒瓶上的標簽 。 任務會給你一張酒瓶的圖片 , 你得說這是1999年的波爾多 , 諸如此類 。 人們會上傳這些微型任務 , 然后由線上工作者來完成 , 比如像我這樣在閑暇時間的人 , 我就會去注冊 , 然后接這些活來賺錢 。 我們意識到 , 那又是一種絕望驅使下的舉動 , 它是一種大規模并行處理 , 與全球在線人群的處理來為我們完成這件事 。 這就是我們將數十億張圖像濃縮為1500萬張高質量圖像的方式 。
主持人:我想我讀到的例子是:識別照片中的熊貓 , 他們會因為識別熊貓而獲得報酬 。 還有什么能讓他們在每張照片里都準確識別出熊貓?所以 , 你也必須遵循激勵機制 。 你是怎么算出那個的?
李飛飛:這就是我和我的學生們為之絞盡腦汁的地方 。 我數不清我們聊了多少小時來處理質量控制相關的問題 。 首先需要篩選出那些認真愿意做這項工作的人 , 然后我們必須做一些前置測驗 , 監控標注者的工作質量 。
主持人:我想問你一件事 , 因為你被稱為AI的教母 。 你在AI領域擁有長期的歷史視角 , 能夠觀察到它的發展、分叉 , 以及這種技術的危險與希望 。 你覺得人們忽略了什么?你認為是什么在消耗房間里所有的注意力?無論是他們應該知道的事情 , 還是他們應該保持懷疑的事情 , 或者其他方面?
李飛飛:特別是考慮到我現在是從硅谷中心給你打電話 , 我覺得人們忽略了人在人工智能中的重要性 。 這個說法有多重面向或維度 。 也就是說 , 人工智能絕對是一項文明技術 。 我把“文明技術”定義為:由于這項技術的力量 , 它將會或已經在經濟上、社會上、文化上、政治上對我們社會的下游產生深遠影響 。
我剛聽說一個未經證實的消息 , 說去年美國GDP增長中 , 有很大一部分歸因于AI的增長 。 顯然這個數字是 , 美國GDP增長了4% , 如果去掉AI , 只增長了2% 。 這就是從經濟角度來說的“文明性”的含義 。 這顯然也在重新定義我們的文化 , 想想你在談論“吸走全場空氣”這個詞 , 它從好萊塢到華爾街 , 到硅谷 , 到TikTok、YouTube、Instagram , 無處不在 。 我覺得還有更多的焦慮是關于人們的尊嚴感和自主感 , 感覺自己被排擠在未來之外 。 我認為我們需要改變這種狀況 。
主持人:我聽你說過 , 你之所以是個樂觀主義者 , 是因為你是個母親 。 無論是極端的樂觀還是極端的悲觀 , 都可能以對我們無益的方式造成偏見或產生盲點 。 我很好奇你是否會盡量以最客觀的方式來評估 。 戴著那頂帽子 , 對任何人來說都很難 , 但如果你試著去做 , 你覺得人們是不是過于擔心 , 擔心得不夠 , 還是在為錯誤的事情擔憂?你覺得人們是否在為正確的事情擔憂 , 還是在某種程度上已經迷失方向了?
李飛飛:首先 , 我稱自己為務實的樂觀主義者 。 我不是烏托邦主義者 。 所以我實際上不相信兩極端 。 我周游世界 , 就在上個月我在中東 , 我也在歐洲 , 我在英國 , 也在加拿大 , 然后回到美國家中 。 我認為美國和西歐的人們更擔心AI , 而不是比如中東、亞洲的人 。
3. World Labs的工作目標
主持人:為什么決定創建World Labs?
李飛飛:我實際上經常向我的團隊每一位成員回答這個問題 。 我創建了World Labs 。 這個答案有兩個層面 。 從技術角度看 , World Labs正在構建下一代空間智能 , 因為它就像語言智能一樣 , 是解鎖令人難以置信的能力的基礎 , 以便能夠幫助人類創造得更好、制造得更好、設計得更好、打造更好的機器人 。 所以 , 空間智能是一項關鍵技術 。 但更進一步的原因 , 為什么我仍然是個技術人員?是因為我相信人類是唯一會建立文明的物種 。 動物會建立殖民地或群落 , 但我們建立文明 。 而我們創建文明 , 是因為我們想要變得越來越好 。 我們想要做好事 , 盡管在此過程中我們也做了很多壞事 。 但人們渴望擁有更好的生活、更好的社區、更好的社會 , 過得更健康 , 享有更多繁榮 。
我幾周前在和某人討論一個很受啟發的事 , 是關于高中劇院 。 他們的預算非常低 , 有時候我會去看舊金山歌劇或音樂劇 , 那些舞臺布景真的非常精美 。 但是對于高中生或初中生來說 , 他們很難有那個預算來做這件事 。
想象一下 。 你可以用我們現在這個稱為Marble 的模型 , 在一個中世紀法國小鎮里創建一個場景 , 然后將它作為背景 , 用這種數字化的形式 , 幫助演員和表演融入那個世界 。 當然 , 這取決于輔助技術 , 無論你是在電腦上看 , 還是未來人們可以使用頭戴設備或其他設備 , 你都能獲得仿佛置身于中世紀法國小鎮的那種身臨其境的體驗 。 這對許多創作者來說 , 將是一個極棒的創意工具 。
我們已經看到世界各地的創作者都在使用我們的模型 。 他們中有視覺特效(VFX)創作者、室內設計創作者、游戲創作者 , 還有教育工作者 , 他們希望為學生構建能帶來不同體驗的世界 。 正是如此 。 因為他們覺得這個工具非常強大 , 觸手可及就能創建出他們可以沉浸其中的3D世界 , 無論是他們的角色還是他們自己 。
主持人:一個公立學校的老師希望通過這種方式去激勵學生 , 讓他們付出更多努力 。 對于使用這個產品的人來說 , 流程會是怎樣的?他們是在輸入文本來描述想要創建的世界 , 還是上傳素材或照片 , 有點像一個圖像板?它是怎么運作的?如果他們不懂技術呢?
李飛飛:他們完全不需要懂技術 。 他們可以在桌面端或手機端打開我們的頁面 , 桌面端功能更多 , 會更有趣 。 他們可以直接輸入 , 比如“法國中世紀小鎮” , 或者他們可以從 Midjourney 等工具生成一張中世紀法國小鎮的圖片 , 也可以上傳一張真實照片 。 幾分鐘后 , 我們的模型就會為他們生成一個 3D 世界 。 它的范圍確實有一定的限制 , 但這個 3D 世界是立體的 , 你可以用鼠標拖動并轉動視角 , 在那個世界里走走看看 。
之后如果你想使用它 , 有很多種方式 。 你可以通過在網站上使用我們的工具來放置鏡頭 , 從中制作出一部特定的電影 。 如果你是游戲開發者 , 可以往里面添加很多角色 。 如果你是視覺特效專業人士 , 我們有很多這樣的用戶 , 他們可以把這個場景融入他們使用真實演員拍攝電影的工作流程中 。
主持人:我正想說 , 這聽起來很像游戲引擎 。
李飛飛:是的 , 我們也可以把它作為機器人訓練的模擬環境 。 因為大量的機器人訓練需要海量數據 , 而這個工具可以用于生成大量不同的數據 。
主持人:那是不是有點像機器人在進入現實世界之前使用的飛行模擬器?
李飛飛:那是目標的一部分 。 我們還處于早期階段 , 所以“飛行模擬器”還沒有完全實現 , 但這是發展過程中的一部分 。
主持人:你提到了精神病學研究 , 那會是什么樣子?
李飛飛:我們接到了一位研究人員的電話 , 他們正在研究患有強迫癥等心理障礙的人群 , 這些人會在某些環境下被觸發 。 他們想研究觸發因素 , 也想研究治療方法 。 但是 , 你怎么去觸發一個比如對草莓地有特殊問題的人呢?我是隨便舉個例子 。 你可以帶他們去一個草莓地 , 但如果你想知道是夏天的草莓地、夜晚的草莓地 , 或者就是草莓 , 你要怎么做到?突然間 , 這位研究人員意識到 , 我們提供了極低成本的方式 , 讓他們可以改變各種環境維度 , 從而進行他們的研究和實驗 。
主持人:這真的很有趣 。 是的 , 我能看到它被應用于“暴露療法”(Exposure Therapy) 。 現在你這樣描述 , 我就能理解它是如何起作用的了 。
李飛飛:我的意思是 , 它幾乎可以應用到所有事情上 。 如果你思考人類在現實世界中的運作方式 , 現實世界和數字世界之間的界限正在變得越來越模糊 , 越來越薄 , 因為我們生活在屏幕之中 。 我們在虛擬世界和現實世界中做事 。 我們將創造能夠在現實世界和虛擬世界中都能做事的機器 。 因此 , 我們在數字和實體空間都有很多工作 。
主持人:有沒有哪些科學家或研究人員 , 不是那些已經在世界上廣為人知的大牌人物 , 他們的工作讓你印象特別深刻 , 讓你覺得他們正在做非常有意義的工作?
李飛飛:這也是我寫這本書的部分原因之一 。 尤其是在中間章節 , 我寫到了將認知科學、視覺創作與計算機科學相結合的歷程 , 我實際上也談到了心理學家、神經科學家和發展心理學家 。 他們中有些人還在世 , 有些人已經不在了 , 例如像卡尼曼(Kahneman)和特沃斯基(Tversky)這樣在認知科學領域的巨擘 , 他們的工作影響了計算機科學 , 并最終影響了人工智能 。 世界上仍有許多科學家 , 他們是發展心理學和人工智能領域的思想家 。 我一直在關注他們的工作 。
我非常尊重科學界的幾位人士 , 僅舉幾位名字 , 比如哈佛大學的利茲·斯皮爾克(Liz Spelke)、伯克利大學的艾莉森·戈布尼克(Alison Gopnik) , 還有羅德尼·布魯克斯(Rodney Brooks) , 他曾是麻省理工學院的機器人學教授 。 當然 , 還有太多太多優秀的人 。 但你在讓我說出那些不在人工智能新聞頭條里的人 。
4. AI的未來影響
主持人:是的 , 太好了 。 我也很想聽聽你的看法 , 在不久的將來 , 哪些類型的發展看起來似乎不可避免 。 你認為哪些人工智能領域的影響被低估了?
李飛飛:我認為人工智能與教育的影響被低估了 。 我們將看到的是 , 人工智能可以加速為那些想學習的人提供學習機會 。 這會對我們的學校體系以及人力資本格局產生下游影響 。 比如 , 我們如何評估有資質的工人?過去可能是看你從哪所學校畢業、獲得了什么學位 , 但這將會改變 。 隨著人工智能觸手可及地到達許多人手中 , 這一點還沒有得到足夠的重視 。
我認為人工智能對我們經濟結構(包括勞動力市?。 ┑撓跋煲脖壞凸懶?。 關于要么是“徹底的烏托邦”、要么是“后稀缺社會”的這種言論都是夸大的 , 或者說“所有人的工作都會消失”也是夸大的 。 但混亂的中間階段——從知識型工作者到藍領、再到酒店服務業 , 所有這些正在發生的變化過程——被我們的政策制定者、學者以及整個社會普遍低估了 。
主持人:那么從工作角度來說 , 有哪些細微差別是你正在或將要告訴你的孩子(或其他年輕人)應該把精力放在哪里 , 學習什么?
李飛飛:我認為學習能力變得更加重要 。 在當時可用的學習工具更少、工具更少的時代 , 按部就班地學習更容易 。 現在 , 學習工具更多 , 也更易得 。 人工智能是一種賦能工具 。 如果你能夠使用這些工具 , 你就能學會如何學習 , 你可以獲得超能力 , 讓自己更強大 。 所以 , 回到你剛才的問題 , 對年輕人、對孩子們來說 , “學習如何學習”這個永恒的價值 , 現在變得更加重要了 。
主持人:是的 , 這讓我覺得 , 我們在討論的其實是事情只會變得越來越容易 。 渴望成為擁有超能力的自學成才者 , 我們已經見過這種情況了 , YouTube 就是一個很好的案例 。 現在你可以選擇沉迷娛樂 , 從而避免自我成長和發展 , 或者你可以用它來加速這些過程 。 對于人工智能來說也是如此 , 你向前展望 , 甚至不用向前展望 , 而是要問:老師如何審核他們的學生是否在做應該做的功課?在許多層面上 , 情況已經到了這個地步 , 學生們可以選擇完全不做任何工作 , 或者將他們的工作大幅提升 , 但最終的產出看起來可能非常相似 。 所以 , 學校教育會發生很大變化 。 這非常非常有趣 。
李飛飛:我實際上認為 , 如果學校的評估目標被設計成無論人工智能給出什么答案 , 和學生給出的完全相同 , 那這個評估本身就有缺陷 。 在我看來 , 構建評估的正確方式 , 不是把人類和人工智能對立起來 , 試圖監管是否使用了人工智能 , 而是要展示這些工具的作用 , 以及人類學習者的作用 。 例如 , 人工智能可以給出初步答案 , 但學生需要用關鍵性思維 , 整合他們自己知道的額外信息 , 或整合來自其他課程的知識 , 用人工智能無法做到的方式來改進答案 。 這才是構建評估的正確方式 。

    推薦閱讀