小米語音首席科學家:AI發展的本質像生物進化,不開源要慢1000倍

小米語音首席科學家:AI發展的本質像生物進化,不開源要慢1000倍

文章圖片

小米語音首席科學家:AI發展的本質像生物進化,不開源要慢1000倍

文章圖片

小米語音首席科學家:AI發展的本質像生物進化,不開源要慢1000倍

文章圖片

小米語音首席科學家:AI發展的本質像生物進化,不開源要慢1000倍

文章圖片


編輯部 整理自 MEET2026
量子位 | 公眾號 QbitAI
從生物進化的漫長歷程到AI技術的瘋狂迭代 , 兩者遵循著驚人相似的底層邏輯 。
在探尋下一代AI架構的關鍵時刻 , 著名的“Kaldi之父”、小米集團首席語音科學家、IEEE Fellow Daniel Povey提出:
就像生物進化一樣 ,AI“配方”的設計本質上就是一個不斷試錯的過程 , 而進化的速度 , 取決于“復制”一個新想法所需的時間 。
在本次量子位MEET2026智能未來大會上 , 他也將開源視為AI進化的核心加速器——
若沒有開源 , 行業的進化速度恐怕要慢上一千倍;正是因為有了開源 , 技術才能像生物適應新環境一樣 , 經歷“長期停滯+瞬間爆發”的非線性躍遷 。

至于如何在未來的競爭中生存 , 在他看來 , 大公司最明智的策略是“兩條腿走路”——
一邊利用Transformer賦能當下的產品 , 一邊保留資源探索未知 , 賭中下一個顛覆世界的機會 。
為了完整體現Daniel Povey的思考 , 在不改變原意的基礎上 , 量子位對演講內容進行了翻譯和編輯整理 , 希望能給你帶來更多啟發 。
MEET2026智能未來大會是由量子位主辦的行業峰會 , 近30位產業代表與會討論 。 線下參會觀眾近1500人 , 線上直播觀眾350萬+ , 獲得了主流媒體的廣泛關注與報道 。
核心觀點梳理 AI的演進和自然界生物的進化過程非常相似 , 通過嘗試不同的技術變體 , 然后篩選出在目標任務上表現更優的方案; 類比生物進化中的“間斷平衡” , AI的發展并非連續 , 而是“長期停滯+突然躍遷” , 停滯期也不會永遠持續; 開源對進化速度至關重要 , 如果每家公司都閉源 , 那么研究速度可能會降低為原來的千分之一; 不要押注單一任務或單一路線 , 在進化過程中找到AI“通才”與“專才”的平衡 , 保留多種不同模型架構的存續 , 從而增加發掘實用新技術的機會; 大公司雙管齊下是有意義的 , 一方面使用當前業界領先的技術方案 , 另一方面進行探索性研究 , 以尋找下一個重大突破 。
以下為Daniel Povey演講原文中譯本
像生物進化一樣快速試錯大家好 , 今天我想和大家分享一些關于“進化”和“AI”的思考 , 以及我們如何從生物演化中汲取關于AI未來的啟示 。 我將主要從科研和模型本身的角度解讀這個問題 。
人們設計AI“配方”的過程 , 本質上主要還是一個不斷試錯的過程 。
當人們有了新的理解 , 就會發表許多富含公式的論文 , 但其中99%的內容都沒什么真正可操作的價值 , 最后能落地的通常只是“配方”本身 。
所以設計AI“配方”的基本流程就是嘗試不同變體 , 然后篩選出有效的進行發布 , 別人再照著做 。

這其實和生物進化非常相似 。
在生物進化中 , 進化過程也會和外部環境相互影響 , 例如地球上的進化會受到太陽輻射變化、大氣成分變化的影響 , 而生命本身也會反過來影響這些環境因素 , 比如改變大氣成分 。
【小米語音首席科學家:AI發展的本質像生物進化,不開源要慢1000倍】AI的進化也是如此 , 可能會受到硬件、數據等資源的限制;同時 , AI也會通過商業效應、群體行為效應反作用于這些外部條件 。
在歷史上 , 生物進化甚至曾經多次“破壞”自身的生存環境 , 例如“大氧化事件”(Great Oxygenation Event) , 不過最終生命又從中恢復了過來 。
(注:大氧化事件是指約26億年前 , 大氣中的游離氧含量突然增加的事件 , 其具體原因不明 。 該事件使地球上礦物的成分發生了變化 , 也使得日后動物的出現成為了可能 。 )

生物學中“世代間隔”(Generation time)類比到AI , 就是復制一個新想法所需的時間 , 通常這個時間會持續數個月 。
因為當你有了新的發現 , 往往要先寫論文 , 而且一般是寫完才對外公開 , 有些期刊甚至規定發表前不能先上傳arXiv之類的預印本 。
過去這樣的周期可能需要大概兩年 , 但現在可能縮短到了六個月 。
現在 , 有了PyTorch這樣的工具 , 人們可以近乎完美地復現他人發布的“配方” 。
當然 , 有時人們可能只給出了描述(而沒有代碼) , 這會使得復現過程稍慢一些 , 但整體上 , 代際周期的長短決定了進化的快慢 。
就像世代間隔漫長的大型生物 , 往往進化緩慢;而那些能夠快速繁衍的小型生物 , 進化速度則要快得多 。

去不同領域尋找AI突破口在自然界的進化中 , 往往存在一種“停停走走”的節奏 , 很長一段時間里幾乎沒有什么動靜 , 隨后突然發生劇變 。
對于自然界的物種來說 , 這種變化通常是由遷移到新環境所導致的;但偶爾 , 它也源于生命“解鎖”了某種新事物 , 比如光合作用演化出來時 , 整個進化的節奏便迅速發生了改變 。
我從事AI領域大概有30年了 , 特別是在語音領域 , 也經歷過長時間沒有太大進展的階段 , 當時我們甚至以為“這就是終點” 。
當年我們做高斯混合模型、判別式訓練時 , 以為語音識別的最終形態就是那樣了 , 沒人能想象未來的改變 。 所以也許十年后 , 也會出現今天誰都無法想象的全新模型 。
AI的發展中 , 不同任務之間的相互作用非常重要 , 比如視覺領域的新方法 , 后來可能會用于語音、語言等任務 。

最近一個典型例子就是Transformers , 它最初是專門為語言模型設計的 , 后來卻在各種任務中大放異彩 。
在進化中也是如此 , 海豚絕無可能僅在海洋里就進化成型 , 因為它那些呼吸空氣的機能 , 原本是為了適應陸地生活才演化出來的 。 但當它重返海洋后 , 卻成了最成功的頂級捕食者 。
這說明 , 有時候你確實需要暫時去做一些截然不同的事情 , 最終才能在原本的目標上取得成功 。
如果不開源 , AI得慢上一千倍當然 , 拿生物進化做類比也有局限性 。 畢竟我們可以主動去理解事物 , 可以利用數學推導 , 或者改進可視化和調試工具 , 從而加速技術的發展 。

此外 , 提速也非常關鍵 。 實驗跑得越快 , 進化的迭代就越快 , 這對研究價值巨大 。
而在這一點上 , 開源起到了至關重要的作用 。
如果每家公司都得自己從頭重復造輪子 , 研究速度恐怕要慢上一千倍 。
我們可以設想一個平行世界 , 如果大公司決定不開源PyTorch , 我也沒有開源Kaldi項目 , 那AI研發的局面會很不相同 。
不過 , 不開源在某些行業確實是常態 , 尤其是涉及實體工程的領域 , 因為開發一款工具往往極其昂貴 , 可能要砸出數百萬美元 , 所以沒人會把他們的模型開源出來 。
其實 , 2012年我之所以離開工業界 , 就是因為這個問題 。 當時的大公司普遍對開源都不怎么感冒 , 所以我轉去學術界待了一段時間 。
但如今很多公司都開始擁抱開源了 , 像小米就非常支持我的工作 , 也支持開源 , 所以我又回到了工業界 。
尋找Transformer之后的下一個顛覆者回到關于進化的比喻 , 我剛才吐槽過論文中的那些數學理論往往不夠具體 , 沒法落地 。 那么 , 我們到底能從中能學到什么實實在在的東西呢?
有一點很關鍵 , 那就是我們需要在各種不同的任務上不斷探索新思路 。
因為在進化這件事上 , 很難預判哪種生物最終會勝出 。 就像嚙齒類動物 , 起初可能只是為了吃竹子種子這種極具體的目的而進化的 。
但結果誰曾想 , 這反而讓它們演化出了一種極強的“通才”式生存能力 , 最終遍布全球、無所不能 。
可在當時 , 誰能想到吃竹子種子這事兒能帶來這么大的突破呢?這種事真的太難預測了 。
所以說 , 關鍵就在于要多嘗試不同的任務 , 因為我們為了突破某個任務特有限制研發出的解決方案 , 可能最后會被證明具有極高的通用價值 。

我們需要關注進化過程中“通才”與“專才”之間的權衡 , 我并非要分出孰優孰劣 , 但是從長遠來看 , 不同的進化策略能夠適應不同的環境——
如果環境長期穩定 , 自然界往往會涌現出大量像熊貓這樣的“專才” , 它們雖然只吃一種食物 , 卻能做到極致適應;
可一旦環境變得動蕩多變 , 像老鼠這種適應力極強的“通才”往往更具生存優勢 。
所以 , 這兩種生存策略很可能是缺一不可的 。
對于AI而言 , 我們應該讓模型在多個不同的生態位里同時演進 , 這就像自然界在不同環境中進行的進化一樣 。 畢竟 , 每個物種通常都有其最適應的特定生存空間 。
如果我們能同時保留多種不同的技術路線 , 說不定其中某一條在經過進一步打磨后 , 就能帶來巨大的回報 。 但這事兒很難提前預判 , 沒人知道眼下哪個模型會在未來稱王 。
出于同樣的理由 , 我們也應該維持模型架構的多樣性 。 這就像大自然保留了豐富多樣的物種一樣 , 因為我們根本無法確定 , 到底哪一種架構會孕育出下一輪的重大突破 。
在我看來 , 大多數大型機構采取兩頭并重的策略是比較明智的——既要沿用像Transformer等當前最頂尖的成熟模型 , 同時也得投入一些資源去做探索性研究 , 去尋找下一個技術突破口 。
在我看來 , Transformer這種技術領域的競爭現狀 , 就像是“搶椅子”——只要音樂還在響 , 你就得跟著一直跳 。
畢竟在Transformer和LLM依然稱霸的當下 , 任何一家公司都絕無可能把身家性命都押在別的路線上 。
但大家心里也都清楚 , 音樂遲早有停下來的那一天 。
所以 , 小米在LLM上的研究主線很明確 , 那就是利用SOTA級別的AI和大模型技術 , 去全方位賦能我們的“人車家全生態” 。
我個人其實并沒有深度參與這些工作 , 因為我和團隊主要負責的是探索性研究 。 我們嘗試了大量不同的方向 , 就是希望能找到能產生巨大影響的成果 , 但這事的成功率向來極低 。
回首我的整個研究生涯 , 嘗試過的點子恐怕得有上萬個 。 現在回頭看 , 其中有一兩個如果當時我能推廣得再好一點 , 說不定真能成為顛覆性的技術 。
比如 , 早在大家連BatchNorm都還沒開始用的時候 , 我們組其實就已經設計出了一種類似于LayerNorm的歸一化模塊 。
但我也不想像Jürgen Schmidhuber那樣說“我在所有人之前發明了一切” 。
(注:Jurgen Schmidhuber是著名計算機科學家、LSTM之父 , 喜歡在AI領域出現新成果時發表文章或評論 , 列舉自己上世紀的論文 , 表示“這個東西我幾十年前就發明過了” 。 )
因為作為一名研究人員 , 有責任去判斷哪些是有價值的想法 , 并對其進行妥善推廣 。 如果你沒做到 , 那就得承認是自己的失誤 。
言歸正傳 , 我的團隊目前正在研發一種針對語音的新模型架構 , 叫Zapformer , 是一個通用聲音基座 。
相較于我們去年推出的Zipformer而言 , Zapformer實現了三大跨越:
從“人聲”到“萬聲”的跨越:從專注于人聲建模 , 到成為能同時理解人聲、環境音等多元信息的通用聲音基座; 從優化結構到創新理論的跨越:通過引入梯度流(Gradient Flow)理論指導模型設計 , 在已屬業界標桿的Zipformer基礎上 , 將語音識別精度再次顯著提升10%-15%; 從專用優化到通用健壯的跨越:為適應海量數據訓練移除了Dropout層 , 增強了大數據擬合能力 , 同時將優化器升級為TransformAdam , 在保持極速收斂的同時 , 大幅提升了訓練的通用性與穩定性 。我不想把話說太滿 , 說它就是“下一個大熱門” , 但它確實包含了不少有意思的想法 。
當然 , 我們希望能押中下一個“大殺器” , 但這事兒誰也沒法打包票 。
所有這些成果全都是開源的 , 因為我是開源的堅定信徒 。 除了我的項目 , 小米還有很多其他的開源項目 。
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀