小米語音首席科學家：AI發展的本質像生物進化，不開源要慢1000倍

2026-04-27 人工智能 ai 小米科技

文章圖片

文章圖片

文章圖片

文章圖片

編輯部整理自 MEET2026
量子位 | 公眾號 QbitAI
從生物進化的漫長歷程到AI技術的瘋狂迭代，兩者遵循著驚人相似的底層邏輯。
在探尋下一代AI架構的關鍵時刻，著名的“Kaldi之父”、小米集團首席語音科學家、IEEE Fellow Daniel Povey提出：
就像生物進化一樣，AI“配方”的設計本質上就是一個不斷試錯的過程，而進化的速度，取決于“復制”一個新想法所需的時間。
在本次量子位MEET2026智能未來大會上，他也將開源視為AI進化的核心加速器——
若沒有開源，行業的進化速度恐怕要慢上一千倍；正是因為有了開源，技術才能像生物適應新環境一樣，經歷“長期停滯+瞬間爆發”的非線性躍遷。

至于如何在未來的競爭中生存，在他看來，大公司最明智的策略是“兩條腿走路”——
一邊利用Transformer賦能當下的產品，一邊保留資源探索未知，賭中下一個顛覆世界的機會。
為了完整體現Daniel Povey的思考，在不改變原意的基礎上，量子位對演講內容進行了翻譯和編輯整理，希望能給你帶來更多啟發。
MEET2026智能未來大會是由量子位主辦的行業峰會，近30位產業代表與會討論。線下參會觀眾近1500人，線上直播觀眾350萬+ ，獲得了主流媒體的廣泛關注與報道。
核心觀點梳理 AI的演進和自然界生物的進化過程非常相似，通過嘗試不同的技術變體，然后篩選出在目標任務上表現更優的方案；類比生物進化中的“間斷平衡” ， AI的發展并非連續，而是“長期停滯+突然躍遷” ，停滯期也不會永遠持續；開源對進化速度至關重要，如果每家公司都閉源，那么研究速度可能會降低為原來的千分之一；不要押注單一任務或單一路線，在進化過程中找到AI“通才”與“專才”的平衡，保留多種不同模型架構的存續，從而增加發掘實用新技術的機會；大公司雙管齊下是有意義的，一方面使用當前業界領先的技術方案，另一方面進行探索性研究，以尋找下一個重大突破。
以下為Daniel Povey演講原文中譯本
像生物進化一樣快速試錯大家好，今天我想和大家分享一些關于“進化”和“AI”的思考，以及我們如何從生物演化中汲取關于AI未來的啟示。我將主要從科研和模型本身的角度解讀這個問題。
人們設計AI“配方”的過程，本質上主要還是一個不斷試錯的過程。
當人們有了新的理解，就會發表許多富含公式的論文，但其中99%的內容都沒什么真正可操作的價值，最后能落地的通常只是“配方”本身。
所以設計AI“配方”的基本流程就是嘗試不同變體，然后篩選出有效的進行發布，別人再照著做。

這其實和生物進化非常相似。
在生物進化中，進化過程也會和外部環境相互影響，例如地球上的進化會受到太陽輻射變化、大氣成分變化的影響，而生命本身也會反過來影響這些環境因素，比如改變大氣成分。
【小米語音首席科學家：AI發展的本質像生物進化，不開源要慢1000倍】AI的進化也是如此，可能會受到硬件、數據等資源的限制；同時， AI也會通過商業效應、群體行為效應反作用于這些外部條件。
在歷史上，生物進化甚至曾經多次“破壞”自身的生存環境，例如“大氧化事件”（Great Oxygenation Event），不過最終生命又從中恢復了過來。
（注：大氧化事件是指約26億年前，大氣中的游離氧含量突然增加的事件，其具體原因不明。該事件使地球上礦物的成分發生了變化，也使得日后動物的出現成為了可能。）

生物學中“世代間隔”（Generation time）類比到AI ，就是復制一個新想法所需的時間，通常這個時間會持續數個月。
因為當你有了新的發現，往往要先寫論文，而且一般是寫完才對外公開，有些期刊甚至規定發表前不能先上傳arXiv之類的預印本。
過去這樣的周期可能需要大概兩年，但現在可能縮短到了六個月。
現在，有了PyTorch這樣的工具，人們可以近乎完美地復現他人發布的“配方” 。
當然，有時人們可能只給出了描述（而沒有代碼），這會使得復現過程稍慢一些，但整體上，代際周期的長短決定了進化的快慢。
就像世代間隔漫長的大型生物，往往進化緩慢；而那些能夠快速繁衍的小型生物，進化速度則要快得多。

去不同領域尋找AI突破口在自然界的進化中，往往存在一種“停停走走”的節奏，很長一段時間里幾乎沒有什么動靜，隨后突然發生劇變。
對于自然界的物種來說，這種變化通常是由遷移到新環境所導致的；但偶爾，它也源于生命“解鎖”了某種新事物，比如光合作用演化出來時，整個進化的節奏便迅速發生了改變。
我從事AI領域大概有30年了，特別是在語音領域，也經歷過長時間沒有太大進展的階段，當時我們甚至以為“這就是終點” 。
當年我們做高斯混合模型、判別式訓練時，以為語音識別的最終形態就是那樣了，沒人能想象未來的改變。所以也許十年后，也會出現今天誰都無法想象的全新模型。
AI的發展中，不同任務之間的相互作用非常重要，比如視覺領域的新方法，后來可能會用于語音、語言等任務。

最近一個典型例子就是Transformers ，它最初是專門為語言模型設計的，后來卻在各種任務中大放異彩。
在進化中也是如此，海豚絕無可能僅在海洋里就進化成型，因為它那些呼吸空氣的機能，原本是為了適應陸地生活才演化出來的。但當它重返海洋后，卻成了最成功的頂級捕食者。
這說明，有時候你確實需要暫時去做一些截然不同的事情，最終才能在原本的目標上取得成功。
如果不開源， AI得慢上一千倍當然，拿生物進化做類比也有局限性。畢竟我們可以主動去理解事物，可以利用數學推導，或者改進可視化和調試工具，從而加速技術的發展。

此外，提速也非常關鍵。實驗跑得越快，進化的迭代就越快，這對研究價值巨大。
而在這一點上，開源起到了至關重要的作用。
如果每家公司都得自己從頭重復造輪子，研究速度恐怕要慢上一千倍。
我們可以設想一個平行世界，如果大公司決定不開源PyTorch ，我也沒有開源Kaldi項目，那AI研發的局面會很不相同。
不過，不開源在某些行業確實是常態，尤其是涉及實體工程的領域，因為開發一款工具往往極其昂貴，可能要砸出數百萬美元，所以沒人會把他們的模型開源出來。
其實， 2012年我之所以離開工業界，就是因為這個問題。當時的大公司普遍對開源都不怎么感冒，所以我轉去學術界待了一段時間。
但如今很多公司都開始擁抱開源了，像小米就非常支持我的工作，也支持開源，所以我又回到了工業界。
尋找Transformer之后的下一個顛覆者回到關于進化的比喻，我剛才吐槽過論文中的那些數學理論往往不夠具體，沒法落地。那么，我們到底能從中能學到什么實實在在的東西呢？
有一點很關鍵，那就是我們需要在各種不同的任務上不斷探索新思路。
因為在進化這件事上，很難預判哪種生物最終會勝出。就像嚙齒類動物，起初可能只是為了吃竹子種子這種極具體的目的而進化的。
但結果誰曾想，這反而讓它們演化出了一種極強的“通才”式生存能力，最終遍布全球、無所不能。
可在當時，誰能想到吃竹子種子這事兒能帶來這么大的突破呢？這種事真的太難預測了。
所以說，關鍵就在于要多嘗試不同的任務，因為我們為了突破某個任務特有限制研發出的解決方案，可能最后會被證明具有極高的通用價值。

我們需要關注進化過程中“通才”與“專才”之間的權衡，我并非要分出孰優孰劣，但是從長遠來看，不同的進化策略能夠適應不同的環境——
如果環境長期穩定，自然界往往會涌現出大量像熊貓這樣的“專才” ，它們雖然只吃一種食物，卻能做到極致適應；
可一旦環境變得動蕩多變，像老鼠這種適應力極強的“通才”往往更具生存優勢。
所以，這兩種生存策略很可能是缺一不可的。
對于AI而言，我們應該讓模型在多個不同的生態位里同時演進，這就像自然界在不同環境中進行的進化一樣。畢竟，每個物種通常都有其最適應的特定生存空間。
如果我們能同時保留多種不同的技術路線，說不定其中某一條在經過進一步打磨后，就能帶來巨大的回報。但這事兒很難提前預判，沒人知道眼下哪個模型會在未來稱王。
出于同樣的理由，我們也應該維持模型架構的多樣性。這就像大自然保留了豐富多樣的物種一樣，因為我們根本無法確定，到底哪一種架構會孕育出下一輪的重大突破。
在我看來，大多數大型機構采取兩頭并重的策略是比較明智的——既要沿用像Transformer等當前最頂尖的成熟模型，同時也得投入一些資源去做探索性研究，去尋找下一個技術突破口。
在我看來， Transformer這種技術領域的競爭現狀，就像是“搶椅子”——只要音樂還在響，你就得跟著一直跳。
畢竟在Transformer和LLM依然稱霸的當下，任何一家公司都絕無可能把身家性命都押在別的路線上。
但大家心里也都清楚，音樂遲早有停下來的那一天。
所以，小米在LLM上的研究主線很明確，那就是利用SOTA級別的AI和大模型技術，去全方位賦能我們的“人車家全生態” 。
我個人其實并沒有深度參與這些工作，因為我和團隊主要負責的是探索性研究。我們嘗試了大量不同的方向，就是希望能找到能產生巨大影響的成果，但這事的成功率向來極低。
回首我的整個研究生涯，嘗試過的點子恐怕得有上萬個。現在回頭看，其中有一兩個如果當時我能推廣得再好一點，說不定真能成為顛覆性的技術。
比如，早在大家連BatchNorm都還沒開始用的時候，我們組其實就已經設計出了一種類似于LayerNorm的歸一化模塊。
但我也不想像Jürgen Schmidhuber那樣說“我在所有人之前發明了一切” 。
（注：Jurgen Schmidhuber是著名計算機科學家、LSTM之父，喜歡在AI領域出現新成果時發表文章或評論，列舉自己上世紀的論文，表示“這個東西我幾十年前就發明過了” 。）
因為作為一名研究人員，有責任去判斷哪些是有價值的想法，并對其進行妥善推廣。如果你沒做到，那就得承認是自己的失誤。
言歸正傳，我的團隊目前正在研發一種針對語音的新模型架構，叫Zapformer ，是一個通用聲音基座。
相較于我們去年推出的Zipformer而言， Zapformer實現了三大跨越：
從“人聲”到“萬聲”的跨越：從專注于人聲建模，到成為能同時理解人聲、環境音等多元信息的通用聲音基座；從優化結構到創新理論的跨越：通過引入梯度流（Gradient Flow）理論指導模型設計，在已屬業界標桿的Zipformer基礎上，將語音識別精度再次顯著提升10%-15%；從專用優化到通用健壯的跨越：為適應海量數據訓練移除了Dropout層，增強了大數據擬合能力，同時將優化器升級為TransformAdam ，在保持極速收斂的同時，大幅提升了訓練的通用性與穩定性。我不想把話說太滿，說它就是“下一個大熱門” ，但它確實包含了不少有意思的想法。
當然，我們希望能押中下一個“大殺器” ，但這事兒誰也沒法打包票。
所有這些成果全都是開源的，因為我是開源的堅定信徒。除了我的項目，小米還有很多其他的開源項目。
— 完 —
量子位 QbitAI
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：美國首顆單片式3D芯片問世：能效有望提升1000倍

下一篇：存儲芯片價格暴漲 2026年手機、電腦漲價趨勢已定