
文章圖片
henry 發自 凹非寺
量子位 | 公眾號 QbitAI
英偉達還能“猖狂”多久?——不出三年!
實現AGI需要新的架構嗎?——不用 , Transformer足矣!
“近幾年推理成本下降了100倍 , 未來還有望再降低10倍!”
這些“暴論” , 出自Flash Attention的作者——Tri Dao 。
在最新播客《Unsupervised Learning》中 , Tri Dao分享了對GPU市場、推理成本、模型架構以及AI未來趨勢的深度洞察 , 并針對上述“暴論”展開了有理有據的分析:
未來2-3年內 , 隨著針對不同工作負載類別的專用芯片出現——包括低延遲的智能體系統、高吞吐量的批量處理以及互動式聊天機器人——AI硬件格局將從NVIDIA當前約90%的主導地位 , 轉向更加多元化的生態系統 。 MoE架構、推理優化、模型量化、模型架構和硬件的協同設計等技術促成了模型推理成本的下降 。 未來將會出現三類工作負載模式:傳統聊天機器人、極低延遲場景、大規模批處理/高吞吐場景 , 硬件供應商可以針對不同的工作負載做出相應的優化 。……
Tri Dao不僅是Flash Attention的作者 , 而且還是Mamba的作者之一 。
同時 , 他也是TogetherAI的首席科學家、普林斯頓大學教授 。
《Semi Analysis》曾盛贊他在英偉達生態中的貢獻 , 是其護城河的重要組成部分 。
可以說 , 他對硬件市場以及AI硬件未來發展的判斷極具參考價值 。
接下來 , 就和我們一起看看吧!
訪談全文整理如下:
(注:為方便閱讀 , 調整了部分語氣詞和過渡)
訪談內容 Nvidia 的主導地位及其競爭者Q:在英偉達生態體系 , 比如芯片層面或者GPU系統整合方面 , 會看到新的競爭者嗎?
Tri Dao:我確實花了不少時間思考芯片 , 我認為當然會有很多競爭者進入這個領域 。
AMD已經在這里很久了 。 英偉達之所以占據主導 , 有幾個原因:他們設計了非常好的芯片 , 同時也做出了很好的軟件 , 這形成了一個完整的生態 , 讓大家在此基礎上開發更多的軟件 。 但我認為 , 隨著工作負載(work load)逐漸集中在特定架構上 , 比如Transformer、MoE等 , 設計適配這種工作負載的芯片會變得更容易 。
在推理端 , AMD有一些優勢 , 比如更大的內存 , 現在我們已經開始看到一些團隊在嘗試 。 在訓練端則更困難一些 , 網絡通信(networking)是主要瓶頸 , 而英偉達在這方面仍然領先 。
但人們已經理解了:打造優秀訓練芯片的挑戰是什么 , 打造優秀推理芯片的挑戰又是什么 。 最后比拼的就是執行力 。 所以我會說 , 這是一個非常令人興奮的領域 。 我和很多在設計新芯片的人交流過 , 無論是推理還是訓練 。
我預計未來幾年 , 部分工作負載會進入“多芯片”時代 , 不會像現在這樣90%都在英偉達上運行 , 而是會跑在不同的芯片上 。
Jacob Effron:你認為當前的架構是否已經足夠穩定 , 可以支撐對未來兩三年推理和訓練工作負載的長期押注 , 還是說目前仍存在不確定性 , 各家初創企業和公司各自下注 , 最終可能只有一兩家脫穎而出?
Tri Dao:我認為在架構層面 , 從宏觀來看 , 好像已經在Transformer上趨于穩定 。
但如果你仔細看 , 會發現其實還在發生很多變化 。
【Flash Attention作者最新播客:英偉達GPU統治三年內將終結】最近這兩年最顯著的就是Mixture of Experts(MoE) 。 它讓模型變得更大 , 參數更多 , 但計算是稀疏的 。
這帶來一些權衡 , 比如需要更多內存 , 但計算量可能相對更小 。
對一些芯片制造商來說 , 這會增加難度 , 因為他們可能原本是針對稠密模型設計的 , 計算分布很均勻 , 而現在要面對稀疏計算 , 設計起來更復雜 。
再比如attention已經存在十多年了 , 但至今仍在不斷演變 , 這其實會讓一些事情變得困難 。
像DeepSeek就提出了一種multi-head latent attention , 它和傳統的attention有些不同 。 比如他們使用了非常大的head dimension 。
如果你的系統里矩陣乘法引擎只有某個固定大小 , 可能就不匹配了 。
像這樣的一些問題 , 一旦你深入到細節里就會出現 。 所以這是架構上的挑戰 。
在工作負載層面 , 人們使用這些模型的方式也在發生很大變化 。
傳統的用法是聊天機器人(雖然“傳統”也不過就是過去兩三年的事) , 但現在出現了新的負載 , 比如編程工作負載——像Cursor、Windsurf這樣的工具 。
這類更接近agent的工作負載 , 不僅僅是運行模型 , 還需要調用工具 , 比如運行Python解釋器、做網頁搜索等等 。
這會帶來芯片設計上的挑戰 。 如果芯片只專注于讓模型本身跑得最快 , 就可能忽略了與主機連接去執行網頁搜索這類任務的能力 。
所以我會說 , 雖然從高層來看架構似乎穩定了 , 但在底層仍然有很多變化 。 而且工作負載本身也在演變 , 所以這始終是一場“競速” , 看誰能更快適應新的負載 。
芯片設計中的挑戰Q:如果說現在90%的工作負載還在英偉達芯片上運行 , 那么你覺得兩三年后會怎樣?
Tri Dao:我認為在推理端 , 會出現多樣化 , 我們已經開始看到像Cerebras、Grok、SambaNova這樣的公司帶來的挑戰 。
他們強調可以做到極低延遲的推理 , 這對某些場景非常棒 。
我們和一些客戶交流時發現 , 他們非常在乎盡可能低的延遲 , 并且愿意為此支付更高成本 。 同時也有客戶特別關注大批量、高吞吐量的推理 , 比如海量數據處理、合成數據生成、或者強化學習訓練中需要快速rollout、生成大量軌跡的場景 。
所以我認為市場一定會多樣化 , 因為工作負載本身也會越來越多樣:低延遲、高吞吐 , 甚至可能是視頻生成 , 這都會對算力和內存提出不同的要求 。
Jacob Effron:初創公司如何押注不同類型的優化?
Tri Dao:如果是創業公司 , 你就必須下注 。 你投資的時候 , 其實就是要做一個超出常規的押注 。
你可能會賭說 , 聊天機器人最終會消失 , 人們真正關心的其實是別的東西 , 比如視頻模型、視頻生成模型、世界模型 , 或者機器人之類的 。
然后你就擲骰子 , 說 , 好吧 , 那可能會占據50%的工作負載 。
那么我們要如何為這種工作負載設計芯片呢?你只能希望自己的押注是對的 。 我覺得這就是創業公司的角色 。
如果你不押注 , 而只是說我要為通用的工作負載優化 , 那么大廠會在執行力上完全碾壓你 。
Jacob Effron:為什么不去嘗試除了英偉達以外的其他公司?硬件領域會出現巨額薪資嗎?
Tri Dao :我個人其實和很多不同公司的工程師都有合作 , 包括英偉達、AMD、谷歌、亞馬遜等等 。
我花很多時間在英偉達的芯片上 , 純粹是因為這是我們現階段能用到的最普及的產品 。
他們設計了非常好的芯片 , 也有非常好的軟件支持 , 這讓我能夠做很多有意思的事情 , 而這正是我追求的:能不能做出有意思的東西 。
比如我們之前和AMD合作過一個版本的Flash Attention , 并且把它集成進了公共倉庫 。
所以我們確實有跟他們合作 。 至于最好的合作模式應該是什么 , 我現在還不太確定 。
不過 , 最近我更多地在思考:我們需要什么樣的抽象?不僅是針對英偉達芯片 , 而是針對GPU和加速器整體 。
在最低層級 , 我還是會花很多精力榨干這些芯片的性能 。
但隨著我們在Together AI的擴張 , 我們必須考慮:如何讓后來加入的工程師更快上手?其中一部分就是構建能在英偉達芯片上工作的抽象 , 同時也可能適配其他芯片 。
另一個讓我很興奮的問題是:我們能不能設計一些抽象 , 讓AI本身替我們完成部分工作?
我覺得答案還沒有完全清晰 。 但作為人類的技術負責人 , 我們的任務就是構建合適的抽象 , 讓別人能夠快速上手 , 這樣你做的事情才能跨芯片、跨工作負載發揮作用 。
Jacob Effron:你覺得現在我們已經有那種能跨不同芯片都能用的抽象了嗎?
Tri Dao :我覺得我們有一些 , 對吧?
但這就是經典的權衡 。 比如Triton就很好用 , 它支持英偉達芯片、AMD GPU、Intel GPU等 。 這需要他們設計一個前端 , 然后針對不同廠商的芯片 , 后端由不同公司貢獻代碼 。
我覺得Triton其實非常不錯 , 很多公司都在押注它 。 比如Meta的PyTorch編譯器 , 就會直接生成Triton代碼 , 然后交給Triton去為英偉達或AMD生成底層代碼 。
但這仍然是一個權衡:如果你不掌控最底層 , 可能就會損失一些性能 。
關鍵就在于損失多少 。 如果你只損失5%的性能 , 卻能換來3倍的生產力 , 那完全值得 。
但如果損失太大 , 大家可能就會回到更底層、更貼近硬件的做法 , 尤其是在推理市場競爭激烈的情況下 。
所以我會說 , 人為設計其實非常難 。 我甚至會說 , 硬件可移植性有點像是個神話 。
就算在英偉達內部 , 不同代際之間差異也非常大 。 CPU每年可能性能只提升5%-10% , 舊代碼還能跑 , 但GPU完全不是這樣 。
英偉達幾乎每一代芯片都要重寫所有底層代碼 , 因為提升FLOPS的方式就是增加更多專用組件 , 支持更低精度 , 或者改寫芯片內部的同步機制 。
所以即便是在英偉達內部 , 不同代際之間的代碼可移植性其實也很有限 。
Q:抽象的價值就在于 , 即便只是面對同一家廠商的不同代際芯片 , 也能幫上忙 , 對吧
Tri Dao:我覺得Triton的抽象非常有吸引力 。 他們甚至還有一些更底層的擴展 , 比如最近很新的Gluon , 能暴露更多硬件細節 , 但代價是通用性會差一些 。 還有Modular公司在開發Mojo語言 。
Jacob Effron:你覺得他們在做的事情怎么樣?
Tri Dao:我覺得很酷 。 他們確實找到了部分正確的抽象 。 關鍵就在于執行力 。
因為大家都會問:“你在英偉達芯片上到底有多快?”某種意義上 , 這個問題不太公平 , 但這就是現實 。
所以他們必須在抽象之外做一些定制化 , 讓代碼在英偉達芯片上跑得足夠快 , 然后再做一些AMD的定制化 。
問題就在于 , 你愿意做多少定制?這就是性能與通用性的權衡 。
我們會看到越來越多這樣的庫或領域專用語言出現 。 比如斯坦福有人在做Kittens來抽象GPU編程 , 谷歌有MosaicGPU 。
我肯定還漏掉了一些 。 但大家都意識到一個問題:我們目前還沒有合適的抽象 。 這導致訓練新人寫高性能GPU內核非常痛苦 。
解決方案就是構建抽象 。 我覺得我們現在正處在快速迭代的階段 , 這也是為什么會出現這么多領域專用語言 。
與此同時 , 隨著AI模型越來越強 , 我在思考:我們該如何為語言模型設計領域專用語言或抽象?因為它們的運作方式和人類有點不一樣 , 我們現在也不知道答案 。 所以我認為未來一兩年情況會清晰得多 。 現在就是百花齊放 , 大家都在嘗試不同方向 。
Jacob Effron:你覺得這些抽象最有可能從哪里產生?
Tri Dao:我認為主要有兩個角度:
一個是從機器學習的角度出發 , 思考我們有哪些工作負載 , 以及需要哪些原語來表達這些工作負載 。 比如推理本質上是內存受限問題 , 關鍵在于如何盡快搬運數據;或者如何最快做矩陣乘法 。 另一個角度是從硬件出發 。 芯片上有很多非常酷的專用組件 , 要思考如何暴露這些能力 。 英偉達在這方面特別強 , 比如設計了更多異步機制 。不過 , 矩陣乘法的速度太快了 , 反而顯得其他部分很慢 。 所以更重要的是如何重疊矩陣乘法和其他計算 。 這就需要抽象層來支持異步執行 , 比如流水線、同步機制等等 。
所以我認為抽象會從這兩個方向出現 , 要么從工作負載出發 , 要么從硬件出發 。 我覺得再過一兩年就會清晰得多 。
Jacob Effron:在設計抽象時 , 你們現在在多大程度上真的使用AI本身?你覺得未來幾年會有什么變化?
Tri Dao:是的 , 我覺得模型在這方面開始變得有用了 。 這讓我最近真的很驚訝 。 有些人已經在嘗試完全自動化的GPU內核編寫:你只要描述問題 , LLM就能直接生成內核代碼 。
這有點像我們在其他領域看到的 , 比如生成簡單的Python腳本、做數據分析、寫前端網頁 , 對吧?這些現在LLM已經能做 。 那么問題是:我們能不能也做到為GPU編程生成代碼?
Jacob Effron:Vibe kernel?
Tri Dao:如果你想要的是這個的話 , 我覺得我們還處在非常早期的階段 。
這些模型現在能生成一些簡單的內核 , 比如逐元素的操作:你輸入一個數組 , 然后在每個元素上做運算 。 或者一些歸約操作 , 比如求和、歸一化之類的 。
這類代碼模型能生成得還算不錯 。 但一旦變復雜一些 , 這些模型就寫不出正確的代碼了 。
我覺得這主要還是因為訓練數據不足 。
訓練數據在這一塊非常難搞 。 因為如果你在網上抓取內核代碼 , 你拿到的可能就是一些課堂項目 , 或者是GPU三代以前的文檔 , 而這些文檔里很多寫的都是現在完全不該再用的做法 。 所以訓練數據確實非常困難 。 我認為答案可能是要從一些專家級的數據開始 , 然后基于這些生成合成數據 。 或者把模型接到編譯器、性能分析器這樣的工具上 , 從中獲得大量訓練數據 , 構建合適的環境 。 我覺得一兩年之內可能會有突破 , 但目前確實很難 。
Jacob Effron:那這些數據現在掌握在誰手里呢?
Tri Dao:我覺得這種數據不算是私有的 。
確實有一些地方能找到專家級代碼 , 但更關鍵的是流程:怎么從少量專家數據出發 , 生成海量的合成數據 。
比如Discord上的GPU Mode社區 , 他們就在嘗試做這個 。
他們用編譯器 , 比如PyTorch編譯器 , 把PyTorch代碼轉換成Triton代碼 , 這個Triton就是更底層的內核代碼 。
這樣他們就能生成大概1.5萬對這樣的程序數據——PyTorch和Triton的對應關系 。
其實你得有點創造性 , 因為網上原始數據確實不多 , 所以你得想辦法創造訓練數據 。 所以我覺得這是一個方向:如果你想要完全自動化的內核生成 , 現在還非常早 。 另一個方向是:模型能不能和人類協同工作?我對這點的驚喜更大——這些模型現在其實已經相當有用了 。
Jacob Effron:有沒有什么具體的時刻 , 讓你覺得AI模型真的已經有幫助了?
Tri Dao:我覺得大概有兩個重要節點 。 一個是o3——o3的推理能力進步很大 。
有時候我會和o3或GPT-5一起頭腦風暴 , 比如我有個函數 , 該怎么優化?要注意哪些點?
它們給出的高層思路出乎意料地好 。
另一個是Claude Code 。 它居然在寫Triton內核方面表現相當不錯 , 這點非常棒 。
因為雖然我喜歡寫內核 , 但我更多的時間其實花在設計上:思考該設計怎樣的架構 , 才能更好利用硬件 。
而具體的實現部分 , 雖然設計很有意思 , 但實現過程往往非常繁重 。 這時候Claude Code就幫了很大忙 。 我覺得它能讓我整體生產效率提升大約1.5倍 。
我是ClaudeCode的重度用戶 。 如果讓模型和人類協同工作 , 而不是指望它們完全自動生成內核 , 那它們的作用其實非常大 。
Jacob Effron:接下來你最期待的里程碑是什么以及新模型出來時 , 你會測試什么?
Tri Dao:我覺得ClaudeCode是個典型的質變案例 , 因為它變得更具備代理性了 。
某種程度上 , 他們在后期訓練Claude時 , 針對這一點做得特別好 。
我相信OpenAI、Google很快也會達到類似的水平 。 這里說的代理性(agentic)就是指它能很好地調用工具 , 并且知道什么時候該用工具 。
比如它知道:啊 , 我現在可能沒有用對API , 那我要怎么查API?
或者程序沒編譯過、程序不夠快 , 那我該怎么從profiler里拿信息?就是這種能力 。
所以我覺得新模型里 , 我會關注它們能不能知道自己不知道 , 以及什么時候該去主動尋找新信息 。這雖然聽起來有點模糊 , 但現在已經有人開始做這種代理性能力的基準測試了 , 只是還非常早期 。
Q:自從ChatGPT發布后 , 這三年到底是什么推動了成本降低和延遲改善?
Tri Dao:這幾年里 , 推理成本可能下降了大概100倍 。
至少從ChatGPT面世以來是這樣的 , 這點從API價格變化上也能反映出來 。
一方面是在模型層面 , 人們在相同參數量級下訓練出了更好的模型 。
部分原因是使用了更多數據 , 部分原因是架構改進 。 我認為MoE確實幫助大家發明了更高效的注意力機制等等 。
所以在模型端 , 模型在相同參數下變得更強大 。
另一方面是在推理優化上 。
我們見證了一系列技術的大爆發 。 早期其實大家并不清楚推理的瓶頸在哪里 。
后來逐漸發現 , 關鍵問題在于數據傳輸——比如權重在內存之間的搬移 , 或者KV緩存的搬運 。
KV緩存是注意力機制中用于存儲歷史的部分 , 以便生成下一個預測 。 所以大量優化都是圍繞如何減少數據搬運展開的 。
比如說模型量化 。
兩三年前 , 通常一個參數需要16位表示 。 現在8位已經很常見了 , 新模型里4位也被大量使用 , 甚至還有1–2位的嘗試 , 非常激進 。
但實驗顯示 , 在量化過程中 , 很多情況下質量幾乎沒有損失 。 當然這需要相當復雜的技術 , 但效果非常好 。
比如最近OpenAI發布的GPT-oss , 大部分層都被量化到4位 。 他們的模型總共有1200億參數 , 但因為每個參數只需4位 , 整個模型可以放進大概60GB的空間里 , 這直接轉化成了非常好的推理性能 。 所以量化是一個方向 。
另一個方向是模型架構和硬件的協同設計 。
隨著理解的深入 , 算法研究人員和硬件專家的溝通變多 , 大家能結合各自的知識去發現硬件上的瓶頸 , 并針對性地調整算法 。
比如Flash Attention就是這樣:我們意識到內存訪問才是主要瓶頸 , 于是重新設計了注意力的實現方式 , 減少內存訪問 。 這類優化在推理領域正在不斷發生 。
DeepSeek的一個例子叫multi-head latent attention 。 他們發現推理時很多開銷來自于KV緩存的壓縮和傳輸 , 于是提出通過潛在投影把KV緩存投射到更小的空間 , 從而大幅減小緩存規模 。 這在實踐中效果很好 , 能夠更高效地部署模型 。
還有MixtureofExperts(MoE) 。 在MoE里 , 每個token的計算不需要用到模型的所有參數 , 而是只激活部分專家單元 , 這就是稀疏化 。
在過去兩年里 , 趨勢就是讓模型越來越稀疏 。 比如早期Mistral的開源MoE模型是8個專家里激活2個 , 也就是25% 。
而DeepSeek和OpenAI的最新模型里 , 比如GPT-oss , 是在128個專家里只激活4個 , 也就是1/32 。 這種稀疏化非常適合大規模服務用戶 。
總的來說 , 大家對推理負載的理解更深 , 模型架構和推理堆棧是協同設計的 , 這就是最近性能提升的主要來源 。
推理優化技術Q:未來的推理優化技術還會有哪些改進?
Tri Dao:我認為還會有大約10倍的提升空間 。
盡管我們已經摘了許多果實 , 但仍有很多可做的事 。
首先是硬件端:過去難以預測兩年后的工作負載 , 所以難以做高度專用化 。
但隨著架構相對穩定 , 芯片設計者可以為推理做專門優化 , 比如加強對低精度的原生硬件支持、改進網絡通信等 。
特別是在MoE場景下 , 模型參數增大但每次只激活一部分 , 模型可能分布在多塊GPU/芯片上 , 這時網絡就非常關鍵 。 我估計硬件方面一年內就能帶來2–3倍的提升 。
在模型層面 , 會有推進架構的空間 。
舉例我做的Mamba , 思路是讓模型把歷史壓縮成更小的狀態向量 , 而不是保存完整的KV cache——這有代價但在某些大批量推理場景下(例如同時探索多條思路的推理或搜索)效果很好 。
Google的Gemini Deep Think就是同時探索多路徑的思路 , 這類場景會讓KV cache成為更大的瓶頸 , 因此壓縮歷史的方向非常重要 。 我認為模型層面也能帶來2–3倍的提升 。
在內核實現層面 , 越來越多人專注于高性能kernel , 很多人才正加入這塊 , 內核優化也可能再帶來2倍的提升 。 把這些合起來 , 短期內一年左右再實現約10倍的整體改進是有可能的 。
專門化的AI推理Q:你覺得生態會由單一能覆蓋所有場景的供應商主導 , 還是會出現專門化?
Tri Dao:我認為可能會出現三類工作負載模式 , 所有推理提供方都會理解并嘗試優化這些模式 , 但規模化也有顯著優勢 。
大體上有:
傳統聊天機器人:需要一定交互性但不要求極低延遲) 極低延遲場景:比如代碼輔助 , 響應快2–3倍能顯著提升用戶效率——我愿意為此付更多錢 以及大規模批處理/高吞吐場景:需要同時對大量序列做推理 。不同供應商可能在這些細分場景上做出不同權衡 , 有些提供廣泛覆蓋 , 有些則專注于某類場景做到極致 。 我的意思是 , 人們通過同時運行多個模型來解決這個問題 。
比如同時跑四個Claude Code 。 但我個人更喜歡深度工作 , 當我和模型合作時 , 我通常只用一個——我的合作者會罵我 , 她說:“你應該同時開四個ClaudeCode 。 ”
對這種工作負載 , 人們可能愿意為低延遲付更多錢 , 這就是低延遲類型的工作負載 。
另一類是非常大批量的工作 , 我不太在意延遲 , 只關心盡可能高的吞吐量 。 這對生成合成數據等場景很重要 。
正如我提到的 , 很多人訓練模型的方式是:先有少量專家級數據或人工標注數據 。
舉個例子 , 你是一家航空公司 , 想訓練AI助理來處理客戶投訴 , 你手里只有少量高質量數據 , 然后可以從中生成大量合成數據 。 模型在模擬人類行為上非常出色 。
你可以讓模型模擬一個來自紐約、因為航班延誤而惱火的顧客 , 模型竟然能表現得很像人類 。
事實上 , 互聯網上就有大量類似數據供模型學習 。
模型內部有一套世界模型 , 它可以基于這些生成大量數據 , 雖然不如人工數據精準 , 但量很大 。
在這種推理使用場景中 , 你真正關心的只是吞吐量 。
另一類是強化學習訓練場景 。 訓練一個智能體執行任務并改變策略時 , 你需要評估策略的好壞 。
這就需要從模型中抽樣大量完成結果 , 也叫rollout , 評估其表現 。 這里就需要大批量、高吞吐的推理能力 。 我認為這是第三種使用場景——非常大批量 。
對于這三類場景 , 人們已經開始識別這些模式 , 而作為推理提供方 , 我們會針對不同場景做不同優化 。
Jacob Effron:你們是如何在這三類場景間分配資源的?
Tri Dao:我覺得這就是大規模運行的好處——我們稱之為“艦隊級優化” 。
在數千GPU上推理時 , 你可以動態調整集群分配 。
舉個簡單例子:運行批量推理(batch API) 。
OpenAI提供這個選項 , 我們也有類似選項 。 如果看到集群在處理交互式查詢時不忙 , 就可以調入批量查詢以充分利用算力 。
結果是 , 我們對batchAPI通常提供約50%折扣 , 我想OpenAI也是這樣 , DeepSeek大概也是 。
AI工作負載演進與開源工具Q:你覺得推理市場未來的發展如何?優化空間是否無限?
Tri Dao:過去確實有很多果實 , 如果你能寫出合理內核、搭建合適推理引擎 , 會比市場上已有方案好很多 。
但現在開源工具已經非常成熟了 , 比如VLM、SGLang等項目 , 都已經達到生產級別質量 。
我們也會和這些項目合作、貢獻代碼 。 所以基線水平已經提高很多 。
同時 , 工作負載也在不斷演化 。 客戶會提出新的需求:前綴緩存、低延遲 , 或者不是文本而是視頻 , 這些都有不同的性能權衡 , 我們也在應對這些客戶需求 。
即便開源工具越來越好 , 工作負載變化也很快 , 總有新事情可做 。 模型本身越來越強 , 可以從中提取價值的方式也越來越多 , 這也是為什么有很多初創公司基于這些模型構建業務 。 工作負載將持續演化 。 Jacob Effron:快速變化的節奏下 , 這三大類工作負載會逐漸分化嗎?
Tri Dao:我覺得還是會有聚合 。 代理型(agentic)工作負載可能是殺手級用例 。
就像ChatGPT是應用層面的一個躍變 , 它讓用戶第一次能與語言模型互動、調試代碼、查找和分析信息 。
下一波應用將是代理型:AI能自主采取行動、收集信息 。 這需要不同的優化策略 , 不只是讓模型在GPU上運行得快 , 還要考慮如何與人類使用的工具銜接 , 比如Web搜索 。
如果是工程師 , 可能希望模型能訪問設計軟件;金融分析師 , 則希望模型能訪問特定數據庫 。 這類工作負載預計會成為未來一年左右的主流 。
在消費端 , 我的一個預測是實時視頻生成會成為趨勢 。
我們已經看到一些初步跡象 , 這會像TikTok改變內容消費方式一樣 , 徹底改變消費者體驗 。 我們合作的一些公司 , 比如Pika Labs和Hetra , 正專注于實時視頻生成 , 這是我們的押注 。
實時視頻生成也帶來全新挑戰 , 非常耗算力 , 這可能會進一步推動芯片發展和推理優化 。
架構創新和專家級別的AIQ:假如可以快進三年 , 得到AI基礎設施領域一個關鍵問題的答案 , 這個問題會是什么?哪一個問題的答案最能影響你們今天的戰略?
Tri Dao:接下來幾年 , 我想回答的問題是:我們如何讓AI達到專家水平?
目前 , 我認為模型在某些任務上 , 比如前端編程 , 處于人類中等水平 。
他們已經很厲害了 。 實際上 , 這些模型在前端編程上比我強得多;或者在數據分析這類任務上 , 只要互聯網上有大量數據 , 模型就能輕松勝任 。
它們在這些任務上大概達到了中等水平 , 甚至略高于平均水平 。
但經濟上最有價值的任務仍然存在 。 我們為人類專家支付高額報酬 , 比如飛機設計、硬件設計、醫生、律師等 。
這些人成為專家 , 是因為他們花了大量時間使用專業工具 , 而這些工具的數據并不等同于互聯網海量信息 。
這正是他們成為專家的原因 。 所以我們要讓模型達到這個水平 , 能夠與人類專家協同工作 , 我認為這才是大量經濟價值的來源 。
Q:你合作者Albert說過 , Transformer本身不會是最終方案 , 你覺得我們需要架構創新才能達到那個水平嗎?
Tri Dao:我認為 , 要達到AGI或ASI , 目前的架構可能已經足夠了 。
但成本如何?如果有更好的架構 , 也許我們能提前一兩年達到目標 , 或者用10倍更低的成本實現 , 這可能很值得 。
每年我們在AI基礎設施上大約花5000億美元——大概在這個量級 。
問題是 , 我們是否需要花10倍的預算?還是通過更好的架構 , 用現有甚至更少的支出就能達到目標?
這就是架構研究的價值所在:能否通過更好架構達到AGI 。 我認為當前架構具備所有關鍵成分 , 如果不斷擴展 , 也可以實現目標 , 但成本可能是天文數字 。 Jacob Effron:你還在關注哪些架構?
Tri Dao:我對MoE特別感興趣 , 尤其是越來越稀疏 。 我們在探索極限:能稀疏到什么程度?
這一直是一個很有吸引力的方向 。 DeepSeek做了很重要的工作 , 證明可以讓模型非常稀疏 , DeepMind早期也有相關探索 。 這是一種用同樣算力獲得更多智能的方法 。
最終 , 我們想優化每分錢的推理效率 。
這意味著可以量化為每浮點操作推理量(inference per flop)和每分錢的FLOPs 。
前者更多依賴架構設計、數據、算法;后者更多依賴硬件和內核優化 。 在架構層面 , 我們嘗試從相同計算中提取盡可能多的智能 。 MoE是一個例子 。
我和Albert做的一些狀態空間模型工作也很有趣 。
我們與Nvidia的一些團隊合作訓練模型 , 他們發布了幾款模型 , 顯示這種架構——Transformer與Mamba的混合——可以在更低成本或更高推理性能下得到高質量模型 。
所以架構對于推理非常重要 。 我現在非常強調“推理優先”的架構設計 , 因為大部分FLOPs都用于推理 , 我們希望架構能最大化推理效率 。
Jacob Effron:你現在在研究哪些方向?未來可能有哪些重要論文?
Tri Dao:我仍然在這些領域工作 , 非常感興趣 。 同時 , 我也在探索一些新方向 , 其中之一是尋找下一波真正有影響力的應用 。我認為機器人是其中一個方向 。
比如離真正優秀的家庭人形機器人還有多遠?
也許五年 , 也許十年 , 我不確定 。 這通常會帶來很多有趣且重要的研究問題 , 這是科研方向上的一個方向 。
Jacob Effron:在機器人研究領域 , 你覺得最有趣的點是什么?
Tri Dao:關于機器人 , 我們可以用已有的基礎模型來初始化控制機器人 。 你可以用語言模型來做規劃 。
比如 , 你讓機器人去拿咖啡杯 , 語言模型可以說:“去那張桌子拿咖啡杯” , 等等 。
但目前缺失的是在現實世界中進行交互和行動的數據 , 因為我們沒有這類數據 。 我們有語言數據 , 但缺少與實際世界交互的數據 。 對 , 你顯然也看到有人在嘗試擴大仿真數據的規模 , 他們實際上在做遙操作 , 但實際波動的數據問題依然存在 。
另一點是 , 機器人必須以多分辨率、多時間尺度的方式處理信息 。 有些操作 , 比如控制關節 , 需要非常快速的響應;但規劃機器人的路徑 , 則可以慢一些 。
這里需要顯式考慮時間尺度 。 我想做非常輕量的計算嗎?只是控制關節 , 還是做更重的推理來規劃最優路徑?
所以我認為最終會是一個復合系統 , 由語言模型、視覺模型、音頻模型、世界模型初始化 , 但如何把它們組合在一起 , 是一個大問題 。
學術界與工業界的平衡Q:你是如何考慮在學術和工業之間的選擇的?
Tri Dao:這是個很好的問題 , 也很個人化 。 對我來說 , 我喜歡同時做創業和做教授 。
這兩種模式提供了不同的思維和執行方式 。 創業方面很有趣 , 因為節奏快 。 我們想做的事情 , 幾天、幾周、最多幾個月就能完成 。 團隊執行力強 , 可以快速實現目標 , 我對團隊在Together做的工作非常自豪 。
學術方面 , 時間尺度更長 , 考慮的問題更具前瞻性 。 我們不會追求一個月內的解決方案 , 而是思考未來兩三年方向上的有趣問題和挑戰 。 和學生一起工作也非常有趣 , 因為我們可以深入思考這些問題 。
當然有一些權衡 , 比如學術計算資源少 。 評價方式也不同 , 更關注思想是否有趣 , 而不是是否運行得快 。
學術給你更多自由去深入思考長周期問題 。 我正好喜歡兩種模式 , 所以仍然在普林斯頓做教授 , 同時參與創業 。
我認為這是一種探索與開發結合的模式:學術更偏向探索 , 資金通常來自政府 , 用于探索大量想法 , 也許只有5-10%的想法會成功 。 投資者也類似 , 探索大量想法 , 其中少數可能非常重要 。
一個例子是Attention , 它通過Google的論文出名 , 但最初來自Mila的學術研究 , 是Dmitry Bahdanau、Yoshua Bengio等人的工作 。
當前架構的其他組成部分 , 如Adam優化器(JimmieBa等)和LayerNorm , 也來自學術界 。
很多現在的基礎都是學術探索的結果 。 大公司和創業公司會把這些想法商業化 , 快速執行 , 同時理解市場需求 , 有更多資金推動大想法落地 。
比如 , SSI明確說不做任何產品 , 但人們愿意投錢 , 因為他是Ilya 。 當AI的某些風投開始獲得回報 , 投資者就更愿意投入資金 。
Jacob Effron:過去一年你在AI上改變的一個觀點是什么?
Tri Dao:這些模型出乎意料地有用 , 即便在我日常的高級和專家級工作中 , 它們在數學和編碼上也非常出色 。 比我預期的高很多 , 確實很厲害 。
Jacob Effron:你覺得一年后開源模型和閉源模型的質量會更接近還是更遠?我認為會更接近 。 現在的擴展更多依賴RL , 而這實際上更依賴工具鏈 , 而不僅僅是原始算力 。 所以開源在這方面會做得很好 。
Jacob Effron:目前AI領域還有哪些發展被忽視了?
Tri D:數據 。 數據總是有點被低估 。 合成數據 , 用模型重新生成或改寫數據 , 會產生巨大影響 , 但關注的人少 。 Jacob Effron:你最喜歡看到的應用是什么?
Tri Dao:我們與一些視頻生成公司合作 , 比如Pika Labs和Hetra , 他們用我們訓練的模型生成虛擬的TikTok視頻 , 效果非常棒 。
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們 , 第一時間獲知前沿科技動態
推薦閱讀
- Q4 NAND Flash價格將上漲5-10%
- iPhone17Pro影像登頂失敗,輸給華為不冤,卻贏得創作者的心!
- 27億美元天價回歸!谷歌最貴叛徒、Transformer作者揭秘AGI下一步
- 指望創作者自覺沒戲,抖音也開始用AI治理AI謠言
- YouTube推出Shorts創作者生成式AI工具套件
- 為什么被約談?
- 攻克大模型訓推差異難題,螞蟻開源新一代推理模型Ring-flash-2.0
- B站想用「視頻播客」吸引更多優質創作者
- Transformer作者:DeepSeek才有搞頭,OpenAI指望不上了
- 追覓「上天」,官宣成立天文BU|最前線
