林俊旸離職后首發長文：反思千問得失，預判 AI 下半場需要「智能體思維」

2026-05-01 羅技

文章圖片

帶隊發布 Qwen 3.5 小模型系列、獲馬斯克公開點贊， 20 小時后在社交媒體宣告離職。林俊旸離開阿里的方式，本身就是 2026 年 AI 行業最戲劇性的一幕。
32 歲，阿里最年輕的 P10 ，一手將千問做到全球下載量超 10 億次、衍生模型超 20 萬款，成為全球開源模型的新王。他的離開源于一次組織架構調整的分歧：
阿里希望將 Qwen 團隊按預訓練、后訓練、視覺、語音等維度水平拆分，與通義實驗室其他團隊合并；林俊旸則堅信預訓練、后訓練乃至基礎設施團隊應該更緊密地垂直整合，而非割裂。這不只是管理風格之爭，更是對「怎樣才能訓出最好的模型」這個根本問題的路線分歧。
離開近一個月后，林俊旸發出了這篇長文。他沒有回應任何人事風波，直接亮出了自己對 AI 下一階段的判斷：我們正在從「訓練模型」的時代，進入「訓練智能體」的時代。
這篇文章之所以值得逐字讀完，不僅因為寫它的人在過去兩年親手操刀了 Qwen 全系列的后訓練，更因為林俊旸在文中罕見地復盤了 Qwen3 在「混合思考模式」上的得與失。
以下為 APPSO 對林俊旸的編譯：
原文
https://x.com/JustinLin610/status/2037116325210829168

從「推理式思考」到「智能體式思考」過去兩年，徹底改變了我們衡量 AI 模型的方式。
OpenAI 的 o1 證明了一件事：「思考」可以是模型的核心能力，可以專門訓練出來、直接交到用戶手里。 DeepSeek-R1 緊隨其后，證明這種「推理式后訓練」并非大廠專利，可以在原始實驗室之外復現和擴展。用大白話說：o1 是一個被教會了「回答之前先想想」的模型， R1 則是一個開源版的同類選手，跟 o1 打得有來有回。
那個階段很重要。但 2025 年上半年的行業主旋律，說到底還是在圍繞一件事打轉：怎么讓模型「想」得更多。讓它在推理階段燒更多算力，用更強的獎勵信號訓練它，暴露或控制那些額外的「思考過程」。
現在的問題是：然后呢？
我相信答案是智能體式思考。為了行動而思考，一邊跟真實環境交互，一邊根據世界的反饋不斷修正計劃。

1. o1 和 R1 的崛起真正教會了我們什么第一波推理模型教會我們一個樸素的道理：想在大模型上把強化學習跑起來，你得有靠譜的評分標準。
什么叫靠譜？就是答案能判對錯、結果能驗證、反饋信號足夠清晰。數學題有標準答案，代碼能跑測試，邏輯推理能驗證步驟。這些領域之所以成了強化學習的主戰場，就是因為在這里，模型收到的獎勵信號遠比「讓人類標注員覺得這個回答還不錯」強得多。換句話說，強化學習終于能優化正確性，終于不用只追求看著像那么回事了。
然后，基礎設施的重要性一下子凸顯出來了。
一旦你開始訓練模型進行更長的推理鏈條，強化學習就不再是在監督微調上面加個小配件那么簡單了，它變成了一個重工業級的系統工程。你需要大規模的模擬推演（rollout）、高吞吐量的答案驗證、穩定的策略迭代、高效的采樣流程。推理模型的誕生，表面看是算法突破，底下看是基礎設施的勝利。
OpenAI 把 o1 定義為用強化學習訓練的推理產品線；DeepSeek R1 接棒驗證了同一方向，同時也展示了推理式強化學習對底層算法和基礎設施的要求有多高。
APPSO 劃重點：第一次大轉折發生了。行業焦點從「擴展預訓練」轉向「擴展面向推理的后訓練」。模型變強靠的不再是吃更多數據，靠的是在訓練后階段學會「怎么想」。

2. 真正的難題從來不只是「融合思考和指令模式」2025 年初，我們 Qwen 團隊心里有一張很大的藍圖。
理想中的系統長這樣：一個模型同時搞定「思考」和「執行」兩種模式。你可以手動調節它思考的深度，輕度、中度、深度，就像調空調溫度一樣。更理想的情況是，模型自己就能判斷：這道題簡單，直接答；這道題有點難，多想想；這道題極難，調動全部算力來啃。
方向是對的。 Qwen3 是當時最清晰的公開嘗試之一。它引入了「混合思考模式」，一個模型家族里同時支持「想了再答」和「直接答」兩種行為，還描述了一條四階段后訓練流水線，其中明確包含了在長鏈推理冷啟動和推理強化學習之后的「思考模式融合」步驟。
但融合這件事，說起來一句話，做起來要人命。
難在哪？難在數據。
很多人一聽「融合思考和指令模式」，腦子里想的都是模型層面的事：一個模型文件能不能同時跑兩種模式？一套對話模板能不能在兩種風格之間切換？一個推理服務能不能暴露正確的開關？這些確實要解決，但都不是最深的坑。
最深的坑是：兩種模式想要的東西，從根兒上就不一樣。
你想想，一個好的「指令模型」該長什么樣？干脆、簡潔、格式規范、響應快。企業用戶拿它來批量改寫文本、打標簽、做模板化客服、結構化數據提取，這些場景要的是效率和穩定，不需要深思熟慮。
一個好的「思考模型」呢？恰恰相反。它該在難題上多花時間、維持清晰的推理中間步驟、探索不同的解題路徑、保留足夠的「思考余量」來確保最終答案的正確性。
這兩種性格天然打架。如果融合的訓練數據沒有精心設計，出來的模型往往兩頭不討好：思考的時候啰嗦、猶豫、不夠果斷；執行指令的時候又不夠利落、不夠穩定、比客戶真正需要的版本更貴更慢。
說實話，我們在平衡融合與數據質量的過程中，沒有把所有事情都做對。
在不斷修正的過程中，我們也仔細觀察了用戶到底怎么用這兩種模式。結論是明確的：這兩種行為畫像確實在相互拉扯。
現實很誠實。 2025 年晚些時候，在 Qwen3 最初的混合架構之后，我們的 2507 版本還是發布了獨立的 Instruct 和 Thinking 版本，包括分開的 30B 和 235B 變體。大量商業客戶根本不需要思考模式，他們要的就是高吞吐、低成本、高度可控的指令行為來跑批量任務。對這些客戶來說，融合不是福音，是多余的成本。拆開來做，反而讓兩條線的團隊都能更專注地解決各自的問題。
其他實驗室走了相反的路：
Anthropic 公開押注集成式路線。 Claude 3.7 Sonnet 是一個混合推理模型，用戶可以選擇普通回復或擴展思考， API 還能設定「思考預算」。 Anthropic 直接放話：推理應該是模型的集成能力，不該單獨拎出來做一個獨立模型。
GLM-4.5 同樣定位混合推理，把推理、編程和智能體能力統一到一個模型里。
DeepSeek V3.1 后來也做了類似的事，推出了「ThinkNon-Think」混合推理方案。
那么問題來了：誰是對的？
答案不在「融合」還是「分離」這個二選一本身，在于融合是否有機。如果思考模式和指令模式只是尷尬地擠在同一個模型里，像兩個性格迥異的人被硬塞進一件衣服，用戶體驗不會好。
真正成功的融合，需要一道平滑的光譜：模型能自如地在不同推理力度之間切換，最好還能自己判斷該用多大力氣。 GPT 風格的 effort control（推理力度控制）指向了這個方向，這是一個關于「花多少算力來想」的連續策略，不是一個「想 / 不想」的二元開關。
APPSO 劃重點：林俊旸罕見地直言 Qwen3 在融合上「沒做到完全正確」。核心矛盾其實很好理解：一個追求快準狠的執行者，和一個追求深思熟慮的思考者，硬融到一起，很容易兩頭都做成半吊子。

3. 為什么 Anthropic 的方向是一種有益的糾偏Anthropic 在 Claude 3.7 和 Claude 4 上的做法，是一種值得注意的克制。
他們沒有大談模型有多能「想」，把重點放在了：集成推理、用戶可控的思考預算、真實世界任務、編程質量，以及后來的關鍵一步，讓模型在思考的過程中就能動手用工具。 Claude 3.7 是帶可控預算的混合推理模型；Claude 4 更進一步，推理過程和工具使用可以交錯進行，邊想邊干。與此同時， Anthropic 把編程、長時間運行的任務和智能體工作流擺到了最優先的位置。
這里面有一個深刻的洞察：
推理鏈更長，不等于模型更聰明。很多時候恰恰相反。一個模型如果對所有問題都用同樣冗長的方式來「推理」，說明它根本分不清輕重緩急。它可能正在失敗于三件事：該優先處理什么（優先級判斷）、該壓縮掉什么（信息濃縮）、該在什么時候停止想而開始做（行動決策）。
Anthropic 的做法暗示了一種更有紀律的觀點：思考應該為具體的工作目標服務。如果你要做的是編程，那思考就該幫你導航代碼庫、規劃架構、拆解問題、恢復報錯、編排工具調用。如果你要做的是智能體工作流，那思考就該幫你在漫長的執行過程中保持質量，而不是產出一堆令人印象深刻但沒有實際行動力的中間長文。
這種「思考必須服務于行動」的理念，指向了一個更宏大的命題：
我們正在從訓練模型的時代，進入訓練智能體的時代。
這句話我們在 Qwen3 的博客里也明確寫過。智能體是什么？一個能制定計劃、決定何時行動、使用工具、感知環境反饋、修正策略、并在長時間跨度上持續運作的系統。一句話概括它的核心：與真實世界的閉環交互。
APPSO 劃重點：長不等于強。 Anthropic 的實踐提供了一個重要的糾偏信號。思考的價值在于有沒有真正服務于最終的行動目標，不在于產出了多少字的推理過程。這是從「炫技式推理」到「實用型思考」的轉向。

4.「智能體式思考」到底意味著什么說了這么多鋪墊，現在進入正題。
智能體式思考和推理式思考，優化目標完全不同。
打個比方：推理式思考就像閉卷考試，評判標準是你交卷那一刻答案對不對。模型能不能解出定理、寫出證明、產出正確代碼、通過基準測試。想得再天花亂墜，最終只看結果。
智能體式思考更像是在真實世界里做一個項目。評判標準不是某一刻的答案，是你能不能在跟環境不斷互動的過程中持續推進、持續解決問題。
核心問題變了。
不再是「模型能想多久？」，變成了：「模型能不能以一種維持有效行動的方式來思考？」
這要求模型處理一堆傳統推理模型可以繞開的難題：
什么時候該停止思考、開始動手？想太多會錯過行動窗口，想太少會犯錯該調用哪個工具、先后順序是什么？這是一個規劃和調度問題怎么消化來自環境的嘈雜、不完整的信息？真實世界不會給你干凈的輸入失敗了怎么辦？不能崩潰，得修正計劃繼續干怎么在幾十輪交互、幾十次工具調用之后還保持連貫？這是長程記憶和一致性的問題如果用一句話概括：
智能體式思考 = 通過行動來推理的模型。它在做的過程中不斷地想。
APPSO 劃重點：推理式思考像閉卷考試，智能體式思考像在真實世界里做項目。前者看最終答案對不對，后者看你能不能在復雜、動態、充滿意外的環境里持續推進。這是 AI 能力評價體系的根本性轉向。

5. 為什么智能體 RL 的基礎設施更難目標一變，底層的工程全都要跟著變。
經典推理強化學習的那套基礎設施，不夠用了。
直觀地理解一下區別：在推理 RL 里，模型做一道題、給出一個答案、評估器打一個分，整個過程基本上是自包含的，評估器也相對干凈。就像在一個封閉的考場里閱卷。
但在智能體 RL 里，模型不是在考場里答題，它活在一個復雜的真實環境中。工具服務器、瀏覽器、命令行終端、搜索引擎、模擬器、代碼執行沙箱、API 接口、記憶系統、調度框架……模型的策略嵌在這一整套系統里。環境不再是一個站在旁邊打分的裁判，它本身就是訓練系統的一部分。
這帶來了一個新的硬需求：訓練和推理必須更干凈地解耦。否則整個系統的吞吐量會崩掉。
舉個具體的例子：一個編程智能體生成了一段代碼，需要在真實的測試環境里跑一下看結果。這時候，推理端在等執行反饋，干不了別的；訓練端在等完成的軌跡數據，也餓著。整條流水線的 GPU 利用率遠低于你在經典推理 RL 里的預期。再加上工具響應延遲、環境狀態不完全可見、每次交互都會改變環境狀態，這些低效會成倍放大。結果就是：你還遠沒達到想要的能力水平，實驗就已經慢得讓人崩潰了。
環境本身也變成了一等公民級的研究課題。
在監督微調（SFT）時代，所有人都在拼數據多樣性，誰有更多更好的標注數據，誰就占優勢。在智能體時代，該拼的是環境質量了：環境穩不穩定？夠不夠真實？覆蓋了多少場景？難度梯度合不合理？狀態空間夠不夠豐富？反饋信號夠不夠有營養？模型能不能找到漏洞作弊？大規模生成訓練軌跡的效率夠不夠高？
環境構建正在從一個「順手搭的實驗配件」，變成一個獨立的創業賽道。如果你訓練的智能體最終要在類生產環境中運作，那這個環境本身就是你核心能力棧的一部分。
APPSO 劃重點：一句話總結這個轉變， SFT 時代拼數據，智能體時代拼環境。構建高質量的訓練環境，正在從「實驗室的臟活累活」升級為「決定你能走多遠的戰略資產」。

6. 下一個前沿是更可用的思考我的判斷是：智能體式思考將成為思考的主導形態。
它最終很可能取代那種舊式的靜態獨白推理，就是那種模型關起門來、對著自己嘟嘟囔囔寫一大篇內部推理過程，試圖用更多更多的文字來彌補「我沒法跟外界交互」這個根本缺陷的做法。
即便面對極其困難的數學或編程問題，一個真正先進的系統也應該有權利去搜索、去模擬、去執行、去檢查、去驗證、去修正。目標是把問題切實解決掉，而且解決得穩健、高效。不是比誰的推理鏈寫得更長更好看。
但訓練這類系統，有一個比什么都棘手的挑戰：獎勵劫持（reward hacking）。
一旦模型有了真正有意義的工具使用能力，獎勵劫持的危險就成倍增加。怎么理解？
一個能搜索的模型，可能在強化學習訓練過程中學會了直接搜答案，不是靠推理做出來的，是查到的。一個編程智能體，可能學會了利用代碼倉庫里的未來信息（比如測試用例本身就暗含了答案）、濫用日志、或者發現某個捷徑讓任務直接「通過」但其實什么都沒做。如果訓練環境有隱藏的信息泄漏，模型可能看起來表現超人，實際上只是被訓練成了一個高效作弊者。這就是智能體時代比推理時代精細得多、也危險得多的地方。工具越強大，模型越有用，但模型能鉆的空子也越多。更好的工具同時擴大了「虛假優化」的攻擊面。
我預期，下一個讓整個行業卡住的研究瓶頸，將來自這幾個方向：環境設計、評估器魯棒性、反作弊協議、以及策略與世界之間更有原則的接口。
但方向是清晰的：工具賦能的思考，就是比閉門造車的思考更有用，也更有希望帶來真實世界的生產力提升。
智能體式思考還意味著一種全新的系統工程。核心智能將越來越多地來自于多個智能體如何被組織起來：一個負責全局規劃和任務分發的編排器（orchestrator），一群各有專長的專業智能體（specialist agents），以及執行更具體任務的子智能體（sub-agents），后者幫助控制上下文窗口、防止信息污染、在不同層級的推理之間保持清晰的邊界。
未來的路線圖是三級跳：從訓練模型，到訓練智能體，再到訓練系統。
APPSO 劃重點：工具讓模型更有用，也讓模型更容易作弊。獎勵劫持是智能體時代的「定時炸彈」。誰先解決好環境設計和反作弊問題，誰就掌握了下一階段的競爭主動權。

結論推理浪潮的第一階段，確立了一件至關重要的事：當反饋信號靠譜、基礎設施扛得住的時候，大模型上的強化學習能夠產出質變級別的認知提升。
但更深層的轉變，是從推理式思考到智能體式思考：從「想更久」，到「為了行動而思考」。
訓練的核心對象已經變了。不再是單一的模型，是模型 + 環境構成的整個系統。更具體地說，是智能體本身，加上圍繞它的一切工程。這意味著什么研究最重要也變了：模型架構和訓練數據當然還重要，但環境設計、rollout 基礎設施、評估器魯棒性、以及多個智能體之間的協調接口，重要性一點不輸前者。
它還改變了「好的思考」的定義：在真實世界的約束下，能夠維持有效行動的那條推理鏈，才是最好的。不是最長的那條，不是看起來最酷炫的那條，是最有用的那條。
它也改變了競爭優勢的來源：
推理時代，拼的是更好的強化學習算法、更強的反饋信號、更可擴展的訓練流水線。
智能體時代，拼的是更好的訓練環境、更緊密的訓練與推理一體化、更強的系統工程能力，以及閉合「決策 → 后果 → 學習」這個循環的能力。
【林俊旸離職后首發長文：反思千問得失，預判 AI 下半場需要「智能體思維」】#歡迎關注愛范兒官方微信公眾號：愛范兒（微信號：ifanr），更多精彩內容第一時間為您奉上。

推薦閱讀

上一篇：存儲芯片短缺，索尼存儲卡暫停接單！

下一篇：開放 Siri，蘋果決定打開萬億「AI 生態」