Meta萬引強化學習大佬跑路,用小扎原話作為離別寄語,扎心了

Meta萬引強化學習大佬跑路,用小扎原話作為離別寄語,扎心了

文章圖片

Meta萬引強化學習大佬跑路,用小扎原話作為離別寄語,扎心了

文章圖片

Meta萬引強化學習大佬跑路,用小扎原話作為離別寄語,扎心了

文章圖片

Meta萬引強化學習大佬跑路,用小扎原話作為離別寄語,扎心了

文章圖片

Meta萬引強化學習大佬跑路,用小扎原話作為離別寄語,扎心了

小扎在這頭瘋狂挖人 , 結果家里的老員工紛紛跑路了??
最新消息 , Meta萬引強化學習大佬Rishabh Agarwal即將離職 , 還留下了一篇讓人浮想聯翩的小作文:
這是我在Meta的最后一周 。
決定不加入新的超級智能實驗室并不容易 , 畢竟那里人才濟濟、算力爆棚 。 但在Google Brain、DeepMind和Meta度過了7年半之后 , 我更想冒險去嘗試一條完全不同的路 。
Meta組建超級智能團隊的想法非常引人注目 , 但我最終選擇聽從扎克伯格的建議:“在這個瞬息萬變的世界里 , 最大的風險就是不去冒險 。 ”
雖然表面上看起來雙方是“和平分手” , 但網友們還是從中嗅出了一絲不同尋常的味道:
把小扎的原話甩回他自己臉上 , 這操作絕了 , 瑞思拜!
十億可以為你買一棟房子 , 但買不到你的夢想 。
不過猜測也好 , 吐槽也罷 。 對于Rishabh Agarwal的離職 , 谷歌、Meta的同事們都清一色地送上了祝福 , 而且還順帶回顧了他在工作期間作出的貢獻 。
據了解 , 他參與了谷歌Gemini 1.5、Gemma 2以及Meta推理模型后訓練方面的重要工作 , 2021年還以一篇RL算法評估論文拿下了NeurIPS杰出論文獎 。
所以 , Rishabh Agarwals是誰?他的離職又為何在這個節骨眼掀起波瀾?

曾被Hinton勸退“不要做強化學習” , 下一站未定Rishabh Agarwals , 一直以來從事強化學習和推理研究 , 谷歌學術論文被上萬次引用 , h-index也有34 。
本科畢業于印度理工學院孟買分校計算機科學與工程專業 , 成績屬于系前幾名那種 。
2018年 , 他以AI Resident的身份加入Google Brain多倫多團隊 , 在Geoffrey Hinton團隊里工作了一年 。
頗具戲劇性的是 , Hinton還曾建議他“不要做強化學習(RL)” , 不過話鋒一轉 , 老爺子也留有余地——應該做自己認為最好的事情(畢竟他本人當年做的事也不被所有人看好) 。
于是 , Rishabh Agarwals義無反顧地投身強化學習 , 并決定繼續攻讀博士學位 。
第二年 , 他就前往蒙特利爾的Mila研究所申請PhD , 由于和面試官之一Aaron Courville(和Bengio等人合著了《深度學習》這本經典教材)在強化學習領域的研究方向“完全相同” , 當場就被邀請并加入其團隊 。
接下來的四年時間 , 他在Aaron Courvilleh和Marc Bellemare兩位頂尖導師的指導下繼續深耕強化學習 , 同時還保留著在Google Brain的全職工作 。
直到2023年 , Marc Bellemare發了一條提前慶祝他通過博士畢業答辯的推文 , 連谷歌首席科學家Jeff Dean這樣的大佬也趕來祝賀 。
在這之后 , 他順理成章地加入蒙特利爾谷歌DeepMind團隊 , 擔任研究科學家 , 同時在麥吉爾大學做兼職教授 。
而在谷歌工作期間 , 他參與了Gemini 1.5(當時號稱最強多模態、上下文突破100萬)、Gemma 2 (新一代輕量級開源模型)、Gemma 3等重要模型的發布工作 。
2021年 , 他還發表了論文《Deep Reinforcement Learning at the Edge of the Statistical Precipice》 , 一舉斬獲NeurIPS杰出論文獎 。
簡單來說 , 這篇論文分析了深度強化學習中的統計不穩定性問題 , 指出在有限實驗下評估算法可能產生誤導性結果 。 由于系統性揭示了RL中的方差問題與過擬合風險 , 被認為是評價RL算法的里程碑工作 。
后來他才從谷歌跑去了Meta , 并著手推進Meta推理模型的后訓練工作 , 具體包括:
用RL規模化訓練 , 把8B稠密模型推到接近DeepSeek-R1的水平; 在訓練中途引入合成數據 , 為RL提供熱啟動; 提出更高效的on-policy蒸餾方法 。如今隨著Rishabh Agarwals的離開 , 網友們也紛紛替Meta惋惜又損失了一員大將 。
目前Rishabh Agarwals的下一站并未明確 , 不過按照他“想要嘗試完全不同的一條路”的說法 , 人們推測大概率會是創業 。

Meta老員工開始出逃了?其實不止Rishabh Agarwals , 幾乎同一時間 , 一位在Meta工作了12年的老員工也宣布離職了 。
【Meta萬引強化學習大佬跑路,用小扎原話作為離別寄語,扎心了】而且下一站還是Anthropic的推理團隊(屬于直接擁抱曾經的競爭對手了) 。
有一說一 , Meta這波漸起的老員工出逃趨勢并不出人意料 。
此前就有消息稱 , Meta新老員工之間因薪酬待遇懸殊而產生摩擦 , 其中一些研究人員甚至威脅要辭職 。
合理推測 , 招聘熱潮帶來的內部矛盾 , 可能是導致這些資深員工選擇離開的重要原因之一 。
嗯 , 小扎這波也屬于一邊蓄水 , 一邊開閘了(doge) 。

參考鏈接[1
https://x.com/agarwl_/status/1960034048698388795
[2
https://scholar.google.com/citations?user=aH8AJu4AAAAJhl=en
[3
https://x.com/Yuchenj_UW/status/1960038533290450972
[4
https://agarwl.github.io/
本文來自微信公眾號“量子位” , 作者:一水 , 36氪經授權發布 。

    推薦閱讀