被拒≠失敗!這些高影響力論文都被頂會拒收過

被拒≠失敗!這些高影響力論文都被頂會拒收過

文章圖片

被拒≠失敗!這些高影響力論文都被頂會拒收過

文章圖片

被拒≠失敗!這些高影響力論文都被頂會拒收過

文章圖片

被拒≠失敗!這些高影響力論文都被頂會拒收過

文章圖片

被拒≠失敗!這些高影響力論文都被頂會拒收過

文章圖片

被拒≠失敗!這些高影響力論文都被頂會拒收過

文章圖片

被拒≠失敗!這些高影響力論文都被頂會拒收過

文章圖片

被拒≠失敗!這些高影響力論文都被頂會拒收過

文章圖片


機器之心報道
機器之心編輯部
近日 , Waymo 發布了一篇深度博客 , 詳細介紹了該公司的 AI 戰略以及以 Waymo 基礎模型為核心的整體 AI 方法 。
谷歌首席科學家 Jeff Dean 也在 X 上分享了這篇博客 , 并重點介紹了 Waymo 用到的蒸餾方法 , 他寫到:「就像我們使用蒸餾從更大規模的專業模型中創建高質量、計算效率極高的 Gemini Flash 模型一樣 , Waymo 也類似地使用了蒸餾 , 來基于更大的模型創建可機載運行的高計算效率模型 。 」

而在這條帖子下方 , Jeff Dean 又再一次回憶了最初那篇蒸餾論文的悲慘遭遇:被 NeurIPS 2014 拒收了 。 而他收到的拒收理由是它「不太可能產生重大影響」 。

當時 , 評審認為這篇由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 合著的論文只是對早期模型壓縮(Model Compression)工作的增量改進 。 而事后來看 , NeurIPS 2014 評審的這個決定可謂是錯得非常離譜 。 如今 , 「知識蒸餾(Knowledge Distillation)」已然成為模型壓縮和大模型落地的標配方法 。 其論文引用量也已經超過了 2.8 萬!

這件事也成了 Jeff Dean 的意難平 , 讓他每有機會就會拿出來曬一曬 。

其實 Jeff Dean 的遭遇并非個例 。
回顧 AI 的發展歷程 , 同行評審制度雖然扮演著質量守門人的關鍵角色 , 但它并非全能 。
事實上 , 當我們回溯歷史 , 會發現一個令人深思的現象:許多當下支撐起萬億級 AI 產業的基石技術(從訓練大模型的優化器 , 到計算機視覺的特征提取 , 再到自然語言處理的底層邏輯)在最初問世時 , 都曾被頂級會議拒之門外 。
Geoffrey Hinton、Yann LeCun、Schmidhuber…… 這些如雷貫耳的名字 , 都曾站在拒稿信的對面 。 那些理由在今天看來甚至或許有些荒謬:「缺乏理論依據」、「只是工程技巧」、「太簡單了不可能有效」 。
今天 , 我們盤點一下那些曾經淪為「棄子」、后來卻引發范式轉移(Paradigm Shift)的殿堂級論文 。 這不僅是對歷史的回顧 , 更是為了探尋一個問題的答案:當一項研究過于超前或離經叛道時 , 我們該如何識別它的價值?
LSTM:跨越 20 年的回響

論文:Long Short-Term Memory 作者:Sepp Hochreiter Jürgen Schmidhuber 拒稿經歷:NIPS 1996 Rejected 如今引用量:139707作為處理序列數據的里程碑 , LSTM 在 1996 年被 NIPS 拒之門外 。
當時正值神經網絡的寒冬(AI Winter) , 支持向量機(SVM)等統計方法大行其道 。 LSTM 引入的門控機制被認為參數過多、過于復雜且缺乏生物學合理性 。
直到 2010 年代 , 隨著算力和大數據的爆發 , LSTM 才在語音識別和機器翻譯中展現出統治級表現 。 這不僅是技術的勝利 , 更是對堅持者的獎賞 。
SIFT:前深度學習時代的王者

論文:Object Recognition from Local Scale-Invariant Features 作者:David G. Lowe 拒稿經歷:ICCV 1997 CVPR 1998 Rejected 如今引用量:27389David Lowe 提出的 SIFT(尺度不變特征變換)算法 , 曾統治 CV 領域長達 15 年 。 但在 1997 年和 1998 年 , 它先后被 ICCV 和 CVPR 拒稿 。
拒稿理由很有時代特色 。 當時的學術界偏好基于幾何理論和嚴密數學推導的方法 。 SIFT 包含了一系列復雜的工程步驟(高斯差分金字塔、關鍵點定位等) , 被評審認為「過于繁瑣」、「不夠優雅」 。
SIFT 最終以 Poster 形式發表 。 它證明了在處理現實世界圖像的旋轉、縮放和遮擋問題時 , 魯棒的工程設計往往比完美的數學理論更有生命力 。
Dropout:被誤解的「有性繁殖」

論文:Dropout: A Simple Way to Prevent Neural Networks from Overfitting 作者:Nitish Srivastava Geoffrey Hinton Alex Krizhevsky Ilya Sutskever Ruslan Salakhutdinov 拒稿經歷:NIPS 2012 Rejected 如今引用量:60231如果說有一項技術定義了深度神經網絡的正則化方法 , 那非 Dropout 莫屬 。 然而 , 這項后來獲得 NeurIPS 時間檢驗獎(Test of Time Award) 的技術 , 在 2012 年投稿 NIPS 時卻遭遇了滑鐵盧 。
【被拒≠失敗!這些高影響力論文都被頂會拒收過】在這篇論文中 , Geoffrey Hinton 團隊提出的核心思想是在訓練中隨機「刪掉」一半神經元 , 而這在當時的評審看來過于激進且缺乏數理邏輯 。 Hinton 使用了生物學中「有性繁殖」的隱喻來解釋其有效性(基因不能依賴于特定的伙伴存在) , 這被一些嚴謹的評審人認為「不夠科學」 , 更像是一個工程 Hack 。
盡管被拒 , Dropout 迅速成為了 AlexNet 奪冠 ImageNet 的秘密武器 。 它證明了在過參數化的深度網絡中 , 通過引入隨機性來打破特征間的共適應(Co-adaptation) , 比復雜的貝葉斯正則化更為有效 。
Word2Vec:被質疑的「工程奇跡」

論文:Efficient Estimation of Word Representations in Vector Space 作者:Tomas Mikolov Kai Chen Greg Corrado Jeffrey Dean 拒稿經歷:ICLR 2013 Strong Reject 如今引用量:50855是的 , 這里又出現了 Jeff Dean 的名字 。
Word2Vec 讓 King - Man + Woman = Queen 成為了 AI 領域最著名的算式 , 但在首屆 ICLR 會議上 , 它收到了「Strong Reject」 。
其收到的評審意見極其尖銳 , 認為作者 Tomas Mikolov 等人「比較不科學」、「定義模糊」 , 且過度關注工程優化(如分層 Softmax、負采樣) , 缺乏對「為何簡單的線性映射能捕捉復雜語義」的理論解釋 。
而作者直接開源了代碼 。 憑借極高的訓練效率 , Word2Vec 迅速橫掃 NLP 社區 , 成為深度學習時代文本表示的基石 。 2023 年 , NeurIPS 授予這篇曾被拒稿的論文「時間檢驗獎」 , 完成了歷史性的「平反」 。

知識蒸餾:被低估的「暗知識」

論文:Distilling the Knowledge in a Neural Network 作者:Geoffrey Hinton Oriol Vinyals Jeff Dean 拒稿經歷:NIPS 2014 Rejected 如今引用量:28600這正是前文提到的論文 。
在當時 , 評審未能洞察到 Hinton 提出的 「暗知識」(Dark Knowledge) 這一概念的深遠意義:神經網絡學到的知識不僅存在于正確的預測中 , 更隱含在對錯誤類別的概率分布里(比如寶馬像垃圾車的概率遠高于像胡蘿卜的概率) 。

https://www.ttic.edu/dl/dark14.pdf
這篇論文最終僅在 Workshop 發表 。 它開啟了模型壓縮作為獨立研究領域的序幕 , 更成為了如今大模型向小模型遷移能力的理論源頭 。
YOLO:速度與精度的偏見

論文:You Only Look Once: Unified Real-Time Object Detection 作者:Joseph Redmon Santosh Divvala Ross Girshick Ali Farhadi 拒稿經歷:ICCV 2015 Rejected 如今引用量:69782YOLO(You Only Look Once)徹底改變了物體檢測的游戲規則 , 將檢測問題從分類問題轉化為回歸問題 。
其被拒理由也很簡單 。 在 R-CNN 系列(雙階段檢測器)統治的時代 , 評審們習慣了用 mAP(平均精度均值)的微小提升來衡量價值 。 YOLO 雖然實現了驚人的 45 FPS 實時檢測 , 但其定位精度確實不如 R-CNN 。 評審因其「定位不準」而拒絕了它 , 卻忽視了數量級的速度提升所開啟的全新應用場景(如自動駕駛、實時監控) 。
YOLO 系列如今已迭代至 v13 , 成為工業界最受歡迎的檢測框架 。 它提醒我們:在工程應用中 , 速度本身就是一種精度 。
RoBERTa:被嘲諷為「炒冷飯」的調參藝術

RoBERTa: A Robustly Optimized BERT Pretraining Approach 作者:Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy Mike Lewis Luke Zettlemoyer Veselin Stoyanov 拒稿經歷:ICLR 2020 Rejected 如今引用量:23479如果說前面的論文是因為「太超前」被拒 , 那么 RoBERTa 的被拒則是因為「看起來太平庸」 。
2019 年 , BERT 橫空出世 , 風頭無兩 。 Facebook AI(現 Meta AI)的研究人員并沒有急于提出一種全新的架構 , 而是耐心地對 BERT 的預訓練過程進行了極其詳盡的復現和優化 。 他們發現 , BERT 實際上被「訓練不足」了 。 通過調整超參數、增加數據量、去除 Next Sentence Prediction (NSP) 任務 , RoBERTa 在所有基準測試上都超越了原始 BERT 。
然而 , 這篇扎實的工作在投稿 ICLR 2020 時 , 卻遭到了評審的冷遇 。 評審意見非常直白且刺耳:「這篇論文的新穎性和技術貢獻相當有限」 。 在評審看來 , 只是發現「仔細調參很有用」和「更多數據很有用」 , 并不足以登上頂會的舞臺 。
最終 , RoBERTa 只能再次以被拒稿的身份流傳于世 。 但歷史證明了它的價值:RoBERTa 不僅成為了后續 NLP 研究的標準基線 , 更向業界揭示了一個樸素的真理 —— 在深度學習時代 , 清洗數據和優化訓練細節 , 往往比設計花哨的新架構更具實戰價值 。
Mamba:挑戰 Transformer 霸權的「落選者」

論文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces 作者:Albert Gu Tri Dao 拒稿經歷:ICLR 2024 Rejected 如今引用量:6799這可能是最近發生的最具戲劇性的「拒稿」事件 。
在 Transformer 一統天下的今天 , Mamba 的出現原本被視為一種顛覆 。 作者 Albert Gu 和 Tri Dao 提出了一種基于選擇性狀態空間模型(SSM)的架構 , 它在實現線性時間復雜度的同時 , 居然在語言建模任務上達到了媲美 Transformer 的性能 。 這意味著 , 我們終于有望打破 Attention 機制帶來的計算瓶頸 , 讓大模型在長序列推理上實現飛躍 。
然而 , 這篇在 arXiv 上一經發布就引爆社區、被無數開發者復現和膜拜的神作 , 卻在 ICLR 2024 的評審中折戟沉沙 。 評審給出的分數并不高 , 理由集中在「與其前作 S4 相比增量不足」、「在某些特定任務上未能全面超越 Transformer」以及對實驗細節的質疑 。 參閱報道《8/8/6/3 的 Mamba 論文 , 最終還是被 ICLR 2024 拒了 , 網友:懸著的心終于死了》
結果十分諷刺:當 ICLR 2024 公布接收結果時 , AI 社區討論最熱烈的話題之一卻是「Mamba 竟然被拒了?」 。 就在被拒稿的短短幾個月后 , 基于 Mamba 的變體(如 Jamba、Vision Mamba)如雨后春筍般涌現 , 它實際上已經成為了 2024 年最具影響力的架構創新之一 。 Mamba 的遭遇再次提醒我們:當一種反共識的新范式出現時 , 舊范式的評價標準往往會失效 。
科研評價體系的局限與反思

綜合上述案例 , 我們可以看到頂會評審系統在面對顛覆性創新時 , 往往存在某種系統性的認知滯后:
簡單性陷阱:評審傾向于將「數學復雜性」等同于「研究貢獻」 。 當 Dropout 或 Word2Vec 這樣簡單有效的方法出現時 , 評審的第一反應往往是質疑其理論深度 。范式慣性:評審往往是舊范式的維護者 。 當 YOLO 提出放棄 Region Proposal , 或 Deep Image Prior 提出無需學習的先驗時 , 舊范式的標準(如精度、數據依賴)成為了阻礙新思想的壁壘 。嚴謹性的暴政:在深度學習這個實驗科學屬性極強的領域 , 過度要求理論證明(如 Adam 優化器初期面臨的收斂性質疑)可能會扼殺具有巨大實用價值的工程突破 。寫在最后
這些「被拒稿的杰作」向我們揭示了科學發展的非線性 。 它們證明了 , 同行評審雖然是科學共同體的基石 , 但它很難擺脫人類認知的局限性 —— 它善于識別錯誤 , 卻往往拙于鑒別天才 。
事實上 , 這種遭遇并非 AI 領域的特產 , 甚至連物理學神壇上的名字也無法幸免 。
1936 年 , 阿爾伯特?愛因斯坦(Albert Einstein)將一篇關于引力波的論文投給了權威期刊《Physical Review》 。 在此之前 , 愛因斯坦習慣了編輯直接錄用他的文章 , 但這一次 , 主編 John Tate 決定將其送審 。
隨后 , 愛因斯坦收到了一份寫滿修改意見的匿名評審報告 。 這位驕傲的物理學家被徹底激怒了 , 他在給主編的回信中寫下了一段著名的話:「我把文章寄給你是為了發表 , 并沒有授權你在它付印前拿給專家看 。 我沒有通過以此來回答你們那匿名專家的錯誤評論的必要 。 」隨后 , 他撤回了論文 。
雖然歷史極其幽默地反轉了 —— 那位匿名評審人其實指出了愛因斯坦論文中一個致命的數學錯誤(愛因斯坦后來在另一本期刊發表時悄悄修正了它) , 但這個故事依然不僅是一個關于「糾錯」的軼事 , 更是一個關于「摩擦」的隱喻 。

阿爾伯特·愛因斯坦和內森·羅森關于引力波的解的修訂版論文最后發表在 Journal of the Franklin Institute 上
對于正在經歷 Peer Review 陣痛的研究者而言 , Jeff Dean 的憤怒、YOLO 的委屈、甚至愛因斯坦的傲慢 , 都指向了同一個事實:真正決定一項研究生命力的 , 從來不是幾位評審在幾周內做出的決定 , 而是它是否真正解決了問題 , 以及它在時間長河中留下的回響 。
如果你的 Paper 最近也被拒了 , 別灰心 。 你只是加入了一個包括圖靈獎得主和諾貝爾獎得主在內的「被拒稿俱樂部」而已 。
保持韌性 , 真理有時只是遲到了一點 。
你還知道哪些雖被拒稿但影響深遠的論文?
參考鏈接
https://x.com/JeffDean/status/1998454348125536736
https://x.com/Yuchenj_UW/status/1998485506699702403
https://www.reddit.com/r/MachineLearning/comments/vywfx3/d_are_there_any_rejected_papers_that_ended_up/
https://physicstoday.aip.org/features/einstein-versus-the-physical-review

    推薦閱讀