文本已死視覺當立！Karpathy狂贊DeepSeek新模型，終結分詞器時代

2025-10-22 00:49 ai 伊隆·馬斯克 github deepseek

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：KingHZ 好困
【新智元導讀】AI新突破！DeepSeek-OCR以像素處理文本，壓縮率小于1/10 ，基準測試領跑。開源一夜4.4k星， Karpathy技癢難耐，展望視覺輸入的通用性。

DeepSeek再次讓全世界大吃一驚！
他們最新成果DeepSeek-OCR ，從根本上改變了游戲規則——
文本并非通用的輸入。反而，視覺將取而代之！

此外，在光學文字識別OCR任務上， DeepSeek-OCR模型名副其實，堪稱工程學的巔峰之作——
在單卡A100-40G上，可達每秒約2500 Token ，跑得飛快。
在保持97% OCR準確率的前提下，可將視覺上下文壓縮至原來的1/20 ，常規使用下壓縮比也能輕松小于1/10 。
在OmniDocBench基準測試中，使用更少的視覺Token ，即可超越GOT-OCR2.0和MinerU2.0的表現。

【文本已死視覺當立！Karpathy狂贊DeepSeek新模型，終結分詞器時代】到底效果多驚艷？
一整頁密密麻麻的文本，被壓成僅僅100個視覺Token ，在 OmniDocBench上實現最多60倍壓縮！
DeepSeek-OCR簡直把文字變成了像素點，就像把一本100頁的書壓縮成一張照片， AI依然能讀懂它。

參數少、壓縮率高、速度快、涵蓋100種語言……DeepSeek-OCR全都要。
不僅理論價值大，實用性還很高強，好評如潮：

Github開源項目DeepSeek-OCR ，一夜收獲4.4k星：

DeepSeek-OCR用事實證明，實體頁面（如縮微膠片、書籍）才是訓練AI模型的更優數據源——而非低質量的互聯網文本。
「骨子里的計算機視覺研究者」、特斯拉前AI總監、OpenAI創始團隊成員Karpathy ，難掩欣喜，力挺DeepSeek新模型。

Karpathy
技癢難耐，早已受不了分詞器
Karpathy相當喜歡DeepSeek-OCR的新論文。

但更有趣的部分在于，對于大語言模型來說，像素輸入是否優于文本輸入？在輸入端，文本Token會不會是一種既浪費又糟糕透頂的方式？
DeepSeek-OCR在動搖「文本作為AI的核心地位」，而視覺或將再次成為主流！
Karpathy自稱「骨子里搞計算機視覺」，只是暫時混跡在自然語言處理圈，自然對上述問題尤其感興趣。

上下滑動查看
或許，大語言模型的所有輸入都只應該是圖像，這才更有道理。就算你手頭是純文本輸入，可能也最好先把它渲染成圖像再喂給模型：

更高的信息壓縮率 => 更短的上下文窗口，更高的效率。
信息流的通用性顯著增強 => 不再局限于文本，還可以處理粗體、彩色文本乃至任意圖像。
輸入現在可以輕松地、默認地采用雙向注意力機制處理，而不再是自回歸注意力——這可要強大得多。
干掉（輸入端的）分詞器tokenizer?。 ?/li>

特別是最后一點， Karpathy忍了很久了，早就多次吐槽分詞器太爛了——
分詞器丑陋、獨立，并非端到端的環節。

它「引入」了Unicode和字節編碼的所有糟粕，背負著沉重的歷史包袱，還帶來了安全/越獄風險（比如連續字節問題）。

它讓兩個肉眼看起來一模一樣的字符，在網絡內部卻變成了兩個風馬牛不相及的 Token 。
一個微笑的表情符號，在LLM模型看來只是個奇怪的token ，而不是一個帶有像素、承載著豐富信息、能從中進行遷移學習的真實笑臉。
總之， Karpathy認為，分詞器「惡行累累」，這次必須趕走分詞器。

此外，他展望了視覺成為通用輸入的前景：
OCR只是「視覺到文本」眾多落地應用中的一種。而「文本到文本」的任務也可以被改造為「視覺到文本」的任務，反之則不行。

所以，或許用戶輸入的消息是圖像，但解碼器（即「智能助理」的響應）依然是文本。
至于，到底如何真實地輸出像素或者說你是否真想這么做，就遠沒那么明朗了。
現在， Karpathy表示，他要拼命忍住，不去搞一個只用圖像輸入的「nanochat」的支線任務。

為什么圖像輸入對AI更友好？
有網友問：
首先，為什么圖像能輕易獲得雙向注意力，而文本卻不能？

另外，雖然圖像沒有像文本那樣的「Token化」過程，但我們把輸入圖像切割成一個個圖像塊（patches）時，難道得到的不是類似，甚至可能更不理想的結果嗎？

對此， Karpathy表示，原則上可以，只不過為了追求效率，文本（的生成）通常采用簡單的自回歸方式進行訓練。
可以設想存在一個中間訓練階段，利用雙向注意力機制，微調條件信息，比如那些我們不需要去預測或生成的代表用戶消息的Token 。
原則上，你可以對整個上下文窗口進行雙向編碼，而目的僅僅是為了預測下一個 Token 。但這么做的代價就是無法并行化訓練。
至于第二個問題，他認為，嚴格來說與「像素 vs. Token」無關。其核心更在于，像素通常是被編碼的（encoded），而 Token則是被解碼的（decoded）。
至于， Karpathy的「nanochat支線任務論」，網友并不認可：
DeepSeekOCR證明這不僅關乎壓縮——更是語義的蒸餾。

分詞器時代意味著識字，像素時代則關乎感知。

Nanochat不該是支線任務，它是「光學認知」的開端。

帖子下面，網友懇求Karpathy：快搞個只用圖像輸入的「nanochat」吧！

Karpathy的前老板、「好兄弟」馬斯克給出了更科幻的猜想：
長期來看， AI模型超過99%的輸入和輸出將是光子。

馬斯克讓Grok估計了一下已知宇宙的光子總量：
1=估算可觀測宇宙中的光子總數是一項復雜的工作，但我們可以基于幾個主要組成部分得出一個大致數字：宇宙微波背景輻射（CMB）產生的光子、星光光子，以及其他一些微弱來源。

……

宇宙微波背景輻射（CMB）占據主導地位，使得可觀測宇宙中的光子總數約為1.5×10??個。這個數字是一個粗略估算，具體數值取決于可觀測宇宙的精確體積以及其他微小來源的貢獻，但整體上與宇宙學計算結果相符。
1.5×10??！沒有其他東西能達到這種規模。這就是馬斯克的邏輯。
畢竟，人類就是通用「光學計算系統」——眼睛來認識世界的：

作者介紹
這次論文一共有三位作者：Haoran Wei、Yaofeng Sun、Yukun Li 。

論文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
論文一作Haoran Wei ，此前也是GitHub 7.9k星爆火項目GOT-OCR2.0 ，即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作。

項目地址：https://github.com/Ucas-HaoranWei/GOT-OCR2.0

論文地址：https://arxiv.org/abs/2409.01704

Yaofeng Sun是DeepSeek的軟件工程師，于2023年加入幻方AI/DeepSeek 。

谷歌學術顯示，他參與了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型的研究。

據悉，他本科畢業于北京大學圖靈班（Turing Class）計算機科學專業。
他代表北京大學參賽，獲得ACM-ICPC 亞洲區域賽金牌（2017–2019），獲獎賽區包括：EC 總決賽 2017、青島 2017、西安 2017、上海 2019、南京 2019 。
之前，他獲得全國信息學奧林匹克競賽（NOI）金牌（2015、2016）。

Yukun Li也是高產的AI從業者——
2020年至今，引用數已過9千；參與過DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等項目研究。

我們一起見證他們帶來的AI新突破，一起見證開源AI的崛起！
參考資料：
https://x.com/karpathy/status/1980397031542989305
https://x.com/teortaxesTex/status/198023417556435798
https://www.linkedin.com/in/sunyaofeng/

推薦閱讀

上一篇：沒錯，AI會讓我們變笨，但是還有救

下一篇：Arelion完成波羅的海網絡擴張構建韌性連接路由