文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代

文章圖片

編輯:KingHZ 好困
【新智元導讀】AI新突破!DeepSeek-OCR以像素處理文本 , 壓縮率小于1/10 , 基準測試領跑 。 開源一夜4.4k星 , Karpathy技癢難耐 , 展望視覺輸入的通用性 。

DeepSeek再次讓全世界大吃一驚!
他們最新成果DeepSeek-OCR , 從根本上改變了游戲規則——
文本并非通用的輸入 。 反而 , 視覺將取而代之!

此外 , 在光學文字識別OCR任務上 , DeepSeek-OCR模型名副其實 , 堪稱工程學的巔峰之作——
在單卡A100-40G上 , 可達每秒約2500 Token , 跑得飛快 。
在保持97% OCR準確率的前提下 , 可將視覺上下文壓縮至原來的1/20 , 常規使用下壓縮比也能輕松小于1/10 。
在OmniDocBench基準測試中 , 使用更少的視覺Token , 即可超越GOT-OCR2.0和MinerU2.0的表現 。

【文本已死視覺當立!Karpathy狂贊DeepSeek新模型,終結分詞器時代】到底效果多驚艷?
一整頁密密麻麻的文本 , 被壓成僅僅100個視覺Token , 在 OmniDocBench上實現最多60倍壓縮!
DeepSeek-OCR簡直把文字變成了像素點 , 就像把一本100頁的書壓縮成一張照片 , AI依然能讀懂它 。

參數少、壓縮率高、速度快、涵蓋100種語言……DeepSeek-OCR全都要 。
不僅理論價值大 , 實用性還很高強 , 好評如潮:




Github開源項目DeepSeek-OCR , 一夜收獲4.4k星:

DeepSeek-OCR用事實證明 , 實體頁面(如縮微膠片、書籍)才是訓練AI模型的更優數據源——而非低質量的互聯網文本 。
「骨子里的計算機視覺研究者」、特斯拉前AI總監、OpenAI創始團隊成員Karpathy , 難掩欣喜 , 力挺DeepSeek新模型 。



Karpathy
技癢難耐 , 早已受不了分詞器
Karpathy相當喜歡DeepSeek-OCR的新論文 。

但更有趣的部分在于 , 對于大語言模型來說 , 像素輸入是否優于文本輸入?在輸入端 , 文本Token會不會是一種既浪費又糟糕透頂的方式?
DeepSeek-OCR在動搖「文本作為AI的核心地位」 , 而視覺或將再次成為主流!
Karpathy自稱「骨子里搞計算機視覺」 , 只是暫時混跡在自然語言處理圈 , 自然對上述問題尤其感興趣 。

上下滑動查看
或許 , 大語言模型的所有輸入都只應該是圖像 , 這才更有道理 。 就算你手頭是純文本輸入 , 可能也最好先把它渲染成圖像再喂給模型:

  • 更高的信息壓縮率 => 更短的上下文窗口 , 更高的效率 。
  • 信息流的通用性顯著增強 => 不再局限于文本 , 還可以處理粗體、彩色文本乃至任意圖像 。
  • 輸入現在可以輕松地、默認地采用雙向注意力機制處理 , 而不再是自回歸注意力——這可要強大得多 。
  • 干掉(輸入端的)分詞器tokenizer?。 ?/li>
特別是最后一點 , Karpathy忍了很久了 , 早就多次吐槽分詞器太爛了——
分詞器丑陋、獨立 , 并非端到端的環節 。


它「引入」了Unicode和字節編碼的所有糟粕 , 背負著沉重的歷史包袱 , 還帶來了安全/越獄風險(比如連續字節問題) 。


它讓兩個肉眼看起來一模一樣的字符 , 在網絡內部卻變成了兩個風馬牛不相及的 Token 。
一個微笑的表情符號 , 在LLM模型看來只是個奇怪的token , 而不是一個帶有像素、承載著豐富信息、能從中進行遷移學習的真實笑臉 。
總之 , Karpathy認為 , 分詞器「惡行累累」 , 這次必須趕走分詞器 。

此外 , 他展望了視覺成為通用輸入的前景:
OCR只是「視覺到文本」眾多落地應用中的一種 。 而「文本到文本」的任務也可以被改造為「視覺到文本」的任務 , 反之則不行 。


所以 , 或許用戶輸入的消息是圖像 , 但解碼器(即「智能助理」的響應)依然是文本 。
至于 , 到底如何真實地輸出像素或者說你是否真想這么做 , 就遠沒那么明朗了 。
現在 , Karpathy表示 , 他要拼命忍住 , 不去搞一個只用圖像輸入的「nanochat」的支線任務 。

為什么圖像輸入對AI更友好?
有網友問:
首先 , 為什么圖像能輕易獲得雙向注意力 , 而文本卻不能?


另外 , 雖然圖像沒有像文本那樣的「Token化」過程 , 但我們把輸入圖像切割成一個個圖像塊(patches)時 , 難道得到的不是類似 , 甚至可能更不理想的結果嗎?

對此 , Karpathy表示 , 原則上可以 , 只不過為了追求效率 , 文本(的生成)通常采用簡單的自回歸方式進行訓練 。
可以設想存在一個中間訓練階段 , 利用雙向注意力機制 , 微調條件信息 , 比如那些我們不需要去預測或生成的代表用戶消息的Token 。
原則上 , 你可以對整個上下文窗口進行雙向編碼 , 而目的僅僅是為了預測下一個 Token 。 但這么做的代價就是無法并行化訓練 。
至于第二個問題 , 他認為 , 嚴格來說與「像素 vs. Token」無關 。 其核心更在于 , 像素通常是被編碼的(encoded) , 而 Token則是被解碼的(decoded) 。
至于 , Karpathy的「nanochat支線任務論」 , 網友并不認可:
DeepSeekOCR證明這不僅關乎壓縮——更是語義的蒸餾 。


分詞器時代意味著識字 , 像素時代則關乎感知 。


Nanochat不該是支線任務 , 它是「光學認知」的開端 。

帖子下面 , 網友懇求Karpathy:快搞個只用圖像輸入的「nanochat」吧!




Karpathy的前老板、「好兄弟」馬斯克給出了更科幻的猜想:
長期來看 , AI模型超過99%的輸入和輸出將是光子 。

馬斯克讓Grok估計了一下已知宇宙的光子總量:
1=估算可觀測宇宙中的光子總數是一項復雜的工作 , 但我們可以基于幾個主要組成部分得出一個大致數字:宇宙微波背景輻射(CMB)產生的光子、星光光子 , 以及其他一些微弱來源 。


……


宇宙微波背景輻射(CMB)占據主導地位 , 使得可觀測宇宙中的光子總數約為1.5×10??個。 這個數字是一個粗略估算 , 具體數值取決于可觀測宇宙的精確體積以及其他微小來源的貢獻 , 但整體上與宇宙學計算結果相符 。
1.5×10??!沒有其他東西能達到這種規模 。 這就是馬斯克的邏輯 。
畢竟 , 人類就是通用「光學計算系統」——眼睛來認識世界的:


作者介紹
這次論文一共有三位作者:Haoran Wei、Yaofeng Sun、Yukun Li 。

論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
論文一作Haoran Wei , 此前也是GitHub 7.9k星爆火項目GOT-OCR2.0 , 即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作 。

項目地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

論文地址:https://arxiv.org/abs/2409.01704

Yaofeng Sun是DeepSeek的軟件工程師 , 于2023年加入幻方AI/DeepSeek 。

谷歌學術顯示 , 他參與了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型的研究 。

據悉 , 他本科畢業于北京大學圖靈班(Turing Class)計算機科學專業 。
他代表北京大學參賽 , 獲得ACM-ICPC 亞洲區域賽金牌(2017–2019) , 獲獎賽區包括:EC 總決賽 2017、青島 2017、西安 2017、上海 2019、南京 2019 。
之前 , 他獲得全國信息學奧林匹克競賽(NOI)金牌(2015、2016) 。

Yukun Li也是高產的AI從業者——
2020年至今 , 引用數已過9千;參與過DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等項目研究 。

我們一起見證他們帶來的AI新突破 , 一起見證開源AI的崛起!
參考資料:
https://x.com/karpathy/status/1980397031542989305
https://x.com/teortaxesTex/status/198023417556435798
https://www.linkedin.com/in/sunyaofeng/

    推薦閱讀