生成式AI使用文本圖像而非純文本作為Token的驚人創新

生成式AI使用文本圖像而非純文本作為Token的驚人創新

今天 , 我要探討一個相當創新的想法 , 它巧妙地顛覆了生成式AI和大語言模型的傳統設計 。 簡單來說 , 考慮這樣一個大膽的概念:與其讓生成式AI直接接收純文本 , 不如先將文本捕獲為圖像 , 然后將圖像輸入到AI中 。
什么?
對于任何了解大語言模型技術基礎的人來說 , 這似乎完全不同尋常且違反直覺 。 你可能已經在大聲喊叫這毫無意義 。 原因如下:大語言模型被設計用來處理英語等自然語言 , 因此大量使用文本 。 文本是我們通常向大語言模型輸入提示和問題的方式 。 選擇使用文本圖像代替實際文本 , 必須是一個荒謬的概念 。 簡直是褻瀆 。
請穩住 , 因為一些認真的研究人員嘗試了這種方法 , 并且有足夠的價值讓我們給這個奇思妙想一些認真的關注 。
讓我們談論一下 。
Token化至關重要
問題的核心涉及現代生成式AI和大語言模型的Token化方面 。 當你向AI輸入文本時 , 文本會被轉換為各種數字 。 然后這些數字在處理你的提示的其余過程中被處理 。 一旦AI得出答案 , 答案實際上是數字格式的 , 需要轉換回文本 , 以便用戶可讀 。 AI繼續將數字轉換為文本并相應地顯示響應 。
整個過程被稱為Token化 。 你輸入的文本被編碼為一組數字 。 這些數字被稱為Token 。 數字 , 或者我們可以說Token , 在AI中流動并用于找出你問題的答案 。 響應最初是Token的數字格式 , 需要解碼回文本 。
幸運的是 , 普通用戶對Token化過程毫不知情 。 他們不需要了解它 。 這個話題對AI開發者極其重要 , 但對公眾興趣不大 。 經常采用各種數字技巧來嘗試使Token化過程盡可能快 , 這樣AI就不會在需要發生的編碼和解碼過程中被拖慢 。
Token是一個問題
我提到公眾通常不了解大語言模型的Token化方面 。 但情況并非總是如此 。 任何將AI推向極限的人可能都模糊地意識到Token和Token化 。
事情是這樣的 。
大多數當代大語言模型 , 如OpenAI的ChatGPT和GPT-5、Anthropic Claude、Meta Llama、Google Gemini、xAI Grok等 , 由于它們一次能夠充分處理的Token數量而受到一定限制 。 當ChatGPT首次爆紅時 , 單次對話中允許的Token數量相當有限 。
你會粗魯地發現這個事實 , 因為ChatGPT突然不再能夠回憶你對話的早期部分 。 這是由于AI在一次可以存在多少活躍Token上撞墻了 。 來自你對話早期的Token被立即丟棄 。
如果你進行任何冗長和復雜的對話 , 這些限制是令人惱火的 , 幾乎排除了生成式AI的任何大規模使用 。 你被限制在相對較短的對話中 。 當你通過RAG等方法導入文本時也出現了同樣的問題 。 文本必須被Token化 , 并再次計入AI可以處理的活躍Token閾值 。
對那些夢想使用生成式AI進行大規模問題解決的人來說 , 這是令人發狂的 。
限制更高但仍然存在
ChatGPT的早期版本在任何時候的活躍Token限制少于10000個 。 如果你將Token視為代表一個小詞 , 如\"the\"或\"dog\" , 這意味著一旦你的對話消耗了大約一萬個簡單單詞 , 你就會撞墻 。 對于任何冗長或復雜的使用來說 , 這在當時是無法忍受的 。
如今 , GPT-5的傳統版本有大約400000個Token的上下文窗口 。 這被認為是與輸入Token和輸出Token作為組合總計相關的總容量 。 上下文窗口大小可能有所不同 。 例如 , Claude在某些模型上的限制約為200000個Token , 而其他模型則進一步擴展到約500000個Token 。
對未來的愿景是不會有與允許的Token數量相關的任何限制 。 在AI中有關于所謂無限或無窮記憶的最先進工作 , 這將幾乎啟用任何數量的Token 。 當然 , 在實際意義上 , 只能存在這么多服務器內存;因此 , 它不是真正無限的 , 但這個說法是吸引人的并且相當公平 。
應對Token問題
因為Token化是大多數大語言模型設計和使用的核心 , 已經投入了大量努力來嘗試優化Token化方面 。 目標是以某種方式使Token更小 , 如果可能的話 , 允許在系統具有的任何內存約束內存在更多Token 。
AI設計師反復尋求壓縮Token 。 這樣做可能是一個很大的幫助 。 而Token窗口可能習慣性地限制在200000個Token , 如果你能將每個Token降低到其通常大小的一半 , 你可以將限制加倍到400000個Token 。 很好 。
與Token壓縮相關有一個令人煩惱的問題 。 通常 , 是的 , 你可以將它們壓縮到更小的尺寸 , 但當你這樣做時 , 精度會受到損害 。 這很糟糕 。 在它們仍然可行和可用的意義上 , 它可能不會過度糟糕 。 這完全取決于犧牲了多少精度 。
理想情況下 , 你會希望最大可能的壓縮并以100%的精度保留做到這一點 。 這是一個崇高的目標 。 可能是你需要權衡壓縮級別與精度準確性 。 就像生活中的大多數事情一樣 , 從來沒有免費的午餐 。
讓你大吃一驚
假設我們允許自己跳出框框思考 。
大語言模型的通常方法是接受純文本 , 將文本編碼為Token , 并以我們愉快的方式繼續 。 我們幾乎總是通過邏輯和自然地假設來自用戶的輸入將是純文本來開始我們關于Token化的思維過程 。 他們通過鍵盤輸入文本 , 文本就是轉換為Token的內容 。 這是一種直截了當的方法 。
考慮我們還能做什么 。
看似從左場出來 , 假設我們將文本視為圖像 。
你已經知道你可以拍攝文本的照片 , 然后進行光學掃描 , 要么保持為圖像 , 要么稍后轉換為文本 。 這個過程是一個長期存在的實踐 , 稱為OCR(光學字符識別) 。 OCR從計算機的早期就已經存在 。
通常的OCR過程包括將圖像轉換為文本 , 被稱為圖像到文本 。 有時你可能想要做相反的事 , 即你有文本并想要將文本轉換為圖像 , 這是文本到圖像處理 。 有很多很多現有的軟件應用程序樂意進行圖像到文本和文本到圖像 。 這是老套路 。
這是關于大語言模型和Token化的瘋狂想法 。
我們仍然讓人們輸入文本 , 但我們將該文本轉換為圖像(即文本到圖像) 。 接下來 , 文本圖像被Token編碼器使用 。 因此 , 編碼器不是編碼純文本 , 而是基于文本圖像進行編碼 。 當AI準備向用戶提供響應時 , Token將從Token轉換為文本 , 利用圖像到文本轉換 。 砰 , 放下麥克風 。
理解這個驚喜
哇 , 你可能在說 , 這種與圖像的玩耍能達到什么好處?
如果圖像到Token的轉換能讓我們朝著更小的Token發展 , 我們可能能夠壓縮Token 。 這反過來意味著我們可能在有限內存的邊界內有更多Token 。 記住 , Token的壓縮嚴肅地在我們心中 。
在最近發布的題為《DeepSeek-OCR:上下文光學壓縮》的研究中 , 研究論文做出了這些聲明:
\"包含文檔文本的單個圖像可以使用比等效數字文本少得多的Token來表示豐富信息 , 表明通過視覺Token的光學壓縮可以實現更高的壓縮比 。 \"
\"我們的方法在Fox基準測試中以9-10倍文本壓縮實現96%以上的OCR解碼精度 , 10-12倍壓縮約90% , 20倍壓縮約60% , 具有多樣化的文檔布局 。 \"
如上所述 , 實驗工作似乎表明 , 有時可以以96%的精度實現10倍更小的壓縮比 。 如果這可以在整個董事會上完成 , 這將意味著 , 而今天的Token窗口限制可能是400000個Token , 限制可以提高到4000000個Token , 盡管在96%的精度率下 。
96%的精度可能是可以容忍的或不可容忍的 , 這取決于AI被用于什么 。 你不能得到免費的午餐 , 至少到目前為止 。 20倍的壓縮率會更好 , 盡管60%的精度似乎相當不吸引人 。 盡管如此 , 可能有一些情況 , 人們可以勉強接受60%的20倍增長 。
著名AI專家Andrej Karpathy在網上發布了他對這種方法的初步想法:\"我非常喜歡新的DeepSeek-OCR論文 。 這是一個很好的OCR模型 , 對我來說更有趣的部分是像素是否比文本更好的大語言模型輸入 。 文本Token是否在輸入時是浪費的和糟糕的 。 也許所有大語言模型的輸入都應該只是圖像更有意義 。 \"
頭腦風暴是有用的
研究還嘗試使用多種自然語言 。 這是使用圖像而不是純文本的另一個價值 。 如你所知 , 有一些自然語言使用圖形字符和單詞 。 這些語言似乎特別適合基于圖像的Token化方法 。
另一個有趣的方面是我們已經有VLM , 由處理視覺圖像而不是文本本身的AI組成(即視覺語言模型) 。 在大語言模型中做同樣的事情時 , 我們不必重新發明輪子 。 只需借用在VLM中有效的東西并重新調整為在大語言模型中使用 。 這是使用整個頭腦并在可行時利用重用 。
這個想法值得承認和額外挖掘 。 我不會建議到處走并立即宣布所有大語言模型都需要切換到這種方法 。 陪審團仍然沒有結果 。 我們需要更多研究來看看這能走多遠 , 以及理解優勢和劣勢 。
與此同時 , 我想我們至少可以做出這個大膽的宣告:\"有時 , 一張圖片真的值一千個字 。 \"
Q&A
Q1:什么是Token化?它在大語言模型中起什么作用?
A:Token化是將文本轉換為數字的過程 。 當用戶輸入文本時 , 系統會將文本編碼為數字(稱為Token) , AI通過處理這些數字來理解和回答問題 , 最后再將數字轉換回文本顯示給用戶 。
Q2:為什么要用文本圖像代替純文本作為Token?
A:使用文本圖像可以實現更高的壓縮比 , 研究顯示能以96%精度實現10倍壓縮 , 這意味著在相同內存限制下可以處理更多Token , 從而支持更長、更復雜的對話 。
Q3:DeepSeek-OCR研究取得了什么成果?
A:DeepSeek-OCR研究顯示 , 在9-10倍文本壓縮下可以實現96%以上的OCR解碼精度 , 在10-12倍壓縮下約90%精度 , 在20倍壓縮下約60%精度 , 證明了圖像Token化方法的可行性 。
【生成式AI使用文本圖像而非純文本作為Token的驚人創新】

    推薦閱讀