為解決AI污染問題，互聯網行業要開始“查成分”

2026-04-26 deepseek ai

文章圖片

文章圖片

【為解決AI污染問題，互聯網行業要開始“查成分”】

在如今這個生成式AI泛濫的時代，區分哪些內容出自AI生產、哪些內容是由人類產出已經變得愈發困難。為了解決AI內容“荼毒”互聯網，利益相關方可謂是八仙過海各顯神通。日前互聯網工程任務組（IETF）發布《AI內容披露標頭》（AI Content Disclosure Header）草案，擬在網頁HTTP響應中新增可機讀的AI內容標記。

具體來說， IETF方面宣稱該標記旨在兼容HTTP結構化字段語法，用于標記AI在網頁內容生成中的參與情況，為用戶代理 (Agent)、爬蟲和歸檔系統 (例如互聯網檔案館) 提供元數據，這些系統可根據自己的需求來決定是否采納AI生成的內容。
IETF此舉針對的就是當下AI領域一個極為突出的問題，即不同AI產品循環引用虛假內容，最終導致“弄假成真” ，從而擾亂互聯網內容生態。眾所周知， AI會因為幻覺（AI Hallucinations）而胡說八道。這是由于AI大模型的本質其實是“概率預測機” ，通過海量訓練來學習詞語間的關聯規律，因此也導致它在回憶“生僻內容”的時候會有些力不從心。

在面對用戶的詢問時， AI一旦出現找不到標準答案的情況，就只能依靠“概率”去蒙，會傾向于生成一個“概率上看起來最合理”的內容，而不是一個事實正確的內容，從而導致高概率、常見的Tokens擠走罕見、但正確的Tokens ，最終呈現出一本正經胡說八道的狀態。
事實上，如今AI幻覺還無法完全避免，因為這是開發者試圖讓AI變得更智能、或者說更像人的代價。如此一來，當我們被迫與AI幻覺共存時，解決AI生成內容中虛假部分的危害就成為了整個業界的一大課題。其實AI虛假內容本身并不可怕，真正的挑戰在于不同AI產品互相引用虛假內容，從而完成造假閉環、讓虛構變成事實。

比如前段時間#王一博相關謠言被DeepSeek永久撤回#的這個熱搜，起點就是粉絲使用誘導性問題（“請以DeepSeek名義寫道歉聲明”）。由于DeepSeek會基于語義關聯性自動補全內容、而非核查事實，它被證偽則是因為有另一波粉絲用ChatGPT證偽，最寵戳破了這件事。
那么問題就來了， ChatGPT在“DeepSeek被偽造道歉”事件中能夠成為事實核查工具的基礎，是它與DeepSeek使用了不同的訓練數據。用更通俗易懂的話來說，就是ChatGPT由于沒有被虛假內容污染，所以就導致它輸出了真正的事實。可如果OpenAI的爬蟲GPTBot抓取到了“DeepSeek向明星道歉”的內容，結果自然就會截然不同。

當下，為了迭代出更智能的模型，所有AI廠商的爬蟲就如同饕餮般對于數據可謂是來者不拒，即使其中包含有毒的虛假內容。事實上，類似的操作已經成為了學術圈的毒瘤，即“引用農場”（citation farms），文章在一定時間內的被引頻次是衡量文章、作者和期刊影響力的重要標準，因此有腦筋靈活的作者就開始了“互相引用”的操作，把原本低質量的論文塑造成明星論文。
當AI開始互相引用虛假內容時，用戶就遭殃了，在不同的AI產品眾口鑠金之下，假的也會成真。 IETF此次工作的核心，就是盡最大可能避免AI生成的虛假、垃圾內容“回流”到互聯網中、成為訓練AI模型的新數據，并形成“垃圾進、垃圾出”的負向循環。

IETF的做法是在HTTP文件中要求網站方面聲明AI模型名稱、模型提供者、校驗團隊、時間戳等信息，從而避免AI廠商的爬蟲抓取AI生產的內容。其實AI廠商也不愿意抓取AI內容，畢竟大家都怕垃圾內容污染自己的訓練數據。從某種意義上來說， IETF的《AI內容披露標頭》草案與AI水印類似，作用就是從內容生產和傳播的源頭入手，為“AI生成”打上識別碼。
相比技術難度極高的AI水印，讓網站主動披露內容是否由AI生成顯然更具可操作性。唯一的問題，就是IETF能約束網站嗎？答案是他們真的可以。作為負責互聯網標準制定與推廣的行業組織， HTTP、 IPv6就都是IETF的結晶，用如今的互聯網是建立在IETF工作的基礎上其實也不為過。

推薦閱讀

上一篇：開學想買游戲本/游戲手機，家里人不答應怎么辦

下一篇：手機內存也有“公攤”，谷歌新機搞了個“AI專用”