為解決AI污染問題,互聯網行業要開始“查成分”

為解決AI污染問題,互聯網行業要開始“查成分”

文章圖片

為解決AI污染問題,互聯網行業要開始“查成分”

文章圖片

【為解決AI污染問題,互聯網行業要開始“查成分”】為解決AI污染問題,互聯網行業要開始“查成分”

在如今這個生成式AI泛濫的時代 , 區分哪些內容出自AI生產、哪些內容是由人類產出已經變得愈發困難 。 為了解決AI內容“荼毒”互聯網 , 利益相關方可謂是八仙過海各顯神通 。 日前互聯網工程任務組(IETF)發布《AI內容披露標頭》(AI Content Disclosure Header)草案 , 擬在網頁HTTP響應中新增可機讀的AI內容標記 。



具體來說 , IETF方面宣稱該標記旨在兼容HTTP結構化字段語法 , 用于標記AI在網頁內容生成中的參與情況 , 為用戶代理 (Agent)、爬蟲和歸檔系統 (例如互聯網檔案館) 提供元數據 , 這些系統可根據自己的需求來決定是否采納AI生成的內容 。
IETF此舉針對的就是當下AI領域一個極為突出的問題 , 即不同AI產品循環引用虛假內容 , 最終導致“弄假成真” , 從而擾亂互聯網內容生態 。 眾所周知 , AI會因為幻覺(AI Hallucinations)而胡說八道 。 這是由于AI大模型的本質其實是“概率預測機” , 通過海量訓練來學習詞語間的關聯規律 , 因此也導致它在回憶“生僻內容”的時候會有些力不從心 。



在面對用戶的詢問時 , AI一旦出現找不到標準答案的情況 , 就只能依靠“概率”去蒙 , 會傾向于生成一個“概率上看起來最合理”的內容 , 而不是一個事實正確的內容 , 從而導致高概率、常見的Tokens擠走罕見、但正確的Tokens , 最終呈現出一本正經胡說八道的狀態 。
事實上 , 如今AI幻覺還無法完全避免 , 因為這是開發者試圖讓AI變得更智能、或者說更像人的代價 。 如此一來 , 當我們被迫與AI幻覺共存時 , 解決AI生成內容中虛假部分的危害就成為了整個業界的一大課題 。 其實AI虛假內容本身并不可怕 , 真正的挑戰在于不同AI產品互相引用虛假內容 , 從而完成造假閉環、讓虛構變成事實 。



比如前段時間#王一博相關謠言被DeepSeek永久撤回#的這個熱搜 , 起點就是粉絲使用誘導性問題(“請以DeepSeek名義寫道歉聲明”) 。 由于DeepSeek會基于語義關聯性自動補全內容、而非核查事實 , 它被證偽則是因為有另一波粉絲用ChatGPT證偽 , 最寵戳破了這件事 。
那么問題就來了 , ChatGPT在“DeepSeek被偽造道歉”事件中能夠成為事實核查工具的基礎 , 是它與DeepSeek使用了不同的訓練數據 。 用更通俗易懂的話來說 , 就是ChatGPT由于沒有被虛假內容污染 , 所以就導致它輸出了真正的事實 。 可如果OpenAI的爬蟲GPTBot抓取到了“DeepSeek向明星道歉”的內容 , 結果自然就會截然不同 。



當下 , 為了迭代出更智能的模型 , 所有AI廠商的爬蟲就如同饕餮般對于數據可謂是來者不拒 , 即使其中包含有毒的虛假內容 。 事實上 , 類似的操作已經成為了學術圈的毒瘤 , 即“引用農場”(citation farms) , 文章在一定時間內的被引頻次是衡量文章、作者和期刊影響力的重要標準 , 因此有腦筋靈活的作者就開始了“互相引用”的操作 , 把原本低質量的論文塑造成明星論文 。
當AI開始互相引用虛假內容時 , 用戶就遭殃了 , 在不同的AI產品眾口鑠金之下 , 假的也會成真 。 IETF此次工作的核心 , 就是盡最大可能避免AI生成的虛假、垃圾內容“回流”到互聯網中、成為訓練AI模型的新數據 , 并形成“垃圾進、垃圾出”的負向循環 。



IETF的做法是在HTTP文件中要求網站方面聲明AI模型名稱、模型提供者、校驗團隊、時間戳等信息 , 從而避免AI廠商的爬蟲抓取AI生產的內容 。 其實AI廠商也不愿意抓取AI內容 , 畢竟大家都怕垃圾內容污染自己的訓練數據 。 從某種意義上來說 , IETF的《AI內容披露標頭》草案與AI水印類似 , 作用就是從內容生產和傳播的源頭入手 , 為“AI生成”打上識別碼 。
相比技術難度極高的AI水印 , 讓網站主動披露內容是否由AI生成顯然更具可操作性 。 唯一的問題 , 就是IETF能約束網站嗎?答案是他們真的可以 。 作為負責互聯網標準制定與推廣的行業組織 , HTTP、 IPv6就都是IETF的結晶 , 用如今的互聯網是建立在IETF工作的基礎上其實也不為過 。

    推薦閱讀