你刷抖音小紅書不會變笨,但你的 AI 會

你刷抖音小紅書不會變笨,但你的 AI 會

文章圖片

你刷抖音小紅書不會變笨,但你的 AI 會

文章圖片

你刷抖音小紅書不會變笨,但你的 AI 會

文章圖片

你刷抖音小紅書不會變笨,但你的 AI 會

文章圖片

你刷抖音小紅書不會變笨,但你的 AI 會

文章圖片


好消息:AI 越來越好用了 。
壞消息:越用它越笨 。
無論是哪家 AI 廠商 , 現在都會在「長期記憶」「超長上下文儲存」等方面下功夫 , 這樣才能讓用戶用起來順手、順心 。 不過 , 最近一項研究發現 , AI 未必就能越用越懂你、越用越聰明 , 還可能往反方向跑偏 。

AI 也會認知退化?還不可逆?研究者們用開源模型(如 LLaMA 等) , 做了一個小但精巧的實驗 。 他們不是簡單地在訓練數據里混入一些錯別字 , 而是想要模擬人類那種「無休止地刷著低質量、碎片化內容」的互聯網生活 , 并用「持續預訓練」(Continual Pre-training)的方式來模擬模型的長期暴露 。
為了實現這個目標 , 他們從真實的社交媒體平臺上篩選了兩種「垃圾數據」 , 一種是「參與度驅動型垃圾」 , 也就是那些短平快、高人氣、點贊和轉發爆炸的帖子 , 類似于我們刷手機時那些只為博眼球的「流量密碼」 。
另一種是語義質量驅動型垃圾 , 那些充斥著「震驚」、「細思極恐」、「xxx 不存在了」這種夸張、聳動字眼的內容 。 他們將這些垃圾語料以不同的比例混合 , 持續喂食給模型 , 模擬劑量對「腦腐爛」的影響 。
隨后 , 他們讓好幾個大語言模型持續地、長時間地被投喂這些垃圾 , 作為訓練語料 。 再用一系列基準測試來衡量 LLM 的「認知功能」 , 包括推理能力、長文本理解能力、安全性和道德判斷 , 等等 。
結果是:全面完蛋 。 模型的推理能力和長文本理解力出現了斷崖式下跌 , 在處理復雜的邏輯推理任務和長篇幅內容時 , 表現出明顯的退化 。
當垃圾數據的比例從 0%提升到 100%時 , 模型的推理準確率急劇下降 。 這反映出模型越來越「懶得思考」 , 也越來越「記不住事」 。
到底是什么原因呢?研究者深入分析后 , 發現了一個主要病灶:Thought-Skipping 。
原本 , 一個優秀的 LLM 在解決復雜問題時 , 會生成一步步的中間推理過程;但在被「垃圾」腐蝕后 , 模型開始跳過這些中間步驟 , 直接給出一個粗糙的、可能是錯誤的答案 。
就像一個原本邏輯縝密的律師 , 突然變得浮躁、敷衍 , 不再提供論證過程 , 而是隨口丟出一個結論 。
甚至 , 評估發現 , 模型在安全和倫理方面的表現也下降了 , 更容易屈服于負面 prompt , 逐漸「黑化」 。
這說明 , 當模型持續接觸碎片化、煽動性的低質量文本時 , 它不僅能力下降 , 連「三觀」也開始向互聯網的平均值 , 甚至是「陰暗面」靠攏 。
如果說這項研究里什么最讓人倒吸涼氣 , 恐怕就是整個過程的不可逆性 。
研究員試圖在中途進行補救 , 重新投喂了大量高品質的數據 , 還做了指令微調 。 但即便如此 , 模型的認知能力也無法完全恢復到最初的基線水平 。
也就是說 , 垃圾數據已經從根本上改變了模型處理信息、構建知識的底層結構 , 這就像一塊海綿被污水泡透了 , 即便再用清水清洗 , 也無法回到最初的純凈狀態 。

橫掃「腦腐」 , 用好 AI可是話說回來 , 這畢竟是實驗 , 一個普通用戶的「破壞力」應該不至于吧 。
的確 , 沒有人會故意給自己的 chatbot 喂垃圾數據 , 還如此大量高頻 。 不過 , 這個實驗的數據來源 , 正是社交媒體平臺 。
識別、抓取和總結社交媒體內容 , 是大模型產品的常見工作之一 。 有些人用它來幫忙 , 省下自己刷社交媒體的時間;有些則是為了更密切地發現信息 , 以免熱點都涼了才看到 。
這個實驗恰恰反映了 , 模型在勤勤懇懇抓取內容的時候 , 自身暴露在了退化的風險當中 。 而這一切 , 用戶都不會看到 。
于是在不知不覺中 , AI 被投喂了垃圾 , 生成了垃圾 , 你使用了垃圾 , 垃圾再進入互聯網 , 用于下一輪訓練 , 周而復始 , 陷入惡性循環 。
這項研究最深刻的價值 , 在于它顛覆了我們對 AI 互動的傳統認知:以前我們總覺得 AI 像一個等待填滿的容器 , 輸入什么都能消化 。 但現在看來 , 它更像一個敏感的孩子 , 對輸入食物的質量非常挑剔 。 作為日常用戶 , 我們與 AI 的每一次對話 , 都是在進行一次「微調」 。
既然知道「思考跳過」是主要的病灶 , 那么我們日常使用 AI 時 , 就必須主動要求它進行「反向操作」 。
【你刷抖音小紅書不會變笨,但你的 AI 會】首先要做的 , 就是警惕那些「完美的答案」 。 不管是要求 AI 總結一個長文章 , 或者寫一份復雜的項目方案時 , 如果它只給出的結果 , 卻沒有顯示任何邏輯依據和推理過程(尤其是在支持思維鏈的情況下) , 就要多留個心眼 。
相比于讓它反復調整結果 , 不如問一問它推理過程 , 「請列出你得出這個結論的全部步驟和分析依據」 。 強迫 AI 恢復推理鏈條 , 不僅能幫你驗證結果的可靠性 , 也是在防止它在這次任務中養成「偷懶」的壞習慣 。
另外 , 對于那些基于社交媒體的工作任務 , 要格外小心 。 基本上要把 AI 當個實習生 , 它能力或許很強 , 但是不夠踏實靠譜 , 必須得有二次審核——實際上 , 我們的核查和糾正是極其寶貴的「高質量輸入」 。 不管是指出「這里的數據來源是錯的」 , 還是「你跳過了這個步驟」 , 都是在對模型進行一次有價值的微調 , 用高質量的反饋去抵抗互聯網中的垃圾信息 。
這項研究比較讓人摸不著頭腦的地方在于:難道要讓 AI 少處理混亂的文件嗎?這豈不是本末倒置?
確實 , 如果為了避免 AI 可能出現的腦腐癥狀 , 而只讓它處理結構化程度更高的數據 , 那 AI 的價值就少了一半 。 我們使用 AI , 恰恰在于處理那些混亂的、充滿重復句和情緒化表達的非結構化數據 。
不過還是可以平衡一下 , 繼續讓 AI 執行信息整理工作 , 只不過在 AI 面對低質量輸入前 , 就給 AI 更清晰的指令 。
比如 , 「總結這份聊天記錄」 , 容易讓 AI 悶頭只出結構 。 而更細化的「將這份聊天記錄進行分類處理 , 識別對話人物 , 去除口癖和連接詞 , 再提煉出客觀信息」 , 就在強行促使 AI 先思考一輪 , 整理出內部行動指南 , 再展開工作 。
用戶不是不能用 AI 處理垃圾數據 , 畢竟這是它最能發揮的地方 。 只不過 , 為了降低 AI「腦腐」的風險 , 要用結構化的指令和高質量的反饋 , 將 AI 變成一個高效的「垃圾處理和凈化器」 , 而不是讓它被垃圾信息同化 。
#歡迎關注愛范兒官方微信公眾號:愛范兒(微信號:ifanr) , 更多精彩內容第一時間為您奉上 。
愛范兒|原文鏈接· ·新浪微博

    推薦閱讀