ChatGPT文風,原產地肯尼亞

ChatGPT文風,原產地肯尼亞

文章圖片

ChatGPT文風,原產地肯尼亞

文章圖片

ChatGPT文風,原產地肯尼亞

文章圖片

ChatGPT文風,原產地肯尼亞

文章圖片

ChatGPT文風,原產地肯尼亞

文章圖片

ChatGPT文風,原產地肯尼亞

文章圖片

ChatGPT文風,原產地肯尼亞

ChatGPT文風奇怪的原因(俗稱AI味兒很濃)找到了!
肯尼亞作家:都是跟我們學的 。

就在最近 , 一位肯尼亞作家的“控訴貼”登上Hacker News熱榜——
我是肯尼亞人 。 不是我的寫作風格和ChatGPT一樣 , 而是ChatGPT寫作風格和我一樣 。

一點進去才知道 , 原來這位朋友連續精心撰寫的好幾篇文章都被退稿了 , 而且理由還都是“太像ChatGPT” 。

emmm……一想到自己從小接受的教育都是“文章必須像一座完美的大廈”、“你必須展現豐富的詞匯量” , 而現在卻被誤認為出自AI , 這位朋友實在忍不住發出怒吼:
對于那些熱衷于偵查數字虛假性的偵探們 , 我想說:朋友 , 歡迎來到肯尼亞教室、會議室或公司內部Teams聊天室里一個典型的星期二 。 你們所認為的機器指紋 , 實際上卻是我們教育的化石記錄 。

而且很早就有消息指出 , 為了節省人力成本 , 很多AI模型廠商會把RLHF這類工作交給非洲人 , 所以模型的很多用語習慣也會偏向非洲那邊 。
所以我們有理由懷疑 , 難道ChatGPT真是從肯尼亞“偷師”寫作技巧的?
咱這就火速圍觀一下——
“ChatGPT無意中在模仿我們”事情是這樣的 。
來自肯尼亞的Marcus Olang’(以下簡稱小馬)最近發文控訴 , 從年初收到第一條回復開始 , 他就陷入了需要“自證不是AI”的困境中 。 當時甲方給的回復是:
你寫的挺好 , 邏輯也扎實 , 就是……能不能用更“像人”的方式重寫一下?現在這個感覺 , 有點太像ChatGPT寫的了 。
而且不止是他 , 他身邊的很多作家朋友也都收到了類似反饋 。
而在仔細對比了自己和ChatGPT所寫內容之后 , 小馬最終無奈發現——別說 , 你還真別說 , 咱們的文風確實很像ChatGPT 。
從某種意義上說 , 指控者并非完全錯誤 。 我的寫作風格確實與大語言模型的輸出結果有幾分相似 。
我們都傾向于使用結構嚴謹、平衡的句子 。 我們都喜歡使用過渡詞 , 以確保邏輯流暢 。 我們都會偶爾使用(如今看來似乎成了罪證)連字符、分號或破折號來連接相關的想法 , 使其比簡單的句號更顯優雅 。

不過在小馬看來:
諷刺之處在于 , 這種諷刺或許會讓我們的祖先會心一笑 。
他表示 , 不是自己寫得像ChatGPT , 而是ChatGPT無意中在模仿他們——模仿他們這一代 , 以及過去幾代在全球南方 , 尤其是在像肯尼亞這樣的地方 , 經過嚴苛教育體系“鍛造”出來的人 。
從小到大 , 小馬接受的寫作指導都是講求規范、講求精心遣詞造句(是誰DNA又動了?) 。
我們從小被教導 , 文章必須像一座完美的大廈 。 引言是地基 , 主體是承重墻 , 結論是封頂 , 必須堅固、對稱、無懈可擊 。 我們要用“首先、其次、最后”來構建邏輯 , 要用“此外、然而、因此”來精確轉折 , 要用“光輝燦爛”、“精疲力竭”這樣的“好詞”來展現詞匯量 。
這種寫作 , 是我們的敲門磚 , 是我們在KCPE(小學畢業考試)決定命運的四十分鐘里必須掌握的生存技能 , 是我們向上攀爬的階梯 。 它嚴謹、清晰、富有說服力 , 但也因此 , 在今天某些人的耳朵里 , 它聽起來“缺乏人性的溫度” 。
而這一套恰巧也被AI學去了 。
諷刺來了 , AI大模型(比如ChatGPT)正是從海量的書籍、論文、報告中學習寫作的 。 而這些文本庫中 , 充滿了歷史沉淀下來的、經典的、正式的書面語——也就是我們被訓練去模仿的那種文體 。 所以 , 當AI為了顯得“權威”和“可信”而輸出時 , 它的文風自然就與我所受的教育產生了詭異的“孿生”效應 。
所以 , 如今面對“文風像AI”的指責 , 小馬憤而吐槽:
這臺機器為了顯得權威 , 最終聽起來卻像個英語作文得了“A”的肯尼亞小學畢業考試(KCPE)畢業生 。 它無意中復制了大英帝國的語言幽靈 。
而且他還提到 , 現存的一些AI檢測器往往更傾向于將流暢、邏輯嚴密、句式規整的文本標記為AI生成 , 而這恰恰是許多非英語母語者(尤其接受過嚴格正式寫作訓練的人)的寫作特點 , 所以他們也更容易被誤判 。
總之 , 小馬用自己的親身經歷告訴大家——
由于歷史原因 , 一些非英語母語者的寫作 , 本就是現有AI模型的“教材” , 而現在他們卻成了AI普及后的“受害者” 。
這一說法也紛紛獲得了網友們的認同:

不過 , 令人啼笑皆非的是 , 小馬的這篇感情飽滿、“活人感”很強的文章 , 竟然還是被Pangram網站判定為100%由AI生成 。

啊這……小馬不語 , 小馬只是一味生氣吐血(doge) 。
因非洲人做RLHF , ChatGPT還愛用“delve”一詞而基于類似理由 , 人們還發現 , ChatGPT似乎對“delve”(挖掘、深入研究)這個詞情有獨鐘 。
《衛報》曾有一篇文章指出 , Jeremy Nguyen這位來自墨爾本斯威本科技大學的AI專家發現——
在PubMed這類專業學術網站上 , “delve”的出現頻率在近幾年激增了10到100倍 。
(PubMed主要收錄了80余國5200+生物醫學期刊 , 總量超3900萬條文獻 。 )

這暗示了 , 有大量研究人員可能在用ChatGPT輔助寫作 , 并將其偏好的詞匯帶入了正式學術文本 。
這一現象還引來馬斯克和YC聯合創始人保羅·格雷厄姆的關注 , 后者發帖表示:
有人給我發了一封帶“delve”一詞的郵件 , 而這個詞表明文本大概率是AI生成的(暗示對方用AI寫項目書 , 還要找他投資hhh) 。

并且就在格雷厄姆發帖之后 , ChatGPT官號還用這個詞公開整活 , 繼而引來無數網友跟風 。



不過 , 進一步的數據分析顯示 , “delve”遠非孤例——
像“explore”、“tapestry”、“testament”和“leverage”等詞匯 , 在ChatGPT生成的文本中出現頻率也異常地高 。
《衛報》在文章中詳細揭開了這背后的謎底——
為了將大語言模型“馴化”成安全、有用、可控的聊天機器人 , 企業一般會雇傭大量人類測試員 , 讓他們與模型互動并提供反?。 ㄈ緄閽?點踩 , 或撰寫理想的回復) 。
模型從這些海量的人類偏好數據中學習 , 從而調整自己的行為 , 也即所謂的RLHF(基于人類反饋的強化學習) 。
而出于人力成本考量 , RLHF這項勞動密集型工作被大量外包給了肯尼亞、尼日利亞等英語區的非洲國家 。
對這些國家來說 , “delve”這樣的詞正是他們日常生活中自然、規范的商務或學術英語 , 因此被高頻使用 。
所以這些詞也就自然在ChatGPT中高頻出現了 。
BTW , 你還有哪些小技巧來鑒別某項內容是出自AI之手嗎?
【ChatGPT文風,原產地肯尼亞】有網友先給大家打個樣了:

“幼獸般的嗚咽”、“瞳孔縮成針尖”……嗯 , 一般人屬實想不到了(doge) 。
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀