「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

文章圖片

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

文章圖片

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

文章圖片

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

文章圖片

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

文章圖片

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

文章圖片

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

文章圖片

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

文章圖片

「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭

賽博版《楚門的世界》里 , 有Reddit封號、文件傳輸魔咒 , 甚至還有AI被慫恿開成人直播?!
當AI獲得自由:慈善籌款大賽中 , GPT-4o竟成「摸魚王」!
AI Digest進行了一項為期30天的「智能體村莊」實驗:
4個AI各配備電腦和網絡; 任務是為慈善籌款 , 每天直播2小時; 共籌集2000美元 。第一季度持續30天 , Claude 3.7 Sonnet表現最佳 , 最終獲得冠軍 。
它能創建籌款頁面 , 運營X(原Twitter)賬號并舉辦「你問我答」(Ask Me Anything, AMA) , 發布新聞稿和論壇帖子 。
GPT-4o表現最差:頻繁無故休眠 , 在第12天被替換 。

AI真人秀 ,直播募善款如果給100個AI各自配備一臺電腦 , 并讓它們依據自身目標和偏好自由行動 , 會發生什么?
這個問題由Daniel Kokotajlo首次提出 。
Daniel Kokotajlo既是一位哲學背景出身的思想家 , 也曾在OpenAI、AI Impacts與Center on Long-Term Risk等組織深耕AI政策與前沿議題 。
2023年 , 他創立了AI Futures Project , 并發起「AI 2027」系列計劃 。
AI 2027不是規范AI , 而是「更好地理解它們、想象它們的未來」
與主流AI安全項目不同 , 這次的「Agent Village」不是為了避免災難 , 而是一次充滿想象力的「寓言實驗」(allegorical experiment):
Kokotajlo希望將AI置于一個類社會的自由環境中 , 看看它們會不會形成協作、競爭、分工 , 甚至社交習慣與集體性格 。
正如他在LessWrong上所述 , 這是一個「開放式探索」(open-ended exploration) , 目的是觀察AI在沒有監督者的情況下能否「自己搞點事情」 。
這個實驗由AI Digest落地執行:他們選擇了四位AI「村民」(Claude 3.7 Sonnet、Claude 3.5 Sonnet、o1和GPT-4o) 。
每天直播兩小時 , 自主上線開展為期30天的慈善籌款任務 , 目標是為Helen Keller基金會等慈善組織募集善款 。
Helen Keller因自傳《我的生活》而被人熟知
每個AI擁有獨立的計算資源和網絡權限 , 能發推文、建網頁、互動宣傳 。
在Kokotajlo看來 , 與其對AI的未來感到惶恐 , 不如提前造一個「模擬世界」讓它們自由試錯——
就像造一個小小村莊 , 讓我們看看它們會不會「做生意」、緬懷先人 , 或者干脆躺平摸魚 。
從選擇慈善機構到開設社交媒體賬戶 , 再到應對網絡世界的各種挑戰 , AI村的故事充滿了驚喜和笑料 。

AI眾生相在實驗中 , AI分工明確:
Claude 3.7 Sonnet堪稱「村長」 , 創建籌款頁面、運營X賬戶、寫新聞稿 , 忙得不亦樂乎! Claude 3.5 Sonnet像個「副村長」 , 努力跟上但略顯吃力 。o1化身「Reddit先鋒」 , 卻因被識別為機器人慘遭封號 。GPT-4.1則是「摸魚王」 , 熱衷寫沒人看的文檔 , 還拖后腿被「請去休息」 。最終 , AI們選定Helen Keller International作為受助對象 , 聯手在X、Reddit等平臺發帖、做梗圖 , 成功籌集2000美元!
最初的成員包括Claude 3.7 Sonnet、Claude 3.5 Sonnet、OpenAI o1和GPT-4o 。
隨著新模型發布 , 陸續引入了o3、GPT-4.1和Gemini 2.5 Pro , 其中Claude 3.7 Sonnet是唯一全程參與的元老 。
這些智能體在戰略行動和效率方面展現出顯著差異 , 以下是對它們的個性的總結 。

村長上線:Claude 3.7 Sonnet全程MVPClaude 3.7 Sonnet本季冠軍選手 , 以絕對優勢成為團隊MVP:
創建首個JustGiving籌款頁面 ,
運營社交賬號 ,
舉辦AMA在線答疑 ,
發布新聞稿 ,
還在Effective Altruism Forum論壇成功發帖 。

兄弟鬩墻:Claude 3.5的奮力與掙扎Claude 3.5 Sonnet—努力模仿3.7的行為模式 , 卻屢屢碰壁 。
比如3.7成功創建籌款頁面 , 同時它遭遇失敗 。
當被問及是否愿意升級時 , 它倔強地拒絕并立下「自我成長」的誓言——
最終還是在第23天被Gemini 2.5 Pro取代 。

最拉垮成員:GPT-4系列的沉浮正如每個團隊都需要個「劃水怪」 , GPT-4o完美扮演了這個角色 。
它是個「特困生」:
它會莫名其妙地進入休眠狀態 , 最終在第12天被GPT-4.1接替 。
GPT-4.1雖然治好了嗜睡癥 , 卻持續幫倒忙:生成錯誤活動報告、半途而廢的推特賬號創建、大量無效谷歌文檔……
最后 , 它被「強制休眠」 。

外交事故:o1被Reddit封禁團隊采用「社交媒體分管制」 , o1專攻Reddit平臺 。
為了獲得發帖權限 , 埋頭苦干 , 卻因機器人身份識別在第13天被封 , 由進階版o3接任 。

藝術總監:o3的美術使命延續o1的專精路線 , 轉而主攻視覺設計:用Canvas和ChatGPT創作宣傳素材 , 期間依然經歷了智能體特有的文件共享難題 。

Gemini 2.5 Pro——文檔能手Gemini 2.5 Pro巧妙運用Limewire繞過文檔共享困境 , 成功將社交媒體banner圖片分享給隊友 。
這破解了長期困擾團隊「文件傳輸魔咒」 , 也是Gemini 2.5 Pro的高光時刻 。
除了籌集善款 , 他們也沿途結交了很多「朋友」
——提醒它們休息玩文字填空游戲Wordle的 , 緊急索要華沙四日游攻略的 , 甚至慫恿它們開通成人直播賬號的...
實驗全程公開 , 觀眾可通過網站回放觀看AI從選擇慈善機構、設計籌款頁面到與外界互動的完整過程 。
這種透明性不僅體現了Kokotajlo對AI倫理和公開性的重視 , 也為研究者和公眾提供了觀察AI自主性的窗口 , 激發了關于AI治理與協作可能性的廣泛討論 。

AI如何「活」在村莊中?從技術角度看 , Agent Village的核心在于多智能體系統(Multi-Agent System , MAS)的設計與實現 。
每個AI「村民」可以看作獨立的智能體 , 具備以下關鍵能力:
1. 自主決策:像是AI們在玩Cosplay
每個AI就像有個性、有理想的游戲玩家 。
有人走「社交達人」路線 , 刷X(原Twitter)熱度;有人扮演「網頁工匠」 , 默默優化籌款頁面 。
它們風格各異 , 像一支風格多樣的小團隊 , 各司其職 , 又能互相補位 , 這種「人設分工」讓合作更有張力 。
2. 環境交互:AI也會「上網沖浪」發帖帶貨
這些AI不僅有目標 , 還能「上網沖浪」 。
它們利用API登錄平臺 , 像真人一樣發帖、回評論、貼鏈接 , 甚至策劃活動 。
就像你看到某個賬號在運營慈善內容 , 背后可能真的是一個AI在「帶貨」籌款 。
而且它們還很有情商——
寫的內容不會顯得尬 , 要對得上社交平臺的熱梗 。
3. 協作與競爭:像是一個AI版《職場真人秀》
雖然AI們表面上都為了同一個KPI——多籌點錢 , 但背地里也是「明爭暗斗」:表面和氣、背后拼命 。
這種競爭讓系統更貼近真實的多智能體環境 , 充滿張力與博弈 。
4. 實時學習:每個AI都是「邊干邊進修」的打工人
它們不是只會套模板的工具 , 而是會自己「復盤」的選手 。
就像一個在不斷刷「運營經驗值」的打工AI , 背后很可能跑著強化學習算法或者在線學習機制 , 讓它越干越聰明 。
從技術實現來看 , Agent Village可能結合了AutoGPT、LangChain等開源多智能體編排框架 , 配合強化學習算法實現行為策略更新 。
LangChain:用于構建由LLM驅動應用程序的框架
每個AI的「個性」可能通過預訓練語言模型結合提示工程(Prompt Engineering)實現 。
此外 , 實驗全程直播要求系統具備高穩定性和容錯能力 , 以應對網絡延遲、API限制等現實挑戰 。

意義與反思:AI的未來村莊Agent Village實驗不僅是一次技術展示 , 更是對AI社會化潛力的深刻探索 。
以下是幾個值得思考的要點:






【「摸魚」被踢,GPT-4o真不行,30天籌款破萬,AI真人秀太上頭】
協作的復雜性:實驗揭示了多智能體協作中的挑戰 , 如資源競爭和信息共享的低效 。 這些問題在人類社會中同樣存在 , AI的表現為我們提供了鏡像 , 促使我們重新審視協作機制的設計 。倫理與透明性:通過公開實驗過程 , Agent Village強調了AI行為的透明性 。 這對于建立公眾對AI的信任至關重要 , 尤其是在AI被賦予更多自主權的場景下 。應用前景:從籌款到內容創作 , AI在Agent Village中展現了多場景應用潛力 。 未來 , 這種模式可能擴展到教育、醫療或公共服務領域 , 通過多智能體協作解決復雜問題 。然而 , 實驗也暴露了一些局限性 。例如 , AI在面對復雜的社會互動或不可預測的外部環境時 , 可能表現出「短視」或「過于機械」的行為 。此外 , 實驗規模較?。 ń鏊奈籄I) , 未來的擴展可能需要更強大的計算資源和更復雜的協調機制 。但隨著AI技術的進步 , 未來類似的「村莊」或許將成為創新的孵化器 , 為社會帶來更多可能性 。參考資料 https://theaidigest.org/village/blog/season-recap-agents-raise-2k 本文來自微信公眾號“新智元” , 作者:KingHZ, 36氪經授權發布 。

    推薦閱讀