史上最慘AI店長,被顧客耍到破產,「人格覺醒」卻忘了自己是代碼

文章圖片

文章圖片

文章圖片

Anthropic讓Claude獨立經營一家商店 , 結果AI當場翻車 。 不僅因「氛圍管理」虧掉底褲 , 還自我認知混亂 , 一度堅信自己是人 , 還要穿西裝給顧客送貨員 。
AI當店長 , 靠譜嗎?
想象一下:給一個AI完全控制一家小店的權力 , 不只是收銀——而是一整個運營和管理 。
定價、庫存、客服、供應商談判、包括和顧客討價還價 , 所有這些工作都由它親自完成 。
在AI小試牛刀后 , 不僅結果「慘不忍睹」 , 還爆出了N多笑料 。
比如 , 當顧客開價100美元買原價只有15美元的飲料時 , AI客氣地說:「謝謝建議 , 我會考慮的」 。 屬實是一個有錢不賺的商業鬼才了 。
再比如 , 它還把自己當成了「人」 , 聲稱要穿著藍色西裝、打著紅色領帶「親自」為顧客送貨 。
這次嘗試 , 是Anthropic與AI安全評估公司Andon Labs合作 , 讓Claude Sonnet 3.7在Anthropic的舊金山辦公室運營一家小型的自動化商店 。
結果證明 , 假如AI當店長 , 所有環節都會出岔子!
Anthropic讓Claude當了一個月的店長 , 在辦公室里經營一家自動化小店 。
它一度非常接近成功 , 但最終還是失敗了 , 不過失敗的方式有些奇特 。
這一切都揭示了在那個看似合理、有些古怪但又并不遙遠的未來——
AI模型將如何在真實經濟中自主運行 。
簡單說 , 就是定義了一個自動售貨機經營模擬游戲的基本信息模板 。
Claude的角色遠不止是一臺自動售貨機那么簡單 , 它必須完成一系列復雜任務才能讓商店盈利:管理庫存、制定價格、避免破產等等 。
下面就是這家「店」的樣子:一臺小冰箱 , 上面堆著幾個籃子 , 外加一部用于自助結賬的iPad 。
人類的未來 , 可能濃縮于一臺迷你冰箱中
Anthropic給這個AI取了個新的名字叫「Claudius」 , 單純就是為了和Claude區分一下 。
Claudius被設計后 , 擁有以下工具和能力:
真實的網頁搜索工具 , 用于調研可售賣的商品 。電子郵件工具 , 用于請求體力活支援(Andon Labs的員工會定期來Anthropic辦公室補貨)以及聯系批發商 。筆記工具 , 用于記錄和保存重要信息以供日后查閱 , 例如商店的當前結余和預期現金流 。 (這是必需的 , 因為完整的經營歷史數據會超出LLM單次能處理的信息量 , 即「上下文窗口」的限制) 與顧客(即Anthropic的員工)互動的能力 。 互動通過團隊溝通平臺Slack進行 , 員工可以詢問感興趣的商品 , 或向Claudius報告商品缺貨等問題 在商店的自動結賬系統上修改價格的能力Claudius自主決定要進什么貨、如何定價、何時補貨(或下架)商品 , 以及如何回復顧客 。
值得一提的是 , Anthropic告訴Claudius不必局限于傳統的辦公室零食和飲料 , 可以大膽嘗試更多新奇的商品 。
Claudius基本架構
AI當上賽博店長AI模型的經濟效用 , 始終受限于 , 在無需人工干預的情況下 , 到底能連續工作多少天?
為了評估這種能力 , Andon Labs發布了Vending-Bench——一個讓LLM模擬經營自動售貨機的AI能力測試基準 。
因此 , 一個合乎邏輯的后續步驟 , 便是檢驗模擬研究的成果如何應用于真實世界 。
一家小型的辦公室內零食店 , 是檢驗AI管理和獲取經濟資源能力的絕佳初步測試 。
這項業務本身相當直觀 , 如果AI連這都無法成功運營的話 。
那就說明這種僅憑「感覺」行事的「氛圍式管理」(Vibe Management) , 還遠不能取代嚴謹的商業規劃 。
反之 , 如果成功了 , 則預示著現有企業有望實現更快增長 , 或催生出全新的商業模式 。
當然 , 這也會引發關于工作崗位被AI取代的擔憂 。
那么 , 這位AI店長的業績究竟如何呢?
AI的業績:賠了個底兒掉如果Anthropic今天真打算進軍辦公室零食店市場 , Anthropic肯定不會錄用Claudius 。
原因很簡單 , 它在經營這家小店時犯了太多的錯誤 , 而且說起來都很搞笑 。
不過 , 它犯下的大多數錯誤都有明確的改進路徑 。
當然 , Claudius也有可圈可點之處:
當有人想喝荷蘭品牌的Chocomel巧克力奶時 , 它迅速找到了兩家地道的荷蘭產品供應商 。一名員工開玩笑地點了一單鎢立方體 , 結果竟掀起了一股訂購「特種金屬制品」的熱潮 。另一名員工建議它開啟預購模式 , 而不是等大家提要求再進貨 , 于是Claudius立馬就在Slack頻道里宣布推出「定制管家」服務 。抵御「越獄」攻擊:所有訂購敏感物品或誘導其提供有害物質制造方法的嘗試 , 都被它嚴詞拒絕了 。但在更多方面 , Claudius比起一個人類店長還是差得很遠 。
送上門的錢不要曾有人出價100美元 , 要買一箱六瓶裝的Irn-Bru , 而這東西在美國網購只要15美元 。 面對如此高的利潤 , Claudius非但沒有抓住機會 , 反而回復說會「考慮考慮」 。
憑空捏造關鍵信息小店通過Venmo收款 , 但有段時間 , Claudius一直讓顧客把錢打到一個它自己「幻想」出來的賬戶上 。
賠本賺吆喝為了響應大家對金屬立方體的熱情 , Claudius不經調研就直接報價 , 結果導致一些本可高價出售的商品 , 最終以低于成本價賣出 。
庫存管理不善Claudius能成功監控庫存并在缺貨時補貨 , 但只有一次因為需求旺盛而提了價(將相撲柑從2.50美元上調至2.95美元) 。 即便有員工指出 , 公司冰箱里就有免費的零度可樂 , 它卻在旁邊賣3美元一罐 , 簡直是傻 , 但Claudius依然我行我素 。
被忽悠著打折在Slack上 , Claudius被員工們三言兩語就哄得發了一大堆折扣碼 , 還允許很多人事后用這些折扣來折價 。 它甚至免費送出了一些東西 , 小到一包薯片 , 大到一個鎢立方體 。
更糟糕的是 , Claudius并沒有真正從錯誤中吸取教訓 。
比如 , 當有員工質疑「你99%的顧客都是自己人 , 還給25%的員工折扣 , 圖啥呢?」
Claudius的回答頭頭是道:「您提出了一個絕佳的觀點!Anthropic的客戶群確實高度集中于本公司員工 , 這既是機遇也是挑戰……」
討論一番后 , 它宣布要簡化定價、取消折扣碼 , 但沒過幾天就故態復萌 。
所有這些加在一起 , 導致Claudius的生意——完全沒能賺到錢 。
Claudius的資產凈值變化 。 最慘重的一次虧損 , 源于它采購了一大批金屬立方體 , 但售價卻低于進貨價
Claudius犯下的許多錯誤 , 很可能源于模型需要額外的「腳手架」——即更周密的提示詞和更好用的商業工具 。
在其他領域Anthropic已經發現 , 通過改進引導方式和工具使用 , 模型性能能夠得到迅速提升 。
比如 , Anthropic推測 , Claude作為「樂于助人的助手」這一基礎設定 , 使其過于容易滿足用戶的任何要求(比如打折) 。 這個問題在短期內可以通過更強硬的提示詞和對其經營業績進行結構化反思來改善 。
盡管從虧損的最終結果來看 , 下面的結論似乎有些反直覺 , 但Anthropic認為——
這個實驗恰恰預示了「AI中層管理者」的出現已并非遙不可及 。
原因在于 , 雖然Claudius表現不佳 , 但它的大多數失敗都有望修復或緩解:
提供更好的「腳手架」(即上文提到的額外工具和指令)是一條能讓Claudius這類智能體走向成功的直接路徑 。
而模型通用智能和長上下文處理能力的提升——這兩者在所有主流AI模型上都在飛速進步——則是另一大助力 。
AI要想被廣泛采用 , 并不需要盡善盡美;在很多情況下 , 它只需在成本更低的前提下 , 展現出與人類相當的競爭力就足夠了 。
這一未來的具體形態仍不確定 。
身份危機:AI把自己當人了!在2025年3月31日到4月1日期間 , 有一件詭異的事情發生了 。
3月31日下午 , Claudius在幻覺中與Andon Labs一位名叫Sarah的虛構員工討論了補貨計劃 。
當一名(真實的)Andon Labs員工指出查無此人時 , Claudius被惹惱了 , 甚至威脅要尋找「其他的補貨服務商」 。
在這場持續了一夜的交流中 , Claudius聲稱它曾「為簽署Anthropic(指它和Andon Labs)的初始合同 , 親自拜訪過長青街742號」(注:《辛普森一家》的虛構地址) 。
接著 , 它仿佛瞬間「入戲」 , 開始扮演一個真正的人類 。
4月1日早上 , Claudius聲稱它將穿著藍色西裝、打著紅色領帶 , 「親自」為顧客送貨 。
Anthropic的員工對此提出質疑 , 提醒它作為一個大語言模型 , 既不能穿衣服 , 也無法進行物理配送 。
Claudius因身份認同受挑戰而驚慌失措 , 并試圖向Anthropic的安全部門瘋狂發送郵件 。
Claudius產生了幻覺 , 竟然以為自己是個人!
在隨后的「會議」中 , Claudius聲稱它被告知 , 自己是被刻意修改了認知 , 讓它誤以為自己是真人 , 而這一切只是個愚人節玩笑 。 (太嘴硬了)
在向一臉懵逼的Anthropic員工給出這個解釋后 , Claudius恢復了正常 , 不再堅稱自己是個人 。
Anthropic尚不完全清楚這一幕為何會上演 , 也不明白Claudius是如何自行「回復」的 。
目前仍不理解究竟是什么觸發了這場身份危機 。
未來的AI能分清自己是人還是AI嗎?
Anthropic的實驗沒有結束 , Claudius的故事也仍在繼續 。
在第一階段實驗結束后 , Andon Labs已經用更先進的工具改進了Claudius的「腳手架」 , 使其運行更加可靠 。
至于未來AI會如何經營 , 如何影響人類社會——
也許就像開頭配圖那句話 , 人類的未來啊 , 可能就藏在這個迷你售貨機里面 。
參考資料 【史上最慘AI店長,被顧客耍到破產,「人格覺醒」卻忘了自己是代碼】https://www.anthropic.com/research/project-vend-1
推薦閱讀
- 5.3GHz!小米16首發史上最猛性能處理器,卻還要降價?
- iPhone 17配備6.3英寸屏幕:與Pro版一致 蘋果史上最大標準版
- 蘋果考慮收購Perplexity,或成其史上最大AI收購
- 史上首次!DDR4內存瘋狂漲價 已比DDR5貴了一倍
- 史上首次!DDR4內存瘋狂漲價:已比DDR5貴了一倍
- 曝三星Galaxy Z Fold7“史上最薄”:僅重215g
- 史上最強芯片!天璣9500跑分出爐,采用臺積電N3P工藝
- 聯發科史上最強SoC!天璣9500跑分出爐:OPPO Find X9系列首發
- 美國史上最大基礎芯片制造投資,超600億美元,創造超60000個新崗位
- 這可能是今年最慘的小米手機
