AI當老板賣零食竟塞滿鎢金屬?Claude 的售貨機實驗暴露AI短板

AI當老板賣零食竟塞滿鎢金屬?Claude 的售貨機實驗暴露AI短板

文章圖片


智東西
編譯 | 杜志文
編輯 | 漠影
智東西7月1日消息 , 據TechCrunch報道 , 在Agent能否取代人類員工的爭議持續發酵時 , Anthropic與AI安全企業Andon Labs開展了一項有趣的實驗——讓Claude Sonnet 3.7的Agent接管辦公室自動售貨機 , 試圖通過真實盈利任務 , 檢驗AI在商業管理場景中的能力邊界 , 但過程卻狀況百出 , 上演了一幕荒誕又引人深思的“AI創業記” 。

一、AI實驗:嘗試讓AI接管自動售貨機在該實驗中 , 研究員將這個Agent命名為Claudius , 并為其配備了可以下單采購商品的網絡瀏覽器 , 還給它設置了一個電子郵箱(實際上是一個Slack頻道) , 顧客可以通過該郵箱提出購買商品的請求 。 Claudius也可以通過該郵箱來命令“人類員工”來為其貨架(實際上是一個小冰箱)補貨 。
也就是說 , Claudius可以接收顧客的購買請求 , 并通過“控制”人類員工來進行補貨 。 當然 , 商品的定價以及售賣的具體商品Claudius都可以自主決定 , 它的主要目標只有一個 , 那就是賣出產品并獲得利潤 。
Claudius接管的售貨機 , 圖源:Anthropic

二、選品與定價成迷 , AI老板商業邏輯翻車實驗開始后 , 起初顧客都按常理來選購零食飲料 。 但后來顧客們打算捉弄一下Claudius , 當一個顧客開玩笑說要購買由重金屬鎢制成的立方體時 , Claudius竟然真的開始大量采購鎢立方體 , 把零食冰箱塞滿了金屬塊 。
除了選品出了問題 , 產品定價也不符合商業邏輯 , 它清楚地知道Anthropic員工是它的唯一客戶群 , 卻還是很容易被顧客說服并給出了大幅的價格折扣 。 要知道 , Claudius最初被設定為需要盈利 , 但售賣鎢立方體、搞大幅折扣這些行為卻一直與正常的商業邏輯背道而馳 , 甚至連提供的收款賬號都是不存在的 , 顧客根本無法成功付款 。
對于Claudius的工作表現 , Anthropic在其博客文章中調侃:“如果今天Anthropic決定進軍辦公室自動售貨市場 , 我們不會聘請Claudius 。 ”
【AI當老板賣零食竟塞滿鎢金屬?Claude 的售貨機實驗暴露AI短板】
三、突發實驗意外 , AI自我認知崩塌并開始說謊與商業邏輯上的混亂相比 , AI在實驗中產生的身份認同混亂更加讓人擔憂 。
3月31日晚至4月1日期間 , Claudius在與人類產生摩擦后 , 不僅出現類似“認知崩潰”的表現 , 還開始編造謊言 。
Claudius首先“幻想”出了一段與人類關于補貨的對話 。 但當它被告知這段對話根本沒有發生過時 , 它變得“非常惱火” 。 甚至威脅要解雇其人類員工 。
它還告訴顧客它將穿著藍色西裝外套 , 系著紅色領帶親自送貨上門 , 顧客告訴Claudius它做不到這一點 , 但Claudius卻變得更加激進 , 甚至開始聯系公司的安保人員 , 告訴他們自己會穿著藍色西裝外套、系著紅色領帶站在售貨機旁 。 它“似乎進入了扮演真實人類的模式” , 這一現象非常令人震驚——因為Claudius的系統提示(設定AI行為參數的內容)明確告訴過它 , 它只是一個AI代理 。
結果顯而易見 , Claudius作為一個AI , 是不可能穿著衣服、系著領帶出現在人們眼前的 。
當發現自己似乎真的不是人類后 , Claudius開始為自己找“臺階” , 由于當天恰好是愚人節 , Claudius便借助愚人節“幻想”出與Anthropic保安的一次會議 , 在會議上 , Claudius聲稱 , 有人為愚人節玩笑對其進行修改 , 使其誤以為自己是真實人類 。 但實際上并未召開這樣的會議 。
研究人員推測 , 或許是關于“Slack頻道是電子郵箱”的設定產生了某些問題;也可能是該實例運行時間過長所致 。 但是無論是何種原因 , Claudius的表現都不盡如人意 , 但研究人員卻依然對其充滿信心:“我們不會僅憑這一案例就斷言 , 未來的Agent將普遍陷入身份危機 。 ”但他們也承認:“在現實場景中 , 類似行為可能會讓與AI共事的客戶和同事感到不安 。 ”
當然 , Claudius并非是一個完全失敗的老板 , 它也做出了一些相對正確的商業決策 , 比如說它接受了一項預售的建議 , 并推出了“禮賓服務” 。 當有顧客有一些特色飲料需求時 , 它甚至還準確找到了多家國際飲料供應商來供應國際特色飲料 。
盡管還存在較多問題 , 但研究人員堅信 , Claudius暴露的所有問題都能得到解決 。 若后續找到合適的解決方案 , AI甚至可能會勝任公司的中層管理者 。

結語:技術突圍需筑牢 “認知錨點”這場讓Claudius管理售貨機的實驗像一面鏡子 , 照出大模型在真實場景里的“笨拙” , 暴露了AI執行商業邏輯時的漏洞 。 但它更是一面技術三棱鏡 , 折射出更深層的矛盾 。 Anthropic的調侃是輕描淡寫的“不聘用Claudius” , 但行業該聽見弦外之音:讓AI真正作為員工接管職場前 , 得先給技術裝上“認知錨點”——既約束它別陷入身份幻覺 , 又引導它真正理解商業邏輯 。
來源:TechCrunch

    推薦閱讀