死掉的創業公司,成了AI最搶手的訓練數據

死掉的創業公司,成了AI最搶手的訓練數據

文章圖片


一家做了 13 年的字幕轉錄公司 , 關門時靠賣內部 Slack 存檔、Jira 工單和郵件 , 給創始人換回了“幾十萬美元” 。 這家叫 cielo24 的公司 , 原本擔心付不上最后一筆賬單 , 最后卻借此得以干凈收尾 。

過去一年 , 硅谷有一批倒閉或正準備倒閉的創業公司 , 都在用這種方式重新估價:不按現金 , 不按代碼庫 , 也不按還能再賣的辦公家具 , 而是按它們留下的一整套數字履歷 , 比如 Slack 存檔、Jira 工單、內部郵件、Confluence 頁面、Google Drive 里的工作文檔 。 買家是 AI 實驗室 , 用途是訓練下一代能替人干活的 agent 。

在短短一年多的時間里 , 這樣一條從清算到訓練的產業鏈迅速形成 。 上游是倒閉的公司 , 中游是幫它們關廠順便打包數據的清算掮客 , 下游是把這些碎片加工成模擬辦公室的新型 AI 創業公司 , 最終流向 Anthropic 和 OpenAI 這兩個最大的買家 。 每一層玩家都已就位 , 每一筆交易都已有標價 。

專門打掃戰場的人

在這條鏈條的中游 , SimpleClosure 和 Sunset 是兩家比較有代表性的公司 , 它們都是 2023 年成立的美國創業公司 。

SimpleClosure 由以色列連續創業者 Dori Yona 和 Nimrod Ram 聯合創立 。 Yona 的上一家公司 Earny 是個消費級金融返現應用 , 用戶做到 350 萬 , 累計融資 1400 萬美元 , 2021 年被私下出售 。


圖丨Dori Yona 和 Nimrod Ram(來源:SimpleClosure)

關掉 Earny 的經歷讓 Yona 意識到美國沒有“關廠 SaaS”這個品類 , 而處理相關業務的律所和會計師事務所收費 7 萬美元起 , 流程要拖 6 到 12 個月 。 SimpleClosure 的定位是“關廠版 TurboTax” , 把這件事壓縮到幾周、幾千美元 。

Fast Company 的數據顯示 , SimpleClosure 2024 年一年處理了超過 500 家公司的關廠手續 , 累計融資約 550 萬美元 , 主要渠道合作方是 Stripe Atlas 和 Carta , 后兩者本身就是硅谷創業公司從注冊到發薪的基礎設施 , 能精準把關門中的客戶導過來 。

Sunset 的創始人 Brendan Mahony 和 Grant Rheingold 都是 YC 系出身 , 本人就趟過關廠的坑 。 Mahony 自己 2017 年創立的玩具公司 Toybox 走的是 YC 路徑 , 2020 年被收購;緊接著第二家公司 Contrast 做不下去 , 他花了半年多親自走完清算流程 。 那次經歷讓他決定 2023 年開做 Sunset 。

Sunset 后來和 Acquire.com 達成合作 , 后者是硅谷最大的創業公司并購撮合平臺 , 大量“收購”實際是資產收購(acquihire) , 交易完成后還需要清算留下的法律實體 。 Sunset 順勢接下這塊單子 , 形成“被收購+留殼清算的閉環業務 。

數據交易是兩家公司在過去一年才加上的新業務線 。 據 Forbes 報道 , SimpleClosure 過去一年做了“近 100 筆”這類交易 , 每筆報價在 1 萬到 10 萬美元區間 , 累計為創始人回收超過 100 萬美元 。 定價主要看“數據豐度” , 比如一張 Jira 工單如果能追溯到具體一次代碼提交、一條 Slack 討論、一次 PR review , 價值會遠高于一份孤立的 Word 文檔 。 醫療和金融的數據有溢價 。

Yona 本周正式推出了一個叫 Asset Hub 的新產品 , 把 SimpleClosure 過去零散做的數據撮合正式產品化 , 創業公司關門時可以把代碼、域名、IP、設備 , 連同 Slack 存檔、郵件、內部文檔一起掛上去交易 。 Asset Hub 里關于數據的那一欄目前還在 beta , Yona 給的理由是脫敏 。

10 億美元在買什么

SimpleClosure 每筆 1 到 10 萬美元的定價 , 上限由鏈條末端的買家決定 。 The Information 在 2025 年 9 月披露 , Anthropic 管理層討論過在未來一年里拿出 10 億美元投入強化學習環境(RL environments , 更通俗的叫法是 RL gyms) 。 OpenAI 這邊 , 2025 年全年數據開銷約 10 億美元 , 內部預測到 2030 年將漲到 80 億美元 。

簡單而言 , RL gym 做的事情就是搭一個“虛擬辦公室” , 把 Salesforce、Slack、Gmail、Excel、Jira 等主流企業軟件的界面和交互邏輯復刻出來 , 讓 AI agent 在里面反復練習 。 SemiAnalysis 2026 年 1 月盤點過這條賽道 , 已有名字可查的就有十幾家:Habitat、DeepTune、Fleet、Vmax、Turing、Mechanize、Preference Model、Bespoke Labs、Veris.ai、HUD , 多數是不到 20 人的種子輪團隊 , 服務 1 到 3 家 AI 大客戶 , 總數估算約 50 家 。

一些頭部團隊的估值增長速度驚人 。 例如由 Andrej Karpathy、Founders Fund 和 Menlo Ventures 等支持的 Prime Intellect 此前就構建了一個開源社區版 Environments Hub , 對標“RL 環境界的 Hugging Face” , 2025 年秋季估值已過 10 億美元 。 Mechanize 走相反的路數 , 小而精 , 給軟件工程師開 50 萬美元年薪專職造環境 , 已經是 Anthropic 的合作方 。

AfterQuery 是 Y Combinator 2025 年冬季批次的畢業團隊 , 最近拿下 Altos Ventures 領投的 3000 萬美元 A 輪 , 估值 3 億美元 , ARR 過了 1 億 , 主打產品是一系列起名叫“Big Tech World”“Finance World”“Tax World”的模擬公司世界 。

還有更早動手的是數據標注公司 Turing , 過去一年里已經建了超過 1000 個 RL 環境 , 包括 Airbnb、Zendesk、Microsoft Excel 的像素級復刻 。 據 SemiAnalysis 的統計 , 單個“UI gym”均價約 2 萬美元 , OpenAI 過去一年里買了數百個 , 一次性買斷 , 復用在之后所有代際的模型訓練上 。 數據標注老牌玩家也都擠了進來 。

估值 100 億美元的 Mercor 最近也在向投資人推銷它的 RL 環境業務 , 客戶包括 OpenAI、Meta、Anthropic;2024 年營收 12 億美元的 Surge 成立了專門的 RL 環境部門 , CEO Edwin Chen 對 TechCrunch 說過去幾個月需求“顯著增長” 。

在這套供應鏈里 , 倒閉公司的數據處于最底層 , 它們是最快、最便宜、最真的原材料 。 自己從零搭一個帶真實項目軌跡的 Slack 克隆要花幾十人月;從一家倒閉公司那里買一份現成的、帶完整協作上下文的存檔 , 是更劃算的起點 。

AfterQuery 的訓練題庫的一道任務可以幫我們理解這一點 。 在該任務中 , AI agent 被布置去給一個叫 Bob 的同事策劃生日 party 。 它并不知道另一個同事也在張羅同一件事 , 也忘了 Bob 到底哪天生日 。 要拿到通關分 , 它得主動給其他員工發消息、在信息不全的情況下推理、決定是合流還是另起爐灶 。

這種任務對應的正是 AI 實驗室最想訓練的那類能力:在一個信息不全、多方利益、工具分散的日常辦公里 , 把一件瑣碎的小事推動到閉環 。 Dario Amodei 2025 年 5 月公開說過 , 未來 1 到 5 年 AI 可能消滅掉美國一半的初級白領崗位 。 而替代那些崗位的能力 , 有相當一部分就在從 cielo24 這類公司的數據殘骸里被訓練出來 。

那個“脫敏開關”并不存在

盡管發展迅速 , 但這條產業鏈目前依然面臨著隱私等敏感問題 , 這也是 Yona 把 Asset Hub 的數據交易板塊留在 beta 階段的原因 。

員工的數據并不能只靠簡單的“抹掉姓名”就能避免暴露風險 。 一個人的名字可以替換成任何符號 , 但他在 Slack 上的語言習慣、項目風格、跟誰吵過架、被誰抄送過郵件這些結構性信號 , 很難完全清除 。

在由 Google DeepMind 的 Milad Nasr、Nicholas Carlini 團隊在 ICLR 202 發表的一項研究(Scalable Extraction of Training Data from Aligned Production Language Models)中 , 團隊成功用兩種攻擊手段能繞過 ChatGPT 的對齊機制 , 在超過 23% 的對話里讓它吐出訓練集原文 , 甚至可以定向重建指定文檔 。 論文表明 , 現有對齊機制擋不住訓練數據從生產級模型里外流 。


圖丨相關論文(來源:OpenReview)

這項研究的對象還是用公開互聯網數據訓練的模型 。 換成“倒閉公司 Slack 存檔”這類更窄、更集中、更多個人痕跡的訓練集 , 風險只會更大 。

而在法律層面 , 美國聯邦層面沒有對應“員工通訊出售”這種場景的規則 , 州一級的數據保護法(包括加州 CCPA、伊利諾伊 BIPA)大多只覆蓋消費者數據 。 歐盟 GDPR 理論上適用 , 但要真正觸發起訴 , 得有某個具體個人意識到自己的數據被某個模型記住了 , 這是一個幾乎無法自舉的條件 。

非營利組織 Center for AI and Digital Policy 創始人 Marc Rotenberg 本周向美國參議院商務委員會致函 , 要求 FTC 介入審查這套生意 , 但從研究提請到監管動作 , 中間還有較長的一段路要走 。

參考資料:
1.https://www.forbes.com/sites/annatong/2026/04/16/ais-new-training-data-your-old-work-slacks-and-emails/
2.https://www.businesswire.com/news/home/20260416986787/en/SimpleClosure-Launches-Asset-Hub-to-Unlock-Value-Startups-Leave-Behind
3.https://www.fastcompany.com/91270762/simpleclosure-most-innovative-companies-2025
4.https://newsletter.semianalysis.com/p/rl-environments-and-rl-for-science

【死掉的創業公司,成了AI最搶手的訓練數據】運營/排版:何晨龍

    推薦閱讀