建議所有 MaaS廠商開通瘋狂星期四套餐

2026-04-23 新型冠狀肺炎 Windows npu

文章圖片

周四是我一周消耗 token 最多的一天，得盤工作進度了吧，得review了吧，得寫周報了吧。
打開 Claude Code ，輸入“幫我總結一下這周的工作”——額度先瘋狂了。寫完周報33%額度沒了。別的活兒還沒干呢，token 限額了。
200 刀的套餐， 3.5 小時就用完。一個任務恨不得扣掉 30% 。
問題是：不知道Token 都花在哪兒了。
前幾天， Claude code的代碼被烏龍打包上傳之后，經 Reddit 用戶逆向工程發現， Anthropic 終于承認了：Claude Code 確實在亂扣費。 Anthropic 官方終于承認了——在 Reddit 用戶爆破式吐槽并甩出逆向工程證據后，官方賬號回應：“正在緊急排查，目前是最高優先級問題” 。
這是一個工程問題，一方面是Harness 架構雖然能讓 AI 能搞定復雜任務，但代價是開銷遠高于單模型對話；另一方面是 Claude 本身的流量算法確實存在疏漏。
我知道了， agent 在瘋狂偷吃我的 token。要是想得到好的結果，肯定要多喂 token。
所以國產的 MaaS 們是不是也面臨同樣情況呢？是不是至少可以保證在AI 們的高峰使用額度提供一個可解決的方案呢？
所以我建議MaaS們每周四開通 token 瘋狂星期四， token 暢用， V 我五十助我智能飛升。

應用層的黑箱里藏著什么？Claude Code 為什么好用？因為他不是單一模型，是一套多智能體流水線。寫代碼的、評審的、審核的，各跑各的。這些子智能體的 token 消耗，被打包進“一次對話”里。
Harness 架構讓 AI 能搞定復雜任務，但是token 開銷確實爆炸。據社區測試，復雜任務下的 token 消耗可能是直接調用模型的數倍甚至十倍以上。這個 overhead ，被廠商打包進“一次對話”的賬單，用戶完全感知不到。
更隱蔽的是 Coding Plan 內部的模型調控。 Plan Mode、Reviewer、Debugger 這些角色，每次切換都是隱性調用。你以為自己在和“一個 AI”對話，實際上后臺可能在五六個子智能體之間來回跳轉。
然后是那個被 Reddit 大神逆向出來的真相：兩個獨立的 cache bug ，讓 prompt cache 完全失效。這其中存在兩個比較要命的 bug。
Bug 1：Sentinel 替換機制破壞緩存
Claude Code 為了在不同平臺（Windows/macOS/Linux）分發，使用了獨立的二進制文件。當對話內容涉及計費內部邏輯時，系統會用 sentinel 值替換敏感字段。但問題就出在這里——這種替換破壞了 prompt cache 的哈希一致性，導致緩存明明應該命中，卻被判定為未命中，重復計算 token 。
Bug 2：Resume 參數強制刷新緩存
從 v2.1.69 版本開始， resume 參數（用于恢復中斷的對話）會強制讓緩存失效。這意味著只要你中途退出或切換設備，之前的上下文緩存就全部作廢，系統會重新計算整個對話歷史的 token 。對于長上下文的重度用戶，這是致命的——每次“繼續剛才的對話” ，都是在燒錢。
這兩個 bug 的疊加效應是災難性的。假設你讓 Claude Code 讀一個 GitHub PR ，正常情況下緩存應該幫你節省 90% 的重復計算費用。但因為 bug ，你每次都按全額付費，成本膨脹 10-20 倍。
所以 harness 結構不僅有著爆炸的消耗，還會因為算法問題，加速計費。
更有意思的是，官方是在用戶逆向工程發現 bug 后才出來回應的。正如網友吐槽：“你們擁有世界最好的模型和開發者，卻無視成千上萬投訴，直到被人拆解了才承認。 ”
這種“用戶先發現，廠商后承認”的模式，在 AI 行業已成慣例。 ChatGPT Plus 的歷史額度從沒退還過， Gemini Advanced 的“變慢”也從不提前通知。 Anthropic 的問題不在于出了 bug ，而在于缺乏基本的計費可觀測性（Observability）——當用戶質疑賬單時，他們拿不出數據證明自己沒錯。
對比隔壁的 OpenClaw ，幾乎是每周一到兩更，有問題連夜修。而 Anthropic 的回應速度，暴露了一個殘酷現實：當模型能力成為護城河，用戶體驗和計費透明度就成了可以犧牲的代價。
技術債務被轉嫁給了用戶。你付的錢里，多少是“真的在用 AI” ，多少是“系統在浪費”？沒人知道。
國內 MaaS 廠商做的如何？既然 Claude Code 的應用層是黑箱，那回到國內 MaaS 廠商，他們做得如何？
說實話，國內的 MaaS 們普遍良心多了。至少在 API 層，國內廠商確實拆得更細。但在應用層，大家依然把 Harness/Agent 調度成本藏在黑箱里：

基于 token 本身，可以發現大家的收費都是透明可追溯的，但到了應用層，也就是實際解決問題的時候，似乎還不能做到完全透明，也許是因為大家還基本都在 Openclaw 的框架中沒有推陳出新。
從 OpenClaw 的火熱開始，各家都開始部署定制的 token 套餐。不過設置限額以及“靈活調配”老舊模型的情況在這些套餐里確實經常發生，以及高峰時段配額不足導致卡頓也是家常便飯，倒閉用戶有時候只能通過API按量付費，其實這樣會有些本末倒置：定額套餐不能滿足用戶，回頭又轉向了按量付費的舊模式。
可以說，收費透明只停留在 API 層。當你使用agent 調取 token 的時候的 AI 應用，調度成本基本是黑箱。雖然現在如 Kimi 、火山等也在通過額度限制 agent 的使用次數，但是套餐中額度使用完畢后就就能等到刷新。
API 層透明適合開發者，應用層透明適合企業采購——當你需要向老板解釋“為什么這個月 AI 花了 2 萬塊”時， “調用了 500 次深度研究 Agent”比“消耗了 100 萬 token”更有說服力。而有意思的是，在這六家中，只有百度將 Agent 成本顯性化，其他五家仍把 Harness 調度成本打包在 Token 中。
這不是錢的問題，是“用戶是否擁有對自己計算資源的知情權” 。
云計算時代，沒人會接受“一臺服務器 $200/月，但不知道 CPU 和帶寬各多少” 。
AWS 的賬單可以精確到毫秒級的計算時長、字節數的流量消耗、甚至不同可用區的價格差異。可觀測性才是云計算成熟的基礎。
AI 應用還在蠻荒時代。廠商們把 Harness 調度、多智能體協作包裝成“魔法” ，把技術債務包裝成“使用量” ，本質是在剝奪用戶的知情權。用戶需要一張明細清晰的賬單，至少給一個“調試模式”開關，讓開發者可選查看 Harness 調用鏈；至少對因 bug 導致的計費錯誤，承諾自動退費而非“正在調查”；至少把“你花了多少錢”和“你應該花多少錢”區分開來。
【建議所有 MaaS廠商開通瘋狂星期四套餐】鑒于現在的 MaaS 廠商的進步步調如此之快，下周瘋狂星期四，我希望至少知道我的 Token 是怎么被吃掉的。 V 我50 ，讓我多吃兩塊原味雞。

推薦閱讀

上一篇：別怪手機！2億像素確實真香，卻敗給朋友圈算法

下一篇：AI短劇沖擊：橫店西安多地劇組解散，中腰部演員片酬腰斬