建議所有 MaaS廠商開通瘋狂星期四套餐

建議所有 MaaS廠商開通瘋狂星期四套餐

文章圖片


周四是我一周消耗 token 最多的一天 , 得盤工作進度了吧 , 得review了吧 , 得寫周報了吧 。
打開 Claude Code , 輸入“幫我總結一下這周的工作”——額度先瘋狂了 。 寫完周報33%額度沒了 。 別的活兒還沒干呢 ,token 限額了 。
200 刀的套餐 , 3.5 小時就用完 。 一個任務恨不得扣掉 30% 。
問題是:不知道Token 都花在哪兒了 。
前幾天 , Claude code的代碼被烏龍打包上傳之后 , 經 Reddit 用戶逆向工程發現 , Anthropic 終于承認了:Claude Code 確實在亂扣費 。 Anthropic 官方終于承認了——在 Reddit 用戶爆破式吐槽并甩出逆向工程證據后 , 官方賬號回應:“正在緊急排查 , 目前是最高優先級問題” 。
這是一個工程問題 , 一方面是Harness 架構雖然能讓 AI 能搞定復雜任務 , 但代價是開銷遠高于單模型對話;另一方面是 Claude 本身的流量算法確實存在疏漏 。
我知道了 , agent 在瘋狂偷吃我的 token。 要是想得到好的結果 , 肯定要多喂 token。
所以國產的 MaaS 們是不是也面臨同樣情況呢?是不是至少可以保證在AI 們的高峰使用額度提供一個可解決的方案呢?
所以我建議MaaS們每周四開通 token 瘋狂星期四 , token 暢用 , V 我五十助我智能飛升 。

應用層的黑箱里藏著什么?Claude Code 為什么好用?因為他不是單一模型 , 是一套多智能體流水線 。 寫代碼的、評審的、審核的 , 各跑各的 。 這些子智能體的 token 消耗 , 被打包進“一次對話”里 。
Harness 架構讓 AI 能搞定復雜任務 , 但是token 開銷確實爆炸 。 據社區測試 , 復雜任務下的 token 消耗可能是直接調用模型的數倍甚至十倍以上 。 這個 overhead , 被廠商打包進“一次對話”的賬單 , 用戶完全感知不到 。
更隱蔽的是 Coding Plan 內部的模型調控 。 Plan Mode、Reviewer、Debugger 這些角色 , 每次切換都是隱性調用 。 你以為自己在和“一個 AI”對話 , 實際上后臺可能在五六個子智能體之間來回跳轉 。
然后是那個被 Reddit 大神逆向出來的真相:兩個獨立的 cache bug , 讓 prompt cache 完全失效 。 這其中存在兩個比較要命的 bug。
Bug 1:Sentinel 替換機制破壞緩存
Claude Code 為了在不同平臺(Windows/macOS/Linux)分發 , 使用了獨立的二進制文件 。 當對話內容涉及計費內部邏輯時 , 系統會用 sentinel 值替換敏感字段 。 但問題就出在這里——這種替換破壞了 prompt cache 的哈希一致性 , 導致緩存明明應該命中 , 卻被判定為未命中 , 重復計算 token 。
Bug 2:Resume 參數強制刷新緩存
從 v2.1.69 版本開始 , resume 參數(用于恢復中斷的對話)會強制讓緩存失效 。 這意味著只要你中途退出或切換設備 , 之前的上下文緩存就全部作廢 , 系統會重新計算整個對話歷史的 token 。 對于長上下文的重度用戶 , 這是致命的——每次“繼續剛才的對話” , 都是在燒錢 。
這兩個 bug 的疊加效應是災難性的 。 假設你讓 Claude Code 讀一個 GitHub PR , 正常情況下緩存應該幫你節省 90% 的重復計算費用 。 但因為 bug , 你每次都按全額付費 , 成本膨脹 10-20 倍 。
所以 harness 結構不僅有著爆炸的消耗 , 還會因為算法問題 , 加速計費 。
更有意思的是 , 官方是在用戶逆向工程發現 bug 后才出來回應的 。 正如網友吐槽:“你們擁有世界最好的模型和開發者 , 卻無視成千上萬投訴 , 直到被人拆解了才承認 。 ”
這種“用戶先發現 , 廠商后承認”的模式 , 在 AI 行業已成慣例 。 ChatGPT Plus 的歷史額度從沒退還過 , Gemini Advanced 的“變慢”也從不提前通知 。 Anthropic 的問題不在于出了 bug , 而在于缺乏基本的計費可觀測性(Observability)——當用戶質疑賬單時 , 他們拿不出數據證明自己沒錯 。
對比隔壁的 OpenClaw , 幾乎是每周一到兩更 , 有問題連夜修 。 而 Anthropic 的回應速度 , 暴露了一個殘酷現實:當模型能力成為護城河 , 用戶體驗和計費透明度就成了可以犧牲的代價 。
技術債務被轉嫁給了用戶 。 你付的錢里 , 多少是“真的在用 AI” , 多少是“系統在浪費”?沒人知道 。
國內 MaaS 廠商做的如何?既然 Claude Code 的應用層是黑箱 , 那回到國內 MaaS 廠商 , 他們做得如何?
說實話 , 國內的 MaaS 們普遍良心多了 。 至少在 API 層 , 國內廠商確實拆得更細 。 但在應用層 , 大家依然把 Harness/Agent 調度成本藏在黑箱里:

基于 token 本身 , 可以發現大家的收費都是透明可追溯的 , 但到了應用層 , 也就是實際解決問題的時候 , 似乎還不能做到完全透明 , 也許是因為大家還基本都在 Openclaw 的框架中沒有推陳出新 。
從 OpenClaw 的火熱開始 , 各家都開始部署定制的 token 套餐 。 不過設置限額以及“靈活調配”老舊模型的情況在這些套餐里確實經常發生 , 以及高峰時段配額不足導致卡頓也是家常便飯 , 倒閉用戶有時候只能通過API按量付費 , 其實這樣會有些本末倒置: 定額套餐不能滿足用戶 , 回頭又轉向了按量付費的舊模式 。
可以說 , 收費透明只停留在 API 層 。 當你使用agent 調取 token 的時候的 AI 應用 , 調度成本基本是黑箱 。 雖然現在如 Kimi 、火山等也在通過額度限制 agent 的使用次數 , 但是套餐中額度使用完畢后就就能等到刷新 。
API 層透明適合開發者 , 應用層透明適合企業采購——當你需要向老板解釋“為什么這個月 AI 花了 2 萬塊”時 , “調用了 500 次深度研究 Agent”比“消耗了 100 萬 token”更有說服力 。 而有意思的是 , 在這六家中 , 只有百度將 Agent 成本顯性化 , 其他五家仍把 Harness 調度成本打包在 Token 中 。
這不是錢的問題 , 是“用戶是否擁有對自己計算資源的知情權” 。
云計算時代 , 沒人會接受“一臺服務器 $200/月 , 但不知道 CPU 和帶寬各多少” 。
AWS 的賬單可以精確到毫秒級的計算時長、字節數的流量消耗、甚至不同可用區的價格差異 。 可觀測性才是云計算成熟的基礎 。
AI 應用還在蠻荒時代 。 廠商們把 Harness 調度、多智能體協作包裝成“魔法” , 把技術債務包裝成“使用量” , 本質是在剝奪用戶的知情權 。 用戶需要一張明細清晰的賬單 , 至少給一個“調試模式”開關 , 讓開發者可選查看 Harness 調用鏈;至少對因 bug 導致的計費錯誤 , 承諾自動退費而非“正在調查”;至少把“你花了多少錢”和“你應該花多少錢”區分開來 。
【建議所有 MaaS廠商開通瘋狂星期四套餐】鑒于現在的 MaaS 廠商的進步步調如此之快 , 下周瘋狂星期四 , 我希望至少知道我的 Token 是怎么被吃掉的 。 V 我50 , 讓我多吃兩塊原味雞 。

    推薦閱讀