剛剛，這家0產品0模型就估值854億的公司，終于發布了首款產品！

2026-04-27 算法 Python

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：定慧好困
【新智元導讀】微調大模型不再是少數人的專利！Thinking Machines Lab推出首款產品「Tinker」，一個專為語言模型微調而生的API 。它讓開發者能徹底擺脫底層架構的束縛，僅用簡單的Python代碼便可專注于算法與數據創新。
Thinking Machines Lab終于首發第一款產品， Tinker！
不是模型、也不是APP ，而是一個專為語言模型微調而生的API 。
翻譯過來就是， Tinker可以讓幾乎所有人，都能輕松地微調出屬于自己的模型！

對于廣大研究者和開發者而言， Tinker的誕生就是為了解決一個核心痛點：
當我們想要在SOTA模型上進行實驗和定制時，往往會被復雜的分布式訓練基礎設施搞得焦頭爛額。

而Tinker的解決方案是，你只管專注于算法和數據，他們來處理所有棘手的后臺工作。

不僅如此，從一個小模型切換到一個龐然大物，操作竟簡單到只需在你的Python代碼中更改一個字符串。
OpenAI前CTO搞的這款產品，確實還是有點東西的。

正如CEO Murati所說：「Tinker為研究人員帶來了前沿工具，為編寫實驗和訓練流水線提供了清晰的抽象接口，同時處理了分布式訓練的復雜性。它為創新研究、定制模型和構建可靠的性能基準提供了可能。」
對此，大佬卡帕西也在第一時間發推盛贊，認為Tinker會改變過去模型微調的范式：
這意味著即使是像你我這樣的普通用戶，也能介入模型層面，而不僅僅停留在輸入層面，修改few-shot！

上下滑動查看
與更常見的「上傳你的數據，我們對你的LLM進行后訓練」的現有范式相比，卡帕西認為Tinker是一個更巧妙地將后訓練復雜性「切分」的方式。
卡帕西認為微調是更好的后訓練范式。
few-shot提示（就是把很多示例都塞到prompt里）在上下文長度、提示設計、推理開銷上有很多限制。
但微調一個較小模型，把它訓練成做一類專門任務的模型，在很多場景下可以取得更好或者更穩定的表現，并且推理速度更快、資源消耗更低。
理論上來說， Thinking Machines Lab的首款產品，不僅是針對開源模型，而且更是給所有人下放了「權力」！
比如過去模型是開源了，但是大參數的模型，比如671B的DeepSeek ，沒有卡無法推理；
小模型比如2B、7B的模型，初始性能又不好用。
Tinker出現后，我們都有了能力按照自己的需求和想法，可以用自己的數據來微調一個專門模型啦！

人人都可「微調」模型
Tinker只需要用非常簡單的Python代碼即可完成「想法表達」。
作為一個運行在Thinking Machines Lab內部集群和訓練基礎設施上的托管服務，它為你包辦了任務調度、資源分配和故障恢復等所有繁瑣事務。
用戶則無需擔心基礎設施的管理，可以立即啟動或大或小的計算任務。
Tinker的核心功能包括：

提供如forward_backward和sample等Python原生操作，讓用戶能構建自定義的微調或強化學習（RL）算法。
支持從小到大的各類開放權重模型，包括像Qwen-235B-A22B這樣的專家混合（Mixture-of-Experts）架構。
集成了基于LoRA的微調方法，允許多個訓練任務共享計算資源池，從而優化成本效益。
提供一個名為Tinker Cookbook的開源配套庫，其中包含了多種后訓練方法的實現。

【剛剛，這家0產品0模型就估值854億的公司，終于發布了首款產品！】
Thinking Machines Lab采用了LoRA技術，從而能夠在多個訓練任務間共享同一個計算資源池，以降低成本。

Tinker API提供了如forward_backward和sample這樣的底層操作原語，可用于實現大多數常見的后訓練方法。
通過Tinker ，可以微調各種規模的開放權重模型，包括像Qwen-235B-A22B這樣的大型專家混合模型。
從小模型切換到大模型，僅需修改Python代碼中的一個字符串即可，操作非常簡單。
Tinker目前支持Qwen系列和Llama系列的模型。

盡管能夠直接微調模型，要取得理想成果，仍需將眾多細節處理到位。
因此，他們發布了一個名為Tinker Cookbook的開源庫，其中包含了基于Tinker API運行的、實現了各種先進后訓練方法的代碼。

目前， Tinker處于免費私測階段，未來幾周內將推出基于使用量的定價模型。
想要使用Tinker ，需要申請加入用戶白名單，申請地址：https://form.typeform.com/to/jH2xNWIg

以開發者為中心的訓練API
Tinker并非又一個拖拽式界面或黑箱微調服務。

相反，它提供了一個底層但用戶友好的API ，讓研究人員能夠通過標準的Python代碼，對損失函數、訓練循環和數據工作流進行精細控制。

實際的訓練工作負載運行在Thinking Machines的托管基礎設施上，從而實現了快速的分布式執行，并免去了管理GPU集群帶來的種種麻煩。
加州大學伯克利分校計算機科學博士生Tyler Griggs在測試該API后寫道：許多強化學習微調服務都面向企業，不允許用戶替換訓練邏輯。
而有了Tinker ，你可以完全不用操心計算資源，只需專注于「擺弄」環境、算法和數據。

上下滑動查看

普林斯頓、斯坦福已率先用上了

在公開發布前， Tinker已在多家研究實驗室投入使用。
早期采用者包括來自伯克利、普林斯頓、斯坦福以及Redwood Research的團隊，他們各自將該API應用于獨特的模型訓練問題：

普林斯頓的Goedel團隊使用Tinker和LoRA微調用于形式化定理證明的大語言模型，僅用20%的數據便達到了與Goedel-Prover V2等全參數監督式微調（SFT）模型相當的性能。他們在Tinker上訓練的模型，在MiniF2F基準測試中實現了88.1%的pass@32成功率，通過自我糾正后更是達到90.4% ，超越了規模更大的閉源模型。

斯坦福大學的Rotskoff實驗室使用Tinker訓練化學推理模型。在LLaMA 70B模型基礎上進行強化學習后，從IUPAC命名轉換為化學式的準確率從15%躍升至50% 。研究人員稱，如果沒有強大的基礎設施支持，這種幅度的提升在過去是無法想象的。

伯克利的SkyRL團隊運行了自定義的多智能體強化學習循環，其中涉及異步的離策略（off-policy）訓練和多輪工具使用——而Tinker的靈活性讓這一切成為可能。

Redwood Research使用Tinker在長上下文AI控制任務上對Qwen3-32B模型進行強化學習訓練。研究員Eric Gan表示，如果沒有Tinker ，他很可能不會啟動這個項目，并指出擴展多節點訓練一直是一大障礙。

這些案例充分展示了Tinker的多功能性——無論是經典的監督式微調，還是覆蓋截然不同領域的高度實驗性強化學習流水線，它都能提供支持。
參考資料：
https://thinkingmachines.ai/blog/announcing-tinker/

推薦閱讀

上一篇：CUDA內核之神、全球最強GPU程序員？OpenAI的這位幕后大神是誰

下一篇：吉林布局仿生機器人產業多方發力拓展應用新場景