剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!

剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!

文章圖片

剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!

文章圖片

剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!

文章圖片

剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!

文章圖片

剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!

文章圖片

剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!

文章圖片

剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!

文章圖片

剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!
編輯:定慧 好困
【新智元導讀】微調大模型不再是少數人的專利!Thinking Machines Lab推出首款產品「Tinker」 , 一個專為語言模型微調而生的API 。 它讓開發者能徹底擺脫底層架構的束縛 , 僅用簡單的Python代碼便可專注于算法與數據創新 。
Thinking Machines Lab終于首發第一款產品 , Tinker!
不是模型、也不是APP , 而是一個專為語言模型微調而生的API 。
翻譯過來就是 , Tinker可以讓幾乎所有人 , 都能輕松地微調出屬于自己的模型!


對于廣大研究者和開發者而言 , Tinker的誕生就是為了解決一個核心痛點:
當我們想要在SOTA模型上進行實驗和定制時 , 往往會被復雜的分布式訓練基礎設施搞得焦頭爛額 。


而Tinker的解決方案是 , 你只管專注于算法和數據 , 他們來處理所有棘手的后臺工作 。


不僅如此 , 從一個小模型切換到一個龐然大物 , 操作竟簡單到只需在你的Python代碼中更改一個字符串 。
OpenAI前CTO搞的這款產品 , 確實還是有點東西的 。

正如CEO Murati所說:「Tinker為研究人員帶來了前沿工具 , 為編寫實驗和訓練流水線提供了清晰的抽象接口 , 同時處理了分布式訓練的復雜性 。 它為創新研究、定制模型和構建可靠的性能基準提供了可能 。 」
對此 , 大佬卡帕西也在第一時間發推盛贊 , 認為Tinker會改變過去模型微調的范式:
這意味著即使是像你我這樣的普通用戶 , 也能介入模型層面 , 而不僅僅停留在輸入層面 , 修改few-shot!



上下滑動查看
與更常見的「上傳你的數據 , 我們對你的LLM進行后訓練」的現有范式相比 , 卡帕西認為Tinker是一個更巧妙地將后訓練復雜性「切分」的方式 。
卡帕西認為微調是更好的后訓練范式 。
few-shot提示(就是把很多示例都塞到prompt里)在上下文長度、提示設計、推理開銷上有很多限制 。
但微調一個較小模型 , 把它訓練成做一類專門任務的模型 , 在很多場景下可以取得更好或者更穩定的表現 , 并且推理速度更快、資源消耗更低 。
理論上來說 , Thinking Machines Lab的首款產品 , 不僅是針對開源模型 , 而且更是給所有人下放了「權力」!
比如過去模型是開源了 , 但是大參數的模型 , 比如671B的DeepSeek , 沒有卡無法推理;
小模型比如2B、7B的模型 , 初始性能又不好用 。
Tinker出現后 , 我們都有了能力按照自己的需求和想法 , 可以用自己的數據來微調一個專門模型啦!



人人都可「微調」模型
Tinker只需要用非常簡單的Python代碼即可完成「想法表達」 。
作為一個運行在Thinking Machines Lab內部集群和訓練基礎設施上的托管服務 , 它為你包辦了任務調度、資源分配和故障恢復等所有繁瑣事務 。
用戶則無需擔心基礎設施的管理 , 可以立即啟動或大或小的計算任務 。
Tinker的核心功能包括:

  • 提供如forward_backward和sample等Python原生操作 , 讓用戶能構建自定義的微調或強化學習(RL)算法 。
  • 支持從小到大的各類開放權重模型 , 包括像Qwen-235B-A22B這樣的專家混合(Mixture-of-Experts)架構 。
  • 集成了基于LoRA的微調方法 , 允許多個訓練任務共享計算資源池 , 從而優化成本效益 。
  • 提供一個名為Tinker Cookbook的開源配套庫 , 其中包含了多種后訓練方法的實現 。
【剛剛,這家0產品0模型就估值854億的公司,終于發布了首款產品!】
Thinking Machines Lab采用了LoRA技術 , 從而能夠在多個訓練任務間共享同一個計算資源池 , 以降低成本 。

Tinker API提供了如forward_backward和sample這樣的底層操作原語 , 可用于實現大多數常見的后訓練方法 。
通過Tinker , 可以微調各種規模的開放權重模型 , 包括像Qwen-235B-A22B這樣的大型專家混合模型 。
從小模型切換到大模型 , 僅需修改Python代碼中的一個字符串即可 , 操作非常簡單 。
Tinker目前支持Qwen系列和Llama系列的模型 。

盡管能夠直接微調模型 , 要取得理想成果 , 仍需將眾多細節處理到位 。
因此 , 他們發布了一個名為Tinker Cookbook的開源庫 , 其中包含了基于Tinker API運行的、實現了各種先進后訓練方法的代碼 。

目前 , Tinker處于免費私測階段 , 未來幾周內將推出基于使用量的定價模型 。
想要使用Tinker , 需要申請加入用戶白名單 , 申請地址:https://form.typeform.com/to/jH2xNWIg




以開發者為中心的訓練API
Tinker并非又一個拖拽式界面或黑箱微調服務 。

相反 , 它提供了一個底層但用戶友好的API , 讓研究人員能夠通過標準的Python代碼 , 對損失函數、訓練循環和數據工作流進行精細控制 。

實際的訓練工作負載運行在Thinking Machines的托管基礎設施上 , 從而實現了快速的分布式執行 , 并免去了管理GPU集群帶來的種種麻煩 。
加州大學伯克利分校計算機科學博士生Tyler Griggs在測試該API后寫道:許多強化學習微調服務都面向企業 , 不允許用戶替換訓練邏輯 。
而有了Tinker , 你可以完全不用操心計算資源 , 只需專注于「擺弄」環境、算法和數據 。

上下滑動查看



普林斯頓、斯坦福已率先用上了


在公開發布前 , Tinker已在多家研究實驗室投入使用 。
早期采用者包括來自伯克利、普林斯頓、斯坦福以及Redwood Research的團隊 , 他們各自將該API應用于獨特的模型訓練問題:
  • 普林斯頓的Goedel團隊使用Tinker和LoRA微調用于形式化定理證明的大語言模型 , 僅用20%的數據便達到了與Goedel-Prover V2等全參數監督式微調(SFT)模型相當的性能 。 他們在Tinker上訓練的模型 , 在MiniF2F基準測試中實現了88.1%的pass@32成功率 , 通過自我糾正后更是達到90.4% , 超越了規模更大的閉源模型 。
  • 斯坦福大學的Rotskoff實驗室使用Tinker訓練化學推理模型 。 在LLaMA 70B模型基礎上進行強化學習后 , 從IUPAC命名轉換為化學式的準確率從15%躍升至50% 。 研究人員稱 , 如果沒有強大的基礎設施支持 , 這種幅度的提升在過去是無法想象的 。
  • 伯克利的SkyRL團隊運行了自定義的多智能體強化學習循環 , 其中涉及異步的離策略(off-policy)訓練和多輪工具使用——而Tinker的靈活性讓這一切成為可能 。
  • Redwood Research使用Tinker在長上下文AI控制任務上對Qwen3-32B模型進行強化學習訓練 。 研究員Eric Gan表示 , 如果沒有Tinker , 他很可能不會啟動這個項目 , 并指出擴展多節點訓練一直是一大障礙 。
這些案例充分展示了Tinker的多功能性——無論是經典的監督式微調 , 還是覆蓋截然不同領域的高度實驗性強化學習流水線 , 它都能提供支持 。
參考資料:
https://thinkingmachines.ai/blog/announcing-tinker/

    推薦閱讀