非Transformer架構的新突破,液態神經網絡推理小模型僅900M內存

非Transformer架構的新突破,液態神經網絡推理小模型僅900M內存

文章圖片

非Transformer架構的新突破,液態神經網絡推理小模型僅900M內存

文章圖片

非Transformer架構的新突破,液態神經網絡推理小模型僅900M內存

文章圖片

非Transformer架構的新突破,液態神經網絡推理小模型僅900M內存

文章圖片

非Transformer架構的新突破,液態神經網絡推理小模型僅900M內存

文章圖片



編輯|冷貓

谷歌 2017 年提出的 Transformer 架構事實上已經基本壟斷了大模型 。

不采用 Transformer 架構的大模型已經是少之又少 , 而采用非 Transformer 架構 , 還能與主流第一梯隊大模型扳手腕的 , 更是鳳毛麟角 。

不知道大家是否還有印象 , 當年有一個嘗試給大模型裝上「蟲腦」的初創公司 , 他們的研究人員受到秀麗隱桿線蟲的神經結構啟發 , 研發出一種新型的靈活神經網絡 , 也被稱為液態神經網絡 。

這是一個連續時間模型 , 由多個簡單的動態系統組成 , 這些系統通過非線性門相互調節 。 這種網絡的特點是時間常數可變 , 輸出通過求解微分方程得到 。 它在穩定性、表達能力和時間序列預測方面都優于傳統模型 。

除此以外 , 液態神經網絡的另一個特點是規模小得多 , 在 2024 年該架構就實現了 1.3B 大小的模型部署 , 但彼時尚未能與主流大模型一拼高下 。

提出液態神經網絡架構 , 并且做出 Liquid Foundation Models(LFM)大模型的 , 是由 MIT 計算機科學和人工智能實驗室 CSAIL 孵化 , 成立于 2023 年 3 月的初創公司 Liquid AI 。

就在剛剛 , Liquid AI 又一次在 LFM 模型上放大招 。 他們正式發布并開源了 LFM2.5-1.2B-Thinking , 一款可完全在端側運行的推理模型 。
【非Transformer架構的新突破,液態神經網絡推理小模型僅900M內存】


Liquid AI 聲稱 , 該模型專門為簡潔推理而訓練;在生成最終答案前 , 會先生成內部思考軌跡;在端側級別的低延遲條件下 , 實現系統化的問題求解;在工具使用、數學推理和指令遵循方面表現尤為出色 。

該模型在手機上僅需 900 MB 內存 即可運行 , 同時在同等規模模型中實現了最快的推理速度和最佳的質量表現 。 兩年前還必須依賴數據中心才能完成的能力 , 如今已經可以在你的口袋里離線運行 。



Leap 開源鏈接:https://leap.liquid.ai/models HuggingFace 鏈接:https://huggingface.co/LiquidAI/LFM2.5-1.2B-Thinking
優于 Transformer 的性能

與 Liquid AI 之前的模型 LFM2.5-1.2B-Instruct 相比 , LFM2.5-1.2B-Thinking 在三項能力上實現了顯著提升:

數學推理:在 MATH-500 上從 63 提升至 88 指令遵循:在 Multi-IF 上從 61 提升至 69 工具使用:在 BFCLv3 上從 49 提升至 57
在大多數推理基準測試中 , LFM2.5-1.2B-Thinking 的表現已與甚至超過 Qwen3-1.7B , 盡管其參數量少了 約 40% 。





同時 , 該模型在質量與測試時計算效率之間取得了良好平衡:與 Qwen3-1.7B(思考模式) 相比 , 它在使用更少輸出 token 的情況下 , 依然提供了更高的整體性能 。



在推理階段 , 這一性能差距進一步拉大:LFM2.5-1.2B-Thinking 在推理速度和內存效率兩方面 , 都優于純 Transformer 模型(如 Qwen3-1.7B)和混合架構模型(如 Granite-4.0-H-1B) 。



Liquid AI 表示 , LFM2.5-1.2B-Thinking 在 智能體式(agentic)任務和高推理強度任務(例如工具使用、數學、編程)中表現尤為突出 。 當模型需要規劃一系列工具調用、驗證中間結果并動態調整解題策略時 , 其生成的推理軌跡能夠發揮實際價值 。 而在對話交互和創意寫作等場景下 , 則更推薦使用 LFM2.5-1.2B-Instruct 。

訓練細節

要構建能力強的小型推理模型 , 關鍵在于:在知識容量有限的前提下 , 通過多步推理來彌補能力 , 同時又要保持答案簡潔 , 以滿足端側低延遲部署的需求 。

此前在 LFM-1B-Math 上的實驗表明 , 在中期訓練階段引入推理軌跡 , 有助于模型內化「先推理 , 再作答」的模式 。 隨后 , 基于合成推理軌跡進行的監督微調(SFT) , 進一步讓模型能夠穩定地產生思維鏈 , 而無需依賴特定格式的獎勵設計 。

然而 , SFT 并不能解決推理模型中的一個常見問題:模型可能陷入重復文本模式 , 遲遲無法得出結論 。 這種行為通常被稱為 「doom looping」(死循環式生成) 。 為此 , Liquid AI 采用了一種相對直接的緩解方法:

在偏好對齊階段 , 基于 SFT 模型生成了 5 個溫度采樣候選和 1 個貪婪解碼候?。 壞輩淮嬖諮肥?, 選擇由 LLM 評判得分最高的作為正樣本、得分最低的作為負樣本;一旦出現循環生成 , 則無論評判得分如何 , 直接將出現循環的候選作為負樣本 。 在 RLVR 階段 , 進一步在訓練早期引入了基于 n-gram 的重復懲罰 , 以抑制循環生成行為 。
通過這些策略 , 模型在保持推理能力的同時 , 顯著降低了陷入無效循環的風險 。



這一方法在一個具有代表性提示詞的數據集上 , 將死循環生成的比例從 15.74%(中期訓練階段) 顯著降低到了 0.36%(RLVR 階段) , 效果非常直接且穩定 。

Liquid AI 的 RL 訓練流水線核心采用的是無 critic、類 GRPO 方法 。 整體實現是 reference-free 的 , 并結合了多項訓練技巧 , 包括:

非對稱比例裁剪(asymmetric ratio clipping) 對零方差提示組的動態過濾 超長樣本掩碼(overlong-sample masking) 不進行優勢歸一化(no advantage normalization) 截斷的重要性采樣(truncated importance sampling)

RL 方法的簡化示意圖:最終發布的 checkpoint 是一個合并模型 , 其「家族樹」中包含 25 個不同的子 checkpoint 。

Liquid AI 采用了一種高度并行的 Curriculum RL 訓練框架 , 先以指令跟隨的 RLVR 作為基礎起點 , 再分叉出面向推理、數學、工具使用等不同領域的專項 checkpoint 。

這種并行結構不同于傳統的「單模型、多任務同時訓練」方式 , 往往會引發能力相互干擾 。

Curriculum RL 提供了更精細的控制粒度:每個領域的模型都可以獨立優化 , 擁有各自的獎勵設計、超參數和評估標準 。 隨后 , 我們在不同階段進行迭代式模型合并 , 生成在多種能力之間更均衡的新 checkpoint 。

實踐表明 , 模型合并在保留整體性能的同時 , 能夠有效吸收專項能力提升 , 是一條可行且可擴展的通用 RLVR 訓練路徑 。

此外 , Liquid AI 正在全力拓展 LFM 系列模型的生態系統和合作伙伴 。

LFM2.5-1.2B-Thinking 實現了開箱即用支持 , 兼容最流行的推理框架 , 包括 llama.cpp、MLX、vLLM 和 ONNX Runtime 。 所有框架均支持 CPU 和 GPU 加速 , 覆蓋 Apple、AMD、Qualcomm 和 Nvidia 等硬件 。

為了確保 LFM2.5 系列 能夠在各種場景下高效運行 , Liquid AI 正在快速擴展軟硬件生態系統 , 并歡迎 Qualcomm Technologies Inc.、Ollama、FastFlowLM 和 Cactus Compute 作為新的合作伙伴加入 。


LFM2.5-1.2B-Thinking 在不同硬件設備上的長上下文推理表現 。

LFM2.5-1.2B-Thinking 可能只是個起點 , 但它已經證明了一件事 ——Transformer 并非唯一解 , 小而強的端側推理模型或許有更優解 。

更重要的是 , 運行推理模型的門檻越來越低 , 讓更多設備激發 AI 潛能 , 不論如何 , 都是一件美事 。

參考鏈接:https://www.liquid.ai/blog/lfm2-5-1-2b-thinking-on-device-reasoning-under-1gb#training-recipe

    推薦閱讀