清華崔鵬團隊LimiX:首個結構化數據通用大模型,性能超越SOTA

清華崔鵬團隊LimiX:首個結構化數據通用大模型,性能超越SOTA

文章圖片

清華崔鵬團隊LimiX:首個結構化數據通用大模型,性能超越SOTA


2025 年 8 月 29 日 , 由清華大學計算機系崔鵬教授團隊聯合穩準智能共同研發的結構化數據通用大模型「極數」(LimiX)正式宣布開源 。
此次發布標志著我國在結構化數據智能處理領域的技術突破與生態開放邁出關鍵一步 , 將顯著降低千行百業應用結構化數據 AI 技術的門檻 , 特別是在結構化數據占主導的泛工業領域 , 「極數」大模型將助力 AI 深度融入工業生產全流程 , 破解工業數據價值挖掘難題 , 為實現智能制造與新型工業化提供關鍵支撐 , 推動產業技術變革和優化升級 。
在泛工業領域 , 結構化數據是核心資產——工業生產參數、設備運行數據、質量檢測數據、科研實驗數據等均以結構化數據形式呈現 , 其智能處理能力直接影響產業效率與科研突破 , 也是 AI 賦能工業制造的關鍵突破口 。
雖然通用大語言模型(LLM)憑借強大的文本理解與生成能力 , 已在內容創作、對話交互等領域實現廣泛應用 , 但 LLM 在面對表格、時序等結構化數據時短板明顯:數值比較、計算等基礎任務易出偏差 , 更無法勝任數據分類、預測、歸因等復雜任務 , 準確率難以滿足真實行業需求 。 因此 , 目前工業結構化數據處理依然依賴私有數據 + 專用模型的傳統范式 。
由于專用模型難泛化、不通用 , 面對不同場景需要訓練多個專用模型 , 成本高、效果差 , 且難以發揮數據要素聚集的乘數效應 , 嚴重制約了 AI 在工業場景的落地路徑 。
結構化數據通用大模型(Large Data Model LDM)則針對性解決這一痛點:不同于 LLM 聚焦文本 , LDM 融合結構因果推斷與預訓練大模型技術 , 既能捕捉結構化數據的內在關聯 , 又具備強泛化能力 , 可跨行業適配多類任務 。
「極數」大模型可以支持分類、回歸、高維表征抽取、因果推斷等多達 10 類任務 , 在工業時序預測、異常數據監測、材料性能預測等場景中 , 性能達到甚至超越最優專用模型 , 實現單一模型適配多場景、多任務的通用性突破 , 為人工智能賦能工業提供了 One-For-All 解決方案 。
從技術性能到產業落地 , 「極數」大模型的核心優勢已得到充分驗證 。
在超過 600 個數據集上的十余項測試結果表明 , 「極數」大模型無需進行二次訓練 , 已經在準確率、泛化性等關鍵指標上均能達到或超過專有 SOTA 模型 。
而在產業應用層面 , 「極數」大模型已成功落地多個真實工業場景 , 無需訓練、部署成本低、準確率高、通用性強的特點獲得合作企業的高度認可 , 成為推動工業數據價值轉化的實用型技術方案 , 正加速形成面向泛工業垂直行業核心業務場景的真正智能底座 。

研發團隊
「極數」模型的研發核心力量 , 由清華大學計算機系崔鵬教授牽頭組建 , 團隊匯聚了學術研究與產業落地的雙重優勢 , 其技術突破背后是深厚的科研積淀與前瞻性的方向布局 。
作為團隊核心 , 崔鵬教授是我國數據智能領域的頂尖學者:他不僅是國家杰出青年科學基金獲得者 , 更以突出成果兩度斬獲國家自然科學二等獎 , 同時獲評國際計算機協會(ACM)杰出科學家 , 其學術影響力獲國際學界廣泛認可 。 在基礎研究領域 , 崔鵬教授開創性提出「因果啟發的穩定學習」新范式 , 突破傳統機器學習在數據分布偏移場景下的性能局限 , 為 AI 模型的可靠性與泛化性研究奠定重要理論基礎 。
2022 年 OpenAI 推出 ChatGPT 引發大模型技術浪潮后 , 崔鵬教授敏銳洞察到結構化數據方向大模型技術的發展潛力 , 迅速將研究方向從因果穩定學習拓展至結構化數據通用大模型(LDM)領域 。 依托既有理論積累 , 團隊攻克結構因果數據合成、模型結構設計、跨場景泛化等核心難題 , 最終實現「極數」模型在多領域任務中的性能突破 , 為此次開源奠定關鍵技術基礎 。
極數大模型簡介
「極數」大模型將多種能力集成到同一基礎模型中 , 包括:分類、回歸、缺失值插補、數據密度估計、高維表征抽取、數據生成、因果推斷、因果發現和分布外泛化預測等;在擁有優秀結構化數據建模性能的同時 , 極大提高了模型的通用性 。
在預訓練階段 , 「極數」大模型基于海量因果合成數據學習數據中的因果關系 , 不同于專用模型在訓練階段記憶住數據特征的模式 , 「極數」大模型可以直接在不同的上下文信息中捕捉因果變量 , 并通過條件掩碼建模的方式學習數據的聯合分布 , 以適應包括分類、回歸、缺失值預測、數據生成、因果推斷等各種下游任務 。
在推理階段 , 極數可直接基于提供的上下文信息進行推理 , 無需訓練即可直接適用于各種應用場景 。
模型技術架構

「極數」大模型沿用了 transformer 架構 , 并針對結構化數據建模和任務泛化進行了相關的優化 。
「極數」大模型先對先驗知識庫中的特征和目標分別進行 embedding;之后在主要模塊中 , 在樣本和特征維度上分別使用注意力機制 , 來聚焦關鍵樣本的關鍵特征 。
【清華崔鵬團隊LimiX:首個結構化數據通用大模型,性能超越SOTA】最終 , 提取到的高維特征被分別傳入 regression head 和 classification head , 實現對不同功能的支持 。

    推薦閱讀