DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein

文章圖片

DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein


目前 , 時間序列預測方法通常采用基于極大似然估計的 MSE 作為損失函數 , 但這類損失在標簽序列具有自相關性時有偏 。
近期 , 北大林宙辰團隊將時間序列預測轉化為條件分布對齊問題 。 并提出一種新的損失函數 , 通過最小化預測序列與標簽序列條件分布之間的 Wasserstein 距離訓練預測模型;既能保證無偏訓練 , 又能充分考慮標簽序列內的幾何結構(自相關性) 。
這一工作為以最優傳輸為代表的分布對齊技術賦能預測問題提供了全新的研究思路和理論框架 。

論文標題:DistDF: Time-series Forecasting Needs Joint-distribution Wasserstein Alignment 作者單位: 小紅書、北京大學、浙江大學、上海財經大學、松鼠 AI 等 代碼鏈接:https://github.com/Master-PLC/DistDF1. 問題分析:標簽中的自相關性
構建一個有效的預測模型需要解決兩個問題:用什么架構和怎么訓練 。 過去十年 , 研究者們在架構創新上投入了大量精力 ——Transformer、線性模型、圖神經網絡輪番登場 。 但很少有人質疑:我們使用的損失函數 , 真的適合時間序列數據嗎?
目前主流的時間序列預測方法采用直接預測范式(Direct Forecast DF):模型接收一段歷史觀測 , 通過神經網絡提取特征 , 然后一次性并行預測未來 T 步 。 相比傳統的迭代預測 , DF 方法具有并行計算的優勢 , 訓練效率更高 。
在損失函數的選擇上 , DF 方法幾乎 \"不約而同\" 地選擇了時序均方誤差(TMSE):





2. DistDF:基于聯合分布對齊的訓練方法
DistDF 團隊注意到:訓練預測模型 , 本質上是讓模型預測分布與真實標簽的條件分布盡可能接近 。 受此啟發 , DistDF 不再依賴傳統的極大似然估計 , 而是直接最小化預測分布與真實條件分布之間的距離 , 從而規避了標簽自相關帶來的似然估計偏差問題 。
2.1 從條件分布對齊到聯合分布對齊


因此 , 條件分布對齊問題可以轉化為聯合分布對齊問題 。 進一步 , 論文基于最優傳輸領域的 Wasserstein 距離 , 進行了理論推導 , 證明了聯合分布的 Wasserstein 距離是條件分布 Wasserstein 距離期望的上界:

因此 , 最小化歷史 - 預測聯合分布與歷史 - 標簽聯合分布的 Wasserstein 距離 , 可以有效實現條件分布的對齊 , 從而實現預測模型的無偏訓練 。 此外 , 聯合分布的樣本可以直接從全體數據集采集 , 極大豐富了用于估計分布距離的樣本數量 , 提高了距離估算的可靠性 。
2.2 基于 Bures-Wasserstein 距離的損失函數
然而 , 直接計算前述的 Wasserstein 距離需要求解大規模的最優傳輸問題 , 在大批量訓練時會帶來較大的計算負擔 。 幸運的是 , 在高斯分布假設下 , 聯合分布間的 Wasserstein 距離可以被解析地表示為均值與協方差之間的距離之和:


DistDF 的具體實現步驟如下:


DistDF 是一種模型無關的損失函數 , 可以支持各類預測模型 。
3. 實驗結果

DistDF 可以顯著提升預測性能 。 以 ECL 為例 , DistDF 將 iTransformer 的 MSE 降低了 2.7% 。 這些改進歸因于 DistDF 能夠通過對齊條件分布來處理標簽中的自相關性 , 從而提升預測性能 。

DistDF 相比現有損失函數也取得了較大的性能提升 。 FreDF 和 Time-o1 雖然減少了似然估計的偏差并提升了性能 , 但殘差偏差仍然存在 , 因此性能仍有改進空間;DistDF 通過最小化條件分布之間的距離 , 實現了無偏對齊 , 因此取得了最佳性能 。

論文還進行了消融實驗 , 研究均值對齊和協方差對齊對損失函數性能的貢獻 。 結果表明:僅均值對齊或僅協方差對齊相比 DF 都有改進 , 而結合兩者取得了最佳結果 , 展示了兩者的協同效應 。

通過可視化預測序列發現 , DistDF 生成的預測序列與真實標簽序列之間的擬合度更高 , 同時抑制明顯的噪聲和異常波動;對困難樣本的外推能力更好 。

論文還測試了 DistDF 在不同神經網絡架構上的表現 , 包括 TimeBridge、FredFormer、iTransformer 和 FreTS 等 , 證明了其與模型無關的特性:可以切實有效提升大多數主流預測模型的精度 。
4. 結論
本文深入剖析了基于極大似然估計的預測模型訓練方法有偏的問題 。 針對這一痛點 , 作者提出了 DistDF 訓練框架 , 直接通過對齊條件分布訓練預測模型 。 考慮到有限樣本下條件分布之間的距離難以直接估計 , 論文提出轉向聯合分布對齊 , 并理論證明該方法足以保證條件分布對齊 。 大量實驗證明 , DistDF 在不同數據集和模型中均帶來顯著提升 。
本研究不僅強調了損失函數設計在時間序列預測中的重要性 , 還揭示了分布對齊技術在設計時間序列損失函數中的重要潛力 。 為遷移學習、領域自適應、生成模型等領域的分布對齊技術在時序任務中的落地應用提供了理論基礎和實踐思路 。
5. 作者介紹

本文通訊作者李昊軒現任北京大學助理研究員 , 清華大學邏輯學研究中心、牛津大學研究員(Research Fellow) 。 研究興趣是因果推斷和大模型邏輯推理 , 以第一作者和通訊作者發表 CCF-A 類論文 50 余篇 , 谷歌學者引用超 1000 次 , 國家發明專利授權 17 項 , 研究成果被麻省理工科技評論、人民日報、中國人工智能學會等報道 。

【DistDF:時序預測需要分布對齊——從MSE到聯合Wasserstein】本文通訊作者林宙辰博士現任北京大學智能學院、通用人工智能全國重點實驗室教授 。 他的研究領域包括機器學習和數值優化 。 他已發表論文 360 余篇 , 谷歌學術引用超過 42000 次 。 他是 IAPR、IEEE、AAIA、CCF 和 CSIG 會士 , 多次擔任 CVPR、NeurIPS、ICML 等會議的 Senior Area Chair , 現任 ICML Board Member 。 本工作得到了北京市科學技術委員會、中關村科技園區管理委員會的大力支持 , 在此深表感謝 。

    推薦閱讀