ST-Raptor框架發布,實現復雜半結構化表格的精準理解與信息抽取

ST-Raptor框架發布,實現復雜半結構化表格的精準理解與信息抽取

文章圖片

ST-Raptor框架發布,實現復雜半結構化表格的精準理解與信息抽取

文章圖片

ST-Raptor框架發布,實現復雜半結構化表格的精準理解與信息抽取

文章圖片

ST-Raptor框架發布,實現復雜半結構化表格的精準理解與信息抽取

文章圖片

ST-Raptor框架發布,實現復雜半結構化表格的精準理解與信息抽取

文章圖片




本工作核心作者為湯子瑞(上海交通大學)、牛博宇(上海交通大學) 。 合作者為李帛修、周煒、王健楠、李國良、張心怡、吳帆 。 通訊作者為上海交通大學計算機學院博士生導師周煊赫 。 團隊長期從事人工智能與數據交叉研究 。

半結構化表格是我們日常工作中常見的 “攔路虎”—— 布局五花八門、結構復雜多變 , 讓自動化數據處理變得異常困難 。



面對這樣的挑戰 , 傳統的表格處理工具往往力不從心 。 研究發現 , 現有的大模型以及表格理解領域模型在 NL2SQL / 結構化表格已經有了較好的效果(準確率超 80%) , 但是在那些諸如金融報表、庫存表、企業管理表等具有合并單元格、嵌套表格、層次結構等特征的復雜半結構化表格上表現明顯退化 。



為了解決這一痛點 , 來自上海交通大學計算機學院、西蒙菲莎大學、清華大學、中國人民大學的合作團隊 , 帶來基于樹形框架的智能表格問答系統(ST-Raptor) , 其不僅能精準捕捉表格中的復雜布局 , 還能自動生成表格操作指令 , 并一步步執行這些操作流程 , 最終準確回答用戶提出的問題 —— 就像給 Excel 裝上了一個會思考的 “AI 大腦” 。

【ST-Raptor框架發布,實現復雜半結構化表格的精準理解與信息抽取】目前 , 該論文已被數據庫領域國際頂尖學術會議 ACM SIGMOD 2026 接收 。



論文標題:ST-Raptor: LLM-Powered Semi-Structured Table Question Answering 論文鏈接:https://arxiv.org/abs/2508.18190 項目倉庫:https://github.com/weAIDB/ST-Raptor
該項目發布后得到廣泛關注與轉發:



現有的 NL2SQL 方法需要將半結構化表格轉換為結構化表格處理 , 這通常會導致大量的信息丟失 。 此外 , 現有的 NL2Code 和多模態 LLM 問答都無法準確捕捉半結構化表格獨特的信息組織方法 , 因此無法準確回答相應的問題 。 下圖展示了一些基線方法在半結構化表格問答上的表現 。 在總共 100 個問題的回答中 , 大模型的錯誤率均較高 , 且其在涉及到表格結構理解 , 數據獲取 , 問題推理三方面表現均不佳 。



準確率低的原因主要由于以下幾點:(1)半結構化表格結構個性化程度高 , 結構復雜多樣且隱含了部分語義信息 , 大模型難以捕捉到布局的微妙之處 。 (2)在進行表格數據檢索時 , 模型容易產生幻覺 , 造成失真 。 (3)模型對問題的理解能力不足 , 不能從表格里獲取解決問題需要的信息 。

HO-Tree
創新性的半結構化表格表示方案

為了定制解決半結構化表格信息的復雜分布問題 , 本文提出了層次正交樹(HO-Tree)這一數據結構 。 HO-Tree 由 Meta Tree(MTree)和 Body Tree(BTree)嵌套組合形成 , 其中 MTree 代表了表頭中的元數據 , BTree 代表了表內容中的信息數據 。



上圖展示了構建 HO-Tree 的基本步驟 。 對于一個 excel 表格 , 首先將表內容轉化為 HTML 格式并渲染 , 接著用 VLM 提取圖片中的表頭信息 , 在對齊后得到元信息組 。 接著 , 根據得到的元信息將表格進行分層級的區域劃分 , 最后根據這一層級得到 HO-Tree 。 通過這一步驟 , 半結構化表格被轉化為了計算機易于操作的數據形式 , 為后續處理提供了便利 。

樹上操作與流程設計
精準回答問題的 “手術刀”

在建構好 HO-Tree 之后 , 本文繼續設計了一套在樹上進行檢索的操作 , 通過迭代地使用這些操作 , LLM 可以按步驟分析表格 , 最終獲取信息回答問題 。 這些操作可以分為以下四類:

數據獲取操作:可以獲取樹上子節點 , 父節點等信息 , 遞歸地進行數據獲取操作可以有效去除冗余信息 , 得到回答問題所必要的信息 。數據處理操作:根據問題需要的形式 , 將得到的數據進行處理(如求和 , 計數 , 按條件篩選等) 。對齊操作:將過程中的信息和表格內容進行對齊 , 增強檢索時的健壯性 。推理操作:將獲取的最終答案和問題進行對齊 , 得到滿足格式要求的最終答案輸出 。
這些操作可以幫助 LLM 以直觀的方法獲取數據 , 分析表格 , 并且以可信的方式得到最終答案 。 結合這些操作 , 可以搭建一套流水線回答問題 。 如下圖例子所示 , 在得到問題后 , ST-Raptor 將其拆解為三個子問題 , 通過預定義的樹上操作進行搜索 , 處理 , 最后經過推理得到答案 。



實驗結論

現有的表格數據集大多以結構化為主 , 一些半結構化的數據集也都并不涉及復雜嵌套關系 , 和真實情境不符 。 因此 , 本文構建了一個半結構化表格數據集 SSTQA , 共有 102 張復雜的真實情境表格和 764 個針對這些表格的問題 , 總共包含了 19 個代表性的真實場景 。 如下圖所示 , 在 SSTQA 上 , ST-Raptor 相較其余方法而言 , 取得了很高的準確率提升 , 尤其是在結構復雜困難的表格上遠超其余方法 。



在其余兩個半結構化表格問題數據集 WikiTQ 和 TempTabQA 上的測試結果如下表所示 , ST-Raptor 準確率位于榜首 , 展現出了優秀的泛化能力 。



綜上所述 , ST-Raptor 提供了一套行之有效的半結構化表格問答解決方案 , 為現實生活中的半結構化表格自動化處理提供了新思路 。 通過掛載 ST-Raptor , LLM 可以增加對半結構化表格的理解能力和分析能力 , 提升表格問答的準確性 。 在未來 , 可以優化 HO-Tree 的表示和創建 , 使其囊括更多復雜表格;同時可以定制更多樹上操作 , 使問題回答更流暢便捷 。

ST-Raptor 立足于表格結構解析這一核心挑戰 , 有效彌補了大語言模型在處理二維表格結構時的能力短板 , 能夠直接支持包括 Excel 在內的多種復雜半結構化表格輸入 。 盡管如此 , 現實場景中的半結構化表格仍普遍存在格式不規范、布局多樣、語義歧義以及跨表關聯等復雜問題 , 值得在模型架構、語義理解與泛化能力等方面展開長期而深入的探索 。

    推薦閱讀