大模型黑箱被撬開:MIT華人聯創,造出能追溯思考過程的大模型

大模型黑箱被撬開:MIT華人聯創,造出能追溯思考過程的大模型

文章圖片

大模型黑箱被撬開:MIT華人聯創,造出能追溯思考過程的大模型

文章圖片

大模型黑箱被撬開:MIT華人聯創,造出能追溯思考過程的大模型

文章圖片

大模型黑箱被撬開:MIT華人聯創,造出能追溯思考過程的大模型

大模型的黑箱問題有解了?2 月 23 日 , 三名 MIT 博士在美國舊金山創辦的 Guide Labs 初創公司開源了一個 80 億參數的語言模型 Steerling-8B 。 它最特別的地方在于 , 所生成的每一個詞都可以追溯到三個源頭:輸入了哪些提示詞、動用了哪些概念、參考了哪些訓練數據 。 之所以能做到這些 , 是因為 Guide Labs 在設計之初就給模型 Steerling-8B 事先埋了功能 。


(來源:Guide Labs)

創始團隊的三個人在 AI 領域已經泡了十幾年 。

Guide Labs 的 CEO 朱利葉斯·阿德巴約(Julius Adebayo)是尼日利亞裔 , 本科在楊百翰大學學習機械工程 , 后來在麻省理工學院拿了三個學位 。 2017 年他在谷歌做 AI 研究院 , 隨后進入基因泰克子公司 Prescient Design 做數據科學 。 他的博士論文研究方向就是調試機器學習模型的工具 , 2018 年他那篇被廣泛引用的論文證明了一個結論:現有的深度學習模型解釋方法根本不可靠 。


圖 | Guide Labs 的 CEO 朱利葉斯·阿德巴約(Julius Adebayo)(來源:領英)

Guide Labs 的首席科學家阿雅·阿卜杜勒薩拉姆·伊斯梅爾(Aya Abdelsalam Ismail)在馬里蘭大學帕克分校拿的計算機科學博士 , 在 NeurIPS、ICLR 這些頂級會議上發了十幾篇論文 。 她在 2021 年那篇論文里提出使用顯著性指導訓練來提升深度學習解釋性 , 同時還建立了一套時間序列數據的解釋性評估框架 。 加入 Guide Labs 之前 , 她也在 Prescient Design 做解釋性 AI 研究 。


圖 | 阿雅·阿卜杜勒薩拉姆·伊斯梅爾(Aya Abdelsalam Ismail)(來源:領英)

第三位聯合創始人富爾頓·王(Fulton Wang)是麻省理工學院計算機科學博士 , 2015 年拿過美國統計協會統計學習與數據挖掘分會的最佳學生論文獎 。


圖 | 富爾頓·王(Fulton Wang)(來源:領英)

這三個人湊在一起就是希望解決同一個問題:如何讓 AI 的解釋變得可信 。

當前市面上流行的方法 , 就像給一個陌生人做腦部掃描 , 試圖通過觀察這個人的神經活動來推斷他在想什么 。 Guide Labs 的 CEO 阿德巴約把這叫做對模型做神經科學 。 但 Guide Labs 換了個思路 , 他們放棄從外部解讀的方法 , 轉而從內部設計 。 也就是從一開始就把模型架構做成可解釋的 , 讓每一層計算都留下痕跡 。

他們在模型里嵌入了一個概念層 , 相當于給數據分了類 , 貼上了可追溯的標簽 。 這個層里有大約 3.3 萬個已知概念 , 是人工預先標注好的 , 比如基因編輯、量子計算這些話題 。 還有大約 10 萬個發現概念 , 是模型自己在訓練過程中學會的 。


(來源:Guide Labs)

當你讓 Steerling-8B 生成一段文字 , 它輸出的每一個詞塊 , 都可以點開并查看以下三張清單 。 第一張清單是輸入特征歸因 , 會告訴你這個詞主要受到了提示詞里哪些詞的影響 。 第二張清單是概念歸因 , 會列出它動用了哪些概念 , 包括形容詞類的比如“臨床感” , 也包括名詞類的比如“基因改造”方法 。 第三張清單是訓練數據歸因 , 會告訴你這個詞涉及的概念主要來自哪些訓練數據源 , 比如是來自 arXiv、維基百科還是 FLAN 數據集 。

這意味著如果模型輸出了一段涉及版權的內容 , 你可以直接追溯到是哪篇訓練文章影響了它 。 如果模型在回答醫療問題時表現得有偏見 , 你可以查看到底是哪些概念在起作用 , 然后就能精準關掉那個概念的開關 。

說到開關 , 這個模型還有一個能力叫做概念控制 。 你在推理的時候 , 可以手動放大或者壓制某個概念的影響 , 不需要重新訓練模型 。 比如說你想讓回答更專業一點 , 就把“專業”這個概念對應的向量調大 。 再比如你想避免模型談論暴力 , 就把“暴力”概念的權重調低 。 Guide Labs 稱 , 這相當于使用幾十個概念的調節 , 取代了以往需要成千上萬條安全訓練數據才能做到的護欄效果 。

在性能上 , Steerling-8B 訓練使用了 1.35 萬億個 tokens , 在各種基準測試上的表現和使用了 2 到 7 倍數據量的模型差不多 。 Guide Labs 表示 , 80% 以上的 tokens 貢獻來自概念層 , 而不是其他通道 。 這意味著模型的預測確實是沿著概念走的 , 而不是表面上給個解釋、暗地里使用其他方式干活 。


(來源:Guide Labs)

要想驗證這一點其實很簡單:把其他通道關掉 , 看看模型還能不能正常工作 。 Guide Labs 的測試結果顯示 , 在各種任務上性能變化很小 , 這反過來證明了模型主要依靠概念在運轉 。

阿德巴約告訴媒體 , 把可解釋性做進模型的基因里 , 對于人類來說是一件長期的好事 。 據了解 , Guide Labs 于 2024 年浮出水面 , 當時從 Initialized Capital 拿了 900 萬美元種子輪融資 , 阿德巴約也是 Y Combinator 的畢業生 。 這次開源的 Steerling-8B 是他們目前為止最大的概念驗證 。 下一步 , 他們打算做更大的模型 , 并將開放 API 接口讓更多人用上這套可追溯的 AI 系統 。


(來源:Guide Labs)

Guide Labs 也在公司官網的博客里介紹了一些接下來要深挖的方向:概念控制、概念發現、無需微調的對齊、訓練數據溯源 , 這些目標的每一條背后都用論文支撐 , 有的是幾年前發的 , 有的是剛發的 , 總共二十多篇 , 分布在 NeurIPS、ICML、ICLR 這些地方 。

七年前 , 阿德巴約在麻省理工學院寫博士論文的時候 , 開頭第一句話大意是隨著機器學習系統部署到越來越多的高風險領域 , 確保它們可靠、公平、安全變得至關重要 。 但是 , 如果沒有有效工具來理解這些系統為何做出某個決定 , 這些目標就很難實現 。

現在 , Guide Lab 走出了第一步 。 Steerling-8B 還不能回答所有問題 , 每個解釋也不是完美無缺的 , 但它證明了這樣一條走得通的新路 , 那就是對著 AI 黑箱瞎猜是不行的 , 要在一開始就給黑箱安個燈 。

參考資料:
Huggingface:https://huggingface.co/guidelabs/steerling-8b
GitHub:https://github.com/guidelabs/steerling
軟件包:https://pypi.org/project/steerling/
https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/
https://www.guidelabs.ai/post/steerling-8b-base-model-release/
https://www.linkedin.com/in/juliusadebayo/
https://www.linkedin.com/in/ayaabdelsalamismail/
https://www.linkedin.com/in/fulton-wang-aa904a75/

【大模型黑箱被撬開:MIT華人聯創,造出能追溯思考過程的大模型】運營/排版:何晨龍

    推薦閱讀