
文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片
編輯:元宇
【新智元導讀】蛋白質折疊是計算生物學的皇冠難題 , SimpleFold作為首個僅基于通用Transformer模塊的蛋白折疊模型 , 摒棄了AlphaFold2系列的傳統架構 , 能夠直接將蛋白質序列生成完整的三維原子結構 , 在CAMEO、CASP基準測試上表現強勁 。
蛋白質折疊 , 一直是計算生物學中的一個核心難題 , 并對藥物研發等領域產生著深遠影響 。
若把蛋白質折疊類比為視覺領域的生成模型 , 氨基酸序列相當于「提示詞」 , 模型輸出則是原子的三維坐標 。
受此思維啟發 , 研究人員構建了一個基于標準Transformer模塊與自適應層的通用且強大的架構——SimpleFold 。
論文地址:https://arxiv.org/abs/2509.18480
SimpleFold和AlphaFold2等經典的蛋白質折疊模型有哪些不同?
AlphaFold2、RoseTTAFold2通過融合復雜且高度專業化的架構 , 如三角更新、成對表示、多序列比對(MSA) 。
這些設計往往是將我們對結構生成機制的已有理解「硬編碼」到模型中 , 而不是讓模型自己從數據中學習生成方式 。
SimpleFold則提出了一種全新思路:
沒有三角更新、成對表示 , 也不需要MSA , 而是完全基于通用Transformer和流匹配(flow-matching) , 能夠直接將蛋白質序列映射為完整的三維原子結構(見圖1) 。
SimpleFold
首個基于Transformer模塊的蛋白折疊模型
流匹配把生成視作一段隨時間推進的旅程 , 用常微分方程(ODE)做軌跡積分 , 就好像沖洗照片一樣 , 噪聲也一點點被「沖洗」成清晰的結構 。
SimpleFold在蛋白質折疊上也復現這段旅程:
輸入是氨基酸序列這串「提示詞」 , 輸出是全原子三維「照片」 , 很像視覺里的「文生圖」或「文生三維」任務 。
自AlphaFold2以來 , 諸如三角更新、單體與對表示交互等組件被廣泛應用于蛋白質折疊模型 , 但這些設計是否必要并未形成定論 。
SimpleFold在設計上進行了大膽創新 , 僅采用通用Transformer模塊構建架構(對比見圖5) 。
SimpleFold架構由三部分組成:輕量原子編碼器、重型殘基主干、輕量原子解碼器(見圖2) 。
這套「細—粗—細」的層級套路 , 先看微觀、再抓全局、再補細節 , 在速度與精度之間找到了良好的平衡點 。
與以往方法不同 , SimpleFold不使用對表示 , 也不依賴MSA或PLM的注意力初始化 。
與依賴等變架構的工作相比 , SimpleFold完全基于非等變的Transformer構建 。
為應對蛋白質結構中的旋轉對稱性 , 研究人員在訓練時引入SO(3)數據增強 , 即隨機旋轉目標結構 , 并依賴模型學習該對稱性 。
實驗評估
為了研究SimpleFold框架在蛋白質折疊任務中的擴展能力 , 研究人員訓練了一系列不同規模的SimpleFold模型(包括100M、360M、700M、1.1B、1.6B和3B) 。
模型做大不只是加參數 , 隨著模型規模的增加 , 研究人員在原子編碼器、解碼器和殘基主干網絡也進行了全鏈路升級(詳見表5) 。
在訓練過程中 , 研究人員借鑒AlphaFold2的策略 , 同一蛋白在每張GPU上復制Bc份 , 各自抽不同時間步t , 再從Bp個蛋白累積梯度(具體設置見表6) 。
實驗表明 , 這種策略相比于直接隨機選擇蛋白組成一個batch , 能帶來更穩定的梯度和更優的模型性能 。
研究人員在CAMEO22和CASP14這兩個廣泛使用的蛋白質結構預測基準上評估了SimpleFold的性能 。
這兩個基準測試在泛化能力、魯棒性以及原子級準確性方面要求較高 。
表1總結了CASP14和CAMEO22上的評估結果 。
研究人員根據蛋白序列信息提取方式將模型分為兩類:基于MSA檢索的方法(如RoseTTAFold、RoseTTAFold2和AlphaFold2)和基于蛋白語言模型(PLM)的方法(如ESMFold和OmegaFold) 。
此外 , 還根據訓練目標是否為生成式目標(如擴散、流匹配或自回歸)對基線模型做了標注 , 以區分它們是否直接進行結構回歸 。
有意思的是 , 從AlphaFold2、ESMFold微調成流匹配的AlphaFlow、ESMFlow , 整體指標反而不如各自原版回歸模型 。
研究人員認為 , 這是因為蛋白質折疊基準如CAMEO22和CASP14通常僅提供一個「真實」結構目標 , 這對于進行確定性逐點預測的回歸模型更為有利 。
盡管架構簡潔 , 但SimpleFold的性能依然非常出色 。
在兩個基準測試中 , SimpleFold一貫優于同為流匹配方法、基于ESM嵌入構建的ESMFlow 。
在CAMEO22上 , SimpleFold的表現與目前最先進的模型(如ESMFold、RoseTTAFold2和AlphaFold2)相當 。
更為重要的是 , 不使用三角注意力和MSA , SimpleFold在多數指標也能跑到RF2/AF2性能的95%以上 。
在更具挑戰性的CASP14中 , SimpleFold甚至超越了ESMFold 。
SimpleFold跨基準的掉分更小 , 說明它不靠MSA也能穩健泛化 , 能夠應對更復雜的結構預測任務 。
研究人員也報告了不同規模的SimpleFold模型的表現 。
即便是最小的SimpleFold-100M , 在CAMEO22上也能實現ESMFold性能的90%+以上 , 進一步說明基于通用結構模塊構建蛋白質折疊模型是可行的 。
隨著模型規模的提升 , SimpleFold的性能在各項指標上持續提升 , 這表明通用可擴展的架構設計在折疊任務中具有顯著優勢 。
尤其是在更具挑戰性的CASP14上 , 模型擴大帶來的性能增益更為明顯 。
圖3(a)展示了一個包含pLDDT預測值的結構示例 , 其中紅色和橙色表示預測置信度低 , 藍色表示預測置信度高 。
可以看到 , SimpleFold對大多數次級結構的預測較為自信 , 而在柔性環區域表現出一定不確定性 。
圖3(b)和(c)展示了pLDDT與實際LDDT-Cα的對比分析 。
SimpleFold的結構集合生成能力
采用生成式目標的好處在于:SimpleFold可直接建模結構分布 , 而非僅輸出單一「定稿」 。因此 , 同一條氨基酸序列 , 它既能生成一個確定性的結構 , 還能生成多個不同構象組成的結構集合 。
為了驗證SimpleFold這一能力 , 研究人員在ATLAS數據集上進行測試 。
該數據集用于評估分子動力學(MD)結構集合的生成 , 包含了1390個蛋白質的全原子MD模擬結構 。
表2展示了SimpleFold與多個基線模型在ATLAS上的對比結果(不同規模的SimpleFold模型見表9) 。
所用指標全面評估了生成結構集合的質量 , 包括柔性預測、分布準確性以及集合可觀測性 。
如表2所示 , SimpleFold在多個評估指標上持續優于同樣依賴ESM表征的ESMFlow-MD 。
同時 , 在暴露殘基與互信息矩陣等關鍵可觀測性上 , SimpleFold也勝過AlphaFlow-MD , 有助于挖掘藥物發現里常見的「隱性口袋」 。
研究人員還評估了SimpleFold對天然具有多種構象狀態蛋白質的結構建模能力 。
如表3所示 , 在Apo/holo數據集上 , SimpleFold取得了當前最優表現 , 顯著超越了AlphaFlow等強大的MSA方法 。
在Fold-switch數據集上 , SimpleFold的表現與ESMFlow相當甚至更優 。
整體來看 , SimpleFold的性能隨著模型規模的增加而提升 , 進一步展示了該框架在蛋白質結構集合生成方面的巨大潛力 。
在蛋白質折疊中的擴展效應
為了研究SimpleFold在蛋白質折疊任務中擴展效應 , 研究人員訓練了從1億參數到30億參數不等的多個模型版本 。
所有模型均使用完整預訓練數據 , 包括PDB、AFDB中的SwissProt以及篩選后的AFESM 。
【蘋果掀桌!扔掉AlphaFold核心模塊,開啟蛋白折疊生成式AI時代】圖4(a)-(d)展示了模型規模對折疊任務的性能影響(另見圖1(d)) 。
結果表明 , 規模更大的模型在訓練資源更充足的情況下(如更多FLOPs和迭代次數)表現更佳 。
這證明SimpleFold的可擴展性過關 , 也為通用生成模型在生物領域大規模落地指出了可行路徑 。
研究人員還研究了訓練數據規模的擴展對模型表現的影響:使用SimpleFold-700M模型 , 在不同規模的數據集上進行訓練 。
如圖4(e)-(f)所示 , 隨著訓練數據中唯一結構數量的增加 , 在40萬次迭代后 , 模型性能持續提升 。
這些結果證明:一個簡潔、可擴展的折疊模型能夠從日益豐富的實驗與模型數據中持續獲益 。
作者簡介
Yuyang Wang
Yuyang Wang現為蘋果機器學習研究(MLR)的一名人工智能研究員 , 目前致力于研究構建通用的擴散模型 。
Yuyang Wang獲卡內基梅隆大學(CMU)博士學位 , 長期從事生成式模型與科學計算的交叉研究 。
其興趣集中在flow-matching/擴散等通用生成模型及其在圖像、3D、圖與分子體系中的表示與推斷 , 并探索以通用Transformer解決蛋白質結構建模等問題 。
除論文外 , Yuyang Wang重視開源與可復現 , 經常與跨學科團隊協作 , 推進藥物發現與蛋白設計等應用 。
參考資料:
https://arxiv.org/abs/2509.18480
推薦閱讀
- 對標蘋果?曝華為或推出Mate 80 Air,采用微泵液冷散熱與eSIM設計
- iPhone Air抗彎不耐摔,蘋果手機逃不過帶殼命運
- 蘋果十月還有發布會?5 款新品提前曝光
- 庫克很無奈!蘋果A19 Pro芯片從領先安卓一年,到現在全面落后了
- 榮耀500系列被曝年底發布:工藝全面對標蘋果,配置也懸念不大了
- 2025年最強三芯孰強孰弱?驍龍、天璣和蘋果處理器的年度對決總結
- 蘋果信號差?iPhone17ProMax入手一周告訴你,這次真不一樣
- 五十來歲正該闖!雷軍曝造芯造車血淚史,小米17正面戰蘋果!
- 小米17 VS iPhone 17:參數碾壓≠體驗完勝,安卓能否真正媲美蘋果?
- 小米增速超10%,加速沖擊前二!蘋果下滑10%被甩開,第一穩如泰山
