蘋果掀桌！扔掉AlphaFold核心模塊，開啟蛋白折疊生成式AI時代_bios

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：元宇
【新智元導讀】蛋白質折疊是計算生物學的皇冠難題， SimpleFold作為首個僅基于通用Transformer模塊的蛋白折疊模型，摒棄了AlphaFold2系列的傳統架構，能夠直接將蛋白質序列生成完整的三維原子結構，在CAMEO、CASP基準測試上表現強勁。
蛋白質折疊，一直是計算生物學中的一個核心難題，并對藥物研發等領域產生著深遠影響。
若把蛋白質折疊類比為視覺領域的生成模型，氨基酸序列相當于「提示詞」，模型輸出則是原子的三維坐標。
受此思維啟發，研究人員構建了一個基于標準Transformer模塊與自適應層的通用且強大的架構——SimpleFold 。

論文地址：https://arxiv.org/abs/2509.18480
SimpleFold和AlphaFold2等經典的蛋白質折疊模型有哪些不同？
AlphaFold2、RoseTTAFold2通過融合復雜且高度專業化的架構，如三角更新、成對表示、多序列比對（MSA）。
這些設計往往是將我們對結構生成機制的已有理解「硬編碼」到模型中，而不是讓模型自己從數據中學習生成方式。
SimpleFold則提出了一種全新思路：
沒有三角更新、成對表示，也不需要MSA ，而是完全基于通用Transformer和流匹配（flow-matching），能夠直接將蛋白質序列映射為完整的三維原子結構（見圖1）。

SimpleFold
首個基于Transformer模塊的蛋白折疊模型
流匹配把生成視作一段隨時間推進的旅程，用常微分方程（ODE）做軌跡積分，就好像沖洗照片一樣，噪聲也一點點被「沖洗」成清晰的結構。
SimpleFold在蛋白質折疊上也復現這段旅程：
輸入是氨基酸序列這串「提示詞」，輸出是全原子三維「照片」，很像視覺里的「文生圖」或「文生三維」任務。
自AlphaFold2以來，諸如三角更新、單體與對表示交互等組件被廣泛應用于蛋白質折疊模型，但這些設計是否必要并未形成定論。
SimpleFold在設計上進行了大膽創新，僅采用通用Transformer模塊構建架構（對比見圖5）。

SimpleFold架構由三部分組成：輕量原子編碼器、重型殘基主干、輕量原子解碼器（見圖2）。

這套「細—粗—細」的層級套路，先看微觀、再抓全局、再補細節，在速度與精度之間找到了良好的平衡點。
與以往方法不同， SimpleFold不使用對表示，也不依賴MSA或PLM的注意力初始化。
與依賴等變架構的工作相比， SimpleFold完全基于非等變的Transformer構建。
為應對蛋白質結構中的旋轉對稱性，研究人員在訓練時引入SO(3)數據增強，即隨機旋轉目標結構，并依賴模型學習該對稱性。

實驗評估
為了研究SimpleFold框架在蛋白質折疊任務中的擴展能力，研究人員訓練了一系列不同規模的SimpleFold模型（包括100M、360M、700M、1.1B、1.6B和3B）。
模型做大不只是加參數，隨著模型規模的增加，研究人員在原子編碼器、解碼器和殘基主干網絡也進行了全鏈路升級（詳見表5）。

在訓練過程中，研究人員借鑒AlphaFold2的策略，同一蛋白在每張GPU上復制Bc份，各自抽不同時間步t ，再從Bp個蛋白累積梯度（具體設置見表6）。

實驗表明，這種策略相比于直接隨機選擇蛋白組成一個batch ，能帶來更穩定的梯度和更優的模型性能。
研究人員在CAMEO22和CASP14這兩個廣泛使用的蛋白質結構預測基準上評估了SimpleFold的性能。
這兩個基準測試在泛化能力、魯棒性以及原子級準確性方面要求較高。

表1總結了CASP14和CAMEO22上的評估結果。
研究人員根據蛋白序列信息提取方式將模型分為兩類：基于MSA檢索的方法（如RoseTTAFold、RoseTTAFold2和AlphaFold2）和基于蛋白語言模型（PLM）的方法（如ESMFold和OmegaFold）。
此外，還根據訓練目標是否為生成式目標（如擴散、流匹配或自回歸）對基線模型做了標注，以區分它們是否直接進行結構回歸。
有意思的是，從AlphaFold2、ESMFold微調成流匹配的AlphaFlow、ESMFlow ，整體指標反而不如各自原版回歸模型。
研究人員認為，這是因為蛋白質折疊基準如CAMEO22和CASP14通常僅提供一個「真實」結構目標，這對于進行確定性逐點預測的回歸模型更為有利。
盡管架構簡潔，但SimpleFold的性能依然非常出色。
在兩個基準測試中， SimpleFold一貫優于同為流匹配方法、基于ESM嵌入構建的ESMFlow 。
在CAMEO22上， SimpleFold的表現與目前最先進的模型（如ESMFold、RoseTTAFold2和AlphaFold2）相當。
更為重要的是，不使用三角注意力和MSA ， SimpleFold在多數指標也能跑到RF2/AF2性能的95%以上。
在更具挑戰性的CASP14中， SimpleFold甚至超越了ESMFold 。
SimpleFold跨基準的掉分更小，說明它不靠MSA也能穩健泛化，能夠應對更復雜的結構預測任務。
研究人員也報告了不同規模的SimpleFold模型的表現。
即便是最小的SimpleFold-100M ，在CAMEO22上也能實現ESMFold性能的90%+以上，進一步說明基于通用結構模塊構建蛋白質折疊模型是可行的。
隨著模型規模的提升， SimpleFold的性能在各項指標上持續提升，這表明通用可擴展的架構設計在折疊任務中具有顯著優勢。
尤其是在更具挑戰性的CASP14上，模型擴大帶來的性能增益更為明顯。

圖3(a)展示了一個包含pLDDT預測值的結構示例，其中紅色和橙色表示預測置信度低，藍色表示預測置信度高。
可以看到， SimpleFold對大多數次級結構的預測較為自信，而在柔性環區域表現出一定不確定性。
圖3(b)和(c)展示了pLDDT與實際LDDT-Cα的對比分析。

SimpleFold的結構集合生成能力
采用生成式目標的好處在于：SimpleFold可直接建模結構分布，而非僅輸出單一「定稿」。因此，同一條氨基酸序列，它既能生成一個確定性的結構，還能生成多個不同構象組成的結構集合。
為了驗證SimpleFold這一能力，研究人員在ATLAS數據集上進行測試。
該數據集用于評估分子動力學（MD）結構集合的生成，包含了1390個蛋白質的全原子MD模擬結構。

表2展示了SimpleFold與多個基線模型在ATLAS上的對比結果（不同規模的SimpleFold模型見表9）。

所用指標全面評估了生成結構集合的質量，包括柔性預測、分布準確性以及集合可觀測性。
如表2所示， SimpleFold在多個評估指標上持續優于同樣依賴ESM表征的ESMFlow-MD 。
同時，在暴露殘基與互信息矩陣等關鍵可觀測性上， SimpleFold也勝過AlphaFlow-MD ，有助于挖掘藥物發現里常見的「隱性口袋」。
研究人員還評估了SimpleFold對天然具有多種構象狀態蛋白質的結構建模能力。

如表3所示，在Apo/holo數據集上， SimpleFold取得了當前最優表現，顯著超越了AlphaFlow等強大的MSA方法。
在Fold-switch數據集上， SimpleFold的表現與ESMFlow相當甚至更優。
整體來看， SimpleFold的性能隨著模型規模的增加而提升，進一步展示了該框架在蛋白質結構集合生成方面的巨大潛力。

在蛋白質折疊中的擴展效應
為了研究SimpleFold在蛋白質折疊任務中擴展效應，研究人員訓練了從1億參數到30億參數不等的多個模型版本。
所有模型均使用完整預訓練數據，包括PDB、AFDB中的SwissProt以及篩選后的AFESM 。

【蘋果掀桌！扔掉AlphaFold核心模塊，開啟蛋白折疊生成式AI時代】圖4(a)-(d)展示了模型規模對折疊任務的性能影響（另見圖1(d)）。
結果表明，規模更大的模型在訓練資源更充足的情況下（如更多FLOPs和迭代次數）表現更佳。
這證明SimpleFold的可擴展性過關，也為通用生成模型在生物領域大規模落地指出了可行路徑。
研究人員還研究了訓練數據規模的擴展對模型表現的影響：使用SimpleFold-700M模型，在不同規模的數據集上進行訓練。
如圖4(e)-(f)所示，隨著訓練數據中唯一結構數量的增加，在40萬次迭代后，模型性能持續提升。
這些結果證明：一個簡潔、可擴展的折疊模型能夠從日益豐富的實驗與模型數據中持續獲益。

作者簡介
Yuyang Wang

Yuyang Wang現為蘋果機器學習研究(MLR)的一名人工智能研究員，目前致力于研究構建通用的擴散模型。
Yuyang Wang獲卡內基梅隆大學（CMU）博士學位，長期從事生成式模型與科學計算的交叉研究。
其興趣集中在flow-matching/擴散等通用生成模型及其在圖像、3D、圖與分子體系中的表示與推斷，并探索以通用Transformer解決蛋白質結構建模等問題。
除論文外， Yuyang Wang重視開源與可復現，經常與跨學科團隊協作，推進藥物發現與蛋白設計等應用。
參考資料：
https://arxiv.org/abs/2509.18480

蘋果掀桌！扔掉AlphaFold核心模塊，開啟蛋白折疊生成式AI時代

推薦閱讀

logo設計主要解決哪些問題

薄荷上面好的下面枯了是什么原因造成的薄荷上面好的下面枯了原因

茉莉花喜歡陽光還是陰涼茉莉花的花語

word手動繪圖筆在哪里 word畫線條在哪里

玻璃擦吸住了怎么打開

湯姆索亞歷險記幽默片段湯姆索亞歷險記幽默片段詳述

會所里bh是什么意思啊

之乎者也的意思是什么

2020春節手抄報鼠年怎么畫

華為p8青春版怎么設置自動鎖屏

小米手機官方旗艦店

夢見出門是什么意思

教你word拐彎箭頭怎么去掉

哈爾濱到伊春的高鐵什么時候建好，哈爾濱到伊春有高鐵嗎

田園貓怎么會胖起來田園貓怎么會胖

車頂架，樹木支撐架做法種了幾顆松樹有四米高上面找繩子固定住了但