華人團隊打造生物AI架構師,助力生物AI更懂生命語言

華人團隊打造生物AI架構師,助力生物AI更懂生命語言

文章圖片

華人團隊打造生物AI架構師,助力生物AI更懂生命語言

文章圖片


近日 , 美國弗吉尼亞理工大學博士生方燚和所在團隊開發出一款名為 BIOARC 的智能系統 , 能夠自動設計出來最適合處理生物數據的神經網絡模型 。 簡而言之 , 它是生物學自己的 AI 建筑師 , 能夠設計出來真正理解生物密碼的模型結構 。

它的核心思想是:無需依靠人工猜測 , 而是讓 AI 自己探索成千上萬的不同的模型結構 , 從中找出來最適合處理某類生物數據的那一個 。


圖 | 方燚(來源:方燚)

方燚告訴 DeepTech:“BIOARC 僅需相當于傳統 Transformer 模型約二十分之一的參數量 , 即可實現更好的性能 。 從創新性角度看 , 這可能是首次采用數據驅動的方式 , 系統探索并確定適用于生物序列建模的最優架構 。 以往的設計多基于直覺和經驗 , 而我們首次實現了通過自動化搜索來發現高效架構 。 ”

那么 , BIOARC 是怎么做到的?我們都知道假如一名人類設計師要設計一棟房子 , 那么至少在設計師的草圖上 , 房間的大小、位置和連接方式都可以變化 。 BIOARC 也是這樣 , 它可以把 AI 模型拆為幾種基礎的板塊 。

第一個板塊是卷積神經網絡 , 其非常擅長捕捉局部特征 , 就像放大鏡一樣可以看清楚 DNA 上的片段模式;第二個板塊是 Transformer , 其非常擅長理解長遠距離的關聯 , 就像望遠鏡一樣可以看清楚基因中相隔很遠的區域是如何互動的;第三個板塊是 Hyena 和 Mamba , 它們是兩種比較新的模型 , 能夠更加高效地處理超長序列 。

BIOARC 所使用的模型比當前流行的大型生物 AI 模型要小很多 , 但是表現卻更加優秀 。 在一些 DNA 任務上 , BIOARC 模型的大小只有傳統模型的二十分之一 , 但是效果卻能得到顯著提升 。 這說明:不是模型越大越好 , 而是結構越合適越好 。

比如 , 在處理 DNA 序列的時候 , BIOARC 發現高性能模型常常呈現出一種三層結構:先使用 Hyena 塊捕捉長距離關系 , 再使用 Transformer 塊理解復雜上下文 , 最后使用卷積神經網絡塊來提取關鍵局部特征 。 這種組合就像先觀看整幅地圖 , 再分析重要區域 , 最后聚焦的關鍵地標 , 一步步地理解整個序列的能力 。

BIOARC 不僅能夠設計模型 , 還可以充當顧問的角色 。 科學家們經常面臨新的任務:比如分析某種病毒的 RNA , 或者預測某個罕見蛋白質的結構 。 以前 , 他們得自己嘗試很多模型 , 不僅費時而且費力 。 現在 , 他們只需要把任務描述輸入 BIOARC 系統 , 它就能從知識庫中找到類似的任務 , 并推薦之前表現最好的幾種模型結構 , 從而可以大大節約研究時間和實驗時間 。

同時 , BIOARC 內部還有一個智能助理系統 , 能夠理解那些科學家使用自然語言描述的任務 , 然后進行語義匹配 , 而非只進行簡單的關鍵詞搜索 。 這意味著即使你描述得不太專業 , 它也能明白你的需求 , 并能找到最相關的歷史案例和模型方案 。


(來源:https://arxiv.org/abs/2512.00283)

我們當前使用的 AI 大多使用的是 Transforme 模型 , 它最初是為處理人類語言而設計的 。 但是 , 生物數據比如 DNA 序列或蛋白質結構 , 和人類語言是完全不同的 。 前者不像句子那樣有著明確的單詞和語法 , 而是由一系列化學密碼組成 , 其間隱藏著復雜的空間結構和遠程關聯、

【華人團隊打造生物AI架構師,助力生物AI更懂生命語言】舉個簡單的例子 , 在英文句子中單詞“貓”后面常接“抓老鼠” , 這種關系是局部的和有順序的 。 但是 , 在 DNA 中一個基因的啟動區域可能和幾千個堿基意外的另一個區域發生相互影響之后 , 才可以啟動生命活動 。 如果直接使用處理語言的 AI 模型去讀 DNA , 就像使用英文語法去理解一段音樂樂譜一樣 , 雖然都是符號 , 但是規則完全不同 , 效果自然也就不好 。


(來源:https://arxiv.org/abs/2512.00283)

而本次技術則具有廣泛的應用前景 。 任何涉及蛋白質或 DNA 序列分析的場景都可能受益 , 例如對特定物種的 DNA 進行分類 , 或預測蛋白質結構 。 此外 , 由于此次發現的架構具有一定可解釋性 , 未來亦有望幫助揭示更多潛在的生物學規律 。

談及本次技術和 AlphaFold 等已有工具的關系 , 方燚表示:“AlphaFold 屬于生成式模型 , 需將序列映射到潛空間進行結構生成 。 我們的工作則能幫助構建更優的序列編碼器 , 從而更有效地將蛋白質或 DNA 映射到統一的表征空間中 , 與現有工具形成功能上的互補與增強 。 ”


(來源:https://arxiv.org/abs/2512.00283)

他繼續說道:“關于后續研究計劃 , 我們希望將當前方法拓展到更多模態上 。 目前工作集中于 DNA 和蛋白質序列 , 下一步計劃將其應用于基因表達值序列等數據類型 。 另一個方向是 , 當前研究主要針對單模態架構 , 未來我們也將探索多模態架構 , 例如在同一模型中處理多種數據類型 , 并研究不同模態間是否存在最優的架構組合方式 。 ”

參考資料:
相關論文 https://arxiv.org/abs/2512.00283

運營/排版:何晨龍

    推薦閱讀