欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

深度學習|深度學習,對如何更好地表示計算機的化學結構的問題,有著濃厚的興趣

深度學習|深度學習,對如何更好地表示計算機的化學結構的問題,有著濃厚的興趣

文章圖片

深度學習|深度學習,對如何更好地表示計算機的化學結構的問題,有著濃厚的興趣

文章圖片

深度學習|深度學習,對如何更好地表示計算機的化學結構的問題,有著濃厚的興趣

文章圖片


深度學習模型的有效評估需要對數據進行后續拆分 。 對模型進行訓練的數據進行評估會導致嚴重的過度擬合 , 在這種情況下 , 模型會學習重現該特定數據集 , 而不是其背后的趨勢 。 為了停止這種對數據的“記憶” , 通常會在模型尚未見過的數據上對其進行測試 。 這通常通過將數據分成三個獨立的集合來完成:訓練、驗證和測試集 。 訓練集被完整地提供給網絡 , 其標簽用于在監督學習中調整網絡的參數 。



驗證用于通過提供對未見示例的性能的恒定估計來確保模型不會過度擬合 。 除此之外 , 在訓練多個模型時 , 驗證數據用于識別性能最佳的模型 。 最后 , 第三個數據集 , 即測試集 , 被用作所選模型對剩余數據的最終性能評估 。 為了消除將數據劃分到這些集合中的任何偏差 , 使用了折交叉驗證 , 其中數據劃分過程隨機k次 。 任何模型都高度依賴于數據的表示方式 。



因此 , 深度學習對如何最好地表示計算機的化學結構這一長期存在的化學信息學問題有著濃厚的興趣 。 某些模型的附加要求是固定大小的輸入 。 這通常是通過用零填充較小分子的表示來實現的 。 分子圖是由兩邊連接的一組頂點 。 這可以用矩陣的形式表示 。 最初 , 深度學習模型使用擴展連接指紋 。 這些包括為每個原子分配一個整數標識符 , 并通過擴展分析其中包含的原子的圓形半徑來更新它以包含來自相鄰原子的信息 。

在這個圈內 , 對原子進行排序以實現置換不變性 , 并通過將空間信息壓縮成整數標識符 , 同時滿足兩個空間不變性 。 這些整數標識符中的每一個都通過散列函數傳遞以產生一個數字 , 當與算術結合時 , 允許將固定向量中的特定索引切換為一個 。 該向量具有固定大小 , 實現了三個不變性 , 但只包含零和一 , 因此被稱為位向量 。 這是啟發下面描述的基于分子圖的模型的基本方法 。

保留了在保持其不變性的同時收集有關原子局部環境的信息的想法 , 但至關重要的是 , 它們將分子信息編碼為實值向量 , 從而可以嵌入更豐富的信息 。 簡化分子輸入行輸入系統是一種經典的化學信息學表示 , 它使用一組有序規則和專門的語法將三維化學結構編碼為文本字符串 。 可以在此基礎上應用附加程序創建排列不變性 , 這個過程稱為規范化 。

另一個常用的基于文本的標識符 , 即國際化學標識符 , 由于多項研究發現其更復雜的數字公式會導致預測性能下降 , 因此并未經常用于深度學習 。 簡化分子輸入行輸入系統包含描述化學轉化的專門語法 , 也經常用于機器學習中 , 用于對反應數據集進行操作的模型 。 分子圖輸入目前占主導地位 , 因為它們能夠提取更高級別的特征以及隨之而來的預測性能的提高 。

【深度學習|深度學習,對如何更好地表示計算機的化學結構的問題,有著濃厚的興趣】必須注意 , 還有其他表示 , 例如點云和庫侖矩陣也被使用 。 最后 , 無論表示形式如何 , 分子必須輸入數據集才能轉換為模型輸入 。 為了將文學語料庫中的大量結構數字化 , 深度學習已被用于自動化這些結構的數字化 。 該模型在任何給定的深度學習框架中 , 模型是將數據轉換為預測、分類或操作的組件 。 該模型依賴于其學習者、評估和優化之間的相互作用 。 學習器包含一組參數 , 這些參數定義了每個輸入點如何轉換為輸出 。 然后通過評估或成本函數將該預測與期望的輸出進行定量比較 。

相關經驗推薦