圖像的卷積和池化操作,卷積操作( 三 )

2026-04-26 云知道操作

學習率預熱：在預熱這一啟發式方法中，我們在最初使用較小的學習率，然后在訓練過程變得穩定時換回初始學習率。Zero γ：注意 ResNet 塊的最后一層可以是批歸一化層（BN）。在 zero γ啟發式方法中，我們對所有殘差塊末端的 BN 層初始化γ=0 。因此，所有的殘差塊僅返回輸入值，這相當于網絡擁有更少的層，在初始階段更容易訓練。
無偏衰減：無偏衰減啟發式方法僅應用權重衰減到卷積層和全連接層的權重，其它如 BN 中的γ和β都不進行衰減。表 4：ResNet-50 上每種有效訓練啟發式的準確率效果。3.2 低精度訓練然而，新硬件可能具有增強的算術邏輯單元以用于較低精度的數據類型。盡管具備性能優勢，但是精度降低具有較窄的取值范圍，因此有可能出現超出范圍而擾亂訓練進度的情況。
表 3：ResNet-50 在基線（BS = 256 與 FP32）和更高效硬件設置（BS = 1024 與 FP16）之間的訓練時間和驗證準確率的比較。4 模型變體我們將簡要介紹 ResNet 架構，特別是與模型變體調整相關的模塊。ResNet 網絡由一個輸入主干、四個后續階段和一個最終輸出層組成，如圖 1 所示。
輸入主干有一個 7×7 卷積，輸出通道有 64 個，步幅為 2，接著是 3 ×3 最大池化層，步幅為 2 。輸入主干（input stem）將輸入寬度和高度減小 4 倍，并將其通道尺寸增加到 64 。從階段 2 開始，每個階段從下采樣塊開始，然后是幾個殘差塊。在下采樣塊中，存在路徑 A 和路徑 B 。路徑 A 具有三個卷積，其卷積核大小分別為 1×1、3×3 和 1×1 。
第一個卷積的步幅為 2，以將輸入長度和寬度減半，最后一個卷積的輸出通道比前兩個大 4 倍，稱為瓶頸結構。路徑 B 使用步長為 2 的 1×1 卷積將輸入形狀變換為路徑 A 的輸出形狀，因此我們可以對兩個路徑的輸出求和以獲得下采樣塊的輸出。殘差塊類似于下采樣塊，除了僅使用步幅為 1 的卷積。我們可以改變每個階段中殘差塊的數量以獲得不同的 ResNet 模型，例如 ResNet-50 和 ResNet-152，其中的數字表示網絡中卷積層的數量。
圖 1：ResNet-50 的架構。圖中說明了卷積層的卷積核大小、輸出通道大小和步幅大?。J值為 1），池化層也類似。圖 2：三個 ResNet 變體。ResNet-B 修改 ResNet 的下采樣模塊。ResNet-C 進一步修改輸入主干。在此基礎上，ResNet-D 再次修改了下采樣塊。表 5：將 ResNet-50 與三種模型變體進行模型大?。▍禂盗浚LOPs 和 ImageNet 驗證準確率（top-1、top-5）的比較。
5 訓練方法改進5.1 余弦學習率衰減Loshchilov 等人 [18] 提出余弦退火策略，其簡化版本是按照余弦函數將學習速率從初始值降低到 0 。假設批次總數為 T（忽略預熱階段），然后在批次 t，學習率η_t 計算如下：其中η是初始學習率，我們將此方案稱為「余弦」衰減。圖 3：可視化帶有預熱方案的學習率變化。
頂部：批量大小為 1024 的余弦衰減和按迭代步衰減方案。底部：關于兩個方案的 top-1 驗證準確率曲線。5.2 標簽平滑標簽平滑的想法首先被提出用于訓練 Inception-v2 [26] 。它將真實概率的構造改成：其中ε是一個小常數，K 是標簽總數量。圖 4：ImageNet 上標簽平滑效果的可視化。
頂部：當增加ε時，目標類別與其它類別之間的理論差距減小。下圖：最大預測與其它類別平均值之間差距的經驗分布。很明顯，通過標簽平滑，分布中心處于理論值并具有較少的極端值。5.3 知識蒸餾在知識蒸餾 [10] 中，我們使用教師模型來幫助訓練當前模型（被稱為學生模型）。教師模型通常是具有更高準確率的預訓練模型，因此通過模仿，學生模型能夠在保持模型復雜性相同的同時提高其自身的準確率。

推薦閱讀

上一篇：城市軌道交通車輛技術的就業方向

下一篇：電腦的本地連接不見了怎么辦,網絡連接不上怎么辦