圖像的卷積和池化操作,卷積操作( 三 )


學習率預熱:在預熱這一啟發式方法中,我們在最初使用較小的學習率,然后在訓練過程變得穩定時換回初始學習率 。Zero γ:注意 ResNet 塊的最后一層可以是批歸一化層(BN) 。在 zero γ啟發式方法中,我們對所有殘差塊末端的 BN 層初始化γ=0 。因此,所有的殘差塊僅返回輸入值,這相當于網絡擁有更少的層,在初始階段更容易訓練 。
無偏衰減:無偏衰減啟發式方法僅應用權重衰減到卷積層和全連接層的權重,其它如 BN 中的γ和β都不進行衰減 。表 4:ResNet-50 上每種有效訓練啟發式的準確率效果 。3.2 低精度訓練然而,新硬件可能具有增強的算術邏輯單元以用于較低精度的數據類型 。盡管具備性能優勢,但是精度降低具有較窄的取值范圍,因此有可能出現超出范圍而擾亂訓練進度的情況 。
表 3:ResNet-50 在基線(BS = 256 與 FP32)和更高效硬件設置(BS = 1024 與 FP16)之間的訓練時間和驗證準確率的比較 。4 模型變體我們將簡要介紹 ResNet 架構,特別是與模型變體調整相關的模塊 。ResNet 網絡由一個輸入主干、四個后續階段和一個最終輸出層組成,如圖 1 所示 。
輸入主干有一個 7×7 卷積,輸出通道有 64 個,步幅為 2,接著是 3 ×3 最大池化層,步幅為 2 。輸入主干(input stem)將輸入寬度和高度減小 4 倍,并將其通道尺寸增加到 64 。從階段 2 開始,每個階段從下采樣塊開始,然后是幾個殘差塊 。在下采樣塊中,存在路徑 A 和路徑 B 。路徑 A 具有三個卷積,其卷積核大小分別為 1×1、3×3 和 1×1 。
第一個卷積的步幅為 2,以將輸入長度和寬度減半,最后一個卷積的輸出通道比前兩個大 4 倍,稱為瓶頸結構 。路徑 B 使用步長為 2 的 1×1 卷積將輸入形狀變換為路徑 A 的輸出形狀,因此我們可以對兩個路徑的輸出求和以獲得下采樣塊的輸出 。殘差塊類似于下采樣塊,除了僅使用步幅為 1 的卷積 。我們可以改變每個階段中殘差塊的數量以獲得不同的 ResNet 模型,例如 ResNet-50 和 ResNet-152,其中的數字表示網絡中卷積層的數量 。
圖 1:ResNet-50 的架構 。圖中說明了卷積層的卷積核大小、輸出通道大小和步幅大?。J值為 1),池化層也類似 。圖 2:三個 ResNet 變體 。ResNet-B 修改 ResNet 的下采樣模塊 。ResNet-C 進一步修改輸入主干 。在此基礎上,ResNet-D 再次修改了下采樣塊 。表 5:將 ResNet-50 與三種模型變體進行模型大?。▍禂盗浚LOPs 和 ImageNet 驗證準確率(top-1、top-5)的比較 。
5 訓練方法改進5.1 余弦學習率衰減Loshchilov 等人 [18] 提出余弦退火策略,其簡化版本是按照余弦函數將學習速率從初始值降低到 0 。假設批次總數為 T(忽略預熱階段),然后在批次 t,學習率η_t 計算如下:其中η是初始學習率,我們將此方案稱為「余弦」衰減 。圖 3:可視化帶有預熱方案的學習率變化 。
頂部:批量大小為 1024 的余弦衰減和按迭代步衰減方案 。底部:關于兩個方案的 top-1 驗證準確率曲線 。5.2 標簽平滑標簽平滑的想法首先被提出用于訓練 Inception-v2 [26] 。它將真實概率的構造改成:其中ε是一個小常數,K 是標簽總數量 。圖 4:ImageNet 上標簽平滑效果的可視化 。
頂部:當增加ε時,目標類別與其它類別之間的理論差距減小 。下圖:最大預測與其它類別平均值之間差距的經驗分布 。很明顯,通過標簽平滑,分布中心處于理論值并具有較少的極端值 。5.3 知識蒸餾在知識蒸餾 [10] 中,我們使用教師模型來幫助訓練當前模型(被稱為學生模型) 。教師模型通常是具有更高準確率的預訓練模型,因此通過模仿,學生模型能夠在保持模型復雜性相同的同時提高其自身的準確率 。

推薦閱讀