了解學習率及其如何提高深度學習的性能
首先,什么是學習率?
學習率(Learning Rate,LR。常用η表示。)是一個超參數(shù),考慮到損失梯度,它控制著我們在多大程度上調(diào)整網(wǎng)絡(luò)的權(quán)重。值越低,沿著向下的斜率就越慢。雖然這可能是一個好主意(使用低學習率),以確保我們不會錯過任何局部最小值;但也有可能意味著我們將耗費很久的時間來收斂——特別是當我們陷入平坦區(qū)(plateau region)的時候。
AI前線:如果使用很高的學習率,訓練可能根本不會收斂,甚至會發(fā)散。權(quán)重的該變量可能會非常大,使得優(yōu)化越過最小值,導致?lián)p失函數(shù)變得更糟。
下面的公式顯示了這種關(guān)系:
new_weight = existing_weight — learning_rate * gradient
學習率很?。ㄉ蠄D)與學習率很大(下圖)的梯度下降。(來源:Coursera機器學習課程,Andrew Ng)
通常,學習率是由用戶隨機配置的。在最好的情況下,用戶可以利用過去的經(jīng)驗(或者其他類型的學習材料)來獲得關(guān)于設(shè)置學習率最佳值的直覺。
因此,很難做到這一點。下圖演示了配置學習率時可能會遇到的不同場景。
不同學習率對收斂的影響:(圖片來源:csn231n)
此外,學習率會影響模型收斂到局部最小值的速度(也就是達到最佳的精度)。因此,在正確的方向做出正確的選擇,意味著我們只需更少的時間來訓練模型。
訓練時間越少,則花在GPU云計算上的錢就越少。:)
AI前線:目前深度學習使用的都是一階收斂算法:梯度下降法。不管有多少自適應的優(yōu)化算法,本質(zhì)上都是對梯度下降法的各種變形。故初始學習率對深層網(wǎng)絡(luò)的收斂起著決定性的作用。
有沒有更好的方法來確定學習率?
在“訓練神經(jīng)網(wǎng)絡(luò)的循環(huán)學習率(Cyclical Learning Rates (CLR)for Training Neural Networks)”[4]的第3.3節(jié)中。Leslie N. Smith認為,通過在每次迭代中以非常低的學習率來增加(線性或指數(shù))的方式訓練模型,可以估計好的學習率。
AI前線:周期性學習率(Cyclical Learning Rates,CLR),即學習率退火與熱重啟,最初由Smith于2015年首次提出。這是一種新的學習率方法,和以前的不同,或者固定(fixed)或者單調(diào)遞減。要使用CLR,需指定這三個參數(shù):max_lr、base_lr、stepsize。
學習率在每個小批量之后增加
如果我們在每次迭代中記錄學習率和訓練損失,然后據(jù)此繪出曲線圖;我們將會看到,隨著學習率的提高,將會有一個損失停止下降并開始增加的點。在實踐中,理想情況下,學習率應該是在左圖的最低點(如下圖所示)。在該例中為0.001到0.01之間。
以上看起來很有用。我該如何開始使用它?
目前,它被作為fast.ai深度學習庫的一個函數(shù)來支持。由Jeremy Howard開發(fā),是用來抽象PyTorch深度學習框架的一種方式,就像Keras是對TensorFlow框架的抽象。
AI前線: fast.ai深度學習庫是fast.ai基于PyTorch的基礎(chǔ)上創(chuàng)建的自有軟件庫,并且他們認為,這將有助于更加清晰地展示深度學習的概念,同時有助于實現(xiàn)最佳編碼。采用Apache 2.0許可證,可免費使用。
只需輸入以下命令,就可以在訓練神經(jīng)網(wǎng)絡(luò)之前找到最佳學習率。
# learn is an instance of Learner class or one of derived classes like ConvLearner
learn.lr_find()
learn.sched.plot_lr()
精益求精
在這個關(guān)鍵時刻,我們已經(jīng)討論了學習率的全部內(nèi)容和它的重要性,以及我們?nèi)绾卧陂_始訓練模型時系統(tǒng)地達到最佳的使用價值。
接下來,我們將討論如何使用學習率來提高模型的性能。
一般看法
通常情況下,當一個人設(shè)定學習率并訓練模型時,只有等待學習率隨著時間的推移而降低,并且模型最終會收斂。
然而,隨著梯度逐漸趨于穩(wěn)定時,訓練損失也變得難以改善。在[3]中,Dauphin等人認為,最大限度地減少損失的難度來自于鞍點,而非局部極小值。
AI前線:鞍點是梯度接近于0的點,在誤差曲面中既不是最大值也不是最小值的平滑曲面,則一般結(jié)果表現(xiàn)為性能比較差;如果該駐點是局部極小值,那么表現(xiàn)為性能較好,但不是全局最優(yōu)值。
誤差曲面中的鞍點。鞍點是函數(shù)的導數(shù)變?yōu)榱愕c不是所有軸上的局部極值的點。(圖片來源:safaribooksonline)
那么我們該如何擺脫呢?
有幾個選項我們可以考慮。一般來說,從[1]引用一句:
……而不是使用一個固定值的學習率,并隨著時間的推移而降低,如果訓練不會改善我們的損失,我們將根據(jù)一些循環(huán)函數(shù)f來改變每次迭代的學習率。每個周期的迭代次數(shù)都是固定的。這種方法讓學習率在合理的邊界值之間循環(huán)變化。這有助于解決問題,因為如果我們被困在鞍點上,提高學習率可以更快速地穿越鞍點。
在[2]中,Leslie提出了一種“Triangular”的方法,在每次迭代之后,學習率都會重新開始。
Leslie N. Smith提出的“Triangular”和“Triangular2”循環(huán)學習率的方法。在左邊的圖上,min和max lr保持不變。在右邊,每個周期之后的差異減半。
另一種同樣受歡迎的方法是由Loshchilov和Hutter提出的熱重啟的隨機梯度下降法(Stochastic Gradient Descent with Warm Restarts,SGDR)[6]。這種方法主要利用余弦函數(shù)作為循環(huán)函數(shù),并在每個周期的最大值重新開始學習率。“熱重啟”一詞源于這樣的一個事實:當學習率重新開始的時候,并不是從頭開始,而是來自模型在上一步收斂的參數(shù)開始[7]。
AI前線:熱重啟后的初始高學習率用于基本上將參數(shù)從它們先前收斂的最小值彈射到不同的損失表面。根據(jù)經(jīng)驗,熱重啟的隨機梯度下降法需要的時間比學習率退火要少2~4倍,且能達到相當或更好的性能。
雖然有這種變化,下面的圖表展示了它的一個實現(xiàn),其中每個周期都被設(shè)置為同一時間周期。
SGDR圖,學習率與迭代。
因此,我們現(xiàn)在有一種減少訓練時間的方法,基本上就是周期性地在“山脈”周圍跳躍(下圖)。
比較固定學習率和循環(huán)學習率(圖片來源:ruder.io)
除了節(jié)省時間外,研究還表明,使用這些方法往往可以提高分類準確性,而無需進行調(diào)優(yōu),而且可以在更少的迭代次數(shù)內(nèi)完成。
遷移學習(Transfer Learning)中的學習率
在fast.ai課程中,在解決AI問題時,非常重視利用預先訓練的模型。例如,在解決圖像分類問題時,教授學生如何使用預先訓練好的模型,如VGG或Resnet50,并將其連接到想要預測的任何圖像數(shù)據(jù)集。
總結(jié)如何在fast.ai中完成模型構(gòu)建(注意該程序不要與fast.ai深度學習庫混淆),下面是我們通常采取的幾個步驟[8]:
1. 啟用數(shù)據(jù)增強,precompute=True。
2. 使用lr_find()
查找最高的學習率,在此情況下,損失仍在明顯改善。
3. 訓練最后一層從預計算激活1~2個輪數(shù)。
4. 在cycle_len=1的情況下訓練最后一層數(shù)據(jù)增加(即precompute=False)2~3個輪數(shù)。
5. 解除所有層的凍結(jié)。
6. 將較早的層設(shè)置為比下一個較高層低3~10倍的學習率。
7. 再次使用lr_find()
。
8. 使用cycle_mult=2訓練完整網(wǎng)絡(luò),直到過度擬合。
從上面的步驟中,我們注意到第2步、第5步和第7步關(guān)注了學習率。在這篇文章的前半部分,我們已經(jīng)基本討論了涵蓋了上述步驟中的第2項——我們在這里討論了如何在訓練模型之前得出最佳學習率。
AI前線:輪數(shù),epoch,即對所有訓練數(shù)據(jù)的一輪遍歷。
在接下來的部分中,我們通過使用SGDR來了解如何通過重新開始學習速率來減少訓練時間和提高準確性,以避免梯度接近于0的區(qū)域。
在最后一節(jié)中,我們將重點討論差分學習,以及它是如何被用來在訓練模型與預先訓練的模型相結(jié)合時確定學習率的。
什么是差分學習?
這是一種在訓練期間為網(wǎng)絡(luò)中的不同層設(shè)置不同的學習率的方法。這與人們通常如何配置學習率相反,即在訓練期間在整個網(wǎng)絡(luò)中使用相同的速率。
這是我為什么喜歡Twitter的原因之一——可以直接從作者本人得到答案。
在寫這篇文章的時候,Jeremy和Sebastian Ruder發(fā)表了一篇論文,深入探討了這個話題。所以我估計差分學習率現(xiàn)在有一個新的名字:判別式微調(diào)(discriminative fine-tuning)。 :)
AI前線:判別式微調(diào)對較底層進行微調(diào)以調(diào)到一個相較于較高層較低的程度,從而保留通過語言建模所獲得的的知識。它可以避免微調(diào)過程中產(chǎn)生嚴重的遺忘。
為了更清楚地說明這個概念,我們可以參考下圖,其中一個預訓練模型被分成3個組,每個組都配置了一個遞增的學習率值。
差分學習率的CNN樣本。圖片來自[3]
這種配置方法背后的直覺是,最初的幾層通常包含數(shù)據(jù)的非常細粒度的細節(jié),如線條和邊緣——我們通常不希望改變太多,并且保留它的信息。因此,沒有太多的需要去大量改變它們的權(quán)重。
相比之下,在后面的層中,比如上面綠色的層——我們可以獲得眼球或嘴巴或鼻子等數(shù)據(jù)的詳細特征;我們可能不一定要保留它們。
與其他微調(diào)方法相比,它表現(xiàn)如何?
在[9]中,有

責任編輯:售電衡衡
- 相關(guān)閱讀
- 泛在電力物聯(lián)網(wǎng)
- 電動汽車
- 儲能技術(shù)
- 智能電網(wǎng)
- 電力通信
- 電力軟件
- 高壓技術(shù)
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市