強(qiáng)化學(xué)習(xí)也有基礎(chǔ)模型了！DeepMind重磅發(fā)布AdA，堪比人類的新環(huán)境適應(yīng)能力( 二 ) _智能體

文章插圖

該訓(xùn)練方法結(jié)合了三個(gè)關(guān)鍵部分：1）指導(dǎo)智能體學(xué)習(xí)的課程（curriculum）；2）基于模型的RL算法來(lái)訓(xùn)練具有大規(guī)模注意力記憶的代理；以及，3）蒸餾以實(shí)現(xiàn)擴(kuò)展。
1. 開(kāi)放端任務(wù)空間：XLand 2.0
XLand 2.0相比XLand 1.0擴(kuò)展了生產(chǎn)規(guī)則的系統(tǒng)，其中每條規(guī)則都表達(dá)了一個(gè)額外的環(huán)境動(dòng)態(tài)，從而具有更豐富、更多樣化的不同過(guò)渡功能。
XLand 2.0是一個(gè)巨大的、平滑的、多樣化的適應(yīng)問(wèn)題的任務(wù)空間，不同的任務(wù)有不同的適應(yīng)性要求，如實(shí)驗(yàn)、工具用法或分工等。
例如，在一個(gè)需要實(shí)驗(yàn)的任務(wù)中，玩家可能需要識(shí)別哪些物體可以有用地結(jié)合，避免死胡同，然后優(yōu)化他們結(jié)合物體的方式，就像一個(gè)玩具版的實(shí)驗(yàn)化學(xué) 。

文章插圖

每個(gè)任務(wù)可以進(jìn)行一次或多次試驗(yàn)，試驗(yàn)之間的環(huán)境會(huì)被重置，但智能體記憶不會(huì)被重置。
上圖中突出顯示的是兩個(gè)示例任務(wù)，即「Wrong Pair Disappears」和「Pass Over Wall Repeatedly」，展示了目標(biāo)、初始物體、生產(chǎn)規(guī)則以及智能體需要如何與它們互動(dòng)以解決任務(wù) 。
2. 元強(qiáng)化學(xué)習(xí)
根據(jù)黑箱元RL問(wèn)題的設(shè)置，研究人員將任務(wù)空間定義為一組部分可觀察的馬爾科夫決策過(guò)程（POMDPs）。
對(duì)于一個(gè)給定的任務(wù)，試驗(yàn)的定義為從初始狀態(tài)到終端狀態(tài)的任意轉(zhuǎn)換序列。
在XLand中，當(dāng)且僅當(dāng)某個(gè)時(shí)間段∈[10s, 40s]已經(jīng)過(guò)去時(shí) ，任務(wù)才會(huì)終止，每個(gè)任務(wù)都有具體規(guī)定。環(huán)境以每秒30幀的速度變化，智能體每4幀觀察一次，因此任務(wù)長(zhǎng)度以時(shí)間為單位，范圍為[75, 300] 。
一個(gè)episode由一個(gè)給定任務(wù)的試驗(yàn)序列組成。在試驗(yàn)邊界，任務(wù)被重置到一個(gè)初始狀態(tài) 。
在領(lǐng)域內(nèi) ，初始狀態(tài)是確定的，除了智能體的旋轉(zhuǎn)，它是統(tǒng)一隨機(jī)抽樣的。
在黑箱元RL訓(xùn)練中，智能體利用與廣泛分布的任務(wù)互動(dòng)的經(jīng)驗(yàn)來(lái)更新其神經(jīng)網(wǎng)絡(luò)的參數(shù)，該網(wǎng)絡(luò)在給定的狀態(tài)觀察中智能體的行動(dòng)政策分布提供參數(shù) 。
如果一個(gè)智能體擁有動(dòng)態(tài)的內(nèi)部狀態(tài)（記憶），那么元RL訓(xùn)練通過(guò)利用重復(fù)試驗(yàn)的結(jié)構(gòu)，賦予該記憶以隱性的在線學(xué)習(xí)算法。
在測(cè)試時(shí) ，這種在線學(xué)習(xí)算法使智能體能夠適應(yīng)其策略，而無(wú)需進(jìn)一步更新神經(jīng)網(wǎng)絡(luò)權(quán)重，也就是說(shuō)，智能體的記憶不是在試驗(yàn)邊界被重置，而是在episode邊界被重置。
3. 自動(dòng)課程學(xué)習(xí)（Auto-curriculum learning）
鑒于預(yù)采樣任務(wù)池的廣度和多樣性，智能體很難用均勻采樣進(jìn)行有效地學(xué)習(xí)：大多數(shù)隨機(jī)采樣的任務(wù)可能會(huì)太難（或太容易），無(wú)法對(duì)智能體的學(xué)習(xí)進(jìn)度有所幫助。
相反，研究人員使用自動(dòng)化的方法在智能體能力的前沿選擇相對(duì)「有趣」（interesting）的任務(wù)，類似于人類認(rèn)知發(fā)展中的「近側(cè)發(fā)展區(qū)間」（zone of proximal development）。
具體方法為對(duì)現(xiàn)有技術(shù)中的no-op filtering和prioritised level replay（PLR）進(jìn)行擴(kuò)展，能夠極大提升智能體的性能和采樣效率，最終成為了一個(gè)新興的課程，能夠隨著時(shí)間的推移選擇越來(lái)越復(fù)雜的任務(wù) 。
4. RL智能體
學(xué)習(xí)算法
RL算法選擇Mueslie，輸入為一個(gè)歷史相關(guān)的編碼（history-dependent encoding），輸出為RNN或Transformer，AdA學(xué)習(xí)一個(gè)序列模型（LSTM）對(duì)后續(xù)多步預(yù)測(cè)價(jià)值、行動(dòng)分布和獎(jiǎng)勵(lì) 。