訓(xùn)練7萬(wàn)小時(shí)后,OpenAI的模型竟然學(xué)會(huì)在「我的世界」里刨木頭( 三 )
文章圖片
他們發(fā)現(xiàn) , 從隨機(jī)初始化(標(biāo)準(zhǔn)RL方法)訓(xùn)練的RL策略幾乎沒(méi)有獲得任何獎(jiǎng)勵(lì) , 從不學(xué)習(xí)收集日志 , 而且很少收集木棍 。
與之形成鮮明對(duì)比的是 , VPT模型的微調(diào)不僅可以學(xué)習(xí)如何制作鉆石鎬 , 而且在收集所有物品方面的成功率 , 甚至達(dá)到人類水平 。
而這是第一次有人展示能夠在「我的世界」中制作鉆石工具的計(jì)算機(jī)模型 。
參考資料:
【訓(xùn)練7萬(wàn)小時(shí)后,OpenAI的模型竟然學(xué)會(huì)在「我的世界」里刨木頭】https://openai.com/blog/vpt/
相關(guān)經(jīng)驗(yàn)推薦
- 林煒翔排位12小時(shí),Doinb稱他已經(jīng)自閉:不是我隊(duì)友為什么要安慰
- 部落沖突:公認(rèn)首領(lǐng)五大招人手段,第一個(gè)一小時(shí)內(nèi)能招滿50人!
- TMA-112“亂殺”,“做事哥”訓(xùn)練賽一穿四,4AM夏季賽可能雙贏
- 碎片商店更新一小時(shí),墨子龍騎士無(wú)人問(wèn)津,扁鵲救世之瞳成香餑餑
- 第五人格:《時(shí)光代理人》程小時(shí)&陸光建模內(nèi)錄!掛件特效拉滿!
- AG小獸刪微博做準(zhǔn)備,訓(xùn)練賽輪換中輔戰(zhàn)S組,網(wǎng)友吐槽打了傷疤忘疼
- 電競(jìng)選手一天的訓(xùn)練,不只是“打游戲”那么簡(jiǎn)單
- 迷你世界更新失敗!玩家紛紛轉(zhuǎn)玩MC,不到兩個(gè)小時(shí)就成老玩家了!
- 迷你世界更新失敗!玩家紛紛轉(zhuǎn)玩MC,不到兩個(gè)小時(shí)就成老玩家了!
- s28賽季更新一小時(shí),新品戰(zhàn)令銷(xiāo)量翻倍,僅因王昭君1級(jí)戰(zhàn)令撐排面
