欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

訓(xùn)練7萬(wàn)小時(shí)后,OpenAI的模型竟然學(xué)會(huì)在「我的世界」里刨木頭( 三 )


文章圖片
他們發(fā)現(xiàn) , 從隨機(jī)初始化(標(biāo)準(zhǔn)RL方法)訓(xùn)練的RL策略幾乎沒(méi)有獲得任何獎(jiǎng)勵(lì) , 從不學(xué)習(xí)收集日志 , 而且很少收集木棍 。
與之形成鮮明對(duì)比的是 , VPT模型的微調(diào)不僅可以學(xué)習(xí)如何制作鉆石鎬 , 而且在收集所有物品方面的成功率 , 甚至達(dá)到人類水平 。
而這是第一次有人展示能夠在「我的世界」中制作鉆石工具的計(jì)算機(jī)模型 。
參考資料:
訓(xùn)練7萬(wàn)小時(shí)后,OpenAI的模型竟然學(xué)會(huì)在「我的世界」里刨木頭】https://openai.com/blog/vpt/

相關(guān)經(jīng)驗(yàn)推薦