欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

小米科技|加州大學研發機器狗,十分鐘“學會”自我行走

小米科技|加州大學研發機器狗,十分鐘“學會”自我行走

文章圖片

小米科技|加州大學研發機器狗,十分鐘“學會”自我行走

文章圖片


【小米科技|加州大學研發機器狗,十分鐘“學會”自我行走】
這只機器狗像一只著急的甲蟲一樣 , 在空中擺動著雙腿 。 經過10分鐘的掙扎 , 它成功地翻了過來 。 半小時后 , 這只機器狗像剛出生的牛犢一樣笨拙地邁出了第一步 。 但一小時后 , 它就自信滿滿地在實驗室里昂首闊步 。

(來源:《麻省理工科技評論》)
這個四條腿的機器人的特別之處在于 , 它自發地學會了這一切 , 而不需要計算機仿真程序告訴它該怎么做 。
加州大學伯克利分校的丹尼亞爾·哈夫納(DanijarHafner)和他的同事們使用了一種叫做強化學習的人工智能技術 , 這種技術通過獎勵各種算法的有利行為來進行學習 , 以訓練機器人在現實世界中從一無所知到能夠行走 。 該團隊使用了同樣的算法 , 成功地訓練了其他三個機器人 , 比如其中一個機器人能夠撿起球并將這個球從一個托盤移動到另一個 。
就傳統方法而言 , 機器人在現實世界中嘗試做任何事情之前都要在計算機模擬仿真中進行訓練 。 例如 , 一對名為Cassie的機器腿 , 在計算機模擬中通過強化學習進行訓練之后 , 才在現實中學會了走路 。
問題是 , 你的計算機模擬程序永遠不會準確得跟現實世界一樣 。 你總是會錯估這個世界的某些方面 , ”哈夫納說 , 他與同事亞歷山卓·埃斯康特雷拉(AlejandroEscontrela)和菲利普·吳(PhilippWu)一起參與了這個項目 , 現在成了DeepMind公司的實習生 。
他說 , 將模擬器中的經驗教訓應用到現實世界中也需要額外的工程實踐 。 該團隊的算法被稱為“夢想者” , 它利用過去的經驗建立了一個周圍環境的模型 。
“夢想者”還允許機器人通過預測其潛在行為的未來可能結果 , 在計算機程序而非現實環境下反復進行試錯法計算 。
這使得機器人能夠比在純粹在現實環境中學習的速度更快 。 一旦機器人學會了行走 , 它就會不斷學習適應意料之外的情況 , 比如抵抗被棍子推倒 。
紐約大學計算機科學助理教授勒雷爾·平托(LerrelPinto)說:“通過試錯法訓練機器人是一個難題 , 因為這種訓練需要漫長的時間 , 而這也使得訓練本身變得更加困難 。 ”
他說 , “夢想者”算法表明 , 深度強化學習和環境模型能夠在很短的時間內教授機器人新技能 。
俄勒岡州立大學的機器人學教授喬納森·赫斯特(JonathanHurst)說 , 這些尚未經過同行評審的研究結果清楚表明 , “強化學習將成為未來機器人控制領域的基石 。 ”
從機器人的訓練階段中取消仿真模擬器有很多額外好處 。 哈夫納說 , 該算法可以用于教機器人如何在現實世界中學習技能和適應硬件故障等情況——例如 , 機器人可以在一條腿上的電機出現故障的情況下學習行走 。
愛丁堡大學人工智能學科的助理教授斯蒂凡諾·阿爾布雷希特(StefanoAlbrecht)說 , 這種方法還可能在更復雜的事情上有巨大應用潛力 , 比如需要復雜且昂貴模擬器的自動駕駛領域 。
阿爾布雷希特說 , 新一代的強化學習算法可能“在現實世界中快速理解環境是如何運行的” 。
但平托說 , 還有一些尚未解決的大問題 。
在強化學習里 , 工程師需要在他們的代碼中指定訓練對象的哪些行為是好的 , 并以此給予獎勵 , 也要界定哪些行為是不受歡迎的 。 在機器狗的例子里 , 翻身和走路很好 , 而不走路則不好 。

相關經驗推薦