還有比這更狠的學霸?AI:我教我自己


還有比這更狠的學霸?AI:我教我自己



要學的東西太簡單?太難?人類可能會因此無聊或沮喪,但人工智能不會 。 在剛結束不久的神經信息處理系統大會(NeurIPS)上,來自加州大學伯克利分校和谷歌的研究者展示了一項新方法,讓人工智能自己訓練自己 。
這一新方法有望讓自動駕駛汽車、家用機器人更快地學習,甚至可能幫助攻破懸而未決的數學難題 。
人工智能在地圖導航領域已有不少研究,其中一種實驗方法是讓人工智能程序沿著有實心分布塊的2D網格導航 。 為了讓程序更快地熟悉復雜環境并到達目的地,科學家會對其反復訓練,從而達到強化目的,進而提高人工智能的應用程度 。
新發布的研究中,來自加州大學伯克利分校的邁克爾·丹尼斯(Michael Dennis)和谷歌科學家娜塔莎·杰奎斯(Natasha Jaques)考慮了兩種繪制地圖的方法 。 第一種方法是在網格中隨機安排分布塊,但這一方法并沒有讓人工智能程序有很大提升 。 第二種方法則讓人工智能程序記住過去的嘗試,并相應地提升訓練難度——但這種方法的瓶頸在于,有時訓練模式的難度太大,程序根本無法完成 。
【還有比這更狠的學霸?AI:我教我自己】為此,丹尼斯和杰奎斯等人創造了一個合適的環境,讓人工智能自我訓練 。 在名為“配對”(PAIRED)的新訓練方法中,他們先將已有的人工智能程序與另一個幾乎相同的程序結合,二者間的優勢各不相同,但它們互為“對手” 。 在這一模式中,已有的人工智能程序是主角,但因為遇到了旗鼓相當的“對手”,挑戰變得非常困難,也正因此,其解決問題的能力一直處于臨界狀態 。
經過一系列訓練,作為主角的人工智能程序可以解決大約五分之一的新問題 。 在NeurIPS的討論會上,丹尼斯表示他們對新成果即將開展的大量工作感到非常興奮 。
同期,在討論會上發布的另一項研究中,杰奎斯和同事已經在用PAIRED訓練其他人工智能程序,使之學會自動填寫網絡表單并預定航班 。 與傳統模式相比,采用新訓練模式的成功率大概有50% 。
對此,人工智能促進協會主席、康奈爾大學的計算機科學家巴特·塞爾曼(Bart Selman)表示,PAIRED是一種機智的人工智能訓練方法 。
塞爾曼等人在討論會上介紹的研究也與人工智能的自我訓練有關 。 他們設計的人工智能程序需要在推箱子游戲中將方塊推向目標位置 。 如果規劃不當,方塊很可能陷入死胡同 。
為了訓練人工智能,塞爾曼和同事創建了一組更簡易的拼圖 。 訓練程序會根據人工智能的表現好壞,選擇不同難度的“考題”,從而讓訓練計劃達到合適的水準 。
不過目前為止,考題對人工智能而言難還是簡單并不好預測 。 在出給人工智能的225道考題中,有80%被破解,其中約三分之一的考題完全來自新的訓練方法 。 塞爾曼表示,這一研究發現非常有趣,未來,他們希望將有關成果應用到未解決的數學難題上 。

    推薦閱讀