由Facebook人工智能實驗室和卡耐基梅隆大學(CMU)研究人員設計的一個項目在一系列六人無限制德州撲克游戲中擊敗了一些世界頂級撲克玩家 。有這樣一群殘疾人玩家,他們水平高超,吊打普通玩家,甚至連職業選手都不在話下!就算是殘疾人,玩游戲一樣可以和平常人一樣發光發熱!今天小弟就帶大家一起瞅瞅!Undaunted工會:一個聾啞人工會,拿下了魔獸BOSS首殺!2019年7月25日,《魔獸世界》英雄級副本“永恒王宮”,艾薩拉女王喊出了最后的臺詞,倒在了一隊玩家手下 。
Facebook和CMU的“超人”撲克AI如何擊敗世界頂級撲克玩家?
人工智能已經在另一個游戲中擊敗了人類 。由Facebook人工智能實驗室和卡耐基梅隆大學(CMU)研究人員設計的一個項目在一系列六人無限制德州撲克游戲中擊敗了一些世界頂級撲克玩家 。超過12天和10000手,名為Pluribus的AI系統在兩種不同的環境中面對12名職業選手 。其中一個是,人工智能與五個人類玩家一起玩; 另一方面,五個版本的AI與一個人類玩家一起玩(計算機程序在這種情況下無法合作) 。
據研究人員稱,Pluribus每手平均贏得5美元,每小時獎金約為1000美元 - 這是一個“決定性的勝利” 。“可以肯定地說,我們處于超人級的水平并且不會發生變化,”Facebook人工智能實驗室的研究科學家兼Pluribus的聯合創始人Noam Brown告訴The Verge 。“Pluribus是一個非常努力的對手 。
在任何形式的手牌上都很難將其擊敗,”六次世界撲克錦標賽冠軍和12名專業選手之一Chris Ferguson在一份新聞聲明中表示 。在《科學》雜志上發表的一篇論文中,Pluribus背后的科學家表示,這次勝利是人工智能研究的一個重要里程碑 。雖然機器學習已經達到了國際象棋和圍棋等棋盤游戲以及《星際爭霸2》 和《Dota》等電腦游戲的超人級水平,但在某種程度上,六人無限制德州撲克代表了更高的難度基準 。
這不僅需要贏得玩家隱藏的信息(使其成為所謂的“不完美信息游戲”),它還涉及多個玩家和復雜的勝利結果 。著名的Go游戲比可觀察宇宙中的原子具有更多可能的棋盤組合,這使得人工智能制定下一步的動作是一個巨大的挑戰 。但是所有的信息都可以看到,而且游戲只有兩種可能的結果:輸贏 。這使得在某種意義上更容易訓練AI 。早在2015年,機器學習系統在雙人德州撲克中擊敗了人類專業選手,但是將對手數量增加到5個會大大增加復雜性 。
為了創建一個能夠應對這一挑戰的計劃,Brown和他的同事-CMU教授Tuomas Sandholm部署了一些關鍵策略 。首先,他們教Pluribus玩撲克,讓它與自己的副本進行比賽 - 這個過程被稱為自我對弈(self-play) 。這是人工智能訓練的常用技術,系統能夠通過反復試驗來學習游戲; 與自己玩數十萬手牌 。
這個培訓過程也非常有效:使用配備少于512GB RAM的64核服務器在短短8天內創建了Pluribus 。在云服務器上培訓這個程序只需150美元,與其他最先進系統的十萬美元價格相比,這相當便宜 。然后,為了應對六名玩家的額外復雜性,Brown和Sandholm提出了一種有效的方式讓人工智能在游戲中展望未來并決定采取何種行動 - 一種稱為搜索功能的機制 。
其不是試圖預測對手將如何一直玩到游戲結束(計算將在幾個步驟中變得非常復雜),而Pluribus的設計只是展望前方兩三步 。Brown說道,這種截斷的方法是“真正的突破” 。例如,Pluribus非常擅長“嚇唬”其對手,與其對抗的專業人士贊揚其“無情的一致性” 。Brown稱人們經常把虛張聲勢視為一種獨特的人類特質 。
但他表示,這種藝術仍然可以簡化為數學上最優的策略 。“人工智能并不認為虛張聲勢具有欺騙性 。它只是看到了決定,使其成為特定情況下的最多錢,“他說 。“我們展示的是人工智能可以虛張聲勢,它可以比任何人更好地詐唬 。”Brown和Sandholm希望他們所展示的方法可以應用于網絡安全、欺詐預防和金融談判等領域 。Brown稱這“甚至可以用于自動駕駛汽車” 。
推薦閱讀
- 創世聯盟玩adc天賦怎么改,你只玩過英雄聯盟嗎
- 手游九陰怎么不能選區,CJ2018最全周邊攻略
- 宮本可以打什么原因是什么,王者榮耀怎么玩好猴子
- 王蓋亞魂印怎么打,賽爾號王蓋亞魂印特性推測
- 瑯琊榜怎么退幫派,鬼谷八荒問答攻略
- 外掛怎么破解,如何破解加密密碼
- 完美紅顏陣法怎么改變,一騎紅顏巾幗陣
- 奧拉星神兵塔怎么打,下周奧拉星預告推測
- 造夢西游七彩晶石怎么快速得,七彩晶石獲得詳解
- 皇圖第一天怎么上80,《皇圖》盛典耀皇城
