在德州撲克人機(jī)大戰(zhàn)中,四位職業(yè)牌手與 CMU 開發(fā)的人工智能系統(tǒng) Libratus 進(jìn)行了激烈對(duì)抗。
Libratus是卡耐基梅隆大學(xué)的托馬斯·桑德霍爾姆和諾姆·布朗(Noam Brown)開發(fā)的。他們以前開發(fā)的機(jī)器人 Claudico 在 2015 年的德州撲克比賽中沒能擊敗職業(yè)牌手。
“一對(duì)一無(wú)限注德州撲克”就是兩個(gè)人玩的賭博游戲,因?yàn)槭孪葧?huì)給每位玩家分發(fā) 2 張底牌,所以對(duì)方“底牌信息”你是不知道的,對(duì)于計(jì)算機(jī)來(lái)說,就是在處理一種“非完整信息博弈”。我們知道 AlphaGo 玩圍棋,對(duì)弈雙方的信息是完整的、對(duì)稱的,并沒有隱藏的信息。所以在德州撲克上AI取得了進(jìn)步,是具有重要意義的。
比賽期間,前三輪比賽失利后,四位職業(yè)牌手在第四天和第六天的比賽中獲得勝利。Libratus 原本領(lǐng)先193000 美元,在第六輪比賽后 Libratus 僅領(lǐng)先 51000美 元。
在人類選手反擊迅猛之時(shí),牌手之一詹森·萊斯便在一封電子郵件中寫道:
我們花了一段時(shí)間學(xué)習(xí),以理解正在發(fā)生的事情。
然而,隨后 Libratus 的表現(xiàn)讓所有非常人吃驚:再次獲得關(guān)鍵性勝利。第 10 天結(jié)束時(shí),Libratus 已經(jīng)領(lǐng)先 677000 美元,而且局勢(shì)也似乎不可逆轉(zhuǎn)。
跟 AlphaGo 相似,Libratus 也可通過增強(qiáng)學(xué)習(xí)進(jìn)行自我博弈和學(xué)習(xí)。
Libratus 的開發(fā)者之一托馬斯·桑德霍爾姆也說道:
我們不能詳細(xì)談?wù)?Libratus 的技術(shù),直到比賽結(jié)束為止。但是,我可以告訴大家,Libratus 的算法一直在超級(jí)計(jì)算機(jī)上運(yùn)行,所以超級(jí)計(jì)算機(jī)每天都在輸出改進(jìn)的策略。
今年 1 月底,Libratus 可能會(huì)在下一場(chǎng)比賽中再次擊敗人類。到目前為止,機(jī)器人還沒有在無(wú)限制德州撲克團(tuán)體賽中擊敗過人類,但這一天也許不會(huì)太遠(yuǎn)了。
人工智能撲克機(jī)器人的研發(fā)具有重大意義。首先,它是一種教導(dǎo)人工智能系統(tǒng)處理不完整信息的方式。諾姆·布朗指出“在現(xiàn)實(shí)世界中,所有的相關(guān)信息通常不像棋盤上的棋子那樣明顯。有些重要的信息會(huì)丟失或隱藏,人工智能需要能夠處理這樣的信息。”