科技洞察 丨 深入科技行業(yè)最前沿
這次和AI的競技比賽,人類又輸了。這次不僅僅是輸在計算慢,會失誤,還輸在不會忽悠。
Facebook 和卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的研究人員開發(fā)出了迄今為止最有效的能嚇唬人的工具。這款名為“Pluribus”的機器人是人工智能的一次飛躍,也是德州撲克的一名狡猾玩家。
AI智能首次在多人競賽中獲勝
這并不是人工智能在撲克牌中打敗人類的唯一案例,兩年前,卡內(nèi)基梅隆大學(xué)開發(fā)的另一個人工智能系統(tǒng)Libratus甚至擊敗了一位撲克明星。
此次比賽Pluribus與13名德州撲克高手進行了1萬手不限注對局的六人桌比賽,每次比賽由機器對5名人類選手,結(jié)果機器取得勝利。
另一種形式,5名Pluribus(它們之間無法合作)與1名人類選手對局,結(jié)果Pluribus分別在5000手對局中先后擊敗了德州世界冠軍達倫·伊萊亞斯和克里斯·弗格森。
撲克職業(yè)選手Jason Les被計算機程序Pluribus擊敗
來源:The Wall Street Journal
“我感到非常絕望。你不會覺得你能做些什么來贏得比賽?!睋淇寺殬I(yè)選手杰森萊斯(Jason Les)這樣說。
不得不說,在撲克這項賭博類的競技決賽中,練就的是懂博弈、會唬人的頂級玩家。
▏博弈與計算——從不完全信息博弈到新算法突破
人工智能其實已經(jīng)在多個領(lǐng)域打敗了人類,在圍棋、象棋、跳棋等戰(zhàn)績輝煌。那么這次在撲克取勝又有什么大驚小怪的呢?
我們知道,在棋牌游戲中,圍棋、象棋、跳棋等大部分的信息是完全公開的,所有參與者掌握著相同的空間和組合信息。針對這種“完全信息博弈”比賽所要做的是向下推演,從以后所有可能性中選一個對自己獲勝最有利的行動。
而像斗地主、德州撲克、橋牌這種不明牌的紙牌類游戲,需要找到綜合對手存在的多種可能性向下推演,而從尋求一個期望值(勝率*賠率)盡可能高的一種結(jié)果。這種“不完全信息博弈”不追求每局都贏,而是追求能夠做到在最應(yīng)該投入的時候多贏和最應(yīng)該放棄的時候少輸?shù)淖顑?yōu)組合解。
更近一步,在此前卡內(nèi)基梅隆大學(xué)開發(fā)的另一個人工智能系統(tǒng)Libratus,針對的一對一的撲克游戲,采用的“戰(zhàn)略性推理”,通過決策樹向前推理。Libratus軟件在選擇動作之前會搜索到游戲結(jié)束,選出一個最佳組合方案。
而面對六人游戲,兩人以外的額外玩家?guī)砹舜罅康碾[藏信息。為此團隊主要創(chuàng)建者布朗博士改進了Libratus的算法,讓Pluribus能夠在只看后續(xù)幾個牌,而不是比賽搜索到結(jié)束后做出正確選擇的“有限前瞻搜索”算法,賦予了Pluribus展望前方兩三步的搜索功能,被成為“真正的突破”。
“與多個對手玩撲克意味著Pluribus必須能夠?qū)崟r推理。”
——Facebook人工智能研究科學(xué)家、Pluribus創(chuàng)始人之一諾姆·布朗(Noam Brown)
▏忽悠和反忽悠能力
有人認為,多人撲克已經(jīng)不是一種游戲,而更像一種需要多種技能的藝術(shù)表達,這種藝術(shù)需要我們能夠有效甄別其他人的互動、肢體動作甚至微表情,更需要決勝者可以利用這些信息在這次博弈中取勝,簡單來說,這是忽悠和防忽悠能力的對抗。
Pluribus使用了DeepMind公司人工智能圍棋玩家的的強化學(xué)習(xí)形式,從零開始自學(xué)。它與自身的副本對弈,并且在每次手牌結(jié)束后,回顧自己的玩法,并檢查如果采取不同的選項,看它是否能賺到更多的錢。經(jīng)過了數(shù)萬億次的對弈訓(xùn)練慢慢發(fā)展獲勝的虛張聲勢技巧。
那么,Pluribus在棋牌中如何表達他們的忽悠和反忽悠技能?以下是比賽實例中選取的簡單描述。
例子一:當(dāng)Pluribus發(fā)覺自己手氣比較差時,接連下注和加注讓對手誤判或棄牌(fold)。
例子二:識破人類牌很差而試圖嚇唬Pluribus,希望其棄牌獲勝的全部押注行為(All in),Pluribus最后跟注(call)取得勝利。
據(jù)報道,輸給Pluribus都是頂級人類棋手。
我們一直以為,虛張聲勢是一種非常人性化的能力,我們直視對方的眼睛,聲東擊西讓對方難辨真假。
但是,在Pluribus與人類的競技中,虛張聲勢的含義似乎被提升為一種基于算法和訓(xùn)練的能力,一種進階版的談判博弈能力。對手越多,需要處理博弈的隱藏信息越多。
此外Pluribus的能夠練就強大的忽悠能力還有一個得天獨厚的優(yōu)勢,那就是他們永遠不會累也不會餓。那些疲勞和壓力帶來的不利因素對于Pluribus都不存在。
▏人工智能未來還能贏我們什么?
撲克一直是人工智能和博弈論領(lǐng)域中最難掌握的游戲之一。從博弈論的創(chuàng)始人約翰·馮·諾伊曼1928年在他的論文《室內(nèi)游戲理論》中寫的關(guān)于撲克的文章,到愛德華·索普的杰作《打敗莊家》,再到麻省理工學(xué)院的21點團隊,幾十年來,撲克策略一直困擾著數(shù)學(xué)家們。
職業(yè)撲克玩家說,玩復(fù)雜的撲克之所以困難,是因為它的不可預(yù)測性。專家說,這也正是技術(shù)進步的核心動力。人們對與撲克和星際爭霸等充滿了不確定因素的機器智能的游戲充滿了極大的興趣,正是因為那里更像是現(xiàn)實世界的縮影,也讓我們更深刻了解到未來的機器智能是如何依靠數(shù)據(jù)和數(shù)學(xué)計算獲得勝利。
Pluribus的成功并不僅僅代表一個牌類競技的勝利符號,他的成功或許是邁向自動化談判,更好的欺詐檢測市場和自動駕駛汽車等復(fù)雜應(yīng)用的關(guān)鍵一步。
據(jù)了解,卡內(nèi)基梅隆大學(xué)教授和Pluribus開發(fā)人員Tuomas Sandholm參與了戰(zhàn)略機器人公司(Strategy Robot Inc.)和優(yōu)化市場公司(optimization Markets Inc.)這兩家初創(chuàng)公司的合作,他們正在利用與Pluribus類似的技術(shù),將其應(yīng)用于國防、金融服務(wù)、游戲和醫(yī)療保健等領(lǐng)域。
未來,也許機器智能還能在更多單一場景領(lǐng)域戰(zhàn)勝人類。但在AI戰(zhàn)勝人類的同時,也帶給我們更多思考,思考如何借助人工智能的提升去開辟新的市場。更重要的是,人類在不斷的開發(fā)機器智能和與機器智能競賽中,也剛好慢慢的挖掘自身大腦的無限潛能。所以不必擔(dān)心,人工智能在進步,人類的大腦同樣也在進化。
這么看來,未來是誰戰(zhàn)勝了誰,誰造福了誰,還真不一定呢。
參考來源:
Computers Can Now Bluff Like a Poker Champ. Better, Actually., The Wall Street Journal, July, 16th, 2019
- 猜你愛看 -