視學(xué)算法報(bào)道

機(jī)器之心編輯部

游戲中的人工智能所面臨的技術(shù)、挑戰(zhàn)和機(jī)遇。

人機(jī)游戲有著悠久的歷史，已經(jīng)成為驗(yàn)證人工智能關(guān)鍵技術(shù)的主流。圖靈測(cè)試可以說是人類首次進(jìn)行人機(jī)對(duì)抗測(cè)試，這激發(fā)了研究人員設(shè)計(jì)各類 AI 來挑戰(zhàn)職業(yè)人類玩家。例如，1989 年研究者開發(fā)了國(guó)際跳棋程序 Chinook，目標(biāo)是擊敗世界冠軍，1994 年 Chinook 打敗了美國(guó)西洋跳棋棋王 Marion Tinsley。在之后的時(shí)間里，IBM 的深藍(lán)在 1997 年擊敗國(guó)際象棋大師 Garry Kasparov，開創(chuàng)了國(guó)際象棋史上的新紀(jì)元。

近年來，我們見證了游戲 AI 的快速發(fā)展，從 Atari、AlphaGo、Libratus、OpenAI Five 到 AlphaStar 。這些 AI 通過結(jié)合現(xiàn)代技術(shù)在某些游戲中擊敗了職業(yè)人類玩家，標(biāo)志著決策智能領(lǐng)域的快速發(fā)展。

AlphaStar（DeepMind 開發(fā)的計(jì)算機(jī)程序）和 OpenAI Five（美國(guó)人工智能研究和 OpenAI 開發(fā)）分別在星際爭(zhēng)霸和 Dota2 中達(dá)到了專業(yè)玩家水平?，F(xiàn)在看來，目前的技術(shù)可以處理非常復(fù)雜的不完美信息游戲，特別是在最近大火的王者榮耀等游戲中的突破，它們都遵循了類似 AlphaStar 和 OpenAI Five 的框架。我們不禁會(huì)問：人機(jī)游戲 AI 的未來趨勢(shì)或挑戰(zhàn)是什么？來自中國(guó)科學(xué)院自動(dòng)化研究所以及中國(guó)科學(xué)院大學(xué)的研究者撰文回顧了最近典型的人機(jī)游戲 AI，并試圖通過對(duì)當(dāng)前技術(shù)的深入分析來回答這些問題。

論文地址：https://arxiv.org/pdf/2111.07631.pdf

具體而言，該研究總共調(diào)查了四種典型的游戲類型，即圍棋棋盤游戲；紙牌游戲（德州撲克 HUNL、斗地主和麻將）；第一人稱射擊類游戲 (FPS)（雷神之錘 III 競(jìng)技場(chǎng)）；實(shí)時(shí)戰(zhàn)略游戲 (RTS)（星際爭(zhēng)霸、Dota2 和王者榮耀）。上述游戲?qū)?yīng)的 AI 包括 AlphaGo、AlphaGo Zero 、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAI Five、JueWu 和 Commander。圖 1 為一個(gè)簡(jiǎn)短的概要：

本文調(diào)查的游戲以及 AI

總體而言：在第 2 節(jié)中，該研究描述了本文涵蓋的游戲和使用的AI；第 3-6 節(jié)分別闡述了棋盤游戲、紙牌游戲、FPS 游戲和 RTS 游戲?qū)?yīng)的 AI；在第 7 節(jié)總結(jié)并比較了各類游戲所使用的不同技術(shù)；在第 8 節(jié)展示了當(dāng)前游戲 AI 面臨的挑戰(zhàn)，這些挑戰(zhàn)可能是該領(lǐng)域未來的研究方向。最后，第 9 節(jié)對(duì)論文進(jìn)行了總結(jié)。

典型的游戲和 AI

下表提取了不同游戲挑戰(zhàn)智能決策的關(guān)鍵因素，如表 1 所示：

上表列出了不同游戲的優(yōu)缺點(diǎn)，我們需要根據(jù)不同的游戲類型，分配不同的 AI。因?yàn)椴煌挠螒蚓哂胁煌奶攸c(diǎn)，其解決方案也各不相同，因此研究者開發(fā)了不同的學(xué)習(xí)策略來構(gòu)建 AI 系統(tǒng)。在本文中，AI 被進(jìn)行不同的分配：AlphaGo、AlphaGo Zero、AlphaZero 用于棋盤游戲；Libratus、DeepStack、DouZero 和 Suphx 分別用于紙牌游戲 HUNL、斗地主和麻將；FTW 用于 FPS 游戲中的雷神之錘 III 競(jìng)技場(chǎng)；AlphaStar、Commander、OpenAI Five 和 JueWu 分別用于星際爭(zhēng)霸、Dota2 和王者榮耀。

不同游戲?qū)?yīng)的 AI

棋盤游戲 AI

AlphaGo 系列由 AlphaGo、AlphaGo Zero 和 AlphaZeo 組成。2015 年問世的 AlphaGo 以 5：0 擊敗歐洲圍棋冠軍樊麾，這是軟件首次在全尺寸棋盤對(duì)職業(yè)棋手的比賽中取得這樣的成績(jī)。之后，DeepMind 為 AlphaGo Zero 開發(fā)了新的訓(xùn)練框架，事先無需專業(yè)的人類對(duì)抗數(shù)據(jù)，取得了卓越的表現(xiàn)。AlphaZero，是一種通用強(qiáng)化學(xué)習(xí)算法。AlphaGo 系列總結(jié)如圖 2 所示：

AlphaGo 系列框架圖

紙牌游戲 AI

紙牌游戲作為典型的不完美信息游戲，長(zhǎng)期以來一直是人工智能的挑戰(zhàn)。DeepStack 和 Libratus 是在 HUNL 中擊敗職業(yè)撲克玩家的兩個(gè)典型 AI 系統(tǒng)。它們共享基礎(chǔ)技術(shù)，即這兩者在 CFR 理論上相似。之后，研究人員專注于麻將和斗地主這一新的挑戰(zhàn)。由微軟亞洲研究院開發(fā)的 Suphx 是第一個(gè)在麻將中勝過多數(shù)頂級(jí)人類玩家的人工智能系統(tǒng)。DouZero 專為斗地主設(shè)計(jì)，這是一個(gè)有效的 AI 系統(tǒng)，在 Botzone 排行榜 344 個(gè) AI 智能體中排名第一。紙牌游戲 AI 的簡(jiǎn)要框架如下圖所示：

紙牌游戲 AI 的簡(jiǎn)要框架

第一人稱射擊（FPS）游戲 AI

雷神之錘 III 競(jìng)技場(chǎng)是一款典型的 3D 多人第一人稱視角電子游戲，其中兩個(gè)對(duì)立的團(tuán)隊(duì)在室內(nèi)或室外地圖中相互對(duì)抗。CTF 設(shè)置與當(dāng)下多人電子游戲有很大不同。更具體地說，CTF 中的智能體無法訪問其他玩家的狀態(tài)，此外，團(tuán)隊(duì)中的智能體無法相互通信，這樣的環(huán)境是學(xué)習(xí)智能體進(jìn)行通信和適應(yīng)零樣本生成最優(yōu)測(cè)試平臺(tái)。零樣本意味著智能體進(jìn)行協(xié)作或?qū)共皇墙?jīng)過訓(xùn)練而來的，可以是人類玩家和任意的 AI 智能體訓(xùn)練而來，僅基于像素和人類等游戲點(diǎn)作為智能體的輸入，學(xué)習(xí)智能體 FTW 框架可以達(dá)到人類級(jí)性能。游戲 CTF 的 FTW 框架如下圖所示：

游戲 CTF 的 FTW 框架

RTS 游戲 AI

RTS（即時(shí)戰(zhàn)略）游戲作為一種典型的電子游戲，多達(dá)數(shù)萬人相互對(duì)戰(zhàn)，RTS 通常被作為人機(jī)游戲的試驗(yàn)臺(tái)。此外，RTS 游戲通常環(huán)境復(fù)雜，比以往游戲更能捕捉現(xiàn)實(shí)世界的本質(zhì)，這種特性使得此類游戲更具適用性。DeepMind 開發(fā)的 AlphaStar 使用通用學(xué)習(xí)算法，在星際爭(zhēng)霸的所有三個(gè)種族中都達(dá)到了大師級(jí)別，其性能超過 99.8% 的人類玩家（總數(shù)約 90000 名玩家）。Commander 作為輕量級(jí)的計(jì)算版本，遵循 AlphaStar 相同的訓(xùn)練架構(gòu)，使用更少的計(jì)算量級(jí)，并在現(xiàn)場(chǎng)賽事中擊敗兩名特級(jí)高手。OpenAI Five 旨在解決 Dota2 游戲，這是第一個(gè)在電子競(jìng)技游戲中擊敗世界冠軍的 AI 系統(tǒng)。作為與 Dota2 比較相似的電競(jìng)游戲，《王者榮耀》面臨的挑戰(zhàn)最為相似，覺悟成為第一個(gè)可以玩完整 RTS 游戲而不限制英雄池的 AI 系統(tǒng)。典型 RTS 游戲的簡(jiǎn)單 AI 框架如下圖所示：

一個(gè)典型 RTS 游戲的簡(jiǎn)單 AI 框架

挑戰(zhàn)和未來趨勢(shì)

盡管計(jì)算機(jī)游戲已經(jīng)取得了很大的進(jìn)步，但當(dāng)前技術(shù)仍然面臨著諸多挑戰(zhàn)，例如大量依賴計(jì)算資源等，這將激發(fā)未來的研究。

大模型

如今，大模型，尤其是預(yù)訓(xùn)練大模型，正在從自然語言處理發(fā)展到計(jì)算機(jī)圖像處理，從單模態(tài)到多模態(tài)。即使在零樣本設(shè)置中，這些模型也證明了其在下游任務(wù)的巨大潛力，這是探索通用人工智能的一大步。

OpenAI 開發(fā)了 GPT-3，它擁有超過 1750 億個(gè)參數(shù)，并在各種語言相關(guān)任務(wù)中表現(xiàn)出良好的性能。然而，游戲中的大模型基本沒有，當(dāng)前復(fù)雜游戲的模型比那些參數(shù)多的大模型要小得多。如表 2 所示，AlphaStar 和 OpenAI Five 分別只有 1.39 億和 1.59 億的參數(shù)：

考慮到大模型是對(duì)通用人工智能的一個(gè)比較好的探索，如何在游戲中為人工智能設(shè)計(jì)和訓(xùn)練大模型，可能會(huì)為那些時(shí)序決策領(lǐng)域提供新的解決方案。為了進(jìn)行這樣的嘗試，該研究認(rèn)為至少應(yīng)該仔細(xì)考慮兩個(gè)問題：

首先，游戲任務(wù)與自然語言處理任務(wù)非常不同，因此如何明確訓(xùn)練目標(biāo)是大模型的關(guān)鍵步驟；
其次，由于游戲難易程度不同，如何設(shè)計(jì)合適的訓(xùn)練機(jī)制比較困難。訓(xùn)練方法應(yīng)該能夠處理各種游戲并確保學(xué)習(xí)不會(huì)退化。

低資源 AI

為了在復(fù)雜環(huán)境中訓(xùn)練專業(yè)級(jí) AI，通常需要大量的計(jì)算資源。從表 3 得出我們需要大量的資源投入來訓(xùn)練 AI。

我們不禁會(huì)問，是否可以在資源有限的情況下訓(xùn)練出專業(yè)級(jí)的人工智能。一個(gè)直觀的想法是引入更多的人類知識(shí)來輔助學(xué)習(xí)，強(qiáng)化學(xué)習(xí)可以說是未來的一個(gè)發(fā)展方向。另一方面，開發(fā)出理論和易于計(jì)算的進(jìn)化策略，將是低資源人工智能系統(tǒng)的關(guān)鍵一步。

評(píng)估

目前，對(duì)智能體的精確評(píng)估成為一個(gè)難題。人機(jī)游戲通常采用基于獲勝概率（對(duì)職業(yè)人類玩家）的評(píng)價(jià)標(biāo)準(zhǔn)，如表 4 所示。但是，這種評(píng)價(jià)比較粗糙，尤其是在有限的非遷移游戲測(cè)試下。如何為大多數(shù)游戲制定一個(gè)系統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)是一個(gè)重要而開放的問題。

通過這篇文章，研究者希望初學(xué)者能夠快速熟悉游戲 AI 這個(gè)領(lǐng)域的技術(shù)、挑戰(zhàn)和機(jī)遇，并能啟發(fā)在路上的研究人員進(jìn)行更深入的研究。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版