免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
DeepMind首個(gè)戰(zhàn)勝星際2職業(yè)玩家的AI為何無(wú)敵?新視角揭秘AI里程碑

新智元2019新年寄語(yǔ)


2018年人工智能成為重塑世界格局的關(guān)鍵。谷歌BERT模型刷新多項(xiàng)自然語(yǔ)言處理紀(jì)錄,DeepMind則用星際爭(zhēng)霸II對(duì)局再次引爆機(jī)器智能無(wú)限可能。阿里與華為分別推出AI芯片,作為底層支撐的計(jì)算體系結(jié)構(gòu)也將邁入黃金十年發(fā)展期。


新智元2018年實(shí)現(xiàn)全球超過(guò)50萬(wàn)核心產(chǎn)業(yè)用戶(hù)互聯(lián)。2019新春,中國(guó)人工智能將迎來(lái)全新的競(jìng)爭(zhēng)挑戰(zhàn)與生態(tài)建設(shè)契機(jī),新智元邀你與全球人工智能學(xué)術(shù)、產(chǎn)業(yè)精英一起,以開(kāi)放的胸懷和堅(jiān)毅的決心,成就AI新世界!


——新智元?jiǎng)?chuàng)始人兼CEO  楊靜






  新智元報(bào)道  

來(lái)源:arxiv    編輯:大明,文強(qiáng)

【新智元導(dǎo)讀】深度強(qiáng)化學(xué)習(xí)、多智體強(qiáng)化學(xué)習(xí)以及博弈論,是DeepMind戰(zhàn)勝職業(yè)星際II玩家的智能體AlphaStar的重要技術(shù)。倫敦帝國(guó)大學(xué)和NYU研究人員則從進(jìn)化計(jì)算的角度指出,AlphaStar使用的競(jìng)爭(zhēng)協(xié)同進(jìn)化算法策略被遠(yuǎn)遠(yuǎn)低估。


DeepMind首次戰(zhàn)勝星際II職業(yè)玩家的AI——AlphaStar,正如新智元?jiǎng)?chuàng)始人兼CEO楊靜女士在《新智元2019年寄語(yǔ)》中所說(shuō)的那樣,引爆機(jī)器智能無(wú)限可能。


AlphaStar是一項(xiàng)壯舉,是建立在DeepMind及其他研究人員多年的研究和工程基礎(chǔ)之上,尤其是深度強(qiáng)化學(xué)習(xí)(DRL)、多智體強(qiáng)化學(xué)習(xí)(MARL)和博弈論。


雖然在官方博文中,DeepMind也提到了進(jìn)化算法(Evolutionary Algorithm, EA),但這顯然并非其重點(diǎn)。不過(guò),倫敦帝國(guó)學(xué)院的Kai Arulkumaran等人,反過(guò)來(lái)從進(jìn)化算法的角度來(lái)看AlphaStar,希望對(duì)深度強(qiáng)化學(xué)習(xí)領(lǐng)域和進(jìn)化計(jì)算的研究者都帶來(lái)啟發(fā)。


進(jìn)化計(jì)算和深度學(xué)習(xí)并非對(duì)立的兩個(gè)陣營(yíng)。


事實(shí)上,Arulkumaran等人最新在Arxiv上貼出的論文《從進(jìn)化計(jì)算角度看AlphaStar》(AlphaStar: An Evolutionary Computation Perspective),也確實(shí)提出了很多新的問(wèn)題。


例如,在DeepMind提出的快速調(diào)參算法PBT中,用Baldwinian進(jìn)化算法代替拉馬克(Lamarckian)進(jìn)化,是否能得到元學(xué)習(xí)星際II智能體?


Arulkumaran本人也在Twitter表示,這篇文章是對(duì)一系列概念的高級(jí)概括,還需要進(jìn)一步探索,他們?cè)趯?xiě)作時(shí)有意識(shí)地省略了演化計(jì)算和博弈論之間重疊的部分。


同時(shí),他也指出,不能認(rèn)為AlphaStar僅僅只是一個(gè)演化算法,AlphaStar的混合性質(zhì)有些類(lèi)似于AlphaGo atm?!癉eepMind官方博文顯示了從IL階段MMR的提升,這一點(diǎn)看起來(lái)很重要,但哪些細(xì)節(jié)是最重要的,我們目前還不知道。”


以下是新智元對(duì)文章的編譯。


從進(jìn)化計(jì)算角度看AlphaStar



2019年1月,DeepMind向世界展示了AlphaStar——第一個(gè)在星際爭(zhēng)霸II游戲中擊敗職業(yè)玩家的人工智能(AI)系統(tǒng),它代表了人工智能技術(shù)進(jìn)步的一個(gè)里程碑。


AlphaStar涉及人工智能研究的許多領(lǐng)域,包括深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),博弈論和進(jìn)化計(jì)算等(EC)。


在本文中,我們主要通過(guò)進(jìn)化計(jì)算的角度來(lái)分析AlphaStar,為審視該系統(tǒng)提供一個(gè)新的視角,并將其與AI領(lǐng)域的許多概念關(guān)聯(lián)起來(lái)。我們重點(diǎn)介紹其中一些最有趣的方面:拉馬克進(jìn)化、協(xié)同競(jìng)爭(zhēng)進(jìn)化和質(zhì)量多樣性。希望通過(guò)本文,在更廣泛的進(jìn)化計(jì)算社區(qū)與新誕生的這個(gè)重要的AI系統(tǒng)之間架起一座橋梁。

 

在1997年”深藍(lán)“擊敗國(guó)際象棋世界冠軍后,人工智能與人類(lèi)博弈的下一個(gè)重要里程碑是出現(xiàn)在2016年,圍棋世界冠軍李世乭被AlphaGo擊敗。國(guó)際象棋和圍棋此前都被認(rèn)為是AI取得進(jìn)展最困難的領(lǐng)域,可以說(shuō),與之相比難度相當(dāng)?shù)目简?yàn)之一就是擊敗星際爭(zhēng)霸(SC)游戲中的大師級(jí)玩家。


星際爭(zhēng)霸是一款即時(shí)戰(zhàn)略(RTS)游戲。《星際1》及其續(xù)作《星際II》都具有幾個(gè)特點(diǎn),使得它甚至比圍棋的挑戰(zhàn)更大。比如只能觀察到戰(zhàn)場(chǎng)的一部分、沒(méi)有單一的主導(dǎo)策略、復(fù)雜的游戲規(guī)則、快速建模的難度更大,動(dòng)作空間極大,且復(fù)雜多變等??梢哉f(shuō),想實(shí)現(xiàn)征服《星際爭(zhēng)霸》的目標(biāo),一點(diǎn)也不比圍棋上的突破來(lái)得容易。


想實(shí)現(xiàn)征服《星際爭(zhēng)霸》的目標(biāo),一點(diǎn)也不比圍棋上的突破來(lái)得容易。圖片來(lái)源:Jesus Rodriguez, The Science Behind AlphaStar

 

最近,DeepMind推出的AlphaStar向著實(shí)現(xiàn)這個(gè)目標(biāo)邁出了重要一步,AlphaStar是一個(gè)基于神經(jīng)網(wǎng)絡(luò)的AI系統(tǒng),在2018年12月?lián)魯×藢?zhuān)業(yè)的SC II玩家。


該系統(tǒng)與其前身AlphaGo一樣,最初使用模仿學(xué)習(xí)來(lái)模仿人類(lèi)的游戲行為,然后通過(guò)強(qiáng)化學(xué)習(xí)(RL)和自我對(duì)弈的組合方式進(jìn)行改進(jìn)。


算法在這里發(fā)生了分歧,因?yàn)?/span>AlphaStar利用基于人口的訓(xùn)練(PBT)來(lái)明確地保持一群相互訓(xùn)練的智能體。這部分訓(xùn)練過(guò)程建立在多智能體強(qiáng)化學(xué)習(xí)和博弈論視角之上,但人口的概念是進(jìn)化計(jì)算的核心,因此我們也可以通過(guò)這個(gè)視角來(lái)考察AlphaStar。


AlphaStar使用了拉馬克進(jìn)化算法

 

目前,訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)的最流行的方法是反向傳播(BP)。但是,有許多方法可以調(diào)整其超參數(shù),包括進(jìn)化算法。


其中一種方法是使用模因算法(MA),這個(gè)算法中,進(jìn)化作為外部?jī)?yōu)化算法運(yùn)行,并且各個(gè)解決方案可以通過(guò)內(nèi)環(huán)中的其他方式(例如反向傳播)來(lái)進(jìn)行優(yōu)化。在這種特定情況下,模因算法可以將進(jìn)化算法的探索和全局搜索屬性與反向傳播算法的高效本地搜索的優(yōu)勢(shì)結(jié)合起來(lái)。


AlphaStar的基本架構(gòu)。來(lái)源:DeepMind


在AlphaStar中,用于訓(xùn)練智能體的基于人口的訓(xùn)練策略(PBT)是使用拉馬克進(jìn)化(LE)的模因算法:在內(nèi)環(huán)中,使用反向傳播連續(xù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),而在外環(huán)中,使用幾種選擇方法中的一種來(lái)選擇網(wǎng)絡(luò)(比如淘汰制錦標(biāo)賽選擇),用勝者的參數(shù)覆蓋敗者的參數(shù),敗者也會(huì)收到勝者超參數(shù)的“變異”副本。 


PBT策略最初是通過(guò)一系列監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)任務(wù)展示的,調(diào)整和提升神經(jīng)網(wǎng)絡(luò)的性能。對(duì)于具有高度非平穩(wěn)損耗表面的問(wèn)題,例如深度強(qiáng)化學(xué)習(xí)問(wèn)題,這種策略可能是最有效的,因?yàn)樗梢栽谶\(yùn)行過(guò)程中改變超參數(shù)。


AlphaStar vs MaNa,神經(jīng)網(wǎng)絡(luò)如何將觀察到的結(jié)果轉(zhuǎn)換為行動(dòng)。來(lái)源:DeepMind

 

由于單個(gè)網(wǎng)絡(luò)可能需要高達(dá)數(shù)G的內(nèi)存,或需要訓(xùn)練長(zhǎng)達(dá)幾個(gè)小時(shí),因此可擴(kuò)展性是PBT的關(guān)鍵。因此,PBT既是異步的,又是分布式的。與使用靜態(tài)超參數(shù)運(yùn)行許多實(shí)驗(yàn)不同,使用相同數(shù)量的硬件,利用PBT只需要很少的開(kāi)銷(xiāo)——外部循環(huán)可以重用內(nèi)部循環(huán)的解決方案進(jìn)行評(píng)估,而且數(shù)據(jù)通信量也比較低。如果考慮非平穩(wěn)超參數(shù)因素和對(duì)較弱解決方案的優(yōu)先搶占的影響,PBT方案能夠節(jié)省的成本更多。

 

這些要求的另一個(gè)結(jié)果是PBT是穩(wěn)定狀態(tài),這一點(diǎn)與分代進(jìn)化算法不同。由于對(duì)異步進(jìn)化算法和拉馬克進(jìn)化的自然適應(yīng)性,穩(wěn)態(tài)進(jìn)化算法可以允許各個(gè)解決方案的優(yōu)化和評(píng)估不間斷地進(jìn)行,從而實(shí)現(xiàn)資源效率最大化。


最適合的解決方案能夠存活更長(zhǎng)時(shí)間,自然地提供了一種精英主義/名人堂模式,但并非最優(yōu)的前代方案也可以保留下來(lái),保持解決方案多樣性。


自我對(duì)弈也體現(xiàn)了競(jìng)爭(zhēng)性協(xié)同進(jìn)化(CCEA)


在對(duì)AlphaStar一類(lèi)游戲智能體進(jìn)行優(yōu)化時(shí),智能體可以使用自對(duì)戰(zhàn)來(lái)提升水平。


競(jìng)爭(zhēng)性協(xié)同進(jìn)化算法(CCEA)可以被視為自我對(duì)弈的超集(superset),并非只保留當(dāng)前解決方案及其前身,而是保持和評(píng)估整個(gè)解決方案的群體。


與自我對(duì)弈一樣,CEA形成了一個(gè)自然的教學(xué)過(guò)程,但也提供了額外的穩(wěn)健性,因?yàn)楫a(chǎn)生的解決方案是基于各種其他解決方案進(jìn)行評(píng)估的。


AlphaStar的訓(xùn)練過(guò)程。來(lái)源:DeepMind

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
戰(zhàn)網(wǎng)AI危機(jī)!AlphaStar匿名潛入星際2天梯PK,進(jìn)化版讓人類(lèi)玩家瑟瑟發(fā)抖
從AlphaGo到AlphaStar:機(jī)器是如何思考的?
你的對(duì)手可能不是人:DeepMind星際2 AI AlplaStar將加入天梯匹配
AI再度完勝人類(lèi)!10-1的星際2逆天微操虐殺職業(yè)選手
AlphaStar【擅長(zhǎng)游戲,博弈對(duì)抗】| DeepMind的Alpha家族又添新丁
星際2職業(yè)高手史上首次被AI擊潰,AlphaStar一戰(zhàn)成名
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服