優(yōu)酷視頻《Google DeepMind's Deep Q-learning playing Atari Breakout》(//v.youku.com/v_show/id_XMTUxODU2NjY5Ng==.html)展示的是Google deep mind發(fā)明的re-enforcement learning的一種算法。運(yùn)用這種算法的機(jī)器可以自動(dòng)跟游戲交互而學(xué)會(huì)怎樣更好地打游戲。 剛開始的時(shí)候電腦不太會(huì)玩這個(gè)游戲,然后逐漸學(xué)會(huì)了一些技巧,開始像一個(gè)人在打。最有意思的是它在若干輪的學(xué)習(xí)之后,發(fā)現(xiàn)了一個(gè)技巧——它可以把球打到空間的上方,然后讓它不斷地反彈,這樣就能不斷地得分,可以快速地把這個(gè)游戲的得分提升上去,整個(gè)學(xué)習(xí)過程都是機(jī)器自己完成的——這是最讓人興奮的地方。 彩云天氣團(tuán)隊(duì)在天氣領(lǐng)域也有一個(gè)類似的構(gòu)想,就是利用人們的反饋,天氣觀測(cè)數(shù)據(jù)的彼此對(duì)照,作為一個(gè)輸入,讓算法自己不斷地改進(jìn)自己,從而不斷提高天氣預(yù)報(bào)的準(zhǔn)確性。 具體到工程的實(shí)現(xiàn)上,可能需要很多前期的工作一步步完成,包括很大的開發(fā)工程,我們會(huì)在接下來的幾年中不斷優(yōu)化并實(shí)現(xiàn)這樣一個(gè)想法。