新智元翻譯1
來源:Idsia
作者:Jürgen Schmidhuber
翻譯:張巨巖
作者介紹:Jürgen Schmidhuber 被稱為是賦予人工智能記憶的人,遞歸神經(jīng)網(wǎng)絡(luò)之父,2004 年到 2009 年,擔(dān)任慕尼黑大學(xué)認(rèn)知與機(jī)器人領(lǐng)域的教授,從 1995 年起就在瑞士人工智能實(shí)驗(yàn)室 IDSIA 擔(dān)任負(fù)責(zé)人。2009至2012年年間,他的研究小組贏得了模式識(shí)別和機(jī)器學(xué)習(xí)的八個(gè)國際比賽。如今 Jürgen Schmidhuber 創(chuàng)辦了 Nnaisense 公司。
注:這篇文章經(jīng)過了很多同僚的評(píng)閱。
[A] 1962年:來自簡單細(xì)胞和復(fù)雜細(xì)胞的神經(jīng)生物學(xué)的啟示
Hubel和 Wiesel描述了視覺皮層的簡單細(xì)胞和復(fù)雜細(xì)胞[18],它啟示了后來的深度人工神經(jīng)網(wǎng)絡(luò)框架,這在某些現(xiàn)代屢獲殊榮的深度學(xué)習(xí)系統(tǒng)中仍在使用。
[A0]1965年:第一代深度學(xué)習(xí)系統(tǒng)
Ivakhnenko和 Lapa [71]公布了,第一款對于深度監(jiān)督前饋式多層感知器(supervised deep feedforward multilayer perceptrons)的通用而有效的學(xué)習(xí)算法。1971年的一篇文章描述了一個(gè)通過“數(shù)據(jù)成組處理法(Group Method of Data Handling)”訓(xùn)練的8層深度網(wǎng)絡(luò),仍然在新千年中很流行??紤]到一個(gè)輸入向量的訓(xùn)練集有對應(yīng)的目標(biāo)輸出向量,層逐漸地增多并通過回歸分析訓(xùn)練,接著用一個(gè)分離的驗(yàn)證集的幫助改進(jìn),正則化被用于淘汰多余單元。每層的單元和層的總數(shù)可以在與問題相關(guān)的環(huán)境中習(xí)得。
[A1] 1970 ±10年左右:反向傳播
復(fù)雜多級(jí)非線性可微分的,與NN相關(guān)的系統(tǒng)的誤差函數(shù)和它們的梯度至少從1960早期就開始討論了,如[56-58,64-66]。在這種系統(tǒng)中的梯度下降可以通過在動(dòng)態(tài)規(guī)劃風(fēng)格下(dynamic programming style)[67]來迭代這個(gè)古老的鏈?zhǔn)椒▌t[68,69](與只是用鏈?zhǔn)椒▌t簡化推倒相比[57b])。然而,高效誤差反向傳播(BP)在任意的、可能是稀疏的,類似NN的網(wǎng)絡(luò)中的使用很顯然是第一次被Linnainmaa在1970 [60-61]提出。這也被認(rèn)為是自動(dòng)微分的反向模式,向前傳播的激活值(activation)本質(zhì)上等于反向微分計(jì)算值的成本(cost)。參見早期FORTRAN代碼[60]。比較[62,29c] 和一些與NN有關(guān)的討論[29],和1981年Werbos [29a,29b]第一個(gè)特定NN的高效BP算法。比較[30,31,59]和順序處理遞歸神經(jīng)網(wǎng)絡(luò)的概括,如[32-34,37-39],參見自然梯度(naturalgradients)。到了2013年,BP也仍然是重要的深度學(xué)習(xí)算法。
[A2]1979年:深度新認(rèn)知器(Deep Neocognitron),權(quán)重分享和卷積
Fukushima的深度新認(rèn)知器框架[19a,19, 40]整合了神經(jīng)生理學(xué)的觀點(diǎn)[A,18]并引入了權(quán)重分享卷積神經(jīng)層,還有勝者通吃層(winner-take-all layers)。它與現(xiàn)代屢獲大獎(jiǎng)的前饋式純監(jiān)督以梯度為基礎(chǔ)的深度學(xué)習(xí)系統(tǒng)相似[A11-A12](但它使用了本地非監(jiān)督學(xué)習(xí)規(guī)則)。
[A3]1987年:自動(dòng)編碼器框架
Ballard發(fā)表了自己關(guān)于非監(jiān)督自動(dòng)編碼器的想法 [35] ,這與2000年后的以非監(jiān)督預(yù)訓(xùn)練為基礎(chǔ)的前饋式深度學(xué)習(xí)系統(tǒng)相關(guān),如[15, A8] 。比較調(diào)查[36]和有一定關(guān)系的RAAMs[52]。
[A4] 1989年:CNN的反向傳播算法
LeCun等人應(yīng)用的反向傳播算法[16, 16a] 到Fukushima的權(quán)重分享卷積神經(jīng)層[A2, 19a, 19, 16] 。這種結(jié)合是很多現(xiàn)代在競爭中有優(yōu)勢的前饋式視覺深度學(xué)習(xí)系統(tǒng)的重要部分。
[A5] 1991年:深度學(xué)習(xí)根本問題
20世紀(jì)90年代早期,實(shí)驗(yàn)表明深度前饋式或者遞歸網(wǎng)絡(luò)很難通過反向傳播訓(xùn)練[A1] 。我的學(xué)生Hochreiter發(fā)現(xiàn)并分析了其中的原因,原因是梯度突然消失或者梯度膨脹(exploding)引起的深度學(xué)習(xí)根本問題[3]。比較[4]。
[A6] 1991年:遞歸神經(jīng)網(wǎng)絡(luò)的深度框架
我的第一個(gè)遞歸深度系統(tǒng)(上述提到)[1,2] 通過在非監(jiān)督情況下的一個(gè)深度RNN棧預(yù)訓(xùn)練(a deep RNN stack pre-trained in unsupervised fashion),部分克服了根本問題[A5] ,進(jìn)而加速了后來的監(jiān)督學(xué)習(xí)。這是在2000年后有效的深度學(xué)習(xí)系統(tǒng),并且也是第一個(gè)神經(jīng)分層時(shí)間記憶模型,也是第一個(gè)“很深的學(xué)習(xí)系統(tǒng)”。
[A7] 1997年:監(jiān)督式深度學(xué)習(xí)系統(tǒng)(LSTM)
長短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM RNN)成為第一個(gè)純監(jiān)督式深度學(xué)習(xí)系統(tǒng),如[5-10,12,A9]。LSTM RNN能夠?qū)W習(xí)找到很多之前無法解決的問題的答案。
[A8] 2006年:深信網(wǎng)絡(luò)(DeepBelief Network)/CNN結(jié)果
Hinton 和Salakhutdinov發(fā)表了文章,主要著重前饋式NN的非監(jiān)督預(yù)訓(xùn)練來加速后繼的監(jiān)督學(xué)習(xí)(比較 [A6] )。這幫助激起了人們關(guān)于深度人工網(wǎng)絡(luò)的興趣(關(guān)鍵詞:受限玻爾茲曼機(jī),深信網(wǎng)絡(luò))。同年,通過使用訓(xùn)練模型變形(training pattern deformations)[42, 43],Ranzato等人的監(jiān)督式BP訓(xùn)練[A1, A4] 的CNN [A2, A4] 在MNIST 筆跡數(shù)字圖像數(shù)據(jù)集基準(zhǔn)測試中創(chuàng)下新紀(jì)錄。
[A9] 2009年:深度學(xué)習(xí)贏得了第一次競賽
深度學(xué)習(xí)贏得了第一次官方國際模式識(shí)別競賽(有秘密測試集):LSTM RNN同時(shí)執(zhí)行分割和識(shí)別 [10, 11] ,在一些2009年ICDAR有聯(lián)系的筆跡競賽中取得勝利 [A7] 。
[A10] 2010年:GPUs上的普通反向傳播算法產(chǎn)生了優(yōu)秀的結(jié)果
深度但其他方面——沒有非監(jiān)督預(yù)訓(xùn)練,無卷積但是有訓(xùn)練模式變形——很標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)(NN)創(chuàng)下了新的MNIST記錄 [17] ,通過一個(gè)快速GPU的實(shí)現(xiàn)方法 [17]。(一年之后,第一個(gè)在MNIST上有人類級(jí)別表現(xiàn)的系統(tǒng)產(chǎn)生——MCMPCNN [22, A11])。
[A11] 2011年:GPU上的MPCNN——第一個(gè)超人類表現(xiàn)的視覺模式識(shí)別
Ciresan等人介紹了以GPU為基礎(chǔ)的監(jiān)督式最大池化CNN(卷積網(wǎng)絡(luò))[21],今天被大部分(如果不是所有的)在競爭中取得優(yōu)勢的深度神經(jīng)網(wǎng)絡(luò)采用。通過使用深而廣的多列(Multi-Column,MC)GPU-MPCNN,深度學(xué)習(xí)系統(tǒng)在視覺模式識(shí)別(在秘密的測試集上)上第一次超過人類的表現(xiàn)[25,25a-c](比人類表現(xiàn)好兩倍,比最接近的參賽人工神經(jīng)網(wǎng)絡(luò)好3倍,比最好的非神經(jīng)方法好6倍)。深而廣的多列(Multi-Column,MC)GPU-MPCNN是當(dāng)前深度前饋式神經(jīng)網(wǎng)絡(luò)的黃金標(biāo)準(zhǔn),現(xiàn)在被用于很多應(yīng)用中。
[A12] 2012年:第一個(gè)在物體識(shí)別和圖像分割上的競賽的勝利
一個(gè)圖像掃描[28,28a] GPU-MPCNN [21,A11]成為第一個(gè)在大型圖片上的視覺物體檢測競賽中獲勝的深度學(xué)習(xí)系統(tǒng)(與僅僅識(shí)別或分類相反):2012年ICPR有絲分裂檢測競賽。一個(gè)在電腦視覺社區(qū)中流行的MC [A11] GPU-MPCNN變體模型,在ImageNet分類基準(zhǔn)測試中創(chuàng)下記錄。深度學(xué)習(xí)系統(tǒng)第一次在純圖片分割競賽(ISBI 2012)中取勝(又是一個(gè)圖片掃描GPU-MPCNN)[53,53a,53b]。
[A13] 2013:更多的競賽和基準(zhǔn)測試記錄
LSTM創(chuàng)造的TIMIT音素識(shí)別新記錄 [12] 。使用深度GPU-MCMPCNN的桌面機(jī)器在ICDAR中文筆跡識(shí)別基準(zhǔn)測試(超過3700個(gè)類別)中創(chuàng)造了新記錄(幾乎達(dá)到人類表現(xiàn))[45a]。GPU-MPCNN [54-54b] 贏得了MICCAI2013有絲分裂識(shí)別大獎(jiǎng)挑戰(zhàn)賽。GPU-MPCNN [21] 也幫助取得了在ImageNet分類和PASCAL物體識(shí)別 [54e] 中新的最好成績 [26a] 。更多的競賽情況在瑞士AI實(shí)驗(yàn)室IDSIA和多倫多大學(xué)的G.H.的網(wǎng)頁中提到。
(作為一個(gè)機(jī)器學(xué)習(xí)研究人員,我癡迷于合理的信度分配(proper credit assignment))
在2009年,我們的深度學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)成為了第一批贏得官方國際模式識(shí)別競賽的深度學(xué)習(xí)系統(tǒng)(秘密的測試集只有主辦方才知道)[A9];2012年之前,它們共贏了八次[A 12],包括在第一次大型圖片中識(shí)別物體的競賽[54] (at ICPR 2012)和圖片分割[53] (at ISBI 2012)。在2011年,它們完成了世界第一個(gè)超人類視覺模式識(shí)別的結(jié)果[A11]。自2012年以來,有了其他的系統(tǒng)的一些變體并贏得了另外的一些競賽,如[A12,A13]。
然而,深度學(xué)習(xí)領(lǐng)域研究歷史悠久,1965年,Ivakhnenko和 Lapa [71]公布了第一款對于深度監(jiān)督前饋式多層感知器(supervised deep feedforward multilayer perceptrons)的通用而有效的學(xué)習(xí)算法。1971年的一篇文章描述了一個(gè)通過“數(shù)據(jù)成組處理法(Group Method of Data Handling)”訓(xùn)練的8層深度網(wǎng)絡(luò),這仍然在新千年中很流行。
我自己的第一款深度學(xué)習(xí)系統(tǒng)要追溯到1991年[1,2]。據(jù)我所知,它也是“很深的學(xué)習(xí)系統(tǒng)”,比深度學(xué)習(xí)之父Ivakhnenko的那些系統(tǒng)要深度:通過使用非監(jiān)督預(yù)訓(xùn)練來訓(xùn)練很多遞歸神經(jīng)網(wǎng)(RNN),它能夠在成百上千的非線性操作子(operators)或者神經(jīng)層上執(zhí)行信度分配(這樣的RNN比標(biāo)準(zhǔn)的前饋式神經(jīng)元網(wǎng)絡(luò)更加強(qiáng)大,并能夠編碼所有的系列輸入數(shù)據(jù))。
這種基本的想法在今天仍然很流行。每個(gè)RNN在非監(jiān)督情況下訓(xùn)練一段時(shí)間來預(yù)測下一個(gè)輸入。從那時(shí)起,只有非預(yù)期情況下的輸入(誤差)會(huì)傳遞新的信息并被輸入到下一個(gè)更高層的RNN中,更高層的RNN會(huì)在更慢的、自組織時(shí)間尺度上運(yùn)作。很容易知道沒有信息丟失,信息只是得到了壓縮(注意到機(jī)器學(xué)習(xí)的很多地方本質(zhì)上是關(guān)于壓縮)。經(jīng)過越來越來深的分層時(shí)間記憶模型編碼,我們得到冗余度越來越小的輸入序列,這在空間(如前饋式神經(jīng)網(wǎng)絡(luò))和時(shí)間上壓縮了數(shù)據(jù)。也有連續(xù)的變體(continuous variant)[47]。
1993年[2] 的一個(gè)古老的具有說明性的深度學(xué)習(xí)實(shí)驗(yàn)對在1200次步驟或者隨后的1200個(gè)非線性虛擬神經(jīng)層進(jìn)行信度分配。然而,初始的、非監(jiān)督RNN棧的最頂層編碼的壓縮程度非常高,以至于通過附加監(jiān)督學(xué)習(xí)方法的順序分類成為可能(之前無法成功)。
有一種將高層壓縮或者抽取到低層的方式,于是它會(huì)部分地折疊分層時(shí)間記憶模型。解決方法是重新訓(xùn)練低層RNN來連續(xù)模仿(預(yù)測)已經(jīng)訓(xùn)練過的、較慢的、高層RNN的隱藏單元,通過另外附加的可預(yù)測性輸出神經(jīng)元[1,2]。這幫助了低層RNN發(fā)展成為合適的、很少改變的記憶,這種記憶可能彌補(bǔ)長時(shí)間的延遲。
1991的深度學(xué)習(xí)系統(tǒng)是第一個(gè)克服深度學(xué)習(xí)根本問題的系統(tǒng),這些問題由我的第一位學(xué)生(現(xiàn)在是教授)Sepp Hochreiter識(shí)別并分析出來:梯度突然消失或膨脹(explode)問題 [3, 4, 4a, 5A]。后者促成了我們后續(xù)在20世紀(jì)90年代和21世紀(jì)的所有深度學(xué)習(xí)研究。
通過監(jiān)督式深度學(xué)習(xí)LSTM RNN(1997)(例如,[5,6,7,A7]),我們能夠最終得到與1991年系統(tǒng)[1, 2]相似的成果,克服了沒有任何非監(jiān)督預(yù)訓(xùn)練的深度學(xué)習(xí)根本問題。另外,LSTM通過the partially unsupervised 1991 chunker [1,2],也能夠?qū)W習(xí)無法習(xí)得的任務(wù)。
特別成功的例子是很多通過CTC(Connectionist Temporal Classification)[8]訓(xùn)練的LSTM RNN。2009年有了更快的計(jì)算機(jī),并通過我的PhD學(xué)生和博士后的工作,如Alex Graves [10],這成為第一個(gè)在官方國際模式識(shí)別競賽中取勝的RNN系統(tǒng)[A9]。據(jù)我所知,這也是有史以來第一個(gè)深度學(xué)習(xí)系統(tǒng)(遞歸與否)贏得這樣的競賽。(事實(shí)上,它在三種不同語言有聯(lián)系的筆跡(connected handwriting)方面贏得了3個(gè)不同的ICDAR 2009競賽,如[11,A9,A13])。Alex隨后去了Geoffrey Hinton的實(shí)驗(yàn)室(多倫多大學(xué)),在那里我們很多雙向LSTMRNN[7]也打破了著名的TIMIT語音識(shí)別的記錄[12,A13],盡管之前花費(fèi)了很多時(shí)間在HMM為基礎(chǔ)的語音識(shí)別研究。CTC-LSTM也第一次在NIST's OpenHaRT 2013評(píng)估中幫助評(píng)分。在2015年,大型IT公司(谷歌、微軟、IBM、百度等等)也用了我們的遞歸神經(jīng)網(wǎng)絡(luò)(特別是LSTM)來提高語音識(shí)別、機(jī)器翻譯、圖片捕捉生成、語法分析(syntactic parsing)、文本到語音合成、圖片實(shí)時(shí)談話頭像(photo-realtalking heads)、韻律檢測(prosody detection)、視頻到文本翻譯等等很多其他重要的應(yīng)用。例如,谷歌發(fā)表博文描述了我們的以CTC為基礎(chǔ)的LSTM極大的改善了Google Voice(提高了49%);現(xiàn)在已經(jīng)在10億用戶的手機(jī)中使用了。
著名企業(yè)也對這樣的分層時(shí)間記憶模型很感興趣。[13, 14]
古老的術(shù)語“深度學(xué)習(xí)”第一次引入到機(jī)器學(xué)習(xí)上是通過Dechter(1986),引入到人工神經(jīng)網(wǎng)絡(luò)(NNs)中則是通過Aizenber等人(2000)。后來,它因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)而變得特別流行,深度神經(jīng)網(wǎng)絡(luò)是最成功的深度學(xué)習(xí)算法,雖然它的歷史更悠久,要向前追溯半個(gè)世紀(jì)。在2006年,在使用非監(jiān)督預(yù)訓(xùn)練和較不通用的前饋式網(wǎng)絡(luò)的時(shí)代背景下,一個(gè)深度學(xué)習(xí)系統(tǒng)
在“MNIST筆跡數(shù)據(jù)”這一機(jī)器學(xué)習(xí)中最著名的基準(zhǔn)測試[16]中,達(dá)到了1.2%的錯(cuò)誤率。我們的團(tuán)隊(duì)接著展現(xiàn)了在GPU上的、古老但好用的向后傳播算法(訓(xùn)練模式扭曲(distortion)但是沒有任何非監(jiān)督預(yù)訓(xùn)練),能夠提高三倍,將錯(cuò)誤率降到0.35%[17, A10]——在那時(shí),這是一個(gè)世界紀(jì)錄(之前標(biāo)準(zhǔn)的網(wǎng)絡(luò)達(dá)到了0.7%;一個(gè)反向傳播訓(xùn)練(backprop-trained)的卷積神經(jīng)網(wǎng)絡(luò)得到了0.39%;除了小的眼跳式的翻譯(small saccadic eye movement-like translations)以外,沒有扭曲(distortion)的普通的反向傳播算法得到了0.95%的準(zhǔn)確率)。接著我們替換了我們的標(biāo)準(zhǔn)網(wǎng)絡(luò),使用了一個(gè)生物學(xué)上看起來很合理的框架,這在當(dāng)時(shí)是受到了早期與神經(jīng)科學(xué)相關(guān)工作[19a,18,19,16]的啟示:深度的,廣泛GPU為基礎(chǔ)的多列最大池化CNN(Deep and Wide GPU-based Multi-Column Max-Pooling CNN ,MCMP CNN)[19,16,23],輔以反向傳播為基礎(chǔ)的、權(quán)重分享的卷積層[19,16,23]和贏家通吃的[19a,19]最大池化層[20,24,50,46](參見55)。MCMPCNN是MPCNN [25a]的決策委員會(huì),它使用了簡單的民主輸出平均策略(與早期更復(fù)雜的組合起來的學(xué)習(xí)器方法相比[48])。物體識(shí)別[54,54c,54a,A12]和圖像分割受益于快速以MPCNN為基礎(chǔ)的圖像掃描方法[28,28a]。我們的監(jiān)督GPU-MCMPCNN是在官方國際競賽(主辦方才知道秘密測試集數(shù)據(jù))中第一個(gè)完成超人類表現(xiàn)的方法[25,25a-c,A11](與[51]相比),并且在MNIST測試集上是第一個(gè)能夠與人類競爭的表現(xiàn)[22]。自從2011年之后,它也在常規(guī)基礎(chǔ)上贏得了很多其他的競賽[A11-A13]。
我們的GPU-MPCNN[21,A11]被多倫多大學(xué)、斯坦福大學(xué)和谷歌等采用,如[26,27,A12,A13]。蘋果公司,著名智能手機(jī)制造商,雇傭了UeliMeier,他是我們贏得ICDAR 2011中國筆跡比賽[11,22]的深度學(xué)習(xí)小組中的一員。ArcelorMittal,是世界頂級(jí)鋼鐵制造商,使用我們的方法來進(jìn)行材料缺陷檢測,例如[28] 。我們技術(shù)最重大的應(yīng)用是生物醫(yī)學(xué)圖像的應(yīng)用[54],如癌癥診斷或者CT心臟掃描的斑塊檢測。其他的用戶包括一家領(lǐng)軍汽車供應(yīng)廠,和如Deepmind公司,該公司的一個(gè)共同創(chuàng)始人是在我們的實(shí)驗(yàn)室中受訓(xùn)的PhD之一。
值得注意的是,自2009年之后,眾多國際比賽中最成功的深度學(xué)習(xí)算法是對一個(gè)超過40歲算法的使用和延伸[A9-A13],也就是,Linnainmaa(1970)的監(jiān)督式高效反向傳播算法[A1,60,29a](與[30,31,58,59,61]相比)或者RNN的BPTT/RTRL方法,如[32-34,37-39]。特別的,在2013年,最先進(jìn)的前饋式網(wǎng)絡(luò)是對兩種古老概念的以GPU為基礎(chǔ)的多列結(jié)合:向后傳播[A1]應(yīng)用于類認(rèn)知機(jī)的卷積框架中[A2](這包括了最大池化層[20,50,46]而不是備選的本地贏者通吃方法[local winner-take-all methods])。(另外還有來自20世紀(jì)90年代和21世紀(jì)的技巧,如[41a,41b,41c])。在很不同的深度遞歸案例中,監(jiān)督式系統(tǒng)也作為主導(dǎo),如[5,8,10,9,39,12,A9,A13]。
特別地,大部分獲得大獎(jiǎng)的或者保持基準(zhǔn)測試記錄的深度學(xué)習(xí)系統(tǒng)現(xiàn)在正使用在我們實(shí)驗(yàn)室開發(fā)的兩種監(jiān)督方法之一:(1)用CTC(2006)[8]訓(xùn)練的遞歸LSTM(1997)[A7],或者(2)前饋式GPU-MPCNN[2011] [21, A11]。然而,在很多應(yīng)用中,結(jié)合兩個(gè)世界的最好方法——監(jiān)督學(xué)習(xí)和非監(jiān)督預(yù)訓(xùn)練——仍然是最有優(yōu)勢的,如在以上描述的1991年的我的系統(tǒng)[1, 2, A6]中。
[1] J. Schmidhuber. Learning complex,extended sequences using the principle of history compression, NeuralComputation, 4(2):234-242, 1992 (based on TR FKI-148-91, 1991).
[2] J. Schmidhuber. Habilitation thesis,TUM, 1993. PDF. An ancient experiment with credit assignment across 1200 timesteps or virtual layers and unsupervised pre-training for a stack of recurrentNN can be found here - try Google Translate in your mother tongue.
[3] S. Hochreiter. Untersuchungen zudynamischen neuronalen Netzen. Diploma thesis, TUM, 1991 (advisor J.S.)
[4] S. Hochreiter, Y. Bengio, P. Frasconi,J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learninglong-term dependencies. In S. C. Kremer and J. F. Kolen, eds., A Field Guide toDynamical Recurrent Neural Networks. IEEE press, 2001.
[4a] Y. Bengio, P. Simard, P. Frasconi.Learning long-term dependencies with gradient descent is difficult. IEEE TNN5(2), p 157-166, 1994
[5] S. Hochreiter, J. Schmidhuber. LongShort-Term Memory. Neural Computation, 9(8):1735-1780, 1997.
[6] F. A. Gers, J. Schmidhuber, F. Cummins.Learning to Forget: Continual Prediction with LSTM. Neural Computation,12(10):2451--2471, 2000.
[7] A. Graves, J. Schmidhuber. Framewisephoneme classification with bidirectional LSTM and other neural networkarchitectures. Neural Networks, 18:5-6, pp. 602-610, 2005.
[8] A. Graves, S. Fernandez, F. Gomez, J.Schmidhuber. Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks. ICML 06, Pittsburgh, 2006.
[9] A. Graves, M. Liwicki, S. Fernandez, R.Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for ImprovedUnconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysisand Machine Intelligence, vol. 31, no. 5, 2009.
[10] A. Graves, J. Schmidhuber. OfflineHandwriting Recognition with Multidimensional Recurrent Neural Networks.NIPS'22, p 545-552, Vancouver, MIT Press, 2009.
[11] J. Schmidhuber, D. Ciresan, U. Meier,J. Masci, A. Graves. On Fast Deep Nets for AGI Vision. In Proc. FourthConference on Artificial General Intelligence (AGI-11), Google, Mountain View,California, 2011.
[12] A. Graves, A. Mohamed, G. E. Hinton.Speech Recognition with Deep Recurrent Neural Networks. ICASSP 2013, Vancouver,2013.
[12a] T. Bluche, J. Louradour, M. Knibbe,B. Moysset, F. Benzeghiba, C. Kermorvant. The A2iA Arabic Handwritten TextRecognition System at the OpenHaRT2013 Evaluation. Submitted to DAS 2014.
[13] J. Hawkins, D. George. HierarchicalTemporal Memory - Concepts, Theory, and Terminology. Numenta Inc., 2006.
[14] R. Kurzweil. How to Create a Mind: TheSecret of Human Thought Revealed. ISBN 0670025291, 2012.
[15] G. E. Hinton, R. R. Salakhutdinov.Reducing the dimensionality of data with neural networks. Science, Vol. 313.no. 5786, pp. 504 - 507, 2006.
[16] Y. LeCun, B. Boser, J. S. Denker, D.Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation Applied toHandwritten Zip Code Recognition, Neural Computation, 1(4):541-551, 1989.
[16a] Y. LeCun, B. Boser, J. S. Denker, D.Henderson, R. E. Howard, W. Hubbard and L. D. Jackel: Handwritten digitrecognition with a back-propagation network. Proc. NIPS 1989, 2, MorganKaufman, Denver, CO, 1990.
[17] Dan Claudiu Ciresan, U. Meier, L. M.Gambardella, J. Schmidhuber. Deep Big Simple Neural Nets For Handwritten DigitRecognition. Neural Computation 22(12): 3207-3220, 2010.
[18] D. H. Hubel, T. N. Wiesel. ReceptiveFields, Binocular Interaction And Functional Architecture In The Cat's VisualCortex. Journal of Physiology, 1962.
[19] K. Fukushima. Neocognitron: Aself-organizing neural network model for a mechanism of pattern recognitionunaffected by shift in position. Biological Cybernetics, 36(4): 193-202, 1980.Scholarpedia.
[19a] K. Fukushima: Neural network modelfor a mechanism of pattern recognition unaffected by shift in position -Neocognitron. Trans. IECE, vol. J62-A, no. 10, pp. 658-665, 1979.
[20] M. Riesenhuber, T. Poggio.Hierarchical models of object recognition in cortex. Nature Neuroscience 11, p1019-1025, 1999.
[20a] J. Schmidhuber. A local learningalgorithm for dynamic feedforward and recurrent networks. Connection Science,1(4):403-412, 1989. PDF. HTML. Local competition in the Neural Bucket Brigade(figures omitted).
[21] D. C. Ciresan, U. Meier, J. Masci, L.M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional NeuralNetworks for Image Classification. International Joint Conference on ArtificialIntelligence (IJCAI-2011, Barcelona), 2011.
[22] D. C. Ciresan, U. Meier, J.Schmidhuber. Multi-column Deep Neural Networks for Image Classification. Proc.IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012, p 3642-3649,2012.
[23] Y. LeCun, Y. Bottou, Y. Bengio, P. Haffner.Gradient-based learning applied to document recognition. Proceedings of the IEEE,86(11):2278-2324, 1998
[24] S. Behnke. Hierarchical NeuralNetworks for Image Interpretation. Dissertation, FU Berlin, 2002. LNCS 2766, Springer2003.
[25] D. C. Ciresan, U. Meier, J. Masci, J.Schmidhuber. Multi-Column Deep Neural Network for Traffic Sign Classification.Neural Networks 32: 333-338, 2012.
[25a] D. C. Ciresan, U. Meier, J. Masci, J.Schmidhuber. A Committee of Neural Networks for Traffic Sign Classification.International Joint Conference on Neural Networks (IJCNN-2011, San Francisco),2011.
[25b] J. Stallkamp, M. Schlipsing, J.Salmen, C. Igel. INI Benchmark Website: The German Traffic Sign RecognitionBenchmark for IJCNN 2011.
[25c] Qualifying for IJCNN 2011competition: results of 1st stage (January 2011)
[25d] Results for IJCNN 2011 competition (2August 2011)
[26] A. Krizhevsky, I. Sutskever, G. E.Hinton. ImageNet Classification with Deep Convolutional Neural Networks. NIPS25, MIT Press, 2012.
[26a] M. D. Zeiler, R. Fergus. Visualizingand Understanding Convolutional Networks. TR arXiv:1311.2901 [cs.CV], 2013.
[27] A. Coates, B. Huval, T. Wang, D. J.Wu, Andrew Y. Ng, B. Catanzaro. Deep Learning with COTS HPC Systems, ICML 2013.
[28] J. Masci, A. Giusti, D. Ciresan, G.Fricout, J. Schmidhuber. A Fast Learning Algorithm for Image Segmentation withMax-Pooling Convolutional Networks. ICIP 2013.
[28a] A. Giusti, D. Ciresan, J. Masci, L.M. Gambardella, J. Schmidhuber. Fast Image Scanning with Deep Max-PoolingConvolutional Neural Networks. ICIP 2013.
[29] P. J. Werbos. Beyond Regression: NewTools for Prediction and Analysis in the Behavioral Sciences. PhD thesis,Harvard University, 1974
[29a] P. J. Werbos. Applications ofadvances in nonlinear sensitivity analysis. In R. Drenick, F. Kozin, (eds):System Modeling and Optimization: Proc. IFIP (1981), Springer, 1982.
[29b] P. J. Werbos. BackwardsDifferentiation in AD and Neural Nets: Past Links and New Opportunities. InH.M. Bücker, G. Corliss, P. Hovland, U. Naumann, B. Norris (Eds.), AutomaticDifferentiation: Applications, Theory, and Implementations, 2006.
[29c] S. E. Dreyfus. The computationalsolution of optimal control problems with time lag. IEEE Transactions onAutomatic Control, 18(4):383-385, 1973.
[30] Y. LeCun: Une procedured'apprentissage pour reseau a seuil asymetrique. Proceedings of Cognitiva 85,599-604, Paris, France, 1985.
[31] D. E. Rumelhart, G. E. Hinton, R. J.Williams. Learning internal representations by error propagation. In D. E.Rumelhart and J. L. McClelland, editors, Parallel Distributed Processing,volume 1, pages 318-362. MIT Press, 1986
[32] Ron J. Williams. Complexity of exactgradient computation algorithms for recurrent neural networks. Technical ReportTechnical Report NU-CCS-89-27, Boston: Northeastern University, College ofComputer Science, 1989
[33] A. J. Robinson and F. Fallside. Theutility driven dynamic error propagation network. TR CUED/F-INFENG/TR.1,Cambridge University Engineering Department, 1987
[34] P. J. Werbos. Generalization ofbackpropagation with application to a recurrent gas market model. Neural Networks,1, 1988
[35] D. H. Ballard. Modular learning inneural networks. Proc. AAAI-87, Seattle, WA, p 279-284, 1987
[36] G. E. Hinton. Connectionist learningprocedures. Artificial Intelligence 40, 185-234, 1989.
[37] B. A. Pearlmutter. Learning statespace trajectories in recurrent neural networks. Neural Computation,1(2):263-269, 1989
[38] J. Schmidhuber. A fixed size storageO(n^3) time complexity learning algorithm for fully recurrent continuallyrunning networks. Neural Computation, 4(2):243-248, 1992.
[39] J. Martens and I. Sutskever. TrainingRecurrent Neural Networks with Hessian-Free Optimization. In Proc. ICML 2011.
[40] K. Fukushima: Artificial vision bymulti-layered neural networks: Neocognitron and its advances, Neural Networks,vol. 37, pp. 103-119, 2013. Link.
[41a] G. B. Orr, K.R. Müller, eds., NeuralNetworks: Tricks of the Trade. LNCS 1524, Springer, 1999.
[41b] G. Montavon, G. B. Orr, K. R. Müller,eds., Neural Networks: Tricks of the Trade. LNCS 7700, Springer, 2012.
[41c] Lots of additional tricks forimproving (e.g., accelerating, robustifying, simplifying, regularising) NN canbe found in the proceedings of NIPS (since 1987), IJCNN (of IEEE & INNS,since 1989), ICANN (since 1991), and other NN conferences since the late 1980s.Given the recent attention to NN, many of the old tricks may get revived.
[42] H. Baird. Document image defectmodels. IAPR Workshop, Syntactic & Structural Pattern Recognition, p 38-46,1990
[43] P. Y. Simard, D. Steinkraus, J.C.Platt. Best Practices for Convolutional Neural Networks Applied to VisualDocument Analysis. ICDAR 2003, p 958-962, 2003.
[44] I. J. Goodfellow, A. Courville, Y.Bengio. Spike-and-Slab Sparse Coding for Unsupervised Feature Discovery. Proc.ICML, 2012.
[45] D. Ciresan, U. Meier, J. Schmidhuber.Transfer Learning for Latin and Chinese Characters with Deep Neural Networks.Proc. IJCNN 2012, p 1301-1306, 2012.
[45a] D. Ciresan, J. Schmidhuber.Multi-Column Deep Neural Networks for Offline Handwritten Chinese CharacterClassification. Preprint arXiv:1309.0261, 1 Sep 2013.
[46] D. Scherer, A. Mueller, S. Behnke.Evaluation of pooling operations in convolutional architectures for objectrecognition. In Proc. ICANN 2010.
[47] J. Schmidhuber, M. C. Mozer, and D.Prelinger. Continuous history compression. In H. Hüning, S. Neuhauser, M. Raus,and W. Ritschel, editors, Proc. of Intl. Workshop on Neural Networks, RWTHAachen, pages 87-95. Augustinus, 1993.
[48] R. E. Schapire. The Strength of WeakLearnability. Machine Learning 5 (2): 197-227, 1990.
[49] M. A. Ranzato, C. Poultney, S. Chopra,Y. Lecun. Efficient learning of sparse representations with an energy-basedmodel. Proc. NIPS, 2006.
[50] M. Ranzato, F. J. Huang, Y. Boureau,Y. LeCun. Unsupervised Learning of Invariant Feature Hierarchies withApplications to Object Recognition. Proc. CVPR 2007, Minneapolis, 2007.
等共74項(xiàng)參考文獻(xiàn)
聯(lián)系客服