[1] 3D Steerable CNNs: Learning RotationallyEquivariant Features in Volumetric Data
Maurice Weiler, Mario Geiger, Max Welling, Wouter Boomsma, Taco Cohen
University of Amsterdam, EPFL, University of Copenhagen, Qualcomm AI Research
https://papers.nips.cc/paper/8239-3d-steerable-cnns-learning-rotationally-equivariant-features-in-volumetric-data.pdf
這篇文章提出一種新型卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)與剛體運(yùn)動(dòng)等價(jià)。該模型使用三維歐幾里得空間上的標(biāo)量、矢量和張量場(chǎng)來(lái)表示數(shù)據(jù),同時(shí)使用等變量卷積來(lái)得到這些表示之間的映射。
這些SE(3)等變量卷積是基于內(nèi)核的,這些內(nèi)核是由完備可引導(dǎo)內(nèi)核基的線(xiàn)性組合得到的,本文對(duì)此進(jìn)行了分析性推導(dǎo)。本文證明了等變量卷積是三維空間中場(chǎng)之間最一般的等數(shù)線(xiàn)性映射。
實(shí)驗(yàn)結(jié)果表明,3D可引導(dǎo)CNN在氨基酸傾向預(yù)測(cè)和蛋白質(zhì)結(jié)構(gòu)分類(lèi)問(wèn)題上效果可觀(guān),兩者均具有固有的SE(3)對(duì)稱(chēng)性。
幾種方法的效果對(duì)比如下
其中2對(duì)應(yīng)的論文為
Gift: Areal-time and scalable 3d shape search engine, CVPR 2016
7對(duì)應(yīng)的論文為
Spherical CNNs,ICLR 2018
14對(duì)應(yīng)的論文為
3Dobject classification and retrieval with Spherical CNNs,2017
16對(duì)應(yīng)的論文為
Deep aggregation of local 3d geometric features for3d model retrieval, BMVC 2016
24對(duì)應(yīng)的論文為
Rotationnet: Joint objectcategorization and pose estimation using multiviews from unsupervised viewpoints, 2018
代碼地址
https://github.com/kanezaki/rotationnet
35對(duì)應(yīng)的論文為
Large-Scale 3D Shape Retrieval from ShapeNet Core55, 2017
39對(duì)應(yīng)的論文為
Multi-fourier spectra descriptor and augmentation withspectral clustering for 3d shape retrieval,2009
準(zhǔn)確率隨訓(xùn)練集大小變化圖如下
代碼地址
https://github.com/mariogeiger/se3cnn
數(shù)據(jù)集地址
https://github.com/wouterboomsma/cath_datasets
[2] Mesh-TensorFlow:Deep Learning for Supercomputers
Noam Shazeer, Youlong Cheng, Niki Parmar,Dustin Tran, Ashish Vaswani, Penporn Koanantakool, Peter Hawkins, HyoukJoong LeeMingsheng Hong, Cliff Young, Ryan Sepassi, Blake Hechtman
Google Brain
https://papers.nips.cc/paper/8242-mesh-tensorflow-deep-learning-for-supercomputers.pdf
對(duì)數(shù)據(jù)進(jìn)行分批,使得數(shù)據(jù)并行化,在分布式深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練策略中占有主流地位,該方法具有通用性,而且能夠促成單程序多數(shù)據(jù)流編程。
然而,數(shù)據(jù)分批處理存在一些問(wèn)題,比如由于內(nèi)存限制無(wú)法訓(xùn)練非常大的模型,而且具有高延遲性,另外,批量過(guò)小時(shí)會(huì)導(dǎo)致效率低下。值得高興的是,這些問(wèn)題都可以通過(guò)比較常用的分布策略(模型并行化)來(lái)解決。不幸的是,高效的模型并行算法往往比較復(fù)雜,難以發(fā)現(xiàn)、描述,并且難以實(shí)現(xiàn),尤其在大型集群上更是如此。
本文提出了 Mesh-TensorFlow,它是一種用于特定類(lèi)別分布式張量計(jì)算的語(yǔ)言。在 Mesh-TensorFlow 中,數(shù)據(jù)并行性可以看做沿'批處理'維度進(jìn)行拆分張量和操作,用戶(hù)可以指定在多維處理器網(wǎng)格上的任意維度拆分,進(jìn)而得到任意張量維度。
Mesh-TensorFlow 圖可以編譯為 SPMD 程序,該程序由并行操作與集合通信基元(如 Allreduce)結(jié)合。本文利用 Mesh-TensorFlow 實(shí)現(xiàn)了Transformer序列到序列模型的另一個(gè)高效版本,該版本數(shù)據(jù)并行、模型也并行。作者們利用 512 個(gè)內(nèi)核的 TPU 網(wǎng)格,訓(xùn)練具有多達(dá) 50 億個(gè)參數(shù)的Transformer模型,效果超越了 WMT'14 英語(yǔ)-法語(yǔ)翻譯任務(wù)和 10 億字語(yǔ)言建?;鶞?zhǔn)的當(dāng)前最優(yōu)結(jié)果。
同步數(shù)據(jù)并行算法偽代碼如下
不同情況對(duì)比如下
幾種方法的效果對(duì)比如下
其中[13]對(duì)應(yīng)的論文為
Exploring the Limits of Language Modeling
[15]對(duì)應(yīng)的論文為
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-ofExperts Layer
Transformer對(duì)應(yīng)的論文為
Attention Is All You Need
代碼地址
https://github.com/jadore801120/attention-is-all-you-need-pytorch
https://github.com/Kyubyong/transformer
代碼地址
https://github.com/tensorflow/mesh
[3] Using Trusted Data to Train Deep Networks onLabels Corrupted by Severe Noise
Dan Hendrycks, Mantas Mazeika, Duncan Wilson, Kevin Gimpel
University of California, University of Chicago, Foundational Research Institute, Toyota Technological Institute at Chicago
https://papers.nips.cc/paper/8246-using-trusted-data-to-train-deep-networks-on-labels-corrupted-by-severe-noise.pdf
海量數(shù)據(jù)集在深度學(xué)習(xí)中的重要性與日俱增,這使得將噪聲標(biāo)簽標(biāo)記為分類(lèi)器的關(guān)鍵屬性變得十分重要。
標(biāo)簽的噪聲源包括自動(dòng)標(biāo)簽、非專(zhuān)家標(biāo)簽和數(shù)據(jù)中惡化對(duì)抗樣本的標(biāo)簽損壞。很多之前的工作都假設(shè)標(biāo)簽的來(lái)源是不能全部信任的。作者們放寬了此假設(shè),并假定訓(xùn)練數(shù)據(jù)中的一小部分標(biāo)簽是可信的。這種做法有助于實(shí)現(xiàn)大量標(biāo)簽損壞的情況下模型的魯棒性能得以提升。
此外,通過(guò)使用一組帶有干凈標(biāo)簽的可信數(shù)據(jù),可以消除特別嚴(yán)重的標(biāo)簽噪音。作者們利用可信數(shù)據(jù),提出了一種損失校正方法,利用可信樣本以數(shù)據(jù)效率的方式減輕標(biāo)簽噪聲對(duì)深度神經(jīng)網(wǎng)絡(luò)分類(lèi)器的影響。
在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理任務(wù)中,本文方法在各種標(biāo)簽噪聲進(jìn)行了實(shí)驗(yàn),結(jié)果表明該方法明顯優(yōu)于現(xiàn)有方法。
標(biāo)簽污染矩陣如下
損失校正算法偽代碼如下
不同的標(biāo)簽損失程度的誤差曲線(xiàn)如下
不同程度的可信標(biāo)簽在多個(gè)圖像數(shù)據(jù)集上的效果對(duì)比如下
不同程度的可信標(biāo)簽在多個(gè)自然語(yǔ)言處理數(shù)據(jù)集上的效果對(duì)比如下
不同程度的可信標(biāo)簽效果對(duì)比如下
代碼地址
https://github.com/mmazeika/glc
聯(lián)系客服