免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
程明明教授:關(guān)于文獻(xiàn)閱讀和科研選題

重磅干貨,第一時間送達(dá)

程明明,1985年生。2012年博士畢業(yè)于清華大學(xué),之后在英國牛津從事計算機(jī)視覺研究,并于2014年回國任教,2016年起任南開大學(xué)教授,國家“萬人計劃”青年拔尖人才。其主要研究方向包括:計算機(jī)圖形學(xué)、計算機(jī)視覺、圖像處理等。已在IEEE PAMI, ACM TOG等CCF-A類國際會議及期刊發(fā)表論文30余篇。相關(guān)研究成果論文他引10,000余次。其中,顯著性物體檢測技術(shù)被華為Mate 10等旗艦手機(jī)作為亮點特性。其研究工作曾被英國《BBC》、德國《明鏡周刊》、美國《赫芬頓郵報》等權(quán)威國際媒體撰文報道。


關(guān)于文獻(xiàn)閱讀和科研選題


自從2007年一月去我即將讀研的清華大學(xué)計算機(jī)圖形學(xué)組做本科畢業(yè)設(shè)計開始,我就陷入了一個困擾我許久的問題之中:如何閱讀文獻(xiàn),如何尋找科研題目?之后長達(dá)三年的時間,我一直被這個問題深深困擾,直至2009年底首次以第二作者發(fā)表論文(Sketch2PhotoResizing)才稍微有緩和。在之后的很多年,我也一直試圖總結(jié)相關(guān)的經(jīng)驗教訓(xùn),期望有一天這些經(jīng)驗教訓(xùn)有一天也可以幫助和我一樣飽受困擾的同學(xué),特別是低年級同學(xué)。近期我時常收到類似的求助郵件,因此今天決定將這些經(jīng)驗和教訓(xùn)寫出來,并盡量提供詳細(xì)的link,指向那些易讀易擴(kuò)展的工作,方便大家學(xué)習(xí)論文和相關(guān)源代碼。


1.機(jī)遇與挑戰(zhàn)


機(jī)遇與挑戰(zhàn)總是并存的。這一點很多時候被作為政治口號說的太多,以至于我們很多時候都對此感覺有些麻木,甚至在重要問題上容易忘記這一點。就閱讀論文和尋找新的題目而言,幾乎在任何時刻,如果我們?nèi)ラ喿x之前的論文,都會覺得幾乎每個學(xué)科都發(fā)展到一定程度(有無數(shù)的重要工作以至于想通讀一遍都很困難),容易做的都被人做光了,剩下了一堆難啃的硬骨頭。但是當(dāng)我們從某個時間點往后看,又總是有太多的工作讓人覺得異常興奮,振奮之余又陷入了那個問題,貌似僅剩的容易工作又被人做了。只恨自己比別人晚出生幾年。要是真的能夠早生幾年,我們就能夠做出哪些工作嗎?我想如果抱著這種心態(tài),這種假設(shè)大概只會一直回退到遠(yuǎn)古時期,回退到那個大家都在為食物而拼命的年代。


與其抱怨已有工作浩如煙海,無從入手,感嘆我們怎么會不幸的出生在一個“科技發(fā)展的后噴發(fā)時代” ,不如認(rèn)真的換個更加客觀的角度重新思考問題。假如我們是一個計算機(jī)處理器設(shè)計行業(yè)的新從業(yè)者,當(dāng)我們剛進(jìn)入這個行業(yè)的頂級公司,看到無數(shù)的已有工作和成績,我們很可能也會發(fā)出類似上述情況的感慨。但是,身為一個外行,和無數(shù)的外行一樣,我非常有信心 ,計算機(jī)的處理能力在未來很多很多年還會繼續(xù)快速增長,比這個世界上幾乎所有其他行業(yè)都要快的速度繼續(xù)增長。所有的局外人都明白其中所蘊含的機(jī)遇。對于我們所從事的領(lǐng)域,很多時候我們的迷茫,我們的“不識廬山真面目”,都只源于我們“身在廬山中”。


任何的科學(xué)創(chuàng)新,都是基于已有工作基礎(chǔ)之上,不存在空中樓閣。激發(fā)創(chuàng)新工作的要素很多,新的數(shù)學(xué)理論,新的算法工具 ,新的軟件分析平臺,新的設(shè)備,…。其中任何一種新的東西,都有可能激發(fā)一個偉大的工作。我們不用擔(dān)心可做的事情被做完了,我們所能夠訪問到的新的理論、工具、平臺、設(shè)備,比歷史上任何時間點都要多很多。我們應(yīng)當(dāng)清楚的認(rèn)識到,機(jī)會不是即將耗盡的資源,而是會隨著時間的增長,變得越來越多。就像你站在過去的每個時間點上看后來的CPU計算能力一樣,那將是持續(xù)的超乎任何人想想的增長。


在從事這些領(lǐng)域的過程中,我也曾經(jīng)經(jīng)歷了迷茫、失望、探索、發(fā)現(xiàn)、振奮的各個階段。雖然迷茫和失望在時間跨度上占了我短短幾年科研經(jīng)歷的明顯多數(shù),但現(xiàn)在更多的是信心和對未來的憧憬。 當(dāng)我們擺脫之前的悲觀情緒之后,一個現(xiàn)實的問題是,如何尋找這些機(jī)遇,如何從海量的文獻(xiàn)中找出適合我們的科研題目?關(guān)于這一點,我想從自己比較熟悉的幾個領(lǐng)域出發(fā) ,用具體的實例來總結(jié)我的一些經(jīng)驗和教訓(xùn)。


下面主要通過時間順序,分析一些領(lǐng)域的一些代表性工作是如何一個接一個涌現(xiàn)出來的,是什么基礎(chǔ)啟發(fā)了這些工作?這些想法是如何轉(zhuǎn)化為實際的成果。對于新的科研工作者,特別是一二年級的學(xué)生,不妨假設(shè)我們也是曾經(jīng)的“當(dāng)事人”。如果能夠順著這幾條脈絡(luò)走下去,在每個論文出來之后,想一想如果我是當(dāng)時從事這些工作的人,我會從之前的工作中得到什么啟發(fā) ?我會如何開展下一步研究?對于低年級的新手,開始的時候這種鍛煉會非常辛苦。最初的“啟發(fā)”很可能是“又一個軟柿子被人捏過了”,“貌似能做的都已經(jīng)被做了”,“貌似只剩難啃的硬骨頭了”,“這家伙從事科研的時間點怎么這么幸運”。我們可以想想如果是自己,站在當(dāng)時那個位置,會做什么后續(xù)工作。當(dāng)確實充分的思考完一個工作之后,我們可以看一看下一個同領(lǐng)域的重要工作。如果你發(fā)現(xiàn)自己很多時候可以“預(yù)測”這些發(fā)展了,那么非常恭喜你,這篇小總結(jié)可能對你沒太大用處了。如果我們又一次陷入那個覺得只恨又一個容易做的工作被別人做掉了的怪圈,那么還是再認(rèn)真鍛煉,仔細(xì)琢磨這些新的工作是怎么一個接一個在在相似的topic上層出不窮的。


注:以下主要分析一些引用數(shù)特別高的論文。每一個引用通常意味著有人受到這篇論文的啟發(fā),做了一些新的工作,并且發(fā)表了相關(guān)的論文。在無數(shù)的論文中,閱讀這種論文通?!靶詢r比”更高一些。另外看法純屬個人意見,可能有所疏漏,歡迎批評指正(可在帖子下面留言)。


2.系列工作分析之Saliency Detection


2.1 [98PAMI]: A model of saliency-based visual attention for rapid scene analysis (Matlab, 9000+ citations)


這篇論文雖然只是個short paper,但是在這個領(lǐng)域有著不可磨滅的絕對重要性。其最大的貢獻(xiàn)在于將Visual attention的問題用計算模型表達(dá)出來,并展示出來這個問題可以在一定程度上得到有意義的結(jié)果。其中提到的Center-Surround difference在后續(xù)的很多工作中都被以不同的形式表現(xiàn)出來。除了生成saliency map (后續(xù)的很多方法只生成saliency map),這篇文章也探討了注視點的轉(zhuǎn)移機(jī)制??傊?,說這篇論文是saliency Detection computation的開山之作也不為過,此文對后續(xù)工作有著深刻的影響。體現(xiàn)了最牛的一種創(chuàng)新境界“提出新問題”。


建議在繼續(xù)閱讀別的論文之前,先仔細(xì)讀一下這篇只有區(qū)區(qū)6頁的短文,想想還有什么可做的嗎? 我第一次讀完這篇論文之后,第一感覺是:i) 這篇論文對該考慮的問題都考慮到了,應(yīng)該沒有太多可以接著做的了, ii) 這么簡單的東西怎么就沒輪到我去發(fā)現(xiàn),那個時候的人太幸福了,這么簡單的想法也可以發(fā)IEEE TPAMI。當(dāng)然,這些初始的想法是像我一樣小菜鳥最常見的想法。但是真的回到1998年,那時候我還在讀初中,我們在農(nóng)村飯都吃不飽(現(xiàn)在還清楚的記得當(dāng)年由于營養(yǎng)不良,我的體重只有24kg),哪有現(xiàn)在這么方便,Google Scholar搜索一下什么該有的條件都有了。即使是在美國,當(dāng)年也只有這一個人把這個方向做的這么細(xì)致,我想當(dāng)年的美國也有很多博士生,但是絕大部分人沒有像這樣有影響力的工作。


再繼續(xù)往下讀之前,不妨使勁去想到底有多少種可能可以擴(kuò)展。我想,在沒有閱讀后續(xù)論文的條件下,常人能想到的擴(kuò)展不會超過兩三種,可謂少的可憐。但是,要是你點擊一下Google Scholar的鏈接,那5000+的citation中,有一半以上都是接著做saliency detection的!也就是說有2000+種可能可以接著做,并且成功的發(fā)表了論文,其中不乏優(yōu)秀論文。


再往后讀這個系列中的別的論文,你會發(fā)現(xiàn),idea越做越多,而非越做越少。等讀到最后一個的時候,你通常會發(fā)現(xiàn)自己輕易就能想出幾十種可能發(fā)表新論文的想法。


2.2 [07CVPR]: Saliency detection: A spectral residual approach, (Matlab, 2600+ citations)


在1998年P(guān)AMI的論文發(fā)表之后到這篇論文之前其實有很多做saliency detection的文章。這里不一一介紹了,因為太多了,以至于很多我自己也沒看。我直接跳到這篇很有“性價比”的論文。之所以這篇論文影響力很大,一個重要的原因是簡單,出奇的簡單!這篇論文一共5行matlab代碼,比一般論文abstract中的字符還少,作者直接貼到論文中了。具體方法我不分析了,自己看論文吧,5行代碼的方法,不用花太多時間就能看完。


特別簡單的方法通常意味著有無數(shù)種方案可以改進(jìn)。最直接最容易想到的創(chuàng)新莫過于“組合創(chuàng)新”。有興趣看這些改進(jìn)的讀者可以通過Google Scholar查看引用這個論文的其它論文。還是繼續(xù)上面的風(fēng)格,我每次都跳到下一個很有“性價比”的工作(也就是簡單可擴(kuò)展的工作)。


2.3 [07CVPR]: Learning to detect a salient object, (Dataset, 1800+ citations)


這篇論文最大的貢獻(xiàn)就是將saliency detection從以fixation prediction占絕對統(tǒng)治地位的時代,引導(dǎo)到了以salient object detection為主的時代,對該領(lǐng)域貢獻(xiàn)非常大。此外,這篇文章貢獻(xiàn)了一個含有2萬個圖片的數(shù)據(jù)集MSRA數(shù)據(jù)集,并給出了Bounding Box級的標(biāo)注。這篇文章的主要不足之處是沒開源(當(dāng)然那個年代大部分文章都不開源)導(dǎo)致重現(xiàn)比較麻煩。此外,Bounding Box級別的標(biāo)注精度不能滿足很多應(yīng)用需求。


2.4 [09CVPR]: Frequency-tuned salient region detection, (C++, 2400+ citations)


一篇2009年的工作,能在短時間內(nèi),受到如此關(guān)注,實數(shù)罕見。該文同樣具有幾乎所有高引用論文的重要特征:簡單!比上面的CVPR 2007的那個還簡單。你可以寫一個2行的matlab代碼就搞定。代碼字符數(shù)可以比很多論文的題目字符數(shù)還少。


這種論文容易擴(kuò)展的特點是毋庸置疑的。如果能發(fā)表在高水平的會議期刊上,這種論文會有很大的影響力。問題在于,如果是我們當(dāng)年想到了這個方法,怎么sell這個方法,讓他能夠被大家所認(rèn)可。看了方法的人都會感嘆,這樣也行??。?/span>


這篇論文之所以被大家認(rèn)可,特別是被CVPR的review認(rèn)可,很大原因在于作者看到了一個機(jī)遇“The true usefulness of a saliency map is determined by the application”。之前的很多saliency detection方法都在follow 98年pami那篇,試圖去預(yù)測注視點。恕我愚昧,我到現(xiàn)在為止,我也不是很明白這些注視點是怎么在實際應(yīng)用中使用(在我所熟悉的領(lǐng)域salient object region的應(yīng)用要廣泛的多,例如這張圖總結(jié)多種實際應(yīng)用中怎么可靠的利用顯著性物體檢測結(jié)果。Fixation的應(yīng)用可能包含recognition,但是我了解的不多)。Saliency的機(jī)制很重要,但是很多的應(yīng)用需要知道整個saliency物體的區(qū)域(例如圖像中一匹馬對應(yīng)的所有像素),而不是這個物體上的若干個點(例如馬的眼睛)。這篇文章之后,很多工作的評價標(biāo)準(zhǔn)就從傳統(tǒng)的對注視點預(yù)測的評價,轉(zhuǎn)移到對物體區(qū)域二值圖的預(yù)測上了。從某種意義上講,這篇文章對Saliency detection的問題做了重新的定義,讓問題定義更加回歸實際應(yīng)用。


這篇文章的方法之所以能在一個當(dāng)時最大的數(shù)據(jù)集(1000個image的binary segmentation)上做到比其它方法好的結(jié)果,很大的原因在于,別的方法不是針對這種評價體系設(shè)計的。在新的評價體系下,用圖像中每個像素顏色值,和圖像的平均顏色值,在三維彩色空間中的距離,作為saliency value,就能得到比之前方法“更好”的結(jié)果。這個工作的最大特點是從新的角度提出問題,怎么formulate都是次要的,不用太糾結(jié)于此(后來我們也利用關(guān)鍵詞搜索得到了很多圖像,并標(biāo)注了2個更大數(shù)量級的數(shù)據(jù)庫)。后來無數(shù)種方法都在他們的數(shù)據(jù)庫上取得了更好的結(jié)果。


2.5 [10CVPR]: Context-aware saliency detection, (Matlab, 1600+ citations)


雖然“組合創(chuàng)新”有時候容易被認(rèn)為是minor improvement,但是如果論文寫得好,實驗做得充分,也可以做出具有影響力的工作。而且貌似大部分論文都是組合創(chuàng)新。這篇CVPR 2010的工作就是Saliency detection中“組合創(chuàng)新”的一個典型。聽到組合創(chuàng)新這個詞,大家或許就能對這個paper的整體結(jié)構(gòu)有個猜測。其實就是把face detetion, pixel level saliency map,region level saliency map簡單組合起來。


2.6 [11CVPR](15PAMI): Global Contrast based Salient Region Detection, (C++, 2100+ citations)


可以說1998年的PAMI和2007年的CVPR是我2007剛開始接觸科研時就看過的paper。當(dāng)時看了只有佩服和震撼,感覺能做的都做了,貌似沒我什么機(jī)會。上面提到,我是在圖形學(xué)組讀博的,主要關(guān)注的是CV方法的應(yīng)用。2009年春季學(xué)期的時候,我們組加上外面訪問的學(xué)生,一共有10個project,后來這些project中了一篇ACM TOG和6篇Pacific Graphics(所有論文收錄圖形學(xué)中影響因子第三高的期刊CGF,第一是ACM TOG,第二是IEEE TVCG)。這些應(yīng)用經(jīng)驗,讓我心里比較清楚那種saliency map是我更需要的。但是根深蒂固的偏見(看了之前fixation point prediction系列paper之后覺得saliency map就該長的像那些paper中那樣),讓我即使在擁有如此多應(yīng)用經(jīng)驗的情況下,依然沒能及時的意識到,要想在實際應(yīng)用中發(fā)揮更大的作用,這個問題的定義方法和evaluate方法應(yīng)該改!


2010年6月份的時候,一個偶然的機(jī)會,我看到了CVPR 2009的論文?,F(xiàn)在還記得是某一天中午十一點多的時候看到的,論文粗看了一下,就到了吃飯點,和同學(xué)去食堂吃飯了。整個吃飯過程各種不淡定,心里那叫一個激動呀。因為我知道更多的saliency detection應(yīng)用確實需要這樣的問題定義和評價標(biāo)準(zhǔn)。而作者在論文中用到的方法,其實只是一個適用這種應(yīng)用需求的最最簡單的方法。這種簡單的方法太容易被超越了!激動過后,趕緊吃完午飯,回到實驗室驗證我吃飯時心里想到的幾個可能的改進(jìn)。那天下午,我花了不到1個小時的時間,就得到了比CVPR 2009論文中方法明顯好的結(jié)果(就是我CVPR11年論文中的HC方法)。不久之后,得到了一些老師和同學(xué)的反饋,進(jìn)而提出了論文中的RC方法,和SaliencyCut方法(值得注意的是,雖然很多后續(xù)方法號稱得到了更好的Saliency map,但是我一直沒看到更好的根據(jù)這些Saliency map得到的segmentation結(jié)果,可能跟我們堅持不在Journal版本錄用之前放出SaliencyCut部分代碼有關(guān)系吧)。


2.7 [12CVPR]: Saliency Filters: Contrast Based Filtering for Salient Region Detection, (C++, 800+ citations)


這篇文章從一個非常新穎的角度去看待顯著性檢測的問題,把顯著性檢測問題,特別是全局對比度計算問題,轉(zhuǎn)換為一個高維的高斯濾波問題。進(jìn)而使用了一個新出現(xiàn)的“神器”進(jìn)行求解。這個“神器”就是Eurographics 2010的Best paper runner up “Fast High-Dimensional Filtering Using the Permutohedral Lattice”。之所以稱之為神器,是因為這個技術(shù)成就了一批具有很高影響力的論文。將這種快速高斯濾波應(yīng)用到Conditional Random Field (CRF)領(lǐng)域,一下子就讓這個領(lǐng)域內(nèi)兩大主流方法之一的mean mield解法打了一個翻身仗。之前大家提到CRF, 就很容易提到2類解法,graph cut和mean field,然后就來一句由于計算效率問題,我們選擇基于graph cut的解法…。有了上述神器,Philipp Kr?henbühl等人先是展示了Mean field的快速解法(在全連通CRF情況下把以前需要36個小時計算還沒最終收斂的算法,直接0.2秒解掉)。這個神器在crf里面的應(yīng)用,也一舉摘得了NIPS 2011的best paper award。小試牛刀之后,Philipp Kr?henbühl等人又在CVPR 2012刷了一把saliency,并在ECCV 2012刷了一把optical flow。這個神器。就連現(xiàn)在語義分割類Deep Learning方法中的crf layer,也采用這個神器來加速(例如著名的DeepLab)。我自己也在Pacific Graphics 2015上,利用這個神器做了一個DenseCut的工作。


2.8 [13ICCV]: Efficient Salient Region Detection with Soft Image Abstraction (C++, 300+ citations)


受到Saliency Filter的啟發(fā),我結(jié)合自己CVPR 11年Global contrast那篇論文中用到的Color quantization和Gaussion Mixture Model的已有工作完成了這個工作。這個工作現(xiàn)在令我最印象深刻的是一個字“快”。一方面是算法快,cpu版本就能每秒處理90個image。另一方面是編程快,deadline前2周注意到saliency filter這篇文章后想到的,當(dāng)天下午就寫完程序(在自己已有工作基礎(chǔ)上新的程序很短)并在當(dāng)天晚上完成了paper里面的全部實驗。


2.9 [17IJCV] (13CVPR): Salient object detection: A discriminative regional feature integration approach, (C++, project, 490+ citations)


這個工作差不多可以認(rèn)為是顯著性物體檢測領(lǐng)域Deep learning時代到來前的最后一個高潮。在此之前的幾年里,包括上述的幾個工作,雖然每年CVPR等頂會上都會出幾個工作刷刷performance,但是絕大部分工作有點過于“拍腦袋”想出來的,讓這個領(lǐng)域里的主流工作背離了機(jī)器學(xué)習(xí)的大背景。如何將影響salient object detection的上述常見因素,以一種principled的方法利用起來,特別是利用機(jī)器學(xué)習(xí)領(lǐng)域的正規(guī)方式對不同特征進(jìn)行集成,就是這個paper的核心idea。具體實現(xiàn)嗎,就是做了很多feature,然后用Random Forest用principled的方法學(xué)習(xí)如何組合這些feature。我們在下面馬上要介紹的2015年IEEE TIP論文中對當(dāng)時主流的方法做了一個benchmark,DRFI在各個數(shù)據(jù)集中都排名第一。


2.10 [15TIP]: Salient object detection: A benchmark, (C++ & Matlab, 650+ citations)


在2014-2015年這段時間,我們對顯著性物體檢測這個領(lǐng)域的研究做了一個總結(jié)和比較性評測,對方法的演化特別是所有方法在一個統(tǒng)一的評價體系下的綜合表現(xiàn)進(jìn)行了對比性實驗,討論了各種方法的優(yōu)缺點,并探討了這個領(lǐng)域可能的發(fā)展方向等。由于這個時間點剛好處在顯著性物體檢測領(lǐng)域從傳統(tǒng)方法過渡到深度學(xué)習(xí)方法的交接點,因此這篇文章中對幾乎所有主流的非深度學(xué)習(xí)方法做了全面的總結(jié)。一些再這個數(shù)據(jù)集上表現(xiàn)較好的方法,如:DRFI,DSR,QCUT,RC等方法,就逐漸沉淀為非深度學(xué)習(xí)的顯著性物體檢測方法的代表。


2.11 [15IJCV]: Supercnn: A superpixelwise convolutional neural network for salient object detection (code, 40+ citations)


這是深度學(xué)習(xí)類的顯著性物體檢測的早期代表性工作。這塊的發(fā)展脈絡(luò)和第三節(jié)Edge Detection系列的發(fā)展脈絡(luò)極其相似。說明到一定時候,英雄所見略同。由于我先寫Edge detection那部分,再寫的基于深度學(xué)習(xí)的顯著性物體檢測部分,這部分就不打算想Edge detection那塊一樣把發(fā)展寫的那么細(xì)了。感興趣的讀者可以參考我們CVPR 2017年DSS論文中的相關(guān)工作進(jìn)行梳理,如果在梳理過程中和這篇文章第3節(jié)中的Edge detection系列對比著看,你回發(fā)現(xiàn)Idea層面驚人的相似之處。同edge detection領(lǐng)域剛過渡到深度學(xué)習(xí)系列方法初期相似,早期的深度學(xué)習(xí)也是從super-pixel層面提取特征并直接判斷目標(biāo)(saliency/edge)值的。開始使用新的殺手級工具時,往往單刀直入就可以取得比較好的進(jìn)步了。


2.12 [15CVPR] Saliency detection by multi-context deep learning (code, 200+ citations)


這邊文章除了有super-pixel level的local context之外,也加入CNN最擅長的對Global context的建模。除了直接應(yīng)用CNN提取super-pixel特征并預(yù)測顯著性值,CNN自身獲取全局信息的優(yōu)勢也得到一定程度的發(fā)揮。


2.14 [17CVPR] Deeply Supervised Salient Object Detection with Short Connections (code, 19 citations)


在做這個工作之前,我們注意到了edge detection, semantic segmentation, salient object detection幾個領(lǐng)域的一些共性和最新的趨勢: 1) 從局部分析逐漸過渡到End-to-End的全局(Holisticly)分析,2) 類似于15年Marr獎Runner up論文(Holistically-Nested Edge Detection, 簡稱HED)中的skip layer結(jié)構(gòu)對高質(zhì)量的輸出很有幫助,3) 顯式的讓高層語義信息去指導(dǎo)和幫助低層語義信息更好的定位顯著性物體位置的同時精確的確定其范圍很有幫助。因此,我們在HED的基礎(chǔ)上,增加了一種高層信息指導(dǎo)低層信息的Skip Layer結(jié)構(gòu),從而構(gòu)建了一種簡單,有效,快速的End-to-End的顯著性物體檢測網(wǎng)絡(luò)結(jié)構(gòu)。


方法很簡單,大家可以通過我們的論文和代碼進(jìn)一步了解細(xì)節(jié)。這里跟大家分享一些論文里沒有的東東。我們對于顯著性物體檢測技術(shù)的研究已經(jīng)持續(xù)很多年了。除了常見科研選題的技巧(如利用相似領(lǐng)域的知識、提出新的問題、利用新的工具等)之外,支持我們一路走來還有一個更重要的動力。任何一個研究領(lǐng)域蓬勃發(fā)展,都不是因為要發(fā)表paper,也不是因為研究生要畢業(yè),更不是因為科研人員想自嗨。這種蓬勃發(fā)展需要一股強大的潛在動力:Killer App。在做顯著性物體檢測算法的過程中,這些年我也一直持續(xù)在做Salient object detection的下游應(yīng)用。正是對這些下游應(yīng)用比一般視覺領(lǐng)域里做salient object detection更精準(zhǔn)的把握,才讓我們更容易清楚地把握一個好的salient object detection算法最缺什么元素。建議各位關(guān)注顯著性物體檢測算法的朋友,也關(guān)注一下相關(guān)的應(yīng)用,一定能夠受益不少。


圖1:DSS方法(CVPR17)用于智能拍照,并在華為Mate 10慕尼黑發(fā)布會和榮耀V10發(fā)布會上重點介紹。背后的一些故事和經(jīng)歷在一個報道采訪中我給予了詳細(xì)介紹。


圖2: 利用顯著性物體檢測技術(shù)自動為深度學(xué)習(xí)算法生成訓(xùn)練數(shù)據(jù)。17PAMI: STC


圖3: 用顯著性物體檢測技術(shù)分析圖像中的結(jié)構(gòu)信息,并用于圖像檢索、合成、和互聯(lián)網(wǎng)圖像分析。這個工作的詳情請參考Sketch2Photo項目。


圖4: 內(nèi)容敏感的圖像縮放也是一個研究很廣泛的領(lǐng)域。高質(zhì)量的結(jié)果需要對顯著性物體的魯棒定位。詳見:ImageResizing項目。


2.15 [14arXiv]: Salient Object Detection: A survey. (pdf, 150+ citations)


這個工作第一版放在arXiv上之后,我們進(jìn)行了持續(xù)的更新。最新一版也包含了對上述工作的更詳細(xì)的總結(jié)。


3. 系列工作分析之Edge Detection


邊緣檢測在計算機(jī)視覺的很多領(lǐng)域中都有非常重要的應(yīng)用。圖像邊緣檢測能夠大幅減少數(shù)據(jù)量,在保留重要結(jié)構(gòu)屬性的同時,剔除弱相關(guān)信息。在深度學(xué)習(xí)火起來之前,傳統(tǒng)的Sobel、Prewitt、Laplacian等濾波器,Canny檢測器具有廣泛的應(yīng)用,這些檢測器只考慮到圖像局部的急劇變化,特別是顏色、亮度等的急劇變化,通過這些特征來找邊緣。但是這些特征很難模擬較為復(fù)雜的場景,例如在伯克利的分割數(shù)據(jù)集(Berkeley Segmentation Dataset, BSD500),僅通過亮度、顏色變化并不足以把邊緣檢測做好。后來,開始有人使用數(shù)據(jù)驅(qū)動的方法來學(xué)習(xí)怎樣聯(lián)合顏色、亮度、梯度這些特征來做邊緣檢測,并且產(chǎn)生了一些流行的方法,比如Pb, gPb, Sketch Tokens, Structured Edge。但是在很多場景下,僅憑顏色、亮度、梯度等low-level特征很難做到魯棒的檢測,我們需要用一些high-level 比如 object-level的信息才能夠把中間的細(xì)節(jié)紋理去掉,使其更加符合人的認(rèn)知過程(舉個形象的例子,就好像畫家在畫這個物體的時候,更傾向于只畫外面這些輪廓,而把里面的細(xì)節(jié)給忽略掉)。傳統(tǒng)的基于手工設(shè)計特征的方法,最好的結(jié)果只有0.7(用正確率和召回率的調(diào)和均值F-Measure來度量,BSD500數(shù)據(jù)集上多個人工標(biāo)注者之間的F-Measure=0.8),這很大程度上是因為傳統(tǒng)的人工設(shè)計的特征并沒有包含高層的物體級別信息,導(dǎo)致有很多的誤檢。因而研究者們嘗試用卷積神經(jīng)網(wǎng)絡(luò)CNN,探索是否可以通過內(nèi)嵌很多高層的、多尺度的信息來解決這一問題。近幾年,有很多基于CNN的方法的工作。這里從2014 ACCV N4-Fields開始說起。


3.1 [14ACCV]: N4-Fields: Neural network nearest neighbor fields for image transforms (80+ citations)


如何從一張圖片里面找邊緣?順著傳統(tǒng)方法局部鄰域計算的思路。我們會想到計算局部梯度的大小、紋理變化等這些直觀的方法。其實N4-Fields這個方法也很直觀,圖像有很多的patch,用卷積神經(jīng)網(wǎng)絡(luò)(CNN)算出每個patch的特征,然后在字典里面進(jìn)行檢索,查找與其相似的邊緣,把這些相似的邊緣信息集成起來,就成了最終的結(jié)果,可以看到,由于特征更加強大了,結(jié)果有了較好的提升。


3.2 [15CVPR]: DeepEdge: A multi-scale bifurcated deep network for top-down contour detection (100+ citations)


發(fā)表在CVPR 2015的DeepEdge對上述工作進(jìn)行了擴(kuò)展,首先使用Canny edge得到候選輪廓點,然后對這些點建立不同尺度的patch,將這些 patch 輸入兩路的CNN,一路用作分類,一路用作回歸。最后得到每個候選輪廓點的概率。


3.3 [15CVPR]: Deepcontour: A deep convolutional feature learned by positive-sharing loss for contour detection (代碼, 100+ citations)


這是CVPR2015中的另一個工作,該工作還是基于patch的。首先在圖像中尋找patch,然后對patch 做多類形狀分類,來判斷這個邊緣是屬于哪一類的邊緣,最后把不同類別的邊緣融合起來得到最終的結(jié)果。這篇論文算是對2014年的N4-Fields的一個擴(kuò)展,對training數(shù)據(jù)中patch的edge類型進(jìn)行聚類,然后設(shè)計了更強大的網(wǎng)絡(luò)判斷某個patch的edge屬于哪一個類別。


3.4 [15ICCV]: High-for-low and low-for-high: Efficient boundary detection from deep object features and its applications to high-level vision (代碼, 40+ citations)


ICCV 2015的工作High-for-Low (HFL)也用CNN對可能的候選輪廓點進(jìn)行判斷。作者使用了經(jīng)過高層語義信息訓(xùn)練得到的VGG Net,在一定程度上用到了高層語義信息;使用更精確的Structured Edge來生成候選輪廓點;因此取得了不錯的結(jié)果。此外,和DeepEdge需要對每個候選輪廓點對應(yīng)的patch都做CNN前饋不同,HFL只需對整幅圖像做一次CNN前饋,這大大減小了計算量,處理一張圖片所需的時間從1000秒減小到0.83秒。從這個意義上來說,DeepEdge的想法和R-CNN類似,而HFL的想法和Fast R-CNN類似,我想作者也是受了R-CNN和Fast R-CNN的啟發(fā)分別做出了這兩篇論文,這說明我們平時做研究的idea不僅可以從正在做的task上去找,也可以從其他的task上去想。


這些工作雖然取得了一些進(jìn)展,但是離人類的表現(xiàn)還有很大的差距。 這些方法的缺點在于大部分方法都是基于局部策略所做的結(jié)果,每次只看一個區(qū)域,即只針對一個patch,并沒有很充分的利用高層級的信息。HFL使用了全局的卷積特征,所以結(jié)果比之前有了較大的提高;但是它依賴Structured Edge產(chǎn)生的候選輪廓點,不能實現(xiàn)整體的end-to-end的訓(xùn)練。


3.5 [15ICCV]: Holistically-nested edge detection (代碼, 300+ citations)


HED 是屠卓文教授課題組在ICCV 2015  Marr Price提名的工作。該工作最大的亮點在于,一改之前邊緣檢測方法基于局部策略的方式,而是采用全局的圖像到圖像的處理方式。即不再針對一個個patch進(jìn)行操作,而是對整幅圖像進(jìn)行操作,為高層級信息的獲取提供了便利。與此同時,該方法使用了multi-scale 和multi-level, 通過groundtruth的映射在卷積層側(cè)邊插入一個side output layer,在side output layer上進(jìn)行deep supervision,將最終的結(jié)果和不同的層連接起來。加上deep supervision后,該方法可以在不同尺度得到對應(yīng)抽象程度的邊緣。該方法在伯克利分割Benchmark上的結(jié)果較之前有了很大的提升。HED在論文中詳細(xì)對比了語義分割中著名的FCN算法,我推測作者是從FCN開始嘗試的,將不同尺度上的side output進(jìn)行融合,最后又加上了deep supervision,使得結(jié)果有了較大的提升。


3.6 [17CVPR]: Richer Convolutional Features for Edge Detection (代碼)


RCF是我們課題組CVPR2017的工作。其實想法很簡單,一句話就能概括,由于不同卷積層之間的信息是可以互補的,傳統(tǒng)方法的問題在于信息利用不充分,相當(dāng)于只使用了Pooling前最后一個卷積層的信息,如果我們使用所有卷積層的信息是不是能夠更好的利用卷積特征,進(jìn)而得到更好的結(jié)果?使用所有卷積層的信息,而不是池化之前的最后一層,這樣一個非常簡單的改變,使得檢測結(jié)果有了很大的改善。這種方法也有望遷移到其他領(lǐng)域。實驗結(jié)果表明,雖然卷積神經(jīng)網(wǎng)絡(luò)自帶多尺度特征,但顯式地使用多尺度融合對邊緣檢測結(jié)果的提升依然有效。該方法操作簡單,且不明顯增加計算時間,雖然代碼量少,但在BSDS500數(shù)據(jù)集上的結(jié)果甚至超過人類標(biāo)注者的平均表現(xiàn)水平,而且能夠達(dá)到實時檢測速度(30fps)。RCF是第一個實時的并且精度超過BSD500數(shù)據(jù)集上人類標(biāo)注水平的邊緣檢測算法。


圖5: 各種邊緣檢測算法在BSDS500數(shù)據(jù)集上的評測結(jié)果 (畫圖所用的代碼、數(shù)據(jù)和相關(guān)說明已經(jīng)公開在這里)

 (今天寫累了,先把準(zhǔn)備談的工作列表弄出來,后面有空的時候接著寫這些工作是怎么一步步相互啟發(fā)的)


4. 系列工作分析之Content Aware Image Resizing


07SIGGRAPH: Seam carving for content-aware image resizing, (800+ citations)


08SIGGRAPH: Improved seam carving for video retargeting, (400+ citations)


08SIGGRAPH Asia: Optimized scale-and-stretch for image resizing, (300+ citations)


08PG: Shrinkability Maps for Content‐Aware Video Resizing (70+ citations)


09PG: A Shape‐Preserving Approach to Image Resizing (C++ code, 90+ citations)


13SIGGRAPH: Rectangling Panoramic Images via Warping


13ICCV: Content-Aware Rotation


5. 系列工作分析之Object Level Image Editing


07SIGGRAPH: Photo Clip Art, (150+ citations)


09SIGGRAPH Asia: Sketch2Photo: internet image montage, (180+ citations)


12SIGGRAPH: Interactive images: cuboid proxies for smart image manipulation, (20+ citations)


14TOG: ImageSpirit: Verbal Guided Image Parsing, (Project page)


6. 系列工作分析之Objectness proposals


10CVPR: What is an object? (Matlab code, 200+ citations), journal version published in IEEE TPAMI 2012


10ECCV: Category Independent Object Proposals (100+ citations), journal version published in IEEE TPAMI 2014.


11CVPR: Proposal Generation for Object Detection using Cascaded Ranking SVMs (10+ citations)


11ICCV: Segmentation as selective search for object recognition, (C++ code, 60+ citations), journal version published in IJCV 2013.


14CVPR:  BING: Binarized Normed Gradients for Objectness Estimation at 300fps, (C++ code)


7. 一些顯而易見的趨勢和機(jī)遇


  • Objectness

  • Learning with 3D information


8. 相關(guān)鏈接


我相信每個領(lǐng)域都有這樣的系列工作。那些對這個領(lǐng)域特別熟悉的人如果能花點時間總結(jié)一下并分享出來對剛?cè)腴T的學(xué)生會非常有幫助。如果您有相關(guān)的總結(jié),請發(fā)一個鏈接給我,和大家一起分享。


作者:程明明教授

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
顯著目標(biāo)檢測的研究思路
圖像顯著性檢測總結(jié)
CNN可視化又添新作,南大開源Group-CAM:高效的顯著圖生成方法|CVPR2021
(轉(zhuǎn)載)一個牛人關(guān)于2013cvpr的總結(jié)(方便學(xué)習(xí)參考)
CVPR 2019 | PoolNet:基于池化技術(shù)的顯著性目標(biāo)檢測
NeurIPS 2019 | 國科大、廈大聯(lián)合提出FreeAnchor:一種新的anchor匹配學(xué)習(xí)法
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服