每次談到數(shù)據挖掘都讓人很興奮,但是真正的應用有幾個是數(shù)據挖掘算法支撐起來的呢:大家哈哈一笑,”除了尿布和啤酒“還有什么拿的出的例子嗎。傳統(tǒng)的統(tǒng)計學方法可以解決大多數(shù)知識發(fā)現(xiàn)問題。數(shù)據挖掘實際上是一組在人類高級智能和計算機低級智能間的抽象算法:分類(聚類,智能是基礎)、關聯(lián)(和專家系統(tǒng)的規(guī)則有區(qū)別嗎)。個人認為數(shù)據挖掘的幾個算法其本質類似于數(shù)據庫領域的”SQL“語句。用幾個基本的算子盡量組織成復雜的邏輯,解決現(xiàn)實的問題。
說了半天,數(shù)據挖掘的發(fā)展不外乎兩個方向:1、擴展到更多領域,用基本的方法解決新問題;2、優(yōu)化算法(設計新的算法)更快的完成幾個功能(包括解決大數(shù)據問題需要的方法)。
因此,個人認為從出現(xiàn)的新應用入手,看數(shù)據挖掘那幾個工具,能辦好哪些事情。然后對工具修改一下,以適應新的環(huán)境。
1、圖挖掘(互聯(lián)網,社交網絡等新應用);
2、流數(shù)據挖掘(視頻、點擊流,傳感器網絡的監(jiān)控流);
3、時空數(shù)據挖掘(GPS,wifi,網絡定位的發(fā)展);
4、非結構數(shù)據,高維數(shù)據挖掘(文本、圖片都是高維數(shù)據);
5、轉業(yè)領域數(shù)據挖掘(比如生物信息學領域)。
針對新的應用模式,擴充幾種工具的功能,加快其運行速度(包括并行化——集群計算是個熱點)就成了未來幾年的研究熱點。
另外,我們想知道知識,但是總有些信息是需要保密的,因此隱私問題也是一個研究熱點。