數(shù)據(jù)挖掘領(lǐng)域會用到很多算法。數(shù)據(jù)挖掘主要分四類:聚類、分類、關(guān)聯(lián)和推薦。聚類,讓同一個類別信息距離最小、最相似,類與類之間距離越大、越不相似。分類,有監(jiān)督的,是在聚類基礎(chǔ)上的操作。比如事先已經(jīng)把100個用戶按男的占一半、女的占一半分。聚類之前不清楚男和女,自己分類很多人會自動男的站一邊,女的站一邊。分成兩群以后,給兩群用戶打一個標簽,定義這邊是男的,這邊是女的,第101個人進來以后,需要知道他到底屬于哪一個類別,屬于男還是屬于女,只需要把這個用戶跟每一個類群里的這些特征進行比對,就能知道他應該屬于哪個類別。關(guān)聯(lián),比較經(jīng)典的知識是購物籃分析,講啤酒和尿不濕的故事。沃爾瑪會把啤酒和尿不濕擺在一起,因為他通過整理商城購物清單,發(fā)現(xiàn)用戶如果買了啤酒,他購買尿不濕的頻率很高,因為買啤酒的用戶都是一些奶爸,這些用戶同時會買尿不濕。同樣的,買了尿不濕的用戶會買啤酒的比例很高。推薦,在電商領(lǐng)域、微博比較常見。比如買了這個商品的用戶還會購買什么商品,都會有一些推薦。包括游戲,會基于你的一些游戲行為給你推薦相應的信息。四種分類會涉及一些算法技術(shù),聚類會用到k-means、k-medoids、DBSCAN;分類會用到貝葉斯、SVD、KNN,KNN技術(shù)最簡潔;關(guān)聯(lián)會用到Apriori算法、FP-growth。FP-growth是Apriori算法的升級。用Apriori算法處理海量數(shù)據(jù)時,它的性能跟不上,需要多次掃描數(shù)據(jù),因為它是發(fā)現(xiàn)一項頻繁集,二項頻繁集和k項頻繁集,這種信息如果用FP-growth,只需掃描兩次數(shù)據(jù)就可以得到所有的頻繁集數(shù)據(jù),是性能的提升;推薦,會用到協(xié)同過濾,還會有一些基于信息流、上下文、知識的推薦。
本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。