數(shù)據(jù)挖掘領(lǐng)域中有哪些算法？

2023.04.01 山東

數(shù)據(jù)挖掘領(lǐng)域會用到很多算法。數(shù)據(jù)挖掘主要分四類：聚類、分類、關(guān)聯(lián)和推薦。聚類，讓同一個類別信息距離最小、最相似，類與類之間距離越大、越不相似。分類，有監(jiān)督的，是在聚類基礎(chǔ)上的操作。比如事先已經(jīng)把100個用戶按男的占一半、女的占一半分。聚類之前不清楚男和女，自己分類很多人會自動男的站一邊，女的站一邊。分成兩群以后，給兩群用戶打一個標簽，定義這邊是男的，這邊是女的，第101個人進來以后，需要知道他到底屬于哪一個類別，屬于男還是屬于女，只需要把這個用戶跟每一個類群里的這些特征進行比對，就能知道他應該屬于哪個類別。關(guān)聯(lián)，比較經(jīng)典的知識是購物籃分析，講啤酒和尿不濕的故事。沃爾瑪會把啤酒和尿不濕擺在一起，因為他通過整理商城購物清單，發(fā)現(xiàn)用戶如果買了啤酒，他購買尿不濕的頻率很高，因為買啤酒的用戶都是一些奶爸，這些用戶同時會買尿不濕。同樣的，買了尿不濕的用戶會買啤酒的比例很高。推薦，在電商領(lǐng)域、微博比較常見。比如買了這個商品的用戶還會購買什么商品，都會有一些推薦。包括游戲，會基于你的一些游戲行為給你推薦相應的信息。四種分類會涉及一些算法技術(shù)，聚類會用到k-means、k-medoids、DBSCAN；分類會用到貝葉斯、SVD、KNN，KNN技術(shù)最簡潔；關(guān)聯(lián)會用到Apriori算法、FP-growth。FP-growth是Apriori算法的升級。用Apriori算法處理海量數(shù)據(jù)時，它的性能跟不上，需要多次掃描數(shù)據(jù)，因為它是發(fā)現(xiàn)一項頻繁集，二項頻繁集和k項頻繁集，這種信息如果用FP-growth，只需掃描兩次數(shù)據(jù)就可以得到所有的頻繁集數(shù)據(jù)，是性能的提升；推薦，會用到協(xié)同過濾，還會有一些基于信息流、上下文、知識的推薦。

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

一文弄懂數(shù)據(jù)挖掘的十大算法，數(shù)據(jù)挖掘算法原理講解

吳信東：數(shù)據(jù)挖掘算法的經(jīng)典與現(xiàn)代

數(shù)據(jù)挖掘算法之

獨家｜一文讀懂關(guān)聯(lián)分析

大數(shù)據(jù)架構(gòu)詳解：從數(shù)據(jù)獲取到深度學習（內(nèi)含福利）

數(shù)據(jù)挖掘常用算法及其在醫(yī)學大數(shù)據(jù)研究中的應用

更多類似文章 >>

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版