什么是商業(yè)智能
什么是數(shù)據(jù)倉(cāng)庫(kù)
DW:Data Warehouse,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)庫(kù)的升級(jí)概念,一般量更龐大,將多個(gè)數(shù)據(jù)來源的數(shù)據(jù)進(jìn)行匯總、整理而來
什么是數(shù)據(jù)挖掘
DM:Data Mining,數(shù)據(jù)挖掘
數(shù)據(jù)挖掘流程:Knowledge Discovery in Database,也叫數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),簡(jiǎn)稱KDD
KDD流程:輸入數(shù)據(jù)->數(shù)據(jù)預(yù)處理->數(shù)據(jù)挖掘->后處理->信息
數(shù)據(jù)清洗:去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值
數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)存放在一個(gè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)中
數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式,比如將數(shù)值東籬一個(gè)特定的0~1的區(qū)間
1. 數(shù)據(jù)挖掘的核心
分類:通過訓(xùn)練集得到一個(gè)分類模型,然后用這個(gè)模型可以對(duì)其他數(shù)據(jù)進(jìn)行分類 分類是已知了類別,然后看樣本屬于哪個(gè)分類
聚類:將數(shù)據(jù)自動(dòng)聚類成幾個(gè)類別, 聚類是不知道有哪些類別,按照 樣本的屬性來進(jìn)行聚類
預(yù)測(cè):通過當(dāng)前和歷史數(shù)據(jù)預(yù)測(cè)未來趨勢(shì),可以更好地幫助我們識(shí)別機(jī)遇和風(fēng)險(xiǎn)
關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,被廣泛應(yīng)用于購(gòu)物、事務(wù)數(shù)據(jù)分析中
2. 數(shù)據(jù)挖掘的基本流程
商業(yè)理解:從商業(yè)的角度理解項(xiàng)目需求
數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行探索
數(shù)據(jù)準(zhǔn)備:開始收集數(shù)據(jù),并進(jìn)行清洗、集成等操作
模型建立:選擇和應(yīng)用數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化,以便得到更好的分類結(jié)果
模型評(píng)估:對(duì)模型進(jìn)行評(píng)價(jià),確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)
上線發(fā)布:把挖掘的知識(shí)轉(zhuǎn)換成用戶的使用形式
數(shù)據(jù)挖掘的數(shù)學(xué)基礎(chǔ)
概率論與數(shù)據(jù)統(tǒng)計(jì)
線性代數(shù)
圖論
最優(yōu)化方法
數(shù)據(jù)挖掘的十大算法
1. 分類
C4.5:十大算法之首,決策樹算法,特點(diǎn)包括:1.構(gòu)造過程中剪枝 2.處理連續(xù)屬性;3.處理不完整的數(shù)據(jù)
樸素貝葉斯:基于概率論原理,計(jì)算未知物體出現(xiàn)的條件下,各個(gè)類別出現(xiàn)的概率,取概率最大的分類
SVM:超平面的分類模型
KNN:每個(gè)樣本的分類都可以用其最接近的K個(gè)鄰居的分類代表
Adaboost:構(gòu)建分類器的提升算法,可以讓多個(gè)弱的分類器組成一個(gè)強(qiáng)的分類器
CART:決策樹算法,分類樹 + 回歸樹
2. 聚類
K-Means:將物體分成K類,計(jì)算新點(diǎn)跟K個(gè)中心點(diǎn)的距離,哪個(gè)距離近,則新點(diǎn)歸為哪一類
EM:最大期望算法,求參數(shù)的最大似然估計(jì)的一種方法
3. 關(guān)聯(lián)分析
Apriori:挖掘關(guān)聯(lián)規(guī)則的算法,通過挖掘頻繁項(xiàng)集揭示物品之間的關(guān)聯(lián)關(guān)系
4. 連接分析
PageRank:起源于論文影響力的計(jì)算方式,如果一篇文論被引入的次數(shù)越多,就代表這篇論文的影響力越強(qiáng),Google將其用于計(jì)算網(wǎng)頁權(quán)重
什么是數(shù)據(jù)可視化
數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達(dá)與溝通信息,讓我們直觀了解數(shù)據(jù)分析的結(jié)果
數(shù)據(jù)可視化工具:
1. python庫(kù)
Matplotlib
Seaborn
Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
2. 商業(yè)智能軟件
Tableau
PowerBI
3. 可視化大屏
大屏作為一種視覺效果強(qiáng)、科技感強(qiáng)的技術(shù),被企業(yè)老板所青睞,可以很好地展示公司的數(shù)據(jù)化能力
4. 前端可視化組件
可視化組件都是基于 Web 渲染的技術(shù)的
Web 渲染技術(shù):Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖)
什么是用戶畫像
簡(jiǎn)單的說,用戶畫像就是標(biāo)簽的匯總,用戶畫像是現(xiàn)實(shí)世界中的用戶的數(shù)學(xué)建模,將海量數(shù)據(jù)進(jìn)行標(biāo)簽化,來復(fù)以更精準(zhǔn)的用戶畫像,用戶標(biāo)簽?zāi)墚a(chǎn)生的業(yè)務(wù)價(jià)值
在獲客上,找到優(yōu)勢(shì)的宣傳渠道,通過個(gè)性化的宣傳手段吸引有潛在需求的用戶
在粘客上,提升用戶的單價(jià)和消費(fèi)頻次
在留客上,降低流失率,顧客流失率降低 5%,公司利潤(rùn)提升 25% ~ 85%
1. 用戶標(biāo)簽4個(gè)緯度
基礎(chǔ)信息:性別、年齡、地域、收入、學(xué)歷、職業(yè)等
消費(fèi)信息:消費(fèi)習(xí)慣、購(gòu)買意向、是否對(duì)促銷敏感
行為分析:時(shí)間段、頻次、時(shí)長(zhǎng)、訪問路徑
內(nèi)容分析:瀏覽的內(nèi)容、停留時(shí)長(zhǎng)、瀏覽次數(shù),內(nèi)容類型,如金融、娛樂、教育、體育、時(shí)尚、科技等
2. 數(shù)據(jù)處理的3個(gè)階段
業(yè)務(wù)層:獲客預(yù)測(cè)、個(gè)性化推薦、用戶流失率、GMV趨勢(shì)預(yù)測(cè)
算法層:用戶興趣、用戶活躍度、產(chǎn)品購(gòu)買偏好、用戶關(guān)聯(lián)關(guān)系、用戶滿意度、渠道使用偏好、支付使用偏好、優(yōu)惠券偏好
數(shù)據(jù)層:用戶屬性、投訴次數(shù)、產(chǎn)品購(gòu)買次數(shù)、渠道使用頻率、優(yōu)惠券使用、訪問時(shí)長(zhǎng)、支付渠道使用、瀏覽內(nèi)容頻次
什么是埋點(diǎn)
在需要的位置采集相應(yīng)的信息,進(jìn)行上報(bào)。比如用戶信息、設(shè)備信息、操作行為數(shù)據(jù),埋點(diǎn)一般是在需要統(tǒng)計(jì)數(shù)據(jù)的地方植入統(tǒng)計(jì)代碼。
數(shù)據(jù)采集都有哪些方式
開源數(shù)據(jù)源
爬蟲抓取
日志采集
傳感器
什么是數(shù)據(jù)清洗
數(shù)據(jù)清洗是去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值。
數(shù)據(jù)清洗的4個(gè)關(guān)鍵點(diǎn)(完全合一):
完整性:單條數(shù)據(jù)是否存在空值,統(tǒng)計(jì)的字段是否完善
全面性:觀察某一列的全部數(shù)值,判斷列是否有問題,比如:數(shù)據(jù)定義、單位標(biāo)識(shí)、數(shù)值本身。例如有的單位是克,有的是千克或磅
合法性:數(shù)據(jù)的類型、內(nèi)容、大小的合法性。例如存在非ASCII字符,性別未知,年齡超過150歲等。
唯一性:數(shù)據(jù)是否存在重復(fù)記錄。因?yàn)閿?shù)據(jù)通常來自不同渠道的匯總,重復(fù)的情況是常見的,行和列數(shù)據(jù)都需要是唯一的
什么是數(shù)據(jù)集成
數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)數(shù)據(jù)存儲(chǔ)中(如數(shù)據(jù)倉(cāng)庫(kù)) 大數(shù)據(jù)項(xiàng)目中80%的工作都和數(shù)據(jù)集成有關(guān)。
Extract / 提取 :從datasource/txt/csv/Excel/等原始數(shù)據(jù)源中 Extract數(shù)據(jù)
Transform / 轉(zhuǎn)換 :將數(shù)據(jù)預(yù)處理,字段補(bǔ)全、類型檢查、去除重復(fù)數(shù)據(jù)等,根據(jù)預(yù)定的條件將數(shù)據(jù)統(tǒng)一起來
Load / 裝載 :將轉(zhuǎn)換完的數(shù)據(jù)存到數(shù)據(jù)倉(cāng)庫(kù)中
1. 數(shù)據(jù)集成的兩種架構(gòu)
ELT 過程為數(shù)據(jù)提取(Extract)——轉(zhuǎn)換(Transform)——加載(Load),在數(shù)據(jù)源抽取后首先進(jìn)行轉(zhuǎn)換,然后將轉(zhuǎn)換的結(jié)果寫入目的地。
ETL 過程為數(shù)據(jù)提取(Extract)——加載(Load)——轉(zhuǎn)換(Transform),在數(shù)據(jù)抽取后將結(jié)果先寫入目的地,然后利用數(shù)據(jù)庫(kù)的聚合分析能力或者外部框架,如Spark來完成轉(zhuǎn)換的步驟。
2. ETL和ELT的區(qū)別
ETL和ELT主要是先清洗數(shù)據(jù)還是先入庫(kù)的區(qū)別。ETL一般使用主流框架用程序在提取的時(shí)候就將數(shù)據(jù)進(jìn)行清洗,ELT則是將數(shù)據(jù)存到數(shù)據(jù)倉(cāng)庫(kù),再用sql進(jìn)行數(shù)據(jù)清洗。
未來使用ELT作為數(shù)據(jù)集成架構(gòu)的會(huì)越來越多,有以下好處:
使用 ELT 方法,在提取完成之后,數(shù)據(jù)加載會(huì)立即開始。一方面更省時(shí),另一方面 ELT 允許 BI 分析人員無限制地訪問整個(gè)原始數(shù)據(jù),為分析師提供了更大的靈活性,使之能更好地支持業(yè)務(wù)。
在 ELT 架構(gòu)中,數(shù)據(jù)變換這個(gè)過程根據(jù)后續(xù)使用的情況,需要在 SQL 中進(jìn)行,而不是在加載階段進(jìn)行。這樣做的好處是你可以從數(shù)據(jù)源中提取數(shù)據(jù),經(jīng)過少量預(yù)處理后進(jìn)行加載。這樣的架構(gòu)更簡(jiǎn)單,使分析人員更好地了解原始數(shù)據(jù)的變換過程。
什么是數(shù)據(jù)變換
數(shù)據(jù)變換是數(shù)據(jù)準(zhǔn)備的重要環(huán)節(jié),通過數(shù)據(jù)平滑、數(shù)據(jù)聚集、數(shù)據(jù)概化和規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
1. 數(shù)據(jù)平滑
去除數(shù)據(jù)中的噪聲,將連續(xù)數(shù)據(jù)離散化
2. 數(shù)據(jù)聚集
對(duì)數(shù)據(jù)進(jìn)行匯總,例如Sum、Max、Mean等
3. 數(shù)據(jù)概化
將數(shù)據(jù)由較低的概念抽象成較高的概念,如北上廣深圳概化為中國(guó)。
4. 數(shù)據(jù)規(guī)范化
合屬性數(shù)據(jù)按比例縮放,將原來的數(shù)值映射到新的特定區(qū)域中。
min-max規(guī)范化:將原始數(shù)據(jù)變化到[0, 1]的空間中,公式為:新數(shù)值=(原數(shù)值-極小值) / (極大值-極小值),對(duì)應(yīng)的有SciKit-Learn的preprocessing.MinMaxScaler函數(shù)
z-score規(guī)范化:可以用相同的標(biāo)準(zhǔn)比較不同規(guī)格的成績(jī)。公式為:新數(shù)值=(原數(shù)值-均值) / 標(biāo)準(zhǔn)差。對(duì)應(yīng)的有SciKit-Learn的preprocessing.scale函數(shù),求出每行每列的值減去了平均值,再除以方差的結(jié)果,使得數(shù)值都符合均值為0,方差為1的正態(tài)分布
小數(shù)定標(biāo)規(guī)范:通過移動(dòng)小數(shù)點(diǎn)的位置來進(jìn)行規(guī)范化
5. 屬性構(gòu)造
構(gòu)造出新的屬性并添加到屬性集中。
什么是方差、標(biāo)準(zhǔn)差
方差和標(biāo)準(zhǔn)差是測(cè)算離散趨勢(shì)最重要、最常用的指標(biāo)
標(biāo)準(zhǔn)差是方差的平方根
一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分?jǐn)?shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。
由于方差是數(shù)據(jù)的平方,與檢測(cè)值本身相差太大,人們難以直觀的衡量,所以常用方差開根號(hào)換算回來這就是我們要說的標(biāo)準(zhǔn)差。
End.
作者:雪山飛豬
聯(lián)系客服