免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
如何構建有指導的數(shù)據(jù)挖掘模型

數(shù)據(jù)挖掘的目的,就是從數(shù)據(jù)中找到更多的優(yōu)質用戶。

什么是有指導的數(shù)據(jù)挖掘方法模型

以及數(shù)據(jù)挖掘如何構建模型?

在構建一個有指導的數(shù)據(jù)挖掘模型,首先要理解和定義一些模型試圖估計的目標變量。

在構造有指導的數(shù)據(jù)挖掘模型的過程中

一、要定義模型的結構和目標。

二、增加響應建模。

三、考慮模型的穩(wěn)定性。

四、通過預測模型、剖析模型來討論模型的穩(wěn)定性。

下面我們將從具體的步驟談起,如何構造一個有指導的數(shù)據(jù)挖掘模型。

把業(yè)務問題轉換為數(shù)據(jù)挖掘問題


確定誰是不大可能續(xù)訂的客戶

為以家庭為基礎的企業(yè)客戶設定一個撥打計劃,該計劃將減少客戶的退出率

確定那些網(wǎng)絡交易可能是欺詐

如果葡萄酒和啤酒已停止銷售,列出處于銷售風險的產品

根據(jù)當前市場營銷策略,預測未來三年的客戶數(shù)量

有指導數(shù)據(jù)挖掘往往作為一個技術問題,即找到一個模型以解釋一組輸入變量與目標變量的關系。這往往是數(shù)據(jù)挖掘的中心,但如果目標變量沒有正確的定義以及沒有確定適當?shù)妮斎胱兞俊7催^來,這些任務又取決于對要解決的業(yè)務問題的理解程度。沒有正確的理解業(yè)務問題就沒辦法把數(shù)據(jù)轉化為挖掘任務。在技術開始之前,必須認識兩個問題:如何使用結果?以何種方式交付結果?

例如:許多數(shù)據(jù)挖掘工作旨在提高客戶保留

主動向高風險或高價值的客戶提供一個優(yōu)惠,挽留他們

改變獲取渠道的組合,以利于那些能帶來最忠實客戶的渠道

預測未來幾個月的客戶數(shù)量

改變會影響客戶的滿意度的產品的缺陷

有指導的數(shù)據(jù)挖掘項目可能會產生幾個不同類型的交付形式。交付形式往往是一個報表或充滿圖標和圖形的簡報。交付形式會影響數(shù)據(jù)挖掘的結果。當我們的目的是提醒銷售驚雷時,產生一個營銷測試的客戶列表是不夠的。所謂的如何交付結果,就是在挖掘結果產生之后,我們要如何給用戶提供這個結果,目的是好的,但實際的過程中會遇到,會遇到我們沒有辦法去交付這個結果。因為,你交付的結果,可能會導致一些本不該流失的客戶,卻流失了。這也是在具體工作之前,我們要考慮的問題。

數(shù)據(jù)挖掘人員的作用是確保業(yè)務問題的最后表述可以被轉換成一個技術問題。前提是正確的業(yè)務問題。

選擇合適的數(shù)據(jù)

尋找客戶數(shù)據(jù)的首要地方就是企業(yè)數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)已經被清洗和核實過,并且多個數(shù)據(jù)源被整合到一起。一個單一的數(shù)據(jù)模型有望確保命名相似的字段在整個數(shù)據(jù)庫和兼容的數(shù)據(jù)類型中都有相同的含義。企業(yè)數(shù)據(jù)庫是一個歷史數(shù)據(jù)庫,新數(shù)據(jù)不斷的被追加,但歷史數(shù)據(jù)一直不變。從這一點更有利于做決策支持。

問題在于,在許多企業(yè)組織中,這樣的數(shù)據(jù)倉庫實際上并不存在,或者存在一個或多個數(shù)據(jù)倉庫,不符合直接作為規(guī)范的數(shù)據(jù)用來挖掘。在這種情況下,挖掘人員,必須尋求來自不同的部門的數(shù)據(jù)庫和業(yè)務系統(tǒng)內的數(shù)據(jù)。業(yè)務系統(tǒng)數(shù)據(jù)是指執(zhí)行一個特定的任務,如網(wǎng)站運行,索賠處理,完成呼叫或賬單處理。它們的目標是快速、準確的處理事務,數(shù)據(jù)可以保存成任何格式。而這些對于沒有數(shù)據(jù)倉庫的一些企業(yè)來說,這些數(shù)據(jù)往往是隱藏的很深,需要大量的企業(yè)調度和規(guī)劃來整理這些數(shù)據(jù)。這也就談到了一個問題:就是數(shù)據(jù)倉庫對一家企業(yè)的重要性,而建立企業(yè)級數(shù)據(jù)倉庫,需要的決策不是一個經理就可以完成的,這可能需要企業(yè)級最高領導下令,下面的所有部門全部配合。

數(shù)據(jù)挖掘工作的方式并不是一直等到完美和干凈的數(shù)據(jù)才進行下一步工作。雖然需要額外干凈的數(shù)據(jù),但是受挖掘必須能夠使用目前的數(shù)據(jù),提前入手,開始工作。

多少數(shù)據(jù)才足夠?

①數(shù)據(jù)越多越好,更多意味著更好。在建模期間,必須對模型集進行平衡,使得每個結果的數(shù)目都相等。如果在一個大規(guī)模的樣本中有一個比例很小的稀有數(shù)據(jù),則一個較小的、均衡的樣本會更受歡迎。

②當模型集足以建立良好的、穩(wěn)定的模型時,使它更大將會產生相反的作用,因為這時需要更長時間在更大的模型上去運行,由于數(shù)據(jù)挖掘是一個反復的過程,這就導致時間的浪費。如果一次建模例程的運行都需要數(shù)小時而不是數(shù)分鐘,這個時間的消耗就耗不起的。這就導致,在模型確定后,數(shù)據(jù)并不是越多越好。

需要多久的歷史?

數(shù)據(jù)挖掘使用過去的數(shù)據(jù)預測未來。但是,數(shù)據(jù)需要來自多久的過去?這個沒有定性的回答,這要考慮很多的因素。另一方面,歷史上太久的數(shù)據(jù)未必對數(shù)據(jù)挖掘有用,因為市場環(huán)境在變化,特別是當一些外部事件(如監(jiān)管制度的變化)進行了干預時尤其如此。對于許多以客戶為中心的應用,2-3年的歷史是合適的。然而,在這種情況下,客戶關系確實存在有效才被證明是有價值的,那么重要的是什么:最初的渠道是什么?最初的報價是什么?客戶最初怎么支付的等。

數(shù)據(jù)必須包含什么?

最低限度,數(shù)據(jù)必須包含有可能有意義的結果的例子。有指導數(shù)據(jù)挖掘的目的是預測一個特定目標變量的值,但在有指導的數(shù)據(jù)挖掘中,模型集必須由分類好的數(shù)據(jù)組成。要區(qū)分哪些人拖欠貸款哪些人不可能拖欠,模型集的每個類都需要有成千上萬的例子。當一個新的申請產生時,他的申請會與過去的客戶的申請進行對比,可以直接把新的申請歸類。這其中隱含的意思:數(shù)據(jù)可用來形容過去發(fā)生了什么事情,從錯誤總吸取教訓,首先我們必須識別我們已經犯了什么錯。

認識數(shù)據(jù)

在數(shù)據(jù)用于構建模型之前,在探索數(shù)據(jù)上花費時間的重要性通常沒有得到足夠的重視。要在陌生的數(shù)據(jù)集中利用直覺來感應發(fā)生了什么事情,唯一辦法就是陷入數(shù)據(jù)之中,你會發(fā)現(xiàn)許多數(shù)據(jù)質量的問題,并能夠得到啟發(fā)提出在其他情況下不容易被發(fā)現(xiàn)的問題。

檢查分布

在數(shù)據(jù)庫的初步探索階段,數(shù)據(jù)可視化工具非常有益,如:散列圖、條形圖、地理地圖、Excel等可視化工具對觀察數(shù)據(jù)提供了強大的支持。

值與描述的比較

觀察每個變量的值,并把它們與現(xiàn)有文件中的變量描述進行比較。這項工作可以發(fā)現(xiàn)不準確或不完整的數(shù)據(jù)描述。其實是,你記錄的數(shù)據(jù),是否和你要描述的數(shù)據(jù)一致,這個要先確定。

詢問大問題

如果數(shù)據(jù)看上去似乎不明智或者不如所愿,記錄下來。數(shù)據(jù)探索過程的一個重要輸出是對提供該數(shù)據(jù)的人給出一個問題列表。通常,這些問題將需要進一步研究。對數(shù)據(jù)的探索的前期工作,判斷字段,含義,是否有用,是否缺失,是否有問題等一系列問題,需要大量的工作,同時也是一件心細的過程。

創(chuàng)建一個模型集

模型集包含建模過程中使用的所有數(shù)據(jù)。模型集中的一些數(shù)據(jù)被用來尋找模式,對于一些技術,模型集中的一些數(shù)據(jù)被用來驗證該模型是否穩(wěn)定。模型集也可用來評估模型的性能。創(chuàng)建一個模型集需要從多個數(shù)據(jù)源聚合數(shù)據(jù)以形成客戶簽名,然后準備數(shù)據(jù)進行分析。

聚合客戶簽名

模型集是一個表或一系列表,每一行表示一個要研究的項目,而字段表示該項目有利于建模的一切。當數(shù)據(jù)描述客戶時,模型集的行通常稱為客戶簽名??蛻艉灻?,每個客戶都由他離開的蹤跡唯一確定,你可以利用蹤跡充分的了解每個客戶。

創(chuàng)建一個平衡的樣本

知識發(fā)現(xiàn)算法需通過實例來進行學習。如果沒有足夠數(shù)量的關于某個特定類或行為模型的例子,數(shù)據(jù)挖掘工具無法得出一個預測該類或模式的模型。在這種情況下,利用罕見事件的例子豐富該模型集,提高建模中該事件的概率。如果比較罕見,有兩種方法可以平衡樣本:①分層抽樣。②權重。

時間幀

基于一個時間段內的數(shù)據(jù)建立模型會增加風險,即學習的知識不真實。結合模型集中的多個時間幀可以消除季節(jié)性因素的影響。由于季節(jié)性影響如此重要,因此應該把它們明確地添加到客戶簽名中。把客戶的信息按照時間細分,或是在相應的數(shù)據(jù)上打上標簽。

創(chuàng)建一個預測模型

任何客戶標簽在預測變量和目標變量之間都應該有一個時間差。時間可分為,過去、現(xiàn)在、將來。當部署模型時,它能夠使用最近的數(shù)據(jù)預測未來。

劃分模型集

對于預測模型,一個好主意是測試集所在的時間段與訓練集和驗證集的時間段不同。一個模型的穩(wěn)定性證據(jù)在于它在連續(xù)的月份中都能夠良好的運行。來自不同的時間段的測試集,也稱為不合時宜的測試集,雖然這樣的測試集并不總是可用,但是它是驗證模型穩(wěn)定性的一個很好的方法。

作者:連妹數(shù)據(jù)  轉自紫數(shù)
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大數(shù)據(jù)的核心:數(shù)據(jù)挖掘 | 36大數(shù)據(jù)
大數(shù)據(jù)與數(shù)據(jù)挖掘(3)
數(shù)據(jù)挖掘及其建模:一個熱門話題的解惑_Borjigin-Somiya
【大數(shù)據(jù)微課回顧】張浩彬:數(shù)據(jù)科學的商業(yè)實踐征程
數(shù)據(jù)挖掘中易犯的11大錯誤
數(shù)據(jù)挖掘三大趨勢(轉)
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服