數(shù)據(jù)分析環(huán)節(jié)核心的價(jià)值主張?jiān)谟跀?shù)據(jù)挖掘思維的創(chuàng)新性。
文/未央研究 · 圖圖
在上一篇中,筆者介紹了大數(shù)據(jù)產(chǎn)生采集后的變現(xiàn)模式,及對(duì)于數(shù)據(jù)隱私的安全問(wèn)題。從價(jià)值鏈來(lái)看,在數(shù)據(jù)從“原材料”到“粗加工”后,會(huì)進(jìn)一步“精加工”,而達(dá)到應(yīng)用于某個(gè)場(chǎng)景以滿足需求。在生活中,數(shù)據(jù)加工后而形成的各式形態(tài)以滿足需求的情況非常多,比如常見的天氣預(yù)報(bào),即通過(guò)氣溫、風(fēng)向等數(shù)據(jù)的綜合分析處理,形成了輔助決策的有效信息。此篇中,筆者將闡述數(shù)據(jù)分析技術(shù)歷史,此環(huán)節(jié)中數(shù)據(jù)產(chǎn)品形態(tài),以及有關(guān)價(jià)值判斷的思考。
數(shù)據(jù)的“精加工”
數(shù)據(jù)的“精加工”,即數(shù)據(jù)的分析處理環(huán)節(jié)。隨著大數(shù)據(jù)的發(fā)展,尤其是一批擁有海量數(shù)據(jù)的互聯(lián)網(wǎng)公司(如Google、Facebook等)的推動(dòng),新的需求不斷涌現(xiàn),也促進(jìn)了相關(guān)技術(shù)的蓬勃發(fā)展。自2010 年大數(shù)據(jù)概念被提出之后,在最初的 3 年中,數(shù)據(jù)的分析挖掘仍以結(jié)構(gòu)化數(shù)據(jù)為主,從 2013 年開始,有些公司嘗試處理非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的處理范圍大大擴(kuò)展,使得大數(shù)據(jù)分析實(shí)現(xiàn)了名副其實(shí)的“大”。除了數(shù)據(jù)處理范圍的擴(kuò)大外,伴隨著開源運(yùn)動(dòng)的迅速發(fā)展,新的解決數(shù)據(jù)需求的方案也被應(yīng)用到更廣泛的領(lǐng)域,如決策樹、以及目前最主流的神經(jīng)網(wǎng)絡(luò)等方式,其他如回歸、關(guān)聯(lián)規(guī)則、聚類、貝葉斯分類方法、支持向量機(jī)等方式也常用于數(shù)據(jù)分析。
同時(shí),數(shù)據(jù)可視化技術(shù)的提高,也使數(shù)據(jù)分析處理后的產(chǎn)出更切合末端展示的需求。數(shù)據(jù)分析和分析結(jié)果的展示,其提取的信息密度也與數(shù)據(jù)可視化的程度有關(guān)??梢哉f(shuō),大數(shù)據(jù)的可視化技術(shù)簡(jiǎn)化了數(shù)據(jù)分析結(jié)果,能夠使更多人享受大數(shù)據(jù)帶來(lái)的價(jià)值。
最近一兩年,大數(shù)據(jù)發(fā)展的新趨勢(shì)是與人工智能的結(jié)合,這也使得大數(shù)據(jù)在傳統(tǒng)的數(shù)據(jù)分析技術(shù)上有了新的想象空間。其實(shí)人工智能的歷史已久,最近新的人工智能浪潮與大數(shù)據(jù)的發(fā)展密切相關(guān)。通過(guò)不同形式的人工智能分析大數(shù)據(jù),,從而獲得了一些新的預(yù)測(cè)性的洞察,進(jìn)一步釋放了人工智能的潛力。
數(shù)據(jù)分析平臺(tái)(data analyst platforms)
Microsoft、pentaho、alteryx、Digital Reasoning、guavus
BI 平臺(tái) (BI platforms)
Microsoft、amazon web services、DOMO、looker、Wave Analytics
可視化處理 (visualization)
Qlik、Periscope、plotly、 Zoomdata
機(jī)器學(xué)習(xí)
Azure Machine Learning、Data Robot、
人工智能
IBM Watson、Cortana、bonsai、DATARPM
部分大數(shù)據(jù)分析處理工具
產(chǎn)品形態(tài)來(lái)說(shuō),在這一環(huán)節(jié),數(shù)據(jù)分析處理后所形成的數(shù)據(jù)產(chǎn)品形態(tài)非常多,根據(jù)《數(shù)據(jù)產(chǎn)品的前世今生》作者的分類,數(shù)據(jù)產(chǎn)品從最初的報(bào)表型(如靜態(tài)報(bào)表、DashBoard、即席查詢),到多維分析型(OLAP等工具型數(shù)據(jù)產(chǎn)品),到定制服務(wù)型數(shù)據(jù)產(chǎn)品,再到智能型數(shù)據(jù)產(chǎn)品、使能型數(shù)據(jù)產(chǎn)品。
數(shù)據(jù)產(chǎn)品類型
特點(diǎn)
報(bào)表型
可視化能力有限,數(shù)據(jù)解釋能力弱
多維分析型
多維度分析解釋數(shù)據(jù)
定制服務(wù)型
基于用戶的深層次需求,構(gòu)建最適合當(dāng)前業(yè)務(wù)痛點(diǎn)的數(shù)據(jù)模型、產(chǎn)品設(shè)計(jì)、可視化方案等。
智能型
更多的將大數(shù)據(jù)的智能性融入產(chǎn)品,并與決策邏輯結(jié)合起來(lái),發(fā)揮作用
使能型
為未來(lái)決策提供引導(dǎo)和預(yù)測(cè)
他認(rèn)為,目前報(bào)表型和多維分析型數(shù)據(jù)產(chǎn)品的使用局限性越來(lái)越大,未來(lái)的趨勢(shì)可能是定制服務(wù)型和智能型,對(duì)于定制服務(wù)型,這種產(chǎn)品形態(tài)更像是服務(wù)提供商,而不是一個(gè)通用的工具。智能型的產(chǎn)品形態(tài)則更加具有大數(shù)據(jù)的特點(diǎn),并與決策邏輯結(jié)合起來(lái),發(fā)揮作用。比如,多維分析型數(shù)據(jù)產(chǎn)品是一套傳統(tǒng)的會(huì)員營(yíng)銷系統(tǒng),按自己的規(guī)則篩選目標(biāo)用戶;智能型數(shù)據(jù)產(chǎn)品則是輸入營(yíng)銷目標(biāo)及參數(shù),比如要開展雙十一母嬰市場(chǎng)的促銷活動(dòng),系統(tǒng)可以基于以往海量數(shù)據(jù)計(jì)算出應(yīng)該選擇什么品類的商品,在什么用戶群中,以什么形式開展活動(dòng)效果會(huì)更佳。
使能型的數(shù)據(jù)產(chǎn)品對(duì)于不僅能夠幫助現(xiàn)有決策,還能為未來(lái)決策提供引導(dǎo)和預(yù)測(cè)?,F(xiàn)有的大多數(shù)數(shù)據(jù)只是說(shuō)明現(xiàn)在或未來(lái)的情況是怎樣的,問(wèn)題痛點(diǎn)出現(xiàn)在哪里,但卻不能給出更完善的建議,甚至支持一個(gè)建議的執(zhí)行。使能型數(shù)據(jù)產(chǎn)品要做的就是這樣的工作,它不僅可以告訴你,哪些用戶流失的傾向性大,還可以直接引導(dǎo)用戶展開后續(xù)補(bǔ)救的執(zhí)行流程,哪些細(xì)分群體需要通過(guò)促銷活動(dòng)刺激,哪些需要提供專享的VIP業(yè)務(wù),哪些需要更好的互動(dòng)等等。
可以看出,與上一環(huán)節(jié),即數(shù)據(jù)的采集形成的數(shù)據(jù)產(chǎn)品形態(tài)-API或數(shù)據(jù)文件相比,這一環(huán)節(jié)的數(shù)據(jù)產(chǎn)品形態(tài)更加多樣化,也更加成熟,最重要的是,這一環(huán)節(jié)的數(shù)據(jù)產(chǎn)品形態(tài)能夠直接和充分的展示數(shù)據(jù)所代表的信息,傳遞更大的價(jià)值。
價(jià)值幾何?
討論在數(shù)據(jù)分析處理這一環(huán)節(jié)的數(shù)據(jù)價(jià)值時(shí),首先可以明顯發(fā)現(xiàn)的趨勢(shì)是,這一環(huán)節(jié)的參與方越來(lái)越多,創(chuàng)投圈非?;钴S,這可以說(shuō)明數(shù)據(jù)分析后所帶來(lái)的價(jià)值越來(lái)越受到重視。在美國(guó),如上文所說(shuō),大數(shù)據(jù)的早期發(fā)展主要是受到幾大互聯(lián)網(wǎng)巨頭的推動(dòng),而后,一些互聯(lián)網(wǎng)大公司的數(shù)據(jù)工程師離職去創(chuàng)辦自己的大數(shù)據(jù)初創(chuàng)企業(yè),從而也誕生了一批嶄露頭角的獨(dú)角獸公司。據(jù)資料顯示,在2009年到2013年的大數(shù)據(jù)初創(chuàng)企業(yè)現(xiàn)在已經(jīng)融了數(shù)輪的資金,且有部分已經(jīng)上市(包括 2015年 上市的 HortonWorks 和 New Relic)。 2015年的數(shù)據(jù)來(lái)說(shuō),大數(shù)據(jù)初創(chuàng)企業(yè)拿到的融資額達(dá)到了 66.4 億美元,占整個(gè)技術(shù) VC 總?cè)谫Y額的11%。
中國(guó)數(shù)據(jù)行業(yè)的發(fā)展也有著類似的過(guò)程,傳統(tǒng)媒體的電子化(新浪、搜狐、雅虎等門戶網(wǎng)站)形成了第一批互聯(lián)網(wǎng)的基本形態(tài),而后新的互聯(lián)網(wǎng)形態(tài)更加多元化,目前,主流的公司包括了我們熟知的騰訊、阿里巴巴、百度等,有著不同的商業(yè)模式,這些巨頭們都擁有著海量數(shù)據(jù),并隨著商業(yè)模式的拓展也產(chǎn)生了不同的數(shù)據(jù)產(chǎn)品,不得不說(shuō),在這個(gè)過(guò)程中,新需求和新的數(shù)據(jù)解決方案源源不斷,在生活的方方面面,我們都能深刻地感受到數(shù)據(jù)的驅(qū)動(dòng)帶來(lái)的巨大價(jià)值。
在總趨勢(shì)來(lái)看,大數(shù)據(jù)行業(yè)的重心也有著從基礎(chǔ)設(shè)施建設(shè)到數(shù)據(jù)分析環(huán)節(jié)的一個(gè)轉(zhuǎn)移,這一方面說(shuō)明了大數(shù)據(jù)的基礎(chǔ)設(shè)施已經(jīng)較為成熟,另一方面,也體現(xiàn)了在處理分析后的數(shù)據(jù)產(chǎn)品所形成的價(jià)值越來(lái)越受到認(rèn)可。
具體到數(shù)據(jù)分析后的產(chǎn)品能提供的價(jià)值究竟多少,這個(gè)問(wèn)題難以有統(tǒng)一的定論。下面,筆者用三個(gè)大數(shù)據(jù)案例簡(jiǎn)單展示一下大數(shù)據(jù)產(chǎn)品發(fā)揮的價(jià)值。。
案例一:零售:啤酒與尿布
啤酒與尿布的故事已經(jīng)成為了數(shù)據(jù)分析的經(jīng)典案例。一種比較普遍的說(shuō)法是,沃爾瑪在分析消費(fèi)者購(gòu)物行為時(shí)發(fā)現(xiàn),在周五下午,購(gòu)買尿布的年輕美國(guó)男性也有購(gòu)買啤酒的傾向,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒(méi)想到這個(gè)舉措居然使尿布和啤酒的銷量都大幅增加了。這個(gè)故事版本廣為人知,然而可能并不是事實(shí)。在后來(lái)的回溯中,這個(gè)故事是起源是1992年6月的一項(xiàng)研究。當(dāng)時(shí)的NCR產(chǎn)業(yè)咨詢公司的副總裁Thomas Blischok(現(xiàn)于TeraData工作)為Osco Drug做了分析。他們檢查了25家店鋪中的120萬(wàn)個(gè)市場(chǎng)籃子,確定了20多種不同的產(chǎn)品相關(guān)關(guān)系,包括啤酒和尿布,果汁和止咳糖漿。通過(guò)移動(dòng)商品為止,以及庫(kù)存的分析結(jié)果的利用,消費(fèi)者的購(gòu)買體驗(yàn)有了顯著的提高。有了這個(gè)結(jié)果后,Osco以及基本上整個(gè)零售行業(yè)都開始明白,通過(guò)數(shù)據(jù)分析,正確的商品數(shù)量可以選擇在合適的時(shí)間上架,零售公司可以基于需求更有效的布局商店。
在二十多年后的現(xiàn)在看來(lái),當(dāng)時(shí)的數(shù)據(jù)分析顯然還在初級(jí)階段。當(dāng)時(shí)“最先進(jìn)的數(shù)據(jù)查詢工具”顯示在下午5點(diǎn)到7點(diǎn)之間,顧客傾向于共同購(gòu)買啤酒和尿布。這個(gè)結(jié)果顯示了啤酒,尿布和時(shí)間之間的相關(guān)性,并通過(guò)移動(dòng)商品,提高了銷量。Osco和NCR研究所創(chuàng)建一個(gè)基本的理解,即購(gòu)買習(xí)慣可以用來(lái)增強(qiáng)整個(gè)購(gòu)買體驗(yàn)。但在今天看來(lái),這個(gè)信息密度仍然較低現(xiàn)在,我們已經(jīng)有了更加成熟的商業(yè)智能和預(yù)測(cè)分析的工具,能夠在零售業(yè)中發(fā)現(xiàn)相關(guān)關(guān)系,甚至能夠揭示相關(guān)關(guān)系背后的原因及預(yù)測(cè)未來(lái)銷量等,但這個(gè)故事作為數(shù)據(jù)挖掘的雛形,仍有著開創(chuàng)性的意義。
案例二:智慧醫(yī)療:美國(guó)肯塔基州路易斯維爾市
美國(guó)肯塔基州路易斯維爾利用大數(shù)據(jù)技術(shù)在智慧醫(yī)療建設(shè)中的探索非常有借鑒意義。路易斯維爾市曾名列微塵污染最嚴(yán)重城市,大約有10萬(wàn)人飽受哮喘困擾。為此,路易斯維爾管理者推出了“路易斯維爾哮喘數(shù)據(jù)創(chuàng)新計(jì)劃”,“路易斯維爾哮喘數(shù)據(jù)創(chuàng)新計(jì)劃”選取了500名哮喘病患者,讓他們使用傳感器,即時(shí)記錄患者情況,并將信息歸檔,以此分析哮喘在一年時(shí)間內(nèi)會(huì)對(duì)人口有何影響,并確認(rèn)該市空氣質(zhì)量會(huì)不會(huì)導(dǎo)致哮喘惡化。
通過(guò)移動(dòng)設(shè)備和醫(yī)療數(shù)據(jù)的結(jié)合,給了未來(lái)醫(yī)療診斷和治療模式新的想象空間,同時(shí),通過(guò)研究醫(yī)療數(shù)據(jù)與空氣質(zhì)量,交通狀況,污染情況等數(shù)據(jù)的相關(guān)性,也能夠?yàn)獒t(yī)療方及城市管理者提供更好的公共健康解決方案。
案例三:金融:冰鑒科技
冰鑒科技成立于2015年,是一家基于機(jī)器學(xué)習(xí)和人工智能的第三方獨(dú)立征信平臺(tái)。主要業(yè)務(wù)是通過(guò)風(fēng)險(xiǎn)模型識(shí)別欺詐風(fēng)險(xiǎn)和信用風(fēng)險(xiǎn),為包括銀行、P2P 、消費(fèi)金融及小貸公司提供個(gè)人和小微企業(yè)信用評(píng)估解決方案,推出了個(gè)人征信畫像報(bào)告、企業(yè)一級(jí)二級(jí)三級(jí)風(fēng)控報(bào)告和海抓數(shù)據(jù)等反欺詐和風(fēng)控產(chǎn)品。
小微企業(yè)面臨著融資難,貸款批準(zhǔn)率低的情況,而傳統(tǒng)的信貸評(píng)估時(shí)間長(zhǎng)、風(fēng)險(xiǎn)高、成本貴、難度大,已經(jīng)無(wú)法滿足日益增長(zhǎng)的信貸需求。冰鑒科技將企業(yè)主提供的個(gè)人數(shù)據(jù),網(wǎng)絡(luò)輿情數(shù)據(jù)和第三方數(shù)據(jù)相結(jié)合,通過(guò)自身算法的分析處理,打造了10款金融產(chǎn)品,根據(jù)企業(yè)用戶的不同需求,為他們打上標(biāo)簽,一方面幫助金融機(jī)構(gòu)提高效率,也更好地解決了小微企業(yè)和個(gè)人貸款難的問(wèn)題。
從以上案例可以看出,大數(shù)據(jù)的數(shù)據(jù)產(chǎn)品應(yīng)用場(chǎng)景非常廣泛,在金融、醫(yī)療、交通、零售等等行業(yè)中都發(fā)揮了巨大作用,但因行業(yè)跨度非常大,難以用統(tǒng)一的標(biāo)桿衡量。在某些領(lǐng)域,比如PredPol公司通過(guò)與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預(yù)測(cè)算法的變體和犯罪數(shù)據(jù)來(lái)預(yù)測(cè)犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內(nèi)。在洛杉磯運(yùn)用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。這樣的數(shù)據(jù)產(chǎn)品在社會(huì)中發(fā)揮的作用,更加難以用簡(jiǎn)單的經(jīng)濟(jì)學(xué)意義上的價(jià)值來(lái)衡量。
總的來(lái)說(shuō),這一環(huán)節(jié)的數(shù)據(jù)價(jià)值差異非常大,核心的價(jià)值主張是數(shù)據(jù)挖掘思維的創(chuàng)新性,比如上文所說(shuō)的降低犯罪率等的創(chuàng)新應(yīng)用,帶來(lái)了意想不到的價(jià)值。同時(shí),數(shù)據(jù)分析產(chǎn)品的價(jià)值也與數(shù)據(jù)本身的類型,數(shù)據(jù)周期,數(shù)據(jù)粒度都有關(guān)系,最終呈現(xiàn)的產(chǎn)品形態(tài)的可視化程度也會(huì)影響著數(shù)據(jù)價(jià)值。從數(shù)據(jù)產(chǎn)品形態(tài)來(lái)說(shuō),顯而易見,產(chǎn)品額智能化程度越高,展現(xiàn)信息的濃度就越高,對(duì)決策的參考價(jià)值就越大。在下一篇中,筆者會(huì)進(jìn)一步探討和比較不同模式下的數(shù)據(jù)價(jià)值,以及關(guān)于數(shù)據(jù)安全的一些新思考。