當(dāng)前,中國企業(yè)面臨著適應(yīng)數(shù)字經(jīng)濟(jì)的重大挑戰(zhàn),如何實(shí)現(xiàn)從 IT(信息技術(shù)) 向 DT(數(shù)據(jù)技術(shù))的轉(zhuǎn)型,已經(jīng)成為企業(yè)發(fā)展轉(zhuǎn)型升級的首要課題。賽迪顧問認(rèn)為,大數(shù)據(jù)應(yīng)用(BDA)是集團(tuán)型企業(yè)應(yīng)用的新方向,涵蓋了從數(shù)據(jù)采集、存儲、處理、應(yīng)用等多方面的技術(shù),這對于企業(yè)能否實(shí)現(xiàn)數(shù)字化、智慧型轉(zhuǎn)型至關(guān)重要。
關(guān)鍵技術(shù)一:大數(shù)據(jù)采集技術(shù)
大數(shù)據(jù)采集是大數(shù)據(jù)生命周期的第一個環(huán)節(jié),它通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。由于可能有成千上萬的用戶同時進(jìn)行并發(fā)訪問和操作,因此,必須采用專門針對大數(shù)據(jù)的采集方法,主要包括系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法以及其他數(shù)據(jù)采集方法。
關(guān)鍵技術(shù)二:大數(shù)據(jù)預(yù)處理技術(shù)
現(xiàn)實(shí)世界中的數(shù)據(jù)大多不完整或不一致,無法直接進(jìn)行數(shù)據(jù)挖掘或挖掘結(jié)果不理想。而數(shù)據(jù)預(yù)處理則是對采集的數(shù)據(jù)進(jìn)行填補(bǔ)、平滑、合并、規(guī)格化、檢查一致性等處理,并對數(shù)據(jù)的多種屬性進(jìn)行初步組織,從而提高數(shù)據(jù)挖掘質(zhì)量,減少挖掘時間。與傳統(tǒng)數(shù)據(jù)預(yù)處理流程相似,大數(shù)據(jù)預(yù)處理的三個基本步驟也是數(shù)據(jù)的提取、轉(zhuǎn)換和加載(ETL),ETL負(fù)責(zé)將多個數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到目標(biāo)數(shù)據(jù)庫或相應(yīng)文件存儲系統(tǒng)中,作為數(shù)據(jù)挖掘的基礎(chǔ)。
關(guān)鍵技術(shù)三:大數(shù)據(jù)存儲及管理技術(shù)
大數(shù)據(jù)存儲技術(shù):大數(shù)據(jù)場景下,數(shù)據(jù)量呈爆發(fā)式增長,存儲能力的增長遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)的增長,幾十或幾百臺大型服務(wù)器都難以滿足一個企業(yè)的數(shù)據(jù)存儲需求。為此,大數(shù)據(jù)的存儲方案是采用成千上萬臺的廉價PC來存儲數(shù)據(jù)以降低成本,同時提供高擴(kuò)展性。考慮到系統(tǒng)由大量廉價易損的硬件組成,需要保證文件系統(tǒng)整體可靠性。為此,大數(shù)據(jù)的存儲方案通常對同一份數(shù)據(jù)在不同節(jié)點(diǎn)上存儲三份副本,以提高系統(tǒng)容錯性。
大數(shù)據(jù)管理技術(shù):對于圖像、視頻 、地理位置等類型多樣的數(shù)據(jù),難以用傳統(tǒng)的結(jié)構(gòu)化方式描述,因此需要使用由多維表組成的面向列存儲的數(shù)據(jù)管理系統(tǒng)來組織和管理數(shù)據(jù)。也就是說,將數(shù)據(jù)按行排序,按列存儲,將相同字段的數(shù)據(jù)作為一個列族來聚合存儲。不同的列族對應(yīng)數(shù)據(jù)的不同屬性,這些屬性可以根據(jù)需求動態(tài)增加,通過這樣的分布式實(shí)時列式數(shù)據(jù)庫對數(shù)據(jù)統(tǒng)一進(jìn)行結(jié)構(gòu)化存儲和管理,避免了傳統(tǒng)數(shù)據(jù)存儲方式下的關(guān)聯(lián)查詢。
關(guān)鍵技術(shù)四:大數(shù)據(jù)分析及挖掘技術(shù)
大數(shù)據(jù)分析技術(shù):要挖掘大數(shù)據(jù)的大價值必然要對大數(shù)據(jù)進(jìn)行內(nèi)容上的分析與計算,深度學(xué)習(xí)和知識計算是大數(shù)據(jù)分析的基礎(chǔ),而可視化既是數(shù)據(jù)分析的關(guān)鍵技術(shù)也是數(shù)據(jù)分析結(jié)果呈現(xiàn)的關(guān)鍵技術(shù)。
大數(shù)據(jù)挖掘技術(shù):大數(shù)據(jù)場景下的數(shù)據(jù)挖掘可以采用MapReduce(一種編程模型)等并行處理方式,將海量數(shù)據(jù)進(jìn)行分解并分布存儲,由數(shù)據(jù)挖掘系統(tǒng)并行處理,并將多個局部處理結(jié)果合成最終的輸出模式,以實(shí)現(xiàn)海量數(shù)據(jù)挖掘。大數(shù)據(jù)場景還要求能夠?qū)Y(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)一起分析;并且當(dāng)數(shù)據(jù)量增加時,要求只增加分布式服務(wù)節(jié)點(diǎn),無須修改分析/挖掘算法。因此傳統(tǒng)的關(guān)系型、結(jié)構(gòu)化的數(shù)據(jù)集和挖掘方法都不再適用。
關(guān)鍵技術(shù)五:大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)
大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經(jīng)濟(jì)活動提供依據(jù),從而提高各個領(lǐng)域的運(yùn)行效率,大大提高整個社會經(jīng)濟(jì)的集約化程度。在大數(shù)據(jù)場景下,結(jié)果展現(xiàn)更加注重交互式和可視化。
用戶交互技術(shù):大數(shù)據(jù)所提供的用戶交互方式主要有五種類型,分別是統(tǒng)計分析和數(shù)據(jù)挖掘、任意查詢和分析、立方體分析、企業(yè)報表、報表分發(fā)和預(yù)警,它們在交互程度和用戶群類型及規(guī)模上各有差異。
數(shù)據(jù)可視化技術(shù):數(shù)據(jù)結(jié)果展現(xiàn)即實(shí)現(xiàn)了數(shù)據(jù)可視化,它從底層平臺處理的數(shù)據(jù)挖掘結(jié)果中構(gòu)造圖片、映射關(guān)系或表格,以簡單、好、易用的圖形化、智能化的形式呈現(xiàn)給用戶供其分析使用,可通過數(shù)據(jù)訪問接口或商業(yè)智能門戶實(shí)現(xiàn)。