BI (Business Intelligence 商業(yè)智能)
商業(yè)智能產(chǎn)品及解決方案大致可分為數(shù)據(jù)倉庫產(chǎn)品、數(shù)據(jù)抽取產(chǎn)品、OLAP產(chǎn)品、展示產(chǎn)品、和集成以上幾種產(chǎn)品的針對某個應(yīng)用的整體解決方案等。商業(yè)智能的技術(shù)體系主要有數(shù)據(jù)倉庫(DW)、在線分析處理(OLAP)以及數(shù)據(jù)挖掘(DM)三部分組成。數(shù)據(jù)倉庫是商業(yè)智能的基礎(chǔ),許多基本報表可以由此生成,但它更大的用處是作為進一步分析的數(shù)據(jù)源。所謂數(shù)據(jù)倉庫(DW)就是面向主題的、集成的、穩(wěn)定的、 不同時間的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。多維分析和數(shù)據(jù)挖掘是最常聽到的例子,數(shù)據(jù)倉庫能供給它們所需要的、整齊一致的數(shù)據(jù)。在線分析處理(OLAP)技術(shù)則幫助分析人員、管理人員從多種角度把從原始數(shù)據(jù)中轉(zhuǎn)化出來、能夠真正為用戶所理解的、并真實反映數(shù)據(jù)維特性的信息,進行快速、一致、交互地訪問,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。
數(shù)據(jù)挖掘(DM)是一種決策支持過程,它主要基于AI、機器學(xué)習(xí)、統(tǒng)計學(xué)等技術(shù),高度自動化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測客戶的行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風(fēng)險,做出正確的決策.
根據(jù)BI解決方案的體系結(jié)構(gòu),一個完整的BI應(yīng)用需要ETL工具、數(shù)據(jù)倉庫管理工具、OLAP工具、數(shù)據(jù)挖掘工具和報表查詢工具5種工具協(xié)同工作.
微軟的 Microsoft SQL SERVER2008 平臺(包含 SQL SERVER Business Intelligence、Analysis Services、Integration Services、Reporting Services)都可以實現(xiàn)。
ETL:SQL Server 2008 Integration Services;
數(shù)據(jù)倉庫:SQL Server 2008 Database Engine;
聯(lián)機分析處理OLAP:SQL Server 2008 Analysis Services;
數(shù)據(jù)挖掘模型:SQL Server 2008 Analysis Services;
多維數(shù)據(jù)分析(B/S):Performance Point Server Analystic;OWC;
多維數(shù)據(jù)分析(C/S):Excel 2007/2010;
報表:SQL Server 2008 Reporting Services ;
構(gòu)建多維數(shù)據(jù)集
Analysis Services數(shù)據(jù)庫的建設(shè)是后面工作的基礎(chǔ),因為它將直接決定數(shù)據(jù)倉庫、前端展現(xiàn)和ETL的設(shè)計。
Analysis Services數(shù)據(jù)庫的設(shè)計需要注意以下幾個方面:
1.盡量保證量度不包含任何實際的意義。
這一點怎樣理解,例如,有時我們會將收入、成本、費用設(shè)置為不同的量度,這在以后的擴展方面會存在一定的問題。而應(yīng)該將設(shè)置一個維度稱為指標(其中包括這三個成員),而設(shè)置一個量度稱為金額。關(guān)于這種設(shè)計的優(yōu)勢我會在以后的帖子中詳細說明。
2.盡量將KPI和計算成員設(shè)置在Analysis Services數(shù)據(jù)庫中,而不要設(shè)置在前端展現(xiàn)軟件中,這樣可以減少計算成員的設(shè)置數(shù)量,同時也易于維護。
3.在盡可能的應(yīng)用腳本功能。在Analysis Services數(shù)據(jù)庫中你可以使用腳本功能實現(xiàn)很多強大的功能,包括計算成員的設(shè)置、聚合的函數(shù)、度量的匯總和格式的設(shè)置等等。
4.創(chuàng)建標準的維度。每一個維度都要按照要求創(chuàng)建成標準的維度,例如主鍵必須為整型、包括排序鍵以及自定義匯總列等等,這樣在后期擴展功能時會非常方便。
5.首先創(chuàng)建一個大而全的多維數(shù)據(jù)集,然后再通過透視圖切分成小的多維數(shù)據(jù)集,這樣可以減少存儲和維護量。
在完成多維數(shù)據(jù)集的創(chuàng)建之后,我們需要根據(jù)多維數(shù)據(jù)集生成數(shù)據(jù)倉庫,在生成數(shù)據(jù)倉庫之后,我們需要在數(shù)據(jù)倉庫中填充測試數(shù)據(jù),來實現(xiàn)對多維數(shù)據(jù)集的測試。
包是一個有組織的集合,其中可包括連接、控制流元素、數(shù)據(jù)流元素、事件處理程序、變量和配置,您可使用 SQL ServerIntegration Services 提供的圖形設(shè)計工具或以編程生成方式將這些對象組合到包中。然后,您可將完成的包保存到 SQL Server、SSIS 包存儲區(qū)或文件系統(tǒng)中。
商業(yè)智能體系結(jié)構(gòu)及構(gòu)建過程:
1、)識別和確定數(shù)據(jù)源;
一個完整的商業(yè)智能體系架構(gòu)圖例如下所示:
2、)對數(shù)據(jù)進行集成和存儲管理。數(shù)據(jù)集成可以分為“懶散型”和“急切型”數(shù)據(jù)集成。懶散型數(shù)據(jù)集成一般應(yīng)用在數(shù)據(jù)庫系統(tǒng)中,其顯著特征是集成發(fā)生在查詢產(chǎn)生之后。用戶提出以個查詢后,系統(tǒng)確定查詢所需的數(shù)據(jù)來源,為每個來源產(chǎn)生子查詢和命令,然后從數(shù)據(jù)源中獲取信息,執(zhí)行一定的轉(zhuǎn)換、過濾和合并后把最終結(jié)果返回給用戶。數(shù)據(jù)在查詢出現(xiàn)后才從原始資料中提取。急切型數(shù)據(jù)集成通常出現(xiàn)在數(shù)據(jù)倉庫計算中,它是提前預(yù)測用戶的需求,把可能會被用的的數(shù)據(jù)提前從數(shù)據(jù)源中抽取出來,同樣經(jīng)過轉(zhuǎn)換、過濾以及其他信息的合并,然后存儲在集中的數(shù)據(jù)倉庫中。當(dāng)以個查詢出現(xiàn)后,直接在倉庫中運行,不需要進入最初的數(shù)據(jù)源系統(tǒng)中區(qū),這種急切型的數(shù)據(jù)集成方法使數(shù)據(jù)倉庫中存儲著大量經(jīng)過預(yù)先計算的總計數(shù)據(jù)和累加數(shù)據(jù),在查詢時能顯著加快查詢速度,滿足用戶對響應(yīng)時間的需求。
3、)數(shù)據(jù)分析與建模。商業(yè)智能建立的本質(zhì)目的是獲取高投資回報率(ROI),投資回報主要體現(xiàn)在商業(yè)智能的應(yīng)用狀況上。通過數(shù)據(jù)分析和建模將數(shù)據(jù)轉(zhuǎn)化為信息,通常由數(shù)據(jù)分析工具負責(zé)完成。在商業(yè)智能系統(tǒng)中,交互式信息分析、挖掘工具、數(shù)據(jù)分析軟件、商業(yè)智能工具和商業(yè)運營規(guī)則相結(jié)合對數(shù)據(jù)的模式和趨勢進行分析,提供給用戶企業(yè)商戶的方方面面的詳細信息。
商業(yè)智能核心技術(shù)
構(gòu)建一個完整的商業(yè)智能系統(tǒng)涉及到的幾個核心技術(shù):
1、)數(shù)據(jù)倉庫技術(shù):數(shù)據(jù)倉庫是一個面向主題的、集成的、穩(wěn)定的、包含歷史數(shù)據(jù)的數(shù)據(jù)集合。它用于支持管理中的決策指定過程。數(shù)據(jù)倉庫系統(tǒng)是對數(shù)據(jù)的處理技術(shù)的集成,而商業(yè)智能系統(tǒng)的核心是解決商業(yè)問題,它是把數(shù)據(jù)處理技術(shù)和商務(wù)規(guī)則相結(jié)合提高商業(yè)利潤減少商業(yè)風(fēng)險,是數(shù)據(jù)倉庫技術(shù)、商業(yè)規(guī)則、決策處理技術(shù)相結(jié)合。
2、)數(shù)據(jù)挖掘技術(shù)(DM):指從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的關(guān)系,通常是采用機器自動識別方式處理。數(shù)據(jù)挖掘技術(shù)中常用的數(shù)據(jù)模型有:
a、)分類模型,根據(jù)商業(yè)數(shù)據(jù)屬性將數(shù)據(jù)分配到不同的組中。
b、)關(guān)聯(lián)模型,主要描述一組數(shù)據(jù)項目中的密切度和關(guān)系。
c、)順序模型,分析數(shù)據(jù)倉庫中某類同時間相關(guān)的數(shù)據(jù),并發(fā)現(xiàn)某一段時間內(nèi)相關(guān)聯(lián)的數(shù)據(jù)處理模型。順序模型是特殊的關(guān)聯(lián)模型,它在關(guān)聯(lián)模型中加入了時間屬性。
d、)聚簇模型,當(dāng)要分析的數(shù)據(jù)缺少描述信息,或者無法組織成任何分類模型,則可以采用聚簇模型。聚簇模型是按照某種相近程度度量方法將用戶數(shù)據(jù)分成互不相同的一些分組。組中的數(shù)據(jù)相近,組之間的數(shù)據(jù)相差甚大。聚簇模型的核心是將某些明顯相近程度測量方法轉(zhuǎn)換為定量測試方法。
3、)聯(lián)機分析處理(OLAP)。它主要通過多維的方式來對數(shù)據(jù)進行分析、查詢和報表處理。于OLTP不同,OLTP主要用來完成用戶的事務(wù)處理,對響應(yīng)時間要求較高。而OLAP主要對用戶當(dāng)前或歷史數(shù)據(jù)進行分析處理,輔助領(lǐng)導(dǎo)決策。