最近和大家講的就是大數(shù)據(jù)架構(gòu)這一塊,昨天看見一篇zookeeper的文章很好,寫的很透徹,就轉(zhuǎn)給你們,發(fā)現(xiàn)各位還是非常喜歡,也有很多人和我私聊行業(yè)的最新情況,感謝各位看得起我,能解答的我都會盡量解答。
這些天團(tuán)隊(duì)涉及到數(shù)據(jù)分析的項(xiàng)目,有必要和小伙伴做一個簡單的入門培訓(xùn)。BI 是一個非常大的領(lǐng)域,涉及到非常多的概念和技術(shù),還有專門從事 BI 的技術(shù)和業(yè)務(wù)人員。所以這里只能寬泛的介紹數(shù)據(jù)分析的一些基本概念、基本流程和一些工具,也算是為后面的數(shù)據(jù)架構(gòu)細(xì)講留下一些最最基礎(chǔ)的東西,以成系列。
這里更多的是個人的理解,并不準(zhǔn)確和完整,目的是引導(dǎo)大家去做更多的研究和學(xué)習(xí)。
BI 主要包含這二個相關(guān)又有差異的概念。其前提都是我們能獲取到一個企業(yè)或一個實(shí)體的所有相關(guān)業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)來自企業(yè)的多個業(yè)務(wù)系統(tǒng),龐雜又巨量,對于管理層來說,如果沒有數(shù)據(jù)分析和數(shù)據(jù)挖掘,這些數(shù)據(jù)是沒有意義的。
把這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識就是 BI 的目的。
這里再補(bǔ)充一些自己的理解:
2.1 需求分析和調(diào)研
數(shù)據(jù)分析需要業(yè)務(wù)人員的全面配合和參與,所有數(shù)據(jù)分析項(xiàng)目都是和行業(yè)緊密相關(guān)的,不同的行業(yè)差異很大,專業(yè)性要求不一樣。如果是比如銀行這種分析項(xiàng)目,如果沒有業(yè)務(wù)專家的配合,基本是不可能實(shí)現(xiàn)的。
作為 IT 團(tuán)隊(duì),也需要精通或熟悉特定行業(yè)業(yè)務(wù)的復(fù)合人才,否則純技術(shù)人員是無法和業(yè)務(wù)專家順暢交流的。
前期需要充分的討論和調(diào)研,要了解現(xiàn)有所有的業(yè)務(wù)系統(tǒng),與不同部門的業(yè)務(wù)人員討論,與各級管理人員討論需求,產(chǎn)出需求分析文檔和數(shù)據(jù)決策系統(tǒng)或大屏展示系統(tǒng)的UE,UI設(shè)計。
還有一個很重要的數(shù)據(jù)調(diào)研,需要把所有分析的數(shù)據(jù)來源從現(xiàn)有業(yè)務(wù)系統(tǒng)上標(biāo)出,包括詳細(xì)的字段說明。
這里有幾個基本概念必須了解:
我們來看一個實(shí)際的例子,一個快銷品廠商針對銷售主題需要分析,其中基本的數(shù)據(jù)是銷售記錄,記錄某個時間點(diǎn)某個銷售點(diǎn)賣出某些特定產(chǎn)品。
那么維度可能就包括時間、地域、產(chǎn)品、支付方式、用戶等,每個維度還分很多級,分級的方式不是固定的,比如這個例子可能不關(guān)心季節(jié)和周,所以時間的分級可能是年月日時分秒。區(qū)域可能分省市等,產(chǎn)品可能分級為類型、名稱等。
指標(biāo)的話,可以是銷售的數(shù)量,銷售的金額,銷售的利潤率之類的。
2.2 整體設(shè)計(主要是數(shù)據(jù)倉庫設(shè)計)
如上圖,這是一個數(shù)據(jù)分析的標(biāo)準(zhǔn)體系結(jié)構(gòu),再怎么設(shè)計基本結(jié)構(gòu)不會有大的改動。ODS、DM、DW的概念可以參考我前面寫的數(shù)據(jù)倉庫系列。
這里加上自身的理解:ODS:通常是把多個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過ETL(明天會講)原樣采集過來,表結(jié)構(gòu)基本不變。而且盡可能的把相關(guān)的業(yè)務(wù)數(shù)據(jù)都采集,即使當(dāng)前項(xiàng)目用不上(如果客戶增加新的分析,我們這個工作就不用再額外做了)
我們再來看看維度表和事實(shí)表的概念, 維度表是維度屬性的集合,事實(shí)表是數(shù)據(jù)倉庫結(jié)構(gòu)中的中央表,它包含聯(lián)系事實(shí)與維度表的數(shù)字度量值和鍵。我們以例子來看就比較清楚了,這里面又涉及到星型模型和雪花模型的概念。
我們還以上面的例子來設(shè)計維度表和事實(shí)表的星型模型。
其中事實(shí)表是中心,里面包含了指標(biāo)字段:金額和數(shù)量和其它所有維度的唯一標(biāo)識。其它每個維度都是一個獨(dú)立的表,如果一個維度表又拆成多個表就是雪花模型。
接下來看一個更完整的結(jié)構(gòu)圖:
這里涉及到 OLAP 的概念,OLAP 核心就是多維分析,在 DW DM 的基礎(chǔ)上對數(shù)據(jù)的多個維度進(jìn)行分析,分析的操作包括鉆?。―rill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(zhuǎn)(Pivot),在上面的鏈接里有形象的圖示說明,其本質(zhì)就是維度級別的變換,維度選擇的變換,總之讓業(yè)務(wù)人員從各種角度去觀察和分析數(shù)據(jù)。
最后要考慮的是給最終用戶程序的界面,通常是一個大屏的報表展示或一個管理網(wǎng)站,通常除了分析也有明細(xì)查詢,通過二維表格、餅圖,曲線圖各種方式展示結(jié)果,用戶通常從宏觀上看數(shù)據(jù),發(fā)現(xiàn)問題后再利用多維分析的操作做更細(xì)致的查詢分析,最后得出結(jié)論匯報給管理者,輔助決策。
整個設(shè)計的產(chǎn)出物包括業(yè)務(wù)數(shù)據(jù)庫到ODS的數(shù)據(jù)映射文檔,三層數(shù)據(jù)庫的庫表設(shè)計文檔等??赡軙玫?ERWin之類的工具。
2.3 具體實(shí)施
具體實(shí)施會用到很多工具輔助完成,不同于其它信息化項(xiàng)目,數(shù)據(jù)分析要做的編碼工作很少,在每個環(huán)節(jié)都有成熟的可視化工具使用。
以上是整個數(shù)據(jù)分析的大概過程和主要概念介紹,細(xì)節(jié)很多,總體上來說數(shù)據(jù)分析已經(jīng)是非常成熟的工程項(xiàng)目,工作量大,但是基本都是套路;還有一點(diǎn)就是數(shù)據(jù)分析項(xiàng)目對業(yè)務(wù)的理解要求很高,這個在后續(xù)的數(shù)據(jù)分析平臺中會講到。
歡迎大家私信我任何問題,我只是和各位一樣,在社會上打拼的一個普通人,希望咱們可以互相交流。