免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
什么?數(shù)據(jù)分析也能有這么詳細(xì)的架構(gòu)了?超實(shí)用

最近和大家講的就是大數(shù)據(jù)架構(gòu)這一塊,昨天看見一篇zookeeper的文章很好,寫的很透徹,就轉(zhuǎn)給你們,發(fā)現(xiàn)各位還是非常喜歡,也有很多人和我私聊行業(yè)的最新情況,感謝各位看得起我,能解答的我都會盡量解答。

這些天團(tuán)隊(duì)涉及到數(shù)據(jù)分析的項(xiàng)目,有必要和小伙伴做一個簡單的入門培訓(xùn)。BI 是一個非常大的領(lǐng)域,涉及到非常多的概念和技術(shù),還有專門從事 BI 的技術(shù)和業(yè)務(wù)人員。所以這里只能寬泛的介紹數(shù)據(jù)分析的一些基本概念、基本流程和一些工具,也算是為后面的數(shù)據(jù)架構(gòu)細(xì)講留下一些最最基礎(chǔ)的東西,以成系列。

這里更多的是個人的理解,并不準(zhǔn)確和完整,目的是引導(dǎo)大家去做更多的研究和學(xué)習(xí)。

1、數(shù)據(jù)分析和數(shù)據(jù)挖掘

BI 主要包含這二個相關(guān)又有差異的概念。其前提都是我們能獲取到一個企業(yè)或一個實(shí)體的所有相關(guān)業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)來自企業(yè)的多個業(yè)務(wù)系統(tǒng),龐雜又巨量,對于管理層來說,如果沒有數(shù)據(jù)分析和數(shù)據(jù)挖掘,這些數(shù)據(jù)是沒有意義的。

把這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識就是 BI 的目的。

這里再補(bǔ)充一些自己的理解:

  • 數(shù)據(jù)分析是基于已知的分析模型和方法對數(shù)據(jù)的分析;數(shù)據(jù)挖掘是不清楚模型和規(guī)則的基礎(chǔ)上利用算法從大量數(shù)據(jù)里面找出或者叫計算出一些知識和信息,用于管理層的輔助決策。
  • 即使沒有 IT 技術(shù)人員參與,業(yè)務(wù)人員拿 excel 也要做業(yè)務(wù)分析,出分析報表,只不過效率極低、能做的分析有限、展現(xiàn)的方式簡單。所以數(shù)據(jù)分析需要業(yè)務(wù)專家全程參與,參與程度很高。而數(shù)據(jù)挖掘是 IT 技術(shù)人員的參與程度更高,而且對技術(shù)人員要求還很高。
  • 數(shù)據(jù)分析和數(shù)據(jù)挖掘前期的數(shù)據(jù)準(zhǔn)備流程是基本一致的,但是接下來的過程用到的技術(shù)、方法及工具就完全不一樣了。

2、數(shù)據(jù)分析項(xiàng)目實(shí)施的基本過程

2.1 需求分析和調(diào)研

數(shù)據(jù)分析需要業(yè)務(wù)人員的全面配合和參與,所有數(shù)據(jù)分析項(xiàng)目都是和行業(yè)緊密相關(guān)的,不同的行業(yè)差異很大,專業(yè)性要求不一樣。如果是比如銀行這種分析項(xiàng)目,如果沒有業(yè)務(wù)專家的配合,基本是不可能實(shí)現(xiàn)的。

作為 IT 團(tuán)隊(duì),也需要精通或熟悉特定行業(yè)業(yè)務(wù)的復(fù)合人才,否則純技術(shù)人員是無法和業(yè)務(wù)專家順暢交流的。

前期需要充分的討論和調(diào)研,要了解現(xiàn)有所有的業(yè)務(wù)系統(tǒng),與不同部門的業(yè)務(wù)人員討論,與各級管理人員討論需求,產(chǎn)出需求分析文檔和數(shù)據(jù)決策系統(tǒng)或大屏展示系統(tǒng)的UE,UI設(shè)計。

還有一個很重要的數(shù)據(jù)調(diào)研,需要把所有分析的數(shù)據(jù)來源從現(xiàn)有業(yè)務(wù)系統(tǒng)上標(biāo)出,包括詳細(xì)的字段說明。

這里有幾個基本概念必須了解:

  • 主題:這是一個業(yè)務(wù)上抽象的概念,是較高層次上對一類分析的綜合,通常是整個企業(yè)最核心的也是管理者最關(guān)心的幾個宏觀對象。比如房地產(chǎn)企業(yè)最關(guān)心的主題是土地、住宅和物業(yè),快銷企業(yè)最關(guān)心的主題是進(jìn)、銷、存 。但是這個并不是絕對的,即使同樣是銀行數(shù)據(jù)分析,不同的銀行關(guān)心的主題不完全一樣,完全取決具體實(shí)際的需求?;蛘哂幸恍┓治鲰?xiàng)目沒有明確的主題,只有功能模塊的劃分。
  • 指標(biāo):用于衡量事物發(fā)展程度的單位或方法,它還有個IT上常用的名字,也就是度量。例如:人口數(shù)、GDP、收入、用戶數(shù)、利潤率、留存率、覆蓋率等。
  • 比較簡單的理解就是數(shù)字類型的字段基本上可以認(rèn)為是指標(biāo),另外大部分分析系統(tǒng)的指標(biāo)是由原始數(shù)據(jù)經(jīng)過計算公式算出來的。
  • 維度:是事物或現(xiàn)象的某種特征,如性別、地區(qū)、時間等都是維度。是觀察和分析數(shù)據(jù)的角度。我們要分析的其實(shí)就是不同的維度下指標(biāo)的值從而獲取到有用的信息和規(guī)律。
  • 維度還有一個level級別或者叫粒度,比如時間維度可以分為(年月日),年和月和日都是一個級別。觀察數(shù)據(jù)的時候可以在維度的特定級別上操作。

我們來看一個實(shí)際的例子,一個快銷品廠商針對銷售主題需要分析,其中基本的數(shù)據(jù)是銷售記錄,記錄某個時間點(diǎn)某個銷售點(diǎn)賣出某些特定產(chǎn)品。

那么維度可能就包括時間、地域、產(chǎn)品、支付方式、用戶等,每個維度還分很多級,分級的方式不是固定的,比如這個例子可能不關(guān)心季節(jié)和周,所以時間的分級可能是年月日時分秒。區(qū)域可能分省市等,產(chǎn)品可能分級為類型、名稱等。

指標(biāo)的話,可以是銷售的數(shù)量,銷售的金額,銷售的利潤率之類的。

2.2 整體設(shè)計(主要是數(shù)據(jù)倉庫設(shè)計)

如上圖,這是一個數(shù)據(jù)分析的標(biāo)準(zhǔn)體系結(jié)構(gòu),再怎么設(shè)計基本結(jié)構(gòu)不會有大的改動。ODS、DM、DW的概念可以參考我前面寫的數(shù)據(jù)倉庫系列。

這里加上自身的理解:ODS:通常是把多個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過ETL(明天會講)原樣采集過來,表結(jié)構(gòu)基本不變。而且盡可能的把相關(guān)的業(yè)務(wù)數(shù)據(jù)都采集,即使當(dāng)前項(xiàng)目用不上(如果客戶增加新的分析,我們這個工作就不用再額外做了)

  • 我們這里談的是數(shù)據(jù)分析,基本是結(jié)構(gòu)化數(shù)據(jù),所以并不需要 Hadoop ,通常關(guān)系型數(shù)據(jù)庫比如 Oracle 即可,但是由于數(shù)據(jù)量大,需要考慮分布式。
  • DW:涉及到多維分析,庫表設(shè)計不是通常的關(guān)系型庫表設(shè)計的方法來設(shè)計,會有不少冗余數(shù)據(jù),通常以維度表和事實(shí)表來設(shè)計,后面還會介紹這二個概念。
  • DM:設(shè)計方式和 DW 類似,只不過它考慮的維度和指標(biāo)更少,存儲的歷史數(shù)據(jù)更少,只是為最上層的應(yīng)用層服務(wù)。通常 DW 就一個,DM可以多個。

我們再來看看維度表事實(shí)表的概念, 維度表是維度屬性的集合,事實(shí)表是數(shù)據(jù)倉庫結(jié)構(gòu)中的中央表,它包含聯(lián)系事實(shí)與維度表的數(shù)字度量值和鍵。我們以例子來看就比較清楚了,這里面又涉及到星型模型和雪花模型的概念。

我們還以上面的例子來設(shè)計維度表和事實(shí)表的星型模型。

其中事實(shí)表是中心,里面包含了指標(biāo)字段:金額和數(shù)量和其它所有維度的唯一標(biāo)識。其它每個維度都是一個獨(dú)立的表,如果一個維度表又拆成多個表就是雪花模型。

接下來看一個更完整的結(jié)構(gòu)圖:

這里涉及到 OLAP 的概念,OLAP 核心就是多維分析,在 DW DM 的基礎(chǔ)上對數(shù)據(jù)的多個維度進(jìn)行分析,分析的操作包括鉆?。―rill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(zhuǎn)(Pivot),在上面的鏈接里有形象的圖示說明,其本質(zhì)就是維度級別的變換,維度選擇的變換,總之讓業(yè)務(wù)人員從各種角度去觀察和分析數(shù)據(jù)。

  • OLAP的二種方式 MOLAP和ROLAP需要單獨(dú)說一下:MOLAP:需要額外的 OLAP 服務(wù),由 IT 人員搭建 Cube 多維立方體,需要預(yù)先生成所有維度的結(jié)果。
  • ROLAP:通過標(biāo)準(zhǔn)的 SQL 實(shí)時查詢返回結(jié)果,多維作為 SQL 的 Where 條件。

最后要考慮的是給最終用戶程序的界面,通常是一個大屏的報表展示或一個管理網(wǎng)站,通常除了分析也有明細(xì)查詢,通過二維表格、餅圖,曲線圖各種方式展示結(jié)果,用戶通常從宏觀上看數(shù)據(jù),發(fā)現(xiàn)問題后再利用多維分析的操作做更細(xì)致的查詢分析,最后得出結(jié)論匯報給管理者,輔助決策。

整個設(shè)計的產(chǎn)出物包括業(yè)務(wù)數(shù)據(jù)庫到ODS的數(shù)據(jù)映射文檔,三層數(shù)據(jù)庫的庫表設(shè)計文檔等??赡軙玫?ERWin之類的工具。

2.3 具體實(shí)施

具體實(shí)施會用到很多工具輔助完成,不同于其它信息化項(xiàng)目,數(shù)據(jù)分析要做的編碼工作很少,在每個環(huán)節(jié)都有成熟的可視化工具使用。

  1. 數(shù)據(jù)抽取到 ODS :從多個業(yè)務(wù)系統(tǒng)里把數(shù)據(jù)抽取到 ODS 層,這是標(biāo)準(zhǔn)的 ETL 過程,工具基本上都是用免費(fèi)的 Kettle,商用的也可以用IBM的 DataStage。
  2. 通常包括歷史數(shù)據(jù)的整體抽取和實(shí)時數(shù)據(jù)的定時抽取。數(shù)據(jù)的格式可能也多樣,可能是直接對數(shù)據(jù)庫,可能是增量文件之類的,可能是接口等。
  3. 從 ODS 到 DM,DM 到 DW層 :同樣是利用 ETL 工具實(shí)現(xiàn)。
  4. ROLAP 和 MOLAP 實(shí)施,如果需求確實(shí)簡單可以直接用 echart 來寫代碼實(shí)現(xiàn)。但是通常使用成熟工具,這里可以選擇的工具很多,但是基本上還是用商用的付費(fèi)產(chǎn)品,國外的有 IBM的Congons、Oracle的Obiee、微軟的 Power BI,國內(nèi)有阿里的 DataV、帆軟 等。這些產(chǎn)品各有特點(diǎn),但是基本的 ROLAP 和 MOLAP 都有對應(yīng)的產(chǎn)品來實(shí)現(xiàn)。
  5. 實(shí)施的過程中 MOLAP 可以利用可視化工具搭建 Cube,而ROLAP 則需要編寫大量復(fù)雜的 SQL,還得考慮執(zhí)行效率的問題,前端響應(yīng)太慢對于用戶來說整個分析項(xiàng)目就沒法用了。
  6. 發(fā)布上線,測試和聯(lián)調(diào):上面提到的工具最后都可以直接以服務(wù)的方式發(fā)布到生產(chǎn)環(huán)境給用戶使用。用戶通過 B/S 方式瀏覽器訪問。
  7. 這里最重要的是需要考慮分析結(jié)果的準(zhǔn)確性,不能有一點(diǎn)偏差,因?yàn)榉治鍪菫榱藳Q策的,如果分析的結(jié)果都是錯誤的,影響肯定非常大。需要和業(yè)務(wù)人員仔細(xì)核對數(shù)據(jù)的準(zhǔn)確性。整個數(shù)據(jù)的流轉(zhuǎn)很長,任何一個環(huán)節(jié)有錯都可能導(dǎo)致結(jié)果不正確。

3、總結(jié)

以上是整個數(shù)據(jù)分析的大概過程和主要概念介紹,細(xì)節(jié)很多,總體上來說數(shù)據(jù)分析已經(jīng)是非常成熟的工程項(xiàng)目,工作量大,但是基本都是套路;還有一點(diǎn)就是數(shù)據(jù)分析項(xiàng)目對業(yè)務(wù)的理解要求很高,這個在后續(xù)的數(shù)據(jù)分析平臺中會講到。

歡迎大家私信我任何問題,我只是和各位一樣,在社會上打拼的一個普通人,希望咱們可以互相交流。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
OLAP:BI建設(shè)的神器
BI&DWHome | 某通信公司 綜合報表和決策分析系統(tǒng)實(shí)施案例
數(shù)據(jù)倉庫架構(gòu)的建立
大數(shù)據(jù)分析師技能要求
數(shù)據(jù)倉庫之ETL漫談
搭建數(shù)據(jù)倉庫的流程簡介
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服