熱門下載
【下載】2015中國(guó)數(shù)據(jù)分析師行業(yè)峰會(huì)精彩PPT下載(共計(jì)21個(gè)文件)(點(diǎn)擊標(biāo)題即可)文:松子
轉(zhuǎn)自: InfoQ
“
從「數(shù)據(jù)倉(cāng)庫(kù)」一詞到現(xiàn)在的「大數(shù)據(jù)」,中間經(jīng)歷了太多的知識(shí)、架構(gòu)模式的演進(jìn)與變革。數(shù)據(jù)平臺(tái)這25年究竟是怎樣進(jìn)化的?讓InfoQ特約老司機(jī)為你講解。
小Q不會(huì)告訴你看完全文有微信群直播分享的福利喲!
我是從2000年開始接觸數(shù)據(jù)倉(cāng)庫(kù),大約08年開始進(jìn)入互聯(lián)網(wǎng)行業(yè)。很多從傳統(tǒng)企業(yè)數(shù)據(jù)平臺(tái)轉(zhuǎn)到互聯(lián)網(wǎng)同學(xué)是否有感覺:非互聯(lián)網(wǎng)企業(yè)、互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)平臺(tái)所面向用戶群體是不同的。
那么,這兩類的數(shù)據(jù)平臺(tái)的建設(shè)、使用用戶又有變化?數(shù)據(jù)模型設(shè)計(jì)又有什么不同呢?
我們先從兩張圖來(lái)看用戶群體的區(qū)別。
用戶群體之非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)用戶
企業(yè)的boss、運(yùn)營(yíng)的需求主要是依賴于報(bào)表、商業(yè)智能團(tuán)隊(duì)的數(shù)據(jù)分析師去各種分析與挖掘探索;
支撐這些人是ETL開發(fā)工程師、數(shù)據(jù)模型建模、數(shù)據(jù)架構(gòu)師、報(bào)表設(shè)計(jì)人員 ,同時(shí)這些角色又是數(shù)據(jù)平臺(tái)數(shù)據(jù)建設(shè)與使用方。
數(shù)據(jù)平臺(tái)的技術(shù)框架與工具實(shí)現(xiàn)主要有技術(shù)架構(gòu)師、JAVA 開發(fā)等。
用戶面對(duì)是結(jié)構(gòu)化生產(chǎn)系統(tǒng)數(shù)據(jù)源。
用戶群體之互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)用戶
互聯(lián)網(wǎng)企業(yè)中員工年齡比非互聯(lián)網(wǎng)企業(yè)的要年輕、受教育程度、對(duì)計(jì)算機(jī)的焦慮程度明顯比傳統(tǒng)企業(yè)要低、還偶遇其它各方面的緣故,導(dǎo)致了數(shù)據(jù)平臺(tái)所面對(duì)用戶群體與非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)有所差異化;
互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)的使用與建設(shè)方是來(lái)自各方面的人,數(shù)據(jù)平臺(tái)又是技術(shù)、數(shù)據(jù)產(chǎn)品推進(jìn)建設(shè)的。
分析師參與數(shù)據(jù)平臺(tái)直接建設(shè)比重增加。
原有的數(shù)據(jù)倉(cāng)庫(kù)開發(fā)與模型架構(gòu)師的職能也從建設(shè)平臺(tái)轉(zhuǎn)為服務(wù)與咨詢.
用戶面對(duì)是數(shù)據(jù)源多樣化,比如日志、生產(chǎn)數(shù)據(jù)庫(kù)的數(shù)據(jù)、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù) 。
從這用戶群體角度來(lái)說(shuō)這非互聯(lián)網(wǎng)、互聯(lián)網(wǎng)的數(shù)據(jù)平臺(tái)用戶差異性是非常明顯,互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)中很多理論與名詞都是從傳統(tǒng)數(shù)據(jù)平臺(tái)傳遞過(guò)來(lái)的,本文將會(huì)分別闡述非互聯(lián)網(wǎng)、互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)區(qū)別。
非互聯(lián)網(wǎng)時(shí)代
自從數(shù)據(jù)倉(cāng)庫(kù)發(fā)展起來(lái)到現(xiàn)在,基本上可以分為五個(gè)時(shí)代、四種架構(gòu)
約在1991年前的全企業(yè)集成
1991年后的企業(yè)數(shù)據(jù)集成EDW時(shí)代
1994年-1996年的數(shù)據(jù)集市
1996-1997年左右的兩個(gè)架構(gòu)吵架
1998年-2001年左右的合并年代
數(shù)據(jù)倉(cāng)庫(kù)第一代架構(gòu)
(開發(fā)時(shí)間2001-2002年)
海爾集團(tuán)的一個(gè)BI項(xiàng)目,架構(gòu)的ETL 使用的是 微軟的數(shù)據(jù)抽取加工工具 DTS,老人使用過(guò)微軟的DTS 知道有哪些弊端,后便給出了幾個(gè)DTS的截圖。
功能:進(jìn)銷存分析、閉環(huán)控制分析、工貿(mào)分析等
硬件環(huán)境:
業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù):DB2 for Windows,SQL SERVER2000,ORACLE8I
中央數(shù)據(jù)庫(kù)服務(wù)器:4*EXON,2G,4*80GSCSI
OLAP 服務(wù)器:2*PIV1GHZ,2G,2*40GSCSI
開發(fā)環(huán)境:VISUAL BASIC,ASP,SQL SERVER 2000
數(shù)據(jù)倉(cāng)庫(kù)第二代架構(gòu)
這是上海通用汽車的一個(gè)數(shù)據(jù)平臺(tái),別看復(fù)雜,嚴(yán)格意義上來(lái)講這是一套EDW的架構(gòu)、在EDS數(shù)據(jù)倉(cāng)庫(kù)中采用的是準(zhǔn)三范式的建模方式去構(gòu)建的、大約涉及到十幾種數(shù)據(jù)源,建模中按照某一條主線把數(shù)據(jù)都集成起來(lái)。
這個(gè)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)計(jì)劃三年的時(shí)間構(gòu)建完畢,第一階段計(jì)劃構(gòu)建統(tǒng)統(tǒng)一生性周期視圖、客戶統(tǒng)一視圖的數(shù)據(jù),完成對(duì)數(shù)據(jù)質(zhì)量的摸底與部分實(shí)施為業(yè)務(wù)分析與信息共享提供基礎(chǔ)平臺(tái)。第二階段是完成主要業(yè)務(wù)數(shù)據(jù)集成與視圖統(tǒng)一,初步實(shí)現(xiàn)企業(yè)績(jī)效管理。第三階段全面完善企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)核心業(yè)務(wù)的數(shù)據(jù)統(tǒng)一。
數(shù)據(jù)集市架構(gòu)
這個(gè)是國(guó)內(nèi)某銀行的一套數(shù)據(jù)集市,這是一個(gè)典型數(shù)據(jù)集市的架構(gòu)模式、面向客戶經(jīng)理部門的考慮分析。
數(shù)據(jù)倉(cāng)庫(kù)混合性架構(gòu)(Cif)
這是太平洋保險(xiǎn)的數(shù)據(jù)平臺(tái),目前為止我認(rèn)識(shí)的很多人都在該項(xiàng)目中呆過(guò),當(dāng)然是保險(xiǎn)類的項(xiàng)目。
回過(guò)頭來(lái)看該平臺(tái)架構(gòu)顯然是一個(gè)混合型的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。它有混合數(shù)據(jù)倉(cāng)庫(kù)的經(jīng)典結(jié)構(gòu),每一個(gè)層次功能定義的非常明確。
新一代架構(gòu)OPDM 操作型數(shù)據(jù)集市(倉(cāng)庫(kù))
OPDM大約是在2011年提出來(lái)的,嚴(yán)格上來(lái)說(shuō),OPDM 操作型數(shù)據(jù)集市(倉(cāng)庫(kù))是實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)的一種,他更多的是面向操作型數(shù)據(jù)而非歷史數(shù)據(jù)查詢與分析。
數(shù)據(jù)模型
”數(shù)據(jù)模型“ 這個(gè)詞只要是跟數(shù)據(jù)沾邊就會(huì)出現(xiàn)的一個(gè)詞。
在構(gòu)建過(guò)程中,有一個(gè)角色理解業(yè)務(wù)并探索分散在各系統(tǒng)間的數(shù)據(jù),并通過(guò)某條業(yè)務(wù)主線把這些分散在各角落的數(shù)據(jù)串聯(lián)并存儲(chǔ)同時(shí)讓業(yè)務(wù)使用,在設(shè)計(jì)時(shí)苦逼的地方除了考慮業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu)要素外,還得考慮可操作性、約束性(備注 約束性是完成數(shù)據(jù)質(zhì)量提升的一個(gè)關(guān)鍵要素,未來(lái)新話題主題會(huì)討論這些),這個(gè)既要顧業(yè)務(wù)、數(shù)據(jù)源、合理的整合的角色是數(shù)據(jù)模型設(shè)計(jì)師,又叫數(shù)據(jù)模型師。
平臺(tái)中模型設(shè)計(jì)所關(guān)注的是企業(yè)分散在各角落數(shù)據(jù)、未知的商業(yè)模式與未知的分析報(bào)表,通過(guò)模型的步驟,理解業(yè)務(wù)并結(jié)合數(shù)據(jù)整合分析,建立數(shù)據(jù)模型為Data cleaning 指定清洗規(guī)則、為源數(shù)據(jù)與目標(biāo)提供ETL mapping (備注:ETL 代指數(shù)據(jù)從不同源到數(shù)據(jù)平臺(tái)的整個(gè)過(guò)程,ETL Mapping 可理解為 數(shù)據(jù)加工算法,給數(shù)碼看的,互聯(lián)網(wǎng)與非互聯(lián)網(wǎng)此處差異性也較為明顯,非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)對(duì)ETL定義與架構(gòu)較為復(fù)雜)支持、 理清數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。
(備注:Data cleaning 是指的數(shù)據(jù)清洗 數(shù)據(jù)質(zhì)量相關(guān)不管是在哪個(gè)行業(yè),是最令人頭痛的問題,分業(yè)務(wù)域、技術(shù)域的數(shù)據(jù)質(zhì)量問題,需要通過(guò)事前盤點(diǎn)、事中監(jiān)控、事后調(diào)養(yǎng),有機(jī)會(huì)在闡述)。
大家來(lái)看一張較為嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)模型關(guān)系圖:
數(shù)據(jù)模型是整個(gè)數(shù)據(jù)平臺(tái)的數(shù)據(jù)建設(shè)過(guò)程的導(dǎo)航圖。
有利于數(shù)據(jù)的整合。數(shù)據(jù)模型是整合各種數(shù)據(jù)源指導(dǎo)圖,對(duì)現(xiàn)有業(yè)務(wù)與數(shù)據(jù)從邏輯層角度進(jìn)行了全面描述,通過(guò)數(shù)據(jù)模型,可以建立業(yè)務(wù)系統(tǒng)與數(shù)據(jù)之間的映射與轉(zhuǎn)換關(guān)系。排除數(shù)據(jù)描述的不一致性。如:同名異義、同物異名..。
減少多余冗余數(shù)據(jù),因?yàn)榱私鈹?shù)據(jù)之間的關(guān)系,以及數(shù)據(jù)的作用。在數(shù)據(jù)平臺(tái)中根據(jù)需求采集那些用于分析的數(shù)據(jù),而不需要那些純粹用于操作的數(shù)據(jù)。
數(shù)據(jù)模型在數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)中是一個(gè)統(tǒng)稱,嚴(yán)格上來(lái)講分為概念模型、邏輯模型、物理模型。(備注:四類模型如何去詳細(xì)構(gòu)建文本不深講,關(guān)于非互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)模型網(wǎng)上非常多)
Bill Inmon對(duì)EDW 的定義是面向事物處理、面向數(shù)據(jù)管理,從數(shù)據(jù)的特征上需要堅(jiān)持維護(hù)最細(xì)粒度的數(shù)據(jù)、維護(hù)最微觀層次的數(shù)據(jù)關(guān)系、保存數(shù)據(jù)歷史。所以在構(gòu)建完畢的數(shù)據(jù)平臺(tái)中可以從中映射并檢查業(yè)務(wù)信息的完整性(同時(shí)也是養(yǎng)數(shù)據(jù)過(guò)程中的重要反饋點(diǎn)),這種方式還可以找出多個(gè)系統(tǒng)相關(guān)和重合的信息,減少多個(gè)系統(tǒng)之間數(shù)據(jù)的重復(fù)定義和不一致性,減小了應(yīng)用集成的難度。
Ralph kilmball 對(duì)DM(備注:數(shù)據(jù)集市,非挖掘模型)的定義是面向分析過(guò)程的(Analytical Process oriented),因?yàn)檫@個(gè)模型對(duì)業(yè)務(wù)用戶非常容易理解,同時(shí)為了查詢也是做了專門的性能優(yōu)化。所以星型、雪花模型很直觀比較高性能為用戶提供查詢分析。
該方式的建模首先確定用戶需求問題與業(yè)務(wù)需求數(shù)據(jù)粒度,構(gòu)建分析所需要的維度、與度量值形成星型模型;(備注 涉及的復(fù)雜維度、退化維度等不在這個(gè)討論范圍)。
數(shù)據(jù)模型的業(yè)務(wù)建模階段、領(lǐng)域概念模型階段、邏輯模型階段、物理模型階段是超級(jí)學(xué)術(shù)與復(fù)雜的話題,而且在模型領(lǐng)域根據(jù)特點(diǎn)又分主數(shù)據(jù)(MDM)、CIF(企業(yè)級(jí)統(tǒng)一視圖) 、通用模型(IBM 的金融、保險(xiǎn)行業(yè)通用模型、 Terdata的 金融通用模型、 電信移動(dòng)通用模型等),鎖涉及到術(shù)語(yǔ)”擴(kuò)展“、”扁平化“、”裁剪“等眼花繚亂的建模手法,數(shù)據(jù)模型不同層次ODS、DWD
DWD、DW、ST的分層目的不同導(dǎo)致模型設(shè)計(jì)方法又不同。相信業(yè)界有很多大牛能講的清楚的,以后有機(jī)會(huì)再交流。
互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)源
做數(shù)據(jù)的人,從非互聯(lián)網(wǎng)進(jìn)入到互聯(lián)網(wǎng)最顯著的特點(diǎn)是面對(duì)的數(shù)據(jù)源類型忽然多了起來(lái),在傳統(tǒng)企業(yè)數(shù)據(jù)人員面對(duì)的是結(jié)構(gòu)化存儲(chǔ)數(shù)據(jù),基本來(lái)自excel、表格、DB系統(tǒng)等,在數(shù)據(jù)的處理技術(shù)上與架構(gòu)上是非常容易總結(jié)的,但是在互聯(lián)網(wǎng)因?yàn)闃I(yè)務(wù)獨(dú)特性導(dǎo)致了所接觸到的數(shù)據(jù)源特性多樣化,網(wǎng)站點(diǎn)擊日志、視頻、音頻、圖片數(shù)據(jù)等很多非結(jié)構(gòu)化快速產(chǎn)生與保存,在這樣的數(shù)據(jù)源的多樣化與容量下采用傳統(tǒng)數(shù)據(jù)平臺(tái)技術(shù)來(lái)處理當(dāng)然是有些力不從心了
(備注:IBM的科學(xué)家分析員道格.萊尼的一份數(shù)據(jù)增長(zhǎng)報(bào)告基礎(chǔ)上提出了大數(shù)據(jù)的4V特性 大數(shù)據(jù)4v特性網(wǎng)上概念很多大家可以問度娘)。
我在這里整理一個(gè)表格不同時(shí)代數(shù)據(jù)源的差異性(備注可能整理的有點(diǎn)不全):
數(shù)據(jù)平臺(tái)的用戶:
總結(jié)下來(lái)互聯(lián)網(wǎng)的數(shù)據(jù)平臺(tái)“服務(wù)”方式迭代演進(jìn)大約可以分為三個(gè)階段。
階段一 :
約在2008年-2011年初的互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái),那時(shí)建設(shè)與使用上與非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)有這蠻大的相似性,主要相似點(diǎn)在數(shù)據(jù)平臺(tái)的建設(shè)角色、與使用到的技術(shù)上。
老板們、運(yùn)營(yíng)的需求主要是依賴于報(bào)表、分析報(bào)告、臨時(shí)需求、商業(yè)智能團(tuán)隊(duì)的數(shù)據(jù)分析師去各種分析、臨時(shí)需求、挖掘,這些角色是數(shù)據(jù)平臺(tái)的適用方。
ETL開發(fā)工程師、數(shù)據(jù)模型建模、數(shù)據(jù)架構(gòu)師、報(bào)表設(shè)計(jì)人員 ,同時(shí)這些角色又是數(shù)據(jù)平臺(tái)數(shù)據(jù)建設(shè)與使用方。
數(shù)據(jù)平臺(tái)的技術(shù)框架與工具實(shí)現(xiàn)主要有技術(shù)架構(gòu)師、JAVA開發(fā)等。
用戶面對(duì)是結(jié)構(gòu)化的生產(chǎn)數(shù)據(jù)、PC端非結(jié)構(gòu)化log等 數(shù)據(jù)。
ELT的數(shù)據(jù)處理方式(備注在數(shù)據(jù)處理的方式上,由傳統(tǒng)企業(yè)的ETL 基本進(jìn)化為ELT)。
現(xiàn)在的淘寶是從2004年開始構(gòu)建自己的數(shù)據(jù)倉(cāng)庫(kù),2004年是采用DELL 的6650單節(jié)點(diǎn)、到2005年更換為 IBM 的P550 再到2008年的12節(jié)點(diǎn) Rac 環(huán)境。在這段時(shí)間的在IBM、EMC、Oracle 身上的投入巨大(備注:對(duì)這段歷史有興趣可以去度娘 :“【深度】解密阿里巴巴的技術(shù)發(fā)展路徑“),同時(shí)淘寶的數(shù)據(jù)集群也變?yōu)閲?guó)內(nèi)最大的數(shù)據(jù)倉(cāng)庫(kù)集群。
隨著2010年引入了hadoop&hive平臺(tái)進(jìn)行新一代的數(shù)據(jù)平臺(tái)的構(gòu)建,此時(shí)的Greenplum 因?yàn)閮?yōu)秀的IO吞吐量以及有限的任務(wù)并發(fā)安排到了網(wǎng)站日志的處理以及給分析師提供的數(shù)據(jù)分析服務(wù)。
該階段的數(shù)據(jù)模型是根據(jù)業(yè)務(wù)的特性采用退化、扁平化的模型設(shè)計(jì)方式去構(gòu)建的。
階段二:
互聯(lián)網(wǎng)的數(shù)據(jù)平臺(tái)除了受到技術(shù)、數(shù)據(jù)量的驅(qū)動(dòng)外,同時(shí)還來(lái)自數(shù)據(jù)產(chǎn)品經(jīng)理梳理用戶的需求按照產(chǎn)品的思維去構(gòu)建并部署在了數(shù)據(jù)的平臺(tái)上。互聯(lián)網(wǎng)是一個(gè)擅長(zhǎng)制造流程新概念的行業(yè)。
約在2011年到2014 年左右,隨著數(shù)據(jù)平臺(tái)的建設(shè)逐漸的進(jìn)入快速迭代期,數(shù)據(jù)產(chǎn)品、數(shù)據(jù)產(chǎn)品經(jīng)理這兩個(gè)詞逐漸的升溫以及被廣泛得到認(rèn)可(備注:數(shù)據(jù)產(chǎn)品相關(guān)內(nèi)容個(gè)人會(huì)在數(shù)據(jù)產(chǎn)品系列中做深入分享),同時(shí)數(shù)據(jù)產(chǎn)品也隨著需求、平臺(tái)特性分為面向用戶級(jí)數(shù)據(jù)產(chǎn)品、面向平臺(tái)工具型產(chǎn)品兩個(gè)維度分別去建設(shè)數(shù)據(jù)平臺(tái)。
企業(yè)各個(gè)主要角色都是數(shù)據(jù)平臺(tái)用戶。
各類數(shù)據(jù)產(chǎn)品經(jīng)理(偏業(yè)務(wù)數(shù)據(jù)產(chǎn)品、偏工具平臺(tái)數(shù)據(jù)產(chǎn)品)推進(jìn)數(shù)據(jù)平臺(tái)的建設(shè)。
分析師參與數(shù)據(jù)平臺(tái)直接建設(shè)比重增加。
數(shù)據(jù)開發(fā)、數(shù)據(jù)模型角色都是數(shù)據(jù)平臺(tái)的建設(shè)者與使用者(備注:相對(duì)與傳統(tǒng)數(shù)據(jù)平臺(tái)的數(shù)據(jù)開發(fā)來(lái)說(shuō),逐漸忽略了數(shù)據(jù)質(zhì)量的關(guān)注度,數(shù)據(jù)模型設(shè)計(jì)角色逐漸被弱化)。
用戶面對(duì)是數(shù)據(jù)源多樣化,比如日志、生產(chǎn)數(shù)據(jù)庫(kù)的數(shù)據(jù)、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù) 。
原有ETL中部分?jǐn)?shù)據(jù)轉(zhuǎn)換功能逐漸前置化,放到業(yè)務(wù)系統(tǒng)端進(jìn)行(備注:部分原有在ETL階段需要數(shù)據(jù)標(biāo)準(zhǔn)化一些過(guò)程前置在業(yè)務(wù)系統(tǒng)數(shù)據(jù)產(chǎn)生階段進(jìn)行,比如Log 日志。 移動(dòng)互聯(lián)網(wǎng)的日志標(biāo)準(zhǔn)化。
互聯(lián)網(wǎng)企業(yè)隨著數(shù)據(jù)更加逐漸被重視,分析師、數(shù)據(jù)開發(fā)在面對(duì)大量的數(shù)據(jù)需求、海量的臨時(shí)需求疲憊不堪,變成了資源的瓶頸,在當(dāng)時(shí)的狀態(tài)傳統(tǒng)的各類的Report、Olap 工具都無(wú)法滿足互聯(lián)網(wǎng)行業(yè)個(gè)性化的數(shù)據(jù)需求。開始考慮把需求固定化變?yōu)橐粋€(gè)面向最終用戶自助式、半自助的產(chǎn)品來(lái)滿足快速獲取數(shù)據(jù)&分析的結(jié)果,當(dāng)總結(jié)出的指標(biāo)、分析方法(模型)、使用流程與工具有機(jī)的結(jié)合在一起時(shí)數(shù)據(jù)產(chǎn)品就誕生了(備注:當(dāng)時(shí)為了設(shè)計(jì)一個(gè)數(shù)據(jù)產(chǎn)品曾經(jīng)閱讀了某個(gè)部門的2000多個(gè)臨時(shí)需求與相關(guān)SQL)。
數(shù)據(jù)產(chǎn)品按照面向的功能與業(yè)務(wù)可以劃分為面向平臺(tái)級(jí)別的工具型產(chǎn)品、面向用戶端的業(yè)務(wù)級(jí)數(shù)據(jù)產(chǎn)品。按照用戶分類可以分為面向內(nèi)部用戶數(shù)據(jù)產(chǎn)品,面向外部用戶個(gè)人數(shù)據(jù)產(chǎn)品、商戶(企業(yè))數(shù)據(jù)產(chǎn)品。
面向平臺(tái)級(jí)別有數(shù)據(jù)質(zhì)量、元數(shù)據(jù)、調(diào)度、資管配置、數(shù)據(jù)同步分發(fā)等等。
約2010-2012年的平臺(tái)結(jié)構(gòu)
約2012-2013年的平臺(tái)結(jié)構(gòu)
階段三:
用數(shù)據(jù)的一些角色(分析師、運(yùn)營(yíng)或產(chǎn)品)會(huì)自己參與到從數(shù)據(jù)整理、加工、分析階段。當(dāng)數(shù)據(jù)平臺(tái)變?yōu)樽杂扇_放,使用數(shù)據(jù)的人也參與到數(shù)據(jù)的體系建設(shè)時(shí),基本會(huì)因?yàn)椴粚I(yè)型,導(dǎo)致數(shù)據(jù)質(zhì)量問題、重復(fù)對(duì)分?jǐn)?shù)據(jù)浪費(fèi)存儲(chǔ)與資源、口徑多樣化等等原因。此時(shí)原有建設(shè)數(shù)據(jù)平臺(tái)的多個(gè)角色可能轉(zhuǎn)為對(duì)其它非專業(yè)做數(shù)據(jù)人員的培訓(xùn)、咨詢與落地寫更加適合當(dāng)前企業(yè)數(shù)據(jù)應(yīng)用的一些方案等。
給用戶提供的各類豐富的分析、取數(shù)的產(chǎn)品,簡(jiǎn)單上手的可以使用。
原有ETL、數(shù)據(jù)模型角色轉(zhuǎn)為給用戶提供平臺(tái)、產(chǎn)品、數(shù)據(jù)培訓(xùn)與使用咨詢。
數(shù)據(jù)分析師直接參與到數(shù)據(jù)平臺(tái)過(guò)程、數(shù)據(jù)產(chǎn)品的建設(shè)中去。
用戶面對(duì)是數(shù)據(jù)源多樣化,比如日志、生產(chǎn)數(shù)據(jù)庫(kù)的數(shù)據(jù)、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù) 。
在互聯(lián)網(wǎng)這個(gè)大數(shù)據(jù)浪潮下,2016年以后數(shù)據(jù)平臺(tái)是如何去建設(shè)?如何服務(wù)業(yè)務(wù)?
企業(yè)的不同發(fā)展階段數(shù)據(jù)平臺(tái)該如何去建設(shè)的?這個(gè)大家是可以思考的。但是我相信互聯(lián)網(wǎng)企業(yè)是非常務(wù)實(shí)的,基本不會(huì)采用傳統(tǒng)企業(yè)的自上而下的建設(shè)方式,互聯(lián)網(wǎng)企業(yè)的業(yè)務(wù)快速變與迭代要求快速分析到數(shù)據(jù),必須新業(yè)務(wù)數(shù)據(jù)迭代,老業(yè)務(wù)數(shù)據(jù)快速去雜。敏捷數(shù)據(jù)平臺(tái)或許是種不錯(cuò)的選擇方法之一吧!
松子(李博源)
▼
松子(李博源)
自由撰稿人,數(shù)據(jù)產(chǎn)品&數(shù)據(jù)分析總監(jiān)。
曾就職支付寶、去哪兒網(wǎng)等。
2000年開始從事數(shù)據(jù)領(lǐng)域,從業(yè)傳統(tǒng)制造業(yè)、銀行、保險(xiǎn)、第三方支付&互聯(lián)網(wǎng)金融、在線旅行、移動(dòng)互聯(lián)網(wǎng)行業(yè) 。
其代表作為“黃金策”等多款數(shù)據(jù)產(chǎn)品,在傳統(tǒng)行業(yè)基本以BI數(shù)據(jù)項(xiàng)目為主。
個(gè)人主要沉淀在大數(shù)據(jù)分析、大數(shù)據(jù)產(chǎn)品方面。在用戶行為、商戶支撐數(shù)據(jù)、生命周期、金融風(fēng)險(xiǎn)與信用評(píng)分、外部開放數(shù)據(jù)平臺(tái)有實(shí)踐經(jīng)驗(yàn)。
▌專題:
點(diǎn)擊藍(lán)色字標(biāo)題即可閱讀全文
院士:李國(guó)杰【(
PPT)(
全文)】【
數(shù)據(jù)開放】,
鄔賀銓,倪光南【大數(shù)據(jù)時(shí)代(
上)(
下)】,
懷進(jìn)鵬;
大數(shù)據(jù)100分:【
金融】【
制造】【
餐飲】【
電信】【
電商】【更多行業(yè)大數(shù)據(jù)應(yīng)用請(qǐng)點(diǎn)擊底部導(dǎo)航欄BD100分】;
征信:【
ZestFinance】【
BCG】【
芝麻信用】;
工業(yè)4.0:【
羅蘭·貝格】【
安筱鵬】;
可視化:【
2014年最佳】【
十大標(biāo)志性作品】【
43款工具】
專欄:【
車品覺】【
張溪夢(mèng)】【
董飛】【
鮑忠鐵】【
侯宏】【
傅志華】;
PPT:【
大數(shù)據(jù)產(chǎn)業(yè)地圖】【
數(shù)據(jù)之巔】【
互聯(lián)網(wǎng)的未來(lái)】【
軟件正吃掉整個(gè)世界】【
互聯(lián)網(wǎng)思維】【
互聯(lián)網(wǎng) 】【
一帶一路】;
Startup:【
palantir】【
Tableau】【
中國(guó)大數(shù)據(jù)200 】【
中國(guó)互聯(lián)網(wǎng)300強(qiáng)】【
Airbnb】;
VC:【
2014投資報(bào)告】【
2015創(chuàng)投趨勢(shì)】;
政策:【
國(guó)家戰(zhàn)略】【
政策比較】;
數(shù)據(jù)開放:【
美歐澳數(shù)據(jù)開放政策】【
開放政策與立法】;
隱私保護(hù):【
美歐日隱私政策】【
被遺忘權(quán)】;
原創(chuàng):【
軟件定義世界,數(shù)據(jù)驅(qū)動(dòng)未來(lái)】【
互聯(lián)網(wǎng) 觀點(diǎn)】。