企業(yè)數(shù)據(jù)分析系統(tǒng)的數(shù)據(jù)來(lái)源是各個(gè)業(yè)務(wù)系統(tǒng)或手工數(shù)據(jù),這些數(shù)據(jù)的格式、內(nèi)容等都有可能不同。如果不進(jìn)行數(shù)據(jù)治理,數(shù)據(jù)的價(jià)值難以發(fā)揮。只有對(duì)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行規(guī)范,管理元數(shù)據(jù)、數(shù)據(jù)監(jiān)控等,才能得到高質(zhì)量的數(shù)據(jù)。得到規(guī)范的數(shù)據(jù)后,才可在此基礎(chǔ)上進(jìn)行主題化的數(shù)據(jù)建模、數(shù)據(jù)挖掘、數(shù)據(jù)分析等。
2013年被眾多的IT人定義為中國(guó)的大數(shù)據(jù)元年,這一年國(guó)內(nèi)的大數(shù)據(jù)項(xiàng)目開(kāi)始在交通、電信、金融部門(mén)被廣泛推動(dòng)。各大銀行對(duì)Hadoop的規(guī)劃、POC尤其風(fēng)生水起,帶動(dòng)了一波大數(shù)據(jù)應(yīng)用的熱潮,這個(gè)熱潮和當(dāng)初數(shù)據(jù)倉(cāng)庫(kù)進(jìn)入中國(guó)時(shí)的2000年左右很相似:應(yīng)用還沒(méi)有想好,先歸集一下數(shù)據(jù),提供一些查詢(xún)和報(bào)表,以技術(shù)建設(shè)為主,業(yè)務(wù)推動(dòng)為輔。這就導(dǎo)致了這股Hadoop熱潮起來(lái)的時(shí)候,傳統(tǒng)企業(yè)都是以數(shù)據(jù)歸集為主的,而B(niǎo)AT這樣的企業(yè)則天生以數(shù)據(jù)為生,早早進(jìn)入了數(shù)據(jù)驅(qū)動(dòng)技術(shù)和業(yè)務(wù)創(chuàng)新的階段。
隨著Hadoop技術(shù)的提升,數(shù)據(jù)如何進(jìn)來(lái),如何整合,開(kāi)展什么樣的應(yīng)用都已經(jīng)有了成熟的案例,可是,同傳統(tǒng)數(shù)倉(cāng)時(shí)代一樣,垃圾進(jìn)垃圾出,如何破?相比傳統(tǒng)數(shù)倉(cāng)時(shí)代,進(jìn)入Hadoop集群的數(shù)據(jù)更加的多樣、更加的復(fù)雜、量更足,這個(gè)數(shù)倉(cāng)時(shí)代都沒(méi)有處理好的事情,如何能夠在大數(shù)據(jù)時(shí)代處理好,這是所有大數(shù)據(jù)應(yīng)用者最最期盼的改變,也是大數(shù)據(jù)平臺(tái)建設(shè)者最有挑戰(zhàn)的難題:數(shù)據(jù)治理難的不是技術(shù),而是流程,是協(xié)同,是管理。
睿治數(shù)據(jù)治理平臺(tái)平臺(tái)架構(gòu)
元數(shù)據(jù):采集匯總企業(yè)系統(tǒng)數(shù)據(jù)屬性的信息,幫助各行各業(yè)用戶(hù)獲得更好的數(shù)據(jù)洞察力,通過(guò)元數(shù)據(jù)之間的關(guān)系和影響挖掘隱藏在資源中的價(jià)值。
數(shù)據(jù)標(biāo)準(zhǔn):對(duì)分散在各系統(tǒng)中的數(shù)據(jù)提供一套統(tǒng)一的數(shù)據(jù)命名、數(shù)據(jù)定義、數(shù)據(jù)類(lèi)型、賦值規(guī)則等的定義基準(zhǔn),并通過(guò)標(biāo)準(zhǔn)評(píng)估確保數(shù)據(jù)在復(fù)雜數(shù)據(jù)環(huán)境中維持企業(yè)數(shù)據(jù)模型的一致性、規(guī)范性,從源頭確保數(shù)據(jù)的正確性及質(zhì)量,并可以提升開(kāi)發(fā)和數(shù)據(jù)管理的一貫性和效率性。
數(shù)據(jù)質(zhì)量:有效識(shí)別各類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題,建立數(shù)據(jù)監(jiān)管,形成數(shù)據(jù)質(zhì)量管理體系,監(jiān)控并揭示數(shù)據(jù)質(zhì)量問(wèn)題,提供問(wèn)題明細(xì)查詢(xún)和質(zhì)量改進(jìn)建議,全面提升數(shù)據(jù)的完整性、準(zhǔn)確性、及時(shí)性,一致性以及合法性,降低數(shù)據(jù)管理成本,減少因數(shù)據(jù)不可靠導(dǎo)致的決策偏差和損失。
數(shù)據(jù)集成:可對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、整合、模型管理等處理工作。既可以用于問(wèn)題數(shù)據(jù)的修正,也可以用于為數(shù)據(jù)應(yīng)用提供可靠的數(shù)據(jù)模型。
主數(shù)據(jù):幫助企業(yè)創(chuàng)建并維護(hù)內(nèi)部共享數(shù)據(jù)的單一視圖,從而提高數(shù)據(jù)質(zhì)量,統(tǒng)一商業(yè)實(shí)體定義,簡(jiǎn)化改進(jìn)商業(yè)流程并提高業(yè)務(wù)的響應(yīng)速度。
數(shù)據(jù)資產(chǎn):匯集企業(yè)所有能夠產(chǎn)生價(jià)值的數(shù)據(jù)資源,為用戶(hù)提供資產(chǎn)視圖,快速了解企業(yè)資產(chǎn),發(fā)現(xiàn)不良資產(chǎn),為管理員提供決策依據(jù),提升數(shù)據(jù)資產(chǎn)的價(jià)值。
數(shù)據(jù)交換:用于實(shí)現(xiàn)不同機(jī)構(gòu)不同系統(tǒng)之間進(jìn)行數(shù)據(jù)或者文件的傳輸和共享,提高信息資源的利用率,保證了分布在異構(gòu)系統(tǒng)之間的信息的互聯(lián)互通,完成數(shù)據(jù)的收集、集中、處理、分發(fā)、加載、傳輸,構(gòu)造統(tǒng)一的數(shù)據(jù)及文件的傳輸交換。
生命周期:管理數(shù)據(jù)生老病死,建立數(shù)據(jù)自動(dòng)歸檔和銷(xiāo)毀,全面監(jiān)控展現(xiàn)數(shù)據(jù)的生命過(guò)程。
數(shù)據(jù)安全:提供數(shù)據(jù)加密、脫敏、模糊化處理、賬號(hào)監(jiān)控等各種數(shù)據(jù)安全策略,確保數(shù)據(jù)在使用過(guò)程中有恰當(dāng)?shù)恼J(rèn)證、授權(quán)、訪(fǎng)問(wèn)和審計(jì)等措施。
建立完整的、科學(xué)的、安全的、高質(zhì)量的數(shù)據(jù)管控技術(shù)體系,是首要的任務(wù)。作為數(shù)據(jù)管控的基石,為了更好支撐后續(xù)工作的開(kāi)展,技術(shù)體系必須一步到位,是功能完備、高質(zhì)量、高擴(kuò)展性的,而不是僅實(shí)現(xiàn)部分功能,或者功能不完善的“半成品”。
疊加更多業(yè)務(wù)數(shù)據(jù)、細(xì)化數(shù)據(jù)業(yè)務(wù)屬性與管理屬性、優(yōu)化與調(diào)整數(shù)據(jù)管控流程,尤其是適應(yīng)未來(lái)的現(xiàn)代企業(yè)數(shù)據(jù)管控制度的建立完善,是逐步積累推廣、不斷磨合改進(jìn)的長(zhǎng)期過(guò)程。這些工作應(yīng)及早啟動(dòng),并成為后續(xù)大數(shù)據(jù)平臺(tái)建設(shè)工作的重點(diǎn)。
談大數(shù)據(jù)時(shí)代的數(shù)據(jù)治理
當(dāng)前要做的是功能框架的完善,而完善的著力點(diǎn)則是“數(shù)據(jù)資產(chǎn)目錄”:用資產(chǎn)化的視角來(lái)管理一個(gè)企業(yè)的數(shù)據(jù),只有把數(shù)據(jù)作為資產(chǎn)來(lái)認(rèn)識(shí)和管理,大數(shù)據(jù)項(xiàng)目才能達(dá)成預(yù)期,也能夠治理好。大數(shù)據(jù)時(shí)代帶來(lái)的價(jià)值,個(gè)人認(rèn)為主要有兩個(gè),一個(gè)是技術(shù)架構(gòu),主要是架構(gòu)理念的進(jìn)步,另外一個(gè)更重要的則是對(duì)數(shù)據(jù)的重視。大數(shù)據(jù)時(shí)代是數(shù)據(jù)的時(shí)代,IT向DT轉(zhuǎn)型,不單單是BAT,所有的IT公司,未來(lái)都在數(shù)據(jù)這兩個(gè)字上。
對(duì)于一個(gè)企業(yè)來(lái)說(shuō),把數(shù)據(jù)作為資產(chǎn),才是建設(shè)大數(shù)據(jù)的最終目的,而不是僅僅是因?yàn)镠adoop架構(gòu)帶來(lái)性?xún)r(jià)比和未來(lái)的擴(kuò)展性。當(dāng)一個(gè)企業(yè)把數(shù)據(jù)作為資產(chǎn),他就像管理自己名下存折、信用卡一樣,定期梳理,無(wú)時(shí)無(wú)刻不關(guān)心資產(chǎn)的變化情況,關(guān)注資產(chǎn)的質(zhì)量。
而資產(chǎn)目錄就是管理資產(chǎn)的形式和手段,他像菜單一樣對(duì)企業(yè)的資產(chǎn)進(jìn)行梳理、分門(mén)別類(lèi),提供給使用者;使用者通過(guò)菜單,點(diǎn)選自己需要的數(shù)據(jù),認(rèn)可菜單對(duì)應(yīng)的后端處理價(jià)值,后廚通過(guò)適當(dāng)?shù)募庸?,推出相?yīng)的數(shù)據(jù)服務(wù);這是一個(gè)標(biāo)準(zhǔn)的流程,而這些流程之上,附著一整套數(shù)據(jù)管理目標(biāo)和流程。
大數(shù)據(jù)平臺(tái)以數(shù)據(jù)資產(chǎn)目錄為核心,將元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)生命周期、數(shù)據(jù)輪廓等信息在邏輯層面關(guān)聯(lián)起來(lái),在管理層面上整合成統(tǒng)一的整體,構(gòu)建起數(shù)據(jù)管理體系,全面的支持?jǐn)?shù)據(jù)服務(wù)等具體應(yīng)用。
大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、清洗和應(yīng)用。在數(shù)據(jù)匯入和匯出的過(guò)程中,需要對(duì)數(shù)據(jù)的元數(shù)據(jù)進(jìn)行統(tǒng)一記錄和管理,以利于后續(xù)的數(shù)據(jù)應(yīng)用和數(shù)據(jù)血緣分析。數(shù)據(jù)質(zhì)量一直是數(shù)據(jù)集成系統(tǒng)的基礎(chǔ)工作,對(duì)數(shù)據(jù)的各個(gè)環(huán)節(jié)設(shè)置數(shù)據(jù)質(zhì)量檢查點(diǎn),對(duì)數(shù)據(jù)質(zhì)量進(jìn)行剖析、評(píng)估,以保證后續(xù)應(yīng)用的可信度。
在數(shù)據(jù)收集的過(guò)程中,隨著數(shù)據(jù)維度、指標(biāo)的聚集,如何找到所需的業(yè)務(wù)指標(biāo)及屬性,并且評(píng)估相關(guān)屬性的業(yè)務(wù)及技術(shù)細(xì)節(jié),需要對(duì)收集的所有數(shù)據(jù)進(jìn)行業(yè)務(wù)屬性,并進(jìn)行分類(lèi),建立完善的數(shù)據(jù)資產(chǎn)目錄。
數(shù)據(jù)資產(chǎn)目錄是整個(gè)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管理基礎(chǔ),而數(shù)據(jù)資產(chǎn)目錄由于數(shù)據(jù)的多樣性,在使用的過(guò)程中,必然涉及數(shù)據(jù)權(quán)限的申請(qǐng)、審批管控流程,而管控流程的建立依賴(lài)于相應(yīng)崗位的設(shè)立和對(duì)應(yīng)職責(zé)的建立。
大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管理架構(gòu)規(guī)劃,通過(guò)數(shù)據(jù)物理集中和數(shù)據(jù)邏輯整合,徹底擺脫企業(yè)“數(shù)據(jù)豎井”的困境。大數(shù)據(jù)平臺(tái)數(shù)據(jù)管理架構(gòu)分為功能架構(gòu)、流向規(guī)劃和數(shù)據(jù)架構(gòu)三個(gè)層面。
數(shù)據(jù)管理功能架構(gòu):借鑒DAMA數(shù)據(jù)管理和DMM數(shù)據(jù)成熟度理論,著眼于數(shù)據(jù)管理技術(shù)和數(shù)據(jù)管理流程融合,組織數(shù)據(jù)管理功能。
數(shù)據(jù)流向規(guī)劃架構(gòu):規(guī)劃整個(gè)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)流向,并在數(shù)據(jù)流入、數(shù)據(jù)整合、數(shù)據(jù)服務(wù)的具體環(huán)節(jié)實(shí)現(xiàn)精細(xì)化管理。
數(shù)據(jù)管理的數(shù)據(jù)架構(gòu):以數(shù)據(jù)資產(chǎn)目錄為核心,數(shù)據(jù)項(xiàng)為最小管理單元,將技術(shù)元數(shù)據(jù)(實(shí)體、屬性和關(guān)系)、業(yè)務(wù)元數(shù)據(jù)和管理元數(shù)據(jù)(數(shù)據(jù)標(biāo)準(zhǔn)、主數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全)融合為彼此緊密聯(lián)系、密不可分的整體,共同構(gòu)成精細(xì)化管理的數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)管理在整個(gè)大數(shù)據(jù)平臺(tái)不僅僅是一個(gè)主要功能模塊,它還是整個(gè)企業(yè)層面數(shù)據(jù)治理的重要組成部分,它是技術(shù)和管理流程的融合,也需要合理管控流程框架下組織機(jī)構(gòu)之前的協(xié)調(diào)合作。如何利用統(tǒng)一的數(shù)據(jù)管理模塊對(duì)企業(yè)所有進(jìn)入到數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行有效管控,不單單取決于數(shù)據(jù)管理模塊本身,也取決于元數(shù)據(jù)的合理采集、維護(hù),組織結(jié)構(gòu)及制度的強(qiáng)力支持保證。
談大數(shù)據(jù)時(shí)代的數(shù)據(jù)治理
大數(shù)據(jù)平臺(tái)數(shù)據(jù)管理參照了DAMA對(duì)于數(shù)據(jù)管理的九個(gè)管理目標(biāo),并進(jìn)行裁剪,并對(duì)部分管理目標(biāo)進(jìn)行了合并,并參照了CMMI制定DMM數(shù)據(jù)成熟度目標(biāo),采用循序漸進(jìn),逐步完善的策略對(duì)管理目標(biāo)進(jìn)行分階段完成,制定完整的管控流程和數(shù)據(jù)治理規(guī)范,以便持續(xù)的對(duì)數(shù)據(jù)進(jìn)行管理,遞進(jìn)實(shí)現(xiàn)DMM定義的成熟度目標(biāo)。
億信睿治數(shù)據(jù)治理管理平臺(tái)和DAMA的對(duì)應(yīng)關(guān)系如下:
談大數(shù)據(jù)時(shí)代的數(shù)據(jù)治理
大數(shù)據(jù)平臺(tái)數(shù)據(jù)管理的核心內(nèi)容是數(shù)據(jù)資產(chǎn)目錄,圍繞數(shù)據(jù)資產(chǎn)目錄的數(shù)據(jù)流入、數(shù)據(jù)整合、數(shù)據(jù)服務(wù)都是數(shù)據(jù)管理的核心。數(shù)據(jù)管理主要管理數(shù)據(jù)的流動(dòng),以及管理流動(dòng)帶來(lái)的數(shù)據(jù)變化,并對(duì)數(shù)據(jù)底層的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)定義、業(yè)務(wù)邏輯進(jìn)行采集和管理,以利于當(dāng)前和未來(lái)的數(shù)據(jù)使用。為了更好的對(duì)數(shù)據(jù)進(jìn)行管理和使用,制度層面的建設(shè)、流程的設(shè)立必不可少,同時(shí)也兼顧到數(shù)據(jù)在流動(dòng)過(guò)程中產(chǎn)生的安全風(fēng)險(xiǎn)和數(shù)據(jù)隱私風(fēng)險(xiǎn)。
因此數(shù)據(jù)管理介入到完整的數(shù)據(jù)流轉(zhuǎn),并在每個(gè)節(jié)點(diǎn)都有相應(yīng)的管理目標(biāo)對(duì)應(yīng),整個(gè)數(shù)據(jù)流框架如下圖所示:
談大數(shù)據(jù)時(shí)代的數(shù)據(jù)治理
企業(yè)在建制大數(shù)據(jù)平臺(tái)的同時(shí),對(duì)進(jìn)入數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行梳理,并按照數(shù)據(jù)資產(chǎn)目錄的形式對(duì)外發(fā)布。在發(fā)布數(shù)據(jù)資產(chǎn)之后,則對(duì)進(jìn)出數(shù)據(jù)湖的數(shù)據(jù)進(jìn)行嚴(yán)格的出入庫(kù)管理,保證數(shù)據(jù)可信度,并定期進(jìn)行數(shù)據(jù)質(zhì)量剖析檢查,確保數(shù)據(jù)資產(chǎn)完善、安全、可信,避免“不治理便破產(chǎn)”的讖言。
聯(lián)系客服