文 | 樂天
編輯 | 劉能 碳酸
本文約 3209 字,預(yù)計(jì)閱讀時(shí)間 9 分鐘
作者簡介:蔣珍波(樂天),6 年+ 大數(shù)據(jù)咨詢經(jīng)驗(yàn),擅長為客戶提供科學(xué)合理的大數(shù)據(jù)解決方案。目前擔(dān)任數(shù)瀾科技咨詢專家,負(fù)責(zé)數(shù)瀾大數(shù)據(jù)平臺(tái)售前咨詢。
本文主要講述數(shù)據(jù)治理中的重要工作:數(shù)據(jù)質(zhì)量管理,從以下幾個(gè)角度展開具體講解:
(1)數(shù)據(jù)質(zhì)量管理的目標(biāo)
(2)質(zhì)量問題產(chǎn)生的根源
(3)數(shù)據(jù)質(zhì)量的評(píng)估
(4)數(shù)據(jù)質(zhì)量管理的流程
(5)數(shù)據(jù)質(zhì)量管理的取舍
一、數(shù)據(jù)質(zhì)量管理的目標(biāo)
數(shù)據(jù)質(zhì)量管理主要解決「數(shù)據(jù)質(zhì)量現(xiàn)狀如何,誰來改進(jìn),如何提高,怎樣考核」的問題。
「不忘初心方得始終」,在最開始的關(guān)系型數(shù)據(jù)庫時(shí)代,做數(shù)據(jù)治理最主要的目的,就是為了提升數(shù)據(jù)質(zhì)量,讓報(bào)表、分析、應(yīng)用更加準(zhǔn)確。時(shí)至今日,雖然數(shù)據(jù)治理的范疇擴(kuò)大了很多,我們開始講數(shù)據(jù)資產(chǎn)管理、知識(shí)圖譜、自動(dòng)化的數(shù)據(jù)治理等等概念,但是提升數(shù)據(jù)的質(zhì)量,依然是數(shù)據(jù)治理最重要的目標(biāo)之一。
為什么數(shù)據(jù)質(zhì)量問題如此重要?
因?yàn)閿?shù)據(jù)如果要發(fā)揮其價(jià)值,關(guān)鍵在于其數(shù)據(jù)質(zhì)量的高低,高質(zhì)量的數(shù)據(jù)是一切數(shù)據(jù)應(yīng)用的基礎(chǔ)。假設(shè)一個(gè)組織根據(jù)劣質(zhì)的數(shù)據(jù)分析業(yè)務(wù)、進(jìn)行決策,那還不如沒有數(shù)據(jù)。因?yàn)橥ㄟ^錯(cuò)誤的數(shù)據(jù)分析出的結(jié)果往往會(huì)帶來「精確的誤導(dǎo)」,對(duì)于任何組織來說,這種「精確誤導(dǎo)」都無異于一場(chǎng)災(zāi)難。
據(jù)統(tǒng)計(jì),數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析員每天有 30% 的時(shí)間浪費(fèi)在了辨別數(shù)據(jù)是否是「壞數(shù)據(jù)」上,在數(shù)據(jù)質(zhì)量不高的環(huán)境下,做數(shù)據(jù)分析可謂是戰(zhàn)戰(zhàn)兢兢。可見數(shù)據(jù)質(zhì)量問題已經(jīng)嚴(yán)重影響了組織業(yè)務(wù)的正常運(yùn)營。通過科學(xué)的數(shù)據(jù)質(zhì)量管理,持續(xù)地提升數(shù)據(jù)質(zhì)量,已經(jīng)成為組織內(nèi)部刻不容緩的優(yōu)先任務(wù)。
二、 數(shù)據(jù)質(zhì)量問題從何而來?
做數(shù)據(jù)質(zhì)量管理,首先要搞清楚產(chǎn)生數(shù)據(jù)質(zhì)量問題的原因。原因有多方面,比如在技術(shù)、管理、流程方面都會(huì)碰到。但從根本上說,產(chǎn)生數(shù)據(jù)質(zhì)量問題的大部分原因在業(yè)務(wù)上,也就是管理不善。許多表面上的技術(shù)問題,深究下去,其實(shí)還是業(yè)務(wù)問題。
我在給客戶做數(shù)據(jù)治理咨詢的時(shí)候,發(fā)現(xiàn)很多客戶很難發(fā)現(xiàn)產(chǎn)生數(shù)據(jù)質(zhì)量問題的根本原因,僅僅局限于從技術(shù)角度來解決問題,希望通過購買某個(gè)工具就能解決質(zhì)量問題,這當(dāng)然達(dá)不到理想的效果。通過和客戶交流以及雙方共同分析之后,大部分組織都能認(rèn)識(shí)到數(shù)據(jù)質(zhì)量問題產(chǎn)生的真正根源,開始從業(yè)務(wù)方向著手解決數(shù)據(jù)質(zhì)量問題了。
從業(yè)務(wù)角度著手解決數(shù)據(jù)質(zhì)量問題,重要的是建立一套科學(xué)、可行的數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)和管理流程。
三、 數(shù)據(jù)質(zhì)量評(píng)估的標(biāo)準(zhǔn)
當(dāng)我們談到數(shù)據(jù)質(zhì)量管理的時(shí)候,我們必須要有一個(gè)數(shù)據(jù)質(zhì)量評(píng)估的標(biāo)準(zhǔn)。有了這個(gè)標(biāo)準(zhǔn),我們才能知道如何評(píng)估數(shù)據(jù)的質(zhì)量,才能把數(shù)據(jù)質(zhì)量量化,從而得出改進(jìn)的方向、比較改進(jìn)后的效果。目前業(yè)內(nèi)認(rèn)可的數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)有:
以上數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)只是一些通用的規(guī)則,這些標(biāo)準(zhǔn)是可以根據(jù)數(shù)據(jù)的實(shí)際情況和業(yè)務(wù)要求進(jìn)行擴(kuò)展的,如交叉表校驗(yàn)等。
四、 數(shù)據(jù)質(zhì)量管理流程
要提升數(shù)據(jù)質(zhì)量,需要以問題數(shù)據(jù)為切入點(diǎn),注重問題的分析、解決、跟蹤、持續(xù)優(yōu)化、知識(shí)積累,形成數(shù)據(jù)質(zhì)量持續(xù)提升的閉環(huán)。
首先需要梳理和分析數(shù)據(jù)質(zhì)量問題,摸清楚數(shù)據(jù)質(zhì)量的現(xiàn)狀;其次針對(duì)不同的質(zhì)量問題選擇適合的解決辦法,制定出詳細(xì)的解決方案;同時(shí)要注重問題的認(rèn)責(zé),追蹤方案執(zhí)行的效果,監(jiān)督檢查,持續(xù)優(yōu)化;最后形成數(shù)據(jù)質(zhì)量問題解決的知識(shí)庫,以供后來者參考。上述步驟不斷迭代,形成數(shù)據(jù)質(zhì)量管理的閉環(huán)。
很顯然,要管理好數(shù)據(jù)質(zhì)量,僅有工具支撐是遠(yuǎn)遠(yuǎn)不夠的,必須要組織架構(gòu)、制度流程參與進(jìn)來,做到數(shù)據(jù)的認(rèn)責(zé),數(shù)據(jù)的追責(zé)。這和我在第一篇文章
中闡述的觀點(diǎn)是一致的,大家可以詳細(xì)參考。
五、 數(shù)據(jù)質(zhì)量管理的取與舍
企業(yè)也好,政府也好,從來不是生活在真空之中,而是被社會(huì)緊緊地包裹。解決任何棘手的問題,都必須考慮到社會(huì)因素的影響,做適當(dāng)?shù)娜∩帷?/p>
第一個(gè)取舍:數(shù)據(jù)質(zhì)量管理流程。前面講到的數(shù)據(jù)質(zhì)量管理流程,是一個(gè)相對(duì)理想的狀態(tài),但是在不同的組織內(nèi)部,實(shí)施的力度都是不同的,以數(shù)據(jù)追責(zé)為例:在企業(yè)內(nèi)部推行還具有一定的可行性,但是對(duì)于政府而言就很難適用。因?yàn)檎块T的大數(shù)據(jù)項(xiàng)目,牽頭單位無論是誰,很可能沒有相關(guān)的權(quán)限。遇到這種問題,我們只能迂回地做些事情,盡量彌補(bǔ)因?yàn)槟硞€(gè)環(huán)節(jié)缺失而帶來的不利影響,比如和數(shù)據(jù)提供方一起建立起數(shù)據(jù)清洗的規(guī)則,對(duì)來源數(shù)據(jù)做清洗,盡量達(dá)到可用的標(biāo)準(zhǔn)。
數(shù)據(jù)追責(zé)的例子:你很難想像市經(jīng)信委去跟市政府辦公廳進(jìn)行數(shù)據(jù)質(zhì)量的問責(zé),這與數(shù)據(jù)治理的建設(shè)方在整個(gè)大的組織體系中的話語權(quán)有很大的關(guān)系,這也就是我們做數(shù)據(jù)治理必須接受的現(xiàn)實(shí)。
第二個(gè)取舍:不同時(shí)間維度上的數(shù)據(jù)采取不同的處理方式。從時(shí)間維度上劃分,數(shù)據(jù)主要有三類:未來數(shù)據(jù)、當(dāng)前數(shù)據(jù)、歷史數(shù)據(jù)。在解決不同種類的數(shù)據(jù)質(zhì)量問題時(shí),需要考慮取舍之道,采取不同的處理方式。
1. 歷史數(shù)據(jù)
當(dāng)你拿著一堆歷史問題數(shù)據(jù),找信息系統(tǒng)的負(fù)責(zé)人給你整改,對(duì)方通常不會(huì)給你好臉色看,可能會(huì)以「當(dāng)前的數(shù)據(jù)問題都處理不過來,哪有時(shí)間給你處理歷史數(shù)據(jù)的問題」為理由,拒你以千里之外。這時(shí)候即使你找領(lǐng)導(dǎo)協(xié)調(diào),一般也沒有太大的作用。因?yàn)檫@確實(shí)是現(xiàn)實(shí)情況:一個(gè)組織的歷史數(shù)據(jù)通常是經(jīng)年累月的積累,已經(jīng)是海量的規(guī)模,很難處理。那么難道就沒有更好的辦法了嗎?——對(duì)于歷史數(shù)據(jù)問題的處理,我們可以發(fā)揮技術(shù)人員的優(yōu)勢(shì),用數(shù)據(jù)清洗的辦法來解決;對(duì)于實(shí)在清洗不了的,我們要讓決策者判斷投入和產(chǎn)出的效益比。
從另一個(gè)角度來看:數(shù)據(jù)的新鮮度不同,其價(jià)值往往也有所區(qū)分。一般來說,歷史數(shù)據(jù)的時(shí)間越久遠(yuǎn),其價(jià)值越低。所以,我們不應(yīng)該把最重要的資源放在歷史數(shù)據(jù)質(zhì)量的提升上,而是應(yīng)該更多地著眼于當(dāng)前和未來即將產(chǎn)生的數(shù)據(jù)。
2. 當(dāng)前數(shù)據(jù)
當(dāng)前數(shù)據(jù)的問題,需要我們通過本文第四個(gè)章節(jié)講過的——梳理和發(fā)現(xiàn)問題,分析問題,解決問題,問題認(rèn)責(zé)、跟蹤和評(píng)估等幾個(gè)流程環(huán)節(jié)來解決,管理過程中必須嚴(yán)格遵循流程,避免臟數(shù)據(jù)繼續(xù)流到數(shù)據(jù)分析和應(yīng)用環(huán)節(jié)。
3. 未來數(shù)據(jù)
管理未來的數(shù)據(jù),一定要從數(shù)據(jù)規(guī)劃開始,從整個(gè)組織信息化的角度出發(fā),規(guī)劃組織統(tǒng)一的數(shù)據(jù)架構(gòu),制定出統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。借業(yè)務(wù)系統(tǒng)新建、改造或重建的時(shí)機(jī),在創(chuàng)建物理模型、建表、ETL開發(fā)、數(shù)據(jù)服務(wù)、數(shù)據(jù)使用等各個(gè)環(huán)節(jié)遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),從根本上提升數(shù)據(jù)質(zhì)量。這也是最理想、效果最好的數(shù)據(jù)質(zhì)量管理模式。
通過對(duì)不同時(shí)期數(shù)據(jù)的不同處理方式,能做到事前預(yù)防、事中監(jiān)控、事后改善,從根本上解決數(shù)據(jù)質(zhì)量問題。
六、 總結(jié)
提升數(shù)據(jù)質(zhì)量,是數(shù)據(jù)治理最重要的目標(biāo)之一。我們需要從三個(gè)方面著手解決數(shù)據(jù)質(zhì)量問題:弄清楚數(shù)據(jù)質(zhì)量問題產(chǎn)生的根源,建立一套科學(xué)合理的評(píng)估標(biāo)準(zhǔn)和管理流程,考慮到組織和數(shù)據(jù)的現(xiàn)狀。
數(shù)瀾科技的核心產(chǎn)品:一站式大數(shù)據(jù)平臺(tái)「數(shù)棲」,集成了完善的數(shù)據(jù)質(zhì)量管理功能,可以對(duì)表級(jí)、字段級(jí)的數(shù)據(jù)建立稽核規(guī)則,執(zhí)行檢查,生成數(shù)據(jù)質(zhì)量報(bào)告,并融入到數(shù)據(jù)資產(chǎn)管理的閉環(huán)之中,幫助客戶循環(huán)不斷地提升數(shù)據(jù)質(zhì)量。
<END>
公司簡介:數(shù)瀾科技成立于 2016 年 6 月,秉持“讓企業(yè)的數(shù)據(jù)用起來”的使命,致力于成為客戶信賴的數(shù)據(jù)應(yīng)用基礎(chǔ)設(shè)施供應(yīng)商。2019 年初,躋身“杭州準(zhǔn)獨(dú)角獸企業(yè)”榜。
自成立之日起,數(shù)瀾團(tuán)隊(duì)即堅(jiān)持以“數(shù)據(jù)中臺(tái)”作為核心戰(zhàn)略構(gòu)建和培養(yǎng)團(tuán)隊(duì)。目前已有成員 300+, 建成以數(shù)據(jù)科學(xué)家、數(shù)據(jù)產(chǎn)品專家、數(shù)據(jù)咨詢專家及數(shù)據(jù)可視化專家為核心的數(shù)據(jù)科技研發(fā)團(tuán)隊(duì),核心成員來自阿里、華為等企業(yè),擁有大數(shù)據(jù)業(yè)務(wù)和技術(shù)多年實(shí)戰(zhàn)經(jīng)驗(yàn),是國內(nèi)最早一批大數(shù)據(jù)服務(wù)創(chuàng)新實(shí)踐者。
目前,數(shù)瀾已為萬科、方太、興業(yè)銀行、百果園、中信云網(wǎng)、時(shí)尚集團(tuán)、溫州檢察院、喜茶、視源股份等多家行業(yè)頭部企業(yè)和政府客戶,提供了數(shù)據(jù)中臺(tái)建設(shè)和數(shù)據(jù)資產(chǎn)開發(fā)服務(wù),并基于數(shù)棲幫助企業(yè)持續(xù)挖掘數(shù)據(jù)資產(chǎn),賦能業(yè)務(wù)創(chuàng)新。
聯(lián)系客服