免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
滿(mǎn)成見(jiàn):獵聘網(wǎng)數(shù)據(jù)治理實(shí)踐全流程經(jīng)驗(yàn)分享

  本文根據(jù)滿(mǎn)成見(jiàn)老師在2018年5月11日【第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)】現(xiàn)場(chǎng)演講內(nèi)容整理而成。


講師簡(jiǎn)介:



  滿(mǎn)成見(jiàn),獵聘網(wǎng)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)師。2016年加入獵聘網(wǎng),負(fù)責(zé)獵聘數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)架構(gòu)設(shè)計(jì)與模型開(kāi)發(fā),八年數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與數(shù)據(jù)治理項(xiàng)目實(shí)施經(jīng)驗(yàn)。

  

摘要:


  獵聘網(wǎng)業(yè)務(wù)規(guī)模的高速發(fā)展,線(xiàn)上產(chǎn)品與線(xiàn)下銷(xiāo)售、客服業(yè)務(wù)的高度融合,獵頭、企業(yè)、經(jīng)理人多角色的招聘生態(tài)閉環(huán),多元化與多組織層次的數(shù)據(jù)統(tǒng)計(jì)與運(yùn)營(yíng)分析需求......在這些復(fù)雜業(yè)務(wù)環(huán)境下如何做好數(shù)據(jù)治理實(shí)踐的?獵聘DIG數(shù)據(jù)平臺(tái)中MySql、GreenPlum、Hive多源數(shù)據(jù)庫(kù)共存,整合了結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),為實(shí)時(shí)統(tǒng)計(jì)、T N的企業(yè)管理報(bào)表、機(jī)器學(xué)習(xí)提供更適合的基礎(chǔ)設(shè)施,同時(shí)以數(shù)據(jù)生命周期和數(shù)據(jù)血緣的管理作為數(shù)據(jù)治理的兩大核心脈絡(luò)。線(xiàn)上、線(xiàn)下不同業(yè)務(wù)形態(tài)的數(shù)據(jù),在時(shí)間、地域、組織等不同維度上,在數(shù)據(jù)產(chǎn)生、成長(zhǎng)、下線(xiàn)、歸檔不同的生命階段,設(shè)置不同的數(shù)據(jù)監(jiān)測(cè)和管理策略,保證數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的及時(shí)性和有效性。通過(guò)制定數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范協(xié)作流程、自研監(jiān)測(cè)與預(yù)警工具,保證業(yè)務(wù)數(shù)據(jù)、數(shù)倉(cāng)明細(xì)數(shù)據(jù),核心指標(biāo)等各個(gè)數(shù)據(jù)加工鏈條節(jié)點(diǎn)上的數(shù)據(jù)一致性和質(zhì)量可靠性。

  

正文:


  獵聘網(wǎng)是一個(gè)互聯(lián)網(wǎng)線(xiàn)上招聘業(yè)務(wù)網(wǎng)站,業(yè)務(wù)背景主要涉及三方面:內(nèi)部系統(tǒng)、線(xiàn)上產(chǎn)品以及數(shù)據(jù)應(yīng)用。線(xiàn)上產(chǎn)品部分,我們有經(jīng)理人、企業(yè)HR、獵頭等服務(wù)產(chǎn)品,今年年初,經(jīng)理人用戶(hù)達(dá)到四千萬(wàn),每天客戶(hù)端和服務(wù)端的埋點(diǎn)數(shù)據(jù)增量大約在3億條左右;內(nèi)部系統(tǒng)部分,有ERP、CRM、EHR等,客戶(hù)池的客戶(hù)量級(jí)大概在百萬(wàn)級(jí)。我們的數(shù)據(jù)應(yīng)用分析也包含了線(xiàn)上和線(xiàn)下兩方面,以及實(shí)時(shí)和T 1的分析,針對(duì)傳統(tǒng)線(xiàn)下業(yè)務(wù),為支持公司運(yùn)營(yíng)管理,需要跟蹤、管控銷(xiāo)售顧問(wèn)和招聘服務(wù)顧問(wèn)的工作進(jìn)程以及業(yè)績(jī)考核,線(xiàn)上數(shù)據(jù)分析主要包括流量分析、用戶(hù)獲取、轉(zhuǎn)化留存、A/B測(cè)試、產(chǎn)品運(yùn)維等方面的分析。除了BI分析報(bào)表,我們獵聘大數(shù)據(jù)研究院同時(shí)擔(dān)負(fù)著數(shù)據(jù)挖掘和智能決策分析等相關(guān)服務(wù)。


  2016年,我加入獵聘網(wǎng)時(shí)所面對(duì)的業(yè)務(wù)困境主要有以下幾大方面:首先,大數(shù)據(jù)團(tuán)隊(duì)中沒(méi)有劃分專(zhuān)業(yè)的數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì);其次,整個(gè)數(shù)據(jù)使用不規(guī)范,所有數(shù)據(jù)應(yīng)用分析直接從業(yè)務(wù)表和日志數(shù)據(jù)一步加工,中間缺乏數(shù)據(jù)規(guī)整和分層處理的步驟;然后,整個(gè)數(shù)據(jù)倉(cāng)庫(kù)近兩千張表有50%以上的元數(shù)據(jù)是丟失,這就造成我們對(duì)整個(gè)數(shù)據(jù)質(zhì)量缺乏把控,數(shù)據(jù)質(zhì)量完全依靠分析師個(gè)人判斷,數(shù)據(jù)問(wèn)題由下往上發(fā)現(xiàn)追溯;最后, 缺乏數(shù)據(jù)上下游節(jié)點(diǎn)的合作規(guī)范和溝通流程。這就是我們當(dāng)時(shí)所面臨的業(yè)務(wù)困境。


  要想解決這些困境,我們首要解決的問(wèn)題是數(shù)據(jù)如何治理,在這方面,我們倒是有一個(gè)不錯(cuò)的開(kāi)端。


  首先,我們的首席數(shù)據(jù)官CDO非常重視基礎(chǔ)數(shù)據(jù)治理工作,這讓整個(gè)數(shù)據(jù)治理理念很好得貫徹執(zhí)行了下去。做好數(shù)據(jù)治理前提是要加強(qiáng)流程管控,管控加強(qiáng)的同時(shí)必然又會(huì)不可避免的降低流程節(jié)點(diǎn)之間的工作效率,如果沒(méi)有公司戰(zhàn)略決策層的支持,數(shù)據(jù)治理將很難從業(yè)務(wù)部門(mén)貫徹到數(shù)據(jù)部門(mén)。


  其次,我們整個(gè)大數(shù)據(jù)團(tuán)隊(duì)的接口層設(shè)計(jì)非常完善,完整保留了90%以上的核心業(yè)務(wù)數(shù)據(jù)每天的拍照,這為后續(xù)DW核心明細(xì)層的整合打了非常好的基礎(chǔ)。 然后,我們有自己的任務(wù)調(diào)度系統(tǒng),可以記錄任務(wù)之間的血緣關(guān)系。


  數(shù)據(jù)治理的工作展開(kāi),主要考慮三個(gè)維度:模型架構(gòu)、平臺(tái)技術(shù)和流程規(guī)范。


  在模型架構(gòu)層面,依據(jù)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的理論是對(duì)數(shù)據(jù)進(jìn)行分層管理,每一層進(jìn)行相應(yīng)的業(yè)務(wù)主題梳理,提煉出業(yè)務(wù)實(shí)體、實(shí)體之間的關(guān)系、實(shí)體的業(yè)務(wù)行為以及這些由業(yè)務(wù)行為所沉淀出的度量指標(biāo)。


  在平臺(tái)技術(shù)層面,首先要有元數(shù)據(jù)管理系統(tǒng),其次要有數(shù)據(jù)血緣追溯系統(tǒng)、數(shù)據(jù)質(zhì)量監(jiān)測(cè)系統(tǒng)等,這些平臺(tái)技術(shù)可以幫助我們部分實(shí)現(xiàn)自動(dòng)化管理。作為互聯(lián)網(wǎng)企業(yè),業(yè)務(wù)迭代、表以及字段的增加速度都非常快,如果沒(méi)有好的平臺(tái)技術(shù)支撐,消耗的人力成本會(huì)非常高。


  在流程規(guī)范層面,不管平臺(tái)技術(shù)多么先進(jìn),整個(gè)數(shù)據(jù)治理過(guò)程都不可能百分百覆蓋,因此必須保證整個(gè)上下游各個(gè)崗位、各個(gè)序列里所有數(shù)據(jù)相關(guān)方遵循統(tǒng)一的流程規(guī)范,對(duì)數(shù)據(jù)的來(lái)源、定義、使用方式等有明確統(tǒng)一的原則。



  上圖為獵聘網(wǎng)的整個(gè)數(shù)據(jù)治理流程,首先是梳理元數(shù)據(jù),建立數(shù)據(jù)標(biāo)準(zhǔn),包括業(yè)務(wù)用語(yǔ)、業(yè)務(wù)規(guī)則、業(yè)務(wù)模型和業(yè)務(wù)指標(biāo)。同時(shí),對(duì)用戶(hù)行為日志做埋點(diǎn)。這些標(biāo)準(zhǔn)和規(guī)范一開(kāi)始就要落實(shí)到文檔,最終把文檔落實(shí)到標(biāo)準(zhǔn)庫(kù)。元數(shù)據(jù)庫(kù)包含數(shù)據(jù)編碼、數(shù)據(jù)格式、數(shù)據(jù)血緣、數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限以及數(shù)據(jù)存儲(chǔ)方式。數(shù)據(jù)標(biāo)準(zhǔn)庫(kù)的數(shù)據(jù)是整個(gè)數(shù)據(jù)質(zhì)量治理的基石。我們?cè)谶@個(gè)標(biāo)準(zhǔn)之上才會(huì)衍生規(guī)則、制定任務(wù)并做預(yù)警監(jiān)控。同時(shí),我們要管控好所有線(xiàn)下數(shù)據(jù),一定要保證所有分析相關(guān)數(shù)據(jù)入到線(xiàn)上數(shù)據(jù)倉(cāng)庫(kù),否則不知來(lái)源的數(shù)據(jù)會(huì)給最終數(shù)據(jù)的血緣追溯制造很多困擾。


獵聘網(wǎng)的整個(gè)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)分層見(jiàn)下圖:



  數(shù)據(jù)分層管理的核心是根據(jù)數(shù)據(jù)的業(yè)務(wù)特性和分析特性劃分到不同的物理層次中,以到達(dá)對(duì)數(shù)據(jù)精細(xì)化管理的目的。


  接口層的核心功能就是要保留所有歷史拍照,很多時(shí)候企業(yè)產(chǎn)生的數(shù)據(jù)有一部分都是臟數(shù)據(jù),但是臟數(shù)據(jù)的定義可能會(huì)有很多標(biāo)準(zhǔn),如果對(duì)業(yè)務(wù)理解不清楚,你可能會(huì)把空值或者異常值都粗略得算為臟數(shù)據(jù),但有時(shí)這些異常值也會(huì)代表一種業(yè)務(wù)形態(tài),所以,我們?cè)诮涌趯颖A袅怂袣v史數(shù)據(jù)。為了節(jié)省接口層存儲(chǔ)空間,我們會(huì)選擇業(yè)務(wù)表不同的同步方式,比如全量拍照,或者根據(jù)業(yè)務(wù)表的時(shí)間戳進(jìn)行按天增量存儲(chǔ),或者將增量和全量數(shù)據(jù)合并去重。根據(jù)歷史增量拍照和每個(gè)日期內(nèi)的增量分區(qū),我們就可以恢復(fù)出某個(gè)業(yè)務(wù)表在歷史上某天的數(shù)據(jù)狀態(tài),這對(duì)結(jié)合業(yè)務(wù)上下游環(huán)境進(jìn)行精準(zhǔn)分析非常有幫助。


  此外,我們?cè)诮涌趯又饕隽薓ySQL分庫(kù)分表整合,數(shù)據(jù)規(guī)范方面主要做了生成唯一主鍵、編碼轉(zhuǎn)換、敏感字段過(guò)濾以及數(shù)據(jù)格式統(tǒng)一等工作。敏感字段過(guò)濾主要涉及經(jīng)理人的聯(lián)系方式、郵件地址、證件號(hào)碼等敏感數(shù)據(jù)。我們不允許這些數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù),如果需要獲取敏感信息可以找業(yè)務(wù)研發(fā)或安全部門(mén)團(tuán)隊(duì)開(kāi)發(fā)統(tǒng)一接口。


  在DW層,主要是根據(jù)業(yè)務(wù),劃分分析主題,提煉業(yè)務(wù)實(shí)體和關(guān)系模型,做業(yè)務(wù)關(guān)聯(lián)整合,業(yè)務(wù)信息方面除了一些實(shí)體和行為指標(biāo)的整理,還要進(jìn)行一些冗余設(shè)計(jì),屏蔽業(yè)務(wù)表變化對(duì)整個(gè)上游的沖擊?;ヂ?lián)網(wǎng)端的線(xiàn)上業(yè)務(wù)研發(fā)迭代速度非???,每?jī)芍芫蜁?huì)有一次大產(chǎn)品迭代,對(duì)應(yīng)的業(yè)務(wù)表和業(yè)務(wù)字段都會(huì)有變更,數(shù)倉(cāng)工程會(huì)在DW層完成對(duì)業(yè)務(wù)變更的適應(yīng)調(diào)整,對(duì)下游應(yīng)用分析屏蔽具體細(xì)節(jié),保證整個(gè)數(shù)據(jù)的一致性和完整性以及指標(biāo)的統(tǒng)一性。


  在DM層,我們的主要工作是決策層核心報(bào)表與部門(mén)級(jí)集市報(bào)表,使用Hive保留原始加工數(shù)據(jù),MySQL支持T 1報(bào)表,Greenplum支持10分鐘以?xún)?nèi)的實(shí)時(shí)業(yè)務(wù)分析。



  上圖為獵聘網(wǎng)自主研發(fā)的大數(shù)據(jù)管理平臺(tái),包括元數(shù)據(jù)管理平臺(tái)Octopus、任務(wù)調(diào)度系統(tǒng)Leo、數(shù)據(jù)質(zhì)量稽核系統(tǒng)Raven以及數(shù)據(jù)同步系統(tǒng)Mule。


  按照傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)理論,我們會(huì)將元數(shù)據(jù)管理分為業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)兩部分。業(yè)務(wù)元數(shù)據(jù)是指業(yè)務(wù)對(duì)象、業(yè)務(wù)關(guān)聯(lián)以及業(yè)務(wù)規(guī)則,業(yè)務(wù)對(duì)象可能落實(shí)到我們的業(yè)務(wù)表或者業(yè)務(wù)字段,業(yè)務(wù)關(guān)聯(lián)指業(yè)務(wù)實(shí)體之間在業(yè)務(wù)關(guān)聯(lián),業(yè)務(wù)規(guī)則要根據(jù)不同的業(yè)務(wù)部門(mén)進(jìn)行提煉總結(jié)。


  技術(shù)元數(shù)據(jù)主要分為數(shù)據(jù)生命周期、數(shù)據(jù)血緣等部分。數(shù)據(jù)生命周期就是指所有數(shù)倉(cāng)數(shù)據(jù)的創(chuàng)建信息、變更歷史以及銷(xiāo)毀信息等工作;數(shù)據(jù)血緣負(fù)責(zé)任務(wù)之間的依賴(lài)、表與字段之間的依賴(lài)等;其他信息,比如數(shù)據(jù)倉(cāng)庫(kù)里的數(shù)據(jù)安全等級(jí)和使用熱度等。


  以下著重介紹數(shù)據(jù)生命周期管理部分。獵聘網(wǎng)之所以強(qiáng)調(diào)數(shù)據(jù)生命周期管理,是因?yàn)槲覀兓ヂ?lián)網(wǎng)的業(yè)務(wù)背景。如果不做好數(shù)據(jù)倉(cāng)庫(kù)的入庫(kù)、上線(xiàn)以及停更工作,我們將很難判斷整個(gè)數(shù)據(jù)倉(cāng)庫(kù)中各表是否可用、出了問(wèn)題之后應(yīng)該找誰(shuí)負(fù)責(zé)等。舉例來(lái)說(shuō),我們經(jīng)常面臨一些周年或節(jié)日活動(dòng),此時(shí)可能會(huì)集中出來(lái)一批表用于維護(hù)活動(dòng)信息,待活動(dòng)結(jié)束,這批表肯定面臨著下線(xiàn)問(wèn)題。這種情況下,我們要做好表的生命周期管理,保證整個(gè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的實(shí)時(shí)有效可用。此外,所有數(shù)據(jù)入庫(kù)必須通過(guò)前端工具完成,不允許在后臺(tái)通過(guò)服務(wù)器端以人工腳本執(zhí)行的方式完成,因?yàn)橐坏┻@張表出現(xiàn)問(wèn)題,我們將很難確認(rèn)責(zé)任負(fù)責(zé)人。我們會(huì)在入庫(kù)時(shí)同步創(chuàng)建表接口,在接口中強(qiáng)制填寫(xiě)入庫(kù)表的責(zé)任人、業(yè)務(wù)注釋、業(yè)務(wù)歸屬線(xiàn)、業(yè)務(wù)參照關(guān)鍵狀態(tài)等信息。



  如果部分表沒(méi)有業(yè)務(wù)屬性存在,或者不再有用時(shí),我們需要對(duì)表進(jìn)行停更操作,主要有三種方式:物理刪除、歸檔和保留。物理刪除主要用于臨時(shí)表,當(dāng)這些表不在被需要時(shí),我們會(huì)進(jìn)行物理刪除以節(jié)省存儲(chǔ)空間,但是這類(lèi)表比較少;歸檔相當(dāng)于在數(shù)據(jù)倉(cāng)庫(kù)里對(duì)業(yè)務(wù)用戶(hù)不可見(jiàn),這些表的特征是暫時(shí)不具備分析價(jià)值但未來(lái)可能會(huì)再次查閱;保留狀態(tài)則時(shí)對(duì)用戶(hù)可見(jiàn),這部分表的特征是雖然暫時(shí)下線(xiàn)并停止更新數(shù)據(jù),但其作用是無(wú)可替代的,需要保留一段時(shí)間。


  接下來(lái)是數(shù)據(jù)血緣影響的管理。數(shù)據(jù)血緣關(guān)系主要指表與ETL任務(wù)、表與數(shù)據(jù)表、表與數(shù)據(jù)表的字段、表與埋點(diǎn)事件、表與UDF函數(shù)、表與指標(biāo)、表與報(bào)表之間的關(guān)系。


  數(shù)據(jù)血緣是ETL的DAG圖、任務(wù)優(yōu)先級(jí)制定、銷(xiāo)毀上游對(duì)象約束、質(zhì)量稽核影響性以及打通各平臺(tái)工具的脈絡(luò)。以任務(wù)優(yōu)先級(jí)舉例來(lái)說(shuō),數(shù)據(jù)血緣關(guān)系是任務(wù)優(yōu)先級(jí)設(shè)定的重要參考指標(biāo),通常,任務(wù)的優(yōu)先級(jí)由任務(wù)創(chuàng)建人制定,但同時(shí)也需要我們根據(jù)數(shù)據(jù)血緣重新賦權(quán)優(yōu)先級(jí)系數(shù),以保證真正核心任務(wù)的優(yōu)先級(jí)。為了避免錯(cuò)誤操作,我們每天都會(huì)在固定的時(shí)間對(duì)數(shù)據(jù)血緣進(jìn)行檢查,確認(rèn)所有ETL調(diào)度任務(wù)依賴(lài)的表是否存在,如果不存在,就會(huì)報(bào)錯(cuò)并通知相應(yīng)人員做一些變更和修改。


  在數(shù)據(jù)質(zhì)量稽核部分,數(shù)據(jù)質(zhì)量稽核系統(tǒng)會(huì)對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)里面的庫(kù)、字段、指標(biāo)以及埋點(diǎn)數(shù)據(jù)做相應(yīng)的質(zhì)量稽核,并針對(duì)業(yè)務(wù)規(guī)則設(shè)定閾值,每天晚上任務(wù)調(diào)度系統(tǒng)工作完成之后開(kāi)始啟動(dòng),一旦監(jiān)測(cè)到疑似錯(cuò)誤的問(wèn)題存在,郵件以及短信回發(fā)到對(duì)應(yīng)的任務(wù)責(zé)任人。


以下是整個(gè)數(shù)據(jù)質(zhì)量稽核規(guī)則與流程:


  通過(guò)時(shí)間序列分析可以在一定程度上提醒業(yè)務(wù)責(zé)任人數(shù)據(jù)可能出現(xiàn)的波動(dòng)性異常。拿我們招聘服務(wù)網(wǎng)站而言,有所謂的”金三銀四”,每年的3/4月會(huì)有較大的業(yè)務(wù)提升,時(shí)間序列分析可以將這些業(yè)務(wù)正常波動(dòng)考慮在內(nèi)。在鍵屬性這邊會(huì)對(duì)業(yè)務(wù)的表字段做一些非空、唯一性以及數(shù)據(jù)參照集合。對(duì)業(yè)務(wù)和數(shù)據(jù)的合法性,比如主從一致等進(jìn)行很好的規(guī)范,所有碼值業(yè)務(wù)表字段必然在Java代碼中有枚舉類(lèi)與之對(duì)應(yīng),我們會(huì)在對(duì)應(yīng)的表之間做映射關(guān)系,從代碼里面獲取最新自檢值,以判斷字段的注釋和值是否正確。在統(tǒng)計(jì)屬性方法中,我們會(huì)根據(jù)數(shù)值是離散值還是連續(xù)值采用不同的稽核規(guī)則,如果是離散值,我們會(huì)繼續(xù)考察分布占比情況,如果中間出現(xiàn)某個(gè)值的占比突然降低或升高,或者主營(yíng)業(yè)務(wù)數(shù)據(jù)突然降低,會(huì)判斷該數(shù)據(jù)可能出現(xiàn)錯(cuò)誤。如果是連續(xù)值,則主要考察極、均值、分位數(shù)等,同時(shí)也會(huì)結(jié)合數(shù)據(jù)的標(biāo)準(zhǔn)差和方差來(lái)檢查數(shù)據(jù)分布是否合理。


  指標(biāo)稽核主要是業(yè)務(wù)規(guī)則和交叉校驗(yàn)兩部分工作,業(yè)務(wù)規(guī)則主要指表責(zé)任人和使用者如何定義指標(biāo)的波動(dòng)范圍。當(dāng)然,我們也會(huì)從其他角度校驗(yàn),但凡一個(gè)指標(biāo)統(tǒng)計(jì)來(lái)源肯定不止一種方式。如果是站在報(bào)表引用和分析的角度,我們必須要有統(tǒng)一的途徑, 但可以利用其他途徑做參考校驗(yàn)。交叉校驗(yàn)就是通過(guò)不同的方式加工同一個(gè)指標(biāo),然后判斷指標(biāo)的相關(guān)性,如果數(shù)據(jù)的差異不在同一個(gè)量級(jí),那么實(shí)際上這個(gè)數(shù)據(jù)是有問(wèn)題的。比如新增用戶(hù)數(shù)指標(biāo),我們可以通過(guò)埋點(diǎn)和業(yè)務(wù)表信息兩種方式進(jìn)行創(chuàng)建。當(dāng)然,這種方式無(wú)法覆蓋數(shù)倉(cāng)中的所有表,只針對(duì)各個(gè)公司或者各個(gè)事業(yè)部關(guān)注的一些核心指標(biāo)應(yīng)用。


  我們目前也正在探索通過(guò)數(shù)據(jù)質(zhì)量稽核應(yīng)用生成數(shù)據(jù)質(zhì)量報(bào)告,并將報(bào)告抄送給我們的業(yè)務(wù)和研發(fā)人員,讓更多序列的人參與進(jìn)來(lái)并關(guān)注稽核結(jié)果。


  我們需要強(qiáng)調(diào)數(shù)據(jù)安全。隨著獵聘網(wǎng)的不斷發(fā)展壯大,整個(gè)體量相對(duì)來(lái)說(shuō)比較龐大,各項(xiàng)業(yè)務(wù)形態(tài)或者說(shuō)管理標(biāo)準(zhǔn)都已成熟,但業(yè)務(wù)體系實(shí)際上比較復(fù)雜,尤其是涉及銷(xiāo)售和招聘部分,我們需要嚴(yán)格把控整個(gè)數(shù)據(jù)安全管理過(guò)程。


  數(shù)據(jù)安全主要涉及安全標(biāo)準(zhǔn)、數(shù)據(jù)粒度、用戶(hù)行為和審批流程四個(gè)環(huán)節(jié)。在安全標(biāo)準(zhǔn)方面,又可細(xì)分為個(gè)人隱私、業(yè)務(wù)敏感、財(cái)務(wù)數(shù)據(jù)、部門(mén)隔離和等級(jí)區(qū)分幾部分。所有的個(gè)人聯(lián)系方式等隱私數(shù)據(jù)并不會(huì)傳入數(shù)據(jù)倉(cāng)庫(kù),我們會(huì)在數(shù)據(jù)入倉(cāng)時(shí)進(jìn)行校驗(yàn),對(duì)個(gè)人隱私數(shù)據(jù)、業(yè)務(wù)敏感數(shù)據(jù)以及一些財(cái)務(wù)數(shù)據(jù)實(shí)行不入倉(cāng)原則。部門(mén)隔離實(shí)際上在整個(gè)公司發(fā)展過(guò)程中,我們發(fā)現(xiàn)不同事業(yè)部之間的數(shù)據(jù)可能是不希望共享的,因此我們需要針對(duì)業(yè)務(wù)進(jìn)行初步隔離,同時(shí)針對(duì)所有數(shù)據(jù)進(jìn)行安全等級(jí)區(qū)分。我們目前主要分為兩個(gè)等級(jí)權(quán)限,一是查詢(xún)權(quán)限,一是下載權(quán)限。


  在數(shù)據(jù)粒度層面,我們主要分為schema、表級(jí)、字段級(jí)、任務(wù)級(jí)以及接口級(jí)。用戶(hù)行為主要分為任務(wù)查詢(xún)、表查詢(xún)、明細(xì)數(shù)據(jù)下載權(quán)限以及郵件內(nèi)容。審批流程層面主要分為自動(dòng)解析、系統(tǒng)提醒和人工審核三部分。


  總結(jié)以上,我們整個(gè)數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)和工程師一起搭建了數(shù)據(jù)治理體系,包括元數(shù)據(jù)管理、數(shù)據(jù)稽核工具與配置、數(shù)據(jù)血緣影響與分析、數(shù)據(jù)異常通知與預(yù)警、指標(biāo)管理工具與配置、數(shù)據(jù)服務(wù)接口提供。但是整個(gè)數(shù)據(jù)上下游的治理必然不是數(shù)據(jù)部門(mén)自己的事情,而是要產(chǎn)品、研發(fā)、數(shù)據(jù)一起合作完成的。只有這樣,數(shù)據(jù)才能更好的為產(chǎn)品賦能,產(chǎn)品和運(yùn)營(yíng)團(tuán)隊(duì)才可以更好得分析數(shù)據(jù),由數(shù)據(jù)完成智能驅(qū)動(dòng)業(yè)務(wù)高速發(fā)展。


  經(jīng)過(guò)兩年多的不懈努力,獵聘網(wǎng)目前已經(jīng)實(shí)現(xiàn)定時(shí)監(jiān)控上游數(shù)據(jù)結(jié)構(gòu)與質(zhì)量問(wèn)題,發(fā)現(xiàn)問(wèn)題當(dāng)天跟進(jìn)處理,保障90%以上的核心報(bào)表與數(shù)據(jù)應(yīng)用的穩(wěn)定與可靠性;模型分層,統(tǒng)一了下游引用出口,上游系統(tǒng)升級(jí)改造,影響截止到DW層,節(jié)省分析師90%以上的資源投入;元數(shù)據(jù)完善95%以上,數(shù)倉(cāng)知識(shí)體系與數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建完畢,業(yè)務(wù)與數(shù)據(jù)學(xué)習(xí)使用效率極大提升。

   


本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
數(shù)據(jù)治理理論 實(shí)踐(全)
談?wù)剶?shù)據(jù)治理是什么? | 人人都是產(chǎn)品經(jīng)理
大數(shù)據(jù)測(cè)試 - 數(shù)倉(cāng)測(cè)試-CSDN博客
銀行數(shù)據(jù)治理怎么做,先了解一下元數(shù)據(jù)管理在銀行業(yè)務(wù)中的應(yīng)用
元數(shù)據(jù)管理在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)踐應(yīng)用
還不理解元數(shù)據(jù)管理?看看這幾個(gè)場(chǎng)景應(yīng)用
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服