高質(zhì)量的數(shù)據(jù)輸入給業(yè)務(wù)模型才能保證模型良好運(yùn)行。
清洗可以是excel、sql、hql開發(fā)的ETL工程師,以及用mr和spark處理復(fù)雜數(shù)據(jù)。
有的負(fù)責(zé)數(shù)據(jù)的清洗是HQL做不了的,就需要使用spark來進(jìn)行處理。
對(duì)于一些復(fù)雜數(shù)據(jù),可以編寫好清洗函數(shù)之后,對(duì)每行記錄都調(diào)用清洗函數(shù)來進(jìn)行處理。
具體應(yīng)用場(chǎng)景之后介紹。
Mapreduce的代碼可以開發(fā)用spark清洗數(shù)據(jù)的mr代碼。
不同的數(shù)據(jù)處理工具根據(jù)所處的業(yè)務(wù)場(chǎng)景來運(yùn)用。
在熟練使用這些技術(shù)之后,應(yīng)該重點(diǎn)關(guān)注的業(yè)務(wù)的實(shí)現(xiàn),技術(shù)是解決問題的基礎(chǔ)。
聯(lián)系客服