2017年1月13日,“飛蟬智投高校聯(lián)盟”第一期活動正式開展,中山大學(xué)統(tǒng)計學(xué)碩士朱進受邀來到飛蟬智投,結(jié)合在參與“融360'天機'金融風(fēng)控大數(shù)據(jù)競賽”中預(yù)測用戶二次貸款的經(jīng)驗,詳細闡述了如何利用特征工程分析用戶金融數(shù)據(jù),預(yù)測用戶行為。
“高校聯(lián)盟”是由飛蟬智投發(fā)起的,與中山大學(xué)等高等本科院校共同開展的深度合作,其填補了高校與企業(yè)的斷層,讓高校的學(xué)生能了解到企業(yè)具體的業(yè)務(wù)需求和困境,將研究理論落地,解決實際問題;同時,也能讓企業(yè)接觸到最新的前沿技術(shù)和理論,享受到高校的人才和科研優(yōu)勢。
此次的分享嘉賓朱進是華南統(tǒng)計科學(xué)研究中心成員,同時也是中山大學(xué)數(shù)學(xué)學(xué)院統(tǒng)計學(xué)專業(yè)的碩士生,在數(shù)據(jù)分析、R語言、編程方面有著豐富的研究經(jīng)驗。在中心的學(xué)習(xí)工作過程中,朱進負(fù)責(zé)過基因數(shù)據(jù)、金融數(shù)據(jù)、醫(yī)療疾病數(shù)據(jù)、社會人口學(xué)數(shù)據(jù)、用戶行為數(shù)據(jù)等項目研究,對數(shù)據(jù)分析與數(shù)據(jù)挖掘形成了獨特的見解。
一、數(shù)據(jù)挖掘提高二次貸款準(zhǔn)確度判斷
在此次競賽中,朱進團隊利用AUC對真實的借貸用戶數(shù)據(jù)進行分析,包括用戶修改記錄數(shù)據(jù)、消費數(shù)據(jù)、行為標(biāo)簽數(shù)據(jù)以及社交數(shù)據(jù)等,預(yù)測用戶是否進行二次貸款。
這一過程所需的樣本數(shù)量非常大,維度高。以用戶修改數(shù)據(jù)為例,每個用戶可能會有很多次修改記錄,如果用全部數(shù)據(jù)去處理,維度可能會特別高。因此,朱進同學(xué)采用特征工程的方法,對數(shù)據(jù)進行整合降維,并根據(jù)特征對用戶行為進行預(yù)測。
比如將一個人所填的所有年齡取平均數(shù),平均年齡就是這個用戶的特征,即將一個用戶多條數(shù)據(jù)整合成一個用戶一條數(shù)據(jù),變成用機器學(xué)習(xí)的方法去做。
朱進同學(xué)還指出,在對數(shù)據(jù)進行預(yù)處理的過程中,發(fā)現(xiàn)有些數(shù)據(jù)非常異常,而數(shù)據(jù)異??赡苁怯行畔⒌漠惓?,這時候就要深入數(shù)據(jù),挖掘異常數(shù)據(jù)背后的信息。
而在此次利用特征工程進行時間變量處理的過程中,朱進同學(xué)發(fā)現(xiàn),在某一用戶進行修改的相鄰時間段中有一批用戶也有相同的行為,這批用戶之間可能沒有空間上的聯(lián)系,但是表現(xiàn)出從眾現(xiàn)象,得出了從眾性評估網(wǎng)絡(luò)的結(jié)論,并將用戶修改時間套入結(jié)論模型中,對其行為進行預(yù)測。
二、大規(guī)模技術(shù)和算法改進更新建模
在利用特征工程進行用戶行為預(yù)測過程中,朱進同學(xué)圍繞用戶開展多維度的考察,準(zhǔn)確性高,主觀影響較小。但這還不是一個完美的方案。主要存在兩個方面的問題:
1.模型處于靜態(tài)層面,而數(shù)據(jù)還在不斷更新,模型更新有困難。因此,在處理過程中還需要考慮長期因素和短期因素,將長短期因素結(jié)合起來分析,優(yōu)化建模過程,通過大規(guī)模計算和算法改進,實現(xiàn)建模更新。
2.樣本數(shù)據(jù)多,計算機靈活性和維護比較差,需要通過改進算法解決。
在改進算法過程中,朱進主要提出了三個方向:
1.利用Data Combined ,將變量交叉,一個變量做不好,變量交叉可能就做好了。
2.Lasso是一個比較前沿的模型,可以當(dāng)成提取工具,進行降維,將各個特征糅合成一個特征,利用公式算出用戶是否二次貸款的概率。
3.利用CART把不必要的東西去掉,進行降維處理,簡化過程。
分享會過程中,飛蟬智投團隊成員對分享內(nèi)容表現(xiàn)出濃烈的興趣,展開深入探討,朱進同學(xué)也針對智投團隊的問題深入思考、悉心講解,現(xiàn)場氣氛熱烈。
分享結(jié)束后,朱進同學(xué)和飛蟬智投CTO“Jack船長”以及其他數(shù)據(jù)挖掘的同事進行了交流和經(jīng)驗分享。
未來,飛蟬智投將與各大高等院校展開合作,汲取最新研究理論精華,提升技術(shù)水平,通過大數(shù)據(jù)、機器學(xué)習(xí)等Fintech技術(shù),對用戶金融數(shù)據(jù)進行挖掘分析,構(gòu)建用戶畫像,幫助券商進行精準(zhǔn)營銷,提升轉(zhuǎn)化效果。
想了解更多關(guān)于智能投顧以及機器學(xué)習(xí)的技巧,可添加微信號【feichanzhitou】,來勾搭小編哦!