提到社交網(wǎng)絡(luò)分析,推薦系統(tǒng)、風(fēng)控模型這些名詞,相信你并不陌生,社交網(wǎng)絡(luò)分析無(wú)非是 Pandas+Matplotlib,推薦系統(tǒng)大概率是余弦相似性、協(xié)同過(guò)濾,風(fēng)控則被 LR(邏輯回歸)、XGBoost 這些成熟的模型占據(jù)。
但也許你不知道的是,看似相去甚遠(yuǎn)的社交網(wǎng)絡(luò)分析、推薦系統(tǒng)、金融風(fēng)險(xiǎn)預(yù)測(cè),都可以用網(wǎng)絡(luò)挖掘的思想來(lái)實(shí)現(xiàn)。網(wǎng)絡(luò)挖掘還可以應(yīng)用到其他的領(lǐng)域,比如搜索引擎、知識(shí)圖譜、城市計(jì)算等。
什么是網(wǎng)絡(luò)挖掘
其實(shí)與一般意義上的數(shù)據(jù)挖掘/數(shù)據(jù)分析殊途同歸,都是通過(guò)挖掘/分析方法,獲取數(shù)據(jù)中的包含的信息和知識(shí)。
不同的是,一般意義的數(shù)據(jù)挖掘是通過(guò)算法模型(比如常用的回歸、分類(lèi)、聚類(lèi)模型)進(jìn)行描述/預(yù)測(cè),網(wǎng)絡(luò)挖掘則給出了新的解決方式。
通過(guò)將數(shù)據(jù)/問(wèn)題抽象為網(wǎng)絡(luò)模型,來(lái)幫助我們更好地進(jìn)行數(shù)據(jù)分析/數(shù)據(jù)挖掘。
為什么要抽象為網(wǎng)絡(luò)模型?比如我們?cè)谝粋€(gè)社交網(wǎng)絡(luò)中,通常我們?cè)趺慈ふ易罹邆鞑チΦ拇骎,一般來(lái)說(shuō)無(wú)非把各個(gè)用戶的粉絲數(shù)排個(gè)序。
而網(wǎng)挖掘的思路不太一樣,我們可以通過(guò)構(gòu)建用戶相互關(guān)注的網(wǎng)絡(luò)模型來(lái)尋找出大V,這里我們關(guān)注的是在信息傳播中真正的影響力(很多時(shí)候,粉絲最多的,并不一定是最具傳播力的)。
除此之外,我們還可以看到網(wǎng)絡(luò)中不同的組群(比如不同愛(ài)好的群體)、分布的密度等等,這可以從宏觀上去幫助我們分析整個(gè)數(shù)據(jù)樣本中的關(guān)系。
基于社交網(wǎng)絡(luò)的組群發(fā)現(xiàn)
可以說(shuō)網(wǎng)絡(luò)挖掘在基本的描述性統(tǒng)計(jì)方面又更進(jìn)了一步,從關(guān)鍵節(jié)點(diǎn)的識(shí)別到組群發(fā)現(xiàn),從某種程度上,可以發(fā)現(xiàn)很多我們做一般的描述性分析所得不到的深刻洞見(jiàn)。
網(wǎng)絡(luò)模型如何實(shí)現(xiàn)
網(wǎng)絡(luò)挖掘無(wú)非是把問(wèn)題抽象為網(wǎng)絡(luò)的模型來(lái)進(jìn)行分析,所以對(duì)于網(wǎng)絡(luò)建模來(lái)說(shuō),我們主要是要去了解節(jié)點(diǎn)和連邊。而對(duì)于節(jié)點(diǎn)的重要性,中心性則是關(guān)鍵的指標(biāo);對(duì)于節(jié)點(diǎn)間的關(guān)系,傳遞性和相似度有著重要的意義。
以及網(wǎng)絡(luò)相似衡量指標(biāo):節(jié)點(diǎn)度數(shù)分布、聚類(lèi)系數(shù)、平均路徑長(zhǎng)度等等。
網(wǎng)絡(luò)的節(jié)點(diǎn)和連邊
當(dāng)然更重要的是,在面對(duì)真實(shí)的問(wèn)題或者數(shù)據(jù)的時(shí)候,如何將實(shí)際的問(wèn)題抽象為網(wǎng)絡(luò)模型,我們也稱(chēng)為問(wèn)題形式化。
比如對(duì)于不同的領(lǐng)域,我們通??梢詷?gòu)建這樣的一些網(wǎng)絡(luò)。
比如我們有這樣一份數(shù)據(jù)(Stack Overflow 的用戶技能數(shù)據(jù)),用技能間的連線的值表示技能之間的相關(guān)性權(quán)重。
根據(jù)技能之間的關(guān)系,我們就可以構(gòu)建如下網(wǎng)絡(luò)模型,你看著這個(gè)網(wǎng)絡(luò)很?chē)樔?,其?shí)用networkx(Python庫(kù))來(lái)構(gòu)建,也就是幾行代碼的事情。
通過(guò)這個(gè)網(wǎng)絡(luò)模型我們就可以發(fā)現(xiàn)很多有意思的事情,比如蘋(píng)果系的開(kāi)發(fā)技能(ios/mac)是聚在一塊,windows 系開(kāi)發(fā)聚在一塊,網(wǎng)頁(yè)開(kāi)發(fā)也是如此,這就是不同的社區(qū)。如果跟這些社區(qū)都有鏈接的,一定是一些相對(duì)通用的技能,比如 Linux、Git、Python 等。
當(dāng)然,這只是網(wǎng)絡(luò)模型探索的開(kāi)始,后續(xù)還有很多有意思的問(wèn)題(幫助我們發(fā)現(xiàn)更多知識(shí),應(yīng)用到不同的業(yè)務(wù)模型中):
網(wǎng)絡(luò)挖掘的應(yīng)用
網(wǎng)絡(luò)挖掘在用戶畫(huà)像、商品推薦、金融風(fēng)險(xiǎn)評(píng)估、城市交通優(yōu)化、流言信息傳播等方面有著廣泛的應(yīng)用。很多業(yè)務(wù)用一般的數(shù)據(jù)挖掘方法效果不佳的,加入網(wǎng)絡(luò)模型之后,卻能大幅提升??梢哉f(shuō)網(wǎng)絡(luò)挖掘的應(yīng)用舞臺(tái)無(wú)限寬廣……
網(wǎng)頁(yè)排序
比如谷歌的 PageRank,本身也是在構(gòu)建龐大的網(wǎng)頁(yè)網(wǎng)絡(luò)模型的基礎(chǔ)上(網(wǎng)頁(yè)為節(jié)點(diǎn),超鏈為邊),通過(guò)計(jì)算不同網(wǎng)頁(yè)的中心度(權(quán)重),來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行排序,從而實(shí)現(xiàn)更加精準(zhǔn)的搜索和推薦。
社交網(wǎng)絡(luò)分析
社交網(wǎng)絡(luò)天然適合構(gòu)建網(wǎng)絡(luò)模型進(jìn)行分析,比如信息的傳播預(yù)測(cè)、影響力分析、社交組群發(fā)現(xiàn)、好友推薦、用戶畫(huà)像等等,單獨(dú)拿出來(lái)看個(gè)體,和其他的個(gè)體拿出來(lái)看,發(fā)現(xiàn)一些不一樣的東西。從某種程度說(shuō),社交網(wǎng)絡(luò)分析是建立在網(wǎng)絡(luò)模型分析的基礎(chǔ)之上。
推薦系統(tǒng)
傳統(tǒng)的協(xié)同過(guò)濾算法的基本思想是,將與目標(biāo)用戶選擇相似性度較高的用戶喜歡的商品,推薦給目標(biāo)用戶。而網(wǎng)絡(luò)模型的加入(比如好友網(wǎng)絡(luò)、商品網(wǎng)絡(luò)),怎么可以很大程度上解決多樣性問(wèn)題、冷啟動(dòng)問(wèn)題、社會(huì)推薦問(wèn)題,從而提升某些場(chǎng)景下的推薦精度。
知識(shí)圖譜
網(wǎng)絡(luò)挖掘在知識(shí)圖譜中也發(fā)揮著重要的作用,比如遍歷與路徑探尋、關(guān)鍵節(jié)點(diǎn)挖掘等。PatientsLikeMe.com 將病人、病癥、醫(yī)院、醫(yī)生、藥品等等醫(yī)療數(shù)據(jù)組織成知識(shí)圖譜。在圖譜上,醫(yī)生可以搜索家族病史網(wǎng)絡(luò),查詢相似病例及解決方案;病人可以搜索疾病相關(guān)的病癥、藥品、醫(yī)生、相似病例等。
所以,網(wǎng)絡(luò)挖掘其實(shí)是強(qiáng)化了數(shù)據(jù)分析/挖掘的技能,以一種全新的視角,探索更為全面、宏觀的網(wǎng)絡(luò)知識(shí),以及個(gè)體之間的關(guān)系。
聯(lián)系客服