數(shù)據(jù)挖掘的目的,就是從數(shù)據(jù)中找到更多的優(yōu)質(zhì)用戶。
什么是有指導(dǎo)的數(shù)據(jù)挖掘方法模型?
以及數(shù)據(jù)挖掘如何構(gòu)建模型?
在構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型,首先要理解和定義一些模型試圖估計(jì)的目標(biāo)變量。
在構(gòu)造有指導(dǎo)的數(shù)據(jù)挖掘模型的過程中
一、要定義模型的結(jié)構(gòu)和目標(biāo)。
二、增加響應(yīng)建模。
三、考慮模型的穩(wěn)定性。
四、通過預(yù)測(cè)模型、剖析模型來討論模型的穩(wěn)定性。
下面我們將從具體的步驟談起,如何構(gòu)造一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型。
把業(yè)務(wù)問題轉(zhuǎn)換為數(shù)據(jù)挖掘問題
為以家庭為基礎(chǔ)的企業(yè)客戶設(shè)定一個(gè)撥打計(jì)劃,該計(jì)劃將減少客戶的退出率
確定那些網(wǎng)絡(luò)交易可能是欺詐
如果葡萄酒和啤酒已停止銷售,列出處于銷售風(fēng)險(xiǎn)的產(chǎn)品
根據(jù)當(dāng)前市場(chǎng)營(yíng)銷策略,預(yù)測(cè)未來三年的客戶數(shù)量
有指導(dǎo)數(shù)據(jù)挖掘往往作為一個(gè)技術(shù)問題,即找到一個(gè)模型以解釋一組輸入變量與目標(biāo)變量的關(guān)系。這往往是數(shù)據(jù)挖掘的中心,但如果目標(biāo)變量沒有正確的定義以及沒有確定適當(dāng)?shù)妮斎胱兞?。反過來,這些任務(wù)又取決于對(duì)要解決的業(yè)務(wù)問題的理解程度。沒有正確的理解業(yè)務(wù)問題就沒辦法把數(shù)據(jù)轉(zhuǎn)化為挖掘任務(wù)。在技術(shù)開始之前,必須認(rèn)識(shí)兩個(gè)問題:如何使用結(jié)果?以何種方式交付結(jié)果?
例如:許多數(shù)據(jù)挖掘工作旨在提高客戶保留
主動(dòng)向高風(fēng)險(xiǎn)或高價(jià)值的客戶提供一個(gè)優(yōu)惠,挽留他們
改變獲取渠道的組合,以利于那些能帶來最忠實(shí)客戶的渠道
預(yù)測(cè)未來幾個(gè)月的客戶數(shù)量
改變會(huì)影響客戶的滿意度的產(chǎn)品的缺陷
有指導(dǎo)的數(shù)據(jù)挖掘項(xiàng)目可能會(huì)產(chǎn)生幾個(gè)不同類型的交付形式。交付形式往往是一個(gè)報(bào)表或充滿圖標(biāo)和圖形的簡(jiǎn)報(bào)。交付形式會(huì)影響數(shù)據(jù)挖掘的結(jié)果。當(dāng)我們的目的是提醒銷售驚雷時(shí),產(chǎn)生一個(gè)營(yíng)銷測(cè)試的客戶列表是不夠的。所謂的如何交付結(jié)果,就是在挖掘結(jié)果產(chǎn)生之后,我們要如何給用戶提供這個(gè)結(jié)果,目的是好的,但實(shí)際的過程中會(huì)遇到,會(huì)遇到我們沒有辦法去交付這個(gè)結(jié)果。因?yàn)?,你交付的結(jié)果,可能會(huì)導(dǎo)致一些本不該流失的客戶,卻流失了。這也是在具體工作之前,我們要考慮的問題。
數(shù)據(jù)挖掘人員的作用是確保業(yè)務(wù)問題的最后表述可以被轉(zhuǎn)換成一個(gè)技術(shù)問題。前提是正確的業(yè)務(wù)問題。
選擇合適的數(shù)據(jù)
尋找客戶數(shù)據(jù)的首要地方就是企業(yè)數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)已經(jīng)被清洗和核實(shí)過,并且多個(gè)數(shù)據(jù)源被整合到一起。一個(gè)單一的數(shù)據(jù)模型有望確保命名相似的字段在整個(gè)數(shù)據(jù)庫和兼容的數(shù)據(jù)類型中都有相同的含義。企業(yè)數(shù)據(jù)庫是一個(gè)歷史數(shù)據(jù)庫,新數(shù)據(jù)不斷的被追加,但歷史數(shù)據(jù)一直不變。從這一點(diǎn)更有利于做決策支持。
問題在于,在許多企業(yè)組織中,這樣的數(shù)據(jù)倉庫實(shí)際上并不存在,或者存在一個(gè)或多個(gè)數(shù)據(jù)倉庫,不符合直接作為規(guī)范的數(shù)據(jù)用來挖掘。在這種情況下,挖掘人員,必須尋求來自不同的部門的數(shù)據(jù)庫和業(yè)務(wù)系統(tǒng)內(nèi)的數(shù)據(jù)。業(yè)務(wù)系統(tǒng)數(shù)據(jù)是指執(zhí)行一個(gè)特定的任務(wù),如網(wǎng)站運(yùn)行,索賠處理,完成呼叫或賬單處理。它們的目標(biāo)是快速、準(zhǔn)確的處理事務(wù),數(shù)據(jù)可以保存成任何格式。而這些對(duì)于沒有數(shù)據(jù)倉庫的一些企業(yè)來說,這些數(shù)據(jù)往往是隱藏的很深,需要大量的企業(yè)調(diào)度和規(guī)劃來整理這些數(shù)據(jù)。這也就談到了一個(gè)問題:就是數(shù)據(jù)倉庫對(duì)一家企業(yè)的重要性,而建立企業(yè)級(jí)數(shù)據(jù)倉庫,需要的決策不是一個(gè)經(jīng)理就可以完成的,這可能需要企業(yè)級(jí)最高領(lǐng)導(dǎo)下令,下面的所有部門全部配合。
數(shù)據(jù)挖掘工作的方式并不是一直等到完美和干凈的數(shù)據(jù)才進(jìn)行下一步工作。雖然需要額外干凈的數(shù)據(jù),但是受挖掘必須能夠使用目前的數(shù)據(jù),提前入手,開始工作。
多少數(shù)據(jù)才足夠?
①數(shù)據(jù)越多越好,更多意味著更好。在建模期間,必須對(duì)模型集進(jìn)行平衡,使得每個(gè)結(jié)果的數(shù)目都相等。如果在一個(gè)大規(guī)模的樣本中有一個(gè)比例很小的稀有數(shù)據(jù),則一個(gè)較小的、均衡的樣本會(huì)更受歡迎。
②當(dāng)模型集足以建立良好的、穩(wěn)定的模型時(shí),使它更大將會(huì)產(chǎn)生相反的作用,因?yàn)檫@時(shí)需要更長(zhǎng)時(shí)間在更大的模型上去運(yùn)行,由于數(shù)據(jù)挖掘是一個(gè)反復(fù)的過程,這就導(dǎo)致時(shí)間的浪費(fèi)。如果一次建模例程的運(yùn)行都需要數(shù)小時(shí)而不是數(shù)分鐘,這個(gè)時(shí)間的消耗就耗不起的。這就導(dǎo)致,在模型確定后,數(shù)據(jù)并不是越多越好。
需要多久的歷史?
數(shù)據(jù)挖掘使用過去的數(shù)據(jù)預(yù)測(cè)未來。但是,數(shù)據(jù)需要來自多久的過去?這個(gè)沒有定性的回答,這要考慮很多的因素。另一方面,歷史上太久的數(shù)據(jù)未必對(duì)數(shù)據(jù)挖掘有用,因?yàn)槭袌?chǎng)環(huán)境在變化,特別是當(dāng)一些外部事件(如監(jiān)管制度的變化)進(jìn)行了干預(yù)時(shí)尤其如此。對(duì)于許多以客戶為中心的應(yīng)用,2-3年的歷史是合適的。然而,在這種情況下,客戶關(guān)系確實(shí)存在有效才被證明是有價(jià)值的,那么重要的是什么:最初的渠道是什么?最初的報(bào)價(jià)是什么?客戶最初怎么支付的等。
數(shù)據(jù)必須包含什么?
最低限度,數(shù)據(jù)必須包含有可能有意義的結(jié)果的例子。有指導(dǎo)數(shù)據(jù)挖掘的目的是預(yù)測(cè)一個(gè)特定目標(biāo)變量的值,但在有指導(dǎo)的數(shù)據(jù)挖掘中,模型集必須由分類好的數(shù)據(jù)組成。要區(qū)分哪些人拖欠貸款哪些人不可能拖欠,模型集的每個(gè)類都需要有成千上萬的例子。當(dāng)一個(gè)新的申請(qǐng)產(chǎn)生時(shí),他的申請(qǐng)會(huì)與過去的客戶的申請(qǐng)進(jìn)行對(duì)比,可以直接把新的申請(qǐng)歸類。這其中隱含的意思:數(shù)據(jù)可用來形容過去發(fā)生了什么事情,從錯(cuò)誤總吸取教訓(xùn),首先我們必須識(shí)別我們已經(jīng)犯了什么錯(cuò)。
認(rèn)識(shí)數(shù)據(jù)
在數(shù)據(jù)用于構(gòu)建模型之前,在探索數(shù)據(jù)上花費(fèi)時(shí)間的重要性通常沒有得到足夠的重視。要在陌生的數(shù)據(jù)集中利用直覺來感應(yīng)發(fā)生了什么事情,唯一辦法就是陷入數(shù)據(jù)之中,你會(huì)發(fā)現(xiàn)許多數(shù)據(jù)質(zhì)量的問題,并能夠得到啟發(fā)提出在其他情況下不容易被發(fā)現(xiàn)的問題。
檢查分布
在數(shù)據(jù)庫的初步探索階段,數(shù)據(jù)可視化工具非常有益,如:散列圖、條形圖、地理地圖、Excel等可視化工具對(duì)觀察數(shù)據(jù)提供了強(qiáng)大的支持。
值與描述的比較
觀察每個(gè)變量的值,并把它們與現(xiàn)有文件中的變量描述進(jìn)行比較。這項(xiàng)工作可以發(fā)現(xiàn)不準(zhǔn)確或不完整的數(shù)據(jù)描述。其實(shí)是,你記錄的數(shù)據(jù),是否和你要描述的數(shù)據(jù)一致,這個(gè)要先確定。
詢問大問題
如果數(shù)據(jù)看上去似乎不明智或者不如所愿,記錄下來。數(shù)據(jù)探索過程的一個(gè)重要輸出是對(duì)提供該數(shù)據(jù)的人給出一個(gè)問題列表。通常,這些問題將需要進(jìn)一步研究。對(duì)數(shù)據(jù)的探索的前期工作,判斷字段,含義,是否有用,是否缺失,是否有問題等一系列問題,需要大量的工作,同時(shí)也是一件心細(xì)的過程。
創(chuàng)建一個(gè)模型集
模型集包含建模過程中使用的所有數(shù)據(jù)。模型集中的一些數(shù)據(jù)被用來尋找模式,對(duì)于一些技術(shù),模型集中的一些數(shù)據(jù)被用來驗(yàn)證該模型是否穩(wěn)定。模型集也可用來評(píng)估模型的性能。創(chuàng)建一個(gè)模型集需要從多個(gè)數(shù)據(jù)源聚合數(shù)據(jù)以形成客戶簽名,然后準(zhǔn)備數(shù)據(jù)進(jìn)行分析。
聚合客戶簽名
模型集是一個(gè)表或一系列表,每一行表示一個(gè)要研究的項(xiàng)目,而字段表示該項(xiàng)目有利于建模的一切。當(dāng)數(shù)據(jù)描述客戶時(shí),模型集的行通常稱為客戶簽名??蛻艉灻總€(gè)客戶都由他離開的蹤跡唯一確定,你可以利用蹤跡充分的了解每個(gè)客戶。
創(chuàng)建一個(gè)平衡的樣本
知識(shí)發(fā)現(xiàn)算法需通過實(shí)例來進(jìn)行學(xué)習(xí)。如果沒有足夠數(shù)量的關(guān)于某個(gè)特定類或行為模型的例子,數(shù)據(jù)挖掘工具無法得出一個(gè)預(yù)測(cè)該類或模式的模型。在這種情況下,利用罕見事件的例子豐富該模型集,提高建模中該事件的概率。如果比較罕見,有兩種方法可以平衡樣本:①分層抽樣。②權(quán)重。
時(shí)間幀
基于一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)建立模型會(huì)增加風(fēng)險(xiǎn),即學(xué)習(xí)的知識(shí)不真實(shí)。結(jié)合模型集中的多個(gè)時(shí)間幀可以消除季節(jié)性因素的影響。由于季節(jié)性影響如此重要,因此應(yīng)該把它們明確地添加到客戶簽名中。把客戶的信息按照時(shí)間細(xì)分,或是在相應(yīng)的數(shù)據(jù)上打上標(biāo)簽。
創(chuàng)建一個(gè)預(yù)測(cè)模型
任何客戶標(biāo)簽在預(yù)測(cè)變量和目標(biāo)變量之間都應(yīng)該有一個(gè)時(shí)間差。時(shí)間可分為,過去、現(xiàn)在、將來。當(dāng)部署模型時(shí),它能夠使用最近的數(shù)據(jù)預(yù)測(cè)未來。
劃分模型集
對(duì)于預(yù)測(cè)模型,一個(gè)好主意是測(cè)試集所在的時(shí)間段與訓(xùn)練集和驗(yàn)證集的時(shí)間段不同。一個(gè)模型的穩(wěn)定性證據(jù)在于它在連續(xù)的月份中都能夠良好的運(yùn)行。來自不同的時(shí)間段的測(cè)試集,也稱為不合時(shí)宜的測(cè)試集,雖然這樣的測(cè)試集并不總是可用,但是它是驗(yàn)證模型穩(wěn)定性的一個(gè)很好的方法。
聯(lián)系客服