導(dǎo)讀：在本文中，我們將介紹如下主題：
什么是數(shù)據(jù)挖掘？要確定數(shù)據(jù)挖掘在不斷增強(qiáng)的其他相似概念中的位置，還將學(xué)習(xí)這一學(xué)科成長和變化的歷史。
我們?nèi)绾芜M(jìn)行數(shù)據(jù)挖掘？在此，我們將對比數(shù)據(jù)挖掘項(xiàng)目中常用的幾種過程或者方法論。
數(shù)據(jù)挖掘中使用哪些技術(shù)？在這一部分，將總結(jié)數(shù)據(jù)挖掘定義中包含的典型數(shù)據(jù)分析技術(shù)，并強(qiáng)調(diào)這本精通級書籍將要涵蓋的較為獨(dú)特卻未得到應(yīng)有重視的技術(shù)。

作者：梅甘·斯夸爾

如需轉(zhuǎn)載請聯(lián)系大數(shù)據(jù)華章科技

01 什么是數(shù)據(jù)挖掘

數(shù)據(jù)挖掘的目標(biāo)是找出數(shù)據(jù)中的模式，但是細(xì)看之下，這一過分簡單的解釋就站不住腳。

畢竟，尋找模式難道不也是經(jīng)典統(tǒng)計(jì)學(xué)、商業(yè)分析、機(jī)器學(xué)習(xí)甚至更新的數(shù)據(jù)科學(xué)或者大數(shù)據(jù)的目標(biāo)嗎？數(shù)據(jù)挖掘和其他這些領(lǐng)域有什么差別呢？當(dāng)我們實(shí)際上是忙于挖掘模式時，為什么將其稱作“數(shù)據(jù)挖掘”？我們不是已經(jīng)有數(shù)據(jù)了嗎？

從一開始，“數(shù)據(jù)挖掘”這一術(shù)語就明顯有許多問題。這個術(shù)語最初是統(tǒng)計(jì)學(xué)家們對盲目調(diào)查的輕蔑叫法，在這種調(diào)查中，數(shù)據(jù)分析人員在沒有首先形成合適假設(shè)的情況下，就著手尋找模式。

但是，這一術(shù)語在20世紀(jì)90年代成為主流，當(dāng)時的流行媒體風(fēng)傳一種激動人心的研究，將成熟的數(shù)據(jù)庫管理系統(tǒng)領(lǐng)域與來自機(jī)器學(xué)習(xí)和人工智能的最佳算法結(jié)合起來。

“挖掘”這一單詞的加入預(yù)示著這是現(xiàn)代的“淘金熱”，執(zhí)著、無畏的“礦工”們將發(fā)現(xiàn)（且可能從中得益）之前隱藏的珍寶。“數(shù)據(jù)本身可能是珍稀商品”這一思路很快吸引了商業(yè)上和技術(shù)刊物的注意，使他們無視先驅(qū)們努力宣傳的、更為全面的術(shù)語——數(shù)據(jù)庫中的知識發(fā)現(xiàn)（KDD）。

但是，“數(shù)據(jù)挖掘”這一術(shù)語沿用了下來，最終，該領(lǐng)域的一些定義試圖改變其解釋，認(rèn)為它指的只是更漫長、更全面的知識發(fā)現(xiàn)過程中的一步。今天“數(shù)據(jù)挖掘”和KDD被視為非常相似、緊密相關(guān)的術(shù)語。

那么，其他相關(guān)術(shù)語如機(jī)器學(xué)習(xí)、預(yù)測性分析、大數(shù)據(jù)和數(shù)據(jù)科學(xué)又是怎么回事？這些術(shù)語和數(shù)據(jù)挖掘或者KDD是不是一回事？下面我們比較這些術(shù)語：

機(jī)器學(xué)習(xí)
是計(jì)算機(jī)科學(xué)中的一個非常特殊的子領(lǐng)域，其焦點(diǎn)是開發(fā)能從數(shù)據(jù)中學(xué)習(xí)以作出預(yù)測的算法。許多數(shù)據(jù)挖掘解決方案使用了來自機(jī)器學(xué)習(xí)的技術(shù)，但是并不是所有數(shù)據(jù)挖掘都試圖從數(shù)據(jù)中作出預(yù)測或者學(xué)習(xí)。有時候，我們只是想要找到數(shù)據(jù)中的一個模式。實(shí)際上，我們所研究的數(shù)據(jù)挖掘解決方案中只有少數(shù)使用了機(jī)器學(xué)習(xí)技術(shù)，而更多的方案中并沒有使用。
預(yù)測性分析
有時簡稱為分析，是各個領(lǐng)域中試圖從數(shù)據(jù)中作出預(yù)測的計(jì)算解決方案的統(tǒng)稱。我們可以思考商業(yè)分析、媒體分析等不同術(shù)語。有些（但并不是全部）預(yù)測性分析解決方案會使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行預(yù)測，但是同樣，在數(shù)據(jù)挖掘中，我們并不總是對預(yù)測感興趣。
大數(shù)據(jù)
這一術(shù)語指的是處理非常大量數(shù)據(jù)的問題和解決方案，與我們是要搜索數(shù)據(jù)中的模式還是簡單地存儲這些數(shù)據(jù)無關(guān)。對比大數(shù)據(jù)和數(shù)據(jù)挖掘這兩個術(shù)語，許多數(shù)據(jù)挖掘問題在數(shù)據(jù)集很大時更為有趣，所以為處理大數(shù)據(jù)所開發(fā)的解決方案遲早可用于解決數(shù)據(jù)挖掘問題。但是這兩個術(shù)語只是互為補(bǔ)充，不能互換使用。
數(shù)據(jù)科學(xué)
是最接近于KDD過程的術(shù)語，數(shù)據(jù)挖掘是它們的一個步驟。因?yàn)閿?shù)據(jù)科學(xué)目前是極受歡迎的流行語，它的含義將隨著這一領(lǐng)域的成熟而繼續(xù)發(fā)展和變化。

我們可以查看Google Trends，了解上述術(shù)語在一段時期內(nèi)的搜索熱度。Google Trends工具展示了一段時期內(nèi)人們搜索各種關(guān)鍵詞的頻度。

在圖1-1中，新出現(xiàn)的術(shù)語“大數(shù)據(jù)”目前是炙手可熱的流行語，“數(shù)據(jù)挖掘”居于第二位，然后是“機(jī)器學(xué)習(xí)”“數(shù)據(jù)科學(xué)”和“預(yù)測性分析”。（我試圖加入搜索詞“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”，但是結(jié)果太接近于0，無法看到趨勢線。）

y軸以0～100的指數(shù)顯示了特定搜索詞的流行度。此外，我們還將Google Trends給出的2014～2015年每周指數(shù)組合為月平均值。

▲圖1-1 5個常用數(shù)據(jù)相關(guān)術(shù)語的Google Trends搜索結(jié)果

02 如何進(jìn)行數(shù)據(jù)挖掘

由于數(shù)據(jù)挖掘傳統(tǒng)上被視為KDD全過程中的一步，并且越來越成為數(shù)據(jù)科學(xué)過程的一部分，在本文中我們將熟悉其所涉及的步驟。進(jìn)行數(shù)據(jù)挖掘有多種流行的方法。

1. Fayyad等人的KDD過程

知識發(fā)現(xiàn)和數(shù)據(jù)挖掘過程的早期版本之一由Usama Fayyad、Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇論文（The KDD Process for Extracting Useful Knowledge from Volumes of Data）中定義。

這篇論文在當(dāng)時很重要，它將快速變化的KDD方法論精煉為具體的一組步驟。如下步驟以原始數(shù)據(jù)開始，以知識作為結(jié)束：

數(shù)據(jù)選擇。
這一步的輸入是原始數(shù)據(jù)，輸出是較小的數(shù)據(jù)子集，稱為
目標(biāo)數(shù)據(jù)
。
數(shù)據(jù)預(yù)處理。
目標(biāo)數(shù)據(jù)得到清理，刪除異常值，處理缺失數(shù)據(jù)。這一步的輸出是
預(yù)處理數(shù)據(jù)或清理后數(shù)據(jù)
。
數(shù)據(jù)變換。
清理后的數(shù)據(jù)組織成適合于挖掘步驟的格式，如果有必要，精簡特征或者變量的數(shù)量。這一步的輸出是
變換后數(shù)據(jù)
。
數(shù)據(jù)挖掘。
用適合于問題的一種或者多種數(shù)據(jù)挖掘算法對變換后數(shù)據(jù)進(jìn)行挖掘，這一步的輸出是
發(fā)現(xiàn)的模式
。
數(shù)據(jù)解釋/評估。
評估所發(fā)現(xiàn)模式解決手上問題的能力。這一步的輸出是
知識
。

由于這一過程從原始數(shù)據(jù)得出知識，因此，這些作者對“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”這一術(shù)語作出了真正的貢獻(xiàn)，而不僅僅是簡單的數(shù)據(jù)挖掘。

2. 韓家煒等人的KDD過程

韓家煒、Micheline Kamber和裴健所著的流行數(shù)據(jù)挖掘教科書《Data Mining: Concepts and Techniques》描述了知識發(fā)現(xiàn)過程的另一個版本，其中的步驟也是從原始數(shù)據(jù)導(dǎo)出知識：

數(shù)據(jù)清理。
這一步的輸入是原始數(shù)據(jù)，輸出是
清理后的數(shù)據(jù)
。
數(shù)據(jù)整合。
在這一步中，清理后數(shù)據(jù)被整合（如果它們來自多個來源）。這一步的輸出是
整合數(shù)據(jù)
。
數(shù)據(jù)選擇。
數(shù)據(jù)集被精簡為僅包含手上問題所需的數(shù)據(jù)。這一步的輸出是
較小的數(shù)據(jù)集
。
數(shù)據(jù)變換。
較小的數(shù)據(jù)集被合并為一種適合于將來的數(shù)據(jù)挖掘步驟的形式，稱為
變換后數(shù)據(jù)
。
數(shù)據(jù)挖掘。
變換后的數(shù)據(jù)由設(shè)計(jì)用于發(fā)現(xiàn)數(shù)據(jù)中模式的智能算法處理。這一步的輸出是一種或者多種模式。
模式評估。
評估所發(fā)現(xiàn)模式的興趣度和解決手上問題的能力。這一步的輸出是適用于每個模式（代表知識）的興趣度計(jì)量。
知識表示。在這一步中，通過各種手段（包括可視化）將知識傳達(dá)給用戶。

在Fayyad和韓的方法中，都預(yù)計(jì)該過程在必要時需要多次重復(fù)這些步驟。例如，如果在變換步驟中，分析人員發(fā)現(xiàn)需要再進(jìn)行一次數(shù)據(jù)清理或者預(yù)處理，這兩種方法都規(guī)定分析人員應(yīng)該按原路返回，完成前面未完成步驟的第二次迭代。

3. CRISP-DM過程

KDD過程的第3種流行版本稱為CRISP-DM，其用于許多商業(yè)和應(yīng)用領(lǐng)域，它的全稱是CRoss-Industry Standard Process for Data Mining（跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程），包含如下步驟：

業(yè)務(wù)理解。
在這一步中，分析人員花時間從業(yè)務(wù)視角理解數(shù)據(jù)挖掘項(xiàng)目的動機(jī)。
數(shù)據(jù)理解。
在這一步中，分析人員熟悉數(shù)據(jù)及其潛在優(yōu)勢和不足，并開始生成假設(shè)。分析人員的任務(wù)是在必要時重新評估第1步的業(yè)務(wù)理解。
數(shù)據(jù)準(zhǔn)備。
這一步包含其他模型作為單獨(dú)步驟列舉的選擇、整合、變換和預(yù)處理步驟。CRISP-DM模型對這些任務(wù)的執(zhí)行順序沒有要求。
建模。
這一步中對數(shù)據(jù)應(yīng)用算法以發(fā)現(xiàn)模式。這一步驟最接近于其他KDD模型中的數(shù)據(jù)挖掘步驟。分析人員的任務(wù)是在建模和挖掘步驟需要的時候重新評估第3步的數(shù)據(jù)準(zhǔn)備。
評估。
評估模型和發(fā)現(xiàn)的模式在回答手上的業(yè)務(wù)問題中的價(jià)值。分析人員的任務(wù)是在必要時重溫第1步的業(yè)務(wù)理解。
部署。
呈現(xiàn)發(fā)現(xiàn)的知識和模型，并投產(chǎn)以解決手上的原始問題。

這種方法的優(yōu)勢之一是，迭代是內(nèi)建的。在特定步驟之間，分析人員將檢查當(dāng)前步驟仍然與之前的某些步驟保持一致。另一個優(yōu)勢是明確地提醒分析人員，即使在評估步驟中也要將業(yè)務(wù)問題放在項(xiàng)目的核心位置。

4. 六步過程

當(dāng)我在大學(xué)里教授數(shù)據(jù)科學(xué)入門課程時，使用了自己創(chuàng)造的一種混合方法。這種方法稱為“六步過程”，這種專門設(shè)計(jì)的方法對于授課很合適。

我的六步方法消除了沒有經(jīng)驗(yàn)的學(xué)生在CRISP-DM中的開放式任務(wù)（如業(yè)務(wù)理解）或者基于企業(yè)任務(wù)（如部署）中可能遇到的歧義問題。

此外，六步方法要求學(xué)生在過程的開始和最后回答“為什么這么做”和“這有什么意義”的問題，以拓展學(xué)生的批判性思維技能。我的六步方法如下：

問題陳述。
在這一步中，學(xué)生確定他們試圖解決的問題。在理想狀況下，了解進(jìn)行這些工作的原因可以提高他們的積極性。
數(shù)據(jù)收集和存儲。
在這一步中，學(xué)生們定位數(shù)據(jù)并規(guī)劃這一問題所需數(shù)據(jù)的存儲。他們還提供一些信息，這些信息與回答他們感興趣的問題所需數(shù)據(jù)的來源、格式以及所有字段含義相關(guān)。
數(shù)據(jù)清理。
在這一步中，學(xué)生們認(rèn)真選擇真正需要的數(shù)據(jù)，并將數(shù)據(jù)處理成挖掘步驟所需的格式。
數(shù)據(jù)挖掘。
在這一步中，學(xué)生形式化所選擇的數(shù)據(jù)挖掘方法。他們描述使用的算法以及原因。這一步的輸出是模型和發(fā)現(xiàn)的模式。
表示和可視化。
在這一步中，學(xué)生直觀地展示工作成果。這一步的輸出可以是表格、圖示、圖形、圖表、網(wǎng)絡(luò)框圖、映射圖等。
問題解決。
這一步對數(shù)據(jù)挖掘初學(xué)者很重要，它明確地鼓勵學(xué)生評估第5步中展示的模式是不是第1步中提出的問題的答案。學(xué)生們被要求說明模型或者結(jié)果的局限性，確定用這種方法無法回答的部分相關(guān)問題。

5. 哪一種數(shù)據(jù)挖掘方法最好

2014年，Gregory Piatetsky-Shapiro在其非常受歡迎的數(shù)據(jù)挖掘電子郵件通訊KD-Nuggets上進(jìn)行的調(diào)查包含了一個問題：“你在分析、數(shù)據(jù)挖掘或者數(shù)據(jù)庫科學(xué)項(xiàng)目中使用哪一種主要方法？”

43%的調(diào)查對象表示他們使用CRISP-DM方法。
27%的調(diào)查對象使用自己的方法或者混合方法。
7%的調(diào)查對象使用傳統(tǒng)的KDD方法。
其余調(diào)查對象選擇另一種KDD方法。

這些結(jié)果和2007年同一郵件通訊所做的相同調(diào)查結(jié)果類似。

我的最佳建議是，不要過于重視用于數(shù)據(jù)挖掘項(xiàng)目的方法，隨便挑一種即可。如果完全不使用任何方法，那么就有遺漏重要步驟的危險(xiǎn)。選擇看上去對你的項(xiàng)目和需求有效的方法，然后盡可能遵循該方法的步驟。

03 在數(shù)據(jù)挖掘中使用哪些技術(shù)

現(xiàn)在我們對數(shù)據(jù)挖掘在整個KDD或者數(shù)據(jù)科學(xué)過程中的位置有了了解，下面就可以開始討論完成這一任務(wù)的細(xì)節(jié)了。

從試圖定義數(shù)據(jù)挖掘的早期起，幾類相關(guān)的問題就一再出現(xiàn)。Fayyad等人在1996年的另一篇重要論文“From Data Mining to Knowledge Discovery in Databases”中提出了6類問題，我們將其總結(jié)如下：

分類問題。
這里，有需要根據(jù)某些特征分成預(yù)定義類別的數(shù)據(jù)。我們需要一種算法，使用過去已經(jīng)分類的數(shù)據(jù)，學(xué)習(xí)如何將未知數(shù)據(jù)置于正確的類別下。
聚類問題。
這類問題是，我們需要根據(jù)數(shù)據(jù)點(diǎn)的特征將其分為不同類別，但是事先不知道這些類別。我們需要一種能夠計(jì)量數(shù)據(jù)點(diǎn)之間相似性并自動根據(jù)這些相似性分割數(shù)據(jù)的算法。
回歸問題。
我們的數(shù)據(jù)必須根據(jù)某個預(yù)測變量進(jìn)行映射，所以必須學(xué)習(xí)進(jìn)行這種映射的函數(shù)。
摘要問題。
假定我們的數(shù)據(jù)需要以某種方式縮短或者總結(jié)。這可能很簡單，只是從數(shù)據(jù)計(jì)算基本統(tǒng)計(jì)數(shù)字；也可能很復(fù)雜，需要學(xué)習(xí)如何總結(jié)文本，或者為文本找出一個主題模型。
依賴性建模問題。
對于這些問題，我們的數(shù)據(jù)之間可能有某種聯(lián)系，我們需要開發(fā)一個算法，計(jì)算這種聯(lián)系的概率，或者描述互相聯(lián)系的數(shù)據(jù)的結(jié)構(gòu)。
變化和偏差檢測問題。
在另一種情況下，我們的數(shù)據(jù)已經(jīng)有了顯著的變化，或者數(shù)據(jù)的一些子集偏離了正常值。為了解決這些問題，我們需要一種能夠自動發(fā)現(xiàn)這些問題的算法。

在同年撰寫的另一篇論文中，這些作者還加入了其他幾種類別：

鏈接分析問題。
我們有一些相關(guān)的數(shù)據(jù)點(diǎn)，必須發(fā)現(xiàn)它們之間的關(guān)系，并以數(shù)據(jù)集的支持程度和關(guān)系置信度的方式描述它們。
序列分析問題。
想象我們的數(shù)據(jù)點(diǎn)遵循某種順序，如時間序列或者基因組，我們必須發(fā)現(xiàn)序列中的趨勢或者偏差，或者發(fā)現(xiàn)導(dǎo)致序列的原因，以及序列的演化方式。

韓家煒、Kamber和裴健在前面提及的教科書中描述了數(shù)據(jù)挖掘所能解決的4類問題，并進(jìn)一步將其分為描述性和預(yù)測性兩大類。描述性數(shù)據(jù)挖掘意味著找出模式，幫助我們理解擁有的數(shù)據(jù)。預(yù)測性數(shù)據(jù)挖掘意味著找出模式，幫助我們預(yù)測尚未擁有的數(shù)據(jù)。

在描述性類別中，他們列出了如下數(shù)據(jù)挖掘問題：

數(shù)據(jù)特性描述和數(shù)據(jù)區(qū)分問題，包括數(shù)據(jù)摘要或者概念特性描述（或稱描述）。
頻率挖掘，包括找出數(shù)據(jù)中的頻繁模式、關(guān)聯(lián)規(guī)則和相關(guān)性。

在預(yù)測性類別中，他們列出了如下問題：

分類，回歸
聚類
離群值和異常檢測

很容易看出，F(xiàn)ayyad等人和韓家煒等人的問題列表有許多相似之處，只是項(xiàng)目的分組不同。確實(shí)，如果你過去曾經(jīng)完成過數(shù)據(jù)挖掘項(xiàng)目，這兩個列表上出現(xiàn)的項(xiàng)目就是你可能已經(jīng)熟悉的數(shù)據(jù)挖掘問題。分類、回歸和聚類是非常流行的基本數(shù)據(jù)挖掘技術(shù)，所以從業(yè)者們所看到的每本數(shù)據(jù)挖掘書籍幾乎都介紹過它們。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

01 什么是數(shù)據(jù)挖掘

02 如何進(jìn)行數(shù)據(jù)挖掘

03 在數(shù)據(jù)挖掘中使用哪些技術(shù)