免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
一文看懂?dāng)?shù)據(jù)挖掘:哪一種方法最好?都需要哪些技術(shù)?

導(dǎo)讀:在本文中,我們將介紹如下主題:

什么是數(shù)據(jù)挖掘?要確定數(shù)據(jù)挖掘在不斷增強(qiáng)的其他相似概念中的位置,還將學(xué)習(xí)這一學(xué)科成長和變化的歷史。

我們?nèi)绾芜M(jìn)行數(shù)據(jù)挖掘?在此,我們將對比數(shù)據(jù)挖掘項(xiàng)目中常用的幾種過程或者方法論。

數(shù)據(jù)挖掘中使用哪些技術(shù)?在這一部分,將總結(jié)數(shù)據(jù)挖掘定義中包含的典型數(shù)據(jù)分析技術(shù),并強(qiáng)調(diào)這本精通級書籍將要涵蓋的較為獨(dú)特卻未得到應(yīng)有重視的技術(shù)。

作者:梅甘·斯夸爾

如需轉(zhuǎn)載請聯(lián)系大數(shù)據(jù)華章科技

01 什么是數(shù)據(jù)挖掘

數(shù)據(jù)挖掘的目標(biāo)是找出數(shù)據(jù)中的模式,但是細(xì)看之下,這一過分簡單的解釋就站不住腳。

畢竟,尋找模式難道不也是經(jīng)典統(tǒng)計(jì)學(xué)、商業(yè)分析、機(jī)器學(xué)習(xí)甚至更新的數(shù)據(jù)科學(xué)或者大數(shù)據(jù)的目標(biāo)嗎?數(shù)據(jù)挖掘和其他這些領(lǐng)域有什么差別呢?當(dāng)我們實(shí)際上是忙于挖掘模式時,為什么將其稱作“數(shù)據(jù)挖掘”?我們不是已經(jīng)有數(shù)據(jù)了嗎?

從一開始,“數(shù)據(jù)挖掘”這一術(shù)語就明顯有許多問題。這個術(shù)語最初是統(tǒng)計(jì)學(xué)家們對盲目調(diào)查的輕蔑叫法,在這種調(diào)查中,數(shù)據(jù)分析人員在沒有首先形成合適假設(shè)的情況下,就著手尋找模式。

但是,這一術(shù)語在20世紀(jì)90年代成為主流,當(dāng)時的流行媒體風(fēng)傳一種激動人心的研究,將成熟的數(shù)據(jù)庫管理系統(tǒng)領(lǐng)域與來自機(jī)器學(xué)習(xí)和人工智能的最佳算法結(jié)合起來。

“挖掘”這一單詞的加入預(yù)示著這是現(xiàn)代的“淘金熱”,執(zhí)著、無畏的“礦工”們將發(fā)現(xiàn)(且可能從中得益)之前隱藏的珍寶。“數(shù)據(jù)本身可能是珍稀商品”這一思路很快吸引了商業(yè)上和技術(shù)刊物的注意,使他們無視先驅(qū)們努力宣傳的、更為全面的術(shù)語——數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。

但是,“數(shù)據(jù)挖掘”這一術(shù)語沿用了下來,最終,該領(lǐng)域的一些定義試圖改變其解釋,認(rèn)為它指的只是更漫長、更全面的知識發(fā)現(xiàn)過程中的一步。今天“數(shù)據(jù)挖掘”和KDD被視為非常相似、緊密相關(guān)的術(shù)語。

那么,其他相關(guān)術(shù)語如機(jī)器學(xué)習(xí)、預(yù)測性分析、大數(shù)據(jù)和數(shù)據(jù)科學(xué)又是怎么回事?這些術(shù)語和數(shù)據(jù)挖掘或者KDD是不是一回事?下面我們比較這些術(shù)語:

  • 機(jī)器學(xué)習(xí)

    是計(jì)算機(jī)科學(xué)中的一個非常特殊的子領(lǐng)域,其焦點(diǎn)是開發(fā)能從數(shù)據(jù)中學(xué)習(xí)以作出預(yù)測的算法。許多數(shù)據(jù)挖掘解決方案使用了來自機(jī)器學(xué)習(xí)的技術(shù),但是并不是所有數(shù)據(jù)挖掘都試圖從數(shù)據(jù)中作出預(yù)測或者學(xué)習(xí)。有時候,我們只是想要找到數(shù)據(jù)中的一個模式。實(shí)際上,我們所研究的數(shù)據(jù)挖掘解決方案中只有少數(shù)使用了機(jī)器學(xué)習(xí)技術(shù),而更多的方案中并沒有使用。
  • 預(yù)測性分析

    有時簡稱為分析,是各個領(lǐng)域中試圖從數(shù)據(jù)中作出預(yù)測的計(jì)算解決方案的統(tǒng)稱。我們可以思考商業(yè)分析、媒體分析等不同術(shù)語。有些(但并不是全部)預(yù)測性分析解決方案會使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行預(yù)測,但是同樣,在數(shù)據(jù)挖掘中,我們并不總是對預(yù)測感興趣。
  • 大數(shù)據(jù)

    這一術(shù)語指的是處理非常大量數(shù)據(jù)的問題和解決方案,與我們是要搜索數(shù)據(jù)中的模式還是簡單地存儲這些數(shù)據(jù)無關(guān)。對比大數(shù)據(jù)和數(shù)據(jù)挖掘這兩個術(shù)語,許多數(shù)據(jù)挖掘問題在數(shù)據(jù)集很大時更為有趣,所以為處理大數(shù)據(jù)所開發(fā)的解決方案遲早可用于解決數(shù)據(jù)挖掘問題。但是這兩個術(shù)語只是互為補(bǔ)充,不能互換使用。
  • 數(shù)據(jù)科學(xué)

    是最接近于KDD過程的術(shù)語,數(shù)據(jù)挖掘是它們的一個步驟。因?yàn)閿?shù)據(jù)科學(xué)目前是極受歡迎的流行語,它的含義將隨著這一領(lǐng)域的成熟而繼續(xù)發(fā)展和變化。

我們可以查看Google Trends,了解上述術(shù)語在一段時期內(nèi)的搜索熱度。Google Trends工具展示了一段時期內(nèi)人們搜索各種關(guān)鍵詞的頻度。

在圖1-1中,新出現(xiàn)的術(shù)語“大數(shù)據(jù)”目前是炙手可熱的流行語,“數(shù)據(jù)挖掘”居于第二位,然后是“機(jī)器學(xué)習(xí)”“數(shù)據(jù)科學(xué)”和“預(yù)測性分析”。(我試圖加入搜索詞“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”,但是結(jié)果太接近于0,無法看到趨勢線。)

y軸以0~100的指數(shù)顯示了特定搜索詞的流行度。此外,我們還將Google Trends給出的2014~2015年每周指數(shù)組合為月平均值。

▲圖1-1 5個常用數(shù)據(jù)相關(guān)術(shù)語的Google Trends搜索結(jié)果

02 如何進(jìn)行數(shù)據(jù)挖掘

由于數(shù)據(jù)挖掘傳統(tǒng)上被視為KDD全過程中的一步,并且越來越成為數(shù)據(jù)科學(xué)過程的一部分,在本文中我們將熟悉其所涉及的步驟。進(jìn)行數(shù)據(jù)挖掘有多種流行的方法。

1. Fayyad等人的KDD過程

知識發(fā)現(xiàn)和數(shù)據(jù)挖掘過程的早期版本之一由Usama Fayyad、Gregory Piatetsky-Shapiro和 Padhraic Smyth在1996年的一篇論文(The KDD Process for Extracting Useful Knowledge from Volumes of Data)中定義。

這篇論文在當(dāng)時很重要,它將快速變化的KDD方法論精煉為具體的一組步驟。如下步驟以原始數(shù)據(jù)開始,以知識作為結(jié)束:

  • 數(shù)據(jù)選擇。

    這一步的輸入是原始數(shù)據(jù),輸出是較小的數(shù)據(jù)子集,稱為

    目標(biāo)數(shù)據(jù)

  • 數(shù)據(jù)預(yù)處理。

    目標(biāo)數(shù)據(jù)得到清理,刪除異常值,處理缺失數(shù)據(jù)。這一步的輸出是

    預(yù)處理數(shù)據(jù)或清理后數(shù)據(jù)

    。
  • 數(shù)據(jù)變換。

    清理后的數(shù)據(jù)組織成適合于挖掘步驟的格式,如果有必要,精簡特征或者變量的數(shù)量。這一步的輸出是

    變換后數(shù)據(jù)

    。
  • 數(shù)據(jù)挖掘。

    用適合于問題的一種或者多種數(shù)據(jù)挖掘算法對變換后數(shù)據(jù)進(jìn)行挖掘,這一步的輸出是

    發(fā)現(xiàn)的模式

    。
  • 數(shù)據(jù)解釋/評估。

    評估所發(fā)現(xiàn)模式解決手上問題的能力。這一步的輸出是

    知識

    。

由于這一過程從原始數(shù)據(jù)得出知識,因此,這些作者對“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”這一術(shù)語作出了真正的貢獻(xiàn),而不僅僅是簡單的數(shù)據(jù)挖掘。

2. 韓家煒等人的KDD過程

韓家煒、Micheline Kamber和裴健所著的流行數(shù)據(jù)挖掘教科書《Data Mining: Concepts and Techniques》描述了知識發(fā)現(xiàn)過程的另一個版本,其中的步驟也是從原始數(shù)據(jù)導(dǎo)出知識:

  • 數(shù)據(jù)清理。

    這一步的輸入是原始數(shù)據(jù),輸出是

    清理后的數(shù)據(jù)

  • 數(shù)據(jù)整合。

    在這一步中,清理后數(shù)據(jù)被整合(如果它們來自多個來源)。這一步的輸出是

    整合數(shù)據(jù)

    。
  • 數(shù)據(jù)選擇。

    數(shù)據(jù)集被精簡為僅包含手上問題所需的數(shù)據(jù)。這一步的輸出是

    較小的數(shù)據(jù)集

    。
  • 數(shù)據(jù)變換。

    較小的數(shù)據(jù)集被合并為一種適合于將來的數(shù)據(jù)挖掘步驟的形式,稱為

    變換后數(shù)據(jù)

    。
  • 數(shù)據(jù)挖掘。

    變換后的數(shù)據(jù)由設(shè)計(jì)用于發(fā)現(xiàn)數(shù)據(jù)中模式的智能算法處理。這一步的輸出是一種或者多種模式。
  • 模式評估。

    評估所發(fā)現(xiàn)模式的興趣度和解決手上問題的能力。這一步的輸出是適用于每個模式(代表知識)的興趣度計(jì)量。
  • 知識表示。在這一步中,通過各種手段(包括可視化)將知識傳達(dá)給用戶。

在Fayyad和韓的方法中,都預(yù)計(jì)該過程在必要時需要多次重復(fù)這些步驟。例如,如果在變換步驟中,分析人員發(fā)現(xiàn)需要再進(jìn)行一次數(shù)據(jù)清理或者預(yù)處理,這兩種方法都規(guī)定分析人員應(yīng)該按原路返回,完成前面未完成步驟的第二次迭代。

3. CRISP-DM過程

KDD過程的第3種流行版本稱為CRISP-DM,其用于許多商業(yè)和應(yīng)用領(lǐng)域,它的全稱是CRoss-Industry Standard Process for Data Mining(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程),包含如下步驟:

  1. 業(yè)務(wù)理解。

    在這一步中,分析人員花時間從業(yè)務(wù)視角理解數(shù)據(jù)挖掘項(xiàng)目的動機(jī)。
  2. 數(shù)據(jù)理解。

    在這一步中,分析人員熟悉數(shù)據(jù)及其潛在優(yōu)勢和不足,并開始生成假設(shè)。分析人員的任務(wù)是在必要時重新評估第1步的業(yè)務(wù)理解。
  3. 數(shù)據(jù)準(zhǔn)備。

    這一步包含其他模型作為單獨(dú)步驟列舉的選擇、整合、變換和預(yù)處理步驟。CRISP-DM模型對這些任務(wù)的執(zhí)行順序沒有要求。
  4. 建模。

    這一步中對數(shù)據(jù)應(yīng)用算法以發(fā)現(xiàn)模式。這一步驟最接近于其他KDD模型中的數(shù)據(jù)挖掘步驟。分析人員的任務(wù)是在建模和挖掘步驟需要的時候重新評估第3步的數(shù)據(jù)準(zhǔn)備。
  5. 評估。

    評估模型和發(fā)現(xiàn)的模式在回答手上的業(yè)務(wù)問題中的價(jià)值。分析人員的任務(wù)是在必要時重溫第1步的業(yè)務(wù)理解。
  6. 部署。

    呈現(xiàn)發(fā)現(xiàn)的知識和模型,并投產(chǎn)以解決手上的原始問題。

這種方法的優(yōu)勢之一是,迭代是內(nèi)建的。在特定步驟之間,分析人員將檢查當(dāng)前步驟仍然與之前的某些步驟保持一致。另一個優(yōu)勢是明確地提醒分析人員,即使在評估步驟中也要將業(yè)務(wù)問題放在項(xiàng)目的核心位置。

4. 六步過程

當(dāng)我在大學(xué)里教授數(shù)據(jù)科學(xué)入門課程時,使用了自己創(chuàng)造的一種混合方法。這種方法稱為“六步過程”,這種專門設(shè)計(jì)的方法對于授課很合適。

我的六步方法消除了沒有經(jīng)驗(yàn)的學(xué)生在CRISP-DM中的開放式任務(wù)(如業(yè)務(wù)理解)或者基于企業(yè)任務(wù)(如部署)中可能遇到的歧義問題。

此外,六步方法要求學(xué)生在過程的開始和最后回答“為什么這么做”和“這有什么意義”的問題,以拓展學(xué)生的批判性思維技能。我的六步方法如下:

  1. 問題陳述。

    在這一步中,學(xué)生確定他們試圖解決的問題。在理想狀況下,了解進(jìn)行這些工作的原因可以提高他們的積極性。
  2. 數(shù)據(jù)收集和存儲。

    在這一步中,學(xué)生們定位數(shù)據(jù)并規(guī)劃這一問題所需數(shù)據(jù)的存儲。他們還提供一些信息,這些信息與回答他們感興趣的問題所需數(shù)據(jù)的來源、格式以及所有字段含義相關(guān)。
  3. 數(shù)據(jù)清理。

    在這一步中,學(xué)生們認(rèn)真選擇真正需要的數(shù)據(jù),并將數(shù)據(jù)處理成挖掘步驟所需的格式。
  4. 數(shù)據(jù)挖掘。

    在這一步中,學(xué)生形式化所選擇的數(shù)據(jù)挖掘方法。他們描述使用的算法以及原因。這一步的輸出是模型和發(fā)現(xiàn)的模式。
  5. 表示和可視化。

    在這一步中,學(xué)生直觀地展示工作成果。這一步的輸出可以是表格、圖示、圖形、圖表、網(wǎng)絡(luò)框圖、映射圖等。
  6. 問題解決。

    這一步對數(shù)據(jù)挖掘初學(xué)者很重要,它明確地鼓勵學(xué)生評估第5步中展示的模式是不是第1步中提出的問題的答案。學(xué)生們被要求說明模型或者結(jié)果的局限性,確定用這種方法無法回答的部分相關(guān)問題。

5. 哪一種數(shù)據(jù)挖掘方法最好

2014年,Gregory Piatetsky-Shapiro在其非常受歡迎的數(shù)據(jù)挖掘電子郵件通訊KD-Nuggets上進(jìn)行的調(diào)查包含了一個問題:“你在分析、數(shù)據(jù)挖掘或者數(shù)據(jù)庫科學(xué)項(xiàng)目中使用哪一種主要方法?”

  • 43%的調(diào)查對象表示他們使用CRISP-DM方法。
  • 27%的調(diào)查對象使用自己的方法或者混合方法。
  • 7%的調(diào)查對象使用傳統(tǒng)的KDD方法。
  • 其余調(diào)查對象選擇另一種KDD方法。

這些結(jié)果和2007年同一郵件通訊所做的相同調(diào)查結(jié)果類似。

我的最佳建議是,不要過于重視用于數(shù)據(jù)挖掘項(xiàng)目的方法,隨便挑一種即可。如果完全不使用任何方法,那么就有遺漏重要步驟的危險(xiǎn)。選擇看上去對你的項(xiàng)目和需求有效的方法,然后盡可能遵循該方法的步驟。

03 在數(shù)據(jù)挖掘中使用哪些技術(shù)

現(xiàn)在我們對數(shù)據(jù)挖掘在整個KDD或者數(shù)據(jù)科學(xué)過程中的位置有了了解,下面就可以開始討論完成這一任務(wù)的細(xì)節(jié)了。

從試圖定義數(shù)據(jù)挖掘的早期起,幾類相關(guān)的問題就一再出現(xiàn)。Fayyad等人在1996年的另一篇重要論文“From Data Mining to Knowledge Discovery in Databases”中提出了6類問題,我們將其總結(jié)如下:

  • 分類問題。

    這里,有需要根據(jù)某些特征分成預(yù)定義類別的數(shù)據(jù)。我們需要一種算法,使用過去已經(jīng)分類的數(shù)據(jù),學(xué)習(xí)如何將未知數(shù)據(jù)置于正確的類別下。
  • 聚類問題。

    這類問題是,我們需要根據(jù)數(shù)據(jù)點(diǎn)的特征將其分為不同類別,但是事先不知道這些類別。我們需要一種能夠計(jì)量數(shù)據(jù)點(diǎn)之間相似性并自動根據(jù)這些相似性分割數(shù)據(jù)的算法。
  • 回歸問題。

    我們的數(shù)據(jù)必須根據(jù)某個預(yù)測變量進(jìn)行映射,所以必須學(xué)習(xí)進(jìn)行這種映射的函數(shù)。
  • 摘要問題。

    假定我們的數(shù)據(jù)需要以某種方式縮短或者總結(jié)。這可能很簡單,只是從數(shù)據(jù)計(jì)算基本統(tǒng)計(jì)數(shù)字;也可能很復(fù)雜,需要學(xué)習(xí)如何總結(jié)文本,或者為文本找出一個主題模型。
  • 依賴性建模問題。

    對于這些問題,我們的數(shù)據(jù)之間可能有某種聯(lián)系,我們需要開發(fā)一個算法,計(jì)算這種聯(lián)系的概率,或者描述互相聯(lián)系的數(shù)據(jù)的結(jié)構(gòu)。
  • 變化和偏差檢測問題。

    在另一種情況下,我們的數(shù)據(jù)已經(jīng)有了顯著的變化,或者數(shù)據(jù)的一些子集偏離了正常值。為了解決這些問題,我們需要一種能夠自動發(fā)現(xiàn)這些問題的算法。

在同年撰寫的另一篇論文中,這些作者還加入了其他幾種類別:

  • 鏈接分析問題。

    我們有一些相關(guān)的數(shù)據(jù)點(diǎn),必須發(fā)現(xiàn)它們之間的關(guān)系,并以數(shù)據(jù)集的支持程度和關(guān)系置信度的方式描述它們。
  • 序列分析問題。

    想象我們的數(shù)據(jù)點(diǎn)遵循某種順序,如時間序列或者基因組,我們必須發(fā)現(xiàn)序列中的趨勢或者偏差,或者發(fā)現(xiàn)導(dǎo)致序列的原因,以及序列的演化方式。

韓家煒、Kamber和裴健在前面提及的教科書中描述了數(shù)據(jù)挖掘所能解決的4類問題,并進(jìn)一步將其分為描述性和預(yù)測性兩大類。描述性數(shù)據(jù)挖掘意味著找出模式,幫助我們理解擁有的數(shù)據(jù)。預(yù)測性數(shù)據(jù)挖掘意味著找出模式,幫助我們預(yù)測尚未擁有的數(shù)據(jù)。

在描述性類別中,他們列出了如下數(shù)據(jù)挖掘問題:

  • 數(shù)據(jù)特性描述和數(shù)據(jù)區(qū)分問題,包括數(shù)據(jù)摘要或者概念特性描述(或稱描述)。
  • 頻率挖掘,包括找出數(shù)據(jù)中的頻繁模式、關(guān)聯(lián)規(guī)則和相關(guān)性。

在預(yù)測性類別中,他們列出了如下問題:

  • 分類,回歸
  • 聚類
  • 離群值和異常檢測

很容易看出,F(xiàn)ayyad等人和韓家煒等人的問題列表有許多相似之處,只是項(xiàng)目的分組不同。確實(shí),如果你過去曾經(jīng)完成過數(shù)據(jù)挖掘項(xiàng)目,這兩個列表上出現(xiàn)的項(xiàng)目就是你可能已經(jīng)熟悉的數(shù)據(jù)挖掘問題。分類、回歸和聚類是非常流行的基本數(shù)據(jù)挖掘技術(shù),所以從業(yè)者們所看到的每本數(shù)據(jù)挖掘書籍幾乎都介紹過它們。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)據(jù)挖掘技術(shù)概述
論知識發(fā)現(xiàn)與數(shù)據(jù)挖掘
寫給新人數(shù)據(jù)挖掘基礎(chǔ)知識介紹
數(shù)據(jù)挖掘--極具發(fā)展前景的新領(lǐng)域
機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)輔助糖尿病臨床決策
異質(zhì)信息網(wǎng)絡(luò):一種新穎的網(wǎng)絡(luò)建模與分析方法
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服