免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)挖掘十大經(jīng)典算法(1):C4.5算法

   C4.5算法是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優(yōu)點,并在以下幾方面對ID3算法進行了改進:

    1)用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
    2)在樹構(gòu)造過程中進行剪枝;
    3)能夠完成對連續(xù)屬性的離散化處理;
    4)能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。

   C4.5算法有如下優(yōu)點:產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導(dǎo)致算法的低效。

   
   分類算法的目的是根據(jù)其他參數(shù)的取值預(yù)測類別參數(shù)的取值,希望這種預(yù)測盡可能準(zhǔn)確。分類算法的總體框架可以分為兩步:第一步是基于訓(xùn)練集構(gòu)建分類模型,第二步是用測試集檢測分類模型的準(zhǔn)確度,若可接受,即可用于預(yù)測新數(shù)據(jù)的類別。
決策樹分類
   本文介紹決策樹分類算法。決策樹分類算法的一般流程如下:一開始,所有的實例均位于根節(jié)點,所有參數(shù)的取值均離散化;根據(jù)啟發(fā)規(guī)則選擇一個參數(shù),根據(jù)參數(shù)取值的不同對實例集進行分割;對分割后得到的節(jié)點進行同樣的啟發(fā)式參數(shù)選擇分割過程,如此往復(fù),直到(a)分割得到的實例集合屬于同一類;(b)參數(shù)用完,以子集中絕大多數(shù)的實例類別作為該葉節(jié)點的類別。
核心問題:參數(shù)選擇規(guī)則
   在每一個節(jié)點進行參數(shù)選擇時,由于有眾多的選項,需要一個選擇規(guī)則。基本的原則是使最后構(gòu)造出的決策樹規(guī)模最小?;谶@個基本原則,我們啟發(fā)式地定義規(guī)則為使分割后得到的子節(jié)點純度最大。于是參數(shù)選擇規(guī)則問題就轉(zhuǎn)化為了純度定義的問題。
   我們利用熵(Entropy)的概念去描述“不純度”,熵值越大,說明這個節(jié)點的純度越低:當(dāng)節(jié)點的類別均勻分布時,熵值為1;當(dāng)只包含一類時,熵值為0.熵的計算公式如下圖,以2為底的概率對數(shù)與概率乘積之和的相反數(shù)。

   基于熵的概念,我們可以得到參數(shù)選擇的第一個規(guī)則:信息增益(InfoGain).信息增益的定義是分裂前的節(jié)點熵減去分裂后子節(jié)點熵的加權(quán)和,即不純度的減少量,也就是純度的增加量。參數(shù)選擇的規(guī)則是:選擇使信息增益最大的參數(shù)分割該節(jié)點。信息增益計算的算例如下圖。

    信息增益存在的問題時:總是傾向于選擇包含多取值的參數(shù),因為參數(shù)的取值越多,其分割后的子節(jié)點純度可能越高。為了避免這個問題,我們引入了增益比例(GainRatio)的選擇指標(biāo),其定義如下圖所示。

   增益比例存在的問題是:傾向于選擇分割不均勻的分裂方法,舉例而言,即一個拆分若分為兩個節(jié)點,一個節(jié)點特別多的實例,一個節(jié)點特別少的實例,那么這種拆分有利于被選擇。

   為了克服信息增益和增益比例各自的問題,標(biāo)準(zhǔn)的解決方案如下:首先利用信息增益概念,計算每一個參數(shù)分割的信息增益,獲得平均信息增益;選出信息增益大于平均值的所有參數(shù)集合,對該集合計算增益比例,選擇其中增益比例最大的參數(shù)進行決策樹分裂。 

   上面介紹的是基于熵概念的參數(shù)選擇規(guī)則,另一種流行的規(guī)則稱為基尼指數(shù)(GiniIndex),其定義如下圖?;嵯禂?shù)在節(jié)點類別分布均勻時取最大值1-1/n,在只包含一個類別時取最小值0.所以與熵類似,也是一個描述不純度的指標(biāo)。

   基于基尼系數(shù)的規(guī)則是:選擇不純度減少量(Reduction in impurity)最大的參數(shù)。不純度減少量是分割前的Giniindex減去分割后的Gini index。基尼系數(shù)的特點與信息增益的特點類似。

過度擬合問題(Overfitting)

   過度擬合問題是對訓(xùn)練數(shù)據(jù)完全擬合的決策樹對新數(shù)據(jù)的預(yù)測能力較低。為了解決這個問題,有兩種解決方法。第一種方法是前剪枝(prepruning),即事先設(shè)定一個分裂閾值,若分裂得到的信息增益不大于這個閾值,則停止分裂。第二種方法是后剪枝(postpruning),首先生成與訓(xùn)練集完全擬合的決策樹,然后自下而上地逐層剪枝,如果一個節(jié)點的子節(jié)點被刪除后,決策樹的準(zhǔn)確度沒有降低,那么就將該節(jié)點設(shè)置為葉節(jié)點(基于的原則是Occam剪刀:具有相似效果的兩個模型選擇較簡單的那個)。

代表算法

   這里介紹兩個算法,一個是RainForest,其主要的貢獻是引入了一個稱為AVC的數(shù)據(jù)結(jié)構(gòu),其示意圖如下。主要的作用是加速參數(shù)選擇過程的計算。

   另一個算法稱為BOAT,其采用了稱為bootstrap的統(tǒng)計技術(shù)對數(shù)據(jù)集進行分割,在分割的子數(shù)據(jù)集上分別構(gòu)造決策樹,再基于這些決策樹構(gòu)造一個新的決策樹,文章證明這棵新樹與基于全局?jǐn)?shù)據(jù)集構(gòu)造的決策樹非常相近。這種方法的主要優(yōu)勢在于支持增量更新。

本文所采用圖片均來自清華大學(xué)計算機系王建勇老師的課程《數(shù)據(jù)挖掘:原理與算法》
  
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
理解決策樹
決策樹
決策樹與隨機森林
基于機器學(xué)習(xí)的牛股精選
決策樹學(xué)習(xí)筆記整理
十分鐘搞懂決策樹的數(shù)學(xué)原理
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服