選擇是我們?nèi)粘I钪凶畛R姷?,比如今天周一了,我是賴床還是準(zhǔn)點(diǎn)上班……我們幾乎無時(shí)不刻面臨著選擇。有時(shí)候面臨選擇我們可能還會產(chǎn)生選擇恐懼癥,有時(shí)我們又因?yàn)檫x擇感到迷茫。如果在以后的生活中想要更好地做出選擇,那么建議讀完這篇文章,我將用機(jī)器學(xué)習(xí)中的決策樹理論,向你展示優(yōu)化決策的過程。
選擇
想象一下這個(gè)場景:一起來玩?zhèn)€游戲,現(xiàn)在你在腦海里想到一個(gè)動物,我需要猜到你想的是什么動物。我每次會問你一個(gè)問題,比如:會不會飛?會不會游泳?……而你所要做的就是根據(jù)你想到的動物回答Yes/No。
很顯然,我的每次提問都會越來越靠近靠近正確答案,這就是決策樹的思想。
在每一個(gè)決策點(diǎn)上,都需要思考對于數(shù)據(jù)集進(jìn)行區(qū)分的問題。我在每次提問之前需要找到最佳區(qū)分的問題,然后在下一個(gè)決策點(diǎn),再次找到最佳區(qū)分。
讓我們先來了解一下決策樹算法。
決策樹是一種監(jiān)督學(xué)習(xí)算法,以用于回歸和分類問題。適用于分類和連續(xù)輸入和輸出變量。
來看一下西瓜書對于決策樹的刻畫:
如何通過西瓜的紋理、根蒂、觸感和色澤來判斷是否是好瓜。
判斷好瓜
通過上圖我們可以找到關(guān)于決策樹的一些術(shù)語:
根節(jié)點(diǎn)(紋理)
表示整個(gè)群體或樣本。它進(jìn)一步分為2個(gè)或更多個(gè)同類集。拆分
是將節(jié)點(diǎn)劃分為2個(gè)或更多個(gè)子節(jié)點(diǎn)的過程。決策節(jié)點(diǎn)(紋理、根蒂、觸感和色澤)
。節(jié)點(diǎn)
稱為終端節(jié)點(diǎn)
或葉子(好瓜、壞瓜)
。修剪
。修剪的反面是分裂
。分支
。父
節(jié)點(diǎn); 而子節(jié)點(diǎn)被稱為子類
的父節(jié)點(diǎn)。介于本文主題,這里我們只討論分類樹。
讓我們來看看決策樹構(gòu)建算法及其所有細(xì)節(jié)。為了構(gòu)建決策樹,我們需要對數(shù)據(jù)集做出初步?jīng)Q定,以決定使用哪個(gè)特征來分割數(shù)據(jù)。要確定這一點(diǎn),我們必須嘗試每個(gè)分類依據(jù)并計(jì)算哪個(gè)分割會給我們帶來最好的結(jié)果(使分類效果最明顯)。之后,我們將數(shù)據(jù)集拆分為子集。然后子集將遍歷第一個(gè)決策節(jié)點(diǎn)的分支。如果分支上的數(shù)據(jù)是同一個(gè)類,那么我們已經(jīng)對它進(jìn)行了正確的分類,并且不需要繼續(xù)拆分它。
Yes/No?
如果數(shù)據(jù)不相同,那么我們需要在該子集上重復(fù)拆分過程。關(guān)于如何拆分子集的與分割原始數(shù)據(jù)集的方式相同(遞歸過程),重復(fù)此過程,直到對所有數(shù)據(jù)進(jìn)行分類。
那么我們?nèi)绾闻袛嗖鸱謹(jǐn)?shù)據(jù)集是否合理呢?這種情況下不能定性分析,需要通過計(jì)算得到精確的解。
信息論的創(chuàng)造者——香農(nóng)是個(gè)非常偉大的人物,由他開創(chuàng)了信息時(shí)代。這里不詳細(xì)展開,感興趣的小伙伴自行搜索。
其中信息論中最重要的概念就是熵。
信息熵公式
熵衡量了預(yù)測隨機(jī)變量的值時(shí)涉及到的不確定度的量。例如,指定擲硬幣的結(jié)果(兩個(gè)等可能的結(jié)果)比指定擲骰子的結(jié)果(六個(gè)等可能的結(jié)果)所提供的信息量更少(熵更少)。
由此,我們可以計(jì)算分割前后的信息。分割前后的信息變化稱為信息增益。當(dāng)我們知道如何計(jì)算信息增益時(shí),我們可以在每個(gè)特征上分割數(shù)據(jù),以決策哪種分割提供了最高的信息增益。具有最高信息增益的決策是我們的最佳選擇。
由決策樹推導(dǎo)整個(gè)過程,讓我們能非常直觀地了解決策過程。
決策樹有它的優(yōu)勢,其中最明顯的一點(diǎn)是對于數(shù)據(jù)是沒有縮放處理的。由于每個(gè)特征是單獨(dú)處理的,并且數(shù)據(jù)的分割不依賴于縮放,因此決策樹算法不需要像標(biāo)準(zhǔn)化或特征標(biāo)準(zhǔn)化那樣的預(yù)處理。特別是,當(dāng)我們具有完全不同尺度的特征,或者二元和連續(xù)特征的混合時(shí),決策樹可以很好地工作。
決策樹過程
但是,決策樹通常不具有與其他方法相同的預(yù)測準(zhǔn)確度,因?yàn)樗鼈儾皇呛芊€(wěn)健。數(shù)據(jù)的微小變化可能導(dǎo)致最終估計(jì)樹整體的大幅變化。即使使用預(yù)修剪,它們也會過度擬合并提供較差的泛化性能。因此,在大多數(shù)應(yīng)用中,通過聚合許多決策樹,使用諸如隨機(jī)森林和增強(qiáng)決策樹等方法,可以顯著提高決策樹的預(yù)測性能。
指導(dǎo)我們生活中的就是:如果你面對問題時(shí)產(chǎn)生了選擇恐懼癥或者看不清未來的方向,不妨坐下來。畫個(gè)圖,把自己的想法和決策點(diǎn)標(biāo)注清楚,計(jì)算對于自己的信息增益(對自己的目標(biāo)幫助有多大),形成一幅完整的決策樹(思維導(dǎo)圖),再去做事,或許有撥云見日的效果!??!