免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
降維算法原理篇:主成分分析PCA、奇異值分解SVD、因子分析法FA、獨(dú)立成分分析ICA等原理詳推

一、前話
二、主成分分析法PCA 
三、奇異值分解SVD
四、因子分析法FA
五、獨(dú)立成分分析ICA
六、缺失值比率
七、低方差濾波
八、高相關(guān)濾波

創(chuàng)作不易,如需轉(zhuǎn)載,請(qǐng)注明出處,謝謝!


一、前話

在降維算法中,我們經(jīng)常要用到協(xié)方差的概念,下面給出協(xié)方差,相關(guān)系數(shù)等概念解釋

協(xié)方差描述兩個(gè)變量的相關(guān)程度,同向變化時(shí)協(xié)方差為正,反向變化時(shí)協(xié)方差為負(fù),而相關(guān)系數(shù)也是描述兩個(gè)變量的相關(guān)程度,只是相關(guān)系數(shù)對(duì)結(jié)果相當(dāng)于做了歸一化處理,協(xié)方差的值范圍是負(fù)無(wú)窮到正無(wú)窮,而相關(guān)系數(shù)值范圍是在負(fù)一到正一之間,詳細(xì)描述參考:https://www.zhihu.com/question/20852004?utm_source=wechat_session&utm_medium=social

數(shù)據(jù)降維作用

1、減少存儲(chǔ)空間
2、低維數(shù)據(jù)減少模型訓(xùn)練用時(shí)
3、一些算法在高維表現(xiàn)不佳,降維提高算法可用性
4、刪除冗余數(shù)據(jù)
5、有助于數(shù)據(jù)的可視化

二、 主成分分析法PCA

1、PCA主成分分析法思想

方差的大小描述一個(gè)變量的信息量,對(duì)于模型來(lái)說(shuō)方差越小越穩(wěn)定,但是對(duì)于數(shù)據(jù)來(lái)說(shuō),我們自然是希望數(shù)據(jù)的方差大,方差越大表示數(shù)據(jù)越豐富,維度越多

方差大的方向是信號(hào)的方向,方差小的方向是噪聲的方向,我們?cè)跀?shù)據(jù)挖掘模型處理中,往往需要提高信噪比,即是信號(hào)和噪聲的比例,因此相對(duì)于下圖既是保留signal方向的數(shù)據(jù),對(duì)noise方向的數(shù)據(jù)進(jìn)行縮減,達(dá)到對(duì)原始數(shù)據(jù)一個(gè)不錯(cuò)的近似

當(dāng)進(jìn)行數(shù)據(jù)降維的時(shí)候,我們一般都是對(duì)列進(jìn)行壓縮,即對(duì)數(shù)據(jù)的特征進(jìn)行壓縮,當(dāng)然我們也可以對(duì)數(shù)據(jù)行進(jìn)行壓縮,即將相似的數(shù)據(jù)合并

PCA本質(zhì)上是將方差最大的方向作為第一維特征,方差描述的是數(shù)據(jù)的離散程度,方差最大的方向即是能最大程度上保留數(shù)據(jù)的各種特征,接下來(lái)第二維特征既選擇與第一維特征正交的特征,第三維特征既是和第一維和第二維正交的特征

PCA的思想是將N維特征映射到K維上(K<N),這k維是全新的正交特征,是重新構(gòu)造出來(lái)的k維特征,而不是簡(jiǎn)單的從n維特征中去除其余n-k維特征

2、PCA算法的主要步驟

設(shè)現(xiàn)在有n條d維的數(shù)據(jù),d表示數(shù)據(jù)特征數(shù)

(1) 將原始數(shù)據(jù)按列組成n行d列矩陣X
(2) 將X的每一列進(jìn)行零均值化,即將這一列的數(shù)據(jù)都減去這一列的均值,目的:防止因?yàn)槟骋痪S特征數(shù)據(jù)過(guò)大對(duì)協(xié)方差矩陣的計(jì)算有較大的影響
(3) 求出2中零均值化后矩陣的協(xié)方差矩陣

(4) 求出協(xié)方差矩陣的特征值和對(duì)應(yīng)的特征向量
(5) 將特征向量按照對(duì)應(yīng)的特征值大小從大到小排列成矩陣,取前k行組成矩陣P,而選擇的k特征個(gè)數(shù)可以利用對(duì)前K個(gè)大的特征值求和來(lái)判斷占了整個(gè)特征值和的比例來(lái)看對(duì)原始數(shù)據(jù)特征保留的程度
(6) Y = XP 即是降維到k為維后的數(shù)據(jù)

3、PCA理論推導(dǎo)

PCA即將一個(gè)高維數(shù)據(jù)映射到低維,假設(shè)映射前的m個(gè)n維數(shù)據(jù)為:

若我們已經(jīng)成功選擇了k個(gè)重要的特征構(gòu)建降維后空間的k個(gè)標(biāo)準(zhǔn)正交基,假設(shè)W是標(biāo)準(zhǔn)正交基構(gòu)成的矩陣,k個(gè)正交基

假設(shè)映射后空間的數(shù)據(jù)為:

則在PCA中我們主要是尋找重要的前k個(gè)特征構(gòu)成標(biāo)準(zhǔn)正交基,這樣便可將高維降維:

接下來(lái)我們看如何求解W,看W和原數(shù)據(jù)x的關(guān)系,拿到原數(shù)據(jù)后,第一步需要對(duì)數(shù)據(jù)做零均值歸一化處理,因此原數(shù)據(jù)的均值為0

則數(shù)據(jù)xi、xj的協(xié)方差矩陣為:

E(x)=0, 因此原數(shù)據(jù)的協(xié)方差矩陣為:

下面通過(guò)推導(dǎo)證明W中選的k個(gè)重要特征是樣本數(shù)據(jù)的協(xié)方差矩陣 XXT 的前k個(gè)重要的特征向量組成的,設(shè)λ是特征值,即證明有下式成立:

下面利用樣本點(diǎn)到降維超平面的距離足夠近來(lái)推導(dǎo)降維空間特征向量W與原始樣本點(diǎn)數(shù)據(jù)協(xié)方差的特征向量之間的關(guān)系,第一步利用zi和W恢復(fù)數(shù)據(jù)為:

最小化樣本點(diǎn)到降維超平面的距離:

下面給出對(duì)于上式的推導(dǎo)公式

上式中加號(hào)后半項(xiàng)是常數(shù),因此可以將上式等價(jià)于:

利用拉格朗日乘子法得到:

對(duì)W求導(dǎo)整理便可得:

4、PCA之最大方差思想證明

最大方差理論闡述:方差最大的方向是保留數(shù)據(jù)特征最多的方向,也即是特征值最大的方向

樣本點(diǎn)在超平面上的投影能盡可能的分開,即投影后數(shù)據(jù)的方差盡可能大,保留原始數(shù)據(jù)特征盡可能最多,下面證明我們選取的W中k個(gè)特征方向也是最大方差方向,下面公式中的u既是3pca理論推導(dǎo)中的W,都是選取的重要的特征方向

數(shù)據(jù)樣本是xi,主成分方向?yàn)閡,u是直線的斜率也是直線的方向向量,設(shè)定為單位向量,將數(shù)據(jù)xi投影到主成分方向u上,使得投影后的樣本方差最大,樣本數(shù)據(jù)都做了零均值歸一化處理,因此數(shù)據(jù)在投影后的均值為0,數(shù)據(jù)在投影后的方差為:

等式右邊括號(hào)中既是樣本特征的協(xié)方差矩陣,因此我們令:

另外我們令方差為λ

這樣方差的表達(dá)式寫成如下形式,其中u是單位向量:

Σ是協(xié)方差矩陣,λ表示Σ的特征值,u是特征向量,并且我們上面令得方差為λ,因此從這里我們便可以得出,數(shù)據(jù)方差最大的方向既是數(shù)據(jù)協(xié)方差矩陣對(duì)應(yīng)的特征值最大的方向,因此我們只需要對(duì)特征值進(jìn)行特征值分解,然后去前k個(gè)最大的特征值對(duì)應(yīng)的特征向量,既是最佳的k維新特征,且k維新特征是相互正交的

5、Kernel PCA

對(duì)非線性數(shù)據(jù)做降維處理,下面首先給出一張PCA和kernel PCA的實(shí)例圖:

PCA不僅可以從協(xié)方差矩陣C入手,也可以從kernel maxtrix K入手,Kernel Pca的思路:

(1) 利用 kernel tricks 計(jì)算 kernel matrix K

(2) 對(duì)K做SVD分解,找到topk的特征向量

(3) 把高維數(shù)據(jù) x 投射到 k 個(gè)特征向量上,從而把它降低到 k 維

按照PCA的思路,我們要對(duì)協(xié)方差矩陣C=XTX做SVD分解,并且C的維度將會(huì)是m*m,但是Kernel PCA的思路卻是對(duì)Kernel Matrix K做SVD分解,如果是線性kernel的話,K =XXT 維度是n*n,下面給出Kernel PCA和PCA的關(guān)系推導(dǎo):

其中將矩陣U用X的線性來(lái)表示,有:U = αX,因此將X映射到低維空間:

下圖展示了傳統(tǒng)PCA的投影和Kernel PCA的投影效果比較:

三、奇異值分解SVD

SVD可以看成是對(duì)PCA主特征向量的一種解法,在上述PCA介紹過(guò)程中,為了求數(shù)據(jù)X的主特征方向,我們通過(guò)求協(xié)方差矩陣 XXT 的特征向量來(lái)表示樣本數(shù)據(jù)X的主特征向量,但其實(shí)我們可以通過(guò)對(duì)X進(jìn)行奇異值分解得到主特征方向,下面我們首先比較一下特征值分解和奇異值分解,然后分析一下特征值和奇異值的關(guān)系以及SVD在PCA中的應(yīng)用

1、特征值分解

特征值分解,特征值分解的矩陣必須是方陣,特征值分解的目的:提取這個(gè)矩陣最重要的特征,特征值表示這個(gè)特征有多重要,特征向量即表示這個(gè)特征是什么,可以理解是這個(gè)變化最主要的方向

對(duì)方陣A進(jìn)行特征值分解,則Q是由A的特征向量構(gòu)成的矩陣,Q中的矩陣都是正交的,Σ是對(duì)角陣,對(duì)角線上的元素既是方陣A的特征值

2、SVD 奇異值分解

特征值分解只能夠?qū)τ诜疥囂崛≈匾卣?,奇異值分解可以?duì)于任意矩陣

U是左奇異矩陣,V是右奇異矩陣,均是正交矩陣,Σ是對(duì)角陣,除對(duì)角線元素外都是0,對(duì)角線元素是奇異值,在大多數(shù)情況下,前10%甚至前1%的奇異值的和便占據(jù)了全部奇異值之和的99%以上了,因此當(dāng)利用奇異值分解對(duì)數(shù)據(jù)進(jìn)行壓縮時(shí),我們可以用前r個(gè)大的奇異值來(lái)近似描述矩陣:

3、奇異值分解和特征值分解關(guān)聯(lián)

首先我們寫出ATA的特征值分解式如下:

其中v向量既是奇異值分解公式中向量v,假設(shè)σ是奇異值,奇異值是特征值取平方根,則:

可以通過(guò)公式推導(dǎo)得到上式的由來(lái),為何特征值和奇異值之間滿足那種關(guān)系,如何看待特征值分解和奇異值分解,如何對(duì)一個(gè)矩陣進(jìn)行奇異值分解

先給出如下結(jié)論:U是方陣AAT 的特征向量構(gòu)成的正交矩陣,V是方陣ATA的特征向量構(gòu)成的正交矩陣

簡(jiǎn)單推導(dǎo):

因此有:

這樣便可以把V看成是方陣ATA的特征向量構(gòu)成的正交矩陣,并且Σ2 構(gòu)成了特征值,同理

從此公式可以把U是方陣AAT 的特征向量構(gòu)成的正交矩陣,并且Σ2 構(gòu)成了特征值,根據(jù)上式可得到奇異值也有兩種計(jì)算方式:

奇異值可以通過(guò)特征值取平方根直接求得,也可通過(guò)特征向量求得,這樣我們便明白了奇異值和特征值之間的關(guān)聯(lián)

4、談PCA和SVD的關(guān)系

PCA通過(guò)特征矩陣W,將原始數(shù)據(jù)X降維到Z,其中X是m*n維,W是n*k維,Z是m*k維

其中轉(zhuǎn)換特征矩陣W是原數(shù)據(jù)X的協(xié)方差矩陣XTX的前k個(gè)特征向量構(gòu)成的,這樣便完成了對(duì)數(shù)據(jù)的降維,而其實(shí)我們可以直接通過(guò)SVD完成對(duì)X降維到Z,看下面SVD分解:

可以看出我們直接將原數(shù)據(jù)X進(jìn)行奇異值分解,X乘以右奇異矩陣V便可將m*n數(shù)據(jù)壓縮到m*k的數(shù)據(jù),完成對(duì)列的壓縮,不需要進(jìn)行特征值分解直接奇異值分解便可完成數(shù)據(jù)壓縮,同理我們也可以按照下面方式對(duì)數(shù)據(jù)的行進(jìn)行壓縮:

列壓縮是將數(shù)據(jù)特征進(jìn)行壓縮,列壓縮是將相似的數(shù)據(jù)進(jìn)行壓縮,這樣我們得出結(jié)論:可以直接對(duì)原數(shù)據(jù)X進(jìn)行奇異值分解完成數(shù)據(jù)降維,不需要先由原數(shù)據(jù)X得到協(xié)方差矩陣求特征值得到轉(zhuǎn)換特征矩陣再對(duì)數(shù)據(jù)進(jìn)行降維

四、因子分析法FA

1、基本思想

因子分析法是數(shù)據(jù)降維的一種方法,因子分析法目的是找到原始變量的公共因子,然后用公共因子的線性組合來(lái)表示原始變量,舉個(gè)例子:觀察一個(gè)學(xué)生,統(tǒng)計(jì)出很多原始變量:代數(shù)、幾何、語(yǔ)文、英語(yǔ)等各科的成績(jī),每天作業(yè)時(shí)間,每天筆記的量等等,通過(guò)這些現(xiàn)象尋找本質(zhì)的因子,如公共因子有:邏輯因子、記憶因子、計(jì)算因子、表達(dá)因子

2、適用情況

在降維算法中,主成分分析法使用更廣泛,PCA主要是通過(guò)數(shù)據(jù)的協(xié)方差矩陣得到數(shù)據(jù)的主特征向量方向,這便要求m>>n,m表示樣本數(shù)、n表示特征數(shù),即樣本數(shù)要遠(yuǎn)大于特征數(shù),這樣協(xié)方差矩陣Σ滿足是非奇異矩陣,特征向量是有解的。當(dāng)樣本數(shù)m和特征數(shù)n近似或者m<n時(shí),此時(shí)協(xié)方差矩陣Σ是奇異矩陣,如果求解特征向量時(shí),是無(wú)解的,因?yàn)榉匠虜?shù)不夠,不滿秩,因此無(wú)法得到解。

當(dāng)然對(duì)于上述Σ不滿秩的情況,我們可以限制Σ

(1) 限制Σ是對(duì)角陣,即Σ出對(duì)角元素不為0外其他均為0

(2) 在(1)的基礎(chǔ)上,要求對(duì)角元素均相等

但這種限制Σ會(huì)倒是大量特征信息丟失,因此在此情況下,我們可采用因子分析對(duì)數(shù)據(jù)降維

3、因子分析法前驗(yàn)知識(shí)

前驗(yàn)知識(shí):在混合多元高斯分布中,如何求邊緣高斯分布、條件高斯分布

聯(lián)合多元隨機(jī)變量x=[x1,x2] 的邊緣高斯分布和條件高斯分布,其中x1屬于Rr,x2屬于Rm,則x屬于Rr+m,則假設(shè)多元隨機(jī)變量x服從均值為u,方差為Σ的高斯分布,可以得到x的符合的高斯分布形式為:

x1、x2稱為聯(lián)合多元高斯分布,則x1、x2的邊緣高斯分布為:

我們可以通過(guò)推導(dǎo)x的協(xié)方差分布得到x1、x2的協(xié)方差分布:

這樣我們便能夠通過(guò)x得到x1和x2的邊緣分布,即x1、x2邊緣高斯分布滿足:

同時(shí)我們也可以得出給定x2情況下x1的 條件高斯分布:

則條件高斯分布的均值和協(xié)方差分別是:

在下述的因子分析法建模中便用到了這里的邊緣高斯分布和條件高斯分布

4、因子分析法建模

在因子分析法中,假設(shè)我們得到的原始數(shù)據(jù)為x,降維后的因子特征為z,x為n維的原始變量,z為k維的因子變量,我們找到原始數(shù)據(jù)x的因子變量z的線性組合,便完成將數(shù)據(jù)從n維降到k維,n>>k

首先給出因子分析法的假設(shè)模型:

我們假設(shè)z服從均值為0,協(xié)方差矩陣為單位矩陣的高斯分布,上面式子 x=u+?z+ε 即完成了低維數(shù)據(jù)z到高維數(shù)據(jù)x的一個(gè)映射,我們下面通過(guò)一個(gè)例子來(lái)看一下一維數(shù)據(jù)到二維數(shù)據(jù)的映射過(guò)程:

假設(shè)我們現(xiàn)在有一個(gè)一維的數(shù)據(jù)點(diǎn)z:

通過(guò)變換 ?z,其中?屬于R2*1,便將一維數(shù)據(jù)為映射到二維:

然后再在數(shù)據(jù)上加上均值u,即u+?z,對(duì)數(shù)據(jù)進(jìn)行一個(gè)平移操作:

最后,我們?cè)偌由?nbsp;ε 的誤差擾動(dòng),使得數(shù)據(jù)點(diǎn)可以不在線上,ε 是符合高斯分布的誤差,這樣即得到了映射到了高維數(shù)據(jù)x:

同理,我們只要找到了原始數(shù)據(jù)x的低維公共因子z的線性組合便完成了數(shù)據(jù)降維

因子分析法目的便是用z代替x,那么如何求出x、z公式中的參數(shù)u、?、ψ,這里便用到了之前介紹的聯(lián)合多元高斯分布的邊緣高斯分布和條件高斯分布,這里我們把x、z看成聯(lián)合多元高斯分布:

因此我們可以得到變量x的邊緣高斯分布為:

因此利用最大似然法優(yōu)化目標(biāo)函數(shù)為:

通過(guò)最大化上式,我們便可求得參數(shù)u、?、ψ,上式因?yàn)楹须[變量z無(wú)法直接求解,對(duì)于含有隱變量z的最大似然函數(shù)可通過(guò)EM算法求解

5、因子分析法EM算法求解

EM算法首先E-Step:

根據(jù)條件高斯分布可得:

其中:

于是便可得到:

M-step優(yōu)化目標(biāo)函數(shù),其中z滿足高斯分布的連續(xù)變量,因此:

這樣再對(duì)各個(gè)參數(shù)求偏導(dǎo),然后不斷迭代E步和M步求得參數(shù) u、?、ψ

下面再簡(jiǎn)單提幾個(gè)實(shí)際工程中也常用到的數(shù)據(jù)降維的方式的思想,不做詳細(xì)討論,僅供參考!

五、獨(dú)立成分分析ICA

先用一張圖客觀理解一下ICA降維方法,在下圖中

(1) 圖表示的是主成分分析PCA對(duì)特征方向的選取
(2) 圖表示的是獨(dú)立成分分析ICA對(duì)特征方向選取

六、缺失值比率

在構(gòu)建模型前,對(duì)數(shù)據(jù)進(jìn)行探索性分析必不可少。但在瀏覽數(shù)據(jù)的過(guò)程中,有時(shí)候我們會(huì)發(fā)現(xiàn)其中包含不少缺失值。如果缺失值少,我們可以填補(bǔ)缺失值或直接刪除這個(gè)變量;當(dāng)缺失值在數(shù)據(jù)集中的占比過(guò)高時(shí),一般會(huì)選擇直接刪除這個(gè)變量,因?yàn)樗男畔⑻倭恕5唧w刪不刪、怎么刪需要視情況而定,我們可以設(shè)置一個(gè)閾值,如果缺失值占比高于閾值,刪除它所在的列。閾值越高,降維方法越積極,通過(guò)刪除無(wú)效缺失值完成數(shù)據(jù)降維

七、低方差濾波

如果我們有一個(gè)數(shù)據(jù)集,其中某列的數(shù)值基本一致,也就是它的方差非常低,那么這個(gè)變量還有價(jià)值嗎?我們通常認(rèn)為低方差變量攜帶的信息量也很少,所以可以把它直接刪除。放到實(shí)踐中,就是先計(jì)算所有變量的方差大小,然后刪去其中最小的幾個(gè)。需要注意的一點(diǎn)是:方差與數(shù)據(jù)范圍相關(guān)的,因此在采用該方法前需要對(duì)數(shù)據(jù)做歸一化處理

八、高相關(guān)濾波

如果兩個(gè)變量之間是高度相關(guān)的,這意味著它們具有相似的趨勢(shì)并且可能攜帶類似的信息。同理,這類變量的存在會(huì)降低某些模型的性能(例如線性和邏輯回歸模型)。為了解決這個(gè)問(wèn)題,我們可以計(jì)算獨(dú)立數(shù)值變量之間的相關(guān)性。如果相關(guān)系數(shù)超過(guò)某個(gè)閾值,就刪除其中一個(gè)變量。作為一般準(zhǔn)則,我們應(yīng)該保留那些與目標(biāo)變量顯示相當(dāng)或高相關(guān)性的變量

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
主成分分析(PCA)和奇異值分解(SVD)
【推薦系統(tǒng)】特征值分解(譜分解)和奇異值分解(SVD),即在PCA上的應(yīng)用
Stanford機(jī)器學(xué)習(xí)-數(shù)據(jù)降維
通俗易懂的講解奇異值分解(SVD)和主成分分析(PCA)
PCA線性代數(shù)講解
【機(jī)器學(xué)習(xí)】這次終于徹底理解了奇異值分解(SVD)原理及應(yīng)用
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服