主元分析(PCA)理論分析及應(yīng)用

2009.08.09

主元分析(PCA)理論分析及應(yīng)用

什么是PCA?

PCA是Principal component analysis的縮寫(xiě)，中文翻譯為主元分析。它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù)，最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡(jiǎn)化。正如它的名字：主元分析，這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu)，去除噪音和冗余，將原有的復(fù)雜數(shù)據(jù)降維，揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡(jiǎn)單，而且無(wú)參數(shù)限制，可以方便的應(yīng)用與各個(gè)場(chǎng)合。因此應(yīng)用極其廣泛，從神經(jīng)科學(xué)到計(jì)算機(jī)圖形學(xué)都有它的用武之地。被譽(yù)為應(yīng)用線(xiàn)形代數(shù)最價(jià)值的結(jié)果之一。

在以下的章節(jié)中，不僅有對(duì)PCA的比較直觀(guān)的解釋?zhuān)瑫r(shí)也配有較為深入的分析。首先將從一個(gè)簡(jiǎn)單的例子開(kāi)始說(shuō)明PCA應(yīng)用的場(chǎng)合以及想法的由來(lái)，進(jìn)行一個(gè)比較直觀(guān)的解釋?zhuān)蝗缓蠹尤霐?shù)學(xué)的嚴(yán)格推導(dǎo)，引入線(xiàn)形代數(shù)，進(jìn)行問(wèn)題的求解。隨后將揭示PCA與SVD(Singular Value Decomposition)之間的聯(lián)系以及如何將之應(yīng)用于真實(shí)世界。最后將分析PCA理論模型的假設(shè)條件以及針對(duì)這些條件可能進(jìn)行的改進(jìn)。

一個(gè)簡(jiǎn)單的模型

在實(shí)驗(yàn)科學(xué)中我常遇到的情況是，使用大量的變量代表可能變化的因素，例如光譜、電壓、速度等等。但是由于實(shí)驗(yàn)環(huán)境和觀(guān)測(cè)手段的限制，實(shí)驗(yàn)數(shù)據(jù)往往變得極其的復(fù)雜、混亂和冗余的。如何對(duì)數(shù)據(jù)進(jìn)行分析，取得隱藏在數(shù)據(jù)背后的變量關(guān)系，是一個(gè)很困難的問(wèn)題。在神經(jīng)科學(xué)、氣象學(xué)、海洋學(xué)等等學(xué)科實(shí)驗(yàn)中，假設(shè)的變量個(gè)數(shù)可能非常之多，但是真正的影響因素以及它們之間的關(guān)系可能又是非常之簡(jiǎn)單的。

下面的模型取自一個(gè)物理學(xué)中的實(shí)驗(yàn)。它看上去比較簡(jiǎn)單，但足以說(shuō)明問(wèn)題。如圖表 1所示。這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測(cè)定實(shí)驗(yàn)。假設(shè)球是連接在一個(gè)無(wú)質(zhì)量無(wú)摩擦的彈簧之上，從平衡位置沿軸拉開(kāi)一定的距離然后釋放。

圖表 1

對(duì)于一個(gè)具有先驗(yàn)知識(shí)的實(shí)驗(yàn)者來(lái)說(shuō)，這個(gè)實(shí)驗(yàn)是非常容易的。球的運(yùn)動(dòng)只是在x軸向上發(fā)生，只需要記錄下軸向上的運(yùn)動(dòng)序列并加以分析即可。但是，在真實(shí)世界中，對(duì)于第一次實(shí)驗(yàn)的探索者來(lái)說(shuō)（這也是實(shí)驗(yàn)科學(xué)中最常遇到的一種情況），是不可能進(jìn)行這樣的假設(shè)的。那么，一般來(lái)說(shuō)，必須記錄下球的三維位置。這一點(diǎn)可以通過(guò)在不同角度放置三個(gè)攝像機(jī)實(shí)現(xiàn)（如圖所示），假設(shè)以的頻率拍攝畫(huà)面，就可以得到球在空間中的運(yùn)動(dòng)序列。但是，由于實(shí)驗(yàn)的限制，這三臺(tái)攝像機(jī)的角度可能比較任意，并不是正交的。事實(shí)上，在真實(shí)世界中也并沒(méi)有所謂的軸，每個(gè)攝像機(jī)記錄下的都是一幅二維的圖像，有其自己的空間坐標(biāo)系，球的空間位置是由一組二維坐標(biāo)記錄的：。經(jīng)過(guò)實(shí)驗(yàn)，系統(tǒng)產(chǎn)生了幾分鐘內(nèi)球的位置序列。怎樣從這些數(shù)據(jù)中得到球是沿著某個(gè)軸運(yùn)動(dòng)的規(guī)律呢？怎樣將實(shí)驗(yàn)數(shù)據(jù)中的冗余變量剔除，化歸到這個(gè)潛在的軸上呢？

這是一個(gè)真實(shí)的實(shí)驗(yàn)場(chǎng)景，數(shù)據(jù)的噪音是必須面對(duì)的因素。在這個(gè)實(shí)驗(yàn)中噪音可能來(lái)自空氣、摩擦、攝像機(jī)的誤差以及非理想化的彈簧等等。噪音使數(shù)據(jù)變得混亂，掩蓋了變量間的真實(shí)關(guān)系。如何去除噪音是實(shí)驗(yàn)者每天所要面對(duì)的巨大考驗(yàn)。

上面提出的兩個(gè)問(wèn)題就是PCA方法的目標(biāo)。PCA主元分析方法是解決此類(lèi)問(wèn)題的一個(gè)有力的武器。下文將結(jié)合以上的例子提出解決方案，逐步敘述PCA方法的思想和求解過(guò)程。

線(xiàn)形代數(shù)：基變換

從線(xiàn)形代數(shù)的角度來(lái)看，PCA的目標(biāo)就是使用另一組基去重新描述得到的數(shù)據(jù)空間。而新的基要能盡量揭示原有的數(shù)據(jù)間的關(guān)系。在這個(gè)例子中，沿著某軸上的運(yùn)動(dòng)是最重要的。這個(gè)維度即最重要的“主元”。PCA的目標(biāo)就是找到這樣的“主元”，最大程度的去除冗余和噪音的干擾。

A. 標(biāo)準(zhǔn)正交基

為了引入推導(dǎo)，需要將上文的數(shù)據(jù)進(jìn)行明確的定義。在上面描述的實(shí)驗(yàn)過(guò)程中，在每一個(gè)采樣時(shí)間點(diǎn)上，每個(gè)攝像機(jī)記錄了一組二維坐標(biāo)，綜合三臺(tái)攝像機(jī)數(shù)據(jù)，在每一個(gè)時(shí)間點(diǎn)上得到的位置數(shù)據(jù)對(duì)應(yīng)于一個(gè)六維列向量。

如果以的頻率拍攝10分鐘，將得到個(gè)這樣的向量數(shù)據(jù)。

抽象一點(diǎn)來(lái)說(shuō)，每一個(gè)采樣點(diǎn)數(shù)據(jù)都是在維向量空間（此例中）內(nèi)的一個(gè)向量，這里的是牽涉的變量個(gè)數(shù)。由線(xiàn)形代數(shù)我們知道，在維向量空間中的每一個(gè)向量都是一組正交基的線(xiàn)形組合。最普通的一組正交基是標(biāo)準(zhǔn)正交基，實(shí)驗(yàn)采樣的結(jié)果通?？梢钥醋魇窃跇?biāo)準(zhǔn)正交基下表示的。舉例來(lái)說(shuō)，上例中每個(gè)攝像機(jī)記錄的數(shù)據(jù)坐標(biāo)為，這樣的基便是。那為什么不取或是其他任意的基呢？原因是，這樣的標(biāo)準(zhǔn)正交基反映了數(shù)據(jù)的采集方式。假設(shè)采集數(shù)據(jù)點(diǎn)是，一般并不會(huì)記錄（在基下），因?yàn)橐话愕挠^(guān)測(cè)者都是習(xí)慣于取攝像機(jī)的屏幕坐標(biāo)，即向上和向右的方向作為觀(guān)測(cè)的基準(zhǔn)。也就是說(shuō)，標(biāo)準(zhǔn)正交基表現(xiàn)了數(shù)據(jù)觀(guān)測(cè)的一般方式。

在線(xiàn)形代數(shù)中，這組基表示為行列向量線(xiàn)形無(wú)關(guān)的單位矩陣。

B. 基變換

從更嚴(yán)格的數(shù)學(xué)定義上來(lái)說(shuō)，PCA回答的問(wèn)題是：如何尋找到另一組正交基，它們是標(biāo)準(zhǔn)正交基的線(xiàn)性組合，而且能夠最好的表示數(shù)據(jù)集？

這里提出了PCA方法的一個(gè)最關(guān)鍵的假設(shè)：線(xiàn)性。這是一個(gè)非常強(qiáng)的假設(shè)條件。它使問(wèn)題得到了很大程度的簡(jiǎn)化：1）數(shù)據(jù)被限制在一個(gè)向量空間中，能被一組基表示；2）隱含的假設(shè)了數(shù)據(jù)之間的連續(xù)性關(guān)系。

這樣一來(lái)數(shù)據(jù)就可以被表示為各種基的線(xiàn)性組合。令表示原數(shù)據(jù)集。是一個(gè)的矩陣，它的每一個(gè)列向量都表示一個(gè)時(shí)間采樣點(diǎn)上的數(shù)據(jù)，在上面的例子中，。表示轉(zhuǎn)換以后的新的數(shù)據(jù)集表示。是他們之間的線(xiàn)性轉(zhuǎn)換。

(1)

有如下定義：

l 表示的行向量。

l 表示的列向量（或者）。

l 表示的列向量。

公式(1)表示不同基之間的轉(zhuǎn)換，在線(xiàn)性代數(shù)中，它有如下的含義：

Ø 是從到的轉(zhuǎn)換矩陣。

Ø 幾何上來(lái)說(shuō)，對(duì)進(jìn)行旋轉(zhuǎn)和拉伸得到。

Ø 的行向量，是一組新的基，而是原數(shù)據(jù)在這組新的基表示下得到的重新表示。

下面是對(duì)最后一個(gè)含義的顯式說(shuō)明：

注意到的列向量：

可見(jiàn)表示的是與中對(duì)應(yīng)列的點(diǎn)積，也就是相當(dāng)于是在對(duì)應(yīng)向量上的投影。所以，的行向量事實(shí)上就是一組新的基。它對(duì)原數(shù)據(jù)進(jìn)行重新表示。在一些文獻(xiàn)中，將數(shù)據(jù)成為“源”，而將變換后的稱(chēng)為“信號(hào)”。這是由于變換后的數(shù)據(jù)更能體現(xiàn)信號(hào)成分的原因。

C. 問(wèn)題

在線(xiàn)性的假設(shè)條件下，問(wèn)題轉(zhuǎn)化為尋找一組變換后的基，也就是的行向量，這些向量就是PCA中所謂的“主元”。問(wèn)題轉(zhuǎn)化為如下的形式：

l 怎樣才能最好的表示原數(shù)據(jù)？

l 的基怎樣選擇才是最好的？

解決問(wèn)題的關(guān)鍵是如何體現(xiàn)數(shù)據(jù)的特征。那么，什么是數(shù)據(jù)的特征，如何體現(xiàn)呢？

方差和目標(biāo)

“最好的表示”是什么意思呢？下面的章節(jié)將給出一個(gè)較為直觀(guān)的解釋?zhuān)⒃黾右恍╊~外的假設(shè)條件。在線(xiàn)性系統(tǒng)中，所謂的“混亂數(shù)據(jù)”通常包含以下的三種成分：噪音、旋轉(zhuǎn)以及冗余。下面將對(duì)這三種成分做出數(shù)學(xué)上的描述并針對(duì)目標(biāo)作出分析。

A. 噪音和旋轉(zhuǎn)

噪音對(duì)數(shù)據(jù)的影響是巨大的，如果不能對(duì)噪音進(jìn)行區(qū)分，就不可能抽取數(shù)據(jù)中有用的信息。噪音的橫梁有多種方式，最常見(jiàn)的定義是信噪比(signal-to-noise ratio)，或是方差比：

(2)

比較大的信噪比表示數(shù)據(jù)的準(zhǔn)確度高，而信噪比低則說(shuō)明數(shù)據(jù)中的噪音成分比較多。那么怎樣區(qū)分什么是信號(hào)，什么是噪音呢？這里假設(shè)，變化較大的信息被認(rèn)為是信號(hào)，變化較小的則是噪音。事實(shí)上，這個(gè)標(biāo)準(zhǔn)等價(jià)于一個(gè)低通的濾波器，是一種標(biāo)準(zhǔn)的去噪準(zhǔn)則。而變化的大小則是由方差來(lái)描述的。

它表示了采樣點(diǎn)在平均值兩側(cè)的分布，對(duì)應(yīng)于圖表 2(a)就是采樣點(diǎn)云的“胖瘦”。顯然的，方差較大，也就是較“寬”較“胖”的分布，表示了采樣點(diǎn)的主要分布趨勢(shì)，是主信號(hào)或主要分量；而方差較小的分布則被認(rèn)為是噪音或次要分量。

圖表 2：(a)攝像機(jī)A的采集數(shù)據(jù)。圖中黑色垂直直線(xiàn)表示一組正交基的方向。是采樣點(diǎn)云在長(zhǎng)線(xiàn)方向上分布的方差，而是數(shù)據(jù)點(diǎn)在短線(xiàn)方向上分布的方差。(b)對(duì)的基向量進(jìn)行旋轉(zhuǎn)使SNR和方差最大。

假設(shè)攝像機(jī)A拍攝到的數(shù)據(jù)如圖表 2(a)所示，圓圈代表采樣點(diǎn)，因?yàn)檫\(yùn)動(dòng)理論上是只存在于一條直線(xiàn)上，所以偏離直線(xiàn)的分布都屬于噪音。此時(shí)描述的就是采樣點(diǎn)云在某對(duì)垂直方向上的概率分布的比值。那么，最大限度的揭示原數(shù)據(jù)的結(jié)構(gòu)和關(guān)系，找出某條潛在的，最優(yōu)的軸，事實(shí)上等價(jià)尋找一對(duì)空間內(nèi)的垂直直線(xiàn)（圖中黑線(xiàn)表示，也對(duì)應(yīng)于此空間的一組基），使得信噪比盡可能大的方向。容易看出，本例中潛在的軸就是圖上的較長(zhǎng)黑線(xiàn)方向。那么怎樣尋找這樣一組方向呢？直接的想法是對(duì)基向量進(jìn)行旋轉(zhuǎn)。如圖表 2(b)所示，隨著這對(duì)直線(xiàn)的轉(zhuǎn)動(dòng)以及方差的變化情況。應(yīng)于最大值的一組基，就是最優(yōu)的“主元”方向。在進(jìn)行數(shù)學(xué)中求取這組基的推導(dǎo)之前，先介紹另一個(gè)影響因素。

B. 冗余

有時(shí)在實(shí)驗(yàn)中引入了一些不必要的變量?？赡軙?huì)使兩種情況：1）該變量對(duì)結(jié)果沒(méi)有影響；2）該變量可以用其它變量表示，從而造成數(shù)據(jù)冗余。下面對(duì)這樣的冗余情況進(jìn)行分析和分類(lèi)。

圖表 3：可能冗余數(shù)據(jù)的頻譜圖表示。和分別是兩個(gè)不同的觀(guān)測(cè)變量。
（比如例子中的，）。最佳擬合線(xiàn)用虛線(xiàn)表示。

如圖表 3所示，它揭示了兩個(gè)觀(guān)測(cè)變量之間的關(guān)系。(a)圖所示的情況是低冗余的，從統(tǒng)計(jì)學(xué)上說(shuō)，這兩個(gè)觀(guān)測(cè)變量是相互獨(dú)立的，它們之間的信息沒(méi)有冗余。而相反的極端情況如(c)，和高度相關(guān)，完全可以用表示。一般來(lái)說(shuō)，這種情況發(fā)生可能是因?yàn)閿z像機(jī)A和攝像機(jī)B放置的位置太近或是數(shù)據(jù)被重復(fù)記錄了，也可能是由于實(shí)驗(yàn)設(shè)計(jì)的不合理所造成的。那么對(duì)于觀(guān)測(cè)者而言，這個(gè)變量的觀(guān)測(cè)數(shù)據(jù)就是完全冗余的，應(yīng)當(dāng)去除，只用一個(gè)變量就可以表示了。這也就是PCA中“降維”思想的本源。

C. 協(xié)方差矩陣

對(duì)于上面的簡(jiǎn)單情況，可以通過(guò)簡(jiǎn)單的線(xiàn)性擬合的方法來(lái)判斷各觀(guān)測(cè)變量之間是否出現(xiàn)冗余的情況，而對(duì)于復(fù)雜的情況，需要借助協(xié)方差來(lái)進(jìn)行衡量和判斷：

，分別表示不同的觀(guān)測(cè)變量所記錄的一組值，在統(tǒng)計(jì)學(xué)中，由協(xié)方差的性質(zhì)可以得到：

l ，且當(dāng)且僅當(dāng)觀(guān)測(cè)變量，相互獨(dú)立。

l ，當(dāng)=。

等價(jià)的，將，寫(xiě)成行向量的形式：

，

協(xié)方差可以表示為：

(3)

那么，對(duì)于一組具有個(gè)觀(guān)測(cè)變量，個(gè)采樣時(shí)間點(diǎn)的采樣數(shù)據(jù)，將每個(gè)觀(guān)測(cè)變量的值寫(xiě)為行向量，可以得到一個(gè)的矩陣：

(4)

接下來(lái)定義協(xié)方差矩陣如下：

(5)

容易發(fā)現(xiàn)協(xié)方差矩陣性質(zhì)如下：

l 是一個(gè)的平方對(duì)稱(chēng)矩陣。

l 對(duì)角線(xiàn)上的元素是對(duì)應(yīng)的觀(guān)測(cè)變量的方差。

l 非對(duì)角線(xiàn)上的元素是對(duì)應(yīng)的觀(guān)測(cè)變量之間的協(xié)方差。

協(xié)方差矩陣包含了所有觀(guān)測(cè)變量之間的相關(guān)性度量。更重要的是，根據(jù)前兩節(jié)的說(shuō)明，這些相關(guān)性度量反映了數(shù)據(jù)的噪音和冗余的程度。

l 在對(duì)角線(xiàn)上的元素越大，表明信號(hào)越強(qiáng)，變量的重要性越高；元素越小則表明可能是存在的噪音或是次要變量。

l 在非對(duì)角線(xiàn)上的元素大小則對(duì)應(yīng)于相關(guān)觀(guān)測(cè)變量對(duì)之間冗余程度的大小。

一般情況下，初始數(shù)據(jù)的協(xié)方差矩陣總是不太好的，表現(xiàn)為信噪比不高且變量間相關(guān)度大。PCA的目標(biāo)就是通過(guò)基變換對(duì)協(xié)方差矩陣進(jìn)行優(yōu)化，找到相關(guān)“主元”。那么，如何進(jìn)行優(yōu)化？矩陣的那些性質(zhì)是需要注意的呢？

D. 協(xié)方差矩陣的對(duì)角化

總結(jié)上面的章節(jié)，主元分析以及協(xié)方差矩陣優(yōu)化的原則是：1）最小化變量冗余，對(duì)應(yīng)于協(xié)方差矩陣的非對(duì)角元素要盡量??；2）最大化信號(hào)，對(duì)應(yīng)于要使協(xié)方差矩陣的對(duì)角線(xiàn)上的元素盡可能的大。因?yàn)閰f(xié)方差矩陣的每一項(xiàng)都是正值，最小值為0，所以?xún)?yōu)化的目標(biāo)矩陣的非對(duì)角元素應(yīng)該都是0，對(duì)應(yīng)于冗余最小。所以?xún)?yōu)化的目標(biāo)矩陣應(yīng)該是一個(gè)對(duì)角陣。即只有對(duì)角線(xiàn)上的元素可能是非零值。同時(shí)，PCA假設(shè)所對(duì)應(yīng)的一組變換基必須是標(biāo)準(zhǔn)正交的，而優(yōu)化矩陣對(duì)角線(xiàn)上的元素越大，就說(shuō)明信號(hào)的成分越大，換句話(huà)就是對(duì)應(yīng)于越重要的“主元”。

對(duì)于協(xié)方差矩陣進(jìn)行對(duì)角化的方法很多。根據(jù)上面的分析，最簡(jiǎn)單最直接的算法就是在多維空間內(nèi)進(jìn)行搜索。和圖表 2(a)的例子中旋轉(zhuǎn)的方法類(lèi)似：

1）在維空間中進(jìn)行遍歷，找到一個(gè)方差最大的向量，令作。

2）在與垂直的向量空間中進(jìn)行遍歷，找出次大的方差對(duì)應(yīng)的向量，記作。

3）對(duì)以上過(guò)程循環(huán)，直到找出全部的向量。它們生成的順序也就是“主元”的排序。

這個(gè)理論上成立的算法說(shuō)明了PCA的主要思想和過(guò)程。在這中間，牽涉到兩個(gè)重要的特性：a)轉(zhuǎn)換基是一組標(biāo)準(zhǔn)正交基。這給PCA的求解帶來(lái)了很大的好處，它可以運(yùn)用線(xiàn)性代數(shù)的相關(guān)理論進(jìn)行快速有效的分解。這些方法將在后面提到。b）在PCA的過(guò)程中，可以同時(shí)得到新的基向量所對(duì)應(yīng)的“主元排序”，利用這個(gè)重要性排序可以方便的對(duì)數(shù)據(jù)進(jìn)行光順、簡(jiǎn)化處理或是壓縮。

A. PCA的假設(shè)和局限

PCA的模型中存在諸多的假設(shè)條件，決定了它存在一定的限制，在有些場(chǎng)合可能會(huì)造成效果不好甚至失效。對(duì)于學(xué)習(xí)和掌握PCA來(lái)說(shuō)，理解這些內(nèi)容是非常重要的，同時(shí)也有利于理解基于改進(jìn)這些限制條件的PCA的一些擴(kuò)展技術(shù)。

PCA的假設(shè)條件包括：

1. 線(xiàn)形性假設(shè)。

如同文章開(kāi)始的例子，PCA的內(nèi)部模型是線(xiàn)性的。這也就決定了它能進(jìn)行的主元分析之間的關(guān)系也是線(xiàn)性的?，F(xiàn)在比較流行的kernel-PCA的一類(lèi)方法就是使用非線(xiàn)性的權(quán)值對(duì)原有PCA技術(shù)的拓展。

2. 使用中值和方差進(jìn)行充分統(tǒng)計(jì)。

使用中值和方差進(jìn)行充分的概率分布描述的模型只限于指數(shù)型概率分布模型。（例如高斯分布），也就是說(shuō)，如果我們考察的數(shù)據(jù)的概率分布并不滿(mǎn)足高斯分布或是指數(shù)型的概率分布，那么PCA將會(huì)失效。在這種模型下，不能使用方差和協(xié)方差來(lái)很好的描述噪音和冗余，對(duì)教化之后的協(xié)方差矩陣并不能得到很合適的結(jié)果。

事實(shí)上，去除冗余的最基礎(chǔ)的方程是：

其中代表概率分布的密度函數(shù)?；谶@個(gè)方程進(jìn)行冗余去除的方法被稱(chēng)作獨(dú)立主元分析(ICA)方法(Independent Component Analysis)。不過(guò)，所幸的是，根據(jù)中央極限定理，現(xiàn)實(shí)生活中所遇到的大部分采樣數(shù)據(jù)的概率分布都是遵從高斯分布的。所以PCA仍然是一個(gè)使用于絕大部分領(lǐng)域的穩(wěn)定且有效的算法。

3. 大方差向量具有較大重要性。

PCA方法隱含了這樣的假設(shè)：數(shù)據(jù)本身具有較高的信噪比，所以具有最高方差的一維向量就可以被看作是主元，而方差較小的變化則被認(rèn)為是噪音。這是由于低通濾波器的選擇決定的。

4. 主元正交。

PCA方法假設(shè)主元向量之間都是正交的，從而可以利用線(xiàn)形代數(shù)的一系列有效的數(shù)學(xué)工具進(jìn)行求解，大大提高了效率和應(yīng)用的范圍。

PCA求解：特征根分解

在線(xiàn)形代數(shù)中，PCA問(wèn)題可以描述成以下形式：

尋找一組正交基組成的矩陣，有，使得是對(duì)角陣。則P的行向量（也就是一組正交基），就是數(shù)據(jù)的主元向量。

對(duì)進(jìn)行推導(dǎo)：

定義，則是一個(gè)對(duì)稱(chēng)陣。對(duì)進(jìn)行對(duì)角化求取特征向量得：

則是一個(gè)對(duì)角陣而則是對(duì)稱(chēng)陣的特征向量排成的矩陣。

這里要提出的一點(diǎn)是，是一個(gè)的矩陣，而它將有個(gè)特征向量。其中是矩陣的秩。如果，則即為退化陣。此時(shí)分解出的特征向量不能覆蓋整個(gè)空間。此時(shí)只需要在保證基的正交性的前提下，在剩余的空間中任意取得維正交向量填充的空格即可。它們將不對(duì)結(jié)果造成影響。因?yàn)榇藭r(shí)對(duì)應(yīng)于這些特征向量的特征值，也就是方差值為零。

求出特征向量矩陣后我們?nèi)?/span>，則，由線(xiàn)形代數(shù)可知矩陣有性質(zhì)，從而進(jìn)行如下計(jì)算：

可知此時(shí)的就是我們需要求得變換基。至此我們可以得到PCA的結(jié)果：

l 的主元即是的特征向量，也就是矩陣的行向量。

l 矩陣對(duì)角線(xiàn)上第i個(gè)元素是數(shù)據(jù)在方向的方差。

我們可以得到PCA求解的一般步驟：

1）采集數(shù)據(jù)形成的矩陣。為觀(guān)測(cè)變量個(gè)數(shù)，為采樣點(diǎn)個(gè)數(shù)。

2）在每個(gè)觀(guān)測(cè)變量（矩陣行向量）上減去該觀(guān)測(cè)變量的平均值得到矩陣。

3）對(duì)進(jìn)行特征分解，求取特征向量以及所對(duì)應(yīng)的特征根。

總結(jié)和討論

l PCA技術(shù)的一大好處是對(duì)數(shù)據(jù)進(jìn)行降維的處理。我們可以對(duì)新求出的“主元”向量的重要性進(jìn)行排序，根據(jù)需要取前面最重要的部分，將后面的維數(shù)省去，可以達(dá)到降維從而簡(jiǎn)化模型或是對(duì)數(shù)據(jù)進(jìn)行壓縮的效果。同時(shí)最大程度的保持了原有數(shù)據(jù)的信息。
在前文的例子中，經(jīng)過(guò)PCA處理后的數(shù)據(jù)只剩下了一維，也就是彈簧運(yùn)動(dòng)的那一維，從而去除了冗余的變量，揭示了實(shí)驗(yàn)數(shù)據(jù)背后的物理原理。

l PCA技術(shù)的一個(gè)很大的優(yōu)點(diǎn)是，它是完全無(wú)參數(shù)限制的。在PCA的計(jì)算過(guò)程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)Ｐ蛯?duì)計(jì)算進(jìn)行干預(yù)，最后的結(jié)果只與數(shù)據(jù)相關(guān)，與用戶(hù)是獨(dú)立的。
但是，這一點(diǎn)同時(shí)也可以看作是缺點(diǎn)。如果用戶(hù)對(duì)觀(guān)測(cè)對(duì)象有一定的先驗(yàn)知識(shí)，掌握了數(shù)據(jù)的一些特征，卻無(wú)法通過(guò)參數(shù)化等方法對(duì)處理過(guò)程進(jìn)行干預(yù)，可能會(huì)得不到預(yù)期的效果，效率也不高。

圖表 4：黑色點(diǎn)表示采樣數(shù)據(jù)，排列成轉(zhuǎn)盤(pán)的形狀。
容易想象，該數(shù)據(jù)的主元是或是旋轉(zhuǎn)角。

如圖表 4中的例子，PCA找出的主元將是。但是這顯然不是最優(yōu)和最簡(jiǎn)化的主元。之間存在著非線(xiàn)性的關(guān)系。根據(jù)先驗(yàn)的知識(shí)可知旋轉(zhuǎn)角是最優(yōu)的主元。則在這種情況下，PCA就會(huì)失效。但是，如果加入先驗(yàn)的知識(shí)，對(duì)數(shù)據(jù)進(jìn)行某種劃歸，就可以將數(shù)據(jù)轉(zhuǎn)化為以為線(xiàn)性的空間中。這類(lèi)根據(jù)先驗(yàn)知識(shí)對(duì)數(shù)據(jù)預(yù)先進(jìn)行非線(xiàn)性轉(zhuǎn)換的方法就成為kernel-PCA，它擴(kuò)展了PCA能夠處理的問(wèn)題的范圍，又可以結(jié)合一些先驗(yàn)約束，是比較流行的方法。

l 有時(shí)數(shù)據(jù)的分布并不是滿(mǎn)足高斯分布。如圖表 5所示，在非高斯分布的情況下，PCA方法得出的主元可能并不是最優(yōu)的。在尋找主元時(shí)不能將方差作為衡量重要性的標(biāo)準(zhǔn)。要根據(jù)數(shù)據(jù)的分布情況選擇合適的描述完全分布的變量，然后根據(jù)概率分布式

來(lái)計(jì)算兩個(gè)向量上數(shù)據(jù)分布的相關(guān)性。等價(jià)的，保持主元間的正交假設(shè)，尋找的主元同樣要使。這一類(lèi)方法被稱(chēng)為獨(dú)立主元分解(ICA)。

圖表 5：數(shù)據(jù)的分布并不滿(mǎn)足高斯分布，呈明顯的十字星狀。
這種情況下，方差最大的方向并不是最優(yōu)主元方向。

l PCA方法和線(xiàn)形代數(shù)中的奇異值分解(SVD)方法有內(nèi)在的聯(lián)系，一定意義上來(lái)說(shuō)，PCA的解法是SVD的一種變形和弱化。對(duì)于的矩陣，通過(guò)奇異值分解可以直接得到如下形式：

其中是一個(gè)的矩陣，是一個(gè)的矩陣，而是的對(duì)角陣。形式如下：

其中，是原矩陣的奇異值。由簡(jiǎn)單推導(dǎo)可知，如果對(duì)奇異值分解加以約束：的向量必須正交，則矩陣即為PCA的特征值分解中的，則說(shuō)明PCA并不一定需要求取，也可以直接對(duì)原數(shù)據(jù)矩陣進(jìn)行SVD奇異值分解即可得到特征向量矩陣，也就是主元向量。

計(jì)算機(jī)視學(xué)領(lǐng)域的應(yīng)用

PCA方法是一個(gè)具有很高普適性的方法，被廣泛應(yīng)用于多個(gè)領(lǐng)域。這里要特別介紹的是它在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用，包括如何對(duì)圖像進(jìn)行處理以及在人臉識(shí)別方面的特別作用。

A. 數(shù)據(jù)表示

如果要將PCA方法應(yīng)用于視覺(jué)領(lǐng)域，最基本的問(wèn)題就是圖像的表達(dá)。如果是一幅大小的圖像，它的數(shù)據(jù)將被表達(dá)為一個(gè)維的向量：

在這里圖像的結(jié)構(gòu)將被打亂，每一個(gè)像素點(diǎn)被看作是一維，最直接的方法就是將圖像的像素一行行的頭尾相接成一個(gè)一維向量。還必須要注意的是，每一維上的數(shù)據(jù)對(duì)應(yīng)于對(duì)應(yīng)像素的亮度、灰度或是色彩值，但是需要?jiǎng)潥w到同一緯度上。

B. 模式識(shí)別

假設(shè)數(shù)據(jù)源是一系列的20幅圖像，每幅圖像都是大小，那么它們都可以表示為一個(gè)維的向量。將它們排成一個(gè)矩陣：

然后對(duì)它們進(jìn)行PCA處理，找出主元。

為什么這樣做呢？據(jù)人臉識(shí)別的例子來(lái)說(shuō)，數(shù)據(jù)源是20幅不同的人臉圖像，PCA方法的實(shí)質(zhì)是尋找這些圖像中的相似的維度，因?yàn)槿四樀慕Y(jié)構(gòu)有極大的相似性（特別是同一個(gè)人的人臉圖像），則使用PCA方法就可以很容易的提取出人臉的內(nèi)在結(jié)構(gòu)，也及時(shí)所謂“模式”，如果有新的圖像需要與原有圖像比較，就可以在變換后的主元維度上進(jìn)行比較，則可衡量新圖與原有數(shù)據(jù)集的相似度如何。

對(duì)這樣的一組人臉圖像進(jìn)行處理，提取其中最重要的主元，即可大致描述人臉的結(jié)構(gòu)信息，稱(chēng)作“特征臉”(EigenFace)。這就是人臉識(shí)別中的重要方法“特征臉?lè)椒?#8221;的理論根據(jù)。近些年來(lái)，基于對(duì)一般PCA方法的改進(jìn)，結(jié)合ICA、kernel-PCA等方法，在主元分析中加入關(guān)于人臉圖像的先驗(yàn)知識(shí)，則能得到更好的效果。

C. 圖像信息壓縮

使用PCA方法進(jìn)行圖像壓縮，又被稱(chēng)為Hotelling算法，或者Karhunen and Leove(KL)變換。這是視覺(jué)領(lǐng)域內(nèi)圖像處理的經(jīng)典算法之一。具體算法與上述過(guò)程相同，使用PCA方法處理一個(gè)圖像序列，提取其中的主元。然后根據(jù)主元的排序去除其中次要的分量，然后變換回原空間，則圖像序列因?yàn)榫S數(shù)降低得到很大的壓縮。例如上例中取出次要的5個(gè)維度，則圖像就被壓縮了1/4。但是這種有損的壓縮方法同時(shí)又保持了其中最“重要”的信息，是一種非常重要且有效的算法。

參考文獻(xiàn)

[1] Lindsay I Smith. (2002) “A tutorial on Principal Components Analysis”
http://csnet.otago.ac.nz/cosc453/student_ tutorials/principal_components.pdf

[2] Jonathon Shlens. (2005) “A Tutorial on Principal Component Analysis”
http://www.snl.salk.edu/~shlens/pub/notes/pca.pdf

[3] ?Will, Todd (1999) “Introduction to the Singular Value Decomposition” Davidson College. http://www.davidson.edu/academic/math/will/svd/index.html

[4] Bell, Anthony and Sejnowski, Terry. (1997) “The Independent Components of Natural Scenes are EdgeFilters.” Vision Research 37(23), 3327-3338.

[5] T.F. Cootes and C.J.Taylor (2004) “Statistical Models of Appearance for Computer Vision”
http://www.isbe.man.ac.uk/~bim/Models/app_models.pdf

[6] 張翠平蘇光大 (2000)“人臉識(shí)別技術(shù)綜述”《中國(guó)圖像圖形學(xué)報(bào)》第五卷A版第11期

[7] 何國(guó)輝甘俊英 (2006)“PCA類(lèi)內(nèi)平均臉?lè)ㄔ谌四樧R(shí)別中的應(yīng)用研究”《計(jì)算機(jī)應(yīng)用研究》2006年第三期

[8] 牛麗平付仲良魏文利 (2006)“人臉識(shí)別技術(shù)研究”《電腦開(kāi)發(fā)與應(yīng)用》2006年第五期

[9] Wikipedia “principal components analysis”詞條解釋 From Answers.com

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類(lèi)似文章

[pca]PrincipalComponentAnalysis（PCA）

10種線(xiàn)性代數(shù)在數(shù)據(jù)科學(xué)中的強(qiáng)大應(yīng)用（內(nèi)附多種資源）