免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
機器學(xué)習(xí)推導(dǎo)|主成分分析

一、樣本均值與樣本方差

  1. 概述

假設(shè)有以下數(shù)據(jù):

  1. 樣本均值與樣本方差

以下定義了數(shù)據(jù)的樣本均值與樣本方差:

接下來需要對樣本均值與樣本方差進行一些變換來獲得其另一種表示形式:

中心矩陣

具備以下性質(zhì):

因此最終可以得到

二、主成分分析的思想

一個中心:PCA是對原始特征空間的重構(gòu),將原來的線性相關(guān)的向量轉(zhuǎn)換成線性無關(guān)的向量;

兩個基本點:最大投影方差和最小重構(gòu)距離,這是本質(zhì)相同的兩種方法,在接下來的部分將具體介紹。

PCA首先要將數(shù)據(jù)中心化(即減去均值)然后投影到一個新的方向上,這個新的方向即為重構(gòu)的特征空間的坐標(biāo)軸,同時也要保證投影以后得到的數(shù)據(jù)的方差最大,即最大投影方差,這樣也保證了數(shù)據(jù)的重構(gòu)距離最小。

四、最大投影方差

假設(shè)投影方向為

,由于我們只關(guān)注投影的方向,因此將
的模設(shè)置為
,即
,則中心化后的數(shù)據(jù)在
方向上的投影為
,是一個標(biāo)量。按照最大投影方差的思想,我們定義損失函數(shù)如下:

因此該問題就轉(zhuǎn)換為以下最優(yōu)化問題:

然后使用拉格朗日乘子法進行求解:

最后解得符合條件的向量是協(xié)方差矩陣

的特征向量。如果想要降到
維(
),則只需要將對應(yīng)特征值最大的前
個特征向量取出來作為投影方向然后獲得數(shù)據(jù)在這些方向上的投影即為重構(gòu)的坐標(biāo),即:

特征向量表示投影變換的方向,特征值表示投影變換的強度。通過降維,我們希望減少冗余信息,提高識別的精度,或者希望通過降維算法來尋找數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征。找最大的特征值是因為 ,在降維之后要最大化保留數(shù)據(jù)的內(nèi)在信息,并期望在所投影的維度上的離散最大。

五、最小重構(gòu)距離

最小重構(gòu)距離是另一種求解的方法,其本質(zhì)上和最大投影方差是相同的。

我們知道有

個投影方向符合條件,因此原來的數(shù)據(jù)可以表示為以下形式,降維的數(shù)據(jù)也就是舍棄掉第
到第
這幾個方向上的信息。

因此重構(gòu)距離也就是指

,本著最小化重構(gòu)距離的思想我們可以設(shè)置新的損失函數(shù)如下:

然后就可以轉(zhuǎn)化為以下最優(yōu)化問題:

顯然這里的每個

是可以單獨求解的,最終也可以解得
是協(xié)方差矩陣
的特征向量,只不過這里的
是對應(yīng)特征值較小的幾個特征向量。

六、SVD角度看PCA和PCoA

協(xié)方差矩陣

的特征分解:

.

中心化的結(jié)果
做奇異值分解:

接下里可以做以下變換:

接下來我們構(gòu)造矩陣

對比

,我們可以發(fā)現(xiàn):
①將
進行特征分解然后得到投影的方向,也就是主成分,然后矩陣
即為重構(gòu)坐標(biāo)系的坐標(biāo)矩陣;
②將
進行特征分解可以直接獲得坐標(biāo)矩陣
。
(注意應(yīng)保證
特征分解得到的特征向量是單位向量。)

關(guān)于為什么將

進行特征分解可以直接獲得坐標(biāo)矩陣,現(xiàn)做以下解釋:

這兩種?法都可以得到主成分,但是由于?差矩陣是

的,?
的,所以對樣本量較少的時候可以采? PCoA的?法。

七、概率PCA(p-PCA)

  1. 概述

假設(shè)有以下數(shù)據(jù):

其中

是原始數(shù)據(jù),
是降維后的數(shù)據(jù),可以將
看做隱變量(latent variable),
看做觀測變量(observed variable),則p-PCA就可以看做生成模型。

滿足以下關(guān)系:

這是一個線性高斯模型,其中

是噪聲,
是獨立的。求解這個模型要經(jīng)過兩個階段:
①inference:求

②learning:使用EM算法求解參數(shù)
。

的生成過程如下:

上圖中數(shù)據(jù)空間為?維,潛在空間為?維。?個觀測數(shù)據(jù)點

的?成?式為:?先從潛在變量的先驗分布
中抽取?個潛在變量的值
,然后從?個各向同性的?斯分布(?紅?圓圈表示)中抽取?個
的值,這個各向同性的?斯分布的均值為
,協(xié)?差為
。綠?橢圓畫出了邊緣概率分布
的密度輪廓線。

  1. 推斷(inference)

求解

的過程如下:

該問題和《高斯分布|機器學(xué)習(xí)推導(dǎo)系列(二)》中第六部分的問題是類似的。

利用《高斯分布|機器學(xué)習(xí)推導(dǎo)系列(二)》中第五部分的公式可以求解

  1. 學(xué)習(xí)(learning)

使用EM算法求解,這里不做展示。

參考資料

ref:降維時為什么找最大的特征值對應(yīng)的特征向量
ref:《模式識別與機器學(xué)習(xí)》

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
四大機器學(xué)習(xí)降維算法:PCA、LDA、LLE、Laplacian Eigenmaps
LDA?線性判別分析
數(shù)據(jù)挖掘?qū)崙?zhàn):PCA算法
LDA
再談協(xié)方差矩陣之主成分分析
機器學(xué)習(xí)算法筆記系列之深入理解主成分分析PCA
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服