2015年11月9日 星期一

Linear Algebra - 主成分分析 Principal components analysis, PCA

0 Comments
 

一、主成分分析(Principal components analysis,PCA)


主成分分析經常用於減少數據集的維數,同時保持數據集中的對變異數貢獻最大的特徵。通過對共變異數矩陣進行特徵分解,以得出數據的主成分(即特徵向量)與它們的權值(即特徵值)。

PCA詳細來說是一個正交化線性變換,把數據變換到一個新的座標系統中,使得這一數據的任何投影的第一大變異數在第一個座標(稱為第一主成分)上,第二大變異數在第二個座標(第二主成分)上,數學定義如下:

a set of p-dimensional vectors of weights or loadings w(k)=(w1,,wp)(k) that map each row vector x(i) of X to a new vector of principal component scores t(i)=(t1,,tp)(i), given by

tk(i)=x(i)w(k)

w(1)=argmaxw=1{i(t1)2(i)}=argmaxw=1{i(x(i)w)2}


[證明待補]  證明通常使用奇異值分解 (X=WΣVT)


注意事項:

  • PCA對變量的縮放很敏感。
  • 主成分分析在降維的同時並不能保證信息的不丟失,其中信息是由香農熵[8]來衡量的。 



[用心去感覺] 在二維上是軸的旋轉

以兩變數為例,導出新軸與新變數(由 X1 軸旋轉 θ) (照相角度的選取法),希望能
找出變異數最大的線性組合。

x1=cosθ×x1+sinθ×x2
x2=sinθ×x1+cosθ×x2






References


wiki - 主成份分析
https://zh.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90

多變量分析 第六章 主成分分析(Principal Component Analysis) :陳順宇著
http://www.mcu.edu.tw/department/management/stat/ch_web/etea/SPSS/Applied_Multivariate_Data_Analysis_ch6.pdf






技術提供:Blogger.