一、主成分分析(Principal components analysis,PCA)
主成分分析經常用於減少數據集的維數,同時保持數據集中的對變異數貢獻最大的特徵。通過對共變異數矩陣進行特徵分解,以得出數據的主成分(即特徵向量)與它們的權值(即特徵值)。
PCA詳細來說是一個正交化線性變換,把數據變換到一個新的座標系統中,使得這一數據的任何投影的第一大變異數在第一個座標(稱為第一主成分)上,第二大變異數在第二個座標(第二主成分)上,數學定義如下:
a set of p-dimensional vectors of weights or loadings w(k)=(w1,…,wp)(k) that map each row vector x(i) of X to a new vector of principal component scores t(i)=(t1,…,tp)(i), given by
tk(i)=x(i)⋅w(k)
w(1)=argmax‖w‖=1{∑i(t1)2(i)}=argmax‖w‖=1{∑i(x(i)⋅w)2}
[證明待補] 證明通常使用奇異值分解 (X=WΣVT)
注意事項:
- PCA對變量的縮放很敏感。
- 主成分分析在降維的同時並不能保證信息的不丟失,其中信息是由香農熵[8]來衡量的。
[用心去感覺] 在二維上是軸的旋轉
以兩變數為例,導出新軸與新變數(由 X1 軸旋轉 θ) (照相角度的選取法),希望能
找出變異數最大的線性組合。
x∗1=cosθ×x1+sinθ×x2
x∗2=−sinθ×x1+cosθ×x2
References
wiki - 主成份分析
https://zh.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
多變量分析 第六章 主成分分析(Principal Component Analysis) :陳順宇著
http://www.mcu.edu.tw/department/management/stat/ch_web/etea/SPSS/Applied_Multivariate_Data_Analysis_ch6.pdf