一、主成分分析(Principal components analysis,PCA)
主成分分析經常用於減少數據集的維數,同時保持數據集中的對變異數貢獻最大的特徵。通過對共變異數矩陣進行特徵分解,以得出數據的主成分(即特徵向量)與它們的權值(即特徵值)。
PCA詳細來說是一個正交化線性變換,把數據變換到一個新的座標系統中,使得這一數據的任何投影的第一大變異數在第一個座標(稱為第一主成分)上,第二大變異數在第二個座標(第二主成分)上,數學定義如下:
a set of p-dimensional vectors of weights or loadings $\mathbf{w}_{(k)} = (w_1, \dots, w_p)_{(k)}$ that map each row vector $\mathbf{x}_{(i)}$ of $X$ to a new vector of principal component scores $\mathbf{t}_{(i)} = (t_1, \dots, t_p)_{(i)}$, given by
${t_{k}}_{(i)} = \mathbf{x}_{(i)} \cdot \mathbf{w}_{(k)}$
$\mathbf{w}_{(1)}
= \underset{\Vert \mathbf{w} \Vert = 1}{\operatorname{\arg\,max}}\,\left\{ \sum_i \left(t_1\right)^2_{(i)} \right\}
= \underset{\Vert \mathbf{w} \Vert = 1}{\operatorname{\arg\,max}}\,\left\{ \sum_i \left(\mathbf{x}_{(i)} \cdot \mathbf{w} \right)^2 \right\}$
[證明待補] 證明通常使用奇異值分解 ($X = WΣV^T$)
注意事項:
- PCA對變量的縮放很敏感。
- 主成分分析在降維的同時並不能保證信息的不丟失,其中信息是由香農熵[8]來衡量的。
[用心去感覺] 在二維上是軸的旋轉
以兩變數為例,導出新軸與新變數(由 X1 軸旋轉 θ) (照相角度的選取法),希望能
找出變異數最大的線性組合。
$x_1^* = cosθ \times x_1+sinθ \times x_2$
$x_2^* = - sinθ \times x_1+cosθ \times x_2$
References
wiki - 主成份分析
https://zh.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
多變量分析 第六章 主成分分析(Principal Component Analysis) :陳順宇著
http://www.mcu.edu.tw/department/management/stat/ch_web/etea/SPSS/Applied_Multivariate_Data_Analysis_ch6.pdf
沒有留言:
張貼留言