中學就開始教的變異數觀念(variance),在研究所課程中可以以機率、統計、線代、程式模擬等方式看待變異數,實在是很有趣! 下面是一些筆記:)
一、變異數 (Varience)
1.1 變異數定義
$\operatorname{Var}(X) = \operatorname{E}\left[(X - \mu)^2 \right] = \operatorname{Cov}(X, X) = \operatorname{E}\left[X^2 \right] - (\operatorname{E}[X])^2$
一個隨機變量的變異數描述的是它的離散程度,有以下幾種理解方式:
- 該變量離其期望值的距離:每一個觀測值和平均值之間的偏差值的平方值的平均,更一般化的說法為二階矩或二階中心動差。
- 自己本身的共變異數:變異量數亦可當作是隨機變數與自己本身的共變異數。
變異數的另一種求法是平方的平均減掉平均的平方,而變異量數的算術平方根稱為該隨機變量的標準差。
1.1 連續隨機變數
$\operatorname{Var}(X) =\sigma^2 =\int (x-\mu)^2 \, f(x) \, dx\, =\int x^2 \, f(x) \, dx\, - \mu^2$
1.2 離散隨機變數
$\operatorname{Var}(X) = \sum_{i=1}^n p_i\cdot(x_i - \mu)^2 = \sum_{i=1}^n (p_i\cdot x_i^2) - \mu^2$
1.3 變異數性質
- 變異量數不會是負的
- 當一個資料集的變異量數為零時,其內所有項目皆為相同數值
- 一個常數被加至一個數列中的所有變數值,此數列的變異量數不會改變:$\operatorname{Var}(X+a)=\operatorname{Var}(X.)$
- 如果所有數值被放大一個常數倍,變異量數會放大此常數的次方倍:$\operatorname{Var}(aX)=a^2\operatorname{Var}(X)$
- 兩個隨機變數合的變異量數為:$\operatorname{Var}(aX+bY)=a^2\operatorname{Var}(X)+b^2\operatorname{Var}(Y)+2ab\, \operatorname{Cov}(X,Y),$
- 對於N個隨機變數$\{X_1,\dots,X_N\}$的總和:$\operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i,j=1}^N\operatorname{Cov}(X_i,X_j)=\sum_{i=1}^N\operatorname{Var}(X_i)+\sum_{i\ne j}\operatorname{Cov}(X_i,X_j)$
二、共變異數(Covariance)
$\operatorname{cov}(X, Y) = \operatorname{E}((X - \mu) (Y - \nu))$
一個共變異數用於衡量兩個變量的總體誤差,有以下觀念:
- 變異數是共變異數的一種特殊情況,即當兩個變量是相同的情況。
- 如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那麼兩個變量之間的共變異數就是正值。 如果兩個變量的變化趨勢相反,那麼兩個變量之間的共變異數就是負值。
- 如果X 與Y 是統計獨立的,那麼二者之間的共變異數就是0,這是因為
$E(X \cdot Y)=E(X) \cdot E(Y)=\mu\nu,$
但是反過來並不成立,即如果 $X$ 與 $Y$ 的共變異數為0,二者並不一定是統計獨立的。僅表明 $X$ 與 $Y$ 兩隨機變量之間沒有線性相關性
三、共變異矩陣
共變異矩陣是從純量隨機變量到高維度隨機向量的自然推廣。
$X = \begin{bmatrix}X_1 \\ \vdots \\ X_n \end{bmatrix}$
並且$\mu_i$ 是其第 $i$ 個元素的期望值,即, $\mu_i = \mathrm{E}(X_i)$ ,其中 $X_i$ 是列向量中的一個純量。共變異數矩陣的第 $i$,$j$項(第$i$,$j$項是一個共變異數)被定義為如下形式:
$\Sigma_{ij}
= \mathrm{cov}(X_i, X_j) = \mathrm{E}\begin{bmatrix}
(X_i - \mu_i) (X_j - \mu_j) ^\top
\end{bmatrix}$
而共變異數矩陣為:
$\Sigma=
\begin{bmatrix}
\mathrm{E}[(X_1 - \mu_1)(X_1 - \mu_1)] & \mathrm{E}[(X_1 - \mu_1)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_1 - \mu_1)(X_n - \mu_n)] \\ \\
\mathrm{E}[(X_2 - \mu_2)(X_1 - \mu_1)] & \mathrm{E}[(X_2 - \mu_2)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_2 - \mu_2)(X_n - \mu_n)] \\ \\
\vdots & \vdots & \ddots & \vdots \\ \\
\mathrm{E}[(X_n - \mu_n)(X_1 - \mu_1)] & \mathrm{E}[(X_n - \mu_n)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_n - \mu_n)(X_n - \mu_n)]
\end{bmatrix}$
矩陣中的第 $(i,j)$ 個元素是 $X_i$ 與 $X_j$ 的共變異數。這個概念是對於純量隨機變數變異數的一般化推廣。
四、皮爾遜相關係數
兩個變量之間的皮爾遜相關係數定義為兩個變量之間的共變異數和標準差的商:
$\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y},$
相關係數有以下觀念需要熟記:
- 總體和樣本皮爾遜係數的絕對值小於或等於1。
如果樣本數據點精確的落在直線上(計算樣本皮爾遜係數的情況),或者雙變量分布完全在直線上(計算總體皮爾遜係數的情況),則相關係數等於1或-1。 - 皮爾遜係數是對稱的: $corr(X,Y) = corr(Y,X)$。
- 兩個變量的位置和尺度的變化並不會引起該係數的改變:我們如果把 $X$ 移動到 $a + bX$ 和把 $Y$ 移動到 $c + dY$ ,並不會改變兩個變量的相關係數。
五、跑跑看程式吧!
這個R內建的鳶尾花(iris)資料集是非常著名的生物資訊資料集之一,取自美國加州大學歐文分校的機械學習資料庫http://archive.ics.uci.edu/ml/datasets/Iris,資料的筆數為150筆,共有五個欄位:
- 花萼長度(Sepal Length):計算單位是公分。
- 花萼寬度(Sepal Width):計算單位是公分。
- 花瓣長度(Petal Length) :計算單位是公分。
- 花瓣寬度(Petal Width):計算單位是公分。
- 類別(Class):可分為Setosa,Versicolor和Virginica三個品種。
### 一、觀察iris資料 ### attach(iris) head(iris,5) summary(iris) ### 二、繪圖 ### plot(Sepal.Length,Sepal.Width) #散佈圖(連續資料、連續資料) plot(Species) #長條圖(種類資料) plot(Species,Sepal.Length) #盒狀圖(種類資料、連續資料) plot(iris) #散佈圖矩陣 ### 三、變異數測試 ### a = 2 #常數 var(Sepal.Length) var(Sepal.Length+a) cov(Sepal.Length, Sepal.Length) var(Sepal.Length*a) summary(Sepal.Length)
References
wiki - 變異數
https://zh.wikipedia.org/wiki/%E6%96%B9%E5%B7%AE
wiki - 共變異數
https://zh.wikipedia.org/wiki/%E5%8D%8F%E6%96%B9%E5%B7%AE
沒有留言:
張貼留言