Probability and Statistics - 統計心法：常態分佈、大數法則與中央極限定理

本篇介紹從小學到大的常態分佈，這裡把常態分佈、大數法則、中央極限定理等一脈相承的概念串聯起來，做一次統整學習。

一、常態分布 (Normal Distribution, Gaussian distribution)

若隨機變量X服從一個位置參數為 $\mu$、變異數 (尺度參數) 為 $\sigma$ 的機率分佈，記為：

$X \sim N(\mu,\sigma^2),$

則其機率密度函數為

$f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}}$

常態分佈中一些值得注意的量：

密度函數關於平均值對稱
平均值與它的眾數（statistical mode）以及中位數（median）同一數值。
函數曲線下68.268949%的面積在平均數左右的一個標準差範圍內。
95.449974%的面積在平均數左右兩個標準差2 $\sigma$的範圍內。
99.730020%的面積在平均數左右三個標準差3 $\sigma$的範圍內。
99.993666%的面積在平均數左右四個標準差4 $\sigma$的範圍內。
函數曲線的反曲點（inflection point）為離平均數一個標準差距離的位置。

二、大數法則 (Law of large numbers)

大數法則是說，樣本數量越多，則其平均就越趨近期望值，數學定義如下：

$\overline{X}_n=\frac1n(X_1+\cdots+X_n) $
$\overline{X}_n \, \to \, \mu \qquad\textrm{for}\qquad n \to \infty,$

大數法則又分弱大數法則和強大數法則：

弱大數法則 (辛欽定理) : 弱大數法則的意義是說，當樣本數趨近於無限大時，樣本平均值會趨近於母體平均數 μ。
強大數法則的意義則是說，當樣本數趨近於無限大時，樣本平均值等於母體平均數的機率為 1。

要分這兩種收斂的原因在這裡，這裡就帶過去囉 :
https://zh.wikipedia.org/wiki/%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F%E7%9A%84%E6%94%B6%E6%95%9B

大數定律揭示了大量隨機變數的平均結果，但沒有涉及到隨機變數的分佈的問題，而下面的中心極限定理進一步說明了大量獨立隨機變數的平均數是如何分布的。

三、中央極限定理 (Central Limit Theorem)

中央極限定理 (Central Limit Theorem) 是機率理論及統計學中最重要且常用的結果之一。中央極限定理白話文是說：大量相互獨立、同分佈的隨機變量 (無論其分佈形式)，其均值的分布以常態分布為極限。

正式的中央極限定理如下 :

Lindeberg–Lévy CLT. Suppose ${X_1, X_2, ...}$ is a sequence of i.i.d. random variables with $E[X_i] = µ$ and $Var[X_i] = σ^2 < ∞$. Then as n approaches infinity, the random variables $√n(S_n − µ)$ converge in distribution to a normal $N(0, σ2)$:

$\sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ N(0,\;\sigma^2).$

[用心去感覺] 棣莫佛－拉普拉斯定理 (de Movire - Laplace theorem)

棣莫佛－拉普拉斯定理是中央極限定理的最初版本，討論了服從二項分布的隨機變量序列。它指出，參數為 $n, p$ 的二項分布以 $np$ 為均值、$np(1-p)$ 為變異數的常態分布為極限。

若 $\mu_n$ 是 $n$ 次伯努利實驗中事件 $A$ 出現的次數，0 < p < 1，則對任意有限區間[a,b]：

(i) 當 $a\leq{x_k} \equiv \frac{k-np}{\sqrt{npq}}\leq{b}（{x_k} {k}及n\to{\infty}$ 時，一致地有

$P\{\mu_n=k\}\div(\frac{1}{\sqrt{npq}}\cdot \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^{2}_{k}})\to1$

(ii) 當 $n\to\infty$ 時，一致地有

$P\{a\le{\frac{\mu_n-np}{\sqrt{npq}}} < b\}\to\int_a^b\varphi(x) dx$，其中 $\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}(-\infty < x < \infty)$.

[用心去感覺] 夜市與中央極限定理

中央極限定理解釋了高密頓板小球累積高度曲線 (就是夜市玩的小遊戲!) 為什麼是常態分布獨有的鐘形曲線。

高爾頓板可以看作是伯努利試驗的實驗模型。如果我們把小球碰到釘子看作一次實驗，而把從右邊落下算是成功，從左邊落下看作失敗，就有了一次 $p=\frac{1}{2}$ 的伯努利試驗。小球從頂端到底層共需要經過 $n$ 排釘子，這就相當於一個 $n$ 次伯努利試驗。

四、中央極限定理的模擬 - 使用R語言

由陳鍾誠的網站 (http://ccckmit.github.io/stbook/htm/CentralLimit.html)所提供的中央極限定理模擬真的很神! 可以讓不懂的人馬上看一下結果，體驗中央極限定理神奇之處!

CLT = function(x) {
  op<-par(mfrow=c(2,2))         # 設為 2*2 的四格繪圖版
  hist(x, nclass=50)            # 繪製 x 序列的直方圖 (histogram)。
  m2 <- matrix(x, nrow=2, )        # 將 x 序列分為 2*k 兩個一組的矩陣 m2。
  xbar2 <- apply(m2, 2, mean)    # 取每兩個一組的平均值 (x1+x2)/2 放入 xbar2 中。
  hist(xbar2, nclass=50)        # 繪製 xbar2 序列的直方圖 (histogram)。
  m10 <- matrix(x, nrow=10, )    # 將 x 序列分為 10*k 兩個一組的矩陣 m10。
  xbar10 <- apply(m10, 2, mean)    # 取每10個一組的平均值 (x1+..+x10)/10 放入 xbar10 中。
  hist(xbar10, nclass=50)        # 繪製 xbar10 序列的直方圖 (histogram)。
  m20 <- matrix(x, nrow=20, )    # 將 x 序列分為 25*k 兩個一組的矩陣 m25。
  xbar20 <- apply(m20, 2, mean)    # 取每20個一組的平均值 (x1+..+x20)/20 放入 xbar20 中。
  hist(xbar20, nclass=50)        # 繪製 xbar20 序列的直方圖 (histogram)。
}

CLT(rbinom(100000, 20, 0.5))     # 用參數為 n=20, p=0.5 的二項分布驗證中央極限定理。
CLT(runif(100000))                 # 用參數為 a=0, b=1 的均等分布驗證中央極限定理。
CLT(rpois(100000, 4))             # 用參數為 lambda=4 的布瓦松分布驗證中央極限定理。
CLT(rgeom(100000, 0.5))         # 用參數為 n=20, m=10, k=5 的超幾何分布驗證中央極限定理。
CLT(rhyper(100000, 20, 10, 5))     # 用參數為 p=0.5 的幾何分布驗證中央極限定理。
CLT(rnorm(100000))                 # 用參數為 mean=0, sd=1 的標準常態分布驗證中央極限定理。
CLT(sample(1:6, 100000, replace=T))    # 用擲骰子的分布驗證中央極限定理。
CLT(sample(0:1, 100000, replace=T))    # 用丟銅板的分布驗證中央極限定理。

References

wiki - Law of large numbers
https://en.wikipedia.org/wiki/Law_of_large_numbers

wiki - Central limit theorem
https://en.wikipedia.org/wiki/Central_limit_theorem

陳鍾誠的網站 - 中央極限定理
http://ccckmit.wikidot.com/st:centraltheorem
http://ccckmit.github.io/stbook/htm/CentralLimit.html

Pages

2015年11月8日星期日

Probability and Statistics - 統計心法：常態分佈、大數法則與中央極限定理