10,000 次抛掷硬币实验中出现正面的平均比率,每次抽樣(实验)的樣本數為 200(抛掷 200 次硬币) 中心极限定理 (英语:central limit theorem,簡作 CLT )是概率论 中的一组定理。在概率论中,中心极限定理 (CLT) 确认,在许多情况下,对于独立并同样分布的随机变量,即使原始变量本身不是正态分布 ,标准化样本均值的抽样分布也趋向于标准正态分布 . 这组定理是数理统计学 和误差 分析的理论基础,指出了大量随机变量之和近似服从正态分布 的条件。
Tijms (2004, p.169) 写到:
“ 中心极限定理有着有趣的历史。这个定理的第一版被法国 数学家 棣莫弗 发现,他在1733年发表的卓越论文中使用正态分布 去估计大量抛掷硬币出现正面次数的分布。这个超越时代的成果险些被历史遗忘,所幸著名法国数学家拉普拉斯 在1812年发表的巨著 Théorie Analytique des Probabilités 中拯救了这个默默无名的理论。 拉普拉斯 扩展了棣莫弗 的理论,指出二项分布 可用正态分布逼近。但同棣莫弗 一样,拉普拉斯 的发现在当时并未引起很大反响。直到十九世纪末中心极限定理的重要性才被世人所知。1901年,俄国数学家里雅普诺夫 用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。如今,中心极限定理被认为是(非正式地)概率论 中的首席定理。
”
用正态分布逼近二项分布 棣莫佛 -拉普拉斯 定理(De Moivre–Laplace theorem)是中央极限定理的最初版本,讨论了服从二项分布 的随机变量序列。它指出,参数为n, p的二项分布以np为均值、np(1-p) 为方差的正态分布为极限。
若 X ∼ B ( n , p ) {\displaystyle X\sim B(n,p)} 是 n {\displaystyle n} 次伯努利实验 中事件 A 出现的次数,每次試驗成功的機率為 p {\displaystyle p} ,且 q = 1 − p {\displaystyle q=1-p} ,则对任意有限区间 [ a , b ] {\displaystyle [a,b]} :
令 x k ≡ k − n p n p q {\displaystyle x_{k}\equiv {\frac {k-np}{\sqrt {npq}}}} ,當 n → ∞ {\displaystyle n\to {\infty }} 时
(i) P ( X = k ) → 1 n p q ⋅ 1 2 π e − 1 2 x k 2 {\displaystyle P(X=k)\to {\frac {1}{\sqrt {npq}}}\cdot {\frac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}x_{k}^{2}}}
(ii) P ( a ≤ X − n p n p q ≤ b ) → ∫ a b φ ( x ) d x {\displaystyle P\left(a\leq {\frac {X-np}{\sqrt {npq}}}\leq {b}\right)\to \int _{a}^{b}\varphi (x)dx} ,其中 φ ( x ) = 1 2 π e − x 2 2 ( − ∞ < x < ∞ ) . {\displaystyle \varphi (x)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}(-\infty <x<\infty ).}
高尔顿绘制的高尔顿板模型,其中的小球显出钟形曲线。 棣莫弗-拉普拉斯定理指出二项分布的极限为正态分布。高尔顿板可以看作是伯努利试验的实验模型。如果我们把小球碰到钉子看作一次实验,而把从右边落下算是成功,从左边落下看作失败,就有了一次 p = 1 2 {\displaystyle p={\frac {1}{2}}} 的伯努利试验。小球从顶端到底层共需要经过n排钉子,这就相当于一个n次伯努利试验。小球的高度曲线也就可以看作二项分布随机变量的概率密度函数。因此,中央极限定理解释了高尔顿板小球累积高度曲线为什么是正态分布独有的钟形曲线。
中央极限定理的动态展示,独立同分布随机变量之和趋近正态分布。 林德伯格 -莱维 (Lindeberg-Levy)定理,是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布 随机变量序列的中央极限定理。它表明,独立同分布 (i.i.d., 即 independent and identically distributed)、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限:
设随机变量 X 1 , X 2 , ⋯ , X n {\displaystyle X_{1},X_{2},\cdots ,X_{n}} 独立同分布, 且具有有限的数学期望 和方差 E ( X i ) = μ {\displaystyle E(X_{i})=\mu } , D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , ⋯ , n ) {\displaystyle D(X_{i})=\sigma ^{2}\neq 0(i=1,2,\cdots ,n)} 。记
X ¯ = 1 n ∑ i = 1 n X i {\displaystyle {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}} , ζ n = X ¯ − μ σ / n {\displaystyle \zeta _{n}={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}} ,则 lim n → ∞ P ( ζ n ≤ z ) = Φ ( z ) {\displaystyle \lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)=\Phi \left(z\right)}
其中 Φ ( z ) {\displaystyle \Phi (z)} 是标准正态分布的分布函数。
记 X k − μ {\displaystyle X_{k}-\mu } 的特征函数 为 φ ( t ) {\displaystyle \varphi (t)} ,根据傅里叶变换 ,样本空间中的卷积在特征函数空间变为乘积,因此 ζ n {\displaystyle \zeta _{n}} 的特征函数为 [ φ ( t σ n ) ] n {\displaystyle {\left[\varphi {\left({\frac {t}{\sigma {\sqrt {n}}}}\right)}\right]}^{n}} .由于 E ( X k ) = μ , D ( X k ) = σ 2 {\displaystyle E(X_{k})=\mu ,D(X_{k})=\sigma ^{2}} 故 φ ′ ( 0 ) = 0 , φ ″ ( 0 ) = − σ 2 . {\displaystyle \varphi '(0)=0,\varphi ''(0)=-\sigma ^{2}.} 因此
φ ( t ) = 1 − 1 2 σ 2 t 2 + o ( t 2 ) {\displaystyle \varphi (t)=1-{\frac {1}{2}}\sigma ^{2}t^{2}+o(t^{2})}
所以
[ φ ( t σ n ) ] n = [ 1 − 1 2 n t 2 + o ( t 2 n ) ] n → e − t 2 / 2 {\displaystyle {\left[\varphi {\left({\frac {t}{\sigma {\sqrt {n}}}}\right)}\right]}^{n}=\left[1-{\frac {1}{2n}}t^{2}+o\left({\frac {t^{2}}{n}}\right)\right]^{n}\to {e^{-t^{2}/2}}}
由于 e − t 2 / 2 {\displaystyle e^{-t^{2}/2}} 是连续函数,它对应的分布函数为 Φ ( Z ) {\displaystyle \Phi (Z)} ,因此由逆极限定理 知
lim n → ∞ P ( ζ n ≤ z ) → Φ ( z ) {\displaystyle \lim _{n\rightarrow \infty }P\left(\zeta _{n}\leq z\right)\to \Phi \left(z\right)}
定理证毕。
林德伯格 -费勒(Lindeberg-Feller)定理,是中心极限定理的高级形式,是对林德伯格-莱维定理的扩展,讨论独立的,但不同分布 的情况下的随机变量和。它表明,满足一定条件时,独立的,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限:
记随机变量序列 X i {\displaystyle X_{i}} ( X i {\displaystyle X_{i}} 独立但不一定同分布, E [ X i ] = 0 {\displaystyle E[X_{i}]=0} 且有有限方差)部分和为
S n = ∑ i = 1 n X i {\displaystyle S_{n}=\sum _{i=1}^{n}X_{i}}
记
s i 2 = V a r ( X i ) {\displaystyle s_{i}^{2}={\rm {Var}}(X_{i})}
σ n 2 = ∑ i = 1 n s i 2 = V a r ( S n ) {\displaystyle \sigma _{n}^{2}=\sum _{i=1}^{n}s_{i}^{2}={\rm {Var}}(S_{n})} .
如果对每个 ϵ > 0 {\displaystyle \epsilon >0} ,序列满足
lim n → ∞ 1 σ n 2 ∑ i = 1 n E [ X i 2 ; { | X i | > ϵ σ n } ] = 0 {\displaystyle \lim _{n\rightarrow \infty }{1 \over \sigma _{n}^{2}}\sum _{i=1}^{n}E[X_{i}^{2};\{|X_{i}|>\epsilon \sigma _{n}\}]=0}
则称它满足林德伯格(Lindeberg)条件。
满足此条件的序列趋向于正态分布,即
S n / σ n → d N ( 0 , 1 ) {\displaystyle S_{n}/\sigma _{n}{\stackrel {d}{\rightarrow }}N(0,1)}
同时,该条件也是期望为零、方差有限的独立变量之和趋于正态分布的必要条件。
与之相关的是李亚普诺夫 (Lyapunov)条件:
E [ | X i | 3 ] < ∞ , lim n → ∞ 1 σ n 3 ∑ i = 1 n E [ | X i | 3 ] = 0 {\displaystyle E[|X_{i}|^{3}]<\infty ,\,\lim _{n\rightarrow \infty }{1 \over \sigma _{n}^{3}}\sum _{i=1}^{n}E[|X_{i}|^{3}]=0}
满足李亚普诺夫条件的序列,必满足林德伯格条件。
在此只对较强的李亚普诺夫条件给出证明。
以下证明对每一实数 t {\displaystyle t} ,特征函数满足 φ S n / σ n ( t ) → e − t 2 / 2 {\displaystyle \varphi _{S_{n}/\sigma _{n}}(t)\rightarrow e^{-t^{2}/2}} 。
| φ S n / σ n ( t ) − e − t 2 / 2 | = | ∏ k = 1 n φ X k ( t / σ n ) − ∏ k = 1 n e − t 2 s k 2 / 2 σ n 2 | ≤ ∑ k = 1 n | φ X k ( t / σ n ) − e − t 2 s k 2 / 2 σ n 2 | {\displaystyle \left|\varphi _{S_{n}/\sigma _{n}}(t)-e^{-t^{2}/2}\right|=\left|\prod _{k=1}^{n}\varphi _{X_{k}}(t/\sigma _{n})-\prod _{k=1}^{n}e^{-t^{2}s_{k}^{2}/2\sigma _{n}^{2}}\right|\leq \sum _{k=1}^{n}\left|\varphi _{X_{k}}(t/\sigma _{n})-e^{-t^{2}s_{k}^{2}/2\sigma _{n}^{2}}\right|}
泰勒展开,上式可近似为
∑ k = 1 n | i 3 t 3 E [ X k 3 ] 6 σ n 3 + t 4 s k 4 8 σ n 4 | ≤ | t | 3 6 σ n 3 ∑ k = 1 n E [ | X k | 3 ] + t 4 8 σ n 4 ∑ k = 1 n s k 4 ≤ | t | 3 6 σ n 3 ∑ k = 1 n E [ | X k | 3 ] + t 4 8 max 1 ≤ k ≤ n s k 2 σ n 2 {\displaystyle \sum _{k=1}^{n}\left|{\frac {i^{3}t^{3}E[X_{k}^{3}]}{6\sigma _{n}^{3}}}+{\frac {t^{4}s_{k}^{4}}{8\sigma _{n}^{4}}}\right|\leq {|t|^{3} \over 6\sigma _{n}^{3}}\sum _{k=1}^{n}E[|X_{k}|^{3}]+{\frac {t^{4}}{8\sigma _{n}^{4}}}\sum _{k=1}^{n}s_{k}^{4}\leq {|t|^{3} \over 6\sigma _{n}^{3}}\sum _{k=1}^{n}E[|X_{k}|^{3}]+{\frac {t^{4}}{8}}\max _{1\leq k\leq n}{s_{k}^{2} \over \sigma _{n}^{2}}}
由李亚普诺夫条件,当 n → ∞ {\displaystyle n\rightarrow \infty } 时,第一项收敛于零。
令 k n = a r g max 1 ≤ k ≤ n s k 2 / σ n 2 {\displaystyle k_{n}={\rm {arg}}\max _{1\leq k\leq n}s_{k}^{2}/\sigma _{n}^{2}} ,则由李亚普诺夫不等式 ,
( s k n / σ n ) 3 / 2 ≤ E [ | X k n / σ n | 3 ] ≤ 1 σ n 3 ∑ k = 1 n E [ | X k | 3 ] {\displaystyle (s_{k_{n}}/\sigma _{n})^{3/2}\leq E[|X_{k_{n}}/\sigma _{n}|^{3}]\leq {\frac {1}{\sigma _{n}^{3}}}\sum _{k=1}^{n}E[|X_{k}|^{3}]}
因此第二项也收敛于零。
证毕。
中心极限定理指出,随着随机变量数量的增加,许多具有有限方差的独立的且相同分布的随机变量的总和将趋于正态分布。
李贤平,概率论基础(第二版),高等教育出版社 Olav Kallenberg,现代概率论基础(第二版),Springer(2002)。