跳转至

5.大数定律和中心极限定理

约 903 个字 预计阅读时间 3 分钟

大数定律

什么是随机变量序列?

随机变量序列是一组随机变量,这些变量按照某种顺序排列(通常是按照试验的次数)

一个随机变量序列可以写作 \(\{ X_1, X_2, X_3, \ldots \}\)

随机变量 \(X_1\) 不是一个具体的数值,而是有可能取多个值的变量,这些可能的值遵循某个概率分布。在实际观察或实验中,\(X_1\) 会取一个具体的值,这个值是根据其概率分布随机选择的。

例如,如果我们考虑一个掷骰子的场景,\(X_1\) 可能表示第一次掷骰子后出现的点数。这个随机变量 \(X_1\) 可以取 \(1\)\(6\) 之间的任何整数值,并且每个值的概率都是 \(\frac{1}{6}\)。而在试验中,\(X_1\) 会变成一个 \(1\)\(6\) 的一个确定值。

在随机变量序列的极限分析中,表达式 \(\lim_{{n\to\infty}} P(|X_n - a| < \epsilon) = 1\) 通常用于描述随机变量序列 \(\{ X_1, X_2, X_3, \ldots \}\) 收敛到常数 \(a\) 的概率。这意味着,随着 \(n\) 趋向无穷大,\(X_n\) 取值在 \(a\) 的一个小邻域 \((a - \epsilon, a + \epsilon)\) 内的概率趋近于 1。也就是说,\(X_n\) 取值为 \(a\) 接近于必然发生。

为什么随机变量可以减 \(a\)

实际上这里的 \(a\) 是一个实数常量。假设 \(X_i\) 是一个随机变量,\(a\) 是一个常数,那么 \(X_i - a\) 也是一个随机变量。这个新的随机变量 \(X_i - a\) 有其自己的概率分布,这个分布可以通过 \(X_i\) 的分布来确定。也就是说,这里的 \(-a\) 对应的是把 \(X_i\) 的所有可能取值全都 \(-a\) 了。

弱大数定理(辛钦大数定理)

设随机变量 \(X_1,X_2,\cdots,X_n,\cdots\) 相互独立,服从同一分布,且具有数学期望 \(E(X_k)=\mu(k=1,2,\cdots)\),作前 \(n\) 个随机变量的算数平均 \(\frac 1n \sum_{k=1}^nX_i\),则对任意 \(\epsilon >0\),有

\[ \lim_{n \to \infty} P\{\mid \frac 1 n \sum_{k=1}^nX_k-\mu \mid < \epsilon\}=1 \]

辛钦大数定理告诉我们随着样本大小 \(n\) 的增大,样本平均值 \(\bar{X}\) 会越来越接近随机变量 \(X\) 的期望 \(E[X]\)。样本平均值将会越来越不偏离期望值 \(\mu\)

更形式化地说,辛钦大数定理适用于独立同分布(i.i.d.)的随机变量 \(X_1, X_2, \ldots, X_n\),这些随机变量具有有限的期望 \(E[X]\) 和方差 \(\text{Var}(X)\)。定理表明,当 \(n\) 趋向于无穷大时,样本平均值 \(\bar{X}\) 将以概率 1 收敛到 \(E[X]\)

这意味着在大样本中,样本平均值是总体期望的一个非常好的估计。这也是统计学和经验研究中使用样本平均值来估计总体期望的一个理论基础。

为什么这里能作算术平均?

\[ S_n = \frac{1}{n} \sum_{i=1}^{n} X_i \]

\(S_n\) 本身也是一个随机变量。这是因为 \(S_n\) 是由其他随机变量 \(X_1, X_2, \ldots, X_n\) 构成的,所以 \(S_n\) 的取值也是随机的。

这个新的随机变量 \(S_n\) 有其自己的概率分布,这个分布可以通过原来的 \(X_1, X_2, \ldots, X_n\) 的分布来推导。

例子:掷骰子的长期平均点数

假设我们有一个标准的六面骰子,每一面都有相同的概率 \(\frac{1}{6}\) 出现。如果我们掷这个骰子 \(n\) 次,我们就得到了 \(n\) 个随机变量的序列:\(X_1, X_2, \ldots, X_n\)。每个 \(X_i\) 的取值是 \(\{1, 2, 3, 4, 5, 6\}\),并且都服从相同的均匀分布。

现在我们定义一个新的随机变量 \(S_n\),它是前 \(n\) 次掷骰子得到的点数的算术平均:

\[ S_n = \frac{1}{n} \sum_{i=1}^{n} X_i \]

\(S_n\) 用于估计长期的平均点数。

  1. 均值(Expectation): 每次掷骰子的期望值是 \(\frac{1+2+3+4+5+6}{6} = 3.5\)。因此,\(S_n\) 的期望值也是 \(3.5\)

  2. 方差(Variance): 每次掷骰子的方差是 \(\frac{(1-3.5)^2 + (2-3.5)^2 + \ldots + (6-3.5)^2}{6} \approx 2.92\)。由于 \(S_n\)\(n\) 个独立随机变量的平均,所以 \(S_n\) 的方差是 \(\frac{2.92}{n}\)

  3. 大数定律(Law of Large Numbers): 当 \(n\) 越来越大,算术平均 \(S_n\) 将越来越接近骰子的真实期望值 \(3.5\),并且 \(S_n\) 的方差将趋近于 0。

例如,如果 \(n = 2\),即我们掷两次骰子:

  • 如果第一次掷出 1,第二次掷出 6,那么 \(S_2 = \frac{1+6}{2} = 3.5\)
  • 如果两次都掷出 4,那么 \(S_2 = \frac{4+4}{2} = 4\)

由于 \(X_i\)(掷一次骰子的结果)是一个离散随机变量,\(S_n\) 也会是一个离散随机变量。然而,\(S_n\) 的取值范围和概率分布会比单个 \(X_i\) 更复杂,尤其当 \(n\) 很大时。

伯努利大数定理

\(f_A\)\(n\) 次独立重复试验中事件 \(A\) 发生的此数,\(p\) 是事件 \(A\) 在每次试验中发生的概率,则对于任意正数 \(\epsilon>0\),有

\[ \lim_{n\to \infty}P\{\mid \frac{f_A}{n}-p\mid<\epsilon\}=1 \]

告诉我们频率的稳定性。

\(n\) 充分大时,事件“频率 \(\frac{f_A}{n}\) 与概率 \(P(A)\) 偏差小于 \(\epsilon\) ”几乎必然发生。

所以在实际应用中,当试验次数很大的时候,我们可以用事件的频率代替概率。

中心极限定理

标准化变量

标准化变量(Standardized Variable)是一个经过变换的随机变量,其均值为 \(0\),标准差为 \(1\)。标准化是统计数据分析中一个常见的预处理步骤,它使得不同量纲或量级的变量能够在同一标准下进行比较。

给定一个随机变量 \(X\),其均值为 \(\mu\),标准差为 \(\sigma\),标准化变量 \(Z\) 定义为:

\[ X^* = \frac{{X - \mu}}{\sigma}=\frac{X-E(X)}{\sqrt{D(X)}} \]

这样变换后,\(X^*\) 的均值会是 \(0\),标准差会是 \(1\)

为什么要标准化?

便于比较: 不同量纲或者量级的变量经过标准化后,可以在相同的标准下进行比较。

数值稳定性: 在一些机器学习算法和统计模型中,标准化有助于提高数值稳定性和收敛速度。

解释性和可视化: 在某些情况下,标准化数据更容易进行解释和可视化。

独立同分布的中心极限定理

设随机变量 \(X_1,X_2,\cdots,X_n,\cdots\) 满足

  • 相互独立
  • 服从同一分布
  • 具有数学期望和方差 \(E(X_k)=\mu,D(X_k)=\sigma^2,(k=1,2,\cdots)\)

则随机变量之和 \(\sum_{i=1}^nX_i\) 的标准化变量

\[ Y_n=\frac{\sum_{k=1}^nX_k-E(\sum_{k=1}^nX_k)}{\sqrt{D(\sum_{k=1}^nX_k)}}=\frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt n\sigma} \]

的分布函数 \(F_n(x)\) 对于任意 \(x\) 满足:

\[ \lim_{n\to \infty}F_n(x)=\lim_{n\to \infty}P\{\frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt n \sigma}\leq x\}=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-\frac12t^2}dt=\Phi(x) \]

也就是说,将随机变量之和 \(\sum_{i=1}^nX_i\) 标准化 \(Y_n\) 之后,分布函数近似于 \(\mathcal N(0,1)\)。一般来说,\(\sum_{i=1}^nX_i\) 分布函数不易求,当 \(n\) 充分大时,可以将其标准化后用 \(\Phi(x)\) 给出其近似分布。

随后,我们也可以进一步推出 \(\bar X=\frac1 n\sum_{i=1}^nX_i\) 的分布也满足正态分布。

\[ \bar X=\frac{\sigma}{\sqrt{n}}Y+\mu \]

由正态分布的性质,

\[ \bar X \sim N(\mu,\frac{\sigma^2}{n}) \]