6.样本及抽样分布¶

约 2198 个字预计阅读时间 7 分钟

数理统计通过统计分析进行统计推断。

随机样本¶

基本概念¶

总体：随机试验 \(E\) 的全部可能得观察值。研究对象的全体。

个体：每一个可能观察值

容量：总体中包含的个体的个体数称为总体的容量

有限总体：容量为有限的总体，称称为有限总体

无限总体：容量为无限的总体，称为无限总体

个体 \(\rightarrow\) \(E\) 的一个观察值 \(\rightarrow\) \(X\)的值

总体对应随机变量 \(X\)

从总体中抽取一个个体，就称为一个样本，通过大量抽取的样本推断出总体情况

假设你想研究一个城市中居民的平均身高。整个城市的所有居民的身高构成了一个“总体”，我们用随机变量 \(X\) 来表示一个从这个总体中随机选择的居民的身高。这个 \(X\) 是一个理论上的表示，它可以取该城市所有居民的任何一个身高值。

现在，你不能去测量这个城市中的每一个居民的身高，因为这需要大量的时间和资源。所以你决定随机选择 \(n\) 个居民并测量他们的身高。这 \(n\) 次测量构成了一个“简单随机样本”。

每一次测量都可以看作是 \(X\) 的一个实例或观察。所以，第一次测量是 \(X_1\)，第二次测量是 \(X_2\)，依此类推，直到第 \(n\) 次测量 \(X_n\)。因为每次测量都是随机的，所以 \(X_1, X_2, \dots, X_n\) 都与 \(X\) 同分布。

当你完成 \(n\) 次测量后，你会得到 \(n\) 个具体的身高值，比如 \(x_1, x_2, \dots, x_n\)。这些值是随机变量 \(X_1, X_2, \dots, X_n\) 的实际观察值或样本值。

为什么说他们是独立的？因为每次测量都是随机的，不受前一次测量的影响。例如，第二次测量的居民身高与第一次测量的居民身高没有关系。

简而言之： - \(X\) 是总体中一个居民的身高的理论表示。 - \(X_1, X_2, \dots, X_n\) 是 \(n\) 次随机测量，每次测量都是从总体 \(X\) 中独立抽取的。 - \(x_1, x_2, \dots, x_n\) 是这 \(n\) 次测量的实际结果或样本值。

简单随机样本¶

设随机变量的分布函数为 \(F\) ，若 \(X_1,X_2,\cdots,X_n\) 是具有同一分布函数 \(F\) 的，相互独立的随机变量，则称 \(X_1,X_2,\cdots,X_n\) 为取自总体，容量为 \(n\) 的简单样本，简称为样本，它们的观察值 \(x_1,x_2,\cdots,x_n\) 称为样本值。

也就是说，只要说明 \(X_1,X_2,\cdots,X_n\) 是来自 \(X\) 的一个样本，我们就可以得到 \(X_1,X_2,\cdots,X_n\) 相互独立且与 \(X\) 同分布。

样本的分布¶

假设总体 \(X\) 的分布函数为 \(F(x)\) （概率密度为 \(f(x)\) 或分布律为 \(P\{X=a_i\}=p_i\)）,\(X_1,X_2,\cdots,X_n\) 是取自总体 \(X\)，容量为 \(n\) 的样本，则 (\(X_1,X_2,\cdots,X_n\)) 的联合分布函数为：

\[ F(x_1,x_2,\cdots,x_n)=F_{X_1}(x_1)\cdot F_{X_2}(x_2)\cdots F_{X_n}(x_n)=\prod_{i=1}^nF(x_i) \]

\(P(X_1 \leq x_1, X_2 \leq x_2) = P(X_1 \leq x_1) \times P(X_2 \leq x_2) = F_{X_1}(x_1) \times F_{X_2}(x_2)\)，这些部分都是独立性的应用，表示同时取这些的可能性的乘积

联合概率密度为：

\[ f(x_1,x_2,\cdots,x_n)=f_{X_1}(x_1)\cdot f_{X_2}(x_2)\cdots f_{X_n}(x_n)=\prod_{i=1}^nf(x_i) \]

相应地，对离散型：

\[ P(X_1=x_1,X_2=x_2,\cdots,X_n=x_n)=\prod_{i=1}^nP(X=x_i) \]

直方图¶

利用统计图形表现统计数据，直观，形象。

常用的统计量¶

统计量定义¶

设 \(X_1,X_2,\cdots,X_n\) 是来自总体 \(X\) 的一个样本，\(g(X_1,X_2,\cdots,X_n)\) 是 \(X_1,X_2,\cdots,X_n\) 的函数，若 \(g\) 中不含未知参数，则称 \(g(X_1,X_2,\cdots,X_n)\) 是一统计量。

若 \(x_1,x_2,\cdots,x_n\) 是样本 \(X_1,X_2,\cdots,X_n\) 的样本值，则称 \(g(x_1,x_2,\cdots,x_n)\) 是统计量 \(g(X_1,X_2,\cdots,X_n)\) 的观察值。

常用统计量¶

样本平均值

\[ \bar X=\frac1n \sum_{i=1}^nX_i=\frac{X_1+X_2+\cdots+X_n}{n} \]

\[ \bar x=\frac1n \sum_{i=1}^nx_i=\frac{x_1+x_2+\cdots+x_n}{n} \]

样本方差，样本标准差

样本方差：

\[ S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2=\frac{1}{n-1}[\sum_{i=1}^nX_i-n\bar X^2] \]

样本标准差：

\[ S=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2} \]

两者的观察值就是把随机变量换做它们对应的观察值。

样本 \(k\) 阶（原点）矩

样本的 \(k\) 阶矩：

\[ A_k=\frac1n\sum_{i=1}^nX_i^k,\ k=1,2,\dots \]

矩估计法理论依据

若总体的 \(k\) 阶矩 \(E(X^k)=\mu_k\) 存在，则当 \(n\to \infty\) 时，样本的 \(k\) 阶矩 \(A_k\to \mu_k,\ k=1,2,\dots\)

回忆：辛钦大数定理

样本 \(k\) 阶中心矩

\[ B_k=\frac1n\sum_{i=1}^n(X_i-\bar X)^k,k=2,3,\dots \]

经验分布函数¶

样本平均值隐含了随机变量的期望信息，样本方差隐含了随机变量的方差信息，统计量隐含了随机变量的分布信息。

定义：设 \(X_1,X_2,\cdots,X_n\) 是总体下的一个样本，\(x_1,x_2,\cdots,x_n\) 是样本值，用 \(S(x),\ -\infty<x<+\infty\) 表示 \(x_1,x_2,\cdots,x_n\) 中不大于 \(x\) 的值的个数，可定义经验分布函数：

\[ F_n(x)=\frac1nS(x)=\frac{x_1,x_2,\cdots,x_n \text{中不大于x的个数}}{n},\ x\in(-\infty,+\infty) \]

对任意 \(x\)，当 \(n \to \infty\) 时，\(F_n(x)\to F(x)\)

三大抽样分布¶

抽样分布就是统计量的分布。

卡方分布¶

卡方分布即 \(\chi^2\) 分布。

如果有 \(n\) 个相互独立、标准正态分布的随机变量 \(X_1, X_2, ..., X_n\)，则这些随机变量的平方和 \(\chi^2 = X_1^2 + X_2^2 + ... + X_n^2\) 就服从自由度为 \(n\) 的卡方分布，记作 \(\chi^2 \sim \chi^2(n)\)。

自由度：独立变量的个数。（有多少个随机变量）

卡方分布是一种非负的偏态分布，随着自由度的增加，其图形逐渐从偏态变为近似对称。当自由度很高时，卡方分布接近正态分布。

\(\chi^2\) 分布的可加性以及数字特征：

设 \(\chi_1^2 \sim \chi^2(n_1)\), \(\chi_2^2\sim \chi^2(n_2)\)，且 \(\chi_1^2,\chi_2^2\) 相互独立，则 \(\chi_1^2+\chi_2^2 \sim \chi^2(n_1+n_2)\)

\(\chi^2\) 分布的期望 \(E(\chi^2)\) 为 \(n\)，方差 \(D(\chi^2(n))=2n\)

t 分布¶

定义：设 \(X\sim N(0,1)\)，\(Y\sim \chi^2(n)\)，且 \(X,Y\) 相互独立，则称统计量

\[ t=\frac{X}{\sqrt{(Y/n)}}=\frac{N(0,1)}{\sqrt{\frac{\chi^2(n)}{n}}} \]

服从自由度为 \(n\) 的 \(t\) 分布，记为 \(t \sim t(n)\)

背景：在实际应用中，尤其是样本量较小且总体标准差未知时，直接使用正态分布对数据进行分析可能会导致不准确的结果。这是因为小样本容量下样本标准差对总体标准差的估计不够准确。

假设从一个正态分布总体中随机抽取了大小为 \(n\) 的样本，总体均值为 \(\mu\)，但总体标准差 \(\sigma\) 未知。

样本均值 \(\bar{x}\) 的分布也是正态分布，均值为 \(\mu\)，标准差为 \(\sigma/\sqrt{n}\)（标准误）。

但在实际中，总体标准差 \(\sigma\) 往往未知，需要用样本标准差 \(s\) 来估计。因此，我们用 \(s/\sqrt{n}\) 来代替 \(\sigma/\sqrt{n}\) 作为标准误。

于是，我们得到一个新的比例 \(T = \frac{\bar{x} - \mu}{s/\sqrt{n}}\)，这个比例就遵循t分布。

t分布的形状受样本大小（自由度，df = n - 1）的影响。随着样本量的增加，t分布越接近标准正态分布。

自由度较低时，t分布比正态分布更扁平，尾部更厚，这反映了由于样本量较小带来的不确定性增加。

t分布在样本量较小（例如小于30）且总体标准差未知的情况下，是一个非常有用的工具，用于估计总体均值、构建置信区间和进行假设检验。

F 分布¶

定义：设 \(U\sim \chi^2(n_1),V\sim \chi^2(n_2)\)，且 \(U,V\) 相互独立，则称随机变量 \(F=\frac{U/n_1}{V/n_2}\) 服从自由度为 \((n_1,n_2)\) 的 \(F\) 分布，记为 \(F \sim F(n_1,n_2)\)

性质：若 \(F \sim F(n_1,n_2)\)，则 \(\frac1F \sim F(n_2,n_1)\)

分位点¶

分位点可以看做是累积分布函数的逆。

定义：设 \(X\sim f(x)\)，若对给定的正数，\(\alpha \in (0,1)\)，有数 \(Z_\alpha\)，满足

\[ P\{X>Z_\alpha\}=\int_{Z_\alpha}^{+\infty}f(x)dx=\alpha \]

则称点 \(Z_\alpha\) 是 \(X\) 的上 \(\alpha\) 分位点。

正态总体的样本均值与样本方差的分布¶

回顾：从总体 \(X:N(\mu,\sigma^2)\) 中抽样，我们得到样本 \(X_1,X_2,\cdots,X_n\)

我们记统计量为：

样本均值： \(\bar X=\frac1n\sum_{i=1}^nX_i\)
样本方差： \(S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2\)

样本均值与样本方差的分布¶

接下来，我们设总体 \(X\) 的 \(E(X)=\mu\)，\(D(X)=\sigma^2\)，\(X_1,X_2,\cdots,X_n\) 是来自总体 \(X\) 的样本，则有：

\(E(\bar X)=\mu\)，样本均值 \(\bar X\) 的期望 \(E(\bar X)\) 等于总体 \(X\) 的期望 \(E(X)\)

\(D(\bar X)=\frac{\sigma^2}{n}\)，样本均值 \(\bar X\) 的方差 \(D(\bar X)\) 等于总体方差除样本容量

\(E(S^2)=\sigma^2\)，样本方差 \(S^2\) 的期望等于总体的方差 \(D(X)\)

正态总体样本均值与样本方差的分布¶

接下来我们特化到正态总体中的统计量的情况。

设 \(X_1,X_2,\cdots,X_n\) 是来自正态总体 \(N(\mu,\sigma^2)\) 的样本，则有：

\(\bar X \sim N(\mu,\frac{\sigma^2}{n})\)
\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)
\(\bar X\) 与 \(S^2\) 相互独立
\(\frac{\bar X-\mu}{\frac{S}{\sqrt n}} \sim t(n-1)\)