跳转至

6.样本及抽样分布

约 2198 个字 预计阅读时间 7 分钟

数理统计通过统计分析进行统计推断。

随机样本

基本概念

总体: 随机试验 \(E\) 的全部可能得观察值。研究对象的全体。

个体:每一个可能观察值

容量:总体中包含的个体的个体数称为总体的容量

有限总体:容量为有限的总体,称称为有限总体

无限总体:容量为无限的总体,称为无限总体

个体 \(\rightarrow\) \(E\) 的一个观察值 \(\rightarrow\) \(X\)的值

总体 对应随机变量 \(X\)

从总体中抽取一个个体,就称为一个样本,通过大量抽取的样本推断出总体情况

假设你想研究一个城市中居民的平均身高。整个城市的所有居民的身高构成了一个“总体”,我们用随机变量 \(X\) 来表示一个从这个总体中随机选择的居民的身高。这个 \(X\) 是一个理论上的表示,它可以取该城市所有居民的任何一个身高值。

现在,你不能去测量这个城市中的每一个居民的身高,因为这需要大量的时间和资源。所以你决定随机选择 \(n\) 个居民并测量他们的身高。这 \(n\) 次测量构成了一个“简单随机样本”。

每一次测量都可以看作是 \(X\) 的一个实例或观察。所以,第一次测量是 \(X_1\),第二次测量是 \(X_2\),依此类推,直到第 \(n\) 次测量 \(X_n\)。因为每次测量都是随机的,所以 \(X_1, X_2, \dots, X_n\) 都与 \(X\) 同分布。

当你完成 \(n\) 次测量后,你会得到 \(n\) 个具体的身高值,比如 \(x_1, x_2, \dots, x_n\)。这些值是随机变量 \(X_1, X_2, \dots, X_n\) 的实际观察值或样本值。

为什么说他们是独立的?因为每次测量都是随机的,不受前一次测量的影响。例如,第二次测量的居民身高与第一次测量的居民身高没有关系。

简而言之: - \(X\) 是总体中一个居民的身高的理论表示。 - \(X_1, X_2, \dots, X_n\)\(n\) 次随机测量,每次测量都是从总体 \(X\) 中独立抽取的。 - \(x_1, x_2, \dots, x_n\) 是这 \(n\) 次测量的实际结果或样本值。

简单随机样本

设随机变量的分布函数为 \(F\) ,若 \(X_1,X_2,\cdots,X_n\) 是具有同一分布函数 \(F\) 的,相互独立的随机变量,则称 \(X_1,X_2,\cdots,X_n\) 为取自总体,容量为 \(n\) 的简单样本,简称为样本,它们的观察值 \(x_1,x_2,\cdots,x_n\) 称为样本值。

也就是说,只要说明 \(X_1,X_2,\cdots,X_n\) 是来自 \(X\) 的一个样本,我们就可以得到 \(X_1,X_2,\cdots,X_n\) 相互独立且与 \(X\) 同分布。

样本的分布

假设总体 \(X\) 的分布函数为 \(F(x)\) (概率密度为 \(f(x)\) 或分布律为 \(P\{X=a_i\}=p_i\)),\(X_1,X_2,\cdots,X_n\) 是取自总体 \(X\),容量为 \(n\) 的样本,则 (\(X_1,X_2,\cdots,X_n\)) 的联合分布函数为:

\[ F(x_1,x_2,\cdots,x_n)=F_{X_1}(x_1)\cdot F_{X_2}(x_2)\cdots F_{X_n}(x_n)=\prod_{i=1}^nF(x_i) \]

\(P(X_1 \leq x_1, X_2 \leq x_2) = P(X_1 \leq x_1) \times P(X_2 \leq x_2) = F_{X_1}(x_1) \times F_{X_2}(x_2)\),这些部分都是独立性的应用,表示同时取这些的可能性的乘积

联合概率密度为:

\[ f(x_1,x_2,\cdots,x_n)=f_{X_1}(x_1)\cdot f_{X_2}(x_2)\cdots f_{X_n}(x_n)=\prod_{i=1}^nf(x_i) \]

相应地,对离散型:

\[ P(X_1=x_1,X_2=x_2,\cdots,X_n=x_n)=\prod_{i=1}^nP(X=x_i) \]

直方图

利用统计图形表现统计数据,直观,形象。

常用的统计量

统计量定义

\(X_1,X_2,\cdots,X_n\) 是来自总体 \(X\) 的一个样本,\(g(X_1,X_2,\cdots,X_n)\)\(X_1,X_2,\cdots,X_n\) 的函数,若 \(g\) 中不含未知参数,则称 \(g(X_1,X_2,\cdots,X_n)\) 是一统计量。

\(x_1,x_2,\cdots,x_n\) 是样本 \(X_1,X_2,\cdots,X_n\) 的样本值,则称 \(g(x_1,x_2,\cdots,x_n)\) 是统计量 \(g(X_1,X_2,\cdots,X_n)\) 的观察值。

常用统计量

样本平均值

\[ \bar X=\frac1n \sum_{i=1}^nX_i=\frac{X_1+X_2+\cdots+X_n}{n} \]
\[ \bar x=\frac1n \sum_{i=1}^nx_i=\frac{x_1+x_2+\cdots+x_n}{n} \]

样本方差,样本标准差

样本方差:

\[ S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2=\frac{1}{n-1}[\sum_{i=1}^nX_i-n\bar X^2] \]

样本标准差:

\[ S=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2} \]

两者的观察值就是把随机变量换做它们对应的观察值。

样本 \(k\) 阶(原点)矩

样本的 \(k\) 阶矩:

\[ A_k=\frac1n\sum_{i=1}^nX_i^k,\ k=1,2,\dots \]

矩估计法理论依据

若总体的 \(k\) 阶矩 \(E(X^k)=\mu_k\) 存在,则当 \(n\to \infty\) 时,样本\(k\) 阶矩 \(A_k\to \mu_k,\ k=1,2,\dots\)

回忆:辛钦大数定理

样本 \(k\) 阶中心矩

\[ B_k=\frac1n\sum_{i=1}^n(X_i-\bar X)^k,k=2,3,\dots \]

经验分布函数

样本平均值隐含了随机变量的期望信息,样本方差隐含了随机变量的方差信息,统计量隐含了随机变量的分布信息。

定义:设 \(X_1,X_2,\cdots,X_n\) 是总体下的一个样本,\(x_1,x_2,\cdots,x_n\) 是样本值,用 \(S(x),\ -\infty<x<+\infty\) 表示 \(x_1,x_2,\cdots,x_n\) 中不大于 \(x\) 的值的个数,可定义经验分布函数:

\[ F_n(x)=\frac1nS(x)=\frac{x_1,x_2,\cdots,x_n \text{中不大于x的个数}}{n},\ x\in(-\infty,+\infty) \]

对任意 \(x\),当 \(n \to \infty\) 时,\(F_n(x)\to F(x)\)

三大抽样分布

抽样分布就是统计量的分布。

卡方分布

卡方分布即 \(\chi^2\) 分布。

如果有 \(n\) 个相互独立、标准正态分布的随机变量 \(X_1, X_2, ..., X_n\),则这些随机变量的平方和 \(\chi^2 = X_1^2 + X_2^2 + ... + X_n^2\) 就服从自由度\(n\) 的卡方分布,记作 \(\chi^2 \sim \chi^2(n)\)

自由度:独立变量的个数。(有多少个随机变量)

卡方分布是一种非负的偏态分布,随着自由度的增加,其图形逐渐从偏态变为近似对称。当自由度很高时,卡方分布接近正态分布。

\(\chi^2\) 分布的可加性以及数字特征:

\(\chi_1^2 \sim \chi^2(n_1)\), \(\chi_2^2\sim \chi^2(n_2)\),且 \(\chi_1^2,\chi_2^2\) 相互独立,则 \(\chi_1^2+\chi_2^2 \sim \chi^2(n_1+n_2)\)

\(\chi^2\) 分布的期望 \(E(\chi^2)\)\(n\),方差 \(D(\chi^2(n))=2n\)

t 分布

定义:设 \(X\sim N(0,1)\)\(Y\sim \chi^2(n)\),且 \(X,Y\) 相互独立,则称统计量

\[ t=\frac{X}{\sqrt{(Y/n)}}=\frac{N(0,1)}{\sqrt{\frac{\chi^2(n)}{n}}} \]

服从自由度为 \(n\)\(t\) 分布,记为 \(t \sim t(n)\)

背景:在实际应用中,尤其是样本量较小且总体标准差未知时,直接使用正态分布对数据进行分析可能会导致不准确的结果。这是因为小样本容量下样本标准差对总体标准差的估计不够准确。

  • 假设从一个正态分布总体中随机抽取了大小为 \(n\) 的样本,总体均值为 \(\mu\),但总体标准差 \(\sigma\) 未知。
  • 样本均值 \(\bar{x}\) 的分布也是正态分布,均值为 \(\mu\),标准差为 \(\sigma/\sqrt{n}\)(标准误)。
  • 但在实际中,总体标准差 \(\sigma\) 往往未知,需要用样本标准差 \(s\) 来估计。因此,我们用 \(s/\sqrt{n}\) 来代替 \(\sigma/\sqrt{n}\) 作为标准误。
  • 于是,我们得到一个新的比例 \(T = \frac{\bar{x} - \mu}{s/\sqrt{n}}\),这个比例就遵循t分布。

  • t分布的形状受样本大小(自由度,df = n - 1)的影响。随着样本量的增加,t分布越接近标准正态分布。

  • 自由度较低时,t分布比正态分布更扁平,尾部更厚,这反映了由于样本量较小带来的不确定性增加。

  • t分布在样本量较小(例如小于30)且总体标准差未知的情况下,是一个非常有用的工具,用于估计总体均值、构建置信区间和进行假设检验。

F 分布

定义:设 \(U\sim \chi^2(n_1),V\sim \chi^2(n_2)\),且 \(U,V\) 相互独立,则称随机变量 \(F=\frac{U/n_1}{V/n_2}\) 服从自由度为 \((n_1,n_2)\)\(F\) 分布,记为 \(F \sim F(n_1,n_2)\)

性质:若 \(F \sim F(n_1,n_2)\),则 \(\frac1F \sim F(n_2,n_1)\)

分位点

分位点可以看做是累积分布函数的逆。

定义:设 \(X\sim f(x)\),若对给定的正数,\(\alpha \in (0,1)\),有数 \(Z_\alpha\),满足

\[ P\{X>Z_\alpha\}=\int_{Z_\alpha}^{+\infty}f(x)dx=\alpha \]

则称点 \(Z_\alpha\)\(X\) 的上 \(\alpha\) 分位点。

正态总体的样本均值与样本方差的分布

回顾:从总体 \(X:N(\mu,\sigma^2)\) 中抽样,我们得到样本 \(X_1,X_2,\cdots,X_n\)

我们记统计量为:

  • 样本均值: \(\bar X=\frac1n\sum_{i=1}^nX_i\)

  • 样本方差: \(S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2\)

样本均值与样本方差的分布

接下来,我们设总体 \(X\)\(E(X)=\mu\)\(D(X)=\sigma^2\)\(X_1,X_2,\cdots,X_n\) 是来自总体 \(X\) 的样本,则有:

\(E(\bar X)=\mu\),样本均值 \(\bar X\) 的期望 \(E(\bar X)\) 等于总体 \(X\) 的期望 \(E(X)\)

\(D(\bar X)=\frac{\sigma^2}{n}\),样本均值 \(\bar X\) 的方差 \(D(\bar X)\) 等于总体方差除样本容量

\(E(S^2)=\sigma^2\),样本方差 \(S^2\) 的期望等于总体的方差 \(D(X)\)

正态总体样本均值与样本方差的分布

接下来我们特化到正态总体中的统计量的情况。

\(X_1,X_2,\cdots,X_n\) 是来自正态总体 \(N(\mu,\sigma^2)\) 的样本,则有:

  • \(\bar X \sim N(\mu,\frac{\sigma^2}{n})\)

  • \(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)

  • \(\bar X\)\(S^2\) 相互独立

  • \(\frac{\bar X-\mu}{\frac{S}{\sqrt n}} \sim t(n-1)\)