6.样本及抽样分布¶
约 2198 个字 预计阅读时间 7 分钟
数理统计通过统计分析进行统计推断。
随机样本¶
基本概念¶
总体: 随机试验 \(E\) 的全部可能得观察值。研究对象的全体。
个体:每一个可能观察值
容量:总体中包含的个体的个体数称为总体的容量
有限总体:容量为有限的总体,称称为有限总体
无限总体:容量为无限的总体,称为无限总体
个体 \(\rightarrow\) \(E\) 的一个观察值 \(\rightarrow\) \(X\)的值
总体 对应随机变量 \(X\)
从总体中抽取一个个体,就称为一个样本,通过大量抽取的样本推断出总体情况
假设你想研究一个城市中居民的平均身高。整个城市的所有居民的身高构成了一个“总体”,我们用随机变量 \(X\) 来表示一个从这个总体中随机选择的居民的身高。这个 \(X\) 是一个理论上的表示,它可以取该城市所有居民的任何一个身高值。
现在,你不能去测量这个城市中的每一个居民的身高,因为这需要大量的时间和资源。所以你决定随机选择 \(n\) 个居民并测量他们的身高。这 \(n\) 次测量构成了一个“简单随机样本”。
每一次测量都可以看作是 \(X\) 的一个实例或观察。所以,第一次测量是 \(X_1\),第二次测量是 \(X_2\),依此类推,直到第 \(n\) 次测量 \(X_n\)。因为每次测量都是随机的,所以 \(X_1, X_2, \dots, X_n\) 都与 \(X\) 同分布。
当你完成 \(n\) 次测量后,你会得到 \(n\) 个具体的身高值,比如 \(x_1, x_2, \dots, x_n\)。这些值是随机变量 \(X_1, X_2, \dots, X_n\) 的实际观察值或样本值。
为什么说他们是独立的?因为每次测量都是随机的,不受前一次测量的影响。例如,第二次测量的居民身高与第一次测量的居民身高没有关系。
简而言之: - \(X\) 是总体中一个居民的身高的理论表示。 - \(X_1, X_2, \dots, X_n\) 是 \(n\) 次随机测量,每次测量都是从总体 \(X\) 中独立抽取的。 - \(x_1, x_2, \dots, x_n\) 是这 \(n\) 次测量的实际结果或样本值。
简单随机样本¶
设随机变量的分布函数为 \(F\) ,若 \(X_1,X_2,\cdots,X_n\) 是具有同一分布函数 \(F\) 的,相互独立的随机变量,则称 \(X_1,X_2,\cdots,X_n\) 为取自总体,容量为 \(n\) 的简单样本,简称为样本,它们的观察值 \(x_1,x_2,\cdots,x_n\) 称为样本值。
也就是说,只要说明 \(X_1,X_2,\cdots,X_n\) 是来自 \(X\) 的一个样本,我们就可以得到 \(X_1,X_2,\cdots,X_n\) 相互独立且与 \(X\) 同分布。
样本的分布¶
假设总体 \(X\) 的分布函数为 \(F(x)\) (概率密度为 \(f(x)\) 或分布律为 \(P\{X=a_i\}=p_i\)),\(X_1,X_2,\cdots,X_n\) 是取自总体 \(X\),容量为 \(n\) 的样本,则 (\(X_1,X_2,\cdots,X_n\)) 的联合分布函数为:
\(P(X_1 \leq x_1, X_2 \leq x_2) = P(X_1 \leq x_1) \times P(X_2 \leq x_2) = F_{X_1}(x_1) \times F_{X_2}(x_2)\),这些部分都是独立性的应用,表示同时取这些的可能性的乘积
联合概率密度为:
相应地,对离散型:
直方图¶
利用统计图形表现统计数据,直观,形象。
常用的统计量¶
统计量定义¶
设 \(X_1,X_2,\cdots,X_n\) 是来自总体 \(X\) 的一个样本,\(g(X_1,X_2,\cdots,X_n)\) 是 \(X_1,X_2,\cdots,X_n\) 的函数,若 \(g\) 中不含未知参数,则称 \(g(X_1,X_2,\cdots,X_n)\) 是一统计量。
若 \(x_1,x_2,\cdots,x_n\) 是样本 \(X_1,X_2,\cdots,X_n\) 的样本值,则称 \(g(x_1,x_2,\cdots,x_n)\) 是统计量 \(g(X_1,X_2,\cdots,X_n)\) 的观察值。
常用统计量¶
样本平均值
样本方差,样本标准差
样本方差:
样本标准差:
两者的观察值就是把随机变量换做它们对应的观察值。
样本 \(k\) 阶(原点)矩
样本的 \(k\) 阶矩:
矩估计法理论依据
若总体的 \(k\) 阶矩 \(E(X^k)=\mu_k\) 存在,则当 \(n\to \infty\) 时,样本的 \(k\) 阶矩 \(A_k\to \mu_k,\ k=1,2,\dots\)
回忆:辛钦大数定理
样本 \(k\) 阶中心矩
经验分布函数¶
样本平均值隐含了随机变量的期望信息,样本方差隐含了随机变量的方差信息,统计量隐含了随机变量的分布信息。
定义:设 \(X_1,X_2,\cdots,X_n\) 是总体下的一个样本,\(x_1,x_2,\cdots,x_n\) 是样本值,用 \(S(x),\ -\infty<x<+\infty\) 表示 \(x_1,x_2,\cdots,x_n\) 中不大于 \(x\) 的值的个数,可定义经验分布函数:
对任意 \(x\),当 \(n \to \infty\) 时,\(F_n(x)\to F(x)\)
三大抽样分布¶
抽样分布就是统计量的分布。
卡方分布¶
卡方分布即 \(\chi^2\) 分布。
如果有 \(n\) 个相互独立、标准正态分布的随机变量 \(X_1, X_2, ..., X_n\),则这些随机变量的平方和 \(\chi^2 = X_1^2 + X_2^2 + ... + X_n^2\) 就服从自由度为 \(n\) 的卡方分布,记作 \(\chi^2 \sim \chi^2(n)\)。
自由度:独立变量的个数。(有多少个随机变量)
卡方分布是一种非负的偏态分布,随着自由度的增加,其图形逐渐从偏态变为近似对称。当自由度很高时,卡方分布接近正态分布。
\(\chi^2\) 分布的可加性以及数字特征:
设 \(\chi_1^2 \sim \chi^2(n_1)\), \(\chi_2^2\sim \chi^2(n_2)\),且 \(\chi_1^2,\chi_2^2\) 相互独立,则 \(\chi_1^2+\chi_2^2 \sim \chi^2(n_1+n_2)\)
\(\chi^2\) 分布的期望 \(E(\chi^2)\) 为 \(n\),方差 \(D(\chi^2(n))=2n\)
t 分布¶
定义:设 \(X\sim N(0,1)\),\(Y\sim \chi^2(n)\),且 \(X,Y\) 相互独立,则称统计量
服从自由度为 \(n\) 的 \(t\) 分布,记为 \(t \sim t(n)\)
背景:在实际应用中,尤其是样本量较小且总体标准差未知时,直接使用正态分布对数据进行分析可能会导致不准确的结果。这是因为小样本容量下样本标准差对总体标准差的估计不够准确。
- 假设从一个正态分布总体中随机抽取了大小为 \(n\) 的样本,总体均值为 \(\mu\),但总体标准差 \(\sigma\) 未知。
- 样本均值 \(\bar{x}\) 的分布也是正态分布,均值为 \(\mu\),标准差为 \(\sigma/\sqrt{n}\)(标准误)。
- 但在实际中,总体标准差 \(\sigma\) 往往未知,需要用样本标准差 \(s\) 来估计。因此,我们用 \(s/\sqrt{n}\) 来代替 \(\sigma/\sqrt{n}\) 作为标准误。
于是,我们得到一个新的比例 \(T = \frac{\bar{x} - \mu}{s/\sqrt{n}}\),这个比例就遵循t分布。
t分布的形状受样本大小(自由度,df = n - 1)的影响。随着样本量的增加,t分布越接近标准正态分布。
自由度较低时,t分布比正态分布更扁平,尾部更厚,这反映了由于样本量较小带来的不确定性增加。
t分布在样本量较小(例如小于30)且总体标准差未知的情况下,是一个非常有用的工具,用于估计总体均值、构建置信区间和进行假设检验。
F 分布¶
定义:设 \(U\sim \chi^2(n_1),V\sim \chi^2(n_2)\),且 \(U,V\) 相互独立,则称随机变量 \(F=\frac{U/n_1}{V/n_2}\) 服从自由度为 \((n_1,n_2)\) 的 \(F\) 分布,记为 \(F \sim F(n_1,n_2)\)
性质:若 \(F \sim F(n_1,n_2)\),则 \(\frac1F \sim F(n_2,n_1)\)
分位点¶
分位点可以看做是累积分布函数的逆。
定义:设 \(X\sim f(x)\),若对给定的正数,\(\alpha \in (0,1)\),有数 \(Z_\alpha\),满足
则称点 \(Z_\alpha\) 是 \(X\) 的上 \(\alpha\) 分位点。
正态总体的样本均值与样本方差的分布¶
回顾:从总体 \(X:N(\mu,\sigma^2)\) 中抽样,我们得到样本 \(X_1,X_2,\cdots,X_n\)
我们记统计量为:
-
样本均值: \(\bar X=\frac1n\sum_{i=1}^nX_i\)
-
样本方差: \(S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2\)
样本均值与样本方差的分布¶
接下来,我们设总体 \(X\) 的 \(E(X)=\mu\),\(D(X)=\sigma^2\),\(X_1,X_2,\cdots,X_n\) 是来自总体 \(X\) 的样本,则有:
\(E(\bar X)=\mu\),样本均值 \(\bar X\) 的期望 \(E(\bar X)\) 等于总体 \(X\) 的期望 \(E(X)\)
\(D(\bar X)=\frac{\sigma^2}{n}\),样本均值 \(\bar X\) 的方差 \(D(\bar X)\) 等于总体方差除样本容量
\(E(S^2)=\sigma^2\),样本方差 \(S^2\) 的期望等于总体的方差 \(D(X)\)
正态总体样本均值与样本方差的分布¶
接下来我们特化到正态总体中的统计量的情况。
设 \(X_1,X_2,\cdots,X_n\) 是来自正态总体 \(N(\mu,\sigma^2)\) 的样本,则有:
-
\(\bar X \sim N(\mu,\frac{\sigma^2}{n})\)
-
\(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)
-
\(\bar X\) 与 \(S^2\) 相互独立
-
\(\frac{\bar X-\mu}{\frac{S}{\sqrt n}} \sim t(n-1)\)