跳转至

2.一维随机变量及其分布

约 2323 个字 预计阅读时间 8 分钟

随机变量

我们希望通过函数来研究概率中的随机现象。随机变量就是概率论中的一种函数,定义在样本空间上,把每一个样本点与一个实数对应起来。

定义:设随机试验 \(E\) 的样本空间为\(S=\{e\}\). \(X=X(e)\) 是定义在样本空间 \(S\) 上的实值单值函数,称 \(X=X(e)\) 为随机变量。

随机变量的定义域为样本空间中的事件,取值是随机的, \(X\) 的本质是对事件的描述。

离散型随机变量及其分布

定义:若随机变量 \(X\) 可能取值有有限个或可列无限多个,则称 \(X\) 为离散型随机变量。

分布律:设离散型随机变量 \(X\) 所有可能取值为 \(x_k,(k=1,2,\cdots)\)\(X\) 取各个可能值的概率 \(\{X=x_k\}\) 的概率为 \(P\{X=x_k\}=p_k,(k=1,2,\cdots)\),称为离散型随机变量 \(X\) 的分布律。

对于分布律,我们有 \(\sum_{k=1}^{+\infty}p_k=1,p_k\geq0,(k=1,2,\cdots)\)

0-1 分布

定义:设随机变量 \(X\) 只可能取 \(0\)\(1\) 两个值,它的分布律是:

\[ P\{X=k\}=p^k(1-p)^{1-k},k=0,1\ (0<p<1) \]

则称 \(X\) 服从参数为 \(p\) 的 0-1分布(两点分布)

二项分布

伯努利试验:设试验 \(E\) 只有两个可能结果: \(A\)\(\bar A\),则称 \(E\) 为伯努利试验。

二项分布:用 \(X\) 表示 \(n\) 重伯努利试验中事件 \(A\) 发生的此数,\(P(A)=p\),则 \(X\) 的分布律为

\[ P\{X=k\}=C_n^kp^k(1-p)^{n-k} \]

意思就是\(n\)次试验中\(A\)发生了\(k\)

记为: \(X \sim b(n,p)\)

伯努利试验每次试验独立重复,且试验结果只有两种情况。

泊松分布

可以看做是二项分布的极限(试验次数趋于无穷)。

定义:若随机变量 \(X\) 的分布律为

\[ P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2,\cdots \]

其中 \(\lambda>0\) 是常数,则称随机变量 \(X\) 服从参数为 \(\lambda\) 的泊松分布,记为 \(X \sim P(\lambda)\)

参数 \(\lambda\) 给定时,才能计算问题。

泊松定理:令 \(\lambda=np_n\),对于任一固定的非负整数 \(k\),有

\[ \lim_{n\rightarrow \infty}C_n^kp_n^k(1-p_n)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!} \]

这个式子建立了泊松定理和二项分布的关系。

几何分布

几何分布定义:在独立重复试验中,试验次数预先不确定。重复试验直到出现想要结果为止。设想要的结果的概率为 \(p\),用 \(X\) 表示所需要的试验次数,有:

\[ P\{X=k\}=(1-p)^{k-1}p,\ k=1,2,\cdots \]

超几何分布

超几何分布描述了从有限总体中抽取样本时,成功次数的概率分布,而抽取过程不进行替换。

在给定的大小为 \(N\) 的总体中,有 \(K\) 个特定的对象(例如成功、缺陷或某种特定的特征)和 \(N-K\) 个非特定对象的情况下,从中无放回地抽取 \(n\) 个对象,获得 \(k\) 个特定对象的概率。

超几何分布的概率质量函数 (PMF) 定义如下:

\[ P(X = k) = \frac{{C_K^k \times C_{N-K}^{n-k}}}{{C_N^n}} \]
  • \(X\) 是我们关心的随机变量,表示从抽取的 \(n\) 个对象中有 \(k\) 个是特定对象。

随机变量的分布函数

随机变量的分布函数,也被称为累积分布函数(Cumulative Distribution Function,缩写为 CDF),是随机变量的一个基本概念。它为我们提供了随机变量取值小于或等于某个特定值的概率。

定义

对于随机变量 \(X\),其分布函数 \(F(x)\) 定义为:

\[ F(x) = P(X \leq x) \]

这意味着 \(F(x)\) 给出了随机变量 \(X\) 取值小于或等于 \(x\) 的概率。

特性

  1. 单调性:由于概率不能减少,所以 \(F(x)\) 是一个非减函数,即当 \(x_1 \leq x_2\) 时,有 \(F(x_1) \leq F(x_2)\)

  2. 有界性

    • \(\lim_{x \to -\infty} F(x) = 0\)。这是因为当 \(x\) 趋向于负无穷时,\(X\) 小于 \(x\) 的概率趋向于0。
    • \(\lim_{x \to \infty} F(x) = 1\)。这是因为当 \(x\) 趋向于正无穷时,\(X\) 小于 \(x\) 的概率趋向于1。
  3. 右连续性:对于任何数值 \(x\)\(F(x)\) 是右连续的。 \(\lim_{x\rightarrow x_0^+}F(x)=F(x_0)\)

可以理解为向右增加一点,连续性不变,也就是不发生突变

对于离散型随机变量的分布函数\(F(x)\) 为一条阶梯形曲线,在 \(x=x_k\) 处有跳跃值,可以类比为分段函数,分段区间左闭右开

连续型随机变量及其概率密度

对于连续型随机变量,我们通常使用概率密度函数来描述它的分布。

概率密度函数满足:

  • \(f(x)>=0\)
  • \(\int^{+\infty}_{-\infty}f(x)dx=1\)

需要注意的是,对于连续型随机变量,某个具体的点 \(x\) 上的概率是 \(0\) 。也就是说,\(P(X=x)=0\)

连续型随机变量分布函数

定义:若对于随机变量 \(X\) 的分布函数 \(F(x)\),存在非负可积函数 \(f(x)\),使对于任意实数 \(x\),有

\[ F(x)=\int_{-\infty}^xf(t)dt \]

则称 \(X\) 为连续型随机变量,其中函数 \(f(x)\) 称为 \(X\) 的概率密度函数。

于是我们有 \(P\{x_1<X\leq x_2\}=P\{X\leq x_2\}-P\{X\leq x_1\}=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(x)dx\)

连续型的分布函数和概率密度函数有以下关系:

  • \(f(x)\) 在点 \(x_0\) 处连续,则必有 \(F'(x_0)=f(x_0)\)

此外,连续型随机变量的分布函数 \(F(x)\) 一定连续

均匀分布

随机变量的概率密度为:

\[ f(x)=\begin{cases}\frac{1}{b-a},\ a<x<b \\ 0 ,\ \text{ other cases}\end{cases} \]

正态分布

若随机变量 \(X\) 的概率密度为

\[ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\ -\infty< x < +\infty \]

其中 \(\mu,\sigma\) 为常数,并且 \(\sigma>0\),则称 \(X\) 服从参数为 \(\mu,\sigma\) 的正态分布。

  • \(\mu\) 是分布的均值或期望值。它描述了正态分布的中心位置。换句话说,正态分布曲线的峰值就位于 \(\mu\) 处。
  • \(\sigma\) 是分布的标准差,它描述了分布的宽度或离散程度。如果 \(\sigma\) 较小,那么分布会更集中,曲线更陡峭;如果 \(\sigma\) 较大,分布会更分散,曲线更平坦。

正态分布记为 \(X\sim N(\mu,\sigma^2)\)

正态分布的分布函数为:

\[ F(x)=\int^x_{-\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(t-\mu)^2}{2\sigma^2}}dt \ , -\infty< x < +\infty \]

正态分布在自然界和社会科学中有许多应用。例如,许多自然现象(如人类的身高或智商分数)都大致遵循正态分布。

标准正态分布

\(\mu=0,\ \sigma=1\),我们得到标准正态分布 \(X\sim N(0,1)\)

概率密度函数

\[ \phi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \]

累积分布函数

\[ \Phi(x) = \int_{-\infty}^{t} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \]

标准正态分布有如下性质:

  • \(\Phi(-x)=1-\Phi(x)\)
  • \(\Phi(0)=\frac12\)

对于任何的正态分布,我们都可以转化为标准正态分布进行计算。

定理:若 \(X\sim N(\mu,\sigma^2)\),则 \(\frac{X-\mu}{\sigma} \sim N(0,1)\)

根据这个定理,我们可以推出用标准正态分布计算一般的正态分布的方法:

\[ F(x)=P\{X\leq x\}=P\{\frac{X-\mu}{\sigma} \leq \frac{x-\mu}{\sigma}\}=\Phi(\frac{x-\mu}{\sigma}) \]

对于倒数第二步,不等号的左边可以理解为根据定理对正态分布转换成标准正态分布,右边就是正态分布分布函数的 \(x\)

还可以得到概率计算方法:

\[ P\{x_1 \leq x\leq x_2\}=F(x_2)-F(x_1)=\Phi(\frac{x_2-\mu}{\sigma})-\Phi(\frac{x_1-\mu}{\sigma}) \]

指数分布

指数分布是一种连续概率分布,经常用于描述两个连续事件之间的时间间隔。

概率密度函数

给定参数 \(\lambda > 0\) (通常被称为率参数),指数分布的概率密度函数为:

\[ f(x|\lambda) = \begin{cases} \lambda e^{-\lambda x} & \text{if } x \geq 0 \\ 0 & \text{if } x < 0 \end{cases} \]

指数分布有时被记作 \(X\sim exp(\theta)\)

累积分布函数

\[ F(x|\lambda) = 1 - e^{-\lambda x} \quad \text{for } x \geq 0 \]

主要性质

  • 无记忆性:指数分布是唯一具有无记忆性的连续分布。这意味着,对于所有非负的 \(s\)\(t\),我们有:
\[ P(X > s + t| X > s) = P(X > t) \]

换句话说,如果你已经等待了 \(s\) 单位时间,那么下一个事件发生前需要再等待超过 \(t\) 单位时间的概率与直接等待超过 \(t\) 单位时间的概率相同。

  • 期望和方差
  • 期望值:\(E(X) = \frac{1}{\lambda}\)
  • 方差:\(\text{Var}(X) = \frac{1}{\lambda^2}\)

常见应用

  • 顾客到达时间的建模
  • 机器之间的故障时间
  • 衰变过程中的时间间隔

指数分布是描述两个连续事件之间时间间隔的常见分布,具有无记忆性质,并且由一个参数 \(\lambda\) 定义。

随机变量的函数的分布

定义 :设 \(X\) 是随机变量,函数 \(y=g(x)\),则以随机变量 \(Y\) 作为自变量的函数 \(Y=g(X)\) 也是随机变量,称之为随机变量 \(X\) 的函数。

离散型的很好解决,只需要逐点代入即可。

对于连续型的,我们通过分布函数求导法可以解决。

例如,我们已知连续型分布 \(X\) 的概率密度函数 \(f_x(x)\) 和分布函数 \(F_x(x)\),而 \(Y=g(X)\),求 \(Y\) 的概率分布 \(f_y(y)\)\(F_y(y)\)

根据定义,我们可以得到 \(F_y(y)=P\{Y\leq y\}=P\{g(X)\leq y\} = \int_{g(x)\leq y}f_x(x)dx\)

最后一步的意思就是由 \(g(X)\leq y\) 可以得到 \(x\)\(y\) 的关系,进而得到 \(F_x(x)\)\(y\) 的关系,然后最后积分得到 \(F_x(x)\),最后再求导得到 \(f_y(y)\)

另外还有一种通过公式法解决的途径。

对的,我们描述的是相同的内容,只是用了不同的方式来表达。

除了之前讨论的方法,还有一个称为“公式法”的方法来找到随机变量的函数的分布。公式法通常适用于更简单、可导的函数 \(g\)

假设 \(Y = g(X)\) 是一个严格单调且可导的函数。那么 \(Y\) 的概率密度函数 \(f_Y(y)\) 可以通过以下公式表示:

\[ f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d}{dy} g^{-1}(y) \right| \]

其中 \(g^{-1}\)\(g\) 的反函数,\(y\)的取值范围为 \(g\) 函数的值域。

说明:

  • \(f_X(g^{-1}(y))\) 描述了 \(x\)\(g^{-1}(y)\) 处的概率密度。
  • \(\left| \frac{d}{dy} g^{-1}(y) \right|\)\(g\) 的反函数的导数的绝对值。它校正了通过函数变换引入的扭曲。

这种方法特别适用于函数 \(g\) 既不是完全递增也不是完全递减的情况,因为这种情况下确定由 \(g(X) \leq y\) 引起的 \(x\) 的范围可能会更为复杂。但是,如果 \(g\) 是单调的(严格递增或严格递减),那么公式法提供了一个相对简单的方法来找到 \(Y\) 的分布。

关于正态分布的重要结论

\(X\sim N(\mu,\sigma^2)\),则 \(Y=aX+b \sim N(a\mu+b,a^2\sigma^2)\)