3.多维随机变量及其分布¶

约 2723 个字预计阅读时间 9 分钟

二维随机变量的定义¶

在实际问题中，某些 \(E\) 的结果需要同时用两个或以上的随机变量来描述。也可以理解为，事件 \(e\) 的发生的特征有两个或以上。

定义：设随机试验 \(E\) 的样本空间为 \(S=\{e\}\)。设 \(X=X(e),Y=Y(e)\) 是定义在 \(S\) 上的随机变量，由它们构成的向量 \((X,Y)\) 称为二维随机向量或二维随机变量。

多维随机变量：若 \(X_1,X_2,\cdots,X_n\) 是定义在同一个样本空间 \(S\) 上的 \(n\) 个随机变量，则称 \((X_1,X_2,\cdots,X_n)\) 是 \(n\) 维随机变量， \(X_i\) 称为第 \(i\) 个分量。

二维随机变量 \((X,Y)\) 的性质不仅与 \(X\) 和 \(Y\) 有关，还依赖于二者的相互关系。当我们考虑 \((X,Y)\) 作为整体的时候，我们有二维随机变量的联合分布，进而得到联合分布率，联合概率密度函数，联合分布函数。当我们讨论 \(X\) 和 \(Y\) 单独作为个体的时候，我们有边缘分布，条件分布，独立性

二维随机变量的联合分布函数

定义：设 \((X,Y)\) 是二维随机变量，对任意的实数 \(x,y\)，称二元函数

\[ F(x,y)=P\{X\leq x,Y \leq y\} \]

为二维随机变量 \((X,Y)\) 的联合分布函数。 \(F(x,y)\) 是 \(X\leq x\) 和 \(Y\leq y\) 同时发生的概率。

同样，对于二维随机变量的联合分布函数，我们有单调性，有界性（和为 \(1\)），右连续性（\(\lim_{x\rightarrow x_0^+} F(x,y)=F(x_0,y)\)，关于 \(x\) 右连续）以及通过相减得到区间上的概率。

二维离散型随机变量¶

二维离散型随机变量的联合分布律：称 \(P\{X=x_i,Y=y_j\}=p_{ij}\) 为二维离散型随机变量 \((X,Y)\) 的联合分布律。

有 \(p_{i,j}\geq 0\)
\(\sum_{i=1}^{+\infty}\sum_{j=1}^{+\infty}p_{ij}=1\)

二维离散型随机变量的联合分布函数：

\[ F(x,y)=P\{X\leq x,Y\leq y\}=\sum_{x_i \leq x}\sum_{y_j \leq y}p_{ij} \]

二维连续型随机变量¶

定义：对二维随机变量 \((X,Y)\) 的分布函数 \(F(x,y)\)，如果存在非负函数 \(f(x,y)\)，使得对任意 \(x,y\) 有

\[ F(x,y)=\int^y_{-\infty}\int^x_{-\infty}f(u,v)dudv \]

则称 \((X,Y)\) 是二维连续型随机变量，称 \(f(x,y)\) 为 \((X,Y)\) 的联合概率密度，记为 \((X,Y)\sim f(x,y)\)

符号 "\(\sim\)" 在统计学和概率论中常常表示“服从”或“遵循”的意思。当描述随机变量和其概率分布或概率密度函数的关系时，这个符号非常有用。以下是几个常见的用法：

随机变量的分布:

\(X \sim F(x)\)：随机变量 \(X\) 服从概率分布 \(F(x)\)。

\(X \sim f(x)\)：对于连续型随机变量，表示 \(X\) 有概率密度函数 \(f(x)\)。

特定的分布:

\(X \sim \mathcal{N}(\mu, \sigma^2)\)：随机变量 \(X\) 服从均值为 \(\mu\)、方差为 \(\sigma^2\) 的正态分布。

\(X \sim \text{Bin}(n, p)\)：随机变量 \(X\) 服从参数为 \(n\) 和 \(p\) 的二项分布。

... 以及其他众多分布。

多元随机变量:

\((X, Y) \sim f(x, y)\)：随机变量对 \((X, Y)\) 有联合概率密度函数 \(f(x, y)\)。

条件分布:

\(X \sim f(x | y)\)：给定 \(Y = y\) 时，随机变量 \(X\) 的条件概率密度函数是 \(f(x | y)\)。

对 \(F(x,y)\)，在 \(f(x,y)\) 的连续点处，我们有

\[ \frac{\partial^2F(x,y)}{\partial x\partial y}=f(x,y) \]

设 \(G\) 是平面上的某个区域，则

\[ P\{(X,Y)\in G\}=\iint_G f(x,y)dxdy \]

边缘分布¶

已知二维随机变量 \((X,Y)\) 的联合分布函数为 \(F(x,y)\)，而 \(X,Y\) 都是一维随机变量，各自也有分布函数，将其分别记为 \(F_X(x),F_Y(y)\)，分别称为二维随机变量 \((X,Y)\) 关于 \(X\) 和 \(Y\) 的边缘分布函数。

边缘分布函数求法

已知\(F(x,y)\)，则有

\[ \begin{cases} F_X(x)=\lim_{y\rightarrow +\infty}F(x,y) \\ F_Y(y)=\lim_{x\rightarrow +\infty}F(x,y) \end{cases} \]

离散型随机变量的联合分布律

\[ P\{X=x_i\}=\sum_{j=1}^{\infty}P\{X=x_i,Y=y_j\}=\sum_{j=1}^{\infty}P_{ij}=P_{i\cdot} \]

对于 \(Y\) 的边缘分布联合分布律也是同理。

连续型随机变量的概率密度

对于 \(X\) 的边缘分布概率密度，我们有

\[ f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy \]

对于 \(Y\) 型也是同理。

条件分布¶

回忆一下条件概率公式：

\[ P(B|A)=\frac{P(AB)}{P(A)} \]

表示 \(A\) 发生条件下 \(B\) 发生的概率

二维离散随机变量 \((X,Y)\) 的条件分布律

类比条件概率公式，对固定的 \(j\)，若 \(P\{Y=y_j\}>0\)，则称

\[ P\{X=x_i|Y=y_j\}=\frac{P\{X=x_i,Y=y_j\}}{P\{Y=y_j\}}=\frac{P_{ij}}{P_{\cdot j}} \]

为在 \(Y=y_j\) 条件下随机变量 \(X\) 的条件分布律。

二维连续型随机变量 \((X,Y)\) 的条件分布

我们用一个小量 \(\epsilon\) 辅助，通过 \(P\{X\leq x|y<Y\leq y+\epsilon \}\) 然后类比离散型的公式进行推导，最后可以得到连续型的条件分布和概率密度。最后在 \(\epsilon\) 很小的时候线性近似得到想要的解。\(\epsilon\) 可以消去。

设二维随机变量 \((X,Y)\) 的概率密度函数为 \(f(x,y)\)，\((X,Y)\)关于 \(Y\) 的概率密度为 \(f_Y(y)\)。对于固定的 \(y\)，\(f_Y(y)>0\)，则我们有 \(X\) 的条件概率密度为

\[ f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)} \]

在 \(Y=y\) 的条件下 \(X\) 的条件分布函数

\[ F_{X|Y}(x|y)=P\{X\leq x| Y=y\}=\int_{-\infty}^x \frac{f(x,y)}{f_Y(y)}dx \]

回顾一下贝叶斯定理

\[ P(A|B) = \frac{P(B|A) \times P(A)}{P(B)} \]

其中： - \(P(A|B)\) 是后验概率，即在给定 \(B\) 的观察后，事件 \(A\) 的概率。 - \(P(B|A)\) 是似然，即在 \(A\) 为真的情况下观察到 \(B\) 的概率。 - \(P(A)\) 是先验概率，即在观察到 \(B\) 之前，事件 \(A\) 的概率。 - \(P(B)\) 是证据，它是 \(B\) 的边缘概率，可以看作是对所有可能的 \(A\) 值进行归一化的常数。

贝叶斯定理与条件分布

当我们涉及到随机变量和它们的分布时，贝叶斯定理可以推广到条件分布。考虑两个随机变量 \(X\) 和 \(Y\)，我们可以写出以下的贝叶斯公式：

\[ f_{X|Y}(x|y) = \frac{f_{Y|X}(y|x) \times f_X(x)}{f_Y(y)} \]

其中： - \(f_{X|Y}(x|y)\) 是 \(X\) 的后验分布，即在给定 \(Y = y\) 的情况下。 - \(f_{Y|X}(y|x)\) 是似然，描述了在给定 \(X = x\) 的条件下 \(Y\) 的分布。 - \(f_X(x)\) 是 \(X\) 的先验分布（同时也是边缘分布）。 - \(f_Y(y)\) 是 \(Y\) 的边缘分布。

贝叶斯定理在机器学习中的应用：

参数估计：在贝叶斯统计中，我们可以使用贝叶斯定理来估计模型参数。先验分布表示我们在观察数据之前对参数的信仰或知识，而似然表示数据与参数值之间的关系。将这两者结合起来，我们可以得到参数的后验分布。
贝叶斯分类器：在这种方法中，我们使用贝叶斯定理来估计给定特征的类标签的概率。
概率图模型：如贝叶斯网络，使用贝叶斯定理作为其核心组成部分来表示和推断随机变量之间的关系。

相互独立的随机变量¶

二维随机变量的独立性是指两个随机变量之间不存在任何统计关系。具体来说，如果两个随机变量 \(X\) 和 \(Y\) 是独立的，那么知道 \(X\) 的值不会为我们提供关于 \(Y\) 的任何额外信息，反之亦然。

以下是描述二维随机变量 \(X\) 和 \(Y\) 独立性的几种方式：

累积分布函数 (CDF)：如果 \(X\) 和 \(Y\) 是独立的，那么它们的联合CDF等于它们各自的边缘CDF的乘积：

\[ F_{X,Y}(x,y) = F_X(x) \times F_Y(y) \]

其中 \(F_{X,Y}(x,y)\) 是联合CDF，而 \(F_X(x)\) 和 \(F_Y(y)\) 分别是 \(X\) 和 \(Y\) 的边缘CDF。

概率密度/质量函数 (PDF/PMF)：对于独立的 \(X\) 和 \(Y\)，它们的联合PDF（对于连续随机变量）或PMF（对于离散随机变量）是它们各自的边缘PDF或PMF的乘积：

\[ f_{X,Y}(x,y) = f_X(x) \times f_Y(y) \]

期望和方差：独立性在计算期望和方差时也很有用。例如，如果 \(X\) 和 \(Y\) 是独立的，则：

\[ \mathbb{E}[XY] = \mathbb{E}[X] \times \mathbb{E}[Y] \]

并且

\[ \text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) \]

条件概率：如果 \(X\) 和 \(Y\) 是独立的，那么：

\[ P(X \leq x | Y = y) = P(X \leq x) \]

同样地，对于 \(Y\) 也有类似的结果。

多维正态分布¶

多维正态分布是高维空间中的正态分布的扩展。它在多元统计分析、机器学习和许多其他领域都有广泛的应用。下面是多维正态分布的主要概念和性质：

定义

一个 \(n\)-维随机向量 \(\mathbf{X} = (X_1, X_2, \ldots, X_n)^T\) 遵循多维正态分布，记作 \(\mathbf{X} \sim \mathcal{N}(\mathbf{\mu}, \mathbf{\Sigma})\)，其中：

\(\mathbf{\mu}\) 是一个 \(n\)-维向量，表示每个组件的期望值。
\(\mathbf{\Sigma}\) 是一个 \(n \times n\) 正定协方差矩阵，表示组件之间的协方差。

概率密度函数

多维正态分布的概率密度函数 (PDF) 给出为：

\[ f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\mathbf{\Sigma}|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) \right) \]

其中 \(|\mathbf{\Sigma}|\) 是协方差矩阵的行列式。

独立性和协方差

如果 \(\mathbf{X}\) 的组件是独立的，那么其协方差矩阵 \(\mathbf{\Sigma}\) 是对角的。相反，如果 \(\mathbf{\Sigma}\) 是对角的，并且每个对角元素都是正的，那么 \(\mathbf{X}\) 的组件是独立的并且都是正态分布的。

线性变换

如果 \(\mathbf{X} \sim \mathcal{N}(\mathbf{\mu}, \mathbf{\Sigma})\)，并且 \(\mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b}\) 是 \(\mathbf{X}\) 的一个线性变换（其中 \(\mathbf{A}\) 是一个常数矩阵，\(\mathbf{b}\) 是一个常数向量），那么 \(\mathbf{Y}\) 也是多维正态分布的，其均值为 \(\mathbf{A}\mathbf{\mu} + \mathbf{b}\) ，协方差矩阵为 \(\mathbf{A}\mathbf{\Sigma}\mathbf{A}^T\)。

边缘分布

考虑 \(\mathbf{X} \sim \mathcal{N}(\mathbf{\mu}, \mathbf{\Sigma})\)，其中 \(\mathbf{X}\) 是一个 \(n\)-维随机向量。对于 \(\mathbf{X}\) 的任意子集，其边缘分布也是正态分布的。

条件分布

考虑一个 \(n\)-维正态随机向量 \(\mathbf{X}\) 被分为两部分 \(\mathbf{X}_1\) 和 \(\mathbf{X}_2\)。给定 \(\mathbf{X}_2\)，\(\mathbf{X}_1\) 的条件分布仍然是正态分布的。

这只是多维正态分布的基本性质和概念。这个分布在多元统计、多变量回归、机器学习和其他许多领域中都有广泛的应用，因为其数学性质非常优雅，并且与实际数据的许多场景相吻合。

施工中

多维随机变量函数分布
最大值最小值分布