概率论与数理统计

是《概率论与数理统计》张帼奋版的学习笔记

发表于 2024/09/12 更新于 2025/04/23

『大碗岛的星期天下午』乔治·修拉 1886

作者 Diexie

21 分钟阅读

概率论与数理统计

组合数:

\[C_n^m = \frac{n!}{m!(n-m)!}\]

排列数:

\[A_n^m = \frac{n!}{(n-m)!}\]

条件概率:

\[P(A|B) = \frac{P(AB)}{P(B)} \\ P(AB) = P(A|B)P(B)\]

随机变量的数字特征

均值/期望:

\[E(X) = \sum_{i=1}^{n}x_iP(x_i)\] \[E(X) = \int_{-\infty}^{\infty} x f(x) dx\]

均值的性质:

\[E(aX+b) = aE(X)+b\]

方差:

定义式: $Var(X) = E((X-E(X))^2)$

\[Var(X) = E[(X-E(X))^2] = \int_{-\infty}^{\infty} (x-E(X))^2 f(x) dx\]

计算式:

\[Var(X) = E(X^2) - E^2(X)\]

方差的性质:

\[Var(aX+b) = a^2Var(X)\] \[Var(X) \leqslant E[(X-c)^{2}], 当c=E(X)时等号成立\]

标准差:

\[SD(X) = \sqrt{Var(X)}\]

标准化变量:

为了消除量纲的影响，我们可以将随机变量X标准化为标准正态分布，即均值为0，方差为1的正态分布

\[X^* = \frac{X-E(X)}{SD(X)}\]

变异系数:

反应了随机变量以它的中心位置为标准时，取值的离散程度。

\[Cv(X) = \frac{SD(X)}{E(X)}\]

协方差:

协方差用于衡量两个随机变量之间的线性相关性。

定义式: $Cov(X,Y) = E[(X-E(X))(Y-E(Y))]$

\[Cov(X,Y) = E(XY) - E(X)E(Y)\]

协方差的性质:

\[Cov(X,Y) = Cov(Y,X)\] \[Cov(X,X) = Var(X)\] \[Cov(aX+bY,cZ+dW) = acCov(X,Z)+adCov(X,W)+bcCov(Y,Z)+bdCov(Y,W)\]

协方差矩阵:

对于n维随机变量$(X_1,X_2,\cdots,X_n)$，其协方差矩阵为：

\[\Sigma = \begin{bmatrix} Var(X_1) & Cov(X_1,X_2) & \cdots & Cov(X_1,X_n) \\ Cov(X_2,X_1) & Var(X_2) & \cdots & Cov(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ Cov(X_n,X_1) & Cov(X_n,X_2) & \cdots & Var(X_n) \end{bmatrix}\]

计算协方差矩阵

矩:

方差为二阶中心矩，协方差为二阶混合中心矩。

k阶原点矩:

\[E(X^k)\]

k阶中心矩:

\[E[(X-E(X))^k]\]

k+1阶中心矩:

\[E[(X-E(X))^k(Y-E(Y))^l]\]

分位数

定义:

设连续型随机变量X的分布函数为F(x)，密度函数为f(x)，对于任意的$0<\alpha<1$，称满足下式的x为X的$\alpha$分位数：

\[1-F(x_\alpha)=\int_{x_\alpha}^{+\infty}f(x)\mathrm{d}x=\alpha\]

常见概率分布

离散型

0-1分布:$X \sim 0-1(p)$

概率分布律： $P(X=1) = p, P(X=0) = 1-p$

二项分布:$X \sim B(n,p)$

概率分布律： $P(X=k) = C_n^kp^k(1-p)^{n-k}， \quad k=0,1,2,\cdots$

二项分布的期望值和方差分别为：

\[E(X) = np, \quad Var(X) = np(1-p)\]

泊松分布:$X \sim P(\lambda)$

概率分布律： $P(X=k) = \frac{\lambda^k}{k!}e^{-\lambda}， \quad k=0,1,2,\cdots$

泊松分布的期望值和方差都是λ：

\[E(X) = \lambda, \quad Var(X) = \lambda\]

几何分布:

几何分布是一种离散概率分布，它描述了在一系列独立且具有相同概率的试验中，成功的概率为p，那么获得第一个成功所需要的试验次数的概率分布。

概率分布律： $P(X=k) = p(1-p)^{k-1}， \quad k=1,2,3,\cdots$

其中，p是成功的概率，k是试验次数。

期望值和方差： $E(X) = \frac{1}{p}, \quad Var(X) = \frac{1-p}{p^2}$

超几何分布:

超几何分布是一种离散概率分布，它描述了从有限的总体中抽取样本，成功抽取到指定类型的对象的次数的概率分布。

概率分布律： $P(X=k) = \frac{C_M^k C_{N-M}^{n-k}}{C_N^n}， \quad max(0, n-N+M) \leq k \leq min(n, M)$

其中，N是总体的大小，M是总体中指定类型的对象的数量，n是抽取的样本的大小，k是样本中指定类型的对象的数量。

期望值和方差： $E(X) = n\frac{M}{N}, \quad Var(X) = n\frac{M}{N}\frac{(N-M)}{N}\frac{(N-n)}{N-1}$

连续型

概率密度函数（PDF）：

对于连续型随机变量X，其概率密度函数f(x)满足以下条件：

\[\begin{align*} 1. & f(x) \geq 0, \quad \forall x \in R \\ 2. & \int_{-\infty}^{\infty} f(x) dx = 1 \end{align*}\]

累积分布函数（CDF）：

连续型随机变量X的累积分布函数F(x)定义为X取值小于或等于x的概率，即：

\[F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t) dt\]

均匀分布: $X \sim U(a,b)$

均匀分布是一种连续型概率分布，其概率密度函数在某个区间内是常数，区间外则为零。假设随机变量X服从[a, b]上的均匀分布，我们可以定义如下：

概率密度函数（PDF）：

\[f(x) = \begin{cases} \frac{1}{b-a} & \text{for } a \leq x \leq b, \\ 0 & \text{otherwise.} \end{cases}\]

累积分布函数（CDF）：

\[F(x) = \begin{cases} 0 & \text{for } x < a, \\ \frac{x-a}{b-a} & \text{for } a \leq x < b, \\ 1 & \text{for } x \geq b. \end{cases}\]

期望值和方差：

均匀分布的期望值和方差分别为：

\[E(X) = \frac{a+b}{2}, \quad Var(X) = \frac{(b-a)^2}{12}\]

正态分布: $X \sim N(\mu, \sigma^2)$

正态分布是一种连续型概率分布，其概率密度函数呈钟形，左右对称，且均值、方差完全决定了其形态。假设随机变量X服从均值为μ，方差为σ^2的正态分布，我们可以定义如下：

概率密度函数（PDF）：

\[f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]

累积分布函数（CDF）：

正态分布的累积分布函数没有解析解，通常使用标准正态分布表进行查找。

期望值和方差：

\[E(X) = \mu, \quad Var(X) = \sigma^2\]

指数分布: $X \sim Exp(\lambda)$

指数分布是一种连续型概率分布，其概率密度函数呈指数下降，描述了独立随机事件发生的时间间隔。假设随机变量X服从参数为λ的指数分布，我们可以定义如下：

概率密度函数（PDF）：

\[f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{for } x \geq 0, \\ 0 & \text{for } x < 0. \end{cases}\]

累积分布函数（CDF）：

\[F(x) = 1 - e^{-\lambda x}\]

期望值和方差：

\[E(X) = \frac{1}{\lambda}, \quad Var(X) = \frac{1}{\lambda^2}\]

多元随机变量

联合分布函数
对于二维随机变量(X,Y)，其联合分布函数定义为：
\[F(x,y) = P(X \leq x, Y \leq y)\]
联合密度函数
对于二维随机变量(X,Y)，其联合密度函数定义为：
\[f(x,y) = \frac{\partial^2 F(x,y)}{\partial x \partial y} \\ P((X,Y) \in D) = \int \int_D f(x,y) dx dy\]
二元连续随机变量的边际分布
对于二维随机变量(X,Y)，其边际分布是指在给定一个随机变量的条件下，另一个随机变量的分布。
\[f_X(x) = \int_{-\infty}^{\infty} f(x,y) dy \\ f_Y(y) = \int_{-\infty}^{\infty} f(x,y) dx\]
随机变量的独立性
对于二维随机变量(X,Y)，如果X和Y的联合分布函数等于边际分布函数的乘积，则称X和Y是独立的。
\[F(x,y) = F_X(x)F_Y(y)\]

二元正态分布

记作$(X,Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$，其中$\mu_1, \mu_2$分别是X和Y的均值，$\sigma_1^2, \sigma_2^2$分别是X和Y的方差，$\rho$是X和Y的相关系数。

相关系数$\rho$的取值范围为-1到1，当$\rho=0$时，X和Y相互独立。

二元正态分布是一种常见的多元随机变量分布，其概率密度函数为：

\[f(x,y) = \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \exp \left( -\frac{1}{2(1-\rho^2)} \left[ \frac{(x-\mu_1)^2}{\sigma_1^2} - 2\rho \frac{(x-\mu_1)(y-\mu_2)}{\sigma_1 \sigma_2} + \frac{(y-\mu_2)^2}{\sigma_2^2} \right] \right)\]

大数定律和中心极限定理

大数定律

马尔科夫不等式：若随机变量X的k阶原点矩存在，对于非负随机变量X，以及任意$\epsilon > 0$，有：
\[P(X \geq \epsilon) \leq \frac{E(X)}{\epsilon}\]
切比雪夫不等式：若随机变量X的k阶中心矩存在，对于任意$\epsilon > 0$，有：
\[P(|X-E(X)| \geq \epsilon) \leq \frac{Var(X)}{\epsilon^2}\]
伯努利大数定律：对于独立同分布的随机变量$X_1, X_2, \cdots, X_n$，以及任意$\epsilon > 0$，有：
\[\lim_{n\to+\infty}P\left\{\left|\frac{n_A}{n}-p\right|\geqslant\varepsilon\right\}=0.\]
辛钦大数定律：对于独立同分布的随机变量$X_1, X_2, \cdots, X_n$，以及任意$\epsilon > 0$，有：
\[\lim_{n\to+\infty}P\left\{\left|\frac{1}{n}\sum_{i=1}^{n}X_{i}-\mu\right|\geqslant\varepsilon\right\}=0,\]

中心极限定理

中心极限定理描述了大量独立随机变量的均值的分布会近似服从正态分布。

统计量与抽样分布

样本: 从总体中抽取的一部分数据。

统计量: 样本的函数，用来估计总体的参数。

常用统计量

样本均值: $\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i$
样本方差: $S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2 = \frac{1}{n-1}(\sum_{i=1}^{n}X_i^2-n\bar{X}^2)$
样本标准差: $S = \sqrt{S^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2}$
样本k阶原点矩: $\frac{1}{n}\sum_{i=1}^{n}X_i^k$
样本k阶中心矩: $\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^k$

抽样分布

统计量的分布称为抽样分布

$\chi^2$分布

若$X_1, X_2, \cdots, X_n$是n个相互独立的标准正态分布随机变量，即$X_i \sim N(0,1)$，则统计量$Y = \sum_{i=1}^{n}X_i^2$服从自由度为n的$\chi^2$分布，记作$Y \sim \chi^2(n)$。

密度分布函数：

\[\begin{cases} f(x) = \frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2}, & x > 0, \\ 0, & x \leq 0. \end{cases}\]

t分布

若$X \sim N(0,1)$，$Y \sim \chi^2(n)$，则统计量$T = \frac{X}{\sqrt{Y/n}}$服从自由度为n的t分布，记作$T \sim t(n)$。

密度分布函数：

\[f(x) = \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{x^2}{n})^{-\frac{n+1}{2}}\]

F分布

若$X \sim \chi^2(n_1)$，$Y \sim \chi^2(n_2)$，则统计量$F = \frac{X/n_1}{Y/n_2}$服从自由度为$(n_1, n_2)$的F分布，记作$F \sim F(n_1, n_2)$。

密度分布函数：

\[f_{F}(x)=\frac{\Gamma[(n_1+n_2)/2](n_1/n_2)^{n_1/2}x^{(n_1/2)-1}}{\Gamma(n_1/2)\Gamma(n_2/2)[1+(n_1x/n_2)]^{(n_1+n_2)/2}},\quad x>0,\]

性质：

$F(n_1, n_2) = \frac{1}{F(n_2, n_1)}$
如果$X \sim t(n)$，则$X^2 \sim F(1, n)$

正态总体下的抽样分布

定理1：设$X_1, X_2, \cdots, X_n$是来自正态总体$N(\mu, \sigma^2)$的样本，$\bar{X}$是样本均值，$S^2$是样本方差，则有：

$\bar{X} \sim N(\mu, \frac{\sigma^2}{n})$
$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$
$\bar{X}$与$S^2$相互独立

定理2: 设$X_1, X_2, \cdots, X_n$和$Y_1, Y_2, \cdots, Y_m$分别是来自正态总体$N(\mu_1, \sigma_1^2)$和$N(\mu_2, \sigma_2^2)$的样本，$\bar{X}$和$\bar{Y}$分别是样本均值，$S_1^2$和$S_2^2$分别是样本方差，则有：

$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$
当$\sigma_1^2 = \sigma_2^2$时，$\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{S_1^2/n_1+S_2^2/n_2}}\sim t(n_1+n_2-2)$

参数估计

估计量的评价标准：

无偏性: 估计量的期望值等于总体参数的真实值。
\[E(\hat{\theta}) = \theta\]
有效性: 估计量的方差最小。
\[Var(\hat{\theta}) = E(\hat{\theta}-\theta)^2\]
均方误差准则: 估计量的均方误差最小。
\[MSE(\hat{\theta}) = E(\hat{\theta}-\theta)^2\]
相合性准则:

点估计

点估计是利用样本数据估计总体参数的方法，点估计的目标是找到一个统计量，使得该统计量的取值尽可能接近总体参数的真实值。

矩估计: 根据总体矩估计总体参数。
基本步骤：
1. 求出总体的前m阶矩，记为 $\left.\left\{\begin{array}{l}\mu_1=E(X)=g_1(\theta_1,\theta_2,\cdots,\theta_m),\\\mu_2=E(X^2)=g_2(\theta_1,\theta_2,\cdots,\theta_m),\\\cdots\cdots\cdots\cdots\\\mu_m=E(X^m)=g_m(\theta_1,\theta_2,\cdots,\theta_m).\end{array}\right.\right.$
2. 由上述方程组解出$\theta_1,\theta_2,\cdots,\theta_m$，得到$\theta_1^*,\theta_2^*\cdots,\theta_m^*$，作为 $\theta_1,\theta_2,\cdots,\theta_m$的估计量。
极大似然估计: 极大似然估计是利用样本信息估计总体参数的方法，其核心思想是选择使得样本出现的概率最大的参数作为估计值。
基本步骤：
1. 写出似然函数$L(\theta)$
2. 对似然函数取对数，得到对数似然函数$\ln L(\theta)$
3. 对对数似然函数求导，令导数为0，解出参数的估计值,即求其极值点。

区间估计

区间估计是利用样本数据估计总体参数的区间，区间估计的目标是找到一个区间，使得总体参数的真实值以一定的概率落在该区间内。

置信区间: 置信区间是总体参数的估计区间，其形式为$[\hat{\theta}_1, \hat{\theta}_2]$，其中$\hat{\theta}_1, \hat{\theta}_2$分别是参数的下限和上限估计值。

置信度: 置信度是指总体参数的真实值落在置信区间内的概率，通常用$1-\alpha$表示，其中$\alpha$称为显著性水平。

\[P\{\widehat{\theta}_L<\theta<\widehat{\theta}_U\}\geqslant1-\alpha,\]

枢轴量：设总体$X$的分布函数为$F(x;\theta)$，$\theta$是待估参数，$T(X_1,X_2,\cdots,X_n)$是一个统计量，如果$T(X_1,X_2,\cdots,X_n)$的分布不依赖于$\theta$，则称$T(X_1,X_2,\cdots,X_n)$为枢轴量。

枢轴量法的一般步骤:

构造分布已知的枢轴量$G(X_1,X_2,\cdots,X_n)$
当总体$X$是连续随机变量时，对于给定的置信度$1-\alpha$，根据枢轴量$G(X_1,X_2,\cdots,X_n)$的分布，适当选择两个常数$a$和$b$，使得
\[P\{a<G(X_1,X_2,\cdots,X_n)<b\}=1-\alpha\]

正态总体均值的区间估计

单个正态总体均值的区间估计

均值$\mu$的区间估计为：(置信度为$1-\alpha$)

$\sigma$已知
由$\bar{X} \sim N(\mu, \frac{\sigma^2}{n})$，构造枢轴量为$G = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$
设常数$a < b$，使得$P{a<G<b}=1-\alpha$，则有：
\[P\{a<\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}<b\}=1-\alpha\]
等价于：
\[P\left\{\bar{X}-\frac{\sigma}{\sqrt{n}}b<\mu<\bar{X}-\frac{\sigma}{\sqrt{n}}a\right\}=1-\alpha\]
$\sigma$未知
构造枢轴量为$G = \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1)$
设常数$a < b$，使得$P{a<G<b}=1-\alpha$，则有：
\[P\left\{\left|\frac{\overline{X}-\mu}{S/\sqrt{n}}\right|<t_{\alpha/2}(n-1)\right\}=1-\alpha\]
即
\[P\left\{\overline{X}-\frac{S}{\sqrt{n}}t_{\alpha/2}(n-1)<\mu<\overline{X}+\frac{S}{\sqrt{n}}t_{\alpha/2}(n-1)\right\}=1-\alpha\]
成对样本: 成对样本的均值差的置信区间为：
对均值差$\mu_X-\mu_Y$的置信区间为：
\[\left[\bar{D}-t_{\alpha/2}\frac{S_D}{\sqrt{n}}, \bar{D}+t_{\alpha/2}\frac{S_D}{\sqrt{n}}\right]\]
其中，$\bar{D}= \bar{X}-\bar{Y}$，$S_D = \sqrt{\frac{\sum_{i=1}^{n}(D_i-\bar{D})^2}{n-1}}$
对方差比$\frac{\sigma_X^2}{\sigma_Y^2}$的置信区间为：
待补充

两个正态总体均值的区间估计

待补充

假设检验

两种错误

第一类错误: 去真原假设为真，但拒绝了原假设。
第二类错误: 存伪原假设为假，但未拒绝原假设。

奈曼-皮尔逊准则:

首先控制第一类错误的概率(即选定显著性水平$\alpha$)，
然后在第一类错误概率固定的情况下，使第二类错误概率最小。

$P_{-}$值:

在原假设为真的情况下，观察到的样本统计量取得的值或更极端的概率。* $P_{-}$值越小，拒绝原假设的理由越充分。
若$P_{-}$值小于显著性水平$\alpha$，则拒绝原假设。

单个正态总体均值的假设检验

$\mu$的假设检验

$\sigma$已知
构造检验统计量：
\[Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \sim N(0,1)\]
拒绝域为：
\[\begin{cases} H_1: \mu \neq \mu_0, & |Z| > Z_{\alpha/2} \\ H_1: \mu > \mu_0, & Z > Z_{\alpha} \\ H_1: \mu < \mu_0, & Z < -Z_{\alpha} \end{cases}\]
$\sigma$未知
该方法为t检验，实践中常用。
构造检验统计量：
\[T = \frac{\bar{X}-\mu_0}{S/\sqrt{n}} \sim t(n-1)\]
拒绝域为：
\[\begin{cases} H_1: \mu \neq \mu_0, & |T| > t_{\alpha/2}(n-1) \\ H_1: \mu > \mu_0, & T > t_{\alpha}(n-1) \\ H_1: \mu < \mu_0, & T < -t_{\alpha}(n-1) \end{cases}\]

深度学习中常使用的概率论相关知识点

信息论基础详见该界面

交叉熵(Cross Entropy)

意义：

用于衡量两概率分布之间的相似程度，

即表示在真实分布为P的前提下，使用Q分布进行编码所需要的 bit 数。(请对比KL散度，其实就只多了一个H(P))

在深度学习中常用作损失函数，用于衡量模型预测结果与真实标签之间的距离

定义：

给定两个概率分布p和q, p相对于q的交叉熵定义为：

\[H(p,q)=\mathrm{E}_p[-\log q]=H(p)+D_{\mathrm{KL}}(p\|q),\]

对于离散分布:

\[H(p,q)=-\sum_xp(x)\:\log q(x).\]

对于连续分布：

\[H(p,q)=-\int_XP(x)\:\log Q(x)\:dr(x)=\mathrm{E}_p[-\log Q].\]

估计：

对于深度学习，需要在不知道分布p的情况下计算其交叉熵，常采用蒙特卡洛估计(MC)方法估计交叉熵(对p做估计)：

\[H(T,q)=-\sum_{i=1}^N\frac1N\log_2q(x_i)\]

KL散度(KL Divergence, 相对熵, relative entropy)

意义：

KL散度描述了我们用分布Q来估计数据的真实分布P的编码损失。

即表示在真实分布为P的前提下，使用Q分布进行编码相对于使用真实分布P进行编码（即最优编码）所多出来的 bit 数。

定义：

对于离散变量：

\[D_{\mathrm{KL}}(P\|Q)=-\sum_{i}P(i)\ln\frac{Q(i)}{P(i)} = \sum_{i}P(i)\ln\frac{P(i)}{Q(i)}\]

对于连续变量：

\[D_{\mathrm{KL}}(P\|Q)=\int_{-\infty}^{\infty}p(x)\ln\frac{p(x)}{q(x)}\:\mathrm{d}x,\]

性质：

非负： $D_{\mathrm{KL}}(P|Q)\ge 0$ 等号当且仅当P与Q为同分布时取到
非对称：$D_{\mathrm{KL}}(P|Q) \ne D_{\mathrm{KL}}(Q|P)$

数学

数理统计信息论

本文由作者按照 CC BY 4.0 进行授权

随机变量的数字特征

均值/期望:

方差:

标准差:

标准化变量:

变异系数:

协方差:

相关系数:

协方差矩阵:

矩:

k阶原点矩:

k阶中心矩:

k+1阶中心矩:

分位数

常见概率分布

离散型

0-1分布:$X \sim 0-1(p)$

二项分布:$X \sim B(n,p)$

泊松分布:$X \sim P(\lambda)$

几何分布:

超几何分布:

连续型

均匀分布: $X \sim U(a,b)$

正态分布: $X \sim N(\mu, \sigma^2)$

指数分布: $X \sim Exp(\lambda)$

多元随机变量

二元正态分布

大数定律和中心极限定理

大数定律

中心极限定理

统计量与抽样分布

常用统计量

抽样分布

$\chi^2$分布

t分布

F分布

正态总体下的抽样分布

参数估计

点估计

区间估计

正态总体均值的区间估计

单个正态总体均值的区间估计

两个正态总体均值的区间估计

假设检验

两种错误

单个正态总体均值的假设检验

$\mu$的假设检验

深度学习中常使用的概率论相关知识点

交叉熵(Cross Entropy)

KL散度(KL Divergence, 相对熵, relative entropy)

热门标签