概率论与数理统计 - 概念总结

#基本概念

随机试验
可以在相同的条件下重复进行,并且每次试验的结果不确定,但试验前可以明确试验的所有可能结果。
样本空间
随机试验EE 的所有可能结果组成的集合,记为SS
样本点
样本空间中的元素,记为ω\omega
事件
样本空间SS 的子集称为随机事件,简称事件,通常用大写字母A,B,C,...A, B, C, ... 表示。
基本事件
只包含一个样本点的随机事件。
  • 必然事件: 包含所有样本点的随机事件。
  • 不可能事件: 不包含任何样本点的随机事件。

事件关系和运算

  • 包含关系:ABA \subset BAA 包含于BB
  • 相等关系:A=BA = BAA 等于BB
  • 和事件:ABA \cup BAABB 至少有一个发生。
  • 积事件:ABA \cap BAABB 同时发生。
  • 差事件:ABA - BAA 发生而BB 不发生。
  • 互斥事件:AB=A \cap B = \emptysetAABB 不可能同时发生。
  • 逆事件/对立事件:AB=SA \cup B = SAABB 至少有一个发生。
频数
nn 次试验中,事件AA 发生的次数,记为nAn_A
频率
事件AA 发生的频率,记为fn(A)=nAnf_n(A) = \frac{n_A}{n}
概率
事件AA 发生的可能性大小,记为P(A)P(A),满足以下三个条件:
  • 非负性:P(A)0P(A) \geq 0
  • 规范性:P(S)=1P(S) = 1
  • 可列可加性: 若A1,A2,...A_1, A_2, ... 两两互斥,则P(i=1Ai)=i=1P(Ai)P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty}P(A_i)

概率的性质推论:

  • P()=0P(\emptyset) = 0
  • 有限可加性: 若A1,A2,...A_1, A_2, ... 两两互斥,则P(i=1nAi)=i=1nP(Ai)P(\bigcup_{i=1}^{n}A_i) = \sum_{i=1}^{n}P(A_i)
  • 包含事件的概率: 若ABA \subset B,则P(A)P(B)P(A) \leq P(B)
  • P(A)1P(A) \leq 1
  • 互补事件的概率:P(Aˉ)=1P(A)P(\bar{A}) = 1 - P(A)
  • 加法公式:P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)
古典概型/等可能概型
符合以下条件的概率模型称为古典概型:
  1. 试验的样本空间是有限的。
  2. 试验的每个基本事件发生的可能性相同。
条件概率
在事件AA 已经发生的条件下,事件BB 发生的概率,记为P(BA)=P(AB)P(A)P(B|A) = \frac{P(AB)}{P(A)}
  • 条件概率仍然是概率,满足概率的三个基本性质。
乘法定理, 乘法公式
P(AB)=P(A)P(BA)=P(B)P(AB)P(AB) = P(A)P(B|A) = P(B)P(A|B)
划分
若一组事件B1,B2,...B_1, B_2, ... 满足BiBj=B_i \cap B_j = \emptysetiji \neq j,且i=1Bi=S\bigcup_{i=1}^{\infty}B_i = S,则称B1,B2,...B_1, B_2, ... 是样本空间SS 的一个划分。
全概率公式
B1,B2,...B_1, B_2, ... 是样本空间SS 的一个划分,且P(Bi)>0P(B_i) > 0i=1,2,...i = 1, 2, ...,则对任一事件AA,有P(A)=i=1P(Bi)P(ABi)P(A) = \sum_{i=1}^{\infty}P(B_i)P(A|B_i)
贝叶斯公式
B1,B2,...B_1, B_2, ... 是样本空间SS 的一个划分,且P(Bi)>0P(B_i) > 0i=1,2,...i = 1, 2, ...,则对任一事件AA,有P(BiA)=P(Bi)P(ABi)j=1P(Bj)P(ABj)P(B_i|A) = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{\infty}P(B_j)P(A|B_j)}
先验概率
根据以往数据分析得到的概率。
后验概率
得到新的信息后重新加以修正的概率。
独立
如果P(AB)=P(A)P(B)P(AB) = P(A)P(B),则称事件AA 与事件BB 相互独立,简称A,BA, B 独立。

#随机变量

随机变量
定义在样本空间SS 上的实值单值函数X=X(e)X = X(e),其中eSe \in S。 PS. 将样本空间SS 中的每个样本点ee 对应到实数轴上的一个点X(e)X(e)。单值函数: 对定义域每一个自变量 x,其对应的函数值 f(x)是唯一的。
离散型随机变量
全部取值范围是有限个或可列无限多个的随机变量。
(0-1)分布
可能结果只有 0 和 1 的分布,记 0 的概率为pp,1 的概率为1p1-p,则P(X=k)=pk(1p)1kP(X=k) = p^k(1-p)^{1-k}
伯努利试验
可能结果只有AAAˉ\bar{A} 的随机试验。将伯努利试验独立重复进行nn 次,称为nn 重伯努利试验。
二项分布
重复进行nn 次伯努利试验,事件AA 发生的次数XX 服从二项分布,记为Xb(n,p)X \sim b(n, p)
泊松分布
可能取值是 0, 1, 2, …,而取各个值的概率是P(X=k)=λkk!eλP(X=k) = \frac{\lambda^k}{k!}e^{-\lambda},其中λ>0\lambda > 0,的随机变量XX 的分布。称XX 服从参数为λ\lambda 的泊松分布,记为Xπ(λ)X \sim \pi(\lambda)
泊松定理
设常数λ>0\lambda > 0n>0n > 0npn=λnp_n=\lambda,有limnCnkpnk(1pn)nk=λkk!eλ\lim_{n \to \infty}C_n^kp_n^k(1-p_n)^{n-k} = \frac{\lambda^k}{k!}e^{-\lambda}。也就是说,当nn 很大(20\geq 20),pp 很小(0.05\leq 0.05)时,二项分布近似于泊松分布。可以用泊松分布来计算二项分布的概率。
随机变量的分布函数
F(x)=P(Xx)F(x) = P(X \leq x)xRx \in R
连续性随机变量、概率密度
如果对于分布函数F(x)F(x),存在非负函数f(x)f(x),满足F(x)=xf(t)dtF(x) = \int_{-\infty}^{x}f(t)dt,则称XX 是连续型随机变量,f(x)f(x)XX 的概率密度(函数)
均匀分布
在区间(a,b)(a,b) 上的概率密度函数符合f(x)=1baf(x)=\frac{1}{b-a} 的分布。记为XU(a,b)X \sim U(a,b)
指数分布
在区间(0,+)(0, +\infty) 上的概率密度函数符合f(x)=λeλxf(x)=\lambda e^{-\lambda x} 的分布。记为XE(λ)X \sim E(\lambda)
  • 指数分布的无记忆性:P(X>s+tX>s)=P(X>t)P(X>s+t|X>s) = P(X>t)
正态分布/高斯分布
概率密度函数符合f(x)=12πσe(xμ)22σ2f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} 的分布。记为XN(μ,σ2)X \sim N(\mu, \sigma^2)
伽马分布
概率密度函数符合f(x)=λαxα1Γ(α)eλxf(x)=\frac{\lambda^{\alpha}x^{\alpha-1}}{\Gamma(\alpha)}e^{-\lambda x} 的分布。记为XΓ(α,λ)X \sim \Gamma(\alpha, \lambda)。其中α\alpha 为形状参数,λ\lambda 为比例参数。

也可以记为XΓ(α,β)X \sim \Gamma(\alpha, \beta),其中β=1λ\beta = \frac{1}{\lambda}

#多维随机变量

二维随机变量,联合分布函数
由两个随机变量XXYY 构成的向量(X,Y)(X, Y) 称为随机变量。二元函数F(x,y)=P(Xx,Yy)F(x, y) = P(X \leq x, Y \leq y) 称为二维随机变量(X,Y)(X, Y) 的联合分布函数。
  • 类似地,二维随机变量也有离散型、连续性、分布律和概率密度函数等概念。

联合概率分布, 联合概率密度:

F(x,y)=P(Xx,Yy)=yxf(u,v)dudvF(x,y) = P(X\leq x, Y\leq y) = \int_{-\infty}^{y}\int_{-\infty}^{x}f(u,v)dudv

边缘分布函数, 边缘概率密度:

FX(x)=F(x,+),FY(y)=F(+,y),fX(x)=+f(x,y)dy,fY(y)=+f(x,y)dxF_X(x) = F(x, +\infty), \\ F_Y(y) = F(+\infty, y), \\ f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy, \\ f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx

条件概率密度, 在Y=yY=y的条件下:

fXY(x,y)=f(x,y)fY(y)f_{X|Y}(x,y) = \frac{f(x,y)}{f_Y(y)}

Z=X+YZ=X+Y的概率分布:

FZ(z)=P(Zz)=x+yzf(x,y)dxdy=+f(zy,y)dy=+f(x,zx)dxF_Z(z) = P(Z\leq z) =\iint_{x+y\leq z}f(x,y)dxdy \\ = \int_{-\infty}^{+\infty}f(z-y,y)dy \\ = \int_{-\infty}^{+\infty}f(x,z-x)dx

如果XXYY独立, 卷积公式:

=+fX(x)fY(zx)dx= \int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx

#随机变量的数字特征

数学期望, 简称期望, 又称为均值, 常用μ\mu表示

E(x)=μx=xf(x)dxE(x) = \mu_x = \int_{-\infty}^{\infty}xf(x)dx

方差, 标准差:

D(X)=Var(X)=E((Xμx)2)=E(X2)μx2,D(X)=σX=E((Xμx)2)D(X) = Var(X) = E((X-\mu_x)^2) = E(X^2) - \mu_x^2, \\ \sqrt{D(X)} = \sigma_X = \sqrt{E((X-\mu_x)^2)}

协方差
用于衡量随机变量 X 与 Y 的相关性:

Cov(X,Y)=E[(XμX)(YμY)]Cov(X, Y) = E[(X-\mu_X)(Y-\mu_Y)]

相关系数
剔除了两个变量量纲影响、标准化后的协方差:

ρ=Cov(X,Y)σXσY\rho = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}

#参数估计

样本
X1,X2,...,XnX_1, X_2, ..., X_n,nn为样本大小/样本容量/样本量
统计量
完全由样本决定的量
参数估计问题
根据样本估计概率函数
  • 设有了从总体中抽出的独立随机样本X1,...,XnX_1, ..., X_n, 要依据这些样本去对参数θ1,...,θk\theta_1, ..., \theta_k 的未知值作出估计. 当然, 我们也可以只要求估计其中的一部分, 或估计它们的某个已知函数g(θ1,...,θk)g(\theta_1, ..., \theta_k)
矩估计
pass

最大似然估计:

设总体有分布 $f(X, \theta_1, …,\theta_k),X1,...,XnX_1, ...,X_n 为自这总体中抽出的样本, 则样本(X1,...,Xn)(X_1, ...,X_n)的分布(即其概率密度函数或概率函数)为

L(X1,...,Xn,θ1,...,θk)=f(X1,θ1,...,θk)f(X2,θ1,...,θk)...f(Xn,θ1,...,θk)L(X_1, ..., X_n, \theta_1,..., \theta_k) = f(X_1, \theta_1, ..., \theta_k) f(X_2, \theta_1, ..., \theta_k) ... f(X_n, \theta_1, ..., \theta_k)

似然函数
将上式视为θ\theta的函数, 称为似然函数
最大似然估计
对于已知的样本, 估计最优的θ\theta值,使得似然函数最大化,即为最大似然估计

#随机过程

随机过程
依赖于参数tTt \in T 的一族随机变量,记为{X(t),tT}\{X(t), t \in T\},其中:TT参数集tt 通常表示时间。X(t)X(t) 表示在时刻tt 时过程的状态X(t)X(t) 的所有可能取值的集合称为状态空间
样本函数/样本曲线
对随机过程的一次试验,得到的函数x(t),tTx(t), t \in T
伯努利过程/伯努利随机序列
与时间无关的随机过程,即X(t)=XX(t) = X。 PS. 例如多次抛硬币的过程。
  • 根据任一时刻tt 的状态X(t)X(t) 是连续型还是离散型,随机过程分为连续型随机过程离散型随机过程
  • 根据时间参数tt 是连续还是离散,随机过程分为连续参数随机过程离散参数随机过程随机序列
一维分布函数,一维分布函数族
随机变量X(t)X(t) 的分布函数,记为FX(x,t)=P(X(t)x)F_X(x, t) = P(X(t) \leq x),称为一维分布函数FX(x,t)F_X(x, t) 的全体集合称为一维分布函数族
n 维分布函数族
对于nn 个时刻t1,t2,...,tnt_1, t_2, ..., t_nnn 个随机变量X(t1),X(t2),...,X(tn)X(t_1), X(t_2), ..., X(t_n) 的分布函数族。
均值函数
随机变量X(t)X(t) 的所有样本函数在时刻tt 的平均值,也称集平均统计平均,记为μX(t)=E[X(t)]\mu_X(t) = E[X(t)]
均方值函数
随机变量X(t)X(t) 的二阶原点矩,记为ΨX2(t)=E[X2(t)]\Psi^2_X(t) = E[X^2(t)]
方差函数
随机变量X(t)X(t) 的二阶中心矩,记为DX(t)=E[(X(t)μX(t))2]D_X(t) = E[(X(t) - \mu_X(t))^2]
标准差函数
方差函数的算术平方根,记为σX(t)=DX(t)\sigma_X(t) = \sqrt{D_X(t)}
(自)相关函数
两个随机变量X(t1)X(t_1)X(t2)X(t_2) 的二阶原点混合矩,记为RX(t1,t2)=E[X(t1)X(t2)]R_X(t_1, t_2) = E[X(t_1)X(t_2)]
(自)协方差函数
两个随机变量X(t1)X(t_1)X(t2)X(t_2) 的二阶混合中心矩,记为CX(t1,t2)=Cov[X(t1),X(t2)]=E[(X(t1)μX(t1))(X(t2)μX(t2))]C_X(t_1, t_2) = Cov[X(t_1), X(t_2)] = E[(X(t_1) - \mu_X(t_1))(X(t_2) - \mu_X(t_2))]
二阶矩过程
随机过程X(t)X(t) 的二阶矩E[X2(t)]E[X^2(t)] 对于任意时间tt 都存在。
正态过程
对于任意有限个时刻t1,t2,...,tnt_1, t_2, ..., t_nnn 个随机变量X(t1),X(t2),...,X(tn)X(t_1), X(t_2), ..., X(t_n) 的任意线性组合服从正态分布的随机过程。
二维随机过程
由两个随机变量X(t)X(t)Y(t)Y(t) 构成的随机过程。
n+m 维(联合)分布函数
对于n+mn+m 个时刻t1,t2,...,tn;t1,t2,...,tmt_1, t_2, ..., t_n; t'_1, t'_2, ..., t'_mn+mn+m 个随机变量X(t1),X(t2),...,X(tn);Y(t1),Y(t2),...,Y(tm)X(t_1), X(t_2), ..., X(t_n); Y(t'_1), Y(t'_2), ..., Y(t'_m) 的分布函数。
独立增量过程
随机过程X(t)X(t) 的任意两个不相交时间区间上的增量相互独立。
增量具有平稳性
随机过程X(t)X(t) 的任意两个相同长度的时间区间上的增量具有相同的分布。说明增量的统计特性与时间的起点无关,只与时间间隔有关。
计数过程
表示在连续时间区间[0,t][0, t] 内某事件发生的次数的随机过程,记为N(t)N(t)
  • 时间间隔(t0,t](t_0, t] 内事件发生的次数记为N(t0,t)=N(t)N(t0)N(t_0, t) = N(t) - N(t_0)
  • 时间间隔(t0,t](t_0, t] 内事件发生kk 次的概率记为Pk(t0,t)=P{N(t0,t)=k}P_k(t_0, t) = P\{N(t_0, t) = k\}
泊松过程
如果计数过程N(t)N(t) 满足以下条件,则称N(t)N(t) 为强度为λ\lambda 的泊松过程:
  1. N(0)=0N(0) = 0
  2. N(t)N(t) 是独立增量过程。
  3. 对于充分小的Δt\Delta t,事件发生一次的概率P1{N(t,t+Δt)}=λΔt+o(Δt)P_1\{N(t, t+\Delta t)\} = \lambda \Delta t + o(\Delta t)o(Δt)o(\Delta t) 是关于Δt\Delta t 的高阶无穷小。
  4. 对于充分小的Δt\Delta t,事件发生j2j \geq 2 次的概率Pj{N(t,t+Δt)}=o(Δt)P_j\{N(t, t+\Delta t)\} = o(\Delta t)

泊松过程的性质:

  • 增量N(t0,t)N(t_0, t) 服从参数为λ(tt0)\lambda(t - t_0) 的泊松分布,数学表示N(t0,t)π(λ(tt0))N(t_0, t) \sim \pi(\lambda(t - t_0)),注:泊松分布Pλ(X=k)=λkk!eλP_\lambda(X=k) = \frac{\lambda^k}{k!}e^{-\lambda}
  • 均值函数μN(t)=E[N(t)]=λt\mu_N(t) = E[N(t)] = \lambda t
  • 方差函数DN(t)=Var[N(t)]=λtD_N(t) = Var[N(t)] = \lambda t
  • 协方差函数CN(t1,t2)=Cov[N(t1),N(t2)]=λmin(t1,t2)C_N(t_1, t_2) = Cov[N(t_1), N(t_2)] = \lambda \min(t_1, t_2)
  • 相关函数RN(t1,t2)=E[N(t1)N(t2)]=λ2t1t2+λmin(t1,t2)R_N(t_1, t_2) = E[N(t_1)N(t_2)] = \lambda^2 t_1 t_2 + \lambda \min(t_1, t_2)
泊松流
泊松过程中事件发生的时刻。
泊松过程等待时间
泊松过程中第nn 个事件发生的时间,记为Wn=tnW_n = t_n,特别地,W0=0W_0 = 0

泊松过程等待时间的性质:

  • WnW_n 的分布函数FWn(t)=P{Wnt}=1P{Wn>t}=1P{N(t)<n}=P{N(t)n}=k=n+(λt)kk!eλtF_{W_n}(t) = P\{W_n \leq t\} \\ = 1 - P\{W_n > t\} \\ = 1 - P\{N(t) < n\} \\ = P\{N(t) \geq n\} \\ = \sum_{k=n}^{+\infty}\frac{(\lambda t)^k}{k!}e^{-\lambda t}
  • WnW_n 的概率密度函数fWn(t)=dFWn(t)dt=λntn1(n1)!eλtf_{W_n}(t) = \frac{dF_{W_n}(t)}{dt} = \frac{\lambda^n t^{n-1}}{(n-1)!}e^{-\lambda t},即WnΓ(n,λ)W_n \sim \Gamma(n, \lambda)
    • 注:伽马分布Γ(α,λ)\Gamma(\alpha, \lambda)f(x)=λαxα1Γ(α)eλxf(x)=\frac{\lambda^{\alpha}x^{\alpha-1}}{\Gamma(\alpha)}e^{-\lambda x}
    • n=1n = 1 时,伽马分布即指数分布。
点间间距
泊松过程中相邻两个事件的时间间隔,记为Tn=WnWn1T_n = W_n - W_{n-1}
  • TnT_n 的概率密度函数fTi(t)=λeλtf_{T_i}(t) = \lambda e^{-\lambda t},即TiE(λ)T_i \sim E(\lambda),即指数分布。

泊松过程的性质:

  • 泊松过程的点间间距是独立同分布的指数分布。
  • 如果一个过程的点间间距是独立同分布的指数分布,那么这个过程是泊松过程。
维纳过程
满足以下条件的二阶矩过程W(t)W(t) 称为维纳过程:
  1. W(0)=0W(0) = 0
  2. W(t1,t2)N(0,σ2(t2t1))W(t_1, t_2) \sim N(0, \sigma^2 (t_2 - t_1))
  3. 具有独立增量性质。
  • 均值函数μW(t)=0\mu_W(t) = 0
  • 方差函数DW(t)=σ2tD_W(t) = \sigma^2 t
  • 协方差函数CW(t1,t2)=Cov[W(t1),W(t2)]=σ2min(t1,t2)C_W(t_1, t_2) = Cov[W(t_1), W(t_2)] = \sigma^2 \min(t_1, t_2)

#马尔可夫链

马尔可夫性
过程的未来状态只与当前状态有关,与过去状态无关。
马尔科夫过程
具有马尔可夫性的随机过程。