概率论与数理统计 - 概念总结

#随机变量

概率分布函数, 概率密度函数:

F(x)=P(Xx),xR,F(x)=xf(x)dxF(x) = P(X\leq x),x\in R, \\ F(x) = \int_{-\infty}^{x}f(x)dx

数学期望, 简称期望, 又称为均值, 常用μ\mu表示

E(x)=μx=xf(x)dxE(x) = \mu_x = \int_{-\infty}^{\infty}xf(x)dx

方差, 标准差:

D(X)=Var(X)=E((Xμx)2)=E(X2)μx2,D(X)=σX=E((Xμx)2)D(X) = Var(X) = E((X-\mu_x)^2) = E(X^2) - \mu_x^2, \\ \sqrt{D(X)} = \sigma_X = \sqrt{E((X-\mu_x)^2)}

协方差: 用于衡量随机变量 X 与 Y 的相关性:

Cov(X,Y)=E[(XμX)(YμY)]Cov(X, Y) = E[(X-\mu_X)(Y-\mu_Y)]

相关系数: 剔除了两个变量量纲影响、标准化后的协方差:

ρ=Cov(X,Y)σXσY\rho = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}

#多维随机变量

联合概率分布, 联合概率密度:

F(x,y)=P(Xx,Yy)=yxf(u,v)dudvF(x,y) = P(X\leq x, Y\leq y) = \int_{-\infty}^{y}\int_{-\infty}^{x}f(u,v)dudv

边缘分布函数, 边缘概率密度:

FX(x)=F(x,+),FY(y)=F(+,y),fX(x)=+f(x,y)dy,fY(y)=+f(x,y)dxF_X(x) = F(x, +\infty), \\ F_Y(y) = F(+\infty, y), \\ f_X(x) = \int_{-\infty}^{+\infty}f(x,y)dy, \\ f_Y(y) = \int_{-\infty}^{+\infty}f(x,y)dx

条件概率密度, 在Y=yY=y的条件下:

fXY(x,y)=f(x,y)fY(y)f_{X|Y}(x,y) = \frac{f(x,y)}{f_Y(y)}

Z=X+YZ=X+Y的概率分布:

FZ(z)=P(Zz)=x+yzf(x,y)dxdy=+f(zy,y)dy=+f(x,zx)dxF_Z(z) = P(Z\leq z) =\iint_{x+y\leq z}f(x,y)dxdy \\ = \int_{-\infty}^{+\infty}f(z-y,y)dy \\ = \int_{-\infty}^{+\infty}f(x,z-x)dx

如果XXYY独立, 卷积公式:

=+fX(x)fY(zx)dx= \int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx

#参数估计

样本:X1,X2,...,XnX_1, X_2, ..., X_n,nn为样本大小/样本容量/样本量

统计量: 完全由样本决定的量

参数估计问题: 根据样本估计概率函数

  • 设有了从总体中抽出的独立随机样本X1,...,XnX_1, ..., X_n, 要依据这些样本去对参数θ1,...,θk\theta_1, ..., \theta_k 的未知值作出估计. 当然, 我们也可以只要求估计其中的一部分, 或估计它们的某个已知函数g(θ1,...,θk)g(\theta_1, ..., \theta_k)

矩估计: pass

最大似然估计:

设总体有分布 $f(X, \theta_1, …,\theta_k),X1,...,XnX_1, ...,X_n 为自这总体中抽出的样本, 则样本(X1,...,Xn)(X_1, ...,X_n)的分布(即其概率密度函数或概率函数)为

L(X1,...,Xn,θ1,...,θk)=f(X1,θ1,...,θk)f(X2,θ1,...,θk)...f(Xn,θ1,...,θk)L(X_1, ..., X_n, \theta_1,..., \theta_k) = f(X_1, \theta_1, ..., \theta_k) f(X_2, \theta_1, ..., \theta_k) ... f(X_n, \theta_1, ..., \theta_k)

似然函数: 将上式视为θ\theta的函数, 称为似然函数

最大似然估计: 对于已知的样本, 估计最优的θ\theta值,使得似然函数最大化,即为最大似然估计