符号说明:

对于随机变量$X$,概率密度函数记为$f_X(x)$,和课本略有不同。

分布函数$F_{X,Y}(x,y)$的角标在符号不混淆的情况下省略为$F(x,y)$。

参考教材为概率论和随机过程 [林正炎、苏中根、张立新]


一些定义和结论

对于分布函数$F(x) = \int_{-\infty}^x p(y)dy, \quad -\infty < x < \infty$,满足三条性质:

  • 单调不减性:$F(x)\leq F(y), s.t. x \leq y$
  • $$\lim_{x\to -\infty} F(x)=0,\lim_{x\to \infty} F(x)=1$$,采用概率的连续性定理完成证明
  • $\lim_{n\to \infty} F(x+\frac{1}{n}) = F(x)$,证明同上

$\boxed{Remark:}$随机向量的概率分布需要的联合分布函数除了满足以上三条性质,还需要满足矩形上的非负性。

即: $$ \forall a < b ,\forall c<d,F(b,d)-F(a,d)-F(b,c)+F(a,c) \geq 0 $$ 反例:$F_{X,Y}(x,y) = \begin{cases} &1 &x\geq 0,y\geq0,x+y \geq 1 \ &0 & else \end{cases}$

满足前三条,但是不满足第四条(取$(0.4,0.7] \times (0.4,0.7]$,将这个矩形的顶点带入可验证),不是合法的二维随机向量分布函数。


边际分布

对于离散型随机向量(仅能取有限组值或可列组值),$P(x = \xi_i) = \sum_{j=1}^n P(x = \xi_i,y = \eta_j) = p_{i,\cdot}$

对于连续型随机向量: $$ F_{\xi}(x) = F_{\xi,\eta}(x,\infty) = \int_{-\infty}^x (\int_{-\infty}^\infty f(x,y) dy) dx \Rightarrow f_\xi(x) = \int_{-\infty}^\infty f(x,y) dy $$


条件分布

对于离散型随机变量: $$ P(\eta = y_j\big| \xi = x_i) = P(\xi = x_i,\eta = y_j)/P(\xi = x_i) = p_{i,j}/p_{i,\cdot} $$ 我们称此为$\xi=x_i$情况下$\eta$的条件分布列。

对于连续型随机变量: $$ P(\eta \leq y\big| \xi =x) = \int_{-\infty}^{y} \frac{f(x,v)}{f_\xi(x)} dv $$ 我们称此为$\xi=x$情况下$\eta$的条件分布,称$f_{\eta\big|\xi}(y\big|x) = \frac{f(x,y)}{f_\xi(x)}$为其条件密度函数。

可以浏览下课本P85 example 2.24


全概率公式的连续形式: $$ 记g(x) = P(A\big|X=x),那么P(A,X\in[x,x+\Delta x]) = P(A\big|X=x)f_{X}(x)\Delta x = g(x)f_X(d) \Delta x $$

$$ P(A) = \int_{-\infty}^{\infty} g(x)f_X(d) d x $$

贝叶斯公式的连续形式: $$ f_{\eta\big|\xi}(y\big|x) = \frac{f_{\xi\big| \eta(x\big| y)} f_{\eta}(y)}{\int_{-\infty}^{\infty} f_{\xi\big| \eta(x\big| v)} f_{\eta}(v) dv} $$ 我们不妨将$\eta$看作一个未知分布的随机变量,$\xi$看作和$\eta$关联的随机变量,可以将其看作在参数$\eta$下发生的样本,$f_{\eta}(v)$是其先验概率的密度函数,$f_{\xi \big| \eta }(x\big| y)$被称为似然(Likelihood),显然,如果$\eta$的先验概率分布下,出现$\xi$的概率很大,那么似然就比较大。$f_{\eta\big|\xi}(y\big|x)$可以理解为在采样后,根据新样本判断$\eta$分布的合理程度,因此被称为后验概率


计算$Y = G(X)$的密度函数,当$G$是一个单调函数,那么显然它是一个单射: $$ 考虑单增的情况,F_Y(y) = F_X(G^{-1}(y)) \Rightarrow f_Y(y) = f_X(G^{-1}(y)) |\frac{d G^{-1}(y)}{dy}| $$ 单减也可以类似的得到,结论一样。

$\boxed{推论:}$实际上,当$y = f(x)$在不相重叠的区间$I_{k},k=1,2,\cdots$上逐段严格单调,且$\bigcup_{i=1} I_i = (-\infty,\infty)$,且反函数均有连续导数,那么我们有: $$ g(y) = \sum_{i}g_i(y) $$ 其中 $$ g_i(y) = \begin{cases} f(h_i(y))|h_i’(y)| & y\in I_i \ 0 & else \end{cases} $$ 这里的证明比较简单,只需要在我们现在构造的分项密度函数求和然后交换积分和求和次序即可,省略。


随机向量函数的分布律:

卷积公式的离散形式: $$ P(X+Y=r)= \sum_{k=-\infty}^\infty P(X=k) P(Y=r-k) $$ 卷积公式的连续形式: $$ 记Z=X+Y,F(z) = \int_{-\infty}^{\infty}dx \int_{-\infty}^{z-x} f(x,y)dy \overset{y = u-x}{=} \int_{-\infty}^{\infty} dx \int_{-\infty}^z f(x,u-x) du \overset{交换积分次序}{=} \int_{-\infty}^z ( \int_{-\infty}^{\infty}f(x,u-x) dx ) du $$ 那么 $$ f_Z(u) = \int_{-\infty}^{\infty}f(x,u-x) dx $$ 令一个常见的形式$Z=\frac{X}{Y}$: $$ F(z) = \int_{0}^{\infty} dy \int_{-\infty}^{zy} f(x,y) dx + \int_{-\infty}^{0} dy \int_{zy}^{\infty} f(x,y) dx \overset{x=uy}{=} \int_{0}^\infty dy \int_{-\infty}^z yf(uy,y) du + \int_{-\infty}^0 dy \int_{z}^{-\infty} yf(uy,y) du $$ 交换积分次序整理可得: $$ F_Z(z) = \int_{-\infty}^z (\int_{-\infty}^{\infty} |y|f(uy,y) dy) du $$ 密度函数为: $$ f_Z(z) = \int_{-\infty}^{\infty} |y|f(uy,y) dy $$ 课本还给出了次序统计量的分布函数:

记$\xi = \min{X_i},\eta = \max{ X_i }$,共有$n$个随机变量。随机变量有相同的分布函数,记为$F(x)$ $$ F_\xi(u) = P(\xi \leq u) = 1 - P(\xi > u) = 1 - (1 - F(u))^n $$

$$ F_\eta(v) = [F(v)]^n $$

计算其联合分布函数,实际上可以先计算联合分布函数再到处各自的分布函数,这也是一种重要的解题思路: $$ 当u\leq v, F_{\xi,\eta}(u,v) = P(\xi\leq u,\eta\leq v) = P(\eta \leq v) - P(\xi > u,\eta\leq v) = [F(v)]^n - [F(u) - F(v)]^n $$ 当$u>v$,后一项为0. $$ F_{\xi,\eta}(u,v) = [F(v)]^n $$


随机向量的变换

考虑两个随机向量$X = [X_1,X_2,\cdots,X_n],Y = [Y_1,Y_2,\cdots,Y_n]$

我们有可逆映射: $$ \begin{cases} x_1 &= g_1(y_1,y_2,\cdots,y_n) \ x_2 &= g_2(y_1,y_2,\cdots,y_n) \ & \cdots \ x_n &= g_n(y_1,y_2,\cdots,y_n) \end{cases} $$ 由对于这个面积微元,由多元微分学知识,我们用雅可比行列式写为: $$ dx_1 dx_2 \cdots dx_n = dy_1 dy_2 \cdots dy_n |J| ,\quad其中 J = \begin{bmatrix} \frac{\partial g_1}{y_1} & \cdots &\frac{\partial g_1}{\partial y_n} \ & \ \frac{\partial{g_n}}{\partial y_1} &\cdots & \frac{\partial g_n}{\partial y_n} \end{bmatrix}_{n\times n } $$

常见的几个代换公式,证明过程详见数学分析:

极坐标代换: $$ dxdy = rdrd\theta \quad \begin{cases} x=r\cos \theta \ y=r\sin\theta \end{cases} $$ 柱面坐标代换: $$ dxdydz = rdrd\theta dz \quad \begin{cases} x=r\cos \theta \ y=r\sin\theta \ z=z \end{cases} $$ 球面坐标代换: $$ dxdydz = \rho^2\sin^2\phi d\rho d\theta d\phi \quad \begin{cases} x=\rho\sin \phi \cos \theta \ y=\rho \sin\phi\sin\theta \ z = \rho \cos\phi \end{cases} $$


T1.

已知$\xi \sim B(1,0.4),y \sim B(2,0.4)$,且$P(\xi=1,\eta =2)= 0$,$\xi$与$\eta$不相关。

(1)求联合分布列

由于不相干,两个随机变量的协方差等于$0$ $$ Cov(\xi,\eta) = E[\xi\eta]-E[\xi]E[\eta] $$ 计算得: $$ Cov(\xi,\eta) = (1\cdot1)P(\xi =1,\eta = 1)+\underbrace{(1\cdot2)P(\xi =1,\eta = 2)}_{=0} - (1\times 0.4 \times 2 \times 0.4) = P(\xi =1,\eta = 1) -0.32 =0 $$ 将$P(\xi=1,\eta=1)=0.32$带入,即可求出联合分布,不画表格了。

(2)判断$\xi$与$\eta$的独立性

考虑$P(\xi =1,\eta =2) = 0 \neq P(\xi =1 )P(\eta =2)$,不独立。

T2

设$p(x,y,z) = \begin{cases} \frac{6}{(1+x+y+z)^2} & x,y,z>0 \ 0 & else \end{cases}$

求$U = \xi + \eta + \zeta$的密度函数。

[!IMPORTANT]

这里体现了教材里的另一种思路,先求联合分布,再求边际分布。

取代换: $$ \begin{cases} u = x+y+z \ v = y \ w =z \end{cases} $$

$$ f(u,v,w) = \frac{6}{(1+u)^2} $$

此时,$J=1$,$f_U(u) = \iint_{v+w\leq u} \frac{6}{(1+u)^2} dudvdw = \frac{3u^2}{(1+u)^2}$

未完待续……