(不定期更新)概统笔记

顺便用作$\LaTeX$练习.

bug: 目前发现转mathjax时X的平均值(即\overline{X})不能正常显示。

成绩分布

卷面成绩:50%

平时成绩:50%

  • 平时作业
  • 期中+小测
  • 非标
  • 随堂表现

特点

  • 理解性、记忆性

  • 微积分功底

  • 题型固定

概率部分

概率论基础

用$A,B,C$等表示事件

$\overline{A}$表示A的对立事件(对立是互斥的充分条件)

$AB=A\cap B$

$A-B=A\overline{B}=A-AB$

$\overline{A\cap B}=\overline{A}\cup\overline{B}$

$\overline{A\cup B}=\overline{A}\cap\overline{B}$

发生B后再发生A的概率$P(A|B)=\frac{P(AB)}{P(B)}$,其中$P(B)>0$

全概率公式:设为完备事件组,则

贝叶斯公式:设为完备事件组,则,即贝叶斯公式是乘法公式与全概率公式的组合。

若$P(AB)=P(A)P(B)$,则$A,B$独立,同时$A,\overline{B}$、$\overline{A},\overline{B}$、$\overline{A},B$也独立。

二项分布概率:$P(k)=\mathrm{C}_{n}^{k}p^k(1-p)^{n-k}$

多项分布:某随机实验如果有$k$种可能的结果$C_1 \sim C_k$,它们出现的概率是$p_1 \sim p_k$。在N随机试验的结果中,分别将$C_1 \sim C_k$的出现次数记为随机变量$x_1 \sim x_k$,那么$C_1$出现$x_1$次、$C_2$出现$x_2$次……$C_k$出现$x_k$次这种事件发生的概率是

随机变量及其分布

随机变量$X(\omega)$是一个函数,其中$\omega$是样本空间,$X$是样本空间到实数的映射。

分布函数$F(x)=P(X \leq x)$,其定义域为$\mathbb{R}$,非严格单增(左极限为0,右极限为1),右连续。

概率密度函数 $f(x)$ 满足 ,当$f(x)$连续时,可简化为$F’(x) = f(x)$。有.

求概率的问题可以转化为概率密度函数的积分:$P(X \in G)=\int_Gf(x)\mathrm{d}x$.

非连续分布

几何分布与超几何分布略去.

二项分布:$X \sim \mathrm{B}(n,p)$,$P(X=k)=\mathrm{C}_{n}^{k}p^k(1-p)^{n-k}$

二项分布的图像是单峰的,由于

$\frac{P{X=k}}{P{X=k-1}}=1+\frac{(n+1)p-k}{kq}$,故$k$最靠近$(n+1)p$时易得最值.

泊松分布:$X \sim \mathrm{P}(\lambda)$,$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$

泊松分布相当于对$e^x$的泰勒展开各项之和归一化.

泊松定理:二项分布以泊松分布为极限分布.具体而言, 对于$X \sim \mathrm{B}(n,p)$,当n足够大时(>=100),我们可以近似把它看作$X \sim \mathrm{P} (\lambda)$,其中$\lambda=np$

连续分布

均匀分布(uniform distribution) ,

指数分布(exponential)

伽马分布(gamma distribution) .

随机变量函数的分布Y=f(X)型题目的做法

以求密度函数$f(x)$为例:

  • 求出$Y$对应的值域
  • 将$X$用$Y$解出,把$F(X)$替换成$F(Y)$
  • 对$F(Y)$求导得到$f(y)$

对于某些需要分类讨论的题目:

  • 求出$Y$对应的值域,并找到分段点
  • 在该区间内解不等式,解得$X \in g(Y)$,解$F(Y)=\int_{x \in g(Y)}f(x)\mathrm{d}x$
  • 对$F(Y)$求导得到$f(y)$,汇总结果

注意求积分$+C$时需要注意一下分布函数的连续性.

多(二)维随机变量及其分布

二维离散型随机变量分布

就是一个所有项和为1的表,没啥说的,求概率就是把对应位置的概率加起来就行。

边缘分布:

条件分布律:

二维连续型随机变量分布

相当于求二重积分,需要注意积分的定义域。

通常会利用定义域内积分和为1的性质求参数,然后重新求指定区域的二重积分来求概率。

二维分布函数与密度函数:

均匀分布

边缘密度:

条件分布函数:

  • (另一半懒得写了)

常见题型:

一个密度、两个条件、两个边缘

  • 已知一个密度,求剩下四个。
  • 已知一个条件与对应的边缘,求剩下三个。

已知二维密度函数$f(x,y)$,$Z=g(X,Y)$,求$Z$的密度函数$f_Z(z)$

  • 确定$f(x,y)$的有效区间$R$
  • 计算,注意分类讨论
  • 对$z$求导得到密度函数$f_Z(z)$

卷积再见

若$Z=\max(X,Y)$且$X,Y$独立,则

若$Z=\min(X,Y)$且$X,Y$独立,则

数学期望

数学期望的定义

离散变量的期望:$E(X)=\Sigma_{k=1}^\infty x_k P_k$

连续变量的期望:$E(X)=\int_{-\infty}^\infty xf(x)\mathrm{d}x$

当级数的和(或积分)绝对收敛时,数学期望存在。

对于二维的情况,还可以这样算:

$E(X)=\int_{-\infty}^\infty xf_X(x)\mathrm{d}x$

$E(Y)=\int_{-\infty}^\infty yf_Y(y)\mathrm{d}y$

随机变量函数的期望

数学期望的性质

若$X$与$Y$独立,则

方差

方差的定义

$D(X)=E(X-E(X))^2=E(X^2)-E(X)^2$

设$E(X)=c$,

$=E(X-c)^2=E(X^2-2cX+c^2)$

$=E(X^2)-2cE(x)+c^2$

$=E(X^2)-c^2=E(X^2)-E(X)^2$

标准差为$\sqrt{D(X)}$

方差的性质

$D(C)=0$

$D(aX)=a^2D(X)$

当$X,Y$独立时,$D(X \pm Y)=D(X)+D(Y)$

当$X,Y$独立时,

$D(X)=0 \iff \exists c, P(X=c)=1$,但这不意味着$X=c$(同:概率为1的事件不一定是必然事件)

变异系数:$C_v=\frac{\sqrt{D(X)}}{|E(X)|}$

常见分布的期望与方差

原点矩与中心矩

$m_k=E(X^k)$

$\mu_k=E(X-E(X))^k$

因此方差是二阶中心矩。

协方差与相关系数

协方差的定义

$\mathrm{Cov}(X,Y)=E((X-EX)(Y-EY))=E(XY)-E(X)E(Y)$

证明与方差类似,此略

协方差的性质

$\mathrm{Cov}(X,X)=D(X)$

$\mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X)$

$\mathrm{Cov}(X,a)=0$

$\mathrm{Cov}(aX,bY)=ab\mathrm{Cov}(X,Y)$

$\mathrm{Cov}(X+Y,Z)=\mathrm{Cov}(X,Z)+\mathrm{Cov}(Y,Z)$

$D(X\pm Y)=D(X)+D(Y)\pm 2\mathrm{Cov}(X,Y)$

若$X$与$Y$独立,则$\mathrm{Cov}(X,Y)=0$

证明:显然由期望的性质可得。

由此可证若$X$与$Y$独立,$D(X \pm Y)=D(X)+D(Y)$

随机变量的标准化

$X^*=\frac{X-E(X)}{\sqrt{D(X)}}$

其期望为0,方差为1,没有量纲。

相关系数的定义

相关系数

显然$X,Y$不能为常数

相关系数需要计算五个期望:$E(X),E(Y),E(X^2),E(Y^2),E(XY)$

相关系数的性质

$0\le |{R(X,Y)}| \le 1$

当$R(X,Y)=1$时,$\exists t_0>0, P(Y=t_0 X)=1$,即$X,Y$正相关。

当$R(X,Y)=-1$时,$\exists t_0<0, P(Y=t_0 X)=1$,即$X,Y$负相关。

$R(X,Y)=0$表明$X,Y$不相关,是$X,Y$独立的必要条件。

如果要证明$X,Y$不独立,应选取合适的区间,使$P(X,Y)\ne P(X)P(Y)$

正态分布

标准正态分布

$\mathrm{N}(0,1)=\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},x \in \mathbb{R}$

偶函数,钟形曲线。

$\Phi(x)=\int_{-\infty}^x\varphi(x)\mathrm{d}x$

$\Phi(0)=\frac{1}{2}$

$\Phi(x)+\Phi(-x)=1$

考试算概率时经常用这两个性质,并且应保留$\Phi(x)$而不是$\Phi(-x)$作为答案(或查表)。

正态分布

因$\frac{X-\mu}{\sigma}\sim \mathrm{N}(0,1)$,则$X \sim \mathrm{N}(\mu, \sigma^2)$,故$F(x)=\Phi(\frac{x-\mu}{\sigma})$

求导可得

$\mu$关系到图象的左右平移(期望),$\sigma$关系到图象“尖”的程度(标准差)。

多个独立正态分布的线性组合还是正态分布。

特别的,如果它们都是$\mathrm{N}(\mu, \sigma^2)$,其平均值为

二维正态分布

特殊情况:

$(X,Y)\sim(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2)=\mathrm{N}(\mu_1, \sigma_1^2)\mathrm{N}(\mu_2, \sigma_2^2)$

一般情况(含相关系数):

$(X,Y)\sim(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;r)$

对二维正态分布而言,其边缘分布与条件分布是正态分布。同时,不相关与独立性是等价的。

自然指数分布族

常见分布中除了均匀分布均可化成这种形式。

其均值参数(期望$m$)为$\varphi’(\theta)$,方差函数为$\varphi^{(2)}(\theta)$

极限定理

切比雪夫不等式

大数律

随机变量序列${X_n}$,考虑均值$\overline{X}$,

,则${X_n}$服从大数律。

  • 切比雪夫大数律:

充要条件是随机变量的方差一致有界,即有常数$C$,使$D(X_k)\le C$ 即可满足符合大数律。

  • 独立同分布大数律:

只要$X_k$独立同分布,且$E(X_k)=\mu$,$D(X_k)=\sigma^2$即可保证符合大数律。

  • 伯努利大数律:

$X_k \sim \mathrm{B}(n,p)$,则

中心极限定理

$X_i$独立同分布,则 近似服从正态分布。

可得$Z$近似服从$\mathrm{N}(n\mu, n\sigma^2)$,$\overline{X}$近似服从$N(\mu, \frac{\sigma^2}{n})$

设$X \sim \mathrm{B}(n,p)$,若$Z_n=\Sigma_{i=1}^n X_i$

即$Z$近似服从$\mathrm{N}(np, npq)$

统计部分

常见分布

卡方分布——正态平方和

正态分布$X_i \sim \mathrm{N}(0,1)$的平方和。

$\chi^2=\Sigma_{i=1}^n X_i^2$服从自由度为$n$的$\chi^2$分布,即$\chi^2(n)$

$\chi^2(n)=\Gamma(\frac{n}{2}, \frac{1}{2})$,故$E(\chi^2)=n, D(\chi^2)=2n$

卡方分布满足可加性。

t分布——正态比一个数

分布与正态分布相似,但尾巴比正态分布更厚。

F分布——正态平方和相比

常见统计量

样本均值

样本方差

$S^2=\frac{1}{n-1} \Sigma_{i=1}^n (X_i-\overline{X})^2$(注意是n-1,不是n)

抽样分布定理

其一(已知方差)

样本来自$\mathrm{N}(\mu, \sigma^2)$,则

且$\overline{X}$与$\chi^2$独立。

其二(已知均值)

样本来自$\mathrm{N}(\mu, \sigma^2)$,则

其三(多个整体)

概统成功变成了文科

则,

其中

则,

点估计

矩估计

设样本均值与期望函数(也可以是平方期望)相等,把期望函数的参数$\theta$用期望值$m$表示,然后将$m$代入观测值即可。