CANARYPWN'S NATÏVE BLOG

概率论与统计的速成指南

你被加强了,快上
Canarypwn
Jan 6, 2021
It takes 36 minutes to read this article.

Lecture 1: 课程简介

Lecture 2: 什么是样本

  • 所有可能加在一起就是样本空间 S 。 这里又分为离散的和连续的。${1,2,3,4}$这样就是离散的,而$(1,4)$这样就是连续的。从数学上就很容易看出来。此外还有有限和无限的区别。

  • 集合论画画图就很显然

  • 三大公理宛如常识:

ecwxip

  • Probability Laws for Assigning Probabilities: 几个中有几个,不就是分数的基本定义吗。
  • 所以做概率题就几步:
    1. 确定题目中的概率
    2. 确定几个(基本的)样本空间
    3. 确定它们的概率
    4. 通过各种操作算(各种各样的、其它的)的事件的概率

Lecture 3: 古老概率论

  • 计数原理:加一加,乘一乘
  • 有序且放回:放回——每次概率相同,有序——一个一个拿。所以是 $n^k$
    • 也可以说是n个球放到k个罐头中有多少种情况
  • 有序且不放回:不放回——拿一个少一个,有序——一个一个拿。所以是$n(n-1)(n-2) \dots (n-k+1)$
    • n种物品因此有$n!$种排列方式,例如你每拿一个东西就塞到队列里,那就是unique的。
      • 也就是n个不一样东西恰好放进n个档中的情况
  • 无序不放回: 有序且不放回是$n(n-1)(n-2) \dots (n-k+1)$。m个元素有$m!$种排列,那么为了抹掉它的序号,通过相除的方法平凡化。
    • $C_n^r = (\frac{n!}{r!(n-r)!})= \frac{A_n^r}{r!} $
    • 这叫做二项分布
    • 也可以理解为n个球放到r个档中
    • n个球中有r个黑球的情况
    • 情况A中发生情况B = $\frac{在A内B发生了 \cdot 在A外B的其它部分发生了}{情况A发生}$

Lecture 4: 条件概率&贝叶斯

  • afUGdJ
    • telegram-cloud-photo-size-5-6316699949911354363-y
    • 1是$\frac13$ 二是 $\frac12$ ,因为年长意味着独立事件。多出来的信息改变了概率。
  • 以及变形oSg3xx
  • 总概率定理:yTnSsU
    • 就是把分散在各个事件上的发生概率加起来
  • 贝叶斯定理:ZeypkT
    • 知道A发生后推断$B_j$发生的概率
  • 两个独立事件同时发生:两个事件的概率相乘
    • 也就是说要分清是不是独立事件以确定用什么公式解题

Lecture 5: 伯努利

  • 伯努利实验:抛硬币

    • 因此顺序的发生一系列事件的概率就是把每一次发生的概率乘起来
    • vFwdHe
    • 因为不知道是第几次成功/失败的,只知道成功的次数或者最终在哪里成功,所以需要乘一个二项式系数
    • 成功1次、2次、3次、n次的概率和为1。
  • 几何分布

    • ​ 在概率论统计学中,几何分布(英语:Geometric distribution)指的是以下两种离散型概率分布中的一种:

      • 伯努利试验中,得到一次成功所需要的试验次数XX的值域是{ 1, 2, 3, … }

      • 在得到第一次成功之前所经历的失败次数Y = X − 1。Y的值域是{ 0, 1, 2, 3, … }
      • 也就是按p的概率去试,每试一次成功的概率都会变(因为你之前失败过了)。就相当于你把之前的非气都聚集起来了,也就是$(1-p)^{k-1}$。所以它的概率质量函数是 $(1-p)^{k-1}p$
      • 累计分布函数就是拿1减去你的非气值。$1-(1-p)^{k}$。
      • 每次抽到的概率是p ,所以期望是 $\frac1p$
    • 用途:在重复多次的伯努利试验中,试验进行到某种结果出现第一次为止,此时的试验总次数服从几何分布,如:射击,首次击中目标时的次数。或者炉石抽卡。

Lecture 6:

  • 随机变量: 把不是数学中的东西用数字表示
    • 离散型随机变量[编辑]

      • 即在一定区间内变量取值为有限个,或数值可以一一列举出来。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等
    • 连续型随机变量[编辑]

      • 即在一定区间内变量取值有无限个,或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。
  • 概率质量函数: 发生X的概率,但是是离散的

  • 可能是离散的,也可能是离散的,因为y值代表着概率,所以取值在0,1之间

  • 只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量

  • 这样的随机变量可以用伯努利分布解

Lecture 7: 期望和方差

  • 期望 vFexkw
    • 期望不是“expected value” since it doen’t belongs to possible values (可能取值) 期望应该是和概率或者概率分布相关的函数值
    • 有些时候期望和平均值差不多
    • 那么稍有常识的人就会想到是pmf的微元自积的累加
    • lscFgq
    • 同时,它还是线性的
    • 0Fs1kg
  • 方差:
    • SqPJlA(用线性性质可证明)
      • 记住公示就能解很多题了
    • 运算性质
    • n4FIU7

Lecture 8: 条件概率

  • Conditional Probability Mass Function
    • 分类讨论,随机应变
  • 条件期望和条件方差
    • 换一下概率和值

Lecture 9: 各种分布

  • 看cheatsheet
  • 泊松分布
    • kAokJH
    • 给一个概率参数,柏松分布告诉你在某个(不连续)时间成功第一次发生这件事的概率
    • 和 $t$ 有关
  • 一些练习
    • 我们能仅基于pmf确定期望和方差
    • 期望值不一定是RV可以采用的可能值之一
    • E [X]对应于X的许多观测值中X的平均值。
    • RV的期望值不等于等于该RV的期望值的函数(RV stands for radom variable )
    • E [g(X)]可以从X的pmf计算得出。
    • Var [X]度量X的值通常与平均值相差多少。
    • 标准偏差与方差不具有相同的单位。
    • 均值和方差是随机变量的矩的示例。
    • 第n个矩不能等于第n个中心矩

Lecture 10: CDF & PDF

  • CDF:
    • vWyiS5
    • 显然就是把 PMF 的密度累加起来
    • MphXAM
    • ujp33X
    • eOUhvQ
  • PDF
    • 累计分布函数的微分
    • 可以大于1

Lecture 11:随机变量:期望

  • 期望
    • uai1e8
  • 方差
    • GISxaO
  • Exponential Random Variable
    • 指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。
    • pczSji
  • 高斯随机变量
    • 正态分布
  • Q-function
    • Q(x) =1− Φ(x) = P[X > x],where X is a Gaussian with m = 0 and σ = 1.
    • symmetry
    • c3qmxj

Lecture12: Matlab

———-期中考试分割线————-

Lecture13: 多变量

  • 联合随机分布
    • lW5MeG
    • 4zZxbB
    • HQWFHt
      • i或者j = N 的概率就相当于把那行或者那列的概率相加
      • 以此可以得出X或者Y的pmf
    • 非常interesting的一道题
      • mOHDiZ
      • zyL8wI

Lecture14:二元微积分

  • 简单复习
    • 微分
    • rXZtD2
    • 积分
    • E1spO5
  • PDF
    • 3hgM5y
    • yIWSaw
  • CDF
    • DAdbv5
    • 题目中通常会给出 xy 的约束条件,例如 y = 1 - x,那就很容易运用多变量积分来做。

Lecture15: 独立性,期望,联合矩

  • 定义:7zqh7y
    • 所以联合分布函数就是两个独立变量的概率相乘,也就是$p(x,y) = p(x)\cdotp(y)$
    • 相对的,如果有贝叶斯关系,那就用贝叶斯公式
    • 结合先前的结果:如果存在一对离散的RV,则它们是独立的并且只有联合pmf是边际pmf的乘积! (if and only if)
      • 这个结论对cdf和pmf都成立
  • 期望

    • $E[Z]=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f_{X, Y}(x, y) d x d y$
    • 离散时$E[Z]=\sum_{j} \sum_{k} g(j, k) p_{X, Y}(j, k)$
    • 已知X和Y的期望就加起来 the mean of the sum is the sum of the means.
  • Joint Moments

    • Joint moment: $E\left[X^{j} Y^{k}\right]=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x^{j} y^{k} f(x, y) d x d y \quad$ (the $j k$ th moment $)$
    • Central moment: $E\left[(X-E[X])^{j}(Y-E[Y])^{k}\right]$
    • 5bHWD7
  • 协方差

    • $\operatorname{COV}(X, Y)=E[(X-E[X])(Y-E[Y])]$
    • 表示了X,Y一起偏离中心值的表现
    • 当协方差是正的,XY一起偏离
    • 当协方差是负的,可能一个向正偏离一个向负
    • 可以理解为x,y函数的斜率一样的东西
    • 也是线性的
    • 常用公式
      • $\operatorname{COV}[X, Y]=E[X Y]-E[X] \cdot E[Y]$
    • 不相关性
    • X and Y are uncorrelated if and only if $ E[X Y]=E[X] E[Y] $
    • $ X $ and $ Y $ are uncorrelated if $ \operatorname{COV}[\mathrm{X}, \mathrm{Y}]=0 $
    • GJDBDf
  • 方差之和: ProofProof \(\begin{aligned} \operatorname{VAR}[Z] &=E\left[(Z-E[Z])^{2}\right] \\ &=E\left[(X+Y-E[X]-E[Y])^{2}\right] \\ &=E\left[((X-E[X])+(Y-E[Y]))^{2}\right] \\ &=E\left[(X-E[X])^{2}\right]+2 E[(X-E[X])(Y-E[Y])]+E\left[(Y-E[Y])^{2}\right] \\ &=\operatorname{VAR}[X]+2 \operatorname{COV}(X, Y)+\operatorname{VAR}[Y] \end{aligned}\)

  • 协方差系数

    • Definition: The correlation coefficient between $ X $ and $ Y $ is \(\rho_{X, Y}=\frac{\operatorname{COV}[X, Y]}{\sigma_{X} \sigma_{Y}}=\rho_{Y, X}\) where $ \sigma_{X}^{2}=\operatorname{VAR}(X) $ and $ \sigma_{Y}^{2}=\operatorname{VAR}(Y) $

    • 相关系数的大小≤1。

    • 有一道例题,很显然熟悉方差公式,标准差和方差的转换公式就做出来了nF7h2N

Lecture 16: 条件概率和期望

  • The conditional pmf of $ Y $ given $ X $ is

\(p_{Y \mid X}(k \mid j)=\frac{P[Y=k, X=j]}{P[X=j]}=\frac{p_{X, Y}(j, k)}{p_{X}(j)} \quad \text { if } p_{X}(j)>0\) and undefined otherwise

  • Define the conditional cdf of $ Y $ given $ X=k $ as: \(F_{Y \mid X}(y \mid k)=\frac{P[Y \leq y, X=k]}{P[X=k]} \mid \text { if } P[X=k]>0\) and as undefined otherwise.

  • The conditional pdf of $ Y $ given $ X=k $ is defined as: \(f_{Y \mid X}(y \mid k)=\frac{\partial}{\partial y} F_{Y \mid X}(y \mid k)\)
    • Interpretation: probability density of $ Y $ assuming that $ X=k $.
  • 条件cdf和pdf满足常规的所有属性 cdf 和 pdf。

  • 条件概率密度函数的性质们:

    • XgPuEV
  • 条件期望

    • ​ $ E[Y \mid x]=\int_{-\infty}^{\infty} y f_{Y \mid X}(y \mid x) d y $ if $ Y $ is continuous

    • $ E[Y \mid x]=\sum_{j} j \cdot p_{Y \mid X}(j \mid x) \quad $ if $ Y $ is discrete and integer valued

    • More generally, if $ g(Y) $ is a random variable, then \(E[g(Y) \mid x]=\int_{-\infty}^{\infty} g(y) f_{Y \mid X}(y \mid x) d y\)

    • yphSLn

  • 通过期望消除条件概率

    • $ E[g(Y)]=E[E[g(Y) \mid X]] $
  • 最小均方误差估计

    • Estimating a RV X by a constant c, i.e., finding c to minimize
    • $ \operatorname{MSE}(c)=E\left[(X-c)^{2}\right]=\int^{\infty}(x-c)^{2} f_{X}(x) d x $
    • $ c=E[X] $
    • 统计学信号处理中,最小均方误差(英语:Minimum mean-square error,缩写MMSE)估计是一种使均方误差(MSE)最小化的估计函数,其通常被称为最优估计

Lecture 17: 两个随机变量的一个函数

23OmRg

0GUpPW

注意离散和连续的区别

Lecture 18: 随机向量

多变量微积分练习

XAJGKT

  • 多项式分布

    • $ p_{X_{1}, X_{2}, \ldots, X_{m}}\left(k_{1}, k_{2}, \ldots, k_{m}\right)=\frac{n !}{k_{1} ! k_{2} ! \ldots . k_{m} !} p_{1}^{k_{1}} p_{2}^{k_{2}} \ldots p_{m}^{k_{m}} $ if $ k_{1}+k_{2}+\ldots+k_{m}=n $ and $ k_{i} \geq 0 $ for all $ i, $ and zero otherwise
  • 边际统计

    • Eliminate variables from a pdf (pmf) by integrating (summing) \(\begin{array}{l} f_{X_{1} X_{2} \ldots X_{n-1}}\left(x_{1}, x_{2}, \ldots, x_{n-1}\right)=\int_{-\infty}^{\infty} f_{X_{1} X_{2} \ldots X_{n}}\left(x_{1}, x_{2}, x_{3}, \ldots, x_{n}\right) d x_{n} \\ p_{X_{1} X_{2} \ldots X_{n-1}}\left(k_{1}, k_{2}, \ldots, k_{n-1}\right)=\sum_{k_{n}=-\infty}^{\infty} p_{X_{1} X_{2} \ldots X_{n}}\left(k_{1}, k_{2}, k_{3}, \ldots, k_{n}\right) \end{array}\)

    • Get marginal by successive integrations: \(\begin{array}{l} f_{X_{1}}\left(x_{1}\right)=\int_{-\infty}^{\infty} \ldots \int_{-\infty}^{\infty} f_{X_{1} X_{2} \ldots X_{n}}\left(x_{1}, x_{2}, x_{3}, \ldots, x_{n}\right) d x_{2} \ldots d x_{n} \\ p_{X_{1}}\left(k_{1}\right)=\sum_{k_{2}=-\infty}^{\infty} \ldots \sum_{k_{n}=-\infty}^{\infty} p_{X_{1} X_{2} \ldots X_{n}}\left(k_{1}, k_{2}, k_{3}, \ldots, k_{N}\right) \end{array}\)

  • 条件概率
    • Conditional pdf $ f_{X_{1} X_{2} \mid X_{3}}\left(x_{1}, x_{2} \mid x_{3}\right)=\frac{f_{X_{1} X_{2} X_{3}}\left(x_{1}, x_{2}, x_{3}\right)}{f_{X_{3}}\left(x_{3}\right)} $ $ f_{X_{1} \mid X_{2} X_{3}}\left(x_{1} \mid x_{2}, x_{3}\right)=\frac{f_{X_{1} X_{2} X_{3}}\left(x_{1}, x_{2}, x_{3}\right)}{f_{X_{2} X_{3}}\left(x_{2}, x_{3}\right)} $
    • Conditional $ \mathrm{pmf} $ $ p_{X_{1} X_{2} \mid X_{3}}\left(k_{1}, k_{2} \mid k_{3}\right)=\frac{p_{X_{1} X_{2} X_{3}}\left(k_{1}, k_{2}, k_{3}\right)}{p_{X_{3}}\left(k_{3}\right)} $ $ p_{X_{1} \mid X_{2} X_{3}}\left(k_{1} \mid k_{2}, k_{3}\right)=\frac{p_{X_{1} X_{2} X_{3}}\left(k_{1}, k_{2}, k_{3}\right)}{p_{X_{2} X_{3}}\left(k_{2}, k_{3}\right)} $
    • 乘法法则
      • $ p_{X_{1} X_{2} X_{3}}\left(k_{1}, k_{2}, k_{3}\right)=p_{X_{1} \mid X_{2} X_{3}}\left(k_{1} \mid k_{2}, k_{3}\right) p_{X_{2} \mid X_{3}}\left(k_{2} \mid k_{3}\right) p_{X_{3}}\left(k_{3}\right) $
  • 独立与期望
    • J7sUwS

Lecture 19: 高斯随机变量

  • 之前写过

Lecture 20: 大数定理

  • 随机变量的和

    • ​ $ E\left[\sum_{j} X_{j}\right]=\sum_{j} E\left[X_{j}\right] $
    • $ \operatorname{VAR}\left(\sum_{j=1}^{n} X_{j}\right)=\sum_{j=1}^{n} \operatorname{VAR}\left(X_{j}\right)+\sum_{j=1}^{n} \sum_{k \neq j} \operatorname{COV}\left(X_{j}, X_{k}\right) $
    • $ \operatorname{VAR}(X+Y)=\operatorname{VAR}(X)+\operatorname{VAR}(Y)+2 \operatorname{COV}(X, Y) $
    • $ \operatorname{VAR}\left(\sum_{j=1}^{n} X_{j}\right)=\sum_{j=1}^{n} \operatorname{VAR}\left(X_{j}\right) $
  • 样本均值

    • Let $ X_{1}, X_{2}, \ldots ., X_{n} $ be $ n $ independent repeated measurements of $ X $ and define the sample mean as
    • $ M_{n}=\frac{1}{n} \sum_{j=1}^{n} X_{j} $
    • 样本均值是无偏的
      • $ Y $ is said to be $ \underline{\text { unbiased }} $ if $ \mathrm{E}[Y]=c $
      • Suppose $ Y $ (a random variable) is an estimate of a constant $ c $. Typically, $ Y $ is some function of a set of measurements.
      • The sample mean is an unbiased estimator of $ m=\mathrm{E}\left[X_{i}\right] $
    • 样本均值方差随n减小
  • 常用不等式

    • 马尔可夫不等式

      • $ P[X \geq a] \leq \frac{E[X]}{a} $
      • agirYC
      • 弱边界:意思是不准
    • 切比雪夫不等式

      • Let $ X $ be a random variable with mean $ m $ and variance $ \sigma^{2} . $ The Chebyshev Inequality states that for any $ a>0 $ \(P[\mid X-m \geq a] \leq \frac{\sigma^{2}}{a^{2}}=\left(\frac{\sigma}{a}\right)^{2}\)

      • In other words, for any a large enough (compared the standard deviation), the probability that X is farther than a from the mean is negligible
      • XHCwgL
  • 弱大数定理

    • Let $ X_{1}, X_{2}, \ldots $ be a sequence of i.i.d. random variables with finite mean $ m $. For any $ \varepsilon>0 $ \(\lim _{n \rightarrow \infty} P\left[\left|M_{n}-m\right|<\varepsilon\right]=1\)
  • 强大数定理

    • Let $ X_{1}, X_{2}, \ldots . $ be a sequence of i.i.d. random variables with finite mean $ \mu $ and finite variance, then \(P\left[\lim _{n \rightarrow \infty} M_{n}=\mu\right]=1\)
  • 弱定律说,通过选择足够的测量值n均值很有可能接近真实均值(在ε内)。
  • 但是,它不能确保进行额外的测量样本均值更接近于任何特定序列的真实均值测量。
  • 相反,强法则说,概率为1的每个序列样本均值计算将最终接近并保持在µ附近
  • 统计规律性和收敛性
    • 在第一章中,我们注意到我们观察了许多统计规律 物理现象,即多次重复获得的平均值 实验一致地产生大约相同的值。
    • 基于此观察,我们将相对频率的属性用于 为概率论定义一组公理
    • 现在,我们走了一个完整的圈子,表明该理论预测了观察到的统计规律性。例如,事件的相对频率应 收敛到该事件的可能性
    • 理论预测和观察到的行为之间的这种一致性 是概率论如此有用的原因之一

Lecture 21: 中心极限定理

  • 心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛正态分布
    • Central Limit Theorem: $ \lim {n \rightarrow \infty} P\left[Z{n}<z\right]=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{z} e^{\frac{-x^{2}}{2}} d x $ In other words, the distribution of $ Z_{n} $ approaches the distribution of a Gaussian with zero mean and unit variance

Lecture 22: 随机过程

Definition: A random process or stochastic process maps a probability space $ S $ to a set of functions, $ X(t, \xi) $

Lecture 23

  • 均值和方差
    • 时域
  • 相关和协方差函数
    • 2uMqa8
  • 多个随机过程

Lecture 24: 离散时间随机过程

  • 随机过程和

    • Definition: A sum process $ S_{n} $ is obtained by taking the sum of all past values of an i.i.d. random process $ X_{n} $, i.e. \(S_{n}=\sum_{i=1}^{n} X_{i}=X_{1}+X_{2}+\ldots+X_{n}\)
  • ISI Processes

    • DXD4TV
    • 3hhxjF
    • The mean and variance of ISI processes grow linearly
    • dRvn8B
    • $ C_{S}(m, n)=\sigma^{2} \min (m, n) $

Lecture 25: Continuous Time I.S.I. Random Processes

  • Poisson Random Process
  • Additional Random Processes (FYI)

Lecture 26: 随机过程2

  • Stationary Random Processes
  • Wide Sense Stationary (WSS) Random Processes

Lecture 27: 统计

Summary

没救了,我显然的要挂科了

Files