deep learning

花书Chapter 3-概率与信息论

1,160 次访问 2022-04-24

simi

引言

从题目也可以看出本章主要介绍的是概率论的相关知识，概率论在机器学习分类和回归的相关判别中有很大的应用，本章就来看看概率论的相关知识吧！

正文

随机变量和概率分布

随机变量：取值任意
- 离散型：有限多取值
- 连续性：无限多取值
概率分布
- 离散型：概率质量函数
1. 单变量
  P(X=x1,...xn)=...
2. 联合概率分布
  P(x = x; y = y)
- 连续性: 概率密度函数p要满足以下条件
1. p 的定义域必须是x 所有可能状态的集合。
3. $\int p(x)dx=1$
  我们可以对概率密度函数求积分来获得点集的真实概率质量

边缘概率

我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。

有变量x和y，我们知道联合概率P(x,y)，可以根据以下法则求P(x):

通常每行表示不同的x值，每列表示不同的y值

条件概率

在X=x的情况下,Y=y的概率可表示为：

链式法则
任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：

如:

独立和条件独立

相互独立
条件独立

期望、方差和协方差

期望：线性的
- 离散型
- 连续型
方差：平方型
协方差
下面介绍一下协方差矩阵的求法：
给定一组样本向量x1,x2,...xn，每个向量都是d维的，其中:
$x_i=[x_,x_,...x_]$，
假设给定样本(1,2,3),(3,1,1)，可以按照以下步骤求解协方差矩阵：

生成矩阵X
注意这里每行代表一个样本（要看清给定向量有没有转置符号，避免行列弄反）
求每个维度均值
X每一列减去均值

其中
计算协方差矩阵

其中m为向量个数

常用概率分布

Bernouli分布

单个二值随机变量的分布。它由单个参数$\phi \in [0,1]$控制，ϕ 给出了随机变量等于1 的概率。它具有如下的一些性质:

MultiBernouli分布

是指在具有k 个不同状态的单个离散型随机变量上的分布,Multinoulli 分布由向量$p\in[0,1]^$参数化,其中每一个分量$p_i$表示第i 个状态的概率

高斯分布

一维

均值: $\mu$
方差: $\sigma^2$
一种更高效的参数化分布的方式是使用参数$\beta \in(0,+\infty)$，来控制分布的精度（precision）(或方差的倒数)

高斯分布在实际中具有很广泛运用，体现在：

很多建模实际情况贴近正太分布
由中心极限定理说明很多独立随机变量的和近似服从正态分布

多维

多维正态分布参数是正定对称矩阵，参数$\mu$仍然表示分布的均值，只不过现在是向量值。参数$\sum$给出了分布的协方差矩阵。我们可以使用一个精度矩阵进行替代方差:

指数分布和Laplace分布

指数分布

指示函数$1_{x\ge0}$来使得当x 取负值时的概率为零
Laplace分布

Dirac分布和经验分布

Dirac分布：
经验分布:

混合分布

常用函数

sigmoid函数

softplus函数

关系

这两个函数在各种运算中都存在紧密联系：

$\sigma^{-1}$也称为分对数

贝叶斯规则

信息论

一个事件发生概率越大，包含有用信息越小，熵越小

自信息

I(x) 单位是奈特（nats）。一奈特是以$\frac{1}$的概率观测到一个事件时获得的信息量,使用底数为2 的对数，单位是比特（bit）或者香农

熵

用H(x)表示：

KL散度

对同一个随机变量x有两个不同分布P(x)和Q(x)，可以使用KL散度来衡量分布差异:

$D_=0$表示P和Q分布相同，但$D_(P|Q)\neq D_(Q|P)$

交叉熵

定义：把来自一个分布q的消息使用另一个分布p的最佳代码传达的平均消息长度
计算：

每日一语

我想拿快递！！

© 本文著作权归作者所有，转载前请务必署名