PRML-概率分布
参数估计
少量可调节的参数控制了整个概率分布
共轭分布
将以前学的MLE改为MAP进行参数估计,可以加入先验知识帮助估计参数。
用MAP进行参数估计涉及到先验概率与后验概率分布形式是否一致的问题。当分布形式一致时,若出现新的观测数据,后验概率可以扮演先验概率,并且数学形式仍一致。
参数估计时后验概率分布与先验概率分布的形式相同
似然函数 | 共轭分布 |
---|---|
二项分布 | Beta分布 |
多项式分布 | Dirichlet分布 |
Gaussian , Given variance, mean unknown | 高斯分布 |
Gaussian, Given mean, variance unknown | Gamma 分布 |
Gaussian, both mean and variance unknown | Gaussian-Gamma分布 |
二项分布&Beta分布
$$
Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\cdot \Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}
$$
Gamma函数
这里的Gamma函数主要是通过算归一化推导出的
多项式分布&Dirichlet分布
可以看作二项分布的推广
迪利克雷分布

高斯分布
和前面介绍的两个共轭分布不同,前面两个的观测数据是离散的,而现在要解决连续值的观测数据;另外,高斯分布的参数量也比前面两个要大,高斯分布的参数量的规模是N^2的。
不过他们的共同点是这些分布都是观测结果的指数形式,后面会归纳这一类分布族(指数族分布)
一元高斯分布

设计:
- 归一化
- 关于期望分布对称(平方)
- 共轭性质(指数)
多元高斯分布

单数据点马氏距离的平方(1. 尺度无关 2. 主成分空间各维度独立)
$$
\Delta^2=(x-\mu)^T\Sigma^-1(x-\mu)
$$
对于协方差矩阵(实对称矩阵),可以找出其单位正交的特征向量,并且协方差矩阵还可以写成下述形式:

因此,Gaussian Distribution的指数部分可以改写成


高斯概率分布公式分母部分的行列式可以改写

如此,整个公式改写为

y表示主成分空间中的量,其各个变量之间是独立的,整体的概率分布可以写成单个概率分布的乘积
也可以证明多元高斯分布的一些性质:
- 积分为1
- 期望与协方差
高斯分布存在的问题:
- 参数量大,协方差矩阵,估计和计算都比较麻烦:解决方法是限制协方差矩阵的形式
- unimodal(单峰):解决方法是引入隐变量,构造高斯混合模型
条件高斯分布&边缘高斯分布

仍旧是考虑两个多元变量的关系,比如两个多元变量假定服从线性关系
$$
y=Ax+b
$$
而且$p(x)$和$p(y|x)$又已知,可表示为:

由此可以求出y的分布以及x的条件分布

贝叶斯概率下的高斯分布参数估计
这里以一元的高斯分布解释

注意方差倒数(精度)在加入观测前后的变化,具有加和的性质,也就是观测数据越多,精度越大,方差是恒递减的。
指数族分布
指数族分布有:高斯分布、伯努利分布、二项分布、泊松分布、beta分布、Dirichlet分布、gamma分布等
分布族形式
$$P(x|\eta)=h(x)e^{\eta^{T} \Phi(c)-A(\eta)}$$
$A(\eta)$:log partition function(log配分函数:主要是做归一化的)
$\Phi(x)$:充分统计量(统计量:对于样本的函数),充分表示具有完整表达样本信息来进行参数估计
共轭
指数族分布一般都具有共轭的性质
最大熵原理(无信息先验)
对未知的参数假定分布等可能(熵值最大)
logistic sigmoid & softmax
对于伯努利分布,可以写成指数族分布的通用形式
$$
P(x|\mu)=(1-\mu)\exp(ln(\frac{\mu}{1-\mu})x)
$$
做变量替换$\eta=ln(\frac{\mu}{1-\mu})$
$$
p(x|\mu)=\frac{1}{1+exp(-\eta)}\exp(\eta x)
$$
可以看到配分函数就是logistic函数
同样考察多项式分布,其配分函数为softmax函数
非参数化方法
form of distribution typically depends on the size of the data set. Such models still contain parameters, but control the model complexity rather than the form of the distribution.
- 直方图
- 核密度估计
- 近邻方法