PRML-绪论
update 2020/08/14
推荐几个不错的资料
- PRML英文09年版电子书 链接: https://pan.baidu.com/s/1fmae0ZDd5DNVP5wnBVOHOQ 提取码: 5md8
- PRML学习笔记(感觉写得挺好的)链接: https://pan.baidu.com/s/1bLZdnSebCam-bHbz5ujGJg 提取码: n8fs
- 哔哩哔哩上的视频课
- PRML
- 绪论
- 概率论
- 模型选择
- 维度灾难
- 决策论
- 信息论
- 绪论
定义
什么是泛化?
正确分类与训练集不同的数据的能力叫泛化。
什么叫特征提取?
输入向量变换到新的变量空间,使得在新的变量空间中模式识别问题期望能被更容易地解决。
什么是有监督学习(supervised learning)?
训练数据的样本包含输入向量和目标向量的应用
什么是无监督学习?
训练数据由一组输入向量组成,没有任何对应的目标值
常见的无监督学习问题:聚类、密度估计、数据可视化
什么是强化学习?
在给定条件下,找到合适的动作,使得奖励达到最大值
探索(exploration):系统尝试新类型的动作
开发(explotation):系统使用一直能产生较高奖励的动作
什么是分类问题?
为每个输入向量分配有限数量离散标签中的一个的问题
什么是回归问题?
输出由一个或多个变量组成
本书的三个重要工具:概率论、决策论、信息论
多项式曲线拟合
- 最小化误差函数使得模型曲线(多项式函数)拟合数据点,当误差函数是平方和误差时存在解析解
- 在贝叶斯模型中,参数的有效数量会自动根据数据集的规模调节,也就是过拟合问题可以被避免
- 但在目前,控制过拟合的方法是在误差函数中加入惩罚项,使得系数不会达到很大的值
- 二次正则项的一个特殊情况被叫做脊回归(ridge regression),神经网络中叫做权值衰减(weight decay)
本节讲述的内容较为直觉,后面会将这些问题形式化
概率论
这块需要进一步学习的知识有:贝叶斯定理、贝叶斯推断、贝叶斯概率
主要概念:
区分概率和似然
在统计学上,基于某些模型的参数(粗略地说,我们可以认为参数决定了模型),观测到某数据的概率称为概率;而已经观测到某数据,模型的参数取特定值的概率称为似然。
两个视角看贝叶斯定理
$$P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}$$
X和Y只表示两个随机变量
X,Y地位相同,这个公式实际问题中想解决“逆向概率”的问题,$P(Y|X)$这个概率可能不好观测(比如说考察癌症检测试剂的精确率,X表示试剂检测阳性,$Y_0$和$Y_1$分别表示是癌症或不是癌症;$P(X|Y_0)$和$P(X|Y_1)$非常好统计,拿一些癌症病人和正常人测下试剂就行,但是$P(Y|X)$不好统计,因为这要求我们需要从全人群中抽样并且需要知道每个人是否是癌症),利用贝叶斯定理就可以将问题转化为获取其他好拿到的概率。
贝叶斯推断视角
我们对于某个事件的估计可以用一个带参数的概率模型表示,存在一组观测数据,通过这组观测数据我们来更新我们的参数。使得我们使用概率模型在预测时能够兼顾先验概率与观测数据(证据)。
极大似然估计与最大后验概率估计
两者可用来进行概率模型参数估计,两者分别来自频率学派和贝叶斯学派,这两个派别主要是对概率的定义或理解不一致。
- MLE是频率学派(客观概率)的观点,概率学派认为概率模型参数ω是一个固定且未知的值,样本是随机的(样本是根据要估计的概率分布随机产生的,有点概率模型决定样本的意思),极大似然估计就是将参数ω估计为$argmax_{\omega} P(D|\omega)$,和频率学派的观点一致,样本是服从含参数ω的概率模型下随机产生的,因此参数ω最可能的取值下的概率模型产生该观测数据的概率也应该最高。估计的误差可以用自助法等方法计算。
- MAP是贝叶斯学派(主观概率)的观点,贝叶斯学派认为概率模型是具有不确定性的且应服从某个分布,因此可以简化为概率模型参数ω是一个随机变量,样本是固定的(样本只是提供信息帮助我们更新概率模型,而不是决定最终的概率,概率模型只是观测者对于可能性的主观估计);由于贝叶斯学派认为概率模型的参数服从的分布是与观察无关且已知的,因此MAP按照贝叶斯推断的过程进行计算,参数ω的估计应该同时考虑先验知识与观测数据。
Bayesian和Frequentist的缺点
Bayesian 常受的批评之一:prior distribution is often selected on the basis of mathematical
convenience rather than as a reflection of any prior beliefs。 例如常选择 conjugate prior。Frequentist 方法的缺点:Over-fitting problem can be understood as a general property of
maximum likelihood。
决策论
希望能在不确定性的情况下做出最优决策
最小化分类错误率
- 对于给定的输入向量$x$,选择后验概率最大的类别($argmax_i P(C_i|x)$)的决策会使错误分类率最小化
- 推导:先给出分类错误率的公式,每个输入向量的错误概率可以写成输入向量和某个类别的联合概率,再用乘法规则将联合概率展开,提出无关的输入向量概率;在剩下的后验概率中,用最大化后验概率放缩,得到的就是最小分类错误率
最小化期望损失
- 第一类错误(FN)、第二类错误(FP)
- 在决策时I型错误和II型错误的权重不一致,可以用损失函数重新描述目标,决策就是最小化损失函数,在给定数据下就是最小化期望损失
回归问题平方损失下的决策解释
平方损失最优决策$\hat y(x)$可以看作在$x$的条件下t的条件均值($\hat{y}(x) = E_t[t|x]=\int t \ p(t|x) dt$),书中给了两种推导方式(1. 平均损失最小,关于$y(x)$的梯度为0,这里用到了以前没学过的变分法; 2. 平方项中加减条件均值,带入平均损失函数中)
拒绝选项
- 若最大后验概率的选择的后验概率没有过给定的阈值,说明模型对给定的结果置信度不高,可以拒绝选项
决策流程
推断:学习后验概率,或者联合概率
决策:利用设计好的决策目标以及后验概率进行决策
生成式模型:直接对联合概率建模(朴素贝叶斯~本来目标是最小化后验概率,但是考虑到$P(x)$无关,实际argmax的是联合概率)
判别式模型:直接对后验概率建模
这里有个问题:为什么朴素贝叶斯是属于生成模型而不是判别模型?(见《统计学习方法》附录)
离群点检测:找到$P(x)$低的数据点,这些点预测准确率可能会比较低
回归问题的决策
闵可夫斯基损失函数:
损失函数为闵氏距离
q=2就是平方损失,平均损失最小的决策就是条件均值
q=1,平均损失最小的决策是条件中位数
$q \to 0$,对应的决策是条件众数
信息论
信息量与信息熵
信息量
对于一个随机变量x,当给出一个观察值时,我们接收到的信息量可以被看做是在学习x的值的时候的“惊讶程度”
“信息是用来消除随机不确定性的东西”
设计为概率的-log的原因(貌似也有证明它只能是对数形式):
- 信息量和概率值应该成负相关,当数据的越符合随机变量的概率分布,其信息量越小
- 当两个不相关随机变量的信息量,其概率是乘关系,其信息量应该是加关系,因此考虑log
信息量的单位bit,底数通常是2
信息熵
信息熵是随机变量的期望信息量,单位nat,底数是自然对数
$$H(x)=-\sum_xp(x)log_2(p(x))$$
信息熵也可以从最优编码的角度来解释,随机变量的概率表示这个信息出现的概率,而这时信息量代表着对应概率下随机变量的最优编码长度,熵代表了理论上对符合$p$分布的消息进行编码的最优编码的平均长度。(可证明)
熵家族
下面四个一起来讲,这四个主要是讨论两个随机变量之间关系的
互信息$I(X,Y)=H(X)+H(Y)-H(X,Y)$
解释:互信息代表了$X$中包含的有关于$Y$的信息,或者$Y$中包含的有关于$X$的信息
联合熵 $H(X,Y)=\sum_{x\in X,y\in Y} P(x,y) \mathbf{log}{\frac{1}{P(x,y)}}$
多个随机变量的总期望信息量,联合熵比其中任一个随机变量的信息熵要大,但是联合熵不大于两个随机变量的信息熵之和
条件熵$H(X|Y)=\sum_{x,y}p(x,y)\mathbf{log} \frac{1}{p(x|y)}$
条件熵要小于熵x(更多的信息,不确定性降低)
差异信息 Variation of Information $V(X,Y)$
$$V(X,Y)=H(X,Y)-I(X,Y)$$
这两个是度量两个分布的
相对熵$KL(p||q)$
相对熵也叫K-L散度,用来衡量两个分布的不相似程度,具体说是分布q相对与分布p的期望信息量之差
$$KL(p||q)=-\int log(\frac{q(x)}{p(x)})p(x)dx$$
交叉熵
若现在还有一种消息序列的概率分布满足p分布,但是它仍然使用q分布的最优编码方式,那么它的平均编码长度即为
$$CE(p||q)=\sum p(x) log\frac{1}{q(x)}$$
熵在机器学习理论中的应用
分类问题中的交叉熵损失
这个交叉熵损失可以从二项分布或者多项分布下的极大似然估计进行解释
还有一种考虑方式,模型训练的过程也就是拟合训练数据的过程对于训练数据$(x;y)\in D$来说我们的模型$F(x)$实际上就是要对y的分布进行预测,现在我们有真实分布q(也就是数据中的y)$y^\star$,模型推断得到的分布p,真实分布对应的最优编码长度就是$H(q)$,交叉熵 $D(p||q)=\sum_x p(x)log \frac{1}{q(x)}$ 尽可能小去逼近$H(q)$也就是将两个分布拉近。
总结
磨磨唧唧花了一个星期看个绪论,感觉还是挺有收获的,又加深了概率论相关知识的理解,还从概念上的决策、信息角度重新审视之前的一些概念,比如损失函数这个概念是怎么和概率中的东西联系在一起,平方误差在决策论中的解释等以前没注意到的东西。