【机器学习】059--统计推断的基本思想和分类

Posted by ShawnD on October 7, 2020

统计推断的根源和场景

\[p(\theta \mid x) = \frac{p(x \mid \theta)p(\theta)}{p(x)}\]

其中, $\theta$是模型的参数, $p(\theta)$是事先给定的参数的先验分布$p(\theta)$, $p(x \mid \theta)$是似然。 $p(x)$是观测变量的概率, 在某个给定的实验背景下, 它是一个常数, 可以通过积分运算$p(x) = \int_\theta p(x \mid \theta) p(\theta)d\theta$求得。

后验分布:推断过程的关注重点

基于上述贝叶斯框架, 实际上我们有下面两个新的概念:

  • 第一个是贝叶斯推断, 实际上就是利用贝叶斯框架, 把后验概率$p(\theta \mid x)$计算出来。
  • 第二个是贝叶斯决策, 指的是在已有的$N$个样本$X$的基础上, 求出现一个新增样本$\hat x$的概率: $p(\hat x\mid X)$, 那么这个概率简单地通过下面的转换关系就可以求得, 我们把模型的参数$\theta$引入进来当作一个变换的桥梁:
\[p(\hat x \mid X) = \int_\theta p(\hat x, \theta \mid X)d\theta = \int_\theta p(\hat x \mid \theta)p(\theta \mid X)d\theta\]

贝叶斯决策的关键环节, 也是要先获得后验分布$p(\theta \mid X)$。 而贝叶斯推断的式子$\int_\theta p(\hat x \mid \theta)p(\theta \mid X)d\theta$实际上$p(\hat x \mid \theta)$这个式子关于后验概率$p(\theta \mid X)$的期望。

精确推断和近似推断

在⼀些⾮常简单的情况下,后验分布是可以直接求出精确的解析解的,我们称之为精确推断⽅法,但是这种⽅法对参与⻉叶斯框架中的分布的要求很严格,要求其具备共轭特性,⽐如,⾼斯分布具备⾮常好的特性,⾼斯分布的联合分布、条件分布、边缘分布等都是⾼斯分布,因此如果参与推断的分布都是⾼斯分布的话,我们是可以通过公式直接计算出结果⾼斯分布的均值、⽅差参数的。

⽐如先验和似然都是⾼斯分布的情况下,后验分布也是⾼斯分布。

先验分布是 beta 分布,似然服从⼆项分布,得到的后验仍然是beta 分布。

什么是beta分布?: 指一组定义在$(0, 1)$区间的连续概率分布。

当满⾜这种情况的时候,结局是⾮常完美的,因为我们在已知后验分布类型的情况下,是可以直接计算出后验分布的参数。

但是毕竟这种情况还是少数,同时常常因为参数空间的维度和复杂度⾼,没有办法让我们通过直接计算求得后验的解析解, 因此我们常常是只能通过近似的⽅法,来得到后验分布或者分布期望的近似结果,这是另外⼀种分类,即:近似推断。

近似推断这个⼤类中,还分为两类具体⽅法,⼀种是确定性近似,也就是我们下⾯要提到的变分推断,另⼀种是随机近似, 是我们后⾯两讲内容中要着重介绍的 MCMC⽅法。

确定性近似:变分推断概述

这⾥我们重点介绍⼀下变分推断的核⼼思想,我们的⽬的是去找⼀个分布$Q(\theta)$去逼近⼀个没办法找到解析解的后验分布$p(\theta \mid X)$,变分推断之所以称之为确定性近似,是因为虽然结果不是精确的,是近似结果,但是它能拿出⼀个解析解的形式。

具体的思路过程是这样的。

我们令$X$是观测数据, $\theta$是参数。

\[p(X, \theta) = p(X)p(\theta \mid X) \Rightarrow p(X) = \frac{P(X, \theta)}{P(\theta \mid X)} \Rightarrow log~p(X) = log~p(X, \theta) - log~p(\theta \mid X)\]

这里我们引入用来近似目标后验分布$p(\theta \mid X)$的近似分布$q(\theta)$:

\[log~p(X) = (log~p(X, \theta) - log~q(\theta)) - (log~p(\theta \mid X) - log~q(\theta)) = log~\frac{p(X, \theta)}{q(\theta)} - log~\frac{p(\theta \mid X)}{q(\theta)}\]

对左右两边同时乘以$q(\theta)$并求积分:

\[左边 = \int_\theta log~p(X)q(\theta)d\theta = log~P(X) \int_\theta q(\theta) d\theta = log~p(X)\] \[\begin{aligned} 右边 & = \int_\theta q(\theta)log~\frac{p(X, \theta)}{q(\theta)}d\theta - \int_\theta q(\theta)log~\frac{p(\theta \mid X)}{q(\theta)}d\theta \\ & = \int_\theta q(\theta) log~\frac{p(X, \theta)}{q(\theta)}d\theta + \int_\theta q(\theta)log~\frac{q(\theta)}{p(\theta \mid X)}d\theta \end{aligned}\]

其中:

\[\int_\theta q(\theta) log~\frac{p(X, \theta)}{q(\theta)}d\theta\]

记作$L(q)$

\[\int_\theta q(\theta) log~\frac{q(\theta)}{p(\theta \mid X)}d\theta\]

这是KL散度的定义式, 它用来描述$q(\theta)$和$p(\theta \mid X)$两个分布之间的距离, 记作$KL(q | p)$, 从KL散度的基本性质: $KL(q | q) \geq 0$。

联立左右两边的式子:

\[log~p(X) = L(q) + KL(q \| p)\]

$log~p(X)$可以视作是与参数$\theta$无关的量, 当$X$固定时, $log~p(X)$的值就固定了, 由于$KL(q | p) \geq 0$, 因此$L(q)$取值的上限就是左侧的$log~p(X)$吗浴室,我们让$L(q)$取得最大,变相地使$KL(q | p) \Rightarrow 0$。

KL散度描述地使两个分布之间的距离, 当$KL(q | p) \Rightarrow 0$时,就代表着$q(\theta)$可以作为目标后验分布$p(\theta \mid X)$的一个近似了。