频率派和贝叶斯派
  • 微积分和概率论的区别在于,微积分研究的是变量,而概率论研究的是随机变量。

1 假设

r.v.—random variable(随机变量)

i.i.d.—Independent and identically distributed(独立同分布)

2 频率派观点

频率派认为Xr.v.,但是对于一个特定的模型,参数$\theta$是常数,即$X\sim{P(X;\theta)}$。
频率派最常使用的方法是极大似然估计法MLE(Maximum Likelihood Estimation),基本思想是对于样本X,极大似然估计的思想是估计出$\hat\theta$,使得模型在$\hat\theta$下产生已知样本的概率最大,即:

极大似然估计法MLE(Maximum Likelihood Estimation)

假设$x_1, x_2, \dots, x_N$相互独立:

令$\mathcal{L(\theta)}=P(X|\theta)$称为似然函数。为方便对似然函数取对数,令$\mathcal{l(\theta)}=log\mathcal{L(\theta)}=\sum_{i=1}^N\mathop{log}p(x_i|\theta)$

指数族分布的似然函数必为严格的凸函数(Strict convex function),因此必存在唯一的极值点同时也是全局最值点。

3 贝叶斯派

贝叶斯派认为$X$,$\theta$都是$r.v.$,即$(X,\theta)\sim{P(X, \theta)}$,其中$\theta\sim{P(\theta)}$。
贝叶斯派的基本思想是

3.1 最大后验概率估计MAP(Maximum A Posterior)

$\because P(X,\theta) =P(\theta|X)P(X)$,其中P(x)是由样本确定的,与$\theta$无关,可以省略。
$\therefore P(X,\theta)\propto P(\theta|X) $

假设$x_1,x_2,\cdots,x_N$相互独立,则

最大后验概率估计的求解步骤:

  • 确定参数的先验分布以及似然函数
  • 确定参数的后验分布函数
  • 将后验分布函数转换为对数函数
  • 求对数函数的最大值(求导,解方程)

在最大后验概率估计中,$\theta$的估计值与$\theta$的先验分布有很大的关系。这也说明一个合理的先验概率假设是非常重要的。如果先验分布假设错误,则会导致估计的参数值偏离实际的参数值。一般假设先验概率$P(\theta)$服从高斯分布或者$\beta$分布。

注:二项分布参数的共轭先验是Beta分布,多项式分布参数的共轭先验是Dirichlet分布,指数分布参数的共轭先验是Gamma分布,⾼斯分布均值的共轭先验是另⼀个⾼斯分布,泊松分布的共轭先验是Gamma分布。

3.2 贝叶斯估计

贝叶斯估计是最大后验估计的进一步扩展,这里$P(x)$不能当作一个确定的数,而要通过似然概率和先验概率求出来。

从上面的公式中可以看出,贝叶斯估计的求解非常复杂,因此选择合适的先验分布就非常重要。然而,在大多数情况下,该积分过于复杂,不一定能求出解析解,此时可以通过求解数值解来代替(如MCMC,蒙特卡洛法等)。
贝叶斯估计要解决的不是如何估计参数,而是用来估计新测量数据出现的概率,对于新出现的数据$\tilde{x}$:

贝叶斯估计的求解步骤:

  • 确定参数的似然函数
  • 确定参数的先验分布,应是后验分布的共轭先验
  • 确定参数的后验分布函数
  • 根据贝叶斯公式求解参数的后验分布

4 机器学习模型分类

对于以上三种不同的思想,分别衍生出三种不同的模型:

  • 最大似然估计:判别模型

  • 最大后验概率:生成模型

  • 贝叶斯估计:概率图模型

4.1判别模型

判别模型是基于MLE的思想,针对数据的似然进行建模:

这个模型可以看作基于给定参数$\theta$的分布$F$,判断一个观测样本$x$的概率。例如,在分类问题中,可以求出$x$属于不同类的概率。显然,应该将$x$分类到概率最大的那一类。

这种求出似然概率后通过似然判断样本属性的模型称为判别模型(显然应该叫这个名字)。线性回归模型和逻辑回归模型就是典型的判别模型

4.1.2 生成模型

生成模型是基于MAP的思想,针对数据的联合概率进行建模:

这个模型可以看作是对是

文章作者: 地瓜
文章链接: https://www.l-zhe.com/2019/06/12/频率派和贝叶斯派/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 人参地里的地瓜
打赏
  • 微信
  • 支付宝

评论