线性模型:广义线性模型(GLMs)

1.假设

对于广义线性模型做出如下假设:

1.$Y|X;\Theta \sim ExponentialFamily(\eta)$

注意这里是$Y$服从指数族分布而不是$X$服从指数族分布。可以理解为$Y$是对象,$X$是$Y$的特征,在特征$X$描述下的$Y$服从参数为$\eta$的指数族分布。为什么参数为$\eta$呢?看看指数族分布的形式$P(Y|X;\Theta) = b(Y)\exp\left( \eta^\top T(Y) - A(\eta) \right)$。显然,里面只有一个自然参数$\eta$。

2.$\eta = \Theta ^\top X$

$Y$服从关于参数$\eta$的指数族分布,$X$是$Y$的特征,$Y$分布的属性是通过其特征$X$所描述的。现在我们假设$Y$的所有特征张成一个线性空间,则$Y$属性的可以被这些特征线性表出,即:

这就是广义线性模型中线性的由来。

3.$\hat T(Y) = \Bbb E[T(Y)|X]$

我们的目的就是为了估计出$Y$的分布,也就是要估计出指数族分布中的充分统计量$T(Y)$。显然,在特征$X$和参数$\Theta$下,我们需要对充分统计量进行点估计——矩估计,即:

上面三条假设,1表示了广义线性模型是基于最大熵模型上建模,2表示了特征空间是一个线性空间,3表示了我们建模的目的。

特别的是,当$T(Y) = Y$时,我们估计的就是$Y$的值,此时记:

称假设函数(hypothsis)或预测函数(preditc)。

2.线性回归

线性回归模型中假设误差$\epsilon_{(i)}\sim N(0,1)$,即$\hat Y-Y\sim N(0,1)\rightarrow\hat Y \sim N(\mu,1)$,其中$\mu = Y$(明显看出来是$Y$服从指数族分布,而不是$X$)。

Figure 1

将$N(0,\sigma^2)$写成指数族分布的形式:

根据广义线性模型的定义:

我们的目的是估计出充分统计量:

所以,我们的充分统计量的估计值为:

3.Logistic回归

现在考虑二分类问题,两个类别分别表示为1和0,概率则分别为$p$和$1-p$。显然,$Y \sim Bernoulli(p)$。写成指数族分布形式:

根据广义线性模型的定义:

我们的目的是估计出充分统计量:

所以,我们的充分统计量的估计值为:

Sigmoid函数就是这么来的。可以简单地理解为,Sigmoid函数把样本空间压缩成概率空间。

Figure 2

对$\Theta$做极大似然估计:

4.Softmax

考虑多分类的例子,这时候要采用多项式分布(multinomial distribution)

类别 1 2 $\cdots$ k
概率 $p_1$ $p_2$ $\cdots$ $p_k$

由于$\sum_{i=1}^k p_i = 1$,因此这个分布总共有$k-1$个参数:$p_1, p_2, \cdots, p_{k-1}$,最后一个参数$p_k = 1-\sum_{i=1}^{k-1}p_i$。

为充分描述多项式分布,我们定义其充分统计量 $T (y) \in R^{k−1}$:

现在引入指示函数(indicator function):$1\{True\} = 1, 1\{False\} = 0$。我们可以把$T(y)$ 和 $y$ 的关系写成 $T_i(y) = 1\{y = i\}$。在此基础上,就有了$E[T_i(y)] = P (y = i) = p_i$。于是,

其中:

这样咱们就把多项式方程作为一个指数族分布来写了出来。

为了方便起见,我们再定义 $\eta_k = \log (p_k/p_k) = 0$。对链接函数取反函数然后推导出响应函数,就得到了下面的等式:

这就说明了​,再把这个关系式带入上面第二条等式中得:

这个函数称为Softmax函数。由指数族分布的线性假设得:

这个适用于解决 $y \in{1, …, k}$ 的分类问题的模型,就叫做 Softmax 回归。 这种回归是对逻辑回归的一种扩展泛化。假设(hypothesis)$h$则如下所示:

也就是说,我们的假设函数会对每一个 $i = 1,…,k$ ,给出 $p (y = i|x; \theta)$ 概率的估计值。(虽然咱们在前面假设的这个 $h_\theta(x)$ 只有 $k-1$ 维,但很明显 $p (y = k|x; \theta)$ 可以通过用 $1$ 减去其他所有项目概率的和来得到,即$1− \sum^{k-1}_{i=1}p_i$)。

最后,咱们再来讲一下参数拟合。和我们之前对普通最小二乘线性回归和逻辑回归的原始推导类似,如果咱们有一个有 $m$ 个训练样本的训练集 ${(x^{(i)}, y^{(i)}); i = 1, …, m}$,然后要研究这个模型的参数 $\theta_i$ ,我们可以先写出其似然函数的对数:

要得到上面等式的第二行,要用到等式$(8)$中的设定 $p(y|x; \theta)$。现在就可以通过对 $l(\theta)$ 取最大值得到的 $\theta$ 而得到对参数的最大似然估计,使用的方法就可以用梯度上升法或者牛顿法了。

参考文献

1.《统计学习方法》李航

2.CS229 Lecture Notes

文章作者: 地瓜
文章链接: https://www.l-zhe.com/2019/08/13/线性模型:广义线性模型(GLMs)/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 人参地里的地瓜
打赏
  • 微信
  • 支付宝

评论