线性模型:线性回归(Linear Regression)

线性模型的线性并不是因为模型是线性函数,而是指假设模型中的N个特征张成一个N维的线性空间

1. 线性回归的模型假设

第$i$个对象的模型表示为$h^{(i)}(x)$,特征为$x^{(i)}$,对应的参数为$\theta$,则:

2. 线性回归解释

2.1 概率解释

随机噪声:

假设$\epsilon_{(i)}\sim N(0,\sigma^2)$,即$p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}}\exp (-\frac{(\epsilon^{(i)})^2}{2\sigma^2})$,则:

Figure 1

对$\theta$做极大似然估计得:

显然,要使得$\mathcal{l(\theta)}$取得最大值,只需要令:

定义Loss Function:

称为最小均方误差(Mean Square Error—MSE)损失函数。为方便后续计算操作,也可写成:

或:

显然,最小均方差这三种写法是等价的。

2.2 几何解释

  1. 样本点与预测值之间的欧式距离(二阶范数)之和取最小值。

Figure 2

  1. $y^{(i)}-\theta^{\top} x^{(i)}$表示向量$y$与$x_1,x_2,\cdots,x_p$所张成的p维空间的距离向量。现在目标就是要使得向量$y$尽可能能通过$x_1,x_2,\cdots,x_p$空间线性表出,因此,要使得距离向量的模尽可能的小,即:

Figure 3

3. 线性回归求解

3.1 Normal Equation(正规方程)

为求解$J(\theta)$最大值,最直观的方法就是$J(\theta)$对$\theta$求导,然后取导数为0的点进行验证。

令:

则:

求解得:

线性回归的这种解析解形式被称为Normal Equation。

3.2 L1 & L2 Regularization(L1和L2正则化)

Normal Equation并不是美好的,显然假设和求解过程中并没有说明$X^\top X$一定可逆,事实上大部分情况下是不可逆的。是什么导致这种情况的发生的呢?我们分析一下:

1.$N < p+1$:

由于$r(X) \le \min(N, p+1)$,因此$r(X) < N$,$X^\top X$不可逆。这种不可逆是由于样本数量过少而特征维度过高导致的。要防止这种情况出现,需要加大样本数量或者降低特征维度。

2.$N \ge p+1$:

在这种情况下,若$r(X)<p+1$,表示$X$的列向量存在线性相关性。出现这种情况原因主要有两种:

  1. 样本特征之间存在多重共线性(即存在冗余特征,导致n个特征线性相关,无法张成n为线性空间)
  2. 样本数量不足,存在偶然性,导致对$\theta$的估计产生偏差。

为解决这两个问题,分别提出两种正则化方法。

3.2.1 L1 Regularization(LASSO)

为解决特征之间的多重共线性,最直接的想法就是限制特征的个数,选择最重要的特征。这个过程可表示为多目标优化问题:

其中$||\theta||_0$表示$\theta$的0-范数,即$\theta$中非0元素的个数。

根据优化理论:

其中:

这种方法应该成为L0 Regularization(L0正则化)。但是,这样就成了一个组合优化问题,属于NP-Hard问题,求解困难。于是,考虑采用1-范数代替0-范数(L1是L0的最优凸近似,事实上n阶范数正则化只有当$n > 0$才能保证函数的凸性(Convexity),当$n = 0$时,函数是非凸的(Non-Convex))。

于是,优化函数修改为:

则:

其中:

L1 Regularization又称为LASSO(Least Absolute Shrinkage and Selection Operator),从名字中可得知,这是一种压缩回归系数的估计方法。

LASSO的MAP推导

Laplace分布:

在概率论与统计学中,拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布。

如果随机变量的概率密度函数为:

那么它就是拉普拉斯分布。记为:

其中,$\mu$是位置参数,$b>0$是尺度参数。

Figure 4

与正态分布有一些差别。在均值处变化的相当迅速。数字特征如下:

LASSO也可以通过先验概率是Laplace分布的MAP推导出来。

假设$\theta \sim Laplace(0, b)$:

则:

令$\lambda = \frac{2\sigma^2}{b}$则Loss Function为:

LASSO的理解:

下图中,红色曲线代表$J(\theta)$的等值线,左图的蓝色区域表示$||\theta||_1$,右图的蓝色区域表示$||\theta||_2$。

Figure 5

要满足$(12)$式的约束,就要取$J(\theta)$与蓝色区域的相接处。$||\theta||_1$ 图形是一个正方形,$J(\theta)$与图形测地线处的切点可以一定范围内转动,因此对于$J(\theta)$的约束较弱,容易在交点处产生解。若解产生在$\theta_1$测地线交点处,则$\theta_2=0$,其所对应的维度无效,实现降维。

$||\theta||_2$图形是一个圆,$J(\theta)$与其接触面要满足相切的条件,对于$J(\theta)$的约束更强。因此$J(\theta)$与 $||\theta||_2$图形的切点难以取到测地线处,因此无法实现降维。

3.2.2 L2 Regularization(Ridge)

对于样本数量不足,存在偶然性,导致对$\theta$的估计产生偏差的问题,究其本质是因为在求解Loss Function时,采用的是频率派的MLE。这种方法只认为$x$是随机变量,只针对似然概率求最大值,而并没有考虑到先验概率$P(\theta)$的分布。如果样本数量足够多,根据大数定理$P(\theta)$会依概率收敛到$\theta$的真实概率。但样本点过少难免会存在偶然性,就会产生偏差(例如:丢硬币10次均是正面,MLE估计正面朝上的概率是100%,但这显然只是小样本的偶然事件)。

为解决这个问题,需考虑先验概率,采用贝叶斯派的MAP估计。不失一般性的假设先验概率服从均值为0的正态分布,即$\theta \sim N(0, \sigma_0 ^2) $:

则:

令$\lambda = \frac{\sigma^2}{\sigma_0^2}$,则:

L2正则化也可以表示成优化形式:

求解后对应的正规方程为:

其中$I$是单位矩阵。

随着$\lambda$的增大,$\Theta$中各个$\theta^{(i)}$的绝对值不断减小,相较于MLE估计的$\theta$值的偏差也越来越大。当$\lambda \rightarrow +\infty$时$\theta \rightarrow 0$。显然,随着$\lambda$的变化,$\theta$的图形形成一个深谷,被称为岭。$\theta$随$\lambda$变化的轨迹,就称为岭迹。因此,L2正则化又称为岭回归(Ridge Regression)。

相较于最小二乘回归,岭回归损失了无偏性,来换取高的数值稳定性,从而得到较高的计算精度。

3.2.3 弹性网络回归(Elastic Net Regression)

弹性网络是一种使用 L1,L2范数作为先验正则项训练的线性回归模型.这种组合允许学习到一个只有少量参数是非零稀疏的模型,就像 Lasso一样,但是它仍然保持一些像Ridge的正则性质。我们可利用 l1_ratio 参数控制L1和L2的凸组合。弹性网络是一不断叠代的方法。

弹性网络最妙的地方是它永远可以产生有效解。由于它不会产生交叉的路径,所以产生的解都相当不错。弹性网络在很多特征互相联系的情况下是非常有用的。Lasso 很可能只随机考虑这些特征中的一个,而弹性网络更倾向于选择两个。 在实践中,Lasso 和 Ridge 之间权衡的一个优势是它允许在循环过程(Under rotate)中继承 Ridge 的稳定性。

弹性网络的Loss Function是:

(这个模型详细推导待补充)

3.2.4 总结

1.若样本数量很大,需要对特征空间进行降维则使用L1正则化。

2.若样本数量不大,则可以考虑采用L2正则化。

3.如果不确定问题所在,可以考虑使用弹性网络回归。

4. 本节参考文献

Pattern Recognition and Machine Learning

The Elements of Statistical Learning(2nd)

部分解释来源于CSDN博客

文章作者: 地瓜
文章链接: https://www.l-zhe.com/2019/06/22/线性模型:线性回归(Linear Regression)/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 人参地里的地瓜
打赏
  • 微信
  • 支付宝

评论