从基础做起
线性回归模型
3.1 线性基函数模型
3.1.1 最大似然与最小平方
总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
最小平方(最小二乘法):对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小。
;
;
3.3 贝叶斯线性回归
贝叶斯线性回归不仅可以解决极大似然估计中存在的过拟合的问题。
它对数据样本的利用率是100%,仅仅使用训练样本就可以有效而准确的确定模型的复杂度。
在极大似然估计线性回归中我们把参数看成是一个未知的固定值,而贝叶斯学派则把看成是一个随机变量。
线性回归模型是一组输入变量的基函数的线性组合,在数学上其形式如下:
这里
就是前面提到的基函数,总共的基函数的数目为个,如果定义的话,那个上面的式子就可以简单的表示为:
几者过程对比:
最小二乘法:是估计值与观测值之差的平方和最小;
最大似然:只是对似然的处理,概率乘积转概率密度乘积,取对数转加,求导得估计值;
贝叶斯线性回归: