100次浏览 发布时间:2024-09-02 10:20:30
二乘其实是指平方的意思,为什么用平方呢?
因为平方可以消除误差正负方向上的差异,单纯的只比较长度。
另一种通俗的说法叫距离(学术一点叫欧式距离),距离不分上下、左右,只有大小,所以可以用来衡量目标与估计的所有方向偏差累积。
最小二乘法(Least Squares Method)是用来求解过度定参数模型的一种方法。它是找出一个函数,使得这个函数代表的数据点与实际观测的数据点之间的差的平方和最小。
最小二乘法的优点是:
1. 当样本量较大时,它可以获得较为准确的统计参数估计。
2. 它具有线性和非偏性的特点,能够得到统一的最优解。
3. 该方法易于理解和实现。
但是,最小二乘法也有一些局限性,当离群点较多时,容易产生较大误差。同时,它要求自变量的随机误差服从正态分布。
如上图所示:蓝点是真实数据,黄点是每个真实数据的估计值,红线的长短即代表真实与估计距离,目标就是找到一条直线(模型)使得所有红线累和最短,推广到多维空间,就是找到一个超平面,而这个超平面是有数学公式解的!
之前我们提到最小二乘法的几何解释就是所有点(观测数据)到直线的距离(y的差值)的差的平方和,其实我们还可以换一种角度来看,把看成是p个n维空间的向量(每个都对应不同的方向),而不是之前n个p维的向量
也就是说,我们要找到一个并且使到上面的距离最小(误差距离最低)即−,而这个最小距离的直线方向和中的每个都是垂直的,所以点积为0:
最小二乘法 通用数学公式解
误差方程为:
其最优解为:
其中X由m*n样本输入矩阵:
y为m×1列向量,一般称为标签, 对应于简单函数,其实就是指函数值f(x)。
w为n×1 列向量,就是待求的拟和权重参数。
最小二乘法有很广泛的应用,主要包括:
相关文章