最小二乘回归-如何创建最佳拟合线?
最小二乘回归法定义
最小二乘回归法是一种回归分析的形式,它建立了因变量和自变量之间以及线性线之间的关系。这条线被称为“最佳拟合线”。
回归分析是一种统计方法,借助该方法,可以从另一个变量的已知值估计或预测一个变量的未知值。用于预测变量兴趣的变量称为自变量或解释变量,将要预测的变量称为因变量或解释变量。
让我们考虑两个变量x和y。将它们绘制在图形上,其中x值在x轴上,y值在y轴上。这些值由下图中的点表示。通过点画一条直线-称为最佳拟合线。
最小二乘回归的目的是确保通过提供的一组值绘制的线在这些值之间建立最紧密的关系。
最小二乘回归公式
最小二乘法下的回归线是使用以下公式计算的–
ŷ= a + bx在哪里,
- ŷ=因变量
- x =自变量
- a = y截距
- b =线的斜率
b线的斜率是使用以下公式计算的–
或者
Y截距,“ a”是使用以下公式计算的–
最小二乘回归中的最佳拟合线
最佳拟合线是通过散布在各个数据点上的最佳直线,这些数据点最能代表它们之间的关系。
让我们考虑下图,其中沿着x和y轴绘制一组数据。这些数据点使用蓝点表示。通过这些点绘制了三条线–绿色,红色和蓝色线。绿线穿过一个点,红线穿过三个数据点。但是,蓝线穿过四个数据点,并且与其他两条线相比,剩余点到蓝线的距离最小。
在上图中,蓝线表示最适合的线,因为它最接近所有值,并且线外的点到该线之间的距离最小(即,残差到最适合的线之间的距离–也称为残差平方和)。在其他两条线(橙色和绿色)中,到蓝线的残差之间的距离大于蓝线。
最小二乘法通过最小化残差与最佳拟合线之间的距离,从而在因变量和自变量之间提供了最紧密的关系,即,在这种方法下,残差平方和最小。因此,术语“最小二乘”。
最小二乘回归线示例
让我们在以下问题中应用这些公式–
您可以在此处下载此最小二乘回归Excel模板–最小二乘回归Excel模板范例#1
下表提供了有关公司技术人员的经验(多年)及其绩效等级的详细信息。使用这些值,估算具有20年经验的技术人员的性能等级。
解决方案 -
首先要计算最小二乘,我们将按以下方式计算Y截距(a)和直线的斜率(b)–
线(b)的斜率
- b = 6727 – [(80 * 648)/ 8] / 1018 – [(80)2/8]
- = 247/218
- = 1.13
Y轴截距(a)
- a = 648 –(1.13)(80)/ 8
- = 69.7
回归线的计算方法如下:
用20代替公式中x的值,
- ŷ= a + bx
- ŷ= 69.7 +(1.13)(20)
- ŷ= 92.3
具有20年经验的技术人员的性能等级估计为92.3。
范例#2
使用Excel的最小二乘回归方程
可以使用excel通过以下步骤来计算最小二乘回归方程–
- 在Excel中插入数据表。
- 使用数据点插入散点图。
- 在散点图中插入趋势线。
- 在趋势线选项下–选择线性趋势线,然后选择图表上的显示方程式。
- 给定的excel数据集的最小二乘回归方程式显示在图表上。
因此,针对给定的excel数据集计算了最小二乘回归方程。使用等式,可以进行预测和趋势分析。 Excel工具还提供了详细的回归计算。
好处
- 回归分析的最小二乘法最适合于预测模型和趋势分析。它最适合用于经济,金融和股票市场领域,在这些领域中,任何未来变量的值都可以借助现有变量及其之间的关系进行预测。
- 最小二乘法提供变量之间的最接近关系。在这种方法下,残差的平方和与最佳拟合线的差最小。
- 计算机制简单易用。
缺点
- 最小二乘方法依赖于在给定变量集之间建立最紧密的关系。计算机制对数据敏感,并且在任何异常值(异常数据)的情况下,结果可能会产生重大影响。
- 这种类型的计算最适合于线性模型。对于非线性方程,应用了更为详尽的计算机制。
结论
最小二乘法是用于预测模型和趋势分析的最常用方法之一。经过适当的计算,它可以提供最佳结果。