13问答网 > 统计学ols方法的原理

统计学ols方法的原理

2025-04-24 22:06:35

推荐回答（2个）

回答1：

普通最小二乘法（OLS）方法的原理是：

利用最小二乘法可以简便地求得未知的数据，并使得所选择的回归模型应该使所有观察值的残差平方和达到最小。具体验证如下：

样本回归模型：

其中ei为样本（Xi,Yi）的误差。

平方损失函数：

则通过Q最小确定这条直线，即确定β0和β1，把它们看作是Q的函数，就变成了一个求极值的问题，可以通过求导数得到。求Q对两个待估参数的偏导数：

根据数学知识我们知道，函数的极值点为偏导为0的点。

解得：

这就是最小二乘法的解法，就是求得平方损失函数的极值点。

扩展资料

最小二乘法来源于19世纪意大利天文学家朱赛普·皮亚齐的一次发现，后由勒让德或高斯发明。

1801年，意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，但是根据大多数人计算的结果来寻找谷神星都没有结果。

时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。

法国科学家勒让德于1806年独立发明“最小二乘法”，但因不为世人所知而默默无闻。

勒让德曾与高斯为谁最早创立最小二乘法原理发生争执。

1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，因此被称为高斯-马尔可夫定理。

参考资料来源：百度百科-最小二乘法

回答2：

不知道下面的图能不能看清楚，是Andy Field 第三版教材 203 页解释回归/osl 的一个图。ols 全称ordinary least squares，是回归分析（regression analysis）最根本的一个形式（算是ordinary代表的意思），结合下面的图解释下lease 和 squares 这两个词。（抱歉我的统计是英文学的，所以有些地方可能中文对的不好）

最简单的回归模型（model，就是 IV，可以是一个或者多个）包括（1）一个自变量(independent variable，IV) (横轴）和（2）一个因变量 (dependent variable，DV) (纵轴)。下面散点图中的数据点是实际DV的值（observed value），图中的线就是预测模型。左图中的一条横线（表示IV和DV没有关系）是平均值模型，也是OSL/回归默认设定的零模型（zero model），也就是不含任何IV的情况下只用平均值可以如何预测DV。中间图中的斜线是IV模型，也就是需要验证的模型（图中的关系很明显是线性关系 linear relationship）。右图中的两条交叉线是IV模型和零模型的比较，看IV模型是否能够在统计上显著地比零模型更多预测DV。这就是osl的基本原理。

具体一点就要涉及上图下半部分的文字框和一点公式了。先说osl里的 “squares”。无论是左图零模型用平均值预测，还是中间图用IV预测，都是计算出每个数据点和那条线之间的距离，也就是预测值（predicted value）与实际值（observed value）的差距（即误差，error），运算上用减法表示。零模型里就是用每一个实际DV值减去平均值（左图标出的每一个点到平均线的距离），IV模型就是实际值减去IV预测的DV值。这样计算得出的差显然有正有负，如果直接加到一起就会互相抵消。所以，解决的方法就是把每一个差都平方后再加到一起，就是sum of squares（也叫variance，方差）。这就是osl里面 “square” 是的由来。左图下面文字框红色圈起来的“SSt” 表示全部可预测的方差（因为不含任何IV），total sum of squares，下标字母T是total的缩写。

下面说 osl 里的 “least”。中间图里的线是IV模型，这条线叫做 line of best fit，也就是所有线里面误差（residual，就是error）最小，即实际值和预测值距离最短的那条线。这就是”least“ 的由来。红色圈起来的“SSr”表示IV模型下最小的误差方差，residual sum of squares，下标字母R是residual（错误）的缩写。

把第三个散点图说完。两个预测模型的差（ SSt - SSr）的结果就是SSm，也就是IV模型预测的方差，model sum of squares。换句话说，就是全部可预测的方差，减去IV模型的误差，剩下的就是IV模型预测的方差。前面说要看两个模型的差异是否在统计上显著，就用SSm / SSr，看到这里可能就眼熟了。对，这就是方差分析（ANOVA，analysis of variance）里 F ratio 的公式。所以统计软件里做回归的时候看IV模型是否显著是要找那个标了ANOVA 的表格，看里面的F值是否显著。F值越大越可能显著，也就是分子SSm （“好”方差）越大SSr（“坏”方差）越小。