线性回归模型的假设
我们再上一篇文章已经讨论了如何对线性回归模型中的系数进行描述。接下来我们看一下这个模型的统计假设。假设因变量Y和自变量X都拥有n个观测值,并且我们想要对以下公式进行估计:
Yi = b0 + b1Xi +εi,i = 1,…,n
为了能够从具有单个自变量的线性回归模型中得出有效的结论,我们需要做出以下六个假设,这被称为经典线性回归模型假设:
1.因变量Y和自变量X之间的关系是线性的。这意味着b0和b1只有一阶,并且均不与另一个回归参数相乘或相除(如公式中不存在b0/b1)。但是自变量X可以不止取一阶。
2.自变量X不是随机的。
3.残差的期望值为0:E(ε) = 0。
4.残差的方差对于所有观察都是相同的。
5.残差ε与观测值不存在相关性。因此,对于所有i不等于j的情形,E(εiεj) = 0。
6.残差ε符合正态分布。接下来,我们对这些假设进行分析。
假设1对于线性回归模型至关重要。如果自变量和因变量之间的关系是非线性的,则使用线性回归模型将产生无效的结果。例如,以下公式是非线性的,因此我们无法对其应用线性回归模型。
但是,即使因变量是非线性的,只要参数是线性的,也可以使用线性回归。因此,以下方程式也可以用线性回归。
假设2和3确保线性回归所估计的b0和b1是正确的。
假设4、5和6用来确定估计参数^b0和^b1的分布,同时检验该系数是否具有特定值。
假设4是指残差的方差对于所有观察值都是相同的,也称为同方差假设。在以后的多元回归课程中我们将讨论如何对不符合这一假设的的情况进行测试和修正。
为了正确估计参数^b0和^b1的方差,假设5(残差与观测值不存在相关性)也是必要的。后边的多元回归课程我们将讨论不符合该假设的情形。
假设6(残差符合正态分布)使我们能够轻松检验关于线性回归模型的特定假设。
线性回归的标准误
线性回归模型有时可以很好地描述两个变量之间的关系,但有时却不能。我们需要对这两种情况进行区分,以使回归分析更加有效。我们接下来将讨论衡量线性回归模型中因变量和自变量之间关系程度的统计方法。
下图显示了1990年1月至2017年12月美国标准普尔500指数月收益率和美国每月通胀率的散点图,以及两者的拟合回归线:标准普尔500的收益率= b0 + b1(通胀率)+ε。在此图中,实际观察值与拟合后的回归线有很大的偏离。使用估计的回归方程来预测每月的股票收益可能会导致结果不准确。
回归模型的标准误可以对这种不确定性进行衡量。标准误类似于单个变量的标准差,不同之处在于它测量的是回归残差^εi的标准差。
具有一个自变量的线性回归模型的标准误(SEE)的公式为
在分子上,我们计算每个观察值实际值与预测值(^b0+^b1Xi)之差。因变量的实际值和预测值之间的差是回归残差^εi,也被称为误差项。
以上公式与计算标准差的公式类似,只不过分母变成了n-2而不是n-1。我们使用n-2是因为样本包括n个观测值和模型中的两个参数( ^b0和^b1);观察值数目和参数数目之间的差为n-2。该差值也被称为自由度;以该值做分母可以确保标准误的无偏性。
案例 计算估计的标准误
在此前的案例中,我们估计出通胀率和货币供应增长率的回归方程为Yi = –0.0008 + 0.3341Xi。 下图是由此方程式估计得出的标准误所需数据。
上表中的第一和第二列数字显示了六个国家的长期货币供应增长率Xi和长期通货膨胀率Yi。数字的第三列显示每个观察值从拟合回归方程得出的因变量的预测值。以美国为例,长期通胀的预测值为–0.0008 + 0.3339(0.0628)= 0.0202或2.02%。倒数第二列是回归残差,它是因变量Yi的实际值和因变量的预测值之间的差。因此,美国通货膨胀率的残差为0.0277 – 0.0202 = 0.0075或0.75%。最后一列是回归残差的平方。
残差平方的总和为0.000230。将该数值代入计算标准误的公示,我们得到[0.000230/(6-2)]^(1/2)=0.007583,因此该估计结果的标准误约为0.76%。
接下来,我们将确定根据货币供应量增长预测通胀率结果的置信区间。我们在后面的讲解中可以看到,较小的标准误将使得预测结果更准确。
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。