1. 首页 > 知识问答

回归分析是什么意思(你应该掌握的 7 种回归模型)

线性回归和逻辑回归通常是人们学习预测模型的第一个算法。由于这二者的知名度很大,许多分析人员以为它们就是回归的唯一形式了。而了解更多的学者会知道它们是所有回归模型的主要两种形式。

事实是有很多种回归形式,每种回归都有其特定的适用场合。在这篇文章中,我将以简单的形式介绍 7 中最常见的回归模型。通过这篇文章,我希望能够帮助大家对回归有更广泛和全面的认识,而不是仅仅知道使用线性回归和逻辑回归来解决实际问题。

本文将主要介绍以下几个方面:

  • 什么是回归分析?
  • 为什么使用回归分析?
  • 有哪些回归类型?
  • 线性回归(Linear Regression)
    • 逻辑回归(Logistic Regression)
    • 多项式回归(Polynomial Regression)
    • 逐步回归(Stepwise Regression)
    • 岭回归(Ridge Regression)
    • 套索回归(Lasso Regression)
    • 弹性回归(ElasticNet Regression)
  • 如何选择合适的回归模型?

1. 什么是回归分析?

回归分析是一种预测建模技术的方法,研究因变量(目标)和自变量(预测器)之前的关系。这一技术被用在预测、时间序列模型和寻找变量之间因果关系。例如研究驾驶员鲁莽驾驶与交通事故发生频率之间的关系,就可以通过回归分析来解决。

回归分析是进行数据建模、分析的重要工具。下面这张图反映的是使用一条曲线来拟合离散数据点。其中,所有离散数据点与拟合曲线对应位置的差值之和是被最小化了的,更多细节我们会慢慢介绍。

 

2. 为什么使用回归分析?

如上面所说,回归分析能估计两个或者多个变量之间的关系。下面我们通过一个简单的例子来理解:

比如说,你想根据当前的经济状况来估计一家公司的销售额增长。你有最近的公司数据,数据表明销售增长大约是经济增长的 2.5 倍。利用这种洞察力,我们就可以根据当前和过去的信息预测公司未来的销售情况。

使用回归模型有很多好处,例如:

  1. 揭示了因变量和自变量之间的显著关系
  2. 揭示了多个自变量对一个因变量的影响程度大小

回归分析还允许我们比较在不同尺度上测量的变量的影响,例如价格变化的影响和促销活动的数量的影响。这样的好处是可以帮助市场研究者 / 数据分析家 / 数据科学家评估选择最佳的变量集,用于建立预测模型。

3. 有哪些回归类型?

有许多回归技术可以用来做预测。这些回归技术主要由三个度量(独立变量的数量、度量变量的类型和回归线的形状)驱动。我们将在下面的章节中详细讨论。

 

对于有创造力的人来说,可以对上面的参数进行组合,甚至创造出新的回归。但是在此之前,让我们来看一看最常见的几种回归。

1) 线性回归(Linear Regression)

线性回归是最为人熟知的建模技术,是人们学习如何预测模型时的首选之一。在此技术中,因变量是连续的,自变量可以是连续的也可以是离散的。回归的本质是线性的。

线性回归通过使用最佳的拟合直线(又被称为回归线),建立因变量(Y)和一个或多个自变量(X)之间的关系。

它的表达式为:Y=a+b*X+e,其中 a 为直线截距,b 为直线斜率,e 为误差项。如果给出了自变量 X,就能通过这个线性回归表达式计算出预测值,即因变量 Y。

 

一元线性回归和多元线性回归的区别在于,多元线性回归有大于 1 个自变量,而一元线性回归只有 1 个自变量。接下来的问题是“如何获得最佳拟合直线?”

如何获得最佳拟合直线(确定 a 和 b 值)?

这个问题可以使用最小二乘法(Least Square Method)轻松解决。最小二乘法是一种拟合回归线的常用算法。它通过最小化每个数据点与预测直线的垂直误差的平方和来计算得到最佳拟合直线。因为计算的是误差平方和,所有,误差正负值之间没有相互抵消。

 


 

我们可以使用指标 R-square 来评估模型的性能。

重点:

  • 自变量和因变量之间必须满足线性关系。
  • 多元回归存在多重共线性,自相关性和异方差性。
  • 线性回归对异常值非常敏感。异常值会严重影响回归线和最终的预测值。
  • 多重共线性会增加系数估计的方差,并且使得估计对模型中的微小变化非常敏感。结果是系数估计不稳定。
  • 在多个自变量的情况下,我们可以采用正向选择、向后消除和逐步选择的方法来选择最重要的自变量。

2) 逻辑回归

逻辑回归用来计算事件成功(Success)或者失败(Failure)的概率。当因变量是二进制(0/1,True/False,Yes/No)时,应该使用逻辑回归。这里,Y 的取值范围为 [0,1],它可以由下列等式来表示。

odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk123

其中,p 是事件发生的概率。你可能会有这样的疑问“为什么在等式中使用对数 log 呢?”

因为我们这里使用的二项分布(因变量),所以需要选择一个合适的激活函数能够将输出映射到 [0,1] 之间,Logit 函数满足要求。在上面的等式中,通过使用最大似然估计来得到最佳的参数,而不是使用线性回归最小化平方误差的方法。

 

重点:

  • 逻辑回归广泛用于分类问题。
  • 逻辑回归不要求因变量和自变量之间是线性关系,它可以处理多类型关系,因为它对预测输出进行了非线性 log 变换。
  • 为了避免过拟合和欠拟合,我们应该涵盖所有有用的变量。实际中确保这种情况的一个好的做法是使用逐步筛选的方法来估计逻辑回归。
  • 训练样本数量越大越好,因为如果样本数量少,最大似然估计的效果就会比最小二乘法差。
  • 自变量不应相互关联,即不存在多重共线性。然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响。
  • 如果因变量的值是序数,则称之为序数逻辑回归。
  • 如果因变量是多类别的,则称之为多元逻辑回归。

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。

联系我们

在线咨询:点击这里给我发消息

微信号:666666