在企业管理活动中,大家往往通过各种手段得到各种数据,期望从这些数据中发现一些潜在的联系,以便更好的预测或分析,能够在激烈的市场竞争中获得先机。在分析或预测中会用到一些工具或模型,而回归分析是常用的一种分析技术。今天我们就聊一聊这个工具—回归分析。
回归一词的现代解释是非常简洁:回归时研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过自变量的给定值来估计或预测因变量的均值。它可用于预测、时间序列建模以及发现各种变量之间的因果关系。
在大数据分析中,回归分析是一种预测性的建模技术,是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
同时,回归分析预测法也是一种重要的市场预测方法,当我们在对市场现象未来发展状况和水平进行预测时,如果能将影响市场预测对象的主要因素找到,并且能够取得其数量资料,就可以采用回归分析预测法进行预测。它是一种具体的、行之有效的、实用价值很高的常用市场预测方法,常用于中短期预测。
回归分析的基本思想是:虽然自变量和因变量之间没有严格的、确定性的函数关系,但可以设法找出最能代表它们之间关系的数学表达形式。
现在有各种各样的回归技术可用于预测,这些技术主要包含三个度量:自变量的个数、因变量的类型以及回归线的形状。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析
我们为什么使用回归分析呢?主要有以下几种目的:
1)更好地了解
对某一现象建模,以更好地了解该现象并有可能基于对该现象的了解来影响政策的制定以及决定采取何种措施。基本目标是测量一个或多个变量的变化对另一变量变化的影响程度。
2)建模预测
对某种现象建模以预测其他地点或其他时间的数值。基本目标是构建一个持续、准确的预测模型。示例:如果已知人口增长情况和典型的天气状况,那么明年的用电量将会是多少?
3)探索检验假设
还可以使用回归分析来深入探索某些假设情况。假设您正在对住宅区的犯罪活动进行建模,以更好地了解犯罪活动并希望实施可能阻止犯罪活动的策略。开始分析时,您很可能有很多问题或想要检验的假设情况。
回归分析方法多种多样,具体可参见下图:
我们结合图形对常用的几种回归方法做简单分析。
1.线性回归
线性回归它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的少数几种技术之一。在该技术中,因变量是连续的,自变量(单个或多个)可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使用最佳的拟合直线(也就是回归线)建立因变量 (Y) 和一个或多个自变量 (X) 之间的联系。用一个等式来表示它,即:Y=a+b*X + e其中a 表示截距,b 表示直线的倾斜率,e 是误差项。这个等式可以根据给定的单个或多个预测变量来预测目标变量的值。
一元线性回归和多元线性回归的区别在于,多元线性回归有(>1)个以上的自变量,而一元线性回归通常只有一个自变量。要获得拟合线关系,我们如何获得关键的a和b?答案是可以用最小二乘法完成,通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。
线性回归要点:
1)自变量与因变量之间必须有线性关系;
2)多元回归存在多重共线性,自相关性和异方差性;
3)线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值;
4) 多重共线性会增加系数估计值的方差,使得估计值对于模型的轻微变化异常敏感,结果就是系数估计值不稳定;
5)在存在多个自变量的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自变量。
2.Logistic回归
Logistic回归可用于发现 “事件=成功”和“事件=失败”的概率。当因变量的类型属于二元(1 / 0、真/假、是/否)变量时,我们就应该使用逻辑回归。这里,Y 的取值范围是从 0 到 1,它可以用下面的等式表示:
odds= p/ \(1-p\) = 某事件发生的概率/ 某事件不发生的概率
ln(odds) = ln(p/\(1-p\))
logit(p) = ln(p/\(1-p\)) =b0+b1X1+b2X2+b3X3....+bkXk
如上,p表述具有某个特征的概率。在这里我们使用的是的二项分布(因变量),我们需要选择一个最适用于这种分布的连结函数。它就是Logit 函数。在上述等式中,通过观测样本的极大似然估计值来选择参数,而不是最小化平方和误差。
Logistic要点:
1)Logistic回归广泛用于分类问题;
2)Logistic回归不要求自变量和因变量存在线性关系。它可以处理多种类型的关系,因为它对预测的相对风险指数使用了一个非线性的 log 转换;
3)为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计Logistic回归;
4)Logistic回归需要较大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差;
5) 自变量之间应该互不相关,即不存在多重共线性。然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响;
6)如果因变量的值是定序变量,则称它为序Logistic回归;
7)如果因变量是多类的话,则称它为多元Logistic回归。
3.cox回归
Cox回归的因变量有些特殊,它不经考虑结果而且考虑结果出现时间的回归模型。它用一个或多个自变量预测一个事件(死亡、失败或旧病复发)发生的时间。cox回归的主要作用发现风险因素并用于探讨风险因素的强弱。但它的因变量必须同时有2个,一个代表状态,必须是分类变量,一个代表时间,应该是连续变量。只有同时具有这两个变量,才能用cox回归分析。cox回归主要用于生存资料的分析,生存资料至少有两个结局变量,一是死亡状态,是活着还是死亡;二是死亡时间,如果死亡,什么时间死亡?如果活着,从开始观察到结束时有多久了?所以有了这两个变量,就可以考虑用cox回归分析。
4.poisson回归
通常,如果能用Logistic回归,通常也可以用poission回归,poisson回归的因变量是个数,也就是观察一段时间后,发病了多少人或是死亡了多少人等等。其实跟Logistic回归差不多,因为logistic回归的结局是是否发病,是否死亡,也需要用到发病例数、死亡例数。
5.Probit回归
Probit回归意思是“概率回归”。用于因变量为分类变量数据的统计分析,与Logistic回归近似,也存在因变量为二分、多分与有序的情况。目前最常用的为二分。医学研究中常见的半数致死剂量、半数有效浓度等剂量反应关系的统计指标,现在标准做法就是调用Pribit过程进行统计分析。
6.负二项回归
所谓负二项指的是一种分布,其实跟poission回归、logistic回归有点类似,poission回归用于服从poission分布的资料,logistic回归用于服从二项分布的资料,负二项回归用于服从负二项分布的资料。如果简单理解,二项分布可以认为就是二分类数据,poission分布就可以认为是计数资料,也就是个数,而不是像身高等可能有小数点,个数是不可能有小数点的。负二项分布,也是个数,只不过比poission分布更苛刻,如果结局是个数,而且结局可能具有聚集性,那可能就是负二项分布。简单举例,如果调查流感的影响因素,结局当然是流感的例数,如果调查的人有的在同一个家庭里,由于流感具有传染性,那么同一个家里如果一个人得流感,那其他人可能也被传染,因此也得了流感,那这就是具有聚集性,这样的数据尽管结果是个数,但由于具有聚集性,因此用poission回归不一定合适,就可以考虑用负二项回归。
7.weibull回归
中文有时音译为威布尔回归。关于生存资料的分析常用的是cox回归,这种回归几乎统治了整个生存分析。但其实夹缝中还有几个方法在顽强生存着,而且其实很有生命力。weibull回归就是其中之一。cox回归受欢迎的原因是它简单,用的时候不用考虑条件(除了等比例条件之外),大多数生存数据都可以用。而weibull回归则有条件限制,用的时候数据必须符合weibull分布。如果数据符合weibull分布,那么直接套用weibull回归自然是最理想的选择,它可以给出最合理的估计。如果数据不符合weibull分布,那如果还用weibull回归,那就套用错误,结果也就会缺乏可信度。weibull回归就像是量体裁衣,把体形看做数据,衣服看做模型,weibull回归就是根据某人实际的体形做衣服,做出来的也就合身,对其他人就不一定合身了。cox回归,就像是到商场去买衣服,衣服对很多人都合适,但是对每个人都不是正合适,只能说是大致合适。至于到底是选择麻烦的方式量体裁衣,还是选择简单到商场直接去买现成的,那就根据个人倾向,也根据具体对自己体形的了解程度,如果非常熟悉,自然选择量体裁衣更合适。如果不大了解,那就直接去商场买大众化衣服相对更方便些。
8.主成分回归
主成分回归是一种合成的方法,相当于主成分分析与线性回归的合成。主要用于解决自变量之间存在高度相关的情况。这在现实中不算少见。比如要分析的自变量中同时有血压值和血糖值,这两个指标可能有一定的相关性,如果同时放入模型,会影响模型的稳定,有时也会造成严重后果,比如结果跟实际严重不符。当然解决方法很多,最简单的就是剔除掉其中一个,但如果实在舍不得,觉得删了太可惜,那就可以考虑用主成分回归,相当于把这两个变量所包含的信息用一个变量来表示,这个变量我们称它叫主成分,所以就叫主成分回归。当然,用一个变量代替两个变量,肯定不可能完全包含他们的信息,能包含80%或90%就不错了。但有时候我们必须做出抉择,你是要100%的信息,但是变量非常多的模型?还是要90%的信息,但是只有1个或2个变量的模型?打个比方,你要诊断感冒,是不是必须把所有跟感冒有关的症状以及检查结果都做完?还是简单根据几个症状就大致判断呢?我想根据几个症状大致能确定90%是感冒了,不用非得100%的信息不是吗?模型也是一样,模型是用于实际的,不是空中楼阁。既然要用于实际,那就要做到简单。对于一种疾病,如果30个指标能够100%确诊,而3个指标可以诊断80%,我想大家会选择3个指标的模型。这就是主成分回归存在的基础,用几个简单的变量把多个指标的信息综合一下,这样几个简单的主成分可能就包含了原来很多自变量的大部分信息。这就是主成分回归的原理。
9.岭回归
当数据之间存在多重共线性(自变量高度相关)时,就需要使用岭回归分析。在存在多重共线性时,尽管最小二乘法(OLS)测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差。
我们看到了线性回归等式:y=a+ b*x
这个等式也有一个误差项。完整的等式是:y=a+b*x+e \(误差项\), [误差项是用以纠正观测值与预测值之间预测误差的值]
=> y=a+y= a+ b1x1+ b2x2+....+e, 针对包含多个自变量的情形。
在线性等式中,预测误差可以划分为 2 个分量,一个是偏差造成的,一个是方差造成的。预测误差可能会由这两者或两者中的任何一个造成。在这里,我们将讨论由方差所造成的误差。岭回归通过收缩参数 λ(lambda)解决多重共线性问题。请看下面的等式:
在这个等式中,有两个组成部分。第一个是最小二乘项,另一个是 β2(β-平方)和的 λ 倍,其中 β 是相关系数。λ 被添加到最小二乘项中用以缩小参数值,从而降低方差值。
岭回归要点:
1)除常数项以外,岭回归的假设与最小二乘回归相同;
2) 它收缩了相关系数的值,但没有达到零,这表明它不具有特征选择功能;
3)这是一个正则化方法,并且使用的是 L2 正则化。
10.偏最小二乘回归
偏最小二乘回归也可以用于解决自变量之间高度相关的问题。但比主成分回归和岭回归更好的一个优点是,偏最小二乘回归可以用于例数很少的情形,甚至例数比自变量个数还少的情形。所以,如果自变量之间高度相关、例数又特别少、而自变量又很多,那就用偏最小二乘回归就可以了。它的原理其实跟主成分回归有点像,也是提取自变量的部分信息,损失一定的精度,但保证模型更符合实际。因此这种方法不是直接用因变量和自变量分析,而是用反映因变量和自变量部分信息的新的综合变量来分析,所以它不需要例数一定比自变量多。偏最小二乘回归还有一个很大的优点,那就是可以用于多个因变量的情形,普通的线性回归都是只有一个因变量,而偏最小二乘回归可用于多个因变量和多个自变量之间的分析。因为它的原理就是同时提取多个因变量和多个自变量的信息重新组成新的变量重新分析,所以多个因变量对它来说无所谓。
11.多项式回归
对于一个回归等式,如果自变量的指数大于1,那么它就是多项式回归等式。如下等式所示:y=a+b*x^2
在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。
多项式回归要点:
1)虽然存在通过高次多项式得到较低的错误的趋势,但这可能会导致过拟合。需要经常画出关系图来查看拟合情况,并确保拟合曲线正确体现了问题的本质。下面是一个图例,可以帮助理解:
2)须特别注意尾部的曲线,看看这些形状和趋势是否合理。更高次的多项式最终可能产生怪异的推断结果。
12.逐步回归
该回归方法可用于在处理存在多个自变量的情形。在该技术中,自变量的选取需要借助自动处理程序,无须人为干预。通过观察统计的值,如 R-square、t-stats和 AIC 指标,来识别重要的变量,可以实现这一需求。逐步回归通过同时添加/去除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法:
1)标准逐步回归法需要做两件事情,即根据需要为每个步骤添加和删除预测因子;
2)向前选择法从模型中最重要的预测因子开始,然后为每一步添加变量;
3)向后剔除法从模型中所有的预测因子开始,然后在每一步删除重要性最低的变量。
这种建模技术的目的是使用最少的预测因子变量来最大化预测能力。这也是处理高维数据集的方法之一。
13.套索回归
与岭回归类似,套索也会对回归系数的绝对值添加一个罚值。此外,它能降低偏差并提高线性回归模型的精度。看看下面的等式:
套索回归与岭回归有一点不同,它在惩罚部分使用的是绝对值,而不是平方值。这导致惩罚(即用以约束估计的绝对值之和)值使一些参数估计结果等于零。使用的惩罚值越大,估计值会越趋近于零。这将导致我们要从给定的n个变量之外选择变量。
套索回归要点:
1)除常数项以外,这种回归的假设与最小二乘回归类似;
2)它将收缩系数缩减至零(等于零),这确实有助于特征选择;
3)这是一个正则化方法,使用的是 L1 正则化;
4)如果一组预测因子是高度相关的,套索回归会选出其中一个因子并且将其它因子收缩为零。
14.ElasticNet 回归
ElasticNet 回归是套索回归和岭回归的组合体。它会事先使用 L1 和 L2 作为正则化矩阵进行训练。当存在多个相关的特征时,Elastic-net 会很有用。岭回归一般会随机选择其中一个特征,而 Elastic-net 则会选择其中的两个。
同时包含岭回归和套索回归的一个切实的优点是,ElasticNet 回归可以在循环状态下继承岭回归的一些稳定性。
ElasticNet 回归要点:
1)在高度相关变量的情况下,它会产生群体效应;
2)选择变量的数目没有限制;
3)它可以承受双重收缩。
既然存在那么多回归模型,我们在使用中该如何选择呢?当只了解一两种回归技术的时候,情况往往会比较简单。然而,当我们在应对问题时可供选择的方法越多,选择正确的那一个就越难。
掌握多种回归模型时,基于自变量和因变量的类型、数据的维数以及数据的其它基本特征去选择最合适的技术非常重要。以下是要选择正确的回归模型时需要考虑的主要因素:
1)数据探索是构建预测模型的不可或缺的部分。在选择合适的模型前,比如识别变量的关系和影响,应该首先执行这一步骤。
2)比较不同模型的拟合优点,我们可以分析不同的指标参数,如统计意义的参数,R-square,调整 R-square,AIC,BIC以及误差项,另一个是 Mallows’ Cp 准则。这个主要是通过将所选的模型与所有可能的子模型(或仔细挑选的一组模型)进行对比,检查可能出现的偏差。
3)交叉验证是评估预测模型最好的方法。使用该方法,需将数据集分成两份(一份用于训练,一份用于验证)。使用观测值和预测值之间的均方差即可快速衡量预测精度。
4)如果数据集中存在是多个混合变量,那就不应选择自动模型选择方法,因为我们并不愿意将所有变量同时放在同一个模型中。
5)所选择的回归技术也取决于你的目的。可能会出现这样的情况,一个不太强大的模型与具有高度统计学意义的模型相比,更易于实现。
6) 回归正则化方法(套索,岭和ElasticNet)在高维数据和数据集变量之间存在多重共线性的情况下运行良好。
说了那么多模型,回归分析的主要内容有以下几个方面:
①从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。
②对这些关系式的可信程度进行检验。
③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量加入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
④利用所求的关系式对某一生产过程进行预测或控制。
在日常使用中,回归分析的主要步骤如下:
1.确定变量
明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。
2.建立预测模型
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3.进行相关分析
回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
4.计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
5.确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
随着计算机技术的发展,现在回归分析可借助于软件轻松实现,常用的回归分析软件有如下几种:
1.SAS软件系统
AS 是一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。于20世纪70年代由美国SAS研究所开发。
目前,SAS使用已遍布全世界,重要应用领域涵盖政府的经济决策与企业的决策支援应用等,使用的单位遍及金融、医药卫生、生产、运输、通讯、科学研究、政府和教育等领域;在资料处理和统计分析领域,SAS系统被誉统计软件界的巨无霸。
2.Excel软件
Excel是一个面向商业、科学和工程计算的数据分析软件,它的主要优点是具有对数据进行分析、计算、汇总的强大功能。Excel软件为回归分析的求解给出了非常方便的操作过程,而且目前Excel软件几乎在每台计算机上都已经安装,使用方便。除了众多的函数功能外,Excel的高级数据分析工具则给出了更为深入、更为有用、针对性更强的各类经营和科研分析功能。高级数据分析工具集中了Excel最精华、对数据分析最有用的部分,其分析工具集中在Excel主菜单中的“工具”子菜单内,回归分析便为其中之一。
3.Statistica软件
Statistica是由统计软件公司(Statsoft)开发、专用于科技及工业统计的大型软件包。它除了具有常规的统计分析功能外,还包括有因素分析、质量控制、过程分析、回归设计等模块。利用其回归设计模块可以进行回归正交设计、正交旋转组合设计、正交多项式回归设计、A最优及D最优设计等。该软件包还可以进行对试验结果的统计检验、误差分析、试验水平估计和各类统计图表、曲线、曲面的分析计算工作。
4.SPSS软件
SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。
5.R软件
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。
它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,可供下载使用。
回归分析虽然方便,使用时也要注意以下问题:
应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。
正确应用回归分析预测时应注意:
①用定性分析判断现象之间的依存关系;
②避免回归预测的任意外推;
③应用合适的数据资料;
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。