数据分析法之回归分析
昨天介绍了《数据挖掘经典算法—朴素贝叶斯》,今天介绍回归分析法。
在统计学中回归分析是一种分析数据的方法。目的在于了解两个或多个变数间是否相关、相关方向与强度,并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。
回归分析的起源
1855年,英国著名生物学家兼统计学家高尔顿在《遗传的身高向平均数方向的回归》提出“回归”概念。
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。可以帮助数据分析师排除并估计出一组最佳的变量,用来构建预测模型。
根据自变量与因变量的多少与关系又可以细分为以下8种:
一元回归、多元回归、简单回归、多重回归、线性回归、非线性回归、一元线性回归和多重线性回归。
回归分析的作用
回归分析主要主要有四种作用:
1. 确定变量之间是否存在相关关系。
2.判断影响因变量的自变量显著性。
3.对客观过程进行分析、预测、模拟控制。
4. 根据一个或几个变量的值,确定这些变量之间的回归关系。
回归分析步骤:
1.确定因变量(预测的具体目标)。
2.建立预测模型
3. 检测变量与因变量的相关性,确定相关系数;
4.检验预测模型是否可用于实际预测
5.根据预测模型,进行综合分析,并计算预测值的置信区间;
当采用的模型和数据相同,回归分析可以计算出唯一的结果。在对多因素模型进行分析时,回归分析可以准确地计量各个因素之间的相关程度与回归拟合程度的高低,提高预测方程式的效果。而且回归分析更加简单和方便。
但回归分析有一定的局限性。首先回归分析要有要求大量和正确的数据,其次变量与因变量的关系是要由数据分析师自己来判断是否合理。而且回归分析会受异常数据点的影响。有时候回归分析对选用的因子和该因子采用何种表达 式只是一种推测,对因子的多样性与不可测性产生了影响,使得回归分析在某些 情况下受到限制。
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。