统计是一组工具,您可以使用这些工具来获得有关数据的重要问题的答案。
您可以使用描述性统计方法将原始观测数据转换为您可以理解和共享的信息,也可以使用推断统计方法从数据的小样本到整个域进行推理。
在这篇文章中,您将清楚地发现为什么统计对于通用应用很重要,对于机器学习以及可用的各种方法也同样重要。
在阅读了这篇文章之后,您将会了解到:
· 统计通常被认为是应用机器学习领域的先决条件。
· 我们需要利用统计数据来将观测结果转化为信息,并回答有关观测样本的问题。
· 统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。
那我们开始吧
统计是必备的先决条件
机器学习和统计是两个密切相关的研究领域。以至于统计学家把机器学习称为“应用统计”或“统计学习”,而不是以计算机科学为主来命名。
对于初学者而言,机器学习的前提是他应具备一定的统计学背景。我们可以用挑选樱桃例子来做个解释。
请先来看一本流行的实用机器学习书“应用预测建模”的引言:
….读者应掌握一些基本统计知识,包括方差、相关、简单线性回归和基本假设检验(如p值和检验统计)。
—第七页,“应用预测建模”, 2013年
另外一个例子是:流行的“统计学习入门”一书中写道:
我们期望读者至少有一门统计学基础课程。
—第9页,“统计学习介绍及其在R语言中的应用”,2013年。
即使统计数据不是先决条件,但还是需要一些原始的先验知识,正如这句广为人知的“编程集体智慧”中的引语所示:
这本书并不认为你事先就知道[…]或统计[…]但是,掌握一些三角学和基本统计知识将有助于你理解算法。
—第十三页,编程集体智慧:构建智能Web 2应用程序,2007。
为了能够更好地理解机器学习,需要对统计学有一些基本的概念。
要了解为何会出现这种情况,我们首先必须明白,为何我们首先需要了解统计领域的知识。
需要统计来帮助机器学习吗?
现在就来参加我的免费7天电子邮件速成课程吧(带有示例代码)。
点击注册,并获得免费的PDF电子书版本的课程。
下载免费迷你课程
为什么要学统计学?
单独的原始观察数据只是数据,它们还不是信息或知识。
有了原始数据,那么接下来的问题是:
· 什么是最常见或可预期的观测?
· 观测的限制条件是什么?
· 数据是什么样子的?
虽然这些问题看起来很简单,但必须回答这些问题,才能将原始观察的数据转化为我们可以使用和分享的信息。
除了原始数据,我们还可以设计实验来采集观测数据。根据这些实验结果,我们可能获得更为复杂的问题,例如:
· 哪些变量是最相关的?
· 两个实验的结果有什么不同?
· 数据中的差异是真实的还是噪声的结果?
这类问题很重要。结果对项目、利益相关者和有效决策都很重要。
我们需要用统计方法来找到数据为我们提供的问题的答案。
这样看来,我们需要利用统计方法,不但用它来了解用于训练机器学习模型的数据,而且用它来解释测试不同机器学习模型的结果。
这只是冰山一角,因为预测建模项目的每一步都需要用到统计方法。
什么是统计学?
统计学是数学的一个子领域。
它指的是处理数据和使用数据回答问题的方法的集合。
统计学是对令人费解的问题进行数值猜想的艺术。[…]这些方法是几百年来由那些为自己的问题寻找答案的人开发出来的。
—第十三页,统计,第四版,2007年。
由于该领域是用一个抓斗袋的方法,来处理数据,它可能看起来很大,对于初学者来说有不确定性。统计方法和属于其他研究领域的方法之间很难区分开来。通常,一种技术既可以是一种经典的统计方法,也可以是一种用于特征选择或建模的现代算法。
虽然统计知识并不没有深奥的理论知识,但从统计与概率的关系中得出的一些重要的、容易理解的定理,可以提供一个有价值的理论基础。
举两个例子:大数定律和中心极限定理;第一个可以帮助我们理解为什么较大的样本往往更好,第二个定理为我们如何比较样本之间的期望值(例如:平均值)提供了基础。
当涉及到我们在实践中使用的统计工具时,可以将统计领域分为两大类:描述性统计用于总结数据,推理统计用于从数据样本中得出结论。
统计数据使研究人员能够从大量地采集到的信息或数据,从中总结出典型的经验。[…]统计数据也用导出关于群体间普遍差异的结论。[…]统计数据也可以用来判断两个变量的得分是否相关,并进行预测。
第9页-10页,统计概述,第三版,2010年。
描述统计(学)
描述性统计是指将观察到的原始数据汇总成我们可以理解和共享的信息的方法。
通常,我们认为描述性统计是对数据样本的统计值的计算,以便总结数据样本的属性,例如共同的期望值(例如平均值或中值)和数据的扩散程度(例如方差或标准偏差)。
描述性统计还涵盖利用图形方法对数据样本进行可视化。图表和图形可以提供对观测的形状或分布以及变量的相关做出定性理解。
推断统计
推断统计是一个有意思的名称,它通过从一组较小的被称为样本的观察数据进行量化,从而提炼出总体的属性的方法。
通常,我们认为推断统计是从人口分布中估计出特征值,如期望值或价差的估计等等。
可以利用复杂的统计推断工具来量化给观测数据样本的概率。这些工具通常被称为统计假设检验工具,其中检验的基本假设称为零假设。
有许多推断统计方法的例子,为增加测试数据的正确性,我们可以对假设的范围做出限定。
延展阅读
如果您想深入研究,本节将提供更多关于该主题的资源。
书籍
· 应用预测建模,2013年
· R语言应用程序统计学习导论,2013年
· 编程集智能:构建智能Web 2.0应用程序,2007年
· 统计,第四版,2007年
· 统计:统计推断的简明课程”,2004年
· 文章
· 维基百科上的统计·
· 门户:维基百科上的统计·
· 维基百科上的统计文章列表·
· 维基百科上的数理统计·
· 维基百科上的统计历史
· 维基百科的描述性统计
· 对维基百科的统计推断
总结
在这篇文章中,您清楚地发现了为什么统计在机器学习中如此重要,对于机器学习,统计提供了许多通用且可行的方法。
具体而言,你学到了:
· 统计通常被认为是机器学习领域的先决条件。
· 我们需要统计数据来将观测结果转化为信息,并回答有关观测样本的问题。
· 统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。
简明统计,第三版,2010年。
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ15101117,本站将立刻清除。