中云网胜 旗下CPDA数据分析师福建授权中心

一张图搞懂 数据科学 机器学习 数据分析 商业分析 _中云网胜_大数据

发布作者:
发布时间:2018-05-24 09:29:30
浏览次数:93

数据科学,这个时下流行的热词,许多人曾尝试用成功案例去定义它。

谈起这个问题,我们就得从数据科学相关的其它领域说起——商业分析、数据分析、商业智能、先进分析、机器学习以及最后的 AI。

我们意识到数据科学的“绝对定义”需要知道许多“数据科学”的背景才能理解,这是一个死循环……这里的假设是统计学家或程序员对数据科学的理解比历史学家或语言学家容易得多,因为前者已经以某种形式接触过数据科学。

基于这个假设,或许数据科学的“相对定义”更有意义,这也是本文的目的所在。

下面这个欧拉图描述了上文中提到的所有领域的关系,每种颜色代表了不同的领域(混合的颜色代表交叉学科),横坐标代表了时间轴,每块区域代表了使用案例。

图 1:每个方形区域的位置、形状和颜色表示了概念上的相似性和不同点,不是复杂度

信息量很大,我们从头开始。

商 业

为避免将这个问题过于简单化,我们假设“商业”这个词不需要定义,一些商业行为的例子如下:

商业案例研究

定性分析

初始数据报告

可视化报告

仪表盘创建

销售预测

以上这些都在蓝色的区域中

数 据

这里才是欧拉图真正的开始,如果我们将数据加入到这幅图中,我们会得到 2 个大的领域以及它们的交叉学科,总共 3 个部分。

有了初始的术语选择,我们就可以将最后四个商业和数据的交叉术语放进来了,也就是目前图中的紫色区域。由于“初始数据报告”,“创建仪表盘”和“销售预测”都是数据驱动的商业行为。

与之相对的是“商业案例研究”和“定性分析”,这两个术语虽然也在商业范畴之内,但是基于过去的知识、经验和行为,也很重要,但你很快就能知道这不是真正的数据科学。

分析 VS. 分析学

分析指的是将你的问题分隔为易处理的小块,每一块都可以单独研究,并监测各块之间的关系。

另一方面,分析学就是逻辑和计算的推理应用于分析中获得的组成部分。并且在这个过程中,人们会寻找模式,还会研究未来这种模式的用途。

所以,相比业务和数据,我们更应该好好使用商业分析和数据分析。

时 间

在进一步讨论之前,我们来引入时间轴,这对后面的部分很重要。

我们会使用三个状态——过去,现在和未来。

图中有一条竖线代表着对于任何分析学问题中现在的时刻,竖线左边代表向过去的分析学,竖线右边代表着预测分析。

分析中最后的两个部分就可以加入到图中来了。

“销售预测”在右边,从名字就可以看出是一个向前看的分析过程。很明显,“定性分析”是利用你的直觉和经验规划下一步行动,所以是另一个向前看的术语。

数据科学

对于大多数读者来说,下面将进入本文的高潮部分。数据科学是一个不能没有数据的领域,所以它会完全处在图中数据分析的区域内。

那么它和商业分析的关系是怎样的呢?

结果就是同属于数据分析和商业分析的部分必然是数据科学。

但是请注意,有的数据科学过程并不直接是商业分析,但却是数据分析。比如“钻井作业优化”需要数据科学工具和技术,属于数据科学家的日常工作。但是在石油行业中,我们不能将其和商业分析关联起来。

为了更好的理解这一点,可以引入“相关定义”的概念。“数字信号处理”属于数据分析的行为,但不是数据科学,也不是商业分析。数据,程序和数学都在数据科学中发挥着作用,但扮演着不同的角色。

和上面保持一致,我们使用时间轴来结束这一部分——数据科学同时存在于过去和未来的部分。

这也带来了另一个问题:有没有一个领域是只面向过去的?

商业智能

商业智能是分析和报告过去的数据的过程。

它是面向过去的吗?不一定,但是商业智能中不包含预测分析。回归、分类和其它所有的典型的预测方法都是数据科学的一部分,但不属于商业智能。这也决定了那条竖线的位置。

并且,商业智能是数据科学的真子集,所以当人们在处理描述性统计,过去事件的报告或可视化问题时,他的行为既属于商业智能,也属于数据科学。

机器学习和 AI

这里的定义会有一点模糊,因为解释这两个概念会让本文失去重点,而且关于机器学习的概念有很多资料,特别是在 KDnuggets 上。

ML 是 AI 的一种方式,但是两者经常被混淆,因为根据目前为止人类研究的研究成果,ML 是唯一能达到 AI 的可行路径。

在图中,这两个术语在以下位置。

机器学习完全属于数据分析,因为其没有数据就不能被执行。它和数据科学也有交叉,因为它是数据科学家最好用的工具之一。最后,它也有商业智能的属性,涉及预测性分析的部分除外。

ML 在数据科学中的例子是“客户留存”,“防欺诈”和“创建实时仪表盘”(也是 BI 的一部分)。代表性的例子包括“语音识别”和“图像识别”,既属于又不属于数据科学,所以我们将其放在了边界位置。

总结起来就是:ML 完全属于 AI,但 AI 有一部分领域甚至和商业、数据分析完全没有关系,比如“符号推理”。

先进分析

在我们的分析中最后一块领域是先进分析,相比数据科学,这更像是一个市场术语。它经常被用来描述“不是那么容易被处理”的分析。主观上来说,对于一个新手来说,本图中所有的信息都是先进性的。虽然不是最好的术语,但很适合用来汇总本文中所有提到的“合适的”术语。

去除了 AI,加上先进分析,就是下图。

引用文中的术语,我们关于先进分析的分析就完成了。

以下是对比这些概念的 gif 动图。


关闭
13600977889 工作日:9:00-22:00
周 六:9:00-22:00
联系电话
13600977889