听着!牛人口中的“大数据”并不是你所谓的“数据分析”

学无止境,精益求精
文 | 帆软数据应用研究院 李向川

大数据分析和数据分析是有区别和联系的。这里重点关注两者的是技术要求、使用场景、业务范围等方面的区别和联系。重点要区分理论研究和实际应用两方面区别和联系。

什么是数据分析?
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,为提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析包含“数据”和“分析”两个方面一方面包括收集、加工和整理数据,另一方面也包括分析数据,从中提取有价值的信息并形成对业务有帮助的结论。
数据分析的成果通常以分析报告的形式呈现。对于数据分析报告,分析就是论点,数据就是论据,两者缺一不可。

传统数据分析与大数据分析的三方面异同:
第一,在分析方法上,两者并没有本质不同。
数据分析的核心工作是人对数据指标的分析、思考和解读,人脑所能承载的数据量是极其有限的。所以,无论是“传统数据分析”,还是“大数据分析”,均需要将原始数据按照分析思路进行统计处理,得到概要性的统计结果供人分析。两者在这个过程中是类似的,区别只是原始数据量大小所导致处理方式的不同。

第二,在对统计学知识的使用重心上,两者存在较大的不同。
“传统数据分析”使用的知识主要围绕“能否通过少量的抽样数据来推测真实世界”的主题展开。“大数据分析”主要是利用各种类型的全量数据(不是抽样数据),设计统计方案,得到兼具细致和置信的统计结论。

第三,与机器学习模型的关系上,两者有着本质差别。
“传统数据分析”在大部分时候,知识将机器学习模型当黑盒工具来辅助分析数据。而“大数据分析”,更多时候是两者的紧密结合,大数据分析产出的不仅是一份分析效果测评,后续基于此来升级产品。在大数据分析的场景中,数据分析往往是数据加墨的前奏,数据建模是数据分析的成果。


参考文献
[1] 毕然, 袁晓洁. 大数据分析的道与术[M]. 电子工业出版社, 2016.


参与人数 +1 F豆 +5 理由
leibo + 5 默默地点个赞,然后闪人

查看全部评分

发表于 2017-11-30 16:22:34
发表于 2017-11-30 19:47:52
发表于 2017-12-1 08:29:00
发表于 2017-12-1 16:41:22
这篇文章出乎意料的短,不好意思,用错词了,应该叫精辟
发表于 2017-12-3 23:28:45
传说哥 发表于 2017-12-1 16:41
这篇文章出乎意料的短,不好意思,用错词了,应该叫精辟

为啥每次leo的文章。我都感觉自己看懂了。但是啥也没记住呢??
发表于 2017-12-4 13:22:18
发表于 2017-12-7 16:50:18
大数据的大,说是全量数据也不尽然,除了企业内部的数据,多数公司都拿不到全量数据。数据分析方法都是通用的,大数据与小数据的区别还是在大数据本身的特征上。大数据的能够处理数据种类更多,能够处理各种非结构化数据,多媒体数据,流式数据,而且利用分布式处理能够快速有效低处理数据。
发表于 2017-12-14 11:32:17
有错别字
发表于 2018-3-1 15:54:06
说大数据就是全量数据不太恰当吧。   对于某个业务结果的数据的真实性来说,传统数据在软件里得到的数据,也是真实的数据,全量的数据。  
发表于 2018-3-15 09:51:36
大数据的“大”主要体现在规模庞大到已经难以用传统方法进行存储(比如关系数据库)和处理,并得出有意义的结果的数据。
还有就是数据类型和数据来源比较复杂。除了传统的主要来自内部业务的结构化数据,还可以包含来自第三方的数据,这些数据可以是结构化的二维表格,也可以是文本、图片、语音、图像等非结构化数据。
发表于 2018-3-15 10:05:53
在以上两点的基础上,“全量”概念才可以成立。
单纯讲全量,用全量和抽样区别数据分析和大数据分析,就有失偏颇了。
举例来说,要分析一批学生的教育情况,都是全量分析。但是:
数据分析是这样的:
假设这批学生同在一个班,40人,统计他们的主科成绩,得出总分,按高低排序,分析结束。
而大数据分析是这样的:
假设这批学生分布在世界各地,总数100万人(或更多),国家、信仰、年龄、人种、家庭背景、……各不相同,分析他们从幼儿园到学生生涯结束的全部学习科目情况,以及他们接受的课外培训辅导、兴趣班的情况,并分析他们在职业生涯接受专业化成人教育培训的情况,甚至他们从小到大阅读过的书籍和看过的电影电视节目情况,以及各学习阶段老师、家长对他们的点评文字或图像扫描件,并分析同学、同桌对学生个人的评价采访录音或视频……
得到这批学生的受教育的综合评语和全面素质得分。
发表于 2018-5-2 12:55:43
发表于 2018-7-17 20:02:39
对大数据的概念,首先数据规模要大,至少1TB。其次是数据关系复杂等8V特性!
发表于 2018-7-20 10:14:09
我可以说是  硬件的飞速发展 推进了大数据的发展吗
发表于 2018-7-20 10:15:06
之前大部分都是 应用数理统计、数据分析,现在整的都是大数据
发表于 2018-8-13 08:39:04
牛人口中的数据分析,并不是我们相传和使用的"数据分析"
发表于 2018-8-13 12:00:14
happyhorse 发表于 2018-7-20 10:14
我可以说是  硬件的飞速发展 推进了大数据的发展吗

其实还真不是硬件推动了大数据的发展,而是需求推动了理论突破,进而在具体技术层面百花齐放。

最初,Google为了它的搜索引擎能够更强大,又不得不解决成本问题,被迫用非常大数量的低配的计算机建立了数据中心,用以存储数据量恐怖的索引文件。这一需求诞生了最初的分布式谷歌文件系统GFS。谷歌将其作为论文公开发表,催生了开源的分布式大数据存储技术Hadoop,其文件系统称为HDFS。这一文件格式因其分布式特点,可以将巨大的数据分成很多小份存于N台价格低廉的PC上,解决了大数据的存储问题。

以此为基础,各种花式技术随之诞生。大数据时代从GFS开始啦。。。
发表于 2018-8-13 16:10:16
前来参观学习
发表于 2018-9-21 11:13:40
大数据,大贡献
发表于 2018-10-13 16:39:19
发表于 2018-11-2 07:52:47
学习了
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表