数据分析基础概念

回帖奖励 80 个F豆      回复本帖可获得 10 个F豆奖励! 每人限 1 次
楼主
我是社区第122151位番薯,欢迎点我头像关注我哦~

说到“数据”一词,大家都不陌生,小到一个计量数字,大到成亿级别的数据汇总,都可以被称为数据;但是数据真的只包含这些内容吗?答案是否定的。

数据类型

狭义的定义将数据看作计算机加工处理的对象;而国际数据管理协会(DAMA)认为:数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现。这意味着数据可以表现事实。而基于数据的结构可以将其划分为:结构化数据和非结构化数据。

结构化数据,可以从名称中看出,是高度组织和整齐格式化的数据。它是可以放入表格和数据库等数据存储的数据类型。非结构化数据,顾名思义,就是没有固定结构的数据。所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等都属于非结构化数据。

以疫情数据为例,图一 就是结构化数据 ,图二就是非结构化数据。

除了以上结构化数据还有一种特殊形式被称为半结构化数据

  • 半结构化数据有以下5种:1.日志文件;2.XML 文档;3.JSON 文档;4.Email;5.HTML文档。

结构化数据

而结构化数据与非结构化数据两者之间最大的区别在于分析的便利性。针对结构化数据存在成熟的分析工具,并且实际应用中大多分析的都是结构化数据;但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。

而现代数据处理中常见的结构化数据经常会以这种行列式表格的形式呈现,如下所示:

我们也会直观地把记录和字段称为整个表格的数据统称为一个数据表,其中的每一行(除了标题)称为一条记录,每一列称为一个字段,标题中的字符文字称为字段名。上面这个表中能看见的部分有2040条记录,对应着这个表有6个字段,字段名分别是:访问ID、用户ID、访问平台、统计日期、访问最后阶段、总停留时间。字段名互不相同,可以唯一地标识某个列。这些字段(包括名称和次序),被称为数据表的数据结构,简称结构

而在数据分析工具使用数据的时候除了行和列,常常会把表分为维度和指标。维度,通常被用来定性地描述某类事物,一般被用来看事件发展的趋势(是变好了还是变坏了)。时间也是一种维度。所以维度是日期或文本格式。

指标,通常被用来定量地描述事物,一般指可以量化的数据,是进行统计后的结果。所以指标是数值格式。

上面这个表中维度便是:访问ID、用户ID、访问平台、统计日期、访问最后阶段;指标是:总停留时间;

不同的场景下维度和指标也可以互相转换;维度可以转化成指标一般可用于统计维度出现的次数。比如上面的表中,我们可以把用户id字段中不同用户id出现的次数作为指标来统计用户的访问次数。

指标也可以转化成维度但因为维度一般是时间和文本格式的字段,所以如果我们要把数字作为维度使用,就需要先把字段的类型从数值转化成文本。

比如上面的访问id这一列,因为维度的值是数字,在BI工具中一般会默认为指标,所以在这里就需要把客户类型从指标转换成维度。

 

以表格形式存在的结构化数据在现实中很常见。看着一个表格去理解记录、字段等概念并不会困难。我们这里就不再多举例了。但是,结构化数据并不是总以上面的表格形式呈现,它还可能是别的样子。例如一维表和二维表;

     

一维表&二维表是什么

excel中有个功能叫做透视和逆透视,很多初学的朋友搞不懂两者是什么差异;这其实牵扯到了两类数据表即一维表和二维表的区别;

如下图所示仅通过单行就能确定数值的数据表,被称为一维表,也被称为源数据、清单表或明细表,一维表的特点是数据丰富详实,方便存储,有利于做数据分析;常昌用于数据库表的存储;

而作为数据库表存储的一维表,其中是数据真实规范且全面完整是最基础的特征;其中每个字段的数据格式一定要规范,比如日期不能写成2020210,具有分类统计意义字段的具体内容前后要一致(如同一个部门,不能有的写成采购部,有的写成采购管理部),数字列不能定义成文本格式等等。会在数据填写和数据入库是通过数据验证(数据有效性)来保证各个字段按要求格式填写,对于类别较少的字段还可以设置成下拉菜单形式(如性别,部门名称)等。同时作为存储使用的表格内严禁存在合并单元格!

二维表最显著的特征是必须通过行列两个条件去定位 如下图所示。我们常见到的交叉表或汇总表就算二维表的一种形式;同时二维表也被称为展示数据,更符合我们日常的阅读习惯,信息更浓缩,适合展示分析结果、打印和汇报;

二维表的设计一定要围绕数据分析的目的展开,界面简洁直观,不要贪大求全,没有主次。上面的例表2主要是对不同产品在不同区域的毛利和销售额展示。同时一维表中所含信息越详实,二维表可展示的方式就越灵活,若要分析哪个区域、哪个产品销售效果好,什么产品毛利最大等,不但需要在一维表例表1中补充相关字段和数据,二维统计表的格式也需要根据数据和展示要求变动重新设计展示。

统计分析是一个常态化的工作,通过函数公式来统计数据,能够极大地减轻工作量和数据错误,效率和质量大幅提高。二维表可通过BI工具等设置为随时间变化数据增加而数据自动变化的统计数据。

一维表&二维表相互转换

基于一维表和二维表的自身特点,所以在进行数据存储时大多参与都采用一维表,同时数据分析人员分析的原表建议使用一维表形式,无论是表格还是数据库计算都简单方便;而分析完成后的数据对外展示建议使用二维表;

而实际上我们数据在进行统计的时候,获取到的底层数据可能是一维表也可能是二维表,如果是我们底层数据(数据源)非常规范的一维表,我们是进行统计的时候想看什么数据都可快速得到,非常方便,省事!如果底层数据(数据源)是二维表则统计过程会非常麻烦,往往我们需要对底层数据(数据源)进行变换,变换为一维表。

那么如何将二维表和一维表相互转换呢?

一维表变成二维表很简单,在Excel中都可以轻松做到,就是利用数据透视表。在BI分析工具中可通过行转列实现;详情可见行转列-https://help.fanruan.com/finebi/doc-view-1139.html)。

二维表转一维表则需要用到excel逆透视。在BI分析工具中可通过列转行实现;详情可见列转行(逆透视)-https://help.fanruan.com/finebi/doc-view-366.html

 

分享扩散:

沙发
发表于 2023-4-21 14:31:24

回帖奖励 +10 个F豆

板凳
发表于 2023-4-22 13:22:51

回帖奖励 +10 个F豆

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

2回帖数 1关注人数 4270浏览人数
最后回复于:2023-4-22 13:22

返回顶部 返回列表