第9天知识点:分组汇总除了汇总数据还有什么功能?
分组汇总是指对原始数据根据条件将相同数据先合并到一组,然后再对分组后的数据进行汇总计算,会改变原有字段。
该功能类似于Excel 中的数据透视表功能。
为了便于大家理解,我们依旧是通过案例来看看这几种场景在实际业务中是如何应用的。
商品销售数据表,记录7、8月商品的每条销售记录。包含字段:商品编号、商品大类、商品名称、进价、销售额、销售时间。
拿到数据之后,首先要做的是什么?开始清洗数据吗?开始数据建模吗?
不,都不是,首先要做的应该是研究数据间的基本逻辑及口径,俗话说“磨刀不误砍柴工”,大家也一定要养成这样的习惯,这样后续才不会出现对数据关系无厘头以及重新返工的情况:
(1)【商品编号】为每个产品唯一ID;
(2)【销售时间】格式为1970-01-01 00:00:00格式;
(3)每个商品都有多条数据记录,每条数据不同的是【商品名称】及【销售时间】字段,其余字段均相同。
了解了数据的基本逻辑及口径后,接下来就来看看案例吧:
需求:
统计服饰及配饰两个大类7、8月的销售额分别是多少?其中,服饰类为T恤及短裤,配饰类为棒球棒。
分析:
先按商品大类进行归类,然后按照月份维度进行汇总即可。
操作步骤:
(1)将【商品大类】、【销售时间】分别拖入分组栏中,【销售额】拖入汇总栏;
(2)点击【商品大类】下拉,选择“自定义分组”,T恤、短裤添加分组,分组命名为服饰类,其他归类为配饰类;
(3)点击【销售时间】下拉,选择“年月”分组方式。
需求:
查看每种商品大类的进价分别是多少?
分析:
每种商品大类的进价是一样的,因此只需要保留一条记录,将多余的重复记录删掉即可。
操作步骤:
将【商品大类】、【进价】分别拖入分组栏中,使用默认的“相同值为一组”即可。
需求:
查看每种商品的最近一次销售时间?
分析:
最近一条销售记录其实也就是销售时间的最晚时间,因此只需要按照商品名称分组,保留最晚的销售时间即可。
操作步骤:
(1)将【商品大类】【商品名称】分别拖入分组栏中,【销售时间】拖入汇总栏中;
(2)点击【时间】字段下拉,设置汇总方式为“最晚时间”。
1、如何不使用过滤统计各商品大类8月的销售额?
(1)将【商品大类】分别拖入分组栏中,【销售额】拖入汇总栏;
(2)点击汇总字段【销售额】,下拉选择汇总条件-添加条件-销售时间属于8月。
2、当数值中存在无穷值时,是无法对数值进行区间分组的,会一直显示加载中,可以看下图对比一下:
3、当左合并完发现结果不对,但又不确定问题出现在哪里,这是可以用分组汇总功能进行简单的校验。
例如左合并前使用分组汇总功能统计数据记录99999条,但左合并之后,分组汇总统计的数据记录变成了180000条,那说明数据中存在重复值,这时候就需要去检查下左右合并用到的表的数据是否需要先进行去重然后再操作合并了。
这个小技巧真的百试不爽,尤其是在数据量特别大的时候非常好用。
4、明明操作过程也没有报错,而且也是按照【部门】给仪表板的数据集进行了权限拆分,为什么有的部门反映只能看到空的仪表板,看不到任何数据呢?
如果遇到这样的问题,一定要检查一下数据集中是否使用到了分组汇总功能,如果是,就必须要将拆分的行权限字段也就是【部门】也添加到分组步骤中。
例:现在给各部门开放查看各月销售额的仪表板,那么在进行分组汇总时,【部门】字段必须使用到,否则会提示【因权限继承影响,导致当前数据计算结果异常。请根据血缘关系,将【XXX】表的【XX】字段加入到分组表中】。
今天的学习内容就到这里,感兴趣的小伙伴自己动手试一试吧! |