第81天知识点:3种去重技巧
在日常数据处理中,你是否也曾因为重复数据而头疼不已?
操作步骤没问题,可统计结果就是不对,查来查去,才发现是因为原始表中数据出现了重复。
这种因为重复数据导致计算结果出现偏差的场景很常见,比如:一个订单号会出现多条销售记录。
很多时候,我们需要根据不同的业务场景,只保留满足条件的其中一条即可,这就涉及到去重问题。
那在FineBI中,如何按照一定的条件进行去重呢?
今天,我们就和大家分享几种常见的去重方法。
这种方式简单快捷,如果你的功能区没有直接看到删除重复行的功能项,可以点击更多找到。
操作步骤:
(1)删除重复行,默认保留的是第一行数据,删掉非第一行数据,这与Excel里删除重复行的逻辑是一致的。
(2)删除重复行,会直接删除重复数据,数据量由原来的7条变成了5条,数据量会减少。
如果你想每个【订单编号】只保留一条数据,那么在选择去重字段的时候只选择【订单编号】就可以了。
分组汇总除了求和之外,其实还有很多便实用功能,去重就是其中一种。
操作步骤:
-
分组栏拖入【订单编号】、【销售日期】字段
-
汇总栏拖入【销售额】字段
(1)分组汇总,直接将【订单编号】、【销售日期】相同的数据的【销售额】进行了汇总求和,类似于Excel中的数据透视表。
(2)数据量由原来的7条变成了5条,数据量会减少。
新增汇总列常常会因为名字被人误以为只是求和的,其实这里有很多隐藏功能,比如,求最大最小值,排序,计数、求最早最晚时间等等。
操作步骤:
-
分组字段:【订单编号】、【销售日期】
-
汇总字段:【销售额】
-
汇总方式:求和
(1)新增汇总列,也是将【订单编号】、【销售日期】相同的数据的【销售额】进行了汇总求和。
(2)但与分组汇总不同的是,数据量并没有减少,仍然是7条,只是在原始数据表新增了一列。
以上三种方式是常见的去重计算方式。
当然,有些时候去重的场景可能会更加复杂,比如:
1、对于同一【订单编号】,只保留销售额最大的一条数据。
直接分组汇总即可。
操作步骤:
-
分组栏拖入【订单编号】、【销售日期】字段
-
汇总栏拖入【销售额】字段,汇总方式选择:最大值
如果熟练掌握了前面几种去重计算方式的小伙伴,应该能很快想出解决思路:
首先,新增汇总列【最晚时间】:
-
分组字段:【订单编号】
-
汇总字段:【销售日期】
-
汇总方式:最晚时间
-
过滤条件选择按公式过滤
-
输入公式:销售日期=最晚时间
这样,我们就可以只保留每个订单编号对应的最新一条销售记录。
上面的结果中,AJ333仍然有2条数据,如果对于同一【订单编号】,只保留最新一天的最大销售额数据,这个应该怎么处理呢?
感兴趣的小伙伴可以自己动手尝试一下~
你还遇到过哪些去重计算的场景呢?欢迎评论区留言哦~
|