数据清洗作为数据分析全过程的必要步骤,会占据分析过程的50%—80%的时间,其结果质量会直接影响模型效果和最终结论,而删除重复数据往往是数据清洗的第一步。
提到删除重复数据,一般都会想到利用Excel来处理,常见的处理的方式大概有三种:公式、删除重复项、高级筛选。然而,在使用Excel时很容易出现很多变数。
删除重复数据时“如何迅速汇总海量表格,将步骤化繁为简”成为人心所向,九数云功能之一就此应运而生。
下面小九就很多人在使用Excel删除重复项时经常出现的问题,谈谈如何用九数云轻松解决。
汇总庞大的数据,只能一一复制粘贴众多表格,还没进行到删除重复项的步骤,电脑早已严重卡顿。
某些数据有多个不同的值,无法选择第一项或者最后一项。
设置删除重复项的比较列时少选择了几列,导致误删数据。一步错步步错,发现筛选结果出错后只能从头再来。
版本低的Excel有时候用删除重复项和高级筛选功能达不到目的,只能利用公式:
-
用COUNTIF函数得出结果时,再筛选提取次数为1的数据实在太麻烦。
-
想用UNIQUE函数优雅地删除数据,发现自己版本不支持。
-
零基础小白想学习用普通数组函数提取,却只能看着复杂公式缓缓打出一个问号。
跳过由海量数据导致卡顿的“环节”,在九数云依次上传需要的表格后,就可以正式开始丝滑删除重复数据了。
点击示例表「重复数据>分析表」,选择「确定」创建分析表。
选择全部字段,然后点击「+」。
在「更多」中添加「删除重复数据」分析步骤,就可实现效果。
删除完重复数据后会自动进入预览界面,可以看到数据从40条变成了27条。
在使用Excel批量删除重复项功能的时候,往往只会保留第一条不重复数据。但倘若我们需要的是最后一条不重复数据,就南辕北辙了。
举个例子,公司名称存在重复记录,需求是保留有公司全称的数据,这时用Excel筛选就不太方便了,因为不能自由选择项。
九数云可以去重保留第一项或最后一项。
在正常删除重复数据后,将需要的字段从「分类」拖拽到「汇总」,再选择你要的项,就可达到部分去重计数的结果。
后续不想进行重复的步骤,可以点击「更新Excel」,上传新的表格后九数云将会自动复用上次的操作。
在删除重复数据时,九数云可以丝滑地分析百万数据,简化Excel的去重步骤,解决了使用Excel清洗数据会出现的问题。
相较于Excel的一次性分析模式,九数云能解放用户的双手,提供一种一劳永逸、事半功倍的数据分析模式:当用户的表格更新,只需要上传更新后的数据,然后等待九数云自动清洗数据即可。
|