上百万行数据清洗,需要拆列处理,试试这个工具

楼主
九数云--人人可用的数据分析及可视化工具

在从各种来源(如数据库、报表、日志文件等)获取数据的过程中,数据的状态不一定会如我们想要的情况呈现,此时就要进行数据清洗和预处理

对数据进行拆列,使其达到我们需要格式或者状态是数据清洗和处理过程当中的重要一环。如将下列数据拆分成省、市,以便完成城市与城市之间的数据对比

用excel对数据进行拆列分析,通常使用提取函数left、查询函数vlookup和功能"拆列”进行处理,这些处理在日常进行数据分析的时候够用,但是当涉及到超大数据量的数据如百万行数据,或者复杂的字符串时就难以呈现。

百万数据量的拆列处理、负责复杂字符串的拆列处理,我们可以借助数据分析工具-九数云的【拆列】功能实现

 

一、九数云支持多种数据源,百万行数据可以直接导入进行数据清洗和预处理:

  • 本地数据文件:支持直接上传excel、CSV等本地数据
  • 支持通过agent客户端,直接连接本地数据库如:MySQL、PostogreSQL、Oracle、SQLServer、SQLite、Acess、ClickHouse等
  • 支持通过API取数
  • 支持云数据库如Miscrosoft SQL Server等
  • 支持直连电商数据:例如淘系(天猫、淘宝)、京东、得物、抖音、快手、拼多多、微信视频号、唯品会、小红书、小米优品等;跨境电商数据如亚马逊、虾皮、Lazada、Ebay、沃尔玛、速卖通、Shopify、店匠、Shopline等。
  • 公共数据源:如财经股票、国内统计数据等
  • 钉钉、简道云等九数云合作商数据也可直接连接

九数云可以直接连接多种数据源,免去下载到电脑占内存、卡顿的问题,直接开始数据处理

另外由于九数云可以直接连接多种数据源,在之中处理好数据后可以快速合并表格或者关联表格,免去后续数据分析烦恼

 

二、数据拆列实现过程:

九数云支持按照分隔符和Json方式对数据进行拆列

1、分隔符支持设置为制表符、分号、逗号、空格、其他,支持选择多种分隔符,选择「其他」时可以自定义分隔符(可以是文字);

  • 如下是一个包含50多万行数据的,现在要对时间进行拆列处理,分为年-月-日,三栏;

-点击右侧加号,将日期类字符转为文本字符

-继续添加分析步骤,在更多里选择“字段拆列”

-拆列字段选择销售日期-选择按分隔符拆列,仔细观察可以看到日期是用字符“-”分隔开的,这时我们选择“其他”输入“-”即可;再按照我们的需要将生成列数设置为3;

五十多万行数据的销售日期就拆分好了

我们可以根据需要双击表头修改名称,也可以根据需要直接删除拆分前的“年月日”列。

  • 分隔符“其他”支持以文字分割:如下销售地区拆分为城市+区域

-直接新建字段拆列步骤,选择分隔符“其他”,输入“市”,

-拆分为2行,即可完成

2、按Json方式进行拆列

如下是一份人员信息表,用json的格式展现了人员状态

-新建分析步骤选择-更多-字段拆列

-选择按照json格式进行拆列

-可以看到自动识别了生成列数,点击确定即可完成拆分

百万行数据清洗处理,需要强大的处理能力+好理解的处理流程+不需要操心”如何填充“的自动分析,这三点九数云BI可以全部满足,推荐使用!

分享扩散:

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表