1.选手简介
1.1 选手介绍团队名称:脑门渐秃终不悔
1.2 参赛初衷- 作为BI的技术人员,不希望只局限在数仓,ETL等,希望同时能掌握整条线的能力,包括报表的制作与分析
- 比赛追求不是结果,而是追求比赛过程,希望通过实践学习Fine BI操作的方式方法,提升职业技能
2.场景介绍
2.1 业务背景介绍&数据来源
2.1.1 业务背景
数据集是来自阿里天池平台的2014年11月18日至2014年12月18日淘宝数据,主要记录的是客户购买行为(浏览,收藏,加入购物车,购买)以及行为发生时间。通过此次的用户行为分析,了解电商关注的重要指标,学习数据分析的基本方法以及Fine BI的基础操作及使用。
2.1.2 数据来源:
选取了2014年11月18日至2014年12月18日之间,有行为的约一百万名随机用户的所有行为(行为包括点击、购买、加购、喜欢),分析了用户行为与商品规律。数据集大小情况为:用户数量8477,商品数量约701552,商品类目数量7095以及总的淘宝用户行为记录数量为1048475。
数据整体情况参考如下: 字段 | | | | | | | | | | | | | | | | | | | | | | 类型包括点击、收藏、加购物车、支付,分别用数字1、2、3、4表示 | | | | | | | |
2.2分析思路根据用户的行为特性对用户进行分类分析,统计不同特征下的用户数量、分布,分析不同群体的分布特征,通过分析可以了解行业动态,比如人群消费习惯、消费偏好分析、以及不同地域的消费差异情况。
根据现有数据及分析目的,从从以下角度进行分析: - 用户购物情况整体分析:以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯
- 商品购买情况分析:从成交量、人均购买次数等指标,探索用户对商品的购买偏好,了解商品的销售规律
- 用户行为转化漏斗分析:依据点击、收藏、加入购物车以及购买四种行为进行分析
- 用户地域分析:找出各区域的商品销售规律
- 对商品的销售情况:商品的销售类目以及销售量,优化商品营销策略
2.3 数据整理
2.3.1 数据清洗
- 缺失值处理:在创建表格的时候,5个字段均定义为NOT NULL,数据导入保证没有缺失值。
- 一致化处理:转换时间数据类型。
- 数据异常值处理:检查日期是否在规定范围内。
- 时间处理:增加一列hour,故数据源中含有年月日,年月日时间两列数据。
- 行为类型数字更改为指定字符:
update test.user_behavior_list set behavior_type =replace(behavior_type,1,'点击');
update test.user_behavior_list set behavior_type =replace(behavior_type,2,'收藏');
update test.user_behavior_list set behavior_type =replace(behavior_type,3,'加购物车');
update test.user_behavior_list set behavior_type =replace(behavior_type,4,'购买');
- 地理位置处理:因原表结构中并无地理位置信息,故在数据库中将城市信息随机对应到用户ID中。
最终表结构如下: 表名
| test.user_behavior_list
| 列名
| 字段类型
| 注释
| user_id
| varchar(255)
| 用户ID
| item_id
| varchar(255)
| 商品id
| behavior_type
| varchar(255)
| 商品类目id
| item_category
| varchar(255)
| 行为类型
| time
| timestamp
| 时间戳
| hour
| timestamp
| 时间戳
| country_id
| varchar(255)
| 国家编码
| country_name
| varchar(255)
| 国家名称
| area_id
| varchar(255)
| 地区编码
| area_name
| varchar(255)
| 地区名称
| province_id
| varchar(255)
| 省份编码
| province_name
| varchar(255)
| 省份名称
| city_id | varchar(255)
| 城市编码
| city_ name
| varchar(255)
| 城市名称
|
2.3.2 构建模型
用户购物情况整体分析 - 这一个月里PV(浏览量),返回结果是:987819
select count(behavior_type) as 浏览量 from Test.user_behavior_list where behavior_type='点击';
select count(distinct user_id)as 用户数 from Test.user_behavior_list;
- 平均访问量是: 987819/8477= 116.5,即每个用户平均访问了117个页面。
select time,count(behavior_type)as 访问量 from Test.user_behavior_list where behavior_type='点击'group by time;
select time,count(distinct user_id) as 访客数 from Test.user_behavior_list group by time;
alter table Test.user_behavior_list addcolumn hours varchar(25) not null; update Test.user_behavior_list sethours=left(times,2); select a.hours,a.访问量,b.访客数 from (select hours,count(behavior_type)as 访问量 from Test.user_behavior_list where behavior_type='点击' group by hours)a inner join (select hours,count(distinct user_id) as 访客数 from Test.user_behavior_list group by hours)b on a.hours=b.hours;
select hours,count(behavior_type)as 成交量 from Test.user_behavior_list where behavior_type='购买' group by hours order by hours;
2.4 完成分析报告
2.4.1 可视化图表的选择和制作步骤
①添加计算字段 ②选取合适的维度以及指标,图表类型 ③调整图形属性以及组件样式
2.4.2 通过分析得出的结论
- 全国各地用户分布情况,从此图来看,广东以及沿海地区用户数相对来说较多。西部地区是接下来要推广的重点。
- 品类喜好TOP20,说明这20种商品更受大家欢迎,可考虑是否作为后续发展的重点品类
- 行为漏斗图,用于表达各种不同用户类型的行为量,点击与其他行为的转化率较低。
- 在这段时间中,几种用户行为都在12月12日这一天有爆发式增高
- 大部分用户在下午晚上会比较活跃,其中21到22时,是一天当中最活跃的时段,成交量也是这一时段最高。建议可以在用户活跃的时段进行推广以使运营效果最大化。
2.4.3 排版布局&设置颜色
- 在仪表盘主题选择完毕后,图表依据主题色进行调整,一是如上图可在仪表盘样式中做一些简单的图表颜色调整;二是可直接进入图表设置界面对图表颜色进行设置。例如,地图中采用区域渐变
2.4.4 最终结果呈现的页面布局
2.5 总结
通过这次参赛让我俩收获颇多,虽然过程很辛苦,因为工作原因只能在下班后才能进行学习和参赛制作。但同样让我俩养成了下班回家学习的习惯。参赛过程中遇到了许多之前没遇到的问题和困难,但通过互相讨论分析将问题一一解决。通过参赛学习提升了掌握整条线的能力,包括报表的制作与分析。并且通过实践学习FineBI操作的方式方法,提升职业技能。总之,虽然比赛的结果是重要的,但是,在准备的过程中收获的东西更真实,更有意义,我们收获了并快乐的体验着这个过程。
|