一、选手简介
1、选手介绍
团队名称:扬帆起航队
队长介绍:黄志星,目前就职于北京市电信工程设计院有限公司,属通信行业;目前从事设计工作,个人自学对数据分析和数据挖掘都很感兴趣,主要是关注电商方面
成员介绍:如,
团队组成:比赛群内邀请而来
Amy:公司福莱,交通运输行业,职位为项目经理,科班出生,数据库和财务研发物流项目都接触过,但是缺少实操
杨波涛:公司广州纳诺,数据分析行业,职位为bi数据分析,做过航空数据和金融数据的数据分析
林佳纯:税务专业在读研究生,有审计经历,刚接触数据分析,还在自学中,会一些基础的excel和简单的sql
熊宇量:公司渤海证券股份有限公司,金融行业,职位为运行服务部副经理,MBA研一在读,数据库DBA转型数据分析
林好:公司欧科,职位为数据分析,了解数据分析,pandas,excel,powerbi基础及公司用的mongDB和会写一些python
2、参赛初衷
简单介绍下参赛的初衷,如:
希望通过比赛实践提升自己的数据分析能力和可视化工具的使用展现能力,提升自己的数据敏感度及思维和培养数据洞察的能力
通过比赛实践了解自己数据分析能力的水平,发现思维和思路或分析方法使用等可能的欠缺的地方和漏洞
“莫问收获,但问耕耘”,比赛结果不是我过多去追求的,享受的是比赛过程,享受它带给我的快乐,激情,经验,收获,比赛过程是让我成长过程,是超越自我的过程。
回首自己从零开始,向优秀的团队成员学习,一点一点掌握,克服困难,这个比赛过程让我享受到比赛的酸甜苦辣。追求的不是比赛结果,而是过程,超越自我的过程。
在繁忙的工作中,重新找回校园里的拼搏回忆。在亿万个终端背后,与一群素不相识的有梦人,为同一个小目标而努力。在数据的框格中探索不同属性特征,用巧手拼织一幅赏心悦目的图表。把数据搓碎了去,把字段缝合了来,用最简单的数据食材,荟萃出垂涎三尺的美食图谱。在这个过程中提升自己的数据能力,细细研究每一个字段字符的深层次含义,再将它们宏观运用起来,这就是我的参赛初衷:成为一名数据大厨!
二、作品介绍
注意!作品介绍主要目的是体现作品的分析过程:业务背景/需求痛点是什么?→拿到数据如何思考?→如何利用FineBI进行分析?→最终的结论/心得/体验/困难/分析结果图。下述模板供参考,可围绕以下维度进行适当调整。
1、业务背景/需求痛点
简述业务背景,如:
Wish平台是一个专注于移动购物的跨境B2C电商平台,核心是通过精确的算法推荐技术将商品信息推送给感兴趣用户,再以亲民价格售卖商品。
简述需求痛点,如:
看好Wish平台移动端流量和推荐算法的巨大潜力和优势,打算入驻开店售卖夏季女装,需要对现平台内的夏季女装市场销售情况进行分析,从而得出一定的商家经营和商品选型等各个方面上策略或者建议方向
2、数据来源
自选数据:个人获取数据:kaggle平台中公共数据集(Sales of summer clothes in E-commerce Wish)
(https://www.kaggle.com/jmmvutu/summer-products-and-sales-in-ecommerce-wish)
序号
|
数据源名称
|
数据集类型
|
内容描述
|
1
|
ummer-products-with-rating-and-performance_2020-08
|
csv
|
wish平台2020年夏季时,直接搜索”summer”时出现的产品所爬出的数据
|
2
|
unique-categories.sorted-by-count
|
csv
|
wish平台2020年夏季时的搜索热词的搜索次数的数据(进行了去重排序)
|
3
|
world-point
|
json
|
国家对应经纬度,finebi系统自带表
|
自造数据部分
|
|
|
|
1
|
国家和地区代码列表
|
xls
|
代码匹配国家,网络查找自己个人制作的
|
3、分析思路
拿到数据后你的分析思考过程(可附结构脑图),如:
数据分析步骤
以目的为导向:
目的是得出平台上的夏女装销售相关结论,并就趋势给出相关建议或者策略
方案设计:
经过演绎线索4W模式进行拆分,同时需要结合考虑三点<分析框架+数据集信息+平台业务特性>
分析框架:
触发商品购买的个人逻辑思路:
人(自身附带的信息)+商品信息(商品自身展示信息)+行为信息(行为反映心理)=触发达成购买目的
说明wish平台下夏女装整体销售情况和细分不同维度观察销售和相关情况 按数据集所分模块进行各个模块进行分析 <市场表现,商品,商家,标记,评价和配送模块>
从商品和商家两个维度,分析成功和失败的原因及可能的因素(时间不足无法具体以个体商品和商家进行深入分析,本次不进行分析) 从市场大面和细分维度入手,分析出可能会对销售情况产生影响的因素,并对因素重要程度进行排序,找出最大差异点 按照数据集所分模块进行各个模块进行分析
对商品和商家两个维度,分别针对成功和失败的分析结果,提出有效建议(时间不足无法具体以个体商品和商家进行深入分析,本次不进行分析) 根据市场大面和细分维度中得出影响销售情况的因素,提出有效的改善建议或者策略<优势增强,劣势改善> 根据模块结论得出改善建议或者方向策略
对行业发展趋势,从穿衣种类,风格,品类,材质,使用场景,产地和消费敏感度等因素进行分析展望(时间不足以提取特征进行深入分析,本次不进行分析)
②数据集信息: 对summer-products-with-rating-and-performance_2020-08.csv进行特征分类,分出多个不同主题的模块,对不同模块排分析的优先顺序 顺序:市场表现模块→商品模块→商家模块→标记/徽章模块→评价模块→配送模块
Feature(自有) |
特征 |
补充说明 |
price |
价格 |
实际为折扣价(成交价) 但是会存在爬取时候出现有误(爬到以US为单位的price) |
retail_price |
零售价 |
原价需要注意货币类型 |
units_sold |
销售数量 |
产品列表的整个生命周期内销售的产品数量 |
currency_buyer |
价格结算单位 |
均为EUR |
inventory_total |
库存量 |
所有特定组合的总数,一般设置在50个以内[n1] |
has_urgency_banner |
是否有抢购标语 |
|
urgency_text |
抢购标语内容 |
搜索夏季产品时出现的内容 |
衍生部分: |
|
|
discount_price |
折扣价(成交价) |
清洗price调整后新建的 |
discount |
折扣率 |
=(零售价-折扣价)/零售价*100 |
sales_numer |
销售数量 |
同unit_sold只新增 |
sales_amount |
销售金额 |
=销售数量*折扣价 |
Feature(自有) |
特征 |
补充说明 |
product_color |
示例产品颜色 |
|
product_variation_size_id |
示例产品尺寸(之一) |
|
product_variation_inventory |
产品特定组合的库存 |
特定组合(大小-颜色)的可用数量 |
orgin_country |
原产地 |
|
product_url |
产品链接 |
|
product_picture |
产品图片 |
|
product_id |
产品ID |
平台上的ID |
衍生部分:[n2] |
|
|
tag_new |
单关键词 |
按每个tags进行切词,去停用词,进行拆分出多行单个tag一行进行处理,需要小写化,同意转化 |
tags_len |
关键词个数 |
tags长度 |
Feature(自有)
|
特征
|
补充说明
|
merchant_title
|
商店名称
|
|
merchant_info_subtitle
|
商家部分信息显示的(UGC数)
|
未加工,和商家名称接近,数据集过小,作者不建议使用部分好评率和note数
|
merchant_name
|
商户名称
|
|
merchant_rating_count
|
商家评分计数
|
|
merchant_rating
|
商家好评率
|
|
merchant_id
|
商家ID
|
|
merchant_has_profile_picture
|
商家是否有个人资料图片标记
|
|
merchant_profile_picture
|
商家图片链接
|
(空值较多)
|
衍生部分:
|
|
|
得分区间
|
商家被评分的区间
|
Excel中增加辅助列计算获得
|
Feature(自有)
|
特征
|
补充说明
|
merchant_title
|
商店名称
|
|
merchant_info_subtitle
|
商家部分信息显示的(UGC数)
|
未加工,和商家名称接近,数据集过小,作者不建议使用部分好评率和note数
|
merchant_name
|
商户名称
|
|
merchant_rating_count
|
商家评分计数
|
|
merchant_rating
|
商家好评率
|
|
merchant_id
|
商家ID
|
|
merchant_has_profile_picture
|
商家是否有个人资料图片标记
|
|
merchant_profile_picture
|
商家图片链接
|
(空值较多)
|
衍生部分:
|
|
|
得分区间
|
商家被评分的区间
|
Excel中增加辅助列计算获得
|
Feature(自有)
|
特征
|
补充说明
|
rating
|
得分
|
根据买家的评价得出的分数,通过不同的评论不同颗粒度就有小数
|
rating_count
|
评分的个数
|
|
rating_five_count
|
评5分的个数
|
用来计算得分的
|
rating_four_count
|
评4分的个数
|
用来计算得分的
|
rating_three_count
|
评3分的个数
|
用来计算得分的
|
rating_two_count
|
评2分的个数
|
用来计算得分的
|
rating_one_count
|
评1分的个数
|
用来计算得分的
|
衍生部分:
|
|
|
chinese_name
|
买家国家
|
连接国家和地区代码列表获得
|
Feature(自有)
|
特征
|
补充说明
|
shipping_option_name
|
配送方式
|
|
shipping_option_price
|
运费
|
|
shipping_is_express
|
是否有快递标记
|
|
countries_shipped_to
|
可配送至的国家代码
|
可查询对应代码,引入连接新表国家和地区代码列表
|
衍生部分:
|
|
|
path
|
原产地-配送地
|
新增字段
|
chinese_name
|
连接来的中文国家名
|
连接表字段
|
phone_number
|
用的国家代码为连接键
|
连接表字段
|
距离/km
|
两国距离
|
通过经纬度计算得出
|
热词搜索模块(补充用)
Feature(自有)
|
特征
|
补充说明
|
keyword
|
搜索关键字
|
|
count
|
计数
|
|
构造自助数据集的思路
选出自身属性特征(含构建的部分)+价格+可能影响大面特征<销售金额,数量,单价,折扣率> 从而造出各个模块的源表
平台业务特性:
作为欧洲和北美第一大移动电商平台,市场定位的是欧美发达地区,是以数据分析发家的一家专注于移动购物的跨境B2C电商平台
过去成交客单价较低,但是目前开始上浮
物流方式不成熟,都是以自发货为主
平台的产品审核严格
不能以任何方式索要好评,刷单无效,好评真实可靠性更佳
平台根据用户喜好,通过精确的算法推荐技术,将商品信息推送给感兴趣用户,精准定位
算法是根据满足的依据越多,系统就越多的给你推送,但是如果出现被判定不满足依据要求时候,会将推送机会转给符合要求的商品,出现流量骤降的情况
title和tags是用来匹配用户的,直接的影响到商品的流量大小
没有类目设置,商品依靠tags和title被用户找到,而且平台是弱化搜索而强用户推荐的,因此标签作为被匹配起到至关重要的作用
分析思路:
按模块进行拆分:
市场表现:
先看大盘趋势,再看具体的市场表现,最后看细分领域上的销售情况差异 按照这样一个顺序进行展开分析
细分领域: 是依据一个场景来作为线索来出现先后的,一个商品得有初始库存,然后商品有零售价,但是商品销售状况不佳,就需要促销,从而需要进行打折其中就涉及到折扣率和折扣价了
商品模块
商品购买:基础是由两方面组成得,先有喜好,再进行购买
其中喜好都是由商品信息展示而成得,因此对商品所带得信息进行分析,本次暂未考虑到其他影响因素,由于时间不足
而购买方面主要是价格问题,考虑零售价,折扣率和折扣价三方面进行综合分析
商家模块
1)首先分析商家得分情况,将商家得分分成4个区间。计算全部商家好评得分平均分为4.04分。商家好评得分趋势集中,商家得分区间统计情况:4.5分以上商家数量5个,占比0.52%;4分-4.49分商家数量597个,占比62.54%;3分-3.99分商家数量352个,占比36.82%;3分以下商家2家,占比0.02%。商家得分比较集中,在4分-4.49分区间商家最多。 2)并行分析商家好评次数统计情况,通过得分区间和评论数区间两个维度的统计,4分-4.49分区间商家获得评分次数最多;获得5000次以下评分的商家数量最多。商家的好评次数集中度较高 3) 在 1)、2)商家得分与好评次数分析基础上,分析商家销售额,折扣率等情况,得出4分-4.49分区间商家销售量、销售额最大,商品折扣率与商家得分无线性联系。 4)根据以上分析,销售量、销售额较好的商家集中趋势较高,得分与评论数是商家服务质量的直接反应。新进入商家可以参考评分在4分-4.5分且评论数较高的优质商家运营情况,提升投入与产出性价比。
标记分析的思路:是从商品开始出发的,先有商家进行对商品进行tag和title进行定义作为预导引的作用,后面经过一定销售,出现UGC沉淀和平台对商品的标记,再后来为平台对商家进行标记这样一个线索先后的顺序进行展开分析
先提出相关问题,按照先分析买家评价,后分析商家评价,最后落实到实处评分的具体情况,从而得出相应的结论和建议
核心线索思路:配送就单点从起点到终点进行运输商品的过程,其中就涉及到流程中的方方面面了,从起点,商品,中间运输过程,到终点,按照此先后顺序进行展开分析
4、数据处理
可视化分析之前你进行了哪些数据处理,如,
如何使用自助数据集进行数据处理的?遇到了哪些困难,如何解决的?(不一定要每一步都描述详细,挑重点、比较复杂的描述,配上截图,方便评委和读者学习)
Finebi处理 部分新分组,重新归类整合等
对颜色,尺寸进行归类整合
对匹配不到的地区进行再归类
基础处理python清洗,造出源表
Python清洗思路和步骤…
步骤:
(1) 导入数据
(2) 处理重复值:
a) 删除重复的记录
(3) 处理缺失值,区分缺失值的类型:
a) 缺失比例过高且价值不大,大于80%比例,进行删除处理
b) 数值型:
i. Null类型缺失,使用0进行填充
c) 类别型:
i. 是否类别类型缺失,使用相应默认的非的字段进行填充
ii. 其余类别类型缺失,使用众数进行填充
(4) 处理异常值
a) 处理price>retail_price的异常,方式:针对对price>retail_price的情况进行price*0.8432的处理,由于爬取到的是美元,本表price中使用的价格单位是EUR,因此进行了转换
(5) 新增必要的基础字段
a) 增加discount字段,折扣率(零售价-折扣价)/零售价*100%
b) 增加sales_number和sales_amount字段,销售金额字段=sales_number*discount_price(原折扣价改名)可得
(6) 可能需要特别造的字段(不一定),本次特例进行文本处理
a) Tags小写处理
i. Pandas自带的str向量化lower函数
a) Tilte和tags同义词统一化处理
i. 同义词统一化处理函数
a) 本也有假设从tags中使用停用词的帆帆是
i. 本也有假设从tags中使用停用词反方式获取商品的品类,风格,材质等信息,但是实际需要构建品类库,风格库和材质库,未有时间进行构建完成(tags中拆分的关键词就多达2000多个,还有部分未有空格拆开连着写的所谓的关键词)
分模块数据处理
市场表现模块
构建市场表现所需自助数据集
根据分析思路,原数据表特征比
自有特征:
销售金额(已构建)
|
sales_amount
|
销售数量
|
sales_number
|
SKU库存
|
Inventory_total
|
零售价
|
Retail_price
|
抢购促销类
|
Has_urgency_banner,urgency_text
|
需要构造的衍生特征:
折扣
|
=(零售价-折扣价)/零售价*100
|
件单价
|
=销售金额总和/销售数量总和
|
市场表现源表
市场表现聚合表
市场表现汇总信息表
商品模块
使用python进行处理,造出tag单标签表和tag长度表
- 使用jieba进行分词处理,根据stopword.txt进行停用词移除处理
- Tag单标签表<对每一个tag进行拆分成一个单独的行记录>
- Tag长度表<对tags进行拆分计数作为新列来构建>
商家模块
- 基于summer-products-with-rating-and-performance_2020-08_new表上构建商家数据集。在merchant类中选取商店名称、商家评分计数、商家好评得分、销量、销售额、折扣率等字段,设置辅助字段-得分区间。
- 为了方便统计,将商家好评得分数字格式设置为数值,小数点保留位。根据商家好评得分,设置得分区间对应值。
标记模块
- 使用python进行处理,造出title单标签的表
- Title单标签表,同上操作
评价模块
- 使用python进行重新获取需要内容进行造表
- 使用pandas模块进行提取需求列构建新的dataframe进行导出excel
配送模块
- 做流转地图的操作
- 我是从finebi中进行造足够的字段和聚合(分组表,根据Orgin_country 和由countries_shipped_to及国家和地区代码列表.xls连接出配送地国家作为维度聚合出sales_number)
- SQL可以删除null行不要取 也可以excel去空行重新复制一遍
- 再放到finebi中进行流转地图设计
- 制作国家间距离表
- 源finebi系统的文件:
2)商品模块:商品颜色多偏好黑色,尺寸多为S和XS,原产地多为中国,库存多为40-50,可以优先考虑商品这些属性的选型,选择黑色,S和中国的商品,tag多为dress,top,short和casual可以优先选择这些类型的商品来出售
- 进一步由于这些商品的优先属性进行反过来选择更为贴近优先属性的商品,从而进一步指导商品选型, 也可以说tag影响了商品的选择, 但是tag的设定还源自于商品本身,不可不对应商品的特性
3)商家模块:
- 商家得分均值为4.04分,且得分较为集中,商家竞争激烈,好评得分差距较小;普遍获得5k次评价的商家数量最多,可以考虑对商家的得分建设的一个思路,可以去衡量怎么使用较为合适的成本去达到本区间或者更高的评分区间和评价数量是否足量的考虑 去考虑怎么样构建一个足够需求对商品销售有加成增益的印象
4)标记模块:数据是不全无法给出结论
5)评价模块:
- 评分多为5分,最喜爱的商家是New Lucky,且好评率高达84.07%
韩国买家评价普遍较高,可以基于此主打韩国买家,还需要考虑买家评价数量,是否能依靠韩国买家进行整体评分的上升是个可以考虑的思路,把资源都打在刀刃上用到能实际提升的地方 买家评价3.5-4.4分这个区间的买家购买数量最多且贡献了销售金额接近9成,可以基于此对买家评分进行重点服务,这个评分区间的买家特异性服务,可以有效提升购买数量,服务一定的程度上的迁移,甚至可以为优惠等价格优势
6)配送模块:
- 主要商品原产地为中国,配送国多为瑞士,奥地利,罗马尼亚,匈牙利和荷兰等欧洲国家
- 接近97%的商品配送方式均为Livraisonstandard,商家在选择配送方式可以优先选这个
- 大部分欧洲国家对舒适度和海岛国家对沙滩类女装更感兴趣,颜色也多为黑色和白色,可以重点针对这些国家进行特异性的品类和颜色上的销售
- 韩国消费水平较高,可以适当增加对韩的销售策略上的偏重;印度和阿富汗地区的消费水平较低,可以适当调整减少对这类国家市场的投入
三、参赛总结
1、FineBI工具对BI工具的看法:
对数据分析的价值的思考
- 把业务总结成数据,又用数据去反馈业务,总结的形式就是BI报告,数据和业务相辅相成
- 通过对数据的一系列处理,发挥数据的社会价值,给我们的生活带来更多的便利
- 帮助公司解决很多业务问题,通过数学模型,可以预测公司未来的走向,指导公司的战略方向,调整公司的运营策略以及执行方案
- 通过数据分析,去了解业务也不仅限于的真实情况和可能未来趋势,基于此去指导下一步业务开展方向,类似从历史数据中获得一定的真知一样,代替经验主义,更为客观且全面,更具有指导意义,更进一步去指导我们的方方面面,充分认识我们的方方面面
2、参赛总结总结谈谈在这个过程中的克服的困难、遇到的人、感恩的事儿、认知新感悟等等,如:
以下为个人总结:
脏辫儿:
首先感谢团队队长的艰苦付出,在负责模块过程中有不懂的请教队长,他都会耐心细致的解答,而且不知疲倦的督触我们,给我们很多前进的动力;其次也感谢各位队员各自的奉献,为做好这份分析付出了许多的熬夜和艰辛;最后,通过这次的数据分析活动也结实了很多伙伴,自身也得到了成长和锻炼。希望以后FineBI工具做的更好,也推广的更好,能得到更多的企业和数据分析人员使用,祝愿越来越好。
大鹅鹅鹅鹅:
对于团队比赛来说协作很重要,如果不能确保自己能百分百投入就不要轻易参赛给别人拖后腿了。另外不同工作领域的队友对待问题可以从不同角度给出想法,是一件很酷的事情!
考虑通过搭建会员体系增强用户粘性以促进商品销售
会飞的熊:
Finebi使用不熟悉,较为难用
通过这次比赛,虽然准备的时间很短,任务较多,小组成员都是线上沟通,但小组成员的个人能力和综合素质还是在作品中得到了完美的体现,数据展示大屏精彩内容多多。同时我们也看到了与其他优秀队伍的差距,也发现了自身的问题,从这次比赛中我也发现了自己在数据分析思路方面存在不足,个人基本功不够扎实,数据分析能力还有提高空间。
Redm1:
克服困难:找到数据与数据之间关联,并找到多种类似关系
感恩的事:有大佬带
遇到的人:网上素不相识的有心人,能帮助我们指点方向
认知感悟:人生苦短,Python代码写太长
Nari:
克服的困难:时间上安排,任务上的安排,时间上的不充裕,finebi上的使用不熟练
遇到的人:各个行业的大佬一同发表不同观点可以互相学习长进
感恩的事: 学习吸收不同行业的大佬的不同意见来自不同角度的思考碰撞,真实数据分析师的实际工作经验的了解和认知 都对我自己认知层面一定程度上的提升
认知新感悟: 通过比赛展开自己的思维和思路,分析落实于实处,逻辑流程更为清晰,进一步提升自己对数据分析上的深度认知
目的导向 分析内容 分析所需指标 怎么分析指标 可视化分析 形成分析报告 美化调整分析报告
夏女装分析最终1.pdf (5.5 M) |