请上传宽度大于 1200px,高度大于 164px 的封面图片
    调整图片尺寸与位置
    滚轮可以放大缩小图片尺寸,按住图片拖动可调整位置,多余的会自动被裁剪掉
取消
zuozzz(uid:1148061)
职业资格认证:尚未取得认证
【2023BI数据分析大赛】旅游分析
一、选手简介 1、选手介绍 (1)团队选手版 团队名称:左左左的数分宇宙 队长介绍:左家骏 成员介绍:丁小飞、樊闯 2、参赛初衷 学习了两年的数据分析,想通过比赛来检验一下学习成果,也认识到自己的不足。 希望通过比赛实践提升BI工具的使用方法和技巧 和更多数据分析大神交流学习,进行数据可视化作品以及分析思维的激烈碰撞 二、作品介绍 1、业务背景/需求痛点 简述业务背景,如: 2023年是疫情结束后的第一年,预期2023年旅游业会迎来巨大复苏,旅游业收入会得到大幅增长,但2023年上半年的数据并不乐观。 简述需求痛点,如: 营销大区每月要做一次经营分析,从销售大区的核心指标开始分析完成情况,完成经营分析报告,并完成数据洞察汇报给营销线各负责人。 通过分析2022年和2023年劳动节期间本市景区的有关数据,来分析背后的原因,并结合游客画像及不同类型游客的景区游览路线。 2、数据来源 参考数据 3、分析思路 围绕分析主题,根据旅游业特征,借鉴电商的“人货场”三要素,我们总结了旅游的三个要素:人、出行方式、景点。 人:我们根据人的特征进行画像,比如性别、年龄、省份等等进行划分,其中我们以少年(18岁以下)、大学生(18-22岁)、青年(22-35岁)、中年(35-60岁)、老年(60岁以上)对年龄段进行划分。 出行方式:出行方式在数据中有三个方面体现,分别是:游客类型、来浙方式、购票渠道。 景点:对景点的分析方向分为:景点热度、景点评价两个方面,景点热度可以针对不同的年龄段进行对比分析。 整个分析流程为:描述性分析推断性分析建模分析得出结论。 以上是我们整体的分析思路,但因为身体抱恙,近期频繁往返于医院,部分分析未完成。 4、数据处理 1、首先进行简单的数据清洗,对一些字段进行一定的限制,比如各字段不能为空、年龄字段范围为0-100等等。 2、将整个旅游行业按照出行人群特征、出行方式、景点热度3个方面来进行第一个层面的分析,也是对单独的数据进行简单的描述性分析,如:年龄组成、性别比例、出行方式占比等。 3、对两个或多个数据进行推断性分析,如:不同年龄段对不同类型景点的偏好、不同年龄/性别在主门票/副门票等消费上的区别。 4、建模分析:根据对数据的解读,我们初步制定了借鉴rfm模型,以出行人数、评价均分、人均消费三个纬度来对不同的省份、年龄段来进行rfm模型分析,以得出最终推荐的广告投放目标人群。 5、可视化报告 (1)数据布局按照我们的分析思路从描述性分析推断性分析建模分析进行递进式布局 (2)通过分析得出的结论,如 男女出行频次比例接近1:1,但如果考虑到去重后,男女人数比例为2:1. 出行人群以青年(22-35岁)及老年(60岁以上)为主,其次是少年(18岁以下人群)、大学生(18-22岁),最后是中年(35-60岁) 来浙人群中购票渠道以美团、马蜂窝等第三方线上渠道为主,官网、线下窗口、官方小程序等官方渠道使用人数较少。 在来浙省份分析中,50%的人数来源于浙江、江苏、安徽、江西、福建、上海这6各省份,其中浙江本省出行占据25%。 出行方式的选择中,上海、江苏、福建、江西、安徽等浙江周边省份的出行方式以大巴、高铁、火车为主,在较远的省份出行时以高铁、飞机为主。 在景点收入方面,副门票及周边是景点收入重点,其次是主门票收入,最后是餐饮收入,其中副门票和餐饮收入趋于平稳,主门票收入中少年及老年收入较低,可能原因是因为学生及老年人优惠政策。 在景点热度方面,以主门票收入作为热度分析依据,其中人民剧院、奇妙世界、太阳岛、野生动物园、南山古镇、南山、Hive等为热点景区。但是南山、玻璃房、杜甫故居、李白故居、森林公园、大慈恩寺、金顶寺、市博物馆、矛盾故居等地有着较高的副门票及周边收入,结合景区信息维度表,景区以自然景观和人文景观为主更能吸引游客进行更深层次的游览。 最后是对景区满意度进行分析,其中杜甫故居、玻璃房、市博物馆等人文景观有有较高的环境满意度,服务满意度、项目满意度整体趋于平稳,桃子湖的满意度最低。 (3)可视化结果: 三、参赛总结 1、FineBI工具 在分析过程中,对纬度和指标的转化上没有很灵活,在分析数据时对有的数据的处理不是很明确,比如我想用bi工具实现计数功能研究了好久。 2、参赛总结 整个分析过程,也因为一点小插曲耽搁了进程,但好在有惊无险的完成了。 在分析思路上希望可以得到老师的指点,在bi工具的使用上还需要再精进。
【2022BI数据分析大赛】电商平台冰箱业务数据分析
一、作品选题 通过对国内某电商平台家电(冰箱)销售数据进行分析,窥探数据背后传递出的用户消费习惯及偏好。 1、选手介绍 团队名称:一马腾飞 队长介绍:帆软社区用户名zuozzz,账号id:1148061。 目前就职于华能太仓港务公司,目前在人资与党建部门主要独立负责工会工作。 成员介绍:帆软社区用户名88991122,账号id:1106276。 丁小飞,前端开发。   2、参赛初衷 也经过了一年的数据分析学习,借此机会检验一下自己的学习成果。   二、作品介绍 1、业务背景/需求痛点 简述业务背景,如: 互联网电商行业日新月异,针对国内某电商平台一日的冰箱销售数据进行分析,得出该电商平台冰箱消费用户的消费习惯,并给活动出业务建议。   2、数据来源 贪心学院课程:京东AI数据分析实训营。http://47.94.6.102/jd-Data_analysis/course-info/tree/master/ppt/jws/data/0816   3、分析思路 (1)观察数据 首先我们拿到数据后,观察数据集中的字段描述: t.user_log_acct, --用户账号 t.parent_sale_ord_id, --父订单号 t.sale_ord_id, --订单号 t.sale_ord_tm, --订单时间 t.sale_ord_dt, --订单日期 t.item_sku_id, --商品sku t.item_name, --商品名称 t.brandname, --品牌名称 t.sale_qtty, --商品数量 t.item_first_cate_name, --一级品类名称 t.item_second_cate_name, --二级品类名称 t.item_third_cate_name, --三级品类名称 t.before_prefr_unit_price, --优惠前单价 t.after_prefr_unit_price, --优惠后单价 t.user_actual_pay_amount, --实际支付价格 t.sale_ord_valid_flag, --订单有效标志 t.cancel_flag, --订单取消标志 t.check_account_tm, --支付时间 t.total_offer_amount, --总优惠金额 t.self_ord_flag, --自营标志 t.user_site_city_id ,--用户所在城市编号 t.user_site_province_id,--用户所在省份编号 t.user_lv_cd --用户会员等级 可以看到数据包括了订单信息(订单编号、价格、日期、数量等)以及用户信息(用户所在城市编号、会员等级等),整体数据以订单信息为主,所以我们在分析时侧重对订单的分析。 (2)数据清洗 在观察数据过后,通过字段之间的逻辑关系来剔除部分不合理数据,比如: 总优惠金额不得大于优惠前单价; 实际支付价格不得小于0; 支付时间不得早于订单时间;等 以及处理一些空数据: 对于用户账号为空时,我们根据空数据的数量可以直接删除整行数据; 用户所在城市编号及用户所在省份编号为空时,思考原因,若不影响分析过程则不作处理或赋予固定值;等 (3)数据分析 a.从单条数据维度进行分析: 比如通过对订单时间的统计分析,可以确定用户的下单时间规律; 通过对用户所在城市编号及用户所在省份编号分析,可以得出不同省市的消费习惯。 b.从数据整体进行分析: 比如通过对用户所在城市编号及订单数量、订单有效标志进行分析,可以分析出不同省的有效订单数量分布。   4、数据处理 (1)通过借助jupyter notebook对数据非空统计及数据的逻辑性进行分析: a.缺失值处理: 用户账号有5个空数据,基于数据量对分析结果不构成影响,直接删除这5行数据。 支付时间存在23271个空值,猜测原因是订单尚未支付,不影响分析,可以将其赋特殊值代替或者不处理 用户所在城市编号存在38190个空值,用户所在省份编号存在38033个空值,猜测原因是部分用户在填写个人信息时,因个人隐私等原因,未填或漏填了信息,不影响分析,可以用‘缺失值’代替。 b.数据逻辑错误 通过词条之间的逻辑性来分析数据: before_prefr_unit_price(优惠前单价)、after_prefr_unit_price(优惠后单价)、user_actual_pay_amount(实际支付价格)这三列数据应该大于0,total_offer_amount(总优惠金额)此列数据应该大于等于0。 同时优惠前冰箱的最低价格为288,有14252条数据最低价格高于288,是保修、返现等无价值订单,故只筛选出优惠前价格大于288的数据。 通过筛选后,符合要求的数据共计62379条。 c.去重: 删除sale_ord_id(订单号)重复的值,余下共计61535条数据。 (2)数据分析: a.宏观分析 在订单数据中分为有效订单及取消订单,统计取消订单及未取消订单的占比(见图一)及支付和未支付订单占比(见图二)。 图一 图二 对订单的价格分布进行分析(图三):可以看到订单价格为2800左右时,订单量达到总量的80百分之。 图三 对品牌订单量进行分析(图四):发现海尔、容声连个品牌占据订单量的30%。 图四 b.微观分析 订单数量: 从有效订单在时间上的分布(图四)及人均有效订单在时间上的分布(图五)来看: 图五--有效订单量 图六--人均有效订单量 可以看到在0点时,有效订单处于最高值,人均有效订单家出现了两个波峰,一个是晚上0点,一个是中午11点。 客单价: 我们对客单价及平均订单价(图六)进行分析:客单价及平均价格都在0点达到了峰值,在下午13点至晚上23点持续处于低值。 图七 针对0时的订单价格进行分析(图七):发现80%的订单的价格都小于4000,元,说明用户的购物喜好偏向于4000元以下的订单。 图八 不同品牌的平均支付价格(图九):西门子、松下、卡萨帝的客单价均超过3000元,其中卡萨帝超过了4000元,格力客单价超过了2000元。 图九 5、可视化报告 (1)数据含义表达和图表排版布局,如 在仪表盘的布局上采用了以分析类型来划分区域,左边一列的三个表格是针对订单量的分析。 右边一列是针对平均订单价格及优惠前后价格对比的分析图表,中间下面两个图表放置平均优惠金额及品牌客单价。 因为饼图及词云这种类型的图表表现数据形式较为直观,给人输出的观点比较清晰明了,所以放置在中间偏上的位置。 全局仪表盘图片: (2)通过分析得出的结论 通过对不同时段有效订单数量、人均有效订单量,得出用户下单集中在晚上0点, 通过对品牌的客单价及订单数量进行分析,得出用户更喜欢购买2800元以下的产品,海尔为最受欢迎的品牌,卡萨帝、西门子、松下三个品牌的平均价格均高于3000。 通过对以上的分析,得出以下结论: 用户更偏向于海尔这种客单价低于2800的产品,如果平台需要搞活动或推动品类的销量时,建议将优惠券发放时间或底价开售时间放在晚上0点,活动主要针对的产品为优惠后2800元以下的产品。   三、参赛总结 1、FineBI工具 FineBI最大的亮点就是自动绘制仪表盘的功能,而且仪表盘绘制结束后会带数据的联动,在一个组件中点击一个数据,其他的组件的表格也会相应的改变。   2、参赛总结 在第一次使用FineBI这个软件的过程中还是遇到了很多的问题,比如不太清楚在哪里可以键入公式,导致很多在python上的分析,在最终的可视化报告中并没有呈现出来,只能在数据分析部分以两个结合起来的方式进行展示。 在最后导出的部分,导出pdf只能很直观的呈现仪表盘,但是缺失了数据联动这一功能,导出excel也是,希望可以在后面的更新中,导出excel之后可以分sheet绘制表格,并且可以进行数据联动。
个人成就
内容被浏览14,526
加入社区2年246天
返回顶部