一、选手简介
个人选手版
- 选手介绍姓名:帆软社区用户名晕晕cc,这是第二次参加此次活动,第一次参加完比赛后,公司刚好开启了数字化转型,为此我知道机遇将会不期而至,数字化的引进必然会驱动数字决策的齿轮,而我个人对数据分析领域较为感兴趣。
参赛初衷
- 新的一年里希望通过比赛提升BI工具的使用方法和技巧
- 结交到各行业志趣相投的人,共同学习
- 找到自己的不足,逐步进行完善
- 未来是留给有准备的人,希望大数据浪潮不被翻车
- 当然今年大赛奖励在去年的基础上番了好几番
二、作品介绍
- 数据来源:和鲸社区 幸福感数据
- 数据内容:幸福感数据
- 分析思路
- 拿到数据后首先对数据对于的字段进行了了解,主要有以下字段
- 幸福感数据
- 既然是幸福感分析,那么幸福感就是主要分析对象,但是其细分类太多,有点不好分析,故将幸福感分为了幸福、不幸福和不知晓三类
- 数据处理
- 从整张表的表名和表内容,可以看出12个字段,只有1个勉强算是数值型,9个是纯文本,2个里面既有数值也有文本,故对家庭常驻人口和家庭年收入进行了过滤处理。部分字段也进行合并组处理。
其实之前做分析的时候,很多都是指标字段,基本上找一个大概的思路就可以完成一条线,但是本次找的数据确实有点,指标字段完全是被我过滤筛选出来,如果不筛选,存维度进行分析,额,我还真不知道如何着手。
由于只有一张表,也省去了找各表之间的关联关系。
故对维度字段进行汇总
- 可视化报告
- 根据我将幸福感分为了三类,第一步肯定是做各类别占比情况,找出幸福感整体的情况。【用到了气泡图】
当然图形大家都会,主要是数据清洗方面做了大量的计算,如农村和城市幸福度占比,其农村幸福度占比为农村整体的百分比。
- 按幸福情况汇总累计
- 在统计类数
- 分组汇总
- 最后将所有的按此方法汇总
z最终组合布局,功能实现
-
-
- 维度指标分析完后,我开始对数值指标的分析。主要对幸福人群进行分析,【采用了箱线图】
大家首先可能会觉得青年、中年、老年是怎么来的,首先借用了年龄段的划分规则。一般来说:0(初生)-6岁为婴幼儿;7-12岁为少儿;13-17岁为青少年;18-45岁为青年;46-69岁为中年;>69岁为老年
那么年龄又是怎么来的呢?
说了这么多,这个图到底是怎么做出来的呢?FINEBI的标准功能中并没这个图形,大家查看帮助文档,其实也没。其实很简单,大家只要了解了这个图的底层计算逻辑,虽然复杂了点,但是还是可以做出来的。
箱线图的两个触焦,上限和下限,在定义中是这样写的。
下限 = max{Q1-1.5IQR,最小值}
上限 = min{Q1+1.5IQR,最大值}
而IQR=Q3-Q1
Q1其实就是第一四分位数,及数据从小到大排序后,25%的数值
Q3反之就是第三四分位数,75%的数值
- Q1
Q3同样的方式
- 上限
- 下限
这个制作比较简单就不过多说了
- 最后,对前三幸福感数字较高了三个特点维度字段就收入、年龄、人口展开了分析【主要用到了相关性】
前面说了这么多废话,我们来看最终效果图吧!
我一直弄不懂,为什么最终效果图要放到最后才展示,难道,楼主是希望帆粉们耐心的将前面一大堆废话看完后,才步入正题吗?
三、参赛总结
- 关于FINEBI工具
很多你想到了东西其实都可以通过它来实现,未知的探索性比较强,需要你自己慢慢琢磨。对于不懂编程的人来说,这款软件很实用,基本上我们不用写任何代码就可以绘制出你想绘制的图形。
- 参赛总结
- 爆肝了,说实话拿到这份数据的时候,确实压力挺大,寥寥几个数值,想挖掘有内涵的东西,有点难。基本上每个周末都在奋战💪
- 成长,通过对不同数据的接触,也让我懂得了纯文本的数据也是可以分析的。
- 感谢帆软,帆软一年一度举办的比赛还是十分有意义,既可以鼓励那些热爱数据分析的人,同时也可以检验大家对数据分析的全方位能力,我承认我自己并不是一个十分努力的人,但是我相信遇见一群热爱学习的人,即使你再不热爱学习,也会被他们带动。加油吧!少年。
|