【2020冬季挑战赛】第六次人口普查分析
1.选手简介
1.1选手介绍帆软社区用户名:普天堡小兵职业简介:某公司IT,BP性质,不是专门数据人员,涉及到IT的都接触点。
1.2参赛初衷去年开始接触帆软,陆续自己琢磨搞点分析场景。今年上半年疫情关系工作比较少,抽空过了资深BI认证,越发了解到帆软在自己的圈子里已经是BI领域的领头羊。本次的比赛有关于数据认证的奖励,现在随便一个认证培训+考试动辄大几千,这是本次参赛最大的动力。
2.场景介绍2.1业务背景介绍&数据来源
业务背景:一开始就想趁热点,比如RECP分析(成员国贸易、成立的原因等等),前期也按照这个方向做了,但是实在找不到合适的数据;后面也想过做个中印军事对比,但是数据都是来源于某个新闻片段。10月份的时候老婆参加了第七次人口普查,有几次任务紧我也帮忙填报了些数据,对人口普查有了简单的了解。但是七普的数据还没公布,所以本次找了六普的数据。
需求背景:确认好主题,加上最近对接类似大屏总览性质的,能够一眼让用户看出数据背后的重点内容。虽然大部分人都听过人口普查,但是大多只停留在总人口、出生率和男女比例这些。由于六普的数据很多,维度广泛,所以就选取个人认为比较重要的几个子场景,力求让人对人口普查数据反映的背后问题有直观的人士。
数据来源:六普的数据直接取了国家统计局官网
138843
2.2分析思路最先想到的是摸清家底,全国和自己所在省得情况。还有就是日常生活中经常提到人口大省、男女比例失调等问题。其次是国家花大力气做人口普查是希望能从数据反馈目前国内的社会问题,以便制定治理策略。于是大致找到我国与人口相关的如人口红利、老龄化、光棍、民族统战、小家庭和住房等问题。
通过上述的问题再对应进行归纳整理,详情见下图。138845
2.3数据整理数据都是全国家统计局下载的,下载完先到excel整理成能导入FBI的格式,并做了简单的数据清理与行列转换等操作。138847所有的原始和初加工数据138850
下载的数据138852
此部分数据只考虑整体的情况,删掉了按照年龄的维度。同事删减了表头,做了行列转换。138855大部分数据表直接用即可,只有年龄和民族这块做了二次加工,以年龄为例:
138858由于要分析人口红利和老龄化问题,需对应15-65和65以上人口,因此加了分组赋值。
138861由于下载的占比数据百分比是数值,转换成小数。性别比通常都是数值显示,因此没转换。
138863省份的概览用了普通地图,七普是有户籍所在地和实际所在地的,如果是这种可以用流向图。配色用的是蓝色的渐变并按照人口区间变化。
138865人口top分析主要是通过设置过滤条件实现的
138866人口低于十万的用的是指标卡,没用词云(毕竟每个民族都是一样的)。过滤掉十万以上的民族和无民族的数据。
138870户数及户代分布用的是堆积柱形图,既要展现每代的户总数也要展现几人户的情况。
138871由于每个户规模有且只有一个户规模有数据,因此把总户数的标签放在一人户以展示。
138873死亡人数统计设置如上,整体大小可以通过滚动条设置,形状可随意设置。
2.4完成分析报告图表的选择主要是根据想要突出内容来,重点指标用指标卡,突出占比用饼图或者面积图(指标差异较小的场景),统计的话根据需要灵活使用各类柱形图(堆积图、对比柱形图等)。设置步骤上面已经说过了。
得出的结论包括全国的人口概况,部分人少的少数民族需加大保护政策、老龄化人口占比较多、65-70年和85-90两个年龄的生育高峰、高龄人口女性占比远远大于男性占比、高等教育还需继续普及等等。。。
排版布局选择一行是一个子场景,一般用两到三个组件组成,较小的子场景两个合并成一行;整体配合按照大屏最经典的蓝色背景为基调,遵循少即是多原则辅助配合白色。
2.5总结本次参赛碰到年底工作较多,加之决定参加的时间很晚,整个作品是5号6号两天赶出来的。自己最初想做的主题也没有做,选了个备胎。下次有机会好好准备的吧。138913
140400