一、选手简介
1、选手介绍
个人选手版
- 个人介绍:huangzhuying(uid:226358),已获得帆软FCRP、FCRP-D、FCBP职业资格认证;参加过2022年FineBI数据分析大赛;目前就职于**科技有限公司,数据工程师岗位。
- 个人照片:本人为个人选手参赛,给自己取的参赛队伍名是“么么儿队”,那就附上我心上熊么么儿的照片吧!
2、参赛初衷
- 2022年参赛时FineBI的版本还是V5,目前已更新至V6。希望通过2023年度的比赛,刷一遍新版本的功能,同时提升FineBI工具的使用方法和技巧。
- 与更多的FineBI使用者交流学习。
- 得到评审老师认可,最好得到大赛奖励。
二、作品介绍
1、业务背景/需求痛点
分布在中国31省份的大学数量及其高校资源是不均匀的,其差异体现在哪里?落址于省份的高校数量是否会影响该省份人口教育水平?省份的高校教育资源与省份的人口基数和经济状况的关联关系是怎样的?探查高校资源不均匀分配会是一个有意思的命题。
本作品以“中国31省高校教育资源”为中心展开数据挖掘分析工作,探查高校资源不均匀分配因素,最终形成涵盖31省教育、人口、经济三方面的可视化数据分析报告-“中国31省高校资源差异分析”。
中国31省的高校教育资源是分配不均匀的,探究并明确其中的原因,为高校教育资源相对匮乏的省份提供参考意见。
本作品涉及教育、人口、经济三方面的数据,数据量比较大,数据分析的维度、可呈现图表的选择会比较多。在分析时需要紧紧围绕主题 “31省高校教育资源”,选用切题的维度进行分析、合适的图表进行展示,避免出现与分析主题不相关的内容。
2、数据来源
本作品的数据来源有三个:
①爱数科:http://www.idatascience.cn/case
②国家统计局:http://www.stats.gov.cn/
③网络获取:根据作品分析需要,部分数据在网络上手工抓取。
作品中使用的数据源表共13张。源数据表的数据含义和字段信息如下图所示:
(图片上传后有些模糊,故附上源数据表信息的Pdf文件中国31省高校资源差异分析-数据源表信息.pdf (178.41 K))
3、分析思路
本作品基于中国31省的教育数据、人口数据、经济数据,围绕“中国31省高校教育资源”分析高校资源分配现状,并以31省高校资源为核心,展开探索省份人口及经济对教育资源、人口教育的关联关系,明确高校资源不均匀分配因素。
其中,省份教育资源的具化指标为:高校数和公共图书馆数;人口教育的具化指标为:常住人口/就业人口-受/未受高等院校教育;省份经济的具化指标为:连续5年的GDP和人均GDP、法人单位数。
本作品可视化分析逻辑是比较清晰的,分析角度依次为:高校资源不均匀分配现状分析→人口教育和经济状况分析→教育&人口&经济三者之间的关联分析→总结31省高校资源差异因素。
1)首先展示分析中国31省高校资源不均匀分配现状(本/专科、公/民办、211/985/双一流、师资)。
√ 基于中国31省2769所大学明细数据、高校师资统计数据选用合适的图表(指标卡、环形图、区域地图、多系列累积柱状图、明细表)将国内高等院校的分布情况进行展示分析。
2)进而展示分析31省的人口教育和经济状况(4个tab页:常住人口-受/未受高等院校教育、就业人口-受/未受高等院校教育、GDP、法人单位)。
√ “常住人口”Tab页采用累积柱状图、多层饼图、桑葚图展示分析常住人口的区域/地区分布、年龄分布、受/未受高等院校教育、高学历分布。
√ “就业人口”Tab页采用累积柱状图、矩形块图展示分析各省份就业人口的“就业人口/常住人口”比例、受/未受高等院校教育、年龄段分布。
√ “生产总值(GDP)” Tab页采用交叉表、多系列折线图展示分析各省份的2018-2022年的生产总值、人均生产总值及其对应的同比增长情况、增长率趋势情况。
√ “法人单位”Tab页采用矩形树图、对比柱状图展示分析各省份法人单位规模分布情况、分产业门类的法人单位数和就业人口数情况。
3)最终探查分析31省教育、人口、经济三者之间的关联关系(3个tab页:人口-教育、经济-教育&人口、地区面积-教育资源)。
√ “人口-教育”Tab页采用多指标并列散点图配合分析线-警戒线/趋势线、特殊显示-注释/闪烁动画展示分析“常住人口/就业人口-受高等院校教育”与高校数、常住人口/就业人口、法人单位数之间的关联关系。
√ “经济-教育&人口”Tab页采用多指标并列散点图配合分析线-警戒线/趋势线、特殊显示-注释/闪烁动画展示分析“经济生产总值(GDP)”与教育资源(高校数&公共图书馆数)、常住人口/就业人口、法人单位数之间的关联关系。
√ “地区面积-教育资源(高校&公共图书馆)”Tab页采用多指标并列散点图、分组表、聚合气泡图展示分析“地区面积”与教育资源(高校数&公共图书馆数)的关联关系、各省公共图书馆的详细情况。
4)展示分析各省份教育&人口&经济概览情况,总结31省高校资源差异原因等。
√ 采用分组表和雷达图将作品所分析的内容进行概要展示分析,总结作品所分析的内容和结论,得出中国31省高校资源不均匀分配的因素,并且给出相应的改善建议。
4、数据处理
本作品的数据处理有两方面:
一是获取源数据后进行的预处理,包括从统计普查公报得到的表头交叉原表的Excel数据处理、图片数据信息转Excel数据、中国大学数据集中“城市”字段手工校正、Excel数据格式调整等。
二是根据在FineBI中制作可视化图表组件的需要,对已导入FineBI的13张源表数据进行处理。因为作品涉及到13张数据源表,共制作了27个图表组件,相关数据源表的处理步骤比较多,在此就不一一截图进行说明,仅对部分处理步骤进行示例说明。
1)作品FineBI数据表概览
2)列转行
3)新增公式列
4)新增汇总列、列转行、行转列
5)上下合并
6)添加计算字段
5、可视化报告
本作品对教育&人口&经济数据进行采集、整理、分析挖掘,并针对各个数据特点选择合适的、可读性强的、多样化的图表进行可视化展示,分析挖掘蕴含在其中的信息,最终形成可视化数据分析报告。个人认为本作品分析展示的内容丰富全面,且报告整体风格、配色也保持一致,前后呼应。当然,希望各位评审老师能提出宝贵意见和建议,进而不断对作品进行改进和完善!
本章节按照作品分析思路“高校资源不均匀分配现状分析→人口教育和经济状况分析→教育&人口&经济三者之间的关联分析→总结31省高校资源差异因素。”的逻辑顺序进行叙述说明。
一、高校资源不均匀分配现状分析
该部分基于中国31省2769所大学明细数据、高校师资统计数据选用合适的图表(指标卡、环形图、区域地图、多系列累积柱状图、明细表)将国内高等院校的分布情况进行展示分析。
其中,区域地图、高校数累积柱状图可以进行“省份/城市”的维度切换,各图表之间可以联动,且各图表设置的“提示”内容信息精确,方便洞察数据信息。
【数据解读】
1)办学层次:本科:专科=1:1.1,专科略高。公办:民办=2.69:1,公办远高于民办。其中,公办专科:民办专科=3.3:1,公办本科:民办本科=2.19:1,公办本/专科高于民办本/专科。
2)985/211/双一流: 211高校125所(其中,985高校46所),有双一流学科高校145所。(注:因大学明细数据包含所有落址于31省的大学,因此若学校有总部与分部的话会是多条大学数据,故根据明细数据统计得出的985高校数量和211高校数量会与官方记录<官方记录211高校115所,985高校39所>的有所出入。)
3)分布在东部地区的江苏、山东、广东以及中部地区的河南,其高校数和高校师资远高于其他各区域的省份。
4)分布在东部地区的北京、上海作为发达的一线城市,其优秀的高校资源远高于其他省份地区。北京高校总数远低于Top5,但是其本科高校数位居第二,211/985/双一流高校数位于榜首;其高校师资水平也位于前列。上海高校总数62低于平均水平,但其211/985/双一流高校数位居第二。
5)分布在西部地区的西藏、青海、宁夏其高校资源严重匮乏,远远低于其他省份。
附:6)高校资源排名情况
① 高校排名情况,
- 高校总数Top5:江苏(168)、山东(156)、广东(156)、河南(152)、四川(135)<末位Top5:西藏(6)、青海(12)、宁夏(20)、海南(21)、甘肃(50)>
- 专科高校Top3:河南(94)、江苏(88)、广东(87)
- 本科高校Top3:江苏(80)、北京(72)、山东(72)
- 211高校Top3:北京(27)、上海(11)、江苏(11)
- 985高校Top3:北京(9)、上海(5)、山东(4)
- 双一流Top3:北京(34)、上海(14)、江苏(15)
②师资排名情况,
- 教职工总数Top5:广东、河南、山东、江苏、北京
- 专任教师数Top5:河南、山东、广东、江苏、四川
- 副高级以上教师数Top5:江苏、山东、广东、北京、河南
二、PartⅠ人口教育和经济状况分析
该部分包含4个tab页,分别展示分析:常住人口-受/未受高等院校教育、就业人口-受/未受高等院校教育、GDP、法人单位。
1)“常住人口”Tab页
该Tab页采用累积柱状图、多层饼图、桑葚图展示各省份常住人口的区域/地区分布、年龄段分布、受/未受高等院校教育、高学历分布。
其中,常住人口累积柱状图、人口分布多层饼图可以进行“区域/地区”的维度切换,各图表之间可以联动,且各图表设置的“提示”内容信息精确,方便洞察数据信息。
【数据解读】
①常住人口Top5:广东、山东、河南、江苏、四川;末位TOP5:西藏、青海、宁夏、海南、天津。其中,广东、山东常住人口超过1亿,常住人口前五合计占全国人口的35.09%。
②常住人口-受高等教育Top5:广东、江苏、山东、浙江、河南。北京、上海两城市的常住人口排名靠后,但其受高校教育的常住人口相较而言居于前列。
③常住人口中未受高等院校教育的占84%,受高等院校教育的-专科占8%,本科占7%,研究生占比1%。
④各省受高校教育的人口中,专科学历占50%-60%不等,其中上海和北京的高学历人口中专科以上学历人口占比高于其他省份。
2)“就业人口”Tab页
该Tab页采用累积柱状图、矩形块图展示各省份就业人口的“就业人口/常住人口”比例、受/未受高等院校教育、年龄段分布。
其中,图表之间可以联动,图表设置的“提示”内容信息精确,方便洞察数据信息。
【数据解读】
①就业人口Top5:广东、山东、四川、河南、江苏;末位TOP5:西藏、青海、宁夏、海南、天津。
②“就业人口/常住人口”>=5%的有:浙江、四川、云南、湖北、上海、江西。四川为就业人口及其比例均站前列的省份。
③就业人口-受高等教育Top5:广东、江苏、山东、浙江、四川。北京、上海两城市的就业人口排名靠后,但其受高校教育的就业人口居于前列。
④各省份就业人口主要年龄在“25-59岁”,其中就业人口最多的年龄段为“30-34岁”。广东就业人口中年龄在“16-24岁”的人口远高于其他省份。
3)“生产总值(GDP)” Tab页
该Tab页采用交叉表、多系列折线图展示各省份的2018-2022年的生产总值、人均生产总值及其对应的同比增长情况、增长率趋势情况。
其中,图表之间可以联动,图表设置的“提示”内容信息精确,方便洞察数据信息。
【数据解读】
①GDP在2018-2022年的5年期间位居前六的省份没有发生变化,Top6:广东、江苏、山东、浙江、河南、四川。
②人均GDP在2018-2022年的5年期间位居前三的省份没有发生变化,Top3:北京、上海、江苏。
③2020年湖北和天津的GDP、人均GDP的同比增长为负。2022年吉林的GDP同比增长为负。其余年份及省份的GDP、人均GDP均为同比正增长。
④2021年山西和内蒙古的GDP、人均GDP较2019-2022年各个省份的同比增长率位于前列,其同比增长率高于20%。
4)“法人单位”Tab页
该Tab页采用矩形树图、对比柱状图展示各省份法人单位规模分布情况、分产业门类的法人单位数和就业人口数情况。
其中,图表之间可以联动,图表设置的“提示”内容信息精确,方便洞察数据信息。
【数据解读】
①31省法人单位规模在“20人以下”占88.32%, “20-99人”占9.44%,“100-999人”占2.09%,“999人以上”占0.14%。
②法人单位总数Top5:广东、江苏、山东、浙江、河南;末位TOP5:西藏、宁夏、青海、海南、吉林。
③各省份的法人单位数按产业门类排列均为:第三产业>第二产业>第一产业。
④浙江第二产业的就业人口超过其第三产业的就业人口,其第二产业的法人单位数也居于省份Top3,也侧面说明了浙江为制造业大省。
⑤云南第一产业的就业人口超过其第二产业、第三产业的就业人口,近一半就业人口从事“农、林、牧、渔业”行业。
⑥部分法人单位数排名靠后的省份,其第一产业就业人口超过第二产业就业人口:广西、内蒙古、黑龙江、新疆、甘肃、吉林、海南、青海、西藏。
- 第一产业-法人单位Top3:河南、山东、湖南;第一产业-就业人口Top3:山东、四川、云南。
- 第二产业-法人单位Top3:广东、江苏、浙江;第二产业-就业人口Top3:广东、浙江、江苏。
- 第三产业-法人单位Top3:广东、江苏、山东;第三产业-就业人口Top3:广东、四川、河南。
三、PartⅡ教育&人口&经济三者之间的关联分析
该部分“教育&人口&经济-关联分析”包含3个tab页,分别展示分析:人口-教育、经济-教育&人口、地区面积-教育资源。
1)“人口-教育”Tab页
该Tab页采用多指标并列散点图配合分析线-警戒线/趋势线、特殊显示-注释/闪烁动画展示“常住人口/就业人口-受高等院校教育”与高校数、常住人口/就业人口、法人单位数之间的关联关系。
散点图设置的“提示”内容信息精确,方便洞察数据信息。
【数据解读】
①省份的常住人口/就业人口的受高等院校教育情况受以下因素影响:落址省份的高校数、省份常住/就业人口基数、省份法人单位数。
√ “常住人口-受高等院校教育”与高校数、常住人口呈现出明显的线性关系,说明省份常住人口的高校教育情况与省份的高校数、常住人口两者存在强关联性。
√ “就业人口-受高等院校教育”与高校数、就业人口、法人单位数呈现出明显的线性关系,说明省份就业人口的高校教育情况与省份的高校数、就业人口以及法人单位数三者存在强关联性。
②高校数、常住人口/就业人口-受高等院校教育、法人单位数4个统计维度Top3的省份均为:广东、江苏、山东。其中,广东、山东的常住人口/就业人口位于省份Top2;江苏的常住人口省份Top4,就业人口位于省份Top5。
③“常住人口-受高等院校教育”均值524.62万,“就业人口-受高等院校教育”均值48.33万,两者比列近11:1。
2)“经济-教育&人口”Tab页
该Tab页采用多指标并列散点图配合分析线-警戒线/趋势线、特殊显示-注释/闪烁动画展示“经济生产总值(GDP)”与教育资源(高校数&公共图书馆数)、常住人口/就业人口、法人单位数之间的关联关系。
散点图设置的“提示”内容信息精确,方便洞察数据信息。
【数据解读】
①省份的经济生产总值(GDP)受以下因素影响:落址省份的高校数、省份常住/就业人口基数、省份法人单位数。
√ “生产总值(GDP)”与教育资源(高校数)呈现出明显的线性关系,说明省份生产总值(GDP)与省份的高校数存在强关联性。
√ “生产总值(GDP)”与教育资源(公共图书馆数)未呈现出明显的关联关系。
√ “生产总值(GDP)”与常住人口、就业人口、法人单位数呈现出明显的线性关系,说明省份生产总值(GDP)与省份的常住人口、就业人口以及法人单位数三者存在强关联性。
②生产总值(GDP)Top6的城市:广东、江苏、山东、浙江、河南、四川,其高校数、常住人口、就业人口、法人单位数均位于其他省份前列。但是,相比之下,浙江高校数较低(但其常住人口/就业人口-受高校教育均位于省份第四);四川的法人单位数排名较后(但其高校数、常住人口、就业人口均位于省份前Top5)。
3)“地区面积-教育资源”Tab页
该Tab页采用多指标并列散点图、分组表、聚合气泡图展示“地区面积”与教育资源(高校数&公共图书馆数)的关联关系、各省公共图书馆的详细情况。
其中,图表之间可以联动,图表设置的“提示”内容信息精确,方便洞察数据信息。
【数据解读】
①落址于省份的高校数、公共图书馆数与省份的地区面积无明显的关联关系。
②“教育资源(公共图书馆数)” 均值103.68个,其中,四川省份排名第一207个,北京和天津排名末位20个,各省份差异较大。
③公共图书馆数Top5:四川、河北、河南、山东、云南;图书馆总藏量Top5:广东、江苏、浙江、上海、山东。高校总数Top5的省份其公共图书馆数或图书馆总藏量省份排名靠前,说明省份教育资源之间有一定的关联性。
④省份公共图书馆的总流通人次、及其组织的各类活动次数(讲座、展览、培训班)与图书馆总藏量具有较强的关联关系。
四、PartⅢ总结31省高校资源差异因素
该部分“结论分析”采用分组表、雷达图、文本将作品所分析的内容进行概要展示分析,总结作品所分析的内容和结论,得出中国31省高校资源不均匀分配的因素,并且给出相应的改善建议。
【结论】
通过高校资源不均匀分配现状分析→人口教育和经济状况分析→教育&人口&经济三者之间的关联分析,可知:省份高校资源情况依赖于省份的人口基数、经济水平;省份人口教育水平与落地于该省份的高校数具有强相关性。省份的教育资源、人口教育和经济状况三者是相辅相成的,若要提升省份的高校资源和人口教育必须发展其经济。
教育&人口&经济其他分析结论:
①东部地区不论是高校资源、经济水平、常住/就业人口基数、人口教育水平均高于其他区域。
②广东、江苏、山东这三个省份的教育、人口、经济均排名省份前列。
③北京、上海这两个城市的优秀高校资源远远高于其他省份、高学历人口及高学历人口中专科以上学历人口占比高于其他省份,且其人均GDP位于Top2。
④省份“就业人口/常住人口”占比为:3.2%-5.7%;“常住人口-受高等院校教育”:“就业人口-受高等院校教育”=11:1。
⑤浙江第二产业的法人单位数居于省份Top3,为制造业大省;云南近一半就业人口从事“农、林、牧、渔业”行业。
⑥一个省份的教育资源之间具有一定的关联性。
五、最终结果呈现的页面布局
本作品“中国31省高校资源差异分析”的可视化分析报告如下:
3.1中国31省高校资源差异分析-huangzhuying.pdf (7.08 M)
注:本作品的可视化分析报告仪表板中有两大部分采用了Tab组件,导出的Pdf文件会只显示Tab组件中选定的Tab页面内容。未显示的Tab页内容,详见本章节的可视化报告叙述说明部分。未在Pdf文件中显示的Tab组件的Tab页面内容一共有5个tab页:
本作品使用公共账号制作,本可视化数据分析作品“中国31省高校资源差异分析”的公共链接地址为:https://bisolutions.fanruan.com/webroot/decision/link/WPap
三、参赛总结
1、FineBI工具
- 简述你对BI工具的看法,FineBI与其他商用BI工具(如Tableau)或开源BI工具(如Superset)功能上是类似的,基本使用思路均是:数据准备及处理→各组件制作→面板制作。但是,相较与Tableau,FineBI更适用于中国企业;相较于Superset,FineBI不存在开源工具所存在的功能不全面、技术支持缺乏、对使用者代码开发能力要求高等问题。因此,个人觉得FineBI还是一款功能较全面且上手较快的BI工具,能满足企业日常数据分析需求。
- FineBI亮点,使用FineBI进行数据集处理时,工具所包含的处理方式是有限的,如:过滤、行转列、左右合并等,单纯一种方式处理可能不能达到我们所需要的效果,但是可以通过各处理方式的结合来解决众多问题,个人认为这个过程就是用FineBI的功能实现“SQL处理数据”,FineBI的使用体验是很不错的。
- 给FineBI的建议&发现的Bug:①仪表板建议增加“组合组件”功能,可以将已组合的多个组件整体拖动,方便摆放组件位置,节省仪表盘布局花费的精力。②仪表板,在“编辑界面”、“预览界面”、“采用公共链接访问界面”时仪表板中的组件内容适应能力不一致,尤其是文本组件;在“编辑界面”调整优化好的内容在其他界面会存在一定程度的错位问题。③多指标并列散点图的纵向指标在添加“特殊显示-注释/动画”功能时,横轴多维度、纵轴一指标,只特殊标记显示一个横轴对应纵轴的值。④FineBI的V5版本和V6版本在工具界面、使用方式上还是有不少差异的,建议FineBI工具在进行大版本更新迭代时,使用方式等的改动可以最小化,相应帮助文档中所涉及的截图也可以及时更新,方便新老用户的使用。
- 对数据分析的思考,数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析中挖掘出来的信息可以给个人或企业带来指导、提高效率。而数据可视化可以帮助更有效的数据分析,它是关于数据视觉表现形式的科学技术研究,将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。
2、参赛总结
在本作品“中国31省高校资源差异分析”制作过程中,我对FineBI更新的V6版本的熟练程度有所提升,对数据分析技巧、FineBI使用技巧也得到不少提升。学无止境,还是需要不断学习! |