【2021夏季挑战赛】英格兰及威尔士地区用电量变化分析
(如内容显示不清晰,可单击此处查看全文)一、选手简介1、选手介绍个人介绍:帆软社区用户名maksimcai(可以叫我蔡数据),具有FCBA证书;现阶段在能源电力行业从事信息化工作,包括系统管理、经营分析等;个人感兴趣的方向和领域包括报表开发、数据可视化、数据挖掘与分析等;B站账号“练习生蔡数据”,欢迎多多关注、交流!个人形象:1464092、参赛初衷参赛初衷如下:
希望独立完成一个完整的基于BI工具的数据可视化与数据分析项目
希望通过比赛实践提升BI工具的使用方法和技巧
和更多FineBI大神交流学习,进行数据可视化作品以及分析思维的激烈碰撞
大赛奖励较为诱人
二、作品介绍1、业务背景/需求痛点1)简述业务背景:
电能是一种(现阶段)难以大规模存储的能源,且在传输过程中会存在损耗。因此,探索一个区域用电量的各类因素、了解一个区域的用电量变化模式,有助于合理规划、调配该地区发电、输电、供电所用资源与设施,合理引导区域居民和企业错峰用电,保障区域电力稳定、安全、高效;
项目选取2011-2018年英国英格兰及威尔士地区用电量(按每小时一次的频率记录的用电功率,单位为MW)进行分析,辅助数据为该地区气象数据,包括温度、湿度、能见度等。
2)简述需求痛点:
对该区域当前用电情况进行监控;
对该区域历史用电量进行时间序列分析、多元回归分析,找出其影响因素与变化模式。
2、数据来源自选数据:用电量数据来源于英国国家电网(National Grid)公布的英格兰及威尔士地区用电量;气象数据来源于伦敦希思罗机场记录的气象数据。主要涉及的字段有:
Demand:用电功率,单位为MW
Timespot:时间节点,默认包含日期和时间数值
Tmpc:温度,以华氏温度计量
Relh:相对湿度
Vsby:能见度
3、分析思路围绕分析主题,拆解了哪些分析方向、为什么这么拆解:
用电量与气象条件的关系:气象条件数据包括气温、相对湿度、能见度等;按常识推断,人们在感受到气象条件的变化时,会调整自己的用电模式,进而在一段时间后的用电量中体现出来,因此采用线性回归模型来分析各气象条件与(1小时之后的)用电量的相关性;
用电量与时间的关系:人们的用电量因时间(一天中的不同时段、一年中的不同月份)的不同而发生变化,因此采用绘图方式,分析用电量变化的总体趋势与周期性;
用电量集中度分析:在上一步的基础上,采用ABC分析法,分析用电量集中于每年的哪几个月份、每天的哪几个小时,并分析这种集中现象是否很严重(为错峰用电的必要性与可行性提供参考)。
4、数据处理可视化分析之前进行了哪些数据处理:
由于原始数据中的气象数据是在每小时的第20分钟和第50分钟进行记录的,而用电量数据是在整点时刻记录的,因此需要利用sql语句,通过线性插值方式,将所有非整点记录的气象数据都调整到整点上;
基于时间点(timespot)字段,将气象数据和用电量数据进行关联,一一对应,其中气象数据的记录时间比用电量早1小时,因为我们假设气象条件对用电量的影响存在滞后性;
利用相关系数公式和sql,求出温度、湿度、能见度与用电量间的相关系数(先存入excel文件,之后导入FineBi);
将数据导入FineBI中。
5、可视化报告(1)数据含义表达和图表排版布局:总体布局选型:
选择灰黑色作为底色,文字及图表略微发光,体现出科技感。
各组件的业务含义及关键指标制作步骤:
A. 左侧热力图:综合反映2011-2018年间,各个月份的用电量,利用颜色的差异反映出不同年份和月份之间用电量的变化趋势。采用的图表为“自定义图表”,参数设置总体如下图:146444
B. 标题正下方的数字及图标:突出展示关键指标,包括当前用电量数据(实际操作中用2018年最后一次用电量数据替代)、各气象条件与用电量间的相关性系数、最近24小时用电量数据(实际操作中用2018年最后24次用电量数据的平均值替代)、最近24小时用电量雷达图等。其中,“最近24小时用电量雷达图”设置方式如下(需对按时间进行过滤,仅显示最近24小时的数据):146446 146449
C. 右侧的3个散点图:选取0点,6点,12点,18点这4个时点,分析这4个时点上的用电量与1小时前的气象指标(温度,湿度,体感温度)之间的关系。图表中,横轴为(1小时前的)气象指标,纵轴为用电功率,绘制散点图,用不同颜色来区分不同时点的数据。需注意的点:1)按“年月日时”为颗粒度进行绘制:1464502)设置过滤器过滤出0,6,12,18这几个小时的数据:1464553)按不同时间点设置不同颜色:146452
D. 左侧中部的时间序列曲线图:绘制从2011年到2018年期间,每天用电功率的平均值,反映用电量和日期之间的关系。绘制方式比较简单:146459
E. 下方的2个组合图:对所有用电量数据,分别按月份(1-12)和小时(0-23)两个维度,进行分组求均值,之后用ABC分类法,求出哪几个月份/小时占据了80%以上的用电量;不同于快消品售卖,电能消费不需要追求“爆款效应”,相反,如果电能消耗过于集中于一年中的特定几个月份(或一天中的特定几个小时),则会对发电、输电系统造成很大压力,需要想办法平衡各个时间段的用电需求。绘制时采用自定义图表,分别用“柱形图”和“线”表示用电量数据和用电量累计占比数据,并用不同颜色表示用电量的ABC分类:146465
(2)通过分析得出的结论:通过观察组件内容得出的结论:
组件A(热力图):英格兰及威尔士地区用电量自2011年起,总体上呈现逐年下滑的趋势,且冬季用电量明显高于夏季;
组件B, C:该地区用电量与温度呈现较强的相关性,随温度增加而减少;与空气湿度的相关性一般,与能见度的相关性很弱;在一天之内,0点、6点的用电量明显低于12点、18点;
组件D:该地区用电量波动方式类似正弦曲线,在每年冬季达到高峰,夏季则降低,总体上呈逐年下降的趋势;
组件E:对该地区用电量在高峰月份、高峰时段的集中性分别进行ABC分类法分析,发现A区间覆盖范围均较宽,说明用电行为在高峰月份、高峰时段的集中情况并不严峻。
这些结论对业务工作及决策产生了什么影响(价值总结):
对用电量整体趋势的分析:在研究时间段内,研究区域的用电量呈逐年下滑趋势;电力公司需要慎重考虑在该区域新增发电、输配电设施的各类计划,避免过度建设、亏本经营;
对用电量季节性变化的分析:在研究时间段内,研究区域的用电量呈冬天高、夏天低的趋势;可以研究节能采暖工具替代性推广、鼓励工业企业在夏季生产等方法,来平衡不同季节间的用电波动;亦可适当建设抽水蓄能等设施;
对用电量单日内变化的分析:该地区用电量在每天的不同时间段内虽存在一定波动,但是并未明显集中于高峰时段,对于错峰用电鼓励计划可以采用较缓和、成本较低的方式推进。
(3)最终结果呈现的页面布局附上最终作品图片:146411视频介绍:Your browser does not support video tags.三、参赛总结1、FineBI工具简述你对BI工具的看法:对FineBI的看法:
BS架构直接在浏览器中操作,很方便快捷,避免了厚重的客户端;
自定义图表功能比较好用,可以很快画出热力图;
数据之间的关联能力很强,在同一张图表中可以很方便地对数据进行各个维度下的汇总展示,不同图表之间可以进行数据联动;
建议适当增强一下统计数据计算功能:比如直接计算一个数据在其所处字段里所有数据中排名的百分位,或是计算两列数据间的相关系数等;
建议增加箱线图绘制功能,便于输出统计结果。
对数据分析的价值的思考:
现阶段,能源、电力等传统重资产行业的数据应用刚刚起步,还不像电商、新媒体等行业那样普遍。但随着数字化手段的推广和精细化服务需求的加深,充分发挥传统行业中的数据价值,变得越发重要。
现阶段传统行业面临数据源分散、数据格式不统一、数据指标体系不成熟等问题,还需进一步努力突破。
2、参赛总结克服的困难:
此前,我曾听过3节FineBI入门课程,简单了解了FineBI的使用方式;本次比赛中,主要参考了之前课程中的案例,以及FineBI官方的帮助文档。
认知与感悟:
要敢于尝试新的工具。此前,我做数据可视化主要是用python内嵌的各种包,需要代码开发,可视化效率低、美观程度一般。使用BI工具可以实现数据的动态实时展示、可以根据自己的需求灵活绘制和调整图表,十分方便。今后还要试着将其他业务场景融入FineBI中,让数据发挥更大价值;
练习是最好的老师。我曾经听过不少数据分析相关课程,但是自己的动手经历却并不多。在这次项目中,我完整地体会了数据获取、预处理、指标提取、报表设计、报表开发的全过程,能力上有了较大提升。感谢帆软提供了此次挑战赛的机会。
21帆软BI夏季挑战赛-仪表板-蔡数据.pdf (334.44 K)