【2023BI数据分析大赛】基于电力大数据的中小型企业运营发展分析
选手简介
· 帆软社区用户名 yooo酷
· CPDA山东一期学员
· 工程师(副高)
· 从事能源数据赋能相关工作
参赛初衷
· 大赛奖励很诱人。
----------------- 作 品 全 景 图 -----------------
一、业务背景
中小企业是国民经济和社会发展的主力军,在促进增长、保障就业、活跃市场、改善民生等方面发挥着重要作用。近几年,受原材料价格上涨、订单不足、用工难用工贵、回款慢、物流成本高以及部分地区停电限电等影响,中小企业运营压力加大、经营困难加剧。为激发中小企业活力、助力中小企业转型升级、维护中小企业权益山东政府出台了一系列政策措施,推动中小企业经营效益水平,实现高质量发展。
基于当前中小企业存在位置分布范围广、走访价值密度小、实时准确性低的多重问题,政府亟需进一步了解企业经营状况,为宏观决策、落实助企惠企政策提供数据支撑。
二、分析概述
本次电力看中小企业发展情况分析主要依托互联网采集与自建仿生数据,利用电力生产、电力服务、电力消费环节数据,融合经济运行、产业政策等,在充分解读山东省中小企业促进条例的政策基础上,从总体概述、产业发展、地区发展、企业预警等4个方面开展监测分析,构建电力看中小企业发展分析算法模型,搭建能源大数据看民生发展典型场景,预测中小企业发展趋势,为城市管理者制定助企惠企政策提供数据支撑及决策依据。
三、原则和思路
(1)分析原则
本次电力看中小企业发展情况分析主要遵从以下原则:
a. 数据价值:将数据视为资源,最大限度地挖掘和发掘数据的价值,以支持业务决策。
b. 数据综合利用:整合内外数据资源,构建数据融合,实现数据的综合利用和共享。
c. 数据安全:保障数据的可靠性、完整性和安全性。
d. 创新技术:采用先进的技术手段,提高数据处理、分析和应用的能力,推动数据分析领域的创新和发展。
(2)分析思路
确定本次分析的主要思路是首先对电力数据和经济活动进行初步探索性分析,再次进行分地区、分产业的精细化分析,利用分析成果设计算法并开展预警预测,具体从以下三个方面构建:
a. 研究电力大数据和经济活动之间的特点
通过皮尔逊(Pearson)相关系数对电力大数据和经济的分析研究,使电力大数据能够准确、及时、直观地体现中小企业经营运行的实际情况。
b. 开展中小企业用能分析
一是通过构建景气指数、用电增长指数、规模增长指数,分析各地市、各行业样本企业生产用能变化趋势。 二是开展企业用能预测,分析外部形势发展对不同地市、行业的影响。
c. 预警中小企业运营风险
基于上述中小企业用能分析分析的基础上,根据企业用电规律,构建企业画像,在企业存在运行异常时发出电量预警、减容预警和停产预警。
图1 - 分析构思图
四、数据方面
(1)数据梳理
梳理电力看中小企业发展情况分析的需求数据,明确涉及指标定义,从总体概述、产业发展、地区发展、企业预警4个方面梳理出所需要的外部数据与仿生数据。
a. 获取1398家样本企业用户2021年01月01日至今用能数据(含用户信息、产业、地区、电量、容量等)总计58716条数据。
b. 结合相关性分析算法、一元回归及多元回归、数据归一化,3个算法,以52张图形组合式直观展示提供16个数据维度支撑。
(2)数据溯源
明确数据来源与数据属性,对使用字段、取数系统、取数规则等细节核实,保证使用数据的准确性。外部数据经济GDP数据、季度电量数据取自山东省统计局公共数据平台及统计年鉴。
图2 - 取数系统-公共数据平台
(3)数据获取
外部公开的经济GDP数据、季度电量、用户基础信息使用自动采集工具获取;用户电量数据属于敏感数据,本次分析所用电量数据基于用户电量信息进行数据仿生。
图3 - 自动采集工具:采集公开基础信息
(4)数据清洗
针对自动采集工具获取的数据进行相应缺失值和异常值的处理。清洗内容如下:
a. 检查数据表和目标变量的格式;
b. 删除所有值都缺失的变量;
c. 删除低方差的变量;
d. 用NA替换空、NULL或blank,-9999或其他代表缺失的值;
e. 将唯一值比例大于一定阈值(95%)的变量二值化;
f. 对缺失值比例大于一定阈值的变量进行二值化处理;
g. 合并类别个数超过一定数目的变量类别;
h. 将字符变量(实际是时间的变量)转换为时间格式;
i. 将字符变量(实际上是包含字符串的数值型)转换为数值变量;
j. 删除重复的观察样本。
(5)数据转换
基于EXCEL工具进行数据转换,并对电力看中小企业发展情况分析所需的数据进行初步探索性分析。
图4 - 数据转换:标准化数据结构
(6)数据脱敏
自建仿生数据结果输出后,开展数据归一化处理,进行数据脱敏及加密处理。
图5 - 数据脱敏:采用归一化处理
(7)数据导入
通过自助分析场景库的本地上传功能,将采集数据与标准化数据导入FineBI。
图6 - 数据导入:通过FineBI自助分析本地导入
(8)数据加工
基于FineBI自助分析场景库进行基础表的数据加工,对企业用电量关联分析应用所需的数据表及数据字段再次进行梳理后,根据对场景分析的理解,对接入的数据制定数据加工方案,生成所需的数据。
图7 - 数据加工:基于FineBI自助分析的数据加工
(9)数据计算
基于FineBI自助分析场景库,针对分析展示图形进行数据计算。
如相关性分析:
图8 - 数据展示计算:基于FineBI自助分析的相关性分析计算
五、分析模型
基于中小企业用电数据构建中小企业运营景气指数(以下简称景气指数),用于评估中小企业正常生产用能水平,通过用能水平研判生产经营状况。
(1)指数规则
指数构建即考虑通过用电变化反映当下企业发展情况,也要考虑通过容量变化反映企业自身对未来经营的信心。指数构建如下:
运营景气指数=用电增长指数×0.8+规模增长指数×0.2,其中:
用电增长指数=(本月平均日电量/上年同期平均日电量)*100。
规模增长指数=(本月平均运行容量/上年同期平均运行容量)*100。
(2)指数解释
运营景气指数反映区域、行业企业用电生产态势,景气指数大于100,表明企业发展态势良好;指数在80-100区间,表明企业发展态势平稳;景气指数小于80,表明企业发展态势偏弱。
用电增长指数反映企业用电生产发展态势,指数大于100,说明企业用电好于去年同期,呈良好发展态势;指数大于80,说明企业用电平稳。
规模增长指数反映企业规模变化趋势,指数大于100,说明企业呈规模扩张趋势。
(3)相关算法
皮尔逊相关系数( Pearson correlation coefficient),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。
图6 - 算法:皮尔逊相关系数
(4)预测模型
一元线性回归是分析只有一个自变量(自变量x和因变量y)线性相关关系的方法。
图7 - 预测模型:一元线性回归分析法
六、分析场景
分析场景主要由电力看宏观经济、电力看中小企业、企业经营预警、企业发展预测四大板块组成。
(1)电力看宏观经济
电力看宏观经济板块整体上侧分4块显示监测指标。下侧为相关性分析、数据走势、各产业的相关系数。
a. 监测指标模块:分季度用电监测、GDP数据、经济增速、企业增速。
b. 相关性分析模块:电量与经济整体相关相关性分析,从数据图形可以看出,电量与经济整体上成正相关关系。
c. 数据走势模块:显示电量与GDP数据走势,移动光标可以查看各季度详情。
d. 各产业的相关系数模块:显示整体与各产业的相关系数。从数据图形可以看出第一产业电量数据与经济数据呈现弱相关。
图8 - 分析场景:电力看宏观经济概图
(2)电力看中小企业
电力看中小企业板块含 、、 三个子模块,形成横轴与纵轴的分析经纬网络。通过对上述三个方向变化情况监测,点面结合综合研判监测中小企业生产经营情况。
a.企业发展分析:含企业运营指数分析、用电增长指数分析、规模指数增长分析、地区总览分析,产业、行业总览分析等;
b.地区发展分析:16地市当前指数情况(含运营指数、用电指数、规模指数等)、地市样本企业统计、地区最高、最低近12个月的发展变化情况;
c.行业发展分析:产业、行业当前指数情况,样本数量、产业最高指数分析,行业最高、最低指数分析。
图9 - 分析场景:电力看中小企业概图
(3)企业经营预警
该模块主要对存在生产运营风险的企业及时发出电量预警、容量预警和停产预警。
预警规则如下:
电量预警(绿色):月度用电增长指数低于50以及电量环比降幅高于80%。
减产预警(红色):月度发生减容。
停产预警(蓝色):近3个月电量为零。
a. 预警分布模块:预警类型占比饼状图
b. 预警企业名单模块:显示预警企业名单含企业名称、所属产业、所属行业、所属地区、预警类型和预警描述。
c. 地区预警分布模块:按16地市显示预警企业情况。
d. 产业预警分布模块:按行业显示预警企业情况。
图10 - 分析场景:企业经营预警概图
(4)企业经营预警
该模块主要基于电力大数据的监测分析,通过对中小企业用电情况、地区发展、行业发展等数据的考量,结合统计的企业发展与经济指标,设置基于电力大数据的景气度预测模型,输出产业发展大数据分析结果,为政府促进中小企业发展提供数据支撑。
a. 中小企业发展预警:构建中小企业发展预测模型,计算中小企业发展指数,监控行业异常情况,预测行业未来3个月的发展趋势。
备注:该模块仅为比赛采用 线性回归 展示预测功能,如实际使用可采用随机森林、逻辑回归等算法,采用MSE、RMSE 指标判断模型的预测效果,选择最优算法构预测模型即可。
图11 - 分析场景:企业发展预警概图
分析报告:
数据应用:
通过中小企业用电情况开展持续监测,及时发出电量预警、减容预警和停产预警,在安全生产、精准助企、应急管理等,解决了传统方式“看不到、管不到、帮不到” 的助企方式,提高了助企的精准度、穿透力。实现助企由“被动发现”向“主动出击”转变。根据企业用电规律分析,可以掌握产停情况,发现疑似停产、近期减产、突发降产的重点中小企业进行及时介入。助力政府对企业经营稳定性进行及时掌控,辅助政府部门“稳生产”科学决策。
a. 每月形成动态分析报告,及时反馈将预警企业名单,由专人上门了解企业生产经营情况,帮助企业协调解决困难问题。
b. 重点关注制造业领域、产业链供应链关键环节的企业,通过为企纾困解难,稳定企业投资发展信心,防止出现关键领域、关键环节、关键企业停产或大规模外迁。
图12 - 数据应用:通过数据可视化分析与预警企业名单,对预警企业开展工作
作品公共链接:
https://bisolutions.fanruan.com/webroot/decision/link/6CgI
参赛总结:
一是FineBI 6.0经过短暂的熟悉后,可以快速上手,通过组件快速实现数据分析工作。
二是满足了数据分析师增量分析的框架,在场景库搭建布局,减少在制作数据报告可视化方面的阻碍。