【2022BI数据分析大赛】2022年春新冠疫情状况可视化分析

楼主
我是社区第913988位番薯,欢迎点我头像关注我哦~

 

 

2022年春新冠疫情状况可视化分析报告

一、选手简介

团队名称:雅伟三杰

队长:杨䶮

重庆文理学院数据科学与大数据技术专业学生,帆软认证BI工程师,报表工程师,擅长FineBI,spss,曾获得全国数据应用联赛三等奖。

团队成员介绍:

成员-杨大宇:

IMG20220427194013

重庆文理学院数据科学与大数据技术专业学生,帆软认证BI工程师,擅长FineBI、Excel。曾获得全国数据应用联赛三等奖。

成员-袁子杰:

重庆文理学院数据科学与大数据技术业学生,获得市场调查与分析专业人才认定,擅长时间序列分析,多元回归分析,图像数据处理,精通spss,jupyter notebook,曾获 得市场调研大赛省赛二等奖。

成员-白伟宁:

IMG_256

重庆文理学院数据科学与大数据技术专业学生,擅长各类算法、数学建模、爬虫及文本数据挖掘,精通python,java,echarts。曾获得全国数学建模大赛二等奖。

成员-马从浪:

IMG_256

重庆文理学院数据科学与大数据技术专业学生,擅长回归分析,多元统计分析,擅长C++,R,spark。曾获得正大杯市场调研大赛省赛二等奖。

团队组成:来自五个异域省市的男孩,为大学的同窗好友,本次一起共搞可视化分析项目。

作品介绍

背景

2020年以来,新冠疫情成为了社会上最热门的话题。2019爆发的冠状病毒疫情,能够人传人,进而引发了全球大流行疫情。随后在2020年初迅速扩散至全球多国,逐渐变成一场全球性大瘟疫,是全球自第二次世界大战以来面临的最严峻危机。截至2022年,世卫组织仍然认为当前面临的新冠肺炎疫情可被称为全球大流行, 目前全球新冠肺炎的疫情已经出现了多点爆发的态势,而疫情最严重国家的分布与未来的世界欧亚经济中心转移线高度重合。

无论是2021年的德尔塔变异毒株还是2022年奥密克戎变种的到来,新冠病毒都没有停止传播,目前,新冠的变异体奥密克戎变异毒株导致全球病例数增长速度快了6倍。 2022年1月1日至今全球累计新增近2亿确诊病例,新冠死亡人数新增近100万例,根据国家卫健和霍普金斯大学统计数据,截至北京时间2022年4月19日,全球累计确诊新冠病例已突破5亿例。从2亿到5亿,全球仅用了短短3个多月的时间;目前,奥密克戎已成为各国主要流行毒株。 根据世界卫生组织公布的最新数据,自奥密克戎被发现以来,全球登记的感染人数已达到1.3亿人,约占新冠病例总量的33%。

同时国内外数据都显示新冠的确诊量和治愈量都不断上升。因此我们对2022年以来的全球疫情数据进行了挖掘与分析。

2.数据来源

数据项目为2019新型冠状病毒(COVID-19/2019-nCoV)疫情状况的时间序列数据仓库,数据来源为丁香园,数据由2019新型冠状病毒疫情实时爬虫获得。本次2022年春新冠疫情状况分析采用的数据表为2022年全球疫情数据表。原始数据链接:全球新冠疫情时间序列数据(丁香园) - Heywhale.com

3.分析思路

图 1 可视化分析流程

4.数据处理

数据预处理:

我们用excel提取2022年全球疫情状况的数据并进行预处理,删除其中缺失异常值,统计每日新增病例,并使用R语言对数据行数的完整率进行查询,删除缺失值,遍历显示处理结果如下图1.

数据预处理 图二

上图中浅色表示值小,深色表示值大;默认缺失值为红色,从上图二可发现未出现数据缺失值即数据缺失值为0,表示该数据清洗完成。

进一步我们采用SPSS运用k-均值聚类算法(k-means clustering algorithm)[一种迭代求解的聚类分析算法,其步骤是从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。]对数据进行聚类分析,分析结果如下表所示。

初始聚类中心

 

聚类

1

2

3

4

确诊人数

80686315

54252612

29

27824811

日新增病例

286841

0

0

1073215

治愈人数

80243965

41467660

27

368023

死亡病例

988898

824339

0

144226

初始聚类中心,由SPSS按照某种原则自动选择的某些记录,也可以通过人工选择以提供初始类中心。通过上表我们可知初始聚类中心按照我们划分的四类随机提取了四条数据。同时我们4类数据的划分也会依照这四类随机初始数据进行划分。

最终聚类中心

 

聚类

1

2

3

4

确诊人数

74254635

34405923

245497

10817997

日新增病例

149343

88556

1687

81648

治愈人数

52585516

26985587

151041

4693855

死亡病例

911822

572576

3668

139747

上表最终聚类中心,显示了各类别的均值,第1类以七千四百二十五万为均值表示疫情非常严重,第2类以三千四百四十万为均值表示疫情严重,第3类以二十四万五千四百九十七为均值表示疫情轻度,第4类以一千零八十一万为均值表示疫情中度严重。

每个聚类中的个案数目

聚类

1

177.000

2

183.000

3

46176.000

4

1222.000

有效

47758.000

缺失

.000

 

将上述4类的数据进行统计,统计得出每个类别存在的记录个数并进行缺失值判断,由上表可知通过excel的初步处理和R语言的二次处理数据不存在缺失值,即可以用于可视化分析了。将聚类分析数据保存,并导出到初步处理好多的数据csv文件中。

在进行FineBI分析过程中,我们发现数据处理中很多国家和地区的命名与FineBI不一致,针对此种现状我们采取一一核对,剔除异常值的举措,同时也发现其中有20多个FineBi中缺失的国家和地区;其次在死亡率的计算中,波兰科学家开发出一种用于计算感染新冠病毒后患者死亡概率的算法,他的那种死亡人数/(死亡人数+治愈人数)的计算方式是备受公众热议的,我们在本次新冠疫情状况可视化分析报告中采用大众化的死亡人数/确诊人数的计算方式。死亡率和治愈率等数据在finebi中创建自助数据集完成。

5.可视化报告

模块:本次可视化分析分为三大模块:全球各大陆疫情状况分析,国外疫情状况分析,国内疫情状况分析。

角度:3大模块都分别从累计确诊、累计死亡和日新增情况和严重程度等角度进行了分析及预测。并且全球国家疫情状况对全球各疫情指标TOP10国家进行了排名和最严重的10个国家进行了2022年4月份的疫情状况和严重程度细分析。

排版:我们所使用的仪表版样式使用的是科技样式,组件背景使用的是科技动感,且组件间隙选择为0,过滤组件背景选择的是默认透明。整体怕排布是用报表和各类图及其文本搭配的动态可视化大屏

例:(由于所建组件较多,仅展示个例)

组件A1:

制作步骤:选择全球疫情数据集——选择自定义图表——将国家拖入维度,累计治愈人数拖入指标2次并选择最大值——选择一个指标(累计治愈人数)选择最大值降序排序——过滤国家(选择条件累计治愈最大的10个)——图形属性第二个累计治愈选择折线图——将国家拖入颜色选择和适度的颜色——累计治愈人数拖入一个指标标签并选择特殊显示,闪烁动画——编辑标题即可

图 2

由图二可见美国是全球治愈率最高的国家,治愈人数高达8千多万,其次是印度、巴西、俄罗斯、土耳其、英国、意大利、哥伦比亚、印度尼西亚、伊朗等国家,当然,治愈率的高低这与各国确诊人数的多少有关,同时与各国的医疗水平有较大关系,但不容忽视的是印度是虽然实行的是全民医保,但据实事数据显示,印度的医疗水平全球排名第150名但印度的新冠病毒的治愈数量却排在世界第二高达三千三百多万数量实有待考量。

组件A2:

制作步骤:选择全球疫情数据集——选择柱状图——将国家拖入维度,累计确诊人数拖入指标选择最大值——过滤国家(选择条件累计确诊最大的10个)——拖入两个累计确诊人(最大值)数到标签(累计确诊人数),其中一个选择最大值降序排序——将国家拖入颜色选择和适度的颜色——累计确诊人数拖入一个指标标签并选择特殊显示(设置条件为累计确诊最大的3个国家),闪烁动画——编辑标题即可

图 3

上图3清晰可见全球累计确诊前十的国家,很明显可以发现美国确诊人数最高,高达8千多万位列第一,其次是印度确诊人数高达4千3百多万,与治愈量有1千多万的落差,后面排名的国家依次是是巴西、法国、德国、英国、俄罗斯、韩国、意大利、土耳其等。

组件A3

制作步骤:选择全球疫情数据集——矩形树图——将国家拖入颜色和标签,累计确诊人数拖入属性的大小并选择最大值——过滤国家(筛选综合国力前十的国家)——拖入两个累计确诊人数(最大值)数到标签,其中一个选择最大值降序排序——国家也选择累计确诊人数降序排序——累计确诊人数选择特殊显示,闪烁动画——选择合适的颜色——编辑标题即可

图 4

全世界综合国力最强的十个国家中美法德英俄韩等六个国家的新冠确诊患者都高达上千万,其中美国8千万接近一个亿确诊病例,可见美国的疫情防控情况一言难尽,其次是日本、阿联酋、沙特阿拉伯和中国,综合国力最强的十个国家中,中国作为一个14亿人口大国,累计确诊病例位于十国最低,且为疫情爆发较早的国家之一,可见中国的制度之优越性和防控措施之有效性。

组件B1:

操作步骤:

制作步骤:选择全球疫情数据集——选择自定义图表——将国家拖入提示,过滤国家为美国——统计时间拖入横轴(过滤时间为2022-04),日新增病例拖入纵轴两次并选则最大值——选择一个指标(日新增)选择最大值降序排序———图形属性第二个日新增病例选择折线图——将时间拖入颜色选择和适度的颜色——日新增确诊人数拖入一个标签并选择特殊显示,闪烁动画——编辑标题即可

图 5

2022年4月份,美国平均每日上十万的新增病例,其中4月5日新增确诊人数高达133万,截止4月19日,4月份有3次突破警戒线,国外疫情数据有近一周的断层即4月12日-18日无疫情数据,由于这段时间没有进行官方统计,十九日新增就是这8日的总和31.42万,平均下来这八日的日新增远低于警戒线。总体来看,美国的日新增病例居高不下,可见,其疫情防控措施非常不好,疫情形势非常严峻。

结论

(一)全球疫情情况不容乐观

1.目前受全球疫情影响最最严重的三个国家是美国、巴西、印度,而疫情影响程度为中等的国家有俄罗斯、韩国、越南、意大利、德国、日本等国家。

2.2022年4月11日至4月19日,累计新增确诊最多的国家是韩国,近一周新增确诊超过118万例,,其次是法国,也破100万例,再是德国,其次是意大利、澳大利亚、美国,可见,这些国家的目前的疫情严重情况值得国际重视,疫情防控措施应该加强。

(二)国外主要严重国家疫情状况

1.美国的日新增病例居高不下,可见,其疫情防控措施非常不好,疫情形势非常严峻。

2.法国的疫情防控措施有待加强,现状也不容乐观。

3.印度的疫情状况趋势相对较严峻,每日新增虽然上千人,每日增长新冠人数趋势较稳定,10天5次突破均值警戒线。俄罗斯目前疫情日新增状况相对较稳定,目前趋于一种缓慢的恢复状态,10天仅一次突破警戒线。

4.巴西的疫情状况不容乐观,极其不稳定,平均日新增病例达2万人以上,巴西的疫情防控值得重视,防控措施有待改善和加强。

(三)国内疫情状况

1.从我们国家各省市最大日新增情况来看,香港的状况最不容乐观,位列第一,最大日新增达31368人,其次是上海市,最大日新增达近两万人,其次是台湾、吉林、广东省。这些省市都是我们国家目前最应该重视的疫情灾区。

2.从2022年以来的疫情数据来看,很明显我们国家日新增呈现明显的下降趋势,并且预测出的我们国家最后新增清零状态,可见我国防控措施的有效性和政策的优良性

3.从上海疫情状况来看,目前最严重的是浦东新区,累计确诊病例近10000病例,其次是闵行区,累计3000确诊患者,其次是徐汇区、嘉定区等,

4.从吉林省的状况来看,长春和吉林市的情况为最严重的疫情地区,尤其长春累计有3万以上人确诊。应为我们国家当前最值得重视的地方。

5.从台湾的近期状况来看,疫情形势不容乐观,2022年4月1日到4月10日日新增病例明显呈上升趋势,中国累计确诊共50多万例,台湾就占30万例,可见,台湾的疫情防控措施有待加强,疫情防控不可懈怠,应为重中之重。

建议:

1.面对如此严峻的疫情形势,全世界人民应该立刻采取强有力的全球干预措施,调动全球资源、装备、医院设施和医护用品以减缓疾病传播,并向普通民众提供口罩等个人防护工具,加速启动药物和疫苗抗体等开发的研究项目和实施。

2.各国家应从控制传染源,阻断传播途径和保护易感人群等方面着力下手,各国家政府应以全球抗疫为人类目前最大最严峻的任务的观念领导国家动向和颁布国家政策。

3.国家应颁布相关政策和法律鼓励更多的人们积极有序地参与抗击新冠状的战役。并且有必要时在严重的地方实施封闭管理,避免疫情多点爆发

4.作为地球的每个人民,都应该意识到本次疫情的严重性,时刻做好防护措施,积极响应国家号召,以全球抗疫为首要任务。

全局仪表板静态展示

分享扩散:

沙发
发表于 2022-4-29 10:56:29
队长放靓照,队员放丑丑的证件照,太心机婊了~
板凳
发表于 2022-5-13 13:12:39
视频很棒啊~
1.专门定制了PPT,每个部分很直观,很优秀
2.讲解非常详细和充实,言有所物,真正给仪表板加分了
参与人数 +1 F币 +6 理由
帆软苏茜 + 6 有效打卡奖励

查看全部评分

地板
发表于 2022-5-15 11:36:33

回帖奖励 +1

是五个同学,怎么叫三杰呢?
如果能加上动态清零的宣传,也是个不错的选择,谢谢分享
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

5楼
发表于 2022-5-20 17:07:38
案例打卡:可不可以说是确诊的人数越多的国家,治愈的人越多呢,毕竟是基数大。感觉用治愈比例更合适。
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

6楼
发表于 2022-5-23 16:45:07

案例打卡:个人觉得颜色过去鲜艳了,有点红配绿的感觉哈哈,分析的很好,很仔细,也有建议。都用大头照,都是直男
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表