1. 选手简介
个人选手版:
1.1. 个人介绍
帆软社区用户名:haigang
职业简介:一名数据分析人员,现在在国企信息部从事数据分析工作,平时主要工作内容是获取系统原始数据进行报表和数据大屏的制作,也会参与一些数据分析专项研究工作,如文本挖掘、知识图谱构建之类,希望通过这次交流可以同更多同行交流和探讨,提升数据分析技能。
1.2. 参赛初衷
评估下自己对FineBI的掌握程度,通过FineBI的学习掌握探索式数据分析的要点。通过台风气象数据的获取提升非系统数据源数据的取得能力,通过台风数据可视化分析过程锻炼自己运用FineBI 图表库进行可视化分析的能力。
2. 项目介绍 2.1 项目背景介绍
台风是对热带气旋的一个分级,不同程度的台风会带来不同的危害。从台风活动时间上看,西北太平洋和南海一年四季都可能有台风生成。在我国台风登陆的时间范围也极广,除了1月至3月无台风登陆,其他月份均有台风登陆的情况。台风数据可视化分析对中国台风网1949年-2020年期间的台风数据进行了回顾性分析,形成关于西北太平洋地区台风对我国的影响、台风地域路径特征、台风活跃时间特点、台风年际变化等台风气象数据的见解。期望通过本次台风数据可视化分析,探索对台风这样的气候大数据可视化分析的技术路径。
2.2 数据采集和处理
2、按F12,打开开发者工具,在台风列表中选择我们所需要查看的台风,通过抓包结果分析网页台风JSON数据返回,如图1所示。
图1 台风数据网页分析结果
3、 根据原始网页结构分析,构建台风数据爬虫Python代码,如图2所示
图2 台风数据获取代码
4、台风编号规则:
我国从1959年起开始对每年发生或进入赤道以北、180度经线以西的太平洋和南海海域的近中心最大风力大于或等于8级(17.2米/秒)的热带气旋(强度在热带风暴及以上)按其出现的先后顺序进行编号。编号由四位数字组成前两位表示年份,后两位是当年风暴级以上热带气旋的序号。例如 2101 杜鹃 表示是2021年第1号台风命名为“杜鹃”。
5、 运行台风爬虫代码,形成1949-2020期间所有的台风路径信息和台风登陆信息,如图3所示。
图3 台风数据爬虫结果
2.3 台风数据分析思路
2.3.1 台风数据可视化分析思路
2.3.2 台风基础数据说明
台风路径信息
|
|
|
|
序号
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2分钟平均近中心最大风速(MSW, m/s).
WND=9 表示 MSW < 10m/s,
WND=0 为缺测.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
台风登陆信息
|
|
|
|
序号
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2.4 台风气象数据探索式分析报告制作
2.4.1 台风数据探索式分析思路
数据报告用于展现西北太平洋地区的台风路径、登陆点、强度、风力等信息,因此采用数据地图形式将帮助报告阅读者理解上述台风关键信息。对于历年台风强度和台风生成次数主要以趋势折线图、柱状图的形式进行展示。在夏台风和秋台风对比分析上,主要按时序分析进行展现2个季节的台风特征的差异。
2.4.2 台风分析报告数据预处理
在FineBI数据准备模块,导入基础台风数据、台风登陆信息Excel文件,如图4
图4 台风基础数据导入FineBI
从原始登陆信息内容中,提炼登陆点信息,如图5所示
图5 数据准备提炼登陆点
对台风路径信息进行登陆时间类型转换、台风级别描述列新增,关联台风登陆信息构建台风数据事实宽表,如图6所示。
图6 台风数据宽表
2.4.3 可视化报告布局设计
1、台风路径分析
设计说明:
台风路径信息展示采用流向地图形式,通过地图的流向信息展示历年台风路径规律。
通过月度折线图,分析台风月度活动规律。
分析结果:
在西太平洋地区,台风移动大致有三条路径。第一条是偏西路径,台风经过菲律宾或巴林塘海峡、巴士海峡进人南海,西行到海南岛或越南登陆,对我国影响较大。第二条是西北路径,台风向西北偏西方向移动,在台湾省登陆,然后穿过台湾海峡在福建省登陆。这种路径也叫作登陆路径。第三条是转向路径,台风从菲律宾以东的海面向西北移动,在25°N附近转向东北方,向日本方向移动。这条路径对我国影响较小。以上三条路径是典型的情况,不同季节盛行不同路径,一般盛夏季节以登陆和转向路径为主,春秋季则以西行和转向为主。
|
2、历年台风趋势分析
设计说明:
折线图: 可视化展示1949-2020期间历年台风次数
柱状图: 可视化展示1949-2020期间历年台风平均风力强度
矩形图:热力可视化展示历年台风月度生成次数规律特征
分析结果:
从1949年至2020期间,60年代是台风生成的高峰,其中71年间最高峰出现在1964年当年共有37个台风编号。进入到90年代,台风生成次数趋势下降,共出现2个低谷,2020年仅有13次台风是71年来最少。同样从台风强度分析,进入到90年代,台风强度明显弱与60年代-70年代台风。从热力图上可以洞悉到7月、8月、9月是台风的高发季节。
|
3、台风登陆地特征分析
设计说明:
通过经纬度构建台风登陆点、风力强度散点图,分析台风登陆点经纬度的数据特征。
通过柱状图直观分析台风登陆点的偏好。
分析结果:
通过可视化结果,我国的东南沿海地区是台风登陆热点地区:广东、海南、台湾、福建、浙江是防汛防台的关键点。
通过柱状图的可视化,西北太平洋沿岸地区国家:菲律宾、越南、中国、日本是台风登陆点的“热门”
|
4、台风发源地位置特征分析
设计说明:
分析西北太平洋地区台风发源地位置特征。
分析结果:
通过散点图展示,西北太平洋上影响较大台风集中在东经120°至140°,北纬10°至20°之间的洋面上,基本上位于我国南海中北部偏东洋面和菲律宾群岛以东洋面。
|
5、夏台风与秋台风的对比分析
设计说明:
通过时序分析台风高发季节(夏(6月至8月)、秋季(9月至11月))台风的特点。
分析结果:
在台风数量上和强度上,秋台风的指标比夏台风更高些,但秋台风登陆次数少于夏台凤,需要注意海洋上行使船只避开这些台风路径。在台风登陆次数上,夏台风略微超过秋台风,台风登陆期间会造成交通中断、航班停航、大风强降雨,因此夏台风期间要注意气象台台风警报信息,避免生命财产的损失。
|
6 台风周期特征
设计说明:
基于时序分析的结果,分析下台风从生成到消亡的平均时间周期。
分析结果:
数据分析结果展示,从年代时序看过去71年统计每次台风平均周期在7-8天,60年代台风平均周期最长为10天,最近10年台风周期特征在6天之内。从月度特征分析,从6月到11月台风高发期的台风周期大约7天(约1周)时间。
|
2.4.4 台风可视化数据分析见解
根据中国台风网台风数据,对西北太平洋台风数据进行可视化分析,发现71年间西北太平洋地域台风发生频数整体呈下降趋势,台风活跃程度呈现明显的年代际变化,60、70年代台风发生频数较多,此后呈递减趋势,西北太平洋台风主要发生在6-11月,8月最多,台风起源位置分布大致位于我国南海中北部偏东洋面和菲律宾群岛以东洋面。我国的广东、福建、海南、浙江、台湾位于西北太平洋的沿岸地区,是台风登陆的热点地区,因此也是我国夏秋季防汛和防台的重点地域。
2.4.5 可视化结果输出
视频介绍:
3.项目总结
数据可视化不等同于可视化分析。数据可视化仅仅是解决了数据展示问题,而数据可视化分析需要构建数据分析框架,通过易于理解的可视化方式,帮助报告阅读者认识和理解数据。FineBI 提供丰富的图表设计元素,提供了无限视觉可视化的可行方案,提升了数据分析报告开发效率。
数据准备工作是耗时的,FineBI 数据准备模块能够更快、更容易地合并和清洗所需分析的数据。一般基础数据源因为数据格式和字段类型差异需要在数据准备阶段进行统一和规范化。在台风数据可视化的分析过程中,台风到达时间、台风级别、台风登陆点信息通过Fine BI的自助数据集功能快速完成台风数据集准备提高了数据质量,快速获得数据分析结果,简化了数据准备的工作量。
探索式可视化分析在于通过“假设”“寻证”方式获取数据背后的含义。例如,在分析过程中假设夏季台风强度是最高的,但是通过数据时序展现的结果,发现秋台风的强度是最高的。探索式分析本质在于假设,通过数据来证明这个假设是否成立,往往这些基于分析假设可以发现一些意想不到的结果,需要通过数据寻证去证实背后的事实,而FineBI敏捷化数据分析模式非常适合数据探索的历程。
附:
1、在线模版查看:https://bisolutions.fanruan.com/webroot/decision/link/JYjp
2、在线模板编辑:https://t6ixa9nyl6.jiandaoyun.com/f/60ffc825cf5c0b00070ee662 (填写问卷,获取平台账号)
3、PDF原文件
【BI可视化夏季挑战赛】作品-台风大数据分析.pdf (1.73 M)
|