一、选手简介
1、选手介绍
帆软社区用户名:yzm289367
团队名:星星之火
身为某高校电子商务专业的一名大三学子,我对数据可视化很感兴趣,恰好专攻的方向是商务大数据分析,这些年数据可视化分析变得越来越火热,人们获取和解读数据的可能性大大提高,基于数据挖掘、理解数据基础上的数据大屏可视化,成为企业决策与宣传手段一个新的发展方向和突破,可见针对各行各业源源不断的数据,制作数据可视化报表对进行商业决策分析,市场预测,制定计划,数据结果可视化呈现,有着很大优势,比赛期间我已初步具备FineBI的基础知识,并仍在不断学习FineBI中。
个人照片:
2、参赛初衷
参加这次比赛的初衷有以下几点:
(1)想借着此次帆软BI数据分析大赛,提升数据分析能力、数据处理、数据整合、数据可视化大屏呈现能力。
(2)提高从普遍众多的商务数据信息中发现问题,分析问题,解决问题的能力。
(3)通过实践提升自己BI工具学习和使用的技能,在此次大赛中了解更多优秀的BI实践案例,认识许多优秀的数据分析的朋友们,以及大神是如果利用该工具进行数据分析的。
(4)以后公司就业,我可以投递大厂公司的数据分析师岗位,为自己以后从事数据分析增加工作经验。
(5)最最最重要的一点帆软BI大赛官方准备的奖品也是很丰厚的,就冲着这一点,打死也要上呀,哈哈哈,世俗了,不过确实奖品挺丰厚的,我想肯定会吸引很多优秀的数据分析人才纷纷参赛,作出他们关于某一行业的数据分析报告,自己也可以从中好好的学习,提升,这真是一个大好机会。
二、作品介绍
1、业务背景/需求痛点
(1)业务背景
现如今,数据可视化由于数据分析的火热也变得火热起来,数据可视化就是用可视化的方式展现数据。随着物联网、5G等各种跟连接有关的技术的出现与发展,每个人手中掌握的数据量都呈指数级增长,光看这些数是看不过来也看不懂的,“数据可视化”,就是一种简化,让艰难的数据理解过程,变成——看颜色,辨长短,分高低。从而大大缩短理解数据所需的时间。电影现已成为一个国家或者地区的文化输出,提到美国电影,想到的词:美国大片、动作片、科幻片、好莱坞等。提到印度电影:宝莱坞、歌舞片等。香港电影呢:枪战片、古惑仔、武侠片等。
(2)需求痛点
此次分析主要针对250部电影的上映日期,电影制片国家/地区,电影类型,电影导演和主演,电影的评分和评分人数情况进行分析,将得出相关因素呈现的数据结果,并最后制作出数据可视化大屏,和数据分析报告,以期为电影制作方和中国电影事业提供一些思路和参考。
2、数据来源
自选数据
数据来源网址:https://movie.douban.com/top250
3、分析思路
(1)确定分析场景,明确分析目的
首先提出问题后,明确我们想得到什么结论和信息。然后可以从什么渠道获取数据,运用什么分析方法进行数据分析,最后得出结论输出报告。比如我们团队想做一个Top250豆瓣电影的数据分析,看看这些电影主要来自哪些国家、哪些演员主演、人们对电影的评价情况等等,豆瓣有电影的排行榜,以豆瓣电影Top250为例,先看看榜单上有哪些数据信息:
可以看到,榜单上有电影名、导演、主演、上映年份、制片国家、电影类型、评分、评价人数等信息,这些可以通过描述性统计、可视化图表来展开分析:哪些电影评分靠前、最受热评?哪些类型、国家、导演、演员高产优质电影?上榜电影数量逐年变化趋势怎样?最后得出结论。理完整个数据分析的思路,我们就可以进行下一步。
(2)数据抓取
我采取了两种爬取豆瓣电影Top250数据的方法,以确保数据的准确性和完整性。
1)Python爬虫爬取:
使用python爬取豆瓣电影top250的电影相关信息,包括电影、评分、评价数、概况、相关信息(导演、主演、制作年份、影片类型)
爬取的数据如下所示:
八抓鱼数据采集器采集
先设计获取数据流程:
数据采集成功:
帆软BI导入采集数据:
4、数据处理
使用Excel对爬取下来的数据进行预处理包括格式、缺失值、重复值等。其中由于类型和制片国家有多个描述,因此将多个描述的内容也整理出来。
分析思考过程:
围绕本次数据分析大赛,我作出了数据分析研究的大致路线,并且在之后研究中发现有不足的或者是有改进的,我将会再修改。
作品研究的背景、目的及意义
相关理论基础
数据引入
数据关联关系
Fine BI的使用
数据分析
数据处理
根据数据结果制作可视化图表组件
数据可视化作品总结与数据呈现视觉美化
三、可视化报告
(1)数据可视化大屏风格和各组件
此次数据可视化大屏制作,我的仪表盘布局风格采用系统内置的复古风格,并且制作中运用了kpi指标卡,分组表,词云,分区柱形图,瀑布图,饼图,分区折线图,散点图,聚合气泡图。
(2)仪表盘模块化进行数据可视化分析,得出结论
- 显示评分、评论数、导演、主演指标仪表
2.豆瓣电影按评分,评价人数排名
将豆瓣电影Top250的评分和评论人数分别降序排序,可以看出,这些作品基本都是广大群众心中的经典之作。从而得出人们喜欢的电影是什么。
3.列出电影类型
大多数电影类别1都属于剧情,剧情类电影有188部,且该电影包含爱情、喜剧题材类型的数量最多,分别是43部,36部,而悬疑、犯罪、动作、动画、奇幻、家庭、科幻、惊悚题材类型数量大体相似,为15部左右,只有纪录片、音乐、儿童、歌舞、历史、同性这些较为小众的题材则数量较少。
4.电影所属国家
美国、中国、日本产出高质电影数量靠前。其中,美国上榜的电影数量高达112部,中国数量42部,日本33部。
5.优质导演、主演
高产优质电影的导演主要有宫崎骏(8部)、克里斯托弗·诺兰(6部)、史蒂文·斯皮尔伯格(6部)、王家卫(5部)、大卫·芬奇(4部);高产优质电影的主演主要有彼得杰克逊(3部)、理查德·林克莱特(3部)、周星驰(2部)、刘镇伟(2部)等。
6.电影年数、月数趋势
2003年、2004年、2010年、2015年这四年都有13个电影上榜,接着1994年、2011年、2013年都有11个电影上榜,2017年、2018年、2006年、2014年、2019年,都不错,总的来说2006年往上,上榜电影都很多。按年分区间分组也看得出1990-2010区间,上榜电影数量最多,紧接着就是2010-2021区间。按月份来看,1月,9月,12月,这三个月中上榜的电影高达30余部,5月,6月,11月这三月紧随其后,都20多部多,月份区间来看大致数量差不多,都挺齐的。
结论:
1.榜单中美国电影数量最多,接近一半的电影是美国制作;
2.上榜的电影中,大多数电影都是剧情类,有188部,爱情、喜剧题材类型的电影也不少,分别为43部,36部;
3.上榜次数最多的三位导演是:宫崎骏、克里斯托弗·诺兰、史蒂文·斯皮尔伯格;
4.高产优质电影的主演主要有彼得杰克逊、理查德·林克莱特、周星驰、刘镇伟等;
5.2003年、2004年、2010年、2015年这四年电影上榜数量最多,有13个电影上榜,而1994年、2011年、2013年上榜电影数量也挺多,都有11个电影,电影在1990-2010年段电影数量最多,有123部;月份来看,1月,9月,12月,这三个月中上榜的电影高达30余部,5月,6月,11月这三月紧随其后,都20多部多;
6.豆瓣电影top250都是评分在8.3及以上的电影,这些电影往往带有人生的思考,体现出导演与演员精良的制作。
7.最后,各种电影榜单众多,评判标准也各不相同。各排名和评分也是只参考,毕竟一千个人一千个哈姆雷特。
(3)最终结果呈现的页面布局
四、参赛总结
1、FineBI工具
我认为FineBI这款数据处理、分析兼数据可视化大屏制作软件特别好,用FineBI可以简单快速地生成各种很酷的可视化数据报告,并可以进行有目的的数据分析。简单的理解FineBI就是更高级的Excel数据透视表。选择要显示的数据字段,即可立即显示可视化。
FineBI可以对数据进行加工,创建可视化组件,设计仪表盘,甚至与他人分享数据成果,用FineBI你可以不必通过1超强的代码能力和高超的excell技术,他简化了数据处理,数据可视化图表制作的难度,完全零代码,只要你具备数据分析思维,懂业务,完全可以制作出一个精美的数据可视化大屏。
2、参赛总结
在独自整体完成作品的过程中,我遇到了许多困难,比如怎样用自助数据集来汇总、连接数据从而展示自己想要的数据结果和指标、怎样选择合适的图表来展示数据、怎样进行仪表盘颜色的搭配和选择、怎样按照自己的设想和需要计算指标等等,里面很多操作方法也是自己一步步跟着视频相关案例学习、从社区帮助文档查找从而知道的。
通过此次参赛,最大的收获是用FineBI解决了自己感兴趣的豆瓣电影Top250排名分析的问题,并能制作图表并采用联动效应使分析的数据可视化的展现出来。目前我可以搭建起来基础的数据可视化大屏/驾驶舱,可以独立讲述数据背后的数据故事。并且,通过FineBI我可以手分析日常生活中的数据,向周围人介绍更深刻的数据结论,以及FineBI的优势。
通过这次学习参赛,自己在数据分析的道路又走进了一步,也见到了各行业众多优秀的数据分析人才的精彩数据分析报告,希望日后能在工作更好的发挥FineBI的功能。最后再次感谢赛事方的大力支持与工作人员的辛苦付出,这次比赛学习感触很深,技能提高了不少。 |