【2022BI数据分析大赛】豆瓣电影Top250排名分析

楼主
我只希望再多点机遇与历练

一、选手简介

1、选手介绍

帆软社区用户名:yzm289367

团队名:星星之火

身为某高校电子商务专业的一名大三学子,我对数据可视化很感兴趣,恰好专攻的方向是商务大数据分析,这些年数据可视化分析变得越来越火热,人们获取和解读数据的可能性大大提高,基于数据挖掘、理解数据基础上的数据大屏可视化,成为企业决策与宣传手段一个新的发展方向和突破,可见针对各行各业源源不断的数据,制作数据可视化报表对进行商业决策分析,市场预测,制定计划,数据结果可视化呈现,有着很大优势,比赛期间我已初步具备FineBI的基础知识,并仍在不断学习FineBI中。

个人照片:

C:\Users\ASUS\Pictures\蓝底.png蓝底

 
2、参赛初衷

参加这次比赛的初衷有以下几点:

(1)想借着此次帆软BI数据分析大赛,提升数据分析能力、数据处理、数据整合、数据可视化大屏呈现能力。

(2)提高从普遍众多的商务数据信息中发现问题,分析问题,解决问题的能力。

(3)通过实践提升自己BI工具学习和使用的技能,在此次大赛中了解更多优秀的BI实践案例,认识许多优秀的数据分析的朋友们,以及大神是如果利用该工具进行数据分析的。

(4)以后公司就业,我可以投递大厂公司的数据分析师岗位,为自己以后从事数据分析增加工作经验。

(5)最最最重要的一点帆软BI大赛官方准备的奖品也是很丰厚的,就冲着这一点,打死也要上呀,哈哈哈,世俗了,不过确实奖品挺丰厚的,我想肯定会吸引很多优秀的数据分析人才纷纷参赛,作出他们关于某一行业的数据分析报告,自己也可以从中好好的学习,提升,这真是一个大好机会。

 

二、作品介绍

1、业务背景/需求痛点

(1)业务背景

现如今,数据可视化由于数据分析的火热也变得火热起来,数据可视化就是用可视化的方式展现数据。随着物联网、5G等各种跟连接有关的技术的出现与发展,每个人手中掌握的数据量都呈指数级增长,光看这些数是看不过来也看不懂的,“数据可视化”,就是一种简化,让艰难的数据理解过程,变成——看颜色,辨长短,分高低。从而大大缩短理解数据所需的时间。电影现已成为一个国家或者地区的文化输出,提到美国电影,想到的词:美国大片、动作片、科幻片、好莱坞等。提到印度电影:宝莱坞、歌舞片等。香港电影呢:枪战片、古惑仔、武侠片等。

(2)需求痛点

此次分析主要针对250部电影的上映日期,电影制片国家/地区,电影类型,电影导演和主演,电影的评分和评分人数情况进行分析,将得出相关因素呈现的数据结果,并最后制作出数据可视化大屏,和数据分析报告,以期为电影制作方和中国电影事业提供一些思路和参考。

 
2、数据来源

自选数据

数据来源网址:https://movie.douban.com/top250

 
3、分析思路
(1)确定分析场景,明确分析目的

首先提出问题后,明确我们想得到什么结论和信息。然后可以从什么渠道获取数据,运用什么分析方法进行数据分析,最后得出结论输出报告。比如我们团队想做一个Top250豆瓣电影的数据分析,看看这些电影主要来自哪些国家、哪些演员主演、人们对电影的评价情况等等,豆瓣有电影的排行榜,以豆瓣电影Top250为例,先看看榜单上有哪些数据信息:

可以看到,榜单上有电影名、导演、主演、上映年份、制片国家、电影类型、评分、评价人数等信息,这些可以通过描述性统计、可视化图表来展开分析:哪些电影评分靠前、最受热评?哪些类型、国家、导演、演员高产优质电影?上榜电影数量逐年变化趋势怎样?最后得出结论。理完整个数据分析的思路,我们就可以进行下一步。

(2)数据抓取

我采取了两种爬取豆瓣电影Top250数据的方法,以确保数据的准确性和完整性。

1)Python爬虫爬取:

使用python爬取豆瓣电影top250的电影相关信息,包括电影、评分、评价数、概况、相关信息(导演、主演、制作年份、影片类型)

爬取的数据如下所示:

八抓鱼数据采集器采集

先设计获取数据流程:

数据采集成功:

c4d2cb186e66c7e1888164220b8338d

帆软BI导入采集数据:

ca745e58e6e34e14ab4b7d73c395710

 
4、数据处理

使用Excel对爬取下来的数据进行预处理包括格式、缺失值、重复值等。其中由于类型和制片国家有多个描述,因此将多个描述的内容也整理出来。

82ddfba282add165ff529bcca95f6cc

分析思考过程:

围绕本次数据分析大赛,我作出了数据分析研究的大致路线,并且在之后研究中发现有不足的或者是有改进的,我将会再修改。

作品研究的背景、目的及意义

相关理论基础

数据引入

数据关联关系

Fine BI的使用

数据分析

数据处理

根据数据结果制作可视化图表组件

数据可视化作品总结与数据呈现视觉美化

 

三、可视化报告

(1)数据可视化大屏风格和各组件

此次数据可视化大屏制作,我的仪表盘布局风格采用系统内置的复古风格,并且制作中运用了kpi指标卡,分组表,词云,分区柱形图,瀑布图,饼图,分区折线图,散点图,聚合气泡图。

(2)仪表盘模块化进行数据可视化分析,得出结论
  1. 显示评分、评论数、导演、主演指标仪表

    2.豆瓣电影按评分,评价人数排名

将豆瓣电影Top250的评分和评论人数分别降序排序,可以看出,这些作品基本都是广大群众心中的经典之作。从而得出人们喜欢的电影是什么。

    3.列出电影类型

大多数电影类别1都属于剧情,剧情类电影有188部,且该电影包含爱情、喜剧题材类型的数量最多,分别是43部,36部,而悬疑、犯罪、动作、动画、奇幻、家庭、科幻、惊悚题材类型数量大体相似,为15部左右,只有纪录片、音乐、儿童、歌舞、历史、同性这些较为小众的题材则数量较少。

    4.电影所属国家

美国、中国、日本产出高质电影数量靠前。其中,美国上榜的电影数量高达112部,中国数量42部,日本33部。

    5.优质导演、主演

高产优质电影的导演主要有宫崎骏(8部)、克里斯托弗·诺兰(6部)、史蒂文·斯皮尔伯格(6部)、王家卫(5部)、大卫·芬奇(4部);高产优质电影的主演主要有彼得杰克逊(3部)、理查德·林克莱特(3部)、周星驰(2部)、刘镇伟(2部)等。

    6.电影年数、月数趋势

2003年、2004年、2010年、2015年这四年都有13个电影上榜,接着1994年、2011年、2013年都有11个电影上榜,2017年、2018年、2006年、2014年、2019年,都不错,总的来说2006年往上,上榜电影都很多。按年分区间分组也看得出1990-2010区间,上榜电影数量最多,紧接着就是2010-2021区间。按月份来看,1月,9月,12月,这三个月中上榜的电影高达30余部,5月,6月,11月这三月紧随其后,都20多部多,月份区间来看大致数量差不多,都挺齐的。

结论:

1.榜单中美国电影数量最多,接近一半的电影是美国制作;

2.上榜的电影中,大多数电影都是剧情类,有188部,爱情、喜剧题材类型的电影也不少,分别为43部,36部;

3.上榜次数最多的三位导演是:宫崎骏、克里斯托弗·诺兰、史蒂文·斯皮尔伯格;

4.高产优质电影的主演主要有彼得杰克逊、理查德·林克莱特、周星驰、刘镇伟等;

5.2003年、2004年、2010年、2015年这四年电影上榜数量最多,有13个电影上榜,而1994年、2011年、2013年上榜电影数量也挺多,都有11个电影,电影在1990-2010年段电影数量最多,有123部;月份来看,1月,9月,12月,这三个月中上榜的电影高达30余部,5月,6月,11月这三月紧随其后,都20多部多;

6.豆瓣电影top250都是评分在8.3及以上的电影,这些电影往往带有人生的思考,体现出导演与演员精良的制作。

7.最后,各种电影榜单众多,评判标准也各不相同。各排名和评分也是只参考,毕竟一千个人一千个哈姆雷特。

(3)最终结果呈现的页面布局

7262861f300f831bf835fbb5bb463ce

四、参赛总结

1、FineBI工具

我认为FineBI这款数据处理、分析兼数据可视化大屏制作软件特别好,用FineBI可以简单快速地生成各种很酷的可视化数据报告,并可以进行有目的的数据分析。简单的理解FineBI就是更高级的Excel数据透视表。选择要显示的数据字段,即可立即显示可视化。

FineBI可以对数据进行加工,创建可视化组件,设计仪表盘,甚至与他人分享数据成果,用FineBI你可以不必通过1超强的代码能力和高超的excell技术,他简化了数据处理,数据可视化图表制作的难度,完全零代码,只要你具备数据分析思维,懂业务,完全可以制作出一个精美的数据可视化大屏。

 

2、参赛总结

在独自整体完成作品的过程中,我遇到了许多困难,比如怎样用自助数据集来汇总、连接数据从而展示自己想要的数据结果和指标、怎样选择合适的图表来展示数据、怎样进行仪表盘颜色的搭配和选择、怎样按照自己的设想和需要计算指标等等,里面很多操作方法也是自己一步步跟着视频相关案例学习、从社区帮助文档查找从而知道的。

通过此次参赛,最大的收获是用FineBI解决了自己感兴趣的豆瓣电影Top250排名分析的问题,并能制作图表并采用联动效应使分析的数据可视化的展现出来。目前我可以搭建起来基础的数据可视化大屏/驾驶舱,可以独立讲述数据背后的数据故事。并且,通过FineBI我可以手分析日常生活中的数据,向周围人介绍更深刻的数据结论,以及FineBI的优势。

 通过这次学习参赛,自己在数据分析的道路又走进了一步,也见到了各行业众多优秀的数据分析人才的精彩数据分析报告,希望日后能在工作更好的发挥FineBI的功能。最后再次感谢赛事方的大力支持与工作人员的辛苦付出,这次比赛学习感触很深,技能提高了不少。

分享扩散:

沙发
发表于 2022-5-9 17:55:50
案例打卡:整部作品方法和思路都还可以,版面设计还有优化空间。才大三,未来可期,关于新闻类分析,我觉得还可以想想如何抓住读者愿意看你的分析。
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

板凳
发表于 2022-5-12 14:51:38
案例打开:我觉得选题还是新颖的,比较抓住年轻人或者是文艺青年的眼球,但是UI方面需要提高,整个配色和排版不是很美观,改善一下的话,说不定豆瓣也会采取你的思路,每年做个总结呢
参与人数 +1 F币 +6 理由
帆软苏茜 + 6 有效打卡奖励

查看全部评分

地板
发表于 2022-5-13 16:01:33
电影分析周期性很明显的,建议增加周/月/季/年等周期维度进行分类分析,试一试,会有很多好的发现的.
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

5楼
发表于 2022-5-14 09:51:13
美好的选题,相信每个人都喜欢看看电影,控方证人还没看过,肖恩克的救赎看过了,宫崎骏的电影也不错,如果楼主能定期更新,估计会有人喜欢的,谢谢分享
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

6楼
发表于 2022-5-18 18:39:46
案例打卡:是我喜欢的选题了,有了这个看板,我可以直接用数据分析的方法来选出自己喜欢的电影了,高效又节省时间,从生活入手非常棒。
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

7楼
发表于 2022-5-20 22:02:00
案例打卡:发现本次比赛很多大学生参与,通过参加比赛是一个很不错锻炼自己能力的机会,加油。
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

8楼
发表于 2022-5-30 23:44:14
案例打卡:八爪鱼好好用,文字部分可以再清晰一点,标题也可以再突出一点~不过主要的关注内容都分析到了,商业价值可以再挖挖
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

7回帖数 2关注人数 10969浏览人数
最后回复于:2022-5-30 23:44

返回顶部 返回列表