【帆软杯】豆瓣电影数据分析

楼主
我是社区第902650位番薯,欢迎点我头像关注我哦~
12

作者:贺睿 陈奕霏 高丹丹

指导老师:芦俊丽

1.作品背景

       电影是人们日常休闲生活中必不可少的娱乐方式,随着文化事业的发展,电影行业的发展也越来越欣欣向荣,我们所能接触到的电影类型更加广泛,它成为重要的艺术和娱乐的载体,极大的丰富了我们的生活。

2.研究意义

       评判一部电影的好坏与否,通常能够在人们对电影的评分和评价等方面可以体现出来。对电影数据的研究可以了解人们对电影的偏好,了解各个国家电影的发展状况,从而让人们更加方便地了解电影的发展变化,对制片的有关人员提供制片的导向,从而能够有更多的、更好的电影。通过对电影数据的研究有利于制片的相关人对电影剧本的开发和优化,涉及内容的创作、主题的确定和类型的选择等都有非常重要的意义;同时还可以让普通大众对电影的发展有一个更深的了解。电影所具有的艺术性、经济型、文化性是与人们的生活密不可分的,因此不论从文化传播还是经济发展的角度来看,我们都需要对电影的发展趋势进行深入研究,从而更好的推动电影繁荣发展。

3.数据分析

       经过数据的预处理,本文主要是对电影类型占比、国家电影产量对比、top100导演、评分、总分评价人数和短评数量的相关性展示以及一些与电影相关因素的展示,来进行可视化及分析。

3.1 电影类型的占比分析

       根据对电影类型的词频统计分析,我们选择了通过一个饼图,来展示各个电影类型的占比,由此我们可以直观的看出豆瓣总分前5000名的电影中,哪一类型的电影占比较大或者较小,这样不仅仅能发现观众们的电影喜好,还能便于给我们乃至全世界各国一个关于往后电影事业发展的指导方向,了解到观众们的喜好,便于出相应类型的题材,以获取更加的业绩。

       通过图表所表示出的可视化结果,我们可以直观的看出,豆瓣总分前5000名的电影之中,动作类型的题材电影排名靠前,经我们小组讨论得出我们的观点是:为有时人们的想法、望在现实世界中无法实现,或一些情感交流被一直压抑在心底,就需要情绪上的发泄。动作片玩的就是刺激,要的就是一种精神上的发泄。而人们看动作片时,视觉和感知都受到了一定程度的刺激,不良情绪的到释放,精神上得满足。所以很多人都喜欢看动作片。 其次剧情、爱情类型的题材占比也相对较大,经我们小组网上查阅资料,剧情片的节奏往往比较的慢,但是情节相对紧凑,往往是一种社会现象和一定人群的生活状态的写照,容易使观看者产生情感上的共鸣,因此有着相对来说较高的占比受人喜爱,而爱情电影是电影中最大的一个题材类型,人类的爱情行为从最普通最常见的到最畸形最变态的,从最纯洁最无私的到最无聊最猥琐的,几乎都被囊括其中。百多年的电影史,也是百多年来纪录、反映、表现人类爱情的大展台,但是爱情电影如此之多,悲剧喜剧、明恋暗恋、同性异性、激情的深挚的、纯情的变态的、一往情深的朝三暮四的、恩恩爱爱的生离死别的,情节不同,着眼点不同,电影也会起着不同的作用。种种爱情电影总和到一处,共同组成“爱情絮语”的影像世界。

       像悬疑、犯罪、战争等类型的题材,悬疑片、犯罪片使人们对主要人物的命运引起关切,而造成高度焦虑和紧张感的一种电影类型。 悬疑片中常能用情节引起观众在看的时候一边思考,而片尾处谜底的揭露又往往让人意想不到,故事依据起承转合作为收尾。 同时也指充满悬念,利用电影中人物命运的曲折遭遇、未知的情节的发展变化或者无法看清的结局真相,吸引观众注意力并能引发后续思考和讨论的一种 电影 类型。而战争片,亦称“ 军事片 ”,以战争史上重大军事行动为题材的影片,有通过战争事件、战役经过和战斗场面的描写,刻画人物性格,树立英雄形象;也有通过人物和故事情节的描写,形象地阐释某一重大军事行动、军事思想和军事原则;还有反映战争给人们带来的灾难和心灵创伤。因此悬疑、犯罪、战争等类型的题材占比也很高。 最后我们发现歌舞、运动、武侠类型等题材占比相对来说过低,这一点值得我们思考,同时也为各个影片制作方提供了一个很直观的数据,给与影片制作公司今后制片的一个大致方向。

3.2 电影制片国家/地区占比

       根据对电影制片国家/地区进行分词和词频统计,我们利用得到的数据选择了一个气泡图进行数据可视化,气泡图可以很直观的展示豆瓣电影000名由哪些国家贡献出来的。

       由气泡图可以看出,豆瓣电影前5000名中,大部分都西方发达国家所产出,其中由国产出的优秀电影特别的多,而我国及我们国香港、台湾地区产出量相对于其他的国家来说还是挺多的,可能与我们改革开放后40年的发展息息相关,一个国家只有经济得到快速发展,人民群众解决了温饱问题,才可能更加关注精神文化追求,而西方发达国家产出的电影量较多,可能与他们的经济乃至综合国力息息相关,因此作为国家文化软实力的重要载体,影视在塑造和传播一国国家形象以及传达国家文化价值观上起着巨大作用。因此,必须提升我国影视文化软实力,并同时解决伴随产生的问题。

3.3 top100导演分析

       根据我们获取的excel数据,我们对豆瓣电影总分前200名的导演进行了词云图分析,因为有一些优秀的导演可能拍出了多部优秀的电影,因此我们选择了词云图对前200的电影进行分析,通过词云图我们可以看出,像周星驰、大卫芬奇、宫崎骏、姜文等人的电影很受观众们的喜爱,由此可以给新观众们推荐看他们的电影,可以让新观众们了解到他们优秀的电影。 

3.4 电影时长占比分析

       我们通过对5000条电影的时长分析,发现其中最短时长的电影只有7分钟,而最长的366分钟,豆瓣5000部电影的时长符合正态分布,主要聚集在80到140分钟,100到120分钟的电影居多,由此可见观众们喜欢看那个区间的电影,我选择条形图展示出时长的内容,这样可以直观的给电影制片的相关人员一个思路关于观众喜好的电影时长区间,从而在一定时间内把电影内容展现的淋漓尽致的。

3.5 评分、评价人数、短评数量、总分之间的相关性分析

       由于我们得到的相关数据是根据“总分(评分*评价人数)”来进行排名的,为了是我们展示出来的图更容易让人理解,需要对数据集关于评分进行排序,然后由于相较于评价人数、短评数量来说,总分数值比较大,不利于观察这几个属性之间的关系,所以将该数值缩小10倍,得到该数据图像。

       从得到的图像可以看出,三者与评分存在正态关系,评分为8.7时,电影的评价人数、短评数量、总分都是最高的,评分为8.4时次之;评分在6.5至9.3之间时的评价人数、短评数量、总分都相对较高。另外,可以从评价人数、短评数量、总分图像的拟合度当中看出,三者的关系成正相关,从评价人数可以看出短评数量和总分的趋势,以此类推,从另外两个属性的趋势来看也可以看出另外的趋势。 由此可见,并不是评分越高,对电影的评价人数越多,短评数量、总分也不一定最高,如果制片的相关人员想要了解评价人数、短评数量、总分之中的情况,只需要了解其中一者,就可以大致了解其他两者的情况。

3.6电影评分前十位占比显示

       通过显示电影评分前十位的占比,可以对寻找电影观看的人们有一个导向。

3.7根据电影评分对电影名称进行轮播

       通过这种方式能够让人快速了解到某部电影的评分和了解到某一部电影的质量。 

4.作品展示

5.总结与分享

       将数据可视化能够直观地展示数据中的信息,能够让人们在海量的数据中理出头绪,使数据变得更容易理解,有效地向人们传达信息,而用户则可以有效地利用这些信息作出决策。在对数据进行可视化之前,应该首先确定好研究方向,并对数据有一个全面的了解,之后再围绕研究方向进行一些简单的分析;在绘制图表时,应对图表类型进行筛选,找出最能直观展示数据内容的图表。

分享扩散:

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表