【2020冬季挑战赛】NetFlix数据轻松分析
1.选手简介
1.1.选手介绍
帆软社区用户名:uid273725
职业简介:现就职于某银行某业务部门,日常负责数据分析工作。
1.2.参赛初衷
平常工作经常会用FineBI来处理业务数据的展示,想尝试工作以外的一些主题,得出一些有趣的结论。
看看牛人的作品有什么可以学习的地方。
2.场景介绍
2.1.业务背景介绍&数据来源
背景:Netflix已经成为世界上大型的电视剧和电影制片公司之一,用户数量超过了美国所有有线电视频道的总和,我们也经常会追一些Netflix出品的美剧。通过分析Netflix近几年的影片数据,尝试得出一些结论。
数据来源:Kaggle,使用netflix关键字搜索。选择两个数据,netflix_with_ratings和NFLX_stock。
2.2.分析思路
维度和指标相结合思考:
138706
最终确定3个关键主题:公司自身发展,电影与电视比较,中国的情况。将其呈现在仪表盘中,其余舍弃。
2.3.数据整理netflix_with_ratings前期的数据处理包括:
country字段的拆分。Country字段包含了若干国家,用逗号分隔。使用excel功能,将字段拆分成country1-country12.
Country1字段翻译。百度找了一份国家中英文对照,用excel查找功能补充country_cn列。
duration格式整理。删除min,s这种字符。
2020年数据不够一整年,因此删除2020年。
NFLX_stock前期的数据处理包括:删除其他数据,只保留各年底最后一天的数据。
2.4.完成分析报告
第一部分:netflix自身的发展(1)因为要看随着时间维度的变化,因此选用折线图。以年为单位。数据标签不想展示太多,选择了最大/最小。138739(2)得出结论1:NetFlix的影片数量大增,同时也对应了股价的大涨。印证了公司发展伴随着片库的扩大。
第二部分:电视和电影的比较(1)电视和电影结构比较:使用饼图,调大字体。138757
(2)电视和电影质量的比较:选用平均值,最高值,和标准差三个指标。为了直观,使用表格。调高行高,适应排版。138756
(3)电视的剧集长度,和评分的关系:使用合并在一起的折线图。为了使趋势看起来明显,自定义了轴的最大最小值。138746
(4)结论2:NetFlix电视比电影数量少,但是口碑更好,质量也更稳定。能够续订多季的电视剧,评分整体上有稳定增长的趋势,但是有意思的是,曲线是波浪形的。
第三部分:中国的情况(1)全世界分布:使用地图。创建地理维度时发现,不能用数据中默认的英文,所以使用自定义的country_cn字段。数据方差较大,因此自定义分段。138747
(2)数量对比:因为有排名的意味,所以使用横的条形图。数据筛选时使用或条件,要求排名前5,或者country1包含china, hongkong的。自定义颜色,突出中国。138748
(3)时间趋势:使用并排的柱图,用颜色区分类型。138749
(4)评分排名:分为电影和电视两类,都使用圆点图。使用平均值,并且限制了一定的数量起始基准,影片量过少的国家不参与对比。自定义颜色,突出展示美国、印度、日本、韩国以及中国,这些我们会关心国家的排名。138751
138753
(5)前5:使用词云,条件限制5个。颜色大小都根据评分来区分。因为源数据为英文片名,为了展示对应中文名字,使用自定义分组功能。138755
138752
(6)结论3:NetFlix引进的中国大陆的电影数量不如香港,但是电视剧评分都很突出,并且数量增长趋势也很好。
整体颜色使用了一个默认主题,尽量和NETFLIX颜色相近。排版从上到下,从左到右,自然阅读顺序。曾经考虑过顶栏使用一个nerflix网站的图片,不确定是否侵权,所以没有使用。
将所有小结论写在了每个组件的标题。
2.5.总结
和平常工作所用FB不太一样,工作中更注重筛选框、联动的运用,要监控不断变化的数据;此处更倾向于先分析数据形成一些结论,然后利用FB做成一份漂亮的结果报告。
图谱、关系这种可视化,希望FB以后能支持。
所用的技术没有超出工作中学会的,希望能学习他人作品,有所拓展。
2.6.整体效果图
138853
140336