【2020冬季挑战赛】豆瓣读书数据分析

啥都懂一点,但啥都不精
一、选手简介

1、个人选手版
帆软社区名:大猫吖
职业简介:现就职于某药企信息部,主要负责数据方面的运维和开发工作,从事和数据相关工作将近6年,兴趣加之自我转型结缘,照片嘛,去年追梦人活动的时候给过的,就不给了

2、参赛初衷
之前在论坛里写过感兴趣的分析文章,但实话实说,在工作中基本很少用BI工具去做分析,还是多在用Report做取数工作。在拿了FCBP之后,发现BI越来越少去碰,熟练度也再大大的下降,所以来报个名,参个赛,找找做数据分析的手感,毕竟还是希望自己未来走数据分析的道路而非茶树菇,当然也希望能和一些大神们多多学习。

二、场景介绍

1、背景:
武汉城市之声107.8有个悦读读书会,最近在跟读书会的会员解读豆瓣的100本好书,借此机会就有了对豆瓣书单分析的这个事情

2、分析思路
拿到数据源的第一件事自己是看了下字段的,包括书名、作者、出版社、出版日期、页数,价钱、评分、评论数
于是自己大概整理了下分析思路:
  • 书籍作品出版的趋势
  • 优质高产作者分析
  • 图书出版社的排名
  • 书籍价格占比及书籍的性价比
  • 最值得读的书籍

3、数据整理
数据整理的过程其实是数据分析的重头戏,也是数据分析准确性的基础,当然我这份分析较为简单,所涉及的数据源也并不多,但其中也有几个点需要注意下:

(1)出版日期,因为我的数据源出版日期的数据并不标准,有年月日完整的,有缺失月份和日期的,还有根本不符合现在日期的,所以我并没有使用日期的格式,直接截取了年份的字段,然后将年份转化成了数字,并对数字进行过滤
图片1.png
图片2.png

(2)去重过程,数据源里有些数据是有重复的,所以我对书名、作者、出版社及出版年份进行了去重操作
图片3.png

(3)脏数据过滤,这个就不详细讲了,基本上就是缺失作者、页数、价格,页数、价格为0的这部分数据进行过滤
图片4.png

(4)新增计算字段
增加了一个价值评分,主要是对书籍得分和书籍热度(即评论数)的综合评价。计算公式为:价值得分=(((评论数量/(评论数量+50000))*书籍评分)+(50000/(评论数量+50000))),其中50000为进行排行所需的最小评论数

图片5.png

4、完成分析报告
作品趋势分析,唯一需要注意是20-21世纪的年份周期过长,我在可视化时将年份进行了过滤,展现了1960-2020的趋势;

图片6.png

优质高产作家排名中,我并没有合并2个维度,我优先了作品的平均得分作为排名,作品平均得分越高越优质,而高产则取了作家的出品数量。在这里我在分析前我就过滤了得分不高和反响不好的作品,同时在可视化呈现中,我没有取相同的图形展现,选了条形图和折线图,方便大家能一眼看出;

图片7.png

在图书出版社的排名中,我使用了和作家排名大同小异的方法,只是这次我将出品数量作为排名的条件,而平均得分作为了次要维度,同时,我将条形图换成了柱状图,出版社平均得分的折线图中加入了所有出版社的平均得分警戒线作为参考,使得数据阅读更为方便。

图片8.png

说说价格段占比,在做占比可视化时,先将指标转化成维度,然后对价格维度进行区间分组,最后才是图形的调整,我在做的过程中,饼状图、玫瑰图和环形图都有试过,我个人加了点小icon后觉得最为理想的呈现方式是环形图,当然玫瑰图也不错,只是我指标对玫瑰图的半径大小影响不大,效果我个人不是很满意,就PASS掉了。

图片9.png

在性价比分析中,我脑子中第一个可视化的结果就是使用象限法,去呈现一种书籍价格与页数的关系,但在后来做的过程中,我觉得页数,价钱的关系对性价比说明稍微弱了点,于是我就又加入了评分高于9分的闪烁动画。当然还有一点,就是这个分析的数据量是超级大的,我在分析前还过滤掉了书籍评论数小于50000的作品,最后结果就是这样的。

图片10.png

关于最值得读的书单,这块可视化的制作我选择了矩形图的呈现,之所以没选择条形图和柱状图,还是考虑到这份报告里的视觉疲劳,至于其他方面的注意事项,和之前的分析差不多吧。

图片11.png

最后,就说说排版布局吧,之前做过一些比较花俏的可视化,类似大屏看板那种的,但是我个人更愿意偏向清爽简洁型,主要还是为了说明可视化后得出的结果。最后呈现结果的话就看我的PDF吧~
pdf.jpg
附:可视化解读的视频地址,欢迎大家来交流~

5、项目总结
最后了,说说做整个作品的个人想法吧,本人在互联网上一直会关注一些大V的文章,比如这次评委中的其中2位:黄成明老师和李启芳老师,当然这些老师多数教大家是怎么样去做数据分析,也就是数据分析方法,至于数据分析报告的写法和呈现,其实不多。当然我自己也会去网站或公众号去看一些数据报告类的文章,所以这次除了做了一份书面报告外,我换了种思路,将纸面化的报告做成了一个短视频,虽然视频内容的创意还不足,但这种展现数据的方式我觉得是可以抓住阅读者的眼球和内心的,就当是一种新的尝试吧~~
这次挑战赛的这个作品,我虽然以个人名义报的,但视频中的配音还是靠朋友帮忙录的,非常感谢 耶稣的邻居(昵称)!多的就不说了,很期待未来跟大家有更多的合作可能!

21天打卡训练营.jpg
参与人数 +3 F豆 +166 贡献 +500 F币 +500 理由
帆软-苏瑞 + 500 + 500 恭喜荣获“优秀参与奖”
Toros + 100 老太太摔倒了我都不扶,就服你
兔子酱 + 66 太棒了,给你32个赞

查看全部评分

发表于 2022-12-26 19:46:32
请问数据在哪里找的呀
发表于 2022-4-6 13:33:23
学到了学到了
发表于 2020-12-24 21:55:56 发布于APP客户端
书籍是人类进步的阶梯good
发表于 2020-12-24 19:08:05
请教一下,看到写书最多的作者是王小波,但印象里王小波好像没有写了这么多书哎,是不是没有去重再版的书籍呀
发表于 2020-12-24 15:52:18
看视频看的我热泪盈眶,太喜欢你了
发表于 2020-12-24 15:50:03
居然还嵌入了可视化视频讲解,别具匠心,之前本来也是想弄影视豆瓣评分的,部分数据不好量化搁置了,参照你的作品学习了
发表于 2020-12-11 13:56:55
不应该研究下颜值和读书的关系吗?
人丑就要多读书吗
发表于 2020-12-11 13:50:36 发布于APP客户端
竟然还制作了视频,这也太优秀了!!!
关注、点赞、收藏、回帖,为敬
发表于 2020-12-9 09:37:23
卧槽,我什么时候才可以这么优秀+1
发表于 2020-12-8 19:21:37
哇,很实用的结论,以后再分析下专业方面的书单吧~
发表于 2020-12-8 18:11:35 发布于APP客户端
卧槽,我什么时候才可以这么优秀
发表于 2020-12-8 17:43:12
我一直拿捏不好浅色系的图表搭配,嘿嘿,后续再有比赛可以拿你的做样例了
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

21回帖数 9关注人数 32271浏览人数
最后回复于:2023-6-26 15:08

返回顶部 返回列表