一. 选手介绍
1. 个人介绍:
- 帆软社区用户名:JackGan
- 社区ID:622845;
- 某某有限公司打工人;从事于数据分析工作。
- 本人热衷于自然语言处理,数据可视化与网络爬虫技术,致力于AI与BI的相融合。
1.1 个人照片:就这张吧,当前状态本色出演。
2 参赛初衷
- 作为帆软BI的新人,很高兴能参加本次大赛,首先感谢帆软工作人员的支持与指导。
- 至于比赛初衷嘛,当然是为了大赛奖品啦。咳咳,其实是为了检验这一段时间以来的学习成果。
- 看能不能将自己目前所学的知识点连成先线,线连成面,将所学到的知识融会贯通。
- 同时也为了巩固与校验自己的知识与技术,发现自己的长处与短板。
- 当然啦也希望与更多FineBI大神交流,欢迎志同道合的朋友互相学习共同成长。
二. 作品介绍
1 业务背景
- 这个。。ummmmmm 还真没有,觉得感兴趣就做了。咳咳--
- 言归正传,HarmonyOS发布作为新世纪的产物开启了万物互联的新时代,而我们这一时代的见证者对鸿蒙全场景发布会有什么看法呢?对于这一个疑问我决定展开分析。
2 数据来源
- HarmonyOS发布会视频数据来源于Bilibili.com,数据范围是6月2日-6月5日。
- 这次分析想做的是文本类的分析,数据维表主要为弹幕维表与评论维表,还有一张附带基础视频信息。
3 分析思路
- 这个,还是直接上图吧。
4.数据处理
4.1 数据获取
- 首先数据获取方面,就直接用Python在进行爬取了。
- 流程大致是在B站HarmonyOS发布会视频页面按F12,打开开发者工具,找到弹幕与评论接口,在console输入aid/cid返回视频编号, 通过抓包结果解析弹幕与评论数据。
- 爬虫截图如下:
- 爬取评论回参的数据为JSON格式,很简单就能解析了。
- 爬取弹幕返回的xml文件,通过beautiful4soup解析也是比较容易的。
- 就是在抓取二级评论的时候有些麻烦,需要该评论的父评论ID才能抓取,当初就是因为这个改了不少代码的时候还费了些时间。
以下就是处理完的弹幕维表信息啦:
评论维表信息:
4.2 数据清洗
- 在清洗方面还是挺简单的,因考虑到要过模型所以需要把一些表情切换成中文文本,回想起来要是当时单独拎出来还可以做下表情分析。
- 比较难的部分就是理解爬取的字段与实际页面呈现内容的映射关系了,这个得跟页面一个个对,这个还是很痛苦的。
- 比较幸运的是每个接口反馈的内容并没有重复,也就省去了去重的步骤了,就算重复了也可以根据评论ID/弹幕ID去重。
- 至于脱敏方面就是新增一列用户ID字段代替原来的用户名,然后从1到N自动生成数字替换就可以了。当然生成之前需要检测下对应的用户ID是否以生成数据了,如果已生成复用就好。
4.3 数据建模
- 考虑弹幕与评论两个不同的文本维度,弹幕多数以简短精炼为主表达了用户对当前视频时间节点的反馈建议,而评论内容较长覆盖面更广更多是对于整场发布会的总结或表面观点。
- 既然弹幕大多数都是短文本,那么将短文本向量化然后进行文本聚类就知道用户的观点倾向了。考虑到数据量的问题聚类方法用的single-pass,词向量方面就用预训练好的就行,相识度方面用的是余弦相识度进行计算。
- 情感识别方面,用的snowNLP进行简单的分类,刚开始的准确率不是很理想,但通过输出结果抽取一些负向样本进行再训练后还是能达到理想的效果的。至于为什么不用深度学习的神经网络呢?主要是因为这个算法够用了而且比较方便快捷。
4.4 新增发布会阶段字段
- 这个没什么好办法的只能通过视频自己统计出来,然后一个个阶段添加上去。
5. 可视化报告
5.1 排版布局
- 排版的核心思想是尽量是让读者一眼就能看明白组件所表达的内容,所以在排版设计方面会比较简约。
- 颜色方面用的是默认的模板哈,个人觉得带未来感的颜色就挺好看而且契合主题。
排版分为两个部分:
- 一是弹幕分析:主要为了展现用户对发布会视频每个阶段的情感与观点。
- 二是用户与评论分析:主要是为了展现用户对整场发布会视频的评价以及用户画像。
5.2 报告结论
从以上组件中观测可以得出以下几个结论的。
5.2.1 弹幕与评论相比之下,用户更喜欢以弹幕的形式进行互动。弹幕多数以简短精炼为主表达了用户对当前视频时间节点的反馈建议,而评论内容较长覆盖面更广更多是对于整场发布会的总结或清楚表明一个观点。
5.2.2 随着时间的推移,无论是弹幕趋势还是评论趋势都是持续递减的,当视频上架后及视频热度及处于高峰。有大多数用户选择在6月3日凌晨选择观看此次HarmonyOS发布会视频。
5.2.3. 从弹幕情感与趋势分析,发布会开场与结尾为整场发布会的高潮阶段。弹幕发送量与正向情感占比为整场发布最高。在50分钟至85分钟Huawei产品介绍阶段,弹幕量偏少,为整场发布会的低潮阶段。
5.2.4. 本场发布会视频对于男性用户与安卓客户端用户有着巨大的吸引力。从情感与观点维度出发,大多数用户对于鸿蒙系统表示正向及支持的态度。
5.3 个人建议
- 根据这个弹幕互动的积极度来看在产品介绍阶段可以再生动一些,对消费者而言产品介绍可能缺少亮点。或许可以增加场外互动环节,如场外弹幕抽奖等。
- 从用户观点出发,Watch3是不是可以降价了,Matepad pro与windows的差异化也可以做起来了。下次广告是不是可以换模特了等。
三、参赛总结
对于FineBI我不得不提几个点哈:
- 先说亮点吧,总得来说对新手还是比较友好的用起来也是得心应手。图形也是很漂亮的制图自由度也很高。
咳咳-- 然后说下几个待改进点:
一 是导出PDF的时候有背景的图片会失真啊,就像这次比赛的图片背景图会被莫名其妙的拉长
二 当X轴是多个维度是在做Y轴是度量的时候,在显示多个折线图的情况下是不能做到自适应的。
三 目前的帆软版本好像没有适配谷歌浏览器,在编辑页面会很奇怪哈。
四 不知是不是mac的适应问题,有几次仪表板的组织都自己缩短了。
其实这个看板还可以做进一步的优化的。。比如从组件的设计和颜色上。还有评论和弹幕文本是有进一步挖掘的空间的,初步有个想法是在上面做基于评价主体的相关性分析,比如看下用户在描述watch和matepro的时候所用到的词之间是否有关联。还有一个想做的是本场场发布会视频的词向量可视化,通过词的聚类与分类再将词向量缩至2维投影,最后用散点图展示等。
通过这次比赛我对自然语言数据可视化有了进一步的理解,也是完成了一次挑战吧。同时也是对自身的技术做了一次全面的复习。
以上算是对此次的发布会视频做一个简单的复盘吧,再次感谢帆软工作人员的支持与指导。
HarmonyOS发布会分析 .pdf (3.59 M) |