【2023BI数据分析大赛】大数据背景下国内期刊选择需求分析
大数据背景下
国内期刊选择需求分析
一、选手简介
1选手介绍
半分笑,帆软社区用户名:成都-学生-半分笑。目前就读于成都东软学院,个人对于数据分析有着浓郁的兴趣,很荣幸能够参加此次BI分析大赛
2参赛初衷
我一直对帆软BI大赛有着深厚的兴趣,参加这个比赛对于我个人来说也是一次不错的机会,可以将自己在上课所学的知识和技能应用到实际的项目中,进一步提升自己。并且通过此次比赛能够学到更多新的知识和技能,拓宽自己的视野,以及与其他参赛者交流和分享经验。
在参赛过程中,也会面临一些个人挑战和困难。但我相信面对这些挑战,我有足够的毅力和勇气去克服,展现最好的个人能力。此外,我也希望我的作品能够传递积极的价值观,对于他人能有一定的帮助,解决他人的问题。
二、作品介绍
1、业务背景
正所谓苏轼大诗人所说,“发奋识变天下字,立志读尽人间书”,可见多读书的重要性。但是对于我们大学生来说所读之书不仅仅只限于名著的书,为了我们对于学术有更好的理解,我们就要多多阅读不同渠道的期刊。期刊是学术界交流研究成果的重要载体,通过多读期刊可以及时了解最新的学术研究进展和成果。同时也助于拓宽自己的学术视野,了解自己领域与其他领域的研究动态和思考方式,建立跨科学的思维模式,促进学术交叉和创新。但是在大数据的背景之下面对如此之多的期刊,我们如何来确保自己选择的期刊的权威性,以及文章质量的高低。与其花大部分时间去阅读自己不合适的期刊,不如我们开始就选择大于努力,选择自己合适的期刊进行阅读。
2、数据来源
我们通过微信公众号(马克数据网)获取规整好的国内所有期刊信息数据库
数据预览
图2.1
图2.2
其中我们主要包括期刊名称、主办单位、创刊时间、出版周期、出版地、(2021)复合影响因子、(2021)综合影响因子、专辑名称、专题名称、出版文献量、总下载次数、总被引次数、以及各个期刊收录情况(1表示以收录)等字段
3、分析思路
3.1思维导图
图3.1
3.2分析细则
1.对于出版地细分至具体城市,我们通过对他们重新进行分组,按照市/区/省来划分,便于后面数据统计。
2.寻找各个变量之间的关系如出版文献量是否影响总下载次数和总被引用次数,还有复合影响因子和综合影响因子之间是否存在一定关系。
3.针对期刊的不同指标进行赋值,将较为独立的数据,通过对综合影响因子、复合影响因子,出版文献数量、总下载次数、总被引用次数依据他们不同数据根据整体情况给他们赋予相同的1-5的分值,对于收录情况,如果被该期刊收录就赋值5分,如果没有收录就赋值0分,这样就将不同数据进行具体化与相同化,找出总分值较高的期刊。
4、数据处理
1、将具体是地区数据通过新增汇总列划分为省/区/市,将同一个省/区/市的数据划分为相应的省/区/市
图4.1
2、将专辑名称划分为社会科学I/II、哲学与人文科学、信息科技、社会科学I/II、经济与管理学科、工程科技I/II、基础学科、医药卫生科技、农业科技、其他这几大类。
3、将综合影响因子和复合影响因子赋予不同分值(其中0-5给予1分,5-10给予2分,10-15给予3分,15-20给予4分,20-25给予5分)
图4.2
4、将出版文献量不同出版量赋予不同分值(其中0-30000给予1分,30000-60000给予2分,60000-90000给予3分,90000-120000给予4分,120000-无限制给予5分)
5、将总下载次数不同下载次数赋予不同分值(其中0-2000000给予1分,2000000-4000000给予2分,4000000-6000000给予3分,6000000-8000000给予4分,8000000-无限制给予5分)
6、将总引用次数不同引用次数赋予不同分值(其中0-200000给予1分,200000-400000给予2分,400000-600000给予3分,600000-800000给予4分,800000-无限制给予5分)
7、将收录情况,被该核心期刊收录给予5分,没有被该核心期刊给予0分
图4.3
8、对于不同指标的赋值,我们新增一列将前面对于赋值的列进行就和成为新一列总分值,根据总分值,我们就方便选择较为权威的和高质量的期刊。
图4.4
5、可视化报告
5.1初步可视化
(1)数据含义
关键指标:专题名称
专题名称为文本字段,我们通过词云图来展现目前我国期刊目前主要的期刊专题。便于快速查看期刊研究方向
(2)分析结论
图5.1.1我们根据所有期刊记录数进行词云统计,过滤记录数大于30的专题名称,从上图我们不难发现其中最显眼的便是教育综合,可见目前我国普刊主要的内容便是教育。其中除了教育便是医药卫生、综合科技、基础科学、政治军事等方面的专题,主题围绕教育+医疗+科技方向。
图5.1.1
2.期刊出版周期饼图分布
(1)数据含义
关键指标:出版周期
出版周期主要针对出版的时间间隔,我们通过饼图来展现周期占比,查看出版周期分布情况。
(2)分析结论
图5.1.2我们可以发现,期刊出版的周期主要分布在月刊和双月刊中,其中他们就达到整个周期分布的近70%。由此可见分布期刊的时间不宜太短也不宜太长,选择一月到两月最为合适,这样让我们阅读期刊的也不会产生等待焦急。
图5.1.2
3. 不同专辑期刊出版文献量top15
(1)数据含义
关键指标:专辑名称、出版文献量
通过对于出版文献的数量来进行求和,查找出哪类专辑出版的文献量最多,采用柱形图便于查看每类专辑出版文献数量。
(2)分析结论
由图5.1.3我们可以发现出版文献量最多的便是医疗卫生技术专辑,相对于第二、第三超出了快一倍之多,可见目前国家对于医疗卫生技术方面较为重视,让其研究者大量研究相关内容。其次经济与管理科学、工程科技、社会科学对于出版相关研究的文章也是不分伯仲,相差不大。最后就是农业科技、信息科技、基础学科这三个方面出版的研究文章相对较少。
图5.1.3
4.综合影响因子和复合影响因子对比图
(1)数据含义
关键指标:综合影响因子、复合影响因子
采用折线图对综合影响因子和复合影响因子进行对比以及变化趋势
(2)分析结论
由图5.1.4我们可以发现针对不同期刊我们的综合影响因子和复合影响因子呈现一种正相关的关系,大体上复合影响因子和综合影响因子呈现相同的变化趋势。同时复合影响因子都是高于综合影响因子的。
图5.1.4
5.主办单位出版数量、下载次数、总引用次数对比图
(1)数据含义
关键指标:出版文献量、总被引次数、总下载次数
采用堆积柱形图合理将出版文献量、总被引次数、总下载次数进行有效对比查看三者数据对比
(2)分析结论
图5.1.5我们根据总下载次数的多少进行降序排序,其中除了中华医学会以外,其他主办单位的出版文献量、总被引次数、总下载次数呈现正相关变化趋势。其中出版文献量越多,其引用次数越多,下载次数也相对增多。总下载次数排名前三的分别是吉林大学、清华大学、中华医学会三个主办方。同时经过将出版文献量、总被引次数、总下载次数进行对比,可以发现总下次次数的数据远远大于出版文献量和总被引用次数数据。
图5.1.5
6.专辑的影响因素关系图
(1)数据含义
关键指标:出版文献量、总被引次数、复合影响因子、综合影响因子
采用组合图,下面采用柱状图将出版文献量和总被应用次数进行柱状图对比,而复合影响因子、综合影响因子采用折线图进行对比。将四者有效的进行结合,便于查看专辑名称四个因素之间的关系。
(2)分析结论
由图5.1.6我们可以发现出版文献量、总被引次量、复合影响因子、综合影响因子四个影响因素以不同专辑呈现同一趋势变化。出版文献量多的专辑,其中的总被引用次数、复合影响因子和综合影响因子也相对较高。由此也可以发现影响因子越高该专辑的权威性越强。
图5.1.6
7.期刊出版地理图分布
(1)数据含义
关键指标:出版地
采用地理图,将出版地显示在地理图上,结合地理图便于查看出版地的在地理图上的具体分布。
(2)分析结论
由图5.1.7我们对出版地进行经纬度画出地理图,由地理图我们可以发现出版地主要分布在经济发达地区,主要集中在北京及沿海地区。可见经济越发达对于科研文章的发布也越来越多。
图5.1.7
5.2深度可视化
针对前面初步的可视化我们发现影响因子越高期刊越好,同时出版文献量、下载次数、总引用次数也是如此,数量越多证明该期刊的知名度与内容更加的吸引人。于是我们将不同范围的数据进行相同的数值赋分。
1.市/区/省总分值矩形树图
(1)数据含义
关键指标:总分值、省份
将具体城市依据省/市/区划分,依据总分值将每个省/市/区进行求和,采用矩形树图,便于查看每个省/市/区的分值占比情况
(2)分析结论
图5.2.1我们根据总分值依据不同省/市/区做出矩形树图,其中总分最高的便是我们的首都北京总分达到3539分,其次就是我们上海市、四川省、江苏省位列第二、三、四名,分数相差也不大。同时也与地理图结论相契合,经济发展地带对于学术方面的研究也相对较为重视。
图5.2.1
2.专辑的总分数排名
(1)数据含义
关键指标:总分值、专辑分类
将专辑多类分为少类,在根据专辑进行分值就和,查看分数最高的专辑
(2)分析结论
由图5.2.2我们可以发现总分排名前三的分别为工程科技I/II、医药卫生科技、社会科学I/II三个专辑。而对于农业科技、信息科技和哲学与人文科学方面的学术研究还有待提升。
图5.2.2
3.每个专辑top5
(1)数据含义
关键指标:总分值、专辑分类、期刊名称
采用多系列柱形图根据总分值找出每类专辑的前五名的期刊,以此做出期刊推荐列表
(2)分析结论
由图5.2.3我们针对不同专辑推荐总分值top5的期刊作为推荐期刊
(1)信息科技:计算机工程与应用、电力系统自动化、计算机工程、中国图书馆学报、图书情报工作、系统防真学报、计算机学报、计算机应用、计算机应用研究
(2)农业科技:农业工程学报、应用生态学报、中国农业科学、农业机械学报、安徽农业科学、生态学杂志
(3)医药卫生科技:中国组织工程研究、中国杂志、中国中药杂志、中国老年学杂志、中草药、护理研究、时珍国医国药
(4)哲学与人文科学:地理学报、地理研究、地理科学进展、心理学报、心理科学进展
(5)基础学科:生态学报、科学通报、科技进步与对策、物理学报、地理科学
(6)工程科技I/II:食品科学、食品工业科技、中国人口资源与环境、岩石力学与工程学报、岩石力学、材料导报、环境科学
(7)社会科学I/II:中国电化教育、中国法学、中国社会科学、体育科学、远程教育杂志、
(8)经济与管理科学:管理世界、经济研究、中国工业经济、经济地理、中国软科学
(9)其他:才智、考试周刊、历史教学、文教资料、物理通报
图5.2.3
4.总分值top15期刊
(1)数据含义
关键指标:总分值、专辑分类、期刊名称
采用交叉表,可以横向依据期刊查看,纵向依据专辑查看分数,实现多维度查看
(2)分析结论
由图5.2.4我们可以发现,总分值top15的期刊,其中医药卫生科技分数最多,达到177分。其次就是经济与管理科学,达到134分。第三名就是工程科技I/II,达到103分。此外信息科技和基础学科分数不相上下,还有农业科技和哲学与人文科技分数也不相上下。同时也发现针对与总分top15的期刊所涉及的各个发面都有,所以任何方向都有他们的核心的期刊。
图5.2.4
6、整体仪表板展示
三、 参赛总结
3.1finebi工具
1、FineBI 6.0的界面设计简洁直观,操作流程清晰,使得我们能够快速上手并熟练使用。各个功能模块的布局合理,操作按钮易于找到,大大提高了工作效率。
2、FineBI 6.0具有强大的数据处理能力,支持多种数据源的连接和整合,能够轻松地对海量数据进行处理和分析。通过其丰富的数据建模和数据可视化功能,我能够深入挖掘数据背后的价值,并为业务决策提供有力的支持。
3.2参赛总结
选择合适的书比盲目的看书更好,于是让我有了这个参赛主题。在比赛中,我也遇到了一些挑战与困难,但是通过挑战自己的心态和积极应对,逐渐克服困难,继续努力相亲。
最后感谢帆软提供的平台,让我能够参加帆软BI大赛是一次宝贵的经历。在比赛过程中学到了很多,不仅提高了自己的技巧和实力,也拓宽了自己的视野。我相信通过持续的努力与学习,希望自己能够在未来的比赛中取得更好的成绩