呈现仪表板:
一、 选手简介
一名数据分析爱好者,2018年取得CPDA认证。本次参赛希望可以结识更多志同道合的小伙伴。
二、 作品介绍
1. 业务背景/需求痛点
中美之间在科技领域剑拔弩张。近年来,美国多次针对我国高新技术领域实行遏制性政策。芯片作为当前高新技术的核心硬件自然得到重点关注。
《孙子兵法》有云:知己知彼,百战不殆。因此,在“知彼”策略的同时,更要“知己”目前的状态,才能更好地迎接挑战。因此,本次分析报告旨在可以为芯片产业的关注者提供一个思路或工具,可以更清晰地了解近年来我国芯片研究的现状,从而为下一步计划做好准备。
2. 数据来源
由于高新技术方面的数据有其特殊性,因此,本次研究以中国知网收录的EI、SCI文献为视角。原因主要有两方面:一方面知网属于公开数据源;另一方面知网也是科研从业人员最常用的文献来源。所以,以收录在中国知网的文献数据为视角,可以在数据的特殊性与可靠性方面达到一定程度的平衡。
故本次研究的数据来源为:选取中国知网,出版年度为2018年-2022年,主题为“芯片”,来源类别为:SCI、EI,中文总库,科技分类下的所有文献。
3. 分析思路
由于从知网导出来的字段是固定的,为了既体现文章质量(“点”指标)又可以体现文献在研究网络之中的价值(“面”指标),因此选如下字段:
字段名称
|
字段解析
|
被引
|
文献的被引数,表征文献的质量
|
下载
|
文献的下载数,表征文献的质量
|
Title-题名
|
标题
|
Author-作者
|
文献作者
|
Organ-单位
|
文献作者供职的研究机构
|
Keyword-关键词
|
文献要点
|
PubTime-发表时间
|
文献发表的时间
|
FirstDuty-第一责任人
|
一般为文献第一作者
|
Fund-基金
|
资助的基金
|
Year-年
|
发表的年份
|
CLC-中图分类号
|
研究的领域
|
被引数,下载数表征了文献的质量,关键词概括了文献的研究内容,中图分类号表征了研究领域,这样一篇文献就可以基本被描述出来了。而且这些指标也是科研过程中需要关注的重要方面,因此,对这些指标进行描述性分析也是对我国芯片研究情况的一种解读。
此外,可以统计作者频数、第一作者频数从另一个角度反映文献的质量。与此同时,时间方面的指标可以进行时序分析,基金的指标可以发现支持的力度与出资对象。
综上,关于一篇文献既有“点”属性又有“面”属性指标,则可以应用聚类分析将文献分类,了解到该文献的特征(如:这篇文献是在某一细分冷门领域的扛鼎之作还是该文献所研究问题是热点问题但文献质量相对一般),使得研究人员更快速的查找所需文献。
4. 数据处理
由于文献在录入前会进行检查,以及本次研究文献属于高质量文献。因此,主要对各字段进行检查有没有空值即可。
5. 可视化报告
本次应用的数据有一个特点,就是一个字段下不止一个数据。如:文献关键词这个字段下,一般来说至少有三个。因此本次对于作者、单位、基金这三个指标主要看其分布——找到事物主要方面的主要矛盾。对于中图分类号、关键词,除了研究其分布以外,还要研究其共现网络,从而找出热门领域与研究热点。
因此,得到了以下结论:
1.(概况)芯片研发总体处于上升态势;
2.(作者)科研人员数目庞大且资深专家更为多产;
3.(单位)芯片研发全国总动员且北京上海贡献最多;
4.(基金)国家在芯片领域不遗余力;
5.(中图分类号)研究分布广泛且存在热点领域;
(注:中图分类号模块设置了中图分类号查询网站的链接,各位可以在阅读的同时查阅自己感兴趣的中图分类号)
6.(关键词)通过高频关键词揭示出研究热点——“微流控”。
此外,在得到上述字段的分布后,根据每个指标的自身特性,以“点面结合”的思路进行变量构建,然后应用聚类分析算法进行数据挖掘,以找出文献自身特点及其在研究网络中的特性,并将具有相似“点面”特征的文献归于一类。从而通过对类别“点面”特征的解读以清晰地把握文献特点,方便研究人员找到自己所需文献。
关于聚类模块:本环节使用“跨行业标准数据挖掘流程”(Cross Industry Standard Process for Data Mining ,CRISP-DM)对文献进行数据挖掘:
1.业务理解(1/6)
由于本次共有795篇有效的EI&SCI文献,对于一般文献来说,这些均为高质量文献。根据上述分析可知,文献自身的特征差别较大,因此,需要对这些文献进行细分,以便相关人员可以更为快速地定位到自己所需文献,提升研究活动的效率与效果。
2.数据理解(2/6)
本次指标构建主要思想为:“点面结合”。
“点”——表示描述文献质量的数据指标;
“面”——表示描述文献所研究的问题在当前研究环境下是否是研究热点或热点领域。
因此,通过“点面结合”的变量引入,以发现不同文献的不同特性,从而为研究人员提供线索。
3.数据准备(3/6)
一般认为,【被引数】和【下载数】是基本的衡量文献质量的指标,毕竟文献是科研成果的一种,优秀的文献会被众多学者参考乃至引用的。
本次分析在传统指标的基础上,引入【第一关键词词频】、【第二关键词词频】用来描述该文献是否位于研究热点,同时引入【第一中图分类号频数】从更为宏观的角度去表征该文献所研究的方向是否处于当前的热点领域。
此外,作者的水平往往决定文献的水平,因此引入【第一作者频数】,作为文献质量描述的补充。
总结:
“点”指标:【被引数】、【下载数】、【第一作者频数】;
“面”指标:【第一关键词词频】、【第二关键词词频】、【第一中图分类号频数】;
4.建模(4/6)
使用上述指标应用K-Means聚类算法进行建模,设定分类数为5。
5.评估(5/6)
模型轮廓系数0.74,模型质量良好,可以应用。
6.部署(6/6)
由《模型概要》(如下图)得到以下类别特征:
聚类-1:宏观热点文献类
该类别的特点是“面”类指标普遍高于其他类别,说明该类文献在所处的研究网络中属于重要文献,而且这些文献往往是由所在领域资深专家所著。
聚类-2:明星文献类。
该类别的特点是【被引数】和【下载数】极高,说明该类文献有很高的专业参考价值。
聚类-3:全面高质量文献类。
该类别的特点是【被引数】仅次于明星文献类,说明该类文献本身质量相对质量更高。同时这些文献的【第二关键词词频】类别均值高于其他类别的该字段数值。说明该类文献不仅自身具有相对较高的参考价值外,在整个研究网络中也有很重要的作用。
聚类-4:热点研究文献类。
该类别的特点是【第一关键词词频】高于其他分类,且【第一中图分类号频数】较高,说明该文献在研究网络中较为重要。此外,其【下载数】仅次于明星文献类,但是【被引数】全分类最低,说明这类文献所研究的问题是该领域的热点——且更注重第一关键词所表征的细分领域。
聚类-5:细分领域高质量文献类。
该类别的特点是【被引数】较高,但是【下载数】却较低,结合关键词相关两个数据指标均处于中游情况来看,说明这类文献在自己细分领域内部有很高的参考价值。
仪表盘最后设计了基于聚类结果的文献查询工具,方便各位第一时间根据自己的需求查询近五年来知网收录的芯片主题下EI、SCI的文献概况。
附:最终呈现仪表板:
仪表板链接:https://bisolutions.fanruan.com/webroot/decision/link/35Bl
三、 参赛总结
主要是风险意识不足,很多认为应该顺利的业务操作总会在人机物法环某一个方面造成困扰。因此,后面要积极提升风险意识。
|