【2022BI数据分析大赛】近三年机械制造研究热点演化分析
一、选手简介
1、选手介绍
崔逸中,2018年取得CPDA认证。希望今后可以在数据分析赛道上长足发展。过去曾做机械设计工程师,负责汽车焊装生产线机械部分的设计,因此有数据和机械双背景,所以对工业数据分析兴趣更为浓厚。
2、参赛初衷
学习Fine BI的使用;
与数据分析从业人员沟通交流;
尝试使用Fine BI进行关系型数据的分析;
二、作品介绍
业务背景/需求痛点
业务背景:由于机械行业属于技术密集型行业。一个产品的技术成熟度对机械产品的各方面质量起着决定性的作用。因此,把握住技术发展方向,是产品取得竞争力的重要步骤。所以,世界工业巨头往往有成熟的技术情报系统。知网作为我我国的“知识基础工程“,数据公开且有一定的技术情报价值,同时知网由于其庞大的市场份额,因此也能够代表我国的技术发展方向。因此,如何盘活知网的数据,对于企业的技术情报部门来说是一个重要的探索方向。
需求痛点:知网数据往往并不是主流数据,而且文献数据十分庞杂,对于社会从业人士并不容易掌握。而且对于知网数据的分析与挖掘业界涉猎较少,很难找到参考案例。因此需要有人从零到一进行突破。
数据来源
中国知网数据,主题为“机械制造“,时间为2021、2020和2019三个完整年度,科技领域下,所有核心期刊上刊登的文献。因为核心期刊有较高的质量,更能够代表相关领域的学术前沿与高质量的学术成果,因此本次研究选择核心期刊上的所有文献,剔除无效文章后,共162篇有效文献。
分析思路
使用跨行业数据挖掘标准流程(Cross Industry Standard Process for Data Mining,CRISP-DM)方法论进行分析。在CRISP-DM方法论中,一个数据挖掘项目划分为6个阶段:商业理解、数据理解、数据准备、建立模型、模型评估和结果部署。
商业理解:本次研究选择文献数据中的中图分类号。中图分类号来源于中国图书馆图书分类法。所谓中国图书馆图书分类法——Chinese Library Classification——简称《中图法》,是建国后编制出版的一部具有代表性的大型综合性分类法,是当今国内图书馆使用最广泛的分类法体系。本次研究应用最新版——第五版的分类结果。中图分类号可以很好地表征该文献所涉及到的研究领域。因此,对中图分类号进行数据挖掘可以了解到当时的研究热点领域。中图分类号分为26个基本大类(如下图所示),本次研究称为“一级分类“。然后中图法在基本大类基础上进行细分,本次研究称为“二级分类”,如图2所示。
图 1 中图法基本大类
图 2 中图法二级类别示例
数据理解:基于商业理解,本次研究的数据只需要获取文献的中图分类号即可。
图 3 文献基本信息
数据准备:中国知网数据,主题为“机械制造“,时间为2021、2020和2019三个完整年度,科技领域下,所有核心期刊上刊登的文献。并剔除无效文章(如:没有关键词的文章),获得有效文献。
建立模型:在进行描述性统计分析后,还需要进行共现分析。
模型评估:技术原理不算复杂,且具有较好地解释性。由于本次研究时间有限,所以数据、算法使用有限。
结果部署:本次研究以探索性为主,不存在预测的情况,因此不存在结果部署的情况。
数据处理(主要操作)
剔除不符合文献标准的刊发文章,比如:没有关键词,没有作者等;
需要将获得中图分类号翻译成相对应的分类名称;
需要将分类号原始数据变成一维表数据并统计出词频以及所属类别;
将获得的数据进行时序排列;
做中图分类共现网络图。
可视化报告
数据含义表达和图表排版布局
组件的业务含义
本次只有一个组件,8个tag。这样做方便储存与交流,即一个组件可以表现出本次研究的所有内容。减少各种意外导致组件丢失的可能性。
图 4 组件示意图
本次研究思路为总分的结构。
首先整体总览近三年来学术文献整体的情况。其次对每一个年份进行切片。分析其主要研究领域以及该年度所呈现的研究领域网络图,从而直观体现出该年度的学术研究结构。然后进行演化分析(涉及到的算法下文详细解释),发现2019-2020年度和2020-2021年度研究领域的变化规律,从而了解到研究热点的演化情况。最后进行总览,一二级表主要看涉及到哪些行业,领域明细表主要说明在机械制造的细分赛道中,各领域的研究情况。
对于每一个tag,三张图表用于描述当前tag所述的问题。并配有“注释及结论”模块,目的在于对于当面图表进行及时分析。将分析师的观点及时传达到审阅者面前,使其有更多的信息进行参考。并期望审阅者在阅读完之后有自己的结论并可以同分析师进行高效的交流,提升该管理活动的效率和效果。
公共链接:https://bisolutions.fanruan.com/webroot/decision/link/C9Oz
图 5 组件tag示例
涉及到的演化分析算法解释:
首先统计各阶段内的分类号的词频,对这些分类号计算其对数似然值,并将计算出的对数似然值比较其差异性,即可分析出这些关键词的研究热度的变化。
对数似然值的具体计算方式为 :
令:
a为第一阶段的关键词词频;b为第二阶段的关键词词频;
c为第一阶段的总文献数;d为第二阶段的总文献数;
E1为第一阶段的关键词的期望频数;E2为第二阶段的关键词的期望频数。
且:
E1=c×a+bc+d , E2=d×a+bc+d
当a≠0且b≠0时,有:
当a≠0且b=0时,有:
当a=0且b≠0时,有:
由于对数似然值不仅包括了某一阶段关键词的频数,同时也涉及到了阶段的总文献数,因此可以有效降低词频——这一绝对数对于研究热度的影响。从而可以将词频绝对数与其所在的研究阶段一同进行分析,有效地降低了不同研究阶段所产生的波动性对研究结论的影响。对数似然值表征了关键词词频变化的显著性程度,且对数似然值越大,则该关键词变化越剧烈,差异越大。
0<LL<2则认为无显著差异,2<LL<3.84则认为有一定的显著性差异,LL>3.84则认为具有显著性差异。
此外,本研究引入相对变化率S作为表征关键词词频增长下降的指标。
令:
,
其中b为第二阶段的关键词词频,E2为第二阶段的关键词的期望频数。由于相对变化率S也考虑的关键词的词频以及该词频所在研究阶段的文献总数。因此,该指标也可以有效规避不同研究阶段词频绝对值对于演化分析判断的负面影响。
由公式可知,S>0时,则说明第二阶段相对于第一阶段处于增长的趋势;S<0时,则说明第二阶段相对于第一阶段是处于降低的趋势。
通过分析得出的结论
注:此处仅说明整体结论,分论点在组件中的每个tag中有写,此处不再赘述。
近三年来,机械制造主题下,大部分研究领域比较平稳;
主要两大研究领域:机械仪表工业和金属学与金属工艺;
工业经济也是重要的研究领域之一;
人工智能、机器学习等新技术在近三年核心期刊中体现较少,因此这是一个突破口。换言之,如果机械制造企业能够很好地消化人工智能技术,并将其应用到自己的主营业务中,那么这家公司可以获得较为强劲的竞争力;
对于自身实力较强的公司,可以考虑在一些细分领域进行研发,从而获得在细分市场上的技术突破,最终获得该细分市场的竞争优势。
疫情可能造成机械研究更趋向保守,因此各制造企业如何应对疫情对科研的冲击,则是企业需要讨论的重大问题之一。
马晓雷.被引内容分析——探究领域知识结构的新方法尝试.北京:外语教学与研究出版社,2011. ↑