阳光小向的帖子 - 我的帆软

【2023BI数据分析大赛】浅探我国近五年芯片研究发展概况

呈现仪表板：一、选手简介一名数据分析爱好者，2018年取得CPDA认证。本次参赛希望可以结识更多志同道合的小伙伴。二、作品介绍 1. 业务背景/需求痛点中美之间在科技领域剑拔弩张。近年来，美国多次针对我国高新技术领域实行遏制性政策。芯片作为当前高新技术的核心硬件自然得到重点关注。《孙子兵法》有云：知己知彼，百战不殆。因此，在“知彼”策略的同时，更要“知己”目前的状态，才能更好地迎接挑战。因此，本次分析报告旨在可以为芯片产业的关注者提供一个思路或工具，可以更清晰地了解近年来我国芯片研究的现状，从而为下一步计划做好准备。 2. 数据来源由于高新技术方面的数据有其特殊性，因此，本次研究以中国知网收录的EI、SCI文献为视角。原因主要有两方面：一方面知网属于公开数据源；另一方面知网也是科研从业人员最常用的文献来源。所以，以收录在中国知网的文献数据为视角，可以在数据的特殊性与可靠性方面达到一定程度的平衡。故本次研究的数据来源为：选取中国知网，出版年度为2018年-2022年，主题为“芯片”，来源类别为：SCI、EI，中文总库，科技分类下的所有文献。 3. 分析思路由于从知网导出来的字段是固定的，为了既体现文章质量（“点”指标）又可以体现文献在研究网络之中的价值（“面”指标），因此选如下字段：字段名称字段解析被引文献的被引数，表征文献的质量下载文献的下载数，表征文献的质量 Title-题名标题 Author-作者文献作者 Organ-单位文献作者供职的研究机构 Keyword-关键词文献要点 PubTime-发表时间文献发表的时间 FirstDuty-第一责任人一般为文献第一作者 Fund-基金资助的基金 Year-年发表的年份 CLC-中图分类号研究的领域被引数，下载数表征了文献的质量，关键词概括了文献的研究内容，中图分类号表征了研究领域，这样一篇文献就可以基本被描述出来了。而且这些指标也是科研过程中需要关注的重要方面，因此，对这些指标进行描述性分析也是对我国芯片研究情况的一种解读。此外，可以统计作者频数、第一作者频数从另一个角度反映文献的质量。与此同时，时间方面的指标可以进行时序分析，基金的指标可以发现支持的力度与出资对象。综上，关于一篇文献既有“点”属性又有“面”属性指标，则可以应用聚类分析将文献分类，了解到该文献的特征（如：这篇文献是在某一细分冷门领域的扛鼎之作还是该文献所研究问题是热点问题但文献质量相对一般），使得研究人员更快速的查找所需文献。 4. 数据处理由于文献在录入前会进行检查，以及本次研究文献属于高质量文献。因此，主要对各字段进行检查有没有空值即可。 5. 可视化报告本次应用的数据有一个特点，就是一个字段下不止一个数据。如：文献关键词这个字段下，一般来说至少有三个。因此本次对于作者、单位、基金这三个指标主要看其分布——找到事物主要方面的主要矛盾。对于中图分类号、关键词，除了研究其分布以外，还要研究其共现网络，从而找出热门领域与研究热点。因此，得到了以下结论： 1.（概况）芯片研发总体处于上升态势； 2.（作者）科研人员数目庞大且资深专家更为多产； 3.（单位）芯片研发全国总动员且北京上海贡献最多； 4.（基金）国家在芯片领域不遗余力； 5.（中图分类号）研究分布广泛且存在热点领域；（注：中图分类号模块设置了中图分类号查询网站的链接，各位可以在阅读的同时查阅自己感兴趣的中图分类号） 6.（关键词）通过高频关键词揭示出研究热点——“微流控”。此外，在得到上述字段的分布后，根据每个指标的自身特性，以“点面结合”的思路进行变量构建，然后应用聚类分析算法进行数据挖掘，以找出文献自身特点及其在研究网络中的特性，并将具有相似“点面”特征的文献归于一类。从而通过对类别“点面”特征的解读以清晰地把握文献特点，方便研究人员找到自己所需文献。关于聚类模块：本环节使用“跨行业标准数据挖掘流程”（Cross Industry Standard Process for Data Mining ，CRISP-DM）对文献进行数据挖掘： 1.业务理解（1/6）由于本次共有795篇有效的EI&SCI文献，对于一般文献来说，这些均为高质量文献。根据上述分析可知，文献自身的特征差别较大，因此，需要对这些文献进行细分，以便相关人员可以更为快速地定位到自己所需文献，提升研究活动的效率与效果。 2.数据理解（2/6）本次指标构建主要思想为：“点面结合”。 “点”——表示描述文献质量的数据指标； “面”——表示描述文献所研究的问题在当前研究环境下是否是研究热点或热点领域。因此，通过“点面结合”的变量引入，以发现不同文献的不同特性，从而为研究人员提供线索。 3.数据准备（3/6）一般认为，【被引数】和【下载数】是基本的衡量文献质量的指标，毕竟文献是科研成果的一种，优秀的文献会被众多学者参考乃至引用的。本次分析在传统指标的基础上，引入【第一关键词词频】、【第二关键词词频】用来描述该文献是否位于研究热点，同时引入【第一中图分类号频数】从更为宏观的角度去表征该文献所研究的方向是否处于当前的热点领域。此外，作者的水平往往决定文献的水平，因此引入【第一作者频数】，作为文献质量描述的补充。总结： “点”指标：【被引数】、【下载数】、【第一作者频数】； “面”指标：【第一关键词词频】、【第二关键词词频】、【第一中图分类号频数】； 4.建模（4/6）使用上述指标应用K-Means聚类算法进行建模，设定分类数为5。 5.评估（5/6）模型轮廓系数0.74，模型质量良好，可以应用。 6.部署（6/6）由《模型概要》（如下图）得到以下类别特征：聚类-1：宏观热点文献类该类别的特点是“面”类指标普遍高于其他类别，说明该类文献在所处的研究网络中属于重要文献，而且这些文献往往是由所在领域资深专家所著。聚类-2：明星文献类。该类别的特点是【被引数】和【下载数】极高，说明该类文献有很高的专业参考价值。聚类-3：全面高质量文献类。该类别的特点是【被引数】仅次于明星文献类，说明该类文献本身质量相对质量更高。同时这些文献的【第二关键词词频】类别均值高于其他类别的该字段数值。说明该类文献不仅自身具有相对较高的参考价值外，在整个研究网络中也有很重要的作用。聚类-4：热点研究文献类。该类别的特点是【第一关键词词频】高于其他分类，且【第一中图分类号频数】较高，说明该文献在研究网络中较为重要。此外，其【下载数】仅次于明星文献类，但是【被引数】全分类最低，说明这类文献所研究的问题是该领域的热点——且更注重第一关键词所表征的细分领域。聚类-5：细分领域高质量文献类。该类别的特点是【被引数】较高，但是【下载数】却较低，结合关键词相关两个数据指标均处于中游情况来看，说明这类文献在自己细分领域内部有很高的参考价值。仪表盘最后设计了基于聚类结果的文献查询工具，方便各位第一时间根据自己的需求查询近五年来知网收录的芯片主题下EI、SCI的文献概况。附：最终呈现仪表板：仪表板链接：https://bisolutions.fanruan.com/webroot/decision/link/35Bl 三、参赛总结主要是风险意识不足，很多认为应该顺利的业务操作总会在人机物法环某一个方面造成困扰。因此，后面要积极提升风险意识。

5474浏览

11回帖

FineBI

2023-8-16发布

【2022BI数据分析大赛】近三年机械制造研究热点演化分析

一、选手简介 1、选手介绍崔逸中，2018年取得CPDA认证。希望今后可以在数据分析赛道上长足发展。过去曾做机械设计工程师，负责汽车焊装生产线机械部分的设计，因此有数据和机械双背景，所以对工业数据分析兴趣更为浓厚。 2、参赛初衷学习Fine BI的使用；与数据分析从业人员沟通交流；尝试使用Fine BI进行关系型数据的分析；二、作品介绍业务背景/需求痛点业务背景：由于机械行业属于技术密集型行业。一个产品的技术成熟度对机械产品的各方面质量起着决定性的作用。因此，把握住技术发展方向，是产品取得竞争力的重要步骤。所以，世界工业巨头往往有成熟的技术情报系统。知网作为我我国的“知识基础工程“，数据公开且有一定的技术情报价值，同时知网由于其庞大的市场份额，因此也能够代表我国的技术发展方向。因此，如何盘活知网的数据，对于企业的技术情报部门来说是一个重要的探索方向。需求痛点：知网数据往往并不是主流数据，而且文献数据十分庞杂，对于社会从业人士并不容易掌握。而且对于知网数据的分析与挖掘业界涉猎较少，很难找到参考案例。因此需要有人从零到一进行突破。数据来源中国知网数据，主题为“机械制造“，时间为2021、2020和2019三个完整年度，科技领域下，所有核心期刊上刊登的文献。因为核心期刊有较高的质量，更能够代表相关领域的学术前沿与高质量的学术成果，因此本次研究选择核心期刊上的所有文献，剔除无效文章后，共162篇有效文献。分析思路使用跨行业数据挖掘标准流程（Cross Industry Standard Process for Data Mining,CRISP-DM）方法论进行分析。在CRISP-DM方法论中，一个数据挖掘项目划分为6个阶段：商业理解、数据理解、数据准备、建立模型、模型评估和结果部署。商业理解：本次研究选择文献数据中的中图分类号。中图分类号来源于中国图书馆图书分类法。所谓中国图书馆图书分类法——Chinese Library Classification——简称《中图法》，是建国后编制出版的一部具有代表性的大型综合性分类法，是当今国内图书馆使用最广泛的分类法体系。本次研究应用最新版——第五版的分类结果。中图分类号可以很好地表征该文献所涉及到的研究领域。因此，对中图分类号进行数据挖掘可以了解到当时的研究热点领域。中图分类号分为26个基本大类（如下图所示），本次研究称为“一级分类“。然后中图法在基本大类基础上进行细分，本次研究称为“二级分类”，如图2所示。图 1 中图法基本大类图 2 中图法二级类别示例数据理解：基于商业理解，本次研究的数据只需要获取文献的中图分类号即可。图 3 文献基本信息数据准备：中国知网数据，主题为“机械制造“，时间为2021、2020和2019三个完整年度，科技领域下，所有核心期刊上刊登的文献。并剔除无效文章（如：没有关键词的文章），获得有效文献。建立模型：在进行描述性统计分析后，还需要进行共现分析。模型评估：技术原理不算复杂，且具有较好地解释性。由于本次研究时间有限，所以数据、算法使用有限。结果部署：本次研究以探索性为主，不存在预测的情况，因此不存在结果部署的情况。数据处理（主要操作）剔除不符合文献标准的刊发文章，比如：没有关键词，没有作者等；需要将获得中图分类号翻译成相对应的分类名称；需要将分类号原始数据变成一维表数据并统计出词频以及所属类别；将获得的数据进行时序排列；做中图分类共现网络图。可视化报告数据含义表达和图表排版布局组件的业务含义本次只有一个组件，8个tag。这样做方便储存与交流，即一个组件可以表现出本次研究的所有内容。减少各种意外导致组件丢失的可能性。图 4 组件示意图本次研究思路为总分的结构。首先整体总览近三年来学术文献整体的情况。其次对每一个年份进行切片。分析其主要研究领域以及该年度所呈现的研究领域网络图，从而直观体现出该年度的学术研究结构。然后进行演化分析（涉及到的算法下文详细解释），发现2019-2020年度和2020-2021年度研究领域的变化规律，从而了解到研究热点的演化情况。最后进行总览，一二级表主要看涉及到哪些行业，领域明细表主要说明在机械制造的细分赛道中，各领域的研究情况。对于每一个tag，三张图表用于描述当前tag所述的问题。并配有“注释及结论”模块，目的在于对于当面图表进行及时分析。将分析师的观点及时传达到审阅者面前，使其有更多的信息进行参考。并期望审阅者在阅读完之后有自己的结论并可以同分析师进行高效的交流，提升该管理活动的效率和效果。公共链接：https://bisolutions.fanruan.com/webroot/decision/link/C9Oz 图 5 组件tag示例涉及到的演化分析算法解释：首先统计各阶段内的分类号的词频，对这些分类号计算其对数似然值，并将计算出的对数似然值比较其差异性，即可分析出这些关键词的研究热度的变化。对数似然值的具体计算方式为：令： a为第一阶段的关键词词频；b为第二阶段的关键词词频； c为第一阶段的总文献数；d为第二阶段的总文献数； E1为第一阶段的关键词的期望频数；E2为第二阶段的关键词的期望频数。且： E1=c×a+bc+d , E2=d×a+bc+d 当a≠0且b≠0时，有：当a≠0且b=0时，有：当a=0且b≠0时，有：由于对数似然值不仅包括了某一阶段关键词的频数，同时也涉及到了阶段的总文献数，因此可以有效降低词频——这一绝对数对于研究热度的影响。从而可以将词频绝对数与其所在的研究阶段一同进行分析，有效地降低了不同研究阶段所产生的波动性对研究结论的影响。对数似然值表征了关键词词频变化的显著性程度，且对数似然值越大，则该关键词变化越剧烈，差异越大。 0<LL<2则认为无显著差异，2<LL<3.84则认为有一定的显著性差异，LL>3.84则认为具有显著性差异。此外，本研究引入相对变化率S作为表征关键词词频增长下降的指标。令：，其中b为第二阶段的关键词词频，E2为第二阶段的关键词的期望频数。由于相对变化率S也考虑的关键词的词频以及该词频所在研究阶段的文献总数。因此，该指标也可以有效规避不同研究阶段词频绝对值对于演化分析判断的负面影响。由公式可知，S>0时，则说明第二阶段相对于第一阶段处于增长的趋势；S<0时，则说明第二阶段相对于第一阶段是处于降低的趋势。通过分析得出的结论注：此处仅说明整体结论，分论点在组件中的每个tag中有写，此处不再赘述。近三年来，机械制造主题下，大部分研究领域比较平稳；主要两大研究领域：机械仪表工业和金属学与金属工艺；工业经济也是重要的研究领域之一；人工智能、机器学习等新技术在近三年核心期刊中体现较少，因此这是一个突破口。换言之，如果机械制造企业能够很好地消化人工智能技术，并将其应用到自己的主营业务中，那么这家公司可以获得较为强劲的竞争力；对于自身实力较强的公司，可以考虑在一些细分领域进行研发，从而获得在细分市场上的技术突破，最终获得该细分市场的竞争优势。疫情可能造成机械研究更趋向保守，因此各制造企业如何应对疫情对科研的冲击，则是企业需要讨论的重大问题之一。马晓雷.被引内容分析——探究领域知识结构的新方法尝试.北京：外语教学与研究出版社,2011. ↑

5265浏览

15回帖

FineBI

2022-4-29发布

提问

调整图片尺寸与位置

阳光小向（uid：1096176）