定性分析定量分析举例_知识发现研究文献定量分析
发布时间:2020-03-07 来源: 幽默笑话 点击:
[摘要]知识发现是指借助于计算机技术来揭示隐含在大量数据中的规律或模式的一种方法。以SCIE和SSCI为数据源,以主题词为检索方式,采用定量分析的方法,确定知识发现领域的核心期刊、核心机构、核心作者,并分析知识发现研究主题和高影响力的学术论文,从而分析出国内外知识发现研究现状与趋势。
[关键词]知识发现科学文献文献计量SCIE SSCI
[分类号]G350
信息技术的发展使数据量迅速膨胀,大量数据中可能隐藏一些规律或模式,知识发现就是在此背景下提出。知识发现是一个新兴的交叉性研究领域,美国学者Usama MFayyad(1996年)认为,数据库知识发现(knowledge discovery in databases,KDD)是指从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。知识发现不同于各学科领域的基础研究、应用研究中新知识的发现,它是对已有知识的再加工组织,从中发现新知识的过程。知识发现是一个智能化、自动化的过程,它通过数据挖掘技术提炼数据,使数据更抽象、更有用。
本文通过对知识发现研究文献的计量分析,了解知识发现领域的国际研究态势,为知识发现的进一步研究提供参考。
1 文献数据分析与说明
样本数据来源于Thomson Scientific公司的Web of Science平台SCIE和SSCI数据库,所用分析工具是汤姆森数据分析家(Thomson Data Analysis,TDA)和微软表格处理软件(EXCEL)。知识发现是一个交叉性领域,所以有很多不同的术语,如“KDD”、“数据挖掘”(datamining)、“知识发现”(knowledge discovery)、“信息收获”(information harvesting)、“智能数据分析”(intelligent data analysis)、“数据考古”(da诅archeology)、“知识抽取”(information extraction)、“信息发现”(information discovery)、“探索式数据分析”(exploratory dataanalysis)等,且知识发现是一个新兴领域,其术语还在不断发展过程中,故本文将KDD、knowledge discovery、data mining这3个最常用术语作为检索词进行主题检索,即检索式为TS=(“KDD”OR“knowledge discovery”OR“data mining”)。SCIE数据库提供1991年以来的数据,故检索时间限定为1991-2006年。共得到7005条记录(检索时间:2007年7月3日),其中研究文献(article)共有6383篇。
2 文献定量统计与结果分析
2.1 研究文献的年代分布
研究文献的年代分布可反映出该领域的学术发展速度和发展轨迹。1991-2006年这16年间,被SCIE和SSCI收录的有关知识发现的研究文献共有6 383篇(见表1)。
根据逻辑斯蒂的“s”增长曲线模型(见图1),新事物在初始阶段发展缓慢,之后进入高速增长阶段,接着进入稳定发展阶段。知识发现研究领域在1996年后进入快速发展期,2006年论文量达到1 238篇,结合表1和图1可知,该领域尚未达到成熟阶段,仍有很大发展空间。
2.3 研究文献的期刊分布
排除其它出版物形式(会议论文集、系列丛书)的研究文献,共有4165篇期刊文献收录在1 049种期刊上。按期刊载文量的不同将期刊分组,统计表明,载文量50篇以上的期刊有4种,载文量1篇的有601种。
根据布拉德福定律,将期刊按载文量降序排列,累计论文数约占1/3的期刊是该学科的核心期刊,据此统计得出,知识发现领域核心期刊共有35种。大部分是计算机科学和工程类期刊,只有少量是医学、生化类期刊。其中载文量前几位的期刊存IEEETransactionsonKnowledgeandDataEngineering(190篇)、DataMiningandKnowledgeDiscovery(105篇)、Ex-pertSystemswithApplications(97篇)、Bioinformatics(76篇)。
2.4 研究文献作者分析
核心作者对推动学科发展、开拓研究领域起着关键作用。本统计中,共有12940名作者(包括第二、三等合著者),篇均作者2人。其中发文篇数最多(35篇)的是美国学者JiaweiHart,主要从事计算机科学研究,是核心作者之一。
根据普莱斯定律,“杰出科学家”或“核心作者”应完成所有专业论文总和的一半,核心作者最低发文数m的值为:m=0.749,其中,n是指发文最多的作者所发表的论文数,在本样本中为35,故m取最大整数为4。统计数据表明,发文4篇以上有768人(见图2),占总作者数的5.94%,说明知识发现领域已形成核心作者群。对发文量4篇以上的作者的论文被引情况进行综合分析,按作者文献被引频次降序排列,列出前8位作者(见表2)。这8位作者只占作者总数的0.062%,但是其论文被引频次达到3 335次,占全部论文被引频次的12.78%,说明这些作者的论文有着很高的影响力。
2.5 核心机构分析
本次统计的6 383篇论文的作者机构共有2 898家,分布很广泛(见表3)。在这些机构中,不乏一些大型商业公司,如IBM、Intel、GM、SPSS等,表明知识发现研究具有面向应用的显著特征,高校仍是该研究领域的主力军,前10位席位中占7位;中国有关机构在知识发现研究方面有一定的研究实力,中国科学院、清华大学已走在世界前列。
2.6 论文被引频次分布
经典文献能够为今后的研究和发展提供参考。文献计量学中,若一篇文献自发表以来平均每年被引用4次或4次以上,可以列为“经典文献 ”。在本次研究中,16年间被引用频次达到110(>64)次以上的有15篇,初步确定它们为知识发现研究的高影响力文献(见表4)。其中,生物信息学领域占10篇。
2.7 研究文献的领域分析与主题分析
由于知识发现研究的大部分文献属于几个领域,这里初步统计了处于发文量前几位的领域。它们分别是计算机科学(84.4%)、电子工程学(15.0%)、生物信息学(11.3%)、运筹学与管理学(4.7%)、医学(4.4%)、统计学(3.5%)、信息科学和图书馆科学(2.2%)。可见,计算机和工程领域是知识发现研究的主要科学领域,与其它领域相比,生物信息学领域的知识发现研究已进入全面发展阶段。
本文通过对作者所列关键词的统计进行主题分析。表5列出知识发现研究文献词频前几位的关键词。数据挖掘技术中关联规则、聚类、分类、可视化、神经网络是研究热点,生物信息学领域非常关注知识发现的研究,这与领域分布、经典文献领域分布分析具有一致性。图3是前几位关键词的关联可视化,节点的大小表示本节点记录条数的多少,之间连线的虚实密度表示节点之间的关系,节点标签表示与该节点同时出现的其它节点及记录数。可以看出,作为机器学习和分类的一种算法,决策树与两者同时出现次数较多;神经网络与可视化在生物信息学中的应用较多。
3 结语
3.1 知识发现研究文献状况分析
通过对知识发现研究文献的定量分析,反映出从20世纪90年代以来,知识发现研究文献数量呈增长趋势,特别是1996年以后,文献数量激增,知识发现受到各领域的关注,尤其计算机科学和工程学、生物信息、医学、管理学、统计学以及信息科学和图书馆学等领域,本文分析确定的35种核心期刊中,大部分是计算机科学和工程领域的期刊在研究知识发现的众多机构中,除了高校和科研机构外,还有不少商业公司,从发文量和被引频次角度确定的15位核心作者中,绝大部分学者从事的是计算机和生物信息学领域,如图4所示,在发文较多的国家中,美国居于首位,除了欧美国家,亚洲国家对知识发现领域也比较关注,中国大陆、日本、韩国、中国台湾都是发文量居于世界前列的国家和地区;在发文前几位的国家中,欧洲国家合作较多,我国与加拿大、澳大利亚的合作较多。
3.2 知识发现高影响力文献分析
对高影响力文献中10篇生物信息领域文献进行分析,其中一部分文献研究了基于数据挖掘技术的数据库的功能。如在文献G-enevestigator.arabidopsis microarray database and analy-sis toolbox中介绍到数据库Genevestigator是个针对基因芯片数。
相关热词搜索:定量分析 文献 发现 知识发现研究文献定量分析 文献定量分析 文献定量分析的方法有
热点文章阅读