python可视化编程【引文分析学形成与发展的可视化分析】

发布时间:2020-03-07 来源: 短文摘抄 点击:

  [摘要]以引文分析领域的1906篇论文、65426条引文为研究对象,借助知识计量和知识图谱及先进的可视化技术Citespaee等软件工具,绘制引文分析领域的发展趋势知识图谱,揭示引文分析领域的初始形成期、发展繁荣期、深化拓张期三个阶段的演进历程;通过加菲尔德、普赖斯、斯莫尔等主要代表人物文献的可视化图谱,具体呈现出他们各自在不同时期对引文分析领域发展的独特贡献以及他们有关引文分析的经典文献对引文分析领域演化路径的关键作用。
  [关键词]引文分析 文献共引分析 科学计量学 可视化图谱
  [分类号]G306
  
  1 引 言
  
  科学知识可视化图谱是在信息技术的推动下发展出来的一个新领域,当前已经成为科学计量学的一个新热点。陈悦和刘则渊…认为科学知识图谱是显示科学知识的发展进程与结构关系的一种图形,它是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,是显示科学知识地理分布的知识地图转向以图象展现知识结构关系与演进规律的结果。引文分析作为一个广阔领域,是否业已形成一门作为相对独立学科的引文分析学?对此,直到2007年刘则渊在《科学知识图谱:方法与应用》一书(人民出版社,2008年)的导言(2007年)中,才明确指出:“从普赖斯、加菲尔德到斯莫尔,已确立起日臻完备的引文分析理论与方法,构成科学计量学的基础与主流,在一定意义上也可以说在科学计量学中已形成一门成熟的分支学科――引文分析学”。但“引文分析”是否成为“学”确实还存在一些争论,对其是否成为学,笔者曾经单独做过一些考察,也有一些特征显示这个研究领域逐渐走向成熟,不过这个问题不是本文要论证的主要内容,本文试图运用知识计量与知识图谱方法对引文分析领域的形成历程进行探讨。
  
  2 数据来源与方法
  
  研究所用的数据均来源于美国科学情报研究所创建的Web of Science数据库。下文3.1节中以“Citationanalysis”为检索词在SCI和SSCI中联合检索了1900-2008年间的文献记录,其中SSCI收录的时间是从1974-2008年。在数据下载的过程中,选择“Article”,共检索到1906篇文献,其中共包含引文65426条,绘制引文分析领域的整体脉络如图1所示:
    
  下文3.2以及3.3节对加菲尔德、普赖斯以及斯莫尔三人发表的论文和被引用的论文进行引文分析。分析的数据来自于Web of Science平台,包括SCI-Ex-panded、SSCI、A&HCI三大引文数据库,检索时间选择1900-2008年。研究采取两种数据:一种是分别对三人发表的论文进行分析,检索策略是在Web of Science中分别输入作者名,即加菲尔德E Garfield,普赖斯Price DJD、Price DD、Price DJ以及Price D等,斯莫尔Small H与Small HG等,经过辨认和甄选,分别得到1530、47、68条被WoS数据库收录的论文;另一种数据是利用Web of Science数据库中的被引文献检索功能,检索得到1359篇引用加菲尔德的论文、1455引用普赖斯的论文、424篇引用斯莫尔的论文。利用CiteSpace进行文献共引分析,每个阶段选前50篇文章。
  3.4节中对陈超美发表的论文进行共作者分析。选择数据库同上,经过辨认和甄选,得到26条被WoS数据库收录的论文。利用CiteSpaee进行共作者分析,每个阶段选前20篇文章。
  
  3 引文分析领域形成和发展的可视化图谱
  
  3.1
  引文分析领域的整体发展脉络
  由图1可以看到,引文分析领域大致可以分为几个时期:初始形成期、繁荣发展期、深化拓张期。20世纪50年代至60年代,为引文分析领域的初始形成期,可以看出关键点有加菲尔德和普赖斯二人,他们开创了引文分析的先河,是引文分析领域的奠基人。20世纪70年代至80年代,是引文分析领域的发展繁荣期,其重要人物有斯莫尔和麦克罗伯特,他们发展了引文分析,其中斯莫尔提出著名的共引理论和方法,而麦克罗伯特则思考了引文分析存在的问题。从20世纪90年代起,引文分析领域进入了深化拓张期。在共引理论的基础上,引文分析的可视化有了较大的发展,重要的人物有怀特、麦肯恩和陈超美等。90年代中后期,随着互联网的快速发展,网络引文分析也成为引文分析的热点,其代表人物有英格沃森、塞沃尔与鲁索等人。由于阈值的设置,这张图谱只能大致反应引文分析领域的最重要的人物和著作。
  3.2 引文分析领域的初始形成期
  3.2.1 科学引文索引的建立 尤金?加菲尔德是美国著名的情报学家和科学计量学家,也是ISI的创始人。他最重要的贡献是创建科学引文索引和提出引文索引法。
  ?加菲尔德发表的1530篇SCI论文的文献共引分析,如图2所示:
    
  加菲尔德论文的文献共引网络可以分为较为明显的6个聚类。这几个聚类是加菲尔德不同时期科学发现的重要基础,当然也反映了加菲尔德不同时期的研究主题。可以看到C。聚类包含最多的节点,也是加菲尔德的核心知识群,就是一系列的综合的有关引文索引和引文理论、应用的文章。每个聚类之间都有一些关键节点连接,说明每个知识群之间都有或多或少的联系。这些研究都为加菲尔德的引文研究提供了丰富的素材,加菲尔德从这些研究中汲取了丰富的营养,进一步丰富和发展了其引文的基础理论。
  可以看出中心度最大的是加菲尔德博士1955年发表的具有划时代意义的论文――《引文索引应用于科学》,这篇论文有一个非常重要的副标题:“文献学中贯穿观念联系的一个新维度”。他阐明文献之间的引文关系本质上是观念的联系,也就是知识的传递流动过程,由此成为他以引文索引作为文献情报检索手段的新思路,成为他创建科学引文索引的理论基础。同时,也为世界各地的研究人员深入进行研究和评估他们的工作,为广泛使用的汤姆森科技网络平台ISI Web of Knowledgess奠定了基础。1964年,加菲尔德博士推出了第一个Science Citation Index,正如加菲尔德博士所设想的,研究人员们狂热地投身到引文及论文分析的研究中。加菲尔德后来的文章也都是围绕科学引文索引的建立和发展,引文索引法的应用以及有引文分析的问题展开。因此,加菲尔德做为引文索引法的创始人,他的大量的研究论文为引文分析奠定了知识基础。同时,可以看到他还较多地吸收了一些其他科学学领域的先驱的思想,如普赖斯、默顿等。
  ?引用加菲尔德发表1359篇论文的文献共引分析。如图3所示:
  加菲尔德为引文分析作了许多前瞻性的工作,其一系列具有开创性的论文和著作(如1972、1979年等)构成了引文分析的知识基础。围绕着这个知识基础,在《科学引文索引》连续出版以后,特别是推出SCI光 盘版和网络版之后,引文分析法在图书情报学、科学学、科学政策与管理等领域得到了广泛的应用。
  3.2.2 科学引文网络 学术大师普赖斯不仅是物理学家、科学史家,而且是举世公认的科学学家和科学计量学家,有“科学计量学之父”的美誉,他重塑了引文索引法的主导功能。
  ?普赖斯发表的47篇SCI论文的文献共引分析,如图4所示:
  由图4看到,中心度最大的几个节点分别是普赖斯1963年的《小科学,大科学》,1965年的《科学论文的网络》以及库恩1962年的《科学革命的结构》,还有Fairthome RA的《文献计量学描述和预测的双曲线分布》。可以看到普赖斯的研究兴趣十分广泛,包括科学社会学、科学哲学、科学技术史、科学交流、科学革命、技术创新、科技伦理、科学发展规律、科学生产力、知识组织和信息检索等,其中比较突出的一块就是对引文分析的规律的研究和对科学引文索引理论和应用的研究。普赖斯从这些研究的先贤那里吸收到了丰富的养分,形成了自己独特的科学学研究的理论和范式。
  ?引用普赖斯的1455篇论文的文献共引分析,如图5所示:
  图中最重要的节点,也是中心度最大的几篇论文和专著分别是普赖斯1963年的《小科学,大科学》,1965年的《科学论文的网络》,1961年的《巴比伦以来的科学》以及斯莫尔1974年的《科学文献的结构I:学科的辨认和绘图》。
  普赖斯在1965年以加菲尔德的SCI为数据来源,在《科学》杂志上发表了一篇科学计量学的杰作《科学论文的网络》,为实现他的宏大构想做了开创性的奠基工作。他认为引文索引法意外引起的“副产品”,已经变“副”为“主”,既造就了科学计量学的主流方向,又重塑了引文索引法的主导功能。
  通过以上文献共引分析,可以看到加菲尔德和普赖斯都对引文分析领域的理论做出了开创性的工作。
  3.3 引文分析领域的发展繁荣期
  3.3.1共引理论的提出和发展
  ?斯莫尔发表的68篇SCI论文的文献共引分析,如图6所示:
  由图6可以看到C。聚类包含最多的节点,也是斯莫尔的核心知识群,就是一系列的综合的共引理论、模型和方法和引文理论等内容。这些都说明斯莫尔的主要研究是共引理论,其他的自动检索、共引方法、科学史、科学社会学也为斯莫尔的理论提供了养分,同时共引理论和方法也在一些方面得到应用。
  图6中最重要的节点,也是中心度最大的几篇论文和专著分别是斯莫尔1973年的《科学文献的共引:两个文献关系的新测度被引图》,斯莫尔1974年的《科学文献的结构I:学科的辨认和绘图》以及斯莫尔1985年的《利用共引的科学引文索引的聚类:科学地图》等。
  ?引用斯莫尔的424篇论文的文献共引分析,如图7所示:
  可以看到C。聚类包含最多的节点,也是共引理论的核心知识群。其中包含了共引理论、方法和模型应用。其他4个聚类也都是共引理论衍生出来的相关研究。
  斯莫尔1973年创造性地提出了论文“共引”(也称同被引,共被引)的概念和共引分析的方法,并定义了共引强度以测量论文之间的共引程度,认为共引是测量两篇文献相关度的一个新工具。1974年斯莫尔提出了著名的圆环模型。他还和著名科学计量学家格里菲斯以及其他学者又先后提出双引、多引、作者共引、期刊共引等多种共被引分析方法;阐述了建立在耦合强度和共引强度基础上的文献聚类分析及其在科学计量学中的作用。
  斯莫尔可以说是共引分析的开创者,对引文分析的进一步发展起到了中流砥柱的作用,共引分析也是引文分析独特的分析方法,迄今为止,共引分析仍旧是引文分析的主流方法,还没有太大的突破。
  3.3.2 引文分析存在的问题尽管引文索引和引文分析得到了大量使用,也为文献计量学和科学计量学开辟了新的研究领域,但是,任何一个科学理论的产生和发展都不是一帆风顺的,都有一个不断成熟和完善的过程,引文分析领域也不例外。
  1989年,麦克罗伯茨(MacRoberts MH)系统讨论了引文分析存在的问题,并对其进行了评论。他指出,数据问题将会一直伴随着引文分析的过程,因此,应该认真检查数据,只有这样,用引文分析获得的结果才被认为是符合假设的。然而,没有人尽力去研究这些问题,这些问题应该引起引文分析领域的研究者的注意。他提醒学者们思考本领域的基本问题,他也为引文分析的进一步顺利发展做出了理论的贡献。
  3.4引文分析领域的深化拓张期
  3.4.1 引文分析的可视化美国德雷塞尔大学信息科学技术学院著名科学计量学家怀特和麦肯恩,荷兰雷顿大学科学技术学中心的诺洋思、瑞安和穆德,都不约而同地以共引分析为基础,与多种多元统计分析结合起来,采用相关的统计绘图软件,开展科学文献的计量研究,建立了基于多维尺度分析的知识图谱方法。陈超美博士在1999年出版的《信息可视化与虚拟环境》(2004年增订第二版改为《信息可视化:跨越地平线》和在2003年出版的《科学前沿图谱:知识可视化探索》这两部奠基性著作,以其在信息可视化与科学知识图谱的突出成就而在国际科学计量学界崭露头角。图8是陈超美共作者知识图谱,显示了他的研究兴趣和研究领域。
  从图中可以看到,他的主要合作者有Lin x(林夏),McCmnK,BfirnerK以及Boyack KW等。他们也都为知识可视化领域做出了贡献。陈超美凭借在理论数学、计算机科学与计算软件方面的深厚理论功底与优势,开发了引文网络分析CiteSpace系列应用软件,形成了适于多元、分时、动态的复杂网络分析的第二代信息可视化技术;他创造性地把信息可视化技术和科学计量学结合起来,开创了以知识领域为分析单元的可视化综合性学术与应用领域,把对科学前沿的知识计量和知识管理研究推进到以知识图谱与知识可视化为辅助决策手段的新阶段。
  3.4.2网络引文分析
  ?Peter Ingween的贡献。目前通用的名称Webometrics是艾曼德(Almind TC)和英格沃森(Ingw―ersen P)在1997年首先提出的。1998年,英格沃森受期刊影响因子的启发,率先提出了网络影响因子的概念及其算法,并将其用于测度域或站点的影响力。
  ?Mike Thelwall的贡献。南京大学姚贯虹对从1996年以来至2004年问国外关于网络计量学的75篇研究文献进行了归类和统计分析,得出了核心作者,其中英国wolvethamPton大学的塞沃尔(Thelwall M)以17篇论文位居榜首。从图1也可以看出他是一个非常活跃的作者,他的4篇论文都是非常关键的点。
  ?Ronald Rousseau的贡献。1997年,鲁索在Cy-bermetrics发表了《网络引文》(Sitation),迅速成为被科学计量学界引证频次最高的网络计量学文献,也引发了对网上信息的相互引证、传递、分布、组织等一系列的计量研究,使得网络计量学研究成为仅次于引文分析可视化研究的引文分析领域的第二大重要方向。
  
  4 结 论
  
  本文利用CiteSpace软件绘制了引文分析领域的发展趋势图并对图谱的内容进行详细解读,得出以下结论:①从可视化图上可以明晰地看出引文分析领域的发展历程主要分为几个时期:初始形成期、繁荣发展期、深化拓张期;②重要作者的作品也可以很清晰地显示在图谱上,利用图谱信息,分析了各个时期的一些重要人物的研究成果,总结了他们在引文分析领域的贡献;③对于不了解引文分析领域的读者,可以使他们尽快了解到引文分析的现状,而不需阅读大量的文献;④通过可视化图,可以发现一些平时不注意的作者,他们并非是最重要的作者,但是却起到对本领域修正的作用。

相关热词搜索:分析 引文 可视化 引文分析学形成与发展的可视化分析 可视化分析的发展 具发展潜力的可视化分析

版权所有 蒲公英文摘 www.zhaoqt.net