知识图谱可视化分析 [国内知识图谱研究的可视化分析]

发布时间:2020-03-10 来源: 短文摘抄 点击:

  [摘要]对国内知识图谱期刊论文的外部特征和内容特征进行可视化分析。研究表明:国内知识图谱研究处于起步阶段,研究人员和机构相对集中,研究论文的合著率较高,研究主题鲜明。今后的研究需要加强学科间的合作,加强基础理论研究,创新研究方法,优化数据质量。
  [关键词]知识图谱 可视化 共词分析 Ucinet
  [分类号]G310
  
  1、引言
  
  知识图谱是以科学学为基础,涉及应用数学、信息科学及计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展。随着统计分析、引文分析和网络分析方法在科学计量学领域的广泛应用,以及计算机图形学和可视化技术的发展,知识图谱研究在20世纪90年代以后得到迅猛发展。
  知识图谱的研究发端于美国、荷兰等国。根据刘则渊教授对科学计量学重大变革的三条路径与重要人物的介绍,笔者认为国外知识图谱的研究主要有三大学派:①科学计量学学派。这个学派主要是以引文分析理论为基础研究不同学科的知识图谱。如加菲尔德等人(1964年)手工绘制了DNA领域的历时态图谱;普赖斯(1965年)运用相同的数据完成了他的经典论文“科学论文网络”;Small(1973年)提出了论文“共被引”的概念和共被引分析方法,并绘制了粒子物理学领域高被引论文的共引图谱;White、MeCain、Noyons等人(1998年)将引文分析与多维尺度分析相结合,建立了基于多维尺度分析的知识图谱方法。②复杂网络学派。这个学派主要是利用复杂网络理论和方法对引文网络、科研合作网络、关键词共现网络等展开研究。如社会学家Hummon(1989年)把社会网络分析方法引入了引文网络研究,提出了引文网络中的关键路径算法;纽曼(2001年)用复杂网络方法测定了生物医药、物理学和计算机科学等领域科学合作网络中最有影响力的科学家,并揭示了科学合作结构具有复杂网络的高集聚和小世界等特性。③可视化学派。这个学派的研究者将计算机科学的理论、方法和引文分析等有机结合,利用专门软件对大量反映知识结构及发展脉络的数据自动处理,生成可视化的知识图谱。如陈超美提出了探索关键路径的pathfinder算法,并开发了供全球用户免费下载使用的Citespace软件。他(2010年)还提出了多视角的共引分析方法,把共引网络分为多个聚类谱,重点关注聚类谱之间的相互关系。Mane和B6rner(2004年)探讨了Klein―berg跳变算法、共词分析和图像展示技术在研究主题和发展趋势中发现中的应用。阿米德等学者(2004年)运用Wilmascope三维动画可视化技术对IEEE In-foVis引文网络进行可视化分析。Henzingel和Law―rence(2004年)基于环球网图表模型和历时时间的聚焦式缓慢动态模型,进行科学研究共同体识别。
  总体看,国外学者在知识图谱的理论、方法和可视化软件等方面都处于领先地位。他们的研究内容涉及很多学科领域;科研合作也非常明显。在国内,以刘则渊教授为首的学术团队率先引入知识图谱的概念,成立了网络-信息-科学-经济计量实验室(WISELAB),并与鲁索、克雷奇默、陈超美等国外知名专家开展合作研究。本文利用可视化方法对国内知识图谱研究的研究现状进行分析,并提出这个领域今后需要加强的研究内容。
  
  2、数据来源与研究方法
  2.1 数据来源
  本文从知网、万方和维普的期刊全文数据库获取了每篇研究知识图谱论文的题名、作者、机构、发文时间、发文期刊、关键词等相关数据;论文的研究方法、研究工具等数据通过人工采集方式完成。数据的时间范围是2005年1月到2010年8月。检索条件设定为题名或关键词中包含“知识图谱”的期刊论文,共检索到61篇相关文献。
  知识图谱和知识地图在研究目的、研究方法和工具等方面有相似之处,但笔者认同文献的观点,两者之间存在差异。因此,本文没有将国内知识地图的研究成果纳入研究范围。
  2.2 研究方法
  2.2.1 文献计量方法 本文中对表征论文外部特征的时间、发文期刊、作者、机构、研究主题等的数据进行统计、汇总,并通过Excel将数据转换为不同的图形。这样可以直观反映出国内知识图谱研究的成果数量及分布、研究队伍的基本状况、研究主题的分布、数据源分布等基本情况。
  2.2.2 共词分析共词分析是由卡龙(Callon)和克泰尔(Courtial)等引入情报学领域的一种内容分析和科学绘图法。这种方法不仅能够描绘学科领域的知识结构,还能够结合时间序列揭示学科结构的通过分演变历程。本文对论文中的关键词、作者、研究方法和研究工具等进行共词分析,通过共词网络来揭示研究对象之间的相互联系,进而去描绘在知识图谱研究中的主题结构、作者合作结构等现象。
  
  3、知识图谱研究成果外部特征的可视化分析
  
  3.1 知识图谱研究成果的数量
  从图1看,国内知识图谱研究开始于2005年。近年来,研究论文的数量处于一个快速增长的阶段(2010年只有部分数据)。
  3.2 知识图谱研究成果的学科分布
  国内知识图谱研究成果发表在31种学术期刊上。从发文期刊看(图2),研究成果主要集中在图书情报学和科学学两个领域。发文3篇以上的期刊有《科学学研究》、《情报学报》、《图书情报工作》、《情报科学》和《情报杂志》。
  3.3 知识图谱研究的合著网络
  从统计结果看,国内知识图谱的发文作者已经达到80人。这些作者分布在全国29所高校和科研院所。大连理工大学发文最多,占总体的51%;其次是武汉大学、中国科学院国家科学图书馆兰州分馆、大连海事大学、兰州大学和浙江树人大学。从图3看(图中箭头起点是第一作者,终点是论文的合作者),国内知识图谱研究科研合作现象非常明确,合著率为74%,合作度为2.4人。其中刘则渊、许振亮、侯海燕、陈悦、姜春林等人已经形成了一个规模较大且相对稳定的合作网络。
  
  4、知识图谱研究成果内容特征的可视化分析
  
  国内知识图谱定性研究成果占总体的13%。这些成果又可以分为两类:第一类主要是对知识图谱的概念、类型及其国外研究进展的介绍及综述性文章,如文献。第二类主要是知识图谱在具体领域的应用前景分析。如文献探讨了科学知识图谱用于分析学科前沿与热点问题,帮助寻找学科中的盲点,文献研究了学科知识图谱的绘制及其在学科发展监测与评价中的应用,文献探讨了利用知识图谱来进行期刊选题策划、遴选审稿专家等。
  定量研究的有53篇文献,占总体的87%。它们主要是通过对数据的分析和处理,将某一主题、学科、期刊、机构等对象的研究现状、研究前沿、热点主题等以可视化的方式呈现。下面对定量研究成果做进一步分析:
  4.1 知识图谱研究依托的数据源及研究数据的时 间跨度
  本文择取了以定量研究为主的研究成果进行分析。从图4看,定量研究文献的数据主要来源于国内外四个不同的数据库,其中国外数据库占67%,而国内数据库占33%。这反映出国内知识图谱的研究是以国外数据为主,国内数据的利用相对较弱。从研究数据的时间跨度看(见图5),最长的达到64年,最短的只有1年,数量最多的是9年。时间跨度的长短与数据库收录数据的时间范围有极强的相关性。如CSSCI数据是从1998年开始,直接利用它来进行研究只能是1998年之后的不同时间段。
  4.2 知识图谱研究的主题分布
  关键词是论文作者表达论文的内容和方法的专业术语,它反映了论文的研究主题。本文根据关键词(去重后为114个)的共现数据,利用Ueinet生成一个共词网络。知识图谱、科学知识图谱、科学计量学、共词分析、可视化这些关键词在网络中占据着核心的地位。这反映了国内知识图谱研究对象比较广泛,但研究方法、主题相对集中的特点。如图6所示:
  为进一步分析知识图谱研究的主题,本文将定量研究成果分为三类:主题知识图谱、学科知识图谱和其他图谱。从图7看,这三类当中,主题知识图谱的研究成果最多,占总体的近一半。从表1看,国内知识图谱的研究对象非常丰富,既有自然科学,也有人文社会科学。同时,还可以发现实证对象与研究数据来源有很大的相关性。以web of science等为数据源对国际相关研究领域成果的可视化分析,如国际奥林匹克运动、国际信息政策、国际生物制氢等;而以中国期刊全文数据库、CSSCI等为数据源的成果是对国内相关研究领域研究现状、研究前沿、热点话题等方面的可视化分析。
  4.3 知识图谱研究方法的共现网络
  本文从论文的关键词、摘要、正文等途径获取了定量研究成果使用的研究方法,共涉及到31种研究方法。根据研究方法是否在同一篇文献同时被使用,并利用Ueinet得到了国内知识图谱研究方法的共现网络。从图8看,论文与关键词交叉图、文献同被引、学科共现、概念网络和战略坐标图五种方法相对孤立,而其它节点则可以有机地联系在一起。聚类分析、共词分析、多维尺度分析、因子分析、引文分析和社会网络分析是网络中的重要节点,这个结果与词频次结果相吻合。这反映出知识图谱的研究已经形成了一些较成熟的研究方法。另外,多种研究方法经常被一起使用。从研究主题看,主题知识图谱的研究使用最多的是多维尺度和聚类方法,学科知识图谱研究中使用较多的是聚类方法、因子分析、共词分析等。这反映了不同研究主题有其相适应的研究方法。
  4.4 知识图谱研究工具的共现网络
  知识图谱研究通常要对大量数据进行处理,选择合适的数据处理工具非常重要。从词频统计看,共涉及到13种软件,其中使用最多的是SPSS、Bibexcel和Citespace。这些研究工具的功能上有所不同,如Word―smith、Bibexcel主要用于前期的数据处理,以适合其他软件将数据转换为不同形式的图形;Citespace、SPSS、Pajek、Ucinet、Netdraw可以将特定格式的数据做可视化处理。这两类工具经常同时使用,图9的国内知识图谱研究工具的共现网络可以验证这一状况。从相关文献看,研究工具的选择与研究方法有较强的关联性。在采用聚类方法和因子分析时,多选择SPSS;在共词分析和社会网络分析时,选择Ucinet和Pajek;WOS的引文数据分析时多用Citespace。
  
  5、启示与思考
  
  国外知识图谱研究虽然取得了一些成果,但与国外研究相比,有些方面还需要加强。基于前面分析结果,笔者认为,国内知识图谱的研究今后可以在以下方面着力:
  ?吸引更多的学科和研究机构人员来参与知识图谱研究。知识图潜研究是一个跨学科的研究领域,因此合作研究非常重要。前面分析表明,国内知识图谱的研究队伍已经形成了一定规模,但研究人员目前主要是科学学和情报学的学者,计算机领域的研究者参与较少。研究工具都是国外软件,国内还没有专门的知识图谱绘制软件。国外软件对英文文献支持较好,对中文文献和数据库支持不足。这也是导致我国知识图谱的研究与国外差距较大的一个客观原因。
  ?进一步加强基础研究。前文分析表明,国内在知识图谱方面以定量研究为主,主要是利用国外知识图谱绘制软件绘制不同领域的知识图谱,定性研究主要侧重于对国外研究进展的介绍和宣传。在知识图谱的基础理论、研究方法、研究热点的发现算法等方面的基础研究有待加强。
  ?创新研究方法。尽管从前文分析当中可以发现知识图谱的研究已经有很多较为成熟的方法,但基本都是由国外学者提出并率先使用的,国内学者缺乏自己独特研究中文文献的方法。研究方法的创新应该是今后需要加强的研究内容之一。
  ?进一步优化期刊质量,优化数据库的建设。数据质量直接影响知识图谱研究结果的有效性。我国学术期刊在作者、关键词、参考文献等信息的著录格式上还不统一。这导致期刊数据库的数据质量存在先天缺陷,进而影响后期数据的处理和分析。与国外SCI等数据库相比,国内数据库起步较晚,利用其做长时间段的研究困难较大。
  
  6、结语
  
  本文的研究不足之处主要有:①本文选取了知识图谱研究主题文献,由于检索策略的局限,可能还有一些文献没有进入数据集,这将影响到本文的数据完备性。②对文献内容特征的分析可能受限于文本本身的复杂性和笔者的知识结构。今后,将通过社会性网络中的介数、中心性等定量的指标对不同知识网络结构进行定量分析。

相关热词搜索:可视化 图谱 知识 国内知识图谱研究的可视化分析 知识图谱可视化 研究的可视化分析

版权所有 蒲公英文摘 www.zhaoqt.net