[基于知识图谱的国际网络搜索引擎研究现状与前沿分析]知识图谱 搜索引擎
发布时间:2020-03-10 来源: 短文摘抄 点击:
[摘要]运用知识图谱方法对国际网络搜索引擎领域1999~2010年的相关文献进行多角度的定量定性分析,描绘该领域近年来的研究现状及热点。结果表明:目前该领域的文献量稳步增长,高校是核心的研究力量。同时识别核心作者群,并发现目前的研究主要集中于搜索引擎的基本理论研究、检索效率研究、用户行为研究、语义网研究、医学引擎研究等。
[关键词]网络搜索引擎 知识图谱 研究现状研究 前沿
[分类号]G350
1 引言
因特网信息爆炸性增长在给使用者带来便利的同时,也带来了麻烦。在浩如烟海的信息海洋中快速准确地寻找所需信息犹如大海捞针般困难,网络搜索引擎的出现缓解了这一矛盾。搜索引擎是一种用于帮助因特网用户在互联网上查询信息的搜索工具,它以一定的策略在因特网中发现、搜集信息,并对搜集的信息进行加工整理和组织存贮,为用户提供检索服务,从而起到信息导航的作用。1994年创建的Lycos被认为是第一个现代意义上的搜索引擎。网络搜索引擎发展至今虽只有十余年的历史,却在商界、学术界掀起了巨大波澜。著名因特网网站排名公司Alexa提供的数据显示,搜索引擎公司谷歌于2009年1月5日首次在Alexa日流量排名中占据第一,成为世界头号网站。comScore在2009年9月发布的全球10大因特网资产也显示谷歌排名第二,排在第九、第十位的也均是搜索引擎公司,分别为百度和Lycos。学术界对于网络搜索引擎的基础理论研究、比较研究、技术研究、质量性能研究等均有大量报道,但鲜有涉足现状及前沿分析,即使涉足一般也以定性研究为主。为了解该领域近年来的研究现状及热点,笔者拟用知识图谱方法对国际网络搜索引擎领域的相关文献进行以定量分析为主、定性分析为辅的研究,希冀得出一些有益的结论,为该领域的研究提供借鉴。
2 数据来源、理论基础和研究思路
2.1 数据来源
本文使用的数据均来源于美国科学信息研究所的WoS数据库平台中的SCI-Expanded数据库。以“WebSearch Engine”或“Web Search Engines”为主题词进行检索,在相关题录信息下载过程中,文献类型选为“Artide”,语种为“English”,入库年份为“1999-2010”,下载日期为2010年04月30日,共检索到1268篇文献和36 804条引文题录数据。
2.2 理论基础
科学知识图谱是显示知识发展进程与结构关系的一种图形,是近年来国际上兴起的一种科学计量学研究方法。知识图谱以引文分析、共现分析、词频分析等文献计量方法为基础,综合了计算机科学、图形学、信息可视化、数据挖掘、数学等学科理论和方法,可以以图像图形的形式形象地展现科学领域的发展历程、研究现状及热点前沿,并揭示科学知识之间的联系与知识的发展规律,为科学研究提供有价值的参考。德雷赛尔大学陈超美博士开发的CitespaeelI可视化软件为研究提供了极大便利,是知识图谱方面一款非常优秀的软件。对于一个研究领域的表示,陈超美认为,可以用“研究前沿”和“知识基础”两者之间的时变映射来表示。研究前沿代表了一个领域的思想状况,研究前沿的引文和共被引轨迹则构成了相应的知识基础,Citespaeell使用的光谱聚类算法可以对共现和共被引网络进行自动聚类及标引,采用的Kleinberg突变检测算法可以用于检测一个学科内研究兴趣的突然增长。本文拟用“关键词聚类”和“突变词检测”算法来确定某研究领域的研究热点和研究前沿。
2.3 研究思路
本文首先采用文献计量方法对相关文献的数量、著者、主要研究机构进行分析以揭示研究现状,然后绘制这1268篇文献的高频关键词的共现聚类图谱、高被引文献的共被引网络知识图谱,从而描绘出该领域的研究热点及知识基础。使用到的软件主要有书目共现分析系统、Excel、CitespaeeII可视化软件等。
3 研究现状描述
3.1 文献信息量统计
发表文献的数量在一定程度上代表了某个领域的研究水平与发展趋势。图1所示的是1999~2010年12年间的文献量,其中2010年的数据只统计到4月份。从图中可以看出,文献量除2003、2005年略有下降外,其他年份均呈稳步增长之势。
3.2 论文著者统计分析
3.2.1 作者总体状况统计表明这1268篇文献来自于1045位著者,具体数据如表1所示:
这与经典的描述科学生产率的洛特卡定律并不符合。洛特卡定律描述的是写一篇文章的作者大约占作者总数的60%,而写n篇作者的人数约为写一篇作者人数的1/n2。但从表中发现,写一篇文献的作者人数所占的比例高达89.5%,远高于60%。
3.2.2 核心作者状况 对于作者发文量和被引频次的统计分析可以识别某研究领域的高产作者及学术影响力。本文选取发文量5篇以上的作者作为高产作者,被引频次超过125次的作者作为高被引作者,分别如表2、表3所示:
Thelwall、Jansen、Spink、Chau、Bar-Ilan的发文量都在10篇以上,是该领域的高产作者。来自英国胡佛汉顿大学的著名计算机学家、情报学家、网络计量学家Thelwall教授的总被引频次排在第三,他对链接分析等搜索引擎的核心技术有着比较深入的研究,具有广泛学术影响力。与Thelwall一样具有广泛学术影响力的高产作者还有来自马里兰大学的Jansen和匹兹堡大学的Spink,这两位教授曾在宾州州立大学共事过,撰写过很多经典文献。他们曾经为拥有Dogpile、Metaeraw[,er、Webcrawle等知名元搜索引擎公司lnfoSpaee和Vivisimo做过研究,主要从事理论及应用研究、用户行为研究。以色列巴伊兰大学的情报学家Bar-llan也是该领域的核心作者,她的研究领域主要涉及信息计量学、信息检索、用户行为等。Chau来自香港大学,主要致力于知识管理、信息检索数字图书馆、文本挖掘well挖掘等,是该领域的高产作者。供职于谷歌的Lawrence发表过几篇相当经典的文献,因此具有极高的被引频次,是该领域极为知名的专家,他的主要研究兴趣包括信息检索、数字图书馆、机器学习。被誉为现代搜索技术之父Salton虽已过世,但他的很多经典文献仍在被大量引用,总被引频次排到了第五,他提出的向量空间模型、逆文档频率、术语频率、术语偏离值等概念和相关反馈机制,极大地促进了信息检索领域的发展。限于篇幅,对其他核心作者不具体介绍。
3.3 机构状况
3.3.1 高产机构分析统计表明,这1268篇文献来自893个不同的研究机构,发表论文在9篇以上的高产机构如表4所示:
从论文数量上看,宾州州立大学以37篇的数量排 在第一位,前面提到的Jansen和Spink两位作者就曾在此校做过研究。排在第二的是胡佛汉顿大学,其中Thelwall教授一人就发文26篇,占了该机构三分之二以上的发文量,是该机构的绝对核心研究人员。其他排名比较靠前的还有威斯康星大学、匹兹堡大学、西安大略大学等。
从地区上看,美国(10所)占了一半以上的席位,显示出美国在该领域的强大学术影响力。香港、英国、加拿大、土耳其、新加坡、以色列、澳大利亚也均存在高产机构,说明该领域的高产机构主要分布在发达国家和地区。同时也可以看到这些机构主要是高校,一些商业机构诸如IBM、微软、谷歌的排名都比较靠后,这对技术的商业化运作并非很有利。
3.3.2 机构研究领域
利用CitespacelI对这些机构进行聚类分析,可以发现其研究兴趣分布在22个领域。按聚类成员的多寡,排在第一的是语义网(#16)。语义网是通过改变现有互联网依靠文字信息来共享资源的模式,通过本体来描述语义信息,达到语义级的共现,提高网络服务的智能化自动化。基于语义网技术的搜索引擎能大大改善查全率和查准率,是智能搜索引擎的前进方向,有多达87个研究机构对此进行研究,包括胡佛汉顿大学、南洋理工大学、西安大略大学等。宾州州立大学在探索性研究(#12)方面具有建树,这个研究方向还吸引了斯坦福大学和昆士兰理工大学这样的技术强校。相关内容分析方法(#0)这个聚类也聚集了不少机构,值得注意的是这里面的机构都大多来自中国,包括上海交通大学、香港理工大学和微软亚洲研究院。其他排名靠前的聚类还有交互式网络搜索(#2)、蛋白质信息资源(#7)、测量网络搜索引擎质量(#8)、浏览技术(#9)、内容分析(#21)等,具体情况如图2所示:
4 知识基础和研究前沿
4.1 研究热点和前沿
关键词所占篇幅虽小,却是文章的核心和精髓,是作者对文章主题的精炼,具有很强的代表性,因此高频的关键词往往被用来考查一个领域的研究热点。将相关题录数据导人CitespaceII中,网络节点的类型选为关键词(keyword),时区分割(time slicing)选择为1,即将12年的数据以年为单位切为12片,阈值选为出现频次最高的50个字(top50),运行软件得到如图3所示的关键词共现图谱,共有278个不同的关键词节点和1271条连线:
节点向外延伸的不同颜色的环代表了不同年份的出现,环的厚度与出现频次正相关,表5列出的是出现频次排在前十的关键词及中心度
通过计算节点中心度的大小可以挖掘出在整个知识图谱中具有战略地位的关键点。中心度反映了一个节点(如关键词或引文)在整个网络中作为“媒介”的能力,也就足占据其他两个节点之间最短路径的能力,具有较高中介中心度的节点意味着更多的节点之间的联络需要通过它来充当媒介。图3中具有较高中介中心度(大于0.1)的点用紫色的圈圈出来,这样的关键词包括万维网、因特网、搜索引擎、信息检索、信息、检索,都是与主题很相关的词,是很多其他研究的基础。
节点的大小揭示该领域的研究热点。万维网和因特网是图中最大、最突出的两个节点。万维网是无数个网络站点和网页的集合,它们在一起构成了因特网最主要的部分,是依靠着因特网运行的一项服务,在很多场合不明显区分这两个词。搜索引擎处理的是因特网上的信息,因特网的迅速发展与普及也带动了搜索引擎的发展。因特网上的信息具有的庞大性、动态性、异构性和半结构化等特点对搜索引擎来说是个挑战,这势必引起很多专家学者来对此进行研究。因此,这是该领域的热点之一。
排在第三的关键词是搜索引擎,同样具有极高的中介中心度,这是本文的检索词,自然处于图的中心位置,也是本研究的基础所在。
排名四、五、六的是信息检索、信息、检索、网络检索这几个相关的荚键词,这些都是与搜索引擎运行相关的。搜索引擎的基本思想是:使用Robot来遍历Web,将Web上分布的信息下载到本地文档库,然后对文档内容进行自动分析并建立索引,对于用户提出的检索请求,搜索引擎通过检查索引找出匹配的文档返回给用户,信息检索技术是搜索引擎发展的基础,该领域的发展离不开基础研究,因此也是目前的热点。
排名第七的是质量一词,在谷歌学术中检索研究搜索引擎质量的文献,检索结果高达30000万条以上,研究者从不同的角度来提高搜索引擎的检索质量。如对网页的重要性、用户的反馈信息、大规模日志、用户的点击行、页面排序算法等进行研究。这些措施都大大增加了搜索引擎检索结果的准确性。搜索引擎返回结果的质量直接导致用户体验效果的不同,因此是目前该领域研究非常活跃的方向。
排在第八的是健康资讯。随着物质生活水平的提高,人们越来越重视与健康相关的信息,因特网的迅猛发展提供了这种便利。如今世界各地的人们越来越多的使用搜索引擎来寻找相关病症,药物,治疗信息,但对这些过载信息的不恰当使用往往会适得其反。同时对于一些医疗信息,包括学术医疗信息的呈现问题等也是关注的焦点。因此如何使搜索引擎成为沟通这些宝贵的医疗资源与用户的桥梁是面临的一大难题。下文列出的前九的经典文献中有两篇是跟这方面相关的,说明对健康资讯、医学搜索引擎领域的研究是一个热点。排名比较靠前的还有设计、用户研究。
为了确定该领域目前的研究前沿,选用突变检测算法来检测该领域的突变专业术语(环内呈红色的点),同时选择时间线索(timeline)聚类视图,生成图4所示的聚类知识图谱:
这样的词频变化较高的、代表研究前沿的突变专业术语有语义网、数据库、日志、网络搜索等。
4.2 知识基础
对知识基础的共被引分析,有利于进一步明确研究热点的本质。利用Citespacell提供的共被引分析功能,对该领域的文献绘制了共被引知识图谱。除去节点类型选为参考文献(cited conference),闽值选为top40外,其他参数与关键词的一致。运行生成图5所示的知识图谱,共生成了246个不同的文献节点及1545条连线。
表6列出的是被引频次50次以上的高被引文献,括号中给出的是相应文献在谷歌学术中检索到的被引频次(截至2010年5月4日),这些高被引的经典文献构成了搜索引擎领域的知识基础,具有极高的学术价值。中心度的大小则显示出了相关文献对于搜索引擎研究的转折意义跟枢纽作用。
按被引频次排序,Lawrence的《因特网上信息的可获取性》一文具有最高的被引频次。该文通过对当时主流搜索引擎进行比较分析,提出这些搜索引擎的不足,比如对网页的标引。当时的搜索引擎依据网页的受欢迎程度以及网页之间的链接进行标引,但这会导致对许多包含重要信息的新网页的标引、检索产生时滞。同时,针对当时搜索引擎覆盖率不足的问题,作者 也提出许多见解。这些问题的提出,为以后搜索引擎的发展指明了方向。时至今日,这些问题得到了很大程度的改善,虽然网页数量呈指数上升,但搜索引擎的覆盖率还是有了长足的进步。而对于一些重要网页比如新闻网页的标引检索也找到了一些对策。因此,该文是该领域最近十余年来具有里程碑意义的经典文献。
Jansen的《真实的生活真实的用户真实的需求:网上用户需求研究和分析》一文排在第二。该文基于搜索引擎后台的数据库事物日志对搜索引擎用户的使用习惯进行了分析,得出了一些有意义的结论。诸如:在检索的时候用户使用的关键词很少,一半的用户只有一个检索词;大约只有5%的人使用到了搜索引擎提供的相关反馈;而对于一些诸如布尔检索等高级检索技巧,使用者也是微乎其微等。Jansen的研究为搜索引擎的研究从纯技术角度之外开辟了新的途径。所以,现在很多搜索引擎厂商都非常注重后台用户数据库的建设与使用,通过对这些数据挖掘得出一些富有成效的结论,同时与用户保持互动,通过用户的反馈来提高检索的性能,增加用户的体验感。
排在第三位的同样是Lawrence的《搜索万维网》,这篇发表在Science上的文章写于1998年,《因特网上信息的可获取性》一文是该文的后续研究。该文对万维网搜索引擎的覆盖率问题进行了研究。对于当时的搜索引擎覆盖率过低问题,作者通过一系列的实验证明使用元搜索引擎是一种比较好的解决途径。对于科学家寻找学术信息困难的问题,也提出了一些方案,是一篇具有开拓意义的经典文献。
《大型超文本网络搜索引擎的剖析》是谷歌创始人布林与佩奇写的文章。该文首次对大型网络搜索引擎进行了深层次的介绍,同时还对利用超文本中的附加信息改善搜索结果进行了研究,是谷歌创立的基础及原型。多次被Search Engine Watch评为“最杰出的搜索引擎”的谷歌的成功吸引了很多相关研究者对此文的关注,该文在谷歌学术中被引频次达到了惊人的6477次,当仁不让地成为了该领域的经典文献。
康奈尔大学Kleinberg的《超链接环境中的权威资源》在谷歌学术上的被引频次也高达4896。该文提出的中心问题是:对于某个检索主题,会有很多的相关信息,那么如何从这么多的信息中准确定位对于用户有用的信息呢?作者提出了一种基于互联网的链接结构的“权威度”概念来大大缩小检索范围,同时提出一套行之有效的算法工具来鉴定这样的资源。
另外,这9篇经典文献中有2篇是发表在《美国医学协会学报》这本医学权威期刊上,主要探讨了如何有效准确利用因特网上的医学医疗信息,是相关医学医疗搜索引擎研究的经典文献。
5 结语
本文对国际网络搜索引擎领域十多年来的相关文献从不同的角度作了比较细致的考察,生成了若干张图表,明晰了目前的研究现状,辨别出了该领域的核心作者与核心研究机构。同时,通过对关键词的分析,也把握了该领域的研究热点,目前的研究主要集中于搜索引擎的基本理论、检索效率质量、用户使用习惯、语义网技术、医学搜索引擎等;并进一步对该领域的经典文献进行了分析以明晰研究热点,这些文献跟目前的研究热点有很大的相关性并且是研究的基础,很多文献作出了开创性的贡献,具有研究的风向标作用。但限于水平与篇幅,很多定性分析都未能深入,这是以后研究需要改进的地方。
相关热词搜索:图谱 现状 搜索引擎 基于知识图谱的国际网络搜索引擎研究现状与前沿分析 知识图谱研究现状和趋势 国内外知识图谱
热点文章阅读