简述教师专业发展途径_情报检索发展的几个前沿问题
发布时间:2020-03-07 来源: 日记大全 点击:
[摘 要]介绍现阶段情报检索研究中的几个前沿问题,包括自然语言检索、跨语言检索、智能信息检索、基于语义的图像和视频检索及检索系统评价研究的最新发展情况。语言、智能和语义等问题相互关联,近年来又一同推动着信息检索的发展。检索评价研究也有针对性地引导着情报检索的发展方向。结语部分论述这些问题在情报检索前沿发展中的本质联系及未来的发展方向。
[关键词]自然语言检索 跨语言检索 智能检索 基于语义的检索 检索系统评价
[分类号]G252
近年来,自然语言检索、跨语言检索、智能信息检索和基于内容的检索发展较快,成为情报检索研究中的前沿和热点问题。基于内容的检索将情报检索的研究对象从文本扩展到多媒体信息资源,基于概念的检索是其进一步发展,后者同时将多媒体信息资源的物理内容与用户的认知语义结合起来,在内容的基础上纳入用户的认知和情感等因素。本文就是在当前发展现状的基础上,论述这四个问题。同时,介绍情报检索的评价研究,它指导着情报检索的发展方向,尤其是TREC,堪称信息检索系统研究的指南针和风向标。
1 自然语言检索的语义问题
语义问题是自然语言检索中的核心问题。目前,情报检索仍是“bag of words”的检索方式,因而词汇的意义(Meaning),即语义(Semantic)便处在举足轻重的位置。但是,考虑到效率和及时性因素,对语义的建模和计算不能使用过于复杂的模型。目前,可以通过两种途径来解决这一问题:一是通过概率统计的方法;另一是通过本体的方法。
1.1通过概率统计的方法解决语义问题
语言模型(Language Model)是近年情报检索领域的研究前沿。这一概念最初用于语音识别,是指针对词序的统计模型。在情报检索中引入语言模型可以:①直接用于情报检索的概率模型;②彰显情报检索模型中统计估值的重要性t③对给定查询q,判定某一文献d的分值p(q|d)。现有的语言模型研究的前提假设较之以往的概率模型并没有太大改变。但是,对于其中参数的估值更为显式化,也更加精准。翟成祥和Lafferty则深入到语言模型中的平滑手段,在比较几种平滑算法的基础上,提出应用于自然语言检索2阶段平滑,并认为Jelinek-Mercer可用于查询建模。Liu Xiaoyong和Croftw.B.介绍了在语言模型中主要使用的查询、翻译和相关三种模型以及参数和语义两种平滑方法。
概率统计方法解决语义问题的第二种方法是词义消歧。传统的情报检索中通常使用聚类、主成份分析和潜在语义索引等方法实现。而在自然语言处理中,词义消歧通常通过统计学习的方法实现。两者相比,前者的效果不如后者,但是开销小;后者能够使消歧的效果更精准,但是不适合用于提供在线服务。K.Sparck Jones认为在使用自然语言处理的方法处理情报检索问题时要“吝啬”。结合实际情况而言,这样的思想不无道理。
1.2通过本体的方法解决语义问题
一些研究将本体纳入到自然语言检索研究中,这对从理论上认识自然语言的语义问题有着重要的作用:汤艳莉和赖茂生对本体应用到自然语言中做了探索性的研究,认为创建面向检索的本体、本体的动态更新和本体的评价三个问题是本体在自然语言检索应用中要解决的问题;肖洪设计了一个教育领域的本体,并用其提供检索服务;赵丹群则将本体应用到信息检索系统中,解决检索系统中的语义问题。将本体纳入自然语言检索中的好处是概念精准、消歧效果好;但是本体及其逻辑推理开销大、实现复杂。
2 跨语言检索
2.1跨语言检索的研究意义和基本问题
因为跨语言检索能够有效地消除数字鸿沟,促进信息交流和利用,降低国际组织和机构的沟通成本,所以近年国内外的研究机构都不遗余力地投入跨语言检索的研究之中,并且得到了所属国家和地区的支持。
跨语言检索是自然语言处理技术在情报检索中应用最为广泛的领域,但必须注意自然语言处理和情报检索核心任务的差别。首先,跨语言信息检索大量借助自然语言处理,尤其是机器翻译的研究成果,但是跨语言检索的最终评价体系却是情报检索的评价指标体系。其次,现有的跨语言检索有一个基本的前提假设:“好”的检索结果建立在“好”的翻译结果上。但是,信息检索系统归根到底是偏序的。在研究的早期,好的翻译结果确实能够提供好的检索结果,但在深入研究中这种影响越来越微弱,甚至很难在实际的实验中观察到这种改善;另一方面,翻译质量建立在庞大的系统开销之上,而信息检索系统难以负担如此昂贵的开销。
2.2跨语言检索的匹配与翻译问题
跨语言信息检索中的核心问题是翻译问题。从翻译的时间上看,包括查询式翻译、文档翻译和查询式与文档两者均翻译三种选择。但是,人们普遍认为尽管文档翻译效果更好,但开销过大,因此对采用此方法的态度普遍较为慎重,另一方面,在文档翻译中,处于核心地位的是机器翻译,但离情报检索研究的距离较远。因此,通常选择查询式翻译作为跨语言信息检索的翻译时间。但是,并不是所有的跨语言信息检索都要进行“翻译”,一些针对同源语言的模型通常使用同源匹配策略。此外,查询式与文档均翻译的方法通常使用语间转换技术。
从实现上看,句法分析、自然语言翻译技术、语言模型和本体等方法大量地应用到跨语言检索的匹配与翻译。高剑峰和聂建云关注词与词(构成词组)的词内关系和句法在翻译中的应用,对比了基于名词词组(NP)和依赖关系模型(DTM)在CLIR,尤其是查询分析中的作用;Wang Jianqiang和D.w.Oard综合使用双向翻译和同义词进行跨语言检索的翻译;Lavrenko,Choquette和Croft将语言模型应用到跨语言检索中,讨论针对跨语言检索的估计问题;张孝飞等使用boost值的方法解决查询语句的翻译问题;吴丹和王惠临则使用多语本体来解决翻译问题。
与自然语言检索一样,消歧在跨语言检索中仍是需要研究的核心问题。Kazuaki Kishida将消歧的方法分成词性标注、平行语料库、目标语料库中的词共现统计和查询扩展4种。其中前两种方法是语言学的方法,第三种方法基于“查询词的准确翻译在目标语言文档中共现,而不正确的翻译则倾向于不共现”这样的前提假设;第四种方法则是相关反馈在跨语言检索中的体现。
2.3,从跨语言到多语言
当集合中有多种语言时,就要解决由于语言增多而带来的复杂度增高的问题。
首先,在翻译方面,简单地双语互译会极大地浪费系统开销,因此需要使用中枢语言(pivot language)。中枢语言基于语言翻译的传递性,也意味着翻译由双语跨语言中的一次变为两次,问题复杂度尤其是消歧的负担更重。KazuakiKishida列举了TREC,NTCIR和CLEF中的中枢语言方法。 其次,多语言检索相关度排序需要首先对检索结果进行合并。陈信希认为这样的问题有分布式和集中式两种方法,而集中式方法事实上回避了合并的问题;进而,林和陈列举了主要的分布式检索结果合并的方法,并在其系统中使用先对排序分值归一化,再对不同文档集合加权的两阶段方法。
3 智能信息检索
智能信息检索包括的内容相当广泛,自然语言检索、跨语言检索都可以纳入智能信息获取的范畴之中。各种机器学习算法和知识相关技术亦可纳入到此范畴中。但是,如果我们把纷繁的研究归结起来,其核心是知识与知识学习以及各种隐含知识或模式的发现。
3.1情报检索中的学习问题
情报检索的学习问题主要体现在以下三个方面:
?在文本处理中,各种学习算法的研究工作。文本分类、文本挖掘等研究最终都要落在学习算法上。其中,知识和学习模块在这些系统中起到支撑作用。
?自然语言检索包括跨语言检索都不可避免地使用各种机器学习的方法。自然语言中语言现象过于复杂,需要各种智能因素的辅助才能完成语言中概念的提取、表示乃至检索利用等环节。
?基于内容检索也需要学习。“人对图像内容的理解并不是仅靠统计进行的,人还有学习的能力。”目前,多媒体信息基于内容检索需要考虑到用户的情感因素,同时需要研究图片或视频的分类等,这都需要借助智能手段和机器学习实现。
3.2智能与模式一情报检索对深层次规律的研究
王永成认为归纳能力、联想能力、自学习能力和推理能力在智能信息处理中有着重要作用。这些能力均与模式和隐性知识的发现紧密相关,从一个侧面体现了知识系统的重要作用。Swanson认为“相关的模式,而不是相关文档”才是情报检索应该提供的服务对象,这对情报检索提出了更高的要求,并指出了一个发展方向。情报检索如果仅仅围绕文档提供服务,就难以满足用户在知识层面上的需要;而围绕模式提供服务,不仅可以提供更为有效的服务,同时有助于系统自身的成熟和发展。
模式可以认为是隐含在各种事实中的各种事物共同遵守的规律,可以通过归纳和演绎两种途径发现模式:归纳是统计大量的事实,发现模式形成的影响因素,最终提取出各种用户感兴趣的模式;演绎通过一定的逻辑规则进行推理,从已知的事实中经过规则的解释和推理算法,最终得到用户没有意识到的知识或模式。前者的实例是机器学习,后者则是本体。
但是,我们在强调“智能”的同时也增大了系统开销。因此,在智能信息获取中不能片面地追求智能,而忽略了最终目的――检索。
3. 3智能信息检索的研究内容
以智能搜索为中心内容的分布式信息处理成为本领域的一个发展方向。智能搜索旨在为搜索引擎附加知识库等智力因素,以实现更好的检索效果。在智能搜索中,个性化的服务模式能够使搜索引擎基于局部的用户模式(User Profile)进行领域建模,在此基础上发展智能代理技术(Agent)能够为用户提供更好的服务,实现分布式信息处理。
自动问答系统是智能信息检索的另外一个发展方向,它可以看成是从文档到模式演进的一个实例。早期的问答系统基于规则实现。现在,基于统计的方法也大行其道。Jeon等人通过寻找测试集合内相似的问题,以改善回答的效果,同时使用估计的方法对自动回答的质量进行预测;Harabagiu则使用随机游动的方法回答复杂提问。
4 基于语义的图像和视频检索
随着研究的发展,单独内容层面的研究已经不足以提供有效的多媒体信息服务,因此基于语义的检索便受到研究人员的注意。目前,基于语义的检索有三种实现方式:结合文本提取语义、借助通过MPEG-7等元数据方案和研究多媒体的内容语义问题。
新闻视频主要通过文本提取语义。国防科技大学的研究人员结合视频内容和字幕探测解决新闻视频检索的语义问题。针对时间特征来挖掘新闻视频中的趋势、时空分布等。结合使用字幕探测和人物识别的方法解决视频内容的语义标注问题,并进一步对新闻视频做摘要,进而深入新闻视频的挖掘工作,给出了新闻视频挖掘的框架,在结构、语义内容、摘要、趋势、关联关系、兴趣点、分类、聚类和偏差分析等方面做深入研究。
基于MPEG-7等元数据方案的语义检索使用“描述性语义”,是基于文本检索的发展。
语义检索的第三种方法,也是我们应该深入研究的方法是多媒体的内容语义问题。图像(内容)语义是分层的,通常包括特征语义、目标与空间关系语义和场景语义三层,与此相关联的是用户的情感因素。黄昆和赖茂生针对彩色风景图片的四季特征进行提取,付畅俭、李国辉和代科学对视频的语义结构进行深入研究,从镜头、场景和视频中发掘“某类特征或多类特征综合表现出来的构造模式”。
基于语义检索以基于内容检索为基础,是在基于内容检索基础上发展起来的方法。基于语义检索需要了解用户的需求,尤其是语义和情感方面的需求,与基于内容检索相比,它更多地侧重于多媒体信息物理特征所蕴含的意义。
5 检索系统评价研究
5.1 TREC的发展机制
从创立至今(2007年),TREC已经成功举行了16届,成为世纪之交最有影响的大型情报检索系统评测活动。从TREC3开始,以track为单位的活动组织方式就开始发展并延续下来,最终成为TREC发展的重要机制之一。TREC的track一直在变化,表1是Voorhees在2006年TRECl5上做的统计。每项track都会持续一定的时间,当一项track相对成熟或难以在现有水平上继续发展时就会停止;每项track的第一次施行都会明确定义问题和任务,并提供相应的基础结构(包括测试集和评价方法论);每项track都有自己的邮件列表,为各项track的发展提供了“知识和智慧的pooling”。
作为TREC的发展的第二个重要机制,测试集合包括三个部分:文档、检索课题(topic)和相关判定。文档和课题的结构从TRECl起一直没有多大变化。目前各种批评均指向TREC的相关判定,TREC的相关判定使用pooling技术。批评者认为,对相关文档池有贡献的方法相比对相关文档池没有贡献的方法更容易得到好成绩。Zobel认为对于pooling技术应该关注其可信性,关注其是否对“新”系统的效能低估以及能否发现大部分相关文献三个方面,他发现pooling技术并没有对尚未判定过的方法低估。因此,尽管目前对TREC的相关判定仍然有各种批评,但是其基本的相关判定方法一直沿用至今。
最后,作为TREC发展的第三个机制――评价指标,目前TREC的大部分tracks使用MAP(MeanAveragePrecision)。
从1992年发展至今,TREC在推动情报检索的发展上做出了卓越的贡献。在TREC中也涌现出一批高质量的信息检索 系统。美中不足的是,其评测集合仍然是大量而无法做到海量,对于真正意义上的搜索引擎评价贡献较小。其所关注的领域商业化和战略化的意义明显,但是却忽视了普通用户的需求。
5.2针对搜索引擎的评价
搜索引擎评价的难点是对海量数据的评价建立一个较为完备的指标体系。传统意义上的查全率和查准率已经无法适用,需要建立适用于网络搜索用的评价指标体系。
其中一种方法是使用P@n,该方法是针对检索效果的单指标评价方法。韩圣龙介绍了P@n及用于搜索引擎评价的4个相关性范畴,并用P@n针对中、英文搜索引擎做了评价实验[36-37]。韩圣龙认为P@n“确实能比较客观地反映检索工具在前n(原文x,作者注)条命中记录中提供有用信息的能力,”同时认为“链接的可靠性是网络信息检索性能评价特有的评价指标。”Hawking和Robertson则提出5条前提假设,分三种情形论述P@n,最终对于特定的(Q,E)(查询和搜索引擎)推荐使用查全率-漏检率曲线作为操作特征曲线,而影响P@n的两个主要因素是测试集中相关文献的数量和(Q,E)组合对相关文献排序的能力。
国内学者使用层次分析法建立指标体系。朱庆华和杜佳结合使用特尔菲法和层次分析法制定了一个搜索引擎的评价指标体系,并使用百度、谷歌和雅虎中国等6个中文搜索引擎进行实证研究;左国超同样使用层次分析法,建立了用于搜索引擎评价的指标体系,与朱庆华和杜佳相比,其指标体系略有不同。在层次设定上朱庆华和杜佳使用的是四层模型,而左国超使用的是标准的三层层次模型。Sarah E.Crudge和Frances c.Johnson同样使用“层次”来构造指标体系,但他们使用的是聚类的方法。
在搜索引擎的评价研究中有两个倾向:一是对检索的效果进行评价,其主要代表指标是P@n。P@n虽然存在一些问题,但是简便易行,能够较好地反映检索的质量,并且已经有了详尽的研究。是对成套的指标体系及指标体系中每个指标的权重赋值。这样的研究能够为搜索引擎的改进提供具体的指导,但是难以用在实际的检索评价之中。当然,我们也必须认识到评价的初衷就是为了系统效能的改进,因此两方面的研究都有实际意义。
但是,对于搜索引擎的评价研究还很初步,仍然有各种方法需要我们去探索。当然,这些已有的研究和尝试离最终评价指标研究的理想状态还相去甚远。搜索引擎的评价指标研究,既要能对搜索引擎效能改善有指导意义,同时也要在指标体系的系统研究和方法论体系上完备起来,而后者更是一个艰巨的任务。
6 结语与展望
在现阶段情报检索的前沿中体现出两个主要的趋势:一是对情报检索中的语言问题认识得越来越透彻,对语言的建模和应用手段较以往有很大进步;二是强调信息检索系统的智力或智能因素。隐藏在语言和智能问题背后的是对规律的探求,无论是语言问题还是智能问题,都可以通过统计或者本体的方法实现;更深入地,通过对规律性现象的归纳和对有效规则的推导(演绎)以满足用户更深层次的需求。从表层的词频规律深入深层的模式,体现了情报检索的研究进展和趋势。诚然,目前在自然语言(含跨语言)检索的研究中,语言是非受控的,但并非是完全自然的,这在查询中体现得更为明显。因此实现真正意义上的自然语言检索,还有很长的路要走。
加强对语义,尤其是多媒体信息语义的研究。解决语义的问题不能单纯地归结到逻辑和本体,统计的方法也能对语义进行有效的计算。对于语义的认识也不能局限于语言和文本,多媒体信息的语义和语义层次,容纳用户情感特征的语义因素也是值得我们关注的研究内容。语义问题的研究,要深化用户的需求,尤其要对用户的需求建模。构建有效用户模式一直是难以有效解决的问题,同时也是智能化信息检索的必由之路。
深入研究智能信息检索,以探索超越信息的知识和模式提供更为深层次的服务。将视野从提供相关文本转移到更高层次、更为本质的用户需求的满足上,这是信息检索的一个发展方向。对智能问题的研究也要同时兼顾文本信息和多媒体信息资源,要对网络环境进行有针对性和前瞻性的研究;要注意网络上的信息资源不仅包括网页和多媒体,还包括各种信息实体之间的关系、网络的用户以及由用户构成的社会关系网络。
情报检索的评价研究,也向针对性和动态性两个方向发展。TREC的track体系,是情报检索评价研究的针对性的有力体现。新tracks的纳入,体现了TREC对情报检索前沿问题的引导作用。建立适合网络搜索引擎的评价指标和评价指标体系,是情报检索评价研究中的难点,也是TREC受到批评的一个主要方面,目前主要使用P@n来完成对搜索引擎的评价任务。在情报检索评价研究中,更困难也是最基本的问题,是完备的研究体系和方法论体系的建立,而这也是情报检索应该深入研究的基础理论问题之一。
总而言之,尽管存在各种难以解决的问题,情报检索的研究仍然取得了长足的进步,这些成绩是首先应该肯定的;对于存在的问题,我们也应该在认清发展方向的前提下,寻找关键问题并将其克服。在研究中要避免过多的操作层面的重复研究,这样的研究可以留给工业界去做。要深入问题的本质,更为基础和宏观地研究情报检索的核心理论问题和前沿问题,最终推动情报检索研究的发展。
相关热词搜索:几个 情报 检索 情报检索发展的几个前沿问题 情报检索试题及答案 信息检索的发展趋势
热点文章阅读