情报检索语言不是“明日黄花”_情报检索语言

发布时间:2020-03-07 来源: 人生感悟 点击:

  [摘要] 随着网络信息技术的发展和搜索引擎的兴起,传统情报检索语言在网络环境下存在的必要性受到质疑。用网络信息检索的大量实践回答检索语言能否适应网络信息组织这个问题。首先列举分类语言和主题语言在国内外网络应用的大量实例,然后以其自身的优势来说明检索语言存在的必要性,并分析他们在网络环境下表现出的强大生命力。
  [关键词] 情报检索语言 分类法 主题法 自然语言 发展趋势
  [分类号] G202
  
  随着网络信息技术的发展和搜索引擎的兴起,传统的情报检索语言在网络环境下存在的必要性正在受到质疑,甚至有人在《谈谈我们的分类主题词表》一文中提出,“我们这个学科炼出的这样一套‘知识’组织方法,实在是过时了。……你可以说它曾经起到多大的作用,但是现在肯定没人会用这个东东了,特别是那些开发各类应用的计算机人士和各行各业的用户……”。这里所说的“知识组织方法”,实际上是指《中国分类主题词表》一类检索语言。关于检索语言“过时无用论”在联机检索时代就已出现,无数专家用理论与实践驳斥了这一观点。在网络环境下之所以会再次出现“过时无用论”,无非有以下几个原因:①搜索引擎广泛使用自然语言,很少采用叙词语言;②搜索引擎及各大门户网站普遍采用自编的分类体系,很少使用传统的分类表;③web2.0的发展,更强调用户参与的理念,如自由分类法就允许用户自己添加标签,取代标引和分类;④传统检索语言的编制机制和复杂性增加了使用的难度和成本等。
  难道检索语言真的“过时”、“无用”了?事实胜于雄辩,就让我们用网络信息检索过程中大量使用叙词表、分类表等知识组织工具的事实来驳斥这种“过时无用论”。
  
  1、叙词表在网络环境中的应用
  
  1.1 叙词表在元数据中的应用
  元数据的研究与开发正成为当今网络发展的热点。其主要目的是通过准确的描述、评估信息资源来提高信息检索的效率。由于叙词表能够很好地控制同义词和同形异义词,表达词间关系,很多元数据项目都鼓励使用叙词表。
  在众多的元数据项目中,DC元数据的影响最大,在其“subiect”元素中,DC就鼓励使用叙词表、标题表、分类表和各种规范文档(见表1)。
  
  1.2 叙词表在网络数据库中的应用
  叙词表自20世纪60年代问世以来,很快被用于检索刊物和文献数据库索引的编制,几乎世界上各学科的著名文摘索引刊物都建成了书目数据库和全文数据库,绝大多数书目数据库都采用了自编的叙词表。进入网络时代以后,专业数据库也纷纷进入因特网,叙词表在这些网络数据库的检索系统中同样起着很大的作用(见表2)。
  
  1.3 叙词表在主题网关中的应用
  主题网关对网络信息的组织具有搜索引擎等其他网络信息组织工具所不可比拟的优势,原因在于它充分利用检索语言揭示和组织网络信息,弥补了现有模式对专业网络信息资源组织的不足。
  以英国SOSIG(社会科学主题网关)为例,SOSIG根据不同的主题领域或学科使用不同的叙词表:如英国Essex大学开发的《人文科学与社会科学电子叙词表》(HASSET)、《政府、政治和人类学叙词表》(IBSS)以及《社会工作和福利叙词表》(CareData)。SOSIG通过HASSET等叙词表为网络资源标引主题词,从而使资源发现和描述更加统一。另外,SOSIG还设置一个搜索引擎,提供自然语言检索途径,为用户选择检索词提供入口。
  除了SOSIG,还有很多主题网关也采用了分类法和主题法,他们一般是基于分类法构建浏览体系结构,在检索过程中提供相关的主题词来提高检索的效率,如EELS、OMNIKuopio、和ADAM等;另外,Renardus和其他不少主题网关还通过采用检索语言的兼容互换原理和方法实现了互操作。
  
  1.4 叙词表在数字图书馆等方面的应用
  除了上述应用,叙词表还以数字化地名辞典、机辅标引、多语种叙词表等形式被应用到数字图书馆项目或系统中,甚至在一些搜索引擎和商业性网站中也有使用(见表3)。美国衣阿华州大学的网站上也列出了多达24个叙词表在网络上的应用实例。
  
  1.5 国外网络词表统计分析
  Taxonomy warehouse(分类仓库)按照美国标准“ANSIZ39.19-2005”收录了欧美各国在网络环境中使用的分类表、叙词表、规范文档、词典共计510部,涵盖73个学科,涉及39种语言。通过对分类仓库中收录的445部词表进行统计,可以看出近年来词表呈现以下发展趋向。
  词表编制数量有增无减。这是对“过时无用论”最有力的反驳。与1989年统计相比,2006年政府机构编制的词表增加了8.9%,公司编制的词表更是由1989年的1.8%上升了17.5%;由于互联网的广泛应用,也涌现出一批为满足网站用户需要而由网站自编的词表,占5.6%。受控词表正在受到越来越多的政府、公司和网站的重视(见图1)。
  越来越多的词表采用机读和网络形式出版。与1989年相比,印刷版所占的比例已由97.4%下降到了34.4%,缩微版也由12.8%降到了0.7%,而新出现的网络介质已经超过80%,这反映了词表网络化的趋向,同时也从侧面表现出词表强大的生命力。
  词表更新数和更新频率正在逐年增加。在1996到2003的短短8年间,词表的更新量就猛增了509.1%。而每周更新的词表比例达到了12.8%。由此可见,词表更新的数量逐渐增加,更新频率也越来越高。这反映了叙词表强大的发展势头(见图2)。
  
  2、分类法在网络环境中的应用
  
  2.1 国外分类法的应用
  20世纪80年代以来,国外一批学者就对DDC、LCC、UDC等分类法应用于联机环境做了大量研究,用事实驳斥了联机时代分类法“寿终正寝”的错误断言,也为分类法在网络信息组织中的应用做了必要准备。目前,国外很多关于将传统分类法应用于网络的研究都已进入实用阶段。Vander Walt在1998年对网络资源组织工具所作的调查显示,在46种具中,有23种采用了传统分类法。美国衣阿华州大学的网站也列出各种利用分类法来组织网络信息的工具。该网站将分类法分为字母、数字以及字母数字三个类别,这些分类法主要在图书馆、主题网关和各类网站上起浏览和检索等作用(见表4)。
  
  2.2 《中国图书馆图书分类法》在网络信息组织中的应用
  《中国图书馆图书分类法》(以下简称“《中图法》”)是我国最具权威的综合性大型分类法,在它基础上展开的网络信息资源的分类完全具备坚实的科学基础和广泛的用户基础。目前,网络数据库和各大网站使用和借鉴《中图法》的情况如下:
  2.2.1 《中图法》在网络数据库中的应用 《中图法》在大型 网络数据库中得到了充分的运用。如重庆维普的中文科技期刊数据库,其专业信息门户网站的数据在很大程度上都是运用《中图法》进行检索和导航;清华同方的中国期刊全文数据库(CNKI),它在内容分类导航、知识导航和学科资源分类等部分按学科属性各分为若干大类,每个大类中又依据《中图法》为每一部分设置类目,有的类目甚至多达四五级;万方数据资源系统的学科分类浏览方式;北大方正集团的Apabi数字资源平台的主题网关和数据应用等。
  2.2.2 《中图法》在数字图书馆中的应用在司莉等人调查的27个数字图书馆中,共有12个数字图书馆使用了《中图法》,占总量的44.5%。其中,中国科学院的数据库――中国国家科学数字图书馆(CSDL)在其学科信息门户中依据《中图法》学科分类的特点制订自己的学科分类体系。超星数字图书馆和中国数字图书馆(国家数字图书馆分为22个门类)也沿用了《中图法》的分类体系。另外,还有书生之家也按照《中图法》将电子图书分成了22个大类。
  2.2.3 《中图法》在电子商务网站中的应用 当当网在图书分类部分借鉴了《中图法》,但因为是商业网站,所以大类的排列顺序稍有不同,比如把青春、小说、文学、艺术、娱乐等前置,而将哲学/宗教后置。中国高校教材图书网也使用《中图法》提供分类索引、中图法分类、专业分类和用途分类等分类方式,同时提供主题检索。其中,在“中图法分类”页面下,用户可选择显示所有《中图法》分类明细。另外,北京市新华书店网站也提供按《中图法》进行检索查询,等等。
  
  3、传统情报检索语言的优势
  
  3.1 分类法的优势
  传统分类法在网络信息组织方面具有独特的优势,将会在网络信息组织中发挥着重要的作用:①分类法具有强大的浏览功能,类目显示能够使人们触类旁通,鸟瞰全貌;②类目的展开与收缩能够方便人们进行扩检与缩检;③给出上下文语境,使类目名称的含义明确;④提供多语种交流,扩大用户交流范围;⑤完善的系统的分类体系,有专门的机构维护更新,具有广泛的用户基础;⑥传统分类法的聚类功能及其标识能用于组织非文本信息;⑦使用传统的分类法,即使不知道词形也可以检索;⑧有机读形式,便于对网络信息资源的利用。
  总之,传统分类法能够实现概念检索,因而具有广泛的使用基础,是一种经过时间历练的具有完善体系的知识组织方法。当然,传统分类法在网络环境中也有其明显的弱点。因此20世纪90年代以来陆续产生了一批网络自建的分类体系或称分类法,用作网络信息的检索工具。他们在通用性、直接性和动态性方面以及在及时反应热点信息和用户要求方面,都表现出一定的优势。必须指出的是,这些网络分类法仍然是在传统分类法基础上发展起来的一个新的变种,被业界称为网络大众分类法。这种分类法的流行,从另一个角度也说明了分类检索语言顽强的生命力。
  
  3.2 主题法的优势
  目前关于检索语言存废与否的争论,在很大程度上是对自然语言和受控语言的比较和取舍。很多人认为自然语言将会取代受控语言,占领整个信息检索的舞台。诚然,我们不能否认自然语言在网络环境下表现出的强大的适应能力。但目前自然语言检索还处在发展的初级阶段,存在不可避免的局限眭:如无法排除同义词、无法控制词间关系,因而影响检全率;选词没有严格限制,导致词量过多过杂,分散主题,影响检准率;一个概念可以用不同的词汇来表达,容易漏检,等等。而受控语言经过事先规范化的人工处理之后,具有以下优点:语词与概念一一对应,能控制同义词、多义词和其他一些在语义上的相关的词,排除多词一义和一词多义及词义含糊等现象,能显示概念间的相互关系,具有较高的检全检准率。这也正是网络上仍然广泛使用主题语言的主要原因。由此可见,受控语言和自然语言在功能上具有互补性,两者的结合才是其发展方向。
  搜索引擎面世以后的大量实践也表明,要实现对网络信息的有效组织和高效检索,尤其是概念检索和智能检索,必须采用检索语言的基本原理――词汇控制,必须把检索语言和自然语言二者结合起来,探索新一代的知识组织工具。
  
  4、结 语
  
  关于传统检索语言的应用实例不胜枚举,尤其在国外,随着各种新技术的出现,对传统检索语言的改进、创新和应用也更加深入。主题图、主题网关、本体、语义网等的迅速发展就正好说明了传统检索语言将和新技术融合并发展为知识组织系统(KOS)的趋势。例如,本体就在检索语言的基础上提供了更加灵活的组织模型。自语义网提出之后,国内外很多研究机构相继开始了利用现有的叙词表建立本体的尝试,已经有十余种叙词表被各种方法转换为本体(见表5)。
  总之,不论是检索语言在网络环境中的应用与发展,还是检索语言与新技术融合后的创新,都表现出传统检索语言的强大发展势头。国内研究在各方面与国外尚存在着不小的差距,因此没有达到其应用的水平。但这正说明检索语言不仅不会消亡,反而会在新技术的推动下迅速发展的趋势。
  注:本文参考了钟洁颖的《网络环境下国外受控词表的发展概况及趋势――基于taxonomy warehouse网站的统计分析》手稿,特此表示感谢。   综上所述,《四声韵谱》、《韵补》、《古今通韵》三书的异同在于:
  4.1《四声韵谱》无上平下平之分
  《韵补》和《古今通韵》平声均有上平和下平之分,而《四声韵谱》的平声,无上平和下平之分。
  4.2《四声韵谱》的韵数与《韵补》有可能相同
  《四声韵谱》平声的前8册已遗失,第九册开始为“三十二”,第十三册末为“五十七幽”,表明平声共57韵。《韵补》分上平28韵、下平29韵,上下相加为57。由此推断,两书的韵数有可能相同。但与《古今通韵》30韵相比,差异较大。
  4.3三书的具体韵字不同
  古代的纽或韵,都是用一个具体的汉字表示。我国幅员辽阔,民族众多,存在南北之差,东西之异。由于音、韵的差异,因此,各韵的具体用字就有所不同,即使《四声韵谱》和《韵补》的韵数相同,其具体用字也不相同。通过比较,三书韵部的具体用字存在不同。
  4.4三书的韵序不同
  以上声中的“养”韵为例(三书均有此韵),《四声韵谱》列序为4,《韵补》列序为36,《古今通韵》列序为22。列序不同,说明各自的门类不同。
  4.5韵下同韵字数量和用字不同
  以“董”韵为例,《四声韵谱》下列43个同韵字,《韵补》下列8个同韵字,《古今通韵》下列74个同韵字,而且用字各不相同。
  4.6三书的体例不同
  以上声为例,《四声韵谱》的各韵和各同韵字均有反切、释义和例证,由此体现“集注”风格。《韵补》只对董、纸、语、轸、铣、、哿、养、有九韵有释义内容,韵下各同韵字有之反切、释义、举例;其它各韵则无实际内容,只注“古通×”,如:“二肿,古通董”、“三讲,古通养或转入董”。《古今通韵》有反切和释义,无例证。
  三书既然存在的差异如此之大,而王士祯则说杨锡震的《四声韵谱》“因合吴《韵补》”和“与毛简讨奇龄所进《古今通韵》订其同异”,不知依据的是什么?
  杨锡震集注《四声韵谱》成书后,见者极少,因此记载、了解、评介或涉及的资料也很觅。《四库全书总目提要》说:“今内府书目但有奇龄之书,而锡震之书不录,未知其门目何如。疑其所据,即正域此本也。”说明《四声韵谱》“奉旨付内阁”后,恐怕连四库全书馆臣们也未能见到其书,所以才说出“未知其门目何如”和疑其为郭正域本。也可能因为馆臣们未见过,《四库全书》也无法将其收入其中。《(光绪)香山县志》的编纂者们也未亲眼见过《四声韵谱》,否则也就不会说出“未知其审”的言语来。
  杨锡震集注《四声韵谱》没有《韵经》那样幸运,因《韵经》在明清先后有长水书院、李良柱、郭正域、张纯修刻本,而《四声韵谱》则无刻本,只有抄本,而且抄本亦只有一部。但十分遗憾的是抄本的前后缺失,仅存九册,除《四川省高校图书馆古籍善本联合目录》著录了重庆三峡学院图书馆(当时校名为“万县师范专科学校”)的收藏外,还未见有杨锡震集注《四声韵谱》的著录,说明抄本《四声韵谱》乃为世上唯一存本,别无二部。此书“奉旨付内阁”时应当是完整的,但后来又怎么从内阁流出,而且又如何造成缺失,恐怕是个永久的迷。
  
  参考文献:
  [1]沈约.宋书.北京:中华书局,1983.
  [2]萧子显.南齐书.北京:中华书局,1983.
  [3]姚思廉.梁书.北京:中华书局,1983.
  [4]李延寿.南史.北京:中华书局,1983.
  [5]魏征.隋书.北京:中华书局,1982.
  [6]吴?.韵补.上海:上海古籍出版社,1987.
  [7]毛奇龄.古今通韵.上海:上海古籍出版社,1987.
  [8]王士祯.居易录.上海:上海古籍出版社,1987.
  [9]永?,等.四库全书总目.北京:中华书局,1981.
  [10]田明曜,陈澧.(光绪)香山县志.上海:上海古籍出版社(《续修四库全书》)本,2003.
  [11]封演.封氏闻见记.北京:中华书局,1985.
  [12]纪昀.沈氏四声考.北京:中华书局,1985.
  [13]王弘撰.山志.上海:上海古籍出版社2003.
  [14]王应麟.困学纪闻.北京:中华书局,1985.
  [15]毛奇龄.西河集.上海古籍出版社,1987.
  [16]戴震.声韵考.上海:上海古籍出版社,2003.
  [17]朱彝尊.曝书亭集.上海:上海商务印书馆,1919.
  [18]中国古籍善本书目.上海:上海古籍出版社.1991.
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

相关热词搜索:明日黄花 情报 检索 情报检索语言不是“明日黄花” 情报检索语言不是明日黄花 情报检索语言

版权所有 蒲公英文摘 www.zhaoqt.net