蛤文化维基_从维基文化看我国词表建设
发布时间:2020-03-07 来源: 幽默笑话 点击:
〔摘要〕通过汇总我国词表建设历史成果,结合当前信息技术发展新趋势,系统地剖析维基百科迅速发展壮大的原因;提出在维基百科开放与协同工作的理念上,规划我国词表的宏观管理、多渠道来源加工体系以及词表结构设计,由此构建出我国全新的词表建设总体框架,设计词表建设及其应用服务的全新模式,并指出若干重点领域的应用示范。
〔关键词〕词表 Wiki 维基百科
〔分类号〕N99
The Chinese Thesaurus Construction ――From Point of View of Wiki Culture
Liang Bing Qiao Xiaodong
Institute of Scientific and Technical Information of China, Beijing 100038
〔Abstract〕This paper firstly introduces the great achievements of thesaurus building in China. Then, by referring to the new information technology development, it analyzes the reasons of rapidly development of wikipedia and puts forward that we should make Chinese thesaurus?management plan, create Multi-channet sources process system and design the structure of thesaurus. Based on that, the paper lastly presents the new thesaurus building framewort, designs, the new model of thesaurus building, application and service, and gives some applications of this model in several important fields.
〔Keywords〕thesaurus wiki wikipedia
Wiki[1-2]是一种超文本系统,相比较以往的虚拟论坛,它具备独特的性质:系统架构开放;信息反应及时;鼓励知识融合;强调协作创新。在新一代互联网络模式兴起之时,Wiki作为Web2.0技术的代表之一,其最成功的案例就是维基百科辞典的建设,共完成109种语言97万条目的内容建设,且用了不到4年时间。而我国《中国大百科全书》74卷收录条目近8万个,先后组织专家学者近2万名,从1978-1993年历经10余年才编撰完成。从技术角度来看,维基百科并不是一种复杂的技术,创新之处在于改变人与人之间的协作方式,更新了人们获取、处理和传播知识的途径。以维基为代表的新一代互联网知识建设重点在于其架构的开放性,并且所有人都可以参与到知识组织与建设中。它真正给人们带来的是思维方式、知识传播以及认知方式上的强烈冲击。
对照维基词表发展历程回顾我国汉语词表建设,虽然在上个世纪我国汉语词表建设取得了丰硕的成果[3],但是由于词表系统研究处于行业封闭状态,研究成果没得到广泛地应用。以下根据当前信息技术的发展趋势,并吸取维基文化的开放与协作特点,提出我国新一代词表建设的结构性框架,并指出部分重点领域应用示范。
1我国词表建设成果及现状
由表1可以看出,建国以来,特别是在上世纪80、90年代,词表建设蓬勃发展,众多行业积累了丰富的建设成果。但是从另外一个角度来分析,当词表建设的热潮期,我国计算机技术水平还很薄弱,很多建设成果没有数字转化或者不适合将来的数字化,极大地影响了成果共享和应用。此外,这些传统的词表主要依靠词组编纂委员会做系统升级和维护,大量词表只能作为印刷书籍出版,不利于网络化、数字化传播与使用,没有统一的维护工具。
在日益重视知识组织与知识服务的背景下,我国的词表建设变成了热点。但当前词表建设还面临很多问题:①词表建设资金投入严重不足,仅依靠某个行业对词表建设是不够的,况且还不能做到持续性投资;②上个世纪的词表建设成果没有数字化、网络化加工处理,存在着自动化,网络化时使用困难,造成资源浪费;③各个行业依靠各自技术实力推行词表,没有统一标准,为今后词表的共建共享造成障碍,使得跨行业词表无法使用,尽管众多研究学者都在研究跨行业、跨平台词表的共享技术,但是不具备标准规范下的众多词表,必然会给今后的共建共享带来巨大的障碍;④当前很多单位的词表建设往往当作一个工程项目来实施,造成后续维护、更新能力差,跟不上了实际词汇发展。
2新时期词表的建设与应用
虽然我国词表建设在上个世纪取得了重大的阶段性成果,但是现存的词表已不能满足人们的需要,也不能适应新时期网络化、数字化和智能化的新要求。因此需要在新形势下重新规划我国词表建设。
维基百科从开始创立到形成规模,只有几年的时间,这不是因为维基百科使用了先进的技术,而是采用了与以往不同的理念:①强调系统的开放性,允许广大人员的参与;②制订了标准规范的模版,方便各种层次人员协同创作,系统目标性明确;③维基百科是一个持续建设的项目,随着社会发展进步而不断更新。可以说,维基百科为我国词表建设提供了一个标志性的典范。
2.1国家政策导向和宏观规划
汉语词表的建设、开发应该作为一种国家行为来研究。在当前信息社会和数字化生存时代,对待我国民族语言词汇的收集、整理、保护和开发应该提高到一定的高度来认识,政府要像对待国土资源、森林资源、水资源、中国基因资源等一样看待我国汉语词汇资源。对于词表的建设,国家应该从政策上考虑:
●制定宏观建设、管理和运行制度,协调与引导各单位、各行业对词表共建共享,为共建及共享提供良好管理流程。
●在投资上,注意建设的领域和布局,避免盲目投资与重复建设,支持重点建设,并大力促进标准化及成果共享。
●适当选取若干前沿领域重点支持词表工程的应用,以点带面,全面推进词表建设和应用步伐,使得两者协调发展,互为促进。
2.2多技术、多来源的词表建设体系
任何阶段的词表建设都与当时技术条件、科学环境有着密切关系,在科学技术飞速发展的今天,需要多种来源和多种技术相结合进行词信息构建,主要有以下几个途径:
●充分融合当前已有的词表建设成果。上个世纪80、90年代,我国各行业纷纷建立了自己的词表库,由于当时条件所限,很多成果并不适应当前数字化、网络化的环境。新时期进行词表建设时,首先应该在众多已有词表建设成果中挑选具有代表性的涵盖全面的词表系统,将其纳入新词表体系之中。
●充分重视当前语料库建设(包括网络文本信息,书籍报刊文本信息等),依靠其所建立的语言统计模型对海量语料库信息进行自动汉语分词处理,做到词汇挖掘和新词发现。
●跟踪特定领域形成的词汇,将其加工、处理并纳入词表体系。例如科学技术论文中包括的关键词,都是包含各领域前沿和重点的词汇,对它们重点收录、处理与分析,对于科技发展动态以及交叉学科的发展具有重要指导作用。
●充分吸取维基百科的建设理念,建立开放的平台,供社会团体甚至个人添加或修改词表内容。采用一个开放的平台不仅为资源建设加入了众多人力资源,还为词表建设提高了社会影响力,将词表建设纳入持续发展的轨道。
2.3技术先进、内容丰富的词表结构设计
良好的词表结构和内容设计关系着词表使用前途与社会效益,应全面加以研究及评估,主要包括:
●词表应采用分类法和主题词法一体化的架构,既能按照学科分类为基础,对词的概念从总到分,层层隶属的组织和排列,形成上下级隶属关系与同级概念并列关系的体系结构;还能在揭示内容以及检索分析时,根据逻辑概念和知识分类进行有效关联。
●词表内容设计中应包含多种语言词汇的对照与映射关系。在建立中文词内部逻辑关系时(如同义、反义、逻辑关系),同时也完成其他语种的对应链接工作及语义级逻辑的归纳。
●将本体研究技术与词表建设相结合,通过本体的概念和角色的规范化与结构化,为词表提供类属视图及结构化模式[4]。此外,针对当前已存在的一体化兼容词表的类目与主题词,建立规范的逻辑转换。
●规划多项辅助词表的建设,完善禁用词、关键词、同义词和反义词等多种词表工具;并且建立完备的多种索引机制,提高词表的使用性能与效率。
●全面设计词表的接口,做到标准化、模块化。词表的接口设计完备,既可以方便用户从高层应用角度访问词表内容,又可以将自身作为一个工具或组件嵌入到其他项目业务应用领域中,完成业务级底层调用。
2.4词表的应用与维护体系建设
现代词表是一个不断建设和发展的事物,是一个集成―服务―再集成―再服务的循环过程,词表永远没有建设完毕的时刻,期待词表建设完毕再向社会提供服务是不切实际的,它不是某一项具体工程建设任务,需要持续地建设和发展。词表的运行服务体系如图1所示:
图1 词表应用服务平台体系结构
由图1可见,词表应用服务分为词表加工,服务系统平台和词表应用三个部分,主要遵从以下要点:
●构建维基式的开放词表服务平台,面向社会团体和个人开放,系统通过维基词表类似的权限管理系统与版本恢复机制完成对词表内容的版本维护。除此之外,系统可以依托计算机信息处理技术发展,对于语料库及科技论文关键词等特定信息源数据作批量转换处理,由此构成的词表信息库全部面向互联网开放,接受社会团体或个人的维护。
●在新的词表应用服务平台体系结构下,词表库结构设计应该全面,内容布局合理,具有明确的分类和索引。
●充分保护已有的词表建设成果,开发专用的转换器,将其纳入到新词表体系中。
●充分采用信息处理技术的最新研究成果,通过学术论文关键词处理加工、语料库词汇统计技术、人工智能分词技术[5-6],引入新词并全面构建词间的逻辑关系。
●在词表的应用中,系统将提供两种接口:一种是高层的web应用,该接口可以使其他的web应用系统随时调用当前词表平台的服务;另外一种是底层的嵌入式工具,词表系统应开发一个组件式底层嵌入工具,将词表工具无缝地嵌入到其他应用服务系统的业务处理流程中,从而为词表的广泛应用提供坚实的技术支持。
2.5 词表的重点应用领域
词表的建设与应用应该是同步的,只有这样才能使词表不断发展壮大,在不断完善服务的同时还能扩大社会影响力。因此,进行词表建设的同时还要重点开发其在若干领域的应用,以引起国家和社会各部门的关注,只有这样,众多行业才能相继聚拢在统一的平台下。词表建设不是信息情报分析部门的责任,而是社会各行业的共同责任。词表应该优先完成以下领域的应用示范:
●每年定期发布各个科技研究领域或者相关行业的热点主题词和最新产生的词汇。
●定期根据主题词的演变过程归纳重点行业的科技发展研究趋势。
●开发词表底层应用组件,按行业、领域定制组合,可方便地嵌入到各个行业知识检索与知识管理中,这关系着词表能否真正产生社会效益。
●建立词表的高层集成加工平台,方便各个行业团体或个人的协作开发建设,为社会团体、企业提供共建共享服务。
3结语
Wiki不是深奥的技术,而它的深刻内涵是将一群平常的人聚合在一起,做成了不平常的事情。同理,在词表建设过程中亦是如此。
词表建设是一项国家基础性建设工程,是我国自主驾驭汉语知识能力强弱的里程碑,它的建成对于我国科学技术研究、社会文化研究都将产生难以估量的重大影响。但是应该清楚地看到:建成具有全面设计体系,完善管理功能,自主运行能力的一整套汉语词表体系工程需要政府、研究机构、企业等众多社会机构的参与,这是一项庞大的系统工程,需要政府以及全社会站在国家和民族利益的高度来衡量与规划,也只有这样才能使汉语词表真正得以顺利持久地建设,并将对我国信息化建设产生巨大的推动作用。
参考文献:
[1] 陈立.Wiki:网络时代协同工作与知识共享的平台.中国信导报,2005(1):51-54.
[2] 李纲.基于Wiki的组织内部知识共享.江西社会科学,2006(7):50-53.
[3] 常春.叙词表编制历史、现状与发展.农业图书情报学刊.2002 (5):25-28.
[4] 张哲.利用本体和主题词表的集成构造RDF模式.微机发展.2004,14(3):87-92.
[5] 黄科.基于统计分词的中文网页分类.中文信息学报.2002,16(6):25-31.
[6] 张永奎.基于机器学习的网页主题词自动抽取.计算机应用.2003, 23(3):1-3.
〔作者简介〕 梁冰,男,1974年生,工程师,发表论文10篇;
乔晓东,男,1964年生,研究员,发表论文30余篇。
相关热词搜索:词表 看我 建设 从维基文化看我国词表建设 维基百科特点分析 维基百科中文网站
热点文章阅读