欧莱雅网络营销策略【基于语义模型的数字图书馆知识组织信息抽取策略】

发布时间:2020-03-07 来源: 人生感悟 点击:

  [摘要]简述语义模型是实现数字资源语义关系形式化描述的方式,是数字图书馆知识组织语义互联的重要影响因素。作为数字图书馆知识组织语义互联的重要环节,信息抽取需要本体提供语义知识依据,同时产生的文档也可以作为设计和丰富本体的知识资源。构建数字图书馆知识组织语言联的语义模型以“元数据、领域本体、桥本体、本体解析体系”为核心要素,在此基础上探讨信息抽取的策略。
  [关键词]数字图书馆 语义模型 信息抽取 本体
  [分类号]G250.76
  
  1 引言
  
  语义是指“数据(符号)”所指代的概念的含义以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示。语义通过两种途径产生:①人类赋予;②通过计算模型产生。通过第二种方式产生的语义可以被计算机理解和处理,可以被获取、传递、共享。根据实体资源(如文本和图像)来产生语义或挖掘出信息所蕴含的隐性语义是一个挑战性的任务。基于统计的聚类分析、共词分析、信息抽取和挖掘技术可以帮助实现语义的自动抽取。实现的关键在于建立一个语义模型,该模型既适用于显式语义,又适用于通过显式语义挖掘推导出隐含语义。语义模型是通过模型作为媒介来实现数据语义关系形式化描述的一种方式。基于本体的语义模型是通过以本体为核心的模型作为媒介,实现数字资源语义关系形式化描述的一种方式。本文基于本体构建了语义模型,并基于该语义模型探讨数字图书馆知识组织过程中信息抽取策略。
  
  2 信息抽取与本体
  
  信息抽取是从分布的、异构的文本中提取出特定的事实信息,将其中隐含的语义提取出来并以更为结构化、更为清晰的形式表示,为用户使用提供便利。信息抽取与语义标注总是融合在一起、互相支持的;信息抽取需要在语义标注的基础上进行,语义标注的内容是经过信息抽取提取出来的。因此,目前对于信息抽取研究离不开对抽取对象的语义分析和描述。语义分析与描述技术的研究热点是本体技术。
  
  本体是对面向计算机语言的、已被组织的知识的描述,而信息抽取是面向自然语言,分析文档表达的事实和从这些文档中提取相关信息片段。信息抽取和本体是相辅相成的:作为抽取相关信息的理解程序,本体被用于信息抽取,是信息抽取的语义知识依据;信息抽取可以丰富本体,因为信息抽取出来的文档可以作为设计和丰富本体的知识资源。
  这两方面的任务被结合在循环中(见图1)。本体可以有效地、准确地、解释信息抽取出来的数据,而信息抽取从文档提取出来的新知识可以整合进入本体从而丰富本体。
  
  2.1本体对信息抽取的支持
  在抽取过程中,本体知识对文档的语义解释具有重要作用。
  本体对领域概念以及概念的多种形式进行了规范性说明,因此在信息抽取中可以用来进行字符串的语义分析,进而进行概念识别;在信息抽取过程中,需要领域本体对文档中实体名称进行识别与分类。本体中的类可以对信息抽取文档进行概念识别、语义标注和概念规范。
  本体的概念层次结构。传统信息抽取的重点是使用同义词集而不是层次关系。例如,在wordNet中,同义词集可以用于语义标注和消歧,但上下类关系还需要本体参与。本体中包含的语义类型或语义的层次关系,有助于通过抽取内容进行推理和忠实释义。
  更先进的信息抽取系统也需要利用领域本体的概念节点、概念节点的属性和相互关系予以描述。本体中的概念与属性值能够清楚地描述信息抽取对象的本质。对于文档中抽取对象的分析既能提高自然语言处理,又能指导概念框架的实体构成,而相应的规则即是基于短语模型,更多是基于语义分析的。
  领域概念模型。领域概念模型本身用于推理,它能合并不同表现形式的同一概念,并且能够揭示出隐含的语义。
  
  2.2信息抽取对本体的丰富
  本体构建一直是公认的语义进程中的瓶颈,而信息抽取有助于本体构建。已经提出各种方法用于语料库的建设以利于本体构建,如基于规则的信息抽取即是对本体构建方法的补充。基于推理规则抽取出基本数据,通过已有本体对该数据进行概念及概念关系分析,在此基础上将数据中新的概念或概念间的新关系整合到本体。
  实体命名抽取:实体命名通过在本体中以实例的形式表示。从这个角度看,需要自动地不断地为本体增添一些热门领域的实体名称。而信息抽取被广泛应用于识别和分类文档、网页、数据库等中的实体。
  关系抽取:在结构化本体中,概念与概念之间存在着语义关联。目前从文档中获取本体关系的方法主要有三种:基于共词分析方法、基于知识库方法和基于信息抽取模式方法。信息提取模式方法提升了前两种方式:第一种方法需要对基本关系类型进行解释,而信息抽取中的规则就是特色化关系;第二种方法原有的知识可以帮助设计一个提取规则。
  信息抽取通过本体进行基于领域的语义分析,提升信息的语义性,为智能检索打下基础;本体通过信息抽取不断学习,不断演化,解决本体构建的瓶颈问题。鉴于此,本文基于本体构建数字图书馆知识组织语义互联的语义模型,利用语义模型探讨语义互联实现过程中各个重要环节的策略,进而最终完成数字图书馆知识组织的语义互联。
  
  3 数字图书馆互联的语义模型
  
  语义模型是对内容语义、语义类型及语义关系进行描述和组织的机制,它试图在用户的信息需求和信息资源之间搭建一座桥梁,将两者灵活而有机地结合起来,从语义的角度来解析信息资源,进而从互理解的角度来提升用户检索的准确度和召回率,更好地满足用户的信息需求。语义模型是影响数字图书馆知识组织语义互联的核心要素。本文构建了以元数据、领域本体、桥本体和本体解析体系为组成要素的语义模型,利用语义模型实现数字图书馆知识组织过程中的数字资源、用户需求表达的语义解析,完成数字图书馆用户交互层、内容管理与功能层、内容层之间的语义映射。其中,元数据进行资源的标准化描述,领域本体进行概念以及概念之间关系的语义标注,桥本体用于资源之间语义聚合,本体解析主要解决本体的具体效用发挥的方式,如图2所示:
  
  3.1元数据
  元数据是数字图书馆用来解决语义互联的重要基础工具。数字图书馆由资源构成,而资源是可以被标识的。元数据提供了对资源各种属性的描述。元数据通过定义数字图书馆中资源的信息结构以及定义由数字对象构成的资源库的组织结构,决定着数字图书馆知识组织和知识服务方式。元数据发展比较成熟,已经形成完整规范的元数据体系,包括元数据格式、元数据标准、元数据方案、元数据应用纲要、元数据注册系统等等,这些为数字图书馆知识组织语义互联打下了基础。
  
  3.2领域本体
  领域本体是知识组织体系中重要组成部分,其目标是捕获相关领域的知识。领域本体是对领域内共享概念模型的明确的形式化的规范说明;概念以及概念之间的关系是经过精确定义的,提供了对领域知识的共同理解与描述,能够为计算机所使用并可用数学方 式表达。在领域本体技术驱动下,信息资源以全新方式进行组织,组织原理发生如下改变:①从用户可理解到机器可理解;②从信息描述到知识表现;③从语义隐含到语义揭示;④从“以概念为中心”到“以概念一关系为中心”;⑤从信息表示到智能推理。这些变化要求知识组织理论、形式、方法、技术、体系以及知识组织过程都要随之改变,实现对资源从语法层面向语义层面深入,最后直至语用层面的组织,在获取、表示、加工、存储、重组、提供、共享、利用、控制等知识组织过程中,充分体现语义性,在数字图书馆系统的各层之间,在用户、资源、服务之间,形成语义互理解和互操作。
  
  3.3桥本体
  桥本体是一种特殊的本体,完成不同领域本体概念之间关系的映射,进而实现本体整合,形成领域内的共享本体。桥本体记作Obridg。,可以用一个六元组表示:
  Obridge={cb,Acb,Rb,Arb,hb,xb}(1)
  其中,cb表示桥本体概念的集合,Acb表示桥本体概念所对应的属性集的集合,Rb表示桥本体之间关系的集合;Arb是桥本体之间关系所对应的属性集的集合,Hb代表了概念的层次结构,xb是一系列公理集合。
  在概念上,桥本体具有四层树形结构(见图3):第一层是最普遍的概念,标记为T;第二层具有概念桥和关系桥两个概念,它们分别表示了两种不同的桥关系;第三层由10种不同类型的子类桥组成;第四层是一系列动态创建概念的集合,它们的属性描述了不同本体之间关系的信息。其中上面三层是固定的,称之为静态层,第四层的概念是根据已知的多本体动态产生的,为动态层。
  
  3.4本体解析体系
  数据存储模式的选择直接影响使用的效率。本体是系统多层之间语义联系的纽带,因此本体、桥本体的存储方式影响数字图书馆知识组织和知识服务的质量。本文选用的本体描述语言为W3C推荐的OWL,将其存储到关系数据库。关系数据库存储本体既有缺点,对本体含有的丰富语义缺乏精准的表现,又有无可比拟的优点。已有文献对本体到关系数据库模式映射进行了详尽的阐述,在此仅谈及桥本体的解析。
  根据桥本体的概念结构和关系数据库的形式化定义,下面给出它到关系数据库模式的映射规则。
  以桥本体建立数据库,取名为database-brid―geO。
  桥本体中的十个桥关系分别为桥本体的子类,分别以这十个桥关系建立十张表,表名为table―Bcequal、table_BCdifferent、table_BCisa、table_Bcinstan―ceof、table BCoverlap、table BChasa、table_Beopposed、ta-ble_BCconnect、table_BRsubsume和table_Brinverse。
  将桥本体的属性映射为各个表的属性,属性类型为字符型;各表属性个数并不相同,主要包括三类:一类表示具有该种桥关系的两个领域本体的名称;一类表示具有该种桥关系的领域本体的类名称;一类属性代表该类所对应表的地址。
  属性值分别取值为领域本体名、领域本体中类名和类对应的表名。
  不同领域本体概念之间的关系构成表中的记录。
  表中的主键为复合主键,由不同领域本体名称和不同概念名称组合而成。
  
  4 基于语义模型的信息抽取策略
  
  抽取对象是异质的、异构的、多语种的、半结构化甚至是非结构化的,并且可能存在着语义模糊、语义缺失,因此对抽取对象实体命名识别、实体间关系的识别变得更加困难,需要多种技术协作完成。语义模型能有效协助信息抽取:利用元数据对数字信息资源和用户信息资源进行规范化描述,利用领域本体集和桥本体实现数字资源和用户信息资源语义关系形式化描述,而语义模型中本体解析体系为信息抽取为利用本体提供了途径。因此,利用语义模型可以有效地进行实体命名识别和信息抽取规则制定。基于规则进行信息抽取能有效过滤掉噪声,增加新的结构信息。大体过程如图4所示:
  
  4.1数据采集和数据清洗
  通过各种数据采集工具对数据库、文档和网页进行数据采集。数据库中的数据是结构化的,采集相对简易;而文档和网页结构各异,先将它们抓取入系统;数据清洗目的是对有信息价值的各种数据通过处理产生纯文档。首先对抓取的原始数据进行结构分析,去除噪声,分析数据是表结构、文档结构还是网页结构,网页结构是内容型网页还是表单型网页,并对各种结构进行识别剥离;然后进行内容分析,例如网页中的广告、图像、版权信息等等;最后对用户关心的信息内容进行提取,产生待处理的纯文档,如图5所示:
  
  4.2文档预处理
  文档预处理的任务是自然语言处理,将文档处理切分为待处理的词汇和信息单元。首先将待处理的纯文档进行词语切分和词性标注,取出分词结果中的名词和动词;然后按标点符号进行短句分割,作为信息单元,并以此作为信息抽取的粒度;最后对短句进行语法词法分析,并实施初次筛选,保留其中至少包含两个名词和一个动词的信息单元。该过程需要相关领域知识的术语表、词汇表、主题词表等,对分词系统中的词表进行二次加工。语义模型中的领域本体可以提供规范化的概念及概念中所涉及术语的多种形式,可以对词表进行丰富和规范,如图6所示:
  
  4.3规则生成
  信息抽取规则的生成利用了本文构建的语义模型。语义模型中的领域本体描述了概念、属性、实例以及本体内部概念与概念之间的关系,桥本体描述跨本体的概念之间的多种关系。领域本体和桥本体用OWL描述,将OWL本体映射到关系数据库,形成语义模型数据库;数据库中含有若干个表,通过表、表的属性、表的主键与外键以及属性之间的约束对本体进行解析。信息规则在此基础上生成:首先从语义模型数据库抽取类、抽取属性、抽取实例、抽取关系,对于桥本体还需要抽取表名;然后通过其解析出的本体中描述的概念、关系、层次结构等来生成三元组,再将此三元组作为信息抽取的规则存入规则库。如图7所示:
  
  4.4实体抽取
  信息抽取主要是对信息单元进行解析后,对信息单元中的名词基于语义模型中的概念和实例进行实体命名识别,充分利用本体对概念规范描述的优势,提高实体命名识别的准确性;再对信息单元重新规范,形成具有主、谓、宾三元关系的分析树。将该分析树与抽取规则三元组进行匹配,如果匹配成功则将该三元关系存入数据库中,完成信息抽取;如果匹配不成功,对该三元关系的概念与语义模型进行语义相似度计算,根据计算结果,形成本体中的新概念或新关系,添加到语义模型中,完成本体学习,丰富领域本体,如图8所示:
  基于语义模型的信息抽取有如下好处:①语义模型的引入既保证了结构的一致性,又保证了数据的一致性,使不同来源的数据都能以统一的标准进行描述和呈现,方便了信息的继承与交换,提高了信息抽取的准确率及召回率;②驱使整个信息抽取过程都直接来自于语义模型,这为利用各种各样的本体数据呈现了一条非常自然的路径;③基于语义模型的系统可以促进本体进化,丰富领域本体。
  
  5 结语
  
  本文通过探求和把握语义描述和组织的规律,构建了以元数据、领域本体、桥本体和本体解析体系为组成要素的语义模型,试图建设一种有效机制,发挥其作为数字图书馆知识组织语义互联重要影响因素的作用,在此基础上研究信息抽取策略,进而为数字图书馆知识组织语义互联理论和实践提供奠基性的方法论支持。

相关热词搜索:语义 抽取 数字图书馆 基于语义模型的数字图书馆知识组织信息抽取策略 数字图书馆知识组织策略 信息抽取技术探析

版权所有 蒲公英文摘 www.zhaoqt.net