浅谈web信息抽取
发布时间:2020-10-26 来源: 调研报告 点击:
浅谈 web 信息抽取
摘要:文章阐述了 web 信息抽取的定义、抽取过程、Web 信息抽取方法的分类,并指明了 web 信息抽取的应用领域和发展方向。论文关键词:web 信息抽取,自然语言,包装器,web 查询,抽取对象 一、什么是 web 信息抽取 Web 信息抽取是指从 Web 页面所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式的 Web 页面信息抽取的过程[1]。
二、Web 信息抽取技术涉及的内容 因特网提供了一个巨大的信息源。这种信息源往往是半结构化的,并且中间夹杂着结构化和自由文本。网上的信息还是动态的,包含超链接,都以不同的形式出现。
信息抽取的内容一般可以分为这样几个方面:
命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。
信息抽取的方法主要可以分为以下两类:一类是基于层次结构的信息抽取归纳方法,另一类是基于概念模型的多记录信息抽取方法。
Web 信息抽取工作主要包装器(Wrapper)来完成[1]。包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络中 Web页面的信息数据抽取出来,转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程序对实际要抽取的数据源进行抽取。
抽取过程一般包括以下几个步骤[2]:
1. 将 Web 网页进行预处理。预处理的目的是将半结构化 HTML 页面去掉无用的信息以及对不规则的 HTML 标识进行修正,为下一步标记信息做准备。
2. 用一组信息模式描述所需要抽取的信息。通常可以针对某一领域的信息特征预定义好一系列的信息模式,存放在模式库中供用户选用。
3. 对文本进行合理的词法、句法及语义分析,通常包括识别特定的名词短语和动词短语。
4. 使用模式匹配方法识别指定的信息模式的各个部分。
5. 进行上下文分析和推理,确定信息的最终形式。
6. 将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
三、Web 信息抽取方法的分类 把所有网页都归入半结构化文本是不恰当的。若能通过识别分隔符或信息点顺序等固定的格式信息正确抽取出来,那么该网页是结构化的。半结构化的网页则可能包含缺失的属性,或一个属性有多个值,或一个属性有多个变体等例外的情况。若需要用语言学知识才能正确抽取属性,则该网页是非结构化的。
网页的结构化程度总是取决于用户想要抽取的属性是什么。通常机器产生的网页是非常结构化的,手工编写的则结构化程度差些,当然有很多例外。
按照 Web 信息抽取对象的结构化程度,大体上可以分为三种类型:
结构化文本。
自由文本。
半结构化文本。
根据 Web 信息抽取对象划分,可以分为三种类型[2]:
1. 从自由格式的文本中抽取出所需要的信息内容。自由文本的抽取技术可分为三类: a. 基于自然语言处理(NPL)的方式。
b. 基于规则的方式。
c. 基于统计学习的方式。
2. 从半结构化的文本中,抽取出所需要的信息内容。
3. 从结构化的文本中抽取出所需要的信息内容。
根据自动化程度可以分为 人工方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取三大类。
根据现有 Web 信息抽取系统和模型实现原理的不同,分为以下几类: 1. 基于归纳学习的信息抽取[2]。通过对若干个待抽取实例网页进行结构特征学习,归纳出抽取规则,然后使用抽取规则自动分析待抽取信息在网页中的结构特征并实现信息抽取。采用这种原理的典型的系统有 STALKER,SOHTMEALY,WIEN。
2. 基于 HMM(Hidden Markov Model)的信息抽取[3][4]。是最近几年应用最广泛的抽取知识表达模型。它是一种随机的有限状态自动机,由
于 HMM 有成熟的学习算法和坚实的统计基础,所以在信息抽取中是一种成功的模型。
3. 基于特征模式匹配的信息抽取[2]。通过大量学习实例,归纳学习出待抽取信息的语法结构模式,并根据这些模式从待抽取网页中抽取出相匹配的信息,适用于复杂结构信息的抽取。
4. 基于网页结构特征分析的信息抽取[2]。将 Web 文档转换成反映HTML 文件层次结构的解析树,通过自动或半自动的方式产生抽取规则。采用该类技术的典型系统有 LIXTO[5]等。
5. 基于 Ontology 的 Web 信息抽取[7][8]。本体的构建是这类抽取的基础与核心,如何构造出良好的面向应用领域的 Ontology 对提高信息抽取的精确度有直接的影响。该方法主要是利用对数据本身的描述信息实现抽取,对网页结构依赖较少。由 Brigham Yong University 信息抽取小组开发的信息抽取工具中采用了这种方式,另外 QUIXOTE 也采用了这种方式。
6. 基于自然语言处理(Natural Language Processing,NLP)。这类信息抽取主要适用于源文档中包含大量文本的情况(特别针对于合乎文法的文本),在一定程度上借鉴了自然语言处理技术,利用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取[2][7]。目前采用这种原理的典型的系统有 RAPIER,SRV,WNISK[5]。
7. 基于 Web 查询的信息抽取。将 Web 信息抽取转化为使用标准的Web 查询语言对 Web 文档的查询,具有通用性。采用该类技术的典型的系统有:Web-OQL 以及自主开发的原型系统 PQAgent[2]。
四、国内外 Web 信息抽取技术的研究和应用[2][5][6][9] 自 80 年代以来,国内外许多大学、公司和研究机构对信息抽取技术展开了有计划的、长期系统的研究与应用工作,取得了一些成果并有许多相关的应用。也使信息抽取研究蓬勃开展起来,这主要有两个因素对其发展有重要的影响:一是在线和离线文本数量的几何级增加,另一个是“消息理解研讨会”(MUC,Message Understanding Conference)从 1987 年开始到 1998 年共举行了七届会议对该领域的关注和推动。MUC 由美国国防高级研究计划委员会(DARPA,the Defense Advanced Research Projects Agency)资助,其显著特点并不是会议本身,而在于对信息抽取系统的评测。近些年来,信息抽取技术的研究与应用更为活跃。
在研究方面,主要侧重于以下几方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB 信息抽取(Wrapper)以及对时间信息的处理等等。
在应用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强大的信息服务系统。
至今,已经有不少以信息抽取技术产品为主的公司出现,比较著名的有 Cymfony 公司、Bhasha 公司、Linguamatics 公司、Revsolutions 公司等。
热点文章阅读