文本可视化在新闻事件演变中的应用_什么是信息可视化

发布时间:2020-03-10 来源: 短文摘抄 点击:

  [摘要]介绍对Web空间和现实社会空间中的新闻事件演变进行可视化是一个新的研究热点。总结归纳文本可视化基本方法,并且结合成功的应用,提出应用在单个新闻事件、同时发生的新闻事件和先后发生的新闻事件上的新闻事件演变的可视化形式。指出综合利用基于词频、语义、聚类、时间序列的可视化技术是对新闻事件演变过程进行可视化展示的关键。
  [关键词]事件演变 文本可视化 新闻报道
  [分类号]G353.1
  
  1 引言
  
  近年来,很多社会事件经过网民和新闻媒体等网络传播主体的推动后,便以惊人的速度成为了网络热点,并影响着现实事件的发展,例如“周老虎”、“艳照门”、“躲猫猫”事件等。在互联网时代,这些热点问题同时置身于两个空间之内:现实社会空间及Web空间。Web空间中的网络传播对现实社会空间的热点问题形成及发展有着巨大的推动,人们不得不去思考和分析这种现象背后隐藏的复杂因素。在研究过程中往往多以新闻、博客、论坛等文本作为研究对象。
  新闻是一个特别有趣的分析领域,它对分析者和新闻读者都有启示和意义。新闻报道是在各个时间点上形成的、反映重要社会事件的文本。随着互联网的飞速发展,在网络上获取新闻报道已成为现代人的家常便饭,然而,随着海量信息的不断涌现,人们利用传统的检索和阅读方式理解大量、复杂信息的难度日益增大。更重要的是,只阅读个别新闻,甚至一组新闻报道,人们无法看到新闻背景的整体面貌。阅读报纸上的一篇文章只能得到少量信息,而人们想知道的是更关键的、相关的信息:该新闻的相关事件是怎样随时间而演变的;事件演变过程中受到哪些因素的影响;受众对该新闻是如何回应的,等等。
  然而,面对海量的新闻报道,如今还没有一个完善的机制能够协助人们在短时间内可视化地回顾某话题中许多事件的演变过程。同时,读者对新闻的回应也有助于人们了解信息的来龙去脉,而博客、论坛等正是最容易获得这类信息的平台,并且正以飞快的速度在网络社区中突起。因此可以通过研究博客等社会媒体来跟踪人们对新闻报道的注意力,发现重要的事件,并测量这些新闻报道的社会相关性。
  网络信息资源规模庞大,且新闻报道、博客文章和论坛帖子等文本都是网络上主要的非结构化数据,分析这些非结构化的文本流是可视化分析研究的长期挑战。为了迎接这个挑战,在文本可视化方法的基础上,探索事件演变和发展的可视化方法、技术和系统越来越受到人们的关注。
  
  2 文本可视化的基本形式
  
  文本可视化方法在空间上将文本信息转化成另一种视觉表示方式,并揭示出文本之间的主题模式或关系。基于词汇的文本可视化以词频统计为基础,基于篇章内容的文本可视化致力于发现文章中隐含的特定的语义关系,基于主题领域的文本可视化主要利用聚类和自然语言处理技术来获取主题,基于时间序列的文本可视化正是利用了时间这个非常重要的属性。
  2.1 基于词频的文本可视化
  文本可视化最简单的思路是将文本看作词的集合,针对一篇或多篇文本中的词汇,以词频统计方法为基础,以发现特定的词频模式(如高频词、异常词频)为目的,通过对于词汇的不同呈现来展现文本的特征。
  基于词频的文本可视化方法主要有以下特点:①更多方法是基于命名实体,而不是基于所有简单的词汇;②反映词汇在文本中的分布情况和程度;③灵活利用颜色标识来高亮特定的词频模式。
  典型的应用有Document Contrast Diagrams、TagCloud、Contexter、TileBars等,实际应用中一般都不能忽略词频这个重要属性,但是这类系统更注重于追求可视化的炫丽效果,单独采用这种方法的应用在事件演变研究中并不常见。
  2.2 基于语义的文本可视化
  基于语义的文本可视化的对象不仅仅是文本中的词汇,还需要大量高度标注的文本,并通过计算、统计、推断等技术手段,发现文本中隐含的特定的语义关系,使用户更有效地阅读和理解文本内容,其主要面向大规模的文本集。
  基于语义的文本可视化方法主要有以下特点:①表现文本的主题和核心内容;②展示文本内容的叙述思路;③反映词组在文本中的分布关系;④更适用于演讲和辩论类文本的可视化。
  典型的应用有Document Arc Diagrams、DirectedSentence Diagrams、Word Tree、Transcript Analysis、NLP-Win等,该类系统的表现形式多种多样、形态各异,除了运用自然语言处理和语义分析的技术外,还需要大量的标注,实际应用的难度和工作量都比较大。
  2.3 基于聚类的文本可视化
  基于聚类的文本可视化也是针对大规模文本集的一种常见模式,其目的是从大规模文本中发现特定的主题领域。它不是简单地考虑词频或语义,而是利用文本中出现的词语比较文本的相似性,从而产生聚类结果。
  基于聚类的文本可视化方法主要有以下特点:①反映主题领域及其主题之间的关系,并展示主题领域的关键命名实体或词组;②采用二维或三维视角,灵活运用形状来表示特定的主题模式;③多应用在信息检索、网页的链接关系分析、主题探测、学科热点、话题演变、新兴趋势发现等领域。
  典型的应用有Lighthouse、Event Organizer、News-Junkie、Topic Tracking Visualisation Tool、Topic Islands等,该类系统的成功应用取决于合适的聚类算法,高维的文本数据给聚类算法带来了不小的挑战。
  
  2.4 基于时间序列的文本可视化
  为了研究某些领域的发展趋势、演变规律,基于时间序列的文本可视化方法利用了时间这个最重要的维度来完成特定的分析任务。以上三种文本可视化方法一般都结合文本的时间关系进行可视化,其可视化的主要对象一般是大规模文本集。
  基于时间序列的文本可视化方法主要有以下特点:①时间轴是该类系统的最佳特征,它提供了一个有效的展示形式,用户可以快速地对语料库中所包含的信息进行生动地浏览;②常结合基于词频、聚类的可视化方法一起使用,着眼于主题如何随着时间而变化;③灵活利用流体形状反映特定的时间模式。
  典型的应用有TimeMines、NameVoyager、ThemeRiver、Theme Mountain、History Flow等。选取合适的时间片段是事件演变研究中的关键环节。30新闻事件演变的可视化形式
  基于以上4种基本的文本可视化方法的综合运用,已经出现了一些面向新闻报道、博客文章和论坛帖子等大规模文本数据,以探索新闻事件演变为目标的可视化技术和系统。
  3.1 单个新闻事件的内容演变可视化
  某些话题只包含单独的新闻事件,事件本身的内容演变过程是值得人们关注的,比如一场交通事故发生之后的调查、取证、开庭、审判的发展过程。分析某 话题下的单一事件,如今典型的系统一般使用聚类方法识别话题,再结合基于词频和时间序列的方法,随着时间的推移发现各时间点上人们对某事件关注程度的变化,从而推理出事件内容的演变。
  Ievent是一个交互式话题检测与跟踪系统的构想,针对单一事件的内容演变进行分析。它强调用户的交互,将命名实体、聚类和时间序列等方法有效地结合起来,支持用户识别新闻事件并且随时间推移在新闻流中跟踪查看事件内容的连续性演变。Ievent从Event Organizer中吸收了时间轴的思想,继承了Lighthouse中的聚类可视化的思想,并考虑簇的大小和密度。Ievent主要由3个视图构成:聚类视图、文档视图和命名实体视图,如图1所示:
  在聚类视图中,一个大尺寸和高密度的簇表示在短时间内拥有大量的文本,因此,如果代表某个车祸事件的聚类密度很小、尺寸很大,则表示该事件在长时间内拥有大量的文本。对其对应文档视图进行分析,在图2中我们可以发现,某起车祸事件在1月份有了新闻报道;经过大约1个月后该事件有了调查结果,网络和社会上对该事件进行了广泛的讨论;3月份的文本对该事件的调查涉及了对法律诉讼程序的谈论;最终,4月和5月的文本可能包括了舆论对案件审理以及审判结果的讨论。然而,Ievent只是一个初步构想,需要人工去分析事件的演变过程。
  3.2 并行新闻事件相关性可视化
  某些话题包含多个同时进行的新闻事件,而且多个事件之间是相关的(可以称为“并行新闻事件”)。比如某次总统竞选话题,每个候选人参与竞选是同时进行的不同事件,它们之间的相互关系会影响着竞选过程的发展。分析某话题下的相关性事件,如今典型的系统一般使用聚类方法定位话题,再结合词频识别出不同的事件,最后利用基于时间序列的方法,分析各事件在时间轴上的演变过程的相关性,从而结合事件结果发现隐藏的模式。
  Narratives是由微软Live Labs开发的基于社会流(Social Streams)体系结构的平台,其目的是帮助用户了解相关话题是如何随时间变化的。用户可以查看特定新闻事件的话题关键词,并通过时间对文章进行关联。Narratives借鉴TimeMines和In-Spire等系统,结合时间序列和聚类技术,展示了一种随着时间推移查看话题演变的独特方式。
  在Narratives中,一篇新闻报道被定义为包含多个关键词的单一事件,通过查看对新闻报道的每个回应,Narratives可以将关键词的序列可视化为一系列简单但相关的线图。过去的许多研究在很大程度上强调一个单一变量随时问而变化,而Narratives特殊的挑战是能查看多种可能有关的变量。Narratives希望随时间推移能查看话题连续性的同时,发现话题之间的相关性。
  Narratives的语料库由谈论新闻报道的博客文章组成,因此它们反映了关于某一话题的文章和对这些文章发表评论的博客。如图3所示:
  图3中的Narratives界面比较了在2008年的3个月内4位美国总统候选人的命运。从图中可以看出,每条折线图都基于相同的时间轴,并分别反映了网络上谈及4位总统候选人的程度,这不但可以让人们回顾4位总统候选人在选举期的3个月内受人们关注的程度,还进一步反映出民意支持率的走势。最终,奥巴马脱颖而出的事实除了凭借他个人的才能之外,在一定程度上也受了网络和社会舆论的影响。在下一届总统选举过程中,分析者可借助该模式并利用舆论数据来预测未来的总统。
  3.3 串行新闻事件相互关系演变可视化
  一般的话题都包含了多个新闻事件,而且更多事件的发生时间是有先后顺序的(可以称为“串行新闻事件”),本质上它们之间是相互影响、推动和演变的。比如对于恐怖袭击话题,每次恐怖袭击事件的发生有着隐藏的关系,不同恐怖事件之间进行着时间和内容上演变。分析某话题下不同事件之间相互关系的演变,如今典型的系统除了使用聚类、词频等方法外,重点结合时间序列和语义等方法,发现不同事件之间隐藏的结构,从而分析出事件演变的过程。
  自2001年9月11日纽约的恐怖袭击事件开始,世界各地遭受恐怖袭击的频率不断增涨,并受到了公众的更多关注。人们虽然可以很容易地从网络上获取成百上千个关于恐怖袭击事件的新闻报道,但对人们来说信息量太大,无法捕获所需要的信息。TDT等信息检索技术能够通过给定恐怖袭击这个话题,帮助人们根据恐怖袭击事件来组织新闻报道。但是,它们没有能力展示各事件之间复杂的发展关系。
  作为情报人员,甚至普通老百姓,人们感兴趣的是:哪些是一次恐怖袭击中的主要事件?在该话题下它们是如何发展的?这就需要确定起始事件、结束事件、种子事件以及这些事件的演变。香港中文大学的Christopher c,Yang利用时间关系、事件相似性、时间接近和文档分布接近等来识别在恐怖袭击中事件发展和演变的关系。在这项工作中,Yang针对恐怖袭击事件提出用事件演变图(Event Evolution Graph)来展示不同事件之间隐藏的结构(见图4)。
  
  图4表示了车臣恐怖分子占领别斯兰学校的恐怖袭击的事件演变图,其中一共有8个事件和11个演变关系。事件2“特别工作队攻击恐怖分析和数百人质死亡”在图中有最多的4个出链数,因此可以被认为是核心事件,并导致了一系列后续事件序列。事件6“别斯兰学校在人质被释放后恢复了上课”和事件8“俄罗斯在反恐上成功的努力”成为了结束事件,被认为是这一系列恐怖袭击事件的结局。
  台湾学者提出了一个新闻话题回顾系统,目的是透过事件主轴的摘要机制,更有效地协助新闻读者在短时间内,了解事件演变的过程。它采用的机制是检测话题中的事件并建构之间的相互关系,再以此关系摘要成一篇话题回顾的报导,作为新闻读者快速了解事件发展的文本。
  此机制主要包括三部分:事件界定、建构话题主轴、主轴式摘要。建构出的话题主轴可以提供话题发展脉络的主干,并将相关性较低的事件排除。通过找出具有代表性的语句,并以话题发展主轴为模板依据,进而构成的摘要,除了可以提供足够的信息了解话题发展,也可以作为索引,协助用户找到更多更详细的信息(见图5)。该系统非常全面地展示了从新闻报道中检测与给定话题相关的事件,并通过对文本的分析,建构出惠普并购康柏话题中的各事件发展脉络,并对每个事件生成摘要。
  然而,上述系统都只考虑了某话题的新闻报道中所涉及的事件,而没有深入探索Web空间的网络传播对现实社会空间中事件的推动和影响。
  
  4 总结
  
  随着新闻读者日常面对的新闻报道信息量不断增大,分析者有必要探索综合利用文本可视化方法来回顾某话题中各事件的演变过程,以便读者了解新闻背景的整体面貌。本文在总结归纳文本可视化基本方法的基础上,结合成功的应用,提出了应用在新闻事件演变上的可视化形式。面对不同发生情况的新闻事件,分析web空间上的新闻报道等文本数据,都可以从以上三种不同的新闻事件可视化形式中找到解决方案来可视化现实社会空间中的事件演变过程。

相关热词搜索:可视化 演变 文本 文本可视化在新闻事件演变中的应用 文本可视化研究 文本可视分析

版权所有 蒲公英文摘 www.zhaoqt.net