Web文本挖掘及可视化
发布时间:2018-06-27 来源: 历史回眸 点击:
摘要: 文本挖掘和文本可视化是计算机中重要应用技术,能够形象地高度概括文本信息中的核心内容,方便人们快速地理解和吸收文本中的核心思想。本文阐述文本挖掘预处理简要处理流程,然后阐述使用R软件进行文本挖掘,实现词项聚类、文本聚类、绘画词项云图、词项网络图等,找出其中隐藏的文本信息,并以可视化方式展现出来。最后对文本挖掘和文本可视化技术进行总结和展望。
Abstract: Text mining and text visualization are important application technologies in computers. They can summarize the core content of text information highly and help people quickly understand and absorb the core ideas in the text. This article elaborates the brief processing flow of text mining preprocessing, and then elaborates the use of R software for text mining, and implements term clustering, text clustering, drawing term cloud diagrams, term network diagrams, etc., to find the hidden text information, and visualize it. Finally, it summarizes and prospects text mining and text visualization technologies.
关键词: 预处理;分词;文本聚类;文本可视化;词云
Key words: preprocessing;word segmentation;text clustering;text visualization;word cloud
中图分类号:TP319 文献标识码:A 文章编号:1006-4311(2018)14-0216-03
0 引言
文本无处不在,是信息交流的主要传媒之一。Web文本挖掘是指从大量非结构化、异构的Web文档的集合中发现有效的、潜在可用的及最终可理解知识的过程。Web文本挖掘可以对 Web上文档内容进行关联分析、分类、聚类等。互联网时代,如何利用文本挖掘技术,从大量半结构化文本数据中抽取关键信息、提升理解速度等,这是一个复杂的综合性研究课题。文本可视化技术综合了文本分析、数据挖掘、数据可视化等学科的理论和方法,为人们理解复杂的文本内容、结构和内在的规律等信息的有效手段,旨在最大程度的实现抽象与概括海量的文本信息,方便用户快速理解和吸收文本的主要内容。
本文所要处理的数据文本源,已在前阶段研究工作中完成,已经将处理后的花语文本存储到MySQL数据库中。本文使用R软件实现文本预处理、词项聚类、文本聚类和文本可视化等。
1 文本预处理
数据分类有按花材分类、送花对象分类和送花用途分类。在本文中,“玫瑰+恋人+爱情”表示为选取花材为“玫瑰”,送花对象为“恋人”,送花用途为“爱情”的花语文本。“康乃馨+父母+节庆”表示为选取花材为“康乃馨”,送花对象为“父母”,送花用途为“节庆”的花语文本。
对文本预处理,需经过如图1所示的若干流程:读取花语文本数据、中文分词(加载自定义词典)、去除停用词等、转换文本表示、构建词项-文档矩阵。中文分词是中文文本挖掘研究的基础与难点,中文分词的准确与否,关系到能否准确识别语句含义,直接影响文本挖掘结果的分析。分词后词项数量过多,还需进行词项降维、去除无意义词语。文本预处理部分使用R软件中的jiebaR包相关函数进行处理,其中函数worker进行中文分词处理,函数filter_segment剔除停用词,达到过滤分词结果的效果。
2 聚类分析
聚类是将数据划分到不同分类的过程,从很多文档中把内容相似的文档聚为一类,同类中的对象有很大相似性,而不同类间的对象有很大相异性。
根据前文分析的结果,百合和康乃馨的产品频数大致相近。另外,百合主要是送给恋人对象,而康乃馨主要是送给父母对象,选取这两种花材的花语进行聚类分析,以探究在花材送与对象表达的情感不同时花语表达的主题内容。
2.1 词项聚类
选取“百合+康乃馨”花语,删除稀疏词项,使用函数hclust对词项层次聚类,树状图被划分为3个簇,绘制如图2聚类图。
图2中,母亲、母亲节词语被分到同一组中,表达了送与父母的主题;健康、朋友词语被分到同一组中,表达了送与朋友的主题;而岁月、关怀、周年纪念、烂漫、真挚等词语被分到一组,表达了送与恋人的主题。卖家在配置花语上,送与不同的对象所表达的主题也不相同,验证了百合花主要送与恋人与朋友,康乃馨主要送与父母与朋友。
2.2 文本聚类
选取“玫瑰+康乃馨”花语,对分词后的花语文本进行k-means聚类,使用函数kmeans将花语文本划分为3个簇,具体的聚类分组和每组频繁词项如下:
由上述簇和词项可知,每个簇都围绕着一个明确的主题。卖家对百合、康乃馨產品设置的花语中,簇1与朋友、友情有关,簇2与恋人、爱情有关,簇3与父母、节庆有关。卖家对百合、康乃馨产品主要表达三个主题,分别是爱情、亲情和友情。
热点文章阅读