空间数据挖掘中的不确定性_不确定性游戏steam

发布时间:2020-02-16 来源: 散文精选 点击:

  摘要:本文从空间数据的采集、录入、编辑、处理的过程和数据挖掘的技术层面上阐述了空间数据挖掘的不确定性,并对这种不确定性的现状进行了简单分析。   关键词:不确定性;空间数据;数据挖掘
  中图分类号:TP311 文献标识码:A
  
  近年来,空间数据挖掘与知识发现(Spatial Data Mining & Knowledge Discovery from Spatial Databases/Repositories,SDM&KDD) 已成为空间信息技术的一个重要研究领域,并已取得许多可喜的成果。目前它的研究热点包括:面向海量空间数据的挖掘算法、遥感影像数据的挖掘,以及分布式(网络) 空间数据挖掘等。然而,其中的另一个重要问题:空间数据挖掘过程及其结果的不确定性还没有引起广泛而足够的重视,相关的报道也很少。事实上,不但空间与非空间数据本身具有不确定性,在空间数据挖掘与知识发现处理的过程中也会带来一系列的不确定性,并且会不断传播和积累,从而可能导致被挖掘出来的信息、知识含有一定的误差、偏差甚至是毫无意义等。我们不能认定挖掘出来的知识都是有用的和确定性的。因此,研究空间数据挖掘和知识发现过程与结果的不确定性及其传播规律是十分必要的。
  
  1 空间数据的不确定性
  
  空间数据挖掘的不确定性的根源在于空间数据本身的不确定性。空间数据质量与不确定性是目前GIS 研究的重要基础理论之一。空间数据质量是指空间数据的渊源(lineage) 、精度(accuracy) 、完整性(completeness) 、逻辑一致性(logical consistency) 、语义精度(semantic accuracy) 、现势性(currency) 。由于难以对复杂的现实世界进行完美的表达,所以所有类型的空间数据都存在不同性质、不同程度的不确定性。本人认为空间数据的不确定性主要有两个主要类型。一方面,空间数据在测量中会产生误差。误差指观测值与其真值间的差异,具有统计意义。例如遥感影像数据,由于不同物体存在着光谱重叠,或者有混合现象,将使图象出现同物异谱或同谱异物特征,从而产生多解性。再加上在数据整理、综合过程中存在着模型和加工技术方法的不确切和局限性,又可能使这种偏差扩大,甚至给出谬误的结果,或者给决策带来失误。另一方面,空间数据的不确定性源于自然现象自身存在的不稳定性和人类对其认识的不完备性。例如,在空间关系表述“天津在北京附近”中,“附近”是一个语义上定性的模糊的概念,在不同的语义或上下文中具有不确定的定量含义;又如,在表达“这起交通事故发生在京沪高速公路上”中,交通事故发生的“点位置”在公路这条“线”上,但是具体在该线形的什么位置是不确定的;再如,随着比例尺的变化,某一地理对象在GIS中的表示也跟着变化,城市在国家地图中使用点表示,但在城市地图中就变成了面状图形。
  对空间数据的采集、解译、录入、编辑、处理和表达都会带来不确定性,而且前一阶段的不确定性又会传播给后一阶段,从而导致相当数量的不确定性积累与传播。对空间数据的不确定性的传播的研究具有重大的意义,因为不确定性的传播会不断地放大,从而导致数据挖掘的结果不准确甚至不可用。空间数据不确定性传播问题可以用式(1) 描述:
  Y (x) = Opt (D 1 (x) ,……,D m (x) )(1)
  其中Y ( ) 为GIS的分析结果;Opt(x)为m个空间数据集Di(x)上的操作。空间不确定性传播分析的原理是给定空间操作Opt()和输入不确定性数据集Di(x),观察分析结果Y(x)的不确定性。当空间分析Opt()是一个线性函数时,空间不确定性传播度量相对容易,按传统的误差传播定律即可。但绝大多数情况下,Opt()不是连续、可导,或者由误差传播定律引起的近似误差是不可接受的,因此不能直接用解析方法。Monte Carlo 模拟法可以在任意精度水平下产生Y (x) 的分布,所以它是度量空间数据不确定性传播的更实用的方法。其基本算法过程如下:
  (1) 确定每个待输入空间数据集D i (x) 的不确定性类型;
  (2) 依空间数据集D i (x) 分布的随机采样来代替原输入空间数据;
  (3) 应用空间分析;
  (4) 对每一次实现,存储其结果Y (x);
  (5) 计算所有结果的统计特征。
  
  2 空间数据挖掘中的不确定性
  
  除了空间数据的不确定性,数据挖掘的过程本身也会造成不确定性。空间数据挖掘过程可分为4个阶段:数据选择、数据预处理、数据挖掘、模式评价与知识表示。同样,在空间数据挖掘的过程中也存在相当数量的不确定性积累和传播,而且有时比空间数据本身的不确定性更为复杂。
  空间数据选择阶段的不确定性主要是指根据空间数据挖掘任务的要求,主观选择目标数据过程带来的不确定性,包括哪些数据应该被选择以及多少数据量才足够等。空间数据预处理主要包括数据清理、数据变换和数据归纳。数据清理的主要任务是填充空缺的值、识别孤立点、消除噪声和纠正数据中的不确定性。数据变换是将数据转换成适合于挖掘的形式,可采用平滑(去掉数据中的噪声) 、聚集(对数据做进一步的分析归纳) 、数据概化(用高层次的概念替换低层次“原始”数据) 、规范化(如将属性数据按比例缩放) 和属性构造(构造新的属性并添加到属性集中,以帮助挖掘过程) 等方法。在这一处理过程中,将处理掉一些不确定性,同时又可能带来新的不确定性。数据挖掘本身带来的不确定性主要是指由于挖掘算法的局限性而造成挖掘结果与真实情况的不完全一致,这是导致数据挖掘不确定性的重要原因。知识表示中的不确定性主要是指知识本身隐含的不确定性,包括随机性、模糊性和未确知性。同一知识可以用多种方法表示。不同的知识可用一种方法表示,也可用多种方法表示。空间数据挖掘所获得的知识,大都是经过归纳和抽象的定性知识,或是定性和定量相结合的知识。对这些知识的最好表示方法就是自然语言,至少在知识表示方法中含有语言值,即用语言值表达其中的定性概念。
  目前,人们对不确定性的分析和处理都是分阶段进行的,对不确定性在各个阶段之间的传播及在挖掘整个过程中对传播规律的研究还有许多难题未解决。
  
  3 不确定性的研究现状
  
  目前,人们主要使用目标模型和场模型两种方法来描述空间数据的不确定性。目标模型比较适合于表示具有明确定义的空间实体,例如一系列离散的点(测量控制点、采样点等)、线(道路、河流、边界线等)、面(地块、湖泊的范围等) 和体(规则的或不规则但有明确边界的形体等)。当然,它们也还有属性数据。在目标模型的意义中,空间对象不确定性的含义基本上是指其位置、大小、形态等的不精确性,不存在粗差。 对其不确定性或误差的度量可以采用方差、概率(分布) 来描述。场模型比较适合于表示模糊的、含混的空间对象,并且往往具有大体连续的空间。例如,污染范围、地壳中的应力分布、重力场、城市的热岛现象、森林的覆盖空间、人口分布等自然界和社会现象。遥感图象数据一般表现为场模型。在GIS 中用以表示场模型特征的空间对象的方法较多,如不规则的数据点、规则的数据点、格网、等值线和不规则三角网等。
  空间数据的不确定性处理方法包括:1)空间统计学(geo statistics)。空间统计学过去称为地学统计学或地质统计学,它是关于不确定性和有限信息条件下进行分析、评价的学科。它强调空间预计概率方向的作用,并把统计变量理解为重要的信息源,以改善在有限观测量条件下的空间属性数据预测。近10多年来,空间统计学有很大发展。运用空间自协方差结构、变异函数或与其相关的自协变量或局部变量值的相似程度来描述空间特征,对不确定性研究是很有好处的。过去,空间统计学与GIS研究未能结合起来的原因,在于实际需求还不迫切,GIS 工作者对空间统计学不太熟悉或不太感兴趣,以及空间统计学者往往不太注意对研究成果的显示和可视化。GIS技术对空间统计学研究的意义是多方面的,显而易见的。而空间统计学对GIS技术及其应用研究的价值在于能增强、改善对随机过程的处理,特别是在进行资源与环境问题的模拟和决策分析时。例如点源数据的内插处理,估计误差范围及不确定性范围,分析空间模型的误差传播规律,空间数据的约化、综合,分析空间过程,预计环境、灾害的危及带等。2) 模糊集理论(fuzzy set theory)。资源分布、环境污染及其变化往往表现为非匀质的,模糊性的。另外,在许多情况下,空间对象存在着不确定性,知道什么是可能发生的,什么是不可能发生的,但却不知道也难以构建其概率分布模型。模糊集理论有助于其研究,可作为空间统计学的补充。它在GIS 研究中的优势,如对不确定性条件下数据的选择和检索,作迭置(overlay) 分析时生成多变量分类、模糊集内插、三维表面可通视性分析等。研究表明,在许多情况下,模糊集理论的偏差比布尔SQL 法小。3) 粗集理论( rough set theory)。粗集理论是一种新的数学工具,适合于处理模糊性和不确定性数据。自1982 年由波兰数学家Z.Paw lak提出以来,在理论和应用上已取得较大发展。它是从集合论的观点出发,以知识作为对象分类的能力。若全域里的元素(对象) 具有必要的信息和知识,则通过这些信息和知识能够将其划分为不同的类型,并给出划分类型的精度。若两个元素有相同的信息,则它们不可区分,这是一种等价关系。基于此,引入成员关系、上近似和下近似等概念,并用于描述对象的不精确性或模糊性。在GIS属性值系统的研究中,上述概念是很有用的。
  
  4 总结
  
  通过分析与研究空间数据的不确定性和在数据挖掘的过程中会出现的误差,初步了解了空间数据挖掘中可能存在的不确定性。对于这种不确定性的研究,可以使我们今后在对空间数据的处理过程中有意地避免各种会出现错误的地方,同时尽量减小必然存在的误差,大大提高空间数据挖掘运算结果的准确性。
  
  参考文献
  [1]李德仁,王树良,李德毅.空间数据挖掘理论与应用[M].北京:科学出版社,2006.
  [2]史文中.空间数据与空间分析不确定性原理[M].北京:科学出版社,2005.
  [3]崔铁军.地理空间数据库原理[M].北京:科学出版社,2007.
  [4][加]韩家炜,堪博.范明,孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

相关热词搜索:不确定性 数据挖掘 空间 空间数据挖掘中的不确定性 数据挖掘用什么软件 数据挖掘的四个方法

版权所有 蒲公英文摘 www.zhaoqt.net