常用空间分析数据挖掘及方法(一)

2017-08-31 11:04:40 来源: 未知
常用空间分析数据挖掘及方法
空间分析方法 (Spatial Analysis Approach)
  利用GIS的各种空间分析模型和空间操作对空间数据库中的数据进行深加工,从而产生新的信息和知识。目前常用的空间分析方法有综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等,可发现目标在空间上的相连、相邻和共生等关联规则,或发现目标之间的最短路径、最优路径等辅助决策的知识。空间分析方法常作为预处理和特征提取方法与其它数据挖掘方法结合使用。

  统计分析方法 (Statistical Analysis Approach)
  统计方法一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性的分析。在运用统计方法进行数据挖掘时,一般并不将数据的空间特性作为限制因子加以考虑,空间数据所描述的事物的具体空间位置在这类挖掘中也并不起制约作用。尽管此种挖掘方式与一般的数据挖掘并无本质的差别,但其挖掘后发现的结果都是以地图形式来描述的,对发现结果的解释也必然要依托地理空间进行,挖掘的结果揭示和反映的必然是空间规律。但是,统计方法难以处理字符型数据。而且,应用统计方法需要有领域知识和统计知识,一般由具有统计经验的领域专家来完成。统计方法的最大缺点是要假设空间分布数据具有统计不相关性。这在实际应用中会出现问题,因为很多空间数据是相互关联的。

  归纳学习方法 (Induction Learning Approach)
  归纳学习方法是从大量的经验数据中归纳抽取出一般的规则和模式,其大部分算法来源于机器学习领域。归纳学习的算法很多,如Michaski等的AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS, Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的一种决策树算法,由ID3算法发展而来,采用嫡来选择属性,分类速度快,适合于大数据库的学习,而C5.0在 ID3的基础上增加了将决策树转换为等价的产生式规则的功能,并解决了连续取值数据的学习问题。Han Jiawei教授等提出了一种面向属性的归纳方法 (Attribute Oriented Induction, AOI),专门用于从数据库中发现知识,通过概念树的提升对数据进行概括和综合,归纳出高层次的模式或特征。裴健等对面向属性的归纳方法进行了扩展,形成了基于空间属性的归纳方法 (Spatial Attribute Oriented Induction, SAOI)。

  空间关联规则挖掘方法 (Spatial Association Rule Mining Approach)
  挖掘关联规则首先由Agrawal等提出,主要是从超级市场销售事务数据库中发现顾客购买多种商品时的搭配规律。最著名的关联规则挖掘算法是Agrawal提出的Apriori算法,其主要思路是统计多种商品在一次购买中共同出现的频数,然后将出现频数多的搭配转换为关联规则。

  聚类方法 (Clustering Approach)和分类方法 (Classification Approach)
  聚类是按一定的距离或相似性系数将数据分成一系列相互区分的组,根据定义可以把其分为四类:基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有K-mean,K-medoids,ISODATA等。
  分类就是假定数据库中的每个对象(在关系数据库中对象是元组)属于一个预先给定的类,从而将数据库中的数据分配到给定的类中,简单的讲就是f:D→L,其中f的域D是属性数据的空间,L是标号的集合。
  分类和聚类都是对目标进行空间划分,划分的标准是类内差别最小而类间差别最大。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,而聚类则事先不知道。

  神经网络方法 (Neural Network Approach)
  神经网络是由大量神经元通过极其丰富和完善的连接而构成的自适应非线性动态系统,具有分布存储、联想记忆、大规模并行处理、自学习、自组织、自适应等功能。神经网络由输入层、中间层和输出层组成。大量神经元集体通过训练来学习待分析数据中的模式,形成描述复杂非线性系统的非线性函数,适于从环境信息复杂、背景知识模糊、推理规则不明确的非线性空间系统中挖掘分类知识。

  决策树方法 (Decision Tree Approach)
  决策树根据不同的特征,以树型结构表示分类或决策集合,产生规则和发现规律。在空间数据挖掘中,首先利用训练空间实体集生成测试函数;其次根据不同取值建立树的分支,在每个分支子集中重复建立下层结点和分支,形成决策树;然后对决策树进行剪枝处理,把决策树转化为据以对新实体进行分类的规则。

  粗集理论 (Rough Sets Theory)
  粗集理论是波兰华沙大学Z.Pawlak教授在1982年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、不完全的信息的分类分析和知识获取。粗集理论为空间数据的属性分析和知识发现开辟了一条新途径,可用于空间数据库属性表的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策和分类算法生成等。粗集理论与其它知识发现算法结合可以在空间数据库中数据不确定的情况下获取多种知识。