数据挖掘知识点整理(二)

2017-10-18 21:18:11 来源: 未知
  21. 数据挖掘定义有广义和狭义之分。
  从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。
  从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。
  22. web挖掘的含义: 针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以帮助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持。
  23. K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
  24. K-means算法的性能分析:
  主要优点:
  是解决聚类问题的一种经典算法,简单、快速。
  对处理大数据集,该算法是相对可伸缩和高效率的。
  当结果簇是密集的,它的效果较好。
  主要缺点
  在簇的平均值被定义的情况下才能使用,可能不适用于某些应用。
  必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
  不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。
  25. ID3算法的性能分析:
  ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。
  ID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。
  ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。
  26. Apriori算法有两个致命的性能瓶颈:
  a多次扫描事务数据库,需要很大的I/O负载
  对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。
  b.可能产生庞大的侯选集
  由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。a基于数据分割的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。
  27. 改善Apriori算法适应性和效率的主要的改进方法有:
  a基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。
  b基于散列的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。
  c基于采样的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。
  d其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。
  28. 面向Web的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多:
  a异构数据源环境:Web网站上的信息是异构: 每个站点的信息和组织都不一样;存在大量的无结构的文本信息、复杂的多媒体信息;站点使用和安全性、私密性要求各异等等。
  b数据的是复杂性:有些是无结构的(如Web页),通常都是用长的句子或短语来表达文档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电子表格)。揭开这些复合对象蕴涵的一般性描述特征成为数据挖掘的不可推卸的责任。
  c动态变化的应用环境:
  Web的信息是频繁变化的,像新闻、股票等信息是实时更新的。
  这种高变化也体现在页面的动态链接和随机存取上。
  Web上的用户是难以预测的。
  Web上的数据环境是高噪音的。
  29. 简述知识发现项目的过程化管理I-MIN过程模型。
  MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理,在每个步骤里,集中讨论几个问题,并按一定的质量标准来控制项目的实施。
  IM1任务与目的:它是KDD项目的计划阶段,确定企业的挖掘目标,选择知识发现模式,编译知识发现模式得到的元数据;其目的是将企业的挖掘目标嵌入到对应的知识模式中。
  IM2任务与目的:它是KDD的预处理阶段,可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段。其目的是生成高质量的目标数据。
  IM3任务与目的:它是KDD的挖掘准备阶段,数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。其目的是通过实验和训练得到浓缩知识(Knowledge Concentrate),为最终用户提供可使用的模型。
  IM4任务与目的:它是KDD的数据挖掘阶段,用户通过指定数据挖掘算法得到对应的知识。
  IM5任务与目的:它是KDD的知识表示阶段,按指定要求形成规格化的知识。
  IM6任务与目的:它是KDD的知识解释与使用阶段,其目的是根据用户要求直观地输出知识或集成到企业的知识库中。
  30. 改善Apriori算法适应性和效率的主要的改进方法有:
  a基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的”。
  b基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。
  c基于采样(Sampling)的方法:基本原理是“通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度”。
  d其他:如,动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除”。
  31. 数据分类的两个步骤是什么?
  a建立一个模型,描述预定的数据类集或概念集
  数据元组也称作样本、实例或对象。
  为建立模型而被分析的数据元组形成训练数据集。
  训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习。
  通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。
  b使用模型进行分类
  首先评估模型(分类法)的预测准确率。
  如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。
  32. web访问信息挖掘的特点:
  Web访问数据容量大、分布广、内涵丰富和形态多样
  一个中等大小的网站每天可以记载几兆的用户访问信息。
  广泛分布于世界各处。
  访问信息形态多样。
  访问信息具有丰富的内涵。
  Web访问数据包含决策可用的信息
  每个用户的访问特点可以被用来识别该用户和网站访问的特性。
  同一类用户的访问,代表同一类用户的个性。
  一段时期的访问数据代表了群体用户的行为和群体用户的共性。
  Web访问信息数据是网站的设计者和访问者进行沟通的桥梁。
  Web访问信息数据是开展数据挖掘研究的良好的对象。
  Web访问信息挖掘对象的特点
  访问事务的元素是Web页面,事务元素之间存在着丰富的结构信息。
  访问事务的元素代表的是每个访问者的顺序关系,事务元素之间存在着丰富的顺序信息。
  每个页面的内容可以被抽象出不同的概念,访问顺序和访问量部分决定概念。
  用户对页面存在不同的访问时长,访问长代表了用户的访问兴趣。
  33. web页面内文本信息的挖掘:
  挖掘的目标是对页面进行摘要和分类。
  页面摘要:对每一个页面应用传统的文本摘要方法可以得到相应的摘要信息。
  页面分类:分类器输入的是一个Web页面集(训练集),再根据页面文本信息内容进行监督学习,然后就可以把学成的分类器用于分类每一个新输入的页面。
  {在文本学习中常用的方法是TFIDF向量表示法,它是一种文档的词集(Bag-of-Words)表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。这种构造二维表的方法是:
  每一列为一个词,列集(特征集)为辞典中的所有有区分价值的词,所以整个列集可能有几十万列之多。
  每一行存储一个页面内词的信息,这时,该页面中的所有词对应到列集(特征集)上。列集中的每一个列(词),如果在该页面中不出现,则其值为0;如果出现k次,那么其值就为k;页面中的词如果不出现在列集上,可以被放弃。这种方法可以表征出页面中词的频度。