关于数据挖掘的一些概念

发布时间:2022-09-28 阅读量:974 来源:数据挖掘

  关于数据挖掘的一些概念,比较官方的定义就是,在大型数据存储库中,自动地发现有用信息的过程。其实就像我之前所说的,从大量的数据中,发现那个我们想要寻找到的模式。数据挖掘的一般过程包括以下这几个方面:

关于数据挖掘的一些概念

  1、 数据预处理

  2、 数据挖掘

  3、 后处理

  首先来说说数据预处理。

  之所以有这样一个步骤,是因为通常的数据挖掘需要涉及相对较大的数据量,这些数据可能来源不一导致格式不同,也许有的数据还存在一些缺失值或者无效值,如果不经处理直接将这些‘脏’数据放到我们的模型中去跑,非常容易导致模型计算的失败或者可用性很差,所以数据预处理是我们所有数据挖掘过程中都不可或缺的一步。不客气地讲,预处理这一步通常占用了我们数据挖掘过程中的很大部分时间,但的确值得我们去做,关于它的详细内容我们在下面会讲。

  至于数据挖掘和后处理相对来说就容易理解多了。完成了数据的预处理,我们通常进行的特征的构造然后放到特定的模型中去计算,利用某种标准去评判不同模型或组合模型的表现,最后确定一个最合适的模型用于我们的后处理。后处理的过程相当于我们已经发现了那个我们想要找到的模式,我们会去应用它或者用合适的方式将其表示出来。

  最后,我们再来说说数据挖掘的任务。

  前面我一直用一个词来代表数据挖掘的目标,那就是‘模式’。那具体来说,它是指啥呢?

  一种我们称之为预测任务。

  也就是说给了我们一定的目标属性,让我们去预测目标的另外一特定属性。如果该属性时离散的,我们通常称之为‘分类’,而如果目标属性是一个连续的值,我们则称之为‘回归’。

  另一种我们称之为描述任务。

  这是指我们找出数据间的潜在的联系模式。比方说两个数据存在强关联的关系,这里就得提到那个大数据经常讲的啤酒尿布的故事,通过对数据的分析,发现买尿布的男性通常也会买点啤酒,那么商家根据这个可以将这两种商品打包出售来提高业绩,虽然我个人觉得这是个编造的事实,不过可以有助于理解两个数据存在强相关。另外一个非常重要的就是聚类分析,这也是我们在日常数据挖掘中应用非常非常频繁的一种分析,旨在发现紧密相关的观测值组群,可以再没有标签的情况下将所有的数据分为合适的几类来进行分析或者降维。其他的描述任务还有异常检测,其过程类似于聚类的反过程,聚类将相似的数据聚合在一起,而异常检测将离群太远的点给剔除出来。

  以上就是关于数据挖掘的一些概念,包括它的任务,流程及任务,对这些有清晰的认识有助于在日后的数据挖掘过程中以一种标准化的形式去进行,同时可以保持非常清晰的目的性。