最新行业资讯尽在掌握
当前,社交网站、电子商务等网络服务的快速发展,使得网络服务和网络信息的规模出现裂变式增长,给大规模数据的处理带来了巨大的挑战。金融,零售,医疗,电信,航空等行业也将产生大量的数据,如何在数据挖掘中处理海量数据,提高挖掘质量和效率,是亟待解决的问题。这种记录历史信息的内在能力,使企业能够意识到,大量的数据,特别是历史数据,隐藏着很多有价值的东西。
分析历史数据对于现在和将来的商业发展都有很大的帮助。这类分析需要两个方面的支持,一是对大量数据的整理和处理,数据的数量越大,数据的种类越丰富,结果的准确性和细节也就越高;还有数据统计分析方法,根据分析业务内容的不同,所用的分析方法也不尽相同,常用的分析方法有:分类、聚合、关联等。
数据挖掘是数据分析的一个重要领域。鉴于海量数据的增长速度,国内外众多从事海量数据挖掘、知识发现的学者进行了深入研究。对于数据挖掘或者机器学习来说,海量数据的存储和处理能力是非常重要的, Google在这方面所做的工作非常有意义。
GOOGLE公司提议的 MapReduce是一个框架模型,它能够在大型计算机集群上并行处理海量数据。该方法先设置 Map函数,将输入数据转换为对应的键值对,然后通过定制 Reduce函数将这些值聚集在一起,拥有相同的键,然后输出结果。这种模型在实际应用中,大多数情况下都能用于海量数据的处理。此外,并行数据库是数据库技术和并行技术相结合的产物,是一种高性能的数据库系统,可以极大地提高关系型数据库处理海量数据的效率。
资料模型
数据模型是对信息系统中客观事物及其联系的数据描述,它是各种复杂数据关系间逻辑结构的总结图。该数据模型不仅为整个组织提供了收集数据的基础,而且还与组织中其他模型一起,准确、恰当地记录业务需求,并支持信息系统的不断发展和完善,以满足不断变化的业务需求。对任何信息系统而言,数据模型都是其核心和灵魂。
数据建模是一个定义和分析数据需求及其所需支持的信息系统的过程。所以在数据建模过程中,涉及到的专业数据建模工作,关系到企业利益和用户信息系统。
有三种不同类型的需求和实际数据库。作为概念数据模型,信息系统数据模型实质上是一组记录数据需求的原始规范技术。这些数据首先符合企业的最初需求,然后转化成一个逻辑数据模型,可以用数据库中的数据结构概念模型实现。实现概念数据模型可能需要多个逻辑数据模型。在数据建模方面,最后一个步骤是决定从逻辑数据模型到物理数据模型的数据、访问、性能和存储需求。DataModeling不仅定义了数据元素,还包括其结构及其关系。