2021年海量数据专业地理数据服务的10大发展趋势

发布时间:2020-12-25 阅读量:1082 来源:专业地理数据服务

今天,人们有很好的理由去获取更多的数据,因为数据分析推动数字创新。但是专业的海量数据专业地理数据服务。获得解决方案以应对强大的数据挑战的组织将能更好地从数字创新的结果中获益。基于这一基本前提,怎样才能更好地在2021年提供海量数据专业地理数据服务,值得关注的10大趋势是:

2021年海量数据专业地理数据服务的10大发展趋势

1.专业地理数据仍然很难

大数据地理数据的专业地理数据服务有一个非常明确的重要理念:找出大量数据中隐藏的信息模式,训练机器学习模型去发现这些模式,并将这些模型应用到产品中,使之自动运行。如果有必要,需要清除数据和重复数据。

但是,实际将这些数据投入生产比看起来更难。对新手来说,从不同的岛上收集数据是很困难的,这就需要提取、转换和装载(ETL)以及数据库技巧。清除和标记机器学习训练过的数据还需要大量的时间和成本,尤其是使用深度学习技术时。而且,要使这种系统以安全可靠的方式大规模投入生产,还需要一套额外的技巧。

正因为如此,数据管理仍然是一项巨大的挑战,数据工程师仍将是大数据团队中最受欢迎的角色之一。

2.数据孤岛不断增加

这种预测是容易的。5年前,在 Hadoop开发热潮中,人们认为所有的数据(包括分析和事务工作量)都可以被整合到一个平台上。

由于种种原因,这一理念一直未能真正实现。最大的挑战在于,不同的数据类型有不同的存储需求。关联数据库,图形数据库,时序数据库, HDF数据库,对象存储各有利弊。当开发者把所有的数据放入一个数据池中时,他们就不能最大化自己的优势。

有些情况下,把大量的数据集中到一个地方是有意义的。比如,像S3这样的云数据库为企业提供了灵活且经济有效的存储,而 Hadoop则仍然是非结构化数据存储和分析的经济有效存储。但是对大多数公司来说,这仅仅是额外的需要管理的孤岛。他们当然是重要的孤岛,但他们并非唯一。

而且,如果没有强大的集中力量,数据仓库将会继续膨胀。

3.流媒体分析具有突破的年份

企业处理新数据的速度越快,其业务就越好。它推动了实时分析或者流式分析。但是,组织一直面临的挑战是,要想真正做到这一点非常困难,而且代价高昂,但是,随着组织分析团队的成熟和技术的进步,这种情况正在改变。

新的 SQL数据库,存储数据的网格和专用的流分析平台都是围绕着要求超快处理输入数据的通用功能,通常使用机器学习模型来自动做出决定。

把它与开源式框架,如 Kafka、 Spark和 Flink中的 SQL功能结合起来,到2021年,该组织就能真正取得进展。

4.数据治理不当会造成风险

有人称这些数据为“新石油”,也就是“新货币”。不管是怎样的隐喻,人们都认为数据有价值,如果不加以重视,就会带来更大的风险。

去年欧盟颁布的 GDPR法规明确规定了数据治理不当的财务后果。尽管美国尚无类似的法律,但美国公司仍必须遵守美国联邦、各州等制定的80项数据制定授权法规。

资料泄露引起了问题。据 HarrisPoll公司在网上所做的调查,2018年有将近6千万美国人受到身份盗窃的影响。与2017年相比,这一数字增加了300%,仅有1500万人表示受到影响。

多数组织都意识到,无序发展的大数据时代即将终结。而且,许多国家和地区的政府不再容忍数据滥用和隐私泄露。

5.随着技术进步,技能也在变化

在大数据项目中,人力资源通常是最大的成本,因为员工最终会构建和运行大数据项目并使之正常运作。无论采用什么技术,寻找具备适当技能的人是将数据转换成洞察的关键。在技术进步的同时,技术组合也在变化。我们可以看到,到2021年,企业对神经网络专家的需求将会非常大。虽然 Python仍需要为 R, SAS, Matlab, Scala, Java和 C等语言进行大量的工作,但它仍是数据科学家(而非人工智能专家)所掌握的语言中的主要技能。

在开始执行数据治理计划时,对数据管理者的需求将会增加。数据工程师可以利用核心工具(数据库, Spark, Airflow等等)继续看到他们的机会不断增长。我们也可以看到企业对机器学习工程师的需求在不断增加。

但是,由于自动化数据科学平台的进步和发展,组织的一些工作可以通过数据分析员或“公民数据科学家”来完成,因为众所周知,数据和业务方面的知识和技能比统计和编程更能使组织走上大数据之路。

6.进一步深化深度学习

深度学习的发展为人工智能的应用提供了更大的动力,到2021年,这一趋势将不复存在。该组织将继续尝试 TensorFlow、 Caffe、 Keras、 PyTorch和 MXnet等深度学习框架,以实现大规模数据集的货币化。

该组织将在计算机视觉和自然语言处理等原始用例基础上扩展深度学习,并寻找新的和创造性的方法来实现强大的技术。与“传统”机器学习方法相比,大型金融机构发现神经网络更能识别欺诈行为,并将在2021年继续探索新的用例。

它还会支持对 GPU的需求, GPU是训练深度学习模型的首选处理器。是否有 ASIC、 TPU和 FPGA等新型处理器尚不清楚。但显然需要更快的训练和推理。但是,深度学习生态系统仍然会比较年轻,缺少通用平台将使它成为真正的专家。

7." Special K"扩大影响

这个软件需要运行的东西。用来提供公共基础的操作系统,但是现在开发者的目标更低: Kubernetes。

由 Google公司开发的 Kubernetes可以在云中管理和协调 Linux虚拟化容器,在 IT行业, Kubernetes已经成为大数据领域中最热门的技术之一。Kubernetes是将多云和混合部署结合起来的粘合剂,它已经变得越来越常见了。

过去写 Hadoop上运行的软件的大数据软件供应商,现在开始写运行在 Kubernetes上的软件了,这至少把他们带到了前台。对 Kubernetes软件的支持已成为包括 Hadoop在内的软件供应商的首要需求。

8.不容忽视的云计算

云的规模在扩大。全球三大公共云供应商2018年的业务增长率接近50%。云服务提供商提供了大量的大数据工具和技术,更别提用来存储所有数据的廉价存储,所以用户很难抵御云计算的诱惑。

到2021年,小型企业和创业公司将被由主要的公共云供应商提供的服务所吸引,这些供应商将投入巨资,建立提供自动机器学习、分析数据库和实时流分析服务的随时可用的大数据平台。

即便在成本上没有吸引力,大型企业也很难抵制云计算带来的好处。但是,将业务锁定在单一云计算厂商的做法使大型企业担心风险会把所有鸡蛋都放在一起。

9.将出现新技术

今天驱动创新的很多大数据框架和数据库都是由这个全球网络巨头创建并以开源应用的形式发布的。好在有可能加速技术创新。

到2021年,大数据实践者将在他们的创作中尽可能地灵活。由于性能方面的原因,将应用程序与特定的技术联系在一起可能是一种诱惑,但当这种情况发生得更好更快时,组织就会感到困扰。

尽量保持应用程序是“松耦合但又紧密集成的”,因为最终它必须被分割并重新构建。

10.到处都有智能设备

当今的智能设备到处都是,并不断搜集数据。受消费需求的驱动,智能设备以惊人的速度发展。在亚马逊 Alexa和谷歌智能助理这两个领先平台上,智能设备生态系统正在崛起,它为消费者提供机会,让他们可以从照明、暖通系统、门锁、家电等行业的各个领域,将远程访问和人工智能结合起来。

超高速5 G无线网络的面世,用户将能够与众多设备进行交互,并在任何地方提供新的个性化服务。

2021年,大数据将在许多领域取得进展。尽管大数据和人工智能的发展仍面临许多技术、法律和道德上的障碍,但这些潜在的好处是巨大的,不容忽视的。