智能大数据是一种思维方式革命

2017-09-27 09:45:44 来源: 未知
  智能大数据是一种思维方式革命这个时代属于大数据
  简单地讲,当时无论是做语音识别、机器翻译、图像识别,还是自然语言理解的学者,分成了界限很明确的两派,一派坚持采用传统的人工智能方法解决问题,简单来讲就是模仿人,另一派在倡导数据驱动方法。这两派在不同的领域力量不一样,在语音识别和自然语言理解领域,提倡数据驱动的派比较快地占了上风;而在图像识别和机器翻译方面,在较长时间里,数据驱动这一派处于下风。

  这里面主要的原因是,在图像识别和机器翻译领域,过去的数据量非常少,而这种数据的积累非常困难。图像识别就不用讲了,在互联网出现之前,没有一个实验室有上百万张图片。在机器翻译领域,所需要的数据除了一般的文本数据,还需要大量的双语(甚至是多语种)对照的数据,而在互联网出现之前,除了《圣经》和少量联合国文件,再也找不到类似的数据了。

  在 20 世纪 90 年代互联网兴起之后,数据的获取变得非常容易。从 1994 年到 2004 年的 10 年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中 20% 左右的贡献来自方法的改进,80% 则来自数据量的提升。虽然在每一年,计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。
  数据驱动方法从 20 世纪 70 年代开始起步,在八九十年代得到缓慢但稳步的发展。进入 21 世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情,计算机已经可以胜任了,这得益于数据量的增加。
  全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点和线渐渐连成了网,或者说,数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。

  大数据更是一种思维方式革命
  在方法论的层面,大数据是一种全新的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变。
  要说清楚大数据思维的重要性,需要先回顾一下自 17 世纪以来一直指导我们曰常做事行为的先前最重要的一种思维方式一一机械思维。今天说起机械思维,很多人马上想到的是死板、僵化,觉得非常落伍,甚至「机械」本身都算不上什么好词。但是在两个世纪之前,这可是一个时髦的词,就如同今天我们说互联网思维、大数据思维很时髦一样。可以毫不夸张地汫,在过去的三个多世纪里,机械思维可以算得上是人类总结出的最重要的思维方式,也是现代文明的基础。今天,很多人的行为方式和思维方式其实依然没有摆脱机械思维,尽管他们嘴上谈论的是更时髦的概念。
  那么,机械思维是如何产生的?为什么它的影响力能够延伸至今,它和我们将要讨论的大数据思维又有什么关联和本质区别呢?
  不论经济学家还是之前的托勒密、牛顿等人,他们都遵循着机械思维。如果我们把他们的方法论做一个简单的概括,其核心思想有如下两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。这在今天动态规划管理学上还被广泛地使用,其核心思想和托勒密的方法论是一致的。

  大数据的本质
  首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性。在这个基础之上,我们就能够讲清楚大数据的本质。
  先谈谈数据量的问题。在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。

  这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。
  由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。
  大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。

  在有大数据之前,我们寻找一个规律常常是很困难的,经常要经历「假设——求证——再假设——再求证」这样一个漫长的过程,而在找到规律后,应用到个案上的成本可能也是很高的。但是,有了大数据之后,这一类问题就变得简单了。
  比如通过对大量数据的统计直接找到正常用电模式和纳税模式,然后圈定那些用电模式异常的大麻种植者,或者有嫌疑的偷漏税者。由于这种方法采用的是机器学习,依靠的是机器智能,大大降低了人工成本,因此执行的成本非常低。在美国有大量类似的报道,在各种媒体上都可以看到。

  在大数据出现之前,并非我们得不到信息直接的关联性,而是需要花费很长的时间才能收集到足够多的数据,然后再花费更长的时间来验证它,这也是过去大部分传统的企业对于细节数据的收集和处理不是很重视的原因,相比之下他们更看重经验和宏观数据。但是到了大数据时代,这些企业的观念也在慢慢转变。