1.3 什么是大数据

什么是大数据(Big Data)?至今也没有一个比较权威的定义。

麦肯锡公司曾给出大数据的定义:大数据是指大小超出了常规数据库工具获取、存储、管理和分析能力的数据集合。

维基百科也给出类似的定义:大数据指的是所涉及的数据量的规模大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。

一句话,大数据就是数据量大!

大数据概念的出现,其实可以追溯到20世纪90年代。最初,大数据特指需要处理的数据量过大,其所需要的计算能力已经超出了单台计算机的处理能力,因此工程师们必须找到新的处理技术和方法,以便快速处理数据。比如,要利用上百、上千台计算机组建的集群系统,实现海量数据的分布式存储和分布式计算,这就需要新的计算系统(比如Apache的开源系统、Hadoop大数据平台系统)来实现。

随着互联网的发展,数据不仅包括保存在数据库中的排列整齐的结构化数据,也包含大量的非结构化和半结构化的数据(如网页、图片、音频、视频等),这些数据也同样蕴含着重要的信息,也属于大数据的范畴。

用数据本身的特征来定义,大数据可以理解为海量数据和复杂数据,即

然而,大数据并非一个确切的概念,就正如互联网的概念一样。互联网,不仅仅是一堆计算机网络,其中有更丰富的内涵。大数据,也不仅仅是数据量大那么简单。

当今,大数据只是一个泛称,它可以是一种应用场景,也可以是一种技术(分布式技术),还可以是一种方法(分析和挖掘方法)、一种工具(探索事物规律的工具),更是一种思维方式(大数据思维)。尽管无法给大数据下一个明确的定义,但这并不妨碍人们将这个概念应用到人类社会中的各个行业、领域中,以便解决生活、工作、商业中的问题。