1.2.2 大数据的采集

大数据一般通过交易系统、互联网服务、物联网终端等进行积累,这些数据源一般是数量众多的、分散部署的且持续的。大数据采集的过程就是把原始数据加载到分布式的大数据管理系统的过程。

数据的采集一般可以分为在线采集和离线采集两种方式。

在线采集是指直接监视数据源的变化,以实时或准实时的方式将产生的新数据获取,并装载到大数据系统中。装载的过程可能是“推”模式,即数据源主动将数据写入系统,也可能是“拉”模式,即数据分发服务主动查看数据变化并获取数据。

离线采集是指定期将数据从数据源上传到大数据系统中的方式,这种方式对生产系统(即产生数据的系统)影响较小,实现难度较低,但难以实现对数据的实时分析。

对于大数据的采集,最典型的场景为物联网和互联网。

以智能电表的数据采集为例:某直辖市有约600万户家庭使用智能电表,单条记录的数据大小为100B,采集频率为96次/天。从智能电表采集的数据量一天为57.6GB(600万×1记录/次×96次/天×100B),试想如果加上未来大量的智能家电、电动汽车与储能设备等上报的信息,其数据量可能达到500GB/天,而一年的数据量可能达到数百TB,如果该城市在智能电表的基础上,又实现水表、燃气表等的自动采集,则所需采集、存储和处理的数据量还将倍增。

互联网是更常见的大数据源头。网站、电商和电信运营商等均会产生大量的日志信息,例如记录用户访问页面的情况,或商品的浏览购买记录等,网站可以直接收集这些信息。如图1-4所示,百度的平均日页面访问量(Page View,PV)达到20亿量级。

48306-00-030-0.jpg

图1-4 由alexa网站统计2017年9月百度页面访问量