第2章
大数据采集与预处理

千里之行,始于足下。大数据采集和预处理是整个大数据处理流程的起点。数据虽然是非常宝贵的资源,但是不对这些资源进行采集,并转化为方便存储和利用的格式,就不能充分发挥其价值。本章首先介绍大数据采集的基本概念、数据来源、采集工具和方法。采集到的数据需要经过数据清洗、数据转换等预处理,得到干净有效的数据,才能保证后继数据分析得到可靠的结果;然后介绍大数据采集和预处理的方法和常用工具,并给出了典型例子。