第1章 网络爬虫概述

1.1 认识网络爬虫

1.1.1 网络爬虫的含义

在大数据时代,人类社会的数据正以前所未有的速度增长。数据蕴含着巨大的价值,无论是对个人工作、生活,还是对企业未来的发展和创新商业模式,都有着很大的帮助。充分挖掘数据潜在价值,能帮助人们找到更合适的合作对象、更便宜的生活用品,也能帮助企业找到更好的细分市场,有针对性地为企业日后的发展提供数据支撑。数据让人们更好地掌握市场动向,更好地应对市场,产生新的合理的决策。

数据背后所隐藏的巨大商业价值正开始被越来越多的人所重视,那么数据从何而来?可以从网上找数据,但是人工提取数据效率太低,从经济角度也不可行。购买数据是一个办法,但是目前公开交易的数据少之又少,很难与多样化的数据需求匹配。因此,对很多人和企业来说,如果想获取全面、有效、准确的数据,编写爬虫抓取数据是一种明智之选,这就用到了这本书的主题——网络爬虫。

网络爬虫是一种程序,编写网络爬虫的主要目的是将互联网上的网页下载到本地并提取出相关数据。网络爬虫可以自动化地浏览网络中的信息,然后根据制定的规则下载和提取信息。

如图1-1所示,如果把互联网比喻成一个蜘蛛网,那么网络爬虫就是在网上爬来爬去的蜘蛛。简单来讲,网络爬虫主要完成两个任务:一是下载目标网页,二是从目标网页中提取需要的数据。

0

图1-1 网络爬虫示意图