1.1.3 简单网络爬虫的架构

前面已经介绍网络爬虫的两个主要任务是下载目标网页和从网页中解析信息。为了完成这两个任务,一个简单的网络爬虫就要包含图1-2所示的4个部分。

0

图1-2 简单网络爬虫的架构

URL管理器:管理将要爬取的URL,防止重复抓取和循环抓取。

网页下载器:这是下载网页的组件,用来将互联网上URL对应的网页下载到本地,是爬虫的核心部分之一。

网页解析器:这是解析网页的组件,用来从网页中提取有价值的数据,是爬虫的另一个核心部分。

输出管理器:这是保存信息的组件,用来把解析出来的内容输出到文件或数据库中。

以上4个部分是一个简单的爬虫架构,这里通过介绍简单的爬虫架构,让读者对爬虫有一个直观的印象,后面的章节将详细讲解网络爬虫架构的实现。