第2章 爬虫基础

2.1 认识HTTP请求

2.1.1 HTTP请求的含义

1.2.1节中讲到下载网页需要实现HTTP请求,那么如何实现HTTP请求呢?在Python中实现HTTP请求比较常用的是两个库——Urllib库和Requests库。

可以简单地把HTTP请求理解为从客户端到服务器端的请求消息。也就是说,无论是真正的一个人在操作浏览器还是一个爬虫,当希望从服务器请求服务或信息时,就需要首先向服务器端发出一个请求,然后服务器返回响应,最后连接关闭,这就是Web服务的流程。

对编写爬虫来说,认识和理解HTTP请求是非常重要的,因为这关系构造爬虫请求的方法。