- Python网络爬虫实例教程(视频讲解版)
- 齐文光
- 10字
- 2025-03-29 00:29:35
1.2 Python网络爬虫技术概况
1.2.1 Python中实现HTTP请求
本节主要介绍Python中都有哪些库和框架可以帮助我们实现网络爬虫。这里要特别说明一点的是,本书的代码和程序全部是在Python 3.6.3版本中实现的,也可以直接在Python 3的其他版本中运行。虽然大部分代码在Python 2中也可以运行,但并不推荐读者使用Python 2,毕竟Python 2已经成为过去,Python 3才是未来。
前面已经介绍,网页下载器是爬虫的核心部分之一,下载网页就需要实现HTTP请求,在Python中实现HTTP请求比较常用的主要有两个库。
一是Urllib库。Urllib库是Python内置的HTTP请求库,可以直接调用。
二是Requests库。Requests库是用Python语言编写的,基于Urllib,采用Apache2 Licensed开源协议的HTTP库。它比Urllib更加方便,使用它可以节约我们大量的工作,完全满足HTTP的测试需求。Requests是一个纯Python编写的、简单易用的HTTP库。
这两种实现HTTP请求的库中,Requests库最简单,功能也最丰富,完全可以满足HTTP测试需求,是本书中手写简单爬虫的主力库,推荐读者学习和使用。至于Urllib库,后面的章节将做简单的介绍,让读者有所了解。