- Python网络爬虫实例教程(视频讲解版)
- 齐文光
- 1037字
- 2025-03-29 00:29:35
前言
爬虫技术是一门非常有趣、有用、易学、易令人产生成就感的技术。人们利用爬虫技术可以下载感兴趣的图片、小说,可以自动化地完成很多需要人工操作的事情,如定时抢购某件商品。对企业来讲,爬虫的作用显得更加重要,很多公司依赖于爬虫技术获取公开数据,为企业发展提供服务。在招聘网站上,爬虫工程师的薪酬非常高。
爬虫技术学起来容易上手,相信各位读者看完第4章的基础爬虫实例,就可以编程爬取很多网站,这对建立信心、激发学习兴趣非常关键,从这个角度看,爬虫技术也非常适合作为学习编程语言的进阶内容。
虽然爬虫技术易学、有用、有趣,但要真正系统地掌握爬虫技术,能够独立地解决数据获取过程中遇到的难题,还需要深入、系统地掌握爬虫知识。经常有读者觉得爬虫教学用例繁杂,技巧介绍不明确,学习起来很难掌握;或者内容比较片面,难以把学习的例子应用到其他网页爬取中。针对以上问题,本书在编写过程中,特别注重两点:一是简单易学,二是系统深入。本书为了简单明了地向读者介绍编写爬虫的技巧,着重选择那些既能体现编写技巧,页面又相对干净的例子;为了让读者能够比较爬虫框架与手写爬虫的不同,本书还多次使用两种方法爬取相同的网站,这些都非常有利于读者学习。
本书不仅精挑细选爬取实例,内容组织上也注重深入性和全面性,希望尽量为读者演示各种爬取技巧和方法。从手写爬虫到爬虫框架,从多层页面爬取到图片下载,从应对反爬虫到模拟登录,从各种翻页技巧到查找网页元素,甚至爬虫去重技术和分布式爬虫部署,书中都有详细的演示和讲解,相信读者在读完本书后,能够系统地掌握使用Python编写爬虫的技术。
为了使代码讲解内容易看易懂,本书直接提供了全部的代码,读者可以参考书中的代码编写爬虫,但是要注意,商业网站的更新速度很快,可能在你看到本书的时候,网站已经做了或大或小的改版,如果直接照抄书中代码,就会产生一些问题。因此,读者应该重点学习编写爬虫的技巧和方法,相信在仔细阅读完本书后,读者完全可以应对各种各样的网页改版问题。此外,本书为了让代码更易读,在代码中用到的如户型、楼层、小区等变量使用了拼音命名,这样处理的优点是可读性较好,但是在面试或公司生产环境中编写代码,还是应该尽量使用英文作为变量名称。
本书提供了配套讲解视频,读者扫描书中二维码即可免费观看,也可到网易云课堂搜索“Python爬虫零基础入门到进阶实战”,观看本书配套视频。
由于编者水平有限,加上爬虫技术本身发展迅速,书中难免有不足和不当之处,恳请读者批评、指正,在此表示衷心感谢。
编者
2018年3月