Python 3 爬虫｜第11章：爬取海量妹子图

原创
Madman
/
2018-10-11T01:45:00Z
/
15
23783 次阅读

Synopsis: 爬取 www.mzitu.com 全站图片，截至目前共 5162 个图集，16.5 万多张美女图片，使用 asyncio 和 aiohttp 实现的异步版本只需要不到 2 小时就能爬取完成。按日期创建图集目录，保存更合理。控制台只显示下载的进度条，详细信息保存在日志文件中。支持异常处理，不会终止爬虫程序。失败的请求，下次再执行爬虫程序时会自动下载

代码已上传到 https://github.com/wangy8961/python3-concurrency-pics-02 ，欢迎 star

1. 准备环境

1.1 安装 CentOS

建议使用 VMware 安装一台 CentOS-7.3 虚拟机，请参考： http://www.madmalls.com/blog/post/customize-centos-7-3-autoinstall-iso/

1.2 安装 Python3

请参考： http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/#3-python3

1.3 安装 MongoDB

请参考： http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/#4-mongodb ，如果是 Windows 请参考： http://www.madmalls.com/blog/post/win10-install-mongodb/

尝试使用 motor 实现 MongoDB 异步操作，好像效率更差一些，所以放弃使用该模块。目前数据库操作是同步阻塞型，使用 pymongo 模块

1.4 安装 Git

[root@CentOS ~]# yum -y install git

代码已上传到 https://github.com/wangy8961/python3-concurrency-pics-02 ，欢迎 star，克隆代码：

[root@CentOS ~]# git clone https://github.com/wangy8961/python3-concurrency-pics-02.git
[root@CentOS ~]# cd python3-concurrency-pics-02/

1.5 准备虚拟环境

如果你的操作系统是 Linux:

[root@CentOS python3-concurrency-pics-02]# python3 -m venv venv3
[root@CentOS python3-concurrency-pics-02]# source venv3/bin/activate

Windows 激活虚拟环境的命令是: venv3\Scripts\activate

1.6 安装依赖包

如果你的操作系统是 Linux:

(venv3) [root@CentOS python3-concurrency-pics-02]# pip install -r requirements-linux.txt

如果你的操作系统是 Windows（不会使用 uvloop）:

(venv3) C:\Users\wangy> pip install -r requirements-win32.txt

2. 分析过程

mzitu step 01 - 04

2.1 获取图集信息

使用 requests 模块或 aiohttp 模块来获取入口页面 http://www.mzitu.com/all/ 的 HTML 响应，然后通过 BeautifulSoup4 和 lxml 来解析 HTML 文档。每个 图集 按年份/月份被放在 <div class='all'></div> 下面的每个 <a href="图集URL">图集标题<a> 中。需要注意的是，早期图片需要访问 http://www.mzitu.com/old/ ，递归调用获取图集的函数即可

将获取的 5000 多个图集信息保存到 MongoDB 数据库的 albums 集合中