Python3爬虫系列10 (实战) - 爬取妹子图 第一弹

  • 原创
  • Madman
  • /
  • 2018-10-10 11:33
  • /
  • 0
  • 351 次阅读

spider 10-min.png

Synopsis: https://gank.io/api 提供了API来获取分享的图片,请求该API后将返回JSON数据,API具体用法请自行查看该网址,截至目前共分享了656张图片

代码已上传到 https://github.com/wangy8961/python3-concurrency-pics-01 ,欢迎star

1. 准备环境

1.1 安装CentOS

建议使用VMware安装一台CentOS-7.3虚拟机,参考 http://www.madmalls.com/blog/post/customize-centos-7-3-autoinstall-iso/

1.2 安装Python3

参考 http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/#3-python3

1.3 安装依赖的包

# pip install -r requirements-linux.txt

如果你使用 Windows,不会使用uvloop:

# pip install -r requirements-win32.txt

1.4 安装Git

# yum -y install git

克隆代码,已上传到 Github

# git clone git@github.com:wangy8961/python3-concurrency-pics-01.git

2. 测试

2.1 依序下载

使用requests模块来获取HTTP响应,由于部分图片使用了HTTPS,所以需要设置verify=False来忽略SSL验证

# python sequential.py

2.2 多线程下载

workers = min(64, len(links))设置线程池中开启64个线程

# python threadpool.py

2.3 异步下载

使用asyncioaiohttp来实现异步网络I/O

# python asynchronous.py

代码已上传到 https://github.com/wangy8961/python3-concurrency-pics-01 ,欢迎star

未经允许不得转载: LIFE & SHARE - 王颜公子 » Python3爬虫系列10 (实战) - 爬取妹子图 第一弹

分享

作者

作者头像

Madman

如果博文内容有误或其它任何问题,欢迎留言评论,我会尽快回复; 或者通过QQ、微信等联系我

0 条评论

暂时还没有评论.

发表评论前请先登录