Python 3 爬虫-min.png
  • Madman
  • ·

Python 3 爬虫|第11章:爬取海量妹子图

爬取 www.mzitu.com 全站图片,截至目前共 5162 个图集,16.5 万多张美女图片,使用 asyncio 和 aiohttp 实现的异步版本只需要不到 2 小时就能爬取完成。按日期创建图集目录,保存更合理。控制台只显示下载的进度条,详细信息保存在日志文件中。支持异常处理,不会终止爬虫程序。失败的请求,下次再执行爬虫程序时会自动下载

Python 3 爬虫-min.png
  • Madman
  • ·

Python 3 爬虫|第9章:使用 asyncio ...

支持 HTTP 协议的异步网络 I/O 库:aiohttp,我们的爬虫需要使用该库的 Client 功能。需要结合 asyncio 一起使用,经过测试,单线程的异步编程比多线程版本的性能还要好一些,毕竟没有创建线程的开销和线程间上下文切换。另外,如果你下载的是视频等大文件,此时,将网络数据保存到本地磁盘的这个过程,本身是阻塞的,所以它会阻塞事件循环。asyncio 不支持磁盘 I/O...