Python3爬虫系列09 (实验) - 使用asyncio+aiohttp并发下载

  • 原创
  • Madman
  • /
  • /
  • 0
  • 2042 次阅读

spider 09-min.jpg

Synopsis: 支持HTTP协议的异步网络I/O库:aiohttp,我们的爬虫需要使用该库的Client功能。需要结合asyncio一起使用,经过测试,单线程的异步编程比多线程版本的性能还要好一些,毕竟没有创建线程的开销和线程间上下文切换。另外,如果你下载的是视频等大文件,此时,将网络数据保存到本地磁盘的这个过程,本身是阻塞的,所以它会阻塞事件循环。asyncio不支持磁盘I/O异步,需要使用aiofiles,其实它背后也只是创建一个线程池而已。后续爬虫实战时,动辄下载数十万个文件,为保持控制台清爽,需要使用 progressbar2 显示进度条,而详细信息将保存到日志文件中

代码已上传到 https://github.com/wangy8961/python3-concurrency ,欢迎star

1. aiohttp

Asynchronous HTTP Client/Server for asyncio and Python

上一篇博客介绍的asyncio提供了基于socket的异步I/O,支持TCPUDP协议,但是不支持应用层协议HTTP,而aiohttp就是为此而生

1.1 安装

# pip install aiohttp

1.2 基本使用

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'http://www.madmalls.com')
        print(html)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

2. asyncio + aiohttp

aiohttp Client Quickstart 文档要求HTTP客户端需要首先创建aiohttp.ClientSession()异步上下文管理器,并且不能为每个请求单独创建session

  • async with aiohttp.ClientSession() as session: 会自动管理session的创建与销毁
  • async with session.get('http://httpbin.org/') as response: 会自动管理HTTP连接的建立与关闭
  • await response.read(): 异步获取响应数据,read()返回二进制数据,text()返回字符串形式的HTML文档
# 请使用Python 3.7
import os
import time
import asyncio
import aiohttp
from logger import logger

basepath = os.path.abspath(os.path.dirname(__file__))  # 当前模块文件的根目录

def setup_down_path():
    '''设置图片下载后的保存位置,所有图片放在同一个目录下'''
    down_path = os.path.join(basepath, 'downloads')
    if not os.path.isdir(down_path):
        os.mkdir(down_path)
        logger.info('Create download path {}'.format(down_path))
    return down_path

def get_links():
    '''获取所有图片的下载链接'''
    with open(os.path.join(basepath, 'flags.txt')) as f:  # 图片名都保存在这个文件中,每行一个图片名
        return ['http://192.168.40.121/flags/' + flag.strip() for flag in f.readlines()]

async def download_one(session, image):
    logger.info('Downloading No.{} [{}]'.format(image['linkno'], image['link']))
    t0 = time.time()

    async with session.get(image['link']) as response:
        image_content = await response.read()  # Binary Response Content: access the response body as bytes, for non-text requests

    filename = os.path.split(image['link'])[1]
    with open(os.path.join(image['path'], filename), 'wb') as f:
        f.write(image_content)

    t1 = time.time()
    logger.info('Task No.{} [{}] runs {:.2f} seconds.'.format(image['linkno'], image['link'], t1 - t0))

async def download_many():
    down_path = setup_down_path()
    links = get_links()

    tasks = []  # 保存所有任务的列表
    async with aiohttp.ClientSession() as session:  # aiohttp建议整个应用只创建一个session,不能为每个请求创建一个seesion
        for linkno, link in enumerate(links, 1):
            image = {
                'path': down_path,
                'linkno': linkno,  # 图片序号,方便日志输出时,正在下载哪一张
                'link': link
            }
            task = asyncio.create_task(download_one(session, image))  # asyncio.create_task()是Python 3.7新加的,否则使用asyncio.ensure_future()
            tasks.append(task)
        results = await asyncio.gather(*tasks)
        return len(results)

if __name__ == '__main__':
    t0 = time.time()
    count = asyncio.run(download_many())
    msg = '{} flags downloaded in {:.2f} seconds.'
    logger.info(msg.format(count, time.time() - t0))

测试结果平均为0.89秒,比多线程版本还要快!

3. 使用uvloop

http://www.madmalls.com/blog/post/asyncio-howto-in-python3/#23 说明了uvloop替换asyncio中的默认事件循环策略后,性能还能进一步提升:

3.1 安装

# pip install uvloop

3.2 使用uvloop.EventLoopPolicy()

增加两行:

import uvloop
asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())

4. aiofiles

章节2中的示例,f.write(image_content)是本地磁盘I/O,它是阻塞型操作,当获取网络图片数据后,保存到磁盘的这个过程会短暂的阻塞整个线程。如果你获取的是多个高清视频文件,这个过程就会阻塞很长时间了,而asyncio只支持网络异步I/O,要实现这个需求,我们需要用到 aiofiles

import os
import time
import asyncio
import uvloop
import aiohttp
import aiofiles
from logger import logger

basepath = os.
                                
                            
  • kevingaoyong
  • kevingaoyong
  • JavDriver
  • chanlay
  • guozhengli
  • imgsc
  • hexiaominitao
  • l19891223j
  • Shane Xu
  • jarry
  • 一颗赛艇yh
  • qczrzl
未经允许不得转载: LIFE & SHARE - 王颜公子 » Python3爬虫系列09 (实验) - 使用asyncio+aiohttp并发下载

分享

作者

作者头像

Madman

如需 Linux / Python 相关问题付费解答,请按如下方式联系我

0 条评论

暂时还没有评论.