6. Scrapy高级功能：中间件、异步请求与分布式爬虫-USB迷|专注于互联网分享

6. Scrapy高级功能：中间件、异步请求与分布式爬虫

在前面的文章中，我们学习了如何使用 Scrapy 编写爬虫，抓取数据，并处理和存储这些数据。今天，我们将探讨 Scrapy 的一些高级功能，包括中间件、异步请求和分布式爬虫。这些功能可以帮助你优化爬虫性能、增强灵活性，并在需要时进行更复杂的数据抓取。

6.1 Scrapy中间件（Middleware）

Scrapy 中间件是一种处理请求和响应的机制，允许你在请求发送前、响应到达后进行自定义操作。中间件功能非常强大，可以用于多种场景，如修改请求、处理异常、设置代理、模拟浏览器等。

6.1.1 中间件的工作流程

Scrapy 中的中间件会在请求和响应的生命周期中起作用，具体流程如下：

请求被发送到下载器前，由请求中间件进行处理。
响应从下载器返回，经过响应中间件进行处理。
请求和响应 可以在中间件中被修改、过滤或拦截。

Scrapy 提供了两个主要的中间件类型：

请求中间件：在请求发送之前处理请求。
响应中间件：在响应返回之前处理响应。

6.1.2 定义一个请求中间件

例如，我们可以定义一个请求中间件，来为所有请求添加一个随机的 User-Agent，以防止网站封锁爬虫：

import random

class RandomUserAgentMiddleware:
    def __init__(self):
        self.user_agents = [
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.3; Trident/7.0; AS; 10.0; en-US) like Gecko'
        ]
    
    def process_request(self, request, spider):
        user_agent = random.choice(self.user_agents)
        request.headers['User-Agent'] = user_agent
        spider.logger.info(f'Using User-Agent: {user_agent}')

在这个例子中，我们定义了一个 RandomUserAgentMiddleware，它会在每个请求发送前，随机从 user_agents 列表中选择一个 User-Agent 并附加到请求头中。

6.1.3 启用中间件

要启用这个中间件，需要在 settings.py 文件中进行配置：

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.RandomUserAgentMiddleware': 543,
}

中间件的优先级由数字值控制，数字越小，优先级越高。543 表示该中间件的优先级。

6.1.4 响应中间件的使用

响应中间件可以用于修改响应内容，或在抓取过程中处理异常。例如，如果目标网页返回了 404 错误，我们可以在响应中间件中捕获并重新发起请求。

class Handle404Middleware:
    def process_response(self, request, response, spider):
        if response.status == 404:
            spider.logger.warning(f"Page not found: {request.url}")
            # 你可以返回一个自定义的响应，或者发起其他操作
        return response

6.2 Scrapy中的异步请求

Scrapy 本身是基于异步机制的，这意味着它能够同时处理多个请求而不需要阻塞。通过使用异步请求，Scrapy 可以大幅提高爬取速度，尤其是在抓取大量网页时。

6.2.1 Scrapy的异步请求处理

Scrapy 采用 Twisted 异步框架来处理网络请求，Twisted 是一个用于实现高效网络协议的库。由于 Scrapy 内置了异步支持，我们无需额外的线程或进程管理，Scrapy 会自动调度并发请求。

例如，scrapy.Request 和 scrapy.Response 都是异步的。当你发出一个请求时，Scrapy 不会等待响应，而是立即发出下一个请求，并将响应交给回调函数处理。

def parse(self, response):
    # 提取数据
    for quote in response.css('div.quote'):
        yield {
            'text': quote.css('span.text::text').get(),
            'author': quote.css('span small::text').get(),
        }

    # 获取下一页的链接并继续抓取
    next_page = response.css('li.next a::attr(href)').get()
    if next_page:
        yield response.follow(next_page, self.parse)  # 异步请求下一页

在这个例子中，Scrapy 会在抓取当前页数据的同时，向下一页发出请求。这种异步操作大大提高了爬虫的效率。

6.2.2 控制并发请求数

尽管 Scrapy 内置了异步支持，但你可能需要控制并发请求的数量，以免对目标网站造成过大的压力。你可以通过在 settings.py 文件中配置以下参数来调整并发请求数：

CONCURRENT_REQUESTS = 16  # 控制最大并发请求数
DOWNLOAD_DELAY = 1  # 控制每个请求之间的延迟

这些设置可以帮助你平衡爬虫的抓取速度和目标网站的负载。

6.3 Scrapy中的分布式爬虫

当你需要抓取大量网站时，单一的爬虫可能无法满足效率要求。这时，分布式爬虫就显得非常重要。Scrapy 支持分布式爬虫，最常见的方式是通过 Scrapy-Cluster 或者将 Scrapy 集成到分布式框架中。

6.3.1 使用Scrapy-Cluster实现分布式爬虫

Scrapy-Cluster 是一个开源的扩展，允许多个 Scrapy 爬虫实例共享一个队列进行抓取。通过这种方式，你可以将爬虫部署到多个机器上，实现任务的分布式执行。

安装 Scrapy-Cluster 需要一些额外的配置，包括安装 Redis、配置队列、以及修改 Scrapy 项目的设置。

pip install scrapy-cluster

配置 settings.py：

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://localhost:6379'

通过 Scrapy-Cluster，不同的 Scrapy 爬虫实例将会共享同一个任务队列，并能够高效地协作完成大规模的抓取任务。

6.3.2 分布式爬虫的优势

提升抓取速度：通过将任务分配给多个机器并行执行，能够显著提高抓取速度。
容错性：分布式爬虫具有较高的容错性，当一个爬虫实例失败时，其他实例可以接管任务。
负载均衡：可以将任务均匀地分配给多个爬虫，减少单一爬虫的负载。

6.4 总结

在这篇文章中，我们探讨了 Scrapy 的一些高级功能，包括中间件、异步请求和分布式爬虫。

中间件：它为 Scrapy 提供了灵活的请求和响应处理能力，可以修改请求头、处理异常、设置代理等。
异步请求：Scrapy 内置的异步支持让爬虫能够并行处理多个请求，提高抓取效率。
分布式爬虫：通过 Scrapy-Cluster 等工具，你可以将任务分布到多个机器上进行抓取，从而加速大规模的数据采集。

掌握这些高级功能后，你将能够编写更高效、灵活和可扩展的爬虫，满足各种复杂的抓取需求。在下一篇文章中，我们将介绍如何优化 Scrapy 爬虫的性能，进一步提升抓取速度与稳定性。

6. Scrapy高级功能：中间件、异步请求与分布式爬虫

6.1 Scrapy中间件（Middleware）

6.1.1 中间件的工作流程

Scrapy 中的中间件会在请求和响应的生命周期中起作用，具体流程如下：

请求被发送到下载器前，由请求中间件进行处理。
响应从下载器返回，经过响应中间件进行处理。
请求和响应 可以在中间件中被修改、过滤或拦截。

Scrapy 提供了两个主要的中间件类型：

请求中间件：在请求发送之前处理请求。
响应中间件：在响应返回之前处理响应。

6.1.2 定义一个请求中间件

例如，我们可以定义一个请求中间件，来为所有请求添加一个随机的 User-Agent，以防止网站封锁爬虫：

import random

class RandomUserAgentMiddleware:
    def __init__(self):
        self.user_agents = [
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.3; Trident/7.0; AS; 10.0; en-US) like Gecko'
        ]
    
    def process_request(self, request, spider):
        user_agent = random.choice(self.user_agents)
        request.headers['User-Agent'] = user_agent
        spider.logger.info(f'Using User-Agent: {user_agent}')

在这个例子中，我们定义了一个 RandomUserAgentMiddleware，它会在每个请求发送前，随机从 user_agents 列表中选择一个 User-Agent 并附加到请求头中。

6.1.3 启用中间件

要启用这个中间件，需要在 settings.py 文件中进行配置：

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.RandomUserAgentMiddleware': 543,
}

中间件的优先级由数字值控制，数字越小，优先级越高。543 表示该中间件的优先级。

6.1.4 响应中间件的使用

响应中间件可以用于修改响应内容，或在抓取过程中处理异常。例如，如果目标网页返回了 404 错误，我们可以在响应中间件中捕获并重新发起请求。

class Handle404Middleware:
    def process_response(self, request, response, spider):
        if response.status == 404:
            spider.logger.warning(f"Page not found: {request.url}")
            # 你可以返回一个自定义的响应，或者发起其他操作
        return response

6.2 Scrapy中的异步请求

6.2.1 Scrapy的异步请求处理

例如，scrapy.Request 和 scrapy.Response 都是异步的。当你发出一个请求时，Scrapy 不会等待响应，而是立即发出下一个请求，并将响应交给回调函数处理。

def parse(self, response):
    # 提取数据
    for quote in response.css('div.quote'):
        yield {
            'text': quote.css('span.text::text').get(),
            'author': quote.css('span small::text').get(),
        }

    # 获取下一页的链接并继续抓取
    next_page = response.css('li.next a::attr(href)').get()
    if next_page:
        yield response.follow(next_page, self.parse)  # 异步请求下一页

在这个例子中，Scrapy 会在抓取当前页数据的同时，向下一页发出请求。这种异步操作大大提高了爬虫的效率。

6.2.2 控制并发请求数

CONCURRENT_REQUESTS = 16  # 控制最大并发请求数
DOWNLOAD_DELAY = 1  # 控制每个请求之间的延迟

这些设置可以帮助你平衡爬虫的抓取速度和目标网站的负载。

6.3 Scrapy中的分布式爬虫

6.3.1 使用Scrapy-Cluster实现分布式爬虫

安装 Scrapy-Cluster 需要一些额外的配置，包括安装 Redis、配置队列、以及修改 Scrapy 项目的设置。

pip install scrapy-cluster

配置 settings.py：

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://localhost:6379'

通过 Scrapy-Cluster，不同的 Scrapy 爬虫实例将会共享同一个任务队列，并能够高效地协作完成大规模的抓取任务。

6.3.2 分布式爬虫的优势

提升抓取速度：通过将任务分配给多个机器并行执行，能够显著提高抓取速度。
容错性：分布式爬虫具有较高的容错性，当一个爬虫实例失败时，其他实例可以接管任务。
负载均衡：可以将任务均匀地分配给多个爬虫，减少单一爬虫的负载。

6.4 总结

在这篇文章中，我们探讨了 Scrapy 的一些高级功能，包括中间件、异步请求和分布式爬虫。

中间件：它为 Scrapy 提供了灵活的请求和响应处理能力，可以修改请求头、处理异常、设置代理等。
异步请求：Scrapy 内置的异步支持让爬虫能够并行处理多个请求，提高抓取效率。
分布式爬虫：通过 Scrapy-Cluster 等工具，你可以将任务分布到多个机器上进行抓取，从而加速大规模的数据采集。

USB迷 | 专注于互联网分享

6. Scrapy高级功能：中间件、异步请求与分布式爬虫

6. Scrapy高级功能：中间件、异步请求与分布式爬虫

6.1 Scrapy中间件（Middleware）

6.1.1 中间件的工作流程

6.1.2 定义一个请求中间件

6.1.3 启用中间件

6.1.4 响应中间件的使用

6.2 Scrapy中的异步请求

6.2.1 Scrapy的异步请求处理

6.2.2 控制并发请求数

6.3 Scrapy中的分布式爬虫

6.3.1 使用Scrapy-Cluster实现分布式爬虫

6.3.2 分布式爬虫的优势

6.4 总结

6. Scrapy高级功能：中间件、异步请求与分布式爬虫

6.1 Scrapy中间件（Middleware）

6.1.1 中间件的工作流程

6.1.2 定义一个请求中间件

6.1.3 启用中间件

6.1.4 响应中间件的使用

6.2 Scrapy中的异步请求

6.2.1 Scrapy的异步请求处理

6.2.2 控制并发请求数

6.3 Scrapy中的分布式爬虫

6.3.1 使用Scrapy-Cluster实现分布式爬虫

6.3.2 分布式爬虫的优势

6.4 总结

与本文相关的文章

评论列表 (0)