Python如何构建爬虫中间件？Scrapy组件开发

程序猿 • 2025年12月14日 07:56:51 • 好文分享 • 阅读 0

下载器中间件用于在请求发出前和响应接收后进行干预，适用于代理切换、用户代理管理、请求重试等网络层操作；2. 蜘蛛中间件用于在响应传递给蜘蛛前或蜘蛛输出结果后进行处理，适用于数据预处理、结果过滤、异常处理等解析层操作；3. 两者通过在scrapy的settings.py中配置中间件类及其优先级来启用，实现代码解耦与功能模块化；4. 健壮的代理中间件需具备代理池管理、健康检查、智能选择、失败重试、日志监控等机制，以应对反爬和网络异常；5. 选择中间件类型应根据操作对象决定：网络请求与响应用下载器中间件，蜘蛛输入输出处理用蜘蛛中间件，二者协同工作提升爬虫稳定性与效率。

Python爬虫中间件的构建，尤其是在Scrapy框架里，核心在于实现特定的类和方法，将你的逻辑巧妙地嵌入到请求（Request）和响应（Response）的处理生命周期中。这就像给爬虫装上了各种“外挂”或“过滤器”，让它在发送请求前、接收响应后，甚至在处理异常时，都能按照你的意图进行干预，从而实现代理切换、用户代理管理、请求过滤、错误重试等一系列高级功能。Scrapy提供了下载器中间件（Downloader Middleware）和蜘蛛中间件（Spider Middleware）这两种主要的机制来达成目标。

解决方案

在Scrapy中，构建爬虫中间件主要围绕着实现

Downloader Middleware

和

Spider Middleware

展开。它们各自负责在爬虫的不同阶段介入。

下载器中间件（Downloader Middleware）

立即学习“Python免费学习笔记（深入）”；

下载器中间件是处理从Scrapy引擎到下载器发送请求，以及从下载器到引擎发送响应的钩子。它能让你在请求发出前修改请求，或者在接收到响应后处理响应。

一个典型的下载器中间件会包含以下一个或多个方法：

process_request(request, spider)

: 当请求通过下载器中间件时调用。你可以在这里修改请求（比如添加代理、User-Agent），或者返回一个

Response

对象（直接跳过后续的下载器和中间件，比如缓存命中），或者返回一个

Request

对象（表示重新调度请求），或者抛出

IgnoreRequest

异常。

process_response(request, response, spider)

: 当下载器完成请求，生成响应后调用。你可以在这里修改响应（比如解压、解密），或者返回一个新的

Response

对象，或者返回一个

Request

对象（表示重试），或者抛出

IgnoreRequest

异常。

process_exception(request, exception, spider)

: 当下载器或

process_request

方法抛出异常时调用。你可以在这里处理异常，比如切换代理重试请求。

示例：一个简单的代理IP切换中间件

import randomfrom scrapy.exceptions import IgnoreRequestclass ProxyMiddleware:    def __init__(self):        # 实际项目中，代理池应该从外部获取并动态管理        self.proxies = [            'http://user:pass@1.1.1.1:8000',            'http://user:pass@2.2.2.2:8000',            # ... 更多代理        ]        self.max_retries = 3 # 每个请求的最大重试次数    def process_request(self, request, spider):        # 如果请求已经有代理，或者不是首次请求，就不再设置        if 'proxy' not in request.meta and not request.meta.get('retry_times', 0):            proxy = random.choice(self.proxies)            request.meta['proxy'] = proxy            spider.logger.debug(f"Assigned proxy {proxy} to {request.url}")        return None # 返回None表示继续处理请求    def process_response(self, request, response, spider):        # 假设403, 407, 429, 503是代理失效或被封禁的信号        if response.status in [403, 407, 429, 503] or 'captcha' in response.url:            spider.logger.warning(f"Proxy failed for {request.url} with status {response.status}. Retrying...")            new_request = request.copy()            # 移除当前失效的代理，并重新分配            if 'proxy' in new_request.meta:                current_proxy = new_request.meta['proxy']                if current_proxy in self.proxies:                    self.proxies.remove(current_proxy) # 简单移除，实际应有更复杂的剔除逻辑                    spider.logger.info(f"Removed failed proxy: {current_proxy}")            # 增加重试计数            retry_times = new_request.meta.get('retry_times', 0) + 1            if retry_times <= self.max_retries and self.proxies:                new_request.meta['retry_times'] = retry_times                new_request.meta['proxy'] = random.choice(self.proxies) # 重新分配代理                new_request.dont_filter = True # 确保请求不会被去重                return new_request # 返回新请求，进行重试            else:                spider.logger.error(f"Failed to fetch {request.url} after {retry_times} retries. Giving up.")                raise IgnoreRequest(f"Max retries exceeded for {request.url}")        return response # 返回原始响应，继续处理    def process_exception(self, request, exception, spider):        # 捕获连接错误等异常，进行重试        if isinstance(exception, (TimeoutError, ConnectionRefusedError, ConnectionResetError)):            spider.logger.error(f"Connection error for {request.url}: {exception}. Retrying...")            new_request = request.copy()            retry_times = new_request.meta.get('retry_times', 0) + 1            if retry_times <= self.max_retries and self.proxies:                new_request.meta['retry_times'] = retry_times                new_request.meta['proxy'] = random.choice(self.proxies)                new_request.dont_filter = True                return new_request            else:                spider.logger.error(f"Failed to fetch {request.url} after {retry_times} retries due to connection error. Giving up.")                raise IgnoreRequest(f"Max retries exceeded for {request.url} due to connection error")        return None # 返回None表示异常继续传播

蜘蛛中间件（Spider Middleware）

蜘蛛中间件位于Scrapy引擎和蜘蛛之间。它主要处理蜘蛛的输入（响应）和输出（Items和Requests）。

process_spider_input(response, spider)

: 当响应被Scrapy引擎传递给蜘蛛进行解析之前调用。你可以在这里过滤掉无效响应，或者修改响应内容。

process_spider_output(response, result, spider)

: 当蜘蛛处理完响应，并返回Items或Requests时调用。你可以在这里对蜘蛛的输出进行后处理，比如过滤掉不符合条件的Item，或者修改Requests。

process_spider_exception(response, exception, spider)

: 当蜘蛛在处理响应时抛出异常时调用。你可以在这里捕获并处理蜘蛛内部的解析异常。

process_start_requests(start_requests, spider)

: 当蜘蛛的

start_requests

方法返回初始请求时调用。你可以在这里修改或过滤这些初始请求。

启用中间件

要在Scrapy项目中启用你编写的中间件，需要在

settings.py

文件中进行配置：

# settings.py# 下载器中间件DOWNLOADER_MIDDLEWARES = {    'myproject.middlewares.ProxyMiddleware': 543, # 数字越大，优先级越低    # 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, # 禁用默认的UA中间件    # 'myproject.middlewares.MyUserAgentMiddleware': 500,}# 蜘蛛中间件SPIDER_MIDDLEWARES = {    # 'myproject.middlewares.MySpiderMiddleware': 543,}

为什么我们需要爬虫中间件？它解决了哪些痛点？

话说回来，我们为啥要费劲巴拉地搞这些中间件呢？这东西在我看来，简直是现代爬虫对抗反爬机制、提升效率和代码可维护性的“瑞士军刀”。它解决了好多实际操作中的痛点：

首先，最直观的就是反爬机制的对抗。你想啊，网站为了不让你爬，会用各种手段：IP封禁、User-Agent检测、Cookie追踪、甚至复杂的JavaScript渲染。如果没有中间件，你可能要在每个爬虫的请求逻辑里塞满代理切换、User-Agent轮换的代码，那简直是灾难。中间件把这些通用且重复的逻辑抽离出来，请求发出去前自动换个IP，换个浏览器标识，响应回来后发现被重定向到验证码页了，还能自动重试，甚至还能处理一些JavaScript渲染前的预处理。这就像给爬虫装上了隐身衣和变身器，大大增加了其生存能力。

其次，是效率和稳定性的问题。爬虫嘛，总会遇到网络波动、目标网站暂时性故障。请求失败了，难道就直接放弃吗？中间件可以很优雅地处理重试逻辑，比如请求超时了，自动再试几次；代理失效了，自动换一个。这不仅提高了爬取成功率，也减少了人工干预。限速也是个问题，有些网站对访问频率有限制，中间件可以帮你控制请求间隔，避免被封。

再者，是代码解耦和模块化。在我看来，这是中间件最被低估的价值之一。想象一下，如果你的爬虫业务逻辑和那些代理、UA、重试的逻辑混在一起，那代码会变得多么臃肿和难以维护。中间件把这些“非业务”但“通用”的功能独立出来，每个中间件只负责一件事，职责单一。这样一来，当反爬策略变化时，你只需要修改对应的中间件，而不是动整个爬虫的核心逻辑。这让代码变得更清晰，也更易于测试和复用。

最后，它还能处理一些数据预处理或后处理的需求。比如，有些网站的响应内容是加密的，或者需要进行特定的编码转换，你可以在下载器中间件里完成这些操作，让蜘蛛接收到的就是干净、可直接解析的数据。这省去了蜘蛛内部再做一遍转换的麻烦。

如何设计一个健壮的代理IP中间件？

设计一个健壮的代理IP中间件，可不是简单地随机选个IP就完事儿了。这背后涉及一套完整的代理生命周期管理和异常处理策略，尤其是在面对高强度爬取和复杂反爬时，它直接决定了你的爬虫能跑多久，效率如何。

一个健壮的代理IP中间件，需要考虑以下几个核心点：

代理池管理：

获取与更新： 代理IP通常是动态的，需要一个机制从第三方服务或自建代理平台获取最新的代理列表。并且，这些代理的存活时间有限，需要定期更新或补充。存储： 将代理IP存储在一个高效的数据结构中，比如队列或列表，方便快速存取。健康检查： 这是重中之重。代理IP的质量参差不齐，很多是失效的。需要定期对代理池中的IP进行连通性、匿名性、速度等方面的测试，剔除掉不可用或速度过慢的代理。可以设置一个独立的线程或进程去异步执行这个任务。权重与评分： 优质的代理（速度快、稳定性高）应该被优先使用。可以给每个代理设置一个分数或权重，根据其历史表现动态调整，失败次数多的代理权重降低，甚至被暂时禁用。

代理选择策略：

随机选择： 最简单的方式，但可能频繁选中失效代理。轮询： 顺序使用代理，但如果某个代理卡住，会影响后续请求。智能选择： 结合代理的权重、可用性、上次使用时间等因素，选择当前最优的代理。例如，优先使用近期成功率高的代理。

失败重试与代理切换机制：

当请求因为代理问题（如连接超时、HTTP状态码403/407/429/503等）失败时，中间件需要能够识别并触发重试。自动切换： 每次重试时，自动从代理池中选择一个新的代理。失败代理剔除： 对于连续失败或特定失败状态码的代理，应将其标记为不可用，甚至从代理池中移除，避免再次使用。重试次数限制： 每个请求应该有最大重试次数，避免无限循环。

支持HTTPS代理和鉴权：

现在很多网站都是HTTPS，代理也需要支持。如果代理服务需要用户名密码，中间件也需要能正确地在请求头中加入

Proxy-Authorization

。

日志记录与监控：

记录代理的使用情况、成功率、失败原因等，这对于分析代理质量和优化策略至关重要。当代理池可用代理数量过低时，及时发出警报。

说实话，要搞一个真正健壮的代理中间件，其复杂程度可能不亚于一个小型的代理管理系统。它需要一套完善的代理池管理API，以及与爬虫框架紧密结合的错误处理逻辑。

蜘蛛中间件和下载器中间件有什么核心区别？选择使用场景？

这两个中间件，虽然都叫“中间件”，但它们在Scrapy的架构中扮演的角色、作用的阶段以及解决的问题都有着本质的区别。理解它们的不同，是高效使用Scrapy的关键。

下载器中间件（Downloader Middleware）

立即学习“Python免费学习笔记（深入）”；

作用阶段： 它主要负责处理Scrapy引擎与下载器之间的交互。可以简单理解为，它在“网络请求”的发送前和“网络响应”的接收后发挥作用。核心职责： 针对网络请求本身做文章。请求发出前： 修改请求头（User-Agent、Cookie）、添加代理IP、设置请求超时、启用或禁用重定向、对请求进行加密或签名等。响应接收后： 检查HTTP状态码（如403、404、500）、处理重定向、解压或解密响应内容、处理Cookie、对失败的请求进行重试。适用场景： 任何与网络层面、HTTP协议层面相关的操作。比如，反爬机制的突破（代理、UA轮换、Cookie管理）、网络异常处理（重试）、请求限速、请求/响应的通用修改。

蜘蛛中间件（Spider Middleware）

作用阶段： 它主要负责处理Scrapy引擎与蜘蛛（Spider）之间的交互。它在“响应被蜘蛛解析之前”和“蜘蛛生成结果（Item或Request）之后”发挥作用。核心职责： 针对蜘蛛的解析逻辑和结果做文章。响应给蜘蛛解析前： 过滤掉不需要蜘蛛处理的响应（例如，响应内容为空、格式不正确、或被反爬重定向到登录页的响应），或者对响应进行预处理（例如，标准化HTML结构）。蜘蛛生成结果后： 对蜘蛛解析出来的

Item

或

Request

进行后处理。比如，验证

Item

数据的完整性、对

Request

进行过滤或修改（例如，移除重复的URL，或者给新的请求添加特定的元数据）。处理蜘蛛异常： 捕获并处理蜘蛛在解析过程中可能抛出的异常。适用场景： 任何与蜘蛛解析逻辑、数据流处理、或蜘蛛生成结果相关的操作。比如，对蜘蛛解析出的数据进行初步清洗或验证、动态调整蜘蛛的起始请求、处理蜘蛛内部的解析错误。

选择使用场景

简单来说，如果你要对“请求”或“响应”本身动刀子，比如修改请求头、切换代理、处理网络错误、处理HTTP状态码，那就用下载器中间件。它更关注网络通信的细节。

如果你要对“蜘蛛的输入（响应）”或“蜘蛛的输出（Item和Request）”进行处理、过滤、或验证，那就用蜘蛛中间件。它更关注数据解析的流程和结果。

它们是相互配合的。比如，下载器中间件负责搞定代理，让请求能顺利发出去并拿到响应；而蜘蛛中间件则可能负责检查这个响应是否真的包含了有效数据，或者对蜘蛛解析出的数据做进一步的加工。它们各自在不同的层级上，为爬虫的稳定和高效运行贡献力量。

以上就是Python如何构建爬虫中间件？Scrapy组件开发的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1367454.html

ai python python编程为什么区别日志监控浏览器组件开发

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Pandas DataFrame子集赋值：深入理解列对齐与NaN值避免策略

上一篇 2025年12月14日 07:56:37

Pymunk 刚体位置异常：NaN 值的排查与解决

下一篇 2025年12月14日 07:56:55

好文分享

CSS mask属性无法获取图片：为什么我的图片不见了？

CSS mask属性无法获取图片在使用CSS mask属性时，可能会遇到无法获取指定照片的情况。这个问题通常表现为：网络面板中没有请求图片：尽管CSS代码中指定了图片地址，但网络面板中却找不到图片的请求记录。问题原因：此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

程序猿
2025年12月24日
9000
好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
4000
好文分享

网页使用本地字体：为什么 CSS 代码中明明指定了“荆南麦圆体”，页面却仍然显示“微软雅黑”？

网页中使用本地字体本文将解答如何将本地安装字体应用到网页中，避免使用 src 属性直接引入字体文件。问题：想要在网页上使用已安装的“荆南麦圆体”字体，但 css 代码中将其置于第一位的“font-family”属性，页面仍显示“微软雅黑”字体。立即学习“前端免费学习笔记（深入）”；答案： …

程序猿
2025年12月24日
0000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么我的特定 DIV 在 Edge 浏览器中无法显示？

特定 DIV 无法显示：用户代理样式表的困扰当你在 Edge 浏览器中打开项目中的某个 div 时，却发现它无法正常显示，仔细检查样式后，发现是由用户代理样式表中的 display none 引起的。但你疑问的是，为什么会出现这样的样式表，而且只针对特定的 div？背后的原因用户代理样式表是由…

程序猿
2025年12月24日
2000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

为什么使用 inline-block 元素时会错位？

inline-block 元素错位成因剖析在使用 inline-block 元素时，可能会遇到它们错位显示的问题。如代码 demo 所示，当设置了 overflow 属性时，a 标签就会错位下沉，而未设置时却不会。问题根源： overflow:hidden 属性影响了 inline-block …

程序猿
2025年12月24日
0000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

为什么我的 CSS 元素放大效果无法正常生效？

css 设置元素放大效果的疑问解答原提问者在尝试给元素添加 10em 字体大小和过渡效果后，未能在进入页面时看到放大效果。探究发现，原提问者将 CSS 代码直接写在页面中，导致放大效果无法触发。解决办法如下：将 CSS 样式写在一个单独的文件中，并使用标签引入该样式文件。这个操作与原提问者观…

程序猿
2025年12月24日
0000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 em 和 transition 设置后元素没有放大？

元素设置 em 和 transition 后不放大一个 youtube 视频中展示了设置 em 和 transition 的元素在页面加载后会放大，但同样的代码在提问者电脑上没有达到预期效果。可能原因：问题在于 css 代码的位置。在视频中，css 被放置在单独的文件中并通过 link 标签引…

程序猿
2025年12月24日
1000