Python 异常处理在爬虫项目中的应用

爬虫中常见的网络请求异常包括连接错误、超时和HTTP状态码异常,需通过try-except分层捕获并针对性处理。

python 异常处理在爬虫项目中的应用

在爬虫项目中,Python的异常处理机制绝不是可有可无的装饰品,它简直就是保障爬虫生命力与稳定性的核心骨架。没有它,你的爬虫就像在薄冰上跳舞,任何一点风吹草动——网络波动、目标网站结构微调、IP被封——都可能让它瞬间崩塌,功亏一篑。真正有效的异常处理,能让爬虫从容应对这些“不确定性”,哪怕遭遇挫折也能优雅地恢复,继续它的使命,确保数据收集的连续性和完整性。

解决方案

要让爬虫变得“皮实”起来,我们得系统地运用

try-except-finally-else

结构。这不仅仅是捕获错误那么简单,它更像是一种风险管理策略。我的经验是,先预判那些最常出现的“雷区”,比如网络连接中断、请求超时、HTTP状态码异常,以及数据解析时的各种意外。针对这些预判,我们用特定的

except

块去精准拦截。

比如,当发起一个网络请求时,可能会遇到服务器无响应、DNS解析失败或者代理挂掉。这些都属于

requests.exceptions.RequestException

的范畴。如果直接用一个大而全的

except Exception as e:

去捕获,虽然能防止程序崩溃,但你丢失了错误发生时的具体上下文,也就难以对症下药。因此,我们应该先捕获更具体的异常,再逐步放宽到更通用的异常。

立即学习“Python免费学习笔记(深入)”;

一个健壮的爬虫,其异常处理逻辑应该包含:

请求层面的异常:针对

requests

库可能抛出的各种错误,如

ConnectionError

Timeout

HTTPError

等。解析层面的异常:当使用BeautifulSoup、lxml或json库解析数据时,可能出现选择器失效、键不存在、JSON格式错误等问题。业务逻辑异常:比如在数据校验时发现数据不符合预期,或者某些字段缺失。重试机制:对于瞬时性的网络问题,简单的重试往往就能解决。但要注意,重试不能是无限次的,并且最好配合指数退避(exponential backoff),给服务器一点喘息的时间。日志记录:每一次异常的发生,都应该被详细记录下来,包括发生时间、URL、异常类型、堆信息等,这对于后续的调试和问题排查至关重要。

import requestsimport timeimport randomimport logginglogging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def fetch_url_with_retry(url, retries=3, backoff_factor=0.5):    for i in range(retries):        try:            response = requests.get(url, timeout=10)            response.raise_for_status() # Raises HTTPError for bad responses (4xx or 5xx)            return response        except requests.exceptions.Timeout:            logging.warning(f"请求超时,URL: {url},尝试重试 {i+1}/{retries}...")        except requests.exceptions.ConnectionError:            logging.warning(f"连接错误,URL: {url},尝试重试 {i+1}/{retries}...")        except requests.exceptions.HTTPError as e:            if e.response.status_code == 404:                logging.error(f"页面未找到 (404),URL: {url}")                return None # 404通常不需要重试            logging.warning(f"HTTP错误 {e.response.status_code},URL: {url},尝试重试 {i+1}/{retries}...")        except requests.exceptions.RequestException as e:            logging.error(f"未知请求异常,URL: {url},错误: {e},尝试重试 {i+1}/{retries}...")        if i < retries - 1:            sleep_time = backoff_factor * (2 ** i) + random.uniform(0, 1) # 指数退避加随机抖动            logging.info(f"等待 {sleep_time:.2f} 秒后重试...")            time.sleep(sleep_time)    logging.error(f"多次重试失败,URL: {url} 无法获取。")    return None# 示例使用# response = fetch_url_with_retry("http://www.example.com/nonexistent")# if response:#     print(response.text[:100])

爬虫中常见的网络请求异常有哪些,以及如何针对性地捕获和处理?

在爬虫的世界里,网络请求异常简直是家常便饭。我的经验是,大部分爬虫的“崩溃”都始于此。最常见的几种,无非就是连接不上、请求超时、以及HTTP状态码不正常。

首先是

requests.exceptions.ConnectionError

。这通常意味着你的程序无法建立到目标服务器的连接。可能是目标网站宕机了,也可能是你的网络有问题,或者DNS解析失败。这种错误,第一时间想到的应该是重试。但别傻乎乎地立刻重试,给它一点时间,比如等个几秒钟,再尝试。如果还是不行,那可能就不是瞬时问题了,得考虑是不是IP被封了,或者目标网站真的挂了。

接着是

requests.exceptions.Timeout

。当你发送请求后,在指定的时间内没有收到服务器的响应,就会抛出这个异常。超时可能是因为服务器处理请求太慢,也可能是网络延迟高。对于这种,重试同样是有效手段,但可能需要调整超时时间,或者尝试更换代理。我通常会设置一个合理的超时时间,比如5-10秒,而不是无限等待。

然后是

requests.exceptions.HTTPError

。这发生在服务器返回了非200的HTTP状态码时,比如404(页面未找到)、403(禁止访问)、500(服务器内部错误)等等。

requests

库的

response.raise_for_status()

方法就是为此而生。对于404,通常意味着这个URL是无效的,不需要重试,直接记录并跳过就好。403往往是反爬机制在作祟,此时你需要考虑更换User-Agent、使用代理IP,甚至模拟登录。而500错误,可能是服务器暂时性故障,重试几次往往能解决。

处理这些异常,关键在于“针对性”。我们应该利用Python的异常继承链,先捕获最具体的异常,再捕获更通用的。这就像你生病了,医生会先诊断是感冒还是肺炎,而不是直接给你开个“万能药”。

import requestsimport timeimport randomimport logginglogging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def robust_get(url, retries=3, delay_base=1):    for attempt in range(retries):        try:            # 模拟代理切换或User-Agent轮换            headers = {'User-Agent': f'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/{random.randint(80, 100)}.0.0.0 Safari/537.36'}            response = requests.get(url, timeout=15, headers=headers)            response.raise_for_status() # 检查HTTP状态码            return response        except requests.exceptions.Timeout:            logging.warning(f"请求超时,URL: {url} (尝试 {attempt + 1}/{retries})")        except requests.exceptions.ConnectionError:            logging.warning(f"连接错误,URL: {url} (尝试 {attempt + 1}/{retries})")        except requests.exceptions.HTTPError as e:            status_code = e.response.status_code            if status_code == 404:                logging.error(f"资源未找到 (404),URL: {url}。跳过。")                return None            elif status_code == 403:                logging.warning(f"访问被拒绝 (403),URL: {url}。可能需要更换IP或User-Agent。")            elif status_code >= 500:                logging.warning(f"服务器内部错误 ({status_code}),URL: {url}。")            else:                logging.warning(f"HTTP错误 ({status_code}),URL: {url}。")        except requests.exceptions.RequestException as e:            logging.error(f"发生未知请求错误: {e},URL: {url}")        if attempt < retries - 1:            sleep_time = delay_base * (2 ** attempt) + random.uniform(0, 1)            logging.info(f"等待 {sleep_time:.2f} 秒后重试...")            time.sleep(sleep_time)    logging.error(f"多次重试失败,无法获取 URL: {url}")    return None# 示例:# resp = robust_get("https://httpbin.org/status/403")# if resp:#     print(resp.text)

通过这种分层、精细化的处理,我们能让爬虫在面对网络世界的各种“恶意”时,表现得更加从容和专业。

数据解析阶段的异常处理,如何避免因数据结构变化导致爬虫崩溃?

爬虫最脆弱的环节之一,就是数据解析。我见过太多爬虫,前一秒还在欢快地抓取数据,后一秒就因为目标网站HTML结构或者API响应格式的微小变动,直接“猝死”。这种感觉就像你精心搭建的乐高城堡,被一阵突如其来的风吹散了。

常见的解析异常,主要集中在以下几类:

IndexError

KeyError

:当你试图访问一个不存在的列表索引或者字典键时。比如,你期望某个HTML元素下有第三个子元素,结果只有两个;或者某个JSON字段突然不见了。

AttributeError

:在使用BeautifulSoup或lxml时,如果你尝试访问一个不存在的标签属性或者解析结果对象上没有的方法。

TypeError

:数据类型不匹配,比如你期望一个字符串,结果却是个

None

,然后你尝试对

None

调用字符串方法。

json.JSONDecodeError

:当API返回的响应体不是一个合法的JSON字符串时。

避免这些问题,核心思路是“防御性编程”:永远不要假设数据结构是完美的、不变的。

安全访问字典和列表:对于字典,使用

.get(key, default_value)

方法,而不是直接

dict[key]

。这样即使键不存在,也不会抛出

KeyError

,而是返回你设定的默认值(通常是

None

)。对于列表,在访问索引前,先检查列表的长度,或者使用

try-except IndexError

检查

None

:在对解析结果进行操作前,务必检查它是否为

None

。比如,

if element is not None: element.text

使用健壮的选择器:CSS选择器或XPath表达式应该尽可能地具有鲁棒性,避免过度依赖层级关系。比如,优先使用

id

class

或者

data-*

属性,而不是

div > div > span

这种脆弱的结构。捕获特定解析异常:将解析代码包裹在

try-except

块中,捕获

IndexError

KeyError

AttributeError

json.JSONDecodeError

等。当这些异常发生时,记录下错误信息和对应的URL,然后跳过当前项,而不是让整个爬虫停下来。数据校验:在数据入库前,进行一次最终的校验。比如,确保某个字段是数字类型,某个字符串长度符合要求等。

from bs4 import BeautifulSoupimport jsonimport logginglogging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')def parse_html_data(html_content, url):    data = {}    try:        soup = BeautifulSoup(html_content, 'lxml')        # 示例1: 安全访问元素及其文本        title_element = soup.select_one('h1.product-title') # 使用更具体的选择器        data['title'] = title_element.text.strip() if title_element else None        # 示例2: 安全访问属性        image_element = soup.select_one('img.product-image')        data['image_url'] = image_element.get('src') if image_element else None        # 示例3: 处理可能缺失的列表项        price_list = soup.select('span.price-item')        try:            data['main_price'] = price_list[0].text.strip() if price_list else None            data['discount_price'] = price_list[1].text.strip() if len(price_list) > 1 else None        except IndexError:            logging.warning(f"解析价格列表时索引越界,URL: {url}")            data['main_price'] = None            data['discount_price'] = None    except AttributeError as e:        logging.error(f"解析HTML时属性错误,URL: {url},错误: {e}")        return None    except Exception as e: # 捕获其他未预料的解析错误        logging.error(f"解析HTML时发生未知错误,URL: {url},错误: {e}")        return None    return datadef parse_json_data(json_string, url):    try:        data = json.loads(json_string)        # 安全访问字典键        product_name = data.get('product', {}).get('name')        product_price = data.get('product', {}).get('details', {}).get('price')        if product_name is None:            logging.warning(f"JSON数据中缺少 'product.name' 字段,URL: {url}")        return {'name': product_name, 'price': product_price}    except json.JSONDecodeError as e:        logging.error(f"JSON解析错误,URL: {url},错误: {e}")        return None    except Exception as e:        logging.error(f"解析JSON时发生未知错误,URL: {url},错误: {e}")        return None# 示例使用# html_example = "

Test Product

@@##@@$100"# parsed_html = parse_html_data(html_example, "http://example.com/product/1")# print(parsed_html)# json_example = '{"product": {"name": "Laptop", "details": {"price": 1200}}}'# parsed_json = parse_json_data(json_example, "http://example.com/api/product/1")# print(parsed_json)

通过这些手段,我们能够大幅提升爬虫在面对目标网站结构变化时的韧性,让它不至于因为一点小变动就“罢工”。

构建健壮爬虫时,除了捕获异常,还有哪些策略可以提升系统的容错性和稳定性?

单纯地捕获异常,只是“治标不治本”。一个真正健壮的爬虫系统,需要一系列组合拳来提升其容错性和稳定性。这就像建造一座大楼,地基要稳固,结构要合理,还得有消防系统和应急通道。

完善的日志系统:这不仅仅是记录异常,而是记录爬虫运行的方方面面。请求URL、响应状态码、解析结果、入库情况,甚至每次重试的详情。使用

logging

模块,设置不同的日志级别(DEBUG, INFO, WARNING, ERROR, CRITICAL),将日志输出到文件,并定期归档。这样,当问题发生时,你才能有迹可循,快速定位问题。

智能的重试机制与指数退避:前面已经提到,对于瞬时性的网络错误,重试是有效的。但关键在于“智能”。不要立即重试,而是等待一段时间,并且每次重试的等待时间逐渐增加(指数退避),同时加入随机抖动,避免“死循环”或给目标网站造成更大压力。设置最大重试次数,超过后放弃当前任务。

代理IP池与User-Agent轮换:这是应对反爬机制的利器。当IP被封禁或某个User-Agent被识别时,系统能自动切换到下一个可用的代理或User-Agent。一个健康的代理池需要有检测机制,定期清理失效代理。

限速与请求间隔:对目标网站的访问频率进行控制,模拟人类的浏览行为。设置一个随机的请求间隔(例如2到5秒),可以有效降低被封禁的风险,也体现了对目标网站的“尊重”。

任务队列与持久化:对于大规模爬虫,使用消息队列(如Redis、RabbitMQ)来管理待抓取URL,并将已抓取和待抓取的任务状态进行持久化。这样,即使爬虫程序意外中断,也能从上次中断的地方恢复,避免重复抓取或数据丢失。

监控与告警:这是最容易被忽视,但却至关重要的一环。实时监控爬虫的运行状态,比如抓取速度、错误率、代理IP可用率、数据入库量等。当某个指标超出预设阈值时,通过邮件、短信或即时通讯工具发送告警,让你能第一时间介入处理。

数据校验与清洗:在数据入库前,对抓取到的数据进行严格的校验和清洗。例如,检查字段是否缺失、数据类型是否正确、是否存在异常值。不符合要求的数据,可以记录下来进行人工复查,而不是直接丢弃或入库。

模块化与解耦:将爬虫的不同功能(请求、解析、存储、调度)模块化,降低耦合度。这样,当某个模块出现问题时,更容易隔离和修复,而不影响整个系统的运行。

这些策略的引入,能让爬虫从一个简单的脚本,升级为一个能够自我修复、稳定运行的系统。它不再只是被动地捕获错误,而是主动地预防错误,并具备从错误中恢复的能力,这才是真正意义上的“健壮”。

Python 异常处理在爬虫项目中的应用

以上就是Python 异常处理在爬虫项目中的应用的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1373022.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 12:49:46
下一篇 2025年12月14日 12:49:58

相关推荐

  • CSS mask属性无法获取图片:为什么我的图片不见了?

    CSS mask属性无法获取图片 在使用CSS mask属性时,可能会遇到无法获取指定照片的情况。这个问题通常表现为: 网络面板中没有请求图片:尽管CSS代码中指定了图片地址,但网络面板中却找不到图片的请求记录。 问题原因: 此问题的可能原因是浏览器的兼容性问题。某些较旧版本的浏览器可能不支持CSS…

    2025年12月24日
    900
  • 如何用dom2img解决网页打印样式不显示的问题?

    用dom2img解决网页打印样式不显示的问题 想将网页以所见即打印的的效果呈现,需要采取一些措施,特别是在使用了bootstrap等大量采用外部css样式的框架时。 问题根源 在常规打印操作中,浏览器通常会忽略css样式等非必要的页面元素,导致打印出的结果与网页显示效果不一致。这是因为打印机制只识别…

    2025年12月24日
    800
  • 如何用 CSS 模拟不影响其他元素的链接移入效果?

    如何模拟 css 中链接的移入效果 在 css 中,模拟移入到指定链接的效果尤为复杂,因为链接的移入效果不影响其他元素。要实现这种效果,最简单的方法是利用放大,例如使用 scale 或 transform 元素的 scale 属性。下面提供两种方法: scale 属性: .goods-item:ho…

    2025年12月24日
    700
  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • PC端H5项目如何实现适配:流式布局、响应式设计和两套样式?

    PC端的适配方案及PC与H5兼顾的实现方案探讨 在开发H5项目时,常用的屏幕适配方案是postcss-pxtorem或postcss-px-to-viewport,通常基于iPhone 6标准作为设计稿。但对于PC端网项目,处理不同屏幕大小需要其他方案。 PC端屏幕适配方案 PC端屏幕适配一般采用流…

    2025年12月24日
    300
  • CSS 元素设置 10em 和 transition 后为何没有放大效果?

    CSS 元素设置 10em 和 transition 后为何无放大效果? 你尝试设置了一个 .box 类,其中包含字体大小为 10em 和过渡持续时间为 2 秒的文本。当你载入到页面时,它没有像 YouTube 视频中那样产生放大效果。 原因可能在于你将 CSS 直接写在页面中 在你的代码示例中,C…

    2025年12月24日
    400
  • 如何实现类似横向U型步骤条的组件?

    横向U型步骤条寻求替代品 希望找到类似横向U型步骤条的组件或 CSS 实现。 潜在解决方案 根据给出的参考图片,类似的组件有: 图片所示组件:图片提供了组件的外观,但没有提供具体的实现方式。参考链接:提供的链接指向了 SegmentFault 上的另一个问题,其中可能包含相关的讨论或解决方案建议。 …

    2025年12月24日
    800
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • 如何优化CSS Grid布局中子元素排列和宽度问题?

    css grid布局中的优化问题 在使用css grid布局时可能会遇到以下问题: 问题1:无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%),这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时,它们…

    2025年12月24日
    800
  • SASS 中的 Mixins

    mixin 是 css 预处理器提供的工具,虽然它们不是可以被理解的函数,但它们的主要用途是重用代码。 不止一次,我们需要创建多个类来执行相同的操作,但更改单个值,例如字体大小的多个类。 .fs-10 { font-size: 10px;}.fs-20 { font-size: 20px;}.fs-…

    2025年12月24日
    000
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • CSS mask 属性无法加载图片:浏览器问题还是代码错误?

    CSS mask 属性请求图片失败 在使用 CSS mask 属性时,您遇到了一个问题,即图片没有被请求获取。这可能是由于以下原因: 浏览器问题:某些浏览器可能在处理 mask 属性时存在 bug。尝试更新到浏览器的最新版本。代码示例中的其他信息:您提供的代码示例中还包含其他 HTML 和 CSS …

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 如何用 CSS 实现链接移入效果?

    css 中实现链接移入效果的技巧 在 css 中模拟链接的移入效果可能并不容易,因为它们不会影响周围元素。但是,有几个方法可以实现类似的效果: 1. 缩放 最简单的方法是使用 scale 属性,它会放大元素。以下是一个示例: 立即学习“前端免费学习笔记(深入)”; .goods-item:hover…

    2025年12月24日
    000
  • 网页使用本地字体:为什么 CSS 代码中明明指定了“荆南麦圆体”,页面却仍然显示“微软雅黑”?

    网页中使用本地字体 本文将解答如何将本地安装字体应用到网页中,避免使用 src 属性直接引入字体文件。 问题: 想要在网页上使用已安装的“荆南麦圆体”字体,但 css 代码中将其置于第一位的“font-family”属性,页面仍显示“微软雅黑”字体。 立即学习“前端免费学习笔记(深入)”; 答案: …

    2025年12月24日
    000
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 如何用 CSS 实现类似卡券的缺口效果?

    类似卡券的布局如何实现 想要实现类似卡券的布局,可以使用遮罩(mask)来实现缺口效果。 示例代码: .card { -webkit-mask: radial-gradient(circle at 20px, #0000 20px, red 0) -20px;} 效果: 立即学习“前端免费学习笔记(…

    2025年12月24日
    000
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何用纯代码实现自定义宽度和间距的虚线边框?

    自定义宽度和间距的虚线边框 提问: 如何创建一个自定义宽度和间距的虚线边框,如下图所示: 元素宽度:8px元素高度:1px间距:2px圆角:4px 解答: 传统的解决方案通常涉及使用 border-image 引入切片的图片来实现。但是,这需要引入外部资源。本解答将提供一种纯代码的方法,使用 svg…

    2025年12月24日
    000

发表回复

登录后才能评论
关注微信