解决BeautifulSoup网页抓取空列表问题:优化选择器与数据提取策略

解决BeautifulSoup网页抓取空列表问题:优化选择器与数据提取策略

本文旨在解决使用beautifulsoup进行网页抓取时,因选择器不准确或数据提取方式不当导致返回空列表的常见问题。通过分析错误示例,我们将重点介绍如何利用css选择器进行更精确的元素定位,并采用迭代父元素、逐个提取子元素的高效策略,辅以`.get_text()`方法确保文本内容的正确获取,从而构建稳定可靠的网页数据抓取程序。

网页抓取中空列表问题的根源

在使用Python的requests和BeautifulSoup库进行网页数据抓取时,一个常见的困扰是程序最终输出一个空列表。这通常不是因为网络请求失败(尽管这也是一个需要检查的因素),而是因为BeautifulSoup未能根据我们提供的选择器找到目标元素。

以以下代码片段为例,它尝试从inshorts.com抓取新闻标题和内容:

import requestsfrom bs4 import BeautifulSoupurl = 'https://inshorts.com/en/read/technology'news_data = []news_category = url.split('/')[-1]headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}data = requests.get(url, headers=headers)if data.status_code == 200:    soup = BeautifulSoup(data.content, 'html.parser')    # 原始代码中的选择器    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])    if headlines and articles and len(headlines) == len(articles):        news_articles = [            {                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,                'news_category': news_category            }            for headline, article in zip(headlines, articles)        ]        news_data.extend(news_articles)print(news_data)

这段代码返回空列表的主要原因在于其选择器存在问题。soup.find(‘div’, class_=[‘news-card-title’, ‘news-right-box’])和soup.find(‘div’, class_=[‘news-card-content’, ‘news-right-box’])这两个语句很可能返回None。find()方法只返回匹配的第一个元素,并且在处理class_参数时,传入列表通常表示匹配所有这些类,而不是匹配其中任意一个。更重要的是,如果选择器不准确,find()将直接返回None,导致后续对headlines或articles进行操作时引发错误,或者在if headlines and articles条件判断时直接失败,最终导致news_data保持为空。此外,即使元素被找到,find_all(…).string也可能无法正确提取文本,因为find_all返回的是一个列表,即使只有一个元素,也需要进一步处理,且.string属性仅适用于只有一个子节点的标签。

优化选择器与数据提取策略

为了解决上述问题,我们需要采用更精确的选择器和更健壮的数据提取逻辑。关键在于:

虎课网 虎课网

虎课网是超过1800万用户信赖的自学平台,拥有海量设计、绘画、摄影、办公软件、职业技能等优质的高清教程视频,用户可以根据行业和兴趣爱好,自主选择学习内容,每天免费学习一个…

虎课网 62 查看详情 虎课网 利用CSS选择器: Beautiful Soup支持强大的CSS选择器,通过select()和select_one()方法,我们可以编写更简洁、更准确的定位规则。定位父级容器: 优先找到包含所有目标信息的共同父级容器。这样可以确保我们处理的是一个个完整的数据单元。迭代与局部提取: 遍历每个父级容器,然后在该容器的范围内进一步提取其子元素的信息。使用.get_text(): 确保正确提取元素的文本内容,避免.string属性可能带来的问题。

改进后的抓取代码示例

以下是优化后的代码,展示了如何应用这些策略:

import requestsfrom bs4 import BeautifulSoupurl = 'https://inshorts.com/en/read/technology'news_data = []news_category = url.split('/')[-1]headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}data = requests.get(url, headers=headers)if data.status_code == 200:    soup = BeautifulSoup(data.content, 'html.parser')    # 使用CSS选择器定位每个新闻文章的父级容器    # 经过网页检查,发现每个新闻文章都由一个具有特定itemtype属性的div包裹    for article in soup.select('[itemtype="http://schema.org/NewsArticle"]'):        # 在每个article容器内,使用select_one定位标题和文章内容        headline_element = article.select_one('[itemprop="headline"]')        article_body_element = article.select_one('[itemprop="articleBody"]')        # 检查元素是否存在,并使用.get_text()提取文本        news_headline = headline_element.get_text(strip=True) if headline_element else "N/A"        news_article = article_body_element.get_text(strip=True) if article_body_element else "N/A"        news_data.append(            {                'news_headline': news_headline,                'news_article': news_article,                'news_category': news_category            }        )print(news_data)

代码解析:

soup.select(‘[itemtype=”http://schema.org/NewsArticle”]’): 这是核心改进。通过检查目标网页的HTML结构(通常使用浏览器开发者工具),我们发现每篇新闻文章都由一个div标签包裹,该标签具有itemtype=”http://schema.org/NewsArticle”属性。这是一个非常精确且稳定的CSS选择器,能够直接选中所有新闻文章的根容器。select()方法会返回一个匹配所有元素的列表。for article in …: 我们遍历select()返回的每个article元素,确保我们逐个处理每篇新闻。article.select_one(‘[itemprop=”headline”]’) 和 article.select_one(‘[itemprop=”articleBody”]’): 在每个article容器的内部,我们再次使用select_one()方法来定位新闻标题(itemprop=”headline”)和文章主体(itemprop=”articleBody”)。select_one()只返回第一个匹配的元素,适用于我们期望只找到一个标题或一个文章主体的情况。.get_text(strip=True): 这是提取文本内容的推荐方法。get_text()会获取元素及其所有子元素的可见文本内容,strip=True参数可以去除文本两端的空白字符,使结果更整洁。同时,我们添加了if headline_element else “N/A”这样的检查,以防某些元素确实缺失,增强代码的鲁棒性。

注意事项与最佳实践

审查HTML结构: 在编写任何选择器之前,务必使用浏览器的开发者工具(F12)仔细检查目标网页的HTML结构。理解元素的层级关系、ID、类名、属性等是编写有效选择器的基础。CSS选择器优先: 对于复杂的选择需求,CSS选择器通常比find()和find_all()的组合更强大、更简洁。它们支持ID、类名、属性、子元素、兄弟元素等多种组合方式。处理动态内容: 如果目标网站使用JavaScript动态加载内容,requests和BeautifulSoup可能无法获取到这些内容。此时,您可能需要考虑使用Selenium等工具来模拟浏览器行为。User-Agent: 在请求头中设置User-Agent是一个良好的实践,可以模拟浏览器访问,降低被网站识别为爬虫并阻止的风险。错误处理: 始终考虑网络请求失败(data.status_code != 200)和元素未找到(选择器返回None或空列表)的情况,并进行相应的错误处理或默认值设置。遵守Robots协议: 在进行网页抓取时,请务必查看网站的robots.txt文件,了解网站是否允许爬取以及允许爬取的范围。尊重网站的使用条款。

总结

当BeautifulSoup返回空列表时,通常意味着您的选择器未能准确匹配目标元素。通过采用更精确的CSS选择器(如select()和select_one()),定位包含完整数据单元的父级容器,并在其内部进行迭代和局部提取,结合使用.get_text()方法,可以显著提高网页抓取程序的稳定性和准确性。始终牢记,深入理解目标网页的HTML结构是编写高效、健壮爬虫的关键。

以上就是解决BeautifulSoup网页抓取空列表问题:优化选择器与数据提取策略的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/596572.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 18:31:14
下一篇 2025年11月10日 18:32:15

相关推荐

  • Python中如何定义线程池任务类?

    在python中定义线程池任务类使用concurrent.futures模块中的threadpoolexecutor。1)定义任务类封装复杂逻辑,使任务执行模块化。2)使用threadpoolexecutor管理线程池,根据任务性质调整线程数。3)任务返回值通过future对象管理。4)处理任务依赖…

    2025年12月14日
    000
  • Python中如何实现异常日志记录?

    在python中,实现异常日志记录可以通过以下步骤实现:1.使用try-except块捕获异常;2.利用logging模块记录这些异常。具体操作包括配置logging模块,记录详细的异常信息,并可将日志保存到文件中,以支持多线程环境和异步日志记录来优化性能。 让我们深入探讨一下在Python中如何实…

    2025年12月14日
    000
  • Python中如何单元测试?

    单元测试在python中至关重要,帮助确保代码的正确性和可靠性。1)使用unittest模块编写和运行测试,验证函数或方法的正确性。2)确保测试覆盖率,涵盖所有路径和边界条件。3)使用模拟和打桩技术隔离测试对象,确保测试的独立性。4)采用测试驱动开发(tdd)方法,先写测试再写代码。5)将测试集成到…

    2025年12月14日
    000
  • Python中怎样写入Excel文件?

    在python中,写入excel文件可以使用openpyxl或pandas库。1. 使用openpyxl库创建工作簿并写入数据,如在a1单元格写入文本。2. 使用pandas库将dataframe写入excel文件,适用于数据分析。3. 处理大量数据时,可用xlsxwriter库提高性能。4. op…

    2025年12月14日
    000
  • Python中如何实现词频统计?

    在python中实现词频统计可以通过以下步骤进行:1. 使用字典统计词频,2. 改进代码处理大小写和标点符号,3. 使用生成器处理大文件,4. 过滤停用词,5. 优化性能和扩展性。每个步骤都提供了不同的实现方法和优化策略,适用于不同规模和需求的文本处理任务。 在Python中实现词频统计其实是一件非…

    2025年12月14日
    000
  • Python中如何定义协议类?

    在python中,我们可以通过抽象基类(abc)来定义协议类。具体步骤包括:1)导入abc模块中的abc和abstractmethod;2)创建一个继承自abc的类,并使用abstractmethod装饰器定义需要实现的方法。使用协议类可以确保代码的一致性和可维护性,但需要注意python的动态类型…

    2025年12月14日
    000
  • Python中怎样重写父类方法?

    在python中重写父类方法通过在子类中重新定义同名方法来实现。1)定义与父类同名的方法。2)使用super()调用父类方法。3)确保继承链上所有方法被调用。4)避免常见错误如忘记调用父类方法或拼写错误。 在Python中重写父类方法是一项常见的操作,尤其在面向对象编程中非常重要。这不仅仅是简单的语…

    2025年12月14日
    000
  • Python中如何实现Dijkstra算法?

    在python中实现dijkstra算法需要使用优先队列和字典来存储节点距离。具体步骤包括:1)初始化所有节点距离为无穷大,起始节点距离设为0;2)使用heapq模块创建优先队列,并循环弹出最短路径节点;3)更新邻居节点距离并加入优先队列,直到所有节点被访问。该算法适用于非负权重图,实际应用中需注意…

    2025年12月14日
    000
  • Python中如何将代码编译成exe?

    在python中可以使用pyinstaller将代码编译成exe文件。1.安装pyinstaller:pip install pyinstaller。2.编译命令:pyinstaller –onefile main.py。3.处理第三方库问题:使用–hidden-import…

    2025年12月14日
    000
  • Python中如何遍历DOM树?

    在python中,遍历dom树是为了解析和操作文档元素。使用beautifulsoup库,可以通过递归或迭代方法遍历dom树:1)递归方法直观但可能导致栈溢出;2)迭代方法高效,避免栈溢出。完整句子结束。 在Python中遍历DOM树是一个常见的任务,尤其是在处理HTML或XML文档时。你可能会问,…

    2025年12月14日
    000
  • Python中如何使用__str__方法?

    在python中,__str__方法用于定义对象的字符串表示形式。1) 返回人类可读的字符串,简洁明了。2) 与__repr__方法不同,__str__提供更友好的输出。3) 实现__str__方法避免对象显示默认内存地址。4) 使用多行字符串或f-string提高可读性和简化格式化。 在Pytho…

    2025年12月14日
    000
  • 如何在Python中创建协程?

    在python中创建协程使用asyncio库,通过async和await关键字实现。1)定义协程函数,使用async关键字。2)在协程中使用await暂停执行。3)使用asyncio.run启动事件循环。协程通过事件循环实现高效并发,适用于i/o密集型任务。 在Python中创建协程是件有趣的事情,…

    2025年12月14日
    000
  • Python中如何定义可复用的混入类?

    在python中定义可复用的混入类可以通过以下步骤实现:1.定义混入类并提供方法和属性,2.通过多重继承让其他类使用混入类,3.注意避免状态依赖、方法名冲突和初始化问题。混入类是一种特殊的类,用于提供额外的功能而不改变类的继承关系,可以提高代码复用性和模块化设计,但需注意代码可读性、性能和测试维护。…

    2025年12月14日
    000
  • 如何在Python中实现装饰器链?

    在python中实现装饰器链可以通过将多个装饰器依次应用于目标函数来实现。具体步骤如下:1.定义每个装饰器,使用@wraps保持函数元数据。2.将装饰器从下到上应用于目标函数,注意执行顺序。3.使用装饰器链可以实现如缓存和权限检查等功能。通过这些步骤,可以在不改变函数原型的情况下增强其功能。 在Py…

    2025年12月14日
    000
  • Python中怎样实现JWT认证?

    在python中实现jwt认证可以通过以下步骤实现:1. 生成jwt,使用用户id和过期时间作为载荷,并使用hs256算法进行签名;2. 验证jwt,使用相同的密钥解码令牌并检查其有效性;3. 在flask中使用jwt认证,通过装饰器验证请求中的jwt。注意密钥安全、过期时间设置、算法选择和载荷内容…

    2025年12月14日
    000
  • Python中如何控制浏览器?

    python可以通过selenium webdriver控制浏览器。1)安装并配置浏览器驱动,如chromedriver。2)使用无头模式提高性能。3)处理异常以增强脚本健壮性。4)注意隐私和安全,避免违反网站条款。selenium适用于自动化测试和数据抓取,但处理复杂javascript和速度较慢…

    2025年12月14日
    000
  • Python中如何实现拓扑排序?

    在python中,拓扑排序可以通过深度优先搜索(dfs)实现。1)定义一个函数使用dfs遍历图,并在回溯时将节点加入结果列表。2)使用集合记录已访问节点,避免重复访问。3)反转结果列表以获得正确的拓扑顺序。实现时需注意处理图中的环,避免无限递归,并考虑使用kahn算法优化大图的排序效率。 在Pyth…

    2025年12月14日
    000
  • Python中如何实现链式调用?

    在python中实现链式调用需要每个方法返回self。具体步骤包括:1.定义类和方法,每个方法操作对象并返回self;2.使用链式调用执行多个方法,最终调用get_result()获取结果。链式调用提升了代码的简洁性和可读性,但需注意调试复杂性和副作用追踪。 在Python中,链式调用是一种非常优雅…

    2025年12月14日
    000
  • 怎样使用Python的while循环?

    在python中,如何有效使用while循环?首先,确保循环条件最终会变为假;其次,在循环体内修改变量以改变循环条件。while循环适合需要手动控制循环次数或条件的场景,但要避免滥用,确保有明确的退出条件,并可添加调试信息来跟踪循环执行情况。 在Python编程中,while循环是我们这些代码老手常…

    2025年12月14日
    000
  • Python中怎样使用websockets库?

    使用websockets库可以实现实时双向通信。1)通过pip安装websockets库。2)编写服务器和客户端代码,实现基本的websocket通信。3)注意异步编程、错误处理、性能优化、安全性和调试技巧。 在Python中使用websockets库可以实现实时的双向通信,这在构建实时应用如聊天室…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信