使用Selenium和显式等待抓取动态加载的网页数据

程序猿 • 2025年11月11日 06:10:41 • web前端 • 阅读 0

本文探讨了在使用beautifulsoup抓取网页数据时，遇到动态加载内容（如javascript渲染的数据）时无法获取真实值的常见问题。针对此挑战，教程详细介绍了如何利用selenium webdriver及其显式等待（webdriverwait和expected_conditions）机制，确保在元素加载并可见后，准确地提取网页中的动态数据，从而克服传统静态解析器的局限性。

在进行网页数据抓取时，开发者经常会遇到一种情况：通过浏览器开发者工具检查页面，发现目标数据（如日期、月份、年份）存在于HTML结构中，但在使用BeautifulSoup等静态解析库抓取后，得到的结果却是类似于{{ WMService.auctionStartDate(lot.auction) | moment:’MMMM’ }}这样的模板变量或占位符，而非实际的文本内容。这通常是因为这些数据是通过JavaScript动态加载和渲染的，而不是在页面初始HTML源码中直接提供的。BeautifulSoup只能解析页面加载时的静态HTML，无法执行JavaScript代码来渲染动态内容。

理解动态加载内容

现代网页为了提升用户体验，普遍采用JavaScript来动态地加载和更新页面内容。这意味着当浏览器首次加载一个页面时，某些数据可能并未立即呈现在DOM中。相反，它们会在页面加载完成后，通过JavaScript向后端发送请求，获取数据后再将其插入到页面的相应位置。因此，如果我们在JavaScript执行之前就尝试抓取这些元素，就只能获取到它们的初始占位符状态。

解决方案：结合Selenium与显式等待

为了解决这一问题，我们需要使用一个能够模拟真实浏览器行为的工具，即Selenium WebDriver。Selenium不仅可以加载页面，还能执行页面上的JavaScript代码，从而确保所有动态内容都被渲染出来。然而，仅仅使用Selenium加载页面还不够，因为JavaScript的执行和数据渲染可能需要一定时间。此时，就需要引入“显式等待”机制，确保目标元素在被抓取之前已经完全加载并可见。

1. 导入必要的模块

首先，确保你的Python环境中安装了Selenium库，并下载了对应的浏览器驱动（如ChromeDriver）。然后，导入Selenium中用于定位元素、等待条件和显式等待的模块：

from selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as EC

By: 用于指定元素定位策略，例如通过XPath、CSS选择器、ID等。WebDriverWait: 这是显式等待的核心类，它允许你设置一个最长等待时间，并在此期间持续检查某个条件是否满足。expected_conditions as EC: 这是一个包含了一系列预定义等待条件的模块，例如等待元素可见、可点击、存在等。

2. 初始化WebDriver并导航至目标页面

在抓取数据之前，你需要初始化一个浏览器实例（例如Chrome）：

沉浸式翻译

沉浸式翻译：全网口碑炸裂的双语对照网页翻译插件

83 查看详情

from selenium import webdriver# 假设你已经配置好了ChromeDriver的路径，或者将其放到了系统PATH中browser = webdriver.Chrome()browser.get("你的目标网页URL")

3. 使用显式等待获取动态加载的元素

一旦页面加载，我们可以使用WebDriverWait来等待特定的动态元素出现并变得可交互。以下代码演示了如何等待并获取包含月份、日期和年份的元素：

# 等待月份元素出现并可点击（或者可见）# 最长等待时间设置为20秒month_element = WebDriverWait(browser, 20).until(    EC.element_to_be_clickable((By.XPATH, "//span[@class='month ng-binding']")))# 获取元素的文本内容month = month_element.text# 等待日期元素出现并可点击day_element = WebDriverWait(browser, 20).until(    EC.element_to_be_clickable((By.XPATH, "//span[@class='date ng-binding']")))day = day_element.text# 等待年份元素出现并可点击year_element = WebDriverWait(browser, 20).until(    EC.element_to_be_clickable((By.XPATH, "//span[@class='year ng-binding']")))year = year_element.textprint(f"抓取到的日期信息: 月份={month}, 日期={day}, 年份={year}")

代码解析：

WebDriverWait(browser, 20): 创建一个WebDriverWait实例，它将对browser（WebDriver对象）进行操作，最长等待时间为20秒。.until(…): 这是等待的核心方法，它会持续调用传入的条件，直到条件返回True（表示条件满足）或超出最大等待时间。EC.element_to_be_clickable((By.XPATH, “//span[@class=’month ng-binding’]”)): 这是一个预定义的等待条件。它表示等待一个通过XPath定位的元素变得可见并可点击。By.XPATH指定了定位策略，”//span[@class=’month ng-binding’]”是XPath表达式，用于精确匹配具有month和ng-binding这两个class的标签。.text: 获取定位到的WebElement对象的可见文本内容。

4. 注意事项与最佳实践

选择合适的等待条件： EC模块提供了多种等待条件，例如：presence_of_element_located: 元素存在于DOM中。visibility_of_element_located: 元素存在于DOM中且可见（非隐藏）。element_to_be_clickable: 元素可见且可点击。根据实际需求选择最合适的条件，通常visibility_of_element_located或element_to_be_clickable更为常用，因为它们确保了元素不仅存在，而且用户也能看到或与之交互。设置合理的等待时间： WebDriverWait中的等待时间应根据目标网页的加载速度和网络状况进行调整。设置过短可能导致抓取失败，过长则会增加脚本执行时间。元素定位策略： 优先使用ID或具有唯一性的CSS选择器进行定位，因为它们通常更稳定。如果ID不可用，XPath或更具体的CSS选择器也是有效的选择。在动态加载的页面中，class属性可能会被JavaScript修改，因此需要谨慎选择定位器。异常处理： 在实际应用中，建议使用try-except块来捕获TimeoutException，以应对元素在规定时间内未能加载的情况，从而提高脚本的健壮性。关闭浏览器： 在所有抓取任务完成后，务必关闭WebDriver实例，释放资源：browser.quit()。

通过结合Selenium的浏览器模拟能力和显式等待机制，我们可以有效地应对动态加载的网页内容，确保在数据完全渲染后进行准确的抓取，从而克服BeautifulSoup等静态解析工具的局限性。这种方法在处理高度交互式或JavaScript驱动的网站时尤为重要。

以上就是使用Selenium和显式等待抓取动态加载的网页数据的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/620170.html

ai css html java javascript python webdriver 后端工具常见问题浏览器

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

324.3K 文章

0 评论

1 粉丝

这个人很懒，什么都没有留下～

Flexbox布局中子元素的精确对齐技巧

上一篇 2025年11月11日 06:10:04

Animate.css中的animated类：实现网页动画的基石

下一篇 2025年11月11日 06:12:32

Dash应用中通过URI片段实现选项卡间导航与同步

本文将详细介绍如何在dash多选项卡应用中，利用`dcc.location`组件和回调函数，通过uri片段（url哈希值）实现选项卡之间的导航与状态同步。用户可以通过点击链接激活不同的选项卡，同时确保url与当前活动选项卡状态保持一致，提升用户体验和应用的鲁棒性。在构建复杂的Dash应用程序时，多…

程序猿
好文分享 2025年12月14日
0000
好文分享

Python库安装故障排除：解决pywinpty和sklearn警告与正确实践

在Python开发中，通过pip安装库时常会遇到警告信息，即使最终显示“所有需求已满足”，也可能存在潜在问题。本文将深入探讨如何诊断并解决常见的安装警告，特别是针对`pywinpty`的编译依赖问题和`sklearn`的包名弃用警告，并提供一套通用的故障排除流程，确保您的Python环境稳定且库正确…

程序猿
2025年12月14日
0000
好文分享

解决Mypy在cached_property派生类中类型推断不一致的问题

本文探讨了在使用`functools.cached_property`的派生类时，mypy类型检查器行为不一致的问题。当直接使用`cached_property`时，mypy能正确推断类型错误，但继承后则可能失效。核心原因在于mypy对内置装饰器与自定义装饰器的类型推断机制差异。解决方案是通过将派生…

程序猿
2025年12月14日
0000
好文分享

Tkinter 文件与文件夹选择：实现灵活的文件系统路径输入

tkinter的`filedialog`模块通常将文件和文件夹选择功能分开。本文将介绍一种实用的方法，通过组合`askopenfilename`和`askdirectory`函数，实现一个统一的对话框，允许用户灵活选择文件或文件夹，从而优化用户体验并简化路径输入流程。引言：Tkinter 文件系统…

程序猿
2025年12月14日
0000
好文分享

在 macOS 上使用 PyObjC 实现 MPEG-4 音频文件的拖放功能

本文详细介绍了如何在 macos 环境下，利用 pyobjc 框架实现应用程序的拖放功能，特别是针对 mpeg-4 音频文件的处理。文章阐述了正确注册拖放类型（如 `public.audio`、`public.mpeg-4-audio` 及 url/文件 url 类型）的重要性，并提供了从拖放操作中…

程序猿
2025年12月14日
0000
好文分享

使用 Ruff 在指定目录中忽略特定规则

本文介绍了如何使用 Ruff 工具在 Python 项目中，针对特定目录或文件，忽略指定的规则。通过 pyproject.toml 配置文件中的 per-file-ignores 设置，可以灵活地控制 Ruff 的检查行为，例如忽略测试目录下的文档字符串规范检查。 Ruff 是一款快速的 Pytho…

程序猿
2025年12月14日
0000
好文分享

使用 Python 实现矩阵的行阶梯形变换

本文详细介绍了如何使用 Python 实现矩阵的行阶梯形变换，重点在于避免使用任何内置函数，并提供详细的代码示例和步骤说明，帮助读者理解算法原理并掌握实现方法。文章还包含了关于部分主元法和数值稳定性的讨论，以及最终代码的输出示例。矩阵行阶梯形变换的原理矩阵的行阶梯形（Row Echelon Fo…

程序猿
2025年12月14日
0000
好文分享

在Pandas DataFrame中高效生成重复序列与组合数据

本教程详细介绍了如何在Pandas DataFrame中高效生成具有重复值和递增序列的列。文章通过构建列表再转换为DataFrame的方法，解决了在循环中创建DataFrame的低效问题，并探讨了使用`itertools.product`等更Pandas风格的解决方案，旨在帮助用户掌握数据框列的灵活…

程序猿
2025年12月14日
0000
好文分享

Dash Python：实现多标签页应用中的内部链接导航

本教程详细介绍了如何在dash多标签页应用中，通过点击页面内的超链接来激活不同的标签页。核心方法是利用`dcc.location`组件管理uri片段（hash），并结合回调函数同步`dcc.location`的`hash`属性与`dbc.tabs`的`active_tab`属性，从而实现基于url状…

程序猿
2025年12月14日
0000
好文分享

Python中临时音频文件删除策略：利用内存文件对象解决文件占用问题

本文旨在解决python中删除临时音频文件时因文件占用导致`os.remove()`失败的问题，尤其是在windows环境下。核心方案是利用`io.bytesio`创建内存文件对象，将音频数据加载到内存而非磁盘，从而避免文件被锁定，确保临时文件能够顺利删除。教程将提供详细的实现步骤和代码示例，并探讨…

程序猿
2025年12月14日
0000
好文分享

Python字符串分割与索引操作：实现交替单词大写

本文介绍了如何使用Python对字符串进行分割，并通过索引操作来处理分割后的单词列表，最终实现将字符串中交替出现的单词转换为大写的功能。文章提供了两种实现方法：一种是使用传统的for循环，另一种是使用Python的列表推导式，并附带代码示例，帮助读者理解和掌握相关技巧。字符串分割与单词操作在Py…

程序猿
2025年12月14日
0000
好文分享

在Pandas DataFrame中高效生成重复与递增序列

本教程旨在详细介绍在Pandas DataFrame中生成特定数值序列的多种方法，包括创建重复值列和对应的递增序列列。我们将从基于列表的循环构建，逐步深入到使用NumPy矢量化操作以及Pandas原生`MultiIndex.from_product`等更高效、更具Pythonic风格的解决方案，并提…

程序猿
2025年12月14日
0000
好文分享

Python字符串按索引操作：实现单词交替大小写

本文旨在讲解如何使用Python对字符串进行分割，并通过索引操作列表中的每个单词，最终实现字符串中单词的交替大小写转换。文章将提供两种实现方法，包括传统的for循环和Python的列表推导式，并附带详细的代码示例和解释，帮助读者理解和掌握字符串操作的技巧。在Python中，字符串操作是一项基本且重…

程序猿
2025年12月14日
0000
好文分享

python中的Locust是什么

Locust是基于Python的开源性能测试工具，通过编写Python脚本定义用户行为，利用协程实现高并发，支持实时Web界面监控和分布式部署，适用于需自定义逻辑的Web应用负载测试。 Locust 是一个基于 Python 的开源性能测试工具，主要用于模拟大量用户并发访问系统，从而测试 Web 应…

程序猿
2025年12月14日
0000
好文分享

Dash dbc.Tabs 高级交互：通过内部链接实现标签页动态切换

本教程旨在详细阐述如何在 dash 应用程序中，特别是使用 `dash-bootstrap-components` 的 `dbc.tabs` 组件时，通过内部链接实现不同标签页的动态切换。核心方法是利用 `dcc.location` 组件监听 uri 片段（hash），并通过回调函数将 url ha…

程序猿
2025年12月14日
0000
好文分享

Django动态URL模式在i18n_patterns中遭遇404错误的解决方案

在Django框架中，动态URL模式是构建灵活、可扩展Web应用的关键。然而，当这些动态URL与Django的国际化（i18n）功能，特别是i18n_patterns结合使用时，开发者可能会遇到意料之外的404错误，尤其是在从开发环境部署到生产环境时。本教程将详细解析这一问题，并提供一套行之有效的解…

程序猿
2025年12月14日
0000
好文分享

NumPy高级索引与布尔索引：避免赋值失效的正确姿势

本文深入探讨了在numpy中使用链式高级索引和布尔索引进行赋值时常见的陷阱。当对 `b[i_b][ij_b] = true` 这样的表达式进行赋值操作时，由于高级索引返回的是数据副本而非视图，导致原始数组 `b` 未被修改。文章将详细解释这一机制，并提供一种高效的向量化解决方案，即直接使用 `b[i…

程序猿
2025年12月14日
0000
好文分享

深入理解 PyTorch Conv1d 层的权重维度

本文深入探讨 pytorch `conv1d` 层中权重张量的维度构成。通过分析其内部机制，特别是 `in_channels` 参数对权重形状的影响，解释了为何权重维度通常为 `(out_channels, in_channels, kernel_size)`，而非直观的 `(out_channel…

程序猿
2025年12月14日
0000
好文分享

如何在Pandas DataFrame中生成重复与序列组合的列数据

本文旨在详细讲解如何在pandas dataframe中高效生成具有特定重复和序列模式的列数据。我们将从理解需求出发，分析常见误区，并提供多种解决方案，包括基于列表构建、利用`itertools.product`以及使用numpy和pandas的向量化操作，旨在帮助读者根据实际场景选择最合适的实现方…

程序猿
2025年12月14日
0000
好文分享

Python加密Excel文件：实现文件级密码保护

本教程旨在解决使用python为excel文件设置文件级密码保护的难题。针对`openpyxl`和`xlsxwriter`等库仅支持工作表加密的局限性，我们推荐结合`msoffice-crypt`工具，通过创建excel文件后进行后处理加密，从而实现对整个`.xlsx`文件的安全保护，适用于需要通过…

程序猿
2025年12月14日
0000