使用Selenium和Python从动态加载的网页表格中精准提取数据

使用selenium和python从动态加载的网页表格中精准提取数据

本文详细阐述了如何利用Selenium和Python高效地从动态加载的网页表格中抓取特定数据。教程聚焦于解决识别复杂HTML元素(如单个`

`内嵌套多个字段)和处理“加载更多”按钮等动态内容加载的挑战,通过优化定位器、运用`WebDriverWait`进行同步以及健壮的错误处理机制,确保数据提取的准确性与稳定性。

网页数据抓取:Selenium与Python实战指南

在进行网页数据抓取时,经常会遇到动态加载内容和复杂HTML结构的情况,这给传统的数据提取方法带来了挑战。本教程将以从金融网站抓取股票信息为例,详细介绍如何使用Selenium和Python克服这些难题,实现精准、高效的数据提取。

1. 初始化WebDriver与页面导航

首先,我们需要导入必要的Selenium模块,并初始化Chrome浏览器驱动。为了确保页面元素的完整显示,建议最大化浏览器窗口。

from selenium import webdriverfrom selenium.common.exceptions import NoSuchElementException, StaleElementReferenceExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWaitimport time# 定义目标URLurl = 'https://www.tradingview.com/markets/stocks-turkey/market-movers-all-stocks/'# 初始化Chrome WebDriverdriver = webdriver.Chrome()# 最大化浏览器窗口,有助于确保所有元素可见driver.maximize_window()# 访问目标网页driver.get(url)

2. 处理动态加载内容(“加载更多”按钮)

许多网站采用无限滚动或“加载更多”按钮来动态加载数据。为了获取所有数据,我们需要模拟点击这些按钮直到所有内容加载完毕。这里我们采用一个while循环,持续点击“Load More”按钮,直到按钮不再出现或变为陈旧(StaleElementReferenceException)。

立即学习“Python免费学习笔记(深入)”;

print("开始加载所有数据...")while True:    try:        # 尝试查找并点击“Load More”按钮        # 使用text()函数定位包含特定文本的span元素        load_more_button = driver.find_element(By.XPATH, '//span[text()="Load More"]')        load_more_button.click()        # 添加一个短暂的等待,让页面有时间响应点击并加载新内容        time.sleep(0.5)     except StaleElementReferenceException:        # 当“Load More”按钮不再出现或其引用失效时,说明所有内容已加载,跳出循环        print("所有数据已加载或“加载更多”按钮已消失。")        break    except NoSuchElementException:        # 如果一开始就没有找到“Load More”按钮,或者所有数据加载完毕后按钮彻底消失,也跳出循环        print("未找到“加载更多”按钮,可能已加载完毕或页面结构不同。")        break    except Exception as e:        # 捕获其他可能的异常        print(f"点击“加载更多”时发生未知错误: {e}")        break

注意事项:

上述代码利用StaleElementReferenceException和NoSuchElementException来判断“加载更多”按钮是否已完全消失或不可用。这是一种处理动态元素消失的健壮策略。虽然time.sleep()在这里用于稍微等待页面响应,但在更复杂的场景中,推荐使用WebDriverWait等待特定元素出现或消失,以实现更精确的同步。

3. 精准提取表格数据

一旦所有数据加载完毕,下一步就是遍历表格行并提取所需的信息。目标网页的结构特点是,股票代码和名称可能嵌套在同一个

元素内。我们需要通过更精细的XPath或CSS选择器来定位这些子元素。

首先,使用WebDriverWait等待所有表格行可见,以确保页面加载稳定。

print("开始提取数据...")# 初始化WebDriverWait,设置最大等待时间为10秒wait = WebDriverWait(driver, 10)# 等待所有具有特定CSS选择器的表格行可见# 'table[class="table-Ngq2xrcG"] tr.listRow' 精确定位到表格主体内的每一行数据rows = wait.until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR,'table[class="table-Ngq2xrcG"] tr.listRow')))

接下来,遍历每一行并提取数据。对于嵌套在单个

中的元素,我们将使用相对XPath进行定位。

关键点解析:

相对XPath (./td[1]//a): 当从一个父元素(row,即)查找子元素时,使用./开头表示从当前元素开始查找。td[1]选择第一个元素,//a则在其内部查找任意层级的元素。这种方式对于从复杂单元格中分离数据非常有效。处理缺失元素: 并非所有数据行都包含所有字段(例如,某些股票可能没有明确的行业分类)。使用try-except NoSuchElementException块是处理这种情况的健壮方法,可以避免程序崩溃并提供默认值。

4. 完整代码示例

将上述所有部分整合,形成一个完整且可运行的Python脚本:

from selenium import webdriverfrom selenium.common.exceptions import NoSuchElementException, StaleElementReferenceExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDriverWaitimport time# 定义目标URLurl = 'https://www.tradingview.com/markets/stocks-turkey/market-movers-all-stocks/'# 初始化Chrome WebDriverdriver = webdriver.Chrome()driver.maximize_window() # 最大化窗口driver.get(url) # 访问网页print("开始加载所有数据...")# 循环点击“加载更多”按钮,直到所有数据加载完毕while True:    try:        # 尝试查找并点击“Load More”按钮        load_more_button = driver.find_element(By.XPATH, '//span[text()="Load More"]')        load_more_button.click()        time.sleep(0.5) # 稍微等待,减少StaleElementReferenceException的发生几率    except StaleElementReferenceException

以上就是使用Selenium和Python从动态加载的网页表格中精准提取数据的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1379755.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 20:55:38
下一篇 2025年12月14日 20:55:48

相关推荐

  • Python断言失败错误AssertionError处理方法

    断言失败错误 AssertionError 由 assert 条件不成立触发,常用于调试和测试,如参数或状态异常时抛出;应避免在生产环境依赖 assert,推荐使用 if 判断配合 raise 提高可靠性。 断言失败错误 AssertionError 是 Python 中常见的异常之一,通常出现在使…

    2025年12月14日
    000
  • 高效地将变长列表数据整合到Pandas DataFrame

    本文旨在提供一种高效且避免DataFrame碎片化的方法,将包含不同长度子列表的数据以及对应的列名列表整合到现有的Pandas DataFrame中。我们将利用Python的`itertools.zip_longest`函数处理变长数据,并通过巧妙的转置与字典构建,最终使用`pd.concat`将新…

    2025年12月14日
    000
  • 实现Angular-Flask应用中的用户数据个性化功能

    本教程详细介绍了如何在Angular前端与Flask后端应用中构建用户数据个性化功能,以展示用户专属的汽车租赁预订信息。内容涵盖了从后端会话管理和用户ID传递,到前端服务层的数据获取与组件渲染的完整流程,并纠正了在用户登录后未能正确将用户ID传递至前端的关键问题,确保用户只能查看自己的预订记录。 在…

    2025年12月14日
    000
  • Python教程:如何识别各位乘积等于自身的两位数

    本文将指导读者如何使用python编写程序,查找所有两位数(10到99之间),这些数字满足其十位和个位数字的乘积等于数字本身的条件。我们将详细解释如何通过整数除法和取模运算提取数字的各位,并提供完整的python实现代码及解释,帮助读者掌握处理数字位数的常用技巧。 引言:理解问题 在数学和编程中,我…

    2025年12月14日
    000
  • Python Tkinter非阻塞键盘输入处理:无需外部库的实现指南

    本教程将指导您如何在python中利用tkinter框架实现非阻塞的键盘输入检测,尤其针对方向键。文章将详细阐述如何通过绑定`keypress`事件到自定义回调函数来监听用户按键,从而在不依赖任何外部库的情况下,高效处理键盘事件,确保应用程序的响应性,适用于需要避免外部依赖的项目。 引言 在开发交互…

    2025年12月14日
    000
  • Python3怎么安装到U盘_Python3便携版安装到U盘使用方法

    首先下载Python嵌入式版本解压至U盘,创建批处理文件启动;接着配置site-packages目录和.pth路径,安装pip并离线部署第三方库;最后注意跨设备使用时的兼容性与数据安全。 Python3便携版安装到U盘的操作指南 Python3便携版安装到U盘的方法有哪些?这是许多开发者和学习者关心…

    2025年12月14日
    000
  • Python爬虫如何提取数据_Python爬虫从网页中提取目标数据的技巧

    使用requests获取网页内容,结合BeautifulSoup或lxml解析HTML,通过CSS选择器或XPath提取数据;2. 针对动态加载页面,采用Selenium模拟浏览器渲染;3. 提取后进行数据清洗并结构化存储为CSV或JSON。 Python爬虫提取网页数据的核心在于准确识别并定位目标…

    2025年12月14日
    000
  • python异常链是什么

    异常链保留异常关联,隐式链自动记录原异常,显式链用raise…from指定因果,可提升错误排查效率。 Python异常链(Exception Chaining)是指在处理一个异常的过程中,又引发了另一个异常,Python会自动保留这两个异常之间的关联,形成“异常链”。这样做的目的是在程序…

    2025年12月14日
    000
  • Python3安装后怎么设置编码_Python3默认编码设置与修改方法

    Python3默认使用UTF-8编码,可通过sys.getdefaultencoding()查看,默认源码文件需以UTF-8保存并添加# — coding: utf-8 –声明,运行时可借助locale、io模块或环境变量PYTHONIOENCODING调整编码行为。 Pyt…

    2025年12月14日
    000
  • Python多线程如何优雅退出 Python多线程停止和回收机制

    答案:通过标志位、Event事件、处理阻塞超时及join等待实现安全退出。使用布尔标志或threading.Event通知线程退出,结合循环中定期检查与超时机制应对阻塞操作,确保资源释放后调用thread.join()完成清理,避免强制终止导致异常。 在Python中使用多线程时,如何安全、优雅地退…

    2025年12月14日
    000
  • Python多态怎么理解_Python多态概念与实现方式解析

    多态指不同对象对同一方法调用做出不同响应,Python通过鸭子类型和继承实现,如Animal类的子类Dog和Cat重写speak方法,调用时自动执行对应实现,提升代码复用性和可扩展性。 多态是面向对象编程中的核心概念之一,在Python中体现得尤为自然和灵活。简单来说,多态指的是不同类的对象对同一方…

    2025年12月14日
    000
  • Python多线程在GUI程序中的应用 Python多线程防止界面卡顿技巧

    GUI程序卡顿因耗时任务阻塞主线程,解决方法是使用多线程将任务放入子线程执行,如Tkinter中通过threading.Thread或concurrent.futures提交任务,并利用after、队列或信号机制实现线程安全的UI更新,确保界面流畅响应。 在GUI程序中,长时间运行的任务如果放在主线…

    2025年12月14日
    000
  • 在discord.py中实现Twitter链接的自动转换与消息删除

    本教程将指导您如何使用discord.py构建一个机器人,该机器人能够自动识别用户发送的twitter链接,将其转换为兼容性更佳的vxtwitter.com链接以优化嵌入显示,随后发布转换后的链接并删除原始消息。文章将详细讲解字符串操作技巧以及在on_message事件中正确处理命令的关键注意事项。…

    2025年12月14日
    000
  • 自定义Python对象在REPL中的显示行为

    本文探讨了如何在python交互式环境中为特定对象提供不同于标准`__repr__`的调试友好显示。通过覆盖`sys.displayhook`,开发者可以精细控制对象在repl中作为表达式被求值时的输出格式,从而在不影响对象可组合性的前提下,展示丰富的调试信息。 在Python开发中,__repr_…

    2025年12月14日
    000
  • Python模块导入深度解析:理解包结构与执行上下文

    本文深入探讨python在跨目录导入模块时常见的`importerror`问题,详细阐述了通过构建合理的包结构、区分顶级包与子包、以及正确设置脚本的执行上下文来有效解决这些导入冲突。文章将提供具体的代码示例和最佳实践,帮助开发者理解python的模块搜索机制,从而避免常见的导入陷阱。 在Python…

    2025年12月14日
    000
  • Python入门如何绘制基础图表_Python入门数据可视化的第一步

    答案:使用Python绘图库可直观呈现数据趋势与分布。一、Matplotlib绘制折线图需导入pyplot模块,设置中文字体,准备数据后调用plt.plot()并添加标题标签,最后显示图像。二、绘制柱状图时用plt.bar()或plt.barh()展示类别数据差异,添加坐标轴标签并旋转x轴标签防重叠…

    2025年12月14日
    000
  • Python属性的复合赋值操作与Setter交互机制解析

    本文深入探讨了python中对属性使用复合赋值运算符(如`+=`)时,其背后涉及的getter和setter调用机制。许多开发者误以为`+=`仅作用于getter返回的对象,但实际上,解释器在执行完对象的就地操作后,会再次调用属性的setter,并将操作结果传递给它。文章通过示例代码揭示了这一“陷阱…

    2025年12月14日
    000
  • 使用ezdxf库转换DXF文件中的坐标系统

    本教程详细阐述了如何利用`ezdxf`库对DXF文件中的坐标进行转换,重点在于将地理参考坐标系统(CRS)转换为DXF内部的世界坐标系统(WCS)。文章深入探讨了`GEODATA`实体在坐标转换中的关键作用,并提供了处理缺少地理参考数据情况的策略。通过实用的Python代码示例,本教程旨在帮助用户理…

    2025年12月14日
    000
  • Python从大型文件高效随机选取固定长度单词教程

    本教程旨在解决从大型文件中高效随机选取固定长度单词的问题,避免将整个文件加载到内存中造成的性能和内存开销。我们将详细介绍如何利用python的文件指针定位(`f.seek()`)功能,结合随机数生成,直接跳转到文件中的特定位置并读取单词,同时强调该方法的适用条件、潜在限制及最佳实践。 在开发需要从大…

    2025年12月14日
    000
  • python使用loguru操作日志

    Loguru让Python日志更简单,无需复杂配置即可使用。导入logger后可直接输出调试、信息、警告、错误日志,默认控制台显示info及以上级别。通过logger.add()可将日志写入文件,支持按天轮转、保留策略和级别过滤。支持自定义格式,包含时间、级别、文件、行号等信息,并能用logger.…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信