掌握网页图表数据抓取:从鼠标悬停到直接解析JavaScript

掌握网页图表数据抓取:从鼠标悬停到直接解析JavaScript

本教程探讨了如何高效地从动态网页图表中抓取数据,特别是当数据通过鼠标悬停显示时。我们对比了基于Selenium模拟鼠标悬停的方法与直接解析网页源代码中嵌入的JavaScript数据的方法,并重点介绍了后者,利用requests和正则表达式从HTML中提取结构化数据,结合pandas进行处理,从而实现更稳定、高效的数据抓取。

在现代网页应用中,数据常以交互式图表的形式呈现,许多详细信息(如价格、日期等)仅在用户将鼠标悬停在特定图表元素上时才通过工具提示(tooltip)显示。对于数据抓取任务,初学者可能直观地想到使用selenium等自动化工具来模拟鼠标悬停行为。然而,这种方法在某些场景下可能效率低下且不够稳定。

挑战与传统方法(Selenium)的局限性

当需要抓取图表上所有数据点的鼠标悬停信息时,使用Selenium模拟每个点的鼠标悬停是一个常见的思路。例如,尝试定位图表画布元素,然后循环对其进行鼠标悬停操作。

考虑以下基于Selenium的尝试代码片段:

from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECoptions = Options()options.add_argument("start-maximized")webdriver_service = Service()driver = webdriver.Chrome(options=options, service=webdriver_service)driver.get('https://www.cpubenchmark.net/cpu.php?cpu=Intel+Core+i9-11900K+%40+3.50GHz&id=3904')# 尝试定位图表画布元素element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//*[@id='placeholder']/div/canvas[2]")))# 错误示例:WebElement对象不可迭代# for el in element:       #     ActionChains(driver).move_to_element(el).perform()   #     mouseover = WebDriverWait(driver, 30).until(EC.visibility_of_element_located((By.SELECTOR, ".placeholder > div > div.canvasjs-chart-tooltip > div > span")))      #     print(mouseover.text)

上述代码中,WebDriverWait(…).until(EC.presence_of_element_located(…))返回的是一个单独的WebElement对象,代表了匹配到的第一个元素,而不是一个元素列表。因此,尝试对其进行for el in element:迭代会导致’WebElement’ object is not iterable的错误。即使能够正确获取到多个可迭代的元素,模拟逐个鼠标悬停并等待工具提示出现,也存在以下局限性:

效率低下: 每次操作都需要浏览器渲染,速度慢,资源消耗大。稳定性差: 依赖于页面加载速度、元素可见性、动画效果等,容易出现时序问题或元素未找到的错误。复杂性高: 需要处理各种等待条件、异常情况,代码维护成本高。冗余操作: 许多情况下,图表数据在页面加载时就已经存在于HTML或JavaScript代码中,无需模拟用户交互即可直接提取。

高效策略:直接解析JavaScript嵌入数据

对于许多动态图表,其展示的数据通常不是通过AJAX请求在鼠标悬停时才加载的,而是页面加载时就已嵌入在HTML的某个标签中,作为JavaScript变量的一部分。识别并直接从网页源代码中提取这些数据,是更高效、稳定和推荐的方法。

立即学习“Java免费学习笔记(深入)”;

核心思路:

检查网页源代码: 使用浏览器开发者工具(F12),查看“Elements”或“Sources”标签,或直接“查看页面源代码”(Ctrl+U),搜索与图表数据相关的关键词(如“dataArray”、“chartData”等)。定位数据模式: 找到数据在JavaScript代码中的存储格式,通常是数组或JSON对象。使用requests获取页面内容: 避免启动浏览器,直接通过HTTP请求获取HTML文本。使用正则表达式提取数据: 根据定位到的数据模式,编写正则表达式来精确匹配并提取所需的数据点。使用pandas进行数据处理: 将提取到的原始数据转换为结构化的DataFrame,便于后续分析。

实战演练:抓取CPU价格历史数据

以CPU Benchmark网站为例,其“Pricing History”图表的数据在页面加载时已作为JavaScript变量dataArray嵌入到HTML中。我们可以直接解析这些数据。

import reimport pandas as pdimport requests# 目标URLurl = "https://www.cpubenchmark.net/cpu.php?cpu=Intel+Core+i9-11900K+%40+3.50GHz&id=3904"# 使用requests获取页面HTML内容html_text = requests.get(url).text# 使用正则表达式从HTML中提取数据# 匹配模式:dataArray.push({x: 数字, y: 数字或小数})# (d+) 捕获x的值(时间戳,整数)# ([d.]+) 捕获y的值(价格,整数或小数)df = pd.DataFrame(    re.findall(r"dataArray.push({x: (d+), y: ([d.]+)}", html_text),    columns=["time", "price"],)# 将时间戳转换为日期时间格式# 原始时间戳是毫秒,需要除以1000转换为秒,然后指定单位为秒df["time"] = pd.to_datetime(df["time"].astype(int) // 1000, unit="s")# 打印数据框的最后几行print(df.tail())

代码解析:

导入库: re用于正则表达式操作,pandas用于数据结构化和处理,requests用于发送HTTP请求。获取HTML: requests.get(url).text直接获取页面的全部HTML内容,避免了浏览器启动的开销。正则表达式提取:re.findall(r”dataArray.push({x: (d+), y: ([d.]+)}”, html_text)是此方法的核心。dataArray.push({x::匹配JavaScript中数据推送的固定前缀。.需要转义。(d+):第一个捕获组,匹配一个或多个数字,用于提取时间戳(x值)。, y::匹配固定分隔符。([d.]+):第二个捕获组,匹配一个或多个数字或点,用于提取价格(y值)。re.findall会返回所有匹配到的元组列表,每个元组包含两个捕获组的内容。创建DataFrame: 将re.findall的结果直接传递给pd.DataFrame,并指定列名”time”和”price”。时间戳转换: 原始的time列是字符串类型的时间戳,且是毫秒级的。df[“time”].astype(int):将时间戳转换为整数类型。// 1000:将毫秒转换为秒。pd.to_datetime(…, unit=”s”):将秒级Unix时间戳转换为datetime对象。结果输出: df.tail()打印数据框的最后几行,展示了抓取并处理后的价格历史数据。

输出示例:

                   time   price236 2023-05-28 06:00:00  317.86237 2023-05-29 06:00:00  319.43238 2023-05-30 06:00:00  429.99239 2023-05-31 06:00:00  314.64240 2023-06-01 06:00:00   318.9

优势与适用场景

这种直接解析JavaScript嵌入数据的方法具有显著优势:

效率高: 无需启动和维护浏览器实例,仅进行HTTP请求和字符串处理,速度极快。稳定性强: 不受页面渲染、动画效果或元素可见性的影响,只要数据模式不变,抓取就稳定。资源消耗低: 内存和CPU占用远低于Selenium。代码简洁: 避免了复杂的Selenium等待和操作逻辑。

适用场景:

当目标数据在页面加载时已存在于HTML源代码的标签中,作为JavaScript变量或函数参数。无需模拟复杂的JavaScript执行或用户交互(如点击、滚动、表单填写)。目标是批量获取数据而非模拟用户行为。

注意事项

数据源识别: 在开始抓取前,务必使用浏览器开发者工具仔细检查网页的源代码和网络请求。这是判断数据是否直接嵌入HTML的关键一步。如果数据是通过后续AJAX请求动态加载的,则可能需要模拟这些请求或使用Selenium等待数据加载。正则表达式的健壮性: 网页结构和JavaScript代码可能会更新,导致正则表达式失效。因此,定期检查和维护正则表达式的准确性是必要的。反爬机制: 即使使用requests,网站也可能存在反爬机制,如User-Agent检测、IP限制、验证码等。可能需要添加请求头、使用代理IP或处理验证码。Selenium的必要性: 当数据确实需要JavaScript渲染、动态加载、或涉及复杂的登录、点击分页、表单提交等用户交互时,Selenium仍然是不可替代的强大工具。选择哪种工具,应根据具体的抓取任务和目标网站的数据加载方式来决定。

总结

对于网页数据抓取,理解数据是如何呈现和加载的至关重要。并非所有动态显示的数据都需要通过模拟用户交互来获取。通过分析网页源代码,识别并直接解析JavaScript中嵌入的数据,往往是获取图表数据最有效和稳定的方法。这种方法结合requests、正则表达式和pandas,能够构建出高效、健壮的数据抓取解决方案,大大提升爬虫的性能和可靠性。在实际应用中,灵活运用多种工具和技术,根据具体场景选择最佳策略,是成为一名优秀爬虫工程师的关键。

以上就是掌握网页图表数据抓取:从鼠标悬停到直接解析JavaScript的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1365761.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 04:47:46
下一篇 2025年12月14日 04:47:57

相关推荐

  • Python怎样进行数据的自动特征生成?特征工程技巧

    python中自动特征生成的核心方法包括:1.基于规则和转换的自动化,如数值特征的多项式变换、日期特征提取及自定义比值特征;2.基于特定领域的自动化工具,如featuretools用于关系型数据、tsfresh用于时间序列数据;3.基于机器学习模型的自动化,如嵌入、自动编码器及遗传算法。这些方法通过…

    2025年12月14日 好文分享
    000
  • 如何高效抓取网页图表数据:绕过鼠标悬停,直取JavaScript变量

    本文旨在解决网页图表数据抓取中常见的鼠标悬停(mouse-hover)信息获取难题。针对特定场景,当图表数据已嵌入网页的JavaScript变量中时,通过Python的requests库获取页面内容,结合正则表达式re直接解析并提取数据,再利用pandas进行结构化处理,可实现比模拟鼠标悬停更高效、…

    2025年12月14日
    000
  • 如何使用 Pandas 生成 DataFrame 列的数据类型与唯一值汇总表

    本教程将详细介绍如何利用 Python 的 Pandas 库,为 DataFrame 中的所有列生成一份结构化的汇总表。该表将清晰展示每列的名称、数据类型以及其包含的唯一值(或其数量),这对于数据探索、清洗和理解数据集至关重要。 数据探索的重要性 在任何数据分析或机器学习项目中,数据探索是至关重要且…

    2025年12月14日
    000
  • 生成DataFrame列的综合摘要表:数据类型、唯一值与计数

    本教程详细介绍了如何利用 Pandas 库为 DataFrame 生成一个综合性的摘要表。该表能清晰地展示每列的名称、数据类型、所有唯一值及其数量,帮助用户快速理解数据结构,尤其适用于大型数据集的数据探索和预处理阶段,是数据分析初期不可或缺的工具。 引言:数据探索的基石 在数据分析和机器学习项目的初…

    2025年12月14日
    000
  • Python Pandas:高效生成DataFrame列数据类型与唯一值统计表

    本文详细介绍了如何使用Python Pandas库,为DataFrame中的所有列生成一个结构化的统计表。该表将清晰展示每列的名称、数据类型、唯一的取值及其数量,为数据探索和预处理提供直观的概览,尤其适用于处理包含大量列的数据集。 引言:数据概览的重要性 在数据分析和机器学习项目中,深入理解数据集的…

    2025年12月14日
    000
  • Python中如何识别未使用的变量和导入语句?

    识别python代码中未使用的变量和导入最直接有效的方法是使用静态代码分析工具。1. flake8是一个轻量级工具,结合pyflakes等组件,能快速识别未使用的导入(f401)和变量(f841);2. pylint则更为全面,除检测未使用代码外,还能分析代码风格、复杂度等,并提示w0611(未使用…

    2025年12月14日 好文分享
    000
  • 如何用Python检测工业控制系统的隐蔽攻击?

    1.隐蔽攻击难以发现因其低慢行为、协议滥用和目标工艺过程,2.检测需通过python实现数据采集、特征工程、模型训练和告警可视化。隐蔽攻击通过微小参数调整、合法协议的异常使用以及针对物理过程进行操作,因ics系统老旧、正常行为复杂、安全意识不足等难以被发现。python可利用scapy抓包、pand…

    2025年12月14日 好文分享
    000
  • Python怎样实现基于因果推理的异常根因分析?

    基于因果推理的异常根因分析通过构建因果图并量化因果效应,实现精准定位根本原因。其核心步骤包括:1. 数据准备与特征工程,收集系统指标并提取特征;2. 因果图构建,结合专家知识与数据驱动算法(如pc、ges)推断变量间因果关系;3. 因果效应量化,使用dowhy和econml等库估计变量对异常的影响;…

    2025年12月14日 好文分享
    000
  • 如何使用Dask实现大规模数据的分布式异常检测?

    使用Dask实现大规模数据的分布式异常检测,核心在于它能将传统上受限于单机内存和计算能力的算法,无缝扩展到分布式环境。这使得我们能够处理TB甚至PB级别的数据,而无需担心数据无法载入内存,或是计算耗时过长的问题。它提供了一个与Pandas和NumPy高度兼容的API,让数据科学家能够以熟悉的范式,构…

    2025年12月14日 好文分享
    000
  • Python如何计算移动窗口统计量?rolling函数详解

    pandas的rolling()函数用于计算移动窗口统计量,常见聚合操作有1. .mean()计算移动平均值,2. .sum()计算移动总和,3. .std()计算移动标准差,4. .min()/.max()计算极值,5. .count()计算非nan数量,6. .median()计算移动中位数;窗…

    2025年12月14日 好文分享
    000
  • Python网络爬虫:高效提取网页图表悬停数据

    本文探讨了如何高效地从网页图表中提取通常通过鼠标悬停显示的数据。针对使用Selenium进行鼠标悬停操作的局限性,文章提出了一种更优的方案:通过Python的Requests库直接获取网页源代码,并利用正则表达式解析内嵌的JavaScript数据。最后,结合Pandas库对提取的数据进行结构化处理,…

    2025年12月14日
    000
  • gRPC Python:配置重试策略中的超时时间

    本文介绍了 gRPC Python 中重试策略配置中超时时间的行为。重点说明了 timeout 配置项并非单个重试尝试的超时时间,而是整个交互过程的最大持续时间。同时解释了 gRPC 重试机制的设计理念,即不应人为缩短单次尝试的时间,以提高成功几率。 在 gRPC Python 中,配置重试策略可以…

    2025年12月14日
    000
  • gRPC Python:配置重试机制中的总超时而非单次尝试超时

    正如摘要所述,在 gRPC Python 中,配置的 timeout 并非针对每次重试的超时时间,而是整个 gRPC 调用的总超时时间。这意味着,即使配置了重试策略,每次尝试的总时间加起来也不能超过 timeout 值。 gRPC 的重试机制旨在提高在网络不稳定或服务器偶发性故障情况下的调用成功率。…

    2025年12月14日
    000
  • 配置 gRPC Python 客户端重试机制:理解超时设置

    本文旨在阐明 gRPC Python 客户端中重试机制的超时配置,重点解释 timeout 参数的作用范围,以及为何 gRPC 不支持为每次重试单独设置超时时间。通过本文,你将了解如何正确配置重试策略,并理解其设计背后的考量。 在 gRPC 中,配置客户端的重试行为,可以有效地提高应用程序的健壮性。…

    2025年12月14日
    000
  • 解决sklearn中无法导入PredictionErrorDisplay的问题

    本文旨在帮助读者解决在使用scikit-learn时遇到的ImportError: cannot import name ‘PredictionErrorDisplay’ from ‘sklearn.metrics’错误。该错误通常是由于scikit-…

    2025年12月14日
    000
  • gRPC Python:配置每次重试的超时时间

    本文介绍了在 gRPC Python 中配置重试策略时,超时设置的实际作用。重点说明了 gRPC 重试机制中不存在每次尝试的独立超时时间,而是全局的交互超时时间。解释了为何 gRPC 采用这种设计,并提供了一种变通方法,虽然并不完全等同于每次尝试的超时,但可以控制整体的重试行为。 在 gRPC Py…

    2025年12月14日
    000
  • 连接 MySQL 5.1 数据库的 Python 教程

    本文档旨在指导开发者如何使用 Python 连接到 MySQL 5.1 数据库。由于 MySQL 5.1 较为古老,现代的 MySQL 连接器可能存在兼容性问题。本文将介绍如何使用 mysql-connector-python 驱动,并配置相应的参数,以成功建立连接。同时,本文也强烈建议升级 MyS…

    2025年12月14日
    000
  • Python连接MySQL 5.1:克服旧版认证与字符集兼容性挑战

    本教程详细阐述了如何使用Python 3和mysql.connector库成功连接到老旧的MySQL 5.1数据库。文章重点介绍了解决旧版认证协议和字符集兼容性问题的关键配置,特别是use_pure=True和charset=’utf8’的重要性,并提供了可运行的代码示例。同…

    2025年12月14日
    000
  • 解决LabelEncoder在训练/测试数据中遇到未知标签的ValueError

    在使用sklearn.preprocessing.LabelEncoder对分类特征进行数值化编码时,一个常见的挑战是当测试集中出现训练集中未曾见过的标签时,会引发ValueError: y contains previously unseen labels。此错误的核心在于LabelEncoder…

    2025年12月14日
    000
  • 如何使用Pandas进行条件筛选与多维度分组计数

    本文将详细介绍如何使用Pandas库,针对数据集中特定列(如NumericValue)中的缺失值(NaN)进行高效筛选,并在此基础上,根据多个维度(如SpatialDim和TimeDim)进行分组,最终统计满足条件的记录数量。通过实例代码,读者将掌握数据预处理和聚合分析的关键技巧,实现复杂条件下的数…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信