使用 HtmlAgilityPack 精确解析 HTML 文档中的特定表格

程序猿 • 2025年11月10日 18:34:07 • web前端 • 阅读 0

本教程详细介绍了如何使用 c# 中的 htmlagilitypack 库，从包含多个表格的 html 文档中准确选择并解析特定的 html 表格。文章纠正了常见的 xpath 使用误区，强调了在选定节点上下文中执行查询的重要性，并提供了完整的代码示例，帮助开发者高效、精确地提取所需数据。

在 Web 数据抓取和 HTML 解析任务中，HtmlAgilityPack 是 .NET 开发者常用的强大工具。它能够将 HTML 文档解析成 DOM 结构，并通过 XPath 或 CSS 选择器方便地查询和操作节点。然而，当 HTML 文档包含多个结构相似的元素（例如多个

标签）时，准确地选择并处理其中一个特定元素，而非全部，就显得尤为重要。

理解 XPath 查询上下文

一个常见的错误是，在成功选择了一个父节点（例如一个特定的表格）之后，后续的子节点查询仍然在整个文档的上下文中执行。例如，当您使用 doc.DocumentNode.SelectSingleNode(“//table[1]”) 选择了第一个表格后，如果接着使用 doc.DocumentNode.SelectNodes(“//tr”) 来查找行，那么它会返回文档中所有的

元素，而不仅仅是第一个表格中的行。

要解决这个问题，关键在于理解 XPath 查询的上下文。一旦您选择了一个特定的 HtmlNode，后续针对该节点内部元素的查询应该以该节点为上下文进行。

准确选择和解析特定表格

以下是一个示例 HTML 结构，我们将以此为例来演示如何分别解析第一个和第二个表格：

立即学习“前端免费学习笔记（深入）”；

飞书多维表格

表格形态的AI工作流搭建工具，支持批量化的AI创作与分析任务，接入DeepSeek R1满血版

26 查看详情

This is where first table starts

head1	head2
data1_1	data1_2
data1_3	data1_4

This is where second table starts

headA	headB
data2_A	data2_B
data2_C	data2_D

我们将使用 HtmlAgilityPack 来加载这个 HTML，并根据需要选择不同的表格。

1. 解析第一个表格

要解析第一个表格，我们首先需要使用 XPath //table[1] 准确地选中它。然后，所有后续的行 (

) 和单元格 (

) 查询都应该在 这个选定的表格节点 的上下文中进行。

using HtmlAgilityPack;using System.Data;using System.Linq; // For .Skip()public class TableParser{    public DataTable ParseFirstTable(string htmlContent)    {        HtmlDocument doc = new HtmlDocument();        doc.LoadHtml(htmlContent);        DataTable dt = new DataTable();        // 假设我们知道表格结构，预先定义列        dt.Columns.Add("ColumnA", typeof(string));        dt.Columns.Add("ColumnB", typeof(string));        // 选中第一个表格节点        HtmlNode table = doc.DocumentNode.SelectSingleNode("//table[1]");        if (table != null)        {            // 在选定的 'table' 节点内部查找所有的 'tr' 节点            // 注意：这里使用 "tr" 或 ".//tr" 而不是 "//tr"            // "tr" 表示直接子元素，".//tr" 表示当前节点下的任意后代元素            // 考虑到表格结构，"tr" 通常是更精确和高效的选择            var rows = table.SelectNodes("tr");             if (rows != null)            {                // 跳过表头行（如果有的话），从第二行开始处理数据                foreach (var row in rows.Skip(1)) // 假设第一行是表头                {                    var cells = row.SelectNodes("td"); // 在当前行 'row' 内部查找 'td' 节点                    if (cells != null && cells.Count >= 2) // 确保有足够的单元格                    {                        string colA = cells[0].InnerText.Trim();                        string colB = cells[1].InnerText.Trim();                        dt.Rows.Add(colA, colB);                    }                }            }        }        return dt;    }}

2. 解析第二个表格

解析第二个表格的方法与第一个表格类似，只需将 XPath 表达式改为 //table[2] 即可。

using HtmlAgilityPack;using System.Data;using System.Linq;public class TableParser{    // ... (ParseFirstTable 方法省略) ...    public DataTable ParseSecondTable(string htmlContent)    {        HtmlDocument doc = new HtmlDocument();        doc.LoadHtml(htmlContent);        DataTable dt = new DataTable();        // 假设我们知道表格结构，预先定义列        dt.Columns.Add("ColumnX", typeof(string));        dt.Columns.Add("ColumnY", typeof(string));        // 选中第二个表格节点        HtmlNode table = doc.DocumentNode.SelectSingleNode("//table[2]");        if (table != null)        {            var rows = table.SelectNodes("tr");            if (rows != null)            {                foreach (var row in rows.Skip(1)) // 假设第一行是表头                {                    var cells = row.SelectNodes("td");                    if (cells != null && cells.Count >= 2)                    {                        string colX = cells[0].InnerText.Trim();                        string colY = cells[1].InnerText.Trim();                        dt.Rows.Add(colX, colY);                    }                }            }        }        return dt;    }}

关键注意事项

XPath 上下文： 始终记住，SelectSingleNode 或 SelectNodes 方法如果在 HtmlDocument.DocumentNode 上调用，则会在整个文档中搜索；如果在特定的 HtmlNode 上调用，则会在该节点的子树中搜索。//element：在文档的任何位置查找 element。element：查找当前节点的直接子 element。.//element：在当前节点的所有后代中查找 element。索引从 1 开始： XPath 索引是基于 1 的，所以 [1] 表示第一个元素，[2] 表示第二个元素。健壮性： 在实际应用中，HTML 结构可能不总是完美的。在访问 SelectNodes 或 SelectSingleNode 的结果之前，务必进行空值检查（if (node != null)），以避免 NullReferenceException。表头处理： 示例代码使用 rows.Skip(1) 来跳过表头行。如果表头使用

标签，并且您想单独处理或忽略它们，可以更精确地筛选

元素，例如只选择包含

的行。更精确的定位： 如果表格有 id 或 class 属性，使用这些属性进行定位会更加稳定和精确，例如 //table[@id=’myTableId’] 或 //table[@class=’data-table’]。

通过遵循这些原则，您可以有效地利用 HtmlAgilityPack 从复杂的 HTML 文档中提取所需的数据，并确保解析过程的准确性和健壮性。理解 XPath 上下文是掌握 HtmlAgilityPack 进行高级数据抓取的基石。

以上就是使用 HtmlAgilityPack 精确解析 HTML 文档中的特定表格的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/596708.html

.net c++css html node 工具

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

323.9K 文章

0 评论

1 粉丝

这个人很懒，什么都没有留下～

html5文件如何实现与后端Python交互 html5文件Django框架的处理视图

上一篇 2025年11月10日 18:33:55

使用 MultiClamp 实现文本块的折叠与展开功能

下一篇 2025年11月10日 18:37:39

好文分享

使用正则表达式在Pandas中按条件拆分列：定位最后一个大写字母前的分隔符

本教程详细介绍了如何在Pandas DataFrame中，根据特定的条件来拆分字符串列。核心问题是识别并使用最后一个 ‘ – ‘ 分隔符，但前提是该分隔符之后的所有字符必须是大写字母。我们将通过一个实用的正则表达式，结合Pandas的str.extract方法，实…

程序猿
2025年12月14日
0000
好文分享

Polars DataFrame 余弦相似度矩阵的构建方法

本教程详细介绍了如何在 Polars DataFrame 中高效计算列表类型列之间的余弦相似度，并将其结果转换为一个类似相关系数矩阵的宽格式 DataFrame。文章将通过 join_where 生成数据组合，利用 Polars 原生表达式计算余弦相似度，并最终通过 pivot 操作构建出完整的对称…

程序猿
2025年12月14日
0000
好文分享

PyCharm文件移动重构中未使用的导入移除机制解析及临时对策

PyCharm的文件移动重构功能在更新导入路径时，会意外自动移除文件中未使用的导入。目前尚无全局设置可禁用此行为，这可能对某些开发流程造成困扰。本文将深入探讨这一现象，并提供一种使用特定注释来保护单个导入不被移除的临时解决方案，帮助开发者应对此问题。 PyCharm文件移动重构的导入处理行为 pyc…

程序猿
2025年12月14日
0000
好文分享

Numba函数中break语句导致性能下降的深入分析与优化

在Numba优化代码时，添加break语句有时会导致意想不到的性能下降，甚至比不使用break的版本慢数倍。这主要是因为Numba底层依赖的LLVM编译器在存在break时难以进行循环向量化（SIMD优化），导致代码从高效的并行处理退化为低效的标量处理。此外，分支预测失误也会加剧性能问题。本文将深入…

程序猿
2025年12月14日
0000
好文分享

无需TensorBoard服务：程序化解析TensorFlow事件日志数据

本文详细介绍了如何在不启动TensorBoard服务的情况下，通过TensorFlow的EventFileReader API程序化地解析模型训练生成的事件日志文件。通过Python脚本，您可以直接读取日志中的步数、时间戳和标量值等关键数据，实现自定义的数据提取、处理与分析，尤其适用于需要将日志数据…

程序猿
2025年12月14日
0000
好文分享

使用Polars高效构建余弦相似度矩阵：从数据准备到结果可视化

本文详细介绍了如何在Polars中计算并构建余弦相似度矩阵。针对Polars的表达式限制，教程首先展示了如何通过with_row_index和join_where生成所有数据对组合，然后利用Polars原生的列表算术和表达式高效地计算余弦相似度，避免了自定义Python函数的性能瓶颈。最后，通过co…

程序猿
2025年12月14日
0000
好文分享

PyTorch DataLoader 目标形状异常解析与正确处理方法

本文深入探讨了PyTorch DataLoader在批处理过程中，当__getitem__方法返回Python列表作为目标标签时，可能出现的批次目标形状异常问题。通过分析DataLoader的默认批处理机制，揭示了导致目标维度错位的原因，并提供了将目标数据转换为torch.Tensor的有效解决方案…

程序猿
2025年12月14日
0000
好文分享

解决Selenium与GitHub搜索栏交互难题：深入理解动态元素操作

本教程旨在解决使用Selenium自动化测试时，GitHub搜索栏出现ElementNotInteractableException的问题。核心在于识别GitHub搜索功能并非直接的输入框，而是需要先点击一个搜索按钮才能激活真正的输入字段。文章将详细指导如何利用Selenium的显式等待和正确的元素…

程序猿
2025年12月14日
0000
好文分享

Docker容器中高效管理与切换Python多版本：构建时动态选择策略

本文探讨了在Docker镜像中管理和切换多个Python版本的高效策略。针对在CI/CD流程中根据需求选择特定Python版本的场景，我们推荐使用Docker的构建参数（ARG）动态指定基础镜像，从而避免在单个镜像中安装多个Python版本并进行复杂的符号链接管理。这种方法简化了Dockerfile…

程序猿
2025年12月14日
0000
好文分享

Python asyncio 异步编程：理解与实现任务的顺序执行

asyncio 模块设计用于实现并发，asyncio.gather() 会同时运行多个任务，而非按序执行。若需确保异步任务严格依照特定顺序完成，例如当任务间存在数据依赖时，应避免使用 asyncio.gather() 进行并发调度，转而通过在循环中逐个 await 任务来强制实现串行执行，确保前一个…

程序猿
2025年12月14日
0000
好文分享

解决Selenium自动化GitHub搜索栏“元素不可交互”问题

本教程详细讲解如何使用Selenium自动化GitHub网站的搜索功能，重点解决常见的“元素不可交互”问题。通过分析GitHub搜索栏的动态特性，我们将学习如何正确识别并操作作为按钮的搜索入口，进而与实际的输入框进行交互，并提供完整的Python代码示例及最佳实践。引言：理解“元素不可交互”错误 …

程序猿
2025年12月14日
0000
好文分享

比较带有浮点数和NaN的DataFrame列：处理精度与缺失值

本教程详细介绍了如何在Pandas DataFrame中比较两列浮点数，并准确计算差异行数。文章重点解决了浮点数精度问题（通过四舍五入）和NaN值（缺失值）的特殊处理，确保NaN与NaN不被计为差异，而NaN与数值则被计为差异，从而实现精确的数据对比和差异统计。挑战：浮点数比较与NaN处理在数据…

程序猿
2025年12月14日
0000
好文分享

Numba 函数中添加 break 语句为何会显著降低速度？

本文旨在解释为什么在 Numba 函数中添加 break 语句有时会导致性能显著下降。通过分析 Numba 的底层编译机制，以及 LLVM 优化器的行为，揭示了 break 语句阻碍自动向量化的问题。同时，提供了一种通过分块处理数据来规避此问题，并提升性能的解决方案。 Numba 依赖于 LLVM …

程序猿
2025年12月14日
0000
好文分享

Pandas DataFrame中复杂日期字符串的清洗与标准化

本文详细介绍了如何在Pandas DataFrame中清洗和标准化包含特殊字符或不规则格式的日期字符串。教程涵盖了使用pd.to_datetime进行直接类型转换，以及利用正则表达式结合str.extract和str.replace进行精确模式匹配和字符串格式统一的方法，旨在帮助用户高效处理复杂日期…

程序猿
2025年12月14日
0000
好文分享

Numba 函数中添加 break 语句导致性能显著下降的原因及解决方案

本文旨在解释为什么在 Numba 编译的函数中添加 break 语句有时会导致性能显著下降，并提供一种通过分块处理数据来避免此问题的方法。文章将深入探讨 LLVM 编译器在代码向量化方面的限制，并提供实际代码示例和性能测试结果，帮助读者理解并解决类似问题。在 Numba 中，性能优化很大程度上依赖…

程序猿
2025年12月14日
0000
好文分享

解决Python asyncio中异步任务执行顺序与依赖性问题

本文探讨Python asyncio中异步任务的执行顺序问题，特别是当任务存在依赖性时。我们将阐明asyncio.gather()用于并发执行的特性，并提供一种确保任务按严格顺序完成的方法，即通过逐一await来解决数据依赖性场景下的挑战。理解asyncio的并发机制与任务调度 python的as…

程序猿
2025年12月14日
0000
好文分享

使用Ruff的魔法尾随逗号优化Python __all__ 及列表多行格式

本文详细阐述如何利用ruff的代码格式化工具中的magic-trailing-comma（魔法尾随逗号）特性，灵活控制Python代码中列表（包括__all__语句）和函数参数的多行格式。通过在最后一个元素后添加或省略逗号，开发者可以精确指导ruff将这些结构格式化为单行或更具可读性的多行布局，从而…

程序猿
2025年12月14日
0000
好文分享

Python字典遍历与列表转换：从键到键值对的精确操作

本文深入探讨Python字典的遍历机制，阐明直接遍历与使用items()方法的区别。重点讲解如何从字典中高效提取键值对，并利用列表推导式将其转换为符合特定需求的列表结构，包括处理csv.DictReader生成的字典列表，确保数据转换的准确性和效率。 1. Python字典遍历的基础机制在pyth…

程序猿
2025年12月14日
0000
好文分享

掌握 Python asyncio 任务执行顺序：从并发到顺序执行的策略

在Python异步编程中，asyncio.gather()用于并发执行独立任务，但不保证它们的完成顺序。若需确保任务按特定顺序依次完成，例如任务间存在依赖关系，则应通过循环逐个await任务，而非一次性gather，以实现严格的顺序执行，从而解决异步任务执行顺序不确定导致的问题。理解 Python…

程序猿
2025年12月14日
0000
好文分享

比较Pandas DataFrame中含NaN浮点数列的差异计数

本文旨在解决Pandas DataFrame中浮点数列比较时遇到的精度问题和NaN值处理难题。通过结合使用DataFrame.round()方法处理浮点数精度，并利用DataFrame.compare()方法高效识别并统计两列之间的差异行数，特别是当NaN值不应被视为差异时，提供了一种清晰且专业的解…

程序猿
2025年12月14日
0000