本教程详细阐述了如何使用Python的BeautifulSoup和html 2text库,从复杂的HTML结构中准确提取并分组连续的段落(
标签)和表格(
标签)。文章深入分析了在迭代HTML元素时管理状态的关键性,指出了常见的字典初始化陷阱,并提供了一个健壮的解决方案,确保段落内容能够正确累积,并在遇到表格时将其作为独立项分离,最终生成结构清晰的数据列表。
HTML内容解析挑战:段落与表格的混合提取
在处理包含多种类型内容的HTML文档时,常见的需求是将特定类型的元素(如段落)聚合起来,而将另一些元素(如表格)作为独立项处理。例如,我们可能需要将所有连续的段落文本合并成一个逻辑单元,而一旦遇到表格,则将其视为一个新的独立数据块。这要求我们在遍历HTML结构时,能够有效地管理和维护当前解析的状态。
初始尝试与常见陷阱
许多开发者在初次尝试时,可能会采用一种直观的迭代方式,但在处理状态积累时容易陷入误区。考虑以下一个简化的、具有缺陷的初始代码逻辑:
from bs4 import BeautifulSoupimport html2textimport json# 假设 data3 包含混合的 p 和 table 标签data3 = """这是一个段落。
这是第二个段落。
Header A Header B Value 1A Value 1B
表格后的段落。
最后一个段落。
"""converter = html2text.HTML2Text()soup = BeautifulSoup(data3, 'html.parser')content_items = []for tag in soup.descendants: # 陷阱:在每次循环迭代中都重新初始化 content_dict content_dict = {'Title': "文档标题", 'Content': ''} if tag.name == "p": # 如果 content_dict 每次都被重新创建,这里只会收集当前 p 标签的内容 content_dict['Content'] += converter.handle(str(tag)) elif tag.name == "table": # 如果前面有 p 标签内容,先添加 if content_dict['Content']: content_items.append(content_dict) # 为表格创建一个新的字典,并添加 content_dict = {'Title': "文档标题", 'Content': converter.handle(str(tag))} content_items.append(content_dict) print(json.dumps(content_items, indent=4, ensure_ascii=False))
上述代码的根本问题在于 content_dict 在每次循环迭代时都被重新初始化。这意味着,当循环处理到一个新的标签时,前一个标签(即使是连续的
标签)所累积的内容会丢失,因为 content_dict 被重置为一个空字典。因此,它无法实现将多个连续的
标签内容合并到同一个 Content 字段中。
立即学习“前端免费学习笔记(深入)”;
解决方案:使用缓冲区管理状态
为了正确地实现段落内容的累积和表格的分离,我们需要引入一个临时的缓冲区来存储连续的段落内容,并在遇到非段落元素(特别是表格)时,将缓冲区内容清空并作为独立项添加,然后处理当前非段落元素。
飞书多维表格
表格形态的AI工作流搭建工具,支持批量化的AI创作与分析任务,接入DeepSeek R1满血版
26 查看详情
以下是实现此逻辑的修正代码:
from bs4 import BeautifulSoupimport html2textimport json# 示例 HTML 数据data3 = """这是一个段落内容。
这是第二个段落,与上一个段落连续。
表格后的第一个段落。
这是一个span标签。 表格后的第二个段落。
"""converter = html2text.HTML2Text()soup = BeautifulSoup(data3, 'html.parser')content_items = [] # 存储最终结果的列表current_p_buffer = [] # 临时缓冲区,用于累积连续的 p 标签内容# 遍历 HTML 文档的所有子孙节点# 使用 soup.descendants 能够遍历到所有嵌套层级的标签,并大致按照文档顺序for tag in soup.descendants: # 确保只处理 Tag 对象,跳过 NavigableString 等文本节点 if tag.name == "p": # 如果当前标签是 p,则将其内容添加到缓冲区 current_p_buffer.append(converter.handle(str(tag))) elif tag.name == "table": # 如果遇到 table 标签,首先检查 p 缓冲区是否有内容 if current_p_buffer: # 将累积的 p 标签内容合并,并作为一个条目添加到结果列表 content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题,可根据实际需求动态设置 'Content': "".join(current_p_buffer) }) current_p_buffer = [] # 清空 p 缓冲区,准备收集下一组段落 # 然后,将 table 标签的内容作为一个独立条目添加到结果列表 content_items.append({ 'Title': "35.23.060 - DR Zone Standards", # 示例标题 'Content': converter.handle(str(tag)) }) # 可以根据需要添加其他标签的处理逻辑,例如忽略 div, span 等 # else: # # 如果遇到其他非 p 非 table 标签,也可能需要清空 p 缓冲区 # # 这取决于具体需求,例如是否只有 p 和 table 才能作为主要内容块 # if current_p_buffer: # content_items.append({ # 'Title': "35.23.060 - DR Zone Standards", # 'Content': "".join(current_p_buffer) # }) # current_p_buffer = []# 循环结束后,检查 p 缓冲区是否还有剩余内容(即文档末尾的段落)if current_p_buffer: content_items.append({ 'Title': "35.23.060 - DR Zone Standards", 'Content': "".join(current_p_buffer) })# 打印提取的数据print(json.dumps(content_items, indent=4, ensure_ascii=False))
代码解析与最佳实践
current_p_buffer:核心缓冲区 这个列表是实现段落内容累积的关键。它在循环外部初始化,确保其状态在每次迭代中得以保留。当遇到
标签时,其内容被追加到 current_p_buffer 中。
soup.descendants 与 soup.children
soup.descendants 迭代器会按照文档顺序遍历所有子孙节点,包括嵌套在其他标签内的
或
。这对于处理复杂、多层级的HTML结构非常有用。如果 HTML 结构相对扁平,且
和
标签通常是同级兄弟元素,那么使用 soup.children 或 soup.contents 可能会更直接,因为它只遍历直接子节点。然而,对于普遍情况,descendants 更具鲁棒性。
条件判断与状态转换
当 tag.name == “p” 时,内容被添加到 current_p_buffer。当 tag.name == “table” 时,这是一个“状态转换点”。此时,首先检查 current_p_buffer 是否有内容。如果有,说明前面累积了一组段落,需要将其合并并添加到 content_items 列表中,然后清空 current_p_buffer。接着,将当前
的内容作为一个新的独立项添加到 content_items。循环结束后的处理 :在 for 循环结束后,需要再次检查 current_p_buffer。这是为了捕获文档末尾可能存在的、未被任何
标签中断的连续段落。
html2text.HTML2Text() 的作用 html2text 库用于将 HTML 片段转换为 Markdown 格式的文本。这在需要从 HTML 中提取纯文本内容,并保留一定的格式(如标题、列表、表格的Markdown表示)时非常有用。converter.handle(str(tag)) 将标签及其内部 HTML 转换为文本。
json .dumps 的应用 使用 js on.dumps(…, indent=4, ensure_ascii=False) 可以将结果列表格式化为易于阅读的 JSON 字符串,其中 indent=4 增加了缩进,ensure_ascii=False 确保中文字符正确显示。
总结
正确地从混合内容的HTML中提取和分组数据,关键在于有效地管理迭代过程中的状态。通过引入一个临时缓冲区来累积同类型元素(如段落),并在遇到不同类型或分隔元素(如表格)时处理缓冲区内容,我们可以构建一个健壮且灵活的解析器。这种模式不仅适用于段落和表格,也适用于任何需要按类型分组或合并的HTML元素提取任务。理解并应用状态管理技巧,是高效进行Web数据抓取和内容处理的基础。
以上就是高效解析HTML:按类型分组提取段落与表格内容的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/571220.html
赞 (0)
打赏
微信扫一扫
支付宝扫一扫
相关推荐
在Django电商项目中,当使用AJAX动态加载过滤后的产品列表时,常遇到图片无法正常显示的问题。这通常是由于前端模板中图片加载方式(如data-setbg属性结合JavaScript库)与AJAX动态内容更新机制不兼容所致。解决方案是直接在AJAX返回的HTML中使用标准的标签来渲染图片,确保浏览…
推荐开源免费PHP开发工具以提升效率:VS Code、Sublime Text轻量高效,PhpStorm专业强大;调试用Xdebug、Kint、Ray;依赖管理选Composer;代码质量工具包括PHPStan、Psalm、PHP_CodeSniffer;数据库管理可用%ignore_a_1%MyA…
本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…
本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…
首先创建含enctype的HTML表单,再用PHP接收文件,检查目录、移动临时文件,验证类型与大小,生成唯一文件名,并调整php.ini限制以确保上传成功。 如果您尝试在PHP项目中添加图片上传功能,但服务器无法正确接收或保存文件,则可能是由于表单配置、文件处理逻辑或安全限制的问题。以下是实现该功能…
比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…
滚动条可以存在也可以不存在,本文主要介绍了html 隐藏滚动条和去除滚动条的方法的相关资料,大家一起来学习一下html隐藏滚动条或去除滚动条的方法吧。 1. html 标签加属性 XML/HTML Code复制内容到剪贴板 2.body中加入以下代码 立即学习“前端免费学习笔记(深入)”; html…
首先保存文件为.html格式,再通过浏览器或Live Server插件打开预览;推荐安装Live Server实现本地服务器运行与实时刷新,提升开发体验。 在 VS Code 上运行 HTML 文件并不需要复杂的配置,只需几个简单步骤即可预览页面效果。VS Code 本身是一个代码编辑器,不直接运行…
在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…
本文探讨了在Web开发中,交互式按钮(如播放/暂停按钮)在点击时发生意外垂直位移的问题。通过分析CSS样式变化对元素布局的影响,我们发现这是由于按钮不同状态下的边框样式和内边距改变,以及默认的垂直对齐行为共同作用所致。核心解决方案是利用CSS的vertical-align属性,将其设置为middle…
标签定义多行的文本输入控件。 文本区中可容纳无限数量的文本,其中的文本的默认字体是等宽字体(通常是 Courier)。 可以通过 cols 和 rows 属性来规定 textarea 的尺寸,不过更好的办法是使用 CSS 的 height 和 width 属性。 注释:在文本输入区内的文本行间,用 …
Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…
HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…
根据数据特性选择合适的存储方式并制定清晰的读写与清理逻辑,能显著提升前端性能;合理运用Cookie、localStorage、sessionStorage、IndexedDB及Cache API,结合缓存策略与定期清理机制,可在保证用户体验的同时避免安全与性能隐患。 前端缓存和JavaScript存…
首先利用原生touch事件实现滑动判断,再通过preventDefault解决滚动冲突,接着引入Hammer.js处理复杂手势,最后通过优化点击区域、避免事件冲突和增加视觉反馈提升体验。 在移动端浏览器中,HTML5网页可以通过触摸事件实现手势操作,提升用户体验。虽然原生JavaScript提供了基…
本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序,以及不正确使用 `next()` 可能导致请求挂起的风险,并通过代码示例和实际应用场景,…
使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…
本教程详细阐述了如何在php中根据动态数据源(如数据库值)生成多个表单输入框,并演示了如何通过post方法准确无误地获取这些动态生成的输入值。文章强调了正确的输入框命名策略,避免了常见的命名误区,并提供了完整的代码示例,确保开发者能够高效处理动态表单数据。 动态生成表单输入 在Web开发中,我们经常…
本文深入探讨了Python中一种递归打印序列元素的方法,并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例,文章揭示了递归调用可能带来的潜在性能开销,特别是对调用栈空间的需求,以及Python默认递归深度限制可能导致的错误,为读者提供了理解和优化递归算法的实用见…