
python高效解析嵌套在div和span标签中的html表格数据
本文介绍如何利用Python的bs4库(Beautiful Soup 4)高效提取嵌套在div和span标签内的HTML表格数据。bs4库以其强大的HTML/XML解析能力而闻名,能轻松处理复杂的网页结构。
以下代码演示了如何使用bs4遍历HTML树,提取目标数据:
from bs4 import BeautifulSoupimport rehtml_doc = ''''''soup = BeautifulSoup(html_doc, 'html.parser')# 查找包含表格数据的divtable_div = soup.find('div', {'id': 'articlelistnew'})# 提取表格行rows = table_div.find_all('div', {'class': 'articleh'})# 遍历每一行,提取数据for row in rows: # 由于示例中没有span标签,直接按空格分割文本 cells = row.text.split() print(cells)阅读评论标题 作者 最后更新471 2 ... ... 09-12 00:09603 3 ... ... 09-11 16:01
这段代码首先创建BeautifulSoup对象解析HTML。然后,它定位包含表格数据的div元素,再提取每一行数据。由于提供的示例HTML中div内的数据并非用span标签分隔,代码直接使用split()方法按空格分割文本,得到每一行单元格数据。 如果实际HTML中单元格用span标签包裹,则需要修改代码,使用row.find_all('span')提取span标签,再处理每个span标签的文本内容。 例如:
for row in rows: cells = row.find_all('span') cell_data = [cell.text.strip() for cell in cells] #strip()去除多余空格 print(cell_data)
通过调整代码中find_all()方法的参数,以及对提取数据的后处理,可以灵活地适应各种HTML表格结构。 记住根据实际HTML结构调整代码,以确保准确提取数据。
立即学习“Python免费学习笔记(深入)”;
以上就是Python如何使用BeautifulSoup库提取嵌套在div和span标签中的HTML表格数据?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1560876.html
微信扫一扫
支付宝扫一扫