使用 Beautiful Soup 从嵌套标签中提取文本

程序猿 • 2025年12月22日 17:35:34 • 用户投稿 • 阅读 0

本文档旨在解决在使用 Beautiful Soup 解析 HTML 时，如何从嵌套标签中准确提取文本的问题。我们将通过实例演示如何使用 find_next(text=True) 方法以及 .get_text(strip=True) 方法来获取所需数据，并提供完整的代码示例和注意事项，帮助开发者更好地理解和应用 Beautiful Soup。

在使用 Beautiful Soup 解析 HTML 时，经常会遇到需要从嵌套标签中提取文本的情况。直接使用 .text 属性可能会遇到 AttributeError: ‘NoneType’ object has no attribute ‘text’ 错误，这通常是因为 Beautiful Soup 无法直接找到包含文本的标签。本文将介绍如何正确地从嵌套标签中提取文本，并提供示例代码。

使用 find_next(text=True) 方法

当目标文本位于一个标签内部的文本节点时，可以使用 find_next(text=True) 方法来定位到该文本节点，然后提取文本。

以下是一个示例 HTML 结构：

                            $89,900                            1 ac                                            Hancock County            
                            -- sq ft

以下是使用 find_next(text=True) 方法提取价格、大小和县域的代码示例：

from bs4 import BeautifulSouphtml = '''                            $89,900                            1 ac                                            Hancock County            
                            -- sq ft                    
    
'''soup = BeautifulSoup(html, 'html.parser')preview_content = soup.find('div', class_='preview-content')if preview_content:    plot_price = preview_content.find('span', {"class": 'preview__price'}).find_next(text=True).strip()    plot_size = preview_content.find('span', {"class": 'preview__size'}).find_next(text=True).strip()    plot_county = preview_content.find('h2', class_='-g-truncated preview__subterritory').find_next(text=True).strip()    print(plot_price)    print(plot_size)    print(plot_county)else:    print("未找到 'preview-content' 类别的 div 元素")

代码解释：

首先，使用 BeautifulSoup 解析 HTML 字符串。然后，使用 find() 方法找到 class 为 preview-content 的 div 元素。对于每个需要提取的文本，先找到包含该文本的标签（例如，span 或 h2）。使用 find_next(text=True) 方法找到标签内的文本节点。使用 .strip() 方法去除文本节点前后的空格。

使用 .get_text(strip=True) 方法

.get_text(strip=True) 方法可以提取标签内的所有文本内容，并去除首尾空格。这个方法在处理包含多个子标签的复杂结构时非常有用。

以下是使用 .get_text(strip=True) 方法的示例：

from bs4 import BeautifulSouphtml = '''                            $89,900                            1 ac                                            Hancock County            
                            -- sq ft                    
    
'''soup = BeautifulSoup(html, 'html.parser')preview_content = soup.find('div', class_='preview-content')if preview_content:    plot_price = preview_content.find('span', {"class": 'preview__price'}).get_text(strip=True)    plot_size = preview_content.find('span', {"class": 'preview__size'}).get_text(strip=True)    plot_county = preview_content.find('h2', class_='-g-truncated preview__subterritory').get_text(strip=True)    print(plot_price)    print(plot_size)    print(plot_county)else:    print("未找到 'preview-content' 类别的 div 元素")

代码解释：

此示例与前一个示例类似，但使用 .get_text(strip=True) 方法代替了 find_next(text=True) 方法。.get_text(strip=True) 方法直接提取标签内的文本内容，并去除首尾空格。

完整示例：从网页抓取数据

以下是一个从实际网页抓取数据的完整示例：

import requestsfrom bs4 import BeautifulSoupurl = 'https://www.landsearch.com/industrial/united-states/p1'res = requests.get(url)soup = BeautifulSoup(res.content, 'lxml')landplots = soup.find_all('div', class_='preview-content')for l in landplots:    try:        plot_price = l.find('span', {"class": 'preview__price'}).get_text(strip=True)        plot_size = l.find('span', {"class": 'preview__size'}).get_text(strip=True)        plot_county = l.find('h2', class_='-g-truncated preview__subterritory').get_text(strip=True)        print(plot_price)        print(plot_size)        print(plot_county)    except AttributeError:        print("部分信息缺失")

代码解释：

首先，使用 requests 库获取网页内容。然后，使用 BeautifulSoup 解析 HTML 内容。使用 find_all() 方法找到所有 class 为 preview-content 的 div 元素。对于每个 div 元素，提取价格、大小和县域信息。使用 try…except 块处理可能出现的 AttributeError 异常，例如当某个地块缺少某些信息时。

注意事项

处理 NoneType 错误： 在提取文本之前，务必检查找到的标签是否为 None。如果标签不存在，尝试提取其文本属性会导致 AttributeError: ‘NoneType’ object has no attribute ‘text’ 错误。可以使用条件语句来避免此错误。网页结构变化： 网页结构可能会发生变化，因此需要定期检查代码是否仍然有效。如果网页结构发生变化，可能需要修改代码以适应新的结构。使用 strip() 方法： 提取文本后，建议使用 strip() 方法去除文本前后的空格，以确保数据的准确性。异常处理： 在实际应用中，建议使用 try…except 块来处理可能出现的异常，例如 AttributeError 和 TypeError。

总结

本文介绍了如何使用 Beautiful Soup 从嵌套标签中提取文本。通过使用 find_next(text=True) 方法和 .get_text(strip=True) 方法，可以准确地提取所需数据。同时，提供了完整的代码示例和注意事项，帮助开发者更好地理解和应用 Beautiful Soup。希望本文能够帮助读者解决在实际开发中遇到的问题。

以上就是使用 Beautiful Soup 从嵌套标签中提取文本的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1575934.html

html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

动态激活Bootstrap导航项内部元素的样式教程

上一篇 2025年12月22日 17:35:25

JavaScript 动态表格行操作：添加、删除与清空指南

下一篇 2025年12月22日 17:35:43

用户投稿

学会从头开始学习CSS，掌握制作基本网页框架的技巧

从零开始学习CSS，掌握网页基本框架制作技巧前言：在现今互联网时代，网页设计和开发是一个非常重要的技能。而学习CSS（层叠样式表）是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局，还可以为用户呈现独特且具有吸引力的页面效果。在本文中，我将为您介绍一些基本的CSS知识，以及一些常用的代…

程序猿
2025年12月24日
8000
用户投稿

揭秘Web标准涵盖的语言：了解网页开发必备的语言范围

在当今数字时代，互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位，网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术，离不开一些必备的语言。本文将揭秘Web标准涵盖的语言，让我们一起了解网页开发所需的语言范围。首先，HTML（HyperText Markup La…

程序猿
2025年12月24日
4000
用户投稿

揭开Web开发的语言之谜：了解构建网页所需的语言有哪些？

Web标准中的语言大揭秘：掌握网页开发所需的语言有哪些？随着互联网的快速发展，网页开发已经成为人们重要的职业之一。而要成为一名优秀的网页开发者，掌握网页开发所需的语言是必不可少的。本文将为大家揭示Web标准中的语言大揭秘，介绍网页开发所需的主要语言。 HTML（超文本标记语言）HTML是网页开发的…

程序猿
2025年12月24日
8000
用户投稿

常用的网页开发语言：了解Web标准的要点

了解Web标准的语言要点：常见的哪些语言应用在网页开发中？随着互联网的不断发展，网页已经成为人们获取信息和交流的重要途径。而要实现一个高质量、易用的网页，离不开一种被广泛接受的Web标准。Web标准的制定和应用，涉及到多种语言和技术，本文将介绍常见的几种语言在网页开发中的应用。首先，HTML（H…

程序猿
2025年12月24日
7000
用户投稿

网页开发中常见的Web标准语言有哪些？

探索Web标准语言的世界：网页开发中常用的语言有哪些？在现代社会中，互联网的普及程度越来越高，网页已成为人们获取资讯、娱乐、交流的重要途径。而网页的开发离不开各种编程语言的应用和支持。在这个虚拟世界的网络，有许多被广泛应用的标准化语言，用于为用户提供优质的网页体验。本文将探索网页开发中常用的语言，…

程序猿
2025年12月24日
0000
用户投稿

深入探究Web标准语言的范围，涵盖了哪些语言？

Web标准是指互联网上的各个网页所需遵循的一系列规范，确保网页在不同的浏览器和设备上能够正确地显示和运行。这些标准包括HTML、CSS和JavaScript等语言。本文将深入解析Web标准涵盖的语言范围。首先，HTML（HyperText Markup Language）是构建网页的基础语言。它使…

程序猿
2025年12月24日
5000
用户投稿

CSS 超链接属性解析：text-decoration 和 color

CSS 超链接属性解析：text-decoration 和 color 超链接是网页中常用的元素之一，它能够在不同页面之间建立连接。为了使超链接在页面中有明显的标识和吸引力，CSS 提供了一些属性来调整超链接的样式。本文将重点介绍 text-decoration 和 color 这两个与超链接相关的…

程序猿
2025年12月24日
0000
看看这些前端面试题，带你搞定高频知识点（一）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：给定一个元素，如何实现水平垂直居中？…

程序猿
2025年12月24日 • 用户投稿
4000
看看这些前端面试题，带你搞定高频知识点（二）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：页面导入样式时，使用 link 和 …

程序猿
2025年12月24日 • 用户投稿
4000
看看这些前端面试题，带你搞定高频知识点（三）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：清除浮动有哪些方式？我：呃~，浮动…

程序猿
2025年12月24日 • 用户投稿
0000
看看这些前端面试题，带你搞定高频知识点（四）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：请你谈一下自适应(适配)的方案我：…

程序猿
2025年12月24日 • 用户投稿
0000
看看这些前端面试题，带你搞定高频知识点（五）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：css 如何实现左侧固定 300px…

程序猿
2025年12月24日 • 用户投稿
0000
HTML+CSS+JS实现雪花飘扬（代码分享）

使用html+css+js如何实现下雪特效？下面本篇文章给大家分享一个html+css+js实现雪花飘扬的示例，希望对大家有所帮助。很多南方的小伙伴可能没怎么见过或者从来没见过下雪，今天我给大家带来一个小Demo，模拟了下雪场景，首先让我们看一下运行效果可以点击看看在线运行：http://hai…

程序猿
2025年12月24日 • 用户投稿
7000
分享20个首页流行布局样式，总有一款适合你！

本篇文章给大家分享20个首页流行布局样式，总有一款适合你，快来收藏试试吧，希望对大家有所帮助！有时我们会在网站上遇到一些内容布局问题，如文字对齐、图片设计与内容和谐、为文章选择合适的字体……在今天的文章中，介绍一些设计精美的创意布局，let‘s 开始。代号 001 源码…

程序猿
2025年12月24日 • 用户投稿
0000
css如何让div悬浮于另一个div上

让div悬浮于另一个div上的方法：1、给两个div元素添加“position:absolute”绝对定位样式；2、给其中一个div元素添加“{top:距离页面顶部距离;left:距离页面左侧距离;}”样式使其浮动在另一个div元素上即可。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日 • 用户投稿
0000
用户投稿

css怎样实现字母不到一行就换行

css字母不到一行就换行的方法：1、给元素添加“word-break:break-word;”样式，使其以单词为单位换行；2、给元素添加“word-break:break-all;”样式，使其以字母为单位换行。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell…

程序猿
2025年12月24日
0000
用户投稿

css里怎样设置字体大小和字体颜色

在css中，可以使用“font-size”和color属性设置字体大小和字体颜色，只需要给字体元素添加“{font-size: 字体大小值;color: 颜色值;}”样式即可。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell G3电脑。 css里设置字体大小…

程序猿
2025年12月24日
0000
用户投稿

css边框变圆角边框怎么写

写法：1、给边框添加“border-radius:圆角值;”样式统一设置圆角大小；2、添加“border-top-left-radius:圆角值;”、“border-top-right-radius:圆角值;”等样式分别设置四角圆角大小。本教程操作环境：windows7系统、CSS3&&a…

程序猿
2025年12月24日
0000
css如何使鼠标悬停变色

在css中，可以通过hover选择器和color属性实现鼠标悬停变色的效果，hover选择器用于选择鼠标指针浮动在上面的元素，color属性用于设置悬停时的颜色；语法“:hover{color:悬停颜色;}”。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell…

程序猿
2025年12月24日 • 用户投稿
0000
手把手教你使用css制作表格边框设置效果（附代码）

之前的文章《一招教你使用css3制作按钮添加动态效果（代码分享）》中，给大家介绍了怎么使用css3制作按钮添加动态效果。下面本篇文章给大家介绍怎么使用css制作表格边框设置效果，我们一起看看怎么做。网页中常常有这样的表格布局边框，给大家分享一下看效果图看完效果，我们来研究一下是怎么实现呢，给大家用…

程序猿
2025年12月24日 • 用户投稿
0000