Python网络爬虫：BeautifulSoup函数设计与HTML元素高效提取

程序猿 • 2025年12月23日 15:35:48 • 好文分享 • 阅读 0

本文深入探讨了使用python requests和beautifulsoup进行网络爬虫时常见的编程陷阱，特别是变量作用域、函数设计以及html元素的高效提取。通过分析一个具体的案例，文章详细介绍了如何优化函数结构、正确传递参数、精确查找并提取目标数据，从而避免常见的none返回问题，提升爬虫代码的健壮性和可维护性。

在进行网络数据抓取时，Python的requests库用于发送HTTP请求，而BeautifulSoup库则用于解析HTML或XML文档，从中提取所需数据。然而，即使请求成功（HTTP状态码200），在尝试解析HTML内容时，开发者仍可能遇到返回None的情况。这通常不是因为网络请求失败，而是由于代码逻辑、变量作用域或HTML解析策略上的误区。

理解Python中的变量作用域与函数设计

原始代码中存在几个关键问题，这些问题共同导致了数据提取的失败：

局部变量与全局变量的混淆：在Python中，函数内部定义的变量默认为局部变量，它们的作用域仅限于函数内部。这意味着，当函数执行完毕后，这些局部变量就会被销毁，无法在函数外部直接访问。在原代码的compare函数中，tableau被定义为局部变量，但尝试在函数外部访问它。

函数未被调用：一个函数只有在被显式调用时才会执行其内部的代码逻辑。原代码中定义了compare函数，但没有在主程序流程中调用它，导致函数内部的逻辑（包括soup.find(“tbody”)的判断和tableau的赋值）从未被执行。

以下是一个简化的示例，说明了局部变量的问题：

def my_function():    local_var = "Hello"    return local_var# 尝试在函数外部访问 local_var 会导致错误# print(local_var) # NameError: name 'local_var' is not defined# 正确的做法是调用函数并获取其返回值result = my_function()print(result) # 输出: Hello

优化函数设计：参数传递与返回值

为了解决上述问题，我们需要对函数进行优化，使其更具独立性和可重用性。

立即学习“Python免费学习笔记（深入）”；

通过参数传递依赖对象：函数不应该依赖全局变量。相反，它应该通过参数接收所有必要的数据。将BeautifulSoup对象作为参数传递给函数，可以确保函数在任何上下文中都能独立工作。

明确的返回值：函数应该返回它计算或处理后的结果。如果函数需要将处理后的数据供外部使用，就必须通过return语句将其返回。

以下是优化后的函数设计示例：

import requestsfrom bs4 import BeautifulSoupurl = "https://trouver-ip.com"ip = input("Choisissez une IP : ")response = requests.post(url, data={"ip": ip})soup = BeautifulSoup(response.text, "html.parser")print(response)# 优化后的函数，接收soup对象作为参数def extract_table_data(html_soup):    # 查找 tbody 元素    tbody_element = html_soup.find("tbody")    # 检查元素是否存在，避免NoneType错误    if tbody_element is not None:        return tbody_element.text # 返回 tbody 元素的文本内容    else:        return None # 如果未找到，返回None# 调用函数并获取其返回值table_data = extract_table_data(soup)print(table_data)

高效的HTML元素查找与数据提取

在BeautifulSoup中，find()和findAll()是两个核心的查找方法。理解它们的区别至关重要：

find(tag, attributes, …)：返回第一个匹配指定标签和属性的元素。如果未找到任何匹配项，则返回None。findAll(tag, attributes, …)：返回所有匹配指定标签和属性的元素列表。如果未找到任何匹配项，则返回一个空列表。

原始代码中使用soup.findAll(“html”)是一个常见的误区。findAll(“html”)会返回整个HTML文档的根标签，通常只有一个，并且它包含了整个页面的所有内容，这并非我们想要提取的特定数据。

为了精确提取

标签内的内容，我们应该使用soup.find(“tbody”)。此外，重要的是要检查find()方法的返回值是否为None，因为如果元素不存在，直接对None对象调用.text等属性会引发AttributeError。

在上面的优化代码中，extract_table_data函数正是体现了这些最佳实践：

它接收html_soup作为参数，与外部soup对象解耦。使用html_soup.find(“tbody”)精确查找目标元素。通过if tbody_element is not None:进行显式检查，增强代码健壮性。如果找到元素，返回其.text属性；否则，返回None，清晰地表明查找结果。

注意事项与最佳实践

错误处理：在实际的爬虫项目中，除了处理HTML元素不存在的情况，还需要考虑网络请求可能失败（如超时、连接错误、HTTP状态码非200等）。使用try-except块来捕获requests库可能抛出的异常，并检查response.status_code。User-Agent：许多网站会检查请求的User-Agent头。为了模拟浏览器行为，建议在requests.post()或requests.get()中添加headers参数，设置一个常见的User-Agent。遵守网站规则：在进行网络爬虫时，务必遵守目标网站的robots.txt协议，并尊重其使用条款。过度频繁的请求可能导致IP被封禁。数据清洗：从HTML中提取的文本可能包含多余的空格、换行符等。使用.strip()、正则表达式等方法进行数据清洗是常见的后续步骤。

总结

本教程通过一个具体的案例，详细阐述了在Python网络爬虫中使用requests和BeautifulSoup时，如何避免因变量作用域、函数设计不当以及HTML元素查找策略错误而导致的None返回问题。核心要点包括：

理解并正确使用变量作用域：避免在函数外部直接访问局部变量。优化函数设计：通过参数传递依赖对象，并使用return语句返回结果，提高函数的独立性和可重用性。精确的HTML元素查找：利用find()和findAll()方法的特性，结合is not None检查，确保可靠地提取目标数据。

遵循这些最佳实践，将有助于您编写出更健壮、高效且易于维护的Python网络爬虫代码。

以上就是Python网络爬虫：BeautifulSoup函数设计与HTML元素高效提取的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1601561.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

idea的html怎么运行不了_解idea中html无法运行问题【技巧】

上一篇 2025年12月23日 15:35:34

html js怎么运行php文件_html与js运行php文件法【教程】

下一篇 2025年12月23日 15:35:51

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
如何在网页 F12 调试中查看鼠标悬停时才出现的 DOM 元素？

如何在网页 f12 调试中查看鼠标悬停时才出现的 dom 元素？在 f12 调试模式下，鼠标悬停时才出现的 dom 元素无法通过直接选择查看。解决方法根据显示原理的不同而有所区别： 1. css 控制的元素强制开启悬停状态：在 firefox 浏览器中，可以通过在开发者工具中手动开启选中元素的 …

程序猿
2025年12月24日 • 好文分享
1000
好文分享

TDesign UI库中小程序开发的CSS选择器：为什么“.t-grid–card”能生效？

TDesign UI库中CSS选择器困惑在小程序开发中，使用TDesign UI库时，您可能会遇到一个困惑的CSS选择器。例如，在DOM结构中，一个元素的class为”t-grid t-card class t-class”, 但其CSS选择器却是”&#8216…

程序猿
2025年12月24日
0000
好文分享

逻辑属性与旧版属性：如何根据文本方向选择合适的CSS属性？

CSS 逻辑属性与旧版属性 CSS 中引入了逻辑属性和旧版属性的概念。这些属性负责控制页面元素的外观和布局。逻辑属性逻辑属性以逻辑方向命名，如左右、上下。它们根据元素在文档流中的位置来确定元素的外观。例如：立即学习“前端免费学习笔记（深入）”； marginBlockStart：控制元素在垂直…

程序猿
2025年12月24日
0000
好文分享

CSS 逻辑属性和旧版属性：如何选择？

css逻辑属性与旧版属性 css中，逻辑属性和旧版属性用于控制元素的布局和外观。然而，两者在语法和使用方式上有所不同。逻辑属性逻辑属性是基于元素在现实世界中的预期行为来命名的。它使用诸如 “start”、”end” 和 “block&#…

程序猿
2025年12月24日
4000
好文分享

您不需要 CSS 预处理器

原生 css 在最近几个月/几年里取得了长足的进步。在这篇文章中，我将回顾人们使用 sass、less 和 stylus 等 css 预处理器的主要原因，并向您展示如何使用原生 css 完成这些相同的事情。分隔文件分离文件是人们使用预处理器的主要原因之一。尽管您已经能够将另一个文件导入到 css…

程序猿
2025年12月24日
0000
好文分享

动态样式类名为何失效：嵌套与并列选择器的区别在哪里？

动态样式类名不起作用：嵌套与并列问题在使用动态样式类名时，有时会遇到尽管触发事件但样式却没有改变的情况。这可能是由于使用了后代选择器而造成的。以提供的代码为例：块中，嵌套的类是content类的后代。这意味着类仅在元素包含子元素时才能生效。为了解决这个问题，需要将与类编写为并列，而不是嵌套方…

程序猿
2025年12月24日
2000
好文分享

如何利用JS脚本在浏览器中获取IP地址和地理位置信息？

如何在浏览器中获取ip地理位置信息要获取ip地址和地理位置信息，可以利用http://ip.tanwan.com/index.php?action=ipinfo&format=js提供的js脚本，但该脚本请求类型为文档，并不适用于ajax请求。解决方法：像cdn一样引入脚本一种可行的解…

程序猿
2025年12月24日
1000
好文分享

如何使用Ajax从远程JS文件获取IP信息并展示在HTML元素中？

如何利用ajax获取远程数据并赋值给html元素？你提供的url是一个js文件，其中包含了ip信息。虽然该文件可以通过ajax获取，但需要注意的是，对于document类型的请求是无法使用ajax的。因此，通常会采取类似cdn引入的方式来获取这类数据。代码演示：在html文件中加入必要的脚本引…

程序猿
2025年12月24日
0000
好文分享

CSS 定位属性：六种定位方式的区别是什么？

CSS中的定位属性及其区别 CSS中的 position 属性定义元素的定位行为，它共有六个可供选择的属性值，分别是：静态定位 (static)：默认值，元素按照正常文档流进行定位。相对定位 (relative)：元素相对于自身原本的位置进行偏移。绝对定位 (absolute)：元素相对于最近的非…

程序猿
2025年12月24日
0000
好文分享

React 嵌套组件中，CSS 样式会互相影响吗？

react 嵌套组件 css 穿透影响在 react 中，嵌套组件的 css 样式是否会相互影响，取决于采用的 css 解决方案。传统 css 如果使用传统的 css，在嵌套组件中定义的样式可能会穿透影响到父组件。例如，在给出的代码中：立即学习“前端免费学习笔记（深入）”； component…

程序猿
2025年12月24日
0000
好文分享

React 嵌套组件中父组件 CSS 修饰会影响子组件样式吗？

对嵌套组件的 CSS 修饰是否影响子组件样式提问：在 React 中，如果对嵌套组件 ComponentA 配置 CSS 修饰，是否会影响到其子组件 ComponentB 的样式？ComponentA 是由 HTML 元素（如 div）组成的。回答：立即学习“前端免费学习笔记（深入）”；在…

程序猿
2025年12月24日
0000
好文分享

父元素仅设置 Line-height 对子元素高度的影响：行内块级元素与块级元素有什么区别？

父元素仅设置 Line-height 对子元素的块级或行内块级元素的影响当父元素只设置了 Line-height 而没有设置高度时，对其子元素的影响将取决于子元素的类型。如果子元素是行内块级元素，如 inine-block，父元素的 Line-height 将成为子元素的高度。这是因为行内块级元…

程序猿
2025年12月24日
0000
好文分享

当父元素仅设置行高时，块级和行内块级元素的行为有何区别？

当父元素仅设置行高时，块级或行内块级子元素的行为在 html 中，当父元素仅设置行高 line-height 时，块级或行内块级元素的行为会有所不同。 <line-height: 60px; background-color: antiquewhite; 哈哈哈行内块级元素（display…

程序猿
2025年12月24日
2000
好文分享

为什么CSS中多个类选择器声明时，最后声明的样式会覆盖前面的样式？

探究类选择器样式的覆盖规则给定如下html和css代码： html：展示的内容立即学习“前端免费学习笔记（深入）”； css： .a1 { color: red;}.a2 { color: green;}.a3 { color: blue;} 元素的文本显示为蓝色，这是为什么？答案：由于cs…

程序猿
2025年12月24日
0000
好文分享

为什么将perspective样式设置在带有transform-style: preserve-3d样式的元素的父级元素上才能得到预期的3D变换效果？

perspective必须设置在带有transform style: preserve-3d样式的元素的父级元素上吗？问题：你的HTML和CSS代码中，将perspective样式设置在了.scene元素上，当你将其移动到.cube元素后，效果却发生了变化。这是为什么？解答： perspect…

程序猿
2025年12月24日
0000
好文分享

perspective属性设置在父元素和后代元素上，对3D效果有什么区别？

perspective属性的位置对3d效果的影响通常情况下，perspective属性需要设置在应用了transform-style: preserve-3d属性的父元素上。然而，如果perspective属性设置在后代元素上会产生不同的效果。为了演示区别，让我们扩展已有的示例： front b…

程序猿
2025年12月24日
0000
好文分享

CSS perspective 属性，设置在不同元素上会产生什么区别？

perspective 属性在不同元素上的效果对比 CSS 中的 perspective 属性用于指定 3D 转换的视角距离。它可以通过改变物体相对于观察者的远近距离来创建三维效果。然而，将 perspective 设置在不同的元素上会产生不同的效果。根据提供的代码，我们将 perspective…

程序猿
2025年12月24日
0000