Scrapy CSS选择器提取P标签内文本的技巧

程序猿 • 2025年11月11日 06:02:21 • 后端开发 • 阅读 1

本文详细介绍了在Scrapy中使用CSS选择器提取HTML p 标签内纯文本内容的方法。核心在于利用 ::text 伪元素，它能精确地选取元素的直接文本节点，而非包含标签的完整HTML。教程通过代码示例展示了如何应用 ::text 来获取单个或多个 p 标签的内部文本，并强调了 get() 和 getall() 方法在处理结果集时的应用，帮助开发者高效地从网页中抓取所需文本信息。

在scrapy爬虫开发中，我们经常需要从html元素中提取其内部的纯文本内容，而不是包含标签在内的整个html片段。例如，对于

bob guiney

这样的html结构，我们可能只希望获取 “bob guiney”。直接使用 response.css(‘p’).extract() 或 response.css(‘p’).get() 通常会返回完整的html字符串，这并非我们所期望的。

核心解决方案：使用 ::text 伪元素

Scrapy的CSS选择器提供了一个强大的伪元素 ::text，专门用于提取元素的直接文本节点。通过将其附加到任何CSS选择器之后，您可以指示Scrapy只返回该元素内部的纯文本内容，而忽略所有子标签。

示例代码：

假设我们有以下HTML片段，并且已经通过 section_div 定位到了其父级元素：

            Bob Guiney
        Another paragraph text.
        This is a span.

要从第一个 p 标签中提取 “Bob Guiney”，我们可以这样修改代码：

立即学习“前端免费学习笔记（深入）”；

import scrapyclass MySpider(scrapy.Spider):    name = 'my_spider'    start_urls = ['http://example.com'] # 替换为实际URL    def parse(self, response):        # 假设 response 包含了上述HTML结构        section_div = response.css('div[data-testid="talent-profile-page-talent-info"]')        # 使用 ::text 伪元素提取 p 标签内的直接文本        p_names_selectors = section_div.css("section#talent-summary > p::text")        # 获取第一个 p 标签的文本内容        if p_names_selectors:            name = p_names_selectors[0].get()            print(f"提取到的姓名: {name.strip()}") # .strip() 用于去除可能的空白字符        else:            print("未找到 p 标签文本。")        # 获取所有 p 标签的文本内容        all_p_texts = [text.strip() for text in p_names_selectors.getall()]        print(f"所有 p 标签文本: {all_p_texts}")        # 如果 p 标签内部有其他标签，::text 将只提取 p 标签的直接文本子节点        # 例如：Hello World!
        # p::text 会返回 "Hello " 和 "!"，而不会返回 "World"        # 如果需要获取所有文本（包括子标签内的文本），可能需要结合 XPath 的 string(.) 方法        # 或更复杂的 CSS/XPath 组合。但对于简单的纯文本需求，::text 是最直接高效的选择。

代码解释：

巧文书

巧文书是一款AI写标书、AI写方案的产品。通过自研的先进AI大模型，精准解析招标文件，智能生成投标内容。

61 查看详情

section_div.css(“section#talent-summary > p::text”):

section#talent-summary > p: 这部分选择器首先定位到 id 为 talent-summary 的 section 元素，然后选择其直接子元素 p。::text: 这是关键部分。它告诉Scrapy，对于前面选择到的每一个 p 元素，我们只关心其内部的直接文本内容，而不是整个 p 标签的HTML结构。

p_names_selectors[0].get():

当使用 ::text 时，css() 方法返回的仍然是一个 SelectorList 对象，其中每个 Selector 对象现在代表一个文本节点。[0] 用于访问 SelectorList 中的第一个文本节点选择器。.get() (或 .extract()) 方法用于从该文本节点选择器中提取实际的字符串值。建议使用 .get()，它是 .extract_first() 的更简洁替代。

p_names_selectors.getall():

如果页面中有多个符合选择器条件的 p 标签，并且您希望获取所有这些标签的文本内容，可以使用 getall() (或 extract()) 方法。它将返回一个包含所有匹配文本字符串的列表。

注意事项与总结

::text 的作用范围： ::text 伪元素只会提取元素的直接文本子节点。这意味着，如果一个 p 标签内部还包含其他HTML标签（例如、），::text 将不会提取这些子标签内部的文本。它只会获取 p 标签与其直接子标签之间或 p 标签开头和结尾处的文本。例如：对于

Hello World!

，p::text 会返回 [‘Hello ‘, ‘!’]。处理空白字符： 提取到的文本内容可能包含前导或尾随的空白字符（如换行符、空格）。通常，您会希望使用Python的 str.strip() 方法来清理这些空白。选择器的灵活性： ::text 可以与任何有效的CSS选择器结合使用，从而实现非常精确的文本提取。

通过掌握 ::text 伪元素，您可以更高效、更精确地从网页中抓取所需的纯文本信息，避免了对完整HTML字符串进行额外的解析或正则匹配，从而简化了Scrapy爬虫的开发过程。

以上就是Scrapy CSS选择器提取P标签内文本的技巧的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/619795.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

266.4K 文章

0 评论

1 粉丝

这个人很懒，什么都没有留下～

PHP如何使用API接口_API接口调用与开发教程

上一篇 2025年11月11日 06:02:11

Python虚拟环境下实时数据回调失效的排查与解决

下一篇 2025年11月11日 06:03:02

Linux中如何安装Nginx服务_Linux安装Nginx服务的完整指南

首先更新系统软件包，然后通过对应包管理器安装Nginx，启动并启用服务，开放防火墙端口，最后验证欢迎页显示以确认安装成功。在Linux系统中安装Nginx服务是搭建Web服务器的第一步。Nginx以高性能、低资源消耗和良好的并发处理能力著称，广泛用于静态内容服务、反向代理和负载均衡。以下是在主流L…

程序猿
2025年12月6日 • 运维
0000
Linux命令行中wc命令的实用技巧

wc命令可统计文件的行数、单词数、字符数和字节数，常用-l统计行数，如wc -l /etc/passwd查看用户数量；结合grep可分析日志，如grep “error” logfile.txt | wc -l统计错误行数；-w统计单词数，-m统计字符数（含空格换行），-c统计…

程序猿
2025年12月6日 • 运维
0000
JavaScript动态生成日历式水平日期布局的优化实践

本教程将指导如何使用javascript高效、正确地动态生成html表格中的日历式水平日期布局。重点解决直接操作`innerhtml`时遇到的标签闭合问题，通过数组构建html字符串来避免浏览器解析错误，并利用事件委托机制优化动态生成元素的事件处理，确保生成结构清晰、功能完善的日期展示。在前端开发…

程序猿
2025年12月6日 • web前端
0000
VSCode入门：基础配置与插件推荐

刚用VSCode，别急着装一堆东西。先把基础设好，再按需求加插件，效率高还不卡。核心就三步：界面顺手、主题舒服、功能够用。设置中文和常用界面打开软件，左边活动栏有五个图标，点最下面那个“扩展”。搜索“Chinese”，装上官方出的“Chinese (Simplified) Language Pa…

程序猿
2025年12月6日 • 开发工具
0000
VSCode性能分析与瓶颈诊断技术

首先通过资源监控定位异常进程，再利用开发者工具分析性能瓶颈，结合禁用扩展、优化语言服务器配置及项目设置，可有效解决VSCode卡顿问题。 VSCode作为主流的代码编辑器，虽然轻量高效，但在处理大型项目或配置复杂扩展时可能出现卡顿、响应延迟等问题。要解决这些性能问题，需要系统性地进行性能分析与瓶颈诊…

程序猿
2025年12月6日 • 开发工具
0000
VSCode的悬浮提示信息可以自定义吗？

可以通过JSDoc、docstring和扩展插件自定义VSCode悬浮提示内容，如1. 添加JSDoc或Python docstring增强信息；2. 调整hover延迟与粘性等显示行为；3. 使用支持自定义提示的扩展或开发hover provider实现深度定制，但无法直接修改HTML结构或手动编…

程序猿
2025年12月6日 • 开发工具
0000
优化PDF中下载链接的URL显示：利用HTML title 属性

在pdf文档中，当包含下载链接时，完整的url路径通常会在鼠标悬停时或直接显示在链接文本中，这可能不符合预期。本文将探讨为何传统方法如`.htaccess`重写或javascript不适用于pdf环境，并提出一种利用html “ 标签的 `title` 属性来定制链接悬停显示文本的解决方…

程序猿
2025年12月6日 • 后端开发
0000
Phaser 3 游戏画布响应式适配：保持高度控制宽度

本文旨在提供一种在 Phaser 3 游戏中实现画布响应式适配的方案，核心思路是利用 `Phaser.Scale.HEIGHT_CONTROLS_WIDTH` 缩放模式，使画布高度适应父容器，宽度随之调整，并始终居中显示。这种方法适用于需要保持游戏核心内容在屏幕中央，允许左右裁剪的场景。在 Pha…

程序猿
2025年12月6日 • web前端
0000
Phaser 3游戏画布响应式布局：实现高度适配与宽度裁剪

本文深入探讨phaser 3游戏画布在特定响应式场景下的布局策略，尤其是在需要画布高度适配父容器并允许左右内容裁剪时。通过结合phaser的scalemanager中的`height_controls_width`模式与精细的css布局，本教程将展示如何实现一个既能保持游戏画面比例，又能完美融入不同…

程序猿
2025年12月6日 • web前端
0000
解决HTML锚点链接页面重载与URL路径丢失问题

在使用html锚点链接进行页面内部导航时，开发者可能会遇到页面意外重载或url路径丢失的问题，导致无法正确滚动到目标区域。本文将深入探讨这一常见问题的根源，并提供一种简洁有效的解决方案：确保锚点链接的`href`属性包含当前页面的完整相对路径，从而实现平滑的页面内跳转，避免不必要的页面刷新和url结…

程序猿
2025年12月6日 • 后端开发
0000
PDF文档中隐藏下载链接真实路径的教程

本教程旨在解决pdf文档中下载链接显示完整url路径的问题，尤其是在鼠标悬停时暴露动态参数。文章将解释为何传统的.htaccess重写或javascript方法不适用于pdf环境，并提出一种利用html “标签的`title`属性来控制链接提示文本的有效策略，从而在不影响功能的前提下，优…

程序猿
2025年12月6日 • 后端开发
0000
JavaScript SVG动态矢量图形处理

JavaScript结合SVG可实现高效动态图形处理，通过createElementNS创建带命名空间的SVG元素，动态生成如圆形等图形；利用setAttribute实时修改属性实现交互响应；借助requestAnimationFrame或事件驱动完成平滑动画；基于数据映射生成路径，支持折线图等复杂…

程序猿
2025年12月6日 • web前端
0000
paperok查重系统官网主页网址 paperok查重官网链接快速访问

PaperOK查重系统官网为https://www.paperok.com，提供登录注册、免费积分领取、文档上传检测、报告查看下载等功能，整合多类学术资源库，覆盖期刊论文与网络信息，采用语义分析与分段检测技术，支持学科分类更新与引用标注建议，提升查重精准度。 ☞☞☞AI 智能聊天, 问答助手, AI…

程序猿
2025年12月6日 • 科技
0000
如何在安装完成后优化缓存使用

合理配置缓存策略可提升系统效率，需设置适宜的过期时间、选用多层存储介质并持续监控维护。安装完成后优化缓存使用，关键在于合理配置缓存策略、选择合适的存储方式，并定期维护。以下是一些实用建议，帮助你提升系统或应用的缓存效率。合理设置缓存过期时间缓存的有效期直接影响数据的新鲜度和性能表现。设置过短会…

程序猿
2025年12月6日 • 数据库
0000
Linux文件系统readlink命令使用方法

readlink命令用于解析符号链接指向的实际路径，基本用法为readlink 文件名，-f选项可递归解析为绝对路径，常用于脚本中获取真实文件位置，如readlink -f “$0″确定脚本自身路径，结合which命令可追踪命令真实执行文件，-n、-q、-s等选项支持静默处理…

程序猿
2025年12月6日 • 运维
0000
后端开发

OpenCart 3.0 联系我们邮件发送失败的诊断与解决指南

本教程旨在解决opencart 3.0版本中“联系我们”表单邮件无法发送的问题。我们将从前端表单提交动作出发，系统性地追踪后端控制器逻辑，指导您定位邮件发送失败的根本原因。内容涵盖控制器定位、代码执行验证、数据流分析及常见配置检查，帮助您高效调试并恢复邮件功能。 OpenCart 3.0作为一款流行…

程序猿
2025年12月6日
0000
VSCode后端：Flask应用调试指南

答案：配置VSCode调试Flask需安装Flask、编写入口文件、在launch.json中设置调试参数，然后设断点并启动调试会话。具体步骤包括创建launch.json文件并配置program、env和args等选项，确保使用正确Python解释器，避免端口占用，最后通过运行和调试面板启动应用，…

程序猿
2025年12月6日 • 开发工具
0000
Chrome扩展开发：解决图片资源加载失败的完整指南

本文详细阐述了chrome扩展程序中图片资源加载失败的常见原因及解决方案。核心在于理解`manifest.json`中的`web_accessible_resources`配置，并掌握在内容脚本或动态生成元素中通过`chrome.runtime.geturl()`函数正确引用扩展内部图片资源的最佳实…

程序猿
2025年12月6日 • web前端
0000
如何管理和同步VSCode的扩展配置，以便在新设备上快速恢复开发环境？

使用 Settings Sync 是最快方式，通过 GitHub 账号同步扩展、设置、快捷键和代码片段；也可手动导出扩展列表（code –list-extensions > extensions.txt）并在新设备安装，结合备份 settings.json 等配置文件实现环境快速恢…

程序猿
2025年12月6日 • 开发工具
0000
无XHR请求时提取JavaScript动态生成内容的教程

本教程探讨了在爬取网页时，当目标内容由javascript动态生成且无明显xhr请求时的数据提取策略。我们将揭示数据可能已内嵌于初始html或js代码中，并演示如何通过检查页面源代码、识别关键标识符来定位并提取这些隐藏的json格式数据，从而实现高效的网页内容抓取。挑战：JavaScript动态内…

程序猿
2025年12月6日 • web前端
0000

发表回复

登录后才能评论

Scrapy CSS选择器提取P标签内文本的技巧

核心解决方案：使用 ::text 伪元素

注意事项与总结

关于作者

相关推荐

发表回复