Scrapy CSS选择器提取P标签内文本的技巧

Scrapy CSS选择器提取P标签内文本的技巧

本文详细介绍了在Scrapy中使用CSS选择器提取HTML p 标签内纯文本内容的方法。核心在于利用 ::text 伪元素,它能精确地选取元素的直接文本节点,而非包含标签的完整HTML。教程通过代码示例展示了如何应用 ::text 来获取单个或多个 p 标签的内部文本,并强调了 get() 和 getall() 方法在处理结果集时的应用,帮助开发者高效地从网页中抓取所需文本信息。

在scrapy爬虫开发中,我们经常需要从html元素中提取其内部的纯文本内容,而不是包含标签在内的整个html片段。例如,对于

bob guiney

这样的html结构,我们可能只希望获取 “bob guiney”。直接使用 response.css(‘p’).extract() 或 response.css(‘p’).get() 通常会返回完整的html字符串,这并非我们所期望的。

核心解决方案:使用 ::text 伪元素

Scrapy的CSS选择器提供了一个强大的伪元素 ::text,专门用于提取元素的直接文本节点。通过将其附加到任何CSS选择器之后,您可以指示Scrapy只返回该元素内部的纯文本内容,而忽略所有子标签。

示例代码:

假设我们有以下HTML片段,并且已经通过 section_div 定位到了其父级元素:

Bob Guiney

Another paragraph text.

This is a span.

要从第一个 p 标签中提取 “Bob Guiney”,我们可以这样修改代码:

立即学习“前端免费学习笔记(深入)”;

import scrapyclass MySpider(scrapy.Spider):    name = 'my_spider'    start_urls = ['http://example.com'] # 替换为实际URL    def parse(self, response):        # 假设 response 包含了上述HTML结构        section_div = response.css('div[data-testid="talent-profile-page-talent-info"]')        # 使用 ::text 伪元素提取 p 标签内的直接文本        p_names_selectors = section_div.css("section#talent-summary > p::text")        # 获取第一个 p 标签的文本内容        if p_names_selectors:            name = p_names_selectors[0].get()            print(f"提取到的姓名: {name.strip()}") # .strip() 用于去除可能的空白字符        else:            print("未找到 p 标签文本。")        # 获取所有 p 标签的文本内容        all_p_texts = [text.strip() for text in p_names_selectors.getall()]        print(f"所有 p 标签文本: {all_p_texts}")        # 如果 p 标签内部有其他标签,::text 将只提取 p 标签的直接文本子节点        # 例如:

Hello World!

# p::text 会返回 "Hello " 和 "!",而不会返回 "World" # 如果需要获取所有文本(包括子标签内的文本),可能需要结合 XPath 的 string(.) 方法 # 或更复杂的 CSS/XPath 组合。但对于简单的纯文本需求,::text 是最直接高效的选择。

代码解释:

巧文书 巧文书

巧文书是一款AI写标书、AI写方案的产品。通过自研的先进AI大模型,精准解析招标文件,智能生成投标内容。

巧文书 61 查看详情 巧文书

section_div.css(“section#talent-summary > p::text”):

section#talent-summary > p: 这部分选择器首先定位到 id 为 talent-summary 的 section 元素,然后选择其直接子元素 p。::text: 这是关键部分。它告诉Scrapy,对于前面选择到的每一个 p 元素,我们只关心其内部的直接文本内容,而不是整个 p 标签的HTML结构。

p_names_selectors[0].get():

当使用 ::text 时,css() 方法返回的仍然是一个 SelectorList 对象,其中每个 Selector 对象现在代表一个文本节点。[0] 用于访问 SelectorList 中的第一个文本节点选择器。.get() (或 .extract()) 方法用于从该文本节点选择器中提取实际的字符串值。建议使用 .get(),它是 .extract_first() 的更简洁替代。

p_names_selectors.getall():

如果页面中有多个符合选择器条件的 p 标签,并且您希望获取所有这些标签的文本内容,可以使用 getall() (或 extract()) 方法。它将返回一个包含所有匹配文本字符串的列表。

注意事项与总结

::text 的作用范围: ::text 伪元素只会提取元素的直接文本子节点。这意味着,如果一个 p 标签内部还包含其他HTML标签(例如 ),::text 将不会提取这些子标签内部的文本。它只会获取 p 标签与其直接子标签之间或 p 标签开头和结尾处的文本。例如:对于

Hello World!

,p::text 会返回 [‘Hello ‘, ‘!’]。处理空白字符: 提取到的文本内容可能包含前导或尾随的空白字符(如换行符、空格)。通常,您会希望使用Python的 str.strip() 方法来清理这些空白。选择器的灵活性: ::text 可以与任何有效的CSS选择器结合使用,从而实现非常精确的文本提取。

通过掌握 ::text 伪元素,您可以更高效、更精确地从网页中抓取所需的纯文本信息,避免了对完整HTML字符串进行额外的解析或正则匹配,从而简化了Scrapy爬虫的开发过程。

以上就是Scrapy CSS选择器提取P标签内文本的技巧的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/619795.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月11日 06:02:11
下一篇 2025年11月11日 06:03:02

相关推荐

  • Linux中如何安装Nginx服务_Linux安装Nginx服务的完整指南

    首先更新系统软件包,然后通过对应包管理器安装Nginx,启动并启用服务,开放防火墙端口,最后验证欢迎页显示以确认安装成功。 在Linux系统中安装Nginx服务是搭建Web服务器的第一步。Nginx以高性能、低资源消耗和良好的并发处理能力著称,广泛用于静态内容服务、反向代理和负载均衡。以下是在主流L…

    2025年12月6日 运维
    000
  • Linux命令行中wc命令的实用技巧

    wc命令可统计文件的行数、单词数、字符数和字节数,常用-l统计行数,如wc -l /etc/passwd查看用户数量;结合grep可分析日志,如grep “error” logfile.txt | wc -l统计错误行数;-w统计单词数,-m统计字符数(含空格换行),-c统计…

    2025年12月6日 运维
    000
  • JavaScript动态生成日历式水平日期布局的优化实践

    本教程将指导如何使用javascript高效、正确地动态生成html表格中的日历式水平日期布局。重点解决直接操作`innerhtml`时遇到的标签闭合问题,通过数组构建html字符串来避免浏览器解析错误,并利用事件委托机制优化动态生成元素的事件处理,确保生成结构清晰、功能完善的日期展示。 在前端开发…

    2025年12月6日 web前端
    000
  • VSCode入门:基础配置与插件推荐

    刚用VSCode,别急着装一堆东西。先把基础设好,再按需求加插件,效率高还不卡。核心就三步:界面顺手、主题舒服、功能够用。 设置中文和常用界面 打开软件,左边活动栏有五个图标,点最下面那个“扩展”。搜索“Chinese”,装上官方出的“Chinese (Simplified) Language Pa…

    2025年12月6日 开发工具
    000
  • VSCode性能分析与瓶颈诊断技术

    首先通过资源监控定位异常进程,再利用开发者工具分析性能瓶颈,结合禁用扩展、优化语言服务器配置及项目设置,可有效解决VSCode卡顿问题。 VSCode作为主流的代码编辑器,虽然轻量高效,但在处理大型项目或配置复杂扩展时可能出现卡顿、响应延迟等问题。要解决这些性能问题,需要系统性地进行性能分析与瓶颈诊…

    2025年12月6日 开发工具
    000
  • VSCode的悬浮提示信息可以自定义吗?

    可以通过JSDoc、docstring和扩展插件自定义VSCode悬浮提示内容,如1. 添加JSDoc或Python docstring增强信息;2. 调整hover延迟与粘性等显示行为;3. 使用支持自定义提示的扩展或开发hover provider实现深度定制,但无法直接修改HTML结构或手动编…

    2025年12月6日 开发工具
    000
  • 优化PDF中下载链接的URL显示:利用HTML title 属性

    在pdf文档中,当包含下载链接时,完整的url路径通常会在鼠标悬停时或直接显示在链接文本中,这可能不符合预期。本文将探讨为何传统方法如`.htaccess`重写或javascript不适用于pdf环境,并提出一种利用html “ 标签的 `title` 属性来定制链接悬停显示文本的解决方…

    2025年12月6日 后端开发
    000
  • Phaser 3 游戏画布响应式适配:保持高度控制宽度

    本文旨在提供一种在 Phaser 3 游戏中实现画布响应式适配的方案,核心思路是利用 `Phaser.Scale.HEIGHT_CONTROLS_WIDTH` 缩放模式,使画布高度适应父容器,宽度随之调整,并始终居中显示。这种方法适用于需要保持游戏核心内容在屏幕中央,允许左右裁剪的场景。 在 Pha…

    2025年12月6日 web前端
    000
  • Phaser 3游戏画布响应式布局:实现高度适配与宽度裁剪

    本文深入探讨phaser 3游戏画布在特定响应式场景下的布局策略,尤其是在需要画布高度适配父容器并允许左右内容裁剪时。通过结合phaser的scalemanager中的`height_controls_width`模式与精细的css布局,本教程将展示如何实现一个既能保持游戏画面比例,又能完美融入不同…

    2025年12月6日 web前端
    000
  • 解决HTML锚点链接页面重载与URL路径丢失问题

    在使用html锚点链接进行页面内部导航时,开发者可能会遇到页面意外重载或url路径丢失的问题,导致无法正确滚动到目标区域。本文将深入探讨这一常见问题的根源,并提供一种简洁有效的解决方案:确保锚点链接的`href`属性包含当前页面的完整相对路径,从而实现平滑的页面内跳转,避免不必要的页面刷新和url结…

    2025年12月6日 后端开发
    000
  • PDF文档中隐藏下载链接真实路径的教程

    本教程旨在解决pdf文档中下载链接显示完整url路径的问题,尤其是在鼠标悬停时暴露动态参数。文章将解释为何传统的.htaccess重写或javascript方法不适用于pdf环境,并提出一种利用html “标签的`title`属性来控制链接提示文本的有效策略,从而在不影响功能的前提下,优…

    2025年12月6日 后端开发
    000
  • JavaScript SVG动态矢量图形处理

    JavaScript结合SVG可实现高效动态图形处理,通过createElementNS创建带命名空间的SVG元素,动态生成如圆形等图形;利用setAttribute实时修改属性实现交互响应;借助requestAnimationFrame或事件驱动完成平滑动画;基于数据映射生成路径,支持折线图等复杂…

    2025年12月6日 web前端
    000
  • paperok查重系统官网主页网址 paperok查重官网链接快速访问

    PaperOK查重系统官网为https://www.paperok.com,提供登录注册、免费积分领取、文档上传检测、报告查看下载等功能,整合多类学术资源库,覆盖期刊论文与网络信息,采用语义分析与分段检测技术,支持学科分类更新与引用标注建议,提升查重精准度。 ☞☞☞AI 智能聊天, 问答助手, AI…

    2025年12月6日 科技
    000
  • 如何在安装完成后优化缓存使用

    合理配置缓存策略可提升系统效率,需设置适宜的过期时间、选用多层存储介质并持续监控维护。 安装完成后优化缓存使用,关键在于合理配置缓存策略、选择合适的存储方式,并定期维护。以下是一些实用建议,帮助你提升系统或应用的缓存效率。 合理设置缓存过期时间 缓存的有效期直接影响数据的新鲜度和性能表现。设置过短会…

    2025年12月6日 数据库
    000
  • Linux文件系统readlink命令使用方法

    readlink命令用于解析符号链接指向的实际路径,基本用法为readlink 文件名,-f选项可递归解析为绝对路径,常用于脚本中获取真实文件位置,如readlink -f “$0″确定脚本自身路径,结合which命令可追踪命令真实执行文件,-n、-q、-s等选项支持静默处理…

    2025年12月6日 运维
    000
  • OpenCart 3.0 联系我们邮件发送失败的诊断与解决指南

    本教程旨在解决opencart 3.0版本中“联系我们”表单邮件无法发送的问题。我们将从前端表单提交动作出发,系统性地追踪后端控制器逻辑,指导您定位邮件发送失败的根本原因。内容涵盖控制器定位、代码执行验证、数据流分析及常见配置检查,帮助您高效调试并恢复邮件功能。 OpenCart 3.0作为一款流行…

    2025年12月6日
    000
  • VSCode后端:Flask应用调试指南

    答案:配置VSCode调试Flask需安装Flask、编写入口文件、在launch.json中设置调试参数,然后设断点并启动调试会话。具体步骤包括创建launch.json文件并配置program、env和args等选项,确保使用正确Python解释器,避免端口占用,最后通过运行和调试面板启动应用,…

    2025年12月6日 开发工具
    000
  • Chrome扩展开发:解决图片资源加载失败的完整指南

    本文详细阐述了chrome扩展程序中图片资源加载失败的常见原因及解决方案。核心在于理解`manifest.json`中的`web_accessible_resources`配置,并掌握在内容脚本或动态生成元素中通过`chrome.runtime.geturl()`函数正确引用扩展内部图片资源的最佳实…

    2025年12月6日 web前端
    000
  • 如何管理和同步VSCode的扩展配置,以便在新设备上快速恢复开发环境?

    使用 Settings Sync 是最快方式,通过 GitHub 账号同步扩展、设置、快捷键和代码片段;也可手动导出扩展列表(code –list-extensions > extensions.txt)并在新设备安装,结合备份 settings.json 等配置文件实现环境快速恢…

    2025年12月6日 开发工具
    000
  • 无XHR请求时提取JavaScript动态生成内容的教程

    本教程探讨了在爬取网页时,当目标内容由javascript动态生成且无明显xhr请求时的数据提取策略。我们将揭示数据可能已内嵌于初始html或js代码中,并演示如何通过检查页面源代码、识别关键标识符来定位并提取这些隐藏的json格式数据,从而实现高效的网页内容抓取。 挑战:JavaScript动态内…

    2025年12月6日 web前端
    000

发表回复

登录后才能评论
关注微信