爬虫

  • Python中Gevent的使用

    Gevent通过协程实现高效并发,安装后使用monkey.patch_all()使标准库非阻塞,gevent.spawn()创建协程并发执行任务,结合requests可加速HTTP请求,适用于I/O密集型场景如爬虫、高并发服务器。 Gevent 是一个基于 greenlet 的 Python 并发框…

    2025年12月14日
    000
  • Python Selenium操作Cookie的方法

    Selenium中操作Cookie可实现免登录和会话维持。先访问目标域名,再用get_cookies()获取所有Cookie,get_cookie(name)获取指定Cookie,add_cookie(cookie_dict)添加Cookie,delete_cookie(name)删除指定Cooki…

    2025年12月14日
    000
  • python线程阻塞的解决

    使用多线程或异步编程可避免Python中因I/O、锁竞争等导致的线程阻塞。通过threading模块将耗时任务放入子线程,结合队列实现安全通信;对I/O密集型任务采用asyncio异步编程更高效。示例:创建子线程执行long_task,主线程继续运行。设置超时机制,如网络请求timeout、锁acq…

    2025年12月14日
    000
  • Scrapy CSS 选择器:精确提取HTML标签内部文本(::text)教程

    本教程将详细介绍在 Scrapy 中使用 CSS 选择器时,如何通过 ::text 伪元素精确地从 HTML 标签中提取纯文本内容,而非包含标签的完整 HTML 片段。文章将通过示例代码展示 ::text 的用法,并解释如何处理单个或多个匹配项,帮助开发者高效、准确地抓取所需数据。 理解 ::tex…

    2025年12月14日
    000
  • Scrapy CSS选择器:使用::text伪元素精准提取HTML标签内文本

    本教程详细介绍了在Scrapy中使用CSS选择器提取HTML标签(特别是p标签)内部纯文本内容的技巧。通过引入::text伪元素,您可以精确地获取元素内的文本节点,而非包含标签的完整HTML片段,从而避免不必要的后处理,提升数据提取的效率和准确性。 在进行网页抓取时,我们经常需要从html元素中提取…

    2025年12月14日
    000
  • Scrapy CSS选择器提取P标签内文本的技巧

    本文详细介绍了在Scrapy中使用CSS选择器提取HTML p 标签内纯文本内容的方法。核心在于利用 ::text 伪元素,它能精确地选取元素的直接文本节点,而非包含标签的完整HTML。教程通过代码示例展示了如何应用 ::text 来获取单个或多个 p 标签的内部文本,并强调了 get() 和 ge…

    2025年12月14日 好文分享
    000
  • Selenium Python 控制 Chrome 使用指定用户配置文件教程

    本教程旨在解决使用 Selenium Python 控制 Chrome 浏览器时,无法正确加载指定用户配置文件的问题。文章将详细介绍两种有效的方法来强制 Selenium 打开带有特定用户数据的 Chrome 实例,包括直接指定完整路径和推荐的分别指定用户数据目录与配置文件名的方法,并提供相应的代码…

    2025年12月14日
    000
  • Selenium控制Chrome浏览器加载指定用户配置文件教程

    本教程详细讲解如何使用Selenium正确配置Chrome浏览器加载指定的用户配置文件。我们将探讨两种方法:直接指定完整的配置文件路径,以及更推荐的分离式配置,即通过user-data-dir指定用户数据根目录,并通过profile-directory指定具体配置文件名。文章包含示例代码和重要注意事…

    2025年12月14日
    000
  • Flask API 日志过滤:通过白名单机制优化请求日志管理

    本文详细介绍了如何在 Flask API 中通过实现自定义 WSGI 请求处理器,利用白名单机制过滤不必要的请求日志,从而有效应对日志被垃圾请求淹没的问题。文章着重讲解了动态获取 API 路由端点、正确配置日志过滤逻辑以及解决初始化时序问题的关键步骤,并探讨了在生产环境中可能遇到的挑战及替代方案。 …

    2025年12月14日
    000
  • 解决Python requests循环请求中遇到的401未授权错误

    在Python使用requests库循环抓取数据时,频繁请求可能导致服务器返回401未授权错误。本文将详细介绍如何通过引入重试机制、设置请求延迟以及利用多线程并发处理来构建一个健壮的网络爬虫,有效应对此类问题,确保数据稳定获取,同时优化抓取效率。 理解HTTP 401未授权错误及其成因 HTTP状态…

    2025年12月14日
    000
关注微信