Python爬取动态加载内容的技巧:识别并处理XHR请求

Python爬取动态加载内容的技巧:识别并处理XHR请求

当使用beautifulsoup等库直接解析网页内容时,如果目标元素为空,通常是因为其内容通过javascript动态加载。本教程将指导您如何利用浏览器开发者工具识别并直接请求这些动态数据背后的xhr(xmlhttprequest)接口,从而绕过前端渲染,高效地抓取所需信息,特别是针对json格式的动态内容。

理解动态内容加载与爬取挑战

在现代网页开发中,为了提升用户体验,许多网站采用JavaScript来动态加载内容。这意味着当您通过requests库获取网页的初始HTML时,某些区域(例如列表、评论、搜索结果等)可能还是空的占位符。只有当浏览器执行了页面上的JavaScript代码后,这些内容才会通过AJAX(异步JavaScript和XML)请求从服务器获取并填充到页面中。

对于爬虫而言,直接使用BeautifulSoup解析初始HTML将无法获取到这些动态加载的内容。正如问题中所示,即使目标ul标签存在,其内部的li元素也可能为空,因为它们尚未被JavaScript注入。

识别动态数据源:利用浏览器开发者工具

解决这类问题的关键在于找到数据实际的来源。浏览器开发者工具是您的最佳盟友。以下是识别动态数据源的步骤:

打开目标网页: 在浏览器中访问您想要爬取的页面(例如:https://www.parliament.lk/en/members-of-parliament/directory-of-members/?cletter=A)。打开开发者工具:Windows/Linux: 按 F12 或 Ctrl+Shift+I。macOS: 按 Cmd+Option+I。切换到“网络”(Network)标签页: 这个标签页会显示浏览器加载页面时发出的所有请求。过滤XHR请求: 在“网络”标签页中,通常有一个过滤选项,选择“XHR”或“Fetch/XHR”,这将只显示异步数据请求。刷新页面或触发数据加载: 刷新页面,或者如果数据是在特定操作(如点击按钮、滚动)后加载的,则执行该操作。观察XHR列表中新出现的请求。检查请求详情:URL: 找到看起来像是数据接口的URL。通常这些URL会包含api、data、json等关键词,或者与页面功能相关的路径。请求方法: 观察是GET请求还是POST请求。请求载荷(Request Payload): 如果是POST请求,查看其发送了哪些参数。响应(Response): 查看服务器返回的数据格式,通常是JSON或XML。

通过分析,我们可以发现本例中成员列表的数据并非直接嵌入在初始HTML中,而是通过一个POST请求到https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php?option=com_members&task=all&tmpl=component&letter={letter}&wordfilter=&search_district=获取的。这个接口接收一个letter参数,用于按字母筛选成员。

立即学习“Python免费学习笔记(深入)”;

直接请求动态数据

一旦确定了动态数据源的URL、请求方法和所需参数,我们就可以使用requests库直接向该接口发送请求,获取原始数据。

示例代码

以下Python代码演示了如何通过直接请求XHR接口来获取斯里兰卡议会成员的列表:

import requestsimport stringimport json # 导入json模块以处理JSON数据def scrape_parliament_members():    """    通过直接请求XHR接口,抓取斯里兰卡议会成员信息。    """    all_members_data = []    # 遍历所有大写字母,模拟页面按字母筛选的功能    for letter in string.ascii_uppercase:        print(f"Fetching members for letter: {letter}")        # 构建请求的URL和参数        # 注意:这里是一个POST请求,且URL中包含部分参数,其他参数可能通过data字段发送        # 实际情况请根据开发者工具中观察到的请求详情进行调整        api_url = f'https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php?option=com_members&task=all&tmpl=component&letter={letter}&wordfilter=&search_district='        try:            # 发送POST请求            # 如果API需要特定的headers,如User-Agent,可以在这里添加            response = requests.post(api_url)            response.raise_for_status() # 检查HTTP请求是否成功 (200 OK)            # 解析JSON响应            members_json = response.json()            # 遍历JSON中的每个成员数据            for member_info in members_json:                # 提取所需信息,并构建成员字典                member_detail = {                    'url': f"https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/{member_info.get('mem_intranet_id')}",                    'id': member_info.get('mem_intranet_id'),                    'name': member_info.get('member_sname_eng')                }                all_members_data.append(member_detail)        except requests.exceptions.RequestException as e:            print(f"Error fetching data for letter {letter}: {e}")        except json.JSONDecodeError as e:            print(f"Error decoding JSON for letter {letter}: {e}")            print(f"Response content: {response.text[:200]}...") # 打印部分响应内容帮助调试    return all_members_data# 执行抓取members = scrape_parliament_members()# 打印前5个成员数据作为示例if members:    print("nSuccessfully scraped members. First 5 entries:")    for i, member in enumerate(members[:5]):        print(member)else:    print("nNo member data was scraped.")# 您也可以将数据保存到文件,例如CSV或JSON# import pandas as pd# df = pd.DataFrame(members)# df.to_csv('parliament_members.csv', index=False, encoding='utf-8-sig')# with open('parliament_members.json', 'w', encoding='utf-8') as f:#     json.dump(members, f, ensure_ascii=False, indent=4)

代码说明:

import requests, string, json: 导入必要的库。string用于生成字母列表,json用于解析API返回的JSON数据。for letter in string.ascii_uppercase: 模拟网站通过字母筛选的功能,遍历所有大写字母。requests.post(api_url): 向识别出的XHR接口发送POST请求。请注意,如果开发者工具显示的是GET请求,则应使用requests.get()。response.raise_for_status(): 这是一个很好的实践,用于检查请求是否成功(HTTP状态码为2xx)。如果请求失败,它会抛出一个HTTPError。response.json(): 将服务器返回的JSON格式响应体解析为Python字典或列表。数据提取: 遍历解析后的JSON数据,提取所需的字段(如mem_intranet_id和member_sname_eng),并构建成更易于处理的字典列表。错误处理: 使用try-except块捕获可能发生的网络请求错误和JSON解析错误,提高程序的健壮性。

注意事项与总结

尊重Robots.txt和网站政策: 在进行任何爬取活动之前,请务必检查网站的robots.txt文件以及服务条款,确保您的行为符合规定。User-Agent: 某些网站可能会检查请求的User-Agent头部。为了模拟真实浏览器行为,您可以在requests.post()或requests.get()中添加headers={‘User-Agent’: ‘Your Custom User-Agent’}。请求频率: 避免在短时间内发送大量请求,以免给服务器造成过大压力,导致IP被封禁。可以添加time.sleep()来设置请求间隔。动态参数: 有些XHR请求的参数可能是动态生成的(例如时间戳、加密签名)。识别并正确模拟这些参数可能需要更深入的分析。数据结构变化: 网站API接口可能会更新,导致返回的JSON数据结构发生变化,您的爬虫代码可能需要相应调整。登录与会话: 如果要爬取的内容需要登录,您可能需要处理会话(session)和Cookies。

通过直接识别和调用XHR接口,您可以有效地绕过JavaScript动态加载带来的障碍,直接获取到结构化的数据,从而大大提高爬取效率和成功率。这种方法对于处理大多数现代网站的动态内容都是一个非常强大的技巧。

以上就是Python爬取动态加载内容的技巧:识别并处理XHR请求的详细内容,更多请关注php中文网其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1598728.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月23日 13:11:05
下一篇 2025年12月23日 13:11:15

相关推荐

  • 使用Python从网站下载PDF并根据HTML文本自定义文件名

    本教程详细介绍了如何使用Python从ASP网站下载PDF文件,并根据HTML “ 标签的显示文本来命名本地文件。通过`requests`库处理HTTP请求和`BeautifulSoup`解析HTML,我们能够准确提取下载链接和用户友好的文件名,解决了直接使用URL文件名不直观的问题。文…

    2025年12月23日
    000
  • JavaScript中通过类名选择器获取DOM元素ID的教程

    本教程旨在指导开发者如何在javascript中,从通过`getelementsbyclassname()`方法获取的dom元素集合中,准确地提取和使用单个元素的id属性。文章将澄清`id`作为元素属性而非方法的概念,并通过具体代码示例展示如何遍历集合并访问每个元素的id,以实现更精细的dom操作。…

    2025年12月23日
    000
  • Bootstrap 5 导航栏展开时元素居中对齐指南

    本教程旨在解决bootstrap 5导航栏在从offcanvas模式展开至大屏幕时,其内部元素无法居中对齐的问题。核心解决方案涉及调整flexbox布局,具体是通过在offcanvas-body元素上添加justify-content-center类,并从navbar-nav元素中移除flex-gr…

    2025年12月23日
    000
  • 实现交互式登录注册表单过渡效果教程

    本教程详细讲解如何使用html、css和javascript构建一个带有平滑过渡效果的登录注册表单。我们将重点剖析css选择器在实现复杂动画中的关键作用,特别是如何通过正确使用类选择器来控制子元素的动画行为,解决常见的过渡失效问题,并提供完整的代码示例和实现细节。 在现代网页设计中,为用户提供流畅、…

    2025年12月23日
    000
  • CSS高级选择器:在严格限制下使用:has()和:not()精准定位元素

    本教程探讨如何在极度受限的css选择器规则下,精准定位复杂html结构中的特定元素,特别是不允许使用`:nth`系列伪类、属性选择器及相邻/通用兄弟选择器的情况。我们将深入解析如何巧妙结合`:has()`和`:not()`伪类,通过父子关系和层级排除实现目标选择,并提供详细的代码示例与浏览器兼容性考…

    2025年12月23日
    000
  • 实现点击外部区域隐藏侧边栏的JavaScript/jQuery教程

    本教程详细介绍了如何使用javascript和jquery实现点击侧边栏外部区域时自动隐藏侧边栏的功能。文章将深入讲解事件传播机制,并通过具体的代码示例演示如何利用`stoppropagation()`方法来精确控制点击事件的行为,确保用户体验的流畅性和交互的直观性。 侧边栏外部点击隐藏机制实现 在…

    2025年12月23日 好文分享
    000
  • 在DIV中实现文本侧向显示的CSS技巧

    本教程详细介绍了在响应式布局中,如何利用CSS实现文本的侧向或垂直显示。我们将探讨两种主要方法:一是运用CSS transform 属性进行精确旋转和定位,适用于自定义角度需求;二是结合 writing-mode 与 scale 属性实现从下到上的垂直书写模式。文章将提供具体的代码示例,并分析每种方…

    2025年12月23日
    000
  • 响应式HTML表格设计:优化移动端显示与布局

    本教程旨在解决html表格在移动设备上显示不佳的问题。通过采用css的table-layout: fixed属性并为表格列设置明确的宽度,可以有效控制表格布局,防止内容溢出或错位。文章将详细介绍如何利用这些css技巧,结合适当的字体和边框样式,确保表格在不同屏幕尺寸下保持清晰、可读且布局稳定。 在现…

    2025年12月23日
    000
  • 浏览器安全模型:file://与http://协议下的SVG动态操作差异

    本文深入探讨了在浏览器中通过`file://`协议直接打开文件与通过`http://`协议(如live server)访问网页时,行为上的关键差异。重点分析了在“标签中嵌入svg并尝试使用`contentdocument`进行动态操作时,为何`file://`环境下会因浏览器安全限制(如跨域资源共…

    好文分享 2025年12月23日
    000
  • 高效实现滚动时画廊项动态匹配与样式切换:纯JavaScript教程

    本教程旨在解决滚动内容与静态画廊同步显示的问题,避免为每个元素编写重复代码。我们将介绍一种纯JavaScript方法,通过索引匹配滚动区域元素与画廊项,并利用`getBoundingClientRect()`API精确判断元素是否进入视口,从而动态切换画廊项的样式,实现灵活且可扩展的用户体验。 引言…

    2025年12月23日 好文分享
    000
  • 使用 Jinja2 动态渲染多张图片到 HTML 文件的完整教程

    本教程详细介绍了如何利用 jinja2 模板引擎,通过 python 代码动态地将多张图片加载并渲染到 html 文件中。核心方法是构建一个包含图片元数据的列表字典作为数据源,并结合 jinja2 的 `for` 循环结构遍历数据,从而高效生成包含多张图片的 html 内容。 在 Web 开发中,经…

    2025年12月23日 好文分享
    000
  • 深入解析Angular中循环计算与数组操作的常见陷阱及优化实践

    本文深入探讨了angular应用中处理循环计算和动态数组时常见的逻辑错误。通过一个租金计算器示例,我们分析了`for`循环中未能正确累加迭代值以及数组填充不当的问题,并提供了详细的解决方案,包括优化计算逻辑、正确使用数组`push`方法,以及遵循typescript和javascript的最佳实践,…

    2025年12月23日
    000
  • 深入理解HTML元素的状态表示:布尔属性的应用

    html元素通过布尔属性(boolean attributes)来声明其初始或当前的状态,这些属性的存在与否直接影响元素的行为和视觉表现。本文将深入探讨常见的html状态属性,包括脚本加载、媒体播放、表单交互等多种场景下的应用,并提供示例代码,帮助开发者更好地利用这些属性构建更具声明性和交互性的网页…

    2025年12月23日
    000
  • JavaScript中高效渲染API数据列表:避免动态内容覆盖的实践指南

    本教程旨在解决前端开发中常见的api数据渲染问题,特别是如何避免在循环中错误地覆盖dom内容。我们将深入探讨如何利用javascript的`array.prototype.map`方法结合`join(“”)`来高效地从api获取数据,并将其动态生成为html列表,确保所有数据…

    2025年12月23日
    000
  • JavaScript中生成两个依赖随机数:确保x始终大于y

    本文详细介绍了如何在javascript中生成两个具有依赖关系的随机数x和y,并确保x的值总是严格大于y。核心策略是首先生成y,然后利用y的值作为下限来生成x,从而保证两数之间的特定大小关系,并提供了一个实用的随机数生成函数和示例代码。 在JavaScript中,我们经常需要生成随机数。然而,当需要…

    2025年12月23日
    000
  • 避免表单提交后页面刷新并保留数据与显示错误:AJAX与PHP实践

    本教程详细讲解如何通过前端ajax技术与后端php配合,实现在表单提交后不刷新页面的前提下,进行数据验证、保留用户输入,并动态显示错误信息。文章将首先介绍传统php方式下保留表单数据的技巧,进而深入探讨使用javascript fetch api进行异步提交,以及后端php如何返回json响应,从而…

    2025年12月23日
    000
  • CSS布局优化:解决网页顶部多余间隙的实用技巧

    本文旨在解决网页顶部出现意外间隙的问题,这种现象常由浏览器默认样式或不当的css配置引起。我们将深入探讨如何通过css的 `margin-top` 属性来精确消除这些多余的空间,并提供实用的代码示例和调试技巧。文章还将涵盖浏览器默认样式、css重置以及如何利用开发者工具定位并解决此类布局问题,帮助开…

    2025年12月23日
    000
  • 解决HTML中图片不显示问题:理解并使用相对路径

    本文详细讲解了在html中引用本地图片时,图片无法在浏览器中显示的问题及其解决方案。核心在于避免使用绝对文件路径,转而采用相对路径来正确链接图片资源,确保网页在不同环境下都能正常加载图片,并提供了项目文件结构和代码实践建议,帮助开发者构建健壮的网页应用。 在网页开发中,图片是不可或缺的元素。然而,许…

    2025年12月23日
    000
  • 实现HTML/CSS平滑无限水平滚动动画教程

    本教程旨在解决HTML/CSS中实现无限水平滚动动画时出现的“跳跃”问题。我们将深入探讨导致不平滑循环的原因,并提供两种主要的解决方案:利用CSS `background-position`属性实现重复背景的无缝滚动,以及通过巧妙运用`translateX`百分比值(如`100%`到`-100%`)…

    2025年12月23日
    000
  • 解决W3 Schools图片轮播初始堆叠问题:优化JavaScript加载时机

    本文旨在解决使用w3 schools图片轮播组件时,页面加载初期图片出现垂直堆叠的常见问题。核心原因在于javascript脚本的加载与执行时机不当。通过将操作dom的javascript代码放置在html ` ` 标签的末尾,确保dom元素完全加载后再执行脚本,可以有效避免图片堆叠现象,实现流畅的…

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信