Python爬取动态网页数据：绕过JavaScript渲染直接调用API的策略

程序猿 • 2025年12月23日 11:21:09 • 好文分享 • 阅读 0

在处理由JavaScript动态加载内容的现代网页时，传统的BeautifulSoup解析HTML可能无法获取到完整数据。本教程将介绍一种更高效、稳定的方法：通过分析浏览器网络请求，识别并直接调用网站后端API，从而获取结构化的JSON数据，并使用Pandas进行便捷处理，有效解决动态内容抓取难题。

动态网页爬取挑战与API调用策略

许多现代网站，特别是金融交易平台或社交媒体，其核心数据并非直接嵌入在初始加载的HTML中。相反，这些数据通常通过JavaScript在浏览器端异步请求（AJAX）获取，然后动态渲染到页面上。当尝试使用requests库获取页面HTML并结合BeautifulSoup进行解析时，往往只会得到一个包含加载动画、样式定义（如标签）或空占位符的“骨架”页面，而实际业务数据则缺失。

解决这一问题的有效策略是绕过前端渲染过程，直接与网站后端提供数据的API进行交互。通过这种方式，我们可以直接获取到结构化的JSON或XML数据，避免了复杂的HTML解析，且通常更稳定、效率更高。

识别目标API请求

要实现API调用，首先需要识别出网页加载数据时所调用的具体API。这通常通过浏览器的开发者工具完成：

立即学习“Java免费学习笔记（深入）”；

打开开发者工具： 在Chrome、Firefox等浏览器中，右键点击页面并选择“检查”或按F12。切换到“网络”（Network）选项卡： 刷新页面，观察网络请求列表。筛选XHR/Fetch请求： 大多数动态数据请求会显示为XHR (XMLHttpRequest) 或 Fetch 类型。定位数据请求： 仔细查看请求的URL、请求方法（GET/POST）、请求头（Headers）和请求载荷（Payload）。通常，数据请求的响应类型会是JSON。以Binance P2P为例，通过观察发现，当页面加载价格数据时，会向https://p2p.binance.com/bapi/c2c/v2/friendly/c2c/adv/search发送一个POST请求。这个请求包含了content-type、accept-language、User-Agent等请求头，以及一个JSON格式的请求体，其中定义了查询条件，如asset (USDT)、fiat (RUB)、tradeType (BUY) 等。

构建API请求与数据解析

一旦识别出目标API及其请求参数，就可以使用Python的requests库来模拟这个请求。对于JSON响应，pandas库的json_normalize函数是处理嵌套JSON数据的强大工具。

示例代码

以下是使用Python模拟Binance P2P API请求并解析数据的示例：

import requestsimport pandas as pdfrom fake_useragent import UserAgent # 用于生成随机User-Agent，模拟真实浏览器行为# 1. 初始化Requests会话和请求头# 使用requests.Session()可以保持会话，并在所有请求中重用相同的TCP连接和请求头，提高效率s = requests.Session()# 模拟浏览器请求头，避免被网站识别为爬虫# User-Agent是关键，可以从浏览器开发者工具中复制，或使用fake_useragent库生成ua = UserAgent(verify_ssl=False)headers = {    'content-type': 'application/json', # 明确告诉服务器发送的是JSON数据    'accept-language': 'en-US,en;q=0.9',    'User-Agent': ua.random # 使用随机User-Agent}# 2. 定义API请求的URL和载荷（Payload）# 载荷是POST请求体中的JSON数据，同样从浏览器开发者工具中复制payload = {    "proMerchantAds": False,    "page": 1,    "rows": 10,    "payTypes": [],    "countries": [],    "publisherType": None,    "asset": "USDT",    "fiat": "RUB",    "tradeType": "BUY"}# 目标API的URLurl = 'https://p2p.binance.com/bapi/c2c/v2/friendly/c2c/adv/search'# 3. 发送POST请求# 更新会话的请求头s.headers.update(headers)# 发送POST请求，data参数需要是JSON字符串，requests会自动处理json=payload# 或者使用json=payload，requests会自动将字典序列化为JSON字符串并设置Content-Typer = s.post(url, json=payload) # 使用json=payload更简洁# 4. 处理API响应# 检查请求是否成功if r.status_code == 200:    # 解析JSON响应数据    json_data = r.json()    # 检查'data'字段是否存在且不为空    if 'data' in json_data and json_data['data']:        # 使用pandas.json_normalize将嵌套的JSON数据展平为DataFrame        # 'data'字段通常包含列表形式的记录        df = pd.json_normalize(json_data['data'])        print(df.head()) # 打印DataFrame的前几行        # 进一步提取所需数据，例如价格和交易方法        # 假设我们需要提取价格和所有交易方法        # price_data = df[['adv.price', 'advertiser.nickName', 'adv.tradeMethods']]        # print("n提取的价格和交易方法数据：")        # print(price_data.head())    else:        print("API响应中没有找到'data'字段或'data'字段为空。")        print(json_data) # 打印完整JSON响应以供调试else:    print(f"请求失败，状态码：{r.status_code}")    print(f"响应内容：{r.text}")

代码说明

requests.Session(): 创建一个会话对象，用于在多个请求之间保持参数（如headers）和底层TCP连接，提高效率。headers: 包含User-Agent、content-type等HTTP头信息。User-Agent是模拟浏览器行为的关键，content-type: application/json则告知服务器请求体是JSON格式。payload: 这是一个Python字典，它会被requests库自动序列化为JSON字符串，并作为POST请求的请求体发送。其内容与在浏览器开发者工具中看到的请求载荷一致。s.post(url, json=payload): 发送POST请求。json参数会自动将Python字典转换为JSON格式的请求体，并设置正确的Content-Type头。r.json(): 将API响应体解析为Python字典。pd.json_normalize(r.json()[‘data’]): 这是处理嵌套JSON的关键。它能够将复杂的JSON结构（特别是包含列表和字典嵌套的）展平为一个Pandas DataFrame，方便后续的数据分析和处理。例如，原始JSON中adv和advertiser下的字段会被展平为adv.price、advertiser.nickName等列名。

注意事项与最佳实践

动态载荷： 有些网站的API请求载荷或请求头可能包含动态生成的值（如时间戳、签名、CSRF token）。在这种情况下，需要进一步分析JavaScript代码或使用Selenium等工具模拟浏览器行为来获取这些动态值。频率限制与反爬机制： 频繁的API请求可能触发网站的反爬机制，导致IP被封禁。建议：设置合理的请求间隔（time.sleep()）。使用代理IP池。轮换User-Agent。错误处理： 始终检查HTTP响应状态码（r.status_code）以确保请求成功，并对可能出现的异常（如网络错误、JSON解析失败）进行处理。数据字段变化： 网站API接口可能会更新，导致字段名或结构发生变化。定期检查API文档或重新分析网络请求是必要的。隐私与合规性： 在爬取数据时，务必遵守网站的服务条款和相关法律法规，避免非法获取或滥用数据。

总结

对于数据由JavaScript动态加载的现代网页，直接通过requests和BeautifulSoup解析初始HTML往往无法奏效。通过利用浏览器开发者工具分析网络请求，识别并直接调用网站后端API，可以高效、稳定地获取到结构化的JSON数据。结合Pandas的json_normalize功能，可以轻松将这些数据转换为易于处理的DataFrame格式，为后续的数据分析奠定基础。这种方法不仅解决了动态网页的爬取难题，也通常比模拟完整浏览器渲染（如使用Selenium）更加高效和轻量。

以上就是Python爬取动态网页数据：绕过JavaScript渲染直接调用API的策略的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1596645.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

React中获取下拉菜单选中值的方法详解

上一篇 2025年12月23日 11:21:02

在Vanilla JavaScript中动态创建与操作SVG：从XML到DOM

下一篇 2025年12月23日 11:21:15

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

为什么前端固定定位会发生移动问题？

前端固定定位为什么会出现移动现象？在进行前端开发时，我们经常会使用CSS中的position属性来控制元素的定位。其中，固定定位（position: fixed）是一种常用的定位方式，它可以让元素相对于浏览器窗口进行定位，保持在页面的固定位置不动。然而，有时候我们会遇到一个问题：在使用固定定位时…

程序猿
2025年12月24日
3000
好文分享

深入剖析Ajax技术：揭开其核心技术原理与应用

深入了解Ajax技术：探索其核心技术原理与应用Ajax（Asynchronous JavaScript and XML）是一种在Web开发中广泛应用的技术，它通过使用异步通信和JavaScript的技术手段，实现了在不刷新整个网页的情况下与服务器进行数据交互。在本文中，我们将深入了解Ajax技术的核…

程序猿
2025年12月24日
0000
好文分享

了解AJAX所需的参数是什么？

深入了解AJAX的参数：您需要掌握哪些参数？引言：在现代Web开发中，AJAX（Asynchronous JavaScript and XML）是一个被广泛使用的技术，它可以实现异步加载数据，从而提升用户体验。AJAX的核心是通过发送HTTP请求与服务器进行交互，并将响应的数据动态地展示在页面上…

程序猿
2025年12月24日
3000
好文分享

深入解析AJAX参数：它们的重要性何在？

AJAX的参数详解：为什么它们如此重要？随着Web应用的复杂性不断增加，用户对于实时响应和无刷新的交互体验的需求也越来越高。在这样的背景下，AJAX（Asynchronous JavaScript and XML）成为了前端开发中的必备技术。它可以实现异步数据交互，从服务器请求数据并将其无缝地展示…

程序猿
2025年12月24日
0000
好文分享

通过使用Ajax函数实现异步数据交换的方法

如何利用Ajax函数实现异步数据交互随着互联网和Web技术的发展，前端与后端之间的数据交互变得十分重要。传统的数据交互方式，如页面刷新和表单提交，已经不能满足用户的需求。而Ajax（Asynchronous JavaScript and XML）则成为了实现异步数据交互的重要工具。 Ajax通过使…

程序猿
2025年12月24日
0000
好文分享

Ajax技术：传统与现代的发展与演进

从传统到现代：Ajax技术的发展与演进引言：随着互联网的发展，网页设计与开发也在不断演进。传统的网页通过用户与服务器之间的页面刷新来传递和展示数据，这种方式存在诸多的不便和效率问题。而Ajax（Asynchronous JavaScript and XML）技术的出现，彻底改变了传统网页的工作方式…

程序猿
2025年12月24日
0000
好文分享

使用Ajax技术实现实时数据交互的有效方法

利用Ajax技术实现无刷新数据交互的实用方法在Web开发中，数据的实时交互是一个非常重要的功能。传统的浏览器请求刷新页面的方式已经不能满足用户的需求，因此，Ajax技术应运而生。Ajax（Asynchronous JavaScript and XML）是一种可以在不刷新整个页面的情况下，通过与服务…

程序猿
2025年12月24日
0000
好文分享

了解Ajax框架：探索常见的五种框架

了解Ajax框架：探索常见的五种框架，需要具体代码示例引言：在现代Web应用开发中，Ajax是必不可少的技术之一。它以其支持异步数据交互，提升用户体验等特点，成为了前端开发中不可或缺的一部分。为了更好地了解和掌握Ajax框架，本文将介绍五种常见的Ajax框架，并提供具体的代码示例，帮助读者深入了解…

程序猿
2025年12月24日
0000
好文分享

深入理解Ajax函数及其参数用法

掌握常用的Ajax函数及其参数详解 Ajax（Asynchronous JavaScript and XML）是一种用于在客户端和服务器之间异步传输数据的技术。它能够实现无需刷新整个页面而更新部分内容，提升了用户体验和性能。本文将详细介绍常用的Ajax函数及其参数，并附带具体的代码示例。一、XML…

程序猿
2025年12月24日
0000
好文分享

前端开发中的应用与实践：使用Ajax函数

Ajax函数在前端开发中的应用与实践随着Web应用的快速发展，前端开发变得越来越重要。而Ajax作为一种前端开发技术，能够实现无需刷新页面的数据交互，成为了前端开发中不可或缺的工具。本文将介绍Ajax函数的基本原理，以及在前端开发中的应用与实践，并提供具体的代码示例。 Ajax函数的基本原理Aja…

程序猿
2025年12月24日
0000
好文分享

学会从头开始学习CSS，掌握制作基本网页框架的技巧

从零开始学习CSS，掌握网页基本框架制作技巧前言：在现今互联网时代，网页设计和开发是一个非常重要的技能。而学习CSS（层叠样式表）是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局，还可以为用户呈现独特且具有吸引力的页面效果。在本文中，我将为您介绍一些基本的CSS知识，以及一些常用的代…

程序猿
2025年12月24日
4000
好文分享

从初学到专业：掌握这五种前端CSS框架

CSS是网站设计中重要的一部分，它控制着网站的外观和布局。前端开发人员为了让页面更加美观和易于使用，通常使用CSS框架。这篇文章将带领您了解这五种前端CSS框架，从入门到精通。 Bootstrap Bootstrap是最受欢迎的CSS框架之一。它由Twitter公司开发，具有可定制的响应式网格系统、…

程序猿
2025年12月24日
3000
好文分享

揭秘Web标准涵盖的语言：了解网页开发必备的语言范围

在当今数字时代，互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位，网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术，离不开一些必备的语言。本文将揭秘Web标准涵盖的语言，让我们一起了解网页开发所需的语言范围。首先，HTML（HyperText Markup La…

程序猿
2025年12月24日
1000
好文分享

克服害怕做选择的恐惧症：这五个前端CSS框架将为你解决问题

选择恐惧症？这五个前端CSS框架能帮你解决问题近年来，前端开发者已经进入了一个黄金时代。随着互联网的快速发展，人们对于网页设计和用户体验的要求也越来越高。然而，要想快速高效地构建出漂亮的网页并不容易，特别是对于那些可能对CSS编码感到畏惧的人来说。所幸的是，前端开发者们早已为我们准备好了一些CSS…

程序猿
2025年12月24日
3000