应对动态网页爬取挑战：从HTML解析到API数据获取的Python实践

程序猿 • 2025年12月23日 10:31:44 • 好文分享 • 阅读 0

本文探讨了在使用beautifulsoup爬取动态加载内容网站（如binance p2p）时，因javascript渲染导致无法获取预期html数据的常见问题。针对此挑战，文章提供了一种高效且专业的解决方案：通过分析浏览器开发者工具中的网络请求，直接识别并调用网站的后端api来获取结构化的json数据，并结合python的requests库和pandas库进行数据请求与处理，从而稳定地抓取目标信息。

动态网页爬取的挑战

在进行网络数据抓取时，传统的HTML解析库如BeautifulSoup在处理静态网页时表现出色。然而，当目标网站采用JavaScript动态加载内容时，仅依赖requests库获取的初始HTML往往不包含用户在浏览器中看到的完整数据。这是因为这些数据是在浏览器执行JavaScript代码后才被渲染到DOM中的。尝试使用BeautifulSoup解析这类初始HTML，通常会发现缺失关键信息，甚至可能只得到一些样式定义（标签）或其他非数据性的占位符，而非预期的div或其他承载数据的HTML元素。

识别并利用网站API

解决动态网页爬取问题的关键在于绕过前端渲染过程，直接与网站后端进行数据交互。许多现代网站通过API（应用程序接口）提供数据，这些API通常返回JSON格式的结构化数据。通过以下步骤，我们可以识别并利用这些API：

使用浏览器开发者工具： 打开目标网页（例如，Binance P2P页面），然后打开浏览器的开发者工具（通常按F12键）。监控网络请求： 切换到“Network”（网络）选项卡。刷新页面，并观察加载过程中发出的所有请求。筛选API请求： 寻找类型为XHR（XMLHttpRequest）或Fetch的请求。这些通常是JavaScript用于从服务器异步获取数据的请求。分析请求详情： 点击可疑的请求，查看其“Headers”（请求头）、“Payload”（请求体）和“Response”（响应）。请求URL： 确定数据来源的API端点。请求方法： 通常是GET或POST。对于POST请求，需要注意请求体中的数据格式和内容。请求头： 复制必要的请求头，如User-Agent、Content-Type、Accept-Language等，以模拟正常的浏览器行为。响应数据： 检查响应是否包含所需的数据，通常是JSON格式。

Python实现API数据抓取

一旦确定了API端点、请求方法、请求头和请求体，就可以使用Python的requests库来模拟这些请求。pandas库则非常适合处理返回的JSON数据，特别是通过json_normalize函数将其扁平化为DataFrame。

以下是一个具体的示例，展示如何从Binance P2P获取交易数据：

立即学习“Python免费学习笔记（深入）”；

import requestsimport pandas as pdimport json # 用于处理JSON字符串# 初始化一个requests会话，以便在多个请求中保持相同的头部信息s = requests.Session()# 定义请求头，模拟浏览器行为headers = {    'content-type': 'application/json', # 明确告诉服务器发送的是JSON数据    'accept-language': 'en-US,en;q=0.9',    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"}# 定义POST请求的JSON payload（请求体）# 这个payload是根据在浏览器开发者工具中观察到的实际请求体构造的payload_data = {    "proMerchantAds": False,    "page": 1,    "rows": 10,    "payTypes": [],    "countries": [],    "publisherType": None,    "asset": "USDT",    "fiat": "RUB",    "tradeType": "BUY"}# 将Python字典转换为JSON字符串payload = json.dumps(payload_data)# 定义API的URLurl = 'https://p2p.binance.com/bapi/c2c/v2/friendly/c2c/adv/search'# 更新会话的请求头s.headers.update(headers)# 发送POST请求# data参数用于发送原始的请求体数据（如JSON字符串）r = s.post(url, data=payload)# 检查请求是否成功if r.status_code == 200:    # 解析JSON响应    json_response = r.json()    # 使用pandas的json_normalize函数将嵌套的JSON数据扁平化为DataFrame    # 'data'是JSON响应中包含实际列表数据的键    df = pd.json_normalize(json_response['data'])    # 打印DataFrame的前几行    print(df.head())else:    print(f"请求失败，状态码: {r.status_code}")    print(f"响应内容: {r.text}")

代码解析：

requests.Session(): 创建一个会话对象，可以跨多个请求自动处理cookies，并保持相同的请求头。这对于模拟用户会话非常有用。headers: 字典形式的请求头，包含了Content-Type（指定请求体是JSON格式）和User-Agent（模拟浏览器身份）。payload_data: 一个Python字典，包含了POST请求所需的参数。这些参数决定了API返回的数据类型（例如，USDT、RUB、购买类型等）。json.dumps(payload_data): 将Python字典转换为JSON格式的字符串，因为requests.post的data参数通常期望字符串或字节流。s.post(url, data=payload): 发送POST请求。data参数用于发送请求体数据。r.json(): 如果服务器响应是JSON格式，此方法会将其解析为Python字典或列表。pd.json_normalize(json_response[‘data’]): json_normalize是Pandas中一个强大的函数，用于将半结构化的JSON数据（特别是包含嵌套列表和字典的）转换为扁平的表格结构DataFrame。这里我们指定提取json_response中键为’data’的部分进行处理。

数据处理与分析

通过pd.json_normalize处理后，API返回的复杂JSON数据被转换成了一个易于操作的Pandas DataFrame。这个DataFrame包含了原始JSON中的所有字段，并且通过点符号（例如adv.price、advertiser.nickName）清晰地表示了嵌套结构。现在，你可以利用Pandas的强大功能对数据进行筛选、排序、聚合或进一步的分析。

例如，要获取价格和交易量信息，可以直接访问相应的列：

# 假设df是上面代码生成的DataFrameif 'adv.price' in df.columns and 'adv.surplusAmount' in df.columns:    prices_and_amounts = df[['adv.price', 'adv.surplusAmount', 'advertiser.nickName']]    print("n价格和剩余数量：")    print(prices_and_amounts)

注意事项与最佳实践

动态网站复杂性： 并非所有动态网站都提供清晰的API。有些网站可能使用WebSocket、GraphQL或其他更复杂的机制。反爬机制： 网站可能会实施各种反爬机制，如IP限制、验证码、请求频率限制等。在实际爬取时，可能需要引入代理IP池、设置请求延迟、处理验证码等。User-Agent轮换： 使用fake_useragent库可以动态生成随机的User-Agent，进一步模拟真实用户行为，降低被封禁的风险。错误处理： 务必添加健壮的错误处理机制，例如检查requests响应的状态码，处理JSON解析错误等。遵守规则： 在进行网络爬取时，应始终遵守目标网站的robots.txt协议和使用条款。过度或恶意爬取可能导致法律问题或IP被封禁。API变更： 网站的API可能会随着时间而改变，导致爬虫失效。定期检查API的可用性和结构是必要的。

总结

当面对JavaScript动态加载内容的网站时，传统的BeautifulSoup HTML解析方法往往力不从心。通过深入分析浏览器开发者工具中的网络请求，识别并直接调用网站的后端API，是获取结构化数据的更高效和稳定的方法。结合Python的requests库进行请求发送，以及pandas.json_normalize进行JSON数据处理，可以构建出强大且专业的网络爬虫，有效应对现代网页的复杂性。

以上就是应对动态网页爬取挑战：从HTML解析到API数据获取的Python实践的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1595668.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

掌握Flex布局：优化元素换行行为与间距控制

上一篇 2025年12月23日 10:31:39

如何处理HTML脚本执行顺序的解决办法

下一篇 2025年12月23日 10:31:46

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

苹果浏览器网页背景图色差问题：如何解决背景图不一致？

网页背景图在苹果浏览器上出现色差一位用户在使用苹果浏览器访问网页时遇到一个问题，网页上方的背景图比底部的背景图明显更亮。这个问题的原因很可能是背景图没有正确配置 background-size 属性。在 windows 浏览器中，背景图可能可以自动填满整个容器，但在苹果浏览器中可能需要显式设置 …

程序猿
2025年12月24日
4000
好文分享

苹果浏览器网页背景图像为何色差？

网页背景图像在苹果浏览器的色差问题在不同浏览器中，网站的背景图像有时会出现色差。例如，在 Windows 浏览器中显示正常的上层背景图，在苹果浏览器中却比下层背景图更亮。问题原因出现此问题的原因可能是背景图像未正确设置 background-size 属性。解决方案为确保背景图像在不同浏览…

程序猿
2025年12月24日
3000
好文分享

苹果电脑浏览器背景图亮度差异：为什么网页上下部背景图色差明显？

背景图在苹果电脑浏览器上亮度差异问题描述：在网页设计中，希望上部元素的背景图与页面底部的背景图完全对齐。而在 Windows 中使用浏览器时，该效果可以正常实现。然而，在苹果电脑的浏览器中却出现了明显的色差。原因分析：如果您已经排除屏幕分辨率差异的可能性，那么很可能是背景图的 backgro…

程序猿
2025年12月24日
0000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

为什么前端固定定位会发生移动问题？

前端固定定位为什么会出现移动现象？在进行前端开发时，我们经常会使用CSS中的position属性来控制元素的定位。其中，固定定位（position: fixed）是一种常用的定位方式，它可以让元素相对于浏览器窗口进行定位，保持在页面的固定位置不动。然而，有时候我们会遇到一个问题：在使用固定定位时…

程序猿
2025年12月24日
0000
好文分享

学会从头开始学习CSS，掌握制作基本网页框架的技巧

从零开始学习CSS，掌握网页基本框架制作技巧前言：在现今互联网时代，网页设计和开发是一个非常重要的技能。而学习CSS（层叠样式表）是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局，还可以为用户呈现独特且具有吸引力的页面效果。在本文中，我将为您介绍一些基本的CSS知识，以及一些常用的代…

程序猿
2025年12月24日
2000
好文分享

从初学到专业：掌握这五种前端CSS框架

CSS是网站设计中重要的一部分，它控制着网站的外观和布局。前端开发人员为了让页面更加美观和易于使用，通常使用CSS框架。这篇文章将带领您了解这五种前端CSS框架，从入门到精通。 Bootstrap Bootstrap是最受欢迎的CSS框架之一。它由Twitter公司开发，具有可定制的响应式网格系统、…

程序猿
2025年12月24日
2000
好文分享

揭秘Web标准涵盖的语言：了解网页开发必备的语言范围

在当今数字时代，互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位，网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术，离不开一些必备的语言。本文将揭秘Web标准涵盖的语言，让我们一起了解网页开发所需的语言范围。首先，HTML（HyperText Markup La…

程序猿
2025年12月24日
0000
好文分享

克服害怕做选择的恐惧症：这五个前端CSS框架将为你解决问题

选择恐惧症？这五个前端CSS框架能帮你解决问题近年来，前端开发者已经进入了一个黄金时代。随着互联网的快速发展，人们对于网页设计和用户体验的要求也越来越高。然而，要想快速高效地构建出漂亮的网页并不容易，特别是对于那些可能对CSS编码感到畏惧的人来说。所幸的是，前端开发者们早已为我们准备好了一些CSS…

程序猿
2025年12月24日
2000