Python爬取动态加载内容的隐藏电话号码：API请求方法详解

程序猿 • 2025年12月23日 09:26:37 • 好文分享 • 阅读 0

本教程旨在解决使用beautifulsoup无法直接爬取动态加载内容中隐藏电话号码的问题。当目标网站通过javascript异步请求（如graphql api）动态更新dom时，传统的html解析器将失效。文章详细介绍了如何利用浏览器开发者工具分析网络请求，识别数据源api，并使用python的`requests`库模拟这些api请求，从而高效准确地获取所需数据。

在现代网页中，许多内容并非直接嵌入在初始HTML文档中，而是通过JavaScript在用户交互（例如点击按钮）后异步加载。对于这类动态内容，仅依赖于BeautifulSoup这样的静态HTML解析库是不足以获取到完整信息的。本文将以从弹出按钮中抓取隐藏电话号码为例，详细讲解如何通过模拟API请求来解决这一挑战。

1. 理解动态内容加载的挑战

当你尝试使用requests库获取网页内容并用BeautifulSoup解析时，如果目标数据（如电话号码）只有在点击某个按钮后才显示，那么你获取到的HTML将不包含这些数据。这是因为BeautifulSoup只能处理服务器返回的原始HTML。而按钮点击后触发的数据加载通常是通过浏览器执行JavaScript代码，向后端API发送请求，然后将返回的数据动态插入到网页DOM中。

在我们的例子中，点击“التواصل”按钮后弹出的电话号码，就是通过JavaScript向一个GraphQL API发送POST请求获取的。

2. 利用浏览器开发者工具分析网络请求

要获取动态加载的数据，我们首先需要找出是哪个API提供了这些数据。浏览器开发者工具（通常按F12键打开）的“网络”（Network）选项卡是关键。

立即学习“Python免费学习笔记（深入）”；

打开目标网页： 访问你想要爬取的页面，例如 https://haraj.com.sa/1194697687。打开开发者工具： 在浏览器中按F12，切换到“网络”（Network）选项卡。筛选XHR/Fetch请求： 在网络面板中，通常会有筛选器，选择“XHR”或“Fetch/XHR”，这样可以只显示JavaScript发起的异步请求。触发数据加载： 点击网页上的“التواصل”按钮。识别API请求： 在网络面板中观察新出现的请求。通常，你会看到一个POST请求，其URL可能包含“graphql”或“api”等字样。点击该请求，查看其详细信息：URL： 请求的目标地址（例如 https://graphql.haraj.com.sa）。请求方法： 通常是POST。请求头（Request Headers）： 包含User-Agent等信息。请求载荷（Request Payload）： 这是最重要的部分，它包含了发送给API的数据，通常是JSON格式。对于GraphQL，你会看到query和variables等字段。响应（Response）： API返回的数据，通常也是JSON格式，其中包含我们所需的电话号码。

通过分析，我们可以发现当点击按钮时，浏览器向 https://graphql.haraj.com.sa 发送了一个POST请求，请求载荷中包含一个GraphQL查询，以及一个postId变量。

3. 提取关键参数：postId

在分析请求载荷时，我们注意到一个名为postId的变量是动态的。这个postId通常可以从原始网页的URL中提取。例如，如果页面URL是 https://haraj.com.sa/1194697687，那么postId可能就是URL末尾的数字部分，但可能需要去除某些前缀。

根据观察，URL中的1194697687对应的postId是94697687，这意味着需要去除前两位数字11。

以下是一个提取postId的示例函数：

import redef extract_post_id_from_url(url):    """    从Haraj网站的URL中提取postId。    示例: "https://haraj.com.sa/1194697687" -> 94697687    """    match = re.search(r'/(d+)$', url)    if match:        full_id_str = match.group(1)        # 根据观察，postId是URL末尾数字去除前两位"11"后的部分        if full_id_str.startswith('11') and len(full_id_str) > 2:            return int(full_id_str[2:])        return int(full_id_str) # 如果没有"11"前缀，则直接返回    return None# 示例用法target_url = "https://haraj.com.sa/1194697687"post_id = extract_post_id_from_url(target_url)if post_id:    print(f"提取到的 Post ID: {post_id}")else:    print("无法从URL中提取 Post ID。")

4. 模拟API请求获取数据

一旦我们识别了API请求的URL、方法、头部和载荷，就可以使用Python的requests库来模拟这个请求。

import requestsimport redef extract_post_id_from_url(url):    """    从Haraj网站的URL中提取postId。    示例: "https://haraj.com.sa/1194697687" -> 94697687    """    match = re.search(r'/(d+)$', url)    if match:        full_id_str = match.group(1)        # 根据观察，postId是URL末尾数字去除前两位"11"后的部分        if full_id_str.startswith('11') and len(full_id_str) > 2:            return int(full_id_str[2:])        return int(full_id_str) # 如果没有"11"前缀，则直接返回    return Nonedef get_hidden_phone_number(page_url):    """    通过模拟API请求获取隐藏的电话号码。    """    # 1. 从页面URL中提取 postId    post_id = extract_post_id_from_url(page_url)    if post_id is None:        print(f"错误: 无法从URL '{page_url}' 中提取有效的 postId。")        return None    # 2. 定义API请求参数    api_url = "https://graphql.haraj.com.sa"    # 根据浏览器网络分析，这些参数可能为空或特定值    params = {        "queryName": "postContact",        "token": "",        "clientId": "",        "version": ""    }    headers = {        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36",        "accept": "*/*",        "accept-language": "en-US,en;q=0.9",        "content-type": "application/json",        "origin": "https://haraj.com.sa",        "referer": page_url # 设置referer以模拟真实浏览器行为    }    # GraphQL请求的Payload    payload = {           "query": "query postContact($postId: Int!) {postContact(postId: $postId){contactText}}",        "variables": {            "postId": post_id # 使用动态获取的postId        }    }    try:        # 3. 发送POST请求        response = requests.post(api_url, params=params, headers=headers, json=payload)        response.raise_for_status() # 检查HTTP请求是否成功        # 4. 解析JSON响应        data = response.json()        # 提取电话号码        contact_text = data.get('data', {}).get('postContact', {}).get('contactText')        return contact_text    except requests.exceptions.RequestException as e:        print(f"请求失败: {e}")        return None    except KeyError as e:        print(f"解析响应数据失败: 缺少键 {e}")        return None# 主函数调用示例if __name__ == "__main__":    target_page_url = "https://haraj.com.sa/1194697687" # 替换为实际的页面URL    phone_number = get_hidden_phone_number(target_page_url)    if phone_number:        print(f"成功获取到电话号码: {phone_number}")    else:        print("未能获取电话号码。")    # 另一个示例URL    another_page_url = "https://haraj.com.sa/1199808969"    phone_number_2 = get_hidden_phone_number(another_page_url)    if phone_number_2:        print(f"成功获取到另一个电话号码: {phone_number_2}")    else:        print("未能获取另一个电话号码。")

代码解释：

extract_post_id_from_url(url): 这个函数负责从给定的Haraj网站URL中解析出postId。它使用正则表达式匹配URL末尾的数字，并根据观察到的模式（去除前缀11）进行处理。get_hidden_phone_number(page_url):首先调用extract_post_id_from_url获取当前页面的postId。api_url：这是通过开发者工具识别出的GraphQL API的端点。params：查询字符串参数，即使为空也应包含，以模拟浏览器行为。headers：模拟浏览器请求头，特别是User-Agent、Content-Type、Origin和Referer，这有助于避免被网站识别为爬虫。payload：这是一个字典，会被requests.post自动转换为JSON格式发送。它包含了GraphQL查询语句和动态的postId变量。requests.post(…)：发送POST请求。json=payload参数会自动设置Content-Type为application/json并序列化payload。response.raise_for_status()：这是一个好习惯，如果HTTP请求返回的状态码表示错误（例如4xx或5xx），它会抛出一个HTTPError。response.json()：将API返回的JSON响应解析为Python字典。通过字典的get方法安全地访问嵌套数据，提取contactText，即电话号码。增加了错误处理机制，捕获requests请求异常和JSON解析异常。

5. 注意事项与总结

动态参数： 许多API请求中可能包含动态生成的令牌（token）、客户端ID（clientId）或会话ID。如果这些参数是必需的，你可能需要先爬取主页面，通过JavaScript代码或隐藏字段来提取它们。本例中的token、clientId和version在当前场景下似乎不是必需的，但实际情况可能不同。User-Agent： 始终设置一个合理的User-Agent头部，以模拟真实浏览器，降低被网站封禁的风险。错误处理： 编写健壮的代码，处理网络请求失败、JSON解析失败或预期数据结构缺失等情况。频率限制与道德： 遵守网站的robots.txt协议，不要发送过高的请求频率，避免对目标网站造成不必要的负担。GraphQL的优势： GraphQL允许客户端精确地指定所需的数据，这在某些情况下比REST API更高效，但也意味着你需要理解其查询语法。

通过上述方法，我们成功绕过了BeautifulSoup在处理动态加载内容时的局限性，直接与网站的后端API交互，高效准确地获取了隐藏的电话号码。这种模拟API请求的技术是爬取现代动态网站的关键技能之一。

以上就是Python爬取动态加载内容的隐藏电话号码：API请求方法详解的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1594427.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

解决JavaScript与Firebase集成中的脚本加载问题

上一篇 2025年12月23日 09:26:32

解决CSS导航栏无法填满屏幕宽度的常见问题

下一篇 2025年12月23日 09:26:43

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
4000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
3000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
3000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
1000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
1000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
1000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

苹果浏览器网页背景图色差问题：如何解决背景图不一致？

网页背景图在苹果浏览器上出现色差一位用户在使用苹果浏览器访问网页时遇到一个问题，网页上方的背景图比底部的背景图明显更亮。这个问题的原因很可能是背景图没有正确配置 background-size 属性。在 windows 浏览器中，背景图可能可以自动填满整个容器，但在苹果浏览器中可能需要显式设置 …

程序猿
2025年12月24日
5000
好文分享

苹果浏览器网页背景图像为何色差？

网页背景图像在苹果浏览器的色差问题在不同浏览器中，网站的背景图像有时会出现色差。例如，在 Windows 浏览器中显示正常的上层背景图，在苹果浏览器中却比下层背景图更亮。问题原因出现此问题的原因可能是背景图像未正确设置 background-size 属性。解决方案为确保背景图像在不同浏览…

程序猿
2025年12月24日
4000
好文分享

苹果电脑浏览器背景图亮度差异：为什么网页上下部背景图色差明显？

背景图在苹果电脑浏览器上亮度差异问题描述：在网页设计中，希望上部元素的背景图与页面底部的背景图完全对齐。而在 Windows 中使用浏览器时，该效果可以正常实现。然而，在苹果电脑的浏览器中却出现了明显的色差。原因分析：如果您已经排除屏幕分辨率差异的可能性，那么很可能是背景图的 backgro…

程序猿
2025年12月24日
1000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
1000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

学会从头开始学习CSS，掌握制作基本网页框架的技巧

从零开始学习CSS，掌握网页基本框架制作技巧前言：在现今互联网时代，网页设计和开发是一个非常重要的技能。而学习CSS（层叠样式表）是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局，还可以为用户呈现独特且具有吸引力的页面效果。在本文中，我将为您介绍一些基本的CSS知识，以及一些常用的代…

程序猿
2025年12月24日
4000
好文分享

揭秘Web标准涵盖的语言：了解网页开发必备的语言范围

在当今数字时代，互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位，网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术，离不开一些必备的语言。本文将揭秘Web标准涵盖的语言，让我们一起了解网页开发所需的语言范围。首先，HTML（HyperText Markup La…

程序猿
2025年12月24日
1000
好文分享

揭开Web开发的语言之谜：了解构建网页所需的语言有哪些？

Web标准中的语言大揭秘：掌握网页开发所需的语言有哪些？随着互联网的快速发展，网页开发已经成为人们重要的职业之一。而要成为一名优秀的网页开发者，掌握网页开发所需的语言是必不可少的。本文将为大家揭示Web标准中的语言大揭秘，介绍网页开发所需的主要语言。 HTML（超文本标记语言）HTML是网页开发的…

程序猿
2025年12月24日
5000
好文分享

常用的网页开发语言：了解Web标准的要点

了解Web标准的语言要点：常见的哪些语言应用在网页开发中？随着互联网的不断发展，网页已经成为人们获取信息和交流的重要途径。而要实现一个高质量、易用的网页，离不开一种被广泛接受的Web标准。Web标准的制定和应用，涉及到多种语言和技术，本文将介绍常见的几种语言在网页开发中的应用。首先，HTML（H…

程序猿
2025年12月24日
1000
好文分享

网页开发中常见的Web标准语言有哪些？

探索Web标准语言的世界：网页开发中常用的语言有哪些？在现代社会中，互联网的普及程度越来越高，网页已成为人们获取资讯、娱乐、交流的重要途径。而网页的开发离不开各种编程语言的应用和支持。在这个虚拟世界的网络，有许多被广泛应用的标准化语言，用于为用户提供优质的网页体验。本文将探索网页开发中常用的语言，…

程序猿
2025年12月24日
1000