解决Web Scraping中HTML结构不一致问题：IBM文档网站案例分析

程序猿 • 2025年12月20日 12:42:31 • 好文分享 • 阅读 0

在Web Scraping过程中，网站HTML结构的不一致性常导致程序中断。本文将深入探讨这一常见挑战，以IBM文档网站为例，展示如何通过分析网站的内部API调用来获取稳定且结构化的数据。我们将利用Python的httpx和trio进行异步请求，并通过识别隐藏的API端点，实现更健壮、高效的数据抓取，避免直接依赖易变的HTML结构。

Web Scraping中HTML结构不一致的挑战

在进行web scraping时，开发者经常会遇到一个棘手的问题：同一url在不同时间或不同请求条件下返回的html结构可能不尽相同。这可能是由于多种原因造成的，例如：

动态内容加载： 现代网站普遍使用JavaScript动态加载内容。如果爬虫未能正确执行JavaScript，可能只能获取到初始的、不完整的HTML骨架。A/B测试或个性化内容： 网站可能对不同用户展示不同版本的页面，或根据用户地理位置、设备等信息提供个性化内容。用户代理（User-Agent）检测： 网站可能会根据请求头中的User-Agent来判断请求来源是浏览器还是爬虫，从而返回不同的HTML内容，甚至直接返回错误页面或简化版页面。服务器端渲染（SSR）与客户端渲染（CSR）混合： 某些页面可能部分内容由服务器渲染，部分由客户端渲染，导致首次请求与完全加载后的DOM结构差异。错误或重定向： 当原始URL失效或被重定向时，可能会返回一个包含错误信息的HTML页面，而非预期的内容。

在上述IBM文档网站的案例中，观察到两种截然不同的HTML结构：一种是包含完整表格数据的预期结构，另一种则包含大量error.sorryText等JavaScript变量，明显是一个错误或备用页面。这表明网站可能根据请求的某些特征，或在无法找到特定内容时，返回了不同的响应。

识别并利用API数据源

当面对不稳定的HTML结构时，一个更可靠的策略是尝试识别网站用于加载数据的底层API。许多现代网站，尤其是那些动态加载内容的网站，通常会通过内部API获取数据，然后使用JavaScript在客户端渲染这些数据。直接请求这些API端点，往往能获得更稳定、结构化的JSON或XML数据，甚至直接是包含目标数据的HTML片段。

要找到这些API端点，通常需要借助浏览器开发者工具（如Chrome DevTools或Firefox Developer Tools）的“网络” (Network) 选项卡。在加载目标页面时，监控所有发出的XHR/Fetch请求，通常可以找到返回所需数据的API调用。

在IBM文档网站的案例中，通过分析其请求流程，可以发现它首先访问了一个常规URL，然后该页面会提供一个”oldUrl”:”(.*?)”的线索。这个oldUrl实际上指向了一个内部的API端点，该端点能够直接返回包含表格数据的HTML片段。

立即学习“前端免费学习笔记（深入）”；

解决方案：异步请求与API调用

为了解决HTML结构不一致的问题，我们可以采取以下步骤：

模拟浏览器行为： 使用一个真实的User-Agent请求头，以尽可能地模拟浏览器行为，避免被网站识别为爬虫而返回异常内容。首次请求获取API线索： 对原始URL发起GET请求，解析其内容以提取指向实际数据API的oldUrl。构造API请求： 利用提取到的oldUrl构建正确的API请求URL，并添加必要的参数（例如parsebody=true和lang=en），这些参数通常是API正常工作所必需的。发起API请求并解析数据： 对API端点发起请求，获取其响应。由于API通常返回更干净、更结构化的数据（或包含目标HTML片段），我们可以直接使用pandas.read_html()等工具进行高效解析。异步处理： 对于需要抓取大量页面的场景，使用异步HTTP客户端（如httpx）配合异步运行时（如trio或asyncio）可以显著提高抓取效率。

以下是实现这一策略的Python代码示例：

import httpx  # 异步HTTP客户端import trio   # 异步运行时import re     # 正则表达式模块import pandas as pd # 数据处理库# 定义请求头，模拟浏览器headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0'}async def fetch_table_data(identifier: str):    """    异步函数：根据标识符获取表格数据    """    async with httpx.AsyncClient(headers=headers, base_url='https://www.ibm.com/docs') as client:        # 1. 构造原始URL的参数        initial_params = {            'topic': f'tables-{identifier}' # 使用传入的标识符        }        # 2. 对原始URL发起首次请求，获取包含API线索的HTML        # 注意：这里假设 identifier 最终会映射到类似 t-accessdateval 这样的 topic        # 如果原始问题中的 URL 结构是固定的，如 "en/imdm/12.0?topic=t-accessdateval"        # 那么 initial_params['topic'] 应该直接是 't-accessdateval' 或类似的固定值        # 这里为了演示通用性，我们用 f'tables-{identifier}'        # 原始问题中的URL是 "https://www.ibm.com/docs/en/imdm/12.0?topic=t-accessdateval"        # 对应的path是 'en/imdm/12.0'，topic是 't-accessdateval'        # 所以这里的 path 和 params 需要根据实际情况调整        # 假设 identifier 已经是 't-accessdateval' 这样的形式        initial_response = await client.get('en/imdm/12.0', params={'topic': identifier})        # 3. 使用正则表达式从响应文本中提取 'oldUrl'        # 'oldUrl' 通常指向一个内部API端点        match = re.search(r'"oldUrl":"(.*?)"', initial_response.text)        if not match:            print(f"未能找到 {identifier} 的 oldUrl。")            return pd.DataFrame() # 返回空DataFrame        old_url_path = match.group(1)        # 4. 构造API请求的URL路径        # API路径通常是 'api/v1/content/' 加上提取到的 oldUrl        api_url_path = "api/v1/content/" + old_url_path        # 5. 定义API请求的参数        api_params = {            'parsebody': 'true', # 确保API返回解析后的内容            'lang': 'en'         # 指定语言        }        # 6. 对API端点发起GET请求        api_response = await client.get(api_url_path, params=api_params)        # 7. 使用pandas.read_html直接解析API响应中的表格数据        # attrs={'class': 'defaultstyle'} 用于精确匹配目标表格        try:            # api_response.content 包含的是HTML片段，pandas可以直接解析            dataframes = pd.read_html(api_response.content, attrs={'class': 'defaultstyle'})            if dataframes:                df = dataframes[0]                # 可以根据需要添加其他信息，例如原始的 identifier                df.insert(0, "Source_Identifier", identifier)                return df            else:                print(f"未能从 {identifier} 的API响应中找到表格。")                return pd.DataFrame()        except ValueError as e:            print(f"解析 {identifier} 的HTML表格时出错: {e}")            return pd.DataFrame()async def main():    # 假设 'identifiers.csv' 包含一列名为 'Identifier' 的数据    # 例如：Identifier    #      t-accessdateval    #      t-another-table    df_identifiers = pd.read_csv('identifiers.csv')    all_dfs = []    # 遍历所有标识符，并发地获取数据    async with trio.TaskGroup() as tg:        for index, row in df_identifiers.iterrows():            identifier = row['Identifier']            tg.start_soon(lambda id=identifier: all_dfs.append(trio.run(fetch_table_data, id))) # 包装为同步调用以添加到列表            # 实际上，trio.run(fetch_table_data, id) 是一个阻塞调用，这里需要调整为异步收集结果            # 正确的异步收集方式如下：            # task_result = await fetch_table_data(identifier)            # all_dfs.append(task_result)            # 或者更优的，使用 tg.start_soon 来并行运行任务，并收集结果            # 由于 trio.run 不能在另一个 trio.run 内部调用，我们需要调整收集结果的方式            # 简单起见，这里先演示串行，如果需要并行，可以构建一个列表的 awaitables            # 或者让 fetch_table_data 返回一个 Future/Deferred，然后在 TaskGroup 中等待            # 对于本教程，我们先采用一个简化的并行/串行混合方式，或者直接在 main 中串行调用            # 更直接的并行收集方式：            # tasks = [tg.start_soon(fetch_table_data, identifier) for identifier in df_identifiers['Identifier']]            # 然后需要一种机制来收集这些任务的结果。            # 这里为了教程的简洁性，先展示一个可以运行的串行/伪并行结构，            # 真正的并行收集需要更复杂的 TaskGroup 模式，例如使用 trio.Queue 或共享列表加锁。            # 为了避免复杂性，我们在这里直接串行调用，或者使用一个简单的异步列表收集            df = await fetch_table_data(identifier)            if not df.empty:                all_dfs.append(df)    if all_dfs:        combined_df = pd.concat(all_dfs, ignore_index=True)        print(combined_df)        combined_df.to_csv('combined_table_data_api.csv', index=False)    else:        print("未获取到任何数据。")if __name__ == "__main__":    trio.run(main)

代码解析：

httpx和trio： httpx是一个现代的HTTP客户端，支持同步和异步请求。trio是一个异步I/O库，提供了一种结构化的并发编程方式。headers： 设置User-Agent，模拟浏览器请求，这对于避免被网站反爬机制识别非常重要。fetch_table_data函数：接收identifier作为参数，用于构建URL。首先向en/imdm/12.0路径发送请求，并传入topic参数。使用re.search从响应文本中查找”oldUrl”:”(.*?)”模式，提取出实际的API路径。将提取到的oldUrl_path与api/v1/content/拼接，形成完整的API请求路径。向这个API路径发送请求，并带上parsebody=true和lang=en参数，这些参数告诉API返回可解析的HTML内容。pd.read_html(api_response.content, attrs={‘class’: ‘defaultstyle’})：这是核心步骤。pandas库的read_html函数可以直接从HTML内容中识别并提取表格，返回一个DataFrame列表。attrs={‘class’: ‘defaultstyle’}用于指定只查找class为defaultstyle的表格，提高准确性。将获取到的DataFrame添加一个Source_Identifier列，以便追踪数据来源。main函数：读取包含标识符的CSV文件。遍历每个标识符，调用fetch_table_data函数获取数据。为了教程简洁，这里展示的是串行调用。在实际大规模抓取中，应利用trio.TaskGroup等机制实现真正的并发。将所有获取到的DataFrame合并成一个。打印并保存最终的合并数据到CSV文件。

总结与最佳实践

深入分析网站行为： 当HTML结构不稳定时，不要只盯着HTML本身，而是要利用浏览器开发者工具（Network Tab）观察网站的实际数据加载方式，尤其是XHR/Fetch请求。优先使用API： 如果网站有明确的API来提供数据，尽可能直接调用API。API通常提供更稳定、结构化、易于解析的数据格式（如JSON、XML），且不易受前端UI改动的影响。模拟真实用户： 使用合适的User-Agent和其他HTTP请求头（如Referer、Accept-Language等）来模拟真实浏览器行为，可以有效避免被网站的反爬机制拦截或返回异常内容。异步编程： 对于需要处理大量请求的Web Scraping任务，httpx配合asyncio或trio等异步库可以显著提升性能和效率。健壮性与错误处理： 在代码中加入适当的错误处理机制（如try-except块），以应对网络错误、API响应异常或解析失败等情况，确保爬虫的稳定运行。遵守Robots协议和网站使用条款： 在进行Web Scraping时，务必检查网站的robots.txt文件，并遵守网站的使用条款，进行负责任的抓取。

通过上述方法，我们可以更有效地应对Web Scraping中HTML结构不一致的挑战，构建出更稳定、高效和健壮的数据抓取系统。

以上就是解决Web Scraping中HTML结构不一致问题：IBM文档网站案例分析的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1519751.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Vue.js 组件中图片导入指南

上一篇 2025年12月20日 12:42:21

JavaScript中监听单选按钮选中状态变化的事件处理

下一篇 2025年12月20日 12:42:35

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
2000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
2000
好文分享

苹果浏览器网页背景图色差问题：如何解决背景图不一致？

网页背景图在苹果浏览器上出现色差一位用户在使用苹果浏览器访问网页时遇到一个问题，网页上方的背景图比底部的背景图明显更亮。这个问题的原因很可能是背景图没有正确配置 background-size 属性。在 windows 浏览器中，背景图可能可以自动填满整个容器，但在苹果浏览器中可能需要显式设置 …

程序猿
2025年12月24日
4000
好文分享

苹果浏览器网页背景图像为何色差？

网页背景图像在苹果浏览器的色差问题在不同浏览器中，网站的背景图像有时会出现色差。例如，在 Windows 浏览器中显示正常的上层背景图，在苹果浏览器中却比下层背景图更亮。问题原因出现此问题的原因可能是背景图像未正确设置 background-size 属性。解决方案为确保背景图像在不同浏览…

程序猿
2025年12月24日
3000
好文分享

苹果电脑浏览器背景图亮度差异：为什么网页上下部背景图色差明显？

背景图在苹果电脑浏览器上亮度差异问题描述：在网页设计中，希望上部元素的背景图与页面底部的背景图完全对齐。而在 Windows 中使用浏览器时，该效果可以正常实现。然而，在苹果电脑的浏览器中却出现了明显的色差。原因分析：如果您已经排除屏幕分辨率差异的可能性，那么很可能是背景图的 backgro…

程序猿
2025年12月24日
0000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
0000
好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

为什么前端固定定位会发生移动问题？

前端固定定位为什么会出现移动现象？在进行前端开发时，我们经常会使用CSS中的position属性来控制元素的定位。其中，固定定位（position: fixed）是一种常用的定位方式，它可以让元素相对于浏览器窗口进行定位，保持在页面的固定位置不动。然而，有时候我们会遇到一个问题：在使用固定定位时…

程序猿
2025年12月24日
0000
好文分享

学会从头开始学习CSS，掌握制作基本网页框架的技巧

从零开始学习CSS，掌握网页基本框架制作技巧前言：在现今互联网时代，网页设计和开发是一个非常重要的技能。而学习CSS（层叠样式表）是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局，还可以为用户呈现独特且具有吸引力的页面效果。在本文中，我将为您介绍一些基本的CSS知识，以及一些常用的代…

程序猿
2025年12月24日
2000
好文分享

从初学到专业：掌握这五种前端CSS框架

CSS是网站设计中重要的一部分，它控制着网站的外观和布局。前端开发人员为了让页面更加美观和易于使用，通常使用CSS框架。这篇文章将带领您了解这五种前端CSS框架，从入门到精通。 Bootstrap Bootstrap是最受欢迎的CSS框架之一。它由Twitter公司开发，具有可定制的响应式网格系统、…

程序猿
2025年12月24日
2000
好文分享

揭秘Web标准涵盖的语言：了解网页开发必备的语言范围

在当今数字时代，互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位，网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术，离不开一些必备的语言。本文将揭秘Web标准涵盖的语言，让我们一起了解网页开发所需的语言范围。首先，HTML（HyperText Markup La…

程序猿
2025年12月24日
0000
好文分享

克服害怕做选择的恐惧症：这五个前端CSS框架将为你解决问题

选择恐惧症？这五个前端CSS框架能帮你解决问题近年来，前端开发者已经进入了一个黄金时代。随着互联网的快速发展，人们对于网页设计和用户体验的要求也越来越高。然而，要想快速高效地构建出漂亮的网页并不容易，特别是对于那些可能对CSS编码感到畏惧的人来说。所幸的是，前端开发者们早已为我们准备好了一些CSS…

程序猿
2025年12月24日
2000