解决Web Scraping中HTML结构不一致问题:IBM文档网站案例分析

解决Web Scraping中HTML结构不一致问题:IBM文档网站案例分析

在Web Scraping过程中,网站HTML结构的不一致性常导致程序中断。本文将深入探讨这一常见挑战,以IBM文档网站为例,展示如何通过分析网站的内部API调用来获取稳定且结构化的数据。我们将利用Python的httpx和trio进行异步请求,并通过识别隐藏的API端点,实现更健壮、高效的数据抓取,避免直接依赖易变的HTML结构。

Web Scraping中HTML结构不一致的挑战

在进行web scraping时,开发者经常会遇到一个棘手的问题:同一url在不同时间或不同请求条件下返回的html结构可能不尽相同。这可能是由于多种原因造成的,例如:

动态内容加载: 现代网站普遍使用JavaScript动态加载内容。如果爬虫未能正确执行JavaScript,可能只能获取到初始的、不完整的HTML骨架。A/B测试或个性化内容: 网站可能对不同用户展示不同版本的页面,或根据用户地理位置、设备等信息提供个性化内容。用户代理(User-Agent)检测: 网站可能会根据请求头中的User-Agent来判断请求来源是浏览器还是爬虫,从而返回不同的HTML内容,甚至直接返回错误页面或简化版页面。服务器端渲染(SSR)与客户端渲染(CSR)混合: 某些页面可能部分内容由服务器渲染,部分由客户端渲染,导致首次请求与完全加载后的DOM结构差异。错误或重定向: 当原始URL失效或被重定向时,可能会返回一个包含错误信息的HTML页面,而非预期的内容。

在上述IBM文档网站的案例中,观察到两种截然不同的HTML结构:一种是包含完整表格数据的预期结构,另一种则包含大量error.sorryText等JavaScript变量,明显是一个错误或备用页面。这表明网站可能根据请求的某些特征,或在无法找到特定内容时,返回了不同的响应。

识别并利用API数据源

当面对不稳定的HTML结构时,一个更可靠的策略是尝试识别网站用于加载数据的底层API。许多现代网站,尤其是那些动态加载内容的网站,通常会通过内部API获取数据,然后使用JavaScript在客户端渲染这些数据。直接请求这些API端点,往往能获得更稳定、结构化的JSON或XML数据,甚至直接是包含目标数据的HTML片段。

要找到这些API端点,通常需要借助浏览器开发者工具(如Chrome DevTools或Firefox Developer Tools)的“网络” (Network) 选项卡。在加载目标页面时,监控所有发出的XHR/Fetch请求,通常可以找到返回所需数据的API调用。

在IBM文档网站的案例中,通过分析其请求流程,可以发现它首先访问了一个常规URL,然后该页面会提供一个”oldUrl”:”(.*?)”的线索。这个oldUrl实际上指向了一个内部的API端点,该端点能够直接返回包含表格数据的HTML片段。

立即学习“前端免费学习笔记(深入)”;

解决方案:异步请求与API调用

为了解决HTML结构不一致的问题,我们可以采取以下步骤:

模拟浏览器行为: 使用一个真实的User-Agent请求头,以尽可能地模拟浏览器行为,避免被网站识别为爬虫而返回异常内容。首次请求获取API线索: 对原始URL发起GET请求,解析其内容以提取指向实际数据API的oldUrl。构造API请求: 利用提取到的oldUrl构建正确的API请求URL,并添加必要的参数(例如parsebody=true和lang=en),这些参数通常是API正常工作所必需的。发起API请求并解析数据: 对API端点发起请求,获取其响应。由于API通常返回更干净、更结构化的数据(或包含目标HTML片段),我们可以直接使用pandas.read_html()等工具进行高效解析。异步处理: 对于需要抓取大量页面的场景,使用异步HTTP客户端(如httpx)配合异步运行时(如trio或asyncio)可以显著提高抓取效率。

以下是实现这一策略的Python代码示例:

import httpx  # 异步HTTP客户端import trio   # 异步运行时import re     # 正则表达式模块import pandas as pd # 数据处理库# 定义请求头,模拟浏览器headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0'}async def fetch_table_data(identifier: str):    """    异步函数:根据标识符获取表格数据    """    async with httpx.AsyncClient(headers=headers, base_url='https://www.ibm.com/docs') as client:        # 1. 构造原始URL的参数        initial_params = {            'topic': f'tables-{identifier}' # 使用传入的标识符        }        # 2. 对原始URL发起首次请求,获取包含API线索的HTML        # 注意:这里假设 identifier 最终会映射到类似 t-accessdateval 这样的 topic        # 如果原始问题中的 URL 结构是固定的,如 "en/imdm/12.0?topic=t-accessdateval"        # 那么 initial_params['topic'] 应该直接是 't-accessdateval' 或类似的固定值        # 这里为了演示通用性,我们用 f'tables-{identifier}'        # 原始问题中的URL是 "https://www.ibm.com/docs/en/imdm/12.0?topic=t-accessdateval"        # 对应的path是 'en/imdm/12.0',topic是 't-accessdateval'        # 所以这里的 path 和 params 需要根据实际情况调整        # 假设 identifier 已经是 't-accessdateval' 这样的形式        initial_response = await client.get('en/imdm/12.0', params={'topic': identifier})        # 3. 使用正则表达式从响应文本中提取 'oldUrl'        # 'oldUrl' 通常指向一个内部API端点        match = re.search(r'"oldUrl":"(.*?)"', initial_response.text)        if not match:            print(f"未能找到 {identifier} 的 oldUrl。")            return pd.DataFrame() # 返回空DataFrame        old_url_path = match.group(1)        # 4. 构造API请求的URL路径        # API路径通常是 'api/v1/content/' 加上提取到的 oldUrl        api_url_path = "api/v1/content/" + old_url_path        # 5. 定义API请求的参数        api_params = {            'parsebody': 'true', # 确保API返回解析后的内容            'lang': 'en'         # 指定语言        }        # 6. 对API端点发起GET请求        api_response = await client.get(api_url_path, params=api_params)        # 7. 使用pandas.read_html直接解析API响应中的表格数据        # attrs={'class': 'defaultstyle'} 用于精确匹配目标表格        try:            # api_response.content 包含的是HTML片段,pandas可以直接解析            dataframes = pd.read_html(api_response.content, attrs={'class': 'defaultstyle'})            if dataframes:                df = dataframes[0]                # 可以根据需要添加其他信息,例如原始的 identifier                df.insert(0, "Source_Identifier", identifier)                return df            else:                print(f"未能从 {identifier} 的API响应中找到表格。")                return pd.DataFrame()        except ValueError as e:            print(f"解析 {identifier} 的HTML表格时出错: {e}")            return pd.DataFrame()async def main():    # 假设 'identifiers.csv' 包含一列名为 'Identifier' 的数据    # 例如:Identifier    #      t-accessdateval    #      t-another-table    df_identifiers = pd.read_csv('identifiers.csv')    all_dfs = []    # 遍历所有标识符,并发地获取数据    async with trio.TaskGroup() as tg:        for index, row in df_identifiers.iterrows():            identifier = row['Identifier']            tg.start_soon(lambda id=identifier: all_dfs.append(trio.run(fetch_table_data, id))) # 包装为同步调用以添加到列表            # 实际上,trio.run(fetch_table_data, id) 是一个阻塞调用,这里需要调整为异步收集结果            # 正确的异步收集方式如下:            # task_result = await fetch_table_data(identifier)            # all_dfs.append(task_result)            # 或者更优的,使用 tg.start_soon 来并行运行任务,并收集结果            # 由于 trio.run 不能在另一个 trio.run 内部调用,我们需要调整收集结果的方式            # 简单起见,这里先演示串行,如果需要并行,可以构建一个列表的 awaitables            # 或者让 fetch_table_data 返回一个 Future/Deferred,然后在 TaskGroup 中等待            # 对于本教程,我们先采用一个简化的并行/串行混合方式,或者直接在 main 中串行调用            # 更直接的并行收集方式:            # tasks = [tg.start_soon(fetch_table_data, identifier) for identifier in df_identifiers['Identifier']]            # 然后需要一种机制来收集这些任务的结果。            # 这里为了教程的简洁性,先展示一个可以运行的串行/伪并行结构,            # 真正的并行收集需要更复杂的 TaskGroup 模式,例如使用 trio.Queue 或共享列表加锁。            # 为了避免复杂性,我们在这里直接串行调用,或者使用一个简单的异步列表收集            df = await fetch_table_data(identifier)            if not df.empty:                all_dfs.append(df)    if all_dfs:        combined_df = pd.concat(all_dfs, ignore_index=True)        print(combined_df)        combined_df.to_csv('combined_table_data_api.csv', index=False)    else:        print("未获取到任何数据。")if __name__ == "__main__":    trio.run(main)

代码解析:

httpx和trio: httpx是一个现代的HTTP客户端,支持同步和异步请求。trio是一个异步I/O库,提供了一种结构化的并发编程方式。headers: 设置User-Agent,模拟浏览器请求,这对于避免被网站反爬机制识别非常重要。fetch_table_data函数:接收identifier作为参数,用于构建URL。首先向en/imdm/12.0路径发送请求,并传入topic参数。使用re.search从响应文本中查找”oldUrl”:”(.*?)”模式,提取出实际的API路径。将提取到的oldUrl_path与api/v1/content/拼接,形成完整的API请求路径。向这个API路径发送请求,并带上parsebody=true和lang=en参数,这些参数告诉API返回可解析的HTML内容。pd.read_html(api_response.content, attrs={‘class’: ‘defaultstyle’}):这是核心步骤。pandas库的read_html函数可以直接从HTML内容中识别并提取表格,返回一个DataFrame列表。attrs={‘class’: ‘defaultstyle’}用于指定只查找class为defaultstyle的表格,提高准确性。将获取到的DataFrame添加一个Source_Identifier列,以便追踪数据来源。main函数:读取包含标识符的CSV文件。遍历每个标识符,调用fetch_table_data函数获取数据。为了教程简洁,这里展示的是串行调用。在实际大规模抓取中,应利用trio.TaskGroup等机制实现真正的并发。将所有获取到的DataFrame合并成一个。打印并保存最终的合并数据到CSV文件。

总结与最佳实践

深入分析网站行为: 当HTML结构不稳定时,不要只盯着HTML本身,而是要利用浏览器开发者工具(Network Tab)观察网站的实际数据加载方式,尤其是XHR/Fetch请求。优先使用API: 如果网站有明确的API来提供数据,尽可能直接调用API。API通常提供更稳定、结构化、易于解析的数据格式(如JSON、XML),且不易受前端UI改动的影响。模拟真实用户: 使用合适的User-Agent和其他HTTP请求头(如Referer、Accept-Language等)来模拟真实浏览器行为,可以有效避免被网站的反爬机制拦截或返回异常内容。异步编程: 对于需要处理大量请求的Web Scraping任务,httpx配合asyncio或trio等异步库可以显著提升性能和效率。健壮性与错误处理: 在代码中加入适当的错误处理机制(如try-except块),以应对网络错误、API响应异常或解析失败等情况,确保爬虫的稳定运行。遵守Robots协议和网站使用条款: 在进行Web Scraping时,务必检查网站的robots.txt文件,并遵守网站的使用条款,进行负责任的抓取。

通过上述方法,我们可以更有效地应对Web Scraping中HTML结构不一致的挑战,构建出更稳定、高效和健壮的数据抓取系统。

以上就是解决Web Scraping中HTML结构不一致问题:IBM文档网站案例分析的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1519751.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月20日 12:42:21
下一篇 2025年12月20日 12:42:35

相关推荐

  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • CSS元素设置em和transition后,为何载入页面无放大效果?

    css元素设置em和transition后,为何载入无放大效果 很多开发者在设置了em和transition后,却发现元素载入页面时无放大效果。本文将解答这一问题。 原问题:在视频演示中,将元素设置如下,载入页面会有放大效果。然而,在个人尝试中,并未出现该效果。这是由于macos和windows系统…

    2025年12月24日
    200
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果?

    Win10设置界面中的鼠标移动探照灯效果实现指南 想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果,有两种解决方案:CSS 和 HTML/JS 组合。 CSS 实现 不幸的是,仅使用CSS无法完全实现该效果。 立即学习“前端免费学习笔记(深入)”; HTML/JS 实现 要…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000
  • 如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果?

    探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果 在前端开发中,鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果,这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现 虽然 CSS 无法直接实现探照灯效果,但可以通过以下技巧营造出类似效…

    2025年12月24日
    000
  • 使用 Mask 导入本地图片时,如何解决跨域问题?

    跨域疑难:如何解决 mask 引入本地图片产生的跨域问题? 在使用 mask 导入本地图片时,你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢?让我们深入了解一下: mask 框架假设你以 http(s) 协议加载你的 html 文件,而当使用 file:// 协议打开本地文件时,就会产生跨域…

    2025年12月24日
    200
  • 苹果浏览器网页背景图色差问题:如何解决背景图不一致?

    网页背景图在苹果浏览器上出现色差 一位用户在使用苹果浏览器访问网页时遇到一个问题,网页上方的背景图比底部的背景图明显更亮。 这个问题的原因很可能是背景图没有正确配置 background-size 属性。在 windows 浏览器中,背景图可能可以自动填满整个容器,但在苹果浏览器中可能需要显式设置 …

    2025年12月24日
    400
  • 苹果浏览器网页背景图像为何色差?

    网页背景图像在苹果浏览器的色差问题 在不同浏览器中,网站的背景图像有时会出现色差。例如,在 Windows 浏览器中显示正常的上层背景图,在苹果浏览器中却比下层背景图更亮。 问题原因 出现此问题的原因可能是背景图像未正确设置 background-size 属性。 解决方案 为确保背景图像在不同浏览…

    2025年12月24日
    300
  • 苹果电脑浏览器背景图亮度差异:为什么网页上下部背景图色差明显?

    背景图在苹果电脑浏览器上亮度差异 问题描述: 在网页设计中,希望上部元素的背景图与页面底部的背景图完全对齐。而在 Windows 中使用浏览器时,该效果可以正常实现。然而,在苹果电脑的浏览器中却出现了明显的色差。 原因分析: 如果您已经排除屏幕分辨率差异的可能性,那么很可能是背景图的 backgro…

    2025年12月24日
    000
  • 正则表达式在文本验证中的常见问题有哪些?

    正则表达式助力文本输入验证 在文本输入框的验证中,经常遇到需要限定输入内容的情况。例如,输入框只能输入整数,第一位可以为负号。对于不会使用正则表达式的人来说,这可能是个难题。下面我们将提供三种正则表达式,分别满足不同的验证要求。 1. 可选负号,任意数量数字 如果输入框中允许第一位为负号,后面可输入…

    2025年12月24日
    000
  • 如何在 VS Code 中解决折叠代码复制问题?

    解决 VS Code 折叠代码复制问题 在 VS Code 中使用折叠功能可以帮助组织长代码,但使用复制功能时,可能会遇到只复制可见部分的问题。以下是如何解决此问题: 当代码被折叠时,可以使用以下简单操作复制整个折叠代码: 按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

    2025年12月24日
    000
  • 为什么多年的经验让我选择全栈而不是平均栈

    在全栈和平均栈开发方面工作了 6 年多,我可以告诉您,虽然这两种方法都是流行且有效的方法,但它们满足不同的需求,并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序,但它们的实现方式却截然不同。如果您在两者之间难以选择,我希望我在两者之间的经验能给您一些有用的见解。 在这篇文章中,我…

    2025年12月24日
    000
  • 姜戈顺风

    本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置 创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

    2025年12月24日
    000
  • 花 $o 学习这些编程语言或免费

    → Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

    2025年12月24日
    000
  • 为什么前端固定定位会发生移动问题?

    前端固定定位为什么会出现移动现象? 在进行前端开发时,我们经常会使用CSS中的position属性来控制元素的定位。其中,固定定位(position: fixed)是一种常用的定位方式,它可以让元素相对于浏览器窗口进行定位,保持在页面的固定位置不动。 然而,有时候我们会遇到一个问题:在使用固定定位时…

    2025年12月24日
    000
  • 学会从头开始学习CSS,掌握制作基本网页框架的技巧

    从零开始学习CSS,掌握网页基本框架制作技巧 前言: 在现今互联网时代,网页设计和开发是一个非常重要的技能。而学习CSS(层叠样式表)是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局,还可以为用户呈现独特且具有吸引力的页面效果。在本文中,我将为您介绍一些基本的CSS知识,以及一些常用的代…

    2025年12月24日
    200
  • 从初学到专业:掌握这五种前端CSS框架

    CSS是网站设计中重要的一部分,它控制着网站的外观和布局。前端开发人员为了让页面更加美观和易于使用,通常使用CSS框架。这篇文章将带领您了解这五种前端CSS框架,从入门到精通。 Bootstrap Bootstrap是最受欢迎的CSS框架之一。它由Twitter公司开发,具有可定制的响应式网格系统、…

    2025年12月24日
    200
  • 揭秘Web标准涵盖的语言:了解网页开发必备的语言范围

    在当今数字时代,互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位,网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术,离不开一些必备的语言。本文将揭秘Web标准涵盖的语言,让我们一起了解网页开发所需的语言范围。 首先,HTML(HyperText Markup La…

    2025年12月24日
    000
  • 克服害怕做选择的恐惧症:这五个前端CSS框架将为你解决问题

    选择恐惧症?这五个前端CSS框架能帮你解决问题 近年来,前端开发者已经进入了一个黄金时代。随着互联网的快速发展,人们对于网页设计和用户体验的要求也越来越高。然而,要想快速高效地构建出漂亮的网页并不容易,特别是对于那些可能对CSS编码感到畏惧的人来说。所幸的是,前端开发者们早已为我们准备好了一些CSS…

    2025年12月24日
    200

发表回复

登录后才能评论
关注微信