R语言中从HTML页面提取并解析内嵌JSON数据

程序猿 • 2025年12月22日 21:28:53 • 好文分享 • 阅读 0

本文详细阐述了在R语言中如何处理HTML页面内嵌的JSON数据。通过结合rvest包获取页面文本内容，并利用jsonlite包解析JSON字符串，可以高效地从非标准HTML结构中提取所需的嵌套数据，尤其适用于那些将JSON作为纯文本内容嵌入到HTML中的场景，最终将复杂数据转换为R中的数据框或矩阵以便进一步分析。

引言：R语言中处理HTML内嵌JSON数据的挑战

在进行网络数据抓取时，我们经常会遇到数据以json格式存在，但却被嵌入到html页面中的情况。传统的rvest包的html_nodes()函数主要用于选择html标签和属性，对于直接以纯文本形式存在于html结构中的json数据则束手无策。例如，当一个网页的源代码看起来像一个json数组，但被read_html()加载后，它被视为html文档中的一个文本节点，而不是可供html_nodes()直接查询的结构。此时，理解如何正确地提取并解析这些内嵌的json数据，是r语言网络爬虫的关键技能。

准备工作：所需R包

为了完成这项任务，我们需要用到以下两个R包：

rvest: 用于从网页读取HTML内容。jsonlite: 用于解析JSON格式的字符串。

如果尚未安装，可以通过以下命令进行安装：

install.packages(c("rvest", "jsonlite"))

第一步：获取HTML页面内容

首先，我们需要使用rvest包中的read_html()函数来加载目标网页。即使页面内容看起来像是纯JSON，read_html()也会尝试将其解析为HTML文档结构。

library(rvest)library(jsonlite) # 提前加载jsonlite# 假设目标URL是包含JSON数据的页面# 请替换为实际的URLurl <- "https://mywebsite.com/data.json" # 示例URL，实际可能指向一个包含JSON的HTML页面page_content <- read_html(url)# 此时的page_content是一个html_document对象# 它的内部可能包含一个或标签，其中包含了JSON字符串print(page_content)

通过print(page_content)，你可能会看到类似

[{“title1″:”abc 123”, …}]

立即学习“前端免费学习笔记（深入）”；

的输出，这表明JSON数据被当作HTML中的普通文本内容。

第二步：提取原始JSON字符串

由于JSON数据被视为HTML文档中的文本内容，我们不能直接使用html_nodes()来选择它。相反，我们需要使用html_text()函数来提取整个HTML文档的文本内容。这个函数会返回一个包含HTML文档中所有可见文本的字符串，其中就包括了我们想要的JSON字符串。

# 提取HTML文档的纯文本内容json_string <- html_text(page_content)# 打印部分字符串以确认是否包含JSON数据head(json_string, 500) # 打印前500个字符

这一步的关键在于，html_text()能够获取到包含JSON数据的完整字符串。如果HTML页面中包含其他不相关的文本，你可能需要进一步处理json_string，例如使用正则表达式grep或gsub来精确提取JSON部分。但在许多情况下，如果页面主体就是JSON，直接提取即可。

第三步：解析JSON数据

获得了原始的JSON字符串后，下一步就是使用jsonlite包的parse_json()函数将其解析为R中的数据结构。parse_json()函数可以将JSON字符串转换为R的列表（list）或数据框（data frame）等对象。

一个非常有用的参数是simplifyDataFrame = TRUE。当JSON结构允许时，它会尝试将嵌套的JSON对象自动简化为数据框，这大大方便了后续的数据处理。

# 解析JSON字符串parsed_data <- parse_json(json_string, simplifyDataFrame = TRUE)# 查看解析后的数据结构str(parsed_data)

此时，parsed_data通常会是一个列表或数据框，其结构与原始JSON的层级结构相对应。例如，如果JSON是一个数组，parsed_data可能是一个数据框或一个包含多个列表元素的列表。

第四步：提取并整理特定嵌套数据

根据原始JSON的结构，我们现在可以访问和提取所需的特定数据。以问题中提到的”title7″为例，它是一个嵌套在”title4″中的列表，每个元素又是一个包含两个数值的向量。

# 访问嵌套的title4和title7数据title7_list <- parsed_data$title4$title7# title7_list现在是一个列表，每个元素是一个数值向量# 我们可以使用do.call(rbind, ...)将其转换为一个矩阵final_result <- do.call(rbind, title7_list)# 将矩阵转换为数据框，并添加ID列和有意义的列名final_df <- as.data.frame(final_result)colnames(final_df) <- c("title7_1", "title7_2")final_df$id <- 1:nrow(final_df) # 添加一个ID列final_df <- final_df[, c("id", "title7_1", "title7_2")] # 重新排序列# 打印最终结果print(final_df)

这段代码首先通过parsed_data$title4$title7访问到包含所有title7数据的列表。然后，do.call(rbind, …)是一个非常方便的技巧，可以将一个由向量组成的列表绑定成一个矩阵，从而将嵌套的数值数据扁平化。最后，将矩阵转换为数据框并进行列名和ID的整理，使其符合最终期望的输出格式。

完整示例代码

下面是整合上述所有步骤的完整示例代码：

library(rvest)library(jsonlite)library(dplyr) # 用于数据框操作，如select、mutate等# 1. 模拟一个包含JSON的HTML页面（实际操作中替换为真实URL）# 注意：这里为了演示，我直接创建了一个包含JSON字符串的HTML内容# 实际URL可能直接返回JSON，但read_html仍可能将其包装在HTML标签内# 假设我们访问的URL内容如下：# [#   {#     "title1" : "abc 123",#     "title2" : "bca 321",#     "title3" : "cba 213",#     "title4" : {"title5": "title6", "title7": [ -17662.3456, 987621.7654]}#   },#   {#     "title1" : "aec 183",#     "title2" : "bga 351",#     "title3" : "cha 293",#     "title4" : {"title5": "title6", "title7": [ -1621626123.23234, 652238322.122]}#   }# ]# 为了模拟read_html的行为，我们假设它被包装在标签内mock_html_content <- '
[n{n"title1" : "abc 123",n"title2" : "bca 321",n"title3" : "cba 213",n"title4" : {"title5": "title6", "title7": [ -17662.3456, 987621.7654]}n},n{n"title1" : "aec 183",n"title2" : "bga 351",n"title3" : "cha 293",n"title4" : {"title5": "title6", "title7": [ -1621626123.23234, 652238322.122]}n}n]
'# 使用read_html加载（如果是真实URL，直接 read_html(url) 即可）# 对于模拟内容，可以使用read_html(charToRaw(mock_html_content)) 或 read_html(paste0("data:text/html,", URLencode(mock_html_content)))# 更直接的方式是利用rvest的html_parse功能page_content <- read_html(mock_html_content)# 2. 提取原始JSON字符串json_string <- html_text(page_content)# 3. 解析JSON字符串parsed_data <- parse_json(json_string, simplifyDataFrame = TRUE)# 4. 提取并整理特定嵌套数据# 访问title4下的title7列表title7_list <- parsed_data$title4$title7# 将列表中的向量绑定为矩阵final_matrix <- do.call(rbind, title7_list)# 转换为数据框，并添加id和有意义的列名final_df %  rename(title7_1 = V1, title7_2 = V2) %>%  mutate(id = row_number()) %>%  select(id, title7_1, title7_2) # 调整列顺序# 打印最终结果print(final_df)# 期望输出：#   id      title7_1    title7_2# 1  1 -1.766235e+04    987621.8# 2  2 -1.621626e+09 652238322.1

注意事项与总结

数据源的识别：在开始爬取之前，最好通过浏览器的开发者工具（F12）查看页面的“网络”或“源代码”选项卡，确认目标数据是以纯JSON形式存在还是作为HTML元素的一部分。如果直接返回的是application/json类型的响应，jsonlite::fromJSON(url)可能更直接。但如果JSON被包裹在HTML标签内，则本文的方法是正确的选择。错误处理：在实际的网络爬虫中，需要考虑网络连接失败、页面结构变化、JSON格式错误等情况。可以加入tryCatch语句来增强代码的健壮性。simplifyDataFrame的局限性：simplifyDataFrame = TRUE在许多情况下非常方便，但对于过于复杂或不规则的JSON结构，它可能无法完全扁平化所有数据。此时，你可能需要手动遍历列表，逐步提取和整理数据。数据清洗：提取到的数据可能仍需进一步清洗和转换，例如日期格式转换、缺失值处理等。效率考量：对于大规模数据，考虑使用data.table包进行高效的数据操作，或者优化JSON解析逻辑以提高性能。

通过结合rvest和jsonlite这两个强大的R包，我们可以有效地应对HTML页面中内嵌JSON数据的抓取和解析挑战，将非结构化或半结构化的网页数据转化为R中可分析的结构化数据。理解数据在HTML中是如何呈现的，是选择正确工具和方法的基础。

以上就是R语言中从HTML页面提取并解析内嵌JSON数据的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1580444.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

使用CSS浮动与媒体查询构建响应式多列布局

上一篇 2025年12月22日 21:28:43

React中子组件状态与父组件Props同步的最佳实践

下一篇 2025年12月22日 21:29:05

好文分享

学会从头开始学习CSS，掌握制作基本网页框架的技巧

从零开始学习CSS，掌握网页基本框架制作技巧前言：在现今互联网时代，网页设计和开发是一个非常重要的技能。而学习CSS（层叠样式表）是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局，还可以为用户呈现独特且具有吸引力的页面效果。在本文中，我将为您介绍一些基本的CSS知识，以及一些常用的代…

程序猿
2025年12月24日
2000
好文分享

揭秘Web标准涵盖的语言：了解网页开发必备的语言范围

在当今数字时代，互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位，网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术，离不开一些必备的语言。本文将揭秘Web标准涵盖的语言，让我们一起了解网页开发所需的语言范围。首先，HTML（HyperText Markup La…

程序猿
2025年12月24日
0000
好文分享

揭开Web开发的语言之谜：了解构建网页所需的语言有哪些？

Web标准中的语言大揭秘：掌握网页开发所需的语言有哪些？随着互联网的快速发展，网页开发已经成为人们重要的职业之一。而要成为一名优秀的网页开发者，掌握网页开发所需的语言是必不可少的。本文将为大家揭示Web标准中的语言大揭秘，介绍网页开发所需的主要语言。 HTML（超文本标记语言）HTML是网页开发的…

程序猿
2025年12月24日
4000
好文分享

常用的网页开发语言：了解Web标准的要点

了解Web标准的语言要点：常见的哪些语言应用在网页开发中？随着互联网的不断发展，网页已经成为人们获取信息和交流的重要途径。而要实现一个高质量、易用的网页，离不开一种被广泛接受的Web标准。Web标准的制定和应用，涉及到多种语言和技术，本文将介绍常见的几种语言在网页开发中的应用。首先，HTML（H…

程序猿
2025年12月24日
0000
好文分享

网页开发中常见的Web标准语言有哪些？

探索Web标准语言的世界：网页开发中常用的语言有哪些？在现代社会中，互联网的普及程度越来越高，网页已成为人们获取资讯、娱乐、交流的重要途径。而网页的开发离不开各种编程语言的应用和支持。在这个虚拟世界的网络，有许多被广泛应用的标准化语言，用于为用户提供优质的网页体验。本文将探索网页开发中常用的语言，…

程序猿
2025年12月24日
0000
好文分享

深入探究Web标准语言的范围，涵盖了哪些语言？

Web标准是指互联网上的各个网页所需遵循的一系列规范，确保网页在不同的浏览器和设备上能够正确地显示和运行。这些标准包括HTML、CSS和JavaScript等语言。本文将深入解析Web标准涵盖的语言范围。首先，HTML（HyperText Markup Language）是构建网页的基础语言。它使…

程序猿
2025年12月24日
0000
好文分享

深入理解CSS框架与JS之间的关系

深入理解CSS框架与JS之间的关系在现代web开发中，CSS框架和JavaScript (JS) 是两个常用的工具。CSS框架通过提供一系列样式和布局选项，可以帮助我们快速构建美观的网页。而JS则提供了一套功能强大的脚本语言，可以为网页添加交互和动态效果。本文将深入探讨CSS框架和JS之间的关系，…

程序猿
2025年12月24日
0000
好文分享

CSS 超链接属性解析：text-decoration 和 color

CSS 超链接属性解析：text-decoration 和 color 超链接是网页中常用的元素之一，它能够在不同页面之间建立连接。为了使超链接在页面中有明显的标识和吸引力，CSS 提供了一些属性来调整超链接的样式。本文将重点介绍 text-decoration 和 color 这两个与超链接相关的…

程序猿
2025年12月24日
0000
看看这些前端面试题，带你搞定高频知识点（一）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：给定一个元素，如何实现水平垂直居中？…

程序猿
2025年12月24日 • 好文分享
3000
看看这些前端面试题，带你搞定高频知识点（二）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：页面导入样式时，使用 link 和 …

程序猿
2025年12月24日 • 好文分享
2000
看看这些前端面试题，带你搞定高频知识点（三）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：清除浮动有哪些方式？我：呃~，浮动…

程序猿
2025年12月24日 • 好文分享
0000
看看这些前端面试题，带你搞定高频知识点（四）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：请你谈一下自适应(适配)的方案我：…

程序猿
2025年12月24日 • 好文分享
0000
看看这些前端面试题，带你搞定高频知识点（五）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：css 如何实现左侧固定 300px…

程序猿
2025年12月24日 • 好文分享
0000
HTML+CSS+JS实现雪花飘扬（代码分享）

使用html+css+js如何实现下雪特效？下面本篇文章给大家分享一个html+css+js实现雪花飘扬的示例，希望对大家有所帮助。很多南方的小伙伴可能没怎么见过或者从来没见过下雪，今天我给大家带来一个小Demo，模拟了下雪场景，首先让我们看一下运行效果可以点击看看在线运行：http://hai…

程序猿
2025年12月24日 • 好文分享
5000
分享20个首页流行布局样式，总有一款适合你！

本篇文章给大家分享20个首页流行布局样式，总有一款适合你，快来收藏试试吧，希望对大家有所帮助！有时我们会在网站上遇到一些内容布局问题，如文字对齐、图片设计与内容和谐、为文章选择合适的字体……在今天的文章中，介绍一些设计精美的创意布局，let‘s 开始。代号 001 源码…

程序猿
2025年12月24日 • 好文分享
0000
css如何让div悬浮于另一个div上

让div悬浮于另一个div上的方法：1、给两个div元素添加“position:absolute”绝对定位样式；2、给其中一个div元素添加“{top:距离页面顶部距离;left:距离页面左侧距离;}”样式使其浮动在另一个div元素上即可。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日 • 好文分享
0000
好文分享

css怎样实现字母不到一行就换行

css字母不到一行就换行的方法：1、给元素添加“word-break:break-word;”样式，使其以单词为单位换行；2、给元素添加“word-break:break-all;”样式，使其以字母为单位换行。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell…

程序猿
2025年12月24日
0000
好文分享

css里怎样设置字体大小和字体颜色

在css中，可以使用“font-size”和color属性设置字体大小和字体颜色，只需要给字体元素添加“{font-size: 字体大小值;color: 颜色值;}”样式即可。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell G3电脑。 css里设置字体大小…

程序猿
2025年12月24日
0000
好文分享

css边框变圆角边框怎么写

写法：1、给边框添加“border-radius:圆角值;”样式统一设置圆角大小；2、添加“border-top-left-radius:圆角值;”、“border-top-right-radius:圆角值;”等样式分别设置四角圆角大小。本教程操作环境：windows7系统、CSS3&&a…

程序猿
2025年12月24日
0000
css如何使鼠标悬停变色

在css中，可以通过hover选择器和color属性实现鼠标悬停变色的效果，hover选择器用于选择鼠标指针浮动在上面的元素，color属性用于设置悬停时的颜色；语法“:hover{color:悬停颜色;}”。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell…

程序猿
2025年12月24日 • 好文分享
0000