R语言Web Scraping：高效提取HTML中内嵌的JSON数据

程序猿 • 2025年12月22日 21:26:33 • 好文分享 • 阅读 0

本教程详细讲解如何使用R语言从包含JSON数据的网页中进行数据抓取。当JSON数据以文本形式内嵌于HTML结构中时，传统的HTML解析方法会失效。我们将利用rvest库读取页面内容，并通过html_text函数提取原始文本，随后结合jsonlite::parse_json将其转换为可操作的R数据框，最终实现目标数据的精确提取。

理解挑战：HTML中内嵌的JSON数据

在web数据抓取过程中，我们经常会遇到网页源代码中直接包含json格式数据的场景。这类数据并非通过标准的html标签（如

、等）进行结构化，而是作为纯文本字符串存在于html文档的某个部分，通常是或标签内。当使用rvest等库进行常规的html节点选择（例如html_nodes(“div”)或html_nodes(“p”)）时，由于json字符串本身不被识别为html节点，这些方法将无法成功提取到所需信息，导致返回空结果。

例如，一个网页的源代码可能呈现如下结构：

%ignore_pre_1%

在这种情况下，我们需要一种策略，首先将整个JSON文本从HTML文档中提取出来，然后将其作为独立的JSON字符串进行解析。

核心工具：rvest与jsonlite

为了解决上述问题，我们将结合使用R语言中的两个强大库：

rvest: 专注于HTML和XML文档的解析。它能帮助我们读取网页内容，并提取其中的文本信息。
jsonlite: 一个轻量级、高性能的JSON解析器和生成器。它能够将JSON字符串方便地转换为R语言中的列表或数据框，反之亦然。

实战步骤：提取与解析内嵌JSON数据

以下是详细的操作步骤，以提取上述示例中title7字段的数据为例。

立即学习“前端免费学习笔记（深入）”；

步骤1：加载必要的R包

首先，确保已安装并加载rvest和jsonlite这两个库。

# 如果尚未安装，请先运行以下命令# install.packages("rvest")# install.packages("jsonlite")library(rvest)library(jsonlite)

步骤2：读取网页内容

使用rvest::read_html()函数读取目标网页的全部内容。即使页面主体是JSON，read_html仍会将其视为一个HTML文档。

url <- "https://example.com/data.json" # 请替换为你的目标网址page_content <- read_html(url)# 查看读取到的内容，会发现JSON数据被包裹在HTML结构中print(page_content)# {html_document}# # [1]
[n{n"title1" : "abc 123",n"title2" : "bca 321",n...
步骤3：提取原始文本字符串
这是关键一步。我们需要使用html_text()函数从page_content对象中提取出所有的纯文本内容。对于本例，这将直接得到包含JSON数据的完整字符串。

json_string <- html_text(page_content)# 打印字符串以确认其内容为JSON格式print(json_string)# [# {# "title1" : "abc 123",# "title2" : "bca 321",# ...

步骤4：解析JSON数据

现在我们拥有了纯粹的JSON字符串，可以使用jsonlite::parse_json()函数对其进行解析。为了方便后续的数据操作，建议将simplifyDataFrame参数设置为TRUE，这会尝试将嵌套的JSON对象扁平化为数据框。

parsed_json_data <- jsonlite::parse_json(json_string, simplifyDataFrame = TRUE)# 查看解析后的数据结构str(parsed_json_data)# 'data.frame': 2 obs. of 4 variables:# $ title1: chr "abc 123" "aec 183"# $ title2: chr "bca 321" "bga 351"# $ title3: chr "cba 213" "cha 293"# $ title4:'data.frame': 2 obs. of 2 variables:# ..$ title5: chr "title6" "title6"# ..$ title7:List of 2# .. ..$ : num -17662 987622# .. ..$ : num -1.62e+09 6.52e+08

从str()的输出可以看出，parsed_json_data现在是一个数据框，其中title4是一个嵌套的数据框，而title4$title7则是一个包含列表的列表，每个子列表代表原始JSON中的一个title7数组。

步骤5：定位并提取目标数据

根据str()的输出，我们可以通过链式索引来访问title4$title7。由于title7是一个列表，其每个元素又是一个包含两个数值的向量，我们可以使用do.call(rbind, …)将其转换为一个矩阵或数据框，方便进一步处理。

# 提取 title7 的数据target_data <- do.call(rbind, parsed_json_data$title4$title7)# 为结果添加列名（可选）colnames(target_data) <- c("title7_1", "title7_2")# 添加一个ID列（可选）final_result <- data.frame(id = 1:nrow(target_data), target_data)# 打印最终结果print(final_result)# id title7_1 title7_2# 1 1 -1.766235e+04 987621.8# 2 2 -1.621626e+09 652238322.1

至此，我们已成功从HTML中内嵌的JSON数据中提取出了所需的title7信息，并将其整理成了一个结构化的数据框。

注意事项

JSON格式的准确性：确保从网页提取的文本是有效的JSON格式。如果JSON字符串存在语法错误，jsonlite::parse_json()会报错。simplifyDataFrame参数：simplifyDataFrame = TRUE在多数情况下能将JSON转换为易于操作的数据框，但对于非常复杂或结构不规则的JSON，可能需要手动处理嵌套的列表。网络请求失败：在实际应用中，应考虑网络连接问题或目标网站响应异常。可以使用tryCatch等机制进行错误处理。网站结构变化：Web Scraping依赖于目标网站的结构。如果网站更新，其HTML或JSON的结构可能会改变，导致现有代码失效。定期检查和维护是必要的。合法性与道德：在进行Web Scraping时，务必遵守目标网站的robots.txt文件规定，尊重网站的使用条款，并避免对服务器造成过大负担。

总结

本教程展示了一种在R语言中处理HTML页面内嵌JSON数据的有效方法。通过结合rvest库的read_html()和html_text()函数来提取原始文本，再利用jsonlite库的parse_json()函数将JSON字符串转换为R数据结构，我们可以灵活地访问和处理这些数据。这种方法克服了传统HTML节点选择器在处理非标准HTML结构数据时的局限性，为Web Scraping提供了更广阔的可能性。

以上就是R语言Web Scraping：高效提取HTML中内嵌的JSON数据的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1580400.html

html js json node 工具

赞 (0)

打赏微信扫一扫支付宝扫一扫

0 0

生成海报

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

构建响应式多列布局：利用浮动和媒体查询实现自适应设计
上一篇 2025年12月22日 21:26:25

解决移动端下拉菜单双击跳转延迟问题
下一篇 2025年12月22日 21:26:41

相关推荐

 好文分享

学会从头开始学习CSS，掌握制作基本网页框架的技巧

从零开始学习CSS，掌握网页基本框架制作技巧前言：在现今互联网时代，网页设计和开发是一个非常重要的技能。而学习CSS（层叠样式表）是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局，还可以为用户呈现独特且具有吸引力的页面效果。在本文中，我将为您介绍一些基本的CSS知识，以及一些常用的代…

程序猿
2025年12月24日
4000

好文分享

揭秘Web标准涵盖的语言：了解网页开发必备的语言范围

在当今数字时代，互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位，网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术，离不开一些必备的语言。本文将揭秘Web标准涵盖的语言，让我们一起了解网页开发所需的语言范围。首先，HTML（HyperText Markup La…

程序猿
2025年12月24日
1000

好文分享

揭开Web开发的语言之谜：了解构建网页所需的语言有哪些？

Web标准中的语言大揭秘：掌握网页开发所需的语言有哪些？随着互联网的快速发展，网页开发已经成为人们重要的职业之一。而要成为一名优秀的网页开发者，掌握网页开发所需的语言是必不可少的。本文将为大家揭示Web标准中的语言大揭秘，介绍网页开发所需的主要语言。 HTML（超文本标记语言）HTML是网页开发的…

程序猿
2025年12月24日
5000

好文分享

常用的网页开发语言：了解Web标准的要点

了解Web标准的语言要点：常见的哪些语言应用在网页开发中？随着互联网的不断发展，网页已经成为人们获取信息和交流的重要途径。而要实现一个高质量、易用的网页，离不开一种被广泛接受的Web标准。Web标准的制定和应用，涉及到多种语言和技术，本文将介绍常见的几种语言在网页开发中的应用。首先，HTML（H…

程序猿
2025年12月24日
1000

好文分享

网页开发中常见的Web标准语言有哪些？

探索Web标准语言的世界：网页开发中常用的语言有哪些？在现代社会中，互联网的普及程度越来越高，网页已成为人们获取资讯、娱乐、交流的重要途径。而网页的开发离不开各种编程语言的应用和支持。在这个虚拟世界的网络，有许多被广泛应用的标准化语言，用于为用户提供优质的网页体验。本文将探索网页开发中常用的语言，…

程序猿
2025年12月24日
1000

好文分享

深入探究Web标准语言的范围，涵盖了哪些语言？

Web标准是指互联网上的各个网页所需遵循的一系列规范，确保网页在不同的浏览器和设备上能够正确地显示和运行。这些标准包括HTML、CSS和JavaScript等语言。本文将深入解析Web标准涵盖的语言范围。首先，HTML（HyperText Markup Language）是构建网页的基础语言。它使…

程序猿
2025年12月24日
1000

好文分享

深入理解CSS框架与JS之间的关系

深入理解CSS框架与JS之间的关系在现代web开发中，CSS框架和JavaScript (JS) 是两个常用的工具。CSS框架通过提供一系列样式和布局选项，可以帮助我们快速构建美观的网页。而JS则提供了一套功能强大的脚本语言，可以为网页添加交互和动态效果。本文将深入探讨CSS框架和JS之间的关系，…

程序猿
2025年12月24日
2000

好文分享

CSS 超链接属性解析：text-decoration 和 color

CSS 超链接属性解析：text-decoration 和 color 超链接是网页中常用的元素之一，它能够在不同页面之间建立连接。为了使超链接在页面中有明显的标识和吸引力，CSS 提供了一些属性来调整超链接的样式。本文将重点介绍 text-decoration 和 color 这两个与超链接相关的…

程序猿
2025年12月24日
1000

看看这些前端面试题，带你搞定高频知识点（一）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：给定一个元素，如何实现水平垂直居中？…

程序猿
2025年12月24日 • 好文分享
5000

看看这些前端面试题，带你搞定高频知识点（二）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：页面导入样式时，使用 link 和 …

程序猿
2025年12月24日 • 好文分享
3000

看看这些前端面试题，带你搞定高频知识点（三）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：清除浮动有哪些方式？我：呃~，浮动…

程序猿
2025年12月24日 • 好文分享
1000

看看这些前端面试题，带你搞定高频知识点（四）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：请你谈一下自适应(适配)的方案我：…

程序猿
2025年12月24日 • 好文分享
0000

看看这些前端面试题，带你搞定高频知识点（五）

每天10道题，100天后，搞定所有前端面试的高频知识点，加油！！！，在看文章的同时，希望不要直接看答案，先思考一下自己会不会，如果会，自己的答案是什么？想过之后再与答案比对，是不是会更好一点，当然如果你有比我更好的答案，欢迎评论区留言，一起探讨技术之美。面试官：css 如何实现左侧固定 300px…

程序猿
2025年12月24日 • 好文分享
1000

HTML+CSS+JS实现雪花飘扬（代码分享）

使用html+css+js如何实现下雪特效？下面本篇文章给大家分享一个html+css+js实现雪花飘扬的示例，希望对大家有所帮助。很多南方的小伙伴可能没怎么见过或者从来没见过下雪，今天我给大家带来一个小Demo，模拟了下雪场景，首先让我们看一下运行效果可以点击看看在线运行：http://hai…

程序猿
2025年12月24日 • 好文分享
6000

分享20个首页流行布局样式，总有一款适合你！

本篇文章给大家分享20个首页流行布局样式，总有一款适合你，快来收藏试试吧，希望对大家有所帮助！有时我们会在网站上遇到一些内容布局问题，如文字对齐、图片设计与内容和谐、为文章选择合适的字体……在今天的文章中，介绍一些设计精美的创意布局，let‘s 开始。代号 001 源码…

程序猿
2025年12月24日 • 好文分享
0000

css如何让div悬浮于另一个div上

让div悬浮于另一个div上的方法：1、给两个div元素添加“position:absolute”绝对定位样式；2、给其中一个div元素添加“{top:距离页面顶部距离;left:距离页面左侧距离;}”样式使其浮动在另一个div元素上即可。本教程操作环境：windows7系统、CSS3&&…

程序猿
2025年12月24日 • 好文分享
0000

好文分享

css怎样实现字母不到一行就换行

css字母不到一行就换行的方法：1、给元素添加“word-break:break-word;”样式，使其以单词为单位换行；2、给元素添加“word-break:break-all;”样式，使其以字母为单位换行。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell…

程序猿
2025年12月24日
0000

好文分享

css里怎样设置字体大小和字体颜色

在css中，可以使用“font-size”和color属性设置字体大小和字体颜色，只需要给字体元素添加“{font-size: 字体大小值;color: 颜色值;}”样式即可。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell G3电脑。 css里设置字体大小…

程序猿
2025年12月24日
0000

好文分享

css边框变圆角边框怎么写

写法：1、给边框添加“border-radius:圆角值;”样式统一设置圆角大小；2、添加“border-top-left-radius:圆角值;”、“border-top-right-radius:圆角值;”等样式分别设置四角圆角大小。本教程操作环境：windows7系统、CSS3&&a…

程序猿
2025年12月24日
0000

css如何使鼠标悬停变色

在css中，可以通过hover选择器和color属性实现鼠标悬停变色的效果，hover选择器用于选择鼠标指针浮动在上面的元素，color属性用于设置悬停时的颜色；语法“:hover{color:悬停颜色;}”。本教程操作环境：windows7系统、CSS3&&HTML5版、Dell…

程序猿
2025年12月24日 • 好文分享
0000

发表回复
请登录后评论...
登录后才能评论