使用 R 提取新闻文章中的有效文本

使用 r 提取新闻文章中的有效文本

本文介绍如何使用 R 语言提取网页中的有效文本内容,去除无关的 HTML 标签、特殊字符和非文本信息。通过结合 `htm2txt`、`quanteda` 和 `qdapDictionaries` 等 R 包,实现从网页抓取文本并过滤掉非英文单词,从而获得更干净、更易于分析的文章内容。

在进行文本分析、自然语言处理或信息检索等任务时,经常需要从网页中提取文本数据。然而,直接从 HTML 页面提取的文本往往包含大量的噪音,例如 HTML 标签、JavaScript 代码、CSS 样式以及各种特殊字符。这些噪音会严重影响后续分析的准确性和效率。本文将介绍一种使用 R 语言提取网页有效文本的方案,通过结合多个 R 包,实现网页文本的清洗和过滤。

方案概述

该方案的核心思路是:

使用 htm2txt 包提取网页的纯文本内容。 htm2txt 包可以将 HTML 页面转换为纯文本,去除大部分 HTML 标签。使用 quanteda 包进行文本预处理。 quanteda 包提供了强大的文本处理功能,可以进行分词、去除标点符号、去除数字等操作。使用 qdapDictionaries 包过滤非英文单词。 qdapDictionaries 包包含一个常用的英文单词字典,可以用于过滤掉文本中不是英文单词的内容。

详细步骤

以下是详细的代码示例,展示了如何使用 R 语言提取网页中的有效文本:

library(tidyverse)library(htm2txt)library(quanteda)library(qdapDictionaries)data(DICTIONARY)# 定义要提取文本的 URLurl <- 'https://en.wikipedia.org/wiki/Alan_Turing'# 使用 htm2txt 包提取网页的纯文本内容text % gettxt() %>% corpus()# 使用 quanteda 包进行文本预处理text <- tokens(text, remove_punct = TRUE, remove_numbers = TRUE)# 使用 qdapDictionaries 包过滤非英文单词text <- tokens_select(text, DICTIONARY$word)# 将结果转换为数据框并统计词频text %  group_by(text1 = tolower(text)) %>%  table() %>% as.data.frame() %>%  rename(word = text1) %>%  rename(frequency = Freq)# 显示词频最高的前几项head(text)

代码解释:

library(tidyverse): 导入tidyverse包,包含dplyr, readr, ggplot2等常用数据处理和可视化工具。library(htm2txt): 导入htm2txt包,用于从HTML页面提取文本。library(quanteda): 导入quanteda包,用于文本分析和处理。library(qdapDictionaries): 导入qdapDictionaries包,包含英文单词字典。data(DICTIONARY): 加载qdapDictionaries包中的DICTIONARY数据集,包含英文单词列表。url text % gettxt() %>% corpus(): 使用gettxt()函数从URL提取文本,并使用corpus()函数创建quanteda语料库对象。text text word): 使用tokens_select()函数,根据DICTIONARY中的单词列表,选择只包含英文单词的token。text head(text): 显示词频最高的前几项。

注意事项

此方法依赖于 qdapDictionaries 中的英文单词字典。如果需要处理其他语言的文本,需要使用相应的字典。即使使用了字典过滤,仍然可能存在一些非文章内容的单词,例如导航栏中的单词。需要根据实际情况进行进一步的过滤。该方法仅适用于包含英文单词的网页。对于其他语言的网页,需要使用相应的词典进行过滤。对于结构复杂的网页,可能需要使用更高级的 HTML 解析技术,例如使用 rvest 包选择特定的 HTML 节点进行提取。

总结

本文介绍了一种使用 R 语言提取网页有效文本的方案。该方案通过结合 htm2txt、quanteda 和 qdapDictionaries 等 R 包,实现了从网页抓取文本并过滤掉非英文单词,从而获得更干净、更易于分析的文章内容。这种方法可以应用于各种文本分析任务,例如情感分析、主题建模和关键词提取等。在实际应用中,可以根据具体需求对代码进行修改和优化,以获得更好的效果。

以上就是使用 R 提取新闻文章中的有效文本的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1591293.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月23日 06:42:12
下一篇 2025年12月23日 06:42:28

相关推荐

  • html如何放大表格_HTML表格(table)放大(缩放/CSS)方法

    最常用方法是通过CSS调整表格尺寸和缩放效果。1. 增大width、font-size和padding可提升可读性;2. 使用transform: scale()实现整体放大,需设置transform-origin避免偏移;3. 响应式场景推荐用rem、em等相对单位适配不同设备,保证布局稳定与视觉…

    好文分享 2025年12月23日
    000
  • 如何在网页上实现联系人添加到手机通讯录功能

    本文深入探讨了从网页直接将联系人信息添加到Android/iOS手机通讯录的挑战与限制。尽管深度链接能打开原生应用,但出于安全和隐私考量,网页无法直接调用原生API写入联系人数据。文章将提供一种可行的替代方案:通过vCard文件下载实现联系人信息的导入,并详细介绍其实现方法和注意事项。 网页直接添加…

    2025年12月23日
    000
  • 打造带预览效果的超链接:CSS悬停技巧

    本文将指导你如何使用CSS为超链接添加预览效果,类似于在社交媒体上分享链接时自动出现的预览卡片。通过CSS的`hover`伪类和`display`属性,我们可以实现当鼠标悬停在链接上时,显示一个包含页面预览信息的隐藏区域。 为网页上的链接添加预览功能可以显著提升用户体验,让用户在点击链接之前就能大致…

    2025年12月23日
    000
  • Vue.js 路由与组件交互:常见问题诊断与解决方案

    本文旨在解决vue.js项目中`router-link`不生效、路由配置错误及组件数据获取与渲染不当等常见问题。通过详细解析vue router的正确配置、`router-view`的使用,以及组件内数据异步获取、状态管理与模板绑定的优化,帮助开发者构建功能完善、交互流畅的单页应用。 在Vue.js…

    2025年12月23日
    000
  • 如何优雅地结束加载动画并切换到下一个页面

    本文档将指导你如何使用 HTML、CSS 和 JavaScript 创建一个页面加载动画,并在页面完全加载后平滑地隐藏该动画,从而实现无缝的用户体验。我们将提供完整的代码示例,并解释如何根据你的需求调整加载动画的持续时间和样式。通过本文学习,你将能够为你的网站添加专业的加载效果,提升用户满意度。 创…

    2025年12月23日
    000
  • CSS布局技巧:图片与多行文本的优雅垂直对齐

    本教程详细探讨了如何利用css flexbox模型实现图片与多行文本的垂直居中对齐。文章首先指出传统vertical-align属性在处理多行文本时的局限性,随后深入讲解了flexbox中display: flex、align-items: center以及gap属性的组合应用,并强调通过调整文本的…

    2025年12月23日 好文分享
    000
  • EJS中渲染CKEditor生成HTML内容的正确方法及注意事项

    在使用ejs模板引擎渲染由ckeditor等富文本编辑器生成的html内容时,常遇到内容显示为原始html字符串而非渲染后样式的问题。本文将详细解释ejs默认的html转义机制,并提供正确的解决方案,即使用“语法进行内容输出,同时强调在处理用户生成html时必须注意的安全风险及相应的防范…

    2025年12月23日
    000
  • 解决CSS按钮滑动背景覆盖文本问题:确保::after伪元素与文本层级

    本文详细介绍了在使用css `::after` 伪元素为按钮创建滑动背景效果时,文本被背景覆盖的常见问题及其解决方案。核心方法是通过在按钮内部包裹文本,并为该文本元素设置 `position: relative` 和 `z-index: 1`,从而确保文本始终显示在动态背景之上,实现预期的视觉效果。…

    2025年12月23日
    000
  • 使用React实现滚动时动态改变导航栏背景色

    本教程详细介绍了如何在react应用中实现导航栏背景色随页面滚动动态变化的功能。通过利用react的`usestate`和`useeffect` hook,结合javascript的`scroll`事件监听,我们能够根据用户的滚动位置,动态地为导航栏添加或移除css类,从而实现视觉上的平滑过渡效果。…

    2025年12月23日
    000
  • 创建一个带有平滑动画效果的全屏弹出窗口教程

    本教程详细指导如何使用html、css和javascript构建一个具有平滑过渡动画的全屏覆盖弹出窗口。我们将探讨如何利用css的`position`、`transform`和`transition`属性来创建弹出层和内容区域的渐入渐出效果,并通过javascript控制其显示与隐藏,实现专业级的用…

    2025年12月23日
    000
  • 正确连接HTML按钮与JavaScript函数:onclick事件的规范使用

    本文深入探讨了html按钮与javascript函数交互中常见的`onclick`事件绑定问题。重点介绍了`onclick`属性的正确拼写(小写)、函数调用时必须包含括号`()`,以及属性值应使用双引号。通过示例代码,我们展示了如何规范地绑定事件,并推荐使用`addeventlistener`实现更…

    2025年12月23日
    000
  • 从网页保存联系人到手机通讯录:深度链接与API限制分析

    本文深入探讨了通过网页html按钮将联系人信息保存到android/ios手机通讯录的实现途径。研究表明,由于移动操作系统的安全和隐私策略限制,目前尚无直接的深度链接或跨平台web api能够实现从网页自动填充并保存联系人至原生通讯录的功能。文章将详细分析现有技术局限性,并提供替代方案与最佳实践。 …

    2025年12月23日
    000
  • 动态生成:将下拉选择值输出到指定HTML表格结构

    本教程详细阐述了如何利用javascript将html下拉菜单(“)中选定选项的复合值动态解析并呈现在预定义的html表格结构中。我们将学习如何捕获选择事件、解析管道分隔的字符串数据,并使用模板字面量高效地更新表格行内容,确保数据实时准确地展示。 在现代Web应用中,根据用户的交互动态更…

    2025年12月23日
    000
  • Just-validate表单验证后提交失败的解决方案

    本文深入探讨了在使用Just-validate库进行表单验证后,表单提交功能失效的常见问题。核心原因通常是JavaScript中获取表单元素ID与HTML中实际ID不匹配。教程将通过具体示例,指导开发者识别并修正此类错误,确保验证成功后表单能正确提交,从而优化用户体验和数据流。 Just-valid…

    好文分享 2025年12月23日
    000
  • jQuery closest()与属性选择器:精准定位并操作父元素

    本文深入探讨如何利用 jquery 的 `closest()` 方法结合 css 属性选择器,高效且精准地定位并操作(例如隐藏)dom 树中特定子元素的父级元素。通过具体代码示例,详细阐述了这两种技术的协同作用,旨在帮助开发者实现更灵活、强大的前端交互逻辑,避免常见误区,提升代码质量和可维护性。 理…

    2025年12月23日
    000
  • 解决JavaScript图片查看器循环显示首张图片异常问题

    本教程详细解析javascript图片查看器在循环播放图片时,首张图片可能出现重复显示或需要额外点击才能正确切换的问题。文章通过分析常见的错误实现,提供了一种简洁高效的索引管理策略,确保图片按预期顺序无缝循环,提升用户体验,并给出完整的代码示例及最佳实践建议。 构建健壮的图片查看器:解决循环切换中的…

    2025年12月23日
    000
  • MongoDB中通过子文档ID从数组删除对象的教程

    本教程详细介绍了如何在%ignore_a_1%中,利用mongoose框架从父文档的数组字段中删除特定的子文档。我们将探讨mongodb的`$pull`操作符,并提供完整的服务器端(node.js/express)和客户端(ejs)代码示例,指导你如何通过子文档的`_id`高效地移除数组中的元素,确…

    2025年12月23日
    000
  • HTML pattern 属性:强制输入符合特定格式的文本

    本文旨在讲解 HTML `pattern` 属性的使用,特别是如何利用它来强制用户输入符合特定格式的文本,例如只允许输入字母,并限制长度。我们将通过示例代码,详细说明 `pattern` 属性的语法和应用,并提供一些注意事项,帮助开发者更好地利用该属性提升用户体验。 HTML5 引入的 patter…

    2025年12月23日
    000
  • 在Angular/Ionic应用中高效计算Observable数据流的列表总计

    本教程详细阐述了如何在angular/ionic应用中,从observable数据源(如sqlite数据库)获取并显示项目列表后,计算并展示所有项目的总计。文章涵盖了typescript中处理observable数据流、使用reduce方法进行累加,以及在html模板中安全、高效地展示总计的最佳实践…

    2025年12月23日
    000
  • 从嵌入式页面控制父页面:window.parent 的应用与注意事项

    本文深入探讨了嵌入式网页如何与主页面进行交互。通过访问 `window.parent` 属性,嵌入页面能够获取并操作父文档的 `window` 对象,从而执行如修改父页面dom内容、调用函数等操作。文章将详细介绍这一机制,提供代码示例,并强调在实际应用中同源策略下的安全考量。 当一个网页通过 理解 …

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信