如何在Linux系统中利用node.js提取Word及PDF文本内容的案例介绍

这篇文章主要给大家介绍了关于linux系统利用node.js提取word(doc/docx)及pdf文本的内容,文中给出了详细的示例代码供大家参考学习,需要的朋友们下面跟着小编来一起看看吧。

前言

想要做全文搜索引擎,则需要将word/pdf等文档内容提取出来。对于pdf有xpdf等一些开源方案。

但Word文档的情况则会复杂一些。

提取PDF文本内容

XPDF是一个免费开源的软件,用于显示PDF文件,并可将pdf转换成文字图片等,同样支持Windows版。在Debian Linux上安装非常简单:

apt-get install xpdf

我们这里只使用pdftotext这个功能,直接输入可查看帮助:

root@raspberrypi:/var/www# pdftotextpdftotext version 0.26.5Copyright 2005-2014 The Poppler Developers - http://poppler.freedesktop.orgCopyright 1996-2011 Glyph & Cog, LLCUsage: pdftotext [options]  [] -f    : first page to convert -l    : last page to convert -r    : resolution, in DPI (default is 72) -x    : x-coordinate of the crop area top left corner -y    : y-coordinate of the crop area top left corner -W    : width of crop area in pixels (default is 0) -H    : height of crop area in pixels (default is 0) -layout   : maintain original physical layout -fixed   : assume fixed-pitch (or tabular) text -raw    : keep strings in content stream order -htmlmeta   : generate a simple HTML file, including the meta information -enc   : output text encoding name -listenc   : list available encodings -eol   : output end-of-line convention (unix, dos, or mac) -nopgbrk   : don't insert page breaks between pages -bbox    : output bounding box for each word and page size to html. Sets -htmlmeta -opw   : owner password (for encrypted files) -upw   : user password (for encrypted files) -q    : don't print any messages or errors -v    : print copyright and version info -h    : print usage information -help    : print usage information --help   : print usage information -?    : print usage information

测试一下:

root@raspberrypi:/var/www# pdftotext onceai.pdf onceai.txtroot@raspberrypi:/var/www# cat onceai.txt 产品介绍 顽石智能科技(上海)有限公司....

然后在node.js中使用 child_process直接调用此命令即可,pdftotext会将内容输出以文本文件中,可能需要多一些操作。具体代码略。

用antiword提取 .doc 的内容

我们这里使用了 antiword 开源软件,来提取word2003以前版本的内容,安装同样非常简单:

apt-get install antiword

查看帮助:

root@raspberrypi:/var/www# antiword Name: antiword Purpose: Display MS-Word files Author: (C) 1998-2005 Adri van Os Version: 0.37 (21 Oct 2005) Status: GNU General Public License Usage: antiword [switches] wordfile1 [wordfile2 ...] Switches: [-f|-t|-a papersize|-p papersize|-x dtd][-m mapping][-w #][-i #][-Ls]  -f formatted text output  -t text output (default)  -a  Adobe PDF output  -p  PostScript output   paper size like: a4, letter or legal  -x  XML output   like: db (DocBook)  -m  character mapping file  -w  in characters of text output  -i  image level (PostScript only)  -L use landscape mode (PostScript only)  -r Show removed text  -s Show hidden (by Word) text

antiword直接将word内容输出到了console中:

root@raspberrypi:/var/www# antiword spec.docSYNC Mobile – Ford APAProject Number: DFYSTRequirements Specification

同样在node.js用child_process调用此命令即可。

解析提取.docx 的内容

对于 docx 文档来说,因基本身就是一个zip文件,只需要在node.js先将其解压,再解析 text.docx\word\document.xml 文件即可。

总结

以上就是如何在Linux系统中利用node.js提取Word及PDF文本内容的案例介绍的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/190682.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月1日 13:00:31
下一篇 2025年11月1日 13:01:39

相关推荐

  • 异步加载:优化PHP页面性能,先显示部分内容再加载耗时函数结果

    第一段引用上面的摘要: 本文旨在解决PHP页面中耗时函数阻塞页面渲染的问题。通过采用客户端异步加载技术(如AJAX),实现在页面初始加载时先显示主要内容,然后通过异步请求获取耗时函数的结果,并动态插入到页面中,从而显著提升用户体验。 当PHP脚本执行时,服务器会按照代码顺序执行,并将最终结果发送给客…

    2025年12月11日
    000
  • 异步加载:先显示页面主体,再插入耗时函数结果

    本文介绍了一种使用客户端渲染(如 AJAX)解决 PHP 页面中耗时函数导致页面加载缓慢的问题。通过将耗时函数的执行放在客户端,可以先快速显示页面的主体内容,然后异步加载耗时函数的结果,从而提升用户体验。本文将详细讲解如何使用 AJAX 实现这一目标,并提供示例代码供参考。 PHP 是一种服务器端语…

    2025年12月11日 好文分享
    000
  • 优化页面加载速度:先显示部分内容,再异步加载耗时函数结果

    摘要 本文将探讨如何优化网页加载体验,特别是在页面包含需要较长时间执行的函数时。我们将介绍一种利用 AJAX 技术,先快速呈现页面的主要内容,然后异步加载耗时函数结果的方法,有效提升用户感知速度和整体用户体验。这种策略避免了用户长时间的空白等待,使页面交互更加流畅。 正文 传统的 PHP 页面渲染方…

    2025年12月11日 好文分享
    000
  • PHP怎么调试代码_PHP代码调试环境配置教程

    答案:PHP调试核心是配置Xdebug并与IDE集成,辅以日志和变量打印。需正确安装Xdebug,修改php.ini设置xdebug.mode=debug等参数,重启服务后在VS Code或PhpStorm中监听端口,配合浏览器插件实现断点调试;常见问题包括配置路径错误、版本不兼容、端口冲突等,可通…

    2025年12月11日
    000
  • PHP如何将对象转换为数组_PHP对象与数组之间的类型转换方法

    对象转数组可用(array)、json_encode/json_decode或get_object_vars,分别处理不同属性可见性;数组转对象可用(object)或json_encode/json_decode,自定义类需构造函数或工厂方法。 PHP中将对象转换为数组,或将数组转换为对象,这在数据…

    2025年12月11日
    000
  • PHP怎么安装GD库_PHP图像处理库安装方法

    GD库是PHP图像处理的核心扩展。安装需在php.ini中启用extension=gd,Linux系统通过apt或yum安装php-gd后重启服务器,macOS通常自带但需手动启用。验证方法为使用phpinfo()查看GD信息或运行图像创建脚本。常见函数包括imagecreate、imagecolo…

    2025年12月11日
    000
  • PHP代码注入检测人工智能应用_人工智能在代码注入检测中的应用

    AI通过静态分析、动态污点追踪、智能模糊测试和运行时监控提升PHP代码注入检测精度,有效识别SQL注入、命令注入、XSS等漏洞,结合CodeBERT、LSTM、强化学习等技术优化检测模型,并以准确率、召回率、误报率和F1-score等指标评估效果,但面临数据集不足、对抗攻击和可解释性差等挑战,未来将…

    2025年12月11日
    000
  • Laravel 中表单提交后如何保持下拉列表的选中状态

    本文旨在解决 Laravel 应用中表单提交后下拉列表(select)重置的问题。通过利用 Laravel 提供的 request 对象和旧输入值功能,我们能够轻松地在页面刷新后保持用户在下拉列表中选择的选项,从而提升用户体验。本文将详细介绍如何在视图中正确地处理下拉列表的选中状态,并提供相应的代码…

    2025年12月11日
    000
  • PHP如何安全地执行系统命令_PHP系统命令安全执行函数

    安全执行PHP系统命令需严格验证输入、使用escapeshellarg()转义参数、优先选用proc_open实现精细控制,并结合最小权限原则与系统配置(如禁用高危函数、设置open_basedir、低权限运行服务)构建纵深防御体系。 在PHP中安全地执行系统命令,核心在于严格的输入验证、正确使用参…

    2025年12月11日
    000
  • Laravel 中下拉列表选择后重置问题的解决

    本文旨在解决 Laravel 应用中下拉列表在提交后重置的问题。通过利用 Laravel 的请求对象,我们将演示如何在页面刷新后保持用户在下拉列表中选择的选项,从而提升用户体验。文章将提供详细的代码示例和解释,帮助开发者轻松实现该功能。 在 Laravel 应用中,经常会遇到需要在表单提交后保持用户…

    2025年12月11日
    000
  • PHP如何验证电子邮件地址格式_PHP校验电子邮件地址有效性的方法

    答案:PHP验证电子邮件需结合格式校验与安全性处理。首先使用filter_var()或正则检查基本格式,再通过dns_get_record()验证域名MX记录以确认存在性;为防安全漏洞,应转义输入特殊字符并用预处理语句防止SQL注入;提升体验可实现实时验证与清晰错误提示;对含非ASCII字符的国际化…

    2025年12月11日 好文分享
    000
  • php如何将数据写入文件?php文件写入操作教程

    答案:PHP写入文件需使用fopen()、fwrite()、fclose()函数,注意权限、模式选择及错误处理。通过flock()避免并发问题,优化性能可合并写入、用缓冲、异步处理等。 PHP将数据写入文件,核心在于使用文件操作函数,例如 fopen() 、 fwrite() 、 fclose() …

    2025年12月11日
    000
  • php如何实现页面跳转?php页面重定向的几种实现方式

    PHP页面跳转推荐使用header()函数,因其基于HTTP协议的Location头部实现服务器端重定向,效率高、SEO友好且控制力强。通过header(‘Location: URL’, true, 状态码)可指定301(永久)、302(临时)或303等状态码,精准影响搜索引…

    2025年12月11日
    000
  • PHP怎么获取文件大小_PHP获取文件大小并格式化显示

    PHP中获取文件大小需使用filesize()函数,返回字节数,结合formatBytes函数可转换为KB、MB等易读单位。该函数通过log计算数量级,支持精度控制与单位扩展,适用于本地文件但不支持远程URL。需注意权限、文件存在性及32位系统对大文件的限制。实际应用中常用于上传校验,需前后端协同判…

    2025年12月11日
    000
  • 解决AJAX中FormData与额外数据传递难题

    本文旨在解决在使用jQuery AJAX结合FormData进行文件上传时,如何正确地传递额外变量(如ID)到服务器端的问题。我们将深入探讨常见错误及其原因,并提供一个安全高效的解决方案,即通过FormData.append()方法将所有数据统一封装,确保服务器能够正确接收。此外,文章还将强调并提供…

    2025年12月11日
    100
  • 使用 AJAX 上传文件时传递额外数据的方法

    本文档详细介绍了在使用 AJAX 上传文件时,如何正确地将额外数据(如ID)传递到服务器端。重点讲解了 FormData 对象的使用,以及如何避免常见的错误配置,并提供代码示例。同时,本文也强调了服务器端代码安全性,特别是防止 SQL 注入攻击的重要性,并给出了相关的安全建议和资源链接。 通过 Fo…

    2025年12月11日
    000
  • 深入理解 WooCommerce 预订商品程序化加入购物车失败的问题

    本文探讨了在 WooCommerce 中通过代码程序化添加预订商品至购物车的复杂性与常见失败模式。尽管能够成功创建预订数据记录,但直接调用购物车相关函数或模拟用户行为均遭遇瓶颈,揭示了 WooCommerce 预订系统与购物车集成机制的深层挑战,并分析了现有尝试为何未能提供稳定可靠的解决方案。 在开…

    2025年12月11日
    000
  • PHP如何防止SQL注入_PHP防范SQL注入攻击的核心策略

    防范SQL注入的核心是预处理语句,它通过将SQL逻辑与数据分离,确保用户输入始终作为数据处理;结合参数绑定,使用PDO或MySQLi扩展可有效阻止恶意SQL执行,从根本上避免注入风险。 PHP防范SQL注入的核心策略,毫无疑问是采用预处理语句(Prepared Statements)配合参数绑定(P…

    2025年12月11日
    000
  • PHP姓名格式化:提取首名与姓氏首字母的实用指南

    本文旨在提供一个PHP解决方案,用于将完整姓名格式化为“首名. 姓氏首字母.”的形式,例如将“Mike Jones”转换为“Mike. J.”。文章将详细解释如何利用explode、reset、end和mb_substr等函数,高效且准确地实现这一需求,并讨论多部分姓名及单名情况的处理策略。 理解姓…

    2025年12月11日
    000
  • PHP exec()调用FFMPEG:生产环境失效疑难排查与解决方案

    本文深入探讨了PHP中通过exec()函数调用FFMPEG命令时,在本地环境正常运行但在生产环境失效的常见问题。核心症结往往不在于FFMPEG的路径或文件权限,而是命令字符串的复杂拼接与引用解析错误。教程将指导读者如何排查此类问题,并通过简化命令、精确调试和安全实践来确保FFMPEG命令在生产环境的…

    2025年12月11日
    000

发表回复

登录后才能评论
关注微信