部署与调度Node.js爬虫：从本地执行到云端集成

程序猿 • 2025年12月23日 12:34:43 • 好文分享 • 阅读 0

本教程详细指导如何部署和调度一个基于node.js的网页爬虫，使其能够每日自动运行并将其数据提供给前端应用。文章将区分客户端与服务器端javascript的运行环境，介绍本地任务调度方法，并探讨将爬虫集成到在线服务以实现数据共享的策略，同时涵盖数据持久化、cors处理及部署最佳实践。

1. 理解Node.js爬虫的运行环境

首先，我们需要明确一点：您所编写的爬虫代码（使用 puppeteer 和 fs 模块）是一个基于Node.js环境运行的服务器端脚本，而非在浏览器中执行的客户端JavaScript。

客户端JavaScript：在用户的浏览器中运行，主要负责页面交互、DOM操作等，无法直接访问本地文件系统或执行外部程序。服务器端Node.js：在服务器或本地计算机上运行，可以执行文件I/O操作（如 fs.writeFile），启动无头浏览器（如 puppeteer），处理网络请求等。

因此，要让您的 index.js 每日自动运行，并使其生成的数据可供前端页面访问，需要采取与部署静态网站不同的策略。

以下是您提供的Node.js爬虫代码示例：

const puppeteer = require('puppeteer');const fs = require('fs');// 爬取第一个数据源(async () => {  const browser = await puppeteer.launch();  const page = await browser.newPage();  await page.goto('https://br.advfn.com/investimentos/futuros/di-depositos-interfinanceiros/cotacoes',{    waitUntil: 'load',    timeout: 0  });  const textNode = await page.evaluate(()=>{    const nodeText = document.querySelector(".even.first").innerText;    const text = [nodeText];    return text  });  fs.writeFile('arreglo2.json', JSON.stringify(textNode), err =>{    if (err) throw new Error ('algo deu errado')      console.log('arreglo2.json saved successfully')  })  await browser.close(); // 关闭浏览器实例})();// 爬取第二个数据源(async () => {  const browser = await puppeteer.launch();  const page = await browser.newPage();  await page.goto('https://br.tradingview.com/symbols/TVC-DXY/',{    waitUntil: 'load',    timeout: 0  });  const textNode = await page.evaluate(()=>{    const nodeText = document.querySelector(".js-quote-ticker.tv-site-table__row.tv-widget-watch-list__row:nth-child(2)").children[1].children[1].children[0].innerHTML;    const text = [nodeText];    return text  });  fs.writeFile('arreglo.json', JSON.stringify(textNode), err =>{    if (err) throw new Error ('algo deu errado')      console.log('arreglo.json saved successfully')  })  await browser.close(); // 关闭浏览器实例})();// 爬取第三个数据源(async () => {  const browser = await puppeteer.launch();  const page = await browser.newPage();  await page.goto('https://br.advfn.com/bolsa-de-valores/fx/USDBRL/cotacao',{    waitUntil: 'load',    timeout: 0  });  const textNode = await page.evaluate(()=>{    const nodeText = document.querySelector(".qs-current-price").innerText;    const text = [nodeText];    return text  });  fs.writeFile('cotacaoFechamento.json', JSON.stringify(textNode), err =>{    if (err) throw new Error ('algo deu errado')      console.log('cotacaoFechamento.json saved successfully')  })  await browser.close(); // 关闭浏览器实例})();

请注意，为了避免资源泄露，在每个 puppeteer 实例使用完毕后，都应调用 await browser.close(); 关闭浏览器。

2. 本地调度方案：Windows任务计划程序

如果您希望爬虫在自己的Windows电脑上每日定时运行，最直接的方法是使用Windows任务计划程序（Task Scheduler）。

操作步骤：

打开任务计划程序： 在Windows搜索栏输入“任务计划程序”并打开。创建基本任务： 在右侧“操作”面板中选择“创建基本任务…”。任务命名与描述：名称： 例如 “每日爬虫任务”。描述： 简要说明任务用途。配置触发器：选择“每天”。设置起始日期和时间，例如每日“上午 8:00:00”。点击“下一步”。定义操作：选择“启动程序”。程序或脚本： 填写您的Node.js安装路径中的 node.exe。通常在 C:Program Filesnodejsnode.exe 或您自定义的安装路径。添加参数(可选)： 填写您的爬虫脚本路径，例如 C:UsersYourUserpathtoyourprojectindex.js。请确保使用完整路径。起始于(可选)： 填写您的爬虫脚本所在目录的路径，例如 C:UsersYourUserpathtoyourproject。这对于脚本中涉及相对路径的文件操作很重要。点击“下一步”。完成： 检查任务摘要，确认无误后点击“完成”。

现在，您的Node.js爬虫将在每天上午8点自动运行，并将数据保存到指定的JSON文件中。

3. 将爬虫数据集成到前端应用

爬虫在本地运行并生成JSON文件后，如何让您的静态HTML页面访问这些数据呢？这涉及到将数据“服务”出去。

3.1 本地开发环境的CORS问题

您提到在 C:// 目录下运行爬虫时遇到CORS错误，而在XAMPP环境下则正常。这是因为：

本地文件协议 (file://)：当您直接在浏览器中打开HTML文件时，它使用 file:// 协议。出于安全考虑，浏览器严格限制 file:// 页面通过 XMLHttpRequest 或 fetch API 访问其他本地文件（即使是同一目录下的文件）。这被视为跨域请求，因此会触发CORS错误。HTTP服务器 (XAMPP)：XAMPP提供了一个本地HTTP服务器。当您通过 http://localhost/your_project/index.html 访问页面时，它运行在 http:// 协议下。在这种情况下，HTML页面可以自由地请求同一域（localhost）下的其他资源（包括爬虫生成的JSON文件），因为它们不再是跨域请求。

因此，要让前端页面访问爬虫生成的数据，您需要一个HTTP服务器来提供这些JSON文件。

3.2 部署策略

a. 简单的Node.js HTTP服务器

您可以编写一个简单的Node.js服务器来提供爬虫生成的JSON文件。

创建 server.js 文件： 在您的项目根目录创建一个 server.js 文件。

const http = require('http');const fs = require('fs');const path = require('path');const hostname = '127.0.0.1'; // 或 '0.0.0.0' 允许外部访问const port = 3000;const dataDir = __dirname; // 假设JSON文件与server.js在同一目录const server = http.createServer((req, res) => {  // 允许跨域请求，重要！  res.setHeader('Access-Control-Allow-Origin', '*'); // 生产环境请指定具体域名  res.setHeader('Access-Control-Allow-Methods', 'GET, POST, OPTIONS, PUT, PATCH, DELETE');  res.setHeader('Access-Control-Allow-Headers', 'X-Requested-With,content-type');  res.setHeader('Access-Control-Allow-Credentials', true);  // 处理OPTIONS请求（CORS预检请求）  if (req.method === 'OPTIONS') {    res.writeHead(204);    res.end();    return;  }  if (req.url === '/data/arreglo2.json') {    fs.readFile(path.join(dataDir, 'arreglo2.json'), (err, data) => {      if (err) {        res.statusCode = 404;        res.setHeader('Content-Type', 'text/plain');        res.end('File not found');        return;      }      res.statusCode = 200;      res.setHeader('Content-Type', 'application/json');      res.end(data);    });  } else if (req.url === '/data/arreglo.json') {     fs.readFile(path.join(dataDir, 'arreglo.json'), (err, data) => {      if (err) {        res.statusCode = 404;        res.setHeader('Content-Type', 'text/plain');        res.end('File not found');        return;      }      res.statusCode = 200;      res.setHeader('Content-Type', 'application/json');      res.end(data);    });  } else if (req.url === '/data/cotacaoFechamento.json') {     fs.readFile(path.join(dataDir, 'cotacaoFechamento.json'), (err, data) => {      if (err) {        res.statusCode = 404;        res.setHeader('Content-Type', 'text/plain');        res.end('File not found');        return;      }      res.statusCode = 200;      res.setHeader('Content-Type', 'application/json');      res.end(data);    });  } else {    res.statusCode = 404;    res.setHeader('Content-Type', 'text/plain');    res.end('Not Found');  }});server.listen(port, hostname, () => {  console.log(`Server running at http://${hostname}:${port}/`);});

运行服务器： 在终端中运行 node server.js。

前端获取数据： 您的HTML页面中的JavaScript可以通过 fetch API 请求数据：

fetch('http://127.0.0.1:3000/data/arreglo2.json')  .then(response => response.json())  .then(data => {    console.log('Fetched arreglo2.json:', data);    // 处理数据显示逻辑  })  .catch(error => console.error('Error fetching data:', error));

b. 云服务部署与调度

为了实现更稳定、可扩展的在线服务，您可以将爬虫部署到云平台。

Serverless 函数 (如AWS Lambda, Vercel Serverless Functions, Netlify Functions)：优点：按需付费，无需管理服务器，可配置定时触发器（如AWS CloudWatch Events），非常适合定时运行的短任务。挑战：puppeteer 依赖无头浏览器，部署到Serverless环境需要额外配置（如使用 chrome-aws-lambda）。文件系统通常是临时的，JSON数据需要保存到持久化存储（如AWS S3、数据库）。PaaS 平台 (如Heroku, Render, Railway)：优点：简化部署流程，支持Node.js应用，可配置定时任务（通常通过平台提供的附加组件或自定义脚本）。部署：您可以将爬虫和上述的Node.js HTTP服务器一起部署为一个应用。挑战：免费层级可能有限制，文件系统通常也是临时的，需考虑数据持久化。虚拟机/容器 (如AWS EC2, Docker, Kubernetes)：优点：完全控制运行环境，可以安装所有依赖，适用于复杂或资源密集型爬虫。部署：您可以在虚拟机上安装Node.js，并将爬虫和HTTP服务器部署上去。调度可以使用Linux的 cron 任务或Windows的任务计划程序。挑战：管理成本较高，需要一定的DevOps知识。

数据持久化考量：在云环境中，服务器的文件系统通常是临时的。这意味着每次应用重启或Serverless函数调用时，之前保存的JSON文件可能会丢失。为了确保数据持久性，您应该考虑将爬取到的数据存储到：

云存储服务：如AWS S3、Google Cloud Storage。数据库：如MongoDB、PostgreSQL、MySQL。Redis：作为缓存或临时存储。

4. 关键注意事项与最佳实践

错误处理与日志：对于自动化任务，完善的错误处理和日志记录至关重要。当爬虫失败时，您需要知道原因并及时收到通知。环境配置：使用环境变量来管理端口号、数据存储路径、API密钥等配置信息，避免硬编码。CORS策略：如果您部署了自定义的Node.js HTTP服务器，请务必正确配置 Access-Control-Allow-Origin 头，以允许您的前端域名访问数据。在生产环境中，不要使用 *，而应指定具体的前端域名。资源管理：puppeteer 启动无头浏览器会消耗大量内存和CPU。确保您的服务器或云函数有足够的资源。在每次爬取任务完成后，务必调用 browser.close() 释放资源。部署自动化：随着项目迭代，手动部署会变得繁琐。考虑使用CI/CD工具（如GitHub Actions, GitLab CI/CD）自动化代码测试、构建和部署过程。爬虫道德与法律：在进行网页爬取时，请务必遵守目标网站的 robots.txt 协议，尊重网站的使用条款，并注意数据隐私和版权问题。避免对网站造成过大负载。

总结

部署和调度一个Node.js网页爬虫需要您理解其服务器端运行的特性。对于本地运行，Windows任务计划程序是一个简单有效的调度工具。而要将数据提供给在线前端应用，您需要一个HTTP服务器来提供这些JSON文件。根据您的需求和技术栈，可以选择部署简单的Node.js HTTP服务器，或利用云平台的Serverless函数、PaaS服务等更专业的解决方案。在任何部署中，数据持久化、错误处理和CORS配置都是不可忽视的关键点。

以上就是部署与调度Node.js爬虫：从本地执行到云端集成的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1598031.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

HTML5模板标签怎么用_HTML5template标签实现内容模板的方法

上一篇 2025年12月23日 12:34:35

Ionic/Angular框架中:host CSS样式有效覆盖指南

下一篇 2025年12月23日 12:35:01

好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
0000
好文分享

配置 Tailwind CSS：初始化指南 |设置 Tailwind CSS：初始化指南

简介 |简介意大利语：本文有意大利语和英语版本。向下滚动查看英文版本。英语：本文有意大利语和英语版本。向下滚动查看英文版本。意大利语版如何开始使用 tailwind css：项目完整指南简介在项目中配置 tailwind css 第一次似乎令人畏惧，特别是对于像我这样第一次尝试这个库的人来说…

程序猿
2025年12月24日
0000
好文分享

网络进化！

Web 应用程序从静态网站到动态网页的演变是由对更具交互性、用户友好性和功能丰富的 Web 体验的需求推动的。以下是这种范式转变的概述： 1. 静态网站（1990 年代）定义：静态网站由用 HTML 编写的固定内容组成。每个页面都是预先构建并存储在服务器上，并且向每个用户传递相同的内容。技术：HT…

程序猿
2025年12月24日
0000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
0000
好文分享

如何设置独立 CLI：在 Shopify 中使用 Tailwind CSS，而不使用 Nodejs

依赖关系 Shopify CLI：一种命令行界面工具，可帮助您开发和管理 Shopify 主题。TailwindCSS：实用程序优先的 CSS 框架，用于快速构建自定义设计。设置我们使用 Tailwind 作为独立的 CLI 工具。更多信息可以参考官方指南。注意：如果您在配备 Intel 处理…

程序猿
2025年12月24日
0000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
0000
好文分享

为什么前端固定定位会发生移动问题？

前端固定定位为什么会出现移动现象？在进行前端开发时，我们经常会使用CSS中的position属性来控制元素的定位。其中，固定定位（position: fixed）是一种常用的定位方式，它可以让元素相对于浏览器窗口进行定位，保持在页面的固定位置不动。然而，有时候我们会遇到一个问题：在使用固定定位时…

程序猿
2025年12月24日
0000
好文分享

学会从头开始学习CSS，掌握制作基本网页框架的技巧

从零开始学习CSS，掌握网页基本框架制作技巧前言：在现今互联网时代，网页设计和开发是一个非常重要的技能。而学习CSS（层叠样式表）是掌握网页设计的关键之一。CSS不仅可以为网页添加样式和布局，还可以为用户呈现独特且具有吸引力的页面效果。在本文中，我将为您介绍一些基本的CSS知识，以及一些常用的代…

程序猿
2025年12月24日
2000
好文分享

从初学到专业：掌握这五种前端CSS框架

CSS是网站设计中重要的一部分，它控制着网站的外观和布局。前端开发人员为了让页面更加美观和易于使用，通常使用CSS框架。这篇文章将带领您了解这五种前端CSS框架，从入门到精通。 Bootstrap Bootstrap是最受欢迎的CSS框架之一。它由Twitter公司开发，具有可定制的响应式网格系统、…

程序猿
2025年12月24日
2000
好文分享

揭秘Web标准涵盖的语言：了解网页开发必备的语言范围

在当今数字时代，互联网成为了人们生活中不可或缺的一部分。作为互联网的基本构成单位，网页承载着我们获取和分享信息的重要任务。而网页开发作为一门独特的技术，离不开一些必备的语言。本文将揭秘Web标准涵盖的语言，让我们一起了解网页开发所需的语言范围。首先，HTML（HyperText Markup La…

程序猿
2025年12月24日
0000
好文分享

克服害怕做选择的恐惧症：这五个前端CSS框架将为你解决问题

选择恐惧症？这五个前端CSS框架能帮你解决问题近年来，前端开发者已经进入了一个黄金时代。随着互联网的快速发展，人们对于网页设计和用户体验的要求也越来越高。然而，要想快速高效地构建出漂亮的网页并不容易，特别是对于那些可能对CSS编码感到畏惧的人来说。所幸的是，前端开发者们早已为我们准备好了一些CSS…

程序猿
2025年12月24日
2000
好文分享

揭开Web开发的语言之谜：了解构建网页所需的语言有哪些？

Web标准中的语言大揭秘：掌握网页开发所需的语言有哪些？随着互联网的快速发展，网页开发已经成为人们重要的职业之一。而要成为一名优秀的网页开发者，掌握网页开发所需的语言是必不可少的。本文将为大家揭示Web标准中的语言大揭秘，介绍网页开发所需的主要语言。 HTML（超文本标记语言）HTML是网页开发的…

程序猿
2025年12月24日
4000
好文分享

常用的网页开发语言：了解Web标准的要点

了解Web标准的语言要点：常见的哪些语言应用在网页开发中？随着互联网的不断发展，网页已经成为人们获取信息和交流的重要途径。而要实现一个高质量、易用的网页，离不开一种被广泛接受的Web标准。Web标准的制定和应用，涉及到多种语言和技术，本文将介绍常见的几种语言在网页开发中的应用。首先，HTML（H…

程序猿
2025年12月24日
0000
好文分享

网页开发中常见的Web标准语言有哪些？

探索Web标准语言的世界：网页开发中常用的语言有哪些？在现代社会中，互联网的普及程度越来越高，网页已成为人们获取资讯、娱乐、交流的重要途径。而网页的开发离不开各种编程语言的应用和支持。在这个虚拟世界的网络，有许多被广泛应用的标准化语言，用于为用户提供优质的网页体验。本文将探索网页开发中常用的语言，…

程序猿
2025年12月24日
0000
好文分享

深入探究Web标准语言的范围，涵盖了哪些语言？

Web标准是指互联网上的各个网页所需遵循的一系列规范，确保网页在不同的浏览器和设备上能够正确地显示和运行。这些标准包括HTML、CSS和JavaScript等语言。本文将深入解析Web标准涵盖的语言范围。首先，HTML（HyperText Markup Language）是构建网页的基础语言。它使…

程序猿
2025年12月24日
0000
好文分享

深入理解CSS框架与JS之间的关系

深入理解CSS框架与JS之间的关系在现代web开发中，CSS框架和JavaScript (JS) 是两个常用的工具。CSS框架通过提供一系列样式和布局选项，可以帮助我们快速构建美观的网页。而JS则提供了一套功能强大的脚本语言，可以为网页添加交互和动态效果。本文将深入探讨CSS框架和JS之间的关系，…

程序猿
2025年12月24日
0000
好文分享

项目实践：如何结合CSS和JavaScript打造优秀网页的经验总结

项目实践：如何结合CSS和JavaScript打造优秀网页的经验总结随着互联网的快速发展，网页设计已经成为了各行各业都离不开的一项技能。优秀的网页设计可以给用户留下深刻的印象，提升用户体验，增加用户的黏性和转化率。而要做出优秀的网页设计，除了对美学的理解和创意的运用外，还需要掌握一些基本的技能，如…

程序猿
2025年12月24日
2000
好文分享

CSS 超链接属性解析：text-decoration 和 color

CSS 超链接属性解析：text-decoration 和 color 超链接是网页中常用的元素之一，它能够在不同页面之间建立连接。为了使超链接在页面中有明显的标识和吸引力，CSS 提供了一些属性来调整超链接的样式。本文将重点介绍 text-decoration 和 color 这两个与超链接相关的…

程序猿
2025年12月24日
0000
好文分享

is与where选择器：提升前端编程效率的秘密武器

is与where选择器：提升前端编程效率的秘密武器在前端开发中，选择器是一种非常重要的工具。它们用于选择文档中的元素，从而对其进行操作和样式设置。随着前端技术的不断发展，选择器也在不断演化。而其中，is与where选择器成为了提升前端编程效率的秘密武器。 is选择器是CSS Selectors L…

程序猿
2025年12月24日
0000
好文分享

前端技巧分享：使用CSS3 fit-content让元素水平居中

前端技巧分享：使用CSS3 fit-content让元素水平居中在前端开发中，我们常常会遇到需要将某个元素水平居中的情况。使用CSS3的fit-content属性可以很方便地实现这个效果。本文将介绍fit-content属性的使用方法，并提供代码示例。 fit-content属性是一个相对于元素父…

程序猿
2025年12月24日
0000