实战分享：利用nodejs爬取并下载一万多张图片

程序猿 • 2025年11月9日 20:41:54 • 用户投稿 • 阅读 1

本篇文章给大家分享一个node实战，看看作者是如何用 nodejs 爬了一万多张小姐姐壁纸的，希望对大家有所帮助！

哈喽，大家好，我是小马，为什么要下载这么多图片呢？前几天使用 uni-app + uniCloud 免费部署了一个壁纸小程序，那么接下来就需要一些资源，给小程序填充内容。

爬取图片

首先初始化项目，并且安装 axios 和 cheerio

npm init -y && npm i axios cheerio

axios 用于爬取网页内容，cheerio 是服务端的 jquery api, 我们用它来获取 dom 中的图片地址；

const axios = require('axios')const cheerio = require('cheerio')function getImageUrl(target_url, containerEelment) {  let result_list = []  const res = await axios.get(target_url)  const html = res.data  const $ = cheerio.load(html)  const result_list = []  $(containerEelment).each((element) => {    result_list.push($(element).find('img').attr('src'))  })  return result_list}

这样就可以获取到页面中的图片 url 了。接下来需要根据 url 下载图片。

如何使用 nodejs 下载文件

方式一：使用内置模块 ‘https’ 和 ‘fs’

使用 nodejs 下载文件可以使用内置包或第三方库完成。

GET 方法用于 HTTPS 来获取要下载的文件。 createWriteStream() 是一个用于创建可写流的方法，它只接收一个参数，即文件保存的位置。Pipe()是从可读流中读取数据并将其写入可写流的方法。

const fs = require('fs')const https = require('https')// URL of the imageconst url = 'GFG.jpeg'https.get(url, (res) => {  // Image will be stored at this path  const path = `${__dirname}/files/img.jpeg`  const filePath = fs.createWriteStream(path)  res.pipe(filePath)  filePath.on('finish', () => {    filePath.close()    console.log('Download Completed')  })})

方式二：DownloadHelper

npm install node-downloader-helper

下面是从网站下载图片的代码。一个对象 dl 是由类 DownloadHelper 创建的，它接收两个参数:

将要下载的图像。下载后必须保存图像的路径。

File 变量包含将要下载的图像的 URL，filePath 变量包含将要保存文件的路径。

存了个图

视频图片解析/字幕/剪辑，视频高清保存/图片源图提取

17 查看详情

const { DownloaderHelper } = require('node-downloader-helper')// URL of the imageconst file = 'GFG.jpeg'// Path at which image will be downloadedconst filePath = `${__dirname}/files`const dl = new DownloaderHelper(file, filePath)dl.on('end', () => console.log('Download Completed'))dl.start()

方法三：使用 download

是 npm 大神 sindresorhus 写的，非常好用

npm install download

下面是从网站下载图片的代码。下载函数接收文件和文件路径。

const download = require('download')// Url of the imageconst file = 'GFG.jpeg'// Path at which image will get downloadedconst filePath = `${__dirname}/files`download(file, filePath).then(() => {  console.log('Download Completed')})

最终代码

本来想去爬百度壁纸，但是清晰度不太够，而且还有水印等，后来，群里有个小伙伴找到了一个 api，估计是某个手机 APP 上的高清壁纸，可以直接获得下载的 url，我就直接用了。

下面是完整代码

const download = require('download')const axios = require('axios')let headers = {  'User-Agent':    'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',}function sleep(time) {  return new Promise((reslove) => setTimeout(reslove, time))}async function load(skip = 0) {  const data = await axios    .get(      'http://service.picasso.adesk.com/v1/vertical/category/4e4d610cdf714d2966000000/vertical',      {        headers,        params: {          limit: 30, // 每页固定返回30条          skip: skip,          first: 0,          order: 'hot',        },      }    )    .then((res) => {      return res.data.res.vertical    })    .catch((err) => {      console.log(err)    })  await downloadFile(data)  await sleep(3000)  if (skip < 1000) {    load(skip + 30)  } else {    console.log('下载完成')  }}async function downloadFile(data) {  for (let index = 0; index  {      console.log(`Download ${item.id} Completed`)      return    })  }}load()

上面代码中先要设置 User-Agent 并且设置 3s 延迟，这样可以防止服务端阻止爬虫，直接返回 403。

直接 node index.js 就会自动下载图片了。

、

体验

微信小程序搜索 “西瓜图库” 体验。https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/c5301b8b97094e92bfae240d7eb1ec5e~tplv-k3u1fbpfcp-zoom-1.awebp?

更多node相关知识，请访问：nodejs 教程！

以上就是实战分享：利用nodejs爬取并下载一万多张图片的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/552370.html

nodejs

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

天国拯救2闪避机制怎么玩-天国拯救2闪避玩法详细教学

上一篇 2025年11月9日 20:41:54

抖音最挣钱的三种人是谁抖音变现方向与职业收益榜单

下一篇 2025年11月9日 20:41:56

用户投稿

怎么安装html5_HTML5开发环境安装与配置详细步骤

答案是配置HTML5开发环境需三步：1. 安装VS Code等编辑器并配置插件；2. 使用Chrome或Firefox测试页面；3. 可选搭建本地服务器，如Live Server或http-server；最后创建index.html文件验证环境。安装HTML5开发环境其实并不复杂，因为HTML5本…

程序猿
2026年5月10日
0000
用户投稿

通过示例在 Unity 和 NodeJS 上的游戏中创建安全、快速的多人游戏

介绍规划多人游戏开发方法 – 在整个项目的进一步开发中发挥着最重要的作用之一，因为它包含了我们在创建真正高质量的产品时应该考虑的许多标准。在今天的宣言教程中，我们将看一个方法示例，该方法使我们能够创建真正快速的游戏，同时尊重所有安全和反违规规则。所以，让我们定义我们的主要标准：多人…

程序猿
2026年5月10日
0000
用户投稿

Nodejs 事件循环

大家好，在第一篇文章中，我将写有关事件循环（主循环、主线程、事件线程等…）的内容，这是真正想了解 Javascript 的人思考的主题之一。我还想补充一点，这篇文章将是我自己做的笔记的汇编，而不是专业的。我为我的错误提前道歉。在下图中，您可以看到 Nodejs 中的 javascript…

程序猿
2026年5月10日
2000
用户投稿

Node.js中ES模块与CommonJS的导入兼容性指南

本文旨在解决node.js应用中，当试图使用es模块（`import`语句）导入包时遇到的`syntaxerror: cannot use import statement outside a module`错误。核心解决方案是在`package.json`文件中设置`”type&#82…

程序猿
2026年5月10日
0000
用户投稿

配置 Tailwind CSS：初始化指南 |设置 Tailwind CSS：初始化指南

简介 |简介意大利语：本文有意大利语和英语版本。向下滚动查看英文版本。英语：本文有意大利语和英语版本。向下滚动查看英文版本。意大利语版如何开始使用 tailwind css：项目完整指南简介在项目中配置 tailwind css 第一次似乎令人畏惧，特别是对于像我这样第一次尝试这个库的人来说…

程序猿
2025年12月24日
0000
用户投稿

如何设置独立 CLI：在 Shopify 中使用 Tailwind CSS，而不使用 Nodejs

依赖关系 Shopify CLI：一种命令行界面工具，可帮助您开发和管理 Shopify 主题。TailwindCSS：实用程序优先的 CSS 框架，用于快速构建自定义设计。设置我们使用 Tailwind 作为独立的 CLI 工具。更多信息可以参考官方指南。注意：如果您在配备 Intel 处理…

程序猿
2025年12月24日
5000
用户投稿

谷歌怎么下载html5_HTML5无需下载浏览器直接渲染运行页面文件【说明】

HTML5不是需下载的软件，而是浏览器原生标准；Chrome默认支持，可通过file://协议直接打开本地.html文件，或用http-server启动本地服务器以支持完整API功能。如果您已编写好HTML5页面文件，但误以为需要“下载HTML5”才能运行，则需明确：HTML5不是可下载的独立软件…

程序猿
2025年12月23日
0000
用户投稿

手机编程html5工具_移动端代码编辑器推荐【指南】

推荐五款移动端HTML5编辑器：Acode Editor支持一键预览；DroidEdit Pro可FTP/SFTP远程编辑；Codeanywhere提供云端IDE与Git集成；SpckEditor专注极简单页开发；Termux组合方案实现命令行本地服务。如果您希望在手机上直接编写、调试和预览 HT…

程序猿
2025年12月23日
1000
用户投稿

Linux polybar状态栏，HTML+CSS加载进度实时！

可通过 Bash 脚本在 Polybar 中模拟 HTML+CSS 风格进度条，利用 %{F#color} 标记和块字符 ▮ 动态显示已完成与未完成部分，结合实时任务进度输出格式化文本。如果您希望在 Linux 的 Polybar 状态栏中显示一个基于 HTML+CSS 风格的加载进度条，并实时反…

程序猿
2025年12月23日
0000
用户投稿

Node.js Puppeteer爬虫的部署与自动化运行指南

本教程详细指导如何部署基于node.js和puppeteer的网络爬虫，并实现其自动化定时执行。文章区分了前端静态网站与后端node.js脚本的部署策略，重点介绍了在windows环境下使用任务计划程序（task scheduler）进行定时任务配置的方法，同时提及了cors问题产生的原因及解决方案…

程序猿
2025年12月23日
0000
用户投稿

Linux Debian用Gulp自动化，CSS编译HTML零等待！

首先安装Node.js与npm，再初始化项目并安装Gulp及插件，接着配置gulpfile.js定义Sass编译与浏览器同步任务，最后通过gulp命令启动自动化流程，实现CSS即时编译与HTML实时更新。如果您希望在Linux Debian系统中通过Gulp实现自动化工作流，以达到CSS即时编译、…

程序猿
2025年12月23日
0000
用户投稿

Node.js爬虫的服务器端部署与定时任务配置指南

本文旨在指导开发者如何部署基于%ignore_a_1%的puppeteer网络爬虫，并实现其定时自动化运行。针对本地开发环境，文章详细介绍了利用windows任务计划程序配置定时任务的步骤，确保node.js脚本能按预设时间自动执行，更新数据。同时，文章也探讨了生产环境下的部署思路，强调了客户端与服…

程序猿
2025年12月23日
0000
用户投稿

Node.js爬虫的部署、调度与静态网站数据集成指南

本教程详细阐述如何部署和自动化运行node.js网络爬虫，实现定时数据抓取并更新静态网站内容。我们将探讨node.js脚本的服务器端运行机制、windows任务计划程序等调度工具的配置，以及爬取数据与静态html页面集成的策略，旨在帮助您构建高效且自动化的数据更新流程。 1. 理解Node.js爬虫…

程序猿
2025年12月23日
0000
用户投稿

部署与自动化运行Node.js网络爬虫：使用Windows任务计划程序

本文将指导您如何部署一个基于node.js和puppeteer的网络爬虫，并利用windows任务计划程序实现其每日定时自动运行。我们将深入探讨服务器端脚本与静态网页的区别，提供详细的步骤配置任务计划，并讨论在自动化过程中需要注意的关键事项，如资源管理、错误处理及跨平台部署思路。理解Node.js…

程序猿
2025年12月23日
0000
用户投稿

部署与调度Node.js爬虫：从本地执行到云端集成

本教程详细指导如何部署和调度一个基于node.js的网页爬虫，使其能够每日自动运行并将其数据提供给前端应用。文章将区分客户端与服务器端javascript的运行环境，介绍本地任务调度方法，并探讨将爬虫集成到在线服务以实现数据共享的策略，同时涵盖数据持久化、cors处理及部署最佳实践。 1. 理解No…

程序猿
2025年12月23日
0000
用户投稿

nodejs如何打开html_Node.js环境中HTML文件打开方法

如果您在Node.js环境中需要打开或提供HTML文件的访问，通常意味着您希望启动一个本地服务器来渲染并展示HTML页面。以下是实现该功能的具体方法：一、使用内置http模块创建服务器通过Node.js的内置http模块可以快速搭建一个简易服务器，用于读取并返回HTML文件内容给客户端浏览器。 …

程序猿
2025年12月23日
0000
用户投稿

WSL2里写HTML+CSS，Windows秒变Linux开发机！

使用WSL2可在Windows中高效进行Linux环境下的HTML与CSS开发。首先启用WSL2并安装Ubuntu 22.04，确保运行版本为2；接着安装Visual Studio Code及Remote – WSL插件，将项目存于Linux文件系统以实现编辑同步；通过Python内置服…

程序猿
2025年12月23日
0000
用户投稿

Windows WSL2中Linux环境运行HTML+CSS开发服务器

在WSL2中配置Linux环境进行HTML+CSS开发，首先启用WSL2并安装Ubuntu等发行版，运行wsl –install后重启并设置用户；接着更新系统包sudo apt update && sudo apt upgrade；推荐使用Python3内置服务器，在项目…

程序猿
2025年12月23日
1000
用户投稿

Linux用stylelint实时校验CSS是否符合HTML规范

Stylelint用于校验CSS书写规范，可通过配置文件和编辑器插件在Linux中实现实时检查，并结合chokidar监听文件变化，确保CSS代码质量并与HTML协同工作。 Stylelint 是一个强大的 CSS 代码检查工具，但它主要用于校验 CSS 的书写规范（如格式、可维护性、错误预防等），…

程序猿
2025年12月23日
0000
用户投稿

Windows用Prettier同时格式化HTML和CSS代码

答案：在Windows中使用Prettier格式化HTML和CSS需先安装Node.js，再通过npm安装Prettier，可全局或项目本地安装，推荐配合VS Code插件实现保存自动格式化，注意文件扩展名正确以确保语言识别。在 Windows 系统中使用 Prettier 格式化 HTML 和 …

程序猿
2025年12月23日
0000