Puppeteer 爬取网页数据返回空数组问题解决方案

程序猿 • 2025年11月3日 13:29:39 • web前端 • 阅读 0

本文针对使用 Puppeteer 爬取 naamhinaam.com 网站数据时，出现返回空数组的问题，提供了一套可行的解决方案。通过分析问题代码，找出选择器和循环逻辑上的错误，并提供优化后的代码示例，确保能正确抓取网页上的婴儿名字和含义信息，并避免因广告元素干扰导致的问题。本文还强调了headless模式的运用以及数据清洗的重要性。

问题分析

原始代码尝试通过循环遍历页面上的元素，并根据复杂的 CSS 选择器提取婴儿名字。然而，这种方法存在几个问题：

不稳定的选择器： 原始代码中使用的 CSS 选择器 div.name-suggestion.mt-1 > div > div:nth-child(${i}) > div.nsg__name_meaning > a 非常具体，一旦网站结构发生轻微变化，就会导致选择器失效，从而无法抓取到数据。广告元素干扰： 尝试移除广告元素，但移除操作可能并不稳定，或者广告元素的出现方式不固定，导致循环逻辑出错。不必要的条件判断： 循环内部的 if (await page.$(…)) 判断可能会导致跳过某些元素，影响数据的完整性。循环索引错误： 循环索引从3开始，跳过了前面两个元素，可能导致数据丢失。

解决方案

为了解决上述问题，我们应该采用更稳定、更灵活的方法来提取数据。以下是优化后的代码示例：

怪兽AI数字人

数字人短视频创作，数字人直播，实时驱动数字人

44 查看详情

const puppeteer = require("puppeteer");const express = require("express");const cors = require("cors");const app = express();app.use(cors());let data = [];(async () => {  const browser = await puppeteer.launch({    headless: true, // 建议使用 headless 模式    defaultViewport: null,  });  const page = await browser.newPage();  for (let pageNumber = 1; pageNumber  i`);    // 确保名字和含义的数量一致    if (nameElements.length !== meaningElements.length) {      console.warn(`页面 ${pageNumber} 上的名字和含义数量不一致，可能存在问题。`);      continue; // 跳过当前页面    }    for (let i = 0; i  el.textContent, nameElements[i]);        let meaning = await page.evaluate(el => el.textContent, meaningElements[i]);        fullName = `${name.split(/[nt]/).join('').trim()}, ${meaning}`;        data.push({ fullName });      } catch (error) {        console.error(`处理页面 ${pageNumber} 的第 ${i} 个元素时出错：`, error);      }    }  }  console.log(data);  await browser.close();})();app.get("/", (req, res) => {  res.status(200).json(data);});app.listen(3000, () => {  console.log("App is running...");});

代码解释：

Headless 模式： 建议将 headless 设置为 true，在后台运行浏览器，提高效率。更稳定的选择器： 使用 a.nsg__name 和 div.nsg__meaning > i 这样更简洁、更通用的选择器，降低因网站结构变化导致的问题。数量一致性检查： 在循环之前，检查名字和含义元素的数量是否一致。如果不一致，说明页面结构可能存在问题，跳过当前页面，避免数据错误。错误处理： 在循环内部添加 try…catch 块，捕获可能出现的错误，并记录错误信息，方便调试。数据清洗： 使用 name.split(/[nt]/).join(”).trim() 清除名字中的换行符、制表符和空格，确保数据的干净。

注意事项

网站结构变化： 网页结构随时可能发生变化，因此需要定期检查和更新选择器。反爬机制： 网站可能存在反爬机制，如验证码、IP 封锁等。需要根据具体情况采取相应的应对措施，如使用代理 IP、设置合理的请求间隔等。法律法规： 在爬取网站数据时，务必遵守相关法律法规和网站的使用条款，不得进行恶意爬取或侵犯网站权益的行为。

总结

通过使用更稳定的选择器、进行数量一致性检查、添加错误处理机制以及清洗数据，我们可以更可靠地使用 Puppeteer 爬取网页数据。同时，需要注意网站结构变化、反爬机制以及法律法规等问题，确保爬虫的稳定性和合法性。

以上就是Puppeteer 爬取网页数据返回空数组问题解决方案的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/212720.html

ai css go js json 数据丢失浏览器爬虫

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

275.9K 文章

0 评论

1 粉丝

这个人很懒，什么都没有留下～

使用 Puppeteer 抓取网页数据返回空数组的解决方案

上一篇 2025年11月3日 13:29:27

在GitHub上更新JSON文件：理解限制与正确方法

下一篇 2025年11月3日 13:30:30

好文分享

比特币价格预测与AI代币：驾驭加密货币浪潮

比特币再创新高，机构投资推动涨势。像ozak ai这样的ai代币能否带来相似的回报？我们来探讨相关趋势与预测。比特币近期表现强劲，不断刷新纪录，分析师们纷纷上调价格预期。但除了比特币热潮之外，一种新型加密资产正在崛起：AI代币。它们会是下一个风口吗？让我们深入探讨。比特币牛市：还能涨多高？比特…

程序猿
2025年12月8日
0000
好文分享

捷克央行通过Coinbase涉足加密货币领域，并加倍押注Palantir

捷克国家银行悄然布局coinbase与palantir，释放出怎样的金融风向？捷克国家银行（CNB）正引发外界关注！这家以往以稳健著称的央行近期通过投资Coinbase进入加密货币领域，并显著增持数据分析公司Palantir的股份。这一系列动作究竟预示着什么？我们来深入解读。 CNB迈向科技与数字…

程序猿
2025年12月8日
0000
好文分享

比特币加密货币反弹：乘风破浪再创新高

比特币突破 120,000 美元：监管利好、机构热情与关税波动共同驱动，这是加密货币的新常态吗？比特币掀起新一轮热潮：乘风破浪，屡创新高比特币近日创下历史新高，价格突破 120,000 美元，整个加密市场再度被点燃。这次上涨由监管进展、强劲的机构参与以及宏观经济环境多重因素推动，正在重塑数字资产…

程序猿
2025年12月8日
0000
好文分享

JasmyCoin（JASMY）反弹：日本的比特币即将飙升？

jasmycoin（jasmy）近期出现价格上升趋势，引起交易市场广泛关注。本文将深入分析推动jasmy上涨的动力，并探讨其未来可能的行情走向。 JasmyCoin（JASMY），被称作“日本的比特币”，最近因币价上涨再度进入公众视野。在经历了一段相对平稳期后，JASMY开始活跃于市场，投资者纷纷猜…

程序猿
2025年12月8日
0000
好文分享

Hedera（HBAR）突破观察：这次反弹是真实的吗？

hedera（hbar）近期显现出潜在突破信号，受ai领域合作与巨鲸资金流动推动，是否能延续上涨趋势值得关注。加密社区的朋友们，今天我们一起探讨一下 Hedera（HBAR）最近的动态。在经历了长时间盘整后，HBAR 市场开始释放出可能迎来重大变化的迹象。但这种走势是短暂的情绪反弹，还是具备持续性…

程序猿
2025年12月8日
0000
好文分享

合成达尔文、人工智能系统与效用代币：未来正在进化

深入了解 synthetic darwin、ai 系统与效用代币的未来图景。探索这一前沿技术如何重塑人工智能及其相关产业的发展格局。围绕“Synthetic Darwin、AI 系统、效用代币”的话题正日益升温，这并不令人意外。这种融合人工智能与区块链的新颖方法正在酝酿一场变革，彻底改变我们对 A…

程序猿
2025年12月8日
0000
好文分享

Solana启动平台与收益：加密世界中的一场疯狂之旅

solana 的启动平台市场正迅速升温，letsbonk 在周收入方面超越 pump.fun。让我们一起探索这一趋势背后的动因及未来展望。 Solana 启动平台与收入：加密世界的一场疯狂之旅 Solana 生态系统目前正处于高速发展阶段，尤其是在启动平台及其带来的收入增长方面。最近，LetsBon…

程序猿
2025年12月8日
0000
好文分享

交易平台官网被替换怎么办？保护账户安全三招

近期不少用户反馈，搜索到的虚假交易平台官网导致账户被盗或资金损失。这类“李鬼网站”往往伪装得非常逼真，新手稍不注意就会中招。要想避免被钓鱼，关键是掌握以下三招，确保你每一次登陆和操作都是安全的。在你准备开启虚拟货币交易前，务必通过币安或欧易OKX等头部平台的正规官网进行注册与下载，不要轻信搜索结果…

程序猿
2025年12月8日
0000
好文分享

哪些山寨币值得长期持有？山寨币正规交易APP最新榜单2025

以太坊、索拉纳、Chainlink和雪崩协议是值得长期关注的山寨币，分别因智能合约领导地位、高性能交易、预言机基础设施及可定制区块链架构而具备潜力；2025年推荐的交易平台包括币安、欧易、Coinbase和Kraken，它们在用户规模、安全性及功能多样性方面表现突出。重要提示：以下分析仅供参考，不…

程序猿
2025年12月8日
0000
好文分享

必安binance官方网站的登录入口地址最新链接分享（官网地址）

在数字资产的世界中，确保您访问的是币安binance官方网站至关重要。随着网络钓鱼和欺诈网站日益增多，找到并使用正确、安全的登录入口是保护您数字资产安全的第一步。本文旨在分享获取币安官方最新登录入口地址的方法，指导您如何安全、准确地找到并访问官网，从而有效防范通过假冒网站进行的欺诈行为，确保您的账户…

程序猿
2025年12月8日
0000
LA币怎么买？Lagrange(LA代币)未来会涨到多少美元一枚？

lagrange (la)是由lagrange labs 推出的一个区块链项目，专注于零知识证明（zkp）技术的创新网络开发商。la 是lagrange 的原生代币，被定位为一种实用型代币，用于支撑其去中心化证明网络和生态激励。lagrange 的目标是解决区块链的可扩展性和隐私计算问题，为l2 扩…

程序猿
2025年12月8日 • 好文分享
0000
好文分享

Mint.io：由人工智能驱动的Web3游戏平台正在颠覆元宇宙

mint.io 正在通过其人工智能赋能的平台重新定义 web3 游戏的常规路径，专注于为玩家提供真正实用的游戏体验和高质量的内容。 Mint.io：元宇宙革新者，AI驱动的Web3游戏新势力 Web3 游戏正在成为数字娱乐的重要分支，而 Mint.io 正在以独特的方式开辟自己的赛道。它不依赖炒作，…

程序猿
2025年12月8日
0000
好文分享

币圈牛市和熊市具体指什么？2025年8月是牛市还是熊市？

2025年8月币圈大概率处于牛市周期中。当前BTC价格稳定在78,000美元上下，创下近一年新高，且维持在200日均线上方；用户活跃度提升，链上活跃地址数量同比增长42%；主流交易所如Binance、欧意OK、火必HTX和Gate.io大门交易活跃，平台持续上线新项目并优化服务；同时，灰度、贝莱德等…

程序猿
2025年12月8日
0000
好文分享

比安官网地址是多少？最新版官网链接分享

binance（币安）是当下全球领先的数字资产交易平台，汇集现货、衍生品、理财等多项服务；对于初次接触币圈的新用户，确认官网链接非常重要，以防落入钓鱼网站。官网链接：如何判断你打开的是正版官网？ 1、检查网址是否以：https://www.binance.com（或你所在国家的官方域名）开头； …

程序猿
2025年12月8日
0000
好文分享

Bittensor (TAO)：乘着AI牛市浪潮进入2025年

解析bittensor的牛市走势、ai赋能优势，以及其为何有望在2025年跻身主流加密货币行列。tao是否具备成为明星币种的潜力？当前加密市场热议2025年最具爆发力的代币之一，便是Bittensor（TAO）。本文将深入探讨TAO为何备受瞩目，并分析这一融合人工智能技术的项目是否具备持续增长的动…

程序猿
2025年12月8日
0000
好文分享

Mint.io：用AI彻底改变Web3游戏——纽约视角

mint.io 正凭借其人工智能赋能的平台重塑 web3 游戏生态，带来更直观的操作体验与实际价值。本文将剖析其创新策略及其潜在影响。 Web3 游戏正处于快速增长阶段，而 Mint.io 作为其中的 AI 驱动平台正脱颖而出。他们并未沉迷于概念炒作，而是致力于打造真正具备实用性的产品。接下来我们将…

程序猿
2025年12月8日
0000
好文分享

Chainbase 的代币 C：逐一代币去中心化区块链数据

chainbase 正式推出其原生代币 c，目标在于重塑区块链数据的访问与治理模式。这是否预示着 web3 数据基础设施的新方向？ Chainbase 发布了代币 C，这一举措被视为推动去中心化数据生态的重要里程碑。但这是又一次普通的代币发行，还是迈向用户掌控数据世界的真实尝试？代币 C：Hype…

程序猿
2025年12月8日
0000
好文分享

比特币市场波动中加密代币飙升至历史新高：一位纽约人的观点

探索加密货币代币的最新趋势、历史最高点与比特币市场动态比特币市场波动中，加密代币屡创新高：一位纽约人的观察近期，加密货币领域异常活跃，多个代币接连创下历史新高（ATH），而比特币市场则经历了不同程度的震荡。让我们一起来看看当前市场究竟发生了什么，以及这对投资者意味着什么。历史新高不断：哪些加密…

程序猿
2025年12月8日
0000
好文分享

Avalanche、DeFi 和 NFT：纽约的热潮是什么？

深入探索avalanche、defi与nft的奇妙旅程。掌握加密领域最新动向、深度分析以及备受瞩目的项目。这正是未来金融的模样，你准备好了吗？ Avalanche、DeFi、NFT：纽约街头热议的话题 Avalanche、DeFi、NFT——这些词汇如今在纽约街头巷尾频繁出现，仿佛时代广场的霓虹灯般…

程序猿
2025年12月8日
0000
好文分享

卡尔达诺代币与市值：有何热议？

探索 cardano 代币的多样化生态：从模因币到治理代币，它们如何塑造市值与生态系统格局。 Cardano 代币与市值：为何成为热议焦点？ Cardano 的生态正迅速扩展！无论是模因币还是 DeFi 应用，这里都是一个充满活力的舞台。我们一起来了解这些代币及其对整体市值的影响。 Cardano：…

程序猿
2025年12月8日
0000

发表回复

登录后才能评论