
爬虫时网站源代码与页面内容和 element 不一致解决方法
在爬取网页时,遇到网页源代码与页面内容和 ELEMENT 不一致的情况,可以考虑以下方法解决:
对于本例中的 58 同城工作页面,网页源代码显示申请和浏览人数为 0,而页面数据和 F12 中的 ELEMENT 内容却是一致的。这种情况说明实际数据并不是存储在 HTML 源代码中,而是动态加载的。
要解决此问题,需要找到动态加载数据的接口地址。通过分析页面源码或网络请求,发现以下地址可以获取申请和浏览人数数据:
向此地址发送请求,即可得到 JSON 数据,其中包含申请和浏览人数信息:
{ deliveryCount: 1141, commentCount: 0, infoCount: 4, resumeReadPercent: 0, referUrl: "", nextUrl: "null"}
deliveryCount 即为申请人数,commentCount 为浏览人数。通过这种方式,即使网页源代码和 ELEMENT 中没有直接包含这些数据,也能成功爬取到所需的信息。
以上就是网页源代码与页面内容不一致怎么办?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1558946.html
微信扫一扫
支付宝扫一扫