教你用Python爬去QQ音乐评论

有态度地学习

去年夏天,好像于我而言,重要的事就是毕业来临,从此踏上了搬砖之路,从学校到职场,之间身份的转变,让我又多了一份责任。当然还有一段感情经历,现在回头去看,只能说且行且珍惜,或许以后未必能再遇见!

本次爬取的是QQ音乐的评论信息,作为一名基本不看评论的人,真的羞愧难当。不过音乐嘛,听听就不错啦,哪有闲情雅致去看,又或是去评,毕竟文化水平有限,想想就脑瓜疼。

通过这次爬取,学习了数据库MySQL,因为之前都是在windows上操作,而这回需要在Mac上操作,所以就在Mac上安装了MySQL以及MySQL的管理工具Sequel Pro,最后也是安装成功,数据库连接也没有问题。

教你用Python爬去QQ音乐评论
教你用Python爬去QQ音乐评论

接下来创建数据库,表格及主键信息。

代码语言:javascript代码运行次数:0运行复制

import pymysql# 创建数据库db = pymysql.connect(host='127.0.0.1', user='root', password='774110919', port=3306)cursor = db.cursor()cursor.execute("CREATE DATABASE QQ_Music DEFAULT CHARACTER SET utf8mb4")db.close()

代码语言:javascript代码运行次数:0运行复制

import pymysql# 创建表格, 设置主键db = pymysql.connect(host='127.0.0.1', user='root', password='774110919', port=3306, db='QQ_Music')cursor = db.cursor()sql = 'CREATE TABLE IF NOT EXISTS comments (nike VARCHAR(255) NOT NULL, comment VARCHAR(255) NOT NULL, praisenum INT NOT NULL, comment_id VARCHAR(255) NOT NULL, time VARCHAR(255) NOT NULL, PRIMARY KEY (comment))'cursor.execute(sql)db.close()

针对QQ音乐中去年夏天的网页进行分析,查看了所有评论的尾页,发现时间缩水了,因为热评中有一条评论的时间7月12号,而所有评论最后一页的时间却是7月16号。很明显,所有评论并不是货真价实的所有评论,不知这算不算QQ音乐的BUG。

立即学习“Python免费学习笔记(深入)”;

教你用Python爬去QQ音乐评论
教你用Python爬去QQ音乐评论

还有一个就是直接点击最后一页的时候,并不能直接返回真正的信息,需要从最后一页往前翻,到了真正的信息页时,然后再往后翻,才能得到最后一页的真正信息。

教你用Python爬去QQ音乐评论
教你用Python爬去QQ音乐评论

同样是Ajax请求,确认网址后,分析一下请求头,发现主要是三个参数发生变化:jsoncallback

海螺音乐 海螺音乐

海螺AI推出的AI音乐生成工具,可以生成个性化的音乐作品。

海螺音乐 31 查看详情 海螺音乐

pagenum

lasthotcommentid

pagenum不难理解,就是页数。jsoncallback经过实验后,发现并不会影响请求,所以设置时无需改动,lasthotcommentid的值对应的是上一页最后一个评论者的ID,所以需要随时改动。

即改变pagenum,lasthotcommentid的值,就可成功实现请求。

教你用Python爬去QQ音乐评论
教你用Python爬去QQ音乐评论
教你用Python爬去QQ音乐评论

爬取代码如下:

代码语言:javascript代码运行次数:0运行复制

import reimport jsonimport timeimport pymysqlimport requestsURL = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?'HEADERS = {    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}PARAMS = {    'g_tk': '5381',    'jsonpCallback': 'jsoncallback4823183319594757',    'loginUin': '0',    'hostUin': '0',    'format': 'jsonp',    'inCharset': 'utf8',    'outCharset': 'GB2312',    'notice': '0',    'platform': 'yqq',    'needNewCode': '0',    'cid': '205360772',    'reqtype': '2',    'biztype': '1',    'topid': '213910991',    'cmd': '8',    'needmusiccrit': '0',    'pagenum': '0',    'pagesize': '25',    'lasthotcommentid': '',    'callback': 'jsoncallback4823183319594757',    'domain': 'qq.com',    'ct': '24',    'cv': '101010',}LAST_COMMENT_ID = ''db = pymysql.connect(host='127.0.0.1', user='root', password='774110919', port=3306,  db='QQ_Music', charset='utf8mb4')cursor = db.cursor()def get_html(url, headers, params=None, tries=3):    try:        response = requests.get(url=url, headers=headers, params=params)        response.raise_for_status()        response.encoding = 'utf-8'    except requests.HTTPError:        print("connect failed")        if tries > 0:            print("reconnect...")            last_url = url            get_html(last_url, headers, tries-1)        else:            print("3 times failure")            return None    return responsedef paras_html(html):    data = {}    content = json.loads(html[29:-3])    for item in content['comment']['commentlist']:        data["nike"] = item.get("nick")        data["comment"] = re.sub(r"n", " ", item.get("rootcommentcontent"))        data["comment"] = (re.sub(r"", " ", data["comment"]))[0:255]        data["praisenum"] = item.get("praisenum")        data["comment_id"] = item.get("commentid")        data["time"] = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(int(item.get("time"))))        yield datadef to_mysql(data):    table = 'comments'    keys = ', '.join(data.keys())    values = ', '.join(['%s'] * len(data))    sql = 'INSERT INTO {table}({keys}) VALUES ({values}) ON DUPLICATE KEY UPDATE'.format(table=table, keys=keys, values=values)    update = ','.join([" {key} = %s".format(key=key) for key in data])    sql += update    try:        if cursor.execute(sql, tuple(data.values())*2):            print('Successful')    except:        print('Failed')        db.rollback()    db.commit()def main():    first_Links = []    three_Links = []    count = 0    global LAST_COMMENT_ID    for page in range(1045):        if page % 5 == 0:            time.sleep(2)        PARAMS['lastcommentid'] = LAST_COMMENT_ID        PARAMS['pagenum'] = page        if first_Links:            if count >= 3:                three_Links.append(first_Links.pop())                continue            count += 1            response = get_html(first_Links.pop(), HEADERS)        else:            count = 0            response = get_html(URL, HEADERS, PARAMS)        if response:            try:                for item in paras_html(response.text):                    to_mysql(item)                    print("Successful", response.url)                    LAST_COMMENT_ID = item['comment_id']            except TypeError:                print(response.url)                first_Links.append(response.url)    cursor.close()    db.close()    print(three_Links)if __name__ == '__main__':    main()

最后成功获取评论信息

教你用Python爬去QQ音乐评论
教你用Python爬去QQ音乐评论

这里有一个问题,因为请求头是一直变化的,所以可能会错过一些评论页,导致评论获取不完全,这里只需多运行几次代码,或者在主程序加个循环即可,注意要设置下延迟,之后基本上能获取大部分的评论。

以上就是教你用Python爬去QQ音乐评论的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/347530.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月5日 20:57:40
下一篇 2025年11月5日 20:59:14

相关推荐

  • JS如何实现排序功能

    js实现排序的核心是使用sort()方法并配合自定义比较函数以避免默认字符串排序带来的问题。1. 对于数字数组排序,需传入比较函数(a, b) => a – b实现从小到大排序,反之b – a则从大到小;2. 字符串数组排序时默认按unicode排序,若要忽略大小写,应…

    2025年12月20日
    000
  • javascript闭包怎么管理私有方法

    闭包通过函数作用域链实现私有性,使内部变量和方法无法被外部直接访问,从而提升封装性和安全性。1. 利用闭包可创建私有变量和方法,如createcounter中count和increment对外不可见,仅通过公有方法getcount和increase间接访问;2. 闭包与iife结合可防止全局污染,如…

    2025年12月20日 好文分享
    000
  • 如何利用事件循环优化I/O密集型应用?

    事件循环优化i/o密集型应用的核心是:1. 使用异步编程模型(如async/await、promise、asyncio)替代同步阻塞调用,让cpu在i/o等待期间处理其他任务;2. 理解并依赖事件循环机制,将i/o操作交由操作系统或线程池执行,主线程只负责调度和回调执行;3. 设计时隔离cpu密集任…

    2025年12月20日 好文分享
    000
  • js 怎么用partition将数组分为满足条件的两部分

    javascript中实现数组分区的常见方法有三种:使用reduce、使用两个filter、使用for循环或foreach;2. reduce方法只需遍历一次数组,性能较好且代码简洁,是推荐的首选方案;3. 两个filter方法代码直观但会遍历数组两次,predicate函数若复杂则性能较差,不推荐…

    2025年12月20日
    000
  • 什么是WebSocket?实时通信的实现

    websocket与传统http通信的本质区别在于,http是无状态、单向的请求-响应模式,每次通信后连接通常关闭,服务器无法主动推送数据;而websocket通过一次握手升级连接后,建立持久化、全双工的双向通信通道,允许服务器和客户端随时主动发送数据,实现真正的实时交互。这种机制避免了http频繁…

    2025年12月20日
    000
  • JS如何实现斐波那契数列?递归和迭代比较

    在javascript中实现斐波那契数列,最推荐的方法是迭代,因为它具有o(n)的时间复杂度和o(1)的空间复杂度,避免了递归的重复计算和栈溢出风险,而递归虽代码简洁但性能差,适用于教学或小数值场景,结合记忆化可优化至o(n)时间,但空间开销增加,对于极大数值可采用bigint防止溢出,或使用矩阵快…

    2025年12月20日
    000
  • js如何检测原型上的不可枚举属性

    要检测javascript原型上的不可枚举属性,必须遍历原型链并使用object.getownpropertydescriptor检查属性描述符,因为for…in循环仅枚举可枚举属性;1. 使用object.getownpropertynames获取对象自身的所有字符串属性,包括不可枚举…

    2025年12月20日 好文分享
    000
  • 为什么说事件循环是高性能的关键?

    事件循环是一种程序结构,它通过非阻塞操作和回调函数,使程序在等待i/o操作完成的同时执行其他任务,从而提高性能和响应能力。事件循环监听并分发事件,如用户点击、网络数据到达或定时器触发,调用相应的处理函数。它避免阻塞的方式包括非阻塞i/o和回调机制,使程序在等待i/o时继续执行其他任务。事件循环在i/…

    2025年12月20日 好文分享
    000
  • js如何操作usb设备

    javascript本身无法直接操作usb设备,必须通过特定技术实现;1. 使用webusb api可在支持的浏览器中安全地与用户授权的usb设备通信;2. 通过node.js结合node-usb库可在服务端操作usb设备,并以前端通信方式传递数据;3. 浏览器扩展可利用高权限访问usb设备并通过消…

    2025年12月20日 好文分享
    000
  • JS如何实现深拷贝

    js实现深拷贝的核心答案是通过递归复制对象所有层级并切断引用关系,以确保副本与原数据完全独立。最简单的方法是使用json.parse(json.stringify(obj)),适用于仅含基本类型和普通对象的“纯净”数据,但会丢失函数、undefined、symbol等,且无法处理循环引用;更通用的方…

    2025年12月20日
    000
  • JS如何实现暗黑模式

    实现暗黑模式的核心是通过javascript切换css类并结合css变量控制样式。1. 首先定义两套css样式,使用css变量区分亮色和暗黑模式,并应用于页面元素;2. 通过javascript监听按钮点击事件,切换body的class为dark-mode以应用暗黑样式,同时将用户偏好存入local…

    2025年12月20日
    000
  • js如何监听键盘按键事件

    要监听键盘按键事件,核心是使用addeventlistener方法绑定keydown或keyup事件到document或特定元素上。1. 优先使用keydown和keyup事件,它们分别在按键按下和释放时触发,能捕获所有物理按键,包括修饰键和功能键;2. 避免使用keypress,因其仅响应字符键且…

    2025年12月20日
    000
  • 什么是DSL?领域特定语言的实现

    dsl的核心选择在于内部dsl与外部dsl的权衡,答案是根据项目需求、团队能力和领域复杂度来决定;内部dsl利用宿主语言特性构建流畅api,开发成本低且易于集成,适合初期探索和通用语言能表达的场景,而外部dsl通过自定义语法和解析器实现极致表达力,适合领域高度专业化且需业务与技术解耦的情况,尽管开发…

    2025年12月20日
    000
  • javascript闭包如何模拟私有属性

    闭包可以有效模拟私有属性,通过将变量封装在函数内部并返回操作该变量的函数,实现数据的私有化;1. 使用闭包比直接暴露变量更安全,防止外部随意修改,提升代码健壮性;2. 闭包会增加内存消耗,但现代引擎优化使得影响通常可忽略;3. 除闭包外,es2015的symbol和weakmap也支持私有属性模拟,…

    2025年12月20日 好文分享
    000
  • HTML 实现“下一页”按钮:按文件名升序跳转

    本文旨在提供一个实用的 JavaScript 解决方案,实现在一系列 HTML 文件中添加“下一页”按钮的功能。该按钮可以根据文件名(按升序排列)跳转到下一个 HTML 文件,特别适用于文件名包含日期信息的场景,例如 YYMMDD.html 格式。我们将详细讲解如何获取当前文件名、维护文件列表、计算…

    2025年12月20日
    000
  • 动态HTML页面序列导航指南

    本文详细介绍了如何为一组按日期或数字命名的HTML文件实现“下一页”导航功能。通过JavaScript获取当前页面文件名,在预定义的文件列表中查找其位置,并计算出下一页的路径,最终实现点击按钮即可跳转到序列中下一个页面的效果。教程涵盖了核心逻辑解析、完整的HTML和JavaScript代码示例,并讨…

    2025年12月20日
    000
  • TensorFlow.js怎么使用

    tensorflow.js在浏览器中运行的优势是无需服务器、保护隐私和离线支持;1. 无需服务器:模型直接在客户端运行,减少服务器负载并降低延迟;2. 保护隐私:用户数据无需上传至服务器,提升隐私安全性;3. 离线支持:部分应用可在无网络环境下运行,增强可用性。 TensorFlow.js让你可以在…

    2025年12月20日
    000
  • Adobe Acrobat 交互式PDF高级计算指南

    本文旨在指导用户如何在Adobe Acrobat交互式PDF中实现高级自定义计算。我们将详细讲解两种常见场景:一是如何统计特定列中已勾选的复选框数量,二是如何将一个字段的值乘以特定系数后赋值给另一个字段。教程将提供清晰的步骤和JavaScript代码示例,帮助读者高效地创建功能强大的动态PDF表单。…

    2025年12月20日
    000
  • js 如何使用remove移除数组中满足条件的元素

    javascript数组没有直接的remove方法,推荐使用filter实现非破坏性移除;2. filter通过条件筛选创建新数组,不修改原数组,符合函数式编程理念;3. splice可用于原地修改,但需注意索引变化带来的复杂性;4. reduce也可用于条件移除,适用于复杂数据处理场景;5. fi…

    2025年12月20日
    000
  • js 如何连接数据库

    浏览器端javascript无法直接连接数据库,必须通过后端api进行交互;2. node.js环境下的javascript可通过数据库驱动或orm/odm直接连接数据库;3. 安全原因、技术限制和架构设计决定了前端不能直连数据库;4. 实践中node.js连接mysql可用mysql2或seque…

    2025年12月20日
    000

发表回复

登录后才能评论
关注微信