网易云音乐评论爬虫

全文约784字 3分钟阅读

2018.08.20

之前写了一个纯过程版本的,本版本mvc面向对象,

测试了一下, 在获取歌单的时候,速度慢了一倍,可能是对数据库连接的频繁的打开和关闭造成的

提示一下,在try以外的地方出错,进程会直接退出并结束

网易云音乐评论爬取,python实现

目前支持以下功能

  1. 听众的增/查
  2. 断点爬取某一个人的歌单里的歌的评论(也不完全正确,但是由于特殊的数据结构,理论上可以获取全部的评论。最多造成数据的冗余,但不会漏解) 一些小功能就算了吧, 算是挖坑不填😂(比如直接获取全部的歌单id,未完成) python这块完全是就是自学,一些框架也不会,就只直接用了mvc 至于view层,就。。。。 脚(其)本(实)程(就)序(是)要(不)啥(会)界面。。。。

至于为什么要写这东西,爬评论嘛,懂得人都知道这是一个悲伤的故事 其实写的还是挺累的,这大概就是用爱发电吧

欸,我为什么不一开始就直接用java写。。。。

2019.03.15 更新

突然上了gayhub发现猛的多了三个star,开心,不过不知道是不是僵尸星哈哈哈哈

那就把顺手把这个爬虫的说明简要得写一下。 对了,这是一个半成品,可实现目的,但还是需要折腾一番。 下文会多次提及多种 ‘id’, 具体参见网易云音乐网页的url

目前的bug和缺点

部署步骤

  1. 安装相关模块 pip install -r requirements.txt
  2. 连接数据库 相关配置在wyyComments\util\db_util.py中已经详细说明,sql文件在source文件夹中
  3. 配置bark 配置bark纯粹就是为了好玩,bark的具体说明可以点这里。配置完毕后,需要将三个参数写在对应配置文件,路径为wyyComments\barktime\bark.conf 如果不想配置似乎报不报错看缘分,注释掉wyyComments\util\getsinglesongallcomment_util.py的149和150行可解。

2019.03.19 更新

似乎和session一级cookie这些关系,网易云api做了限制,只有前1w条和最后1w条能正常显示,中间的就会无限重复,这个“官方bug”只能等限制结束了在说吧,此项目暂时告一段落。