2018.08.20
之前写了一个纯过程版本的,本版本mvc面向对象,
测试了一下, 在获取歌单的时候,速度慢了一倍,可能是对数据库连接的频繁的打开和关闭造成的
提示一下,在try以外的地方出错,进程会直接退出并结束
网易云音乐评论爬取,python实现
目前支持以下功能
- 听众的增/查
- 断点爬取某一个人的歌单里的歌的评论(也不完全正确,但是由于特殊的数据结构,理论上可以获取全部的评论。最多造成数据的冗余,但不会漏解) 一些小功能就算了吧, 算是挖坑不填😂(比如直接获取全部的歌单id,未完成) python这块完全是就是自学,一些框架也不会,就只直接用了mvc 至于view层,就。。。。 脚(其)本(实)程(就)序(是)要(不)啥(会)界面。。。。
至于为什么要写这东西,爬评论嘛,懂得人都知道这是一个悲伤的故事 其实写的还是挺累的,这大概就是用爱发电吧
欸,我为什么不一开始就直接用java写。。。。
2019.03.15 更新
突然上了gayhub发现猛的多了三个star,开心,不过不知道是不是僵尸星哈哈哈哈
那就把顺手把这个爬虫的说明简要得写一下。 对了,这是一个半成品,可实现目的,但还是需要折腾一番。 下文会多次提及多种 ‘id’, 具体参见网易云音乐网页的url
目前的bug和缺点
- 爬虫的运行一段时间就会无限重复,这个应该不是触发了反扒,初步判断是session和cookies过期
- 自动获取用户歌单id功能尚未实现,需要手动wyyComments\view\songlist_view.py文件的21行手动填写歌单id
部署步骤
- 安装相关模块
pip install -r requirements.txt
- 连接数据库 相关配置在wyyComments\util\db_util.py中已经详细说明,sql文件在source文件夹中
- 配置bark 配置bark纯粹就是为了好玩,bark的具体说明可以点这里。配置完毕后,需要将三个参数写在对应配置文件,路径为wyyComments\barktime\bark.conf 如果不想配置似乎报不报错看缘分,注释掉wyyComments\util\getsinglesongallcomment_util.py的149和150行可解。
2019.03.19 更新
似乎和session一级cookie这些关系,网易云api做了限制,只有前1w条和最后1w条能正常显示,中间的就会无限重复,这个“官方bug”只能等限制结束了在说吧,此项目暂时告一段落。