一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

前几天小编给大家分享了数据可视化分析，在文尾提及了网易云音乐歌词爬取，今天小编给大家分享网易云音乐歌词爬取方法。

本文的总体思路如下：

找到正确的URL，获取源码；

利用bs4解析源码，获取歌曲名和歌曲ID；

调用网易云歌曲API，获取歌词；

将歌词写入文件，并存入本地。

本文的目的是获取网易云音乐的歌词，并将歌词存入到本地文件。整体的效果图如下所示：

本文以民谣歌神赵雷为数据采集对象，专门采集他的歌曲歌词，其他歌手的歌词采集方式可以类推，下图展示的是《成都》歌词。

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

一般来说，网页上显示的URL就可以写在程序中，运行程序之后就可以采集到我们想要的网页源码。But在网易云音乐网站中，这条路行不通，因为网页中的URL是个假URL，真实的URL中是没有/#号的。废话不多说，直接上代码。

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

本文利用requests、bs4、json和re模块来采集网易云音乐歌词，记得在程序中添加headers和反盗链referer以模拟浏览器，防止被网站拒绝访问。这里的get_html方法专门用于获取源码，通常我们也要做异常处理，未雨绸缪。

获取到网页源码之后，分析源码，发现歌曲的名字和ID藏的很深，纵里寻她千百度，发现她在源码的294行，藏在

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

接下来我们利用美丽的汤来获取目标信息，直接上代码，如下图：

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

此处要注意获取ID的时候需要对link进行切片处理，得到的数字便是歌曲的ID；另外，歌曲名是通过get_text()方法获取到的，最后利用zip函数将歌曲名和ID一一对应并进行返回。

得到ID之后便可以进入到内页获取歌词了，但是URL还是不给力，如下图：

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

虽然我们可以明白的看到网页上的白纸黑字呈现的歌词信息，但是我们在该URL下却无法获取到歌词信息。小编通过抓包，找到了歌词的URL，发现其是POST请求还有一大堆看不懂的data，总之这个URL是不能为我们效力。那该点解呢？

莫慌，小编找到了网易云音乐的API，只要把歌曲的ID放在API链接上便可以获取到歌词了，代码如下：

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

在API中歌词信息是以json格式加载的，所以需要利用json将其进行序列化解析出来，并配合正则表达式进行清洗歌词，如果不用正则表达式进行清洗的话，得到原始的数据如下所示（此处以赵雷的歌曲《成都》为例）：

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

很明显歌词前面有歌词呈现的时间，对于我们来说其属于杂质信息，因此需要利用正则表达式进行匹配。诚然，正则表达式并不是唯一的方法，小伙伴们也可以采取切片的方式或者其他方法进行数据清洗，在此就不赘述了。

得到歌词之后便将其写入到文件中去，并存入到本地文件中，代码如下：

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

现在只要我们运行程序，输入歌手的ID之后，程序将自动把该歌手的所唱歌曲的歌词抓取下来，并存到本地中。如本例中赵雷的ID是6731，输入数字6731之后，赵雷的歌词将会被抓取到，如下图所示：

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

之后我们就可以在脚本程序的同一目录下找到生成的歌词文本，歌词就被顺利的爬取下来了。

相信大家对网易云歌词爬取已经有了一定的认识了，不过easier said than down，小编建议大家动手亲自敲一下代码，在实践中你会学的更快，学的更多的。

这篇文章教会大家如何采集网易云歌词，那网易云歌曲如何采集呢？且听小编下回分解~~~

想学习更多Python网络爬虫与数据挖掘知识，可前往专业网站：http://pdcfighting.com/

手把手教你用Python网络爬虫获取网易云音乐歌曲
前天给大家分享了用Python网络爬虫爬取了网易云歌词,在文尾说要爬取网易云歌曲,今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将 ...
一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接
[一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...
NetCloud——一个网易云音乐评论抓取和分析的Python库
在17的四月份,我曾经写了一篇关于网易云音乐爬虫的文章,还写了一篇关于评论数据可视化的文章.在这大半年的时间里,有时会有一些朋友给我发私信询问一些关于代码方面的问题.所以我最近抽空干脆将原来的代码整理 ...
python网络爬虫 - 设定重试次数内反复抓取
import urllib.request def download(url, num_retries=2): print('Downloading:', url) try: html = urlli ...
python网络爬虫（1）静态网页抓取
获取响应内容: import requests r=requests.get('http://www.santostang.com/') print(r.encoding) print(r.statu ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
python3&period;4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取*网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python 网络爬虫（二） BFS不断抓URL并放到文件中
上一篇的python 网络爬虫(一) 简单demo 还不能叫爬虫,只能说基础吧,因为它没有自动化抓链接的功能. 本篇追加如下功能: [1]广度优先搜索不断抓URL,直到队列为空 [2]把所有的URL写 ...

随机推荐

[转]HDFS中JAVA API的使用
HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的文件进行操作的过程. 对分HDFS中的 ...
Light OJ 1030 - Discovering Gold
题目大意: 给你一个1*N的方格,你初始位置是在1,给你一个骰子,假设你现在的位置是X,你投掷一个骰子掷的点数是y, 那么你的新位置就是 X+y, 并且你可以得到新位置的宝藏.假如X+y > N ...
MySQL（一） -- MySQL学习路线、数据库的基础、关系型数据库、关键字说明、SQL、MySQL数据库、MySQL服务器对象、SQL的基本操作、库操作、表操作、数据操作、中文数据问题、校对集问题、web乱码问题
1 MySQL学习路线基础阶段:MySQL数据库的基本操作(增删改查),以及一些高级操作(视图.触发器.函数.存储过程等). 优化阶段:如何提高数据库的效率,如索引,分表等. 部署阶段:如何搭建真实 ...
Redis 学习笔记-5种数据类型的基本操作
1.string类型基本操作列表: GET 获取指定键对应的值 SET 设定键值 DEL 删除指定键对应的值(对所有数据类型都有效) > set hello world OK > get ...
(办公)git入门
git版本库(分布式版本控制系统),可以记录每次文件的改动,是程序开发的好帮手. 1.创建版本库: repository,你可以简单理解成一个目录,这个目录里面的所有文件都可以被Git管理起来,每个文 ...
requests 进阶用法学习（文件上传、cookies设置、代理设置）
一.文件上传 1.模拟网站提交文件提交此图片,图片名称:timg.jpg import requests files={ 'file':open('timg.jpg','rb') } respons ...
基于vue和svg的树形UI
vue-svg-tree 基于vue和svg的动态树形UI 截图应用 npm install vue-svg-tree 示例 <template> <div> <v ...
Apache Struts2高危漏洞（S2-057CVE-2018-11776）
花了两天时间,特此记录一:背景: 2018年8月22日,Apache Strust2发布最新安全公告,Apache Struts2存在远程代码执行的高危漏洞. 二:漏洞产生原理: 1.需要知道对应跳 ...
【接口时序】7、VGA接口原理与Verilog实现
一. 软件平台与硬件平台软件平台: 1.操作系统:Windows-8.1 2.开发套件:ISE14.7 3.仿真工具:ModelSim-10.4-SE 硬件平台: 1. FPGA型号:Xilinx公 ...
TextView
wrap_content 设置TextView的宽度和高度为 wrap_content,则其大小会自动适应文本. textSize 设置字体大小 textColor 设置字体颜色 <TextVi ...

秒客网

一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

随机推荐

相关文章