python 爬取马蜂窝景点翻页文字评论的实现

使用Chrome、python3.7、requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html)。

首先，我们复制一段评论，查看网页源代码，按Ctrl+F查找，发现没有找到评论，说明评论内容不在http://www.mafengwo.cn/poi/5426285.html页面。

回到页面，划到评论列表，右键检查，选择Network，然后点击后一页翻页，观察Network里的变化，我们要爬的文件就在下面的某个文件里（主要找XHR和JS两个模块）。选择Preview可以更好的让我们寻找我们想要的文件，然后选择Headers找到我们要爬的url。

python 爬取马蜂窝景点翻页文字评论的实现

经过分析我们找到要爬取的url是http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18102698237405245767_1579401525334&params=%7B%22poi_id%22%3A%225426285%22%2C%22page%22%3A2%2C%22just_comment%22%3A1%7D&_ts=1579402072160&sn=20e98d65a0&=1579402072161
然而点进去是这样的

python 爬取马蜂窝景点翻页文字评论的实现

这个时候对比一下这两个页面的Request Headers，发现原页面多了个Refer参数

原页面

python 爬取马蜂窝景点翻页文字评论的实现

然后看一下请求get请求需要的参数Query String Parameters，其中poi_id是景点id，page是评论页面（翻页只用改变page的值就行）。

python 爬取马蜂窝景点翻页文字评论的实现

									import re

									import time

									import requests

									#评论内容所在的url，？后面是get请求需要的参数内容

									comment_url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?'

									requests_headers={

									  'Referer': 'http://www.mafengwo.cn/poi/5426285.html',

									  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'

									}#请求头

									for num in range(1,6):

									  requests_data={

									    'params': '{"poi_id":"5426285","page":"%d","just_comment":1}' % (num)  #经过测试只需要用params参数就能爬取内容

									    }

									  response =requests.get(url=comment_url,headers=requests_headers,params=requests_data)

									  if 200==response.status_code:

									    page = response.content.decode('unicode-escape', 'ignore').encode('utf-8', 'ignore').decode('utf-8')#爬取页面并且解码

									    page = page.replace('\\/', '/')#将\/转换成/

									    #日期列表

									    date_pattern = r'<a class="btn-comment _j_comment" id="codetool">

结果

python 爬取马蜂窝景点翻页文字评论的实现

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持服务器之家。

原文链接：https://blog.csdn.net/qq_45373920/article/details/104037607

马蜂窝

Python

爬取

延伸 · 阅读

2020-04-08python机器学习库xgboost的使用
2020-04-08python爬取本站电子书信息并入库的实现代码
2020-04-07举例分析Python中设计模式之外观模式的运用
2020-04-05Python实现FLV视频拼接功能
2020-04-05python同义词替换的实现（jieba分词）
2020-04-05TIOBE 4月榜单出炉：Python进前三，少儿编程语言

精彩推荐

Python

python处理csv数据的方法

这篇文章主要介绍了python处理csv数据的方法,实例分析了Python处理csv数据的技巧,需要的朋友可以参考下 ...

kirkversion12922019-11-27
Python

使用tensorboard可视化loss和acc的实例

今天小编就为大家分享一篇使用tensorboard可视化loss和acc的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧 ...

正在努力学习的大金1342020-04-03
Python

TensorFlow实现打印每一层的输出

今天小编就为大家分享一篇TensorFlow实现打印每一层的输出，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧 ...

Kluiverthoo3002020-04-03
Python

python提取内容关键词的方法

这篇文章主要介绍了python提取内容关键词的方法,适用于英文关键词的提取,非常具有实用价值,需要的朋友可以参考下 ...

上大王3472019-12-03
Python

Python比较两个图片相似度的方法

这篇文章主要介绍了Python比较两个图片相似度的方法,涉及Python操作pil模块实现图片比较的技巧,具有一定参考借鉴价值,需要的朋友可以参考下 ...

pythoner2952019-11-28
Python

Python实现将n个点均匀地分布在球面上的方法

这篇文章主要介绍了Python实现将n个点均匀地分布在球面上的方法,涉及Python绘图的技巧与相关数学函数的调用,具有一定参考借鉴价值,需要的朋友可以参考下...

redraiment3202019-11-27
Python

django 文件上传功能的相关实例代码(简单易懂)

这篇文章主要介绍了django 文件上传功能的相关实例代码,代码简单易懂，非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下 ...

二十七º3932020-04-02
Python

tensorflow-gpu安装的常见问题及解决方案

这篇文章主要介绍了tensorflow-gpu安装的常见问题及解决方案，本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友参考下吧,需要的朋友可以...

上山老人1972020-04-08

秒客网

python 爬取马蜂窝景点翻页文字评论的实现

延伸 · 阅读

python处理csv数据的方法

使用tensorboard可视化loss和acc的实例

TensorFlow实现打印每一层的输出

python提取内容关键词的方法

Python比较两个图片相似度的方法

Python实现将n个点均匀地分布在球面上的方法

django 文件上传功能的相关实例代码(简单易懂)

tensorflow-gpu安装的常见问题及解决方案

使用Python抓取模板之家的CSS模板

Python 列表(List)操作方法详解

相关文章