- 获取url
- 设定请求头
- requests发出get请求
- 实例化BeautifulSoup对象
- BeautifulSoup提取数据
import requests
2 from bs4 import BeautifulSoup
3
4 url = "https://s.weibo.com/top/summary"
5 date = {
6 "Refer":"top_hot",
7 "topnav":"1",
8 "wvr":"6"
9 }
10 headers = {
11 "User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_6 4; rv:81.0) Gecko/20100101 Firefox/81.0"
12 }
13 response = requests.get(url,params = date,headers = headers )
14 content = response.content.decode("utf-8")
15 soup = BeautifulSoup(content,"lxml")
16 tds_list = soup.find_all("td",class_ = "td-02")[1:]
17 event_list = []
18 for td in tds_list:
19 event = td.find_all("a")[0].string
20 hot = td.find_all("span")[0].string
21 sina = {
22 "事件":event,
23 "热度":hot
24 }
25 event_list.append(sina)
26 for event in event_list:
27 print(event)
28 with open("weobohot.txt","w") as f:
29 for event in event_list:
30 f.write(str(event) + "\n"
生成的weohot.txt文件
{'事件': '冯绍峰给赵丽颖的祝福评论被淹了', '热度': '4907890'}
{'事件': '成都大学党委书记毛洪涛的遗体已被找到', '热度': '1643868'}
{'事件': '任嘉伦在发光', '热度': '1635768'}
{'事件': '李玟身材', '热度': '1598868'}
{'事件': '苹果回应不配耳机和充电器', '热度': '1521308'}
{'事件': '胡杏儿首次直播', '热度': '1364689'}
{'事件': '狗仔101', '热度': '1334856'}
{'事件': '复方板蓝根对新冠病毒有效', '热度': '1057010'}
{'事件': '18岁女大学生捐献遗体', '热度': '562891'}
{'事件': '泰国爆发*示威活动', '热度': '560373'}
{'事件': '南航回应乘客抠出氧气面罩致延误', '热度': '560244'}
{'事件': '教育部谈体育老师当班主任遭投诉', '热度': '558928'}
{'事件': '游客晕倒遇18名医生救助守护', '热度': '471445'}
{'事件': '中考体育将达到和语数外同分值水平', '热度': '463011'}
{'事件': '4人26天捕鸟8万余只', '热度': '442804'}
{'事件': 'S10门票摇号结果', '热度': '437430'}
{'事件': '喜宝', '热度': '402599'}
{'事件': '凤姐', '热度': '402548'}
{'事件': '韩国献血者中有42人确诊新冠', '热度': '395386'}
{'事件': '军训下雨时袜子没洗干净', '热度': '393559'}
{'事件': '吴中天给杨子姗做9周年视频', '热度': '386616'}
{'事件': '王清远', '热度': '383780'}
{'事件': '青岛此次疫情为医院聚集性疫情', '热度': '382168'}
{'事件': '上海破获首例网红直播带货售假案', '热度': '315914'}
{'事件': '南方菜市场有多贴心', '热度': '281595'}
{'事件': '鹿晗重庆', '热度': '275778'}
{'事件': '龙丹妮收到报备了吗', '热度': '275400'}
{'事件': '原来河狸也会搓澡', '热度': '257896'}
{'事件': '打工人你好狠的心', '热度': '218550'}
{'事件': '雅思', '热度': '183550'}
{'事件': '广州疫情', '热度': '183547'}
{'事件': '夏之光恋情', '热度': '183523'}
{'事件': '刘诗诗复古蜂窝头', '热度': '183514'}
{'事件': '花都', '热度': '183497'}
{'事件': '老师将一次性餐盒改造成昙花灯', '热度': '183485'}
{'事件': '唐嫣头巾造型', '热度': '183445'}
{'事件': '江苏大学通报学生坠楼身亡事件', '热度': '183218'}
{'事件': '三句话读懂国产剧', '热度': '179326'}
{'事件': '成都西岭雪山下雪', '热度': '164400'}
{'事件': '妈妈神奇的语言描述能力', '热度': '152580'}
{'事件': '任豪王者荣耀', '热度': '152088'}
{'事件': '任豪道歉', '热度': '150707'}
{'事件': '李栋旭身材', '热度': '149847'}
{'事件': '易建联康复时间预计30周', '热度': '149218'}
{'事件': '全国统一的家庭群名称', '热度': '148772'}
{'事件': '电竞班的作业', '热度': '145234'}
{'事件': '乡村医生遗愿穿戴整齐捐给国家', '热度': '144878'}
{'事件': '张培萌妻子称只想要女儿抚养权', '热度': '144583'}
{'事件': '同济大学新生作业每份10米长', '热度': '143680'}
{'事件': '全球首个埃博拉病毒治疗方法', '热度': '140690'}
可以看出我们已经成功的爬取到了热搜榜的内容
BeautifulSoup爬取微博热搜榜的更多相关文章
-
nodejs实现定时爬取微博热搜
The summer is coming " 我知道,那些夏天,就像青春一样回不来. - 宋冬野 青春是回不来了,倒是要准备渡过在西安的第三个夏天了. 废话 我发现,自己对 coding 这 ...
-
Python网络爬虫-爬取微博热搜
微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1& ...
-
Python爬取微博热搜以及链接
基本操作,不再详述 直接贴源码(根据当前时间创建文件): import requests from bs4 import BeautifulSoup import time def input_to_ ...
-
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块 二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
-
【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
-
2020不平凡的90天,Python分析三个月微博热搜数据带你回顾
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
-
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名 作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
-
爬虫系列(1)-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
-
ASO关键词优化技巧:如何充分利用热搜榜与相关热点?
ASO关键词优化对提高市场曝光率.增加APP下载量有着至关重要的作用.那如何充分利用热搜榜与相关热点来进行ASO优化呢? 一.产品定位 因为此文主要是讲优化APP关键词的,所以产品定位这一块就 ...
随机推荐
-
ASP.NET Identity入门系列教程(一) 初识Identity
摘要 通过本文你将了解ASP.NET身份验证机制,表单认证的基本流程,ASP.NET Membership的一些弊端以及ASP.NET Identity的主要优势. 目录 身份验证(Authentic ...
-
我的微软MVP申请历程
10月10日晚更新: 今天看到这篇博客好多朋友点了推荐上了博客园首页最多推荐,很开心,感谢大家的鼓励! 张善友大哥也写过一篇文章: 10年微软MVP路(如何成为一个MVP?) 写的更为详细,大家也可以 ...
-
构建基于WinRT的WP8.1 App 02:数据绑定新特性
基于WinRT的Windows Phone 8.1以及Windows 8.1中Xaml数据绑定增加了一些新特性. FallBackValue属性:FallBackValue在绑定的值属性值不存在时,可 ...
-
Spring的DI(Ioc) - 利用构造器注入
1: 在给对象提供构造器 public class PersonServiceImpl implements PersonService { private PersonDao personDao; ...
-
SLF4J日志门面
SLF4J官网:http://www.slf4j.org/ SLF4J的作用通俗点讲,就是可以让我们的项目以最小的代价更换不同的日志系统.无需修改代码,只需要添加.删除相应的jar包和配置文件. 1. ...
-
java如何计算程序运行时间
long startTime = System.currentTimeMillis(); //获取开始时间 doSomething(); //测试的代码段 long endTime = S ...
-
POPTEST联合创始人李爱然的“IT培训创业的随想";
POPTEST联合创始人李爱然的“IT培训创业的随想" IT教育行业最大的问题是缺少像互联网行业一样的产品经理. 大多数IT教育机构在早期依靠个人或者一套课程开创了一定的局面,随着机构的壮大 ...
-
es6(二):解构赋值
ES中允许按照一定格式从数组,对象值提取值,对变量进行赋值,这就是解构(Destructuring) let [a,b,c]=[1,10,100] console.log(a,b,c)//1 10 1 ...
-
django模板引擎自定义变量
定义临时变量: {% with i=1 %} {{i}} {% endwith %} 定义对临时变量操作的tag 在templatetags中创建set_val.py 内容是 from django ...
-
Model First 开发方式
概述 在项目一开始,没有数据库时,可以借助 EF 设计模型,然后根据模型同步完成数据库中表的创建,这就是 Model First 开发方式. 总结一点就是:现有模型再有表. 创建 Model Firs ...