python爬虫+数据可视化项目(一)
爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#)
爬取内容:全国实时温度最低的十个城市气温排行榜
使用工具:requests库实现发送请求、获取响应。
beautifulsoup实现数据解析、提取和清洗
pyechart模块实现数据可视化
爬取结果:柱状图可视化展示:
直接放代码(详细说明在注释里,欢迎同行相互交流、学习~):
import requests
from bs4 import BeautifulSoup
from pyecharts import Bar ALL_DATA = []
def send_parse_urls(start_urls):
headers = {
"User-Agent": "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
}
for start_url in start_urls:
response = requests.get(start_url,headers=headers)
# 编码问题的解决
response = response.text.encode("raw_unicode_escape").decode("utf-8")
soup = BeautifulSoup(response,"html5lib") #lxml解析器:性能比较好,html5lib:适合页面结构比较混乱的
div_tatall = soup.find("div",class_="conMidtab") #find() 找符合要求的第一个元素
tables = div_tatall.find_all("table") #find_all() 找到符合要求的所有元素的列表
for table in tables:
trs = table.find_all("tr")
info_trs = trs[2:]
for index,info_tr in enumerate(info_trs): # 枚举函数,可以获得索引
# print(index,info_tr)
# print("="*30)
city_td = info_tr.find_all("td")[0]
temp_td = info_tr.find_all("td")[6]
# if的判断的index的特殊情况应该在一般情况的后面,把之前的数据覆盖
if index==0:
city_td = info_tr.find_all("td")[1]
temp_td = info_tr.find_all("td")[7]
city=list(city_td.stripped_strings)[0]
temp=list(temp_td.stripped_strings)[0]
ALL_DATA.append({"city":city,"temp":temp})
return ALL_DATA def get_start_urls():
start_urls = [
"http://www.weather.com.cn/textFC/hb.shtml",
"http://www.weather.com.cn/textFC/db.shtml",
"http://www.weather.com.cn/textFC/hd.shtml",
"http://www.weather.com.cn/textFC/hz.shtml",
"http://www.weather.com.cn/textFC/hn.shtml",
"http://www.weather.com.cn/textFC/xb.shtml",
"http://www.weather.com.cn/textFC/xn.shtml",
"http://www.weather.com.cn/textFC/gat.shtml",
]
return start_urls def main():
"""
主程序逻辑
展示全国实时温度最低的十个城市气温排行榜的柱状图
"""
# 1 获取所有起始url
start_urls = get_start_urls()
# 2 发送请求获取响应、解析页面
data = send_parse_urls(start_urls)
# print(data)
# 4 数据可视化
#1排序
data.sort(key=lambda data:int(data["temp"]))
#2切片,选择出温度最低的十个城市和温度值
show_data = data[:10]
#3分出城市和温度
city = list(map(lambda data:data["city"],show_data))
temp = list(map(lambda data:int(data["temp"]),show_data))
#4创建柱状图、生成目标图
chart = Bar("中国最低气温排行榜") #需要安装pyechart模块
chart.add("",city,temp)
chart.render("tempture.html") if __name__ == '__main__':
main()
请关注,未完待续!
python爬虫+数据可视化项目(关注、持续更新)的更多相关文章
-
Python爬虫开发与项目实战
Python爬虫开发与项目实战(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...
-
Python爬虫开发与项目实战pdf电子书|网盘链接带提取码直接提取|
Python爬虫开发与项目实战从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算.大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应 ...
-
python 爬虫数据存入csv格式方法
python 爬虫数据存入csv格式方法 命令存储方式:scrapy crawl ju -o ju.csv 第一种方法:with open("F:/book_top250.csv" ...
-
python爬虫28 | 你爬下的数据不分析一波可就亏了啊,使用python进行数据可视化
通过这段时间 小帅b教你从抓包开始 到数据爬取 到数据解析 再到数据存储 相信你已经能抓取大部分你想爬取的网站数据了 恭喜恭喜 但是 数据抓取下来 要好好分析一波 最好的方式就是把数据进行可视化 这样 ...
-
Python:数据可视化pyecharts的使用
什么是pyecharts? pyecharts 是一个用于生成 Echarts 图表的类库. echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化.pyecharts 是一个用于生 ...
-
爬虫综合大作业——网易云音乐爬虫 &; 数据可视化分析
作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 爬虫综合大作业 选择一个热点或者你感兴趣的主题. 选择爬取的对象 ...
-
个人开源项目testall 持续更新中···
项目在GitHub上:https://github.com/x113773/testall ,喜欢的给个星星呀,亲~ 打算把用到过的和学习过的,所有前后端技术都集成到这个项目里,并在issues里配以 ...
-
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
-
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
随机推荐
-
ASP.NET MVC Anti-XSS方案
1:Form提交模式 在使用Form提交时,MVC框架提供了一个默认的机制.如果数据中含有恶意字,则会自动转向出错页面. 2:Ajax+JSON提交模式. MVC框架未提供对于Json数据的Ant ...
-
NoSQL学习二:MongoDB基本管理命令
MongoDB命令学习 一.MongoDB命令帮助 在安装MongoDB后,启动服务器进程(mongod),可以通过在客户端命令mongo实现对MongoDB的管理和监控: 这是MongoDB最上层 ...
-
C# 常用分页
var num = TCalcPager.CalcPageCount(addList.Count, TDefautValue.PageSize); ; i < num; i++) { var r ...
-
python list append方法
keyValueResult = {'a': 1, 'b': 2} sendData = [] def set_push_format(ip): data_format = { "endpo ...
-
WPF使用RoutedCommand自定义命令
主要代码如下所示: /// <summary> /// 声明并定义命令. /// </summary> RoutedCommand ClearCommand = new Rou ...
-
oracle表空间使用情况查询
1. 查看所有表空间大小 SQL> select tablespace_name,sum(bytes)/1024/1024 from dba_data_files 2 group by tabl ...
-
Java集合框架之四大接口、常用实现类
Java集合框架 <Java集合框架的四大接口> Collection:存储无序的.不唯一的数据:其下有List和Set两大接口. List:存储有序的.不唯一的数据: Set:存储无序的 ...
-
linux安装windows启动盘
安装gparted
-
巨杉数据库加入CNCF云原生应用计算基金会,共建开源技术生态
近日,巨杉数据库正式加入全球*开源社区,云原生应用计算基金会 (Cloud Native Computing Foundation,以下简称CNCF),成为CNCF基金会会员,是中国最早加入的开源云 ...
-
C#取出重复的方式以及用字典存储以键存储集合的方法
最近在做项目的时候,发现有些需求需要特别的方式来实现.下面看代码 private List<string> firstType = new List<string>(); pr ...