基于爬取百合网的数据，用matplotlib生成图表

爬取百合网的数据链接：http://www.cnblogs.com/YuWeiXiF/p/8439552.html

总共爬了22779条数据。第一次接触matplotlib库，以下代码参考了matplotlib官方文档：https://matplotlib.org/users/index.html。

数据查询用到了两个方法：getSexNumber(@sex varchar(2),@income varchar(30))、gethousingNumber(@sex varchar(2),@housing varchar(6))来简化查询语句的长度，代码如下：

 go

 create function getSexNumber(@sex varchar(),@income varchar())

 returns int

 as

 begin

     return(select count(id) from users where sex = @sex and income = @income)

 end

 go

 go

 create function gethousingNumber(@sex varchar(),@housing varchar())

 returns int

 as

 begin

     return(select count(id) from users where sex = @sex and housing = @housing)

 end

 go

以下代码为SQL Server 数据库操作：

 #__author: "YuWei"

 #__date: 2018/2/11

 import numpy as np

 import matplotlib.pyplot as plt

 import pymssql

 def db(sql):

     """

     数据库相关操作

     :param sql: sql语句

     :return: 查询的结果集，list封装

     """

     conn = pymssql.connect(host='localhost', user='sa', password='123456c', database='Baihe', charset="utf8")

     cur = conn.cursor()

     cur.execute(sql)

     row = cur.fetchone() # 指向结果集的第一行，

     data = [] # 返回的list

     while row:

         rows = list(row)

         for i in range(len(rows)): # 针对rows的每项编码

             try:

                 rows[i] = rows[i].encode('latin-1').decode('gbk')

             except AttributeError:pass

         data.append(rows) # 向data加数据

         row = cur.fetchone() #

     print(data)

     cur.close()

     conn.close()

     return data

生成各工资段人数占总人数比图:

 def builder_income_ratio():

     """

     生成各工资段人数占总人数比图

     :return: 无

     """

     data_list = db("select income,count(id) from users group by income")

     income_data_list = [] # 数据

     income_labels_list = [] # 图例

     for data in data_list:

         income_data_list.append(data[1])

         income_labels_list.append(data[0])

     income_data_list.remove(income_data_list[6]) # 删掉不要的数据

     income_labels_list.remove(income_labels_list[6]) # 删掉不要的数据

     # 画饼图

     plt.pie(income_data_list,labels=income_labels_list,colors=['c','m','r','g'],startangle=30,

             shadow=True,explode=(0, 0, 0.1, 0, 0, 0, 0.1, 0, 0.1, 0, 0, 0),autopct='%.1f%%')

     plt.title('各工资段人数占总人数比') # 标题

     plt.show() # 显示

执行效果如下：

基于爬取百合网的数据，用matplotlib生成图表

生成各工资段男，女人数图：

 def builder_sex_ratio():

     """

     生成各工资段男，女人数图

     :return: 无

     """

     data_list = db("select income,dbo.getSexNumber('男',income) as 男 ,dbo.getSexNumber('女',income) as 女 "

                     "from users group by income")

     men = [] # 男

     women = [] # 女

     labels =[] # 图例

     for data in data_list:

         labels.append(data[0])

         men.append(data[1])

         women.append(data[2])

     men.remove(men[6]) # 删掉不要的数据

     women.remove(women[6]) # 删掉不要的数据

     labels.remove(labels[6]) # 删掉不要的数据

     max_line = 12 # 12个

     fig,ax = plt.subplots()

     line = np.arange(max_line) # [0,1,2,3,4,5,6,7,8,9,10,11]

     bar_width = 0.4 # 条形之间的宽度

     # 画条形图

     ax.bar(line, men, bar_width,alpha=0.3, color='b',label='男')

     ax.bar(line+bar_width, women, bar_width,alpha=0.3, color='r',label='女')

     ax.set_xlabel('工资段')

     ax.set_ylabel('人数')

     ax.set_title('各工资段男，女人数图')

     ax.set_xticks(line + bar_width / 2) # 保证条形居中

     ax.set_xticklabels(labels)

     # 画两条线

     plt.plot([0.04, 1.04, 2.04, 3.04, 4.04, 5.04, 6.04, 7.04, 8.04, 9.04, 10.04, 11.04], men, label='男')

     plt.plot([0.4, 1.4, 2.4, 3.4, 4.4, 5.4, 6.4, 7.4, 8.4, 9.4, 10.4, 11.4], women, label='女')

     ax.legend()

     fig.tight_layout()

     # fig.savefig("1.png") # 生成图片

     plt.show()

执行效果如下：

基于爬取百合网的数据，用matplotlib生成图表

生成男，女平均身高图：

 def builder_age_ratio():

     """

     生成男，女平均身高图

     :return:

     """

     data_list = db("select sex,avg(height) as 平均升高 from users group by sex")

     sex = [] # 性别

     number = [] # 人数

     for data in data_list:

         sex.append(data[0])

         number.append(data[1])

     # 画条形图

     plt.bar(sex[0], number[0], label="男", color='g',width=0.03)

     plt.bar(sex[1], number[1], label="女", color='r',width=0.03)

     plt.legend()

     plt.xlabel('性别')

     plt.ylabel('身高')

     plt.title('男女平均身高图')

     plt.show()

执行效果如下：

基于爬取百合网的数据，用matplotlib生成图表

生成有房与无房的人数比例图：

 def builder_housing_sum_ratio():

     """

     生成有房与无房的人数比例图

     :return:

     """

     data_list = db("select housing,count(id) from users group by housing")

     housing_data_list = []

     housing_labels_list = []

     for data in data_list:

         housing_data_list.append(data[1])

         housing_labels_list.append(data[0])

     # 画饼图

     plt.pie(housing_data_list, labels=housing_labels_list, colors=['g', 'r'], startangle=30,

             shadow=True, explode=(0, 0), autopct='%.0f%%')

     plt.title('有房与无房的人数比例图')

     plt.show()

执行效果如下：

基于爬取百合网的数据，用matplotlib生成图表

生成有无房男女人数图：

 def builder_housing_ratio():

     """

     生成有无房男女人数图

     :return:

     """

     data_list = db("select dbo.gethousing('女',housing),dbo.gethousing('男',housing) from users group by housing")

     homey = [] # 有房

     homem = [] # 无房

     for data in data_list:

         homey.append(data[0])

         homem.append(data[1])

     max_line = 2 # 两个

     fig, ax = plt.subplots()

     line = np.arange(max_line) # [0,1]

     bar_width = 0.1 # 条形之间的宽度

     # 画条形

     ax.bar(line,homey , bar_width, alpha=0.3,color='b',label='女')

     ax.bar(line+bar_width, homem, bar_width,alpha=0.3,color='r',label='男')

     ax.set_xlabel('有无房')

     ax.set_ylabel('人数')

     ax.set_title('有无房男女人数图')

     ax.set_xticks(line + bar_width / 2) # 保持居中

     ax.set_xticklabels(['有房','无房'])

     ax.legend()

     fig.tight_layout()

     plt.show()

执行效果如下：

基于爬取百合网的数据，用matplotlib生成图表

基于爬取百合网的数据，用matplotlib生成图表的更多相关文章

爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
使用python抓取婚恋网用户数据并用决策树生成自己择偶观
最近在看<机器学习实战>的时候萌生了一个想法,自己去网上爬一些数据按照书上的方法处理一下,不仅可以加深自己对书本的理解,顺便还可以在github拉拉人气.刚好在看决策树这一章,书里面的理论 ...
python3 爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
Python爬虫爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
实例学习——爬取豆瓣网TOP250数据
开发环境:(Windows)eclipse+pydev 网址:https://book.douban.com/top250?start=0 from lxml import etree #解析提取数据 ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
八爪鱼采集器︱爬取外网数据（twitter、facebook）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 要想采集海外数据有两种方式:云采集+单机采集. ...
[转]使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...

随机推荐

iOS多线程简介
1.进程什么是进程进程是指在系统中正在运行的一个应用程序每个进程之间是独立的,每个进程均运行在其专用且受保护的内存空间内比如同时打开迅雷.Xcode,系统就会分别启动2个进程 2.线程什么是 ...
HTML 5 应用程序缓存(下)
Manifest 文件manifest 文件是简单的文本文件,它告知浏览器被缓存的内容(以及不缓存的内容). manifest 文件可分为三个部分: CACHE MANIFEST - 在此标题下列出的 ...
vpn,可以连接上,但是不能访问局域网内共享的文件怎么办
不选用VPN的上网关,就可以识别域用户访问共享文件的权限了,在VPN连接的属性里双击TCP/IP协议-高级-去掉勾选"在远程网络上使用默认网关".
关于 knockout js 学习中的疑问（1）
最近刚刚学习knockout中遇到如下问题: 1.在给viewModel定义一个方法时,有时后面跟的this,有的时候没有如下所示: this.fullName = ko.computed(fun ...
Web软件开发工具WebBuilder试用手记
最近公司在使用WebBuilder做项目开发,感觉很不错. 官方主页在这里:http://www.putdb.com/ 可以看到,这货不仅能使用可视化的方式拖拽出界面,还能直接在页面上完成数据库相关的 ...
java中volatile
volatile用来修饰变量.Java 语言中的 volatile 变量可以被看作是一种 "程度较轻的 synchronized":与 synchronized 块相比,volat ...
计算机网络之局域网&amp&semi;以太网
局域网的拓扑结构局域网最主要的特点是:网络为一个单位所拥有,且地理范围和站点数目均有限. 局域网具有广播功能,从一个站点可很方便地访问全网,局域网上的主机可共享连接在局域网上的各种硬件和软件资源. ...
StackExchange&period;Redis 异步超时解决方案
Timeout awaiting response (outbound=0KiB, inbound=45417KiB, 5891ms elapsed, timeout is 5000ms), comm ...
Codeforces 359E Neatness
Neatnes dfs一下用set维护能不能走, 进入的时候点亮灯, 回溯的时候灭灯. #include<bits/stdc++.h> #define LL long long #defi ...
python进阶之网络编程
1.tcp和udp协议的区别 TCP协议面向连接\可靠\慢\对传递的数据的长短没有要求两台机器之间要想传递信息必须先建立连接之后在有了连接的基础上,进行信息的传递可靠 : 数据不会丢失不会重 ...