2.2 数据的图形描绘以及处理(QQplot,归一化)

时间:2022-03-03 11:14:37
  1. QQplot

横坐标表示的是属性的其中一个测量值1,纵坐标表示另一个测量值2。散点是分位点。点的横纵坐标是这个测量值1和测量值2的分位点的取值。

from scipy import stats
from matplotlib import pyplot as plt
import statsmodels.api as sm
import numpy as np # example with the new ProbPlot class
#对比两个不同测试值的分布,而不是看测试值满足什么既定分布
import numpy as np
X = [5.89,49.59,59.98,159,17.99,56.99,82.75,142.19
,31,125.5,4.5,22,52.9,61,33.5,328,128,142.19,229,189.4]
Y= [1.4,1.5,2.2,2.7,3.2,3.9,4.1,4.1,4.6,4.8
,4.9,5.3,5.5,5.8,6.2,8.9,11.6,18,22.9,38.2]
x=np.array(X)
y=np.array(Y)
pp_x = sm.ProbPlot(x, fit=True)
pp_y = sm.ProbPlot(y, fit=True)
fig3 = pp_x.qqplot(other=pp_y, line='45')
plt.show()

2 normalization

  梯度下降的过程曲折,复杂的问题是因为没有同等程度的看待各个特征,即我们没有将各个特征量化到统一的区间。

所以数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。

Min-Max Scaling和Z-score normalization是常用的标准化处理方法。

  • 指定空间的min-max scaling(1,10)

price

5.89

49.59

59.98

159

17.99

56.99

82.75

142.19

31

125.5

weight

1.4

1.5

2.2

2.7

3.2

3.9

4.1

4.1

4.6

4.8

price

4.5

22

52.9

61

33.5

328

128

142.19

229

189.4

weight

4.9

5.3

5.5

5.8

6.2

8.9

11.6

18

22.9

38.2

标准化空间为(1,10):原理公式:

将数据归一化到[a,b]区间范围的方法:

(1)首先找到样本数据Y的最小值Min及最大值Max
(2)计算系数为:k=(b-a)/(Max-Min)
(3)得到归一化到[a,b]区间的数据:norY=a+k(Y-Min)

"""normolization 1-10
"""
import numpy as np def MaxMinNormalization(x):
min_x=np.min(x)
max_x=np.max(x)
k=(10-1)/(max_x-min_x)
norx=(x-min_x)*k+1
return norx
nums = [5.89,49.59,59.98,159,17.99,56.99,82.75,142.19
,31,125.5,4.5,22,52.9,61,33.5,328,128,142.19,229,189.4]
print(MaxMinNormalization(nums))

 3.评估方法

https://blog.csdn.net/hlang8160/article/details/78040311

 

2.2 数据的图形描绘以及处理(QQplot,归一化)的更多相关文章

  1. highCharts怎样实现json数组数据的图形展示

    昨天花了一天的时间学习了一下highcharts.主要的内容差点儿相同都看了一遍,然后试着写了一个完整的demo,期间可谓百转千回.费了不少功夫.终于还是实现了我所想要的效果图,接下来我将怎样实现统计 ...

  2. 【数据分析 R语言实战】学习笔记 第四章 数据的图形描述

    4.1 R绘图概述 以下两个函数,可以分别展示二维,三维图形的示例: >demo(graphics) >demo(persp) R提供了多种绘图相关的命令,可分成三类: 高级绘图命令:在图 ...

  3. 利用请求的JSON数据创建图形图层

    先看效果图: 包含三个部分:信息窗口(标题是要素的某个属性信息,其余是感兴趣的属性信息).图上图形按照某一属性大小不一显示,图例 1.创建底图用于存放以上三部分: "esri/Map&quo ...

  4. 使用PyQtGraph绘制数据滚动图形(4)

    app = pg.QtGui.QApplication([]) win = pg.GraphicsWindow(title="数据滚动") win.resize(600,300) ...

  5. 使用PyQtGraph绘制数据滚动图形(3)

    import pyqtgraph as pg import numpy as np from pyqtgraph.Qt import QtGui, QtCore app = pg.QtGui.QApp ...

  6. 简谈python从Oracle读取数据生成图形

    初次学习python,连接Oracle数据库,导出数据到Excel,再从Excel里面读取数据进行绘图,生成png保存出来. 1.涉及到的python模块(模块安装就不进行解释了): 1 import ...

  7. echarts呈现数据表图形

    讲一下echarts的用法,列举了两个图表,一个是单柱图,一个是多柱图,至于饼状图,只许更改echarts的类型就好了 一.首先是要两个div,用来存放两个图表 <div class=&quot ...

  8. 使用echarts去对数据进行图形分析

    首先导入js包:echarts.min.js <script type="text/javascript" src="js/echarts.min.js" ...

  9. java nio 缓冲区读写数据(图形详解)

    Position 您可以回想一下,缓冲区实际上就是美化了的数组.在从通道读取时,您将所读取的数据放到底层的数组中. position 变量跟踪已经写了多少数据.更准确地说,它指定了下一个字节将放到数组 ...

随机推荐

  1. Double Checked Locking 模式

    转自:http://blog.csdn.net/wwsoon/article/details/1485886 之前在使用Double Check Locking 模式时,发现自己还是不太理解.于是写个 ...

  2. java的Spring

    歇了一年都没有写过自己博客了,在学习新东西的时候 ,应该把它们记下来,学了.net 去了公司没有多久就转成了java虽然都在做,还是觉得.net好,不过东西还是应该学习下去,这样才是正解! 首先学习的 ...

  3. Oracle 经典语法(二)

    --提示:工资 = 薪金 + 佣金 1. 找出EMP表中的姓名(ENAME)第三个字母是A 的员工姓名.SELECT ENAME FROM SCOTT.EMP WHERE ENAME LIKE '__ ...

  4. 基于Spring MVC的简单HelloWorld实例

    1.导包 2.web.xml文件配置 3.包结构定义以及控制器的编写 4.xxxx-servlet文件配置 5.返回的视图(jsp)编写   6.源码 下载:http://download.csdn. ...

  5. ububru下 redmine安装教程

    1.安装之前确认你已经安装好了mysql 2.连接mysql创建数据库 mysql -u root –p CREATE DATABASE redmine CHARACTER SET utf8; CRE ...

  6. ABP分层架构

    ABP分层架构 基于DDD的现代ASP.NET开发框架--ABP系列之3.ABP分层架构 ABP是“ASP.NET Boilerplate Project (ASP.NET样板项目)”的简称. ABP ...

  7. &lbrack;BZOJ1096&rsqb; &lbrack;ZJOI2007&rsqb; 仓库建设 &lpar;斜率优化&rpar;

    Description L公司有N个工厂,由高到底分布在一座山上.如图所示,工厂1在山顶,工厂N在山脚.由于这座山处于高原内陆地区(干燥少雨),L公司一般把产品直接堆放在露天,以节省费用.突然有一天, ...

  8. 【LOJ&num;6073】距离(主席树)

    [LOJ#6073]距离(主席树) 题面 LOJ 题解 两点间的距离是\(dep[x]+dep[y]-2dep[LCA]\). 那么题目要求的东西拆开维护,唯一不好做的就是\(2dep[LCA]\). ...

  9. 论文阅读笔记三十一:YOLO 9000&colon; Better&comma;Faster&comma;Stronger&lpar;CVPR2016&rpar;

    论文源址:https://arxiv.org/abs/1612.08242 代码:https://github.com/longcw/yolo2-pytorch 摘要 本文提出YOLO9000可以检测 ...

  10. php能干什么?

    什么是cookies 简单的说,Cookie就是服务器暂存放在你计算机上的一笔资料,好让服务器用来辨认你的计算机.当你在浏览网站的时候,Web服务器会先送一小小资料放在你的计算机上,Cookie 会帮 ...