Python基于皮尔逊系数实现股票预测

 # -*- coding: utf-8 -*-

 """

 Created on Mon Dec  2 14:49:59 2018

 @author: zhen

 """

 import matplotlib.pyplot as plt

 import numpy as np

 import pandas as pd

 from datetime import datetime

 def normal(a):  #最大值最小值归一化

     return (a - np.min(a)) / (np.max(a) - np.min(a)+0.000001)

 def normalization(x): # np.std:计算矩阵的标准差（方差的算术平方根）

     return (x - np.mean(x)) / np.std(x)

 def corrcoef(a,b):

     corrc = np.corrcoef(a,b) # 计算皮尔逊相关系数，用于度量两个变量之间的相关性，其值介于-1到1之间

     corrc = corrc[0,1]

     return (16 * ((1 - corrc) / (1 + corrc)) ** 1) # ** 表示乘方

 startTimeStamp = datetime.now() # 获取当前时间

 # 加载数据

 filename = 'C:/Users/zhen/.spyder-py3/sh000300_2017.csv'

 # 获取第一，二列的数据

 all_date = pd.read_csv(filename,usecols=[0, 1, 3], dtype = 'str')

 all_date = np.array(all_date)

 data = all_date[:, 0]

 times = all_date[:, 1]

 data_points = pd.read_csv(filename,usecols=[3])

 data_points = np.array(data_points)

 data_points = data_points[:,0] #数据

 topk = 10 #只显示top-10

 baselen = 100

 basebegin = 361

 basedata = data[basebegin]+' '+times[basebegin]+'~'+data[basebegin+baselen-1]+' '+times[basebegin+baselen-1]

 base = data_points[basebegin:basebegin+baselen]#一天的数据是240个点

 length = len(data_points) #数据长度

 # 分割片段

 subseries = []

 dateseries = []

 for j in range(0,length):

     if (j < (basebegin - baselen) or j > (basebegin + baselen - 1)) and j <length - baselen:

         subseries.append(data_points[j:j+baselen])

         dateseries.append(j) #开始位置

 # 片段搜索

 listdistance = []

 for i in range(0, len(subseries)):

     tt = np.array(subseries[i])

     distance = corrcoef(base, tt)

     listdistance.append(distance)

 # 排序

 index = np.argsort(listdistance,kind='quicksort') #排序，返回排序后的索引序列

 # 显示，要匹配的数据

 plt.figure(0)

 plt.plot((base),label = basedata, linewidth='')

 plt.legend(loc='upper left')

 plt.title('Base data')

 # 原始数据

 plt.figure(1)

 num = index[0]

 length = len(subseries[num])

 begin = data[dateseries[num]]+' '+times[dateseries[num]]

 end = data[dateseries[num]+length-1]+' '+times[dateseries[num]+length-1]

 label = begin+'~'+end

 plt.plot((subseries[num]), label=label, linewidth='')

 plt.legend(loc='upper left')

 plt.title('Similarity data')

 # 结果集对比

 plt.figure(2)

 plt.plot(normalization(base),label= basedata,linewidth='')

 length = len(subseries[num])

 begin = data[dateseries[num]] + ' ' + times[dateseries[num]]

 end = data[dateseries[num] + length - 1] + ' ' + times[dateseries[num] + length - 1]

 label = begin + '~' + end

 plt.plot(normalization(subseries[num]), label=label, linewidth='')

 plt.legend(loc='lower right')

 plt.title('normal similarity search')

 plt.show()

 endTimeStamp=datetime.now()

 print('run time', (endTimeStamp-startTimeStamp).seconds, "s")
结果：
Python基于皮尔逊系数实现股票预测
秒客网

Python基于皮尔逊系数实现股票预测

相关文章