在查找数据集的时候发现,并不是所有的数据集都是以csv的格式存储,也就是每一列特征数据的分割并不是都以逗号分割,有的数据格式是以空格为分割
例如.data格式,
接下来就实现对.data格式数据的读取:
(数据来源于Boston房价预测数据集,文件名称为“housing.data”)
1
2
|
import pandas as pd
data = pd.read_csv( './housing.data' , delim_whiteshape = True )
|
以上代码就是实现了对空格的分割,但是不知道针对也是以一列存储,并且数据分割也是空格的csv文件此方法还行得通不。
另外pd.read_csv()中的参数sep和delimiter表示的意义一样,具体如何使用不清楚,目前用到不多。
遇到读取文件不知如何操作的,最后要访问下官方文档或者google查询。
pd.read_csv官方文档
另外,可以直接在原数据集文件加后缀名.csv即可转换成csv文件,但前提是data中的数据已经以,分割好了。
pd.read_csv()中读取文件时,默认第一行作为列名,但有时候第一行也是我们需要的数据,这时需制定参数header=None,或者给每列提前设置好名字,names=[‘column0',‘column1',…]
补充:python 实现以空格分隔的文件读写及二维数组按列折半查找
最近文件读写的工作比较多,每一次读文件都会写单独的函数来适应文件格式,所以写了一个类对文件进行操作。
(用pandas.read_csv读取文件更好用)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
|
import os
class DealData:
# 数据加载函数
def load( self , filename):
data = []
file = open (filename, 'r' )
for line in file .readlines():
line = line.strip( '\n' ) # 除去换行
line = line.split( ' ' ) # 文件以“ ”分隔
if "" in line: # 解决每行结尾有空格的问题
line.remove("")
data.append(line)
file .close()
return data
# 折半查找 # array是一个二维数组,函数实现的功能是按照array的第lie列折半查找
def search( self , array, lie, target):
low = 0
high = len (array) - 1
while array[low][lie] < = array[high][lie]:
mid = int ((low + high) / 2 )
midval = array[mid][lie]
if midval < target:
low = mid + 1
elif midval > target:
high = mid - 1
if high < 0 or low > = len (array):
break
return high
# 将数据保存到文件
def save( self , data, filename):
file = open (filename, 'w' )
for i in range ( 0 , len (data), 1 ):
for k in range ( 0 , len (data[i]), 1 ):
file .write( str (data[i][k]))
file .write( " " )
file .write( "\n" )
file .close()
|
可以将Dealdata类单独创建一个python文件,命名为Dealdata,调用方法如下:
1
2
3
|
from DealData import DealData
deal = DealData()
totaldata = deal.load( "E:\low_data.txt" )
|
之前先引用类:from Dealdata import Dealdata, 其中第一个Dealdata为被调用的python文件名, 第二个Dealdata为被调用的类名。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。
原文链接:https://blog.csdn.net/weixin_44778883/article/details/90051029