在数据分析中经常需要从csv格式的文件中存取数据以及将数据写书到csv文件中。将csv文件中的数据直接读取为 dict 类型和 DataFrame 是非常方便也很省事的一种做法,以下代码以鸢尾花数据为例。
csv文件读取为dict
代码
1
2
3
4
5
6
7
|
# -*- coding: utf-8 -*-
import csv
with open ( 'E:/iris.csv' ) as csvfile:
reader = csv.DictReader(csvfile, fieldnames = None ) # fieldnames默认为None,如果所读csv文件没有表头,则需要指定
list_1 = [e for e in reader] # 每行数据作为一个dict存入链表中
csvfile.close()
print list_1[ 0 ]
|
输出
{'Petal.Length': '1.4', 'Sepal.Length': '5.1', 'Petal.Width': '0.2', 'Sepal.Width': '3.5', 'Species': 'setosa'}
如果读入的每条数据需要单独处理且数据量较大,推荐逐条处理然后再放入。
1
2
3
|
list_1 = list ()
for e in reader:
list_1.append(your_func(e)) # your_func为每条数据的处理函数
|
多条类型为dict的数据写入csv文件
代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
# 数据
data = [
{ 'Petal.Length' : '1.4' , 'Sepal.Length' : '5.1' , 'Petal.Width' : '0.2' , 'Sepal.Width' : '3.5' , 'Species' : 'setosa' },
{ 'Petal.Length' : '1.4' , 'Sepal.Length' : '4.9' , 'Petal.Width' : '0.2' , 'Sepal.Width' : '3' , 'Species' : 'setosa' },
{ 'Petal.Length' : '1.3' , 'Sepal.Length' : '4.7' , 'Petal.Width' : '0.2' , 'Sepal.Width' : '3.2' , 'Species' : 'setosa' },
{ 'Petal.Length' : '1.5' , 'Sepal.Length' : '4.6' , 'Petal.Width' : '0.2' , 'Sepal.Width' : '3.1' , 'Species' : 'setosa' }
]
# 表头
header = [ 'Petal.Length' , 'Sepal.Length' , 'Petal.Width' , 'Sepal.Width' , 'Species' ]
print len (data)
with open ( 'E:/dst.csv' , 'wb' ) as dstfile: #写入方式选择wb,否则有空行
writer = csv.DictWriter(dstfile, fieldnames = header)
writer.writeheader() # 写入表头
writer.writerows(data) # 批量写入
dstfile.close()
|
上述代码将数据整体写入csv文件,如果数据量较多且想实时查看写入了多少数据可以使用 writerows 函数。
读取csv文件为DataFrame
代码
1
2
3
|
# 读取csv文件为DataFrame
import pandas as pd
dframe = pd.DataFrame.from_csv( 'E:/iris.csv' )
|
也可以稍微曲折点:
1
2
3
4
5
6
7
|
import csv
import pandas as pd
with open ( 'E:/iris.csv' ) as csvfile:
reader = csv.DictReader(csvfile, fieldnames = None ) # fieldnames默认为None,如果所读csv文件没有表头,则需要指定
list_1 = [e for e in reader] # 每行数据作为一个dict存入链表中
csvfile.close()
dfrme = pd.DataFrame.from_records(list_1)
|
从zip文件中读取指定csv文件为DataFrame
dst.zip文件中包含有dst.csv和其它文件,现在在不解压缩的情况下直接读取dst.csv文件为DataFrame.
1
2
3
4
5
6
|
import pandas as pd
import zipfile
z_file = zipfile.ZipFile( 'E:/dst.zip' )
dframe = pd.read_csv(z_file. open ( 'dst.csv' ))
z_file.close()
print dframe
|
DataFrame写入csv文件
1
|
dfrme.to_csv( 'E:/dst.csv' , index = False ) # 不要每行的编号
|
读取txt文件为DataFrame
1
2
3
|
import pandas as pd
# `path`为文件路径或文件句柄,`header`文件第一行是否是表头,`delimiter`每个字段的分隔符,`dtype`数据读入后的存储类型。
frame = pd.read_table(path, header = None , index_col = False , delimiter = '\t' , dtype = str )
|
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。
原文链接:https://www.cnblogs.com/crazysquirrel/p/6562320.html?utm_source=tuicool&utm_medium=referral