Python数据分析基础——读写CSV文件

　　1.基础python代码：

 #!/usr/bin/env python3　　# 可以使脚本在不同的操作系统之间具有可移植性

 import sys　　# 导入python的内置sys模块，使得在命令行中向脚本发送附加的输入

 # sys模块的argv参数，传递给python脚本的命令行参数列表，也就是我们运行的脚本的输入文件和写入csv格式的输出文件
　　# 用命令行读取CSV的输入文件和写入CSV格式的输出的文件
　　# 用命令行输入： python script_name.py　　"C:\path\to\input_file.csv"　　"C:\path\to\output_file.csv"
　　　　　　　　　　python 告诉计算机使用Python程序来处理其他的命令行参数。Python收集其余参数，放入argv这个列表
　　　　　　　　　　列表中的第一个元素argv[0]用作脚本名称，所以argv[0]表示script_name.py
　　　　　　　　　　python将argv[1],即第二个命令行参数————"C:\path\to\input_file.csv"，即输入文件的路径和文件名赋值给变量，input_file
　　　　　　　　　　python将argv[2],即第三个命令行参数————"C:\path\to\output_file.csv"，即输入文件的路径和文件名赋值给变量，output_file

 input_file = sys.argv[1]

 output_file = sys.argv[2]

 with open(input_file, 'r', newline = '') as filereader:　　#　　with语句，使用with语句，将input_file打开为一个文件对象filereader；'r'表示是只读模式

     with open(output_file, 'w', newline = '') as filewriter:　　#　　with语句，使用with语句，将output_file打开为一个文件对象filewriter；'w'表示可写模式;with语句可以在语句结束时，自动关闭文件对象

         header = filereader.readline()　　#　　使用文件对象的readline方法，读取输入文件扥第一行数据，将读入得字符串

         header = header.strip()　　#　　使用strip函数去除每行两端的空格、制表符和换行符

         header_list = header.split(',')　　#　　使用split函数用逗号，将字符串拆分成一个列

         print(header_list)

         filewriter.write(','.join(map(str, header_list)) + '\n')　　#　　string模块未spring

　　         for row in filereader:

             row = row.strip()

             row_list = row.split(',')

             print(row_list)

             filewriter.write(','.join(map(str, row_list)) + '\n')

　　2.pandas:

#!/usr/bin/env python3

import sys

import pandas as pd

input_file = sys.argv[1]

output_file = sys.argv[2]

#``data_frame_数据框是一种存储数据的方式，数据框中保留了“表格”这种数据组织方式；pandas中下嵌套pandas脑，所以要使用数据框，必须导入pandas包

data_frame = pd.read_csv(input_file)

print(data_frame)

data_frame.to_csv(output_files, pandas_output_csv)

但是，以上代码，当读取数据$1,006,015.00时，会出错，具体错误为：本来应该将数据$1,006,015.00，分割为：$1,006,015.00，现在，结果却为："$1"，“006”，“015.00”

其原因，在于，CSV文件的存储形式，即为，使用逗号“，”分割一列列数据的分隔符，正是逗号“，”例如：Name, Age, $100.00, "Beijing"

所以，读取操作CSV文件时，是利用逗号","来分割各列的数据，但是当现在出现了数据：$2,000,00.00，由于数据中也含逗号，所以导致该数据整体本身被分割成，$2 000 00.00三份数据，

出现错误。

解决方案：使用CSV模块——python内置CSV模块，即被设计用于正确地处理数据值中的嵌入逗号和其他复杂模式的

 #!/usr/bin/env python3

 import csv

 import sys

 input_file = sys.argv[1]

 output_file = sys.argv[2]

 with open(input_file, 'r', newline = ' ') as csv_in_file:

     with open(output_file, 'w', newline = ' ') as csv_out_file:

         filereader = csv.reader(csv_in_file, delimiter = ',')　　#　　使用CSV模块中的reader函数，创建了一个文件读取对象filereader，，用于读取输入文件的行

         filewriter = csv.writer(csv_out_file, delimiter = ',')　　#　　使用CSV模块中的writer函数，创建了一个文件读取对象filewriter，用于将数据输出文件
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　参数delimiter是默认分隔符

         for row_list in filereader:

             print(row_list)

             filewriter.writerow(row_list)　　#　　将filewriter对象中的每行列表值，用writerow函数，写入输出文件

秒客网

Python数据分析基础——读写CSV文件

相关文章