问题描述:
最近在重复修改一个xml,但发现时而能读取成功,时而读取失败。分析发现失败的原因是重写之后,xml的结尾多了NUL这样的乱码,有时出现很多NUL。如下图
问题原因:
研究后发现,python中xml的读写方式是这样的:
1.首先codecs.open函数以‘w'方式读取后,原有的数据会变成乱码,如下图:
2.然后将需要保存的xml转码后,覆盖保存在NUL的一串乱码上。
这时,如果转码后的数据 > 原有数据 ,则没有问题;否则,会有一部分的NUL乱码没有被覆盖,导致出现如上的情况
解决方案:
在读取xml数据后,将xml中原有数据截断(清空),再写入新的数据。
out_file = codecs.open(targetFile, 'w', encoding=ENCODE_METHOD)
out_file.seek(0)
out_file.truncate()
经测试发现,truncate过后,数据还是存在。最终我的做法是删了这个文件,重新写入
if os.path.exists(targetFile):
os.remove(targetFile)
out_file = codecs.open(targetFile, 'w', encoding=ENCODE_METHOD)