最近尝试获取IEEE上的论文,实现批量获取论文的题目、作者、出版杂志、引用次数等内容,并将检索的数据保存为csv文件。在这个过程中,发现使用to_csv默认的"utf-8"编码类型进行读写文件的时候,部分作者的名字出现乱码情况,如下图所示。
“Hana Dobšíček Trefná” 显示成为了“Hana Dob拧铆膷ek Trefn谩”,出现这样的情况,是由于编码的问题所引起的,因此主要是在encoding上找解决方案,从网上查到unicode编码有utf-8、utf-16和utf-32三种形式。
- 情况一:设置encoding="utf-16",“Hana Dobšíček Trefná”显示正常,没能正常分列,并且使用read_csv可以正常读取。
- 情况二:设置encoding="utf-32",“Hana Dobšíček Trefná”显示正常,没能正常分列,使用read_csv无法正常读取。
- 情况三:设置encoding="utf-16", sep="\t",“Hana Dobšíček Trefná”显示正常,能正常分列,使用read_csv可以正常读取。
- 情况四:设置encoding="utf-32", sep="\t",“Hana Dobšíček Trefná”显示正常,能正常分列,使用read_csv无法正常读取。