Linux-各种姿势(less\vi等)打开各种类型的文件(txt/csv/xlsx等)出现不能打开(全乱码、部分乱码、二进制文件等)的问题

时间:2021-12-20 16:02:04

(一)linux各种中文乱码解决办法整理

  远程登录服务器用vim在终端下编辑查看文件经常会遇见各种中文乱码问题。

  做如下设置可基本解决vim中文乱码问题,首先查看系统对中文的支持locale -a | grep zh_CN输出样例,如下zh_CN.gbkzh_CN.utf8vim 只能正确识别列表中的中文编码文件,如需识别其他编码类型的中文文件,则需要做系统升级vi ~/.bash_profile文件末尾添加export LANG="zh_CN.UTF-8"export LC_ALL="zh_CN.UTF-8"

  vim与编码相关的参数:

  fileencoding,用于配置打开文件和保存文件的编码,但只能有一个值,只适合少数文件都是同种编码的环境,所以一般不使用fileencodings, 从名字上看就知道是fileencoding的增强版,可以配置多种不同的编码,常见的配置为,配置好之后,列表中的文本编码只要合法,都能被vim正确 的读取,建议配置:set fileencodings=utf-bom,utf-8,gbk,gb2312,gb18030,cp936,latin1encoding,vim内部编码,vim读取文件之后,但并不以读取文件的编码来处理,而是会转换成内部编码的格式,这个编码一般与操作系统相关,linux下utf-8居多,中文windows下则是gdk,建议配置:set encoding=utf-8 termencoding,vim输出的编码,输出指输出到操作系统或命令终端等,默认与操作系统的语言编码一致,如果使用linux命令终端,建议终端和linux系统配置相同的编码,然后配置相同的termencoding,否则顾全了vim就顾不上shell,不过如果shell不存在中文名文件,则配置终端和 termencoding一致即可,对于windows,能自动的识别gbk和utf-8,不用特殊配置,建议配置:set termencoding=utf-8fileformats,用于区分操作系统,主要是回车\r\n的区别,建议配置:set fileformats=unix,dos

  常见的乱码有以下几种情形:

  (1)将windows环境下的文件rz到linux下时文件出现乱码

    解决方案:

        1.在rz之前使用notepad++将文件格式转化为UTF-8无BOM格式或者ANSI编码格式;

        2.set encoding=utf-8;

  (2)secureCRT或者xterm2编辑环境中出现乱码,只需在会话选项中调节字符编码为GB2312或者UTF-8

  (3)当对日志文件进行vim编辑时出现乱码,大多数情况下是因为日志文件的格式为GB2312。

    解决方案:

        1.set encoding=GB2312;

        2如果方案1不起作用的话,调整secureCRT或者xterm2的编辑环境为GB2312

  (4)wget下载文件名乱码

    解决方案:

        一般情况下加上–restrict-file-names=nocontrol,例如wget --restrict-file-names=nocontrol -m www.xxx.com/

  (5)cat文件正常,vim文件不正常 解决方案:直接写入/etc/vim/vimrc ,最后一行加上set fileencodings=gb2312,utf-8 set fileencoding=gb2312 set termencoding=utf-8 批量文件转码命令:iconv -c -f gbk -t utf-8 $data_path/$item_uv

参考:https://blog.csdn.net/kwame211/article/details/77069378

(二)xls/xlxs/txt/等一切非gbk文件另存为.csv(gbk编码格式文件)文件,再把.csv文件编码格式转化为utf-8文件,这样Linux才能查看less查看而不乱码;

(三)可以直接保存为utf-8编码格式文件,如

  excel怎么保存为utf8编码格式

  参考:https://jingyan.baidu.com/article/63f236289223e00208ab3da4.html

(四)python  pandas模块  可以直接读取excel文件,并处理excel文件和对数据的处理分析;所以,相当于间接跳过了Linux  less|vim 查看问题,直接进入下一步的数据读取和处理。