character_encoding_cleaner

时间:2024-07-09 16:32:22
【文件属性】:

文件名称:character_encoding_cleaner

文件大小:5KB

文件格式:ZIP

更新时间:2024-07-09 16:32:22

govuk Ruby

字符编码清理器 介绍 此脚本用于修复文本文件中的非法编码。 它旨在清理 UTF-8 文件中损坏的字符序列。 这种损坏的最常见原因是打开一个 UTF-8 编码的文件,就像它是 ISO-8859-1,然后将它保存为 UTF-8。 这对 UTF-8 字节序列进行双重编码。 该脚本不会尝试智能地反转这种双重编码。 相反,它在上下文中检测和显示非 ASCII 字符 (0x80-0xFF) 序列,并允许用户在映射文件中为每个字符输入映射。 任何作为映射已知目标的字节序列都允许保留在输出文件中。 所需宝石 宝石安装着色 用法 假设您有一个名为badchars.csv的文件,其编码已损坏。 像这样调用脚本: $ ./clean_encoding.rb badchars.csv fixed.csv 这告诉脚本读取badchars.csv ,应用任何已知的映射(从mappings.txt读取)并将结果


【文件预览】:
character_encoding_cleaner-master
----clean_encoding.rb(6KB)
----mappings.txt(1KB)
----LICENCE.txt(1KB)
----README.md(2KB)

网友评论