ubuntu繁简体转换 opencc的安装与使用

时间:2023-01-13 14:37:37

最近在看word2vec的使用,看的是下面这个教程:中英文*语料上的Word2Vec实验

opencc介绍

opencc是一款非常实用的繁简体字转换工具,转换速度非常快而且效果非常好。看了教程上面的各种安装方式介绍,最后才发现其实直接使用apt-get命令安装就能正常使用了。

opencc安装与使用

" 一行命令搞定安装 "
sudo apt-get install opencc
" 一行命令使用 "
opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini

其中wiki.zh.text为输入文本文件, wiki.zh.text.jian为文本文件。zht2zhs.ini 是转换方式,默认的是zhs2zht.ini,即简体字转为繁体字。

使用演示

实验结果表明还是非常不错的,而且在我i5 2代CPU,8G内存的破机器上转换944MB的文本好像只用了两三分钟。

原文为繁体字

歐幾里得 西元前三世紀的希臘數學家 現在被認為是幾何之父 此畫為拉斐爾的作品 
雅典學院 数学 是利用符号语言研究數量

转换后

欧几里得 西元前三世纪的希腊数学家 现在被认为是几何之父 此画为拉斐尔的作品 
雅典学院 数学 是利用符号语言研究数量