最近在看word2vec的使用,看的是下面这个教程:中英文*语料上的Word2Vec实验。
opencc介绍
opencc是一款非常实用的繁简体字转换工具,转换速度非常快而且效果非常好。看了教程上面的各种安装方式介绍,最后才发现其实直接使用apt-get命令安装就能正常使用了。
opencc安装与使用
" 一行命令搞定安装 "
sudo apt-get install opencc
" 一行命令使用 "
opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini
其中wiki.zh.text为输入文本文件, wiki.zh.text.jian为文本文件。zht2zhs.ini 是转换方式,默认的是zhs2zht.ini,即简体字转为繁体字。
使用演示
实验结果表明还是非常不错的,而且在我i5 2代CPU,8G内存的破机器上转换944MB的文本好像只用了两三分钟。
原文为繁体字
歐幾里得 西元前三世紀的希臘數學家 現在被認為是幾何之父 此畫為拉斐爾的作品
雅典學院 数学 是利用符号语言研究數量
转换后
欧几里得 西元前三世纪的希腊数学家 现在被认为是几何之父 此画为拉斐尔的作品
雅典学院 数学 是利用符号语言研究数量