了解它!
KAKASI(Kanji Kana Simple Inverter)是语言处理过滤器,可以将 日文汉字 转换成 平假名,片假名或Romaji ,可以 方便阅读日文文本 以及 给日语学习者提供便利。
比如把漢字
转换成かんじ
/kanji
。
例子
在命令行中( 我用的是mac的terminal win的不太确定 )
#
# 漢字
#
% ls
% kakasi -JH < -i utf8 -o utf8
かんじ
获得它!
下载
? 英文主页
? 日文主页
安装
把下载到的压缩包(.
或.
)解压
% gzip -dc kakasi-2.3. | tar xvf -
进入到解压出来的文件夹中
% cd kakasi-2.3.6
你可以看到文件夹中有以下内容
% ls
AUTHORS NEWS * install-sh*
COPYING ONEWS itaijidict magic-kakasi
ChangeLog README * maintMakefile
INSTALL README-ja * man/
INSTALL-ja THANKS configure* missing*
TODO kakasidict src/
aclocal.m4 doc/ lib/ tests/
依次输出以下命令就可以完成安装
% ./configure
% make
% su
# make install
确认
如果没有意外,到这里你已经成功安装kakasi
!
你可以通过以下命令来确认是否安装完毕。
# kakasi -help
它会返回如下一个命令提示
KAKASI - Kanji Kana Simple Inverter Version 2.3.6
Copyright (C) 1992-1999 Hironobu Takahashi. All rights reserved.
Usage: kakasi -a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH]
-i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}
-r{hepburn,kunrei} -p -s -f -c"chars" [jisyo1, jisyo2,,,]
Character Sets:
a: ascii j: jisroman g: graphic k: kana (j,k defined in jisx0201)
E: kigou K: katakana H: hiragana J: kanji(E,K,H,J defined in jisx0208)
Options:
-i: input coding system -o: output coding system
-r: romaji conversion system
-p: list all readings (with -J option)
-s: insert separate characters (with -J option) -S"chars": set separator
-f: furigana mode (with -J option)
-F[rl]"chars": set parentheses around furigana
-c: skip chars within jukugo (with -J option: default TAB CR LF BLANK)
-C: romaji Capitalize (with -Ja or -Jj option)
-U: romaji Upcase (with -Ja or -Jj option)
-u: call fflush() after 1 character output
-t: use old romaji table
-w: wakatigaki mode
-{l,L}: level {hiragana,furigana} mode (-{l,L}[123456jn])
-y: display yomi of each kanji characters
Report bugs to <bug-kakasi@>.
用它!
使用kakasi
的一个问题是,它没有提供官方文档,网络上提供链接也基本失效,不过花了一番功夫还是找到了一个能用的文档,大家若想了解更多可以阅读。
? 我也只是刚刚接触kakasi
,更多使用方法,欢迎大家评论留言交流。
基本格式
kakasi 转换格式 <入口文件 >出口文件 输入输出编码设置
例子
kakasi -Ja < -i utf8 -o utf8
# 将会在命令行中返回转换结果
kakasi -JH < > -i utf8 -o utf8
# 转换结果会保持到中
转换格式设置
-a[jE] -j[aE] -g[ajE] -k[ajKH] -E[aj] -K[ajkH] -H[ajkKH] -J[ajkKH]
Character Sets:
a: ascii j: jisroman g: graphic k: kana (j,k defined in jisx0201)
E: kigou K: katakana H: hiragana J: kanji(E,K,H,J defined in jisx0208)
常用的设置
-JH
汉字转平假名( kanji -> hiragana ) ||漢字
转换成かんじ
-Ja
汉字转罗马音( kanji -> ascii(roman) ) ||漢字
转换成kanji
-JK
汉字转片假名( kanji -> katakana ) ||漢字
转换成カンジ
-HK
平假名转片假名(hiragana -> katakana) ||かんじ
转换成カンジ
入口、出口文件设置
<
将""作为输入文件
>
以""为输出文件
输入输出编码设置
-i{oldjis,newjis,dec,euc,sjis,utf8} -o{oldjis,newjis,dec,euc,sjis,utf8}
其他工具:
日文文本分析最强王者——Kuromoji