文件名称:huntoken:单词和句子标记器
文件大小:117KB
文件格式:ZIP
更新时间:2024-07-30 17:04:50
Shell
匈牙利语(和一点英语)原始文本标记化 许可证: GNU LGPL 2003-2004 (c) 内梅特·拉斯洛 2013- (c) Zséder Attila 编译 make make install 需要 Unix 环境(shell、Unix 工具), Flex 词法分析器生成器, M4 宏处理器。 用法 需要 Unix shell,或 Windows 上的 CYGWIN sed huntoken <input_raw_text >xml_output 选项 -h, --help: 帮助 -r:只检测句子边界 -x:不使用 hun_abbrev 过滤器进行处理 -b:打断长句(需要标记长(> 4000 个字符)句子!!!) -n:不带 XML 页眉和页脚的输出 -e:标记英文(设置英文缩写) -v, --version: 版本 过滤器 参见 flex 源和huntoken
【文件预览】:
huntoken-master
----tst()
--------holtlelkek.txt(35KB)
--------holtlelkek_tokenized.xml(119KB)
--------hun_token_tst.in(2KB)
--------hun_token_tst.out(12KB)
----COPYING(34KB)
----src()
--------token.flex++(69KB)
--------hun_abbrev.flex.m4(4KB)
--------hun_sentbreak.flex(743B)
--------hun_token.flex(69KB)
--------hun_clean.flex(11KB)
--------Makefile(4KB)
--------hun_sentclean.flex(522B)
--------hun_sentence.flex(6KB)
--------hun_abbrev_en.flex.m4(4KB)
--------hun_latin1.flex(6KB)
----doc()
--------LEIRAS(2KB)
--------EREDMENY(2KB)
----COPYING.LESSER(7KB)
----README.md(868B)
----data()
--------abbrevations.txt(1KB)
--------abbrev_en.txt(676B)
----man()
--------huntoken.1(1KB)
----bin()
--------hun_macro(968B)
--------huntoken(1KB)
--------hun_szeged(1KB)
--------hun_head(1KB)
--------hun_test(608B)