huntoken:单词和句子标记器下载

【文件属性】：

文件名称：huntoken:单词和句子标记器

文件大小：117KB

文件格式：ZIP

更新时间：2024-07-30 17:04:50

Shell

匈牙利语（和一点英语）原始文本标记化许可证： GNU LGPL 2003-2004 (c) 内梅特·拉斯洛 2013- (c) Zséder Attila 编译 make make install 需要 Unix 环境（shell、Unix 工具）， Flex 词法分析器生成器， M4 宏处理器。用法需要 Unix shell，或 Windows 上的 CYGWIN sed huntoken <input_raw_text >xml_output 选项 -h, --help: 帮助 -r：只检测句子边界 -x：不使用 hun_abbrev 过滤器进行处理 -b：打断长句（需要标记长（> 4000 个字符）句子！！！） -n：不带 XML 页眉和页脚的输出 -e：标记英文（设置英文缩写） -v, --version: 版本过滤器参见 flex 源和huntoken

立即下载

【文件预览】：
huntoken-master
----tst()
--------holtlelkek.txt(35KB)
--------holtlelkek_tokenized.xml(119KB)
--------hun_token_tst.in(2KB)
--------hun_token_tst.out(12KB)
----COPYING(34KB)
----src()
--------token.flex++(69KB)
--------hun_abbrev.flex.m4(4KB)
--------hun_sentbreak.flex(743B)
--------hun_token.flex(69KB)
--------hun_clean.flex(11KB)
--------Makefile(4KB)
--------hun_sentclean.flex(522B)
--------hun_sentence.flex(6KB)
--------hun_abbrev_en.flex.m4(4KB)
--------hun_latin1.flex(6KB)
----doc()
--------LEIRAS(2KB)
--------EREDMENY(2KB)
----COPYING.LESSER(7KB)
----README.md(868B)
----data()
--------abbrevations.txt(1KB)
--------abbrev_en.txt(676B)
----man()
--------huntoken.1(1KB)
----bin()
--------hun_macro(968B)
--------huntoken(1KB)
--------hun_szeged(1KB)
--------hun_head(1KB)
--------hun_test(608B)

秒客网

huntoken:单词和句子标记器

网友评论

相关文章