文件名称:Sudachi:日语企业标记器
文件大小:258KB
文件格式:ZIP
更新时间:2024-04-22 02:40:01
segmentation nlp-library pos-tagging morphological-analysis Java
Sudachi Sudachi是日本形态分析仪。 形态分析主要包括以下任务。 分割 词性标记 正常化 教程 有关安装的教程,请参阅。 有关插件的教程,请参阅。 特征 Sudachi具有以下功能。 多长度分割 您可以更改细分模式 一次提取词素和命名实体 大词典基于UniDic和NEologd 外挂程式您可以更改处理的行为 与同义词词典紧密合作我们将在以后发布sysnonym词典 辞典 Sudachi具有三种类型的词典。 小:仅包含UniDic的词汇 核心:包括基本词汇(默认) 完整:包含其他专有名词 单击获取预建词典。 有关更多详细信息,请参见 。 如何使用小/全字典 使用配置字符串运行命令行工具 $ java -jar sudachi-XX.jar -s '{"systemDict":"system_small.dic"}' 在命令行上使用 $ java -jar sudach