文件名称:ParsiAnalyzer:波斯语Elasticsearch分析器
文件大小:14KB
文件格式:ZIP
更新时间:2024-05-24 19:15:37
java elasticsearch information-retrieval analysis analyzer
帕西分析仪 ParsiAnalyzer是Elasticsearch的分析插件。 分析是一个包含以下步骤的过程: 将一块文本标记为单独的术语 将这些术语标准化为标准形式 分析器实际上只是结合了字符过滤器,令牌生成器和令牌过滤器的包装器。 Elasticsearch提供了许多内置分析器,但仍有改进的空间,尤其是对于波斯语言。 该插件提供了用于标记,规范化和阻止波斯文字的工具。 主要特征 标记波斯文字 必要时将空格转换为零宽度非连接符( نیمفاصله )。 例如می رود到میرود 。 将波斯标点符号转换为等效的英语。 例如, ۳/۱۴至۳.۱۴ 用空格和标点符号标记波斯文字。 将波斯令牌标准化为单个规范形式 将Yeh,Kaf,Heh和Hamza的所有形式转换为唯一形式。 例如براي到برای 。 将所有波斯文和阿拉伯文数字转换为它们的英文等效形式。 例如, ۱۴۳到14
【文件预览】:
ParsiAnalyzer-master
----.gitignore(324B)
----README.md(3KB)
----pom.xml(2KB)
----src()
--------main()