ParsiAnalyzer:波斯语Elasticsearch分析器

时间:2024-05-24 19:15:37
【文件属性】:

文件名称:ParsiAnalyzer:波斯语Elasticsearch分析器

文件大小:14KB

文件格式:ZIP

更新时间:2024-05-24 19:15:37

java elasticsearch information-retrieval analysis analyzer

帕西分析仪 ParsiAnalyzer是Elasticsearch的分析插件。 分析是一个包含以下步骤的过程: 将一块文本标记为单独的术语 将这些术语标准化为标准形式 分析器实际上只是结合了字符过滤器,令牌生成器和令牌过滤器的包装器。 Elasticsearch提供了许多内置分析器,但仍有改进的空间,尤其是对于波斯语言。 该插件提供了用于标记,规范化和阻止波斯文字的工具。 主要特征 标记波斯文字 必要时将空格转换为零宽度非连接符( نیم‌فاصله )。 例如می رود到می‌رود 。 将波斯标点符号转换为等效的英语。 例如, ۳/۱۴至۳.۱۴ 用空格和标点符号标记波斯文字。 将波斯令牌标准化为单个规范形式 将Yeh,Kaf,Heh和Hamza的所有形式转换为唯一形式。 例如براي到برای 。 将所有波斯文和阿拉伯文数字转换为它们的英文等效形式。 例如, ۱۴۳到14


【文件预览】:
ParsiAnalyzer-master
----.gitignore(324B)
----README.md(3KB)
----pom.xml(2KB)
----src()
--------main()

网友评论