ist的matlab代码-elasticsearch-langdetect:使用NakataniShuyo的语言检测器在Elasticsear

时间:2024-06-15 01:30:33
【文件属性】:

文件名称:ist的matlab代码-elasticsearch-langdetect:使用NakataniShuyo的语言检测器在Elasticsear

文件大小:4.96MB

文件格式:ZIP

更新时间:2024-06-15 01:30:33

系统开源

ist的matlab代码用于Elasticsearch的langdetect插件 这是使用Nakatani Shuyo的实现的插件的实现。 它使用3-gram字符和具有各种规格化和特征采样的贝叶斯过滤器。 53种语言的精度超过99%。 该插件提供了一种映射类型,以指定要在其中启用语言检测的字段。 如示例所示,检测到的语言被索引到名为“ lang”的字段的子字段中。 可以查询该字段的语言代码。 您可以使用multi_field映射类型将此插件与附件映射器插件结合使用,以在base64编码的二进制数据中启用语言检测。 当前,仅支持UTF-8文本。 该插件还提供了一个REST端点,可以在其中以UTF-8形式发布短文本,并且该插件以公认的语言列表作为响应。 以下是可识别的语言代码列表: 表1.语言 代码 描述 f 南非语 AR 阿拉伯 bg 保加利亚语 n 孟加拉 CS 捷克文 DA 丹麦文 德 德语 埃尔 希腊语 恩 英语 es 西班牙语 等 爱沙尼亚语 F A 波斯语 科幻 芬兰 fr 法语 gu 古吉拉特语 他 希伯来语 你好 印地语 小时 克罗地亚语 胡 匈牙利 ID 印度尼西亚 它


网友评论