go-lang-detector:Golang中的一个小型库,用于检测文本的语言。 (文本分类)

时间:2024-05-30 12:36:10
【文件属性】:

文件名称:go-lang-detector:Golang中的一个小型库,用于检测文本的语言。 (文本分类)

文件大小:1.59MB

文件格式:ZIP

更新时间:2024-05-30 12:36:10

language-detection human-language unicode-range language-categorization language-profile

v0.2中的重大更改:请参见下面的“迁移”一章。 早期版本在发行版v0.1下可用: : 语言检测器 这个golang库提供了基于文本分析和识别语言的功能。 该实现基于以下文件: 基于N-Gram的文本分类威廉·B·卡夫纳(William B.Cavnar)和约翰·特伦克(John M.Trenkle) 密歇根州环境研究所邮政信箱134001 安阿伯MI 48113-4001 通过语言配置文件检测 语言配置文件是map[string] int ,它将n-gram标记映射到它的出现等级。 因此,对于所分析文本的最常见标记“ X”,map ['X']将为1。 通过unicode范围检测 检测语言的第二种方法是通过文本中使用的unicode范围。 Golang在unicode包中有一组预定义的unicode范围,可以轻松使用,例如,用于检测中文/日文/韩文: var CHINESE_JAP


【文件预览】:
go-lang-detector-develop
----example.go(667B)
----wercker.yml(1KB)
----LICENSE(11KB)
----default_languages.json(1.58MB)
----README.md(5KB)
----makefile(63B)
----Godeps()
--------Readme(136B)
--------Godeps.json(1KB)
----langdet()
--------analyzing.go(4KB)
--------unicode_detector.go(614B)
--------analyzing_test.go(2KB)
--------langdetdef()
--------detection_internal_test.go(2KB)
--------internal()
--------models.go(2KB)
--------detection.go(4KB)
--------detection_test.go(4KB)
----.gitignore(24B)
----vendor()
--------github.com()

网友评论