文件名称:LangDetect:Java中的自动语言检测
文件大小:387KB
文件格式:ZIP
更新时间:2024-06-01 00:20:22
Java
语言检测 Java中的自动语言检测 功能性 这是使用n-gram频率配置文件进行语言检测的直接实现,如以下所述: 威廉·卡夫纳(William B. Cavnar)和约翰·特伦克(John M.Trenkle)。 基于N-Gram的文本分类。 在SDAIR-94会议论文集中,第三届年度文档分析和信息检索研讨会,1994年。 作为培训数据,使用了9种欧洲语言的《世界*宣言》。 将所有输入与基于此培训文本计算出的频率曲线进行比较,以识别语言。 用法 要启动程序,请下载完整的项目并在主文件夹中执行以下命令: java -cp bin langdetect.LangDetect 在启动过程中,程序将读取指定训练数据文件夹中的所有文本。 假定每个文本都代表一种语言,并且文件名用于标识该语言。 要覆盖默认路径( data / training ),可以将另一个路径作为参数传递: java
【文件预览】:
LangDetect-master
----.project(369B)
----javadoc.xml(521B)
----src()
--------langdetect()
----lib()
--------junit-4.11.jar(239KB)
--------hamcrest-core-1.3.jar(44KB)
----doc()
--------constant-values.html(6KB)
--------index.html(3KB)
--------overview-tree.html(4KB)
--------langdetect()
--------allclasses-noframe.html(887B)
--------index-files()
--------deprecated-list.html(3KB)
--------help-doc.html(8KB)
--------package-list(11B)
--------allclasses-frame.html(967B)
--------resources()
--------stylesheet.css(11KB)
----LICENSE(1KB)
----test()
--------langdetect()
----README.md(2KB)
----data()
--------training()
----.classpath(456B)
----.gitignore(114B)
----bin()
--------langdetect()