文件名称:Mallet:MALLET是基于Java的软件包,用于统计自然语言处理,文档分类,聚类,主题建模,信息提取以及其他文本的机器学习应用程序
文件大小:13.82MB
文件格式:ZIP
更新时间:2024-05-18 06:39:26
Java
槌 网站: : MALLET是基于Java的软件包,用于统计自然语言处理,文档分类,聚类,主题建模,信息提取以及其他文本的机器学习应用程序。 MALLET包括用于文档分类的复杂工具:用于将文本转换为“特征”的高效例程,多种算法(包括朴素贝叶斯,最大熵和决策树),以及用于使用几种常用指标评估分类器性能的代码。 除分类外,MALLET还包括用于序列标记的工具,用于从文本中提取命名实体之类的应用程序。 算法包括隐马尔可夫模型,最大熵马尔可夫模型和条件随机场。 这些方法在用于有限状态传感器的可扩展系统中实现。 主题模型对于分析大量未标记的文本很有用。 MALLET主题建模工具包包含有效的,基于样本的潜在Dirichlet分配,Pachinko分配和分层LDA的实现。 MALLET中的许多算法都依赖于数值优化。 MALLET包括有限内存BFGS的有效实现以及许多其他优化方法。 除了复