文件名称:tinga:Scala 中的自然语言库
文件大小:7.08MB
文件格式:ZIP
更新时间:2024-06-23 18:50:08
Scala
廷加 Tinga 是一个用于自然语言处理 (NLP) 的 Scala 库。 此外,它还集成了一些机器学习 (ML) 库。 此外,NLP 和 ML 的一些应用程序如情感极性检测(意见挖掘)被集成为 tinga 的模块。 目前我们开发了三个模块: 自然语言处理 机器学习 情绪分析 自然语言处理 自然语言处理模块有一些用于 NLP 典型任务的基本工具: 文本预处理:删除停用词、变音符号和标点符号,启用或禁用特定于语言的字符。 目前我们可以处理西班牙语、英语、法语、意大利语和德语。 Tokenizer:在 tinga 中,基本标记是 Word。 Word 被认为是文本的原子单位。 单词之后是 Sentence 标记,最后是 Paragraph 标记。 Part-of-Speech Tagger:每个单词标记都标有其 PoS 标签。 但是,创建您自己的代币并使用我们的 Brill 的 PoS