word源码java-spark-corenlp:用于ApacheSpark的斯坦福CoreNLP包装器

时间:2024-06-25 16:11:11
【文件属性】:

文件名称:word源码java-spark-corenlp:用于ApacheSpark的斯坦福CoreNLP包装器

文件大小:22KB

文件格式:ZIP

更新时间:2024-06-25 16:11:11

系统开源

word源码java 用于 Apache Spark 的斯坦福 CoreNLP 包装器 这个包按照斯坦福 CoreNLP 3.7.0 中的引入将注释器包装为 Spark DataFrame 函数。 这个包需要 Java 8 和 CoreNLP 才能运行。 用户必须包含 CoreNLP 模型 jar 作为依赖项才能使用语言模型。 所有函数都在com.databricks.spark.corenlp.functions下com.databricks.spark.corenlp.functions 。 cleanxml :清理文档中的 XML 标签并返回清理过的文档。 tokenize :将句子tokenize为单词。 ssplit :将文档拆分为句子。 pos : 生成句子的词性标签。 lemma : 生成句子的词 lemmas。 ner :生成句子的命名实体标签。 depparse :生成句子的语义依赖关系并返回(source, sourceIndex, relation, target, targetIndex, weight)关系元组的扁平列表。 coref : 生成文档中的 cor


【文件预览】:
spark-corenlp-master
----.gitignore(157B)
----project()
--------plugins.sbt(404B)
--------build.properties(80B)
----src()
--------main()
--------test()
----.travis.yml(305B)
----LICENSE(34KB)
----README.md(4KB)
----version.sbt(41B)
----build.sbt(3KB)

网友评论