word源码java-spark-corenlp:用于ApacheSpark的斯坦福CoreNLP包装器下载

【文件属性】：

文件名称：word源码java-spark-corenlp:用于ApacheSpark的斯坦福CoreNLP包装器

文件大小：22KB

文件格式：ZIP

更新时间：2024-06-25 16:11:11

系统开源

word源码java 用于 Apache Spark 的斯坦福 CoreNLP 包装器这个包按照斯坦福 CoreNLP 3.7.0 中的引入将注释器包装为 Spark DataFrame 函数。这个包需要 Java 8 和 CoreNLP 才能运行。用户必须包含 CoreNLP 模型 jar 作为依赖项才能使用语言模型。所有函数都在com.databricks.spark.corenlp.functions下com.databricks.spark.corenlp.functions 。 cleanxml ：清理文档中的 XML 标签并返回清理过的文档。 tokenize ：将句子tokenize为单词。 ssplit ：将文档拆分为句子。 pos : 生成句子的词性标签。 lemma : 生成句子的词 lemmas。 ner ：生成句子的命名实体标签。 depparse ：生成句子的语义依赖关系并返回(source, sourceIndex, relation, target, targetIndex, weight)关系元组的扁平列表。 coref : 生成文档中的 cor

立即下载

【文件预览】：
spark-corenlp-master
----.gitignore(157B)
----project()
--------plugins.sbt(404B)
--------build.properties(80B)
----src()
--------main()
--------test()
----.travis.yml(305B)
----LICENSE(34KB)
----README.md(4KB)
----version.sbt(41B)
----build.sbt(3KB)

秒客网

word源码java-spark-corenlp:用于ApacheSpark的斯坦福CoreNLP包装器

网友评论

相关文章