文件名称:spark-phrase-extraction
文件大小:31KB
文件格式:ZIP
更新时间:2024-05-19 10:52:28
Scala
Spark短语提取:使用Apache Spark从庞大的文本语料库中自动进行短语挖掘 该库类似于Gensim中的短语提取实现(可),但是使用apache Spark可以大规模使用庞大的文本语料库。 目标受众:对于自然语言处理(NLP)和信息检索(IR)任务,需要搭配短语检测的Spark-Scala ML应用程序。 spark-parse-extraction提供: 使用GenSim API创建ML应用程序的基本构件: 训练可自动从句子流中检测常用短语(多词表达)的分布式语料库词汇。 学习的语料库基于频繁出现的并置短语。 保存经过训练的模型 加载保存的模型并将其与语料库知识一起使用,以预测输入句子中并列的n-gram短语。 得分: 支持默认的python-gensim评分器:原始评分和NPMI评分 启用基于配置的方法来插入和播放自定义计分器 添加了基于应变的计分器,可与PhSer
【文件预览】:
spark-phrase-extraction-master
----.gitignore(68B)
----all.gpg.enc(1KB)
----README.md(5KB)
----pom.xml(9KB)
----src()
--------test()
--------main()
----.travis.yml(340B)