Python-基于PySpark的大规模短语挖掘

时间:2022-08-30 00:12:13
【文件属性】:

文件名称:Python-基于PySpark的大规模短语挖掘

文件大小:82.52MB

文件格式:ZIP

更新时间:2022-08-30 00:12:13

Python开发-自然语言处理

使用数据驱动方法检测大量文本中的常用短语。 发现的短语的大小可以是任意的。 可以用于英语以外的语言


【文件预览】:
phrase-at-scale-master
----data()
--------raw-data()
----phrase_generator.py(6KB)
----_config.yml(29B)
----stopwords-en.txt(2KB)
----top-opinrank-phrases.txt(75KB)
----config.py(713B)
----README.md(3KB)
----phrase-at-scale.png(386KB)

网友评论