文件名称:Python-基于PySpark的大规模短语挖掘
文件大小:82.52MB
文件格式:ZIP
更新时间:2022-08-30 00:12:13
Python开发-自然语言处理
使用数据驱动方法检测大量文本中的常用短语。 发现的短语的大小可以是任意的。 可以用于英语以外的语言
【文件预览】:
phrase-at-scale-master
----data()
--------raw-data()
----phrase_generator.py(6KB)
----_config.yml(29B)
----stopwords-en.txt(2KB)
----top-opinrank-phrases.txt(75KB)
----config.py(713B)
----README.md(3KB)
----phrase-at-scale.png(386KB)