sparkgram:使用 pyspark 进行简单的语料处理

时间:2024-06-23 10:31:39
【文件属性】:

文件名称:sparkgram:使用 pyspark 进行简单的语料处理

文件大小:21KB

文件格式:ZIP

更新时间:2024-06-23 10:31:39

Python

火花图 一个用 Spark 处理文本语料库的简单包。 提取 ,生成语料库中文档的向量表示等。 安装: 首先安装 。 然后: > git clone https://github.com/rokroskar/sparkgram.git > cd sparkgram > python setup.py install 启动您的 Spark 集群等并启动一个 pyspark shell。 从 pyspark 外壳: >>> import sparkgram, glob >>> dv = sparkgram.SparkDocumentVectorizer(glob.glob('*txt')) >>> dv.docvec_rdd.take(5) 这将返回前五个文档的向量表示。


【文件预览】:
sparkgram-master
----docs()
--------conf.py(8KB)
--------Makefile(7KB)
--------index.rst(366B)
----nose()
--------testdata()
--------test_featurization.py(3KB)
----sparkgram()
--------document_vectorizer.py(33KB)
--------util.py(6KB)
--------__init__.py(57B)
----LICENSE(706B)
----setup.py(296B)
----.gitignore(30B)
----README.md(657B)

网友评论