【文件属性】:
文件名称:stylometry:Python 中的文体框架
文件大小:40KB
文件格式:ZIP
更新时间:2021-06-13 17:30:25
Python
文体法
Python 中的 Stylometric(并行)框架,用于集群中的大数据
特征
并行化(如此快)
旨在与基于数据库的语料库集成
多种特征生成技术:
字节-ngrams
词组
可读性指标
简单统计
词性标注
词性 ngram
词/词混合体
插入各种风格测量技术:
ppm-c(压缩)
dmc(压缩)
gvc(垃圾邮件过滤器)
sofia-ml(机器学习)
一些图形实用程序来显示性能
我们还提供了一些插件来将现有的语料库转换为数据库格式。 我们还提供了一些插件来将特征导出为 SVM-light 稀疏数据格式。
假设
我们假设您有大量 RAM 或大量时间或大量 CPU 内核或全部 3 个。
随意观察的指标
3000 万条评论通常需要大约一天的时间来处理一种类型的功能
300 万个帖子通常需要大约一个小时来处理一种类型的功能
【文件预览】:
stylometry-master
----.gitignore(83B)
----base36.py(524B)
----feature()
--------pos.py(2KB)
--------simple.py(3KB)
--------__init__.py(2KB)
--------utils.py(2KB)
--------lexical.py(2KB)
--------ngram.py(3KB)
--------syllables_en.py(3KB)
--------readability.py(3KB)
----corpus()
--------__init__.py(723B)
--------mysql()
----crawl()
--------__init__.py(411B)
--------mysql()
----LICENSE(1KB)
----README.md(1023B)
----classifiers()
--------ppmc.py(1KB)
--------__init__.py(35B)
----parallel()
--------process()
--------thread()
--------__init__.py(23B)
--------task.py(23B)
----graph()
--------__init__.py(7KB)
----main()
--------gen_features.py(3KB)
--------gen_feature_sparse1.py(4KB)
--------readability_graph.py(4KB)
--------__init__.py(0B)
--------gen_pos_features.py(3KB)
--------readability_graph_brown.py(3KB)
--------test_read.py(251B)
--------experiment1.py(4KB)
--------test_race.py(458B)
--------experiment3.py(4KB)
--------gen_feature_sparse.py(4KB)
--------experiment2.py(4KB)