stylometry:Python 中的文体框架

时间:2024-07-03 11:17:05
【文件属性】:

文件名称:stylometry:Python 中的文体框架

文件大小:40KB

文件格式:ZIP

更新时间:2024-07-03 11:17:05

Python

文体法 Python 中的 Stylometric(并行)框架,用于集群中的大数据 特征 并行化(如此快) 旨在与基于数据库的语料库集成 多种特征生成技术: 字节-ngrams 词组 可读性指标 简单统计 词性标注 词性 ngram 词/词混合体 插入各种风格测量技术: ppm-c(压缩) dmc(压缩) gvc(垃圾邮件过滤器) sofia-ml(机器学习) 一些图形实用程序来显示性能 我们还提供了一些插件来将现有的语料库转换为数据库格式。 我们还提供了一些插件来将特征导出为 SVM-light 稀疏数据格式。 假设 我们假设您有大量 RAM 或大量时间或大量 CPU 内核或全部 3 个。 随意观察的指标 3000 万条评论通常需要大约一天的时间来处理一种类型的功能 300 万个帖子通常需要大约一个小时来处理一种类型的功能


【文件预览】:
stylometry-master
----.gitignore(83B)
----base36.py(524B)
----feature()
--------pos.py(2KB)
--------simple.py(3KB)
--------__init__.py(2KB)
--------utils.py(2KB)
--------lexical.py(2KB)
--------ngram.py(3KB)
--------syllables_en.py(3KB)
--------readability.py(3KB)
----corpus()
--------__init__.py(723B)
--------mysql()
----crawl()
--------__init__.py(411B)
--------mysql()
----LICENSE(1KB)
----README.md(1023B)
----classifiers()
--------ppmc.py(1KB)
--------__init__.py(35B)
----parallel()
--------process()
--------thread()
--------__init__.py(23B)
--------task.py(23B)
----graph()
--------__init__.py(7KB)
----main()
--------gen_features.py(3KB)
--------gen_feature_sparse1.py(4KB)
--------readability_graph.py(4KB)
--------__init__.py(0B)
--------gen_pos_features.py(3KB)
--------readability_graph_brown.py(3KB)
--------test_read.py(251B)
--------experiment1.py(4KB)
--------test_race.py(458B)
--------experiment3.py(4KB)
--------gen_feature_sparse.py(4KB)
--------experiment2.py(4KB)

网友评论