文件名称:classipy:使用SciKit-Learn开发高级文本分类器的命令行工具
文件大小:80KB
文件格式:ZIP
更新时间:2024-05-29 10:35:02
Python
上课 自动文本分类工具 classipy是用于开发统计模型的命令行工具,该统计模型可用于(多类)标签文本(流)。 概述 该库基于并提供了适用于这种情况的分类器:岭回归,各种SVM,随机森林,最大熵/逻辑回归和朴素贝叶斯分类器。 不支持深度学习,因为更常见的情况是只有一个小的标签集。 但是,诚然,添加神经词嵌入将是添加到此工具中的有用功能。 SciKit Learn提供的此工具的主要补充是大大增强了功能生成过程。 它比“现成的” SciKit-Learn工具所提供和支持的元数据注释要复杂得多。 classipy使用句子分割和单词标记库。 它可以正确处理(和区分标记)多个文本字段(例如,标题,摘要,正文等)。 它可以基于每个功能或每个实例集成和组合元数据(注释)。 不会在单词边界之外生成n-gram(即,不包含逗号或点等的n-gram)。 k-带状疱疹-可以从文本中生成的所有
【文件预览】:
classipy-master
----testdata()
--------example2.tsv(97B)
--------real_sample.csv(72KB)
--------real_sample.tsv(71KB)
--------example.tsv(96B)
----.gitignore(79B)
----README.rst(11KB)
----classy()
--------transform.py(14KB)
--------predict.py(5KB)
--------select.py(4KB)
--------classifiers.py(5KB)
--------evaluate.py(6KB)
--------learn.py(6KB)
--------extract.py(4KB)
--------generate.py(5KB)
--------test_extract.py(6KB)
--------__init__.py(14KB)
--------helpers.py(787B)
--------data.py(6KB)
--------test_transform.py(9KB)
--------etbase.py(1KB)
----classi.py(56B)
----requirements.txt(58B)
----setup.py(1KB)
----.travis.yml(660B)