文件名称:textpipe:Textpipe:清理并从文本中提取元数据
文件大小:57KB
文件格式:ZIP
更新时间:2024-02-24 12:08:58
nlp text-analysis named-entities named-entity-recognition text-processing
textpipe:清理并从文本中提取元数据 textpipe是一个Python软件包,用于将原始文本转换为干净的可读文本并从该文本中提取元数据。 它的功能包括通过删除HTML标记并从文本中提取元数据(例如单词数和命名实体)将原始文本转换为可读文本。 愿景:textpipe的禅宗 设计用于没有成人监督的生产管道。 随附可充电电池:提供合理的默认值和清晰的示例以进行调整。 带有最新NLP封装的薄包装的统一界面。 尽可能与语言无关。 带上自己的模型。 产品特点 通过删除HTML和其他不可读的结构来清理原始文本 识别文字的语言 从文本中提取单词数,句子数,命名实体 计算文本的复杂度 通过指定
【文件预览】:
textpipe-master
----MANIFEST.in(59B)
----.travis.yml(888B)
----test-requirements.txt(58B)
----textpipe()
--------data()
--------pipeline.py(6KB)
--------util.py(238B)
--------operation.py(13KB)
--------__init__.py(0B)
--------wrappers.py(5KB)
--------doc.py(31KB)
----tests()
--------models()
--------test_pipeline.py(5KB)
--------test_doc.py(10KB)
----CONTRIBUTORS.md(395B)
----LICENSE(1KB)
----CONTRIBUTING.md(4KB)
----VERSION(7B)
----requirements.txt(173B)
----setup.py(1KB)
----.gitignore(288B)
----CODEOFCONDUCT.md(3KB)
----README.md(5KB)
----script()
--------bootstrap(128B)
--------test(609B)
----pylintrc(17KB)