文件名称:broca:快速nlp原型制作
文件大小:111KB
文件格式:ZIP
更新时间:2024-04-21 09:53:22
Python
布罗卡 各种有用的NLP算法和实用程序 到处都有一些Python 2支持,但是尚未对该库进行全面测试。 该库正在开发中-API可能会更改,功能可能会不稳定。 概述 broca是用于实验各种方法的NLP库。 因此,该库中的所有内容都具有实验性,可用于NLP方法的快速原型制作。 当我通常从纸张或其他来源实施新方法时,我会在此处添加它,以便可以在其他地方重新应用它。 最终,我希望broca可以成为一系列实验性NLP方法的组成部分,并且可以很容易地引发新问题。 broca的结构如下: common :杂项实用程序和类在整个库中重复使用。 还包括共享对象。 distance :用于测量琴弦距离。 不过,这可能应该重命名,因为“距离”的含义远不只是字符串距离。 tokenize :各种tokenize化方法keyword :基于关键字的标记化方法(即关键字提取方法) vectorize
【文件预览】:
broca-master
----setup.py(563B)
----.gitignore(59B)
----requirements.txt(113B)
----MANIFEST.in(46B)
----LICENSE.txt(1KB)
----examples()
--------idf.py(802B)
--------data()
--------__init__.py(270B)
--------clustering.py(1KB)
--------regression.py(875B)
--------keywords.py(2KB)
----README.md(9KB)
----tests()
--------test_tokenize.py(3KB)
--------test_similarity.py(2KB)
--------__init__.py(0B)
--------test_preprocess.py(930B)
--------test_util.py(485B)
--------test_pipeline.py(15KB)
----broca()
--------distance()
--------preprocess()
--------data()
--------__init__.py(77B)
--------cluster()
--------tokenize()
--------similarity()
--------entity.py(1KB)
--------vectorize()
--------common()
--------pipeline()
--------knowledge()