文件名称:py-lingualytics:文本分析库,支持混码数据
文件大小:6.69MB
文件格式:ZIP
更新时间:2024-03-29 02:02:50
nlp pytorch nlp-library bert pytorch-nlp
Lingualytics:具有代码混合支持的印度分析 Lingualytics是用于处理印度文字的Python库。 Lingualytics由 , , , 和等强大的库提供支持。 观看我们的演示视频! :glowing_star: 特征 前处理 删除停用词 删除标点符号,并可以选择添加自己语言的标点符号 删除少于字符数限制的单词 表示 从给定的文本中查找n-gram 自然语言处理 使用PyTorch进行分类 在数据上训练分类器以执行诸如情感分析之类的任务 使用准确性,f1得分,准确性和召回率等指标评估分类器 使用训练有素的分词器对文本进行分词 :brain: 预训练模型 签出一些我们使用Lingualytics训练过的对代码混合友好的模型 :floppy_disk: 安装 使用软件包管理器安装语言工具。 pip install lingualytics :joystick: 用法 前处理 from lingualytics . preproc
【文件预览】:
py-lingualytics-master
----docs()
--------conf.py(2KB)
--------make.bat(795B)
--------Makefile(702B)
--------index.rst(810B)
----LICENSE(1KB)
----setup.cfg(1KB)
----lingualytics()
--------learner.py(16KB)
--------preprocessing.py(1KB)
--------stopwords.py(12KB)
--------representation.py(655B)
--------__init__.py(0B)
----requirements.txt(127B)
----examples()
--------getting-started.ipynb(5KB)
----setup.py(69B)
----.gitignore(146B)
----README.md(5KB)
----github()
--------Sub-Word-LSTM.jpg(42KB)
--------BERT.jpg(35KB)
--------train-demo.gif(4.11MB)
----datasets()
--------zip-files()
--------SAIL_2017()
--------CS-EN-ES-CORPUS()
--------Sub-word-LSTM()