文件名称:Urdu:收集适用于POS,NER和NLP任务的Urdu数据集
文件大小:121.99MB
文件格式:ZIP
更新时间:2024-05-26 05:09:49
nlp machine-learning ner spacy-models urdu-language
POS数据集 用于POS培训的Urdu数据集。 这是一个很小的数据集,可用于训练乌尔都语语言的语音标记部分。 数据集的结构很简单,即 word TAG word TAG 用于构建数据集的标签集取自标签集。要获取大型数据集,您需要购买许可证。 联络人: virtuoso.irfan@gmail.com NER数据集 以下是用于NER任务的数据集。 UNER数据集 高兴地宣布,UNER(乌尔都命名实体识别)数据集可用于NLP应用程序。 以下是用于构建数据集的NER标签: PERSON LOCATION ORGANIZATION DATE NUMBER DESIGNATION TIME 如果您想了解有关数据集的更多信息,请查看本文 。 NER数据集采用utf-16格式。 MK-PUCIT数据集 提供Urdu NER的最新消息。 查阅本文以获取更多信息 。 数据集中使用的实体是 Other O
【文件预览】:
Urdu-master
----counter()
--------counter.txt.tar.gz(569KB)
----.gitignore(15B)
----spacy()
--------ur_ner-0.0.0.tar.gz(10.59MB)
--------ur_model-0.0.0.tar.gz(38.11MB)
----sentiment()
--------roman.csv.tar.gz(612KB)
--------urdu.tsv.tar.gz(49KB)
--------imdb_urdu_reviews.csv.tar.gz(30.05MB)
----ner()
--------uner.txt.tar.gz(106KB)
--------mk-pucit.tar.gz(22.1MB)
----LICENSE(1KB)
----_config.yml(27B)
----README.md(6KB)
----pos()
--------train.txt.tar.gz(9.24MB)
--------test.txt.tar.gz(237KB)
----news()
--------headlines.csv.tar.gz(9.73MB)
--------real_fake_news.tar.gz(661KB)