文件名称:孟加拉语数据集:最大的孟加拉语开源NLP数据集(仍处于构建阶段,欢迎贡献)
文件大小:6KB
文件格式:ZIP
更新时间:2024-03-13 01:41:00
Python
孟加拉语数据集 版本-0.1.0(预发布) 介绍 Bengali数据集是NLP最大的开源Bengali数据集。 解决孟加拉语的自然语言处理带来了一系列挑战和困难。 这是我们解决这个问题的第一步。 将来,该数据集将与HuggingFace数据集库集成。 样品数 该数据集将包含1M批注的样本 贡献 该数据集仍处于开发阶段,我们需要更多的贡献者和开发人员来完成最初的1M注释的孟加拉语数据集目标。 查看 联系数据集的维护者 加入我们的进行进一步讨论。
【文件预览】:
bengali-dataset-master
----config()
--------post.py(503B)
--------creds.json(2KB)
----how_to_contribute.md(4KB)
----entries.txt(1B)
----requirements.txt(20B)
----main.bat(22B)
----README.md(818B)