punctuation-restoration:使用高资源和低资源语言的变压器模型进行标点还原

时间:2024-05-29 12:38:33
【文件属性】:

文件名称:punctuation-restoration:使用高资源和低资源语言的变压器模型进行标点还原

文件大小:10.87MB

文件格式:ZIP

更新时间:2024-05-29 12:38:33

deep-learning pytorch bangla bert punctuation-marks

使用变压器模型进行标点还原 该存储库将继续在EMNLP研讨会接受正式实施。 数据 英语 英文数据集位于data/en目录中。 这些都是从收集的。 孟加拉语 Bangla数据集位于data/bn目录中。 模型架构 我们针对标点恢复任务对基于Transformer架构的语言模型(例如BERT)进行了微调。 变压器编码器后面是双向LSTM和线性层,可预测每个序列位置的目标标点符号。 依存关系 按照说明安装PyTorch。 可以使用以下命令来安装剩余的依赖项 pip install -r requirements.txt 训练 要使用英语的最佳参数设置来训练标点符号恢复模型,请运行以下命令 python src/train.py --cuda=True --pretrained-model=roberta-large --freeze-bert=False --lstm-dim=-1 --lan


【文件预览】:
punctuation-restoration-master
----.gitignore(2KB)
----requirements.txt(34B)
----data()
--------test_en.txt(413B)
--------test_bn.txt(1KB)
--------en()
--------bn()
----src()
--------inference.py(4KB)
--------run.sh(298B)
--------config.py(2KB)
--------argparser.py(3KB)
--------test.py(5KB)
--------dataset.py(6KB)
--------augmentation.py(2KB)
--------model.py(2KB)
--------train.py(12KB)
----assets()
--------model_architectue.png(93KB)
----LICENSE(1KB)
----README.md(6KB)

网友评论