【文件属性】:
文件名称:spearman的matlab代码-KoBART:韩国BART
文件大小:8.19MB
文件格式:ZIP
更新时间:2021-06-13 00:52:07
系统开源
spearman
的
matlab
生成
:rolling_on_the_floor_laughing:
科巴特
(B和A
idirectional
uto
-
Regressive
ransformers
T)是通过向某些输入文本添加噪声来再次恢复原始文本的自动autoencoder是一种学习形式。
韩语
BART(以下简称KoBART
)是一种韩语encoder-decoder语言模型,已经使用论文中使用的Text
Infilling噪声函数针对超过40GB的韩语文本进行了Text
Infilling
。
我们分发派生的KoBART-base
。
如何安装
pip
install
git+https://github.com/SKT-AI/KoBART#egg=kobart
数据
数据
#
句子
韩文维基
5M
其他语料库
0.27B
除了韩文*之外,还使用了新闻、书籍等各种数据来训练模型。
分词器
使用包中的Character
BPE
tokenizer进行Character
BPE
tokenizer
。
vocab大小为30,000,通过添加以下表情符号和表情符号,增加了相应令牌的识别能力,这些表情符号和表情符号在对话中经常使用
【文件预览】:
KoBART-main
----kobart()
--------pytorch_kobart.py(2KB)
--------utils.py(4KB)
--------__init__.py(1KB)
----LICENSE(1KB)
----imgs()
--------bart.png(86KB)
--------kobart_summ.png(46KB)
----requirements.txt(37B)
----examples()
--------nsmc.py(11KB)
--------requirements.txt(55B)
--------README.md(129B)
--------nsmc()
----setup.py(2KB)
----README.md(5KB)