bert-distillation:用催化剂框架蒸馏BERT模型

时间:2021-05-14 22:28:16
【文件属性】:
文件名称:bert-distillation:用催化剂框架蒸馏BERT模型
文件大小:162KB
文件格式:ZIP
更新时间:2021-05-14 22:28:16
nlp catalyst bert distillation rubert 伯特蒸馏 对于更通用的管道,请遵循库和。 我不再支持该项目。 该项目是关于BERT蒸馏的。 目的是通过便捷的高级API,可再现性和所有GPU新功能,基于任何语言提炼出任何BERT。 特征 各种损失 分布式培训 fp16 使用张量板,wandb等进行日志记录 催化剂框架 简短查询 不久之前,Hugging Face团队发表了有关DistilBERT模型的。 这个想法是将知识从大学生模型转移到小学生模型。 首先,我们需要训练有素的老师模型。 让我们采用6个编码器,而不是12个! 我们应该使用教师层初始化小模型的层。 不用长时间训练我们的模型来进行隐蔽语言模型任务,我们可以增加我们的偶然损失KL散度和学生与老师之间的余弦损失,因为我们知道老师受过良好的训练。 如本文所示,这种方法导致质量下降较小,减小模型尺寸并加快推理速度,尤其是在移动设备上。 用法 在催化剂框架中,有两种运行实
【文件预览】:
bert-distillation-master
----requirements()
--------requirements-dev.txt(132B)
--------requirements.txt(84B)
----docker()
--------Dockerfile(577B)
--------.gitkeep(0B)
----.gitattributes(66B)
----.github()
--------ISSUE_TEMPLATE()
--------workflows()
----serving()
--------.gitkeep(0B)
----imgs()
--------logo_small.png(40KB)
--------distillation_schema.png(49KB)
--------logo.png(49KB)
----configs()
--------test_config.yml(2KB)
--------config_ru_ranger.yml(2KB)
----src()
--------models()
--------test.py(3KB)
--------runners()
--------experiment.py(4KB)
--------__init__.py(713B)
--------.gitkeep(0B)
--------callbacks()
--------data()
----scripts()
--------split_dataset.py(997B)
--------.gitkeep(0B)
----examples()
--------notebook_api()
--------config_api()
----LICENSE(1KB)
----README.md(8KB)
----data()
--------train.csv(126B)
--------valid.csv(126B)
----Example.ipynb(4KB)
----bin()
--------download_lenta.sh(190B)

网友评论