Knowledge-Distillation-NLP:NLP中知识蒸馏的一些演示

时间:2024-06-20 01:16:54
【文件属性】:

文件名称:Knowledge-Distillation-NLP:NLP中知识蒸馏的一些演示

文件大小:87KB

文件格式:ZIP

更新时间:2024-06-20 01:16:54

nlp keras knowledge-distillation bert JupyterNotebook

知识蒸馏 知识蒸馏(a.k.a Teacher-Student Model)旨在利用一个小模型(Student)去学习一个大模型(Teacher)中的知识, 期望小模型尽量保持大模型的性能,来减小模型部署阶段的参数量,加速模型推理速度,降低计算资源使用。 目录结构 1.参考 (Hinton et al., 2015), 在cifar10数据上的复现,提供一个对Knowledge Distillation的基本认识,具体内容请查阅: 2.利用BERT-12 作为Teacher,BERT-3作为student,同时学习ground truth 和 soften labels,性能与Teacher 相当甚至更优,具体内容请查阅: 主要参考论文: 3.利用模块替换的思路,来进行Knowledge Distillation,具体内容请查阅: 论文: Blog: repo: 4.利用不同样本预测的难易


【文件预览】:
Knowledge-Distillation-NLP-master
----img()
--------knowledge-distillation.png(22KB)
----.gitignore(350B)
----knowledge_distillation_bert_of_theseus.py(9KB)
----knowledge_distillation_fastbert.py(12KB)
----README.md(3KB)
----knowledge_distillation_bert.py(9KB)
----Knowledge_Distillation_From_Scratch.ipynb(98KB)

网友评论