再思考Transformer中的Batch Normalization.pdf

时间:2023-04-11 09:46:22
【文件属性】:

文件名称:再思考Transformer中的Batch Normalization.pdf

文件大小:672KB

文件格式:PDF

更新时间:2023-04-11 09:46:22

BN

自然语言处理(NLP)中神经网络模型的标准归一化方法是层归一化(LN)。这不同于计算机视觉中广泛采用的批量归一化(BN)。LN在NLP中的优先使用主要是由于经验观察,使用BN会导致NLP任务的性能显著下降;然而,对其根本原因的透彻理解并不总是显而易见的。


网友评论