文件名称:再思考Transformer中的Batch Normalization.pdf
文件大小:672KB
文件格式:PDF
更新时间:2023-04-11 09:46:22
BN
自然语言处理(NLP)中神经网络模型的标准归一化方法是层归一化(LN)。这不同于计算机视觉中广泛采用的批量归一化(BN)。LN在NLP中的优先使用主要是由于经验观察,使用BN会导致NLP任务的性能显著下降;然而,对其根本原因的透彻理解并不总是显而易见的。
文件名称:再思考Transformer中的Batch Normalization.pdf
文件大小:672KB
文件格式:PDF
更新时间:2023-04-11 09:46:22
BN
自然语言处理(NLP)中神经网络模型的标准归一化方法是层归一化(LN)。这不同于计算机视觉中广泛采用的批量归一化(BN)。LN在NLP中的优先使用主要是由于经验观察,使用BN会导致NLP任务的性能显著下降;然而,对其根本原因的透彻理解并不总是显而易见的。