番外篇 | 斯坦福提出即插即用二阶优化器Sophia ：相比Adam实现2倍加速，显著节省大语言模型训练成本

前言：Hello大家好，我是小哥谈。大模型的预训练成本巨大，优化算法的改进可以加快模型的训练时间并减少训练开销。目前大模型的训练优化器基本上都采用Adam及其变体，并且Adam的应用已经有9个年头了，在模型优化方面相当于霸主的地位。但是能否够在优化器方面提高模型预训练效率呢？今天给大家分享的这篇文章是来自斯坦福的最新研究成果，他们提出了「一种叫Sophia的优化器，相比Adam，它在LLM上能够快2倍，可以大幅降低预训练成本」。????