rigl:几乎没有性能损失的稀疏深度神经网络的端到端训练

时间:2024-05-30 17:16:54
【文件属性】:

文件名称:rigl:几乎没有性能损失的稀疏深度神经网络的端到端训练

文件大小:717KB

文件格式:ZIP

更新时间:2024-05-30 17:16:54

machine-learning computer-vision neural-networks sparse-training Python

索具彩票:使所有彩票中奖 论文: : 15分钟演示[ ] [ ] ML重现性挑战2020 计算稀疏模型的FLOP的Colabs 最佳稀疏模型 参数是浮点型的,因此每个参数都用4个字节表示。 均匀的稀疏分布使第一层保持密集,因此具有更大的尺寸和参数。 ERK适用于除99%稀疏模型之外的所有层,在稀疏模型中,我们将第一层设置为密集层,因为否则我们会观察到更差的性能。 扩展培训结果 RigL的性能随着扩展的训练迭代而显着提高。 在本节中,我们将稀疏模型的训练扩展了5倍。 请注意,稀疏模型每次训练迭代所需的FLOP少得多,因此,大多数扩展训练的成本都比基线密集训练的FLOP少。 观察性能的提高,我们想了解稀疏网络的性能在哪里饱和。 我们进行的最长训练是原始100个时代ImageNet训练的100倍训练时间。 这次训练的费用是原始密集训练FLOPS的5.8倍,而所得的99%稀疏R


网友评论