总结 - 秒客网

HiPPO，高阶多项式投影，high-order polynomial projection operators

为了解决从序列数据中建模和学习的问题，尤其是长序列，十万甚至百万长度的序列，使用有界存储来学习整个累积历史的表示，需要一种在线更新的方式。
HiPPO给出了一个通用的框架解决这个问题。作者将序列记忆视为在线函数近似的技术问题，通过将序列投影到正交多项式（OP）的方法实现在线近似。论文提出了LegT、LagT、LegS三种时间度量方式，分别表达对整个序列历史的学习权重。
框架HiPPO（高阶多项式投影算子），提供了将到在给定时间度量的正交多项式空间上的算子。通过分析几种时间度量函数，以及不同的多项式基，作者都推导获得了闭式常微分方程或线性递归，允许在输入函数随时间变化时快速增量更新最优多项式近似值。而HiPPO框架推导的在线学习方程，恰好符合动力学的SSM方程，于是可以利用动力学方程的已有理论。

很多文章说，“Mamba的发展，是从SSM->HiPPO->S4->Mamba 演化过来”，这种说法是不准确的。HiPPO论文在问题设置与方法定义中并未提及SSM。正如苏神所说：“HiPPO 并没有一开始就假设系统必须是线性的，而是从正交基逼近的角度反过来推出其系数的动力学满足一个线性 ODE 系统，这样一来我们就可以确信，只要认可所做的假设，那么线性 ODE 系统的能力就是足够的，而不用去担心线性系统的能力限制了你的发挥。”

个人总结：针对序列数据的建模和学习，HiPPO框架是一种序列记忆的统一框架，通过投影到正交多项式进行序列学习，同时用时间度量函数表达对序列历史的学习权重，在给定时间度量下的正交多项式投影的推导，最终推导出线性常微分方程的闭式解，实现在线近似学习。
在这里插入图片描述
将SSM方程的矩阵A从随机矩阵A修改为上述HiPPO矩阵，可以有效提升SSM在实践中的性能。

总结

相关文章