【论文翻译】TITAN:用于交通流量预测的异构专家混合模型-2 相关工作

时间:2024-10-14 13:37:24

2.1 交通流量预测

交通流量预测任务表现出显著的时空异质性和复杂的变量交互模式。传统的机器学习方法,如支持向量回归(SVR)、随机森林(RF)和梯度提升决策树(GBDT),这些方法严重依赖特征工程,难以捕捉这些复杂的交互。早期的时空预测模型主要通过引入图结构将空间信息整合到模型中,从而能够有效处理非欧几里得空间。例如,2018年引入的DCRNN模型,通过将图卷积注入递归单元,并结合卷积神经网络(CNN)来建模时空特征,相比于传统方法如ARIMA(时序分析模型)表现出更好的性能。尽管这些方法有效,但它们严重依赖于基于欧几里得距离的预定义图结构和启发式规则(如托布勒第一地理定律),忽略了交通的动态特性(如高峰时间和事故)。后续的工作如GraphWaveNet通过使用节点嵌入构建可学习的邻接矩阵来建模空间关系,尽管取得了一定的改进,但在捕捉异常方面仍然有限。最近的模型如MegaCRN通过整合元图学习器支持的元节点库提升了模型在异常处理方面的适应性。尽管这些模型增强了稳健性,但它们受限于独立的建模技术。

这种限制引发了对基于专家混合模型(MoE)结构的时空预测模型的兴趣。例如,TESTAM集成了三个不同的专家,用于提升时空预测的性能。然而,这些研究仍然以序列为中心,限制了其有效捕捉变量间关系的能力。本文旨在通过联合建模序列和变量中心的依赖性来解决这一挑战,允许同时考虑局部和跨变量的交互。该方法为数据提供了更全面的视角,并增强了建模复杂时空动态的能力。

2.2 专家混合模型

专家混合模型(MoE)最初由Jacobs等人提出,允许各个专家从数据集的子集独立学习,然后集成到一个统一的系统中。在此基础上,Shazeer等人引入了稀疏门控专家混合模型(SMoE),该模型使用门控网络进行专家选择,并实现了top-K路由策略,为每个输入选择固定数量的专家。Lepikhin等人进一步表明,并非所有专家在MoE模型中都具有相等的贡献,舍弃了较不重要的专家以维持最佳性能。尽管取得了这些进展,MoE模型在时空任务中仍然面临挑战。训练早期阶段往往导致次优路由,特别是在处理不可预测事件时。此时,MoE难以从记忆中查询并检索适当的信息,导致无效的路由决策。虽然SMoE通过精细的位置依赖路由引入了归纳偏差,但主要集中于避免错误路由,而忽视了为最佳路径进行优化的问题。类似地,TESEAM通过使用两个损失函数进行改进,一个用于避免错误路径,另一个用于优化专家的最佳路径,但仍未解决时空预测中基本的归纳偏差问题。在交通流量预测等具有高度时空异质性的任务中,MoE模型对独立专家结构的依赖增加了归纳偏差,降低了整体模型性能。

具有相同结构的专家在MoE中引入了强烈的归纳偏差,进一步限制了模型的灵活性和适应性。此外,当涉及具有完全不同结构的模型时,MoE难以学习输入和输出之间的关系,难以有效地跨多个任务应用模型。这突显了对能够平衡路由精度和专家专业化的新方法的需求,特别是在意外事件至关重要的动态环境中。