我们提出了Perceiver,这是一个基于Transformer的模型,可以扩展到超过十万个输入。
这为对输入假设较少且能够处理任意传感器配置的通用感知架构开辟了新的途径,同时能够实现所有层次的信息融合。
随着灵活性的提高,过拟合的风险也随之增大,我们许多设计决策都是为了减轻这一风险。
在未来工作中,我们希望在非常大规模的数据上预训练我们的图像分类模型。
我们在包含1.7百万个示例的大型AudioSet数据集上取得了强大的结果,其中Perceiver在音频、视频以及两者结合方面与最新的最先进方法竞争。
在ImageNet上,该模型的表现与ResNet-50和ViT相当。
当比较论文中考虑的所有不同模态和组合时,Perceiver在整体上表现最佳。
虽然我们减少了模型中模态特定先验知识的使用量,但我们仍然采用了模态特定的增强和位置编码。
端到端的模态无关学习仍然是一个有趣的研究方向。