摘要:在视觉与语言(V&L)模型中,阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解(STU)的V&L模型呢?
本文分享自华为云社区《场景文本理解预训练PreSTU》,作者: Hint 。
【论文摘要】
在视觉与语言(V&L)模型中,阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解(STU)的V&L模型呢?本文提出了PreSTU,一个专门为场景文本理解而设计的简单预训练模型。PreSTU将一个简单的OCR感知预训练目标与一个具有现成OCR信号的大规模图像-文本数据集相结合。我们在TextVQA、TextCaps、ST-VQA和VizWiz-VQA上经验性地证明了这个预训练目标的优越性。我们还研究了哪些因素会影响STU的性能,其中我们强调了图像分辨率和数据集规模在预训练中的重要性。
【出发点】
在真实世界中的视觉语言任务中,有大量的图像是包含场景文本的。理解图像中的文本对于视觉语言任务来说,往往是重要的,例如发票识别整理、机器人理解环境等。而现有模型经常忽略这一信息。通过对图像OCR信号引入,可以提升视觉语言模型对图像的理解能力。论文基于大规模的图像文本数据集,设计了进行场景文本理解的预训练模型PreSTU。
【解决方案】
1. 引入一个OCR文本生成的预训练任务“SPLITOCR”:给定图像patches,随机将OCR文本分为两个部分,给定第一部分,令模型预测第二部分的OCR文本。
2. 使用Prompt learning的方式,输入各个任务所对应的提示词,使得模型能够更好地适配下游任务。论文中使用image captioning和VQA两个任务。