论文阅读:三星-TinyClick-图

时间:2024-10-30 11:57:19

在这里插入图片描述

下游任务的示例命令。TinyClick 接收屏幕截图和用户指令,然后预测 UI 元素的边界框和动作。

训练情况

模型开源: hugging-face.co/Samsung/TinyClick
Florence2:一个定位和检测模型、通过同时使用带注释的图像和自然语言解释,允许适应跨领域。

训练方式

多任务训练

任务类别和目的

我们使用了公开可用的语料库来训练单轮对话智能体,这些语料库主要包含命令和位置(边界框)。
为了准备训练数据,我们使用了现有的MLLM注解或软件元数据,并且也使用我们自己的MLLM管道对数据进行了重新注解。
元素的描述、期望、位置和用途主要基于MLLM注解,而对象检测则使用了Android XML UI元数据。
实验验证了我们的方法的有效性,用更小、更快的模型超越了当前的基线。

任务名称

1.Element captioning
根据屏幕上的位置生成UI元素的描述、目的或操作预期。

2.Element location
根据视觉描述定位UI元素

3.Object detection
检测所有可点击的UI元素

4.Agent action
根据用户指令(command)定位要点击的UI元素或要点击的位置。

5.QA
根据屏幕内容QA

训练数据集

1.WaveUI
2.AMEX
3.Mind2Web
4.GUI Odyssey(not in train)
5.GUI Course
6.AndroidControl
7.ScreenQA
8.WebUI(not use)
9.OmniAct(validation set)

在这里插入图片描述

MLLM注解模型标注的方式

InternVL2-26B 标注数据 GUI Course的例子:

你的任务是生成一个预期 expectation ——与红色方框中的UI元素交互后会发生什么。

也就是说

输入是 image、prompt、 包含command和action的input json
输出是 output json

在这里插入图片描述
在这里插入图片描述

训练任务示例

同一个UI元素 可以 有多个不同的任务,类似 grounding和widget caption的意思

在这里插入图片描述