多模态大语言模型（MLLM）-InstructBlip深度解读-创新点

数据集收集：将26个公开数据集转换为指令微调格式，并将它们归类到11个任务类别中。使用了其中13个数据集来进行指令微调，另外13个数据集用于zero-shot评估。
数据集配比：提出了一种平衡采样策略，以同步不同数据集间的学习进度。
模型改进：提出了指令感知的视觉特征提取，能够根据输入文本，提取特定的图像特征。说白了，就是文本不仅输入到LLM，也输入到Q-Former，Q-Former的输出再又给到LLM。
评估并开源了一系列InstructBLIP模型，使用了两类大型语言模型：1) FlanT5，一种基于T5 微调得到的encoder-decoder模型；2) Vicuna，一种基于LLaMA微调得到的decoder模型。InstructBLIP模型在广泛的视觉-语言任务上实现了最先进的零样本性能。

秒客网