多模态大语言模型（MLLM）-Deepseek Janus-创新点

时间：2024-10-24 13:18:49

传统方法在统一视觉理解、视觉生成任务上，做的不好。视觉理解侧重高层语义（例如类别、属性等），而视觉生成侧重低层语义（例如局部细节等），统一模型难以同时关注高层和低层语义信息。
Janus解耦视觉编码方式，为视觉理解、视觉生成选择对应的视觉编码器，避免了高层-低层语义信息的冲突。
Janus灵活可扩展，解耦的思想不仅可用于视觉理解、视觉生成，也可以扩展到点云、脑电信号、甚至是声音数据。
Janus用小体量模型，在视觉理解、视觉生成任务上，均取得了媲美中等体量模型的效果。

相关文章

