百度“文心•跨模态大模型”又有新动态,支持内容分析时输出自定义标签库

时间:2024-07-16 08:37:27

大模型真正的价值在于应用。

一、基本概念

AI大模型具有强大的表征学习能力,能够在海量数据中提取有用的特征,为各种复杂任务提供解决方案。例如GPT-4o、BERT等模型的出现,不仅展示了大规模参数和复杂计算结构的优势,还在自然语言处理、图像识别等领域取得了令人瞩目的成果。同时,多模态大模型发展也为人工智能技术的多领域融合应用提供了可能。

1.跨模态大模型

跨模态大模型(Cross-Modal Large Models),是一种能够处理和理解来自不同模态(如文本、图像、音频、视频等)的数据,并在这些模态之间进行转换、关联和推理的深度学习模型。为了捕捉和表示各种模态数据中的丰富信息,这些模型通常具有庞大的参数规模和复杂的网络结构。

随着深度学习技术的不断发展和计算能力的提升,跨模态大模型的性能和效果越来越好,已经被广泛地投入使用。跨模态大模型可以实现图像描述生成、视觉问答、图像检索等任务,有效地关联和融合信息,为用户提供更加灵活便捷的检索方式。除此之外,跨模态大模型经常用于分析多媒体内容,如视频、音频等,提取其中的关键信息和特征。

2.内容分析

本文介绍的是“媒体内容分析”。它主要利用视觉、语音、知识图谱等AI技术,对视频和图片进行结构化分析,帮助平台实现个性化内容推荐,提升用户检索体验,促使业务有效转化。

百度的媒体内容分析MCA(Media Content Analysis) 借助百度积累的海量级数据,针对视频场景进行声音、人脸、图像、文字多维度分析,输出内容的泛标签,可以达到最优的识别效果。

3.结构化标签

结构化标签是一种用于明确标识和分类内容的标记形式。它不仅能帮助人类更好地理解内容,还可以让机器(如搜索引擎、自动化工具等)解析和索引信息,更准确地理解文本含义和上下文信息,提高任务处理效率,从而提高内容的可访问性,改善观众的搜索体验。

结构化标签通常遵循某种标准或规范,如HTML5的语义化标签(如<header>, <footer>, <article>, <section>等)、微数据(Microdata)、RDFa(Resource Description Framework in Attributes)或JSON-LD(JavaScript Object Notation for Linked Data)等。

4.自定义文心标签

当系统中已有的标签无法满足实际需求时,只需在文心标签库里输入“标签名称+提示词”的文本,系统就能为视频、图片打上对应的标签。这个能力的实现,使用了百度“文心•跨模态大模型”,因此通过这种方式打出的标签,被称为“文心标签”。

百度的内容分析系统,支持“系统内置文心标签”和“自定义文心标签”。前者由内容分析产品官方团队维护,用户可在模板中配置是否开启;后者由用户自主维护,需要用户手动创建标签库,并将其绑定在模板上。

二、超详细实操指南

登录百度智能云官网、进入产品页面后,点击分析管理>自定义库管理>自定义文心标签库,进入自定义文心标签库页。

Step 1 确定标签内容

根据自身的业务需求,梳理好期望系统输出的标签。我们推荐在以下场景内,使用自定义文心标签功能:

  • 自然场景标签:如“暴雪天”“森林”“冰川”“极光”“星空”等自然场景。

  • 人文场景标签:如“演出活动”“博物馆”“握手”“龙舟比赛”等社会文化生活中常见的场景、活动、动作。

  • 常见实体标签:如“滑板”“蛋糕”“飞机”“二维码”“长城”等物体、地标。

Step 2 创建文心标签库

进入自定义库管理>文心标签库页面,点击“创建文心标签库”按钮,创建库。每个用户最多可创建3个库,单个库最多支持300个标签。

Step 3 添加标签与提示词

创建完自定义文心标签库后,进入标签库编辑页。点击“添加标签”,即可添加标签与提示词。

3.1 什么是提示词

标签是用户期望系统为图片、视频内容打上的标签,提示词是系统打标签的参考依据。

例如,“冬季运动”为标签,“滑冰、滑雪、冰壶、雪车”为提示词。系统在进行内容分析的过程中,如果发现某个图片或视频的画面内容与提示词一致,就会为其打上对应的标签。

3.2 怎么写提示词

如果标签可以概括提示词内涵,可以直接使用标签作为“提示词”,如“极光”。为了保证召回的效果,也可以使用近义词撰写多个提示词,如“舞台”。

如果标签涵盖的场景较为复杂,提示词要细化不同的场景。如标签“救援”“婚纱照”。

3.3 标签验证

为每个标签添加提示词后,可使用“标签验证”功能,检验提示词是否合适,以确保系统根据提示词匹配的图片与提示词表达的内涵一致。如遇到不一致的情况,可对提示词进行调整。

如“红包”这个标签,本意是想召回在线的各类红包营销活动、红包提示,但进行“标签验证”后发现,系统召回了“红色的手提包”。为了避免系统对红包产生歧义、以至在后续使用过程中,给很多图片错误打上“红包”标签,可以将提示词改写为“电子红包画面”“电子红包”“电子红包弹窗”。

修改提示词前的标签验证结果,如下图:

修改提示词后的标签验证结果,如下图:

类似的例子还有标签“平板”,本意是指平板电脑,提示词只写“平板”,召回的内容不符合预期,改为“平板电脑”后,与预期一致。

修改提示词前的标签验证结果,如下图:

修改提示词后的标签验证结果,如下图:

3.4 标签阈值

系统支持输入0.26-0.35之间的两位小数作为标签阈值,默认阈值为“0.32”。只有“置信度”大于阈值的标签,才会被输出。阈值将直接影响图片打标签的严格程度。

  • 阈值较低(如0.26或0.27):意味着打标签规则相对宽松,图片更容易被打上当前标签。

  • 阈值较高(如0.34或0.35):意味着打标签规则更加严格,只有高度符合提示词描述的图片才会被打上当前标签,因此被打上标签的图片数量可能会减少。

当阈值设定好之后,在“标签验证”时,也只有“置信度”大于阈值的图片,才会被召回,且最多可以召回20张图片。

Step 4 将标签库绑定至模板

编辑好标签和提示词后,可以在视频分析模板、图片分析模板的“自定义文心标签”项下,绑定对应的标签库。

视频分析模板:

图片分析模板:

Step 5 开始使用

通过API接口或内容分析产品控制台,选择已经绑定好文心标签库的模板,发起“图片内容分析”“视频内容分析”,验证内容打标结果是否符合预期。如与预期不符,可增加或修改提示词。

图片内容分析:

视频内容分析:

三、总结

人工智能“百模大战”已经开启,借助大模型能力满足业务的自定义需求,已经成为大势所趋。文心跨模态大模型和自定义文心标签,突破了应用场景、产业生态、技术成本的限制,呈现出了蓬勃的生机与活力。