文件名称:clifs:对比语言-图像取证搜索允许使用OpenAI的CLIP在视频中进行免费文本搜索
文件大小:1.31MB
文件格式:ZIP
更新时间:2024-05-25 06:16:05
JavaScript
对比语言-图像取证搜索 概述 CLIFS是一种概念证明,可通过视频免费搜索具有匹配内容的视频帧。 这是使用模型完成的,该模型经过训练可将图像与相应的字幕进行匹配,反之亦然。 首先使用CLIP图像编码器从视频帧中提取特征,然后通过CLIP文本编码器获取搜索查询的特征,从而完成搜索。 然后,通过相似性对特征进行匹配,并且如果超过设置的阈值,则返回最佳结果。 为了方便使用CLIFS后端,运行django的简单Web服务器用于提供搜索引擎的界面。 例子 为了让您了解此模型的强大功能,下面显示了一些示例,搜索查询以粗体显示,结果在下面。 这些搜索查询是针对2分钟的Sher*e视频进行的。 仅显示每个查询的顶部图像结果。 请注意,该模型实际上具有OCR的功能。 带有文字“ odwalla”的卡车 一辆白色宝马车 带有文字“ JCN”的卡车 骑自行车的人,穿着一件蓝色的衬衫 一辆蓝色的SMA