ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions Authors Jeonghwan Kim, Jisoo Kim, Jeonghyeon Na, Hanbyul Joo 为了使机器能够了解人类在日常活动中如何与物理世界交互,提供包含人类 3D 运动以及可学习 3D 表示形式的物体运动的丰富数据至关重要。理想情况下,这些数据应该在自然设置中收集,在人体交互过程中捕获真实的动态 3D 信号。为了应对这一挑战,我们推出了 ParaHome 系统,该系统旨在捕获和参数化公共家庭环境中人类和物体的动态 3D 运动。我们的系统由带有 70 个同步 RGB 摄像机的多视图设置以及配备基于 IMU 的紧身衣和手部动作捕捉手套的可穿戴动作捕捉设备组成。通过利用 ParaHome 系统,我们收集了一个新颖的大规模人类对象交互数据集。值得注意的是,我们的数据集在三个主要方面比现有数据集提供了关键进步:1 在自然活动期间捕获 3D 身体和灵巧的手部操作运动以及上下文家庭环境中的 3D 对象移动;2 涵盖人类在各种情景场景中与多个对象的交互,并在文本3包括具有用参数化关节表达的多个部分的关节对象。 |
OMG-Seg: Is One Model Good Enough For All Segmentation? Authors Xiangtai Li, Haobo Yuan, Wei Li, Henghui Ding, Size Wu, Wenwei Zhang, Yining Li, Kai Chen, Chen Change Loy 在这项工作中,我们解决了各种分割任务,每个任务传统上都是通过不同或部分统一的模型来处理的。我们提出 OMG Seg,一种足以高效且有效地处理所有分割任务的模型,包括图像语义、实例和全景分割,以及它们的视频对应项、开放词汇设置、提示驱动、交互式分割(如 SAM),和视频对象分割。据我们所知,这是第一个在一个模型中处理所有这些任务并取得令人满意的性能的模型。我们展示了 OMG Seg,一种基于 Transformer 的编码器解码器架构,具有特定于任务的查询和输出,可以支持十多个不同的分割任务,并且显着减少各种任务和数据集的计算和参数开销。我们在协同训练期间严格评估任务间的影响和相关性。 |
RAP-SAM: Towards Real-Time All-Purpose Segment Anything Authors Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, Xiangtai Li, Ming Hsuan Yang 通过 Transformer 架构的改进,视觉基础模型 VFM 在性能和泛化能力方面取得了显着进步。 Segment Anything Model SAM 是一种可以实现广义分割的卓越模型。然而,大多数 VFM 无法实时运行,这使得将它们转移到多个产品中变得困难。另一方面,当前的实时分割主要有一个目的,例如驾驶场景的语义分割。我们认为实际应用需要多样化的输出。因此,这项工作探索了一种新的实时分段设置,称为实时全用途分段,以在实时部署中传输 VFM。它包含三个不同的任务,包括交互式分割、全景分割和视频分割。我们的目标是使用一种模型来实时完成上述任务。我们首先对几个强基线进行基准测试。然后,我们介绍实时通用 SAM RAP SAM。它包含一个高效的编码器和一个高效的解耦解码器来执行即时驱动的解码。此外,我们进一步探索不同的训练策略和调整方法,以进一步提高协同训练的性能。 |
A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting Authors Wouter Van Gansbeke, Bert De Brabandere 全景和实例分割网络通常使用专门的对象检测模块、复杂的损失函数和临时后处理步骤进行训练,以处理实例掩模的排列不变性。这项工作建立在稳定扩散的基础上,并提出了一种用于全景分割的潜在扩散方法,从而形成了一个忽略这些复杂性的简单架构。我们的训练过程包括两个步骤:1 训练浅层自动编码器将分割掩模投影到潜在空间;2 训练扩散模型以允许在潜在空间中进行图像条件采样。生成模型的使用开启了对掩模完成或修复的探索,这在交互式分割中具有应用。实验验证为全景分割和掩模修复带来了有希望的结果。 |
Towards Language-Driven Video Inpainting via Multimodal Large Language Models Authors Jianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang, Jiangning Zhang, Yining Li, Kai Chen, Yunhai Tong, Ziwei Liu, Chen Change Loy 我们引入了一种新的任务语言驱动的视频修复,它使用自然语言指令来指导修复过程。这种方法克服了传统视频修复方法的局限性,传统视频修复方法依赖于手动标记的二进制掩模,这一过程通常很乏味且劳动密集型。我们提出了通过指令从视频中删除对象 ROVI 数据集,其中包含 5,650 个视频和 9,091 个修复结果,以支持此任务的训练和评估。我们还提出了一种新颖的基于扩散的语言驱动视频修复框架,这是该任务的第一个端到端基线,集成多模态大型语言模型以有效地理解和执行复杂的基于语言的修复请求。我们的综合结果展示了数据集的多功能性和模型在各种语言指导的修复场景中的有效性。 |
The Manga Whisperer: Automatically Generating Transcriptions for Comics Authors Ragav Sachdeva, Andrew Zisserman 在过去的几十年里,日本漫画(通常称为漫画)已经超越了文化和语言的界限,成为真正的世界性轰动。然而,漫画对视觉线索和插图的固有依赖使得视力障碍人士基本上无法理解。在这项工作中,我们力求解决这一重大障碍,旨在确保每个人都能欣赏并积极参与漫画。 |
Supervised Fine-tuning in turn Improves Visual Foundation Models Authors Xiaohu Jiang, Yixiao Ge, Yuying Ge, Chun Yuan, Ying Shan 近年来,像 CLIP 这样的图像文本训练在视觉基础模型的预训练中占据了主导地位。随后人们努力将区域级视觉学习引入 CLIP 的预训练中,但由于缺乏大规模区域级数据集而面临可扩展性挑战。从自然语言处理(例如指令调优)中的监督微调 SFT 中汲取灵感,我们探索了细粒度 SFT 在增强预训练后视觉基础模型生成方面的潜力。因此,提出了两阶段方法 ViSFT Vision SFT 来释放视觉基础模型的细粒度知识。在 ViSFT 中,通过对一些域内任务执行视觉联合学习来增强视觉基础模型,然后在域外基准测试上进行测试。 |
AutoFT: Robust Fine-Tuning by Optimizing Hyperparameters on OOD Data Authors Caroline Choi, Yoonho Lee, Annie Chen, Allan Zhou, Aditi Raghunathan, Chelsea Finn 基础模型编码丰富的表示,可以通过对任务特定数据进行微调来适应所需的任务。然而,在一个特定数据分布上微调模型通常会损害模型在其他分布上的原始性能。当前的鲁棒微调方法利用手工正则化技术来约束对基础模型的微调过程。然而,很难精确地指定在微调过程中要保留基础模型的哪些特征,因为这取决于预训练、微调和评估数据分布如何相互关联。我们提出了 AutoFT,一种用于指导基础模型微调的数据驱动方法。 AutoFT 优化微调超参数,以最大限度地提高小型非分布 OOD 验证集的性能。为了以精细的方式指导微调,AutoFT 搜索一个高度表达的超参数空间,其中除了学习率和权重衰减值之外,还包括许多不同损失的权重系数。我们评估 AutoFT 的九种自然分布变化,其中包括域变化和子群体变化。我们的实验表明,AutoFT 显着提高了对新 OOD 数据的泛化能力,优于现有的稳健微调方法。 |
Edit One for All: Interactive Batch Image Editing Authors Thao Nguyen, Utkarsh Ojha, Yuheng Li, Haotian Liu, Yong Jae Lee 近年来,图像编辑取得了显着进步。随着人类控制能力的增强,现在可以通过多种方式编辑图像,从在文本中指定我们想要更改的内容,到以基于交互式点的方式直接拖动图像的内容。然而,大部分注意力仍然集中在一次编辑单个图像上。我们是否以及如何同时编辑大批量图像仍然没有得到充分研究。为了最大限度地减少编辑过程中的人工监督,本文提出了一种使用 StyleGAN 作为媒介的交互式批量图像编辑的新方法。给定用户在示例图像中指定的编辑,例如,将脸部设为正面,我们的方法可以自动将该编辑转移到其他测试图像,以便无论其初始状态姿势如何,它们都达到相同的最终状态,例如,全部面向正面 。 |
Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions Authors Namitha Padmanabhan, Matthew Gwilliam, Pulkit Kumar, Shishira R Maiya, Max Ehrlich, Abhinav Shrivastava 隐式神经表示 INR 的许多变体(其中神经网络被训练为信号的连续表示)对于下游任务(包括新颖的视图合成、视频压缩和图像超分辨率)具有巨大的实用性。不幸的是,这些网络的内部运作机制尚未得到认真研究。我们的工作《解释隐式神经画布 XINC》是一个统一框架,用于通过检查每个神经元对每个输出像素的贡献强度来解释 INR 的属性。我们将这些贡献图的集合称为隐式神经画布,并使用这个概念来证明我们研究的 INR 学会以令人惊讶的方式看待它们所代表的框架。例如,INR 往往具有高度分布式的表示。虽然缺乏高级对象语义,但它们对颜色和边缘有很大的偏见,并且几乎完全与空间无关。我们通过检查对象在视频 INR 中如何随时间表示而得出结论,使用聚类来可视化跨层和架构的相似神经元,并表明这是由运动主导的。这些见解证明了我们的分析框架的普遍实用性。 |
GPAvatar: Generalizable and Precise Head Avatar from Image(s) Authors Xuangeng Chu, Yu Li, Ailing Zeng, Tianyu Yang, Lijian Lin, Yunfei Liu, Tatsuya Harada 头部头像重建对于虚拟现实、在线会议、游戏和电影行业的应用至关重要,已经引起了计算机视觉界的广泛关注。该领域的根本目标是忠实地再现头部虚拟形象并精确控制表情和姿势。现有方法分为基于 2D 的变形、基于网格和神经渲染方法,在维持多视图一致性、合并非面部信息以及推广到新身份方面提出了挑战。在本文中,我们提出了一个名为 GPAvatar 的框架,它可以在单次前向传递中根据一张或多张图像重建 3D 头部头像。这项工作的关键思想是引入由点云驱动的基于动态点的表情场,以精确有效地捕获表情。此外,我们在三平面规范领域中使用多三平面注意力 MTA 融合模块来利用来自多个输入图像的信息。 |
Improving automatic detection of driver fatigue and distraction using machine learning Authors Dongjiang Wu 近年来,信息技术的变化和进步对智能汽车系统的发展发挥了重要作用。疲劳驾驶和分心驾驶是引发交通事故的重要因素。因此,驾驶行为的车载监控已成为智能车辆高级驾驶辅助系统的重要组成部分。在本文中,我们介绍了使用基于视觉和基于机器学习的方法同时检测疲劳和分心驾驶行为的技术。在驾驶疲劳检测中,我们使用面部对齐网络来识别图像中的面部特征点,并计算面部特征点的距离来检测眼睛和嘴巴的张开和闭合。此外,我们使用基于 MobileNet 架构的卷积神经网络 CNN 来识别各种分心驾驶行为。实验是在带有网络摄像头的基于 PC 的设置上进行的,并使用公共数据集以及为训练和测试创建的自定义数据集来演示结果。 |
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer Authors Changyao Tian, Xizhou Zhu, Yuwen Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Yuntao Chen, Lewei Lu, Tong Lu, Jie Zhou, Hongsheng Li, Yu Qiao, Jifeng Dai 开发交错图像文本数据的生成模型具有研究和实用价值。它需要模型来理解交错序列并随后生成图像和文本。然而,现有的尝试受到固定数量的视觉标记无法有效捕获图像细节的问题的限制,这在多图像场景中尤其成问题。为了解决这个问题,本文提出了 MM Interleaved,一种用于交错图像文本数据的端到端生成模型。它引入了多尺度和多图像特征同步器模块,允许在生成过程中直接访问先前上下文中的细粒度图像特征。 MM Interleaved 在配对和交错图像文本语料库上进行了端到端预训练。它通过监督微调阶段得到进一步增强,其中模型提高了遵循复杂多模态指令的能力。实验证明了 MM Interleaved 在根据多模式指令识别视觉细节以及根据文本和视觉条件生成一致图像方面的多功能性。 |
Neural Echos: Depthwise Convolutional Filters Replicate Biological Receptive Fields Authors Zahra Babaiee, Peyman M. Kiasari, Daniela Rus, Radu Grosu 在这项研究中,我们提供的证据表明深度卷积核可以有效地复制在哺乳动物视网膜中观察到的生物感受野的复杂结构。我们提供来自各种最先进模型的经过训练的内核的分析,证实了这一证据。受这一有趣发现的启发,我们提出了一种从生物感受野中汲取灵感的初始化方案。对具有多个具有深度卷积特征的 CNN 架构的 ImageNet 数据集进行的实验分析表明,当使用生物学衍生的权重进行初始化时,学习模型的准确性显着增强。 |
SHINOBI: Shape and Illumination using Neural Object Decomposition via BRDF Optimization In-the-wild Authors Andreas Engelhardt, Amit Raj, Mark Boss, Yunzhi Zhang, Abhishek Kar, Yuanzhen Li, Deqing Sun, Ricardo Martin Brualla, Jonathan T. Barron, Hendrik P. A. Lensch, Varun Jampani 我们提出了 SHINOBI,这是一个端到端框架,用于根据不同光照、姿势和背景捕获的物体图像重建形状、材质和光照。基于无约束图像集合的对象的逆渲染是计算机视觉和图形领域长期存在的挑战,需要对形状、辐射度和姿态进行联合优化。我们证明,基于多分辨率哈希编码的隐式形状表示可以通过联合相机对齐优化实现更快、更稳健的形状重建,其性能优于先前的工作。此外,为了能够编辑照明和物体反射率(即材质),我们联合优化 BRDF 和照明以及物体的形状。 |
VMamba: Visual State Space Model Authors Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu 卷积神经网络 CNN 和视觉 Transformers ViT 是视觉表示学习的两个最流行的基础模型。虽然 CNN 表现出卓越的可扩展性和线性复杂度。尽管在图像分辨率方面,ViT 的拟合能力超过了它们,但其复杂性却是二次方。仔细观察发现,ViT 通过结合全局感受野和动态权重,实现了卓越的视觉建模性能。这一观察促使我们提出一种新颖的架构,该架构继承了这些组件,同时提高了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了视觉状态空间模型VMamba,它在不牺牲全局感受野的情况下实现了线性复杂度。为了解决所遇到的方向敏感问题,我们引入了交叉扫描模块 CSM 来遍历空间域并将任何非因果视觉图像转换为顺序补丁序列。大量的实验结果证实,VMamba 不仅在各种视觉感知任务中表现出有前景的能力,而且随着图像分辨率的提高,与既定基准相比也表现出更明显的优势。 |
Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation Authors Changgu Chen, Junwei Shu, Lianggangxu Chen, Gaoqi He, Changbo Wang, Yang Li 最近的大规模预训练扩散模型已经证明了强大的生成能力,可以根据详细的文本描述生成高质量的视频。然而,对任何视频扩散模型生成的视频中的对象运动进行控制都是一个具有挑战性的问题。 |
Explicitly Disentangled Representations in Object-Centric Learning Authors Riccardo Majellaro, Jonathan Collu, Aske Plaat, Thomas M. Moerland 从原始视觉数据中提取结构化表示是机器学习中一个重要且长期存在的挑战。最近,以对象为中心的表示的无监督学习技术引起了越来越多的兴趣。在这种背景下,增强潜在特征的鲁棒性可以提高下游任务训练的效率和效果。朝这个方向迈出的一个有希望的一步是理清导致数据变化的因素。此前,不变槽注意力将位置、尺度和方向与其余特征分开。扩展这种方法,我们专注于分离形状和纹理组件。特别是,我们提出了一种新颖的架构,该架构偏向以对象为中心的模型,将形状和纹理组件分解为潜在空间维度的两个不重叠的子集。这些子集是先验已知的,因此是在训练过程之前已知的。对一系列以对象为中心的基准测试的实验表明,我们的方法实现了所需的解缠,同时在大多数情况下还从数值上提高了基线性能。 |
Model Compression Techniques in Biometrics Applications: A Survey Authors Eduarda Caldeira, Pedro C. Neto, Marco Huber, Naser Damer, Ana F. Sequeira 深度学习算法的发展广泛增强了人类任务自动化能力。然而,这些模型性能的巨大改进与它们不断增加的复杂性高度相关,限制了它们在通常部署在资源受限设备中的面向人类的应用程序中的有用性。这导致了压缩技术的发展,该技术大大降低了深度学习模型的计算和内存成本,而不会显着降低性能。本文旨在通过对生物识别应用中的模型压缩技术(即量化、知识蒸馏和剪枝)进行全面调查,系统化当前有关该主题的文献。我们对这些技术的比较价值进行批判性分析,重点分析它们的优点和缺点,并提出可能改进当前方法的未来工作方向的建议。 |
Exposing Lip-syncing Deepfakes from Mouth Inconsistencies Authors Soumyya Kanti Datta, Shan Jia, Siwei Lyu 口型同步 Deepfake 是一种经过数字处理的视频,其中使用人工智能模型令人信服地创建一个人的嘴唇动作,以匹配更改后的或全新的音频。口型同步深度伪造是一种危险的深度伪造,因为伪影仅限于嘴唇区域并且更难以辨别。在本文中,我们描述了一种新颖的方法,即基于嘴 INConsistency LIPINC 的唇同步检测,通过识别嘴区域的时间不一致来进行唇同步 Deepfake 检测。这些不一致在相邻帧和整个视频中都可以看到。 |
VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition Authors Xianfu Cheng, Weixiao Zhou, Xiang Li, Xiaoming Chen, Jian Yang, Tongliang Li, Zhoujun Li 场景文本识别 STR 是一项具有挑战性的任务,涉及识别自然场景图像中的文本。尽管当前最先进的 STR 模型表现出高性能,但由于依赖于由视觉编码器和序列解码器组成的混合架构,它们通常会遇到推理效率较低的问题。在这项工作中,我们提出了用于快速高效的场景文本识别 VIPTR 的 VIsion Permutable 提取器,它在 STR 领域的高性能和快速推理速度之间实现了令人印象深刻的平衡。具体来说,VIPTR 利用具有金字塔结构的视觉语义提取器,其特征是多个自注意力层,同时避开了传统的序列解码器。这种设计选择产生了一个轻量级且高效的模型,能够处理不同大小的输入。在各种标准数据集上进行的中英文场景文本识别的大量实验结果验证了 VIPTR 的优越性。值得注意的是,VIPTR T Tiny 变体可提供与其他轻量级模型相当的极具竞争力的准确性,并实现 SOTA 推理速度。同时,VIPTR L Large 变体获得了更高的识别精度,同时保持了较低的参数数量和良好的推理速度。我们提出的方法为 STR 挑战提供了一个引人注目的解决方案,它将高精度与效率融为一体,极大地有利于需要快速可靠的文本识别的现实世界应用。 |
Cross-Modality Perturbation Synergy Attack for Person Re-identification Authors Yunpeng Gong, others 近年来,围绕解决基于 RGB 图像的单模态行人再识别 ReID 系统的安全问题开展了大量研究。然而,在涉及红外摄像机捕获图像的实际应用中更常见的跨模态场景的安全性尚未得到足够的重视。跨模态 ReID 的主要挑战在于有效处理不同模态之间的视觉差异。例如,与包含颜色信息的可见光图像不同,红外图像通常是灰度的。现有的攻击方法主要关注可见图像模态的特征,忽视了其他模态的特征以及不同模态之间数据分布的变化。这种疏忽可能会破坏这些方法在跨多种模式的图像检索中的有效性。这项研究代表了对跨模态 ReID 模型安全性的首次探索,并提出了一种专门为跨模态 ReID 设计的通用扰动攻击。这种攻击通过利用不同模态数据的梯度来优化扰动,从而破坏鉴别器并强化模态之间的差异。 |
A locally statistical active contour model for SAR image segmentation can be solved by denoising algorithms Authors Guangming Liu, Quanying Sun, Jing Liang, Qi Liu 在本文中,我们提出了一种基于I散度TV去噪模型的新型局部统计变分活动轮廓模型,该模型将测地活动轮廓GAC模型与无边缘活动轮廓ACWE模型混合,可用于分割被乘性伽玛噪声损坏的图像。通过在模型的水平集演化LSE方程中添加扩散项,构造了反应扩散RD方程,该方程可以逐渐将水平集函数LSF在每个段域内正规化为分段常数,并获得稳定解。我们通过添加邻近项进一步将所提出的模型转换为经典的 ROF 模型。受贾昭最近提出的快速去噪算法的启发,我们提出了两种快速定点算法来解决SAR图像分割问题。真实SAR图像的实验结果表明,所提出的图像分割模型可以有效地停止边缘较弱或模糊的轮廓,并且可以自动检测具有乘性伽玛噪声的图像的外部和内部边界。 |
DiffusionGPT: LLM-Driven Text-to-Image Generation System Authors Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen 扩散模型为图像生成领域开辟了新途径,导致开源平台上共享的高质量模型激增。然而,当前的文本到图像系统仍然存在一个重大挑战,通常无法处理不同的输入,或者仅限于单一模型结果。当前的统一尝试通常分为两个正交方面:i 解析输入阶段的多样化提示;ii 激活专家模型进行输出。为了结合两个领域的优点,我们提出了 DiffusionGPT,它利用大型语言模型 LLM 提供一个统一的生成系统,能够无缝地容纳各种类型的提示并集成领域专家模型。 DiffusionGPT 基于先验知识为各种生成模型构建特定领域的树。当提供输入时,法学硕士会解析提示并使用思想树来指导选择适当的模型,从而放宽输入限制并确保跨不同领域的卓越性能。此外,我们引入了优势数据库,其中思想树通过人类反馈丰富,使模型选择过程与人类偏好保持一致。 |
ContextMix: A context-aware data augmentation method for industrial visual inspection systems Authors Hyungmin Kim, Donghun Kim, Pyunghwan Ahn, Sungho Suh, Hansang Cho, Junmo Kim 虽然深度神经网络已经取得了显着的性能,但数据增强已成为减轻过度拟合和增强网络性能的关键策略。这些技术在工业制造环境中具有特别重要的意义。最近,引入了基于图像混合的方法,在公共基准数据集上表现出了改进的性能。然而,它们在工业任务中的应用仍然具有挑战性。制造环境每天都会产生大量未标记的数据,只有少数情况下出现异常数据。这导致严重的数据不平衡。因此,由于与标记相关的成本很高,创建平衡的数据集并不简单。尽管如此,这是提高生产力的关键一步。为此,我们引入了 ContextMix,一种针对工业应用和基准数据集量身定制的方法。 ContextMix 通过调整整个图像的大小并将其集成到批次中的其他图像中来生成新颖的数据。这种方法使我们的方法能够根据调整大小的图像的不同大小来学习判别特征,并使用遮挡图像训练信息丰富的辅助特征以进行对象识别。与现有的增强技术相比,ContextMix 凭借最小的图像调整大小额外计算成本提高了性能。我们在公共基准数据集上使用各种网络架构评估其在分类、检测和分割任务中的有效性。我们提出的方法展示了一系列鲁棒性任务的改进结果。 |
Deep spatial context: when attention-based models meet spatial regression Authors Paulina Tomaszewska, El bieta Sienkiewicz, Mai P. Hoang, Przemys aw Biecek 我们提出了深度空间上下文 DSCon 方法,该方法用于使用空间上下文概念研究基于注意力的视觉模型。它受到组织病理学家的启发,但是该方法可以应用于各个领域。 DSCon 允许使用三个空间上下文测量 SCM 特征、SCM 目标、SCM 残差对空间上下文的角色进行定量测量,以区分空间上下文是否在相邻区域的特征、其目标值注意力分数或残差内可观察到。 。它是通过将空间回归集成到管道中来实现的。 DSCon 有助于验证研究问题。实验表明,肿瘤病变分类时的空间关系比正常组织大得多。此外,事实证明,空间回归中考虑的邻域规模越大,上下文信息的价值就越低。 |
CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition Authors Jinzhi Zheng, Ruyi Ji, Libo Zhang, Yanjun Wu, Chen Zhao 场景文本识别作为涉及视觉和文本的跨模态任务,是计算机视觉领域的一个重要研究课题。大多数现有方法使用语言模型来提取语义信息以优化视觉识别。然而,语义挖掘过程中忽略了视觉线索的引导,限制了算法识别不规则场景文本的性能。为了解决这个问题,我们提出了一种用于不规则场景文本识别的新型跨模态融合网络 CMFN,它将视觉线索纳入语义挖掘过程。具体来说,CMFN由位置自增强编码器、视觉识别分支和迭代语义识别分支组成。位置自增强编码器为视觉识别分支和迭代语义识别分支提供字符序列位置编码。视觉识别分支根据CNN提取的视觉特征和位置自增强编码器提供的位置编码信息进行视觉识别。迭代语义识别分支由语言识别模块和跨模态融合门组成,模拟人类识别场景文本的方式,并集成跨模态视觉线索进行文本识别。 |
GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition Authors Guangzhao Dai, Xiangbo Shu, Wenhao Wu 视觉语言模型 VLM 在大规模数据集上进行了预训练,在各种视觉识别任务中表现出了令人印象深刻的性能。这一进步为零射击自我中心动作识别 ZS EAR 的显着性能铺平了道路。通常,VLM 将 ZS EAR 作为全局视频文本匹配任务来处理,这通常会导致视觉和语言知识的对齐不理想。我们提出了一种使用 VLM 的 ZS EAR 改进方法,强调细粒度的概念描述对齐,利用以自我为中心的视频中丰富的语义和上下文细节。在本文中,我们介绍了 GPT4Ego,这是一个用于 ZS EAR 的简单但非常强大的 VLM 框架,旨在增强视觉和语言之间概念和描述的细粒度对齐。 |
Depth Over RGB: Automatic Evaluation of Open Surgery Skills Using Depth Camera Authors Ido Zuckerman, Nicole Werner, Jonathan Kouchly, Emma Huston, Shannon DiMarco, Paul DiMusto, Shlomi Laufer 目的在本文中,我们提出了一种使用深度相机自动评估开放手术技能的新方法。这项工作旨在表明深度相机可以达到与 RGB 相机相似的结果,这是开放手术技能自动评估中的常用方法。 |
Text Region Multiple Information Perception Network for Scene Text Detection Authors Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao 基于分割的场景文本检测算法可以处理任意形状的场景文本,具有很强的鲁棒性和适应性,因此受到了广泛的关注。现有的基于分割的场景文本检测算法通常只对文本中心区域的像素进行分割,而忽略了文本区域的其他信息,如边缘信息、距离信息等,从而限制了算法对场景的检测精度文本。本文提出了一种称为区域多信息感知模块 RMIPM 的即插即用模块,以增强基于分割的算法的检测性能。具体来说,我们设计了一个改进的模块,可以感知场景文本区域的各种类型的信息,例如文本前景分类图、距离图、方向图等。在MSRA TD500和TotalText数据集上的实验表明,我们的方法实现了与当前方法相当的性能 |
CPCL: Cross-Modal Prototypical Contrastive Learning for Weakly Supervised Text-based Person Re-Identification Authors Yanwei Zheng, Xinpeng Zhao, Chuanlin Lan, Xiaowei Zhang, Bowen Huang, Jibin Yang, Dongxiao Yu 基于弱监督文本的人员重新识别TPRe ID寻求使用文本描述来检索目标人员的图像,而不依赖于身份注释,更具挑战性和实用性。主要挑战是类内差异,包括模态内特征变化和跨模态语义差距。先前的工作集中于实例级样本,而忽略了每个人固有且不变的原型特征。为此,我们提出了一种跨模态原型对比学习 CPCL 方法。在实践中,CPCL 首次将 CLIP 模型引入弱监督的 TPRe ID,将视觉和文本实例映射到共享的潜在空间。随后,所提出的原型多模态记忆 PMM 模块通过混合跨模态匹配 HCM 模块以多对多映射方式捕获属于同一个人的图像文本对的异构模态之间的关联。此外,异常值伪标签挖掘 OPLM 模块进一步区分每种模态中有价值的异常值样本,通过挖掘图像文本对之间的隐式关系来增强更可靠聚类的创建。实验结果表明,我们提出的 CPCL 在所有三个公共数据集上都达到了最先进的性能,在 CUHK PEDES、ICFG PEDES 和 RSTPReid 数据集上的 Rank 1 准确率分别显着提高了 11.58、8.77 和 5.25。 |
Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation Authors Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, Yingyi Wen, Tanachai Anakewat, Tatsuya Harada 对能够解释和推理视觉内容的智能系统的需求不断增长,需要开发不仅准确而且具有显式推理能力的大型多模态模型 LMM。本文提出了一种新颖的方法,使 LMM 能够基于视觉内容和文本指令进行显式推理。我们引入了一个可以提出问题来获取必要知识的系统,从而增强推理过程的稳健性和可解释性。我们的方法包括开发由大型语言模型法学硕士生成的新颖数据集,旨在促进与提问机制相结合的思维推理链。我们设计了一个 LMM,它具有很强的区域感知能力,可以满足图像文本对齐的复杂要求。该模型经历了三个阶段的训练阶段,首先使用大规模数据集进行大规模图像文本对齐,然后进行指令调整,最后进行以思维链推理为重点的微调。 |
BPDO:Boundary Points Dynamic Optimization for Arbitrary Shape Scene Text Detection Authors Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao 任意形状场景文本检测在场景理解任务中非常重要。由于自然场景中文本的复杂性和多样性,现有的场景文本算法对于检测任意形状文本的精度有限。在本文中,我们通过边界点动态优化 BPDO 提出了一种新颖的任意形状场景文本检测器。该模型采用文本感知模块 TAM 和边界点动态优化模块 DOM 设计。具体来说,该模型设计了基于分割的文本感知模块,通过提取文本区域的先验信息来获得描述文本中心区域的边界点。然后,基于可变形注意力的思想,提出了边界点的动态优化模型,该模型根据每个边界点的相邻区域的信息逐步优化边界点的准确位置。 |
WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens Authors Xiaofeng Wang, Zheng Zhu, Guan Huang, Boyuan Wang, Xinze Chen, Jiwen Lu 世界模型在理解和预测世界动态方面发挥着至关重要的作用,这对于视频生成至关重要。然而,现有的世界模型仅限于游戏或驾驶等特定场景,限制了它们捕捉一般世界动态环境复杂性的能力。因此,我们引入了WorldDreamer,这是一种开创性的世界模型,旨在促进对一般世界物理和运动的全面理解,从而显着增强视频生成的能力。 WorldDreamer 从大型语言模型的成功中汲取灵感,将世界建模视为无监督的视觉序列建模挑战。这是通过将视觉输入映射到离散标记并预测被屏蔽的标记来实现的。在此过程中,我们结合了多模式提示来促进世界模型内的交互。我们的实验表明,WorldDreamer 擅长生成不同场景的视频,包括自然场景和驾驶环境。 WorldDreamer 展示了执行文本到视频转换、图像到视频合成和视频编辑等任务的多功能性。 |
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects Authors Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li 定制的文本到视频生成旨在根据文本提示和主题参考生成高质量的视频。当前为单个主题设计的方法难以解决多个主题,这是一个更具挑战性和实用性的场景。在这项工作中,我们的目标是促进多主题引导文本到视频定制。我们提出了 CustomVideo,这是一种新颖的框架,可以在多个主题的指导下生成身份保留视频。具体来说,首先,我们通过将多个主题组合在一张图像中来鼓励它们同时出现。此外,在基本的文本到视频扩散模型的基础上,我们设计了一种简单而有效的注意力控制策略,以解开扩散模型潜在空间中的不同主题。此外,为了帮助模型聚焦于特定的物体区域,我们从给定的参考图像中分割物体,并为注意力学习提供相应的物体掩模。此外,我们还收集了一个多主题文本到视频生成数据集作为综合基准,其中包含 69 个单独主题和 57 个有意义的对。 |
Multi-task Learning for Joint Re-identification, Team Affiliation, and Role Classification for Sports Visual Tracking Authors Amir M. Mansourian, Vladimir Somers, Christophe De Vleeschouwer, Shohreh Kasaei 有效跟踪和重新识别球员对于分析足球视频至关重要。但是,由于球员的非线性运动、来自同一球队的球员的外观相似以及频繁的遮挡,这是一项具有挑战性的任务。因此,提取有意义的嵌入来代表玩家的能力对于开发有效的跟踪和重新识别系统至关重要。本文提出了一种基于多用途部分的人物表示方法,称为 PRTreID,该方法同时执行角色分类、团队归属和重新识别三个任务。与现有文献相反,单个网络通过多任务监督进行训练,以联合解决所有三个任务。由于共享主干,所提出的联合方法在计算上是高效的。此外,正如定量和定性结果所证明的那样,多任务学习会带来更丰富、更具辨别力的表示。为了证明 PRTreID 的有效性,它与最先进的跟踪方法集成,使用基于零件的后处理模块来处理长期跟踪。 |
MAMBA: Multi-level Aggregation via Memory Bank for Video Object Detection Authors Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson 最先进的视频对象检测方法维护内存结构(滑动窗口或内存队列),以使用注意机制增强当前帧。然而,我们认为这些内存结构效率不高或不够充分,因为有两个隐含操作 1 连接内存中的所有特征以进行增强,导致计算成本很高 2 逐帧内存更新,阻止内存捕获更多时间信息。在本文中,我们提出了一种通过内存库的多级聚合架构,称为 MAMBA。具体来说,我们的内存库采用了两种新颖的操作来消除现有方法的缺点:1轻量级密钥集构造,可以显着降低计算成本;2细粒度的特征更新策略,使我们的方法能够利用整个视频中的知识。为了更好地增强互补级别的特征,即特征图和提案,我们进一步提出了一种广义增强操作GEO,以统一的方式聚合多级特征。我们对具有挑战性的 ImageNetVID 数据集进行了广泛的评估。与现有的最先进方法相比,我们的方法在速度和准确性方面都取得了优异的性能。 |
BlenDA: Domain Adaptive Object Detection through diffusion-based blending Authors Tzuhsuan Huang, Chen Che Huang, Chung Hao Ku, Jun Cheng Chen 无监督域适应 UDA 旨在将使用源域中的标记数据学习的模型转移到目标域中的未标记数据。为了解决源域和目标域之间的大域差距问题,我们提出了一种新的域自适应对象检测正则化方法,BlenDA,通过生成中间域的伪样本及其相应的软域标签进行自适应训练。中间样本是通过使用现成的预训练文本到图像扩散模型动态混合源图像与其相应的翻译图像来生成的,该模型以目标域的文本标签作为输入,并展示了卓越的图像到图像翻译质量。基于两个自适应基准的实验结果,我们提出的方法可以显着提高最先进的域自适应对象检测器 Adversarial Query Transformer AQT 的性能。特别是,在 Cityscapes 到 Foggy Cityscapes 的适应中,我们在 Foggy Cityscapes 数据集上实现了令人印象深刻的 53.4 mAP,超过了之前的最佳技术水平 1.5。值得注意的是,我们提出的方法也适用于域自适应对象检测的各种范例。 |
XAI-Enhanced Semantic Segmentation Models for Visual Quality Inspection Authors Tobias Clement, Truong Thanh Hung Nguyen, Mohamed Abdelaal, Hung Cao 视觉质量检测系统在制造和物流等领域至关重要,它利用计算机视觉和机器学习来进行精确、快速的缺陷检测。然而,它们无法解释的性质可能会阻碍信任、错误识别和系统改进。本文提出了一个框架,通过使用基于 CAM 的解释来完善语义分割模型,从而增强视觉质量检查。我们的方法包括 1 模型训练、2 基于 XAI 的模型解释、3 XAI 评估和 4 用于模型增强的注释增强,并通过解释和专家见解来提供信息。 |
Skeleton-Guided Instance Separation for Fine-Grained Segmentation in Microscopy Authors Jun Wang, Chengfeng Zhou, Zhaoyan Ming, Lina Wei, Xudong Jiang, Dahong Qian 显微 MS 图像分析的基本挑战之一是实例分割,特别是在分割簇区域时,其中多个不同大小和形状的对象可能以任意方向连接甚至重叠。现有的 IS 方法通常无法处理此类场景,因为它们依赖于粗略的实例表示,例如关键点和水平边界框 h bboxes 。在本文中,我们提出了一种名为 A2B IS 的新型单阶段框架来应对这一挑战并提高 MS 图像中 IS 的准确性。我们的方法用像素级掩模图和旋转边界框 r bbox 表示每个实例。与使用框建议进行分割的两阶段方法不同,我们的方法将掩模和框预测解耦,从而能够同时处理以简化模型管道。此外,我们引入了高斯骨架图,以两种关键方式帮助 IS 任务 1 它指导锚点放置,降低计算成本,同时通过滤除背景区域的噪声来提高模型学习 RoI 感知特征的能力。 2 它通过纠正实例边界附近的错误框预测来确保准确隔离密集的实例。为了进一步提高性能,我们将两个模块集成到框架中:1 Atrous Attention Block A2B,旨在提取具有细粒度多尺度信息的高分辨率特征图;2 半监督学习 SSL 策略,利用标记和未标记图像进行模型训练。 |
Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention Authors Li Guo, Haoming Liu, Yuxuan Xia, Chengyu Zhang, Xiaochen Lu 少量镜头分割旨在训练一种分割模型,该模型可以快速适应仅提供少量带注释图像的新任务。最近的模型都采用了基于原型的范式来进行少量的推理。这些方法的泛化能力可能超出标准的 1 或 5 个镜头设置。在本文中,我们仔细检查和重新评估基于微调的学习方案,该方案对在不同基类上预训练的深度分割网络的分类层进行微调。为了提高使用稀疏注释样本优化的分类层的通用性,我们引入了一种实例感知数据增强 IDA 策略,该策略根据目标对象的相对大小来增强支持图像。所提出的IDA有效地增加了支持集的多样性并促进了支持集和查询图像之间的分布一致性。另一方面,查询图像和支持图像之间巨大的视觉差异可能会阻碍知识转移并削弱分割性能。为了应对这一挑战,我们引入了局部共识引导的交叉注意 LCCA,根据查询特征与支持特征的密集相关性将其对齐,进一步提高了模型对查询图像的泛化能力。 |
Improving fine-grained understanding in image-text pre-training Authors Ioana Bica, Anastasija Ili , Matthias Bauer, Goker Erdogan, Matko Bo njak, Christos Kaplanis, Alexey A. Gritsenko, Matthias Minderer, Charles Blundell, Razvan Pascanu, Jovana Mitrovi 我们引入了 SPARse 细粒度对比对齐 SPARC,这是一种从图像文本对中预训练更细粒度的多模态表示的简单方法。鉴于多个图像块通常对应于单个单词,我们建议为标题中的每个标记学习一组图像块。为了实现这一目标,我们在图像补丁和语言标记之间使用稀疏相似性度量,并为每个标记计算语言分组视觉嵌入作为补丁的加权平均值。然后,通过细粒度序列损失来对比标记和语言分组视觉嵌入,该损失仅取决于单个样本,不需要其他批次样本作为负样本。这使得能够以计算成本低廉的方式学习更详细的信息。 SPARC 将这种细粒度损失与全局图像和文本嵌入之间的对比损失相结合,以学习同时编码全局和局部信息的表示。我们彻底评估了我们提出的方法,并在依赖于粗粒度信息的图像级任务上表现出了比竞争方法更高的性能,例如分类以及依赖于细粒度信息的区域级任务,例如检索、对象检测和分割。 |
Temporal Insight Enhancement: Mitigating Temporal Hallucination in Multimodal Large Language Models Authors Li Sun, Liuan Wang, Jun Sun, Takayuki Okatani 多模态大语言模型 MLLM 的最新进展显着增强了对多媒体内容的理解,将文本、图像和视频等多种模态结合在一起。然而,这些模型面临的一个关键挑战,特别是在处理视频输入时,是出现幻觉、错误的感知或解释,特别是在事件层面。本研究引入了一种创新方法来解决 MLLM 中的事件级幻觉,重点关注视频内容中的特定时间理解。我们的方法利用了一种新颖的框架,该框架从事件查询和提供的视频中提取并利用事件特定信息来完善 MLLM 响应。我们提出了一种独特的机制,可将按需事件查询分解为标志性操作。随后,我们使用 CLIP 和 BLIP2 等模型来预测事件发生的特定时间戳。我们使用 Charades STA 数据集进行的评估表明,时间幻觉显着减少,事件相关反应的质量有所提高。 |
Enhancing the Fairness and Performance of Edge Cameras with Explainable AI Authors Truong Thanh Hung Nguyen, Vo Thanh Khang Nguyen, Quoc Hung Cao, Van Binh Truong, Quoc Khanh Nguyen, Hung Cao 人工智能在边缘摄像头系统的人体检测中的使用不断增加,导致模型准确但复杂,难以解释和调试。我们的研究提出了一种使用可解释 AI XAI 进行模型调试的诊断方法,以及专家驱动的问题识别和解决方案创建。在现实世界办公室边缘网络中的 Bytetrack 模型上进行验证后,我们发现训练数据集是主要偏差源,并建议将模型增强作为解决方案。 |
Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose Reconstruction in a Diffusion Framework Authors Junkun Jiang, Jie Chen 由于从 2D 到 3D 的重投影过程中出现的固有深度模糊性,单目 3D 人体姿态估计提出了重大挑战。依赖于估计过拟合投影矩阵的传统方法很难有效地解决这些挑战,并且常常会导致输出噪声。扩散模型的最新进展显示出在结合结构先验来解决重投影模糊性方面的前景。然而,仍然有很大的改进空间,因为这些方法经常忽视 2D 和 3D 联合级别特征之间相关性的探索。在本研究中,我们提出了一种新颖的跨通道嵌入框架,旨在充分探索 3D 坐标的联合级别特征与其 2D 投影之间的相关性。此外,我们引入了上下文引导机制,以促进迭代扩散过程中联合图注意力跨潜在通道的传播。为了评估我们提出的方法的有效性,我们在两个基准数据集 Human3.6M 和 MPI INF 3DHP 上进行了实验。我们的结果表明,与最先进的方法相比,重建精度有了显着提高。 |
Enhanced Automated Quality Assessment Network for Interactive Building Segmentation in High-Resolution Remote Sensing Imagery Authors Zhili Zhang, Xiangyun Hu, Jiabo Xu 在这项研究中,我们介绍了增强型自动化质量评估网络 IBS AQSNet,这是一种用于评估高分辨率遥感图像中交互式建筑分割质量的创新解决方案。这是分割质量评估的新挑战,我们提出的 IBS AQSNet 通过识别遗漏和错误的分割区域来缓解这一问题。首先,为了获得鲁棒的图像特征,我们的方法将鲁棒的、预先训练的主干与轻量级的主干结合起来,以便从图像和分割结果中进行全面的特征提取。然后通过串联、卷积层和残差连接的简单组合来融合这些特征。此外,ISR AQSNet 还采用了多尺度差分质量评估解码器,能够准确定位分割结果丢失或错误的区域。 |
Boosting Few-Shot Semantic Segmentation Via Segment Anything Model Authors Chen Bin Feng, Qi Lai, Kangdao Liu, Houcheng Su, Chi Man Vong 在语义分割中,准确的预测掩模对于医学图像分析和图像编辑等下游任务至关重要。由于缺乏标注数据,少数镜头语义分割 FSS 在预测具有精确轮廓的掩模方面表现不佳。最近,我们注意到大型基础模型分段任何模型 SAM 在处理细节特征方面表现良好。受 SAM 的启发,我们提出 FSS SAM,通过解决轮廓不准确的问题来增强 FSS 方法。 FSS SAM 是免费培训的。它可以作为任何 FSS 方法的后处理工具,可以提高预测掩模的准确性。具体来说,我们使用 FSS 方法预测的掩模来生成提示,然后使用 SAM 预测新的掩模。为了避免使用 SAM 预测错误的掩模,我们提出了一种预测结果选择 PRS 算法。该算法可以显着减少错误预测。 |
Enhancing Small Object Encoding in Deep Neural Networks: Introducing Fast&Focused-Net with Volume-wise Dot Product Layer Authors Ali Tofik, Roy Partha Pratim 在本文中,我们介绍了 Fast Focused Net,这是一种新颖的深度神经网络架构,专为将小对象有效编码为固定长度的特征向量而设计。与传统的卷积神经网络 CNN 相反,Fast Focused Net 采用了一系列我们新提出的层,即体积点积 VDP 层,旨在解决 CNN 的几个固有局限性。具体来说,CNN 通常表现出比理论对应物更小的有效感受野,从而限制了它们的视野范围。此外,CNN 的初始层产生低维特征向量,为后续学习带来了瓶颈。最后,CNN 的计算开销(尤其是通过参数共享捕获不同图像区域)非常高。 VDP 层是 Fast Focused Net 的核心,旨在通过有效覆盖整个图像块信息并减少计算需求来解决这些问题。实验结果证明了 Fast Focused Net 在各种应用中的强大功能。对于小对象分类任务,我们的网络在 CIFAR 10、CIFAR 100、STL 10、SVHN Cropped 和 Fashion MNIST 等数据集上的表现优于最先进的方法。在较大图像分类的背景下,当与 Transformer 编码器 ViT 结合使用时,Fast Focused Net 为 OpenImages V6、ImageNet 1K 和 Places365 数据集产生了有竞争力的结果。此外,相同的组合在 SVT、IC15、SVTP 和 HOST 数据集的文本识别任务中展示了无与伦比的性能。 |
Wavelet-Guided Acceleration of Text Inversion in Diffusion-Based Image Editing Authors Gwanhyeong Koo, Sunjae Yoon, Chang D. Yoo 在图像编辑领域,空文本反转 NTI 通过在 DDIM 采样过程中优化空嵌入,实现细粒度编辑,同时保留原始图像的结构。然而,NTI 过程非常耗时,每个图像需要两分钟以上。为了解决这个问题,我们引入了一种创新方法,该方法在加速图像编辑过程的同时保持了 NTI 的原理。我们提出了 WaveOpt Estimator,它根据频率特征确定文本优化端点。利用小波变换分析来识别图像的频率特征,我们可以将文本优化限制在 DDIM 采样过程中的特定时间步长。采用Negative Prompt Inversion NPI概念,代表原始图像的目标提示作为优化的初始文本值。该方法保持了与 NTI 相当的性能,同时与 NTI 方法相比,平均编辑时间减少了 80 倍以上。 |
Adaptive Self-training Framework for Fine-grained Scene Graph Generation Authors Kibum Kim, Kanghoon Yoon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park 场景图生成 SGG 模型存在基准数据集的固有问题,例如长尾谓词分布和缺失注释问题。在这项工作中,我们的目标是通过利用未注释的三元组来缓解 SGG 的长尾问题。为此,我们引入了 SGG ST SGG 的自训练框架,该框架为未注释的三元组分配伪标签,并在此基础上训练 SGG 模型。虽然图像识别的自训练已经取得了重大进展,但由于其固有的性质(例如语义模糊性和谓词类的长尾分布),为 SGG 任务设计自训练框架更具挑战性。因此,我们为 SGG 提出了一种新颖的伪标记技术,称为带有 Momentum CATM 的类特定自适应阈值,这是一个与模型无关的框架,可以应用于任何现有的 SGG 模型。此外,我们设计了一种图结构学习器 GSL,当采用我们提出的自训练框架到基于 SGG 模型的最先进的消息传递神经网络 MPNN 时,它是有益的。 |
SEINE: Structure Encoding and Interaction Network for Nuclei Instance Segmentation Authors Ye Zhang, Linghan Cai, Ziyue Wang, Yongbing Zhang 组织病理学图像中的细胞核实例分割对于生物分析和癌症诊断非常重要,但由于两个原因仍然具有挑战性。 1 嫌色细胞核的核内和核外区域的相似视觉呈现经常导致分割不足,2 目前的方法缺乏对细胞核结构的探索,导致实例预测支离破碎。为了解决这些问题,本文提出了一种结构编码和交互网络,称为SEINE,它开发了核的结构建模方案,并利用核之间的结构相似性来提高每个分割实例的完整性。具体来说,SEINE引入了一种基于轮廓的结构编码SE,考虑了核结构和语义之间的相关性,实现了核结构的合理表示。基于编码,我们提出了一种结构引导注意力SGA,以清晰核为原型来增强模糊核的结构学习。为了增强结构学习能力,提出了语义特征融合SFF来提高语义和结构分支的语义一致性。此外,应用位置增强PE方法来抑制不正确的核边界预测。大量的实验证明了我们方法的优越性,SEINE 在四个数据集上实现了最先进的 SOTA 性能。 |
CLIP Model for Images to Textual Prompts Based on Top-k Neighbors Authors Xin Zhang, Xin Zhang, YeMing Cai, Tianzhi Jia 文本到图像合成是多模式生成的一个子领域,近年来引起了极大的关注。我们提出了一种经济有效的图像提示生成方法,利用生成模型生成文本提示,而不需要大量注释数据。我们将我们的方法分为在线阶段和离线阶段两个阶段。我们使用 CLIP 模型和 K 最近邻 KNN 算法的组合。所提出的系统由两个主要部分组成:离线任务和在线任务。 |
SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition Authors Hao Wang, Shuhei Kurita, Shuichiro Shimizu, Daisuke Kawahara 视听语音识别 AVSR 是自动语音识别 ASR 的多模态扩展,使用视频作为音频的补充。在 AVSR 中,人们在唇读等面部特征数据集上投入了大量精力,但在评估更广泛的背景下的图像理解能力方面往往存在不足。在本文中,我们构建了 SlideAVSR,这是一个使用科学论文解释视频的 AVSR 数据集。 SlideAVSR 提供了一个新的基准,模型可以将语音语句转录为演示文稿录音中幻灯片上的文本。由于论文解释中常见的技术术语在没有参考文本的情况下很难转录,因此我们的 SlideAVSR 数据集突出了 AVSR 问题的一个新方面。 |
Image Translation as Diffusion Visual Programmers Authors Cheng Han, James C. Liang, Qifan Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Ying Nian Wu, Dongfang Liu 我们介绍了新颖的 Diffusion Visual Programmer DVP,这是一种神经符号图像翻译框架。我们提出的 DVP 在 GPT 架构中无缝嵌入条件灵活的扩散模型,编排一系列连贯的视觉程序,即用于各种专业符号步骤的计算机视觉模型,涵盖 RoI 识别、风格转移和位置操作,从而促进透明且可控的图像翻译过程。大量的实验证明了DVP的卓越性能,超越了并行艺术。这一成功归功于 DVP 的几个关键特性。首先,DVP 通过实例归一化实现条件灵活翻译,使模型能够消除人工指导造成的敏感性,并最佳地关注文本描述以生成高质量的内容。其次,该框架通过将特征空间中复杂的高维概念解读为更易于访问的低维符号(例如 Prompt 、 RoI object )来增强上下文推理,从而允许本地化、上下文无关的编辑,同时保持整体连贯性。最后但并非最不重要的一点是,DVP 通过在每个编程阶段提供明确的符号表示来提高系统的可控性和可解释性,使用户能够直观地解释和修改结果。 |
Measuring the Discrepancy between 3D Geometric Models using Directional Distance Fields Authors Siyu Ren, Junhui Hou, Xiaodong Chen, Hongkai Xiong, Wenping Wang 验证可以用点云或三角形网格表示的 3D 几何模型之间的差异是电路板应用的关键问题。现有的方法主要集中于直接建立两个模型之间的对应关系,然后聚合对应点之间的逐点距离,导致其效率低下或无效。在本文中,我们提出了 DirDist,一种高效、有效、鲁棒且可微分的 3D 几何数据距离度量。具体来说,我们基于所提出的 3D 模型隐式表示(即方向距离场 DDF )构建 DirDist ,它定义 3D 点到模型的方向距离以捕获其局部表面几何形状。然后,我们将两个 3D 几何模型之间的差异传递为在同一域上定义的 DDF 之间的差异,自然地建立模型对应关系。为了展示 DirDist 的优势,我们探索了各种距离度量驱动的 3D 几何建模任务,包括模板曲面拟合、刚性配准、非刚性配准、场景流估计和人体姿势优化。大量实验表明,我们的 DirDist 在所有任务下都实现了显着更高的准确度。作为通用距离度量,DirDist 有潜力推动 3D 几何建模领域的发展。 |
|