Skip to content
每日arXiv - 2025年10月15日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Enhancing the Quality of 3D Lunar Maps Using JAXA's Kaguya Imagery

Yumi Iwashita,Haakon Moe,Yang Cheng,Adnan Ansar,Georgios Georgakis,Adrian Stoica,Kazuto Nakashima,Ryo Kurazume,Jim Torresen

Main category: cs.CV

TL;DR: 提出了一种改进Kaguya TC图像生成3D月球地图质量的方法,通过减少压缩图像生成的视差图中的残余噪声来提升地形数据可靠性。

  • Motivation: 随着月球探索任务增加,对高质量3D月球地图需求日益迫切,特别是长距离任务如NASA的Endurance任务。Kaguya TC图像存在立体匹配误差和JPEG压缩伪影导致的海拔不准确问题。
  • Method: 分析Kaguya TC图像的压缩行为,识别系统性视差噪声模式(尤其在暗区),提出减少压缩图像视差图中残余噪声的方法来增强3D地图质量。
  • Result: 实验结果表明,所提出的方法能有效减少海拔噪声,提升地形数据的安全性和可靠性。
  • Conclusion: 该方法能显著改善Kaguya TC图像生成的3D月球地图质量,为未来月球任务提供更可靠的地形数据支持。

[2] Data or Language Supervision: What Makes CLIP Better than DINO?

Yiming Liu,Yuhui Zhang,Dhruba Ghosh,Ludwig Schmidt,Serena Yeung-Levy

Main category: cs.CV

TL;DR: CLIP在视觉语言模型中优于DINO,研究发现这种优势主要来自语言监督而非训练数据量,CLIP擅长语义特征,DINO擅长低级视觉特征

  • Motivation: 探究CLIP在视觉语言模型中优于自监督模型DINO的原因,是语言监督还是训练数据量的影响
  • Method: 在相同架构、数据集和训练配置下预训练CLIP和DINO,分析嵌入特征,并在20个VQA基准上评估
  • Result: CLIP捕获高级语义特征,在文本密集型任务表现优异;DINO对颜色和风格等低级特征更敏感,在视觉中心任务略优
  • Conclusion: 语言监督是CLIP优势的关键因素,为视觉编码器设计和VLM性能提供了科学见解

[3] MammoDINO: Anatomically Aware Self-Supervision for Mammographic Images

Sicheng Zhou,Lei Wu,Cao Xiao,Parminder Bhatia,Taha Kass-Hout

Main category: cs.CV

TL;DR: MammoDINO是一个用于乳腺X线摄影的自监督学习框架,在140万张乳腺图像上预训练,通过创新的数据增强和对比学习目标,在多个乳腺癌筛查任务中达到最先进性能。

  • Motivation: 自监督学习在通用领域取得了成功,但在医学影像中应用有限,主要由于数据量少和领域特定偏差。本文旨在为乳腺X线摄影开发一个有效的自监督学习框架。
  • Method: 提出了乳腺组织感知数据增强采样器,用于图像级和补丁级监督;设计了跨切片对比学习目标,将3D数字乳腺断层合成结构融入2D预训练中。
  • Result: 在多个乳腺癌筛查任务中达到最先进性能,并在五个基准数据集上表现出良好的泛化能力。
  • Conclusion: MammoDINO为乳腺X线摄影提供了一个可扩展、无需标注的多用途计算机辅助诊断工具基础,有助于减轻放射科医生工作量并提高乳腺癌筛查效率。

[4] Task-Specific Dual-Model Framework for Comprehensive Traffic Safety Video Description and Analysis

Blessing Agyei Kyem,Neema Jakisa Owor,Andrews Danyo,Joshua Kofi Asamoah,Eugene Denteh,Tanner Muturi,Anthony Dontoh,Yaw Adu-Gyamfi,Armstrong Aboah

Main category: cs.CV

TL;DR: 提出双模型框架,分别优化VideoLLaMA和Qwen2.5-VL进行交通视频分析,VideoLLaMA专注时序推理,Qwen2.5-VL专注视觉理解,在AI City Challenge Track 2中排名第10。

  • Motivation: 交通安防分析需要复杂的视频理解能力来捕捉细粒度行为模式并生成全面描述以预防事故,现有方法存在任务干扰问题。
  • Method: 采用双模型框架,分别训练VideoLLaMA用于视频描述生成,Qwen2.5-VL用于视觉问答,通过任务分离最小化任务干扰。
  • Result: VideoLLaMA在时序推理上CIDEr得分1.1001,Qwen2.5-VL在视觉理解上VQA准确率60.80%,在AI City Challenge Track 2中S2得分45.7572排名第10。
  • Conclusion: 分离训练策略比联合训练在VQA准确率上提升8.6%,同时保持描述生成质量,证明了任务特定优化的有效性。

[5] PanoTPS-Net: Panoramic Room Layout Estimation via Thin Plate Spline Transformation

Hatem Ibrahem,Ahmed Salem,Qinmin Vivian Hu,Guanghui Wang

Main category: cs.CV

TL;DR: 提出PanoTPS-Net模型,通过CNN和TPS空间变换从单张全景图像估计3D房间布局,在多个数据集上取得优异性能。

  • Motivation: 准确估计房间3D布局在机器人、增强现实和室内设计等领域有重要应用价值,需要能够同时处理立方体和非立方体布局的鲁棒方法。
  • Method: 采用两阶段架构:首先用CNN提取特征并学习TPS变换参数,然后用TPS变换层将参考布局变形为目标布局。
  • Result: 在PanoContext、Stanford-2D3D、Matterport3DLayout和ZInD数据集上分别达到85.49、86.16、81.76和91.98的3DIoU值。
  • Conclusion: PanoTPS-Net在房间布局估计中表现出高精度,证明了TPS变换与全景图像的兼容性,能有效处理各种类型的房间布局。

[6] Prompt-Guided Spatial Understanding with RGB-D Transformers for Fine-Grained Object Relation Reasoning

Tanner Muturi,Blessing Agyei Kyem,Joshua Kofi Asamoah,Neema Jakisa Owor,Richard Dyzinela,Andrews Danyo,Yaw Adu-Gyamfi,Armstrong Aboah

Main category: cs.CV

TL;DR: 提出了一种针对仓库环境的空间推理框架,通过在输入提示中嵌入边界框坐标来增强空间理解,在AI City Challenge Track 3中获得第4名。

  • Motivation: 现有视觉语言系统在大规模3D仓库环境中面临场景杂乱、遮挡和精确空间理解的挑战,缺乏显式空间基础,泛化能力不足。
  • Method: 将掩码维度(边界框坐标)嵌入输入提示中,使模型能够推理物体几何和布局;针对四种问题类别进行微调;在训练集中向GPT响应添加规范化答案。
  • Result: 在公共排行榜上获得最终得分73.0606,排名第4位。
  • Conclusion: 结构化提示丰富和针对性优化能有效提升现实工业环境中的空间推理能力。

[7] Evaluating the Explainability of Vision Transformers in Medical Imaging

Leili Barekatain,Ben Glocker

Main category: cs.CV

TL;DR: 评估不同Vision Transformer架构和预训练策略在医学影像中的可解释性,发现DINO结合Grad-CAM能提供最忠实和局部化的解释。

  • Motivation: 在医学影像中,模型决策的可解释性直接影响临床信任和采用。Vision Transformers虽然性能优异,但其复杂的注意力机制给可解释性带来挑战。
  • Method: 使用Gradient Attention Rollout和Grad-CAM方法,评估ViT、DeiT、DINO和Swin Transformer等不同架构和预训练策略,在血细胞分类和乳腺超声图像分类任务上进行定量和定性分析。
  • Result: DINO结合Grad-CAM在所有数据集中提供最忠实和局部化的解释。Grad-CAM产生类别区分性和空间精确的热图,而Gradient Attention Rollout产生更分散的激活。即使在错误分类情况下,DINO与Grad-CAM也能突出显示误导模型的临床相关形态特征。
  • Conclusion: 通过提高模型透明度,这项研究支持将ViTs可靠且可解释地集成到关键医学诊断工作流程中。

[8] APGNet: Adaptive Prior-Guided for Underwater Camouflaged Object Detection

Xinxin Huang,Han Sun,Junmin Cai,Ningzhong Liu,Huiyu Zhou

Main category: cs.CV

TL;DR: 提出了APGNet网络,通过自适应先验引导机制解决水下伪装目标检测问题,在MAS数据集上优于15种先进方法。

  • Motivation: 解决水下图像退化(低对比度、颜色失真)和海洋生物自然伪装带来的检测挑战,传统图像增强方法和陆地场景的COD方法难以适应水下环境。
  • Method: 采用孪生网络架构,结合MSRCR算法进行数据增强,设计扩展感受野模块和多尺度渐进解码器,提出自适应先验引导机制分层融合位置和边界先验。
  • Result: 在两个公开MAS数据集上的广泛实验表明,APGNet在常用评估指标上优于15种最先进方法。
  • Conclusion: APGNet通过自适应先验引导机制有效解决了水下伪装目标检测的关键挑战,展现出优越性能。

[9] VIDMP3: Video Editing by Representing Motion with Pose and Position Priors

Sandeep Mishra,Oindrila Saha,Alan C. Bovik

Main category: cs.CV

TL;DR: VidMP3是一种新的视频编辑方法,通过利用姿态和位置先验从源视频学习广义运动表示,能够在保持原始运动的同时实现结构和语义的灵活性。

  • Motivation: 现有基于扩散的编辑方法在结构保持任务上表现良好,但在结构可变编辑方面存在时间不一致、主体身份漂移和需要人工干预等问题。
  • Method: 利用姿态和位置先验学习源视频的广义运动表示,生成保持原始运动但允许结构和语义灵活性的新视频。
  • Result: 定性和定量评估都证明了该方法优于现有方法。
  • Conclusion: VidMP3解决了运动保持视频编辑中的关键挑战,为创作者提供了更大的灵活性。

[10] A Review on Domain Adaption and Generative Adversarial Networks(GANs)

Aashish Dhawan,Divyanshu Mudgal

Main category: cs.CV

TL;DR: 本文讨论了在计算机视觉中解决标注数据稀缺问题的领域自适应方法,旨在使用在特定数据集上训练的模型来预测不同领域但相同类型的数据。

  • Motivation: 计算机视觉领域面临的主要挑战是高质量标注数据的稀缺性。由于人工标注成本高昂且在某些情况下不可行,需要找到可靠的方法来克服数据不足的问题。
  • Method: 讨论了领域自适应及其各种实现方法,核心思想是利用在特定数据集上训练的模型来预测来自不同领域但相同类型的数据。
  • Result: 通过领域自适应方法,可以在数据稀缺的情况下实现与先前基准结果相媲美的性能。
  • Conclusion: 领域自适应是解决计算机视觉中标注数据稀缺问题的有效方法,能够将已有模型的知识迁移到新的数据领域。

[11] Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback

Xingpei Ma,Shenneng Huang,Jiaran Cai,Yuansheng Guan,Shen Zheng,Hanfeng Zhao,Qiang Zhang,Shunsi Zhang

Main category: cs.CV

TL;DR: 提出基于扩散变换器的音频驱动人类视频生成框架,支持任意长度视频生成和无需训练的多角色动画,在唇形同步、时间一致性和多角色动画方面优于现有方法。

  • Motivation: 现有音频驱动人类视频生成方法在唇形同步准确性、长视频时间一致性和多角色动画方面仍面临挑战,需要更高效、可控的解决方案。
  • Method: 采用LoRA训练策略结合位置偏移推理实现长视频生成;结合部分参数更新和奖励反馈增强唇形同步和身体运动;提出无需训练的Mask-CFG方法支持多角色动画。
  • Result: 实验结果表明该方法优于现有最先进方法,实现了高质量、时间一致的多角色音频驱动视频生成,方法简单高效且成本低。
  • Conclusion: 提出的框架在音频驱动人类视频生成方面取得了显著进展,特别是在长视频生成和多角色动画方面,为相关应用提供了实用解决方案。

[12] IL3D: A Large-Scale Indoor Layout Dataset for LLM-Driven 3D Scene Generation

Wenxu Zhou,Kaixuan Nie,Hang Du,Dong Yin,Wei Huang,Siqiang Guo,Xiaobo Zhang,Pengbo Hu

Main category: cs.CV

TL;DR: IL3D是一个大规模数据集,专为LLM驱动的3D场景生成设计,包含27,816个室内布局和29,215个高保真3D对象资产,支持多模态学习。

  • Motivation: 解决室内布局设计中多样化、高质量训练数据的迫切需求,支持视觉语言任务的多模态学习。
  • Method: 构建包含18种常见房间类型的大规模数据集,提供实例级自然语言标注,建立严格基准评估LLM驱动的场景生成。
  • Result: 在IL3D上进行监督微调显著提高了LLM的泛化能力,性能优于在其他数据集上的微调结果。
  • Conclusion: IL3D作为一个多功能资源,通过提供高保真场景数据,显著推进了3D场景生成和具身智能的研究。

[13] An Adaptive Edge-Guided Dual-Network Framework for Fast QR Code Motion Deblurring

Jianping Li,Dongyang Guo,Wenjie Li,Wei Zhao

Main category: cs.CV

TL;DR: 提出了一种针对QR码去模糊的自适应双网络方法,包括用于严重模糊的EG-Restormer和用于轻度模糊的LENet,通过边缘引导注意力块嵌入显式边缘先验,显著提高解码率。

  • Motivation: 现有深度学习方法很少显式利用QR码高度结构化的边缘模式先验,而QR码去模糊的关键目标是确保成功解码而非感知质量。
  • Method: 提出边缘引导注意力块(EGAB)将显式边缘先验嵌入Transformer架构,基于此开发EG-Restormer用于严重模糊,设计轻量级LENet用于轻度模糊,并集成到自适应双网络(ADNet)中根据模糊程度动态选择网络。
  • Result: 实验表明EG-Restormer和ADNet在保持竞争性速度的同时实现了最先进的性能,显著提高了严重模糊QR码的解码率。
  • Conclusion: 该方法通过显式利用QR码的结构化边缘先验,有效解决了QR码去模糊问题,特别适合资源受限的移动设备应用。

[14] G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior

Junfeng Ni,Yixin Chen,Zhifei Yang,Yu Liu,Ruijie Lu,Song-Chun Zhu,Siyuan Huang

Main category: cs.CV

TL;DR: 提出G4Splat方法,通过利用平面结构获取精确深度图,结合生成模型增强3D场景重建,在观察和未观察区域都能实现高质量重建。

  • Motivation: 现有方法缺乏可靠的几何监督,难以在观察区域产生高质量重建,更不用说未观察区域;同时缺乏有效机制缓解生成图像中的多视角不一致性,导致严重的形状-外观模糊和场景几何退化。
  • Method: 首先利用平面结构获取精确的度量尺度深度图,为观察和未观察区域提供可靠监督;然后将几何指导融入生成流程,改进可见性掩码估计,指导新视角选择,并使用视频扩散模型增强多视角一致性。
  • Result: 在Replica、ScanNet++和DeepBlending数据集上的实验表明,该方法在几何和外观重建方面均优于现有基线,特别是在未观察区域;支持单视图输入和无姿态视频,在室内外场景中具有良好的泛化能力。
  • Conclusion: 准确的几何是有效利用生成模型增强3D场景重建的基本前提,G4Splat方法通过几何指导实现了准确一致的场景补全,具有实际应用价值。

[15] DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning

Jiawei Zhan,Jun Liu,Jinlong Peng,Xiaochen Chen,Bin-Bin Gao,Yong Liu,Chengjie Wang

Main category: cs.CV

TL;DR: 提出了判别性表示学习(DRL)框架,通过增量并行适配器(IPA)网络和分离锚点监督(DAS)解决非排练类增量学习中的模型复杂度、表示漂移和优化不一致问题。

  • Motivation: 解决预训练模型在非排练类增量学习中面临的三个核心挑战:模型复杂度不断增加、增量学习过程中的表示漂移问题,以及阶段优化与全局推理之间的不一致性。
  • Method: 构建基于预训练模型的增量并行适配器(IPA)网络,通过轻量级适配器实现高效增量学习;设计分离锚点监督(DAS)机制,通过虚拟锚点分别约束正负样本,促进判别性表示学习。
  • Result: 在六个基准测试上的广泛实验表明,DRL在整个类增量学习过程中始终优于其他最先进方法,同时在训练和推理阶段保持高效率。
  • Conclusion: DRL框架有效解决了类增量学习中的关键挑战,通过IPA网络和DAS机制实现了高效且稳定的增量学习性能。

[16] Self-Supervised Selective-Guided Diffusion Model for Old-Photo Face Restoration

Wenjie Li,Xiangyi Wang,Heng Guo,Guangwei Gao,Zhanyu Ma

Main category: cs.CV

TL;DR: 提出SSDiff方法,通过自监督选择性引导扩散模型解决老照片人脸修复问题,利用伪参考人脸进行区域特定修复,在结构引导和颜色细化方面表现优异。

  • Motivation: 现有预训练扩散引导方法依赖显式退化先验或全局统计指导,难以处理局部伪影和面部颜色问题。老照片人脸修复面临断裂、褪色和严重模糊等多重退化挑战。
  • Method: 使用预训练扩散模型在弱指导下生成伪参考人脸,通过面部解析图和划痕掩码选择性修复断裂区域,采用分阶段监督:结构引导贯穿去噪过程,颜色细化在后期步骤进行。
  • Result: 构建了包含300张真实老照片的VintageFace基准数据集,SSDiff在感知质量、保真度和区域可控性方面优于现有GAN和扩散方法。
  • Conclusion: SSDiff方法通过自监督选择性引导扩散有效解决了老照片人脸修复中的多重退化问题,实现了高质量的局部修复和颜色恢复。

[17] ImageSentinel: Protecting Visual Datasets from Unauthorized Retrieval-Augmented Image Generation

Ziyuan Luo,Yangyi Zhao,Ka Chun Cheung,Simon See,Renjie Wan

Main category: cs.CV

TL;DR: ImageSentinel是一个保护视觉数据集在检索增强图像生成(RAIG)系统中免受未经授权使用的框架,通过合成哨兵图像来检测数据集滥用。

  • Motivation: RAIG系统的广泛应用引发了关于私有图像数据集未经授权使用的担忧,传统数字水印方法在RAIG系统中因复杂的特征提取和重组过程而失效。
  • Method: 利用视觉语言模型合成与原始数据集视觉一致的哨兵图像,通过随机生成的字符序列作为检索密钥进行保护验证。
  • Result: 实验结果表明ImageSentinel能有效检测未经授权的数据集使用,同时保持授权应用的生成质量。
  • Conclusion: ImageSentinel为解决RAIG系统中的数据集保护问题提供了一种有效的解决方案,在保护数据集的同时不影响合法使用。

[18] Hardware-aware Coding Function Design for Compressive Single-Photon 3D Cameras

David Parra,Felipe Gutierrez-Barragan,Trevor Seets,Andreas Velten

Main category: cs.CV

TL;DR: 提出一种约束优化方法来设计实用的压缩单光子3D成像编码函数,通过梯度下降联合优化照明和编码矩阵,在硬件约束下显著优于传统编码设计

  • Motivation: 单光子相机在飞行时间3D成像中面临硬件限制(系统带宽、最大激光功率、传感器数据速率等),压缩直方图虽能解决数据速率问题,但在真实世界照明硬件约束下表现不佳
  • Method: 使用梯度下降联合优化照明和编码矩阵(编码函数),确保符合硬件约束,特别是带宽和峰值功率限制
  • Result: 通过广泛仿真验证,该方法在带宽和峰值功率约束下始终优于传统编码设计,在峰值功率受限系统中优势尤为明显,并能适应任意参数化脉冲响应
  • Conclusion: 提出的约束优化方法能够设计出实用的编码函数,显著提升压缩单光子3D成像在硬件约束下的性能,特别是对峰值功率受限系统

[19] MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites

Zhenxin Lei,Zhangwei Gao,Changyao Tian,Erfei Cui,Guanzhou Chen,Danni Yang,Yuchen Duan,Zhaokai Wang,Wenhao Li,Weiyun Wang,Xiangyu Zhao,Jiayi Ji,Yu Qiao,Wenhai Wang,Gen Luo

Main category: cs.CV

TL;DR: 本文提出CapFlow多智能体协作工作流,首次证明使用开源模型可以达到GPT-4.1的caption质量,成本降低89.5%。通过CapFlow作为数据合成器,训练出通用视觉描述模型MetaCaptioner,在开源社区达到顶级多模态性能。

  • Motivation: 当前开源模型在通用视觉描述任务上与商业模型存在较大性能差距,限制了数据合成等应用。需要开发成本效益高的解决方案来缩小这一差距。
  • Method: 提出CapFlow多智能体协作工作流,利用开源模型协作生成高质量视觉描述。使用CapFlow作为数据合成器大规模生成图像和视频描述数据,然后通过微调训练MetaCaptioner模型。
  • Result: CapFlow在多个视觉领域达到与GPT-4.1相当的描述质量,成本降低89.5%。MetaCaptioner不仅具备与商业模型相当的描述能力,在开源社区达到顶级多模态性能。
  • Conclusion: CapFlow和MetaCaptioner为未来多模态研究提供了强大且成本效益高的视觉描述解决方案,有望推动该领域的发展。

[20] FedHUG: Federated Heterogeneous Unsupervised Generalization for Remote Physiological Measurements

Xiao Yang,Jiyao Wang

Main category: cs.CV

TL;DR: 提出了FedHUG框架,通过联邦学习和无监督域泛化技术解决远程生理测量中的隐私保护和标签缺失问题。

  • Motivation: 远程生理测量需要收集用户隐私信息,且现有方法依赖带标签的客户端数据,这在现实部署中面临数据无标签的挑战。
  • Method: FedHUG框架包含两个核心模块:最小偏差聚合模块动态调整聚合权重处理异构非IID特征;全局分布感知学习控制器参数化标签分布并动态调整客户端训练策略。
  • Result: 在RGB视频和毫米波雷达的生理参数估计中,该方法优于现有最先进技术。
  • Conclusion: FedHUG框架有效解决了联邦学习中数据异构性和标签分布偏差问题,为远程生理测量提供了可行的解决方案。

[21] Class-aware Domain Knowledge Fusion and Fission for Continual Test-Time Adaptation

Jiahuan Zhou,Chao Zhu,Zhenyu Cui,Zichen Liu,Xu Zou,Gang Hua

Main category: cs.CV

TL;DR: 提出KFF方法,通过类感知域知识融合与分裂机制解决持续测试时适应中的灾难性遗忘问题,动态积累判别性历史知识。

  • Motivation: 现有CTTA方法通过恢复初始模型或重用历史模型来减少灾难性遗忘,但会导致新知识学习不足和有害历史知识干扰,造成性能下降。
  • Method: 设计域知识分裂模块(KFI)从配对类感知域提示池中自适应分离新域知识,减轻旧域负知识影响;设计域知识融合模块(KFU)以最小成本将分裂的新知识合并到现有知识池中,采用贪心知识动态合并策略。
  • Result: 在ImageNet-C数据集上的广泛实验验证了所提方法相对于其他方法的有效性。
  • Conclusion: KFF方法通过知识融合与分裂机制有效解决了持续测试时适应中的知识积累和遗忘问题。

[22] DPL: Spatial-Conditioned Diffusion Prototype Enhancement for One-Shot Medical Segmentation

Ziyuan Gao,Philippe Morel

Main category: cs.CV

TL;DR: 提出了Diffusion Prototype Learning (DPL)框架,通过扩散模型增强原型表示,解决医学图像分割中因标注数据有限和患者间解剖变异大导致的原型表示脆弱问题。

  • Motivation: 传统基于原型的方法使用确定性平均支持特征,无法捕捉类内多样性,导致泛化能力差。医学图像分割面临标注数据有限和患者间解剖变异大的挑战。
  • Method: DPL将原型建模为可学习的概率分布,通过扩散过程生成多样化的原型变体。包含三个核心创新:扩散原型增强模块、空间感知条件机制和保守融合策略。
  • Result: 在腹部MRI和CT数据集上的实验表明,DPL显著提升了单次医学图像分割的性能,达到了新的最先进水平。
  • Conclusion: DPL通过扩散模型增强原型表示,有效解决了医学图像分割中的原型表示脆弱问题,实现了更好的泛化性能。

[23] State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding

Jiahuan Zhou,Kai Zhu,Zhenyu Cui,Zichen Liu,Xu Zou,Gang Hua

Main category: cs.CV

TL;DR: 提出State Space Prompting (SSP)方法,通过帧内聚集和帧间传播模块来聚合和传播视频中的关键时空信息,显著提升视频分类性能并减少微调参数。

  • Motivation: 现有的预训练状态空间模型在视频分类中虽然效率高,但顺序压缩的视觉提示token无法有效捕获视频的时空上下文信息,限制了空间和时间信息的有效传播。
  • Method: 设计Intra-Frame Gathering (IFG)模块聚合每帧内的空间关键信息,Inter-Frame Spreading (IFS)模块传播跨帧的判别性时空信息,通过自适应平衡和压缩帧内帧间关键信息来互补传播判别性信息。
  • Result: 在四个视频基准数据集上的实验表明,SSP方法平均比现有SOTA方法提升2.76%,同时减少了微调参数的开销。
  • Conclusion: SSP方法通过有效聚合和传播视频中的关键时空信息,显著提升了视频理解性能,同时保持了参数效率。

[24] UniGS: Unified Geometry-Aware Gaussian Splatting for Multimodal Rendering

Yusen Xie,Zhenmin Huang,Jianhao Jiao,Dimitrios Kanoulas,Jun Ma

Main category: cs.CV

TL;DR: UniGS是一个基于3D高斯泼溅的统一地图表示和可微分框架,用于高保真多模态3D重建,通过CUDA加速渲染RGB图像、深度图、表面法线和语义logits,并引入可学习属性优化计算效率。

  • Motivation: 现有3D重建方法在多模态数据融合和几何一致性方面存在局限,需要统一的框架来同时处理RGB、深度、法线和语义信息,并确保几何精度。
  • Method: 重新设计光栅化流程,使用可微分射线-椭球体相交渲染深度而非高斯中心,推导表面法线渲染的解析梯度公式,引入可学习属性进行高斯剪枝优化计算效率。
  • Result: 定量和定性实验表明,该方法在所有模态上都达到了最先进的重建精度,验证了几何感知范式的有效性。
  • Conclusion: UniGS框架通过统一的表示和可微分优化,实现了高保真多模态3D重建,在几何一致性和计算效率方面表现出色,代码将在GitHub上开源。

[25] BEEP3D: Box-Supervised End-to-End Pseudo-Mask Generation for 3D Instance Segmentation

Youngju Yoo,Seho Kim,Changick Kim

Main category: cs.CV

TL;DR: BEEP3D提出了一种端到端的3D实例分割方法,使用边界框标注作为弱监督信号,通过师生框架生成伪掩码,避免了传统两阶段方法的复杂性和训练时间问题。

  • Motivation: 完全监督的3D实例分割需要密集的点级标注,成本高昂。边界框标注虽然更易获取,但在重叠区域存在模糊性,现有两阶段方法增加了训练复杂性和时间。
  • Method: 采用师生框架,教师模型作为伪标签生成器,通过指数移动平均更新;引入基于实例中心的查询精炼来提升定位精度;设计了查询一致性损失和掩码特征一致性损失来对齐预测与伪掩码。
  • Result: 在ScanNetV2和S3DIS数据集上的实验表明,BEEP3D在性能上与最先进的弱监督方法相当或更优,同时保持计算效率。
  • Conclusion: BEEP3D提供了一种高效且有效的端到端解决方案,用于基于边界框监督的3D实例分割,在减少标注成本的同时保持了竞争性能。

[26] CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs

Jiwan Kim,Kibum Kim,Sangwoo Seo,Chanyoung Park

Main category: cs.CV

TL;DR: 提出CompoDistill知识蒸馏框架,通过对齐师生模型的视觉注意力来提升学生模型的视觉感知能力,在组合推理任务中表现优异。

  • Motivation: 现有知识蒸馏方法难以有效传递教师MLLM的丰富视觉感知能力,主要原因是师生模型间的视觉注意力不匹配。
  • Method: CompoDistill框架显式对齐学生和教师的视觉注意力,增强学生的视觉感知能力。
  • Result: 在组合推理任务中显著提升性能,同时在视觉问答任务中保持良好表现,且在不同骨干网络上具有通用性。
  • Conclusion: CompoDistill通过视觉注意力对齐有效解决了MLLM知识蒸馏中的视觉感知传递问题,具有实用价值。

[27] Hierarchical Reasoning with Vision-Language Models for Incident Reports from Dashcam Videos

Shingo Yokoi,Kento Sasaki,Yu Yamaguchi

Main category: cs.CV

TL;DR: 提出了一个用于从行车记录仪视频生成事故报告的分层推理框架,结合了帧级描述、事故帧检测和视觉语言模型的细粒度推理,在2COOOL挑战中排名第2。

  • Motivation: 尽管端到端自动驾驶模型在多样化大规模数据集上训练,但在分布外场景中仍表现不佳。COOOL基准旨在填补这一空白,鼓励超越封闭分类的危险理解。
  • Method: 分层推理框架,整合帧级描述、事故帧检测和视觉语言模型的细粒度推理,通过模型集成和盲A/B评分选择协议提高事实准确性和可读性。
  • Result: 在官方2COOOL开放排行榜中,该方法在29个团队中排名第2,并获得了最佳CIDEr-D分数,生成了准确连贯的事故叙述。
  • Conclusion: 基于视觉语言模型的分层推理是事故分析和更广泛安全关键交通事件理解的有前景方向。

[28] The Impact of Synthetic Data on Object Detection Model Performance: A Comparative Analysis with Real-World Data

Muammer Bay,Timo von Marcard,Dren Fazlija

Main category: cs.CV

TL;DR: 本文研究了合成数据对仓库物流领域物体检测模型性能的影响,发现合成数据和真实数据的平衡结合可以产生稳健高效的检测模型。

  • Motivation: 生成式AI在计算机视觉领域的进展为优化物流和制造工作流程提供了新机会,但AI应用常受限于专业知识和资源不足,需要依赖通用模型。使用真实数据进行微调成本高且效率低,因此使用合成数据进行微调成为成本效益高的替代方案。
  • Method: 使用NVIDIA Omniverse Replicator工具生成合成数据,在仓库环境中进行托盘检测实验,比较仅使用真实数据与不同合成数据生成策略的效果。
  • Result: 实验结果表明,合成数据对物体检测模型在真实场景中的有效性有积极影响。
  • Conclusion: 合成图像数据在计算机视觉中的实际应用表明,合成数据和真实数据的平衡整合可以产生稳健高效的物体检测模型。

[29] DIANet: A Phase-Aware Dual-Stream Network for Micro-Expression Recognition via Dynamic Images

Vu Tram Anh Khuong,Luu Tu Nguyen,Thi Bich Phuong Man,Thanh Ha Le,Thi Duyen Ngo

Main category: cs.CV

TL;DR: 提出DIANet双流框架,利用相位感知动态图像分别编码微表情的起始-顶点和顶点-消退阶段,通过交叉注意力融合模块自适应整合特征,在多个基准数据集上优于传统单相位方法。

  • Motivation: 微表情识别因面部线索细微短暂且标注数据有限而具有挑战性。传统动态图像方法往往忽略微表情不同时间阶段的独特特征,需要更精细的相位建模。
  • Method: DIANet双流框架:一个流编码起始到顶点阶段,另一个流捕获顶点到消退阶段;每个流使用专用CNN处理;交叉注意力融合模块基于上下文相关性自适应整合两流特征。
  • Result: 在CASME-II、SAMM和MMEW三个基准MER数据集上的广泛实验表明,该方法始终优于传统的单相位动态图像方法。
  • Conclusion: 明确建模时间相位信息对微表情识别至关重要,为推进MER研究提供了有前景的方向。

[30] HoneyBee: Data Recipes for Vision-Language Reasoners

Hritik Bansal,Devandra Singh Sachan,Kai-Wei Chang,Aditya Grover,Gargi Ghosh,Wen-tau Yih,Ramakanth Pasunuru

Main category: cs.CV

TL;DR: 该论文研究了视觉语言模型推理训练数据集构建的原则,提出了多种数据筛选方法,并创建了HoneyBee大规模推理数据集,显著提升了模型性能。

  • Motivation: 当前视觉语言模型在推理任务上表现优异,但构建高性能视觉语言推理训练数据集的原则仍不明确,需要系统研究数据筛选策略的影响。
  • Method: 通过控制训练和评估设置,分析上下文来源的影响,实施有针对性的数据干预(如图像描述辅助信号、纯文本推理),并探索图像、问题和思维链解决方案的规模化扩展。
  • Result: 研究发现上下文来源策略显著影响模型性能,数据干预带来实质性提升,多维度数据扩展持续改善推理能力。基于此创建的HoneyBee数据集使模型在多个基准测试中超越现有最优模型。
  • Conclusion: 本研究提出了改进的视觉语言推理数据集筛选策略,通过系统分析和数据干预显著提升了模型推理能力,为相关研究提供了重要指导。

[31] BIGFix: Bidirectional Image Generation with Token Fixing

Victor Besnier,David Hurych,Andrei Bursuc,Eduardo Valle

Main category: cs.CV

TL;DR: 提出了一种自校正图像生成方法,通过迭代精炼采样标记来提升生成质量,同时保持并行标记预测的效率优势。

  • Motivation: 解决生成模型中并行预测多个标记时出现的结构不一致问题,传统方法无法回溯修正错误预测。
  • Method: 采用新颖的训练方案,在上下文中注入随机标记以提高鲁棒性,并在采样过程中实现标记修正。
  • Result: 在ImageNet-256、CIFAR-10图像生成以及UCF-101、NuScenes视频生成任务上均取得显著改进。
  • Conclusion: 该方法在保持效率的同时显著提升了生成质量,适用于图像和视频两种模态。

[32] Ivan-ISTD: Rethinking Cross-domain Heteroscedastic Noise Perturbations in Infrared Small Target Detection

Yuehui Li,Yahao Lu,Haoyuan Wu,Sen Zhang,Liang Lin,Yukai Shi

Main category: cs.CV

TL;DR: 提出Ivan-ISTD框架解决红外小目标检测中的跨域偏移和异方差噪声扰动问题,通过小波引导的跨域合成和真实域噪声不变性学习,在动态ISTD基准上表现优异。

  • Motivation: 解决红外小目标检测中存在的跨域偏移和异方差噪声扰动双重挑战,传统方法在真实场景中面临分布偏差限制。
  • Method: 采用两阶段方法:第一阶段使用小波引导跨域合成生成与目标域对齐的训练样本;第二阶段引入真实域噪声不变性学习,构建动态噪声库并通过自监督损失学习噪声不变性。
  • Result: 实验结果表明该方法在多个定量指标上优于现有最先进方法,在跨域场景中表现出优异的鲁棒性。
  • Conclusion: Ivan-ISTD框架有效解决了红外小目标检测中的跨域和噪声问题,创建了动态ISTD基准数据集,验证了方法的通用性。

[33] Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding

Ye Chen,Liming Tan,Yupeng Zhu,Yuanbin Wang,Bingbing Ni

Main category: cs.CV

TL;DR: 提出使用时空一致的代理节点来表示视频中动态变化的对象/场景,克服传统像素级匹配和跟踪的不稳定性问题,支持视频重建和编辑任务。

  • Motivation: 当前视频表示方法过度依赖不稳定的像素级匹配和跟踪,容易因跟踪误差、遮挡和大范围运动而失效,需要更鲁棒的表示方法。
  • Method: 使用分层代理节点表达多尺度视觉对象结构,通过动态表示更新机制利用视频时空先验,并采用形状和纹理表示的分离编码方式。
  • Result: 实验表明该方法以更少参数实现高精度视频重建,并支持视频修复和基于关键帧的时间一致性视频编辑等复杂任务。
  • Conclusion: 代理节点表示方法能够稳定处理跟踪误差、长期运动、遮挡和视角变化,为视频处理提供鲁棒且可控的解决方案。

[34] Multiplicative Loss for Enhancing Semantic Segmentation in Medical and Cellular Images

Yuto Yokoi,Kazuhiro Hotta

Main category: cs.CV

TL;DR: 提出了两种新的损失函数:乘法损失和置信度自适应乘法损失,用于医学和细胞图像的语义分割,在数据稀缺情况下优于传统损失函数。

  • Motivation: 医学图像由于隐私、伦理和标注成本高而面临数据稀缺问题,传统的交叉熵和Dice损失组合对超参数敏感且在有限数据下表现不佳,需要更鲁棒高效的训练目标。
  • Method: 将交叉熵和Dice损失以乘法方式结合,基于预测置信度动态调节梯度,减少对置信正确预测的惩罚,放大错误过置信预测的梯度。置信度自适应版本进一步引入置信度驱动的指数缩放,强调困难样本。
  • Result: 在细胞和医学分割基准测试中,该框架始终优于调优后的加法损失和现有损失函数。
  • Conclusion: 提供了一种简单、有效且无需超参数调整的机制,能够在具有挑战性的数据限制下实现鲁棒分割。

[35] Local Background Features Matter in Out-of-Distribution Detection

Jinlun Ye,Zhuohao Sun,Yiqiao Qiu,Qiu Li,Zhijun Tan,Ruixuan Wang

Main category: cs.CV

TL;DR: 提出一种利用ID图像局部背景特征作为伪OOD特征的新型OOD检测方法,通过优化降低背景特征的L2范数来缓解模型对OOD数据的过度自信问题。

  • Motivation: 解决深度神经网络在真实世界部署中OOD检测的挑战,特别是模型对OOD数据产生过度自信预测的问题,同时避免传统方法需要额外OOD数据集或生成伪OOD图像的高成本限制。
  • Method: 利用ID图像中的局部背景特征作为模拟OOD视觉表示,基于卷积的局部不变性提取背景特征,在训练过程中通过优化降低这些背景特征的L2范数。
  • Result: 在多个标准OOD检测基准测试中验证了方法的有效性,与现有后处理方法具有广泛的组合兼容性,并达到了新的最先进性能。
  • Conclusion: 该方法提供了一种有效且成本效益高的OOD检测解决方案,能够显著缓解模型对OOD数据的过度自信问题。

[36] AngularFuse: A Closer Look at Angle-based Perception for Spatial-Sensitive Multi-Modality Image Fusion

Xiaopeng Liu,Yupei Lin,Sen Zhang,Xiao Wang,Yukai Shi,Liang Lin

Main category: cs.CV

TL;DR: 本文提出AngularFuse框架,通过跨模态互补掩码模块、细粒度参考图像合成策略和角度感知损失函数,解决了可见光-红外图像融合中的细节缺失和亮度不均问题。

  • Motivation: 现有无监督融合方法依赖手工设计的损失函数,存在参考图像细节不足、亮度不均,以及梯度损失仅关注梯度幅度而忽略方向的问题。
  • Method: 1) 跨模态互补掩码模块学习模态间互补信息;2) 结合拉普拉斯边缘增强和自适应直方图均衡化的参考图像合成策略;3) 同时约束梯度幅度和方向的角度感知损失函数。
  • Result: 在MSRS、RoadScene和M3FD数据集上的实验表明,AngularFuse明显优于现有主流方法,在挑战性场景中产生更清晰、更详细的结果。
  • Conclusion: AngularFuse通过同时考虑梯度幅度和方向,能够更好地保留纹理强度和正确的边缘方向,展现出优越的融合能力。

[37] SpineBench: Benchmarking Multimodal LLMs for Spinal Pathology Analysis

Chenghanyu Zhang,Zekun Li,Peipei Li,Xing Cui,Shuhan Xia,Weixiang Yan,Yiqiao Zhang,Qianyu Zhuang

Main category: cs.CV

TL;DR: 提出了SpineBench,一个专门针对脊柱领域的视觉问答基准,包含64,878个问答对和40,263张脊柱图像,用于评估多模态大语言模型在脊柱疾病诊断和病变定位任务中的表现。

  • Motivation: 现有的医学基准主要评估一般医疗任务,无法充分捕捉在脊柱等依赖视觉输入的精细领域的性能,因此需要专门的评估基准。
  • Method: 通过整合和标准化开源脊柱疾病数据集的图像标签对,构建了包含11种脊柱疾病的VQA基准,并为每个问题生成具有视觉相似性的困难负样本选项。
  • Result: 评估了12个领先的MLLM,结果显示这些模型在脊柱任务中表现不佳,突显了当前MLLM在脊柱领域的局限性。
  • Conclusion: SpineBench揭示了当前MLLM在脊柱医学应用中的不足,为未来改进提供了指导,该基准已公开可用。

[38] PAGS: Priority-Adaptive Gaussian Splatting for Dynamic Driving Scenes

Ying A,Wenzhang Sun,Chang Zeng,Chunfeng Wang,Hao Li,Jianxun Cui

Main category: cs.CV

TL;DR: PAGS是一个优先级自适应的高斯泼溅框架,通过在3D重建和渲染流程中注入任务感知的语义优先级,解决了动态3D城市场景重建中保真度与计算成本之间的权衡问题。

  • Motivation: 当前动态3D城市场景重建方法面临保真度与计算成本之间的明显权衡,其语义无关的设计导致资源分配不均,对静态背景和安全关键对象给予同等重要性。
  • Method: PAGS引入两个核心贡献:1)语义引导的剪枝和正则化策略,使用混合重要性度量积极简化非关键场景元素,同时保留对导航至关重要的对象的精细细节;2)优先级驱动的渲染流水线,使用基于优先级的深度预传递来积极剔除被遮挡的基元并加速最终着色计算。
  • Result: 在Waymo和KITTI数据集上的广泛实验表明,PAGS实现了卓越的重建质量,特别是在安全关键对象上,同时显著减少了训练时间,并将渲染速度提升至超过350 FPS。
  • Conclusion: PAGS通过将任务感知的语义优先级注入3D重建和渲染流程,有效解决了动态3D城市场景重建中保真度与效率的权衡问题,为自动驾驶应用提供了高质量且高效的解决方案。

[39] Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval

Jianfeng Dong,Lei Huang,Daizong Liu,Xianke Chen,Xun Yang,Changting Lin,Xun Wang,Meng Wang

Main category: cs.CV

TL;DR: 提出了一种用于部分相关视频检索(PRVR)的双重学习框架DL-DKD++,通过动态知识蒸馏从大规模视觉语言预训练模型向轻量级任务特定网络传递知识。

  • Motivation: 实际应用中视频通常是未修剪的长视频,包含复杂的背景内容,而现有方法假设视频是预修剪的短片段。因此需要解决更实用但具有挑战性的部分相关视频检索任务。
  • Method: 采用双重学习框架,包含继承分支吸收教师模型的可转移知识,探索分支学习PRVR数据集的特定信息。引入动态软目标构建机制,用自适应软目标替代硬目标监督。
  • Result: 在TVR、ActivityNet和Charades-STA数据集上实现了最先进的性能。
  • Conclusion: 所提出的DL-DKD++框架有效解决了部分相关视频检索问题,通过知识蒸馏和动态软目标机制显著提升了模型性能。

[40] Vision Language Models Map Logos to Text via Semantic Entanglement in the Visual Projector

Sifan Li,Hongkai Chen,Yujun Cai,Qingwen Ye,Liyang Chen,Junsong Yuan,Yiwei Wang

Main category: cs.CV

TL;DR: 该论文研究了视觉语言模型中的logo幻觉问题,即模型在没有可见文字的logo上生成品牌名称或文本内容。通过系统测试发现幻觉问题普遍存在,且与投影器子空间密切相关,提出了针对性的缓解方法。

  • Motivation: 视觉语言模型在多模态推理方面取得了显著进展,但仍然容易产生幻觉,即输出内容缺乏视觉证据支持。特别是logo幻觉问题——模型在没有可见文字的logo上生成品牌名称或文本内容——这一现象被先前研究所忽视。
  • Method: 使用纯符号、混合和含文本logo的精选数据集,以及具有挑战性的Hard-60子集,系统测量领先VLMs的幻觉程度。通过九种结构化扰动测试鲁棒性,并对开源LLaVA进行嵌入级分析,识别与幻觉相关的投影器维度。
  • Result: 研究发现幻觉问题在各种扰动下持续存在,遮挡暴露了最严重的弱点。嵌入分析显示幻觉与投影器的小部分维度相关,针对性消融显著减少了错误同时保持了OCR准确性。模型往往依赖符号先验而非真正的字形感知。
  • Conclusion: VLMs经常依赖符号先验而非真正的视觉感知,特别是对于标志性圆形logo。投影器子空间在这种失败模式中起决定性作用。研究提出了投影器解纠缠和OCR引导解码作为构建更可信多模态系统的有前景方向。

[41] Hybrid Gaussian Splatting for Novel Urban View Synthesis

Mohamed Omran,Farhad Zanjani,Davide Abati,Jens Petersen,Amirhossein Habibian

Main category: cs.CV

TL;DR: 该论文提出了一个两阶段方法用于街景新视角合成:首先使用高斯泼溅进行3D场景重建和渲染,然后通过单步扩散模型增强图像质量。该方法在ICCV 2025 RealADSim-NVS挑战赛中获得第二名。

  • Motivation: 解决街景环境中的新视角合成问题,特别是在不同行驶轨迹(如不同车道或方向)下生成真实感渲染图像。
  • Method: 两阶段方法:1)使用高斯泼溅进行3D场景重建和目标视角渲染;2)使用专用单步扩散模型增强渲染结果。重点优化了高斯基元初始化和增强模型的微调策略。
  • Result: 在公开测试排行榜上获得综合得分0.432,总体排名第二。通过PSNR、SSIM和LPIPS指标评估了新视角合成质量。
  • Conclusion: 提出的混合方法结合了高斯泼溅和扩散模型,在街景新视角合成任务中表现优异,证明了该方法的有效性。

[42] CurriFlow: Curriculum-Guided Depth Fusion with Optical Flow-Based Temporal Alignment for 3D Semantic Scene Completion

Jinzhou Lin,Jie Zhou,Wenhao Xu,Rongtao Xu,Changwei Wang,Shunpeng Chen,Kexue Fu,Yihua Shao,Li Guo,Shibiao Xu

Main category: cs.CV

TL;DR: CurriFlow是一个用于语义场景补全的新框架,通过光流时序对齐和课程学习深度融合,提升相机感知的3D几何和语义理解能力。

  • Motivation: 现有SSC方法依赖时序堆叠或深度投影,缺乏显式运动推理,难以处理遮挡和噪声深度监督。
  • Method: 采用多级融合策略对齐分割、视觉和深度特征,使用预训练光流;通过课程学习从稀疏LiDAR深度渐进过渡到密集立体深度;引入SAM语义先验增强体素级语义学习。
  • Result: 在SemanticKITTI基准测试中达到16.9的平均IoU,实现最先进性能。
  • Conclusion: CurriFlow的运动引导和课程感知设计有效提升了基于相机的3D语义场景补全性能。

[43] Deep Attention-guided Adaptive Subsampling

Sharath M Shankaranarayana,Soumava Kumar Roy,Prasad Sudhakar,Chandan Aladahalli

Main category: cs.CV

TL;DR: 提出了一种可学习的自适应子采样框架,通过注意力引导的动态采样机制减少深度神经网络的计算复杂度,在3D医学影像和超声视频分类任务中验证了有效性。

  • Motivation: 深度神经网络性能提升往往伴随计算复杂度和成本的增加,特别是在3D体积或视频分类任务中,由于固有的冗余性,并非所有切片或帧都是必要的。现有方法虽然解决了不可微问题,但缺乏输入自适应性。
  • Method: 提出注意力引导的采样模块,该模块即使在推理阶段也能适应不同输入,通过动态调整采样策略来减少计算复杂度。
  • Result: 在MedMNIST3D医学影像数据集和两个超声视频数据集(包括一个真实临床条件下收集的具有挑战性的内部数据集)上的分类任务中证明了方法的有效性。
  • Conclusion: 所提出的自适应子采样框架能够动态适应输入数据,在保持性能的同时显著降低深度神经网络的计算复杂度,适用于实际应用场景。

[44] Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling

Tim J. Schoonbeek,Shao-Hsuan Hung,Dan Lehman,Hans Onvlee,Jacek Kustra,Peter H. N. de With,Fons van der Sommen

Main category: cs.CV

TL;DR: 提出了STORM-PSR双流框架,通过结合空间和时间特征来改进过程步骤识别,特别针对部分遮挡情况下的鲁棒性提升。

  • Motivation: 现有最先进模型仅依赖检测单个视频帧中的装配对象状态,忽略了时间特征,导致在对象部分遮挡时模型鲁棒性和准确性受限。
  • Method: STORM-PSR采用双流框架:装配状态检测流处理无遮挡对象视图,时空流通过空间编码器和基于Transformer的时间编码器捕获空间和时间特征,即使在部分遮挡下也能识别步骤完成。
  • Result: 在MECCANO和IndustReal数据集上评估,相比先前方法,平均延迟分别减少了11.2%和26.1%。时空流不依赖无遮挡对象视图即可推断完成的步骤。
  • Conclusion: STORM-PSR通过有效利用时空特征,显著提升了过程步骤识别的准确性和鲁棒性,特别是在部分遮挡场景下。

[45] Scene Coordinate Reconstruction Priors

Wenjing Bian,Axel Barroso-Laguna,Tommaso Cavallari,Victor Adrian Prisacariu,Eric Brachmann

Main category: cs.CV

TL;DR: 提出了一种概率重解释方法来训练场景坐标回归模型,通过引入高级重建先验来改善在训练图像多视角约束不足时的退化问题。

  • Motivation: 当训练图像缺乏足够多视角约束时,场景坐标回归模型会退化,需要引入先验知识来提升模型性能。
  • Method: 采用概率重解释框架,引入从简单深度分布先验到基于大规模室内扫描训练的3D点云扩散模型等多种先验,在训练过程中将预测的3D场景点推向合理几何结构。
  • Result: 在三个室内数据集上,先验方法帮助学习到更好的场景表示,产生更连贯的场景点云、更高的配准率和更好的相机位姿,对下游任务如新视角合成和相机重定位有积极影响。
  • Conclusion: 提出的概率先验方法能有效提升场景坐标回归模型的性能,特别是在训练数据约束不足的情况下。

[46] Towards General Urban Monitoring with Vision-Language Models: A Review, Evaluation, and a Research Agenda

André Torneiro,Diogo Monteiro,Paulo Novais,Pedro Rangel Henriques,Nuno F. Rodrigues

Main category: cs.CV

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[47] Low-Field Magnetic Resonance Image Quality Enhancement using a Conditional Flow Matching Model

Huu Tien Nguyen,Ahmed Karam Eldaly

Main category: cs.CV

TL;DR: 提出基于条件流匹配(CFM)的图像质量传递框架,用于将低场MRI重建为高场质量图像,在减少参数量的同时实现最先进性能。

  • Motivation: 低场磁共振成像(LF-MRI)虽然价格低廉且便携,但信噪比低、诊断质量差,需要一种能弥补质量差距而不依赖昂贵基础设施的方法。
  • Method: 使用条件流匹配(CFM)框架,通过直接回归最优速度场来学习噪声分布与目标数据分布之间的连续流,避免了传统生成模型的迭代采样或对抗目标。
  • Result: CFM不仅实现了最先进的性能,而且对分布内和分布外数据都具有鲁棒性,同时使用的参数量显著少于竞争性深度学习方法。
  • Conclusion: CFM是MRI重建的强大且可扩展工具,特别适用于资源有限的临床环境。

[48] VideoLucy: Deep Memory Backtracking for Long Video Understanding

Jialong Zuo,Yongtai Deng,Lingdong Kong,Jingkang Yang,Rui Jin,Yiwei Zhang,Nong Sang,Liang Pan,Ziwei Liu,Changxin Gao

Main category: cs.CV

TL;DR: VideoLucy是一个用于长视频理解的深度记忆回溯框架,通过分层记忆结构和迭代回溯机制解决现有方法在时间上下文和关键信息保留方面的挑战。

  • Motivation: 现有基于LLM的代理系统在长视频理解中存在两个主要问题:1)对单帧建模难以捕捉连续帧的时间上下文;2)稀疏帧采样可能丢失关键信息。
  • Method: 提出VideoLucy框架,采用分层记忆结构(从粗到细的粒度)和基于代理的迭代回溯机制,系统挖掘视频范围内的深度记忆信息。
  • Result: 在多个长视频理解基准测试中显著优于现有最先进方法,性能甚至超过GPT-4o等专有模型。
  • Conclusion: VideoLucy通过深度记忆回溯机制有效解决了长视频理解中的时间上下文和细节保留问题,在EgoMem新基准上表现出色。

[49] A Review of Longitudinal Radiology Report Generation: Dataset Composition, Methods, and Performance Evaluation

Shaoyang Zhou,Yingshu Li,Yunyi Liu,Lingqiao Liu,Lei Wang,Luping Zhou

Main category: cs.CV

TL;DR: 这是关于纵向放射学报告生成(LRRG)的首个全面综述,特别关注胸部X光片,旨在解决传统单图像方法无法捕捉纵向临床背景的问题。

  • Motivation: 传统胸部X光报告生成方法依赖单张图像,无法提供临床所需的纵向比较信息。现有综述主要关注单图像方法,缺乏对纵向设置的系统指导。
  • Method: 系统回顾了数据集构建策略、报告生成架构的纵向定制设计,以及包含纵向特定指标和广泛基准的评估协议。
  • Result: 分析表明纵向信息和架构设计选择在提升模型性能中起关键作用,总结了不同消融研究的结果。
  • Conclusion: 总结了当前研究的五大主要局限,并概述了未来发展的有前景方向,为推进这一新兴领域奠定基础。

[50] MS-GAGA: Metric-Selective Guided Adversarial Generation Attack

Dion J. X. Ho,Gabriel Lee Jun Rong,Niharika Shrivastava,Harshavardhan Abichandani,Pai Chet Ng,Xiaoxiao Miao

Main category: cs.CV

TL;DR: MS-GAGA是一个两阶段框架,用于在黑盒设置下生成可迁移且视觉不可察觉的对抗样本攻击深度伪造检测器。

  • Motivation: 针对深度伪造检测器在黑盒环境下的防御,需要开发既能有效攻击又保持视觉质量的对抗样本生成方法。
  • Method: 第一阶段使用双流攻击模块:MNTD-PGD优化小扰动预算的梯度计算,SG-PGD聚焦于视觉显著区域的扰动;第二阶段通过度量感知选择模块评估候选样本的成功率和结构相似性。
  • Result: 相比最先进的攻击方法,MS-GAGA在未见检测器上实现了高达27%的更高误分类率。
  • Conclusion: MS-GAGA通过联合优化可迁移性和不可察觉性,有效提升了对抗样本在黑盒环境下的攻击效果。

[51] A Text-Image Fusion Method with Data Augmentation Capabilities for Referring Medical Image Segmentation

Shurong Chai,Rahul Kumar JAIN,Rui Xu,Shaocong Mo,Ruibo Hou,Shiyu Teng,Jiaqing Liu,Lanfen Lin,Yen-Wei Chen

Main category: cs.CV

TL;DR: 提出了一种早期融合框架,在数据增强前结合文本和视觉特征,保持空间一致性,解决多模态学习中文本引导图像分割的增强问题。

  • Motivation: 深度学习在医学影像中依赖数据增强,但传统增强方法会破坏图像与文本的空间对齐,影响多模态分割性能。
  • Method: 采用早期融合框架,在增强前融合文本和视觉特征;设计轻量级生成器将文本嵌入投影到视觉空间,弥合语义鸿沟。
  • Result: 在三个医学影像任务和四个分割框架上评估,达到最先进水平;可视化显示生成的伪图像能准确定位区域。
  • Conclusion: 提出的方法有效解决了多模态分割中的数据增强问题,代码已在GitHub开源。

[52] BSGS: Bi-stage 3D Gaussian Splatting for Camera Motion Deblurring

An Zhao,Piaopiao Yu,Zhe Zhu,Mingqiang Wei

Main category: cs.CV

TL;DR: 提出了一种双阶段3D高斯泼溅框架,用于从运动模糊图像中准确重建3D场景,解决了现有方法对相机位姿精度过度依赖和无法有效控制高斯基元错误密集化的问题。

  • Motivation: 现有3DGS去模糊方法性能受限,主要由于对相机位姿精度的极端依赖,以及无法有效控制运动模糊引起的高斯基元错误密集化。
  • Method: 包含两个阶段:相机位姿精化阶段粗略优化相机位姿以减少运动引起的失真;全局刚性变换阶段在固定粗略相机位姿下进一步校正运动模糊失真。采用子帧梯度聚合策略和时空双阶段优化策略。
  • Result: 综合实验验证了所提出去模糊方法的有效性,并显示出优于现有技术的性能。
  • Conclusion: BSGS框架能够有效解决运动模糊图像中的3D场景重建问题,通过双阶段优化策略显著提升了重建质量。

[53] Voronoi-Assisted Diffusion for Computing Unsigned Distance Fields from Unoriented Points

Jiayi Kong,Chen Zong,Junkai Deng,Xuhui Chen,Fei Hou,Shiqing Xin,Junhui Hou,Chen Qian,Ying He

Main category: cs.CV

TL;DR: 提出VAD方法,一种轻量级、无网络的UDF计算方法,通过Voronoi辅助扩散从无定向点云直接计算UDF

  • Motivation: 现有神经方法学习UDF存在数值不稳定、计算成本高和可控性有限的问题
  • Method: 使用Voronoi几何准则为输入点分配双向法向量,通过能量函数优化对齐,然后扩散法向量形成近似UDF梯度场,最后积分得到UDF
  • Result: VAD能够稳健处理水密和开放表面,以及复杂非流形和非定向几何,同时保持计算高效和稳定
  • Conclusion: VAD提供了一种计算高效且稳定的UDF计算方法,适用于各种复杂几何结构

[54] Unconditional Human Motion and Shape Generation via Balanced Score-Based Diffusion

David Björkstrand,Tiesheng Wang,Lars Bretzner,Josephine Sullivan

Main category: cs.CV

TL;DR: 提出了一种基于分数扩散模型的无条件人体运动生成方法,仅通过特征空间归一化和解析推导的损失权重,就能达到最先进水平,同时直接生成运动和形状。

  • Motivation: 现有方法依赖过度参数化的输入特征和辅助损失,但这些对于扩散模型匹配人体运动分布并非必需。
  • Method: 使用分数扩散模型,结合特征空间归一化和标准L2分数匹配损失的解析权重,直接生成运动和形状。
  • Result: 在无条件人体运动生成任务上达到了与最先进方法相当的结果,避免了缓慢的关节形状后处理。
  • Conclusion: 通过理论驱动的组件设计和针对性消融实验,验证了每个提议组件的有效性,展示了简洁方法的潜力。

[55] CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving

Xiaoji Zheng,Ziyuan Yang,Yanhao Chen,Yuhang Peng,Yuanrong Tang,Gengyuan Liu,Bokui Chen,Jiangtao Gong

Main category: cs.CV

TL;DR: 提出了CoIRL-AD框架,通过竞争机制结合模仿学习和强化学习,提升自动驾驶模型的泛化能力和性能。

  • Motivation: 端到端自动驾驶模型仅使用模仿学习泛化能力差,而强化学习存在样本效率低和收敛不稳定问题,需要结合两者优势。
  • Method: 提出竞争性双策略框架CoIRL-AD,让IL和RL智能体在训练中交互,通过竞争机制促进知识交换并避免梯度冲突。
  • Result: 在nuScenes数据集上实验显示,碰撞率比基线降低18%,在长尾场景中表现出更强的泛化能力和改进性能。
  • Conclusion: CoIRL-AD框架有效结合了IL和RL的优势,超越了传统的两阶段方法,显著提升了自动驾驶模型的性能。

[56] MMOT: The First Challenging Benchmark for Drone-based Multispectral Multi-Object Tracking

Tianhao Li,Tingfa Xu,Ying Wang,Haolin Qin,Xu Lin,Jianan Li

Main category: cs.CV

TL;DR: 提出了首个无人机多光谱多目标跟踪基准MMOT,包含125个视频序列和48.8万标注,并开发了光谱和方向感知的MOT方案,显著提升了小目标和密集场景的跟踪性能。

  • Motivation: 现有RGB跟踪算法依赖空间外观线索,在无人机视角下因小目标、严重遮挡和复杂背景而性能下降。多光谱图像提供光谱反射率信息,能增强目标区分能力,但缺乏专门的多光谱无人机数据集阻碍了该领域发展。
  • Method: 提出了多光谱和方向感知的MOT方案:1)轻量级光谱3D-Stem整合光谱特征并保持RGB预训练兼容性;2)方向感知卡尔曼滤波器进行精确状态估计;3)端到端方向自适应transformer。
  • Result: 在代表性跟踪器上的广泛实验表明,多光谱输入相比RGB基线显著提升了跟踪性能,特别是对小目标和密集排列的物体效果更明显。
  • Conclusion: MMOT基准和提出的方法将推动无人机多光谱多目标跟踪研究的发展,相关数据集、代码和基准已公开。

[57] Learning Human Motion with Temporally Conditional Mamba

Quang Nguyen,Tri Le,Baoru Huang,Minh Nhat Vu,Ngan Le,Thieu Vo,Anh Nguyen

Main category: cs.CV

TL;DR: 提出Temporally Conditional Mamba模型,通过将条件信息整合到Mamba块的循环动态中,解决现有方法在时间对齐方面的不足,显著提升运动生成的时间对齐性、真实性和条件一致性。

  • Motivation: 现有基于交叉注意力机制的方法主要捕获全局交互,难以保持逐步时间对齐,这限制了基于时间相关输入信号的人类运动生成效果。
  • Method: 引入基于Mamba的Temporally Conditional Mamba模型,将条件信息整合到Mamba块的循环动态中,实现更好的时间对齐运动生成。
  • Result: 在多种人类运动任务上的广泛实验表明,该方法在时间对齐、运动真实性和条件一致性方面显著优于现有最先进方法。
  • Conclusion: Temporally Conditional Mamba模型通过改进的条件整合机制,有效解决了人类运动生成中的时间对齐问题,为基于时间相关输入的运动生成提供了更好的解决方案。

[58] Unlocking Zero-Shot Plant Segmentation with Pl@ntNet Intelligence

Simon Ravé,Jean-Christophe Lombardo,Pejman Rasti,Alexis Joly,David Rousseau

Main category: cs.CV

TL;DR: 提出一种零样本农业图像分割方法,结合Plantnet植物分类模型、DinoV2骨干网络和SAM分割模型,无需新数据集标注即可实现植物区域分割。

  • Motivation: 解决农业图像分割中数据标注瓶颈问题,利用现有植物专用模型避免收集和标注新数据集的需求。
  • Method: 使用Plantnet的植物专用表示识别植物区域生成粗分割掩码,然后通过SAM进行精细化分割。比较了Plantnet微调的DinoV2与基础DinoV2模型的性能。
  • Result: 在四个不同复杂度的公开数据集上评估,Plantnet微调的DinoV2相比基础模型在Jaccard指数(IoU)上表现更优,特别是在训练数据有限和复杂田间条件下。
  • Conclusion: 结合基础模型与植物专用模型可以有效缓解标注瓶颈,在多样化农业场景中实现有效的分割。

[59] LayerSync: Self-aligning Intermediate Layers

Yasaman Haghighi,Bastien van Delft,Mariam Hassan,Alexandre Alahi

Main category: cs.CV

TL;DR: LayerSync是一种领域无关的方法,通过利用扩散模型自身中间表示的差异来提升生成质量和训练效率,无需外部监督或预训练模型。

  • Motivation: 现有研究表明扩散模型中间表示的质量与生成质量相关,但需要外部指导。本文旨在探索如何利用模型自身不同层表示质量的差异来实现内在指导。
  • Method: 通过正则化扩散模型与其自身中间表示,利用语义丰富的表示作为内在指导来帮助较弱的表示,无需外部监督或额外数据。
  • Result: 在图像生成上显著提升训练效率和生成质量,将基于流的transformer训练速度提升8.75倍,生成质量提升23.6%,并适用于音频、视频、运动等其他领域。
  • Conclusion: LayerSync是一种自给自足、即插即用的正则化方法,能有效提升扩散模型的训练效率和生成质量,且具有跨领域通用性。

[60] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

Jiachen Lei,Keli Liu,Julius Berner,Haiming Yu,Hongkai Zheng,Jiahong Wu,Xiangxiang Chu

Main category: cs.CV

TL;DR: 提出一种两阶段训练框架,显著缩小了像素空间生成模型与潜在空间模型之间的性能差距,在ImageNet上取得了SOTA结果。

  • Motivation: 像素空间生成模型通常比潜在空间模型更难训练且性能较差,存在持续的性能和效率差距。
  • Method: 两阶段训练:第一阶段预训练编码器从干净图像中捕获语义,并与确定性采样轨迹对齐;第二阶段将编码器与随机初始化解码器集成,端到端微调完整模型。
  • Result: 扩散模型在ImageNet-256上FID达2.04,ImageNet-512上FID达2.35,仅需75次函数评估;一致性模型在ImageNet-256上单步采样FID达8.82,显著超越潜在空间对应模型。
  • Conclusion: 该方法成功缩小了像素空间与潜在空间生成模型的性能差距,首次实现了无需预训练VAE或扩散模型的高分辨率图像一致性模型直接训练。

[61] Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space

Chao Chen,Zhixin Ma,Yongqi Li,Yupeng Hu,Yinwei Wei,Wenjie Li,Liqiang Nie

Main category: cs.CV

TL;DR: 提出IVT-LR方法,通过隐式视觉-文本潜在推理实现多模态推理,无需显式推理步骤标注,在提升准确率的同时大幅降低推理延迟

  • Motivation: 当前多模态推理方法依赖显式推理步骤,需要大量视觉-文本标注且推理延迟高,需要解决标注成本和推理效率问题
  • Method: IVT-LR方法在潜在空间中注入视觉和文本信息,每个推理步骤由潜在文本(前一步隐藏状态)和潜在视觉(选定图像嵌入)组成,采用渐进式多阶段训练策略
  • Result: 在M3CoT和ScienceQA数据集上,IVT-LR方法平均准确率提升5.45%,同时推理速度比现有方法快5倍以上
  • Conclusion: IVT-LR通过潜在空间推理有效解决了多模态推理中的标注成本和延迟问题,在保持性能的同时显著提升效率

[62] WaterFlow: Explicit Physics-Prior Rectified Flow for Underwater Saliency Mask Generation

Runting Li,Shijie Lian,Hua Li,Yutong Li,Wenhui Wu,Sam Kwong

Main category: cs.CV

TL;DR: 提出了WaterFlow框架,将水下物理成像信息作为显式先验融入网络训练,引入时间维度建模,显著提升水下显著性目标检测性能

  • Motivation: 现有方法忽视水下成像物理原理,或将水下图像退化现象简单视为干扰因素,未能充分利用其包含的有价值信息
  • Method: 基于整流流的框架,将水下物理成像信息作为显式先验直接融入网络训练过程,引入时间维度建模
  • Result: 在USOD10K数据集上,S_m指标提升0.072,证明了方法的有效性和优越性
  • Conclusion: WaterFlow框架通过融合水下物理成像先验和时间维度建模,显著提升了水下显著性目标检测能力

[63] Zero-Shot CFC: Fast Real-World Image Denoising based on Cross-Frequency Consistency

Yanlin Jiang,Yuchen Liu,Mingren Liu

Main category: cs.CV

TL;DR: 提出ZSCFC方法,一种基于跨频一致性的零样本去噪器,能够在单张噪声图像上进行训练和去噪,无需依赖噪声分布假设,在计算效率和去噪性能上优于现有方法。

  • Motivation: 现有零样本去噪方法训练时间长,且依赖噪声独立性和零均值假设,限制了在真实世界复杂噪声场景中的有效性。
  • Method: 利用图像纹理在不同频带间具有位置相似性和内容一致性的特性,而噪声不具备此特性,开发了跨频一致性损失和超轻量网络实现图像去噪。
  • Result: 在多个真实世界图像数据集上的实验表明,ZSCFC在计算效率和去噪性能上优于其他最先进的零样本方法。
  • Conclusion: ZSCFC方法通过跨频一致性实现了高效且有效的真实世界图像去噪,无需依赖噪声分布假设,具有更好的实用价值。

[64] On the Use of Hierarchical Vision Foundation Models for Low-Cost Human Mesh Recovery and Pose Estimation

Shuhei Tarashima,Yushan Wang,Norio Tagawa

Main category: cs.CV

TL;DR: 该研究开发了轻量级的人体网格恢复(HMR)和人体姿态估计(HPE)模型,通过利用分层视觉基础模型的早期阶段作为编码器,在保持性能的同时显著提升计算效率。

  • Motivation: 现有最先进的HMR方法依赖大型非分层视觉变换器作为编码器,计算成本高。研究发现分层视觉基础模型的中间阶段能产生与非分层模型相当或更高分辨率的特征图,这为构建更高效的模型提供了机会。
  • Method: 首先构建了三个轻量级HMR2.0变体作为基准,然后提出利用Swin Transformer、GroupMixFormer和VMamba等分层视觉基础模型的早期阶段作为编码器,仅使用前两或三个阶段。
  • Result: 评估了27个基于分层VFM的HMR和HPE模型,发现仅使用前两或三个阶段的模型性能与完整阶段模型相当,且在准确性和计算效率之间实现了更好的平衡。
  • Conclusion: 分层视觉基础模型的早期阶段可以作为高效的编码器,为人体网格恢复和姿态估计任务提供更好的准确性与计算效率权衡方案。

[65] TerraCodec: Compressing Earth Observations

Julen Costa-Watanabe,Isabelle Wittmann,Benedikt Blumenstiel,Konrad Schindler

Main category: cs.CV

TL;DR: TerraCodec (TEC) 是一个专门为地球观测数据设计的学习型压缩算法家族,包含图像变体和时序Transformer模型,通过潜在重打包技术实现灵活速率控制,在Sentinel-2数据上比传统编解码器压缩效率高3-10倍,并支持零样本云修复。

  • Motivation: 地球观测卫星产生大量多光谱图像时间序列数据,现有压缩方法存在存储传输挑战,学习型压缩缺乏公开预训练模型,图像编解码器忽略时间冗余,视频编解码器无法捕捉静态场景的辐射演化特征。
  • Method: 开发了TerraCodec系列,包括适应多光谱输入的高效图像变体,以及利用时间依赖性的时序Transformer模型(TEC-TT),提出潜在重打包方法训练灵活速率的Transformer模型。
  • Result: 在Sentinel-2数据上训练,TerraCodec比传统编解码器压缩效率高3-10倍,TEC-TT在AllClear基准测试中零样本云修复性能超越最先进方法。
  • Conclusion: 专门定制的学习型压缩算法是地球观测数据处理的可行方向,代码和模型权重将以宽松许可证发布。

[66] MCOP: Multi-UAV Collaborative Occupancy Prediction

Zefu Lin,Wenbo Chen,Xiaojuan Jin,Yuran Yang,Lue Fan,Yixin Zhang,Yufeng Zhang,Zhaoxiang Zhang

Main category: cs.CV

TL;DR: 提出了一种多无人机协作占用预测框架,通过空间感知特征编码和跨智能体特征集成来保留3D空间结构和语义信息,显著提升了协作感知性能并大幅降低了通信开销。

  • Motivation: 当前基于鸟瞰图的无人机群协作感知方法存在两个主要局限:边界框表示无法捕捉完整场景语义和几何信息,且在遇到未定义或被遮挡物体时性能显著下降。
  • Method: 提出多无人机协作占用预测框架,包含空间感知特征编码器、跨智能体特征集成、高度感知特征缩减和双掩码感知引导机制,以紧凑表示场景信息并减少通信开销。
  • Result: 实验结果表明,该方法在三个扩展数据集上实现了最先进的准确率,显著优于现有协作方法,同时将通信开销降低到先前方法的一小部分。
  • Conclusion: 该框架有效解决了无人机群协作感知中的语义和几何信息保留问题,在保持高性能的同时大幅降低了通信需求,为实际应用提供了可行解决方案。

[67] EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels

Kunyu Peng,Di Wen,Kailun Yang,Jia Fu,Yufan Chen,Ruiping Liu,Jiamin Wu,Junwei Zheng,M. Saquib Sarfraz,Luc Van Gool,Danda Pani Paudel,Rainer Stiefelhagen

Main category: cs.CV

TL;DR: 提出EReLiFM方法解决带噪声标签的开放集域泛化问题,通过证据可靠性感知的残差流元学习提升模型在噪声标签下的泛化能力

  • Motivation: 现实应用中标签噪声会破坏源域知识,使模型难以识别已知类别和拒绝未知类别。现有方法在有限干净标签数据下难以弥合域间差距
  • Method: 使用无监督两阶段证据损失聚类提升标签可靠性感知,提出残差流匹配机制建模结构化的域和类别条件残差,在元学习过程中通过干净集更新方向最大化噪声集损失减少
  • Result: 实验结果表明EReLiFM在OSDG-NL任务上优于现有方法,达到最先进性能
  • Conclusion: EReLiFM通过证据可靠性感知和残差流元学习有效解决了带噪声标签的开放集域泛化问题

[68] Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shelley Zixin Shu,Haozhe Luo,Alexander Poellinger,Mauricio Reyes

Main category: cs.CV

TL;DR: 提出混合解释引导学习框架H-EGL,结合自监督和人工引导约束来增强注意力对齐,提高医学影像分类的泛化能力。

  • Motivation: Transformer模型在医学影像中表现优异,但容易学习虚假相关性导致偏见和泛化能力有限。人类-AI注意力对齐可以缓解这些问题,但通常依赖昂贵的人工监督。
  • Method: H-EGL框架结合自监督和人工引导约束,自监督组件利用类别区分性注意力而不依赖限制性先验,促进鲁棒性和灵活性。使用Vision Transformer在胸部X光分类上验证。
  • Result: H-EGL在胸部X光分类上优于两种最先进的解释引导学习方法,展现出更优的分类准确率和泛化能力,产生的注意力图与人类专业知识更一致。
  • Conclusion: H-EGL框架通过结合自监督和人工引导约束,有效提升了注意力对齐和模型泛化能力,在医学影像分类任务中表现出色。

[69] Beyond Seeing: Evaluating Multimodal LLMs on Tool-Enabled Image Perception, Transformation, and Reasoning

Xingang Guo,Utkarsh Tyagi,Advait Gosai,Paula Vergara,Ernesto Gabriel Hernández Montoya,Chen Bo Calvin Zhang,Bin Hu,Yunzhong He,Bing Liu,Rakshith Sharma Srinivasa

Main category: cs.CV

TL;DR: IRIS是一个评估多模态大语言模型在"与图像一起思考"范式下交互推理能力的基准,包含1,204个跨5个领域的视觉任务,显示当前模型在整合视觉和通用工具方面表现不佳。

  • Motivation: 现有基准主要遵循"关于图像思考"范式,将图像视为静态输入,而现实场景中用户提供的图像往往不完美,需要主动的图像操作来发现关键视觉线索。
  • Method: 引入IRIS基准,包含603个单轮和601个多轮任务,涵盖5个不同领域,每个任务配有详细评分标准,系统评估MLLMs在"与图像一起思考"范式下的感知、转换和推理能力。
  • Result: 当前MLLMs在需要有效整合视觉和通用工具的任务上表现困难,最强模型GPT-5-think仅达到18.68%通过率。不同模型表现出不同的工具使用行为。
  • Conclusion: IRIS作为首个专注于"与图像一起思考"的基准,为推进MLLMs的视觉智能提供了关键见解。

[70] Personalized Federated Fine-Tuning of Vision Foundation Models for Healthcare

Adam Tupper,Christian Gagné

Main category: cs.CV

TL;DR: 提出一种新的个性化联邦微调方法,通过正交LoRA适配器分离通用知识和客户端特定知识,使各客户端能充分利用自身和其他客户端数据。

  • Motivation: 基础模型在医疗AI中应用面临数据共享限制和隐私保护问题,联邦学习可解决此问题但需要更好的个性化微调方法。
  • Method: 使用正交LoRA适配器来解耦通用知识和客户端特定知识,在联邦学习框架下进行个性化微调。
  • Result: 在真实世界联邦医学影像任务上的初步结果显示,该方法与当前联邦微调方法相比具有竞争力。
  • Conclusion: 所提出的个性化联邦微调方法能有效利用多方数据,同时保护患者隐私,在医疗AI应用中具有潜力。

[71] FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

Junhao Zhuang,Shi Guo,Xin Cai,Xiaohui Li,Yihao Liu,Chun Yuan,Tianfan Xue

Main category: cs.CV

TL;DR: FlashVSR是首个基于扩散模型的实时视频超分辨率框架,通过三阶段蒸馏、稀疏注意力和轻量解码器实现17 FPS的高效处理,在A100 GPU上支持768x1408视频。

  • Motivation: 解决扩散模型在视频超分辨率中面临的高延迟、高计算成本和超高分辨率泛化能力差的问题,使基于扩散的VSR变得实用。
  • Method: 提出三阶段蒸馏管道实现流式超分辨率,使用局部约束稀疏注意力减少冗余计算,设计微型条件解码器加速重建,并构建包含12万视频和18万图像的大规模数据集VSR-120K。
  • Result: FlashVSR在超高分辨率下可靠扩展,达到最先进性能,比之前的一步扩散VSR模型快12倍,在A100 GPU上实现约17 FPS的处理速度。
  • Conclusion: FlashVSR通过效率、可扩展性和实时性能使基于扩散的视频超分辨率变得实用,将为高效扩散VSR的未来研究提供支持。

[72] SPORTS: Simultaneous Panoptic Odometry, Rendering, Tracking and Segmentation for Urban Scenes Understanding

Zhiliu Yang,Jinyu Dai,Jianyuan Zhang,Zhu Yang

Main category: cs.CV

TL;DR: SPORTS框架通过整合视频全景分割、视觉里程计和场景渲染任务,解决了场景感知中的分割缺陷、动态物体干扰、数据稀疏性和视角限制问题。

  • Motivation: 现有场景感知解决方案存在分割缺陷、动态物体干扰、传感器数据稀疏和视角限制等问题,需要更全面的场景理解方法。
  • Method: 提出SPORTS框架,集成VPS、VO和SR任务:VPS使用自适应注意力几何融合机制对齐跨帧特征;VO结合全景分割结果和光流图改进动态物体置信度估计;SR利用VO结果将稀疏点云转换为神经场进行渲染。
  • Result: 在三个公开数据集上的实验表明,该方法在里程计、跟踪、分割和新视角合成任务上优于现有最先进方法。
  • Conclusion: SPORTS框架通过任务间的紧密集成实现了更全面的场景理解,在多个任务上取得了优越性能。

[73] VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage

A. Alfarano,L. Venturoli,D. Negueruela del Castillo

Main category: cs.CV

TL;DR: VQArt-Bench是一个新的文化遗产领域视觉问答基准,通过多智能体管道生成复杂语义问题,评估多模态大语言模型在艺术分析中的深层视觉理解能力。

  • Motivation: 现有VQA基准缺乏对深层语义理解的评估,特别是在视觉艺术分析等复杂领域,问题局限于简单句法结构和表面属性,导致模型利用统计捷径而非进行视觉推理。
  • Method: 使用新颖的多智能体管道,让专门化智能体协作生成经过验证的、语言多样化的复杂问题,构建基于相关视觉理解维度的基准。
  • Result: 对14个最先进MLLM的评估显示当前模型存在显著局限性,包括简单计数任务的意外弱点,以及专有模型与开源模型之间的明显性能差距。
  • Conclusion: VQArt-Bench揭示了当前多模态大语言模型在复杂视觉理解任务中的不足,强调了开发更强大视觉推理能力的必要性。

[74] E-MoFlow: Learning Egomotion and Optical Flow from Event Data via Implicit Regularization

Wenpu Li,Bangyan Liao,Yi Zhou,Qi Xu,Pian Wan,Peidong Liu

Main category: cs.CV

TL;DR: 提出E-MoFlow框架,通过隐式时空和几何正则化联合优化事件相机的自运动和光流估计,无需监督即可实现最先进性能。

  • Motivation: 传统方法将光流和6-DoF自运动估计分开处理,对于事件相机来说由于缺乏鲁棒的数据关联而成为不适定问题。现有方法存在偏差、计算开销大或容易陷入局部最优的问题。
  • Method: 将相机自运动建模为连续样条,光流建模为隐式神经表示,通过归纳偏置嵌入时空一致性;引入微分几何约束整合结构和运动先验,避免显式深度估计。
  • Result: 在6-DoF运动场景中表现出色,在无监督方法中达到最先进水平,甚至可与有监督方法竞争。
  • Conclusion: E-MoFlow通过隐式正则化在无监督范式下统一了自运动和光流估计,解决了事件相机中的不适定问题。

[75] PET Head Motion Estimation Using Supervised Deep Learning with Attention

Zhuotong Cai,Tianyi Zeng,Jiazhen Zhang,Eléonore V. Lieffrig,Kathryn Fontaine,Chenyu You,Enette Mae Revilla,James S. Duncan,Jingmin Xin,Yihuan Lu,John A. Onofrey

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的头部运动校正方法DL-HMC++,通过交叉注意力机制从1秒3D PET原始数据预测刚性头部运动,无需外部硬件跟踪设备,在多种PET扫描仪和放射性示踪剂上表现优异。

  • Motivation: 头部运动在脑部PET成像中会造成图像伪影和示踪剂摄取定量不准确,而基于硬件的运动跟踪在临床实践中适用性有限,需要开发数据驱动的运动校正方法。
  • Method: 使用交叉注意力机制的深度学习模型DL-HMC++,通过监督学习利用现有动态PET扫描和外部硬件运动跟踪的黄金标准数据进行训练,从1秒3D PET原始数据预测刚性头部运动。
  • Result: 在HRRT和mCT两种PET扫描仪及四种放射性示踪剂上的评估显示,DL-HMC++优于现有数据驱动运动估计方法,产生的无运动图像与黄金标准HMT难以区分,脑区标准摄取值分析显示平均差异比HRRT为1.2±0.5%,mCT为0.5±0.2%。
  • Conclusion: DL-HMC++展示了数据驱动PET头部运动校正的潜力,能够消除硬件运动跟踪的负担,使运动校正技术能够在研究环境之外的临床人群中推广应用。

[76] AnyUp: Universal Feature Upsampling

Thomas Wimmer,Prune Truong,Marie-Julie Rakotosaona,Michael Oechsle,Federico Tombari,Bernt Schiele,Jan Eric Lenssen

Main category: cs.CV

TL;DR: AnyUp是一种无需特定编码器训练的特征上采样方法,可应用于任何视觉特征和分辨率,实现跨特征类型的通用上采样。

  • Motivation: 解决现有基于学习的特征上采样方法需要为每个特征提取器重新训练的问题,这些方法在推理时无法泛化到不同的特征类型。
  • Method: 提出一种推理时特征无关的上采样架构,无需编码器特定训练,适用于各种视觉特征。
  • Result: 实验表明AnyUp在特征上采样方面达到新的最先进水平,能够泛化到不同特征类型,保持特征语义,且高效易用于下游任务。
  • Conclusion: AnyUp提供了一种通用、高效的特征上采样解决方案,突破了现有方法对特定特征类型的依赖限制。

[77] Efficient Perceptual Image Super Resolution: AIM 2025 Study and Benchmark

Bruno Longarela,Marcos V. Conde,Alvaro Garcia,Radu Timofte

Main category: cs.CV

TL;DR: 本文提出了高效感知超分辨率(EPSR)的全面研究和基准测试,旨在在严格效率约束下(5M参数、2000 GFLOPs)实现或超越Real-ESRGAN的感知质量,并在新的4K测试数据集上取得了优于Real-ESRGAN的性能。

  • Motivation: 虽然高效PSNR导向的超分辨率取得了显著进展,但专注于感知质量的方法仍然相对低效,这促使研究者填补这一空白。
  • Method: 在严格效率约束下(最多5M参数和2000 GFLOPs)开发高效感知超分辨率方法,并使用包含500张4K测试图像的新数据集进行评估,这些图像经过多种退化处理且不提供原始高质量对应图像。
  • Result: 最佳方法在所有基准数据集上都超越了Real-ESRGAN,证明了高效方法在感知领域的潜力。
  • Conclusion: 本文为高效感知超分辨率建立了现代基准,展示了在严格效率约束下实现优越感知质量的可能性。

[78] Uncertainty Matters in Dynamic Gaussian Splatting for Monocular 4D Reconstruction

Fengzhi Guo,Chih-Chuan Hsu,Sihao Ding,Cheng Zhang

Main category: cs.CV

TL;DR: USplat4D是一个不确定性感知的动态高斯泼溅框架,通过估计每个高斯的时间变化不确定性并构建时空图进行优化,解决了动态3D场景重建中的遮挡和极端视角问题。

  • Motivation: 传统的动态高斯泼溅模型对所有高斯基元进行统一优化,忽略了它们被观测质量的好坏,导致在遮挡情况下出现运动漂移,以及在未见视角下合成质量下降。
  • Method: 提出估计每个高斯基元的时间变化不确定性,并利用这些不确定性构建时空图进行不确定性感知优化,将可靠的运动线索传播到整个场景。
  • Result: 在多个真实和合成数据集上的实验表明,显式建模不确定性能够持续改进动态高斯泼溅模型,在遮挡下产生更稳定的几何结构,在极端视角下实现高质量的合成。
  • Conclusion: 不确定性建模对于动态高斯泼溅至关重要,USplat4D框架通过不确定性感知优化有效提升了4D重建的质量和稳定性。

[79] What If : Understanding Motion Through Sparse Interactions

Stefan Andreas Baumann,Nick Stracke,Timy Phan,Björn Ommer

Main category: cs.CV

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[80] SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

Weiyang Jin,Yuwei Niu,Jiaqi Liao,Chengqi Duan,Aoxue Li,Shenghua Gao,Xihui Liu

Main category: cs.CV

TL;DR: SRUM是一个自奖励后训练框架,通过让统一多模态模型的理解模块作为内部评估器来改进生成模块,无需额外人工标注数据。

  • Motivation: 现有统一多模态模型存在视觉理解与视觉生成能力不匹配的问题,模型能正确理解图像却无法从文本提示生成忠实图像。
  • Method: 设计了全局-局部双奖励系统:全局奖励确保整体视觉语义和布局的正确性,局部奖励细化细粒度的对象级保真度。
  • Result: 在T2I-CompBench上从82.18提升到88.37,在T2I-ReasonBench上从43.82提升到46.75。
  • Conclusion: 建立了一个强大的新范式,使统一多模态模型能够通过自奖励实现理解模块对生成模块的引导和增强。

[81] MVP4D: Multi-View Portrait Video Diffusion for Animatable 4D Avatars

Felix Taubner,Ruihang Zhang,Mathieu Tuli,Sherwin Bahmani,David B. Lindell

Main category: cs.CV

TL;DR: MVP4D模型基于预训练视频扩散模型,从单张参考图像生成360度多视角可动画化数字人视频,并提炼为可实时渲染的4D虚拟形象,显著提升了真实感、时间一致性和3D一致性。

  • Motivation: 传统创建和动画化逼真人像虚拟形象的过程昂贵耗时,而现有单图像生成方法缺乏多视角约束,在偏离参考视角时质量下降。
  • Method: 基于预训练视频扩散模型,从单张参考图像和目标表情生成多视角视频,可同时生成数百帧360度环绕视角内容,并提炼为4D虚拟形象。
  • Result: 相比先前方法,显著提高了生成虚拟形象的真实感、时间一致性和3D一致性,支持实时渲染。
  • Conclusion: MVP4D方法通过多视角视频生成和4D虚拟形象提炼,有效解决了单图像生成方法的视角偏差问题,为数字人虚拟形象创建提供了更实用的解决方案。

[82] Efficient Real-World Deblurring using Single Images: AIM 2025 Challenge Report

Daniel Feijoo,Paula Garrido-Mellado,Marcos V. Conde,Jaesung Rim,Alvaro Garcia,Sunghyun Cho,Radu Timofte

Main category: cs.CV

TL;DR: AIM 2025高效真实世界去模糊挑战赛回顾,基于RSBlur数据集,要求参赛方案参数少于500万且计算量低于200 GMACs,最终4个团队提交有效方案,最佳方案PSNR达31.1298 dB。

  • Motivation: 推动高效真实世界图像去模糊技术的发展,解决实际应用中计算资源受限的问题。
  • Method: 基于RSBlur数据集的双摄像头系统采集模糊和退化图像对,参赛者需开发满足严格效率约束的去模糊算法。
  • Result: 71名参与者注册,4个团队提交有效方案,最佳方案PSNR为31.1298 dB,展示了高效方法在该领域的潜力。
  • Conclusion: 该挑战赛为高效真实世界图像去模糊研究提供了有价值的参考,证明了在严格效率约束下仍能实现良好的去模糊效果。

[83] UniFusion: Vision-Language Model as Unified Encoder in Image Generation

Kevin Li,Manuel Brack,Sudeep Katakol,Hareesh Ravi,Ajinkya Kale

Main category: cs.CV

TL;DR: UniFusion是一个基于扩散的生成模型,使用冻结的大型视觉语言模型作为统一多模态编码器,通过Layerwise Attention Pooling机制提取文本和视觉token的语义和细节信息,并提出了VERIFI方法增强推理能力。

  • Motivation: 现有架构通常使用独立的图像和文本编码器,限制了跨模态推理和知识转移能力。之前的方法要么使用VLM的最后一层信息,要么需要多个视觉编码器或联合训练大型统一模型,计算成本高且可访问性有限。
  • Method: 使用冻结的VLM作为统一多模态编码器,提出Layerwise Attention Pooling机制提取多层级信息,并开发VERIFI方法通过VLM的文本token进行条件化,结合推理能力增强灵活性。
  • Result: LAP在文本-图像对齐方面优于其他浅层融合架构,能够忠实传递视觉信息用于编辑。在单图像编辑任务上微调后,模型零样本泛化到多图像参考,展示了强大的泛化能力。
  • Conclusion: UniFusion的统一编码器设计有效促进了跨模态知识转移,展示了强大的泛化能力,为多模态生成模型提供了高效且灵活的解决方案。

[84] ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

Long Cui,Weiyun Wang,Jie Shao,Zichen Wen,Gen Luo,Linfeng Zhang,Yanting Zhang,Yu Qiao,Wenhai Wang

Main category: cs.CV

TL;DR: ViCO是一种训练算法,通过视觉一致性学习使多模态大语言模型能够根据图像语义复杂度动态调整视觉token数量,减少推理成本。

  • Motivation: 现有MLLMs由于图像输入引入的额外视觉token导致推理成本增加,需要一种能根据语义复杂度动态调整视觉token数量的方法。
  • Method: 使用多个不同压缩比的MLP连接器对视觉token进行下采样,训练时最小化不同MLP连接器响应的KL散度,推理时通过视觉分辨率路由器自动选择适合的压缩率。
  • Result: 实验结果表明该方法能将视觉token数量减少高达50%,同时保持模型的感知、推理和OCR能力。
  • Conclusion: 这项工作有助于开发更高效的MLLMs,代码和模型将发布以促进未来研究。

[85] CuMPerLay: Learning Cubical Multiparameter Persistence Vectorizations

Caner Korkmaz,Brighton Nuwagira,Barış Coşkunuzer,Tolga Birdal

Main category: cs.CV

TL;DR: CuMPerLay是一个可微分的向量化层,将立方多参数持久性(CMP)集成到深度学习管道中,通过分解CMP为可学习的单参数持久性组合,增强图像分类和分割性能。

  • Motivation: 立方多参数持久性(CMP)为图像拓扑分析提供了强大工具,但由于多过滤结构的复杂性和CMP向量化的困难,其应用受到限制。
  • Method: 提出新算法向量化立方复形的多参数同调,将CMP分解为可学习的单参数持久性组合,联合学习双过滤函数,实现可微分性。
  • Result: 在医学影像和计算机视觉基准数据集上的实验表明,CuMPerLay提升了分类和分割性能,特别是在数据有限的情况下效果显著。
  • Conclusion: CuMPerLay为将全局结构信息集成到深度网络中提供了有前景的方向,适用于结构化图像分析。

[86] DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving

Yingyan Li,Shuyao Shang,Weisong Liu,Bing Zhan,Haochen Wang,Yuqi Wang,Yuntao Chen,Xiaoman Wang,Yasong An,Chufeng Tang,Lu Hou,Lue Fan,Zhaoxiang Zhang

Main category: cs.CV

TL;DR: DriveVLA-W0通过世界建模预测未来图像来解决视觉-语言-动作模型的监督不足问题,显著提升了驾驶智能性能,并在大规模数据集上表现出色。

  • Motivation: 视觉-语言-动作模型存在监督不足问题:模型容量巨大但仅由稀疏的低维动作监督,导致表示能力未被充分利用。
  • Method: 提出DriveVLA-W0训练范式,使用世界建模预测未来图像,生成密集的自监督信号。为两种主要VLA架构分别实现:自回归世界模型(用于离散视觉标记)和扩散世界模型(用于连续视觉特征)。
  • Result: 在NAVSIM v1/v2基准测试和680倍更大的内部数据集上,DriveVLA-W0显著优于BEV和VLA基线方法,并放大了数据缩放定律。
  • Conclusion: 世界建模是解决VLA模型监督不足的有效方法,能够学习驾驶环境的底层动态,性能提升随着训练数据集增大而加速。

[87] Detect Anything via Next Point Prediction

Qing Jiang,Junan Huo,Xingyu Chen,Yuda Xiong,Zhaoyang Zeng,Yihao Chen,Tianhe Ren,Junzhi Yu,Lei Zhang

Main category: cs.CV

TL;DR: Rex-Omni是一个3B规模的MLLM,通过特殊任务设计、数据引擎和两阶段训练流程,在零样本设置下实现了与回归模型相当的物体检测性能,并具备多种视觉感知能力。

  • Motivation: 现有MLLM在物体检测任务中面临召回率低、重复预测、坐标不对齐等问题,而传统回归模型缺乏语言理解能力。需要弥合这一差距。
  • Method: 1) 使用特殊token表示量化坐标;2) 构建多数据引擎生成高质量标注数据;3) 采用两阶段训练:2200万数据的监督微调 + 基于GRPO的强化学习后训练,使用几何感知奖励。
  • Result: 在COCO和LVIS基准测试中,Rex-Omni在零样本设置下达到或超过了DINO、Grounding DINO等回归模型的性能。
  • Conclusion: Rex-Omni为更通用和语言感知的视觉感知系统铺平了道路,具备物体指代、指向、视觉提示、GUI定位、空间指代、OCR和关键点检测等多样化能力。

Kartik Narayan,Yang Xu,Tian Cao,Kavya Nerella,Vishal M. Patel,Navid Shiee,Peter Grasch,Chao Jia,Yinfei Yang,Zhe Gan

Main category: cs.CV

TL;DR: DeepMMSearch-R1是首个能够按需进行多轮网络搜索的多模态大语言模型,能够动态构建图像和文本搜索查询,通过两阶段训练提升搜索效率和效果。

  • Motivation: 现有方法存在流程僵化、搜索调用过多、查询构建不佳等问题,导致效率低下和结果不理想。需要开发能够动态适应现实世界变化信息的多模态搜索模型。
  • Method: 采用两阶段训练:监督微调冷启动阶段和在线强化学习优化。创建DeepMMSearchVQA数据集,包含多样化的多跳查询,教导模型何时搜索、搜索什么、使用哪种搜索工具以及如何推理检索信息。
  • Result: 在多个知识密集型基准测试中进行了广泛实验,证明了该方法的优越性。
  • Conclusion: 该方法显著提升了多模态网络搜索能力,为推进多模态网络搜索提供了有价值的见解。

cs.GR

[89] GS-Verse: Mesh-based Gaussian Splatting for Physics-aware Interaction in Virtual Reality

Anastasiya Pechko,Piotr Borycki,Joanna Waczyńska,Daniel Barczyk,Agata Szymańska,Sławomir Tadeja,Przemysław Spurek

Main category: cs.GR

TL;DR: 提出了一种将3D网格与高斯泼溅表示直接集成的新方法,用于VR环境中的物理感知3D内容交互和编辑,相比现有方法在物理准确性、视觉保真度和交互体验方面有显著提升。

  • Motivation: 当前VR中物理操作3D内容的技术存在工程密集、几何表示简化等问题,导致视觉保真度和物理准确性受损。需要更直观高效的交互方法来满足沉浸式3D内容的需求。
  • Method: 通过将物体网格与高斯泼溅表示直接集成,实现更精确的表面近似。利用现有3D网格资产,支持无缝内容重用,采用物理引擎无关的设计提供部署灵活性。
  • Result: 用户研究表明,在物理感知拉伸操作方面统计显著优于现有技术,在扭曲和摇晃等其他物理操作中表现更一致。在各种交互和场景中都能提供高且可靠的性能。
  • Conclusion: 该方法为交互式3D操作提供了高度逼真、适应性强且直观的解决方案,有潜力成为现有方法的可行替代方案。

q-bio.NC

[90] MAPS: Masked Attribution-based Probing of Strategies- A computational framework to align human and model explanations

Sabine Muzellec,Yousif Kashef Alghetaa,Simon Kornblith,Kohitij Kar

Main category: q-bio.NC

TL;DR: MAPS是一种通过将神经网络归因图转换为解释掩蔽图像来评估解释方法行为有效性的计算工具,能够在有限像素预算下比较人类与模型策略的相似性。

  • Motivation: 人类视觉识别依赖于选择性使用视觉信息,但直接测量这些策略选择很困难。需要一种能够验证神经网络解释方法是否也能解释人类视觉的工具。
  • Method: MAPS将归因图转换为解释掩蔽图像(EMIs),在有限像素预算下比较人类在这些最小图像上的准确率与完整刺激上的准确率,为评估竞争性ANN可解释性方法提供原则性方式。
  • Result: 在计算机模拟中,基于EMI的行为相似性可靠地恢复了从归因图计算的地面真实相似性。应用于人类和猕猴时,MAPS识别出与生物视觉最一致的ANN-解释组合,在达到Bubble掩码行为有效性的同时需要更少的行为试验。
  • Conclusion: MAPS避免了详尽的心理物理学测试,提供了一个可扩展的工具,用于裁决解释方法并在共同标准下连接人类行为、神经活动和模型决策。

cs.SD

[91] SeeingSounds: Learning Audio-to-Visual Alignment via Text

Simone Carnemolla,Matteo Pennisi,Chiara Russo,Simone Palazzo,Daniela Giordano,Concetto Spampinato

Main category: cs.SD

TL;DR: SeeingSounds是一个轻量级模块化音频到图像生成框架,通过双对齐机制将音频投射到语义语言空间和视觉领域,无需配对音频-视觉数据或视觉生成模型训练。

  • Motivation: 受认知神经科学启发,反映人类感知中自然跨模态关联,避免将音频仅视为文本替代品或仅依赖音频到文本映射。
  • Method: 使用冻结语言编码器将音频投射到语义语言空间,通过视觉语言模型上下文接地到视觉领域,在冻结扩散骨干上仅训练轻量级适配器,支持通过程序化文本提示生成进行细粒度控制。
  • Result: 在标准基准测试中,SeeingSounds在零样本和监督设置下均优于现有方法,在可控音频到视觉生成方面达到新的最先进水平。
  • Conclusion: 该框架建立了音频到图像生成的新范式,通过双对齐机制实现了高效、可扩展且可解释的跨模态生成。

[92] Audio-Guided Visual Perception for Audio-Visual Navigation

Yi Wang,Yinfeng Yu,Fuchun Sun,Liejun Wang,Wendong Zheng

Main category: cs.SD

TL;DR: AGVP框架通过音频-视觉跨模态对齐机制,将声音从策略记忆的声学指纹线索转化为空间引导,提升音频-视觉具身导航在未听过声音和未见环境中的泛化能力。

  • Motivation: 现有AVN方法在分布内声源上表现良好,但在遇到未听过声音或未见环境时导航成功率急剧下降,搜索路径过长。这是因为缺乏听觉信号与对应视觉区域的显式对齐机制,策略倾向于记忆虚假的"声学指纹-场景"相关性。
  • Method: 提出AGVP框架:首先通过音频自注意力提取全局听觉上下文,然后将其作为查询来引导视觉特征注意力,在特征层面突出声源相关区域,随后进行时序建模和策略优化。
  • Result: 实验结果表明AGVP提高了导航效率和鲁棒性,在未听过声音上实现了优越的跨场景泛化性能。
  • Conclusion: 基于可解释的跨模态对齐和区域重加权设计,AGVP减少了对特定声学指纹的依赖,显著提升了音频-视觉具身导航的泛化能力。

cs.RO

[93] Gaussian Semantic Field for One-shot LiDAR Global Localization

Pengyu Yin,Shenghai Yuan,Haozhi Cao,Xingyu Ji,Ruofei Bai,Siyu Chen,Lihua Xie

Main category: cs.RO

TL;DR: 提出了一种基于轻量级三层场景图的单次LiDAR全局定位算法,通过高斯过程学习语义分布的连续函数来解决地标重复性问题。

  • Motivation: 传统基于地标语义配准的方法在地标重复时会导致配准错误,需要更精细的语义分布建模来提升全局定位性能。
  • Method: 使用高斯过程学习语义分布的连续函数,构建包含对象层、连续语义层和度量语义层的三层3D场景图,作为轻量级定位后端。
  • Result: 在公开数据集上的广泛实验验证了该方法相比当前最先进方法的优越性能。
  • Conclusion: 提出的Outram-GSF框架通过连续语义场建模有效解决了地标重复性问题,实现了高性能的单次LiDAR全局定位。

[94] Fast Visuomotor Policy for Robotic Manipulation

Jingkai Jia,Tong Yang,Xueyao Chen,Chenhuan Liu,Wenqiang Zhang

Main category: cs.RO

TL;DR: 提出了一种名为Energy Policy的快速有效机器人操作策略框架,专为高频机器人任务和资源受限系统设计,能够单次前向传播预测多模态动作,实现高速高精度操作。

  • Motivation: 现有机器人策略无法在保持高性能的同时实现高效计算,特别是在高频任务和资源受限系统中需要快速响应的场景。
  • Method: 基于两个核心组件:1) 采用能量分数作为学习目标以促进多模态动作建模;2) 引入能量MLP来实现该目标,同时保持架构简单高效。
  • Result: 在模拟环境和真实机器人任务中的实验表明,Energy Policy在性能上匹配或超越最先进的操作方法,同时显著降低计算开销。在MimicGen基准测试中,以更快的推理速度实现了更优性能。
  • Conclusion: Energy Policy是一个高效的多模态动作预测框架,能够在保持高性能的同时显著减少计算需求,适用于高频机器人操作任务。

cs.CL

[95] VISaGE: Understanding Visual Generics and Exceptions

Stella Frank,Emily Allaway

Main category: cs.CL

TL;DR: VLMs在评估非典型实例时面临语用先验和语义先验的权衡问题,当输入图像与文本不一致时,概念理解会下降。

  • Motivation: 研究VLMs在处理典型和非典型图像时如何权衡语用先验(输入相关性)和语义先验(概念通用性)。
  • Method: 引入VISaGE评估数据集,包含典型和异常图像,通过平衡实验分析VLMs的权衡行为。
  • Result: 当图像与文本不一致时,概念理解显著下降,语用先验的影响强于语义先验。
  • Conclusion: VLMs在处理非典型实例时更依赖语用先验,这限制了它们在异常情况下的概念理解能力。

[96] Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

Ziyang Ma,Ruiyang Xu,Zhenghao Xing,Yunfei Chu,Yuxuan Wang,Jinzheng He,Jin Xu,Pheng-Ann Heng,Kai Yu,Junyang Lin,Eng Siong Chng,Xie Chen

Main category: cs.CL

TL;DR: 本文提出了Omni-Detective数据生成管道和Omni-Cloze评估基准,用于提升全模态语言模型在音频-视觉细粒度感知方面的能力。

  • Motivation: 当前全模态语言模型在捕捉和描述细粒度细节方面能力有限,且存在细节与幻觉共增长的问题,需要系统性的解决方案。
  • Method: 1. 提出Omni-Detective代理数据生成管道,集成工具调用来自主生成高质量多模态数据;2. 基于生成数据训练Audio-Captioner和Omni-Captioner模型;3. 设计Omni-Cloze填空式评估基准。
  • Result: Audio-Captioner在MMAU和MMAR上超越所有开源模型,性能媲美Gemini 2.5 Pro;Omni-Captioner在VDC上达到SOTA,在video-SALMONN 2上实现细节与幻觉的最佳平衡。
  • Conclusion: Omni-Detective能有效生成高质量细粒度描述,Omni-Cloze为全模态细粒度感知提供了稳定可靠的评估方法。

cs.IR

[97] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

Lin Lin,Jiefeng Long,Zhihe Wan,Yuchi Wang,Dingkang Yang,Shuang Yang,Yueyang Yao,Xu Chen,Zirui Guo,Shengqiang Li,Weiran Li,Hanyu Li,Yaling Mou,Yan Qiu,Haiyang Yu,Xiao Liang,Hongsheng Li,Chao Feng

Main category: cs.IR

TL;DR: SAIL-Embedding是一个全模态嵌入基础模型,通过多阶段训练策略和架构设计解决多模态嵌入在现实应用中的挑战,在检索任务中达到SOTA性能,并在推荐场景中显著提升用户体验指标。

  • Motivation: 解决现有多模态嵌入模型在现实应用中的局限性,包括模态支持有限、训练机制不稳定和工业领域差距等问题。
  • Method: 提出多阶段训练方案:内容感知渐进训练增强模型对下游任务的适应性;协作感知推荐增强训练通过知识蒸馏和用户历史兴趣挖掘来适应推荐场景;同时开发随机专业化和数据集驱动模式匹配来增强训练灵活性和泛化性。
  • Result: 在不同检索任务中达到SOTA性能;在抖音精选场景中7天LT增益+0.158%,14天LT增益+0.144%;在抖音feed排序模型中AUC增益+0.08%。
  • Conclusion: SAIL-Embedding通过精心设计的训练策略有效解决了多模态嵌入在工业应用中的关键挑战,在多个现实场景中显著提升了推荐系统的性能指标。

cs.LG

[98] MosaicDiff: Training-free Structural Pruning for Diffusion Model Acceleration Reflecting Pretraining Dynamics

Bowei Guo,Shengkun Tang,Cong Zeng,Zhiqiang Shen

Main category: cs.LG

TL;DR: 提出了MosaicDiff框架,通过轨迹感知的结构剪枝将扩散模型的预训练动态与后训练采样加速对齐,实现高效的无训练加速。

  • Motivation: 扩散模型的预训练过程存在不同的学习速度阶段,但之前的后训练加速方法完全忽视了这一点。
  • Method: 采用自适应剪枝机制,根据预训练不同阶段的学习速度进行不同程度的剪枝:中间快速学习阶段保守剪枝,早期和后期慢速学习阶段激进剪枝。
  • Result: 在DiT和SDXL上的实验表明,该方法在保持输出质量的同时显著加速采样,大幅超越之前的SOTA方法。
  • Conclusion: 该方法为更高效和鲁棒的无训练扩散加速提供了新视角,首次明确反映了扩散预训练的内在学习速度变化。

[99] Your VAR Model is Secretly an Efficient and Explainable Generative Classifier

Yi-Chung Chen,David I. Inouye,Jing Gao

Main category: cs.LG

TL;DR: 提出基于视觉自回归模型的生成式分类器,相比扩散模型具有更好的计算效率和可解释性,在准确性和推理速度之间取得优越平衡。

  • Motivation: 现有生成式分类器主要基于扩散模型,计算成本高且限制了可扩展性,需要探索更高效的替代方案来深入理解生成式分类器的特性。
  • Method: 基于视觉自回归建模技术构建生成式分类器,并提出自适应VAR分类器+(A-VARC+)来优化性能与速度的权衡。
  • Result: VAR基分类器展现出与扩散模型根本不同的特性,具有可处理的似然函数,支持基于token互信息的视觉可解释性,并在类增量学习任务中表现出固有的抗灾难性遗忘能力。
  • Conclusion: VAR基生成式分类器为研究生成式分类提供了新视角,在计算效率、可解释性和持续学习能力方面具有显著优势,具有更好的实际应用前景。

[100] A Function Centric Perspective On Flat and Sharp Minima

Israel Mason-Williams,Gabryel Mason-Williams,Helen Yannakoudakis

Main category: cs.LG

TL;DR: 本文重新审视了平坦最小值与泛化性能的关系,提出尖锐性应被视为函数依赖属性而非泛化能力差的指标。研究发现正则化方法会产生更尖锐的最小值,但这些最小值往往伴随着更好的泛化、校准、鲁棒性和功能一致性。

  • Motivation: 重新评估平坦最小值与泛化性能之间的复杂关系,挑战传统认为平坦最小值必然带来更好泛化的观点。
  • Method: 进行了广泛的实证研究,从单目标优化到现代图像分类任务,比较了使用不同正则化方法(如SAM、权重衰减、数据增强)时损失景观的几何特性。
  • Result: 正则化模型倾向于收敛到更尖锐的最小值,但这些尖锐最小值在泛化、校准、鲁棒性和功能一致性方面表现更好;无正则化的基线模型虽然收敛到更平坦的最小值,但在所有安全指标上表现更差。
  • Conclusion: 函数复杂性而非平坦性单独决定了解的几何特性,尖锐最小值可以反映更合适的归纳偏置(特别是在正则化下),需要对损失景观几何进行以函数为中心的重新评估。

[101] DiffEM: Learning from Corrupted Data with Diffusion Models via Expectation Maximization

Danial Hosseintabar,Fan Chen,Giannis Daras,Antonio Torralba,Constantinos Daskalakis

Main category: cs.LG

TL;DR: DiffEM:一种基于期望最大化(EM)的扩散模型训练方法,用于从损坏数据中学习生成先验

  • Motivation: 扩散模型在高维逆问题中表现出强大的生成先验能力,但当只有损坏或噪声观测数据可用时,学习这些模型仍然具有挑战性
  • Method: 提出DiffEM方法,利用条件扩散模型在E步中从观测数据重建干净数据,然后在M步中使用重建数据优化条件扩散模型
  • Result: 理论上为DiffEM迭代提供了单调收敛保证,并在各种图像重建任务中验证了方法的有效性
  • Conclusion: DiffEM方法能够有效地从损坏数据中训练扩散模型,为高维逆问题提供了新的解决方案

math.OC

[102] Tensor Completion via Monotone Inclusion: Generalized Low-Rank Priors Meet Deep Denoisers

Peng Chen,Deliang Wei,Jiale Yao,Fang Li

Main category: math.OC

TL;DR: 提出了一种基于单调包含范式的张量补全框架GTCTV-DPC,将广义低秩先验与深度伪压缩去噪器相结合,在低采样率下显著优于现有方法。

  • Motivation: 多维数据中的缺失条目对下游分析构成重大挑战,现有方法依赖经验收敛或不切实际的假设(如深度去噪器作为隐式正则化器的近端算子),需要更严谨的理论基础。
  • Method: 基于单调包含范式和Davis-Yin分裂方案,开发了GTCTV-DPC算法,统一了广义低秩先验与深度伪压缩去噪器,超越了传统凸优化框架。
  • Result: 大量实验表明,GTCTV-DPC在定量指标和视觉质量上始终优于现有方法,特别是在低采样率下表现突出。
  • Conclusion: 所提出的GTCTV-DPC框架为张量补全提供了理论严谨且性能优越的解决方案,成功解决了现有方法的局限性。