Skip to content
每日arXiv - 2025年11月14日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] FedeCouple: Fine-Grained Balancing of Global-Generalization and Local-Adaptability in Federated Learning

Ming Yang,Dongrun Li,Xin Wang,Feng Li,Lisheng Fan,Chunxiao Wang,Xiaoming Wu,Peng Cheng

Main category: cs.CV

TL;DR: FedeCouple是一种联邦学习方法,通过细粒度平衡全局泛化与局部适应性,联合学习全局和局部特征表示,使用动态知识蒸馏增强个性化分类器的泛化能力,并通过锚点优化特征空间。

  • Motivation: 解决现有个性化联邦学习方法在特征提取器局部适应性和分类器全局泛化方面的不足,避免组件间协调不足导致的模型性能下降。
  • Method: 联合学习全局和局部特征表示,采用动态知识蒸馏技术,引入具有严格局部性和非传输性的锚点来优化特征空间。
  • Result: 在五个图像分类数据集上的实验表明,FedeCouple在有效性、稳定性、可扩展性和安全性方面均优于九种基线方法,有效性实验中比最佳基线高出4.3%。
  • Conclusion: FedeCouple通过平衡全局泛化与局部适应性,在保护隐私的同时显著提升了联邦学习模型的性能,并具有理论收敛保证。

[2] MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Ye Tian,Ling Yang,Jiongfan Yang,Anran Wang,Yu Tian,Jiani Zheng,Haochen Wang,Zhiyang Teng,Zhuochen Wang,Yinjie Wang,Yunhai Tong,Mengdi Wang,Xiangtai Li

Main category: cs.CV

TL;DR: 本文提出了ParaBench基准测试和MMaDA-Parallel并行多模态扩散框架,解决了现有序列自回归方法在思维感知生成中因错误传播导致的性能下降问题,通过并行强化学习实现跨模态一致性,在ParaBench上比最先进模型Bagel提升了6.9%的输出对齐度。

  • Motivation: 识别现有序列自回归方法在复杂任务中的关键失败模式——由于错误传播导致性能下降,特别是在生成推理与最终图像对齐不佳时。
  • Method: 提出并行多模态扩散框架MMaDA-Parallel,支持文本和图像在整个去噪轨迹中的连续双向交互;采用监督微调训练,并通过并行强化学习(ParaRL)优化,在轨迹上应用语义奖励来强制跨模态一致性。
  • Result: 实验验证模型显著改善了跨模态对齐和语义一致性,在ParaBench基准测试中比最先进模型Bagel在输出对齐度上提升了6.9%。
  • Conclusion: 为思维感知图像合成建立了一个更鲁棒的范式,通过并行交互和轨迹级优化解决了序列方法中的错误传播问题。

[3] PriVi: Towards A General-Purpose Video Model For Primate Behavior In The Wild

Felix B. Mueller,Jan F. Meier,Timo Lueddecke,Richard Vogg,Roger L. Freixanet,Valentin Hassler,Tiffany Bosshard,Elif Karakoc,William J. O'Hearn,Sofia M. Pereira,Sandro Sehner,Kaja Wierucka,Judith Burkart,Claudia Fichtel,Julia Fischer,Alexander Gail,Catherine Hobaiter,Julia Ostner,Liran Samuni,Oliver Schülke,Neda Shahidi,Erin G. Wessling,Alexander S. Ecker

Main category: cs.CV

TL;DR: 提出了PriVi数据集和基于V-JEPA的预训练方法,在多个灵长类动物行为分析基准上显著优于现有方法,特别是在少标签场景下表现优异。

  • Motivation: 现有计算机视觉方法主要依赖人类中心预训练模型,在灵长类动物行为分析中泛化能力有限,需要开发专门针对灵长类动物的数据驱动方法。
  • Method: 构建大规模灵长类中心视频预训练数据集PriVi(424小时),使用V-JEPA进行预训练,通过轻量级冻结分类器评估学习到的表示。
  • Result: 在ChimpACT、BaboonLand、PanAf500和ChimpBehave四个基准数据集上均优于现有方法,包括完全微调的基线模型,且在少标签情况下表现更佳。
  • Conclusion: 灵长类中心预训练显著提高了数据效率和泛化能力,为低标签应用提供了有前景的解决方案。

[4] Classifying Phonotrauma Severity from Vocal Fold Images with Soft Ordinal Regression

Katie Matton,Purvaja Balaji,Hamzeh Ghasemzadeh,Jameson C. Cooper,Daryush D. Mehta,Jarrad H. Van Stan,Robert E. Hillman,Rosalind Picard,John Guttag,S. Mazdak Abulnaga

Main category: cs.CV

TL;DR: 提出了首个从声带图像自动分类语音创伤严重程度的方法,采用序数回归框架处理有序标签,并引入软标签处理标注不确定性,性能接近临床专家水平。

  • Motivation: 语音创伤严重程度评估依赖临床专家判断,成本高且可靠性差异大,需要自动化工具来支持大规模研究和改善患者护理。
  • Method: 采用序数回归框架处理有序标签,提出新颖的软序数回归损失函数,能够处理反映标注者评分分布的软标签。
  • Result: 提出的软序数回归方法预测性能接近临床专家水平,同时产生良好校准的不确定性估计。
  • Conclusion: 该自动化工具能够实现语音创伤严重程度评估,支持大规模研究,最终改善临床理解和患者护理。

[5] SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

Arman Zarei,Samyadeep Basu,Mobina Pournemat,Sayan Nag,Ryan Rossi,Soheil Feizi

Main category: cs.CV

TL;DR: SliderEdit是一个用于指令式图像编辑的框架,通过引入可调节的滑块实现对单个编辑指令强度的连续精细控制,解决了现有模型只能以固定强度应用指令的问题。

  • Motivation: 现有指令式图像编辑模型在处理多指令提示时,每个指令只能以固定强度应用,限制了用户对单个编辑强度的精确连续控制能力。
  • Method: SliderEdit将多部分编辑指令解耦,为每个指令训练全局滑块,使用单一低秩适应矩阵集来泛化处理各种编辑、属性和组合指令,实现编辑维度的连续插值。
  • Result: 在FLUX-Kontext和Qwen-Image-Edit等先进图像编辑模型上应用SliderEdit,显著提升了编辑可控性、视觉一致性和用户可操控性。
  • Conclusion: SliderEdit是首个探索和提出在指令式图像编辑模型中实现连续精细指令控制的框架,为交互式、指令驱动的图像操作提供了连续和组合控制的新途径。

[6] Density Estimation and Crowd Counting

Balachandra Devarangadi Sunil,Rakshith Venkatesh,Shantanu Todmal

Main category: cs.CV

TL;DR: 将图像人群密度估计算法扩展到视频场景,通过扩散模型生成高质量密度图,结合事件驱动采样减少计算量,实现实时人群监控。

  • Motivation: 解决视频分析中的时序挑战,为公共安全、灾害响应和事件管理等应用提供可扩展的实时人群监控框架。
  • Method: 集成去噪概率模型生成密度图,使用窄高斯核生成多输出,结合回归分支和相似度评分整合机制,采用Farneback光流算法进行事件驱动采样。
  • Result: 模型在密集和稀疏场景下都能有效捕捉人群动态,采样方法显著减少帧数同时保持关键人群事件,通过MAE等指标验证性能。
  • Conclusion: 该方法成功解决了视频人群密度估计的时序问题,提供了一个高效可扩展的实时监控解决方案。

[7] PALMS+: Modular Image-Based Floor Plan Localization Leveraging Depth Foundation Model

Yunqian Cheng,Benjamin Princen,Roberto Manduchi

Main category: cs.CV

TL;DR: PALMS+是一个基于图像的室内定位系统,通过单目深度估计和几何布局匹配,在无GPS环境中实现高精度定位,无需训练即可超越现有方法。

  • Motivation: 解决现有视觉定位方法(如PALMS)在智能手机LiDAR短距离和室内布局模糊性方面的限制,实现无需基础设施的室内定位。
  • Method: 使用基础单目深度估计模型(Depth Pro)从RGB图像重建尺度对齐的3D点云,然后通过卷积与平面图进行几何布局匹配,输出位置和方向的后验分布。
  • Result: 在Structured3D和自定义校园数据集(80个观测点,4栋大楼)上,PALMS+在静态定位精度上优于PALMS和F3Loc,无需训练。在33条真实轨迹上集成粒子滤波器进行序列定位时,定位误差更低。
  • Conclusion: PALMS+展示了在无基础设施应用中相机无关跟踪的鲁棒性,为紧急响应和辅助导航等应用提供了有效的解决方案。

[8] Social LSTM with Dynamic Occupancy Modeling for Realistic Pedestrian Trajectory Prediction

Ahmed Alia,Mohcine Chraibi,Armin Seyfried

Main category: cs.CV

TL;DR: 提出了一种增强Social LSTM的新深度学习模型,通过动态占用空间损失函数来减少行人轨迹预测中的碰撞,同时保持低位移误差。

  • Motivation: 现有方法将行人视为点实体,忽略了每个人占据的物理空间,导致在动态拥挤环境中无法有效避免现实碰撞。
  • Method: 在Social LSTM基础上引入动态占用空间损失函数,结合平均位移误差和对场景密度及个体空间占用敏感的碰撞惩罚项。
  • Result: 在五个不同密度数据集上,模型将碰撞率降低达31%,平均位移误差和最终位移误差分别平均减少5%和6%,优于多个先进模型。
  • Conclusion: 所提模型能有效降低碰撞率并提高位移预测精度,在不同密度场景下均表现优异。

[9] Soiling detection for Advanced Driver Assistance Systems

Filip Beránek,Václav Diviš,Ivan Gruber

Main category: cs.CV

TL;DR: 本文提出将汽车摄像头污染检测视为语义分割问题,比较了多种分割方法并发现其优于瓦片级分类方法。作者还发现Woodscape数据集存在数据泄漏和标注不精确问题,创建了新的数据子集,在更小规模下达到可比结果。

  • Motivation: 汽车摄像头污染检测是高级驾驶辅助系统的关键部分,需要提高系统对外部条件(如天气、灰尘等)的鲁棒性。
  • Method: 将污染检测视为语义分割问题,比较了流行的分割方法,并与瓦片级分类方法进行对比。创建了新的数据子集来解决原始数据集的数据泄漏和标注不精确问题。
  • Result: 分割方法在性能上优于瓦片级分类方法。新的数据子集虽然规模小得多,但为分割方法提供了足够信息,在更短时间内达到可比结果。
  • Conclusion: 语义分割方法在汽车摄像头污染检测中表现优异,通过修正数据集问题可以更高效地训练模型。

[10] Feature Quality and Adaptability of Medical Foundation Models: A Comparative Evaluation for Radiographic Classification and Segmentation

Frank Li,Theo Dapamede,Mohammadreza Chavoshi,Young Seok Jeon,Bardia Khosravi,Abdulhameed Dere,Beatrice Brown-Mulry,Rohan Satya Isaac,Aawez Mansuri,Chiratidzo Sanyika,Janice Newsome,Saptarshi Purkayastha,Imon Banerjee,Hari Trivedi,Judy Gichoya

Main category: cs.CV

TL;DR: 评估医学和通用领域基础模型在胸部X光分析中的表现,发现医学预训练具有优势,但特征有效性高度依赖任务,对于复杂病理分割任务,预训练特征效果有限,监督模型仍是强有力替代方案。

  • Motivation: 基础模型在医学影像中的有效性存在差异,不清楚预训练领域、范式和架构如何影响嵌入质量,阻碍了为特定放射学任务选择最佳编码器。
  • Method: 评估8个医学和通用领域基础模型的视觉编码器,使用线性探测和微调对胸部X光进行分类(气胸、心脏肥大)和分割(气胸、心脏边界)基准测试。
  • Result: 医学预训练显著优势,医学基础模型在线性探测中始终优于通用领域模型;预训练嵌入在全局分类和显著解剖结构分割中表现良好,但在复杂病理分割中表现差;发现模型使用混淆捷径进行分类;文本-图像对齐不是必要条件。
  • Conclusion: 医学预训练有益,但架构选择(如多尺度)至关重要,预训练特征并非普遍有效,特别是在复杂定位任务中,监督模型仍是强有力替代方案。

[11] Gradient-Guided Exploration of Generative Model's Latent Space for Controlled Iris Image Augmentations

Mahsa Mitcheff,Siamul Karim Khan,Adam Czajka

Main category: cs.CV

TL;DR: 提出了一种通过生成模型潜在空间遍历的虹膜图像增强策略,能够控制特定属性同时保持身份不变

  • Motivation: 开发可靠的虹膜识别和呈现攻击检测方法需要能够捕捉虹膜特征真实变化和广泛异常的数据集,但合成相同身份虹膜图像同时控制特定属性具有挑战性
  • Method: 通过梯度引导在生成模型的潜在空间中遍历,寻找代表相同身份但具有期望虹膜图像属性(如清晰度、瞳孔大小等)的潜在代码,可使用预训练GAN模型或真实虹膜图像
  • Result: 该方法能够操纵任何可制定可微分损失项的属性,同时保持图像身份不变
  • Conclusion: 提出的方法为虹膜识别系统提供了有效的图像增强策略,能够生成具有控制属性的相同身份虹膜图像

[12] STORM: Segment, Track, and Object Re-Localization from a Single 3D Model

Yu Deng,Teng Cao,Hikaru Shindo,Jiahong Xue,Quentin Delfosse,Kristian Kersting

Main category: cs.CV

TL;DR: STORM是一个无需手动标注的实时6D姿态估计系统,通过结合视觉语言理解和自监督特征匹配的三阶段流程,在工业数据集上达到最先进精度。

  • Motivation: 现有方法依赖第一帧的手动标注分割掩码,这既费时又会在遮挡或快速运动时性能下降。
  • Method: 采用三阶段流程:上下文对象描述指导定位、自交叉注意力机制识别候选区域、分割模型生成精确掩码进行姿态估计,并包含自动重新注册机制检测跟踪失败。
  • Result: 在具有多目标遮挡、高速运动和变化光照的工业数据集上达到最先进精度,且以实时速度运行无需额外训练。
  • Conclusion: 这种免标注方法显著减少了部署开销,为柔性制造和智能质量控制等现代应用提供了实用解决方案。

[13] PANDA - Patch And Distribution-Aware Augmentation for Long-Tailed Exemplar-Free Continual Learning

Siddeshwar Raghavan,Jiangpeng He,Fengqing Zhu

Main category: cs.CV

TL;DR: PANDA是一个针对预训练模型的免示例持续学习框架,通过补丁和分布感知的数据增强技术解决现实世界数据流中的双层次不平衡问题。

  • Motivation: 现实世界数据流存在数据集级别分布不平衡和任务内极端/反向偏斜的双层次不平衡问题,导致现有免示例持续学习方法在预训练模型上表现不佳,难以有效学习和泛化。
  • Method: PANDA框架包含两个核心组件:1)使用CLIP编码器识别代表性区域并将其移植到高频类样本中,以增强低频类;2)利用先前任务分布的适应性平衡策略来平滑任务间不平衡,减少任务间平均样本差距。
  • Result: 广泛的实验和消融研究表明PANDA能够与现有的基于预训练模型的持续学习方法协同工作,显著提高准确率并减少灾难性遗忘。
  • Conclusion: PANDA框架有效解决了现实世界数据流中的双层次不平衡问题,为基于预训练模型的免示例持续学习提供了有效的解决方案。

[14] Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

Konstantinos M. Dafnis,Dimitris N. Metaxas

Main category: cs.CV

TL;DR: STS是一种轻量级的测试时适应框架,通过提取文本嵌入的谱子空间来定义主要语义方向,并学习以频谱感知的方式调整潜在表示,无需反向传播或修改冻结编码器。

  • Motivation: 视觉语言模型在零样本推理方面表现出色,但在测试时域偏移下性能会下降。现有的测试时适应策略通常需要反向传播大型编码器权重或改变核心模型组件。
  • Method: 从文本嵌入中提取谱子空间定义主要语义方向,通过学习少量每样本偏移参数来最小化增强视图间的熵,在潜在空间中完全在推理时进行操作。
  • Result: STS在标准评估协议下大幅超越或与最先进的测试时适应方法相媲美,仅引入少量额外参数,推理速度比传统测试时提示调优快8倍,内存占用小12倍。
  • Conclusion: STS提供了一种高效轻量的测试时适应方法,无需修改模型核心组件即可有效应对域偏移问题。

[15] Lumos3D: A Single-Forward Framework for Low-Light 3D Scene Restoration

Hanzhou Liu,Peng Jiang,Jia Huang,Mi Lu

Main category: cs.CV

TL;DR: Lumos3D是一个无需相机位姿的通用化3D低光场景恢复框架,能够从无位姿的低光多视角图像直接恢复光照和结构,无需逐场景训练。

  • Motivation: 现有方法依赖预计算相机位姿和场景特定优化,限制了在动态现实环境中的可扩展性。
  • Method: 基于几何基础的骨干网络重建正常光照的3D高斯表示,采用交叉光照蒸馏方案和专门的Lumos损失函数。
  • Result: 在真实世界数据集上实现了高保真度的低光3D场景恢复,具有准确的几何结构和强大的泛化能力。
  • Conclusion: 该框架可自然扩展到过曝校正,展示了在多样化光照恢复任务中的多功能性。

[16] From Street to Orbit: Training-Free Cross-View Retrieval via Location Semantics and LLM Guidance

Jeongho Min,Dongyoung Kim,Jaehyup Lee

Main category: cs.CV

TL;DR: 提出了一种无需训练的跨视角图像检索框架,结合预训练视觉编码器和大型语言模型,通过地理线索提取和特征优化实现街景到卫星图像的匹配。

  • Motivation: 现有的跨视角图像检索方法需要监督训练和特定数据集,限制了实际部署。本文旨在开发无需额外训练、适用于真实场景的解决方案。
  • Method: 使用预训练视觉编码器(如DINOv2)和LLM,通过基于网络的图像搜索提取地理线索,利用地理编码API生成卫星查询,采用PCA白化特征优化进行匹配检索。
  • Result: 在零样本设置下,该方法在基准数据集上优于现有的基于学习的方法,且能自动构建语义对齐的街景-卫星数据集。
  • Conclusion: 该方法提供了一种可扩展且成本效益高的跨视角图像检索解决方案,无需地面真实监督或微调,具有实际部署价值。

[17] AHA! Animating Human Avatars in Diverse Scenes with Gaussian Splatting

Aymen Mir,Jian Wang,Riza Alp Guler,Chuan Guo,Gerard Pons-Moll,Bing Zhou

Main category: cs.CV

TL;DR: 提出基于3D高斯泼溅(3DGS)的新框架,用于在3D场景中动画化人类,实现几何一致的自由视点渲染和自然的人-场景交互。

  • Motivation: 现有动画管道使用网格或点云作为3D表示,而3DGS在新型视图合成中取得了最先进的光照真实效果,但在人-场景动画和交互方面尚未充分探索。
  • Method: 使用3DGS表示人类和场景,提出高斯对齐运动模块合成运动而无需显式场景几何,通过基于不透明度的线索和投影高斯结构指导人体放置和姿态对齐,并进一步提出人-场景高斯细化优化来确保真实接触和导航。
  • Result: 在Scannet++和SuperSplat库的场景上评估,并在稀疏和密集多视角人类捕获重建的虚拟角色上验证,展示了几何一致的自由视点渲染能力。
  • Conclusion: 该框架支持新颖应用,如基于单目RGB视频的几何一致自由视点渲染与新的动画人类,展示了3DGS在单目视频人类动画中的独特优势。

[18] CertMask: Certifiable Defense Against Adversarial Patches via Theoretically Optimal Mask Coverage

Xuntao Lyu,Ching-Chi Lin,Abdullah Al Arafat,Georg von der Brüggen,Jian-Jia Chen,Zhishan Guo

Main category: cs.CV

TL;DR: CertMask是一种可证明鲁棒的防御方法,通过单轮二进制掩码来对抗对抗性补丁攻击,相比现有方法显著降低计算成本并提高认证鲁棒精度。

  • Motivation: 对抗性补丁攻击通过局部扰动误导深度视觉模型,可在物理世界部署,对实际应用构成严重威胁。现有防御方法PatchCleanser需要两轮掩码且计算复杂度高。
  • Method: 提出CertMask方法,使用数学严谨的覆盖策略构建二进制掩码集,确保每个可能的补丁位置至少被覆盖k次,仅需单轮掩码操作,时间复杂度为O(n)。
  • Result: 在ImageNet、ImageNette和CIFAR-10上的实验表明,CertMask相比PatchCleanser将认证鲁棒精度提高了最多+13.4%,同时保持与原始模型几乎相同的干净精度。
  • Conclusion: CertMask提供了一种高效且可证明鲁棒的防御机制,显著优于现有方法,为对抗性补丁攻击提供了实用的解决方案。

[19] CORONA-Fields: Leveraging Foundation Models for Classification of Solar Wind Phenomena

Daniela Martin,Jinsu Hong,Connor O'Brien,Valmir P Moraes Filho,Jasmine R. Kobayashi,Evangelia Samara,Joseph Gallego

Main category: cs.CV

TL;DR: 该研究将太阳物理基础模型适应于太阳风结构分析,通过结合卫星位置和太阳磁连接信息,构建神经网络模型来分类太阳风结构,为空间天气预报提供了概念验证。

  • Motivation: 空间天气对地球卫星和地面基础设施构成风险,太阳风和日冕物质抛射的复杂特性使得自动分类具有挑战性,需要开发新的分析方法。
  • Method: 调整太阳物理基础模型生成嵌入表示,结合卫星位置和傅里叶特征编码的磁连接信息,构建基于神经场的深度学习架构,使用帕克太阳探测器数据进行微调和分类。
  • Result: 整体分类性能一般,可能由于标签粗糙、类别不平衡和预训练模型迁移性有限,但证明了基础模型嵌入在太阳风任务中的可行性。
  • Conclusion: 作为概念验证,该研究为未来改进空间天气预报可靠性奠定了基础,相关代码和配置文件已公开以支持可重复性。

[20] IPCD: Intrinsic Point-Cloud Decomposition

Shogo Sato,Takuhiro Kaneko,Shoichiro Takeda,Tomoyasu Shimada,Kazuhiko Murasaki,Taiga Yoshida,Ryuichi Tanida,Akisato Kimura

Main category: cs.CV

TL;DR: IPCD-Net是一个直接分解彩色点云为反照率和阴影的模型,通过点级特征聚合处理非网格数据,并使用基于投影的亮度分布捕获全局光照信息。

  • Motivation: 点云在AR和机器人等领域广泛应用,但现有的图像分解模型无法直接应用于非网格结构的点云,且现有点云模型未考虑全局光照方向,导致阴影分离不准确。
  • Method: 提出IPCD-Net,扩展基于图像的模型以处理点云数据;引入基于投影的亮度分布(PLD)和分层特征细化,通过多视图投影捕获全局光照信息。
  • Result: 实验表明IPCD-Net能减少反照率中的投射阴影,提高阴影中的颜色准确性,并在纹理编辑、重光照和点云配准等应用中表现良好。
  • Conclusion: IPCD-Net成功解决了点云分解的关键挑战,验证了在真实世界中的适用性。

[21] Remember Me: Bridging the Long-Range Gap in LVLMs with Three-Step Inference-Only Decay Resilience Strategies

Peng Gao,Yujian Lee,Xiaofeng Zhang,Zailong Chen,Hui Zhang

Main category: cs.CV

TL;DR: 提出T-DRS方法解决LVLMs中ROPE导致的长距离依赖建模问题,通过三种策略增强远距离token对的注意力,在VQA任务上实现训练免费的性能提升。

  • Motivation: LVLMs在使用ROPE时面临长距离依赖建模挑战,ROPE虽然能精确建模token位置,但随着token距离增加会导致注意力衰减,损害模型记忆全局上下文的能力。
  • Method: 提出推理阶段的三步衰减恢复策略(T-DRS):1) SD-DRS通过内容感知残差增强语义重要但距离远的信号;2) DC-DRS基于位置距离平滑调节权重来净化注意力;3) reRD-DRS强化剩余的信息性远距离依赖以保持全局连贯性。
  • Result: 在视觉问答基准测试上的广泛实验表明,T-DRS能以训练免费的方式持续提升性能。
  • Conclusion: T-DRS策略能够恢复被抑制的长距离token对,同时不损害局部归纳偏置,有效解决了LVLMs中的长距离依赖建模问题。

[22] SAM-DAQ: Segment Anything Model with Depth-guided Adaptive Queries for RGB-D Video Salient Object Detection

Jia Lin,Xiaofei Zhou,Jiyuan Liu,Runmin Cong,Guodao Zhang,Zhi Liu,Jiyong Zhang

Main category: cs.CV

TL;DR: 提出了SAM-DAQ方法,将SAM2模型适配于RGB-D视频显著目标检测任务,通过深度引导的自适应查询和并行适配器解决手动提示依赖、内存消耗高和计算负担重的问题。

  • Motivation: 直接应用SAM基础模型到RGB-D视频显著目标检测任务面临三个挑战:手动提示依赖、序列适配器内存消耗高、记忆注意力计算负担重。
  • Method: 使用并行适配器多模态图像编码器(PAMIE)和查询驱动时序记忆(QTM)模块,通过深度引导并行适配器融合多模态特征,利用帧级和视频级查询提取时序一致性特征。
  • Result: 在三个RGB-D VSOD数据集上的实验表明,SAM-DAQ在所有评估指标上均优于最先进方法。
  • Conclusion: SAM-DAQ成功将SAM2适配于RGB-D视频显著目标检测,通过深度和时序线索的无缝集成,实现了优异的性能表现。

[23] RWKV-PCSSC: Exploring RWKV Model for Point Cloud Semantic Scene Completion

Wenzhe He,Xiaojun Chen,Wentang Chen,Hongyu Wang,Ying Liu,Ruihui Li

Main category: cs.CV

TL;DR: 提出RWKV-PCSSC,一种基于RWKV机制的轻量级点云语义场景补全网络,显著减少参数数量和内存需求,并在多个数据集上达到最先进性能。

  • Motivation: 现有语义场景补全方法通常采用密集网络架构,参数数量多,导致模型复杂度和资源需求高。需要开发更轻量高效的解决方案。
  • Method: 引入RWKV种子生成器模块从部分点云聚合特征生成粗点云,然后通过多阶段RWKV点反卷积模块逐步恢复点云特征,采用紧凑高效的设计。
  • Result: 相比最先进方法PointSSC,参数数量减少4.18倍,内存效率提升1.37倍,在室内外多个数据集上达到最先进性能。
  • Conclusion: RWKV-PCSSC通过轻量化设计在保持高性能的同时显著降低了模型复杂度和资源需求,为语义场景补全提供了高效解决方案。

[24] HCC-3D: Hierarchical Compensatory Compression for 98% 3D Token Reduction in Vision-Language Models

Liheng Zhang,Jin Wang,Hui Li,Bingfeng Zhang,Weifeng Liu

Main category: cs.CV

TL;DR: 提出了HCC-3D方法,通过分层补偿压缩技术显著减少3D-VLM中的计算开销,在保持性能的同时实现约98%的压缩率。

  • Motivation: 当前3D-VLM直接将点云嵌入为3D token,在LLM部分处理所有3D token会产生巨大计算成本,限制了实际应用。
  • Method: 提出分层补偿压缩:1) 全局结构压缩(GSC)使用全局查询将3D token压缩为少量关键token;2) 自适应细节挖掘(ADM)选择性重新压缩重要但未被充分关注的细节特征。
  • Result: 实验表明HCC-3D不仅实现了约98%的压缩率,还达到了新的最先进性能,在效率和性能上都有显著提升。
  • Conclusion: HCC-3D通过高效压缩3D token同时保持关键信息完整性,成功解决了3D-VLM的计算瓶颈问题。

[25] Scale-Aware Relay and Scale-Adaptive Loss for Tiny Object Detection in Aerial Images

Jinfu Li,Yuqi Huang,Hong Song,Ting Wang,Jianghan Xia,Yucong Lin,Jingfan Fan,Jian Yang

Main category: cs.CV

TL;DR: 提出SARL和SAL方法解决航拍图像中小目标检测问题,SARL通过跨尺度空间-通道注意力增强特征,SAL通过动态权重调整聚焦小目标训练,在多个基准数据集上显著提升检测性能。

  • Motivation: 现代检测器在航拍图像小目标检测上表现不佳,主要原因是小目标特征有限且在长距离网络传播中容易退化,以及小目标在训练中受到不成比例的回归惩罚。
  • Method: 提出尺度感知中继层(SARL)和尺度自适应损失(SAL)。SARL使用跨尺度空间-通道注意力逐步丰富每层特征并加强跨层特征共享;SAL重塑基于IoU的损失函数,为较大目标动态分配较低权重。
  • Result: 在AI-TOD、DOTA-v2.0和VisDrone2019三个基准测试中,嵌入YOLOv5和YOLOx基线后平均精度提升5.5%,在真实噪声数据集AI-TOD-v2.0上达到29.0% AP。
  • Conclusion: 该方法能有效提升小目标检测的泛化能力和鲁棒性,且与主流检测框架无缝兼容。

[26] Regional Attention-Enhanced Swin Transformer for Clinically Relevant Medical Image Captioning

Zubia Naz,Farhan Asghar,Muhammad Ishfaq Hussain,Yahya Hadadi,Muhammad Aasim Rafique,Wookjin Choi,Moongu Jeon

Main category: cs.CV

TL;DR: 提出了一种基于Swin-BART编码器-解码器的医学图像自动标注系统,通过轻量级区域注意力模块增强诊断关键区域,在ROCO数据集上实现了最先进的语义保真度。

  • Motivation: 将复杂的放射学图像转化为诊断性叙述,以支持医疗报告工作流程,同时保持模型的紧凑性和可解释性。
  • Method: 采用Swin-BART编码器-解码器架构,集成轻量级区域注意力模块,在交叉注意力之前放大诊断关键区域。使用束搜索解码(束大小=4,长度惩罚=1.1,无重复n-gram大小=3,最大长度=128)。
  • Result: 在ROCO数据集上,相比基线模型,ROUGE得分(0.603 vs 0.356/0.255)和BERTScore(0.807 vs 0.645/0.623)显著提升,BLEU、CIDEr和METEOR指标具有竞争力。提供了消融实验、模态分析和定性热图。
  • Conclusion: 该设计能够生成准确、临床术语化的标注,并提供透明的区域归因,支持在人工监督下的安全研究应用。

[27] Simulating Distribution Dynamics: Liquid Temporal Feature Evolution for Single-Domain Generalized Object Detection

Zihao Zhang,Yang Li,Aming Wu,Yahong Han

Main category: cs.CV

TL;DR: 提出了一种名为Liquid Temporal Feature Evolution的新方法,用于单域泛化目标检测,通过模拟特征从源域到潜在分布的渐进演化,提升模型对未知域变化的泛化能力。

  • Motivation: 现实场景中(如天气或光照变化)的域偏移通常是连续渐进的,而现有的离散数据增强和静态扰动方法无法有效捕捉特征分布的动态变化,限制了模型感知细粒度跨域差异的能力。
  • Method: 引入可控高斯噪声注入和多尺度高斯模糊来模拟初始特征扰动,然后通过时间建模和液体参数调整机制生成自适应调制参数,实现跨域的平滑连续适应。
  • Result: 在Diverse Weather数据集和Real-to-Art基准测试上取得了显著的性能提升,证明了方法的优越性。
  • Conclusion: 通过捕捉渐进跨域特征演化和动态调节适应路径,该方法能够弥合源域-未知域分布差距,显著提升对未见域偏移的泛化性和鲁棒性。

[28] MosaicDoc: A Large-Scale Bilingual Benchmark for Visually Rich Document Understanding

Ketong Chen,Yuhao Chen,Yang Xue

Main category: cs.CV

TL;DR: DocWeaver是一个多智能体管道,利用大语言模型自动生成MosaicDoc基准,这是一个大规模双语(中文和英文)的视觉丰富文档理解基准,包含72K图像和600K+问答对,用于评估模型在复杂布局文档上的性能。

  • Motivation: 现有基准主要是英语中心、布局简单且任务有限,无法充分评估视觉语言模型在视觉丰富文档理解(VRDU)方面的能力,特别是处理复杂布局和密集文本的挑战。
  • Method: 使用多智能体管道DocWeaver,利用大语言模型自动生成MosaicDoc基准,该基准源自报纸和杂志,具有多样复杂的布局(包括多列和非曼哈顿布局)、196个出版商的丰富风格变化,以及全面的多任务标注。
  • Result: 创建了MosaicDoc基准,包含72K图像和超过600K问答对,涵盖OCR、VQA、阅读顺序和定位等多任务。对最先进模型的广泛评估揭示了它们在处理真实世界文档复杂性方面的当前局限性。
  • Conclusion: MosaicDoc作为该领域的权威基准,为未来研究指明了清晰的方向,表明当前模型在处理复杂文档布局方面仍有不足,需要进一步改进。

[29] Compensating Distribution Drifts in Class-incremental Learning of Pre-trained Vision Transformers

Xuan Rao,Simian Xu,Zheng Li,Bo Zhao,Derong Liu,Mingming Ha,Cesare Alippi

Main category: cs.CV

TL;DR: 提出了SLDC方法来解决顺序微调中的分布漂移问题,通过潜在空间转换算子和知识蒸馏来对齐特征分布,显著提升了SeqFT在类增量学习中的性能。

  • Motivation: 顺序微调预训练ViT虽然有效,但会因共享骨干网络参数的顺序优化导致分布漂移,造成先前学习类别与新更新模型之间的分布不匹配,从而降低分类器性能。
  • Method: 提出了SLDC方法,包括线性变体(通过正则化最小二乘学习线性转换算子)和弱非线性变体(使用可学习的弱非线性映射),并结合知识蒸馏来减少表示漂移。
  • Result: 在标准CIL基准测试中,SLDC显著提升了SeqFT的性能,结合KD后能达到与联合训练相当的性能水平。
  • Conclusion: SLDC通过补偿分布漂移,使顺序微调在类增量学习中达到与联合训练相当的效果,为解决分布漂移问题提供了有效方案。

[30] Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification

Yuhang Zhou,Yanxiang Zhao,Zhongyun Hua,Zhipu Liu,Zhaoquan Gu,Qing Liao,Leo Yu Zhang

Main category: cs.CV

TL;DR: 提出了一种针对行人重识别任务中对抗攻击的防御框架,通过数据平衡和双对抗自元防御来解决模型偏差和复合泛化需求问题。

  • Motivation: 现有深度学习行人重识别模型容易受到对抗攻击,而现有的防御策略主要针对分类任务,未能有效解决行人重识别特有的挑战,如模型偏差和复合泛化需求。
  • Method: 提出去偏双不变防御框架:1) 数据平衡阶段使用基于扩散模型的数据重采样策略;2) 双对抗自元防御阶段引入度量对抗训练和最远负样本扩展软化,以及对抗增强的自元机制。
  • Result: 实验表明该方法显著优于现有的最先进防御方法。
  • Conclusion: 该方法有效解决了行人重识别对抗防御中的关键挑战,在模型偏差缓解和复合泛化能力方面取得了显著改进。

[31] AdaptViG: Adaptive Vision GNN with Exponential Decay Gating

Mustafa Munir,Md Mostafijur Rahman,Radu Marculescu

Main category: cs.CV

TL;DR: AdaptViG是一种高效的视觉图神经网络,通过自适应图卷积机制和混合策略,在保持高精度的同时大幅减少计算量和参数数量。

  • Motivation: 传统视觉图神经网络在图形构建阶段面临计算效率低下的问题,限制了其实际应用。
  • Method: 提出自适应图卷积机制,包括高效的静态轴向支架和基于特征相似性的指数衰减门控策略,并在早期阶段使用门控机制,最后阶段使用全局注意力块。
  • Result: AdaptViG-M达到82.6%的top-1准确率,比ViG-B高0.3%,同时参数减少80%,计算量减少84%。在下游任务中表现优异。
  • Conclusion: AdaptViG在视觉图神经网络中实现了精度与效率的最佳平衡,为高效视觉架构提供了新方向。

[32] TSPE-GS: Probabilistic Depth Extraction for Semi-Transparent Surface Reconstruction via 3D Gaussian Splatting

Zhiyuan Xu,Nan Min,Yuhang Guo,Tong Wei

Main category: cs.CV

TL;DR: TSPE-GS通过均匀采样透射率建模像素级多模态不透明度和深度分布,解决3D高斯溅射在半透明表面重建中的深度模糊问题,在保持不透明场景性能的同时显著提升半透明几何重建质量。

  • Motivation: 3D高斯溅射在速度-质量权衡方面表现良好,但假设每个像素单一深度的前提使其难以重建半透明表面,因为半透明表面中多个表面可能同时可见。
  • Method: 提出TSPE-GS方法,通过均匀采样透射率建模像素级多模态不透明度和深度分布,替代先前的单峰假设;通过渐进融合截断符号距离函数,在统一框架内分别重建外部和内部表面。
  • Result: 在公开和自采集的半透明及不透明数据集上的广泛实验表明,TSPE-GS显著改善了半透明几何重建,同时保持了对不透明场景的性能。
  • Conclusion: TSPE-GS能够推广到其他基于高斯的重建流程而无需额外训练开销,有效解决了半透明表面重建中的深度模糊问题。

[33] Beyond Cosine Similarity Magnitude-Aware CLIP for No-Reference Image Quality Assessment

Zhicheng Liao,Dongxu Wu,Zhenshan Shi,Sijie Mai,Hanwei Zhu,Lingyu Zhu,Yuncheng Jiang,Baoliang Chen

Main category: cs.CV

TL;DR: 提出了一种自适应融合框架,将CLIP图像特征的余弦相似度与幅度感知质量线索相结合,用于无参考图像质量评估,无需任务特定训练即可超越现有方法。

  • Motivation: 现有基于CLIP的NR-IQA方法仅使用语义相似度(余弦相似度),忽略了CLIP图像特征幅度与感知质量之间的强相关性。
  • Method: 提取CLIP图像特征的绝对值,应用Box-Cox变换进行统计归一化,然后与余弦相似度通过置信度引导的自适应融合方案结合。
  • Result: 在多个基准IQA数据集上的实验表明,该方法始终优于标准CLIP-based IQA和最先进的基线方法。
  • Conclusion: CLIP图像特征的幅度是感知质量的重要线索,与语义相似度互补,通过自适应融合可显著提升NR-IQA性能。

[34] Robust Object Detection with Pseudo Labels from VLMs using Per-Object Co-teaching

Uday Bhaskar,Rishabh Bhattacharya,Avinash Patel,Sarthak Khoche,Praveen Anil Kulkarni,Naresh Manwani

Main category: cs.CV

TL;DR: 提出一种利用视觉语言模型生成伪标签来训练高效实时目标检测器的新方法,通过基于对象的协同教学策略减少伪标签中的噪声,显著减少对人工标注的依赖。

  • Motivation: 视觉语言模型在零样本目标检测方面具有潜力,但存在检测延迟和幻觉预测问题,无法直接部署。需要找到利用VLM生成伪标签来训练高效检测器的方法。
  • Method: 提出基于对象的协同教学训练策略,两个YOLO模型协作学习,根据对方对每个对象的损失值过滤不可靠的边界框,而不是过滤整个图像。
  • Result: 在KITTI数据集上,方法显著优于基线YOLOv5m模型,mAP@0.5从31.12%提升到46.61%,同时保持实时检测延迟。加入10%真实标签后,mAP@0.5达到57.97%。在ACDC和BDD100k数据集上也观察到类似改进。
  • Conclusion: 该方法为自动驾驶提供了一种高效、鲁棒且可扩展的目标检测器训练方案,显著减少了对昂贵人工标注的依赖。

[35] Equivariant Sampling for Improving Diffusion Model-based Image Restoration

Chenxu Wu,Qingpeng Kong,Peiang Zhao,Wendi Yang,Wenxin Ma,Fenghe Tang,Zihang Jiang,S. Kevin Zhou

Main category: cs.CV

TL;DR: 提出了EquS和EquS+方法,通过双采样轨迹和时序感知调度来改进基于扩散模型的图像恢复方法,在不增加计算成本的情况下显著提升性能。

  • Motivation: 现有基于扩散模型的图像恢复方法在充分利用扩散先验方面存在挑战,导致性能不理想。
  • Method: 引入EquS方法,通过双采样轨迹施加等变信息;提出时序感知调度(TAS)和EquS+,优先确定性步骤以增强确定性和采样效率。
  • Result: 在基准测试上的广泛实验表明,该方法与现有问题无关的DMIR方法兼容,并能显著提升其性能。
  • Conclusion: EquS和EquS+方法有效解决了当前问题无关DMIR方法的局限性,在不增加计算成本的情况下实现了性能提升。

[36] Difference Vector Equalization for Robust Fine-tuning of Vision-Language Models

Satoshi Suzuki,Shin'ya Yamaguchi,Shoichiro Takeda,Taiga Yamane,Naoki Makishima,Naotaka Kawata,Mana Ihori,Tomohiro Tanaka,Shota Orihashi,Ryo Masumura

Main category: cs.CV

TL;DR: 提出DiVE方法,通过约束预训练和微调模型嵌入之间的差异向量来保持几何结构,从而在保持ID数据性能的同时提升OOD和零样本泛化能力。

  • Motivation: 现有对比学习微调方法会扭曲嵌入的几何结构,限制了OOD和零样本性能。需要一种既能微调ID数据又不损害泛化能力的方法。
  • Method: DiVE方法通过平均向量损失(AVL)和成对向量损失(PVL)约束差异向量,AVL全局保持几何结构,PVL局部保持多模态对齐一致性。
  • Result: 实验表明DiVE有效保持了几何结构,在ID、OOD和零样本指标上都取得了强劲结果。
  • Conclusion: DiVE通过约束差异向量成功解决了微调过程中几何结构扭曲的问题,实现了ID性能提升与OOD/零样本泛化能力的平衡。

[37] STELLAR: Scene Text Editor for Low-Resource Languages and Real-World Data

Yongdeuk Seo,Hyun-seok Min,Sungchul Choi

Main category: cs.CV

TL;DR: STELLAR是一个用于低资源语言和真实世界数据的场景文本编辑模型,通过语言自适应字形编码器和多阶段训练策略解决现有方法的局限性,并在视觉一致性和识别准确率上优于现有最先进模型。

  • Motivation: 解决现有场景文本编辑方法在低资源语言支持、合成与真实数据之间的领域差距以及缺乏适当的文本样式保持评估指标方面的局限性。
  • Method: 提出STELLAR模型,采用语言自适应字形编码器和多阶段训练策略(先在合成数据上预训练,然后在真实图像上微调),并构建新的数据集STIPLAR用于训练和评估。
  • Result: 实验结果表明STELLAR在视觉一致性和识别准确率上优于现有最先进模型,在跨语言上的平均TAS指标比基线提高了2.2%。
  • Conclusion: STELLAR通过语言自适应编码、多阶段训练和新的评估指标,有效解决了场景文本编辑中的关键挑战,为低资源语言和真实世界数据提供了可靠的编辑解决方案。

[38] MOBA: A Material-Oriented Backdoor Attack against LiDAR-based 3D Object Detection Systems

Saket S. Chaturvedi,Gaurav Bagwe,Lan Zhang,Pan He,Xiaoyong Yuan

Main category: cs.CV

TL;DR: MOBA是一种针对LiDAR 3D物体检测系统的物理可实现后门攻击框架,通过建模真实世界触发器的材料特性来弥合数字-物理差距,在先进模型上达到93.50%的攻击成功率。

  • Motivation: 现有后门攻击缺乏物理可实现性,数字触发器在真实世界中因忽略材料相关的LiDAR反射特性而失效,物理构造的触发器则未经优化导致效果差或易被检测。
  • Method: 1) 系统选择鲁棒触发材料(二氧化钛TiO₂);2) 开发包含角度无关Oren-Nayar BRDF模型和距离感知缩放机制的新型仿真流水线,确保数字触发器准确模拟物理材料触发器的行为。
  • Result: 在先进的LiDAR和相机-LiDAR融合模型上进行广泛实验,MOBA达到93.50%的攻击成功率,比先前方法提高超过41%。
  • Conclusion: MOBA揭示了一类新的物理可实现威胁,强调了在真实环境中考虑材料级属性的防御措施的紧迫需求。

[39] DBGroup: Dual-Branch Point Grouping for Weakly Supervised 3D Instance Segmentation

Xuexun Liu,Xiaoxu Xu,Qiudan Zhang,Lin Ma,Xu Wang

Main category: cs.CV

TL;DR: DBGroup是一个两阶段弱监督3D实例分割框架,使用场景级标注替代传统点级或边界框标注,通过双分支点分组和自训练方法实现高效分割。

  • Motivation: 解决现有弱监督3D实例分割方法标注成本高、过程复杂、依赖专家标注的问题,提供更高效可扩展的替代方案。
  • Method: 两阶段框架:第一阶段使用双分支点分组模块生成伪标签,结合粒度感知实例合并和语义选择传播策略优化标签质量;第二阶段通过多轮自训练和实例掩码过滤策略训练端到端实例分割网络。
  • Result: 在稀疏点级监督3D实例分割方法中达到竞争性性能,并超越最先进的场景级监督3D语义分割方法。
  • Conclusion: DBGroup证明了场景级标注在3D实例分割中的有效性,为大规模3D场景理解提供了更实用的解决方案。

[40] LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers

Minjun Kim,Jaeri Lee,Jongjin Kim,Jeongin Yun,Yongmo Kwon,U Kang

Main category: cs.CV

TL;DR: LampQ是一种针对Vision Transformer的层级混合精度量化方法,通过类型感知的Fisher度量、整数线性规划和迭代更新,实现细粒度控制和高效加速。

  • Motivation: 现有ViT量化方法采用统一精度,忽略了不同组件对量化的敏感度差异。之前的混合精度量化方法存在粒度粗、度量尺度不匹配、量化无意识位分配三大问题。
  • Method: 提出LampQ方法:1) 层级别量化实现细粒度控制;2) 类型感知的Fisher度量评估敏感度;3) 整数线性规划优化位宽分配;4) 迭代更新位宽。
  • Result: 在图像分类、目标检测和零样本量化等多种任务上,LampQ在量化预训练ViT模型时达到了最先进的性能。
  • Conclusion: LampQ通过克服现有混合精度量化方法的三大限制,为Vision Transformer提供了准确高效的量化解决方案。

[41] MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging

Shufeng Kong,Zijie Wang,Nuan Cui,Hao Tang,Yihan Meng,Yuanyuan Wei,Feifan Chen,Yingheng Wang,Zhuo Cai,Yaonan Wang,Yulong Zhang,Yuzheng Li,Zibin Zheng,Caihua Liu

Main category: cs.CV

TL;DR: MIRNet是一个用于医学图像分析的新框架,结合自监督预训练和图推理,在舌象诊断任务上取得最佳性能,并创建了最大的公开舌象数据集TongueAtlas-4K。

  • Motivation: 解决医学图像分析中的标注稀缺、标签不平衡和临床合理性约束等挑战,特别是在需要细粒度视觉语义理解的舌象诊断领域。
  • Method: 使用自监督掩码自编码器学习视觉表示;图注意力网络建模标签相关性;KL散度和正则化损失强制执行临床先验;非对称损失和提升集成缓解不平衡问题。
  • Result: 在舌象诊断任务上达到最先进的性能,创建了包含4000张图像、22个诊断标签的TongueAtlas-4K数据集。
  • Conclusion: MIRNet框架在舌象诊断中表现出色,且可推广到更广泛的医学影像诊断任务。

[42] AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

Xinyi Wang,Xun Yang,Yanlong Xu,Yuchen Wu,Zhen Li,Na Zhao

Main category: cs.CV

TL;DR: 提出了细粒度3D具身推理任务,要求智能体根据任务指令预测3D场景中每个可操作元素的空间位置、运动类型和运动轴,并开发了AffordBot框架,结合多模态大语言模型和链式思维推理,在SceneFun3D数据集上取得最优性能。

  • Motivation: 现有方法通常在对象级别操作或分离处理细粒度可操作性推理,缺乏连贯的指令驱动的基础和推理能力,而有效的人机协作需要理解可操作元素的位置和交互方式。
  • Method: 提出AffordBot框架,集成多模态大语言模型和定制化链式思维推理范式,通过渲染环绕视图图像并将3D元素候选投影到这些视图中,构建与场景几何对齐的丰富视觉表示,然后通过主动感知和逐步推理定位可操作元素并推断交互运动。
  • Result: 在SceneFun3D数据集上评估,AffordBot实现了最先进的性能,仅使用3D点云输入和多模态大语言模型就展现出强大的泛化能力和物理基础推理能力。
  • Conclusion: AffordBot框架成功解决了细粒度3D具身推理任务,为物理环境中的人机协作提供了有效的解决方案,展示了多模态大语言模型在3D场景理解中的潜力。

[43] Anomagic: Crossmodal Prompt-driven Zero-shot Anomaly Generation

Yuxin Jiang,Wei Luo,Hui Zhang,Qiyu Chen,Haiming Yao,Weiming Shen,Yunkang Cao

Main category: cs.CV

TL;DR: Anomagic是一种零样本异常生成方法,无需异常样本即可生成语义一致的异常。通过跨模态提示编码和对比精炼策略,结合AnomVerse数据集训练,能合成更真实多样的异常,显著提升异常检测性能。

  • Motivation: 现有异常生成方法通常需要异常样本作为参考,限制了在零样本场景下的应用。作者希望开发一种无需异常样本就能生成语义一致异常的方法,以提升异常检测模型的性能。
  • Method: 1. 跨模态提示编码方案统一视觉和文本线索;2. 基于修复的生成流程;3. 对比精炼策略确保异常与掩码精确对齐;4. 使用AnomVerse数据集(12,987个异常-掩码-描述三元组)进行训练。
  • Result: 实验表明Anomagic能合成比现有方法更真实和多样的异常,显著提升下游异常检测任务的准确性。该方法还能通过用户定义提示为任何正常类别图像生成异常。
  • Conclusion: Anomagic建立了一个通用的异常生成基础模型,无需异常样本即可生成语义一致的异常,为异常检测任务提供了强大的数据增强能力。

[44] DGFusion: Dual-guided Fusion for Robust Multi-Modal 3D Object Detection

Feiyang Jia,Caiyan Jia,Ailin Liu,Shaoqing Xu,Qiming Xia,Lin Liu,Lei Yang,Yan Gong,Ziying Song

Main category: cs.CV

TL;DR: 提出DGFusion双引导多模态3D目标检测方法,通过难度感知实例配对解决远距离、小目标和遮挡目标的检测难题

  • Motivation: 现有单引导多模态3D目标检测方法无法处理不同模态间困难实例信息密度的差异,影响自动驾驶系统安全性
  • Method: 基于双引导范式,结合点云引导图像和图像引导点云两种模式,使用难度感知实例配对器生成难易实例对,通过双引导模块实现多模态特征融合
  • Result: 在nuScenes数据集上分别提升+1.0% mAP、+0.8% NDS和+1.3%平均召回率,在距离、尺寸、可见度和小规模训练场景下均展现稳定的困难实例检测鲁棒性
  • Conclusion: 双引导范式能有效解决多模态3D目标检测中困难实例的检测挑战,提升自动驾驶感知系统的安全性

[45] LoG3D: Ultra-High-Resolution 3D Shape Modeling via Local-to-Global Partitioning

Xinran Yang,Shuichang Lai,Jiangjing Lyu,Hongjie Li,Bowen Pan,Yuanqi Li,Jie Guo,Zhou Zhengkang,Yanwen Guo

Main category: cs.CV

TL;DR: 提出基于无符号距离场(UDF)的3D变分自编码器框架,通过局部到全局架构处理复杂拓扑结构,支持超高分辨率3D内容生成。

  • Motivation: 现有方法如SDF需要水密预处理且难以处理非流形几何,点云表示存在采样伪影和表面不连续问题,需要更鲁棒高效的3D表示方法。
  • Method: 使用UDF表示,提出局部到全局架构:将UDF划分为均匀子体积(UBlocks),结合3D卷积捕获局部细节和稀疏变换器确保全局一致性,采用Pad-Average策略平滑边界。
  • Result: 在重建精度和生成质量上达到最先进性能,支持高达2048^3的超高分辨率,获得更平滑的表面和几何灵活性。
  • Conclusion: UDF结合局部到全局架构为复杂3D内容生成提供了鲁棒高效的解决方案,突破了传统方法的限制。

[46] FreDFT: Frequency Domain Fusion Transformer for Visible-Infrared Object Detection

Wencong Wu,Xiuwei Zhang,Hanlin Yin,Shun Dai,Hongxi Zhang,Yanning Zhang

Main category: cs.CV

TL;DR: 提出了FreDFT方法,通过频域融合变换器解决可见光-红外目标检测中的模态信息不平衡问题,在多个数据集上取得了优异性能。

  • Motivation: 可见光和红外模态在不同传感器采集时存在信息不平衡问题,导致跨模态融合不足,检测性能下降。现有方法大多在空间域使用变换器,忽略了频域变换器挖掘互补信息的优势。
  • Method: 提出频域融合变换器FreDFT,包含多模态频域注意力(MFDA)挖掘模态间互补信息,频域前馈层(FDFFL)通过混合尺度频率特征融合增强多模态特征,跨模态全局建模模块(CGMM)消除模态信息不平衡,局部特征增强模块(LFEM)加强多模态局部特征表示。
  • Result: 在多个公共数据集上的广泛实验结果表明,FreDFT相比其他最先进方法取得了优异性能。
  • Conclusion: FreDFT通过频域融合变换器有效解决了可见光-红外目标检测中的模态信息不平衡问题,显著提升了检测性能。

[47] MuSc-V2: Zero-Shot Multimodal Industrial Anomaly Classification and Segmentation with Mutual Scoring of Unlabeled Samples

Xurui Li,Feng Xue,Yu Zhou

Main category: cs.CV

TL;DR: 提出MuSc-V2框架用于零样本异常分类和分割,通过互评分机制利用正常图像补丁在2D/3D空间中的相似性特征,显著提升性能。

  • Motivation: 现有方法忽略了关键特性:工业产品中的正常图像补丁在2D外观和3D形状上通常能找到许多相似补丁,而异常则保持多样性和孤立性。
  • Method: 包含迭代点分组(IPG)改进3D表示、多度相似邻域聚合(SNAMD)融合2D/3D特征、互评分机制(MSM)和跨模态异常增强(CAE)、以及约束邻域重评分(RsCon)。
  • Result: 在MVTec 3D-AD数据集上AP提升23.7%,在Eyecandies数据集上提升19.3%,超越先前零样本基准并优于大多数少样本方法。
  • Conclusion: MuSc-V2框架通过充分利用正常补丁的相似性特征,在零样本异常检测任务中取得了显著性能提升,具有很好的适应性。

[48] Image Aesthetic Reasoning via HCM-GRPO: Empowering Compact Model for Superior Performance

Zhiyuan Hu,Zheng Sun,Yi Wei,Long Yu

Main category: cs.CV

TL;DR: 提出了一个完整的图像筛选解决方案,包括构建包含128k样本、640k图像的综合数据集,以及引入HCM-GRPO方法来增强多模态大语言模型的图像美学推理能力。

  • Motivation: 当前图像生成性能显著提升,但图像筛选研究匮乏,多模态大语言模型在图像美学推理方面表现不佳,主要由于缺乏数据和模型推理能力弱。
  • Method: 收集综合图像筛选数据集,采用多种标注方式获取高质量思维链数据;提出HCM-GRPO方法,在GRPO框架中引入困难案例挖掘策略和动态比例准确度奖励。
  • Result: 实验表明,即使是GPT4o和Qwen-VL-Max等最先进的闭源MLLMs在图像美学推理上表现接近随机猜测,而使用HCM-GRPO的小模型能够超越大型开源和领先闭源模型的得分。
  • Conclusion: HCM-GRPO方法显著提升了图像美学推理能力,证明了在图像筛选任务中,精心设计的训练策略比模型规模更重要。

[49] When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion?

Qilang Ye,Wei Zeng,Meng Liu,Jie Zhang,Yupeng Hu,Zitong Yu,Yu Zhou

Main category: cs.CV

TL;DR: 提出了AV-ConfuseBench基准测试音频-视觉混淆场景,发现MLLMs因视觉主导推理而难以识别不存在的声音。为此开发了RL-CoMM方法,通过引入音频语言模型和强化学习来改善多模态推理能力。

  • Motivation: 研究多模态大语言模型能否识别视觉存在但音频缺失的混淆对象,解决MLLMs因视觉主导推理而无法准确判断不存在音频的问题。
  • Method: 提出RL-CoMM方法:1)引入大型音频语言模型生成纯音频推理,设计逐步推理奖励函数让MLLMs自我改进;2)采用答案中心置信度优化减少推理差异的不确定性。
  • Result: 在音频-视觉问答和音频-视觉幻觉任务上的实验表明,RL-CoMM在有限训练数据下比基线模型准确率提升10-30%。
  • Conclusion: RL-CoMM有效缓解了MLLMs的视觉主导偏差,显著提升了音频-视觉推理能力,为多模态模型处理混淆场景提供了新思路。

[50] Multivariate Gaussian Representation Learning for Medical Action Evaluation

Luming Yang,Haoxian Liu,Siqing Li,Alper Yilmaz

Main category: cs.CV

TL;DR: 提出了GaussMedAct框架,使用多元高斯编码进行医疗动作评估,在CPREval-6k数据集上达到92.1%的Top-1准确率,比基线方法提升5.9%且仅需10%的计算量。

  • Motivation: 医疗视觉中的细粒度动作评估面临数据集不完整、精度要求严格以及快速动作的时空动态建模不足等挑战。
  • Method: 采用多元高斯表示将关节运动投影到时间缩放的多维空间,将动作分解为自适应3D高斯作为token;使用笛卡尔和向量双流策略的混合空间编码有效利用骨骼信息。
  • Result: 在CPREval-6k基准测试中达到92.1%的Top-1准确率,实时推理,比ST-GCN基线提升5.9%准确率且仅需10%FLOPs;跨数据集实验证实了方法的鲁棒性。
  • Conclusion: GaussMedAct框架通过自适应时空表示学习有效提升了医疗动作分析的性能,在精度和效率方面均表现出色。

[51] Perceive, Act and Correct: Confidence Is Not Enough for Hyperspectral Classification

Muzhou Yang,Wuzhou Quan,Mingqiang Wei

Main category: cs.CV

TL;DR: CABIN是一个半监督学习框架,通过感知-行动-修正的闭环学习过程解决高光谱图像分类中置信度误导的问题,利用不确定性估计和动态分配策略提升模型泛化能力。

  • Motivation: 高光谱图像分类中,仅依赖置信度会导致模型误判,特别是在稀疏标注或类别不平衡情况下,模型会过度拟合自信的错误预测,缺乏对不确定性的认知,产生确认偏差。
  • Method: CABIN采用三阶段方法:1) 感知阶段估计认知不确定性识别模糊区域;2) 行动阶段使用不确定性引导的双重采样策略,选择不确定样本进行探索,锚定置信样本作为稳定伪标签;3) 修正阶段引入细粒度动态分配策略,将伪标签数据分为可靠、模糊和噪声子集,应用定制化损失函数。
  • Result: 实验结果表明,多种最先进方法在集成CABIN后都获得了改进,提高了标注效率和分类性能。
  • Conclusion: CABIN通过认知感知的行为驱动学习有效解决了高光谱图像分类中的置信度误导问题,提升了模型在稀疏标注和类别不平衡情况下的泛化能力。

[52] VLF-MSC: Vision-Language Feature-Based Multimodal Semantic Communication System

Gwangyeon Ahn,Jiwan Seo,Joonhyuk Kang

Main category: cs.CV

TL;DR: 提出VLF-MSC系统,使用单一视觉-语言特征表示同时支持图像和文本生成,提高频谱效率

  • Motivation: 现有语义通信技术分别处理每种模态,需要特定模态流或重传,频谱效率低
  • Method: 使用预训练视觉语言模型将源图像编码为视觉-语言语义特征,通过无线信道传输;接收端基于该特征分别生成描述文本和语义对齐图像
  • Result: 在低信噪比下优于仅文本和仅图像基线,以显著减少的带宽实现两种模态的更高语义准确性
  • Conclusion: VLF-MSC通过统一表示消除了模态特定流的需求,利用基础模型实现信道噪声鲁棒性同时保持语义保真度

[53] Mitigating Error Accumulation in Co-Speech Motion Generation via Global Rotation Diffusion and Multi-Level Constraints

Xiangyue Zhang,Jianfang Li,Jianqiang Ren,Jiaxu Zhang

Main category: cs.CV

TL;DR: GlobalDiff是一个基于扩散模型的框架,首次直接在全局关节旋转空间操作,通过多级约束方案解决层次误差累积问题,显著提升共语音运动生成质量。

  • Motivation: 现有生成方法通常在局部关节旋转上操作,基于骨架结构分层定义,导致生成过程中累积误差,表现为末端执行器的不稳定和不合理运动。
  • Method: 提出GlobalDiff框架,在全局关节旋转空间直接操作;引入多级约束方案:关节结构约束使用虚拟锚点捕捉细粒度方向,骨架结构约束保持骨骼角度一致性,时间结构约束使用多尺度变分编码器对齐真实时间模式。
  • Result: 在标准共语音基准测试中,GlobalDiff生成平滑准确的运动,在多个说话者身份下相比当前SOTA性能提升46.0%。
  • Conclusion: 全局旋转空间操作结合多级约束能有效解决层次误差累积问题,显著提升共语音运动生成的可靠性和质量。

[54] GridPrune: From "Where to Look" to "What to Select" in Visual Token Pruning for MLLMs

Yuxiang Duan,Ao Li,Yingqin Li,Luyu Li,Pengwei Wang

Main category: cs.CV

TL;DR: GridPrune是一种新的视觉令牌剪枝方法,通过"全局引导、局部选择"的分区选择系统来提升多模态大语言模型的效率,在保持96.98%性能的同时仅使用11.1%的令牌。

  • Motivation: 现有剪枝方法主要关注"选择什么",忽略了"看向哪里",导致空间分配效率低下、位置偏见和保留无关令牌的问题。受人类视觉系统启发,需要先确定关注区域再进行细粒度选择。
  • Method: GridPrune将剪枝过程分为两步:首先使用文本条件引导动态分配令牌预算到空间区域,然后在每个预算区域内进行局部选择,取代全局Top-K机制。
  • Result: 在LLaVA-NeXT-7B上,GridPrune在相同剪枝率下比最佳基线性能提升2.34%,仅使用11.1%的令牌就能保持96.98%的完整性能。
  • Conclusion: GridPrune通过模拟人类视觉系统的两阶段策略,有效解决了现有剪枝方法的空间分配效率问题,在各种MLLM架构上均表现出优越性能。

[55] SUGAR: Learning Skeleton Representation with Visual-Motion Knowledge for Action Recognition

Qilang Ye,Yu Zhou,Lian He,Jie Zhang,Xuanming Guo,Jiayu Zhang,Mingkui Tan,Weicheng Xie,Yue Sun,Tao Tan,Xiaochen Yuan,Ghada Khoriba,Zitong Yu

Main category: cs.CV

TL;DR: SUGAR是一种结合LLMs和人体骨骼进行动作分类和描述的新范式,通过视觉-运动知识学习骨骼表示,使用预训练LLM理解这些表示来生成动作目标和描述。

  • Motivation: 探索如何让LLMs理解骨骼数据并区分不同动作,解决LLMs作为识别器时面临的两个关键问题:骨骼理解和动作区分。
  • Method: 使用大规模视频模型生成视觉和运动信息作为知识库,通过先验知识监督骨骼学习得到离散表示,使用预训练权重的LLM理解这些表示并生成动作分类和描述,提出Temporal Query Projection模块处理长序列骨骼信号。
  • Result: 在多个骨骼动作分类基准测试中表现出有效性,在零样本场景下比基于线性方法更具通用性。
  • Conclusion: SUGAR框架成功地将LLMs与骨骼数据结合,实现了有效的动作识别和描述,在零样本场景下展现出优越性能。

[56] MTAttack: Multi-Target Backdoor Attacks against Large Vision-Language Models

Zihan Wang,Guansong Pang,Wenjun Miao,Jin Zheng,Xiao Bai

Main category: cs.CV

TL;DR: MTAttack是一种针对大型视觉语言模型的多目标后门攻击框架,通过在单次训练中植入多个独立触发器,每个触发器对应不同的恶意输出目标,显著提升了攻击威胁性。

  • Motivation: 现有后门攻击主要针对单目标攻击,而现实应用中多目标后门攻击威胁更大。由于不同触发器之间存在严重特征干扰,实现准确的多重触发-目标映射具有挑战性。
  • Method: 提出MTAttack框架,核心是包含代理空间划分约束和触发器原型锚定约束的新型优化方法,在潜在空间中联合优化多个触发器,确保每个触发器将干净图像独立映射到唯一的代理类别,同时保证它们的可分离性。
  • Result: 在流行基准测试中,MTAttack在多目标攻击中实现了高成功率,显著优于现有攻击方法。该攻击在不同数据集上表现出强泛化能力,并对后门防御策略具有鲁棒性。
  • Conclusion: 研究揭示了大型视觉语言模型对多目标后门攻击的脆弱性,强调了缓解此类威胁的紧迫需求。

[57] RobIA: Robust Instance-aware Continual Test-time Adaptation for Deep Stereo

Jueun Ko,Hyewon Park,Hyesong Choi,Dongbo Min

Main category: cs.CV

TL;DR: 提出RobIA框架,用于立体深度估计中的持续测试时自适应,通过动态专家路由和鲁棒教师模型解决域偏移问题

  • Motivation: 真实环境中的立体深度估计面临动态域偏移、稀疏监督和高成本标注等挑战,现有TTA方法依赖静态假设和输入不变策略,限制了在持续变化环境中的有效性
  • Method: RobIA包含两个核心组件:(1)AttEx-MoE模块,通过轻量自注意力机制动态路由输入到冻结专家;(2)鲁棒AdaptBN教师模型,基于PEFT提供密集伪监督补充稀疏标注
  • Result: 大量实验表明RobIA在动态目标域上实现了优越的自适应性能,同时保持了计算效率
  • Conclusion: RobIA框架通过输入特定的灵活性和广泛的监督覆盖,在域偏移下提升了泛化能力,为持续测试时自适应提供了有效解决方案

[58] Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction

Mingda Jia,Weiliang Meng,Zenghuang Fu,Yiheng Li,Qi Zeng,Yifan Zhang,Ju Xin,Rongtao Xu,Jiguang Zhang,Xiaopeng Zhang

Main category: cs.CV

TL;DR: 提出了CACMI框架,通过显式建模视频的时序连贯性和语义上下文,解决密集视频描述中事件序列时序一致性和视觉上下文全面语义捕获的问题。

  • Motivation: 现有方法依赖隐式建模,使用帧级或碎片化视频特征,无法有效捕捉事件序列的时序连贯性和视觉上下文的全面语义。
  • Method: CACMI框架包含两个核心组件:跨模态帧聚合通过跨模态检索聚合相关帧,提取时序连贯的事件对齐文本特征;上下文感知特征增强利用查询引导注意力整合视觉动态与伪事件语义。
  • Result: 在ActivityNet Captions和YouCook2数据集上的大量实验表明,CACMI在密集视频描述任务上达到了最先进的性能。
  • Conclusion: CACMI通过显式建模视频的时序特性和语言语义,有效提升了密集视频描述的性能,证明了显式时序-语义建模的重要性。

[59] Right Looks, Wrong Reasons: Compositional Fidelity in Text-to-Image Generation

Mayank Vatsa,Aparna Bharati,Richa Singh

Main category: cs.CV

TL;DR: 当前文本到图像模型在逻辑组合方面存在根本缺陷,特别是在否定、计数和空间关系这三个核心原语上。当这些原语组合时,模型性能急剧下降,暴露出严重的干扰问题。

  • Motivation: 调查当今领先的文本到图像模型在逻辑组合方面的根本缺陷,特别是分析模型在处理否定、计数和空间关系等核心逻辑原语时的失败表现。
  • Method: 通过分析三个核心逻辑原语(否定、计数、空间关系)的组合表现,研究训练数据分布、注意力架构的局限性以及评估指标的偏差。
  • Result: 模型在单个原语上表现准确,但当原语组合时性能急剧崩溃。训练数据中几乎完全缺乏明确的否定表达,连续注意力架构本质上不适合离散逻辑,评估指标更注重视觉合理性而非约束满足。
  • Conclusion: 实现真正的组合性需要表示和推理方面的根本性进步,而不是对现有架构进行增量调整。简单的扩展无法弥合这一差距。

[60] Split-Layer: Enhancing Implicit Neural Representation by Maximizing the Dimensionality of Feature Space

Zhicheng Cai,Hao Zhu,Linsen Chen,Qiu Shen,Xun Cao

Main category: cs.CV

TL;DR: 提出split-layer方法,通过将MLP层分割为多个并行分支并用Hadamard积整合输出,构建高次多项式空间,显著提升隐式神经表示的表达能力而不增加过多计算开销。

  • Motivation: 传统MLP架构中低维特征空间限制了隐式神经表示的表达能力,而增加MLP宽度会导致计算和内存成本的二次增长。
  • Method: 将每个MLP层分割成多个并行分支,通过Hadamard乘积整合分支输出,构建高次多项式空间来扩展特征空间维度。
  • Result: 在2D图像拟合、2D CT重建、3D形状表示和5D新视角合成等多个任务中,split-layer显著提升了INR性能,超越了现有方法。
  • Conclusion: split-layer是一种有效的MLP重构方法,能够在不引入过高计算开销的情况下显著增强隐式神经表示的表达能力。

[61] Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

Feng Ding,Wenhui Yi,Yunpeng Zhou,Xinan He,Hong Rao,Shu Hu

Main category: cs.CV

TL;DR: 提出了一种双机制协同优化框架,通过结构公平解耦和全局分布对齐,在保持检测精度的同时提升深度伪造检测模型的公平性。

  • Motivation: 当前公平性增强的检测器往往以牺牲检测精度为代价来改善公平性,这在实际应用中不可取。深度伪造检测模型在性别、种族等人口统计群体上的偏见可能导致系统性误判,加剧数字鸿沟和社会不平等。
  • Method: 创新性地整合了结构公平解耦和全局分布对齐:在模型架构层面解耦对人口统计群体敏感的通道,随后在特征层面减少整体样本分布与各人口统计群体对应分布之间的距离。
  • Result: 实验结果表明,与其他方法相比,该框架在保持跨领域整体检测精度的同时,提高了组间和组内公平性。
  • Conclusion: 提出的双机制协同优化框架有效解决了深度伪造检测中公平性与准确性之间的权衡问题,为可信赖的数字身份安全部署提供了解决方案。

[62] GEA: Generation-Enhanced Alignment for Text-to-Image Person Retrieval

Hao Zou,Runqing Zhang,Xue Zhou,Jianxiao Zou

Main category: cs.CV

TL;DR: 提出了一种基于生成视角的生成增强对齐方法(GEA),通过文本引导的令牌增强和生成中间融合来解决文本到图像行人检索中的模态差距问题

  • Motivation: 现有的文本到图像行人检索方法存在文本查询无法准确反映图像内容、跨模态对齐困难以及过拟合等问题,文本和图像之间的固有模态差距进一步加剧了这些挑战
  • Method: GEA包含两个并行模块:文本引导令牌增强(TGTE)使用扩散生成图像作为中间语义表示来弥合文本与视觉模式之间的差距;生成中间融合(GIF)结合生成图像、原始图像和文本特征的交叉注意力,生成通过三元组对齐损失优化的统一表示
  • Result: 在CUHK-PEDES、RSTPReid和ICFG-PEDES三个公开数据集上的广泛实验证明了该方法的有效性
  • Conclusion: 提出的生成增强对齐方法能够有效解决文本到图像行人检索中的模态差距问题,提高跨模态检索性能

[63] Physically Interpretable Multi-Degradation Image Restoration via Deep Unfolding and Explainable Convolution

Hu Gao,Xiaoning Lei,Xichen Xu,Depeng Dang,Lizhuang Ma

Main category: cs.CV

TL;DR: 提出了一种基于深度展开网络的可解释性驱动多退化图像恢复方法InterIR,通过改进的二阶半光滑牛顿算法和受大脑启发的可解释卷积模块,在保持物理可解释性的同时实现多退化恢复。

  • Motivation: 现实场景中图像通常同时包含多种退化(如雨、噪声、雾霾),但现有方法大多只针对单一退化类型,且通过模块堆叠提升性能的方法往往缺乏可解释性。
  • Method: 基于深度展开网络,将数学优化算法的迭代过程映射到可学习网络结构,采用改进的二阶半光滑牛顿算法确保模块物理可解释性,并设计受大脑启发的可解释卷积模块自适应调整参数。
  • Result: InterIR在多退化恢复中表现出色,同时在单一退化任务上保持高度竞争力。
  • Conclusion: 该方法成功实现了可解释性与性能的平衡,为多退化图像恢复提供了有效的解决方案。

[64] CephRes-MHNet: A Multi-Head Residual Network for Accurate and Robust Cephalometric Landmark Detection

Ahmed Jaheen,Islam Hassan,Mohanad Abouserie,Abdelaty Rehab,Adham Elasfar,Knzy Elmasry,Mostafa El-Dawlatly,Seif Eldawlatly

Main category: cs.CV

TL;DR: CephRes-MHNet是一种用于头影测量标志点检测的多头残差卷积网络,在Aariz头影测量数据集上取得了1.23mm的平均径向误差和85.5%的成功检测率,优于现有方法。

  • Motivation: 传统手动标注头影测量标志点耗时且易出错,而现有自动化方法在低对比度和复杂解剖结构下表现不佳,需要开发更鲁棒高效的检测方法。
  • Method: 提出CephRes-MHNet网络架构,整合残差编码、双重注意力机制和多头解码器,增强上下文推理和解剖精度。
  • Result: 在1000张X光片数据集上,平均径向误差1.23mm,2.0mm阈值下成功检测率85.5%,参数数量仅为最强基线模型的25%。
  • Conclusion: CephRes-MHNet通过架构效率实现了最先进的精度,为实际正畸分析提供了实用解决方案。

[65] Utilizing a Geospatial Foundation Model for Coastline Delineation in Small Sandy Islands

Tishya Chhabra,Manisha Bajpai,Walter Zesk,Skylar Tibbits

Main category: cs.CV

TL;DR: 评估NASA和IBM的Prithvi-EO-2.0地理空间基础模型在小沙岛海岸线划定任务中的表现,使用少量训练数据即可获得高精度结果。

  • Motivation: 探索地理空间基础模型在数据稀缺地区海岸监测中的潜力,特别是针对小沙岛的海岸线划定任务。
  • Method: 使用225张马尔代夫岛屿多光谱卫星图像数据集,对Prithvi模型的300M和600M参数版本进行微调,训练集规模从5到181张图像不等。
  • Result: 即使仅使用5张训练图像,模型也能达到高性能(F1分数0.94,IoU 0.79),展示了强大的迁移学习能力。
  • Conclusion: Prithvi模型在数据稀缺地区具有显著的海岸监测潜力,其强大的迁移学习能力使其能够用极少量训练数据实现高精度海岸线划定。

[66] VISTA: A Vision and Intent-Aware Social Attention Framework for Multi-Agent Trajectory Prediction

Stephane Da Silva Martins,Emanuel Aldea,Sylvie Le Hégarat-Mascle

Main category: cs.CV

TL;DR: VISTA是一个基于递归目标条件transformer的多智能体轨迹预测模型,通过结合长期意图、历史运动和社会交互建模,实现了高精度且社会合规的轨迹预测,显著降低了碰撞率。

  • Motivation: 现有方法难以同时捕捉智能体的长期目标和细粒度社会交互,导致生成的多智能体未来轨迹不现实。需要开发能够联合建模长期意图和社会交互的预测框架。
  • Method: VISTA采用递归目标条件transformer架构,包含:(1)交叉注意力融合模块整合长期意图与历史运动;(2)社会令牌注意力机制实现灵活的跨智能体交互建模;(3)成对注意力图在推理时提供可解释的社会影响模式。
  • Result: 在MADRAS和SDD基准测试中,VISTA实现了最先进的精度,显著减少碰撞率。在MADRAS上将平均碰撞率从2.14%降至0.03%,在SDD上实现零碰撞,同时改进ADE、FDE和minFDE指标。
  • Conclusion: VISTA能够生成社会合规、目标感知且可解释的轨迹,为安全关键自主系统提供了有前景的解决方案。

[67] LiNeXt: Revisiting LiDAR Completion with Efficient Non-Diffusion Architectures

Wenzhe He,Xiaojun Chen,Ruiqi Wang,Ruihui Li,Huilong Pi,Jiapeng Zhang,Zhuo Tang,Kenli Li

Main category: cs.CV

TL;DR: 提出LiNeXt——一种轻量级的非扩散网络,用于快速准确的点云补全,相比扩散模型实现了199.8倍推理加速和50.7%的Chamfer距离降低。

  • Motivation: 现有基于扩散模型的方法虽然能实现高保真重建,但多步迭代采样导致计算开销大,限制了实时应用。需要开发更高效的实时点云补全方法。
  • Method: 1. Noise-to-Coarse模块单次去噪输入点云;2. Refine模块利用粗点云和中间特征进行精确细化;3. 提出距离感知选择重复策略生成均匀分布的噪声点云。
  • Result: 在SemanticKITTI数据集上,相比LiDiff:推理速度提升199.8倍,Chamfer距离降低50.7%,参数使用量仅为6.1%。
  • Conclusion: LiNeXt在效率和效果上均优于扩散模型,适用于自动驾驶等实时场景的点云补全任务。

[68] HeatV2X: Scalable Heterogeneous Collaborative Perception via Efficient Alignment and Interaction

Yueran Zhao,Zhang Zhang,Chao Sun,Tianze Wang,Chao Yue,Nuoran Li

Main category: cs.CV

TL;DR: HeatV2X是一个可扩展的V2X协同感知框架,通过异构图注意力和适配器设计解决多模态异构性和可扩展性问题,在减少训练成本的同时提升感知性能。

  • Motivation: 现有V2X协同感知框架面临两个关键挑战:(1)参与代理本质上是多模态和异构的;(2)框架需要可扩展以适应新代理。前者需要有效的跨代理特征对齐来减轻异构性损失,后者使得全参数训练不切实际。
  • Method: 首先基于异构图注意力训练高性能代理作为协同学习基础,然后设计局部异构微调和全局协同微调:前者使用Hetero-Aware适配器提取模态特定差异,后者使用Multi-Cognitive适配器增强跨代理协作和融合潜力。
  • Result: 在OPV2V-H和DAIR-V2X数据集上的实验结果表明,该方法以显著减少的训练开销实现了优越的感知性能,优于现有最先进方法。
  • Conclusion: HeatV2X框架通过异构适应设计,能够在最小训练成本下实现协同框架的显著性能提升,有效解决了V2X协同感知中的异构性和可扩展性问题。

[69] Next-Frame Feature Prediction for Multimodal Deepfake Detection and Temporal Localization

Ashutosh Anshul,Shreyas Gopal,Deepu Rajan,Eng Siong Chng

Main category: cs.CV

TL;DR: 提出单阶段训练框架,通过结合单模态和跨模态特征的下一帧预测来增强泛化能力,并引入窗口级注意力机制检测预测帧与实际帧之间的差异。

  • Motivation: 现有多模态深度伪造检测方法需要预训练真实样本,且主要关注音视频不一致性,可能忽略模态内伪影,导致在保持音视频对齐的篡改中失效。
  • Method: 单阶段训练框架,结合单模态和跨模态特征的下一帧预测,引入窗口级注意力机制捕捉预测帧与实际帧之间的差异。
  • Result: 在多个基准数据集上评估,模型表现出强大的泛化能力和精确的时间定位能力。
  • Conclusion: 提出的方法能有效检测完全篡改视频并精确定位部分伪造样本中的深度伪造片段。

[70] TubeRMC: Tube-conditioned Reconstruction with Mutual Constraints for Weakly-supervised Spatio-Temporal Video Grounding

Jinxuan Li,Yi Zhang,Jian-Fang Hu,Chaolei Tan,Tianming Liang,Beihao Xia

Main category: cs.CV

TL;DR: 提出了TubeRMC框架,通过管状条件重建和相互约束来解决弱监督时空视频定位中的目标识别和跟踪不一致问题。

  • Motivation: 现有弱监督STVG方法采用简单的后期融合方式,生成与文本描述无关的管状结构,导致目标识别失败和跟踪不一致。
  • Method: 使用预训练视觉定位模型生成文本条件候选管,通过管状条件重建和时空约束进行细化,设计了时间、空间和时空三个重建策略,并引入空间和时间提议之间的相互约束。
  • Result: 在VidSTG和HCSTVG两个公开基准测试中优于现有方法,有效缓解了目标识别错误和不一致跟踪问题。
  • Conclusion: TubeRMC框架通过管状条件重建和相互约束机制,显著提升了弱监督时空视频定位的性能。

[71] FineSkiing: A Fine-grained Benchmark for Skiing Action Quality Assessment

Yongji Zhang,Siqi Li,Yue Gao,Yu Jiang

Main category: cs.CV

TL;DR: 本文构建了首个包含细粒度子分数和扣分标注的空中滑雪AQA数据集,并提出JudgeMind方法模拟专业裁判的评分思维,通过分阶段评分、阶段感知特征增强和基于知识的等级感知解码器,显著提升了动作质量评估的性能和可靠性。

  • Motivation: 现有AQA方法主要基于整个视频提取特征预测分数,解释性和可靠性有限,且现有数据集缺乏细粒度的动作分数标注,特别是扣分项和子分数标注。
  • Method: 提出JudgeMind方法:1)将输入动作视频分割为不同阶段并分别评分;2)阶段感知特征增强和融合模块,增强对阶段特定关键区域的感知;3)基于知识的等级感知解码器,将可能的扣分项作为先验知识来预测更准确的分数。
  • Result: 实验结果表明,该方法达到了最先进的性能水平。
  • Conclusion: JudgeMind方法通过模拟专业裁判的评分思维,显著提升了AQA任务的性能和可靠性,为动作质量评估提供了新的技术思路。

[72] Facial-R1: Aligning Reasoning and Recognition for Facial Emotion Analysis

Jiulong Wu,Yucheng Shen,Lingyong Yan,Haixin Sun,Deguo Xia,Jizhou Huang,Min Cao

Main category: cs.CV

TL;DR: Facial-R1是一个三阶段对齐框架,通过指令微调、强化训练和数据合成来解决面部情感分析中的幻觉推理和识别-推理不对齐问题,在8个基准测试中达到最先进性能。

  • Motivation: 传统面部情感分析方法存在两个关键限制:(1) 幻觉推理 - 视觉语言模型生成看似合理但不准确的解释;(2) 情感推理与识别之间的不对齐 - 观察到的面部特征与最终标签之间的连接碎片化。
  • Method: 提出三阶段对齐框架:1) 指令微调建立基本情感推理能力;2) 以情感和AU标签为奖励信号的强化训练,显式对齐生成推理过程与预测情感;3) 数据合成管道迭代利用前阶段扩展训练数据集,实现可扩展的自我改进。
  • Result: 构建了FEA-20K基准数据集(17,737训练样本和1,688测试样本),在8个标准基准测试中达到最先进性能,具有强大的泛化能力和鲁棒可解释性。
  • Conclusion: Facial-R1框架有效解决了面部情感分析中的关键挑战,通过最小监督实现了情感推理与识别的对齐,并在多个基准测试中验证了其优越性能。

[73] H3Former: Hypergraph-based Semantic-Aware Aggregation via Hyperbolic Hierarchical Contrastive Loss for Fine-Grained Visual Classification

Yongji Zhang,Siqi Li,Kuiyang Huang,Yue Gao,Yu Jiang

Main category: cs.CV

TL;DR: H3Former是一个基于高阶语义关系的token-to-region框架,通过语义感知聚合模块和双曲层次对比损失,在细粒度视觉分类任务中取得了优越性能。

  • Motivation: 现有细粒度视觉分类方法通常依赖特征选择或区域提议策略来定位判别性区域,但往往无法全面捕捉判别性线索,同时引入大量类别无关冗余。
  • Method: 提出语义感知聚合模块(SAAM),利用多尺度上下文线索动态构建token间的加权超图,通过超图卷积捕获高阶语义依赖;引入双曲层次对比损失(HHCL),在非欧几里得嵌入空间中强制层次语义约束。
  • Result: 在四个标准FGVC基准测试上的综合实验验证了H3Former框架的优越性。
  • Conclusion: H3Former通过结构化区域级建模和高阶语义关系聚合,有效提升了细粒度视觉分类的性能。

[74] PROPA: Toward Process-level Optimization in Visual Reasoning via Reinforcement Learning

Yanbei Jiang,Chao Lei,Yihao Ding,Krista Ehinger,Jey Han Lau

Main category: cs.CV

TL;DR: PROPA是一个新颖的视觉语言模型优化框架,通过结合蒙特卡洛树搜索和GRPO生成密集的过程级奖励,无需人工标注即可优化推理过程的每个中间步骤。

  • Motivation: 现有的视觉语言模型在复杂视觉推理任务中仍存在困难,多步依赖导致早期错误在推理链中传播。现有的后训练方法要么依赖昂贵的步骤级标注(SFT),要么只能提供稀疏的结果级反馈(RLVR),限制了稳定优化。
  • Method: PROPA框架整合了蒙特卡洛树搜索与GRPO,生成密集的过程级奖励。通过交替进行GRPO更新和SFT来克服冷启动问题,并训练过程奖励模型来指导推理时搜索。
  • Result: 在7个基准测试和4个VLM骨干网络上,PROPA始终优于SFT和RLVR基线方法。相比现有最先进方法,在域内任务上提升高达17.0%,在域外任务上提升高达21.0%。
  • Conclusion: PROPA为视觉推理任务建立了强大的推理和泛化能力,通过过程级优化显著提升了视觉语言模型的性能。

[75] Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models

Zhengtao Zou,Ya Gao,Jiarui Guan,Bin Li,Pekka Marttinen

Main category: cs.CV

TL;DR: RUDDER是一个低开销框架,通过单次前向传播提取视觉证据向量,并使用贝叶斯自适应门控来减少大型视觉语言模型的对象幻觉问题,在保持性能的同时显著降低计算延迟。

  • Motivation: 现有缓解对象幻觉的推理时干预方法存在计算开销大的问题,通常需要额外前向传播,限制了在延迟敏感的实际部署中的实用性。
  • Method: 提出RUDDER框架,包含:(1) CARD向量 - 在单次标准前向传播中从自注意力层的残差更新提取的视觉证据向量;(2) 贝叶斯启发的自适应门控 - 根据模型偏离视觉上下文程度进行token级注入的校正信号。
  • Result: 在POPE和CHAIR等关键幻觉基准测试中,RUDDER实现了与最先进方法相当的性能,同时引入了可忽略的计算延迟。
  • Conclusion: RUDDER是一种实用有效的框架,可在不显著牺牲效率的情况下提高LVLMs的可靠性。

[76] Generalizable Slum Detection from Satellite Imagery with Mixture-of-Experts

Sumin Lee,Sungwon Park,Jeasurk Yang,Jihee Kim,Meeyoung Cha

Main category: cs.CV

TL;DR: 提出了GRAM框架,一种无需目标区域标注数据的测试时自适应方法,用于解决卫星图像贫民窟分割中的区域泛化问题。

  • Motivation: 卫星贫民窟分割对全球城市贫困估算很重要,但非正式定居点的形态异质性导致模型难以泛化到未见区域。
  • Method: 使用12个城市百万级卫星图像数据集,采用专家混合架构学习区域特定特征和通用特征,通过预测一致性过滤不可靠伪标签进行自适应。
  • Result: GRAM在非洲城市等低资源设置中优于现有方法,为全球贫民窟测绘提供可扩展的标签高效解决方案。
  • Conclusion: GRAM框架能够有效解决贫民窟分割的区域泛化问题,为数据驱动的城市规划提供实用工具。

[77] Rethinking Visual Information Processing in Multimodal LLMs

Dongwan Kim,Viresh Ranjan,Takashi Nagata,Arnab Dhua,Amit Kumar K C

Main category: cs.CV

TL;DR: LLaViT通过将LLM同时用作视觉编码器,解决了LLaVA架构中视觉特征整合不佳的问题,在多个基准测试中显著优于LLaVA基线方法。

  • Motivation: 解决LLaVA架构中文本和视觉模态不匹配导致的视觉特征整合问题,从新的角度让LLM同时充当强大的视觉编码器。
  • Method: 通过三个关键修改实现:1) 为视觉模态学习独立的QKV投影;2) 在视觉token上启用双向注意力;3) 结合全局和局部视觉表示。
  • Result: 在广泛的LLM上进行控制实验,LLaViT在多个基准测试中显著优于LLaVA基线方法,甚至超过参数数量翻倍的模型。
  • Conclusion: LLaViT为视觉语言建模建立了一种更有效的方法,通过让LLM同时作为视觉编码器来解决模态不匹配问题。

[78] Revisiting Evaluation of Deep Neural Networks for Pedestrian Detection

Patrick Feifel,Benedikt Franke,Frank Bonarens,Frank Köster,Arne Raulf,Friedhelm Schwenker

Main category: cs.CV

TL;DR: 提出基于图像分割的细粒度行人检测评估方法,定义8种错误类别和新指标,在CityPersons数据集上实现SOTA性能。

  • Motivation: 当前行人检测性能评估指标存在缺陷,无法真实反映DNN模型在自动驾驶系统中的表现。图像分割提供的细粒度场景信息可以用于自动区分不同类型的检测错误。
  • Method: 提出8种不同的行人检测错误类别,并基于这些类别设计新的性能评估指标。使用简化的APD架构比较不同主干网络,通过新指标进行更细粒度和鲁棒的模型比较。
  • Result: 在CityPersons-reasonable数据集上实现了SOTA性能(无需额外训练数据),使用相对简单的架构。新评估方法能够更准确地评估安全关键性能。
  • Conclusion: 提出的基于图像分割的细粒度评估方法能够更真实地反映行人检测器的性能,特别是在安全关键场景下,为自动驾驶系统提供了更可靠的性能评估框架。

[79] CLIP4VI-ReID: Learning Modality-shared Representations via CLIP Semantic Bridge for Visible-Infrared Person Re-identification

Xiaomei Yang,Xizhan Gao,Sijie Niu,Fa Zhu,Guang Feng,Xiaofeng Qu,David Camacho

Main category: cs.CV

TL;DR: 提出CLIP4VI-ReID网络,通过文本语义生成、红外特征嵌入和高层语义对齐三个模块,解决可见光-红外行人重识别任务中的模态差异问题。

  • Motivation: 可见光图像和红外图像在物理特性上存在巨大差异,导致跨模态行人重识别任务面临挑战。需要设计有效的方法来弥合这种模态差距。
  • Method: 1. 文本语义生成(TSG):仅为可见光图像生成文本语义,实现可见光-文本模态对齐;2. 红外特征嵌入(IFE):利用生成的文本语义修正红外图像特征嵌入;3. 高层语义对齐(HSA):精炼高层语义对齐,确保文本语义仅包含身份相关信息。
  • Result: 在多个广泛使用的VI-ReID数据集上,CLIP4VI-ReID方法优于其他最先进的方法,取得了优越的性能。
  • Conclusion: 该方法通过文本作为桥梁,实现了可见光-红外模态的间接对齐,增强了学习到的模态共享表示的可区分性,有效解决了跨模态行人重识别任务。

[80] Depth-Consistent 3D Gaussian Splatting via Physical Defocus Modeling and Multi-View Geometric Supervision

Yu Deng,Baozhu Zhao,Junyan Su,Xiaohan Zhang,Qi Liu

Main category: cs.CV

TL;DR: 提出了一种结合景深监督和多视角一致性监督的3D高斯泼溅改进框架,解决了极端深度变化场景中的深度估计问题,在Waymo数据集上比现有方法PSNR提升0.8dB。

  • Motivation: 现有方法无法同时解决远距离区域深度估计不准确和近距离区域结构退化的问题,特别是在深度变化剧烈的场景中。
  • Method: 包含两个核心组件:1) 景深监督使用Metric3D生成深度先验,通过散焦卷积合成物理准确的散焦图像,利用景深损失增强几何一致性;2) 多视角一致性监督使用LoFTR半稠密特征匹配最小化跨视角几何误差,通过最小二乘优化可靠匹配点来强制深度一致性。
  • Result: 在Waymo Open Dataset上实现了0.8 dB的PSNR提升,在远场和近场区域都显著提高了深度保真度。
  • Conclusion: 该框架将物理成像原理与基于学习的深度正则化相结合,为城市环境中复杂深度分层提供了可扩展的解决方案。

[81] Learning to Tell Apart: Weakly Supervised Video Anomaly Detection via Disentangled Semantic Alignment

Wenti Yin,Huaxin Zhang,Xiang Wang,Yuqing Lu,Yicheng Zhang,Bingquan Gong,Jialong Zuo,Li Yu,Changxin Gao,Nong Sang

Main category: cs.CV

TL;DR: 提出DSANet网络,通过粗粒度和细粒度两个层面显式分离异常和正常特征,提升弱监督视频异常检测的区分能力。

  • Motivation: 现有方法倾向于检测最显著响应片段,忽视挖掘与异常分离的多样化正常模式,且由于相似外观容易导致类别混淆,导致细粒度分类结果不理想。
  • Method: 在粗粒度层面引入自引导正常性建模分支,在细粒度层面提出解耦对比语义对齐机制,分别通过正常原型重构和视觉语言对比学习增强特征区分性。
  • Result: 在XD-Violence和UCF-Crime两个标准基准测试中,DSANet优于现有最先进方法。
  • Conclusion: 所提出的DSANet通过显式分离异常和正常特征,有效提升了弱监督视频异常检测的性能。

[82] FOUND: Fourier-based von Mises Distribution for Robust Single Domain Generalization in Object Detection

Mengzhu Wang,Changyuan Deng,Shanshan Wang,Nan Yin,Long Lan,Liang Yang

Main category: cs.CV

TL;DR: 提出了一种结合von Mises-Fisher分布和傅里叶变换的CLIP引导框架,用于提升单域泛化目标检测的跨域鲁棒性。

  • Motivation: 现有CLIP语义增强方法忽略了特征分布结构和频域特性对鲁棒性的重要性,需要更好地捕获域不变语义结构。
  • Method: 使用vMF分布建模对象表示的方向特征,结合傅里叶变换进行幅度和相位扰动来模拟域偏移,在CLIP引导下增强特征多样性和结构一致性。
  • Result: 在多样化天气驾驶基准测试中,该方法优于现有最先进方法。
  • Conclusion: 通过整合vMF分布和傅里叶变换,有效提升了单域泛化目标检测的跨域泛化能力。

[83] DermAI: Clinical dermatology acquisition through quality-driven image collection for AI classification in mobile

Thales Bezerra,Emanoel Thyago,Kelvin Cunha,Rodrigo Abreu,Fábio Papais,Francisco Mauro,Natália Lopes,Érico Medeiros,Jéssica Guido,Shirley Cruz,Paulo Borba,Tsang Ing Ren

Main category: cs.CV

TL;DR: DermAI是一个基于智能手机的轻量级应用,能够在常规咨询中实时捕捉、标注和分类皮肤病变。该工具通过设备端质量检查和本地模型适应,解决了AI皮肤病学中数据集偏见、图像质量变化和验证有限的问题。

  • Motivation: AI皮肤病学的应用受到偏见数据集、图像质量变化和有限验证的限制。需要开发能够适应不同肤色、种族和来源设备的标准化、多样化数据收集方法。
  • Method: 开发了DermAI智能手机应用,支持实时皮肤病变捕捉、标注和分类。该工具执行设备端质量检查,并采用本地模型适应方法,使用包含广泛肤色、种族和来源设备的临床数据集。
  • Result: 在初步实验中,基于公共数据集训练的模型无法泛化到研究样本,而使用本地数据进行微调后性能得到改善。
  • Conclusion: 研究结果强调了标准化、多样化数据收集的重要性,这些数据应与医疗需求对齐并面向机器学习开发。

[84] SHRUG-FM: Reliability-Aware Foundation Models for Earth Observation

Kai-Hendrik Cohrs,Zuzanna Osika,Maria Gonzalez-Calabuig,Vishal Nedungadi,Ruben Cartuyvels,Steffen Knoblauch,Joppe Massant,Shruti Nath,Patrick Ebel,Vasileios Sitokonstantinou

Main category: cs.CV

TL;DR: SHRUG-FM是一个用于地球观测地理空间基础模型的可靠性感知预测框架,通过集成输入空间OOD检测、嵌入空间OOD检测和任务特定预测不确定性来识别不可靠预测,特别应用于烧伤疤痕分割任务。

  • Motivation: 地理空间基础模型在预训练数据中代表性不足的环境中往往表现不可靠,需要开发能够识别和量化这种不可靠性的方法。
  • Method: 集成三种互补信号:输入空间OOD检测、嵌入空间OOD检测和任务特定预测不确定性,并将这些标志与HydroATLAS的土地覆盖属性关联分析。
  • Result: OOD分数与特定环境条件下的较低性能相关,基于不确定性的标志有助于丢弃许多表现不佳的预测,失败集中在低海拔区域和大型河流区域等特定地理区域。
  • Conclusion: SHRUG-FM为在气候敏感应用中更安全、更可解释地部署地理空间基础模型提供了途径,有助于弥合基准性能与实际可靠性之间的差距。

[85] MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation

Xun Huang,Shijia Zhao,Yunxiang Wang,Xin Lu,Wanfa Zhang,Rongsheng Qu,Weixin Li,Yunhong Wang,Chenglu Wen

Main category: cs.CV

TL;DR: 提出了M3DSG多模态3D场景图和MSGNav零样本导航系统,解决了现有方法中视觉信息丢失和词汇受限的问题,在GOAT-Bench和HM3D-OVON数据集上达到最先进性能。

  • Motivation: 现实世界机器人导航需要开放词汇泛化和低训练成本,现有零样本方法构建显式3D场景图时会将丰富视觉观察压缩为纯文本关系,导致构建成本高、视觉证据不可逆丢失和词汇受限。
  • Method: 引入M3DSG多模态3D场景图,用动态分配的图像替换文本关系边来保留视觉线索;基于此构建MSGNav系统,包含关键子图选择、自适应词汇更新、闭环推理和基于可见性的视点决策模块。
  • Result: 在GOAT-Bench和HM3D-OVON数据集上的综合实验结果表明,MSGNav实现了最先进的性能。
  • Conclusion: MSGNav通过多模态场景图和专门设计的模块,有效解决了零样本导航中的视觉信息保留和最后一英里问题,为现实世界机器人导航提供了可行的解决方案。

[86] Fragile by Design: On the Limits of Adversarial Defenses in Personalized Generation

Zhen Chen,Yi Zhang,Xiangyu Yin,Chengxuan Qin,Xingyu Zhao,Xiaowei Huang,Wenjie Ruan

Main category: cs.CV

TL;DR: 现有防御方法(如Anti-DreamBooth)存在两个关键缺陷:对抗样本有明显的视觉伪影,且易被简单图像滤波器去除,导致用户身份保护失效。

  • Motivation: DreamBooth等个性化AI应用存在面部身份泄露风险,现有防御方法存在明显不足,需要更有效的保护机制。
  • Method: 提出了AntiDB_Purify评估框架,系统评估现有防御方法在传统图像滤波和对抗净化等现实威胁下的表现。
  • Result: 结果显示当前所有防御方法在净化威胁下都失去保护效果,无法有效防止用户身份泄露。
  • Conclusion: 现有防御方法提供的是虚假安全感,迫切需要开发更隐蔽和鲁棒的保护机制来保障个性化生成中的用户身份安全。

[87] SAMIRO: Spatial Attention Mutual Information Regularization with a Pre-trained Model as Oracle for Lane Detection

Hyunjong Lee,Jangho Lee,Jaekoo Lee

Main category: cs.CV

TL;DR: 提出了SAMIRO方法,通过空间注意力互信息正则化和预训练模型作为Oracle,提升车道线检测性能,在各种模型和数据集上均能稳定改进效果。

  • Motivation: 现实环境中的背景干扰、光照变化和遮挡等问题给车道线检测带来挑战,数据驱动方法需要大量标注数据,成本高昂。需要利用周围车道和物体的上下文和全局信息。
  • Method: SAMIRO方法结合空间注意力互信息正则化和预训练模型作为Oracle,在保持领域无关空间信息的同时,从预训练模型转移知识。具有即插即用特性,可集成到各种先进车道线检测方法中。
  • Result: 在CULane、Tusimple和LLAMAS等主要基准测试上进行广泛实验,结果表明SAMIRO在不同模型和数据集上均能一致提升性能。
  • Conclusion: SAMIRO是一种有效的车道线检测增强方法,能够稳定改进现有模型的性能,具有很好的通用性和实用性。

[88] Physics informed Transformer-VAE for biophysical parameter estimation: PROSAIL model inversion in Sentinel-2 imagery

Prince Mensah,Pelumi Victor Aderinto,Ibrahim Salihu Yusuf,Arnu Pretorius

Main category: cs.CV

TL;DR: 提出了一种基于物理信息的Transformer-VAE架构,用于从Sentinel-2卫星数据中反演植被生物物理参数,仅使用模拟数据训练即可达到与使用真实图像训练的最先进方法相当的性能。

  • Motivation: 准确从卫星图像中反演植被生物物理变量对于生态系统监测和农业管理至关重要,现有混合方法需要真实卫星图像进行自监督训练,成本较高。
  • Method: 使用Transformer-VAE架构,将PROSAIL辐射传输模型作为可微分物理解码器,确保推断的潜在变量对应物理上合理的叶片和冠层属性,仅使用模拟数据进行训练。
  • Result: 在真实世界数据集(FRM4Veg和BelSAR)上反演叶面积指数(LAI)和冠层叶绿素含量(CCC),准确性与使用真实Sentinel-2数据训练的模型相当。
  • Conclusion: 该方法无需实地标签或对真实图像进行校准,为全球植被监测提供了一种经济高效的自监督解决方案,展示了将物理模型与先进深度网络结合改进RTM反演的前景。

[89] MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns

Jiarui Zhang,Yuliang Liu,Zijun Wu,Guosheng Pang,Zhili Ye,Yupei Zhong,Junteng Ma,Tao Wei,Haiyang Xu,Weikai Chen,Zeen Wang,Qiangjun Ji,Fanxi Zhou,Qi Zhang,Yuanrui Hu,Jiahao Liu,Zhang Li,Ziyang Zhang,Qiang Liu,Xiang Bai

Main category: cs.CV

TL;DR: MonkeyOCR v1.5是一个统一的视觉语言框架,通过两阶段解析流程增强文档布局理解和内容识别,在复杂文档解析任务中达到最先进性能。

  • Motivation: 现实世界文档通常包含复杂布局,如多级表格、嵌入式图像或公式以及跨页结构,这对现有OCR系统构成挑战。
  • Method: 采用两阶段解析流程:第一阶段使用大型多模态模型联合预测文档布局和阅读顺序;第二阶段在检测区域内执行文本、公式和表格的局部识别。针对复杂表格结构,提出基于视觉一致性的强化学习方案和两个专用模块(图像解耦表格解析和类型引导表格合并)。
  • Result: 在OmniDocBench v1.5上的综合实验表明,MonkeyOCR v1.5实现了最先进的性能,优于PPOCR-VL和MinerU 2.5,并在视觉复杂文档场景中表现出卓越的鲁棒性。
  • Conclusion: MonkeyOCR v1.5通过统一的视觉语言框架和专门设计的模块,有效解决了复杂文档解析的挑战,为文档智能应用提供了可靠支持。

[90] GrounDiff: Diffusion-Based Ground Surface Generation from Digital Surface Models

Oussema Dhaouadi,Johannes Meier,Jacques Kaiser,Daniel Cremers

Main category: cs.CV

TL;DR: 提出了Ground Diffusion (GrounDiff),首个基于扩散模型的框架,通过将DSM到DTM转换问题表述为去噪任务来迭代移除非地面结构。该方法在多个基准测试中显著优于现有深度学习方法。

  • Motivation: 数字地形模型(DTM)在众多地理空间应用中很重要,但无法直接测量,通常需要从数字表面模型(DSM)生成。传统方法依赖手动调参,而学习型方法需要精心设计的架构和后处理。
  • Method: 引入GrounDiff扩散框架,采用门控设计和置信度引导生成实现选择性过滤。提出Prior-Guided Stitching (PrioStitch)提高可扩展性,使用GrounDiff自动生成的下采样全局先验来指导局部高分辨率预测。
  • Result: 在DSM到DTM转换任务中,GrounDiff在ALS2DTM上降低RMSE达93%,在USGS基准上降低47%。在道路重建任务中,距离误差比专门技术降低81%,同时保持竞争性的表面平滑度。
  • Conclusion: GrounDiff是首个基于扩散模型的DTM生成框架,在各种数据集上一致优于最先进的深度学习方法,无需任务特定优化即可实现卓越性能。

[91] LLM-YOLOMS: Large Language Model-based Semantic Interpretation and Fault Diagnosis for Wind Turbine Components

Yaru Li,Yanxue Wang,Meng Li,Xinming Li,Jianbo Feng

Main category: cs.CV

TL;DR: 提出结合YOLOMS目标检测与大型语言模型的集成框架,用于风力涡轮机故障智能分析和诊断,提高检测准确性和结果可解释性。

  • Motivation: 现有故障检测方法主要局限于视觉识别,缺乏语义可解释性,无法支持维护决策制定。
  • Method: 使用YOLOMS进行多尺度检测和滑动窗口裁剪增强故障特征提取,通过轻量级KV映射模块将视觉输出转换为结构化文本表示,再通过领域调优的LLM进行语义推理生成可解释分析。
  • Result: 在真实数据集上实现90.6%的故障检测准确率和89%的平均维护报告准确率。
  • Conclusion: 该框架显著提高了诊断结果的可解释性,为风力涡轮机运维提供实用的决策支持。

[92] 3DFETUS: Standardizing Fetal Facial Planes in 3D Ultrasound

Alomar Antonia,Rubio Ricardo,Albaiges Gerard,Salort-Benejam Laura,Caminal Julia,Prat Maria,Rueda Carolina,Cortes Berta,Piella Gemma,Sukno Federico

Main category: cs.CV

TL;DR: 提出GT++算法和3DFETUS深度学习模型,用于从3D超声体积中自动定位标准胎儿面部平面,解决胎儿超声检查中因胎儿运动、方向变异和操作者依赖导致的挑战。

  • Motivation: 常规胎儿超声检查中获取标准面部平面具有挑战性,主要由于胎儿运动、方向变异和操作者依赖的专业知识差异,导致不一致性、检查时间增加和潜在诊断偏差。
  • Method: 1) GT++算法:使用标注的解剖标志从3D超声体积中估计标准面部平面;2) 3DFETUS深度学习模型:在3D胎儿超声体积中自动化和标准化平面定位。
  • Result: 平均平移误差4.13毫米,平均旋转误差7.93度/平面,优于其他最先进方法。临床评估证实了GT++和3DFETUS的有效性,在平面估计精度方面显示出统计学显著改进。
  • Conclusion: 该方法成功解决了胎儿超声面部评估中的挑战,通过自动化和标准化平面定位提高了准确性和一致性,具有临床实用价值。

[93] RodEpil: A Video Dataset of Laboratory Rodents for Seizure Detection and Benchmark Evaluation

Daniele Perlo,Vladimir Despotovic,Selma Boudissa,Sang-Yoon Kim,Petr Nazarov,Yanrong Zhang,Max Wintermark,Olivier Keunen

Main category: cs.CV

TL;DR: 该研究介绍了一个用于自动检测啮齿类动物惊厥事件的视频数据集,包含10,101个正常样本和2,952个癫痫样本,使用TimeSformer模型在严格受试者划分下达到97%的F1分数。

  • Motivation: 为临床前癫痫研究提供非侵入性、基于视频的监测方法,支持可重复研究。
  • Method: 使用TimeSformer视频分类器,采用五折交叉验证和严格的受试者划分策略防止数据泄露。
  • Result: TimeSformer架构能够区分癫痫和正常活动,平均F1分数达到97%。
  • Conclusion: 该数据集和基准代码已公开发布,为临床前癫痫研究的非侵入性视频监测提供了可靠工具。

[94] Histology-informed tiling of whole tissue sections improves the interpretability and predictability of cancer relapse and genetic alterations

Willem Bonnaffé,Yang Hu,Andrea Chatrian,Mengran Fan,Stefano Malacrino,Sandy Figiel,CRUK ICGC Prostate Group,Srinivasa R. Rao,Richard Colling,Richard J. Bryant,Freddie C. Hamdy,Dan J. Woodcock,Ian G. Mills,Clare Verrill,Jens Rittscher

Main category: cs.CV

TL;DR: 提出了一种基于组织学信息的切片方法HIT,通过语义分割从全切片图像中提取腺体作为生物意义明确的输入补丁,用于多实例学习和表型分析,提高了癌症检测的准确性和可解释性。

  • Motivation: 传统数字病理学管道依赖基于网格的切片方法,忽略了组织结构,引入了不相关信息并限制了可解释性。需要一种能够提取生物意义明确结构的方法来改进癌症检测和表型分析。
  • Method: 使用语义分割从全切片图像中提取腺体作为输入补丁,应用于多实例学习框架。在137个样本上训练,从760个WSI中提取了380,000个腺体。
  • Result: 腺体级Dice得分为0.83±0.17;将MIL模型在检测上皮-间质转化和MYC相关基因拷贝数变异方面的AUC提高了10%;识别出15个腺体簇,其中多个与癌症复发、致癌突变和高Gleason评分相关。
  • Conclusion: HIT通过专注于生物意义明确的结构进行特征提取,提高了MIL预测的准确性和可解释性,同时简化了计算。

[95] OpenSR-SRGAN: A Flexible Super-Resolution Framework for Multispectral Earth Observation Data

Simon Donike,Cesar Aybar,Julio Contreras,Luis Gómez-Chova

Main category: cs.CV

TL;DR: OpenSR-SRGAN是一个用于地球观测中单图像超分辨率的开源模块化框架,提供SRGAN风格模型的统一实现,通过配置文件简化模型配置和扩展。

  • Motivation: 降低研究人员和从业者使用SRGAN进行实验的门槛,为地球观测数据提供可复现的超分辨率解决方案。
  • Method: 采用配置驱动的工作流程,通过配置文件暴露生成器、判别器、损失函数和训练计划,支持多光谱卫星数据如Sentinel-2。
  • Result: 提供了即用型配置、合理的默认设置以及内置的日志记录、验证和大场景推理功能。
  • Conclusion: OpenSR-SRGAN使基于GAN的超分辨率变得易于配置和部署,促进了地球观测领域超分辨率研究的可复现性和实用性。

[96] Utility of Pancreas Surface Lobularity as a CT Biomarker for Opportunistic Screening of Type 2 Diabetes

Tejas Sudharshan Mathai,Anisa V. Prasad,Xinya Wang,Praveen T. S. Balamuralikrishna,Yan Zhuang,Abhinav Suri,Jianfei Liu,Perry J. Pickhardt,Ronald M. Summers

Main category: cs.CV

TL;DR: 本研究开发了一种全自动方法,通过CT成像生物标志物(特别是胰腺表面分叶度PSL)来筛查2型糖尿病,发现PSL在糖尿病患者中显著升高,多变量模型预测T2DM的AUC达到0.90。

  • Motivation: 2型糖尿病早期检测至关重要,但胰腺表面分叶度在T2DM患者中的作用尚未充分研究,需要开发自动化方法来利用CT成像进行糖尿病筛查。
  • Method: 使用四种深度学习模型在584名患者内部数据集上分割胰腺,自动检测PSL,并训练多变量模型使用CT生物标志物预测T2DM。
  • Result: 糖尿病患者PSL显著更高(4.26±8.32 vs 3.19±3.62,p=0.01),PancAP模型达到最高Dice分数0.79±0.17,T2DM预测模型AUC为0.90,敏感性66.7%,特异性91.9%。
  • Conclusion: PSL对T2DM筛查有用,可能有助于预测2型糖尿病的早期发病。

[97] SPOT: Sparsification with Attention Dynamics via Token Relevance in Vision Transformers

Oded Schlesinger,Amirhossein Farzam,J. Matias Di Martino,Guillermo Sapiro

Main category: cs.CV

TL;DR: SPOT是一个用于Vision Transformers的早期token稀疏化框架,通过分析token嵌入、交互和注意力动态来检测冗余token,可实现高达40%的计算效率提升而不损失精度。

  • Motivation: Vision Transformers的计算需求随token数量呈二次方增长,需要找到在注意力计算前就能检测和减少不重要token的方法。
  • Method: SPOT使用轻量级预测器分析token嵌入、交互和跨层注意力动态来推断token重要性,支持token稀疏化和消除。
  • Result: 实验评估显示相比标准ViT,SPOT可实现高达40%的效率提升,同时保持甚至提高准确率。
  • Conclusion: SPOT提供了一个可插入各种ViT架构的通用框架,能够根据资源约束自适应调整性能水平,显著提升计算效率。

[98] Learnable Total Variation with Lambda Mapping for Low-Dose CT Denoising

Yusuf Talha Basak,Mehmet Ozan Unal,Metin Ertas,Isa Yildirim

Main category: cs.CV

TL;DR: 提出了可学习总变差(LTV)框架,通过LambdaNet网络预测逐像素正则化图,实现端到端训练,在DeepLesion数据集上相比传统TV和FBP+U-Net方法获得+2.9 dB PSNR和+6% SSIM的提升。

  • Motivation: 传统总变差(TV)方法在图像去噪和边缘保持方面表现良好,但其对lambda参数的依赖限制了效率和使用效果。
  • Method: 将展开的TV求解器与数据驱动的Lambda映射网络(LambdaNet)耦合,预测逐像素正则化图,实现端到端训练,使重建和正则化联合优化,产生空间自适应平滑效果。
  • Result: 在DeepLesion数据集上,使用从LoDoPaB-CT方法改编的现实噪声模型进行实验,相比经典TV和FBP+U-Net方法平均提升+2.9 dB PSNR和+6% SSIM。
  • Conclusion: LTV为黑盒CNN提供了可解释的替代方案,并为3D和数据一致性驱动的重建奠定了基础。

[99] SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation

Wei Li,Renshan Zhang,Rui Shao,Zhijian Fang,Kaiwen Zhou,Zhuotao Tian,Liqiang Nie

Main category: cs.CV

TL;DR: SemanticVLA是一个新颖的视觉-语言-动作框架,通过语义对齐的稀疏化和增强技术,解决了VLA模型在机器人操作中的感知冗余和指令-视觉对齐问题,在性能和效率上都达到了新的SOTA水平。

  • Motivation: 当前VLA模型在机器人操作部署中存在两个关键限制:1)感知冗余,处理无关视觉输入效率低下;2)指令-视觉对齐肤浅,阻碍动作的语义基础。
  • Method: 提出三个核心组件:1)语义引导的双视觉剪枝器(SD-Pruner),包括指令驱动剪枝器和空间聚合剪枝器;2)语义互补的层次融合器(SH-Fuser),融合SigLIP和DINOv2的密集补丁和稀疏标记;3)语义条件的动作耦合器(SA-Coupler),替代传统的观测到自由度方法。
  • Result: 在仿真和真实世界任务中的广泛实验表明,SemanticVLA在LIBERO基准上比OpenVLA成功率提高21.1%,同时训练成本和推理延迟分别降低3.0倍和2.7倍。
  • Conclusion: SemanticVLA在机器人操作任务中实现了性能和效率的双重突破,为VLA模型的实用部署提供了有效解决方案。

[100] Dynamic Avatar-Scene Rendering from Human-centric Context

Wenqing Wang,Haosen Yang,Josef Kittler,Xiatian Zhu

Main category: cs.CV

TL;DR: 提出Separate-then-Map策略,通过专门的信息映射机制桥接分别建模的组件,解决动态人类与场景交互重建中的空间不一致和视觉伪影问题。

  • Motivation: 现有方法要么整体建模动态场景而忽略人类特有的运动特性,要么分别建模但缺乏组件间的信息交换,导致重建不完整和边界伪影。
  • Method: 采用Separate-then-Map策略,为每个高斯属性使用共享变换函数来统一分别建模的组件,避免耗尽的成对交互同时确保空间和视觉一致性。
  • Result: 在单目视频数据集上的实验表明,StM在视觉质量和渲染精度上显著优于现有方法,特别是在具有挑战性的人-场景交互边界处。
  • Conclusion: StM策略通过信息映射机制有效解决了分别建模组件间的协调问题,实现了更高质量的动态人类-场景交互重建。

[101] Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

Isabela Albuquerque,Ira Ktena,Olivia Wiles,Ivana Kajić,Amal Rannen-Triki,Cristina Vasconcelos,Aida Nematzadeh

Main category: cs.CV

TL;DR: 提出了一个评估文本到图像模型多样性的框架,包括人工评估模板、精心设计的提示集和基于二项式检验的模型比较方法。

  • Motivation: 当前文本到图像模型虽然生成质量有所提升,但输出往往缺乏多样性,生成同质化的结果,需要建立系统性的多样性评估方法。
  • Method: 通过评估单个概念及其变化因素来系统评估多样性,包括:新颖的人工评估模板、涵盖不同概念及其变化因素的提示集、基于二项式检验的模型比较方法,以及比较不同图像嵌入的多样性测量。
  • Result: 该框架能够对文本到图像模型进行多样性排序,识别模型在特定类别中的困难点,为模型多样性和度量开发提供改进方向。
  • Conclusion: 本研究提供了一个稳健的多样性评估方法和见解,为提升文本到图像模型的多样性和度量开发奠定了基础。

[102] A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

Huijie Liu,Shuhao Cui,Haoxiang Cao,Shuai Ma,Kai Wu,Guoliang Kang

Main category: cs.CV

TL;DR: 本文提出了CoTyle方法,通过数值代码控制图像风格生成,实现了"一个风格对应一个代码"的创新任务。

  • Motivation: 现有生成方法依赖冗长文本提示、参考图像或参数微调,存在风格一致性差、创造力有限和风格表示复杂的问题。
  • Method: 首先从图像集合训练离散风格码本提取风格嵌入,然后训练自回归风格生成器建模风格分布,最后用数值代码映射到风格嵌入来指导扩散模型生成风格化图像。
  • Result: 实验验证CoTyle能有效将数值代码转化为风格控制器,展示了从最小输入解锁大量可复现风格空间的能力。
  • Conclusion: 该方法证明了"一个风格对应一个代码"的可行性,为视觉风格生成提供了简单且多样化的解决方案。

[103] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded

Haosong Peng,Hao Li,Yalun Dai,Yushi Lan,Yihang Luo,Tianyu Qi,Zhengshen Zhang,Yufeng Zhan,Junfei Zhang,Wenchao Xu,Ziwei Liu

Main category: cs.CV

TL;DR: OmniVGGT是一个能够有效利用任意数量几何模态(如深度图、相机内外参)的3D基础模型框架,通过GeoAdapter和随机多模态融合策略,在不破坏基础模型表示空间的前提下提升性能,并在深度估计、多视图立体视觉等任务中达到SOTA。

  • Motivation: 现有的3D基础模型大多只使用RGB输入,忽略了容易获取的几何线索(如相机参数、深度图等),导致性能受限。
  • Method: 提出GeoAdapter使用零初始化卷积渐进式注入几何信息,以及随机多模态融合策略在训练时随机采样模态子集,实现任意数量模态输入的灵活推理。
  • Result: 在单目/多视图深度估计、多视图立体视觉和相机姿态估计等任务中超越现有方法,即使仅使用RGB输入也能达到SOTA;集成到VLA模型中在机器人任务上实现持续增益。
  • Conclusion: OmniVGGT通过有效利用几何模态显著提升了3D视觉任务的性能,且具有实际应用价值,能够增强VLA模型在机器人任务中的表现。

[104] From 2D to 3D Without Extra Baggage: Data-Efficient Cancer Detection in Digital Breast Tomosynthesis

Yen Nhi Truong Vu,Dan Guo,Sripad Joshi,Harshit Kumar,Jason Su,Thomas Paul Matthews

Main category: cs.CV

TL;DR: 提出了M&M-3D架构,在保持与2D FFDM模型参数相同的情况下实现可学习的3D推理,解决了DBT数据稀缺问题,在分类和定位任务上显著优于现有方法。

  • Motivation: 数字乳腺断层合成(DBT)因缺乏标注数据限制了深度学习模型的发展,现有方法要么丢弃体积信息,要么需要复杂架构和更多训练数据。
  • Method: M&M-3D通过构建恶性导向的3D特征,并反复将这些3D特征与切片级信息混合来实现3D推理,无需增加额外参数即可从FFDM直接迁移权重。
  • Result: 在定位任务上比2D投影和3D切片方法提升11-54%,分类任务提升3-10%;在低数据场景下比复杂3D变体提升20-47%定位和2-10%分类;在BCS-DBT基准上比之前最佳基线提升4%分类和10%定位。
  • Conclusion: M&M-3D在保持参数效率的同时实现了有效的3D推理,显著提升了DBT的癌症检测性能,特别是在数据稀缺场景下表现优异。

[105] Multitask GLocal OBIA-Mamba for Sentinel-2 Landcover Mapping

Zack Dewis,Yimin Zhu,Zhengsen Xu,Mabel Heffring,Saeid Taleghanidoozdoozan,Kaylee Xiao,Motasem Alkayid,Lincoln Linlin Xu

Main category: cs.CV

TL;DR: 提出了一种新颖的多任务全局-局部OBIA-Mamba(MSOM)模型,用于增强Sentinel-2影像的土地利用/覆盖分类,通过结合超像素分割、双分支CNN-Mamba架构和多任务优化,在保持细粒度细节的同时提升分类精度。

  • Motivation: Sentinel-2影像的土地利用/覆盖分类面临空间异质性、上下文信息和特征模糊等关键数据挑战,需要一种能够同时处理局部细节和全局上下文的方法。
  • Method: 1) 设计基于对象的图像分析Mamba模型,使用超像素作为Mamba标记减少冗余计算;2) 构建全局-局部双分支CNN-Mamba架构,联合建模局部空间细节和全局上下文信息;3) 采用多任务优化框架,使用双重损失函数平衡局部精度和全局一致性。
  • Result: 在加拿大阿尔伯塔省的Sentinel-2影像上进行测试,与多种先进分类方法比较,结果表明所提方法获得了更高的分类精度和更精细的细节。
  • Conclusion: MSOM方法通过结合超像素分割、双分支架构和多任务优化,有效解决了Sentinel-2影像分类中的关键挑战,在精度和细节保留方面优于现有最先进方法。

[106] Towards Blind and Low-Vision Accessibility of Lightweight VLMs and Custom LLM-Evals

Shruti Singh Baghel,Yash Pratap Singh Rathore,Sushovan Jena,Anurag Pradhan,Amit Shukla,Arnav Bhavsar,Pawan Goyal

Main category: cs.CV

TL;DR: 评估不同参数规模的SmolVLM2模型在BLV用户可访问性描述质量上的表现,引入两个专门评估框架,并测试在智能手机上的实际部署性能。

  • Motivation: 大型视觉语言模型在视频描述方面表现出色,但其高内存、计算和部署需求限制了实际应用,特别是对于依赖详细、上下文感知描述的盲人和低视力用户。
  • Method: 评估500M和2.2B参数的SmolVLM2变体在两个数据集上;引入多上下文BLV框架和导航辅助框架;系统评估四种提示设计策略;在智能手机上部署FP32和INT8精度变体。
  • Result: 未在摘要中明确说明具体结果,但研究评估了模型规模对可访问性描述质量的影响以及移动设备上的性能约束。
  • Conclusion: 该研究为BLV用户的可访问性评估提供了专门框架,并探索了在资源受限移动设备上部署视觉语言模型的可行性。

[107] One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

Aleksandr Razin,Danil Kazantsev,Ilya Makarov

Main category: cs.CV

TL;DR: LUA是一个轻量级模块,直接在生成器的潜在代码上执行超分辨率,在最终VAE解码步骤之前,实现高效的高分辨率图像合成。

  • Motivation: 扩散模型难以扩展到训练分辨率之外,直接高分辨率采样成本高,而后处理的图像超分辨率方法会引入伪影和额外延迟。
  • Method: 使用共享Swin风格骨干网络和尺度特定的像素重排头,在潜在空间中进行单次前向传递,支持2倍和4倍放大因子。
  • Result: 与像素空间超分辨率相比,解码和上采样时间降低近3倍(1024px生成仅增加0.42秒),同时保持相当的感知质量,且在不同VAE的潜在空间中表现出强泛化能力。
  • Conclusion: LUA在保持原生高分辨率生成保真度的同时,为现代扩散管道提供了实用且高效的可扩展高保真图像合成路径。

[108] Depth Anything 3: Recovering the Visual Space from Any Views

Haotong Lin,Sili Chen,Junhao Liew,Donny Y. Chen,Zhenyu Li,Guang Shi,Jiashi Feng,Bingyi Kang

Main category: cs.CV

TL;DR: Depth Anything 3 (DA3) 是一个从任意数量视觉输入预测空间一致几何的模型,无需已知相机位姿。它使用单一普通Transformer作为骨干网络,通过师生训练范式在几何细节和泛化能力上达到Depth Anything 2的水平,并在新建立的视觉几何基准上创下多项新记录。

  • Motivation: 追求最小化建模,证明单一普通Transformer骨干网络足以处理复杂的几何预测任务,无需架构专业化,同时通过单一深度射线预测目标避免复杂的多任务学习。
  • Method: 使用单一普通Transformer(如vanilla DINO编码器)作为骨干网络,采用师生训练范式,以单一深度射线作为预测目标,无需复杂多任务学习。
  • Result: 在新建的视觉几何基准上,DA3在所有任务上创下新SOTA:相机位姿估计准确率比之前最佳VGGT平均提升44.3%,几何准确率提升25.1%,且在单目深度估计上超越DA2。
  • Conclusion: DA3证明了最小化建模的有效性,单一普通Transformer骨干网络配合师生训练范式能够实现卓越的几何预测性能,为视觉几何任务提供了简洁而强大的解决方案。

[109] Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling

Jiahao Wang,Weiye Xu,Aijun Yang,Wengang Zhou,Lewei Lu,Houqiang Li,Xiaohua Wang,Jinguo Zhu

Main category: cs.CV

TL;DR: 提出Self-Consistency Sampling (SCS)方法,通过视觉扰动和轨迹重采样来解决多模态大语言模型中结果奖励强化学习存在的不可靠轨迹问题。

  • Motivation: 在多模态推理基准测试的多选题设置中,结果奖励强化学习面临一个被忽视的障碍:即使推理链存在错误但猜对正确答案的轨迹,与真正正确推理的轨迹获得相同奖励,这是不可忽视的缺陷。
  • Method: SCS方法:(i) 引入小的视觉扰动;(ii) 对初始轨迹进行重复截断和重采样;通过结果轨迹的一致性产生可微的一致性分数,在策略更新时降低不可靠轨迹的权重。
  • Result: 基于Qwen2.5-VL-7B-Instruct模型,将SCS集成到RLOO、GRPO和REINFORCE++系列中,在六个多模态基准测试上准确率提升高达7.7个百分点,且计算开销可忽略。在Qwen2.5-VL-3B-Instruct和InternVL3-8B模型上也取得显著提升。
  • Conclusion: SCS为多模态大语言模型中的结果奖励强化学习提供了一个简单通用的解决方案。

physics.chem-ph

[110] VEDA: 3D Molecular Generation via Variance-Exploding Diffusion with Annealing

Peining Zhang,Jinbo Bi,Minghu Song

Main category: physics.chem-ph

TL;DR: VEDA是一个统一的SE(3)-等变框架,通过结合方差爆炸扩散和退火技术,高效生成构象准确的3D分子结构,在采样效率和几何精度之间取得了平衡。

  • Motivation: 解决扩散模型在3D分子生成中采样效率与构象精度之间的基本权衡问题。基于流的模型虽然快速但几何不准确,而去噪扩散模型准确但采样缓慢。
  • Method: 提出VEDA框架,包含三个关键技术:(1) 方差爆炸调度实现类似模拟退火的噪声注入;(2) 新颖的预处理方案协调SE(3)-等变网络与残差扩散目标;(3) 基于arcsin的新调度器在关键信号噪声比区间集中采样。
  • Result: 在QM9和GEOM-DRUGS数据集上,VEDA仅需100个采样步骤就达到基于流模型的采样效率,实现了最先进的价态稳定性和有效性。生成的结构非常稳定,GFN2-xTB优化中的中位能量变化仅为1.72 kcal/mol,显著低于基线SemlaFlow的32.3 kcal/mol。
  • Conclusion: VEDA证明了将方差爆炸扩散与SE(3)-等变架构进行原则性集成可以同时实现高化学准确性和计算效率。

cs.LG

[111] PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

Brian B. Moser,Shalini Strode,Federico Raue,Stanislav Frolov,Krzysztof Adamkiewicz,Arundhati Shanbhag,Joachim Folk,Tobias C. Nauen,Andreas Dengel

Main category: cs.LG

TL;DR: PRISM框架通过解耦架构先验,使用不同教师模型分别监督logit匹配和正则化目标,解决了传统数据集蒸馏方法中单一教师模型带来的归纳偏差问题,在ImageNet-1K上显著提升了性能和数据多样性。

  • Motivation: 传统数据集蒸馏方法继承单一教师模型的归纳偏差,随着数据集规模增大,这种偏差导致生成过于平滑、同质的样本,降低了类内多样性并限制了泛化能力。
  • Method: PRISM框架解耦logit匹配和正则化目标,使用不同教师架构进行监督:主模型用于logits,随机子集用于批量归一化对齐。还分析了教师选择策略并引入了可扩展的跨类批次形成方案。
  • Result: 在ImageNet-1K上,PRISM在低中IPC机制下持续且可重复地优于单教师方法(如SRe2L)和近期多教师变体(如G-VBSM)。生成的数据显示出显著更丰富的类内多样性,特征间余弦相似度显著下降。
  • Conclusion: PRISM通过解耦架构先验有效解决了数据集蒸馏中的归纳偏差问题,生成了更高质量和多样性的合成数据,为大规模数据集蒸馏提供了可扩展的解决方案。

[112] eXIAA: eXplainable Injections for Adversarial Attack

Leonardo Pesce,Jiawen Wei,Gianmarco Mengaldo

Main category: cs.LG

TL;DR: 提出了一种新的黑盒模型无关对抗攻击方法,针对图像领域的后验可解释AI方法,能够在保持预测类别不变的情况下显著修改解释结果,且只需访问模型预测和解释结果。

  • Motivation: 揭示当前可解释性方法在安全关键应用中的脆弱性,证明即使不访问模型内部也能通过修改解释结果来误导用户对模型行为的理解。
  • Method: 基于模型预测和解释结果生成单步对抗攻击,针对saliency maps、integrated gradients和DeepLIFT SHAP等后验可解释性方法,在ResNet-18和ViT-B16模型上进行系统攻击。
  • Result: 攻击能够在不改变预测概率的情况下显著改变解释结果,通过平均绝对差和结构相似性指数验证了攻击的有效性和隐蔽性。
  • Conclusion: 当前可解释性方法存在严重漏洞,其可靠性在安全关键应用中值得担忧,需要更鲁棒的解释方法。

[113] How does My Model Fail? Automatic Identification and Interpretation of Physical Plausibility Failure Modes with Matryoshka Transcoders

Yiming Tang,Abhijeet Sinha,Dianbo Liu

Main category: cs.LG

TL;DR: 提出了Matryoshka Transcoders框架,用于自动发现和解释生成模型中的物理合理性错误,无需手动特征工程即可识别多种物理相关故障模式。

  • Motivation: 尽管现代生成模型能够产生逼真的输出,但仍存在显著的物理合理性错误,而现有评估方法往往无法检测这些错误,且缺乏自动识别和解释物理错误模式的框架。
  • Method: 扩展Matryoshka表示学习范式到转码器架构,在多个粒度级别进行分层稀疏特征学习,通过训练物理合理性分类器的中间表示并利用大型多模态模型进行解释。
  • Result: 相比现有方法,实现了更优越的特征相关性和特征准确性,能够识别多样化的物理相关故障模式,并为生成模型的物理合理性评估建立了基准。
  • Conclusion: 对八个最先进生成模型的分析揭示了这些模型未能遵循物理约束的具体方式,为后续模型改进铺平了道路。

[114] Intrinsic Dimensionality as a Model-Free Measure of Class Imbalance

Çağrı Eser,Zeynep Sonat Baltacı,Emre Akbaş,Sinan Kalkan

Main category: cs.LG

TL;DR: 提出使用数据内在维度作为模型无关的不平衡度量方法,优于基于样本数量的传统方法,并能与样本数量方法结合进一步提升性能。

  • Motivation: 传统基于样本数量的不平衡度量忽略了冗余样本和类别学习难度的差异,而基于训练损失和不确定性的复杂方法需要训练模型。
  • Method: 使用数据内在维度作为易于计算、模型无关的不平衡度量,可无缝集成到各种不平衡缓解方法中。
  • Result: 在五个不同不平衡比率的数据集上,内在维度方法始终优于基于样本数量的重加权和重采样技术。
  • Conclusion: 内在维度是有效的模型无关不平衡度量方法,与样本数量方法结合可进一步提升性能。

[115] Impact of Layer Norm on Memorization and Generalization in Transformers

Rishi Singhal,Jung-Eun Kim

Main category: cs.LG

TL;DR: LayerNorm在不同transformer架构中对学习和记忆的影响:Pre-LayerNorm中稳定学习,Post-LayerNorm中影响记忆化

  • Motivation: 研究LayerNorm在Pre-和Post-LayerNorm transformers中对学习和记忆化的影响,目前这方面的作用尚不明确
  • Method: 通过分析13个模型在6个视觉和语言数据集上的表现,研究LayerNorm参数对学习和记忆化的影响
  • Result: Pre-LayerNorm中去除LayerNorm参数会加剧记忆化并破坏学习稳定性,而Post-LayerNorm中去除LayerNorm参数能有效缓解记忆化并恢复真实标签
  • Conclusion: LayerNorm在transformer中塑造记忆化和学习方面发挥着关键作用,其影响因架构不同而异,早期层的LayerNorm最为关键

eess.IV

[116] Efficient Automated Diagnosis of Retinopathy of Prematurity by Customize CNN Models

Farzan Saeedi,Sanaz Keshvari,Nasser Shoeibi

Main category: eess.IV

TL;DR: 本研究采用深度学习CNN模型进行早产儿视网膜病变诊断,通过定制化CNN架构和投票系统显著提升了诊断准确率和效率。

  • Motivation: 解决ROP诊断中传统方法的局限性,利用深度学习提高诊断精度和效率,同时降低计算成本。
  • Method: 使用定制化CNN模型,结合数据集预处理和模型架构优化,采用投票系统集成多个模型。
  • Result: 定制CNN模型优于预训练模型,准确率和F1分数显著提升,计算负担减轻,可在专用软硬件环境中部署。
  • Conclusion: 深度学习模型在ROP诊断中具有显著优势,能够提高诊断精度和效率,为临床应用提供了有价值的辅助工具。

cs.CR

[117] Trapped by Their Own Light: Deployable and Stealth Retroreflective Patch Attacks on Traffic Sign Recognition Systems

Go Tsuruoka,Takami Sato,Qi Alfred Chen,Kazuki Nomoto,Ryunosuke Kobayashi,Yuna Tanaka,Tatsuya Mori

Main category: cs.CR

TL;DR: 提出了一种新型对抗性攻击方法ARP,利用逆反射材料在车辆头灯照射下激活,结合了贴片攻击的高部署性和激光投影的隐蔽性,在动态场景中达到93.4%的成功率,并提出使用偏振滤波器的防御方案DPR Shield。

  • Motivation: 现有交通标志识别系统的对抗攻击存在视觉可检测性或实施限制的问题,表明TSR系统存在未被探索的脆弱性表面。
  • Method: 开发了逆反射模拟方法,采用黑盒优化最大化攻击效果,利用逆反射材料仅在受害者头灯照射下激活的特性。
  • Result: ARP在35米动态场景中达到≥93.4%成功率,对商业TSR系统在真实条件下达到≥60%成功率,用户研究表明其隐蔽性接近良性标志。
  • Conclusion: ARP攻击结合了高部署性和隐蔽性,提出的DPR Shield防御方案对停止标志和限速标志达到≥75%的防御成功率。

cs.AI

[118] EgoEMS: A High-Fidelity Multimodal Egocentric Dataset for Cognitive Assistance in Emergency Medical Services

Keshara Weerasinghe,Xueren Ge,Tessa Heick,Lahiru Nuwan Wijayasingha,Anthony Cortez,Abhishek Satpathy,John Stankovic,Homa Alemzadeh

Main category: cs.AI

TL;DR: EgoEMS是首个端到端、高保真、多模态、多人视角的EMS数据集,包含233个模拟紧急场景中20+小时的自我中心视角数据,用于开发AI认知助手支持急救医疗服务。

  • Motivation: 急救医疗服务中急救人员面临高认知负荷,AI认知助手可作为虚拟伙伴减轻负担,支持实时数据收集和决策制定。
  • Method: 开发了开源、低成本、可复制的数据收集系统,采集了62名参与者(包括46名EMS专业人员)的模拟EMS活动数据,并进行了关键步骤、时间戳音频转录、动作质量指标、边界框与分割掩码等标注。
  • Result: 创建了包含现实急救动态的EgoEMS数据集,提供了实时多模态关键步骤识别和动作质量评估的基准测试套件。
  • Conclusion: EgoEMS数据集有望推动智能EMS系统的研究发展,最终改善患者预后。

[119] Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models

Yongxian Wei,Yilin Zhao,Li Shen,Xinrui Chen,Runxi Cheng,Sinan Du,Hao Yu,Gang Liu,Jiahong Yan,Chun Yuan,Dian Li

Main category: cs.AI

TL;DR: 提出了一种能够明确推理并适应求解器能力的问题生成方法,通过构建相关问题对、添加中间问题设计思维链,并利用求解器反馈来校准难度,在数学和通用推理基准上平均提升2.5%性能。

  • Motivation: 现有数据合成方法存在两个主要问题:(i) 无差别生成忽略求解器能力导致低价值问题,或依赖复杂数据管道来平衡难度;(ii) 问题生成缺乏推理,导致浅层问题变体。
  • Method: 构建相关问题对并添加推理模型产生的问题设计思维链,从生成器中引导问题设计策略。将求解器对合成问题的反馈作为奖励信号,使生成器能够校准难度并在求解器能力边缘产生补充问题。
  • Result: 在10个数学和通用推理基准上的实验显示,该方法平均提升2.5%性能,并能泛化到语言和视觉语言模型。通过协同进化可进一步获得0.7%的性能增益。
  • Conclusion: 该方法通过明确推理和难度适应,有效解决了现有数据合成方法的局限性,实现了生成器和求解器的协同进化,显著提升了推理模型的性能。

[120] Querying Labeled Time Series Data with Scenario Programs

Edward Kim,Devan Shanker,Varun Bharadwaj,Hongbeen Park,Jinkyu Kim,Hazem Torfah,Daniel J Fremont,Sanjit A Seshia

Main category: cs.AI

TL;DR: 提出了一种验证模拟环境中发现的自动驾驶故障场景在真实世界中可复现性的方法,通过定义场景匹配算法来在真实数据集中定位模拟场景。

  • Motivation: 解决仿真测试中的sim-to-real差距问题,确保在模拟环境中发现的故障场景能够在真实世界中复现,而不是模拟数据的伪影。
  • Method: 引入形式化定义来描述标记时间序列传感器数据如何匹配抽象场景(使用Scenic概率编程语言表示),并提出查询算法在标记数据集中识别匹配指定场景的数据子集。
  • Result: 实验显示该算法在查询场景时比最先进的商业视觉大语言模型更准确且快数个数量级,能够随查询时间序列数据时长扩展。
  • Conclusion: 该方法有效解决了仿真测试中故障场景验证的关键问题,为自动驾驶系统的安全验证提供了可靠工具。