Skip to content
每日arXiv - 2026年1月28日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Dynamic Mask-Based Backdoor Attack Against Vision AI Models: A Case Study on Mushroom Detection

Zeineb Dridi,Jihen Bennaceur,Amine Ben Hassouna

Main category: cs.CV

TL;DR: 提出一种基于动态掩码的后门攻击方法,针对目标检测模型,利用数据集投毒嵌入恶意触发器,在蘑菇检测数据集上验证了攻击效果。

  • Motivation: 随着深度学习模型在计算机视觉任务中的广泛应用,模型面临各种对抗攻击的威胁,特别是后门攻击。本文旨在揭示在关键现实领域(如蘑菇检测)中,外包训练数据可能带来的严重安全风险。
  • Method: 提出动态掩码后门攻击方法:1)利用数据集投毒技术嵌入恶意触发器;2)使用SAM图像分割模型生成动态掩码进行触发器放置;3)针对YOLOv7目标检测模型设计攻击场景。
  • Result: 实验表明:1)攻击在干净数据上保持高精度;2)在投毒样本上实现高攻击成功率;3)相比基于静态模式的传统后门注入方法,本方法更具隐蔽性和有效性。
  • Conclusion: 动态掩码后门攻击对深度学习模型构成严重威胁,特别是在关键应用领域。研究结果强调了开发鲁棒防御措施的紧迫性,以应对不断演化的对抗威胁。

Yuhui Zhang,Hui Yu,Wei Liang,Sunjie Zhang

Main category: cs.CV

TL;DR: 提出基于眨眼嵌入和哈希网格地标编码的动态NeRF方法,显著提升说话肖像的嘴部运动保真度

  • Motivation: 现有动态NeRF方法在说话肖像生成方面取得进展,但在准确高效捕捉嘴部运动方面仍存在挑战,需要提升说话面部保真度
  • Method: 1) 使用眨眼嵌入和哈希网格地标编码的自动方法;2) 将面部特征编码为条件特征;3) 通过动态地标变换器将音频特征作为残差项集成;4) 使用神经辐射场建模整个面部
  • Result: 实验验证了该方法优于现有方法,能够生成更逼真的说话面部表示
  • Conclusion: 提出的方法通过创新的特征编码和集成机制,显著提升了说话肖像的嘴部运动保真度和整体真实感

[3] SelfieAvatar: Real-time Head Avatar reenactment from a Selfie Video

Wei Liang,Hui Yu,Derui Ding,Rachael E. Jack,Philippe G. Schyns

Main category: cs.CV

TL;DR: 该研究提出了一种结合3DMM和StyleGAN的方法,仅用自拍视频就能实现高质量头部虚拟形象重演,解决了现有方法在非面部区域、背景细节和细粒度纹理方面的不足。

  • Motivation: 现有头部虚拟形象重演方法存在三个主要问题:1) 3DMM方法无法实时捕捉整个头部(包括非面部区域和背景细节);2) GAN方法难以再现细粒度头部细节(如皱纹和头发纹理);3) 现有方法通常需要大量训练数据,很少能仅用简单的自拍视频实现虚拟形象重演。
  • Method: 提出了一种结合3DMM和基于StyleGAN生成器的方法。构建了详细重建模型,在对抗训练中采用混合损失函数进行前景重建和虚拟形象图像生成,以恢复高频细节。
  • Result: 在自重演和交叉重演任务上的定性和定量评估表明,该方法相比现有方法实现了更优越的头部虚拟形象重建,具有更丰富和复杂的纹理细节。
  • Conclusion: 该方法成功解决了现有头部虚拟形象重演方法的局限性,仅用自拍视频就能实现高质量、包含丰富纹理细节的头部虚拟形象重建,为社交信号理解、游戏、人机交互等应用提供了更好的基础。

[4] Weakly supervised framework for wildlife detection and counting in challenging Arctic environments: a case study on caribou (Rangifer tarandus)

Ghazaleh Serati,Samuel Foucher,Jerome Theau

Main category: cs.CV

TL;DR: 提出基于检测网络架构的弱监督补丁级预训练方法,增强HerdNet模型对北极驯鹿检测的鲁棒性,在多个测试集上取得高精度检测效果

  • Motivation: 北极驯鹿数量下降需要可扩展的监测方法,但人工解释航空影像劳动密集且易错,自动检测面临背景异质性、类别不平衡、目标小/遮挡、密度和尺度变化大等挑战
  • Method: 提出弱监督补丁级预训练方法,基于检测网络架构,使用空与非空标签学习,为HerdNet检测模型提供增强的初始化权重
  • Result: 在多个测试集上取得高精度:多群图像F1 93.7%,独立年份测试集F1 92.6%;检测任务中弱监督预训练初始化优于ImageNet权重,正补丁F1 92.6%/93.5% vs 89.3%/88.6%,全图像计数F1 95.5%/93.3% vs 91.5%/90.4%
  • Conclusion: 在检测前进行粗标签预训练使得即使标注数据有限也能依赖弱监督预训练权重,取得与通用权重初始化相当的结果,但仍存在动物样背景杂波导致的假阳性和低密度遮挡导致的假阴性等限制

[5] RealStats: A Rigorous Real-Only Statistical Framework for Fake Image Detection

Haim Zisman,Uri Shaham

Main category: cs.CV

TL;DR: 提出一个基于统计的框架,通过计算p值并聚合多个检测器的统计量来检测AI生成图像,强调可解释性和分布鲁棒性。

  • Motivation: 当前AI生成图像检测方法虽然有效,但缺乏形式化的可解释性,且可能依赖于对伪造内容的隐含假设,这限制了其在分布变化下的鲁棒性。
  • Method: 提出一个统计基础框架,利用多个现有检测器的训练自由统计量,计算一系列测试统计量的p值,并使用经典统计集成方法聚合这些p值,评估图像与真实图像统一分布的匹配程度。
  • Result: 该框架具有通用性、灵活性和训练自由的特点,适用于多样化和不断变化的场景中的鲁棒性伪造图像检测。
  • Conclusion: 提出的统计框架为AI生成图像检测提供了可解释且鲁棒的方法,能够有效应对分布变化,适用于不断演化的生成模型环境。

[6] On the Role of Depth in Surgical Vision Foundation Models: An Empirical Study of RGB-D Pre-training

John J. Han,Adam Schmidt,Muhammad Abdullah Jamal,Chinedu Nwoye,Anita Rau,Jie Ying Wu,Omid Mohareri

Main category: cs.CV

TL;DR: 该研究通过大规模实证比较发现,在手术视觉基础模型中融入深度信息进行预训练,能显著提升多种手术任务性能,且具有出色的数据效率,无需推理时架构改动。

  • Motivation: 当前手术视觉基础模型主要依赖单模态RGB预训练,忽略了手术环境的复杂3D几何结构。虽然通用计算机视觉中有支持多模态或几何感知输入的架构,但在手术场景中融入深度信息的好处尚未充分探索。
  • Method: 研究比较了8种基于ViT的视觉基础模型,这些模型在预训练领域、学习目标和输入模态(RGB vs RGB-D)上有所不同。使用包含140万张机器人手术图像及深度图的预训练数据集,在8个手术数据集上评估了冻结主干和端到端微调两种协议。
  • Result: 具有显式几何标记化的模型(如MultiMAE)在所有任务上都显著优于单模态基线。几何感知预训练展现出卓越的数据效率:仅用25%标注数据微调的模型就能超越使用完整数据集训练的RGB-only模型。这些改进无需推理时的架构或运行时更改。
  • Conclusion: 多模态预训练为构建更强大的手术视觉系统提供了可行路径,深度信息仅在预训练阶段使用,使得实际部署变得简单直接。

[7] Smart Split-Federated Learning over Noisy Channels for Embryo Image Segmentation

Zahra Hafezi Kafshgari,Ivan V. Bajic,Parvaneh Saeedi

Main category: cs.CV

TL;DR: SplitFed学习通过智能平均策略提升通信信道噪声容忍度,相比传统方法能承受两个数量级更强的噪声

  • Motivation: SplitFed学习将模型分割部署在客户端和服务器端,减少了客户端计算需求,但通信信道中的噪声会影响学习过程和最终模型质量,需要提高对信道噪声的鲁棒性
  • Method: 提出智能平均策略用于SplitFed学习,通过改进的聚合方法来增强对通信信道噪声的抵抗能力
  • Result: 在胚胎图像分割模型上的实验表明,智能平均策略相比传统平均方法能承受两个数量级更强的通信信道噪声,同时保持最终模型的准确性
  • Conclusion: 智能平均策略显著提高了SplitFed学习在噪声通信环境下的鲁棒性,为边缘计算场景提供了更可靠的分布式学习方案

[8] Pay Attention to Where You Look

Alex Beriand,JhihYang Wu,Daniel Brignac,Natnael Daba,Abhijit Mahalanobis

Main category: cs.CV

TL;DR: 提出相机权重机制,根据源视图与目标视图的相关性调整其重要性,以改进少样本新视角合成

  • Motivation: 现有少样本新视角合成方法通常假设所有输入视图对目标视图具有同等重要性,这导致次优结果。需要根据源视图与目标视图的相关性来调整其重要性权重。
  • Method: 提出两种相机权重方法:1)基于几何属性(欧氏距离和角度差异)的确定性加权方案;2)基于交叉注意力的学习方案,优化视图权重。该机制可集成到各种NVS算法中,并可进一步训练以提升视图相关性理解。
  • Result: 自适应视图权重机制提高了新视角合成的准确性和真实感,为改进NVS提供了有前景的方向。
  • Conclusion: 相机权重机制能够根据源视图与目标视图的相关性调整其重要性,可适应性地集成到各种NVS算法中,显著提升少样本新视角合成的质量。

[9] FreeOrbit4D: Training-Free Arbitrary Camera Redirection for Monocular Videos via Geometry-Complete 4D Reconstruction

Wei Cao,Hao Zhang,Fengrui Tian,Yulun Wu,Yingying Li,Shenlong Wang,Ning Yu,Yaoyao Liu

Main category: cs.CV

TL;DR: FreeOrbit4D是一个无需训练的视频重定向框架,通过构建几何完整的4D代理来解决大角度视角变化下的几何模糊性和时序不一致问题。

  • Motivation: 单目视频重定向在大角度视角变化时存在根本性困难:单目视频仅捕捉动态3D场景的狭窄时空视图,对底层4D世界提供高度部分观测。现有扩散方法在大角度远离原始轨迹时,由于缺乏视觉基础导致严重的几何模糊和时序不一致。
  • Method: 通过解耦前景和背景重建:将单目视频反投影到统一全局空间中的静态背景和几何不完整前景点云,利用对象中心的多视角扩散模型合成多视角图像并在规范对象空间中重建几何完整的前景点云,通过密集像素同步的3D-3D对应将规范前景点云对齐到全局场景空间,最终将几何完整的4D代理投影到目标相机视角作为几何支架指导条件视频扩散模型。
  • Result: 实验表明FreeOrbit4D在挑战性的大角度轨迹下能产生更忠实可靠的重定向视频,其几何完整的4D代理为编辑传播和4D数据生成等实际应用开辟了潜在途径。
  • Conclusion: FreeOrbit4D通过恢复几何完整的4D代理作为视频生成的结构基础,有效解决了大角度相机重定向中的几何模糊问题,为单目视频重定向提供了更稳健的解决方案。

[10] Anatomically-aware conformal prediction for medical image segmentation with random walks

Mélanie Gaillochet,Christian Desrosiers,Hervé Lombaert

Main category: cs.CV

TL;DR: RW-CP是一种基于随机游走扩散的保形预测框架,用于医学图像分割的不确定性量化,通过强制空间一致性生成解剖学有效的预测集,相比标准CP基线提升达35.4%。

  • Motivation: 医学影像中深度学习部署需要不确定性量化,但标准保形预测在分割中常忽略解剖学上下文,导致预测集碎片化、空间不连贯和过度分割,限制了临床实用性。
  • Method: 提出随机游走保形预测(RW-CP),基于预训练视觉基础模型特征构建k近邻图,应用随机游走扩散不确定性,正则化非保形分数,使预测集对保形校准参数λ更不敏感。
  • Result: 在允许错误率α=0.1下,多模态公共数据集评估显示相比标准CP基线提升达35.4%,同时保持严格的边际覆盖保证,显著改善分割质量。
  • Conclusion: RW-CP通过随机游走扩散强制空间一致性,生成解剖学有效的预测集,在保持统计有效性的同时显著提升分割质量,为医学影像分割提供了更实用的不确定性量化框架。

[11] Non-Invasive 3D Wound Measurement with RGB-D Imaging

Lena Harkämper,Leo Lebrat,David Ahmedt-Aristizabal,Olivier Salvado,Mattias Heinrich,Rodrigo Santa Cruz

Main category: cs.CV

TL;DR: 提出基于RGB-D成像的快速非侵入式3D伤口测量算法,结合RGB-D里程计与B样条曲面重建,实现伤口周长、表面积等临床相关参数的自动计算,在硅胶伤口模型上达到亚毫米级精度。

  • Motivation: 慢性伤口监测和管理需要准确高效的伤口测量方法,传统手动测量方法存在主观性和效率问题,需要开发自动化的非侵入式测量工具。
  • Method: 结合RGB-D里程计与B样条曲面重建技术,从RGB-D图像生成详细的3D伤口网格模型,自动计算临床相关参数如周长、表面积和尺寸。
  • Result: 在真实硅胶伤口模型上评估,相比高分辨率地面真实扫描达到亚毫米级3D重建精度,提取的测量值重复捕获变异性低,与手动评估高度一致,优于现有最先进的以对象为中心的RGB-D重建方法,运行时间适合实时临床部署。
  • Conclusion: 该方法为临床和远程医疗环境中的自动化伤口评估提供了有前景的工具,具有高精度、低变异性和实时处理能力。

[12] NC-Reg : Neural Cortical Maps for Rigid Registration

Ines Vati,Pierrick Bourgeat,Rodrigo Santa Cruz,Vincent Dore,Olivier Salvado,Clinton Fookes,Léo Lebrat

Main category: cs.CV

TL;DR: 提出神经皮层映射作为连续紧凑的皮层特征表示,替代传统离散结构,实现高效球面优化和快速配准

  • Motivation: 传统皮层特征图使用离散结构(网格、网格)存在局限性,需要一种连续、紧凑的神经表示方法,能够从任意大小的网格中学习并在任意分辨率下提供特征
  • Method: 提出神经皮层映射作为连续神经表示,开发NC-Reg算法,结合神经皮层特征图、梯度下降优化和模拟退火策略进行刚性配准
  • Result: 相比经典重心插值,运行速度提升30倍;在皮层表面刚性配准中达到亚度精度(<1°偏离全局最优),可作为临床环境中稳健的预对齐策略
  • Conclusion: 神经皮层映射为皮层特征表示提供了高效连续替代方案,NC-Reg算法在皮层配准中表现出高精度和鲁棒性,具有临床应用潜力

[13] NuiWorld: Exploring a Scalable Framework for End-to-End Controllable World Generation

Han-Hung Lee,Cheng-Yu Yang,Yu-Lun Liu,Angel X. Chang

Main category: cs.CV

TL;DR: NuiWorld是一个解决3D世界生成中可控性、可扩展性和效率问题的框架,通过生成式引导策略从少量图像生成训练数据,使用可变场景块和扁平化向量集表示来提升性能。

  • Motivation: 现有世界生成方法面临三个主要障碍:可控性、可扩展性和效率。端到端场景生成模型受限于数据稀缺;基于对象的生成方法依赖固定分辨率表示,在大场景中保真度下降;无训练方法虽然灵活,但推理时速度慢且计算成本高。
  • Method: 提出生成式引导策略:从少量输入图像开始,利用3D重建和可扩展场景生成技术合成不同大小和布局的场景,生成足够数据训练端到端模型。使用伪草图标签实现可控性。将场景表示为可变场景块的集合,压缩为扁平化向量集表示,显著减少大场景的标记长度。
  • Result: 框架能够生成不同大小和布局的场景,产生足够数据训练端到端模型。通过伪草图标签实现可控性,并展示了对未见草图的泛化能力。扁平化向量集表示保持了不同场景大小下一致的几何保真度,同时提高了训练和推理效率。
  • Conclusion: NuiWorld框架成功解决了世界生成中的可控性、可扩展性和效率挑战,通过生成式引导策略克服数据稀缺,使用可变场景块表示提升性能,为视频游戏、仿真和机器人等应用提供了有效的世界生成解决方案。

[14] Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models

Jeonghwan Kim,Renjie Tao,Sanat Sharma,Jiaqi Wang,Kai Sun,Zhaojiang Lin,Seungwhan Moon,Lambert Mathias,Anuj Kumar,Heng Ji,Xin Luna Dong

Main category: cs.CV

TL;DR: PixSearch是首个端到端的分割大型多模态模型,统一区域级感知和检索增强推理,通过令牌触发检索并生成像素级掩码作为视觉查询,显著提升VQA的事实一致性和泛化能力。

  • Motivation: 现有多模态检索增强生成系统缺乏内部策略来决定何时以及如何进行检索,且依赖模块化流程(检测器、分割器、描述生成器等),限制了事实基础能力。
  • Method: 提出PixSearch:1)编码时发出令牌触发检索;2)选择查询模态(文本、图像或区域);3)生成像素级掩码直接作为视觉查询;4)采用两阶段监督微调方案,通过搜索交错监督教授检索时机和查询选择,同时保留分割能力。
  • Result: 在自我中心化和实体中心化VQA基准测试中,PixSearch显著提升事实一致性和泛化能力,在CRAG-MM上相比整图检索获得19.7%的相对准确率提升,同时在各种VQA和纯文本QA任务上保持有竞争力的推理性能。
  • Conclusion: PixSearch通过端到端统一区域感知和检索增强推理,解决了现有MM-RAG系统缺乏内部检索策略的问题,为多模态理解提供了更有效的事实基础方法。

[15] m2sv: A Scalable Benchmark for Map-to-Street-View Spatial Reasoning

Yosub Shin,Michael Buriek,Igor Molybog

Main category: cs.CV

TL;DR: m2sv是一个用于地图到街景空间推理的基准测试,要求模型通过对齐北向地图和同一交叉口的街景图像来推断相机视角方向。尽管VLMs在多模态基准上表现良好,但在该任务上仅达到65.2%准确率,远低于人类95%的水平。

  • Motivation: 视觉语言模型在多模态基准上表现强劲,但在需要对齐抽象俯视图和第一人称视角的空间推理任务上仍然脆弱。现有模型缺乏将地图表示与街景图像对齐的能力,这限制了它们在现实世界空间推理应用中的实用性。
  • Method: 提出了m2sv基准测试,包含m2sv-20k(地理多样、控制模糊性的数据集)和m2sv-sft-11k(用于监督微调的结构化推理轨迹)。通过监督微调和强化学习改进模型,并系统分析地图到街景推理的难度,包括结构信号和人类努力分析。
  • Result: 最佳VLM在m2sv上仅达到65.2%准确率,远低于人类95%基线。监督微调和强化学习带来一致改进,但跨基准评估显示有限迁移。分析揭示了在几何对齐、证据聚合和推理一致性方面的持续差距。
  • Conclusion: m2sv基准揭示了VLMs在空间推理方面的显著缺陷,特别是在跨视角对齐任务上。研究强调了在几何对齐、证据聚合和推理一致性方面的持续挑战,为未来跨视角的接地空间推理研究提供了方向。

[16] Glance and Focus Reinforcement for Pan-cancer Screening

Linshan Wu,Jiaxin Zhuang,Hao Chen

Main category: cs.CV

TL;DR: GF-Screen是一个用于大规模CT扫描中泛癌筛查的强化学习框架,采用"一瞥一聚焦"策略,通过Glance模型定位病灶区域,Focus模型精确分割病灶,利用分割结果通过强化学习奖励Glance模型,解决了大体积CT中微小病灶定位的挑战。

  • Motivation: 现有AI方法在大规模CT扫描中进行泛癌筛查面临挑战,主要因为在大体积CT中定位各种微小病灶困难。极度的前景-背景不平衡阻碍模型关注病变区域,而对健康区域的冗余关注不仅降低效率,还增加假阳性。
  • Method: 提出GF-Screen框架:1) Glance模型从整个CT体积中裁剪一组子体积,学习选择包含病灶的子体积;2) Focus模型精确分割病灶;3) 利用Focus模型的分割结果通过强化学习奖励Glance模型;4) 引入新颖的组相对学习范式,通过组内相对比较优先处理高优势预测,丢弃低优势预测。
  • Result: 在16个内部和7个外部数据集上对9种病灶类型进行了广泛实验,证明了GF-Screen的有效性。在MICCAI FLARE25泛癌挑战赛的公开验证排行榜上领先,大幅超越FLARE24冠军解决方案(+25.6% DSC和+28.2% NSD)。
  • Conclusion: GF-Screen首次有效扩展了前沿强化学习技术来解决泛癌筛查中的特定挑战,通过"一瞥一聚焦"策略显著提高了大体积CT中微小病灶检测的效率和准确性,减少了假阳性。

[17] Reg-TTR, Test-Time Refinement for Fast, Robust and Accurate Image Registration

Lin Chen,Yue He,Fengting Zhang,Yaonan Wang,Fengming Lin,Xiang Chen,Min Liu

Main category: cs.CV

TL;DR: Reg-TTR提出测试时精炼框架,结合深度学习与传统配准技术优势,在推理时精炼预训练模型预测,以较小计算代价显著提升配准精度

  • Motivation: 传统图像配准方法鲁棒但迭代慢,深度学习推理快但易受域偏移影响,注册基础模型在速度与鲁棒性间平衡但难以达到专用模型的峰值精度
  • Method: 提出Reg-TTR测试时精炼框架,在推理阶段精炼预训练模型的预测结果,结合深度学习与传统配准技术的互补优势
  • Result: 仅需21%额外推理时间(0.56秒),在两个不同任务上达到SOTA性能,同时保持接近先前深度学习方法的推理速度
  • Conclusion: 随着基础模型不断涌现,该框架提供高效策略缩小注册基础模型与专用数据集训练SOTA方法间的性能差距

[18] FBSDiff++: Improved Frequency Band Substitution of Diffusion Features for Efficient and Highly Controllable Text-Driven Image-to-Image Translation

Xiang Gao,Yunpeng Jia

Main category: cs.CV

TL;DR: FBSDiff/FBSDiff++:基于频域视角的即插即用图像翻译框架,通过动态频带替换实现高度可控的文本驱动图像转换,无需训练或微调。

  • Motivation: 随着大规模文本到图像扩散模型的显著进步,研究者开始关注其向文本驱动图像到图像翻译的自然扩展,其中源图像作为视觉指导与文本提示共同引导生成图像。
  • Method: 提出FBSDiff框架,从频域视角将现成的T2I扩散模型适配到I2I范式。通过动态替换扩散特征的频带,实现即插即用的图像翻译。FBSDiff++进一步改进:1)大幅加速推理速度(8.9倍);2)改进频带替换模块以支持任意分辨率和宽高比;3)扩展功能实现局部图像操作和风格特定内容创建。
  • Result: 广泛的定性和定量实验验证了FBSDiff++在图像翻译视觉质量、效率、多功能性和可控性方面优于相关先进方法。
  • Conclusion: FBSDiff++提供了一个高效、灵活、功能强大的即插即用图像翻译框架,通过频域操作实现了高度可控的文本驱动图像转换,为图像编辑和创作提供了新工具。

[19] Implicit Non-Causal Factors are Out via Dataset Splitting for Domain Generalization Object Detection

Zhilong Zhang,Lei Zhang,Qing He,Shuyin Xia,Guoyin Wang,Fuxiang Huang

Main category: cs.CV

TL;DR: 本文提出GB-DAL方法,通过粒度球分裂和模拟非因果因子模块,解决开放世界目标检测中的领域不变表示问题,提升泛化性能。

  • Motivation: 开放世界目标检测面临领域不变表示的挑战,特别是隐式非因果因子问题。现有基于领域对抗学习的方法过度关注领域不变信息,但忽视了潜在的非因果因子。本文发现两个关键原因:1)基于领域判别器的方法受限于稀疏的领域标签;2)非因果因子过于隐式,传统方法难以识别。
  • Method: 提出GB-DAL方法:1)原型粒度球分裂模块(PGBS),从有限数据集中生成更密集的领域,类似更细粒度的粒度球,揭示更多潜在非因果因子;2)模拟非因果因子模块(SNF),通过数据增强降低非因果因子的隐式性,促进GB-DAL训练。
  • Result: 在多个基准测试上的对比实验表明,该方法在新型环境下实现了更好的泛化性能。
  • Conclusion: GB-DAL通过更细粒度的领域划分和模拟非因果因子增强,有效解决了开放世界目标检测中的领域泛化问题,提升了模型在新环境下的泛化能力。

[20] Resolving Primitive-Sharing Ambiguity in Long-Tailed Industrial Point Cloud Segmentation via Spatial Context Constraints

Chao Yin,Qing Han,Zhiwei Hou,Yue Liu,Anjin Dai,Hongda Hu,Ji Yang,Wei Yao

Main category: cs.CV

TL;DR: 提出空间上下文约束方法解决工业点云分割中的双重危机:极端类别不平衡(215:1)和几何模糊性(尾类与头类共享圆柱基元),通过边界-CB和密度-CB模块提升安全关键组件的识别精度。

  • Motivation: 工业点云分割在数字孪生构建中面临安全关键组件(如减速器和阀门)被系统误分类的问题。这些失败源于两个叠加因素:训练数据中此类组件稀少,且它们与主导结构(如管道)具有相同的局部几何形状。本研究识别出工业3D数据特有的双重危机:极端类别不平衡(215:1比例)加上几何模糊性,大多数尾类与头类共享圆柱基元。
  • Method: 提出空间上下文约束方法,利用邻域预测一致性来消除局部相似结构的模糊性。该方法扩展了类别平衡(CB)损失框架,包含两个架构无关的机制:1)边界-CB:基于熵的约束,强调模糊边界;2)密度-CB:基于密度的约束,补偿扫描相关的变化。两者都作为即插即用模块集成,无需修改网络架构,只需替换损失函数。
  • Result: 在Industrial3D数据集(来自水处理设施的6.1亿个点)上,该方法达到55.74%的mIoU,尾类性能相对提升21.7%(29.59% vs. 24.32%基线),同时保持头类精度(88.14%)。具有基元共享模糊性的组件显示显著提升:减速器IoU从0%提升至21.12%;阀门相对提升24.3%。
  • Conclusion: 该方法解决了几何模糊性问题,避免了典型的头尾类别权衡,实现了安全关键组件的可靠识别,为数字孪生应用中的自动化知识提取提供了支持。

[21] CLIP-Guided Unsupervised Semantic-Aware Exposure Correction

Puzhen Wu,Han Weng,Quan Zheng,Yi Zhan,Hewei Wang,Yiming Li,Jiahui Han,Rui Xu

Main category: cs.CV

TL;DR: 提出一种无监督语义感知曝光校正网络,通过自适应语义融合模块和多尺度残差空间Mamba组恢复细节并调整曝光,使用CLIP引导的伪真值生成器和语义提示一致性损失进行无监督训练。

  • Motivation: 曝光校正面临两个关键挑战:1)忽略物体级区域语义信息导致色彩偏移伪影;2)真实世界曝光图像通常没有真值标签,手动标注需要大量人工编辑。
  • Method: 1)自适应语义感知融合模块,将预训练FastSAM提取的语义信息融合到共享图像特征空间;2)多尺度残差空间Mamba组恢复细节和调整曝光;3)CLIP引导的伪真值生成器自动识别曝光情况并指导校正;4)语义提示一致性损失确保语义一致性和图像-提示对齐。
  • Result: 在真实世界曝光图像校正中表现有效,在数值和视觉上都优于最先进的无监督方法。
  • Conclusion: 提出的无监督语义感知曝光校正网络能够有效解决曝光校正中的语义信息忽略和缺乏真值标签问题,通过结合FastSAM和CLIP的丰富先验知识实现高质量的曝光校正。

[22] QA-ReID: Quality-Aware Query-Adaptive Convolution Leveraging Fused Global and Structural Cues for Clothes-Changing ReID

Yuxiang Wang,Kunming Jiang,Tianxiang Zhang,Ke Tian,Gaozhe Jiang

Main category: cs.CV

TL;DR: QA-ReID:一种用于换装行人重识别的质量感知双分支匹配方法,通过RGB特征和解析特征联合建模全局外观和服装不变结构线索,在多个基准测试中达到SOTA性能。

  • Motivation: 传统行人重识别在服装变化场景下面临严重挑战,因为服装变化会引入显著的外观变化。需要一种能够处理服装变化、同时保持识别准确性的方法。
  • Method: 提出质量感知双分支匹配方法:1)联合利用RGB特征和解析特征分别建模全局外观和服装不变结构线索;2)通过多模态注意力模块自适应融合异质特征;3)在匹配阶段设计质量感知查询自适应卷积,包含像素级重要性加权和双向一致性约束以增强对服装变化的鲁棒性。
  • Result: 在PRCC、LTCC、VC-Clothes等多个基准测试上达到最先进性能,在跨服装场景下显著优于现有方法。
  • Conclusion: QA-ReID通过双分支特征提取和自适应融合机制,有效解决了换装行人重识别的挑战,为服装变化场景下的行人重识别提供了鲁棒解决方案。

[23] TFFM: Topology-Aware Feature Fusion Module via Latent Graph Reasoning for Retinal Vessel Segmentation

Iftekhar Ahmed,Shakib Absar,Aftar Ahmad Sami,Shadman Sakib,Debojyoti Biswas,Seraj Al Mahmud Mostafa

Main category: cs.CV

TL;DR: 提出拓扑感知框架用于视网膜血管分割,通过图注意力网络保持血管连通性,减少38%的血管断裂,实现拓扑一致的血管树分割。

  • Motivation: 传统卷积网络在视网膜血管分割中会产生拓扑不连续的断点,尽管像素级精度高,但无法进行可靠的基于图的临床分析。需要保持血管连通性的分割方法。
  • Method: 提出拓扑感知框架,包含拓扑特征融合模块(TFFM)将局部特征映射到潜在图空间,使用图注意力网络捕获全局结构依赖。采用混合损失函数:Tversky损失处理类别不平衡,soft clDice损失显式惩罚拓扑断开。
  • Result: 在Fundus-AVSeg数据集上达到SOTA性能:综合Dice分数90.97%,95% Hausdorff距离3.50像素。血管断裂减少约38%,生成拓扑一致的血管树可用于自动生物标志物量化。
  • Conclusion: 提出的拓扑感知框架能有效保持视网膜血管的连通性,显著减少分割断裂,为基于图的临床分析提供了可行的解决方案,代码已开源。

[24] GTFMN: Guided Texture and Feature Modulation Network for Low-Light Image Enhancement and Super-Resolution

Yongsong Huang,Tzu-Hsuan Peng,Tomo Miyazaki,Xiaofeng Liu,Chun-Ting Chou,Ai-Chun Pang,Shinichiro Omachi

Main category: cs.CV

TL;DR: 提出GTFMN网络,通过解耦光照估计和纹理恢复来解决低光图像超分辨率问题,使用光照引导调制实现空间自适应恢复。

  • Motivation: 低光图像超分辨率面临分辨率和光照双重退化的挑战,现有方法难以同时处理这两个耦合问题。
  • Method: 提出GTFMN框架,包含两个分支:光照流预测空间变化的光照图,纹理流通过光照引导调制块(IGM Block)动态调制特征,实现空间自适应恢复。
  • Result: 在OmniNormal5和OmniNormal15数据集上取得最佳性能,在定量指标和视觉质量上均优于竞争方法。
  • Conclusion: 通过解耦光照估计和纹理恢复,GTFMN能有效处理低光图像超分辨率问题,在暗区增强的同时保留亮区细节。

[25] SNR-Edit: Structure-Aware Noise Rectification for Inversion-Free Flow-Based Editing

Lifan Jiang,Boxi Wu,Yuhang Pei,Tianrun Wu,Yongyuan Chen,Yan Zhao,Shiyu Yu,Deng Cai

Main category: cs.CV

TL;DR: SNR-Edit提出了一种无需训练的图像编辑框架,通过自适应噪声控制实现忠实潜空间轨迹校正,解决了现有基于流生成模型的编辑方法中固定高斯噪声导致的轨迹偏差和结构退化问题。

  • Motivation: 现有基于流生成模型的图像编辑方法依赖固定高斯噪声构建源轨迹,导致轨迹动力学偏差,引起结构退化或质量损失。需要一种无需训练的方法来校正潜空间轨迹,实现高保真编辑。
  • Method: SNR-Edit采用结构感知的噪声校正机制,将分割约束注入初始噪声,将源轨迹的随机分量锚定到真实图像的隐式反演位置,减少源-目标传输过程中的轨迹漂移。这是一种轻量级修改,无需模型调优或反演。
  • Result: 在SD3和FLUX模型上的评估显示,SNR-Edit在PIE-Bench和SNR-Bench上实现了像素级指标和VLM评分的优异性能,每张图像仅增加约1秒的开销。
  • Conclusion: SNR-Edit通过自适应噪声控制实现了无需训练的忠实潜空间轨迹校正,解决了基于流生成模型的图像编辑中的轨迹偏差问题,在保持高保真结构的同时仅引入最小计算开销。

[26] Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP

Sen Nie,Jie Zhang,Zhuo Wang,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: 提出CSR方法,通过频谱引导的对比目标优化校正扰动,有效防御对抗样本攻击,在16个分类基准上平均提升18.1%鲁棒性

  • Motivation: 现有视觉语言模型(如CLIP)在零样本泛化方面表现出色,但对对抗样本攻击非常脆弱。现有的测试时防御方法无法提供足够的鲁棒性,且存在高推理延迟和任务特定适用性的问题
  • Method: 通过分析对抗样本在渐进频率衰减下的特征不一致性,提出对比频谱校正(CSR)方法。该方法基于模型固有的频谱偏差,通过频谱引导的对比目标优化校正扰动,使输入重新对齐到自然流形,并采用输入自适应应用
  • Result: 在16个分类基准上的实验表明,CSR在对抗强AutoAttack攻击时,平均比现有最佳方法提升18.1%的鲁棒性,同时保持适度的推理开销。CSR还展现出在多种视觉任务中的广泛适用性
  • Conclusion: CSR是一种高效的测试时防御方法,通过利用对抗样本的频谱特性,实现了显著的鲁棒性提升,同时保持了低延迟和广泛的任务适用性

[27] UniPCB: A Unified Vision-Language Benchmark for Open-Ended PCB Quality Inspection

Fuxiang Sun,Xi Jiang,Jiansheng Wu,Haigang Zhang,Feng Zheng,Jinfeng Yang

Main category: cs.CV

TL;DR: 本文提出了UniPCB,首个用于PCB质量检测的统一视觉语言基准,以及PCB-GPT模型,该模型在特定领域任务上显著优于现有MLLMs。

  • Motivation: 当前多模态大语言模型在工业质量检测中表现有限,特别是在PCB检测等复杂场景中。PCB检测面临组件密集、布线复杂、缺陷模式细微等独特挑战,需要专业领域知识。目前缺乏高质量、统一的视觉语言基准来定量评估MLLMs在PCB检测任务上的表现。
  • Method: 1. 提出UniPCB基准:通过系统化流程从不同来源收集和标准化数据,涵盖三种标注场景;2. 开发PCB-GPT模型:基于新生成的指令数据集训练,采用渐进式课程学习策略,模拟人类专家的学习过程。
  • Result: 在UniPCB基准上的评估显示,现有MLLMs在领域特定任务上表现不佳,而PCB-GPT建立了新的基准。在细粒度缺陷定位任务上,PCB-GPT的性能比最强竞争对手提高了一倍以上,在定位和分析方面具有显著优势。
  • Conclusion: UniPCB基准和PCB-GPT模型填补了PCB质量检测领域缺乏统一评估标准的空白,为未来研究提供了重要基础。作者将发布指令数据、基准和模型以促进相关研究发展。

[28] Towards Pixel-Level VLM Perception via Simple Points Prediction

Tianhui Song,Haoyu Lu,Hao Yang,Lin Sui,Haoning Wu,Zaida Zhou,Zhiqi Huang,Yiping Bao,Y. Charles,Xinyu Zhou,Limin Wang

Main category: cs.CV

TL;DR: SimpleSeg:一种简单而有效的多模态大语言模型像素级感知方法,通过将分割重构为序列生成问题,直接预测物体边界点坐标,无需专用架构

  • Motivation: 现有方法通常需要复杂的任务特定设计或辅助组件来实现多模态大语言模型的像素级感知,作者希望探索一种更简单统一的方法
  • Method: 将分割重构为序列生成问题,模型直接预测物体边界点坐标;采用两阶段训练流程:SF→RL,其中强化学习使用IoU奖励来精炼点序列以匹配真实轮廓
  • Result: 在分割基准测试中,SimpleSeg的性能与依赖复杂任务特定设计的方法相当甚至超越,证明了标准MLLM架构具有强大的低级感知能力
  • Conclusion: 精确的空间理解可以通过简单的点预测实现,挑战了现有方法对辅助组件的需求,为更统一和强大的视觉语言模型铺平了道路

[29] VC-Bench: Pioneering the Video Connecting Benchmark with a Dataset and Evaluation Metrics

Zhiyu Yin,Zhipeng Liu,Kehai Chen,Lemao Liu,Jin Liu,Hong-Dong Li,Yang Xiang,Min Zhang

Main category: cs.CV

TL;DR: 提出了视频连接任务的新基准VC-Bench,包含1,579个高质量视频和三个核心评估指标,用于评估视频生成模型在连接起始和结束片段时的性能。

  • Motivation: 当前视频生成主要关注文本或图像条件,但实际应用如视频编辑和vlog制作需要无缝连接独立片段。视频连接任务缺乏标准化评估基准,阻碍了该领域的发展。
  • Method: 提出VC-Bench基准,包含从公共平台收集的1,579个高质量视频,涵盖15个主类别和72个子类别以确保多样性。设计了三个核心评估指标:视频质量分数(VQS)、起始一致性分数(SECS)和过渡平滑度分数(TSS)。
  • Result: 在VC-Bench上评估多个最先进的视频生成模型,结果显示这些模型在保持起始一致性和过渡平滑度方面存在显著局限性,导致整体连贯性和流畅性较低。
  • Conclusion: VC-Bench作为视频连接任务的先驱性基准,有望启发和指导未来研究。评估指标和数据集已公开提供,以促进该领域的发展。

[30] TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment

Jiarun Liu,Qifeng Chen,Yiru Zhao,Minghua Liu,Baorui Ma,Sheng Yang

Main category: cs.CV

TL;DR: TIGaussian是一个利用3D高斯泼溅特性增强跨模态对齐的框架,通过多分支3DGS分词器和模态特定对齐策略,在3D相关任务上实现最先进性能。

  • Motivation: 虽然视觉语言模型已经建立了文本和图像之间的特征联系,但3D模态数据(如点云和3D高斯)的整合能够为3D相关任务提供预训练支持。然而,提取3D模态特征和弥合不同模态之间的差距仍然存在挑战。
  • Method: 提出TIGaussian框架:1)多分支3DGS分词器将3DGS结构的内在属性解耦为紧凑的潜在表示;2)双向跨模态对齐策略:多视图特征融合机制利用扩散先验解决图像-3D对齐中的视角模糊问题,文本-3D投影模块自适应地将3D特征映射到文本嵌入空间。
  • Result: 在多个数据集上的广泛实验表明,TIGaussian在跨模态检索、零样本分类和场景识别等多个任务上实现了最先进的性能。
  • Conclusion: TIGaussian通过利用3D高斯泼溅特性和创新的跨模态对齐策略,有效地弥合了3D与其他模态之间的差距,为3D相关任务提供了强大的预训练框架。

[31] Handcrafted Feature Fusion for Reliable Detection of AI-Generated Images

Syed Mehedi Hasan Nirob,Moqsadur Rahman,Shamim Ehsan,Summit Haque

Main category: cs.CV

TL;DR: 该论文系统评估了多种手工特征描述符在检测合成图像上的性能,发现混合特征结合LightGBM分类器在CIFAKE数据集上表现最佳,证明了手工特征在合成图像检测中的持续价值。

  • Motivation: 随着生成模型快速发展,合成图像越来越逼真,对数字媒体的真实性和可信度构成威胁。虽然深度学习主导当前研究,但手工特征因其可解释性、效率和泛化能力仍有吸引力。需要系统评估手工特征在合成图像检测中的有效性。
  • Method: 在CIFAKE数据集(5万训练样本,1万测试样本)上系统评估七种手工特征描述符:原始像素、颜色直方图、DCT、HOG、LBP、GLCM和小波特征。使用七种分类器(从逻辑回归到梯度提升集成:LightGBM、XGBoost、CatBoost)进行基准测试,比较三种配置(基线、高级、混合特征)。
  • Result: LightGBM在所有分类器中表现最佳,混合特征配置下达到PR-AUC 0.9879、ROC-AUC 0.9878、F1 0.9447、Brier分数0.0414。性能随配置复杂度单调提升,混合特征相比单一特征带来显著增益,证明了特征组合的有效性。
  • Conclusion: 精心设计的手工特征结合集成学习在合成图像检测中仍然有效,特别是在需要可解释性和计算效率的场景中。特征多样性对性能提升至关重要,为实际应用提供了高效可靠的解决方案。

[32] A Multi-View Consistency Framework with Semi-Supervised Domain Adaptation

Yuting Hong,Li Dong,Xiaojie Qiu,Hui Xiao,Baochen Yao,Siming Zheng,Chengbin Peng

Main category: cs.CV

TL;DR: 提出多视图一致性框架解决半监督域适应中的类别偏差问题,通过去偏策略和伪负标签提升分类性能,在DomainNet和Office-Home数据集上表现优异

  • Motivation: 半监督域适应中目标域标注样本有限,导致特征空间中类别内在相似性,即使训练数据平衡也会产生有偏预测,需要解决这一局限性
  • Method: 提出多视图一致性框架:1) 去偏策略根据模型预测性能校正类别预测概率;2) 利用模型预测生成伪负标签;3) 跨域亲和性学习对齐不同域中相同类别的特征
  • Result: 在DomainNet和Office-Home两个标准域适应数据集上,该方法优于竞争方法,展示了优越性能
  • Conclusion: 结合无监督域适应和半监督学习能够增强模型适应性、降低标注成本并提升性能,对工业领域有重要贡献

[33] ProMist-5K: A Comprehensive Dataset for Digital Emulation of Cinematic Pro-Mist Filter Effects

Yingtie Lei,Zimeng Li,Chi-Man Pun,Wangyu Wu,Junke Yang,Xuhang Chen

Main category: cs.CV

TL;DR: ProMist-5K是一个用于模拟电影风格的数据集,包含2万张高分辨率图像对,专门捕捉Pro-Mist滤镜的光晕和扩散效果,支持各种图像转换模型。

  • Motivation: Pro-Mist滤镜在电影摄影中能产生柔和光晕、降低对比度并创造独特氛围风格,但这些效果难以通过数字方式重现,因为光扩散行为复杂。需要创建一个专门的数据集来支持电影风格仿真。
  • Method: 在场景参考线性空间中采用物理启发式流程构建数据集,包含2万张高分辨率图像对,涵盖两种滤镜密度(1/2和1/8)和两种焦距(20mm和50mm)。使用多层模糊和精心调校的权重来模拟不同强度和范围的光学扩散。
  • Result: 数据集在不同训练设置下表现良好,能够捕捉从细微到强烈的电影外观效果。提供了一个一致且可控的目标域,支持各种图像转换模型和学习范式。
  • Conclusion: ProMist-5K为电影风格图像转换提供了一个实用且物理基础扎实的资源,弥合了数字灵活性与传统镜头美学之间的差距,数据集已在Kaggle上公开。

[34] Beyond Shadows: A Large-Scale Benchmark and Multi-Stage Framework for High-Fidelity Facial Shadow Removal

Tailong Luo,Jiesong Bai,Jinyang Huang,Junyu Xia,Wangyu Wu,Xuhang Chen

Main category: cs.CV

TL;DR: 提出首个大规模真实世界人脸阴影去除数据集ASFW,包含1081对阴影/无阴影图像,并展示其能提升模型在真实场景下的性能

  • Motivation: 人脸阴影会降低图像质量和视觉算法性能,现有方法在复杂光照下难以同时去除阴影并保留纹理,且缺乏真实世界配对数据集进行训练
  • Method: 创建ASFW数据集(通过专业Photoshop工作流程生成1081对真实世界阴影/无阴影图像),并提出Face Shadow Eraser(FSE)方法展示数据集有效性
  • Result: ASFW数据集提供逼真的阴影变化和准确的地面真实数据,弥合了合成与真实领域间的差距;基于ASFW训练的深度模型在真实世界条件下表现出更好的阴影去除效果
  • Conclusion: ASFW数据集提升了人脸阴影去除模型的性能,为该任务设定了新标准

[35] Instance-Guided Radar Depth Estimation for 3D Object Detection

Chen-Chou Lo,Patrick Vandewalle

Main category: cs.CV

TL;DR: 提出InstaRadar增强雷达密度与语义对齐,结合RCDPT深度模块改进BEVDepth框架,提升单目3D目标检测性能

  • Motivation: 单目相机3D检测存在深度模糊和恶劣条件下鲁棒性差的问题,雷达虽能补充但稀疏低分辨率。需要有效的雷达-相机融合与深度估计策略
  • Method: 1. InstaRadar:基于实例分割引导的雷达扩展方法,利用预训练分割掩码增强雷达密度和语义对齐;2. 将预训练RCDPT集成到BEVDepth框架中替换其深度模块
  • Result: InstaRadar在雷达引导深度估计中达到SOTA,RCDPT集成持续提升3D检测性能,相比基线BEVDepth模型获得稳定增益
  • Conclusion: InstaRadar和显式深度监督在3D目标检测中有效,但框架仍落后于直接提取BEV特征的雷达-相机融合模型。未来将扩展InstaRadar到点云表示并集成带时序线索的专用雷达分支

[36] Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Zichen Wen,Boxue Yang,Shuang Chen,Yaojie Zhang,Yuhang Han,Junlong Ke,Cong Wang,Yicheng Fu,Jiawang Zhao,Jiangchao Yao,Xi Fang,Zhen Wang,Henxing Cai,Lin Yao,Zhifeng Gao,Yanhui Hong,Nang Yuan,Yixuan Li,Guojiang Zhao,Haoyi Tao,Nan Wang,Han Lyu,Guolin Ke,Ning Liao,Xiaoxing Wang,Kai Chen,Zhiyu Li,Feiyu Xiong,Sihan Hu,Kun Chen,Yanfeng Wang,Weinan E,Linfeng Zhang,Linfeng Zhang

Main category: cs.CV

TL;DR: Innovator-VL是一个科学多模态大语言模型,通过透明训练流程和数据高效方法,在少量数据下实现科学推理和通用视觉任务的优异性能。

  • Motivation: 当前科学多模态模型通常依赖大规模领域特定预训练和不透明流程,本研究旨在证明通过原则性训练设计和透明方法,可以在大幅减少数据需求的情况下实现强大的科学智能。
  • Method: 提供完全透明、端到端可复现的训练流程,包括数据收集、清洗、预处理、监督微调、强化学习和评估;使用少于500万个精选样本,无需大规模预训练;通过原则性数据选择而非盲目扩展实现有效推理。
  • Result: 在多种科学任务上达到竞争性性能,同时在通用视觉、多模态推理和科学基准测试中表现优异,表明科学对齐可以集成到统一模型中而不损害通用能力。
  • Conclusion: 即使没有大规模数据,也能构建高效、可复现、高性能的科学多模态模型,为未来研究提供了实用基础,强调原则性数据选择比盲目扩展更重要。

[37] Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Jinming Zhang,Xi Yang,Youpeng Yang,Haosen Shi,Yuyao Yan,Qiufeng Wang,Guangliang Cheng,Kaizhu Huang

Main category: cs.CV

TL;DR: 提出区域课程学习策略和帕累托一致损失,通过优先学习确定区域、逐步纳入不确定区域来稳定医学图像分割训练,并引入模糊标记机制处理边界模糊问题。

  • Motivation: 医学图像分割中的不确定性分布不均匀,边界区域比内部区域更具模糊性。传统训练方法对所有像素一视同仁,导致早期预测不可靠时优化不稳定,阻碍收敛到帕累托最优解。
  • Method: 1. 区域课程学习策略:优先学习确定区域,逐步纳入不确定区域,降低梯度方差;2. 帕累托一致损失:自适应重塑损失景观,平衡区域间不确定性权衡,约束内部和边界区域的收敛动态;3. 模糊标记机制:在非边界区域保持二元置信度,在边界附近实现平滑过渡,稳定梯度并扩展损失表面的平坦区域。
  • Result: 在脑转移瘤和非转移性肿瘤分割实验中,该方法在所有肿瘤子区域均优于传统的清晰集方法,在多种配置下表现一致改进。
  • Conclusion: 提出的区域课程学习策略和帕累托一致损失能有效处理医学图像分割中的非均匀不确定性,通过稳定训练过程和平衡区域间权衡,实现更好的分割性能。

[38] Establishing dermatopathology encyclopedia DermpathNet with Artificial Intelligence-Based Workflow

Ziyang Xu,Mingquan Lin,Yiliang Zhou,Zihan Xu,Seth J. Orlow,Zihan Xu,Shane A. Meehan,Alexandra Flamm,Ata S. Moshiri,Yifan Peng

Main category: cs.CV

TL;DR: 开发了一个名为DermpathNet的大型开放获取皮肤病理学图像数据集,包含7,772张图像,涵盖166种诊断,采用混合工作流程从PubMed Central中提取和分类图像。

  • Motivation: 临床医生和皮肤病理学学员难以获取高质量、开放获取的皮肤病理学图像数据集用于学习和交叉参考,需要建立一个全面的开放获取数据集用于教育、交叉参考和机器学习目的。
  • Method: 采用混合工作流程:使用特定关键词从PubMed Central提取相关图像,通过结合深度学习图像模态分类和图像标题分析的新颖混合方法进行分类。
  • Result: 在651张手动标注图像上验证,深度学习方法的F分数为89.6%,基于关键词检索的方法为61.0%,混合方法达到90.4%。最终检索了超过7,772张图像,涵盖166种诊断,并由认证皮肤病理学家审核。
  • Conclusion: 开发了大型、同行评审、开放获取的皮肤病理学图像数据集DermpathNet,具有半自动化的策展工作流程,并发现当前OpenAI的图像分析算法不足以分析皮肤病理学图像。

[39] Tri-Reader: An Open-Access, Multi-Stage AI Pipeline for First-Pass Lung Nodule Annotation in Screening CT

Fakrul Islam Tushar,Joseph Y. Lo

Main category: cs.CV

TL;DR: Tri-Reader是一个免费的三阶段肺癌筛查管道,集成了肺部分割、结节检测和恶性分类,优先考虑敏感性并减少标注负担。

  • Motivation: 开发一个全面、免费可用的肺癌筛查工具,能够整合多个公开数据集训练的模型,提高筛查效率并减轻临床标注负担。
  • Method: 使用多个基于公开数据集训练的开源模型,构建三阶段工作流:肺部分割、结节检测和恶性分类,优先考虑敏感性设计。
  • Result: 在多个内部和外部数据集上评估Tri-Reader,与专家标注和数据集参考标准进行比较,确保准确性和跨实践的泛化能力。
  • Conclusion: Tri-Reader提供了一个有效的免费肺癌筛查解决方案,具有良好的敏感性和泛化能力,能够减轻临床标注负担。

[40] Unveiling Perceptual Artifacts: A Fine-Grained Benchmark for Interpretable AI-Generated Image Detection

Yao Xiao,Weiyan Chen,Jiahao Chen,Zijie Cao,Weijian Deng,Binbin Yang,Ziyi Dong,Xiangyang Ji,Wei Ke,Pengxu Wei,Liang Lin

Main category: cs.CV

TL;DR: 提出了X-AIGD基准,用于可解释的AI生成图像检测,提供像素级分类标注,发现现有检测器很少依赖感知伪影,通过显式对齐注意力可提高可解释性和泛化能力。

  • Motivation: 当前AI生成图像检测方法主要依赖二分类,缺乏可解释的证据来支持其决策。现有基准虽然包含大量合成图像,但覆盖的伪影多样性有限,且缺乏详细的局部标注。
  • Method: 提出了X-AIGD基准,提供像素级、分类的感知伪影标注,涵盖低层失真、高层语义和认知层反事实。使用该基准进行广泛调查,评估现有检测器对伪影的依赖程度。
  • Result: 1) 现有AIGI检测器对感知伪影的依赖几乎为零,即使在最基本的失真层面。2) 虽然可以训练检测器识别特定伪影,但判断仍主要基于不可解释的特征。3) 显式对齐模型注意力与伪影区域可以提高检测器的可解释性和泛化能力。
  • Conclusion: X-AIGD基准填补了现有AIGI检测基准的空白,提供了详细的伪影标注,有助于评估可解释性和深入理解模型决策过程。通过注意力对齐可以改善检测器的可解释性和性能。

[41] RoamScene3D: Immersive Text-to-3D Scene Generation via Adaptive Object-aware Roaming

Jisheng Chu,Wenrui Li,Rui Zhao,Wangmeng Zuo,Shifeng Chen,Xiaopeng Fan

Main category: cs.CV

TL;DR: RoamScene3D:通过语义推理和几何约束,从文本生成沉浸式3D场景的新框架,解决了现有方法的空间盲目性和轨迹固定问题

  • Motivation: 现有文本到3D场景生成方法存在空间盲目性,依赖预定义轨迹,无法理解语义布局和推断遮挡内容;同时当前修复模型在2D图像空间操作,难以处理相机运动造成的空洞
  • Method: 1) 使用视觉语言模型构建场景图编码物体关系,指导相机感知显著物体边界并规划自适应漫游轨迹;2) 提出运动注入修复模型,在合成全景数据集上微调,整合真实相机轨迹以适应相机运动
  • Result: 通过语义推理和几何约束,该方法在生成一致性和照片级真实感场景方面显著优于现有最先进方法
  • Conclusion: RoamScene3D通过语义引导与空间生成的结合,解决了现有方法的局限性,能够生成更一致和真实的3D场景

[42] DSTCS: Dual-Student Teacher Framework with Segment Anything Model for Semi-Supervised Pubic Symphysis Fetal Head Segmentation

Yalin Luo,Shun Long,Huijin Wang,Jieyun Bai

Main category: cs.CV

TL;DR: 提出结合CNN与SAM的双师生框架(DSTCS),通过协同学习机制提升超声图像中耻骨联合与胎头分割的准确性,在MICCAI基准测试中表现优异。

  • Motivation: 耻骨联合与胎头分割在产程监测中至关重要,但超声图像存在类别不平衡、边界模糊、噪声干扰等问题,且高质量标注数据稀缺。现有研究主要依赖CNN和Transformer,更强大模型的潜力尚未充分探索。
  • Method: 提出双师生框架(DSTCS),将Segment Anything Model(SAM)与CNN结合形成双分支结构,通过协同学习机制提升分割精度。还包含针对边界处理的专门数据增强策略和新颖的损失函数。
  • Result: 在MICCAI 2023和2024 PSFH分割基准测试中进行了广泛实验,证明该方法展现出卓越的鲁棒性,显著优于现有技术,为临床实践提供了可靠的分割工具。
  • Conclusion: 提出的DSTCS框架通过结合CNN和SAM的优势,有效解决了超声图像中耻骨联合与胎头分割的挑战,为临床产程监测提供了准确可靠的分割解决方案。

[43] Towards Gold-Standard Depth Estimation for Tree Branches in UAV Forestry: Benchmarking Deep Stereo Matching Methods

Yida Lin,Bing Xue,Mengjie Zhang,Sam Schofield,Richard Green

Main category: cs.CV

TL;DR: 本文首次系统评估了八种立体深度估计方法在植被密集环境中的零样本泛化能力,发现不同方法在不同场景下表现各异,其中DEFOM在植被深度估计中表现最佳,被确立为黄金标准基线。

  • Motivation: 自主无人机林业操作需要具有强大跨域泛化能力的深度估计方法,但现有评估主要集中在城市和室内场景,缺乏对植被密集环境的系统评估,存在关键的研究空白。
  • Method: 对八种立体深度估计方法(涵盖迭代细化、基础模型、扩散模型和3D CNN范式)进行首次系统性零样本评估。所有方法使用官方发布的预训练权重(在Scene Flow上训练),并在四个标准基准(ETH3D、KITTI 2012/2015、Middlebury)和一个新的5,313对Canterbury Tree Branches数据集上进行评估。
  • Result: 结果显示场景依赖模式:基础模型在结构化场景表现优异(BridgeDepth在ETH3D上0.23像素;DEFOM在Middlebury上4.65像素),而迭代方法在不同基准上表现不一(IGEV++在ETH3D上0.36像素但在Middlebury上6.77像素)。在Tree Branches数据集上,DEFOM被确立为植被深度估计的黄金标准基线,具有最佳的跨域一致性(在所有基准上排名1-2位,平均排名1.75)。
  • Conclusion: DEFOM在植被深度估计中表现最优,其预测结果将作为未来基准测试的伪地面真值。研究填补了植被密集环境深度估计评估的空白,为自主无人机林业操作提供了重要的方法参考。

[44] Dynamic Worlds, Dynamic Humans: Generating Virtual Human-Scene Interaction Motion in Dynamic Scenes

Yin Wang,Zhiying Leng,Haitian Liu,Frederick W. B. Li,Mu Li,Xiaohui Liang

Main category: cs.CV

TL;DR: Dyn-HSI:首个动态人-场景交互认知架构,赋予虚拟人视觉、记忆、控制三大类人组件,在静态和动态场景中均能生成高质量交互动作。

  • Motivation: 现实世界中场景持续动态变化,但现有的人-场景交互生成方法通常将场景视为静态,这与现实不符。需要开发能够处理动态场景的交互生成方法。
  • Method: 提出Dyn-HSI认知架构,包含三个类人组件:1) 视觉(动态场景感知导航)- 感知环境变化并自适应预测下一个路径点;2) 记忆(分层经验记忆)- 存储和更新训练积累的经验数据,用于推理时的上下文感知运动引导;3) 控制(人-场景交互扩散模型)- 基于多模态输入生成高保真交互动作。还构建了动态基准数据集Dyn-Scenes。
  • Result: 在Dyn-Scenes动态基准数据集上的广泛定性和定量实验表明,Dyn-HSI方法始终优于现有方法,在静态和动态设置下都能生成高质量的人-场景交互动作。
  • Conclusion: Dyn-HSI是首个用于动态人-场景交互的认知架构,通过模拟人类的视觉、记忆和控制能力,显著提升了在动态变化场景中生成交互动作的质量和泛化能力。

[45] Entropy-Guided k-Guard Sampling for Long-Horizon Autoregressive Video Generation

Yizhao Han,Tianxing Shi,Zhao Wang,Zifan Xu,Zhiyuan Pu,Mingxiao Li,Qian Zhang,Wei Yin,Xiao-Xiao Long

Main category: cs.CV

TL;DR: 提出ENkG采样策略,针对视频生成中AR模型token冗余度高的问题,通过基于熵的自适应候选集大小来改善长序列生成质量

  • Motivation: AR架构在LLMs中成功但在视频生成中面临挑战:视频token语义密度低、时空冗余度高,静态top-k/top-p采样策略在低不确定性区域引入不必要噪声,在高不确定性区域容易累积错误,导致长序列生成质量下降
  • Method: 提出熵引导的k保护(ENkG)采样策略:基于每个token预测分布的熵值自适应调整候选集大小。低熵区域使用较少候选抑制冗余噪声,高熵区域使用更多候选缓解错误累积。该方法模型无关、无需训练、计算开销小
  • Result: 实验表明ENkG相比静态top-k/top-p策略在感知质量和结构稳定性方面有持续改进
  • Conclusion: ENkG采样策略有效解决了视频生成中AR模型的采样适配问题,通过熵引导的自适应候选集大小平衡了结构完整性和生成多样性,提升了长序列视频生成质量

[46] Fast Converging 3D Gaussian Splatting for 1-Minute Reconstruction

Ziyu Zhang,Tianle Liu,Diantao Tu,Shuhan Shen

Main category: cs.CV

TL;DR: 一分钟快速3D高斯重建管道,针对SIGGRAPH Asia挑战赛设计,采用两阶段策略应对不同相机姿态质量,最终获得比赛第一名

  • Motivation: 针对SIGGRAPH Asia 3DGS快速重建挑战赛,需要在严格的一分钟时间限制内实现高质量3D重建。挑战分为两轮:第一轮使用SLAM生成的有噪声相机轨迹,第二轮使用COLMAP的高精度姿态。需要开发能够鲁棒处理这两种不同设置的方法。
  • Method: 采用两阶段解决方案:第一轮针对SLAM噪声轨迹,使用反向逐高斯并行优化、紧凑前向splatting、负载均衡分块、基于锚点的Neural-Gaussian表示、单目深度初始化、部分前馈3DGS模型初始化,以及全局姿态优化模块。第二轮针对精确COLMAP姿态,禁用姿态优化,从Neural-Gaussian回退到标准3DGS以减少MLP开销,引入多视角一致性引导的高斯分裂,并使用深度估计器监督渲染深度。
  • Result: 该方法在严格的一分钟时间预算内实现了高保真重建,获得了PSNR 28.43的顶级性能,在比赛中排名第一。
  • Conclusion: 提出的两阶段快速3DGS重建管道能够有效处理不同质量的相机姿态输入,在一分钟时间限制内实现高质量3D重建,证明了其在快速重建挑战中的优越性能。

[47] Cortex-Grounded Diffusion Models for Brain Image Generation

Fabian Bongratz,Yitong Li,Sama Elbaroudy,Christian Wachinger

Main category: cs.CV

TL;DR: Cor2Vox:基于皮层结构的脑MRI生成框架,利用皮层表面先验指导3D扩散过程,实现解剖学一致的合成

  • Motivation: 现有神经影像生成模型主要依赖标签或文本等弱条件信号,缺乏解剖学基础,常产生生物学上不可信的输出。需要一种能够与大脑皮层连续结构先验绑定的生成框架。
  • Method: 提出Cor2Vox框架,利用高分辨率皮层表面指导3D形状到图像的布朗桥扩散过程。开发了基于33,000多个UK Biobank扫描的大规模皮层形态统计形状模型。
  • Result: 在图像质量指标、皮层表面重建和全脑分割质量方面优于基线方法。在三个应用中(解剖一致合成、灰质萎缩模拟、数据集协调)表现出亚体素级别的精细皮层形态保持能力。
  • Conclusion: Cor2Vox通过将图像生成与皮层结构先验绑定,实现了拓扑忠实且解剖可控的脑MRI合成,对皮层几何和疾病表型变化具有鲁棒性。

[48] Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration

Zhengjian Yao,Jiakui Hu,Kaiwen Li,Hangzhou He,Xinliang Zhang,Shuang Zeng,Lei Zhu,Yanye Lu

Main category: cs.CV

TL;DR: Pref-Restore:通过层次化框架结合离散语义逻辑与连续纹理生成,实现确定性、偏好对齐的盲人脸恢复,解决信息不对称问题

  • Motivation: 当前生成式盲人脸恢复方法存在信息不对称问题:低质量输入信息稀疏,高质量输出信息密集,导致一对多映射关系,产生随机不确定性和幻觉伪影
  • Method: 1. 增强输入密度:使用自回归集成器将文本指令转化为密集潜在查询,注入高级语义稳定性约束退化信号;2. 修剪输出分布:将策略强化学习直接集成到扩散恢复循环中,将人类偏好转化为可微分约束,惩罚随机偏差
  • Result: 在合成和真实世界基准测试中达到最先进性能,偏好对齐策略显著降低解熵,建立可靠且确定性的盲恢复路径
  • Conclusion: Pref-Restore通过层次化框架有效解决盲人脸恢复中的信息不对称问题,实现确定性、偏好对齐的恢复,为可靠盲恢复提供稳健途径

[49] Mocap Anywhere: Towards Pairwise-Distance based Motion Capture in the Wild (for the Wild)

Ofir Abramovich,Ariel Shamir,Andreas Aristidou

Main category: cs.CV

TL;DR: 提出Wild-Poser系统,仅使用身体佩戴UWB传感器的稀疏成对距离测量,无需外部摄像头即可实时重建全身3D运动,适用于野外环境

  • Motivation: 传统运动捕捉系统(如光学或惯性系统)需要外部设备、受环境限制(光照、磁场干扰),且通常需要个体身体测量。需要一种能在非受控户外环境中工作、形状不变且无需个体校准的通用运动捕捉方法
  • Method: 使用身体佩戴的超宽带(UWB)传感器进行飞行时间测距,获取稀疏成对距离测量。开发Wild-Poser(WiP)——基于Transformer的紧凑实时架构,直接从噪声或损坏的距离测量预测3D关节位置,然后通过学习方法重建关节旋转
  • Result: WiP能够泛化到不同形态的受试者(包括非人类物种),无需个体身体测量或形状拟合。实时运行,关节位置误差低,在野外环境中对人类和动物受试者实现准确的3D运动重建
  • Conclusion: 该系统展示了在现实世界环境中实现可扩展、低成本、通用运动捕捉的潜力,特别适用于不受控制的户外环境

[50] A Non-Invasive 3D Gait Analysis Framework for Quantifying Psychomotor Retardation in Major Depressive Disorder

Fouad Boutaleb,Emery Pierson,Mohamed Daoudi,Clémence Nineuil,Ali Amad,Fabien D'Hondt

Main category: cs.CV

TL;DR: 提出一个非侵入性计算框架,将单目RGB视频转换为临床相关的3D步态运动学特征,用于检测重度抑郁症中的精神运动迟缓,准确率达83.3%

  • Motivation: 目前重度抑郁症(MDD)的诊断主要依赖主观评估,特别是精神运动迟缓(PMR)这一核心症状。虽然3D运动捕捉能提供客观评估,但需要专业设备难以在临床常规使用。需要开发基于普通摄像头的客观、可解释的抑郁症评估方法。
  • Method: 1) 提出非侵入性计算框架,将单目RGB视频转换为3D步态运动学特征;2) 使用重力视图坐标和新型轨迹校正算法,利用改进的Timed Up and Go(TUG)协议的闭环拓扑来减轻单目深度误差;3) 从单摄像头捕获中提取297个明确的步态生物力学生物标志物;4) 引入基于稳定性的机器学习框架,识别稳健的运动特征并防止过拟合。
  • Result: 在CALYPSO数据集上验证:1) 检测精神运动迟缓的准确率达到83.3%;2) 解释总体抑郁严重程度64%的方差(R^2=0.64);3) 发现踝关节推进力减少和骨盆活动受限与抑郁运动表型有强关联;4) 证明身体运动可作为认知状态的稳健代理指标。
  • Conclusion: 该研究开发了一个透明、可扩展的工具,能够通过普通摄像头客观监测抑郁症,为临床环境提供了基于物理运动的客观评估方法,揭示了运动特征与抑郁状态之间的明确联系。

[51] The S3LI Vulcano Dataset: A Dataset for Multi-Modal SLAM in Unstructured Planetary Environments

Riccardo Giubilato,Marcus Gerhard Müller,Marco Sewtz,Laura Alejandra Encinar Gonzalez,John Folkesson,Rudolph Triebel

Main category: cs.CV

TL;DR: 发布S3LI Vulcano多模态数据集,用于SLAM和地点识别算法的开发与基准测试,包含火山岛环境下的视觉和LiDAR数据

  • Motivation: 为SLAM和地点识别算法提供多模态(视觉和LiDAR)的基准数据集,特别是在具有挑战性的火山岛环境中,以促进相关算法的发展
  • Method: 在意大利西西里火山岛Vulcano上记录多个序列,采集不同环境、纹理和地形(玄武岩、富铁岩石、古老熔岩通道、干燥植被和水域)的数据,并提供开源工具包用于生成地面真实位姿和准备地点识别任务的标注样本
  • Result: 发布了完整的S3LI Vulcano数据集和配套工具包,数据集包含多环境序列,工具包提供地面真实位姿生成和样本标注功能,数据可通过rmc.dlr.de/s3li_dataset获取,工具包在github.com/DLR-RM/s3li-toolkit开源
  • Conclusion: S3LI Vulcano数据集为SLAM和地点识别研究提供了有价值的多模态基准资源,特别是在具有挑战性的火山环境中,配套工具包进一步增强了其实用性和可重复性

[52] MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation

Ronglai Zuo,Rolandos Alexandros Potamias,Qi Sun,Evangelos Ververas,Jiankang Deng,Stefanos Zafeiriou

Main category: cs.CV

TL;DR: MaDiS是一个基于掩码扩散的语言模型,用于手语生成,通过双向依赖建模和并行多标记生成,提高了生成质量和推理速度。

  • Motivation: 现有手语生成方法采用自回归语言模型,存在单向上下文建模和逐标记推理缓慢的问题,需要更高效的双向建模方法。
  • Method: 提出掩码扩散语言模型MaDiS,采用三层次跨模态预训练(标记、潜在、3D物理空间),设计时间检查点的解掩码策略,以及混合部件嵌入层。
  • Result: 在CSL-Daily、Phoenix-2014T和How2Sign数据集上,MaDiS在DTW误差、SiBLEU和SiCLIP等指标上表现优异,推理延迟降低近30%。
  • Conclusion: MaDiS通过掩码扩散框架解决了自回归模型的局限性,实现了更高效、更高质量的手语生成,为听障社区提供了更好的沟通工具。

[53] QuaMo: Quaternion Motions for Vision-based 3D Human Kinematics Capture

Cuong Le,Pavlo Melnyk,Urs Waldmann,Mårten Wadenbäck,Bastian Wandt

Main category: cs.CV

TL;DR: QuaMo提出了一种基于四元数微分方程(QDE)的3D人体运动捕捉方法,解决了传统欧拉角方法的不连续性问题,通过状态空间模型和自适应加速度增强实现更准确、连续的运动估计。

  • Motivation: 传统3D姿态估计方法忽略帧间时间一致性,导致运动不自然和抖动。基于运动学的方法虽然改进,但仍依赖欧拉角,存在不连续性,特别是在在线设置中。四元数具有连续性优势,但现有方法未充分利用。
  • Method: 提出QuaMo方法:1)使用四元数微分方程(QDE)描述人体运动学;2)采用状态空间模型,以四元数为状态,QDE描述四元数速度;3)引入元PD控制器计算角加速度,带有自适应调节控制信号的加速度增强;4)在四元数单位球约束下求解QDE。
  • Result: 实验表明,QuaMo的QDE公式配合加速度增强能够准确估计3D人体运动学,无间断且最小化不合理性。在Human3.6M、Fit3D、SportsPose和AIST多个数据集上优于现有最先进方法。
  • Conclusion: QuaMo通过四元数微分方程和自适应加速度增强,有效解决了传统运动捕捉中的不连续性问题,实现了更准确、连续的3D人体运动估计,在多个基准数据集上表现出优越性能。

[54] ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Yujin Wang,Yutong Zheng,Wenxian Fan,Tianyi Wang,Hongqing Chu,Daxin Tian,Bingzhao Gao,Jianqiang Wang,Hong Chen

Main category: cs.CV

TL;DR: ScenePilot-Bench是一个用于评估自动驾驶场景中视觉语言模型的大规模第一人称驾驶基准,基于3,847小时驾驶视频构建,包含多粒度标注和四轴评估套件。

  • Motivation: 当前缺乏专门针对自动驾驶场景的视觉语言模型评估基准,需要构建一个全面、安全感知的基准来评估VLMs在安全关键驾驶环境中的能力。
  • Method: 基于ScenePilot-4K数据集(3,847小时驾驶视频)构建,包含多粒度标注(场景描述、风险评估、关键参与者识别、自车轨迹、相机参数),设计四轴评估套件(场景理解、空间感知、运动规划、GPT-Score),采用安全感知指标和跨区域泛化设置。
  • Result: 对代表性VLMs进行了基准测试,提供了实证分析,明确了当前性能边界,识别了驾驶导向推理的差距。
  • Conclusion: ScenePilot-Bench为在安全关键的自动驾驶环境中评估和推进VLMs提供了一个全面的框架。

[55] Localized Latent Editing for Dose-Response Modeling in Botulinum Toxin Injection Planning

Estèphe Arnaud,Mohamed Daoudi,Pierre Guerreschi

Main category: cs.CV

TL;DR: 提出基于StyleGAN2的局部潜在编辑框架,通过剂量响应模型模拟肉毒杆菌注射效果,用于注射规划

  • Motivation: 肉毒杆菌注射是面部不对称和美容再生的黄金标准,但确定最佳剂量主要依赖直觉,常导致次优结果
  • Method: 提出区域特定潜在轴发现方法,学习StyleGAN2潜在空间中局部肌肉松弛轨迹;建立预测性剂量响应模型;比较直接度量回归与基于图像的生成模拟两种方法
  • Result: 在保留测试集上,框架显示几何不对称度量的中等至强结构相关性;生成模型正确捕捉形态变化方向;引入"人在回路"混合工作流程
  • Conclusion: 虽然生物变异性限制了绝对精度,但提出的混合工作流程弥合了病理重建与美容规划之间的差距

[56] GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining

Shentong Mo,Zehua Chen,Jun Zhu

Main category: cs.CV

TL;DR: GMS-CAVP提出多尺度视频-音频对齐与扩散预训练框架,通过多尺度对比学习和扩散生成目标增强跨模态理解,在生成和检索任务上超越现有方法。

  • Motivation: 现有视频-音频联合嵌入方法(如CAVP)虽然通过对比学习建模语义和时间对应关系,但性能仍不理想。主要限制在于未能充分建模视频和音频信号的密集多尺度特性,这些对应关系跨越从细粒度到粗粒度的时空结构,在现有框架中未被充分利用。
  • Method: 提出GMS-CAVP框架,结合多尺度视频-音频对齐和多尺度时空扩散预训练目标。1)引入多尺度对比学习策略,捕捉不同粒度的语义和时间关系;2)超越传统对比学习,加入基于扩散的生成目标,实现视频和音频之间的模态转换和合成。
  • Result: 在VGGSound、AudioSet和Panda70M数据集上的大量实验表明,GMS-CAVP在生成和检索任务上优于先前方法。
  • Conclusion: 统一的判别-生成式框架促进了更深层次的跨模态理解,为高保真生成铺平了道路。多尺度对齐和扩散预训练的结合显著提升了视频-音频对应关系建模的效果。

[57] The role of self-supervised pretraining in differentially private medical image analysis

Soroosh Tayebi Arasteh,Mina Farajiamiri,Mahshad Lotfinia,Behrus Hinrichs-Puladi,Jonas Bienzeisler,Mohamed Alhaskir,Mirabela Rusu,Christiane Kuhl,Sven Nebelung,Daniel Truhn

Main category: cs.CV

TL;DR: DINOv3自监督初始化在差分隐私下优于ImageNet监督初始化,但不如领域特定监督预训练,后者性能最接近非隐私基线。初始化策略对差分隐私医疗影像分析的效用、公平性和泛化性至关重要。

  • Motivation: 差分隐私(DP)在保护敏感数据的同时通常会导致诊断性能大幅下降。模型初始化已成为缓解这种性能下降的关键因素,但现代自监督学习在全模型DP下的作用尚不清楚。本研究旨在评估不同初始化策略对差分隐私医疗影像分析的影响。
  • Method: 使用超过80万张胸部X光片作为代表性基准,采用最先进的ConvNeXt模型和DP-SGD训练,在现实隐私机制下比较三种初始化策略:非领域特定的监督ImageNet初始化、非领域特定的自监督DINOv3初始化,以及领域特定的监督预训练(在MIMIC-CXR数据集上)。在五个外部数据集上进行评估,涵盖不同机构和采集设置。
  • Result: DINOv3初始化在DP下相对于ImageNet初始化持续提高诊断效用,但仍不如领域特定监督预训练,后者性能最接近非隐私基线。初始化选择强烈影响人口统计学公平性、跨数据集泛化能力,以及在隐私约束下对数据规模和模型容量的鲁棒性。
  • Conclusion: 初始化策略是差分隐私医疗影像分析中效用、公平性和泛化性的核心决定因素。领域特定监督预训练在隐私保护下表现最佳,为实际应用提供了重要指导。

[58] Towards Governance-Oriented Low-Altitude Intelligence: A Management-Centric Multi-Modal Benchmark With Implicitly Coordinated Vision-Language Reasoning Framework

Hao Chang,Zhihui Wang,Lingxiang Wu,Peijin Wang,Wenhui Diao,Jinqiao Wang

Main category: cs.CV

TL;DR: 提出了首个面向城市管理的低空多模态基准数据集GovLA-10K和统一视觉语言推理框架GovLA-Reasoner,用于支持城市治理中的异常理解需求。

  • Motivation: 现有以对象为中心的感知范式和松散的视觉语言管道难以支持实际城市治理中需要的管理导向异常理解,需要填补这一空白。
  • Method: 1) 构建GovLA-10K基准数据集,围绕功能显著目标设计,提供基于观察的可执行管理建议;2) 开发GovLA-Reasoner框架,通过高效特征适配器隐式协调视觉检测器与大语言模型之间的判别性表征共享。
  • Result: 实验表明该方法显著提升性能,同时避免了针对任何任务特定组件的微调需求。
  • Conclusion: 这项工作为未来管理感知的低空视觉语言系统研究提供了新的视角和基础。

[59] KeepLoRA: Continual Learning with Residual Gradient Adaptation

Mao-Lin Luo,Zi-Hao Zhou,Yi-Lin Zhang,Yuanyu Wan,Tong Wei,Min-Ling Zhang

Main category: cs.CV

TL;DR: KeepLoRA:一种通过将LoRA参数更新限制在残差子空间来平衡预训练知识保留、任务知识保持和新知识学习能力的持续学习方法

  • Motivation: 持续学习需要平衡三个竞争目标:保留预训练知识、保持已学习任务的知识、维持学习新知识的可塑性。现有方法难以有效平衡这些目标。
  • Method: 分析发现通用知识主要编码在主成分子空间,任务特定知识编码在残差子空间。KeepLoRA通过将新任务的梯度投影到与预训练模型主成分子空间和先前任务特征主导方向正交的子空间,限制LoRA参数在残差子空间更新。
  • Result: 理论和实证分析证实KeepLoRA能平衡三个目标,在持续学习任务上达到最先进的性能。
  • Conclusion: KeepLoRA通过简单的梯度投影机制有效平衡了持续学习中的知识保留、保持和可塑性目标,为预训练视觉语言模型的持续学习提供了有效解决方案。

[60] A new Image Similarity Metric for a Perceptual and Transparent Geometric and Chromatic Assessment

Antonio Di Marino,Vincenzo Bevilacqua,Emanuel Di Nardo,Angelo Ciaramella,Ivanoe De Falco,Giovanna Sannino

Main category: cs.CV

TL;DR: 提出一种新的感知图像相似度度量方法,包含纹理差异和颜色差异两个部分,在包含复杂形状和颜色失真的数据集上优于现有方法,并提供可视化解释。

  • Motivation: 现有图像相似度度量方法不是感知度量,难以评估包含纹理失真的图像,且深度黑盒方法只提供相似度分数而不解释差异。
  • Method: 提出包含两个部分的感知度量:1) 使用Earth Mover's Distance评估纹理差异;2) 在Oklab感知色彩空间中评估颜色差异。
  • Result: 在Berkeley-Adobe Perceptual Patch Similarity数据集上评估,该方法在包含形状失真的图像上优于现有方法,并证实了更好的感知性。
  • Conclusion: 提出的感知度量方法在图像相似度评估上优于现有技术,特别是在形状失真情况下,且提供可视化解释使评估过程透明可解释。

[61] SharpNet: Enhancing MLPs to Represent Functions with Controlled Non-differentiability

Hanting Niu,Junkai Deng,Fei Hou,Wencheng Wang,Ying He

Main category: cs.CV

TL;DR: SharpNet是一种改进的MLP架构,能够编码具有用户定义尖锐特征(如边缘和角点)的函数,通过引入辅助特征函数和可微优化实现精确的C^0连续性控制。

  • Motivation: 传统MLP输出全局平滑,难以表示连续但故意不可微的函数(具有预设的C^0尖锐特征),通常需要临时后处理。需要一种能够直接编码尖锐特征且保持平滑性的网络架构。
  • Method: 提出SharpNet架构,通过引入辅助特征函数(定义为具有跳跃Neumann边界条件的泊松方程的解),使用高效的局部积分进行评估,该积分对特征位置完全可微,从而能够联合优化特征位置和MLP参数。
  • Result: 在2D问题和3D CAD模型重建任务中验证,SharpNet能够准确恢复尖锐边缘和角点,同时在特征之外保持平滑行为,而现有方法倾向于平滑梯度不连续性。定性和定量评估都显示了该方法的优势。
  • Conclusion: SharpNet提供了一种有效的方法来编码具有可控C^0连续性的函数,能够精确控制特征位置的C^0连续性,同时在其它区域保持平滑,在需要尖锐特征表示的任务中优于现有方法。

[62] Video-KTR: Reinforcing Video Reasoning via Key Token Attribution

Ziyue Wang,Sheng Jin,Zhongrong Zuo,Jiawei Wu,Han Qiu,Qi She,Hao Zhang,Xudong Jiang

Main category: cs.CV

TL;DR: Video-KTR:一种模态感知的策略塑造框架,通过视觉感知、时序感知和高熵三个归因信号进行选择性token级强化学习,提升视频推理的准确性和可解释性。

  • Motivation: 现有视频推理方法通常依赖粗粒度的序列级奖励或单因素token选择,忽视了视觉输入、时序动态和语言输出之间的细粒度联系,限制了准确性和可解释性。
  • Method: 提出Video-KTR框架,结合三个归因信号进行选择性token级强化学习:1) 通过反事实掩码识别的视觉感知token;2) 通过帧重排检测的时序感知token;3) 表示预测不确定性的高熵token。仅强化这些关键token,聚焦于语义信息丰富、模态敏感的内容。
  • Result: 在五个具有挑战性的基准测试中达到SOTA或高度竞争力结果,在Video-Holmes上达到42.7%(超越GPT-4o),在推理和通用视频理解任务上均获得一致提升。消融研究验证了归因信号的互补作用和目标token级更新的鲁棒性。
  • Conclusion: Video-KTR提高了视频推理的准确性和可解释性,为复杂视频推理提供了一个简单、即插即用的强化学习扩展方案。

[63] DSVM-UNet : Enhancing VM-UNet with Dual Self-distillation for Medical Image Segmentation

Renrong Shao,Dongyang Li,Dong Xia,Lin Shao,Jiangdong Lu,Fen Zheng,Lulu Zhang

Main category: cs.CV

TL;DR: 本文提出DSVM-UNet,通过双重自蒸馏方法提升VM-UNet的医学图像分割性能,无需复杂架构设计

  • Motivation: 现有Vision Mamba模型虽然能有效处理长距离依赖关系,但主要关注复杂架构设计。本文旨在通过简单有效的自蒸馏方法提升VM-UNet性能,避免复杂结构设计
  • Method: 提出双重自蒸馏方法,在全局和局部两个层次对齐特征。该方法不改变VM-UNet的基础架构,而是通过知识蒸馏技术提升模型性能
  • Result: 在ISIC2017、ISIC2018和Synapse基准测试上达到最先进性能,同时保持计算效率
  • Conclusion: 双重自蒸馏是一种简单有效的VM-UNet改进方法,无需复杂架构设计即可显著提升医学图像分割性能

[64] Self-Supervised Weight Templates for Scalable Vision Model Initialization

Yucheng Xie,Fu Feng,Ruixiao Shi,Jing Wang,Yong Rui,Xin Geng

Main category: cs.CV

TL;DR: SWEET是一个自监督框架,通过约束式预训练实现视觉任务中可变大小模型的可扩展初始化,使用共享权重模板和大小特定的权重缩放器,支持灵活适应不同深度和宽度的架构。

  • Motivation: 现代模型参数规模和复杂性不断增加,突显了预训练模型的重要性。然而,实际部署通常需要不同大小的架构,这暴露了传统预训练和微调方法的局限性。
  • Method: 提出SWEET框架,学习共享权重模板和大小特定的权重缩放器(基于Tucker分解),支持灵活适应不同深度和宽度的架构。目标模型通过组合和重加权模板进行初始化,权重缩放器参数可从少量训练数据高效学习。还引入宽度随机缩放来增强宽度扩展的灵活性。
  • Result: 在分类、检测、分割和生成任务上的广泛实验表明,SWEET在初始化可变大小视觉模型方面达到了最先进的性能。
  • Conclusion: SWEET通过约束式预训练和灵活的权重模板设计,有效解决了可变大小模型初始化问题,为视觉任务提供了可扩展的解决方案。

[65] DiffStyle3D: Consistent 3D Gaussian Stylization via Attention Optimization

Yitong Yang,Xuexin Liu,Yinglin Wang,Jing Wang,Hao Dou,Changshuo Wang,Shuting He

Main category: cs.CV

TL;DR: DiffStyle3D:一种基于扩散模型的3D高斯泼溅风格迁移新范式,通过潜在空间直接优化,引入注意力感知损失和几何引导的多视角一致性方法,提升风格化质量和视觉真实感。

  • Motivation: 现有3D风格迁移方法存在局限性:基于VGG和CLIP的方法难以在模型内部建模多视角一致性,而基于扩散的方法虽然能捕捉一致性但依赖去噪方向导致训练不稳定。需要一种既能保持多视角一致性又训练稳定的方法。
  • Method: 1. 提出DiffStyle3D范式,在潜在空间直接优化3D高斯泼溅;2. 引入注意力感知损失,在自注意力空间对齐风格特征,同时通过内容特征对齐保持原始内容;3. 提出几何引导的多视角一致性方法,将几何信息整合到自注意力中以建模跨视角对应关系;4. 基于几何信息构建几何感知掩码,防止跨视角重叠区域的冗余优化。
  • Result: 大量实验表明,DiffStyle3D在风格化质量和视觉真实感方面优于现有最先进方法,实现了更高的多视角一致性和更好的视觉效果。
  • Conclusion: DiffStyle3D通过潜在空间直接优化、注意力感知损失和几何引导的多视角一致性方法,有效解决了现有3D风格迁移方法的局限性,实现了高质量、稳定的3D风格迁移。

[66] WaterClear-GS: Optical-Aware Gaussian Splatting for Underwater Reconstruction and Restoration

Xinrui Zhang,Yufeng Wang,Shuangkang Fang,Zesheng Wang,Dacheng Qi,Wenrui Ding

Main category: cs.CV

TL;DR: WaterClear-GS:首个基于3D高斯泼溅的纯框架,显式集成水下光学特性,实现实时渲染的水下3D重建和外观恢复

  • Motivation: 水下3D重建和外观恢复受复杂光学特性(如波长相关衰减和散射)阻碍。现有NeRF方法渲染慢、颜色恢复差,而3DGS缺乏建模复杂体积散射效应的能力。
  • Method: 提出WaterClear-GS框架,将局部衰减和散射的水下光学特性显式集成到高斯基元中,无需辅助介质网络。采用双分支优化策略确保水下光度一致性,同时自然恢复无水外观。结合深度引导几何正则化、感知驱动图像损失、曝光约束、空间自适应正则化和物理引导光谱正则化。
  • Result: 在标准基准和新收集数据集上,WaterClear-GS在新视角合成和水下图像恢复任务上均取得优异性能,同时保持实时渲染速度。
  • Conclusion: WaterClear-GS是首个纯3DGS框架,成功将水下光学特性集成到高斯表示中,实现了高效的水下3D重建和外观恢复,为水下视觉任务提供了新解决方案。

[67] PaW-ViT: A Patch-based Warping Vision Transformer for Robust Ear Verification

Deeksha Arun,Kevin W. Bowyer,Patrick Flynn

Main category: cs.CV

TL;DR: PaW-ViT是一种基于解剖知识的预处理方法,通过将视觉Transformer的矩形token边界与耳朵特征边界对齐,提高耳朵识别的鲁棒性

  • Motivation: 传统视觉Transformer的矩形token会包含识别对象之外的信息,这会影响性能。耳朵生物识别中的形态变化与Transformer架构的位置敏感性之间存在脱节,需要解决
  • Method: 提出PaW-ViT(基于补丁的变形视觉Transformer),利用解剖知识对耳朵图像进行归一化预处理,将token边界准确对齐到检测到的耳朵特征边界,并按照自然耳朵曲率对齐特征边界
  • Result: 实验证实PaW-ViT在各种ViT模型(ViT-T、ViT-S、ViT-B、ViT-L)上有效,对形状、大小和姿态变化具有合理的对齐鲁棒性
  • Conclusion: PaW-ViT解决了耳朵生物识别形态变化与Transformer位置敏感性之间的脱节问题,为身份验证方案提供了可能的途径

[68] GeoDiff3D: Self-Supervised 3D Scene Generation with Geometry-Constrained 2D Diffusion Guidance

Haozhi Zhu,Miaomiao Zhao,Dingyao Liu,Runze Tian,Yan Zhang,Jie Guo,Fenggen Yu

Main category: cs.CV

TL;DR: GeoDiff3D是一个自监督的3D场景生成框架,使用粗几何作为结构锚点,通过几何约束的2D扩散模型生成纹理丰富的参考图像,无需严格的多视角一致性,降低了标注数据依赖和计算成本。

  • Motivation: 现有3D场景生成方法存在两大范式:间接的2D到3D重建和直接的3D生成,但都存在结构建模弱、对大规模真实标注数据依赖强的问题,导致结构伪影、几何不一致和复杂场景中高频细节退化。
  • Method: 1) 使用粗几何作为结构锚点;2) 采用几何约束的2D扩散模型生成纹理丰富的参考图像;3) 无需严格的多视角一致性,对噪声和不一致指导保持鲁棒性;4) 引入体素对齐的3D特征聚合和双重自监督;5) 降低对标注数据的依赖。
  • Result: 在复杂场景上的大量实验表明,相比现有基线方法,GeoDiff3D在泛化能力和生成质量上都有提升,能以较低计算成本实现快速、高质量的3D场景生成。
  • Conclusion: GeoDiff3D为可访问和高效的3D场景构建提供了一个实用解决方案,通过自监督框架解决了现有方法的结构建模弱和标注数据依赖强的问题。

[69] Diffusion for De-Occlusion: Accessory-Aware Diffusion Inpainting for Robust Ear Biometric Recognition

Deeksha Arun,Kevin W. Bowyer,Patrick Flynn

Main category: cs.CV

TL;DR: 扩散模型耳部修复作为预处理辅助,可减轻耳饰遮挡对基于Transformer的耳部识别系统性能的影响

  • Motivation: 耳饰(耳环、耳机等)遮挡会严重影响耳部生物识别系统性能,尤其在非约束成像条件下。需要有效方法来缓解这种遮挡问题。
  • Method: 使用扩散模型进行耳部修复作为预处理辅助。给定输入耳部图像和自动生成的遮挡掩码,模型重建干净且解剖学合理的耳部区域,合成缺失像素同时保持关键耳部结构(耳轮、对耳轮、耳甲、耳垂)的局部几何一致性。
  • Result: 在多个基准数据集上评估不同视觉Transformer模型和不同补丁大小的识别系统。实验表明扩散模型修复能有效缓解耳饰遮挡,提升整体识别性能。
  • Conclusion: 扩散模型耳部修复可作为有用的预处理辅助,减轻耳饰遮挡对基于Transformer的耳部识别系统的影响,提高识别性能。

[70] Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Zhixiang Wei,Yi Li,Zhehan Kan,Xinghua Jiang,Zuwei Long,Shifeng Liu,Hongze Shen,Wei Liu,Xiaoyu Tan,Haojia Lin,Yubo Zhu,Qianyu Li,Di Yin,Haoyu Cao,Weibo Gu,Xin Li,Yinsong Liu,Deqiang Jiang,Xing Sun,Yunsheng Wu,Mingkong Tang,Shuangyin Liu,Lexiang Tang,Haodong Lin,Junru Lu,Jiarui Qin,Lingfeng Qiao,Ruizhi Qiao,Bo Ke,Jianfeng He,Ke Li,Yangning Li,Yunhang Shen,Mengdan Zhang,Peixian Chen,Kun Yin,Bing Liu,Yunfei Wu,Huang Chen,Zhongpeng Cai,Xiaotian Li

Main category: cs.CV

TL;DR: Youtu-VL 提出了一种新的视觉-语言统一自回归监督范式,将视觉信号从条件输入转变为监督目标,解决了现有VLM中视觉信息保留不足的问题。

  • Motivation: 当前视觉语言模型在保留细粒度视觉信息方面存在局限,导致多模态理解较为粗糙。作者认为这是由于现有VLM的训练范式存在文本主导的优化偏差,将视觉信号仅视为被动条件输入而非监督目标。
  • Method: 提出Youtu-VL框架,采用视觉-语言统一自回归监督范式,将视觉token直接整合到预测流中,对视觉细节和语言内容进行统一的自回归监督。该范式还可扩展到视觉中心任务,使标准VLM无需特定任务修改即可执行此类任务。
  • Result: 广泛的实证评估表明,Youtu-VL在通用多模态任务和视觉中心任务上都取得了有竞争力的性能,为开发全面的通用视觉智能体奠定了坚实基础。
  • Conclusion: 通过将优化目标从"视觉作为输入"转变为"视觉作为目标",Youtu-VL解决了现有VLM的视觉信息保留问题,为构建更全面的通用视觉智能体提供了新范式。

[71] Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Kun Li,Michael Ying Yang,Sami Sebastian Brandt

Main category: cs.CV

TL;DR: 提出QSTar方法,通过查询引导的时空频交互和查询上下文推理块,增强音频-视觉问答中的多模态理解能力

  • Motivation: 现有AVQA方法主要关注视觉信息处理,音频仅作为视频分析的补充,文本问题信息在推理后期才被整合,对音频-视觉理解贡献有限
  • Method: 提出查询引导的时空频(QSTar)交互方法,结合问题引导线索,利用音频信号的频域特性以及时空感知;引入查询上下文推理(QCR)块,引导模型更精确关注语义相关的音频和视觉特征
  • Result: 在多个AVQA基准测试中取得显著性能提升,优于现有音频QA、视觉QA、视频QA和AVQA方法
  • Conclusion: QSTar方法通过有效整合问题引导线索和音频频域特性,显著提升了音频-视觉问答的多模态理解能力

[72] HexFormer: Hyperbolic Vision Transformer with Exponential Map Aggregation

Haya Alyoussef,Ahmad Bdeir,Diego Coello de Portugal Mecke,Tom Hanika,Niels Landwehr,Lars Schmidt-Thieme

Main category: cs.CV

TL;DR: HexFormer是一种用于图像分类的双曲视觉Transformer,通过指数映射聚合注意力机制,在多个数据集上优于欧几里得基线和先前双曲ViT,且训练更稳定。

  • Motivation: 图像、文本、图等多模态数据常包含层次和关系结构,这些结构在欧几里得几何中难以建模。双曲几何为表示此类结构提供了自然框架,因此研究如何将双曲几何融入视觉Transformer以提升性能。
  • Method: 提出HexFormer双曲视觉Transformer,采用基于指数映射聚合的新型注意力机制,比标准质心平均更准确稳定。探索两种设计:纯双曲ViT(HexFormer)和混合变体(HexFormer-Hybrid),后者结合双曲编码器和欧几里得线性分类头。
  • Result: 在多个数据集上实验显示,HexFormer相比欧几里得基线和先前双曲ViT有持续性能提升,混合变体获得最强整体结果。双曲模型表现出更稳定的梯度和对预热策略更低的敏感性,训练更稳健高效。
  • Conclusion: 双曲几何可通过改善梯度稳定性和准确性来增强视觉Transformer架构。相对简单的机制如指数映射聚合能提供强大的实际效益,双曲模型在训练中更稳健高效。

[73] EgoHandICL: Egocentric 3D Hand Reconstruction with In-Context Learning

Binzhu Xie,Shi Qiu,Sicheng Zhang,Yinqiao Wang,Hao Xu,Muzammal Naseer,Chi-Wing Fu,Pheng-Ann Heng

Main category: cs.CV

TL;DR: 首个用于3D手部重建的上下文学习框架,通过视觉语言模型引导的示例检索和多模态上下文编码,在挑战性第一人称视角下提升语义对齐和鲁棒性。

  • Motivation: 第一人称视角下的3D手部重建面临深度模糊、自遮挡和复杂手物交互等挑战。现有方法通过扩大训练数据或添加辅助线索来缓解这些问题,但在未见场景中表现不佳。
  • Method: 提出EgoHandICL框架:1) 视觉语言模型引导的互补示例检索;2) 为多模态上下文定制的ICL分词器;3) 基于掩码自编码器的架构,使用手部引导的几何和感知目标进行训练。
  • Result: 在ARCTIC和EgoExo4D数据集上实验显示,相比现有最优方法取得一致提升。同时展示了真实世界的泛化能力,并通过重建手部作为视觉提示改进了EgoVLM的手物交互推理。
  • Conclusion: EgoHandICL是首个将上下文学习应用于3D手部重建的框架,通过多模态上下文理解和示例检索,显著提升了第一人称视角下挑战性场景的鲁棒性和语义对齐能力。

[74] SONIC: Spectral Oriented Neural Invariant Convolutions

Gijs Joppe Moens,Regina Beets-Tan,Eduardo H. P. Pooch

Main category: cs.CV

TL;DR: SONIC提出了一种连续频谱参数化的卷积算子,使用少量共享的定向选择性组件,实现了全局感受野和跨分辨率自适应,在多个任务上以更少参数超越传统卷积和注意力方法。

  • Motivation: 传统CNN使用固定大小核扫描局部区域,难以捕获全局上下文;ViT提供全局连接但缺乏空间归纳偏置且依赖显式位置编码。需要一种既结构化又全局的表征方法。
  • Method: 提出SONIC(频谱定向神经不变卷积),通过连续频谱参数化建模卷积算子,使用少量共享的定向选择性组件,在完整频域定义平滑响应,实现全局感受野和跨分辨率自适应。
  • Result: 在合成基准测试、大规模图像分类和3D医学数据集上,SONIC对几何变换、噪声和分辨率变化表现出更好的鲁棒性,以数量级更少的参数匹配或超越卷积、注意力及先前频谱架构。
  • Conclusion: 连续、定向感知的频谱参数化为传统空间和频谱算子提供了原则性且可扩展的替代方案。

[75] VGGT-SLAM 2.0: Real time Dense Feed-forward Scene Reconstruction

Dominic Maggio,Luca Carlone

Main category: cs.CV

TL;DR: VGGT-SLAM 2.0是一个实时RGB前馈SLAM系统,通过改进因子图设计消除15自由度漂移和平面退化,利用VGGT注意力层实现免费图像检索验证,在多种环境中实现实时性能并显著提升精度。

  • Motivation: 改进VGGT-SLAM系统,解决其存在的高维度15自由度漂移、平面退化问题,同时处理VGGT在未知相机内参下的重建模糊性,提升SLAM系统的鲁棒性和精度。
  • Method: 1. 设计新的因子图结构消除漂移和平面退化;2. 分析VGGT注意力层,利用其中一个层实现无需额外训练的图像检索验证;3. 在多种环境(室内公寓、办公室、4200平方英尺谷仓)进行实验验证;4. 在TUM数据集上评估性能。
  • Result: 1. 在TUM数据集上比VGGT-SLAM减少约23%的位姿误差;2. 能够在Jetson Thor上实现实时在线运行;3. 可轻松适应开放集物体检测;4. 能够拒绝误匹配并完成更多闭环检测。
  • Conclusion: VGGT-SLAM 2.0通过创新的因子图设计和注意力层利用,显著提升了SLAM系统的精度和鲁棒性,在多种复杂环境中实现了实时高性能的定位与建图。

[76] DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding

Shubham Patle,Sara Ghaboura,Hania Tariq,Mohammad Usman Khan,Omkar Thawakar,Rao Muhammad Anwer,Salman Khan

Main category: cs.CV

TL;DR: 提出了DuwatBench基准数据集,包含1,272个阿拉伯书法样本,涵盖6种古典和现代书法风格,用于评估多模态模型处理阿拉伯艺术文字的能力。

  • Motivation: 尽管多模态模型在多语言处理方面取得进展,但对阿拉伯文字,特别是艺术化和风格化的书法形式的处理能力仍未被充分探索。阿拉伯书法融合了语言意义与艺术形式,具有丰富的视觉传统,但现有系统在处理复杂笔画、密集连字和风格变化时面临挑战。
  • Method: 创建了DuwatBench基准数据集,包含1,272个精心挑选的样本,涵盖约1,475个独特词汇,分布在六种古典和现代阿拉伯书法风格中。每个样本都配有句子级检测标注。使用该基准评估了13个领先的阿拉伯语和多语言多模态模型。
  • Result: 评估结果显示,虽然这些模型在处理干净文本时表现良好,但在处理书法变体、艺术扭曲和精确的视觉-文本对齐方面存在困难。模型在处理复杂笔画模式、密集连字和风格变化时表现不佳。
  • Conclusion: 通过公开发布DuwatBench数据集及其标注,旨在推进基于文化的多模态研究,促进阿拉伯语言和视觉遗产在AI系统中的公平包容,并支持该领域的持续进步。数据集和评估套件已公开可用。

cs.RO

[77] DeFM: Learning Foundation Representations from Depth for Robotics

Manthan Patel,Jonas Frey,Mayank Mittal,Fan Yang,Alexander Hansson,Amir Bar,Cesar Cadena,Marco Hutter

Main category: cs.RO

TL;DR: DeFM是一个专门为机器人应用设计的自监督深度图像基础模型,使用60M深度图像数据集训练,在多种深度感知任务上达到SOTA性能,并实现良好的仿真到真实世界泛化。

  • Motivation: 深度传感器在机器人平台广泛应用,但深度模态的表征学习相比RGB模态仍未被充分探索。RGB领域已有大规模基础模型,而深度模态缺乏类似的基础模型来支持机器人应用。
  • Method: 采用DINO风格的自蒸馏目标在60M深度图像数据集上训练;引入新颖的输入归一化策略以保持跨多尺度的度量感知;将DeFM蒸馏为适合资源受限机器人系统的紧凑模型。
  • Result: 在深度分类、分割、导航、运动、操作等基准测试中达到最先进性能;展示了从仿真到真实环境的强泛化能力;模型无需任务特定微调即可直接用于深度机器人学习。
  • Conclusion: DeFM填补了深度模态基础模型的空白,为机器人应用提供了强大的深度表征学习能力,发布的预训练模型可直接用于各种深度感知任务。

[78] Perception-to-Pursuit: Track-Centric Temporal Reasoning for Open-World Drone Detection and Autonomous Chasing

Venkatakrishna Reddy Oruganti

Main category: cs.RO

TL;DR: P2P框架通过紧凑运动token和因果transformer实现无人机轨迹预测与可拦截性规划,相比纯跟踪方法在预测精度和拦截成功率上分别提升77%和597倍。

  • Motivation: 现有无人机跟踪方法只优化预测精度,忽略了实际拦截的可行性,导致99.9%的情况下无法实现物理可行的拦截。需要一种能同时考虑检测和可执行拦截规划的方法。
  • Method: 提出Perception-to-Pursuit (P2P)框架,将无人机运动表示为8维token(速度、加速度、尺度、平滑度),使用12帧因果transformer进行时序推理,并引入Intercept Success Rate (ISR)指标评估拦截可行性。
  • Result: 在Anti-UAV-RGBT数据集(226个真实无人机序列)上,P2P达到28.12像素平均位移误差和0.597 ISR,相比纯跟踪基线在轨迹预测上提升77%,在拦截可行性上提升597倍,同时保持100%的无人机分类准确率。
  • Conclusion: 通过对运动模式的时序推理,P2P框架能够同时实现准确的轨迹预测和可执行的拦截规划,为自主无人机追击提供了有效的解决方案。

eess.IV

[79] Optimized k-means color quantization of digital images in machine-based and human perception-based colorspaces

Ranjan Maitra

Main category: eess.IV

TL;DR: 研究比较了k-means颜色量化在RGB、CIE-XYZ和CIE-LUV/HCL色彩空间中的性能,发现不同色彩空间在不同量化级别下各有优势,图像的颜色分布特征影响最佳色彩空间的选择。

  • Motivation: 虽然k-means算法常用于颜色量化,但主要应用于机器导向的RGB色彩空间。最近研究表明在人类感知色彩空间中可能有更好性能,因此需要系统比较不同色彩空间对k-means颜色量化效果的影响。
  • Method: 在RGB、CIE-XYZ和CIE-LUV/CIE-HCL三个色彩空间中,对148张多样化数字图像进行4个量化级别的k-means颜色量化。使用视觉信息保真度(VIF)指标量化评估量化图像质量,并分析图像色调、色度和亮度分布对性能的影响。
  • Result: 约一半情况下RGB空间表现最佳;其他情况,特别是高量化级别时,CIE-XYZ空间通常更好;低量化级别时,CIE-LUV空间有时表现最佳。图像的颜色分布特征(色调、色度、亮度)影响不同色彩空间的相对性能。
  • Conclusion: k-means颜色量化的最佳色彩空间选择取决于量化级别和图像的颜色分布特征,没有单一最优色彩空间。研究为根据具体应用场景选择合适色彩空间提供了指导。

[80] Magnetic Resonance Simulation of Effective Transverse Relaxation (T2*)

Hidenori Takeshima

Main category: eess.IV

TL;DR: 提出了一种高效的MRI模拟方法,通过线性相位模型直接模拟T2'衰减,避免了传统方法需要100+等色体的问题,计算效率显著提升。

  • Motivation: 在MRI模拟中,有效横向弛豫时间T2*由可逆(T2')和不可逆(T2)分量组成。T2模拟相对容易,但T2'模拟困难,传统方法需要模拟大量等色体才能近似洛伦兹函数。
  • Method: 提出使用线性相位模型直接模拟整个洛伦兹函数,避免大量等色体需求。通过模拟磁化强度对频率轴的偏导数来表示线性相位模型。引入两种加速技术:解析解和组合跃迁。
  • Result: 单等色体模拟证明T2'模拟可行。在实际案例中,无需100+等色体即可恢复T2'效果。含T2'模拟的计算时间仅为无T2'模拟的2.0-2.7倍。解析解加速19倍,组合跃迁加速达17倍。
  • Conclusion: 理论和结果表明,所提出的方法通过利用洛伦兹函数的线性模型、解析解和组合跃迁,能够高效地模拟T2'弛豫效应。

[81] AMGFormer: Adaptive Multi-Granular Transformer for Brain Tumor Segmentation with Missing Modalities

Chengxiang Guo,Jian Wang,Junhua Fei,Xiao Li,Chunling Chen,Yun Jin

Main category: eess.IV

TL;DR: AMGFormer:通过三个协同模块解决多模态MRI脑肿瘤分割中缺失模态导致的性能不稳定问题,显著提高分割稳定性

  • Motivation: 临床实践中多模态MRI常存在模态缺失,导致现有方法在不同模态组合下性能波动超过40%,临床可靠性差
  • Method: 提出AMGFormer,包含三个协同模块:1) QuadIntegrator Bridge实现空间自适应融合保持预测一致性;2) Multi-Granular Attention Orchestrator聚焦病理区域减少背景敏感性;3) Modality Quality-Aware Enhancement防止损坏序列的错误传播
  • Result: 在BraTS 2018上达到89.33% WT、82.70% TC、67.23% ET Dice分数,15种模态组合下方差<0.5%;单模态ET分割相对SOTA提升40-81%;在BraTS 2020/2021上泛化性能达92.44% WT、89.91% TC、84.57% ET;推理时间1.2秒
  • Conclusion: AMGFormer有效解决了多模态脑肿瘤分割的稳定性危机,在不同模态组合下保持稳定性能,具有临床部署潜力

[82] Interpretable and backpropagation-free Green Learning for efficient multi-task echocardiographic segmentation and classification

Jyun-Ping Kao,Jiaxing Yang,C. -C. Jay Kuo,Jonghye Woo

Main category: eess.IV

TL;DR: 提出了一种无需反向传播的多任务绿色学习框架,用于同时进行左心室分割和射血分数分类,在EchoNet-Dynamic数据集上实现了最先进的性能,且参数数量大幅减少。

  • Motivation: 超声心动图是心衰管理的基石,但手动评估左心室射血分数存在观察者间差异大,而现有的深度学习模型计算密集、数据需求大且缺乏可解释性,阻碍了临床信任和采用。
  • Method: 提出了一个无需反向传播的多任务绿色学习框架,集成了无监督的VoxelHop编码器进行分层时空特征提取,配合多级回归解码器和XG-Boost分类器,同时执行左心室分割和射血分数分类。
  • Result: 在EchoNet-Dynamic数据集上,模型实现了94.3%的分类准确率和0.912的Dice相似系数,显著优于多个先进的3D深度学习模型,且参数数量减少了一个数量级以上。
  • Conclusion: 绿色学习范式能够为复杂医学图像分析提供高精度、高效且可解释的解决方案,为临床实践中更可持续和可信的人工智能铺平道路。

cs.AI

[83] LocationAgent: A Hierarchical Agent for Image Geolocation via Decoupling Strategy and Evidence from Parametric Knowledge

Qiujun Li,Zijin Xiao,Xulin Wang,Zhidan Ma,Cheng Yang,Haifeng Li

Main category: cs.AI

TL;DR: LocationAgent:通过RER架构(推理器-执行器-记录器)和外部工具验证,解决图像地理位置推断中的幻觉和泛化问题,在零样本设置下性能提升30%以上。

  • Motivation: 现有方法通过监督训练或基于轨迹的强化微调将位置知识和推理模式内化为静态记忆,容易在开放世界或需要动态知识的场景中出现事实幻觉和泛化瓶颈。
  • Method: 提出分层定位代理LocationAgent,核心思想是在模型内保留分层推理逻辑,同时将地理证据验证卸载到外部工具。采用RER架构(推理器-执行器-记录器)实现分层推理,通过角色分离和上下文压缩防止多步推理中的漂移问题。构建线索探索工具套件提供多样化证据支持位置推理。
  • Result: 在零样本设置下,LocationAgent显著优于现有方法,性能提升至少30%。同时构建了CCL-Bench(中国城市位置基准),涵盖不同场景粒度和难度级别。
  • Conclusion: 通过将推理逻辑保留在模型内而将证据验证卸载到外部工具的方法,有效解决了图像地理位置推断中的事实幻觉和泛化问题,在零样本场景中表现出色。

[84] MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning

Zhixi Cai,Fucai Ke,Kevin Leo,Sukai Huang,Maria Garcia de la Banda,Peter J. Stuckey,Hamid Rezatofighi

Main category: cs.AI

TL;DR: MATA是一个用于视觉推理的多智能体分层可训练自动机系统,通过可训练的超级智能体控制高层状态转移,每个智能体运行基于规则的子自动机,共享内存实现透明执行历史,在多个视觉推理基准上达到SOTA。

  • Motivation: 当前视觉语言模型虽然感知能力强,但隐含推理难以解释,在复杂查询上容易产生幻觉。组合方法提高了可解释性,但大多依赖单一智能体或手工设计的流程,无法决定何时在互补智能体之间协作或在重叠智能体之间竞争。
  • Method: 提出MATA(多智能体分层可训练自动机),作为分层有限状态自动机用于视觉推理。高层转移由可训练的超级智能体选择,每个智能体对应超自动机中的一个状态,运行小型基于规则的子自动机进行可靠的微控制。所有智能体读写共享内存,产生透明的执行历史。通过构建转移轨迹树并转换为内存到下一状态对,创建MATA-SFT-90K数据集用于监督微调。
  • Result: 在多个视觉推理基准测试中,MATA相比单一模型和组合基线方法取得了最先进的结果。微调后的LLM作为转移策略能够理解查询和智能体能力,高效选择最优智能体解决任务。
  • Conclusion: MATA通过多智能体分层可训练自动机架构,在保持可解释性的同时提升了视觉推理性能,解决了现有方法在复杂查询上的幻觉问题,并为多智能体协作提供了透明可控的框架。

physics.optics

[85] Learned split-spectrum metalens for obstruction-free broadband imaging in the visible

Seungwoo Yoon,Dohyun Kang,Eunsue Choi,Sohyun Lee,Seoyeon Kim,Minho Choi,Hyeonsu Heo,Dong-ha Shin,Suha Kwak,Arka Majumdar,Junsuk Rho,Seung-Hwan Baek

Main category: physics.optics

TL;DR: 提出一种学习型分光谱超透镜,通过光学-计算协同设计实现宽带无遮挡成像,相比传统方法在图像质量和视觉任务精度上显著提升。

  • Motivation: 传统遮挡去除方法(如复合光学阵列或计算修复)存在体积大或保真度低的问题,而现有超透镜难以同时实现宽带成像和遮挡去除,因为设计用于远距离场景成像的超透镜无法正确散焦近深度遮挡物。
  • Method: 采用学习型分光谱超透镜设计:1)将每个RGB通道的光谱分为通带和阻带进行多波段光谱滤波;2)学习超透镜参数,使远距离物体光线通过通带聚焦,而近深度遮挡光线通过阻带被滤除;3)结合神经网络增强光学信号。
  • Result: 相比传统双曲线设计,相对PSNR提升32.29%,在物体检测和语义分割任务上分别获得+13.54% mAP、+48.45% IoU和+20.35% mIoU的绝对增益提升。
  • Conclusion: 该学习型分光谱超透镜实现了宽带无遮挡成像,为空间受限系统(如移动机器人、无人机和内窥镜)提供了鲁棒的无遮挡感知和视觉能力。

cs.CR

[86] GUIGuard: Toward a General Framework for Privacy-Preserving GUI Agents

Yanxi Wang,Zhiling Zhang,Wenbo Zhou,Weiming Zhang,Jie Zhang,Qiannan Zhu,Yu Shi,Shuxin Zheng,Jiyan He

Main category: cs.CR

TL;DR: GUIGuard是一个三阶段隐私保护GUI代理框架,包含隐私识别、隐私保护和保护下任务执行,并构建了包含630个轨迹和13,830张截图的跨平台基准测试集。

  • Motivation: GUI代理通过直接感知和交互屏幕界面实现端到端自动化,但经常访问包含敏感个人信息的界面,截图常传输到远程模型,造成严重隐私风险。GUI界面暴露更丰富、更易访问的私人信息,且隐私风险取决于跨序列场景的交互轨迹。
  • Method: 提出GUIGuard三阶段框架:1) 隐私识别;2) 隐私保护;3) 保护下任务执行。构建GUIGuard-Bench跨平台基准,包含630个轨迹和13,830张截图,标注区域级隐私定位和风险级别、隐私类别、任务必要性等细粒度标签。
  • Result: 现有代理隐私识别能力有限,最先进模型在Android上仅13.3%准确率,PC上仅1.4%。在隐私保护下,任务规划语义仍能保持,闭源模型比开源模型表现出更强的语义一致性。MobileWorld案例研究表明,精心设计的保护策略能在保护隐私的同时实现更高的任务准确性。
  • Conclusion: 隐私识别是实用GUI代理的关键瓶颈。GUIGuard框架和基准测试为隐私保护GUI代理提供了系统解决方案,强调了在自动化GUI交互中平衡隐私保护与任务执行的重要性。

cs.NI

[87] Bridging Visual and Wireless Sensing: A Unified Radiation Field for 3D Radio Map Construction

Chaozheng Wen,Jingwen Tong,Zehong Lin,Chenghong Bian,Jun Zhang

Main category: cs.NI

TL;DR: URF-GS:基于3D高斯泼溅的统一无线电-光学辐射场表示框架,用于构建准确且可泛化的3D无线电地图,相比NeRF方法在频谱预测精度上提升24.7%,采样效率提高10倍。

  • Motivation: 下一代无线网络应用(如沉浸式3D通信、低空网络、集成感知与通信)需要高保真环境智能。现有方法将光学和无线知识视为不同模态,未能利用光与电磁波传播的基本物理原理,导致3D无线电地图构建不准确。
  • Method: 提出URF-GS框架,基于3D高斯泼溅(3D-GS)和逆渲染技术,融合视觉和无线传感观测,恢复场景几何和材料属性,准确预测任意发射-接收配置下的无线电信号行为。
  • Result: 实验结果显示,URF-GS在空间频谱预测精度上相比基于神经辐射场(NeRF)的方法提升达24.7%,在3D无线电地图构建的采样效率上提高10倍。
  • Conclusion: URF-GS通过整体辐射场重建,为下一代无线网络建立了感知、交互和通信集成的基础,实现了准确且可泛化的3D无线电地图构建。

cs.LG

[88] NavFormer: IGRF Forecasting in Moving Coordinate Frames

Yoontae Hwang,Dongwoo Lee,Minseok Choi,Yong Sup Ihn,Daham Kim,Deok-Young Lee

Main category: cs.LG

TL;DR: NavFormer使用旋转不变标量特征和规范SPD模块预测IGRF总强度,通过规范帧和谱缩放稳定三轴磁力计数据,在多种飞行场景中优于基线方法

  • Motivation: 三轴磁力计组件随传感器姿态变化,即使IGRF总强度目标保持不变,这给自主导航带来挑战。需要一种能够稳定处理三轴磁力计数据并准确预测IGRF总强度的方法。
  • Method: 使用旋转不变标量特征和规范SPD模块:1)从每个窗口的Gram矩阵构建规范帧;2)在原始坐标中应用状态依赖的谱缩放,稳定三轴磁力计窗口级二阶矩的谱,避免符号不连续性
  • Result: 在五个飞行实验中的标准训练、少样本训练和零样本迁移场景下,NavFormer均表现出比强基线更低的误差
  • Conclusion: NavFormer通过规范SPD模块有效处理三轴磁力计数据的姿态变化问题,能够稳健地预测IGRF总强度,为自主导航提供可靠解决方案

[89] EPAS: Efficient Training with Progressive Activation Sharing

Rezaul Karim,Maryam Dialameh,Yang Liu,Boxing Chen,Walid Ahmed

Main category: cs.LG

TL;DR: EPAS是一种渐进式激活共享训练方法,通过利用Transformer深层激活冗余,在训练过程中逐步扩展共享区域,提升训练和推理吞吐量,同时保持模型性能。

  • Motivation: 动机是利用Transformer深层存在的冗余QK/KV激活,通过渐进式训练范式减少计算量,提升训练和推理效率,同时保持模型性能。
  • Method: EPAS方法将渐进式训练范式与Transformer深层激活冗余相结合,在训练过程中逐步将解码器层切换到激活共享模式。共享区域从模型深层开始向浅层扩展,允许在推理时根据不同计算预算调整共享区域长度。
  • Result: 在125M到7B参数的LLaMA模型上,QK激活共享实现了最高11.1%的训练吞吐量提升和29%的推理吞吐量提升,同时保持与基线模型相似的损失曲线。在TinyLLaMA的持续预训练中,EPAS相比SOTA方法获得了最高10%的平均准确率提升。
  • Conclusion: EPAS通过渐进式激活共享有效利用了Transformer深层冗余,显著提升了训练和推理效率,同时证明了渐进式训练在跨层激活共享模型中的重要性。

[90] Privacy-Preserving Model Transcription with Differentially Private Synthetic Distillation

Bochao Liu,Shiming Ge,Pengju Wang,Shikun Li,Tongliang Liu

Main category: cs.LG

TL;DR: 提出一种无数据的模型转录方法,通过差分隐私合成蒸馏将预训练模型转换为隐私保护的对应模型,无需访问原始数据。

  • Motivation: 现有的深度学习模型在私有数据集上训练后部署存在隐私泄露风险,攻击者可能从模型中恢复敏感数据或标签信息。需要一种既能保护隐私又能保持模型性能的部署方案。
  • Method: 提出差分隐私合成蒸馏方法,包含三个参与者的协同竞争学习框架:1) 可训练生成器生成合成数据;2) 教师和学生模型接收合成数据并通过数据或标签噪声扰动计算差分隐私标签;3) 学生模型用噪声标签更新,生成器通过将学生作为判别器进行对抗训练更新。
  • Result: 理论证明方法能保证差分隐私和收敛性。转录的学生模型具有良好的性能和隐私保护能力,生成的合成数据可用于下游任务。实验表明方法优于26个现有先进方法。
  • Conclusion: 提出的隐私保护模型转录方法通过无数据的模型转换,在保证差分隐私的同时保持了模型性能,为安全模型部署提供了有效解决方案。

cs.MM

[91] Benchmarking Multimodal Large Language Models for Missing Modality Completion in Product Catalogues

Junchen Fu,Wenhao Deng,Kaiwen Zheng,Alexandros Karatzoglou,Ioannis Arapakis,Yu Ye,Yongxin Ni,Joemon M. Jose,Xuri Ge

Main category: cs.MM

TL;DR: 该研究评估了多模态大语言模型在电商场景中补全缺失模态(如图像转文本、文本转图像)的能力,发现现有模型虽能捕捉高层语义,但在细粒度对齐方面表现不佳,且性能随商品类别和模型规模变化,与主流基准趋势不同。

  • Motivation: 电商平台常因标注错误或不完整元数据导致模态信息缺失(如图片或文本描述),这影响了产品展示和下游应用如推荐系统。受多模态大语言模型生成能力的启发,研究探索MLLMs能否为电商产品生成缺失模态这一基础但未充分研究的问题。
  • Method: 提出了缺失模态产品补全基准(MMPCBench),包含内容质量补全基准和推荐基准两个子基准。评估了Qwen2.5-VL和Gemma-3家族的六个SOTA MLLMs,涵盖九个真实电商类别的图像到文本和文本到图像补全任务。还探索了使用Group Relative Policy Optimization(GRPO)来更好地对齐MLLMs与该任务。
  • Result: 实验表明:1)MLLMs能捕捉高层语义,但在细粒度词级和像素/块级对齐方面表现不佳;2)性能在不同商品类别和模型规模间差异显著;3)模型大小与性能无简单正相关,与主流基准趋势不同;4)GRPO改进了图像到文本补全,但对文本到图像补全无增益。
  • Conclusion: 当前MLLMs在真实世界跨模态生成方面存在局限,特别是在细粒度对齐和不同商品类别适应性上。该研究是迈向更有效缺失模态产品补全的早期步骤,揭示了需要针对特定领域优化模型而非单纯扩大规模。