Skip to content
每日arXiv - 2025年12月22日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] V-Agent: An Interactive Video Search System Using Vision-Language Models

SunYoung Park,Jong-Hyeon Lee,Youngjune Kim,Daegyu Sung,Younghyun Yu,Young-rok Cha,Jeongho Ju

Main category: cs.CV

TL;DR: V-Agent是一个多智能体视频搜索平台,通过微调视觉语言模型和检索向量增强,实现多模态视频搜索和交互对话,在MultiVENT 2.0基准测试中达到最先进的零样本性能。

  • Motivation: 传统基于文本的检索系统在多模态场景中存在局限性,无法有效处理视频中的视觉和语音内容,需要开发能够理解多模态信息的视频搜索系统。
  • Method: 1) 使用小规模视频偏好数据集微调视觉语言模型;2) 通过图像-文本检索模型增强检索向量;3) 将视频帧和ASR转录嵌入共享多模态表示空间;4) 采用路由、搜索和聊天三个智能体协作架构;5) 搜索智能体结合VLM检索模型和重排序模块。
  • Result: 在MultiVENT 2.0基准测试中实现了最先进的零样本性能,展示了在学术研究和实际应用中的潜力。
  • Conclusion: V-Agent通过多智能体架构和多模态表示学习,有效解决了传统文本检索在多模态视频搜索中的局限性,为视频搜索和交互对话提供了创新解决方案。

[2] Comparison of deep learning models: CNN and VGG-16 in identifying pornographic content

Reza Chandra,Adang Suhendra,Lintang Yuniar Banowosari,Prihandoko

Main category: cs.CV

TL;DR: 研究比较CNN和VGG-16模型在快速检测色情图像内容上的效果,发现CNN模型在特定参数下达到94.87%准确率,表现优于VGG-16。

  • Motivation: 印尼政府2020年封禁了59,741个包含负面内容的网站(其中14,266个为色情网站),但公众仍可通过VPN访问这些网站,因此需要开发能快速识别色情内容的系统。
  • Method: 采用深度学习方法,使用卷积神经网络(CNN)和视觉几何组16(VGG-16)模型,全面比较两种模型在检测色情图像内容上的效果。
  • Result: 在第八次实验中,CNN模型在epoch值为50、学习率为0.001时获得最佳测试结果,准确率达到0.9487(94.87%),表现优于VGG-16模型。
  • Conclusion: CNN模型比VGG-16模型更有效、更快速、更准确地检测色情内容,为解决网站内容过滤问题提供了技术方案。

[3] AVM: Towards Structure-Preserving Neural Response Modeling in the Visual Cortex Across Stimuli and Individuals

Qi Xu,Shuai Gong,Xuming Ran,Haihua Luo,Yangfan Hu

Main category: cs.CV

TL;DR: AVM是一个结构保持的视觉模型框架,通过模块化子网络实现条件感知适应,在保持核心视觉编码稳定的同时,独立处理刺激内容和个体身份引起的神经响应变化,在多个实验设置中优于现有方法。

  • Motivation: 现有深度学习模型在模拟神经响应时,难以清晰分离稳定的视觉编码与条件特定的适应过程,这限制了模型在不同刺激和个体间的泛化能力。
  • Method: 提出自适应视觉模型(AVM),采用结构保持框架:冻结Vision Transformer编码器捕获一致的视觉特征,同时使用独立训练的调制路径处理刺激内容和个体身份引起的神经响应变化。
  • Result: 在两个大规模小鼠V1数据集上,AVM在预测相关性上比最先进的V1T模型提升约2%,在跨数据集适应设置中解释方差(FEVE)提升9.1%,表现出强大的泛化能力、可解释的条件调制和高架构效率。
  • Conclusion: AVM为跨生物和实验条件的自适应神经建模提供了统一框架,在结构约束下提供了可扩展的解决方案,其设计可为神经科学和生物启发AI系统中的皮层建模提供参考。

[4] Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Adrian Straker,Paul Magdon,Marco Zullich,Maximilian Freudenberg,Christoph Kleinn,Johannes Breidenbach,Stefano Puliti,Nils Nölke

Main category: cs.CV

TL;DR: 提出一种新方法,将Finer-CAM解释与TLS投影中的结构特征片段联系起来,系统评估哪些特征驱动树种分类。分析显示模型主要依赖冠层特征,但不同树种依赖的特征类型不同。

  • Motivation: 尽管TLS和深度学习在树种分类中达到最先进精度,但其决策过程仍不明确。需要理解分类模型的决策过程,以揭示数据集和模型的局限性、偏见,并建立对模型预测的信心。
  • Method: 提出新方法将Finer-CAM解释与TLS投影中的结构特征片段联系起来。使用来自7个欧洲树种2,445棵树的TLS数据,通过交叉验证训练和验证五个YOLOv8模型。分析630个显著性图来评估特征贡献。
  • Result: 模型达到96%的平均准确率(SD=0.24%)。分析显示模型主要依赖TLS投影中的冠层特征进行树种分类,但不同树种依赖的特征类型不同:银桦、欧洲山毛榉、英国橡树和挪威云杉主要依赖冠层特征,而欧洲白蜡、苏格兰松和花旗松更多依赖树干特征。模型认为相似的树种与人类专家的判断一致。
  • Conclusion: 研究结果强调了理解树种分类模型决策过程的重要性,以帮助揭示数据集和模型的局限性、偏见,并建立对模型预测的信心。模型主要依赖冠层特征,但不同树种的特征贡献模式不同,特别是细枝的表示对模型决策有重要贡献。

[5] Lights, Camera, Consistency: A Multistage Pipeline for Character-Stable AI Video Stories

Chayan Jain,Rishant Sharma,Archit Garg,Ishan Bhanuka,Pratik Narang,Dhruv Kumar

Main category: cs.CV

TL;DR: 提出一种分阶段视频生成方法:先用LLM生成详细制作脚本,再用文生图模型创建角色视觉锚点,最后用视频生成模型逐场景合成,显著提升角色一致性

  • Motivation: 当前文生视频AI在生成长篇、连贯且角色一致的视频故事方面存在显著挑战,需要更系统化的电影制作式方法
  • Method: 多阶段分解管道:1) 使用大语言模型生成详细制作脚本;2) 用文生图模型为每个角色创建一致的视觉锚点;3) 以视觉锚点为引导,用视频生成模型逐场景合成视频
  • Result: 视觉锚点机制对角色一致性至关重要,移除该机制会导致一致性评分从7.99骤降至0.55;同时发现当前模型存在文化差异,印度与西方主题生成在主体一致性和动态程度上有明显偏差
  • Conclusion: 分阶段电影制作式方法能有效提升文生视频的角色一致性,视觉先验对身份保持至关重要,同时需要关注模型的文化偏差问题

[6] InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

Haotian Ye,Qiyuan He,Jiaqi Han,Puheng Li,Jiaojiao Fan,Zekun Hao,Fitsum Reda,Yogesh Balaji,Huayu Chen,Sheng Liu,Angela Yao,James Zou,Stefano Ermon,Haoxiang Wang,Ming-Yu Liu

Main category: cs.CV

TL;DR: InfoTok是一个基于信息理论的自适应视频tokenization框架,通过证据下界算法实现理论最优的token分配,相比固定压缩率方法能节省20%的token而不影响性能。

  • Motivation: 当前视频tokenization方法采用固定压缩率处理所有内容,无法适应视频信息密度的变化,导致冗余或信息丢失,需要一种自适应的方法来优化token分配。
  • Method: 基于香农信息理论,提出InfoTok框架,证明现有数据无关训练方法在表示长度上的次优性,并开发基于证据下界(ELBO)的新算法实现理论最优性,构建基于Transformer的自适应压缩器。
  • Result: 实现最先进的压缩性能:节省20%的token而不影响性能,达到2.3倍压缩率的同时仍优于先前的启发式自适应方法,通过按信息丰富度分配token实现更压缩且准确的视频表示。
  • Conclusion: InfoTok提供了一个理论严谨的自适应视频tokenization框架,通过信息理论指导的token分配实现了更高效的视频表示,为未来研究提供了有价值的见解。

[7] Endo-SemiS: Towards Robust Semi-Supervised Image Segmentation for Endoscopic Video

Hao Li,Daiwei Lu,Xing Yao,Nicholas Kavoussi,Ipek Oguz

Main category: cs.CV

TL;DR: Endo-SemiS是一个用于内窥镜视频帧分割的半监督框架,通过四种策略有效利用有限标注数据,在肾结石激光碎石术和结肠息肉筛查两个临床应用中表现优于现有方法。

  • Motivation: 内窥镜视频分割需要大量标注数据,但医学图像标注成本高且耗时。为了解决标注数据有限的问题,需要开发能够有效利用未标注数据的半监督分割方法。
  • Method: 提出Endo-SemiS框架,采用四种策略:1)两个独立网络之间的交叉监督;2)基于不确定性的伪标签生成,选择高置信度区域;3)联合伪标签监督,聚合两个网络的可靠像素;4)特征和图像层面的相互学习。还使用单独的校正网络利用内窥镜视频的时空信息。
  • Result: 在肾结石激光碎石术(输尿管镜)和结肠息肉筛查(结肠镜)两个临床数据集上评估,Endo-SemiS在有限标注数据情况下显著优于最先进的分割方法。
  • Conclusion: Endo-SemiS通过有效利用未标注数据和多种监督策略,在有限标注数据下实现了可靠的内窥镜视频分割,代码已开源。

[8] A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

Mohammed Irfan Kurpath,Jaseel Muhammad Kaithakkodan,Jinxing Zhou,Sahal Shaji Mullappilly,Mohammad Almansoori,Noor Ahsan,Beknur Kalmakhanbet,Sambal Shikhar,Rishabh Lalla,Jean Lahoud,Mariette Awad,Fahad Shahbaz Khan,Salman Khan,Rao Muhammad Anwer,Hisham Cholakkal

Main category: cs.CV

TL;DR: LongShOTBench是一个用于长视频多模态理解的诊断性基准测试,包含开放式问题、多轮对话和多模态推理任务,提供可解释的评估标准。现有模型表现不佳,凸显了真实世界长视频理解的挑战。

  • Motivation: 现有长视频理解基准要么关注时间长度,要么关注多模态丰富性,很少同时兼顾两者,且大多依赖单一准确度分数,难以揭示失败模式。需要更全面的评估框架来推动长视频多模态理解的发展。
  • Method: 提出了LongShOTBench基准测试,包含开放式意图驱动问题、单轮/多轮对话、多模态推理和工具使用任务。采用可扩展的人工验证流程确保覆盖范围和可重复性。同时开发了LongShOTAgent系统,通过预处理、搜索和迭代优化来分析长视频。
  • Result: 在LongShOTBench上,最先进模型表现不佳:Gemini-2.5-Flash达到52.95%,开源模型低于30%,LongShOTAgent达到44.66%。结果表明真实世界长视频理解仍然具有很大挑战性。
  • Conclusion: LongShOTBench为评估和改进多模态大语言模型提供了实用、可重复的基础。现有模型在长视频理解方面仍有很大提升空间,该基准有助于推动该领域的发展。

[9] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Chiao-An Yang,Ryo Hachiuma,Sifei Liu,Subhashree Radhakrishnan,Raymond A. Yeh,Yu-Chiang Frank Wang,Min-Hung Chen

Main category: cs.CV

TL;DR: 提出4D-RGPT模型、P4D训练框架和R4D-Bench基准,用于提升多模态大语言模型在4D(3D+时间)感知和推理能力

  • Motivation: 现有MLLMs在3D结构和时间动态推理方面能力有限,受限于弱4D感知和时间理解。现有3D/4D VQA基准强调静态场景且缺乏区域级提示。
  • Method: 1) 4D-RGPT:专门设计的MLLM,从视频输入中捕获4D表示,增强时间感知;2) P4D:训练框架,从冻结专家模型转移4D表示到4D-RGPT;3) R4D-Bench:具有深度感知动态场景和区域级提示的基准,通过混合自动化和人工验证流程构建。
  • Result: 4D-RGPT在现有4D VQA基准和提出的R4D-Bench基准上都取得了显著改进。
  • Conclusion: 通过专门设计的模型、训练框架和新基准,成功提升了MLLMs在4D感知和推理方面的能力,解决了现有方法的局限性。

[10] FORMSpoT: A Decade of Tree-Level, Country-Scale Forest Monitoring

Martin Schwartz,Fajwel Fogel,Nikola Besic,Damien Robert,Louis Geist,Jean-Pierre Renaud,Jean-Matthieu Monnet,Clemens Mosig,Cédric Vega,Alexandre d'Aspremont,Loic Landrieu,Philippe Ciais

Main category: cs.CV

TL;DR: FORMSpoT提供法国全国范围内1.5米分辨率的森林冠层高度十年制图(2014-2024),通过SPOT-6/7影像和Transformer模型实现树级监测,显著优于现有扰动产品。

  • Motivation: 欧洲森林碳汇下降需要空间明确且频繁更新的监测工具,现有卫星扰动产品分辨率太粗(>100m²),无法检测单树尺度的变化。
  • Method: 使用SPOT-6/7年度合成影像,基于PVTv2 Transformer模型训练高分辨率机载激光扫描数据,开发专用后处理流程结合配准和时空总变差去噪。
  • Result: FORMSpoT-Δ在19个站点和5,087个国家森林清查样地验证中显著优于现有产品,山区森林F1分数达0.44,比现有基准高一个数量级。
  • Conclusion: FORMSpoT-Δ实现了国家尺度的树级森林动态监测,为分析管理实践、检测森林衰退早期信号和量化细微扰动碳损失提供独特工具,强调了维持SPOT等高分辨率卫星任务的重要性。

[11] Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

Min-Jung Kim,Jeongho Kim,Hoiyeong Jin,Junha Hyung,Jaegul Choo

Main category: cs.CV

TL;DR: InfCam:一种无需深度估计的相机控制视频生成框架,通过无限单应性扭曲和轨迹数据增强,实现高相机姿态保真度的视频生成

  • Motivation: 现有相机控制视频生成方法存在两个主要问题:1)基于重投影的方法对深度估计误差敏感;2)现有数据集中相机轨迹多样性有限,限制了学习模型的泛化能力。需要开发一种既能保证相机姿态保真度,又能生成高质量视频的解决方案。
  • Method: InfCam框架包含两个核心组件:1)无限单应性扭曲,直接在视频扩散模型的2D潜在空间中编码3D相机旋转信息,通过端到端训练预测残差视差项;2)数据增强流程,将现有合成多视角数据集转换为具有多样化轨迹和焦距的序列。
  • Result: 实验结果表明,InfCam在相机姿态准确性和视觉保真度方面优于基线方法,能够很好地从合成数据泛化到真实世界数据。
  • Conclusion: InfCam通过创新的深度无关方法和数据增强策略,成功解决了相机控制视频生成中的姿态保真度和质量挑战,为动态场景的相机控制视频生成提供了有效解决方案。

[12] Interpretable Similarity of Synthetic Image Utility

Panagiota Gatoula,George Dimas,Dimitris K. Iakovidis

Main category: cs.CV

TL;DR: 提出一种可解释的效用相似性(IUS)度量方法,用于评估合成医学图像数据集与真实数据集在深度学习临床决策支持系统中的实用性相似度。

  • Motivation: 当前评估合成医学图像质量的方法主要依赖用户评价、基于Inception的度量或分类性能,缺乏可解释性且无法解释为什么某些合成数据集在特定临床应用中更有用。
  • Method: 受广义神经可加模型启发,提出可解释的效用相似性(IUS)度量,通过临床相关图像特征来解释合成数据集在CDS系统中的实用性,相比Inception-based方法更具可解释性。
  • Result: 在多种彩色医学成像模态(内窥镜、皮肤镜、眼底成像)的公开数据集上,使用IUS选择高效用相似性的合成图像可使分类性能相对提升高达54.6%。在灰度X射线和超声成像模态上也验证了IUS的通用性。
  • Conclusion: IUS提供了一种可解释的度量方法,能够评估合成医学图像数据集在深度学习临床决策支持系统中的实用性,帮助选择更有用的合成数据,从而提高模型性能。

[13] DGH: Dynamic Gaussian Hair

Junying Wang,Yuanlu Xu,Edith Tretschk,Ziyan Wang,Anastasia Ianina,Aljaz Bozic,Ulrich Neumann,Tony Tung

Main category: cs.CV

TL;DR: 提出Dynamic Gaussian Hair (DGH)框架,通过数据驱动方法学习头发动态和外观,替代传统物理模拟方法

  • Motivation: 现有方法依赖静态捕捉和物理模型,需要手动调参且计算量大,难以处理多样化发型和运动
  • Method: 1) 从粗到细的模型学习时间一致的头发动态;2) 基于发丝引导的优化模块学习动态3D高斯表示,支持可微分渲染
  • Result: DGH能生成逼真的几何和外观效果,可无缝集成到3D高斯化身框架中,实现可动画的高保真头发
  • Conclusion: 提供了一种可扩展的数据驱动替代方案,优于传统物理模拟和渲染方法

[14] Predictive Modeling of Maritime Radar Data Using Transformer Architecture

Bjorna Qesaraku,Jan Steckel

Main category: cs.CV

TL;DR: 该论文是一篇关于海上雷达帧预测的综述,指出虽然Transformer架构已成功应用于AIS轨迹预测和声纳帧预测,但在海上雷达帧预测领域仍存在研究空白。

  • Motivation: 海上自主系统需要强大的预测能力来预判船舶运动和动态环境。雷达作为全天候可靠的导航传感器,其帧预测对自主系统至关重要。虽然Transformer架构在相关领域(如AIS轨迹预测、声纳帧预测)已取得进展,但在海上雷达帧预测方面仍未被探索,形成了关键的研究空白。
  • Method: 采用系统性文献综述方法,重点分析适用于海上雷达预测的Transformer架构时空序列预测方法。按照数据类型、架构设计和预测时间范围等维度对现有代表性方法进行分类和分析。
  • Result: 综述发现,现有文献已证明基于Transformer的声纳传感帧预测的可行性,但没有任何先前工作涉及基于Transformer的海上雷达帧预测。这明确界定了一个研究空白,并为该领域的未来研究指明了具体方向。
  • Conclusion: 海上雷达帧预测是一个未被探索但至关重要的研究领域。基于Transformer架构的雷达帧预测具有重要的研究价值和实际应用前景,需要未来的研究工作来填补这一空白,以提升海上自主系统的预测能力和安全性。

[15] SDUM: A Scalable Deep Unrolled Model for Universal MRI Reconstruction

Puyang Wang,Pengfei Guo,Keyi Chai,Jinyuan Zhou,Daguang Xu,Shanshan Jiang

Main category: cs.CV

TL;DR: SDUM是一个通用的MRI重建框架,通过结合Restormer重建器、学习线圈灵敏度图估计、采样感知加权数据一致性、通用条件化等技术,在多个MRI重建挑战中实现最先进性能,无需任务特定微调。

  • Motivation: 临床MRI包含多种成像协议(不同解剖目标、对比度、采样模式、加速因子),但当前深度学习重建方法通常是协议特定的,这阻碍了泛化能力和部署效率。
  • Method: 提出可扩展深度展开模型(SDUM),包含:Restormer基础重建器、学习线圈灵敏度图估计器(CSME)、采样感知加权数据一致性(SWDC)、对级联索引和协议元数据的通用条件化(UC),以及渐进级联扩展训练。
  • Result: SDUM表现出基础模型般的扩展行为:重建质量与参数数量呈对数关系(r=0.986)。在CMRxRecon2025所有四个赛道(多中心、多疾病、5T、儿科)上实现最先进结果,无需任务特定微调,比专门基线提升高达+1.0dB。在CMRxRecon2024上超越获胜方法PromptMR+ +0.55dB,在fastMRI脑部数据上超越PC-RNN +1.8dB。
  • Conclusion: SDUM为通用、可扩展的MRI重建提供了一条实用路径,通过单一模型处理多样化的临床MRI协议,实现了可预测的性能提升和卓越的泛化能力。

[16] Pro-Pose: Unpaired Full-Body Portrait Synthesis via Canonical UV Maps

Sandeep Mishra,Yasamin Jafarian,Andreas Lugmayr,Yingwei Li,Varsha Ramakrishnan,Srivatsan Varadharajan,Alan C. Bovik,Ira Kemelmacher-Shlizerman

Main category: cs.CV

TL;DR: 该论文提出了一种将普通人物照片转换为专业肖像的方法,通过UV空间转换和重姿态处理,在保持人物身份特征的同时提升照片质量。

  • Motivation: 专业摄影师拍摄的人物照片通常在光线、姿态和整体质量上都优于普通人自拍的照片。然而,现实中缺乏大量成对的"野外"照片和专业照片数据集,这使得将普通照片转换为专业肖像具有挑战性。
  • Method: 1) 将输入照片和人物面部转换到规范的UV空间,结合重姿态方法来建模遮挡和新视角合成;2) 通过多图像微调实现个性化输出。UV空间操作允许利用现有的非配对数据集。
  • Result: 该方法能够生成高质量的重姿态肖像,在真实世界图像上取得了良好的定性和定量性能。
  • Conclusion: 提出的方法成功解决了在没有成对数据的情况下将普通人物照片转换为专业肖像的挑战,通过UV空间转换和个性化微调实现了身份保持的质量提升。

[17] Text-Conditioned Background Generation for Editable Multi-Layer Documents

Taewon Kang,Joseph K J,Chris Tensmeyer,Jihyung Kil,Wanrong Zhu,Ming C. Lin,Vlad I. Morariu

Main category: cs.CV

TL;DR: 提出一个文档中心化背景生成框架,支持多页面编辑和主题连续性,通过潜在掩码保持文本可读性,自动优化可读性,并保持跨页面一致性。

  • Motivation: 现有文档背景生成方法难以同时保持文本可读性、跨页面主题一致性和设计美观性,需要自动化解决方案来平衡这些需求。
  • Method: 1. 潜在掩码公式:在扩散空间中软衰减更新,保持文本区域可读性;2. 自动可读性优化(ARO):自动放置半透明圆角背景形状,满足WCAG 2.2对比度标准;3. 多页面一致性:通过摘要-指令过程,将每页压缩为紧凑表示来递归指导后续生成;4. 分层结构:将文档视为文本、图形和背景的分离层,允许针对性编辑。
  • Result: 该免训练框架能够生成视觉连贯、文本保持良好、主题对齐的文档,在生成建模与自然设计工作流之间架起桥梁。
  • Conclusion: 提出的框架成功解决了文档背景生成中的关键挑战,实现了可读性保持、跨页面一致性和设计美观性的平衡,为文档设计提供了自动化且灵活的解决方案。

[18] PhysFire-WM: A Physics-Informed World Model for Emulating Fire Spread Dynamics

Nan Zhou,Huandong Wang,Jiahao Li,Yang Li,Xiao-Ping Zhang,Yong Li,Xinlei Chen

Main category: cs.CV

TL;DR: PhysFire-WM:一种物理信息世界模型,通过整合物理模拟器先验和跨任务协同训练策略,提升细粒度火灾蔓延预测的准确性和物理一致性。

  • Motivation: 当前火灾预测方法主要局限于二值掩模建模,信号稀疏且无法捕捉火灾复杂动态;而现有世界模型在视频生成中表现出潜力,但存在物理不一致性问题,难以准确预测火灾蔓延。
  • Method: 提出PhysFire-WM物理信息世界模型:1)从物理模拟器编码结构化先验来纠正物理不一致性;2)采用跨任务协同训练策略(CC-Train),通过参数共享和梯度协调整合热辐射动态和空间边界划分,缓解掩模建模信息有限的问题。
  • Result: 在细粒度多模态火灾数据集上的大量实验表明,PhysFire-WM在火灾蔓延预测方面具有优越的准确性。验证强调了物理先验和跨任务协作的重要性。
  • Conclusion: PhysFire-WM为将物理信息世界模型应用于灾害预测提供了新见解,通过整合物理知识和多模态信息,显著提升了火灾蔓延预测的物理真实性和几何准确性。

[19] Can Synthetic Images Serve as Effective and Efficient Class Prototypes?

Dianxing Shi,Dingjie Fu,Yuqiao Liu,Jun Wang

Main category: cs.CV

TL;DR: LGCLIP提出了一种无需人工标注图文对的轻量级视觉语言模型,利用LLM生成类别提示词指导扩散模型合成参考图像作为视觉原型,仅需类别标签即可进行零样本分类。

  • Motivation: 现有视觉语言模型(如CLIP)依赖人工标注的图文对进行模态对齐,成本高且质量要求严格;同时双塔编码器结构导致模型不够轻量。需要一种更高效、轻量的零样本分类方法。
  • Method: LGCLIP框架:1)使用LLM为每个类别生成提示词;2)用扩散模型根据提示词合成参考图像作为视觉原型;3)仅使用视觉编码器提取真实图像特征;4)将真实图像特征与原型特征对比进行分类预测。
  • Result: 实验验证了LGCLIP的可行性和效率,在零样本分类任务中表现出色,建立了一种新的分类范式。
  • Conclusion: LGCLIP通过LLM生成和扩散模型合成,实现了无需人工标注图文对的轻量级零样本分类,为视觉语言模型提供了新的研究方向。

[20] ABE-CLIP: Training-Free Attribute Binding Enhancement for Compositional Image-Text Matching

Qi Zhang,Yuxu Chen,Lei Deng,Lili Shen

Main category: cs.CV

TL;DR: ABE-CLIP是一种无需训练的增强方法,通过语义精炼机制和局部token-patch对齐策略,显著提升CLIP模型在属性-对象绑定任务上的性能。

  • Motivation: CLIP在组合式图像-文本匹配任务中表现不佳,特别是在准确关联对象与其属性方面,因为其全局表示往往忽略了细粒度语义。现有方法需要额外训练或大量负采样,但泛化能力有限且未能从根本上解决全局表示的缺陷。
  • Method: 提出ABE-CLIP方法:1)语义精炼机制:精炼文本中对象和属性短语的token嵌入,减轻属性混淆;2)局部token-patch对齐策略:计算精炼后的文本token与最相关图像patch的相似度分数,通过聚合局部相似度分数得到最终的图像-文本相似度。
  • Result: 在多个数据集上的实验表明,ABE-CLIP显著提升了属性-对象绑定性能,甚至超过了需要大量训练的方法。
  • Conclusion: ABE-CLIP是一种有效的无需训练增强方法,能够从根本上解决CLIP在组合式匹配中的局限性,通过细粒度语义对齐提升属性绑定能力。

[21] It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Matias Quintana,Fangqi Liu,Jussi Torkko,Youlong Gu,Xiucheng Liang,Yujun Hou,Koichi Ito,Yihan Zhu,Mahmoud Abdelrahman,Tuuli Toivonen,Yi Lu,Filip Biljecki

Main category: cs.CV

TL;DR: 该研究量化了城市绿化客观测量与主观感知之间的差异,并通过人类、地理和空间维度解释这些差异,发现人口统计和个性因素对感知影响不大,而居住地和文化环境因素对绿化感知有显著影响。

  • Motivation: 城市绿化评估存在客观测量(如植被数量)与主观感知(如人们感受)之间的差异,这种差异对城市规划和发展至关重要。研究旨在测量这种差异并解释其背后的因素,以更好地理解城市绿化感知的复杂性。
  • Method: 使用街景图像提取上下文信息,结合来自5个国家1000人的全面城市视觉感知调查,收集详细的人口统计和个性信息。分析客观指标(如绿色视野指数GVI)与主观评分(如成对评分)之间的差异,考察人类和视觉因素(如年龄组、场景中绿化的空间变化)是否能解释这些差异。
  • Result: 研究发现:1)客观与主观绿化评估的差异在全球范围内具有可比性;2)人口统计和个性因素对感知没有显著影响;3)感知绿化与测量绿化在地理上具有一致性相关性;4)居住地是解释感知差异的最重要因素之一,表明文化、环境和经验因素显著影响个体对城市绿化的观察。
  • Conclusion: 城市绿化感知差异主要受居住地和文化环境因素影响,而非人口统计或个人特质。这一发现强调了在规划城市绿色空间时需要考虑文化背景和当地环境的重要性,为更有效的城市绿化评估和规划提供了新视角。

[22] Globally Optimal Solution to the Generalized Relative Pose Estimation Problem using Affine Correspondences

Zhenbao Yu,Banglei Guan,Shunkun Liang,Zibin Liu,Yang Shang,Qifeng Yu

Main category: cs.CV

TL;DR: 提出一种基于仿射对应的全局最优求解器,用于估计已知垂直方向的多相机系统广义相对位姿,通过多项式特征值求解旋转角,在合成和真实数据上优于现有方法。

  • Motivation: 移动设备(如自动驾驶汽车)普遍配备多相机系统和IMU,视觉惯性相对位姿估计在多个领域有重要应用。为提高多相机系统相对位姿估计精度,需要开发更准确的求解方法。
  • Method: 1. 在解耦旋转矩阵和平移向量后,基于仿射对应的几何约束建立相对旋转角度的代价函数;2. 将全局优化问题转化为基于特征方程及其一阶导数为零的两个多项式;3. 使用多项式特征值求解器解相对旋转角,从特征向量获取平移向量;4. 针对小旋转提出新的线性解。
  • Result: 在合成数据和真实数据集上的实验结果表明,该方法在精度上优于可比的最新方法。
  • Conclusion: 提出的基于仿射对应的全局最优求解器能有效提高多相机系统相对位姿估计精度,特别是在已知垂直方向的情况下,为实际应用提供了更准确的解决方案。

[23] Anatomical Region-Guided Contrastive Decoding: A Plug-and-Play Strategy for Mitigating Hallucinations in Medical VLMs

Xiao Liang,Chenxi Liu,Zhi Ma,Di Wang,Bin Jing,Quan Wang,Yuanyuan Shi

Main category: cs.CV

TL;DR: ARCD是一种即插即用的解剖区域引导对比解码方法,通过三层动态重加权机制,在无需额外训练的情况下减少医学视觉语言模型的幻觉问题,提高区域理解和诊断准确性。

  • Motivation: 医学视觉语言模型在临床应用中存在幻觉问题,模型往往依赖文本先验而非视觉证据。现有方法各有局限:基于训练的方法需要昂贵的专家标注,可扩展性差;而训练免费的干预方法(如对比解码)采用全局非针对性校正,在复杂临床环境中效果不可靠。
  • Method: 提出解剖区域引导对比解码(ARCD),利用解剖掩码指导三层对比解码过程:在token、注意力和logits级别进行动态重加权,将模型注意力引导到指定区域,增强解剖理解并抑制事实错误输出。
  • Result: 在胸部X光、CT、脑部MRI和眼部超声等多种数据集上的广泛实验表明,该方法能有效改善区域理解、减少幻觉并提高整体诊断准确性。
  • Conclusion: ARCD提供了一种针对性的、区域特定的指导策略,解决了医学视觉语言模型中的幻觉问题,无需昂贵标注即可提升模型在临床环境中的可靠性。

[24] Fose: Fusion of One-Step Diffusion and End-to-End Network for Pansharpening

Kai Liu,Zeli Lin,Weibo Wang,Linghe Kong,Yulun Zhang

Main category: cs.CV

TL;DR: 提出Fose方法,通过四阶段训练策略融合一步扩散模型和端到端模型,实现轻量级网络,在保持性能的同时大幅提升推理速度

  • Motivation: 现有扩散模型需要多步扩散过程,计算量大且耗时;端到端模型则受限于先验知识不足和结构简单。需要一种既能保持高性能又具备快速推理能力的方法
  • Method: 提出四阶段训练策略:1)对增强的SOTA扩散模型进行一步蒸馏,将推理过程从50步压缩到1步;2)通过轻量级集成块将一步扩散模型与端到端模型融合;3)构建轻量级网络Fose
  • Result: 在三个常用基准测试上显著提升性能,相比基线扩散模型实现7.42倍加速比,同时性能更好
  • Conclusion: Fose方法成功融合了一步扩散模型和端到端模型的优势,实现了高性能与高效率的平衡,为全色锐化任务提供了有效的解决方案

[25] Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

Rujiao Long,Yang Li,Xingyao Zhang,Weixun Wang,Tianqianjin Lin,Xi Zhao,Yuchi Xu,Wenbo Su,Junchi Yan,Bo Zheng

Main category: cs.CV

TL;DR: Reasoning Palette:通过变分自编码器引入潜在变量调制框架,为大型(视觉)语言模型提供战略推理上下文,提升推理多样性和RL训练效率

  • Motivation: 当前大型语言模型的随机采样通常产生冗余推理路径,缺乏高层多样性,限制了推理性能和强化学习训练效果
  • Method: 提出Reasoning Palette框架:1) 使用VAE从问答对嵌入中推断潜在变量;2) 将采样的潜在变量解码为可学习token前缀并前置到输入提示;3) 通过监督微调适应潜在条件;4) 在RL优化中实现结构化探索
  • Result: 在多个推理基准测试中,该方法实现了对模型战略行为的可解释和可控控制,相比标准RL方法获得了一致的性能提升
  • Conclusion: Reasoning Palette通过潜在调制框架有效提升了大型语言模型的推理多样性和探索效率,为可控推理提供了新途径

[26] CheXPO-v2: Preference Optimization for Chest X-ray VLMs with Knowledge Graph Consistency

Xiao Liang,Yuxuan An,Di Wang,Jiawei Hu,Zhicheng Jiao,Bin Jing,Quan Wang

Main category: cs.CV

TL;DR: CheXPO-v2提出了一种新的医学视觉语言模型对齐框架,通过知识图谱一致性奖励机制实现过程监督,有效减少幻觉并提高临床可靠性。

  • Motivation: 医学视觉语言模型容易产生幻觉,影响临床可靠性。现有的强化学习方法如GRPO依赖稀疏的结果奖励,导致模型"过度思考"——生成冗长、复杂且不可验证的思维链推理来证明答案,这种结果导向的方法掩盖了事实错误并带来安全风险。
  • Method: 提出CheXPO-v2对齐框架,从结果监督转向过程监督。核心创新是知识图谱一致性奖励机制,通过实体关系匹配实现。具体方法是将推理步骤解析为结构化的"疾病、关系、解剖"三元组,提供细粒度监督,在原子级别惩罚不连贯逻辑和幻觉。结合困难样本挖掘策略。
  • Result: 在MIMIC-CXR-VQA等基准测试中显著优于GRPO和最先进模型。仅使用5k样本就达到新的最先进准确率,展示了卓越的数据效率,同时产生临床可靠且可验证的推理。
  • Conclusion: CheXPO-v2通过过程监督和知识图谱一致性奖励,有效解决了医学视觉语言模型的幻觉问题,提高了临床可靠性和安全性,同时保持了数据效率。

[27] DAVE: A VLM Vision Encoder for Document Understanding and Web Agents

Brandon Huang,Hang Hua,Zhuoran Yu,Trevor Darrell,Rogerio Feris,Roei Herzig

Main category: cs.CV

TL;DR: DAVE是一个专门为文档理解和网页代理任务设计的视觉编码器,通过自监督预训练和监督自回归预训练两阶段训练,结合模型融合和集成训练策略,在文档任务和网页代理基准上表现出色。

  • Motivation: 现有视觉语言模型(VLMs)的视觉编码器存在根本性弱点:其低层特征缺乏文档理解和网页代理所需的鲁棒结构和空间信息。需要专门为这些任务设计的视觉编码器。
  • Method: 采用两阶段训练:1)自监督预训练阶段使用无标签图像;2)监督自回归预训练阶段使用有限高质量数据学习解析和定位任务。采用两种策略:模型融合方案结合不同文本解码器训练的编码器;集成训练融合通用编码器特征与文档/网页特定表示。
  • Result: 在经典文档任务、视觉问答、网页定位和基于代理的基准测试中进行了广泛实验,验证了方法的有效性,确立了DAVE作为文档和网页应用的强大视觉编码器。
  • Conclusion: DAVE是一个专门为文档理解和网页代理任务设计的视觉编码器,通过创新的训练策略和架构设计,解决了现有VLMs视觉编码器在结构和空间信息方面的不足。

[28] Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing

Xuyang Li,Chenyu Li,Danfeng Hong

Main category: cs.CV

TL;DR: AOM是一个通用的遥感基础模型,能够处理任意波段组合、传感器类型和分辨率尺度,解决了现有RSFM在波段缺失、跨传感器融合和尺度变化时的泛化问题。

  • Motivation: 不同光学传感器的波段组合和空间分辨率差异显著,现有遥感基础模型通常针对固定波段配置和分辨率进行预训练,在实际应用中面临波段缺失、跨传感器融合和未见尺度等挑战,限制了模型的泛化能力和实际部署。
  • Method: 提出AOM模型,包含:1) 频谱独立标记器,为每个通道分配专用波段嵌入;2) 多尺度自适应补丁嵌入机制,动态调整感受野;3) 多尺度语义对齐机制;4) 通道级自监督掩码重建预训练策略,联合建模频谱-空间关系。
  • Result: 在超过10个公共数据集(包括Sentinel-2、Landsat和HLS)上的实验表明,AOM在波段缺失、跨传感器和跨分辨率等挑战性条件下始终达到最先进的性能。
  • Conclusion: AOM通过创新的频谱独立标记、多尺度自适应嵌入和语义对齐机制,成功解决了遥感基础模型在波段组合和分辨率变化时的泛化问题,为实际遥感应用提供了更灵活、鲁棒的解决方案。

[29] Robust Scene Coordinate Regression via Geometrically-Consistent Global Descriptors

Son Tung Nguyen,Tobias Fischer,Alejandro Fontan,Michael Milford

Main category: cs.CV

TL;DR: 提出一种基于视觉相似性和几何结构一致性的全局描述子学习方法,通过聚合模块纠正不可靠重叠分数导致的错误关联,无需人工标注即可训练,在大规模环境中显著提升定位性能。

  • Motivation: 现有基于学习的视觉定位方法通常仅从几何线索(如共视图)推导全局描述子,限制了其判别能力,且在存在噪声几何约束时鲁棒性降低。
  • Method: 提出聚合模块,学习同时符合几何结构和视觉相似性的全局描述子;使用仅基于重叠分数的批挖掘策略和修改后的对比损失,无需人工位置标签即可训练。
  • Result: 在具有挑战性的基准测试中,该方法在大规模环境中实现了显著的定位性能提升,同时保持了计算和内存效率。
  • Conclusion: 通过同时考虑视觉相似性和几何一致性,提出的方法能够纠正不可靠重叠分数导致的错误关联,实现更鲁棒的视觉定位,且无需人工标注即可泛化到不同环境。

[30] Learning When to Look: A Disentangled Curriculum for Strategic Perception in Multimodal Reasoning

Siqi Yang,Zilve Gao,Haibo Qiu,Fanfan Liu,Peng Shi,Zhixiong Zeng,Qingmin Liao,Lin Ma

Main category: cs.CV

TL;DR: 论文提出一种课程学习框架,解决多模态大语言模型在长链视觉推理中的"视觉遗忘"问题,通过解耦抽象推理与视觉感知,并学习何时进行视觉感知的策略。

  • Motivation: 当前多模态大语言模型在复杂长链视觉推理任务中存在"视觉遗忘"问题——随着推理链延长,模型逐渐失去视觉基础。这源于训练范式过早地将抽象逻辑推理("如何思考")与策略性视觉感知("何时观看")两个认知技能纠缠在一起。
  • Method: 提出两阶段课程学习框架:1)解耦的监督微调课程,先在纯文本数据上建立抽象推理骨干,再通过感知锚定的思维链范式与视觉对齐;2)将感知时机建模为强化学习问题,设计关键感知奖励,通过将感知动作与认知不确定性语言标记耦合,学习自主的视觉基础策略。
  • Result: 该方法将模型从启发式驱动的观察者转变为策略性的、有基础推理能力的推理器,解决了视觉遗忘问题,提升了长链视觉推理性能。
  • Conclusion: 通过解耦抽象推理与视觉感知,并学习何时进行视觉感知的策略,可以解决多模态大语言模型在长链视觉推理中的视觉遗忘问题,使模型成为更有效的策略性推理器。

[31] Video Detective: Seek Critical Clues Recurrently to Answer Question from Long Videos

Henghui Du,Chang Zhou,Chunjie Zhang,Xi Chen,Di Hu

Main category: cs.CV

TL;DR: VideoDetective:一种用于长视频问答的高效问题感知记忆机制,通过迭代处理视频子片段和记忆令牌压缩,使MLLM能在有限上下文长度下处理长达1小时的视频

  • Motivation: 长视频问答面临巨大上下文和过载信息的挑战,现有方法通过减少视觉令牌或扩展上下文长度可能丢失有用信息或计算量大。实际上回答问题只需要少量关键信息。
  • Method: 提出VideoDetective方法:1) 迭代处理视频子片段;2) 每个子片段使用问题感知压缩策略,引入特殊记忆令牌进行有目的压缩;3) 递归聚合存储记忆令牌更新历史上下文,供后续子片段重用
  • Result: 方法使上下文长度32K的MLLM能高效处理100K令牌(3600帧,1小时视频1fps采样),仅需2分钟和37GB GPU内存。在多个长视频基准测试中能更有效从海量信息中寻找关键线索
  • Conclusion: VideoDetective通过问题感知记忆机制有效解决了长视频问答的挑战,同时提出了GLVC数据集来更好地评估模型的长视频理解能力

[32] Mitty: Diffusion-based Human-to-Robot Video Generation

Yiren Song,Cheng Liu,Weijia Mao,Mike Zheng Shou

Main category: cs.CV

TL;DR: Mitty是一个基于扩散Transformer的视频上下文学习框架,能够端到端地将人类演示视频直接转换为机器人执行视频,无需动作标签或中间表示,实现了从人类观察到机器人执行的直接映射。

  • Motivation: 现有方法依赖关键点或轨迹等中间表示,导致信息丢失和累积误差,损害了时间和视觉一致性。直接从人类演示视频学习是实现可扩展和泛化机器人学习的关键里程碑。
  • Method: 基于预训练视频扩散模型,构建扩散Transformer进行视频上下文学习。将演示视频压缩为条件token,通过双向注意力与机器人去噪token融合。开发自动合成流水线从大型第一人称数据集生成高质量人-机器人配对数据。
  • Result: 在Human2Robot和EPIC-Kitchens数据集上取得最先进结果,展示了对未见环境的强大泛化能力,为从人类观察进行可扩展机器人学习提供了新见解。
  • Conclusion: Mitty通过端到端视频生成方法,避免了中间表示的局限性,实现了从人类演示到机器人执行的直接转换,为机器人学习提供了更有效和可扩展的途径。

[33] AnyCXR: Human Anatomy Segmentation of Chest X-ray at Any Acquisition Position using Multi-stage Domain Randomized Synthetic Data with Imperfect Annotations and Conditional Joint Annotation Regularization Learning

Dong Zifei,Wu Wenjie,Hao Jinkui,Chen Tianqi,Weng Ziqiao,Zhou Bo

Main category: cs.CV

TL;DR: AnyCXR:仅使用合成监督的统一框架,可在任意胸部X光投影角度实现泛化的多器官分割,无需真实标注数据

  • Motivation: 胸部X光解剖分割面临两个主要挑战:1)全面标注数据稀缺;2)真实世界采集条件变化大。需要一种无需大量人工标注、能适应各种成像条件的鲁棒分割方法。
  • Method: 1)多阶段域随机化(MSDR)引擎:从3D CT体积生成超过10万张解剖学忠实且高度多样化的合成X光片;2)条件联合标注正则化(CAR)学习策略:在潜在空间中强制解剖一致性,利用部分和不完美的标签
  • Result: 仅使用合成数据训练的AnyCXR在多个真实世界数据集上实现强零样本泛化,能准确分割54个解剖结构(PA、侧位、斜位视图)。分割结果支持下游临床任务,包括自动心胸比估计、脊柱曲率评估和疾病分类
  • Conclusion: AnyCXR为解剖感知的胸部X光分析建立了可扩展且可靠的基础,提供了一条减少标注负担、提高跨多样成像条件鲁棒性的实用途径

[34] WDFFU-Mamba: A Wavelet-guided Dual-attention Feature Fusion Mamba for Breast Tumor Segmentation in Ultrasound Images

Guoping Cai,Houjin Chen,Yanfeng Li,Jia Sun,Ziwei Chen,Qingzi Geng

Main category: cs.CV

TL;DR: 提出WDFFU-Mamba网络,结合小波去噪高频引导和双注意力特征融合,用于乳腺超声图像分割,显著提升分割精度和鲁棒性。

  • Motivation: 乳腺超声图像分割在临床诊断和早期肿瘤筛查中至关重要,但存在斑点噪声、成像伪影、不规则病灶形态和模糊边界等挑战,严重影响分割准确性。
  • Method: 提出WDFFU-Mamba分割网络,集成小波引导增强和双注意力特征融合于U形Mamba架构中。包含小波去噪高频引导特征模块增强低层表示,以及双注意力特征融合模块有效融合跳跃连接和语义特征。
  • Result: 在两个公共乳腺超声数据集上的实验表明,WDFFU-Mamba在Dice系数和HD95指标上显著优于现有方法,实现了优越的分割精度。
  • Conclusion: 小波域增强和注意力融合的结合大大提高了乳腺超声图像分割的准确性和鲁棒性,同时保持计算效率。该模型具有良好的泛化能力,是乳腺肿瘤超声分析实际临床应用的有前景解决方案。

[35] Diagnostic Performance of Universal-Learning Ultrasound AI Across Multiple Organs and Tasks: the UUSIC25 Challenge

Zehui Lin,Luyi Han,Xin Wang,Ying Zhou,Yanming Zhang,Tianyu Zhang,Lingyun Bao,Shandong Wu,Dong Xu,Tao Tan,the UUSIC25 Challenge Consortium

Main category: cs.CV

TL;DR: 通用超声AI模型在多项任务上表现优异,但在未见数据上泛化能力有限,需解决领域泛化问题才能临床部署。

  • Motivation: 当前超声AI工具多为单任务专用,与现代超声系统的多功能性不匹配,限制了临床实用性。需要开发通用的深度学习模型来处理多器官分类和分割任务。
  • Method: 通过Universal UltraSound Image Challenge 2025 (UUSIC25)竞赛,使用11,644张图像(公开/私有数据)开发算法,并在包含2,479张图像的独立多中心测试集上评估,其中包含训练期间完全未见过的中心数据以评估泛化能力。
  • Result: 在15个有效算法中,最佳模型(SMART)在5个分割任务上平均DSC达到0.854,二分类AUC为0.766。模型在分割任务上表现出色(如胎儿头部DSC: 0.942),但在复杂任务上存在领域偏移导致的性能波动。特别是在乳腺癌分子分型中,最佳模型性能从内部测试的AUC 0.571下降到未见外部中心的0.508。
  • Conclusion: 通用AI模型使用单一架构即可在多项任务上实现高精度和高效率。然而,在未见数据上的性能下降表明领域泛化是未来临床部署的关键挑战。

[36] Vision-Language Model Guided Image Restoration

Cuixin Yang,Rongkang Dong,Kin-Man Lam

Main category: cs.CV

TL;DR: VLMIR框架利用视觉语言模型(如CLIP)的视觉-语言先验知识,通过两阶段方法(VLM特征提取+扩散模型恢复)提升图像修复性能,在通用和特定退化任务上表现优异。

  • Motivation: 现有图像修复方法难以有效结合像素级保真度和高级语义理解,视觉语言模型虽然能对齐视觉和文本特征,但未能充分利用语言先验来确保修复过程中的语义一致性。
  • Method: 提出VLMIR框架:1)VLM特征提取阶段:通过CLIP等模型提取互补的视觉和语言表示,使用LoRA微调对齐低质量/高质量图像描述的嵌入,并通过退化预测器分解退化与干净图像内容嵌入;2)扩散模型修复阶段:通过交叉注意力机制将视觉和文本嵌入集成到扩散模型中。
  • Result: 大量实验和消融研究表明,VLMIR在通用和退化特定的图像修复任务上均取得优越性能,证明了视觉语言模型中视觉和语言知识整合对提升图像修复能力的关键作用。
  • Conclusion: VLMIR框架成功利用视觉语言模型的丰富先验知识,通过整合视觉感知和语义理解显著提升了图像修复性能,为图像修复领域提供了新的有效方法。

[37] Towards Pixel-Wise Anomaly Location for High-Resolution PCBA \ via Self-Supervised Image Reconstruction

Wuyi Liu,Le Jin,Junxian Yang,Yuanchao Yu,Zishuo Peng,Jinfeng Xu,Xianzhi Li,Jun Zhou

Main category: cs.CV

TL;DR: HiSIR-Net:针对高分辨率PCB组装板缺陷检测的自监督重建框架,通过选择性输入重建门和区域优化补丁选择机制,在4K分辨率图像上实现低误报率的像素级异常定位。

  • Motivation: PCB组装板的自动缺陷检测面临三大挑战:1)标记数据不足;2)微缺陷仅占几个像素;3)视觉复杂的高分辨率图像。现有方法难以在这些条件下实现准确检测。
  • Method: 提出HiSIR-Net框架,包含两个轻量级模块:1)选择性输入重建门(SIR-Gate),让模型决定在何处信任重建结果而非原始输入,减少无关重建伪影和误报;2)区域级优化补丁选择(ROPS)方案,结合位置线索选择重叠补丁重建,在任意分辨率上保持一致性。
  • Result: 在自收集的SIPCBA-500数据集(500张图像)和公开基准测试上进行了广泛实验,展示了优越的定位性能,同时在实用速度下运行。异常地图清晰,误报率低。
  • Conclusion: HiSIR-Net通过有机整合SIR-Gate和ROPS机制,为高分辨率PCB组装板缺陷检测提供了有效的自监督解决方案,填补了高分辨率PCB数据集空白,具有实际应用价值。

[38] ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration

Fanpu Cao,Yaofo Chen,Zeng You,Wei Luo,Cen Chen

Main category: cs.CV

TL;DR: ProCache:针对扩散Transformer的动态特征缓存框架,通过非均匀缓存模式和选择性计算实现训练免费加速,在保持生成质量的同时达到1.96-2.90倍加速

  • Motivation: 扩散Transformer在生成建模中表现出色,但计算成本高阻碍实时部署。现有特征缓存方法存在两个关键问题:1) 均匀缓存间隔与DiT的非均匀时间动态不匹配;2) 简单特征重用会导致严重的误差累积
  • Method: 提出ProCache框架,包含两个核心组件:1) 约束感知缓存模式搜索模块,通过离线约束采样生成非均匀激活计划;2) 选择性计算模块,在缓存段内对深层块和高重要性token进行选择性计算以减轻误差累积
  • Result: 在PixArt-alpha和DiT上的实验表明,ProCache实现了1.96倍和2.90倍的加速,质量下降可忽略,显著优于现有缓存方法
  • Conclusion: ProCache通过分析DiT特征演化规律,提出动态特征缓存框架,有效解决了现有方法的局限性,为扩散Transformer的高效部署提供了训练免费的加速方案

[39] MatLat: Material Latent Space for PBR Texture Generation

Kyeongmin Yeo,Yunhong Min,Jaihoon Kim,Minhyuk Sung

Main category: cs.CV

TL;DR: 提出生成高质量PBR纹理的框架,通过微调预训练VAE来最小化新材质通道的潜在分布偏移,并引入局部性正则化保持空间对应关系。

  • Motivation: 大规模PBR纹理数据集稀缺,现有方法冻结嵌入网络会导致分布偏移,影响扩散训练质量。需要有效利用预训练图像生成模型的嵌入空间和扩散先验。
  • Method: 1) 微调预训练VAE以最小化新材质通道的潜在分布偏移;2) 引入局部性正则化:裁剪潜在补丁、解码并对齐对应图像区域,保持像素-潜在空间对应关系;3) 学习材质潜在空间MatLat。
  • Result: 消融实验和与先前基线的比较表明,该框架提高了PBR纹理保真度,每个组件对实现最先进性能都至关重要。
  • Conclusion: 提出的生成框架通过微调VAE和局部性正则化,有效解决了PBR纹理生成中的分布偏移和跨视图一致性问题,实现了高质量的纹理生成。

[40] EMAG: Self-Rectifying Diffusion Sampling with Exponential Moving Average Guidance

Ankit Yadav,Ta Duc Huy,Lingqiao Liu

Main category: cs.CV

TL;DR: 提出EMAG(指数移动平均引导),一种无需训练的注意力修改机制,通过自适应层选择产生更难的负样本,提升扩散模型生成质量

  • Motivation: 现有引导技术(如CFG)缺乏对负样本粒度或难度的可靠控制,且目标层选择通常固定,限制了生成质量的进一步提升
  • Method: EMAG在推理时修改扩散transformer的注意力,基于统计的自适应层选择规则,产生更精细、语义忠实的负样本(细粒度退化)
  • Result: 相比CFG提升人类偏好分数(HPS)+0.46,能发现困难的失败模式,让去噪器能精修细微伪影,且能与APG、CADS等先进引导技术自然组合
  • Conclusion: EMAG通过自适应层选择和产生更难的负样本,显著提升扩散模型生成质量,为引导技术提供了新的训练免费改进方向

[41] Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images

Wenhao Yang,Yu Xia,Jinlong Huang,Shiyin Lu,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang,Yuanyu Wan,Lijun Zhang

Main category: cs.CV

TL;DR: DRIM是一个支持深度可靠多轮推理的视觉语言模型,通过自我反思和冗余惩罚优化,在视觉理解任务上表现优异。

  • Motivation: 现有视觉语言模型在推理过程中难以自我反思和纠正错误的推理轨迹,需要提升模型在复杂视觉任务中的可靠推理能力。
  • Method: 采用三阶段流程:1)基于高分辨率图像构建高难度可验证的视觉问答对;2)冷启动监督微调收集工具轨迹;3)引入冗余惩罚策略优化,鼓励自我反思推理模式。
  • Result: DRIM在视觉理解基准测试中取得了优越的性能表现。
  • Conclusion: DRIM通过自我反思和冗余惩罚优化,实现了深度可靠的多轮推理,显著提升了视觉语言模型在复杂任务中的推理能力。

[42] CodeDance: A Dynamic Tool-integrated MLLM for Executable Visual Reasoning

Qi Song,Honglin Li,Yingchen Yu,Haoyi Zhou,Lin Yang,Song Bai,Qi She,Zilong Huang,Yunqing Zhao

Main category: cs.CV

TL;DR: CodeDance:使用可执行代码作为视觉推理的通用求解器,通过代码定义、组合和执行来协调多个工具,实现透明、可自检的推理,在多项基准测试中超越现有方法。

  • Motivation: 现有开源方法主要依赖纯文本链、固定视觉模式或单步流程,限制了在复杂任务上的灵活性、可解释性和可迁移性。需要一种更通用的视觉推理方法。
  • Method: 引入CodeDance,将可执行代码作为视觉推理的通用求解器。通过代码定义、组合和执行来协调多个工具,计算中间结果并渲染视觉工件。引入平衡自适应工具调用的奖励机制,平衡探索与效率。
  • Result: 在视觉搜索、数学、图表问答等推理基准测试中,CodeDance不仅持续优于模式驱动和纯文本基线,还超越了GPT-4o等先进闭源模型和更大的开源模型。RL训练中观察到新颖的工具调用、未见过的组合和跨任务迁移等涌现行为。
  • Conclusion: 可执行代码为视觉推理提供了一种通用且可扩展的机制,CodeDance展示了透明、自检的推理能力,无需任务特定微调即可实现跨任务迁移,具有很好的泛化性。

[43] Auxiliary Descriptive Knowledge for Few-Shot Adaptation of Vision-Language Model

SuBeen Lee,GilHan Park,WonJun Moon,Hyun Seok Seong,Jae-Pil Heo

Main category: cs.CV

TL;DR: ADK框架通过LLM生成类别描述提示,以组合知识和实例特定知识增强文本表示,提升VLM在分布偏移任务中的性能,无需额外参数且兼容现有PEFT方法。

  • Motivation: 现有PEFT方法依赖固定手工提示,难以理解类别语义;图像诱导提示虽能提供额外线索但计算开销大。需要一种既能丰富文本表示又不损害效率的解决方案。
  • Method: 1. 利用LLM离线为每个类别生成丰富的描述性提示;2. 组合知识:平均表示提供丰富语义;3. 实例特定知识:轻量非参数注意力机制动态选择最相关描述;4. 作为即插即用组件增强现有PEFT方法。
  • Result: ADK能持续提升多种PEFT基线的性能,在各种场景下达到新的最先进水平,且作为参数无关组件不增加推理开销。
  • Conclusion: ADK通过高效利用LLM生成的描述性知识,解决了VLM在分布偏移任务中语义理解不足的问题,为少样本适应提供了有效且高效的解决方案。

[44] A Benchmark for Ultra-High-Resolution Remote Sensing MLLMs

Yunkai Dang,Meiyi Zhu,Donghao Wang,Yizhuo Zhang,Jiacheng Yang,Qi Fan,Yuekun Yang,Wenbin Li,Feng Miao,Yang Gao

Main category: cs.CV

TL;DR: 提出RSHR-Bench,一个超高分辨率遥感视觉理解与推理基准,包含5,329张长边至少4,000像素的全场景图像,设计四种任务类型,通过对抗过滤减少语言先验依赖,揭示现有模型在超高分辨率场景下的性能差距。

  • Motivation: 现有遥感基准大多依赖低分辨率图像,部分高分辨率基准存在推理任务设计缺陷。研究发现纯文本LLM无需访问图像就能在遥感推理任务上取得与多模态视觉语言模型竞争的表现,表明当前基准与视觉理解评估意图存在严重不匹配。
  • Method: 从广泛使用的遥感语料库和无人机采集数据中收集5,329张超高分辨率全场景图像(长边≥4,000像素)。设计四种任务家族:多项选择VQA、开放式VQA、图像描述和单图像评估,涵盖9个感知类别和4种推理类型。采用强LLM进行对抗过滤,然后进行严格人工验证,减少语言先验依赖。
  • Result: 构建了3,864个VQA任务、3,913个图像描述任务和500个完全人工编写或验证的单图像评估VQA对。对开源、闭源和遥感专用VLM的评估显示,在超高分辨率场景下存在持续的性能差距。
  • Conclusion: RSHR-Bench为遥感视觉理解与推理提供了可靠的评估基准,揭示了现有多模态大语言模型在超高分辨率场景下的局限性,为未来模型开发提供了重要参考。

[45] EMMA: Concept Erasure Benchmark with Comprehensive Semantic Metrics and Diverse Categories

Lu Wei,Yuta Nakashima,Noa Garcia

Main category: cs.CV

TL;DR: EMMA是一个评估概念擦除技术的新基准,测试了五个关键维度的12个指标,发现现有方法在间接提示和视觉相似概念上表现不佳,某些方法甚至加剧了性别和种族偏见。

  • Motivation: 文本到图像生成的广泛应用引发了隐私、偏见和版权侵权等担忧。概念擦除技术提供了一种有前景的解决方案,但现有方法通常只在有限概念集上进行评估,依赖过于简单直接的提示,需要更全面的评估框架来测试这些方法是否真正从模型表示中移除了目标概念。
  • Method: 提出了EMMA基准,评估概念擦除技术的五个关键维度(包括12个指标):超越标准指标如图像质量和时间效率,测试在挑战性条件下的鲁棒性,包括间接描述、视觉相似的非目标概念、潜在的性别和种族偏见,提供对社会意识的方法行为分析。使用EMMA分析了五个概念擦除方法在五个领域(物体、名人、艺术风格、NSFW和版权)。
  • Result: 现有方法在间接提示(即当被擦除概念被间接引用时仍能生成)和视觉相似的非目标概念(即无法生成与被擦除概念相似的非目标概念)方面表现不佳,而某些方法相比原始模型甚至放大了性别和种族偏见。
  • Conclusion: EMMA基准揭示了现有概念擦除方法的局限性,特别是在处理间接提示和视觉相似概念方面的不足,以及可能加剧偏见的风险。这强调了需要更鲁棒和公平的概念擦除技术,以及全面评估框架的重要性。

[46] Rotterdam artery-vein segmentation (RAV) dataset

Jose Vargas Quiros,Bart Liefers,Karin van Garderen,Jeroen Vermeulen,Eyened Reading Center,Caroline Klaver

Main category: cs.CV

TL;DR: 该研究创建了一个包含高质量动静脉分割标注的彩色眼底图像数据集,支持眼科血管分析的机器学习算法开发与评估。

  • Motivation: 为机器学习算法在眼科血管分析中的开发与评估提供多样化、高质量的标注数据集,支持在真实世界图像质量和采集条件下的稳健模型训练。
  • Method: 从纵向鹿特丹研究中采样彩色眼底图像,使用自定义标注界面让标注者在不同图层上标注动脉、静脉和未知血管,从初始血管分割掩码开始,并使用连通分量可视化工具验证和校正连通性。
  • Result: 数据集包含1024×1024像素PNG图像,包括原始RGB眼底图像、对比度增强版本和RGB编码的动静脉掩码。图像质量差异大,包含通常被自动质量评估系统排除但具有有价值血管信息的挑战性样本。
  • Conclusion: 该数据集提供了丰富且异质的彩色眼底图像资源,支持在真实世界图像质量和采集条件变化下的机器学习模型稳健基准测试和训练。

[47] DESSERT: Diffusion-based Event-driven Single-frame Synthesis via Residual Training

Jiyun Kong,Jun-Hyuk Kim,Jong-Seok Lee

Main category: cs.CV

TL;DR: DESSERT:基于扩散模型的事件驱动单帧合成框架,通过残差训练实现更清晰、时间一致性的视频帧预测

  • Motivation: 传统视频帧预测在动态场景中因缺乏下一帧信息而存在预测误差。事件相机虽能高时间分辨率捕获亮度变化,但现有基于事件的视频帧预测方法通过光流和像素扭曲会引入空洞和模糊问题
  • Method: 提出DESSERT框架:1) 事件到残差对齐变分自编码器(ER-VAE)对齐事件帧与残差;2) 基于事件数据条件的扩散模型去噪残差潜在表示;3) 引入多样长度时间增强(DLT)提高鲁棒性
  • Result: 实验表明,该方法在事件重建、图像视频帧预测、事件视频帧预测和单边事件视频帧插值等任务上均优于现有方法,能生成更清晰、时间更一致的帧合成
  • Conclusion: DESSERT通过残差训练和扩散模型有效解决了事件视频帧预测中的空洞和模糊问题,实现了高质量的帧合成

[48] Democratizing Pathology Co-Pilots: An Open Pipeline and Dataset for Whole-Slide Vision-Language Modelling

Sander Moonemans,Sebastiaan Ram,Frédérique Meeuwsen,Carlijn Lems,Jeroen van der Laak,Geert Litjens,Francesco Ciompi

Main category: cs.CV

TL;DR: 提出了Polysome工具用于生成合成指令,创建了HISTAI-Instruct大规模全切片指令调优数据集,并训练了ANTONI-α视觉语言模型,在病理学WSI级VQA任务上优于MedGemma。

  • Motivation: 现有视觉语言模型在病理学应用中存在局限:要么只关注全切片图像中的小区域,要么仅提供静态切片级输出,或依赖非公开数据限制可复现性。同时,包含详细临床报告的WSI配对训练数据稀缺,阻碍了透明且可泛化的VLM发展。
  • Method: 1) 开发Polysome标准化工具用于合成指令生成;2) 将Polysome应用于公开HISTAI数据集,生成HISTAI-Instruct大规模全切片指令调优数据集(24,259张切片,超110万指令-响应对);3) 使用该数据集训练ANTONI-α视觉语言模型,支持视觉问答任务。
  • Result: ANTONI-α在组织识别、肿瘤检测和鉴别诊断等WSI级VQA任务上优于MedGemma。还比较了使用不同数据量训练的多个ANTONI-α变体性能。所有方法、数据和代码均已公开。
  • Conclusion: 通过Polysome工具和HISTAI-Instruct数据集解决了病理学VLM的数据稀缺和可复现性问题,ANTONI-α模型展示了在病理学辅助诊断中的潜力,为透明且可泛化的病理学VLM发展提供了重要基础。

[49] SynergyWarpNet: Attention-Guided Cooperative Warping for Neural Portrait Animation

Shihang Li,Zhiqiang Gong,Minming Ye,Yue Gao,Wen Yao

Main category: cs.CV

TL;DR: SynergyWarpNet:一种用于高保真说话头部合成的注意力引导协同变形框架,通过三阶段渐进式处理解决传统方法在运动传递和区域恢复方面的不足。

  • Motivation: 传统显式变形方法在准确运动传递和恢复缺失区域方面存在困难,而基于注意力的方法虽然有效但复杂度高且几何基础弱。需要一种能平衡结构对齐和视觉一致性的解决方案。
  • Method: 三阶段渐进式框架:1) 显式变形模块使用3D稠密光流进行粗空间对齐;2) 参考增强校正模块利用跨注意力机制从多张参考图像中语义补全遮挡或扭曲区域;3) 置信度引导融合模块通过学习的置信度图进行空间自适应融合。
  • Result: 在基准数据集上的综合评估展示了最先进的性能表现。
  • Conclusion: SynergyWarpNet通过协同变形框架有效解决了传统方法在肖像动画中的局限性,实现了高保真的说话头部合成。

[50] Multi-level distortion-aware deformable network for omnidirectional image super-resolution

Cuixin Yang,Rongkang Dong,Kin-Man Lam,Yuhang Zhang,Guoping Qiu

Main category: cs.CV

TL;DR: 提出MDDN网络用于全向图像超分辨率,通过多级变形感知机制扩展采样范围,有效处理ERP投影中的几何畸变

  • Motivation: 全向图像超分辨率中,ERP投影引入纬度相关的几何畸变(赤道区域畸变小,两极区域畸变严重),现有方法采样范围和特征提取能力有限,难以捕捉大范围的畸变模式
  • Method: 提出多级畸变感知变形网络(MDDN),特征提取器包含三个并行分支:变形注意力机制(膨胀率=1)和两个膨胀变形卷积(膨胀率2和3),扩展采样范围捕捉大范围畸变模式,通过多级特征融合模块自适应融合特征,并使用低秩分解降低计算成本
  • Result: 在公开数据集上的大量实验表明,MDDN优于现有最先进方法,证明了其在ODISR中的有效性和优越性
  • Conclusion: MDDN通过扩展采样范围和感受野,有效解决了ERP图像中的几何畸变问题,为全向图像超分辨率提供了有效的解决方案

[51] Beyond Semantic Features: Pixel-level Mapping for Generalized AI-Generated Image Detection

Chenming Zhou,Jiaan Wang,Yu Li,Lei Li,Juan Cao,Sheng Tang

Main category: cs.CV

TL;DR: 提出一种像素级映射预处理方法,通过打乱图像像素值分布来破坏检测器过度依赖的语义线索,迫使检测器关注更本质的高频生成痕迹,从而提升AI生成图像检测器的跨生成器泛化能力。

  • Motivation: 当前AI生成图像检测器存在泛化能力不足的问题,主要原因是它们过度拟合特定生成模型的语义线索,而非学习通用的生成痕迹,导致对未见生成模型生成的图像检测性能下降。
  • Method: 引入简单但有效的像素级映射预处理步骤,通过打乱图像的像素值分布来破坏检测器常利用的脆弱、非本质的语义模式,迫使检测器关注图像生成过程中更基础、更可泛化的高频痕迹。
  • Result: 在GAN和扩散模型生成器上的综合实验表明,该方法显著提升了最先进检测器的跨生成器性能。深入分析验证了破坏语义线索是提升泛化能力的关键假设。
  • Conclusion: 通过像素级映射预处理破坏语义线索,能够有效提升AI生成图像检测器的泛化能力,使其更关注通用的生成痕迹而非特定模型的语义模式,为解决检测器泛化问题提供了简单有效的解决方案。

[52] Towards Deeper Emotional Reflection: Crafting Affective Image Filters with Generative Priors

Peixuan Zhang,Shuchen Weng,Jiajun Tang,Si Li,Boxin Shi

Main category: cs.CV

TL;DR: 提出情感图像过滤(AIF)任务,将文本中的抽象情感转化为具体图像,并开发了基于多模态Transformer和扩散模型的解决方案。

  • Motivation: 社交媒体用户常通过图文结合表达情感,但现有方法难以将文本中的抽象情感有效转化为视觉上具体的情感表达,需要开发能够将文本情感反射到图像中的技术。
  • Method: 1. 提出AIF任务并构建相应数据集;2. 开发AIF-B模型,基于多模态Transformer架构;3. 提出AIF-D模型,作为AIF-B的扩展,利用预训练大规模扩散模型的生成先验实现更深层的情感反射。
  • Result: 定量和定性实验表明,AIF模型在内容一致性和情感保真度方面优于现有方法;广泛的用户研究表明,AIF模型在唤起特定情感方面显著更有效。
  • Conclusion: AIF模型在将文本情感转化为视觉表达方面具有重要价值和潜力,能够创建情感上引人注目的结果,为多模态情感计算提供了新的研究方向。

[53] RadImageNet-VQA: A Large-Scale CT and MRI Dataset for Radiologic Visual Question Answering

Léo Butsanets,Charles Corbière,Julien Khlaut,Pierre Manceron,Corentin Dancette

Main category: cs.CV

TL;DR: RadImageNet-VQA是一个大规模放射学视觉问答数据集,包含75万张CT/MRI图像和750万个问答对,涵盖异常检测、解剖识别和病理识别三大任务,旨在解决现有医学VQA数据集规模小、X射线主导、存在文本捷径等问题。

  • Motivation: 现有医学VQA数据集存在三个主要问题:1) 规模有限;2) 主要基于X射线图像或生物医学插图;3) 容易受到文本捷径(text-based shortcuts)的影响。这些限制阻碍了放射学VQA技术的发展,特别是对于CT和MRI等更复杂的成像模态。
  • Method: 构建了RadImageNet-VQA数据集,包含75万张CT和MRI图像,配以750万个专家标注的问答样本。数据集涵盖8个解剖区域和97种病理类别,支持开放式、封闭式和多项选择题三种问题类型。通过三个关键任务(异常检测、解剖识别、病理识别)进行系统评估。
  • Result: 实验表明,最先进的视觉语言模型在细粒度病理识别任务上表现不佳,特别是在开放式设置中,即使经过微调也难以达到理想效果。纯文本分析显示,没有图像输入时模型性能降至接近随机水平,证实数据集不存在语言捷径问题。
  • Conclusion: RadImageNet-VQA是一个大规模、高质量的放射学VQA数据集,填补了CT/MRI模态VQA研究的空白。数据集公开可用,为医学视觉语言模型的发展提供了重要基准,并揭示了当前模型在细粒度医学图像理解方面的局限性。

[54] Beyond Occlusion: In Search for Near Real-Time Explainability of CNN-Based Prostate Cancer Classification

Martin Krebs,Jan Obdržálek,Vít Musil,Tomáš Brázdil

Main category: cs.CV

TL;DR: 该研究为前列腺癌检测系统寻找比遮挡法更快的解释方法,通过建立评估框架,找到了一种能减少至少10倍解释时间且不影响质量的方法。

  • Motivation: 深度神经网络在癌症诊断等关键应用中需要提供可解释的结果,但常用的遮挡法计算时间长,阻碍了模型开发和与病理学家的交互。
  • Method: 首先建立解释方法的比较框架和评估指标,然后基于这些标准评估不同解释方法,最终选择替代遮挡法的方法。
  • Result: 找到了一种新的解释方法,将所需解释时间减少了至少10倍,且对输出质量没有负面影响。
  • Conclusion: 该方法加速了模型开发和调试,推动了AI辅助前列腺癌检测的临床应用,且提出的评估框架可应用于其他相关应用。

[55] AIFloodSense: A Global Aerial Imagery Dataset for Semantic Segmentation and Understanding of Flooded Environments

Georgios Simantiris,Konstantinos Bacharidis,Apostolos Papanikolaou,Petros Giannakakis,Costas Panagiotakis

Main category: cs.CV

TL;DR: AIFloodSense是一个包含470张高分辨率航拍图像的全球洪水数据集,涵盖64个国家230次洪水事件,支持图像分类、语义分割和视觉问答三种任务,旨在推动洪水检测AI工具的发展。

  • Motivation: 洪水检测对于灾害响应和风险评估至关重要,但现有数据集在地理范围和标注细节上有限,阻碍了鲁棒、通用计算机视觉方法的发展。
  • Method: 构建了一个全球多样化的航拍图像数据集(2022-2024年),包含470张高分辨率图像,覆盖64个国家230次洪水事件,支持三种任务:图像分类(环境类型、相机角度、大陆识别)、语义分割(洪水、天空、建筑物像素级标注)和视觉问答。
  • Result: 使用最先进的架构为所有任务建立了基准测试,展示了数据集的复杂性和在推进气候韧性AI工具方面的价值。
  • Conclusion: AIFloodSense填补了洪水分割数据集的空白,通过全球多样性和多任务支持,为开发鲁棒、通用的洪水检测AI方法提供了重要资源。

[56] Xiaomi MiMo-VL-Miloco Technical Report

Jiaze Li,Jingyang Chen,Yuxun Qu,Jianzhong Ju,Zhenbo Luo,Jian Luan,Shijie Xu,Zhenru Lin,Junyou Zhu,Boshen Xu,Wenhui Tan,Pei Fu

Main category: cs.CV

TL;DR: 小米开源了MiMo-VL-Miloco-7B视觉语言模型,专门针对智能家居场景,在家居场景理解和通用多模态推理上都表现优异。

  • Motivation: 开发专门针对智能家居环境的视觉语言模型,平衡专业化和通用性,支持现实世界智能家居应用的研究和部署。
  • Method: 基于MiMo-VL-7B骨干网络,采用两阶段训练流程:监督微调+基于Group Relative Policy Optimization的强化学习,结合链式思维监督和token预算感知推理。
  • Result: 在家居场景理解(手势识别等)和通用多模态推理(Video-MME、Video-MMMU等)基准测试中超越闭源和开源基线模型。
  • Conclusion: 针对家居场景的训练不仅提升了活动和手势理解能力,还改善了纯文本推理,模型权重和评估工具已开源供研究和部署使用。

[57] LangDriveCTRL: Natural Language Controllable Driving Scene Editing with Multi-modal Agents

Yun He,Francesco Pittaluga,Ziyu Jiang,Matthias Zwicker,Manmohan Chandraker,Zaid Tasneem

Main category: cs.CV

TL;DR: LangDriveCTRL是一个自然语言控制的框架,用于编辑真实世界驾驶视频以合成多样化的交通场景。它通过3D场景分解将视频表示为场景图,并使用智能体管道将用户指令转换为执行图,协调专门代理进行对象定位、行为编辑和轨迹审查,最后通过视频扩散工具进行渲染和精炼。

  • Motivation: 当前驾驶视频编辑方法在精细控制和真实感方面存在局限,难以通过自然语言指令同时编辑多个对象的行为。需要一种能够理解复杂语言指令并生成真实交通场景的框架。
  • Method: 1) 使用3D场景分解将驾驶视频表示为包含静态背景和动态对象的场景图;2) 采用智能体管道:Orchestrator将用户指令转换为执行图,协调三个专门代理:Object Grounding Agent建立文本描述与场景图中对象的对应关系,Behavior Editing Agent从语言指令生成多对象轨迹,Behavior Reviewer Agent迭代审查和优化轨迹;3) 编辑后的场景图经过渲染,再通过视频扩散工具处理伪影和视角变化。
  • Result: LangDriveCTRL在指令对齐方面比之前的最先进方法提高了近2倍,在结构保持、照片真实感和交通真实感方面表现优异。支持从单一自然语言指令进行对象节点编辑(移除、插入、替换)和多对象行为编辑。
  • Conclusion: LangDriveCTRL通过结合3D场景表示和智能体管道,实现了对真实世界驾驶视频的自然语言控制编辑,能够生成多样化且真实的交通场景,在多个评估指标上显著优于现有方法。

[58] MULTIAQUA: A multimodal maritime dataset and robust training strategies for multimodal semantic segmentation

Jon Muhovič,Janez Perš

Main category: cs.CV

TL;DR: 提出MULTIAQUA多模态海事数据集,包含RGB、热成像、红外、激光雷达等同步校准数据,用于训练在恶劣能见度条件下仍能可靠工作的多模态感知方法。

  • Motivation: 无人水面车辆在复杂视觉条件下(如恶劣天气、夜间)需要多模态信息来保证可靠感知,现有海事数据集缺乏多模态同步数据。
  • Method: 构建MULTIAQUA多模态海事数据集,包含多种传感器的同步校准标注数据;提出仅使用白天图像训练多模态方法的鲁棒训练方法。
  • Result: 在夜间测试集上评估多模态方法,提出的训练方法使模型在近乎完全黑暗条件下仍能保持可靠性能,显著简化数据采集和训练过程。
  • Conclusion: MULTIAQUA数据集和提出的训练方法能够有效提升无人水面车辆在恶劣能见度条件下的感知能力,为海事多模态感知研究提供重要资源。

[59] 3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework

Tobias Sautter,Jan-Niklas Dihlmann,Hendrik P. A. Lensch

Main category: cs.CV

TL;DR: 3D-RE-GEN:一个从单张图像重建可编辑3D纹理网格场景的框架,通过组合多个先进模型解决现有方法在物体分解、空间关系和背景缺失方面的问题。

  • Motivation: 当前3D场景生成方法虽然视觉效果好,但生成的表示形式不便于艺术家在视觉特效和游戏开发中修改。现有纹理网格场景重建方法存在物体分解错误、空间关系不准确和背景缺失等问题,无法满足艺术家的工作流程需求。
  • Method: 提出一个组合式框架,集成资产检测、重建和放置模型,将某些模型扩展到其原始领域之外。将遮挡物体获取视为图像编辑任务,使用生成模型在一致的照明和几何条件下进行场景级推理。采用新颖的4自由度可微分优化来对齐重建物体与估计的地平面。
  • Result: 在单图像3D场景重建中达到最先进性能,生成连贯、可修改的场景。通过精确相机恢复和空间优化的组合生成,提供全面的背景,为视觉特效和游戏中的真实照明和模拟任务奠定基础。
  • Conclusion: 3D-RE-GEN通过组合特定领域的最先进模型,解决了艺术家对可修改3D纹理网格场景的需求,在场景重建性能上达到最先进水平,为视觉特效和游戏开发提供了实用的解决方案。

[60] TwinSegNet: A Digital Twin-Enabled Federated Learning Framework for Brain Tumor Analysis

Almustapha A. Wakili,Adamu Hussaini,Abubakar A. Musa,Woosub Jung,Wei Yu

Main category: cs.CV

TL;DR: TwinSegNet:一种结合混合ViT-UNet模型与个性化数字孪生的隐私保护联邦学习框架,用于准确、实时的脑肿瘤分割,在异构MRI数据集上表现优异。

  • Motivation: 当前脑肿瘤分割的深度学习方法依赖集中式数据收集,存在隐私问题且在不同机构间泛化能力有限。需要一种既能保护隐私又能实现个性化、高性能分割的解决方案。
  • Method: 提出TwinSegNet框架,整合卷积编码器和Vision Transformer瓶颈层来捕捉局部和全局上下文。采用联邦学习架构,各机构在私有数据上微调全局模型形成个性化数字孪生。
  • Result: 在包括BraTS 2019-2021和自定义肿瘤数据集在内的九个异构MRI数据集上评估,TwinSegNet获得高达0.90%的Dice分数,敏感性和特异性超过90%,在非独立同分布客户端分布中表现出鲁棒性。
  • Conclusion: TwinSegNet在保护隐私的同时不牺牲性能,相比集中式模型如TumorVisNet表现优异,为多机构临床环境提供了可扩展的个性化分割方案,满足严格的数据保密要求。

[61] LumiCtrl : Learning Illuminant Prompts for Lighting Control in Personalized Text-to-Image Models

Muhammad Atif Butt,Kai Wang,Javier Vazquez-Corral,Joost Van De Weijer

Main category: cs.CV

TL;DR: LumiCtrl:一种基于单张物体图像学习光照提示的文本到图像模型个性化方法,通过物理光照增强、边缘引导提示解耦和掩码重建损失实现精确的光照控制。

  • Motivation: 当前文本到图像模型在创意图像生成方面取得显著进展,但缺乏对场景光照的精确控制,而光照是内容设计师操纵图像情绪、氛围和视觉美感的关键因素。
  • Method: LumiCtrl包含三个核心组件:1)基于物理的光照增强,沿普朗克轨迹创建标准光照下的微调变体;2)边缘引导提示解耦,使用冻结的ControlNet确保提示专注于光照而非结构;3)掩码重建损失,聚焦前景物体学习,同时允许背景进行上下文适应(上下文光照适应)。
  • Result: 与现有T2I定制方法相比,LumiCtrl在光照保真度、美学质量和场景一致性方面显著更好。人类偏好研究进一步证实用户对LumiCtrl输出有强烈偏好。
  • Conclusion: LumiCtrl通过创新的光照个性化方法,实现了对文本到图像模型光照的精确控制,为内容设计师提供了强大的光照操纵能力,提升了生成图像的情绪表达和视觉美感。

[62] MMLANDMARKS: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding

Oskar Kristoffersen,Alba R. Sánchez,Morten R. Hannemose,Anders B. Dahl,Dim P. Papadopoulos

Main category: cs.CV

TL;DR: MMLANDMARKS数据集:包含四种模态(航拍图像、地面图像、文本描述、地理坐标)的美国地标数据集,支持多种地理空间任务

  • Motivation: 当前地理空间基准数据集模态覆盖有限,限制了多模态融合方法的发展,需要统一框架整合所有相关模态
  • Method: 构建包含18,557个美国地标的多模态数据集,包含197k高分辨率航拍图像、329k地面图像、文本信息和地理坐标,所有模态间具有一一对应关系
  • Result: 数据集支持多种地理空间任务(跨视角检索、地理定位、文本到图像/GPS检索),简单CLIP基线模型在各项任务中表现出广泛泛化能力和竞争力
  • Conclusion: 多模态数据集对于实现广泛的地理空间理解至关重要,MMLANDMARKS为地理空间AI研究提供了统一基准

[63] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

Rang Li,Lei Li,Shuhuai Ren,Hao Tian,Shuhao Gu,Shicheng Li,Zihao Yue,Yudong Wang,Wenhan Ma,Zhe Yang,Jingyuan Ma,Zhifang Sui,Fuli Luo

Main category: cs.CV

TL;DR: GroundingME是一个新的视觉定位基准测试,系统评估多模态大语言模型在四个关键维度的能力:区分相似对象、理解空间关系、处理遮挡/微小对象、识别不可定位查询。测试显示现有模型存在显著能力差距,最佳模型准确率仅45.1%,拒绝任务表现尤其差。

  • Motivation: 当前多模态大语言模型在现有基准测试上表现良好,但无法确定它们是否真正具备人类水平的视觉语言理解能力,还是仅仅在简化数据集上进行模式匹配。现有基准测试未能捕捉现实世界的复杂性,如模糊引用和处理不可定位查询的能力。
  • Method: 提出GroundingME基准测试,系统挑战模型在四个维度:区分性(区分相似对象)、空间性(理解复杂关系描述)、有限性(处理遮挡/微小对象)、拒绝性(识别不可定位查询)。通过自动生成与人工验证相结合的方式,创建了1,005个具有挑战性的示例。
  • Result: 评估25个最先进的多模态大语言模型显示显著能力差距:最佳模型准确率仅45.1%,大多数模型在拒绝任务上得分为0%,倾向于幻觉对象而非承认其不存在。测试时缩放策略可将复杂定位能力提升2.9%,数据混合训练可将拒绝准确率从0%提升至27.9%。
  • Conclusion: GroundingME揭示了多模态大语言模型在视觉定位方面的严重局限性,特别是安全相关的拒绝能力缺失。该基准既可作为诊断工具揭示当前模型的不足,也可作为实现人类水平视觉定位的路线图。

[64] Validation of Diagnostic Artificial Intelligence Models for Prostate Pathology in a Middle Eastern Cohort

Peshawa J. Muhammad Ali,Navin Vincent,Saman S. Abdulla,Han N. Mohammed Fadhl,Anders Blilie,Kelvin Szolnoky,Julia Anna Mielcarz,Xiaoyi Ji,Nita Mulliqi,Abdulbasit K. Al-Talabani,Kimmo Kartasalo

Main category: cs.CV

TL;DR: 首次在中东地区(伊拉克库尔德斯坦)验证前列腺癌AI诊断系统,证明AI与病理学家一致性相当,紧凑扫描仪可实现低成本AI部署

  • Motivation: 当前病理AI系统主要在欧美人群验证,缺乏全球代表性。中东等代表性不足地区可能从AI支持中获益最大,需要验证研究以促进全球AI采用
  • Method: 收集伊拉克库尔德斯坦地区339份前列腺活检标本(185名患者,2013-2024年),评估任务特定端到端AI模型和两个基础模型,比较AI与病理学家一致性及三种扫描仪(Hamamatsu、Leica、Grundium)间一致性
  • Result: AI与病理学家分级一致性(Cohen's加权kappa 0.801)与病理学家间一致性(0.799)相似(p=0.9824)。所有AI模型和扫描仪对之间的跨扫描仪一致性高(加权kappa > 0.90),包括低成本紧凑扫描仪
  • Conclusion: AI模型在前列腺组织病理学评估中达到病理学家水平性能。紧凑扫描仪为非数字化环境验证研究提供途径,支持样本量有限实验室的成本效益AI采用。首个公开可用的中东数字病理数据集支持全球公平AI病理学研究

[65] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

Hoiyeong Jin,Hyojin Jang,Jeongho Kim,Junha Hyung,Kinam Kim,Dongjin Kim,Huijin Choi,Hyeonji Kim,Jaegul Choo

Main category: cs.CV

TL;DR: InsertAnywhere是一个视频对象插入框架,通过4D感知掩码生成和扩散模型实现几何一致的对象放置和外观真实的视频合成,在ROSE++数据集上训练,显著优于现有方法。

  • Motivation: 当前基于扩散的视频生成方法在可控视频编辑方面取得进展,但真实视频对象插入仍面临挑战,主要由于4D场景理解有限以及对遮挡和光照效果处理不足。
  • Method: 1. 4D感知掩码生成模块:重建场景几何,跨帧传播用户指定的对象放置,保持时间一致性和遮挡一致性。2. 扩展扩散视频生成模型:联合合成插入对象及其周围局部变化(如光照和阴影)。3. 使用ROSE++数据集进行监督训练:通过转换ROSE对象移除数据集构建光照感知合成数据集。
  • Result: 通过大量实验证明,该框架在多样化真实场景中产生几何合理且视觉一致的对象插入效果,显著优于现有研究和商业模型。
  • Conclusion: InsertAnywhere框架通过结合4D场景理解和扩散模型,成功解决了视频对象插入中的几何一致性和外观真实性问题,为可控视频编辑提供了有效解决方案。

[66] Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

Sairam VCR,Rishabh Lalla,Aveen Dayal,Tejal Kulkarni,Anuj Lalla,Vineeth N Balasubramanian,Muhammad Haris Khan

Main category: cs.CV

TL;DR: FALCON-SFOD是一个源自由目标检测框架,通过空间先验感知正则化和不平衡感知噪声鲁棒伪标签来增强域偏移下的对象聚焦特征表示,解决现有方法因域偏移导致背景杂波高激活和伪标签不可靠的问题。

  • Motivation: 当前源自由目标检测方法主要依赖Mean-Teacher自标注,但域偏移会削弱检测器的对象聚焦表示能力,导致背景杂波产生高置信度激活,从而产生不可靠的伪标签。现有工作主要关注伪标签的细化,而忽视了加强特征空间本身的需求。
  • Method: 提出FALCON-SFOD框架,包含两个互补组件:1) SPAR(空间先验感知正则化):利用视觉基础模型的泛化能力,通过OV-SAM生成的类别无关二元掩码来正则化检测器的特征空间,引导网络关注对象区域;2) IRPL(不平衡感知噪声鲁棒伪标签):在严重前景-背景不平衡下促进平衡和噪声容忍学习。
  • Result: 通过理论分析将这些设计与更紧密的定位和分类误差边界联系起来,FALCON-SFOD在SFOD基准测试中实现了具有竞争力的性能。
  • Conclusion: FALCON-SFOD通过增强对象聚焦的特征表示和噪声鲁棒的伪标签学习,有效解决了源自由目标检测中域偏移导致的特征退化问题,在多个基准测试中表现出色。

[67] PathBench-MIL: A Comprehensive AutoML and Benchmarking Framework for Multiple Instance Learning in Histopathology

Siemen Brussee,Pieter A. Valkema,Jurre A. J. Weijer,Thom Doeleman,Anne M. R. Schrader,Jesper Kers

Main category: cs.CV

TL;DR: PathBench-MIL是一个用于组织病理学中多实例学习的开源AutoML和基准测试框架,自动化MIL流程构建并提供模型和特征提取器的可复现基准测试。

  • Motivation: 组织病理学中的多实例学习缺乏标准化的自动化工具和基准测试框架,研究人员需要手动构建复杂的MIL流程,这限制了实验的可复现性和比较。
  • Method: 开发了一个端到端的AutoML框架,自动化MIL流程构建(包括预处理、特征提取和MIL聚合),集成可视化工具、统一配置系统和模块化扩展性。
  • Result: PathBench-MIL能够自动化构建MIL流程,对数十个MIL模型和特征提取器进行可复现的基准测试,支持快速实验和跨数据集任务的标准化。
  • Conclusion: PathBench-MIL为组织病理学MIL研究提供了强大的开源工具,促进了实验标准化、可复现性和方法比较,有助于加速该领域的研究进展。

[68] Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Jiaqi Tang,Jianmin Chen,Wei Wei,Xiaogang Xu,Runtao Liu,Xiangyu Wu,Qipeng Xie,Jiafei Wu,Lei Zhang,Qifeng Chen

Main category: cs.CV

TL;DR: Robust-R1:通过结构化推理链显式建模视觉退化,提升多模态大语言模型在真实世界视觉退化下的鲁棒性

  • Motivation: 现有鲁棒MLLM主要依赖隐式训练/适应,仅关注视觉编码器泛化,存在可解释性有限和孤立优化的问题。需要克服这些限制,提升模型在极端真实世界视觉退化下的性能。
  • Method: 提出Robust-R1框架:1)监督微调建立退化感知推理基础;2)奖励驱动对齐准确感知退化参数;3)动态推理深度缩放适应退化强度。构建包含11K样本的专业数据集,涵盖四个关键真实世界视觉处理阶段,每个样本标注结构化推理链。
  • Result: 在真实世界退化基准R-Bench上优于所有通用和鲁棒基线,在MMMB、MMStar和RealWorldQA上对多强度对抗退化保持优越的抗退化性能,达到最先进的鲁棒性。
  • Conclusion: 通过显式建模视觉退化的结构化推理方法,显著提升了多模态大语言模型在真实世界视觉退化场景下的鲁棒性和实用性。

[69] FLEG: Feed-Forward Language Embedded Gaussian Splatting from Any Views

Qijian Tian,Xin Tan,Jiayu Ying,Xuhong Wang,Yuan Xie,Lizhuang Ma

Main category: cs.CV

TL;DR: FLEG:无需3D标注的任意视角语言嵌入3D高斯重建网络

  • Motivation: 现有方法需要固定输入视角和大量3D训练数据,限制了语言嵌入3D高斯重建的实用性和语义丰富度
  • Method: 提出免3D标注训练框架,利用大规模视频数据;引入实例引导对比学习对齐2D语义与3D表示;采用几何语义分层稀疏化策略降低计算成本
  • Result: FLEG能从任意稀疏或密集视角高效重建语言嵌入3D高斯表示,在几何精度、外观保真度和语义对齐方面优于现有方法
  • Conclusion: 该方法实现了无需3D标注的任意视角语言嵌入3D重建,为大规模语义3D表示学习提供了有效解决方案

[70] ClothHMR: 3D Mesh Recovery of Humans in Diverse Clothing from Single Image

Yunqi Gao,Leyuan Liu,Yuhan Li,Changxin Gao,Yuanyuan Liu,Jingying Chen

Main category: cs.CV

TL;DR: 提出ClothHMR方法,通过服装裁剪和基础视觉模型对齐,解决多样化服装下的3D人体网格恢复问题

  • Motivation: 现有3D人体网格恢复方法主要针对紧身服装,在处理多样化服装(特别是宽松服装)时表现不佳,需要解决服装对体型和姿态估计的负面影响
  • Method: ClothHMR包含两个核心模块:服装裁剪模块(CT)通过身体语义估计和边缘预测使服装贴合身体轮廓;基础视觉模型网格恢复模块(MR)通过将3D网格中间表示与基础人体视觉模型推断结果持续对齐来优化初始参数
  • Result: ClothHMR在基准数据集和真实场景图像上显著优于现有最先进方法,能够准确恢复穿着多样化服装的人体3D网格,精确估计体型和姿态
  • Conclusion: ClothHMR通过服装裁剪和基础视觉模型对齐有效解决了多样化服装下的3D人体网格恢复问题,已开发出支持在线时尚和购物的Web应用,展示了实际应用价值

[71] G3Splat: Geometrically Consistent Generalizable Gaussian Splatting

Mehdi Hosseinzadeh,Shin-Fang Chng,Yi Xu,Simon Lucey,Ian Reid,Ravi Garg

Main category: cs.CV

TL;DR: G3Splat:通过几何先验增强3D高斯场景表示,解决仅依赖视图合成监督导致的几何模糊问题,在几何重建、姿态估计和新视图合成方面取得SOTA性能。

  • Motivation: 现有基于多视图结构预测网络的方法主要依赖视图合成监督来回归3D高斯参数,但仅凭视图合成损失无法恢复几何上有意义的splat表示,存在几何模糊问题。
  • Method: 提出G3Splat,在自监督姿态无关的通用splatting中,通过强制几何先验来获得几何一致的3D场景表示,解决学习3D高斯splat时的模糊性问题。
  • Result: 在RE10K数据集上训练,在几何一致重建、相对姿态估计和新视图合成方面达到最先进性能;在ScanNet上表现出强大的零样本泛化能力,在几何恢复和姿态估计方面显著优于先前工作。
  • Conclusion: 仅依赖视图合成监督不足以获得几何有意义的3D高斯splat表示,通过引入几何先验的G3Splat能够实现几何一致的场景表示,在多个任务上取得优异性能。

[72] A unified FLAIR hyperintensity segmentation model for various CNS tumor types and acquisition time points

Mathilde Gajda Faanes,David Bouget,Asgeir S. Jakola,Timothy R. Smith,Vasileios K. Kavouridis,Francesco Latini,Margret Jensdottir,Peter Milos,Henrietta Nittby Redebrandt,Rickard L. Sjöberg,Rupavathana Mahesparan,Lars Kjelsberg Pedersen,Ole Solheim,Ingerid Reinertsen

Main category: cs.CV

TL;DR: 使用注意力U-Net架构训练的统一FLAIR高信号分割模型,在5000多张不同肿瘤类型和采集时间点的MRI图像上表现优异,能够泛化到多种肿瘤类型和临床场景。

  • Motivation: FLAIR MRI扫描对脑肿瘤的诊断、治疗规划和监测至关重要。FLAIR高信号体积是评估肿瘤体积或周围水肿的重要指标,但临床上缺乏自动分割工具。需要开发一个能够处理不同肿瘤类型、采集时间点和医疗中心的统一分割模型。
  • Method: 使用约5000张来自不同中心、不同肿瘤类型和采集时间点的FLAIR图像,训练基于注意力U-Net架构的统一FLAIR高信号分割模型。与特定数据集模型进行性能比较,并在不同肿瘤类型、采集时间点以及BraTS数据集上进行验证。
  • Result: 统一模型在不同肿瘤类型上表现优异:术前脑膜瘤平均Dice得分88.65%,术前转移瘤80.08%,术前胶质瘤90.92%,术后胶质瘤84.60%(来自BraTS),术前低级别胶质瘤84.47%,术后低级别胶质瘤61.27%。统一模型在各自数据集上与特定数据集模型性能相当,且能够泛化到不同肿瘤类型和采集时间点。
  • Conclusion: 开发的统一FLAIR高信号分割模型在多种脑肿瘤类型和临床场景中表现良好,能够实现跨肿瘤类型和采集时间点的泛化,便于临床部署。该模型已集成到开源CNS肿瘤分析软件Raidionics中。

[73] RoomEditor++: A Parameter-Sharing Diffusion Architecture for High-Fidelity Furniture Synthesis

Qilong Wang,Xiaofan Ming,Zhenyi Lin,Jinwen Li,Dongwei Ren,Wangmeng Zuo,Qinghua Hu

Main category: cs.CV

TL;DR: RoomEditor++:基于扩散模型的虚拟家具合成系统,通过参数共享双扩散主干统一特征提取和修复,在RoomBench++基准上实现高保真家具合成

  • Motivation: 虚拟家具合成在家居设计和电商中应用前景广阔,但现有方法缺乏可复现基准,且图像合成方法难以在保持背景完整性的同时实现高保真家具合成
  • Method: 提出RoomEditor++:兼容U-Net和DiT的参数共享双扩散主干架构,统一参考图像和背景图像的特征提取与修复过程,通过参数共享机制实现对齐的特征表示
  • Result: 在RoomBench++基准(112,851训练对和1,832测试对)上验证,RoomEditor++在定量指标、定性评估和人类偏好研究中均优于现有方法,且无需任务特定微调即可泛化到未见室内场景和一般场景
  • Conclusion: RoomEditor++通过创新的参数共享双扩散架构解决了虚拟家具合成的关键挑战,提供了可复现的基准和高效解决方案,推动了该领域的发展

[74] 3One2: One-step Regression Plus One-step Diffusion for One-hot Modulation in Dual-path Video Snapshot Compressive Imaging

Ge Wang,Xing Liu,Xin Yuan

Main category: cs.CV

TL;DR: 提出首个针对one-hot调制的视频SCI重建算法,将重建任务转化为视频修复问题,结合回归初始化与扩散细化,并采用双光路硬件设计缓解空间退化。

  • Motivation: 传统随机二进制调制视频SCI存在时间混叠问题,one-hot调制可实现完美时间解耦但缺乏相应算法。需要开发专门算法充分利用one-hot调制潜力,解决混叠问题。
  • Method: 1) 利用one-hot解耦特性将重建转化为视频修复问题,设计与硬件压缩过程对齐的SDE前向过程;2) 提出回归初始化+扩散细化的混合框架;3) 硬件层面采用双光路设计,利用互补信息增强修复质量。
  • Result: 在合成数据集和真实场景实验中验证了方法的有效性,这是首个将扩散模型集成到视频SCI重建的工作。
  • Conclusion: 提出的算法成功解决了one-hot调制视频SCI的重建问题,通过混合框架和双光路设计有效缓解了时间混叠和空间退化,为视频SCI提供了新的解决方案。

[75] Medical Imaging AI Competitions Lack Fairness

Annika Reinke,Evangelia Christodoulou,Sthuthi Sadananda,A. Emre Kavur,Khrystyna Faryna,Daan Schouten,Bennett A. Landman,Carole Sudre,Olivier Colliot,Nick Heller,Sophie Loizillon,Martin Maška,Maëlys Solal,Arya Yazdan-Panah,Vilma Bozgo,Ömer Sümer,Siem de Jong,Sophie Fischer,Michal Kozubek,Tim Rädsch,Nadim Hammoud,Fruzsina Molnár-Gábor,Steven Hicks,Michael A. Riegler,Anindo Saha,Vajira Thambawita,Pal Halvorsen,Amelia Jiménez-Sánchez,Qingyang Yang,Veronika Cheplygina,Sabrina Bottazzi,Alexander Seitel,Spyridon Bakas,Alexandros Karargyris,Kiran Vaidhya Venkadesh,Bram van Ginneken,Lena Maier-Hein

Main category: cs.CV

TL;DR: 该研究系统评估了241个生物医学图像分析竞赛的公平性,发现当前基准测试存在数据集代表性不足、访问限制严格、文档不完整等问题,导致排行榜成功与临床相关性脱节。

  • Motivation: 医学影像AI基准竞赛对AI发展至关重要,但尚不清楚这些基准是否提供足够代表性、可访问和可重用的数据来支持具有临床意义的AI。研究旨在评估基准竞赛在数据代表性和FAIR原则合规性两个维度的公平性。
  • Method: 对241个生物医学图像分析竞赛(涵盖458个任务和19种成像模态)进行大规模系统研究,分析数据集的地理分布、模态类型、问题类型等代表性特征,并评估其访问条件、许可实践和文档完整性。
  • Result: 研究发现数据集组成存在显著偏见,包括地理位置、模态类型和问题类型的偏见,表明当前基准未能充分反映真实世界的临床多样性。尽管影响广泛,但挑战数据集常受限于限制性或模糊的访问条件、不一致的许可实践和不完整的文档,限制了可重复性和长期重用。
  • Conclusion: 当前基准测试生态系统存在根本性的公平性限制,排行榜成功与临床相关性之间存在脱节。需要改进数据集的代表性、可访问性和可重用性,以支持更具临床意义的AI发展。

[76] HeadHunt-VAD: Hunting Robust Anomaly-Sensitive Heads in MLLM for Tuning-Free Video Anomaly Detection

Zhaolin Cai,Fan Li,Ziwei Zheng,Haixia Bi,Lijun He

Main category: cs.CV

TL;DR: 提出HeadHunt-VAD方法,通过直接识别MLLM中异常敏感的注意力头,避免文本生成的信息损失,实现无需调优的视频异常检测。

  • Motivation: 传统VAD方法需要大量标注数据且计算成本高,而基于MLLM的无调优方法依赖文本输出,存在信息损失、正常性偏差和提示敏感性等问题,难以捕捉细微异常线索。
  • Method: 提出HeadHunt-VAD范式:1)鲁棒头识别模块,通过显著性和稳定性多标准分析评估所有注意力头,识别稀疏的专家头子集;2)将这些头的特征输入轻量级异常评分器和时序定位器,实现高效准确的异常检测。
  • Result: 在两个主要VAD基准测试中,HeadHunt-VAD在无调优方法中达到最先进性能,同时保持高效率,验证了MLLM头级探测的有效性。
  • Conclusion: MLLM中的头级探测是解决实际异常检测问题的强大实用方案,通过直接利用内部注意力机制而非文本输出,克服了现有方法的局限性。

[77] MGRegBench: A Novel Benchmark Dataset with Anatomical Landmarks for Mammography Image Registration

Svetlana Krasnova,Emiliya Starikova,Ilia Naletov,Andrey Krylov,Dmitry Sorokin

Main category: cs.CV

TL;DR: 提出了MGRegBench,首个大规模公开的乳腺X光配准基准数据集,包含5000+图像对和100个手动标注的解剖标志点,并评估了多种配准方法。

  • Motivation: 乳腺X光配准对疾病进展追踪和纵向变化监测至关重要,但缺乏公开数据集和标准化基准限制了该领域的发展,现有研究因使用私有数据和不一致的评估框架而难以比较。
  • Method: 创建了MGRegBench公开基准数据集,包含5000多个图像对,其中100个包含手动解剖标志点和分割掩码。在此基础上评估了多种配准方法,包括经典方法(ANTs)、基于学习的方法(VoxelMorph、TransMorph)、隐式神经表示(IDIR)、经典乳腺X光特定方法以及最新的深度学习方法MammoRegNet。
  • Result: MGRegBench成为最大的公开2D配准数据集之一,提供了首个在乳腺X光模态上对多种方法的公平比较,并进行了深度学习配准的深入分析。
  • Conclusion: 该研究通过提供首个大规模公开乳腺X光配准数据集和标准化基准,为公平比较和未来研究奠定了基础,有望推动该领域的发展。

[78] Semi-Supervised 3D Segmentation for Type-B Aortic Dissection with Slim UNETR

Denis Mikhailapov,Vladimir Berikov

Main category: cs.CV

TL;DR: 提出一种用于多输出分割模型的半监督学习方法,通过旋转和翻转增强,不依赖概率假设,适用于医学图像分割

  • Motivation: 医学图像分割需要大量高质量标注数据,但获取3D数据的准确标注耗时耗力。现有半监督学习方法对多输出模型研究不足,需要通用解决方案
  • Method: 基于旋转和翻转的数据增强方法,不假设模型响应的概率特性,适用于具有独立分支的多输出分割架构
  • Result: 方法在ImageTBDA数据集上验证,该数据集包含100个3D CTA图像,用于分割主动脉真腔、假腔和假腔血栓
  • Conclusion: 提出的半监督学习方法为多输出分割模型提供了通用解决方案,能有效利用未标注数据,降低标注成本

[79] Self-Supervised Weighted Image Guided Quantitative MRI Super-Resolution

Alireza Samadifardheris,Dirk H. J. Poot,Florian Wiesinger,Stefan Klein,Juan A. Hernandez-Tamames

Main category: cs.CV

TL;DR: 提出一种基于物理信息自监督学习的qMRI超分辨率框架,利用常规HR加权MRI作为引导,无需HR qMRI真值训练,显著缩短采集时间。

  • Motivation: 高分辨率定量MRI(qMRI)弛豫测量能提供客观组织表征,但长采集时间限制了临床使用。需要一种方法能在不依赖HR qMRI真值的情况下实现快速高质量qMRI成像。
  • Method: 提出物理信息自监督框架,将超分辨率建模为贝叶斯最大后验推断:1)通过前向信号模型将超分辨率qMRI图合成的HR图像与获取的加权MRI引导匹配;2)将获取的低分辨率qMRI与下采样预测匹配。使用深度神经网络学习超分辨率映射。
  • Result: 消融实验显示:T1加权图像主要增强T1图,T2加权图像改善T2图,组合引导能同时优化所有参数。在独立获取的体内数据上验证了跨qMRI序列泛化能力。1分钟采集的超分辨率图质量可与5分钟参考扫描媲美。
  • Conclusion: 该框架通过解耦训练与HR qMRI需求,利用常规临床图像增强快速qMRI采集,为定量弛豫测量融入临床工作流程提供了实用途径,仅需可接受的额外扫描时间。

[80] StereoMV2D: A Sparse Temporal Stereo-Enhanced Framework for Robust Multi-View 3D Object Detection

Di Wu,Feng Yang,Wenhui Zhao,Jinwen Yu,Pan Liao,Benlian Xu,Dingwen Zhang

Main category: cs.CV

TL;DR: StereoMV2D通过整合时间立体建模到2D检测引导的多视角3D检测器中,利用相邻帧间的跨时间视差增强深度感知,提升3D目标检测精度,同时保持计算效率。

  • Motivation: 多视角3D目标检测需要在检测精度和计算效率之间取得平衡。现有基于稀疏查询的方法虽然高效,但单帧2D检测的深度模糊性限制了3D查询生成的准确性。
  • Method: 提出StereoMV2D框架:1) 整合时间立体建模,利用相邻帧间同一目标的跨时间视差增强深度感知;2) 在2D感兴趣区域内高效计算;3) 引入动态置信度门控机制,通过学习帧间匹配矩阵的统计模式和外观一致性来评估时间立体线索的可靠性。
  • Result: 在nuScenes和Argoverse 2数据集上的大量实验表明,StereoMV2D实现了优越的检测性能,且没有显著增加计算开销。
  • Conclusion: StereoMV2D通过时间立体建模有效解决了单帧2D检测的深度模糊问题,在保持计算效率的同时显著提升了多视角3D目标检测的精度和鲁棒性。

[81] PathFLIP: Fine-grained Language-Image Pretraining for Versatile Computational Pathology

Fengchun Liu,Songhan Jiang,Linghan Cai,Ziyue Wang,Yongbing Zhang

Main category: cs.CV

TL;DR: PathFLIP是一个用于全切片图像(WSI)理解的新框架,通过将幻灯片级描述分解为区域级子描述,生成文本条件区域嵌入,实现精确的视觉-语言对齐,在多个病理学任务上优于现有方法且需要更少训练数据。

  • Motivation: 虽然视觉语言模型在计算病理学中取得进展,但全切片图像的千兆像素尺度和空间异质性给多模态理解带来挑战。现有对齐方法难以在数千个图像块中捕捉文本描述与视觉线索之间的细粒度对应关系,影响下游任务性能。
  • Method: PathFLIP将幻灯片级描述分解为区域级子描述,生成文本条件区域嵌入以实现精确的视觉-语言对齐。利用大语言模型(LLMs)适应不同的临床指令和诊断场景,支持多种任务范式。
  • Result: 在四个代表性基准测试中,PathFLIP优于现有的大规模病理学视觉语言模型,同时需要显著更少的训练数据。能够高效处理幻灯片级分类和检索、细粒度病变定位以及指令跟随等任务。
  • Conclusion: PathFLIP为临床实践中的细粒度、指令感知的全切片图像解释铺平了道路,通过精确的视觉-语言对齐和多范式适应能力,提升了病理学多模态理解的效果。

[82] Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs

Zhaolin Cai,Huiyu Duan,Zitong Xu,Fan Li,Zhi Liu,Jing Liu,Wei Shen,Xiongkuo Min,Guangtao Zhai

Main category: cs.CV

TL;DR: GRASP-HO将人-物交互检测从封闭集分类重构为开放词汇生成问题,通过轻量级认知引导模块将视觉证据注入冻结的多模态大语言模型,实现开放世界检测。

  • Motivation: 现有HOI检测方法基于封闭世界假设,只能识别预定义的小规模动词集,难以泛化到现实世界中未见或模糊的交互。多模态大语言模型具有丰富的世界知识,但直接微调计算成本过高,与现有HOI检测器脱节。
  • Method: 提出GRASP-HO框架:1) 提取混合交互表示;2) 设计轻量级可学习的认知引导模块,将细粒度视觉证据注入冻结的MLLM进行推理;3) 引入混合指导策略,结合语言建模损失和辅助分类损失,解决分类数据集与生成模型之间的监督不匹配问题。
  • Result: 实验表明,该方法在封闭集上达到最先进性能,并具有强大的零样本泛化能力,实现了判别式感知与生成式推理的统一范式。
  • Conclusion: GRASP-HO成功地将HOI检测从封闭集分类任务重构为开放词汇生成问题,通过轻量级引导模块有效桥接视觉感知与认知推理,为开放世界HOI检测提供了统一框架。

[83] Region-Constraint In-Context Generation for Instructional Video Editing

Zhongwei Zhang,Fuchen Long,Wei Li,Zhaofan Qiu,Wu Liu,Ting Yao,Tao Mei

Main category: cs.CV

TL;DR: ReCo提出了一种新的指令视频编辑范式,通过编辑区域与非编辑区域之间的约束建模,解决了现有方法编辑区域不准确和去噪过程中token干扰的问题。

  • Motivation: 现有基于指令的图像编辑方法在视频编辑中存在两个主要问题:1) 编辑区域不准确,2) 去噪过程中编辑区域与非编辑区域的token相互干扰。需要一种新的范式来解决这些问题。
  • Method: ReCo采用宽度拼接源视频和目标视频进行联合去噪,并引入两种正则化:1) 潜在正则化 - 增加编辑区域在源视频和目标视频之间的潜在差异,减少非编辑区域的差异;2) 注意力正则化 - 抑制编辑区域token对源视频对应token的注意力,减少干扰。同时还构建了包含50万对指令-视频的大规模数据集ReCo-Data。
  • Result: 在四个主要的基于指令的视频编辑任务上进行了广泛实验,证明了ReCo方法的优越性。
  • Conclusion: ReCo通过编辑区域与非编辑区域之间的约束建模,有效解决了指令视频编辑中的区域不准确和token干扰问题,为视频编辑提供了新的有效范式。

[84] Bitbox: Behavioral Imaging Toolbox for Computational Analysis of Behavior from Videos

Evangelos Sariyanidi,Gokul Nair,Lisa Yankowitz,Casey J. Zampella,Mohan Kashyap Pargi,Aashvi Manakiwala,Maya McNealis,John D. Herrington,Jeffrey Cohn,Robert T. Schultz,Birkan Tunc

Main category: cs.CV

TL;DR: Bitbox是一个开源工具包,旨在降低行为科学家使用AI视频分析的门槛,提供标准化接口提取高级行为测量指标。

  • Motivation: 尽管AI在视频行为分析方面取得重大进展,能够量化面部表情、头部运动、身体动作等行为,但现有方法主要面向工程人员,软件栈复杂,难以直接用于假设驱动的研究,导致行为科学家采用缓慢。
  • Method: 开发Bitbox开源工具包,遵循可重复性、模块化和可解释性原则,提供标准化接口,利用多种面部、头部和身体处理器从视频中提取高级行为测量指标。核心模块已在临床样本上测试验证,设计上支持轻松添加新测量指标。
  • Result: Bitbox为行为研究人员提供无需工程专业知识的稳健高级行为指标,同时为计算机科学家提供向最需要领域传播方法的实用机制,旨在弥合转化鸿沟。
  • Conclusion: Bitbox作为社区驱动项目,将加速计算行为测量在行为、临床和心理健康研究中的整合,通过方法开发者和领域科学家的贡献不断演进。

[85] Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation

Alexandre Personnic,Mihai Bâce

Main category: cs.CV

TL;DR: ST-Gaze:结合CNN、通道注意力和自注意力模块的视频注视估计模型,通过时空建模实现SOTA性能

  • Motivation: 视频注视估计需要同时捕捉空间和时间关系,现有方法性能受限于单帧特征表示和帧间关系建模
  • Method: 提出ST-Gaze模型,结合CNN骨干网络、专用通道注意力和自注意力模块,融合眼部和面部特征,将融合特征作为空间序列处理以捕获帧内上下文,然后通过时间传播建模帧间动态
  • Result: 在EVE数据集上实现最先进性能(无论是否进行个性化适应),消融研究表明保持和建模帧内空间上下文比过早空间池化更优越
  • Conclusion: ST-Gaze为使用普通摄像头实现更鲁棒的视频注视估计铺平了道路

[86] An Empirical Study of Sampling Hyperparameters in Diffusion-Based Super-Resolution

Yudhistira Arief Wibowo

Main category: cs.CV

TL;DR: 扩散模型在逆问题中表现优异,但条件化方法需要调参。研究发现条件化步长比扩散步数对性能影响更大,最佳步长范围为[2.0, 3.0]。

  • Motivation: 扩散模型在单图像超分辨率等逆问题中表现出强大潜力,但现有的条件化方法如DPS和MCG引入了需要仔细调优的超参数。本文旨在通过实证研究识别影响条件化性能的主要因素,简化调参过程。
  • Method: 在FFHQ超分辨率任务上进行实证消融研究,分析条件化步长和扩散步数对性能的影响,比较不同参数设置下的重建质量。
  • Result: 研究发现条件化步长对性能的影响显著大于扩散步数,在实验中步长范围[2.0, 3.0]能获得最佳整体性能。
  • Conclusion: 条件化步长是影响扩散模型条件化性能的关键因素,优化步长设置可以简化调参过程并提高重建质量。

[87] FlexAvatar: Flexible Large Reconstruction Model for Animatable Gaussian Head Avatars with Detailed Deformation

Cheng Peng,Zhuo Su,Liao Wang,Chen Guo,Zhaohu Li,Chengjiang Long,Zheng Lv,Jingxiang Sun,Chenyangguang Zhang,Yebin Liu

Main category: cs.CV

TL;DR: FlexAvatar是一个从单张或稀疏图像重建高保真3D头部头像的灵活大模型,无需相机姿态或表情标签,能生成详细的动态变形。

  • Motivation: 现有方法通常需要相机姿态或表情标签,且难以从单张或稀疏图像生成具有详细动态变形的高质量3D头像。需要一种更灵活、无需额外标注的方法来创建可动画的3D头像。
  • Method: 1. 使用基于transformer的重建模型,以结构化头部查询令牌作为规范锚点,聚合灵活数量的输入(无需相机姿态和表情标签)为鲁棒的规范3D表示。2. 引入轻量级UNet解码器,以UV空间位置图为条件,实时生成详细的表情相关变形。3. 采用数据分布调整策略平衡训练集中关键但罕见的表情(如皱纹、露齿)。4. 通过10秒的轻量级细化增强特定身份的细节。
  • Result: FlexAvatar在3D一致性和详细动态真实感方面优于先前方法,为可动画3D头像创建提供了实用解决方案,能处理各种表情并保持身份特异性。
  • Conclusion: FlexAvatar是一个灵活且高效的大规模重建模型,能够从单张或稀疏图像生成具有高质量动态变形的3D头部头像,无需相机姿态或表情标签,在实际应用中具有显著优势。

[88] SAVeD: A First-Person Social Media Video Dataset for ADAS-equipped vehicle Near-Miss and Crash Event Analyses

Shaoyan Zhai,Mohamed Abdel-Aty,Chenzhu Wang,Rodrigo Vena Garcia

Main category: cs.CV

TL;DR: SAVeD是一个从社交媒体收集的大规模视频数据集,专注于ADAS车辆相关事故、险情和系统失效,包含2119个第一人称视频,提供帧级标注,用于分析感知和决策失败。

  • Motivation: 现有数据集主要基于模拟环境或人类驾驶车辆数据,缺乏真实ADAS车辆在风险条件下的行为数据,这限制了ADAS安全关键研究的进展。
  • Method: 从公开社交媒体内容收集2119个第一人称视频,进行帧级标注;提出集成语义分割和单目深度估计的实时TTC计算框架;使用广义极值分布建模极端风险;建立VLLMs基准测试。
  • Result: 创建了包含碰撞、规避动作和系统失效标注的SAVeD数据集;提出的TTC计算框架能实时评估动态物体碰撞风险;GEV分布能有效量化不同道路类型的极端风险;VLLMs在SAVeD上通过领域适应显著提升性能。
  • Conclusion: SAVeD填补了ADAS车辆真实风险行为数据集的空白,为ADAS安全研究提供了重要资源,提出的分析框架和基准测试展示了数据集在风险评估和模型改进方面的实用价值。

[89] MambaMIL+: Modeling Long-Term Contextual Patterns for Gigapixel Whole Slide Image

Qian Zeng,Yihui Wang,Shu Yang,Yingxue Xu,Fengtao Zhou,Jiabo Ma,Dejia Cai,Zhengyu Zhang,Lijuan Qu,Yu Wang,Li Liang,Hao Chen

Main category: cs.CV

TL;DR: MambaMIL+:一种新的多示例学习框架,通过重叠扫描、选择性条纹位置编码和上下文令牌选择机制,在计算病理学中有效建模空间上下文和长程依赖关系

  • Motivation: 全切片图像(WSI)具有千兆像素分辨率且缺乏细粒度标注,传统深度学习模型难以处理。多示例学习(MIL)将WSI视为补丁级实例的包,但有效建模超长序列和丰富空间上下文仍然困难。Mamba虽然能线性扩展到数千个令牌,但在空间上下文建模和内存衰减方面存在限制。
  • Method: 提出MambaMIL+框架:1)重叠扫描:重构补丁序列以嵌入空间连续性和实例相关性;2)选择性条纹位置编码(S2PE):编码位置信息同时减轻固定扫描顺序的偏差;3)上下文令牌选择(CTS)机制:利用监督知识动态扩大上下文内存,实现稳定的长程建模。
  • Result: 在20个基准测试(诊断分类、分子预测和生存分析)上进行广泛实验,使用三种特征提取器(ResNet-50、PLIP和CONCH),MambaMIL+始终达到最先进的性能,展示了其在大规模计算病理学中的有效性和鲁棒性。
  • Conclusion: MambaMIL+成功解决了WSI分析中的空间上下文建模和内存衰减问题,为计算病理学提供了一个高效且强大的多示例学习框架,在多个任务中表现出卓越性能。

[90] AdaptPrompt: Parameter-Efficient Adaptation of VLMs for Generalizable Deepfake Detection

Yichen Jiang,Mohammed Talha Alam,Sohail Ahmed Khan,Duc-Tien Dang-Nguyen,Fakhri Karray

Main category: cs.CV

TL;DR: 提出Diff-Gen大规模扩散生成假图数据集和AdaptPrompt参数高效迁移学习框架,利用CLIP模型实现跨域深度伪造检测,在25个测试集上达到SOTA性能。

  • Motivation: 随着图像生成技术发展,高度逼真的合成媒体广泛传播,深度伪造检测面临严峻挑战。现有检测器在训练数据有限时泛化能力差,难以应对未见过的生成模型。
  • Method: 1) 构建Diff-Gen数据集:包含10万张扩散生成假图,捕捉广泛频谱伪影;2) 提出AdaptPrompt框架:冻结CLIP主干,联合学习任务特定文本提示和视觉适配器;3) 通过层剪枝增强高频伪影保留:修剪视觉编码器最后Transformer块。
  • Result: 在25个挑战性测试集(涵盖GAN、扩散模型和商业工具)上达到最新SOTA性能,在标准场景和跨域场景均表现优异。仅用320张图像即可实现少样本泛化,并能精确识别生成器架构。
  • Conclusion: 通过大规模扩散生成数据集和参数高效迁移学习框架,显著提升了深度伪造检测的泛化能力,为解决合成媒体检测的跨域挑战提供了有效方案。

[91] Pix2NPHM: Learning to Regress NPHM Reconstructions From a Single Image

Simon Giebenhain,Tobias Kirschstein,Liam Schoneveld,Davide Davoli,Zhe Chen,Matthias Nießner

Main category: cs.CV

TL;DR: Pix2NPHM:使用ViT直接从单张图像回归神经参数头部模型参数,实现高保真面部重建

  • Motivation: 神经参数头部模型(NPHMs)相比传统3DMM能提供更高几何细节,但难以从视觉输入中拟合。需要一种能直接从单张图像回归NPHM参数的方法。
  • Method: 提出Pix2NPHM,使用视觉Transformer直接回归NPHM参数。利用领域特定的ViT作为骨干网络,在几何预测任务上预训练。混合使用3D数据(超过10万NPHM配准)和2D视频数据(法线估计作为伪几何真值)进行训练。
  • Result: 实现了交互帧率下的3D重建,通过推理时优化可进一步提高几何保真度。在野外数据上获得了前所未有的面部重建质量。
  • Conclusion: Pix2NPHM能够从单张图像实现高质量、可扩展的面部重建,超越了现有方法,为神经参数模型的实际应用提供了有效解决方案。

[92] LiteGE: Lightweight Geodesic Embedding for Efficient Geodesics Computation and Non-Isometric Shape Correspondence

Yohanes Yudhi Adikusuma,Qixing Huang,Ying He

Main category: cs.CV

TL;DR: LiteGE:一种轻量级方法,通过PCA处理UDF样本构建紧凑的形状描述符,用于高效计算3D表面测地距离和形状匹配,相比现有方法大幅降低内存使用和推理时间。

  • Motivation: 现有基于学习的方法依赖大型3D骨干网络,导致高内存使用和延迟,限制了在交互式或资源受限环境中的应用。需要一种轻量级方法来高效计算测地距离。
  • Method: 通过PCA处理无符号距离场(UDF)样本构建紧凑的类别感知形状描述符,在信息丰富的体素上采样,避免使用高容量网络。支持稀疏点云输入(最少300个点)。
  • Result: 相比现有神经方法,内存使用和推理时间减少高达300倍;相比最先进的基于网格的方法,速度提升高达1000倍,同时在非等距形状对上保持可比精度。
  • Conclusion: LiteGE提供了一种高效、轻量级的测地距离计算方法,在资源受限环境中具有实用价值,并能通过测地距离与形状对应的内在关系实现快速准确的形状匹配。

[93] UrbanDIFF: A Denoising Diffusion Model for Spatial Gap Filling of Urban Land Surface Temperature Under Dense Cloud Cover

Arya Chavoshi,Hassan Dashtian,Naveen Sudharsan,Dev Niyogi

Main category: cs.CV

TL;DR: UrbanDIFF:基于去噪扩散模型的纯空间方法,用于重建云污染的城市场景地表温度图像,在85%云覆盖下仍能保持良好性能

  • Motivation: 卫星地表温度产品对城市热岛监测至关重要,但云污染经常遮挡观测数据。现有方法依赖多时相或多传感器数据,在持续云覆盖下不可靠;传统空间填补方法在大面积缺失时性能下降
  • Method: 提出UrbanDIFF纯空间去噪扩散模型,利用静态城市结构信息(建筑表面数据和数字高程模型)作为条件,在推理过程中通过监督像素引导细化步骤确保与无云像素的一致性
  • Result: 在20-85%云覆盖的合成云掩码实验中,UrbanDIFF始终优于插值基线,特别是在密集云遮挡下,在85%云覆盖时达到SSIM 0.89、RMSE 1.2K、R² 0.84,且随云密度增加性能下降更慢
  • Conclusion: UrbanDIFF展示了去噪扩散模型在空间地表温度重建中的有效性,为云污染下的连续城市热岛监测提供了可靠解决方案

[94] Long-Range depth estimation using learning based Hybrid Distortion Model for CCTV cameras

Ami Pandat,Punna Rajasekhar,G. Aravamuthan,Gopika Vinod,Rohit Shukla

Main category: cs.CV

TL;DR: 提出混合方法结合传统畸变模型与神经网络残差校正,显著提升长距离(达5公里)3D定位精度,适用于CCTV相机标定

  • Motivation: 现有立体相机3D定位方法受限于传统畸变模型,仅适用于几百米范围,无法满足长距离(如5公里)定位需求
  • Method: 混合方法:先扩展传统畸变模型加入高阶项,再用神经网络进行残差校正,结合传统模型稳定性和神经网络非线性建模能力
  • Result: 显著提升长距离定位性能,能估计达5公里距离的3D位置,坐标可转换至GIS地图可视化,实验验证了框架的鲁棒性和有效性
  • Conclusion: 提出的混合框架为长距离摄影测量应用提供实用解决方案,特别适用于CCTV相机标定,解决了传统畸变模型在长距离定位中的局限性

[95] Animate Any Character in Any World

Yitong Wang,Fangyun Wei,Hongyang Zhang,Bo Dai,Yan Lu

Main category: cs.CV

TL;DR: AniX:结合静态世界生成与可控实体模型,支持用户指定角色在3DGS场景中执行开放动作的自然语言驱动视频生成系统

  • Motivation: 现有世界模型存在局限性:静态世界生成模型只能构建3D环境而无主动代理;可控实体模型仅支持单一实体在不可控环境中执行有限动作。需要结合两者的优势,实现用户指定角色在真实场景中执行开放动作的能力。
  • Method: 基于预训练视频生成器,将问题构建为条件自回归视频生成任务。用户提供3DGS场景和角色,通过自然语言指导角色执行从基本移动到物体交互的多样化行为。训练策略显著增强运动动态,同时保持跨动作和角色的泛化能力。
  • Result: AniX能够合成时间一致、视觉保真的视频片段,在视觉质量、角色一致性、动作可控性和长时程连贯性等多个方面表现优异,支持角色在环境中自由探索并执行开放动作。
  • Conclusion: AniX成功结合了静态世界生成的真实性和可控实体模型的交互性,实现了用户指定角色在3D场景中执行自然语言指导的开放动作的能力,为交互式环境模拟提供了新的解决方案。

[96] Chorus: Multi-Teacher Pretraining for Holistic 3D Gaussian Scene Encoding

Yue Li,Qi Ma,Runyi Yang,Mengjiao Ma,Bin Ren,Nikola Popovic,Nicu Sebe,Theo Gevers,Luc Van Gool,Danda Pani Paudel,Martin R. Oswald

Main category: cs.CV

TL;DR: Chorus是一个多教师预训练框架,通过从2D基础模型蒸馏互补信号,学习整体前馈3D高斯溅射场景编码器,实现从高级语义到细粒度结构的特征提取。

  • Motivation: 虽然3DGS已成为高保真场景表示方法,但直接从其基元编码丰富、通用的特征仍然未被充分探索。本文旨在填补这一空白。
  • Method: 提出Chorus框架,使用共享3D编码器和教师特定投影器,从语言对齐、通用和对象感知的教师模型中学习,鼓励共享嵌入空间捕获从高级语义到细粒度结构的信号。
  • Result: 在开放词汇语义和实例分割、线性和解码器探测以及数据高效监督等任务上表现优异。仅使用高斯中心、颜色和估计法线作为输入的变体在点云基准测试中表现优于基线,同时使用训练场景减少39.9倍。
  • Conclusion: Chorus框架成功地将2D基础模型的丰富特征蒸馏到3DGS表示中,实现了强大的特征编码和跨域适应能力,为3D场景理解提供了有效的解决方案。

[97] ReX-MLE: The Autonomous Agent Benchmark for Medical Imaging Challenges

Roshan Kenia,Xiaoman Zhang,Pranav Rajpurkar

Main category: cs.CV

TL;DR: ReX-MLE是一个针对医学影像领域的自主编码代理基准测试,包含20个挑战任务,评估代理在真实计算和时间约束下管理完整端到端工作流程的能力。现有最先进代理表现严重不足,提交结果大多处于第0百分位。

  • Motivation: 现有基于大语言模型的自主编码代理在解决通用软件和机器学习任务方面表现良好,但在复杂、特定领域的科学问题上仍然无效。医学影像领域尤其具有挑战性,需要长训练周期、高维数据处理以及专门的预处理和验证流程,这些能力在现有代理基准测试中未能充分衡量。
  • Method: 引入ReX-MLE基准测试,包含20个从高影响力医学影像竞赛中提取的挑战任务,涵盖多种模态和任务类型。该基准评估完整的端到端工作流程,要求代理在真实计算和时间约束下独立管理数据预处理、模型训练和提交。评估了不同LLM后端(GPT-5、Gemini、Claude)的最先进代理(AIDE、ML-Master、R&D-Agent)。
  • Result: 观察到严重的性能差距:大多数提交结果与人类专家相比排名在第0百分位。失败主要源于领域知识和工程能力的限制。
  • Conclusion: ReX-MLE揭示了自主编码代理在医学影像领域的瓶颈,为开发领域感知的自主AI系统提供了基础。

[98] InfSplign: Inference-Time Spatial Alignment of Text-to-Image Diffusion Models

Sarah Rastegar,Violeta Chatalbasheva,Sieger Falkena,Anuj Singh,Yanbo Wang,Tejas Gokhale,Hamid Palangi,Hadi Jamali-Rad

Main category: cs.CV

TL;DR: InfSplign是一种无需训练的推理时方法,通过在每个去噪步骤中调整噪声来改善文本到图像扩散模型的空间对齐,利用交叉注意力图确保准确的物体放置和平衡的物体存在。

  • Motivation: 现有的文本到图像扩散模型在生成高质量图像时,往往无法准确捕捉文本提示中的空间关系,这主要源于两个因素:训练数据中缺乏细粒度的空间监督,以及文本嵌入无法编码空间语义。
  • Method: InfSplign是一种无需训练的推理时方法,通过在每个去噪步骤中调整噪声来改善空间对齐。该方法利用从骨干解码器提取的不同层级的交叉注意力图,设计了一个复合损失函数,在采样过程中强制实施准确的物体放置和平衡的物体存在。
  • Result: 在VISOR和T2I-CompBench上的综合评估表明,InfSplign建立了新的最先进水平,相比现有最强的推理时基线方法取得了显著的性能提升,甚至超过了基于微调的方法。
  • Conclusion: InfSplign是一种轻量级、即插即用的方法,兼容任何扩散骨干网络,能够有效解决文本到图像扩散模型中的空间对齐问题,无需额外训练即可显著提升空间关系捕捉能力。

[99] Simulation-Driven Deep Learning Framework for Raman Spectral Denoising Under Fluorescence-Dominant Conditions

Mengkun Chen,Sanidhya D. Tripathi,James W. Tunnell

Main category: cs.CV

TL;DR: 提出基于模拟驱动的拉曼光谱去噪框架,结合统计噪声模型与深度学习,在荧光主导条件下增强生物组织拉曼信号

  • Motivation: 拉曼光谱在生物医学诊断中具有非破坏性、无标记、高特异性等优势,但应用于生物组织时面临拉曼散射信号弱和荧光背景强的挑战,严重影响信号质量
  • Method: 建立统计噪声模型模拟主要噪声源,生成生物真实拉曼光谱数据集,训练级联深度神经网络同时抑制随机探测器噪声和荧光基线干扰
  • Result: 以人类皮肤光谱为验证案例,证明该方法能显著提升光谱质量,实现更快更准确的拉曼组织分析
  • Conclusion: 物理信息学习在改善光谱质量和促进拉曼组织分析方面具有巨大潜力

[100] Interpretable Plant Leaf Disease Detection Using Attention-Enhanced CNN

Balram Singh,Ram Prakash Sharma,Somnath Dey

Main category: cs.CV

TL;DR: 提出CBAM-VGG16模型,通过集成卷积块注意力模块提升植物叶片病害检测的准确性和可解释性,在多个数据集上达到98.87%的准确率。

  • Motivation: 植物病害对全球粮食安全构成重大威胁,需要准确且可解释的病害检测方法。现有方法在可解释性方面存在不足,限制了在农业诊断中的实际应用。
  • Method: 提出CBAM-VGG16模型,在VGG16的每个卷积阶段集成卷积块注意力模块(CBAM),增强特征提取和病害定位能力。使用CBAM注意力图、Grad-CAM、Grad-CAM++和层间相关性传播进行可解释性分析。
  • Result: 在五个不同的植物病害数据集上训练,模型优于现有技术,准确率高达98.87%,表现出强大的泛化能力。可解释性分析验证了模型关注正确的病害区域。
  • Conclusion: 该研究推动了可解释AI在农业诊断中的应用,为智慧农业提供了透明可靠的病害检测系统。代码已开源。

[101] InSPECT: Invariant Spectral Features Preservation of Diffusion Models

Baohua Yan,Qingyuan Liu,Jennifer Kava,Xuan Di

Main category: cs.CV

TL;DR: InSPECT是一种新型扩散模型,通过在前向和后向过程中保持不变谱特征,解决了传统扩散模型将数据完全扩散为白噪声导致的预测任务困难问题,实现了更好的生成质量、多样性和计算效率。

  • Motivation: 传统扩散模型将数据完全扩散为白噪声,导致预测任务极其困难且计算量大。为了解决这一限制,需要一种能够保持关键特征同时维持生成多样性的方法。
  • Method: 提出InSPECT(不变谱特征保持扩散模型),在前向和后向过程中保持不变的谱特征。前向过程结束时,傅里叶系数平滑收敛到指定的随机噪声,既保持特征又维持多样性和随机性。
  • Result: 在CIFAR-10、Celeb-A和LSUN数据集上,InSPECT相比DDPM在1万次迭代中平均降低FID 39.23%,提高IS 45.80%。模型表现出增强的视觉多样性、更快的收敛速度和更平滑的扩散过程。
  • Conclusion: 保持不变谱特征在扩散模型中具有显著优势:实现更优的生成质量和多样性,同时提高计算效率并加快收敛速度。这是首次在扩散模型中分析和保持不变谱特征的尝试。

[102] Visually Prompted Benchmarks Are Surprisingly Fragile

Haiwen Feng,Long Lian,Lisa Dunlap,Jiahao Shu,XuDong Wang,Renhao Wang,Trevor Darrell,Alane Suhr,Angjoo Kanazawa

Main category: cs.CV

TL;DR: 研究发现视觉语言模型在视觉提示基准测试中表现脆弱,视觉标记的微小变化(如颜色、大小)会显著影响模型排名,甚至能让较弱模型超越较强模型。

  • Motivation: 现有视觉语言模型评估主要关注模型从视觉内容中独立分析的能力,但研究发现现有基准测试中模型对视觉提示的细节过于敏感,导致评估结果不稳定。
  • Method: 评估了9个常用开源和闭源VLM在两个视觉提示任务上的表现,分析视觉标记设计、数据集大小等基准设置细节对模型性能和排名的影响,并创建了包含16种视觉标记变体的VPBench基准。
  • Result: 视觉标记的微小变化(如颜色从红变蓝、大小略微增加)能完全改变模型排名,甚至让开源InternVL3-8B超越更大的专有模型如Gemini 2.5 Pro。低级别推理选择(如JPEG压缩级别)也会影响排名。
  • Conclusion: 视觉提示基准测试比传统语义VLM评估更不稳定,需要更稳健的评估方法。为此创建了VPBench基准和工具来缓解这种不稳定性。

[103] Keypoint Counting Classifiers: Turning Vision Transformers into Self-Explainable Models Without Training

Kristoffer Wickstrøm,Teresa Dorszewski,Siyan Chen,Michael Kampffmeyer,Elisabeth Wetzer,Robert Jenssen

Main category: cs.CV

TL;DR: 提出一种无需重新训练即可将任何ViT模型转换为自解释模型的方法KCC,通过关键点匹配实现可视化决策过程

  • Motivation: 现有自解释模型需要复杂训练和特定架构,不实用;随着ViT基础模型发展,需要新方法提供透明度和可靠性
  • Method: 基于ViT自动识别图像间匹配关键点的能力,构建关键点计数分类器(KCC),将任何训练好的ViT模型转换为自解释模型而无需重新训练
  • Result: KCC相比现有基线方法改善了人机通信效果,评估显示其有效性
  • Conclusion: KCC是使ViT基础模型更透明可靠的重要一步,提供易于解释的可视化决策过程

[104] RadarGen: Automotive Radar Point Cloud Generation from Cameras

Tomer Borreda,Fangqiang Ding,Sanja Fidler,Shengyu Huang,Or Litany

Main category: cs.CV

TL;DR: RadarGen:基于扩散模型,从多视角相机图像生成逼真的汽车雷达点云

  • Motivation: 当前缺乏从视觉数据生成雷达点云的有效方法,限制了多模态生成式仿真的发展。需要一种能够利用现有视觉数据集和仿真框架的兼容性方案。
  • Method: 采用高效的图像潜在扩散模型,将雷达测量表示为鸟瞰图形式(包含空间结构、RCS和多普勒属性)。通过轻量级恢复步骤从生成的地图重建点云。利用预训练基础模型提取BEV对齐的深度、语义和运动线索来引导生成过程。
  • Result: 在大规模驾驶数据上的评估表明,RadarGen能够捕捉特征性雷达测量分布,并缩小了在真实数据上训练的感知模型的差距。
  • Conclusion: RadarGen为跨传感模态的统一生成式仿真迈出了一步,提供了一种可扩展的多模态生成仿真方向。

[105] Diffusion Forcing for Multi-Agent Interaction Sequence Modeling

Vongani H. Maluleke,Kie Horiuchi,Lea Wilken,Evonne Ng,Jitendra Malik,Angjoo Kanazawa

Main category: cs.CV

TL;DR: MAGNet是一个统一的自回归扩散框架,用于多智能体运动生成,支持灵活的条件设置和采样,能够处理从两人到多人的各种交互任务。

  • Motivation: 理解和生成多人交互对机器人和社会计算至关重要,但现有方法大多是任务特定的,难以泛化到灵活的多智能体生成。建模多人交互面临长时间跨度、强智能体间依赖和可变群体规模等挑战。
  • Method: MAGNet基于Diffusion Forcing框架,引入关键修改来显式建模自回归去噪过程中的智能体间耦合,实现跨智能体的协调。采用可扩展架构,对智能体数量不敏感,支持二元预测、伙伴修复和完整多智能体运动生成。
  • Result: 在二元基准测试中与专门方法表现相当,同时自然扩展到三人或更多人的多智能体场景。能够捕捉紧密同步活动(如舞蹈、拳击)和松散结构化的社交互动,并能自回归生成数百帧的超长序列。
  • Conclusion: MAGNet提供了一个统一的框架,通过灵活的条件设置和采样支持广泛的多智能体交互任务,解决了现有方法在泛化性和可扩展性方面的限制。

[106] Adversarial Robustness of Vision in Open Foundation Models

Jonathon Fox,William J Buchanan,Pavlos Papadopoulos

Main category: cs.CV

TL;DR: 论文研究LLaVA-1.5-13B和Meta Llama 3.2 Vision-8B-2两种视觉语言模型在对抗攻击下的鲁棒性,发现Llama 3.2 Vision虽然基准准确率较低,但在对抗攻击下性能下降更小。

  • Motivation: 随着深度学习发展,AI系统识别物体的模型变得难以理解,攻击者可能通过添加不可见元素来修改图像,从而混淆AI的识别能力。因此需要研究视觉语言模型在对抗攻击下的鲁棒性。
  • Method: 使用无目标PGD(投影梯度下降)攻击视觉输入模态,在VQA v2数据集子集上对LLaVA-1.5-13B和Meta Llama 3.2 Vision-8B-2进行实证评估,使用标准VQA准确率指标量化攻击效果。
  • Result: Llama 3.2 Vision虽然基准准确率较低,但在对抗攻击下性能下降幅度较小,特别是在较高扰动水平下表现更优。视觉模态是降低当代开放权重视觉语言模型性能的有效攻击向量。
  • Conclusion: 对抗鲁棒性不一定与标准基准性能直接相关,可能受到底层架构和训练因素的影响。视觉模态确实是降低视觉语言模型性能的可行攻击途径。

[107] Dexterous World Models

Byungjun Kim,Taeksoo Kim,Junyoung Lee,Hanbyul Joo

Main category: cs.CV

TL;DR: DWM是一个场景-动作条件视频扩散框架,用于生成灵巧人类动作如何引起静态3D场景动态变化的视频,实现交互式数字孪生。

  • Motivation: 当前3D重建创建的数字孪生大多是静态的,仅限于导航和视图合成,缺乏具身交互性。需要弥合静态3D场景与动态人类交互之间的差距。
  • Method: 基于场景-动作条件的视频扩散框架,输入静态3D场景渲染和第一人称手部运动序列,生成时空一致的交互视频。使用混合交互视频数据集训练,结合合成数据和真实世界视频。
  • Result: DWM能够生成真实且物理合理的人类-场景交互视频,如抓取、打开和移动物体,同时保持相机和场景一致性,实现了基于视频扩散的交互式数字孪生。
  • Conclusion: 该框架代表了基于视频扩散的交互式数字孪生的第一步,能够从第一人称动作进行具身模拟,为动态场景交互提供了新方法。

[108] Re-Depth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Ananta R. Bhattarai,Helge Rhodin

Main category: cs.CV

TL;DR: Re-Depth Anything:基于测试时自监督的框架,通过融合Depth Anything V2与大规模2D扩散模型先验,提升单目深度估计在域外数据的性能。

  • Motivation: 现有基础模型(如Depth Anything V2)在处理与训练分布差异较大的真实世界图像时表现不佳,存在域适应问题。需要一种方法在不依赖额外标注的情况下,利用生成模型的强大先验来弥合这一域差距。
  • Method: 提出测试时自监督框架,通过重新光照预测深度图并增强输入图像,利用形状从阴影(SfS)线索和分数蒸馏采样(SDS)替代传统光度重建。采用针对性优化策略:冻结编码器,仅更新中间嵌入并微调解码器,避免优化崩溃。
  • Result: 在多个基准测试中,Re-Depth Anything相比DA-V2在深度精度和真实感方面取得显著提升,展示了通过增强几何推理实现自监督的新途径。
  • Conclusion: 该方法成功融合了深度估计基础模型与2D扩散模型的先验,通过测试时自监督有效弥合了域差距,为几何推理的自监督学习开辟了新方向。

[109] Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

Shilong Zhang,He Zhang,Zhifei Zhang,Chongjian Ge,Shuchen Xue,Shaoteng Liu,Mengwei Ren,Soo Ye Kim,Yuqian Zhou,Qing Liu,Daniil Pakhomov,Kai Zhang,Zhe Lin,Ping Luo

Main category: cs.CV

TL;DR: 提出一种将判别式编码器特征适配为生成式潜空间的方法,通过语义-像素重建目标正则化潜空间,实现紧凑表示并提升图像生成和编辑性能

  • Motivation: 当前潜在扩散模型使用低层VAE潜空间主要优化像素重建,而将高层表示编码器特征用于生成存在两个问题:判别式特征空间缺乏紧凑正则化导致生成结构不准确,以及编码器像素重建能力弱阻碍细粒度几何纹理学习
  • Method: 提出系统性框架适配理解导向的编码器特征用于生成任务,引入语义-像素重建目标正则化潜空间,将语义信息和细粒度细节压缩到紧凑表示(96通道,16x16空间下采样),并基于此设计统一的文本到图像和图像编辑模型
  • Result: 相比各种特征空间,该方法实现了最先进的图像重建、更快的收敛速度,在文本到图像和编辑任务中均获得显著性能提升,验证了表示编码器可有效适配为鲁棒的生成组件
  • Conclusion: 通过语义-像素重建目标正则化潜空间,可以将判别式编码器特征成功适配为生成式潜空间,实现紧凑且语义丰富的表示,为视觉生成和理解统一提供了有效解决方案

cs.CL

[110] Are Vision Language Models Cross-Cultural Theory of Mind Reasoners?

Zabir Al Nazi,G M Shahariar,Abrar Hossain,Wei Peng

Main category: cs.CL

TL;DR: 该论文提出了CulturalToM-VQA基准,用于评估视觉语言模型在跨文化理论心智推理方面的能力,包含5095个基于文化线索的问题。

  • Motivation: 现有视觉语言模型越来越多地应用于社会性任务,但其跨文化理论心智推理能力尚未得到充分探索。理论心智是人类社会智能的基础,但对人工智能仍具挑战性。
  • Method: 通过VLM辅助的人机协作流程构建数据集:人类专家首先策划包含文化丰富图像,然后VLM生成结构化理论心智场景描述,最终细化为涵盖6种理论心智任务和4个复杂度级别的问答对。
  • Result: 创建了CulturalToM-VQA基准,包含5095个问题,涵盖仪式、服饰、手势、人际动态等文化线索,能够系统评估超越西方中心基准的理论心智推理能力。
  • Conclusion: 该研究填补了跨文化理论心智推理评估的空白,为评估视觉语言模型的社会智能提供了新工具,有助于推动更具文化包容性的人工智能发展。

eess.IV

[111] Colormap-Enhanced Vision Transformers for MRI-Based Multiclass (4-Class) Alzheimer's Disease Classification

Faisal Ahmed

Main category: eess.IV

TL;DR: 提出PseudoColorViT-Alz框架,通过伪彩色增强MRI图像并结合Vision Transformer,在阿尔茨海默病分类任务上达到99.79%准确率,超越现有方法。

  • Motivation: MRI在阿尔茨海默病早期诊断中至关重要,但传统深度学习模型难以有效提取MRI图像中细微的结构变化特征,需要更有效的特征提取方法。
  • Method: 提出PseudoColorViT-Alz框架:1) 对MRI图像进行伪彩色映射增强解剖纹理和对比度;2) 结合Vision Transformer的全局特征学习能力;3) 在OASIS-1数据集上进行四分类(非痴呆、中度痴呆、轻度痴呆、极轻度痴呆)。
  • Result: 在OASIS-1数据集上达到99.79%准确率和100% AUC,超越2024-2025年CNN和Siamese网络方法(准确率96.1%-99.68%),实现SOTA性能。
  • Conclusion: 伪彩色增强与Vision Transformer结合能显著提升MRI图像阿尔茨海默病分类性能,提供了一个鲁棒且可解释的框架,有望支持临床决策和早期检测。

[112] SkinGenBench: Generative Model and Preprocessing Effects for Synthetic Dermoscopic Augmentation in Melanoma Diagnosis

N. A. Adarsh Pritam,Jeba Shiney O,Sanyam Jain

Main category: eess.IV

TL;DR: SkinGenBench评估生成模型与预处理复杂度对皮肤镜图像合成及黑色素瘤诊断的影响,发现生成架构选择比预处理复杂度更重要,StyleGAN2-ADA优于DDPMs,数据增强显著提升诊断性能。

  • Motivation: 研究生成模型在医学图像合成中的应用,特别是探索预处理复杂度与生成模型选择如何影响合成皮肤镜图像的质量及其在下游黑色素瘤诊断任务中的效用。
  • Method: 使用HAM10000和MILK10K数据集的14,116张皮肤镜图像,评估StyleGAN2-ADA和DDPMs两种生成模型在基础几何增强和高级伪影去除预处理下的表现。通过FID、KID、IS等指标评估合成图像质量,并分析对五种下游分类器诊断性能的影响。
  • Result: StyleGAN2-ADA在图像保真度上优于DDPMs(FID~65.5,KID~0.05),生成架构选择比预处理复杂度影响更大。高级伪影去除仅带来边际改进。合成数据增强显著提升黑色素瘤检测性能,F1分数提升8-15%,ViT-B/16达到F1~0.88和ROC-AUC~0.98。
  • Conclusion: 生成模型架构选择对合成皮肤镜图像的质量和诊断效用比预处理复杂度更重要;合成数据增强能显著改善黑色素瘤诊断性能;高级预处理可能抑制临床相关纹理特征。

[113] Breast Cancer Neoadjuvant Chemotherapy Treatment Response Prediction Using Aligned Longitudinal MRI and Clinical Data

Rahul Ravi,Ruizhe Li,Tarek Abdelfatah,Stephen Chan,Xin Chen

Main category: eess.IV

TL;DR: 该研究开发了基于纵向CE-MRI和临床数据的机器学习模型,用于预测乳腺癌患者新辅助化疗后的病理完全缓解和5年无复发生存状态,通过图像配准方法显著提升了预测性能。

  • Motivation: 准确预测乳腺癌患者对新辅助化疗的治疗反应对于个性化治疗决策至关重要。传统方法在利用纵向影像数据监测肿瘤变化方面存在局限,需要开发更有效的预测模型。
  • Method: 提出包含肿瘤分割、图像配准、特征提取和预测建模的完整框架。使用图像配准方法在不同时间点从原始肿瘤位置提取可比较的特征,监测NACT过程中的肿瘤内变化。比较了四种特征提取器(一种放射组学,三种深度学习)与三种特征选择方法和四种机器学习模型的组合。
  • Result: 图像配准方法显著提升了预测模型性能。在PCR和RFS分类任务中,基于放射组学特征训练的Logistic回归模型表现最佳:PCR分类AUC为0.88,准确率0.85;RFS分类AUC为0.78,准确率0.72。
  • Conclusion: 图像配准方法在纵向特征学习方面显著提升了PCR和RFS预测性能。放射组学特征提取器比预训练的深度学习特征提取器更有效,具有更高的性能和更好的可解释性。

[114] MedNeXt-v2: Scaling 3D ConvNeXts for Large-Scale Supervised Representation Learning in Medical Image Segmentation

Saikat Roy,Yannick Kirchhoff,Constantin Ulrich,Maximillian Rokuss,Tassilo Wald,Fabian Isensee,Klaus Maier-Hein

Main category: eess.IV

TL;DR: MedNeXt-v2:用于3D医学图像分割的复合缩放3D ConvNeXt架构,通过改进的微架构和数据缩放实现SOTA性能

  • Motivation: 现有大规模监督预训练主要关注增加数据集规模,但忽视了骨干网络是否在规模上成为有效的表示学习器。本文旨在填补这一空白,重新审视基于ConvNeXt的架构用于体积分割。
  • Method: 1) 通过全面的骨干网络基准测试发现现有架构的不足;2) 引入MedNeXt-v2,采用3D全局响应归一化模块,通过深度、宽度和上下文缩放改进架构;3) 在18k CT体积上进行预训练
  • Result: 在六个具有挑战性的CT和MR基准测试(144个结构)上微调后实现SOTA性能,优于七个公开发布的预训练模型。发现:更强骨干在相似数据上表现更好,表示缩放对病理分割特别有益,模态特定预训练在全微调后优势可忽略
  • Conclusion: MedNeXt-v2被确立为3D医学图像分割中大规模监督表示学习的强大骨干网络,代码和预训练模型已在官方nnUNet仓库中开源

cs.RO

[115] Adaptive Covariance and Quaternion-Focused Hybrid Error-State EKF/UKF for Visual-Inertial Odometry

Ufuk Asil,Efendi Nasibov

Main category: cs.RO

TL;DR: 提出一种混合视觉惯性里程计方法,结合误差状态EKF和UKF,通过动态传感器置信度评估提升无人机在复杂环境下的位姿估计性能。

  • Motivation: 无人机在复杂环境中进行位姿估计时面临环境挑战和传感器可靠性变化的问题,需要一种既能保持计算效率又能保证估计精度的方法。
  • Method: 采用松散耦合传感器融合架构,提出混合四元数误差状态EKF/UKF方法:先用ESKF传播完整状态,再用SUKF专门优化姿态估计。通过图像熵、强度变化、运动模糊等指标动态评估视觉测量可靠性,调整测量噪声协方差。
  • Result: 在EuRoC MAV数据集上测试显示:在挑战性场景中位置精度平均提升49%,旋转精度比ESKF方法平均提升57%,计算成本比完整SUKF实现降低约48%的同时保持可比精度。
  • Conclusion: 该方法在计算效率和估计精度之间取得了有效平衡,显著提升了无人机在传感器可靠性变化的复杂环境中的位姿估计性能。

cs.CR

[116] MAD-OOD: A Deep Learning Cluster-Driven Framework for an Out-of-Distribution Malware Detection and Classification

Tosin Ige,Christopher Kiekintveld,Aritran Piplai,Asif Rahman,Olukunle Kolade,Sasidhar Kunapuli

Main category: cs.CR

TL;DR: MADOOD是一个两阶段、基于聚类的深度学习框架,用于恶意软件OOD检测和分类,通过高斯判别分析和Z分数距离分析实现无需OOD训练数据的鲁棒检测。

  • Motivation: 现有恶意软件检测方法大多基于封闭世界假设,无法充分建模多态和变形恶意软件带来的类内变异,导致在面对未见恶意软件家族时性能下降。
  • Method: 两阶段框架:第一阶段使用高斯判别分析建模恶意软件家族嵌入,通过类条件球形决策边界和Z分数距离分析识别OOD样本;第二阶段集成聚类预测、精炼嵌入和监督分类器输出提升分类精度。
  • Result: 在包含25个已知家族和多个新型OOD变体的基准数据集上,MADOOD显著优于现有OOD检测方法,在未见恶意软件家族上达到最高0.911的AUC。
  • Conclusion: 该框架为现实网络安全环境中的恶意软件检测和异常识别提供了可扩展、可解释且统计原理严谨的解决方案。