Skip to content
每日arXiv - 2025年10月2日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Hybrid Deep Learning for Hyperspectral Single Image Super-Resolution

Usman Muhammad,Jorma Laaksonen

Main category: cs.CV

TL;DR: 提出SSUF模块和空间-光谱梯度损失函数,用于提升高光谱单图像超分辨率任务中空间细节恢复和光谱保真度的性能。

  • Motivation: 传统深度学习模型在高光谱单图像超分辨率任务中难以同时恢复精细空间细节和保持宽波长范围内的光谱保真度,限制了性能表现。
  • Method: 提出光谱-空间解混融合(SSUF)模块,结合光谱解混与光谱-空间特征提取,指导基于ResNet的CNN进行改进重建;同时设计空间-光谱梯度损失函数,整合MSE与空间和光谱梯度分量。
  • Result: 在三个公共遥感高光谱数据集上的实验表明,所提出的混合深度学习模型在降低模型复杂度的同时实现了有竞争力的性能。
  • Conclusion: SSUF模块和空间-光谱梯度损失函数的结合有效提升了高光谱图像超分辨率的空间分辨率和光谱完整性,同时保持了较低的模型复杂度。

[2] Review of Hallucination Understanding in Large Language and Vision Models

Zhengyi Ho,Siyuan Liang,Dacheng Tao

Main category: cs.CV

TL;DR: 本文提出了一个统一的多层次框架来表征图像和文本幻觉,通过任务-模态交织方法将幻觉与模型生命周期中的特定机制联系起来,揭示了幻觉源于数据分布和继承偏见的可预测模式。

  • Motivation: 大语言和视觉模型在现实应用中的广泛采用使得解决幻觉问题变得紧迫,这些错误可能在部署过程中传播错误信息,造成财务和运营损害。目前对幻觉的理解仍不完整且碎片化,缺乏连贯理解导致解决方案只能缓解表面症状而非根本原因。
  • Method: 提出统一的多层次框架来表征图像和文本幻觉,采用任务-模态交织方法将幻觉与模型生命周期中的特定机制联系起来。
  • Result: 调查发现幻觉通常源于数据分布的可预测模式和继承偏见,为开发更稳健有效的解决方案奠定了基础。
  • Conclusion: 通过深化对幻觉的理解,本调查为在现实世界生成AI系统中开发更稳健有效的幻觉解决方案提供了基础。

[3] On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Jianing Guo,Zhenhong Wu,Chang Tu,Yiyao Ma,Xiangqi Kong,Zhiqian Liu,Jiaming Ji,Shuning Zhang,Yuanpei Chen,Kai Chen,Xianglong Liu,Qi Dou,Yaodong Yang,Huijie Zhao,Weifeng Lv,Simin Li

Main category: cs.CV

TL;DR: 本文提出了RobustVLA方法,针对视觉-语言-动作模型的多模态扰动鲁棒性问题,通过输出鲁棒性优化和输入鲁棒性增强,在17种扰动下显著提升了模型性能。

  • Motivation: 现有VLA模型主要关注简单的视觉扰动,忽略了动作、指令、环境和观察等多模态扰动,导致在真实世界部署时鲁棒性不足。
  • Method: 提出RobustVLA方法:输出鲁棒性通过离线鲁棒优化对抗最坏情况动作噪声;输入鲁棒性通过保持任务语义一致的输入变化来增强动作一致性;使用多臂老虎机框架自动识别最有害的噪声。
  • Result: 在LIBERO基准测试中,相比基线方法,在pi0骨干上获得12.6%绝对提升,在OpenVLA骨干上获得10.4%提升,推理速度比现有视觉鲁棒VLA快50.6倍,在混合扰动下提升10.4%。在真实FR5机器人上,四模态扰动下获得65.6%绝对提升。
  • Conclusion: RobustVLA有效解决了VLA模型的多模态鲁棒性问题,在多种扰动场景下均表现出显著性能提升,特别适用于真实机器人部署场景。

[4] Uncovering Intrinsic Capabilities: A Paradigm for Data Curation in Vision-Language Models

Junjie Li,Ziao Wang,Jianghong Ma,Xiaofeng Zhang

Main category: cs.CV

TL;DR: CADC框架通过无监督发现内在能力、基于影响力估计的数据归因、以及平衡选择和阶段排序的课程设计,将指令调优从黑盒过程转变为可控的能力驱动过程,仅用5%数据就能超越全数据训练效果。

  • Motivation: 当前视觉语言模型的指令调优存在困难,减少训练数据预算通常会导致性能回归,因为启发式策略将模型视为黑盒,忽视了控制学习的内在能力。
  • Method: 提出能力归因数据筛选框架,包括:无监督地从基于梯度的学习轨迹中发现内在能力;通过影响力估计将训练数据归因到这些能力;通过平衡选择和阶段排序来设计能力感知的课程。
  • Result: 仅使用原始数据5%的情况下,在多模态基准测试中超越了全数据训练的效果。
  • Conclusion: 内在能力是模型学习的基本构建块,CADC为指令数据筛选建立了原则性范式。

[5] Culture In a Frame: C3B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Yuchen Song,Andong Chen,Wenxin Zhu,Kehai Chen,Xuefeng Bai,Muyun Yang,Tiejun Zhao

Main category: cs.CV

TL;DR: 提出了C³B基准测试,用于评估多模态大语言模型的文化意识能力,包含2000多张图像和18000多个问答对,涵盖三个难度递增的任务。

  • Motivation: 现有基准测试在任务设计上缺乏难度递进,缺少跨语言任务,且使用单一文化的真实图像,对MLLMs来说相对容易。
  • Method: 构建C³B基准测试,包含三个难度递增的任务:基本视觉识别、文化冲突理解、文化内容生成,涵盖多文化、多任务和多语言。
  • Result: 评估了11个开源MLLMs,发现它们与人类表现存在显著性能差距,表明C³B对当前MLLMs构成重大挑战。
  • Conclusion: C³B基准测试揭示了当前MLLMs文化意识能力的不足,鼓励未来研究提升这方面的能力。

[6] Beyond the Prompt: Gender Bias in Text-to-Image Models, with a Case Study on Hospital Professions

Franck Vandewiele,Remi Synave,Samuel Delepoulle,Remi Cozot

Main category: cs.CV

TL;DR: 该研究分析了6个开源文本到图像模型中的性别偏见,发现所有模型都存在系统性的职业刻板印象,如护士总是女性、外科医生主要是男性。不同模型表现各异,提示词修饰语也会显著影响性别平衡。

  • Motivation: 文本到图像模型在专业、教育和创意领域应用日益广泛,但其输出常常嵌入和放大社会偏见。研究旨在系统调查这些模型中的性别表征问题。
  • Method: 使用6个先进开源模型,针对5个医院相关职业和5种肖像修饰语组合生成图像,每个组合生成100张图片进行分析。
  • Result: 所有模型都表现出系统性职业刻板印象:护士总是女性,外科医生主要是男性。不同模型存在差异:Qwen-Image和SDXL强制男性主导,FLUX.1-dev偏向女性,其他模型也有不同程度偏见。提示词修饰语显著影响性别平衡。
  • Conclusion: 文本到图像模型中的性别偏见是系统性和模型特定的。提示词措辞在塑造人口统计结果中起关键作用,需要偏见感知设计、平衡默认设置和用户指导来防止职业刻板印象的强化。

[7] Reinforcement Learning-Based Prompt Template Stealing for Text-to-Image Models

Xiaotian Zou

Main category: cs.CV

TL;DR: RLStealer是一个基于强化学习的提示词反演框架,可以从少量示例图像中恢复出提示词模板,以极低成本窃取商业提示词。

  • Motivation: 随着多模态大语言模型的发展,提示词交易市场兴起,但提示词本身存在被窃取的安全风险,目前这一问题尚未得到充分研究。
  • Method: 将模板窃取视为序列决策问题,使用基于相似度的反馈信号作为奖励函数,通过强化学习有效探索提示词空间。
  • Result: 在公开基准测试中达到最先进性能,将攻击总成本降至现有基线的13%以下,能有效泛化到不同图像风格以窃取未见过的提示词模板。
  • Conclusion: 研究揭示了提示词交易中存在的严重安全威胁,为新兴MLLMs市场制定保护标准奠定了基础。

[8] Explanation-Driven Counterfactual Testing for Faithfulness in Vision-Language Model Explanations

Sihao Ding,Santosh Vasa,Aditi Ramadwar

Main category: cs.CV

TL;DR: 提出了EDCT方法,通过将视觉语言模型生成的解释作为可证伪假设,自动生成反事实图像并评估模型预测的一致性,以检测解释的忠实性差距。

  • Motivation: 视觉语言模型生成的解释听起来合理但可能不反映真实的因果因素,这种合理性与忠实性之间的不匹配存在技术和治理风险。
  • Method: EDCT方法包括:获取模型答案和解释、将解释解析为可测试的视觉概念、通过生成修复生成针对性反事实编辑、使用LLM辅助分析计算反事实一致性分数。
  • Result: 在120个OK-VQA示例和多个VLM模型上,EDCT发现了显著的忠实性差距,并提供了监管对齐的审计证据,显示引用的概念在因果测试中失败。
  • Conclusion: EDCT是一种有效的自动验证程序,能够检测视觉语言模型解释的忠实性问题,为模型治理提供重要工具。

[9] HiDe: Rethinking The Zoom-IN method in High Resolution MLLMs via Hierarchical Decoupling

Xianjie Liu,Yiman Hu,Yixiong Zou,Liang Wu,Jian Xu,Bo Zheng

Main category: cs.CV

TL;DR: 提出了HiDe框架,通过Token-wise Attention Decoupling和Layout-Preserving Decoupling解决MLLMs在高分辨率图像中因复杂背景干扰导致的性能下降问题,无需训练即可显著提升性能。

  • Motivation: 现有方法认为MLLMs在高分辨率图像中表现不佳是因为感知限制和小物体识别困难,但本文分析发现主要问题其实是复杂背景干扰。
  • Method: 使用Token-wise Attention Decoupling解耦问题token并识别关键信息token,然后通过Layout-Preserving Decoupling从背景中解耦目标区域并重建紧凑表示。
  • Result: 在V*Bench、HRBench4K和HRBench8K上达到新的SOTA,将Qwen2.5-VL 7B和InternVL3 8B分别提升至92.1%和91.6%,比之前无需训练的方法节省75%内存。
  • Conclusion: HiDe框架有效解决了MLLMs在高分辨率图像中的背景干扰问题,无需训练即可显著提升性能并减少内存使用。

[10] FSDENet: A Frequency and Spatial Domains based Detail Enhancement Network for Remote Sensing Semantic Segmentation

Jiahao Fu,Yinfeng Yu,Liejun Wang

Main category: cs.CV

TL;DR: 提出了FSDENet网络,通过结合空间域和频域信息来增强遥感图像分割的细节处理能力,特别是在边界区域和灰度变化区域。

  • Motivation: 为了解决遥感图像分割中由灰度变化(如阴影和低对比度区域)引起的语义边缘模糊问题,需要充分利用空间信息。
  • Method: 使用空间处理方法提取多尺度空间特征和细粒度语义细节,通过FFT整合全局和频域信息,利用Haar小波变换分解特征为高低频分量以优化边界分割。
  • Result: 在LoveDA、Vaihingen、Potsdam和iSAID四个数据集上达到了最先进的性能。
  • Conclusion: FSDENet通过空间粒度和频域边缘敏感性的双域协同,显著提高了边界区域和灰度过渡区的分割精度。

[11] Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

Sheng Yang,Tong Zhan,Guancheng Chen,Yanfeng Lu,Jian Wang

Main category: cs.CV

TL;DR: Max-V1将自动驾驶重新概念化为广义语言,将轨迹规划任务建模为下一个路径点预测,通过单阶段端到端框架直接从前置摄像头输入生成轨迹,在nuScenes数据集上达到SOTA性能,相比基线提升30%以上。

  • Motivation: 重新思考自动驾驶问题,将其视为广义语言任务,利用VLM的生成能力实现端到端的轨迹预测,避免传统多阶段方法的复杂性。
  • Method: 提出Max-V1单阶段端到端框架,将轨迹规划建模为序列化的下一个路径点预测任务,基于统计建模的监督策略提供明确学习目标,通过大规模专家演示进行模仿学习。
  • Result: 在nuScenes数据集上达到最先进性能,整体提升超过30%,在跨域数据集上表现出优异的泛化能力,展示了跨车辆鲁棒性和适应性。
  • Conclusion: 该工作为自动驾驶引入了基础驾驶行为模型,为开发更强大的自动驾驶智能体奠定了基础,具有重要的实际应用价值。

[12] Efficient CNN Compression via Multi-method Low Rank Factorization and Feature Map Similarity

M. Kokhazadeh,G. Keramidas,V. Kelefouras

Main category: cs.CV

TL;DR: 提出了一种端到端的CNN压缩设计空间探索框架,通过基于特征图相似性的秩选择策略、一次性微调过程以及多种低秩分解技术的组合使用,实现了高效压缩且精度损失最小。

  • Motivation: 传统低秩分解方法面临秩选择困难、设计空间庞大、微调时间长、兼容性有限等问题,需要一种更高效的压缩方法。
  • Method: 使用基于特征图相似性的秩选择策略,采用一次性微调过程,集成六种低秩分解技术(卷积层和全连接层各三种),并在TensorFlow 2.x中实现。
  • Result: 在14个CNN模型和8个数据集上的实验表明,该方法实现了显著压缩且精度损失最小,优于多种先进技术。
  • Conclusion: 该方法通过组合多种低秩分解技术和高效的秩选择策略,为CNN压缩提供了有效的端到端解决方案。

[13] Intelligent 5S Audit: Application of Artificial Intelligence for Continuous Improvement in the Automotive Industry

Rafael da Silva Maciel,Lucio Veraldo Jr

Main category: cs.CV

TL;DR: 开发基于大语言模型的自动化5S审计系统,通过智能图像分析标准化评估5S原则,在汽车制造环境中验证了高可靠性,显著提升审计效率并降低成本。

  • Motivation: 将人工智能技术与5S方法结合,改进汽车产业链的工业组织审计,使其更客观、高效并符合工业4.0标准。
  • Method: 基于大语言模型开发自动化5S审计系统,通过智能图像分析标准化评估整理、整顿、清扫、清洁、素养五个方面。
  • Result: 系统可靠性验证显示与人工审计高度一致(kappa=0.75),审计过程加速50%,运营成本降低99.8%,保持评估一致性。
  • Conclusion: 该解决方案为汽车制造环境持续改进做出重要贡献,建立了将精益系统与新兴AI技术整合的新范式,具有不同规模汽车工厂的可扩展性。

[14] OIG-Bench: A Multi-Agent Annotated Benchmark for Multimodal One-Image Guides Understanding

Jiancong Xie,Wenjin Wang,Zhuomeng Zhang,Zihan Liu,Qi Liu,Ke Feng,Zixun Sun,Yuedong Yang

Main category: cs.CV

TL;DR: 提出了OIG-Bench基准测试,用于评估多模态大语言模型在单图像指南理解方面的能力,发现当前模型在语义理解和逻辑推理方面仍有不足。

  • Motivation: 现有研究对多模态大语言模型在单图像指南这种结合文本、图像和符号的视觉格式上的理解能力评估不足,而这类格式体现了人类感知和理解的特点。
  • Method: 开发了半自动标注流程,让多个智能代理协作生成初步图像描述,辅助人工构建图像-文本对,并构建了OIG-Bench基准测试。
  • Result: 评估了29个最先进的多模态大语言模型,Qwen2.5-VL-72B表现最佳,总体准确率为77%,但所有模型在语义理解和逻辑推理方面都存在明显弱点。
  • Conclusion: 当前多模态大语言模型在准确解释复杂视觉-文本关系方面仍有困难,提出的多代理标注系统在图像描述生成方面优于所有评估模型,具有作为高质量图像描述生成器和未来数据集构建工具的潜力。

[15] Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning

Chenhui Xu,Fuxun Yu,Michael J. Bianco,Jacob Kovarskiy,Raphael Tang,Qi Zhang,Zirui Xu,Will LeVine,Brandon Dubbs,Heming Liao,Cassandra Burgess,Suvam Bag,Jay Patravali,Rupanjali Kukal,Mikael Figueroa,Rishi Madhok,Nikolaos Karianakis,Jinjun Xiong

Main category: cs.CV

TL;DR: Geo-R1是一个专注于地理空间推理的视觉语言模型后训练框架,通过思维脚手架和提升两个阶段,结合监督微调和强化学习,实现了无需人工标注的地理空间推理能力。

  • Motivation: 解锁视觉语言模型的地理空间推理能力,避免昂贵的人工推理标注成本,将地理空间建模从领域预训练/监督微调扩展到推理优先的后训练。
  • Method: 采用两阶段方法:1) 脚手架阶段:通过监督微调在合成链式思维示例上建立"地理空间思维范式";2) 提升阶段:使用GRPO强化学习在弱监督跨视图配对代理上进行训练,提供可验证和可扩展的奖励信号。
  • Result: 在各种地理空间推理基准测试中实现了最先进的性能。
  • Conclusion: Geo-R1成功地将地理空间建模扩展到推理优先的后训练范式,为视觉语言模型的地理空间推理能力提供了有效的解决方案。

[16] Enhancing Certifiable Semantic Robustness via Robust Pruning of Deep Neural Networks

Hanjiang Hu,Bowei Li,Ziwei Wang,Tianhao Wei,Casidhe Hutchison,Eric Sample,Changliu Liu

Main category: cs.CV

TL;DR: 提出了一种基于无偏平滑神经元(USN)度量的神经网络剪枝方法,通过移除低USN神经元并保留高USN神经元来减少过参数化,同时保持模型表达能力,在亮度对比度扰动下实现更好的鲁棒性认证。

  • Motivation: 深度神经网络在视觉和机器人应用中广泛使用,但现有认证训练和鲁棒性认证方法面临过参数化挑战,影响了紧致性和可扩展性。需要解决神经网络过度复杂化的问题。
  • Method: 1. 分析层和神经元对输入扰动的稳定性和方差,提出USN度量;2. 基于USN进行神经网络剪枝,移除低USN神经元;3. 引入Wasserstein距离损失使剪枝后的神经元在层间更集中。
  • Result: 在具有挑战性的鲁棒关键点检测任务上进行实验,涉及真实的亮度和对比度扰动,证明该方法在鲁棒性认证性能和效率方面优于基线方法。
  • Conclusion: 提出的USN度量能够有效指示可认证鲁棒性,基于USN的剪枝方法在减少过参数化的同时保持了模型表达能力,实现了优越的鲁棒性认证性能。

[17] Improved Hyperspectral Anomaly Detection via Unsupervised Subspace Modeling in the Signed Cumulative Distribution Transform Domain

Abu Hasnat Mohammad Rubaiyat,Jordan Vincent,Colin Olson

Main category: cs.CV

TL;DR: 提出了一种基于传输理论的新型高光谱异常检测方法,通过将像素视为模板模式的变形观测,在SCDT域中构建背景信号模型来检测异常。

  • Motivation: 高光谱异常检测在民用和军事应用中很重要,但由于复杂环境和先验知识有限,现有技术面临挑战。
  • Method: 使用基于传输的数学模型描述高光谱像素,将其视为模板模式的变形观测,在SCDT域中表示,然后使用无监督子空间建模技术构建背景信号模型。
  • Result: 在五个不同数据集上的综合评估表明,该方法优于现有最先进的方法。
  • Conclusion: 提出的基于传输的模型和SCDT域表示方法为高光谱异常检测提供了有效的解决方案。

[18] MOLM: Mixture of LoRA Markers

Samar Fares,Nurbek Tastan,Noor Hussein,Karthik Nandakumar

Main category: cs.CV

TL;DR: 提出了一种基于LoRA适配器的混合水印框架MOLM,通过密钥激活轻量级适配器来嵌入水印,无需重新训练模型,在保持图像质量的同时实现鲁棒的水印提取。

  • Motivation: 生成模型能大规模生成逼真图像,引发了对检测合成图像和溯源来源的迫切需求。现有水印方法对真实失真脆弱、易被自适应移除,且密钥更新成本高。
  • Method: 将编码问题建模为生成模型参数的密钥相关扰动,提出MOLM框架:使用二进制密钥激活残差和注意力块中的轻量级LoRA适配器,避免密钥特定的重新训练。
  • Result: 在Stable Diffusion和FLUX上的实验表明,MOLM在保持图像质量的同时,能抵抗失真、压缩、再生、平均攻击和对提取器的黑盒对抗攻击,实现鲁棒的密钥恢复。
  • Conclusion: MOLM框架实现了不可感知性、保真度、可验证性和鲁棒性等理想特性,为生成模型提供了一种有效的水印解决方案。

[19] Looking Beyond the Known: Towards a Data Discovery Guided Open-World Object Detection

Anay Majee,Amitesh Gangrade,Rishabh Iyer

Main category: cs.CV

TL;DR: 提出了CROWD框架,通过组合式数据发现和表示学习解决开放世界物体检测中的语义混淆和灾难性遗忘问题。

  • Motivation: 现有开放世界物体检测方法存在已知与未知类别间的语义混淆和灾难性遗忘问题,导致未知类别召回率下降和已知类别准确率退化。
  • Method: CROWD框架包含两个组件:CROWD-Discover通过最大化子模条件增益函数策略性地挖掘未知实例;CROWD-Learn使用组合目标联合解耦已知和未知表示,同时保持已知类别间的判别一致性。
  • Result: 在OWOD基准测试中,CROWD在M-OWODB和S-OWODB上分别将已知类别准确率提高了2.83%和2.05%,未知召回率比领先基线提高了近2.4倍。
  • Conclusion: CROWD框架通过组合式方法有效解决了开放世界物体检测中的关键挑战,显著提升了性能。

[20] Discrete Wavelet Transform as a Facilitator for Expressive Latent Space Representation in Variational Autoencoders in Satellite Imagery

Arpan Mahara,Md Rezaul Karim Khan,Naphtali Rishe,Wenjia Wang,Seyed Masoud Sadjadi

Main category: cs.CV

TL;DR: 提出ExpDWT-VAE方法,通过离散小波变换增强VAE的潜在空间表示,专门针对卫星图像设计,在遥感应用中改进潜在扩散模型的性能。

  • Motivation: 虽然已有许多研究改进潜在扩散模型,但针对内在潜在空间改进的研究仍然稀缺,特别是在遥感应用领域。
  • Method: 提出ExpDWT-VAE方法,采用双分支结构:一个分支处理空间域输入,另一个分支通过2D Haar小波分解提取和处理频域特征,然后合并形成集成空间-频率表示。
  • Result: 在TerraFly映射系统的新卫星图像数据集上进行实验,多个性能指标显示该方法能有效增强潜在空间表示。
  • Conclusion: 该方法通过离散小波变换成功增强了VAE的潜在空间表示,在遥感应用中表现出色。

[21] EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Jiayi Liu,Jiaming Zhou,Ke Ye,Kun-Yu Lin,Allan Wang,Junwei Liang

Main category: cs.CV

TL;DR: 提出了EgoTraj-Bench基准和BiFlow模型,用于在真实感知约束下进行稳健的轨迹预测,通过双流流匹配同时去噪历史观测和预测未来运动。

  • Motivation: 现有轨迹预测方法假设理想化观测历史,忽略了第一人称视角固有的感知伪影(如遮挡、ID切换、跟踪漂移),导致训练假设与部署现实之间的差距限制了模型鲁棒性。
  • Method: 提出BiFlow双流流匹配模型,利用共享潜在表示同时去噪历史观测和预测未来运动;引入EgoAnchor机制,通过特征调制将提炼的历史特征条件化到预测解码器。
  • Result: BiFlow实现最先进性能,平均减少minADE和minFDE 10-15%,并展示出卓越的鲁棒性。
  • Conclusion: 该基准和模型为开发真正能够抵抗现实世界第一人称感知挑战的轨迹预测系统提供了关键基础。

[22] David and Goliath in Medical Vision: Convolutional Networks vs Biomedical Vision Language Models

Ran Tong,Jiaqi Liu,Su Liu,Jiexi Xu,Lanruo Wang,Tong Wang

Main category: cs.CV

TL;DR: 比较监督CNN和零样本医学视觉语言模型BiomedCLIP在胸部X光片诊断中的性能,发现通过决策阈值校准可以显著提升VLM性能,使其在肺炎检测中超越CNN,在结核检测中接近CNN水平。

  • Motivation: 探索自动方法在胸部X光片准确解读中的潜力,特别是比较传统监督CNN与新兴零样本VLM在医学影像诊断任务中的表现差异。
  • Method: 在两个诊断任务上进行对比实验:肺炎检测使用PneumoniaMNIST基准,结核检测使用Shenzhen TB数据集。对BiomedCLIP进行决策阈值校准优化。
  • Result: 监督CNN在两个任务中都表现出色。零样本VLM经过阈值校准后性能显著提升:肺炎检测F1分数从默认值提升至0.8841(超过CNN的0.8803),结核检测从0.4812提升至0.7684(接近CNN的0.7834)。
  • Conclusion: 适当的校准对于充分发挥零样本VLM的诊断潜力至关重要,使其能够匹配甚至超越高效的任务特定监督模型。

[23] PAL-UI: Planning with Active Look-back for Vision-Based GUI Agents

Zikang Liu,Junyi Li,Wayne Xin Zhao,Dawei Gao,Yaliang Li,Ji-rong Wen

Main category: cs.CV

TL;DR: PAL-UI是一个用于GUI代理的主动记忆检索框架,通过双层级摘要和专用检索工具,使代理能够在规划时自适应地检索过去的视觉观察,解决了长时程任务中的记忆限制问题。

  • Motivation: 现有的GUI代理方法要么截断历史记录,要么依赖简单的文本摘要,当过去的视觉细节对未来决策变得必要时会丢失关键信息。长时程任务中的记忆限制仍然是主要挑战。
  • Method: 提出PAL-UI框架,结合双层级摘要代理(捕捉观察级线索和行动级结果)与专用检索工具,允许代理在规划时回忆特定的历史截图。基于Qwen2.5-VL训练了PAL-UI-3B和PAL-UI-7B模型。
  • Result: 在移动GUI导航任务中,PAL-UI显著优于基线模型和先前方法,即使在数据高效设置下也是如此。此外,PAL-UI表现出强大的跨领域泛化能力,在无需额外训练的情况下在网页导航中实现了显著改进。
  • Conclusion: 这项工作突显了主动记忆检索对于基于视觉的GUI代理长时程规划能力的潜力。

[24] Domain-Specialized Interactive Segmentation Framework for Meningioma Radiotherapy Planning

Junhyeok Lee,Han Jang,Kyu Sung Choi

Main category: cs.CV

TL;DR: 提出了Interactive-MEN-RT,一个专门用于脑膜瘤放疗规划的交互式医学图像分割工具,通过结合多种临床交互方法显著提升了分割精度。

  • Motivation: 脑膜瘤的精确分割对放疗规划至关重要,但现有通用分割工具缺乏针对脑膜瘤放疗规划的特异性,难以满足临床需求。
  • Method: 开发了专门的交互式医学图像分割工具Interactive-MEN-RT,整合了点标注、边界框、套索工具和涂鸦等多种临床相关交互方法。
  • Result: 在BraTS 2025脑膜瘤放疗分割挑战的500个MRI扫描上评估,Dice相似系数达77.6%,交并比达64.8%,显著优于其他分割方法。
  • Conclusion: 在脑膜瘤放疗规划等关键应用中,需要专门针对临床需求定制的分割解决方案,而非通用工具。

[25] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

Zhaoyang Li,Dongjun Qian,Kai Su,Qishuai Diao,Xiangyang Xia,Chang Liu,Wenfei Yang,Tianzhu Zhang,Zehuan Yuan

Main category: cs.CV

TL;DR: BindWeave是一个统一框架,用于处理从单主体到复杂多主体场景的主题一致视频生成,通过MLLM-DiT框架实现跨模态推理,在OpenS2V基准测试中表现出色。

  • Motivation: 现有视频生成模型在主题一致性方面存在不足,难以解析包含复杂空间关系、时间逻辑和多主体交互的提示词。
  • Method: 提出BindWeave框架,采用MLLM-DiT架构,使用预训练多模态大语言模型进行深度跨模态推理,生成主题感知隐藏状态来条件化扩散变换器。
  • Result: 在OpenS2V基准测试中,该方法在主题一致性、自然度和文本相关性方面均优于现有开源和商业模型。
  • Conclusion: BindWeave通过跨模态推理有效解决了复杂提示词解析问题,实现了高质量的主题一致视频生成。

[26] Measuring and Controlling the Spectral Bias for Self-Supervised Image Denoising

Wang Zhang,Huaqiu Li,Xiaowan Hu,Tao Jiang,Zikang Chen,Haoqian Wang

Main category: cs.CV

TL;DR: 提出SCNet网络优化自监督图像去噪,通过频率控制解决高频细节保留和噪声学习问题

  • Motivation: 现有自监督去噪方法存在两个问题:高频结构细节保留不足,以及网络在学习高频时会从映射的噪声图像中学习到高频噪声
  • Method: 1. 提出频率带选择策略加速训练收敛;2. 使用Lipschitz常数限制卷积核对高频噪声的学习能力;3. 引入SSR模块通过频域分离和低秩重建分离噪声和高频细节
  • Result: 在合成和真实数据集上的实验验证了SCNet的有效性
  • Conclusion: SCNet通过频谱控制成功解决了自监督去噪中的高频细节保留和噪声学习问题

[27] VLOD-TTA: Test-Time Adaptation of Vision-Language Object Detectors

Atif Belal,Heitor R. Medeiros,Marco Pedersoli,Eric Granger

Main category: cs.CV

TL;DR: VLOD-TTA是一个用于视觉语言目标检测器的测试时自适应框架,通过IoU加权的熵目标和图像条件提示选择来提升在域偏移下的性能。

  • Motivation: 现有的视觉语言目标检测器在零样本识别方面表现优异,但在域偏移情况下性能会下降,需要一种有效的测试时自适应方法来应对各种分布变化。
  • Method: 提出两个关键技术:1)IoU加权的熵目标,专注于空间一致的建议框簇并减少孤立框的确认偏差;2)图像条件提示选择,根据图像级兼容性对提示进行排序,并将最有信息的提示与检测器对数融合。
  • Result: 在多种分布偏移场景(风格化域、驾驶场景、低光照条件和常见损坏)下的基准测试表明,该方法在YOLO-World和Grounding DINO上均优于零样本和TTA基线方法。
  • Conclusion: VLOD-TTA框架能够有效提升视觉语言目标检测器在域偏移下的性能,具有一致性和有效性。

[28] MathSticks: A Benchmark for Visual Symbolic Compositional Reasoning with Matchstick Puzzles

Yuheng Ji,Huajie Tan,Cheng Chi,Yijie Xu,Yuting Zhao,Enshen Zhou,Huaihai Lyu,Pengwei Wang,Zhongyuan Wang,Shanghang Zhang,Xiaolong Zheng

Main category: cs.CV

TL;DR: MathSticks是一个视觉符号组合推理基准,通过移动火柴棒修正错误算式,评估模型在视觉感知、符号操作和算术一致性方面的能力。

  • Motivation: 现有的视觉推理基准在组合推理方面存在不足,需要统一视觉感知、符号操作和算术一致性的测试平台。
  • Method: 构建包含140万生成实例和精选测试集的基准,涵盖文本引导和纯视觉两种设置,系统考虑数字规模、移动复杂度、解多样性和运算符变化。
  • Result: 评估14个视觉语言模型显示显著局限性:闭源模型仅能处理简单情况,开源模型在视觉模式下失败,而人类准确率超过90%。
  • Conclusion: MathSticks为推进跨视觉和符号的组合推理提供了严格的测试平台,揭示了当前模型的不足。

[29] Normal-Abnormal Guided Generalist Anomaly Detection

Yuexin Wang,Xiaolei Wang,Yizheng Gong,Jimin Xiao

Main category: cs.CV

TL;DR: 提出了NAGL框架,利用正常和异常样本作为参考进行通用异常检测,通过残差挖掘和异常特征学习实现跨域异常检测。

  • Motivation: 现有通用异常检测方法仅使用正常样本作为参考,忽略了现实场景中可用的异常样本所包含的宝贵信息。
  • Method: 提出Normal-Abnormal Generalist Learning (NAGL)框架,包含残差挖掘(RM)提取异常模式,和异常特征学习(AFL)自适应学习查询图像中的异常特征。
  • Result: 在多个基准测试上的广泛实验表明,该方法显著优于现有的GAD方法。
  • Conclusion: 这是首个在通用异常检测中采用正常和异常样本混合作为参考的工作,有效利用两类参考实现更准确高效的跨域异常检测。

[30] Relative-Absolute Fusion: Rethinking Feature Extraction in Image-Based Iterative Method Selection for Solving Sparse Linear Systems

Kaiqi Zhang,Mingguan Yang,Dali Chang,Chun Chen,Yuxiang Zhang,Kexun He,Jing Zhao

Main category: cs.CV

TL;DR: 提出RAF特征提取技术,通过融合相对图像特征和绝对数值特征来增强基于图像的迭代方法选择,解决特征模糊问题,在稀疏线性系统求解中实现5.86%-11.50%的速度提升。

  • Motivation: 现有基于图像的选择方法存在特征提取问题,可能将不同的矩阵编码为相同的图像表示,导致相同的选择和次优方法选择。
  • Method: RAF特征提取技术,同时提取和融合图像表示作为相对特征,以及相应的数值作为绝对特征,实现全面的矩阵表示。
  • Result: 在SuiteSparse和BMCMat数据集上的评估显示,稀疏线性系统求解时间减少0.08s-0.29s,比传统基于图像的选择方法快5.86%-11.50%,达到SOTA性能。
  • Conclusion: RAF通过防止不同矩阵间的特征模糊,提高了选择准确性,释放了基于图像选择方法的潜力。

[31] Affordance-Guided Diffusion Prior for 3D Hand Reconstruction

Naru Suzuki,Takehiko Ohkawa,Tatsuro Banno,Jihyun Lee,Ryosuke Furuta,Yoichi Sato

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的生成式先验方法,通过利用手-物体交互的affordance感知文本描述来指导被遮挡3D手部姿态的重建。

  • Motivation: 当手部被自身或物体严重遮挡时,人类通过上下文知识(如affordance)来解决姿态重建的模糊性。受此启发,研究如何利用affordance感知的文本描述来指导被遮挡手部姿态的生成。
  • Method: 使用扩散生成模型学习在affordance描述条件下的合理手部姿态分布,affordance描述由大型视觉语言模型推断得出,从而将遮挡区域细化为更准确且功能连贯的手部姿态。
  • Result: 在HOGraspNet数据集上的实验表明,该方法在严重遮挡情况下显著优于最近的回归方法和缺乏上下文推理的基于扩散的细化方法。
  • Conclusion: affordance引导的细化方法能够有效提升被遮挡手部姿态估计的准确性,证明了上下文知识在手部姿态重建中的重要性。

[32] Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

Zichen Wen,Shaobo Wang,Yufa Zhou,Junyuan Zhang,Qintong Zhang,Yifeng Gao,Zhaorun Chen,Bin Wang,Weijia Li,Conghui He,Linfeng Zhang

Main category: cs.CV

TL;DR: 提出EPIC框架,通过渐进一致性蒸馏解决多模态大模型中视觉token压缩带来的训练困难问题

  • Motivation: 视觉token在多模态大模型中消耗大量计算资源,现有压缩方法忽视了压缩带来的特征空间扰动增加了学习难度
  • Method: 通过分解token压缩在token维度和层维度引入的扰动,分别提出token一致性蒸馏和层一致性蒸馏,利用教师模型指导进行渐进学习
  • Result: 实验证明该框架具有优越的有效性、鲁棒性和泛化能力
  • Conclusion: EPIC框架通过渐进一致性蒸馏有效解决了视觉token压缩带来的训练困难,提升了多模态大模型的效率

[33] CardioBench: Do Echocardiography Foundation Models Generalize Beyond the Lab?

Darya Taratynova,Ahmed Aly,Numan Saeed,Mohammad Yaqub

Main category: cs.CV

TL;DR: CardioBench是一个用于超声心动图基础模型的标准化基准测试,整合了8个公开数据集,涵盖4个回归和5个分类任务,评估了心脏专用、生物医学和通用编码器在不同协议下的表现。

  • Motivation: 超声心动图基础模型应用受限,缺乏标准化评估基准。现有解决方案多在私有数据上评估,限制了可比性。超声心动图存在噪声采集、高帧冗余和公开数据集有限等独特挑战。
  • Method: 将8个公开数据集统一为标准套件,涵盖功能、结构、诊断和视图识别等任务。在一致的零样本、探测和对齐协议下评估多种基础模型,包括心脏专用、生物医学和通用编码器。
  • Result: 不同模型家族展现出互补优势:时序建模对功能回归至关重要,检索在分布偏移下提供鲁棒性,领域特定文本编码器捕获生理学有意义的轴。通用编码器迁移能力强,但在细粒度区分(如视图分类和细微病理识别)上表现不佳。
  • Conclusion: CardioBench通过发布预处理、分割和公共评估流程,建立了可复现的参考点,为未来超声心动图基础模型的设计提供了可操作的见解。

[34] Cascaded Diffusion Framework for Probabilistic Coarse-to-Fine Hand Pose Estimation

Taeyun Woo,Jinah Park,Tae-Kyun Kim

Main category: cs.CV

TL;DR: 提出了一种从粗到精的级联扩散框架,结合概率建模与级联细化,用于3D手部姿态重建,解决了姿态模糊性和不确定性建模的问题。

  • Motivation: 现有确定性模型难以处理自遮挡和复杂手部关节带来的姿态模糊性,而现有概率方法仅限于单阶段估计且缺乏细化能力,无法产生准确的3D重建结果。
  • Method: 采用两阶段级联扩散框架:第一阶段使用联合扩散模型采样多样的3D关节假设,第二阶段使用网格潜在扩散模型在关节样本条件下重建3D手部网格。
  • Result: 在FreiHAND和HO3Dv2数据集上的实验表明,该方法实现了最先进的性能,并有效建模了姿态分布。
  • Conclusion: 提出的级联扩散框架成功结合了概率建模与级联细化的优势,在3D手部姿态重建中实现了高精度和有效的姿态不确定性建模。

[35] Forestpest-YOLO: A High-Performance Detection Framework for Small Forestry Pests

Aoduo Li,Peikai Lin,Jiancheng Li,Zhen Zhang,Shiting Wu,Zexiao Liang,Zhifa Jiang

Main category: cs.CV

TL;DR: 提出Forestpest-YOLO框架,专门针对林业遥感图像中的害虫检测问题,通过SPD-Conv无损下采样、CSPOK跨阶段特征融合和VarifocalLoss损失函数,显著提升了小目标、遮挡目标的检测性能。

  • Motivation: 林业遥感图像中害虫检测面临目标微小、严重遮挡、与背景相似等挑战,传统目标检测模型因丢失细粒度特征和处理极端数据不平衡能力不足而表现不佳。
  • Method: 基于YOLOv8架构,集成三个创新模块:SPD-Conv无损下采样保留小目标细节、CSPOK跨阶段特征融合增强多尺度表示并抑制背景噪声、VarifocalLoss损失函数聚焦高质量和难分类样本。
  • Result: 在自建的ForestPest数据集上进行了广泛实验,Forestpest-YOLO实现了最先进的性能,在小目标和遮挡害虫检测方面显著优于现有基线模型。
  • Conclusion: Forestpest-YOLO框架有效解决了林业遥感害虫检测中的关键挑战,为生态保护提供了可靠的技术支持。

[36] Assessing Foundation Models for Mold Colony Detection with Limited Training Data

Henrik Pichler,Janis Keuper,Matthew Copping

Main category: cs.CV

TL;DR: 本文展示了在微生物学图像分析中,使用少量标注数据(150张图像)的视觉基础模型可以达到与需要大量标注数据的传统模型(如YoloV9)相近的性能,显著减少了数据标注需求。

  • Motivation: 传统微生物学图像分析需要大量人工标注数据,过程耗时耗力。本文旨在证明使用少量标注数据即可达到传统方法的性能,降低自动化系统的开发门槛。
  • Method: 构建了5000张培养皿图像数据集,模拟传统数据收集和少样本场景。比较了三种视觉基础模型与传统基线模型在任务特定指标上的表现,重点关注MaskDINO模型在少量数据下的性能。
  • Result: MaskDINO仅用150张图像微调就达到与大量训练的YoloV9模型相近的性能,在仅25张图像时仍能保持竞争力,在约70%的样本上表现可靠。
  • Conclusion: 数据高效的基础模型能够以传统方法所需数据的一小部分实现相近性能,使自动化微生物系统的开发更早启动、迭代更快,且性能上限优于传统模型。

[37] Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning

Minghao Yang,Ren Togo,Guang Li,Takahiro Ogawa,Miki Haseyama

Main category: cs.CV

TL;DR: 提出自适应共享专家(ASE)方法,在基于LoRA的MoE框架中引入共享专家,通过路由器计算的门控权重与稀疏专家联合归一化,改善从单任务到多任务学习的过渡,增强专家专业化和协作。

  • Motivation: 现有MoE-MTL方法依赖单任务预训练骨干网络,在从单任务到多任务学习转换过程中存在冗余适应和知识共享效率低的问题。
  • Method: 在基于LoRA的MoE中引入自适应共享专家,共享专家与稀疏专家通过路由器计算的门控权重联合归一化;同时增加LoRA专家数量并相应降低其秩,实现细粒度专家设计。
  • Result: 在PASCAL-Context基准测试中,ASE在不同配置下持续提升性能,验证了细粒度设计对MTL的有效性。
  • Conclusion: ASE方法通过自适应共享专家和细粒度专家设计,有效解决了MoE-MTL中的知识共享和专家协作问题,提升了多任务学习性能。

[38] Arbitrary Generative Video Interpolation

Guozhen Zhang,Haiguang Wang,Chunyu Wang,Yuan Zhou,Qinglin Lu,Limin Wang

Main category: cs.CV

TL;DR: ArbInterp是一个创新的视频帧插值框架,支持任意时间戳和任意长度的插值,通过TaRoPE时间戳感知旋转位置编码和外观-运动解耦条件策略,实现了灵活的帧率调整和序列时长控制。

  • Motivation: 现有生成式视频帧插值方法只能合成固定数量的中间帧,缺乏调整生成帧率或总序列时长的灵活性,限制了实际应用。
  • Method: 提出Timestamp-aware Rotary Position Embedding (TaRoPE)支持任意时间戳插值;采用分段帧合成实现任意长度插值;设计外观-运动解耦条件策略确保跨片段时空连续性。
  • Result: 在多尺度帧插值基准测试中(2x到32x),ArbInterp在所有场景下均优于先前方法,具有更高的保真度和更无缝的时空连续性。
  • Conclusion: ArbInterp通过创新的时间戳感知和分段生成机制,成功解决了生成式视频帧插值在灵活性和连续性方面的关键挑战。

[39] Color Models in Image Processing: A Review and Experimental Comparison

Muragul Muratbekova,Nuray Toganas,Ayan Igali,Maksat Shagyrov,Elnara Kadyrgali,Adilet Yerkin,Pakizar Shamoi

Main category: cs.CV

TL;DR: 本文综述了颜色模型和空间,分析了RGB、CMYK、YUV等传统模型,CIELAB、CIELUV等感知均匀空间,以及模糊方法。实验评估显示HS*系列与人类感知最一致,并指出了现有模型的差距和未来方向。

  • Motivation: 颜色表示在计算机视觉和人机交互中至关重要,选择合适的颜色模型对各类应用很关键。本文旨在系统回顾和分析不同颜色模型的理论基础、计算特性和实际应用。
  • Method: 采用文献综述方法分析颜色模型的理论基础,并通过一系列实验从设备依赖性、色彩一致性和计算复杂度等角度评估不同颜色模型。
  • Result: 实验结果显示HS*系列颜色模型与人类感知最为一致,同时揭示了现有颜色模型存在的差距。不同模型各有优势和局限性。
  • Conclusion: 本研究为图像处理、感知计算、数字媒体等颜色相关领域的研究人员提供了重要参考,并指出了开放挑战和未来研究方向。

[40] Multi-level Dynamic Style Transfer for NeRFs

Zesheng Li,Shuaibo Li,Wei Ma,Jianwei Guo,Hongbin Zha

Main category: cs.CV

TL;DR: MDS-NeRF提出了一种用于神经辐射场(NeRF)的多级动态风格迁移方法,通过重新设计NeRF流程并引入动态风格注入模块,实现了更好的内容保持和艺术风格化效果。

  • Motivation: 现有的NeRF风格迁移方法通常将风格统计信息集成到原始NeRF流程中,导致内容保持和艺术风格化效果不佳。
  • Method: 提出多级特征适配器生成多级特征网格表示,动态风格注入模块学习提取相关风格特征并自适应集成到内容模式中,最后通过多级级联解码器生成最终风格化视图。
  • Result: 大量实验表明MDS-NeRF在3D风格迁移方面表现出色,能够保持多尺度空间结构同时有效传递风格特征。
  • Conclusion: MDS-NeRF通过重新设计NeRF流程和引入创新模块,实现了优秀的3D风格迁移性能,并支持使用3D风格参考进行全方位视图风格迁移。

[41] LVLMs as inspectors: an agentic framework for category-level structural defect annotation

Sheng Jiang,Yuanmin Ning,Bingxi Huang,Peiyin Chen,Zhaohui Chen

Main category: cs.CV

TL;DR: 提出了ADPT框架,通过集成大型视觉语言模型、语义模式匹配和迭代自问机制,实现无需人工监督的结构缺陷自动标注,准确率高达98%。

  • Motivation: 解决基础设施安全监测中手动标注成本高、效率低的问题,实现自动化的结构缺陷标注。
  • Method: 集成大型视觉语言模型与语义模式匹配模块,采用优化领域特定提示和递归验证过程,通过迭代自问机制进行精炼。
  • Result: 在区分缺陷与非缺陷图像上达到98%准确率,在四类缺陷标注中达到85%-98%准确率(类平衡),在类不平衡数据集上达到80%-92%准确率。
  • Conclusion: ADPT框架为结构损伤评估提供了可扩展、经济高效的高质量数据集构建解决方案,支持下游迁移学习和领域适应任务。

[42] Disentangling Foreground and Background for vision-Language Navigation via Online Augmentation

Yunbo Xu,Xuesong Zhang,Jia Li,Zhenzhen Hu,Richang Hong

Main category: cs.CV

TL;DR: 提出COFA策略,通过前景-背景特征增强来提升视觉语言导航的泛化能力,在REVERIE和R2R数据集上达到SOTA性能

  • Motivation: 当前视觉语言导航研究中,视觉观察中前景和背景的重要性未被充分探索。前景提供语义线索,背景包含空间连接信息,两者对导航都很重要
  • Method: 使用语义增强的地标识别分离前景和背景作为候选增强特征,采用共识驱动的在线增强策略,让智能体根据多样化指令和导航位置整合两阶段投票结果来选择特征偏好
  • Result: 在REVERIE和R2R数据集上的实验表明,该在线前景-背景增强方法提升了基线的泛化能力并达到了最先进的性能
  • Conclusion: 前景和背景特征的在线增强策略能有效提升视觉语言导航的泛化性能

[43] Robust Context-Aware Object Recognition

Klara Janouskova,Cristian Gavrus,Jiri Matas

Main category: cs.CV

TL;DR: RCOR方法通过将定位作为识别的组成部分,实现对象中心和上下文感知建模的解耦,然后进行鲁棒的非参数融合,在保持上下文信息的同时解决了背景过度依赖问题。

  • Motivation: 标准监督学习会导致模型过度依赖背景信息(捷径学习),限制了模型在真实部署环境中的鲁棒性。现有方法主要通过抑制背景来解决这个问题,但牺牲了上下文信息。
  • Method: RCOR将定位作为识别的组成部分,解耦对象中心和上下文感知建模,然后进行鲁棒的非参数融合。该方法不需要微调即可工作。
  • Result: RCOR提高了监督模型和VLM在域内和域外背景数据集上的性能,即使在ImageNet-1k等复杂场景中也能实现定位先于识别。
  • Conclusion: RCOR是首个同时实现鲁棒性和上下文感知的方法,无需在两者之间做出妥协,证实了在复杂场景中定位先于识别的可行性。

[44] UCD: Unconditional Discriminator Promotes Nash Equilibrium in GANs

Mengfei Xia,Nan Xue,Jiapeng Zhu,Yujun Shen

Main category: cs.CV

TL;DR: 提出使用无条件判别器(UCD)来解决GAN训练中的纳什均衡问题,通过移除条件输入来强制判别器提取更全面的特征,从而改善生成器训练,在ImageNet-64上达到1.47 FID的SOTA性能。

  • Motivation: 对抗训练对一步生成至关重要,但GAN训练难以收敛且存在模式崩溃问题。研究发现条件判别器中的冗余捷径阻碍了有意义的特征提取。
  • Method: 采用无条件判别器(UCD),移除条件注入,强制判别器提取更全面和鲁棒的特征,从而为生成器提供更好的监督。
  • Result: 在ImageNet-64数据集上达到1.47 FID,超越了StyleGAN-XL和多个最先进的一步扩散模型,表现出显著的性能提升和高效率。
  • Conclusion: 无条件判别器能够促进GAN训练中的纳什均衡,理论证明与原始GAN理论兼容,可作为即插即用模块实现性能大幅提升。

[45] Virtual Fashion Photo-Shoots: Building a Large-Scale Garment-Lookbook Dataset

Yannick Hauri,Luca A. Lanzendörfer,Till Aczel

Main category: cs.CV

TL;DR: 提出了虚拟时尚摄影任务,通过将标准化的服装图像转化为情境化的编辑图像,构建了首个大规模服装-画册配对数据集,包含三个质量级别的配对数据。

  • Motivation: 现有时尚图像生成主要关注虚拟试穿等狭窄任务,而编辑时尚通过动态姿势、多样地点和精心设计的视觉叙事来展示服装。需要超越目录式生成,创造更具创意、氛围和故事性的时尚图像。
  • Method: 设计了一个自动检索流程,结合视觉语言推理和对象级定位,跨领域对齐服装图像,构建了包含高质量(1万对)、中等质量(5万对)和低质量(30万对)三个级别的服装-画册配对数据集。
  • Result: 成功构建了首个大规模服装-画册配对数据集,为超越目录式生成的时尚图像模型提供了基础。
  • Conclusion: 虚拟时尚摄影任务能够捕捉编辑时尚的丰富性,该数据集为创造反映创意、氛围和故事性的时尚图像奠定了基础。

[46] LAKAN: Landmark-assisted Adaptive Kolmogorov-Arnold Network for Face Forgery Detection

Jiayao Jiang,Siran Peng,Bin Liu,Qi Chu,Nenghai Yu

Main category: cs.CV

TL;DR: 提出基于Kolmogorov-Arnold Network (KAN)的深度伪造检测方法,结合面部关键点引导的LAKAN模块,在多个数据集上取得优越性能

  • Motivation: 现有基于CNN和Transformer的深度伪造检测方法在建模高度复杂和非线性的伪造伪影方面仍有改进空间
  • Method: 使用KAN替代固定激活函数,引入LAKAN模块利用面部关键点作为结构先验,动态生成KAN内部参数,引导图像编码器关注关键面部区域
  • Result: 在多个公开数据集上的广泛实验表明该方法取得了优越性能
  • Conclusion: 该方法成功结合几何先验与网络学习过程,为深度伪造检测提供了有效解决方案

[47] Erased, But Not Forgotten: Erased Rectified Flow Transformers Still Remain Unsafe Under Concept Attack

Nanxiang Jiang,Zhaoxin Fan,Enhan Kang,Daiheng Gao,Yun Zhou,Yanxia Chang,Zheng Zhu,Yeying Jin,Wenjun Wu

Main category: cs.CV

TL;DR: ReFlux是首个专门针对最新整流流式文本到图像框架的概念攻击方法,通过逆向注意力优化策略来评估概念擦除的鲁棒性。

  • Motivation: 现有概念擦除方法在应用于下一代整流流变换器(如Flux)时效果有限,主要依赖注意力定位现象,需要专门评估其鲁棒性。
  • Method: 提出逆向注意力优化策略来重新激活被抑制的信号并稳定注意力,结合速度引导动态增强概念重新激活的鲁棒性,以及一致性保持目标维持全局布局。
  • Result: 大量实验一致证明了所提攻击方法的有效性和效率,为评估整流流变换器中概念擦除策略的鲁棒性建立了可靠基准。
  • Conclusion: ReFlux成功评估了整流流变换器中概念擦除的脆弱性,为未来安全研究提供了重要基准。

[48] FIN: Fast Inference Network for Map Segmentation

Ruan Bispo,Tim Brophy,Reenu Mohandas,Anthony Scanlan,Ciarán Eising

Main category: cs.CV

TL;DR: 提出了一种基于相机-雷达融合的实时地图分割架构,在BEV空间中实现高效的多传感器融合,在保持高精度的同时显著提升推理速度。

  • Motivation: 自动驾驶车辆需要多传感器融合来提供更鲁棒的感知能力,相机-雷达融合结合了相机的丰富语义信息和雷达的精确距离测量,是成本效益高的解决方案。地图分割对车辆行为规划至关重要,但面临精度和实时性的挑战。
  • Method: 在BEV空间中使用相机和雷达数据,采用先进的损失函数集和新的轻量级头部来改进感知结果,实现实时地图分割。
  • Result: 模型达到53.5 mIoU,与大型模型性能相当,同时推理时间相比最强基线模型提升了260%,创下新的推理时间基准。
  • Conclusion: 该工作证明通过精心设计的架构和损失函数,可以实现高精度且实时的地图分割,为自动驾驶感知系统提供了有效的解决方案。

[49] OTTER: Open-Tagging via Text-Image Representation for Multi-modal Understanding

Jieer Ouyang,Xiaoneng Xiang,Zheng Wang,Yangkai Ding

Main category: cs.CV

TL;DR: OTTER是一个统一的开集多标签标注框架,结合了预定义类别集的稳定性和用户驱动开放标签的适应性,在多模态标注基准上表现优异。

  • Motivation: 为了解决多模态标注中预定义类别集的局限性,同时保持开放词汇的灵活性,需要一种能够兼顾稳定性和适应性的标注框架。
  • Method: 基于大规模分层组织的多模态数据集,采用多头注意力架构联合对齐视觉和文本表示与固定及开集标签嵌入,实现动态且语义一致的标注。
  • Result: 在两个基准数据集上,OTTER分别获得0.81和0.75的总体F1分数,比次优结果分别高出0.10和0.02,在开集标签上达到接近完美的性能(F1分别为0.99和0.97)。
  • Conclusion: OTTER有效桥接了闭集一致性与开词汇灵活性,为多模态标注应用提供了强大的解决方案。

[50] Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

Shaocong Zhu,Zhiwei Li,Xinghua Li,Huanfeng Shen

Main category: cs.CV

TL;DR: 提出了一种结合光谱特征和多尺度场景级深度网络的弱监督云检测方法SpecMCD,通过渐进训练框架和多尺度概率图融合,显著提高了云检测精度。

  • Motivation: 薄云缺乏显著特征以及训练样本质量低限制了深度学习云检测方法的精度,需要进一步改进。
  • Method: 使用渐进训练框架训练多尺度场景级云检测网络,结合多尺度概率图和云厚度图获得像素级云概率图,通过自适应阈值和距离加权优化生成二值云掩码。
  • Result: 在WDCD和GF1MS-WHU数据集上验证,相比其他弱监督方法,F1分数提高了7.82%以上。
  • Conclusion: SpecMCD方法在不同云覆盖条件下具有优越性和潜力,能够获得高精度的像素级云掩码。

[51] Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

Beomsu Kim,Byunghee Cha,Jong Chul Ye

Main category: cs.CV

TL;DR: 提出了一种名为Align Your Tangent (AYT)的新方法,通过引入流形特征距离(MFD)损失函数来加速一致性模型的训练,减少振荡性切线,实现更快的收敛和更好的样本质量。

  • Motivation: 一致性模型(CMs)虽然能实现一步或两步采样,但需要长时间训练和大批量才能获得有竞争力的样本质量。研究发现CMs在收敛附近的训练动态存在振荡性切线问题,即更新方向平行于数据流形而非指向流形。
  • Method: 提出流形特征距离(MFD)损失函数,该损失能提供流形对齐的切线,使更新方向指向数据流形。这种方法称为Align Your Tangent (AYT)。
  • Result: AYT方法能显著加速CM训练,训练速度提升数个数量级,甚至在LPIPS指标上表现更优。同时支持极小的批量训练而不影响样本质量。
  • Conclusion: 通过解决振荡性切线问题,AYT方法为一致性模型提供了更高效和稳定的训练方案,显著提升了训练效率和样本质量。

[52] Unsupervised Unfolded rPCA (U2-rPCA): Deep Interpretable Clutter Filtering for Ultrasound Microvascular Imaging

Huaying Li,Liansheng Wang,Yinran Chen

Main category: cs.CV

TL;DR: 提出了一种无监督展开的稳健主成分分析(U2-rPCA)方法,用于超声微血管成像中的杂波滤波,该方法结合了数学可解释性和无需学习标签的优势。

  • Motivation: 现有的SVD和rPCA杂波滤波方法在特征建模和组织-血流分离方面存在局限,而深度学习方法的可解释性差且缺乏体内外真实标签。
  • Method: 基于迭代重加权最小二乘(IRLS)rPCA基线展开,引入内在低秩和稀疏正则化,并添加稀疏增强单元以更好地捕捉稀疏微血流信号。
  • Result: 在仿真和公开体内数据集上的实验表明,U2-rPCA优于SVD方法、rPCA基线和另一种深度学习滤波器,将功率多普勒图像的对比度噪声比提高了2-10 dB。
  • Conclusion: U2-rPCA方法在保持数学可解释性的同时,无需学习标签,在超声微血管成像中实现了更优的杂波滤波性能。

[53] Multi-Domain Brain Vessel Segmentation Through Feature Disentanglement

Francesco Galati,Daniele Falcetta,Rosa Cortese,Ferran Prados,Ninon Burgos,Maria A. Zuluaga

Main category: cs.CV

TL;DR: 提出一个通过图像到图像翻译进行脑动脉和静脉分割的框架,使用解耦技术独立操作不同图像属性,在跨域时保持空间信息,实现多场景下的脑血管图像分割。

  • Motivation: 脑血管复杂形态给自动分割带来挑战,现有模型通常只关注单一成像模态,但准确治疗脑部疾病需要全面理解脑血管树,不受特定采集程序限制。
  • Method: 采用解耦技术独立操作图像属性,通过图像到图像翻译实现跨域分割,在适应过程中操纵血管外观同时保持空间信息(形状和位置)。
  • Result: 评估显示该框架能有效跨越医疗中心、图像模态和血管类型的大范围域差异,消融研究确定了所需标注数量和架构选择。
  • Conclusion: 该框架展现了鲁棒性和多功能性,证明了域适应方法在多场景下准确执行脑血管图像分割的潜力。

[54] A Geometric Unification of Generative AI with Manifold-Probabilistic Projection Models

Leah Bar,Liron Mor Yosef,Shai Zucker,Neta Shoham,Inbar Seroussi,Nir Sochen

Main category: cs.CV

TL;DR: 该论文提出了一个统一几何和概率视角的框架,将扩散模型解释为向"好图像"流形的投影机制,并构建了新的确定性模型MPPM,在潜在空间中优于现有扩散模型。

  • Motivation: 现有生成AI方法忽视了图像的几何结构,仅关注概率方法,且通常假设潜在空间的概率分布是均匀或无趣的。本研究旨在统一几何和概率视角。
  • Method: 提出了几何框架和基于核的概率方法,将扩散模型解释为向图像流形的投影机制,构建了确定性模型MPPM,在表示空间和潜在空间中运行。
  • Result: 潜在MPPM(LMPPM)在各种数据集上优于潜在扩散模型(LDM),在图像恢复和生成方面取得了更优越的结果。
  • Conclusion: 该研究成功统一了几何和概率视角,提出的MPPM框架为理解扩散模型提供了新视角,并在性能上超越了现有方法。

[55] Beyond one-hot encoding? Journey into compact encoding for large multi-class segmentation

Aaron Kujawa,Thomas Booth,Tom Vercauteren

Main category: cs.CV

TL;DR: 本文提出使用二进制编码替代one-hot编码来减少医学图像多类别分割的计算和内存需求,但面临分割性能下降的挑战。

  • Motivation: 标准学习方法使用one-hot编码,计算复杂度和内存需求随类别数量线性增长。本文旨在通过二进制编码方法将这些需求降低到对数级别。
  • Method: 研究了一系列二进制编码方法,包括普通二进制编码、纠错输出码(ECOC)、类别加权、硬/软解码、类别到码字分配以及标签嵌入树。
  • Result: 与one-hot编码(DSC=82.4)相比,二进制分割方法的性能下降,DSC范围在39.3到73.8之间。
  • Conclusion: 虽然二进制编码在计算效率上有优势,但在保持最先进分割质量方面面临挑战,希望这项工作能激发未来对大型多类别分割任务的紧凑编码策略研究。

[56] Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Jinchang Zhang,Zijun Li,Jiakai Lin,Guoyu Lu

Main category: cs.CV

TL;DR: 提出了一种事件-图像知识蒸馏框架,利用CLIP的语义理解能力在事件数据上实现开放词汇目标检测,通过空间注意力蒸馏和混合SNN-CNN架构解决事件数据模态差异和信息丢失问题。

  • Motivation: 事件相机在目标检测中具有高速响应、低延迟和抗运动模糊等优势,但缺乏纹理和颜色信息,使得开放词汇检测面临挑战。现有事件检测方法通常只能在预定义类别上训练,难以泛化到新物体。
  • Method: 使用图像帧作为教师模型输入,通过空间注意力蒸馏指导事件学生模型学习CLIP的视觉表示;设计混合SNN-CNN框架,SNN自适应确定最佳事件分割时刻,CNN处理提取的特征进行目标检测。
  • Result: 该方法能够从原始事件输入中学习有意义的视觉特征,同时继承CLIP的广泛视觉知识,避免了固定分组事件分割方法造成的关键时间信息丢失。
  • Conclusion: 提出的知识蒸馏框架成功弥合了图像和事件流之间的模态差距,实现了事件数据上的开放词汇目标检测,解决了事件相机在检测新物体时的泛化问题。

[57] ProtoMask: Segmentation-Guided Prototype Learning

Steffen Meinert,Philipp Schlinge,Nils Strodthoff,Martin Atzmueller

Main category: cs.CV

TL;DR: 本文提出ProtoMask模型,利用图像分割基础模型改进原型案例推理方法,通过将显著性图计算限制在预定义的语义图像块中来提高解释的可信度。

  • Motivation: 现有的基于原型案例推理的XAI方法通常依赖额外的后处理显著性技术来解释学习到的原型语义,但这些技术的可靠性和质量受到质疑。
  • Method: 使用图像分割基础模型生成分割掩码,通过每个掩码的边界框裁剪图像,构建名为ProtoMask的新模型架构,将显著性计算限制在语义图像块内。
  • Result: 在三个细粒度分类数据集上的实验表明,该模型具有竞争性的性能表现和独特的可解释性特征。
  • Conclusion: ProtoMask模型通过结合图像分割技术,有效提高了原型案例推理方法的解释可信度,在保持性能的同时提供了更好的可解释性。

[58] Graph Integrated Multimodal Concept Bottleneck Model

Jiakai Lin,Jinchang Zhang,Guoyu Lu

Main category: cs.CV

TL;DR: MoE-SGT是一个推理驱动的框架,通过图变换器和混合专家模块增强概念瓶颈模型,在多模态输入中建模概念的结构化关系,提升复杂概念推理能力。

  • Motivation: 传统概念瓶颈模型(CBMs)通常是单模态的,忽略了概念间的结构化关系,难以适应复杂的概念推理需求。
  • Method: 构建答案-概念和答案-问题图来显式建模概念关系,集成图变换器捕捉多层次依赖,并用混合专家模块替代前馈层以动态分配推理任务。
  • Result: MoE-SGT在多个数据集上比其他概念瓶颈网络实现了更高的准确率。
  • Conclusion: 通过建模概念间的结构化关系和动态专家选择机制,MoE-SGT显著提升了模型对复杂概念推理的适应能力。

[59] Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs

Sanghwan Kim,Rui Xiao,Stephan Alaniz,Yongqin Xian,Zeynep Akata

Main category: cs.CV

TL;DR: 提出基于MLLM内在不确定性的训练免费框架,通过响应熵值评估视觉输入重要性,提升细粒度多模态感知能力

  • Motivation: MLLM在细粒度感知(如高分辨率图像中的小物体识别、长视频关键时刻定位)方面表现不佳,现有方法依赖复杂任务特定微调,限制了泛化性并增加了模型复杂度
  • Method: 利用MLLM输出熵值作为主动引导信号,当模型获得相关视觉信息时输出熵值会降低,通过统一机制对候选视觉输入进行不确定性评分,使模型能自主关注最显著数据
  • Result: 在视觉搜索、长视频理解和时间定位三个复杂视觉任务中,现成的MLLM达到了与专门微调方法相竞争的性能
  • Conclusion: 利用内在不确定性是增强细粒度多模态性能的强大通用策略

[60] Deep learning motion correction of quantitative stress perfusion cardiovascular magnetic resonance

Noortje I. P. Schueler,Nathan C. K. Wong,Richard J. Crawley,Josien P. W. Pluim,Amedeo Chiribiri,Cian M. Scannell

Main category: cs.CV

TL;DR: 开发了一种基于无监督深度学习的运动校正管道,用于应力灌注心脏磁共振成像,替代传统的迭代配准方法,显著提高处理速度和鲁棒性。

  • Motivation: 传统基于配准的运动校正方法速度慢且对采集变异性敏感,限制了定量灌注成像的鲁棒性和可扩展性。
  • Method: 使用无监督深度学习进行一次性运动估计,通过三步校正流程,结合鲁棒主成分分析减少对比度相关影响,对齐灌注序列和辅助图像。
  • Result: 显著改善时间-强度曲线的时间平滑性,心肌对齐效果与基线相当但优于未配准状态,灌注图运动减少,处理时间缩短15倍。
  • Conclusion: 该深度学习管道实现了快速、鲁棒的运动校正,提高了动态和辅助图像的准确性,在多厂商数据上训练,可跨序列泛化,有助于定量灌注成像的临床推广。

[61] DEAP DIVE: Dataset Investigation with Vision transformers for EEG evaluation

Annemarie Hoffsommer,Helen Schneider,Svetlana Pavlitska,J. Marius Zöllner

Main category: cs.CV

TL;DR: 该研究探索使用少量EEG通道进行情绪预测,通过连续小波变换将脑电信号转换为尺度图,使用视觉变换器模型在仅12个通道的情况下实现了91.57%的四象限情绪分类准确率。

  • Motivation: 传统情绪评估方法(如自我报告和面部表情分析)存在主观性和模糊性,而完整EEG测量复杂且资源密集。低成本的简化EEG设备为情绪预测提供了更直接、无偏的数据源。
  • Method: 使用DEAP数据集中的EEG通道子集,通过连续小波变换将EEG数据转换为尺度图,然后训练视觉变换器模型进行情绪分类。
  • Result: 在仅使用12个测量点(通道)的情况下,模型在预测4个象限(高/低唤醒度和效价)时达到了91.57%的准确率,与使用32个通道的最先进结果96.9%相比表现优异。
  • Conclusion: 显著减少输入通道数量仍能获得高准确率,证明低成本EEG设备在情绪预测方面具有可行性,为实际应用提供了实用解决方案。

[62] Extreme Blind Image Restoration via Prompt-Conditioned Information Bottleneck

Hongeun Kim,Bryan Sangwoo Kim,Jong Chul Ye

Main category: cs.CV

TL;DR: 提出了一种解决极端盲图像恢复(EBIR)问题的新框架,通过分解ELQ到HQ的恢复过程,先映射到中间LQ流形,再使用现成的BIR模型恢复。

  • Motivation: 现有盲图像恢复方法在处理极端退化图像时效果不佳,因为ELQ到HQ的直接映射存在巨大域差距,容易产生伪影和细节丢失。
  • Method: 学习一个投影器将ELQ图像映射到中间LQ流形,然后使用冻结的现成BIR模型恢复为HQ。基于信息瓶颈理论推导训练目标,平衡低质量重建和高质量先验匹配。
  • Result: 在严重退化场景下进行了广泛实验,验证了方法的有效性,支持推理时提示优化和即插即用增强现有模型。
  • Conclusion: 该框架通过分解恢复过程解决了EBIR问题,提供了理论驱动的训练方法,能够有效处理极端退化图像。

[63] Defect Segmentation in OCT scans of ceramic parts for non-destructive inspection using deep learning

Andrés Laveda-Martínez,Natalia P. García-de-la-Puente,Fernando García-Torres,Niels Møller Israelsen,Ole Bang,Dominik Brouczek,Niels Benson,Adrián Colomer,Valery Naranjo

Main category: cs.CV

TL;DR: 基于深度学习的自动缺陷检测系统,使用U-Net架构在OCT图像上实现陶瓷制造中的内部缺陷检测,达到0.979 Dice Score的高精度。

  • Motivation: 陶瓷制造需要无损检测来确保组件质量而不损害其完整性,光学相干断层扫描(OCT)能够提供高分辨率内部成像,但需要自动化方法来检测孔隙、分层或夹杂物等缺陷。
  • Method: 开发基于U-Net架构的神经网络,在手动分割标注的OCT图像上进行训练,评估多种实验配置以提升性能,并采用后处理技术进行定量和定性评估。
  • Result: 系统表现出0.979 Dice Score的准确行为,优于可比研究,每体积18.98秒的推理时间支持其检测夹杂物的可行性。
  • Conclusion: 该系统实现了更高效、可靠和自动化的质量控制,为陶瓷制造中的无损检测提供了可行的解决方案。

[64] Multi-Objective Task-Aware Predictor for Image-Text Alignment

Eunki Kim,Na Min An,James Thorne,Hyunjung Shim

Main category: cs.CV

TL;DR: 提出了MULTI-TAP,一种用于评估图像-文本对齐的多目标任务感知预测器,能够同时进行多目标和单目标评分,在性能和效率上优于现有方法。

  • Motivation: 当前图像-文本对齐评估缺乏全面基准,现有预测器在人类判断对齐、长序列处理、推理效率和多目标评分适用性等方面存在不足。
  • Method: 使用预训练大型视觉语言模型的冻结隐藏状态,训练轻量级岭回归层,构建多目标评分预测器。
  • Result: MULTI-TAP在性能上显著优于现有指标,与GPT-4o基预测器相当但模型更小(7-8B),在多目标基准和新发布的EYE4ALL数据集上表现优于VisionREWARD。
  • Conclusion: MULTI-TAP为可靠视觉语言应用开发提供了强大的评估工具,新数据集EYE4ALL为开发更易访问的AI系统奠定了基础。

[65] ZQBA: Zero Query Black-box Adversarial Attack

Joana C. Costa,Tiago Roxo,Hugo Proença,Pedro R. M. Inácio

Main category: cs.CV

TL;DR: 提出了一种零查询黑盒对抗攻击方法ZQBA,利用深度神经网络的特征表示来生成对抗样本,无需多次查询或训练扩散模型。

  • Motivation: 现有黑盒对抗攻击方法需要多次查询或训练扩散模型来生成对抗样本,这在现实场景中应用受限。
  • Method: 使用DNN获取的特征图添加到干净图像中,以干扰目标模型的分类,实现单次查询即可生成有效对抗样本。
  • Result: ZQBA能够将对抗样本迁移到不同模型和数据集(CIFAR、Tiny ImageNet),在单次查询下比现有方法更有效,同时保持扰动不可感知。
  • Conclusion: 该方法揭示了DNN在现实应用中的脆弱性,提供了一种高效的黑盒攻击方案。

[66] Uncertainty-Aware Concept Bottleneck Models with Enhanced Interpretability

Haifei Zhang,Patrick Barry,Eduardo Brandao

Main category: cs.CV

TL;DR: 提出了一种用于概念瓶颈模型第二阶段的新型不确定性感知可解释分类器,通过学习二元类级概念原型来提升分类性能和不确定性传播能力。

  • Motivation: 概念瓶颈模型虽然提供可解释的分类流程,但预测性能通常低于端到端卷积神经网络,且概念预测到最终标签决策的不确定性传播研究不足。
  • Method: 学习一组二元类级概念原型,使用预测概念向量与每个类原型之间的距离作为分类分数和不确定性度量,这些原型也作为可解释的分类规则。
  • Result: 该框架通过基于学习到的二元类级概念原型的偏离,为不确定或异常输入启用符合性预测,从而增强了可解释性和鲁棒性。
  • Conclusion: 提出的方法在概念瓶颈模型的第二阶段实现了更好的不确定性传播和可解释性,同时保持了语义上有意义的分类流程。

[67] MetaLogic: Robustness Evaluation of Text-to-Image Models via Logically Equivalent Prompts

Yifan Shen,Yangyang Shu,Hye-young Paik,Yulei Sui

Main category: cs.CV

TL;DR: 提出了MetaLogic评估框架,用于检测文本到图像模型在语义一致性方面的缺陷,通过生成语法不同但语义相同的提示词对来识别模型的对齐失败问题。

  • Motivation: 现有的文本到图像模型在处理语义等效但语法不同的提示词时,经常产生不一致的图像,暴露了模型在推理和泛化方面的鲁棒性不足。
  • Method: 利用蜕变测试生成语义相同但语法不同的提示词对,直接比较生成的图像对来识别语义不一致性,无需依赖真实图像作为基准。
  • Result: 在多个最先进的文本到图像模型上评估发现,即使是Flux.dev和DALLE-3这样的先进模型也分别有59%和71%的对齐失败率。
  • Conclusion: MetaLogic框架能够有效、可扩展地发现现有评估指标忽略的细粒度逻辑不一致问题,为模型调试和改进提供了有价值的反例。

[68] Solar PV Installation Potential Assessment on Building Facades Based on Vision and Language Foundation Models

Ruyu Liu,Dongxu Zhuang,Jianhua Zhang,Arega Getaneh Abate,Per Sieverts Nielsen,Ben Wang,Xiufeng Liu

Main category: cs.CV

TL;DR: SF-SPA是一个自动化框架,利用街景照片评估建筑立面光伏潜力,结合计算机视觉和AI技术解决透视失真、语义理解和空间布局优化等挑战。

  • Motivation: 建筑立面是密集城市环境中未充分利用的太阳能资源,但由于复杂的几何形状和语义组件,评估其光伏潜力具有挑战性。
  • Method: 四阶段流水线:几何校正、零样本语义分割、LLM引导的空间推理和能量模拟,结合计算机视觉和人工智能技术。
  • Result: 在四个国家80栋建筑上验证,面积估计误差为6.2%±2.8%,每栋建筑评估时间约100秒,效率显著提升。
  • Conclusion: 该方法可靠且适用于区域潜力研究、城市能源规划和建筑一体化光伏部署,代码已开源。

[69] From Seeing to Predicting: A Vision-Language Framework for Trajectory Forecasting and Controlled Video Generation

Fan Yang,Zhiyang Chen,Yousong Zhu,Xin Li,Jinqiao Wang

Main category: cs.CV

TL;DR: 提出TrajVLM-Gen两阶段框架,通过视觉语言模型预测符合物理规律的运动轨迹,然后基于注意力机制进行视频生成,解决现有视频生成模型物理不一致性问题。

  • Motivation: 当前视频生成模型产生的运动在物理上不一致,违背真实世界动力学规律。
  • Method: 两阶段框架:1)使用视觉语言模型预测粗粒度运动轨迹;2)通过注意力机制以轨迹为指导进行细粒度运动优化的视频生成。基于视频跟踪数据构建轨迹预测数据集。
  • Result: 在UCF-101和MSR-VTT数据集上表现优于现有方法,分别获得545和539的FVD分数。
  • Conclusion: TrajVLM-Gen能够生成物理一致的运动视频,在标准基准测试中达到竞争性性能。

[70] What You See is What You Ask: Evaluating Audio Descriptions

Divy Kala,Eshika Khandelwal,Makarand Tapaswi

Main category: cs.CV

TL;DR: 提出了ADQA基准测试,用于评估音频描述在几分钟长视频片段中的质量,包括视觉欣赏和叙事理解问题,发现当前自动生成方法远不如人工创作。

  • Motivation: 现有自动音频描述生成工作主要关注几秒长的剪辑片段,且仅与单一参考AD比较,但AD写作具有主观性,需要更全面的评估方法。
  • Method: 通过分析同一电影的两个独立AD轨道来量化AD的主观性,提出ADQA基准测试,包含视觉欣赏和叙事理解两类问题,评估长视频片段的AD质量。
  • Result: 当前AD生成方法在ADQA基准测试中表现远不如人工创作的AD,揭示了现有方法的局限性。
  • Conclusion: 需要开发更好的AD生成方法,并建立了公开排行榜用于基准测试,为未来研究提供方向。

[71] PhraseStereo: The First Open-Vocabulary Stereo Image Segmentation Dataset

Thomas Campagnolo,Ezio Malis,Philippe Martinet,Gaetan Bahl

Main category: cs.CV

TL;DR: 提出了PhraseStereo数据集,这是首个将短语-区域分割引入立体图像对的新数据集,通过GenStereo从单视图数据生成准确的右视图图像,为立体视觉中的短语定位研究奠定基础。

  • Motivation: 现有的短语定位研究主要局限于单视图图像,忽略了立体视觉中丰富的几何线索。为了将短语定位扩展到立体领域,需要专门的数据集来支持多模态学习。
  • Method: 基于PhraseCut数据集,利用GenStereo从现有的单视图数据生成准确的右视图图像,创建包含对齐分割掩码和短语标注的立体图像对。
  • Result: 构建了PhraseStereo数据集,为语言、视觉和3D感知交叉领域的研究提供了基础,支持模型在语义和几何上进行联合推理。
  • Conclusion: PhraseStereo数据集填补了立体视觉中短语定位研究的空白,为开发能够利用深度线索进行更精确和上下文感知定位的模型创造了条件。

[72] NSARM: Next-Scale Autoregressive Modeling for Robust Real-World Image Super-Resolution

Xiangtao Kong,Rongyuan Wu,Shuaizheng Liu,Lingchen Sun,Lei Zhang

Main category: cs.CV

TL;DR: 提出NSARM框架,结合自回归模型和逐尺度预测策略,在真实图像超分辨率任务中实现高质量、高效率且鲁棒性强的结果

  • Motivation: 现有Real-ISR方法存在效率与质量权衡问题:基于扩散模型的方法要么速度慢,要么输出质量低;现有方法训练ControlNet或LoRA模块时容易产生过度增强伪影和幻觉,对输入图像质量变化鲁棒性差
  • Method: 采用两阶段训练:首先训练转换网络将低质量图像映射到初步尺度,然后进行端到端全模型微调;基于视觉自回归模型和逐尺度预测策略
  • Result: NSARM在定量和定性评估中均优于现有Real-ISR方法,保持快速推理速度,对输入图像质量变化具有更高鲁棒性,展现出更强的泛化性能
  • Conclusion: NSARM作为纯自回归模型,在真实图像超分辨率任务中实现了视觉质量、推理速度和鲁棒性的良好平衡

[73] Feature Identification for Hierarchical Contrastive Learning

Julius Ott,Nastassia Vysotskaya,Huawei Sun,Lorenzo Servadei,Robert Wille

Main category: cs.CV

TL;DR: 提出了两种新颖的层次对比学习方法(G-HMLC和A-HMLC),通过显式建模层次间的类间关系和类别不平衡,在CIFAR100和ModelNet40数据集上实现了最先进的性能。

  • Motivation: 传统分类方法往往忽略不同层次级别上固有的类间关系,从而丢失重要的监督信号。
  • Method: 提出了两种层次对比学习方法:基于高斯混合模型的G-HMLC和使用注意力机制捕捉层次特定特征的A-HMLC,模拟人类处理方式。
  • Result: 在CIFAR100和ModelNet40数据集上,在线性评估中实现了最先进的性能,比现有层次对比学习方法准确率提高了2个百分点。
  • Conclusion: 该方法通过显式建模层次间关系和类别不平衡,实现了在所有层次级别上的细粒度聚类,在计算机视觉等领域具有应用潜力。

[74] Can World Models Benefit VLMs for World Dynamics?

Kevin Zhang,Kuangzhi Ge,Xiaowei Chi,Renrui Zhang,Shaojun Shi,Zhen Dong,Sirui Han,Shanghang Zhang

Main category: cs.CV

TL;DR: 该论文提出World-Language Models (WorldLMs),将视频扩散模型重新用作生成编码器,通过单步去噪获得视觉嵌入,在视觉语言理解任务中展现出优于传统编码器的性能。

  • Motivation: 随着生成式世界模型的发展,研究它们是否能替代传统视觉编码器范式进行通用多模态理解,探索世界模型先验在视觉语言模型中的潜力。
  • Method: 将视频扩散模型重新用作生成编码器,执行单步去噪操作,将生成的潜在表示作为视觉嵌入,构建名为Dynamic Vision Aligner (DyVA)的最佳变体。
  • Result: WorldLMs能够捕获对下游理解有用的潜在表示,显著增强空间推理能力,使单图像模型能够进行多帧推理,在视觉推理任务中超越开源和专有基线,达到SOTA或相当性能。
  • Conclusion: WorldLMs通过继承视频预训练的运动一致性内部化获得优势,为利用世界模型先验的新型视觉语言模型家族开辟了道路,是通向通用视觉学习者的有希望路径。

[75] Gather-Scatter Mamba: Accelerating Propagation with Efficient State Space Model

Hyun-kyu Ko,Youbin Kim,Jihyeon Park,Dongheok Park,Gyeongjin Kang,Wonjun Cho,Hyung Yi,Eunbyung Park

Main category: cs.CV

TL;DR: 提出GSMamba,一种结合移位窗口自注意力和Mamba选择性扫描的混合架构,用于视频超分辨率,通过Gather-Scatter机制解决遮挡问题。

  • Motivation: 传统RNN方法存在梯度消失、缺乏并行性和推理速度慢的问题,而Transformer在长序列上计算复杂度高。Mamba虽然提供线性时间复杂度的选择性状态转移,但难以捕捉细粒度空间依赖。
  • Method: 结合移位窗口自注意力进行空间上下文聚合和Mamba选择性扫描进行高效时间传播,引入Gather-Scatter Mamba机制在Mamba传播前后对特征进行扭曲和散射。
  • Result: 提出的GSMamba架构有效减少了遮挡伪影,确保聚合信息在所有帧间的有效重新分布。
  • Conclusion: GSMamba通过混合注意力机制和选择性状态空间模型,在保持高效性的同时提升了视频超分辨率的性能。

[76] AI-CNet3D: An Anatomically-Informed Cross-Attention Network with Multi-Task Consistency Fine-tuning for 3D Glaucoma Classification

Roshan Kenia,Anfei Li,Rishabh Srivastava,Kaveri A. Thakoor

Main category: cs.CV

TL;DR: 提出了一种名为AI-CNet3D的新型混合深度学习模型,通过将交叉注意力机制集成到3D CNN中,从OCT体积中提取关键特征,提升青光眼分类性能,同时减少参数数量并保持高诊断性能。

  • Motivation: 传统将3D OCT体积压缩为2D报告的做法会导致关键结构细节丢失,需要一种能够保留3D结构信息并有效提取青光眼相关特征的方法。
  • Method: 使用混合深度学习模型,集成交叉注意力机制到3D CNN中,引入通道注意力表示(CAREs)进行可视化,并与Grad-CAMs对齐进行一致性多任务微调,通过沿两个轴分割体积并应用交叉注意力来捕捉半视网膜区域的不对称性。
  • Result: 在两个大型数据集上验证,模型在所有关键指标上优于最先进的注意力和卷积模型,计算效率高,参数数量减少100倍,同时保持高诊断性能和可比较的GFLOPS。
  • Conclusion: AI-CNet3D模型通过解剖学信息的交叉注意力网络有效提升了青光眼分类性能,具有良好的可解释性和计算效率。

[77] Intuitions of Machine Learning Researchers about Transfer Learning for Medical Image Classification

Yucheng Lu,Hubert Dariusz Zając,Veronika Cheplygina,Amelia Jiménez-Sánchez

Main category: cs.CV

TL;DR: 该研究通过任务型调查探讨医学影像迁移学习中源数据集选择决策,发现选择受任务依赖性、社区实践、数据集属性和相似性感知影响,挑战了"越相似越好"的传统观点。

  • Motivation: 医学影像迁移学习中,源数据集选择通常依赖研究者直觉而非系统原则,这会影响算法泛化性和患者预后,因此需要研究实践者的选择决策过程。
  • Method: 采用以人为中心的HCI视角,通过任务型调查与机器学习从业者进行访谈,不同于以往仅对模型和实验设置进行基准测试的方法。
  • Result: 发现选择决策具有任务依赖性,受社区实践、数据集属性、计算嵌入以及感知的视觉或语义相似性影响,但相似性评分与预期性能并不总是一致。
  • Conclusion: 通过澄清这些启发式方法,为迁移学习中更系统的源选择提供实用见解,建议需要更清晰的定义和HCI工具来使这些概念明确可用。

[78] PAL-Net: A Point-Wise CNN with Patch-Attention for 3D Facial Landmark Localization

Ali Shadman Yazdi,Annalisa Cappella,Benedetta Baldini,Riccardo Solazzo,Gianluca Tartaglia,Chiarella Sforza,Giuseppe Baselli

Main category: cs.CV

TL;DR: PAL-Net是一个用于3D面部扫描自动定位50个解剖标志点的深度学习流水线,结合了粗对齐、感兴趣区域过滤、初始近似和基于补丁的点状CNN注意力机制,在精度和计算成本之间取得了良好平衡。

  • Motivation: 手动标注3D面部扫描的解剖标志点耗时且依赖专业知识,而现有深度学习方法多关注伪标志点或需要复杂输入表示,限制了临床适用性。
  • Method: 结合粗对齐、感兴趣区域过滤、初始标志点近似,以及基于补丁的点状CNN增强注意力机制的全自动深度学习流水线。
  • Result: 在214个健康成人标注扫描上,平均定位误差为3.686毫米,解剖距离平均误差为2.822毫米,与观察者内变异性相当;在FaceScape数据集700个受试者上,点误差0.41毫米,距离误差0.38毫米。
  • Conclusion: PAL-Net在数据集和面部区域间具有良好泛化能力,在点状和结构评估中优于现有方法,为高通量3D人体测量分析提供了轻量级、可扩展的解决方案。

[79] Equivariant Splitting: Self-supervised learning from incomplete data

Victor Sechaud,Jérémy Scanvic,Quentin Barthélemy,Patrice Abry,Julián Tachella

Main category: cs.CV

TL;DR: 提出一种新的自监督学习策略,用于单次不完整观测模型下的逆问题重建,结合自监督分裂损失和等变重建网络实现无偏监督损失估计。

  • Motivation: 解决在难以获取真实参考数据时,基于学习的逆问题重建方法的需求,特别是在单次不完整观测模型下的挑战性场景。
  • Method: 引入重建网络等变性的新定义,结合自监督分裂损失和等变重建网络,实现无偏的监督损失估计。
  • Result: 在图像修复、加速磁共振成像和压缩感知等任务中,该方法在高度秩不足前向模型下达到了最先进的性能。
  • Conclusion: 所提出的自监督学习策略在单次不完整观测模型下有效,为难以获取真实参考数据的逆问题提供了可行的学习解决方案。

[80] Looking Alike From Far to Near: Enhancing Cross-Resolution Re-Identification via Feature Vector Panning

Zanwu Liu,Chao Yuan,Bo Li,Xiaowei Zhang,Guanglin Niu

Main category: cs.CV

TL;DR: 提出了一种轻量级的向量平移特征对齐框架,通过建模分辨率特定的特征差异来解决跨分辨率行人重识别问题,显著优于现有方法且效率更高。

  • Motivation: 监控场景中相机距离变化导致行人图像分辨率差异显著,使得低分辨率图像难以与高分辨率图像匹配,限制了行人重识别性能。现有方法依赖超分辨率或联合学习,增加了复杂度且性能已达瓶颈。
  • Method: 基于特征空间中分辨率差异语义方向的发现,提出向量平移特征对齐框架,通过建模分辨率特定特征差异来进行跨分辨率行人重识别。
  • Result: 在多个跨分辨率行人重识别基准测试中,该方法显著优于之前的最先进基线模型,同时获得更高的效率。
  • Conclusion: 基于特征空间中分辨率差异语义方向的新发现,提出的轻量级框架在跨分辨率行人重识别任务中表现出有效性和优越性。

[81] InfVSR: Breaking Length Limits of Generic Video Super-Resolution

Ziqing Zhang,Kai Liu,Zheng Chen,Xi Li,Yucong Chen,Bingnan Duan,Linghe Kong,Yulun Zhang

Main category: cs.CV

TL;DR: InfVSR是一种创新的视频超分辨率方法,将VSR重新定义为自回归一步扩散范式,实现了流式推理并充分利用预训练视频扩散先验,解决了长视频处理中的效率低下和可扩展性问题。

  • Motivation: 现有视频超分辨率方法在处理长序列时面临两个主要挑战:多步去噪导致的效率低下,以及时间分解引起的伪影和不连续性。需要一种能够高效处理无限长度视频的解决方案。
  • Method: 1) 将预训练的DiT适配为因果结构,通过滚动KV缓存和联合视觉指导保持局部和全局一致性;2) 将扩散过程高效蒸馏为单步,采用补丁级像素监督和跨块分布匹配。
  • Result: 该方法在长视频超分辨率领域达到最先进质量,语义一致性增强,相比MGLD-VSR等方法实现了高达58倍的加速。
  • Conclusion: InfVSR突破了长视频超分辨率的边界,为无限长度视频提供了高效且可扩展的解决方案,并建立了专门的长视频评估基准和语义级指标。

[82] JEPA-T: Joint-Embedding Predictive Architecture with Text Fusion for Image Generation

Siheng Wan,Zhengtao Yao,Zhengdao Li,Junhao Dong,Yanshu Li,Yikai Li,Linshan Li,Haoyan Xu,Yijiang Li,Zhikang Dong,Huacan Wang,Jifeng Shen

Main category: cs.CV

TL;DR: JEPA-T是一个统一的多模态框架,通过联合嵌入预测Transformer将图像和文本编码为离散标记,结合交叉注意力和原始文本嵌入注入来增强融合效果,在ImageNet-1K上表现出色。

  • Motivation: 现代文本到图像生成主要依赖基于标记的架构,但有效融合文本和视觉标记仍然是一个挑战。
  • Method: 将图像和标题编码为离散的视觉和文本标记,通过联合嵌入预测Transformer处理,加入交叉注意力进行条件去噪,并在训练时注入原始文本嵌入以改善对齐。
  • Result: 在ImageNet-1K上的评估显示,JEPA-T实现了强大的数据效率、开放词汇泛化能力,并始终优于非融合和后期融合基线。
  • Conclusion: 后期架构融合与目标级对齐相结合,在基于标记的文本到图像生成中提供了条件强度与骨干通用性之间的有效平衡。

[83] A Scene is Worth a Thousand Features: Feed-Forward Camera Localization from a Collection of Image Features

Axel Barroso-Laguna,Tommaso Cavallari,Victor Adrian Prisacariu,Eric Brachmann

Main category: cs.CV

TL;DR: FastForward是一种单次前向传播的视觉定位方法,能够快速构建场景表示并实时重定位查询图像,在保持高精度的同时显著减少建图时间。

  • Motivation: 现有视觉定位方法即使从已知相机姿态的建图图像开始,在最坏情况下仍需要数小时的建图时间,最佳情况也需要数分钟。本研究旨在探索是否能在更短时间内达到竞争性精度。
  • Method: 将多个建图图像表示为3D空间中锚定的特征集合,利用这些建图特征预测查询图像与场景的对应关系,从而估计相机姿态。结合图像检索技术实现高效定位。
  • Result: 与最小建图准备时间的其他方法相比,FastForward达到了最先进的精度水平,并且在未见过的领域(包括具有挑战性的大规模室外环境)展现出强大的泛化能力。
  • Conclusion: FastForward证明了通过单次前向传播实现快速而准确的视觉定位是可行的,为实时定位系统提供了新的可能性。

[84] Visual Self-Refinement for Autoregressive Models

Jiamian Wang,Ziqi Zhou,Chaithanya Kumar Mummadi,Sohail Dianat,Majid Rabbani,Raghuveer Rao,Chen Qiu,Zhiqiang Tao

Main category: cs.CV

TL;DR: 提出了一种即插即用的精炼模块,通过后预训练步骤联合优化自回归模型生成的所有视觉序列标记,增强视觉-语言建模中的空间对应关系建模。

  • Motivation: 自回归模型在序列建模中表现出色,但视觉信号的空间特性与下一标记预测的顺序依赖性存在冲突,导致次优结果。
  • Method: 设计了一个精炼模块,利用标记间的全局上下文和关系,在共享顺序预测框架下联合优化所有生成的标记。
  • Result: 实验表明该方法提高了生成质量,增强了模型产生语义一致结果的能力。
  • Conclusion: 提出的精炼模块有效缓解了顺序生成中的错误累积问题,提升了视觉-语言建模性能。

[85] SoftCFG: Uncertainty-guided Stable Guidance for Visual autoregressive Model

Dongli Xu,Aleksei Tiulpin,Matthew B. Blaschko

Main category: cs.CV

TL;DR: 提出了SoftCFG方法,通过不确定性引导的推理机制解决自回归模型中分类器自由引导存在的引导衰减和过度引导问题,在ImageNet 256上达到自回归模型中最优的FID分数。

  • Motivation: 自回归模型在图像生成中面临分类器自由引导的两个关键问题:引导衰减(条件-无条件差距随解码进程快速消失)和过度引导(强条件破坏视觉连贯性)。
  • Method: 提出SoftCFG方法,通过让每个生成token贡献确定性加权的引导,确保信号在步骤间持续存在;引入步骤归一化来限制SoftCFG的累积扰动;该方法无需训练、模型无关,可无缝集成到现有AR流程中。
  • Result: 实验表明SoftCFG显著优于标准CFG,在ImageNet 256上实现了自回归模型中最优的FID分数。
  • Conclusion: SoftCFG有效解决了自回归模型中CFG的引导衰减和过度引导问题,通过自适应扰动分布和步骤归一化实现了稳定高效的条件图像生成。

[86] TextCAM: Explaining Class Activation Map with Text

Qiming Zhao,Xingjian Li,Xiaoyu Cao,Xiaolong Wu,Min Xu

Main category: cs.CV

TL;DR: TextCAM是一种新的解释框架,通过将CAM与视觉语言模型结合,生成包含空间定位和语义描述的视觉模型解释。

  • Motivation: CAM及其变体虽然能突出显示影响预测的空间区域,但无法提供这些激活区域背后的语义信息,限制了在关键应用中的可信度。
  • Method: 结合CAM的空间定位能力和视觉语言模型的语义对齐,使用CLIP嵌入和线性判别分析获得通道级语义表示,并与CAM权重聚合生成文本描述。
  • Result: 在ImageNet、CLEVR和CUB数据集上的实验表明,TextCAM能生成忠实且可解释的推理,提高人类理解能力,检测虚假相关性,并保持模型保真度。
  • Conclusion: TextCAM通过融合空间定位和语义描述,为深度视觉模型提供了更丰富、更可解释的解释方法。

[87] POVQA: Preference-Optimized Video Question Answering with Rationales for Data Efficiency

Ashim Dahal,Ankit Ghimire,Saydul Akbar Murad,Nick Rahimi

Main category: cs.CV

TL;DR: 提出了POVQA,一种数据高效的视频问答管道,通过时间池化将每秒视频压缩为单张图像,并使用轻量级监督对齐大型视觉语言模型,显著提升了视频问答性能。

  • Motivation: 现有的大上下文/长视频问答方法虽然能处理1500+帧,但仅对应50秒视频且会丢失重要信息。需要更高效的方法来压缩视频信息并保持关键内容。
  • Method: 使用多种时间池化方法(混合模糊、加权平均、指数和斜坡池化)构建1fps输入源,在ReasonVQA数据集上对QWEN-2.5-VL 7B模型进行监督微调(SFT)和直接偏好优化(DPO)。
  • Result: 在ReasonVQA数据集上,性能显著提升:F1分数从0.212提高到0.543,BLEU-4从0.031提高到0.291,ROUGE-L从0.196提高到0.528。推理质量也显著提高。
  • Conclusion: 该方法在不同池化方案下都保持性能增益,表明在时间证据总结方面具有强鲁棒性。在TVQA上的零样本评估也得到类似观察结果。

[88] ImageDoctor: Diagnosing Text-to-Image Generation via Grounded Image Reasoning

Yuxiang Guo,Jiang Liu,Ze Wang,Hao Chen,Ximeng Sun,Yang Zhao,Jialian Wu,Xiaodong Yu,Zicheng Liu,Emad Barsoum

Main category: cs.CV

TL;DR: ImageDoctor是一个统一的多方面文本到图像模型评估框架,通过四个维度评估图像质量并提供像素级缺陷热图,显著优于基于标量的奖励模型。

  • Motivation: 现有方法通常使用单一标量量化生成图像质量,无法提供全面且可解释的图像质量反馈。
  • Method: 引入"观察-思考-预测"范式,首先定位潜在缺陷,然后生成推理,最后给出定量评分;基于视觉语言模型,结合监督微调和强化学习训练。
  • Result: 在多个数据集上与人类偏好高度一致,作为奖励模型使用时比标量奖励模型提升10%的生成质量。
  • Conclusion: ImageDoctor作为评估指标有效,作为偏好调优的奖励模型能显著提高生成质量。

[89] Towards Adversarial Training under Hyperspectral Images

Weihua Zhang,Chengze Jiang,Jie Gui,Lu Dong

Main category: cs.CV

TL;DR: 该论文提出了一种名为AT-RA的新型高光谱对抗训练方法,通过数据增强和空间平滑性处理来保护光谱语义信息,显著提高了高光谱分类模型的对抗鲁棒性。

  • Motivation: 现有基于深度学习的高光谱分类模型容易受到对抗攻击,而现有的防御方法通常依赖定制化设计,可扩展性差且无法有效防御强攻击。
  • Method: 将对抗训练引入高光谱领域,提出AT-RA方法,通过数据增强增加光谱信息多样性,并确保空间平滑性来保护和修正高光谱图像中的光谱语义信息。
  • Result: 实验结果显示,AT-RA方法将对抗鲁棒性提高了21.34%(针对AutoAttack)和18.78%(针对PGD-50),同时将良性准确率提高了2.68%。
  • Conclusion: 对抗训练是提高高光谱模型对抗鲁棒性的有效方法,但高光谱数据具有独特挑战,需要专门的处理方法来保护光谱语义信息。

[90] Secure and reversible face anonymization with diffusion models

Pol Labarbarie,Vincent Itier,William Puech

Main category: cs.CV

TL;DR: 提出首个基于扩散模型的安全、高质量可逆人脸匿名化方法,通过结合密钥与潜在人脸表示,在保持图像质量的同时实现可逆恢复。

  • Motivation: 当前人脸匿名化方法难以在安全方案、高质量图像生成和后续身份认证可逆性之间取得良好平衡,扩散模型缺乏密钥机制确保只有授权方才能逆转过程。
  • Method: 将密钥与扩散模型的潜在人脸表示相结合,通过面部掩码约束生成以保留身份无关特征,使用确定性前向和后向扩散过程确保原始人脸可通过正确密钥恢复。
  • Result: 该方法生成的人脸匿名化图像与原始人脸视觉相似度更低,相比先前工作具有更好的匿名效果。
  • Conclusion: 该方法实现了安全、高质量的可逆人脸匿名化,为隐私保护提供了有效解决方案。

[91] Authentic Discrete Diffusion Model

Xiao Li,Jiaqi Zhang,Shuxiang Zhang,Tianshui Chen,Liang Lin,Guangrun Wang

Main category: cs.CV

TL;DR: 提出了Authentic Discrete Diffusion (ADD)框架,直接在one-hot空间中保持扩散核心特性,通过协调机制重新定义伪离散扩散方法。

  • Motivation: 传统伪离散扩散方法依赖连续潜在空间扩散或掩码策略,ADD旨在直接在one-hot空间中实现真正的离散扩散,弥合判别式与生成式学习之间的鸿沟。
  • Method: 使用浮点编码的one-hot类数据作为扩散输入,引入时间步条件交叉熵损失,在扩散模型输出与原始one-hot标签之间建立联系。
  • Result: 在分类任务上表现优于基线,在图像描述文本生成方面展现出优秀能力,各组件通过消融实验验证了可衡量的增益。
  • Conclusion: ADD框架成功实现了在one-hot空间中的真实离散扩散,为离散数据的扩散模型提供了新范式,在分类和生成任务上均取得良好效果。

[92] KeySG: Hierarchical Keyframe-Based 3D Scene Graphs

Abdelrhman Werby,Dennis Rotondi,Fabio Scaparro,Kai O. Arras

Main category: cs.CV

TL;DR: KeySG是一个将3D场景表示为分层图(包含楼层、房间、物体和功能元素)的框架,通过多模态信息和关键帧优化来增强节点表示,利用VLM提取场景信息,无需显式建模物体间关系,支持更通用的任务无关推理和规划。

  • Motivation: 现有3D场景图方法在语义上受限于预定义的关系集,且在大型环境中序列化时容易超出LLM的上下文窗口,需要更高效、更通用的场景表示方法。
  • Method: 使用分层图结构表示3D场景,节点通过多模态信息增强,选择关键帧优化几何和视觉覆盖,利用VLM提取场景信息,采用分层RAG管道提取相关上下文。
  • Result: 在四个不同基准测试(包括3D物体分割和复杂查询检索)中,KeySG在大多数指标上优于先前方法,展示了其优越的语义丰富性和效率。
  • Conclusion: KeySG通过分层图表示和关键帧优化,有效解决了3D场景图的语义限制和可扩展性问题,为复杂环境中的机器人推理和规划提供了更强大的支持。

[93] Instant4D: 4D Gaussian Splatting in Minutes

Zhanpeng Luo,Haoxi Ran,Li Lu

Main category: cs.CV

TL;DR: Instant4D是一个单目重建系统,使用原生4D表示法在几分钟内高效处理非标定视频序列,无需标定相机或深度传感器。

  • Motivation: 动态视图合成已有显著进展,但从非标定、随意拍摄的视频重建场景仍然具有挑战性,因为优化速度慢且参数估计复杂。
  • Method: 通过深度视觉SLAM进行几何恢复,然后通过网格剪枝优化场景表示。引入简化的4D高斯表示来处理时间动态。
  • Result: 模型大小减少到原始尺寸的10%以下,训练速度提升30倍,训练时间控制在2分钟内,在多个基准测试中保持竞争力。
  • Conclusion: 该系统能在10分钟内重建单个视频,并在野外视频中展示了良好的泛化能力。

[94] Strategic Fusion of Vision Language Models: Shapley-Credited Context-Aware Dawid-Skene for Multi-Label Tasks in Autonomous Driving

Yuxiang Feng,Keyang Zhang,Hassane Ouchouid,Ashwil Kaniamparambil,Ioannis Souflas,Panagiotis Angeloudis

Main category: cs.CV

TL;DR: 提出了一种基于博弈论的融合方法Shapley-credited Context-Aware Dawid-Skene with Agreement,用于多标签理解自动驾驶车载视频,通过计算模型可靠性、上下文先验和声誉状态来生成校准的后验概率,显著提升了多模型融合的性能。

  • Motivation: 大型视觉语言模型在自动驾驶系统中应用日益广泛,但幻觉问题限制了其在安全关键流程中的可靠性,需要开发能够校准多模型输出的融合方法。
  • Method: 使用博弈论融合方法,学习每个模型在特定标签和上下文条件下的可靠性,将模型报告转换为受协议保护的似然比,结合上下文先验和基于Shapley值的团队信用更新的公共声誉状态。
  • Result: 与最佳单一模型相比,该方法实现了23%的汉明距离减少、55%的宏F1改进和47%的微F1改进,支持VLM融合作为自动驾驶流程中校准、可解释和鲁棒的决策支持组件。
  • Conclusion: 该方法能够放大可靠模型间的一致性,保留独特正确的单模型信号,并适应漂移,为自动驾驶系统提供了有效的多模型融合解决方案。

[95] Code2Video: A Code-centric Paradigm for Educational Video Generation

Yanzhe Chen,Kevin Qinghong Lin,Mike Zheng Shou

Main category: cs.CV

TL;DR: Code2Video是一个基于代码的智能体框架,通过可执行Python代码生成教育视频,包含规划器、编码器和批评器三个协作智能体,在MMMC基准测试中表现优于直接代码生成方法。

  • Motivation: 现有生成模型在制作专业教育视频方面存在局限,无法满足学科知识、精确视觉结构和连贯过渡的要求,而这些需求更适合通过可渲染环境的操作来解决。
  • Method: 提出Code2Video框架,包含三个智能体:Planner将讲座内容结构化并准备视觉资产;Coder将结构化指令转换为可执行Python代码,采用范围引导自动修复;Critic利用视觉语言模型优化空间布局和清晰度。
  • Result: 在MMMC基准测试中,Code2Video相比直接代码生成方法有40%的改进,生成的视频质量可与人工制作的教程相媲美。
  • Conclusion: Code2Video展示了作为可扩展、可解释和可控方法的潜力,为教育视频生成提供了新的解决方案。

[96] EvoWorld: Evolving Panoramic World Generation with Explicit 3D Memory

Jiahao Wang,Luoxin Ye,TaiMing Lu,Junfei Xiao,Jiahan Zhang,Yuxiang Guo,Xijun Liu,Rama Chellappa,Cheng Peng,Alan Yuille,Jieneng Chen

Main category: cs.CV

TL;DR: EvoWorld是一个结合全景视频生成与演化3D记忆的世界模型,能够实现空间一致的长时程环境探索。通过单张全景图像输入,系统生成未来视频帧、演化3D重建,并利用几何重投影作为空间引导来增强视觉真实性和几何一致性。

  • Motivation: 受人类在体验过的3D环境中进行心理探索和回放能力的启发,旨在开发能够实现空间一致长时程探索的世界模型。
  • Method: 1) 使用具有细粒度视角控制的视频生成器生成未来视频帧;2) 通过前馈即插即用transformer演化场景的3D重建;3) 基于演化3D记忆的几何重投影来合成未来场景。
  • Result: 在合成户外环境、Habitat室内场景和真实世界场景的基准测试中,EvoWorld在视觉保真度和空间场景一致性方面显著优于现有方法,特别是在环回检测和长轨迹空间连贯性方面表现优异。
  • Conclusion: 演化3D记忆作为显式空间引导显著提升了视频生成过程的视觉真实性和几何一致性,代表了长时程空间一致世界建模的重要进展。

[97] IMAGEdit: Let Any Subject Transform

Fei Shen,Weihao Xu,Rui Yan,Dong Zhang,Xiangbo Shu,Jinhui Tang

Main category: cs.CV

TL;DR: IMAGEdit是一个无需训练的视频多主体编辑框架,能够同时编辑任意数量的视频主体外观,同时保留非目标区域,无需微调或重新训练。

  • Motivation: 解决现有视频编辑方法在多主体编辑时存在的多模态条件不足和掩码边界纠缠问题,扩展视频编辑的适用性。
  • Method: 通过提示引导的多模态对齐模块和基于先验的掩码重定向模块提供鲁棒的多模态条件和精确的掩码序列,然后利用预训练的掩码驱动视频生成模型合成编辑后的视频。
  • Result: 在新构建的多主体基准MSVBench上的广泛实验验证,IMAGEdit始终优于最先进的方法,并显著提升整体性能。
  • Conclusion: IMAGEdit具有强大的泛化能力,能够处理任意数量主体的视频编辑,且兼容任何掩码驱动视频生成模型,显著扩展了视频编辑的适用性。

cs.RO

[98] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

Hengtao Li,Pengxiang Ding,Runze Suo,Yihao Wang,Zirui Ge,Dongyuan Zang,Kexian Yu,Mingyang Sun,Hongyin Zhang,Donglin Wang,Weihua Su

Main category: cs.RO

TL;DR: VLA-RFT是一个基于世界模型的强化微调框架,通过数据驱动的可控模拟器来增强视觉-语言-动作模型的泛化性和鲁棒性,仅需不到400步微调即可超越监督基线。

  • Motivation: 现有的视觉-语言-动作模型严重依赖模仿学习,导致误差累积和分布偏移下的鲁棒性差。强化学习可以缓解这些问题,但需要昂贵的真实交互或面临模拟到现实的差距。
  • Method: 使用从真实交互数据训练的数据驱动世界模型作为可控模拟器,该模拟器根据动作预测未来视觉观察,允许策略展开并获得基于目标达成参考的密集轨迹级奖励。
  • Result: 仅需不到400步微调,VLA-RFT就超越了强监督基线,比基于模拟器的强化学习更高效,并在扰动条件下表现出强大的鲁棒性,保持稳定的任务执行。
  • Conclusion: 基于世界模型的强化微调是一种实用的后训练范式,可有效增强VLA模型的泛化性和鲁棒性。

[99] Hybrid Training for Vision-Language-Action Models

Pietro Mazzaglia,Cansu Sancaktar,Markus Peschl,Daniel Dijkman

Main category: cs.RO

TL;DR: 提出Hybrid Training (HyT)框架,让视觉语言动作模型在训练时学习思维链,但在推理时可以选择跳过思维生成直接输出动作,从而提高推理速度。

  • Motivation: 思维链(CoT)方法虽然能提升复杂任务性能,但会显著增加推理时间,这在需要实时动作的机器人操作场景中影响可用性。
  • Method: HyT框架让模型在训练时学习思维链,但在推理时可以选择直接输出动作,同时支持条件化预测多种输出类型。
  • Result: 在模拟基准测试和真实世界实验中验证了方法的有效性。
  • Conclusion: HyT框架能够在保持性能提升的同时显著减少推理延迟,为机器人操作等实时应用提供了实用的解决方案。

[100] HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy

Myungkyu Koo,Daewon Choi,Taeyoung Kim,Kyungmin Lee,Changyeon Kim,Youngyo Seo,Jinwoo Shin

Main category: cs.RO

TL;DR: HAMLET是一个可扩展框架,通过引入时刻令牌和轻量级记忆模块,使视觉-语言-动作模型能够利用历史上下文进行动作预测,显著提升了历史依赖任务的性能。

  • Motivation: 现有的视觉-语言-动作模型仅依赖当前观察,忽略了历史上下文,而机器人操作任务本质上是历史依赖的,利用过去上下文可能带来益处。
  • Method: 提出时刻令牌来紧凑编码每个时间步的感知信息,通过时间对比学习初始化表示;使用轻量级记忆模块整合过去时间步的时刻令牌为记忆特征,用于动作预测。
  • Result: 在GR00T N1.5上,HAMLET在历史依赖的真实世界任务中达到76.4%的平均成功率,比基线提升47.2%;在RoboCasa Kitchen上将性能从64.1%提升到66.4%,在LIBERO上从95.6%提升到97.7%。
  • Conclusion: HAMLET成功将最先进的VLA转化为历史感知策略,特别是在需要历史上下文的长时程任务上表现出显著改进,证明了其在通用机器人操作基准上的有效性。

cs.CR

[101] EditTrack: Detecting and Attributing AI-assisted Image Editing

Zhengyuan Jiang,Yuyang Zhang,Moyang Guo,Neil Zhenqiang Gong

Main category: cs.CR

TL;DR: 提出了EditTrack框架,用于检测图像是否由特定基础图像通过AI编辑模型编辑而来,并能识别具体的编辑模型。

  • Motivation: 现有方法只能检测图像是否被AI编辑,无法判断是否从特定基础图像编辑而来,也无法识别具体使用的编辑模型。
  • Method: 基于对编辑过程的四个关键观察,提出重新编辑策略和精心设计的相似性度量方法。
  • Result: 在5个最先进编辑模型和6个数据集上的评估显示,EditTrack在检测和归因方面表现准确,显著优于5个基线方法。
  • Conclusion: EditTrack是首个解决图像编辑检测和归因问题的框架,能有效识别图像编辑来源和具体编辑模型。

cs.GR

[102] Motion In-Betweening for Densely Interacting Characters

Xiaotang Zhang,Ziyi Chang,Qianhui Men,Hubert P. H. Shum

Main category: cs.GR

TL;DR: 提出了一种用于双角色长时程交互中间帧生成的方法,通过跨空间建模和对抗学习来维持交互质量和运动质量

  • Motivation: 传统中间帧生成方法主要针对单个角色,扩展到密集交互角色时面临巨大挑战,需要精确的时空对应来维持交互,同时创建自然过渡到预定义关键姿势
  • Method: 提出跨空间中间帧生成方法,在不同条件表示空间中建模每个角色的交互;通过对抗学习识别周期性交互模式来维持交互质量;通过学习精炼漂移的潜在空间来防止姿态误差累积
  • Result: 方法能够生成逼真、可控、长时程的双角色中间运动,支持动态拳击和舞蹈动作,经过广泛的定量评估和用户研究验证
  • Conclusion: 该方法成功解决了双角色交互中间帧生成的挑战,能够维持长期交互和运动质量,在稳定的解空间中生成高质量的运动序列

[103] ReSWD: ReSTIR'd, not shaken. Combining Reservoir Sampling and Sliced Wasserstein Distance for Variance Reduction

Mark Boss,Andreas Engelhardt,Simon Donné,Varun Jampani

Main category: cs.GR

TL;DR: 提出了Reservoir SWD (ReSWD)方法,通过加权储层采样技术降低Sliced Wasserstein距离的方差,从而获得更稳定的梯度和更快的收敛速度。

  • Motivation: 高维分布中Wasserstein距离计算成本过高,而Sliced Wasserstein距离的蒙特卡洛估计器存在高方差问题,导致梯度噪声大且收敛慢。
  • Method: 将加权储层采样整合到SWD中,在优化步骤中自适应保留信息丰富的投影方向,保持无偏性的同时降低方差。
  • Result: 在合成基准测试和实际任务(如色彩校正和扩散引导)中,ReSWD始终优于标准SWD和其他方差减少基线方法。
  • Conclusion: ReSWD通过降低SWD的方差,提供了更稳定的梯度和更快的收敛,在多种视觉和图形任务中表现出色。

[104] Audio Driven Real-Time Facial Animation for Social Telepresence

Jiye Lee,Chenghui Li,Linh Tran,Shih-En Wei,Jason Saragih,Alexander Richard,Hanbyul Joo,Shaojie Bai

Main category: cs.GR

TL;DR: 提出了一种音频驱动的实时3D面部动画系统,通过扩散模型实现低延迟(<15ms)的光真实感面部表情生成,适用于VR社交互动。

  • Motivation: 为虚拟现实中的社交互动开发实时、低延迟的光真实感面部动画系统,使任何人都能使用。
  • Method: 使用编码器将音频信号转换为潜在面部表情序列,通过扩散模型解码为3D面部动画。关键创新包括在线变压器消除对未来输入的依赖,以及蒸馏管道将迭代去噪加速为单步处理。
  • Result: 相比现有离线方法,面部动画准确性显著提升,推理速度提高100-1000倍,在VR演示和多语言场景中验证有效。
  • Conclusion: 该系统成功实现了实时、高质量的面部动画生成,为VR社交互动提供了实用解决方案。

eess.IV

[105] Enhancing Safety in Diabetic Retinopathy Detection: Uncertainty-Aware Deep Learning Models with Rejection Capabilities

Madhushan Ramalingam,Yaish Riaz,Priyanthi Rajamanoharan,Piyumi Dasanayaka

Main category: eess.IV

TL;DR: 该论文研究糖尿病视网膜病变诊断中的不确定性感知深度学习模型,通过拒绝机制处理低置信度预测,在临床实践中实现延迟决策。

  • Motivation: 深度学习模型在糖尿病视网膜病变诊断中表现出色,但仅依赖模型预测而不考虑置信度会在临床环境中带来风险和不确定性。
  • Method: 采用变分贝叶斯模型和拒绝机制,拒绝低置信度预测,评估指标包括接受预测的准确率、覆盖率、拒绝率和预期校准误差。
  • Result: 结果显示预测覆盖率与可靠性之间存在权衡,变分贝叶斯模型在预测DR时采取更保守策略,拒绝不确定预测。
  • Conclusion: 使用不确定性估计和选择性拒绝可提高模型在安全关键诊断用例中的可靠性,存在准确性与谨慎性之间的明确权衡。

[106] Deep Learning-Based Pneumonia Detection from Chest X-ray Images: A CNN Approach with Performance Analysis and Clinical Implications

P K Dutta,Anushri Chowdhury,Anouska Bhattacharyya,Shakya Chakraborty,Sujatra Dey

Main category: eess.IV

TL;DR: 该研究开发了一个基于卷积神经网络的深度学习系统,用于从胸部X光图像中自动检测肺炎,通过数据增强和自适应学习率策略训练,准确率达到91%,并解决了临床实施中的数据隐私、模型可解释性等关键问题。

  • Motivation: 深度学习在医学影像系统中的集成已经改变了疾病检测和诊断过程,本研究专注于肺炎识别,旨在提高诊断精度和速度,同时解决临床实施中的关键障碍。
  • Method: 提出的CNN架构集成了可分离卷积、批量归一化和dropout正则化等先进方法,通过数据增强技术和自适应学习率策略在大量胸部X光图像上进行训练,并整合医学本体和语义技术来提高诊断准确性。
  • Result: 模型在多项评估指标上表现优异,准确率达到91%,证明了AI驱动的医疗工具作为可扩展、高效的肺炎检测解决方案的有效性。
  • Conclusion: 该研究通过开发更精确的自动化诊断方法,推进了AI在临床环境中的集成,能够提供一致的医学影像结果,并增强了AI诊断的可靠性。

[107] Deep Learning Approaches with Explainable AI for Differentiating Alzheimer Disease and Mild Cognitive Impairment

Fahad Mostafa,Kannon Hossain,Hafiz Khan

Main category: eess.IV

TL;DR: 提出了一种混合深度学习集成框架,使用结构磁共振成像进行阿尔茨海默病分类,通过集成ResNet50、NASNet和MobileNet等预训练网络,结合堆叠集成学习和加权平均策略,在ADNI数据集上取得了最先进的分类准确率。

  • Motivation: 阿尔茨海默病的早期准确诊断对于临床干预至关重要,特别是需要将其与轻度认知障碍区分开来,后者是前驱阶段,具有细微的结构变化。
  • Method: 使用灰质和白质切片作为输入,通过三个预训练的卷积神经网络(ResNet50、NASNet、MobileNet)进行端到端微调,采用堆叠集成学习策略和加权平均来优化基础模型组合。
  • Result: 在ADNI数据集上,该方法在阿尔茨海默病vs轻度认知障碍分类中达到99.21%的准确率,在轻度认知障碍vs正常对照组分类中达到91.0%的准确率,优于传统的迁移学习和基线集成方法。
  • Conclusion: 该框架在神经退行性疾病诊断中具有稳健和可扩展的临床决策支持潜力,通过可解释AI技术揭示了影响模型决策的结构生物标志物。

[108] AI-Based Stroke Rehabilitation Domiciliary Assessment System with ST_GCN Attention

Suhyeon Lim,Ye-eun Kim,Andrew J. Choi

Main category: eess.IV

TL;DR: 提出基于AI的家庭康复系统,使用RGB-D相机和可穿戴传感器捕捉中风患者动作,通过深度学习模型RAST-G@评估康复训练质量,为患者提供实时反馈。

  • Motivation: 中风康复需要与日常生活相结合的持续康复训练,但传统康复方法难以在家中实现定量评估和持续监测。
  • Method: 系统包含硬件设备(RGB-D相机和可穿戴传感器)、移动应用和AI服务器。使用ST-GCN提取骨骼特征,结合transformer时间注意力机制评估动作质量。构建NRC数据集包含10种ADL和5种ROM活动。
  • Result: 在KIMORE和NRC数据集上,RAST-G@模型在MAD、RMSE和MAPE指标上优于基线方法,系统能提供以患者为中心的评估和监测反馈。
  • Conclusion: 该系统为家庭康复提供了一种可扩展的定量和一致性评估方法。

[109] Latent Representation Learning from 3D Brain MRI for Interpretable Prediction in Multiple Sclerosis

Trinh Ngoc Huynh,Nguyen Duc Kien,Nguyen Hai Anh,Dinh Tran Hiep,Manuela Vaneckova,Tomas Uher,Jeroen Van Schependom,Stijn Denissen,Tran Quoc Long,Nguyen Linh Trung,Guy Nagels

Main category: eess.IV

TL;DR: InfoVAE-Med3D是一种用于3D脑部MRI的潜在表示学习方法,通过最大化图像与潜在变量之间的互信息,生成紧凑、结构化的嵌入,用于认知衰退的可解释生物标志物分析。

  • Motivation: 标准统计模型和浅层机器学习方法缺乏能力,而大多数深度学习方法表现为黑盒。需要一种既能保持预测性能又具有可解释性的方法来分析认知衰退。
  • Method: 扩展InfoVAE方法,明确最大化图像与潜在变量之间的互信息,生成保留临床意义内容的紧凑结构化嵌入。在两个队列上进行评估:健康对照组(n=6527)和临床多发性硬化数据集(n=904)。
  • Result: 学习的潜在变量支持准确的脑年龄和SDMT回归,保留关键医学属性,并形成直观的聚类。在重建和下游预测任务中,InfoVAE-Med3D始终优于其他VAE变体。
  • Conclusion: InfoVAE-Med3D通过结合预测性能和可解释性,为基于MRI的生物标志物和神经系统疾病中认知衰退的透明分析提供了实用路径。

[110] DPsurv: Dual-Prototype Evidential Fusion for Uncertainty-Aware and Interpretable Whole-Slide Image Survival Prediction

Yucheng Xing,Ling Huang,Jingying Ma,Ruping Hong,Jiangdong Qiu,Pei Liu,Kai He,Huazhu Fu,Mengling Feng

Main category: eess.IV

TL;DR: DPsurv是一个双原型全切片图像证据融合网络,用于癌症生存分析,能够输出不确定性感知的生存区间,并通过补丁原型分配图、组件原型和组件相对风险聚合提供预测解释。

  • Motivation: 现有WSI生存分析方法存在可解释性有限和忽略异质性切片图像中预测不确定性的问题。
  • Method: 提出DPsurv双原型全切片图像证据融合网络,结合补丁原型分配图、组件原型和组件相对风险聚合来实现不确定性感知的生存预测和解释。
  • Result: 在五个公开数据集上实现了最高的平均一致性指数和最低的平均集成Brier分数,验证了方法的有效性和可靠性。
  • Conclusion: DPsurv在特征、推理和决策层面提供了透明度,增强了模型的可信度和可解释性。

[111] Adapting Large Language Models to Mitigate Skin Tone Biases in Clinical Dermatology Tasks: A Mixed-Methods Study

Kiran Nijjer,Ryan Bui,Derek Jiu,Adnan Ahmed,Peter Wang,Benjamin Liu,Kevin Zhu,Lilly Zhu

Main category: eess.IV

TL;DR: SkinGPT-4在皮肤疾病诊断中存在肤色偏见,对深色肤色的诊断准确性较低。研究通过微调模型和偏见缓解策略,开发了更公平的自定义皮肤疾病分类模型。

  • Motivation: SkinGPT-4的训练数据主要代表浅色肤色,限制了其在深色肤色上的诊断准确性,需要评估和改进模型在不同肤色上的性能公平性。
  • Method: 使用SCIN数据集评估SkinGPT-4在常见皮肤疾病上的性能偏见,开发微调模型用于自定义皮肤疾病分类,并探索偏见缓解策略。由认证皮肤科医生对300个病例进行临床评估。
  • Result: SkinGPT-4在不同肤色间的平均人口统计均等性为0.10,最浅和最深肤色间差异达0.10-0.15。自定义模型在视觉相似疾病对上平均F1、精确度和AUROC分别为0.75、0.78和0.78,公平性分析显示平均人口统计均等性为0.75。
  • Conclusion: 大型语言模型如SkinGPT-4在深色肤色上表现较弱,存在模型偏见和幻觉问题。使用现有骨干网络训练准确、公平的模型是有效的解决方案。

[112] Variable Rate Image Compression via N-Gram Context based Swin-transformer

Priyanka Mudgal,Feng Liu

Main category: eess.IV

TL;DR: 提出了一种基于N-gram上下文的Swin Transformer图像压缩方法,使用单一模型实现可变速率压缩,通过扩大感受野改善高分辨率图像重建质量。

  • Motivation: 解决Swin Transformer在高分辨率图像重建中由于受限感受野而忽略较大区域的问题,提升像素恢复的质量。
  • Method: 将N-gram上下文整合到Swin Transformer中,扩展相邻窗口间的上下文感知能力。
  • Result: 相比现有可变速率学习图像压缩技术,BD-Rate提升了-5.86%,并改善了图像中感兴趣区域(ROI)的质量。
  • Conclusion: 该方法特别适用于制造和工业视觉系统等对象聚焦的应用领域,能有效提升高分辨率重建质量。

[113] Survey of AI-Powered Approaches for Osteoporosis Diagnosis in Medical Imaging

Abdul Rahman,Bumshik Lee

Main category: eess.IV

TL;DR: 这篇综述论文提出了一个三轴框架,将骨质疏松症的影像学模态、临床任务和AI方法相结合,旨在统一该领域并加速以患者为中心的创新。

  • Motivation: 骨质疏松症在全球范围内严重影响骨骼健康,早期影像学检测可以预防大多数脆性骨折。虽然AI方法已能从常规影像中挖掘临床可操作的标记物,但相关文献分散,需要系统整合。
  • Method: 采用PRISMA指导的系统综述搜索策略,构建三轴框架(影像模态×临床任务×AI方法),涵盖经典机器学习、CNN、transformer、自监督学习和可解释AI等方法。
  • Result: 通过跨研究综合分析,识别了数据稀缺性、外部验证和可解释性等关键问题,并提供了该领域的路线图。
  • Conclusion: 本综述为AI科学家、医学影像研究人员和肌肉骨骼临床医生提供了清晰的指南,以加速骨质疏松症护理中严谨、以患者为中心的创新。

[114] A Fast and Precise Method for Searching Rectangular Tumor Regions in Brain MR Images

Hidenori Takeshima,Shuki Maruyama

Main category: eess.IV

TL;DR: 提出了一种快速精确搜索脑肿瘤图像中矩形区域的方法,使用分割网络和基于积分图的快速搜索算法,比传统方法快100-500倍。

  • Motivation: 开发快速精确的脑肿瘤MRI图像中矩形区域搜索方法,以辅助脑肿瘤诊断。
  • Method: 使用EfficientNet作为编码器的U-Net分割网络,结合积分图加速的3D全搜索算法,设计了优先立方体而非细长矩形的搜索度量。
  • Result: 3D全搜索时间从11-40分钟缩短到8秒,速度提升100-500倍;提出的搜索度量获得更高的肿瘤分数且更偏好立方体区域。
  • Conclusion: 该方法实现了快速精确的矩形肿瘤区域搜索,显著减少了3D全搜索的处理时间,并提高了分配的矩形肿瘤区域质量。

[115] U-DFA: A Unified DINOv2-Unet with Dual Fusion Attention for Multi-Dataset Medical Segmentation

Zulkaif Sajjad,Furqan Shaukat,Junaid Mir

Main category: eess.IV

TL;DR: 提出U-DFA架构,通过新颖的局部-全局融合适配器(LGFA)将CNN空间特征注入冻结的DINOv2块中,实现高效的特征融合,在医学图像分割任务上达到SOTA性能。

  • Motivation: 解决CNN模型感受野有限无法捕获全局上下文,以及现有CNN-Transformer混合方法无法有效融合局部和全局特征的问题,同时避免VLM模型存在的领域差距和高计算成本。
  • Method: 提出U-DFA统一架构,包含DINOv2-Unet编码器-解码器结构,通过LGFA模块在多个阶段将基于CNN的空间模式适配器(SPA)的空间特征注入冻结的DINOv2块中。
  • Result: 在Synapse和ACDC数据集上达到最先进性能,仅需33%的可训练参数,证明其鲁棒性和可扩展性。
  • Conclusion: U-DFA是一个用于多模态医学图像分割的鲁棒且可扩展的框架,能够有效融合高级语义和空间特征。

cs.LG

[116] EVO-LRP: Evolutionary Optimization of LRP for Interpretable Model Explanations

Emerald Zhang,Julian Weaver,Samantha R Santacruz,Edward Castillo

Main category: cs.LG

TL;DR: EVO-LRP使用CMA-ES进化策略优化LRP超参数,通过量化可解释性指标提升归因质量,在视觉一致性和类别特征敏感性方面优于传统XAI方法。

  • Motivation: 传统XAI方法在细节和可解释性之间存在权衡,LRP实现通常依赖未优化的启发式规则,缺乏与模型行为的对齐。
  • Method: 应用协方差矩阵自适应进化策略(CMA-ES)来调整LRP超参数,基于忠实度或稀疏度等量化可解释性指标进行优化。
  • Result: EVO-LRP在可解释性指标性能和视觉一致性方面优于传统XAI方法,对类别特定特征表现出强敏感性。
  • Conclusion: 通过原则性的任务特定优化,可以系统性地提升归因质量。

[117] Learning Energy-based Variational Latent Prior for VAEs

Debottam Dutta,Chaitanya Amballa,Zhongweiyang Xu,Yu-Lin Wei,Romit Roy Choudhury

Main category: cs.LG

TL;DR: 提出EVaLP方法,使用能量基模型作为VAE的先验,通过变分方法解决EBM的归一化常数问题,避免昂贵的MCMC采样,实现高效生成高质量样本。

  • Motivation: 解决VAE生成模糊和不一致样本的问题,特别是'先验空洞'问题——先验高概率区域在后验中概率低,导致生成质量差。需要灵活匹配后验同时保持快速采样的先验。
  • Method: 将先验建模为能量基模型,引入变分方法处理EBM的归一化常数,使用采样器网络近似变分形式,通过交替优化训练先验,生成时采样器简化为隐式变分先验。
  • Result: 与多个SOTA基线比较,EVaLP在图像生成质量、减少先验空洞和采样效率方面均有改进。
  • Conclusion: EVaLP方法有效解决了VAE的先验空洞问题,通过变分EBM先验实现了高质量样本生成和高效采样。

[118] Plug-and-Play Prompt Refinement via Latent Feedback for Diffusion Model Alignment

Suhyeon Lee,Jong Chul Ye

Main category: cs.LG

TL;DR: PromptLoop是一个基于强化学习的即插即用框架,通过多模态大语言模型在扩散模型采样过程中迭代更新提示,实现有效的奖励优化和泛化能力。

  • Motivation: 现有的强化学习微调方法在泛化性、组合性和抗奖励攻击方面存在不足,而现有的提示优化方法多为前馈式,未能充分利用强化学习的序列特性。
  • Method: 训练多模态大语言模型使用强化学习,基于扩散模型的中间潜在状态迭代更新提示,而不是直接修改扩散模型权重。
  • Result: 在多样化奖励函数和扩散骨干网络上的实验表明,PromptLoop能有效优化奖励、无缝泛化到未见模型、与现有对齐方法正交组合,并减轻过优化和奖励攻击问题。
  • Conclusion: PromptLoop通过将潜在反馈融入逐步提示优化,实现了与Diffusion RL类似的结构类比,同时保持了基于提示对齐的灵活性和通用性。

[119] On-the-Fly Data Augmentation via Gradient-Guided and Sample-Aware Influence Estimation

Suorong Yang,Jie Zong,Lihang Wang,Ziheng Qin,Hai Gan,Pengfei Zhou,Kai Wang,Yang You,Furao Shen

Main category: cs.LG

TL;DR: SADA是一种样本感知的动态数据增强方法,根据样本对模型优化的影响动态调整增强强度,无需额外模型或策略调优。

  • Motivation: 现有数据增强方法使用固定或随机变换,但样本难度会随模型泛化能力动态变化,导致增强数据与模型训练需求不匹配,降低训练效果。
  • Method: 通过将样本梯度投影到累积模型更新方向并计算局部训练窗口内的时间方差来估计样本影响,低方差样本增强更强以强调多样性,不稳定样本使用较温和变换以保持语义保真度。
  • Result: 在多个基准数据集和模型架构上的实验显示SADA带来一致改进,细粒度任务提升7.3%,长尾数据集提升4.3%。
  • Conclusion: SADA是一种轻量级、即插即用的动态数据增强方法,能有效提升模型训练效果和泛化能力。

[120] Rehearsal-free and Task-free Online Continual Learning With Contrastive Prompt

Aopeng Wang,Ke Deng,Yongli Ren,Jun Luo

Main category: cs.LG

TL;DR: 本文提出了一种无需排练缓冲区和任务边界的在线持续学习方法,通过结合提示学习和NCM分类器有效解决了灾难性遗忘问题。

  • Motivation: 现有在线持续学习方法要么使用排练缓冲区存储样本,要么依赖任务边界信息,但这可能引发数据安全问题且在实际场景中任务边界并不总是可识别。
  • Method: 将提示学习与NCM分类器相结合,在不存储样本且不使用任务边界或身份信息的情况下处理灾难性遗忘。
  • Result: 在两个基准数据集上的广泛实验证明了所提方法的有效性。
  • Conclusion: 该方法成功实现了排练自由和任务自由的在线持续学习,有效缓解了灾难性遗忘问题。

[121] Diagnosing Shortcut-Induced Rigidity in Continual Learning: The Einstellung Rigidity Index (ERI)

Kai Gu,Weishi Shi

Main category: cs.LG

TL;DR: 该论文提出了Einstellung Rigidity Index (ERI)来诊断持续学习中的捷径特征依赖问题,通过三个可解释维度评估模型在面临分布变化时的适应性。

  • Motivation: 深度神经网络经常利用捷径特征(输入与标签间的偶然相关性),这会削弱模型在分布变化下的鲁棒性。在持续学习中,捷径特征的利用会导致认知定势效应,阻碍新技能的学习。
  • Method: 引入ERI诊断指标,包含三个维度:适应延迟(AD)、性能赤字(PD)和相对次优特征依赖(SFR_rel)。在CIFAR-100持续学习基准上评估多种CL方法,其中第二阶段故意引入虚假的洋红色补丁作为捷径特征。
  • Result: CL方法比从头训练基线更快达到准确率阈值(负AD),但在捷径类上最终准确率略低(正PD)。遮挡补丁后CL方法准确率提升而基线略有下降,产生负SFR_rel,表明补丁在此设置中充当了干扰因素而非有用捷径。
  • Conclusion: 捷径特征在持续学习中可能作为干扰因素而非有用线索,CL方法表现出对捷径特征的依赖,这限制了其在新任务上的适应性。

q-bio.QM

[122] Behavioural Classification in C. elegans: a Spatio-Temporal Analysis of Locomotion

Nemanja Antonic,Monika Scholz,Aymeric Vellinger,Euphrasie Ramahefarivo,Elio Tuci

Main category: q-bio.QM

TL;DR: 提出一种从秀丽隐杆线虫运动记录中提取行为单元的自动方法,无需完整观察虫体,使用无监督流程避免预设假设偏差,并通过与手工设计行为单元比较和基于代理的模型验证有效性。

  • Motivation: 现有行为分析方法需要完整观察线虫身体,这在密集群体条件下难以实现,而群体环境对理解社会背景对个体行为影响很重要。
  • Method: 使用无监督自动流程从单点跟踪数据中提取行为单元,不依赖完整虫体观察,通过比较手工设计行为单元和基于代理的模型模拟来验证。
  • Result: 即使从单点跟踪数据中也能出现时空运动模式,这些模式代表了行为分类过程的基本方面。
  • Conclusion: 该方法能够有效提取行为单元,无需完整虫体观察,且无监督流程避免了预设假设带来的偏差。

q-bio.GN

[123] A Deep Learning Pipeline for Epilepsy Genomic Analysis Using GPT-2 XL and NVIDIA H100

Muhammad Omer Latif,Hayat Ullah,Muhammad Ali Shafique,Zhihua Dong

Main category: q-bio.GN

TL;DR: 提出了一种结合深度学习与GPU加速的新分析流程,使用GPT-2 XL模型分析癫痫基因表达模式,在多个数据集上发现了显著的转录组变化。

  • Motivation: 解决高通量测序产生的复杂转录组数据解析难题,利用深度学习和大语言模型来研究癫痫的基因表达模式。
  • Method: 使用GPT-2 XL(15亿参数)的transformer大语言模型,在NVIDIA H100 GPU上进行基因组序列分析,包括RNA序列数据预处理、基因序列编码和模式识别。
  • Result: 在两个癫痫数据集(GSE264537和GSE275235)上发现显著转录组变化,包括生酮饮食治疗后海马星形胶质细胞增生减少,以及斑马鱼癫痫模型中兴奋-抑制信号平衡恢复。
  • Conclusion: 证明了结合大语言模型和先进硬件加速在神经系统疾病转录组特征分析中的有效性。

cs.AI

[124] VIRTUE: Visual-Interactive Text-Image Universal Embedder

Wei-Yao Wang,Kazuya Tateishi,Qiyu Wu,Shusuke Takahashi,Yuki Mitsufuji

Main category: cs.AI

TL;DR: 提出了VIRTUE视觉交互文本图像通用嵌入器,将分割模型和视觉语言模型的能力扩展到表示学习领域,支持用户通过视觉提示指定感兴趣区域,在36个通用任务和5个视觉交互任务上实现最先进性能。

  • Motivation: 现有的嵌入模型缺乏视觉交互能力来指定用户感兴趣区域,而生成模型已经探索了这种能力。为嵌入模型添加视觉交互不仅能解锁新的应用场景,还能让模型学习图像中的实体级信息来补充全局表示。
  • Method: 通过分割模型处理视觉提示来精确定位图像中的特定区域,使嵌入器能够更精确地处理复杂和模糊场景。引入了大规模分割和场景字幕检索基准来评估视觉交互能力。
  • Result: 在36个通用MMEB任务上提升3.1%-8.5%,在5个视觉交互SCaR任务上提升15.2%-20.3%,均达到最先进性能。
  • Conclusion: VIRTUE成功将视觉交互能力引入嵌入模型,显著提升了在复杂场景下的表示学习性能,为嵌入模型开辟了新的应用可能性。

[125] Batch-CAM: Introduction to better reasoning in convolutional deep learning models

Giacomo Ignesti,Davide Moroni,Massimo Martinelli

Main category: cs.AI

TL;DR: 提出Batch-CAM训练范式,融合批处理Grad-CAM算法和原型重建损失,在提升分类准确率的同时改善图像重建质量并减少训练推理时间。

  • Motivation: 在医疗等高风险领域,深度学习模型的透明解释性与准确性同等重要,需要构建更透明、可解释和可信赖的AI系统。
  • Method: 结合批处理实现的Grad-CAM算法和原型重建损失,引导模型关注显著图像特征。
  • Result: Batch-CAM在分类任务中同时提升了准确率和图像重建质量,并减少了训练和推理时间。
  • Conclusion: 该方法通过确保模型从证据相关信息中学习,为构建更透明、可解释和可信赖的AI系统做出了重要贡献。

[126] Activation-Deactivation: A General Framework for Robust Post-hoc Explainable AI

Akchunya Chanchal,David A. Kelly,Hana Chockler

Main category: cs.AI

TL;DR: 提出了一种新的前向传播范式Activation-Deactivation (AD),通过ConvAD机制在CNN中实现,无需额外训练即可获得更鲁棒的解释,解决了传统黑盒解释方法因遮挡导致分布外图像的问题。

  • Motivation: 传统黑盒解释方法依赖遮挡输入部分生成突变体,导致分布外图像,影响解释质量,且选择合适遮挡值需要领域知识。
  • Method: 引入AD范式,通过关闭与遮挡输入特征对应的模型部分来消除其对决策的影响;提出ConvAD机制,可轻松添加到任何已训练的CNN中。
  • Result: 实验表明AD解释在鲁棒性上比遮挡方法提升高达62.5%,在多个数据集和模型架构上均表现一致改进。
  • Conclusion: ConvAD无需额外训练或微调,能提取更鲁棒的解释,且不改变网络的决策过程,解决了传统方法对领域知识的依赖问题。

cs.MM

[127] Object-AVEdit: An Object-level Audio-Visual Editing Model

Youquan Fu,Ruiyang Si,Hongfa Wang,Dongzhan Zhou,Jiacheng Sun,Ping Luo,Di Hu,Hongyuan Zhang,Xuelong Li

Main category: cs.MM

TL;DR: Object-AVEdit实现了基于反转-再生范式的对象级音视频编辑,通过开发词-发声对象对齐的音频生成模型和整体优化的编辑算法,解决了音视频对象级编辑的挑战。

  • Motivation: 视频后期制作和电影制作领域对音视频编辑有高需求,现有模型难以实现对象级的音视频操作,如跨模态的对象添加、替换和删除,同时保持源实例的结构信息。
  • Method: 采用反转-再生范式,开发词-发声对象对齐的音频生成模型以增强对象可控性,并提出整体优化的编辑算法来保持结构信息和改善再生效果。
  • Result: 实验表明该模型在音视频对象级编辑任务中取得了先进成果,具有良好的音视频语义对齐,音频生成模型也表现出优异性能。
  • Conclusion: Object-AVEdit成功实现了对象级音视频编辑,通过创新的音频生成模型和优化算法解决了跨模态编辑的挑战。