Skip to content
每日arXiv - 2025年7月11日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Multi-level Mixture of Experts for Multimodal Entity Linking

Zhiwei Hu,Víctor Gutiérrez-Basulto,Zhiliang Xiang,Ru Li,Jeff Z. Pan

Main category: cs.CV

TL;DR: 论文提出了一种多模态实体链接(MEL)方法MMoE,通过多级专家混合机制动态选择模态信息,解决了现有方法中提及模糊性和模态内容动态选择的问题。

  • Motivation: 现有MEL方法未解决提及模糊性和模态内容动态选择的问题,导致语义匹配效果不佳。
  • Method: MMoE包含四个模块:描述感知提及增强模块、多模态特征提取模块、以及两个专家混合模块,动态选择信息特征。
  • Result: 实验表明MMoE优于现有方法。
  • Conclusion: MMoE通过动态选择模态信息,显著提升了MEL的性能。

[2] CoPT: Unsupervised Domain Adaptive Segmentation using Domain-Agnostic Text Embeddings

Cristina Mata,Kanchana Ranasinghe,Michael S. Ryoo

Main category: cs.CV

TL;DR: 提出了一种基于协方差的像素-文本损失(CoPT),利用领域无关的文本嵌入学习领域不变特征,提升无监督域适应(UDA)在语义分割中的性能。

  • Motivation: 语义分割的标注成本高,现有UDA方法未充分利用文本的领域无关特性。
  • Method: 通过LLM生成领域描述,结合CLIP模型生成文本嵌入,设计CoPT损失学习领域不变特征。
  • Result: 在四个基准测试中达到UDA分割的最新性能。
  • Conclusion: CoPT通过文本嵌入有效提升UDA分割性能,代码已开源。

[3] Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

Renyang Liu,Guanlin Li,Tianwei Zhang,See-Kiong Ng

Main category: cs.CV

TL;DR: 论文提出Recall框架,通过多模态对抗输入测试图像生成模型的去学习鲁棒性,发现现有方法存在显著漏洞。

  • Motivation: 图像生成模型(如Stable Diffusion)的去学习技术(MU)虽能移除不良内容,但其鲁棒性在多模态对抗输入下未被充分验证。
  • Method: 提出Recall框架,利用扩散模型的多模态条件能力,通过优化对抗图像提示来测试去学习模型的鲁棒性。
  • Result: Recall在十种先进去学习方法中表现优异,揭示了当前去学习机制的脆弱性。
  • Conclusion: 需开发更鲁棒的去学习方案以确保生成模型的安全性和可靠性。

[4] Explainable Artificial Intelligence in Biomedical Image Analysis: A Comprehensive Survey

Getamesay Haile Dagnaw,Yanming Zhu,Muhammad Hassan Maqsood,Wencheng Yang,Xingshuai Dong,Xuefei Yin,Alan Wee-Chung Liew

Main category: cs.CV

TL;DR: 该综述填补了现有XAI技术在生物医学图像分析中的空白,提出了一种模态感知的分类法,并探讨了多模态和视觉语言模型的应用。

  • Motivation: 促进深度学习模型在生物医学图像分析中的透明度和临床采用,弥补现有综述的不足。
  • Method: 系统分类XAI方法,提出模态中心分类法,分析多模态和视觉语言模型的作用。
  • Result: 提供了XAI方法的分类、评估指标和开源框架,并讨论了挑战与未来方向。
  • Conclusion: 为生物医学图像分析中的可解释深度学习提供了深入的基础和指导。

[5] Robust Multimodal Large Language Models Against Modality Conflict

Zongmeng Zhang,Wengang Zhou,Jie Zhao,Houqiang Li

Main category: cs.CV

TL;DR: 该论文研究了多模态大语言模型(MLLMs)中的幻觉现象,特别是由模态冲突引起的幻觉。作者提出了三种方法来缓解这一问题,并通过实验验证了强化学习方法的最佳性能。

  • Motivation: 尽管MLLMs在多模态任务中表现出色,但在实际场景中容易产生幻觉。本文从模态冲突的角度探讨这一现象,填补了现有研究的空白。
  • Method: 论文定义了模态冲突并构建了MMMC数据集,提出了基于提示工程、监督微调和强化学习的三种方法来缓解幻觉。
  • Result: 实验表明,强化学习方法在缓解模态冲突导致的幻觉中表现最佳,监督微调方法也展现出稳定且良好的性能。
  • Conclusion: 本文揭示了模态冲突对MLLMs幻觉的影响,为提升模型鲁棒性提供了新见解。

[6] Aerial Maritime Vessel Detection and Identification

Antonella Barisic Kulas,Frano Petric,Stjepan Bogdan

Main category: cs.CV

TL;DR: 论文提出了一种在GNSS不可用环境下,利用YOLOv8模型和视觉特征匹配进行目标船只识别和定位的方法,并在MBZIRC2023竞赛中验证了其有效性。

  • Motivation: 在GNSS不可用的环境中,自主进行海上监视和目标船只识别对搜救和威胁检测等应用至关重要。
  • Method: 结合YOLOv8目标检测模型、特征匹配和色调直方图距离分析,通过几何原理定位目标船只。
  • Result: 在MBZIRC2023竞赛中验证了方法的可行性,并评估了视角对检测精度和定位准确性的影响。
  • Conclusion: 该方法在GNSS不可用环境下能有效识别和定位目标船只,但视角对性能有一定影响。

[7] CL-Polyp: A Contrastive Learning-Enhanced Network for Accurate Polyp Segmentation

Desheng Li,Chaoliang Liu,Zhiyong Xiao

Main category: cs.CV

TL;DR: CL-Polyp是一种基于对比学习的息肉分割网络,通过自监督策略提升特征提取能力,无需额外标注数据,并在多个数据集上表现优于现有方法。

  • Motivation: 现有息肉分割方法依赖额外标注数据或任务相似性,限制了泛化能力,因此提出CL-Polyp以解决这些问题。
  • Method: 采用对比学习增强特征提取,引入MASPP模块优化多尺度特征融合,以及CA模块改进边界重建。
  • Result: 在五个基准数据集上表现优异,IoU指标在Kvasir-SEG和CVC-ClinicDB上分别提升0.011和0.020。
  • Conclusion: CL-Polyp在临床息肉分割任务中表现出色,验证了其有效性。

[8] Interpretable EEG-to-Image Generation with Semantic Prompts

Arshak Rezvani,Ali Akbari,Kosar Sanjar Arani,Maryam Mirian,Emad Arasteh,Martin J. McKeown

Main category: cs.CV

TL;DR: 该论文提出了一种通过EEG信号与多级语义描述对齐的方法,绕过直接生成图像,利用对比学习和大语言模型实现视觉解码。

  • Motivation: EEG在空间细节上的局限性阻碍了图像重建,但通过语义描述的中介,可以更有效地解码视觉体验。
  • Method: 使用基于transformer的EEG编码器将脑活动与多级语义描述对齐,通过对比学习映射到预训练的潜在扩散模型生成图像。
  • Result: 在EEGCVPR数据集上实现了最先进的视觉解码,揭示了EEG信号与语义描述的神经认知路径对齐。
  • Conclusion: 通过结构化语义中介,实现了与认知对齐的EEG视觉解码,展示了语义描述在解码中的重要性。

[9] A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

Mohamed Elmoghany,Ryan Rossi,Seunghyun Yoon,Subhojyoti Mukherjee,Eslam Bakr,Puneet Mathur,Gang Wu,Viet Dac Lai,Nedim Lipka,Ruiyi Zhang,Varun Manjunatha,Chien Nguyen,Daksh Dangi,Abel Salinas,Mohammad Taesiri,Hongjie Chen,Xiaolei Huang,Joe Barrow,Nesreen Ahmed,Hoda Eldardiry,Namyong Park,Yu Wang,Jaemin Cho,Anh Totti Nguyen,Zhengzhong Tu,Thien Nguyen,Dinesh Manocha,Mohamed Elhoseiny,Franck Dernoncourt

Main category: cs.CV

TL;DR: 现有视频生成模型虽能生成5-16秒的“长视频”,但超过16秒的视频难以保持角色和场景一致性,多角色长视频尤其缺乏连贯性。部分方法可生成150秒视频,但存在帧冗余和低时间多样性。本文研究了32篇论文,提出分类法和比较表。

  • Motivation: 解决长视频生成中角色一致性、运动连贯性和高保真细节的挑战,推动长视频生成技术的发展。
  • Method: 综合分析了32篇视频生成论文,提取关键架构和训练策略,构建分类法并制作比较表。
  • Result: 提出了一种新的分类法,总结了现有方法的架构设计和性能特点,为长视频生成提供了参考。
  • Conclusion: 通过系统研究,本文为长视频生成领域提供了关键见解和实用工具,有助于未来技术的改进。

[10] Colors See Colors Ignore: Clothes Changing ReID with Color Disentanglement

Priyank Pathak,Yogesh S. Rawat

Main category: cs.CV

TL;DR: 论文提出了一种名为CSCI的RGB-only方法,利用颜色信息解决衣物更换重识别问题,无需额外标注或模型。

  • Motivation: 现有方法依赖额外模型或标注学习衣物不变特征,资源消耗大。本文探索颜色作为轻量级代理解决这一问题。
  • Method: 提出CSCI方法,利用前景和背景颜色信息,结合S2A自注意力机制分离颜色和身份特征。
  • Result: 在四个CC-ReID数据集上显著提升性能,图像ReID提升2.9%至5.0%,视频ReID提升1.0%至2.5%。
  • Conclusion: 颜色是一种低成本有效的代理,可解决CC-ReID中的外观偏差问题。

[11] Automated Video Segmentation Machine Learning Pipeline

Johannes Merz,Lucien Fostier

Main category: cs.CV

TL;DR: 提出了一种自动化视频分割流程,显著提升VFX制作效率。

  • Motivation: 解决VFX制作中掩码生成慢且资源密集的问题。
  • Method: 结合机器学习,通过文本提示进行对象检测、逐帧图像分割和视频跟踪以确保时间一致性。
  • Result: 减少了人工操作,加速了初步合成的创建,提供了全面的分割数据。
  • Conclusion: 该流程提升了VFX制作的效率,并快速被艺术家采用。

[12] DisenQ: Disentangling Q-Former for Activity-Biometrics

Shehreen Azad,Yogesh S Rawat

Main category: cs.CV

TL;DR: 论文提出了一种多模态语言引导框架DisenQ,用于解决活动生物特征识别中的身份与运动和外观特征纠缠问题,并在多个基准测试中取得最优性能。

  • Motivation: 传统身份识别在多样化活动中面临身份线索与运动动态和外观变化纠缠的挑战,现有方法依赖额外视觉数据但存在提取不准确的问题。
  • Method: 提出DisenQ框架,通过结构化文本监督替代额外视觉数据,利用统一查询变换器解耦生物特征、运动和非生物特征。
  • Result: 在三个活动视频基准测试中取得最优性能,并在传统视频身份识别基准测试中表现出强泛化能力。
  • Conclusion: DisenQ框架有效解决了身份与运动和外观特征的纠缠问题,展示了多模态语言引导方法的潜力。

[13] LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation

Ananya Raval,Aravind Narayanan,Vahid Reza Khazaie,Shaina Raza

Main category: cs.CV

TL;DR: LinguaMark是一个多语言视觉问答(VQA)基准,用于评估大型多模态模型(LMMs)的多语言能力,发现闭源模型表现最佳。

  • Motivation: 现有LMMs在多语言覆盖上存在偏差和不公平输出,缺乏多语言能力的评估。
  • Method: 引入LinguaMark基准,包含6,875个图像-文本对,覆盖11种语言和五个社会属性,评估指标包括偏差、答案相关性和忠实度。
  • Result: 闭源模型(如GPT-4o和Gemini2.5)表现最佳,开源模型(如Gemma3和Qwen2.5)在部分语言中表现优异。
  • Conclusion: 发布基准和代码以促进可重复性和进一步研究。

[14] MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning

Chengfei Wu,Ronald Seoh,Bingxuan Li,Liqiang Zhang,Fengrong Han,Dan Goldwasser

Main category: cs.CV

TL;DR: MagiC是一个评估多模态认知的基准,通过答案准确性、逐步推理质量及其与视觉证据的对齐来测试模型。

  • Motivation: 当前大型视觉语言模型是否真正进行视觉推理尚不明确,MagiC旨在解决这一问题。
  • Method: MagiC包含5500个弱监督QA示例和900个人工标注示例,评估15个模型的四个维度:答案正确性、推理有效性、对齐忠实度和自校正能力。
  • Result: MagiC揭示了当前视觉推理方法的关键局限和机会。
  • Conclusion: MagiC为评估和改进多模态认知模型提供了重要工具。

[15] ADIEE: Automatic Dataset Creation and Scorer for Instruction-Guided Image Editing Evaluation

Sherry X. Chen,Yi Wei,Luowei Zhou,Suren Kumar

Main category: cs.CV

TL;DR: 论文提出ADIEE方法,用于自动生成数据集并训练评分模型,以评估指令引导的图像编辑效果,显著优于现有开源和专有模型。

  • Motivation: 当前缺乏有效的自动评估方法,开源模型对齐性差,专有模型不透明且成本高,且无公开训练数据集。
  • Method: 通过ADIEE生成大规模数据集(100K样本),并微调LLaVA-NeXT-8B模型以输出评分。
  • Result: 评分模型在所有基准测试中表现最佳,与人类评分相关性提升17.24%,比较准确率提升4.03%-9.35%。
  • Conclusion: 该方法可作为奖励模型,提升编辑选择和模型微调效果,显著提高MagicBrush模型评分。

[16] Scalable and Realistic Virtual Try-on Application for Foundation Makeup with Kubelka-Munk Theory

Hui Pang,Sunil Hadap,Violetta Shevchenko,Rahul Suresh,Amin Banitalebi-Dehkordi

Main category: cs.CV

TL;DR: 提出了一种基于Kubelka-Munk理论的快速图像合成方法,用于虚拟试妆,提升肤色融合的真实性和可扩展性。

  • Motivation: 解决虚拟试妆中肤色与粉底颜色融合的真实性和方法可扩展性问题。
  • Method: 利用Kubelka-Munk理论近似方法加速图像合成,构建端到端框架,仅依赖电商产品信息实现真实粉底试妆。
  • Result: 在真实化妆图像上验证,框架性能优于其他技术。
  • Conclusion: 该方法在虚拟试妆中实现了高效、真实的肤色融合,且具有广泛适用性。

[17] Entity Re-identification in Visual Storytelling via Contrastive Reinforcement Learning

Daniel A. P. Oliveira,David Martins de Matos

Main category: cs.CV

TL;DR: 论文提出了一种对比强化学习方法,通过合成负例训练模型识别连贯图像序列,提升视觉叙事系统中实体识别的连贯性。

  • Motivation: 现有视觉叙事系统在跨帧识别同一实体时表现不佳,导致引用不一致和幻觉问题,原因是缺乏明确的跨帧实体连接训练。
  • Method: 采用对比强化学习框架,扩展Story Reasoning数据集并引入合成负例,使用Direct Preference Optimization和双组件奖励函数优化模型。
  • Result: 模型在实体识别和连贯性方面显著提升,如grounding mAP提高14.8%,F1提高17.1%,跨帧实体持续性也有显著改善。
  • Conclusion: 对比强化学习方法有效提升了视觉叙事系统中实体识别的连贯性和准确性,为未来研究提供了新方向。

[18] PacGDC: Label-Efficient Generalizable Depth Completion with Projection Ambiguity and Consistency

Haotian Wang,Aoran Xiao,Xiaoqin Zhang,Meng Yang,Shijian Lu

Main category: cs.CV

TL;DR: PacGDC是一种标签高效技术,通过合成伪几何数据增强深度完成模型的泛化能力,减少对大规模标注数据的依赖。

  • Motivation: 解决深度完成模型训练需要大量标注数据的问题,提出一种标签高效的方法。
  • Method: 利用2D到3D投影中的形状和位置一致性,合成伪几何数据;结合深度基础模型和插值/重定位策略扩展数据多样性。
  • Result: 在多个基准测试中表现出卓越的泛化能力,适应不同场景和深度稀疏性。
  • Conclusion: PacGDC通过高效数据合成显著提升了深度完成模型的泛化性能。

[19] Adaptive Particle-Based Shape Modeling for Anatomical Surface Correspondence

Hong Xu,Shireen Y. Elhabian

Main category: cs.CV

TL;DR: PSM方法通过粒子配置量化形状变异性,但缺乏自适应性。本文提出两种机制(邻域对应损失和测地对应算法)以提高适应性,并在复杂数据集上验证了其效果。

  • Motivation: 现有PSM方法无法自动调整粒子配置以适应局部几何特征,限制了复杂解剖变异性建模的准确性。
  • Method: 引入邻域对应损失和测地对应算法,以提高粒子配置的自适应性并保持一致性。
  • Result: 在复杂数据集上验证了方法的有效性和可扩展性,分析了适应性与对应性的权衡。
  • Conclusion: 提出的机制显著提高了PSM的自适应性,为复杂解剖形状建模提供了更准确的表示。

[20] Multi-Scale Attention and Gated Shifting for Fine-Grained Event Spotting in Videos

Hao Xu,Arbind Agrahari Baniya,Sam Wells,Mohamed Reda Bouadjenek,Richard Dazeley,Sunil Aryal

Main category: cs.CV

TL;DR: 提出了一种多尺度注意力门移位模块(MSAGSM),用于增强体育视频中精确事件检测(PES)的时空建模能力,并在新数据集TTA上验证了其有效性。

  • Motivation: 现有PES模型的时空模块(如GSM或GSF)在时间感受野和空间适应性上存在局限,需改进以提升性能。
  • Method: 设计了MSAGSM模块,结合多尺度时间扩张和多头空间注意力,增强时空建模能力。
  • Result: 在五个PES基准测试中,MSAGSM显著提升性能,计算开销低,达到新SOTA。
  • Conclusion: MSAGSM是一种轻量级即插即用模块,可广泛集成于2D骨干网络,推动PES领域发展。

[21] KeyRe-ID: Keypoint-Guided Person Re-Identification using Part-Aware Representation in Videos

Jinseong Kim,Junghoon Song,Gyeongseon Baek,Byeongjoon Noh

Main category: cs.CV

TL;DR: KeyRe-ID是一个基于关键点的视频行人重识别框架,通过全局和局部分支结合关键点增强时空表示学习,在MARS和iLIDS-VID基准测试中表现优异。

  • Motivation: 利用人体关键点提升行人重识别的时空表示能力。
  • Method: 全局分支通过Transformer进行时间聚合,局部分支基于关键点动态分割身体区域生成细粒度特征。
  • Result: 在MARS上达到91.73% mAP和97.32% Rank-1准确率,在iLIDS-VID上达到96.00% Rank-1和100.0% Rank-5准确率。
  • Conclusion: KeyRe-ID在视频行人重识别任务中实现了最先进的性能。

[22] Behave Your Motion: Habit-preserved Cross-category Animal Motion Transfer

Zhimin Zhang,Bi'an Du,Caoyuan Ma,Zheng Wang,Wei Hu

Main category: cs.CV

TL;DR: 提出了一种保留习惯的跨类别动物运动转移框架,结合生成模型和大型语言模型,有效捕捉动物独特行为特征。

  • Motivation: 现有运动转移方法主要针对人类,忽略动物独特习惯行为的保留,需解决跨类别动物运动转移的复杂性。
  • Method: 基于生成框架,引入习惯保留模块和类别特定习惯编码器,结合大型语言模型处理未观察物种的运动转移。
  • Result: 通过新数据集DeformingThings4D-skl验证,模型在保留动物习惯行为方面表现优越。
  • Conclusion: 该框架成功解决了跨类别动物运动转移中习惯行为保留的挑战,为动画和虚拟现实应用提供了新方法。

[23] Seg-Wild: Interactive Segmentation based on 3D Gaussian Splatting for Unconstrained Image Collections

Yongtang Bao,Chengjie Tang,Yuze Wang,Haojie Li

Main category: cs.CV

TL;DR: Seg-Wild提出了一种基于3D高斯泼溅的交互式分割方法,用于无约束图像集合的分割和重建,解决了光照不一致和瞬态遮挡问题。

  • Motivation: 无约束照片集合易于获取但存在光照不一致和瞬态遮挡问题,现有方法难以解决。
  • Method: 结合多维特征嵌入和3D高斯泼溅,引入Spiky 3D Gaussian Cutter(SGC)平滑异常高斯,并通过2D投影和SAM掩码计算切割比例。
  • Result: 实验表明Seg-Wild在分割和重建质量上优于现有方法。
  • Conclusion: Seg-Wild为无约束场景的分割和重建提供了有效解决方案,代码已开源。

[24] EscherNet++: Simultaneous Amodal Completion and Scalable View Synthesis through Masked Fine-Tuning and Enhanced Feed-Forward 3D Reconstruction

Xinan Zhang,Muhammad Zubair Irshad,Anthony Yezzi,Yi-Chang Tsai,Zsolt Kira

Main category: cs.CV

TL;DR: EscherNet++是一种通过掩码微调的扩散模型,能够零样本合成物体的新视角并具备非模态补全能力。相比多阶段复杂流程的现有方法,它通过端到端模型显著提升了效率和性能。

  • Motivation: 现有方法需多阶段处理且忽略跨视角依赖,导致存储和计算冗余。EscherNet++旨在通过掩码微调实现高效端到端新视角合成与非模态补全。
  • Method: 采用输入级和特征级掩码微调,构建端到端模型。无需额外训练即可与其他前馈图像到网格模型集成。
  • Result: 在遮挡任务中,PSNR提升3.9,Volume IoU提升0.28;重建时间减少95%,且能泛化到真实场景。
  • Conclusion: EscherNet++在较小数据集和批量下仍实现SOTA性能,展示了高效且可扩展的3D重建潜力。

[25] EPIC: Efficient Prompt Interaction for Text-Image Classification

Xinyao Yu,Hao Sun,Zeyu Ling,Ziwei Niu,Zhenjia Bai,Rui Qin,Yen-Wei Chen,Lanfen Lin

Main category: cs.CV

TL;DR: 提出了一种高效的基于提示的多模态交互策略EPIC,用于文本-图像分类,减少了计算资源消耗和可训练参数,同时在多个数据集上表现优异。

  • Motivation: 大规模预训练多模态模型(LMMs)在微调下游任务时计算成本高,因此研究基于提示的交互策略以提高效率。
  • Method: 利用中间层的时间提示,并通过基于相似性的提示交互整合不同模态,以实现充分的信息交换。
  • Result: 方法减少了计算资源消耗和可训练参数(约基础模型的1%),在UPMC-Food101和SNLI-VE数据集上表现优异,在MM-IMDB数据集上表现相当。
  • Conclusion: EPIC是一种高效的多模态交互策略,显著降低了计算成本,同时保持了优异的性能。

[26] Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

Jingjing Jiang,Chao Ma,Xurui Song,Hanwang Zhang,Jun Luo

Main category: cs.CV

TL;DR: Corvid是一种增强链式思维(CoT)推理能力的多模态大语言模型(MLLM),通过混合视觉编码器和精心设计的跨模态对齐连接器(GateMixer)提升性能,并在数学推理和科学问题解决中表现优异。

  • Motivation: 现有开源MLLMs在复杂结构化推理任务中存在显著局限性,特别是在需要深度推理的决策和问题解决中。
  • Method: Corvid采用混合视觉编码器和GateMixer连接器,引入高质量多模态CoT指令数据集MCoT-Instruct-287K,并通过两阶段CoT训练和推理时自验证策略优化推理能力。
  • Result: Corvid在数学推理和科学问题解决中优于现有类似规模的MLLMs。
  • Conclusion: Corvid通过增强的CoT推理能力和优化的训练策略,显著提升了MLLMs在复杂任务中的表现。

[27] Towards High-Resolution 3D Anomaly Detection: A Scalable Dataset and Real-Time Framework for Subtle Industrial Defects

Yuqi Cheng,Yihan Sun,Hui Zhang,Weiming Shen,Yunkang Cao

Main category: cs.CV

TL;DR: 论文提出了一种生成高分辨率3D异常点云数据的流程,并创建了首个高分辨率3D异常检测数据集MiniShift。同时,提出了高效框架Simple3D,结合多尺度邻域描述符和局部特征空间聚合,显著提升了检测精度和速度。

  • Motivation: 工业点云分析中,现有基准数据集多关注低分辨率输入,无法满足检测细微异常的需求。因此,需要高分辨率数据和高效检测方法。
  • Method: 提出生成高分辨率3D异常数据的流程,并开发数据集MiniShift。设计Simple3D框架,结合MSND和LFSA,高效捕获几何细节。
  • Result: Simple3D在MiniShift和现有基准测试中表现优异,精度和速度均超越现有方法,实现实时推理(>20 fps)。
  • Conclusion: 高分辨率数据和有效特征聚合对提升3D异常检测的实用性至关重要,Simple3D为此提供了高效解决方案。

[28] Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation

Ling Zhou,Runtian Yuan,Yi Liu,Yuejie Zhang,Rui Feng,Shang Gao

Main category: cs.CV

TL;DR: 提出了一种名为DSANet的双语义感知网络,通过局部和全局特征的相互语义感知,提升超声视频分割的噪声鲁棒性。

  • Motivation: 超声成像因其简单和非侵入性被广泛使用,但其固有特性常引入噪声,为自动分割带来挑战。
  • Method: 设计了AFSA模块(相邻帧语义感知)和LGSA模块(局部与全局语义感知),通过特征融合和重组提升噪声鲁棒性。
  • Result: 在四个基准数据集上表现优于现有方法,且推理速度更快。
  • Conclusion: DSANet显著提升了超声视频分割的准确性和效率,适用于实际应用。

[29] Bluish Veil Detection and Lesion Classification using Custom Deep Learnable Layers with Explainable Artificial Intelligence (XAI)

M. A. Rasel,Sameem Abdul Kareem,Zhenli Kwan,Shin Shen Yong,Unaizah Obaidellah

Main category: cs.CV

TL;DR: 该研究提出了一种基于深度卷积神经网络(DCNN)和可解释人工智能(XAI)的方法,用于检测皮肤病变中的蓝白色面纱(BWV),显著提高了BWV的检测性能。

  • Motivation: 蓝白色面纱(BWV)是诊断黑色素瘤的关键特征,但现有研究对其检测有限。本研究旨在填补这一空白,提供一种高效的BWV检测方法。
  • Method: 使用未标注的皮肤病变数据集,通过基于颜色阈值的成像算法转换为标注数据集。设计并训练了自定义层的DCNN模型,结合XAI解释决策过程。
  • Result: 模型在不同数据集上表现优异,测试准确率分别为85.71%(PH2)、95.00%(ISIC archive)、95.05%(PH2+ISIC)和90.00%(Derm7pt)。
  • Conclusion: 该方法显著提升了BWV检测性能,为早期黑色素瘤诊断提供了可靠工具。

[30] Objectomaly: Objectness-Aware Refinement for OoD Segmentation with Structural Consistency and Boundary Precision

Jeonghoon Song,Sunghun Kim,Jaegyun Im,Byeongjoon Noh

Main category: cs.CV

TL;DR: Objectomaly是一个基于对象感知的OoD分割框架,通过三阶段方法显著提升了边界精度和异常检测性能。

  • Motivation: 解决现有OoD分割方法在边界不精确、对象内异常分数不一致以及背景噪声导致的误报问题。
  • Method: 1. 粗粒度异常评分(CAS);2. 对象感知分数校准(OASC);3. 精细边界优化(MBP)。
  • Result: 在多个基准测试中表现优异,像素级和组件级指标均有显著提升。
  • Conclusion: Objectomaly在OoD分割任务中具有鲁棒性和泛化能力,适用于自动驾驶等安全敏感场景。

[31] Degradation-Agnostic Statistical Facial Feature Transformation for Blind Face Restoration in Adverse Weather Conditions

Chang-Hwan Son

Main category: cs.CV

TL;DR: 提出了一种基于GAN的盲人脸图像恢复框架,通过局部统计面部特征变换(SFFT)和退化无关特征嵌入(DAFE)模块,显著提升了恶劣天气条件下的人脸识别性能。

  • Motivation: 随着智能CCTV系统在户外环境中的广泛应用,恶劣天气条件下的图像质量下降导致人脸识别准确率降低,现有方法缺乏针对天气退化的专用模块。
  • Method: 提出了一种GAN框架,整合了SFFT(通过局部统计分布对齐提升面部结构和颜色保真度)和DAFE(通过编码器表示对齐实现鲁棒特征提取)。
  • Result: 实验表明,该框架在抑制纹理失真和准确重建面部结构方面优于现有基于GAN和扩散模型的方法。
  • Conclusion: SFFT和DAFE模块在恶劣天气条件下显著提升了面部恢复的结构保真度和感知质量。

[32] Temporal Unlearnable Examples: Preventing Personal Video Data from Unauthorized Exploitation by Object Tracking

Qiangqiang Wu,Yi Yu,Chenqi Kong,Ziquan Liu,Jia Wan,Haoliang Li,Alex C. Kot,Antoni B. Chan

Main category: cs.CV

TL;DR: 论文提出了一种生成时间不可学习示例(TUEs)的新框架,以保护视频数据隐私,防止未经授权的视觉对象跟踪(VOT)模型训练。

  • Motivation: 社交媒体视频被广泛用于VOT训练,但数据隐私问题被忽视,许多私人视频未经授权被用于商业模型训练。
  • Method: 提出生成TUEs的框架,引入时间对比损失以增强效果,确保跟踪器依赖噪声而非原始数据。
  • Result: 实验表明,该方法在视频数据隐私保护上达到最佳性能,并具有强泛化能力。
  • Conclusion: TUEs框架有效保护视频数据隐私,适用于大规模视频数据集和多种VOT任务。

[33] Driving by Hybrid Navigation: An Online HD-SD Map Association Framework and Benchmark for Autonomous Vehicles

Jiaxu Wan,Xu Wang,Mengwei Xie,Xinyuan Chang,Xinran Liu,Zheng Pan,Mu Xu,Ding Yuan

Main category: cs.CV

TL;DR: 论文提出了一种名为OMA的基准测试,用于关联混合导航的在线地图,并提出了基于Transformer的基线方法MAT。

  • Motivation: 现有研究集中于在线高清地图构建,但忽视了与全球标准地图的关联,导致自动驾驶车辆导航能力不足。
  • Method: 提出Map Association Transformer(MAT)框架,利用路径感知和空间注意力机制理解几何与拓扑对应关系。
  • Result: OMA基准包含48万条道路和26万条车道路径,并提供了评估模型的相应指标。
  • Conclusion: OMA和MAT框架提升了自动驾驶车辆的规划能力,代码和数据集已开源。

[34] Divergence Minimization Preference Optimization for Diffusion Model Alignment

Binxu Li,Minkai Xu,Meihua Dang,Stefano Ermon

Main category: cs.CV

TL;DR: DMPO是一种新的扩散模型对齐方法,通过最小化反向KL散度优化偏好对齐,显著优于现有方法。

  • Motivation: 现有偏好优化方法存在次优均值寻求问题,需改进扩散模型与人类偏好的对齐。
  • Method: 提出DMPO方法,通过最小化反向KL散度对齐扩散模型,理论分析与实验验证其有效性。
  • Result: DMPO在人类评估和自动指标上均优于现有技术,PickScore提升至少64.6%。
  • Conclusion: DMPO为扩散模型偏好对齐提供了稳健且优雅的解决方案,理论与实际性能兼具。

[35] GGMotion: Group Graph Dynamics-Kinematics Networks for Human Motion Prediction

Shuaijin Wan,Huaijiang Sun

Main category: cs.CV

TL;DR: GGMotion提出了一种基于组图动力学-运动学网络的方法,通过分组建模人体拓扑结构,更好地利用动力学和运动学先验,提升运动预测的物理合理性和性能。

  • Motivation: 现有方法通常将人体姿态表示为抽象图结构,忽略了关节之间的物理依赖关系,导致学习困难且易生成不真实的运动。
  • Method: 采用组图网络,提出径向场捕捉时空依赖,结合组内和组间交互模块,并行化动力学-运动学传播更新关节特征,并引入辅助损失监督运动先验。
  • Result: 在Human3.6M、CMU-Mocap和3DPW基准测试中表现优异,显著提升了短期运动预测性能。
  • Conclusion: GGMotion通过分组建模和物理约束,显著提升了运动预测的物理合理性和准确性。

[36] MUVOD: A Novel Multi-view Video Object Segmentation Dataset and A Benchmark for 3D Segmentation

Bangning Wei,Joshua Maraval,Meriem Outtas,Kidiyo Kpalma,Nicolas Ramin,Lu Zhang

Main category: cs.CV

TL;DR: 论文介绍了MUVOD数据集,用于动态场景的4D对象分割,填补了多视角视频数据集的空白,并提供了评估指标和基线方法。

  • Motivation: 动态场景的4D对象分割研究不足,主要原因是缺乏大规模、准确标注的多视角视频数据集。
  • Method: 提出MUVOD数据集,包含17个场景的7830张RGB图像及其分割掩码,支持4D运动跟踪。
  • Result: 数据集包含459个实例和73个类别,为多视角视频分割方法提供了基准。
  • Conclusion: MUVOD数据集为动态场景分割研究提供了重要资源,并推动了该领域的发展。

[37] Spline Deformation Field

Mingyang Song,Yang Zhang,Marko Mihajlovic,Siyu Tang,Markus Gross,Tunç Ozan Aydın

Main category: cs.CV

TL;DR: 提出了一种基于样条的轨迹表示方法,通过显式控制节点数量来保持空间一致性和加速度,同时减少时间波动。

  • Motivation: 现有方法在隐式变形场中依赖神经网络的归纳偏置,可能导致空间一致性不足;显式方法如线性混合蒙皮则依赖启发式节点初始化。稀疏时间信号的插值潜力也未充分探索。
  • Method: 采用基于样条的轨迹表示,引入低秩时变空间编码,替代传统的耦合时空技术。
  • Result: 在稀疏输入下表现出优越的时间插值性能,动态场景重建质量与先进方法相当,同时增强了运动一致性。
  • Conclusion: 该方法在保持空间一致性和加速度的同时,有效减少了时间波动,且不依赖线性混合蒙皮或刚性约束。

[38] MAPEX: Modality-Aware Pruning of Experts for Remote Sensing Foundation Models

Joelle Hanna,Linus Scheibenreif,Damian Borth

Main category: cs.CV

TL;DR: MAPEX提出了一种基于多模态专家混合的遥感基础模型,通过模态感知剪枝技术优化任务适配,解决了现有模型在多模态任务中的不匹配问题。

  • Motivation: 现有遥感基础模型通常针对特定模态(如光学RGB或多光谱数据)预训练,导致与任务模态不匹配,且模型规模大、微调成本高。
  • Method: MAPEX采用多模态预训练和模态条件令牌路由机制,结合模态感知剪枝技术,生成高效的任务专用模型。
  • Result: 实验表明,MAPEX在多种遥感数据集上表现优异,优于全监督训练和现有遥感基础模型。
  • Conclusion: MAPEX通过多模态专家混合和模态感知剪枝,显著提升了遥感任务的适配性和效率。

[39] Beyond the Linear Separability Ceiling

Enrico Vompa,Tanel Tammet,Mohit Vaishnav

Main category: cs.CV

TL;DR: 研究发现视觉语言模型(VLM)在抽象推理任务中存在线性推理瓶颈,提出线性可分性天花板(LSC)概念,证明该问题源于语言模型推理路径而非感知能力,并通过任务依赖性干预解决。

  • Motivation: 探索视觉语言模型在抽象推理任务中的性能限制,尤其是线性可分性对推理能力的影响。
  • Method: 引入线性可分性天花板(LSC)作为衡量指标,通过后置调优(postfix tuning)激活或调整模型权重,分析不同任务下的干预效果。
  • Result: 发现线性推理瓶颈普遍存在,但可通过任务依赖性干预解决;语义概念任务激活现有路径即可,复杂关系推理需调整核心权重。
  • Conclusion: 研究表明,稳健推理的关键在于针对性对齐,而非单纯改进表示学习,为VLM分析提供了新视角。

[40] Diffusion-Guided Knowledge Distillation for Weakly-Supervised Low-Light Semantic Segmentation

Chunyan Wang,Dong Zhang,Jinhui Tang

Main category: cs.CV

TL;DR: 论文提出了一种结合扩散引导知识蒸馏和深度引导特征融合的新框架DGKD-WLSS,用于解决弱监督低光语义分割中的性能下降问题。

  • Motivation: 现有方法在低光环境下性能显著下降,主要由于图像质量退化(如低对比度、噪声和颜色失真)和弱监督的固有限制,导致不可靠的类别激活图和语义模糊的伪标签。
  • Method: 提出DGKD-WLSS框架,结合扩散引导知识蒸馏(DGKD)和深度引导特征融合(DGF2),通过扩散去噪和知识蒸馏对齐正常光和低光特征,并利用深度图作为光照不变的几何先验增强结构特征学习。
  • Result: 实验证明DGKD-WLSS在低光条件下的弱监督语义分割任务中表现优异,达到最先进水平。
  • Conclusion: DGKD-WLSS有效解决了低光环境下弱监督语义分割的挑战,代码已开源。

[41] NexViTAD: Few-shot Unsupervised Cross-Domain Defect Detection via Vision Foundation Models and Multi-Task Learning

Tianwei Mu,Feiyu Duan,Bo Zhou,Dan Xue,Manhong Huang

Main category: cs.CV

TL;DR: NexViTAD是一种基于视觉基础模型的少样本跨域异常检测框架,通过共享子空间投影和多任务学习模块解决工业异常检测中的域偏移问题,性能优越。

  • Motivation: 解决工业异常检测中因域偏移导致的性能下降问题。
  • Method: 结合Hiera和DINO-v2预训练模型的特征融合、共享子空间投影策略、多任务解码器架构及Sinkhorn-K-means聚类异常评分方法。
  • Result: 在MVTec AD数据集上表现优异,AUC为97.5%,AP为70.4%,PRO为95.2%。
  • Conclusion: NexViTAD在跨域缺陷检测中实现了突破性进展,性能超越现有模型。

[42] HOTA: Hierarchical Overlap-Tiling Aggregation for Large-Area 3D Flood Mapping

Wenfeng Jia,Bin Liang,Yuxi Lu,Attavit Wilaiwongsakul,Muhammad Arif Khan,Lihong Zheng

Main category: cs.CV

TL;DR: HOTA是一种多尺度推理策略,结合SegFormer和深度估计模块,实现高精度3D洪水地图绘制,显著提升洪水范围和深度的测量准确性。

  • Motivation: 洪水是常见自然灾害,现有方法在覆盖范围和空间细节之间存在权衡,且常忽略洪水深度。HOTA旨在填补这一空白,提供快速、大范围的3D洪水信息。
  • Method: HOTA采用分层重叠平铺聚合策略,结合SegFormer模型和DEM差分方法,通过多尺度推理和双约束深度估计模块实现洪水范围和深度的精确测量。
  • Result: 在澳大利亚Kempsey洪水案例中,HOTA将IoU从73%提升至84%,边界误差小于0.5米,证明了其高精度和大范围应用能力。
  • Conclusion: HOTA能够生成适用于快速灾害响应的高精度3D洪水地图,显著提升了洪水监测和响应的效率。

[43] Stable-Hair v2: Real-World Hair Transfer via Multiple-View Diffusion Model

Kuiyuan Sun,Yuxuan Zhang,Jichao Zhang,Jiaming Liu,Wei Wang,Niculae Sebe,Yao Zhao

Main category: cs.CV

TL;DR: Stable-Hair v2是一种基于扩散的多视角头发转移框架,首次利用多视角扩散模型实现高质量、一致性的头发转移。

  • Motivation: 现有扩散方法在多视角一致性生成方面表现不足,而多视角头发转移在数字人类和虚拟形象等应用中至关重要。
  • Method: 提出多视角训练数据生成管道,结合扩散模型、数据增强和面部微调,并引入极方位嵌入和时间注意力层。
  • Result: 实验表明,该方法能准确转移发型并实现多视角无缝一致性,显著优于现有方法。
  • Conclusion: Stable-Hair v2在多视角头发转移中设定了新基准,代码已开源。

[44] HiM2SAM: Enhancing SAM2 with Hierarchical Motion Estimation and Memory Optimization towards Long-term Tracking

Ruixiang Chen,Guolei Sun,Yawei Li,Jie Qin,Luca Benini

Main category: cs.CV

TL;DR: 本文改进了SAM2框架,通过分层运动估计和优化内存银行,提升了视频目标跟踪的准确性,尤其在长期遮挡和外观变化下表现优异。

  • Motivation: 解决视频目标跟踪中的遮挡、背景干扰和目标重现等挑战。
  • Method: 引入分层运动估计策略,结合轻量级线性预测和选择性非线性细化;优化内存银行,区分长期和短期记忆帧。
  • Result: 在LaSOT和LaSOText数据集上,大模型相对原SAM2分别提升9.6%和7.2%的AUC,小模型提升更显著。
  • Conclusion: 无需额外训练的低开销改进能有效提升长期跟踪性能,代码已开源。

[45] LOSC: LiDAR Open-voc Segmentation Consolidator

Nermin Samet,Gilles Puy,Renaud Marlet

Main category: cs.CV

TL;DR: LOSC方法通过整合图像语义标签并训练3D网络,在零样本开放词汇分割任务中显著优于现有技术。

  • Motivation: 研究如何利用图像视觉语言模型(VLMs)在驾驶场景中对激光雷达扫描进行开放词汇分割,解决传统方法中标签噪声和稀疏性问题。
  • Method: 通过整合图像语义标签,增强时空一致性和对图像级增强的鲁棒性,并基于这些标签训练3D网络。
  • Result: 在nuScenes和SemanticKITTI数据集上,LOSC方法在零样本开放词汇语义和全景分割任务中显著优于现有技术。
  • Conclusion: LOSC方法简单有效,为开放词汇分割任务提供了新的解决方案。

[46] SpatialViz-Bench: Automatically Generated Spatial Visualization Reasoning Tasks for MLLMs

Siting Wang,Luoyang Sun,Cheng Deng,Kun Shao,Minnan Pei,Zheng Tian,Haifeng Zhang,Jun Wang

Main category: cs.CV

TL;DR: 论文提出了SpatialViz-Bench,一个多模态空间可视化基准测试,用于评估大型语言模型的空间可视化能力,发现现有模型存在显著缺陷。

  • Motivation: 现有评估方法(如IQ测试或数学竞赛)可能因与训练数据重叠而不可靠,且空间可视化能力未得到充分评估。
  • Method: 开发了包含12个任务和1,180个自动生成问题的多模态基准测试SpatialViz-Bench,并评估了33个先进MLLMs。
  • Result: 模型表现差异大,存在与人类直觉不符的感知困难、2D到3D性能骤降等问题。
  • Conclusion: SpatialViz-Bench填补了领域空白,揭示了MLLMs在空间可视化任务中的不足。

[47] ViLU: Learning Vision-Language Uncertainties for Failure Prediction

Marc Lafon,Yannis Karmim,Julio Silva-Rodriguez,Paul Couairon,Clément Rambour,Raphaël Fournier-Sniehotta,Ismail Ben Ayed,Jose Dolz,Nicolas Thome

Main category: cs.CV

TL;DR: ViLU是一个新的视觉语言不确定性量化框架,通过整合视觉嵌入、预测文本嵌入和图像条件文本表示,构建不确定性感知的多模态表示。

  • Motivation: 解决视觉语言模型中可靠的不确定性量化和失败预测的挑战。
  • Method: ViLU训练一个二元分类器作为不确定性预测器,使用加权二元交叉熵损失区分正确和错误预测。
  • Result: 在多个数据集上表现出优于现有方法的性能,适用于后处理场景。
  • Conclusion: ViLU通过其架构和训练方法实现了有效的不确定性量化,代码已公开。

[48] T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates

Zhitao Wang,Hengyu Man,Wenrui Li,Xingtao Wang,Xiaopeng Fan,Debin Zhao

Main category: cs.CV

TL;DR: 提出了一种轨迹引导的生成视频编码框架(T-GVC),通过语义感知稀疏运动采样和轨迹对齐损失约束,在超低比特率下实现高质量视频重建。

  • Motivation: 现有视频生成方法在超低比特率场景下存在领域局限性或过度依赖文本引导,导致运动细节丢失和重建不真实。
  • Method: 采用语义感知稀疏运动采样和轨迹对齐损失约束,结合扩散过程,实现低比特率下的高质量视频重建。
  • Result: 实验表明,T-GVC在超低比特率下优于传统编解码器和端到端视频压缩方法,且运动控制更精确。
  • Conclusion: T-GVC为基于几何运动建模的生成视频编码提供了新方向。

[49] Bridging the gap in FER: addressing age bias in deep learning

F. Xavier Gaya-Morey,Julia Sanchez-Perez,Cristina Manresa-Yee,Jose M. Buades-Rubio

Main category: cs.CV

TL;DR: 该论文研究了深度学习面部表情识别(FER)模型中的年龄偏见,特别是对老年人的影响,并提出三种缓解策略,显著提高了老年人表情识别的准确性。

  • Motivation: 现有FER模型存在年龄偏见,尤其是对老年人的识别性能较差,影响了公平性和可靠性。
  • Method: 研究分析了年龄对识别性能的影响,使用XAI技术识别偏见,并提出了多任务学习、多模态输入和年龄加权损失三种缓解策略。
  • Result: 实验表明,提出的策略显著提高了老年人表情识别的准确性,特别是对中性、悲伤和愤怒表情。
  • Conclusion: 通过简单的训练修改可以有效缓解FER中的年龄偏见,近似的人口统计标签对提升公平性具有价值。

[50] MolCLIP: A Molecular-Auxiliary CLIP Framework for Identifying Drug Mechanism of Action Based on Time-Lapsed Mitochondrial Images

Fengqian Pang,Chunyue Lei,Hongfei Zhao,Chenghao Liu,Zhiqiang Xing,Huafeng Wang,Chuyang Ye

Main category: cs.CV

TL;DR: MolCLIP是一种结合细胞视频和分子模态的视觉语言模型,通过分子辅助CLIP框架和度量学习策略,显著提升了药物识别和MoA识别的性能。

  • Motivation: 现有深度学习方法主要关注细胞的空间特征,忽略了时间动态信息,而药物分子模态可能补充图像模态的不足。
  • Method: 提出MolCLIP模型,结合细胞视频和分子模态,设计分子辅助CLIP框架和度量学习策略。
  • Result: 在MitoDataset上,药物识别和MoA识别的mAP分别提高了51.2%和20.5%。
  • Conclusion: MolCLIP通过多模态融合和时间动态分析,显著提升了MoA识别的性能。

[51] Attend-and-Refine: Interactive keypoint estimation and quantitative cervical vertebrae analysis for bone age assessment

Jinhee Kim,Taesung Kim,Taewoo Kim,Dong-Wook Kim,Byungduk Ahn,Yoon-Ji Kim,In-Seok Song,Jaegul Choo

Main category: cs.CV

TL;DR: 研究提出了一种基于深度学习的交互式模型ARNet,用于通过侧位头影测量X光片预测儿童正畸中的生长潜力,显著减少了手动标注的工作量。

  • Motivation: 准确预测儿童正畸中的生长潜力对制定有效治疗策略至关重要,但传统方法依赖人工标注,效率低且耗时。
  • Method: 引入ARNet模型,结合交互引导的重新校准网络和形态感知损失函数,优化关键点标注过程。
  • Result: ARNet在多个数据集上表现出色,显著提高了标注效率和准确性。
  • Conclusion: 该研究为儿童正畸生长潜力评估提供了一种高效的AI辅助诊断工具,推动了领域发展。

[52] Action Unit Enhance Dynamic Facial Expression Recognition

Feng Liu,Lingna Gu,Chen Shi,Xiaolan Fu

Main category: cs.CV

TL;DR: 提出了一种结合AU-expression知识的动态面部表情识别架构AU-DFER,通过量化AU对表情的贡献并设计权重矩阵,提升了深度学习模型的性能。实验表明该方法优于现有技术,并探讨了损失函数设计对数据不平衡问题的改进。

  • Motivation: 现有动态面部表情识别研究主要从深度学习角度进行特征学习,但缺乏对AU-expression知识的利用。本文旨在通过整合AU知识提升模型性能。
  • Method: 提出AU-DFER架构,量化AU对表情的贡献并设计权重矩阵,引入AU损失函数将先验知识与深度学习网络结合。在主流数据集上验证了该方法的有效性。
  • Result: 实验表明AU-DFER优于现有技术,无需额外计算即可提升性能。同时,损失函数设计能有效缓解数据标签不平衡问题。
  • Conclusion: 整合AU-expression知识能显著提升动态表情识别性能,解决数据不平衡问题是未来研究的关键方向。

[53] Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought

Shin'ya Yamaguchi,Kosuke Nishida,Daiki Chijiwa

Main category: cs.CV

TL;DR: 论文提出了一种名为RED的解码策略,通过优化多模态CoT推理中的理性条件对数似然,显著提升了LVLMs的推理能力。

  • Motivation: 现有LVLMs在CoT推理中常忽略生成的理性内容,影响了多模态推理的准确性和可靠性。
  • Method: 将多模态CoT推理重新定义为KL约束的奖励最大化问题,提出RED解码策略,结合图像和理性信息的条件分布。
  • Result: RED在多个基准测试和LVLMs中显著优于标准CoT和其他解码方法。
  • Conclusion: RED为提升LVLMs的CoT推理提供了实用且有效的方法,推动了更可靠的多模态系统发展。

[54] Tree-Mamba: A Tree-Aware Mamba for Underwater Monocular Depth Estimation

Peixian Zhuang,Yijian Wang,Zhenqi Fu,Hongliang Zhang,Sam Kwong,Chongyi Li

Main category: cs.CV

TL;DR: 提出了一种名为Tree-Mamba的新方法,用于水下单目深度估计,通过树感知扫描策略和多尺度特征表示提升性能,并构建了高质量数据集BlueDepth。

  • Motivation: 水下图像因光吸收和散射效应退化,现有Mamba方法无法有效建模其结构特征,且现有数据集深度标签不可靠。
  • Method: 提出树感知扫描策略,基于特征相似性构建最小生成树,并通过上下遍历灵活聚合空间拓扑特征。
  • Result: Tree-Mamba在定性和定量评估中优于现有方法,计算效率高。
  • Conclusion: Tree-Mamba和BlueDepth为水下深度估计提供了有效解决方案。

[55] Motion-Aware Adaptive Pixel Pruning for Efficient Local Motion Deblurring

Wei Shang,Dongwei Ren,Wanying Zhang,Pengfei Zhu,Qinghua Hu,Wangmeng Zuo

Main category: cs.CV

TL;DR: 提出了一种新的局部运动模糊去除方法,通过可训练的模糊区域预测器和帧内运动分析器,显著提升了去模糊效果并减少了计算量。

  • Motivation: 现有方法在计算资源分配和空间变化模糊模式处理上效率不足,难以有效解决局部运动模糊问题。
  • Method: 1. 使用可训练的模糊区域预测器识别模糊区域;2. 通过结构重参数化优化推理计算;3. 开发帧内运动分析器生成运动轨迹,指导区域特异性模糊恢复。
  • Result: 在局部和全局模糊数据集上表现优于现有方法,计算量减少49%。
  • Conclusion: 该方法在去模糊效果和计算效率上均优于现有技术,具有实际应用潜力。

[56] One Object, Multiple Lies: A Benchmark for Cross-task Adversarial Attack on Unified Vision-Language Models

Jiale Zhao,Xinyang Jiang,Junyao Gao,Yuhao Xue,Cairong Zhao

Main category: cs.CV

TL;DR: 论文提出CrossVLAD数据集和CRAFT方法,用于评估和攻击统一视觉语言模型(VLMs)在多任务中的对抗性表现。

  • Motivation: 统一视觉语言模型(VLMs)在多任务中的灵活性带来了新的安全挑战,需要评估对抗性攻击在不同任务中的有效性。
  • Method: 提出CrossVLAD数据集和CRAFT方法,通过区域中心攻击和令牌对齐技术实现跨任务对抗攻击。
  • Result: 实验表明CRAFT在跨任务攻击和目标对象改变成功率上优于现有方法。
  • Conclusion: CRAFT方法有效提升了统一VLMs在多任务中的对抗攻击性能。

[57] Understanding Dataset Bias in Medical Imaging: A Case Study on Chest X-rays

Ethan Dack,Chengliang Dai

Main category: cs.CV

TL;DR: 研究探讨了开源胸部X光数据集中的偏差问题,通过数据集变换和多种网络架构分析,发现医学影像数据中同样存在偏差。

  • Motivation: 医学影像数据因其敏感性难以开源,导致某些数据集被广泛使用,研究旨在验证这些数据集中是否存在偏差。
  • Method: 对NIH、CheXpert、MIMIC-CXR和PadChest数据集进行变换,并应用多种网络架构进行分析。
  • Result: 研究发现医学影像数据中同样存在偏差,表明现代方法可能依赖捷径而非病理特征。
  • Conclusion: 研究呼吁医学影像领域进行更多可解释性研究,并鼓励创建更多开源数据集。

[58] RAPS-3D: Efficient interactive segmentation for 3D radiological imaging

Théo Danielou,Daniel Tordjman,Pierre Manceron,Corentin Dancette

Main category: cs.CV

TL;DR: 提出了一种简化的3D可提示分割方法,减少推理时间并消除滑动窗口的复杂性,同时保持高性能。

  • Motivation: SAM的2D架构不适用于3D医学影像(如CT或MRI),现有3D方法复杂且计算资源消耗大。
  • Method: 受SegVol启发,设计了一种简化的3D可提示分割方法,避免滑动窗口和复杂提示管理。
  • Result: 实现了高性能,同时减少了推理时间和实现复杂性。
  • Conclusion: 该方法为3D医学影像分割提供了一种高效且简化的解决方案。

[59] Energy-Guided Decoding for Object Hallucination Mitigation

Xixi Liu,Ailin Deng,Christopher Zach

Main category: cs.CV

TL;DR: 论文提出了一种基于能量的解码方法,用于减少大型视觉语言模型(LVLMs)中的对象幻觉问题,显著提高了性能并减少了回答偏差。

  • Motivation: 现有方法在减少对象幻觉时存在局限性,如依赖特定解码方法或复杂视觉输入修改,因此需要一种更简单有效的方法。
  • Method: 提出基于能量的解码方法,动态选择能量分数最低的隐藏状态层,以减少回答偏差并提升性能。
  • Result: 在三个基准测试(POPE、MME、MMVP)上显著提高了准确率和F1分数,平均准确率提升4.82%,回答偏差减少8.81%。
  • Conclusion: 该方法简单有效,能够显著减少对象幻觉问题,提升模型性能并降低回答偏差。

[60] EEvAct: Early Event-Based Action Recognition with High-Rate Two-Stream Spiking Neural Networks

Michael Neumeier,Jules Lecomte,Nils Kazinski,Soubarna Banik,Bing Li,Axel von Arnim

Main category: cs.CV

TL;DR: 提出了一种高频率双流脉冲神经网络(SNN),用于早期人类活动识别,在THU EACT-50数据集上比之前工作提升了2%的准确率。

  • Motivation: 早期识别人类活动对安全和响应性至关重要,但现有方法受限于低速率处理,而SNN虽能高速处理但准确率不足。
  • Method: 采用高频率双流SNN,结合早期事件识别框架,评估了不同观察时间下的Top-1和Top-5识别分数。
  • Result: 在THU EACT-50数据集上,最终准确率比之前工作提升了2%。
  • Conclusion: 该方法在早期动作触发(如体育动作捕捉)中具有实际应用潜力。

[61] Sparse-Dense Side-Tuner for efficient Video Temporal Grounding

David Pujol-Perich,Sergio Escalera,Albert Clapés

Main category: cs.CV

TL;DR: 提出了一种稀疏-密集侧调谐器(SDST)用于视频时间定位(VTG),结合了参考可变形自注意力机制,显著提升了性能并减少了参数数量。

  • Motivation: 现有方法依赖于冻结预训练模型的最终层特征,适应性有限;而稀疏性在时间定位中被忽视。
  • Method: 提出SDST架构和参考可变形自注意力机制,并首次将InternVideo2主干集成到侧调谐框架中。
  • Result: 在多个数据集上达到竞争性或SOTA结果,参数数量减少73%。
  • Conclusion: SDST方法显著提升了性能,同时降低了计算成本。

[62] X-RAFT: Cross-Modal Non-Rigid Registration of Blue and White Light Neurosurgical Hyperspectral Images

Charlie Budd,Silvère Ségaud,Matthew Elliot,Graeme Stasiuk,Yijing Xie,Jonathan Shapey,Tom Vercauteren

Main category: cs.CV

TL;DR: 论文提出了一种改进的跨模态光流模型X-RAFT,用于在荧光引导神经外科手术中实现高光谱图像的密集跨模态对应,显著提升了荧光定量测量的准确性。

  • Motivation: 将高光谱成像整合到荧光引导神经外科手术中,通过实时提供定量荧光测量来改善手术决策。然而,定量荧光需要荧光(蓝光)和反射(白光)模式下的配对光谱数据,而这两种模式的图像采集在动态手术环境中需要顺序进行,因此需要找到密集的跨模态图像对应关系。
  • Method: 提出了X-RAFT模型,这是一种改进的RAFT光流模型,专门用于跨模态输入。通过为每种模态对使用不同的图像编码器,并在神经外科高光谱数据上以自监督方式使用流循环一致性进行微调。
  • Result: 与基线方法相比,X-RAFT在评估指标上减少了36.6%的误差,与现有的跨模态光流方法(CrossRAFT)相比减少了27.83%的误差。
  • Conclusion: X-RAFT在荧光引导神经外科手术中实现了高效的跨模态图像对应,显著提升了荧光定量测量的准确性,为手术决策提供了更好的支持。

[63] Deep Learning based 3D Volume Correlation for Additive Manufacturing Using High-Resolution Industrial X-ray Computed Tomography

Keerthana Chand,Tobias Fritsch,Bardia Hejazi,Konstantin Poka,Giovanni Bruno

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的体素变形估计方法,用于CAD和XCT体积的配准,显著提高了配准精度和效率。

  • Motivation: 解决增材制造中几何偏差问题,提高工业应用中的质量控制。
  • Method: 采用动态分块处理策略和深度学习,引入二进制差异图(BDM)评估配准精度。
  • Result: Dice Score提高9.2%,体素匹配率提高9.9%,计算时间从几天缩短到几分钟。
  • Conclusion: 为基于深度学习的DVC方法奠定了基础,有望提高增材制造过程的可靠性和效率。

[64] SCOOTER: A Human Evaluation Framework for Unrestricted Adversarial Examples

Dren Fazlija,Monty-Maximilian Zühlke,Johanna Schrader,Arkadij Orlov,Clara Stein,Iyiola E. Olatunji,Daniel Kudenko

Main category: cs.CV

TL;DR: SCOOTER是一个开源框架,用于评估无限制对抗攻击的不可感知性,提供统计支持的工具和数据集。

  • Motivation: 传统对抗攻击防御策略无法应对无限制攻击,且缺乏统计显著的人类评估方法。
  • Method: 提出SCOOTER框架,包括众包研究指南、大规模人类与模型对比、开源工具和基准数据集。
  • Result: 发现现有攻击方法无法生成不可感知的图像,且自动化系统与人类感知不一致。
  • Conclusion: SCOOTER为无限制对抗攻击评估提供了标准化工具和基准,强调了人类感知的重要性。

[65] Where are we with calibration under dataset shift in image classification?

Mélanie Roschewitz,Raghav Mehta,Fabio de Sousa Ribeiro,Ben Glocker

Main category: cs.CV

TL;DR: 研究了图像分类中数据集偏移下的校准状态,比较了多种后处理和训练中校准方法,提出了实用指南。

  • Motivation: 探讨在真实世界数据集偏移下,如何选择和应用校准技术以提高分类模型的鲁棒性。
  • Method: 比较多种后处理校准方法和训练中校准策略(如标签平滑),在多个分类任务和图像领域中进行实验。
  • Result: 发现熵正则化和标签平滑结合效果最佳,后处理校准方法在少量OOD数据下表现稳健,新校准方法改进有限,校准偏移常以牺牲分布内校准为代价。
  • Conclusion: 微调基础模型的分类器校准效果更好,集成方法结合微调能显著提升校准鲁棒性。

[66] SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes

Jiaxin Huang,Ziwen Li,Hanlve Zhang,Runnan Chen,Xiao He,Yandong Guo,Wenping Wang,Tongliang Liu,Mingming Gong

Main category: cs.CV

TL;DR: 论文介绍了S\textsc{urprise}3D数据集,用于评估复杂3D场景中的语言引导空间推理分割,旨在解决现有数据集中语义与空间信息混杂的问题。

  • Motivation: 当前3D视觉语言研究中,空间推理能力未被充分探索,且现有数据集存在语义与空间信息混杂的问题,导致模型依赖表面捷径而非真正理解空间关系。
  • Method: 提出S\textsc{urprise}3D数据集,包含200k+视觉语言对和89k+人工标注的空间查询,避免使用对象名称以减少偏见。
  • Result: 初步基准测试显示,现有3D视觉定位方法和3D-LLMs在该数据集上表现不佳,凸显了其挑战性和必要性。
  • Conclusion: S\textsc{urprise}3D和3D-SRS基准套件旨在推动空间感知AI的发展,为机器人交互和规划提供支持。

[67] Robust and Generalizable Heart Rate Estimation via Deep Learning for Remote Photoplethysmography in Complex Scenarios

Kang Cen,Chang-Hong Fu,Hong Hong

Main category: cs.CV

TL;DR: 提出了一种基于3D卷积神经网络和差分帧融合模块的非接触式远程光电容积描记(rPPG)网络,结合动态混合损失函数,显著提升了心率测量的准确性和鲁棒性。

  • Motivation: 现有rPPG网络在复杂场景下的准确性、鲁棒性和泛化能力不足,需改进。
  • Method: 使用3D卷积神经网络和差分帧融合模块提取rPPG信号,结合TSM和自注意力机制增强特征,采用动态混合损失函数防止过拟合。
  • Result: 在PURE、UBFC-rPPG和MMPD数据集上表现优异,训练后MAE为7.58,优于现有模型。
  • Conclusion: 该网络在复杂场景下具有更强的鲁棒性和泛化能力,为rPPG技术提供了新思路。

[68] Visual Instance-aware Prompt Tuning

Xi Xiao,Yunbei Zhang,Xingjian Li,Tianyang Wang,Xiao Wang,Yuxiang Wei,Jihun Hamm,Min Xu

Main category: cs.CV

TL;DR: ViaPT提出了一种实例感知的视觉提示调优方法,通过结合数据集级和实例级提示,利用PCA保留关键信息,显著提升了性能。

  • Motivation: 传统视觉提示调优方法使用固定的数据集级提示,导致性能不佳,无法适应输入实例的高方差。
  • Method: ViaPT为每个输入生成实例感知提示,并与数据集级提示融合,使用PCA保留重要信息。
  • Result: 在34个数据集上的实验表明,ViaPT优于现有方法,同时减少了可学习参数。
  • Conclusion: ViaPT为视觉变换器的提示分析和优化提供了新范式。

[69] Synergistic Prompting for Robust Visual Recognition with Missing Modalities

Zhihui Zhang,Luanyuan Dai,Qika Lin,Yunfeng Diao,Guangyin Jin,Yufei Guo,Jing Zhang,Xiaoshuai Hao

Main category: cs.CV

TL;DR: 提出了一种名为Synergistic Prompting(SyP)的新框架,用于解决多模态视觉识别中模态缺失问题,通过动态适配器和协同提示策略显著提升性能。

  • Motivation: 现实应用中多模态数据常存在缺失或不完整,导致性能下降,现有静态提示方法缺乏灵活性且难以应对关键模态缺失。
  • Method: SyP框架包含动态适配器(动态生成提示)和协同提示策略(结合静态与动态提示),以灵活适应不同缺失情况并确保鲁棒性。
  • Result: 在三个广泛使用的视觉识别数据集上,SyP显著优于现有方法,并在不同缺失率和条件下表现出鲁棒性。
  • Conclusion: SyP通过动态和协同提示策略有效解决了模态缺失问题,展示了卓越的适应性和可靠性。

[70] Patient-specific vs Multi-Patient Vision Transformer for Markerless Tumor Motion Forecasting

Gauthier Rotsart de Hertaing,Dani Manjah,Benoit Macq

Main category: cs.CV

TL;DR: 该研究首次将Vision Transformers(ViT)应用于无标记肺肿瘤运动预测,比较了患者特异性(PS)和多患者(MP)模型的性能。PS模型在精度上更优,而MP模型在无需重新训练的情况下表现出更强的鲁棒性。

  • Motivation: 当前无标记方法主要依赖深度学习,而基于Transformer的架构在轨迹预测中表现优异,但在肺肿瘤运动预测领域尚未探索。
  • Method: 使用31名患者的4DCT扫描生成的DRR训练MP模型,PS模型仅使用目标患者的规划数据。两种模型均预测1秒内的肿瘤运动,并通过ADE和FDE评估性能。
  • Result: PS模型在T1数据上表现更优,尤其在数据量较大时;MP模型在T2数据上表现出更强的鲁棒性且无需重新训练。
  • Conclusion: ViT架构首次用于无标记肿瘤运动预测,PS模型精度高,MP模型适合时间紧迫的临床场景。

[71] Benchmarking Content-Based Puzzle Solvers on Corrupted Jigsaw Puzzles

Richard Dirauf,Florian Wolz,Dario Zanca,Björn Eskofier

Main category: cs.CV

TL;DR: 研究评估了内容拼图求解器在缺失、边缘腐蚀和内容腐蚀三种损坏情况下的鲁棒性,发现深度学习模型通过数据增强可显著提升性能。

  • Motivation: 现有拼图求解器在现实应用(如文物或文件碎片重组)中缺乏对损坏情况的评估。
  • Method: 引入三种拼图损坏类型,评估启发式和深度学习求解器的表现。
  • Result: 标准求解器性能随损坏增加迅速下降,但深度学习模型通过微调可显著提升鲁棒性,其中Positional Diffusion模型表现最佳。
  • Conclusion: 研究为提升现实文物自动重建提供了方向。

[72] Rethinking Query-based Transformer for Continual Image Segmentation

Yuchen Zhu,Cheng Shi,Dingyou Wang,Jiajin Tang,Zhengxuan Wei,Yu Wu,Guanbin Li,Sibei Yang

Main category: cs.CV

TL;DR: SimCIS提出了一种简单但强大的基线方法,通过直接选择图像特征进行查询分配,解决类增量图像分割中的可塑性和输入顺序依赖问题。

  • Motivation: 当前方法在解耦掩码生成与持续学习过程时存在可塑性丧失和输入顺序依赖问题。
  • Method: SimCIS直接选择图像特征进行查询分配,确保完美对齐以保留对象性,同时引入跨阶段一致性选择和基于视觉查询的重放机制。
  • Result: SimCIS在各种分割任务、设置、分割和输入顺序下均优于现有方法。
  • Conclusion: SimCIS通过简单而有效的方法解决了类增量图像分割中的关键问题,表现优异。

[73] 3D-ADAM: A Dataset for 3D Anomaly Detection in Advanced Manufacturing

Paul McHard,Florent P. Audonnet,Oliver Summerell,Sebastian Andraos,Paul Henderson,Gerardo Aragon-Camarasa

Main category: cs.CV

TL;DR: 论文介绍了3D-ADAM,首个大规模、高精度的3D工业异常检测数据集,旨在解决现有数据集不足的问题,并推动鲁棒性3D异常检测模型的发展。

  • Motivation: 工业制造中表面缺陷是低产量的主要原因,现有自动化缺陷检测方法在真实工业场景中表现不足,且缺乏高质量、代表性的数据集。
  • Method: 通过采集14,120个高分辨率扫描数据(涵盖217个独特零件),使用4种工业深度成像传感器,构建3D-ADAM数据集,包含27,346个标注缺陷实例和8,110个机械设计特征标注。
  • Result: 3D-ADAM数据集在真实工业环境中捕获,包含多种变量(如零件位置、光照等),对现有SOTA模型提出了显著挑战。
  • Conclusion: 3D-ADAM为工业异常检测提供了高质量基准,有望加速鲁棒性模型的发展,满足现代制造需求。

[74] THUNDER: Tile-level Histopathology image UNDERstanding benchmark

Pierre Marza,Leo Fillioux,Sofiène Boutaj,Kunal Mahatha,Christian Desrosiers,Pablo Piantanida,Jose Dolz,Stergios Christodoulidis,Maria Vakalopoulou

Main category: cs.CV

TL;DR: THUNDER是一个用于数字病理学基础模型的快速、易用、动态的基准测试工具,支持多种任务和模型比较。

  • Motivation: 数字病理学领域近期涌现大量基础模型,亟需一个全面的基准测试工具来评估性能、差异性和鲁棒性。
  • Method: 开发THUNDER基准,支持23种基础模型在16个数据集上的多样化任务、特征分析和鲁棒性评估。
  • Result: THUNDER能够高效比较多种模型,并提供特征空间、不确定性和鲁棒性分析。
  • Conclusion: THUNDER为数字病理学领域提供了一个可靠的基准工具,促进模型选择和优化。

[75] Single-Step Latent Diffusion for Underwater Image Restoration

Jiayi Wu,Tianfu Wang,Md Abu Bakr Siddique,Md Jahidul Islam,Cornelia Fermuller,Yiannis Aloimonos,Christopher A. Metzler

Main category: cs.CV

TL;DR: 提出了一种名为SLURPP的新型网络架构,结合预训练的潜在扩散模型和显式场景分解,用于水下图像恢复,显著提升了速度和性能。

  • Motivation: 现有基于像素域扩散的图像恢复方法在复杂场景中计算量大且易产生不真实伪影,需要更高效的解决方案。
  • Method: 结合预训练的潜在扩散模型和显式场景分解,设计物理基础的水下图像合成管道生成多样化训练数据。
  • Result: SLURPP比现有方法快200倍,在合成基准上PSNR提升约3 dB,并在真实数据上表现优异。
  • Conclusion: SLURPP通过新颖架构和合成数据生成,显著提升了水下图像恢复的效率和效果。

[76] MIRA: A Novel Framework for Fusing Modalities in Medical RAG

Jinhong Wang,Tajamul Ashraf,Zongyan Han,Jorma Laaksonen,Rao Mohammad Anwer

Main category: cs.CV

TL;DR: MIRA框架通过动态调整检索内容和整合多模态数据,显著提升了多模态大语言模型在医学诊断中的事实准确性。

  • Motivation: 解决多模态大语言模型在医学诊断中生成事实不一致的问题,以及检索增强生成中检索不足或过度带来的挑战。
  • Method: 提出MIRA框架,包含动态调整检索内容的模块和整合图像嵌入与医学知识库的多模态检索增强生成框架。
  • Result: 在公开医学VQA和报告生成基准测试中,MIRA显著提高了事实准确性和性能,达到最新最优结果。
  • Conclusion: MIRA有效优化了多模态大语言模型的事实准确性,为医学诊断提供了更可靠的AI辅助工具。

[77] Hardware-Aware Feature Extraction Quantisation for Real-Time Visual Odometry on FPGA Platforms

Mateusz Wasala,Mateusz Smolarczyk,Michal Danilowicz,Tomasz Kryjak

Main category: cs.CV

TL;DR: 提出了一种基于量化SuperPoint CNN的无监督架构,用于高效特征点检测与描述,适用于资源受限的嵌入式平台,并在FPGA上实现高性能。

  • Motivation: 现代导航系统需要高精度位置估计,而VSLAM依赖可靠的特征点提取。现有方法计算需求高,难以在资源受限平台上部署。
  • Method: 采用量化SuperPoint CNN,结合Brevitas和FINN框架进行硬件优化,在FPGA SoC平台上实现高效部署。
  • Result: 在640x480像素图像上达到54 fps,性能优于现有方案。通过TUM数据集验证了量化技术对精度和性能的影响。
  • Conclusion: 该方法在保持高检测质量的同时显著降低计算需求,适用于嵌入式系统,为VSLAM提供了高效解决方案。

[78] Not Only Consistency: Enhance Test-Time Adaptation with Spatio-temporal Inconsistency for Remote Physiological Measurement

Xiao Yang,Yuxuan Fan,Can Liu,Houcheng Su,Weichen Guo,Jiyao Wang,Dengbo He

Main category: cs.CV

TL;DR: 提出了一种名为CiCi的新型测试时间自适应(TTA)策略,用于远程光电容积图(rPPG)任务,通过结合时空一致性和不一致性先验知识,提升模型在推理时的适应性。

  • Motivation: 现有方法在隐私和实时适应性方面存在限制,无法满足实际部署需求。
  • Method: 基于生理学先验知识,提出CiCi框架,利用时空一致性和不一致性先验,并结合梯度动态控制机制。
  • Result: 在五个数据集上的实验表明,该方法优于现有技术,实现了无需源数据的实时自监督适应。
  • Conclusion: CiCi框架在rPPG任务中表现出色,为实时自监督适应提供了新思路。

[79] Towards Continuous Home Cage Monitoring: An Evaluation of Tracking and Identification Strategies for Laboratory Mice

Juan Pablo Oberhauser,Daniel Grzenda

Main category: cs.CV

TL;DR: 开发了一种实时识别算法,通过定制耳标和摄像头监控,实现对实验室小鼠的高效跟踪和身份识别。

  • Motivation: 实验室小鼠的高密度饲养、相似外观和高活动性导致个体数据收集困难,需要更准确的监测方法。
  • Method: 结合多目标跟踪器(MouseTracks)、基于Transformer的身份分类器(Mouseformer)和轨迹关联线性程序(MouseMap),实现实时身份识别。
  • Result: 算法在30帧/秒下准确识别小鼠身份,提高了跟踪效率并减少了身份切换。
  • Conclusion: 该方法为小鼠行为与生理监测提供了更高效的解决方案,优于现有方法。

[80] TinierHAR: Towards Ultra-Lightweight Deep Learning Models for Efficient Human Activity Recognition on Edge Devices

Sizhen Bian,Mengxi Liu,Vitor Fortes Rey,Daniel Geissler,Paul Lukowicz

Main category: cs.CV

TL;DR: TinierHAR是一种超轻量级深度学习架构,结合了残差深度可分离卷积、门控循环单元(GRU)和时间聚合,在保持性能的同时显著提升了计算效率。

  • Motivation: 在资源受限的可穿戴设备上实现高效且准确的人类活动识别(HAR)。
  • Method: 采用残差深度可分离卷积、GRU和时间聚合的混合架构。
  • Result: 在14个公共HAR数据集上,TinierHAR参数减少2.7倍(相比TinyHAR)和43.3倍(相比DeepConvLSTM),计算量分别减少6.4倍和58.6倍,同时保持F1分数。
  • Conclusion: TinierHAR为高效HAR系统设计提供了新思路,并开源了所有材料以促进边缘HAR研究。

[81] Scaling RL to Long Videos

Yukang Chen,Wei Huang,Baifeng Shi,Qinghao Hu,Hanrong Ye,Ligeng Zhu,Zhijian Liu,Pavlo Molchanov,Jan Kautz,Xiaojuan Qi,Sifei Liu,Hongxu Yin,Yao Lu,Song Han

Main category: cs.CV

TL;DR: 该论文提出了一个全栈框架,通过强化学习扩展视觉语言模型(VLMs)在长视频中的推理能力。

  • Motivation: 解决长视频推理的独特挑战,如数据规模、训练效率和模型性能。
  • Method: 结合大规模数据集(LongVideo-Reason)、两阶段训练流程(CoT-SFT和RL)以及高效训练基础设施(MR-SP)。
  • Result: LongVILA-R1-7B在长视频QA基准测试中表现优异,MR-SP系统实现2.1倍加速。
  • Conclusion: LongVILA-R1为长视频推理迈出重要一步,并公开了支持多模态RL训练的系统。

[82] Martian World Models: Controllable Video Synthesis with Physically Accurate 3D Reconstructions

Longfei Li,Zhiwen Fan,Wenyan Cong,Xinhang Liu,Yuyang Yin,Matt Foutter,Panwang Pan,Chenyu You,Yue Wang,Zhangyang Wang,Yao Zhao,Marco Pavone,Yunchao Wei

Main category: cs.CV

TL;DR: 提出了一种合成火星景观视频的方法,包括数据重建和视频生成两部分,解决了火星数据稀缺和与地球图像的域差距问题。

  • Motivation: 为任务预演和机器人模拟提供逼真的火星景观视频,但火星数据稀缺且与地球图像差异大。
  • Method: 1) M3arsSynth:从NASA数据重建3D火星环境并渲染视频;2) MarsGen:基于3D结构生成逼真视频。
  • Result: 方法优于基于地球数据的视频合成模型,视觉逼真度和3D一致性更高。
  • Conclusion: 提出的方法能高效生成高质量火星视频,适用于任务模拟。

[83] Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

Haoyu Wu,Diankun Wu,Tianyu He,Junliang Guo,Yang Ye,Yueqi Duan,Jiang Bian

Main category: cs.CV

TL;DR: 论文提出了一种名为Geometry Forcing的方法,通过几何对齐目标改进视频扩散模型,使其学习更具几何感知的3D表示。

  • Motivation: 视频扩散模型仅基于原始视频数据训练时,往往无法捕捉到有意义的几何感知结构。
  • Method: 提出Geometry Forcing方法,通过Angular Alignment和Scale Alignment两个目标,将模型的中间表示与预训练的几何基础模型特征对齐。
  • Result: 实验表明,该方法在视觉质量和3D一致性上显著优于基线方法。
  • Conclusion: Geometry Forcing有效提升了视频扩散模型的几何感知能力,使其更符合物理世界的3D特性。

[84] OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

JingLi Lin,Chenming Zhu,Runsen Xu,Xiaohan Mao,Xihui Liu,Tai Wang,Jiangmiao Pang

Main category: cs.CV

TL;DR: OST-Bench是一个评估多模态大语言模型在线时空理解能力的基准,强调动态探索场景中的增量观测处理和时空推理。

  • Motivation: 现有基准多基于离线固定输入,无法反映真实世界动态感知的挑战。
  • Method: 构建OST-Bench,包含1.4k场景和10k问答对,评估模型在在线时空推理中的表现。
  • Result: 主流模型在复杂时空推理任务中表现不佳,准确率随探索时间和记忆增长下降。
  • Conclusion: 需解决复杂空间推理和长期记忆检索问题以提升在线推理能力,数据集和代码已开源。

[85] CLIP Won't Learn Object-Attribute Binding from Natural Data and Here is Why

Bijay Gurung,David T. Hoffmann,Thomas Brox

Main category: cs.CV

TL;DR: 研究发现CLIP模型在数据属性(如低属性密度、不完整标题和显著性偏差)影响下难以学习绑定,而传统方法(如增加批量或硬负样本)无效。

  • Motivation: CLIP模型在表示能力上存在局限性,如无法区分复杂场景中的对象属性组合,需探究数据属性对其学习绑定的影响。
  • Method: 使用合成数据集系统分析数据属性(如属性密度、标题完整性和显著性偏差)对CLIP绑定学习的影响。
  • Result: 发现自然数据的常见属性(如低属性密度和不完整标题)阻碍绑定学习,而符合特定数据属性时CLIP能近乎完美学习绑定。
  • Conclusion: 数据属性是解决CLIP绑定问题的关键,传统方法无效,需优化数据设计以提升模型性能。

[86] Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

Jeongseok Hyun,Sukjun Hwang,Su Ho Han,Taeoh Kim,Inwoong Lee,Dongyoon Wee,Joon-Young Lee,Seon Joo Kim,Minho Shim

Main category: cs.CV

TL;DR: 提出了一种无需训练的时空令牌合并方法STTM,通过利用视频数据的局部冗余性,显著降低了计算复杂度,同时保持了较高的准确性。

  • Motivation: 现有视频大语言模型(LLMs)因处理大量时空令牌而面临计算复杂度二次增长的问题,亟需一种高效的方法来减少令牌数量。
  • Method: STTM通过多粒度空间令牌转换和跨时间维度的定向合并,有效减少令牌数量。
  • Result: 在六个视频QA基准测试中表现优异,实现了2倍加速(仅0.5%准确率下降)和3倍加速(仅2%准确率下降)。
  • Conclusion: STTM是一种高效、无需训练且查询无关的令牌合并方法,适用于视频理解任务。

[87] Multigranular Evaluation for Brain Visual Decoding

Weihao Xia,Cengiz Oztireli

Main category: cs.CV

TL;DR: 论文提出了BASIC框架,用于多粒度评估脑视觉解码方法,解决了现有评估协议在精细视觉区分和神经科学基础上的不足。

  • Motivation: 现有脑视觉解码评估协议依赖粗粒度指标,掩盖了模型间差异,缺乏神经科学基础,无法捕捉细粒度视觉区分。
  • Method: 引入BASIC框架,通过结构保真度、推理对齐和上下文一致性联合量化解码与真实图像的差异;采用分层分割指标和多模态大语言模型提取场景表示。
  • Result: 在统一评估框架下对多种视觉解码方法进行基准测试,提供了更具区分性、可解释性和全面性的评估基础。
  • Conclusion: BASIC框架为脑视觉解码方法提供了更精细、可解释和全面的评估标准。

[88] Doodle Your Keypoints: Sketch-Based Few-Shot Keypoint Detection

Subhajit Maity,Ayan Kumar Bhunia,Subhadeep Koley,Pinaki Nath Chowdhury,Aneeshan Sain,Yi-Zhe Song

Main category: cs.CV

TL;DR: 提出了一种基于草图的少样本关键点检测框架,解决了跨模态嵌入和用户特定草图风格的挑战。

  • Motivation: 解决少样本学习中缺乏同分布源数据的问题,利用草图作为无源替代方案。
  • Method: 采用原型设置、基于网格的定位器和原型域适应。
  • Result: 在实验中展示了少样本收敛的成功,适用于新关键点和类别。
  • Conclusion: 框架有效解决了草图与关键点检测的跨模态问题,具有实际应用潜力。

Shivam Duggal,Sanghyun Byun,William T. Freeman,Antonio Torralba,Phillip Isola

Main category: cs.CV

TL;DR: 提出了一种单次自适应分词器KARL,基于Kolmogorov复杂性原则,通过单次前向传播预测图像的分词数量,性能与现有方法相当。

  • Motivation: 现有视觉表示学习系统使用固定长度表示,忽略了数据复杂性或熟悉度的变化,而自适应分词方法通常需要多次编码搜索。
  • Method: KARL通过单次前向传播预测分词数量,训练过程类似于倒置强化学习,根据重建质量条件预测分词停止。
  • Result: KARL性能与现有自适应分词器相当,同时分析了编码器/解码器大小、连续与离散分词等因素的缩放规律。
  • Conclusion: KARL展示了自适应图像分词与算法信息理论的类比,揭示了其与人类直觉的一致性。

[90] MGVQ: Could VQ-VAE Beat VAE? A Generalizable Tokenizer with Multi-group Quantization

Mingkai Jia,Wei Yin,Xiaotao Hu,Jiaxin Guo,Xiaoyang Guo,Qian Zhang,Xiao-Xiao Long,Ping Tan

Main category: cs.CV

TL;DR: 论文提出了一种名为\NickName的新方法,通过增强离散码本的表示能力,缩小VQ-VAEs与VAEs之间的性能差距,显著提升了重建质量。

  • Motivation: 现有VQ-VAEs在量化策略上仍有改进空间,与VAEs存在较大性能差距,因此需要一种新方法来优化码本表示并减少信息损失。
  • Method: 保留潜在维度以保留编码特征,并引入一组子码本进行量化。同时构建了512p和2k分辨率的零样本基准测试。
  • Result: \NickName在ImageNet和8个零样本基准测试中均达到最优性能,显著优于SD-VAE(rFID 0.49 vs. 0.91)。
  • Conclusion: \NickName在重建任务中表现出色,为高清图像处理任务提供了保真度的新途径。

[91] Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Haochen Wang,Xiangtai Li,Zilong Huang,Anran Wang,Jiacong Wang,Tao Zhang,Jiani Zheng,Sule Bai,Zijian Kang,Jiashi Feng,Zhuochen Wang,Zhaoxiang Zhang

Main category: cs.CV

TL;DR: TreeBench是一个诊断性基准测试,用于评估视觉基础推理能力,包含405个具有挑战性的视觉问答对,现有模型表现不佳。TreeVGR是一种训练范式,通过强化学习联合监督定位和推理,显著提升了性能。

  • Motivation: 目前缺乏全面评估视觉基础推理能力的基准测试,因此提出了TreeBench,以填补这一空白。
  • Method: TreeBench基于三个原则构建:聚焦视觉感知、可追踪证据和二阶推理。通过专家标注和严格质量控制,生成了405个问答对。TreeVGR则通过强化学习联合监督定位和推理。
  • Result: 现有模型在TreeBench上表现不佳(最高准确率低于60%),而TreeVGR显著提升了多个基准测试的性能(如TreeBench +13.4)。
  • Conclusion: 可追踪性是提升视觉基础推理的关键,TreeBench和TreeVGR为相关研究提供了重要工具。

[92] Impact of Pretraining Word Co-occurrence on Compositional Generalization in Multimodal Models

Helen Qu,Sang Michael Xie

Main category: cs.CV

TL;DR: 论文研究了CLIP和大型多模态模型(LMMs)在训练数据中概念组合对组合泛化能力的影响,发现词共现统计(PMI)与模型性能高度相关。

  • Motivation: 探究训练数据中概念组合(如常见物体与不常见配对)如何影响CLIP/LMM的准确性。
  • Method: 使用点互信息(PMI)衡量词共现频率,通过合成图像和自然图像编辑验证PMI与模型性能的关系。
  • Result: PMI与CLIP零样本准确率高度相关(r=0.97),且在自然图像中同样有效(r=0.75),LMMs也表现出类似行为。
  • Conclusion: 需开发新算法和架构以提升多模态模型的组合泛化能力,而非仅依赖数据量的增加。

cs.LG

[93] Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation

Sua Lee,Kyubum Shin,Jung Ho Park

Main category: cs.LG

TL;DR: 提出了一种名为DeMul的新方法,通过直接蒸馏LLM知识到提示中,避免了传统方法中提取描述的不可靠性,提升了性能。

  • Motivation: 现有方法依赖从LLM提取文本描述作为提示,但存在高变异性与低可靠性问题。
  • Method: 采用描述无关的多提示学习方法(DeMul),直接蒸馏LLM知识到提示中,避免离散模板。
  • Result: 在11个识别数据集上表现优异。
  • Conclusion: DeMul方法通过描述无关和多提示加权,显著提升了性能与鲁棒性。

[94] ST-GRIT: Spatio-Temporal Graph Transformer For Internal Ice Layer Thickness Prediction

Zesheng Liu,Maryam Rahnemoonfar

Main category: cs.LG

TL;DR: ST-GRIT是一种时空图变换器,用于从雷达图像中提取冰层厚度信息,通过结合空间和时间注意力机制,显著优于现有方法。

  • Motivation: 理解冰层厚度及其变异性对气候模型和冰动态监测至关重要,雷达图像为此提供了详细数据。
  • Method: ST-GRIT采用归纳几何图学习框架提取局部空间特征,并分别使用时序和空间注意力块建模长程依赖关系。
  • Result: 在格陵兰冰盖数据上,ST-GRIT的均方根误差低于现有方法,证明了其有效性。
  • Conclusion: ST-GRIT通过分离的时空注意力机制,能够更全面地捕捉冰层动态,优于传统图神经网络。

[95] Resolving Token-Space Gradient Conflicts: Token Space Manipulation for Transformer-Based Multi-Task Learning

Wooseong Jeong,Kuk-Jin Yoon

Main category: cs.LG

TL;DR: DTME-MTL是一种动态令牌调制与扩展框架,通过识别令牌空间中的梯度冲突并应用自适应解决方案,提升多任务学习的适应性和减少过拟合。

  • Motivation: 多任务学习(MTL)中任务目标的差异可能导致负迁移,现有预训练Transformer的固定容量和结构限制了适应性。
  • Method: 提出DTME-MTL框架,在令牌空间中动态识别梯度冲突并自适应调整,避免直接转换共享参数为任务特定参数。
  • Result: 实验表明DTME-MTL显著提升多任务性能,且计算开销极小。
  • Conclusion: DTME-MTL为基于Transformer的MTL模型提供了高效、可扩展的解决方案。

[96] Balancing the Past and Present: A Coordinated Replay Framework for Federated Class-Incremental Learning

Zhuang Qi,Lei Meng,Han Yu

Main category: cs.LG

TL;DR: FedCBDR提出了一种用于联邦类增量学习的类平衡数据重放方法,通过全局协调机制和任务感知温度缩放模块解决类不平衡问题,提升了性能。

  • Motivation: 联邦类增量学习中,数据重放方法因类不平衡问题(包括重放缓冲区内的不平衡和新旧类之间的不平衡)性能受限,需要一种更有效的解决方案。
  • Method: FedCBDR包含两个关键模块:1)全局视角数据重放模块,通过隐私保护方式重构全局表示,实现平衡重放;2)任务感知温度缩放模块,动态调整logits温度以缓解类不平衡。
  • Result: 实验表明,FedCBDR在异构数据分布下实现了平衡的类采样,并在任务不平衡情况下提升了泛化性能,Top-1准确率比六种先进方法提高了2%-15%。
  • Conclusion: FedCBDR通过类平衡数据重放和任务感知温度缩放,有效解决了联邦类增量学习中的类不平衡问题,显著提升了模型性能。

[97] TRIX- Trading Adversarial Fairness via Mixed Adversarial Training

Tejaswini Medi,Steffen Jung,Margret Keuper

Main category: cs.LG

TL;DR: TRIX是一种特征感知的对抗训练框架,通过自适应地为不同类分配不同强度的对抗样本,减少类间鲁棒性差异,提升最差类别的准确率。

  • Motivation: 现有对抗训练方法对所有类采用统一目标,忽略了类间脆弱性差异,导致对抗不公平性。强类鲁棒性提升,弱类仍易受攻击。
  • Method: TRIX为强类分配较弱的目标对抗样本以促进特征多样性,为弱类分配较强的无目标对抗样本以增强其鲁棒性,并结合损失加权和扰动强度调整。
  • Result: 实验表明,TRIX显著提升了最差类别的准确率,减少了类间鲁棒性差异,同时保持了整体准确率。
  • Conclusion: TRIX是实现公平且有效对抗防御的实用方法。

[98] Synchronizing Task Behavior: Aligning Multiple Tasks during Test-Time Training

Wooseong Jeong,Jegyeong Cho,Youngho Yoon,Kuk-Jin Yoon

Main category: cs.LG

TL;DR: 论文提出了一种名为S4T的新方法,用于解决多任务场景下测试时训练(TTT)的任务同步问题。

  • Motivation: 在现实部署中,神经网络泛化到未见过的目标域是一个挑战。传统TTT方法在多任务下存在任务行为不同步的问题。
  • Method: 提出S4T方法,通过预测跨域的任务关系来同步多任务。
  • Result: S4T在多个基准测试中优于现有TTT方法。
  • Conclusion: S4T能有效同步多任务,提升测试时训练的性能。

eess.IV

[99] Semi-supervised learning and integration of multi-sequence MR-images for carotid vessel wall and plaque segmentation

Marie-Christine Pali,Christina Schwaiger,Malik Galijasevic,Valentin K. Ladenhauf,Stephanie Mangesius,Elke R. Gizewski

Main category: eess.IV

TL;DR: 提出了一种半监督深度学习方法来分割颈动脉血管壁和斑块,解决了多序列MRI数据融合和标记数据稀缺的问题。

  • Motivation: 颈动脉斑块的多序列MRI分析对评估动脉粥样硬化和缺血性中风风险至关重要,但斑块形态复杂且标记数据稀缺,需要准确的分割方法。
  • Method: 采用两阶段网络:粗定位模型确定感兴趣区域,精细分割模型精确描绘血管壁和斑块;提出多级多序列U-Net架构和半监督学习策略。
  • Result: 在52名动脉硬化患者的五序列MRI数据上验证,实验表明方法有效,融合策略和半监督学习显著提升了分割性能。
  • Conclusion: 多序列融合策略和半监督学习在数据有限的MRI应用中具有潜力,能有效改善颈动脉分割的准确性。

[100] D-CNN and VQ-VAE Autoencoders for Compression and Denoising of Industrial X-ray Computed Tomography Images

Bardia Hejazi,Keerthana Chand,Tobias Fritsch,Giovanni Bruno

Main category: eess.IV

TL;DR: 研究探讨了使用深度学习自动编码器压缩工业X射线计算机断层扫描(XCT)数据的方法,并比较了不同压缩率和架构对数据恢复质量的影响。

  • Motivation: 随着成像技术的进步,成像科学中的数据量急剧增长,需要高效可靠的存储解决方案。
  • Method: 使用深度卷积神经网络(D-CNN)和向量量化变分自动编码器(VQ-VAE)两种架构,以不同压缩率处理XCT数据。
  • Result: 不同架构和压缩率对数据恢复质量有显著影响,需根据具体分析需求选择。
  • Conclusion: 研究结果为科学家选择数据存储和分析策略提供了依据。

[101] Compressive Imaging Reconstruction via Tensor Decomposed Multi-Resolution Grid Encoding

Zhenyu Jin,Yisi Luo,Xile Zhao,Deyu Meng

Main category: eess.IV

TL;DR: GridTD是一种无监督连续表示框架,用于压缩成像(CI)重建,结合多分辨率网格编码和张量分解,实现高效高维图像重建。

  • Motivation: 现有无监督表示方法在表示能力和效率之间难以平衡,GridTD旨在解决这一问题。
  • Method: GridTD通过优化轻量级神经网络和输入张量分解模型,利用多分辨率哈希网格编码学习参数。
  • Result: GridTD在多种CI任务(如视频SCI、光谱SCI和动态MRI)中表现优于现有方法。
  • Conclusion: GridTD是一种多功能且先进的CI重建方法。

[102] Breast Ultrasound Tumor Generation via Mask Generator and Text-Guided Network:A Clinically Controllable Framework with Downstream Evaluation

Haoyu Pan,Hongxin Lin,Zetian Feng,Chuxuan Lin,Junyang Mo,Chu Zhang,Zijian Wu,Yi Wang,Qingqing Zheng

Main category: eess.IV

TL;DR: 提出一种临床可控的生成框架,用于合成乳腺超声图像,解决专家标注数据稀缺问题,并通过定量评估和视觉图灵测试验证其临床实用性和真实性。

  • Motivation: 解决乳腺超声图像分析中专家标注数据稀缺的问题,以支持更广泛的临床应用。
  • Method: 整合临床描述和结构掩码生成肿瘤图像,设计语义-曲率掩码生成器,生成多样化肿瘤掩码,并通过生成框架合成个性化图像。
  • Result: 在六个公共乳腺超声数据集上的定量评估显示合成图像对乳腺癌诊断任务有显著提升,视觉图灵测试证实生成图像的真实性。
  • Conclusion: 该框架能有效生成高真实感的乳腺超声图像,具有临床应用潜力。

[103] MeD-3D: A Multimodal Deep Learning Framework for Precise Recurrence Prediction in Clear Cell Renal Cell Carcinoma (ccRCC)

Hasaan Maqsood,Saif Ur Rehman Khan

Main category: eess.IV

TL;DR: 提出一种深度学习框架,整合多模态数据(CT、MRI、病理切片、临床数据和基因组数据)以提高ccRCC复发的预测准确性。

  • Motivation: 传统单模态预测模型无法捕捉ccRCC的复杂性,导致预测效果不佳。
  • Method: 使用领域特定模型处理不同模态数据(如CLAM处理病理切片,MeD-3D处理影像数据,MLP处理临床和基因组数据),并通过早期和晚期融合策略整合特征。
  • Result: 框架能够处理不完整数据,并整合多源信息,提高预测准确性。
  • Conclusion: 多模态深度学习框架有望改善ccRCC复发预测和临床决策。

[104] ArteryX: Advancing Brain Artery Feature Extraction with Vessel-Fused Networks and a Robust Validation Framework

Abrar Faiyaz,Nhat Hoang,Giovanni Schifitto,Md Nasir Uddin

Main category: eess.IV

TL;DR: ArteryX是一个基于MATLAB的半自动动脉评估工具箱,用于高精度量化脑血管特征,解决了现有方法的局限性,并在临床验证中表现出优越性能。

  • Motivation: 脑血管病理对认知衰退和神经疾病有重要影响,但现有评估工具缺乏对细微血管变化的定量分析,且存在用户依赖性高、标准化验证不足等问题。
  • Method: ArteryX采用基于血管融合网络的标志点方法,高效追踪和管理血管路径,结合模拟框架进行定量特征验证。
  • Result: 在脑小血管病患者中验证显示,ArteryX对细微血管变化更敏感,性能优于现有半自动方法。
  • Conclusion: ArteryX有望成为临床工作流程中的标准化工具,促进脑血管病理的早期检测和跨队列比较。

[105] Wrist bone segmentation in X-ray images using CT-based simulations

Youssef ElTantawy,Alexia Karantana,Xin Chen

Main category: eess.IV

TL;DR: 论文提出了一种利用模拟X射线图像训练深度学习模型的方法,用于解决真实X射线图像中腕骨分割的数据标注难题。

  • Motivation: X射线图像分割在临床诊断中至关重要,但高质量标注数据获取困难,尤其是腕骨分割因骨骼重叠而更具挑战性。
  • Method: 通过从CT体积生成大量模拟X射线图像及其标签,训练深度学习模型,并应用于真实X射线图像的分割。
  • Result: 在模拟数据集上Dice分数为0.80-0.92,真实X射线图像的定性分析也显示模型性能优越。
  • Conclusion: 该方法有效解决了标注数据不足的问题,模型和模拟代码将公开供研究使用。

[106] Label-Efficient Chest X-ray Diagnosis via Partial CLIP Adaptation

Heet Nitinkumar Dalsania

Main category: eess.IV

TL;DR: 提出一种标签高效的策略,用于胸部X光诊断,适应真实医院场景,利用CLIP预训练模型进行少量样本学习,性能提升显著。

  • Motivation: 解决医学影像标注数据稀缺、隐私问题及高成本的问题,模拟医院实际工作流程。
  • Method: 使用NIH Chest X-ray14数据集和预训练的CLIP ViT-B/32模型,通过部分微调视觉编码器,评估零样本和少量样本学习。
  • Result: 在少量样本任务中,CLIP预训练特征显著提升性能,平均AUC分数比零样本基线提高20%以上。
  • Conclusion: 提出了一种实用且可扩展的解决方案,适用于常见和罕见疾病诊断,但尚未经过同行评审。

[107] Computationally Efficient Information-Driven Optical Design with Interchanging Optimization

Eric Markley,Henry Pinkard,Leyla Kabuli,Nalini Singh,Laura Waller

Main category: eess.IV

TL;DR: IDEAL-IO方法通过交替优化密度估计和光学参数,解决了IDEAL的高内存和长运行时问题,提升了成像系统设计的效率。

  • Motivation: 解决IDEAL方法在多样成像系统中面临的高内存占用、长运行时和目标函数不匹配的问题。
  • Method: 提出IDEAL-IO,通过交替优化密度估计和光学参数,减少内存和运行时,并使用更灵活的密度模型。
  • Result: IDEAL-IO在衍射光学、无透镜成像和快照3D显微镜应用中验证了其有效性,降低了6倍内存和运行时。
  • Conclusion: IDEAL-IO为实际成像系统设计提供了一种高效、可扩展的信息论优化策略。

cs.CR

[108] Rainbow Artifacts from Electromagnetic Signal Injection Attacks on Image Sensors

Youqian Zhang,Xinyu Ji,Zhihao Wang,Qinhong Jiang

Main category: cs.CR

TL;DR: 本文研究了一种针对图像传感器模拟域的新型电磁信号注入攻击,揭示了CMOS图像传感器中未记录的彩虹色伪影现象,并评估了其对目标检测模型的负面影响。

  • Motivation: 图像传感器在安全关键系统中至关重要,但其视觉数据完整性可能受到物理层攻击的威胁,目前缺乏相关研究。
  • Method: 通过精心调制的电磁干扰,诱导CMOS图像传感器产生彩虹色伪影,并分析其对图像信号处理流程和目标检测模型的影响。
  • Result: 攻击导致图像传感器捕获的图像出现伪影,并显著影响目标检测模型的准确性,引发错误预测。
  • Conclusion: 研究揭示了视觉感知系统中未充分探索的物理层漏洞,强调了加强防御措施的必要性。

cs.CL

[109] Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation

Yupu Liang,Yaping Zhang,Zhiyang Zhang,Yang Zhao,Lu Xiang,Chengqing Zong,Yu Zhou

Main category: cs.CL

TL;DR: M4Doc框架通过单模态到多模态对齐,提升文档图像机器翻译的泛化能力。

  • Motivation: 解决文档图像机器翻译中因训练数据有限和视觉-文本信息复杂交互导致的泛化问题。
  • Method: 利用预训练的多模态大语言模型(MLLM),将图像编码器与MLLM的多模态表示对齐,训练轻量级模型。
  • Result: 实验显示翻译质量显著提升,尤其在跨域泛化和复杂文档图像场景中。
  • Conclusion: M4Doc框架有效解决了DIMT的泛化挑战,同时保持计算效率。

[110] PyVision: Agentic Vision with Dynamic Tooling

Shitian Zhao,Haoquan Zhang,Shaoheng Lin,Ming Li,Qilong Wu,Kaipeng Zhang,Chen Wei

Main category: cs.CL

TL;DR: PyVision是一个交互式多轮框架,使MLLMs能够自主生成、执行和优化基于Python的工具,提升视觉推理的灵活性和可解释性。

  • Motivation: 现有视觉推理方法受限于预定义工作流和静态工具集,PyVision旨在通过动态工具生成解决这一问题。
  • Method: PyVision框架允许MLLMs根据任务需求动态生成、执行和优化Python工具,并对其使用进行分类分析。
  • Result: PyVision显著提升性能,GPT-4.1在V*上提升7.8%,Claude-4.0-Sonnet在VLMsAreBlind-mini上提升31.1%。
  • Conclusion: 动态工具生成不仅使模型能使用工具,还能发明工具,推动更具自主性的视觉推理发展。

cs.GR

[111] SD-GS: Structured Deformable 3D Gaussians for Efficient Dynamic Scene Reconstruction

Wei Yao,Shuzhao Xie,Letian Li,Weixiang Zhang,Zhixin Lai,Shiqi Dai,Ke Zhang,Zhi Wang

Main category: cs.GR

TL;DR: SD-GS是一种紧凑高效的动态高斯泼溅框架,通过可变形锚点网格和变形感知的密集化策略,显著减少模型大小并提升计算效率。

  • Motivation: 现有4D高斯框架在动态场景重建中存在存储成本与复杂运动表征能力的权衡问题,限制了实际应用。
  • Method: 提出可变形锚点网格作为层次化、内存高效的场景表示,并结合变形感知密集化策略优化锚点分布。
  • Result: 实验显示,SD-GS平均减少60%模型大小,提升100%FPS,同时保持或超越视觉质量。
  • Conclusion: SD-GS在高效性和视觉质量上优于现有方法,适用于复杂动态场景重建。

[112] Capture Stage Environments: A Guide to Better Matting

Hannah Dröge,Janelle Pfeifer,Saskia Rabich,Markus Plack,Reinhard Klein,Matthias B. Hullin

Main category: cs.GR

TL;DR: 论文探讨了高端捕获阶段内容在图像抠图中的挑战,提出了改进工作流程的指南和高效管道,并通过扩散模型验证其优势。

  • Motivation: 高端捕获阶段内容在图像抠图中表现不佳,现有算法难以应对其特殊性,因此需要提出改进方案。
  • Method: 提出改进工作流程的指南,开发高效管道以适配现有先进方法,无需大量标注,支持离线和实时处理。
  • Result: 通过扩散模型验证,展示了所提方法的优势。
  • Conclusion: 论文为高端捕获阶段内容的图像抠图提供了实用指南和高效解决方案,显著提升了性能。

[113] RTR-GS: 3D Gaussian Splatting for Inverse Rendering with Radiance Transfer and Reflection

Yongyang Zhou,Fang-Lue Zhang,Zichen Wang,Lei Zhang

Main category: cs.GR

TL;DR: RTR-GS是一种新型逆渲染框架,能够处理任意反射属性的物体,分解BRDF和光照,并提供可信的重光照结果。

  • Motivation: 3D高斯泼溅(3DGS)在新视角合成中表现优异,但在处理反射物体时仍面临挑战,尤其是在逆渲染和重光照方面。
  • Method: 通过结合前向渲染和延迟渲染的混合渲染模型,有效恢复几何结构,并分离高频和低频外观。进一步使用基于物理的延迟渲染分支优化BRDF和光照分解。
  • Result: 实验表明,该方法在新视角合成、法线估计、分解和重光照方面表现优越,同时保持高效的训练和推理过程。
  • Conclusion: RTR-GS框架在处理反射物体和实现高质量逆渲染方面具有显著优势。

cs.RO

[114] LangNavBench: Evaluation of Natural Language Understanding in Semantic Navigation

Sonia Raychaudhuri,Enrico Cancelli,Tommaso Campari,Lamberto Ballan,Manolis Savva,Angel X. Chang

Main category: cs.RO

TL;DR: LangNav是一个专注于语言理解的语义导航数据集,用于评估代理对自然语言指令的细粒度理解能力。LangNavBench是构建在该数据集上的基准测试,用于系统比较模型性能。提出的MLFM方法在LangNav上表现优于现有技术。

  • Motivation: 现有语义导航方法缺乏对语言细粒度理解的明确评估基准,LangNav填补了这一空白。
  • Method: 提出LangNav数据集和LangNavBench基准测试,并开发了Multi-Layered Feature Map (MLFM)方法,构建可查询的多层语义地图。
  • Result: MLFM在LangNav数据集上优于现有基于地图的导航基线方法。
  • Conclusion: LangNav和LangNavBench为语言驱动的语义导航提供了系统评估工具,MLFM展示了在细粒度语言理解任务中的优势。

q-bio.QM

[115] Adaptive Attention Residual U-Net for curvilinear structure segmentation in fluorescence microscopy and biomedical images

Achraf Ait Laydi,Louis Cueff,Mewen Crespo,Yousef El Mourabit,Hélène Bouvrais

Main category: q-bio.QM

TL;DR: 提出了一种新型深度学习架构ASE_Res_UNet,用于在噪声和低对比度条件下分割荧光显微镜中的曲线结构,并在合成和真实图像上表现出色。

  • Motivation: 荧光显微镜中曲线结构的分割在噪声和密集网络中具有挑战性,现有深度学习方法在低对比度条件下性能下降。
  • Method: 开发了ASE_Res_UNet,结合了残差块和自适应SE注意力机制,通过消融实验和定量评估验证其性能。
  • Result: ASE_Res_UNet在噪声和低强度结构检测上优于其他变体和现有模型,并成功泛化到真实图像和其他曲线结构。
  • Conclusion: ASE_Res_UNet在疾病诊断和治疗中具有广泛应用潜力。

cs.SD

[116] Input Conditioned Layer Dropping in Speech Foundation Models

Abdul Hannan,Daniele Falavigna,Alessio Brutti

Main category: cs.SD

TL;DR: 论文提出了一种基于输入驱动的层丢弃方法(input-driven LD),用于动态调整语音模型的架构,以适应边缘和物联网设备的资源变化。

  • Motivation: 在边缘和物联网环境中,计算资源随时间变化,需要动态架构来优化模型性能。现有层丢弃方法在层选择或架构修改方面存在不足。
  • Method: 提出input-driven LD,利用输入特征和轻量级层选择网络确定最佳处理层组合。
  • Result: 在4个语音和音频基准测试中,该方法显著优于随机丢弃,性能与早退机制相当或更好。
  • Conclusion: input-driven LD是一种高效且灵活的动态架构优化方法。

eess.SP

[117] mmFlux: Crowd Flow Analytics with Commodity mmWave MIMO Radar

Anurag Pallaprolu,Winston Hurst,Yasamin Mostofi

Main category: eess.SP

TL;DR: 提出了一种基于毫米波雷达提取人群运动模式并推断语义的新框架,结合信号处理和几何图分析,实现了高保真的人群运动表征和语义推断。

  • Motivation: 解决传统视觉方法在复杂人群场景中的局限性,利用毫米波雷达提取更精确的运动模式和语义信息。
  • Method: 结合光学流估计与噪声过滤生成毫米波流场,将其转化为有向几何图,并通过局部雅可比分析提取语义。
  • Result: 在21次实验中,框架成功重建复杂人群流动结构,并准确推断出人群语义(如转向、边界、分散等)。
  • Conclusion: 验证了框架的有效性,展示了其在人群分析应用中的潜力。