Skip to content
每日arXiv - 2025年8月29日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization

Alberto Compagnoni,Davide Caffagni,Nicholas Moratelli,Lorenzo Baraldi,Marcella Cornia,Rita Cucchiara

Main category: cs.CV

TL;DR: 通过利用CHAIR指标识别幻觉与非幻觉回答,采用DPO对多模态大语言模型进行对齐调整,有效减少幻觉现象

  • Motivation: 多模态大语言模型存在严重的幻觉问题,生成与视觉输入不符的内容,影响模型的可靠性
  • Method: 采用CHAIR指标自动识别幻觉和非幻觉样本,通过直接偏好优化(DPO)方法对现有MLLM进行对齐调整
  • Result: 在多个幻觉测试集上显著减少了幻觉回答的数量,证明了CHAIR基于奖励调整的有效性
  • Conclusion: CHAIR-DPO方法为解决MLLM幻觉问题提供了一种简单有效的对齐调整方案,无需复杂的合成数据流程或依赖专有模型

[2] SDiFL: Stable Diffusion-Driven Framework for Image Forgery Localization

Yang Su,Shunquan Tan,Jiwu Huang

Main category: cs.CV

TL;DR: 基于Stable Diffusion多模态架构的图像伪造定位新方法,通过将伪造残差作为显式模态融入潜在空间,无需大量标注数据即可实现高效准确的伪造检测

  • Motivation: 现有图像伪造定位方法严重依赖人工标注数据,难以跟上多模态大模型驱动的图像篡改技术发展速度,需要更高效的解决方案
  • Method: 利用Stable Diffusion V3的多模态处理能力,将图像伪造残差(高频信号)作为显式模态融合到潜在空间中,同时保留SD3提取的丰富语义信息
  • Result: 在广泛使用的基准数据集上比当前最先进方法性能提升高达12%,在训练时未见过的真实文档伪造和自然场景伪造图像上也表现出强大性能
  • Conclusion: 该方法成功将SD的多模态生成和感知能力整合到取证框架中,为图像伪造定位提供了更高效准确的解决方案,具有很好的泛化能力

[3] Grounding Multimodal Large Language Models with Quantitative Skin Attributes: A Retrieval Study

Max Torop,Masih Eskandar,Nicholas Kurtansky,Jinyang Liu,Jochen Weber,Octavia Camps,Veronica Rotemberg,Jennifer Dy,Kivanc Kose

Main category: cs.CV

TL;DR: 本文探索将多模态大语言模型与定量属性相结合,通过微调使模型能够从图像预测皮肤病变属性值,从而提高AI皮肤疾病诊断的可解释性。

  • Motivation: AI模型在皮肤疾病诊断方面表现出色,但模型预测的可解释性仍需大幅提升才能在实际临床中使用。多模态大语言模型能提供自然语言推理,而定量属性预测能增强解释性。
  • Method: 结合多模态大语言模型和定量属性方法,通过微调使模型能从图像预测病变属性值(如病变面积),并在SLICE-3D数据集上进行基于属性的图像检索案例研究。
  • Result: 研究表明多模态大语言模型的嵌入空间可以通过微调来基于定量属性进行grounding,即模型能够从图像预测相关属性值。
  • Conclusion: 多模态大语言模型与定量属性预测的结合为提升AI皮肤疾病诊断模型的可解释性提供了有前景的途径,使模型预测能够基于可解释的概念进行grounding。

[4] Enhancing Automatic Modulation Recognition With a Reconstruction-Driven Vision Transformer Under Limited Labels

Hossein Ahmadi,Banafsheh Saffari

Main category: cs.CV

TL;DR: 提出基于Vision Transformer的统一框架,结合监督、自监督和重构目标,在低标签条件下实现高效的自动调制识别

  • Motivation: 现有自动调制识别方案依赖大量标注数据或多阶段训练流程,限制了实际应用中的可扩展性和泛化能力
  • Method: 使用ViT编码器、轻量卷积解码器和线性分类器,通过重构分支将增强信号映射回原始信号,在预训练中学习鲁棒特征,微调时使用部分标签监督
  • Result: 在RML2018.01A数据集上,低标签条件下优于监督CNN和ViT基线,仅用15-20%标注数据即可达到ResNet水平精度,在不同SNR下保持强性能
  • Conclusion: 该框架为AMR提供了简单、可泛化且标签高效的解决方案

[5] InfinityHuman: Towards Long-Term Audio-Driven Human

Xiaodi Li,Pan Xie,Yi Ren,Qijun Gan,Chen Zhang,Fangyuan Kong,Xiang Yin,Bingyue Peng,Zehuan Yuan

Main category: cs.CV

TL;DR: InfinityHuman是一个从粗到细的音频驱动人体动画框架,通过姿态引导的细化器和手部特定奖励机制,解决了现有方法中的身份漂移、颜色偏移和手部运动失真问题,实现了高质量、长时间的视频生成。

  • Motivation: 音频驱动的人体动画存在高分辨率长视频生成困难、身份一致性差、手部运动建模不准确等问题。现有方法使用重叠运动帧会导致误差累积,造成身份漂移、颜色偏移和场景不稳定。
  • Method: 提出coarse-to-fine框架:首先生成音频同步表示,然后使用姿态引导细化器逐步细化为高分辨率长视频。利用解耦的姿态序列和初始帧作为视觉锚点减少漂移,并引入手部特定奖励机制提升手势真实感。
  • Result: 在EMTD和HDTF数据集上的实验表明,InfinityHuman在视频质量、身份保持、手部准确性和唇部同步方面达到了最先进的性能。消融研究证实了各模块的有效性。
  • Conclusion: InfinityHuman通过稳定的姿态引导和手部奖励机制,成功解决了音频驱动动画中的关键挑战,能够生成高质量、长时间且保持身份一致性的视频。

[6] Spherical Vision Transformers for Audio-Visual Saliency Prediction in 360-Degree Videos

Mert Cokelek,Halit Ozsoy,Nevrez Imamoglu,Cagri Ozcinar,Inci Ayhan,Erkut Erdem,Aykut Erdem

Main category: cs.CV

TL;DR: 该研究提出了SalViT360和SalViT360-AV两个新颖的360度视频显著性预测模型,通过结合视觉变换器和空间音频线索,在多个基准数据集上显著优于现有方法。

  • Motivation: 针对360度环境中球形畸变和空间音频整合的复杂性,以及缺乏全面的360度视听显著性预测数据集的问题,研究旨在探索如何利用视听线索有效预测360度视频中的视觉显著性。
  • Method: 研究构建了YT360-EyeTracking数据集(包含81个ODV视频),提出了基于视觉变换器的SalViT360框架(具有球形几何感知的时空注意力层),以及进一步整合音频输入的SalViT360-AV模型(使用变压器适配器处理音频条件)。
  • Result: 在多个基准数据集(包括YT360-EyeTracking)上的实验结果表明,SalViT360和SalViT360-AV在预测360度场景中观众注意力方面显著优于现有方法。
  • Conclusion: 研究结果表明,在模型架构中整合空间音频线索对于准确预测全向视频中的显著性至关重要,空间音频的加入对提升显著性预测性能具有重要作用。

[7] A Novel Framework for Automated Explain Vision Model Using Vision-Language Models

Phu-Vinh Nguyen,Tan-Hanh Pham,Chris Ngo,Truong Son Hy

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于视觉-语言模型的管线方法,用于解释视觉模型在样本和数据集层面的行为,以发现失败案例和识别模型偏差。

  • Motivation: 当前视觉模型开发主要关注性能指标(如准确率、IoU、mAP),而对可解释性关注不够。现有xAI方法多仅解释单个样本,缺乏能够解释模型在大规模数据集上表现的方法。理解模型在通用图像上的行为对防止偏差判断和识别模型趋势至关重要。
  • Method: 利用视觉-语言模型,提出了一种可以同时在样本级别和数据集级别解释视觉模型的管线方法。该方法能够通过分析大量数据来揭示模型的一般性行为特征。
  • Result: 该管线方法能够以最小化的努力发现视觉模型的失败案例,并获得对模型行为的深度见解。它将视觉模型开发与xAI分析相结合,推动了图像分析领域的进步。
  • Conclusion: 通过视觉-语言模型实现的多级别解释方法,为视觉模型提供了更全面的可解释性分析,有助于发现模型缺陷、减少偏差,从而提升图像分析的可靠性和透明度。

[8] ATMS-KD: Adaptive Temperature and Mixed Sample Knowledge Distillation for a Lightweight Residual CNN in Agricultural Embedded Systems

Mohamed Ohamouddou,Said Ohamouddou,Abdellatif El Afia,Rafik Lasri

Main category: cs.CV

TL;DR: ATMS-KD是一种新颖的知识蒸馏框架,结合自适应温度调度和混合样本增强,用于在资源受限的农业环境中开发轻量级CNN模型,在玫瑰成熟度分类任务上取得了优异性能。

  • Motivation: 针对农业环境中资源受限的计算设备,需要开发轻量高效的CNN模型,同时保持高精度分类能力。
  • Method: 提出ATMS-KD框架,结合自适应温度调度和混合样本增强技术,从MobileNetV3 Large教师模型向轻量级残差CNN学生模型进行知识蒸馏。
  • Result: 所有学生模型验证准确率超过96.7%,紧凑模型达到97.11%准确率,比第二名方法提升1.6个百分点,推理延迟仅72.19ms,知识保留率超过99%。
  • Conclusion: ATMS-KD框架在农业计算机视觉应用中表现出色,能够有效实现知识转移,适用于不同容量的学生模型,为资源受限环境提供了实用的轻量级解决方案。

[9] Linking heterogeneous microstructure informatics with expert characterization knowledge through customized and hybrid vision-language representations for industrial qualification

Mutahar Safdar,Gentry Wood,Max Zimmermann,Guy Lamouche,Priti Wanjara,Yaoyao Fiona Zhao

Main category: cs.CV

TL;DR: 该研究提出了一种结合视觉语言表示和专家知识的框架,用于零样本分类增材制造金属基复合材料的微观结构,无需重新训练模型即可区分合格与缺陷样品。

  • Motivation: 工业制造中先进材料的快速可靠鉴定存在瓶颈,特别是对于非传统增材制造工艺生产的异质结构,需要将微观结构信息学与专家表征知识相结合。
  • Method: 通过集成深度语义分割与预训练多模态模型(CLIP和FLAVA),将视觉微观结构数据和文本专家评估编码为共享表示,开发定制化的基于相似性的表示方法,包含专家标注图像的正负参考及其文本描述。
  • Result: 在增材制造金属基复合材料数据集上的验证表明,该框架能够根据多种表征标准区分合格和缺陷样品,FLAVA模型具有更高的视觉敏感性,CLIP模型与文本标准保持一致,Z-score归一化提高了混合视觉语言框架中的对齐和分类效果。
  • Conclusion: 该方法通过实现人机协同决策而无需任务特定的模型重新训练,增强了鉴定流程的可追溯性和可解释性,通过推进原始数据与专家知识之间的语义互操作性,为工程信息学中的可扩展和领域适应性鉴定策略做出贡献。

[10] MedNet-PVS: A MedNeXt-Based Deep Learning Model for Automated Segmentation of Perivascular Spaces

Zhen Xuen Brandon Low,Rory Zhang,Hang Min,William Pham,Lucy Vivash,Jasmine Moses,Miranda Lynch,Karina Dorfman,Cassandra Marotta,Shaun Koh,Jacob Bunyamin,Ella Rowsthorn,Alex Jarema,Himashi Peiris,Zhaolin Chen,Sandy R. Shultz,David K. Wright,Dexiao Kong,Sharon L. Naismith,Terence J. O'Brien,Ying Xia,Meng Law,Benjamin Sinclair

Main category: cs.CV

TL;DR: 采用MedNeXt-L-k5模型进行自动化脑血管周围空间(PVS)分割,在T2杀像上达到了预期的性能,但在T1杀像和跨数据集上表现中等

  • Motivation: 手工PVS分割耗时且中等而可靠,现有自动化深度学习模型性能中等且缺乏跨数据集的泛化能力
  • Method: 适配MedNeXt-L-k5(Transformer启发的3D编码器-解码器卷积网络)进行自动PVS分割,训练两个模型:一个使用均质HCP-Aging T2杀像数据集,另一个使用异质T1杀像数据集
  • Result: 在T2杀像上达到Dice分数0.88±0.06(白质),与手工分割可靠性相当;T1杀像上仅0.58±0.09;跨数据集测试下表现中等,未超过nnU-Net
  • Conclusion: MedNeXt-L-k5提供了一种高效的自动PVS分割方案,但Transformer模型的全局上下文注意机制并非PVS分割的必需特征

[11] Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation

Zhixiang Chi,Yanan Wu,Li Gu,Huan Liu,Ziqiang Wang,Yang Zhang,Yang Wang,Konstantinos N. Plataniotis

Main category: cs.CV

TL;DR: 提出了一种无需训练的自适应框架,通过将输出层面的补丁级对应关系反馈到中间注意力机制,增强CLIP在开放词汇分割中的空间一致性。

  • Motivation: CLIP在视觉-文本对齐方面表现强劲,但在开放词汇分割中由于定位能力差而表现不佳。先前的方法通过修改中间注意力来增强空间一致性,但由于后续操作(如投影)导致这种一致性无法持续传播到最终输出,且中间注意力缺乏与文本表示的直接交互。
  • Method: 设计了一个训练免费、反馈驱动的自适应框架,包括注意力隔离、基于置信度的稀疏适应剪枝和适应集成等关键模块,将输出层面的空间一致性线索反馈到中间注意力机制。
  • Result: 该方法作为即插即用模块,无缝集成到四种最先进方法中,在八个基准测试中一致提升了性能,支持三种骨干网络(ViT-B、ViT-L、ViT-H)和多种注意力类型。
  • Conclusion: 通过利用模型输出作为更强的空间一致性先验,该方法有效增强了内部表示与最终预测之间的语义一致性,充分发挥了CLIP的潜力。

[12] How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding

Zhuoran Yu,Yong Jae Lee

Main category: cs.CV

TL;DR: 本文提出了一个探测框架来系统分析多模态大语言模型(MLLMs)在不同层处理视觉和文本输入的动态过程,揭示了模型的分层处理结构。

  • Motivation: 尽管多模态大语言模型在各种视觉语言任务上表现出色,但其内部处理机制仍未被充分探索,需要系统性的分析方法来理解模型如何整合视觉和文本信息。
  • Method: 使用线性分类器预测从各层token嵌入中提取的细粒度视觉类别,通过三种控制性提示变体(词汇变体、语义否定变体、输出格式变体)评估不同层的功能角色。
  • Result: 在LLaVA-1.5、LLaVA-Next-LLaMA-3和Qwen2-VL模型中发现一致的分阶段结构:早期层执行视觉基础,中间层支持词汇整合和语义推理,最终层准备任务特定输出。
  • Conclusion: 该研究为MLLMs的层级组织提供了统一视角,并提供了一个轻量级、模型无关的方法来分析多模态表示动态,发现整体阶段结构稳定但具体层级分配随基础LLM架构变化而显著变化。

[13] Disentangling Latent Embeddings with Sparse Linear Concept Subspaces (SLiCS)

Zhi Li,Hau Phan,Matthew Emigh,Austin J. Brockmeier

Main category: cs.CV

TL;DR: 本文提出了一种监督字典学习方法SLiCS,通过稀疏线性概念子空间对视觉-语言共嵌入空间进行解耦,将嵌入分解为多个概念特定的分量向量,实现更精确的概念过滤图像检索。

  • Motivation: 现有的视觉-语言共嵌入网络(如CLIP)提供了具有语义信息的潜在嵌入空间,但作者假设该空间可以被解耦,通过将嵌入分解为多个概念特定的分量向量来分离复杂场景的内容信息。
  • Method: 采用监督字典学习方法,估计一个线性合成模型,包含字典中向量组的稀疏非负组合。通过新颖的交替优化算法优化组结构字典,并利用文本共嵌入找到语义上有意义的描述。
  • Result: SLiCS提供的解耦嵌入实现了更精确的概念过滤图像检索(和条件生成)。该方法在TiTok的自编码器嵌入和DINOv2的自监督嵌入上都取得了定量和定性的改进结果。
  • Conclusion: 稀疏线性概念子空间方法能够有效解耦视觉-语言嵌入空间,为概念过滤的图像检索和生成任务提供了更精确的解决方案,在各种嵌入表示上都表现出优越性能。

[14] MedFoundationHub: A Lightweight and Secure Toolkit for Deploying Medical Vision Language Foundation Models

Xiao Li,Yanfan Zhu,Ruining Deng,Wei-Qi Wei,Yu Wang,Shilin Zhao,Yaohong Wang,Haichun Yang,Yuankai Huo

Main category: cs.CV

TL;DR: MedFoundationHub是一个GUI工具包,旨在解决医疗视觉语言模型的安全部署问题,支持医生无编程使用模型,工程师快速部署,并通过Docker确保隐私保护。

  • Motivation: 医疗视觉语言模型在临床应用中存在严重的隐私和安全风险,包括受保护健康信息泄露、数据泄漏和网络威胁漏洞,需要安全可靠的部署解决方案。
  • Method: 开发了MedFoundationHub图形用户界面工具包,支持离线本地工作站部署,集成Hugging Face开源模型,采用Docker编排实现操作系统无关的隐私保护推理。
  • Result: 评估了5个最先进的VLM模型,通过1015次临床医生-模型评分事件发现模型存在脱靶回答、模糊推理和不一致的病理术语等局限性。
  • Conclusion: MedFoundationHub提供了一个安全、易用的医疗VLM部署解决方案,但当前模型仍存在显著局限性,需要进一步改进以提高临床实用性。

[15] Enhancing Mamba Decoder with Bidirectional Interaction in Multi-Task Dense Prediction

Mang Cao,Sanping Zhou,Yizhe Li,Ye Deng,Wenli Huang,Le Wang

Main category: cs.CV

TL;DR: 提出了双向交互Mamba(BIM)模型,通过新颖的扫描机制解决多任务密集预测中交互完整性与计算效率的权衡问题

  • Motivation: 多任务密集预测中充分的跨任务交互对成功至关重要,但充分交互往往导致高计算复杂度,现有方法需要在交互完整性和计算效率之间做出权衡
  • Method: 引入双向交互扫描(BI-Scan)机制,将任务特定表示构建为双向序列进行交互,结合任务优先和位置优先扫描模式;采用多尺度扫描(MS-Scan)机制实现多粒度场景建模
  • Result: 在NYUD-V2和PASCAL-Context两个挑战性基准测试上展现出优于最先进竞争方法的性能
  • Conclusion: BIM模型通过创新的扫描机制成功解决了多任务密集预测中的交互效率问题,在保持线性计算复杂度的同时实现了充分的跨任务信息交互

[16] Audio-Guided Visual Editing with Complex Multi-Modal Prompts

Hyeonyu Kim,Seokhoon Jeong,Seonghee Han,Chanhyuk Choi,Taehwan Kim

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的音频指导视觉编辑框架,能够通过多模态提示处理复杂编辑任务,而无需额外训练。

  • Motivation: 现有的文本指导编辑方法在复杂场景下存在限制,需要额外的非文本编辑提示来充分描述编辑需求。
  • Method: 利用预训练多模态编码器的零样本能力,通过减少音频编码空间与提示编码空间的差异来集成音频。还提出了分离噪声分支和适应性片选择方法来处理多模态提示。
  • Result: 在多样化编辑任务上进行了全面实验,证明该框架能够通过音频融入丰富信息,在文本指导方法失败的复杂场景中表现优异。
  • Conclusion: 该方法为复杂多模态编辑任务提供了一种无需训练的有效解决方案,展示了多模态提示在视觉编辑中的强大潜力。

[17] More Reliable Pseudo-labels, Better Performance: A Generalized Approach to Single Positive Multi-label Learning

Luong Tran,Thieu Vo,Anh Nguyen,Sang Dinh,Van Nguyen

Main category: cs.CV

TL;DR: 提出了一种适用于单正样本多标签学习的框架AEVLP,包含GPR损失函数和DAMP伪标签技术,在四个标准数据集上达到最先进水平

  • Motivation: 大规模多标签数据集全标注成本高,需要研究从部分标注数据中学习。传统SPML方法将缺失标签视为未知或负面标签导致不准确和假阶死,而各种伪标签策略可能引入噪音
  • Method: 提出GPR损失函数,能够从多样化伪标签中有效学习并减轻噪音影响。配合使用动态增强多焦点伪标签技术DAMP,构成AEVLP框架
  • Result: 在四个标准数据集上进行了涉及广泛的实验,证明该框架显著推进了多标签分类性能,达到了最先进水平
  • Conclusion: AEVLP框架通过GPR损失函数和DAMP技术,有效解决了单正样本多标签学习中的噪音问题,实现了独特的性能提升

[18] Ultra-Low-Latency Spiking Neural Networks with Temporal-Dependent Integrate-and-Fire Neuron Model for Objects Detection

Chengjun Zhang,Yuhao Zhang,Jie Yang,Mohamad Sawan

Main category: cs.CV

TL;DR: 提出了一种延迟脉冲方法和时间依赖的IF神经元(tdIF),解决了SNN在视觉检测任务中性能不佳的问题,在超低时间步长(5步内)下实现了最先进的性能。

  • Motivation: 当前ANN-SNN转换方法在分类任务中表现优异,但在视觉检测任务中性能仍然不理想,主要原因是异质脉冲模式导致的残余膜电位问题。
  • Method: 采用延迟脉冲方法缓解异质脉冲模式问题,并提出时间依赖的IF神经元(tdIF),使神经元能够根据时间步长的时序动态调整积累和发放行为。
  • Result: 在目标检测和车道线检测两个关键视觉任务上,该方法超越了当前ANN-SNN转换方法,在超低延迟(5个时间步内)下实现了最先进的性能。
  • Conclusion: tdIF方法使脉冲具有不同的时间特性而非仅依赖频率表示,实现了更精确的特征表示和超低延迟的高性能视觉检测。

[19] Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection

Yuqi Xiong,Wuzhen Shi,Yang Wen,Ruhan Liu

Main category: cs.CV

TL;DR: 提出DUP-MCRNet网络,通过动态不确定性传播和多模态协同推理解决显著目标检测中的细节丢失、边缘模糊和模态信息融合不足问题。

  • Motivation: 现有显著目标检测方法在复杂场景中容易丢失细节、边缘模糊,且单模态信息融合不足,需要提升对小结构和边缘区域的检测精度。
  • Method: 设计动态不确定性图卷积模块(DUGC)通过空间语义距离构建稀疏图进行层间不确定性传播;提出多模态协同融合策略(MCF)使用可学习模态门控权重加权融合RGB、深度和边缘特征的注意力图;采用多尺度BCE和IoU损失、跨尺度一致性约束和不确定性引导监督机制优化检测性能。
  • Result: 在多个基准数据集上优于现有SOD方法,特别是在边缘清晰度和对复杂背景的鲁棒性方面表现突出。
  • Conclusion: DUP-MCRNet通过动态不确定性传播和多模态协同推理有效提升了显著目标检测的精度和鲁棒性,特别是在复杂场景下的表现优异。

[20] MSMVD: Exploiting Multi-scale Image Features via Multi-scale BEV Features for Multi-view Pedestrian Detection

Taiga Yamane,Satoshi Suzuki,Ryo Masumura,Shota Orihashi,Tomohiro Tanaka,Mana Ihori,Naoki Makishima,Naotaka Kawata

Main category: cs.CV

TL;DR: 提出MSMVD方法,通过多尺度图像特征生成多尺度BEV特征,解决多视角行人检测中尺度变化大的问题

  • Motivation: 现有端到端深度学习方法在多视角行人检测中难以处理视角内尺度一致偏小或偏大,以及视角间尺度差异大的行人检测问题
  • Method: MSMVD方法从各视角提取多尺度图像特征,逐尺度投影到BEV空间生成多尺度BEV特征,然后使用特征金字塔网络处理这些特征以融合不同尺度的多视角信息
  • Result: 在GMVD数据集上,MSMVD比之前最好的MODA指标提高了4.5个百分点,证明多尺度图像特征通过多尺度BEV特征能显著提升检测性能
  • Conclusion: 利用多尺度图像特征生成多尺度BEV特征的方法能有效提升多视角行人检测性能,特别是在处理尺度变化大的场景中表现优异

[21] A Spatial-Frequency Aware Multi-Scale Fusion Network for Real-Time Deepfake Detection

Libo Lv,Tianyi Wang,Mengxiao Huang,Ruixia Liu,Yinglong Wang

Main category: cs.CV

TL;DR: 提出轻量级实时深度伪造检测网络SFMFNet,通过空间-频率混合感知模块和多尺度特征融合,在保持高精度的同时显著降低计算成本

  • Motivation: 现有深度伪造检测器计算成本高,难以实时部署,需要开发轻量高效的检测方案
  • Method: 设计空间-频率混合感知模块(结合空间纹理和频率伪影)、令牌选择性交叉注意力机制、残差增强模糊池化结构
  • Result: 在多个基准数据集上实现精度与效率的良好平衡,具有强泛化能力和实际应用价值
  • Conclusion: SFMFNet为实时深度伪造检测提供了有效的轻量级解决方案,适合视频会议和社交媒体等实际应用场景

[22] Dual-Model Weight Selection and Self-Knowledge Distillation for Medical Image Classification

Ayaka Tsutsumi,Guang Li,Ren Togo,Takahiro Ogawa,Satoshi Kondo,Miki Haseyama

Main category: cs.CV

TL;DR: 提出一种结合双模型权重选择和自知识蒸馏的轻量级医学图像分类方法,在保持计算效率的同时达到与大模型相当的性能

  • Motivation: 解决实际医疗环境中部署大规模模型受计算资源限制的问题,需要开发既轻量又性能优异的模型
  • Method: 采用双模型权重选择策略从大型预训练模型初始化两个轻量模型,然后应用自知识蒸馏进行知识迁移,最后针对目标任务进行微调
  • Result: 在胸部X光、肺部CT和脑部MRI等多个公开数据集上的实验表明,该方法相比现有方法具有更优越的性能和鲁棒性
  • Conclusion: 结合双模型权重选择和自知识蒸馏的方法能够有效克服传统方法在紧凑模型中保留关键信息的局限性,为医疗图像分类提供了实用的轻量级解决方案

[23] Re-Densification Meets Cross-Scale Propagation: Real-Time Compression of LiDAR Point Clouds

Pengpeng Yu,Haoran Li,Dingquan Li,Runqing Jiang,Jing Wang,Liang Lin,Yulan Guo

Main category: cs.CV

TL;DR: 提出了一种基于几何重稠密化和跨尺度特征传播的LiDAR点云压缩方法,在保持轻量级预测头的同时实现高效上下文建模,在KITTI数据集上达到最先进的压缩比和实时性能。

  • Motivation: 现有方法将无序点云转换为层次化的八叉树或体素结构进行稠密到稀疏的预测编码,但几何细节的极端稀疏性阻碍了高效的上下文建模,限制了压缩性能和速度。
  • Method: 提出两个轻量级模块:1) 几何重稠密化模块对编码的稀疏几何进行重稠密化,在更稠密尺度提取特征后重新稀疏化用于预测编码;2) 跨尺度特征传播模块利用多分辨率级别的占用线索指导层次化特征传播,实现跨尺度信息共享。
  • Result: 在KITTI数据集上实现了最先进的压缩比和实时性能,在12位量化下编码和解码均达到26 FPS。
  • Conclusion: 通过整合几何重稠密化和跨尺度特征传播两个模块,该方法生成了紧凑的特征表示,提供了高效的上下文建模并加速了编码过程。

[24] Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

Xiaochuan Li,Guoguang Du,Runze Zhang,Liang Jin,Qi Jia,Lihua Lu,Zhenhua Guo,Yaqian Zhao,Haiyang Liu,Tianqi Wang,Changsheng Li,Xiaoli Gong,Rengang Li,Baoyu Fan

Main category: cs.CV

TL;DR: 该论文提出利用视频数据解决3D生成中的数据稀缺问题,通过构建大规模多视角标注视频数据集Droplet3D-4M,训练支持图像和文本输入的生成模型Droplet3D,实现了空间一致且语义合理的3D内容生成。

  • Motivation: 3D领域面临数据稀缺问题,而互联网上的视频数据包含丰富的常识先验,可以提供空间一致性先验和语义信息,作为替代监督信号来缓解3D数据不足带来的泛化瓶颈。
  • Method: 构建首个大规模多视角标注视频数据集Droplet3D-4M,训练生成模型Droplet3D支持图像和密集文本输入,利用视频中的空间一致性先验和语义信息进行3D资产生成。
  • Result: 实验验证了方法的有效性,能够生成空间一致且语义合理的内容,相比主流3D解决方案展现出扩展到场景级应用的潜力。
  • Conclusion: 视频中的常识先验显著促进了3D创作,该方法为解决3D数据稀缺问题提供了有效途径,所有资源均已开源。

[25] Realistic and Controllable 3D Gaussian-Guided Object Editing for Driving Video Generation

Jiusi Li,Jackson Jiang,Jinyu Miao,Miao Long,Tuopu Wen,Peijin Jia,Shengxiang Liu,Chunlei Yu,Maolin Liu,Yuzhan Cai,Kun Jiang,Mengmeng Yang,Diange Yang

Main category: cs.CV

TL;DR: G^2Editor是一个用于驾驶视频中逼真精确物体编辑的框架,通过3D高斯表示和层次化细粒度特征控制,在Waymo数据集上实现了优于现有方法的姿态控制性和视觉质量

  • Motivation: 自动驾驶系统中角落案例的收集成本高且危险,现有编辑方法存在视觉保真度有限和姿态控制不精确的问题
  • Method: 利用编辑物体的3D高斯表示作为密集先验注入去噪过程,采用场景级3D边界框布局重建非目标物体的遮挡区域,并引入层次化细粒度特征指导外观细节
  • Result: 在Waymo Open Dataset上有效支持物体重新定位、插入和删除,在姿态控制性和视觉质量方面优于现有方法
  • Conclusion: G^2Editor提供了一个统一的框架,能够生成逼真且精确的物体编辑结果,同时有益于下游数据驱动任务

[26] Enhancing Corpus Callosum Segmentation in Fetal MRI via Pathology-Informed Domain Randomization

Marina Grifell i Plana,Vladyslav Zalevskyi,Léa Schmidt,Yvan Gomez,Thomas Sanchez,Vincent Dunet,Mériam Koob,Vanessa Siffredi,Meritxell Bach Cuadra

Main category: cs.CV

TL;DR: 通过病理知识领域随机化策略,从健康数据生成合成数据来解决胎儿脑分割中CCD病例缺乏问题,显著提升了分割准确性和生物标记物提取效果

  • Motivation: 胎儿脑部精确分割对评估神经发育至关重要,但胱胆体发育不良(CCD)等稀缺病例缺乏标注数据,限制了深度学习模型的普适性
  • Method: 提出病理知识领域随机化策略,将CCD病变的先验知识嵌入合成数据生成流程,仅依靠健康数据模拟多样化的脑部变化
  • Result: 在321例胎儿数据上验证,在CCD病例中获得显著改善,胱胆体长度估计误差从10.9mm降至0.7mm,同时保持对健康和其他病理的性能,提取的生物标记物能够区分CCD子型
  • Conclusion: 将领域特定的解剖先验知识集成到合成数据流程中,可有效缓解数据稀缺问题,为缺缺但临床重要的异常变化提供更可靠的分析方法

[27] Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding

Jeong Hun Yeo,Hyeongseop Rha,Sungjune Park,Junil Won,Yong Man Ro

Main category: cs.CV

TL;DR: 提出了首个统一框架,能够同时处理手语、唇语和音频等多种输入模态,用于生成口语文本,在多个任务上达到或超越专门模型的性能。

  • Motivation: 传统语音识别系统对聋哑人士不可用,而现有的视觉替代方案(手语和唇读)往往被孤立研究,缺乏统一的整合框架来探索多模态之间的协同效应。
  • Method: 设计了一个统一的模态无关架构,能够有效处理异构输入,特别探索了唇部运动作为非手动线索在手语理解中的作用,并作为独立模态进行显式建模。
  • Result: 在SLT、VSR、ASR和AVSR等多个任务上达到或超越了专门的最先进模型性能,特别是显式建模唇部运动显著提升了手语翻译性能。
  • Conclusion: 该统一框架成功整合了多种通信模态,证明了多模态协同的重要性,特别是唇部运动在手语理解中的关键作用,为无障碍通信技术提供了新的解决方案。

[28] Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding

Yuan Xie,Tianshui Chen,Zheng Ge,Lionel Ni

Main category: cs.CV

TL;DR: Video-MTR是一个强化多轮推理框架,通过迭代选择关键视频片段和问题理解来提升长视频理解性能,无需外部视觉语言模型即可端到端训练。

  • Motivation: 长视频理解面临长时序依赖和多重事件的挑战,现有方法依赖静态推理或外部视觉语言模型,存在复杂度高和性能次优的问题。
  • Method: 提出多轮推理框架,逐步选择视频片段并基于先前处理片段的理解进行迭代推理;引入门控双层次奖励系统,结合轨迹级和轮次级奖励来优化视频片段选择和问题理解。
  • Result: 在VideoMME、MLVU和EgoSchema等基准测试中,Video-MTR在准确性和效率方面均优于现有方法,达到了最先进的性能。
  • Conclusion: Video-MTR通过迭代推理和双层次奖励系统,有效解决了长视频理解的挑战,实现了端到端训练并显著提升了性能。

[29] Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts

Zixuan Hu,Dongxiao Li,Xinzhu Ma,Shixiang Tang,Xiaotong Li,Wenhan Yang,Ling-Yu Duan

Main category: cs.CV

TL;DR: DUO是首个针对单目3D目标检测的测试时自适应框架,通过联合优化语义不确定性和几何不确定性,提升模型在域偏移下的鲁棒性。

  • Motivation: 现有测试时自适应方法未能解决单目3D目标检测中固有的双重不确定性(语义不确定性和几何不确定性),导致在真实世界域偏移下性能下降。
  • Method: 提出双重不确定性优化框架,包括:1)基于凸优化的新型无监督focal loss实现不确定性加权;2)语义感知法向场约束保持几何一致性;3)双分支互补机制。
  • Result: 在多种数据集和域偏移类型上的广泛实验表明,DUO优于现有方法。
  • Conclusion: DUO通过联合优化双重不确定性,显著提升了单目3D目标检测在域偏移条件下的鲁棒性和准确性。

[30] CaddieSet: A Golf Swing Dataset with Human Joint Features and Ball Information

Seunghyeon Jung,Seoyoung Hong,Jiwoo Jeong,Seungwon Jeong,Jaerim Choi,Hoki Kim,Woojin Lee

Main category: cs.CV

TL;DR: 提出了CaddieSet数据集,通过计算机视觉方法从高尔夫挥杆视频中提取关节信息和球轨迹数据,建立了挥杆姿势与球轨迹之间的定量关系,为高尔夫挥杆分析提供可解释的反馈。

  • Motivation: 现有深度学习研究虽然提升了高尔夫球手击球精度,但未能定量建立挥杆姿势与球轨迹之间的关系,限制了为球手提供挥杆改进所需洞察的能力。
  • Method: 创建CaddieSet数据集,使用计算机视觉方法从单次挥杆视频中分割8个挥杆阶段并提取关节信息,基于高尔夫专家知识定义15个关键指标,通过可解释模型预测球轨迹。
  • Result: 实验证明CaddieSet在预测球轨迹方面的可行性,验证了使用关节特征进行挥杆反馈与既定领域知识在定量上的一致性。
  • Conclusion: 这项工作为学术界和体育产业的高尔夫挥杆分析提供了新的见解,有望推动高尔夫运动的技术发展。

[31] IAENet: An Importance-Aware Ensemble Model for 3D Point Cloud-Based Anomaly Detection

Xuanming Cao,Chengyu Tao,Yifeng Cheng,Juan Du

Main category: cs.CV

TL;DR: 提出了IAENet框架,通过重要性感知融合模块动态整合2D和3D专家的异常检测能力,在3D表面异常检测中达到新的最先进性能

  • Motivation: 3D点云异常检测缺乏像2D那样强大的预训练基础骨干网络,现有多模态融合方法容易受到性能较差的模态影响而降低整体准确率
  • Method: 提出重要性感知集成网络(IAENet),包含重要性感知融合(IAF)模块动态评估各源贡献并重新加权异常分数,设计关键损失函数指导IAF优化
  • Result: 在MVTec 3D-AD数据集上实现了新的最先进性能,显著降低了误报率
  • Conclusion: IAENet通过有效整合2D和3D专家知识,提升了3D表面异常检测性能,具有工业部署的实用价值

[32] Describe, Don't Dictate: Semantic Image Editing with Natural Language Intent

En Ci,Shanyan Guan,Yanhao Ge,Yilin Zhang,Wei Li,Zhenyu Zhang,Jian Yang,Ying Tai

Main category: cs.CV

TL;DR: DescriptiveEdit是一个基于描述性提示的图像编辑框架,通过将指令式编辑重新定义为基于参考图像的文本到图像生成,避免了重建误差和数据集限制问题。

  • Motivation: 解决语义图像编辑中的重建误差问题(基于反转的方法)和数据集质量限制(基于指令的方法),同时保持文本到图像模型的生成能力。
  • Method: 提出Cross-Attentive UNet架构,通过注意力桥接机制将参考图像特征注入到提示到编辑图像的生成过程中,无需架构修改或反转操作。
  • Result: 在Emu Edit基准测试中显示出编辑准确性和一致性的提升,能够无缝集成ControlNet、IP-Adapter等扩展,具有更好的可扩展性。
  • Conclusion: DescriptiveEdit通过重新定义问题框架,有效克服了现有图像编辑方法的局限性,为语义图像编辑提供了更优的解决方案。

[33] DCFS: Continual Test-Time Adaptation via Dual Consistency of Feature and Sample

Wenting Yin,Han Sun,Xinru Meng,Ningzhong Liu,Huiyu Zhou

Main category: cs.CV

TL;DR: DCFS是一个新的持续测试时适应框架,通过双路径特征一致性和置信度感知样本学习来解决伪标签质量问题和错误累积问题。

  • Motivation: 在无法访问源域数据的情况下,现有方法依赖模型预测生成伪标签,但伪标签质量无法保证且存在错误累积问题。
  • Method: 使用双分类器将目标数据特征解耦为语义相关特征和域相关特征,保持子特征与整体特征的一致性,并通过自适应阈值和置信度评分进行加权自监督学习。
  • Result: 在CIFAR10-C、CIFAR100-C和ImageNet-C等多个数据集上的广泛实验验证了该方法的有效性。
  • Conclusion: DCFS框架能够从多角度全面捕捉数据特征,有效减少伪标签噪声并缓解错误累积问题,在持续测试时适应场景中表现一致。

[34] Adam SLAM - the last mile of camera calibration with 3DGS

Matthieu Gendrin,Stéphane Pateux,Xiaoran Jiang,Théo Ladune,Luce Morin

Main category: cs.CV

TL;DR: 通过3DGS模型通过回传新视角色彩损失来细调相机标定参数,提升新视角合成质量

  • Motivation: 相机标定质量对新视角合成致关重要,1像素错误就会对重建质量产生显著影响,而实际场景缺乏真实标定数据
  • Method: 使用3DGS模型,通过回传新视角色彩损失来对相机参数进行细调优化
  • Result: 在3DGS参考数据集上,新的标定方法平均提升了0.4 dB PSNR
  • Conclusion: 虽然细调过程可能耗时,但对于重要场景的标定(如Mip-NeRF 360),新视角质量的提升远超过训练时间成本

[35] Learning What is Worth Learning: Active and Sequential Domain Adaptation for Multi-modal Gross Tumor Volume Segmentation

Jingyun Yang,Guoqing Zhang,Jingge Wang,Yang Li

Main category: cs.CV

TL;DR: 提出了一种主动序列域适应框架,用于多模态医学图像分割中的动态样本选择,通过基于信息量和代表性的查询策略减少标注成本。

  • Motivation: 医学图像标注成本高,传统主动域适应方法存在负迁移问题且未考虑多模态数据,需要开发更有效的样本选择策略。
  • Method: 提出主动序列域适应框架,设计基于信息量和代表性的查询策略,动态选择最有价值的样本进行标注和训练。
  • Result: 在多种肿瘤体积分割任务上验证,显著优于现有主动域适应方法,实现了更好的分割性能。
  • Conclusion: 该方法有效解决了多模态医学图像分割中的标注成本问题,为医学图像分析提供了实用的主动学习解决方案。

[36] Enhancing Pseudo-Boxes via Data-Level LiDAR-Camera Fusion for Unsupervised 3D Object Detection

Mingqian Ji,Jian Yang,Shanshan Zhang

Main category: cs.CV

TL;DR: 本文提出一种新的数据层面融合框架,通过早期融合RGB图像和LiDAR数据,利用视觉基础模型进行实例分割和深度估计,通过双向融合和动态自我迭代策略显著提升了无监督3D物体检测的性能。

  • Motivation: 现有的无监督3D物体检测方法仅简单融合伪标签箱,忽视了LiDAR和RGB图像数据在补充性上的优势,导致伪标签箱质量提升有限。
  • Method: 提出数据层面早期融合框架:1)利用视觉基础模型进行实例分割和深度估计;2)双向融合策略,让3D点获取2D类别标签,将2D像素投影3D提升点密度;3)局部和全局筛选法消除深度估计和分割噪声;4)数据层融合的动态自我迭代策略。
  • Result: 在nuScenes数据集上的实验表明,该方法在验证集上达到28.4%的mAP,显著超过之前的最先进方法。
  • Conclusion: 通过数据层面的早期融合和动态自我迭代策略,本文方法能够有效提升无监督3D物体检测的性能,为解决高质量3D标签获取困难提供了新的解决方案。

[37] Digital Scale: Open-Source On-Device BMI Estimation from Smartphone Camera Images Trained on a Large-Scale Real-World Dataset

Frederik Rajiv Manichand,Robin Deuber,Robert Jakob,Steve Swerling,Jamie Rosen,Elgar Fleisch,Patrick Langer

Main category: cs.CV

TL;DR: 本研究提出了一种基于深度学习的方法,使用84,963张智能手机图像的大规模数据集WayBED来估计BMI,通过自动过滤方法筛选高质量图像,在测试集上达到7.9%的MAPE,是目前文献中最低值,并展示了良好的泛化能力。

  • Motivation: 在远程医疗或紧急情况下,传统BMI测量方法不可用或不切实际,需要从相机图像中快速评估体重指数。现有计算机视觉方法受限于较小数据集(最多14,500张图像)。
  • Method: 使用WayBED数据集(84,963张图像,25,353人),引入基于姿势聚类和人物检测的自动过滤方法筛选高质量图像,保留71,322张图像用于训练深度学习模型。
  • Result: 在WayBED测试集上达到7.9%的MAPE(文献最低值),在未见过的VisualBodyToBMI数据集上达到13% MAPE(与最先进方法相当),微调后在该数据集上达到8.56% MAPE(最低报告值)。
  • Conclusion: 该方法在移动设备上成功部署,代码开源,为BMI快速评估提供了有效的解决方案,特别是在资源有限的环境中。

[38] Domain Adaptation Techniques for Natural and Medical Image Classification

Ahmad Chaddad,Yihang Wu,Reem Kateb,Christian Desrosiers

Main category: cs.CV

TL;DR: 本研究通过557个模拟实验,系统评估了7种主流域自适应技术在自然和医学图像分类中的表现,发现DSAN算法在COVID-19等医学数据集上表现突出,准确率达91.2%,在动态数据流场景中相比基线提升6.7%。

  • Motivation: 域自适应技术能缓解训练集和测试集之间的分布差异,但现有研究多基于自然图像而非医学数据,且主流数据集可能导致性能偏差。为更好理解DA技术对自然和医学图像的适用性,需要进行系统性评估。
  • Method: 使用7种广泛使用的域自适应技术,在5个自然图像数据集和8个医学图像数据集上进行557个模拟实验,涵盖分布外、动态数据流和有限训练样本等多种场景。
  • Result: DSAN算法表现最佳,在COVID-19数据集上使用Resnet50达到91.2%的分类准确率,在动态数据流场景中相比基线提升6.7%。DSAN在COVID-19和皮肤癌数据集上展现出显著的可解释性。
  • Conclusion: 研究结果深化了对域自适应技术的理解,为模型在医学数据上的有效适应提供了宝贵见解,DSAN算法在医学图像分类中表现出色且具有良好可解释性。

[39] Contrastive Learning through Auxiliary Branch for Video Object Detection

Lucas Rakotoarivony

Main category: cs.CV

TL;DR: 提出CLAB方法,通过对比学习辅助分支增强视频目标检测的特征表示能力,使用动态损失权重策略,在不增加推理计算成本的情况下提升检测性能,在ImageNet VID数据集上达到SOTA效果。

  • Motivation: 视频目标检测面临运动模糊、遮挡等图像退化问题,传统方法通过特征聚合和复杂后处理提升性能但计算成本高。希望在不增加推理计算负担的情况下提升对图像退化的鲁棒性。
  • Method: 1. 使用对比损失实现对比学习辅助分支,增强主干网络特征表示能力;2. 提出动态损失权重策略,训练初期强调辅助特征学习,后期逐渐侧重检测任务。
  • Result: 在ImageNet VID数据集上,ResNet-101达到84.0% mAP,ResNeXt-101达到85.2% mAP,实现了CNN模型的最优性能,且无需额外后处理方法。
  • Conclusion: CLAB方法通过对比学习和动态权重策略有效提升了视频目标检测性能,在保持推理效率的同时达到了state-of-the-art水平。

[40] Towards Mechanistic Defenses Against Typographic Attacks in CLIP

Lorenz Hufe,Constantin Venhoff,Maximilian Dreyer,Sebastian Lapuschkin,Wojciech Samek

Main category: cs.CV

TL;DR: 本文分析了CLIP视觉编码器在排版攻击下的行为,发现特定注意力头负责提取排版信息,并提出了一种无需微调的选择性消融防御方法,显著提升了模型对排版攻击的鲁棒性。

  • Motivation: 排版攻击通过向图像中注入文本来操纵多模态系统,导致目标错误分类、恶意内容生成和视觉语言模型越狱。需要研究CLIP模型在这种攻击下的行为并开发有效防御方法。
  • Method: 定位CLIP模型中专门处理排版信息的注意力头,构建排版电路,通过选择性消融这些注意力头来防御攻击,无需微调即可实现防御。
  • Result: 在ImageNet-100的排版变体上性能提升高达19.6%,标准ImageNet-100准确率下降不到1%。无需训练的方法与依赖微调的最先进防御方法竞争力相当。
  • Conclusion: 发布了一系列抗排版攻击的dyslexic CLIP模型,这些模型可作为安全关键应用的即插即用替代方案,在文本识别效用与文本操纵风险之间提供了更好的平衡。

[41] GLaRE: A Graph-based Landmark Region Embedding Network for Emotion Recognition

Debasis Maji,Debaditya Barman

Main category: cs.CV

TL;DR: 提出GLaRE网络,基于图神经网络和分层粗化的商图结构进行面部表情识别,在AffectNet和FERG数据集上取得优异性能

  • Motivation: 传统面部表情识别系统面临遮挡、表情变异性和缺乏可解释性等挑战,图神经网络能够建模面部标志点间的依赖关系,提供结构化且可解释的学习方式
  • Method: 使用3D面部对齐提取面部标志点,通过分层粗化构建商图来保持空间结构同时降低复杂度,采用基于图的标志点区域嵌入网络
  • Result: 在AffectNet数据集上达到64.89%准确率,在FERG数据集上达到94.24%准确率,优于多个现有基线方法
  • Conclusion: 商图的区域级嵌入有助于提升预测性能,图神经网络为面部表情识别提供了有效的结构化学习方法

[42] FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models

Zheng Chong,Yanwei Lei,Shiyue Zhang,Zhuandi He,Zhen Wang,Xujie Zhang,Xiao Dong,Yiling Wu,Dongmei Jiang,Xiaodan Liang

Main category: cs.CV

TL;DR: FastFit是一个基于可缓存扩散架构的高速多参考虚拟试穿框架,通过半注意力机制和类别嵌入实现参考特征与去噪过程完全解耦,获得3.5倍加速,并在新数据集DressCode-MR上验证了优越性能

  • Motivation: 解决当前虚拟试穿技术无法支持多参考服装组合(包括服装和配饰)以及去噪过程中重复计算参考特征导致的效率低下问题
  • Method: 提出基于可缓存扩散架构的FastFit框架,采用半注意力机制,用类别嵌入替代传统时间步嵌入,实现参考特征编码与去噪过程完全解耦,参考特征只需计算一次即可在所有步骤中无损重用
  • Result: 在VITON-HD、DressCode和DressCode-MR数据集上的实验表明,FastFit在关键保真度指标上超越最先进方法,平均实现3.5倍加速,推理效率显著提升
  • Conclusion: FastFit通过创新的缓存架构成功解决了多参考虚拟试穿的效率和性能瓶颈,为复杂多参考虚拟试穿研究提供了有效解决方案和新的大规模数据集支持

[43] UTA-Sign: Unsupervised Thermal Video Augmentation via Event-Assisted Traffic Signage Sketching

Yuqi Han,Songqian Zhang,Weijian Su,Ke Li,Jiayu Yang,Jinli Suo,Qiang Zhang

Main category: cs.CV

TL;DR: UTA-Sign是一种无监督的热成像-事件视频增强方法,用于低光照环境下的交通标志识别,通过融合热成像帧和事件信号来解决热成像的盲点和事件相机采样不均的问题。

  • Motivation: 热成像相机在低光照环境下表现优异,但在识别相似材料制成的标志时存在盲点;事件相机能有效检测光强变化但采样不均。两种模态具有互补特性,需要融合来提升自动驾驶系统在低光照环境下对交通标志的语义理解。
  • Method: 提出双增强机制,利用热成像帧提供准确运动线索作为时间参考来对齐不均匀的事件信号,同时事件信号为原始热成像帧提供细微的标志内容,增强环境整体理解。
  • Result: 在真实场景数据集上验证,该方法在交通标志描绘质量和感知层面的检测精度方面表现出优越性能。
  • Conclusion: UTA-Sign通过有效融合热成像和事件相机数据,成功解决了低光照环境下交通标志识别的挑战,为自动驾驶系统提供了更可靠的环境感知能力。

[44] Disruptive Attacks on Face Swapping via Low-Frequency Perceptual Perturbations

Mengxiao Huang,Minglei Shu,Shuwang Zhou,Zhaoyang Liu

Main category: cs.CV

TL;DR: 提出基于低频感知扰动的主动防御方法,通过结合频域和空间域特征来破坏深度伪造的人脸交换生成过程,在保持视觉质量的同时有效降低伪造效果

  • Motivation: 现有深度伪造检测方法多为被动的事后分析,无法预防攻击。需要开发主动防御技术来直接干扰生成过程,提高防御成功率
  • Method: 使用离散小波变换提取低频分量,设计包含编码器、扰动生成器和解码器的完整架构,在保持高频细节的同时引入低频扰动来破坏面部操纵模型
  • Result: 在CelebA-HQ和LFW数据集上实验显示,人脸交换效果显著降低,防御成功率提高,同时保持了视觉质量
  • Conclusion: 该方法提供了一种有效的主动防御方案,通过针对生成过程的低频扰动策略,在破坏深度伪造技术的同时保持了图像的视觉真实性

[45] Embracing Aleatoric Uncertainty: Generating Diverse 3D Human Motion

Zheng Qin,Yabing Wang,Minghui Yang,Sanping Zhou,Ming Yang,Le Wang

Main category: cs.CV

TL;DR: 本文提出Diverse-T2M方法,通过在transformer架构中引入噪声信号作为多样性载体,并构建连续潜在空间表示,显著提升了文本到3D人体动作生成的多样性,同时保持文本语义一致性。

  • Motivation: 现有的文本到动作生成方法虽然能产生精确高质量的动作,但在生成多样性方面存在显著挑战。本文旨在克服这一限制,实现既保持文本一致性又具有高度多样性的动作生成。
  • Method: 1) 在基于transformer的方法中利用噪声信号作为多样性信息载体,实现不确定性的显式建模;2) 构建连续潜在空间表示文本,替代刚性的一对一映射;3) 集成潜在空间采样器,在生成过程中引入随机采样
  • Result: 在HumanML3D和KIT-ML基准数据集上的实验表明,该方法在保持文本一致性state-of-the-art性能的同时,显著增强了生成动作的多样性
  • Conclusion: Diverse-T2M方法通过引入不确定性建模和潜在空间采样,有效解决了文本到动作生成中的多样性挑战,为生成既语义一致又丰富多样的3D人体动作提供了有效解决方案

[46] Optimization-Based Calibration for Intravascular Ultrasound Volume Reconstruction

Karl-Philippe Beaudet,Sidaty El Hadramy,Philippe C Cattin,Juan Verde,Stéphane Cotin

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于3D打印幻身的优化校准方法,用于准确重建3D血管内超声(IVUS)体积,以支持肝脏手术中的图像注册和导航。

  • Motivation: 因为肝脏手术中的术中超声图像解释困难,预手术CT和术中IVUS图像之间的数据差距需要装桥,以提高手术导航效果。
  • Method: 使用3D打印幻身进行优化基础的校准方法,确保跟踪IVUS数据与预手术CT图像的精确对齐,实现3D IVUS体积重建。
  • Result: 在生物猪肝脏图像上验证,校准误差从0.88到1.80 mm,注册误差从3.40到5.71 mm,显示了方法的精确性。
  • Conclusion: 该方法提供了可靠准确的校准和体积重建手段,能够有效地将术中超声图像与预手术CT图像进行注册,提升肝脏手术的导航效果。

[47] Physics Informed Generative Models for Magnetic Field Images

Aye Phyu Phyu Aung,Lucas Lum,Zhansen Shi,Wen Qiu,Bernice Zee,JM Chin,Yeow Kheng Lim,J. Senthilnath

Main category: cs.CV

TL;DR: 提出PI-GenMFI方法,利用扩散模型结合物理约束生成合成磁場成像数据,解决半导体缺陷检测中MFI数据集稀缺问题

  • Motivation: 半导体制造中MFI数据集因专有性问题稀缺,限制了机器学习模型训练,需要生成合成数据来优化缺陷定位流程
  • Method: 使用扩散模型集成物理约束生成合成MFI图像,特别针对电源短路等常见缺陷类型生成训练数据
  • Result: 与最先进的VAE和扩散生成模型相比,在定性定量评估中显示出有希望的结果,并通过领域专家验证
  • Conclusion: PI-GenMFI方法能有效生成高质量的合成MFI数据,为机器学习算法提供训练数据,优化半导体缺陷定位过程

[48] Revisiting the Privacy Risks of Split Inference: A GAN-Based Data Reconstruction Attack via Progressive Feature Optimization

Yixiang Qiu,Yanhan Liu,Hongyao Yu,Hao Fang,Bin Chen,Shu-Tao Xia,Ke Xu

Main category: cs.CV

TL;DR: 提出基于GAN的渐进特征优化数据重建攻击框架,显著提升对深度神经网络中间特征的重建质量和泛化能力

  • Motivation: 现有数据重建攻击主要针对浅层模型,无法充分利用语义先验,重建质量和跨数据集、跨架构的泛化能力有限
  • Method: 采用GAN框架,将生成器分解为分层块,通过渐进特征优化逐步精炼中间表示,并引入L1-ball约束来稳定优化和提升图像真实感
  • Result: 在多个场景下大幅超越现有攻击方法,特别是在高分辨率、分布外设置以及针对更深更复杂DNN时表现突出
  • Conclusion: 所提出的渐进特征优化框架有效提升了数据重建攻击的性能,揭示了分割推理中存在的严重隐私风险

[49] EmoCAST: Emotional Talking Portrait via Emotive Text Description

Yiguo Jiang,Xiaodong Cun,Yong Zhang,Yudian Zheng,Fan Tang,Chi-Man Pun

Main category: cs.CV

TL;DR: EmoCAST是一个基于扩散模型的框架,通过文本驱动的情感合成模块和情感音频注意力模块,解决了现有情感说话头合成方法在控制灵活性、运动自然度和表情质量方面的局限性。

  • Motivation: 现有情感说话头合成方法在控制灵活性、运动自然度和表情质量方面存在局限,且现有数据集主要在实验室环境下收集,限制了实际应用。
  • Method: 提出EmoCAST框架,包含文本引导解耦情感模块和情感音频注意力模块,构建情感说话头数据集,采用情感感知采样训练策略和渐进功能训练策略。
  • Result: EmoCAST在生成逼真、情感丰富且音频同步的说话头视频方面达到了最先进的性能。
  • Conclusion: 该框架通过创新的模块设计和训练策略,显著提升了情感说话头合成的质量和实用性。

[50] Mask-Guided Multi-Channel SwinUNETR Framework for Robust MRI Classification

Smriti Joshi,Lidia Garrucho,Richard Osuala,Oliver Diaz,Karim Lekadir

Main category: cs.CV

TL;DR: 基于SwinUNETR的深度学习框架在乳腺癌MRI诊断挑战中获得第二名,通过乳腺区域掩码、数据增强和集成学习提高鲁棒性

  • Motivation: 乳腺癌是女性癌症相关死亡的主要原因,早期检测对改善预后至关重要。MRI在乳腺致密组织或高风险女性中比乳腺X线摄影更有效,需要AI解决方案来支持临床诊断
  • Method: 开发基于SwinUNETR的深度学习框架,包含乳腺区域掩码、广泛的数据增强和集成学习技术,使用多中心511个研究的数据集
  • Result: 在ODELIA联盟组织的多中心挑战中取得第二名成绩,证明了该方法在临床乳腺MRI解读中的潜在应用价值
  • Conclusion: 该方法展示了良好的鲁棒性和泛化能力,代码已公开分享,有望为乳腺癌诊断提供有效的AI支持工具

[51] AvatarBack: Back-Head Generation for Complete 3D Avatars from Front-View Images

Shiqi Xin,Xiaolin Zhang,Yanbin Liu,Peng Zhang,Caifeng Shan

Main category: cs.CV

TL;DR: AvatarBack是一个即插即用的3D高斯头像重建框架,通过生成身份一致的后视图伪图像和自适应空间对齐策略,解决了现有方法因依赖前视图图像而导致后脑重建质量差的问题。

  • Motivation: 现有基于高斯泼溅的头像重建方法主要依赖前视图图像,导致后脑区域重建质量差,存在几何不一致、结构模糊和真实感降低等问题,限制了重建头像的保真度。
  • Method: 提出AvatarBack框架,包含两个核心技术:1)主体特定生成器(SSG)利用生成先验从稀疏前视图输入合成身份一致的后视图伪图像;2)自适应空间对齐策略(ASA)使用可学习变换矩阵优化合成视图与3D高斯表示之间的几何对齐。
  • Result: 在NeRSemble和K-hairstyle数据集上的实验表明,AvatarBack显著提升了后脑重建质量,同时保持了前视图保真度,重建的头像在不同运动下保持一致的视觉真实感且完全可动画化。
  • Conclusion: AvatarBack通过显式建模缺失的后脑区域,成功解决了3D高斯头像重建中的后脑质量问题,为构建完整一致的头像提供了有效解决方案。

[52] ArtFace: Towards Historical Portrait Face Identification via Model Adaptation

Francois Poh,Anjith George,Sébastien Marcel

Main category: cs.CV

TL;DR: 本研究探索使用基础模型提升历史绘画中人物面部识别的准确性,通过微调基础模型并将其嵌入与传统面部识别网络结合,显著超越了现有最先进方法。

  • Motivation: 历史绘画中的人物识别对艺术史研究至关重要,但传统面部识别模型在处理绘画作品时面临领域偏移、风格变化等挑战,需要新的技术方法来提高识别准确性。
  • Method: 通过微调基础模型,并将其嵌入特征与传统面部识别网络的嵌入特征进行集成融合,构建了一个能够更好处理艺术作品面部识别的混合模型。
  • Result: 实验结果表明,该方法相比当前最先进方法取得了显著改进,基础模型能够有效弥补传统方法在处理艺术作品时的不足。
  • Conclusion: 基础模型在艺术作品中的人物面部识别方面具有巨大潜力,能够有效解决传统方法因领域偏移和艺术风格变化而面临的挑战,为艺术史研究提供了新的技术支撑。

[53] CraftGraffiti: Exploring Human Identity with Custom Graffiti Art via Facial-Preserving Diffusion Models

Ayan Banerjee,Fernando Vilariño,Josep Lladós

Main category: cs.CV

TL;DR: CraftGraffiti是一个端到端的文本引导涂鸦生成框架,通过LoRA微调扩散变换器和面部一致性自注意力机制,在极端风格化变换中保持面部身份识别性。

  • Motivation: 解决在涂鸦这种高对比度抽象媒介中,面部特征轻微扭曲会导致身份识别性丧失的问题,保持个人和文化真实性。
  • Method: 采用"风格优先、身份后处理"范式:首先通过LoRA微调预训练扩散变换器进行涂鸦风格迁移,然后使用面部一致性自注意力机制增强身份嵌入,无需关键点即可实现姿态定制。
  • Result: 定量结果显示竞争性的面部特征一致性和最先进的美学评分,定性分析和现场部署验证了系统的实际创意影响力。
  • Conclusion: CraftGraffiti推进了身份尊重的AI辅助艺术目标,为创意AI应用中融合风格自由和可识别性提供了原则性方法。

[54] Improving Alignment in LVLMs with Debiased Self-Judgment

Sihan Yang,Chenhang Cui,Zihao Zhao,Yiyang Zhou,Weilong Yan,Ying Wei,Huaxiu Yao

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的自我评估方法,通过生成偏见自我判断分数来改善大型视觉-语言模型的对齐效果,减少幻觉现象和提升安全性。

  • Motivation: 现有的模态对齐方法依赖外部数据集、人工标注或复杂的后处理,导致扩展性和成本问题。需要一种更有效的方法来对齐视觉和语言模态,减少幻觉现象和安全风险。
  • Method: 提出了偏见自我判断分数方法,让模型在不依赖外部资源的情况下自主生成自我评估指标。该方法改善了解码策略和偏好调整过程。
  • Result: 实验结果显示,该方法在减少幻觉现象、提升安全性和改善整体能力方面显著超过传统方法。
  • Conclusion: 该研究提供了一种更有效的视觉-语言模型对齐方案,通过自主自我评估实现了更好的效果和更高的扩展性。

[55] "Humor, Art, or Misinformation?": A Multimodal Dataset for Intent-Aware Synthetic Image Detection

Anastasios Skoularikis,Stefanos-Iordanis Papadopoulos,Symeon Papadopoulos,Panagiotis C. Petrantonakis

Main category: cs.CV

TL;DR: S-HArM数据集用于意图感知分类,包含9,576个社交媒体图像-文本对,标注为幽默/讽刺、艺术或虚假信息。研究比较了三种提示策略生成合成训练数据,发现保留视觉上下文的图像和多模态引导数据泛化效果更好。

  • Motivation: 现有多模态AI研究主要关注检测合成和脱离上下文的内容,但忽视了AI生成图像背后的意图识别,需要填补这一研究空白。
  • Method: 构建S-HArM多模态数据集,探索三种提示策略(图像引导、描述引导、多模态引导)使用Stable Diffusion生成大规模合成训练数据,并进行多模态融合、对比学习、重建网络、注意力机制和大型视觉语言模型的比较研究。
  • Result: 在图像引导和多模态引导策略下训练的模型对真实内容泛化能力更好,因为保留了视觉上下文。但整体性能仍然有限。
  • Conclusion: 推断意图具有复杂性,需要专门的架构来解决这一挑战,当前方法在意图识别方面仍有较大改进空间。

[56] MobileCLIP2: Improving Multi-Modal Reinforced Training

Fartash Faghri,Pavan Kumar Anasosalu Vasu,Cem Koc,Vaishaal Shankar,Alexander Toshev,Oncel Tuzel,Hadi Pouransari

Main category: cs.CV

TL;DR: MobileCLIP2是MobileCLIP的改进版本,通过改进多模态强化训练方法,包括更好的CLIP教师集成和优化的标题生成器,在保持低延迟的同时实现了最先进的零样本准确率。

  • Motivation: 改进MobileCLIP的多模态强化训练方法,通过更好的教师模型集成和标题生成器优化,提升模型性能同时保持低延迟特性。
  • Method: 1) 使用DFN数据集训练更好的CLIP教师集成 2) 在DFN数据集上训练改进的标题生成器教师,并在高质量图像-标题数据集上进行微调 3) 引入对比知识蒸馏中的温度调优和多模型合成标题组合
  • Result: MobileCLIP2在ImageNet-1k零样本准确率上取得最先进性能:MobileCLIP2-B比MobileCLIP-B提升2.2%;MobileCLIP2-S4在相同准确率下比SigLIP-SO400M/14小2倍,比DFN ViT-L/14延迟低2.5倍
  • Conclusion: MobileCLIP2通过改进的多模态强化训练方法,在低延迟架构下实现了显著的性能提升,为移动端图像-文本模型设立了新的性能基准,并提供了可扩展的数据生成代码。

[57] Learned Rate Control for Frame-Level Adaptive Neural Video Compression via Dynamic Neural Network

Chenhao Zhang,Wei Gao

Main category: cs.CV

TL;DR: 提出动态视频压缩框架,通过可变编码路径实现可变比特率控制,在保持RD性能的同时实现精确的比特率控制。

  • Motivation: 神经视频压缩在比特率精确控制方面存在挑战,传统学习型编解码器难以实现可变比特率场景的需求。
  • Method: 提出动态路由自编码器(DRA)和速率控制代理,通过多编码路径和联合路由优化策略实现可变比特率压缩。
  • Result: 在HEVC和UVG数据集上平均BD-Rate降低14.8%,BD-PSNR提升0.47dB,平均比特率误差仅1.66%。
  • Conclusion: 该方法实现了速率-失真-复杂度优化(RDCO),为各种比特率和比特率受限应用提供了有效解决方案。

[58] CardioMorphNet: Cardiac Motion Prediction Using a Shape-Guided Bayesian Recurrent Deep Network

Reza Akbari Movahed,Abuzar Rezaee,Arezoo Zakeri,Colin Berry,Edmond S. L. Ho,Ali Gooya

Main category: cs.CV

TL;DR: CardioMorphNet是一个基于贝叶斯深度学习的3D心脏运动估计框架,通过形状引导的配准方法避免传统强度相似性损失的局限性,在UK Biobank数据集上表现优于现有方法。

  • Motivation: 现有心脏运动估计方法依赖基于强度的图像配准相似性损失,往往忽略心脏解剖区域,导致运动捕捉不准确。
  • Method: 提出循环变分自编码器建模心脏周期时空依赖,使用两个后验模型进行双心室分割和运动估计,通过贝叶斯推导的损失函数递归配准分割图而不使用强度相似性损失。
  • Result: 在UK Biobank数据集上验证,CardioMorphNet在心脏运动估计方面表现优于最先进方法,并产生更低的不确定性值,表明预测置信度更高。
  • Conclusion: CardioMorphNet通过形状引导的贝叶斯深度学习框架成功解决了心脏运动估计的挑战,为心脏功能评估提供了更准确可靠的工具。

[59] Mix, Align, Distil: Reliable Cross-Domain Atypical Mitosis Classification

Kaustubh Atey,Sameer Anand Jha,Gouranga Bala,Amit Sethi

Main category: cs.CV

TL;DR: 基于风格扰动、域对齐和EMA教师模型的简单训练方法,在MIDOG 2025任务2中实现了基础分析上具有域稳健性的非典型有丝分裂分类

  • Motivation: 非典型有丝分裂(AMFs)是重要的组织病理标记,但在不同扫描仪、染色和获取差异导致的域假移下识别一致性挑战性很大
  • Method: 通过风格扰动增加特征多样性,使用辅助对齐损失对齐不同域的注意力精炼特征,以及通过EMA教师模型和温度缩放KL散度稳定预测
  • Result: 在MIDOG 2025预测榜单上获得平衡准确率0.8762,敏感度0.8873,特异度0.8651,ROC AUC 0.9499,推理时间开销可忽略
  • Conclusion: 该方法仅需粗糕域元数据,具有强大的平衡性能,是MIDOG 2025挑战赛的竞争力提交方案

[60] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

Yibin Wang,Zhimin Li,Yuhang Zang,Yujie Zhou,Jiazi Bu,Chunyu Wang,Qinglin Lu,Cheng Jin,Jiaqi Wang

Main category: cs.CV

TL;DR: 提出Pref-GRPO方法通过优化偏好而非分数最大化来减少奖励骗取问题,并创建UniGenBench评测标准,为文本到图像生成提供更稳定的训练和全面的评估。

  • Motivation: 当前使用点评奖励模型的GRPO方法存在奖励骗取问题,图像质量差异被放大导致过优化不稳定;现有评测标准评估粗糕不能全面评估模型能力。
  • Method: 提出Pref-GRPO方法,使用偏好对比替代分数评分,以胜率作为奖励信号;建立UniGenBench标准,包含600个提示和多级评估标准,利用MLLM进行构建和评估。
  • Result: Pref-GRPO能够识别细微的图像质量差异,提供更稳定的优势,有效减少奖励骗取;UniGenBench发现了各种T2I模型的优缺点并验证了Pref-GRPO的有效性。
  • Conclusion: 该研究通过偏好优化和细粒度评测标准,有效解决了文本到图像生成中的奖励骗取和评估不全面问题,提高了模型训练的稳定性和评估的可靠性。

[61] C3-GS: Learning Context-aware, Cross-dimension, Cross-scale Feature for Generalizable Gaussian Splatting

Yuxi Hu,Jun Zhang,Kuangyi Chen,Zhe Zhang,Friedrich Fraundorfer

Main category: cs.CV

TL;DR: C³-GS是一个用于未见场景新视角合成的通用高斯泼溅框架,通过上下文感知、跨维度和跨尺度约束增强特征学习,无需逐场景优化即可实现高质量渲染。

  • Motivation: 现有方法在稀疏输入视图下难以编码判别性、多视图一致的特征来预测高斯参数,导致几何构建不准确。
  • Method: 在统一渲染管道中集成三个轻量级模块,引入上下文感知、跨维度和跨尺度约束来改进特征融合。
  • Result: 在基准数据集上的广泛实验验证了C³-GS达到了最先进的渲染质量和泛化能力。
  • Conclusion: 该框架无需额外监督即可实现照片级真实感合成,代码已开源。

[62] SeqVLM: Proposal-Guided Multi-View Sequences Reasoning via VLM for Zero-Shot 3D Visual Grounding

Jiawen Lin,Shiran Bian,Yihang Zhu,Wenbin Tan,Yachao Zhang,Yuan Xie,Yanyun Qu

Main category: cs.CV

TL;DR: SeqVLM是一个零样本3D视觉定位框架,通过多视角真实场景图像和空间信息进行目标物体推理,在ScanRefer和Nr3D基准测试中取得了最先进的性能

  • Motivation: 解决现有零样本3D视觉定位方法因依赖单视角定位而导致的空间推理受限、上下文遗漏和细节退化问题
  • Method: 首先通过3D语义分割网络生成3D实例提案并进行语义过滤,然后使用提案引导的多视角投影策略将候选提案投影到真实场景图像序列中,最后通过动态调度机制迭代处理序列查询提示,利用VLM的跨模态推理能力识别文本指定的对象
  • Result: 在ScanRefer和Nr3D基准测试中分别达到55.6%和53.2%的Acc@0.25分数,比之前的零样本方法分别提升了4.0%和5.2%
  • Conclusion: SeqVLM推动了3D视觉定位向更好的泛化能力和实际应用适用性发展

[63] Occlusion Robustness of CLIP for Military Vehicle Classification

Jan Erik van Woerden,Gertjan Burghouts,Lotte Nijskens,Alma M. Liezenga,Sabina van Rooij,Frank Ruis,Hugo J. Kuijf

Main category: cs.CV

TL;DR: CLIP视觉语言模型在军事车辆识别中,Transformer架构比CNN更抗遮挡,分散的小遮挡比大块连续遮挡影响更大,线性探测模型在35%遮挡时性能骤降,而微调主干网络可将性能下降点推迟到60%遮挡。

  • Motivation: 探索CLIP模型在军事环境中面对遮挡和噪声的鲁棒性,特别是在零样本分类场景下,为国防应用中稀缺标注数据的问题提供解决方案。
  • Method: 使用包含18类军事车辆的自定义数据集,通过不同遮挡百分比评估CLIP变体的性能,采用归一化曲线下面积(NAUC)作为评估指标,比较Transformer和CNN架构,分析遮挡模式的影响。
  • Result: Transformer-based CLIP模型表现优于CNN;细粒度分散遮挡比大块连续遮挡对性能影响更大;线性探测模型在约35%遮挡时性能急剧下降;微调主干网络可将性能下降点延后至60%以上遮挡。
  • Conclusion: 需要在训练中加入遮挡特定的数据增强,并进一步研究补丁级敏感性和架构韧性,以提高CLIP在真实军事部署中的鲁棒性。

[64] SKGE-SWIN: End-To-End Autonomous Vehicle Waypoint Prediction and Navigation Using Skip Stage Swin Transformer

Fachri Najm Noer Kartiman,Rasim,Yaya Wihardi,Nurul Hasanah,Oskar Natan,Bambang Wahono,Taufik Ibnu Salim

Main category: cs.CV

TL;DR: 提出SKGE-Swin架构,使用Swin Transformer和跳跃连接机制实现端到端自动驾驶,在CARLA平台上表现优于现有方法

  • Motivation: 开发具有像素级上下文感知能力的端到端自动驾驶模型,提升对复杂环境模式的理解能力
  • Method: 采用Swin Transformer结合跳跃阶段机制,利用SW-MSA机制提取远距离像素信息,保持特征提取全过程的关键信息
  • Result: 在CARLA平台的对抗场景测试中,SKGE-Swin架构获得了更高的驾驶评分
  • Conclusion: 该架构通过全局和多层次特征表示,有效提升了自动驾驶模型的性能,消融研究将验证各组件贡献

[65] Looking Beyond the Obvious: A Survey on Abstract Concept Recognition for Video Understanding

Gowreesh Mago,Pascal Mettes,Stevan Rudinac

Main category: cs.CV

TL;DR: 这篇论文探讨了视频内容中抽象概念识别的挑战,认为基础模型的发展为解决这一长期开放问题提供了理想条件,并呼吁借鉴数十年社区经验来避免重复造轮子。

  • Motivation: 虽然机器在视频内容的具体实体识别方面取得了显著进展,但在抽象概念(如正义、自由、团结等)理解方面仍落后于人类。抽象概念识别是视频理解中的关键开放挑战,需要基于上下文信息进行多层次的语义推理。
  • Method: 本文是一篇综述性研究,系统研究了用于理解视频中抽象概念的不同任务和数据集,分析了研究人员在不同时期利用可用工具解决这些任务的尝试和方法。
  • Result: 研究发现研究人员长期以来一直在尝试解决抽象概念理解问题,并充分利用了当时可用的工具。基础模型的进展为解决这一挑战提供了新的机遇。
  • Conclusion: 在基础模型时代重新审视抽象概念理解这一重要开放挑战时,借鉴数十年社区经验将有助于避免重复造轮子,推动模型更好地与人类推理和价值观对齐。

[66] Safer Skin Lesion Classification with Global Class Activation Probability Map Evaluation and SafeML

Kuniko Paxton,Koorosh Aslansefat,Amila Akagić,Dhavalkumar Thakker,Yiannis Papadopoulos

Main category: cs.CV

TL;DR: 提出Global Class Activation Probabilistic Map Evaluation方法,通过概率化分析所有类别的激活概率图,结合SafeML技术提高皮肤病变分类的可解释性和诊断可靠性。

  • Motivation: 现有可解释性方法存在可靠性问题,LIME方法不一致,CAM方法未考虑所有类别。医疗实践中对AI模型的不信任需要可信赖、可解释的诊断方法。
  • Method: 提出全局类别激活概率图评估方法,在像素级别概率化分析所有类别的激活概率图,并应用SafeML技术检测误诊并发出警告。使用MobileNetV2和Vision Transformers在ISIC数据集上进行评估。
  • Result: 方法能够统一可视化诊断过程,帮助降低误诊风险,提高诊断可靠性。
  • Conclusion: 该方法通过改进可解释性和误诊检测,最终提升了患者安全性,为解决医疗AI信任问题提供了有效方案。

[67] Evaluating Compositional Generalisation in VLMs and Diffusion Models

Beth Pearson,Bilal Boulbarss,Michael Wray,Martha Lewis

Main category: cs.CV

TL;DR: 本文比较了扩散分类器、CLIP和ViLT在组合泛化能力上的表现,发现扩散分类器和ViLT在概念绑定任务中表现良好,但所有模型在关系推理任务中都存在困难。

  • Motivation: 自然语言语义的一个基本方面是能够从已知部分组合出新含义。虽然视觉语言模型(VLMs)取得了显著进展,但有证据表明它们无法进行这种组合推理,比如CLIP在处理属性-对象组合时容易出现错误分类。
  • Method: 评估三种模型(扩散分类器、CLIP和ViLT)在零样本学习(ZSL)和广义零样本学习(GZSL)设置下绑定对象与属性和关系的能力。分析CLIP嵌入以探究关系概念表示的问题。
  • Result: 扩散分类器和ViLT在概念绑定任务中表现良好,但所有模型在关系GZSL任务中都显著困难。CLIP嵌入分析表明,困难可能源于关系概念(如左右)的表示过于相似。
  • Conclusion: 扩散分类器在某些组合任务中表现出改进的能力,但视觉语言模型在关系推理方面仍面临重大挑战,需要更好的关系概念表示方法。

[68] Surfel-based 3D Registration with Equivariant SE(3) Features

Xueyang Kang,Hang Zhao,Kourosh Khoshelham,Patrick Vandewalle

Main category: cs.CV

TL;DR: 提出了一种基于surfel的姿态学习回归方法,通过SE(3)等变卷积核学习位置和旋转的显式等变特征,用于点云配准,在室内外数据集上表现出优越性能

  • Motivation: 现有点云配准方法忽略点方向和点不确定性,对噪声输入和激进旋转敏感,需要大量变换增强的训练数据
  • Method: 使用虚拟透视相机参数从Lidar点云初始化surfel,通过SE(3)等变卷积核学习位置和旋转的显式等变特征,包含等变卷积编码器、交叉注意力机制、全连接解码器和非线性Huber损失
  • Result: 在室内外数据集上的实验结果表明,相比最先进方法,该模型在真实点云扫描上具有优越性和鲁棒性能
  • Conclusion: 提出的surfel-based pose learning regression方法能够有效解决点云配准中的方向不确定性和噪声敏感问题,实现了更好的配准效果

[69] Adapting Foundation Model for Dental Caries Detection with Dual-View Co-Training

Tao Luo,Han Wu,Tong Yang,Dinggang Shen,Zhiming Cui

Main category: cs.CV

TL;DR: DVCTNet是一个基于双视图协同训练的网络,通过结合全景X射线图像的全局视图和裁剪牙齿图像的局部视图,使用门控跨视图注意力模块动态融合特征,显著提高了牙科龋齿检测的准确性。

  • Motivation: 当前牙科龋齿检测方法由于对比度变化细微和病变形态多样,检测精度不理想。受牙医临床工作流程启发,需要结合整体图像筛查和详细牙齿级检查来提高检测准确性。
  • Method: 使用自动牙齿检测建立全局和局部两个互补视图,分别预训练两个视觉基础模型。全局视图模型作为检测骨干生成区域建议,局部视图模型提取详细特征。通过门控跨视图注意力模块动态融合双视图特征,并将融合特征整合回检测模型进行最终检测。
  • Result: 在公共数据集和新构建的高精度数据集上,DVCTNet都表现出优于现有最先进方法的性能,证明了其临床适用性。
  • Conclusion: DVCTNet通过双视图协同训练和动态特征融合,有效提高了牙科龋齿检测的准确性,为临床诊断提供了可靠的工具。

[70] FusionCounting: Robust visible-infrared image fusion guided by crowd counting via multi-task learning

He Li,Xinyu Liu,Weihang Kong,Xingchen Zhang

Main category: cs.CV

TL;DR: 提出了FusionCounting框架,将人群计数与可见光-红外图像融合结合,通过多任务学习和动态损失权重策略,在提升图像融合质量的同时实现更优的人群计数性能。

  • Motivation: 现有VIF方法主要关注图像质量优化,语义分割需要大量标注,目标检测在拥挤场景存在边界框重叠和遮挡问题。RGB-T人群计数虽受关注但未与VIF整合,需要一种标注成本低且适合密集场景的语义指导方法。
  • Method: 提出多任务学习框架FusionCounting,将人群计数融入VIF过程。采用动态损失函数权重策略平衡任务贡献,加入对抗训练增强模型鲁棒性。利用输入图像和人群密度信息进行互惠多任务设计。
  • Result: 在公开数据集上的实验表明,FusionCounting不仅提升了图像融合质量,还实现了更优越的人群计数性能。
  • Conclusion: 将人群计数整合到VIF框架中是有效的,动态损失权重和对抗训练策略能加速收敛并增强模型稳定性,为密集场景下的多模态图像处理提供了新思路。

[71] Estimating 2D Keypoints of Surgical Tools Using Vision-Language Models with Low-Rank Adaptation

Krit Duangprom,Tryphon Lambrou,Binod Bhattarai

Main category: cs.CV

TL;DR: 基于LoRA微调的视觉语言模型用于手术工具2D关键点估计,在小规模医疗数据集上表现优于传统CNN和Transformer方法

  • Motivation: 传统CNN和Transformer方法在小规模医疗数据集上容易过拟合,需要利用预训练视觉语言模型的泛化能力来解决这个问题
  • Method: 使用低秩调整(LoRA)技术微调视觉语言模型,精心设计提示词创建指令调优数据集,将视觉特征与语义关键点描述对齐
  • Result: 仅需两个epoch的微调,适应后的VLM就超越了基线模型,证明了LoRA在低资源场景下的有效性
  • Conclusion: 该方法不仅提高了关键点检测性能,还为未来3D手术手和工具姿态估计工作铺平了道路

[72] PointDGRWKV: Generalizing RWKV-like Architecture to Unseen Domains for Point Cloud Classification

Hao Yang,Qianyu Zhou,Haijia Sun,Xiangtai Li,Xuequan Lu,Lizhuang Ma,Shuicheng Yan

Main category: cs.CV

TL;DR: 这是首个将RWKV架构应用于点云分类领域通用化的研究,提出PointDGRWKV框架解决了原生RWKV在点云数据上的空间扭曲和跨领域关注偏移问题,在保持线性复杂度的同时实现了最优性能。

  • Motivation: 现有的点云分类领域通用化方法存在感矩野局限、计算成本高或长程依赖模型不足等问题,而RWKV架构具有线性复杂度、全局感矩野和长程依赖优势,但直接应用于点云数据时遇到空间扭曲和跨领域关注偏移挑战。
  • Method: 提出PointDGRWKV框架,包含两个核心模块:1)适应性几何标记移位(Adaptive Geometric Token Shift)模块,用于模型局部邻域结构提升几何上下文感矩能力;2)跨领域关键特征分布对齐(Cross-Domain key feature Distribution Alignment)模块,通过对齐不同领域的关键特征分布来减轻关注偏移。
  • Result: 在多个标准数据集上进行了涉广实验,结果表明PointDGRWKV在点云分类领域通用化任务上达到了最先进的性能水平。
  • Conclusion: 该研究成功将RWKV架构扩展到点云数据领域通用化任务,解决了原生方法的空间扭曲和跨领域关注问题,在保持线性计算复杂度的同时实现了优异的通用性能力。

[73] PathMR: Multimodal Visual Reasoning for Interpretable Pathology Diagnosis

Ye Zhang,Yu Zhou,Jingwen Qi,Yongbing Zhang,Simon Puettmann,Finn Wichmann,Larissa Pereira Ferreira,Lara Sichward,Julius Keyl,Sylvia Hartmann,Shuo Zhao,Hongxiao Wang,Xiaowei Xu,Jianxu Chen

Main category: cs.CV

TL;DR: PathMR是一个细胞级多模态视觉推理框架,用于病理图像分析,能够生成专家级诊断解释并预测细胞分布模式,在文本生成质量、分割准确性和跨模态对齐方面优于现有方法。

  • Motivation: 解决深度学习病理诊断中模型决策不透明和缺乏可追溯理由的问题,提供透明可解释的AI辅助病理诊断。
  • Method: 提出PathMR框架,基于多模态视觉推理架构,给定病理图像和文本查询,同时生成诊断解释和细胞分布预测。
  • Result: 在两个数据集上的实验表明,PathMR在文本生成质量、分割准确性和跨模态对齐方面一致优于最先进的视觉推理方法。
  • Conclusion: PathMR具有提高AI驱动病理诊断可解释性的潜力,代码将公开可用。

[74] Deep Learning Framework for Early Detection of Pancreatic Cancer Using Multi-Modal Medical Imaging Analysis

Dennis Slobodzian,Karissa Tilbury,Amir Kordijazi

Main category: cs.CV

TL;DR: 开发了一个基于双模态成像(自发荧光和二次谐波生成)的深度学习框架,用于早期胰腺导管腺癌检测,在40个患者样本上实现了超过90%的准确率

  • Motivation: 胰腺导管腺癌(PDAC)是致死率最高的癌症之一,五年生存率低于10%,主要原因是晚期检测。需要开发早期检测方法来改善患者预后
  • Method: 使用六种不同的深度学习架构(包括传统CNN和现代Vision Transformers),通过修改的ResNet架构,采用冻结预训练层和类别加权训练来处理数据集大小有限和类别不平衡问题
  • Result: 最终优化的框架在癌症检测方面实现了超过90%的准确率,显著优于当前的手动分析方法
  • Conclusion: 这项工作建立了一个强大的自动化PDAC检测流程,可以增强病理学家的能力,并为未来扩展到其他癌症类型提供了基础,同时为在有限大小的医学影像数据集上应用深度学习提供了宝贵见解

[75] Understanding and evaluating computer vision models through the lens of counterfactuals

Pushkar Shukla

Main category: cs.CV

TL;DR: 该论文开发了基于反事实推理的框架,用于解释、审计和减轻视觉分类器和生成模型中的偏见。通过系统性地改变语义属性,这些方法揭示了虚假相关性,探索了因果依赖关系,并帮助构建更鲁棒的系统。

  • Motivation: 反事实推理已成为可解释和公平AI的核心方法。论文旨在利用反事实来应对计算机视觉和生成模型中存在的偏见问题,为构建更负责任的人工智能系统提供理论基础和实践方法。
  • Method: 论文分为两部分:1) 针对视觉分类器:CAVLI结合归因分析和概念级分析来量化决策对可解释概念的依赖;ASAC通过对抗性反事实扰动受保护属性来改善公平性。2) 针对生成模型:TIBET提供可扩展的提示敏感偏见评估流程;BiasConnect构建因果图诊断交叉偏见;InterMit提供无需训练的模块化算法来减轻交叉偏见。
  • Result: 开发了一系列基于反事实推理的方法框架,能够有效识别和量化模型中的偏见依赖关系,通过课程学习和对抗训练等技术改善了模型的公平性和准确性,同时避免了刻板印象的生成。
  • Conclusion: 反事实推理为判别性和生成性模型中的可解释性、公平性和因果性提供了一个统一的视角,建立了原则性、可扩展的方法来进行社会负责任的偏见评估和缓解。

[76] To New Beginnings: A Survey of Unified Perception in Autonomous Vehicle Software

Loïc Stratil,Felix Fent,Esteban Rivera,Markus Lienkamp

Main category: cs.CV

TL;DR: 本文对自动驾驶统一感知范式进行了系统性综述,提出了首个全面的分类框架,将方法按任务整合、跟踪公式化和表示流进行分类,定义了早期、晚期和完全统一感知三种范式。

  • Motivation: 传统模块化感知管道存在误差累积和任务间协同有限的问题,统一感知范式通过整合检测、跟踪和预测子任务,有望提高鲁棒性、上下文推理能力和效率,同时保持可解释输出。
  • Method: 提出了整体系统性的分类法,从任务整合、跟踪公式化和表示流三个维度对方法进行分类,定义了三种统一感知范式,并系统回顾了现有方法的架构、训练策略、数据集和开源可用性。
  • Result: 建立了首个理解和发展统一感知的全面框架,整合了碎片化的研究努力,为未来研究提供了系统指导。
  • Conclusion: 统一感知是自动驾驶感知的重要发展方向,该综述为构建更鲁棒、可泛化和可解释的感知系统提供了理论基础和研究路线图,指明了未来研究方向。

[77] Dino U-Net: Exploiting High-Fidelity Dense Features from Foundation Models for Medical Image Segmentation

Yifan Gao,Haoyue Li,Feng Yuan,Xiaosong Wang,Xin Gao

Main category: cs.CV

TL;DR: Dino U-Net是一个基于DINOv3基础模型的编码器-解码器架构,通过专门的适配器和保真度感知投影模块,有效利用预训练特征进行医学图像分割,在多个数据集上达到最先进性能。

  • Motivation: 大型自然图像数据集预训练的基础模型为医学图像分割提供了强大范式,但如何有效迁移其学习表示以用于精确的临床应用仍然是一个挑战。
  • Method: 提出Dino U-Net架构:使用冻结的DINOv3骨干网络作为编码器,通过专门适配器融合语义特征和空间细节,设计保真度感知投影模块(FAPM)在降维过程中保持特征质量。
  • Result: 在7个不同的公共医学图像分割数据集上进行广泛实验,Dino U-Net实现了最先进的性能,在各种成像模态上始终优于先前方法,且随着骨干模型规模增大(最高达70亿参数),分割精度持续提升。
  • Conclusion: 利用通用基础模型的优质密集预训练特征,为提升医学图像分割精度提供了高效且参数有效的方法,证明了该框架的高度可扩展性。

[78] Classifying Mitotic Figures in the MIDOG25 Challenge with Deep Ensemble Learning and Rule Based Refinement

Sara Krauss,Ellena Spieß,Daniel Hieber,Frank Kramer,Johannes Schobel,Dominik Müller

Main category: cs.CV

TL;DR: 使用ConvNeXtBase模型集成和基于规则的细化模块进行非典型有丝分裂象分类,在MIDOG25测试集上达到84.02%的平衡准确率

  • Motivation: 有丝分裂象是肿瘤分级的重要生物标志物,但区分非典型有丝分裂象与正常有丝分裂象困难,人工标注耗时且主观
  • Method: 采用AUCMEDI框架训练ConvNeXtBase模型集成,并添加基于规则的细化模块
  • Result: 集成模型在MIDOG25测试集上平衡准确率84.02%,规则细化模块提高了特异性但降低了敏感性和整体性能
  • Conclusion: 深度集成模型在非典型有丝分裂象分类中表现良好,基于规则的细化方法可提升特定指标但需要进一步研究

[79] COMETH: Convex Optimization for Multiview Estimation and Tracking of Humans

Enrico Martini,Ho Jin Choi,Nadia Figueroa,Nicola Bombieri

Main category: cs.CV

TL;DR: COMETH是一个轻量级的多视角人体姿态融合算法,通过凸优化和状态观测器解决边缘计算中的时空一致性问题,在工业5.0场景中实现高精度实时人体运动追踪。

  • Motivation: 工业5.0时代需要实时监控人体活动以确保工效安全和健康,但多摄像头集中式系统计算成本高、带宽需求大,而边缘设备分布式处理又存在精度下降和时空不一致的问题。
  • Method: 提出COMETH算法,整合运动学和生物力学约束提高关节定位精度,采用基于凸优化的逆运动学进行空间融合,并实现状态观测器改善时间一致性。
  • Result: 在公共和工业数据集上评估,COMETH在定位、检测和追踪精度方面均优于现有最先进方法。
  • Conclusion: 该融合管道实现了准确且可扩展的人体运动追踪,特别适合工业和安全关键应用,代码已开源。

[80] Olive Tree Satellite Image Segmentation Based On SAM and Multi-Phase Refinement

Amir Jmal,Chaima Chtourou,Mahdi Louati,Abdelaziz Kallel,Houda Khmila

Main category: cs.CV

TL;DR: 本文提出了一种基于Segment Anything Model (SAM)的橄榄树分割方法,通过整合树木排列和形状大小约束,将分割准确率从82%提升至98%。

  • Motivation: 在气候变化背景下,利用遥感技术早期检测异常并保护橄榄树生物多样性至关重要,需要有效的管理解决方案。
  • Method: 结合基础模型和先进分割技术,集成SAM模型进行橄榄树分割,包括基于田间树木排列的校正和可学习的形状大小约束。
  • Result: 方法达到了98%的准确率,显著超越了SAM初始82%的性能表现。
  • Conclusion: 该方法为农业遥感中的橄榄树精准分割提供了有效解决方案,在生物多样性保护方面具有重要应用价值。

[81] E-ConvNeXt: A Lightweight and Efficient ConvNeXt Variant with Cross-Stage Partial Connections

Fang Wang,Huitao Li,Wenhan Chao,Zheng Zhuo,Yiran Ji,Chang Peng,Yupeng Sun

Main category: cs.CV

TL;DR: 该论文提出了E-ConvNeXt网络,通过集成CSP机制和优化设计,显著降低了ConvNeXt的参数规模和复杂度,同时保持高精度性能。

  • Motivation: 许多高性能网络在设计时未考虑轻量级应用场景,限制了其应用范围。需要开发在保持高精度的同时降低复杂度的网络架构。
  • Method: 1) 将CSPNet与ConvNeXt集成并调整网络结构,降低80%复杂度;2) 优化Stem和Block结构增强特征表达和运算效率;3) 用通道注意力替换Layer Scale。
  • Result: 在ImageNet分类上验证:E-ConvNeXt-mini在0.9GFLOPs下达到78.3% Top-1准确率;E-ConvNeXt-small在3.1GFLOPs下达到81.9% Top-1准确率。目标检测迁移学习验证了泛化能力。
  • Conclusion: E-ConvNeXt在准确率和效率之间取得了优异平衡,为轻量级应用场景提供了高性能解决方案,具有很好的泛化能力。

[82] DrivingGaussian++: Towards Realistic Reconstruction and Editable Simulation for Surrounding Dynamic Driving Scenes

Yajiao Xiong,Xiaoyu Zhou,Yongtao Wan,Deqing Sun,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: DrivingGaussian++是一个高效的自动驾驶场景重建与编辑框架,使用3D高斯和动态高斯图技术,结合LiDAR先验,实现动态场景的逼真重建和可控编辑。

  • Motivation: 现有的自动驾驶场景重建方法在动态对象处理和场景编辑方面存在不足,需要一种能够准确重建动态场景并支持可控编辑的解决方案。
  • Method: 使用增量3D高斯建模静态背景,复合动态高斯图重建运动对象,集成LiDAR先验确保细节一致性,结合大语言模型生成动态轨迹。
  • Result: 在动态场景重建和环绕视图合成方面优于现有方法,支持无训练的可控编辑(纹理修改、天气模拟、物体操控),生成逼真的多视角驾驶场景。
  • Conclusion: DrivingGaussian++提供了一个高效且有效的框架,能够实现自动驾驶场景的逼真重建和多样化编辑,显著提升了场景多样性和真实感。

[83] Webly-Supervised Image Manipulation Localization via Category-Aware Auto-Annotation

Chenfan Qu,Yiwu Zhong,Bin Li,Lianwen Jin

Main category: cs.CV

TL;DR: 本文提出了一种利用网络数据解决图像操纵定位任务中数据稀缺问题的新方法,构建了大规模高质量数据集MIMLv2,并开发了Web-IML模型,在多个测试集上达到了突破性的性能提升。

  • Motivation: 图像操纵会对社会安全造成风险,但准确定位操纵区域面临数据获取成本高和缺乏高质量标注数据集的挑战。
  • Method: 提出CAAAv2方法自动生成像素级标注,使用QES指标筛选可靠标注,构建MIMLv2数据集,并提出Object Jitter技术增强模型训练。最后开发Web-IML模型利用网络规模监督。
  • Result: 构建了包含246,212张手工伪造图像的MIMLv2数据集,比IMD20大120倍。Web-IML模型在真实伪造测试集上达到31%性能提升,超过之前SOTA模型TruFor 24.1个平均IoU点。
  • Conclusion: 该研究通过利用网络数据有效解决了图像操纵定位任务的数据稀缺问题,构建的大规模高质量数据集和新模型在多个测试集上取得了显著成效。

[84] ExpertSim: Fast Particle Detector Simulation Using Mixture-of-Generative-Experts

Patryk Będkowski,Jan Dubiński,Filip Szatkowski,Kamil Deja,Przemysław Rokita,Tomasz Trzciński

Main category: cs.CV

TL;DR: ExpertSim是一种针对ALICE实验零度量热器的深度学习模拟方法,采用生成专家混合架构,相比传统蒙特卡洛方法在精度和效率上都有显著提升。

  • Motivation: 传统蒙特卡洛模拟方法计算成本高昂,对CERN计算网格造成巨大压力,且数据分布变化大,标准生成方法难以准确捕捉。
  • Method: 使用生成专家混合架构,每个专家专门模拟数据的不同子集,针对量热器响应的特定方面进行精确建模。
  • Result: 方法不仅提高了模拟精度,相比传统蒙特卡洛方法还实现了显著的速度提升。
  • Conclusion: ExpertSim为CERN粒子物理实验中的高效探测器模拟提供了有前景的解决方案。

[85] ChainReaction! Structured Approach with Causal Chains as Intermediate Representations for Improved and Explainable Causal Video Question Answering

Paritosh Parmar,Eric Peh,Basura Fernando

Main category: cs.CV

TL;DR: 这篇论文提出了一种模块化的视频因果问答框架,通过解耦因果推理和答案生成,使用自然语言因果链作为可解释的中间表征,显著提升了性能和可解释性。

  • Motivation: 现有的视频因果问答模型存在高阶推理能力不足、管道不透明、依赖浅层策略等问题,需要提高模型的可解释性和逻辑一致性。
  • Method: 提出两阶段模块化架构:因果链提取器(CCE)从视频-问题对中生成因果链,因果链驱动的答案生成器(CCDA)基于这些链来生成答案。使用大语言模型生成高质量因果链标注。
  • Result: 在三个大规模测试集上表现超过最新模型,在可解释性、用户信任和通用性方面都有显著提升,CCE可作为可重用的因果推理引擎。
  • Conclusion: 该模块化框架通过明确的因果链表征,有效解决了视频因果问答中的高阶推理挑战,为构建更可信、可解释的AI系统提供了新方向。

[86] POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models

Jiaxiang Cheng,Bing Ma,Xuhua Ren,Hongyi Jin,Kai Yu,Peng Zhang,Wenyue Li,Yuan Zhou,Tianxiang Zheng,Qinglin Lu

Main category: cs.CV

TL;DR: POSE是一个单步蒸馏框架,通过两阶段过程(稳定性预热和统一对抗均衡)来加速大规模视频扩散模型的采样,实现单步生成高质量视频,将延迟从1000秒降低到10秒。

  • Motivation: 视频扩散生成领域在采样效率方面存在瓶颈,现有图像加速方法无法建模视频帧的时间连贯性,也无法为大规模视频模型提供单步蒸馏。
  • Method: 采用两阶段蒸馏过程:1)稳定性预热机制稳定对抗蒸馏,优化单步映射的视频质量;2)统一对抗均衡机制在高斯噪声空间中进行稳定的单步对抗训练;3)条件对抗一致性方法提高条件帧与生成帧之间的语义和帧一致性。
  • Result: 在VBench-I2V上平均提升7.15%的语义对齐、时间连贯性和帧质量,将预训练模型的延迟降低100倍(从1000秒到10秒),同时保持竞争性性能。
  • Conclusion: POSE框架成功解决了视频扩散模型采样效率低的问题,实现了单步高质量视频生成,为大规模视频模型的实时应用提供了可行方案。

[87] Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

Dale Decatur,Thibault Groueix,Wang Yifan,Rana Hanocka,Vladimir Kim,Matheus Gadelha

Main category: cs.CV

TL;DR: 该方法通过在早期渐变步骤中共享计算来减少相似提示间的重复计算,在保持图像质量的同时显著降低计算成本。

  • Motivation: 文本到图像渐变模型计算成本高,但相关提示间存在重复计算,需要一种无需训练的方法来减少这种浪费。
  • Method: 基于语义相似性对提示进行聚类,在早期渐变步骤中共享计算,利用UnClip的文本到图像先验知识来优化渐变步骤分配。
  • Result: 对于基于图像嵌入训练的模型,该方法显著降低了计算成本同时提高了图像质量,并能够无缝集成到现有流程中。
  • Conclusion: 该方法通过减少相关提示间的计算重复,有效降低了大规模文本到图像生成的环境和财务负担,具有良好的可扩展性。

[88] Mitosis detection in domain shift scenarios: a Mamba-based approach

Gennaro Percannella,Mattia Sarno,Francesco Tortorella,Mario Vento

Main category: cs.CV

TL;DR: 提出基于Mamba架构的VM-UNet方法,结合染色增强技术,用于解决组织病理学图像中跨域有丝分裂检测的性能下降问题。

  • Motivation: 组织病理学图像中的有丝分裂检测对肿瘤评估至关重要,但机器学习算法在面对与训练域不同的图像时会出现显著性能下降,需要解决域偏移问题。
  • Method: 采用Mamba架构的VM-UNet网络,结合染色增强操作来提高模型对域偏移的鲁棒性。该方法参加了MIDOG挑战赛的第一赛道。
  • Result: 在MIDOG++数据集上的初步实验表明,所提出的方法仍有很大的改进空间。
  • Conclusion: 基于Mamba的VM-UNet架构结合染色增强技术是解决有丝分裂检测域偏移问题的有前景的方法,但需要进一步优化和改进。

[89] A multi-task neural network for atypical mitosis recognition under domain shift

Gennaro Percannella,Mattia Sarno,Francesco Tortorella,Mario Vento

Main category: cs.CV

TL;DR: 通过多任务学习方法,利用辅助任务帮助模型关注分类对象而忽略图像背景,提高坏胃细胞分裂图识别的领域逆向性能力

  • Motivation: 识别坏胃细胞分裂图对评估肿瘤恶性度至关重要,但机器学习模型在领域假移情况下性能伞然下降
  • Method: 提出基于多任务学习的方法,通过利用与主分类任务相关的辅助任务,帮助模型专注于分类对象而忽略图像背景的领域变化
  • Result: 在MIDOG 2025坏胃细胞分裂图训练集、Ami-Br数据集以及MIDOG25挑战赛预测试集上进行了初步评估,显示出有望的性能表现
  • Conclusion: 该多任务学习方法能够有效提高坏胃细胞分裂图识别模型的领域逆向性能力,为医疗图像分析领域的领域逆向问题提供了有效解决方案

[90] FW-GAN: Frequency-Driven Handwriting Synthesis with Wave-Modulated MLP Generator

Huynh Tong Dang Khoa,Dang Hoai Nam,Vo Nguyen Le Duy

Main category: cs.CV

TL;DR: FW-GAN是一个基于频率感知的单样本手写合成框架,通过Wave-MLP和频率引导判别器生成高质量、风格一致的手写文本,解决了传统方法在长距离依赖和频率信息建模方面的局限性。

  • Motivation: 标记手写数据稀缺限制了识别系统的效果,现有合成方法存在两个主要问题:传统卷积架构难以建模长距离依赖和复杂笔画模式,以及忽视频率信息在捕捉精细风格细节中的关键作用。
  • Method: 提出FW-GAN框架,包含相位感知Wave-MLP生成器来捕捉空间关系并保留风格线索,频率引导判别器利用高频成分增强真实性检测,以及新颖的频率分布损失来对齐合成与真实手写的频率特征。
  • Result: 在越南语和英语手写数据集上的实验表明,FW-GAN能生成高质量、风格一致的手写文本,有效增强低资源手写识别流程的数据。
  • Conclusion: FW-GAN通过频率感知方法显著提升了手写合成的真实性和风格一致性,为低资源手写识别提供了有价值的数据增强工具。

[91] MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs

Junpeng Ma,Qizhe Zhang,Ming Lu,Zhibin Wang,Qiang Zhou,Jun Song,Shanghang Zhang

Main category: cs.CV

TL;DR: MMG-Vid是一个无需训练的视频token剪枝框架,通过最大化边际增益在段级和token级去除冗余,能在保持99.5%性能的同时减少75%视觉token,加速预填充阶段3.9倍

  • Motivation: 视频大语言模型的过多视觉token带来了计算挑战,现有方法未考虑视频的动态特性和时间依赖性
  • Method: 提出两阶段方法:1)基于帧相似性分段并动态分配token预算;2)使用时序引导的DPC算法联合建模帧间唯一性和帧内多样性
  • Result: 在LLaVA-OneVision-7B上保持99.5%原始性能,减少75%视觉token,预填充阶段加速3.9倍
  • Conclusion: MMG-Vid能最大化有限token预算的利用率,显著提高效率同时保持强性能

[92] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

Wei Li,Renshan Zhang,Rui Shao,Jie He,Liqiang Nie

Main category: cs.CV

TL;DR: CogVLA是一个认知对齐的视觉-语言-动作框架,通过指令驱动的路由和稀疏化技术,在提高效率的同时提升性能,相比OpenVLA减少2.5倍训练成本和2.8倍推理延迟。

  • Motivation: 现有的视觉-语言-动作模型需要大量后训练,计算开销大,限制了可扩展性和部署。受人类多模态协调启发,需要更高效且性能更好的框架。
  • Method: 采用3阶段渐进架构:1) EFA-Routing在视觉编码器中注入指令信息选择性聚合视觉token;2) LFP-Routing在语言模型中引入动作意图并剪枝无关token;3) V-L-A耦合注意力结合因果视觉语言注意力和双向动作并行解码。
  • Result: 在LIBERO基准测试和真实机器人任务中分别达到97.4%和70.0%的成功率,实现最先进性能,同时大幅降低计算成本。
  • Conclusion: CogVLA通过认知对齐的架构设计,在保持高性能的同时显著提升了效率,为视觉-语言-动作模型的实际部署提供了可行解决方案。

[93] Veritas: Generalizable Deepfake Detection via Pattern-Aware Reasoning

Hao Tan,Jun Lan,Zichang Tan,Ajian Liu,Chuanbiao Song,Senyuan Shi,Huijia Zhu,Weiqiang Wang,Jun Wan,Zhen Lei

Main category: cs.CV

TL;DR: 提出了HydraFake数据集和Veritas检测器,通过分层泛化测试和多模态大语言模型的模式感知推理来解决深度伪造检测在现实场景中的泛化问题。

  • Motivation: 现有学术基准与工业实践存在严重差异,训练源同质化且测试图像质量低,阻碍了检测器的实际部署。需要模拟现实世界挑战的数据集和检测方法。
  • Method: 1) 构建HydraFake数据集,包含多样化深度伪造技术和野外伪造内容;2) 提出Veritas多模态大语言模型检测器,采用模式感知推理(规划和自我反思)模拟人类取证过程;3) 两阶段训练管道将深度伪造推理能力内化到MLLM中。
  • Result: 实验表明先前检测器在跨模型场景中泛化良好,但在未见伪造技术和数据域上表现不足。Veritas在不同OOD场景中取得显著提升,能够提供透明可信的检测输出。
  • Conclusion: HydraFake数据集和Veritas检测器有效解决了深度伪造检测的现实泛化挑战,通过分层测试和模式感知推理提升了检测器在未知场景中的性能。

[94] FakeParts: a New Family of AI-Generated DeepFakes

Gaetan Brison,Soobash Daiboo,Samy Aimeur,Awais Hussain Sani,Xi Wang,Gianni Franchi,Vicky Kalogeiton

Main category: cs.CV

TL;DR: FakeParts是一种新型深度伪造技术,通过局部区域或时间段的微妙修改来制造部分伪造视频,比传统深度伪造更具欺骗性。研究提出了首个大规模基准数据集FakePartsBench,包含2.5万+视频,并显示这种技术使人类和AI检测准确率下降30%以上。

  • Motivation: 当前深度伪造检测主要针对完全合成的内容,但现实中存在大量局部修改的部分伪造视频,这些内容更难检测且更具欺骗性,现有检测方法对此存在严重漏洞。
  • Method: 提出了FakeParts部分深度伪造技术,创建了FakePartsBench基准数据集(包含超过25,000个视频,带有像素级和帧级操作标注),通过用户研究和现有检测模型评估其欺骗性。
  • Result: FakeParts部分伪造视频使人类检测准确率相比传统深度伪造下降超过30%,最先进的检测模型也出现类似的性能下降,证明了当前检测方法的严重漏洞。
  • Conclusion: 这项工作揭示了当前深度伪造检测方法对部分视频操作的脆弱性,提供了必要的资源和基准来开发更强大的检测方法应对这种新型威胁。

[95] Multi-View 3D Point Tracking

Frano Rajič,Haofei Xu,Marko Mihajlovic,Siyuan Li,Irem Demir,Emircan Gündoğdu,Lei Ke,Sergey Prokudin,Marc Pollefeys,Siyu Tang

Main category: cs.CV

TL;DR: 首个数据驱动的多视角3D点踪踪器,使用4个摄像头就能在动态场景中进行精确踪踪,免去了传统方法需要20+摄像头的问题

  • Motivation: 解决单目踪踪器深度歧义和遮挡问题,以及传统多摄像头方法需要大量设备和每序列优化的问题
  • Method: 使用已知摄像机姿势和深度信息,融合多视角特征到统一点云,采用k近邻相关性和转换器基础的更新机制来预测3D对应关系
  • Result: 在Panoptic Studio和DexYCB两个真实数据集上分别达到了3.1cm和2.0cm的中位数轨迹误差,能够适应1-8个摄像头的各种配置
  • Conclusion: 该方法为多视角3D踪踪领域设立了新标准,提供了一个实用的工具,并开源了训练和评估数据集

[96] OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

Yuan Gong,Xionghui Wang,Jie Wu,Shiyin Wang,Yitong Wang,Xinglong Wu

Main category: cs.CV

TL;DR: OneReward是一个统一的强化学习框架,使用单一奖励模型提升多任务生成能力,在图像编辑任务中超越了商业和开源竞品。

  • Motivation: 现有的多任务生成方法通常需要针对特定任务进行监督微调(SFT),这限制了模型的泛化能力和训练效率。不同任务虽然共享相同的条件范式,但在数据分布和评估指标上差异显著。
  • Method: 采用单一视觉语言模型(VLM)作为生成奖励模型,能够区分给定任务和评估标准下的优劣结果。基于OneReward开发了Seedream 3.0 Fill模型,通过多任务强化学习直接在预训练基模型上训练,无需任务特定的SFT。
  • Result: 实验结果表明,统一的编辑模型在多个评估维度上一致优于商业和开源竞争对手,包括Ideogram、Adobe Photoshop和FLUX Fill [Pro]。
  • Conclusion: OneReward框架证明了使用单一奖励模型可以有效提升多任务生成能力,为多任务生成模型提供了一种高效统一的训练方法。

[97] Dress&Dance: Dress up and Dance as You Like It - Technical Preview

Jun-Kun Chen,Aayush Bansal,Minh Phuoc Vo,Yu-Xiong Wang

Main category: cs.CV

TL;DR: Dress&Dance是一个视频扩散框架,能够生成高质量的用户穿着指定服装并按照参考视频动作的虚拟试穿视频,支持多种服装类型和同时试穿上衣下装。

  • Motivation: 现有的虚拟试穿技术主要关注静态图像,缺乏对动态视频中服装试穿的支持。需要开发能够生成高质量试穿视频的系统,同时支持多种服装类型和准确的动作跟随。
  • Method: 提出了CondNet条件网络,利用注意力机制统一多模态输入(文本、图像、视频),通过多阶段渐进式训练结合有限的视频数据和大量图像数据。
  • Result: 能够生成5秒长、24FPS、1152x720分辨率的试穿视频,在服装注册和动作保真度方面优于现有开源和商业解决方案。
  • Conclusion: Dress&Dance提供了一个高质量且灵活的虚拟试穿体验,通过创新的条件网络和多模态训练方法,在视频虚拟试穿领域取得了显著进展。

[98] First-Place Solution to NeurIPS 2024 Invisible Watermark Removal Challenge

Fahad Shamshad,Tameem Bakr,Yahia Shaaban,Noor Hussein,Karthik Nandakumar,Nils Lukas

Main category: cs.CV

TL;DR: 本文提出了针对NeurIPS 2024 Erasing the Invisible挑战的获胜解决方案,展示了在黑白盒两种攻击场景下近乎完美的水印去除效果(95.7%),同时保持图像质量。

  • Motivation: 现有数字水印技术的鲁棒性在对抗攻击下的表现尚不明确,需要通过挑战赛来压力测试水印在各种对手知识水平下的稳健性。
  • Method: 针对beige-box场景使用基于VAE的自适应规避攻击,结合测试时优化和CIELAB空间的颜色对比度恢复;针对black-box场景先基于空间或频域伪影聚类图像,然后应用图像到图像扩散模型,结合受控噪声注入和ChatGPT生成的语义先验。
  • Result: 实证评估显示该方法成功实现了近乎完美的水印去除(95.7%),对剩余图像质量的影响可忽略不计。
  • Conclusion: 这些攻击方法有望启发开发更鲁棒的图像水印技术,推动数字媒体认证和版权保护技术的发展。

q-bio.QM

[99] Prediction of Distant Metastasis for Head and Neck Cancer Patients Using Multi-Modal Tumor and Peritumoral Feature Fusion Network

Zizhao Tang,Changhao Liu,Nuo Tong,Shuiping Gou,Mei Shi

Main category: q-bio.QM

TL;DR: 开发基于深度学习的多模态框架,整合CT图像、放射组学和临床数据来预测头颈鳞癌转移风险,模型性能优于单模态方法

  • Motivation: 头颈鳞癌转移是临床管理的主要挑战,可靠的转移风险预测对优化治疗策略和预后至关重要
  • Method: 使用3D Swin Transformer从CT图像提取深度特征,结合放射组学特征和临床数据,通过全连接网络预测转移风险
  • Result: 多模态融合模型AUC达0.803,准确率0.752,敏感度0.730,特异度0.758,优于单模态模型
  • Conclusion: 该模型展示了高准确性和鲁棒性,可作为临床决策支持工具用于个性化治疗规划

cs.CR

[100] Federated Learning for Large Models in Medical Imaging: A Comprehensive Review

Mengyu Sun,Ziyuan Yang,Yongqiang Huang,Hui Yu,Yingyu Chen,Shuren Qi,Andrew Beng Jin Teoh,Yi Zhang

Main category: cs.CR

TL;DR: 本文综述了联邦学习在医学影像全流程分析中的应用,包括上游重建任务和下游临床诊断任务,解决了医疗数据隐私保护下的模型训练难题。

  • Motivation: 医疗AI发展受限于患者隐私法规和数据共享限制,传统集中式训练面临数据碎片化和隐私保护挑战,需要寻找隐私保护的分布式训练解决方案。
  • Method: 采用联邦学习框架,在多个医疗机构间进行分布式模型训练,不共享原始数据只交换模型参数,包括物理信息重建网络和诊断AI系统的实现方法。
  • Result: 联邦学习能够有效解决医疗数据隐私问题,支持多机构协作训练,提高重建网络鲁棒性,实现模型持续更新,同时保持数据机密性。
  • Conclusion: 联邦学习为医疗影像分析提供了可行的隐私保护解决方案,未来需要进一步研究通信效率优化、异构数据对齐和安全参数聚合等方向。

cs.GR

[101] Mixture of Contexts for Long Video Generation

Shengqu Cai,Ceyuan Yang,Lvmin Zhang,Yuwei Guo,Junfei Xiao,Ziyan Yang,Yinghao Xu,Zhenheng Yang,Alan Yuille,Leonidas Guibas,Maneesh Agrawala,Lu Jiang,Gordon Wetzstein

Main category: cs.GR

TL;DR: 提出了Mixture of Contexts (MoC)稀疏注意力路由模块,通过动态选择信息块和强制锚点来有效解决长视频生成中的长上下文记忆问题,实现近线性扩展和分钟级一致性。

  • Motivation: 长视频生成本质上是长上下文记忆问题,需要模型在长范围内保持和检索显著事件。但扩散变换器的二次自注意力成本使得内存和计算难以处理长序列。
  • Method: 将长上下文视频生成重新构建为内部信息检索任务,提出可学习的稀疏注意力路由模块MoC。每个查询动态选择少量信息块加上强制锚点(标题、局部窗口)进行注意力,采用因果路由防止循环闭合。
  • Result: 随着数据扩展和路由稀疏化,模型将计算分配给显著历史信息,在分钟级内容中保持身份、动作和场景的一致性。实现了近线性扩展效率,支持实用训练和合成。
  • Conclusion: MoC模块作为有效的长期记忆检索引擎,通过信息检索的方式解决了长视频生成中的记忆和一致性挑战,效率提升是检索的副产品,在分钟尺度上实现了记忆和一致性的涌现。

cs.LG

[102] LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty

Christoforos N. Spartalis,Theodoros Semertzidis,Efstratios Gavves,Petros Daras

Main category: cs.LG

TL;DR: LoTUS是一种新颖的机器遗忘方法,通过平滑模型预测概率来消除预训练模型中训练样本的影响,避免从头重新训练,在效率和效果上都优于现有方法。

  • Motivation: 现有的机器遗忘方法需要重新训练模型,这在大型数据集(如ImageNet1k)上不切实际。需要一种能够有效消除训练样本影响而无需重新训练的方法。
  • Method: LoTUS通过平滑模型的预测概率,达到信息理论界限,减轻模型因数据记忆而产生的过度自信。该方法在Transformer和ResNet18模型上进行了验证。
  • Result: 在五个公共数据集上对比八个基线方法,LoTUS在效率和效果方面均优于最先进的方法。特别是在ImageNet1k等大规模数据集上表现优异。
  • Conclusion: LoTUS提供了一种实用的机器遗忘解决方案,无需重新训练即可有效消除训练数据的影响,并引入了RF-JSD指标来支持真实场景下的评估。

[103] The Role of Teacher Calibration in Knowledge Distillation

Suyoung Kim,Seonguk Park,Junhoo Lee,Nojun Kwak

Main category: cs.LG

TL;DR: 研究发现教师模型的校准误差与学生模型精度强相关,提出通过校准教师模型来提升知识蒸馏效果,该方法通用性强且易于集成到现有方法中

  • Motivation: 虽然知识蒸馏在深度学习模型压缩中表现优异,但影响学生模型性能的关键因素尚不明确,需要探索提升蒸馏效果的核心要素
  • Method: 通过分析教师模型校准误差与学生精度的相关性,提出使用校准方法来降低教师模型的校准误差,从而改善知识蒸馏性能
  • Result: 该方法在分类、检测等多种任务中均有效,且能与现有最先进方法轻松集成, consistently 获得更优性能
  • Conclusion: 教师模型的校准是知识蒸馏中的重要因素,通过简单的校准方法即可显著提升蒸馏效果,该方法具有通用性和易用性

[104] Masked Autoencoders for Ultrasound Signals: Robust Representation Learning for Downstream Applications

Immanuel Roßteutscher,Klaus S. Drese,Thorsten Uphues

Main category: cs.LG

TL;DR: 研究探索了MAE-ViT架构在1D超声信号自监督学习中的应用,通过合成数据预训练显著提升下游任务性能,优于从头训练模型和CNN基线

  • Motivation: 超声信号在工业无损检测中至关重要,但标记数据稀缺且信号处理任务特定。MAE在视觉领域成功但1D信号分析尚未充分探索
  • Method: 使用MAE在未标记合成超声信号上进行预训练,系统研究模型大小、补丁大小和掩蔽比例对预训练效率和下游准确性的影响
  • Result: 预训练模型显著优于从头训练模型和优化的CNN基线,在合成数据上预训练相比有限真实数据训练展现出更好的真实信号迁移能力
  • Conclusion: MAE通过可扩展的自监督学习在超声信号分析中具有巨大潜力,为工业应用提供了有效的表示学习方法

[105] Unleashing Uncertainty: Efficient Machine Unlearning for Generative AI

Christoforos N. Spartalis,Theodoros Semertzidis,Petros Daras,Efstratios Gavves

Main category: cs.LG

TL;DR: SAFEMax是一种基于信息论原理的扩散模型机器遗忘方法,通过最大化生成图像的熵,使模型在特定类别条件下生成高斯噪声,并选择性关注早期扩散步骤来平衡遗忘与保留。

  • Motivation: 解决扩散模型中特定类别内容的机器遗忘问题,需要在删除不良内容的同时保持模型对其他内容的生成能力。
  • Method: 基于信息论原理,最大化生成图像的熵,使模型在特定类别条件下生成高斯噪声并停止去噪过程,通过选择性关注早期扩散步骤来控制遗忘与保留的平衡。
  • Result: SAFEMax方法表现出有效性,相比最先进方法具有显著效率提升。
  • Conclusion: SAFEMax为扩散模型提供了一种有效的机器遗忘解决方案,在保持模型性能的同时实现了对特定内容的有效删除。

cs.CL

[106] GUARD: Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics for LLMs

Haibo Jin,Ruoxi Chen,Peiyan Zhang,Andy Zhou,Yang Zhang,Haohan Wang

Main category: cs.CL

TL;DR: GUARD是一个将政府AI伦理指南转化为可操作测试问题的框架,通过自动生成违反指南的问题来评估LLM合规性,并引入越狱诊断来识别潜在安全漏洞。

  • Motivation: 随着大语言模型在各领域的广泛应用,其生成有害内容的风险引发社会关注。政府发布的伦理指南缺乏具体测试方法,需要将高层要求转化为可操作的测试问题。
  • Method: GUARD方法:1) 基于政府指南自动生成违反指南的测试问题;2) 对不直接违反指南的响应,引入GUARD-JD越狱诊断,创建场景诱导不道德响应;3) 生成合规报告,详细说明遵守程度和违规情况。
  • Result: 在7个LLM(Vicuna-13B、LongChat-7B、Llama2-7B、Llama-3-8B、GPT-3.5、GPT-4、GPT-4o、Claude-3.7)上验证有效性,测试了三个政府指南的合规性并进行了越狱诊断。GUARD-JD还可迁移到视觉语言模型。
  • Conclusion: GUARD提供了一种系统化的方法来验证LLM对伦理指南的遵守情况,能够识别直接违规和潜在安全漏洞,有助于促进可靠的LLM应用开发。

cs.NE

[107] Improving Liver Disease Diagnosis with SNNDeep: A Custom Spiking Neural Network Using Diverse Learning Algorithms

Zofia Rudnicka,Janusz Szczepanski,Agnieszka Pregowska

Main category: cs.NE

TL;DR: SNNDeep是首个专门针对肝脏CT图像二分类优化的脉冲神经网络,在医学分割十项全能数据集上验证,自定义模型优于框架实现,最高准确率达98.35%

  • Motivation: 脉冲神经网络(SNN)作为节能且生物可信的深度学习替代方案,在生物医学影像高风险应用领域几乎未被探索,需要开发专门优化的SNN模型
  • Method: 使用Medical Segmentation Decathlon的Task03\Liver数据集,比较三种学习算法(替代梯度学习、Tempotron规则、生物启发主动学习)和三种架构变体(自定义低层模型、snnTorch和SpikingJelly框架实现),采用Optuna进行超参数优化
  • Result: 自定义SNNDeep模型持续优于框架实现,最高验证准确率达到98.35%,具有更好的学习规则适应性和显著降低的训练开销
  • Conclusion: 研究首次证明低层高度可调SNN在医学影像中能超越标准框架,特别是在数据有限、时间受限的诊断场景中,为精准医学开辟了神经启发AI新途径

cs.RO

[108] SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes

Yunpeng Mei,Hongjie Cao,Yinqiu Xia,Wei Xiao,Zhaohan Feng,Gang Wang,Jie Chen

Main category: cs.RO

TL;DR: SPGrasp是一个基于SAMv2的实时动态抓取合成框架,通过整合用户提示和时空上下文,实现59ms的低延迟推理,在多个数据集上达到90%以上的抓取准确率,比现有方法延迟降低58.5%。

  • Motivation: 解决现有动态物体实时交互抓取方法无法同时实现低延迟推理和提示能力的问题,弥合延迟与交互性之间的权衡。
  • Method: 扩展SAMv2模型用于视频流抓取估计,核心创新是将用户提示与时空上下文整合,确保动态物体的时间一致性。
  • Result: 在OCID上达到90.6%实例级抓取准确率,Jacquard上93.8%,GraspNet-1Billion连续跟踪下92.0%准确率,每帧延迟73.1ms,比RoG-SAM降低58.5%。真实世界实验中13个运动物体达到94.8%成功率。
  • Conclusion: SPGrasp有效解决了动态抓取合成中的延迟-交互性权衡问题,实现了实时交互抓取的低延迟高性能解决方案。

[109] ActLoc: Learning to Localize on the Move via Active Viewpoint Selection

Jiajie Li,Boyang Sun,Luca Di Giammarino,Hermann Blum,Marc Pollefeys

Main category: cs.RO

TL;DR: ActLoc是一个主动视角感知规划框架,通过基于注意力机制的模型选择最优视角来提升机器人定位精度,在单视角选择和完整轨迹规划中均达到最先进性能。

  • Motivation: 现有定位系统假设所有视角方向信息量相同,但实际上当机器人观察到未映射、模糊或无信息区域时,定位可靠性会下降,需要主动选择信息丰富的视角。
  • Method: 使用大规模训练的基于注意力的模型进行视角选择,模型编码度量地图和建图时的相机位姿,预测任意3D位置在不同偏航和俯仰方向的定位精度分布,并将这些精度分布整合到路径规划器中。
  • Result: 在单视角选择和完整轨迹规划任务中实现了最先进的性能,能够有效提升定位鲁棒性。
  • Conclusion: ActLoc的模块化设计使其能够广泛应用于各种机器人导航和检测任务,通过主动选择信息丰富的视角显著提高了定位可靠性。

eess.IV

[110] A Machine Learning Approach to Volumetric Computations of Solid Pulmonary Nodules

Yihan Zhou,Haocheng Huang,Yue Yu,Jianhui Shang

Main category: eess.IV

TL;DR: 提出基于多尺度3D CNN和亚型特异性偏差校正的肺结节体积估计框架,相比传统方法误差降低17个百分点,处理速度提升3倍

  • Motivation: 传统肺结节体积估计方法(如CTR和球形近似)因结节形状和密度变化导致估计不一致,需要更精确高效的自动检测方法
  • Method: 结合多尺度3D卷积神经网络和亚型特异性偏差校正的先进框架,在364例临床数据上进行训练和评估
  • Result: 平均绝对偏差8.0%,推理时间低于20秒/扫描,相比现有深度学习和半自动化方法(误差25-30%,处理时间60+秒)有显著提升
  • Conclusion: 该方法提供了高精度、高效率且可扩展的临床肺结节筛查工具,对改善早期肺癌检测具有重要潜力

[111] Is the medical image segmentation problem solved? A survey of current developments and future directions

Guoping Xu,Jayaram K. Udupa,Jax Luo,Songlin Zhao,Yajun Yu,Scott B. Raymond,Hao Peng,Lipeng Ning,Yogesh Rathi,Wei Liu,You Zhang

Main category: eess.IV

TL;DR: 这篇论文对过去十年医学图像分割领域进行了深度综述,回顾了从监督学习到半监督/无监督学习、从器官分割到病灶分割、从2D到3D/4D分割等七个关键维度的进展。

  • Motivation: 随着深度学习在医学图像分割领域的快速发展,需要系统评估当前模型在解决传统挑战方面的进展,识别仍存在的技术差距,并为未来研究提供方向指导。
  • Method: 通过组织七个关键维度来系统分析医学图像分割的发展:学习范式转变、任务重点转移、多模态整合、基础模型应用、概率分割方法、维度扩展以及智能体化趋势。
  • Result: 提供了医学图像分割领域的全面技术路线图,涵盖了多尺度分析、注意力机制、先验知识整合等核心技术在不同网络组件中的应用进展。
  • Conclusion: 该综述为深度学习医学图像分割提供了整体发展轨迹的概述,旨在启发未来创新,并建立了持续更新的文献和开源资源库以支持后续研究。

[112] UltraEar: a multicentric, large-scale database combining ultra-high-resolution computed tomography and clinical data for ear diseases

Ruowei Tang,Pengfei Zhao,Xiaoguang Li,Ning Xu,Yue Cheng,Mengshi Zhang,Zhixiang Wang,Zhengyu Zhang,Hongxia Yin,Heyu Ding,Shusheng Gong,Yuhe Liu,Zhenchang Wang

Main category: eess.IV

TL;DR: 本文介绍了UltraEar数据库的建立,这是一个大规模、多中心的0.1mm等向超高分辨率CT图像数据库,专门用于耳部疾病研究。

  • Motivation: 耳部疾病影响全球数十亿人,带来巨大的健康和社会经济负担。CT在准确诊断、治疗规划和结果评估中起着关键作用,但缺乏大规模、高质量的耳部影像数据库。
  • Method: 从2020年10月至2035年10月,从11家三级医院招募患者,整合超高分辨率CT图像、结构化CT报告和全面的临床信息。开发了标准化的预处理流程,包括几何校准、图像标注和多结构分割。
  • Result: 建立了包含多种耳科疾病的综合数据库,涵盖中耳炎、胆脂瘤、听骨链畸形、颞骨骨折等多种疾病。所有数据都经过匿名化处理,确保符合数据隐私法规。
  • Conclusion: UltraEar数据库为全球耳科研究社区提供了一个前所未有的超高分辨率参考图谱,具有显著推进放射学研究、AI算法开发、教育培训和多机构合作研究的潜力。

[113] Efficient and Privacy-Protecting Background Removal for 2D Video Streaming using iPhone 15 Pro Max LiDAR

Jessica Kinnevan,Naifa Alqahtani,Toral Chauhan

Main category: eess.IV

TL;DR: 使用iPhone 15 Pro Max的LiDAR深度盘和色彩摄像头实现高性能背景移除和合成技术,充分利用深度信息不受光照影响的优势

  • Motivation: 解决传统背景移除技术(如色度键操作和AI模型)对光照条件敏感、在弱光环境下性能不佳的问题
  • Method: 集成iPhone 15 Pro Max的LiDAR深度盘和色彩摄像头,使用SwiftUI和Swift框架开发用户界面和后端,采用Metal Shader Language(MSL)在60fps标准帧率下实现实时图像增强处理
  • Result: 成功实现了不受光照条件限制的高性能背景移除方案,在明亮和弱光环境下都有良好表现
  • Conclusion: LiDAR技术在移动设备上有望成为背景移除的首选方案,当前主要限制是深度数据分辨率仅为320x240,如果能提升到与色彩图像相同分辨率将更加理想

[114] GENRE-CMR: Generalizable Deep Learning for Diverse Multi-Domain Cardiac MRI Reconstruction

Kian Anvari Hamedani,Narges Razizadeh,Shahabedin Nabavi,Mohsen Ebrahimi Moghaddam

Main category: eess.IV

TL;DR: GENRE-CMR是一个基于GAN的生成对抗网络架构,采用残差深度展开重建框架,通过边缘感知区域损失和统计分布对齐损失,显著提升心血管磁共振图像重建质量和泛化能力。

  • Motivation: 加速心血管磁共振图像重建在扫描时间和图像质量之间存在权衡挑战,特别是在不同采集设置下的泛化能力不足。需要开发一种能够跨不同数据分布保持高质量重建的统一解决方案。
  • Method: 提出GAN-based残差深度展开重建框架,将迭代优化展开为卷积子网络级联,集成残差连接实现渐进特征传播。引入两种损失函数:边缘感知区域损失(关注结构信息区域)和统计分布对齐损失(通过对称KL散度正则化特征空间)。
  • Result: 在未见数据分布上达到0.9552 SSIM和38.90 dB PSNR,超越现有最优方法,在各种加速因子和采样轨迹下均表现优异。消融研究证实各组件对重建质量和泛化能力的贡献。
  • Conclusion: 该框架为高质量CMR重建提供了统一且鲁棒的解决方案,为跨异构采集协议的临床适应性部署铺平了道路。

[115] Efficient Fine-Tuning of DINOv3 Pretrained on Natural Images for Atypical Mitotic Figure Classification in MIDOG 2025

Guillaume Balezo,Raphaël Bourgade,Thomas Walter

Main category: eess.IV

TL;DR: DINOv3-H+视觉变换器通过LoRA微调和数据增强,在MIDOG 2025挑战中实现了0.8871的平衡准确率,为异常有丝分裂分类提供了强基线。

  • Motivation: 异常有丝分裂图形(AMFs)是预后不良的标志物,但由于低患病率、形态细微和观察者间变异性,检测困难。MIDOG 2025挑战旨在建立跨域AMF分类基准。
  • Method: 使用在自然图像上预训练的DINOv3-H+视觉变换器,通过低秩适应(LoRA,65万可训练参数)和广泛的数据增强进行微调。
  • Result: 尽管存在领域差距,DINOv3在组织病理学图像上有效迁移,在初步测试集上达到0.8871的平衡准确率。
  • Conclusion: DINOv3预训练具有强大鲁棒性,结合参数高效微调,为MIDOG 2025中的异常有丝分裂分类提供了强有力的基准方法。