Skip to content
每日arXiv - 2026年2月5日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Intellectual Property Protection for 3D Gaussian Splatting Assets: A Survey

Longjie Zhao,Ziming Hong,Jiaxin Huang,Runnan Chen,Mingming Gong,Tongliang Liu

Main category: cs.CV

TL;DR: 本文首次系统性地综述了3D高斯泼溅(3DGS)的知识产权保护,提出了一个自底向上的分析框架,涵盖高斯扰动机制、被动/主动保护范式以及生成式AI时代的鲁棒性威胁,并指出了六个未来研究方向。

  • Motivation: 3DGS已成为实时3D场景合成的主流表示方法,在VR/AR、机器人和3D内容创作中广泛应用。其日益增长的商业价值和显式参数化结构引发了知识产权保护的新兴关切,但当前研究进展零散,缺乏对底层机制、保护范式和鲁棒性挑战的统一认识。
  • Method: 提出了首个关于3DGS知识产权保护的系统性综述,引入自底向上的分析框架:1)分析基于高斯的扰动机制;2)考察被动和主动保护范式;3)评估生成式AI时代下的鲁棒性威胁。通过这一框架揭示技术基础和鲁棒性表征方面的空白。
  • Result: 揭示了当前3DGS知识产权保护研究在技术基础和鲁棒性表征方面存在的空白,指出了需要深入研究的机遇。识别了现有保护方法的局限性和脆弱性。
  • Conclusion: 提出了六个跨鲁棒性、效率和保护范式的研究方向,为3DGS资产的可靠和可信知识产权保护提供了路线图。强调需要建立更系统、更强大的保护机制来应对生成式AI时代的新挑战。

[2] TruKAN: Towards More Efficient Kolmogorov-Arnold Networks Using Truncated Power Functions

Ali Bayeh,Samira Sadaoui,Malek Mouhoub

Main category: cs.CV

TL;DR: TruKAN是一种基于KAN结构的新型神经网络架构,用截断幂函数替代B样条基函数,在保持表达力的同时提升精度和训练效率,在计算机视觉任务中表现优于其他KAN变体。

  • Motivation: 解决Kolmogorov-Arnold Network(KAN)在计算效率和遵循KAN原则之间的权衡问题,设计一个既能保持KAN表达力又更高效、更可解释的架构。
  • Method: 提出TruKAN架构,基于k阶样条理论用截断幂函数族替代KAN中的B样条基函数;每层结合截断幂项和多项式项,使用共享或独立节点;集成到EfficientNet-V2框架中,采用混合优化和层归一化技术。
  • Result: TruKAN在复杂视觉任务中比其他KAN模型(包括MLP、KAN、SineKAN)在精度、计算效率和内存使用方面表现更优,同时在可解释性方面也有优势。
  • Conclusion: TruKAN通过截断幂函数成功平衡了近似效果和透明度,在保持KAN表达力的同时显著提升了计算效率,为KAN架构的实际应用提供了有前景的解决方案。

[3] DiGAN: Diffusion-Guided Attention Network for Early Alzheimer's Disease Detection

Maxx Richard Rahman,Mostafa Hammouda,Wolfgang Maass

Main category: cs.CV

TL;DR: 提出DiGAN模型,结合潜在扩散模型和注意力卷积网络,用于阿尔茨海默病早期诊断,通过生成合成纵向数据增强训练,在ADNI数据集上优于现有方法。

  • Motivation: 阿尔茨海默病早期诊断面临挑战,因为前驱期结构脑变化微妙且时间不规则。现有深度学习方法需要大量纵向数据,且难以处理真实临床数据中的时间连续性和模态不规则性。
  • Method: 提出扩散引导注意力网络(DiGAN),整合潜在扩散模型和注意力引导卷积网络。扩散模型从有限训练数据合成真实纵向神经影像轨迹,丰富时间上下文;注意力卷积层捕捉区分认知正常与轻度认知障碍/主观认知下降的结构-时间模式。
  • Result: 在合成和ADNI数据集上的实验表明,DiGAN优于现有最先进基线方法,显示出早期AD检测的潜力。
  • Conclusion: DiGAN通过整合扩散模型生成合成纵向数据和注意力卷积网络捕捉关键模式,为阿尔茨海默病早期诊断提供了一种有效方法,能够处理数据稀疏和不规则问题。

[4] PriorProbe: Recovering Individual-Level Priors for Personalizing Neural Networks in Facial Expression Recognition

Haijiang Yan,Nick Chater,Adam Sanborn

Main category: cs.CV

TL;DR: PriorProbe:一种基于MCMC with People的新方法,用于恢复个体特异性认知先验,并将其整合到神经网络中实现个性化,在面部表情识别任务中显著提升性能。

  • Motivation: 现有方法在获取个体认知先验时存在局限性:要么无法唯一识别先验,要么引入系统性偏差。需要一种能够准确获取细粒度个体特异性先验的方法,以实现神经网络的个性化。
  • Method: 提出PriorProbe方法,基于Markov Chain Monte Carlo with People(MCMC with People)框架,恢复个体特异性先验。在面部表情识别任务中应用该方法,将恢复的先验与最先进的神经网络整合,预测个体在模糊刺激下的分类。
  • Result: PriorProbe恢复的先验带来了显著的性能提升,优于单独使用神经网络和其他先验来源,同时保持了神经网络对真实标签的推断能力。
  • Conclusion: PriorProbe提供了一个通用且可解释的框架,用于个性化深度神经网络,通过准确获取个体认知先验来增强模型性能。

[5] Explainable Computer Vision Framework for Automated Pore Detection and Criticality Assessment in Additive Manufacturing

Akshansh Mishra,Rakesh Morisetty

Main category: cs.CV

TL;DR: 提出可解释的计算机视觉框架,用于增材制造中孔隙缺陷的检测和临界性评估,发现表面距离是预测孔隙临界性的最重要因素。

  • Motivation: 增材制造中的内部孔隙缺陷会损害结构性能并限制工业应用。现有的自动缺陷检测方法缺乏可解释性,工程师无法理解临界性预测的物理基础。
  • Method: 1) 将灰度切片重建为体积数据集;2) 基于强度阈值和连通分量分析识别500个孔隙;3) 使用几何描述符(尺寸、长宽比、范围、空间位置)表征孔隙;4) 构建孔隙相互作用网络(24,950个连接);5) 机器学习模型预测孔隙临界性分数;6) SHAP分析量化特征贡献。
  • Result: 归一化表面距离主导模型预测,其重要性比其他所有描述符高一个数量级以上。孔隙尺寸影响最小,几何参数影响可忽略。表面距离与临界性呈强负相关,揭示边界驱动的失效机制。
  • Conclusion: 该可解释框架实现了透明的缺陷评估,为增材制造中的工艺优化和质量控制提供了可操作的见解。

[6] 4DPC2hat: Towards Dynamic Point Cloud Understanding with Failure-Aware Bootstrapping

Xindan Zhang,Weilong Yan,Yufei Shi,Xuerui Qiu,Tao He,Ying Li,Ming Li,Hehe Fan

Main category: cs.CV

TL;DR: 首个针对动态点云序列理解的多模态大语言模型,通过构建大规模4D点云数据集和引入Mamba增强的时间推理机制,显著提升了动作理解和时间推理能力。

  • Motivation: 现有方法主要关注静态对象,而动态点云序列理解仍未被充分探索。这主要是由于缺乏大规模跨模态数据集以及在时空上下文中建模运动的困难。
  • Method: 1. 构建大规模跨模态数据集4DPC2hat-200K,包含拓扑一致的4D点云构建和两级标注;2. 引入Mamba增强的时间推理MLLM来捕捉点云序列中的长程依赖和动态模式;3. 提出故障感知的自举学习策略,迭代识别模型缺陷并生成有针对性的QA监督。
  • Result: 4DPC2hat在动作理解和时间推理方面显著优于现有模型,建立了4D动态点云理解的坚实基础。数据集包含超过44K动态对象序列、700K点云帧和200K精心策划的QA对。
  • Conclusion: 该工作填补了动态点云理解领域的空白,通过创新的数据集构建、模型架构和学习策略,为4D动态点云理解建立了强大的基础框架。

[7] Audit After Segmentation: Reference-Free Mask Quality Assessment for Language-Referred Audio-Visual Segmentation

Jinxing Zhou,Yanghao Zhou,Yaoting Wang,Zongyan Han,Jiaqi Ma,Henghui Ding,Rao Muhammad Anwer,Hisham Cholakkal

Main category: cs.CV

TL;DR: 提出MQA-RefAVS任务,在无需真实标注的情况下评估语言引导的音视频分割掩码质量,包括IoU估计、错误类型识别和质量控制建议,并构建了MQ-RAVSBench基准和MQ-Auditor模型。

  • Motivation: 当前语言引导的音视频分割(Ref-AVS)主要关注生成分割掩码,但对掩码质量的丰富可解释诊断研究不足。需要在不依赖真实标注的情况下评估掩码质量,为下游应用提供质量控制和改进支持。
  • Method: 1) 提出MQA-RefAVS新任务,要求估计掩码IoU、识别错误类型、提供质量控制建议;2) 构建MQ-RAVSBench基准,包含几何和语义层面的多样化错误模式;3) 提出MQ-Auditor模型,基于多模态大语言模型显式推理多模态线索和掩码信息。
  • Result: MQ-Auditor在实验中优于开源和商业多模态大语言模型,能够有效检测分割失败并支持下游分割改进。模型可集成到现有Ref-AVS系统中。
  • Conclusion: MQA-RefAVS任务填补了语言引导音视频分割中掩码质量评估的空白,提出的基准和模型为分割质量诊断提供了有效工具,有助于提升分割系统的可靠性和实用性。

[8] GPAIR: Gaussian-Kernel-Based Ultrafast 3D Photoacoustic Iterative Reconstruction

Yibing Wang,Shuang Li,Tingting Huang,Yu Zhang,Chulhong Kim,Seongwook Choi,Changhui Li

Main category: cs.CV

TL;DR: 提出GPAIR方法,通过高斯核变换和GPU加速,实现三维光声层析成像的亚秒级超快速迭代重建

  • Motivation: 传统迭代重建算法在三维光声层析成像中计算时间过长(数百秒到数小时),严重限制了其实际应用,特别是在大规模三维成像场景中
  • Method: 提出GPAIR方法:1)使用连续各向同性高斯核变换传统空间网格;2)推导压力波的解析闭式表达式;3)实现强大的GPU加速可微分Triton算子
  • Result: 在动物实验中,对包含840万个体素的三维目标实现了亚秒级的超快速重建速度,计算速度提升了数个数量级
  • Conclusion: 这种革命性的超快速图像重建实现了近乎实时的大规模三维光声重建,显著推动了三维光声层析成像向临床应用的发展

[9] Vision Transformers for Zero-Shot Clustering of Animal Images: A Comparative Benchmarking Study

Hugo Markoff,Stefan Hein Bengtson,Michael Ørsted

Main category: cs.CV

TL;DR: Vision Transformer模型结合降维和聚类技术,可直接从未标注的动物图像中实现近乎完美的物种级聚类,并能揭示物种内的生态学变异模式。

  • Motivation: 生态研究中动物图像的手动标注是主要瓶颈,限制了生物多样性监测的规模和效率。本研究旨在探索是否可以利用先进的Vision Transformer基础模型直接从数千张未标注的动物图像中实现物种级聚类。
  • Method: 建立了一个综合基准测试框架,评估了5种ViT模型结合5种降维技术和4种聚类算法(2种有监督和2种无监督),在60个物种(30种哺乳动物和30种鸟类)上进行测试,每个测试使用每个物种200张经过验证的随机图像子集。
  • Result: 使用DINOv3嵌入结合t-SNE和有监督层次聚类方法实现了近乎完美的物种级聚类(V-measure: 0.958)。无监督方法也达到了竞争性性能(0.943),仅需拒绝1.14%的图像作为需要专家审查的异常值。研究还展示了对现实长尾分布的鲁棒性,并证明有意的过聚类可以可靠地提取物种内变异,包括年龄类别、性二态性和皮毛差异。
  • Conclusion: Vision Transformer基础模型能够有效减少生态研究中图像标注的工作量,为生态学家提供了开源基准测试工具包,并提供了针对特定分类群和数据选择适当方法的建议。

[10] Benchmarking Bias Mitigation Toward Fairness Without Harm from Vision to LVLMs

Xuwei Tan,Ziyu Hu,Xueru Zhang

Main category: cs.CV

TL;DR: NH-Fair是一个统一的公平性基准,涵盖视觉模型和大型视觉语言模型,通过标准化数据、指标和训练协议,提供可复现的公平性评估框架。

  • Motivation: 机器学习模型在现实数据训练中会继承和放大社会群体偏见,而现有偏见缓解方法难以比较,因为存在数据集异构、公平性指标不一致、视觉与多模态模型评估孤立、超参数调优不足等问题。
  • Method: 提出NH-Fair基准,标准化数据集、指标和训练协议,覆盖监督和零样本学习。进行系统性ERM调优研究,识别对性能和公平性有重大影响的训练选择,比较多种去偏方法。
  • Result: 1) 许多去偏方法并不比良好调优的ERM基线可靠地更好;2) 复合数据增强方法能持续提供公平性增益而不牺牲性能;3) LVLMs虽然平均准确率更高,但仍存在子群体差异,扩展带来的增益通常小于架构或训练协议选择。
  • Conclusion: NH-Fair提供了一个可复现、调优感知的管道,用于严格的、关注伤害的公平性评估,为实践者提供了减少昂贵超参数调优空间的实证指导。

[11] HY3D-Bench: Generation of 3D Assets

Team Hunyuan3D,:,Bowen Zhang,Chunchao Guo,Dongyuan Guo,Haolin Liu,Hongyu Yan,Huiwen Shi,Jiaao Yu,Jiachen Xu,Jingwei Huang,Kunhong Li,Lifu Wang,Linus,Penghao Wang,Qingxiang Lin,Ruining Tang,Xianghui Yang,Yang Li,Yirui Guan,Yunfei Zhao,Yunhan Yang,Zeqiang Lai,Zhihao Liang,Zibo Zhao

Main category: cs.CV

TL;DR: HY3D-Bench是一个开源3D生成生态系统,通过高质量数据集、结构化部件分解和合成数据增强,解决3D内容创建的数据瓶颈问题。

  • Motivation: 尽管神经表示和生成模型在3D内容创建方面取得进展,但该领域仍受限于显著的数据处理瓶颈,需要建立统一、高质量的数据基础。
  • Method: 1) 从大规模存储库中精选25万个高保真3D对象,提供水密网格和多视角渲染;2) 引入结构化部件级分解,支持细粒度感知和可控编辑;3) 通过可扩展的AIGC合成管道生成12.5万个合成资产,增强长尾类别多样性。
  • Result: 通过训练Hunyuan3D-2.1-Small模型验证了HY3D-Bench的有效性,为3D感知、机器人和数字内容创建提供了强大的数据资源。
  • Conclusion: HY3D-Bench通过开源生态系统民主化访问高质量3D数据资源,旨在促进3D感知、机器人和数字内容创建领域的创新。

[12] Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition

Qiuming Luo,Tao Zeng,Feng Li,Heming Liu,Rui Mao,Chang Kong

Main category: cs.CV

TL;DR: 提出一种基于信息熵的结构对齐网络,通过信息论建模解决零样本手写汉字识别中视觉-语义鸿沟问题,显著提升未见字符识别性能。

  • Motivation: 现有零样本手写汉字识别方法通常将汉字视为扁平的部首序列,忽略了层次拓扑结构和不同部件信息密度的不均匀性,导致视觉-语义鸿沟问题。
  • Method: 1. 引入信息熵先验,通过乘法交互动态调制位置嵌入,作为显著性检测器优先处理判别性部首;2. 构建双视图部首树提取多粒度结构特征,通过自适应Sigmoid门控网络编码全局布局和局部空间角色;3. 设计Top-K语义特征融合机制,利用语义邻居的质心增强解码过程,通过特征级共识纠正视觉歧义。
  • Result: 在具有挑战性的零样本设置下,该方法建立了新的最先进性能,显著优于现有的基于CLIP的基线方法,并展现出卓越的数据效率,能够用极少的支持样本快速适应。
  • Conclusion: 提出的基于信息熵的结构对齐网络有效解决了零样本手写汉字识别中的层次拓扑和部件信息密度问题,通过信息论建模和结构特征融合显著提升了识别性能和数据效率。

[13] Phaedra: Learning High-Fidelity Discrete Tokenization for the Physical Science

Levi Lingsch,Georgios Kissas,Johannes Jakubik,Siddhartha Mishra

Main category: cs.CV

TL;DR: 论文提出Phaedra,一种针对科学图像(如PDE数据)的新型tokenizer,相比现有视觉导向的tokenizer能更好地保留物理和光谱特性。

  • Motivation: 现有tokenizer主要针对视觉感知设计,不适合科学图像(如PDE数据),因为科学图像具有大动态范围,需要保留物理和光谱特性。需要评估现有tokenizer在科学图像上的准确性,并开发更适合的解决方案。
  • Method: 提出Phaedra tokenizer,灵感来自经典的shape-gain量化和proper orthogonal decomposition。通过一系列度量标准评估现有tokenizer在PDE属性保真度方面的表现,然后展示Phaedra的优越性。
  • Result: Phaedra在多个PDE数据集上一致改善重建质量,并在三个复杂度递增的任务中表现出强大的分布外泛化能力:已知PDE不同条件、未知PDE、以及真实世界地球观测和天气数据。
  • Conclusion: 针对科学图像需要专门的tokenizer设计,Phaedra通过结合shape-gain量化和proper orthogonal decomposition,能更好地保留物理和光谱特性,在科学图像处理任务中表现优异。

[14] SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

Azmine Toushik Wasi,Wahid Faisal,Abdur Rahman,Mahfuz Ahmed Anik,Munem Shahriar,Mohsin Mahmud Topu,Sadia Tasnim Meem,Rahatun Nesa Priti,Sabrina Afroz Mitu,Md. Iqramul Hoque,Shahriyar Zaman Ridoy,Mohammed Eunus Ali,Majd Hawasly,Mohammad Raza,Md Rizwan Parvez

Main category: cs.CV

TL;DR: SpatiaLab是一个评估视觉语言模型空间推理能力的综合基准,包含1400个真实世界视觉问答对,涵盖6大类30种任务。实验显示当前模型与人类表现存在显著差距。

  • Motivation: 现有空间推理评估主要依赖合成或LLM生成的环境,任务设计有限且类似谜题,无法捕捉真实世界的复杂性、视觉噪声和多样空间关系。需要更全面、真实的评估框架来推动VLM空间推理能力的发展。
  • Method: 构建SpatiaLab基准,包含1400个视觉问答对,涵盖6个主要类别(相对定位、深度与遮挡、方向、大小与尺度、空间导航、3D几何),每个类别有5个子类别,共30种任务类型。每个子类别至少25个问题,每个主类别至少200个问题,支持多项选择和开放式评估。
  • Result: 实验评估了多种最先进的VLM(开源和闭源模型、推理专注模型、专门空间推理模型),结果显示模型与人类表现存在显著差距。多项选择设置中,最佳模型InternVL3.5-72B准确率54.93%,人类87.57%;开放式设置中,最佳模型GPT-5-mini准确率40.93%,人类64.93%。所有模型在开放式设置中性能下降10-25%。
  • Conclusion: SpatiaLab揭示了VLM在处理复杂空间关系、深度感知、导航和3D几何方面的关键局限性。通过提供多样化、真实世界的评估框架,该基准暴露了关键挑战和机遇,可指导未来研究开发更鲁棒、与人类对齐的空间理解能力。

[15] Entropy Reveals Block Importance in Masked Self-Supervised Vision Transformers

Peihao Xiang,Kaida Wu,Ou Bai

Main category: cs.CV

TL;DR: 提出Gardener方法,无需数据即可通过信息熵评估Vision Transformer块的重要性,实现高效剪枝,在剪除91.7%块后仍保持竞争力。

  • Motivation: 掩码自监督视觉Transformer模型庞大,部署和迁移学习资源消耗大,需要探索是否所有Transformer块对下游性能同等重要,以及能否无数据评估块重要性。
  • Method: 提出Gardener方法:基于预训练块权重的信息熵与通过迭代块移除和微调获得的oracle敏感性高度相关,通过简单信息论测量识别冗余块,实现数据无关、一次性、块级剪枝。
  • Result: 在VideoMAE-B上评估,Gardener在多种剪枝比例和下游视频识别基准上,计算开销可忽略,性能匹配或优于现有无数据剪枝基线,接近敏感性剪枝,剪除91.7%块后仍保持竞争力。
  • Conclusion: 掩码自监督视觉Transformer存在大量块级冗余,信息论分析为模型压缩和资源高效迁移学习提供了原则性和高效途径。

[16] TiCLS : Tightly Coupled Language Text Spotter

Leeje Jang,Yijun Lin,Yao-Yi Chiang,Jerod Weinman

Main category: cs.CV

TL;DR: TiCLS是一种端到端文本检测识别方法,通过引入字符级预训练语言模型显式整合外部语言知识,提升模糊或碎片化文本的识别能力。

  • Motivation: 现有场景文本检测方法主要依赖视觉线索和隐式字符依赖,忽略了外部语言知识的益处。先前尝试要么没有使用外部知识,要么使用了与单词级粒度不匹配的预训练模型。
  • Method: 提出TiCLS端到端文本检测器,引入语言解码器融合视觉和语言特征,能够用字符级预训练语言模型初始化,从而增强对模糊或碎片化文本的识别能力。
  • Result: 在ICDAR 2015和Total-Text数据集上的实验表明,TiCLS达到了最先进的性能,验证了PLM引导的语言整合对场景文本检测的有效性。
  • Conclusion: 显式整合字符级预训练语言模型的外部语言知识能够显著提升场景文本检测性能,特别是在处理模糊、碎片化文本时表现出色。

[17] AnyStyle: Single-Pass Multimodal Stylization for 3D Gaussian Splatting

Joanna Kaleta,Bartosz Świrta,Kacper Kania,Przemysław Spurek,Marek Kowalski

Main category: cs.CV

TL;DR: AnyStyle是一个前馈式3D重建与风格化框架,支持多模态条件输入(文本或图像),实现无姿态、零样本风格化,保持高质量几何重建的同时提升风格可控性。

  • Motivation: 随着对快速、可扩展3D资产创建需求的增长,前馈式3D重建方法受到关注,但现有方法在风格化或外观控制方面探索不足,主要依赖基于图像的条件限制,限制了可控性和灵活性。
  • Method: 提出AnyStyle框架,采用模块化风格化架构,支持文本和视觉风格输入,仅需最小架构修改即可集成到现有前馈式3D重建主干中,实现多模态条件控制。
  • Result: 实验表明AnyStyle在风格可控性上优于先前的前馈式风格化方法,同时保持高质量几何重建。用户研究证实其风格化质量优于现有最先进方法。
  • Conclusion: AnyStyle通过多模态条件输入实现了无姿态、零样本的3D重建与风格化,在保持几何质量的同时显著提升了风格可控性和灵活性。

[18] A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Panagiotis Mousouliotis,Georgios Keramidas

Main category: cs.CV

TL;DR: 提出基于HLS的CNN加速器硬件-软件协同设计方法,通过参数化设计在FPGA上实现多约束优化,超越非参数化方法

  • Motivation: 现有FPGA上的CNN加速器主要关注性能最大化(GOPS),但实际嵌入式深度学习应用需要同时满足延迟、功耗、面积和成本等多重约束
  • Method: 采用硬件-软件协同设计方法,使用高层次综合(HLS)工具描述CNN加速器,实现设计的参数化,便于跨多个设计约束进行更有效的优化
  • Result: 实验结果表明,所提出的设计方法能够超越非参数化设计方法,并且可以轻松扩展到其他类型的深度学习应用
  • Conclusion: 基于HLS的参数化硬件-软件协同设计方法为FPGA上的CNN加速器提供了更有效的多约束优化解决方案,具有良好的可扩展性

[19] Fast, Unsupervised Framework for Registration Quality Assessment of Multi-stain Histological Whole Slide Pairs

Shikha Dubey,Patricia Raciti,Kristopher Standish,Albert Juan Ramon,Erik Ames Burlingame

Main category: cs.CV

TL;DR: 提出一个快速无监督框架,使用组织掩膜和变形场指标联合评估H&E和IHC全玻片图像的配准质量,无需地面真值标注。

  • Motivation: 组织病理学全玻片图像的高保真配准对整合分子分析至关重要,但缺乏地面真值标注时难以评估。现有评估方法耗时、不可靠且计算量大,限制了大规模应用。
  • Method: 提出联合使用下采样组织掩膜指标和变形场指标的无监督框架。掩膜指标评估全局结构对应性,变形场指标评估局部平滑性、连续性和变换真实性。
  • Result: 在多种IHC标记物和多专家评估验证中,自动指标与人工评估显示出强相关性。该框架能在无地面真值情况下提供可靠、实时的配准质量评估。
  • Conclusion: 该框架以高保真度和最小计算资源实现可靠、实时的配准质量评估,适合数字病理学中的大规模质量控制应用。

[20] Artifact Removal and Image Restoration in AFM:A Structured Mask-Guided Directional Inpainting Approach

Juntao Zhang,Angona Biswas,Jaydeep Rade,Charchit Shukla,Juan Ren,Anwesha Sarkar,Adarsh Krishnamurthy,Aditya Balu

Main category: cs.CV

TL;DR: 提出轻量级全自动AFM图像伪影检测与修复框架,通过分类、分割、掩膜扩展、方向性修复和局部平滑实现高质量AFM图像恢复

  • Motivation: AFM成像常受环境噪声、扫描缺陷和针尖-样品相互作用等因素影响产生伪影,降低图像质量,需要自动化解决方案来恢复高保真AFM数据
  • Method: 1) 分类模型检测AFM图像是否含伪影;2) 轻量级语义分割网络生成精确伪影掩膜;3) 基于结构方向自适应扩展掩膜;4) 方向性邻域插值策略修复以保持3D表面连续性;5) 局部高斯平滑实现无缝恢复;6) 集成到支持实时参数调整和批量处理的GUI
  • Result: 实验结果表明该方法能有效去除伪影同时保留纳米级结构细节,为高保真AFM数据解释提供了鲁棒的几何感知解决方案
  • Conclusion: 该框架提供了一种轻量级、全自动的AFM图像伪影处理方案,通过几何感知的修复策略实现了高质量表面成像,有助于提升AFM数据的可靠性和解释准确性

[21] Seeing Through Clutter: Structured 3D Scene Reconstruction via Iterative Object Removal

Rio Aguina-Kang,Kevin James Blackburn-Matzen,Thibault Groueix,Vladimir Kim,Matheus Gadelha

Main category: cs.CV

TL;DR: SeeingThroughClutter:通过迭代物体移除和重建,从单张图像重建结构化3D表示的方法

  • Motivation: 现有方法依赖语义分割和深度估计等中间任务,在复杂场景(特别是存在遮挡和杂乱的情况下)表现不佳
  • Method: 引入迭代物体移除和重建流程,使用VLMs作为协调器,通过检测、分割、物体移除和3D拟合逐步移除前景物体
  • Result: 在3D-Front和ADE20K数据集上展示了最先进的鲁棒性,即使在高度遮挡场景中也能获得更清晰的分割结果
  • Conclusion: 该方法无需特定任务训练,可直接受益于基础模型的持续进步,通过分解复杂场景为简单子任务来提高3D重建质量

[22] iSight: Towards expert-AI co-assessment for improved immunohistochemistry staining interpretation

Jacob S. Leiby,Jialu Yao,Pan Lu,George Hu,Anna Davidian,Shunsuke Koga,Olivia Leung,Pravin Patel,Isabella Tondi Resta,Rebecca Rojansky,Derek Sung,Eric Yang,Paul J. Zhang,Emma Lundberg,Dokyoon Kim,Serena Yeung-Levy,James Zou,Thomas Montine,Jeffrey Nirschl,Zhi Huang

Main category: cs.CV

TL;DR: 开发了iSight多任务学习框架,基于HPA10M数据集(包含1049万张IHC图像),用于自动评估免疫组化染色,在染色位置、强度和数量预测上优于基础模型和病理学家初步评估。

  • Motivation: 虽然AI在H&E染色切片上表现出潜力,但由于领域特异性变化,其在免疫组化(IHC)中的应用受限。IHC提供组织切片中蛋白质表达信息,对病理诊断和疾病分类很重要。
  • Method: 基于HPA10M数据集(包含1049万张IHC图像,涵盖45种正常组织和20种主要癌症类型),训练iSight多任务学习框架。iSight通过token级注意力机制结合全切片图像视觉特征和组织元数据,同时预测染色强度、位置、数量、组织类型和恶性状态。
  • Result: 在保留数据上,iSight在位置预测准确率达85.5%,强度76.6%,数量75.7%,优于微调的基础模型(PLIP、CONCH)2.5-10.2%。预测校准良好(预期校准误差0.0150-0.0408)。在8名病理学家评估200张图像的用户研究中,iSight优于病理学家初步评估,且AI辅助后病理学家间一致性提高(Cohen's κ从0.63升至0.70)。
  • Conclusion: 这项工作为能够提高IHC诊断准确性的AI系统奠定了基础,突显了将iSight整合到临床工作流程中以增强IHC评估一致性和可靠性的潜力。专家-AI共同评估可改善IHC解释。

[23] VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding

Junbo Zou,Ziheng Huang,Shengjie Zhang,Liwen Zhang,Weining Shen

Main category: cs.CV

TL;DR: VideoBrain:一种用于长视频理解的自适应采样框架,通过双智能体(语义检索+均匀采样)让VLM直接感知帧并决定信息是否足够,在减少30-40%帧数的同时提升性能3.5-9.0%

  • Motivation: 现有长视频理解方法面临计算约束与信息分布之间的矛盾:均匀采样会丢失信息,而单次关键帧选择无法从错误选择中恢复。现有基于智能体的方法依赖纯文本LLM协调视觉工具,而非让VLM直接感知和推理。
  • Method: 提出VideoBrain端到端框架,包含双互补智能体:基于CLIP的语义检索智能体(跨视频检索)和均匀采样智能体(在区间内密集采样)。VLM直接感知帧并推理信息是否足够。引入行为感知奖励函数和数据分类流程,防止模型为最大化奖励而滥用智能体调用。
  • Result: 在四个长视频基准测试中,相比基线方法性能提升3.5%至9.0%,同时减少30-40%的帧数使用。在短视频基准测试上表现出强大的跨数据集泛化能力。
  • Conclusion: VideoBrain通过让VLM直接感知和自适应获取视觉信息,有效解决了长视频理解中的计算效率与信息完整性之间的平衡问题,实现了更高效、更准确的视频理解。

[24] DMS2F-HAD: A Dual-branch Mamba-based Spatial-Spectral Fusion Network for Hyperspectral Anomaly Detection

Aayushma Pant,Lakpa Tamang,Tsz-Kwan Lee,Sunil Aryal

Main category: cs.CV

TL;DR: 提出DMS2F-HAD模型,基于Mamba架构的双分支网络,用于高光谱异常检测,在14个基准数据集上达到98.78%的平均AUC,推理速度比同类深度学习方法快4.6倍。

  • Motivation: 高光谱异常检测面临数据噪声大、无标签的挑战,现有深度学习方法要么无法捕捉长距离光谱依赖(如CNN),要么计算成本过高(如Transformer),需要更高效的解决方案。
  • Method: 提出双分支Mamba模型:1)利用Mamba的线性时间建模能力;2)在专门分支中分别学习空间和光谱特征;3)通过动态门控融合机制整合特征以增强异常定位。
  • Result: 在14个基准高光谱数据集上达到98.78%的平均AUC,推理速度比同类深度学习方法快4.6倍,表现出优异的泛化能力和可扩展性。
  • Conclusion: DMS2F-HAD结合了高效的长距离依赖建模和计算效率,是实际高光谱异常检测应用的强有力候选方案,在准确性和速度方面均优于现有方法。

[25] SuperPoint-E: local features for 3D reconstruction via tracking adaptation in endoscopy

O. Leon Barbed,José M. M. Montiel,Pascal Fua,Ana C. Murillo

Main category: cs.CV

TL;DR: SuperPoint-E:一种用于内窥镜视频的新型局部特征提取方法,通过追踪自适应监督策略显著提升特征检测和描述质量,改善SfM重建效果

  • Motivation: 提升内窥镜视频中结构光运动(SfM)的特征提取能力,解决现有方法在内窥镜环境下特征检测稀疏、匹配困难的问题
  • Method: 提出SuperPoint-E局部特征提取方法,采用追踪自适应监督策略训练,优化特征检测的密度和精度,提升描述符的判别性
  • Result: 相比原始SuperPoint和COLMAP基准方法,SuperPoint-E产生更密集的3D重建,覆盖更长视频片段,特征检测更密集且存活率更高,描述符判别性更强
  • Conclusion: SuperPoint-E显著提升了内窥镜视频SfM重建质量,特征更密集、更稳定,描述符判别性更强,使引导匹配步骤几乎冗余

[26] JSynFlow: Japanese Synthesised Flowchart Visual Question Answering Dataset built with Large Language Models

Hiroshi Sasaki

Main category: cs.CV

TL;DR: JSynFlow是一个用于日语流程图的合成视觉问答数据集,通过大语言模型生成,包含业务任务描述、流程图图像和问答对,显著提升了视觉语言模型在流程图理解任务上的性能。

  • Motivation: 视觉语言模型需要理解复杂文档(如流程图),但构建大规模流程图数据集耗时耗力。现有方法缺乏针对日语流程图的专门数据集,限制了模型在业务场景中的应用。
  • Method: 使用大语言模型合成日语流程图视觉问答数据集:1)生成各种业务职业的任务描述;2)从领域特定语言代码渲染流程图图像;3)创建相关的问答对。整个数据集通过自动化流程生成。
  • Result: 使用JSynFlow进行微调显著提升了视觉语言模型在基于流程图的问答任务上的性能。该数据集已公开可用,为日语流程图理解研究提供了重要资源。
  • Conclusion: JSynFlow通过合成方法有效解决了流程图数据集构建的挑战,为日语流程图理解任务提供了高质量训练数据,推动了视觉语言模型在复杂文档分析中的应用。

[27] Context Determines Optimal Architecture in Materials Segmentation

Mingjian Lu,Pawan K. Tripathi,Mark Shteyn,Debargha Ganguly,Roger H. French,Vipin Chaudhary,Yinghui Wu

Main category: cs.CV

TL;DR: 跨模态材料图像分割评估框架:不同成像模态需要不同最优架构,UNet适合高对比度2D图像,DeepLabv3+适合最难案例,并提供可靠性评估和可解释性工具

  • Motivation: 现有分割架构通常在单一成像模态上评估,忽视了实际部署中的重要性能差异。材料科学研究者缺乏针对特定成像设置选择架构的工具,也无法评估模型在新样本上的可信度。
  • Method: 提出跨模态评估框架,涵盖SEM、AFM、XCT和光学显微镜四种成像模态。评估六种编码器-解码器组合在七个数据集上的表现,并提供分布外检测和反事实解释工具来揭示微观结构特征如何影响预测。
  • Result: 评估显示最优架构随成像模态系统变化:UNet在高对比度2D成像中表现最佳,而DeepLabv3+在最困难案例中表现更好。框架能提供部署反馈,包括可靠性信号和可解释性分析。
  • Conclusion: 该框架填补了材料表征中的实际空白,为研究者提供了针对特定成像设置选择架构的工具,以及评估模型在新样本上可信度的能力,包括架构指导、可靠性信号和可解释性工具。

[28] Improving 2D Diffusion Models for 3D Medical Imaging with Inter-Slice Consistent Stochasticity

Chenhe Du,Qing Wu,Xuanyu Tian,Jingyi Yu,Hongjiang Wei,Yuyao Zhang

Main category: cs.CV

TL;DR: 提出ISCS方法,通过控制扩散采样中的随机噪声一致性来解决基于2D扩散模型的3D医学影像重建中的切片间不连续问题。

  • Motivation: 3D医学影像重建中,使用2D扩散模型会导致切片间不连续,现有方法通过z轴连续性正则化引入敏感超参数且可能导致过平滑结果。
  • Method: 提出Inter-Slice Consistent Stochasticity (ISCS),通过控制扩散采样过程中随机噪声组件的一致性来对齐采样轨迹,无需添加新损失项或优化步骤。
  • Result: 在多个医学影像问题上实验表明,ISCS能有效提升基于2D扩散模型的3D成像性能,且是即插即用的方法,无需额外计算成本。
  • Conclusion: 控制切片间随机性是实现基于2D扩散先验的高保真3D医学影像的可行且实用的途径。

[29] Point2Insert: Video Object Insertion via Sparse Point Guidance

Yu Zhou,Xiaoyan Yang,Bojia Zi,Lihan Zhang,Ruijie Sun,Weishi Zheng,Haibin Huang,Chi Zhang,Xuelong Li

Main category: cs.CV

TL;DR: Point2Insert是一个基于稀疏点的视频对象插入框架,仅需少量点标注而非密集掩码,支持正负点控制插入位置,通过两阶段训练和知识蒸馏实现精确的对象放置。

  • Motivation: 现有方法存在两大挑战:基于掩码的方法需要费力的掩码标注,而基于指令的方法难以在精确位置放置对象。需要一种既准确又低成本的灵活对象插入方法。
  • Method: 1) 使用稀疏点而非密集掩码作为输入;2) 支持正负点分别表示适合/不适合插入的区域;3) 两阶段训练:第一阶段训练基于点或掩码的对象插入模型,第二阶段在对象移除模型合成的配对视频上微调;4) 使用掩码引导模型作为教师进行知识蒸馏。
  • Result: Point2Insert在实验中持续优于强基线方法,甚至超越了参数量10倍以上的模型,实现了高精度的对象插入效果。
  • Conclusion: Point2Insert提供了一种灵活、用户友好的视频对象插入解决方案,仅需少量点标注即可实现精确的空间控制,在准确性和易用性之间取得了良好平衡。

[30] Partial Ring Scan: Revisiting Scan Order in Vision State Space Models

Yi-Kuan Hsieh,Jun-Wei Hsieh,Xin li,Ming-Ching Chang,Yu-Chee Tseng

Main category: cs.CV

TL;DR: PRISMamba 提出了一种旋转鲁棒的环状扫描顺序和部分通道过滤机制,用于改进视觉状态空间模型,在保持效率的同时提升准确性和旋转鲁棒性。

  • Motivation: 当前视觉SSM需要将2D图像按预定义扫描顺序序列化为1D令牌序列,但扫描顺序对性能有重要影响,会改变空间邻接关系、破坏对象连续性,并在几何变换(如旋转)下加剧性能下降。
  • Method: PRISMamba采用部分环扫描方法:1)将图像划分为同心环;2)在每个环内进行顺序无关的聚合;3)通过一组短径向SSM在环间传播上下文。同时引入部分通道过滤,仅将信息量最大的通道通过循环环路径,其余通道保留在轻量残差分支中。
  • Result: 在ImageNet-1K上达到84.5% Top-1准确率,仅需3.9G FLOPs,在A100上实现3,054 img/s吞吐量,在准确率和吞吐量上均优于VMamba且FLOPs更少。在旋转条件下性能保持稳定,而固定路径扫描方法性能下降1~2%。
  • Conclusion: 扫描顺序设计与通道过滤是视觉SSM中准确率、效率和旋转鲁棒性的关键因素,这些因素此前未得到充分探索。PRISMamba展示了这些设计的重要性。

[31] HoloEv-Net: Efficient Event-based Action Recognition via Holographic Spatial Embedding and Global Spectral Gating

Weidong Hao

Main category: cs.CV

TL;DR: HoloEv-Net:一种高效的事件行为识别框架,通过紧凑全息时空表示和全局谱门控模块解决现有方法的计算冗余、结构冗余和谱信息利用不足问题。

  • Motivation: 现有事件行为识别方法存在三个主要问题:(1) 密集体素表示的计算冗余,(2) 多分支架构的结构冗余,(3) 在捕捉全局运动模式时谱信息利用不足。
  • Method: 提出HoloEv-Net框架:1) 紧凑全息时空表示(CHSR):将水平空间线索隐式嵌入时间-高度视图,在2D表示中保留3D时空上下文;2) 全局谱门控(GSG)模块:利用FFT在频域进行全局token混合,以极小参数开销增强表示能力。
  • Result: 在THU-EACT-50-CHL、HARDVS和DailyDVS-200三个数据集上分别取得10.29%、1.71%和6.25%的性能提升;轻量版HoloEv-Net-Small相比重型基线减少5.4倍参数、300倍FLOPs和2.4倍延迟。
  • Conclusion: HoloEv-Net通过解决现有方法的冗余问题并充分利用谱信息,实现了高效且高性能的事件行为识别,其轻量版本特别适合边缘部署。

[32] Natural Language Instructions for Scene-Responsive Human-in-the-Loop Motion Planning in Autonomous Driving using Vision-Language-Action Models

Angel Martinez-Sanchez,Parthib Roy,Ross Greer

Main category: cs.CV

TL;DR: 将OpenEMMA开源驾驶框架适配到doScenes数据集,研究人类指令提示对驾驶行为预测的影响,发现指令条件化能显著提升轨迹规划的鲁棒性和准确性。

  • Motivation: 现有指令跟随规划器大多依赖仿真或固定命令词汇,限制了真实世界的泛化能力。doScenes是首个连接自由形式指令与真实运动数据的真实世界数据集,需要建立可复现的指令条件化基线。
  • Method: 将OpenEMMA开源MLLM端到端驾驶框架适配到doScenes设置,将数据集指令作为乘客风格提示集成到视觉语言接口中,在轨迹生成前实现语言条件化。
  • Result: 在849个标注场景上使用ADE评估,指令条件化显著提升鲁棒性,减少极端基线失败,平均ADE降低98.7%。去除异常值后,良好表达的提示仍能提升ADE达5.1%。
  • Conclusion: 指令条件化能有效改善驾驶轨迹规划,研究分析了什么构成OpenEMMA框架的"好"指令,并发布评估提示和脚本建立可复现的指令感知规划基线。

[33] DiMo: Discrete Diffusion Modeling for Motion Generation and Understanding

Ning Zhang,Zhengyu Li,Kwong Weng Loh,Mingxi Xu,Qi Wang,Zhengyu Wen,Xiaoyu He,Wei Zhao,Kehong Gong,Mingyuan Zhang

Main category: cs.CV

TL;DR: DiMo是一个基于离散扩散的框架,将掩码建模扩展到双向文本-运动理解和生成,统一了T2M、M2T和M2M任务,支持质量-延迟权衡。

  • Motivation: 现有掩码建模运动生成方法主要关注文本到运动,需要扩展到双向理解和生成,并统一多种任务于单一模型。
  • Method: 采用离散扩散风格的迭代掩码标记细化框架,使用残差向量量化提高运动标记保真度,通过组相对策略优化增强对齐和可控性。
  • Result: 在HumanML3D和KIT-ML数据集上表现出强大的运动质量和竞争性的双向理解能力,支持运动补全、文本引导运动预测和运动描述修正。
  • Conclusion: DiMo框架成功将掩码建模扩展到双向文本-运动理解和生成,统一了多种任务,并通过迭代细化实现质量-延迟权衡。

[34] Continuous Degradation Modeling via Latent Flow Matching for Real-World Super-Resolution

Hyeonjae Kim,Dongjin Kim,Eugene Jin,Tae Hyun Kim

Main category: cs.CV

TL;DR: 提出基于流匹配的潜在退化空间框架,从单张高分辨率图像合成真实低分辨率图像,用于构建大规模真实世界超分辨率训练数据集

  • Motivation: 现有深度学习方法在合成退化场景(如双三次下采样)表现良好,但在真实世界图像上表现不佳,因为真实退化复杂且非线性(噪声、模糊、压缩伪影)。现有方法需要费力收集真实LR-HR图像对,且通常局限于特定下采样因子。
  • Method: 提出新颖框架,利用流匹配在潜在退化空间中从单张HR图像合成真实LR图像。该方法能够生成具有真实伪影的LR图像,支持未见过的退化级别,便于创建大规模真实世界SR训练数据集。
  • Result: 综合定量和定性评估验证了合成LR图像能准确复制真实世界退化。使用该数据集训练的传统和任意尺度SR模型都能获得更好的HR结果。
  • Conclusion: 该框架能够有效合成真实世界退化图像,解决了真实世界SR训练数据稀缺的问题,为构建大规模真实世界SR数据集提供了可行方案。

[35] VTok: A Unified Video Tokenizer with Decoupled Spatial-Temporal Latents

Feng Wang,Yichun Shi,Ceyuan Yang,Qiushan Guo,Jingxiang Sun,Alan Yuille,Peng Wang

Main category: cs.CV

TL;DR: VTok是一个统一的视频标记化框架,通过解耦空间和时间表示,使用关键帧空间特征和后续帧残差标记,显著降低视频表示复杂度,在视频理解和生成任务中均表现优异。

  • Motivation: 现有视觉语言系统通常采用简单的帧采样策略进行视频标记化,这种方法效率低下且表达能力有限。需要一种更紧凑、更有效的视频表示方法,能够同时服务于视频理解和生成任务。
  • Method: 提出解耦视频的空间和时间表示:保留单个关键帧的空间特征,将每个后续帧编码为单个残差标记。这种方法将视频表示的复杂度从帧数×每帧标记数降低到帧数+每帧标记数。
  • Result: 在多个视频理解和文本到视频生成基准测试中表现优异:TV-Align基准准确率提高3.4%,VBench分数提高1.9%。残差标记能有效捕捉视角和运动变化,在文本到视频生成中产生更连贯的运动和更强的指导跟随能力。
  • Conclusion: VTok提供了一种高效且表达力强的视频标记化范式,显著降低了视频表示的复杂度,同时在理解和生成任务中都取得了更好的性能,有望成为未来视频研究的标准化视频标记化方法。

[36] AGMA: Adaptive Gaussian Mixture Anchors for Prior-Guided Multimodal Human Trajectory Forecasting

Chao Li,Rui Zhang,Siyuan Huang,Xian Zhong,Hongbo Jiang

Main category: cs.CV

TL;DR: AGMA提出自适应高斯混合锚点方法,通过两阶段构建表达性先验来提升轨迹预测性能,在多个数据集上达到SOTA。

  • Motivation: 现有行人轨迹预测方法存在先验不对齐问题,学习或固定的先验无法捕捉完整可信未来分布,限制了预测准确性和多样性。理论上证明预测误差受先验质量下界限制,先验建模成为性能瓶颈。
  • Method: AGMA(自适应高斯混合锚点)通过两阶段构建表达性先验:1)从训练数据中提取多样行为模式;2)将其蒸馏为场景自适应的全局先验用于推理。
  • Result: 在ETH-UCY、Stanford Drone和JRDB数据集上的广泛实验表明,AGMA实现了最先进的性能,证实了高质量先验在轨迹预测中的关键作用。
  • Conclusion: 先验质量是轨迹预测性能的关键瓶颈,AGMA通过自适应高斯混合锚点方法有效解决了先验不对齐问题,提升了预测准确性和多样性。

[37] Adaptive 1D Video Diffusion Autoencoder

Yao Teng,Minxuan Lin,Xian Liu,Shuai Wang,Xiao Yang,Xihui Liu

Main category: cs.CV

TL;DR: One-DVA:基于Transformer的自适应1D编码和扩散解码的视频自编码器,解决现有视频自编码器的三个主要限制:固定速率压缩、不灵活的CNN架构和确定性解码器。

  • Motivation: 现有视频自编码器存在三个主要问题:(1) 固定速率压缩,简单视频浪费token;(2) 不灵活的CNN架构,无法进行变长潜在建模;(3) 确定性解码器难以从压缩潜在表示中恢复适当细节。
  • Method: 提出One-DVA框架:编码器使用基于查询的视觉Transformer提取时空特征并生成潜在表示,采用变长dropout机制动态调整潜在长度;解码器是基于像素空间的扩散Transformer,以潜在表示为条件重建视频;采用两阶段训练策略。
  • Result: 在相同压缩比下,One-DVA的重建性能与3D-CNN VAE相当;更重要的是支持自适应压缩,可实现更高压缩比;通过正则化潜在分布和微调解码器,更好地支持下游潜在生成任务。
  • Conclusion: One-DVA通过Transformer架构和扩散解码解决了现有视频自编码器的限制,实现了自适应压缩和高质量重建,为下游生成任务提供了更好的支持。

[38] An Intuitionistic Fuzzy Logic Driven UNet architecture: Application to Brain Image segmentation

Hanuman Verma,Kiho Im,Pranabesh Maji,Akshansh Gupta

Main category: cs.CV

TL;DR: 提出IF-UNet框架,将直觉模糊逻辑融入UNet,以处理脑MRI图像分割中的不确定性和部分容积效应。

  • Motivation: 脑MRI图像分割对医学图像分析至关重要,但传统深度学习方法(如UNet)难以处理部分容积效应带来的不确定性,导致组织边界模糊问题。
  • Method: 提出IF-UNet框架,将直觉模糊逻辑整合到UNet中。模型通过隶属度、非隶属度和犹豫度三个维度处理输入数据,更好地处理组织模糊性和边界不确定性。
  • Result: 在IBSR数据集上评估,使用准确率、Dice系数和IoU指标。实验结果表明IF-UNet能提高分割质量,有效处理脑图像中的不确定性。
  • Conclusion: IF-UNet通过融合直觉模糊逻辑和UNet,显著改善了脑MRI图像分割性能,特别是在处理不确定性和部分容积效应方面表现出优势。

[39] SPOT-Occ: Sparse Prototype-guided Transformer for Camera-based 3D Occupancy Prediction

Suzeyu Chen,Leheng Li,Ying-Cong Chen

Main category: cs.CV

TL;DR: SPOT-Occ提出原型引导的稀疏Transformer解码器,通过两阶段特征选择和聚合解决3D占用预测中的稀疏特征聚合问题,在速度和精度上均优于现有方法。

  • Motivation: 从摄像头实现高精度实时3D占用预测对自动驾驶安全部署至关重要。稀疏3D表示解决了编码瓶颈,但为解码器带来了新挑战:如何高效聚合稀疏、非均匀分布的体素特征,而无需依赖计算密集的密集注意力机制。
  • Method: 提出原型引导的稀疏Transformer解码器,采用两阶段过程:1)引导特征选择:每个查询自适应识别最显著体素特征(原型);2)聚焦聚合:对选定的原型进行特征聚合。引入去噪范式,利用真实掩码提供明确指导,确保解码层间查询-原型关联的一致性。
  • Result: SPOT-Occ在速度上显著超越先前方法,同时提高了预测精度,实现了更高效的3D占用预测。
  • Conclusion: 原型引导的稀疏Transformer解码器有效解决了稀疏特征聚合问题,在保持高精度的同时大幅提升推理速度,为自动驾驶的3D感知提供了实用解决方案。

[40] ACIL: Active Class Incremental Learning for Image Classification

Aditya R. Bhattacharya,Debanjan Goswami,Shayok Chakraborty

Main category: cs.CV

TL;DR: ACIL:一种用于类别增量学习的主动学习框架,通过不确定性-多样性准则选择样本进行标注,显著降低标注成本并避免灾难性遗忘。

  • Motivation: 现有持续学习方法假设每个episode中的所有训练样本都已标注,这导致巨大的标注成本浪费,因为大多数样本在后续episode中不可访问。需要结合主动学习来减少人工标注工作量。
  • Method: 提出ACIL框架,利用基于不确定性和多样性的准则来识别每个episode中需要标注的样本,这些样本将被添加到下一个episode的数据中。通过主动选择信息量大的样本进行标注,减少标注成本。
  • Result: 在多个视觉数据集上的广泛实验表明,该框架相比相关基线方法具有显著优势,能够大幅降低标注成本,同时避免灾难性遗忘。
  • Conclusion: ACIL框架成功地将主动学习与类别增量学习相结合,为减少持续学习中的标注成本提供了有效解决方案,展示了该方法的潜力和前景。

[41] Depth-Guided Metric-Aware Temporal Consistency for Monocular Video Human Mesh Recovery

Jiaxin Cen,Xudong Mao,Guanghui Yue,Wei Zhou,Ruomei Wang,Fan Zhou,Baoquan Zhao

Main category: cs.CV

TL;DR: 提出深度引导的单目视频人体网格恢复框架,通过深度信息解决尺度不确定性和时间一致性问题,显著提升遮挡鲁棒性和空间精度。

  • Motivation: 单目视频人体网格恢复面临深度模糊和尺度不确定性的根本挑战,现有方法主要依赖RGB特征和时间平滑,难以处理深度排序、尺度漂移和遮挡引起的不稳定性。
  • Method: 提出深度引导框架,包含三个协同组件:深度引导多尺度融合模块(自适应整合几何先验与RGB特征)、深度引导度量感知姿态形状估计器(利用深度校准骨骼统计进行尺度一致初始化)、运动-深度对齐细化模块(通过运动动态与几何线索的跨模态注意力强制时间一致性)。
  • Result: 在三个具有挑战性的基准测试中取得优越结果,在严重遮挡情况下显著提升鲁棒性,同时提高空间精度并保持计算效率。
  • Conclusion: 深度引导框架有效解决了单目视频人体网格恢复中的度量一致性和时间稳定性问题,为实际应用提供了更可靠和准确的解决方案。

[42] Decoupled Hierarchical Distillation for Multimodal Emotion Recognition

Yong Li,Yuanzhi Wang,Yi Ding,Shiqing Zhang,Ke Lu,Cuntai Guan

Main category: cs.CV

TL;DR: DHMD框架通过解耦模态特征为同质和异质组件,采用两阶段知识蒸馏策略(粗粒度图蒸馏和细粒度字典匹配),有效解决多模态情感识别中的异质性和模态贡献不均衡问题,在多个数据集上取得SOTA性能。

  • Motivation: 现有多模态情感识别方法在处理模态异质性和不同模态贡献度变化方面存在困难,需要更有效的跨模态特征对齐和知识迁移机制。
  • Method: 提出解耦分层多模态蒸馏框架:1)使用自回归机制将每个模态特征解耦为模态无关(同质)和模态专属(异质)组件;2)两阶段知识蒸馏:粗粒度图蒸馏单元实现动态自适应蒸馏,细粒度跨模态字典匹配对齐语义粒度。
  • Result: 在CMU-MOSI和CMU-MOSEI数据集上,DHMD相比现有方法在ACC7、ACC2和F1指标上分别获得1.3%/2.4%、1.3%/1.9%和1.9%/1.8%的相对提升,可视化结果显示图和字典激活在特征空间中呈现有意义的分布模式。
  • Conclusion: DHMD通过解耦特征和分层蒸馏策略有效解决了多模态情感识别中的异质性问题,实现了灵活的跨模态知识迁移和特征对齐,显著提升了识别性能。

[43] KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

Siyu Jiang,Feiyang Chen,Xiaojin Zhang,Kun He

Main category: cs.CV

TL;DR: KVSmooth:一种无需训练、即插即用的方法,通过注意力熵引导的自适应平滑来减少多模态大语言模型中的幻觉问题

  • Motivation: 多模态大语言模型在多种任务上取得了显著进展,但幻觉问题(生成与视觉输入不一致的对象、属性或关系)仍然是其可靠部署的主要障碍。现有模型在解码过程中经常出现语义漂移,导致输出随着序列长度增加而偏离视觉事实。
  • Method: 提出KVSmooth方法,通过注意力熵引导的自适应平滑对隐藏状态进行处理。具体来说,对KV-Cache中的键和值应用指数移动平均,同时通过每个token注意力分布的熵动态量化其"下沉程度",自适应调整平滑强度。
  • Result: KVSmooth显著减少了幻觉(CHAIR_S从41.8降至18.2),同时提高了整体性能(F1分数从77.5提升至79.2),实现了精度和召回率的同步提升。相比之下,先前的方法往往以牺牲一方为代价来改善另一方。
  • Conclusion: KVSmooth是一种无需训练、即插即用的有效方法,能够在推理过程中高效运行,无需额外训练或模型修改,有效缓解多模态大语言模型的幻觉问题,具有较好的通用性。

[44] SkeletonGaussian: Editable 4D Generation through Gaussian Skeletonization

Lifan Wu,Ruijie Zhu,Yubo Ai,Tianzhu Zhang

Main category: cs.CV

TL;DR: SkeletonGaussian提出了一种从单目视频生成可编辑动态3D高斯的新框架,通过层次化关节表示将运动分解为骨架驱动的刚性运动和细粒度非刚性运动,实现了更好的可控制性和可编辑性。

  • Motivation: 现有4D生成方法通常将运动表示为隐式变形场,这限制了直接控制和编辑能力。为了解决这个问题,需要一种能够提供更直观运动控制的表示方法。
  • Method: 提出SkeletonGaussian框架:1)提取鲁棒骨架并通过线性混合蒙皮驱动刚性运动;2)使用基于六面体的细化处理非刚性变形;3)采用层次化关节表示将运动分解为稀疏刚性运动和细粒度非刚性运动。
  • Result: 实验结果表明,SkeletonGaussian在生成质量上超越了现有方法,同时实现了直观的运动编辑功能,为可编辑4D生成建立了新范式。
  • Conclusion: SkeletonGaussian通过引入骨架驱动的层次化表示,成功解决了现有4D生成方法在可编辑性方面的限制,为动态3D对象生成提供了更可控和可解释的解决方案。

[45] Light Up Your Face: A Physically Consistent Dataset and Diffusion Model for Face Fill-Light Enhancement

Jue Gong,Zihan Zhou,Jingkai Wang,Xiaohong Liu,Yulun Zhang,Xiaokang Yang

Main category: cs.CV

TL;DR: 提出LightYourFace-160K数据集和FiLitDiff模型,用于面部补光增强,在保持背景光照不变的同时为欠曝光面部添加虚拟补光。

  • Motivation: 现有面部重光照方法通常改变整体光照,会抑制输入光照或修改整个场景,导致前景背景不一致,不符合实际面部补光增强需求。
  • Method: 1) 构建LYF-160K大规模配对数据集,使用物理一致渲染器注入盘状区域补光;2) 预训练物理感知光照提示(PALP),将6D参数嵌入条件标记;3) 在预训练扩散骨干上训练FiLitDiff,基于物理基础光照代码进行条件控制。
  • Result: 在保留测试集上展示出强大的感知质量和有竞争力的全参考指标,同时更好地保持背景光照。
  • Conclusion: 提出的数据集和模型能够实现可控、高质量的面部补光增强,计算成本低,保持背景光照一致性。

[46] Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement

Zipeng Zhu,Zhanghao Hu,Qinglin Zhu,Yuxi Hong,Yijun Liu,Jingyong Su,Yulan He,Lin Gui

Main category: cs.CV

TL;DR: LASER提出了一种动态视觉接地方法,通过查询感知的层选择机制,在推理时自适应地选择最适合特定任务的视觉层进行定位和问答,显著提升了VQA任务的准确性。

  • Motivation: 现有大型视觉语言模型采用固定的视觉token预算,导致图像细节丢失和幻觉问题。现有的注意力引导增强方法通常基于静态的"魔法层"选择,这种选择在简单识别任务上有效但无法适应复杂推理任务的需求。
  • Method: 提出了Visual Activation by Query (VAQ)指标,通过测量注意力对输入查询的敏感性,识别出与查询特定视觉接地最相关的层。基于VAQ,开发了LASER框架,这是一个无需训练的自适应推理过程,能够根据任务复杂度动态选择最适合的视觉定位和问答层。
  • Result: 在多样化的VQA基准测试中,LASER显著提高了不同复杂度任务的VQA准确性,证明了动态层选择策略的有效性。
  • Conclusion: 视觉接地是一个动态过程,不同复杂度任务需要不同层的视觉信息激活。LASER通过查询感知的层自适应选择机制,为复杂视觉推理任务提供了一种有效的解决方案,超越了静态层选择方法的局限性。

[47] JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction

Zihan Lou,Jinlong Fan,Sihan Ma,Yuxiang Yang,Jing Zhang

Main category: cs.CV

TL;DR: JOintGS是一个联合优化框架,从单目RGB视频中重建可动画的3D人体化身,同时优化相机外参、人体姿态和3D高斯表示,解决了无约束野外场景中相机参数和姿态估计不准确的问题。

  • Motivation: 在无约束野外场景中,从单目RGB视频重建高质量可动画3D人体化身面临挑战,因为现成方法(如COLMAP、HMR2.0)提供的相机参数和人体姿态往往不准确。现有基于3D高斯泼溅(3DGS)的方法严重依赖精确的相机标定和姿态标注,限制了在实际场景中的应用。
  • Method: 提出JOintGS统一框架,通过协同细化机制联合优化相机外参、人体姿态和3D高斯表示。核心洞察是:明确的前景-背景解耦实现相互增强——静态背景高斯通过多视角一致性锚定相机估计;精化的相机通过准确的时间对应改善人体对齐;优化的人体姿态通过从静态约束中移除动态伪影来增强场景重建。还引入了时间动态模块捕捉细粒度姿态相关变形,以及残差颜色场建模光照变化。
  • Result: 在NeuMan和EMDB数据集上的广泛实验表明,JOintGS在NeuMan数据集上比最先进方法提高了2.1dB PSNR,同时保持实时渲染。特别值得注意的是,与基线相比,该方法对噪声初始化的鲁棒性显著增强。
  • Conclusion: JOintGS通过联合优化相机、姿态和高斯表示,有效解决了无约束野外场景中3D人体化身重建的挑战,实现了高质量重建和实时渲染,对噪声初始化具有强鲁棒性。

[48] Multiview Self-Representation Learning across Heterogeneous Views

Jie Chen,Zhu Wang,Chuanbin Liu,Xi Peng

Main category: cs.CV

TL;DR: 提出多视图自表示学习方法,通过利用异构预训练模型特征的自表示特性学习不变表示,在无监督迁移学习中取得优异性能

  • Motivation: 不同预训练模型生成的特征由于训练目标或架构差异具有不同的分布特性,在完全无监督的迁移学习中学习不变表示是一个重要挑战
  • Method: 提出多视图自表示学习方法:1) 使用异构预训练模型提取特征作为多视图数据;2) 在每个冻结预训练骨干上堆叠线性模型;3) 引入基于自表示学习的信息传递机制进行特征聚合;4) 提出分配概率分布一致性方案利用不同视图的互补信息
  • Result: 在多个基准视觉数据集上的广泛实验表明,MSRL方法持续优于多个最先进方法
  • Conclusion: 通过利用异构多视图特征的自表示特性,提出的方法能够有效学习不变表示,为无监督迁移学习提供了有效解决方案

[49] Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner

Qian-Wei Wang,Guanghao Meng,Ren Cai,Yaguang Song,Shu-Tao Xia

Main category: cs.CV

TL;DR: CoFT是一种无监督视觉语言模型微调框架,通过双模型跨模态协作机制,利用正负文本提示显式建模伪标签清洁度,无需人工阈值或噪声假设,实现高效下游任务适应。

  • Motivation: 大规模视觉语言模型(如CLIP)具有强大的零样本泛化能力,但适应下游任务通常需要昂贵的标注数据。现有的无监督自训练方法依赖伪标记,但存在置信度过滤不可靠、确认偏差和低置信度样本利用不足等问题。
  • Method: CoFT采用双模型跨模态协作机制,引入正负文本提示的双提示学习策略,显式建模样本依赖的伪标签清洁度。使用两阶段训练方案:从高置信度样本的参数高效微调过渡到协作过滤伪标签指导的完整微调。CoFT+进一步通过迭代微调、动量对比学习和LLM生成提示增强适应能力。
  • Result: 大量实验表明,CoFT在无监督方法上取得一致增益,甚至超越少样本监督基线。
  • Conclusion: CoFT通过创新的双模型协作和正负提示策略,有效解决了无监督视觉语言模型适应中的伪标签质量问题,实现了高效的下游任务适应,为无监督领域适应提供了新思路。

[50] Explicit Uncertainty Modeling for Active CLIP Adaptation with Dual Prompt Tuning

Qian-Wei Wang,Yaguang Song,Shu-Tao Xia

Main category: cs.CV

TL;DR: 提出基于双提示调优的主动CLIP适应框架,通过正负提示分别增强分类可靠性和建模不确定性,在有限标注预算下提升主动学习效果

  • Motivation: 预训练视觉语言模型(如CLIP)具有强迁移性,但在有限标注预算下适应下游图像分类任务仍具挑战。现有主动学习方法通常基于熵或聚类估计不确定性,未能从模型角度显式建模不确定性。
  • Method: 提出双提示调优框架:在CLIP文本分支引入两个可学习提示。正提示增强任务特定文本嵌入的判别性,提升分类可靠性;负提示以反向方式训练,显式建模预测标签正确的概率,为主动样本选择提供不确定性信号。
  • Result: 在不同微调范式下的广泛实验表明,该方法在相同标注预算下持续优于现有主动学习方法。
  • Conclusion: 通过双提示调优显式建模不确定性,为CLIP在有限标注下的主动适应提供了有效框架,显著提升主动学习性能。

[51] Finding NeMO: A Geometry-Aware Representation of Template Views for Few-Shot Perception

Sebastian Jung,Leonard Klüpfel,Rudolph Triebel,Maximilian Durner

Main category: cs.CV

TL;DR: NeMO是一种新颖的以对象为中心的表征方法,能够使用RGB图像检测、分割和估计训练中未见过的物体的6DoF姿态,仅需少量模板视图即可实现少样本物体感知。

  • Motivation: 现有方法在处理未见过的物体时通常需要重新训练或大量预处理,限制了交互的扩展性和效率。NeMO旨在通过将物体信息外包到单一表征中,实现快速物体上线而无需重新训练。
  • Method: 1) 编码器:仅需少量RGB模板视图,通过学习包含语义和几何信息的UDF生成稀疏物体点云;2) 解码器:将物体编码与查询图像结合,生成多种密集预测;3) 单一网络处理多个感知任务,无需相机特定参数或目标数据重新训练。
  • Result: 在BOP基准测试的各种数据集和感知任务中取得了竞争性和最先进的结果,证明了方法的通用性。能够实现少样本物体感知,无需相机参数或重新训练。
  • Conclusion: NeMO通过将物体信息外包到单一表征中,并使用单一网络处理多个感知任务,增强了与新颖物体的交互能力,提高了扩展性和效率,实现了快速物体上线而无需重新训练或大量预处理。

[52] VecSet-Edit: Unleashing Pre-trained LRM for Mesh Editing from Single Image

Teng-Fang Hsiao,Bo-Kai Ruan,Yu-Lun Liu,Hong-Han Shuai

Main category: cs.CV

TL;DR: VecSet-Edit:首个基于VecSet大重建模型的3D网格编辑流程,通过分析空间属性实现精确区域定位,无需3D掩码,保留几何和纹理细节

  • Motivation: 当前3D编辑方法主要关注3D高斯泼溅或多视角图像,直接编辑3D网格的研究不足。现有方法如VoxHammer依赖体素表示,存在分辨率限制且需要费时的3D掩码标注
  • Method: 1) 基于VecSet令牌空间属性分析,发现令牌子集控制不同几何区域;2) 引入掩码引导令牌播种和注意力对齐令牌门控策略,仅用2D图像条件精确定位目标区域;3) 设计漂移感知令牌剪枝,在去噪过程中剔除几何异常值;4) 细节保留纹理烘焙模块保持原始网格的几何和纹理信息
  • Result: 提出的VecSet-Edit是首个利用高保真VecSet大重建模型进行网格编辑的流程,能够实现精确的3D网格编辑,无需3D掩码,同时保留原始网格的几何和纹理细节
  • Conclusion: VecSet-Edit通过分析VecSet令牌的空间特性,结合创新的令牌操作策略,实现了高效精确的3D网格编辑,解决了现有方法的分辨率限制和掩码依赖问题,为3D网格编辑提供了新方向

[53] When and Where to Attack? Stage-wise Attention-Guided Adversarial Attack on Large Vision Language Models

Jaehyun Kwak,Nam Cao,Boryeong Cho,Segyu Lee,Sumyeong Ahn,Se-Young Yun

Main category: cs.CV

TL;DR: 提出SAGA攻击框架,通过注意力引导的渐进式扰动,在有限扰动预算下实现更有效的LVLM对抗攻击

  • Motivation: 现有基于输入变换的对抗攻击方法(如随机裁剪)存在随机性且无法高效利用有限的像素扰动预算,需要更有效的攻击策略来暴露大型视觉语言模型的安全漏洞
  • Method: 提出SAGA(Stage-wise Attention-Guided Attack)框架,基于两个关键观察:1)区域注意力分数与对抗损失敏感性正相关;2)攻击高注意力区域会引发注意力向后续显著区域的结构性重分布。该方法渐进地将扰动集中在高注意力区域
  • Result: SAGA在10个大型视觉语言模型上实现了最先进的攻击成功率,同时产生高度不可感知的对抗样本,更高效地利用了有限的扰动预算
  • Conclusion: 注意力引导的渐进式攻击策略能有效提升对抗攻击效率,SAGA框架为评估LVLM安全漏洞提供了强有力的工具

[54] SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration

Zekun Li,Ning Wang,Tongxin Bai,Changwang Mei,Peisong Wang,Shuang Qiu,Jian Cheng

Main category: cs.CV

TL;DR: SparVAR是一种无需训练的高效VAR加速框架,通过利用注意力机制的特性实现稀疏注意力计算,显著提升高分辨率图像生成速度

  • Motivation: 传统VAR模型在生成高分辨率图像时,注意力计算复杂度随分辨率四次方增长,导致严重延迟。现有加速方法跳过高分辨率尺度会损失高频细节和图像质量
  • Method: 利用VAR注意力的三个特性:强注意力汇聚、跨尺度激活相似性和显著局部性。动态预测高分辨率尺度的稀疏注意力模式,通过索引映射机制构建尺度自相似稀疏注意力,并提出跨尺度局部稀疏注意力和高效块状稀疏核
  • Result: SparVAR将8B模型生成1024×1024高分辨率图像的时间减少到1秒,比FlashAttention加速的VAR基线快1.57倍,同时几乎保留所有高频细节。与现有尺度跳过策略结合时,加速比可达2.28倍
  • Conclusion: SparVAR是一种有效的训练免费VAR加速框架,通过稀疏注意力计算显著提升高分辨率图像生成效率,同时保持图像质量,为解决VAR模型计算瓶颈提供了新思路

[55] Enabling Real-Time Colonoscopic Polyp Segmentation on Commodity CPUs via Ultra-Lightweight Architecture

Weihao Gao,Zhuo Deng,Zheng Gong,Lan Ma

Main category: cs.CV

TL;DR: 提出UltraSeg系列模型,在极端压缩(<0.3M参数)下实现结肠息肉实时分割,可在CPU上运行(90 FPS),适用于资源受限的医疗场景。

  • Motivation: 当前高精度分割模型依赖GPU,难以在基层医院、移动内窥镜单元或胶囊机器人等资源受限环境中部署,需要开发轻量级解决方案。
  • Method: 提出UltraSeg家族模型:UltraSeg-108K针对单中心数据优化,UltraSeg-130K针对多中心多模态图像。通过联合优化编码器-解码器宽度、引入受限扩张卷积扩大感受野、集成跨层轻量级融合模块,实现高效分割。
  • Result: 在7个公共数据集上评估,UltraSeg仅用U-Net 0.4%的参数(31M→0.13M),保持>94%的Dice分数,在单CPU核心上达到90 FPS。
  • Conclusion: UltraSeg为极端压缩领域建立了强大且临床可行的基线,为资源受限环境提供了即时可部署的解决方案,不仅适用于结肠镜检查,也为更广泛的微创手术视觉应用提供了可复制的蓝图。

[56] Interactive Spatial-Frequency Fusion Mamba for Multi-Modal Image Fusion

Yixin Zhu,Long Lv,Pingping Zhang,Xuehu Liu,Tongdan Tang,Feng Tian,Weibing Sun,Huchuan Lu

Main category: cs.CV

TL;DR: 提出ISFM框架,通过交互式空间-频率融合和多尺度频率融合,提升多模态图像融合性能。

  • Motivation: 现有多模态图像融合方法虽然引入了频域信息,但通常采用简单的串行或并行空间-频率融合,缺乏交互机制,限制了特征互补性。
  • Method: 1. 模态特定提取器(MSE)提取各模态特征;2. 多尺度频率融合(MFF)自适应整合多尺度低频和高频分量;3. 交互式空间-频率融合(ISF)利用频率特征引导跨模态空间特征。
  • Result: 在六个MMIF数据集上的实验表明,ISFM优于其他最先进方法。
  • Conclusion: 提出的ISFM框架通过有效的空间-频率交互融合,能够更好地保留纹理细节和重要信息,在多模态图像融合任务中表现出色。

[57] LCUDiff: Latent Capacity Upgrade Diffusion for Faithful Human Body Restoration

Jue Gong,Zihan Zhou,Jingkai Wang,Shu Li,Libo Liu,Jianliang Lan,Yulun Zhang

Main category: cs.CV

TL;DR: LCUDiff提出了一种稳定的一步式框架,将预训练的潜在扩散模型从4通道潜在空间升级到16通道潜在空间,通过通道分割蒸馏、先验保持适应和解码器路由来提高人体图像恢复的保真度。

  • Motivation: 现有的人体图像恢复方法在保真度方面存在不足,特别是基于扩散的方法中,变分自编码器(VAE)成为恢复保真度的瓶颈。需要一种既能保持一步式效率又能提高恢复质量的方法。
  • Method: 1. 将预训练的潜在扩散模型从4通道潜在空间升级到16通道潜在空间;2. 使用通道分割蒸馏(CSD)进行VAE微调,保持前4通道与预训练先验对齐,额外通道编码高频细节;3. 设计先验保持适应(PPA)来平滑连接4通道扩散主干与高维16通道潜在空间;4. 提出解码器路由(DeR),基于恢复质量评分注释进行每样本解码器路由。
  • Result: 在合成和真实世界数据集上的实验表明,该方法在轻度退化条件下取得了具有竞争力的结果,具有更高的保真度和更少的伪影,同时保持了一步式效率。
  • Conclusion: LCUDiff通过升级潜在空间维度、精心设计的蒸馏和适应策略,有效解决了现有扩散基人体恢复方法中的VAE瓶颈问题,在保持效率的同时显著提高了恢复质量。

[58] Med-MMFL: A Multimodal Federated Learning Benchmark in Healthcare

Aavash Chhetri,Bibek Niroula,Pratik Shrestha,Yash Raj Shrestha,Lesley A Anderson,Prashnna K Gyawali,Loris Bazzani,Binod Bhattarai

Main category: cs.CV

TL;DR: Med-MMFL是首个医学多模态联邦学习基准,涵盖多种模态、任务和联邦场景,旨在推动医学MMFL的系统性评估和研究。

  • Motivation: 当前医学联邦学习基准稀缺,主要关注单模态或双模态,缺乏多模态标准化评估,阻碍了医学多模态联邦学习的系统性发展。
  • Method: 构建Med-MMFL基准,包含2-4种模态的医学数据集(共10种独特模态),评估6种代表性FL算法,涵盖不同聚合策略、损失函数和正则化技术,在自然联邦、合成IID和非IID设置下进行实验。
  • Result: 基准实现了对分割、分类、模态对齐(检索)和视觉问答任务的评估,提供了完整的基准实现和数据处理流程,支持未来MMFL方法的可复现性和公平比较。
  • Conclusion: Med-MMFL填补了医学多模态联邦学习基准的空白,为系统评估和推进医学MMFL研究提供了标准化平台,促进该领域的发展。

[59] TrajVG: 3D Trajectory-Coupled Visual Geometry Learning

Xingyu Miao,Weiguang Zhao,Tao Lu,Linning Yu,Mulin Yu,Yang Long,Jiangmiao Pang,Junting Dong

Main category: cs.CV

TL;DR: TrajVG是一个3D重建框架,通过显式预测相机坐标系中的3D轨迹来解决视频中物体运动导致的全局参考模糊和局部点云漂移问题,在3D跟踪、姿态估计、点云重建和视频深度任务上超越现有前馈方法。

  • Motivation: 现有前馈多帧3D重建模型在处理包含物体运动的视频时性能下降:全局参考在多运动下变得模糊,而局部点云严重依赖估计的相对姿态且容易漂移,导致跨帧错位和结构重复。
  • Method: 提出TrajVG框架,将跨帧3D对应关系作为显式预测,通过估计相机坐标系中的3D轨迹。耦合稀疏轨迹、每帧局部点云和相对相机姿态,采用几何一致性目标:(1)具有受控梯度流的双向轨迹-点云一致性;(2)由静态跟踪锚点驱动的姿态一致性目标,抑制动态区域的梯度。为扩展到缺乏3D轨迹标签的真实视频,将相同耦合约束重新表述为仅使用伪2D轨迹的自监督目标。
  • Result: 在3D跟踪、姿态估计、点云重建和视频深度等广泛实验中,TrajVG超越了当前的前馈性能基线。
  • Conclusion: 通过显式预测3D轨迹并耦合多种几何一致性约束,TrajVG能够有效处理视频中的物体运动问题,在多个3D重建相关任务上取得优越性能,且能通过自监督方式扩展到缺乏标注的真实视频数据。

[60] SynthVerse: A Large-Scale Diverse Synthetic Dataset for Point Tracking

Weiguang Zhao,Haoran Xu,Xingyu Miao,Qin Zhao,Rui Zhang,Kaizhu Huang,Ning Gao,Peizhou Cao,Mingze Sun,Mulin Yu,Tao Lu,Linning Xu,Junting Dong,Jiangmiao Pang

Main category: cs.CV

TL;DR: SynthVerse是一个大规模、多样化的合成数据集,专门为点跟踪任务设计,包含现有数据集缺乏的新领域和对象类型,显著提升了点跟踪模型的泛化能力。

  • Motivation: 通用点跟踪的发展受到高质量数据不足的限制,现有数据集多样性不够且轨迹标注不完美,需要更丰富的数据集来推动点跟踪技术的进步。
  • Method: 创建SynthVerse合成数据集,包含动画电影风格内容、具身操作、场景导航和关节对象等新领域,提供高质量动态运动和交互,并建立多样化的点跟踪基准。
  • Result: 使用SynthVerse训练能带来一致的泛化改进,实验和分析揭示了现有跟踪器在多样化设置下的局限性。
  • Conclusion: SynthVerse通过扩展数据集多样性,为点跟踪提供了更鲁棒的训练和评估基础,推动了通用点跟踪技术的发展。

Tianming Liang,Qirui Du,Jian-Fang Hu,Haichao Jiang,Zicheng Lin,Wei-Shi Zheng

Main category: cs.CV

TL;DR: Seg-ReSearch:一种新的分割范式,通过结合推理和外部搜索来解决MLLMs知识冻结问题,在需要外部知识的视频对象分割任务上表现优异。

  • Motivation: 当前基于多模态大语言模型的分割系统受限于其冻结的内部知识,无法处理涉及最新信息或领域特定概念的动态开放世界查询。
  • Method: 提出Seg-ReSearch范式,支持交替推理和外部搜索;采用分层奖励设计协调初始指导和渐进激励,缓解稀疏结果信号与严格逐步监督之间的矛盾。
  • Result: 在OK-VOS基准测试和两个现有推理分割基准上,Seg-ReSearch显著提升了最先进方法的性能。
  • Conclusion: Seg-ReSearch通过结合推理和外部搜索,成功突破了MLLMs的知识瓶颈,为处理动态开放世界查询的分割任务提供了有效解决方案。

[62] Temporal Slowness in Central Vision Drives Semantic Object Learning

Timothy Schaumlöffel,Arthur Aubret,Gemma Roig,Jochen Triesch

Main category: cs.CV

TL;DR: 结合中央视觉和时间缓慢性学习能改善从人类视觉经验中学习语义物体表征,中央视觉强化前景物体特征提取,时间缓慢性编码更广泛的语义信息。

  • Motivation: 研究人类如何从自我中心的视觉流中以最小监督获得语义物体表征,特别关注中央视觉和时间缓慢性学习在形成这些表征中的作用。
  • Method: 使用Ego4D数据集模拟五个月的人类视觉经验,用最先进的注视预测模型生成注视坐标,提取模拟中央视觉的裁剪区域,并训练时间对比自监督学习模型。
  • Result: 结合时间缓慢性和中央视觉能改善物体表征的不同语义方面的编码:中央视觉强化前景物体特征提取,而时间缓慢性(特别是在注视眼动期间)使模型能编码更广泛的物体语义信息。
  • Conclusion: 中央视觉和时间缓慢性学习的结合为人类如何从自然视觉经验中发展语义物体表征提供了新的机制见解。

[63] SALAD-Pan: Sensor-Agnostic Latent Adaptive Diffusion for Pan-Sharpening

Junjie Li,Congyang Ou,Haokui Zhang,Guoting Wei,Shengqin Jiang,Ying Li,Chunhua Shen

Main category: cs.CV

TL;DR: SALAD-Pan是一种传感器无关的潜在空间扩散方法,用于高效的全色锐化,通过潜在空间扩散和跨光谱注意力模块实现高性能融合,速度提升2-3倍并具备零样本跨传感器能力。

  • Motivation: 现有扩散模型在全色锐化中存在两个主要问题:1)在像素空间进行扩散导致高延迟;2)需要为不同多光谱传感器训练特定模型,缺乏通用性。需要一种更高效且传感器无关的解决方案。
  • Method: 1)训练波段单通道VAE将高分辨率多光谱图像编码为紧凑潜在表示;2)通过单向和双向交互控制结构将光谱物理特性、全色和多光谱图像注入扩散主干;3)在扩散模型中心层添加轻量级跨光谱注意力模块增强光谱连接。
  • Result: 在GaoFen-2、QuickBird和WorldView-3数据集上,SALAD-Pan在所有三个数据集上均优于最先进的基于扩散的方法,推理速度提升2-3倍,并展现出强大的零样本(跨传感器)能力。
  • Conclusion: SALAD-Pan通过潜在空间扩散、传感器无关设计和跨光谱注意力机制,实现了高效、高精度的全色锐化,解决了现有方法的延迟和传感器特定限制问题。

[64] Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Byungwoo Jeon,Yoonwoo Jeong,Hyunseok Lee,Minsu Cho,Jinwoo Shin

Main category: cs.CV

TL;DR: VaLR是一个视觉对齐的潜在推理框架,通过在思维链推理步骤前动态生成视觉对齐的潜在标记,解决多模态大语言模型在长上下文推理中视觉信息稀释的问题。

  • Motivation: 现有MLLMs在多步推理任务上表现不佳,主要原因是长上下文生成过程中视觉信息逐渐稀释,阻碍了模型充分利用测试时缩放能力。
  • Method: 提出VaLR框架,在思维链推理步骤前动态生成视觉对齐的潜在标记,通过将MLLM中间嵌入与视觉编码器嵌入对齐来保持视觉知识。
  • Result: VaLR在需要长上下文理解或精确视觉感知的多个基准测试中表现优于现有方法,在VSI-Bench上从33.0%提升到52.9%,比Qwen2.5-VL提高19.9个百分点。
  • Conclusion: VaLR通过视觉对齐的潜在推理有效解决了MLLMs在长上下文推理中的视觉信息稀释问题,展现出测试时缩放行为,显著提升了多步推理性能。

[65] S-MUSt3R: Sliding Multi-view 3D Reconstruction

Leonid Antsfeld,Boris Chidlovskii,Yohann Cabon,Vincent Leroy,Jerome Revaud

Main category: cs.CV

TL;DR: S-MUSt3R:一种简单高效的流水线,通过序列分割、段对齐和轻量级闭环优化,扩展基础模型在单目3D重建中的可扩展性,无需重新训练模型。

  • Motivation: 尽管3D视觉基础模型在未标定图像感知方面表现出色,但将其扩展到大规模RGB流3D重建仍面临内存限制的挑战。现有方法难以处理长序列,需要更高效的解决方案。
  • Method: 提出S-MUSt3R流水线:1)将长序列分割为较短的子序列;2)对每个子序列使用MUSt3R基础模型进行3D重建;3)通过段对齐和轻量级闭环优化整合各子序列结果;4)直接在度量空间进行预测。
  • Result: 在TUM、7-Scenes和专有机器人导航数据集上验证,S-MUSt3R能成功处理长RGB序列,产生准确一致的3D重建,性能与传统复杂架构方法相当,且具有内存效率优势。
  • Conclusion: S-MUSt3R展示了利用MUSt3R基础模型实现可扩展单目3D重建的潜力,无需重新训练即可处理长序列,在真实世界场景中具有直接度量空间预测的重要优势。

[66] SLUM-i: Semi-supervised Learning for Urban Mapping of Informal Settlements and Data Quality Benchmarking

Muhammad Taha Mukhtar,Syed Musa Ali Kazmi,Khola Naseem,Muhammad Ali Chattha,Andreas Dengel,Sheraz Ahmed,Muhammad Naseer Bajwa,Muhammad Imran Malik

Main category: cs.CV

TL;DR: 提出一个用于非正式住区半监督分割的新框架,包含类感知自适应阈值和原型库系统,在8个城市数据集上超越现有方法,并展示出色的域迁移能力。

  • Motivation: 低收入和中等收入国家城市扩张导致非正式住区快速增长,但大规模映射面临标注稀缺和数据质量挑战(光谱模糊性和标注噪声),需要更鲁棒的解决方案。
  • Method: 1) 构建包含拉合尔、卡拉奇、孟买的基准数据集(1869平方公里);2) 提出半监督分割框架,包含类感知自适应阈值机制(动态调整置信度阈值防止少数类抑制)和原型库系统(通过历史学习的高保真特征表示强制语义一致性)。
  • Result: 在三大洲8个城市的实验中超越现有半监督基线方法,仅使用10%源标签训练的模型在未见地理区域达到0.461 mIoU,优于完全监督模型的零样本泛化能力。
  • Conclusion: 提出的框架能有效处理非正式住区映射中的类不平衡和特征退化问题,具有强大的域迁移能力,为大规模非正式住区监测提供了实用解决方案。

[67] OmniRad: A Radiological Foundation Model for Multi-Task Medical Image Analysis

Luca Zedda,Andrea Loddo,Cecilia Di Ruberto

Main category: cs.CV

TL;DR: OmniRad是一个在120万医学图像上预训练的放射学基础模型,通过自监督学习获得通用视觉表示,在分类和分割任务上优于现有基础模型。

  • Motivation: 放射学分析需要能够支持跨成像模态和异构下游任务的预训练视觉表示。现有模型在放射学特定任务上的表现有待提升,需要专门针对医学影像特点设计的预训练方法。
  • Method: 采用自监督学习在120万医学图像上预训练OmniRad模型,设计时强调表示重用和跨任务可迁移性。评估时采用多种下游适应策略:包括冻结骨干网络+轻量级任务特定适配器,以及端到端微调分类任务。
  • Result: 在MedMNISTv2数据集上,分类F1分数比竞争基础模型提升最高达2.05%;在六个MedSegBench数据集上,使用冻结表示时平均Dice分数有改进。定性分析和潜在空间可视化显示改进的特征聚类和模态相关分离。
  • Conclusion: OmniRad作为专门针对放射学设计的自监督基础模型,在多种医学影像任务上表现出优越性能,验证了放射学启发设计原则的有效性,为异构医学影像分析提供了强大的预训练表示。

[68] Nix and Fix: Targeting 1000x Compression of 3D Gaussian Splatting with Diffusion Models

Cem Eteke,Enzo Tartaglione

Main category: cs.CV

TL;DR: NiFi:通过基于扩散的一步蒸馏进行极端3DGS压缩,在极低码率下实现最佳感知质量

  • Motivation: 3D高斯溅射(3DGS)虽然实现了实时渲染,但空间需求大,限制了沉浸式通信等应用。现有压缩方法在低码率下会产生明显伪影,严重影响视觉质量。
  • Method: 提出NiFi方法,通过基于伪影感知的扩散模型进行一步蒸馏,实现极端3DGS压缩。该方法专注于恢复压缩过程中引入的伪影。
  • Result: 在极低码率下(低至0.1MB)实现最先进的感知质量,相比原始3DGS在可比感知性能下实现近1000倍的码率提升。
  • Conclusion: NiFi为3DGS的极端压缩提供了有效解决方案,显著降低了存储和传输需求,同时保持了高质量的视觉体验,代码将在接受后开源。

[69] Understanding Degradation with Vision Language Model

Guanzhou Lan,Chenyi Liao,Yuqi Yang,Qianli Ma,Zhigang Wang,Dong Wang,Bin Zhao,Xuelong Li

Main category: cs.CV

TL;DR: 本文提出DU-VLM,一种用于理解图像退化物理参数的多模态思维链模型,通过统一的自回归预测范式同时估计退化类型、参数键和连续物理值,并能作为零样本控制器用于图像恢复。

  • Motivation: 当前视觉语言模型在定性描述图像退化方面表现良好,但缺乏对底层参数物理的理解。需要一种能够同时识别退化类型、参数键及其连续物理值的结构化预测方法。
  • Method: 将退化理解重新定义为层次化结构化预测任务,证明这些子任务可以在自回归下一个token预测范式下统一。提出DU-VLM模型,使用监督微调和带结构化奖励的强化学习训练,并构建包含11万对干净-退化图像的大型数据集DU-110k。
  • Result: DU-VLM在准确性和鲁棒性上显著优于通用基线模型,能够泛化到未见过的分布。该模型还能作为零样本控制器,在不微调生成骨干网络的情况下实现高保真图像恢复。
  • Conclusion: 通过将退化理解重新定义为层次化结构化预测任务,并开发统一的预测范式,DU-VLM能够有效理解图像退化的物理参数,为图像恢复等应用提供强大支持。

[70] PEPR: Privileged Event-based Predictive Regularization for Domain Generalization

Gabriele Magrini,Federico Becattini,Niccolò Biondi,Pietro Pala

Main category: cs.CV

TL;DR: 提出PEPR框架,利用事件相机作为特权信息训练鲁棒的RGB模型,通过预测事件特征而非直接对齐来提升域泛化能力

  • Motivation: 视觉感知的深度神经网络对域偏移高度敏感,这限制了其在真实世界部署中的实用性。RGB图像语义丰富但域依赖性强,而事件流稀疏但更具域不变性,需要一种方法能结合两者优势
  • Method: 提出特权事件预测正则化(PEPR)框架,将特权信息学习重构为共享潜在空间中的预测问题。训练RGB编码器预测事件特征的潜在表示,而不是直接进行跨模态特征对齐,从而在保持语义丰富性的同时提取鲁棒性
  • Result: 训练得到的独立RGB模型在昼夜转换等域偏移场景下表现出更强的鲁棒性,在目标检测和语义分割任务上均优于基于对齐的基线方法
  • Conclusion: PEPR框架通过预测性正则化而非直接特征对齐,有效利用事件相机作为特权信息,成功训练出具有更好域泛化能力的单模态RGB模型

[71] SalFormer360: a transformer-based saliency estimation model for 360-degree videos

Mahmoud Z. A. Wahba,Francesco Barbato,Sara Baldoni,Federica Battisti

Main category: cs.CV

TL;DR: SalFormer360:基于Transformer的360度视频显著性估计模型,结合SegFormer编码器与自定义解码器,引入视点中心偏置,在多个基准数据集上超越现有SOTA方法。

  • Motivation: 360度视频的显著性估计在视口预测和沉浸式内容优化等应用中至关重要,需要专门针对360度内容设计的模型来提高预测准确性。
  • Method: 提出SalFormer360模型,基于SegFormer编码器(原用于2D分割任务)进行微调以适应360度内容,结合自定义解码器,并引入视点中心偏置来反映用户在360度环境中的注意力分布。
  • Result: 在三个最大的显著性估计基准数据集上,SalFormer360均优于现有最先进方法:在Sport360上PCC提升8.4%,PVS-HM上提升2.5%,VR-EyeTracking上提升18.6%。
  • Conclusion: SalFormer360通过Transformer架构和视点中心偏置的引入,显著提高了360度视频显著性估计的性能,为相关应用提供了有效的解决方案。

[72] ImmuVis: Hyperconvolutional Foundation Model for Imaging Mass Cytometry

Marcin Możejko,Dawid Uchal,Krzysztof Gogolewski,Piotr Kupidura,Szymon Łukasik,Jakub Giezgała,Tomasz Nocoń,Kacper Pietrzyk,Robert Pieniuta,Mateusz Sulimowicz,Michal Orzyłowski,Tomasz Siłkowski,Karol Zagródka,Eike Staub,Ewa Szczurek

Main category: cs.CV

TL;DR: ImmuVis是一个用于成像质谱流式细胞术的高效卷积基础模型,通过标记自适应超卷积处理可变标记集,在IMC17M数据集上预训练,在虚拟染色和分类任务中优于现有方法。

  • Motivation: 多重成像技术(如IMC)缺乏固定的通道空间,因为不同研究使用的标记集各不相同,这违反了标准视觉骨干网络的核心假设,需要能够处理任意标记子集的模型。
  • Method: 引入标记自适应超卷积,从学习的标记嵌入生成卷积核;在IMC17M数据集(28个队列,24,405张图像,265个标记,超过1700万个补丁)上使用自监督掩码重建进行预训练;采用异方差似然目标提供校准的不确定性估计。
  • Result: 在虚拟染色和下游分类任务中优于现有最先进方法和消融实验,计算成本显著低于基于Transformer的替代方案,是唯一通过异方差似然目标提供校准不确定性的模型。
  • Conclusion: ImmuVis是一个实用、高效的基础模型,适用于现实世界的成像质谱流式细胞术建模,能够处理任意测量的标记子集而无需重新训练。

[73] A labeled dataset of simulated phlebotomy procedures for medical AI: polygon annotations for object detection and human-object interaction

Raúl Jiménez Cruz,César Torres-Huitzil,Marco Franceschetti,Ronny Seiger,Luciano García-Bañuelos,Barbara Weber

Main category: cs.CV

TL;DR: 该论文提出了一个包含11,884张标注图像的静脉采血模拟训练数据集,图像来自高清视频,包含五种医疗相关物体的多边形标注,适用于医学训练自动化和人机交互研究。

  • Motivation: 为了推进医学训练自动化研究,特别是静脉采血程序的自动化和标准化,需要高质量、标注完善的训练数据集来支持工具检测、步骤识别和工作流分析等应用。
  • Method: 从高清视频中提取图像,使用SSIM过滤减少冗余,自动进行面部匿名化处理,然后对五种医疗相关类别(注射器、橡皮筋、消毒湿巾、手套、训练臂)进行多边形标注,最后将数据集划分为训练集、验证集和测试集。
  • Result: 创建了一个包含11,884张标注图像的数据集,标注格式兼容YOLOv8等现代目标检测框架,数据集已公开在Zenodo平台上,可用于静脉采血工具检测、程序步骤识别、工作流分析等多种应用。
  • Conclusion: 该数据集为医学训练自动化和人机交互研究提供了宝贵资源,能够支持开发提供结构化反馈的教育系统,有助于提高医学培训的质量和效率。

[74] PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective

Haokui Zhang,Congyang Ou,Dawei Yan,Peng Wang,Qingsen Yan,Ying Li,Rong Xiao,Chunhua Shen

Main category: cs.CV

TL;DR: PIO-FVLM:一种基于推理目标保持的视觉语言模型视觉token压缩方法,通过梯度显著性重排序和NMS选择重要token,实现高效推理加速

  • Motivation: 现有视觉语言模型压缩方法大多基于启发式规则(如视觉token间相似性或跨模态相似性),在压缩性能和实际部署方面存在局限。需要从推理目标保持的角度出发,开发更有效的压缩方法。
  • Method: 提出PIO-FVLM方法:1)设计层局部代理损失,生成token级梯度显著性指导视觉token重排序;2)基于非极大值抑制原则选择最有价值的视觉token;3)无需训练且兼容FlashAttention,可作为编码器无关方法独立部署,也可与编码器压缩方法结合使用。
  • Result: 在LLaVA-Next-7B上,仅保留11.1%的视觉token即可维持97.2%的原始性能,实现2.67倍预填充加速、2.11倍推理加速、6.22倍FLOPs降低和6.05倍KV缓存开销减少。
  • Conclusion: PIO-FVLM从推理目标保持的角度解决了视觉token压缩问题,在保持性能的同时显著加速推理,具有实际部署友好性,为视觉语言模型的高效推理提供了新思路。

[75] AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation

Jin-Chuan Shi,Binhong Ye,Tao Liu,Junzhe He,Yangjinhui Xu,Xiaoyang Liu,Zeju Li,Hao Chen,Chunhua Shen

Main category: cs.CV

TL;DR: AGILE:一种从单目视频重建动态手物交互的鲁棒框架,通过智能生成而非传统重建,解决了遮挡和SfM初始化脆弱的问题,产生可用于仿真的物理有效资产。

  • Motivation: 当前从单目视频重建动态手物交互的方法面临两个主要问题:1)依赖神经渲染在严重遮挡下产生碎片化、非仿真就绪的几何体;2)依赖脆弱的SfM初始化导致在真实场景视频中频繁失败。需要一种更鲁棒的方法来生成物理有效的仿真就绪资产。
  • Method: AGILE框架采用智能生成范式:1)使用视觉语言模型引导生成模型合成完整、水密的物体网格和高保真纹理;2)提出鲁棒的锚定-跟踪策略,绕过脆弱的SfM,在交互起始帧使用基础模型初始化物体姿态,然后通过生成资产与视频观察的视觉相似性进行时间传播;3)通过接触感知优化整合语义、几何和交互稳定性约束以确保物理合理性。
  • Result: 在HO3D、DexYCB和真实场景视频上的实验表明,AGILE在全局几何精度上优于基线方法,在挑战性序列上表现出卓越的鲁棒性(先前方法经常失败)。通过优先考虑物理有效性,该方法产生经过真实到仿真重定向验证的仿真就绪资产。
  • Conclusion: AGILE通过从重建转向智能生成的范式转变,解决了当前手物交互重建方法的关键限制,提供了一种鲁棒的解决方案,能够处理遮挡和真实场景视频,产生物理有效的仿真就绪资产,适用于机器人和VR应用。

[76] DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking

Sijia Chen,Lijuan Ma,Yanqiu Yu,En Yu,Liman Liu,Wenbing Tao

Main category: cs.CV

TL;DR: 提出RGBD Referring Multi-Object Tracking (DRMOT)新任务,构建DRSet数据集,并提出DRTrack框架,通过融合RGB、深度和语言模态实现3D感知的目标跟踪。

  • Motivation: 现有的RMOT模型仅依赖2D RGB数据,难以准确检测和关联具有复杂空间语义的目标(如"离相机最近的人"),且在严重遮挡下难以保持可靠的身份识别,因为缺乏明确的3D空间信息。
  • Method: 提出DRTrack框架:1) 从RGB-D-L联合输入进行深度感知的目标定位;2) 通过融入深度线索增强轨迹关联的鲁棒性;3) 使用MLLM(多模态大语言模型)引导的深度参考跟踪方法。
  • Result: 在DRSet数据集上的大量实验证明了该框架的有效性。DRSet包含187个场景的RGB图像和深度图,以及240个语言描述(其中56个包含深度相关信息)。
  • Conclusion: DRMOT任务通过融合RGB、深度和语言模态实现了3D感知的跟踪,解决了现有2D RMOT模型在空间语义理解和遮挡处理方面的局限性,为交互式AI系统提供了更可靠的多目标跟踪解决方案。

[77] Annotation Free Spacecraft Detection and Segmentation using Vision Language Models

Samet Hicsonmez,Jose Sosa,Dan Pineau,Inder Pal Singh,Arunkumar Rathinam,Abd El Rahman Shabayek,Djamila Aouada

Main category: cs.CV

TL;DR: 提出基于视觉语言模型的无标注航天器检测与分割方法,通过伪标签蒸馏提升性能

  • Motivation: 空间应用中手动标注困难(低可见度、光照变化、背景融合),需要无需大量标注的检测分割方法
  • Method: 使用预训练VLM为少量无标注数据生成伪标签,通过师生标签蒸馏框架训练轻量模型
  • Result: 在SPARK-2024、SPEED+、TANGO数据集上,分割任务的AP提升高达10个点
  • Conclusion: VLM伪标签蒸馏能有效提升空间目标检测分割性能,无需人工标注,代码模型已开源

[78] SAR-RAG: ATR Visual Question Answering by Semantic Search, Retrieval, and MLLM Generation

David F. Ramirez,Tim Overman,Kristen Jaskie,Joe Marvin,Andreas Spanias

Main category: cs.CV

TL;DR: 提出SAR-RAG方法,结合多模态大语言模型和向量数据库,通过检索增强生成提升SAR自动目标识别的准确性

  • Motivation: 合成孔径雷达(SAR)在军事应用中用于检测车辆目标,但SAR图像中不同车辆可能难以区分。现有方法需要提升目标识别准确性,特别是车辆类型、特征和尺寸的识别。
  • Method: 提出SAR-RAG方法:将多模态大语言模型(MLLM)与语义嵌入向量数据库结合,构建检索增强生成系统。系统通过检索已知真实目标类型的过往图像示例,与待识别目标进行比较,提升识别准确性。
  • Result: 在搜索检索指标、分类准确率和车辆尺寸数值回归方面都显示出改进。SAR-RAG作为附加的ATR记忆库,相比基线MLLM方法在所有指标上都有提升。
  • Conclusion: SAR-RAG方法通过检索增强生成机制,有效提升了SAR自动目标识别的性能,为军事侦察和安全应用提供了更准确的目标识别解决方案。

[79] How to rewrite the stars: Mapping your orchard over time through constellations of fruits

Gonçalo P. Matos,Carlos Santiago,João P. Costeira,Ricardo L. Saldanha,Ernesto M. Morgado

Main category: cs.CV

TL;DR: 提出基於3D質心星座匹配的新方法,用於跨時間追蹤果園中相同果實的生長,並可用於構建果園地圖和機器人自主導航。

  • Motivation: 傳統人工測量果實生長耗時且不可擴展,現有計算機視覺方法難以跨時間匹配相同果實,特別是在非剛性、遮擋和視覺特徵少的挑戰性環境中。
  • Method: 提出基於3D質心星座的新範式,引入稀疏3D點雲描述符,通過匹配星座而非單個果實來處理非剛性、遮擋和視覺特徵少的問題。
  • Result: 該方法能成功跨時間匹配果實,並可用於構建果園地圖和定位6自由度相機姿態,為果園機器人自主導航和選擇性採摘提供解決方案。
  • Conclusion: 星座匹配方法有效解決了跨時間果實追蹤的難題,為精準農業中的生長監測和自動化操作提供了新工具。

[80] Mitigating Long-Tail Bias via Prompt-Controlled Diffusion Augmentation

Buddhi Wijenayake,Nichula Wasalathilake,Roshan Godaliyadda,Vijitha Herath,Parakrama Ekanayake,Vishal M. Patel

Main category: cs.CV

TL;DR: 提出一个提示控制的扩散增强框架,通过两阶段方法合成具有明确领域和语义组成控制的配对标签-图像样本,以缓解遥感图像分割中的长尾分布问题

  • Motivation: 高分辨率遥感图像语义分割对城市测绘和土地覆盖监测至关重要,但训练数据通常存在严重的像素长尾不平衡问题。在LoveDA数据集中,这一问题因显式的城市/乡村分割而加剧,这两个领域具有不同的外观和不一致的类别频率统计
  • Method: 两阶段提示控制扩散增强框架:阶段A使用领域感知、掩码比率条件离散扩散模型生成满足用户指定类别比率目标并尊重学习到的共现结构的布局;阶段B使用Stable Diffusion和ControlNet指导将布局转换为逼真、领域一致的图像
  • Result: 将生成的比率和领域控制的合成对与真实数据混合,在多个分割骨干网络上取得了一致的改进,增益主要集中在少数类别上,并改善了城市和乡村的泛化能力
  • Conclusion: 可控增强是缓解遥感分割中长尾偏见的实用机制,该方法在少数类别上表现优异,提升了跨领域泛化性能

[81] Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

Chengtao Lv,Yumeng Shi,Yushi Huang,Ruihao Gong,Shen Ren,Wenya Wang

Main category: cs.CV

TL;DR: Light Forcing:首个为自回归视频生成模型设计的稀疏注意力解决方案,通过分块感知增长机制和分层稀疏注意力,在保持质量的同时显著提升效率。

  • Motivation: 现有稀疏注意力解决方案主要针对双向模型,应用于自回归视频生成模型时会导致性能显著下降,原因包括分块生成的孤立考虑和对历史信息上下文利用不足。
  • Method: 提出Light Forcing方法,包含:1) 分块感知增长机制,定量估计每个分块的贡献以确定稀疏性分配;2) 分层稀疏注意力,以粗到细的方式捕捉信息丰富的历史和局部上下文,采用帧级和块级两级掩码选择策略。
  • Result: 在质量和效率上均优于现有稀疏注意力方法:VBench得分84.5,端到端加速1.2-1.3倍。结合FP8量化和LightVAE,在RTX 5090 GPU上实现2.3倍加速和19.7 FPS。
  • Conclusion: Light Forcing是首个专门为自回归视频生成模型设计的稀疏注意力解决方案,通过创新的分块感知增长和分层稀疏注意力机制,在保持生成质量的同时显著提升了计算效率。

[82] VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

Qing'an Liu,Juntong Feng,Yuhao Wang,Xinzhe Han,Yujie Cheng,Yue Zhu,Haiwen Diao,Yunzhi Zhuge,Huchuan Lu

Main category: cs.CV

TL;DR: VISTA-Bench是一个评估视觉语言模型处理可视化文本能力的基准测试,发现现有模型在纯文本查询和可视化文本查询之间存在显著的模态差距。

  • Motivation: 现有视觉语言模型基准主要关注纯文本查询,但现实场景中语言经常以可视化文本形式出现在图像中,需要评估模型处理这种输入的能力。
  • Method: 构建VISTA-Bench系统基准,涵盖多模态感知、推理到单模态理解领域,通过对比纯文本和可视化文本问题在受控渲染条件下的表现来评估模型。
  • Result: 评估20多个代表性VLM发现显著的模态差距:在纯文本查询表现良好的模型,当相同语义内容以可视化文本呈现时性能大幅下降,且感知难度增加会放大这一差距。
  • Conclusion: VISTA-Bench提供了一个原则性评估框架来诊断这一限制,并指导在标记化文本和像素之间实现更统一的语言表示。

[83] X2HDR: HDR Image Generation in a Perceptually Uniform Space

Ronghuan Wu,Wanchao Su,Kede Ma,Jing Liao,Rafał K. Mantiuk

Main category: cs.CV

TL;DR: 将预训练的LDR扩散模型通过感知均匀编码(PU21/PQ)适配到HDR生成,无需从头训练,支持文本到HDR和RAW到HDR重建

  • Motivation: 当前主流图像生成器(如Stable Diffusion)受限于大规模HDR训练数据的缺乏,只能生成低动态范围(LDR)图像,而HDR格式和显示器日益普及,需要解决这一限制
  • Method: 将HDR图像转换为感知均匀编码(PU21或PQ),利用预训练的LDR VAE重建这些编码,然后冻结VAE,仅通过低秩适配在感知均匀空间中微调解码器
  • Result: 该方法在感知保真度、文本图像对齐和有效动态范围方面均优于先前技术,支持文本到HDR合成和单图像RAW到HDR重建
  • Conclusion: 通过感知均匀编码适配现有扩散模型是高效实现HDR生成的有效途径,无需大规模HDR训练数据或从头训练模型

[84] XtraLight-MedMamba for Classification of Neoplastic Tubular Adenomas

Aqsa Sultana,Rayan Afsar,Ahmed Rahu,Surendra P. Singh,Brian Shula,Brandon Combs,Derrick Forchetti,Vijayan K. Asari

Main category: cs.CV

TL;DR: XtraLight-MedMamba:基于状态空间的超轻量深度学习框架,用于从全切片图像中分类肿瘤性管状腺瘤,仅用约3.2万参数就达到97.18%准确率

  • Motivation: 结直肠癌筛查中,低级别异型增生的风险评估受限于主观组织病理学解释。数字病理学和深度学习为识别人类肉眼难以察觉的恶性进展相关细微形态模式提供了新机会。
  • Method: 提出XtraLight-MedMamba框架:结合ConvNext浅层特征提取器与并行视觉Mamba来建模长短程依赖和图像泛化;集成空间和通道注意力桥模块增强多尺度特征提取;使用固定非负正交分类器实现参数减少和泛化改进。
  • Result: 在基于后续CRC发展的病例对照队列数据集上,模型仅用约32,000参数就实现了97.18%的准确率和0.9767的F1分数,优于参数复杂度显著更高的基于Transformer和传统Mamba架构。
  • Conclusion: XtraLight-MedMamba为结直肠癌风险分层提供了一种高效、轻量化的深度学习解决方案,能够在保持高精度的同时大幅减少模型参数,具有临床应用潜力。

[85] Toward Reliable and Explainable Nail Disease Classification: Leveraging Adversarial Training and Grad-CAM Visualization

Farzia Hossain,Samanta Ghosh,Shahida Begum,B. M. Shahria Alam,Mohammad Tahmid Noor,Md Parvez Mia,Nishat Tasnim Niloy

Main category: cs.CV

TL;DR: 提出基于机器学习的指甲疾病自动分类系统,使用四种CNN模型在公开数据集上训练,InceptionV3表现最佳(95.57%准确率),并通过对抗训练和SHAP解释增强模型鲁棒性和可解释性。

  • Motivation: 人类指甲疾病在各年龄段逐渐增多,尤其在老年人中常被忽视直到严重。早期检测和准确诊断很重要,因为它们可能反映身体健康问题,但由于疾病类型间视觉差异细微而具有挑战性。
  • Method: 使用包含3,835张图像、涵盖六个类别的公开数据集,将所有图像调整为224x224像素。训练并分析四种CNN模型:InceptionV3、DenseNet201、EfficientNetV2和ResNet50。采用对抗训练增强模型鲁棒性,使用SHAP进行特征重要性可视化。
  • Result: InceptionV3表现最佳,准确率达到95.57%,DenseNet201次之(94.79%)。对抗训练提高了模型对噪声和复杂图像的鲁棒性,SHAP分析提供了模型决策的可解释性。
  • Conclusion: 该系统可作为医生的辅助工具,使指甲疾病诊断更加准确和快速,为医疗诊断提供了有效的自动化支持。

[86] LitS: A novel Neighborhood Descriptor for Point Clouds

Jonatan B. Bastos,Francisco F. Rivera,Oscar G. Lorenzo,David L. Vilariño,José C. Cabaleiro,Alberto M. Esmorís,Tomás F. Pena

Main category: cs.CV

TL;DR: LitS是一种用于2D和3D点云的新型邻域描述符,通过方向性锥形区域统计邻居数量来表征局部几何结构

  • Motivation: 随着3D扫描技术的发展,点云成为表示3D空间数据的基础。实际分析依赖于准确的邻域描述符来表征点云的局部几何结构,但现有方法可能无法充分适应不同场景和点云类型
  • Method: 提出LitS描述符,在单位圆上定义分段常数函数,每个方向对应局部参考系中的一个方向。通过统计每个方向锥形区域内的邻居数量来构建描述符,提供"常规"和"累积"两种版本,并包含两个可调参数以适应不同场景
  • Result: LitS能够捕获局部点排列的细微差别,对点云数据中常见的密度变化和噪声具有鲁棒性。通过分析相邻点之间LitS的变化,可以从局部邻域信息中获得全局结构理解
  • Conclusion: LitS是一种多功能邻域描述符,能够适应各种上下文和点云类型,为点云分析提供了强大的局部几何表征工具

[87] When LLaVA Meets Objects: Token Composition for Vision-Language-Models

Soumya Jahagirdar,Walid Bousselham,Anna Kukleva,Hilde Kuehne

Main category: cs.CV

TL;DR: Mask-LLaVA:通过结合掩码对象表示、全局token和局部patch token,为自回归VLM创建紧凑而信息丰富的视觉表示,可在推理时灵活减少token数量而不显著降低性能。

  • Motivation: 当前自回归视觉语言模型通常依赖大量视觉token来表示图像,导致推理时需要更多计算资源。为了解决这个问题,需要开发更紧凑但信息丰富的视觉表示方法。
  • Method: 提出Mask-LLaVA框架,结合多级视觉特征:掩码对象表示、全局token和局部patch token。训练时使用所有token,但推理时可灵活减少掩码对象token数量。
  • Result: 在标准基准测试中,结果与当前token高效方法竞争,且仅使用原始LLaVA基线的一小部分视觉token就能获得可比性能。模型可在推理时动态选择token数量。
  • Conclusion: 结合多级特征可实现用更少token进行高效学习,同时在测试时允许动态token选择以获得良好性能,为自回归VLM提供了灵活高效的视觉表示方案。

[88] Laminating Representation Autoencoders for Efficient Diffusion

Ramón Calvo-González,François Fleuret

Main category: cs.CV

TL;DR: FlatDINO是一种变分自编码器,将DINOv2的密集补丁特征压缩为32个连续token的一维序列,实现8倍序列长度缩减和48倍维度压缩,显著降低扩散模型计算成本。

  • Motivation: 现有方法使用SSL补丁特征(如DINOv2)进行扩散生成,但这些密集补丁网格存在显著冗余,导致扩散过程计算成本过高。
  • Method: 提出FlatDINO变分自编码器,将DINOv2的补丁特征压缩为一维的32个连续token序列,大幅减少序列长度和总维度。
  • Result: 在ImageNet 256x256上,基于FlatDINO潜在空间的DiT-XL模型达到gFID 1.80,前向传播FLOPs减少8倍,训练步骤FLOPs最多减少4.5倍。
  • Conclusion: FlatDINO能有效压缩SSL特征表示,显著降低扩散模型计算成本,同时保持高质量图像生成能力,这是初步成果,工作仍在进行中。

[89] PerpetualWonder: Long-Horizon Action-Conditioned 4D Scene Generation

Jiahao Zhan,Zizhang Li,Hong-Xing Yu,Jiajun Wu

Main category: cs.CV

TL;DR: PerpetualWonder是一个混合生成模拟器,能够从单张图像生成长时程、动作条件的4D场景,通过物理状态与视觉表示的双向链接实现闭环系统。

  • Motivation: 当前方法在长时程4D场景生成任务上失败,因为它们的物理状态与视觉表示解耦,导致生成细化无法更新底层物理状态以支持后续交互。
  • Method: 提出首个真正的闭环系统,包含:1)新颖的统一表示,在物理状态和视觉基元间建立双向链接;2)鲁棒的更新机制,从多视角收集监督以解决优化歧义。
  • Result: 实验表明,从单张图像出发,PerpetualWonder能够成功模拟复杂、多步骤的长时程交互,保持物理合理性和视觉一致性。
  • Conclusion: PerpetualWonder通过物理状态与视觉表示的双向链接解决了长时程4D场景生成的挑战,实现了从单张图像生成物理合理且视觉一致的动态场景。

[90] CoWTracker: Tracking by Warping instead of Correlation

Zihang Lai,Eldar Insafutdinov,Edgar Sucar,Andrea Vedaldi

Main category: cs.CV

TL;DR: 提出了一种基于warping而非cost volume的新型密集点跟踪方法,通过迭代warping特征和transformer架构实现高效长程跟踪,在多个基准测试中达到SOTA性能,并能统一密集点跟踪和光流估计。

  • Motivation: 现有基于cost volume的密集点跟踪方法存在二次复杂度问题,限制了可扩展性和效率。需要一种更高效的方法来处理密集点跟踪任务。
  • Method: 提出基于warping的密集点跟踪方法,通过迭代地将目标帧特征warp到查询帧来细化跟踪估计,结合transformer架构进行联合时空推理,无需计算特征相关性即可建立长程对应关系。
  • Result: 在TAP-Vid-DAVIS、TAP-Vid-Kinetics和Robo-TAP等标准密集点跟踪基准测试中达到最先进性能。在光流估计任务上,有时甚至优于专门方法,在Sintel、KITTI和Spring基准上表现出色。
  • Conclusion: 基于warping的架构可以统一密集点跟踪和光流估计,提供了一种简单而有效的替代传统cost volume方法的新途径。

eess.AS

[91] Sounding Highlights: Dual-Pathway Audio Encoders for Audio-Visual Video Highlight Detection

Seohyun Joo,Yoori Oh

Main category: eess.AS

TL;DR: 提出DAViHD框架,通过双路径音频编码器(语义路径和动态路径)增强音频模态利用,在视频高光检测任务中实现SOTA性能

  • Motivation: 现有视频高光检测模型未能充分利用音频模态,主要关注高层语义特征而忽略了声音的丰富动态特性,限制了检测性能
  • Method: 提出双路径音频编码器:1) 语义路径提取高层内容信息(如语音、音乐、特定声音事件);2) 动态路径通过频率自适应机制捕捉频谱-时间动态特性,识别瞬态声学事件
  • Result: 在大规模Mr.HiSum基准测试中实现了新的最先进性能,证明了双方面音频表示对提升高光检测效果的关键作用
  • Conclusion: 复杂、双方面的音频表示是推进视频高光检测领域发展的关键,DAViHD框架通过充分利用音频的语义和动态特性显著提升了检测性能

cs.RO

[92] Beyond the Vehicle: Cooperative Localization by Fusing Point Clouds for GPS-Challenged Urban Scenarios

Kuo-Yi Chao,Ralph Rasshofer,Alois Christian Knoll

Main category: cs.RO

TL;DR: 提出一种融合V2V/V2I数据的多传感器协同定位方法,通过点云配准SLAM算法提升城市环境中GPS不可靠时的车辆定位精度

  • Motivation: 城市环境中GPS信号经常不可靠,导致车辆定位不准确,需要更可靠的定位解决方案
  • Method: 融合V2V和V2I数据的多传感器协同定位方法,结合点云配准SLAM算法,整合车载LiDAR、立体相机和路口基础设施传感器数据
  • Result: 通过利用基础设施共享数据,在复杂GPS噪声城市场景中显著提高了定位精度和鲁棒性
  • Conclusion: 提出的协同多传感器多模态定位方法能有效解决城市环境中的车辆定位挑战

[93] VLS: Steering Pretrained Robot Policies via Vision-Language Models

Shuo Liu,Ishneet Sukhvinder Singh,Yiqing Xu,Jiafei Duan,Ranjay Krishna

Main category: cs.RO

TL;DR: VLS是一个无需训练的框架,用于在推理时适配冻结的生成式机器人策略,通过视觉语言模型合成轨迹可微的奖励函数来引导去噪过程,以应对测试时的空间和任务需求变化。

  • Motivation: 预训练的扩散或流匹配策略在面对障碍物、支撑面偏移或轻度杂乱环境时容易失败,这些失败反映了模仿学习在训练-测试偏移下的局限性。重新训练或微调成本高且概念上不对齐,因为所需行为已经存在但无法在测试时有选择地适配。
  • Method: 提出Vision-Language Steering (VLS)框架,将适配视为推理时的控制问题,在不修改策略参数的情况下,引导预训练扩散或流匹配策略的采样过程以响应分布外观察-语言输入。利用视觉语言模型合成轨迹可微的奖励函数,引导去噪过程生成满足测试时空间和任务要求的动作轨迹。
  • Result: 在仿真和真实世界评估中,VLS持续优于先前的引导方法,在CALVIN上实现了31%的改进,在LIBERO-PRO上获得了13%的提升。在Franka机器人上的真实世界部署进一步展示了在测试时空间和语义偏移下的鲁棒推理时适配能力。
  • Conclusion: VLS为冻结的生成式机器人策略提供了有效的推理时适配框架,能够处理训练-测试偏移问题,无需重新训练或微调,通过视觉语言引导实现了对测试时空间和任务要求的适应性。

[94] Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Weikang Qiu,Tinglin Huang,Aosong Feng,Rex Ying

Main category: cs.RO

TL;DR: SD-VLA提出了一种高效的视觉-语言-动作模型框架,通过将视觉输入分解为静态和动态token来减少上下文长度,实现更快的推理速度和更好的长时程任务性能。

  • Motivation: 现有VLA模型面临两个主要挑战:1) 长时程上下文有限,2) 由于二次注意力复杂性和大量参数导致的推理效率低下。作者观察到轨迹中大部分视觉信息在时间步之间保持静态(如背景),这为优化提供了机会。
  • Method: 提出SD-VLA框架,将视觉输入分解为多层次的静态和动态token:1) 保留静态token的单一副本以减少上下文长度,2) 通过轻量级重新缓存门重用静态token的KV缓存,仅在必要时更新。同时引入新的基准来评估VLA的长时程时序依赖建模能力。
  • Result: 在新基准上比基线方法绝对成功率提升39.8%,在SimplerEnv基准上提升3.9%。推理速度比基础VLA模型快2.26倍,实现了更快的实际部署。
  • Conclusion: SD-VLA通过有效分离静态和动态视觉信息,显著提高了VLA模型的推理效率和长时程任务性能,为实际机器人控制应用提供了更实用的解决方案。

[95] Towards Next-Generation SLAM: A Survey on 3DGS-SLAM Focusing on Performance, Robustness, and Future Directions

Li Wang,Ruixuan Gong,Yumo Han,Lei Yang,Lu Yang,Ying Li,Bin Xu,Huaping Liu,Rong Fu

Main category: cs.RO

TL;DR: 这篇综述系统回顾了将3D高斯泼溅(3DGS)与SLAM结合的关键技术方法,分析了代表性方法在渲染质量、跟踪精度、重建速度和内存消耗四个维度的性能优化,探讨了在动态环境等复杂场景中的鲁棒性增强方法,并展望了该领域的未来挑战和发展趋势。

  • Motivation: 传统SLAM系统存在渲染质量粗糙、场景细节恢复不足、动态环境鲁棒性差等局限性。3DGS以其高效的显式表示和高质量渲染能力,为SLAM提供了新的重建范式,需要系统梳理相关技术进展。
  • Method: 采用综述研究方法,全面回顾3DGS与SLAM集成的关键技术路径,从四个关键维度(渲染质量、跟踪精度、重建速度、内存消耗)分析代表性方法的性能优化,深入探讨其设计原理和突破点,并研究在运动模糊和动态环境等复杂场景中的鲁棒性增强方法。
  • Result: 系统梳理了3DGS-SLAM技术体系,分析了不同方法在关键性能指标上的优化效果,总结了在复杂环境下的鲁棒性增强策略,为研究人员提供了全面的技术参考。
  • Conclusion: 3DGS为SLAM系统带来了高保真、高效和鲁棒的新范式,该综述为下一代SLAM系统的发展提供了技术参考,并指出了该领域未来的挑战和发展方向。

[96] GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Guoqing Ma,Siheng Wang,Zeyu Zhang,Shan Yu,Hao Tang

Main category: cs.RO

TL;DR: GeneralVLA是一个分层视觉-语言-动作模型,通过知识引导的轨迹规划实现零样本机器人操作,无需真实世界数据收集或人工演示。

  • Motivation: 大型基础模型在视觉和语言领域展现出强大的开放世界泛化能力,但在机器人领域尚未达到类似水平。主要挑战是现有模型零样本能力有限,难以有效泛化到未见场景。
  • Method: 提出分层VLA模型:高层ASM微调以感知场景图像关键点可操作性;中层3DAgent进行任务理解、技能知识和轨迹规划,生成3D路径指示机器人末端执行器轨迹;低层3D感知控制策略执行精确操作。无需真实机器人数据或人工演示。
  • Result: 成功为14个任务生成轨迹,显著优于VoxPoser等SOTA方法。生成的演示数据训练的行为克隆策略比使用人工演示或VoxPoser、Scaling-up、Code-As-Policies生成的数据更鲁棒。
  • Conclusion: GeneralVLA是生成机器人数据和零样本解决新任务的可扩展方法,通过分层结构和知识引导规划有效利用基础模型的泛化能力。

[97] Quantile Transfer for Reliable Operating Point Selection in Visual Place Recognition

Dhyey Manish Rajani,Michael Milford,Tobias Fischer

Main category: cs.RO

TL;DR: 提出一种自动选择视觉地点识别系统阈值的方法,通过分位数归一化将校准阈值转移到部署环境,在满足用户定义精度要求下最大化召回率。

  • Motivation: 当前VPR系统通常需要手动离线调整图像匹配阈值以适应特定环境,并在部署时固定阈值,这导致在环境变化时性能下降。需要一种能自动适应新环境并满足精度要求的方法。
  • Method: 使用带有已知对应关系的小型校准遍历,通过分位数归一化将相似度得分分布的阈值从校准环境转移到部署环境。该方法确保阈值在校准大小和查询子集之间保持稳定,对采样变异性具有鲁棒性。
  • Result: 实验表明,该方法在多种最先进的VPR技术和数据集上表现一致优于现有技术,在高精度操作机制下召回率提升高达25%。
  • Conclusion: 该方法通过适应新环境和泛化操作条件,消除了手动调参需求,为VPR系统提供了自动化的阈值选择方案。

[98] EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Yu Bai,MingMing Yu,Chaojie Li,Ziyi Bai,Xinlong Wang,Börje F. Karlsson

Main category: cs.RO

TL;DR: 提出EgoActing任务和EgoActor模型,通过统一视觉语言模型将高级指令直接映射到类人机器人的各种精确空间动作,实现感知与执行的实时协调。

  • Motivation: 类人机器人在真实世界部署面临根本性挑战,需要在部分信息观察和动态变化环境中紧密集成感知、运动和操作能力,并能在不同类型子任务间稳健切换。
  • Method: 提出EgoActing任务,并开发EgoActor统一视觉语言模型,通过三种监督数据训练:真实世界第一人称RGB演示数据、空间推理问答数据、模拟环境演示数据,模型可预测运动基元、头部运动、操作命令和人机交互。
  • Result: EgoActor在模拟和真实环境中均表现优异,能够做出稳健的上下文感知决策,实现流畅的动作推理(<1秒),8B和4B参数模型均有效,能泛化到多样任务和未见环境。
  • Conclusion: EgoActor成功桥接了抽象任务规划和具体运动执行,为类人机器人在复杂真实环境中的部署提供了有效解决方案。

[99] PDF-HR: Pose Distance Fields for Humanoid Robots

Yi Gu,Yukang Gao,Yangchen Zhou,Xingyu Chen,Yixiao Feng,Mingle Zhao,Yunyang Mo,Zhaorui Wang,Lixin Xu,Renjing Xu

Main category: cs.RO

TL;DR: PDF-HR:一种轻量级的人形机器人姿态先验,通过连续可微的流形表示姿态分布,可预测任意姿态到大规模重定向机器人姿态的距离,适用于优化和控制。

  • Motivation: 姿态和运动先验在人形机器人中至关重要,但高质量人形机器人运动数据稀缺限制了这些先验的应用。现有的人类运动恢复(HMR)领域研究广泛,但难以直接应用于人形机器人。
  • Method: 提出PDF-HR(人形机器人姿态距离场),将机器人姿态分布表示为连续可微的流形。给定任意姿态,PDF-HR预测其到大规模重定向机器人姿态的距离,产生平滑的姿态合理性度量。
  • Result: 在单轨迹运动跟踪、通用运动跟踪、基于风格的运动模仿和通用运动重定向等多种人形机器人任务上评估PDF-HR。实验表明,这种即插即用的先验能持续显著增强强基线方法。
  • Conclusion: PDF-HR是一种有效的轻量级姿态先验,可作为奖励塑造项、正则化器或独立的合理性评分器集成到多样化流程中,提升人形机器人的运动性能。

cs.CL

[100] Investigating Disability Representations in Text-to-Image Models

Yang Yian,Yu Fan,Liudmila Zavolokina,Sarah Ebling

Main category: cs.CL

TL;DR: 研究分析Stable Diffusion XL和DALL-E 3在生成图像中对残疾人群体的表征情况,发现存在表征不平衡问题,需要持续评估和改进生成模型以促进更包容的残疾表征。

  • Motivation: 文本到图像生成模型在从文本描述生成高质量视觉内容方面取得了显著进展,但人们对其如何表征社会群体仍存担忧。虽然性别和种族等特征受到越来越多的关注,但残疾表征仍然未被充分探索。本研究旨在调查AI生成图像中如何表征残疾人群体。
  • Method: 使用结构化提示设计分析Stable Diffusion XL和DALL-E 3的输出。通过比较通用残疾提示和特定残疾类别提示之间的图像相似性来分析残疾表征。评估缓解策略如何影响残疾描绘,重点通过情感极性分析评估情感框架,结合自动和人工评估。
  • Result: 研究发现存在持续的表征不平衡问题。分析揭示了AI生成图像中残疾表征的现状和问题。
  • Conclusion: 需要持续评估和改进生成模型,以促进更多样化和包容性的残疾表征。研究强调了在AI生成内容中实现更公平和全面的残疾描绘的重要性。

[101] Reinforced Attention Learning

Bangzheng Li,Jianmo Ni,Chen Qu,Ian Miao,Liu Yang,Xingyu Fu,Muhao Chen,Derek Zhiyuan Cheng

Main category: cs.CL

TL;DR: RAL通过强化学习直接优化多模态大模型的注意力分布而非输出序列,在图像和视频基准上取得一致提升,并引入注意力蒸馏实现跨模态对齐

  • Motivation: 传统的基于强化学习的后训练方法通过生成详细推理过程来提升大语言模型的推理能力,但这种方法在多模态大语言模型中效果有限,甚至可能损害感知性能。需要一种更有效的优化方法来提升多模态模型的性能。
  • Method: 提出强化注意力学习框架,使用策略梯度方法直接优化模型内部的注意力分布,而不是优化输出token序列。同时引入在线策略注意力蒸馏方法,通过转移潜在的注意力行为来实现跨模态对齐。
  • Result: 在多种图像和视频基准测试中,RAL方法相比GRPO和其他基线方法取得了一致的性能提升。注意力蒸馏方法在跨模态对齐方面优于标准的知识蒸馏方法。
  • Conclusion: 注意力策略为多模态后训练提供了一个原则性和通用的替代方案,通过优化注意力分布而非输出序列,能够更有效地提升多模态模型在复杂输入中的信息分配和基础能力。

cs.ET

[102] Self-evolving Embodied AI

Tongtong Feng,Xin Wang,Wenwu Zhu

Main category: cs.ET

TL;DR: 论文提出"自演化具身AI"新范式,使智能体能够基于状态和环境变化自主更新记忆、切换任务、预测环境、适应具身、演化模型,实现持续自适应智能。

  • Motivation: 现有具身AI局限于人工设定的环境,智能体在给定记忆上训练、为给定任务构建模型,固定具身与相对静态环境交互,无法适应野外环境中多变的具身和动态开放环境。
  • Method: 提出自演化具身AI范式,包含定义、框架、组件和机制,实现记忆自更新、任务自切换、环境自预测、具身自适应、模型自演化等能力。
  • Result: 系统综述了已实现组件的先进工作,讨论了实际应用,并指出了未来研究方向,为通用人工智能提供了新视角。
  • Conclusion: 自演化具身AI使智能体能够以类人方式自主学习和与环境交互,为实现通用人工智能提供了新路径。

math.OC

[103] An Improved Boosted DC Algorithm for Nonsmooth Functions with Applications in Image Recovery

ZeYu Li,Te Qi,TieYong Zeng

Main category: math.OC

TL;DR: 提出一种改进的单调增强DC算法(IBDCA),用于处理非光滑DC优化问题,在图像恢复应用中表现出优于传统DCA和其他DC方法的性能。

  • Motivation: 传统增强DC算法(BDCA)在处理非光滑DC分解时,计算的方向可能是上升方向,无法进行单调线搜索。需要开发一种适用于非光滑DC程序的改进算法。
  • Method: 提出单调改进增强DC算法(IBDCA),专门处理可表示为非光滑函数与光滑函数之差的DC问题。算法包含从DCA点出发的外推步骤,通过线搜索获得额外目标函数下降。
  • Result: 证明IBDCA生成的序列的任何聚点都是问题的临界点,目标函数值单调递减且收敛。在Kurdyka-Lojasiewicz性质下展示全局收敛和收敛速率。图像恢复应用显示IBDCA在计算时间和迭代次数上优于DCA和其他先进DC方法。
  • Conclusion: IBDCA有效解决了非光滑DC优化问题,提供了理论收敛保证,并在实际应用中表现出优越性能,为处理非光滑非凸优化问题提供了有效工具。

cs.HC

[104] WebAccessVL: Making an Accessible Web via Violation-Conditioned VLM

Amber Yijia Zheng,Jae Joong Lee,Bedrich Benes,Raymond A. Yeh

Main category: cs.HC

TL;DR: 提出一个视觉语言模型,通过自动编辑网站HTML来解决WCAG2无障碍指南违规问题,将违规数量从平均5.34个减少到0.44个

  • Motivation: 网站无障碍访问对于残障人士至关重要,但手动修复WCAG2违规既耗时又昂贵。现有方法(如商业LLM API)在修复效果上有限,需要更有效的自动化解决方案
  • Method: 1) 收集WebAccessVL数据集,包含手动修正的无障碍违规配对数据;2) 将问题形式化为监督式图像条件程序合成任务,模型基于HTML及其渲染学习修正;3) 提出违规条件VLM,额外以WCAG2违规数量作为条件指导修正过程
  • Result: 方法显著降低网站平均违规数量(从5.34到0.44),优于Gemini和GPT-5等商业LLM API。感知研究证实编辑后的网站保持了原始视觉外观和内容
  • Conclusion: 提出的违规条件VLM能有效自动修复网站无障碍访问问题,在减少WCAG2违规方面优于现有方法,同时保持网站原有设计和内容完整性

[105] Adaptive Prompt Elicitation for Text-to-Image Generation

Xinyi Wen,Lena Hegemann,Xiaofu Jin,Shuai Ma,Antti Oulasvirta

Main category: cs.HC

TL;DR: APE通过自适应视觉查询帮助用户优化文本到图像生成的提示,无需大量文字输入,显著提升对齐效果

  • Motivation: 文本到图像生成中,用户输入模糊且难以适应模型特性,导致意图对齐困难,需要更有效的交互方式
  • Method: 基于信息论框架的交互式意图推断:使用语言模型先验将潜在意图表示为可解释特征需求,自适应生成视觉查询,并将收集的需求编译为有效提示
  • Result: 在IDEA-Bench和DesignBench上显示更强的对齐效果和效率提升;用户研究中,在挑战性任务上实现19.8%更高的对齐度且无工作负载增加
  • Conclusion: 为普通用户提供了一种原则性的提示方法,作为当前基于文本的交互范式的有效补充,提升文本到图像模型的可用性

eess.IV

[106] DINO-AD: Unsupervised Anomaly Detection with Frozen DINO-V3 Features

Jiayu Huo,Jingyuan Hong,Liyun Chen

Main category: eess.IV

TL;DR: DINO-AD:基于DINO-V3表征的无监督医学图像异常检测框架,通过嵌入相似性匹配和前景感知K-means聚类实现精确的异常定位,在脑部和肝脏数据集上达到98.71的AUROC分数。

  • Motivation: 医学图像异常检测需要像素级标注,这在大规模应用中成本高昂。现有方法在精确性和可解释性方面存在局限,需要一种无需像素级标注、能实现精确异常定位的解决方案。
  • Method: 提出DINO-AD框架:1)使用嵌入相似性匹配策略选择语义对齐的支持图像;2)采用前景感知K-means聚类模块建模正常特征分布;3)通过余弦相似度比较查询特征与聚类正常嵌入来生成异常图。
  • Result: 在脑部和肝脏数据集上表现优异:AUROC分数高达98.71,优于现有最先进方法。定性结果显示异常定位更清晰准确,消融研究验证了各组件有效性。
  • Conclusion: DINO-AD利用自监督视觉特征实现了精确可解释的异常定位,无需像素级标注,具有鲁棒性和泛化能力,为可扩展的医学诊断系统提供了有效解决方案。

[107] To What Extent Do Token-Level Representations from Pathology Foundation Models Improve Dense Prediction?

Weiming Chen,Xitong Ling,Xidong Wang,Zhenyang Cai,Yijia Guo,Mingxi Fu,Ziyi Zeng,Minxi Ouyang,Jiawen Li,Yizhi Wang,Tian Guan,Benyou Wang,Yonghong He

Main category: eess.IV

TL;DR: PFM-DenseBench是一个大规模病理学基础模型密集预测基准,系统评估了17个PFM在18个公开分割数据集上的表现,为实际部署提供指导

  • Motivation: 尽管病理学基础模型(PFMs)在临床任务中表现出良好的可迁移性,但在密集预测(如分割)的实际部署中,缺乏对不同PFM在不同数据集上的行为以及适应策略如何影响性能和稳定性的清晰、可复现的理解
  • Method: 创建PFM-DenseBench基准,在统一协议下评估17个PFM在18个公开分割数据集上的表现,系统测试多种适应和微调策略,分析不同PFM和调优选择在不同数据集上的成功与失败原因
  • Result: 通过大规模基准测试,得出了关于不同PFM和调优策略在异质数据集上表现的有洞察力、实践导向的发现,为实际应用提供指导
  • Conclusion: PFM-DenseBench为病理学基础模型在密集预测任务中的可复现评估和明智选择提供了基准框架,通过发布容器、配置和数据集卡片,支持真实世界密集病理任务的PFM选择

[108] AtlasPatch: An Efficient and Scalable Tool for Whole Slide Image Preprocessing in Computational Pathology

Ahmed Alagha,Christopher Leclerc,Yousef Kotp,Omar Metwally,Calvin Moras,Peter Rentopoulos,Ghodsiyeh Rostami,Bich Ngoc Nguyen,Jumanah Baig,Abdelhakim Khellaf,Vincent Quoc-Huy Trinh,Rabeb Mizouni,Hadi Otrok,Jamal Bentahar,Mahdi S. Hosseini

Main category: eess.IV

TL;DR: AtlasPatch是一个高效、可扩展的WSI预处理框架,通过半手动标注的3万张WSI缩略图训练Segment-Anything模型进行组织检测,显著降低计算成本的同时保持SOTA性能。

  • Motivation: 现有WSI预处理工具存在两大问题:基于启发式阈值检测的组织检测不准确,或基于有限多样性数据训练的AI方法计算复杂度高。这成为计算病理学工作流的主要计算瓶颈。
  • Method: 1) 使用约3万张异质、半手动标注的WSI缩略图数据集训练组织检测模块;2) 高效微调Segment-Anything模型;3) 将缩略图组织掩码外推到全分辨率切片;4) 在用户指定放大倍数下提取patch坐标;5) 支持直接流式传输到图像编码器或存储patch图像;6) 在CPU和GPU上高效并行化。
  • Result: 在分割精度、计算复杂度和下游多实例学习任务中,AtlasPatch达到最先进性能,同时仅需一小部分计算成本。工具已开源。
  • Conclusion: AtlasPatch提供了一个高效、可扩展的WSI预处理解决方案,解决了现有工具在准确性和计算效率方面的局限性,为计算病理学工作流提供了重要的基础设施改进。

[109] MS-SCANet: A Multiscale Transformer-Based Architecture with Dual Attention for No-Reference Image Quality Assessment

Mayesha Maliha R. Mithila,Mylene C. Q. Farias

Main category: eess.IV

TL;DR: MS-SCANet是一种基于Transformer的多尺度无参考图像质量评估网络,采用双分支结构处理不同尺度图像,通过空间和通道注意力机制以及交叉分支注意力整合多尺度特征,并引入两种一致性损失函数,在多个数据集上超越现有方法。

  • Motivation: 传统单尺度方法在图像质量评估中难以同时捕捉精细和粗糙细节,现有方法在多尺度特征整合方面存在局限,需要更有效的注意力机制和特征一致性保持方法。
  • Method: 1. 双分支多尺度Transformer架构处理不同尺度图像;2. 定制化的空间和通道注意力机制;3. 交叉分支注意力机制整合多尺度特征;4. 引入交叉分支一致性损失和自适应池化一致性损失保持空间完整性。
  • Result: 在KonIQ-10k、LIVE、LIVE Challenge和CSIQ等多个数据集上,MS-SCANet均超越现有最先进方法,与主观人类评分具有更强的相关性。
  • Conclusion: MS-SCANet通过多尺度处理、注意力机制和一致性损失函数,为无参考图像质量评估提供了一个鲁棒且高效的框架,显著提升了评估性能。

cs.LG

[110] Representation Geometry as a Diagnostic for Out-of-Distribution Robustness

Ali Zia,Farid Hazratian

Main category: cs.LG

TL;DR: 提出基于几何的诊断框架,通过嵌入空间的类条件互k近邻图提取全局谱复杂度和局部平滑度指标,用于无标签预测模型在分布偏移下的鲁棒性。

  • Motivation: 在缺乏目标域标签的情况下,监控和优化模型在分布偏移下的鲁棒性很困难。现有方法主要关注训练时正则化和低阶表示统计量,但缺乏对嵌入几何结构是否能提供可靠后验鲁棒性信号的研究。
  • Method: 构建类条件互k近邻图,提取两个互补不变量:基于归一化拉普拉斯矩阵约化对数行列式的全局谱复杂度代理,以及基于Ollivier-Ricci曲率的局部平滑度度量。
  • Result: 在多种架构、训练机制和损坏基准测试中,较低的谱复杂度和较高的平均曲率一致预测更强的OOD准确性。受控扰动和拓扑分析表明这些信号反映了有意义的表示结构而非表面嵌入统计。
  • Conclusion: 表示几何能够实现可解释的、无标签的鲁棒性诊断,并支持在分布偏移下进行可靠的无人监督检查点选择。

[111] PromptSplit: Revealing Prompt-Level Disagreement in Generative Models

Mehdi Lotfian,Mohammad Jalali,Farzan Farnia

Main category: cs.LG

TL;DR: PromptSplit:基于核方法的框架,用于检测和分析生成模型之间的提示依赖分歧,通过张量积嵌入和核协方差矩阵识别不同提示下的行为差异方向。

  • Motivation: 随着提示引导的生成AI模型在视觉和语言领域的快速发展,不同模型在数据和架构上的差异导致需要系统方法来识别哪些类型的提示会导致模型行为差异。
  • Method: 提出PromptSplit框架:为每对模型构建联合提示-输出表示(通过提示和图像/文本特征的张量积嵌入),计算核协方差矩阵,利用加权差矩阵的特征空间识别行为差异的主要方向。采用随机投影近似将计算复杂度降低到O(nr² + r³)。
  • Result: 理论分析显示随机投影近似的特征结构估计与全维结果的期望偏差有界为O(1/r²)。在文本到图像、文本到文本和图像描述任务中的实验表明,PromptSplit能准确检测真实行为差异并隔离负责的提示。
  • Conclusion: PromptSplit提供了一个可解释的工具,用于检测生成模型在哪些方面存在分歧,能够识别导致不同模型行为差异的提示类型。

[112] SEIS: Subspace-based Equivariance and Invariance Scores for Neural Representations

Huahua Lin,Katayoun Farrahi,Xiaohao Cai

Main category: cs.LG

TL;DR: SEIS是一种新的子空间度量方法,用于分析神经网络层特征在几何变换下的表示,能够区分等变性和不变性,无需标签或变换先验知识。

  • Motivation: 现有方法主要通过比较变换输入下的模型输出来评估鲁棒性,但无法深入了解几何信息如何在内部表示中组织,也无法区分信息丢失和重新编码。
  • Method: 提出SEIS(基于子空间的等变性和不变性评分),这是一种子空间度量方法,用于分析层特征在几何变换下的表示,能够分离等变性和不变性,无需标签或变换知识。
  • Result: 合成验证确认SEIS能正确恢复已知变换;应用于训练好的分类网络显示:早期层呈现等变性,深层呈现不变性;数据增强增加不变性同时保持等变性;多任务学习在共享编码器中协同提升两种属性;跳跃连接恢复解码过程中丢失的等变性。
  • Conclusion: SEIS提供了一种有效工具来分析神经网络中几何信息的组织方式,揭示了从等变性到不变性的层级过渡,并展示了不同训练策略对这两种属性的影响。

[113] REDistill: Robust Estimator Distillation for Balancing Robustness and Efficiency

Ondrej Tybl,Lukas Neumann

Main category: cs.LG

TL;DR: REDistill是一个基于稳健统计的知识蒸馏框架,使用幂散度损失替代传统KL散度,自适应地降低不可靠教师输出的权重,无需模型特定的超参数调优。

  • Motivation: 传统知识蒸馏方法假设教师模型提供可靠的软目标,但实际上教师预测常常存在噪声或过度自信。现有的校正方法依赖启发式规则和大量超参数调优,泛化能力有限。
  • Method: 提出REDistill框架,使用幂散度损失替代标准KL散度目标,这种稳健统计方法能自适应地降低不可靠教师输出的权重,同时保留信息性的logit关系。仅需logits,无缝集成到现有KD流程中,计算开销可忽略。
  • Result: 在CIFAR-100和ImageNet-1k上的大量实验表明,REDistill在不同教师-学生架构中一致提升学生模型准确率。显著的是,无需模型特定的超参数调优就能获得这些增益,证明了其稳健性和对未见教师-学生对的强泛化能力。
  • Conclusion: REDistill提供了一个统一且可解释的教师噪声处理方法,基于稳健统计原理,简单而有效,在知识蒸馏中展现出卓越的稳健性和泛化性能。

[114] Generative Modeling via Drifting

Mingyang Deng,He Li,Tianhong Li,Yilun Du,Kaiming He

Main category: cs.LG

TL;DR: 提出Drifting Models新范式,通过训练时演化pushforward分布实现一步推理,在ImageNet 256×256上达到SOTA效果

  • Motivation: 现有生成模型(如扩散模型和流模型)需要在推理时进行多步迭代,作者希望开发一种能够在训练时演化分布、推理时只需一步的高质量生成方法
  • Method: 提出Drifting Models范式,引入drifting field控制样本移动,当分布匹配时达到平衡,通过训练目标让神经网络优化器演化分布,实现一步推理
  • Result: 在ImageNet 256×256分辨率上取得SOTA结果:潜空间FID 1.54,像素空间FID 1.61
  • Conclusion: Drifting Models为高质量一步生成开辟了新方向,展示了在训练时演化分布、推理时一步完成的可能性

[115] It's not a Lottery, it's a Race: Understanding How Gradient Descent Adapts the Network's Capacity to the Task

Hannah Pinson

Main category: cs.LG

TL;DR: 论文通过分析单隐藏层ReLU网络中单个神经元的学习动态,揭示了梯度下降如何降低神经网络理论容量的机制,提出了三个动态原理来解释容量减少现象。

  • Motivation: 神经网络的理论理解滞后于其经验成功,一个重要未解释的现象是:为什么以及如何在梯度下降训练过程中,神经网络的理论容量会降低到适合任务的有效容量。
  • Method: 通过分析单隐藏层ReLU网络中单个神经元的学习动态,识别了三个动态原理:相互对齐、解锁和竞争。
  • Result: 这三个原理共同解释了为什么训练后可以通过合并等效神经元或修剪低范数权重来成功减少容量,并解释了彩票票假设背后的机制。
  • Conclusion: 梯度下降通过神经元之间的动态相互作用(相互对齐、解锁和竞争)来降低神经网络的理论容量,这解释了为什么训练后可以成功减少容量以及彩票票假设的机制。