Skip to content
每日arXiv - 2026年1月15日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR

Yufeng Zhong,Lei Chen,Zhixiong Zeng,Xuanle Zhao,Deyang Jiang,Liming Zheng,Jing Huang,Haibo Qiu,Peng Shi,Siqi Yang,Lin Ma

Main category: cs.CV

TL;DR: 提出FD-RL方法,通过熵值分析发现OCR模型在格式化文本(公式、表格等)上输出不确定性显著更高,采用基于熵的数据过滤和格式解耦奖励机制,在OmniDocBench上取得90.41分的新记录。

  • Motivation: 现有OCR模型在处理格式化文本(如公式、表格)时表现出显著更高的输出不确定性(熵值比纯文本高一个数量级),这表明模型在格式敏感文档上存在困难,需要改进推理能力而非单纯增强数据工程。
  • Method: 提出格式解耦强化学习(FD-RL):1)基于熵的数据过滤策略识别格式密集型实例;2)针对不同格式类型设计格式解耦奖励机制;3)实现格式级验证而非词元级记忆。
  • Result: 在OmniDocBench基准测试中取得90.41的平均分,为端到端模型在该流行基准上创造了新记录。通过全面的消融实验验证了数据、训练、过滤和奖励策略的有效性。
  • Conclusion: OCR模型在格式化文本处理上存在显著不确定性,FD-RL通过熵分析和格式解耦优化有效提升了性能,为文档理解任务提供了新的优化方向。

[2] Bias Detection and Rotation-Robustness Mitigation in Vision-Language Models and Generative Image Models

Tarannum Mithila

Main category: cs.CV

TL;DR: 该研究探讨了视觉语言模型和生成式图像模型在图像旋转和分布偏移下的鲁棒性和公平性问题,提出了旋转鲁棒的缓解策略,显著提升了模型鲁棒性并减少了偏见放大。

  • Motivation: 尽管视觉语言模型和生成式图像模型在多模态任务中表现出色,但其在输入变换下的鲁棒性和公平性尚未得到充分探索。本研究旨在分析图像旋转和分布偏移如何影响模型预测、置信度校准和人口统计偏见模式,揭示当前多模态系统的关键局限性。
  • Method: 提出了旋转鲁棒的缓解策略,结合数据增强、表示对齐和模型级正则化。通过分析旋转诱导的扰动对模型预测、置信度校准和人口统计偏见模式的影响,设计相应的技术来增强模型鲁棒性。
  • Result: 在多个数据集上的实验结果表明,所提出的方法显著提高了模型鲁棒性,同时减少了偏见放大,且不牺牲整体性能。这些方法有效缓解了旋转和分布偏移带来的负面影响。
  • Conclusion: 本研究揭示了当前多模态系统在鲁棒性和公平性方面的关键限制,并为构建更可靠、更公平的AI模型提供了实用的缓解技术。研究强调了在模型开发中考虑输入变换鲁棒性的重要性。

[3] R2BD: A Reconstruction-Based Method for Generalizable and Efficient Detection of Fake Images

Qingyu Liu,Zhongjie Ba,Jianmin Guo,Qiu Wang,Zhibo Wang,Jie Shi,Kui Ren

Main category: cs.CV

TL;DR: R²BD:基于统一重建模型和单步残差偏置计算的高效AIGC图像检测框架,比现有方法快22倍以上,在跨数据集评估中平均提升13.87%的检测准确率。

  • Motivation: 现有基于重建的AIGC图像检测方法主要依赖预训练扩散模型,存在两大局限:1) 效率低下,需要多步反演和重建过程;2) 泛化能力有限,只能检测扩散模型生成的图像,无法覆盖GAN等其他生成范式。
  • Method: 提出R²BD框架,包含两个核心设计:1) G-LDM统一重建模型,模拟VAE、GAN和扩散模型的生成行为,扩大检测范围;2) 残差偏置计算模块,通过单次推理即可区分真假图像,大幅提升效率。
  • Result: 在10个公开数据集的基准测试中,R²BD比现有基于重建的方法快22倍以上,同时达到更高的检测准确率。在跨数据集评估中,平均优于最先进方法13.87%,展现出强大的效率和跨生成方法的泛化能力。
  • Conclusion: R²BD通过统一重建模型和高效单步检测机制,成功解决了现有AIGC图像检测方法在效率和泛化能力方面的局限,为多生成范式的图像检测提供了有效解决方案。

[4] Residual Cross-Modal Fusion Networks for Audio-Visual Navigation

Yi Wang,Yinfeng Yu,Bin Ren

Main category: cs.CV

TL;DR: 本文提出了一种跨模态残差融合网络(CRFN),用于音频-视觉具身导航任务,通过双向残差交互实现互补建模和细粒度对齐,显著提升了跨域泛化能力。

  • Motivation: 音频-视觉具身导航任务的关键挑战在于有效建模异构特征在跨模态融合中的交互,避免单模态主导或信息退化,特别是在跨域场景中。现有方法通常依赖简单的拼接或注意力门控,难以实现真正的互补建模。
  • Method: 提出跨模态残差融合网络(CRFN),通过双向残差交互在音频和视觉流之间建立连接,实现互补建模和细粒度对齐,同时保持各自表示的独立性。该方法采用残差连接显式建模跨模态交互,并引入稳定化技术改善收敛性和鲁棒性。
  • Result: 在Replica和Matterport3D数据集上的实验表明,CRFN显著优于最先进的融合基线方法,并实现了更强的跨域泛化能力。实验还发现智能体在不同数据集上表现出差异化的模态依赖性。
  • Conclusion: CRFN通过创新的双向残差交互机制有效解决了音频-视觉具身导航中的跨模态融合挑战,不仅提升了性能,还揭示了智能体在不同环境中模态依赖性的差异,为理解具身智能体的跨模态协作机制提供了新视角。

[5] ForensicFormer: Hierarchical Multi-Scale Reasoning for Cross-Domain Image Forgery Detection

Hema Hariharan Samson

Main category: cs.CV

TL;DR: ForensicFormer:一种分层多尺度框架,通过交叉注意力transformer统一低级伪影检测、中级边界分析和高级语义推理,在跨域伪造检测中实现86.8%的平均准确率,显著优于现有方法。

  • Motivation: AI生成图像和复杂编辑工具的普及使得传统取证方法在跨域伪造检测中失效,需要一种能够应对未知操纵技术的通用检测方案。
  • Method: 提出分层多尺度框架,结合低级伪影检测、中级边界分析和高级语义推理,通过交叉注意力transformer统一这些层次的信息处理。
  • Result: 在七个多样化测试集上平均准确率达到86.8%,显著优于现有方法(<75%);对JPEG压缩具有强鲁棒性(Q=70时83%准确率);像素级伪造定位F1分数0.76;每个分层组件贡献4-10%准确率提升。
  • Conclusion: 该工作桥接了经典图像取证和现代深度学习,为实际部署中操纵技术未知的情况提供了实用解决方案,具有可解释的取证特征。

[6] Learning Domain-Invariant Representations for Cross-Domain Image Registration via Scene-Appearance Disentanglement

Jiahao Qin,Yiwen Wang

Main category: cs.CV

TL;DR: SAR-Net通过场景-外观解耦实现跨域图像配准,将图像分解为域不变场景表示和域特定外观编码,通过重渲染而非直接强度匹配进行配准。

  • Motivation: 当源图像和目标图像存在系统强度差异时,传统配准方法基于的亮度恒定假设被违反,导致对应关系估计变得不适定。跨域配准是计算机视觉和医学成像中的基本挑战。
  • Method: 提出SAR-Net统一框架,通过场景-外观解耦解决跨域配准问题。将观测图像分解为域不变场景表示和域特定外观编码,通过重渲染进行配准而非直接强度匹配。建立了理论条件证明这种分解能实现一致的跨域对齐。
  • Result: 在双向扫描显微镜数据集上验证,SAR-Net达到0.885 SSIM和0.979 NCC,比最强基线提升3.1倍,同时保持实时性能(77 fps)。消融研究证实场景一致性和域对齐损失都是必要的。
  • Conclusion: SAR-Net通过场景-外观解耦提供了一种原理性的跨域图像配准方法,在存在系统强度差异的情况下实现了鲁棒的配准性能,为跨域配准问题提供了新的理论框架和实用解决方案。

[7] The Semantic Lifecycle in Embodied AI: Acquisition, Representation and Storage via Foundation Models

Shuai Chen,Hao Chen,Yuanchen Bei,Tianyang Zhao,Zhibo Zhou,Feiran Huang

Main category: cs.CV

TL;DR: 该论文提出了"语义生命周期"作为统一框架,描述基础模型驱动的具身AI中语义知识的演化过程,从获取、表示到存储三个阶段进行分析。

  • Motivation: 具身AI中的语义信息具有多源多阶段特性,传统方法难以充分利用以实现稳定的感知-行动循环。随着环境复杂度和任务开放性增加,需要更通用、鲁棒的语义处理能力。
  • Method: 提出"语义生命周期"统一框架,将语义处理视为连续的知识流动和维护过程,而非孤立模块。基于此框架分析基础模型驱动的具身AI在语义获取、表示和存储三个关键阶段的最新进展。
  • Result: 建立了基础模型驱动的具身AI语义处理新范式,通过语义生命周期框架系统化分析该领域研究进展,为理解语义知识演化提供整体视角。
  • Conclusion: 基础模型通过跨领域泛化能力和丰富语义先验重塑具身AI研究,语义生命周期框架为分析语义知识演化提供统一视角,总结了现有挑战并展望未来研究方向。

[8] TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

Yu Xu,Hongbin Yan,Juan Cao,Yiji Cheng,Tiankai Hang,Runze He,Zijin Yin,Shiyi Zhang,Yuxin Zhang,Jintao Li,Chunyu Wang,Qinglin Lu,Tong-Yee Lee,Fan Tang

Main category: cs.CV

TL;DR: 提出一种在MoE稀疏专家混合模型中注入语义意图的方法,通过层次化任务语义标注和预测对齐正则化,让路由网络能根据全局任务意图进行专家分配,有效缓解图像生成与编辑中的任务干扰问题。

  • Motivation: 统一的图像生成和编辑模型在密集扩散变换器架构中存在严重的任务干扰问题,共享参数空间需要在冲突目标(如局部编辑与主题驱动生成)之间妥协。现有的稀疏MoE范式虽然是有前景的解决方案,但其门控网络仍然是任务无关的,仅基于局部特征操作,无法感知全局任务意图,这阻碍了有意义的专家专业化,无法解决根本的任务干扰问题。
  • Method: 提出一个新颖的框架,将语义意图注入MoE路由中:1)引入层次化任务语义标注方案,创建结构化任务描述符(如范围、类型、保留要求);2)设计预测对齐正则化,将内部路由决策与任务的高级语义对齐,使门控网络从任务无关的执行器演变为调度中心。
  • Result: 模型有效缓解了任务干扰,在保真度和质量方面优于密集基线模型。分析表明,专家自然地发展出清晰且语义相关的专业化分工。
  • Conclusion: 通过将语义意图注入MoE路由,可以解决统一图像生成和编辑模型中的任务干扰问题。层次化任务语义标注和预测对齐正则化使门控网络能够基于全局任务意图进行智能路由,促进专家的语义专业化,从而提升模型性能。

[9] Compressing Vision Transformers in Geospatial Transfer Learning with Manifold-Constrained Optimization

Thomas Snyder,H. Lexie Yang,Stefan Schnake,Steffen Schotthöfer

Main category: cs.CV

TL;DR: 利用DLRT流形约束优化框架压缩地理空间基础模型,在迁移学习中实现高效参数缩减,保持下游任务性能

  • Motivation: 地理空间基础模型在资源受限的边缘设备上部署需要紧凑架构,但大参数量和压缩导致的精度损失限制了实际应用
  • Method: 采用DLRT流形约束优化框架,在迁移学习过程中压缩基于视觉Transformer的地理空间基础模型,通过强制结构化低维参数化与下游目标对齐
  • Result: 方法优于现成的低秩方法如LoRA,在多样化地理空间基准测试中实现显著参数缩减且精度损失最小
  • Conclusion: 该方法能够实现高性能、可在设备上运行的地理空间模型,促进地理空间基础模型在边缘设备上的实际部署

[10] Adaptive few-shot learning for robust part quality classification in two-photon lithography

Sixian Jia,Ruo-Syuan Mei,Chenhui Shao

Main category: cs.CV

TL;DR: 提出自适应计算机视觉框架,用于双光子光刻质量控制的整个生命周期维护,包含新颖性检测、少样本增量学习和少样本域适应三个关键方法。

  • Motivation: 现有计算机视觉质量控制在动态制造环境中存在局限:无法检测新缺陷类别、难以从稀缺数据高效更新、不能适应新零件几何形状。需要解决这些缺陷以支持持续演化的生产场景。
  • Method: 基于统一尺度鲁棒骨干模型构建自适应框架,包含:(1) 基于线性判别分析的统计假设检验框架用于新颖性检测;(2) 两阶段基于排练的少样本增量学习策略;(3) 少样本域对抗神经网络用于少样本域适应。
  • Result: 在双光子光刻数据集上评估:假设检验方法以99-100%准确率识别新类别批次;增量学习方法仅用K=20样本将新类别整合到92%准确率;域适应模型仅用K=5样本在目标域达到96.19%准确率。
  • Conclusion: 该框架为演化生产场景中的计算机视觉模型部署和维护提供了鲁棒且数据高效的解决方案,能够有效处理新缺陷类别检测、稀缺数据更新和域适应挑战。

[11] Variance-Penalized MC-Dropout as a Learned Smoothing Prior for Brain Tumour Segmentation

Satyaki Roy Chowdhury,Golrokh Mirzaei

Main category: cs.CV

TL;DR: UAMSA-UNet是一种不确定性感知的多尺度注意力贝叶斯U-Net,通过蒙特卡洛Dropout学习数据驱动的平滑先验,结合多尺度特征和注意力机制,在脑肿瘤分割中实现更精确的边界和更高的计算效率。

  • Motivation: 现有CNN和U-Net方法在肿瘤浸润区域产生噪声边界,需要更精确的脑肿瘤分割方法用于诊断和治疗规划。
  • Method: 提出UAMSA-UNet:不确定性感知多尺度注意力贝叶斯U-Net,使用蒙特卡洛Dropout学习数据驱动的平滑先验,融合多尺度特征和注意力图,采用平滑正则化损失(二元交叉熵+方差惩罚)。
  • Result: 在BraTS2023上:Dice相似系数提升3.3%,平均IoU提升2.7%;在BraTS2024上:Dice提升4.5%,IoU提升4.0%;相比U-Net++减少42.5%的FLOPs同时保持更高精度。
  • Conclusion: 通过结合多尺度注意力与学习平滑先验,UAMSA-UNet实现了更好的分割质量和计算效率,为未来与transformer模块集成提供了灵活基础。

[12] Thermo-LIO: A Novel Multi-Sensor Integrated System for Structural Health Monitoring

Chao Yang,Haoyuan Zheng,Yue Ma

Main category: cs.CV

TL;DR: Thermo-LIO:融合热成像与高分辨率LiDAR的多传感器系统,通过多模态数据融合和LiDAR惯性里程计,提升大型结构健康监测的精度和覆盖范围

  • Motivation: 传统二维热成像技术虽然无创且在建筑缺陷检测中有用,但难以有效评估复杂几何形状、难以接近区域和地下缺陷,需要更先进的监测方法
  • Method: 1. 开发热成像与LiDAR的多模态融合方法,实现精确校准和同步;2. 将该融合方法与LiDAR惯性里程计(LIO)集成,实现大规模结构的全覆盖监测
  • Result: 在桥梁和厅堂建筑的案例研究中,Thermo-LIO比传统方法更准确地检测热异常和结构缺陷,提高诊断精度,支持实时处理,扩大检测覆盖范围
  • Conclusion: Thermo-LIO系统展示了多模态传感器集成在推进大规模土木基础设施结构健康监测方法中的关键作用,为复杂结构的全面监测提供了有效解决方案

[13] SAM-pose2seg: Pose-Guided Human Instance Segmentation in Crowds

Constantin Kolomiiets,Miroslav Purkrabek,Jiri Matas

Main category: cs.CV

TL;DR: 将SAM 2.1适配为姿态引导的分割模型,通过PoseMaskRefine微调策略结合姿态关键点提升遮挡情况下的分割鲁棒性

  • Motivation: SAM在人体分割方面表现出色,但在遮挡情况下(关键点部分或完全不可见)可能表现不佳。需要一种方法在保持SAM强大泛化能力的同时,提升其在遮挡场景下的分割性能。
  • Method: 1. 对SAM 2.1进行最小化的编码器修改;2. 提出PoseMaskRefine微调策略,将高可见度的姿态关键点整合到SAM原有的迭代校正过程中;3. 推理时仅选择可见度最高的三个关键点作为提示,减少对常见错误(如缺失身体部位或衣物误分类)的敏感性。
  • Result: 该方法在多个数据集上展现出改进的鲁棒性和准确性,能够在仅使用单个关键点的情况下进行准确的掩码预测,同时保持了原始模型的泛化能力。
  • Conclusion: 姿态引导的SAM微调实现了有效的遮挡感知人体分割,同时保留了原始模型的泛化能力,为遮挡场景下的分割任务提供了实用解决方案。

[14] Instance camera focus prediction for crystal agglomeration classification

Xiaoyu Ji,Chenhao Zhang,Tyler James Downard,Zoltan Nagy,Ali Shakouri,Fengqing Zhu

Main category: cs.CV

TL;DR: 提出一种结合相机焦点预测网络和实例分割的方法,从显微图像中准确分析晶体团聚现象,解决二维成像中晶体重叠导致的误判问题。

  • Motivation: 晶体团聚分析在显微图像中具有挑战性,因为二维成像的固有局限性:不同深度层的重叠晶体可能看起来连接在一起,但实际上并不构成真正的团聚。光学显微镜景深浅,同一图像中清晰和模糊的晶体通常位于不同深度层。
  • Method: 首先通过实例相机焦点预测网络量化相机焦点,预测2类焦点水平(比传统图像处理焦点测量更符合视觉观察);然后将实例分割模型与预测的焦点水平结合进行团聚分类。
  • Result: 在高氯酸铵晶体和糖晶体数据集上,提出的方法在团聚分类和分割精度方面均优于基线模型。
  • Conclusion: 通过结合焦点预测和实例分割,能够更准确地从显微图像中分析晶体团聚现象,有效区分不同深度层的晶体重叠与真正的团聚。

[15] Changes in Visual Attention Patterns for Detection Tasks due to Dependencies on Signal and Background Spatial Frequencies

Amar Kavuri,Howard C. Gifford,Mini Das

Main category: cs.CV

TL;DR: 研究图像和信号特性对数字图像信号检测任务中视觉注意机制的影响,使用模拟乳腺断层图像,发现检测性能受后期感知阶段限制,信号可检测性受目标形态和背景复杂性共同影响。

  • Motivation: 研究图像和信号特性对视觉注意机制的影响,应用范围涉及数字成像中信号或模式识别的多个领域。虽然放射科医生在分析医学图像检测疾病方面非常有效,但误诊仍然发生,需要理解视觉注意机制如何影响检测性能。
  • Method: 使用模拟乳腺断层图像作为研究平台,采用数字乳腺体模(Bakic和XCAT)生成不同乳腺密度和结构的数字乳腺断层合成图像。在投影过程中随机插入两种具有不同空间频率特性的病变,生成异常病例。6名人类观察者参与观察研究,检测重建平面DBT切片中的3毫米球形病变和6毫米星状病变。收集眼动数据以估计注视指标并检查视觉注意机制的差异。
  • Result: 在复杂视觉环境中的检测性能受到后期感知阶段的强烈限制,决策失败占错误的最大比例。信号可检测性同时受到目标形态和背景复杂性的影响,揭示了局部信号特征与全局解剖噪声之间的关键相互作用。对星状病变的注视持续时间增加表明,视觉注意的参与程度取决于背景和信号空间频率依赖性。
  • Conclusion: 视觉注意机制在医学图像检测任务中起着关键作用,检测性能受感知后期阶段限制,信号特性与背景复杂性相互作用影响检测效果,这对改进医学图像分析和减少误诊有重要意义。

[16] Depth-Wise Representation Development Under Blockwise Self-Supervised Learning for Video Vision Transformers

Jonas Römer,Timo Dickscheid

Main category: cs.CV

TL;DR: 该论文研究在视频Transformer中应用块级自监督学习,通过局部掩码重建损失训练模型,避免端到端反向传播,发现块级训练能产生与端到端基线相当的表示效果。

  • Motivation: 端到端反向传播通过全局误差信号耦合所有层,需要长程信用分配。受块级自监督学习进展启发,探索是否能在视频Transformer中避免端到端反向传播,并比较两种训练方式在学习动态和深度表示发展上的差异。
  • Method: 将掩码自编码视频视觉Transformer的编码器划分为多个块,每个块使用局部掩码重建损失进行优化,实现块级学习。在不同模型规模和划分粒度下进行实验。
  • Result: 块级训练能够收敛,并在线性探测和检索任务上产生与匹配的端到端基线相近的表示。分析显示块级训练更早暴露高层结构,后期块趋于饱和并在几何保持机制下运行,同时引起令牌级变化。
  • Conclusion: 块级训练是端到端反向传播的有效替代方案,后期块饱和和接口形成是性能差距的主要因素。该方法为理解深度表示发展提供了新视角。

[17] Exploring Reliable Spatiotemporal Dependencies for Efficient Visual Tracking

Junze Shi,Yang Yu,Jian Shi,Haibo Luo

Main category: cs.CV

TL;DR: STDTrack是一个轻量级目标跟踪框架,通过密集视频采样和时空依赖建模,在保持实时效率的同时达到接近高性能跟踪器的精度,在GOT-10k上达到192 FPS(GPU)和41 FPS(CPU)。

  • Motivation: 现有轻量级跟踪器在训练时普遍采用稀疏采样(每序列仅使用一个模板和一个搜索图像),无法充分利用视频中的时空信息,导致与高性能跟踪器之间存在性能差距。
  • Method: 提出STDTrack框架:1)采用密集视频采样最大化时空信息利用;2)引入时序传播的时空token指导每帧特征提取;3)设计多帧信息融合模块(MFIFM)利用历史上下文增强当前依赖;4)构建时空token维护器(STM)并采用基于质量的更新机制确保信息可靠性;5)开发多尺度预测头适应不同尺寸目标。
  • Result: 在六个基准测试中取得最先进结果,在GOT-10k上性能可媲美某些非实时高性能跟踪器(如MixFormer),同时在GPU上达到192 FPS,CPU上达到41 FPS的实时效率。
  • Conclusion: STDTrack成功将可靠的时空依赖集成到轻量级跟踪器中,通过密集采样和时空信息融合机制,在保持实时效率的同时显著缩小了轻量级与高性能跟踪器之间的性能差距。

[18] Vision Foundation Models for Domain Generalisable Cross-View Localisation in Planetary Ground-Aerial Robotic Teams

Lachlan Holden,Feras Dayoub,Alberto Candela,David Harvey,Tat-Jun Chin

Main category: cs.CV

TL;DR: 提出使用跨视角双编码器神经网络,通过地面单目RGB图像在航空地图中定位行星漫游车,利用语义分割和合成数据解决真实空间数据稀缺问题。

  • Motivation: 行星机器人需要精确定位以实现高级自主性,支持未来更大规模任务。真实空间数据稀缺,需要解决地面视角与航空地图之间的领域差距。
  • Method: 使用跨视角定位双编码器深度神经网络,结合语义分割和视觉基础模型,利用大量合成数据弥合领域差距。采用粒子滤波器进行状态估计。
  • Result: 在简单和复杂轨迹上都能实现基于地面视角图像序列的精确位置估计。
  • Conclusion: 提出的跨视角定位方法能够有效解决行星漫游车在航空地图中的定位问题,为未来地面-空中机器人团队任务奠定基础。

[19] Small but Mighty: Dynamic Wavelet Expert-Guided Fine-Tuning of Large-Scale Models for Optical Remote Sensing Object Segmentation

Yanguang Sun,Chao Wang,Jian Yang,Lei Luo

Main category: cs.CV

TL;DR: 提出WEFT方法,通过动态小波专家引导的微调范式,用更少的可训练参数将大规模基础模型适配到遥感图像分割任务中

  • Motivation: 现有遥感图像分割方法主要基于中等规模预训练模型,而更大规模的基础模型能提供更强性能支持,但全参数微调会导致训练困难(GPU内存消耗大、计算成本高),限制了大规模模型的应用
  • Method: 1) 任务特定小波专家提取器:从不同角度建模小波专家并动态调节输出,生成富含任务信息的可训练特征;2) 专家引导的条件适配器:通过注入可训练特征增强冻结特征的细粒度感知,然后迭代更新两类特征信息,实现高效微调
  • Result: 在三个遥感图像数据集上超越21个SOTA方法,同时在伪装、自然和医疗场景中取得最优结果
  • Conclusion: WEFT方法通过动态小波专家引导的微调范式,以更少可训练参数高效适配大规模基础模型到遥感图像分割任务,解决了全参数微调的计算瓶颈问题

[20] SAM-Aug: Leveraging SAM Priors for Few-Shot Parcel Segmentation in Satellite Time Series

Kai Hu,Yaozu Feng,Vladimir Lysenko,Ya Guo Member,Huayi Wu

Main category: cs.CV

TL;DR: SAM-Aug:利用Segment Anything Model的几何感知分割能力,通过无监督生成掩码先验和RegionSmoothLoss损失函数,提升少样本时序遥感图像语义分割性能

  • Motivation: 少样本时序遥感图像语义分割在标注数据稀缺地区面临挑战,现有全监督模型在有限标注下性能显著下降,限制了实际应用
  • Method: 构建时序云合成图像,无监督应用SAM生成几何感知掩码先验,提出RegionSmoothLoss损失函数强制时序帧内SAM区域预测一致性
  • Result: 在PASTIS-R基准测试中,5%标注设置下平均测试mIoU达36.21%,比SOTA基线提升2.33个百分点(相对提升6.89%),最优分割达40.28% mIoU
  • Conclusion: SAM等视觉基础模型可作为少样本遥感学习的有效正则化器,提供无需人工标注或微调的可扩展即插即用解决方案

[21] Towards Open Environments and Instructions: General Vision-Language Navigation via Fast-Slow Interactive Reasoning

Yang Li,Aming Wu,Zihao Zhang,Yahong Han

Main category: cs.CV

TL;DR: 提出slow4fast-VLN框架,通过快慢推理交互机制解决视觉语言导航中的泛化场景适应问题,使智能体在未见环境和指令下能动态生成泛化策略。

  • Motivation: 传统视觉语言导航方法基于闭集假设,训练和测试数据共享相同的图像和指令风格。然而现实世界是开放的,充满各种未见环境,这对闭集方法构成巨大挑战。因此需要研究泛化场景适应任务,通过引入多样化环境和不一致指令来学习泛化导航能力。
  • Method: 提出slow4fast-VLN框架,建立动态交互的快慢推理机制。快推理模块是端到端的策略网络,通过实时输入输出动作,并在历史存储库中积累执行记录构建记忆。慢推理模块分析快推理模块生成的记忆,通过深度反思提取增强决策泛化能力的经验,结构化存储并持续优化快推理模块。与传统独立机制不同,该框架实现快慢交互。
  • Result: 通过慢推理模块提取的经验,系统能够持续适应并在面对未见场景时高效执行导航任务。快慢推理交互使智能体能够动态产生泛化策略,增强对开放世界的适应能力。
  • Conclusion: 提出的slow4fast-VLN框架通过模拟人类快慢认知系统,建立了动态交互的快慢推理机制,有效解决了视觉语言导航中的泛化场景适应问题,使智能体在面对未见环境和指令时能够生成稳定的泛化策略。

[22] LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models

Haoyan Gong,Hongbin Liu

Main category: cs.CV

TL;DR: 提出基于Qwen3-VL的端到端结构感知多模态推理框架,通过字符感知多模态推理模块(CMRM)引入可学习的字符槽查询,解决车牌识别中图像恢复与字符识别目标不一致的问题。

  • Motivation: 现实世界车牌识别面临运动模糊、低分辨率、复杂光照等严重退化问题。传统的"恢复-识别"两阶段方法存在根本缺陷:图像恢复的像素级优化目标与字符识别的语义目标不一致,导致伪影干扰和误差累积。虽然视觉语言模型(VLMs)展现出强大通用能力,但缺乏对车牌字符序列(固定长度、特定顺序)的显式结构建模。
  • Method: 提出基于Qwen3-VL的端到端结构感知多模态推理框架。核心创新是字符感知多模态推理模块(CMRM),引入一组可学习的字符槽查询,通过交叉注意力机制从视觉特征中主动检索对应字符位置的细粒度证据。然后将这些字符感知表示通过残差调制注入视觉标记,使语言模型能够基于显式结构先验进行自回归生成。结合LoRA参数高效微调策略,实现领域适应同时保留大模型的泛化能力。
  • Result: 在合成和真实世界严重退化数据集上的大量实验表明,该方法显著优于现有的恢复-识别组合和通用VLMs,验证了将结构化推理融入大模型在低质量文本识别任务中的优越性。
  • Conclusion: 通过引入字符感知多模态推理模块,成功解决了传统两阶段方法的语义不一致问题,为低质量文本识别任务提供了一种有效的端到端解决方案,展示了将结构化推理融入大模型的优势。

[23] LPCAN: Lightweight Pyramid Cross-Attention Network for Rail Surface Defect Detection Using RGB-D Data

Jackie Alex,Guoqiang Huan

Main category: cs.CV

TL;DR: 提出轻量级金字塔交叉注意力网络LPCANet,利用RGB-D数据进行铁路缺陷检测,在保持高精度的同时大幅降低计算复杂度和参数量。

  • Motivation: 当前基于视觉的铁路缺陷检测方法存在计算复杂度高、参数量大、精度不足等问题,需要一种更高效准确的解决方案。
  • Method: 使用MobileNetv2作为RGB特征提取骨干网络,结合轻量级金字塔模块处理深度数据,通过交叉注意力机制进行多模态融合,并采用空间特征提取器增强结构分析。
  • Result: 在三个无监督RGB-D铁路数据集上取得SOTA性能:仅990万参数、2.50G FLOPs、162.60fps推理速度;相比现有方法,Sα提升1.48%,IOU提升0.86%,MAE提升1.77%。
  • Conclusion: LPCANet有效结合了传统与深度学习方法,为工业缺陷检测提供了实用价值,未来将专注于进一步模型压缩以实现实时部署。

[24] Beyond Seen Bounds: Class-Centric Polarization for Single-Domain Generalized Deep Metric Learning

Xin Yuan,Meiqi Wan,Wei Liu,Xin Xu,Zheng Wang

Main category: cs.CV

TL;DR: CenterPolar提出了一种新颖的单域广义深度度量学习框架,通过类中心极化策略动态扩展和约束域分布,以学习对更广泛目标域分布具有泛化能力的度量学习模型。

  • Motivation: 单域广义深度度量学习面临测试时类别和域双重偏移的挑战,现有方法依赖基于代理的扩展,生成的样本往往聚集在类别代理附近,无法模拟实践中广泛而遥远的域偏移。
  • Method: 提出CenterPolar框架,包含两个协作的类中心极化阶段:1) 类中心离心扩展(C³E)将源数据从类中心推开以泛化到更多未见域;2) 类中心向心约束(C⁴)将所有样本拉向类中心,同时通过向心约束强制类间分离,巩固域不变类别信息。
  • Result: 在CUB-200-2011 Ext.、Cars196 Ext.、DomainNet、PACS和Office-Home数据集上的广泛实验表明,CenterPolar优于现有最先进方法,展示了其优越性和有效性。
  • Conclusion: CenterPolar通过动态扩展和约束域分布,成功解决了单域广义深度度量学习中的双重挑战,为更广泛的目标域分布学习到了具有泛化能力的度量学习模型。

[25] SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL

Lijun Liu,Linwei Chen,Zhishou Zhang,Meng Tian,Hengfu Cui,Ruiyang Li,Zhaocheng Liu,Qiang Ju,Qianxi Li,Hong-Yu Zhou

Main category: cs.CV

TL;DR: SkinFlow框架通过优化视觉信息传输效率而非参数扩展,在皮肤科诊断中超越大型通用视觉语言模型,7B模型在Fitzpatrick17k基准上实现SOTA性能。

  • Motivation: 通用大型视觉语言模型在皮肤科诊断中存在"扩散注意力"问题,难以从背景噪声中区分细微病理病变。作者挑战了参数扩展是医学精度的唯一路径这一假设。
  • Method: 提出SkinFlow框架:1) 使用虚拟宽度动态视觉编码器在不增加物理参数的情况下"展开"复杂病理流形;2) 采用两阶段强化学习策略,在受限语义空间中顺序对齐显式医学描述和重建隐式诊断纹理;3) 提出基于临床的评估协议,优先考虑诊断安全性和层次相关性而非刚性标签匹配。
  • Result: 7B模型在Fitzpatrick17k基准上创下新SOTA:Top-1准确率提升12.06%,Top-6准确率提升28.57%,超越Qwen3VL-235B和GPT-5.2等大型通用模型。
  • Conclusion: 优化几何能力和信息流比原始参数扩展能产生更优越的诊断推理能力,证明了在医学AI中效率优化的重要性。

[26] SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection

Chenhao Fu,Han Fang,Xiuzheng Zheng,Wenbo Wei,Yonghua Li,Hao Sun,Xuelong Li

Main category: cs.CV

TL;DR: SSVP通过融合多种视觉编码提升零样本异常检测的细粒度感知能力,在工业检测基准上达到SOTA性能

  • Motivation: 现有零样本异常检测方法受限于单一视觉骨干网络,难以平衡全局语义泛化与细粒度结构判别能力
  • Method: 提出协同语义-视觉提示(SSVP),包含:1)层次化语义-视觉协同机制融合DINOv3多尺度结构先验到CLIP语义空间;2)视觉条件提示生成器通过跨模态注意力指导动态提示生成;3)视觉-文本异常映射器建立双门校准范式
  • Result: 在7个工业基准测试中验证了方法的鲁棒性,在MVTec-AD上达到93.0%图像AUROC和92.2%像素AUROC,显著优于现有零样本方法
  • Conclusion: SSVP通过有效融合多样视觉编码提升了模型的细粒度感知能力,为零样本异常检测提供了新的解决方案

[27] From Snow to Rain: Evaluating Robustness, Calibration, and Complexity of Model-Based Robust Training

Josué Martínez-Martínez,Olivia Brown,Giselle Zeno,Pooya Khorrami,Rajmonda Caceres

Main category: cs.CV

TL;DR: 模型驱动的训练方法(利用学习的干扰变化模型生成真实扰动)在交通标志识别中显著优于传统基线,模型驱动的对抗训练提供最强鲁棒性但计算成本高,模型驱动的数据增强能以更低成本获得可比性能。

  • Motivation: 深度学习在安全关键领域中对自然扰动的鲁棒性仍然是一个关键挑战,需要开发更有效的训练方法来提高模型在恶劣条件下的可靠性。
  • Method: 研究基于模型的训练方法,利用学习的干扰变化模型生成真实扰动;提出混合策略,结合随机覆盖和干扰空间中的对抗精炼;在CURE-TSR数据集(包含雪和雨扰动)上评估准确性、校准性和训练复杂度。
  • Result: 基于模型的方法在所有扰动严重程度上一致优于Vanilla、对抗训练和AugMix基线;模型驱动的对抗训练在所有扰动中提供最强的鲁棒性但计算成本高;模型驱动的数据增强能以T倍更低的计算复杂度获得可比的鲁棒性,且性能没有统计显著下降。
  • Conclusion: 学习的干扰模型对于捕捉自然变化至关重要,为在挑战性条件下构建更具弹性和校准性的模型提供了一条有前景的路径。

[28] Architecture inside the mirage: evaluating generative image models on architectural style, elements, and typologies

Jamie Magrill,Leah Gornstein,Sandra Seekins,Barry Magrill

Main category: cs.CV

TL;DR: 评估5个主流GenAI图像生成平台在建筑图像生成上的准确性,发现整体准确率有限(平均42%),常见提示比罕见提示准确率高2.7倍,不同平台在完全错误结果上差异显著。

  • Motivation: 生成式AI文本到图像系统在建筑领域应用日益广泛,但其在历史规则约束的领域中生成准确图像的能力尚未得到充分评估,需要系统研究其表现。
  • Method: 使用5个主流GenAI平台(Adobe Firefly、DALL-E 3、Google Imagen 3、Microsoft Image Generator、Midjourney),基于30个涵盖风格、类型和规范元素的建筑提示,每个提示-生成器组合产生4张图像(共600张)。两位建筑历史学家根据预设标准独立评分,通过共识解决分歧。
  • Result: 常见提示的准确性比罕见提示高2.7倍(p<0.05)。整体准确率有限(最高52%,最低32%,平均42%)。完全正确结果(4/4)各平台相似,但完全错误结果(0/4)差异显著:Imagen 3失败最少,Microsoft Image Generator失败最多。定性分析发现过度装饰、中世纪风格与复兴风格混淆、描述性提示误解等模式。
  • Conclusion: 研究支持需要对GenAI合成内容进行可见标签标注、建立未来训练数据集的来源标准,并在教育中谨慎使用GenAI建筑图像。

[29] N-EIoU-YOLOv9: A Signal-Aware Bounding Box Regression Loss for Lightweight Mobile Detection of Rice Leaf Diseases

Dung Ta Nguyen Duc,Thanh Bui Dang,Hoang Le Minh,Tung Nguyen Viet,Huong Nguyen Thanh,Dong Trinh Cong

Main category: cs.CV

TL;DR: 提出N EIoU YOLOv9轻量检测框架,使用非单调梯度聚焦和几何解耦的边界框回归损失函数,在农业病害检测中提升小目标和低对比度目标的检测性能,并在移动设备上实现高效部署。

  • Motivation: 农业病害图像中常见小目标和低对比度目标,传统检测方法对这些困难样本的回归信号较弱,需要增强弱回归信号并减少梯度干扰,以提升检测精度。
  • Method: 提出N EIoU损失函数,结合非单调梯度聚焦和宽度高度解耦优化,重塑定位梯度;将该损失集成到轻量级YOLOv9t架构中,并在自收集的5908张水稻叶片图像数据集上进行评估。
  • Result: 在农业病害检测任务上,N EIoU损失相比标准CIoU损失获得4.3%的mAP提升,达到90.3%;在Android设备上使用TensorFlow Lite Float16量化部署,平均推理时间156ms/帧,保持精度。
  • Conclusion: 该方法有效平衡了精度、优化稳定性和计算效率,适用于边缘农业监测系统,为移动端农业病害检测提供了实用解决方案。

[30] From Performance to Practice: Knowledge-Distilled Segmentator for On-Premises Clinical Workflows

Qizhen Lan,Aaron Choi,Jun Ma,Bo Wang,Zhaogming Zhao,Xiaoqian Jiang,Yu-Chun Hsu

Main category: cs.CV

TL;DR: 提出一个面向部署的框架,通过知识蒸馏将高性能医学图像分割模型转换为紧凑的学生模型家族,在保持架构兼容性的同时显著降低计算需求,实现临床部署的实用化。

  • Motivation: 临床工作流中医学图像分割模型的部署受到本地基础设施计算资源固定、云推理受治理和安全政策限制的约束。高容量模型虽然分割精度高,但计算需求大,阻碍了在医院环境中的实际部署和长期可维护性。
  • Method: 采用知识蒸馏技术,将高性能分割模型(教师模型)转换为可扩展的紧凑学生模型家族,不修改推理流水线,保持与现有临床系统的架构兼容性,同时实现系统性的容量缩减。
  • Result: 在多站点脑MRI数据集(1,104个3D体积)和独立测试集(101个病例)上评估,并在腹部CT上验证跨模态泛化能力。在参数减少94%的情况下,蒸馏后的学生模型保留了教师模型98.7%的分割精度,CPU推理延迟降低达67%,无需额外部署开销。
  • Conclusion: 知识蒸馏为将研究级分割模型转换为可维护、部署就绪的组件提供了实用可靠的途径,适用于真实世界医疗系统的本地临床工作流。

[31] Point Tracking as a Temporal Cue for Robust Myocardial Segmentation in Echocardiography Videos

Bahar Khodabakhshian,Nima Hashemi,Armin Saadat,Zahra Gholami,In-Chang Hwang,Samira Sojoudi,Christina Luong,Purang Abolmaesumi,Teresa Tsang

Main category: cs.CV

TL;DR: Point-Seg:一种基于Transformer的分割框架,通过点跟踪作为时间线索,实现超声心动图视频中心肌的稳定一致分割

  • Motivation: 超声心动图视频中心肌分割面临低对比度、噪声和解剖变异性的挑战。传统深度学习方法要么独立处理帧忽略时间信息,要么依赖基于记忆的特征传播导致误差累积。
  • Method: 提出Point-Seg框架,集成点跟踪模块作为时间线索。使用合成超声心动图数据集训练点跟踪模块来跟踪关键解剖标志点,这些跟踪轨迹提供显式运动感知信号指导分割。同时加入时间平滑损失增强时间一致性。
  • Result: 在公共和私有超声心动图数据集上评估,Point-Seg在高质量数据上与最先进模型有相似的Dice精度,在低质量数据上分割精度更高且时间稳定性更好。关键优势是提供像素级心肌运动信息。
  • Conclusion: Point-Seg证明点跟踪可作为有效的视频分割时间线索,为超声心动图视频中心肌分割提供可靠且可泛化的方法。代码已开源。

[32] Pairing-free Group-level Knowledge Distillation for Robust Gastrointestinal Lesion Classification in White-Light Endoscopy

Qiang Hu,Qimei Wang,Yingjie Guo,Qiang Li,Zhiwei Wang

Main category: cs.CV

TL;DR: 提出PaGKD框架,通过组级知识蒸馏实现无需配对的白光与窄带内镜图像跨模态学习,显著提升白光图像诊断性能

  • Motivation: 白光内镜是癌症筛查标准,但窄带成像提供更优诊断细节。现有方法依赖配对的NBI-WLI图像,成本高且不切实际,导致大量临床数据无法利用
  • Method: 提出配对自由的组级知识蒸馏框架PaGKD,包含两个互补模块:组级原型蒸馏(GKD-Pro)通过共享病灶感知查询提取模态不变语义原型;组级密集蒸馏(GKD-Den)通过激活导出的关系图指导组感知注意力进行密集跨模态对齐
  • Result: 在四个临床数据集上,PaGKD始终显著优于最先进方法,相对AUC提升分别达到3.3%、1.1%、2.8%和3.2%
  • Conclusion: PaGKD打破了依赖配对图像的范式,为无配对数据的跨模态学习开辟了新方向,实现了全局语义一致性和局部结构连贯性

[33] Affostruction: 3D Affordance Grounding with Generative Reconstruction

Chunghyun Park,Seunghyeon Lee,Minsu Cho

Main category: cs.CV

TL;DR: Affostruction:一个从RGBD图像进行功能基底的生成框架,通过完整形状重建(包括未观测区域)和基于流的功能基底方法,显著提升功能基底定位和3D重建性能。

  • Motivation: 现有方法只能在可见表面上预测功能基底区域,无法处理未观测区域。本文旨在从部分观测中重建完整几何形状,并在包括未观测区域在内的完整形状上进行功能基底定位。
  • Method: 提出Affostruction框架,包含三个核心贡献:1)通过稀疏体素融合的生成式多视角重建,在保持恒定token复杂度的同时外推未见几何;2)基于流的功能基底方法,捕捉功能基底分布的内在模糊性;3)功能基底驱动的主动视角选择,利用预测的功能基底进行智能视角采样。
  • Result: 在功能基底定位上达到19.1 aIoU(提升40.4%),在3D重建上达到32.67 IoU(提升67.7%),能够在完整形状上实现准确的功能基底预测。
  • Conclusion: Affostruction通过生成式完整形状重建和创新的功能基底定位方法,显著提升了从RGBD图像进行功能基底定位的性能,解决了现有方法局限于可见表面的问题。

[34] Annealed Relaxation of Speculative Decoding for Faster Autoregressive Image Generation

Xingyao Li,Fengzhuo Zhang,Cunxiao Du,Hui Ji

Main category: cs.CV

TL;DR: COOL-SD:基于退火松弛推测解码的快速自回归图像生成方法,通过理论分析优化采样分布,在保持质量的同时显著提升推理速度

  • Motivation: 自回归图像生成模型推理速度慢,现有松弛推测解码方法缺乏理论依据,需要建立理论框架并设计更高效的解码策略
  • Method: 提出COOL-SD方法,基于两个关键理论洞察:1) 分析目标模型与松弛推测解码之间的总变差距离,推导最小化距离上界的最优重采样分布;2) 通过扰动分析揭示松弛推测解码中的退火行为,设计退火松弛方案
  • Result: 实验验证COOL-SD有效性,在速度-质量权衡方面优于现有方法,能以更快的速度生成质量相当的图像,或在相似延迟下获得更好的质量
  • Conclusion: COOL-SD为松弛推测解码提供了理论基础,通过退火设计实现了更好的速度-质量权衡,推动了自回归图像生成的实际应用

[35] SpikeVAEDiff: Neural Spike-based Natural Visual Scene Reconstruction via VD-VAE and Versatile Diffusion

Jialu Li,Taiyan Zhou

Main category: cs.CV

TL;DR: SpikeVAEDiff:结合VDVAE和Versatile Diffusion的两阶段框架,从神经尖峰数据重建高分辨率视觉场景

  • Motivation: 从神经活动重建自然视觉场景是神经科学和计算机视觉的关键挑战。相比fMRI,尖峰数据具有更好的时空分辨率,但现有方法在重建质量和语义理解方面仍有局限。
  • Method: 两阶段框架:第一阶段使用VDVAE将神经尖峰信号映射到潜在表示,生成低分辨率初步重建;第二阶段通过回归模型将尖峰信号映射到CLIP视觉和文本特征,利用Versatile Diffusion进行图像到图像生成来细化图像。
  • Result: 在Allen Visual Coding-Neuropixels数据集上评估,VISI区域表现出最显著的激活并在重建质量中起关键作用。相比fMRI方法,尖峰数据提供更优的时空分辨率。消融研究显示特定脑区数据显著提升重建性能。
  • Conclusion: SpikeVAEDiff能够从神经尖峰数据生成高分辨率、语义有意义的图像重建,VISI区域在视觉重建中起关键作用,为神经解码提供了新的有效方法。

[36] Disentangle Object and Non-object Infrared Features via Language Guidance

Fan Liu,Ting Wu,Chuanyi Zhang,Liang Yao,Xing Ma,Yuhui Zheng

Main category: cs.CV

TL;DR: 提出一种基于视觉-语言表示学习的红外目标检测新范式,通过文本监督增强特征判别性,在M³FD和FLIR数据集上取得SOTA性能

  • Motivation: 红外图像由于对比度低、边缘信息弱,难以提取具有判别性的目标特征进行鲁棒检测。传统方法在复杂环境(黑暗、雪、雨)下性能受限。
  • Method: 提出视觉-语言表示学习范式:1)语义特征对齐模块(SFA)将目标特征与对应文本特征对齐;2)目标特征解耦模块(OFD)通过最小化相关性解耦文本对齐的目标特征和非目标特征;3)将解耦后的目标特征输入检测头。
  • Result: 在两个基准数据集上取得优越性能:M³FD达到83.7% mAP,FLIR达到86.1% mAP,显著提升了检测性能。
  • Conclusion: 通过引入文本监督的视觉-语言表示学习,能够有效增强红外目标特征的判别性并减少噪声,从而显著提升复杂环境下的红外目标检测性能。

[37] SPOT-Face: Forensic Face Identification using Attention Guided Optimal Transport

Ravi Shankar Prasad,Dinesh Singh

Main category: cs.CV

TL;DR: SPOT-Face:基于超像素图的跨域法医人脸识别框架,用于骨骼和素描图像与面部的匹配

  • Motivation: 在法医调查中,当DNA识别手段不可用时,传统人脸识别方法缺乏有效的跨域结构对应建模机制,特别是在骨骼和素描图像与面部图像之间的匹配
  • Method: 提出SPOT-Face框架:1)从图像构建超像素图;2)使用不同GNN骨干网络提取图嵌入;3)通过注意力引导的最优传输机制建立跨域对应关系
  • Result: 在IIT_Mandi_S2F和CUFS数据集上的实验显示,在召回率和mAP等识别指标上显著优于现有基于图的基线方法
  • Conclusion: 该框架在法医调查中能有效匹配骨骼和素描图像与面部,为跨域法医人脸识别提供了有效解决方案

[38] CLIDD: Cross-Layer Independent Deformable Description for Efficient and Discriminative Local Feature Representation

Haodi Yao,Fenghua He,Ning Hao,Yao Su

Main category: cs.CV

TL;DR: CLIDD提出了一种跨层独立可变形描述符方法,通过直接从独立特征层次采样实现高区分度,结合硬件感知内核融合实现实时性能,在保持高匹配精度的同时大幅减少模型参数和计算开销。

  • Motivation: 机器人导航和增强现实等空间智能任务需要鲁棒的局部特征表示,现有方法在区分度和计算效率之间难以平衡,需要既能提供高判别力又能保持计算效率的描述符。
  • Method: 提出跨层独立可变形描述(CLIDD),通过可学习偏移直接从独立特征层次采样捕捉跨尺度的细粒度结构细节;采用硬件感知内核融合策略最大化推理吞吐量;结合轻量架构和训练协议,利用度量学习和知识蒸馏生成适应不同部署约束的模型变体。
  • Result: 超紧凑变体仅用0.004M参数就达到SuperPoint的精度,模型大小减少99.7%;高性能配置超越所有现有方法(包括基于DINOv2的高容量框架),在边缘设备上超过200 FPS;同时实现卓越的匹配精度和计算效率。
  • Conclusion: CLIDD以最小计算开销提供高精度局部特征匹配,为实时空间智能任务提供了鲁棒且可扩展的解决方案,在精度和效率之间实现了优异平衡。

[39] Knowledge-Embedded and Hypernetwork-Guided Few-Shot Substation Meter Defect Image Generation Method

Jackie Alex,Justin Petter

Main category: cs.CV

TL;DR: 提出一种融合知识嵌入和超网络引导条件控制的Stable Diffusion框架,用于解决变电站仪表缺陷图像少样本生成问题,显著提升生成质量和下游检测性能。

  • Motivation: 变电站仪表在电网监控中至关重要,但其裂纹等物理缺陷检测面临标注样本严重稀缺的挑战,需要解决少样本生成问题。
  • Method: 1) 使用DreamBooth风格知识嵌入微调Stable Diffusion主干网络,编码仪表结构纹理先验;2) 几何裂纹建模模块参数化缺陷属性生成空间约束控制图;3) 设计轻量级超网络动态调制扩散模型去噪过程,平衡生成保真度和可控性。
  • Result: 在真实变电站仪表数据集上大幅优于现有增强和生成基线方法:FID降低32.7%,多样性指标提升,最重要的是使用增强数据训练时下游缺陷检测器的mAP提升15.3%。
  • Conclusion: 该框架为工业检测系统提供了一种实用、高质量的数据合成解决方案,特别适用于缺陷样本稀缺的场景。

[40] DeTracker: Motion-decoupled Vehicle Detection and Tracking in Unstabilized Satellite Videos

Jiajun Chen,Jing Xiao,Shaohan Cao,Yuming Zhu,Liang Liao,Jun Pan,Mi Wang

Main category: cs.CV

TL;DR: DeTracker是一个针对未稳定卫星视频的多目标跟踪框架,通过全局-局部运动解耦和时序依赖特征金字塔提升微小目标跟踪性能,在模拟和真实卫星视频上表现优异。

  • Motivation: 卫星视频能提供连续的地表动态观测,但在未稳定条件下存在挑战:平台抖动和微小目标外观特征弱共同导致跟踪性能下降。现有方法难以处理这种联合退化问题。
  • Method: 提出DeTracker联合检测跟踪框架:1) 全局-局部运动解耦模块分离卫星平台运动和真实目标运动;2) 时序依赖特征金字塔模块进行跨帧时序特征融合;3) 构建SDM-Car-SU基准数据集模拟多方向多速度平台运动。
  • Result: 在模拟数据集SDM-Car-SU上达到61.1% MOTA,在真实卫星视频数据上达到47.3% MOTA,显著优于现有方法。
  • Conclusion: DeTracker能有效处理未稳定卫星视频中的多目标跟踪问题,通过运动解耦和时序特征融合提升了微小目标跟踪的稳定性和准确性,为卫星视频分析提供了有力工具。

[41] A2TG: Adaptive Anisotropic Textured Gaussians for Efficient 3D Scene Representation

Sheng-Chi Hsu,Ting-Yu Yen,Shih-Hsuan Hung,Hung-Kuo Chu

Main category: cs.CV

TL;DR: 提出自适应各向异性纹理高斯(A²TG),通过为每个高斯基元配备各向异性纹理,使用梯度引导的自适应规则确定纹理分辨率和纵横比,显著提高纹理效率,降低内存消耗同时提升图像质量。

  • Motivation: 现有高斯泼溅方法为每个基元分配固定方形纹理,导致内存使用效率低下且难以适应场景变化,需要更高效的纹理表示方法。
  • Method: 提出自适应各向异性纹理高斯(A²TG),为每个高斯基元配备各向异性纹理,采用梯度引导的自适应规则联合确定纹理分辨率和纵横比,实现非均匀、细节感知的纹理分配。
  • Result: 在多个基准数据集上的实验表明,A²TG始终优于固定纹理的高斯泼溅方法,在显著降低内存需求的同时获得可比的渲染保真度。
  • Conclusion: A²TG通过自适应各向异性纹理分配,有效解决了固定纹理高斯泼溅的内存效率问题,实现了更高效的3D场景表示和渲染。

[42] Integrating Diverse Assignment Strategies into DETRs

Yiwei Zhang,Jin Gao,Hanshi Wang,Fudong Ge,Guan Luo,Weiming Hu,Zhipeng Zhang

Main category: cs.CV

TL;DR: LoRA-DETR:通过多个LoRA分支集成多样的一对多分配策略来增强DETR检测器,训练时注入丰富的监督梯度,推理时无额外开销

  • Motivation: DETR风格检测器的一对一匹配策略收敛慢,现有的一对多方法通常引入复杂的架构修改且只关注单一辅助策略,缺乏统一可扩展的设计
  • Method: 提出LoRA-DETR框架,在训练时为主网络添加多个低秩适应(LoRA)分支,每个分支实例化不同的一对多分配规则,作为注入多样监督梯度的辅助模块,推理时丢弃这些分支
  • Result: 在不同基准上的广泛实验验证了方法的有效性,实现了最先进的结果,同时保持了原始检测器的架构简洁性
  • Conclusion: 提出了一种增强检测器的新范式,证明通过集成多样的一对多监督可以在不损害模型优雅性的情况下实现最佳性能

[43] Hybrid guided variational autoencoder for visual place recognition

Ni Wang,Zihan You,Emre Neftci,Thorben Schoepe

Main category: cs.CV

TL;DR: 提出一种基于事件相机和变分自编码器的视觉地点识别方法,通过脉冲神经网络编码器实现低功耗、低延迟的移动部署,在室内环境中表现出良好的泛化能力。

  • Motivation: 自主智能体(如汽车、机器人、无人机)需要在GPS受限的室内环境中精确定位。现有视觉地点识别模型要么内存占用大不适合移动部署,要么紧凑但缺乏鲁棒性和泛化能力。
  • Method: 结合事件视觉传感器和事件引导的变分自编码器(VAE),编码器采用脉冲神经网络模型,兼容低功耗、低延迟的神经形态硬件。使用新的室内VPR数据集训练模型。
  • Result: 模型成功解耦了16个不同地点的视觉特征,分类性能与最先进方法相当,在各种光照条件下表现鲁棒。对未知场景的新视觉输入也能区分不同地点,显示出高泛化能力。
  • Conclusion: 这种紧凑、鲁棒且具有泛化能力的引导VAE模型是视觉地点识别的有前景方案,能显著增强移动机器人在已知和未知室内环境中的导航能力。

[44] PhyRPR: Training-Free Physics-Constrained Video Generation

Yibo Zhao,Hengjia Li,Xiaofei He,Boxi Wu

Main category: cs.CV

TL;DR: 提出PhyRPR三阶段训练免费流程,通过物理推理-规划-细化的解耦设计,提升扩散视频生成的物理合理性和运动可控性

  • Motivation: 现有扩散视频生成模型虽然能合成视觉上合理的视频,但往往难以满足物理约束。主要原因是大多数方法都是单阶段的,将高层物理理解与底层视觉合成纠缠在一起,难以生成需要显式物理推理的内容。
  • Method: 提出三阶段流程PhyRPR:1) PhyReason使用大型多模态模型进行物理状态推理,图像生成器合成关键帧;2) PhyPlan确定性合成可控的粗粒度运动支架;3) PhyRefine通过潜在融合策略将支架注入扩散采样,在保留规划动态的同时细化外观。
  • Result: 在物理约束下的广泛实验表明,该方法持续提升了物理合理性和运动可控性。
  • Conclusion: 通过将物理理解与视觉合成解耦的三阶段设计,实现了生成过程中的显式物理控制,有效解决了现有扩散视频生成模型在物理合理性方面的不足。

[45] Magnifying change: Rapid burn scar mapping with multi-resolution, multi-source satellite imagery

Maria Sdraka,Dimitrios Michail,Ioannis Papoutsis

Main category: cs.CV

TL;DR: 提出BAM-MRCD模型,利用多分辨率多源卫星影像(MODIS和Sentinel-2)实现高时空分辨率的及时火烧迹地制图

  • Motivation: 现有深度学习模型在需要快速绘制火烧迹地时受到卫星系统空间分辨率与时间重访频率之间权衡的限制,难以在火灾后快速生成详细火烧迹地图
  • Method: 提出BAM-MRCD深度学习模型,结合MODIS和Sentinel-2多分辨率多源卫星影像,实现高时空分辨率的火烧迹地检测
  • Result: 模型能够高精度检测小规模野火,超越类似的变化检测模型和基线方法
  • Conclusion: BAM-MRCD模型通过多分辨率多源卫星影像融合,解决了现有方法在时空分辨率权衡上的限制,为及时火烧迹地制图提供了有效解决方案

[46] BrainSegNet: A Novel Framework for Whole-Brain MRI Parcellation Enhanced by Large Models

Yucheng Li,Xiaofan Wang,Junyi Wang,Yijie Li,Xi Zhu,Mubai Du,Dian Sheng,Wei Zhang,Fan Zhang

Main category: cs.CV

TL;DR: BrainSegNet:基于SAM改进的深度学习框架,用于精确的95区域全脑分割,通过U-Net跳跃连接、多尺度注意力解码器和边界细化模块提升分割精度

  • Motivation: 传统模板配准方法在脑区分割中存在局限性,现有大型分割模型如SAM虽然具有可迁移特征,但未针对脑区高精度分割需求进行优化,需要专门针对脑区分割的精确方法
  • Method: 提出BrainSegNet框架,改进SAM架构:1)混合编码器结合U-Net跳跃连接与SAM的transformer块;2)多尺度注意力解码器采用金字塔池化处理不同大小结构;3)边界细化模块锐化边缘
  • Result: 在Human Connectome Project数据集上的实验表明,BrainSegNet在复杂多标签分割任务中优于多种先进方法,实现了更高的准确性和鲁棒性
  • Conclusion: BrainSegNet成功将SAM适应于脑区分割任务,通过架构改进实现了对95个脑区的精确分割,为全脑分割提供了高效准确的解决方案

[47] GaussianFluent: Gaussian Simulation for Dynamic Scenes with Mixed Materials

Bei Huang,Yixin Chen,Ruijie Lu,Gang Zeng,Hongbin Zha,Yuru Pei,Siyuan Huang

Main category: cs.CV

TL;DR: GaussianFluent:一个统一框架,通过生成模型合成逼真内部结构,结合优化的连续损伤物质点法,实现脆性断裂的高效模拟和实时渲染。

  • Motivation: 现有基于3D高斯溅射的物理模拟主要针对软质可变形材料,脆性断裂问题尚未解决,主要障碍包括:GS表示缺乏具有连贯纹理的体积内部结构,以及缺少针对高斯的断裂感知模拟方法。
  • Method: 1. 通过生成模型引导内部高斯密度化,合成逼真内部结构;2. 集成优化的连续损伤物质点法(CD-MPM),实现高速脆性断裂模拟;3. 处理混合材料物体和多阶段断裂传播等复杂场景。
  • Result: GaussianFluent能够实现具有结构一致内部结构的照片级真实感实时渲染,处理先前方法无法实现的复杂断裂场景,包括混合材料物体和多阶段断裂传播。
  • Conclusion: 该框架在脆性断裂模拟方面取得突破,实现了逼真、高效的动态物体状态模拟和渲染,在VR和机器人等下游应用中具有重要潜力。

[48] Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain

Lianying Chao,Haoran Cai,Xubin Li,Kai Zhang,Sijie Wu,Rui Xu

Main category: cs.CV

TL;DR: 提出多阶段渐进训练策略,构建ICT领域专用图像描述模型DICModel,仅用7B参数在多项指标上超越32B参数的SOTA模型

  • Motivation: ICT领域训练LLM或构建检索增强生成系统需要大量领域知识,这些知识不仅存在于文本模态,也存在于图像模态。传统方法只能解析文本,缺乏图像描述能力;多模态LLM能理解图像但缺乏足够领域知识。
  • Method: 采用多阶段渐进训练策略:1) 使用Mermaid工具和LLMs合成约7K图像-文本对进行第一阶段监督微调;2) ICT领域专家手动标注约2K图像-文本对进行第二阶段监督微调;3) 专家和LLMs联合合成约1.5K视觉问答数据进行基于指令的微调。同时构建标准评估系统验证模型性能。
  • Result: 仅7B参数的DICModel性能优于其他32B参数的SOTA模型:相比7B和32B参数的SOTA模型,BLEU指标分别提升约56.8%和20.8%;在ICT专家构建的客观题上,准确率比Qwen2.5-VL 32B高1%。
  • Conclusion: 该方法能高效准确地从图像中提取逻辑文本,有望促进ICT领域多模态模型的发展。

[49] Frequency Error-Guided Under-sampling Optimization for Multi-Contrast MRI Reconstruction

Xinming Fang,Chaoyan Huang,Juncheng Li,Jun Wang,Jun Shi,Guixu Zhang

Main category: cs.CV

TL;DR: 提出一种频率误差引导的MRI重建框架,通过条件扩散模型学习频率误差先验,联合优化欠采样模式与重建网络,在多模态、高加速率下优于现有方法。

  • Motivation: 当前多对比度MRI重建方法存在三个主要问题:1) 参考图像融合策略过于简单(如简单拼接);2) 未能充分利用参考对比度提供的互补信息;3) 使用固定的欠采样模式。这些问题限制了重建质量和效率。
  • Method: 提出频率误差引导重建框架:1) 使用条件扩散模型学习频率误差先验;2) 将先验融入统一框架,联合优化欠采样模式和重建网络;3) 采用模型驱动的深度展开框架,联合利用频域和图像域信息;4) 加入空间对齐模块和参考特征分解策略,提升重建质量并增强物理可解释性。
  • Result: 在多种成像模态、加速率(4-30倍)和采样方案下进行全面验证,在定量指标和视觉质量上均优于现有最先进方法。
  • Conclusion: 该框架有效解决了现有多对比度MRI重建方法的局限性,通过频率误差先验、联合优化策略和增强的物理可解释性,实现了高效、高质量的MRI重建。

[50] Beyond the final layer: Attentive multilayer fusion for vision transformers

Laure Ciernik,Marco Morik,Lukas Thede,Luca Eyring,Shinichi Nakajima,Zeynep Akata,Lukas Muttenthaler

Main category: cs.CV

TL;DR: 提出一种注意力探测机制,动态融合ViT所有层的表示,相比标准线性探测在20个数据集上取得显著提升

  • Motivation: 大规模基础模型的高效下游任务适配是核心挑战。线性探测虽然计算高效,但通常只使用最后一层表示,而任务相关信息实际上分布在网络的所有层级中
  • Method: 提出注意力探测机制,动态融合Vision Transformer所有层的表示。该机制学习识别目标任务最相关的层,将低层结构线索与高层语义抽象相结合
  • Result: 在20个多样化数据集和多个预训练基础模型上,该方法相比标准线性探测取得一致且显著的性能提升。注意力热图显示,与预训练领域不同的任务最受益于中间层表示
  • Conclusion: 研究强调了中间层信息的价值,并展示了一种原则性的、任务感知的方法来在基于探测的适配中释放其潜力

[51] See More, Store Less: Memory-Efficient Resolution for Video Moment Retrieval

Mingyu Jeon,Sungjin Han,Jinkwon Hwang,Minchol Kwon,Jonghee Kim,Junyeong Kim

Main category: cs.CV

TL;DR: SMORE框架通过查询引导的语义编码、重要性调制和自适应压缩,在内存受限下实现高效视频时刻检索,在多个基准上达到SOTA性能。

  • Motivation: 现有MLLMs在视频任务中面临内存限制,传统VMR方法依赖稀疏帧采样可能导致信息丢失,尤其对于长视频。需要一种既能保持高信息分辨率又能提高内存效率的解决方案。
  • Method: SMORE框架包含三个核心组件:1) 查询引导的语义编码,将视频内容与用户意图对齐;2) 查询感知的重要性调制,突出相关片段;3) 自适应帧压缩,保留关键内容同时减少冗余。
  • Result: 在QVHighlights、Charades-STA和ActivityNet-Captions三个基准测试中,SMORE均达到了最先进的性能水平。
  • Conclusion: SMORE框架通过创新的语义编码、重要性调制和压缩策略,在内存预算内实现了高效的视频理解,解决了现有VMR方法在长视频处理中的信息丢失问题。

[52] Spectral Complex Autoencoder Pruning: A Fidelity-Guided Criterion for Extreme Structured Channel Compression

Wei Liu,Xing Deng,Haijian Shao,Yingtao Jiang

Main category: cs.CV

TL;DR: SCAP提出基于频谱重构的通道剪枝方法,通过复数交互场的频谱重构保真度评估通道冗余度,实现高效网络压缩。

  • Motivation: 现有剪枝方法通常基于权重幅度或梯度等简单指标,难以准确评估通道级别的功能冗余。需要一种能直接测量通道信息压缩性的方法,以支持更激进的网络压缩。
  • Method: 1) 为每个卷积层构建复数交互场:将多通道输入激活作为实部,单个输出通道激活(空间对齐并广播到输入通道)作为虚部;2) 将复数场变换到频域;3) 训练低容量自编码器重构归一化频谱;4) 根据重构保真度评估通道重要性,高保真度通道视为冗余可剪枝,低保真度通道保留。
  • Result: 在CIFAR-10上训练的VGG16上,固定阈值0.6时获得90.11% FLOP减少和96.30%参数减少,Top-1准确率仅下降1.67%(从93.44%基线)。
  • Conclusion: 复数交互场的频谱重构保真度是通道级别冗余度的有效代理指标,支持简单阈值剪枝并产生结构一致的剪枝网络,在激进压缩下保持良好性能。

[53] Detail Loss in Super-Resolution Models Based on the Laplacian Pyramid and Repeated Upscaling and Downscaling Process

Sangjun Han,Youngmi Hur

Main category: cs.CV

TL;DR: 本文提出两种增强超分辨率图像高频细节的方法:基于拉普拉斯金字塔的细节损失和重复上采样下采样过程,通过分离生成和控制超分辨率与细节图像来提升高频信息重建质量。

  • Motivation: 在图像超分辨率任务中,增强精细细节至关重要,需要强调贡献高频信息的像素。现有方法在高频细节增强方面仍有改进空间。
  • Method: 提出两种方法:1)基于拉普拉斯金字塔的细节损失,通过分离生成超分辨率图像和细节图像来引导模型;2)重复上采样和下采样过程,从多个低分辨率特征中提取多样化信息以增强细节损失效果。
  • Result: 基于CNN的模型结合所提方法取得了最先进的结果,超越了所有现有CNN模型甚至部分注意力模型。将细节损失应用于现有注意力模型也带来了改进,证明方法在不同模型结构中都有效。
  • Conclusion: 所提出的方法能有效增强超分辨率图像的高频细节,适用于不同类型的模型结构,在图像超分辨率任务中表现出色。

[54] Radiomics-Integrated Deep Learning with Hierarchical Loss for Osteosarcoma Histology Classification

Yaxi Chen,Zi Ye,Shaheer U. Saeed,Oliver Yu,Simin Ni,Jie Huang,Yipeng Hu

Main category: cs.CV

TL;DR: 该研究提出两种改进骨肉瘤组织病理学自动评估的方法:使用放射组学特征作为多模态输入,以及采用分层分类任务优化,显著提升了模型在患者级别测试数据上的性能。

  • Motivation: 骨肉瘤是一种侵袭性原发性骨恶性肿瘤。新辅助化疗后准确评估肿瘤存活区与非存活区对预后和治疗规划至关重要,但传统人工评估方法劳动密集、主观性强且存在观察者间差异。现有深度学习模型在患者级别测试数据上性能显著下降,需要改进。
  • Method: 1. 引入放射组学特征作为多模态输入,虽然这些特征源自图像本身,但能有效提升分类性能并增强可解释性。2. 采用分层分类任务优化:将原本的"扁平"三分类任务(非肿瘤、非存活肿瘤、存活肿瘤)改为两个二元分类任务(肿瘤vs非肿瘤、存活vs非存活),实现可训练权重的分层损失函数。
  • Result: 在TCIA骨肉瘤肿瘤评估数据集上实验证明,两种新方法各自都能显著提升性能,组合使用时效果最佳,为该应用在公开数据集上建立了新的最先进性能。
  • Conclusion: 放射组学特征的多模态输入和分层分类任务优化能有效提升骨肉瘤组织病理学自动评估的准确性和鲁棒性,为临床决策提供更可靠的自动化工具。

[55] Video-MSR: Benchmarking Multi-hop Spatial Reasoning Capabilities of MLLMs

Rui Zhu,Xin Shen,Shuchen Wu,Chenxi Miao,Xin Yu,Yang Li,Weikang Li,Deguo Xia,Jizhou Huang

Main category: cs.CV

TL;DR: Video-MSR:首个评估动态视频场景中多跳空间推理能力的基准,包含4个任务和3,052个高质量视频实例,揭示当前MLLMs在多步空间推理中的显著局限性,并提出专用指令调优数据集MSR-9K来提升模型性能。

  • Motivation: 现有基准主要关注单步感知到判断任务,而需要复杂视觉-空间逻辑链的场景研究不足。为了填补这一空白,需要专门评估动态视频中多跳空间推理能力的基准。
  • Method: 1. 构建Video-MSR基准:包含4个任务(约束定位、链式参考检索、路径规划、反事实物理推理),共3,052个高质量视频实例和4,993个问答对;2. 采用可扩展的视觉基础流程,结合先进模型生成和严格人工验证;3. 评估20个最先进的MLLMs;4. 构建MSR-9K专用指令调优数据集,并微调Qwen-VL模型。
  • Result: 评估发现当前MLLMs在表面感知方面表现良好,但在多跳空间推理任务中性能显著下降,经常出现空间迷失和幻觉问题。通过MSR-9K数据集微调的Qwen-VL在Video-MSR上实现了+7.82%的绝对性能提升。
  • Conclusion: Video-MSR基准揭示了当前MLLMs在多跳空间推理方面的显著局限性,证明了多跳空间指令数据的有效性,为未来研究提供了重要基础。专用指令调优能有效提升模型的空间推理能力。

[56] Do Transformers Understand Ancient Roman Coin Motifs Better than CNNs?

David Reid,Ognjen Arandjelovic

Main category: cs.CV

TL;DR: 首次将Vision Transformer应用于古钱币语义元素识别,通过多模态数据自动学习,ViT模型在准确率上优于CNN模型

  • Motivation: 古钱币自动分析有助于研究人员从大量钱币收藏中提取更多历史见解,并帮助收藏者理解买卖内容。现有研究主要使用CNN识别钱币上的语义元素,但尚未探索更先进的ViT架构
  • Method: 首次将Vision Transformer架构应用于古钱币语义元素识别任务,使用多模态数据(图像和非结构化文本)进行全自动学习。同时训练了CNN模型作为对比,详细讨论了ViT和CNN模型的训练与实现过程
  • Result: ViT模型在准确率方面优于新训练的CNN模型,展示了Vision Transformer在古钱币分析任务上的优越性能
  • Conclusion: Vision Transformer架构在古钱币语义元素识别任务上表现出色,为古钱币自动分析提供了新的有效方法,有望推动该领域的研究进展

Darya Baranouskaya,Andrea Cavallaro

Main category: cs.CV

TL;DR: PrivLEX是首个基于法律定义的个人数据概念的可解释图像隐私分类器,利用视觉语言模型的识别能力,通过零样本概念检测实现无需显式概念标签训练的可解释分类。

  • Motivation: 现有图像隐私分类器通常缺乏法律依据和可解释性,无法将分类决策与法律定义的个人数据概念联系起来,难以满足隐私保护的实际需求。
  • Method: 采用零样本视觉语言模型进行概念检测,构建无标签概念瓶颈模型,无需训练时的显式概念标注,将图像分类与法律定义的个人数据概念对齐。
  • Result: PrivLEX能够有效识别图像中的个人数据概念,并分析了人类标注者对图像隐私数据集中这些概念的敏感性感知。
  • Conclusion: PrivLEX为图像隐私分类提供了法律对齐的可解释方法,通过零样本VLM概念检测实现了无需显式标注的概念识别,为隐私保护系统提供了更可靠的基础。

[58] MAD: Motion Appearance Decoupling for efficient Driving World Models

Ahmad Rahimi,Valentin Gerard,Eloi Zablocki,Matthieu Cord,Alexandre Alahi

Main category: cs.CV

TL;DR: 提出MAD框架,将通用视频扩散模型高效适配为可控驾驶世界模型,通过解耦运动学习和外观合成,实现推理-渲染范式

  • Motivation: 现有视频扩散模型虽然能生成逼真视频,但作为自动驾驶世界模型时缺乏结构化运动和物理一致性交互。传统领域适配需要大量领域数据和昂贵微调
  • Method: 采用两阶段解耦方法:1) 将模型适配为预测骨架化代理和场景元素的简化运动视频,专注于物理和社会合理性;2) 重用同一骨干网络,以运动序列为条件合成真实RGB视频,实现"运动穿衣"
  • Result: 该方法极其高效:适配SVD时仅用不到6%的计算量就达到先前SOTA性能。扩展到LTX的MAD-LTX模型优于所有开源竞争对手,支持全面的文本、自我和对象控制
  • Conclusion: 解耦的运动学习-外观合成框架能高效将通用视频扩散模型转化为可控驾驶世界模型,实现推理-渲染范式,显著降低计算成本

[59] Towards Robust Cross-Dataset Object Detection Generalization under Domain Specificity

Ritabrata Chakraborty,Hrishit Mitra,Shivakumara Palaiahnakote,Umapada Pal

Main category: cs.CV

TL;DR: 该论文研究了跨数据集目标检测中的设置特异性问题,发现相同设置类型内的迁移相对稳定,而跨设置类型的迁移性能显著下降且不对称。

  • Motivation: 目标检测器在分布内表现良好,但在不同基准测试中性能显著下降。作者希望通过研究跨数据集目标检测中的设置特异性问题,理解不同数据集类型之间的迁移模式。
  • Method: 将基准测试分为设置无关数据集(多样化日常场景)和设置特定数据集(狭窄环境),评估标准检测器在所有训练-测试对上的表现。使用封闭标签和开放标签协议来分离域偏移和标签不匹配问题。
  • Result: 发现CD-OD中存在清晰结构:相同设置类型内的迁移相对稳定,跨设置类型的迁移性能显著下降且不对称。最严重的性能下降发生在从特定源到无关目标的迁移中。开放标签评估带来一致但有界的性能提升。
  • Conclusion: 该研究提供了在设置特异性下CD-OD的原则性特征描述,并为在分布偏移下评估检测器提供了实用指导。域偏移在最困难的迁移机制中占主导地位。

[60] V-DPM: 4D Video Reconstruction with Dynamic Point Maps

Edgar Sucar,Eldar Insafutdinov,Zihang Lai,Andrea Vedaldi

Main category: cs.CV

TL;DR: V-DPM:将动态点地图扩展到视频输入,实现动态场景的3D和4D重建,无需后处理优化

  • Motivation: 现有动态点地图(DPMs)仅限于图像对,且需要后处理优化。作者认为DPMs在视频应用中更有价值,需要扩展到视频输入并最大化表示能力。
  • Method: 1. 为视频输入制定DPMs表示方法,最大化表示能力、便于神经网络预测、重用预训练模型;2. 在VGGT基础上实现,用少量合成数据适应动态场景预测。
  • Result: 在动态场景的3D和4D重建中达到最先进性能,不仅能恢复动态深度,还能恢复场景中每个点的完整3D运动。
  • Conclusion: V-DPM成功将动态点地图扩展到视频输入,实现了高效准确的动态场景重建,超越了现有方法如P3。

[61] Video Joint-Embedding Predictive Architectures for Facial Expression Recognition

Lennart Eing,Cristina Luna-Jiménez,Silvan Mertes,Elisabeth André

Main category: cs.CV

TL;DR: 本文提出使用视频联合嵌入预测架构(V-JEPA)进行面部表情识别,通过预测掩码区域的嵌入而非像素重建来学习,在RAVDESS和CREMA-D数据集上取得SOTA性能。

  • Motivation: 传统视频理解预训练方法依赖像素级重建,可能捕获无关信息(如背景颜色)。本文探索基于嵌入的预训练方法,希望学习更相关的视频表示用于面部表情识别。
  • Method: 使用预训练的V-JEPA视频编码器,通过预测掩码区域的嵌入来学习视频表示。然后在RAVDESS和CREMA-D数据集上训练浅层分类器进行面部表情识别。
  • Result: 在RAVDESS数据集上达到最先进性能,在CREMA-D数据集上超越所有其他基于视觉的方法(+1.48 WAR)。跨数据集评估显示强大的泛化能力。
  • Conclusion: 基于嵌入的预训练方法在面部表情识别任务上表现出色,具有强大的泛化能力,展示了纯嵌入预训练方法在推进FER方面的潜力。

[62] GlovEgo-HOI: Bridging the Synthetic-to-Real Gap for Industrial Egocentric Human-Object Interaction Detection

Alfio Spoto,Rosario Leonardi,Francesco Ragusa,Giovanni Maria Farinella

Main category: cs.CV

TL;DR: 提出GlovEgo-HOI数据集和GlovEgo-Net模型,通过合成数据增强和扩散过程解决工业安全中自我中心人机交互分析的数据稀缺问题

  • Motivation: 工业安全中的自我中心人机交互分析至关重要,但领域特定标注数据的稀缺阻碍了鲁棒模型的开发
  • Method: 提出数据生成框架,结合合成数据和基于扩散的过程,在真实图像中增强真实的个人防护装备;提出GlovEgo-Net模型,集成Glove-Head和Keypoint-Head模块,利用手部姿态信息增强交互检测
  • Result: 大量实验证明了所提数据生成框架和GlovEgo-Net模型的有效性
  • Conclusion: 为解决工业EHOI分析的数据稀缺问题,提出了完整的数据集、模型和工具链,并开源促进进一步研究

[63] Bipartite Mode Matching for Vision Training Set Search from a Hierarchical Data Server

Yue Yao,Ruining Yang,Tom Gedeon

Main category: cs.CV

TL;DR: 提出分层数据服务器和二分模式匹配算法(BMM),通过优化数据服务器结构而非算法来提升无监督域适应性能

  • Motivation: 目标域可访问但无法实时标注,需要从大规模数据服务器构建替代训练集。现有方法主要改进算法,忽视了优化数据服务器结构的潜力
  • Method: 引入分层数据服务器结构,提出二分模式匹配算法(BMM),将目标域模式与源域模式进行一对一匹配,确保训练集包含所有目标模式
  • Result: 相比现有训练集搜索算法,BMM匹配的训练集在目标重识别和检测任务上具有更小的域差距,模型准确率更高。与伪标签等现有UDA方法结合可进一步提升性能
  • Conclusion: BMM提供了一种数据中心的UDA方法,与现有模型中心方法正交,通过优化数据服务器结构显著提升域适应性能

[64] Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Shuyang Xiang,Hao Guan

Main category: cs.CV

TL;DR: 研究探索使用低分辨率视觉输入(灰度字符图像)替代传统索引标记进行中文语言建模,发现8×8像素图像能达到与索引基线相当的准确率,且在低资源训练时表现出明显的"热启动"优势。

  • Motivation: 传统大语言模型将中文字符视为离散的索引标记,忽略了其视觉形式。对于表意文字,视觉结构承载着语义和语音信息,可能有助于预测。研究探索视觉输入是否可作为字符级建模的替代方案。
  • Method: 使用低分辨率灰度图像作为单个字符的输入,分辨率低至8×8像素,替代传统的token ID。解码器接收这些视觉输入进行语言建模。
  • Result: 视觉输入达到39.2%的准确率,与索引基线的39.1%相当。在低资源设置下表现出明显的"热启动"效应:仅用0.4%的总训练量,准确率就达到12%以上,而索引模型低于6%。
  • Conclusion: 最小化的视觉结构可以为中文语言建模提供强大而高效的信号,为字符表示提供了与传统索引方法互补的替代视角,特别是在低资源场景下具有显著优势。

[65] Trustworthy Longitudinal Brain MRI Completion: A Deformation-Based Approach with KAN-Enhanced Diffusion Model

Tianli Tao,Ziyang Wang,Delong Yang,Han Zhang,Le Zhang

Main category: cs.CV

TL;DR: DF-DiffCom是一种基于KAN增强扩散模型的纵向脑MRI图像补全方法,通过智能利用变形场提高生成图像的可信度,并在多模态MRI上表现优异。

  • Motivation: 纵向脑MRI研究中高流失率导致数据缺失,现有深度生成模型主要依赖图像强度,存在两个关键问题:1)生成脑图像的可信度有限,影响下游研究;2)模型结构固定的指导限制了应用的灵活性。
  • Method: 提出DF-DiffCom,一种Kolmogorov-Arnold Networks(KAN)增强的扩散模型,智能利用变形场进行可信的纵向脑图像补全。该方法具有模态无关性,可扩展到不同MRI模态甚至脑组织分割结果等属性图。
  • Result: 在OASIS-3数据集上训练,DF-DiffCom优于现有最先进方法,PSNR提高5.6%,SSIM提高0.12。更重要的是其模态无关性可平滑扩展到各种MRI模态。
  • Conclusion: DF-DiffCom通过结合变形场和KAN增强的扩散模型,解决了纵向脑MRI图像补全中的可信度和灵活性限制问题,为多模态脑成像研究提供了可靠工具。

[66] OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

Sheng-Yu Huang,Jaesung Choe,Yu-Chiang Frank Wang,Cheng Sun

Main category: cs.CV

TL;DR: OpenVoxel是一种无需训练的方法,用于稀疏体素的分组和描述,实现开放词汇的3D场景理解任务。

  • Motivation: 现有的3D场景理解方法通常需要训练,并且依赖CLIP/BERT等文本编码器的嵌入表示。本文旨在开发一种无需训练的方法,直接利用多模态大语言模型进行文本到文本的搜索,实现更有效的开放词汇3D场景理解。
  • Method: OpenVoxel首先从多视角图像获取稀疏体素光栅化模型,然后对稀疏体素进行分组以描述场景中的不同物体。接着利用强大的视觉语言模型和多模态大语言模型为每个组生成描述,构建信息丰富的场景地图。该方法的关键创新是避免使用CLIP/BERT文本编码器的嵌入,而是直接进行文本到文本搜索。
  • Result: 通过大量实验验证,OpenVoxel在复杂指代表达分割任务上表现出色,性能优于近期相关研究。该方法在开放词汇分割和指代表达分割等3D场景理解任务中展示了优越性能。
  • Conclusion: OpenVoxel提供了一种无需训练、不依赖特定文本编码器嵌入的3D场景理解方法,通过直接利用多模态大语言模型实现有效的开放词汇场景理解,代码将开源。

[67] Show, don't tell -- Providing Visual Error Feedback for Handwritten Documents

Said Yasin,Torsten Zesch

Main category: cs.CV

TL;DR: 手写反馈系统目前无法达到可接受的整体质量,需要未来研究解决核心挑战

  • Motivation: 手写在教育中仍是重要技能,但为手写文档提供视觉反馈的研究不足,需要解决从手写图像到正确放置信息性错误反馈的挑战
  • Method: 通过经验比较模块化系统和端到端系统,分析两种方法在处理手写反馈任务时的表现
  • Result: 目前两种方法都无法达到可接受的整体质量,研究识别了主要挑战
  • Conclusion: 需要制定未来研究议程来解决手写反馈系统的核心挑战,提升整体质量

[68] Iterative Differential Entropy Minimization (IDEM) method for fine rigid pairwise 3D Point Cloud Registration: A Focus on the Metric

Emmanuele Barberi,Felice Sfravara,Filippo Cucinotta

Main category: cs.CV

TL;DR: 提出基于微分熵的度量方法IDEM用于3D点云配准,相比传统欧氏距离方法能更好地处理密度差异、噪声、孔洞和部分重叠等问题。

  • Motivation: 传统点云配准方法(如ICP)依赖欧氏距离度量(如RMSE),需要选择一个固定点云,且对密度差异、噪声、孔洞和部分重叠敏感,在现实场景中效果受限。
  • Method: 提出基于微分熵的度量方法作为优化目标函数,称为迭代微分熵最小化(IDEM)。该度量不依赖固定点云的选择,在变换过程中能显示清晰的最小值对应最佳对齐。
  • Result: 通过多个案例研究,与RMSE、Chamfer距离和Hausdorff距离比较,IDEM在存在密度差异、噪声、孔洞和部分重叠的情况下仍能有效工作,而RMSE在这些情况下无法始终获得最优对齐。
  • Conclusion: 微分熵度量为点云配准提供了更鲁棒的优化目标,能处理现实场景中的各种挑战,优于传统欧氏距离方法。

[69] Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets

Jeremiah Coholich,Justin Wit,Robert Azarcon,Zsolt Kira

Main category: cs.CV

TL;DR: MANGO是一种基于分割条件的图像翻译方法,用于解决机器人视觉策略在相机视角变化时的分布偏移问题,通过模拟到真实的图像翻译增强训练数据。

  • Motivation: 机器人视觉策略对相机视角变化敏感,真实世界演示数据稀缺且视角变化不足,而模拟数据虽然丰富但存在视觉模拟到真实的差距。
  • Method: 提出MANGO方法:1)使用分割条件的InfoNCE损失;2)高度正则化的判别器设计;3)改进的PatchNCE损失。这些元素对保持视角一致性至关重要。
  • Result: MANGO在图像翻译方法中表现最佳,仅需少量固定相机真实数据就能生成多样未见视角。使用MANGO增强数据训练的模仿学习策略在非增强策略完全失败的视角上达到60%成功率。
  • Conclusion: MANGO能有效解决机器人视觉策略的视角分布偏移问题,通过模拟到真实图像翻译生成多样化视角数据,显著提升策略在未见视角上的性能。

[70] GRCF: Two-Stage Groupwise Ranking and Calibration Framework for Multimodal Sentiment Analysis

Manning Gao,Leheng Zhang,Shiqin Han,Haifeng Hu,Yuncheng Jiang,Sijie Mai

Main category: cs.CV

TL;DR: GRCF是一个两阶段分组排序校准框架,通过自适应动态边界和绝对分数校准,解决了多模态情感分析中传统回归和成对排序方法的局限性。

  • Motivation: 传统多模态情感分析的点式回归方法对标签噪声敏感,且忽略了样本间的相对顺序,导致预测不稳定和相关性对齐差。而成对排序方法虽然能捕捉相对顺序,但存在两个问题:1) 对所有比较赋予相同重要性,无法自适应关注难排序样本;2) 使用静态排序边界,无法反映不同情感组间的语义距离变化。
  • Method: 提出两阶段分组排序校准框架(GRCF):第一阶段引入GRPO启发的优势加权动态边界排序损失,构建细粒度序数结构;第二阶段采用MAE驱动的目标函数来对齐预测幅度。还将GRCF扩展到分类任务,包括多模态幽默检测和讽刺检测。
  • Result: GRCF在核心回归基准上实现了最先进的性能,同时在分类任务中也表现出强大的泛化能力。
  • Conclusion: GRCF通过同时保持相对序数结构、确保绝对分数校准和自适应关注困难样本,有效解决了现有方法的局限性,为多模态情感分析提供了更稳健的解决方案。

[71] CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems

Yonglin Tian,Qiyao Zhang,Wei Xu,Yutong Wang,Yihao Wu,Xinyi Li,Xingyuan Dai,Hui Zhang,Zhiyong Cui,Baoqing Guo,Zujun Yu,Yisheng Lv

Main category: cs.CV

TL;DR: 提出CogRail基准测试,用于铁路入侵感知的时空推理,评估并改进视觉语言模型在该安全关键领域的性能

  • Motivation: 现有铁路入侵检测系统主要关注固定视野内的物体分类,使用基于规则的启发式方法判断入侵状态,忽视了潜在入侵风险目标。需要认知目标的空间上下文和时序动态,这对传统视觉模型构成挑战。
  • Method: 1) 引入CogRail基准测试,整合开源数据集并添加认知驱动的问答标注以支持时空推理;2) 系统评估现有视觉语言模型在认知入侵感知任务中的表现;3) 提出联合微调框架,整合位置感知、运动预测和威胁分析三个核心任务。
  • Result: 实验表明当前大规模多模态模型在认知入侵感知所需的复杂时空推理方面表现不佳。提出的联合微调框架通过针对性适应领域特定推理需求,显著提升了模型性能,展现了结构化多任务学习在提高准确性和可解释性方面的优势。
  • Conclusion: 认知入侵感知需要专门的时空推理能力,现有基础模型在该安全关键领域存在局限。通过结构化多任务学习的联合微调框架能够有效提升模型性能,为铁路运输安全提供了更可靠的解决方案。

[72] Identifying Models Behind Text-to-Image Leaderboards

Ali Naseh,Yuefeng Peng,Anshuman Suri,Harsh Chaudhari,Alina Oprea,Amir Houmansadr

Main category: cs.CV

TL;DR: T2I模型匿名性易被破解:通过图像嵌入空间聚类可准确识别模型来源,揭示投票排行榜的安全漏洞

  • Motivation: 当前文本到图像(T2I)模型质量评估采用匿名投票排行榜,但作者发现这种匿名性存在根本性安全缺陷,需要揭示并改进
  • Method: 使用22个T2I模型和280个提示生成15万张图像,基于图像嵌入空间的聚类特征,采用质心方法进行模型识别,并提出提示级可区分性指标
  • Result: 方法准确率高,能发现系统性的模型特定特征,某些提示可实现近乎完美的模型区分,暴露了T2I排行榜的安全漏洞
  • Conclusion: T2I模型匿名性易被破坏,需要更强的匿名化防御措施来保护模型评估的公平性

[73] AquaFeat+: an Underwater Vision Learning-based Enhancement Method for Object Detection, Classification, and Tracking

Emanuel da Costa Silva,Tatiana Taís Schein,José David García Ramos,Eduardo Lawson da Silva,Stephanie Loi Brião,Felipe Gomes de Oliveira,Paulo Lilles Jorge Drews-Jr

Main category: cs.CV

TL;DR: AquaFeat+是一个即插即用的水下视频特征增强管道,专门针对自动化视觉任务而非人类感知质量,通过端到端训练显著提升水下机器人应用中的检测、分类和跟踪性能。

  • Motivation: 水下视频分析面临低光照、颜色失真和浑浊度等挑战,这些因素会降低视觉数据质量,直接影响机器人应用中感知模块的性能。现有方法通常关注人类感知质量而非自动化视觉任务的需求。
  • Method: 提出AquaFeat+管道,包含颜色校正、分层特征增强和自适应残差输出模块。这些模块通过端到端训练,直接由最终应用的损失函数指导,专门针对自动化视觉任务而非人类感知质量进行优化。
  • Result: 在FishTrack23数据集上进行训练和评估,AquaFeat+在物体检测、分类和跟踪指标上取得了显著改进,验证了其在水下机器人应用中增强感知任务的有效性。
  • Conclusion: AquaFeat+是一个有效的即插即用解决方案,能够专门针对自动化视觉任务增强水下视频特征,显著提升水下机器人应用的感知性能,为解决水下视觉挑战提供了新途径。

[74] Image2Garment: Simulation-ready Garment Generation from a Single Image

Selim Emir Can,Jan Ackermann,Kiyohiro Nakayama,Ruofan Liu,Tong Wu,Yang Zheng,Hugo Bertiche,Menglei Chai,Thabo Beeler,Gordon Wetzstein

Main category: cs.CV

TL;DR: 提出一个前馈框架,从单张图像估计可用于物理模拟的服装,通过视觉语言模型预测材料属性和织物参数,无需多视图捕捉或可微分模拟

  • Motivation: 从单张图像估计物理准确的模拟就绪服装具有挑战性,因为缺乏图像到物理数据集且问题本身是病态的。现有方法要么需要多视图捕捉和昂贵的可微分模拟,要么只预测几何形状而不提供模拟所需的材料属性
  • Method: 1) 微调视觉语言模型从真实图像推断材料成分和织物属性;2) 训练轻量级预测器,将材料属性映射到相应的物理织物参数,使用小规模的材料-物理测量数据集;3) 引入两个新数据集(FTAG和T2P)
  • Result: 在材料成分估计和织物属性预测方面达到更优精度,通过物理参数估计器进一步实现比现有图像到服装方法更高保真度的模拟,无需迭代优化
  • Conclusion: 提出的前馈框架能够从单张图像生成模拟就绪的服装,解决了现有方法的局限性,通过结合视觉语言模型和物理参数映射实现了高质量的物理模拟

[75] LiteEmbed: Adapting CLIP to Rare Classes

Aishwarya Agarwal,Srikrishna Karanam,Vineet Gandhi

Main category: cs.CV

TL;DR: LiteEmbed是一个轻量级框架,用于CLIP的少样本个性化,通过子空间引导的文本嵌入优化来添加新类别,无需重新训练编码器。

  • Motivation: 大规模视觉语言模型如CLIP在零样本识别方面表现良好,但在处理预训练期间很少见到的类别时存在困难,包括新出现的实体和文化特定类别。
  • Method: LiteEmbed在CLIP的词汇表内进行子空间引导的文本嵌入优化,利用基于PCA的分解将粗粒度语义方向与细粒度变化解耦。通过粗粒度对齐和细粒度分离两个互补目标,保持全局语义一致性的同时增强视觉相似类别之间的可区分性。
  • Result: 大量实验表明,相比先前方法有显著提升,确立了LiteEmbed作为适应代表性不足、罕见或未见类别的有效方法。
  • Conclusion: LiteEmbed是一个有效的轻量级框架,能够在不重新训练CLIP编码器的情况下,通过优化文本嵌入来适应新类别,在各种视觉任务中实现即插即用的性能提升。

[76] Self-Supervised Animal Identification for Long Videos

Xuyang Fang,Sion Hannuna,Edwin Simpson,Neill Campbell

Main category: cs.CV

TL;DR: 提出一种高效的自监督动物个体识别方法,将识别任务重构为全局聚类问题而非序列跟踪,仅需边界框检测和个体总数,在消费级硬件上实现高精度识别

  • Motivation: 传统动物个体识别方法需要大量人工标注,现有自监督方法计算需求高且不适合长视频序列,存在内存限制和时间误差传播问题,需要更高效实用的解决方案
  • Method: 将动物识别重构为全局聚类任务,假设视频中个体数量固定已知;通过采样帧对、使用冻结预训练骨干网络、结合匈牙利算法的自引导机制进行批量内伪标签分配,采用视觉语言模型中的二元交叉熵损失函数
  • Result: 在3D-POP鸽子和8头小牛喂食视频等真实数据集上达到>97%的准确率,每批次GPU内存消耗小于1GB(比标准对比方法低一个数量级),性能匹配或超过使用1000多标注帧训练的监督基线
  • Conclusion: 该方法有效消除了人工标注瓶颈,使在消费级硬件上进行高精度动物个体识别成为可能,在资源受限的研究环境中具有广泛适用性

[77] SCE-SLAM: Scale-Consistent Monocular SLAM via Scene Coordinate Embeddings

Yuchen Wu,Jiahe Li,Xiaohan Yu,Lina Yu,Jin Zheng,Xiao Bai

Main category: cs.CV

TL;DR: SCE-SLAM:通过场景坐标嵌入实现尺度一致性的单目视觉SLAM系统,利用学习到的补丁级表示在规范尺度参考下编码3D几何关系,显著减少尺度漂移。

  • Motivation: 单目视觉SLAM在互联网视频3D重建和资源受限平台自主导航中应用广泛,但存在尺度漂移问题(长时间序列中估计尺度的逐渐发散)。现有帧到帧方法通过局部优化实现实时性能,但由于独立窗口间缺乏全局约束,会累积尺度漂移。
  • Method: 提出SCE-SLAM端到端SLAM系统,通过场景坐标嵌入保持尺度一致性。包含两个关键模块:1)几何引导聚合:利用3D空间邻近性通过几何调制注意力从历史观测传播尺度信息;2)场景坐标束调整:通过从场景坐标嵌入解码的显式3D坐标约束,将当前估计锚定到参考尺度。
  • Result: 在KITTI、Waymo和vKITTI数据集上的实验显示显著改进:在KITTI上相比最佳先前方法减少8.36米的绝对轨迹误差,同时保持36 FPS,并在大规模场景中实现尺度一致性。
  • Conclusion: SCE-SLAM通过场景坐标嵌入有效解决了单目视觉SLAM中的尺度漂移问题,在保持实时性能的同时显著提高了轨迹估计精度和尺度一致性,适用于大规模场景。

[78] STEP3-VL-10B Technical Report

Ailin Huang,Chengyuan Yao,Chunrui Han,Fanqi Wan,Hangyu Guo,Haoran Lv,Hongyu Zhou,Jia Wang,Jian Zhou,Jianjian Sun,Jingcheng Hu,Kangheng Lin,Liang Zhao,Mitt Huang,Song Yuan,Wenwen Qu,Xiangfeng Wang,Yanlin Lai,Yingxiu Zhao,Yinmin Zhang,Yukang Shi,Yuyang Chen,Zejia Weng,Ziyang Meng,Ang Li,Aobo Kong,Bo Dong,Changyi Wan,David Wang,Di Qi,Dingming Li,En Yu,Guopeng Li,Haiquan Yin,Han Zhou,Hanshan Zhang,Haolong Yan,Hebin Zhou,Hongbo Peng,Jiaran Zhang,Jiashu Lv,Jiayi Fu,Jie Cheng,Jie Zhou,Jisheng Yin,Jingjing Xie,Jingwei Wu,Jun Zhang,Junfeng Liu,Kaijun Tan,Kaiwen Yan,Liangyu Chen,Lina Chen,Mingliang Li,Qian Zhao,Quan Sun,Shaoliang Pang,Shengjie Fan,Shijie Shang,Siyuan Zhang,Tianhao You,Wei Ji,Wuxun Xie,Xiaobo Yang,Xiaojie Hou,Xiaoran Jiao,Xiaoxiao Ren,Xiangwen Kong,Xin Huang,Xin Wu,Xing Chen,Xinran Wang,Xuelin Zhang,Yana Wei,Yang Li,Yanming Xu,Yeqing Shen,Yuang Peng,Yue Peng,Yu Zhou,Yusheng Li,Yuxiang Yang,Yuyang Zhang,Zhe Xie,Zhewei Huang,Zhenyi Lu,Zhimin Fan,Zihui Cheng,Daxin Jiang,Qi Han,Xiangyu Zhang,Yibo Zhu,Zheng Ge

Main category: cs.CV

TL;DR: STEP3-VL-10B是一个10B参数的轻量级开源多模态基础模型,通过统一预训练和强化学习后训练策略,在紧凑尺寸下实现了与10-20倍大模型相当的性能,在多个基准测试中达到领先水平。

  • Motivation: 重新定义紧凑效率与前沿多模态智能之间的权衡,为社区提供一个强大、高效且可复现的基线模型。
  • Method: 采用两个战略转变:1)在1.2T多模态token上进行统一、完全解冻的预训练,整合语言对齐的感知编码器和Qwen3-8B解码器;2)包含超过1000次强化学习迭代的规模化后训练流程,并实施并行协调推理(PaCoRe)来扩展测试时计算。
  • Result: 在MMBench上达到92.2%,MMMU上80.11%,复杂推理任务中AIME2025上94.43%,MathVision上75.95%,性能超越或匹敌10-20倍大的模型(如GLM-4.6V-106B、Qwen3-VL-235B)以及顶级专有模型(如Gemini 2.5 Pro、Seed-1.5-VL)。
  • Conclusion: STEP3-VL-10B证明了通过精心设计的训练策略和推理优化,紧凑模型也能实现前沿多模态智能,为社区提供了高效、可复现的强大基线。

[79] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

Jieying Chen,Jeffrey Hu,Joan Lasenby,Ayush Tewari

Main category: cs.CV

TL;DR: SRENDER:通过生成稀疏关键帧,然后进行3D重建和渲染来加速视频生成,比扩散模型基线快40倍以上

  • Motivation: 当前基于扩散模型的视频生成方法计算效率低下,需要大量GPU时间生成短视频,这阻碍了在需要实时交互的应用(如具身AI和VR/AR)中的部署
  • Method: 使用扩散模型生成稀疏关键帧,然后将关键帧提升为3D表示,通过3D重建和渲染合成完整视频。引入模型预测给定相机轨迹的最佳关键帧数量,自适应分配计算资源
  • Result: SRENDER在生成20秒视频时比扩散模型基线快40倍以上,同时保持高视觉保真度和时间稳定性。对于简单轨迹使用非常稀疏的关键帧,对于复杂相机运动使用更密集的关键帧
  • Conclusion: 该方法通过将生成成本分摊到数百帧中并强制几何一致性,为高效可控的视频合成提供了实用路径,显著提高了计算效率

[80] COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation

Tony Danjun Wang,Tolga Birdal,Nassir Navab,Lennart Bastian

Main category: cs.CV

TL;DR: COMPOSE将多视角姿态对应匹配建模为超图分割问题,而非传统的成对关联方法,通过几何剪枝策略高效求解,在3D姿态估计任务上显著优于现有方法。

  • Motivation: 现有多视角3D姿态估计方法主要依赖成对关联来建模对应关系,将全局一致性(循环一致性)作为软约束。当虚假关联传播误差时,多视角约束的协调变得脆弱,导致性能下降。
  • Method: COMPOSE将多视角姿态对应匹配重新表述为超图分割问题,而非传统的成对关联方法。虽然由此产生的整数线性规划在理论上复杂度呈指数增长,但作者引入了高效的几何剪枝策略来大幅减少搜索空间。
  • Result: COMPOSE在平均精度上比之前的优化方法提高了23%,比自监督端到端学习方法提高了11%,为这一广泛研究的问题提供了有前景的解决方案。
  • Conclusion: 将多视角姿态对应匹配建模为超图分割问题,结合几何剪枝策略,能够更有效地处理虚假关联传播误差的问题,显著提升3D姿态估计的性能。

[81] SAM3-DMS: Decoupled Memory Selection for Multi-target Video Segmentation of SAM3

Ruiqi Shen,Chang Liu,Henghui Ding

Main category: cs.CV

TL;DR: SAM3-DMS提出解耦记忆选择策略,针对SAM3在复杂多目标场景中的同步决策问题,通过细粒度个体记忆选择提升跟踪稳定性

  • Motivation: SAM3在原始实现中采用基于平均性能的同步群体记忆选择策略,在复杂多目标场景下效果不佳,容易忽视个体可靠性
  • Method: 提出训练自由的解耦策略SAM3-DMS,对单个对象进行细粒度记忆选择,而非同步决策所有并发目标
  • Result: 实验表明该方法实现了稳健的身份保持和跟踪稳定性,目标密度越高优势越明显
  • Conclusion: 为野外多目标视频分割建立了坚实基础,通过个体化记忆选择解决了SAM3的同步决策限制

[82] Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Chi-Pin Huang,Yunze Man,Zhiding Yu,Min-Hung Chen,Jan Kautz,Yu-Chiang Frank Wang,Fu-En Yang

Main category: cs.CV

TL;DR: Fast-ThinkAct:一种高效的视觉-语言-动作推理框架,通过可表达的潜在推理实现紧凑且高性能的规划,显著降低推理延迟89.3%

  • Motivation: 现有的推理型VLA模型虽然通过显式思维链(CoT)提高了泛化能力,但由于冗长的推理轨迹导致推理延迟过高,需要一种既能保持推理能力又能显著降低延迟的高效框架
  • Method: 提出Fast-ThinkAct框架,通过从教师模型蒸馏学习潜在思维链推理,采用偏好引导目标来对齐操作轨迹,同时传递语言和视觉规划能力,实现紧凑推理与动作执行的有效连接
  • Result: 在多种具身操作和推理基准测试中,Fast-ThinkAct相比最先进的推理VLA模型,在保持有效长时程规划、少样本适应和失败恢复能力的同时,推理延迟降低高达89.3%
  • Conclusion: Fast-ThinkAct通过可表达的潜在推理实现了高效且性能优异的VLA任务规划,显著降低了推理延迟,为具身控制中的推理增强策略学习提供了有效解决方案

cs.CL

[83] LLMs can Compress LLMs: Adaptive Pruning by Agents

Sai Varun Kodathala,Rakesh Vunnam

Main category: cs.CL

TL;DR: 提出基于智能体引导的LLM剪枝方法,使用基础模型作为自适应剪枝代理,在保持关键知识路径的同时智能选择每层剪枝比例,显著改善剪枝后模型性能

  • Motivation: 现有LLM剪枝方法(如SparseGPT、Wanda)依赖均匀或手工设计的启发式方法确定每层稀疏度,且剪枝后模型存在严重事实知识退化问题,结构化剪枝方法在事实问答能力上几乎完全崩溃
  • Method: 1) 构建层敏感度剖面:结合Wanda启发的权重-激活度量和梯度重要性分数,归一化为z分数进行模型无关比较;2) LLM代理引导:配备自反思能力的基础模型作为自适应剪枝代理,从先前剪枝结果中学习并迭代优化策略;3) 检查点回滚机制:当困惑度退化超过阈值时回滚模型
  • Result: 在Qwen3模型(4B和8B参数)上约45%稀疏度下评估:MMLU准确率相对提升56%,FreebaseQA事实知识保留提升19倍,困惑度退化降低69%。无需重新训练,模型无关,仅需2-4次回滚即可完成21-40次迭代
  • Conclusion: 基础模型可以有效指导其他基础模型的压缩,智能体引导的剪枝方法显著优于结构化剪枝基线,在保持模型性能的同时减少计算成本,展示了基础模型在模型压缩中的潜力

cs.AI

[84] AviationLMM: A Large Multimodal Foundation Model for Civil Aviation

Wenbin Li,Jingling Wu,Xiaoyong Lin. Jing Chen,Cong Chen

Main category: cs.AI

TL;DR: 提出AviationLMM愿景:一个用于民航的大型多模态基础模型,旨在统一民航异构数据流,实现理解、推理、生成和智能体应用。

  • Motivation: 民航是全球交通和商业的基石,但现有AI解决方案存在孤岛化和局限性,难以整合语音通信、雷达轨迹、传感器流和文本报告等异构数据,限制了态势感知、适应性和实时决策支持。
  • Method: 提出AviationLMM模型架构,能够处理空-地语音、监视数据、机载遥测、视频和结构化文本等多模态输入,执行跨模态对齐和融合,并产生从态势摘要、风险预警到预测性诊断和多模态事件重建等灵活输出。
  • Result: 识别了实现该愿景需要解决的关键研究机会,包括数据获取、对齐与融合、预训练、推理、可信性、隐私、对缺失模态的鲁棒性以及合成场景生成。
  • Conclusion: 通过阐述AviationLMM的设计和挑战,旨在推动民航基础模型的发展,并促进研究界共同努力,构建集成、可信且保护隐私的民航AI生态系统。

[85] PersonalAlign: Hierarchical Implicit Intent Alignment for Personalized GUI Agent with Long-Term User-Centric Records

Yibo Lyu,Gongwei Chen,Rui Shao,Weili Guan,Liqiang Nie

Main category: cs.AI

TL;DR: 本文提出PersonalAlign任务,要求GUI代理利用长期用户记录解决模糊指令中的省略偏好,并根据用户状态预测潜在习惯提供主动协助。作者构建了AndroidIntent基准测试,并提出HIM-Agent方法,通过分层组织用户偏好和习惯实现个性化,在基准测试中显著提升性能。

  • Motivation: 当前GUI代理在显式和完整指令下表现良好,但现实部署需要与用户更复杂的隐式意图对齐。用户指令往往模糊且省略偏好,需要代理利用长期用户记录作为持久上下文来解析这些意图,并根据用户状态预测潜在习惯提供主动协助。
  • Method: 提出分层隐式意图对齐方法PersonalAlign,引入AndroidIntent基准测试,包含从20k长期记录中标注的775个用户特定偏好和215个习惯。提出HIM-Agent,维护持续更新的个人记忆,分层组织用户偏好和习惯实现个性化。
  • Result: 在AndroidIntent基准上评估了GPT-5、Qwen3-VL、UI-TARS等多种GUI代理,结果显示HIM-Agent在执行性能和主动性能上分别显著提升了15.7%和7.3%。
  • Conclusion: PersonalAlign任务和HIM-Agent方法有效解决了GUI代理与用户隐式意图对齐的挑战,通过利用长期用户记录和分层记忆组织,显著提升了代理在解决模糊指令和提供主动协助方面的能力。

cs.LG

[86] DriftGuard: A Hierarchical Framework for Concept Drift Detection and Remediation in Supply Chain Forecasting

Shahnawaz Alam,Mohammed Abdul Rahman,Bareera Sadeqa

Main category: cs.LG

TL;DR: DriftGuard是一个端到端的供应链预测漂移管理系统,通过集成多种检测方法、层次传播分析、SHAP根因诊断和成本感知重训练策略,实现早期漂移检测、解释和自动修复。

  • Motivation: 供应链预测模型会随时间退化(概念漂移),导致缺货或库存过剩。当前行业实践依赖人工监控和定期重训练,浪费计算资源且无法及时应对快速漂移。现有学术方法仅关注漂移检测,忽略了诊断、修复和供应链数据的层次结构。
  • Method: 提出DriftGuard五模块框架:1)集成四种互补检测方法(基于误差监控、统计检验、自编码器异常检测、CUSUM变点分析);2)层次传播分析定位产品线漂移位置;3)SHAP分析诊断根因;4)成本感知重训练策略选择性更新受影响模型;5)端到端系统管理完整漂移生命周期。
  • Result: 在M5零售数据集的30,000多个时间序列上评估,DriftGuard在4.2天内达到97.8%的检测召回率,通过针对性修复实现高达417的投资回报率。
  • Conclusion: DriftGuard解决了供应链预测中概念漂移的完整生命周期管理问题,提供早期检测、根因解释和自动修复的端到端解决方案,显著优于当前行业实践和学术方法。

[87] Class Adaptive Conformal Training

Badr-Eddine Marani,Julio Silva-Rodriguez,Ismail Ben Ayed,Maria Vakalopoulou,Stergios Christodoulidis,Jose Dolz

Main category: cs.LG

TL;DR: CaCT提出了一种自适应类别条件置信训练方法,通过增广拉格朗日优化学习类别特定的预测集,在保持覆盖率保证的同时生成更小、信息量更大的预测集。

  • Motivation: 深度神经网络虽然取得了显著成功,但常常存在概率估计不可靠的问题,容易过度自信。现有置信训练方法主要优化整体集合大小,难以实现类别条件预测集调整,通常需要数据分布的先验知识。
  • Method: CaCT将置信训练表述为增广拉格朗日优化问题,自适应地学习类别条件预测集形状,无需任何分布假设。该方法在多个基准数据集上进行实验验证。
  • Result: 在标准图像识别、长尾图像识别和文本分类等多个基准数据集上,CaCT始终优于先前的置信训练方法,产生显著更小、信息量更大的预测集,同时保持所需的覆盖率保证。
  • Conclusion: CaCT提供了一种无需分布假设的自适应类别条件置信训练框架,能够有效改善深度神经网络的概率校准和不确定性量化能力。

[88] Toward Understanding Unlearning Difficulty: A Mechanistic Perspective and Circuit-Guided Difficulty Metric

Jiali Cheng,Ziheng Chen,Chirag Agarwal,Hadi Amiri

Main category: cs.LG

TL;DR: 本文提出CUD(电路引导的遗忘难度)指标,通过模型电路信号预测样本遗忘难度,发现易遗忘样本依赖短浅的早期电路,难遗忘样本依赖深层的晚期电路。

  • Motivation: 机器遗忘对构建可信赖的语言模型至关重要,但现有遗忘方法在不同样本上效果差异很大。作者认为这种差异不仅源于数据侧,更反映了模型内部编码和保护记忆信息的机制。
  • Method: 从机制角度研究模型电路(结构化交互路径),提出CUD指标,利用电路级信号为每个样本分配连续难度分数,识别关键电路级模式。
  • Result: CUD能可靠区分内在易遗忘和难遗忘样本,且在不同遗忘方法中保持稳定。易遗忘样本与较短、较浅的早期到中期电路交互相关,难遗忘样本依赖更长、更深、更接近晚期计算的路径。
  • Conclusion: 相比现有定性研究,CUD为遗忘难度分析提供了原则性、细粒度和可解释的方法,并激励开发基于模型机制的遗忘方法。

cs.RO

[89] Learning Whole-Body Human-Humanoid Interaction from Human-Human Demonstrations

Wei-Jin Huang,Yue-Yi Zhang,Yi-Lin Wei,Zhi-Wei Xia,Juantao Tan,Yuan-Ming Li,Zhilin Zhao,Wei-Shi Zheng

Main category: cs.RO

TL;DR: PAIR+D-STAR框架:通过物理感知交互重定向从人类-人类交互数据生成高质量人形机器人交互数据,再通过解耦时空动作推理器学习超越模仿的协同行为

  • Motivation: 人形机器人需要与人类物理交互,但缺乏高质量的人-人形交互数据。利用丰富的人类-人类交互数据是可行方案,但传统重定向方法会破坏关键接触,传统模仿学习仅模仿轨迹而缺乏交互理解
  • Method: 提出两阶段框架:1) PAIR:接触中心的两阶段物理感知交互重定向,保持接触语义以生成物理一致的人-人形交互数据;2) D-STAR:分层策略,通过相位注意力(何时行动)和多尺度空间模块(何处行动)解耦时空推理,由扩散头融合生成同步全身行为
  • Result: 通过广泛模拟验证,相比基线方法获得显著性能提升,展示了从人类-人类交互数据学习复杂全身交互的完整有效流程
  • Conclusion: PAIR+D-STAR框架成功解决了从人类-人类交互数据学习人形机器人交互的两个关键挑战:物理一致的数据生成和超越模仿的交互理解,为人形机器人物理交互提供了有效解决方案

[90] Multimodal Signal Processing For Thermo-Visible-Lidar Fusion In Real-time 3D Semantic Mapping

Jiajun Sun,Yangyi Ou,Haoyuan Zheng,Chao yang,Yue Ma

Main category: cs.RO

TL;DR: 提出一种将热信息语义增强到3D点云地图的新方法,通过可见光与红外图像像素级融合,将LiDAR点云投影到融合图像流,分割热源特征识别高温目标,并将温度信息作为语义层添加到最终3D地图中。

  • Motivation: 在复杂环境中,自主机器人导航和环境感知对SLAM技术提出了更高要求。需要生成不仅具有精确几何结构,还能对环境有重要语义理解的地图,这对于灾害快速评估和工业预防性维护等特定应用至关重要。
  • Method: 1. 首先进行可见光和红外图像的像素级融合;2. 将实时LiDAR点云投影到融合图像流上;3. 在热通道中分割热源特征以即时识别高温目标;4. 将温度信息作为语义层应用到最终的3D地图中。
  • Result: 该方法生成的地图不仅具有精确的几何结构,还具备对环境的关键语义理解能力。能够即时识别高温目标,为灾害评估和工业维护等应用提供有价值的信息。
  • Conclusion: 通过将热信息语义增强到3D点云地图中,该方法显著提升了SLAM系统的环境感知能力,为特定应用场景如快速灾害评估和工业预防性维护提供了高度有价值的解决方案。

eess.IV

[91] Comprehensive Machine Learning Benchmarking for Fringe Projection Profilometry with Photorealistic Synthetic Data

Anush Lakshman S,Adam Haroon,Beiwen Li

Main category: eess.IV

TL;DR: 首个开源、照片级真实感的FPP合成数据集,包含15,600条纹图像和300深度重建,用于标准化学习型FPP方法的评估和比较。

  • Motivation: 条纹投影轮廓术的机器学习方法缺乏大规模多样化数据集和全面基准测试协议,阻碍了该领域的发展。
  • Method: 使用NVIDIA Isaac Sim生成照片级真实感合成数据集,包含50个不同物体的15,600条纹图像和300深度重建,并基准测试四种神经网络架构的单次深度重建性能。
  • Result: 所有模型(UNet、Hformer、ResUNet、Pix2Pix)在单次深度重建中表现相似(58-77 mm RMSE),重建误差达到典型物体深度范围的75-95%,表明无显式相位信息的直接条纹到深度映射存在根本限制。
  • Conclusion: 该资源提供了标准化评估协议,能够系统比较和开发基于学习的FPP方法,揭示了当前方法的局限性并指明了未来研究方向。

[92] W-DUALMINE: Reliability-Weighted Dual-Expert Fusion With Residual Correlation Preservation for Medical Image Fusion

Md. Jahidul Islam

Main category: eess.IV

TL;DR: W-DUALMINE:一种基于可靠性加权的双专家融合框架,通过架构约束和理论基础的损失设计,解决医学图像融合中全局统计相似性与局部结构保真度之间的权衡问题。

  • Motivation: 现有深度学习方法(包括AdaFuse和ASFE-Fusion等空间-频率框架)在医学图像融合中存在全局统计相似性(通过相关系数CC和互信息MI衡量)与局部结构保真度之间的基本权衡问题。
  • Method: 提出W-DUALMINE框架,包含:1)用于自适应模态加权的密集可靠性映射;2)结合全局上下文空间专家和小波域频率专家的双专家融合策略;3)基于软梯度的仲裁机制;4)残差到平均融合范式,保证全局相关性保留的同时增强局部细节。
  • Result: 在CT-MRI、PET-MRI和SPECT-MRI数据集上的广泛实验表明,W-DUALMINE在CC和MI指标上持续优于AdaFuse和ASFE-Fusion。
  • Conclusion: W-DUALMINE通过架构约束和理论基础的损失设计,有效解决了医学图像融合中全局统计相似性与局部结构保真度之间的权衡问题,为多模态医学图像融合提供了更优的解决方案。

[93] GOUHFI 2.0: A Next-Generation Toolbox for Brain Segmentation and Cortex Parcellation at Ultra-High Field MRI

Marc-Antoine Fortin,Anne Louise Kristoffersen,Paal Erik Goa

Main category: eess.IV

TL;DR: GOUHFI 2.0是一个针对超高场MRI的深度学习工具箱,改进了脑分割和皮层分区功能,在异质数据上表现更优。

  • Motivation: 超高场MRI在大型神经影像研究中应用增加,但现有自动脑分割和皮层分区工具在UHF数据上效果不佳,限制了基于区域的定量分析。
  • Method: 采用两个独立训练的3D U-Net:一个用于35个标签的全脑分割,使用238个受试者的训练数据和领域随机化策略;另一个用于62个标签的皮层分区(DKT协议)。
  • Result: 在多个数据集上,GOUHFI 2.0相比原版本分割精度提高(尤其在异质队列中),皮层分区可靠,体积测量结果与标准流程一致。
  • Conclusion: GOUHFI 2.0提供了跨场强的脑分割、分区和体积测量综合解决方案,是首个实现UHF-MRI稳健皮层分区的深度学习工具箱。

[94] POWDR: Pathology-preserving Outpainting with Wavelet Diffusion for 3D MRI

Fei Tan,Ashok Vardhan Addala,Bruno Astuto Arouche Nunes,Xucheng Zhu,Ravi Soni

Main category: eess.IV

TL;DR: POWDR是一个病理保留的3D MRI外绘框架,基于条件小波扩散模型,保留真实病变区域的同时生成解剖合理的周围组织,解决医学影像数据稀缺和类别不平衡问题。

  • Motivation: 医学影像数据集常存在类别不平衡和病理丰富病例有限的问题,这限制了分割、分类和视觉语言任务的机器学习模型性能。需要一种能保留真实病理区域同时增加数据多样性的方法。
  • Method: 提出POWDR框架,基于条件小波扩散模型,利用小波域条件增强高频细节并减少模糊。引入随机连接掩码训练策略防止条件诱导崩溃并提高病变外区域的多样性。
  • Result: 在脑MRI(BraTS数据集)和膝MRI上验证,定量指标(FID、SSIM、LPIPS)证实图像真实性。随机掩码训练显著提高多样性(余弦相似度从0.9947降至0.9580)。添加50个合成病例后,肿瘤分割Dice分数从0.6992提升至0.7137。
  • Conclusion: POWDR是解决医学影像数据稀缺和类别不平衡的实用方案,可扩展到多种解剖结构,为生成多样化的病理保留合成数据提供可控框架,支持稳健模型开发。

[95] Equi-ViT: Rotational Equivariant Vision Transformer for Robust Histopathology Analysis

Fuyao Chen,Yuexi Du,Elèonore V. Lieffrig,Nicha C. Dvornek,John A. Onofrey

Main category: eess.IV

TL;DR: 提出Equi-ViT,通过将等变卷积核集成到ViT的patch embedding阶段,为病理图像分析提供旋转等变的Transformer架构,提升数据效率和鲁棒性。

  • Motivation: 标准Vision Transformers在病理图像分析中缺乏对旋转、反射等常见图像变换的等变性,这些变换在组织病理学图像中普遍存在,限制了模型的泛化能力。
  • Method: 在ViT架构的patch embedding阶段集成等变卷积核,使学习到的表示具有内置的旋转等变性,从而获得旋转一致的patch嵌入。
  • Result: 在结直肠癌公开数据集上,Equi-ViT实现了优越的旋转一致性patch嵌入和跨图像方向的稳定分类性能,增强了数据效率和鲁棒性。
  • Conclusion: 等变Transformer可作为更通用的骨干网络应用于组织病理学中的ViT,如数字病理学基础模型,具有更好的泛化能力。