Skip to content
每日arXiv - 2025年11月21日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] UniFit: Towards Universal Virtual Try-on with MLLM-Guided Semantic Alignment

Wei Zhang,Yeying Jin,Xin Li,Yan Zhang,Xiaofeng Cong,Cong Wang,Fengcai Qiao,zhichao Lian

Main category: cs.CV

TL;DR: UniFit是一个基于多模态大语言模型的通用虚拟试穿框架,通过语义对齐模块和两阶段训练策略解决文本指令与图像间的语义差距和数据稀缺问题。

  • Motivation: 构建能够灵活处理多样复杂任务的通用虚拟试穿框架面临挑战,现有方法存在文本指令与参考图像间的语义差距以及在复杂场景下数据稀缺的问题。
  • Method: 提出MLLM引导的语义对齐模块,通过多模态输入和可学习查询集整合信息,施加语义对齐损失来捕捉跨模态语义关系;采用两阶段渐进训练策略和自合成流程从有限数据中学习复杂任务。
  • Result: UniFit支持多种虚拟试穿任务(包括多服装和模型间试穿),并实现了最先进的性能表现。
  • Conclusion: UniFit通过MLLM驱动的语义对齐和渐进训练策略,有效解决了虚拟试穿中的语义差距和数据稀缺问题,构建了通用的高性能框架。

[2] EfficientSAM3: Progressive Hierarchical Distillation for Video Concept Segmentation from SAM1, 2, and 3

Chengxi Zeng,Yuxuan Jiang,Aaron Zhang

Main category: cs.CV

TL;DR: EfficientSAM3通过渐进式分层蒸馏方法将SAM3的能力转移到轻量级模型,实现设备端概念分割和跟踪

  • Motivation: SAM3的统一架构(共享视觉骨干、DETR风格检测器、密集内存跟踪器)对于设备端使用仍然过于昂贵,需要开发高效版本
  • Method: 采用渐进式分层蒸馏(PHD)方法,分三个阶段:编码器蒸馏、时序内存蒸馏和端到端微调,使用轻量级骨干网络
  • Result: 在流行的VOS数据集上进行了基准测试,与相关工作比较,实现了强大的性能-效率权衡
  • Conclusion: PHD方法能够生成一系列学生变体,在保持高保真度的同时实现设备端概念分割和跟踪

[3] WALDO: Where Unseen Model-based 6D Pose Estimation Meets Occlusion

Sajjad Pakdamansavoji,Yintao Ma,Amir Rasouli,Tongtong Cao

Main category: cs.CV

TL;DR: 提出了四种新颖的扩展来改进基于模型的6D物体姿态估计方法,包括动态非均匀密集采样、多假设推理机制、迭代精炼和遮挡训练增强,在遮挡条件下显著提升了精度和速度。

  • Motivation: 现有的6D物体姿态估计方法在遮挡条件下容易出错,因为多阶段流水线的早期错误会传播到后续处理,导致性能下降。需要解决遮挡带来的挑战。
  • Method: 提出四种扩展:(1)动态非均匀密集采样策略,聚焦于可见区域;(2)多假设推理机制,保留多个置信度排序的姿态候选;(3)迭代精炼逐步提高精度;(4)遮挡训练增强提升鲁棒性。还提出了新的加权可见性评估指标。
  • Result: 在ICBIN数据集上精度提升超过5%,在BOP数据集基准上提升超过2%,同时推理速度提升约3倍。
  • Conclusion: 所提出的方法有效解决了遮挡条件下的6D姿态估计问题,显著提升了精度和效率,为机器人、增强现实等应用提供了更可靠的姿态估计解决方案。

[4] Automatic Uncertainty-Aware Synthetic Data Bootstrapping for Historical Map Segmentation

Lukas Arzoumanidis,Julius Knechtel,Jan-Henrik Haunert,Youness Dehbi

Main category: cs.CV

TL;DR: 提出了一种自动生成合成历史地图的方法,通过将原始历史地图的制图风格转移到矢量数据上,解决历史地图分析中训练数据稀缺的问题。

  • Motivation: 历史地图的自动化分析面临训练数据稀缺的挑战,因为高质量的标注数据需要大量人工努力,而合成训练数据往往缺乏真实性和多样性。
  • Method: 采用自动深度生成方法和手动随机退化技术,模拟历史地图扫描中常见的视觉不确定性和噪声,生成无限数量的合成历史地图。
  • Result: 生成的训练数据集被用于领域自适应语义分割任务,使用自构建图卷积网络评估数据引导方法的有效性。
  • Conclusion: 该方法能够有效解决历史地图分析中的训练数据稀缺问题,为同质地图语料库的土地覆盖解释等任务提供可行的解决方案。

[5] Box6D : Zero-shot Category-level 6D Pose Estimation of Warehouse Boxes

Yintao Ma,Sajjad Pakdamansavoji,Amir Rasouli,Tongtong Cao

Main category: cs.CV

TL;DR: Box6D是一种针对仓库场景中存储箱的类别级6D姿态估计方法,通过快速二进制搜索推断箱子尺寸,使用类别CAD模板而非实例特定模型,在保持精度的同时减少约76%的推理时间。

  • Motivation: 解决仓库自动化、箱拣选等场景中,现有方法在灵活性、精度和计算效率方面的不足:基于模型的方法需要精确CAD模型且泛化性差;无模型方法在复杂条件下容易失败;类别级方法过于通用而忽略环境先验。
  • Method: 从单次RGB-D观测中,通过快速二进制搜索推断箱子尺寸,使用类别CAD模板进行姿态估计,采用深度合理性过滤器和早停策略来拒绝不合理假设。
  • Result: 在真实仓库场景和公共基准测试中,Box6D实现了竞争性或更优的6D姿态精度,同时推理时间减少约76%。
  • Conclusion: Box6D为仓库环境中的存储箱提供了一种高效准确的6D姿态估计解决方案,在精度和计算效率之间取得了良好平衡。

[6] RB-FT: Rationale-Bootstrapped Fine-Tuning for Video Classification

Meilong Xu,Di Fu,Jiaxing Zhang,Gong Yu,Jiayu Zheng,Xiaoling Hu,Dongdi Zhao,Feiyang Li,Chao Chen,Yong Cao

Main category: cs.CV

TL;DR: 提出两阶段自改进方法,通过生成文本推理来弥合视觉语言模型在领域特定视频分类中的语义鸿沟,无需额外标注即可显著提升性能

  • Motivation: 视觉语言模型在领域特定视频分类任务中表现不佳,特别是在数据有限的情况下,存在语义鸿沟问题
  • Method: 两阶段自改进范式:1)生成详细文本推理,2)基于自生成推理进行微调,然后进行监督微调
  • Result: 在多个数据集上的广泛实验表明,该方法显著优于直接监督微调
  • Conclusion: 自生成推理是适应视觉语言模型到领域特定视频分析的有效且标注高效的范式

[7] Boosting Medical Visual Understanding From Multi-Granular Language Learning

Zihan Li,Yiqing Wang,Sina Farsiu,Paul Kinahan

Main category: cs.CV

TL;DR: MGLL是一个对比学习框架,通过多粒度语言学习改进医学图像的多标签和跨粒度对齐,在多个数据集上优于现有方法。

  • Motivation: CLIP等现有方法专注于单标签、单粒度对齐,但在医学成像等复杂领域中,图像通常对应多个高级标签和不同粒度的标注,需要更有效的多粒度和多标签对齐方法。
  • Method: 提出MGLL框架,利用结构化多标签监督,整合跨粒度文本描述,引入带点约束的软标签监督来增强对齐,使用平滑KL散度确保跨粒度一致性,作为即插即用模块保持计算效率。
  • Result: 在构建的大规模多粒度数据集上预训练并在多个数据集上评估,MGLL在下游任务中优于其他最先进方法。
  • Conclusion: MGLL通过多粒度语言学习有效解决了医学图像理解中的多标签和跨粒度对齐问题,为复杂领域的视觉语言模型提供了改进方案。

[8] Automated Interpretable 2D Video Extraction from 3D Echocardiography

Milos Vukadinovic,Hirotaka Ieki,Yuki Sahasi,David Ouyang,Bryan He

Main category: cs.CV

TL;DR: 提出了一种从3D心脏超声体积中自动选择标准2D视图的方法,让医生能以熟悉的2D格式解读数据,同时享受3D扫描的速度和易用性。

  • Motivation: 虽然心脏具有复杂的三维解剖结构,但传统的心脏超声成像依赖于显示单个心脏结构的一系列2D视频。3D超声心动图是一种发展中的模式,现在提供了足够的图像质量用于临床使用,有潜力简化采集并改进对离轴特征的评估。
  • Method: 应用深度学习视图分类器和基于解剖标志的下游启发式方法,结合心脏病专家提供的启发式方法,重建标准超声心动图视图。
  • Result: 该方法在盲法评估中由三位心脏病专家验证(来自2家医院的1,600个视频中准确率达96%)。提取的2D视频也验证了其使用AI超声心动图模型(EchoPrime和PanEcho)检测心脏异常的能力,以及生成临床级心脏解剖测量(EchoNet-Measurement)的能力。
  • Conclusion: 提取的2D视频保留了空间校准和诊断特征,使临床医生能够从3D体积中获得准确的真实世界解释。发布了代码和包含29个3D超声心动图视频的数据集。

[9] Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

Raphael Ruschel,Hardikkumar Prajapati,Awsafur Rahman,B. S. Manjunath

Main category: cs.CV

TL;DR: Click2Graph是首个交互式全景视频场景图生成框架,通过单一用户提示(如点击或边界框)实现跨时间的目标分割跟踪、自主发现交互对象,并预测三元组形成时序一致的场景图。

  • Motivation: 现有视频场景图生成系统是封闭的前馈管道,无法融入人工指导;而可提示分割模型缺乏语义或关系推理能力。需要将视觉提示与空间、时间和语义理解统一起来。
  • Method: 引入动态交互发现模块生成主体条件化的对象提示,以及语义分类头执行联合实体和谓词推理。从单一用户提示出发,实现目标分割跟踪、交互对象发现和三元组预测。
  • Result: 在OpenPVSG基准测试中,Click2Graph为人工引导的全景视频场景图生成建立了坚实基础,展示了如何将人类提示与全景定位和关系推理相结合。
  • Conclusion: Click2Graph框架实现了可控和可解释的视频场景理解,证明了人类提示可以与全景定位和关系推理有效结合。

[10] InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer

Muyao Yuan,Yuanhong Zhang,Weizhan Zhang,Lan Ma,Yuan Gao,Jiangyong Ying,Yudeng Xin

Main category: cs.CV

TL;DR: InfoCLIP提出了一种基于信息论的方法,通过互信息目标来稳定CLIP在开放词汇语义分割任务中的模态对齐,避免微调过程中的过拟合和预训练对齐退化问题。

  • Motivation: 现有方法在有限可见类别上微调CLIP进行分割时会导致过拟合,并破坏预训练的视觉-语言对齐。需要一种稳定模态对齐的微调方法。
  • Method: 采用信息论视角,通过两个互信息目标:1)压缩像素-文本模态对齐以减少噪声;2)最大化预训练CLIP与微调模型之间对齐知识的互信息,传递适合分割任务的局部语义关系。
  • Result: 在多个基准测试上的广泛评估验证了InfoCLIP在增强CLIP微调用于开放词汇语义分割方面的有效性。
  • Conclusion: InfoCLIP展示了在不对称迁移中的适应性和优越性,能够有效提升CLIP在分割任务中的性能。

[11] Externally Validated Multi-Task Learning via Consistency Regularization Using Differentiable BI-RADS Features for Breast Ultrasound Tumor Segmentation

Jingru Zhang,Saed Moradi,Ashirbani Saha

Main category: cs.CV

TL;DR: 提出一种基于一致性正则化的多任务学习方法,通过可微分的BI-RADS形态特征来缓解乳腺超声肿瘤分割与分类任务间的破坏性干扰,显著提升了分割任务在外部数据集上的泛化性能。

  • Motivation: 多任务学习存在破坏性任务干扰问题,导致联合训练的模型性能不如单任务基线,限制了泛化能力。本文旨在通过改进多任务学习来提升乳腺超声肿瘤分割的泛化性能。
  • Method: 提出新颖的一致性正则化方法,包含可微分的BI-RADS启发形态特征,用于缓解分割和分类任务间的破坏性干扰。
  • Result: 在BrEaST数据集上训练,在三个外部数据集(UDIAT、BUSI、BUS-UCLM)上验证,分割任务的Dice系数显著提升:0.81 vs 0.59、0.66 vs 0.56、0.69 vs 0.49,统计显著(p<0.001)。在UDIAT数据集上达到最先进的分割性能。
  • Conclusion: 所提出的多任务学习方法通过一致性正则化有效缓解了任务间干扰,显著提升了乳腺超声肿瘤分割在外部验证中的泛化性能。

[12] UniDGF: A Unified Detection-to-Generation Framework for Hierarchical Object Visual Recognition

Xinyu Nan,Lingtao Mao,Huangyu Dai,Zexin Zheng,Xinyu Sun,Zihan Liang,Ben Chen,Yuqing Ding,Chenyi Lei,Wenwu Ou,Han Li

Main category: cs.CV

TL;DR: 提出了一种检测引导的生成式框架,通过预测层次化类别和属性token来实现视觉语义理解,在细粒度类别识别和属性多样性方面优于现有方法。

  • Motivation: 当前基于全局相似性的方法难以捕捉细粒度类别差异和类别特定的属性多样性,特别是在大规模电商场景中。
  • Method: 使用检测引导的生成框架,提取ROI级特征,采用BART生成器生成从粗到细的语义token序列,涵盖类别层次和属性-值对,支持属性条件识别。
  • Result: 在大型电商数据集和开源数据集上显著优于基于相似性的流水线和多阶段分类系统,实现了更强的细粒度识别和更一致的统一推理。
  • Conclusion: 检测引导的生成框架能有效解决视觉语义理解中的细粒度识别和属性多样性问题,在大规模场景中表现优异。

[13] Fairness in Multi-modal Medical Diagnosis with Demonstration Selection

Dawei Li,Zijian Gu,Peng Wang,Chuhan Song,Zhen Tan,Mohan Zhang,Tianlong Chen,Yu Tian,Song Wang

Main category: cs.CV

TL;DR: 提出FADS方法,通过聚类采样构建人口统计学平衡的演示示例,在无需微调的情况下提升多模态大语言模型在医学图像推理中的公平性。

  • Motivation: 现有去偏方法依赖大量标注数据或模型微调,不适用于基础规模模型。探索ICL作为轻量级、无需调优的替代方案来改善公平性。
  • Method: 提出公平感知演示选择(FADS),通过聚类采样构建人口统计学平衡且语义相关的演示示例,解决传统演示选择策略因人口统计学不平衡导致的公平性问题。
  • Result: 在多个医学影像基准测试中,FADS持续减少了性别、种族和民族相关的差异,同时保持了强大的准确性。
  • Conclusion: 公平感知的上下文学习为公平的医学图像推理提供了可扩展和数据高效的解决方案。

[14] Exploiting Inter-Sample Information for Long-tailed Out-of-Distribution Detection

Nimeshika Udayangani,Hadi M. Dolatabadi,Sarah Erfani,Christopher Leckie

Main category: cs.CV

TL;DR: 提出一种基于图表示的方法,利用样本间关系来改进长尾视觉数据集中的OOD检测,通过高斯化和图卷积网络优化特征空间,显著降低了误报率并提高了尾类分类准确率。

  • Motivation: 在长尾分布的数据集上进行OOD检测具有挑战性,现有方法在尾类上表现不佳,导致高误报率和低尾类分类准确率。
  • Method: 使用预训练模型特征空间初始化图结构,引入高斯化处理激活层分布偏差,然后通过图卷积网络精炼图表示以获得适合长尾OOD检测的特征空间。
  • Result: 在CIFAR10-LT、CIFAR100-LT和ImageNet-LT三个基准测试中,该方法在误报率和尾类分类准确率方面大幅优于现有最先进方法。
  • Conclusion: 利用图表示和样本间关系能有效提升长尾数据集上的OOD检测性能,特别是在改善尾类识别方面表现出色。

[15] Physically Realistic Sequence-Level Adversarial Clothing for Robust Human-Detection Evasion

Dingkun Zhou,Patrick P. K. Chan,Hengxu Wu,Shikang Zheng,Ruiqi Huang,Yuanjie Zhao

Main category: cs.CV

TL;DR: 提出了一种序列级优化框架,生成可打印的对抗性纹理,能够在整个行走视频序列中持续隐藏人体,在数字和物理环境中都有效。

  • Motivation: 现有可穿戴攻击方法通常逐帧优化纹理,无法在包含运动、姿态变化和衣物变形的长视频序列中保持隐蔽性,存在安全和隐私风险。
  • Method: 将产品图像映射到UV空间并转换为紧凑的调色板和控制点参数化,使用物理人体-衣物管道模拟运动、多角度视角、布料动态和光照变化,通过期望变换目标和时间加权优化控制点。
  • Result: 实验显示该方法具有强大稳定的隐蔽性、对视角变化的高鲁棒性以及优异的跨模型可迁移性,物理服装在室内外录制中实现可靠抑制。
  • Conclusion: 该方法证实了在真实世界环境中实现可穿戴对抗攻击的可行性,为人体检测系统的安全性提供了重要见解。

[16] Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution

Xiao He,Zhijun Tu,Kun Cheng,Mingrui Zhu,Jie Hu,Nannan Wang,Xinbo Gao

Main category: cs.CV

TL;DR: 提出了一种用于单步图像超分辨率的Mixture-of-Ranks (MoR)架构,将稀疏MoE集成到Real-ISR中,通过细粒度专家划分策略和退化感知路由机制,实现灵活的知识重组和计算资源优化分配。

  • Motivation: 现有密集Real-ISR模型在捕捉复杂真实世界退化样本的异质性特征方面能力有限,且无法在同等计算预算下实现输入间的知识共享。
  • Method: 将LoRA中的每个秩视为独立专家,引入细粒度专家划分策略;利用CLIP嵌入和预定义正负文本对计算相对退化分数,动态引导专家激活;包含零专家槽位并提出退化感知负载均衡损失。
  • Result: 综合实验验证了该框架的有效性和最先进的性能。
  • Conclusion: MoR架构成功解决了Real-ISR中自适应捕获异质性特征和知识共享的问题,实现了优越的超分辨率性能。

[17] Towards a Safer and Sustainable Manufacturing Process: Material classification in Laser Cutting Using Deep Learning

Mohamed Abdallah Salem,Hamdy Ahmed Ashur,Ahmed Elshinnawy

Main category: cs.CV

TL;DR: 提出基于深度学习的激光散斑模式材料分类方法,用于激光切割过程监控,能在激光颜色变化时保持高精度分类。

  • Motivation: 激光切割产生大量粉尘烟雾,危害环境和工人健康。散斑传感可实时监控切割过程和识别材料类型,但现有方法在激光颜色变化时可能失效。
  • Method: 使用卷积神经网络(CNN)训练激光散斑模式数据集,识别不同材料类型以实现安全高效的切割控制。
  • Result: 模型在训练集准确率98.30%,验证集96.88%。在3000张新图像上对30种材料评估,F1分数达0.9643。
  • Conclusion: 该方法为基于散斑传感的材料感知激光切割提供了鲁棒且准确的解决方案。

[18] CuriGS: Curriculum-Guided Gaussian Splatting for Sparse View Synthesis

Zijian Wu,Mingfeng Jiang,Zidian Lin,Ying Song,Hanjie Ma,Qun Wu,Dongping Zhang,Guiyang Pu

Main category: cs.CV

TL;DR: CuriGS是一个基于课程学习的稀疏视图3D高斯泼溅重建框架,通过引入学生视图和渐进式训练策略解决稀疏视图合成中的过拟合问题。

  • Motivation: 3D高斯泼溅在稀疏视图设置下面临监督稀缺和视角覆盖有限导致的过拟合挑战,需要一种有效的方法来增强训练数据。
  • Method: 提出课程引导框架,为每个真实视角(教师)生成多组不同扰动水平的学生视图,通过渐进式解锁扰动级别、深度相关性和协同正则化来训练模型,并基于多信号指标评估和保留最佳学生视图。
  • Result: 实验结果表明CuriGS在各种合成和真实稀疏视图场景中,在渲染保真度和几何一致性方面均优于现有最先进方法。
  • Conclusion: CuriGS通过课程学习策略有效解决了稀疏视图3D高斯泼溅重建的挑战,实现了高质量的实时场景重建和渲染。

[19] Crossmodal learning for Crop Canopy Trait Estimation

Timilehin T. Ayanlade,Anirudha Powadi,Talukder Z. Jubery,Baskar Ganapathysubramanian,Soumik Sarkar

Main category: cs.CV

TL;DR: 提出了一种跨模态学习策略,通过将高分辨率卫星图像与无人机级别的视觉细节相结合,用于作物冠层性状估计,在产量和氮预测等下游任务中优于真实卫星图像。

  • Motivation: 解决卫星图像在空间分辨率上的限制,特别是在微地块管理的现代农业系统中,卫星图像的有效性受到阻碍。
  • Method: 使用近似配准的卫星-无人机图像对数据集,训练一个学习不同传感模态之间细粒度光谱空间对应关系的模型。
  • Result: 生成的无人机式表示在多个下游任务(包括产量和氮预测)上持续优于真实卫星图像。
  • Conclusion: 跨模态对应学习有潜力弥合农业监测中卫星和无人机传感之间的差距。

[20] LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets

Qing Wang,Chong-Wah Ngo,Ee-Peng Lim,Qianru Sun

Main category: cs.CV

TL;DR: 提出一个基于大语言模型(LLMs)的框架来解决食品识别中的领域偏移、长尾分布和细粒度分类挑战,通过LLM解析图像生成食品标题和成分,在共享嵌入空间中对齐多模态特征。

  • Motivation: 解决食品识别中的三个关键挑战:训练数据与真实环境图像的领域偏移问题、长尾数据分布问题,以及不同类别食品间视觉差异细微难以区分的问题。
  • Method: 1. 利用LLM解析食品图像生成食品标题和成分;2. 将生成的文本和不同领域的食品图像投影到共享嵌入空间,最大化配对相似度;3. 使用对齐后的多模态特征进行识别。
  • Result: 在两个食品数据集上,该方法在长尾数据分布、领域适应和细粒度分类方面均优于现有专门方法。
  • Conclusion: 提出的基于LLM的简单框架能有效解决食品识别中的多个挑战,在多个任务上表现出色。

[21] AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers

Boxun Xu,Yu Wang,Zihu Wang,Peng Li

Main category: cs.CV

TL;DR: AMS-KV是一种针对视觉自回归模型中下一尺度预测的KV缓存优化策略,通过优先存储关键尺度和局部尺度的KV,显著减少内存使用并提升计算效率。

  • Motivation: 下一尺度预测在视觉自回归模型中存在KV内存随尺度数量增长而过度膨胀的问题,严重限制了模型的可扩展性。
  • Method: 基于系统研究发现:局部尺度注意力对生成质量重要;最粗尺度需要少量内存稳定生成;缓存需求层存在弱尺度间相似性。AMS-KV优先存储关键尺度和局部尺度的KV,并通过尺度间相似性分析优化缓存使用。
  • Result: 相比原始模型,AMS-KV减少KV缓存使用达84.83%,自注意力延迟降低60.48%。在基线模型内存不足时,AMS-KV能稳定扩展到更大批次大小。
  • Conclusion: AMS-KV通过尺度自适应的KV缓存策略,有效解决了视觉自回归模型中下一尺度预测的内存瓶颈问题,实现了更好的可扩展性和计算效率。

[22] LiSTAR: Ray-Centric World Models for 4D LiDAR Sequences in Autonomous Driving

Pei Liu,Songtao Wang,Lang Zhang,Xingyue Peng,Yuandong Lyu,Jiaxin Deng,Songxin Lu,Weiliang Ma,Xueyang Zhang,Yifei Zhan,XianPeng Lang,Jun Ma

Main category: cs.CV

TL;DR: LiSTAR是一个直接在传感器原生几何上操作的生成世界模型,通过混合圆柱-球面表示和时空注意力机制,实现了高保真、可控的4D LiDAR数据合成,显著提升了自动驾驶仿真的真实性和可控性。

  • Motivation: 合成高保真且可控的4D LiDAR数据对于创建可扩展的自动驾驶仿真环境至关重要,但由于传感器独特的球面几何、点云的时间稀疏性以及动态场景的复杂性,这一任务具有挑战性。
  • Method: 提出LiSTAR模型,采用混合圆柱-球面表示来减少量化伪影,使用时空注意力与射线中心Transformer来捕捉稀疏时序数据中的复杂动态,并提出4D点云对齐体素布局和离散掩码生成框架实现可控合成。
  • Result: 在4D LiDAR重建、预测和条件生成方面达到最先进性能:生成MMD降低76%,重建IoU提升32%,预测L1中值误差降低50%。
  • Conclusion: LiSTAR为创建真实可控的自动驾驶系统仿真提供了强大的新基础,显著提升了4D LiDAR数据合成的质量和可控性。

[23] VideoSeg-R1:Reasoning Video Object Segmentation via Reinforcement Learning

Zishan Xu,Yifu Guo,Yuquan Lu,Fengyu Yang,Junxin Li

Main category: cs.CV

TL;DR: VideoSeg-R1是首个将强化学习引入视频推理分割的框架,采用解耦架构,包含分层文本引导帧采样、推理模型生成空间线索和显式推理链、以及使用SAM2和XMem的分割传播三个阶段,通过任务难度感知机制自适应控制推理长度。

  • Motivation: 传统视频推理分割方法依赖监督微调,限制了在分布外场景的泛化能力且缺乏显式推理过程。
  • Method: 采用解耦架构,将任务表述为联合参考图像分割和视频掩码传播,包含分层文本引导帧采样、推理模型生成空间线索和显式推理链、以及分割传播三个阶段,使用任务难度感知机制自适应控制推理长度。
  • Result: 在多个基准测试上的广泛评估表明,VideoSeg-R1在复杂视频推理和分割任务中实现了最先进的性能。
  • Conclusion: VideoSeg-R1通过引入强化学习和显式推理链,有效解决了传统方法的泛化限制和推理不透明问题,在视频推理分割任务上表现出色。

[24] SpectralTrain: A Universal Framework for Hyperspectral Image Classification

Meihua Zhou,Liping Yu,Jiawei Cai,Wai Kin Fung,Ruiguo Hu,Jiarui Zhao,Wenzhuo Liu,Nan Wan

Main category: cs.CV

TL;DR: SpectralTrain是一个通用的、架构无关的高光谱图像分类训练框架,通过结合课程学习和PCA降维来提升学习效率,在显著降低计算成本的同时保持分类精度。

  • Motivation: 高光谱图像分类通常涉及大规模数据和计算密集型训练,限制了深度学习模型在实际遥感任务中的部署。需要一种能提高训练效率的通用方法。
  • Method: 提出SpectralTrain框架,结合课程学习和基于PCA的光谱降采样,逐步引入光谱复杂性同时保留关键信息,实现高效的光谱-空间模式学习。
  • Result: 在三个基准数据集上的实验显示,训练时间减少2-7倍,精度损失较小,在不同空间尺度、光谱特性和应用领域都具有良好泛化能力。
  • Conclusion: SpectralTrain证明了训练策略优化是高光谱图像模型中架构设计的有效补充,在云分类等气候相关遥感任务中具有应用潜力。

[25] Rad-GS: Radar-Vision Integration for 3D Gaussian Splatting SLAM in Outdoor Environments

Renxiang Xiao,Wei Liu,Yuanfan Zhang,Yushuai Chen,Jinming Chen,Zilu Wang,Liang Hu

Main category: cs.CV

TL;DR: Rad-GS是一个用于千米级室外环境的4D雷达-相机SLAM系统,使用3D高斯作为可微分空间表示,结合雷达点云和多普勒信息来指导动态物体掩码,提升定位精度和渲染质量。

  • Motivation: 解决在大型室外环境中使用4D毫米波雷达进行鲁棒建图的可行性问题,传统方法主要依赖相机或LiDAR输入,而雷达在恶劣天气条件下具有优势。
  • Method: 结合原始雷达点云与多普勒信息,使用几何增强的点云指导同步图像中的动态物体掩码;利用非同步图像帧全局优化3D高斯表示;采用全局八叉树结构和目标高斯基元管理策略降低噪声和内存消耗。
  • Result: 在千米级真实环境中实现重建,性能与传统基于相机或LiDAR的3D高斯方法相当,验证了使用4D毫米波雷达进行大型室外建图的可行性。
  • Conclusion: Rad-GS展示了4D毫米波雷达在大型室外场景重建中的潜力,为恶劣天气条件下的鲁棒建图提供了可行解决方案。

[26] T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs

Shao-Jun Xia,Huixin Zhang,Zhengzhong Tu

Main category: cs.CV

TL;DR: 本文提出了T2T-VICL框架,研究视觉语言模型在不同视觉任务间的跨任务上下文学习能力,通过文本提示生成和感知评分推理实现跨任务视觉上下文学习。

  • Motivation: 探索当视觉提示和目标图像来自不同视觉任务时,视觉语言模型是否仍能实现跨任务的视觉上下文学习,突破现有视觉上下文学习的任务边界限制。
  • Method: 设计了文本提示生成和选择机制来隐式描述不同低层视觉任务间的差异,构建首个跨任务VICL数据集,并提出结合感知评分推理和传统评估指标的新型推理框架。
  • Result: 在9个跨任务场景中取得顶级性能,在另外10个场景中达到第二梯队表现,成功解锁了VLMs中跨任务VICL的边界。
  • Conclusion: T2T-VICL框架证明了视觉语言模型具备跨任务视觉上下文学习的潜力,为统一的视觉语言模型在多任务场景中的应用开辟了新方向。

[27] Clustered Error Correction with Grouped 4D Gaussian Splatting

Taeho Kang,Jaeyeon Park,Kyungjin Lee,Youngki Lee

Main category: cs.CV

TL;DR: 提出一种改进4D高斯泼溅方法,通过椭圆误差聚类和分组4D高斯泼溅技术,显著提升动态场景重建的准确性和时间一致性。

  • Motivation: 现有4D高斯泼溅方法在重建动态场景时存在像素对应关系模糊和动态区域密度不足的问题,导致重建质量不佳。
  • Method: 采用椭圆误差聚类和误差校正泼溅添加来定位动态区域,并通过分组4D高斯泼溅技术改进泼溅与动态对象映射的一致性。
  • Result: 在Neural 3D Video和Technicolor数据集上评估显示,该方法显著提升了时间一致性,在Technicolor光场数据集上PSNR提高了0.39dB。
  • Conclusion: 该方法有效解决了动态场景重建中的关键问题,实现了最先进的感知渲染质量,并提供了更好的泼溅与动态对象对齐。

[28] Decoupling Complexity from Scale in Latent Diffusion Model

Tianxiong Zhong,Xingye Tian,Xuebo Wang,Boyuan Jiang,Xin Tao,Pengfei Wan

Main category: cs.CV

TL;DR: DCS-LDM是一种新的视觉生成范式,通过构建层次化、尺度无关的潜在空间,将信息复杂度与尺度解耦,支持在固定潜在表示下解码到任意分辨率和帧率,实现灵活的计算-质量权衡和渐进式生成。

  • Motivation: 现有潜在扩散模型通常将尺度与内容复杂度耦合,使用更多潜在token来表示更高分辨率图像或更高帧率视频。但视觉数据所需的潜在容量主要取决于内容复杂度,尺度仅作为上限。
  • Method: 构建层次化、尺度无关的潜在空间,通过多级token建模样本复杂度,支持在固定潜在表示下解码到任意分辨率和帧率,实现结构信息和细节信息在不同层级的分解。
  • Result: 实验结果显示DCS-LDM在保持与最先进方法相当性能的同时,能够灵活地在不同尺度和视觉质量下进行生成。
  • Conclusion: DCS-LDM通过解耦信息复杂度与尺度,实现了灵活的视觉生成,支持渐进式粗到细的生成范式,为视觉生成提供了新的可能性。

[29] VTinker: Guided Flow Upsampling and Texture Mapping for High-Resolution Video Frame Interpolation

Chenyang Wu,Jiayi Fu,Chun-Le Guo,Shuhao Han,Chongyi Li

Main category: cs.CV

TL;DR: VTinker提出了一种新的视频帧插值方法,通过引导流上采样和纹理映射来解决高分辨率帧插值中的模糊、马赛克和重影问题。

  • Motivation: 传统基于光流的视频帧插值方法在低分辨率预测双向光流后使用高倍率上采样,会导致光流边缘模糊和马赛克,且无法充分捕捉高分辨率下的精细像素运动,导致任务导向光流不对齐,产生重影和不连续性。
  • Method: VTinker包含两个核心组件:引导流上采样(GFU)和纹理映射。GFU使用输入帧作为引导来减轻双线性上采样光流中的模糊细节;纹理映射生成中间代理帧,作为从输入帧选择清晰纹理块的线索,然后映射到代理帧上通过重建模块生成最终插值帧。
  • Result: 大量实验表明VTinker在视频帧插值中达到了最先进的性能。
  • Conclusion: VTinker通过引导流上采样和纹理映射有效解决了高分辨率视频帧插值中的模糊、重影和不连续性问题,实现了优异的插值效果。

[30] How Noise Benefits AI-generated Image Detection

Jiazhen Yan,Ziqiang Li,Fan Wang,Kai Zeng,Zhangjie Fu

Main category: cs.CV

TL;DR: 提出了PiN-CLIP方法,通过在特征空间注入正激励噪声来抑制捷径敏感性,增强AI生成图像检测的泛化能力,在42种生成模型的测试中达到最优性能。

  • Motivation: 生成模型的快速发展使真实图像和合成图像难以区分,现有AI生成图像检测方法在分布外泛化方面存在挑战,主要原因是训练时利用了虚假捷径。
  • Method: 提出PiN-CLIP方法,联合训练噪声生成器和检测网络,通过交叉注意力融合视觉和类别语义特征构建正激励噪声,在特征空间注入噪声来微调视觉编码器。
  • Result: 在包含42种不同生成模型的合成图像开放世界数据集上进行比较实验,该方法实现了新的最优性能,平均准确率比现有方法提高了5.4%。
  • Conclusion: 通过抑制捷径敏感方向同时放大稳定取证线索,能够提取更鲁棒和泛化的伪影表示,有效解决了AI生成图像检测的泛化挑战。

[31] Degradation-Aware Hierarchical Termination for Blind Quality Enhancement of Compressed Video

Li Yu,Yingbo Zhao,Shiyu Wu,Siyue Yu,Moncef Gabbouj,Qingshan Liu

Main category: cs.CV

TL;DR: 提出了一种用于压缩视频质量增强的预训练退化表示学习模块和分层终止机制,解决了现有盲方法缺乏空间细节和计算效率低的问题。

  • Motivation: 现实场景中量化参数可能未知,现有盲方法只能捕获全局退化信息而缺乏空间细节,且不同压缩级别需要不同的计算需求。
  • Method: 使用预训练的退化表示学习模块提取高维多尺度退化表示来指导伪影去除,并引入分层终止机制根据压缩级别动态调整伪影减少阶段的数量。
  • Result: 在QP=22时,PSNR比现有最佳盲方法提升110%(从0.31dB到0.65dB),分层终止机制在QP=22时的推理时间比QP=42减少一半。
  • Conclusion: 该方法显著提升了压缩视频质量增强的性能和效率,解决了盲方法和非盲方法在现实应用中的局限性。

[32] Real-Time 3D Object Detection with Inference-Aligned Learning

Chenyu Zhao,Xianwei Zheng,Zimin Xia,Linwei Yue,Nan Xue

Main category: cs.CV

TL;DR: SR3D是一个用于室内点云实时3D目标检测的新框架,通过空间优先最优传输分配和排名感知自适应自蒸馏来解决训练与推理之间的差距问题。

  • Motivation: 现有的3D目标检测器在训练时缺乏空间可靠性和排名感知,与推理时基于排名的预测选择存在差距,这阻碍了模型学习与推理行为对齐的表示。
  • Method: 提出两个组件:1)空间优先最优传输分配,动态强调位置良好且空间可靠的样本;2)排名感知自适应自蒸馏方案,通过自蒸馏范式自适应注入排名感知。
  • Result: 在ScanNet V2和SUN RGB-D数据集上的广泛实验表明,SR3D有效弥合了训练-推理差距,在保持实时速度的同时显著优于先前方法的准确性。
  • Conclusion: SR3D框架成功解决了3D目标检测中训练与推理不一致的问题,通过空间优先和排名感知机制实现了更准确和高效的检测性能。

[33] A Spatial Semantics and Continuity Perception Attention for Remote Sensing Water Body Change Detection

Quanqing Ma,Jiaen Chen,Peng Wang,Yao Zheng,Qingzhan Zhao,Yuchen Zheng

Main category: cs.CV

TL;DR: 提出了一个新的高分辨率水体变化检测数据集HSRW-CD和一个空间语义与连续性感知注意力模块SSCP,通过多语义空间注意力、结构关系感知全局注意力和通道自注意力来充分挖掘深度特征中的空间语义和结构信息,提升水体变化检测性能。

  • Motivation: 高空间分辨率水体变化检测数据集稀缺,且现有深度学习方法未能充分利用深度特征中的空间语义和结构信息,限制了在城乡区域的应用精度。
  • Method: 首先构建了空间分辨率高于3米的HSRW-CD数据集,然后设计了SSCP注意力模块,包含MSA增强空间语义、SRGA提取空间结构、CSA利用语义和结构先验计算通道相似性,可作为即插即用模块集成到现有WBCD模型中。
  • Result: 在提出的HSRW-CD和Water-CD数据集上的大量实验验证了SSCP的有效性和泛化能力。
  • Conclusion: 提出的HSRW-CD数据集和SSCP注意力模块有效解决了水体变化检测中数据稀缺和特征利用不充分的问题,显著提升了水体识别能力。

[34] LEGO-SLAM: Language-Embedded Gaussian Optimization SLAM

Sibaek Lee,Seongbo Ha,Kyeongsu Kang,Joonyeol Choi,Seungjun Tak,Hyeonwoo Yu

Main category: cs.CV

TL;DR: LEGO-SLAM是首个在3D高斯泼溅SLAM系统中实现实时开放词汇语义映射的框架,通过场景自适应编码器将高维语言特征压缩到16维,减少内存占用并加速渲染,同时支持语言引导的剪枝和闭环检测。

  • Motivation: 现有3DGS SLAM系统缺乏开放词汇语义理解能力,而集成语言特征面临内存占用大、渲染开销高的问题,静态模型方法对新环境缺乏适应性。
  • Method: 使用场景自适应编码器-解码器将高维语言嵌入压缩到16维特征空间;采用语言引导的剪枝策略识别语义冗余;利用映射特征实现基于语言的闭环检测。
  • Result: 将每个高斯的内存需求降低,渲染速度提升,实现实时性能(15 FPS);高斯数量减少超过60%同时保持渲染质量;在映射质量和跟踪精度方面表现有竞争力。
  • Conclusion: LEGO-SLAM成功解决了3DGS SLAM中的语义集成挑战,实现了实时开放词汇语义映射,为高级机器人交互提供了必要的基础。

[35] Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval

Chunxu Liu,Jiyuan Yang,Ruopeng Gao,Yuhan Zhu,Feng Zhu,Rui Zhao,Limin Wang

Main category: cs.CV

TL;DR: 提出RGE方法,通过将MLLMs的生成推理能力融入嵌入提取过程,结合对比训练来提升多模态表示质量。

  • Motivation: 现有方法将嵌入提取视为直接编码步骤,忽略了MLLMs具备的生成推理能力可以提升表示质量。
  • Method: 提出RGE方法,首先让模型基于指令进行结构化原理生成,然后在推理展开后提取表示,结合对比训练。
  • Result: 在MMEB基准测试中,推理引导的条件化使多模态检索性能比非推理基线提升4.9%。
  • Conclusion: 显式推理能有效增强嵌入质量,RGE方法成功将MLLMs的推理能力融入嵌入过程。

[36] Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

Jian Ma,Qirong Peng,Xujie Zhu,Peixing Xie,Chen Chen,Haonan Lu

Main category: cs.CV

TL;DR: 提出PPCL框架,通过可插拔剪枝和连续层蒸馏,在保持图像生成质量的同时将DiT模型参数量减少50%

  • Motivation: 扩散变换器(DiTs)在图像生成中表现出色,但参数量大导致计算成本高,难以在资源受限环境中部署
  • Method: 1) 通过线性探测和一阶微分趋势分析识别冗余层区间;2) 提出可插拔师生交替蒸馏方案,在单一训练阶段集成深度和宽度剪枝
  • Result: 在多个多模态扩散变换器模型上,PPCL实现参数量减少50%,关键客观指标退化小于3%,保持高质量图像生成能力
  • Conclusion: PPCL方法在实现更高压缩比的同时保持生成质量,适合资源受限环境部署

[37] Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Yibin Huang,Wang Xu,Wanyue Zhang,Helu Zhi,Jingjing Huang,Yangbin Xu,Yangang Sun,Conghui Zhu,Tiejun Zhao

Main category: cs.CV

TL;DR: Video2Layout框架通过连续边界坐标重建空间布局,解决了现有网格认知地图方法在细粒度空间推理上的局限性,在多个基准测试中平均提升4.92%的性能。

  • Motivation: 现有基于网格的认知地图方法依赖离散化栅格表示,限制了模型在细粒度空间推理方面的能力。为了克服这一局限,需要开发能够进行定量空间计算的连续表示方法。
  • Method: 提出Video2Layout框架,使用连续对象边界坐标来量化物体间物理距离和物体大小。包含两个核心阶段:监督微调阶段从AI2THOR模拟器构建高质量数据集学习视觉输入到精确边界坐标的映射;强化微调阶段增强模型在真实世界的泛化能力。
  • Result: 在QVS-Bench和主流空间推理基准测试中,V2LO-7B模型相比基于网格地图训练的模型平均提升了4.92%的性能,验证了方法的优越性。
  • Conclusion: 使用连续边界坐标表示能够有效提升多模态大语言模型的空间推理能力,解决了自然语言描述空间关系时的固有模糊性问题,为空间智能的发展提供了新思路。

[38] Simba: Towards High-Fidelity and Geometrically-Consistent Point Cloud Completion via Transformation Diffusion

Lirui Zhang,Zhengkai Zhao,Zhi Zuo,Pan Gao,Jie Qin

Main category: cs.CV

TL;DR: Simba框架通过将点云补全中的点级变换回归重新表述为分布学习问题,结合对称性先验和扩散模型的生成能力,解决了现有回归方法过拟合和噪声敏感性的问题。

  • Motivation: 点云补全中同时保留输入的细粒度细节和确保全局结构完整性是一个持续挑战。现有基于局部对称变换的回归方法存在过拟合和噪声敏感性问题。
  • Method: 将点级变换回归重新表述为分布学习问题,集成对称性先验与扩散模型的生成能力,采用分层Mamba架构实现高保真上采样。
  • Result: 在PCN、ShapeNet和KITTI基准测试上的广泛实验验证了该方法的SOTA性能。
  • Conclusion: Simba框架通过分布学习方法有效解决了点云补全中的过拟合和噪声敏感性问题,实现了优异的性能。

[39] Layer-wise Noise Guided Selective Wavelet Reconstruction for Robust Medical Image Segmentation

Yuting Lu,Ziliang Wang,Weixin Xu,Wei Zhang,Yongqiang Zhao,Yang Yu,Xiaohong Zhang

Main category: cs.CV

TL;DR: 提出LNG-SWR方法,通过层间噪声引导的选择性小波重构来提升医学图像分割的鲁棒性,无需牺牲干净样本精度,且可与对抗训练结合获得额外增益

  • Motivation: 临床部署需要分割模型在分布偏移和扰动下保持稳定。对抗训练存在干净-鲁棒性权衡和高训练成本问题,限制了医学影像中的可扩展性和可维护性
  • Method: 在训练时向多个层注入小幅度零均值噪声,学习频率偏置先验;应用先验引导的选择性小波重构进行频率自适应:抑制噪声敏感频带,增强方向性结构和形状线索,稳定边界响应,同时保持频谱一致性
  • Result: 在CT和超声数据集上,LNG-SWR在干净Dice/IoU上获得一致提升,显著减少强攻击下的性能下降;与对抗训练结合可获得附加增益,且不牺牲干净精度
  • Conclusion: LNG-SWR为医学图像分割提供了一条简单、有效且工程友好的鲁棒性提升路径,适用于对抗训练和标准训练两种模式

[40] An Image Is Worth Ten Thousand Words: Verbose-Text Induction Attacks on VLMs

Zhi Luo,Zenghui Yuan,Wenqi Wei,Daizong Liu,Pan Zhou

Main category: cs.CV

TL;DR: 提出了一种新颖的冗长文本诱导攻击(VTIA),通过两阶段框架向良性图像注入难以察觉的对抗性扰动,以最大化视觉语言模型的输出令牌长度。

  • Motivation: 随着视觉语言模型在多模态任务上的成功应用,其部署效率问题日益突出。现有方法仅延迟EOS令牌出现来隐式延长输出,缺乏稳定性和可控性,无法直接最大化输出令牌长度作为显式优化目标。
  • Method: 采用两阶段框架:1) 对抗性提示搜索,使用强化学习策略自动识别能诱导LLM产生冗长输出的对抗性提示;2) 视觉对齐扰动优化,在输入图像上构建对抗样本,最大化扰动图像视觉嵌入与对抗性提示的相似性。
  • Result: 在四个流行视觉语言模型上的综合实验表明,该方法在有效性、效率和泛化能力方面具有显著优势。
  • Conclusion: 提出的VTIA方法能够有效诱导视觉语言模型产生冗长输出,为解决模型部署效率问题提供了新的攻击视角。

[41] EvoVLA: Self-Evolving Vision-Language-Action Model

Zeting Liu,Zida Yang,Zeyu Zhang,Hao Tang

Main category: cs.CV

TL;DR: EvoVLA是一个自监督的视觉-语言-动作框架,通过阶段对齐奖励、基于姿态的对象探索和长时程记忆三个组件,解决了VLA模型在长时程机器人操作中的阶段幻觉问题,显著提升了任务成功率和样本效率。

  • Motivation: 当前VLA模型在长时程机器人操作中存在阶段幻觉问题,即智能体利用粗糙的评估信号来走捷径完成多步任务,报告高进度但未真正完成任务。
  • Method: 1. 阶段对齐奖励:使用三元组对比学习和Gemini生成的困难负样本来防止视觉捷径;2. 基于姿态的对象探索:将好奇心基于相对对象-夹爪姿态而非原始像素;3. 长时程记忆:使用选择性上下文保留和门控融合来稳定扩展回合中的内在塑造。
  • Result: 在Discoverse-L长时程操作基准测试中,EvoVLA将平均任务成功率提高了10.2个百分点,达到69.2%,样本效率提高1.5倍,阶段幻觉从38.5%降低到14.8%。在真实机器人部署中,平均成功率达到54.6%,比OpenVLA-OFT高出11个百分点。
  • Conclusion: EvoVLA有效解决了VLA模型中的阶段幻觉问题,实现了从模拟到真实环境的有效迁移和强泛化能力,在长时程机器人操作任务中表现出色。

[42] Target Refocusing via Attention Redistribution for Open-Vocabulary Semantic Segmentation: An Explainability Perspective

Jiahao Li,Yang Lu,Yachao Zhang,Yong Xie,Fangyong Wang,Yuan Xie,Yanyun Qu

Main category: cs.CV

TL;DR: 提出RF-CLIP方法,通过模拟人类注意力分散-重聚焦行为,过滤CLIP中的干扰标记,提升密集预测性能,在八个基准测试中达到最先进水平。

  • Motivation: 现有方法很少从可解释性机制角度研究CLIP在密集预测中的性能边界,发现CLIP会将大量注意力资源从目标区域转移到无关标记,类似于人类注意力分散现象。
  • Method: 提出训练无关的RF-CLIP方法,通过识别和过滤维度特定过度激活产生的干扰标记,将注意力从干扰标记重新聚焦到目标区域,从而改进CLIP的多模态对齐粒度。
  • Result: 在八个基准测试中达到最先进性能,同时保持高推理效率。
  • Conclusion: 通过模拟人类注意力重聚焦行为,可以有效提升CLIP在开放词汇语义分割中的密集预测能力,为多模态对齐提供了新的视角。

[43] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Yi Yang,Xueqi Li,Yiyang Chen,Jin Song,Yihan Wang,Zipeng Xiao,Jiadi Su,You Qiaoben,Pengfei Liu,Zhijie Deng

Main category: cs.CV

TL;DR: Mantis是一个新颖的视觉-语言-动作框架,通过解耦视觉预测来提升模型性能,在LIBERO基准测试中达到96.7%的成功率,超越了现有基线模型。

  • Motivation: 现有VLA模型直接预测高维视觉状态会分散模型容量且训练成本高昂,而压缩视觉状态又会造成信息瓶颈。同时,这些方法往往忽视语言监督,导致理解和推理能力不足。
  • Method: 提出解耦视觉预测(DVF),使用元查询和扩散Transformer头部将视觉预测与主干网络解耦,通过残差连接提供当前视觉状态,使用简单的下一状态预测目标让元查询自动捕捉描述视觉轨迹的潜在动作。
  • Result: 在人类操作视频、机器人演示和图像-文本对上进行预训练后,在LIBERO基准测试中达到96.7%的成功率,收敛速度快,在真实世界评估中超越π_{0.5}模型,在指令跟随、泛化到未见指令和推理能力方面表现优异。
  • Conclusion: Mantis通过解耦视觉预测有效减轻了VLA主干网络的负担,使其能够通过语言监督保持理解和推理能力,在多个任务上表现出色。

[44] Domain-Shared Learning and Gradual Alignment for Unsupervised Domain Adaptation Visible-Infrared Person Re-Identification

Nianchang Huang,Yi Xu,Ruida Xi,Ruida Xi,Qiang Zhang

Main category: cs.CV

TL;DR: 提出了一种名为DSLGA的两阶段无监督域自适应可见光-红外行人重识别方法,通过域共享学习和渐进对齐策略解决跨域和跨模态差异问题,在多个设置下显著优于现有方法。

  • Motivation: 现有VI-ReID算法在公共数据集上表现良好,但由于公共数据与现实数据存在差异,在实际应用中表现不佳。需要开发无监督域自适应方法,在不依赖新样本标注的情况下将知识从公共数据迁移到现实数据。
  • Method: 设计了两阶段DSLGA模型:1) 预训练阶段使用域共享学习策略(DSLS)缓解域间模态差异;2) 微调阶段使用渐进对齐策略(GAS)通过聚类到整体的方式处理域内跨模态对齐挑战。
  • Result: 大量实验表明,该方法在各种设置下显著优于现有的VI-ReID域自适应方法,甚至超过了一些监督学习方法。
  • Conclusion: 提出的DSLGA方法通过域共享学习和渐进对齐策略有效解决了UDA-VI-ReID中的跨域和跨模态差异问题,为实际应用提供了可行的解决方案。

[45] PrIntMesh: Precise Intersection Surfaces for 3D Organ Mesh Reconstruction

Deniz Sayin Mercadier,Hieu Le,Yihong Chen,Jiancheng Yang,Udaranga Wickramasinghe,Pascal Fua

Main category: cs.CV

TL;DR: PrIntMesh是一个基于模板的拓扑保持框架,能够将器官重建为统一系统,通过联合变形所有子结构来匹配患者特定解剖结构,同时保持内部边界和平滑表面。

  • Motivation: 人类器官由相互连接的子结构组成,其几何形状和空间关系相互制约。现有深度学习方法通常独立处理这些部分,导致解剖学上不合理的重建结果。
  • Method: 从连接的模板开始,PrIntMesh联合变形所有子结构以匹配患者特定解剖结构,明确保持内部边界并强制生成平滑、无伪影的表面。
  • Result: 在心脏、海马体和肺部验证了有效性,实现了高几何精度、正确拓扑结构,即使在有限或嘈杂的训练数据下也能保持稳健性能。
  • Conclusion: 与基于体素和表面的方法相比,PrIntMesh能更好地重建共享界面,保持结构一致性,并提供适合临床使用的数据高效解决方案。

[46] When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models

Yuping Yan,Yuhan Xie,Yinxin Zhang,Lingjuan Lyu,Yaochu Jin

Main category: cs.CV

TL;DR: VLA-Fool:首个针对具身视觉-语言-动作模型的多模态对抗鲁棒性研究,揭示了在黑白盒设置下多模态扰动会导致显著行为偏差

  • Motivation: 现有研究主要关注单模态扰动,忽视了影响具身推理和决策的跨模态错位问题,而VLA模型的对抗鲁棒性在现实多模态和黑盒条件下尚未充分探索
  • Method: VLA-Fool统一了三种多模态对抗攻击:文本扰动(基于梯度和提示操作)、视觉扰动(补丁和噪声扭曲)、跨模态错位攻击(破坏感知与指令间的语义对应),并开发了首个自动构建的语义引导提示框架
  • Result: 在LIBERO基准测试中使用微调的OpenVLA模型进行实验,发现即使轻微的多模态扰动也会导致显著的行为偏差,证明了具身多模态对齐的脆弱性
  • Conclusion: 该研究揭示了VLA模型在多模态对抗攻击下的脆弱性,强调了在具身环境中确保多模态鲁棒性的重要性

[47] Unsupervised Image Classification with Adaptive Nearest Neighbor Selection and Cluster Ensembles

Melih Baydar,Emre Akbas

Main category: cs.CV

TL;DR: ICCE提出了一种通过聚类集成改进无监督图像分类的方法,在多个基准数据集上达到最先进性能,是首个在ImageNet上超过70%准确率的完全无监督方法

  • Motivation: 当前无监督图像分类方法主要关注聚类而忽略了表示学习,本文旨在通过聚类集成策略提升聚类性能
  • Method: 使用多聚类头在冻结骨干网络上训练产生多样化聚类结果,然后通过聚类集成技术整合这些结果形成共识聚类,最后用共识聚类作为伪标签训练图像分类器
  • Result: 在10个图像分类基准上达到最先进性能:CIFAR10 99.3%、CIFAR100 89%、ImageNet 70.4%,缩小了与有监督方法的性能差距
  • Conclusion: ICCE证明了通过聚类集成策略可以有效提升无监督图像分类性能,是首个在ImageNet上超过70%准确率的完全无监督方法

[48] Can MLLMs Read the Room? A Multimodal Benchmark for Assessing Deception in Multi-Party Social Interactions

Caixin Kang,Yifei Huang,Liangyang Ouyang,Mingfang Zhang,Ruicong Liu,Yoichi Sato

Main category: cs.CV

TL;DR: 本文提出了多模态交互欺骗评估任务(MIDA)和数据集,评估了12个先进MLLMs在识别社交欺骗方面的表现,发现即使GPT-4o等强大模型也难以可靠区分真假。作者设计了SoCoT推理管道和DSEM模块来改进性能。

  • Motivation: 现有最先进的多模态大语言模型缺乏人类智能的核心能力:在复杂社交互动中'读懂房间'和评估欺骗的能力。
  • Method: 引入MIDA任务和包含同步视频文本及可验证标签的新数据集,建立基准评估12个MLLMs。设计了Social Chain-of-Thought推理管道和Dynamic Social Epistemic Memory模块。
  • Result: 发现显著性能差距:即使强大模型也难以可靠区分真假。失败模式分析显示模型无法有效将语言与多模态社交线索关联,缺乏建模他人知识、信念或意图的能力。
  • Conclusion: 需要新方法来构建更具洞察力和可信度的AI系统。提出的SoCoT和DSEM框架在挑战性任务上带来性能提升,展示了构建具有真正类人社交推理能力的MLLMs的新路径。

[49] SwiTrack: Tri-State Switch for Cross-Modal Object Tracking

Boyue Xu,Ruichao Hou,Tongwei Ren,Dongming Zhou,Gangshan Wu,Jinde Cao

Main category: cs.CV

TL;DR: 提出SwiTrack框架,通过三个专用流处理跨模态目标跟踪问题,在RGB-NIR跟踪中实现最先进性能,精度和成功率分别提升7.2%和4.3%,同时保持65fps实时跟踪。

  • Motivation: 现有方法将RGB和NIR分支连接到共享主干网络,限制了模态特定特征的全面提取,无法解决目标漂移问题,特别是在不可靠输入情况下。
  • Method: 部署三个专用流:视觉编码器处理RGB帧;NIR门控适配器结合视觉编码器精炼NIR帧;一致性轨迹预测模块利用时空线索估计目标运动。还包含动态模板重建和相似性对齐损失。
  • Result: 在最新基准测试中达到最先进性能,精度率和成功率分别提升7.2%和4.3%,同时保持65fps实时跟踪。
  • Conclusion: SwiTrack通过状态切换框架重新定义跨模态目标跟踪,能够有效提取模态特定特征并缓解目标漂移问题,在RGB-NIR跟踪中表现出色。

[50] Mem-MLP: Real-Time 3D Human Motion Generation from Sparse Inputs

Sinan Mutlu,Georgios F. Angelis,Savas Ozkan,Paul Wisbey,Anastasios Drosou,Mete Ozay

Main category: cs.CV

TL;DR: 提出一种基于MLP和Memory-Block的神经网络方法,用于从稀疏传感器输入生成完整的全身运动,在AR/VR应用中实现高精度实时跟踪。

  • Motivation: 现有AR/VR系统主要通过头戴设备和控制器跟踪头部和手部,导致3D全身重建不完整,需要从有限传感器输入生成完整的全身运动。
  • Method: 使用多层感知机(MLP)作为主干网络,增强残差连接和新型Memory-Block组件,通过可训练代码向量表示缺失传感器数据,并与先前时间实例的稀疏信号结合以提高时间一致性。采用多任务学习框架。
  • Result: 实验表明该方法显著优于现有基线方法,大幅减少预测误差,在移动头戴设备上达到72 FPS,改善了精度与运行时间的权衡。
  • Conclusion: 提出的MLP+Memory-Block方法能够有效从稀疏传感器输入生成准确且时间一致的全身运动,为AR/VR应用提供高质量的实时全身跟踪解决方案。

[51] TetraSDF: Precise Mesh Extraction with Multi-resolution Tetrahedral Grid

Seonghun Oh,Youngjung Uh,Jin-Hwa Kim

Main category: cs.CV

TL;DR: TetraSDF是一个精确的解析网格提取框架,用于神经符号距离函数(SDFs),通过结合ReLU MLP和多分辨率四面体位置编码器,实现高精度的等值面网格提取。

  • Motivation: 现有方法在提取神经SDF的零等值面网格时存在挑战:基于采样的方法引入离散化误差,而连续分段仿射解析方法仅适用于普通ReLU MLPs。
  • Method: 使用ReLU MLP与多分辨率四面体位置编码器组合表示SDF,编码器的重心插值保持全局CPWA结构,允许在编码器诱导的多面体复合体中跟踪ReLU线性区域,并采用固定解析输入预处理器减少方向偏差。
  • Result: 在多个基准测试中,TetraSDF在SDF重建精度上匹配或超越现有基于网格的编码器,其解析提取器产生高度自一致的网格,忠实于学习到的等值面,同时具有实用的运行时间和内存效率。
  • Conclusion: TetraSDF提供了一个精确且高效的解析网格提取解决方案,解决了神经SDF精确等值面提取的挑战。

[52] Building temporally coherent 3D maps with VGGT for memory-efficient Semantic SLAM

Gergely Dinya,Péter Halász,András Lőrincz,Kristóf Karacs,Anna Gelencsér-Horváth

Main category: cs.CV

TL;DR: 提出基于Vision Gated Generative Transformers的快速时空场景理解框架,支持接近实时的辅助导航应用,通过滑动窗口处理图像流来更新3D场景表示。

  • Motivation: 解决VGGT高内存需求问题,实现连续3D场景更新,支持辅助导航等实时应用场景。
  • Method: 使用滑动窗口处理图像流并对齐子地图,利用VGGT跟踪头将2D语义实例掩码聚合为3D对象,存储时间戳和实例级身份以实现时间一致性和上下文推理。
  • Result: 在知名基准测试和专门设计的辅助导航数据集上评估,结果显示该框架适用于现实世界场景。
  • Conclusion: 该框架能够有效实现时空场景理解,支持实时辅助导航应用,具有实际应用价值。

[53] Explainable AI for Diabetic Retinopathy Detection Using Deep Learning with Attention Mechanisms and Fuzzy Logic-Based Interpretability

Abishek Karthik,Pandiyaraju V,Sreya Mynampati

Main category: cs.CV

TL;DR: 提出了一种混合深度学习框架用于杂草检测,结合CNN、ViT和GNN,通过GAN增强和自监督对比预训练,在多个基准数据集上达到99.33%的准确率。

  • Motivation: 精准农业需要准确的杂草物种识别,以选择性施用除草剂并实现可持续农业管理。
  • Method: 使用CNN、ViT和GNN构建混合框架,采用GAN增强平衡类别分布,自监督对比预训练从有限标注数据中学习更多特征。
  • Result: 在多个基准数据集上获得99.33%的准确率、精确率、召回率和F1分数。
  • Conclusion: 该框架能够实现局部、全局和关系特征表示,具有高可解释性和适应性,可部署到边缘设备进行实时杂草检测,减少除草剂依赖,提供可扩展的精准农业解决方案。

[54] Optimizing 3D Gaussian Splattering for Mobile GPUs

Md Musfiqur Rahman Sanim,Zhihao Shu,Bahram Afsharmanesh,AmirAli Mirian,Jiexiong Guan,Wei Niu,Bin Ren,Gagan Agrawal

Main category: cs.CV

TL;DR: Texture3dgs是一个针对移动GPU优化的3D高斯泼溅(3DGS)实现,通过新颖的排序算法和内存优化,在移动设备上实现了显著的性能提升和内存节省。

  • Motivation: 考虑到移动设备部署的优势(数据隐私、无需网络连接、响应更快),将3DGS高效映射到移动GPU上,特别针对2D纹理缓存进行优化。
  • Method: 开发了针对2D内存优化的新型排序算法,改进变量布局设计,并实施其他优化措施来加速3DGS算法的各个步骤。
  • Result: 端到端评估显示,Texture3dgs在排序方面实现了4.1倍加速,整体3D场景重建实现了1.7倍加速,同时内存使用减少了1.6倍。
  • Conclusion: 该设计证明了在移动设备上实现高效3D场景重建的有效性,为移动端3D重建应用提供了实用的解决方案。

[55] Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling

Minseok Seo,Mark Hamilton,Changick Kim

Main category: cs.CV

TL;DR: Upsample Anything是一个轻量级的测试时优化框架,无需训练即可将低分辨率特征恢复为高分辨率像素级输出,通过各向异性高斯核结合空间和范围线索实现边缘感知的上采样。

  • Motivation: 视觉基础模型的表示通常被下采样14x/16x,限制了在像素级应用中的直接使用。现有的特征上采样方法依赖于数据集特定的重训练或繁重的隐式优化,限制了可扩展性和泛化性。
  • Method: 通过简单的每图像优化学习各向异性高斯核,结合空间和范围线索,有效连接高斯泼溅和联合双边上采样。学习到的核作为通用的边缘感知算子,可在架构和模态间无缝转移。
  • Result: 在224x224图像上仅需约0.419秒运行时间,在语义分割、深度估计以及深度和概率图上采样方面达到最先进性能。
  • Conclusion: Upsample Anything提供了一种高效、通用的特征上采样解决方案,无需训练即可实现高分辨率重建,具有良好的可扩展性和跨任务泛化能力。

[56] Sparse Autoencoders are Topic Models

Leander Girrbach,Zeynep Akata

Main category: cs.CV

TL;DR: 该论文提出稀疏自编码器(SAE)可被视为主题模型的新视角,并开发了SAE-TM框架用于跨模态的大规模主题分析。

  • Motivation: 稀疏自编码器在嵌入分析中的作用和实际价值存在争议,作者希望为其提供新的理论解释和应用框架。
  • Method: 将潜在狄利克雷分配扩展到嵌入空间,推导出SAE目标作为最大后验估计器,并开发SAE-TM框架学习可重用的主题原子。
  • Result: SAE-TM在文本和图像数据集上比强基线产生更连贯的主题,同时保持多样性,并能分析图像数据集的主题结构和追踪主题随时间的变化。
  • Conclusion: 该工作将SAE定位为跨模态大规模主题分析的有效工具,为SAE提供了新的理论基础和应用价值。

[57] BioBench: A Blueprint to Move Beyond ImageNet for Scientific ML Benchmarks

Samuel Stevens

Main category: cs.CV

TL;DR: BioBench是一个新的生态视觉基准测试,替代ImageNet-1K来评估视觉模型在科学图像上的表现,包含9个任务、4个生物分类界、6种采集模态的310万张图像。

  • Motivation: ImageNet-1K线性探测准确率作为视觉表示质量的默认代理指标,在科学图像上不再能预测性能表现,需要更合适的评估基准。
  • Method: BioBench统一了46个现代视觉模型检查点,在9个公开的生态任务上进行评估,使用单个Python API下载数据、拟合轻量级分类器到冻结骨干网络,报告类别平衡的宏F1分数。
  • Result: 在生态任务上,ImageNet top-1准确率仅能解释34%的方差,且在75%以上准确率时错误排名30%的模型。BioBench提供了新的信号来评估计算机视觉在生态学中的应用。
  • Conclusion: BioBench为生态学中的计算机视觉提供了新的评估标准,并为在任何领域构建可靠的AI-for-science基准测试提供了模板方法。

[58] NaTex: Seamless Texture Generation as Latent Color Diffusion

Zeqiang Lai,Yunfei Zhao,Zibo Zhao,Xin Yang,Xin Huang,Jingwei Huang,Xiangyu Yue,Chunchao Guo

Main category: cs.CV

TL;DR: NaTex是一个原生纹理生成框架,直接在3D空间中预测纹理颜色,避免了传统多视图扩散模型在遮挡区域处理、网格纹理对齐和跨视图一致性方面的限制。

  • Motivation: 解决传统基于多视图扩散模型的纹理生成方法在处理遮挡区域、实现精确网格纹理对齐以及保持跨视图一致性和颜色强度连贯性方面的固有局限性。
  • Method: 提出将纹理视为密集颜色点云的新范式,包含几何感知的颜色点云VAE和多控制扩散变换器(DiT),通过原生几何控制将3D空间信息直接嵌入到DiT中,并采用紧密耦合的VAE-DiT架构。
  • Result: NaTex在纹理连贯性和对齐方面显著优于先前方法,并展现出强大的泛化能力,可应用于材质生成、纹理细化和部件分割与纹理化等下游任务。
  • Conclusion: NaTex通过原生3D纹理生成方法有效解决了传统2D多视图方法的局限性,在纹理质量和应用泛化方面都表现出色。

[59] WWE-UIE: A Wavelet & White Balance Efficient Network for Underwater Image Enhancement

Ching-Heng Cheng,Jen-Wei Lee,Chia-Ming Lee,Chih-Chung Hsu

Main category: cs.CV

TL;DR: WWE-UIE是一个紧凑高效的水下图像增强网络,通过集成自适应白平衡、小波增强块和梯度感知模块三个可解释先验,在保持竞争性恢复质量的同时大幅减少参数和计算量,实现资源受限平台上的实时推理。

  • Motivation: 现有混合方法虽然性能强大但计算成本高,限制了在实时场景中的实用性。需要开发既高效又能保持良好恢复质量的水下图像增强方法。
  • Method: 提出WWE-UIE网络,集成三个可解释先验:1)自适应白平衡缓解波长相关颜色衰减;2)小波增强块进行多频带分解,捕捉全局结构和精细纹理;3)梯度感知模块使用可学习门控Sobel算子显式保护边缘结构。
  • Result: 在基准数据集上的广泛实验表明,WWE-UIE以显著更少的参数和FLOPs实现了竞争性的恢复质量,能够在资源受限平台上进行实时推理。消融研究和可视化进一步验证了各组件贡献。
  • Conclusion: WWE-UIE通过集成可解释先验,成功平衡了恢复质量和计算效率,为水下图像增强在实时应用中的部署提供了可行解决方案。

[60] ChangeDINO: DINOv3-Driven Building Change Detection in Optical Remote Sensing Imagery

Ching-Heng Cheng,Chih-Chung Hsu

Main category: cs.CV

TL;DR: ChangeDINO是一个用于光学建筑变化检测的多尺度Siamese框架,融合轻量级骨干网络和冻结DINOv3特征,通过空间-光谱差分变换器解码器和可学习形态学模块,在四个公共基准测试中优于现有方法。

  • Motivation: 现有基于深度学习的遥感变化检测方法仅依赖变化图标注,未充分利用非变化区域的语义信息,导致在光照变化、离天底视角和标签稀缺情况下鲁棒性不足。
  • Method: 提出端到端多尺度Siamese框架:1)融合轻量级骨干和冻结DINOv3特征构建语义丰富的特征金字塔;2)使用空间-光谱差分变换器解码器利用多尺度绝对差异作为变化先验;3)可学习形态学模块细化上采样logits恢复清晰边界。
  • Result: 在四个公共基准测试中,ChangeDINO在IoU和F1指标上持续优于最新方法,消融研究证实了每个组件的有效性。
  • Conclusion: ChangeDINO通过有效利用语义信息和多尺度特征,显著提升了建筑变化检测的准确性和鲁棒性,特别是在挑战性条件下表现优异。

[61] Arbitrary-Resolution and Arbitrary-Scale Face Super-Resolution with Implicit Representation Networks

Yi Ting Tsai,Yu Wei Chen,Hong-Han Shuai,Ching-Chun Huang

Main category: cs.CV

TL;DR: 提出ARASFSR方法,实现任意分辨率和任意尺度的人脸超分辨率,通过隐式表示网络解决现有方法固定上采样比例和对输入尺寸敏感的问题。

  • Motivation: 现有的人脸超分辨率方法受限于固定的上采样比例和对输入尺寸变化的敏感性,需要一种更灵活的方法来处理不同分辨率和尺度的超分辨率任务。
  • Method: 使用2D深度特征、局部相对坐标和上采样比例来预测每个目标像素的RGB值;引入局部频率估计模块捕获高频纹理信息;采用全局坐标调制模块利用先验人脸结构知识。
  • Result: 定量和定性评估表明ARASFSR在多种输入尺寸和上采样比例下都优于现有最先进方法,展现出更强的鲁棒性。
  • Conclusion: ARASFSR方法成功解决了人脸超分辨率中的任意分辨率和任意尺度问题,为实际应用提供了更灵活有效的解决方案。

[62] Aerial View River Landform Video segmentation: A Weakly Supervised Context-aware Temporal Consistency Distillation Approach

Chi-Han Chen,Chieh-Ming Chen,Wen-Huang Cheng,Ching-Chun Huang

Main category: cs.CV

TL;DR: 该研究提出了一种基于师生架构的弱监督学习方法,用于无人机遥感中的地形和地貌分类任务,仅需30%标注数据即可同时提升mIoU和时序一致性。

  • Motivation: 解决无人机遥感中数据标注复杂、时序一致性难以保证、相关数据稀缺以及技术有效范围受限等问题,特别是在空中定位任务中需要同时关注mIoU和时序一致性指标。
  • Method: 采用师生架构,结合关键帧选择和关键帧更新算法,实现弱监督学习和时序一致性知识蒸馏,克服传统时序一致性训练在航空任务中的不足。
  • Result: 实验结果表明,仅使用30%标注数据的方法能够同时提升mIoU和时序一致性,确保地形物体的稳定定位。
  • Conclusion: 提出的框架成功解决了航空任务中时序一致性训练的缺陷,证明了关键数据选择的重要性,为无人机遥感地形分类提供了有效的弱监督学习方案。

[63] CRISTAL: Real-time Camera Registration in Static LiDAR Scans using Neural Rendering

Joni Vanherck,Steven Moonen,Brent Zoomers,Kobe Werner,Jeroen Put,Lode Jorissen,Nick Michiels

Main category: cs.CV

TL;DR: 提出了一种基于预捕获彩色LiDAR点云的实时相机定位方法,通过神经渲染技术缩小合成视图与真实图像之间的域差距,实现无漂移、正确度量尺度的相机跟踪。

  • Motivation: 现有视觉定位方法存在漂移、尺度模糊问题,且依赖标记物或闭环检测,需要一种更可靠的相机定位方法。
  • Method: 从预捕获的LiDAR点云渲染合成视图,建立实时帧与点云的2D-3D对应关系;使用神经渲染技术减少合成与真实图像间的域差距;提出两种实时变体:在线渲染匹配和预构建定位。
  • Result: 在ScanNet++数据集上表现出改进效果,优于现有SLAM流程,实现无漂移的相机跟踪和正确的度量尺度。
  • Conclusion: 该方法能够实现精确的相机定位,为机器人和XR应用提供可靠的导航和虚实内容对齐能力。

[64] Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Zhengxue Wang,Zhiqiang Yan,Yuan Wu,Guangwei Gao,Xiang Li,Jian Yang

Main category: cs.CV

TL;DR: 提出MOMNet框架,解决RGB-D数据不对齐问题,通过多阶匹配机制自适应选择RGB信息进行深度超分辨率重建

  • Motivation: 现实场景中RGB-D数据往往存在不对齐问题,现有方法在不对齐场景下性能下降严重,需要开发对齐无关的深度超分辨率方法
  • Method: 使用多阶匹配机制(零阶、一阶、二阶匹配)在特征空间中识别与深度一致的RGB信息,并通过多阶聚合结构检测器选择性融合特征
  • Result: 在广泛实验中表现出最先进的性能,并具有出色的鲁棒性
  • Conclusion: MOMNet能够有效处理不对齐的RGB-D数据,实现高质量的深度重建,在真实场景中具有很好的实用性

[65] DetailSemNet: Elevating Signature Verification through Detail-Semantic Integration

Meng-Cheng Shih,Tsai-Ling Huang,Yu-Heng Shih,Hong-Han Shuai,Hsuan-Tung Liu,Yi-Ren Yeh,Ching-Chun Huang

Main category: cs.CV

TL;DR: 提出DetailSemNet模型用于离线签名验证,强调细粒度差异和局部结构匹配,通过细节语义集成器增强细节和判别语义,在多个基准测试中达到最先进性能。

  • Motivation: 现有方法依赖整体特征进行配对比较,而细粒度差异对于鲁棒的离线签名验证至关重要,且基于transformer的骨干网络可能自然模糊局部细节。
  • Method: 提出DetailSemNet模型,通过局部结构匹配和细节语义集成器(利用特征解缠和重缠)来增强细节并扩展判别语义。
  • Result: 在离线签名验证基准测试中始终优于最新方法,以明显优势达到最先进结果,在跨数据集测试中表现出出色的泛化能力。
  • Conclusion: 强调局部结构匹配不仅提高了性能,还增强了模型的可解释性,结合泛化性和可解释性显著增强了DetailSemNet在实际应用中的潜力。

[66] CAMS: Towards Compositional Zero-Shot Learning via Gated Cross-Attention and Multi-Space Disentanglement

Pan Yang,Cheng Deng,Jing Yang,Han Zhao,Yun Liu,Yuling Chen,Xiaoli Ruan,Yanping Chen

Main category: cs.CV

TL;DR: CAMS提出了一种基于CLIP的组成式零样本学习方法,通过门控交叉注意力机制和多空间解缠来提升对未见属性-对象组合的泛化能力。

  • Motivation: 现有的CLIP-based CZSL方法主要依赖图像编码器获得的全局语义表示,但这种表示能力有限,无法完全解缠属性和对象语义。
  • Method: 设计门控交叉注意力机制从CLIP高层图像编码块中捕获细粒度语义特征,并通过多空间解缠实现属性和对象语义的分离。
  • Result: 在MIT-States、UT-Zappos和C-GQA三个基准测试中,CAMS在闭集和开集设置下均达到了最先进的性能。
  • Conclusion: CAMS通过语义特征提取和多空间解缠有效提升了组成式零样本学习的性能,证明了该方法在解缠属性和对象语义方面的有效性。

[67] End-to-End Motion Capture from Rigid Body Markers with Geodesic Loss

Hai Lan,Zongyan Li,Jianmin Hu,Jialing Yang,Houde Dai

Main category: cs.CV

TL;DR: 提出了一种基于刚性标记体(RBM)的新型光学动作捕捉方法,通过稀疏6自由度标记和基于流形感知的测地损失深度学习模型,实现了实时高精度的SMPL参数估计。

  • Motivation: 传统基于标记的光学动作捕捉系统依赖密集标记配置,存在准备时间过长和标记识别模糊等实际问题,限制了其可扩展性。
  • Method: 引入刚性标记体(RBM)作为基本单元提供明确的6自由度数据,开发基于深度学习的回归模型,在测地损失下直接估计SMPL参数,使用AMASS数据集合成数据进行训练。
  • Result: 端到端方法在保持优化方法性能的同时,计算量减少一个数量级以上,在身体姿态估计方面达到最先进精度,Vicon系统实际数据验证了方法的实用性。
  • Conclusion: 稀疏6自由度RBM与流形感知测地损失相结合,为图形学、虚拟现实和生物力学中的实时动作捕捉提供了实用且高保真的解决方案。

[68] CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation

Samer Abualhanud,Christian Grannemann,Max Mehltretter

Main category: cs.CV

TL;DR: 提出了一种几何引导的自监督环视深度估计方法,通过将多相机图像投影到共享圆柱体上实现跨视图一致的深度预测

  • Motivation: 解决现有自监督环视深度估计方法在重叠图像间深度估计不一致的问题
  • Method: 使用校准的多相机系统,首先预测每张图像的深度图,然后将3D点投影到共享圆柱体上建立跨图像邻域关系,基于位置图应用非学习的空间注意力机制聚合跨图像特征
  • Result: 在DDAD和nuScenes数据集上评估,相比现有方法提高了跨图像深度估计的一致性和整体深度质量
  • Conclusion: 该方法能够预测密集、度量且跨视图一致的深度,显著改善了环视深度估计的性能

[69] Graph Neural Networks for Surgical Scene Segmentation

Yihan Li,Nikhil Churamani,Maria Robu,Imanol Luengo,Danail Stoyanov

Main category: cs.CV

TL;DR: 提出两种结合Vision Transformer和Graph Neural Networks的图基分割模型,用于提高腹腔镜胆囊切除术中肝胆囊解剖结构的识别准确性,在遮挡、长距离依赖和精细几何结构分割方面表现优异。

  • Motivation: 深度学习模型在手术场景分析中难以处理遮挡、长距离依赖和罕见结构的精细几何特征,需要增强空间和语义理解能力。
  • Method: 提出两种分割模型:1)静态k-NN图与GCNII结合,实现稳定的长距离信息传播;2)动态可微分图生成器与GAT结合,支持自适应拓扑学习。两种模型都在Endoscapes-Seg50和CholecSeg8k基准上评估。
  • Result: 在mIoU和mDice指标上分别比最先进基线方法提升7-8%和6%,特别是在细薄、罕见和安全关键结构上产生解剖学一致的预测。
  • Conclusion: 图基分割方法提高了手术场景分割的性能和解剖一致性,通过结合ViT的全局上下文和图基关系推理,增强了模型的可解释性和可靠性,为更安全的腹腔镜和机器人辅助手术铺平道路。

[70] Beyond Visual Cues: Leveraging General Semantics as Support for Few-Shot Segmentation

Jin Wang,Bingfeng Zhang,Jian Pang,Mengyu Liu,Honglong Chen,Weifeng Liu

Main category: cs.CV

TL;DR: 本文提出了一种语言驱动的属性泛化(LDAG)架构,通过利用目标类别的固有属性语言描述来构建鲁棒的支持策略,以解决少样本分割中由于类内变化导致的支持图像参考不准确的问题。

  • Motivation: 现有少样本分割方法主要从支持图像中挖掘参考作为元指导,但由于视觉表示的类内变化,从支持图像提取的元信息无法为未训练类别提供准确指导。作者认为支持图像的参考可能不是必需的,关键是为训练和未训练类别提供无偏的元指导。
  • Method: 提出LDAG架构,包含多属性增强(MaE)模块和多模态属性对齐(MaA)模块。MaE通过大语言模型生成目标类别的多个详细属性描述,构建精细的视觉-文本先验指导;MaA实现属性文本与视觉特征的跨模态交互。
  • Result: 实验表明,所提方法明显优于现有方法,达到了新的最先进性能。
  • Conclusion: 利用语言描述构建无偏支持表示比依赖支持图像参考更有效,多模态属性对齐能够解决文本-视觉模态差异问题,提升少样本分割性能。

[71] StreetView-Waste: A Multi-Task Dataset for Urban Waste Management

Diogo J. Paulo,João Martins,Hugo Proença,João C. Neves

Main category: cs.CV

TL;DR: 提出了StreetView-Waste数据集,用于城市垃圾管理中的垃圾箱检测、跟踪和溢流分割任务,并通过基准测试和改进策略提升了性能。

  • Motivation: 现有垃圾检测数据集缺乏针对垃圾箱跟踪的标注,且多为静态环境拍摄,限制了在真实物流场景中的应用。
  • Method: 创建包含垃圾和垃圾箱的城市场景数据集,提供三个任务的基准测试,并提出基于启发式的垃圾箱跟踪改进方法和利用几何先验的模型无关分割框架。
  • Result: 微调的目标检测器在垃圾箱检测上表现良好,但基线跟踪方法在数量估计上表现不佳;提出的启发式方法将平均绝对计数误差降低了79.6%;几何感知策略在轻量模型上将分割mAP@0.5提高了27%。
  • Conclusion: StreetView-Waste为城市垃圾管理的真实感知系统研究提供了具有挑战性的基准数据集。

[72] VLA-Pruner: Temporal-Aware Dual-Level Visual Token Pruning for Efficient Vision-Language-Action Inference

Ziyan Liu,Yeqiu Chen,Hongyi Cai,Tao Lin,Shuo Yang,Zheng Liu,Bo Zhao

Main category: cs.CV

TL;DR: VLA-Pruner是一种针对视觉-语言-动作模型的专用令牌剪枝方法,通过双级重要性标准和自适应令牌选择策略,在保持语义理解和动作执行性能的同时显著提升计算效率。

  • Motivation: 现有的视觉-语言模型令牌剪枝方法仅基于语义显著性选择令牌,忽略了VLA模型的双系统特性(高层语义理解和低层动作执行),导致动作生成所需的关键信息被丢弃,性能显著下降。
  • Method: 提出双级重要性标准:视觉-语言预填充注意力用于语义级相关性,通过时间平滑估计的动作解码注意力用于动作级重要性。基于此标准设计自适应双级令牌选择策略,在给定计算预算下保留紧凑且信息丰富的视觉令牌集合。
  • Result: VLA-Pruner在多种VLA架构和多样化机器人任务上实现了最先进的性能,显著提升了计算效率。
  • Conclusion: VLA-Pruner通过考虑VLA模型的双系统特性和机器人操作的时间连续性,提供了一种高效且性能优越的令牌剪枝解决方案,适用于实时部署的具身AI应用。

[73] LLaVA3: Representing 3D Scenes like a Cubist Painter to Boost 3D Scene Understanding of VLMs

Doriand Petit,Steve Bourgeois,Vincent Gay-Bellile,Florian Chabot,Loïc Barthe

Main category: cs.CV

TL;DR: LLaVA³通过多视角2D图像提升VLM的3D场景理解能力,无需微调,在3D视觉问答和语言定位任务中表现优于现有2D方法。

  • Motivation: 由于3D训练数据有限,而2D数据集丰富,开发能够理解3D场景的多模态语言模型具有挑战性。
  • Method: 受立体派画家启发,通过中间多视角3D重建为每个对象生成全向视觉表示,用多视角2D图像描述3D场景。
  • Result: 在3D视觉问答和3D语言定位任务上的广泛实验表明,该方法优于之前的基于2D的VLM解决方案。
  • Conclusion: 仅使用多视角2D图像即可有效提升VLM的3D场景理解能力,无需额外微调。

[74] FastSurfer-CC: A robust, accurate, and comprehensive framework for corpus callosum morphometry

Clemens Pollak,Kersten Diers,Santiago Estrada,David Kügler,Martin Reuter

Main category: cs.CV

TL;DR: FastSurfer-CC是一个高效、全自动的胼胝体形态测量框架,能够自动识别中矢状面切片、分割胼胝体和穹窿,定位前后连合以标准化头部位置,生成厚度剖面和细分,并提取八种形状指标用于统计分析。

  • Motivation: 胼胝体是大脑中最大的连合结构,在衰老和神经系统疾病研究中至关重要,也是深部脑刺激等干预措施的关键靶点。尽管已有大量胼胝体分割研究,但缺乏提供全面自动化分析流程的公开工具。
  • Method: 开发了FastSurfer-CC框架,自动执行中矢状面切片识别、胼胝体和穹窿分割、前后连合定位、厚度剖面生成、细分划分,并提取八种形状指标。
  • Result: FastSurfer-CC在各项任务中优于现有专业工具,并且能够检测到亨廷顿病患者与健康对照组之间的统计学显著差异,而现有最先进方法无法检测到这些差异。
  • Conclusion: FastSurfer-CC提供了一个高效、全自动的胼胝体形态测量解决方案,在性能和临床检测能力方面优于现有工具,具有重要的研究和临床应用价值。

[75] Flow and Depth Assisted Video Prediction with Latent Transformer

Eliyas Suleyman,Paul Henderson,Eksan Firkat,Nicolas Pugeault

Main category: cs.CV

TL;DR: 该论文研究了在遮挡场景下的视频预测问题,提出通过引入点流(point-flow)和深度图(depth-maps)信息来提升模型在遮挡和背景运动情况下的预测性能。

  • Motivation: 尽管通用视频预测模型在标准场景中表现优异,但遮挡问题仍然是视频预测的内在挑战。作者假设提供明确的运动信息(通过点流)和几何结构信息(通过深度图)能够帮助模型在遮挡和背景运动情况下表现更好。
  • Method: 使用标准的多对象潜在变换器架构进行未来帧预测,但修改该架构以整合深度和点流信息。在合成和真实世界数据集上进行受控评估,不仅使用基于外观的指标,还使用对象掩码的Wasserstein距离来有效测量预测的运动分布。
  • Result: 研究发现,当预测模型辅助以点流和深度信息时,在遮挡场景下表现更好,并且相比不使用这些模态的模型,能够预测更准确的背景运动。
  • Conclusion: 明确引入运动信息和几何结构信息能够显著提升视频预测模型在遮挡场景下的性能,特别是在处理背景运动方面。

[76] Physics-Informed Machine Learning for Efficient Sim-to-Real Data Augmentation in Micro-Object Pose Estimation

Zongcai Tan,Lan Wei,Dandan Zhang

Main category: cs.CV

TL;DR: 提出了一种结合物理渲染和深度对齐的生成对抗网络框架,用于高效合成高保真显微镜图像,以解决微机器人姿态估计中真实数据获取困难的问题。

  • Motivation: 当前微机器人姿态估计方法严重依赖高质量显微镜图像数据集,但由于微机器人制造复杂和标注劳动密集,这些数据难以获取且成本高昂。现有数字孪生系统难以复现复杂的光学显微镜现象。
  • Method: 将基于波动光学的物理渲染和深度对齐集成到生成对抗网络中,创建物理信息深度生成学习框架来合成高保真显微镜图像。
  • Result: 相比纯AI驱动方法,结构相似性指数提高35.6%,同时保持实时渲染速度(0.022秒/帧)。使用合成数据训练的姿势估计器达到93.9%/91.9%(俯仰/滚转)准确率,仅比真实数据训练的估计器低5.0%/5.4%。
  • Conclusion: 该框架能够泛化到未见过的姿势,无需额外训练数据即可实现数据增强和对新型微机器人配置的鲁棒姿态估计。

[77] Acquisition Time-Informed Breast Tumor Segmentation from Dynamic Contrast-Enhanced MRI

Rui Wang,Yuexi Du,John Lewin,R. Todd Constable,Nicha C. Dvornek

Main category: cs.CV

TL;DR: 提出一种利用图像采集时间信息来改进乳腺DCE-MRI肿瘤分割的方法,通过FiLM层调制模型特征,提高分割性能和模型泛化能力。

  • Motivation: 乳腺DCE-MRI在癌症筛查和治疗中很重要,但不同采集协议和个体因素导致组织外观差异大,使自动肿瘤分割具有挑战性。
  • Method: 使用特征线性调制(FiLM)层将采集时间信息整合到模型中,根据特定采集序列调制模型特征,充分利用每个研究中的可变数量图像。
  • Result: 在域内和域外数据集上的评估表明,整合相位采集时间知识提高了肿瘤分割性能和模型泛化能力。
  • Conclusion: 利用图像采集时间信息可以有效改善乳腺DCE-MRI肿瘤分割,该方法具有轻量级且能处理可变数量图像的优势。

[78] YOWO: You Only Walk Once to Jointly Map An Indoor Scene and Register Ceiling-mounted Cameras

Fan Yang,Sosuke Yamao,Ikuo Kusajima,Atsunori Moteki,Shoichi Masui,Shan Jiang

Main category: cs.CV

TL;DR: 提出一种联合室内场景建图和天花板相机注册的新方法,通过移动代理设备同步采集数据,使用因子图优化实现两个任务的统一解决。

  • Motivation: 解决传统天花板相机注册方法效率低、成本高的问题,以及视觉定位在视觉模糊情况下的性能不佳问题。
  • Method: 使用配备头戴RGB-D相机的移动代理遍历场景,同步采集自我中心视频和天花板相机视频,构建因子图进行联合优化。
  • Result: 实验结果表明该方法不仅能有效完成两个任务,还能相互提升性能,为下游位置感知应用提供可靠工具。
  • Conclusion: 提出的统一框架成功解决了天花板相机注册和场景建图的联合优化问题,建立了该领域的首个基准数据集。

[79] BoxingVI: A Multi-Modal Benchmark for Boxing Action Recognition and Localization

Rahul Kumar,Vipul Baghel,Sudhanshu Singh,Bikash Kumar Badatya,Shivam Yadav,Babji Srinivasan,Ravi Hegde

Main category: cs.CV

TL;DR: 提出了一个专门用于拳击击打检测和分类的综合视频数据集,包含6,915个高质量击打片段,分为六种击打类型,来自20个YouTube对练视频,涉及18名运动员。

  • Motivation: 由于动作的动态性、非结构化特性以及录制环境的变化,开发鲁棒的数据集是计算机视觉分析格斗运动的主要瓶颈。
  • Method: 从20个公开的YouTube对练会话中提取击打片段,手动分割和标注以确保精确的时间边界和类别一致性,捕捉了各种动作风格、摄像机角度和运动员体型。
  • Result: 创建了一个包含6,915个高质量击打片段的数据集,分为六种不同的击打类型,为实时视觉动作识别研究提供了丰富的基准。
  • Conclusion: 该数据集旨在加速拳击及相关领域在运动分析、自动化教练和表现评估方面的进展,特别适用于低资源和不受约束环境的研究。

[80] Contrastive vision-language learning with paraphrasing and negation

Kwun Ho Ngan,Saman Sadeghi Afgeh,Joe Townsend,Artur d'Avila Garcez

Main category: cs.CV

TL;DR: SemCLIP是一种改进的CLIP模型,通过结合释义和否定处理,使用LLM生成的训练三元组(原始、释义和否定文本描述)来增强模型对语义变换的鲁棒性。

  • Motivation: 现有CLIP模型在处理否定和释义文本时表现不一致,因为否定会以最小词汇变化彻底改变含义,而释义可能产生完全不同但含义相同的表达,这给视觉语言模型的评估和对齐带来了挑战。
  • Method: 提出新的CLIP对比损失函数,考虑释义和否定因素;应用LLM生成的训练三元组(原始、释义和否定文本描述)进行CLIP类模型的训练;使释义描述靠近原始图像嵌入,同时将否定描述推离嵌入空间。
  • Result: 在CC-Neg基准测试中,图像检索准确率从68.1%提升至78.1%;在Sugarcrepe++基准测试中表现优于仅使用否定描述训练的模型;在下游零样本分类任务中,SemCLIP在所有测试任务上都优于CLIP。
  • Conclusion: SemCLIP能够显著提高对语义变换的鲁棒性,在保持CLIP性能的同时,大幅增加与否定描述的距离,表明该方法在增强视觉语言模型语义理解能力方面具有潜力。

[81] Enhancing Multi-Camera Gymnast Tracking Through Domain Knowledge Integration

Fan Yang,Shigeyuki Odashima,Shoichi Masui,Ikuo Kusajima,Sosuke Yamao,Shan Jiang

Main category: cs.CV

TL;DR: 提出了一种鲁棒的多摄像机体操运动员跟踪方法,通过结合体操领域知识(运动员3D中心位于预设垂直平面)和级联数据关联策略,解决了摄像机数量有限和检测失败时的3D轨迹重建问题。

  • Motivation: 体操比赛中的多摄像机跟踪面临特殊挑战:摄像机数量受限、光照变化、背景复杂、遮挡等因素导致某些视角检测失败,传统多摄像机三角测量难以准确确定运动员3D轨迹。
  • Method: 提出级联数据关联范式:当跨视角检测充足时使用三角测量生成3D轨迹候选;当检测不足时采用射线-平面相交方法生成共面3D轨迹候选,利用体操运动员3D中心位于预设垂直平面的领域知识。
  • Result: 通过大量实验验证了方法的鲁棒性,在挑战性场景中优于现有方法。该系统已成功应用于近期体操世锦赛,获得国际体操联合会的高度认可。
  • Conclusion: 结合领域知识的级联数据关联策略有效解决了多摄像机体操运动员跟踪中的挑战,显著减少了跟踪失败,为体操裁判系统提供了可靠的技术支持。

[82] Investigating Optical Flow Computation: From Local Methods to a Multiresolution Horn-Schunck Implementation with Bilinear Interpolation

Haytham Ziani

Main category: cs.CV

TL;DR: 本文分析了局部和全局光流计算方法,重点研究了Horn-Schunck算法,实现了其多分辨率版本,并评估了在不同图像条件下的运动估计效果。

  • Motivation: 研究局部方法(如Lucas-Kanade)和全局方法(如Horn-Schunck)的理论与实践差异,探索结合多分辨率策略来提升光流计算的准确性和收敛性。
  • Method: 实现了Horn-Schunck算法的多分辨率版本,使用双线性插值和延拓操作,比较了局部和全局光流计算方法在不同图像条件下的表现。
  • Result: 多分辨率Horn-Schunck算法通过双线性插值和延拓操作,提高了光流估计的准确性和收敛速度,在不同图像条件下表现出更好的鲁棒性。
  • Conclusion: 全局方法结合多分辨率策略能够有效提升光流计算的性能,特别是在复杂图像条件下,为运动估计提供了更可靠的解决方案。

[83] Supervised Contrastive Learning for Few-Shot AI-Generated Image Detection and Attribution

Jaime Álvarez Urueña,David Camacho,Javier Huertas Tato

Main category: cs.CV

TL;DR: 提出一个两阶段检测框架,通过监督对比学习提取图像嵌入特征,结合k-NN分类器实现合成图像检测和来源归因,在少样本学习下显著提升检测性能。

  • Motivation: 生成式AI快速发展导致合成图像难以与真实内容区分,传统检测方法依赖定期重新训练,在新型生成模型快速发布周期下计算不可行且操作不实用。
  • Method: 第一阶段使用监督对比学习的视觉深度学习模型提取图像嵌入特征,训练时策略性地保留部分生成器架构以测试跨生成器泛化能力;第二阶段采用k-NN分类器在嵌入空间进行少样本学习。
  • Result: 仅使用每类150张图像的少样本学习,平均检测准确率达到91.3%,比现有方法提升5.2个百分点;在来源归因任务中,AUC和OSCR分别提升14.70%和4.27%。
  • Conclusion: 该框架为适应不断演进的生成AI环境提供了稳健、可扩展的取证归因系统,无需进行详尽的重新训练。

[84] EOGS++: Earth Observation Gaussian Splatting with Internal Camera Refinement and Direct Panchromatic Rendering

Pierrick Bournez,Luca Savant Aira,Thibaud Ehret,Gabriele Facciolo

Main category: cs.CV

TL;DR: EOGS++是基于3D高斯泼溅的卫星图像重建方法,直接在原始高分辨率全色数据上操作,无需外部预处理,通过光流技术将光束法平差嵌入训练过程,提高了相机姿态估计精度和重建质量。

  • Motivation: 扩展地球观测高斯泼溅框架,提出专门针对卫星图像的新方法,旨在提高重建质量和几何精度,同时保持高斯泼溅的计算优势。
  • Method: 在EOGS基础上引入:直接处理原始高分辨率全色数据、使用光流技术将光束法平差嵌入训练过程、早期停止和TSDF后处理等改进。
  • Result: 在IARPA 2016和DFC2019数据集上,EOGS++在重建质量和效率方面达到最先进性能,建筑物平均MAE误差从1.33提升到1.19。
  • Conclusion: EOGS++超越了原始EOGS方法和其他基于NeRF的方法,在保持高斯泼溅计算优势的同时实现了更好的重建质量。

[85] Progressive Supernet Training for Efficient Visual Autoregressive Modeling

Xiaoyue Chen,Yuling Shi,Kaiyuan Li,Huandong Wang,Yong Li,Xiaodong Gu,Xinlei Chen,Mingbao Lin

Main category: cs.CV

TL;DR: VARiant通过等距采样从30层VAR网络中选取多个子网络(16层到2层),早期尺度使用完整网络,后期尺度使用子网络,共享权重实现单模型内灵活深度调整,显著降低内存消耗和加速推理。

  • Motivation: VAR模型的多尺度生成导致累积KV缓存带来巨大内存开销,限制了实际部署。研究发现VAR存在尺度-深度不对称依赖:早期尺度对网络深度极度敏感,而后期尺度对深度减少保持稳健。
  • Method: 1. 等距采样选择多个子网络(16层到2层);2. 早期尺度使用完整网络处理,后期尺度使用子网络;3. 子网络与完整网络共享权重;4. 提出渐进式训练策略解决权重共享带来的优化冲突。
  • Result: 在ImageNet上,VARiant-d16和VARiant-d8达到接近VAR-d30的质量(FID 2.05/2.12 vs 1.95),同时减少40-65%内存消耗。VARiant-d2实现3.5倍加速和80%内存减少,质量适度下降(FID 2.97)。
  • Conclusion: VARiant的单模型架构支持零成本运行时深度切换,提供从高质量到极致效率的灵活部署选项,满足多样化应用场景需求。

[86] Lite Any Stereo: Efficient Zero-Shot Stereo Matching

Junpeng Jing,Weixun Luo,Ye Mao,Krystian Mikolajczyk

Main category: cs.CV

TL;DR: Lite Any Stereo是一个高效的立体深度估计框架,在保持超轻量级的同时实现了强大的零样本泛化能力,计算成本不到现有方法的1%。

  • Motivation: 传统观点认为高效模型由于容量有限而无法具备零样本能力,本文旨在证明超轻量模型也能实现强大的泛化性能。
  • Method: 设计了紧凑而富有表现力的骨干网络、精心构建的混合成本聚合模块,以及在大规模数据上的三阶段训练策略来弥合模拟到现实的差距。
  • Result: 在四个广泛使用的真实世界基准测试中排名第一,精度达到或超过最先进的非先验准确方法,同时计算成本不到1%。
  • Conclusion: 该研究为高效立体匹配设定了新标准,证明了超轻量模型可以实现强大的零样本泛化能力。

[87] NutriScreener: Retrieval-Augmented Multi-Pose Graph Attention Network for Malnourishment Screening

Misaal Khan,Mayank Vatsa,Kuldeep Singh,Richa Singh

Main category: cs.CV

TL;DR: NutriScreener是一个基于检索增强的多姿态图注意力网络,结合CLIP视觉嵌入、类别增强知识检索和上下文感知,从儿童图像中实现稳健的营养不良检测和人体测量预测,解决了泛化性和类别不平衡问题。

  • Motivation: 儿童营养不良是全球危机,现有筛查方法劳动密集且难以扩展,阻碍早期干预。需要开发可扩展的自动化筛查方案。
  • Method: 采用检索增强的多姿态图注意力网络,结合CLIP视觉嵌入、类别增强知识检索和上下文感知技术,在低资源环境中进行营养不良检测。
  • Result: 临床研究中医生评分准确度4.3/5、效率4.6/5;在2,141名儿童数据上达到0.79召回率和0.82 AUC,人体测量RMSE显著降低;跨数据集结果显示使用人口统计匹配知识库可提升25%召回率和减少3.5cm RMSE。
  • Conclusion: NutriScreener为低资源环境提供了可扩展且准确的早期营养不良检测解决方案,已具备部署准备状态。

[88] POMA-3D: The Point Map Way to 3D Scene Understanding

Ye Mao,Weixun Luo,Ranran Huang,Junpeng Jing,Krystian Mikolajczyk

Main category: cs.CV

TL;DR: POMA-3D是首个从点图学习的自监督3D表示模型,通过视图到场景对齐策略将2D先验知识转移到3D,并使用POMA-JEPA架构确保多视图几何一致性。

  • Motivation: 解决3D表示学习中预训练先验稀缺和数据有限的问题,探索通过点图方式进行3D场景理解。
  • Method: 使用点图编码3D坐标到结构化2D网格,设计视图到场景对齐策略,提出POMA-JEPA联合嵌入预测架构,构建ScenePoint点图数据集。
  • Result: POMA-3D成为专业和通用3D理解的强大骨干,在3D问答、具身导航、场景检索和具身定位等任务中表现优异,仅使用几何输入。
  • Conclusion: POMA-3D通过点图方式成功解决了3D表示学习的挑战,为3D场景理解提供了有效的解决方案。

[89] Erase to Retain: Low Rank Adaptation Guided Selective Unlearning in Medical Segmentation Networks

Nirjhor Datta,Md. Golam Rabiul Alam

Main category: cs.CV

TL;DR: 提出Erase to Retain框架,通过教师-学生蒸馏和LoRA约束子空间更新,实现医学图像分割网络的选择性遗忘,无需完全重新训练。

  • Motivation: 医学分割网络需要选择性遗忘能力来满足隐私合规、伦理部署和数据集持续修订的需求。
  • Method: 使用教师-学生蒸馏范式,结合LoRA约束子空间更新,通过强遗忘阶段和温和恢复阶段实现目标遗忘。
  • Result: 在ISIC分割任务中,遗忘集IoU从0.875降至0.509,保留集性能保持竞争力;在CHASE数据集上同样有效;ISIC分类任务中遗忘集准确率从87.0%降至64.1%。
  • Conclusion: 基于LoRA的子空间遗忘为医学图像分析提供了负责任、可控且可逆的遗忘途径。

[90] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

Boshen Xu,Zihan Xiao,Jiaze Li,Jianzhong Ju,Zhenbo Luo,Jian Luan,Qin Jin

Main category: cs.CV

TL;DR: TimeViper是一个混合视觉语言模型,采用Mamba-Transformer混合架构处理长视频理解,提出TransV模块压缩视觉token信息,能处理超过10,000帧的时长视频。

  • Motivation: 处理长视频需要高效的模型架构和有效的长时序上下文处理机制,同时发现视觉token到文本token的信息聚合导致视觉token冗余问题。
  • Method: 采用混合Mamba-Transformer骨干网络,结合状态空间模型的效率和注意力机制的表达能力,提出TransV模块将视觉token转移压缩到指令token中。
  • Result: 在多个基准测试中与最先进模型竞争,同时显著扩展了处理帧数,能处理超过10,000帧的时长视频。
  • Conclusion: 这是开发、解释和压缩混合Mamba-Transformer架构的初步探索,为混合模型可解释性提供了新见解。

[91] Generative AI for Enhanced Wildfire Detection: Bridging the Synthetic-Real Domain Gap

Satyam Gaba

Main category: cs.CV

TL;DR: 利用生成式AI技术解决烟雾检测数据稀缺问题,通过合成标注数据集、无监督域适应和生成方法改进来提升野火检测性能

  • Motivation: 野火早期检测至关重要,但烟雾检测的大规模标注数据集稀缺限制了深度神经网络的应用潜力
  • Method: 使用生成式AI合成标注烟雾数据集,探索无监督域适应方法进行烟雾分割,集成风格迁移、GAN和图像抠图等生成技术提升合成数据真实性
  • Result: 论文分析了这些方法在缩小合成数据与真实数据差距方面的有效性
  • Conclusion: 这些方法为更准确和可扩展的野火检测模型铺平了道路

[92] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

Haofeng Liu,Ziyue Wang,Sudhanshu Mishra,Mingqi Gao,Guanyi Qin,Chang Han Low,Alex Y. W. Kong,Yueming Jin

Main category: cs.CV

TL;DR: 提出了SAM2S模型,通过构建SA-SV外科手术视频分割基准,增强SAM2在外科手术交互式视频对象分割中的性能,特别解决了长期跟踪和领域适应问题。

  • Motivation: 外科手术视频分割对计算机辅助手术至关重要,但现有交互式视频分割模型如SAM2在外科领域面临领域差距和长期跟踪能力有限的问题。
  • Method: 构建SA-SV基准数据集,提出SAM2S模型,包含DiveMem多样化记忆机制、时序语义学习和抗模糊学习三个关键技术。
  • Result: 在SA-SV基准上,SAM2S达到80.42平均J&F分数,比原始SAM2提升17.10分,比微调SAM2提升4.11分,同时保持68FPS实时推理和强零样本泛化能力。
  • Conclusion: SAM2S通过专门设计的外科手术优化机制,显著提升了外科手术视频分割的长期跟踪性能和领域适应性,为计算机辅助手术提供了有效的解决方案。

[93] Improving Long-Tailed Object Detection with Balanced Group Softmax and Metric Learning

Satyam Gaba

Main category: cs.CV

TL;DR: 本文针对长尾分布的2D目标检测问题,在LVISv1数据集上通过改进的BAGS框架和度量学习方法,实现了24.5%的mAP,创造了新的最先进性能。

  • Motivation: 现实世界中的目标检测面临长尾分布挑战,即多数类别只有少量实例,导致模型偏向频繁类别,在稀有类别上性能下降。
  • Method: 采用两阶段Faster R-CNN架构,改进平衡组Softmax(BAGS)框架缓解类别不平衡;使用度量学习生成特征嵌入,结合k-NN方法提升分类性能。
  • Result: 在LVISv1数据集上达到24.5%的mAP,超越了之前24.0%的最佳性能。
  • Conclusion: 所提出的方法在长尾目标检测中有效,特别是通过度量学习和k-NN方法改善了稀有类别的分类性能。

[94] Adaptive Guided Upsampling for Low-light Image Enhancement

Angela Vivian Dcosta,Chunbo Song,Rafael Radkowski

Main category: cs.CV

TL;DR: 提出自适应引导上采样(AGU)方法,通过多参数优化同时提升低光图像的多个质量特征,如降噪和锐化,能在实时处理中生成高质量图像。

  • Motivation: 现有引导图像方法在处理低光图像时效果不佳,因为低光图像噪声高、亮度低,缺乏足够的特征用于引导上采样。
  • Method: 基于引导图像方法,通过多参数优化学习低光与明亮图像特征之间的关联,仅需少量样本图像对即可训练机器学习模型。
  • Result: 实验证明AGU在低光场景下优于现有最先进方法,能够实时处理低质量、低分辨率输入并生成高质量图像。
  • Conclusion: AGU方法有效解决了低光图像引导上采样的挑战,通过多特征优化实现了实时高质量图像渲染。

[95] SAM 3D: 3Dfy Anything in Images

SAM 3D Team,Xingyu Chen,Fu-Jen Chu,Pierre Gleize,Kevin J Liang,Alexander Sax,Hao Tang,Weiyao Wang,Michelle Guo,Thibaut Hardin,Xiang Li,Aohan Lin,Jiawei Liu,Ziqi Ma,Anushka Sagar,Bowen Song,Xiaodong Wang,Jianing Yang,Bowen Zhang,Piotr Dollár,Georgia Gkioxari,Matt Feiszli,Jitendra Malik

Main category: cs.CV

TL;DR: SAM 3D是一个从单张图像生成3D物体重建的模型,能够预测几何、纹理和布局,在自然图像中表现优异,特别是在存在遮挡和场景杂乱的复杂环境中。

  • Motivation: 解决在自然图像中进行3D物体重建的挑战,特别是在存在遮挡和场景杂乱的复杂环境中,利用上下文视觉线索进行更准确的识别和重建。
  • Method: 采用人机协作的标注流程来标注物体形状、纹理和姿态,提供大规模视觉基础的3D重建数据。使用多阶段训练框架,结合合成预训练和真实世界对齐,突破3D数据瓶颈。
  • Result: 在真实世界物体和场景的人类偏好测试中,相比近期工作获得了显著提升,胜率至少达到5:1。
  • Conclusion: SAM 3D在单图像3D物体重建方面取得了突破性进展,将发布代码、模型权重、在线演示以及新的野外3D物体重建基准测试。

[96] SurvAgent: Hierarchical CoT-Enhanced Case Banking and Dichotomy-Based Multi-Agent System for Multimodal Survival Prediction

Guolin Huang,Wenting Chen,Jiaqi Yang,Xinheng Lyu,Xiaoling Luo,Sen Yang,Xiaohan Xing,Linlin Shen

Main category: cs.CV

TL;DR: SurvAgent是一个用于多模态生存预测的分层思维链增强多智能体系统,通过两阶段方法实现可解释的癌症预后分析。

  • Motivation: 现有生存分析方法缺乏临床所需的透明度,而现有的病理智能体在生存预测方面存在三个局限:无法整合多模态数据、无效的感兴趣区域探索、未能利用历史病例的经验学习。
  • Method: SurvAgent包含两个阶段:(1) WSI-基因CoT增强病例库构建:通过低倍镜筛查、跨模态相似性感知补丁挖掘和置信度感知补丁挖掘进行病理图像分析,同时对六个功能基因类别进行分层分析;(2) 二分法多专家智能体推理:通过RAG检索相似病例,并通过渐进区间细化整合多模态报告与专家预测。
  • Result: 在五个TCGA队列上的广泛实验表明,SurvAgent优于传统方法、专有MLLM和医学智能体。
  • Conclusion: SurvAgent为精准肿瘤学中的可解释AI驱动生存预测建立了新范式。

[97] TRIM: Scalable 3D Gaussian Diffusion Inference with Temporal and Spatial Trimming

Zeyuan Yin,Xiaoming Liu

Main category: cs.CV

TL;DR: TRIM是一种后训练方法,通过时间轨迹缩减和空间实例掩码去噪来加速3D高斯扩散模型的推理,同时保持输出质量。

  • Motivation: 现有的3D高斯扩散模型由于大量高斯基元导致去噪和后处理耗时,生成速度慢且沿采样轨迹的可扩展性有限。
  • Method: 提出TRIM方法:1)轻量级选择器模型评估潜在高斯基元,实现早期轨迹缩减;2)实例掩码去噪过滤冗余背景区域,减少每个去噪步骤的计算量。
  • Result: 实验表明TRIM显著提高了3D生成的效率和质量。
  • Conclusion: TRIM在不影响输出质量的前提下,有效加速了3D高斯扩散模型的推理过程,并支持推理时缩放。

[98] Late-decoupled 3D Hierarchical Semantic Segmentation with Semantic Prototype Discrimination based Bi-branch Supervision

Shuyu Cao,Chongshou Li,Jie Xu,Tianrui Li,Na Zhao

Main category: cs.CV

TL;DR: 提出了一种新的3D层次语义分割框架,通过解耦架构和双分支监督机制解决多层级冲突和类别不平衡问题

  • Motivation: 现有3D层次语义分割方法存在两个关键挑战:多层级优化冲突和跨层级类别不平衡问题,导致模型性能受限
  • Method: 采用主3DHS分支和辅助判别分支的框架,使用多个解码器实现从粗到细的层次引导和一致性,并引入基于语义原型的双分支监督机制
  • Result: 在多个数据集和骨干网络上实现最先进的3DHS性能,核心组件可作为即插即用模块提升现有方法
  • Conclusion: 所提出的解耦架构和双分支监督机制有效缓解了多层级冲突和类别不平衡问题,显著提升了3D层次语义分割性能

[99] Teacher-Guided One-Shot Pruning via Context-Aware Knowledge Distillation

Md. Samiul Alim,Sharjil Khan,Amrijit Biswas,Fuad Rahman,Shafin Rahman,Nabeel Mohammed

Main category: cs.CV

TL;DR: 提出了一种新颖的教师引导剪枝框架,将知识蒸馏与重要性评分估计紧密结合,实现一次性全局剪枝,在保持高性能的同时达到高稀疏度。

  • Motivation: 解决非结构化剪枝通常需要迭代训练-剪枝-再训练循环带来的高计算开销问题。
  • Method: 在重要性评分计算中利用教师模型的梯度信号,识别对任务性能和知识转移都关键的参数,采用一次性全局剪枝策略,剪枝后使用稀疏感知的再训练。
  • Result: 在CIFAR-10、CIFAR-100和TinyImageNet等多个图像分类基准测试中,该方法在高稀疏度下性能损失最小,优于EPG和EPSD等先进基线方法。
  • Conclusion: 该框架为资源受限环境提供了计算高效且性能保持的解决方案。

[100] Solving Spatial Supersensing Without Spatial Supersensing

Vishaal Udandarao,Shyamgopal Karthik,Surabhi S. Nath,Andreas Hochlehnert,Matthias Bethge,Ameya Prabhu

Main category: cs.CV

TL;DR: Cambrian-S提出的视频空间超感知基准VSR和VSC存在缺陷:VSR可通过简单词袋模型近乎完美解决,VSC的推理方法依赖捷径启发式而非真正的空间认知。

  • Motivation: 批判性分析Cambrian-S提出的视频空间超感知基准和推理方法,验证其是否真正测量空间超感知能力。
  • Method: 引入NoSense基线方法(仅使用词袋模型)测试VSR基准;设计VSC-Repeat实验(重复拼接视频)测试VSC基准的鲁棒性。
  • Result: NoSense在VSR上达到95%准确率;VSC-Repeat实验使Cambrian-S准确率从42%降至0%,表明其依赖"房间不重复访问"的捷径。
  • Conclusion: 当前VSI-Super基准无法可靠测量空间超感知,Cambrian-S的性能提升主要来自利用基准捷径而非真正的空间超感知能力。

[101] PartUV: Part-Based UV Unwrapping of 3D Meshes

Zhaoning Wang,Xinyue Wei,Ruoxi Shi,Xiaoshuai Zhang,Hao Su,Minghua Liu

Main category: cs.CV

TL;DR: PartUV是一个基于部件分解的UV展开管道,通过结合语义部件分解和几何启发式方法,为AI生成网格生成更少、部件对齐的图表,同时保持低失真。

  • Motivation: 现有UV展开方法在处理AI生成网格时表现不佳,这些网格通常嘈杂、凹凸不平且条件差,导致图表高度碎片化和边界不理想,影响下游任务。
  • Method: 基于PartField部件分解方法,PartUV在自上而下的递归框架中结合高层语义部件分解和新颖几何启发式方法,确保每个图表的失真低于用户指定阈值,同时最小化图表总数。
  • Result: 在四个不同数据集上的评估显示,PartUV在图表数量和接缝长度方面优于现有工具和最近的神经方法,实现可比较的失真,在挑战性网格上具有高成功率,并支持部件特定的多瓦片打包等新应用。
  • Conclusion: PartUV提供了一个有效的UV展开解决方案,特别适用于处理AI生成网格,通过部件对齐的方法减少了图表碎片化,同时保持了低失真水平。

[102] TriDiff-4D: Fast 4D Generation through Diffusion-based Triplane Re-posing

Eddie Pokming Sheung,Qihao Liu,Wufei Ma,Prakhar Kaushik,Jianwen Xie,Alan Yuille

Main category: cs.CV

TL;DR: TriDiff-4D是一个创新的4D生成管道,使用基于扩散的三平面重定位技术生成高质量、时间一致的4D虚拟形象,支持骨架驱动的4D生成,大幅提升生成效率和视觉保真度。

  • Motivation: 解决现有4D生成方法在时间几何一致性、感知伪影、运动不规则性、计算成本和动态控制方面的局限性,满足对高保真、可控4D虚拟形象日益增长的需求。
  • Method: 采用自回归策略生成任意长度的4D序列,每个3D帧通过单一扩散过程合成。首先生成规范3D虚拟形象和对应运动序列,然后使用第二个扩散模型根据运动序列为虚拟形象添加动画。
  • Result: 实验结果表明TriDiff-4D显著优于现有方法,将生成时间从小时级缩短到秒级,同时大幅改善了复杂运动的生成质量,具有高保真外观和准确的3D几何结构。
  • Conclusion: TriDiff-4D通过消除优化过程实现了高效的4D生成,在时间一致性、运动准确性、计算效率和视觉保真度方面表现出色,为可控4D虚拟形象生成提供了有效解决方案。

[103] SceneDesigner: Controllable Multi-Object Image Generation with 9-DoF Pose Manipulation

Zhenyuan Qin,Xincheng Shuai,Henghui Ding

Main category: cs.CV

TL;DR: SceneDesigner是一个用于多物体9自由度姿态控制的图像生成方法,通过分支网络和CNOCS地图表示实现精确灵活的姿态操控,解决了现有方法在可控性和质量上的局限性。

  • Motivation: 现有的可控图像生成方法难以同时控制多个物体的9D姿态(位置、大小和方向),存在可控性有限和质量下降的问题,需要开发更全面的多物体姿态控制方法。
  • Method: 在预训练基础模型上添加分支网络,引入CNOCS地图表示来编码相机视角的9D姿态信息,采用两阶段训练策略(包括强化学习)解决数据不平衡问题,并在推理时使用解耦物体采样技术。
  • Result: 广泛的定性和定量实验表明,SceneDesigner在可控性和生成质量方面显著优于现有方法,能够有效处理复杂多物体场景的姿态控制。
  • Conclusion: SceneDesigner通过创新的表示方法和训练策略,成功实现了准确灵活的多物体9自由度姿态控制,为可控图像生成领域提供了有效的解决方案。

[104] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

Yang Luo,Xuanlei Zhao,Baijiong Lin,Lingting Zhu,Liyao Tang,Yuqi Liu,Ying-Cong Chen,Shengju Qian,Xin Wang,Yang You

Main category: cs.CV

TL;DR: V-ReasonBench是一个评估视频推理能力的基准测试,涵盖结构化问题解决、空间认知、模式推理和物理动力学四个关键维度,用于系统评估生成视频模型的推理能力。

  • Motivation: 随着生成视频模型(如Veo-3)展现出令人惊讶的零样本推理能力,需要系统可靠的评估方法来衡量这些模型的推理性能。
  • Method: 构建包含合成和真实世界图像序列的基准测试,提供多样化、可验证、可复现、可扩展且无歧义的任务集,评估了六个最先进的视频模型。
  • Result: 评估揭示了不同维度上的明显差异,在结构化、空间、模式和物理推理方面存在显著变化,并与强图像模型进行了比较,分析了幻觉行为,研究了视频时长对帧链推理的影响。
  • Conclusion: V-ReasonBench提供了一个统一且可复现的框架来测量视频推理能力,旨在支持开发具有更可靠、与人类对齐的推理技能的模型。

[105] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

Junhao Cheng,Liang Hou,Xin Tao,Jing Liao

Main category: cs.CV

TL;DR: 本文提出了Video-Next-Event Prediction (VNEP)任务,将视频作为回答模态用于下一事件预测,并开发了VANS模型,通过强化学习对齐视觉语言模型和视频扩散模型来生成动态视频回答。

  • Motivation: 视频具有展示物理世界信息的能力,而语言模型在处理这类信息时存在局限。作者希望利用视频作为新的回答模态,使下一事件预测更加直观和定制化,从"讲述"转向"展示"。
  • Method: 提出VANS模型,使用强化学习(Joint-GRPO)将视觉语言模型(VLM)和视频扩散模型(VDM)对齐。VLM生成准确且易于可视化的字幕,VDM根据这些字幕和输入视觉上下文生成视频。还构建了VANS-Data-100K数据集。
  • Result: 在程序和预测基准测试中,VANS在视频事件预测和可视化方面都达到了最先进的性能。
  • Conclusion: VNEP任务和VANS模型成功地将视频作为回答模态引入下一事件预测,通过强化学习对齐多模态模型,实现了从文本预测到动态视频生成的转变。

[106] Learning to Think Fast and Slow for Visual Language Models

Chenyu Lin,Cheng Chi,Jinlin Wu,Sharon Li,Kaiyang Zhou

Main category: cs.CV

TL;DR: 提出DualMindVLM模型,通过强化学习让视觉语言模型根据任务难度自动切换快速思维和慢速思维模式,在保持高性能的同时显著提高计算效率。

  • Motivation: 现有视觉语言模型无论问题难易都追求冗长的推理链,导致计算成本过高。受人类两系统思维机制启发,希望模型能根据任务复杂度自动调整推理深度。
  • Method: 两阶段方法:第一阶段根据模型输出长度标注数据为快速/慢速思维模式;第二阶段使用GRPO强化学习训练模型发展双模式思维能力。
  • Result: DualMindVLM显著超越基础模型,性能与最先进视觉推理模型相当,同时保持极高的token效率。
  • Conclusion: 简单的强化学习方法能让视觉语言模型自动适应任务难度,在保持高性能的同时大幅提升计算效率,验证了双模式思维机制的有效性。

[107] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

Ziyu Guo,Renrui Zhang,Hongyu Li,Manyuan Zhang,Xinyan Chen,Sifan Wang,Yan Feng,Peng Pei,Pheng-Ann Heng

Main category: cs.CV

TL;DR: 提出了首个在视觉生成过程中交织文本推理的框架TwiG,通过在生成过程中动态进行文本推理来指导局部区域生成和反思已合成内容,从而产生更具上下文感知和语义丰富的视觉输出。

  • Motivation: 现有视觉生成方法只在生成前或生成后进行文本推理,缺乏在生成过程中的实时多模态交互。
  • Method: 开发了TwiG框架,在视觉内容逐步生成时交织文本推理。研究了三种策略:零样本提示、在TwiG-50K数据集上的监督微调,以及定制的TwiG-GRPO强化学习策略。
  • Result: 该框架能够产生更具上下文感知和语义丰富的视觉输出,三种策略各提供了关于交织推理动态的不同见解。
  • Conclusion: 这项工作为在视觉生成中交织文本推理以增强生成效果的研究开辟了新方向。

[108] EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards

Omkat Thawakar,Shravan Venkatraman,Ritesh Thawkar,Abdelrahman Shaker,Hisham Cholakkal,Rao Muhammad Anwer,Salman Khan,Fahad Khan

Main category: cs.CV

TL;DR: EvoLMM是一个完全无监督的自进化框架,通过两个协作代理(提议者和解决者)从单一骨干模型实现大模型自我改进,无需人工标注数据或奖励模型。

  • Motivation: 现有大模型训练依赖人工标注数据或外部奖励模型,限制了自主性和可扩展性,需要开发完全无监督的自我改进方法。
  • Method: 从单一骨干模型实例化两个协作代理:提议者生成多样化的图像相关问题,解决者通过内部一致性解决问题,形成持续自我奖励的学习过程。
  • Result: 基于Qwen2.5-VL的EvoLMM在ChartQA、MathVista和MathVision等多模态数学推理基准上获得约3%的性能提升。
  • Conclusion: EvoLMM提供了一个简单有效的完全无监督自改进大模型的基准方法,有望推动该领域未来研究。

[109] NoPo-Avatar: Generalizable and Animatable Avatars from Sparse Inputs without Human Poses

Jing Wen,Alexander G. Schwing,Shenlong Wang

Main category: cs.CV

TL;DR: NoPo-Avatar是一种从单张或稀疏图像重建可动画3D人体化身的无姿态输入方法,克服了传统方法对精确姿态估计的依赖问题。

  • Motivation: 现有方法依赖准确的相机姿态和人体姿态作为输入,但在实际应用中姿态估计往往存在噪声,导致重建质量显著下降。
  • Method: 提出NoPo-Avatar方法,仅从图像重建化身,完全消除对测试时人体姿态输入的依赖。
  • Result: 在THuman2.0、XHuman和HuGe100K数据集上的实验表明,在无真实姿态的实际设置中优于现有基线,在有真实姿态的实验室设置中也能获得相当结果。
  • Conclusion: NoPo-Avatar通过消除对姿态输入的依赖,提高了3D人体化身重建的鲁棒性和实用性。

[110] Dataset Distillation for Pre-Trained Self-Supervised Vision Models

George Cazenavette,Antonio Torralba,Vincent Sitzmann

Main category: cs.CV

TL;DR: 提出了一种用于预训练视觉模型的线性分类器数据集蒸馏方法,通过优化合成图像使线性分类器的梯度与真实数据匹配,在多个任务上超越真实图像基线。

  • Motivation: 现有数据集蒸馏方法主要针对随机初始化模型的训练,而当前最先进的视觉方法越来越多地基于大型预训练自监督模型,需要研究如何为这些预训练模型蒸馏数据集以优化线性分类器的训练。
  • Method: 提出线性梯度匹配方法,优化合成图像,使其通过预训练特征提取器后,在线性分类器中产生的梯度与真实数据产生的梯度相似。
  • Result: 该方法生成的合成数据在所有真实图像基线上表现更优,且能跨预训练视觉模型泛化,在细粒度分类任务中特别有效,还可用于模型可解释性分析。
  • Conclusion: 线性梯度匹配方法为预训练模型的数据集蒸馏提供了有效解决方案,在性能、泛化能力和可解释性方面都表现出色。

eess.IV

[111] UniUltra: Interactive Parameter-Efficient SAM2 for Universal Ultrasound Segmentation

Yue Li,Qing Xu,Yixuan Zhang,Xiangjian He,Qian Zhang,Yuan Yao,Fiseha B. Tesem,Xin Chen,Ruili Wang,Zhen Chen,Chang Wen Chen

Main category: eess.IV

TL;DR: 提出了UniUltra框架,通过上下文-边缘混合适配器和深度监督知识蒸馏技术,实现了对SAM2模型在超声图像分割上的高效适配和轻量化部署。

  • Motivation: SAM2在自然图像上表现出色,但在超声图像上性能显著下降,需要解决参数高效适配和临床资源受限环境部署的挑战。
  • Method: 1. 上下文-边缘混合适配器(CH-Adapter)增强细粒度感知;2. 深度监督知识蒸馏(DSKD)将大型编码器知识转移到超轻量编码器。
  • Result: UniUltra在多个数据集上优于现有方法,仅使用SAM2 8.91%的参数进行微调,最终压缩模型参数减少94.08%,性能保持竞争力。
  • Conclusion: UniUltra框架成功解决了SAM2在超声图像分割中的领域适应问题,为临床部署提供了高效轻量化的解决方案。

[112] Weakly Supervised Segmentation and Classification of Alpha-Synuclein Aggregates in Brightfield Midbrain Images

Erwan Dereure,Robin Louiset,Laura Parkkinen,David A Menassa,David Holcman

Main category: eess.IV

TL;DR: 开发了一个自动图像处理管道,用于在帕金森病和中途路易体病的中脑组织全玻片图像中分割和分类α-突触核蛋白聚集体,基于弱监督分割和ResNet50分类器,能够区分路易体和神经突等主要聚集体形态。

  • Motivation: 帕金森病与错误折叠的α-突触核蛋白聚集体积累相关,形成用于病理诊断的路易体和神经突。深度学习自动分析免疫组织化学组织病理学图像为更好地理解这些聚集体的空间组织提供了有前景的工具。
  • Method: 开发了自动图像处理管道,基于弱监督分割方法对全玻片图像进行分割和分类,使用ResNet50分类器,对免疫组织化学标记变异性具有鲁棒性。
  • Result: 能够区分主要聚集体形态,包括路易体和神经突,平衡准确率达到80%。
  • Conclusion: 该框架为大规模表征α-突触核蛋白聚集体在明场免疫组织化学组织中的空间分布和异质性铺平了道路,并为研究其与周围细胞(如小胶质细胞和星形胶质细胞)之间了解甚少的关系提供了基础。

cs.AI

[113] How Modality Shapes Perception and Reasoning: A Study of Error Propagation in ARC-AGI

Bo Wen,Chen Wang,Erhan Bilal

Main category: cs.AI

TL;DR: 该研究分析了不同模态(文本和图像)在ARC-AGI任务中对模型感知能力的影响,发现结构化文本能精确定位稀疏特征,图像能捕捉2D形状但对分辨率敏感,结合两者可提升执行效果。

  • Motivation: 现有系统将网格转换为自然语言或DSL规则执行,但缺乏对编码如何影响模型感知的系统分析,以及如何区分指令错误和执行错误。作者假设不同模态会形成感知瓶颈,影响网格特征的可靠感知。
  • Method: 使用加权集合分歧度量和两阶段推理流程,在九种文本和图像模态中分离感知与推理,测试不同表示方式对模型感知的影响。
  • Result: 结构化文本在稀疏特征上提供精确坐标,图像能捕捉2D形状但对分辨率敏感,结合文本和图像可提升约8个感知点和0.20中位相似度。
  • Conclusion: 将表示与transformer归纳偏置对齐,并实现文本和图像之间的交叉验证,可在不改变底层模型的情况下获得更准确的指令和更可靠的执行。

[114] FOOTPASS: A Multi-Modal Multi-Agent Tactical Context Dataset for Play-by-Play Action Spotting in Soccer Broadcast Videos

Jeremie Ochin,Raphael Chekroun,Bogdan Stanciulescu,Sotiris Manitsaris

Main category: cs.AI

TL;DR: 提出了FOOTPASS数据集,这是首个用于足球比赛全场比赛动作识别的基准,结合计算机视觉输出和足球战术知识,实现更可靠的逐场比赛数据分析。

  • Motivation: 当前足球视频理解方法在构建可靠的逐场比赛数据方面仍不足,通常只能辅助而非完全自动化标注。同时战术建模、轨迹预测等研究需要基于比赛状态和逐场比赛数据,这促使利用战术知识作为先验来支持基于计算机视觉的预测。
  • Method: 引入FOOTPASS数据集,支持在多模态、多智能体战术背景下开发球员中心动作识别方法,结合计算机视觉任务输出(如跟踪、识别)和足球战术规律知识。
  • Result: 创建了首个针对整场足球比赛的逐场比赛动作识别基准数据集,为数据驱动的体育分析提供基础。
  • Conclusion: FOOTPASS数据集通过整合计算机视觉和战术知识,能够生成可靠的逐场比赛数据流,这对数据驱动的体育分析至关重要。

cs.SE

[115] Green Resilience of Cyber-Physical Systems: Doctoral Dissertation

Diaeddin Rimawi

Main category: cs.SE

TL;DR: 本文提出了GResilience框架来平衡在线协作AI系统的韧性和绿色性,通过多目标优化、博弈论和强化学习策略实现绿色恢复,减少恢复时间并降低碳排放。

  • Motivation: 在线协作AI系统容易受到干扰事件影响性能,决策者需要在恢复性能的同时限制能耗,这产生了韧性与绿色性之间的权衡问题。
  • Method: 将系统行为建模为稳态、干扰和最终三个状态,提出GResilience框架,包含多目标优化(单智能体)、博弈论决策(双智能体)和强化学习(RL智能体)三种恢复策略,并设计了量化韧性和绿色性的测量框架。
  • Result: 实验表明韧性模型能捕捉干扰期间的性能转换,GResilience策略通过缩短恢复时间、稳定性能和减少人类依赖来改善绿色恢复,RL智能体策略效果最佳但碳排放略有增加,容器化执行可将碳排放减半。
  • Conclusion: 本研究提供了确保在线协作AI系统绿色恢复的模型、度量和策略,解决了韧性与绿色性之间的平衡问题。

cs.CL

[116] Arctic-Extract Technical Report

Mateusz Chiliński,Julita Ołtusek,Wojciech Jaśkowski

Main category: cs.CL

TL;DR: Arctic-Extract是一个最先进的结构化数据提取模型,专门用于从扫描或数字商业文档中提取问答、实体和表格数据,模型仅重6.6 GiB,可在资源受限的硬件上部署。

  • Motivation: 开发一个能够在资源受限设备上高效运行的结构化文档数据提取模型,解决长文档处理的需求。
  • Method: 采用先进的训练协议,优化模型大小和性能,使其能够在A10 GPU等有限资源设备上部署。
  • Result: 模型在A10 GPU(24GB内存)上可处理多达125页A4文档,在文档理解任务中表现出强大的性能。
  • Conclusion: Arctic-Extract证明了在保持最先进性能的同时,可以在资源受限环境中有效部署,适用于长文档处理场景。

cs.RO

[117] How Robot Dogs See the Unseeable

Oliver Bimber,Karl Dietrich von Ellenrieder,Michael Haller,Rakesh John Amala Arokia Nathan,Gianni Lunardi,Marco Camurri,Mohamed Youssef,Santos Miguel Orozco Soto,Jeremy E. Niven

Main category: cs.RO

TL;DR: 该论文提出了一种基于动物摆头行为的合成孔径感知方法,通过机器人执行摆头运动来模拟宽合成孔径,从而在遮挡环境下实现清晰的背景感知。

  • Motivation: 解决机器人视觉中的部分遮挡问题,传统相机由于小孔径和大景深导致前景障碍物和背景物体都清晰可见,遮挡物会掩盖关键场景信息。
  • Method: 让机器人执行摆头运动,相机在运动中形成宽合成孔径,通过计算整合捕获的图像合成具有极浅景深的图像,有效模糊遮挡元素同时使背景清晰。
  • Result: 该方法能够实时恢复基本场景理解,并在大语言模型中实现高级视觉推理,对遮挡具有鲁棒性且计算高效。
  • Conclusion: 通过摆头运动实现合成孔径感知是将动物行为与机器人技术结合的关键,能够在复杂杂乱环境中实现高级场景理解。

[118] MiMo-Embodied: X-Embodied Foundation Model Technical Report

Xiaoshuai Hao,Lei Zhou,Zhijian Huang,Zhiwen Hou,Yingbo Tang,Lingfeng Zhang,Guang Li,Zheng Lu,Shuhuai Ren,Xianhui Meng,Yuchen Zhang,Jing Wu,Jinghui Lu,Chenxu Dang,Jiayi Guan,Jianhua Wu,Zhiyi Hou,Hanbing Li,Shumeng Xia,Mingliang Zhou,Yinan Zheng,Zihao Yue,Shuhao Gu,Hao Tian,Yuannan Shen,Jianwei Cui,Wen Zhang,Shaoqing Xu,Bing Wang,Haiyang Sun,Zeyu Zhu,Yuncheng Jiang,Zibin Guo,Chuhong Gong,Chaofan Zhang,Wenbo Ding,Kun Ma,Guang Chen,Rui Cai,Diyun Xiang,Heng Qu,Fuli Luo,Hangjun Ye,Long Chen

Main category: cs.RO

TL;DR: MiMo-Embodied是首个在自动驾驶和具身AI领域都取得最先进性能的跨具身基础模型,在29个基准测试中创下新记录。

  • Motivation: 探索自动驾驶和具身AI两个领域之间的正迁移效应,证明通过多阶段学习可以相互增强性能。
  • Method: 采用多阶段学习、精心构建的数据集以及思维链/强化学习微调方法。
  • Result: 在17个具身AI基准测试(任务规划、功能预测、空间理解)和12个自动驾驶基准测试(环境感知、状态预测、驾驶规划)中均创下新记录,显著超越现有开源、闭源和专用基线模型。
  • Conclusion: 自动驾驶和具身AI领域存在强正迁移效应,通过适当的方法设计可以相互增强,为跨领域基础模型研究提供了新方向。