Skip to content
每日arXiv - 2025年11月28日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Are Neuro-Inspired Multi-Modal Vision-Language Models Resilient to Membership Inference Privacy Leakage?

David Amebley,Sayanton Dibbo

Main category: cs.CV

TL;DR: 本文提出了一种神经科学启发的拓扑正则化框架,用于增强多模态视觉语言模型对成员推理攻击的隐私保护能力,实验表明该方法能显著降低攻击成功率而不显著影响模型性能。

  • Motivation: 随着多模态模型的广泛部署,隐私泄露风险日益突出。现有研究主要关注单模态系统的隐私攻击,而多模态模型对隐私攻击的脆弱性以及神经启发的多模态模型是否能增强隐私保护能力尚未被充分探索。
  • Method: 提出神经科学启发的拓扑正则化框架(tau),在三个视觉语言模型(BLIP、PaliGemma 2、ViT-GPT2)上应用该正则化,并在三个基准数据集(COCO、CC3M、NoCaps)上评估其对成员推理攻击的防御效果。
  • Result: 在BLIP模型上,神经启发的VLM使MIA攻击成功率平均ROC-AUC下降24%,同时保持相似的模型效用(MPNet和ROUGE-2指标)。其他模型和数据集上的评估进一步验证了结果的稳定性。
  • Conclusion: 神经启发的多模态视觉语言模型对隐私攻击具有更强的抵御能力,且不会显著影响模型性能,这为理解多模态模型的隐私风险提供了新视角。

[2] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Inferix Team,Tianyu Feng,Yizeng Han,Jiahao He,Yuanyu He,Xi Lin,Teng Liu,Hanfeng Lu,Jiasheng Tang,Wei Wang,Zhiyuan Wang,Jichao Wu,Mingyang Yang,Yinghao Yu,Zeyu Zhang,Bohan Zhuang

Main category: cs.CV

TL;DR: Inferix是一个专为世界模型设计的下一代推理引擎,通过优化的半自回归解码过程实现沉浸式世界合成,区别于高并发系统和传统视频扩散模型,支持交互式视频流和评测。

  • Motivation: 世界模型是智能体AI、具身AI和游戏等领域的核心模拟器,能够生成长时间、物理真实且交互式的高质量视频。扩展这些模型可能解锁视觉感知、理解和推理的新兴能力,超越当前以LLM为中心的视觉基础模型。
  • Method: 采用半自回归(块扩散)解码范式,结合扩散和自回归方法的优势,在块内应用扩散生成视频标记,同时以前面块为条件,实现更连贯稳定的视频序列。通过重新引入LLM风格的KV缓存管理,克服标准视频扩散的限制。
  • Result: Inferix实现了高效、可变长度和高质量的视频生成,支持交互式视频流和性能分析,能够实时交互和真实模拟世界动态。
  • Conclusion: Inferix作为专门为世界模拟设计的推理引擎,通过优化的半自回归解码和集成LV-Bench评测基准,为世界模型探索提供了重要工具,希望社区共同推进其发展。

[3] Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detection?

Kun Guo,Yun Shen,Xijun Wang,Chaoqun You,Yun Rui,Tony Q. S. Quek

Main category: cs.CV

TL;DR: 提出LTED-Ada算法,在资源受限设备上自适应选择本地跟踪或边缘检测,通过深度强化学习优化视频对象识别性能,并在多设备场景中使用联邦学习提升泛化能力。

  • Motivation: 资源受限设备(如交通摄像头)进行视频对象识别时面临挑战,需要平衡计算开销和识别精度。移动边缘计算提供了卸载计算密集型检测到边缘服务器的可能,但需要智能决策何时进行边缘检测或本地跟踪。
  • Method: 1. 针对单设备和多设备场景制定长期优化问题;2. 提出LTED-Ada算法,基于深度强化学习自适应选择本地跟踪或边缘检测;3. 在多设备场景中使用联邦学习进行协作策略训练。
  • Result: 通过Raspberry Pi 4B设备和PC边缘服务器进行的硬件在环实验证明了LTED-Ada的优越性能。
  • Conclusion: LTED-Ada算法能够有效解决资源受限设备上的视频对象识别问题,在单设备和多设备场景中均表现出色,通过自适应选择和联邦学习提升了系统的性能和泛化能力。

[4] DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving

Haibo HU,Lianming Huang,Nan Guan,Chun Jason Xue

Main category: cs.CV

TL;DR: DeeAD是一个无需训练的动作引导早期退出框架,通过评估中间轨迹的物理可行性来加速视觉语言动作模型的推理,减少28%的Transformer层稀疏性和29%的延迟。

  • Motivation: 视觉语言动作模型在自动驾驶中统一了感知、推理和轨迹生成,但由于深度Transformer堆栈导致显著的推理延迟。
  • Method: 提出DeeAD框架,基于轻量级规划先验评估中间轨迹的物理可行性,当预测轨迹与导航或低精度规划在可容忍偏差内时终止推理,并引入多跳控制器自适应跳过冗余层。
  • Result: 在Bench2Drive基准测试中,实现了高达28%的Transformer层稀疏性和29%的延迟减少,同时保持规划质量和安全性。
  • Conclusion: DeeAD可以无缝集成到现有VLA模型中,无需重新训练,有效加速推理过程。

[5] Foundry: Distilling 3D Foundation Models for the Edge

Guillaume Letellier,Siddharth Srivastava,Frédéric Jurie,Gaurav Sharma

Main category: cs.CV

TL;DR: 提出Foundation Model Distillation (FMD)方法,通过压缩大型自监督学习模型为紧凑高效的代理模型,保留其通用表征能力,特别针对3D点云数据实现Foundry系统。

  • Motivation: 大型基础模型虽然功能强大,但计算成本高、模型尺寸大,难以在边缘设备部署。现有压缩技术会牺牲模型的通用性,需要一种既能压缩模型又能保持其通用表征能力的方法。
  • Method: 提出FMD框架,训练学生模型学习压缩的SuperTokens来重建教师模型的token级表示,捕获其潜在空间的紧凑基。Foundry是该框架在3D点云上的首个实现。
  • Result: 单个蒸馏模型在分类、部件分割和少样本场景等多种下游任务中保持强迁移能力,接近完整基础模型性能,同时使用显著更少的token和FLOPs。
  • Conclusion: FMD提供了一种实用方法,使基础模型能够在资源受限的硬件上部署,同时保持其通用表征能力。

[6] DinoLizer: Learning from the Best for Generative Inpainting Localization

Minh Thong Doi,Jan Butora,Vincent Itier,Jérémie Boulanger,Patrick Bas

Main category: cs.CV

TL;DR: DinoLizer是基于DINOv2的生成式修复图像篡改区域定位模型,通过线性分类头和滑动窗口策略在14×14补丁分辨率上检测语义篡改区域。

  • Motivation: 开发一个能够准确定位生成式修复图像中篡改区域的检测器,特别是关注语义层面的篡改,而非非语义编辑。
  • Method: 在DINOv2预训练模型基础上添加线性分类头,使用滑动窗口策略处理大尺寸图像,通过后处理优化二进制篡改掩码。
  • Result: DinoLizer在多个修复数据集上超越现有最优篡改定位检测器,平均IoU提高12%,对常见后处理操作具有鲁棒性。
  • Conclusion: Vision Transformers在篡改检测任务中表现出强大的表示能力,DinoLizer方法在深度伪造定位方面具有优越性。

[7] CANVAS: A Benchmark for Vision-Language Models on Tool-Based User Interface Design

Daeheon Jeong,Seoyeon Byun,Kihoon Son,Dae Hyun Kim,Juho Kim

Main category: cs.CV

TL;DR: CANVAS是一个评估视觉语言模型在工具调用界面设计能力的新基准,包含598个基于工具的设计任务,涵盖设计复制和设计修改两种任务类型。

  • Motivation: 目前缺乏评估视觉语言模型在工具调用界面设计能力的基准,而理解这种能力对于模型与设计师在常规软件中协作具有重要意义。
  • Method: 构建包含598个工具设计任务的CANVAS基准,从3.3K个移动UI设计中采样,涵盖30个功能类别,包含设计复制和设计修改两种任务类型。
  • Result: 领先模型表现出更具策略性的工具调用,提高了设计质量,同时识别了模型的常见错误模式。
  • Conclusion: CANVAS基准填补了工具调用设计评估的空白,为未来增强基于工具的设计能力提供了指导。

[8] Text-Guided Semantic Image Encoder

Raghuveer Thirukovalluru,Xiaochuang Han,Bhuwan Dhingra,Emily Dinan,Maha Elbayad

Main category: cs.CV

TL;DR: 提出文本引导语义图像编码器(TIE),通过文本查询条件化生成图像表示,在图像到文本任务中显著提升性能并提高推理效率。

  • Motivation: 传统视觉语言模型中的图像编码器通常独立预训练,处理图像时与下游任务或文本查询无关,存在局限性。
  • Method: 开发文本引导语义图像编码器(TIE),根据输入文本查询生成条件化的图像表示。
  • Result: 在1B和3B规模上,TIE模型在9个图像到文本基准测试中平均提升1.5和1.3分,DocVQA和InfoVQA任务提升达6分,同时仅使用一半图像tile,显著提高推理效率。
  • Conclusion: 文本条件化训练有效优化编码器捕捉关键视觉特征,TIE能持续关注查询相关区域,增强可解释性和查询特定基础。

[9] One Patch is All You Need: Joint Surface Material Reconstruction and Classification from Minimal Visual Cues

Sindhuja Penchala,Gavin Money,Gabriel Marques,Samuel Wood,Jessica Kirschman,Travis Atkison,Shahram Rahimi,Noorbakhsh Amiri Golilarz

Main category: cs.CV

TL;DR: SMARC是一个从极稀疏视觉输入中重建和分类表面材料的统一模型,仅需图像10%的连续补丁即可完成全RGB表面重建和材料分类。

  • Motivation: 现有方法大多依赖密集或全场景观测,在受限或部分视图环境中效果有限,需要解决从稀疏视觉线索理解材料表面的挑战。
  • Method: 结合部分卷积U-Net和分类头的架构,在极端观测稀疏条件下实现空间修复和语义理解。
  • Result: 在真实世界表面纹理数据集上,SMARC达到PSNR 17.55 dB和材料分类准确率85.10%的SOTA结果。
  • Conclusion: 部分卷积在缺失数据下的空间推理具有优势,为最小视觉表面理解奠定了坚实基础。

[10] LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

Zuhao Yang,Sudong Wang,Kaichen Zhang,Keming Wu,Sicong Leng,Yifan Zhang,Chengwei Qin,Shijian Lu,Xingxuan Li,Lidong Bing

Main category: cs.CV

TL;DR: LongVT是一个用于长视频推理的端到端代理框架,通过交错的多模态工具链思维实现全局到局部的推理循环,利用LMM的时序定位能力作为视频裁剪工具来聚焦相关片段,解决了长视频中证据稀疏和分散导致的幻觉问题。

  • Motivation: 大型多模态模型在处理长视频时容易产生幻觉,因为证据稀疏且时间分散。受人类理解长视频的方式启发(先全局浏览再检查相关片段细节),需要开发能够进行全局到局部推理的框架。
  • Method: 提出LongVT框架,利用LMM的时序定位能力作为原生视频裁剪工具,通过交错的多模态工具链思维实现全局到局部的推理循环,直到答案基于检索到的视觉证据。采用三阶段训练策略:工具集成的冷启动监督微调、代理强化学习和代理强化微调。
  • Result: 在四个具有挑战性的长视频理解和推理基准测试中,LongVT始终优于现有强基线模型。发布了包含247.9K训练样本和1,280个QA对的评估基准VideoSIAH数据集。
  • Conclusion: LongVT通过代理框架和工具集成方法有效解决了长视频推理中的幻觉问题,在多个基准测试中表现出色,为长视频理解提供了新的解决方案。

[11] Revisiting KRISP: A Lightweight Reproduction and Analysis of Knowledge-Enhanced Vision-Language Models

Souradeep Dutta,Keshav Bulia,Neena S Nair

Main category: cs.CV

TL;DR: 轻量级复现KRISP模型,参数大幅减少但性能保持75%,揭示原模型设计缺陷,在资源受限条件下验证知识增强VQA架构的可扩展性。

  • Motivation: 原KRISP模型虽然有效但计算需求大且与大型主干网络紧密耦合,不适合资源受限场景。本研究旨在重新审视该模型,提供轻量级复现版本。
  • Method: 通过系统消融研究进行轻量级模型复现,包括在合成VQA数据上的概念验证和在DAQUAR数据集上的评估,使用低参数配置和受限知识图谱域。
  • Result: 复现模型参数显著减少,性能约为原模型的75%,同时避免了AI幻觉问题,能够在智能手机和AR-VR等边缘设备上运行。
  • Conclusion: 轻量级知识增强VQA架构在资源受限条件下仍能有效工作,揭示了原模型设计中未充分讨论的问题,为边缘设备上的离线视觉推理提供了可行方案。

[12] Intriguing Properties of Dynamic Sampling Networks

Dario Morle,Reid Zaffino

Main category: cs.CV

TL;DR: 本文提出了一个名为"warping"的统一算子来概括动态采样机制,分析了其统计特性和训练稳定性条件,揭示了前向与反向传播的不对称性。

  • Motivation: 深度学习架构中的动态采样机制在计算机视觉模型中显示出实用性,但这些结构的理论分析尚未统一。本文旨在连接各种动态采样方法并建立统一的理论框架。
  • Method: 开发并分析了一个称为"warping"的新算子,该算子概括了现有方法,包括可变形卷积、主动卷积单元和空间变换网络。通过统计建模分析输入特性,并引入基于梯度更新信息的损失景观可视化方法。
  • Result: 发现动态采样机制代表了与传统平移不变卷积算子完全不同的正交算子类别,揭示了前向与反向传播的不对称性,并确定了确保动态采样网络稳定训练的条件。
  • Conclusion: warping算子为动态采样提供了最小化实现和可分析框架,通过理论分析和实证研究,为理解动态采样网络的学习行为提供了新的视角和工具。

[13] Δ-NeRF: Incremental Refinement of Neural Radiance Fields through Residual Control and Knowledge Transfer

Kriti Ghosh,Devjyoti Chakraborty,Lakshmish Ramaswamy,Suchendra M. Bhandarkar,In Kee Kim,Nancy O'Hare,Deepak Mishra

Main category: cs.CV

TL;DR: Δ-NeRF是一个模块化残差框架,用于增量式神经辐射场精炼,通过残差控制器、不确定性感知门控机制和视图选择策略,在卫星图像上实现高效增量学习,无需访问历史数据。

  • Motivation: 现有NeRF框架在引入新视图时需要完全重新训练,限制了在数据顺序到达场景(如卫星地形分析)中的应用。增量精炼NeRF的研究不足,简单方法存在灾难性遗忘问题。
  • Method: 提出Δ-NeRF框架:1)残差控制器向冻结的基础NeRF注入逐层修正;2)不确定性感知门控机制自适应结合基础和精炼预测;3)视图选择策略减少47%训练数据;4)知识蒸馏将增强模型压缩至原大小的20%。
  • Result: 在卫星图像上,Δ-NeRF性能与联合训练相当,训练时间减少30-42%。相比简单微调,PSNR提升高达43.5%,在某些指标上甚至超过联合训练。
  • Conclusion: Δ-NeRF为NeRF的增量学习提供了有效解决方案,在保持性能的同时显著提升训练效率,特别适用于卫星地形分析等数据顺序到达的应用场景。

[14] Layer-Aware Video Composition via Split-then-Merge

Ozgur Kara,Yujia Chen,Ming-Hsuan Yang,James M. Rehg,Wen-Sheng Chu,Du Tran

Main category: cs.CV

TL;DR: Split-then-Merge (StM)是一个新颖的生成视频合成框架,通过将未标注视频分割为动态前景和背景层,然后自组合学习动态主体与多样化场景的交互,解决了控制生成视频的数据稀缺问题。

  • Motivation: 解决生成视频合成中的控制问题和数据稀缺问题,传统方法依赖标注数据集或手工规则,而StM利用未标注视频学习复杂的组合动态。
  • Method: 将未标注视频分割为动态前景和背景层,通过自组合学习主体与场景的交互;采用变换感知训练管道,包括多层融合和增强实现affordance感知合成,以及保持前景保真度的身份保持损失。
  • Result: 在定量基准测试和人类/VLLM定性评估中,StM均优于最先进方法。
  • Conclusion: StM框架通过创新的分割-合并方法有效解决了生成视频合成的控制问题,并在多个评估指标上表现出色。

[15] SPHINX: A Synthetic Environment for Visual Perception and Reasoning

Md Tanvirul Alam,Saksham Aggarwal,Justin Yang Chae,Nidhi Rastogi

Main category: cs.CV

TL;DR: Sphinx是一个用于视觉感知和推理的合成环境,通过程序化生成包含图案、图块、图表、图标和几何基元的谜题,并配有可验证的真实解,支持精确评估和大规模数据集构建。

  • Motivation: 针对核心认知原语开发一个能够精确评估和构建大规模数据集的视觉感知与推理环境,以弥补现有模型在复杂视觉推理任务上的不足。
  • Method: 使用程序化生成方法创建包含25种任务类型的基准测试,涵盖对称检测、几何变换、空间推理、图表解释和序列预测等认知原语。
  • Result: 评估显示即使是先进的GPT-5模型准确率仅为51.1%,远低于人类表现;而使用可验证奖励的强化学习(RLVR)显著提高了模型在这些任务上的准确性。
  • Conclusion: Sphinx基准测试揭示了当前大型视觉语言模型在复杂视觉推理任务上的局限性,同时验证了RLVR方法在提升多模态推理能力方面的潜力。

[16] Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-based Visual Inversion

Samuele Dell'Erba,Andrew D. Bagdanov

Main category: cs.CV

TL;DR: 提出了一种基于优化的视觉反转(OVI)方法,无需训练即可替代传统扩散先验网络,通过优化潜在视觉表示来最大化与文本嵌入的余弦相似度,并引入两种约束提升图像质量。

  • Motivation: 传统扩散模型依赖计算昂贵的先验网络将文本嵌入映射到视觉流形,需要大量数据和训练。本文质疑这种先验的必要性,寻求训练免费、数据免费的替代方案。
  • Method: 使用优化基视觉反转(OVI):从随机伪标记初始化潜在视觉表示,迭代优化以最大化与文本嵌入的余弦相似度。提出两种约束:基于马哈拉诺比斯距离的损失和最近邻损失,来正则化优化过程。
  • Result: 在Kandinsky 2.2上的实验表明OVI可以替代传统先验。分析发现当前评估基准存在缺陷,仅使用文本嵌入作为先验就能获得高分但感知质量较低。约束OVI方法在视觉保真度上优于基线,最近邻方法表现最佳,达到与最先进数据高效先验相当或更高的定量分数。
  • Conclusion: OVI作为传统先验的可行替代方案值得进一步研究,同时揭示了当前评估基准的局限性,需要更全面的评估方法。

[17] RefTr: Recurrent Refinement of Confluent Trajectories for 3D Vascular Tree Centerline Graphs

Roman Naeem,David Hagerman,Jennifer Alvén,Fredrik Kahl

Main category: cs.CV

TL;DR: RefTr是一个用于血管树中心线生成的3D图像到图模型,通过循环精炼汇合轨迹来生成具有正确树形拓扑的中心线图。

  • Motivation: 在临床诊断、治疗规划和手术导航中,准确检测管状结构(如血管和气道)的中心线至关重要。保持高召回率尤为重要,因为遗漏小分支可能导致致命错误。
  • Method: 采用Producer-Refiner架构,基于Transformer解码器。Producer提出初始汇合轨迹,Refiner循环精炼这些轨迹形成最终的中心线图。引入汇合轨迹表示法确保有效树形拓扑,并采用高效的非极大值抑制算法合并重复分支。
  • Result: 在多个公共中心线数据集上,RefTr实现了优于先前SOTA的召回率和相当的精确度,同时提供更快的推理速度和显著减少的参数数量(解码器参数减少2.4倍)。
  • Conclusion: RefTr展示了作为3D医学成像中血管树分析的新SOTA框架的潜力,在保持高召回率的同时提升了效率和精度。

[18] MODEST: Multi-Optics Depth-of-Field Stereo Dataset

Nisarg K. Trivedi,Vinayak A. Belludi,Li-Yun Wang,Pardis Taghavi,Dante Lok

Main category: cs.CV

TL;DR: 提出了首个高分辨率(5472×3648px)立体DSLR数据集,包含18000张图像,系统性地在复杂真实场景中变化焦距和光圈,捕捉专业相机系统的光学真实性和复杂性。

  • Motivation: 解决深度估计在真实光学条件下的可靠性问题,填补大规模高保真实立体DSLR数据集的空白,弥合合成训练数据与真实相机光学之间的真实感差距。
  • Method: 使用两个相同的相机组件,在9个不同场景复杂度、光照和背景的场景中,以10个焦距(28-70mm)和5个光圈(f/2.8-f/22)拍摄,覆盖50种光学配置,每个场景2000张图像。
  • Result: 创建了包含挑战性视觉元素的数据集,如多尺度光学错觉、反射表面、镜子、透明玻璃墙、精细细节和自然/人工环境光变化。
  • Conclusion: 该数据集支持几何和光学效应的受控分析,展示了当前最先进的单目、立体深度和景深方法面临的挑战,旨在促进真实世界光学泛化的可重复研究。

[19] Unsupervised Memorability Modeling from Tip-of-the-Tongue Retrieval Queries

Sree Bhattacharyya,Yaman Kumar Singla,Sudhir Yarram,Somesh Kumar Singh,Harini S,James Z. Wang

Main category: cs.CV

TL;DR: 提出了首个大规模无监督视觉记忆性数据集,包含82,000多个视频及其描述性回忆数据,用于建模视觉记忆信号,在回忆生成和舌尖现象检索任务上表现优于现有模型。

  • Motivation: 现有视觉记忆性研究面临人工标注成本高、数据集多样性有限的问题,且大多只收集聚合记忆分数,未能捕捉自然开放式回忆中的细微记忆信号。
  • Method: 利用Reddit等在线平台的舌尖现象检索查询构建数据集,采用对比训练策略创建多模态舌尖现象检索模型。
  • Result: 基于该数据集微调的大规模视觉语言模型在生成视觉内容的开放式记忆描述方面优于GPT-4o等最先进模型,并创建了首个能够执行多模态舌尖现象检索的模型。
  • Conclusion: 该数据集和模型为视觉内容记忆性研究提供了新的方向,推动了该领域的进展。

[20] Estimating Fog Parameters from a Sequence of Stereo Images

Yining Ding,João F. C. Mota,Andrew M. Wallace,Sen Wang

Main category: cs.CV

TL;DR: 提出一种从立体雾天图像序列中同时估计所有雾模型参数的优化方法,解决了传统方法误差传播问题,并能处理全局非均匀的真实雾况。

  • Motivation: 现有方法顺序估计雾参数容易导致误差传播,且假设雾全局均匀无法处理真实世界中的非均匀雾况,需要一种更鲁棒的参数估计方法。
  • Method: 通过构建新颖的优化问题同时估计所有雾模型参数,假设雾仅局部均匀以处理全局非均匀的真实雾。可作为现有视觉SLAM或里程计系统的附加模块。
  • Result: 在合成雾天数据和真实雾天序列SDIRF数据集上的实验表明,该方法在合成数据上产生最准确的估计,在真实雾况下适应性更好。
  • Conclusion: 该方法在雾参数估计方面优于现有方法,创建的SDIRF数据集为雾天视觉感知研究提供了重要资源,代码和数据集已开源以推动相关研究。

[21] V2-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence

Jiancheng Pan,Runze Wang,Tianwen Qian,Mohammad Mahdi,Yanwei Fu,Xiangyang Xue,Xiaomeng Huang,Luc Van Gool,Danda Pani Paudel,Yuqian Fu

Main category: cs.CV

TL;DR: V^2-SAM是一个统一的跨视角物体对应框架,通过两个互补的提示生成器将SAM2从单视角分割扩展到跨视角对应,在多个基准测试中达到最先进性能。

  • Motivation: 跨视角物体对应任务(如ego-exo物体对应)由于视角和外观的剧烈变化而面临重大挑战,使得现有分割模型如SAM2难以直接应用。
  • Method: 提出V^2-SAM框架,包含交叉视角锚点提示生成器(V^2-Anchor)和交叉视角视觉提示生成器(V^2-Visual),采用多专家设计和后验循环一致性选择器(PCCS)自适应选择最可靠的专家。
  • Result: 在Ego-Exo4D、DAVIS-2017和HANDAL-X数据集上取得了新的最先进性能。
  • Conclusion: V^2-SAM有效解决了跨视角物体对应问题,通过几何感知和外观引导的提示生成器实现了可靠的跨视角对应。

[22] Test-Time Alignment of Text-to-Image Diffusion Models via Null-Text Embedding Optimisation

Taehoon Kim,Henry Gouk,Timothy Hospedales

Main category: cs.CV

TL;DR: Null-TTA通过在分类器自由引导中优化无条件嵌入,而不是操纵潜在或噪声变量,实现了对扩散模型的测试时对齐,避免了奖励黑客问题,并在保持跨奖励泛化能力的同时实现了最先进的目标测试时对齐效果。

  • Motivation: 现有的测试时对齐方法要么优化不足,要么过度优化(奖励黑客),即利用非语义噪声模式来提高奖励,这影响了模型的对齐效果和泛化能力。
  • Method: 提出Null-TTA方法,通过优化分类器自由引导中的无条件嵌入来实现扩散模型的对齐。由于文本嵌入空间具有结构化的语义特性,这确保了对齐发生在语义一致的流形上,防止了奖励黑客问题。
  • Result: Null-TTA在目标测试时对齐方面达到了最先进的性能,同时保持了强大的跨奖励泛化能力。
  • Conclusion: 语义空间优化是测试时对齐的一种有效且原则性的新范式。

[23] GaINeR: Geometry-Aware Implicit Network Representation

Weronika Jakubowska,Mikołaj Zieliński,Rafał Tobiasz,Krzysztof Byrski,Maciej Zięba,Dominik Belter,Przemysław Spurek

Main category: cs.CV

TL;DR: 提出GaINeR:一种结合可训练高斯分布与神经网络的几何感知隐式网络表示,用于2D图像建模,支持连续表示、可解释几何结构和局部编辑。

  • Motivation: 传统隐式神经表示缺乏显式几何结构,局部编辑能力有限,难以与物理模拟集成,限制了在动态或交互场景中的应用。
  • Method: 将可训练高斯分布与神经网络结合,对给定图像坐标检索K个最近高斯分布,聚合距离加权的嵌入,通过神经网络预测RGB值。
  • Result: 实现了连续图像表示、可解释几何结构和灵活局部编辑,为物理感知和交互式图像操作提供了基础。
  • Conclusion: GaINeR框架成功解决了传统INR的局限性,在保持高质量重建的同时增强了几何结构和编辑能力。

[24] A deep learning model to reduce agent dose for contrast-enhanced MRI of the cerebellopontine angle cistern

Yunjie Chen,Rianne A. Weber,Olaf M. Neve,Stephan R. Romeijn,Erik F. Hensen,Jelmer M. Wolterink,Qian Tao,Marius Staring,Berit M. Verbist

Main category: cs.CV

TL;DR: 开发深度学习模型来恢复低剂量对比增强T1加权MRI图像,使CPA池病变检测和诊断在仅使用10%-30%标准对比剂剂量下成为可能。

  • Motivation: 减少MRI检查中对比剂的使用剂量,降低患者风险和成本,同时保持诊断图像质量。
  • Method: 使用多中心回顾性研究,利用前庭神经鞘瘤患者的T1和标准剂量T1ce图像模拟低剂量T1ce,训练深度学习模型从低剂量图像恢复标准剂量图像质量。
  • Result: 在10%输入剂量下,DL恢复的T1ce显著改善了图像质量指标和分割性能,结构相似性指数从0.639提高到0.993,Dice系数从0.673提高到0.734。
  • Conclusion: 深度学习模型能够显著改善低剂量MRI的图像质量,使得在仅使用10%-30%标准对比剂剂量下进行病变检测和诊断成为可能。

[25] Smooth regularization for efficient video recognition

Gil Goldman,Raja Giryes,Mahadev Satyanarayanan

Main category: cs.CV

TL;DR: 提出一种平滑正则化技术,通过高斯随机游走建模连续帧嵌入变化,为轻量级视频识别模型注入强时间归纳偏置,显著提升准确率。

  • Motivation: 视频具有天然的时间连贯性,但轻量级模型难以有效捕捉复杂的时间动态。通过强制中间层嵌入的平滑性,可以更好地对齐视频的自然时间特性。
  • Method: 使用高斯随机游走(GRW)建模连续帧中间层嵌入的变化,惩罚表示上的突变,促进低加速度解决方案。
  • Result: 在Kinetics-600上提升准确率3.8%-6.4%;MoViNets模型族在各自FLOP约束下将SOTA提升3.8%-6.1%;MobileNetV3和MoViNets-Stream在可比内存占用下比先前SOTA提升4.9%-6.4%。
  • Conclusion: 平滑正则化技术能有效提升轻量级视频识别模型的性能,通过时间连贯性偏置帮助模型更好地学习视频动态。

[26] Open Vocabulary Compositional Explanations for Neuron Alignment

Biagio La Rosa,Leilani H. Gilpin

Main category: cs.CV

TL;DR: 本文提出了一个开放词汇组合解释框架,通过语义分割生成掩码来计算神经元激活与任意概念之间的空间对齐关系,突破了传统方法依赖人工标注数据的限制。

  • Motivation: 传统组合解释方法依赖人工标注数据集,限制了其在特定领域和预定义概念之外的适用性。本文旨在开发一个框架,允许用户针对任意概念和数据集来探测神经元编码信息的方式。
  • Method: 框架包含三个步骤:指定任意概念、使用开放词汇语义分割模型生成语义分割掩码、从这些掩码中推导组合解释。通过逻辑关系表达神经元激活与人类知识之间的空间对齐。
  • Result: 与先前方法相比,该框架在定量指标和人类可解释性方面表现良好,分析了从人工标注数据转向模型标注数据时解释的差异,展示了框架在任务和感兴趣属性解释灵活性方面的额外能力。
  • Conclusion: 提出的开放词汇组合解释框架成功突破了传统方法的限制,能够灵活地探测神经元对任意概念的编码方式,为理解深度神经网络中神经元如何编码信息提供了更通用的工具。

[27] UruDendro4: A Benchmark Dataset for Automatic Tree-Ring Detection in Cross-Section Images of Pinus taeda L

Henry Marichal,Joaquin Blanco,Diego Passarella,Gregory Randall

Main category: cs.CV

TL;DR: 提出了UruDendro4数据集,包含102个火炬松横截面图像样本,用于树木年轮检测和体积建模,并提供了基于深度学习方法的最佳性能基准。

  • Motivation: 解决木材横截面数据稀缺问题,提供包含多个高度样本的数据集,支持年轮体积建模研究。
  • Method: 创建UruDendro4数据集,包含手动标注的年轮信息;使用DeepCS-TRD等最先进方法进行自动年轮检测性能基准测试。
  • Result: DeepCS-TRD方法表现最佳,平均精度0.838,平均召回率0.782,自适应兰德误差0.084;包含该数据集的训练能提高模型泛化能力。
  • Conclusion: UruDendro4数据集填补了木材横截面数据空白,支持年轮自动检测和体积建模研究,为相关算法开发提供了重要资源。

[28] BUSTR: Breast Ultrasound Text Reporting with a Descriptor-Aware Vision-Language Model

Rawa Mohammed,Mina Attin,Bryar Shareef

Main category: cs.CV

TL;DR: BUSTR是一个无需配对图像-报告监督的多任务视觉语言框架,通过结构化描述符和放射组学特征生成乳腺超声报告,在多个数据集上提升了报告生成质量和临床效果。

  • Motivation: 乳腺超声报告生成面临缺乏配对图像-报告数据集和大语言模型幻觉风险的问题,需要不依赖配对数据的解决方案。
  • Method: 使用多任务Swin编码器学习描述符感知的视觉表示,通过双级目标(标记级交叉熵和余弦相似度对齐损失)对齐视觉和文本标记,从结构化描述符构建报告。
  • Result: 在两个公共乳腺超声数据集上,BUSTR持续改善了标准自然语言生成指标和临床效果指标,特别是对BI-RADS类别和病理学等关键目标。
  • Conclusion: 这种描述符感知的视觉模型,结合标记级和对齐损失训练,无需配对图像-报告数据即可改善自动报告指标和临床效果。

[29] Beyond Realism: Learning the Art of Expressive Composition with StickerNet

Haoming Lu,David Kocharian,Humphrey Shi

Main category: cs.CV

TL;DR: 提出了表达性图像合成任务,通过StickerNet两阶段框架学习真实用户编辑行为,强调表达性和用户意图而非真实性

  • Motivation: 传统图像合成研究关注视觉真实性和语义合理性,但实际在线平台用户更倾向于创作艺术性、趣味性或社交参与性的内容,需要新的任务定义来反映真实创作行为
  • Method: 提出StickerNet两阶段框架:首先确定合成类型,然后预测透明度、遮罩、位置和缩放等放置参数;基于180万真实用户编辑行为构建数据集
  • Result: 用户研究和定量评估显示StickerNet优于常见基线方法,与人类放置行为高度匹配,证明了从真实编辑模式学习的有效性
  • Conclusion: 这项工作引入了视觉理解的新方向,强调表达性和用户意图而非真实性,为图像编辑研究开辟了新路径

[30] TrafficLens: Multi-Camera Traffic Video Analysis Using LLMs

Md Adnan Arefeen,Biplob Debnath,Srimat Chakradhar

Main category: cs.CV

TL;DR: TrafficLens是一个针对多摄像头交通路口的优化算法,通过利用摄像头重叠覆盖区域和智能跳过冗余VLM调用,将视频到文本转换时间减少4倍,同时保持信息准确性。

  • Motivation: 多摄像头交通视频数据量大,传统使用VLM将视频转为文本再通过LLM分析的方法耗时较长,无法及时生成交通洞察和调查事故。
  • Method: 采用顺序处理方式,利用摄像头重叠覆盖区域,迭代应用不同token限制的VLM,将前一个摄像头的输出作为后续摄像头的提示,并通过对象级相似性检测器智能跳过冗余VLM调用。
  • Result: 在真实数据集上的实验结果表明,TrafficLens将视频到文本转换时间减少了4倍,同时保持了信息准确性。
  • Conclusion: TrafficLens能够有效解决多摄像头交通视频分析中的效率问题,为智能交通系统提供快速准确的分析能力。

[31] Privacy-Preserving Federated Vision Transformer Learning Leveraging Lightweight Homomorphic Encryption in Medical AI

Al Amin,Kamrul Hasan,Liang Hong,Sharif Ullah

Main category: cs.CV

TL;DR: 提出一种结合Vision Transformers和同态加密的隐私保护联邦学习框架,用于安全的多机构病理学分类,通过加密CLS令牌大幅减少通信开销并防止模型反演攻击。

  • Motivation: 医疗机构的协作机器学习需要保护患者隐私,传统联邦学习的梯度容易受到重建攻击,存在敏感医疗信息泄露风险。
  • Method: 使用Vision Transformers的CLS令牌作为紧凑特征表示,通过CKKS同态加密进行安全聚合,相比梯度加密减少30倍通信量。
  • Result: 梯度易受模型反演攻击(PSNR: 52.26 dB, SSIM: 0.999, NMI: 0.741),而CLS保护的HE方法能防止此类攻击,每轮聚合仅需326KB加密数据传输,在非加密域达到96.12%准确率,加密域达到90.02%准确率。
  • Conclusion: 该方法在保护医疗数据隐私的同时,实现了高效的联邦学习和安全的加密推理,为多机构医疗协作提供了可行的隐私保护解决方案。

[32] Inversion-Free Style Transfer with Dual Rectified Flows

Yingying Deng,Xiangyu He,Fan Tang,Weiming Dong,Xucheng Yin

Main category: cs.CV

TL;DR: 提出了一种基于双整流流的免反演风格迁移框架,通过并行预测内容和风格轨迹,动态中点插值融合,实现高效且无失真的风格迁移。

  • Motivation: 主流基于扩散模型的免训练风格迁移方法依赖计算密集的反演过程,影响效率且当反演不准确时会产生视觉失真,需要更高效的解决方案。
  • Method: 使用双整流流框架并行预测内容和风格轨迹,通过动态中点插值融合两个路径的速度场,结合注意力注入引导风格整合。
  • Result: 实验表明该方法在多样风格和内容上具有良好的泛化能力,提供了高效且有效的风格迁移流程。
  • Conclusion: 提出的免反演风格迁移框架通过双整流流和动态融合机制,在保持视觉保真度和计算效率的同时,解决了传统方法依赖反演过程的问题。

[33] RefOnce: Distilling References into a Prototype Memory for Referring Camouflaged Object Detection

Yu-Huan Wu,Zi-Xuan Zhu,Yan Wang,Liangli Zhen,Deng-Ping Fan

Main category: cs.CV

TL;DR: 提出了一种无需测试时参考图像的伪装目标检测框架,通过将参考图像蒸馏到类原型内存中,在推理时通过查询条件化的原型混合来合成参考向量。

  • Motivation: 当前Referring Camouflaged Object Detection (Ref-COD)系统采用双分支设计,需要在测试时提供参考图像,这限制了部署性、增加了延迟和数据收集负担。
  • Method: 在训练期间将参考图像蒸馏到类原型内存中,通过EMA更新每个类别的原型;在推理时通过查询条件化的原型混合预测混合权重来生成指导向量;提出双向注意力对齐模块来弥合参考统计和伪装查询特征之间的表示差距。
  • Result: 在大型R2C7K基准测试上进行了评估,实验表明该方法与最新技术相比具有竞争性或更优越的性能。
  • Conclusion: 该方法为Ref-COD提供了一种简单、高效的路径,无需强制性的参考图像。

[34] Wavefront-Constrained Passive Obscured Object Detection

Zhiwen Zheng,Yiwei Ouyang,Zhao Huang,Tao Zhang,Xiaoshuai Zhang,Huiyu Zhou,Wenwen Tang,Shaowei Jiang,Jin Liu,Xingru Huang

Main category: cs.CV

TL;DR: 提出WavePCNet网络,通过三相位波前复传播重投影和动量记忆机制,增强对遮挡物体的感知能力,在低信噪比条件下实现稳定可靠的定位和分割。

  • Motivation: 现有基于实值建模或局部卷积的方法难以捕捉相干光传播的物理原理,在低信噪比条件下容易收敛到非物理解,影响观测的稳定性和可靠性。
  • Method: WavePCNet整合TriWCP模块引入复振幅传递算子精确约束相干传播行为,使用动量记忆机制抑制扰动积累,并通过高频跨层补偿增强构建频率选择性通路。
  • Result: 在四个物理采集数据集上的实验表明,WavePCNet在准确性和鲁棒性方面均优于现有最先进方法。
  • Conclusion: WavePCNet通过物理驱动的波前传播补偿,有效解决了遮挡物体定位分割中的多重散射和介质扰动问题,提升了模型的稳定性和可解释性。

[35] GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision

Yuxiao Xiang,Junchi Chen,Zhenchao Jin,Changtao Miao,Haojie Yuan,Qi Chu,Tao Gong,Nenghai Yu

Main category: cs.CV

TL;DR: GuardTrace-VL是一个视觉感知的安全审计器,通过联合图像-文本分析监控完整的问答推理流程,在推理阶段检测不安全内容,相比现有方法在F1分数上提升13.5%。

  • Motivation: 现有的多模态安全防护主要评估输入问题和最终答案,忽略了中间推理过程,导致即使最终答案无害,推理轨迹中也可能包含不安全内容,造成部署风险。
  • Method: 提出GuardTrace-VL安全审计器,通过联合图像-文本分析监控完整的问答推理流程;构建GuardTrace数据集,采用多样化提示策略生成并通过MLRM和人工投票验证流程精炼;提出三阶段渐进式训练方案结合数据精炼过程。
  • Result: 在涵盖领域内和领域外场景的测试集上,GuardTrace-VL模型在不安全推理检测任务中达到93.1%的F1分数,相比之前最强的多模态安全防御方法提升了13.5%的F1分数。
  • Conclusion: GuardTrace-VL能够有效检测推理过程中出现的不安全内容,解决了现有安全防护忽略中间推理过程的局限性,为多模态大推理模型的安全部署提供了重要保障。

[36] From Inpainting to Layer Decomposition: Repurposing Generative Inpainting Models for Image Layer Decomposition

Jingxi Chen,Yixiao Zhang,Xiaoye Qian,Zongxia Li,Cornelia Fermuller,Caren Chen,Yiannis Aloimonos

Main category: cs.CV

TL;DR: 该论文提出了一种基于扩散模型的图像分层分解方法,通过轻量级微调将修复模型适配用于分层分解,并引入多模态上下文融合模块来保留细节,在合成数据集上训练,在目标移除和遮挡恢复方面表现优异。

  • Motivation: 图像可以视为前景对象在背景上的分层组合,这种分层表示能够独立编辑元素,为内容创作提供更大灵活性。尽管大型生成模型取得了进展,但由于方法和数据有限,将单张图像分解为层次仍然具有挑战性。
  • Method: 观察到分层分解与修复任务之间的强关联,提出通过轻量级微调将基于扩散的修复模型适配用于分层分解。为了在潜在空间中保留细节,引入了具有线性注意力复杂度的多模态上下文融合模块。模型完全在开源资源构建的合成数据集上训练。
  • Result: 模型在目标移除和遮挡恢复方面实现了优越性能,为下游编辑和创意应用开辟了新的可能性。
  • Conclusion: 该方法通过连接分层分解与修复任务,利用扩散模型和创新的多模态融合模块,成功解决了单图像分层分解的挑战,在图像编辑应用中展现出强大潜力。

[37] Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning

Xiaoxing You,Qiang Huang,Lingyu Li,Chi Zhang,Xiaopeng Liu,Min Zhang,Jun Yu

Main category: cs.CV

TL;DR: MERGE是一个多模态实体感知检索增强生成框架,通过构建实体中心的多模态知识库、多阶段假设-标题策略和动态检索指导,显著提升了新闻图像描述的质量和实体识别能力。

  • Motivation: 解决现有新闻图像描述方法面临的三个关键挑战:信息覆盖不完整、跨模态对齐弱、视觉实体定位不优。
  • Method: 构建实体中心的多模态知识库(EMKB),整合文本、视觉和结构化知识;采用多阶段假设-标题策略改善跨模态对齐;通过图像内容引导的动态检索增强视觉实体匹配。
  • Result: 在GoodNews和NYTimes800k数据集上显著优于现有方法,CIDEr分别提升+6.84和+1.16,F1分数分别提升+4.14和+2.64;在未见过的Visual News数据集上表现优异,CIDEr提升+20.17,F1分数提升+6.22。
  • Conclusion: MERGE框架在新闻图像描述任务中表现出色,具有强大的鲁棒性和领域适应性,能够有效解决现有方法的局限性。

[38] MetaRank: Task-Aware Metric Selection for Model Transferability Estimation

Yuhang Liu,Wenjie Zhao,Yunhui Guo

Main category: cs.CV

TL;DR: MetaRank是一个基于元学习的框架,用于自动选择最适合特定任务的模型迁移性评估指标,解决了传统方法依赖平均性能而忽略任务特性的问题。

  • Motivation: 现有的模型迁移性评估方法选择往往随意或仅基于历史平均性能,但实际效果高度依赖具体任务,没有单一指标在所有数据集上都是最优的。
  • Method: 将指标选择构建为学习排序问题,使用预训练语言模型编码数据集和指标的文本描述,在共享语义空间中嵌入,通过元预测器学习数据集特征与指标机制的关系,采用列表式优化目标优先正确排序表现最佳的指标。
  • Result: 在11个预训练模型和11个目标数据集上的广泛实验证明了该方法的强有效性。
  • Conclusion: MetaRank能够基于新目标数据集的文本描述高效排序候选MTE指标,使实践者能够先验地选择最合适的指标。

[39] Structure-Aware Prototype Guided Trusted Multi-View Classification

Haojian Huang,Jiahao Shi,Zhe Liu,Harold Haodong Chen,Han Fang,Hao Sun,Zhongjiang He

Main category: cs.CV

TL;DR: 提出了一种基于原型的新型可信多视图分类框架,通过简化视图内邻居关系学习并实现视图内外结构的动态对齐,提高跨视图共识发现的效率和一致性

  • Motivation: 现有TMVC方法依赖全局密集邻居关系建模视图内依赖,计算成本高且无法确保视图间关系一致性,同时缺乏对多视图邻居结构在类空间中一致性的保证
  • Method: 引入原型来表示每个视图的邻居结构,简化视图内邻居关系学习,实现视图内外结构的动态对齐
  • Result: 在多个公开多视图数据集上的实验表明,该方法在性能和鲁棒性方面与主流TMVC方法相比具有竞争力
  • Conclusion: 所提出的基于原型的TMVC框架能够更高效和一致地发现跨视图共识,提高分类结果的可信度

[40] CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching

Qirui Yang,Yang Yang,Ying Zeng,Xiaobin Hu,Bo Li,Huanjing Yue,Jingyu Yang,Peng-Tao Jiang

Main category: cs.CV

TL;DR: CameraMaster是一个统一的相机感知框架,通过解耦相机指令和参数嵌入来实现精确的图像修饰控制,解决了现有方法在参数控制精度和可扩展性方面的不足。

  • Motivation: 现有基于文本的扩散模型在图像修饰时难以实现物理一致的参数控制,要么依赖模糊的文本提示,要么需要为不同参数训练单独的头/权重,限制了精确控制和多参数组合能力。
  • Method: 提出CameraMaster框架,将相机指令和参数嵌入显式解耦并整合:使用参数嵌入调制相机指令和内容语义,通过交叉注意力注入调制后的指令到内容特征,并将指令和相机嵌入作为条件信号注入时间嵌入进行统一层间调制。
  • Result: 在78K图像-提示对数据集上的实验表明,CameraMaster对参数变化产生单调且近似线性的响应,支持无缝多参数组合,性能显著优于现有方法。
  • Conclusion: CameraMaster通过统一的相机感知框架实现了精确、可扩展的图像修饰控制,在参数敏感性和多参数组合方面表现出色。

[41] CaptionQA: Is Your Caption as Useful as the Image Itself?

Shijia Yang,Yunong Liu,Bohan Zhai,Ximeng Sun,Zicheng Liu,Emad Barsoum,Manling Li,Chenfeng Xu

Main category: cs.CV

TL;DR: 提出了CaptionQA基准,通过下游任务效用评估图像描述质量,覆盖4个领域,包含33,027个密集标注的多选题,揭示当前MLLM在描述效用方面存在显著差距。

  • Motivation: 当前评估方法未能回答一个基本问题:图像描述能否在实际下游任务中替代图像?需要基于效用的基准来评估模型生成的描述质量。
  • Method: 构建可扩展的领域相关基准,涵盖自然、文档、电商和具身AI4个领域,建立25个顶级类别和69个子类别的细粒度分类法,创建33,027个需要视觉信息回答的多选题。
  • Result: 评估显示图像与其描述效用之间存在显著差距,在传统图像QA基准上表现相近的模型,在描述效用上最多下降32%。
  • Conclusion: CaptionQA基准能有效评估描述在下游任务中的实用性,揭示了当前MLLM在生成有用描述方面的不足,为未来改进提供了方向。

[42] FlowerDance: MeanFlow for Efficient and Refined 3D Dance Generation

Kaixing Yang,Xulong Tang,Ziqiao Peng,Xiangyue Zhang,Puwei Wang,Jun He,Hongyan Liu

Main category: cs.CV

TL;DR: FlowerDance是一个高效的音乐到舞蹈生成系统,通过结合MeanFlow与物理一致性约束,以及BiMamba架构和通道级跨模态融合,实现了高质量舞蹈动作的快速生成,支持运动编辑功能。

  • Motivation: 现有音乐到舞蹈生成方法生成效率有限,无法为高保真3D渲染提供足够的计算空间,限制了3D角色在现实应用中的表现力。
  • Method: 结合MeanFlow与物理一致性约束实现高质量动作生成;采用BiMamba架构和通道级跨模态融合,以非自回归方式高效生成舞蹈;支持运动编辑功能。
  • Result: 在AIST++和FineDance数据集上的实验表明,FlowerDance在动作质量和生成效率方面均达到最先进水平。
  • Conclusion: FlowerDance不仅生成具有物理合理性和艺术表现力的精细动作,还在推理速度和内存利用方面实现了显著的生成效率提升。

[43] LungNoduleAgent: A Collaborative Multi-Agent System for Precision Diagnosis of Lung Nodules

Cheng Yang,Hui Jin,Xinlei Yu,Zhipeng Wang,Yaoqun Liu,Fenglei Fan,Dajiang Lei,Gangyong Jia,Changmiao Wang,Ruiquan Ge

Main category: cs.CV

TL;DR: LungNoduleAgent是一个创新的协作多智能体系统,专门用于分析肺部CT扫描,通过三个主要模块(结节定位器、放射科医生、医生智能体系统)提高结节描述和恶性程度分级的精确度。

  • Motivation: 当前多模态大语言模型在分析肺部CT扫描时,在准确描述结节形态和融入医学专业知识方面存在挑战,影响了在临床环境中的可靠性和有效性。协作多智能体系统在医学应用中平衡通用性和精确性方面具有潜力,但在病理学领域尚未充分探索。
  • Method: LungNoduleAgent将诊断过程分解为顺序组件:1)结节定位器协调临床检测模型准确定位结节;2)放射科医生整合局部图像描述技术生成全面CT报告;3)医生智能体系统使用图像和CT报告,在病理知识库和多智能体系统框架支持下进行恶性程度推理。
  • Result: 在两个私有数据集和公共LIDC-IDRI数据集上的广泛测试表明,LungNoduleAgent超越了主流视觉语言模型、智能体系统和先进专家模型。
  • Conclusion: 结果强调了区域级语义对齐和多智能体协作在结节诊断中的重要性。LungNoduleAgent是支持肺部结节临床分析的有前景的基础工具。

[44] PG-ControlNet: A Physics-Guided ControlNet for Generative Spatially Varying Image Deblurring

Hakki Motorcu,Mujdat Cetin

Main category: cs.CV

TL;DR: 提出了一种新颖的图像去模糊框架,通过将强大的生成先验与显式物理约束相结合,解决了现有方法在物理精度和感知质量之间的权衡问题。

  • Motivation: 现有基于学习的图像去模糊方法存在两种范式:基于模型的深度展开方法会产生过度平滑、带有伪影的纹理,而生成模型虽然感知质量更好但会因物理约束弱而产生幻觉细节。需要一种能同时保证物理精度和感知真实性的方法。
  • Method: 将退化场建模为高维压缩核的密集连续体,捕捉运动和退化模式的微小变化。利用这个丰富的描述符场来调节ControlNet架构,强有力地引导扩散采样过程。
  • Result: 在具有挑战性的严重模糊场景中,该方法在物理精度和感知真实性之间取得了良好平衡,优于最先进的基于模型方法和生成基线。
  • Conclusion: 该方法成功调和了物理约束和生成先验,为空间变化图像去模糊提供了一种有效解决方案,在保持物理准确性的同时实现了高质量的感知结果。

[45] MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization

Yingjie Xia,Xi Wang,Jinglei Shi,Vicky Kalogeiton,Jian Yang

Main category: cs.CV

TL;DR: MUSE是一个统一的图像情感合成框架,能够同时进行情感生成和编辑,通过梯度优化情感token、基于语义相似度的时机选择和多重情感损失来解决情感合成的关键问题。

  • Motivation: 当前图像情感合成方法将生成和编辑任务人为分离,导致效率低下且限制了在治疗干预、故事讲述等自然交织任务中的应用。
  • Method: 采用概念上对齐测试时间缩放(TTS)的策略,利用现成情感分类器进行梯度优化情感token,通过语义相似度确定最佳引导时机,使用多重情感损失减少固有和相似情感的干扰。
  • Result: 实验结果显示MUSE在生成和编辑任务中均优于所有方法,提高了情感准确性和语义多样性,同时在期望内容、文本提示遵循和真实情感表达之间保持最佳平衡。
  • Conclusion: MUSE为情感合成建立了新的范式,无需额外更新扩散模型或专门的情感合成数据集。

[46] Long-Term Alzheimers Disease Prediction: A Novel Image Generation Method Using Temporal Parameter Estimation with Normal Inverse Gamma Distribution on Uneven Time Series

Xin Hong,Xinze Sun,Yinhao Li,Yen-Wei Chen

Main category: cs.CV

TL;DR: 提出T-NIG模型,通过将时间参数融入正态逆伽马分布,在阿尔茨海默病长期预测中处理不规则时间间隔的序列数据,保持疾病相关特征。

  • Motivation: 解决长期AD预测中因序列数据时间间隔不规则而难以维持疾病相关特征的问题,利用时间相关分布反映疾病特征变化。
  • Method: 使用两个时间点的脑图像,通过坐标邻域识别特征,在正态逆伽马分布中融入时间参数,并利用不确定性估计减少认知和随机不确定性。
  • Result: T-NIG模型在数据集中的短期和长期预测任务中表现出最先进的性能,能够熟练预测疾病进展并保持疾病相关特征。
  • Conclusion: T-NIG模型能有效处理不规则时间分布的数据,在阿尔茨海默病预测中保持疾病特征,展示了在长期预测中的优越性能。

[47] MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Ziyun Zeng,Hang Hua,Jiebo Luo

Main category: cs.CV

TL;DR: MIRA是一个轻量级的多模态推理代理,通过迭代感知-推理-行动循环来改进指令引导的图像编辑,解决了扩散模型在理解复杂指令时的语义漂移问题。

  • Motivation: 扩散式编辑模型难以准确理解复杂的用户指令,特别是涉及组合关系、上下文线索或指代表达的指令,导致编辑结果语义漂移或无法反映预期变化。
  • Method: 提出MIRA多模态推理代理,采用迭代感知-推理-行动循环,逐步预测原子编辑指令,利用视觉反馈进行决策。使用150K多模态工具使用数据集MIRA-Editing和两阶段SFT+GRPO训练流程。
  • Result: 当与开源图像编辑模型(如Flux.1-Kontext、Step1X-Edit、Qwen-Image-Edit)配合使用时,MIRA显著提高了语义一致性和感知质量,性能达到或超过GPT-Image和Nano-Banana等专有系统。
  • Conclusion: MIRA通过模拟多轮人机交互过程,有效解决了复杂指令理解问题,为指令引导的图像编辑提供了更准确和可靠的解决方案。

[48] CLRecogEye : Curriculum Learning towards exploiting convolution features for Dynamic Iris Recognition

Geetanjali Sharma,Gaurav Jaswal,Aditya Nigam,Raghavendra Ramachandra

Main category: cs.CV

TL;DR: 提出了一种新颖的虹膜认证匹配流程,通过3D-CNN学习丰富的时空表示,采用课程学习方式训练,有效应对旋转、缩放、反射和模糊等挑战。

  • Motivation: 现有虹膜认证算法在旋转、缩放、反射和模糊等变化下鲁棒性不足,且大多采用简单的点对点比较,未能有效利用虹膜模式的时空结构。
  • Method: 将虹膜图像沿一维分割成子图像序列,输入3D-CNN捕捉时空特征,采用课程学习方式结合三元组损失和ArcFace损失进行端到端训练。
  • Result: 该方法能够将时间依赖性直接嵌入特征空间,在深度度量域中提高区分性,产生鲁棒且可泛化的虹膜认证解决方案。
  • Conclusion: 提出的框架通过时空特征建模和课程学习,显著提升了虹膜认证系统在复杂环境下的鲁棒性和性能。

[49] Pygmalion Effect in Vision: Image-to-Clay Translation for Reflective Geometry Reconstruction

Gayoung Lee,Junho Kim,Jin-Hwa Kim,Junmo Kim

Main category: cs.CV

TL;DR: 提出了Pygmalion Effect in Vision框架,通过图像到黏土转换来抑制镜面反射线索,从而改善反射物体的3D重建质量

  • Motivation: 解决3D重建中长期存在的反射问题,因为视图依赖的反射会导致外观和几何的纠缠,难以准确重建几何形状
  • Method: 采用双分支网络结构:基于BRDF的反射分支和黏土引导分支,联合训练使用合成的黏土样图像作为无反射的监督信号
  • Result: 在合成和真实数据集上的实验显示,在法线精度和网格完整性方面相比现有反射处理方法有显著提升
  • Conclusion: 通过'去光泽化'将辐射度转化为中性表示,可以作为反射物体几何学习的强大归纳偏置

[50] Scaling Foundation Models for Radar Scene Understanding

Pushkal Mishra,Kshitiz Bansal,Dinesh Bharadia

Main category: cs.CV

TL;DR: RadarFM是一个雷达基础模型,通过结构化空间语言监督学习统一的场景级表示,解决了现有雷达方法碎片化、任务特定化的问题。

  • Motivation: 雷达传感器在各种恶劣天气、光照和远距离条件下提供可靠的感知,但现有雷达方法碎片化且任务特定化,每个下游任务使用不同的架构和训练目标,阻碍了跨任务迁移。
  • Method: 提出结构化标题框架在原生雷达坐标中编码车辆分布,以及哈希感知对比学习目标量化连续场景相似性而非二元匹配,利用CARLA模拟器生成大规模标注雷达数据集。
  • Result: 开发了RadarFM模型,能够学习统一的场景级表示,并提出了超越传统检测指标的定位感知评估指标。
  • Conclusion: RadarFM通过结构化空间语言监督成功构建了雷达基础模型,实现了跨任务的统一表示学习。

[51] EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens

Ze Feng,Sen Yang,Boqiang Duan,Wankou Yang,Jingdong Wang

Main category: cs.CV

TL;DR: EM-KD是一种增强高效多模态大语言模型的知识蒸馏新范式,通过解决师生模型间不平衡视觉标记的问题,采用匈牙利匹配算法进行空间对齐,并提出两种蒸馏策略来提升模型性能。

  • Motivation: 现有高效MLLMs通过压缩视觉标记来减少资源消耗,但视觉信息丢失会降低理解能力。先前知识蒸馏方法忽略了高效学生模型与标准教师模型之间不平衡视觉标记导致的细粒度视觉理解差异。
  • Method: 1) 计算师生视觉logits的曼哈顿距离,用匈牙利匹配算法进行空间维度对齐;2) 提出两种蒸馏策略:视觉语言亲和度蒸馏(VLAD)和视觉语义蒸馏(VSD),分别通过最小化亲和矩阵的平滑L1距离和反向KL散度来优化模型。
  • Result: 在多样化基准测试上的综合评估表明,EM-KD训练模型在准确性和效率方面均大幅优于先前的高效MLLMs。与配备相同视觉标记匹配策略的先前蒸馏方法相比,EM-KD也实现了更好的性能。
  • Conclusion: EM-KD通过解决不平衡视觉标记问题并引入有效的蒸馏策略,显著提升了高效多模态大语言模型的性能,验证了其有效性。

[52] FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain

YuAn Wang,Xiaofan Li,Chi Huang,Wenhao Zhang,Hao Li,Bosheng Wang,Xun Sun,Jun Wang

Main category: cs.CV

TL;DR: FaithFusion是一个基于像素级期望信息增益(EIG)的3DGS-扩散模型融合框架,用于可控驾驶场景重建和3D场景生成,解决了几何保真度和视觉逼真度之间的平衡问题。

  • Motivation: 在可控驾驶场景重建和3D场景生成中,需要在大的视角变化下保持几何保真度同时合成视觉上合理的场景外观。但现有的几何基3DGS和外观驱动扩散模型融合方法面临像素级、3D一致性编辑标准缺失导致的过度修复和几何漂移问题。
  • Method: 提出FaithFusion框架,使用像素级期望信息增益(EIG)作为统一策略:EIG作为空间先验指导扩散模型优化高不确定性区域,同时通过像素级权重将编辑结果蒸馏回3DGS。这是一个即插即用系统,无需额外先验条件和结构修改。
  • Result: 在Waymo数据集上的大量实验表明,该方法在NTA-IoU、NTL-IoU和FID指标上达到最先进性能,即使在6米车道偏移情况下仍保持107.47的FID分数。
  • Conclusion: FaithFusion通过EIG驱动的融合策略有效解决了3DGS和扩散模型融合中的几何保真度和视觉逼真度平衡问题,实现了高质量的可控驾驶场景重建和生成。

[53] Deformation-aware Temporal Generation for Early Prediction of Alzheimers Disease

Xin Honga,Jie Lin,Minghui Wang

Main category: cs.CV

TL;DR: 提出了一种名为DATGN的变形感知时序生成网络,用于从脑部MRI图像中自动学习阿尔茨海默病的形态学变化,实现早期预测。该方法能处理不完整的时间序列数据,生成符合疾病进展的未来MRI图像,显著提升了分类准确率。

  • Motivation: 阿尔茨海默病(AD)是一种退行性脑部疾病,早期预测有助于延缓病情进展。当前预测方法主要依赖手动特征提取来分析脑部图像的形态学变化,存在自动化程度低的问题。
  • Method: DATGN首先对不完整的MRI时间序列进行插值,然后通过双向时序变形感知模块指导网络生成符合疾病进展的未来MRI图像,实现AD的早期预测。
  • Result: 在ADNI数据集上的实验显示,DATGN在PSNR和MMSE图像质量指标上表现优异。将DATGN生成的合成数据集成到SVM、CNN和3DCNN分类方法中,AD vs NC分类准确率提升了6.21%到16%,AD vs MCI vs NC分类准确率提升了7.34%到21.25%。
  • Conclusion: DATGN能够生成与阿尔茨海默病脑萎缩趋势一致的MRI图像,有效支持疾病的早期预测,为AD诊断提供了有前景的自动化解决方案。

[54] Which Layer Causes Distribution Deviation? Entropy-Guided Adaptive Pruning for Diffusion and Flow Models

Changlin Li,Jiawei Zhang,Zeyi Shi,Zongxin Yang,Zhihui Li,Xiaojun Chang

Main category: cs.CV

TL;DR: 提出EntPruner框架,一种基于熵引导的自动渐进式剪枝方法,用于扩散和流模型,能在保持生成质量的同时实现2.22倍推理加速。

  • Motivation: 大规模视觉生成模型在下游任务中存在显著的参数冗余问题,需要一种专门针对生成模型的剪枝方法。
  • Method: 使用条件熵偏差(CED)作为重要性评估指标,提出零样本自适应剪枝框架,动态决定何时剪枝以及剪枝多少。
  • Result: 在DiT和SiT模型上的实验表明,EntPruner能在ImageNet和三个下游数据集上保持竞争力的生成质量,同时实现最高2.22倍的推理加速。
  • Conclusion: EntPruner为生成模型提供了一种有效的剪枝解决方案,解决了参数冗余问题,同时保持了生成多样性和条件保真度。

[55] CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion

Dianbing Xi,Jiepeng Wang,Yuanzhi Liang,Xi Qiu,Jialun Liu,Hao Pan,Yuchi Huo,Rui Wang,Haibin Huang,Chi Zhang,Xuelong Li

Main category: cs.CV

TL;DR: CtrlVDiff是一个统一的扩散模型,通过多模态控制策略融合深度、法线、分割、边缘和图形内在属性,实现视频理解和可控生成,解决了传统几何线索在物理编辑中的局限性。

  • Motivation: 传统仅使用几何线索(如深度、边缘)的方法在视频编辑中存在局限性,无法充分约束外观、材质和光照,导致物理编辑(如重新照明、材质交换)困难且容易产生时间漂移。需要引入更多基于图形的模态来提供互补约束。
  • Method: 提出CtrlVDiff模型,采用混合模态控制策略(HMCS),融合深度、法线、分割、边缘和图形内在属性(反照率、粗糙度、金属度)等特征,并构建MMVideo数据集进行训练。
  • Result: 在理解和生成基准测试中,CtrlVDiff表现出优越的可控性和保真度,支持分层编辑(重新照明、材质调整、对象插入),在部分模态缺失时仍保持鲁棒性。
  • Conclusion: 通过引入图形内在属性和语义信息的多模态融合,CtrlVDiff在视频理解和可控生成方面超越了现有方法,实现了更精确和可预测的控制。

[56] DeepRFTv2: Kernel-level Learning for Image Deblurring

Xintian Mao,Haofei Song,Yin-Nian Liu,Qingli Li,Yan Wang

Main category: cs.CV

TL;DR: 提出傅里叶核估计器(FKE),通过在傅里叶空间进行激活操作,将空间域的卷积问题转换为傅里叶空间的乘法问题,使网络能够学习核级模糊过程。

  • Motivation: 现有深度网络仍处于像素级学习阶段,无法让去模糊模型理解模糊的本质。模糊是由清晰图像与模糊核卷积自然引起的,因此让网络在核级学习模糊过程能显著提升图像去模糊性能。
  • Method: 1) 傅里叶核估计器(FKE)在傅里叶空间进行激活操作;2) 将卷积对象从"图像"改为网络提取的"特征";3) 设计解耦多尺度架构,使用多个层次子Unet和可逆策略。
  • Result: 在运动去模糊方面达到最先进的结果,并显示出处理其他核相关问题的潜力。分析表明核估计器能够学习具有物理意义的核。
  • Conclusion: 提出的方法使网络能够以低复杂度且无需额外监督的方式学习核级模糊过程,显著提升了图像去模糊性能。

[57] Efficient Training for Human Video Generation with Entropy-Guided Prioritized Progressive Learning

Changlin Li,Jiawei Zhang,Shuhao Liu,Sihao Lin,Zeyi Shi,Zhihui Li,Xiaojun Chang

Main category: cs.CV

TL;DR: 提出Ent-Prog框架,通过条件熵膨胀评估模型组件重要性,结合自适应渐进式训练计划,在保持生成性能的同时显著降低训练时间和GPU内存消耗。

  • Motivation: 当前基于扩散模型的人类视频生成面临高计算成本和内存消耗的挑战,需要更高效的训练方法。
  • Method: 提出条件熵膨胀(CEI)来评估模型组件重要性,并设计自适应渐进式训练计划,动态调整计算复杂度。
  • Result: 在三个数据集上验证,实现2.2倍训练加速和2.4倍GPU内存减少,且不损失生成性能。
  • Conclusion: Ent-Prog框架有效解决了扩散模型在人类视频生成中的效率问题,为高质量视频生成提供了实用的训练方案。

[58] Referring Video Object Segmentation with Cross-Modality Proxy Queries

Baoli Sun,Xinzhu Ma,Ning Wang,Zhihui Wang,Zhiyong Wang

Main category: cs.CV

TL;DR: ProxyFormer是一个新的RVOS架构,通过引入代理查询来整合视觉和文本语义,解决现有方法中跨模态对齐不足和文本约束延迟的问题,在多个基准测试中表现出优越性能。

  • Motivation: 现有的RVOS方法存在两个主要问题:(1) 条件查询缺乏帧间依赖性和变化建模,难以在帧间显著变化时准确跟踪目标;(2) 文本约束集成过晚,可能导致视频特征关注非目标对象。
  • Method: 提出ProxyFormer架构,引入代理查询集来整合视觉和文本语义,通过多阶段视频特征编码器逐步更新和传播代理查询。为降低计算成本,将跨模态交互解耦为时间和空间维度,并设计了联合语义一致性训练策略。
  • Result: 在四个广泛使用的RVOS基准测试上的综合实验表明,ProxyFormer优于最先进的方法。
  • Conclusion: ProxyFormer通过代理查询机制有效解决了RVOS中的跨模态对齐问题,提高了目标跟踪的准确性和连贯性,同时通过解耦设计降低了计算成本。

[59] TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Jiaming He,Guanyu Hou,Hongwei Li,Zhicong Huang,Kangjie Chen,Yi Yu,Wenbo Jiang,Guowen Xu,Tianwei Zhang

Main category: cs.CV

TL;DR: 提出了TEAR框架,一种专门针对文本到视频模型安全风险的自动化红队测试方法,能够通过时间感知的提示生成来发现视频生成中的动态时序安全问题。

  • Motivation: 现有的安全评估方法主要针对静态图像和文本生成,无法捕捉视频生成中复杂的时序动态特性,导致对文本到视频模型的安全风险评估不足。
  • Method: TEAR采用时间感知的测试生成器,通过两阶段优化方法(初始生成器训练和时间感知在线偏好学习)来生成看似无害但能利用时序动态引发违规视频输出的文本提示,并使用精炼模型循环提升提示的隐蔽性和对抗效果。
  • Result: 在开源和商业文本到视频系统上的广泛实验评估显示,TEAR实现了超过80%的攻击成功率,相比之前最佳结果的57%有显著提升。
  • Conclusion: TEAR框架有效揭示了文本到视频模型中与动态时序相关的安全风险,证明了现有安全评估方法的不足,并为改进视频生成模型的安全性提供了重要参考。

[60] LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs

Shichu Sun,Yichen Zhang,Haolin Song,Zonghao Guo,Chi Chen,Yidan Zhang,Yuan Yao,Zhiyuan Liu,Maosong Sun

Main category: cs.CV

TL;DR: LLaVA-UHD v3提出渐进式视觉压缩方法,通过改进的补丁嵌入和窗口化令牌压缩,在保持性能的同时显著降低计算开销,在多个基准测试中表现优异。

  • Motivation: 当前多模态大语言模型倾向于使用全局原生分辨率视觉编码,虽然增强了整体能力但带来了更大的计算开销。为了解决这个问题,需要开发高效的视觉编码方法。
  • Method: 提出渐进式视觉压缩方法,包含两个关键模块:改进的补丁嵌入(支持灵活补丁大小缩放)和窗口化令牌压缩(在ViT层间分层部署以逐步聚合局部令牌表示)。
  • Result: 转换后的ViT-UHD在相同MLLM架构下,与MoonViT相比性能相当但TTFT减少2.4倍;基于ViT-UHD的LLaVA-UHD v3与Qwen2-VL性能相当但TTFT进一步减少1.9倍。
  • Conclusion: 渐进式视觉压缩方法能够有效平衡视觉编码的性能和效率,为高效多模态大语言模型的研究提供了有前景的解决方案。

[61] Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation

Joonhyung Park,Hyeongwon Jang,Joowon Kim,Eunho Yang

Main category: cs.CV

TL;DR: GridAR是一个针对视觉自回归模型的测试时扩展框架,通过网格划分的渐进生成方案和布局指定提示重构策略,在有限计算资源下实现更高质量的文本到图像生成和图像编辑。

  • Motivation: 现有的测试时扩展策略(如Best-of-N)在视觉自回归模型上效果不佳,因为它们在错误生成轨迹上消耗完整计算,且光栅扫描解码缺乏整个画布的蓝图,限制了扩展效益。
  • Method: GridAR采用网格划分的渐进生成方案,在同一画布位置生成多个候选,早期修剪不可行候选,将可行候选固定为锚点指导后续解码;同时使用布局指定提示重构策略,通过检查部分视图推断可行布局来重构提示。
  • Result: 在N=4时,GridAR在T2I-CompBench++上比Best-of-N(N=8)性能提升14.4%,同时成本降低25.6%;在PIE-Bench图像编辑任务上,相比更大N的基线,编辑质量相当且语义保持提升13.9%。
  • Conclusion: GridAR框架通过有效的测试时扩展策略,显著提升了视觉自回归模型的生成质量和效率,证明了在有限计算资源下实现高质量视觉内容生成的可行性。

[62] AnchorOPT: Towards Optimizing Dynamic Anchors for Adaptive Prompt Learning

Zheng Li,Yibing Song,Xin Zhang,Lei Luo,Xiang Li,Jian Yang

Main category: cs.CV

TL;DR: 提出了AnchorOPT,一种动态锚点提示学习框架,通过动态学习锚点值和优化锚点与软标记的位置关系,提升CLIP模型的泛化能力。

  • Motivation: 现有基于CLIP的提示学习方法使用静态锚点(固定值和位置),缺乏跨任务和阶段自适应的灵活性。
  • Method: AnchorOPT在两方面引入动态性:1)锚点值从任务特定数据中动态学习,而非手工设计;2)锚点与软标记的位置关系通过可学习的位置矩阵自适应优化。训练分两阶段:先学习锚点标记,然后冻结并传输到第二阶段优化软标记和位置矩阵。
  • Result: 仅使用简单的可学习锚点和位置矩阵,就能达到或超过一些包含额外可学习模块或正则化技术的方法的性能。
  • Conclusion: AnchorOPT作为一个即插即用模块,能够无缝集成到现有框架中,在多样化数据集上带来一致的性能提升。

[63] Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision-Language Understanding

Yutao Tang,Cheng Zhao,Gaurav Mittal,Rohith Kukkala,Rama Chellappa,Cheng Peng,Mei Chen

Main category: cs.CV

TL;DR: NDTokenizer3D是一个通用的3D视觉语言模型,通过多尺度NDT表示和渐进式特征融合,实现了对3D场景的全面理解和推理,在多个3D任务中表现出色。

  • Motivation: 当前3D视觉语言模型在将3D场景有效token化并应用于多样化理解任务方面仍面临挑战,需要一种能够桥接语言推理与3D空间理解的通用方法。
  • Method: 采用三阶段场景token化流程:1) 从原始点云构建多尺度NDT表示;2) 通过多尺度NDT解码器渐进融合跨尺度特征生成场景token;3) 将解码器重新用作人机交互提示和分割掩码解码的通用接口。
  • Result: NDTokenizer3D在3D指代分割、3D视觉问答和3D密集描述等任务中取得了显著改进,实现了细粒度的通用3D视觉语言理解。
  • Conclusion: 该模型通过紧凑统一的设计,提供了一个能够自然支持人机交互的通用3D视觉语言模型,成功地将语言级推理与3D空间理解相结合。

[64] When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Hui Lu,Yi Yu,Yiming Yang,Chenyu Yi,Qixin Zhang,Bingquan Shen,Alex C. Kot,Xudong Jiang

Main category: cs.CV

TL;DR: 提出了UPA-RFAS框架,通过共享特征空间学习通用对抗补丁,实现跨VLA模型的迁移攻击,包括特征空间目标、鲁棒性增强的两阶段优化和VLA特定损失函数。

  • Motivation: 现有对抗补丁大多过拟合单一模型,在黑盒设置下失效,缺乏针对VLA模型的通用可迁移攻击方法。
  • Method: 结合特征空间目标(ℓ1偏差先验和排斥性InfoNCE损失)、鲁棒性增强的两阶段min-max优化(内环学习不可见样本扰动,外环优化通用补丁)以及VLA特定损失(补丁注意力主导和补丁语义错配)。
  • Result: 实验表明UPA-RFAS在不同VLA模型、操作套件和物理执行中均能实现跨模型、任务和视角的稳定迁移。
  • Conclusion: UPA-RFAS暴露了基于补丁的实际攻击面,为未来防御建立了强基准。

[65] You Can Trust Your Clustering Model: A Parameter-free Self-Boosting Plug-in for Deep Clustering

Hanyang Li,Yuheng Jia,Hui Liu,Junhui Hou

Main category: cs.CV

TL;DR: DCBoost是一个参数自由的插件方法,通过利用可靠的局部结构线索来增强深度聚类模型的全局特征结构,显著提升聚类性能。

  • Motivation: 现有深度聚类方法存在全局和局部特征结构不一致的问题:局部结构在类内样本间具有强一致性和紧凑性,而全局特征往往边界交织、聚类分离性差。
  • Method: 首先通过自适应k近邻一致性过滤识别高置信度样本作为可靠锚点,然后利用这些样本计算判别性损失来促进类内紧凑性和类间分离性,指导网络优化。
  • Result: 在多个基准数据集上的实验表明,DCBoost显著提升了各种现有深度聚类模型的性能,将当前最先进基线(如ProPos)的性能提升了3%以上,并将轮廓系数放大了7倍以上。
  • Conclusion: DCBoost通过利用可靠的局部结构线索来增强全局特征结构,是一种有效提升深度聚类性能的参数自由插件方法。

[66] BotaCLIP: Contrastive Learning for Botany-Aware Representation of Earth Observation Data

Selene Cerna,Sara Si-Moussi,Wilfried Thuiller,Hadrien Hendrikx,Vincent Miele

Main category: cs.CV

TL;DR: BotaCLIP是一个轻量级多模态对比学习框架,通过将高分辨率航空影像与植物样方数据对齐,来适配预训练的地球观测基础模型DOFA,从而注入领域特定的植物学知识。

  • Motivation: 基础模型能够学习跨模态的丰富可迁移表示,但在现代机器学习流程中,这些表示往往需要适应特定领域知识。本文旨在解决在不重新训练或显著增加计算成本的情况下,将领域特定知识注入预训练基础模型的挑战。
  • Method: 引入BotaCLIP框架,通过对比学习将高分辨率航空影像与植物样方数据对齐,采用正则化策略减轻灾难性遗忘。训练后的嵌入表示可作为下游预测器的可迁移表示。
  • Result: 在植物存在预测、蝴蝶出现建模和土壤营养组丰度估计三个生态任务中,BotaCLIP表示相比DOFA和监督基线方法均表现出持续改进。
  • Conclusion: 这项工作展示了领域感知的基础模型适配如何将专家知识注入数据稀缺场景,实现高效的表征学习。

[67] Towards an Effective Action-Region Tracking Framework for Fine-grained Video Action Recognition

Baoli Sun,Yihan Wang,Xinzhu Ma,Zhihui Wang,Kun Lu,Zhiyong Wang

Main category: cs.CV

TL;DR: 提出了Action-Region Tracking (ART)框架,通过查询-响应机制发现和跟踪局部细节动态,以区分细粒度动作类别。

  • Motivation: 现有细粒度动作识别方法往往捕捉粗粒度运动模式,但难以识别随时间演变的局部区域中的细微差异。
  • Method: 使用区域特定语义激活模块,以文本约束语义作为查询捕获每帧中最相关的区域响应;将响应组织成动作轨迹,通过多级轨迹对比约束优化;采用任务特定微调机制优化文本语义。
  • Result: 在广泛使用的动作识别基准测试中表现出优于先前最先进基线的性能。
  • Conclusion: ART框架通过跟踪局部区域动态,有效解决了细粒度动作识别中细微差异的识别问题。

[68] From Diffusion to One-Step Generation: A Comparative Study of Flow-Based Models with Application to Image Inpainting

Umang Agarwal,Rudraksh Sangore,Sumit Laddha

Main category: cs.CV

TL;DR: 比较三种生成模型:DDPM、CFM和MeanFlow。CFM在CIFAR-10上FID为24.15(50步),显著优于DDPM(402.98)。MeanFlow单步生成FID为29.15,推理时间减少50倍。CFM扩展到图像修复,PSNR从4.95提升到8.57dB(+73%)。

  • Motivation: 比较不同生成建模范式的性能,特别是探索直接一步生成的MeanFlow方法,以及将CFM扩展到图像修复任务。
  • Method: 使用统一的TinyUNet架构(<1.5M参数)在CIFAR-10上实现DDPM、CFM和MeanFlow三种方法。CFM采用条件流匹配,MeanFlow通过建模时间间隔内的平均速度实现一步生成。
  • Result: CFM在50步采样时FID为24.15,DDPM为402.98。MeanFlow单步生成FID为29.15。图像修复方面,PSNR从4.95提升到8.57dB(+73%),SSIM从0.289提升到0.418(+45%)。
  • Conclusion: CFM在生成质量上显著优于DDPM,MeanFlow在保持良好生成质量的同时实现了50倍推理加速。CFM在图像修复任务中表现出色,修复感知训练能显著提升性能。

[69] 3-Tracer: A Tri-level Temporal-Aware Framework for Audio Forgery Detection and Localization

Shuhan Xia,Xuannan Liu,Xing Cui,Peipei Li

Main category: cs.CV

TL;DR: T3-Tracer是一个用于检测部分音频伪造的三级框架,通过联合分析帧、片段和音频级别来全面检测伪造痕迹,在三个挑战性数据集上实现了最先进的性能。

  • Motivation: 部分音频伪造作为一种新的音频操纵形式,攻击者选择性修改部分但语义关键帧,同时保持整体感知真实性,使得这种伪造特别难以检测。现有方法缺乏分层结构来捕捉不同时间级别的瞬时和持续异常。
  • Method: 提出T3-Tracer框架,包含两个核心模块:帧-音频特征聚合模块(FA-FAM)和片段级多尺度差异感知模块(SMDAM)。FA-FAM结合帧级和音频级时间信息检测帧内伪造线索和全局语义不一致性;SMDAM采用双分支架构联合建模帧特征和跨多尺度时间窗口的帧间差异,有效识别伪造边界上的突然异常。
  • Result: 在三个挑战性数据集上进行的广泛实验表明,该方法实现了最先进的性能。
  • Conclusion: T3-Tracer通过联合分析音频的帧、片段和音频级别,能够全面检测部分音频伪造的痕迹,解决了现有方法在捕捉多时间级别异常方面的局限性。

[70] FIELDS: Face reconstruction with accurate Inference of Expression using Learning with Direct Supervision

Chen Ling,Henglin Shi,Hedvig Kjellström

Main category: cs.CV

TL;DR: FIELDS是一个3D人脸重建方法,通过直接3D表情参数监督和辅助情感识别分支,解决了现有方法因依赖2D监督而丢失细微情感细节的问题。

  • Motivation: 现有3D人脸重建方法由于依赖2D监督和缺乏3D真实数据,经常丢失细微的情感细节。
  • Method: 扩展自监督2D图像一致性线索,结合直接3D表情参数监督和辅助情感识别分支,使用来自自发4D面部扫描的真实表情参数指导编码器,并通过强度感知情感损失鼓励3D表情参数捕捉真实情感内容。
  • Result: 产生具有高度真实表情的情感丰富人脸模型,显著提高了野外面部表情识别性能,同时不牺牲自然度。
  • Conclusion: 双重监督策略弥合了2D/3D领域差距并减轻了表情强度偏差,产生了保留细微情感线索的高保真3D重建。

[71] Shift-Equivariant Complex-Valued Convolutional Neural Networks

Quentin Gabot,Teck-Yian Lim,Jérémy Fix,Joana Frontera-Pons,Chengfang Ren,Jean-Philippe Ovarlez

Main category: cs.CV

TL;DR: 本文扩展了可学习多相采样(LPS)到复数神经网络,通过理论分析和引入新的投影层,在多个计算机视觉任务中实现了平移等变性和不变性。

  • Motivation: 传统卷积神经网络缺乏平移等变性和不变性,尤其是在下采样和上采样操作中。虽然数据增强可以经验性地学习这些性质,但需要系统性的方法来理论保证这些性质。
  • Method: 将LPS扩展到复数神经网络,引入从复数到实数的投影层,并在Gumbel Softmax之前应用。在极坐标合成孔径雷达图像上评估分类、重建和语义分割任务。
  • Result: 在多个计算机视觉问题上评估了该方法,特别是在分类任务中的不变性性质,以及重建和语义分割问题中的等变性性质。
  • Conclusion: 扩展LPS到复数神经网络提供了理论保证的平移等变性和不变性,在计算机视觉任务中表现出良好性能。

[72] AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

Shuhan Xia,Peipei Li,Xuannan Liu,Dongsen Zhang,Xinyu Guo,Zekun Li

Main category: cs.CV

TL;DR: AVFakeBench是首个全面的音视频伪造检测基准,涵盖人类主体和一般主体的丰富伪造语义,包含12K个音视频问题,覆盖7种伪造类型和4级标注,用于评估AV-LMMs在伪造检测中的表现。

  • Motivation: 现有基准仅限于DeepFake伪造和单粒度标注,无法捕捉真实世界伪造场景的多样性和复杂性,需要更全面的评估框架。
  • Method: 提出多阶段混合伪造框架,整合专有模型进行任务规划和专家生成模型进行精确操作;建立多任务评估框架,包括二元判断、伪造类型分类、伪造细节选择和解释性推理。
  • Result: 评估了11个音视频大语言模型和2种主流检测方法,展示了AV-LMMs作为新兴伪造检测器的潜力,同时揭示了它们在细粒度感知和推理方面的显著弱点。
  • Conclusion: AVFakeBench为音视频伪造检测提供了首个全面基准,揭示了当前AV-LMMs在细粒度伪造检测方面的局限性,为未来研究指明了方向。

[73] LaGen: Towards Autoregressive LiDAR Scene Generation

Sizhuo Zhou,Xiaosong Jia,Fanrui Zhang,Junjie Li,Juyong Zhang,Yukang Feng,Jianwen Sun,Songbur Wong,Junqi You,Junchi Yan

Main category: cs.CV

TL;DR: LaGen是首个能够逐帧自回归生成长序列LiDAR场景的框架,支持以单帧LiDAR输入为起点,利用边界框信息作为条件生成高保真4D场景点云。

  • Motivation: 现有LiDAR数据生成方法仅支持单帧生成,而预测方法需要多帧历史输入且只能确定性预测多帧,缺乏交互性,无法支持长序列交互式生成。
  • Method: 提出LaGen框架,包含场景解耦估计模块增强对象级内容的交互生成能力,以及噪声调制模块减轻长序列生成中的误差累积。
  • Result: 在nuScenes数据集上的实验结果表明,LaGen在长序列LiDAR场景生成任务上全面优于最先进的LiDAR生成和预测模型,特别是在后期帧上表现更优。
  • Conclusion: LaGen成功解决了长序列LiDAR场景交互式生成的挑战,为自动驾驶中的生成式世界模型提供了新的解决方案。

[74] Unlocking Zero-shot Potential of Semi-dense Image Matching via Gaussian Splatting

Juncheng Chen,Chao Xu,Yanjun Cao

Main category: cs.CV

TL;DR: MatchGS是一个利用3D高斯泼溅技术生成高质量图像匹配训练数据的框架,通过几何校正和2D-3D表示对齐,显著提升了零样本图像匹配性能。

  • Motivation: 基于学习的图像匹配需要大规模、多样且几何准确的训练数据。3D高斯泼溅技术虽然能实现逼真的新视角合成,但其几何不准确性和深度渲染偏差限制了其在对应关系标注中的应用。
  • Method: MatchGS采用双重策略:(1)几何保真的数据生成流程,通过精炼3DGS几何来产生高精度对应标签;(2)2D-3D表示对齐策略,将3DGS的显式3D知识注入2D匹配器,指导学习视角不变的3D表示。
  • Result: 生成的对应关系将极线误差降低了40倍,在公共基准测试中使最先进的匹配器实现了高达17.7%的零样本性能提升。
  • Conclusion: 通过适当的几何精炼,3DGS可以成为可扩展、高保真且结构丰富的数据源,为新一代鲁棒零样本图像匹配器铺平道路。

[75] Co-Training Vision Language Models for Remote Sensing Multi-task Learning

Qingyun Li,Shuran Ma,Junwei Luo,Yi Yu,Yue Zhou,Fengxiang Wang,Xudong Lu,Xiaoxing Wang,Xin He,Yushi Chen,Xue Yang,Junchi Yan

Main category: cs.CV

TL;DR: RSCoVLM是一个用于遥感多任务学习的视觉语言模型基线,通过数据引擎、统一动态分辨率策略和Zoom-in Chain机制,在多个遥感任务上实现最先进性能。

  • Motivation: 随着Transformer在单个遥感任务上表现出色,需要开发统一模型来通过多任务学习在多个任务上取得优异表现,以提高泛化性、可扩展性和实用性。
  • Method: 创建数据引擎处理复杂遥感数据环境,提出统一动态分辨率策略处理不同图像尺度,引入Zoom-in Chain机制处理超高分辨率图像,并增强目标检测能力。
  • Result: RSCoVLM在多样化任务上实现了最先进的性能,超越了现有的遥感视觉语言模型,甚至可与专门的专家模型相媲美。
  • Conclusion: 该基线模型有望推动通用遥感模型的进一步发展,所有训练和评估工具、模型权重和数据集均已开源以支持可复现性。

[76] PathMamba: A Hybrid Mamba-Transformer for Topologically Coherent Road Segmentation in Satellite Imagery

Jules Decaestecker,Nicolas Vigne

Main category: cs.CV

TL;DR: PathMamba是一种结合Mamba状态空间模型和Transformer的混合架构,用于卫星图像道路分割,在保持计算效率的同时显著提升拓扑连续性。

  • Motivation: 现有基于Vision Transformer的方法虽然能捕捉全局上下文,但二次复杂度限制了在资源受限平台上的部署效率。Mamba模型具有线性时间效率,特别适合建模长连续结构,两者优势互补。
  • Method: 提出PathMamba混合架构,使用Mamba块追踪道路网络的连续特性以保持拓扑结构,同时集成Transformer块通过全局上下文细化特征。
  • Result: 在DeepGlobe道路提取和Massachusetts道路数据集上达到新的最先进水平,显著提升了APLS指标衡量的拓扑连续性,同时保持计算竞争力。
  • Conclusion: PathMamba证明了结合Mamba和Transformer的混合方法能够在道路分割任务中实现拓扑优越的分割结果,而不会产生纯注意力模型的高昂扩展成本。

[77] CaliTex: Geometry-Calibrated Attention for View-Coherent 3D Texture Generation

Chenyu Liu,Hongze Chen,Jingzhi Bao,Lingting Zhu,Runze Zhang,Weikai Chen,Zeyu Hu,Yingda Yin,Keyang Luo,Xin Wang

Main category: cs.CV

TL;DR: CaliTex是一个解决3D纹理生成中跨视角不一致问题的框架,通过几何校准的注意力机制来显式对齐3D结构。

  • Motivation: 当前基于扩散模型的3D纹理生成系统存在跨视角不一致问题,从某个视角看合理的纹理在其他视角无法对齐。这是由于注意力模糊导致的几何混淆和不稳定的外观-结构耦合。
  • Method: 引入CaliTex框架,包含两个模块:部分对齐注意力(强制跨语义匹配部分的空间对齐)和条件路由注意力(通过几何条件路径路由外观信息以保持空间保真度),结合两阶段扩散变换器。
  • Result: CaliTex能够生成无缝且视角一致的纹理,在实证中优于开源和商业基线方法。
  • Conclusion: CaliTex通过几何校准的注意力机制,使几何一致性成为网络的固有行为而非优化的副产品,有效解决了3D纹理生成的跨视角不一致问题。

[78] HTTM: Head-wise Temporal Token Merging for Faster VGGT

Weitian Wang,Lukas Meiner,Rai Shubham,Cecilia De La Parra,Akash Kumar

Main category: cs.CV

TL;DR: 提出了HTTM方法,一种无需训练的三维令牌合并技术,用于加速VGGT模型的大场景重建,通过多头粒度的令牌合并实现7倍加速且性能损失可忽略。

  • Motivation: VGGT模型在重建大场景时,由于全局注意力层需要对所有视图的令牌进行全对全计算,导致显著的延迟瓶颈。现有合并技术在不同注意力头之间统一合并令牌,导致输出层中出现相同令牌,限制了模型的表示能力。
  • Method: 提出头级时间合并(HTTM)方法,在多头的粒度上合并令牌,在头级拼接后保持特征令牌的独特性,并利用头级观察到的空间局部性和时间对应性,以更低的合并成本实现更高的合并比率。
  • Result: 在基于GPU的推理中,HTTM实现了高达7倍的加速,且性能下降可忽略不计。
  • Conclusion: HTTM是一种有效的训练免费三维令牌合并方法,能够显著加速VGGT模型的大场景重建,同时保持模型性能。

[79] The More, the Merrier: Contrastive Fusion for Higher-Order Multimodal Alignment

Stefanos Koutoupis,Michaela Areti Zervou,Konstantinos Kontras,Maarten De Vos,Panagiotis Tsakalides,Grigorios Tsagatakis

Main category: cs.CV

TL;DR: ConFu是一个多模态表示学习框架,通过对比学习同时嵌入单个模态和融合模态到统一表示空间,既能捕捉高阶依赖关系又能保持强配对对应性。

  • Motivation: 现有方法主要在成对设置下对齐两个模态,虽然一些新方法试图捕捉多模态间的高阶交互,但往往忽略或不足以保持配对关系,限制了在单模态任务上的有效性。
  • Method: ConFu扩展了传统配对对比目标,增加了融合模态对比项,鼓励模态对与第三个模态的联合嵌入,从而捕捉无法通过单独配对对齐恢复的高阶依赖关系。
  • Result: 在合成和真实多模态基准测试中,ConFu在检索和分类任务上表现出竞争力,同时支持统一的一对一和一对多检索。
  • Conclusion: ConFu能够有效利用跨模态互补性,捕捉高阶依赖关系,并随着多模态复杂性的增加而扩展,在单一对比框架内支持多种检索模式。

[80] Hybrid SIFT-SNN for Efficient Anomaly Detection of Traffic Flow-Control Infrastructure

Munish Rathee,Boris Bačić,Maryam Doborjeh

Main category: cs.CV

TL;DR: SIFT-SNN框架:一种低延迟神经形态信号处理管道,用于实时检测交通基础设施中的结构异常,结合SIFT空间特征编码和SNN分类,在奥克兰海港大桥数据集上达到92.3%准确率和9.5ms推理时间。

  • Motivation: 开发实时、低功耗的边缘部署系统,用于交通基础设施的结构安全监测,特别是可移动混凝土护栏的异常检测。
  • Method: 集成尺度不变特征变换(SIFT)进行空间特征编码,使用延迟驱动的脉冲转换层和泄漏积分点火( LIF)脉冲神经网络(SNN)进行分类。
  • Result: 在奥克兰海港大桥数据集(6000帧)上达到92.3%分类准确率,每帧推理时间9.5ms,稀疏脉冲活动率8.1%,支持实时低功耗边缘部署。
  • Conclusion: SIFT-SNN框架在保持空间特征基础、增强可解释性的同时,实现了实时低功耗的结构安全监测,已在消费级系统上验证原型,但未见现场条件的泛化能力仍需验证。

[81] SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding

Tae-Min Choi,Tae Kyeong Jeong,Garam Kim,Jaemin Lee,Yeongyoon Koh,In Cheul Choi,Jae-Ho Chung,Jong Woong Park,Juyoun Park

Main category: cs.CV

TL;DR: SurgMLLMBench是一个统一的多模态基准测试,专为开发评估交互式多模态大语言模型在手术场景理解中的应用而设计,整合了像素级器械分割掩码和结构化VQA标注。

  • Motivation: 现有手术数据集主要采用视觉问答格式,具有异构分类法且缺乏像素级分割支持,限制了评估的一致性和适用性。
  • Method: 提出SurgMLLMBench基准,整合新收集的MAVIS数据集,在腹腔镜、机器人辅助和显微手术领域下采用统一分类法,结合像素级器械分割掩码和结构化VQA标注。
  • Result: 基线实验显示,在SurgMLLMBench上训练的单一模型在不同领域表现一致,并能有效泛化到未见数据集。
  • Conclusion: SurgMLLMBench将作为强大资源公开发布,推进多模态手术AI研究,支持交互式手术推理模型的可重复评估和开发。

[82] PFF-Net: Patch Feature Fitting for Point Cloud Normal Estimation

Qing Li,Huifang Feng,Kanle Shi,Yue Gao,Yi Fang,Yu-Shen Liu,Zhizhong Han

Main category: cs.CV

TL;DR: 提出了一种基于多尺度特征融合的点云法向量估计方法,通过特征聚合和跨尺度补偿来解决不同数据或几何形状下邻域大小选择困难的问题。

  • Motivation: 现有方法在确定合适的邻域大小时面临困难,特别是在处理不同数据或几何形状时。传统参数密集型策略难以准确高效地预测各种点云的法向量。
  • Method: 使用多尺度特征融合方法,包括特征聚合模块和特征补偿模块。特征聚合模块逐步聚合不同尺度的补丁特征并缩小补丁大小,特征补偿模块确保大尺度早期层特征的可重用性。
  • Result: 在合成和真实世界数据集上实现了最先进的性能,同时减少了网络参数和运行时间。
  • Conclusion: 基于多尺度特征聚合的近似策略使模型能够适应不同局部补丁的尺度变化,并提供最优特征描述,在点云法向量估计方面表现出色。

[83] Endo-G2T: Geometry-Guided & Temporally Aware Time-Embedded 4DGS For Endoscopic Scenes

Yangle Liu,Fengze Li,Kan Liu,Jieming Ma

Main category: cs.CV

TL;DR: Endo-G²T是一个用于动态内窥镜场景的几何引导和时间感知训练方案,通过几何先验蒸馏、时间嵌入高斯场和关键帧约束流式处理,解决了内窥镜视频中视角依赖效应导致的几何漂移问题。

  • Motivation: 内窥镜视频存在强烈的视角依赖效应(如镜面反射、湿反射和遮挡),纯光度监督与几何不匹配,导致早期几何漂移,错误的形状在密集化过程中被强化且难以纠正。
  • Method: 1. 几何引导先验蒸馏:将置信度门控的单目深度转换为监督,使用尺度不变深度和深度梯度损失;2. 时间嵌入高斯场:在XYZT空间中表示动态,采用转子式旋转参数化;3. 关键帧约束流式处理:在最大点数预算下进行关键帧优化,非关键帧轻量更新。
  • Result: 在EndoNeRF和StereoMIS-P1数据集上,Endo-G²T在单目重建基线中达到了最先进的结果。
  • Conclusion: Endo-G²T通过几何引导和时间感知训练,成功解决了动态内窥镜场景中的几何漂移问题,实现了时间一致的几何重建和高效率处理。

[84] Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning

Xin Gu,Haoji Zhang,Qihang Fan,Jingxuan Niu,Zhipeng Zhang,Libo Zhang,Guang Chen,Fan Chen,Longyin Wen,Sijie Zhu

Main category: cs.CV

TL;DR: STVG-o1是首个让现有多模态大语言模型在时空视频定位任务上达到最先进性能的框架,无需修改模型架构,通过边界框思维链机制和多维强化奖励函数实现。

  • Motivation: 尽管多模态大语言模型在语言理解方面很强,但在时空视频定位任务上表现不佳,主要原因是训练目标不对齐和标准视觉编码器中细粒度区域-词对齐能力弱。
  • Method: 提出边界框思维链机制,在最终预测前显式推理时空位置;设计多维强化奖励函数,包含格式、一致性、时间、空间和思考奖励,通过强化微调提供几何感知监督。
  • Result: 在HCSTVG-v1/v2和VidSTG数据集上评估,STVG-o1在HCSTVG上创下新记录,比最佳任务特定方法在HCSTVG-v1上提升7.3% m_tIoU,在VidSTG上与专用模型相当,大幅超越所有现有基于MLLM的方法。
  • Conclusion: STVG-o1证明了多模态大语言模型可以作为精确时空定位的可行且强大的骨干网络,并展现出强大的跨数据集开放词汇泛化能力。

[85] Monet: Reasoning in Latent Visual Space Beyond Images and Language

Qixun Wang,Yang Shi,Yifei Wang,Yuanxing Zhang,Pengfei Wan,Kun Gai,Xianghua Ying,Yisen Wang

Main category: cs.CV

TL;DR: Monet是一个训练框架,使多模态大语言模型能够在潜在视觉空间中进行推理,通过生成连续的嵌入作为中间视觉思维,解决了现有方法在抽象视觉推理方面的局限性。

  • Motivation: 现有方法在抽象视觉思维方面存在不足,其灵活性受限于外部工具,无法实现类人的抽象视觉推理。
  • Method: 采用三阶段蒸馏式监督微调流水线,包括潜在视觉对齐和潜在嵌入监督,并提出VLPO强化学习方法将潜在嵌入纳入策略梯度更新。
  • Result: Monet-7B模型在真实世界感知和推理基准测试中表现一致提升,在具有挑战性的抽象视觉推理任务上展现出强大的分布外泛化能力。
  • Conclusion: Monet框架有效提升了多模态模型的视觉推理能力,为视觉潜在推理的未来发展提供了重要见解。

[86] Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? A Distractor-centric Empirical Analysis

Jiyun Bae,Hyunjong Ok,Sangwoo Mo,Jaeho Lee

Main category: cs.CV

TL;DR: 本文研究了视觉语言模型中无关信息(干扰物)对测试时扩展的影响,发现视觉干扰物与文本干扰物存在根本差异:虽然都存在反向扩展效应,但视觉干扰物会降低准确性而不增加推理长度。

  • Motivation: 先前关于语言模型的研究报告了反向扩展效应,即文本干扰物会导致更长但效果更差的推理。本研究旨在探究在多模态设置中是否会出现类似现象。
  • Method: 引入了Idis(带干扰物的图像)数据集,系统地在语义、数值和空间维度上变化干扰物,并通过分析推理轨迹中的属性计数来研究干扰物、推理长度和准确性之间的相互作用。
  • Result: 视觉干扰物与文本干扰物存在根本差异:虽然反向扩展效应持续存在,但添加视觉干扰物会降低准确性而不增加推理长度。这些趋势也扩展到已建立的视觉偏见基准如Waterbirds。
  • Conclusion: 提出了一个简单的提示策略来减轻推理模型中的偏见驱动预测,为理解多模态环境中干扰物的影响提供了重要见解。

[87] DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models

Mingue Park,Prin Phunyaphibarn,Phillip Y. Lee,Minhyuk Sung

Main category: cs.CV

TL;DR: DiverseVAR框架通过文本嵌入噪声注入和尺度旅行精炼技术,在不需重新训练的情况下提升视觉自回归模型的多样性,同时保持图像质量。

  • Motivation: VAR模型在图像生成中虽然质量优秀,但存在多样性不足的问题,即使对于简单提示也会产生几乎相同的图像,这一问题在现有研究中被忽视。
  • Method: 采用两阶段方法:1)在文本嵌入中注入噪声以增强多样性;2)提出尺度旅行技术,使用多尺度自编码器提取粗尺度标记,在中间阶段恢复生成以保持图像质量。
  • Result: 实验表明,文本嵌入噪声注入与尺度旅行精炼相结合,在显著增强多样性的同时最小化图像质量下降,实现了多样性-质量权衡的新帕累托前沿。
  • Conclusion: DiverseVAR框架有效解决了VAR模型的多样性限制问题,为文本条件图像生成提供了更好的多样性-质量平衡方案。

[88] SAM Guided Semantic and Motion Changed Region Mining for Remote Sensing Change Captioning

Futian Wang,Mengqi Wang,Xiao Wang,Haowen Wang,Jin Tang

Main category: cs.CV

TL;DR: 本文提出了一种基于SAM基础模型的遥感变化字幕生成方法,通过提取区域级表示和注入感兴趣区域知识,解决了现有方法区域感知弱和时间对齐有限的问题。

  • Motivation: 现有遥感变化字幕生成方法通常使用CNNs/Transformers提取视觉表示或引入辅助任务,但存在区域感知弱和时间对齐有限的问题。
  • Method: 使用CNN/Transformer提取全局视觉特征,利用SAM基础模型划分语义和运动级变化区域,构建知识图谱提供感兴趣对象信息,通过交叉注意力融合异构信息,使用Transformer解码器生成最终的自然语言描述。
  • Result: 在多个广泛使用的基准数据集上实现了最先进的性能。
  • Conclusion: 提出的基于SAM的方法有效提升了遥感变化字幕生成的性能,源代码将在GitHub上发布。

[89] E-M3RF: An Equivariant Multimodal 3D Re-assembly Framework

Adeela Islam,Stefano Fiorini,Manuel Lecha,Theodore Tsesmelis,Stuart James,Pietro Morerio,Alessio Del Bue

Main category: cs.CV

TL;DR: E-M3RF是一个等变多模态3D重组框架,通过结合几何和颜色特征,使用SE(3)流匹配来预测碎片重组所需的变换,在几何特征不足或模糊的情况下表现优异。

  • Motivation: 现有学习方法主要依赖几何特征进行3D重组,但在几何信息不足(如小碎片、侵蚀碎片或对称碎片)时表现不佳,且缺乏防止重叠组装的物理约束。
  • Method: 使用旋转等变编码器提取几何特征,结合Transformer提取颜色特征,形成多模态表示,通过SE(3)流匹配预测变换参数。
  • Result: 在四个数据集上的实验表明,E-M3RF在RePAIR数据集上相比竞争方法,旋转误差降低23.1%,平移误差降低13.2%,Chamfer距离减少18.4%。
  • Conclusion: E-M3RF通过多模态特征融合有效解决了仅依赖几何特征的局限性,在3D重组任务中取得了显著改进。

[90] From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings

Jiajie Zhang,Sören Schwertfeger,Alexander Kleiner

Main category: cs.CV

TL;DR: 提出了一种从工业视频流中自动提取视觉语言动作模型预训练数据的无监督框架,包括运动标记化和基于潜在动作能量的动作分割方法。

  • Motivation: 为了解决工业环境中大量未标记人类演示数据的利用问题,为视觉语言动作模型提供可扩展的预训练数据来源。
  • Method: 首先训练轻量级运动标记器编码运动动态,然后使用基于潜在动作能量度量的无监督动作分割器发现和分割语义一致的动作基元。
  • Result: 在公开基准和专有电机装配数据集上的评估显示能有效分割工作台中人类执行的关键任务,通过视觉语言模型确认了发现动作基元的语义一致性。
  • Conclusion: 这是首个从非结构化工业视频中自动提取和组织VLA预训练数据的端到端系统,为制造业中的具身AI集成提供了可扩展解决方案。

[91] EvRainDrop: HyperGraph-guided Completion for Effective Frame and Event Stream Aggregation

Futian Wang,Fan Zhang,Xiao Wang,Mengqi Wang,Dexing Huang,Jin Tang

Main category: cs.CV

TL;DR: 提出了一种基于超图的时空事件流补全机制,通过超图连接不同时间和空间位置的事件标记,利用上下文信息传递来补全稀疏事件,并能灵活融入RGB标记实现多模态信息补全。

  • Motivation: 事件相机产生的事件流在空间上稀疏但时间上密集,主流的事件表示学习方法存在由空间稀疏性引起的欠采样问题,需要解决这一挑战。
  • Method: 使用超图引导的时空事件流补全机制,通过超图连接事件标记并利用上下文信息传递进行补全,可融合RGB标记实现多模态信息补全,然后通过自注意力聚合不同时间步的超图节点信息。
  • Result: 在单标签和多标签事件分类任务上的大量实验充分验证了所提框架的有效性。
  • Conclusion: 提出的超图引导事件流补全机制能够有效解决事件数据的空间稀疏性问题,实现多模态特征的有效学习和融合。

[92] MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices

Shuai Zhang,Bao Tang,Siyuan Yu,Yueting Zhu,Jingfeng Yao,Ya Zou,Shanglin Yuan,Li Yu,Wenyu Liu,Xinggang Wang

Main category: cs.CV

TL;DR: MobileI2V是一个270M参数的轻量级扩散模型,专为移动设备上的实时图像转视频生成设计,通过线性混合架构、时间步蒸馏和移动端注意力优化,实现了720p视频的快速生成。

  • Motivation: 解决扩散模型在移动设备上计算复杂度高、生成速度慢的问题,实现资源受限设备上的实时高分辨率视频生成。
  • Method: 1) 分析线性注意力和softmax注意力模块性能,提出平衡效率与质量的线性混合架构去噪器;2) 设计时间步蒸馏策略,将采样步骤从20+压缩到2步;3) 应用移动端特定注意力优化。
  • Result: 首次在移动设备上实现快速720p图像转视频生成,质量与现有模型相当,单步条件下每帧720p视频生成时间小于100ms,生成速度提升10倍。
  • Conclusion: MobileI2V证明了在移动设备上实现高质量实时视频生成的可行性,为移动端AI应用开辟了新方向。

[93] Frequency-Aware Token Reduction for Efficient Vision Transformer

Dong-Jae Lee,Jiwan Hur,Jaehyun Choi,Jaemyung Yu,Junmo Kim

Main category: cs.CV

TL;DR: 提出了一种基于频率感知的token缩减策略,通过将token分为高频和低频两类,选择性保留高频token并将低频token聚合为紧凑的DC token,在提高计算效率的同时缓解rank collapsing问题。

  • Motivation: Vision Transformers的二次计算复杂度是主要挑战,现有token缩减方法忽视了自注意力机制的频率特性,如rank collapsing和过平滑现象。
  • Method: 将token分为高频和低频两类,选择性保留高频token,将低频token聚合为紧凑的DC token来保留必要的低频成分。
  • Result: 实验表明该方法在减少计算开销的同时显著提高准确性,并有效缓解rank collapsing和过平滑问题。
  • Conclusion: 该方法在计算效率和性能保持之间取得了良好平衡,同时分析了先前方法的隐含频率特性和局限性。

[94] Merge and Bound: Direct Manipulations on Weights for Class Incremental Learning

Taehoon Kim,Donghwan Jang,Bohyung Han

Main category: cs.CV

TL;DR: 提出了一种名为Merge-and-Bound的类增量学习训练方法,通过在参数空间中直接操作模型权重进行优化,包含任务间和任务内权重合并,并使用有界更新技术减少灾难性遗忘。

  • Motivation: 为了解决类增量学习中的灾难性遗忘问题,同时避免修改架构组件或学习目标,直接在参数空间中进行模型权重优化。
  • Method: 采用两种权重合并:任务间权重合并(平均所有先前阶段模型的权重)和任务内权重合并(组合当前阶段内的模型参数),并配合有界更新技术限制累积更新量。
  • Result: 在标准CIL基准测试中表现出色,性能优于最先进的方法。
  • Conclusion: M&B方法能够有效减少灾难性遗忘,无需修改现有CIL方法的架构或学习目标,即可实现优越的增量学习性能。

[95] CanKD: Cross-Attention-based Non-local operation for Feature-based Knowledge Distillation

Shizhe Sun,Wataru Ohyama

Main category: cs.CV

TL;DR: 提出基于交叉注意力的非局部知识蒸馏框架CanKD,通过交叉注意力机制增强知识迁移过程,使学生特征图的每个像素能动态考虑教师特征图的所有像素,从而更全面地捕捉像素间关系。

  • Motivation: 传统自注意力蒸馏方法独立对齐师生特征图,无法充分利用教师特征中的全局信息。需要一种能实现非局部知识迁移的方法来改进特征表示学习。
  • Method: 引入交叉注意力机制,让学生特征图的每个像素都能动态关注教师特征图的所有像素位置,仅通过额外的损失函数实现知识蒸馏。
  • Result: 在目标检测和图像分割任务上的大量实验表明,CanKD优于现有的特征蒸馏和混合蒸馏方法,达到了最先进的性能。
  • Conclusion: CanKD作为一种新的注意力引导蒸馏范式,在计算机视觉任务中展现出巨大潜力,为知识蒸馏提供了更有效的非局部知识迁移机制。

[96] Generalized Design Choices for Deepfake Detectors

Lorenzo Pellegrini,Serafino Pandolfini,Davide Maltoni,Matteo Ferrara,Marco Prati,Marco Ramilli

Main category: cs.CV

TL;DR: 本文系统研究了深度伪造检测方法中不同设计选择对性能的影响,发现实现细节比核心设计更重要,并建立了一套架构无关的最佳实践。

  • Motivation: 深度伪造检测方法的有效性往往更依赖于实现细节而非核心设计,这使得公平比较检测器和理解真正影响性能的因素变得困难。
  • Method: 通过系统研究不同设计选择对深度伪造检测模型准确性和泛化能力的影响,重点关注训练、推理和增量更新相关方面,并分离各个因素的影响。
  • Result: 实验识别出一套持续改进深度伪造检测的设计选择,并在AI-GenBench基准测试中实现了最先进的性能。
  • Conclusion: 建立了一套稳健的、架构无关的最佳实践,用于未来深度伪造检测系统的设计和开发。

[97] Self-Paced Learning for Images of Antinuclear Antibodies

Yiyang Jiang,Guangwu Qian,Jiaxin Wu,Qi Huang,Qing Li,Yongkang Wu,Xiao-Yong Wei

Main category: cs.CV

TL;DR: 提出了一种用于抗核抗体(ANA)检测的新型多实例多标签学习框架,通过实例采样器、概率伪标签分发器和自定步调学习率系数来处理临床显微镜图像的复杂性,在ANA数据集上取得了显著的性能提升。

  • Motivation: ANA检测是诊断自身免疫性疾病的关键方法,但手动检测耗时耗力且需要专业训练。虽然机器学习和深度学习已实现自动化,但真实临床环境中的ANA检测面临多实例多标签学习的独特挑战。
  • Method: 提出基于人类标注逻辑的框架,识别一致的ANA子区域并分配聚合标签。使用三个任务特定组件:实例采样器(抑制低置信度实例)、概率伪标签分发器(基于实例可区分性自适应分配标签)和自定步调学习率系数(根据经验标签观察调整训练)。
  • Result: 在ANA数据集上,相比最佳现有方法,F1-Macro提升+7.0%,mAP提升+12.6%,创造了新的最先进结果。在三个公共医学MIML基准测试中,所有关键指标均排名前二,汉明损失和单错误分别降低达18.2%和26.9%。
  • Conclusion: 该框架克服了传统MIML方法的局限性,支持端到端优化,在ANA检测和医学MIML任务中表现出卓越性能,为临床自动化诊断提供了有效解决方案。

[98] EoS-FM: Can an Ensemble of Specialist Models act as a Generalist Feature Extractor?

Pierre Adorni,Minh-Tan Pham,Stéphane May,Sébastien Lefèvre

Main category: cs.CV

TL;DR: 提出了一种用于构建遥感基础模型的高效集成专家框架,通过轻量级任务特定的专家模型分解训练过程,解决了当前大型模型在计算资源和可持续性方面的挑战。

  • Motivation: 当前基础模型主要关注模型规模和数据集大小的扩展,需要巨大的计算和数据资源,限制了可访问性,且与可持续AI原则相悖。需要一种更高效、环保的替代方案。
  • Method: 采用集成专家框架,将训练过程分解为轻量级的任务特定ConvNeXtV2专家模型,这些专家可以被冻结和重用,支持联邦训练、剪枝和持续集成。
  • Result: 该方法在效率、可解释性和可扩展性方面具有显著优势,特别适合协作和资源受限的环境。
  • Conclusion: 该框架为构建可扩展且高效的遥感基础模型指明了新方向,推动了可持续AI的发展。

[99] The Age-specific Alzheimer 's Disease Prediction with Characteristic Constraints in Nonuniform Time Span

Xin Hong,Kaifeng Huang

Main category: cs.CV

TL;DR: 提出了一种基于定量指标的序列图像生成方法,结合年龄缩放因子生成年龄特异性MRI图像,用于阿尔茨海默病的长期预测。

  • Motivation: 阿尔茨海默病的及时识别对个性化治疗至关重要,但现有方法在输入序列时间间隔不规则时难以准确表征疾病特征。
  • Method: 采用定量指标引导的序列图像生成方法,集成年龄缩放因子生成年龄特异性MRI图像,并使用年龄缩放像素损失优化迭代生成过程。
  • Result: 消融研究表明定量指标显著提高MRI图像合成准确性,年龄缩放像素损失改善图像迭代生成。结构相似性指数达到0.882,表明合成图像具有高度相似性。
  • Conclusion: 该方法能有效生成高质量的年龄特异性MRI图像,为阿尔茨海默病的长期预后预测提供了可靠工具。

[100] Video Generation Models Are Good Latent Reward Models

Xiaoyue Mi,Wenqing Yu,Jiesong Lian,Shibo Jie,Ruizhe Zhong,Zijun Liu,Guozhen Zhang,Zixiang Zhou,Zhiyong Xu,Yuan Zhou,Qinglin Lu,Fan Tang

Main category: cs.CV

TL;DR: 提出了PRFL框架,在潜在空间进行偏好优化,避免了VAE解码,显著降低了内存消耗和训练时间,同时提升了与人类偏好的对齐度。

  • Motivation: 现有的视频奖励模型依赖为像素空间输入设计的视觉语言模型,限制了ReFL优化只能在计算昂贵的VAE解码后的接近完成的去噪步骤中进行,导致内存开销大、训练时间长,且缺乏早期监督。
  • Method: 利用预训练视频生成模型在噪声潜在空间进行奖励建模,提出PRFL框架,在潜在空间进行偏好优化,实现整个去噪链的高效梯度反向传播。
  • Result: 实验表明PRFL显著提高了与人类偏好的对齐度,同时相比RGB ReFL大幅减少了内存消耗和训练时间。
  • Conclusion: 预训练视频生成模型天然适合在噪声潜在空间进行奖励建模,PRFL框架在潜在空间进行偏好优化是更高效的方法。

[101] UAVLight: A Benchmark for Illumination-Robust 3D Reconstruction in Unmanned Aerial Vehicle (UAV) Scenes

Kang Du,Xue Liao,Junpeng Xia,Chaozheng Guo,Yi Gu,Yirui Guan,Duotun Wang,ShengHuang,Zeyu Wang

Main category: cs.CV

TL;DR: UAVLight是一个用于光照鲁棒3D重建的基准数据集,通过可重复的飞行路径在不同时间点采集数据,提供自然光照变化下的真实室外场景重建评估。

  • Motivation: 多视角3D重建面临光照不一致的挑战,现有数据集要么缺乏有意义的光照多样性,要么时间跨度太长导致几何和语义变化干扰光照研究。
  • Method: 创建UAVLight基准,每个场景沿可重复的地理参考飞行路径在多个固定时间点采集,在一致的几何、标定和视角下产生自然光照变化。
  • Result: 提供了在真实室外环境中具有自然光照变化的标准化评估协议,支持开发光照鲁棒的重建方法。
  • Conclusion: UAVLight为开发在真实室外环境中一致、忠实且可重光照的3D重建方法提供了可靠基础。

[102] Multimodal Robust Prompt Distillation for 3D Point Cloud Models

Xiang Gu,Liming Lu,Xu Zheng,Anan Du,Yongbin Zhou,Shuchao Pang

Main category: cs.CV

TL;DR: 提出了一种新颖高效的多模态鲁棒提示蒸馏框架(MRPD),通过教师-学生架构从三个不同模态的教师模型中蒸馏鲁棒知识,无需推理时额外计算成本即可显著提升3D点云模型的对抗鲁棒性。

  • Motivation: 现有3D点云防御方法存在高计算开销和跨攻击类型泛化能力差的问题,影响了在安全敏感应用中的可靠性。
  • Method: 采用教师-学生框架,通过将学生点云模型特征与三个教师模型(视觉深度投影模型、高性能3D模型、文本编码器)的鲁棒嵌入对齐来学习轻量级提示,并使用置信度门控机制动态平衡多模态输入贡献。
  • Result: 在广泛的白盒和黑盒攻击下显著优于现有最先进防御方法,甚至在干净数据上也能获得更好性能。
  • Conclusion: 为构建鲁棒3D视觉系统提供了一种通过高效利用多模态知识的新实用范式。

[103] Enhanced Landmark Detection Model in Pelvic Fluoroscopy using 2D/3D Registration Loss

Chou Mo,Yehyun Suh,J. Ryan Martin,Daniel Moyer

Main category: cs.CV

TL;DR: 提出了一种结合2D/3D地标配准的U-Net训练框架,用于骨盆透视图像中的地标检测,特别针对术中患者姿态变化的情况。

  • Motivation: 当前骨盆透视地标检测方法大多假设固定的前后位视图,但实际术中患者姿态经常偏离标准视图,需要能够处理姿态变化的检测方法。
  • Method: 将2D/3D地标配准集成到U-Net地标预测模型的训练中,比较基线U-Net、使用姿态估计损失训练的U-Net,以及使用姿态估计损失微调的U-Net。
  • Result: 论文分析了在真实术中条件下(患者姿态可变)的地标检测精度差异,但具体结果未在摘要中提供。
  • Conclusion: 提出的框架通过整合2D/3D配准来改进U-Net模型,使其能够更好地处理术中患者姿态变化的情况。

[104] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Teng Hu,Zhentao Yu,Guozhen Zhang,Zihan Su,Zhengguang Zhou,Youliang Zhang,Yuan Zhou,Qinglin Lu,Ran Yi

Main category: cs.CV

TL;DR: Harmony是一个解决音频-视频同步生成挑战的新框架,通过跨任务协同训练、全局-局部解耦交互模块和同步增强CFG,显著提升了生成保真度和细粒度同步效果。

  • Motivation: 开源模型在音频-视频对齐方面存在挑战,主要问题包括联合扩散过程中的对应漂移、低效的全局注意力机制以及传统CFG的模态内偏见。
  • Method: 提出跨任务协同训练范式来缓解漂移问题,设计全局-局部解耦交互模块实现高效时间对齐,开发同步增强CFG在推理时显式增强对齐信号。
  • Result: 广泛实验表明Harmony在生成保真度和细粒度音频-视频同步方面显著优于现有方法,达到了新的最先进水平。
  • Conclusion: Harmony框架通过机制性地强制音频-视频同步,有效解决了联合扩散过程中的核心挑战,为同步音频-视觉内容生成提供了强大解决方案。

[105] Deep Learning-Based Multiclass Classification of Oral Lesions with Stratified Augmentation

Joy Naoum,Revana Salama,Ali Hamdi

Main category: cs.CV

TL;DR: 该研究使用深度学习构建了一个16种口腔病变的多分类器,通过分层数据分割、数据增强和过采样技术解决数据集有限和不平衡的问题,在口腔癌早期检测方面取得了83.33%的准确率。

  • Motivation: 口腔癌在全球非常普遍,但由于口腔内良性、癌前病变和恶性病变在视觉上相似,通常只能在晚期被诊断。早期实施计算机辅助诊断系统可以显著改善临床结果。
  • Method: 结合分层数据分割、高级数据增强和过采样技术来构建深度学习多分类器,解决数据集有限和不平衡的挑战。
  • Result: 实验结果显示模型达到83.33%准确率、89.12%精确率和77.31%召回率,优于现有最先进方法,特别是在少数类分类方面表现显著。
  • Conclusion: 该框架展示了过采样和增强策略在少数类分类中的有效性,是构建可信赖计算机辅助诊断系统用于口腔癌早期检测的有希望的第一步。

[106] MoGAN: Improving Motion Quality in Video Diffusion via Few-Step Motion Adversarial Post-Training

Haotian Xue,Qi Chen,Zhonghao Wang,Xun Huang,Eli Shechtman,Jinrong Xie,Yongxin Chen

Main category: cs.CV

TL;DR: MoGAN是一个专注于提升视频生成运动质量的训练后框架,通过光学流判别器和分布匹配正则化器来改善运动真实感,无需奖励模型或人类偏好数据。

  • Motivation: 现有视频扩散模型在帧级保真度上表现良好,但在运动连贯性、动态性和真实感方面仍有不足,常产生抖动、重影或不合理的动态。标准去噪MSE目标缺乏对时间一致性的直接监督。
  • Method: 基于3步蒸馏视频扩散模型,训练基于DiT的光学流判别器来区分真实与生成的运动,结合分布匹配正则化器保持视觉保真度。
  • Result: 在VBench上,MoGAN比50步教师模型提升运动得分7.3%,比3步DMD模型提升13.3%;在VideoJAM-Bench上分别提升7.4%和8.8%,同时保持相当或更好的美学和图像质量得分。人类研究也证实MoGAN在运动质量上更受青睐。
  • Conclusion: MoGAN在不牺牲视觉保真度或效率的前提下,显著提升了运动真实感,为快速高质量视频生成提供了实用路径。

[107] ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

M. Naseer Subhani

Main category: cs.CV

TL;DR: 提出了一种自提示的点监督框架,通过Refine-Requery-Reinforce循环,仅使用稀疏点标注来适应SAM模型到遥感图像分割任务。

  • Motivation: SAM模型在自然图像上表现优异,但在遥感图像上由于域偏移和密集标注稀缺而表现不佳,需要一种仅依赖稀疏点标注的适应方法。
  • Method: 采用Refine-Requery-Reinforce循环:从初始点生成粗伪掩码(Refine),用自构建的框提示改进(Requery),并通过嵌入对齐减少确认偏差(Reinforce)。
  • Result: 在WHU、HRSID和NWPU VHR-10三个遥感基准数据集上,该方法持续超越预训练SAM和最近的点监督分割方法。
  • Conclusion: 自提示和语义对齐为遥感应用中基础分割模型的可扩展点级适应提供了高效路径。

[108] Active Learning for GCN-based Action Recognition

Hichem Sahbi

Main category: cs.CV

TL;DR: 提出了一个标签高效的图卷积网络模型,通过对抗性策略选择信息丰富的样本进行标注,并引入双向稳定的GCN架构,在骨架动作识别任务上显著提升性能。

  • Motivation: 图卷积网络在骨架动作识别中表现优异,但通常依赖大量标注数据,而实际场景中标注数据往往稀缺。
  • Method: 1. 开发新颖的获取函数,使用对抗性策略选择信息丰富的代表性样本进行标注;2. 引入双向稳定的GCN架构,改善环境空间和潜在数据空间之间的映射。
  • Result: 在两个具有挑战性的骨架动作识别基准测试上,相比先前工作取得了显著改进。
  • Conclusion: 所提出的标签高效GCN模型能够有效解决标注数据稀缺问题,在骨架动作识别任务中表现出优越性能。

[109] Qwen3-VL Technical Report

Shuai Bai,Yuxuan Cai,Ruizhe Chen,Keqin Chen,Xionghui Chen,Zesen Cheng,Lianghao Deng,Wei Ding,Chang Gao,Chunjiang Ge,Wenbin Ge,Zhifang Guo,Qidong Huang,Jie Huang,Fei Huang,Binyuan Hui,Shutong Jiang,Zhaohai Li,Mingsheng Li,Mei Li,Kaixin Li,Zicheng Lin,Junyang Lin,Xuejing Liu,Jiawei Liu,Chenglong Liu,Yang Liu,Dayiheng Liu,Shixuan Liu,Dunjie Lu,Ruilin Luo,Chenxu Lv,Rui Men,Lingchen Meng,Xuancheng Ren,Xingzhang Ren,Sibo Song,Yuchong Sun,Jun Tang,Jianhong Tu,Jianqiang Wan,Peng Wang,Pengfei Wang,Qiuyue Wang,Yuxuan Wang,Tianbao Xie,Yiheng Xu,Haiyang Xu,Jin Xu,Zhibo Yang,Mingkun Yang,Jianxin Yang,An Yang,Bowen Yu,Fei Zhang,Hang Zhang,Xi Zhang,Bo Zheng,Humen Zhong,Jingren Zhou,Fan Zhou,Jing Zhou,Yuanzhi Zhu,Ke Zhu

Main category: cs.CV

TL;DR: Qwen3-VL是Qwen系列中最强大的视觉语言模型,在多种多模态基准测试中表现优异,支持256K令牌的交错上下文,集成了文本、图像和视频处理能力。

  • Motivation: 开发一个能够处理长上下文、支持多种模态输入、并在文本理解和多模态推理方面都表现卓越的视觉语言模型,以满足现实工作流程中的图像推理、智能决策和多模态代码智能需求。
  • Method: 采用密集(2B/4B/8B/32B)和专家混合(30B-A3B/235B-A22B)架构变体,引入三个关键升级:增强的交错MRoPE用于时空建模、DeepStack集成以加强视觉语言对齐、基于文本的时间对齐用于视频处理。
  • Result: 在可比较的令牌预算和延迟约束下,Qwen3-VL在密集和MoE架构中都实现了卓越性能,在MMMU、MathVista和MathVision等综合评估中表现出领先性能。
  • Conclusion: Qwen3-VL有望成为现实工作流程中图像推理、智能决策和多模态代码智能的基础引擎。

[110] Continual Error Correction on Low-Resource Devices

Kirill Paramonov,Mete Ozay,Aristeidis Mystakidis,Nikolaos Tsalikidis,Dimitrios Sotos,Anastasios Drosou,Dimitrios Tzovaras,Hyunjun Kim,Kiseok Chang,Sangdok Mo,Namwoong Kim,Woojong Yoo,Jijoong Moon,Umberto Michieli

Main category: cs.CV

TL;DR: 提出了一种在资源受限设备上通过小样本学习纠正AI分类错误的系统,使用服务器端基础模型训练和设备端原型分类相结合的方法,实现高效错误纠正而无需模型重训练。

  • Motivation: AI模型在日常设备中广泛使用,但预测错误会降低用户体验。现有解决方案主要关注错误检测,缺乏高效的纠正机制,特别是在资源受限设备上。
  • Method: 系统包含两个关键组件:服务器端利用知识蒸馏将基础模型的鲁棒特征表示迁移到设备兼容架构;设备端通过原型适配实现超高效错误纠正,使用原型更新而非模型重训练。
  • Result: 在Food-101和Flowers-102数据集上,单样本场景下实现超过50%的错误纠正率,遗忘率低于0.02%,计算开销可忽略不计。通过Android演示应用验证了系统的实用性。
  • Conclusion: 该系统证明了在资源受限设备上实现高效AI错误纠正的可行性,通过原型更新的方法显著降低了计算和存储需求,为实际应用场景提供了实用解决方案。

[111] CaFlow: Enhancing Long-Term Action Quality Assessment with Causal Counterfactual Flow

Ruisheng Han,Kanglei Zhou,Shuang Chen,Amir Atapour-Abarghouei,Hubert P. H. Shum

Main category: cs.CV

TL;DR: CaFlow是一个用于长期动作质量评估的统一框架,结合了反事实去混淆和双向时间条件流,通过因果反事实正则化和双向流模块提升长期时间建模的鲁棒性和连贯性。

  • Motivation: 长期动作质量评估(如花样滑冰、艺术体操)需要建模长时间动态并保持对上下文混淆因素的鲁棒性,现有方法依赖昂贵标注或单向时间建模,容易受到伪相关性和不稳定长期表示的影响。
  • Method: 提出CaFlow框架:1)Causal Counterfactual Regularization (CCR)模块以自监督方式解耦因果和混淆特征,通过反事实干预增强因果鲁棒性;2)BiT-Flow模块通过循环一致性约束建模前向和后向动态,产生更平滑连贯的表示。
  • Result: 在多个长期AQA基准测试上的广泛实验表明,CaFlow达到了最先进的性能。
  • Conclusion: CaFlow通过整合反事实去混淆和双向时间条件流,有效解决了长期动作质量评估中的挑战,提供了更鲁棒和连贯的时间表示。

[112] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

Tianyi Xiong,Yi Ge,Ming Li,Zuolong Zhang,Pranav Kulkarni,Kaishen Wang,Qi He,Zeying Zhu,Chenxi Liu,Ruibo Chen,Tong Zheng,Yanshuo Chen,Xiyao Wang,Renrui Zhang,Wenhu Chen,Heng Huang

Main category: cs.CV

TL;DR: Multi-Crit是一个评估多模态模型作为评判者的基准,重点测试其遵循多样化细粒度评估标准的能力,涵盖开放式生成和可验证推理任务。

  • Motivation: 当前大型多模态模型作为评估系统评判者时,其遵循多样化细粒度评估标准的能力尚未充分探索,需要系统评估其多元标准遵循能力。
  • Method: 通过严格的数据整理流程构建Multi-Crit基准,收集具有多标准人工标注的挑战性响应对,并引入三个新指标系统评估多元标准遵循、标准切换灵活性和识别标准级偏好冲突的能力。
  • Result: 对25个LMM的全面分析显示:专有模型在保持多元标准一致性方面仍有困难(尤其在开放式评估中);开源模型在灵活遵循多样化标准方面更落后;基于整体判断信号的批评微调能增强视觉基础但无法泛化到多元标准级判断。
  • Conclusion: Multi-Crit为构建可靠且可引导的多模态AI评估奠定了基础,揭示了当前多模态评判者在多元标准遵循方面的局限性。

[113] Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models

Naifu Zhang,Wei Tao,Xi Xiao,Qianpu Sun,Yuxin Zheng,Wentao Mo,Peiqiang Wang,Nan Zhang

Main category: cs.CV

TL;DR: ADVLA是一种针对视觉-语言-动作(VLA)模型的对抗攻击框架,通过在视觉编码器投影到文本特征空间的特征上直接应用对抗扰动,实现高效、低幅度且局部稀疏的攻击。

  • Motivation: 现有对抗攻击方法需要昂贵的端到端训练,且通常生成明显的扰动块。为了解决这些限制,需要开发更高效、更隐蔽的攻击方法。
  • Method: ADVLA直接在视觉编码器投影到文本特征空间的特征上应用对抗扰动,采用注意力引导使扰动既集中又稀疏,并引入三种策略来增强敏感性、强制稀疏性和集中扰动。
  • Result: 在L∞=4/255约束下,ADVLA结合Top-K掩码修改少于10%的补丁,攻击成功率接近100%。扰动集中在关键区域,整体图像中几乎不可察觉,单步迭代仅需约0.06秒。
  • Conclusion: ADVLA在低幅度和局部稀疏条件下有效削弱VLA模型的下游动作预测,避免了传统补丁攻击的高训练成本和明显扰动,展示了攻击VLA特征空间的独特有效性和实用价值。

[114] Revolutionizing Glioma Segmentation & Grading Using 3D MRI - Guided Hybrid Deep Learning Models

Pandiyaraju V,Sreya Mynampati,Abishek Karthik,Poovarasan L,D. Saraswathi

Main category: cs.CV

TL;DR: 提出了一种混合深度学习模型,结合U-Net分割和DenseNet-VGG分类网络,用于脑胶质瘤的精确分割和分类,在3D MRI数据上取得了98%的Dice系数和99%的分类准确率。

  • Motivation: 脑胶质瘤具有高死亡率,早期准确诊断对治疗干预至关重要,需要开发能够精确分割和分类肿瘤的深度学习模型。
  • Method: 使用U-Net进行3D MRI数据中的肿瘤分割,结合DenseNet和VGG的混合分类网络,集成多头注意力和空间通道注意力机制,通过归一化、重采样和数据增强预处理高维3D MRI数据。
  • Result: 在分割任务中达到98%的Dice系数,分类任务中达到99%的准确率,优于传统CNN模型和无注意力方法。
  • Conclusion: 该框架在胶质瘤的及时可靠诊断和分级方面具有巨大潜力,有助于改善患者治疗规划。

[115] Seeing without Pixels: Perception from Camera Trajectories

Zihui Xue,Kristen Grauman,Dima Damen,Andrew Zisserman,Tengda Han

Main category: cs.CV

TL;DR: 本文首次系统研究仅通过相机轨迹(而非像素)来感知视频内容的可行性,发现相机轨迹是揭示视频内容的有效信号。

  • Motivation: 探索是否可以不依赖像素信息,仅通过相机运动轨迹来理解视频内容,这是一个看似不可能但具有重要价值的研究问题。
  • Method: 提出对比学习框架训练CamFormer编码器,将相机姿态轨迹投影到联合嵌入空间,与自然语言对齐。
  • Result: 相机轨迹是揭示视频内容的有效信号,CamFormer嵌入在跨模态对齐、分类和时间分析等任务中表现优异,且对不同的相机姿态估计方法具有鲁棒性。
  • Conclusion: 相机轨迹是一种轻量级、鲁棒且多功能的感知视频内容的模态,"如何移动"确实可以揭示"在做什么"或"观察什么"。

[116] G2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Wenbo Hu,Jingli Lin,Yilin Long,Yunlong Ran,Lihan Jiang,Yifan Wang,Chenming Zhu,Runsen Xu,Tai Wang,Jiangmiao Pang

Main category: cs.CV

TL;DR: G²VLM是一个几何基础视觉语言模型,通过整合3D视觉几何学习来增强空间智能,在3D重建和空间理解任务上表现优异。

  • Motivation: 当前视觉语言模型在空间智能方面缺乏鲁棒性,主要原因是缺少从2D图像重建3D空间的视觉几何学习过程。
  • Method: 提出G²VLM模型,利用学习到的3D视觉几何特征直接预测3D属性,并通过上下文学习和交错推理增强空间推理任务。
  • Result: 在3D重建任务上达到与最先进前馈模型相当的结果,在空间理解和推理任务上取得更好或具有竞争力的结果。
  • Conclusion: 通过将语义强大的VLM与低级3D视觉任务统一,G²VLM为社区提供了强大的基准,有望解锁更多未来应用如3D场景编辑。

[117] Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Yusuf Dalva,Guocheng Gordon Qian,Maya Goldenberg,Tsai-Shien Chen,Kfir Aberman,Sergey Tulyakov,Pinar Yanardag,Kuan-Chieh Jackson Wang

Main category: cs.CV

TL;DR: Canvas-to-Image是一个统一框架,将文本提示、主体参考、空间布局、姿态约束和布局标注等多种控制信号整合到单一画布界面中,通过多任务画布训练策略实现高质量的多模态图像生成。

  • Motivation: 现代扩散模型在生成高质量多样化图像方面表现出色,但在处理高保真度的组合和多模态控制方面仍有困难,特别是当用户同时指定文本提示、主体参考、空间安排、姿态约束和布局标注时。
  • Method: 将多样控制信号编码为单一复合画布图像,提出多任务画布训练策略,在统一学习范式中优化扩散模型以联合理解和整合异构控制到文本到图像生成中。
  • Result: 在具有挑战性的基准测试中,包括多人组合、姿态控制组合、布局约束生成和多控制生成,Canvas-to-Image在身份保持和控制遵循方面显著优于最先进方法。
  • Conclusion: 联合训练使Canvas-to-Image能够跨多个控制模态进行推理,而不是依赖特定任务的启发式方法,在推理过程中能够很好地泛化到多控制场景。

eess.IV

[118] A Fractional Variational Approach to Spectral Filtering Using the Fourier Transform

Nelson H. T. Lemes,José Claudinei Ferreira,Higor V. M. Ferreira

Main category: eess.IV

TL;DR: 提出了一种基于变分方法和分数阶导数的拉曼光谱去噪技术,在频域中实现噪声抑制并保留关键化学特征。

  • Motivation: 拉曼光谱分析中荧光信号和噪声干扰严重,常常掩盖关键的光谱特征,影响分析准确性。
  • Method: 使用变分方法最小化包含分数阶导数的泛函,在频域中通过傅里叶变换实现,结合香农熵优化正则化参数和导数阶数。
  • Result: 该方法能有效去除噪声,同时保留光谱的峰值位置、强度和面积等关键化学特征,在模拟拉曼数据和图像处理中均表现良好。
  • Conclusion: 所提出的方法结合变分方法、分数阶导数和频域实现,产生了一个高效、鲁棒且易于实现的滤波器。

[119] Adversarial Multi-Task Learning for Liver Tumor Segmentation, Dynamic Enhancement Regression, and Classification

Xiaojiao Xiao,Qinmin Vivian Hu,Tae Hyun Kim,Guanghui Wang

Main category: eess.IV

TL;DR: MTI-Net是一个多任务交互对抗学习网络,能够同时完成肝脏肿瘤分割、动态增强回归和分类任务,通过多域信息熵融合和任务交互模块实现任务间协同提升。

  • Motivation: 解决现有方法无法同时完成肝脏肿瘤分割、动态增强回归和分类任务的问题,缺乏有效的框架来捕捉任务间相关性以实现相互提升,以及缺乏有效提取动态MRI信息的机制。
  • Method: 提出MTI-Net框架,包含多域信息熵融合(MdIEF)利用熵感知高频谱信息整合频域和谱域特征,任务交互模块建立分割和回归的高阶一致性,任务驱动判别器(TDD)捕捉任务间高阶关系,浅层Transformer网络进行位置编码提取动态MRI序列关系。
  • Result: 在238个受试者数据集上的实验表明,MTI-Net在多个任务上表现出高性能,显示出在肝脏肿瘤临床评估中的强大潜力。
  • Conclusion: MTI-Net是一个有效的端到端框架,能够同时处理肝脏肿瘤分割、动态增强回归和分类任务,通过多域信息融合和任务交互机制实现了任务间的协同提升。

[120] Deep Parameter Interpolation for Scalar Conditioning

Chicago Y. Park,Michael T. McCann,Cristina Garcia-Cardona,Brendt Wohlberg,Ulugbek S. Kamilov

Main category: eess.IV

TL;DR: 提出深度参数插值(DPI)方法,通过在单个网络中维护两个可学习参数集,并根据标量值动态插值参数来为神经网络添加标量依赖性,从而改进扩散模型和流匹配模型的去噪性能和样本质量。

  • Motivation: 现有深度生成模型(如扩散模型和流匹配)使用单一网络学习时间或噪声级别相关的向量场,但设计能够准确整合高维向量和标量信息的网络架构具有挑战性。常见方法要么将标量编码为额外图像输入,要么在特定网络组件中结合标量和向量信息,这限制了架构选择。
  • Method: 在单个网络中维护两个可学习参数集,根据标量值在训练和采样期间动态插值参数,实现标量依赖性。该方法简单且架构无关。
  • Result: 实验表明DPI方法提高了扩散模型和流匹配模型的去噪性能和样本质量,同时计算效率与标准标量条件技术相当。
  • Conclusion: 深度参数插值是一种通用、有效的为神经网络添加标量依赖性的方法,能够提升生成模型的性能而不牺牲计算效率。

cs.RO

[121] AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios

Chenglizhao Chen,Shaofeng Liang,Runwei Guan,Xiaolou Sun,Haocheng Zhao,Haiyun Jiang,Tao Huang,Henghui Ding,Qing-Long Han

Main category: cs.RO

TL;DR: 提出了首个无人机场景下的大规模Referring Multi-Object Tracking基准AerialMind,开发了半自动标注框架COALA,并提出了HawkEyeTrack方法来增强视觉-语言表示学习。

  • Motivation: 当前RMOT研究主要局限于地面场景,无法捕捉大尺度场景上下文和进行全面的跟踪与路径规划。无人机凭借其广阔的空中视角和优越机动性,在具身智能中具有重要作用,迫切需要能够进行自然语言交互的智能空中系统。
  • Method: 开发了半自动协作代理标注框架COALA来构建数据集;提出了HawkEyeTrack方法,通过协同增强视觉-语言表示学习来改善无人机场景的感知能力。
  • Result: 综合实验验证了数据集的挑战性和所提方法的有效性。
  • Conclusion: AerialMind基准填补了无人机场景下RMOT研究的空白,COALA框架显著降低了标注成本,HawkEyeTrack方法在无人机场景感知方面表现出色。

[122] SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Ziyi Chen,Yingnan Guo,Zedong Chu,Minghua Luo,Yanfen Shen,Mingchao Sun,Junjun Hu,Shichao Xie,Kuan Yang,Pei Shi,Zhining Gu,Lu Liu,Honglin Han,Xiaolong Wu,Mu Xu,Yu Zhang

Main category: cs.RO

TL;DR: SocialNav是一个用于社会感知导航的基础模型,采用分层"大脑-行动"架构,能够理解高级社会规范并生成低级的、符合社会规范的轨迹。

  • Motivation: 在具身导航中遵守社会规范仍然是一个开放的研究挑战,需要开发能够理解社会规范并生成符合社会规范的导航轨迹的模型。
  • Method: 构建了SocNav数据集(700万样本),包含认知激活数据集和专家轨迹金字塔;采用多阶段训练流程,先通过模仿学习注入导航技能和社会规范理解,然后通过SAFE-GRPO(首个基于流的强化学习框架)细化技能。
  • Result: SocialNav相比最先进方法实现了+38%的成功率和+46%的社会合规率,在导航性能和社会合规性方面都表现出显著提升。
  • Conclusion: SocialNav通过分层架构和大规模数据集,成功解决了社会感知导航的挑战,在导航性能和社会合规性方面都取得了显著进展。

[123] Uncertainty Quantification for Visual Object Pose Estimation

Lorenzo Shaikewitz,Charis Georgiou,Luca Carlone

Main category: cs.RO

TL;DR: 提出了一种名为SLUE的分布无关位姿不确定性估计方法,通过凸优化生成包含真实位姿的高概率椭球不确定性边界,适用于单目相机场景。

  • Motivation: 在机器人控制与规划中,量化物体位姿估计的不确定性至关重要。现有方法通常需要严格的分布假设,而缺乏统计上严格的不确定性度量方法。
  • Method: 基于2D语义关键点检测的高概率噪声边界,构建隐式非凸位姿不确定性约束集。通过S-引理启发的最小体积包围椭球问题松弛,开发SLUE凸优化程序生成椭球不确定性边界。
  • Result: 在两个位姿估计数据集和真实无人机跟踪场景中验证,相比现有方法,SLUE生成显著更小的平移边界和具有竞争力的旋转边界。
  • Conclusion: SLUE提供了一种分布无关的位姿不确定性估计框架,能够生成统计上严格且紧凑的不确定性边界,适用于实际机器人应用。

[124] TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos

Seungjae Lee,Yoonkyo Jung,Inkook Chun,Yao-Chih Lee,Zikui Cai,Hongjia Huang,Aayush Talreja,Tan Dat Dao,Yongyuan Liang,Jia-Bin Huang,Furong Huang

Main category: cs.RO

TL;DR: TraceGen是一个世界模型,通过3D轨迹空间表示学习跨实体、跨环境和跨任务的运动,只需少量演示就能适应新机器人任务,在仅5个目标机器人视频下达到80%成功率。

  • Motivation: 解决从少量演示中学习新机器人任务的挑战,利用丰富的跨实体视频资源,但克服实体差异、相机差异和环境差异带来的障碍。
  • Method: 引入统一的符号表示——3D轨迹空间,开发TraceGen世界模型预测轨迹空间而非像素空间的未来运动,通过TraceForge数据管道将异构视频转换为一致的3D轨迹。
  • Result: 在123K视频和1.8M观察-轨迹-语言三元组上预训练,仅用5个目标机器人视频达到80%成功率,推理速度比现有视频世界模型快50-600倍;仅用5个手机拍摄的人类演示视频也能在真实机器人上达到67.5%成功率。
  • Conclusion: TraceGen通过3D轨迹空间表示有效解决了小数据学习问题,能够跨实体适应而无需依赖物体检测器或繁重的像素空间生成。

cs.HC

[125] STAR: Smartphone-analogous Typing in Augmented Reality

Taejun Kim,Amy Karlson,Aakar Gupta,Tovi Grossman,Jason Wu,Parastoo Abtahi,Christopher Collins,Michael Glueck,Hemant Bhaskar Surale

Main category: cs.HC

TL;DR: STAR是一种AR文本输入技术,通过在手部皮肤上叠加虚拟QWERTY键盘,利用用户对智能手机双拇指打字的熟悉度来实现高效输入。

  • Motivation: 在增强现实应用中,文本输入是重要且频繁的任务,但设计高效易用的AR文本输入方法仍是一个开放挑战。
  • Method: 开发STAR技术,让用户在叠加在手部皮肤上的虚拟QWERTY键盘上进行双拇指打字,利用用户对智能手机打法的熟悉度。
  • Result: 评估显示,经过30分钟练习后,参与者平均打字速度达21.9 WPM(智能手机打字速度的56%),平均错误率为0.3%。
  • Conclusion: 分析了STAR与智能手机打字性能差距的主要因素,并讨论了缩小这一差距的方法。

cs.CL

[126] Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and Prospects

Husne Ara Rubaiyeat,Hasan Mahmud,Md Kamrul Hasan

Main category: cs.CL

TL;DR: 提出了孟加拉手语翻译数据集IsharaKhobor及其两个子集,解决了该低资源语言的翻译问题,并进行了词汇限制和规范化处理。

  • Motivation: 孟加拉手语翻译资源严重不足,需要为标准句子级数据集开发AI辅助工具,帮助孟加拉语社区的聋人和听力障碍人士。
  • Method: 创建IsharaKhobor数据集,进行词汇限制和规范化处理,生成两个子集IsharaKhobor_small和IsharaKhobor_canonical_small,并使用基于地标的原始和RQE嵌入进行基准测试。
  • Result: 成功开发了公开可用的数据集,并进行了消融实验,验证了词汇限制和规范化的有效性。
  • Conclusion: 该数据集为孟加拉手语翻译研究提供了重要资源,推动了AI辅助工具的发展,数据集已在Kaggle上公开。

q-bio.QM

[127] Automated Histopathologic Assessment of Hirschsprung Disease Using a Multi-Stage Vision Transformer Framework

Youssef Megahed,Saleh Abou-Alwan,Anthony Fuller,Dina El Demellawy,Steven Hawken,Adrian D. C. Chan

Main category: q-bio.QM

TL;DR: 提出基于Vision Transformer的三阶段分割框架,用于诊断Hirschsprung病,通过分割肌层、神经丛和神经节细胞来辅助病理诊断。

  • Motivation: Hirschsprung病的诊断依赖于肌层神经丛中神经节细胞的正确识别,需要开发自动化方法来减少观察者间差异并支持数字病理工作流程。
  • Method: 使用Vision Transformer (ViT-B/16)的三阶段分割框架:先分割肌层,再描绘神经丛,最后在解剖有效区域内识别神经节细胞。采用5折交叉验证、分辨率特定分块策略和定制后处理确保解剖一致性。
  • Result: 肌层分割Dice系数89.9%,神经丛包含率100%;神经丛分割召回率94.8%,精确率84.2%,神经节包含率99.7%;高确定性神经节细胞精确率62.1%,召回率89.1%;联合确定性得分精确率67.0%。
  • Conclusion: ViT模型能有效利用全局组织上下文并捕捉小尺度细胞形态,在复杂组织结构中表现良好。该方法有潜力支持数字病理工作流程,未来将在多中心数据集上评估临床影响。

cs.AI

[128] Guaranteed Optimal Compositional Explanations for Neurons

Biagio La Rosa,Leilani H. Gilpin

Main category: cs.AI

TL;DR: 提出了第一个能够计算保证最优组合解释的框架,通过分解空间对齐因素、设计启发式估计方法,在可行时间内找到最优解释,发现传统束搜索方法在涉及重叠概念时有10-40%的解释是次优的。

  • Motivation: 现有组合解释方法使用束搜索但无法提供理论最优性保证,不清楚当前解释与真正最优解的接近程度,需要开发能够计算保证最优组合解释的框架。
  • Method: 提出了一个包含三个关键组件的框架:(i)识别影响空间对齐因素的分解方法,(ii)在搜索任何阶段估计对齐的启发式方法,(iii)第一个能在可行时间内计算最优组合解释的算法。
  • Result: 在计算机视觉和卷积神经网络的典型设置中,当涉及重叠概念时,使用束搜索获得的解释有10-40%是次优的。提出的引导束搜索变体在运行时间上匹配或优于先前方法,同时在超参数和计算资源方面提供更大灵活性。
  • Conclusion: 开发了第一个能够计算保证最优组合解释的理论框架,揭示了现有方法的局限性,并提出了改进的搜索策略,为理解神经网络中神经元学习内容提供了更可靠的分析工具。

[129] ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Qineng Wang,Wenlong Huang,Yu Zhou,Hang Yin,Tianwei Bao,Jianwen Lyu,Weiyu Liu,Ruohan Zhang,Jiajun Wu,Li Fei-Fei,Manling Li

Main category: cs.AI

TL;DR: ENACT是一个评估具身认知的基准,通过视觉问答形式测试模型从自我中心交互中建模世界的能力,包含前向世界建模和逆向世界建模两个任务。

  • Motivation: 探索现代视觉语言模型是否表现出具身认知的迹象,即智能是否源于感觉运动交互而非被动观察。
  • Method: 将具身认知评估构建为部分可观察马尔可夫决策过程,使用从机器人仿真中合成的问答对,包含观察序列重排序和动作序列重排序两个互补任务。
  • Result: 前沿视觉语言模型与人类之间存在性能差距,且差距随交互时间跨度增大而扩大;模型在逆向任务上表现更好,并表现出人类中心偏见。
  • Conclusion: 现代VLMs显示出初步的具身认知能力,但仍存在显著差距,特别是在长时程交互和避免人类中心偏见方面。

[130] OVOD-Agent: A Markov-Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection

Chujie Wang,Jianyu Lu,Zhiyuan Luo,Xi Chen,Chu He

Main category: cs.AI

TL;DR: OVOD-Agent将开放词汇目标检测从被动的类别匹配转变为主动的视觉推理和自我演化检测,通过视觉思维链和弱马尔可夫决策过程提升检测性能。

  • Motivation: 现有的开放词汇目标检测方法虽然在多模态数据上预训练,但推理仍局限于固定类别名称,造成了多模态训练与单模态推理之间的差距。文本空间的潜力尚未充分挖掘。
  • Method: 提出OVOD-Agent框架,将文本优化过程扩展为可解释的视觉思维链。采用弱马尔可夫决策过程建模视觉上下文转换,通过Bandit模块生成探索信号,并结合马尔可夫转移矩阵进行自监督奖励模型优化。
  • Result: 在COCO和LVIS数据集上的实验表明,OVOD-Agent在各种OVOD骨干网络上均能提供一致的性能提升,特别是在稀有类别上表现突出。
  • Conclusion: OVOD-Agent通过主动视觉推理和自我演化检测机制,有效提升了开放词汇目标检测的性能,验证了所提框架的有效性。

cs.MM

[131] Prompt-Aware Adaptive Elastic Weight Consolidation for Continual Learning in Medical Vision-Language Models

Ziyuan Gao,Philippe Morel

Main category: cs.MM

TL;DR: PA-EWC是一种新颖的持续学习方法,通过提示引导的参数专业化解决医学AI系统中的灾难性遗忘问题,在多种医学影像数据集上显著优于基线方法。

  • Motivation: 医学AI系统在临床部署中面临灾难性遗忘问题,特别是在医学视觉语言模型中需要保持复杂跨模态对齐的同时学习新的成像协议。
  • Method: PA-EWC通过系统分类模型参数功能角色(视觉描述、空间引导、医学语义),结合自适应Fisher信息计算和梯度稳定性分析,开发基于医学术语密度的加权复杂度指标。
  • Result: 在五个医学影像数据集上的实验表明,PA-EWC相比基线方法减少灾难性遗忘达17.58%,在胸部X光病理定位和息肉分割任务上分别提升4.30%和6.06%。
  • Conclusion: PA-EWC通过提示感知的参数专业化有效解决了医学视觉语言模型的灾难性遗忘问题,为临床环境中的持续学习提供了可行方案。

[132] AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control

Xinyue Guo,Xiaoran Yang,Lipan Zhang,Jianxuan Yang,Zhao Wang,Jian Luan

Main category: cs.MM

TL;DR: AV-Edit是一个生成式音效编辑框架,通过联合利用视觉、音频和文本语义,实现对视频中现有音频轨道的细粒度编辑。

  • Motivation: 现有的音效编辑方法仅依赖低级信号处理或粗略文本提示,导致灵活性有限且音频质量不佳。
  • Method: 使用对比音频-视觉掩码自编码器进行多模态预训练,学习对齐的跨模态表示,然后训练多模态扩散变换器,通过基于相关性的特征门控训练策略去除视觉无关声音并生成与视频内容一致的缺失音频元素。
  • Result: AV-Edit生成基于视觉内容精确修改的高质量音频,在音效编辑领域达到最先进性能,在音频生成领域表现出强大竞争力。
  • Conclusion: 提出的AV-Edit框架通过多模态表示学习和扩散模型,显著提升了音效编辑的灵活性和音频质量。

cs.LG

[133] CHiQPM: Calibrated Hierarchical Interpretable Image Classification

Thomas Norrenbrock,Timo Kaiser,Sovan Biswas,Neslihan Kose,Ramesh Manuvinakurike,Bodo Rosenhahn

Main category: cs.LG

TL;DR: CHiQPM是一个全局可解释模型,通过对比解释多数类别提供分层解释,在保持99%非可解释模型准确率的同时实现可解释性,并提供可解释的共形预测方法。

  • Motivation: 在安全关键领域需要可信AI,全局可解释模型配合详细的局部解释能有效支持人类专家进行推理决策。
  • Method: 提出校准分层QPM模型,通过对比解释多数类别实现全局可解释性,提供类似人类推理的分层解释,并构建可解释的共形预测方法。
  • Result: CHiQPM作为点预测器达到最先进准确率,保持非可解释模型99%的准确率,其校准集预测在效率上与其他CP方法竞争,同时提供分层解释的连贯集预测。
  • Conclusion: CHiQPM实现了全局和局部可解释性的全面结合,在不牺牲准确率的前提下显著提升了可解释性,为人机互补铺平了道路。

[134] Probabilistic Wildfire Spread Prediction Using an Autoregressive Conditional Generative Adversarial Network

Taehoon Kang,Taeyong Kim

Main category: cs.LG

TL;DR: 提出基于自回归条件生成对抗网络(CGAN)的概率性野火蔓延预测方法,通过自回归学习序列状态转换,在预测准确性和边界描绘方面优于传统深度学习模型。

  • Motivation: 气候变化加剧了野火的频率和严重性,需要快速准确的火灾蔓延预测。基于物理的模拟器计算量大,而现有深度学习模型预测过于平滑,无法捕捉野火传播的复杂非线性动态。
  • Method: 使用自回归条件生成对抗网络(CGAN)进行概率性野火蔓延预测,将预测任务制定为自回归问题,学习序列状态转换以确保长期预测稳定性。
  • Result: 实验结果表明,提出的CGAN模型在整体预测准确性和火灾边界描绘方面优于传统深度学习模型,能够捕捉野火蔓延的强非线性和不确定性。
  • Conclusion: 基于CGAN的自回归框架提高了野火蔓延预测的准确性和物理可解释性,为时间敏感的响应和疏散规划提供了有前景的基础。

[135] CNN-LSTM Hybrid Architecture for Over-the-Air Automatic Modulation Classification Using SDR

Dinanath Padhya,Krishna Acharya,Bipul Kumar Dahal,Dinesh Baniya Kshatri

Main category: cs.LG

TL;DR: 提出基于CNN-LSTM混合架构的自动调制分类系统,在软件定义无线电平台上实现,在0-30dB信噪比范围内达到93.48%的准确率。

  • Motivation: 自动调制分类是未来无线通信系统的核心技术,对认知无线电、频谱监测和智能通信网络应用至关重要。
  • Method: 使用CNN进行空间特征提取,LSTM捕获时间依赖性,结合RadioML2018数据集和自定义数据集进行训练。
  • Result: 优化模型达到93.48%准确率、93.53%精确率、93.48%召回率和93.45% F1分数,AUC-ROC分析证实了模型在噪声条件下的判别能力。
  • Conclusion: 实验结果验证了混合CNN-LSTM架构在自动调制分类中的有效性,在自适应频谱管理和高级认知无线电系统中具有应用潜力。

[136] BanglaMM-Disaster: A Multimodal Transformer-Based Deep Learning Framework for Multiclass Disaster Classification in Bangla

Ariful Islam,Md Rifat Hossen,Md. Mahmudul Arif,Abdullah Al Noman,Md Arifur Rahman

Main category: cs.LG

TL;DR: BanglaMM-Disaster是一个基于深度学习的多模态框架,使用孟加拉语社交媒体文本和图像数据进行灾害分类,在新建的5037条数据集上达到83.76%准确率,比单模态方法有显著提升。

  • Motivation: 孟加拉国自然灾害频发,需要实时监测和快速响应系统,但目前缺乏针对孟加拉语的多模态灾害分析工具。
  • Method: 构建包含5037条孟加拉语社交媒体帖子的新数据集,整合基于Transformer的文本编码器(BanglaBERT、mBERT、XLM-RoBERTa)和CNN骨干网络(ResNet50、DenseNet169、MobileNetV2),采用早期融合策略处理文本和图像两种模态。
  • Result: 最佳模型准确率达到83.76%,比最佳纯文本基线高3.84%,比纯图像基线高16.91%,所有类别的误分类都减少,对模糊样本有明显改善。
  • Conclusion: 该工作填补了孟加拉语多模态灾害分析的关键空白,证明了在低资源环境下结合多种数据类型对实时灾害响应的益处。

[137] Mechanisms of Non-Monotonic Scaling in Vision Transformers

Anantha Padmanaban Krishna Kumar

Main category: cs.LG

TL;DR: 研究发现深度视觉Transformer存在Cliff-Plateau-Climb三阶段模式,[CLS]令牌作用逐渐边缘化,信息扩散比参数增加更重要。

  • Motivation: 深度视觉Transformer性能不如浅层模型,挑战了传统缩放假设,需要理解表示随深度演化的规律。
  • Method: 系统分析ViT-S、ViT-B和ViT-L在ImageNet上的表现,使用信息混洗指数量化信息混合模式。
  • Result: 识别出三阶段演化模式,[CLS]令牌作用被分布式共识取代,ViT-L的信息-任务权衡比ViT-B晚10层出现。
  • Conclusion: Transformer架构应注重精心校准的深度执行清晰阶段转换,而非简单增加参数,信息混洗指数可作为设计目标。

cs.SD

[138] Multi-Reward GRPO for Stable and Prosodic Single-Codebook TTS LLMs at Scale

Yicheng Zhong,Peiji Yang,Zhisheng Wang

Main category: cs.SD

TL;DR: 提出多奖励组相对策略优化(GRPO)框架,通过强化学习直接优化单码本TTS LLM的token生成策略,解决韵律不稳定、说话人漂移和自然度下降问题。

  • Motivation: 单码本TTS LLM虽然紧凑且可流式传输,但存在韵律不稳定、说话人漂移和自然度下降的问题,需要改进其token生成策略。
  • Method: 使用多奖励GRPO框架,整合标准可懂度和说话人相似度目标,以及三个基于规则的奖励:时长一致性的长度惩罚、解码稳定性的熵正则化奖励、以及LLM标注的韵律对齐奖励。在韵律奖励中,外部推理LLM通过上下文学习预测多个可能的停顿结构。
  • Result: 该方法在单码本TTS LLM中持续提升了韵律稳定性、说话人相似度和整体语音自然度。附加流匹配解码器后观察到一致的额外增益,表明强化优化增强了内在的自回归策略。
  • Conclusion: 提出的GRPO框架有效解决了单码本TTS LLM的关键问题,通过多奖励强化学习优化显著提升了语音合成质量,具有较好的可扩展性。