Skip to content
每日arXiv - 2025年11月27日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Are Neuro-Inspired Multi-Modal Vision-Language Models Resilient to Membership Inference Privacy Leakage?

David Amebley,Sayanton Dibbo

Main category: cs.CV

TL;DR: 本文提出了一种神经科学启发的拓扑正则化框架,用于增强多模态视觉语言模型对成员推理攻击的隐私保护能力,实验表明该方法能显著降低攻击成功率同时保持模型性能。

  • Motivation: 随着多模态模型的广泛应用,隐私泄露风险日益突出。现有研究主要关注单模态系统的隐私攻击,而多模态模型对隐私攻击的脆弱性及其神经启发的防御机制尚未充分探索。
  • Method: 提出系统性的神经科学启发拓扑正则化框架(tau),在BLIP、PaliGemma 2和ViT-GPT2三个视觉语言模型上应用,使用COCO、CC3M和NoCaps三个基准数据集进行实验,比较基线模型与神经变体模型的隐私保护能力。
  • Result: 在BLIP模型上的实验显示,神经变体VLM的成员推理攻击成功率平均ROC-AUC下降24%,同时模型效用(生成字幕与参考字幕的相似度)在MPNet和ROUGE-2指标上保持相似水平。其他模型和数据集的结果也验证了发现的一致性。
  • Conclusion: 神经启发的视觉语言模型对隐私攻击具有更强的抵御能力,且不会显著损害模型效用,这为理解多模态模型的隐私风险提供了新证据。

[2] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Inferix Team,Tianyu Feng,Yizeng Han,Jiahao He,Yuanyu He,Xi Lin,Teng Liu,Hanfeng Lu,Jiasheng Tang,Wei Wang,Zhiyuan Wang,Jichao Wu,Mingyang Yang,Yinghao Yu,Zeyu Zhang,Bohan Zhuang

Main category: cs.CV

TL;DR: Inferix是一个专为世界模型设计的下一代推理引擎,通过优化的半自回归解码过程实现沉浸式世界合成,支持交互式视频流和性能分析,并与LV-Bench基准测试无缝集成。

  • Motivation: 世界模型是智能体AI、具身AI和游戏等领域的核心模拟器,能够生成长时间、物理真实且交互式的高质量视频。扩展这些模型可以解锁视觉感知、理解和推理的新兴能力,超越当前以LLM为中心的视觉基础模型范式。
  • Method: 采用半自回归(块扩散)解码范式,结合扩散和自回归方法的优势,在每个块内应用扩散生成视频标记,同时以前一个块为条件,从而产生更连贯和稳定的视频序列。通过重新引入LLM风格的KV缓存管理,克服标准视频扩散的限制。
  • Result: Inferix能够实现高效、可变长度和高质量的视频生成,支持实时交互和真实模拟,准确建模世界动态。
  • Conclusion: Inferix作为专门针对世界模拟设计的推理引擎,与高并发系统(如vLLM或SGLang)和经典视频扩散模型(如xDiTs)不同,旨在推动世界模型的探索和发展。

[3] Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detection?

Kun Guo,Yun Shen,Xijun Wang,Chaoqun You,Yun Rui,Tony Q. S. Quek

Main category: cs.CV

TL;DR: 提出LTED-Ada算法,在资源受限设备上自适应选择本地跟踪或边缘检测,通过深度强化学习优化视频对象识别性能,并在多设备场景中使用联邦学习提升泛化能力。

  • Motivation: 解决资源受限设备(如交通摄像头)上视频对象识别的挑战,利用移动边缘计算将计算密集型检测卸载到边缘服务器,但需要智能决定何时进行边缘检测与本地跟踪。
  • Method: 提出LTED-Ada算法,基于深度强化学习自适应选择本地跟踪或边缘检测;在多设备场景中使用联邦学习进行协作策略训练;通过硬件在环实验验证。
  • Result: 实验证明LTED-Ada在Raspberry Pi 4B设备和PC边缘服务器上的优越性能,能够满足帧率、识别精度和延迟要求。
  • Conclusion: LTED-Ada通过自适应选择和联邦学习协作训练,有效解决了资源受限设备上视频对象识别的挑战,在单设备和多设备场景中均表现出色。

[4] DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving

Haibo HU,Lianming Huang,Nan Guan,Chun Jason Xue

Main category: cs.CV

TL;DR: DeeAD是一个无需训练、基于动作引导的早退框架,通过评估中间轨迹的物理可行性来加速VLA规划模型推理,在保持规划质量的同时减少28%的transformer层使用和29%的延迟。

  • Motivation: 现有的Vision-Language Action模型在自动驾驶中统一了感知、推理和轨迹生成,但由于深度transformer堆栈导致推理延迟显著。
  • Method: 提出DeeAD框架,不依赖置信度分数,当预测轨迹与轻量级规划先验(如导航或低精度规划)在可容忍偏差内(<2米)时终止推理;引入多跳控制器根据分数变化率自适应跳过冗余层。
  • Result: 在Bench2Drive基准测试中,实现了高达28%的transformer层稀疏性和29%的延迟减少,同时保持了规划质量和安全性。
  • Conclusion: DeeAD可以无缝集成到现有VLA模型中(如ORION),无需重新训练,有效加速推理过程。

[5] Foundry: Distilling 3D Foundation Models for the Edge

Guillaume Letellier,Siddharth Srivastava,Frédéric Jurie,Gaurav Sharma

Main category: cs.CV

TL;DR: 提出了Foundation Model Distillation (FMD)新范式,用于将大型自监督学习模型压缩成紧凑高效的代理模型,保持其通用表征能力。

  • Motivation: 大型基础模型虽然功能强大,但计算成本高、模型庞大,难以部署在边缘设备上。现有压缩技术会牺牲模型的通用性。
  • Method: 提出Foundry方法,训练学生模型学习压缩的SuperTokens来重建教师模型的token级表征,捕捉其潜在空间的紧凑基础。
  • Result: 单个蒸馏模型在分类、部件分割和少样本场景等多样化下游任务中保持强迁移性,接近完整基础模型性能,同时显著减少token数量和FLOPs。
  • Conclusion: FMD范式能够创建紧凑、高效且忠实的基础模型代理,使其更适合在资源受限的硬件上部署。

[6] DinoLizer: Learning from the Best for Generative Inpainting Localization

Minh Thong Doi,Jan Butora,Vincent Itier,Jérémie Boulanger,Patrick Bas

Main category: cs.CV

TL;DR: DinoLizer是基于DINOv2的生成式修复图像篡改区域定位模型,通过线性分类头和滑动窗口策略在14×14补丁分辨率下检测语义篡改区域,在多个数据集上超越现有方法。

  • Motivation: 现有方法在定位生成式修复图像中的篡改区域时效果有限,需要开发更准确的定位技术来检测语义层面的篡改。
  • Method: 在DINOv2预训练模型基础上添加线性分类头,使用滑动窗口策略处理大尺寸图像,通过后处理优化二值篡改掩码。
  • Result: 在多个修复数据集上超越最先进的篡改定位方法,平均IoU提高12%,对常见后处理操作保持鲁棒性。
  • Conclusion: DinoLizer证明了视觉变换器在篡改定位任务中的强大表示能力,DINOv2在此任务上优于DINOv3。

[7] CANVAS: A Benchmark for Vision-Language Models on Tool-Based User Interface Design

Daeheon Jeong,Seoyeon Byun,Kihoon Son,Dae Hyun Kim,Juho Kim

Main category: cs.CV

TL;DR: CANVAS是一个评估视觉语言模型在工具调用基础上进行用户界面设计的基准测试,包含598个设计任务和两种任务类型:设计复制和设计修改。

  • Motivation: 目前缺乏评估基于工具的设计性能的基准测试,无法了解视觉语言模型在设计软件中协作设计的能力。
  • Method: 构建包含598个工具设计任务的基准测试,从3.3K个移动UI设计中采样,涵盖30个功能类别,支持通过工具调用逐步更新设计。
  • Result: 领先模型表现出更策略性的工具调用,提高了设计质量,同时识别了常见错误模式。
  • Conclusion: CANVAS基准测试揭示了视觉语言模型在工具调用设计方面的潜力,为未来增强基于工具的设计能力提供了指导。

[8] Text-Guided Semantic Image Encoder

Raghuveer Thirukovalluru,Xiaochuang Han,Bhuwan Dhingra,Emily Dinan,Maha Elbayad

Main category: cs.CV

TL;DR: 提出文本引导的语义图像编码器(TIE),通过文本查询条件化生成图像表示,在多个图像到文本基准测试中显著提升性能,同时减少图像token数量提高推理效率。

  • Motivation: 传统视觉语言模型中的图像编码器通常独立预训练,处理图像时与下游任务或文本查询无关,限制了性能。
  • Method: 开发文本引导的语义图像编码器(TIE),根据输入文本查询生成条件化的图像表示。
  • Result: 在1B和3B规模下,TIE模型在9个图像到文本基准测试中平均提升1.5和1.3分,DocVQA和InfoVQA任务提升达6分,同时图像token数量减半,推理效率显著提高。
  • Conclusion: 文本条件化训练有效优化编码器捕捉关键视觉特征,TIE能持续关注查询相关区域,增强可解释性和查询特定定位能力。

[9] One Patch is All You Need: Joint Surface Material Reconstruction and Classification from Minimal Visual Cues

Sindhuja Penchala,Gavin Money,Gabriel Marques,Samuel Wood,Jessica Kirschman,Travis Atkison,Shahram Rahimi,Noorbakhsh Amiri Golilarz

Main category: cs.CV

TL;DR: SMARC是一个从最小视觉输入进行表面材料重建和分类的统一模型,仅需图像10%的连续补丁即可识别和重建完整RGB表面,同时分类材料类别。

  • Motivation: 现有方法依赖密集或全场景观察,在受限或部分视图环境中效果有限,需要解决稀疏视觉线索下的材料表面理解问题。
  • Method: 结合部分卷积U-Net和分类头的架构,在极端观察稀疏度下实现空间修复和语义理解。
  • Result: 在真实世界表面纹理数据集上,SMARC达到PSNR 17.55 dB和材料分类准确率85.10%,优于卷积自编码器、ViT、MAE、Swin Transformer和DETR等模型。
  • Conclusion: 部分卷积在缺失数据下的空间推理具有优势,为最小视觉表面理解奠定了坚实基础。

[10] LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

Zuhao Yang,Sudong Wang,Kaichen Zhang,Keming Wu,Sicong Leng,Yifan Zhang,Chengwei Qin,Shijian Lu,Xingxuan Li,Lidong Bing

Main category: cs.CV

TL;DR: LongVT是一个端到端的代理框架,通过多模态工具链思维实现长视频推理,利用LMMs的时序定位能力作为视频裁剪工具进行全局到局部推理,在多个长视频理解基准上表现出色。

  • Motivation: 现有的大规模多模态模型在处理长视频时容易产生幻觉,因为证据稀疏且时间分散。受人类理解长视频的方式启发(先全局浏览再检查相关片段),需要开发能够进行全局到局部推理的框架。
  • Method: 利用LMMs固有的时序定位能力作为原生视频裁剪工具,放大特定视频片段并重新采样更细粒度的视频帧,通过全局到局部推理循环直到答案基于检索到的视觉证据。采用三阶段训练策略:工具集成的冷启动监督微调、代理强化学习和代理强化微调。
  • Result: 在四个具有挑战性的长视频理解和推理基准上持续优于现有强基线。发布了包含247.9K训练样本和1,280个QA对的评估基准VideoSIAH数据集。
  • Conclusion: LongVT通过多模态工具链思维和全局到局部推理循环,有效解决了长视频推理中的幻觉问题,为长视频理解提供了有效的端到端解决方案。

[11] Revisiting KRISP: A Lightweight Reproduction and Analysis of Knowledge-Enhanced Vision-Language Models

Souradeep Dutta,Keshav Bulia,Neena S Nair

Main category: cs.CV

TL;DR: 本文对KRISP模型进行了轻量级复现,参数大幅减少但性能达到原版的75%,揭示了原模型的设计缺陷和实际问题,并在资源受限条件下研究了知识增强VQA架构的可扩展性和有效性。

  • Motivation: 原版KRISP模型虽然有效,但需要工业级训练规模、计算需求大且与大型骨干网络紧密耦合。本文旨在重新审视KRISP,提供参数显著减少的轻量级复现版本。
  • Method: 通过系统消融研究进行轻量级复现,包括在合成VQA数据上的概念验证和在DAQUAR数据集上的评估。模型采用低参数配置,受外部知识图谱领域约束。
  • Result: 复现模型性能达到原版的75%,揭示了原模型未充分覆盖的设计缺陷、实际陷阱和隐性问题。模型能够防止AI幻觉,仅在知识图谱领域内生成输出。
  • Conclusion: 轻量级模型参数极少,可在智能手机和AR-VR等边缘设备上运行,进一步改善了离线视觉推理能力。

[12] Intriguing Properties of Dynamic Sampling Networks

Dario Morle,Reid Zaffino

Main category: cs.CV

TL;DR: 本文提出了一种称为"warping"的新型算子,统一分析了深度学习中的动态采样机制,揭示了前向和后向传播的不对称性,并提供了确保动态采样网络稳定训练的条件。

  • Motivation: 深度学习架构中的动态采样机制在计算机视觉模型中已证明有效,但这些结构的理论分析尚未统一。本文旨在通过一个通用算子来连接和分析各种动态采样方法。
  • Method: 开发并分析了一个称为"warping"的新型算子,该算子概括了现有方法,包括可变形卷积、主动卷积单元和空间变换网络。通过将输入建模为IID变量和齐次随机场进行统计分析。
  • Result: 发现了模型训练中前向和后向传播的独特不对称性,证明这些机制代表了与传统平移不变卷积算子完全不同的正交算子类别。确定了确保动态采样网络稳定训练的条件。
  • Conclusion: warping算子为动态采样提供了最小化实现和理论分析框架,揭示了动态采样网络与传统卷积网络的根本差异,并提供了稳定训练的理论指导。

[13] Δ-NeRF: Incremental Refinement of Neural Radiance Fields through Residual Control and Knowledge Transfer

Kriti Ghosh,Devjyoti Chakraborty,Lakshmish Ramaswamy,Suchendra M. Bhandarkar,In Kee Kim,Nancy O'Hare,Deepak Mishra

Main category: cs.CV

TL;DR: 提出Δ-NeRF,一种用于增量NeRF精化的模块化残差框架,通过残差控制器、不确定性感知门控机制和视图选择策略,实现在不访问过去数据的情况下进行增量学习,显著减少训练时间和数据需求。

  • Motivation: 现有NeRF框架在引入新视图时需要完全重新训练,限制了在卫星地形分析等数据顺序到达场景中的应用。增量精化方法存在灾难性遗忘问题,需要新的解决方案。
  • Method: 1) 残差控制器向冻结的基础NeRF注入逐层修正;2) 不确定性感知门控机制自适应结合基础和精化预测;3) 视图选择策略减少训练数据;4) 使用知识蒸馏将增强模型压缩为紧凑学生网络。
  • Result: 在卫星图像上,Δ-NeRF性能与联合训练相当,训练时间减少30-42%,数据需求减少47%。PSNR比简单微调提升43.5%,在某些指标上超越联合训练。
  • Conclusion: Δ-NeRF为增量NeRF学习提供了有效解决方案,在保持性能的同时显著减少计算和存储需求,适用于卫星地形分析等实际应用场景。

[14] Layer-Aware Video Composition via Split-then-Merge

Ozgur Kara,Yujia Chen,Ming-Hsuan Yang,James M. Rehg,Wen-Sheng Chu,Du Tran

Main category: cs.CV

TL;DR: 提出Split-then-Merge框架,通过将未标注视频分解为前景和背景层,然后自组合学习动态主体与场景的交互,解决生成视频合成的控制问题和数据稀缺问题。

  • Motivation: 解决生成视频合成中的控制问题和数据稀缺问题,传统方法依赖标注数据集或手工规则,而StM利用未标注视频学习复杂的组合动态。
  • Method: 将未标注视频分解为动态前景和背景层,然后自组合学习交互;引入变换感知训练管道,使用多层融合和增强实现感知组合,以及身份保持损失来维持前景保真度。
  • Result: 在定量基准测试和人类/VLLM定性评估中,StM优于最先进的方法。
  • Conclusion: StM框架通过分解和自组合未标注视频,有效学习视频生成的组合动态,在控制性和真实性方面表现优异。

[15] SPHINX: A Synthetic Environment for Visual Perception and Reasoning

Md Tanvirul Alam,Saksham Aggarwal,Justin Yang Chae,Nidhi Rastogi

Main category: cs.CV

TL;DR: Sphinx是一个用于视觉感知和推理的合成环境,通过程序化生成包含图案、图块、图表、图标和几何基元的谜题,提供可验证的真实解,支持精确评估和大规模数据集构建。

  • Motivation: 针对核心认知原语开发一个能够精确评估视觉推理能力的合成环境,填补现有基准在可验证性和规模上的不足。
  • Method: 使用程序化生成方法创建包含25种任务类型的谜题,涵盖对称检测、几何变换、空间推理、图表解释和序列预测等认知能力。
  • Result: 评估显示最先进的GPT-5模型仅达到51.1%的准确率,远低于人类表现。使用可验证奖励的强化学习(RLVR)显著提高了模型在这些任务上的准确性,并在外部视觉推理基准上获得提升。
  • Conclusion: Sphinx为视觉推理提供了有效的评估框架,RLVR方法在提升多模态推理能力方面展现出潜力。

[16] Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-based Visual Inversion

Samuele Dell'Erba,Andrew D. Bagdanov

Main category: cs.CV

TL;DR: 本文提出了一种无需训练的数据无关替代方法OVI,通过优化视觉反演来替代传统扩散先验网络,并引入两种约束损失来提升生成质量。

  • Motivation: 传统扩散模型依赖计算昂贵的扩散先验网络将文本嵌入转换为视觉流形,这些先验需要大量训练数据。本文挑战这种必要性,寻求更高效的替代方案。
  • Method: 采用基于优化的视觉反演(OVI),从随机伪标记初始化潜在视觉表示,通过迭代优化最大化与文本提示嵌入的余弦相似度,并引入马氏距离和最近邻损失两种约束来正则化优化过程。
  • Result: 在Kandinsky 2.2上的实验表明,OVI可以作为传统先验的替代方案。最近邻方法特别有效,在定量得分上达到或超过了最先进的数据高效先验。
  • Conclusion: OVI方法显示出替代传统先验的潜力,同时揭示了当前评估基准的缺陷,值得进一步研究。

[17] RefTr: Recurrent Refinement of Confluent Trajectories for 3D Vascular Tree Centerline Graphs

Roman Naeem,David Hagerman,Jennifer Alvén,Fredrik Kahl

Main category: cs.CV

TL;DR: RefTr是一个用于血管树中心线生成的3D图像到图模型,通过循环精炼汇合轨迹来生成中心线图,在保持高召回率的同时减少了参数数量。

  • Motivation: 在临床应用中,准确检测血管树中心线并保持正确的树状拓扑至关重要,因为遗漏小分支可能导致致命错误。需要高召回率的中心线检测方法。
  • Method: 采用Producer-Refiner架构,基于Transformer解码器。Producer提出初始汇合轨迹,Refiner循环精炼这些轨迹形成最终的中心线图。使用汇合轨迹表示法确保有效的树状拓扑,并引入空间树图的非极大值抑制算法合并重复分支。
  • Result: 在多个公共中心线数据集上,RefTr实现了优于先前SOTA的召回率和相当的精确度,同时提供更快的推理速度和显著更少的参数(解码器参数减少2.4倍)。
  • Conclusion: RefTr展示了作为3D医学成像中血管树分析的新SOTA框架的潜力,在保持高召回率的同时实现了参数效率和推理速度的提升。

[18] MODEST: Multi-Optics Depth-of-Field Stereo Dataset

Nisarg K. Trivedi,Vinayak A. Belludi,Li-Yun Wang,Pardis Taghavi,Dante Lok

Main category: cs.CV

TL;DR: 提出了首个高分辨率(5472×3648px)立体DSLR数据集,包含18000张图像,系统性地变化焦距和光圈,覆盖50种光学配置,用于深度估计、景深渲染、去模糊等任务。

  • Motivation: 当前深度估计研究受限于缺乏大规模、高保真的真实立体DSLR数据集,限制了在真实世界中的泛化能力和模型评估。
  • Method: 使用两个相同的相机组件,在9个不同场景中捕获图像,涵盖10种焦距(28-70mm)和5种光圈(f/2.8-f/22),每个场景2000张图像,共50种光学配置。
  • Result: 创建了包含挑战性视觉元素的数据集,如多尺度光学错觉、反射表面、透明玻璃墙等,支持几何和光学效应的受控分析。
  • Conclusion: 该工作试图弥合合成训练数据与真实相机光学之间的真实感差距,展示了当前最先进方法面临的挑战,并发布了数据集以支持可重复研究。

[19] Unsupervised Memorability Modeling from Tip-of-the-Tongue Retrieval Queries

Sree Bhattacharyya,Yaman Kumar Singla,Sudhir Yarram,Somesh Kumar Singh,Harini S,James Z. Wang

Main category: cs.CV

TL;DR: 提出了首个大规模无监督视觉记忆性数据集,包含82,000多个视频和描述性回忆数据,用于建模视觉记忆信号,在回忆生成和舌尖现象检索任务中表现出色。

  • Motivation: 视觉内容记忆性研究面临人工标注成本高、数据集多样性有限的问题,现有数据集仅收集聚合记忆分数,无法捕捉自然开放式回忆中的细微记忆信号。
  • Method: 利用Reddit等在线平台的舌尖现象检索查询构建数据集,采用对比训练策略创建多模态ToT检索模型,并对大型视觉语言模型进行微调。
  • Result: 基于该数据集微调的视觉语言模型在生成视觉内容的开放式记忆描述方面优于GPT-4o等最先进模型,并创建了首个能够执行多模态ToT检索的模型。
  • Conclusion: 该数据集和模型为视觉内容记忆性研究提供了新方向,推动了该领域的发展。

[20] Estimating Fog Parameters from a Sequence of Stereo Images

Yining Ding,João F. C. Mota,Andrew M. Wallace,Sen Wang

Main category: cs.CV

TL;DR: 提出一种从立体雾天图像序列中同时估计所有雾模型参数的优化方法,克服了传统顺序估计方法的误差传播问题,并能处理全局不均匀的真实雾况。

  • Motivation: 现有方法顺序估计雾模型参数容易导致误差传播,且难以处理真实世界中全局不均匀的雾况,需要一种更鲁棒的参数估计方法。
  • Method: 通过求解新颖的优化问题同时估计所有雾模型参数,假设雾仅在局部均匀,从而有效处理全局不均匀的真实雾况。该方法可作为现有视觉SLAM或里程计系统的附加模块。
  • Result: 在合成雾天数据和真实雾天序列SDIRF上的广泛实验表明,该方法不仅能在合成数据上产生最准确的估计,还能更好地适应真实雾况,优于现有方法。
  • Conclusion: 提出的同时参数估计方法能有效处理真实雾况,并创建了首个包含实验室校准光度参数的立体雾天数据集SDIRF,推动了雾中视觉感知研究的发展。

[21] V2-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence

Jiancheng Pan,Runze Wang,Tianwen Qian,Mohammad Mahdi,Yanwei Fu,Xiangyang Xue,Xiaomeng Huang,Luc Van Gool,Danda Pani Paudel,Yuqian Fu

Main category: cs.CV

TL;DR: V^2-SAM是一个统一的跨视角对象对应框架,通过两个互补的提示生成器将SAM2从单视角分割适配到跨视角对应任务,在多个基准测试中达到最先进性能。

  • Motivation: 跨视角对象对应任务(如ego-exo对应)由于视角和外观的剧烈变化而面临重大挑战,现有分割模型如SAM2难以直接应用。
  • Method: 提出V^2-SAM框架,包含交叉视图锚点提示生成器(V^2-Anchor)建立几何感知对应,以及交叉视图视觉提示生成器(V^2-Visual)增强外观引导线索,采用多专家设计和后验循环一致性选择器(PCCS)自适应选择最可靠的专家。
  • Result: 在Ego-Exo4D、DAVIS-2017和HANDAL-X数据集上实现了新的最先进性能。
  • Conclusion: V^2-SAM有效解决了跨视角对象对应问题,通过几何和外观线索的互补结合实现了鲁棒的对应性能。

[22] Test-Time Alignment of Text-to-Image Diffusion Models via Null-Text Embedding Optimisation

Taehoon Kim,Henry Gouk,Timothy Hospedales

Main category: cs.CV

TL;DR: 提出Null-Text Test-Time Alignment (Null-TTA)方法,通过优化分类器自由引导中的无条件嵌入来对齐扩散模型,防止奖励黑客攻击,并在保持跨奖励泛化能力的同时实现最先进的测试时对齐。

  • Motivation: 现有的测试时对齐方法倾向于欠优化或过优化(奖励黑客)目标奖励函数,需要一种更有效的对齐方法。
  • Method: 通过优化分类器自由引导中的无条件嵌入而非操纵潜在变量或噪声变量,在语义连贯的流形上进行对齐。
  • Result: Null-TTA在目标测试时对齐方面达到最先进水平,同时保持强大的跨奖励泛化能力。
  • Conclusion: 语义空间优化是测试时对齐的有效且原则性新范式。

[23] GaINeR: Geometry-Aware Implicit Network Representation

Weronika Jakubowska,Mikołaj Zieliński,Rafał Tobiasz,Krzysztof Byrski,Maciej Zięba,Dominik Belter,Przemysław Spurek

Main category: cs.CV

TL;DR: GaINeR是一种结合可训练高斯分布和神经网络的2D图像隐式表示方法,通过K近邻高斯嵌入聚合实现连续图像表示、可解释几何结构和局部编辑能力。

  • Motivation: 传统隐式神经表示缺乏显式几何结构,局部编辑能力有限,难以与物理模拟集成,限制了在动态交互场景中的应用。
  • Method: 提出GaINeR框架,将可训练高斯分布与基于神经网络的INR结合,对图像坐标检索K个最近高斯分布,聚合距离加权的嵌入,通过神经网络预测RGB值。
  • Result: 实现了连续图像表示、可解释几何结构和灵活局部编辑,为物理感知和交互式图像操作提供了基础。
  • Conclusion: GaINeR通过结合高斯分布和神经网络,克服了传统INR在几何结构和局部编辑方面的局限性,为动态交互应用提供了新的可能性。

[24] A deep learning model to reduce agent dose for contrast-enhanced MRI of the cerebellopontine angle cistern

Yunjie Chen,Rianne A. Weber,Olaf M. Neve,Stephan R. Romeijn,Erik F. Hensen,Jelmer M. Wolterink,Qian Tao,Marius Staring,Berit M. Verbist

Main category: cs.CV

TL;DR: 本研究开发了一种深度学习模型,用于降低小脑桥脑角池对比增强T1加权MRI的造影剂剂量,通过从低剂量模拟图像中恢复标准剂量图像质量,在仅使用10%-30%标准剂量时仍能保持良好的图像质量和诊断性能。

  • Motivation: 减少MRI检查中造影剂的使用剂量,降低患者风险和检查成本,同时保持足够的图像质量用于临床诊断。
  • Method: 采用多中心回顾性研究,使用前庭神经鞘瘤患者的T1和T1ce图像模拟低剂量T1ce,训练深度学习模型从低剂量模拟图像恢复标准剂量图像质量。
  • Result: 在10%输入剂量下,DL恢复的T1ce显著改善了分割性能(Dice从0.673提升到0.734),图像质量指标也明显改善。10%和30%输入剂量的DL恢复图像均表现优秀,后者被认为信息更丰富。
  • Conclusion: 深度学习模型能够显著改善小脑桥脑角池低剂量MRI的图像质量,使病变检测和诊断表征在仅使用10%-30%标准剂量时成为可能。

[25] Smooth regularization for efficient video recognition

Gil Goldman,Raja Giryes,Mahadev Satyanarayanan

Main category: cs.CV

TL;DR: 提出一种平滑正则化技术,通过高斯随机游走建模连续帧嵌入变化,在轻量级视频识别模型中强制施加时间平滑性,显著提升模型性能

  • Motivation: 视频具有天然的时间连贯性,但现有轻量级模型难以有效捕捉复杂的时间动态。通过强制中间层嵌入的平滑性,可以更好地对齐视频的自然时序特性
  • Method: 使用高斯随机游走(GRW)建模连续帧中间层嵌入的变化,惩罚表示上的突变,促进低加速度的平滑解决方案
  • Result: 在Kinetics-600上提升3.8%-6.4%准确率;MoViNets模型家族在各自FLOP约束下将SOTA提升3.8%-6.1%;MobileNetV3和MoViNets-Stream在可比内存占用下比之前SOTA提升4.9%-6.4%
  • Conclusion: 平滑正则化技术能有效为视频识别模型注入强时间归纳偏置,特别有助于轻量级架构捕捉复杂时间动态,显著提升性能

[26] Open Vocabulary Compositional Explanations for Neuron Alignment

Biagio La Rosa,Leilani H. Gilpin

Main category: cs.CV

TL;DR: 提出一个开放词汇组合解释框架,利用开放词汇语义分割生成掩码,无需依赖人工标注数据集即可探索神经元对任意概念的表征。

  • Motivation: 现有组合解释方法依赖人工标注数据集,限制了其在特定领域和预定义概念之外的适用性。
  • Method: 三步骤框架:指定任意概念、使用开放词汇模型生成语义分割掩码、从掩码推导组合解释。
  • Result: 与先前方法在定量指标和人类可解释性方面进行比较,分析了从人工标注数据转向模型标注数据时解释的差异,展示了框架在解释灵活性和任务适应性方面的额外能力。
  • Conclusion: 该框架突破了组合解释对人工标注数据的依赖,为探索神经元对任意概念的表征提供了更灵活和通用的方法。

[27] UruDendro4: A Benchmark Dataset for Automatic Tree-Ring Detection in Cross-Section Images of Pinus taeda L

Henry Marichal,Joaquin Blanco,Diego Passarella,Gregory Randall

Main category: cs.CV

TL;DR: 该论文提出了UruDendro4数据集,包含102个火炬松横截面图像样本,用于树木年轮检测。该数据集支持年轮体积建模,并通过基线实验验证了DeepCS-TRD方法的最佳性能。

  • Motivation: 解决木材横截面数据稀缺问题,传统手动测量年轮生长耗时且不精确,需要自动化算法和数据集来提高年轮检测的准确性和自动化程度。
  • Method: 引入UruDendro4数据集,包含102个火炬松样本,每个样本都有人工标注的年轮。数据集包含从树干不同高度提取的样本,支持年轮体积建模。使用最先进方法提供自动年轮检测性能基线,并进行消融实验验证参数配置。
  • Result: DeepCS-TRD方法表现最佳,平均精度0.838,平均召回率0.782,自适应兰德误差0.084。包含该数据集的训练提高了模型在年轮检测任务中的泛化能力。
  • Conclusion: UruDendro4数据集填补了木材横截面数据的空白,支持年轮体积建模,为自动化年轮检测提供了有价值的基准,并证明了该数据集能有效提升模型的泛化性能。

[28] BUSTR: Breast Ultrasound Text Reporting with a Descriptor-Aware Vision-Language Model

Rawa Mohammed,Mina Attin,Bryar Shareef

Main category: cs.CV

TL;DR: BUSTR是一个无需配对图像-报告监督的多任务视觉语言框架,通过结构化描述符和放射组学特征生成乳腺超声报告,在自动报告指标和临床效能方面均有提升。

  • Motivation: 乳腺超声报告生成面临配对图像-报告数据集缺乏和大语言模型幻觉风险的问题,需要开发不依赖配对监督的解决方案。
  • Method: 使用多任务Swin编码器学习描述符感知的视觉表示,通过双级目标(标记级交叉熵和余弦相似度对齐损失)对齐视觉和文本标记,从结构化描述符构建报告。
  • Result: 在两个公共BUS数据集上,BUSTR在标准自然语言生成指标和临床效能指标上均有持续改进,特别是在BI-RADS类别和病理学等关键目标上表现优异。
  • Conclusion: 描述符感知的视觉模型结合标记级和对齐损失训练,无需配对图像-报告数据即可改善自动报告指标和临床效能。

[29] Beyond Realism: Learning the Art of Expressive Composition with StickerNet

Haoming Lu,David Kocharian,Humphrey Shi

Main category: cs.CV

TL;DR: 提出了表达性图像合成任务,通过StickerNet两阶段框架学习真实用户编辑行为,强调表达性和用户意图而非真实性

  • Motivation: 传统图像合成研究关注视觉真实性和语义合理性,但实际在线平台用户更倾向于创作艺术性、趣味性或社交参与性的内容,需要新的任务定义
  • Method: StickerNet两阶段框架:先确定合成类型,再预测透明度、遮罩、位置和尺度等放置参数;基于180万真实用户编辑行为构建数据集
  • Result: 用户研究和定量评估显示StickerNet优于基线方法,接近人类放置行为,证明从真实编辑模式学习的有效性
  • Conclusion: 这项工作引入了视觉理解的新方向,强调表达性和用户意图而非真实性

[30] TrafficLens: Multi-Camera Traffic Video Analysis Using LLMs

Md Adnan Arefeen,Biplob Debnath,Srimat Chakradhar

Main category: cs.CV

TL;DR: TrafficLens是一个针对多摄像头交通路口的优化算法,通过利用摄像头重叠覆盖区域和智能跳过冗余VLM调用,将视频转文本时间减少4倍。

  • Motivation: 多摄像头交通视频分析面临海量数据处理挑战,传统方法使用VLM将视频转为文本再通过LLM分析耗时严重,影响实时性。
  • Method: 采用顺序处理策略,利用摄像头重叠区域,迭代应用不同token限制的VLM,前一个摄像头的输出作为后续摄像头的提示,并通过对象级相似性检测器智能跳过冗余VLM调用。
  • Result: 在真实数据集上的实验表明,TrafficLens将视频到文本的转换时间减少了4倍,同时保持信息准确性。
  • Conclusion: TrafficLens有效解决了多摄像头交通视频分析的效率问题,为智能交通系统提供了实用的视频分析解决方案。

[31] Privacy-Preserving Federated Vision Transformer Learning Leveraging Lightweight Homomorphic Encryption in Medical AI

Al Amin,Kamrul Hasan,Liang Hong,Sharif Ullah

Main category: cs.CV

TL;DR: 提出一种结合Vision Transformers和同态加密的隐私保护联邦学习框架,用于安全的跨机构病理学分类,显著减少通信开销并防止模型重建攻击。

  • Motivation: 医疗机构的协作机器学习需要保护患者隐私,传统联邦学习的梯度仍易受重建攻击泄露敏感信息,需要更安全的隐私保护方案。
  • Method: 使用Vision Transformers的CLS令牌作为紧凑特征表示,通过CKKS同态加密进行安全聚合,实现加密推理。
  • Result: CLS令牌加密比梯度加密减少30倍通信量,防止模型重建攻击,在加密域达到90.02%分类准确率。
  • Conclusion: 该方法在保持高分类准确率的同时,提供了强大的隐私保护,适用于医疗领域的联邦学习应用。

[32] Inversion-Free Style Transfer with Dual Rectified Flows

Yingying Deng,Xiangyu He,Fan Tang,Weiming Dong,Xucheng Yin

Main category: cs.CV

TL;DR: 提出了一种基于双整流流的免反转风格迁移框架,通过并行预测内容和风格轨迹,在仅使用前向传播的情况下实现高效风格迁移。

  • Motivation: 主流基于扩散模型的免训练风格迁移方法依赖计算密集的反转过程,影响效率且在反转不准确时导致视觉失真。
  • Method: 使用双整流流并行预测内容和风格轨迹,通过动态中点插值融合两个路径的速度,结合注意力注入指导风格集成。
  • Result: 实验证明该方法在多样化风格和内容上具有良好的泛化能力,提供了高效有效的风格迁移流程。
  • Conclusion: 该方法通过免反转设计解决了传统方法的效率和失真问题,实现了鲁棒的风格融合和内容保持。

[33] RefOnce: Distilling References into a Prototype Memory for Referring Camouflaged Object Detection

Yu-Huan Wu,Zi-Xuan Zhu,Yan Wang,Liangli Zhen,Deng-Ping Fan

Main category: cs.CV

TL;DR: 提出了一种无需测试时参考图像的伪装目标检测框架,通过将参考图像蒸馏到类别原型内存中,在推理时通过查询条件化的原型混合生成参考向量

  • Motivation: 当前的双分支设计需要在测试时使用参考图像,这限制了部署性、增加了延迟和数据收集负担
  • Method: 在训练期间将参考图像蒸馏到类别原型内存中,通过EMA更新每个类别的原型,从查询预测混合权重生成指导向量,使用双向注意力对齐模块弥合参考统计和伪装查询特征之间的表示差距
  • Result: 在R2C7K基准测试上进行了广泛实验,与现有最先进方法相比表现出竞争性或更优的性能
  • Conclusion: 该方法为Ref-COD提供了一条简单高效的路径,无需强制性的参考图像

[34] Wavefront-Constrained Passive Obscured Object Detection

Zhiwen Zheng,Yiwei Ouyang,Zhao Huang,Tao Zhang,Xiaoshuai Zhang,Huiyu Zhou,Wenwen Tang,Shaowei Jiang,Jin Liu,Xingru Huang

Main category: cs.CV

TL;DR: 提出WavePCNet网络,通过三相位波前复传播重投影和动量记忆机制,在低信噪比条件下准确重建被遮挡物体的位置和形状。

  • Motivation: 现有方法基于实值建模或局部卷积操作,无法准确捕捉相干光传播的物理特性,在低信噪比条件下容易收敛到非物理解,影响观测的稳定性和可靠性。
  • Method: WavePCNet集成三相位波前复传播重投影(TriWCP)来约束相干传播行为,使用动量记忆机制抑制扰动积累,并引入高频跨层补偿增强构建频率选择性通路。
  • Result: 在四个物理采集数据集上的实验表明,WavePCNet在准确性和鲁棒性方面持续优于最先进方法。
  • Conclusion: WavePCNet通过物理驱动的波前传播补偿,有效提升了在复杂环境条件下对被遮挡物体的感知能力。

[35] GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision

Yuxiao Xiang,Junchi Chen,Zhenchao Jin,Changtao Miao,Haojie Yuan,Qi Chu,Tao Gong,Nenghai Yu

Main category: cs.CV

TL;DR: GuardTrace-VL是一个视觉感知的安全审计器,通过联合图像-文本分析监控完整的问答推理流程,检测推理过程中出现的不安全内容。

  • Motivation: 现有的多模态安全防护主要只评估输入问题和最终答案,忽略了中间推理过程。这种疏忽使得偏见推断或违反政策的视觉上下文使用等不安全内容在推理阶段出现而未被检测到。
  • Method: 提出了GuardTrace-VL模型,通过联合图像-文本分析监控完整的问答推理流程;构建了GuardTrace数据集,通过多样化提示策略生成,并经过MLRM和人工投票验证流程精炼;提出了三阶段渐进训练方案结合数据精炼过程。
  • Result: 在提出的测试集上,GuardTrace-VL模型在不安全推理检测任务上达到93.1%的F1分数,相比之前最强的多模态安全防御方法提升了13.5%的F1分数。
  • Conclusion: GuardTrace-VL能够有效检测推理过程中出现的不安全内容,显著提升了多模态安全防护能力。

[36] From Inpainting to Layer Decomposition: Repurposing Generative Inpainting Models for Image Layer Decomposition

Jingxi Chen,Yixiao Zhang,Xiaoye Qian,Zongxia Li,Cornelia Fermuller,Caren Chen,Yiannis Aloimonos

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的图像层分解方法,通过轻量级微调将修复模型适配到层分解任务,并引入多模态上下文融合模块来保留细节。

  • Motivation: 图像可以看作前景对象在背景上的分层组合,这种分层表示能实现元素的独立编辑,为内容创作提供更大灵活性。但由于方法和数据有限,单图像分解成层仍然具有挑战性。
  • Method: 观察到层分解与修复任务之间的强关联,提出使用轻量级微调将基于扩散的修复模型适配到层分解。引入具有线性注意力复杂度的多模态上下文融合模块来保留潜在空间细节。
  • Result: 模型完全在开源资源构建的合成数据集上训练,在对象移除和遮挡恢复方面实现了优越性能。
  • Conclusion: 该方法为下游编辑和创意应用开辟了新的可能性。

[37] Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning

Xiaoxing You,Qiang Huang,Lingyu Li,Chi Zhang,Xiaopeng Liu,Min Zhang,Jun Yu

Main category: cs.CV

TL;DR: MERGE是一个多模态实体感知检索增强生成框架,通过构建实体中心的多模态知识库、多阶段假设-标题策略和动态检索机制,显著提升了新闻图像描述的质量和实体识别能力。

  • Motivation: 解决现有新闻图像描述方法面临的三个关键挑战:信息覆盖不完整、跨模态对齐弱、视觉实体定位不优。
  • Method: 构建实体中心的多模态知识库(EMKB),集成文本、视觉和结构化知识;采用多阶段假设-标题策略改善跨模态对齐;通过图像内容引导的动态检索增强视觉实体匹配。
  • Result: 在GoodNews和NYTimes800k数据集上,CIDEr分别提升+6.84和+1.16,命名实体识别F1分数分别提升+4.14和+2.64;在未见过的Visual News数据集上,CIDEr提升+20.17,F1分数提升+6.22。
  • Conclusion: MERGE框架显著优于现有最先进方法,展示了强大的鲁棒性和领域适应性,为新闻图像描述提供了有效的解决方案。

[38] MetaRank: Task-Aware Metric Selection for Model Transferability Estimation

Yuhang Liu,Wenjie Zhao,Yunhui Guo

Main category: cs.CV

TL;DR: MetaRank是一个元学习框架,用于自动选择最适合特定任务的模型可迁移性评估指标,通过将数据集和指标的文本描述嵌入共享语义空间来预测最优指标。

  • Motivation: 现有模型可迁移性评估指标的选择通常是临时性的,但不同指标在不同任务上的效果差异很大,没有一个指标在所有数据集上都最优。
  • Method: 将指标选择建模为学习排序问题,使用预训练语言模型编码数据集和指标的文本描述,在共享语义空间中训练元预测器,采用列表式优化目标优先正确排序表现最佳的指标。
  • Result: 在11个预训练模型和11个目标数据集上的广泛实验表明,该方法具有强大的有效性。
  • Conclusion: MetaRank能够为新数据集自动选择最合适的可迁移性评估指标,解决了指标选择的挑战。

[39] Structure-Aware Prototype Guided Trusted Multi-View Classification

Haojian Huang,Jiahao Shi,Zhe Liu,Harold Haodong Chen,Han Fang,Hao Sun,Zhongjiang He

Main category: cs.CV

TL;DR: 提出了一种新的可信多视图分类框架,通过引入原型来表示每个视图的邻居结构,简化了视图内邻居关系学习并实现视图间结构动态对齐,从而提高跨视图共识发现的效率和一致性。

  • Motivation: 现有可信多视图分类方法主要依赖全局密集邻居关系建模视图内依赖,导致计算成本高且无法直接保证视图间关系一致性,同时通过手动分配权重聚合不同视图证据,缺乏对学习到的多视图邻居结构在类别空间一致性的保证。
  • Method: 引入原型来表示每个视图的邻居结构,简化视图内邻居关系学习,实现视图内和视图间结构的动态对齐,促进更高效和一致的跨视图共识发现。
  • Result: 在多个公共多视图数据集上的广泛实验表明,该方法在性能和鲁棒性方面与主流可信多视图分类方法相比具有竞争力。
  • Conclusion: 所提出的框架通过原型表示邻居结构,有效解决了现有方法在计算效率和视图间一致性方面的局限性,为可信多视图分类提供了更高效的解决方案。

[40] CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching

Qirui Yang,Yang Yang,Ying Zeng,Xiaobin Hu,Bo Li,Huanjing Yue,Jingyu Yang,Peng-Tao Jiang

Main category: cs.CV

TL;DR: CameraMaster是一个统一的相机感知框架,通过解耦相机指令并整合指令表示和参数嵌入,实现精确的图像修饰控制。

  • Motivation: 现有方法要么依赖模糊的文本提示无法精确控制相机参数,要么训练单独的头/权重导致可扩展性差、多参数组合困难和对细微变化不敏感。
  • Method: 使用相机参数嵌入调制相机指令和内容语义,通过交叉注意力将调制后的指令注入内容特征,同时在去噪过程中将指令和相机嵌入作为条件信号进行统一层间调制。
  • Result: 在78K图像-提示对数据集上的实验表明,CameraMaster对参数变化产生单调且近似线性的响应,支持无缝多参数组合,显著优于现有方法。
  • Conclusion: CameraMaster通过显式解耦和整合相机指令与参数,实现了物理一致的图像修饰,解决了现有方法的局限性。

[41] CaptionQA: Is Your Caption as Useful as the Image Itself?

Shijia Yang,Yunong Liu,Bohan Zhai,Ximeng Sun,Zicheng Liu,Emad Barsoum,Manling Li,Chenfeng Xu

Main category: cs.CV

TL;DR: 提出了CaptionQA基准测试,通过下游任务效用评估图像描述质量,涵盖4个领域,包含33,027个密集标注的多选题,揭示当前MLLM在描述效用方面存在显著差距。

  • Motivation: 当前评估方法未能回答一个基本问题:描述能否在实际下游任务中替代图像?需要基于效用的基准来评估模型生成的描述质量。
  • Method: 构建可扩展的领域相关基准,覆盖自然、文档、电子商务和具身AI4个领域,包含25个顶级类别和69个子类别的细粒度分类,创建需要视觉信息回答的多选题,通过LLM仅使用描述回答问题来测量描述效用。
  • Result: 评估显示图像与其描述效用之间存在显著差距,在传统图像QA基准上表现相近的模型,在描述效用方面下降高达32%。
  • Conclusion: CaptionQA提供了一个全面评估描述效用的框架,揭示了当前MLLM在生成实用描述方面的不足,为改进描述生成模型提供了方向。

[42] FlowerDance: MeanFlow for Efficient and Refined 3D Dance Generation

Kaixing Yang,Xulong Tang,Ziqiao Peng,Xiangyue Zhang,Puwei Wang,Jun He,Hongyan Liu

Main category: cs.CV

TL;DR: FlowerDance是一个高效的音乐到舞蹈生成系统,通过结合MeanFlow与物理一致性约束,以及BiMamba架构,实现了高质量舞蹈动作的快速生成,支持实时3D渲染和交互式编辑。

  • Motivation: 现有音乐到舞蹈生成方法效率有限,无法为高保真3D渲染提供足够的计算空间,限制了3D角色在实时应用中的表现力。
  • Method: 结合MeanFlow与物理一致性约束实现高质量动作生成;采用BiMamba骨干网络和通道级跨模态融合的简单高效架构;支持非自回归生成方式。
  • Result: 在AIST++和FineDance数据集上的实验表明,FlowerDance在动作质量和生成效率方面均达到最先进水平。
  • Conclusion: FlowerDance不仅生成具有物理合理性和艺术表现力的精细动作,还在推理速度和内存利用方面实现了显著的生成效率提升。

[43] LungNoduleAgent: A Collaborative Multi-Agent System for Precision Diagnosis of Lung Nodules

Cheng Yang,Hui Jin,Xinlei Yu,Zhipeng Wang,Yaoqun Liu,Fenglei Fan,Dajiang Lei,Gangyong Jia,Changmiao Wang,Ruiquan Ge

Main category: cs.CV

TL;DR: 提出了LungNoduleAgent,一个用于分析肺部CT扫描的协作多智能体系统,通过模块化流程提高结节描述和恶性程度分级的精确度。

  • Motivation: 现有方法在准确描述结节形态和融入医学专业知识方面存在不足,影响了在临床环境中的可靠性和有效性。协作多智能体系统在医学应用中平衡通用性和精确性方面具有潜力。
  • Method: 系统包含三个主要模块:结节定位器协调临床检测模型识别结节;放射科医生整合局部图像描述技术生成全面CT报告;医生智能体系统使用图像和CT报告进行恶性推理,并基于病理知识库和多智能体框架。
  • Result: 在两个私有数据集和公共LIDC-IDRI数据集上的测试表明,LungNoduleAgent超越了主流视觉语言模型、智能体系统和先进专家模型。
  • Conclusion: 区域级语义对齐和多智能体协作在结节诊断中至关重要,LungNoduleAgent是支持肺部结节临床分析的有前途的基础工具。

[44] PG-ControlNet: A Physics-Guided ControlNet for Generative Spatially Varying Image Deblurring

Hakki Motorcu,Mujdat Cetin

Main category: cs.CV

TL;DR: 提出了一种新颖的图像去模糊框架,通过将强大的生成先验与显式物理约束相结合,解决了现有方法在物理精度和感知质量之间的权衡问题。

  • Motivation: 现有的学习型方法存在两种范式:基于模型的深度展开方法虽然能强制物理约束但会产生过度平滑的纹理,而生成模型虽然感知质量好但会因物理约束弱而产生幻觉细节。需要一种能同时兼顾物理准确性和感知真实性的方法。
  • Method: 将退化场建模为高维压缩核的密集连续体,捕捉运动和退化模式的微小变化。利用这个丰富的描述符场来调节ControlNet架构,强有力地引导扩散采样过程。
  • Result: 在具有挑战性的严重模糊场景中,该方法在物理准确性和感知真实性之间取得了良好平衡,超越了最先进的基于模型方法和生成基线。
  • Conclusion: 该框架成功调和了基于模型方法和生成模型两种范式,通过将强大的生成先验与显式密集物理约束相结合,有效解决了空间变化图像去模糊的根本不适定问题。

[45] MUSE: Manipulating Unified Framework for Synthesizing Emotions in Images via Test-Time Optimization

Yingjie Xia,Xi Wang,Jinglei Shi,Vicky Kalogeiton,Jian Yang

Main category: cs.CV

TL;DR: MUSE是一个统一的图像情感合成框架,能够同时进行情感生成和编辑,通过测试时缩放策略避免了额外训练需求,在情感准确性和语义多样性方面表现优异。

  • Motivation: 当前图像情感合成方法将生成和编辑任务人为分离,导致效率低下,限制了在治疗干预、故事讲述等自然交织任务中的应用。
  • Method: 采用测试时缩放策略,利用现成情感分类器进行梯度优化,通过语义相似度确定最佳引导时机,使用多情感损失减少固有和相似情感的干扰。
  • Result: 实验结果显示MUSE在生成和编辑任务中均优于所有方法,提高了情感准确性和语义多样性,同时在内容保持、文本提示遵循和情感表达之间达到最佳平衡。
  • Conclusion: MUSE为情感合成建立了新范式,证明了统一框架在图像情感生成和编辑任务中的有效性。

[46] Long-Term Alzheimers Disease Prediction: A Novel Image Generation Method Using Temporal Parameter Estimation with Normal Inverse Gamma Distribution on Uneven Time Series

Xin Hong,Xinze Sun,Yinhao Li,Yen-Wei Chen

Main category: cs.CV

TL;DR: 该研究提出T-NIG模型,通过将时间参数融入正态逆伽马分布来处理阿尔茨海默病预测中不规则时间间隔的脑图像数据,能够生成中间和未来脑图像,并预测疾病进展。

  • Motivation: 解决阿尔茨海默病长期预测中,由于序列数据时间间隔不规则导致难以保持疾病相关特征的问题,利用时间相关的分布特性来反映疾病特征变化。
  • Method: T-NIG模型使用两个不同时间点的脑图像,通过坐标邻域识别特征,将时间参数融入正态逆伽马分布,并利用不确定性估计减少认知和随机不确定性。
  • Result: T-NIG模型在数据集的短期和长期预测任务中表现出最先进的性能,能够准确预测疾病进展并保持疾病相关特征,即使在时间数据分布不规则的情况下。
  • Conclusion: T-NIG模型通过时间参数化的正态逆伽马分布和不确定性估计,有效解决了不规则时间间隔脑图像数据的阿尔茨海默病预测问题,在保持疾病特征的同时实现了准确的长期预测。

[47] MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Ziyun Zeng,Hang Hua,Jiebo Luo

Main category: cs.CV

TL;DR: MIRA是一个轻量级的多模态推理代理,通过迭代感知-推理-行动循环来改进基于指令的图像编辑,解决了扩散模型在处理复杂指令时的语义漂移问题。

  • Motivation: 扩散模型在处理涉及组合关系、上下文线索或指代表达式的复杂用户指令时,往往难以准确解释,导致编辑结果语义漂移或无法反映预期变化。
  • Method: 提出MIRA多模态推理代理,采用迭代感知-推理-行动循环,逐步预测原子编辑指令,并使用视觉反馈进行决策。通过15万条多模态工具使用数据集MIRA-Editing和两阶段SFT+GRPO训练流程实现复杂编辑指令的推理和编辑。
  • Result: 当与开源图像编辑模型(如Flux.1-Kontext、Step1X-Edit和Qwen-Image-Edit)配合使用时,MIRA显著提高了语义一致性和感知质量,性能达到或超过GPT-Image和Nano-Banana等专有系统。
  • Conclusion: MIRA通过模拟多轮人机交互过程,有效解决了复杂指令图像编辑中的语义一致性问题,为指令引导的图像编辑提供了更直观可靠的解决方案。

[48] CLRecogEye : Curriculum Learning towards exploiting convolution features for Dynamic Iris Recognition

Geetanjali Sharma,Gaurav Jaswal,Aditya Nigam,Raghavendra Ramachandra

Main category: cs.CV

TL;DR: 提出了一种新颖的虹膜认证匹配流程,通过3D-CNN学习丰富的时空表示,采用课程学习方式训练,提高了对旋转、缩放、反射和模糊等变化的鲁棒性。

  • Motivation: 现有虹膜认证算法在旋转、缩放、反射和模糊等变化下的鲁棒性不足,且大多采用简单的点对点比较方法,未能有效利用虹膜模式的时空结构。
  • Method: 将虹膜图像沿一个维度分割成子图像序列,输入3D-CNN捕捉时空特征;采用课程学习方式,结合三元组损失和ArcFace损失进行端到端训练。
  • Result: 该方法能够直接在学习到的特征空间中嵌入时间依赖性,提高了深度度量领域的区分能力。
  • Conclusion: 该框架为虹膜认证提供了一个鲁棒且可泛化的解决方案,能够有效应对各种挑战性条件。

[49] Pygmalion Effect in Vision: Image-to-Clay Translation for Reflective Geometry Reconstruction

Gayoung Lee,Junho Kim,Jin-Hwa Kim,Junmo Kim

Main category: cs.CV

TL;DR: 提出Pygmalion Effect in Vision框架,通过图像到黏土转换来抑制镜面反射线索,实现反射物体的鲁棒3D重建

  • Motivation: 解决3D重建中长期存在的反射问题,因为视点相关反射会导致外观和几何信息的纠缠
  • Method: 采用双分支网络结构:基于BRDF的反射分支和黏土引导分支,联合训练使用合成的黏土状图像作为无反射监督信号
  • Result: 在合成和真实数据集上实验表明,在法线精度和网格完整性方面相比现有反射处理方法有显著提升
  • Conclusion: 通过'去光泽化'将辐射度转化为中性表示,可以作为反射物体几何学习的强大归纳偏置

[50] Scaling Foundation Models for Radar Scene Understanding

Pushkal Mishra,Kshitiz Bansal,Dinesh Bharadia

Main category: cs.CV

TL;DR: RadarFM是一个雷达基础模型,通过结构化空间语言监督学习统一的场景级表示,解决了现有雷达方法碎片化、任务特定化的问题。

  • Motivation: 雷达传感器在各种恶劣天气、光照和远距离条件下提供可靠感知,但现有雷达方法碎片化且任务特定化,每个下游任务使用不同的架构和训练目标,阻碍了跨任务迁移。
  • Method: 提出结构化标题框架在原生雷达坐标中编码车辆分布,以及哈希感知对比学习目标量化连续场景相似性而非二元匹配,实现细粒度空间推理。利用CARLA模拟器生成大规模、标注良好的雷达数据集。
  • Result: 开发了RadarFM雷达基础模型,能够学习统一的场景级表示,并提出定位感知指标评估空间准确性。
  • Conclusion: RadarFM通过结构化空间语言监督和对比学习,为雷达感知提供了统一的基础模型框架,支持跨任务迁移和细粒度空间推理。

[51] EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens

Ze Feng,Sen Yang,Boqiang Duan,Wankou Yang,Jingdong Wang

Main category: cs.CV

TL;DR: EM-KD是一种增强高效多模态大语言模型的知识蒸馏新范式,通过匈牙利匹配算法对齐师生视觉token,并引入视觉-语言亲和度蒸馏和视觉语义蒸馏两种策略,显著提升模型性能。

  • Motivation: 现有高效MLLMs压缩视觉token会降低理解能力,而传统知识蒸馏方法忽视了师生模型间视觉token不平衡导致的细粒度视觉理解差异问题。
  • Method: 1) 使用曼哈顿距离和匈牙利匹配算法对齐师生视觉token;2) 视觉-语言亲和度蒸馏:最小化师生亲和度矩阵的平滑L1距离;3) 视觉语义蒸馏:使用反向KL散度度量词汇空间中对齐视觉logits的离散概率分布。
  • Result: 在多个基准测试上的综合评估表明,EM-KD训练模型在准确性和效率上都大幅优于先前的高效MLLMs,相比其他蒸馏方法也表现更优。
  • Conclusion: EM-KD通过有效的视觉token对齐和双重蒸馏策略,成功解决了师生模型视觉token不平衡问题,显著提升了高效MLLMs的性能。

[52] FaithFusion: Harmonizing Reconstruction and Generation via Pixel-wise Information Gain

YuAn Wang,Xiaofan Li,Chi Huang,Wenhao Zhang,Hao Li,Bosheng Wang,Xun Sun,Jun Wang

Main category: cs.CV

TL;DR: FaithFusion是一个基于像素级期望信息增益的3DGS-扩散模型融合框架,用于可控驾驶场景重建和3D场景生成,在保持几何保真度的同时实现大视角变化下的视觉合理合成。

  • Motivation: 在可控驾驶场景重建和3D场景生成中,如何在保持几何保真度的同时,在大视角变化下合成视觉合理的场景外观是一个关键挑战。现有的几何驱动3DGS和外观驱动扩散模型融合方法由于缺乏像素级、3D一致的编辑标准,往往导致过度修复和几何漂移问题。
  • Method: 提出基于像素级期望信息增益的统一策略,指导扩散模型作为空间先验来优化高不确定性区域,同时通过像素级权重将编辑结果蒸馏回3DGS,形成一个无需额外先验条件和结构修改的即插即用系统。
  • Result: 在Waymo数据集上的广泛实验表明,该方法在NTA-IoU、NTL-IoU和FID指标上达到最先进性能,即使在6米车道偏移情况下仍能保持107.47的FID分数。
  • Conclusion: FaithFusion通过像素级期望信息增益有效解决了3DGS与扩散模型融合中的几何保真度和视觉合理性平衡问题,为可控驾驶场景重建提供了有效的解决方案。

[53] Deformation-aware Temporal Generation for Early Prediction of Alzheimers Disease

Xin Honga,Jie Lin,Minghui Wang

Main category: cs.CV

TL;DR: 提出了一种新颖的变形感知时序生成网络(DATGN),用于自动学习脑部图像中与阿尔茨海默病进展相关的形态学变化,实现早期预测。该方法能够处理MRI图像时序序列中的缺失数据,并生成符合疾病进展的未来MRI图像。

  • Motivation: 阿尔茨海默病(AD)是一种退行性脑部疾病,早期预测有助于延缓其进展。当前预测方法主要依赖手动特征提取来分析脑部图像的形态学变化,需要自动化方法来学习疾病进展相关的形态学变化。
  • Method: DATGN首先对不完整的MRI时序序列进行插值,然后通过双向时序变形感知模块指导网络生成符合疾病进展的未来MRI图像。该方法能够处理常见的时序数据缺失问题。
  • Result: 在ADNI数据集上的实验结果显示,DATGN在PSNR和MMSE图像质量指标上表现优异。将DATGN生成的合成数据集成到SVM、CNN和3DCNN分类方法中,AD vs. NC分类准确率提高了6.21%到16%,AD vs. MCI vs. NC分类准确率提高了7.34%到21.25%。
  • Conclusion: DATGN能够生成与阿尔茨海默病脑萎缩趋势一致的MRI图像,实现了早期疾病预测,为阿尔茨海默病的自动化预测提供了有效解决方案。

[54] Which Layer Causes Distribution Deviation? Entropy-Guided Adaptive Pruning for Diffusion and Flow Models

Changlin Li,Jiawei Zhang,Zeyi Shi,Zongxin Yang,Zhihui Li,Xiaojun Chang

Main category: cs.CV

TL;DR: 提出EntPruner,一种基于熵引导的自动渐进式剪枝框架,用于扩散和流模型,通过条件熵偏差评估模块重要性,实现高效剪枝同时保持生成质量。

  • Motivation: 大规模视觉生成模型在下游任务中存在显著的参数冗余问题,需要一种专门针对生成模型的剪枝方法,既要减少参数又要保持输出的多样性和条件保真度。
  • Method: 1. 熵引导剪枝:使用数据依赖的条件熵偏差(CED)作为模块重要性评估指标;2. 零样本自适应剪枝框架:动态确定何时剪枝和剪枝多少,避免一次性剪枝的问题。
  • Result: 在DiT和SiT模型上的实验表明,EntPruner实现了最高2.22倍的推理加速,同时在ImageNet和三个下游数据集上保持了竞争力的生成质量。
  • Conclusion: EntPruner为生成模型提供了一种有效的剪枝解决方案,能够在保持性能的同时显著提升推理效率。

[55] CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion

Dianbing Xi,Jiepeng Wang,Yuanzhi Liang,Xi Qiu,Jialun Liu,Hao Pan,Yuchi Huo,Rui Wang,Haibin Huang,Chi Zhang,Xuelong Li

Main category: cs.CV

TL;DR: CtrlVDiff是一个统一的扩散框架,通过融合深度、法线、分割、边缘和基于图形的内在属性等多种模态,解决了视频理解和可控视频生成的双重挑战,实现了精确的层状编辑和强时间一致性。

  • Motivation: 传统仅依赖几何线索的方法不足以约束外观、材质和光照,限制了物理上有意义的编辑(如重新照明或材质交换),并经常导致时间漂移。需要额外的基于图形的模态来提供互补约束,以消除理解歧义并在生成过程中实现精确可控。
  • Method: 提出CtrlVDiff统一扩散模型,采用混合模态控制策略(HMCS)来路由和融合来自深度、法线、分割、边缘和图形内在属性(反照率、粗糙度、金属性)的特征,并构建了MMVideo混合真实与合成数据集进行训练。
  • Result: 在理解和生成基准测试中,CtrlVDiff提供了卓越的可控性和保真度,能够实现层状编辑(重新照明、材质调整、对象插入),并在某些模态不可用时保持鲁棒性,超越了现有最先进的基线方法。
  • Conclusion: 通过融合多种图形模态,CtrlVDiff成功解决了视频理解和可控生成的双重挑战,实现了精确的物理编辑和强时间一致性,为视频编辑提供了更强大的工具。

[56] DeepRFTv2: Kernel-level Learning for Image Deblurring

Xintian Mao,Haofei Song,Yin-Nian Liu,Qingli Li,Yan Wang

Main category: cs.CV

TL;DR: 提出了傅里叶核估计器(FKE),通过在傅里叶空间中学习核级模糊过程,显著提升图像去模糊性能。该方法将空间域卷积问题转换为傅里叶空间乘法问题,结合解耦多尺度架构实现高效特征提取。

  • Motivation: 当前深度网络主要在像素级学习去模糊,无法理解模糊的本质过程。模糊是由清晰图像与模糊核卷积引起的,因此让网络在核级学习模糊过程可以显著提升去模糊性能。
  • Method: 提出傅里叶核估计器(FKE),在傅里叶空间进行激活操作,将空间域卷积转换为傅里叶空间乘法。将卷积对象从图像改为网络提取的特征,设计解耦多尺度架构,使用可逆策略的多层次子Unet实现高效多尺度编码解码。
  • Result: 在运动去模糊任务上达到最先进水平,实验表明核估计器能够学习具有物理意义的核,并显示出处理其他核相关问题的潜力。
  • Conclusion: FKE方法通过核级模糊过程学习,实现了更有效的图像去模糊,为理解模糊本质提供了新思路,在低训练内存下实现了优异性能。

[57] Efficient Training for Human Video Generation with Entropy-Guided Prioritized Progressive Learning

Changlin Li,Jiawei Zhang,Shuhao Liu,Sihao Lin,Zeyi Shi,Zhihui Li,Xiaojun Chang

Main category: cs.CV

TL;DR: 提出Ent-Prog框架,通过条件熵膨胀和自适应渐进调度,在保持生成性能的同时显著降低人类视频生成扩散模型的训练时间和GPU内存消耗。

  • Motivation: 人类视频生成扩散模型在训练高分辨率多帧数据时面临高计算成本和内存消耗的挑战。
  • Method: 使用条件熵膨胀评估模型组件重要性进行优先训练,结合自适应渐进调度动态增加计算复杂度。
  • Result: 在三个数据集上实现2.2倍训练加速和2.4倍GPU内存减少,且不损害生成性能。
  • Conclusion: Ent-Prog框架有效解决了扩散模型训练效率问题,为人类视频生成提供了实用的高效训练方案。

[58] Referring Video Object Segmentation with Cross-Modality Proxy Queries

Baoli Sun,Xinzhu Ma,Ning Wang,Zhihui Wang,Zhiyong Wang

Main category: cs.CV

TL;DR: 提出ProxyFormer用于参考视频对象分割,通过代理查询整合视觉和文本语义,解决现有方法缺乏帧间依赖建模和文本约束集成延迟的问题。

  • Motivation: 现有RVOS方法存在两个主要问题:1) 条件查询缺乏帧间依赖和变化建模,难以在帧间显著变化时准确跟踪目标;2) 文本约束集成过晚,可能导致视频特征关注非参考对象。
  • Method: 引入代理查询集来整合视觉和文本语义,通过多阶段视频特征编码器逐步更新和传播代理查询,将跨模态交互解耦为时间和空间维度,并设计联合语义一致性训练策略。
  • Result: 在四个广泛使用的RVOS基准测试上的综合实验表明,ProxyFormer优于最先进的方法。
  • Conclusion: ProxyFormer通过代理查询机制有效解决了跨模态对齐问题,提高了目标跟踪的准确性和连贯性,同时通过解耦设计降低了计算成本。

[59] TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Jiaming He,Guanyu Hou,Hongwei Li,Zhicong Huang,Kangjie Chen,Yi Yu,Wenbo Jiang,Guowen Xu,Tianwei Zhang

Main category: cs.CV

TL;DR: TEAR是一个针对文本到视频模型安全性的自动化红队框架,通过时间感知测试生成器来发现与动态时间序列相关的安全风险。

  • Motivation: 现有的安全评估方法主要关注静态图像和文本生成,无法捕捉视频生成中复杂的时间动态特性,因此需要专门针对T2V模型的安全评估框架。
  • Method: 采用时间感知测试生成器,通过两阶段优化:初始生成器训练和时间感知在线偏好学习,生成看似无害的文本提示来利用时间动态特性产生违反策略的视频输出,并使用精炼模型循环改进提示的隐蔽性和对抗效果。
  • Result: 在开源和商业T2V系统上的广泛实验评估显示,TEAR实现了超过80%的攻击成功率,相比之前最佳结果57%有显著提升。
  • Conclusion: TEAR框架有效揭示了T2V模型中与时间动态相关的安全风险,证明了现有安全评估方法的不足,并为T2V模型的安全评估提供了新的解决方案。

[60] LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs

Shichu Sun,Yichen Zhang,Haolin Song,Zonghao Guo,Chi Chen,Yidan Zhang,Yuan Yao,Zhiyuan Liu,Maosong Sun

Main category: cs.CV

TL;DR: LLaVA-UHD v3提出了渐进式视觉压缩方法,通过改进的补丁嵌入和窗口化令牌压缩,在保持性能的同时显著降低计算开销,实现高效的原生分辨率视觉编码。

  • Motivation: 当前多模态大语言模型普遍采用全局原生分辨率视觉编码,虽然提升了整体能力但带来了巨大的计算开销。需要找到在保持性能的同时降低计算成本的方法。
  • Method: 提出渐进式视觉压缩方法,包含两个关键模块:改进的补丁嵌入支持灵活补丁大小缩放,窗口化令牌压缩在ViT层间分层部署以逐步聚合局部令牌表示。
  • Result: ViT-UHD在相同MLLM架构下,性能与MoonViT相当但TTFT降低2.4倍;LLaVA-UHD v3性能与Qwen2-VL相当但TTFT进一步降低1.9倍。
  • Conclusion: 渐进式视觉压缩方法能够有效平衡性能与效率,为高效多模态大语言模型的发展提供了可行方案。

[61] Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation

Joonhyung Park,Hyeongwon Jang,Joowon Kim,Eunho Yang

Main category: cs.CV

TL;DR: GridAR是一个针对视觉自回归模型的测试时扩展框架,通过网格分区渐进生成和布局指定提示重构策略,在有限计算资源下实现更高质量的文本到图像生成和编辑。

  • Motivation: 现有的测试时扩展策略(如Best-of-N)在视觉自回归模型中效果不佳,因为它们在错误生成轨迹上消耗完整计算,且光栅扫描解码缺乏整体画布蓝图,限制了扩展效益。
  • Method: GridAR采用网格分区渐进生成方案,在同一画布位置生成多个部分候选,早期修剪不可行候选,将可行候选固定为锚点指导后续解码;同时使用布局指定提示重构策略,通过检查部分视图推断可行布局。
  • Result: 在N=4时,GridAR比Best-of-N(N=8)在T2I-CompBench++上性能提升14.4%,同时成本降低25.6%;在图像编辑任务中,PIE-Bench上语义保持度比更大N的基线提升13.9%。
  • Conclusion: GridAR框架有效解决了视觉自回归模型测试时扩展的挑战,在有限计算资源下实现了更高质量的生成和编辑结果,展示了测试时扩展在视觉任务中的潜力。

[62] AnchorOPT: Towards Optimizing Dynamic Anchors for Adaptive Prompt Learning

Zheng Li,Yibing Song,Xin Zhang,Lei Luo,Xiang Li,Jian Yang

Main category: cs.CV

TL;DR: AnchorOPT是一个动态锚点提示学习框架,通过动态学习锚点值和优化锚点与软标记的位置关系,解决了现有方法锚点静态固定的局限性。

  • Motivation: 现有基于CLIP的提示学习方法使用静态文本标记作为锚点来指导可学习的软标记,但这些锚点在值和位置上都固定不变,缺乏跨任务和阶段自适应的灵活性。
  • Method: 提出AnchorOPT框架,在锚点值上动态学习任务特定数据,在位置上通过可学习的位置矩阵自适应优化锚点与软标记的关系。训练分两阶段:先学习锚点标记,然后冻结并转移到第二阶段优化软标记和位置矩阵。
  • Result: 仅使用简单的可学习锚点和位置矩阵,就能达到或超过一些包含额外可学习模块或正则化技术的方法的性能。作为即插即用模块,能在多种数据集上带来一致的性能提升。
  • Conclusion: AnchorOPT通过引入动态锚点机制,有效提升了提示学习的灵活性和性能,且易于集成到现有框架中。

[63] Scenes as Tokens: Multi-Scale Normal Distributions Transform Tokenizer for General 3D Vision-Language Understanding

Yutao Tang,Cheng Zhao,Gaurav Mittal,Rohith Kukkala,Rama Chellappa,Cheng Peng,Mei Chen

Main category: cs.CV

TL;DR: NDTokenizer3D是一个通用的3D视觉语言模型,通过多尺度NDT表示和三阶段场景标记化流程,统一处理多种3D场景理解任务,并在3D参考分割、视觉问答和密集描述等任务上取得显著改进。

  • Motivation: 当前3D视觉语言模型在有效标记3D场景并利用这些标记处理多样化3D理解任务方面仍面临挑战,需要将语言级推理与3D空间理解相结合。
  • Method: 采用基于多尺度正态分布变换(NDT)表示的三阶段场景标记化流程,包括构建多尺度NDT表示、通过多尺度NDT解码器融合跨尺度特征生成场景标记,并将解码器重新用作人机交互提示和分割掩码解码的通用接口。
  • Result: 在3D参考分割、3D视觉问答和3D密集描述等任务上实现了显著改进,提供了一个细粒度的通用3D视觉语言模型。
  • Conclusion: NDTokenizer3D通过紧凑统一的设计,成功构建了一个能够处理多样化3D场景理解任务的通用3D视觉语言模型,有效连接了语言推理与3D空间理解。

[64] When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Hui Lu,Yi Yu,Yiming Yang,Chenyu Yi,Qixin Zhang,Bingquan Shen,Alex C. Kot,Xudong Jiang

Main category: cs.CV

TL;DR: 提出UPA-RFAS框架,通过鲁棒特征、注意力和语义学习通用可迁移的对抗补丁,攻击未知架构和微调变体的VLA模型,在仿真和真实环境中均有效。

  • Motivation: 现有对抗补丁方法通常过拟合单一模型,在黑盒设置下失效,缺乏对VLA模型的通用可迁移攻击研究。
  • Method: 结合特征空间目标、鲁棒增强的两阶段min-max优化、以及VLA特定的注意力劫持和语义错配损失,在共享特征空间中学习单一物理补丁。
  • Result: 实验表明UPA-RFAS在不同VLA模型、任务和视角下均能稳定迁移,暴露了基于补丁的实用攻击面。
  • Conclusion: 该工作为VLA模型建立了强大的对抗补丁攻击基准,为未来防御研究提供了基础。

[65] You Can Trust Your Clustering Model: A Parameter-free Self-Boosting Plug-in for Deep Clustering

Hanyang Li,Yuheng Jia,Hui Liu,Junhui Hou

Main category: cs.CV

TL;DR: DCBoost是一个参数自由的插件方法,通过利用可靠的局部结构线索来增强现有深度聚类模型的全局特征结构,显著提升聚类性能。

  • Motivation: 现有深度聚类方法存在全局和局部特征结构不一致的问题:局部结构在类内样本中表现出一致性和紧凑性,而全局特征则呈现交织边界和分离不良的聚类。
  • Method: 首先通过基于自适应k近邻的一致性过滤识别高置信度样本作为可靠锚点,然后利用这些样本计算判别性损失,促进类内紧凑性和类间分离性来指导网络优化。
  • Result: 在多个基准数据集上的实验表明,DCBoost显著提升了各种现有深度聚类模型的性能,将当前最先进基线(如ProPos)的性能提高了3%以上,并将轮廓系数放大了7倍以上。
  • Conclusion: DCBoost是一种有效的参数自由插件,能够利用可靠的局部结构信息来增强全局特征结构,从而显著提升深度聚类模型的性能。

[66] BotaCLIP: Contrastive Learning for Botany-Aware Representation of Earth Observation Data

Selene Cerna,Sara Si-Moussi,Wilfried Thuiller,Hadrien Hendrikx,Vincent Miele

Main category: cs.CV

TL;DR: BotaCLIP是一个轻量级多模态对比学习框架,通过将高分辨率航空影像与植物样方数据对齐,来适配预训练的地球观测基础模型DOFA,从而注入植物学领域的专业知识。

  • Motivation: 解决在无需从头训练或承担高计算成本的情况下,将领域特定知识注入预训练基础模型的挑战,特别是在生物多样性建模等数据稀缺场景中。
  • Method: 采用对比学习框架,将高分辨率航空影像与植物样方数据进行对齐,并引入正则化策略来缓解灾难性遗忘问题。
  • Result: 在植物存在预测、蝴蝶出现建模和土壤营养组丰度估计三个生态任务中,BotaCLIP表示相比DOFA和监督基线方法都取得了持续改进。
  • Conclusion: 这项工作展示了领域感知的基础模型适配如何将专家知识注入数据稀缺场景,实现高效的表征学习。

[67] Towards an Effective Action-Region Tracking Framework for Fine-grained Video Action Recognition

Baoli Sun,Yihan Wang,Xinzhu Ma,Zhihui Wang,Kun Lu,Zhiyong Wang

Main category: cs.CV

TL;DR: 提出ART框架,通过查询-响应机制发现和跟踪局部细节动态,有效区分相似动作。使用文本约束查询捕获动作相关区域响应,构建动作轨迹,并通过多级对比约束优化。

  • Motivation: 现有细粒度动作识别方法难以捕捉局部区域随时间演变的细微差异,需要更有效的方法来识别相似动作间的细微区别。
  • Method: 1. 区域特定语义激活模块使用文本约束查询捕获动作相关区域响应;2. 构建动作轨迹连接跨帧响应;3. 多级轨迹对比约束优化空间和时间层面的响应;4. 任务特定微调机制优化文本语义表示。
  • Result: 在广泛使用的动作识别基准测试中表现出优于现有最先进基线的性能。
  • Conclusion: ART框架通过发现和跟踪局部细节动态,有效解决了细粒度动作识别中捕捉细微差异的挑战,在多个基准测试中取得了优越性能。

[68] From Diffusion to One-Step Generation: A Comparative Study of Flow-Based Models with Application to Image Inpainting

Umang Agarwal,Rudraksh Sangore,Sumit Laddha

Main category: cs.CV

TL;DR: 比较三种生成模型:DDPM、CFM和MeanFlow。CFM在50步采样时FID为24.15,显著优于DDPM的402.98。MeanFlow单步采样FID为29.15,推理时间减少50倍。CFM扩展到图像修复,在中心掩码上PSNR从4.95提升到8.57dB,SSIM从0.289提升到0.418。

  • Motivation: 比较三种生成建模范式的性能差异,特别是关注采样效率和生成质量,并探索CFM在图像修复任务中的应用潜力。
  • Method: 使用统一的TinyUNet架构(<150万参数)在CIFAR-10上实现DDPM、CFM和MeanFlow三种方法。CFM采用条件流匹配,DDPM使用去噪扩散概率模型,MeanFlow通过建模时间间隔内的平均速度实现一步生成。
  • Result: CFM在50步采样时FID为24.15,DDPM为402.98,MeanFlow单步采样FID为29.15。CFM扩展到图像修复后,在中心掩码上PSNR提升73%(4.95→8.57dB),SSIM提升45%(0.289→0.418)。
  • Conclusion: CFM在生成质量和采样效率上均优于DDPM,MeanFlow实现了高质量的单步生成。CFM在图像修复任务中表现出色,修复感知训练能显著提升修复质量。

[69] 3-Tracer: A Tri-level Temporal-Aware Framework for Audio Forgery Detection and Localization

Shuhan Xia,Xuannan Liu,Xing Cui,Peipei Li

Main category: cs.CV

TL;DR: T3-Tracer是一个针对部分音频伪造检测的三级框架,通过联合分析帧级、段级和音频级特征来全面检测伪造痕迹,在三个挑战性数据集上实现了最先进性能。

  • Motivation: 部分音频伪造通过选择性修改关键帧而保持整体感知真实性,现有方法仅独立检测单帧伪造,缺乏捕捉不同时间层次上瞬时和持续异常的分层结构。
  • Method: 提出T3-Tracer框架,包含两个核心模块:帧-音频特征聚合模块(FA-FAM)检测每帧真实性,结合帧级和音频级时序信息;段级多尺度差异感知模块(SMDAM)检测伪造边界,采用双分支架构联合建模多尺度时间窗口内的帧特征和帧间差异。
  • Result: 在三个挑战性数据集上的广泛实验表明,该方法实现了最先进的性能。
  • Conclusion: T3-Tracer通过三级联合分析有效解决了部分音频伪造检测问题,能够全面捕捉不同时间层次的伪造痕迹。

[70] FIELDS: Face reconstruction with accurate Inference of Expression using Learning with Direct Supervision

Chen Ling,Henglin Shi,Hedvig Kjellström

Main category: cs.CV

TL;DR: FIELDS通过结合3D表情参数监督和情感识别分支,从单张图像重建保留细微情感线索的高保真3D人脸模型,显著提升野外面部表情识别性能。

  • Motivation: 现有3D人脸重建方法依赖2D监督且缺乏3D真实数据,往往遗漏细微的情感细节,需要解决2D/3D领域差距和表情强度偏差问题。
  • Method: 扩展自监督2D图像一致性线索,加入直接3D表情参数监督和辅助情感识别分支,使用来自自发4D面部扫描的真实表情参数指导编码器,并通过强度感知情感损失确保3D表情参数捕捉真实情感内容。
  • Result: 产生具有高度真实表情的情感丰富人脸模型,显著改善野外面部表情识别性能,同时不牺牲自然度。
  • Conclusion: 双重监督策略有效桥接2D/3D领域差距并减轻表情强度偏差,能够从单张图像生成保留细微情感线索的高保真3D重建结果。

[71] Shift-Equivariant Complex-Valued Convolutional Neural Networks

Quentin Gabot,Teck-Yian Lim,Jérémy Fix,Joana Frontera-Pons,Chengfang Ren,Jean-Philippe Ovarlez

Main category: cs.CV

TL;DR: 本文扩展了可学习多相采样(LPS)方法到复数神经网络,通过理论分析和引入新的投影层,在复数域实现平移等变性和不变性,并在极化合成孔径雷达图像任务中验证了性能。

  • Motivation: 传统卷积神经网络由于下采样和上采样操作破坏了平移等变性和不变性,虽然数据增强可以经验性地学习这些性质,但需要系统性的理论保证。
  • Method: 将LPS扩展到复数神经网络,引入从复数到实数的投影层,并在Gumbel Softmax之前应用,理论分析平移等变性和不变性。
  • Result: 在多个计算机视觉任务中验证了方法,包括分类任务中的不变性以及重建和语义分割任务中的等变性,特别是在极化SAR图像上表现良好。
  • Conclusion: 成功将LPS扩展到复数神经网络,通过理论保证和实验验证,在复数域实现了平移等变性和不变性,为复数神经网络提供了有效的构建模块。

[72] AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

Shuhan Xia,Peipei Li,Xuannan Liu,Dongsen Zhang,Xinyu Guo,Zekun Li

Main category: cs.CV

TL;DR: AVFakeBench是首个全面的音视频伪造检测基准,涵盖人类主体和一般主体的多种伪造语义,包含12K个精心策划的音视频问题,覆盖7种伪造类型和4级标注。

  • Motivation: 现有基准局限于DeepFake伪造和单粒度标注,无法捕捉真实世界伪造场景的多样性和复杂性。
  • Method: 提出多阶段混合伪造框架,集成专有模型进行任务规划和专家生成模型进行精确操作,建立多任务评估框架。
  • Result: 评估了11个音视频大语言模型和2种主流检测方法,展示了AV-LMMs作为新兴伪造检测器的潜力,但揭示了它们在细粒度感知和推理方面的显著弱点。
  • Conclusion: AVFakeBench填补了音视频伪造检测领域的空白,为评估和提升伪造检测能力提供了重要基准。

[73] LaGen: Towards Autoregressive LiDAR Scene Generation

Sizhuo Zhou,Xiaosong Jia,Fanrui Zhang,Junjie Li,Juyong Zhang,Yukang Feng,Jianwen Sun,Songbur Wong,Junqi You,Junchi Yan

Main category: cs.CV

TL;DR: LaGen是首个能够进行长时序LiDAR场景逐帧自回归生成的框架,支持基于单帧LiDAR输入和边界框条件生成高保真4D场景点云。

  • Motivation: 现有LiDAR数据生成方法仅支持单帧生成,而预测方法需要多帧历史输入且缺乏交互性,都无法支持长时序交互式生成。
  • Method: 引入场景解耦估计模块增强物体级内容的交互生成能力,以及噪声调制模块减轻长时序生成中的误差累积。
  • Result: 在nuScenes数据集上的实验结果表明,LaGen在长时序LiDAR场景生成方面优于现有最先进的生成和预测模型,特别是在后续帧上表现更优。
  • Conclusion: LaGen成功解决了长时序LiDAR场景交互式生成的挑战,为自动驾驶领域提供了有效的4D场景生成解决方案。

[74] Unlocking Zero-shot Potential of Semi-dense Image Matching via Gaussian Splatting

Juncheng Chen,Chao Xu,Yanjun Cao

Main category: cs.CV

TL;DR: MatchGS框架通过几何精炼的3DGS数据生成和2D-3D表示对齐,实现了零样本图像匹配的显著性能提升。

  • Motivation: 解决3D高斯泼溅在图像匹配训练数据生成中的几何不准确和深度渲染偏差问题,为学习型图像匹配提供大规模、多样化且几何精确的训练数据。
  • Method: 1) 几何忠实的数据生成管道:精炼3DGS几何以产生高精度对应标签;2) 2D-3D表示对齐策略:将3DGS的显式3D知识注入2D匹配器,引导学习视角不变的3D表示。
  • Result: 生成的对应关系将极线误差降低达40倍,在公共基准测试中零样本性能提升高达17.7%。
  • Conclusion: 经过适当几何精炼的3DGS可作为可扩展、高保真且结构丰富的数据源,为新一代鲁棒零样本图像匹配器铺平道路。

[75] Co-Training Vision Language Models for Remote Sensing Multi-task Learning

Qingyun Li,Shuran Ma,Junwei Luo,Yi Yu,Yue Zhou,Fengxiang Wang,Xudong Lu,Xiaoxing Wang,Xin He,Yushi Chen,Xue Yang,Junchi Yan

Main category: cs.CV

TL;DR: RSCoVLM是一个简单而灵活的遥感多任务学习视觉语言模型基线,通过统一的数据引擎、动态分辨率策略和Zoom-in Chain机制,在多个遥感任务上实现了最先进的性能。

  • Motivation: 随着Transformer在单个遥感任务上的出色表现,现在需要开发一个能在多个任务上表现优异的统一模型。多任务学习方法相比单任务方法具有更好的泛化性、可扩展性和实际应用价值。
  • Method: 1. 创建数据管理引擎(数据获取、离线处理集成、在线加载加权)
  1. 提出统一动态分辨率策略处理不同尺度的遥感图像
  2. 针对超高分辨率图像引入Zoom-in Chain机制和LRS-VQA-Zoom数据集
  3. 增强模型的目标检测能力并提出新的评估协议
  • Result: RSCoVLM在多样化任务上实现了最先进的性能,超越了现有的遥感视觉语言模型,甚至可与专门的专家模型相媲美。
  • Conclusion: 该基线模型将促进通用遥感模型的进一步发展,所有训练评估工具、模型权重和数据集均已开源以支持可复现性。

[76] PathMamba: A Hybrid Mamba-Transformer for Topologically Coherent Road Segmentation in Satellite Imagery

Jules Decaestecker,Nicolas Vigne

Main category: cs.CV

TL;DR: PathMamba是一个结合Mamba状态空间模型和Transformer的混合架构,用于卫星图像道路分割,在保持计算效率的同时显著提升了拓扑连续性。

  • Motivation: 现有基于Vision Transformer的方法虽然能捕捉全局上下文,但二次复杂度限制了在资源受限平台上的部署效率。而Mamba等状态空间模型具有线性时间效率,特别适合建模长连续结构。
  • Method: 提出PathMamba混合架构,使用Mamba块追踪道路网络的连续特性以保持拓扑结构,同时集成Transformer块利用全局上下文优化特征。
  • Result: 在DeepGlobe Road Extraction和Massachusetts Roads数据集上达到新的SOTA,显著提高了拓扑连续性(APLS指标),同时保持计算竞争力。
  • Conclusion: PathMamba证明了Mamba和Transformer架构的互补优势,能够在不过度增加计算成本的情况下获得拓扑优越的分割结果。

[77] CaliTex: Geometry-Calibrated Attention for View-Coherent 3D Texture Generation

Chenyu Liu,Hongze Chen,Jingzhi Bao,Lingting Zhu,Runze Zhang,Weikai Chen,Zeyu Hu,Yingda Yin,Keyang Luo,Xin Wang

Main category: cs.CV

TL;DR: CaliTex是一个解决3D纹理生成中跨视图不一致问题的框架,通过几何校准的注意力机制来确保纹理在不同视角下的对齐和一致性。

  • Motivation: 当前基于扩散模型的3D纹理生成系统存在跨视图不一致的问题,即从一个视角看起来合理的纹理在其他视角下无法对齐。这源于注意力模糊问题,即无结构的全注意力被不加区分地应用于所有token和模态,导致几何混淆和不稳定的外观-结构耦合。
  • Method: 引入CaliTex框架,包含两个模块:Part-Aligned Attention强制语义匹配部分的空间对齐,Condition-Routed Attention通过几何条件路径路由外观信息以保持空间保真度。结合两阶段扩散变换器,使几何一致性成为网络的固有行为。
  • Result: CaliTex能够生成无缝且视图一致的纹理,在经验评估中优于开源和商业基线方法。
  • Conclusion: 通过几何校准的注意力机制,CaliTex有效解决了3D纹理生成中的跨视图不一致问题,使几何一致性成为生成过程的固有特性。

[78] HTTM: Head-wise Temporal Token Merging for Faster VGGT

Weitian Wang,Lukas Meiner,Rai Shubham,Cecilia De La Parra,Akash Kumar

Main category: cs.CV

TL;DR: 提出HTTM方法,一种无需训练的3D token合并技术,用于加速VGGT模型在3D场景重建中的推理过程。

  • Motivation: VGGT模型在重建大场景时需要全局注意力计算,导致显著延迟瓶颈,需要高效的加速方法。
  • Method: 采用头级时间合并(HTTM)策略,在多头粒度上合并token,保持特征token的唯一性,并利用空间局部性和时间对应性实现高合并比。
  • Result: 在GPU推理中实现了高达7倍的加速,性能下降可忽略不计。
  • Conclusion: HTTM是一种有效的训练无关加速方法,能显著提升VGGT模型在大场景重建中的效率。

[79] The More, the Merrier: Contrastive Fusion for Higher-Order Multimodal Alignment

Stefanos Koutoupis,Michaela Areti Zervou,Konstantinos Kontras,Maarten De Vos,Panagiotis Tsakalides,Grigorios Tsagatakis

Main category: cs.CV

TL;DR: ConFu是一个多模态表示学习框架,通过对比学习联合嵌入单个模态及其融合组合,在统一表示空间中同时保持成对关系和高阶依赖。

  • Motivation: 现有方法主要处理成对模态对齐,但忽略了高阶多模态交互,或者在捕捉高阶关系时未能充分保持成对关系,限制了在单模态任务上的有效性。
  • Method: ConFu扩展了传统的成对对比目标,增加了融合模态对比项,鼓励模态对与第三个模态的联合嵌入,从而捕捉无法通过成对对齐恢复的高阶依赖关系。
  • Result: 在合成和真实多模态基准测试中,ConFu在检索和分类任务上表现出竞争力,能够利用跨模态互补性、捕捉高阶依赖,并支持统一的一对一和一对多检索。
  • Conclusion: ConFu能够同时捕捉高阶多模态依赖关系并保持强成对对应关系,为多模态表示学习提供了有效的统一框架。

[80] Hybrid SIFT-SNN for Efficient Anomaly Detection of Traffic Flow-Control Infrastructure

Munish Rathee,Boris Bačić,Maryam Doborjeh

Main category: cs.CV

TL;DR: 提出SIFT-SNN框架,结合SIFT特征提取和脉冲神经网络,实现交通基础设施结构异常的实时低延迟检测,准确率达92.3%,推理时间9.5ms。

  • Motivation: 解决传统CNN方法在嵌入式硬件上部署时的高延迟、高功耗问题,同时增强空间特征的可解释性和决策透明度。
  • Method: 集成尺度不变特征变换(SIFT)进行空间特征编码,使用延迟驱动的脉冲转换层和泄漏积分点火(LIF)脉冲神经网络进行分类。
  • Result: 在奥克兰海港大桥数据集上达到92.3%分类准确率,每帧推理时间9.5ms,稀疏脉冲活动率为8.1%,支持实时低功耗边缘部署。
  • Conclusion: SIFT-SNN框架在保持空间特征可解释性的同时,实现了高效的实时检测,为可移动混凝土护栏等交通基础设施的安全监测提供了可推广的解决方案。

[81] SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding

Tae-Min Choi,Tae Kyeong Jeong,Garam Kim,Jaemin Lee,Yeongyoon Koh,In Cheul Choi,Jae-Ho Chung,Jong Woong Park,Juyoun Park

Main category: cs.CV

TL;DR: SurgMLLMBench是一个统一的多模态基准测试,专为开发和评估交互式多模态LLM在外科场景理解中的应用而设计,集成了像素级器械分割和结构化VQA标注。

  • Motivation: 现有的外科数据集主要采用VQA格式,存在分类法不一致且缺乏像素级分割支持的问题,限制了评估的一致性和适用性。
  • Method: 提出了SurgMLLMBench基准测试,整合了新收集的MAVIS数据集,在腹腔镜、机器人辅助和显微外科领域下统一分类法,包含像素级器械分割掩码和结构化VQA标注。
  • Result: 基线实验显示,在SurgMLLMBench上训练的单一模型在不同领域表现一致,并能有效泛化到未见过的数据集。
  • Conclusion: SurgMLLMBench将作为公开资源推进多模态外科AI研究,支持可复现的评估和交互式外科推理模型的开发。

[82] PFF-Net: Patch Feature Fitting for Point Cloud Normal Estimation

Qing Li,Huifang Feng,Kanle Shi,Yue Gao,Yi Fang,Yu-Shen Liu,Zhizhong Han

Main category: cs.CV

TL;DR: 提出一种基于多尺度特征融合的点云法向量估计方法,通过特征聚合和补偿机制自适应处理不同尺度的局部块,实现高效准确的法向量预测。

  • Motivation: 现有方法在处理不同数据或几何形状时难以确定合适的邻域大小,且参数繁重,无法准确高效地预测各种点云的法向量。
  • Method: 使用多尺度特征融合策略,包括特征聚合模块(逐步聚合不同尺度的块特征并缩小块大小)和特征补偿模块(确保大尺度早期层特征的可重用性)。
  • Result: 在合成和真实数据集上达到最先进性能,同时具有更少的网络参数和运行时间。
  • Conclusion: 基于多尺度特征聚合的近似策略使模型能够实现不同局部块的尺度自适应,并提供最优特征描述。

[83] Endo-G2T: Geometry-Guided & Temporally Aware Time-Embedded 4DGS For Endoscopic Scenes

Yangle Liu,Fengze Li,Kan Liu,Jieming Ma

Main category: cs.CV

TL;DR: Endo-G²T是一个用于动态内窥镜场景的几何引导和时间感知训练方案,通过几何先验蒸馏、时间嵌入高斯场和关键帧约束流式处理,解决了内窥镜视频中视角依赖效应导致的几何漂移问题。

  • Motivation: 内窥镜视频存在强烈的视角依赖效应(如镜面反射、湿润反射和遮挡),纯光度监督会与几何结构不对齐,导致早期几何漂移,错误的形状在密集化过程中被强化且难以纠正。
  • Method: 1. 几何引导先验蒸馏:将置信度门控的单目深度转换为监督信号,使用尺度不变深度和深度梯度损失;2. 时间嵌入高斯场:在XYZT空间中表示动态,采用转子式旋转参数化;3. 关键帧约束流式处理:在最大点数预算下进行关键帧优化,非关键帧进行轻量更新。
  • Result: 在EndoNeRF和StereoMIS-P1数据集上,Endo-G²T在单目重建基线中达到了最先进的性能。
  • Conclusion: 该方法通过几何引导和时间感知训练,成功解决了动态内窥镜场景中的几何漂移问题,实现了时间一致的高效重建。

[84] Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning

Xin Gu,Haoji Zhang,Qihang Fan,Jingxuan Niu,Zhipeng Zhang,Libo Zhang,Guang Chen,Fan Chen,Longyin Wen,Sijie Zhu

Main category: cs.CV

TL;DR: STVG-o1是首个让现成多模态大语言模型在时空视频定位任务上达到最先进性能的框架,无需修改模型架构,通过边界框思维链机制和多维度强化奖励函数实现。

  • Motivation: 现有的多模态大语言模型在时空视频定位任务上表现不佳,主要因为训练目标不对齐和标准视觉编码器缺乏细粒度区域-词语对齐能力。
  • Method: 提出边界框思维链机制,在最终预测前明确推理时空位置;设计包含格式、一致性、时间、空间和思考奖励的多维度强化奖励函数,通过强化微调提供几何感知监督。
  • Result: 在HCSTVG-v1/v2和VidSTG数据集上达到最先进水平,在HCSTVG-v1上比最佳任务特定方法提升7.3% m_tIoU,在VidSTG上与专用模型相当,大幅超越所有现有基于MLLM的方法。
  • Conclusion: STVG-o1证明了多模态大语言模型可以作为精确时空定位任务的可信且强大的骨干网络,并展现出强大的跨数据集开放词汇泛化能力。

[85] Monet: Reasoning in Latent Visual Space Beyond Images and Language

Qixun Wang,Yang Shi,Yifei Wang,Yuanxing Zhang,Pengfei Wan,Kun Gai,Xianghua Ying,Yisen Wang

Main category: cs.CV

TL;DR: Monet是一个训练框架,使多模态大语言模型能够在潜在视觉空间中直接推理,通过生成连续的嵌入作为中间视觉思维。

  • Motivation: 现有方法在抽象视觉思维方面存在不足,其灵活性受限于外部工具,无法实现类人的抽象视觉推理。
  • Method: 采用三阶段蒸馏式监督微调管道,解决潜在视觉对齐的高计算成本和潜在嵌入监督不足的问题,并提出VLPO强化学习方法。
  • Result: Monet-7B模型在真实世界感知和推理基准测试中表现一致提升,在抽象视觉推理任务上展现出强大的分布外泛化能力。
  • Conclusion: Monet框架成功实现了多模态模型在潜在视觉空间中的直接推理,为视觉潜在推理的未来发展提供了重要见解。

[86] Do Reasoning Vision-Language Models Inversely Scale in Test-Time Compute? A Distractor-centric Empirical Analysis

Jiyun Bae,Hyunjong Ok,Sangwoo Mo,Jaeho Lee

Main category: cs.CV

TL;DR: 该论文研究了视觉语言模型中无关信息(干扰项)对测试时扩展的影响,发现视觉干扰项与文本干扰项存在根本差异:虽然都存在逆扩展效应,但视觉干扰项会降低准确性而不增加推理长度。

  • Motivation: 研究视觉语言模型中视觉干扰项是否会产生与语言模型中文本干扰项类似的逆扩展效应,即在多模态环境中干扰项如何影响模型性能。
  • Method: 构建了Idis数据集,系统地在语义、数值和空间维度上变化视觉干扰项,并通过分析推理轨迹中的属性计数来研究干扰项、推理长度和准确性之间的相互作用。
  • Result: 发现视觉干扰项会降低准确性但不增加推理长度,这与文本干扰项不同。研究还表明这些趋势扩展到已建立的视觉偏见基准测试中。
  • Conclusion: 提出了简单的提示策略来减轻推理模型中的偏见驱动预测,为理解多模态环境中干扰项的影响提供了重要见解。

[87] DiverseVAR: Balancing Diversity and Quality of Next-Scale Visual Autoregressive Models

Mingue Park,Prin Phunyaphibarn,Phillip Y. Lee,Minhyuk Sung

Main category: cs.CV

TL;DR: DiverseVAR框架通过文本嵌入噪声注入和尺度旅行精炼技术,在不需重新训练或微调的情况下提升视觉自回归模型的生成多样性,同时保持图像质量。

  • Motivation: VAR模型在图像生成中虽然质量优秀,但存在多样性不足的问题,即使对简单提示也会产生几乎相同的图像,这个问题在现有研究中被忽视。
  • Method: 1. 在文本嵌入中注入噪声以增强多样性;2. 提出尺度旅行精炼技术,使用多尺度自编码器提取粗尺度标记,从中间阶段恢复生成以保持图像质量。
  • Result: 结合文本嵌入噪声注入和尺度旅行精炼,显著提升了多样性,同时最小化了图像质量下降,在多样性-质量权衡中达到了新的帕累托前沿。
  • Conclusion: DiverseVAR框架有效解决了VAR模型的多样性限制问题,提供了一种无需重新训练即可在测试时提升多样性的实用方法。

[88] SAM Guided Semantic and Motion Changed Region Mining for Remote Sensing Change Captioning

Futian Wang,Mengqi Wang,Xiao Wang,Haowen Wang,Jin Tang

Main category: cs.CV

TL;DR: 本文提出了一种基于SAM基础模型的遥感变化描述方法,通过提取区域级表示和注入感兴趣区域知识来改进变化描述性能。

  • Motivation: 解决现有遥感变化描述方法区域感知能力弱和时间对齐有限的问题,探索利用SAM基础模型增强区域级表示能力。
  • Method: 使用CNN/Transformer提取全局视觉特征,利用SAM模型划分语义和运动级变化区域,构建知识图谱提供感兴趣对象信息,通过交叉注意力融合异构信息,最后用Transformer解码器生成自然语言描述。
  • Result: 在多个广泛使用的基准数据集上实现了最先进的性能。
  • Conclusion: 提出的基于SAM的方法有效解决了遥感变化描述中的区域感知和时间对齐问题,显著提升了性能。

[89] E-M3RF: An Equivariant Multimodal 3D Re-assembly Framework

Adeela Islam,Stefano Fiorini,Manuel Lecha,Theodore Tsesmelis,Stuart James,Pietro Morerio,Alessio Del Bue

Main category: cs.CV

TL;DR: E-M3RF是一个等变多模态3D重组框架,通过结合几何和颜色特征,使用SE(3)流匹配来预测碎片重组所需的变换,在几何特征不足或模糊的情况下表现出色。

  • Motivation: 现有基于深度学习的3D重组方法主要依赖几何特征,在几何信息不足(如小碎片、侵蚀碎片或对称碎片)时表现不佳,且缺乏防止重叠组装的物理约束。
  • Method: 使用旋转等变编码器提取几何特征,Transformer提取颜色特征,形成多模态表示,通过SE(3)流匹配预测碎片变换。
  • Result: 在RePAIR数据集上,相比竞争方法,旋转误差减少23.1%,平移误差减少13.2%,Chamfer距离减少18.4%。
  • Conclusion: E-M3RF通过结合几何和颜色特征的多模态方法,显著提升了3D碎片重组的性能,特别是在几何信息不足的情况下。

[90] From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings

Jiajie Zhang,Sören Schwertfeger,Alexander Kleiner

Main category: cs.CV

TL;DR: 提出了一种从工业视频流中自动提取视觉-语言-动作模型预训练数据的无监督框架,包括运动分词器编码运动动态和无监督动作分割器发现语义一致的动作基元。

  • Motivation: 解锁大量未标记的人类演示数据用于VLA模型预训练,解决制造业中具身AI集成的可扩展性问题。
  • Method: 训练轻量级运动分词器编码运动动态,使用基于"潜在动作能量"指标的无监督动作分割器发现和分割语义一致的动作基元。
  • Result: 在公共基准和专有电机装配数据集上有效分割关键任务,通过视觉语言模型确认发现的动作基元的语义一致性。
  • Conclusion: 这是首个从非结构化工业视频中提取和组织VLA预训练数据的全自动端到端系统,为制造业具身AI集成提供了可扩展解决方案。

[91] EvRainDrop: HyperGraph-guided Completion for Effective Frame and Event Stream Aggregation

Futian Wang,Fan Zhang,Xiao Wang,Mengqi Wang,Dexing Huang,Jin Tang

Main category: cs.CV

TL;DR: 提出了一种基于超图的时空事件流补全机制,通过超图连接不同时间和空间位置的事件标记,利用上下文信息传递来补全稀疏事件,并支持多模态信息融合。

  • Motivation: 现有事件表示学习方法使用事件帧、体素或张量作为输入,但难以解决由空间稀疏性引起的欠采样问题。
  • Method: 使用超图引导的时空事件流补全机制,通过超图连接事件标记并进行上下文信息传递,可灵活整合RGB标记实现多模态信息补全,然后通过自注意力聚合不同时间步的超图节点信息。
  • Result: 在单标签和多标签事件分类任务上的大量实验充分验证了所提框架的有效性。
  • Conclusion: 提出的超图引导补全机制能有效解决事件相机的空间稀疏性问题,实现多模态特征的有效学习和融合。

[92] MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices

Shuai Zhang,Bao Tang,Siyuan Yu,Yueting Zhu,Jingfeng Yao,Ya Zou,Shanglin Yuan,Li Yu,Wenyu Liu,Xinggang Wang

Main category: cs.CV

TL;DR: MobileI2V是一个270M参数的轻量级扩散模型,专为移动设备上的实时图像到视频生成而设计,通过线性混合架构、时间步蒸馏和移动端注意力优化,实现了720p视频的快速生成。

  • Motivation: 解决扩散模型在移动设备上计算复杂度高、生成速度慢的问题,实现资源受限设备上的实时高分辨率视频生成。
  • Method: 1) 分析线性注意力和softmax注意力模块性能,提出平衡效率与质量的线性混合架构去噪器;2) 设计时间步蒸馏策略,将采样步骤从20+压缩到仅2步;3) 应用移动端特定的注意力优化。
  • Result: 首次在移动设备上实现快速720p图像到视频生成,质量与现有模型相当,单步条件下每帧720p视频生成时间小于100毫秒,生成速度提升10倍。
  • Conclusion: MobileI2V证明了在移动设备上实现高质量实时视频生成的可行性,为移动端AI应用开辟了新可能性。

[93] Frequency-Aware Token Reduction for Efficient Vision Transformer

Dong-Jae Lee,Jiwan Hur,Jaehyun Choi,Jaemyung Yu,Junmo Kim

Main category: cs.CV

TL;DR: 提出了一种基于频率感知的token缩减策略,通过将token分为高频和低频两类,选择性保留高频token并将低频token聚合为紧凑的DC token,在提高计算效率的同时缓解rank collapsing问题。

  • Motivation: Vision Transformers的二次计算复杂度是主要挑战,现有token缩减方法忽视了自注意力机制的频率特性,如rank collapsing和over-smoothing现象。
  • Method: 频率感知token缩减策略:将token划分为高频token和低频token,选择性保留高频token,将低频token聚合为紧凑的DC token以保留必要的低频分量。
  • Result: 通过大量实验和分析,该方法在减少计算开销的同时显著提高了准确性,并有效缓解了rank collapsing和over-smoothing问题。
  • Conclusion: 该方法在提高Vision Transformers计算效率的同时保持了性能,并对先前方法的隐式频率特性和局限性进行了分析。

[94] Merge and Bound: Direct Manipulations on Weights for Class Incremental Learning

Taehoon Kim,Donghwan Jang,Bohyung Han

Main category: cs.CV

TL;DR: 提出Merge-and-Bound (M&B)方法,通过参数空间中的权重合并和边界更新技术来解决类增量学习中的灾难性遗忘问题。

  • Motivation: 类增量学习(CIL)面临灾难性遗忘的挑战,传统方法通常需要修改网络架构或学习目标。本文旨在直接在参数空间操作模型权重来优化性能。
  • Method: 采用两种权重合并:任务间权重合并(平均所有先前阶段模型的权重)和任务内权重合并(组合当前阶段内的模型参数)。结合边界更新技术,以最小累积更新优化目标模型。
  • Result: 在标准CIL基准测试中表现出色,性能优于最先进方法。
  • Conclusion: M&B方法无需修改架构组件或修订学习目标,即可有效集成到现有CIL方法中,显著减少灾难性遗忘。

[95] CanKD: Cross-Attention-based Non-local operation for Feature-based Knowledge Distillation

Shizhe Sun,Wataru Ohyama

Main category: cs.CV

TL;DR: 提出基于交叉注意力的非局部知识蒸馏框架CanKD,通过交叉注意力机制让学生特征图的每个像素都能动态考虑教师特征图的所有像素,实现更彻底的非局部知识迁移。

  • Motivation: 传统基于自注意力的蒸馏方法独立对齐师生特征图,无法充分捕捉像素间关系,需要更有效的非局部知识迁移机制来改进特征表示学习。
  • Method: 引入交叉注意力机制,使学生特征图的每个像素都能动态关注教师特征图的所有像素位置,仅通过额外的损失函数实现知识蒸馏。
  • Result: 在目标检测和图像分割任务上的大量实验表明,CanKD优于现有的特征和混合蒸馏方法,达到最先进性能。
  • Conclusion: CanKD展示了作为计算机视觉任务中注意力引导蒸馏新范式的潜力,能更有效地提升特征表示学习效果。

[96] Generalized Design Choices for Deepfake Detectors

Lorenzo Pellegrini,Serafino Pandolfini,Davide Maltoni,Matteo Ferrara,Marco Prati,Marco Ramilli

Main category: cs.CV

TL;DR: 本文系统研究了深度伪造检测方法中不同设计选择对性能和泛化能力的影响,旨在建立架构无关的最佳实践。

  • Motivation: 深度伪造检测方法的有效性往往更多依赖于实现细节而非核心设计,这使得公平比较检测器变得困难,也难以理解真正影响性能的因素。
  • Method: 通过系统性地研究训练、推理和增量更新相关的不同设计选择,隔离各个因素的影响,建立稳健的架构无关最佳实践。
  • Result: 实验识别出一组能够持续改进深度伪造检测并在AI-GenBench基准测试中实现最先进性能的设计选择。
  • Conclusion: 建立了一套能够持续提升深度伪造检测性能的设计选择,为未来深度伪造检测系统的设计和开发提供了稳健的架构无关最佳实践。

[97] Self-Paced Learning for Images of Antinuclear Antibodies

Yiyang Jiang,Guangwu Qian,Jiaxin Wu,Qi Huang,Qing Li,Yongkang Wu,Xiao-Yong Wei

Main category: cs.CV

TL;DR: 提出了一种用于抗核抗体(ANA)检测的新框架,该框架处理多实例多标签(MIML)任务的复杂性,使用未处理的显微镜图像,无需手动预处理。

  • Motivation: ANA检测对于诊断自身免疫性疾病至关重要,但手动检测缓慢、劳动密集且需要多年培训。尽管机器学习和深度学习实现了自动化,但真实临床环境中的ANA检测涉及多实例多标签学习,存在独特挑战。
  • Method: 受人类标注逻辑启发,该框架识别一致的ANA子区域并分配聚合标签。使用三个任务特定组件:实例采样器、概率伪标签分配器和自定步调权重学习率系数。实例采样器通过建模模式置信度来抑制低置信度实例,分配器基于实例可区分性自适应分配标签,自定步调学习根据经验标签观察调整训练。
  • Result: 在一个ANA数据集和三个公共医疗MIML基准测试上的广泛实验证明了该框架的优越性。在ANA数据集上,相比最佳先前方法,模型实现了高达+7.0% F1-Macro和+12.6% mAP的提升,创造了新的最先进结果。在公共数据集上,在所有关键指标中排名前2,汉明损失和one-error分别降低了18.2%和26.9%。
  • Conclusion: 该框架克服了传统MIML方法的局限性,支持端到端优化,在ANA检测和医疗MIML任务中表现出色。

[98] EoS-FM: Can an Ensemble of Specialist Models act as a Generalist Feature Extractor?

Pierre Adorni,Minh-Tan Pham,Stéphane May,Sébastien Lefèvre

Main category: cs.CV

TL;DR: 提出了一种用于构建遥感基础模型的高效集成专家框架,替代当前依赖大规模模型和数据集的计算密集型方法。

  • Motivation: 当前基础模型方法需要大量计算资源和数据,限制了可访问性,且与可持续AI原则相悖。需要开发更高效、环保的替代方案。
  • Method: 采用集成专家框架,将训练过程分解为轻量级的任务特定ConvNeXtV2专家模型,支持冻结和重用,具有模块化特性。
  • Result: 该方法在效率、可解释性和可扩展性方面具有显著优势,支持联邦训练、剪枝和持续专家集成,适用于资源受限环境。
  • Conclusion: 该框架为构建可扩展且高效的遥感基础模型指明了新方向,特别适合协作和资源受限场景。

[99] The Age-specific Alzheimer 's Disease Prediction with Characteristic Constraints in Nonuniform Time Span

Xin Hong,Kaifeng Huang

Main category: cs.CV

TL;DR: 提出了一种基于定量指标的序列图像生成方法,结合年龄缩放因子来生成年龄特异性MRI图像,用于预测阿尔茨海默病的进展阶段。

  • Motivation: 阿尔茨海默病的及时识别对个性化治疗至关重要,但现有方法在处理不规则时间间隔的输入序列时难以准确表征疾病特征。
  • Method: 采用定量指标引导的序列图像生成方法,集成年龄缩放因子来生成年龄特异性MRI图像,并使用年龄缩放像素损失来增强迭代生成效果。
  • Result: 消融研究表明定量指标显著提高了MRI图像合成的准确性,结构相似性指数达到0.882,表明合成图像具有高度相似性。
  • Conclusion: 该方法通过定量指标和年龄缩放因子有效改善了阿尔茨海默病MRI图像的生成质量,为疾病长期预后提供了可靠工具。

[100] Video Generation Models Are Good Latent Reward Models

Xiaoyue Mi,Wenqing Yu,Jiesong Lian,Shibo Jie,Ruizhe Zhong,Zijun Liu,Guozhen Zhang,Zixiang Zhou,Zhiyong Xu,Yuan Zhou,Qinglin Lu,Fan Tang

Main category: cs.CV

TL;DR: 提出了PRFL框架,在潜在空间中进行偏好优化,解决了视频生成中Reward反馈学习的内存消耗大、训练时间长的问题。

  • Motivation: 现有视频奖励模型依赖像素空间输入,导致ReFL优化只能在去噪后期进行,缺乏早期监督,且内存开销大、训练时间长。
  • Method: 利用预训练视频生成模型在噪声潜在空间进行奖励建模,提出PRFL框架,在潜在空间进行偏好优化,无需VAE解码。
  • Result: PRFL显著提高了与人类偏好的对齐度,同时大幅减少了内存消耗和训练时间。
  • Conclusion: 在潜在空间进行奖励反馈学习比像素空间方法更高效,能更好地优化视频生成质量。

[101] UAVLight: A Benchmark for Illumination-Robust 3D Reconstruction in Unmanned Aerial Vehicle (UAV) Scenes

Kang Du,Xue Liao,Junpeng Xia,Chaozheng Guo,Yi Gu,Yirui Guan,Duotun Wang,ShengHuang,Zeyu Wang

Main category: cs.CV

TL;DR: UAVLight是一个用于光照鲁棒3D重建的基准数据集,通过在不同固定时间重复飞行采集数据,提供自然光照变化下的多视图重建评估。

  • Motivation: 多视图3D重建面临光照不一致的挑战,现有数据集要么缺乏有意义的照明多样性,要么包含几何和语义变化,无法单独研究光照鲁棒性。
  • Method: 在可重复的地理参考飞行路径上,在多个固定时间点采集场景数据,产生在一致几何、标定和视角下的自然光照变化。
  • Result: 创建了一个受控但真实的基准,为开发光照鲁棒的重建方法提供了可靠基础。
  • Conclusion: UAVLight为在真实室外环境中开发一致、忠实和可重光照的3D重建方法提供了标准化评估协议。

[102] Multimodal Robust Prompt Distillation for 3D Point Cloud Models

Xiang Gu,Liming Lu,Xu Zheng,Anan Du,Yongbin Zhou,Shuchao Pang

Main category: cs.CV

TL;DR: 提出了一种名为MRPD的多模态鲁棒提示蒸馏框架,通过师生架构将3D点云模型与视觉、高性能3D模型和文本编码器的鲁棒特征对齐,无需推理时额外计算成本即可显著提升对抗攻击防御能力。

  • Motivation: 现有3D点云模型防御方法存在计算开销大和泛化能力差的问题,无法应对安全敏感应用中的对抗攻击威胁。
  • Method: 采用师生框架,通过轻量级提示学习将学生点云模型特征与三个教师模型(视觉深度投影模型、高性能3D模型、文本编码器)的鲁棒嵌入对齐,使用置信度门控机制动态平衡多模态输入贡献。
  • Result: 在广泛的白盒和黑盒攻击下显著优于现有防御方法,甚至在干净数据上也能获得更好性能。
  • Conclusion: MRPD为构建鲁棒3D视觉系统提供了一种高效利用多模态知识的新实用范式。

[103] Enhanced Landmark Detection Model in Pelvic Fluoroscopy using 2D/3D Registration Loss

Chou Mo,Yehyun Suh,J. Ryan Martin,Daniel Moyer

Main category: cs.CV

TL;DR: 提出了一种结合2D/3D地标配准的U-Net训练框架,用于骨盆透视图像中的地标检测,解决了传统方法假设固定AP视图的限制。

  • Motivation: 当前骨盆透视地标检测方法大多假设固定的前后位视图,但实际手术中由于成像设备或目标结构重新定位,方向常常偏离标准视图。
  • Method: 将2D/3D地标配准整合到U-Net地标预测模型的训练中,比较基线U-Net、带姿态估计损失的U-Net训练,以及带姿态估计损失的U-Net微调。
  • Result: 在患者姿态变化的手术条件下评估性能差异,分析地标检测精度。
  • Conclusion: 提出的框架能够更好地处理实际手术中患者姿态变化的情况,提高地标检测的鲁棒性。

[104] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Teng Hu,Zhentao Yu,Guozhen Zhang,Zihan Su,Zhengguang Zhou,Youliang Zhang,Yuan Zhou,Qinglin Lu,Ran Yi

Main category: cs.CV

TL;DR: Harmony是一个解决音频-视频同步生成挑战的新框架,通过跨任务协同训练、全局-局部解耦交互模块和同步增强CFG,显著提升了生成质量和同步精度。

  • Motivation: 开源模型在音频-视频对齐方面存在挑战,主要源于联合扩散过程中的三个根本问题:对应漂移、低效的全局注意力机制和传统CFG的模态内偏见。
  • Method: 1. 跨任务协同训练范式,利用音频驱动视频和视频驱动音频生成任务的强监督信号;2. 全局-局部解耦交互模块,实现高效精确的时序风格对齐;3. 同步增强CFG,在推理时显式分离和放大对齐信号。
  • Result: 大量实验表明,Harmony在生成保真度和细粒度音频-视频同步方面显著优于现有方法,建立了新的最先进水平。
  • Conclusion: Harmony框架通过机制性地强制音频-视频同步,有效解决了联合扩散过程中的核心挑战,为同步音频-视觉内容合成提供了强大解决方案。

[105] Deep Learning-Based Multiclass Classification of Oral Lesions with Stratified Augmentation

Joy Naoum,Revana Salama,Ali Hamdi

Main category: cs.CV

TL;DR: 使用深度学习构建16种不同口腔病变的多分类器,通过分层数据分割、数据增强和过采样技术解决数据不平衡问题,在口腔癌早期检测中取得良好效果。

  • Motivation: 口腔癌在全球非常普遍,但由于口腔内良性、癌前和恶性病变在视觉上相似,通常到晚期才被诊断。早期实施计算机辅助诊断系统可显著改善临床结果。
  • Method: 结合分层数据分割、高级数据增强和过采样技术来处理有限且不平衡的数据集,构建深度学习多分类器。
  • Result: 实验结果显示准确率达到83.33%,精确率89.12%,召回率77.31%,优于现有最先进方法,在少数类分类方面表现显著。
  • Conclusion: 该框架展示了过采样和增强策略在数据不平衡情况下的有效性,是迈向可信赖口腔癌早期检测计算机辅助诊断系统的有前景的第一步。

[106] MoGAN: Improving Motion Quality in Video Diffusion via Few-Step Motion Adversarial Post-Training

Haotian Xue,Qi Chen,Zhonghao Wang,Xun Huang,Eli Shechtman,Jinrong Xie,Yongxin Chen

Main category: cs.CV

TL;DR: MoGAN是一个专注于提升视频生成运动质量的训练后框架,通过光学流判别器和分布匹配正则化器来改善运动真实感,无需奖励模型或人类偏好数据。

  • Motivation: 现有视频扩散模型在帧级保真度上表现良好,但在运动连贯性、动态性和真实感方面仍存在抖动、重影或不可信动态等问题,主要原因是标准去噪MSE目标缺乏对时间一致性的直接监督。
  • Method: 基于3步蒸馏视频扩散模型,训练基于DiT的光学流判别器来区分真实与生成运动,结合分布匹配正则化器保持视觉保真度。
  • Result: 在Wan2.1-T2V-1.3B上的实验显示,MoGAN显著提升运动质量:VBench上运动得分比50步教师模型提升+7.3%,比3步DMD模型提升+13.3%;VideoJAM-Bench上运动得分分别提升+7.4%和+8.8%,同时保持相当或更好的美学和图像质量得分。人类研究也确认MoGAN在运动质量上更受偏好。
  • Conclusion: MoGAN在不牺牲视觉保真度或效率的前提下,显著提升了运动真实感,为快速高质量视频生成提供了实用路径。

[107] ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

M. Naseer Subhani

Main category: cs.CV

TL;DR: 提出了一种自提示、点监督的框架,仅使用稀疏点标注将SAM适配到遥感图像,通过Refine-Requery-Reinforce循环逐步提升分割质量。

  • Motivation: SAM在自然图像上表现出色,但在遥感图像上由于严重的领域偏移和密集标注稀缺而表现不佳。
  • Method: 采用Refine-Requery-Reinforce循环:从初始点生成粗伪掩码(Refine),用自构建的框提示改进(Requery),通过嵌入对齐减少确认偏差(Reinforce)。
  • Result: 在WHU、HRSID和NWPU VHR-10三个遥感基准数据集上,方法持续超越预训练SAM和最近的点监督分割方法。
  • Conclusion: 自提示和语义对齐为遥感应用中基础分割模型的可扩展点级适配提供了高效路径。

[108] Active Learning for GCN-based Action Recognition

Hichem Sahbi

Main category: cs.CV

TL;DR: 提出了一种标签高效的图卷积网络模型,通过对抗性策略选择信息量大的样本进行标注,并引入双向稳定GCN架构,在骨架动作识别任务中显著减少对标注数据的依赖。

  • Motivation: 现有的图卷积网络在骨架动作识别中表现良好,但严重依赖大量标注数据,而实际应用中标注数据往往稀缺。
  • Method: 1. 开发新颖的获取函数,使用对抗策略选择代表性、多样性和不确定性平衡的紧凑样本集进行标注;2. 引入双向稳定GCN架构,改善环境空间与潜在数据空间之间的映射。
  • Result: 在两个具有挑战性的骨架动作识别基准测试中,相比先前工作取得了显著改进。
  • Conclusion: 提出的标签高效GCN模型能够有效减少对标注数据的依赖,在骨架动作识别任务中表现出优越性能。

[109] Qwen3-VL Technical Report

Shuai Bai,Yuxuan Cai,Ruizhe Chen,Keqin Chen,Xionghui Chen,Zesen Cheng,Lianghao Deng,Wei Ding,Chang Gao,Chunjiang Ge,Wenbin Ge,Zhifang Guo,Qidong Huang,Jie Huang,Fei Huang,Binyuan Hui,Shutong Jiang,Zhaohai Li,Mingsheng Li,Mei Li,Kaixin Li,Zicheng Lin,Junyang Lin,Xuejing Liu,Jiawei Liu,Chenglong Liu,Yang Liu,Dayiheng Liu,Shixuan Liu,Dunjie Lu,Ruilin Luo,Chenxu Lv,Rui Men,Lingchen Meng,Xuancheng Ren,Xingzhang Ren,Sibo Song,Yuchong Sun,Jun Tang,Jianhong Tu,Jianqiang Wan,Peng Wang,Pengfei Wang,Qiuyue Wang,Yuxuan Wang,Tianbao Xie,Yiheng Xu,Haiyang Xu,Jin Xu,Zhibo Yang,Mingkun Yang,Jianxin Yang,An Yang,Bowen Yu,Fei Zhang,Hang Zhang,Xi Zhang,Bo Zheng,Humen Zhong,Jingren Zhou,Fan Zhou,Jing Zhou,Yuanzhi Zhu,Ke Zhu

Main category: cs.CV

TL;DR: Qwen3-VL是Qwen系列中最强大的视觉语言模型,在多个多模态基准测试中表现优异,支持256K token的交错上下文,包含密集和MoE变体,在文本理解、长上下文理解和多模态推理方面具有核心优势。

  • Motivation: 开发一个能够无缝整合文本、图像和视频,支持长上下文理解,并在纯文本理解、长文档处理和视频分析方面都表现卓越的多模态基础模型,以满足现实工作流程中的图像推理、智能决策和多模态代码智能需求。
  • Method: 采用三种关键架构升级:增强的交错MRoPE用于空间-时间建模;DeepStack集成利用多级ViT特征加强视觉-语言对齐;基于文本的时间对齐从T-RoPE演进到显式文本时间戳对齐,实现更精确的时间定位。
  • Result: 在可比较的token预算和延迟约束下,Qwen3-VL在密集和MoE架构中都实现了卓越性能,在MMMU、MathVista、MathVision等综合评估中表现出领先性能。
  • Conclusion: Qwen3-VL有望成为现实工作流程中图像推理、智能决策和多模态代码智能的基础引擎,为多模态AI应用提供强大支持。

[110] Continual Error Correction on Low-Resource Devices

Kirill Paramonov,Mete Ozay,Aristeidis Mystakidis,Nikolaos Tsalikidis,Dimitrios Sotos,Anastasios Drosou,Dimitrios Tzovaras,Hyunjun Kim,Kiseok Chang,Sangdok Mo,Namwoong Kim,Woojong Yoo,Jijoong Moon,Umberto Michieli

Main category: cs.CV

TL;DR: 提出了一种新颖的系统,允许用户通过少样本学习纠正AI误分类,结合服务器端基础模型训练和设备端原型分类,实现高效错误纠正而无需重新训练模型。

  • Motivation: AI模型在日常设备中的普及凸显了预测错误降低用户体验的问题,现有解决方案主要关注错误检测,但缺乏对资源受限设备的高效纠正机制。
  • Method: 系统包含两个关键组件:(1) 服务器端管道利用知识蒸馏将基础模型的鲁棒特征表示转移到设备兼容架构;(2) 设备端机制通过原型适应实现超高效错误纠正。
  • Result: 在Food-101和Flowers-102数据集上,单样本场景下实现超过50%的错误纠正率,同时保持极低的遗忘率(小于0.02%)和可忽略的计算开销。
  • Conclusion: 通过Android演示应用验证了系统在实际场景中的实用性,为资源受限设备提供了高效的AI错误纠正解决方案。

[111] CaFlow: Enhancing Long-Term Action Quality Assessment with Causal Counterfactual Flow

Ruisheng Han,Kanglei Zhou,Shuang Chen,Amir Atapour-Abarghouei,Hubert P. H. Shum

Main category: cs.CV

TL;DR: CaFlow是一个用于长时动作质量评估的统一框架,结合了反事实去混淆和双向时间条件流,通过因果反事实正则化和双向流模块提升长期时间建模的鲁棒性和连贯性。

  • Motivation: 长时动作质量评估(如花样滑冰、艺术体操)需要建模长时间动态并保持对上下文混淆因素的鲁棒性。现有方法依赖昂贵标注或单向时间建模,容易受到伪相关性和不稳定长期表示的影响。
  • Method: 提出CaFlow框架:1)因果反事实正则化(CCR)模块以自监督方式解耦因果特征和混淆特征,通过反事实干预增强因果鲁棒性;2)BiT-Flow模块通过循环一致性约束建模前向和后向动态,产生更平滑连贯的表示。
  • Result: 在多个长时AQA基准测试上的广泛实验表明,CaFlow实现了最先进的性能。
  • Conclusion: CaFlow通过整合反事实去混淆和双向时间条件流,有效解决了长时动作质量评估中的挑战,为建模长期时间动态提供了更鲁棒和连贯的解决方案。

[112] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

Tianyi Xiong,Yi Ge,Ming Li,Zuolong Zhang,Pranav Kulkarni,Kaishen Wang,Qi He,Zeying Zhu,Chenxi Liu,Ruibo Chen,Tong Zheng,Yanshuo Chen,Xiyao Wang,Renrui Zhang,Wenhu Chen,Heng Huang

Main category: cs.CV

TL;DR: Multi-Crit是一个评估多模态模型作为评判者能力的基准,重点关注模型遵循多样化细粒度评估标准的能力,涵盖开放式生成和可验证推理任务。

  • Motivation: 大型多模态模型越来越多地被用作多模态评估系统的评判者,但它们遵循多样化细粒度评估标准的能力尚未得到充分探索。
  • Method: 通过严格的数据筛选流程构建Multi-Crit基准,收集具有多标准人工标注的挑战性响应对,并引入三个新指标系统评估模型表现。
  • Result: 对25个多模态模型的综合分析显示:专有模型在遵循多样化标准方面仍有困难;开源模型表现更差;基于整体判断信号的批评微调无法泛化到多标准判断。
  • Conclusion: Multi-Crit为构建可靠且可控的多模态AI评估奠定了基础,揭示了当前多模态评判者的局限性。

[113] Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models

Naifu Zhang,Wei Tao,Xi Xiao,Qianpu Sun,Yuxin Zheng,Wentao Mo,Peiqiang Wang,Nan Zhang

Main category: cs.CV

TL;DR: 提出ADVLA框架,通过在视觉编码器投影到文本特征空间的特征上直接应用对抗扰动,以低幅度约束有效干扰下游动作预测,实现聚焦稀疏的扰动效果。

  • Motivation: 现有VLA模型的对抗攻击方法需要昂贵的端到端训练,且通常生成明显的扰动块,需要解决这些限制。
  • Method: 在视觉编码器投影到文本特征空间的特征上直接应用对抗扰动,结合注意力引导使扰动既聚焦又稀疏,引入三种策略增强敏感性、强制稀疏性和集中扰动。
  • Result: 在L∞=4/255约束下,ADVLA结合Top-K掩码修改少于10%的补丁,攻击成功率接近100%,扰动集中在关键区域,整体图像几乎不可察觉,单步迭代仅需约0.06秒。
  • Conclusion: ADVLA在低幅度和局部稀疏条件下有效削弱VLA模型的下游动作预测,避免了传统补丁攻击的高训练成本和明显扰动,对攻击VLA特征空间具有独特有效性和实用价值。

[114] Revolutionizing Glioma Segmentation & Grading Using 3D MRI - Guided Hybrid Deep Learning Models

Pandiyaraju V,Sreya Mynampati,Abishek Karthik,Poovarasan L,D. Saraswathi

Main category: cs.CV

TL;DR: 提出了一种混合深度学习模型,结合U-Net分割和DenseNet-VGG分类网络,用于脑胶质瘤的早期准确诊断,在分割和分类任务上分别达到98%和99%的优异性能。

  • Motivation: 胶质瘤是具有高死亡率的脑肿瘤类型,早期准确诊断对治疗干预至关重要。传统方法在处理高维3D MRI数据时存在局限性,需要更精确的分割和分类方法。
  • Method: 开发混合深度学习框架:使用U-Net进行3D MRI肿瘤分割,结合DenseNet和VGG的混合分类网络,集成多头注意力和空间通道注意力机制,通过预处理步骤(归一化、重采样、数据增强)处理高维数据。
  • Result: 在肿瘤分割方面获得98%的Dice系数,在分类任务上达到99%的准确率,优于传统CNN模型和无注意力方法。注意力机制增强了临床相关特征的优先级和可解释性。
  • Conclusion: 该框架在胶质瘤及时可靠诊断和分级方面具有巨大潜力,有助于改善患者治疗规划,展示了深度学习在医学影像分析中的有效应用。

[115] Seeing without Pixels: Perception from Camera Trajectories

Zihui Xue,Kristen Grauman,Dima Damen,Andrew Zisserman,Tengda Han

Main category: cs.CV

TL;DR: 本文首次系统研究仅通过相机轨迹(而非像素)来感知视频内容的可行性,提出了CamFormer对比学习框架,证明相机轨迹是揭示视频内容的强有力信号。

  • Motivation: 探索是否可以不依赖像素信息,仅通过相机运动轨迹来理解视频内容,验证"如何移动"能否揭示"在做什么"或"观察什么"。
  • Method: 提出对比学习框架训练CamFormer编码器,将相机姿态轨迹投影到联合嵌入空间,与自然语言对齐。
  • Result: 相机轨迹是异常丰富的信息信号,能够有效揭示视频内容,CamFormer嵌入在跨模态对齐、分类和时间分析等任务中表现优异,且对不同的相机姿态估计方法具有鲁棒性。
  • Conclusion: 相机轨迹是一种轻量级、鲁棒且多功能的视频内容感知模态,为视频理解提供了新的视角。

[116] G2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Wenbo Hu,Jingli Lin,Yilin Long,Yunlong Ran,Lihan Jiang,Yifan Wang,Chenming Zhu,Runsen Xu,Tai Wang,Jiangmiao Pang

Main category: cs.CV

TL;DR: G²VLM是一个几何基础的视觉语言模型,通过整合3D视觉几何特征来提升空间智能,包括空间3D重建和空间理解任务。

  • Motivation: 当前视觉语言模型在空间智能方面缺乏鲁棒性,主要原因是缺少从2D图像重建3D空间的视觉几何学习过程。
  • Method: 提出G²VLM模型,利用学习到的3D视觉几何特征直接预测3D属性,并通过上下文学习和交错推理增强空间推理任务。该统一设计可扩展地利用多视角图像和视频数据进行训练。
  • Result: G²VLM在3D重建任务上达到与最先进前馈模型相当的结果,在空间理解和推理任务上取得更好或具有竞争力的表现。
  • Conclusion: 通过将语义强大的VLM与低级3D视觉任务统一,G²VLM可作为社区的强基线,并解锁更多未来应用如3D场景编辑。

[117] Canvas-to-Image: Compositional Image Generation with Multimodal Controls

Yusuf Dalva,Guocheng Gordon Qian,Maya Goldenberg,Tsai-Shien Chen,Kfir Aberman,Sergey Tulyakov,Pinar Yanardag,Kuan-Chieh Jackson Wang

Main category: cs.CV

TL;DR: Canvas-to-Image是一个统一框架,将文本提示、主体参考、空间布局、姿态约束和布局标注等多种控制信号整合到单一画布界面中,通过多任务训练使扩散模型能够联合理解和集成异构控制,在身份保持和控制遵循方面显著优于现有方法。

  • Motivation: 现代扩散模型在生成高质量多样化图像方面表现出色,但在高保真组合和多模态控制方面仍有困难,特别是当用户同时指定文本提示、主体参考、空间安排、姿态约束和布局标注时。
  • Method: 将多样控制信号编码为单一复合画布图像,让模型直接解释以进行集成视觉空间推理;策划多任务数据集并提出多任务画布训练策略,在统一学习范式中优化扩散模型联合理解异构控制。
  • Result: 在具有挑战性的基准测试中,包括多人组合、姿态控制组合、布局约束生成和多控制生成,Canvas-to-Image在身份保持和控制遵循方面显著优于最先进方法。
  • Conclusion: 联合训练使Canvas-to-Image能够跨多个控制模态进行推理,而不是依赖任务特定启发式方法,在推理时能很好地泛化到多控制场景。

q-bio.QM

[118] Automated Histopathologic Assessment of Hirschsprung Disease Using a Multi-Stage Vision Transformer Framework

Youssef Megahed,Saleh Abou-Alwan,Anthony Fuller,Dina El Demellawy,Steven Hawken,Adrian D. C. Chan

Main category: q-bio.QM

TL;DR: 提出基于Vision Transformer的三阶段分割框架,用于诊断Hirschsprung病,通过依次分割肌层、神经丛和神经节细胞来模拟病理学家诊断过程。

  • Motivation: Hirschsprung病的特征是肌间神经丛中缺乏神经节细胞,正确识别这些细胞对诊断至关重要。需要开发自动化方法来减少观察者间差异并支持数字病理工作流程。
  • Method: 使用Vision Transformer (ViT-B/16)构建三阶段分割框架:1)分割肌层 2)划定神经丛 3)在解剖有效区域内识别神经节细胞。采用5折交叉验证、分辨率特异性分块策略和定制后处理确保解剖一致性。
  • Result: 肌层分割Dice系数89.9%,神经丛包含率100%;神经丛分割召回率94.8%,精确率84.2%,神经节包含率99.7%;高确定性神经节细胞精确率62.1%,召回率89.1%;联合确定性得分精确率67.0%。
  • Conclusion: ViT模型能有效利用全局组织上下文并捕获小尺度细胞形态,即使在复杂组织结构中。这种多阶段方法有潜力支持数字病理工作流程,减少观察者间差异,辅助Hirschsprung病评估。

cs.RO

[119] AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios

Chenglizhao Chen,Shaofeng Liang,Runwei Guan,Xiaolou Sun,Haocheng Zhao,Haiyun Jiang,Tao Huang,Henghui Ding,Qing-Long Han

Main category: cs.RO

TL;DR: 提出了AerialMind,首个无人机场景下的大规模Referring Multi-Object Tracking基准,并开发了COALA标注框架和HawkEyeTrack方法来解决该领域的研究空白。

  • Motivation: 当前Referring Multi-Object Tracking研究主要局限于地面场景,无法充分利用无人机的广阔空中视角和机动性优势,而无人机作为具身智能的关键平台,迫切需要能够进行自然语言交互的智能系统。
  • Method: 开发了半自动协作代理标注框架COALA来构建数据集,并提出了HawkEyeTrack方法,通过协同增强视觉-语言表示学习来提升无人机场景的感知能力。
  • Result: 构建了首个大规模无人机场景RMOT基准,验证了数据集的挑战性和所提方法的有效性。
  • Conclusion: AerialMind基准填补了无人机场景RMOT研究的空白,COALA框架显著降低了标注成本,HawkEyeTrack方法在无人机场景中表现出良好的性能。

[120] SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Ziyi Chen,Yingnan Guo,Zedong Chu,Minghua Luo,Yanfen Shen,Mingchao Sun,Junjun Hu,Shichao Xie,Kuan Yang,Pei Shi,Zhining Gu,Lu Liu,Honglin Han,Xiaolong Wu,Mu Xu,Yu Zhang

Main category: cs.RO

TL;DR: SocialNav是一个用于社会感知导航的基础模型,采用分层"大脑-行动"架构,能够理解高级社会规范并生成低级的、符合社会规范的轨迹。

  • Motivation: 在具身导航中遵守社会规范仍然是一个开放的研究挑战,需要既能理解高级社会规范又能生成符合社会规范的轨迹的模型。
  • Method: 构建了SocNav数据集(700万样本),包含认知激活数据集和专家轨迹金字塔;采用多阶段训练流程:通过模仿学习注入导航技能和社会规范理解,然后通过SAFE-GRPO(首个基于流的强化学习框架)细化技能。
  • Result: SocialNav相比最先进方法实现了+38%的成功率和+46%的社会合规率,在导航性能和社会合规性方面都表现出显著提升。
  • Conclusion: SocialNav通过分层架构和大规模数据集训练,在具身导航中有效实现了社会规范遵守,显著提升了导航性能和社会合规性。

[121] Uncertainty Quantification for Visual Object Pose Estimation

Lorenzo Shaikewitz,Charis Georgiou,Luca Carlone

Main category: cs.RO

TL;DR: SLUE方法通过凸优化程序为单目视觉中的物体姿态估计提供统计上严格的椭球不确定性边界,仅需2D语义关键点的高概率噪声边界即可保证以高概率包含真实姿态。

  • Motivation: 在机器人控制与规划中,量化物体姿态估计的不确定性至关重要。虽然姿态估计是研究充分的问题,但在没有严格分布假设的情况下,如何附加统计上严格的不确定性边界尚未得到很好理解。
  • Method: 提出SLUE方法,利用2D语义关键点的像素检测噪声模型,通过S-引理启发的最小体积包围椭球问题松弛,构建凸优化程序生成椭球不确定性边界。还扩展了平方和松弛层次以获得更紧的边界。
  • Result: 在两个姿态估计数据集和真实无人机跟踪场景中的评估显示,SLUE相比现有方法生成显著更小的平移边界和具有竞争力的旋转边界。
  • Conclusion: SLUE提供了一种分布自由的方法,仅需关键点检测噪声的高概率边界,就能为单目姿态估计提供统计上严格的不确定性边界,适用于实际机器人应用。

[122] TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos

Seungjae Lee,Yoonkyo Jung,Inkook Chun,Yao-Chih Lee,Zikui Cai,Hongjia Huang,Aayush Talreja,Tan Dat Dao,Yongyuan Liang,Jia-Bin Huang,Furong Huang

Main category: cs.RO

TL;DR: TraceGen是一个从少量演示中学习机器人任务的世界模型,通过3D轨迹空间表示实现跨平台、跨环境、跨任务的视频学习,在仅5个目标机器人视频下达到80%成功率。

  • Motivation: 解决从少量演示学习新机器人任务的挑战,利用丰富的异质视频数据(人类和不同机器人的视频)来克服平台、相机和环境差异的问题。
  • Method: 提出统一的符号表示——3D轨迹空间,开发TraceGen世界模型预测轨迹空间而非像素空间的未来运动,使用TraceForge数据管道将异质视频转换为一致的3D轨迹。
  • Result: 在123K视频和180万观察-轨迹-语言三元组上预训练,仅用5个目标机器人视频达到80%成功率,推理速度比最先进的视频世界模型快50-600倍。
  • Conclusion: TraceGen展示了从少量演示中有效学习机器人任务的能力,特别是在跨平台适应方面表现出色,无需依赖物体检测器或繁重的像素空间生成。

eess.IV

[123] A Fractional Variational Approach to Spectral Filtering Using the Fourier Transform

Nelson H. T. Lemes,José Claudinei Ferreira,Higor V. M. Ferreira

Main category: eess.IV

TL;DR: 提出了一种基于变分方法和分数阶导数的拉曼光谱去噪方法,在频域中实现噪声抑制并保留关键化学特征。

  • Motivation: 拉曼光谱分析中荧光信号和噪声的干扰会掩盖关键的光谱特征,影响分析准确性。
  • Method: 使用分数阶导数的变分方法,在频域通过傅里叶变换实现,结合香农熵优化正则化参数和导数阶数。
  • Result: 该方法在模拟拉曼数据和图像处理中表现出高效、鲁棒且易于实现的去噪效果。
  • Conclusion: 所提出的策略组合产生了一个高效、鲁棒且易于实现的滤波器,能够有效平衡噪声抑制和特征保留。

[124] Adversarial Multi-Task Learning for Liver Tumor Segmentation, Dynamic Enhancement Regression, and Classification

Xiaojiao Xiao,Qinmin Vivian Hu,Tae Hyun Kim,Guanghui Wang

Main category: eess.IV

TL;DR: 提出MTI-Net多任务交互对抗学习网络,首次在端到端框架中同时实现肝脏肿瘤分割、动态增强回归和分类任务,通过多域信息熵融合和任务交互模块提升性能。

  • Motivation: 解决现有方法无法同时处理肝脏肿瘤分割、动态增强回归和分类任务的问题,缺乏有效的跨任务相关性捕捉机制和动态MRI信息提取方法。
  • Method: 使用多域信息熵融合整合频域和谱域特征,任务交互模块建立分割与回归的高阶一致性,任务驱动判别器捕捉任务间高阶关系,浅层Transformer网络进行位置编码提取动态MRI序列关系。
  • Result: 在238个受试者数据集上,MTI-Net在多个任务上表现出高性能,显示出在肝脏肿瘤临床评估中的强大潜力。
  • Conclusion: MTI-Net通过创新的多任务交互框架有效解决了肝脏肿瘤分析中的关键任务,为临床诊断提供了有力支持。

[125] Deep Parameter Interpolation for Scalar Conditioning

Chicago Y. Park,Michael T. McCann,Cristina Garcia-Cardona,Brendt Wohlberg,Ulugbek S. Kamilov

Main category: eess.IV

TL;DR: 提出深度参数插值(DPI)方法,通过动态插值两个可学习参数集来为神经网络添加标量输入依赖,适用于扩散模型和流匹配模型。

  • Motivation: 现有深度生成模型(如扩散模型和流匹配)需要神经网络同时处理高维向量和标量输入,但传统方法要么将标量编码为额外图像输入,要么在特定网络组件中结合信息,限制了架构选择。
  • Method: 在单个网络中维护两个可学习参数集,根据标量值在训练和采样期间动态插值参数集,实现标量依赖。
  • Result: DPI方法提高了去噪性能,增强了扩散模型和流匹配模型的样本质量,同时计算效率与标准标量条件技术相当。
  • Conclusion: DPI是一种简单、架构无关的神经网络标量依赖添加方法,在保持计算效率的同时提升了模型性能。

cs.HC

[126] STAR: Smartphone-analogous Typing in Augmented Reality

Taejun Kim,Amy Karlson,Aakar Gupta,Tovi Grossman,Jason Wu,Parastoo Abtahi,Christopher Collins,Michael Glueck,Hemant Bhaskar Surale

Main category: cs.HC

TL;DR: STAR是一种AR文本输入技术,通过在手部皮肤上叠加虚拟QWERTY键盘,让用户使用熟悉的双拇指打字方式进行AR文本输入。

  • Motivation: AR应用中的文本输入是一个重要但具有挑战性的任务,需要开发高效易用的AR文本输入方法。
  • Method: 利用用户对智能手机双拇指打字的熟悉度,在手部皮肤上叠加虚拟QWERTY键盘进行拇指打字。
  • Result: 经过30分钟练习,参与者平均打字速度达到21.9 WPM(智能手机打字速度的56%),平均错误率为0.3%。
  • Conclusion: STAR技术有效利用了用户现有的打字技能,在AR环境中实现了可接受的文本输入性能,并分析了与智能手机打字性能差距的原因和改进方向。

cs.CL

[127] Bangla Sign Language Translation: Dataset Creation Challenges, Benchmarking and Prospects

Husne Ara Rubaiyeat,Hasan Mahmud,Md Kamrul Hasan

Main category: cs.CL

TL;DR: 提出了孟加拉手语翻译数据集IsharaKhobor及其两个子集,解决了该语言资源匮乏的问题,并进行了基准测试和词汇规范化处理。

  • Motivation: 孟加拉手语翻译资源严重不足,需要标准句子级数据集来开发面向孟加拉语社区聋人和听力障碍者的AI辅助工具。
  • Method: 创建IsharaKhobor数据集,进行基于地标的原始嵌入和RQE嵌入基准测试,通过词汇限制和规范化处理生成两个子数据集。
  • Result: 开发了公开可用的数据集IsharaKhobor及其子集IsharaKhobor_small和IsharaKhobor_canonical_small,提供了研究基准。
  • Conclusion: 该数据集为孟加拉手语翻译研究提供了重要资源,并通过词汇处理优化了数据质量,推动了该领域的发展。

cs.LG

[128] CHiQPM: Calibrated Hierarchical Interpretable Image Classification

Thomas Norrenbrock,Timo Kaiser,Sovan Biswas,Neslihan Kose,Ramesh Manuvinakurike,Bodo Rosenhahn

Main category: cs.LG

TL;DR: 提出了CHiQPM模型,提供全面的全局和局部可解释性,在保持99%非可解释模型准确率的同时,通过分层解释和可解释的Conformal预测方法实现人类-AI互补。

  • Motivation: 在安全关键领域,全局可解释模型是实现可信AI的有前途方法。除了全局解释,详细的局部解释对于在推理过程中有效支持人类专家至关重要。
  • Method: 提出Calibrated Hierarchical QPM (CHiQPM),通过对比解释大多数类别实现优越的全局可解释性,提供更类似人类推理的分层解释,并可通过遍历提供内置的可解释Conformal预测方法。
  • Result: CHiQPM作为点预测器达到最先进的准确率,保持非可解释模型99%的准确率。其校准集合预测在效率上与其他CP方法竞争,同时提供沿分层解释的连贯集合的可解释预测。
  • Conclusion: CHiQPM在不牺牲整体准确率的情况下显著改进了可解释性,为人类-AI互补铺平了道路。

[129] Probabilistic Wildfire Spread Prediction Using an Autoregressive Conditional Generative Adversarial Network

Taehoon Kang,Taeyong Kim

Main category: cs.LG

TL;DR: 提出基于自回归条件生成对抗网络(CGAN)的概率性野火蔓延预测模型,相比传统物理模拟器和深度学习模型,在预测精度和边界刻画方面表现更优。

  • Motivation: 气候变化加剧了野火频率和严重性,需要快速准确的火灾蔓延预测。物理模拟器计算量大,深度学习模型预测过于平滑,无法捕捉火灾传播的复杂非线性动态。
  • Method: 采用自回归条件生成对抗网络框架,将预测任务建模为自回归问题,学习序列状态转移,确保长期预测稳定性。
  • Result: 实验结果表明,提出的CGAN模型在整体预测精度和火场边界刻画方面优于传统深度学习模型,能够捕捉野火蔓延的强非线性和不确定性。
  • Conclusion: 该自回归CGAN框架提高了野火蔓延预测的准确性和物理可解释性,为时间敏感的响应和疏散规划提供了有前景的基础。

[130] CNN-LSTM Hybrid Architecture for Over-the-Air Automatic Modulation Classification Using SDR

Dinanath Padhya,Krishna Acharya,Bipul Kumar Dahal,Dinesh Baniya Kshatri

Main category: cs.LG

TL;DR: 提出了一种基于CNN-LSTM混合架构的自动调制分类系统,结合软件定义无线电平台,在噪声环境下实现高效调制识别。

  • Motivation: 自动调制分类是未来无线通信系统的核心技术,对于认知无线电、频谱监测和智能通信网络应用至关重要。
  • Method: 采用CNN进行空间特征提取,LSTM捕获时间依赖性,结合RadioML2018和自定义数据集训练,在0-30dB信噪比范围内评估性能。
  • Result: 优化模型达到93.48%准确率、93.53%精确率、93.48%召回率和93.45% F1分数,AUC-ROC分析证实了模型在噪声条件下的判别能力。
  • Conclusion: 实验验证了CNN-LSTM混合架构在自动调制分类中的有效性,展示了在自适应频谱管理和先进认知无线电系统中的潜在应用价值。

[131] BanglaMM-Disaster: A Multimodal Transformer-Based Deep Learning Framework for Multiclass Disaster Classification in Bangla

Ariful Islam,Md Rifat Hossen,Md. Mahmudul Arif,Abdullah Al Noman,Md Arifur Rahman

Main category: cs.LG

TL;DR: 提出了BanglaMM-Disaster,一个基于深度学习的多模态框架,用于孟加拉语社交媒体帖子的灾害分类,结合文本和图像数据,在新建的5037条数据集上达到83.76%准确率。

  • Motivation: 孟加拉国自然灾害频发,需要实时监测和快速响应系统,但目前缺乏针对孟加拉语的多模态灾害分析工具。
  • Method: 构建包含5037条孟加拉语社交媒体帖子的数据集,整合基于transformer的文本编码器(BanglaBERT、mBERT、XLM-RoBERTa)和CNN骨干网络(ResNet50、DenseNet169、MobileNetV2),采用早期融合策略处理文本和图像两种模态。
  • Result: 最佳模型准确率达到83.76%,比纯文本基线高3.84%,比纯图像基线高16.91%,所有类别的误分类率均降低,对模糊样本有明显改进。
  • Conclusion: 填补了孟加拉语多模态灾害分析的关键空白,证明了在低资源环境下结合多种数据类型对实时灾害响应的益处。

[132] Mechanisms of Non-Monotonic Scaling in Vision Transformers

Anantha Padmanaban Krishna Kumar

Main category: cs.LG

TL;DR: 研究发现Vision Transformers存在Cliff-Plateau-Climb三阶段模式,[CLS]令牌作用被边缘化,信息扩散而非任务性能提升是深层网络主要特征。

  • Motivation: 解决深层Vision Transformers性能不如浅层网络的问题,挑战传统的缩放假设。
  • Method: 通过系统实证分析ViT-S、ViT-B和ViT-L在ImageNet上的表现,使用信息搅乱指数量化信息混合模式。
  • Result: 识别出三阶段模式,发现[CLS]令牌被边缘化,ViT-L的信息-任务权衡比ViT-B晚出现约10层,这些额外层主要增加信息扩散而非提升性能。
  • Conclusion: Transformer架构可能更需要精心校准的深度来执行清晰的阶段转换,而非简单增加参数数量;信息搅乱指数可作为现有模型诊断工具和未来架构设计目标。

cs.AI

[133] Guaranteed Optimal Compositional Explanations for Neurons

Biagio La Rosa,Leilani H. Gilpin

Main category: cs.AI

TL;DR: 本文提出了首个计算保证最优组合解释的框架,通过分解空间对齐因素、设计启发式估计和开发高效算法,解决了现有基于束搜索的方法无法提供理论最优性保证的问题。

  • Motivation: 现有基于束搜索的组合解释方法无法提供理论最优性保证,不清楚当前解释与真正最优解的距离,这限制了神经元解释的可靠性。
  • Method: 提出了三部分框架:(i)识别影响空间对齐因素的分解方法;(ii)在搜索任何阶段估计对齐的启发式方法;(iii)首个能在可行时间内计算最优组合解释的算法。
  • Result: 在计算机视觉和卷积神经网络中,10-40%的束搜索解释在涉及重叠概念时是次优的。提出的束搜索变体在匹配或改进运行时间的同时,提供了更大的超参数和计算资源灵活性。
  • Conclusion: 该框架首次实现了保证最优的组合解释计算,揭示了现有方法的局限性,并为更可靠的神经元解释提供了理论基础和实用工具。

[134] ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Qineng Wang,Wenlong Huang,Yu Zhou,Hang Yin,Tianwei Bao,Jianwen Lyu,Weiyu Liu,Ruohan Zhang,Jiajun Wu,Li Fei-Fei,Manling Li

Main category: cs.AI

TL;DR: ENACT是一个评估具身认知的基准,通过视觉问答形式测试模型从自我中心交互中进行世界建模的能力,包含正向世界建模和逆向世界建模两个任务。

  • Motivation: 研究现代视觉语言模型是否表现出具身认知的特征,即智能是否源于传感器运动交互而非被动观察。
  • Method: 将具身认知评估构建为部分可观测马尔可夫决策过程,使用来自机器人仿真的8,972个问答对,测试模型在长时程家庭规模活动中的表现。
  • Result: 前沿视觉语言模型与人类之间存在性能差距,且随着交互时长的增加而扩大。模型在逆向任务上表现更好,并显示出人类中心偏见。
  • Conclusion: 现代视觉语言模型在具身认知能力上仍存在不足,特别是在长时程交互和脱离人类视觉特征的情况下表现下降。

[135] OVOD-Agent: A Markov-Bandit Framework for Proactive Visual Reasoning and Self-Evolving Detection

Chujie Wang,Jianyu Lu,Zhiyuan Luo,Xi Chen,Chu He

Main category: cs.AI

TL;DR: OVOD-Agent将开放词汇目标检测从被动的类别匹配转变为主动的视觉推理和自我进化检测,通过视觉思维链和弱马尔可夫决策过程优化检测性能。

  • Motivation: 现有开放词汇目标检测方法虽然在多模态数据上预训练,但推理仍局限于固定类别名称,导致多模态训练与单模态推理之间存在差距。文本空间仍有待充分探索。
  • Method: 提出OVOD-Agent框架,将文本优化过程扩展为可解释的视觉思维链,使用弱马尔可夫决策过程建模视觉上下文转换,结合Bandit模块生成探索信号,并通过马尔可夫转移矩阵与Bandit轨迹进行自监督奖励模型优化。
  • Result: 在COCO和LVIS数据集上的实验表明,OVOD-Agent在各种OVOD骨干网络上提供了一致的性能提升,特别是在稀有类别上表现突出。
  • Conclusion: OVOD-Agent框架通过主动视觉推理和自我进化检测机制,有效提升了开放词汇目标检测的性能,证明了所提方法的有效性。

cs.SD

[136] Multi-Reward GRPO for Stable and Prosodic Single-Codebook TTS LLMs at Scale

Yicheng Zhong,Peiji Yang,Zhisheng Wang

Main category: cs.SD

TL;DR: 提出了一种多奖励组相对策略优化(GRPO)框架,通过强化学习直接优化单码本TTS大语言模型的标记生成策略,解决了韵律不稳定、说话人漂移和自然度下降的问题。

  • Motivation: 单码本TTS LLMs虽然紧凑且可流式传输,但存在韵律不稳定、说话人漂移和自然度下降的问题,需要改进其标记生成策略。
  • Method: 使用多奖励GRPO框架,整合了长度惩罚、熵正则化奖励和LLM标注的韵律对齐奖励,其中韵律奖励通过上下文学习预测多个合理的停顿结构。
  • Result: 该方法显著提升了韵律稳定性、说话人相似性和整体语音自然度,在流匹配解码器上也能获得一致的额外增益。
  • Conclusion: 提出的强化学习优化方法有效增强了单码本TTS LLMs的内在自回归策略,在不同数据规模和模型规模下都表现出良好的可扩展性。

cs.MM

[137] Prompt-Aware Adaptive Elastic Weight Consolidation for Continual Learning in Medical Vision-Language Models

Ziyuan Gao,Philippe Morel

Main category: cs.MM

TL;DR: 提出PA-EWC方法解决医学AI系统的灾难性遗忘问题,通过提示引导的参数专业化保护关键知识,在多个医学影像数据集上验证有效性

  • Motivation: 医学AI系统在临床部署中面临灾难性遗忘问题,特别是医学视觉语言模型需要保持跨模态对齐能力,同时适应新的成像协议
  • Method: 基于提示的参数分类方法,将模型参数按功能角色分类,结合自适应Fisher信息计算和梯度稳定性分析,开发基于医学术语密度的加权复杂度指标
  • Result: 在5个医学影像数据集上评估,PA-EWC比基线方法减少灾难性遗忘达17.58%,在胸部X光病理定位和息肉分割任务上分别提升4.30%和6.06%
  • Conclusion: PA-EWC通过提示引导的参数专业化有效缓解医学AI系统的灾难性遗忘问题,为临床部署提供可行的持续学习解决方案

[138] AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control

Xinyue Guo,Xiaoran Yang,Lipan Zhang,Jianxuan Yang,Zhao Wang,Jian Luan

Main category: cs.MM

TL;DR: AV-Edit是一个生成式音效编辑框架,通过联合利用视觉、音频和文本语义,实现对视频中现有音频轨道的细粒度编辑。

  • Motivation: 现有的音效编辑方法仅依赖低级信号处理或粗略文本提示,导致灵活性有限且音频质量欠佳。
  • Method: 采用对比音频-视觉掩码自编码器进行多模态预训练,学习对齐的跨模态表示,然后训练多模态扩散变换器,通过基于相关性的特征门控训练策略移除视觉无关声音并生成与视频内容一致的缺失音频元素。
  • Result: 实验表明AV-Edit能基于视觉内容生成高质量音频并进行精确修改,在音效编辑领域达到最先进性能,在音频生成领域表现出强大竞争力。
  • Conclusion: AV-Edit框架通过多模态表示学习实现了高质量的音效编辑,为视频音频编辑提供了新的解决方案。