Skip to content
每日arXiv - 2026年1月16日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Diffusion-Driven Deceptive Patches: Adversarial Manipulation and Forensic Detection in Facial Identity Verification

Shahrzad Sayyafzadeh,Hongmei Chi,Shonda Bernadin

Main category: cs.CV

TL;DR: 提出一个端到端流水线,用于生成、优化和评估对抗性补丁以攻击面部生物识别系统,应用于法医分析和安全测试。

  • Motivation: 开发一个系统化的方法来测试面部生物识别系统的安全性,通过生成对抗性补丁来评估系统在对抗条件下的脆弱性,为法医分析和安全测试提供工具。
  • Method: 使用FGSM生成针对身份分类器的对抗性噪声,采用扩散模型进行反向扩散,结合高斯平滑和自适应亮度校正来增强不可感知性,生成合成对抗性补丁。使用ViT-GPT2模型生成对抗图像的语义描述,并通过感知哈希和分割技术检测分析对抗性样本。
  • Result: 实现了对抗性补丁的生成和优化,能够在保持自然视觉特征的同时有效规避面部识别系统。SSIM达到0.95,表明对抗性补丁具有高保真度。系统能够评估身份分类、图像描述和面部验证/表情识别在对抗条件下的变化。
  • Conclusion: 该流水线为面部生物识别系统的安全评估提供了有效的端到端解决方案,能够生成高质量的对抗性补丁并分析其影响,对法医分析和安全测试具有重要应用价值。

[2] LCF3D: A Robust and Real-Time Late-Cascade Fusion Framework for 3D Object Detection in Autonomous Driving

Carlo Sgaravatti,Riccardo Pieroni,Matteo Corno,Sergio M. Savaresi,Luca Magri,Giacomo Boracchi

Main category: cs.CV

TL;DR: LCF3D是一个用于自动驾驶3D目标检测的多模态融合框架,通过结合RGB图像2D检测和LiDAR点云3D检测,提升检测性能并增强领域泛化能力。

  • Motivation: 自动驾驶中准确检测行人、自行车等3D目标至关重要。虽然RGB相机和LiDAR传感器互补,但有效融合这两种数据源进行3D目标检测仍具挑战性。现有方法在融合多模态数据方面存在不足,需要更好的解决方案。
  • Method: 提出LCF3D融合框架,采用两种关键原理:1)后期融合:通过匹配LiDAR 3D检测与RGB 2D检测,过滤掉未匹配的LiDAR误报;2)级联融合:针对未匹配的RGB检测生成新的3D视锥体提案,恢复LiDAR漏检的目标。
  • Result: 在KITTI和nuScenes数据集上,LCF3D相比纯LiDAR方法取得显著改进,特别是在行人、自行车等挑战性类别上。框架展现出良好的领域泛化能力,能处理训练和测试域间不同的传感器配置。
  • Conclusion: LCF3D通过创新的多模态融合策略有效提升了3D目标检测性能,特别适用于自动驾驶场景中的挑战性目标类别,并具备良好的跨域适应能力。

[3] Explainable Deep Learning for Pediatric Pneumonia Detection in Chest X-Ray Images

Adil O. Khadidos,Aziida Nanyonga,Alaa O. Khadidos,Olfat M. Mirza,Mustafa Tahsin Yilmaz

Main category: cs.CV

TL;DR: 比较DenseNet121和EfficientNet-B0两种CNN架构在儿童肺炎X光片自动检测中的性能,EfficientNet-B0表现更优,准确率84.6%,且结合可解释性技术增强临床可信度。

  • Motivation: 肺炎是儿童发病率和死亡率的主要原因,需要准确高效的诊断支持工具。深度学习在医学影像分析中显示出强大潜力,特别是胸部X光解读。
  • Method: 使用5,863张儿童胸部X光片公开数据集,进行归一化、调整大小和数据增强预处理。在相同训练设置下,对预训练的DenseNet121和EfficientNet-B0进行微调。使用准确率、F1分数、MCC和召回率评估性能,并采用Grad-CAM和LIME进行模型可解释性分析。
  • Result: EfficientNet-B0表现优于DenseNet121:准确率84.6% vs 79.7%,F1分数0.8899 vs 0.8597,MCC 0.6849 vs 0.5852。两种模型召回率均超过0.99,对肺炎检测具有高敏感性。可解释性可视化显示模型聚焦于临床相关肺区域。
  • Conclusion: EfficientNet-B0相比DenseNet121提供更平衡且计算高效的性能,适合临床部署。可解释性技术的整合增强了AI辅助儿童肺炎诊断的透明度和可信度。

[4] NanoSD: Edge Efficient Foundation Model for Real Time Image Restoration

Subhajit Sanyal,Srinivas Soumitri Miriyala,Akshay Janardan Bankar,Sravanth Kodavanti,Harshit,Abhishek Ameta,Shreyas Pandith,Amit Satish Unde

Main category: cs.CV

TL;DR: NanoSD是一个从Stable Diffusion 1.5蒸馏得到的轻量级扩散模型家族,通过全流程协同设计在保持生成先验的同时实现移动设备上的实时推理,适用于多种图像恢复任务。

  • Motivation: 现有轻量级扩散模型主要压缩去噪U-Net或减少扩散轨迹,这会破坏潜在流形结构并限制模型在单一任务之外的泛化能力。同时,完整扩散流程在边缘设备上计算负担过重,需要既能保持生成先验又能高效部署的解决方案。
  • Method: 通过网络手术、特征级生成蒸馏和结构化架构缩放,对U-Net和VAE编码器-解码器进行全流程协同设计,创建帕累托最优的扩散基础模型家族。该方法保持潜在空间结构,同时实现参数效率(130M-315M参数)和硬件效率(移动NPU上20ms推理时间)。
  • Result: NanoSD在图像超分辨率、去模糊、人脸恢复和单目深度估计等任务上达到最先进性能,在感知质量和实际部署性方面均优于先前轻量级扩散模型。分析显示参数减少并不直接关联硬件效率,而架构平衡、特征路由和潜在空间保持共同决定实际设备延迟。
  • Conclusion: NanoSD建立了适用于边缘设备实时视觉生成和恢复的通用扩散基础模型家族,通过全流程协同设计在保持生成先验的同时实现高效部署,为移动设备上的扩散模型应用提供了实用解决方案。

[5] UniHash: Unifying Pointwise and Pairwise Hashing Paradigms for Seen and Unseen Category Retrieval

Xiaoxu Ma,Runhao Li,Hanwen Liu,Xiangbo Zhang,Zhenyu Weng

Main category: cs.CV

TL;DR: UniHash是一个统一哈希框架,通过双分支结构结合了点对点和成对训练范式的优势,在已知和未知类别图像检索中都取得了优异性能。

  • Motivation: 现有深度哈希方法通常局限于单一训练范式(点对点或成对),其中点对点范式在已知类别上表现优异,而成对范式在未知类别上泛化能力更强。需要一种统一框架来平衡已知和未知类别的检索性能。
  • Method: 提出UniHash双分支框架:1) 基于中心的点对点分支;2) 成对分支。引入新的哈希码学习方法实现分支间的双向知识转移,包括互学习损失对齐哈希表示,以及Split-Merge Mixture of Hash Experts (SM-MoH)模块增强跨分支哈希表示交换。
  • Result: 在CIFAR-10、MSCOCO和ImageNet数据集上的广泛实验表明,UniHash在已知和未知图像检索场景中均实现了最先进的性能。
  • Conclusion: UniHash成功统一了点对点和成对训练范式的优势,通过双分支框架和创新的知识转移机制,在已知和未知类别检索中都取得了平衡且优异的性能,理论分析也验证了其有效性。

[6] ViSIL: Unified Evaluation of Information Loss in Multimodal Video Captioning

Po-han Li,Shenghui Chen,Ufuk Topcu,Sandeep Chinchali

Main category: cs.CV

TL;DR: 提出ViSIL评分框架,用于量化多模态视频摘要的信息损失,解决传统指标无法跨模态评估的问题,并在VQA任务中验证其有效性。

  • Motivation: 多模态视频摘要将密集视频内容压缩为关键帧和自然语言的结构化格式,但传统指标如BLEU或ROUGE无法量化跨模态(文本与关键帧序列)的信息覆盖度。
  • Method: 提出Video Summary Information Loss (ViSIL)评分,这是一个基于信息论的框架,通过视觉语言模型推理来量化视频摘要未捕获的信息损失。
  • Result: ViSIL评分在视频问答任务中与人类和VLM表现呈现统计显著相关性;通过ViSIL进行摘要选择可在信息损失和处理速度间建立帕累托最优边界,比纯文本摘要提升7%的VQA准确率且不增加处理负载。
  • Conclusion: ViSIL作为一个统一的度量标准,能够直接比较不同结构的多模态摘要格式,为视频摘要评估提供了有效的跨模态信息覆盖量化方法。

[7] Breaking the Limits of Open-Weight CLIP: An Optimization Framework for Self-supervised Fine-tuning of CLIP

Anant Mehta,Xiyuan Wei,Xingyu Chen,Tianbao Yang

Main category: cs.CV

TL;DR: TuneCLIP是一个自监督微调框架,能够在现有自监督数据集上提升开源CLIP模型的通用性能,避免性能下降问题。

  • Motivation: 改进CLIP性能通常需要从头训练数十亿样本,成本极高。本文探索能否仅使用现有自监督数据集提升开源CLIP模型在各种下游任务中的性能,而不像监督微调那样只适应单个任务。
  • Method: TuneCLIP包含两个关键组件:(1) 恢复优化统计量的预热阶段,减少冷启动偏差;(2) 微调阶段优化新的对比损失函数,减轻对假负样本对的惩罚。
  • Result: TuneCLIP在不同模型架构和规模上均能一致提升性能。显著提升了SigLIP等领先开源模型,在ImageNet及相关分布外基准上获得高达+2.5%的提升,在竞争激烈的DataComp基准上获得+1.2%提升。
  • Conclusion: TuneCLIP为高效的后预训练适应设定了新的强基线,能够在不从头训练的情况下显著提升开源CLIP模型的通用性能。

[8] VibrantSR: Sub-Meter Canopy Height Models from Sentinel-2 Using Generative Flow Matching

Kiarie Ndegwa,Andreas Gros,Tony Chang,David Diaz,Vincent A. Landau,Nathan E. Rutenbeck,Luke J. Zachmann,Guy Bayes,Scott Conway

Main category: cs.CV

TL;DR: VibrantSR是一个生成式超分辨率框架,使用Sentinel-2卫星图像(10米分辨率)生成0.5米分辨率的树冠高度模型,实现季节性到年度的森林监测。

  • Motivation: 现有基于航空影像的方法受限于采集频率低和不规则的时间安排,无法实现持续的森林监测。需要一种能够利用全球可用的卫星数据、实现定期监测的解决方案。
  • Method: 开发了生成式超分辨率框架,利用Sentinel-2卫星的季节性合成图像,将10米分辨率的图像超分辨率为0.5米分辨率的树冠高度模型。
  • Result: 在美国西部22个EPA生态区域评估中,对于≥2米的树冠高度,VibrantSR的平均绝对误差为4.39米,优于Meta(4.83米)、LANDFIRE(5.96米)和ETH(7.05米)等卫星基准方法。
  • Conclusion: 虽然基于航空影像的VibrantVS(2.71米MAE)精度更高,但VibrantSR能够在不需要昂贵且采集频率低的航空影像的情况下,实现大陆尺度的森林监测和碳核算。

[9] MedVL-SAM2: A unified 3D medical vision-language model for multimodal reasoning and prompt-driven segmentation

Yang Xing,Jiong Wu,Savas Ozdemir,Ying Zhang,Yang Yang,Wei Shao,Kuang Gong

Main category: cs.CV

TL;DR: MedVL-SAM2是一个统一的3D医学多模态模型,同时支持报告生成、视觉问答和多范式分割,通过SAM2-based体积分割模块实现精确的空间推理。

  • Motivation: 当前医学视觉语言模型在图像级文本中心任务上表现良好,但在3D医学VLMs中实现细粒度视觉定位和体积空间推理仍然具有挑战性,特别是需要在单一通用框架中统一这些能力。
  • Method: 提出MedVL-SAM2统一架构,集成图像级推理和像素级感知,采用多阶段训练流程:首先在大规模3D CT图像-文本对上预训练,然后使用综合3D CT分割数据集联合优化语言理解和分割目标。
  • Result: 模型在报告生成、视觉问答和多个3D分割任务上实现了最先进的性能,提供可靠的3D视觉定位、可控的交互式分割和鲁棒的跨模态推理。
  • Conclusion: 研究表明,高级语义推理和精确的3D定位可以在统一的3D医学视觉语言模型中共同实现,为医学多模态分析提供了强大的统一框架。

[10] Transition Matching Distillation for Fast Video Generation

Weili Nie,Julius Berner,Nanye Ma,Chao Liu,Saining Xie,Arash Vahdat

Main category: cs.CV

TL;DR: TMD是一种将视频扩散模型蒸馏为高效少步生成器的新框架,通过匹配多步去噪轨迹与少步概率转移过程,实现生成速度与视觉质量的平衡。

  • Motivation: 大型视频扩散模型虽然能生成高质量视频,但由于多步采样过程效率低下,难以应用于实时交互应用,需要一种高效的蒸馏方法。
  • Method: 将预训练扩散模型分解为主干网络(提取语义特征)和流头(执行流更新),通过分布匹配蒸馏将多步去噪轨迹匹配到少步概率转移过程。
  • Result: 在Wan2.1 1.3B和14B文本到视频模型上的实验表明,TMD在可比推理成本下,在视觉保真度和提示遵循方面优于现有蒸馏模型。
  • Conclusion: TMD提供了一种灵活且强大的生成速度与视觉质量权衡方案,为实时交互视频生成应用提供了可行的解决方案。

[11] OT-Drive: Out-of-Distribution Off-Road Traversable Area Segmentation via Optimal Transport

Zhihua Zhao,Guoqiang Li,Chen Min,Kangping Lu

Main category: cs.CV

TL;DR: OT-Drive:基于最优传输的多模态融合框架,通过场景锚点生成器和OT融合模块,提升自动驾驶在分布外场景下的可通行区域分割性能。

  • Motivation: 现有数据驱动方法在分布外(OOD)场景下分割性能下降,影响下游驾驶任务。需要提升自动驾驶在非结构化环境中的可通行区域分割鲁棒性。
  • Method: 提出OT-Drive框架:1)场景锚点生成器(SAG)将场景信息分解为天气、时间、道路类型的联合分布,构建可泛化到未见场景的语义锚点;2)基于最优传输的多模态融合模块(OT Fusion),将RGB和表面法线特征传输到语义锚点定义的流形上。
  • Result: 在ORFD OOD场景上达到95.16% mIoU,比先前方法提升6.35%;在跨数据集迁移任务上达到89.79% mIoU,比基线提升13.99%。仅需有限训练数据即可实现强OOD泛化。
  • Conclusion: OT-Drive通过最优传输驱动的多模态融合,显著提升了自动驾驶在分布外场景下的可通行区域分割性能,增强了实际部署的实用性和效率。

[12] The Spatial Blindspot of Vision-Language Models

Nahid Alam,Leema Krishna Murali,Siddhant Bharadwaj,Patrick Liu,Timothy Chung,Drishti Sharma,Akshata A,Kranthi Kiran,Wesley Tam,Bala Krishna S Vegesna

Main category: cs.CV

TL;DR: VLMs缺乏空间关系理解能力,主要原因是CLIP式图像编码器将图像展平为1D序列,丢失了2D结构信息。通过改进图像编码器训练目标和引入2D位置编码,可以提升空间推理能力。

  • Motivation: 当前视觉语言模型虽然发展迅速,但在捕捉空间关系方面存在明显缺陷。CLIP风格的图像编码器训练方法将图像展平为一维补丁序列,丢弃了理解空间关系所需的二维结构信息。这种空间感知能力的缺失是VLM设计中的一个重要维度缺失,也是机器人技术和具身AI等需要空间基础的应用瓶颈。
  • Method: 研究两种改进方法:(1) 使用替代训练目标的图像编码器;(2) 引入二维位置编码。通过这两种架构选择来增强模型的空间感知能力。
  • Result: 实验表明,这些架构改进在多个基准测试中能够带来空间推理能力的提升。
  • Conclusion: 空间感知能力是视觉语言模型设计中被忽视的重要维度,通过改进图像编码器架构和训练方法可以显著提升模型的空间推理性能,这对于需要空间基础的应用至关重要。

[13] DR2Seg: Decomposed Two-Stage Rollouts for Efficient Reasoning Segmentation in Multimodal Large Language Models

Yulin He,Wei Chen,Zhikang Jian,Tianhang Guo,Wenjuan Zhou,Minglong Li

Main category: cs.CV

TL;DR: DR²Seg:一种自奖励框架,通过两阶段推理策略解决推理分割中的过度思考问题,提升推理效率和分割精度

  • Motivation: 现有推理分割方法在多模态大语言模型中存在过度思考问题,生成冗长的推理链干扰目标定位,需要提高推理效率和分割准确性
  • Method: 提出自奖励框架DR²Seg,采用两阶段策略:第一阶段生成明确描述目标对象的自包含描述;第二阶段用该描述替换原始复杂查询验证自包含性,并引入两种自奖励机制强化目标导向推理、抑制冗余思考
  • Result: 在不同规模和分割模型的多模态大语言模型上进行广泛实验,DR²Seg能一致提升推理效率和整体分割性能
  • Conclusion: DR²Seg框架有效解决了推理分割中的过度思考问题,无需额外监督就能同时提升推理效率和分割准确性

[14] DW-DGAT: Dynamically Weighted Dual Graph Attention Network for Neurodegenerative Disease Diagnosis

Chengjia Liang,Zhenjiong Wang,Chao Chen,Ruizhi Zhang,Songxi Liang,Hai Xie,Haijun Lei,Zhongwei Huang

Main category: cs.CV

TL;DR: 提出DW-DGAT网络,通过动态加权双图注意力机制融合多模态数据,解决帕金森和阿尔茨海默病早期诊断中的高维数据、异质性和类别不平衡问题。

  • Motivation: 帕金森病和阿尔茨海默病是两种最常见且无法治愈的神经退行性疾病,早期诊断对延缓疾病进展至关重要。然而,多模态数据的高维度、神经影像和表型数据的异质性以及类别不平衡问题给早期诊断带来了重大挑战。
  • Method: 提出动态加权双图注意力网络(DW-DGAT),包含:1)通用数据融合策略整合三种结构形式的多模态数据;2)基于脑区和样本间关系的双图注意力架构,提取微观和宏观特征;3)类别权重生成机制结合两种稳定有效的损失函数来缓解类别不平衡。
  • Result: 基于PPMI和ADNI数据集的严格实验表明,该方法在帕金森病和阿尔茨海默病早期诊断中达到了最先进的性能。
  • Conclusion: DW-DGAT网络能够有效解决神经退行性疾病早期诊断中的关键挑战,为多模态数据融合和类别不平衡问题提供了创新解决方案,在临床应用中具有重要价值。

[15] VERHallu: Evaluating and Mitigating Event Relation Hallucination in Video Large Language Models

Zefan Zhang,Kehua Zhu,Shijie Jiang,Hongyuan Lu,Shengkai Sun,Tian Bai

Main category: cs.CV

TL;DR: 提出VERHallu基准评估视频大语言模型的事件关系幻觉,涵盖因果、时序、子事件关系,并设计关键帧传播策略缓解该问题。

  • Motivation: 现有视频大语言模型研究主要关注事件、物体、场景的存在性幻觉,而忽视了事件关系幻觉。需要专门评估模型对事件间因果、时序、子事件关系的理解能力。
  • Method: 1) 构建VERHallu基准,包含关系分类、问答、反事实问答三种任务;2) 提出关键帧传播策略,在中间层重新分配帧级注意力以增强多事件理解;3) 使用反直觉视频场景和人工标注的候选答案。
  • Result: 当前最先进的VideoLLMs在密集事件关系推理上表现不佳,过度依赖先验知识而忽视帧级线索。虽然对关键事件有较强的定位能力,但常忽略周围子事件,导致对事件关系理解不完整。KFP策略能有效缓解事件关系幻觉且不影响推理速度。
  • Conclusion: 事件关系幻觉是VideoLLMs的重要问题,VERHallu基准为评估该问题提供了全面框架。提出的KFP策略通过重新分配帧级注意力,有效提升了模型对多事件关系的理解能力,为解决事件关系幻觉提供了实用方案。

[16] Disentangled Concept Representation for Text-to-image Person Re-identification

Giyeol Kim,Chanho Eom

Main category: cs.CV

TL;DR: 提出DiCo框架,通过解耦概念表示实现文本到图像行人重识别,使用槽位表示和概念块实现层次化解耦跨模态对齐。

  • Motivation: 文本到图像行人重识别面临视觉外观与文本表达之间的模态鸿沟挑战,需要建模细粒度对应关系以区分具有相似属性(如服装颜色、纹理、款式)的个体。
  • Method: 提出DiCo框架,采用共享槽位表示,每个槽位作为跨模态的部分级锚点,进一步分解为多个概念块,实现互补属性(颜色、纹理、形状)的解耦,同时保持图像和文本之间一致的部分级对应。
  • Result: 在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上的实验表明,该框架达到了与最先进方法相竞争的性能,同时通过显式的槽位和块级表示增强了可解释性,实现更细粒度的检索结果。
  • Conclusion: DiCo框架通过层次化解耦概念表示有效解决了文本到图像行人重识别中的模态鸿沟和细粒度对应问题,在保持高性能的同时提高了模型的可解释性。

[17] UEOF: A Benchmark Dataset for Underwater Event-Based Optical Flow

Nick Truong,Pritam P. Karmokar,William J. Beksi

Main category: cs.CV

TL;DR: 首个合成水下事件相机光流基准数据集,通过物理光线追踪生成水下RGBD序列,再转换为事件数据,提供密集光流、深度和相机运动真值。

  • Motivation: 水下成像面临波长相关光衰减、悬浮粒子强散射、浑浊模糊和非均匀照明等挑战,传统相机难以获取真实运动信息。事件相机虽有微秒分辨率和动态范围优势,但缺乏结合真实水下光学与准确光流的数据集限制了其在水下环境的研究进展。
  • Method: 使用基于物理的光线追踪渲染水下RGBD序列,通过现代视频到事件转换管道生成逼真的事件数据流,提供密集的光流、深度和相机运动真值。
  • Result: 建立了首个合成水下事件相机光流基准数据集,并评估了最先进的基于学习和模型的光流预测方法,分析了水下光传输对事件形成和运动估计精度的影响。
  • Conclusion: 该数据集为未来水下事件感知算法的开发和评估建立了新基准,相关代码和数据集已公开。

[18] CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation

Chengzhuo Tong,Mingkun Chang,Shenglong Zhang,Yuran Wang,Cheng Liang,Zhizheng Zhao,Ruichuan An,Bohan Zeng,Yang Shi,Yifan Dai,Ziming Zhao,Guanbin Li,Pengfei Wan,Yuanxing Zhang,Wentao Zhang

Main category: cs.CV

TL;DR: CoF-T2I:将视频模型的链式帧推理能力引入文本到图像生成,通过渐进视觉细化和独立帧编码提升图像质量

  • Motivation: 视频模型已展现链式帧推理能力,能用于视觉任务,但尚未有效应用于文本到图像生成。主要障碍是T2I生成缺乏明确的视觉推理起点和可解释的中间状态
  • Method: 1) 提出CoF-T2I模型,通过渐进视觉细化将CoF推理融入T2I生成,中间帧作为显式推理步骤,最终帧作为输出;2) 构建CoF-Evol-Instruct数据集,包含从语义到美学的生成过程轨迹;3) 采用独立帧编码避免运动伪影
  • Result: CoF-T2I显著超越基础视频模型,在挑战性基准上表现优异:GenEval达到0.86,Imagine-Bench达到7.468
  • Conclusion: 视频模型在推进高质量文本到图像生成方面具有巨大潜力,CoF-T2I通过显式推理过程和独立帧编码实现了这一目标

[19] ReaMIL: Reasoning- and Evidence-Aware Multiple Instance Learning for Whole-Slide Histopathology

Hyun Do Jung,Jungwon Choi,Hwiyoung Kim

Main category: cs.CV

TL;DR: ReaMIL是一种用于全切片组织病理学的多实例学习方法,在强MIL骨干上添加轻量选择头,通过预算充足性目标产生小而紧凑的证据集,在不牺牲基线性能的同时提供可解释性。

  • Motivation: 现有全切片组织病理学分析中,模型通常缺乏可解释性,无法提供决策依据。需要一种方法既能保持高性能,又能产生紧凑、可解释的证据集,帮助理解模型决策过程。
  • Method: 在标准MIL骨干上添加轻量选择头,生成每个切片的软门控。使用预算充足性目标训练:铰链损失强制仅使用保留证据时真实类概率≥τ,同时对选择的切片数量施加稀疏性预算约束。
  • Result: 在TCGA-NSCLC、TCGA-BRCA和PANDA数据集上,ReaMIL匹配或略微提升基线AUC,同时提供定量证据效率诊断。在NSCLC上达到AUC 0.983,平均最小充足K≈8.2个切片(τ=0.90),AUKC≈0.864。
  • Conclusion: ReaMIL在不增加额外监督的情况下,无缝集成到标准MIL训练中,产生小而紧凑的证据集,保持性能的同时提供模型行为的严格评估指标,自然生成切片级覆盖图。

[20] Thinking Like Van Gogh: Structure-Aware Style Transfer via Flow-Guided 3D Gaussian Splatting

Zhendong Wang,Lebin Zhou,Jingchuan Xiao,Rongduo Han,Nam Ling,Cihan Ruan

Main category: cs.CV

TL;DR: 提出基于3D高斯泼溅的流引导几何对流框架,通过从2D绘画提取方向流场并反向传播到3D空间,实现符合后印象派艺术原则的几何抽象化风格迁移。

  • Motivation: 现有3D风格迁移方法大多将几何视为刚性基底进行表面纹理投影,这与后印象派艺术"在本质中寻求夸张"的原则相悖。后印象派强调放大结构形式而抑制摄影细节,需要将几何抽象作为主要表达手段。
  • Method: 1. 从2D绘画提取方向流场并反向传播到3D空间;2. 通过流引导几何对流框架,在无网格设置下将高斯基元调整为流对齐的笔触;3. 采用亮度-结构解耦策略,将几何变形与颜色优化分离;4. 使用VLM-as-a-Judge评估框架进行艺术真实性评估。
  • Result: 实现了能够表达结构性变形的3D风格迁移,使高斯基元形成符合场景拓扑的流对齐笔触,直接由绘画运动而非光度约束驱动,避免了激进结构抽象过程中的伪影。
  • Conclusion: 该方法成功将后印象派艺术原则应用于3D风格迁移,通过几何抽象作为主要表达手段,实现了更真实的艺术风格化,并通过主观艺术评估框架解决了艺术风格化的主观性问题。

[21] Difficulty-guided Sampling: Bridging the Target Gap between Dataset Distillation and Downstream Tasks

Mingzhuo Li,Guang Li,Linfeng Ye,Jiafeng Mao,Takahiro Ogawa,Konstantinos N. Plataniotis,Miki Haseyama

Main category: cs.CV

TL;DR: 提出难度引导采样(DGS)来弥合蒸馏目标与下游任务之间的目标差距,通过根据特定难度分布从现有方法生成的图像池中采样,提升数据集蒸馏性能。

  • Motivation: 现有数据集蒸馏方法通常关注原始数据集提取的特征,忽略了任务特定信息,导致蒸馏目标与下游任务之间存在目标差距。需要将有利于下游训练的特性融入数据蒸馏来弥合这一差距。
  • Method: 提出难度引导采样(DGS)作为插件式后阶段采样模块,根据特定目标难度分布从现有方法生成的图像池中采样最终蒸馏数据集。还提出难度感知引导(DAG)来探索难度在生成过程中的影响。
  • Result: 在多种设置下的广泛实验证明了所提方法的有效性。同时突出了难度概念在多样化下游任务中的更广泛潜力。
  • Conclusion: 通过引入难度概念和DGS方法,成功弥合了数据集蒸馏目标与下游任务之间的差距,提升了数据集蒸馏的性能,并为更广泛的下游任务应用提供了新思路。

[22] V-Zero: Self-Improving Multimodal Reasoning with Zero Annotation

Han Wang,Yi Yang,Jingyuan Hu,Minfeng Zhu,Wei Chen

Main category: cs.CV

TL;DR: V-Zero是一个无需人工标注的自改进视觉语言模型后训练框架,通过问答者与求解者的协同进化循环实现性能提升

  • Motivation: 当前多模态学习依赖大规模人工标注数据集,成本高且耗时,需要开发无需标注的自改进方法
  • Method: 建立问答者和求解者两个角色的协同进化循环:问答者通过双轨推理奖励合成高质量问题,求解者通过自身响应多数投票获得伪标签优化,使用GRPO进行迭代训练
  • Result: 在Qwen2.5-VL-7B-Instruct上,无需人工标注即可提升视觉数学推理能力+1.7,通用视觉中心任务+2.6
  • Conclusion: V-Zero展示了多模态系统自改进的潜力,为减少对人工标注的依赖提供了有效解决方案

[23] InfoSculpt: Sculpting the Latent Space for Generalized Category Discovery

Wenwen Liao,Hang Ruan,Jianbo Yu,Yuansong Wang,Qingchao Jiang,Xiaofeng Yang

Main category: cs.CV

TL;DR: 提出InfoSculpt框架,从信息瓶颈角度重构广义类别发现任务,通过双条件互信息目标解耦类别定义信号与实例噪声

  • Motivation: 现有广义类别发现方法依赖伪标签或两阶段聚类,缺乏显式机制解耦类别定义信号与实例噪声,限制了在真实开放世界应用中的效果
  • Method: 基于信息瓶颈原则,提出InfoSculpt框架,包含类别级CMI(在标注数据上学习紧凑判别表示)和实例级CMI(在所有数据上压缩增强诱导噪声),协同工作解耦表示空间
  • Result: 在8个基准测试上进行了广泛实验,验证了信息论方法的有效性
  • Conclusion: 通过信息论视角重构GCD问题,InfoSculpt能够系统性地解耦表示空间,在已知和新类别上取得更好性能

[24] FlowAct-R1: Towards Interactive Humanoid Video Generation

Lizhen Wang,Yongming Zhu,Zhipeng Ge,Youwei Zheng,Longhao Zhang,Tianshu Hu,Shiyang Qin,Mingshuang Luo,Jiaxu Zhang,Xin Chen,Yulong Wang,Zerong Zheng,Jianwen Jiang,Chao Liang,Weifeng Chen,Xing Wang,Yuan Zhang,Mingyuan Gao

Main category: cs.CV

TL;DR: FlowAct-R1:基于MMDiT架构的实时交互式人形视频生成框架,支持任意时长流式合成,在480p分辨率下达到25fps,首帧延迟仅1.5秒

  • Motivation: 现有视频合成方法在高保真合成和实时交互需求之间存在权衡,需要一种既能生成高质量人形视频又能满足实时交互要求的解决方案
  • Method: 基于MMDiT架构,采用分块扩散强制策略及其自强制变体,结合高效蒸馏和系统级优化,实现全身体精细控制
  • Result: 在480p分辨率下稳定达到25fps,首帧延迟约1.5秒,表现出卓越的行为生动性和感知真实感,在不同角色风格上具有鲁棒泛化能力
  • Conclusion: FlowAct-R1在实时交互式人形视频生成方面取得了显著进展,平衡了高质量合成与低延迟要求,为交互式视觉代理提供了有效解决方案

[25] MathDoc: Benchmarking Structured Extraction and Active Refusal on Noisy Mathematics Exam Papers

Chenyue Zhou,Jiayi Tuo,Shitong Qin,Wei Dai,Mingxuan Wang,Ziwei Zhao,Duoyang Li,Shiyang Su,Yanxi Lu,Yanbiao Ma

Main category: cs.CV

TL;DR: MathDoc是首个针对真实高中数学试卷文档级信息提取的基准,包含3609个带有真实噪声的数学问题,并评估模型对不可识别输入的主动拒绝能力。

  • Motivation: 现有基准主要关注干净文档或通用布局分析,忽略了数学问题的结构完整性以及模型主动拒绝不完整输入的能力。真实数学试卷存在严重视觉噪声,需要专门基准来评估模型在退化文档条件下的可靠性。
  • Method: 提出MathDoc基准,包含3609个精心策划的带有真实噪声的高中数学问题,并明确包含不可识别样本。设计多维评估框架,涵盖题干准确性、视觉相似性和拒绝能力。
  • Result: 实验表明,虽然最先进的多模态大语言模型(如Qwen3-VL和Gemini-2.5-Pro)在提取性能上表现良好,但它们在拒绝不可识别输入方面持续失败,反而产生自信但无效的输出。
  • Conclusion: 当前多模态大语言模型在退化文档条件下存在关键缺陷,MathDoc可作为评估模型可靠性的基准,促进智能教育中数学问题自动提取技术的发展。

[26] Enhancing Visual In-Context Learning by Multi-Faceted Fusion

Wenwen Liao,Jianbo Yu,Yuansong Wang,Qingchao Jiang,Xiaofeng Yang

Main category: cs.CV

TL;DR: 提出Multi-Combination Collaborative Fusion框架,通过多分支融合多个高质量提示的互补信息,而非传统单提示融合,提升视觉上下文学习性能。

  • Motivation: 现有"retrieve-then-prompt"方法通常选择单一最佳视觉提示,丢弃其他合适候选的宝贵上下文信息。即使融合top-K提示,也只是简单压缩多个丰富信号为一个,限制了模型的推理能力。
  • Method: 提出多组合协作融合框架:1) 生成三个上下文表示分支,每个分支整合不同高质量提示组合的信息;2) 设计MULTI-VQGAN架构,联合解释和利用多源协作信息。
  • Result: 在多种任务(前景分割、单目标检测、图像着色)上的实验表明,该方法具有强大的跨任务泛化能力、有效的上下文融合能力,比现有方法产生更稳健准确的预测。
  • Conclusion: 多组合协作融合方法能够更好地利用多样上下文信息,超越传统的单提示融合方法,为视觉上下文学习提供了更有效的框架。

[27] Beyond Single Prompts: Synergistic Fusion and Arrangement for VICL

Wenwen Liao,Jianbo Yu,Yuansong Wang,Shifu Yan,Xiaofeng Yang

Main category: cs.CV

TL;DR: 提出端到端视觉上下文学习框架,通过自适应融合模块聚合多个提示信息,使用轻量级MLP解耦布局先验,并采用双向微调机制增强模型协作,在多项视觉任务上取得优越性能。

  • Motivation: 现有视觉上下文学习方法存在两个关键问题:1) 只选择最相似提示,丢弃其他高质量提示的互补信息;2) 未能充分利用不同提示排列所隐含的结构化信息。
  • Method: 1) 自适应融合模块聚合多个提示的关键模式和标注信息,形成更精确的上下文提示;2) 引入排列特定的轻量级MLP解耦布局先验,同时最小化对整体模型的影响;3) 双向微调机制交换查询和提示的角色,鼓励模型从融合上下文重建原始提示。
  • Result: 在前景分割、单目标检测和图像着色等任务上的实验表明,该方法取得了优越结果,并展现出强大的跨任务泛化能力。
  • Conclusion: 提出的端到端视觉上下文学习框架通过多提示融合、布局先验解耦和双向微调,有效解决了现有方法的局限性,在多个视觉任务上表现出色。

[28] VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation

Sicheng Yang,Zhaohu Xing,Lei Zhu

Main category: cs.CV

TL;DR: VQ-Seg提出了一种基于向量量化的半监督医学图像分割方法,通过量化扰动模块替代传统的dropout,解决了dropout率难以调优的问题,并在肺癌CT数据集上取得了SOTA性能。

  • Motivation: 现有半监督医学图像分割方法通常使用dropout进行特征扰动,但dropout率是一个敏感的超参数,需要仔细手动调优且难以优化,可能导致次优的正则化效果。
  • Method: 1) 使用向量量化(VQ)离散化特征空间;2) 提出量化扰动模块(QPM),通过打乱码书索引的空间位置实现可控扰动;3) 设计双分支架构,量化后特征空间同时用于图像重建和分割任务;4) 引入后量化特征适配器(PFA)整合基础模型的高层语义信息。
  • Result: 在收集的828例CT肺癌数据集和其他公共基准测试上进行了广泛实验,方法超越了现有最先进方法,证明了其有效性。
  • Conclusion: VQ-Seg通过向量量化和可控扰动机制,有效解决了传统dropout方法的局限性,为半监督医学图像分割提供了更稳定和有效的正则化策略。

[29] LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

Linquan Wu,Tianxiang Jiang,Yifei Dong,Haoyu Yang,Fengji Zhang,Shichaang Meng,Ai Xuan,Linqi Song,Jacky Keung

Main category: cs.CV

TL;DR: LaViT通过对齐潜在视觉思维而非静态嵌入,解决多模态推理中的感知差距问题,显著提升视觉基础能力

  • Motivation: 当前多模态潜在推理依赖外部监督,忽略了内在视觉注意力动态。学生模型经常模仿教师的文本输出,但关注完全不同的视觉区域,实际上依赖语言先验而非基础感知,存在感知差距问题。
  • Method: 提出LaViT框架,通过对齐潜在视觉思维而非静态嵌入。强制学生自回归地重构教师的视觉语义和注意力轨迹,然后才生成文本。采用课程感知门控机制防止捷径学习。
  • Result: LaViT显著增强视觉基础能力,在复杂推理任务上获得高达+16.9%的提升。紧凑的3B模型能够超越更大的开源变体和GPT-4o等专有模型。
  • Conclusion: 通过对齐潜在视觉思维而非静态嵌入,LaViT有效解决了多模态推理中的感知差距问题,显著提升了模型的视觉基础能力和推理性能。

[30] Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method

Chao Huang,Benfeng Wang,Wei Wang,Jie Wen,Li Shen,Wenqi Ren,Yong Xu,Xiaochun Cao

Main category: cs.CV

TL;DR: 论文提出视频异常推理(VAR)新任务,从描述性理解提升到结构化多阶段推理,并构建包含8,641个视频的大规模数据集,开发Vad-R1-Plus模型,在异常推理能力上超越现有基线。

  • Motivation: 现有MLLM在视频异常检测与理解领域主要局限于异常定位或事后描述,缺乏显式推理过程、风险意识和决策导向解释,需要将视频异常分析从描述性理解提升到结构化多阶段推理。
  • Method: 1) 定义VAR任务,要求模型在回答异常相关问题前进行渐进式推理;2) 构建包含8,641个视频的大规模数据集,采用PerCoAct-CoT结构化标注;3) 提出异常感知组相对策略优化方法增强弱监督下的推理可靠性;4) 开发Vad-R1-Plus端到端MLLM模型,支持自适应分层推理和风险感知决策。
  • Result: 构建了包含8,641个视频、超过50,000个样本的大规模VAR数据集,提出的Vad-R1-Plus模型在VAR任务上超越了开源和专有基线,有效提升了MLLM的异常推理能力。
  • Conclusion: VAR任务将视频异常分析从描述性理解提升到结构化多阶段推理,提出的数据集和模型为视频异常理解提供了系统评估框架,显著提升了MLLM在异常推理方面的能力。

[31] RAG-3DSG: Enhancing 3D Scene Graphs with Re-Shot Guided Retrieval-Augmented Generation

Yue Chang,Rufeng Chen,Zhaofan Zhang,Yi Chen,Sihong Xie

Main category: cs.CV

TL;DR: RAG-3DSG:通过重拍引导的不确定性估计和检索增强生成,提升开放词汇3D场景图生成的对象识别准确性和速度

  • Motivation: 开放词汇3D场景图生成在机器人操作和导航等任务中有重要应用价值,但现有方法存在对象识别准确率低和速度慢的问题,主要受限于视角约束、遮挡和冗余表面密度
  • Method: 1) 通过重拍引导的不确定性估计来减少聚合噪声;2) 基于可靠低不确定性对象实现对象级检索增强生成(RAG);3) 提出动态下采样映射策略,通过自适应粒度加速跨图像对象聚合
  • Result: 在Replica数据集上的实验表明,RAG-3DSG显著提升了3D场景图中节点标注的准确性,同时将映射时间减少到原始版本的三分之一
  • Conclusion: RAG-3DSG通过不确定性估计和检索增强生成有效解决了开放词汇3D场景图生成中的准确性和效率问题,为机器人应用提供了更好的结构化语义表示

[32] From Physical Degradation Models to Task-Aware All-in-One Image Restoration

Hu Gao,Xiaoning Lei,Xichen Xu,Xingjian Wang,Lizhuang Ma

Main category: cs.CV

TL;DR: OPIR提出了一种基于物理退化建模的两阶段全合一图像恢复方法,通过预测任务感知的逆退化算子实现高效恢复,无需额外学习模块,保持系统简洁和实时性。

  • Motivation: 现有全合一图像恢复方法虽然通过引入提示信息或利用大模型取得了不错效果,但增加的模块增加了系统复杂性并阻碍了实时应用。需要一种更高效简洁的方法来实现多任务图像恢复。
  • Method: 采用物理退化建模视角,预测任务感知的逆退化算子。框架包含两阶段:第一阶段预测逆算子产生初始恢复图像和不确定性感知图;第二阶段在不确定性图指导下进一步细化恢复。使用相同的逆算子预测网络,通过任务感知参数适应不同退化任务,并通过加速卷积实现高效恢复。
  • Result: OPIR在实验中表现出优越的全合一恢复性能,同时在任务对齐恢复方面保持高度竞争力,实现了高效的全合一图像恢复。
  • Conclusion: 通过物理退化建模和两阶段恢复框架,OPIR实现了高效、简洁的全合一图像恢复,避免了现有方法的复杂性,在保持性能的同时提升了实时应用潜力。

[33] ELITE: Efficient Gaussian Head Avatar from a Monocular Video via Learned Initialization and TEst-time Generative Adaptation

Kim Youwang,Lee Hyoseok,Subin Park,Gerard Pons-Moll,Tae-Hyun Oh

Main category: cs.CV

TL;DR: ELITE提出了一种从单目视频合成高效高斯头部化身的方法,通过学习的初始化和测试时生成适应,结合3D数据先验和2D生成先验的优势,实现高质量、快速且具有强泛化能力的化身合成。

  • Motivation: 现有方法要么依赖3D数据先验(泛化能力差),要么依赖2D生成先验(计算量大且易产生身份幻觉)。作者发现这两种先验具有互补优势,希望设计一个高效系统来实现高质量、可动画化的化身合成,并具备强大的野外泛化能力。
  • Method: 1. 提出前馈Mesh2Gaussian先验模型(MGPM)快速初始化高斯化身;2. 设计测试时生成适应阶段,使用真实和合成图像作为监督;3. 提出渲染引导的单步扩散增强器,基于高斯化身渲染恢复缺失的视觉细节,避免传统全扩散去噪策略的缓慢和幻觉问题。
  • Result: 实验表明ELITE生成的化身在视觉质量上优于先前工作,即使在挑战性表情下也能保持高质量,同时比2D生成先验方法快60倍。
  • Conclusion: ELITE通过结合3D数据先验和2D生成先验的优势,实现了高效、高质量的高斯头部化身合成,解决了现有方法在泛化能力、计算效率和身份保真度方面的局限性。

[34] Beyond Inpainting: Unleash 3D Understanding for Precise Camera-Controlled Video Generation

Dong-Yu Chen,Yixin Guo,Shuojin Yang,Tai-Jiang Mu,Shi-Min Hu

Main category: cs.CV

TL;DR: DepthDirector:利用深度视频作为相机控制引导的视频重渲染框架,通过双流条件机制实现精确相机轨迹控制,同时保持视频内容一致性

  • Motivation: 现有相机控制方法主要通过对3D表示进行变形来实现,但这种方法未能充分利用视频扩散模型的3D先验知识,容易陷入修复陷阱,导致主体不一致和生成质量下降
  • Method: 提出DepthDirector框架,采用视图-内容双流条件机制,将源视频和目标视角下渲染的变形深度序列同时注入预训练视频生成模型;使用轻量级LoRA适配器进行训练;构建大规模多相机同步数据集MultiCam-WarpData
  • Result: 实验表明DepthDirector在相机可控性和视觉质量方面均优于现有方法,能够精确控制相机轨迹同时保持视频内容一致性
  • Conclusion: DepthDirector通过深度视频引导和双流条件机制,有效解决了视频重渲染中的精确相机控制问题,充分利用了视频扩散模型的3D理解能力

[35] Optimizing Multimodal LLMs for Egocentric Video Understanding: A Solution for the HD-EPIC VQA Challenge

Sicheng Yang,Yukai Huang,Shitong Sun,Weitong Cai,Jiankang Deng,Jifei Song,Zhensong Zhang

Main category: cs.CV

TL;DR: 提出一个集成查询/选项预处理、领域特定微调、时序思维链提示和鲁棒后处理的框架,在HD-EPIC VQA基准上达到41.6%准确率

  • Motivation: 多模态大语言模型在复杂视频问答基准(如HD-EPIC VQA)上表现不佳,主要面临模糊查询/选项、长程时序推理能力差和非标准化输出等问题
  • Method: 1) 查询/选项预处理;2) 领域特定的Qwen2.5-VL微调;3) 新颖的时序思维链提示用于多步推理;4) 鲁棒的后处理机制
  • Result: 在HD-EPIC VQA基准上达到41.6%的准确率,显著提升了复杂视频理解任务的性能
  • Conclusion: 研究表明,在要求苛刻的视频理解任务中,需要采用整体管道优化的方法,而非仅仅依赖单一模型改进

[36] Attend to what I say: Highlighting relevant content on slides

Megha Mariam K M,C. V. Jawahar

Main category: cs.CV

TL;DR: 论文提出了一种自动识别和突出显示幻灯片相关区域的方法,通过分析演讲者叙述内容并与幻灯片中的文本或图形元素匹配,实现听觉与视觉的更好同步。

  • Motivation: 在观看演示时,听众需要同时关注演讲者的叙述和幻灯片内容,但识别幻灯片上的相关区域具有挑战性。当听众专注于幻灯片的某一部分时,演讲者可能已经讲到新的内容,导致视觉和听觉不同步,增加了认知负担,特别是在快节奏或内容密集的演示中。
  • Method: 该方法通过分析演讲者的叙述内容,并将其与幻灯片中的文本或图形元素进行匹配,自动识别并突出显示最相关的幻灯片区域。研究者探索了不同的解决方案,并评估了它们的成功和失败案例。
  • Result: 该方法能够更好地同步听众听到的内容和他们需要关注的视觉元素,减少认知负担,提高对内容丰富的视频(如教育视频和会议演讲)的理解。代码和数据集已公开。
  • Conclusion: 分析多媒体文档已成为理解内容丰富视频的关键需求,该方法通过自动突出显示相关幻灯片区域,改善了演示观看体验,有助于减少认知压力并提高理解效果。

[37] DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

Hengyu Shen,Tiancheng Gu,Bin Qin,Lan Wu,Yuling Wu,Shuo Tan,Zelong Sun,Jun Wang,Nan Wu,Xiang An,Weidong Cai,Ziyong Feng,Kaicheng Yang

Main category: cs.CV

TL;DR: DanQing是一个包含1亿对高质量中文图文对的数据集,通过严格筛选流程构建,基于2024-2025年网络数据,用于提升中文视觉语言预训练性能。

  • Motivation: 中文视觉语言预训练发展滞后,主要原因是缺乏高质量的中文图文数据。现有英文数据集(如COYO-700M、LAION-400M)推动了CLIP、SigLIP等模型的发展,但中文领域缺乏类似的高质量数据集。
  • Method: 开发了全面的高质量中文跨模态数据集构建流程,从Common Crawl收集1亿个图文对,采用更严格的筛选流程确保数据质量,主要基于2024-2025年的网络数据以捕捉语义趋势变化。
  • Result: 通过SigLIP2模型的持续预训练实验表明,DanQing在多种中文下游任务中表现优异,包括零样本分类、跨模态检索和基于LMM的评估,性能优于现有数据集。
  • Conclusion: DanQing填补了中文视觉语言预训练领域高质量数据集的空白,将按照CC-BY 4.0协议开源,促进中文视觉语言预训练研究的进一步发展。

[38] Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models

Peng-Fei Zhang,Zi Huang

Main category: cs.CV

TL;DR: 提出HRA分层优化攻击框架,通过样本级和优化级双重细化,为VLP模型生成通用对抗扰动,解决现有攻击计算成本高、难以扩展的问题。

  • Motivation: 现有VLP模型的对抗攻击大多是样本特定的,在大规模数据集或新场景中会产生巨大的计算开销。需要一种更高效的通用攻击方法来解决这一限制。
  • Method: HRA框架在样本级和优化级双重细化UAPs:1)图像模态:解耦对抗样本为干净图像和扰动,独立处理;引入ScMix增强策略多样化视觉上下文;2)优化路径:利用历史梯度时间层次结构避免局部最优;3)文本模态:结合句内和句间重要性度量识别全局有影响力的词作为通用文本扰动。
  • Result: 在多种下游任务、VLP模型和数据集上的广泛实验表明,所提出的通用多模态攻击方法具有优越性。
  • Conclusion: HRA通过分层优化框架有效生成通用对抗扰动,显著降低了计算开销,为VLP模型的安全评估提供了高效解决方案。

[39] ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding

Xueyun Tian,Wei Li,Bingbing Xu,Heng Dong,Yuanzhuo Wang,Huawei Shen

Main category: cs.CV

TL;DR: ROMA是一个实时全模态助手,通过同步多模态单元处理连续音频-视频流,采用轻量级说话头实现精确触发,在主动监控和被动问答任务上均表现优异。

  • Motivation: 现有全多模态大语言模型在流式音频-视频理解方面存在局限性:要么模态支持不完整,要么缺乏自主主动监控能力,无法实现统一反应式和主动式交互。
  • Method: 1) 将连续输入处理为同步多模态单元,对齐密集音频和离散视频帧;2) 引入轻量级说话头,解耦响应启动和生成,确保精确触发;3) 使用精心策划的流式数据集和两阶段课程学习,逐步优化流式格式适应和主动响应能力。
  • Result: 在12个基准测试中,ROMA在主动任务(警报、叙述)上达到最先进性能,在反应式设置(问答)上具有竞争力,验证了其在统一实时全多模态理解中的鲁棒性。
  • Conclusion: ROMA成功解决了流式音频-视频理解的挑战,实现了统一的反应式和主动式交互,为实时全多模态助手提供了有效解决方案。

[40] SRAW-Attack: Space-Reweighted Adversarial Warping Attack for SAR Target Recognition

Yiming Zhang,Weibo Qin,Yuntian Liu,Feng Wang

Main category: cs.CV

TL;DR: 提出一种针对SAR-ATR系统的空间重加权对抗变形攻击方法(SRAW),通过优化空间变形生成对抗样本,在保持隐蔽性的同时有效降低目标识别性能

  • Motivation: SAR图像具有固有的信息稀疏性,现有的基于深度神经网络的SAR自动目标识别系统存在对抗鲁棒性差、过度依赖背景区域的问题。现有对抗攻击方法往往需要明显的视觉失真才能达到攻击效果,需要一种平衡有效性和隐蔽性的攻击方法
  • Method: 提出空间重加权对抗变形攻击(SRAW),通过优化的空间变形生成对抗样本,在前景和背景区域采用重加权的攻击预算分配策略
  • Result: SRAW显著降低了最先进SAR-ATR模型的性能,在不可感知性和对抗迁移性方面一致优于现有方法
  • Conclusion: 提出的SRAW方法为SAR-ATR系统提供了一种有效且隐蔽的对抗攻击方案,平衡了攻击效果和视觉隐蔽性

[41] Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

Siqi Kou,Jiachun Jin,Zetong Zhou,Ye Ma,Yugang Wang,Quan Chen,Peng Jiang,Xiao Yang,Jun Zhu,Kai Yu,Zhijie Deng

Main category: cs.CV

TL;DR: T2G范式通过让LLM编码器推理并重写用户提示,然后将其作为扩散条件,显著提升了图像生成的事实一致性、语义对齐和视觉真实感。

  • Motivation: 现有T2I扩散模型仅将LLM用作文本编码器,未能利用其内在推理能力来推断文本提示应如何视觉呈现,导致生成过于字面化。
  • Method: 提出think-then-generate范式:1) 通过轻量级监督微调激活LLM编码器的推理重写模式;2) 使用Dual-GRPO联合优化LLM编码器和扩散主干,其中文本编码器通过图像基础奖励强化世界知识推理,扩散主干则生成语义一致且视觉连贯的图像。
  • Result: 在基于推理的图像生成和编辑基准测试中,事实一致性、语义对齐和视觉真实感均有显著提升,WISE得分达0.79,接近GPT-4水平。
  • Conclusion: T2G范式是迈向具有推理、表达和演示能力的下一代统一模型的有希望的一步。

[42] An analytic theory of convolutional neural network inverse problems solvers

Minh Hai Nguyen,Quoc Bao Do,Edouard Pauwels,Pierre Weiss

Main category: cs.CV

TL;DR: 论文通过最小均方误差估计器分析训练好的CNN,推导出具有平移等变性和局部感受野约束的LE-MMSE公式,理论结果与多种网络架构在逆问题上的输出高度匹配。

  • Motivation: 尽管监督CNN在图像逆问题上取得了优异性能,但缺乏理论理解,常被视为黑箱。需要从理论角度分析CNN,特别是结合其平移等变性和局部感受野的归纳偏置。
  • Method: 通过最小均方误差估计器框架分析训练好的神经网络,引入捕捉CNN两个基本归纳偏置的功能约束:平移等变性和有限感受野的局部性,推导出解析、可解释、可处理的LE-MMSE公式。
  • Result: 在多种逆问题(去噪、修复、去卷积)、数据集(FFHQ、CIFAR-10、FashionMNIST)和架构(U-Net、ResNet、PatchMLP)上的实验表明,理论结果与神经网络输出高度匹配(PSNR≥25dB)。
  • Conclusion: LE-MMSE为理解CNN在逆问题中的行为提供了理论框架,揭示了物理感知与物理不可知估计器的差异、训练分布高密度区域的影响以及其他因素(数据集大小、补丁大小等)的作用。

[43] Fine-Grained Human Pose Editing Assessment via Layer-Selective MLLMs

Ningyu Sun,Zhaolin Cai,Zitong Xu,Peihang Chen,Huiyu Duan,Yichao Yan,Xiongkuo Min,Xiaokang Yang

Main category: cs.CV

TL;DR: 提出HPE-Bench基准和基于MLLM的统一框架,用于文本引导人体姿态编辑的评估,解决现有方法在真实性和质量评估分离的问题。

  • Motivation: 文本引导的人体姿态编辑在AIGC应用中越来越重要,但存在结构异常和生成伪影问题。现有评估指标往往将真实性检测与质量评估分离,无法提供姿态特定不一致性的细粒度洞察。
  • Method: 1) 提出HPE-Bench基准,包含来自17个最先进编辑模型的1700个标准化样本,提供真实性标签和多维质量评分;2) 提出基于层选择性多模态大语言模型(MLLM)的统一框架,采用对比LoRA调优和新型层敏感性分析(LSA)机制,识别姿态评估的最佳特征层。
  • Result: 该框架在真实性检测和多维质量回归方面均取得优异性能,有效弥合了取证检测与质量评估之间的差距。
  • Conclusion: 提出的HPE-Bench基准和基于MLLM的统一框架为文本引导人体姿态编辑提供了更全面、细粒度的评估方案,解决了现有方法的局限性。

[44] Towards Efficient Low-rate Image Compression with Frequency-aware Diffusion Prior Refinement

Yichong Xia,Yimin Zhou,Jinpeng Wang,Bin Chen

Main category: cs.CV

TL;DR: DiffCR:通过一致性先验精炼加速扩散图像压缩,实现高效高保真重建,比现有方法快10倍以上

  • Motivation: 现有基于扩散先验的图像压缩方法存在采样过程慢和比特分配次优的问题,主要原因是碎片化的训练范式
  • Method: 提出DiffCR框架:1) 频率感知跳跃估计(FaSE)模块精炼预训练扩散模型的ε预测先验;2) 频率解耦注意力(FDA)在不同时间步对齐压缩潜在表示;3) 轻量一致性估计器实现两步解码,保持扩散采样的语义轨迹
  • Result: 在不更新骨干扩散模型的情况下,相比SOTA扩散压缩基线:节省27.2% BD-rate(LPIPS)和65.1% BD-rate(PSNR),速度提升超过10倍
  • Conclusion: DiffCR通过一致性先验精炼实现了高效高保真的扩散图像压缩,解决了现有方法的速度和比特分配问题

[45] Global Context Compression with Interleaved Vision-Text Transformation

Dian Jiao,Jiaxin Duan,Shuai Zhao,Jiabing Leng,Yiran Zhang,Feng Huang

Main category: cs.CV

TL;DR: VIST2:一种通过视觉编码压缩文本全局上下文的Transformer模型,在预填充和推理阶段都减少token数量,实现4倍压缩比,显著提升长文本生成效率

  • Motivation: 现有视觉语言模型在端到端OCR中的成功表明文本信息可以通过低损失压缩,但之前的局部压缩方法无法在token-by-token推理阶段节省计算或内存成本
  • Method: 提出VIST2 Transformer,将输入文本块与其视觉编码交错排列,仅依赖预上下文中的视觉token来预测下一个文本token分布;通过将文本块渲染为草图图像,采用多阶段训练:从课程调度的光学语言模型预训练开始,再到模态交错指令微调
  • Result: 在4倍压缩比下,VIST2系列模型(0.6B到8B)在长文本写作任务上显著优于基线,平均实现首token生成3倍加速、内存使用减少77%、FLOPS减少74%
  • Conclusion: 全局上下文压缩方法VIST2能有效减少Transformer在预填充和推理阶段的token数量,显著提升长文本生成效率,为文本压缩和高效推理提供了新方向

[46] Handling Missing Modalities in Multimodal Survival Prediction for Non-Small Cell Lung Cancer

Filippo Ruffini,Camillo Maria Caruso,Claudia Tacconi,Lorenzo Nibid,Francesca Miccolis,Marta Lovino,Carlo Greco,Edy Ippolito,Michele Fiore,Alessio Cortellini,Bruno Beomonte Zobel,Giuseppe Perrone,Bruno Vincenzi,Claudio Marrocco,Alessandro Bria,Elisa Ficarra,Sara Ramella,Valerio Guarrasi,Paolo Soda

Main category: cs.CV

TL;DR: 提出一种缺失感知的多模态生存预测框架,整合CT、WSI和组织病理学图像以及临床变量,用于不可切除II-III期NSCLC的生存预测,能处理自然缺失的模态数据。

  • Motivation: NSCLC生存预测需要整合异质临床、影像和组织病理信息,但多模态深度学习面临小队列规模和模态缺失问题,现有方法常被迫进行完整病例过滤或激进插补,限制了临床适用性。
  • Method: 使用基础模型进行模态特定特征提取,采用缺失感知编码策略,实现中间多模态融合,架构设计上对缺失模态具有鲁棒性,能利用所有可用数据而不丢弃患者。
  • Result: 中间融合策略持续优于单模态基线以及早期和晚期融合策略,WSI与临床模态融合表现最强(C-index 73.30),模态重要性分析显示模型能自动下调信息量较少的模态(如CT)的权重。
  • Conclusion: 提出的缺失感知多模态生存框架能有效整合异质数据源处理自然缺失的模态,为NSCLC精准预后提供了临床适用的解决方案,展示了自适应模态加权机制。

[47] Multi-Temporal Frames Projection for Dynamic Processes Fusion in Fluorescence Microscopy

Hassan Eshkiki,Sarah Costa,Mostafa Mohammadpour,Farinaz Tanhaei,Christopher H. George,Fabio Caraffini

Main category: cs.CV

TL;DR: 提出一个计算框架,将多个时间分辨帧融合成单张高质量图像,保留原始视频的生物内容,在心脏细胞数据集上实现44%的平均细胞计数提升

  • Motivation: 荧光显微镜广泛用于活体生物样本分析,但记录结果常受噪声、时间变异性和信号振荡可视化不一致的限制,需要一种方法将多时间帧信息融合成高质量图像
  • Method: 提出独特计算框架,结合来自不同计算机视觉应用领域的可解释技术,将多个时间分辨帧信息整合到单张高质量图像中,保留原始视频的生物内容
  • Result: 在111种配置和包含动态、异质、形态复杂的心脏细胞2D单层数据集上评估,框架能生成保留和增强单个显微镜帧质量和信息的复合图像,相比先前方法实现44%平均细胞计数提升
  • Conclusion: 该框架适用于需要将多时间图像堆栈融合成高质量2D图像的其他成像领域,有助于注释和下游分割任务

[48] Lunar-G2R: Geometry-to-Reflectance Learning for High-Fidelity Lunar BRDF Estimation

Clementine Grethen,Nicolas Menga,Roland Brochard,Geraldine Morin,Simone Gasparini,Jeremy Lebreton,Manuel Sanchez Gestido

Main category: cs.CV

TL;DR: Lunar-G2R:首个从地形几何直接推断空间变化反射率模型的方法,通过U-Net和可微分渲染学习,无需多视角图像或专用硬件,显著提升月球表面渲染的真实性。

  • Motivation: 现有月球渲染流程依赖简化或空间均匀的BRDF模型,参数难以估计且无法捕捉局部反射变化,限制了光度真实感。需要一种能从地形几何直接预测空间变化反射率的方法。
  • Method: 提出Lunar-G2R框架,使用U-Net从月球数字高程模型(DEM)直接预测空间变化的BRDF参数。通过可微分渲染训练,最小化真实轨道图像与基于物理渲染之间的光度差异,无需多视角图像或专用硬件。
  • Result: 在Tycho陨石坑地理保留区域的实验中,相比最先进基线方法,光度误差降低38%,PSNR和SSIM更高,感知相似性更好,能捕捉空间均匀模型无法呈现的精细尺度反射变化。
  • Conclusion: 这是首个直接从地形几何推断空间变化反射率模型的方法,显著提升了月球表面渲染的真实性,为高保真渲染和基于视觉的导航提供了重要工具。

[49] Urban Socio-Semantic Segmentation with Vision-Language Reasoning

Yu Wang,Yi Wang,Rui Dai,Yujie Wang,Kaikui Liu,Xiangxiang Chu,Yansheng Li

Main category: cs.CV

TL;DR: 提出SocioSeg数据集和SocioReasoner框架,通过视觉语言模型推理实现城市社会语义分割,解决传统方法难以处理社会定义类别(如学校、公园)的问题。

  • Motivation: 当前先进的分割模型能够可靠分割物理属性定义的实体(如建筑物、水体),但在处理社会定义类别(如学校、公园)时仍存在困难。城市表面包含丰富的语义实体,分割这些实体对下游应用至关重要。
  • Method: 提出SocioReasoner视觉语言推理框架,模拟人类识别和标注社会语义实体的过程,通过跨模态识别和多阶段推理实现。使用强化学习优化这个不可微分的过程,激发视觉语言模型的推理能力。
  • Result: 实验表明该方法在SocioSeg数据集上优于最先进模型,并展现出强大的零样本泛化能力。
  • Conclusion: 通过视觉语言模型推理实现了城市社会语义分割,提出的SocioSeg数据集和SocioReasoner框架为解决社会定义类别的分割问题提供了有效方案。

[50] mergetune: Continued fine-tuning of vision-language models

Wenqing Wang,Da Li,Xiatian Zhu,Josef Kittler

Main category: cs.CV

TL;DR: 提出MERGETUNE方法,通过继续微调来恢复视觉语言模型微调后丢失的预训练知识,利用损失景观的几何特性合并零样本和微调模型,无需架构修改或大规模数据回放。

  • Motivation: 视觉语言模型(如CLIP)微调常导致灾难性遗忘预训练知识。现有方法主要关注减轻遗忘过程,但遗忘在微调中往往不可避免。需要一种新范式来恢复已微调模型中丢失的预训练知识。
  • Method: 提出继续微调(CFT)范式,开发MERGETUNE方法:基于线性模式连接性(LMC),继续微调可训练参数(如软提示或线性头),寻找一个继续模型,使其具有到零样本和微调模型的两个低损失路径。通过二阶代理近似LMC约束,避免大规模数据回放。
  • Result: MERGETUNE将CoOp的基类-新类泛化调和平均提升+5.6%,不增加参数。首次在DTD和EuroSAT上超越CLIP的跨数据集迁移性能。在鲁棒微调评估中,LMC合并模型超越集成基线,与零样本模型集成时获得进一步增益和SOTA结果。
  • Conclusion: MERGETUNE提供了一种简单、模型无关的继续微调策略,能有效恢复微调后丢失的预训练知识,提升模型泛化能力,且无需架构修改或大规模数据回放,具有实用价值。

[51] SatMap: Revisiting Satellite Maps as Prior for Online HD Map Construction

Kanak Mazumder,Fabian B. Flohr

Main category: cs.CV

TL;DR: SatMap:一种在线矢量高精地图构建方法,通过融合卫星地图与多视角相机观测,直接预测矢量高精地图,显著提升自动驾驶系统的地图构建性能。

  • Motivation: 当前基于车载相机的高精地图构建方法存在深度感知有限和遮挡导致的精度下降问题。需要一种能够克服这些限制的在线地图构建方案。
  • Method: SatMap方法整合卫星地图与多视角相机观测,利用卫星图像提供的鸟瞰视角车道级语义和纹理作为全局先验,有效缓解深度模糊和遮挡问题,直接预测矢量高精地图。
  • Result: 在nuScenes数据集上,SatMap相比纯相机基线提升34.8% mAP,相比相机-LiDAR融合基线提升8.5% mAP。在长距离和恶劣天气条件下也表现出优势。
  • Conclusion: SatMap通过融合卫星地图先验,显著提升了在线高精地图构建的准确性和鲁棒性,为自动驾驶下游预测和规划模块提供了更可靠的地图支持。

[52] BikeActions: An Open Platform and Benchmark for Cyclist-Centric VRU Action Recognition

Max A. Buettner,Kanak Mazumder,Luca Koecher,Mario Finkbeiner,Sebastian Niebler,Fabian B. Flohr

Main category: cs.CV

TL;DR: FUSE-Bike平台与BikeActions数据集:首个从骑行者视角捕捉密集共享空间VRU行为的开源感知平台与多模态数据集

  • Motivation: 当前研究主要关注车辆视角下的行人过街行为,而密集共享空间中的VRU交互行为研究不足。为填补这一空白,需要从骑行者视角获取高保真、近距离数据来改进VRU行为建模。
  • Method: 开发FUSE-Bike开源感知平台(配备2个LiDAR、相机和GNSS),从骑行者视角采集数据。创建BikeActions多模态数据集,包含852个标注样本,涵盖5个动作类别。建立基准测试,评估最先进的图卷积和Transformer模型。
  • Result: 发布了首个从骑行者视角的VRU行为数据集,建立了该任务的性能基准。数据集包含852个标注样本,涵盖5个动作类别。开源了完整数据集、数据管理工具、硬件设计和基准代码。
  • Conclusion: FUSE-Bike平台和BikeActions数据集填补了密集共享空间VRU行为研究的空白,为未来VRU动作理解研究提供了重要资源,有望促进自动驾驶和移动机器人安全性的提升。

[53] SVII-3D: Advancing Roadside Infrastructure Inventory with Decimeter-level 3D Localization and Comprehension from Sparse Street Imagery

Chong Liu,Luxuan Fu,Yang Jia,Zhen Dong,Bisheng Yang

Main category: cs.CV

TL;DR: SVII-3D是一个统一的资产数字化框架,通过融合LoRA微调的开集检测、空间注意力匹配网络、几何引导细化机制和视觉语言模型代理,解决稀疏图像在数字孪生创建中的鲁棒性、定位精度和细粒度状态理解问题。

  • Motivation: 智能城市建设和设施生命周期管理中,自动化创建数字孪生和精确资产清单是关键任务,但使用成本效益高的稀疏图像面临鲁棒性有限、定位不准确和缺乏细粒度状态理解的挑战。
  • Method: 1. 融合LoRA微调的开集检测与空间注意力匹配网络,实现稀疏视图间的鲁棒关联;2. 引入几何引导细化机制解决结构误差,实现分米级3D精确定位;3. 集成视觉语言模型代理,通过多模态提示自动诊断细粒度运行状态。
  • Result: 实验表明,SVII-3D显著提高了识别精度并最小化了定位误差,为高保真基础设施数字化提供了可扩展、成本效益高的解决方案。
  • Conclusion: 该框架有效弥合了稀疏感知与自动化智能维护之间的差距,为基础设施数字化提供了实用的解决方案。

[54] Enhancing the quality of gauge images captured in smoke and haze scenes through deep learning

Oscar H. Ramírez-Agudelo,Akshay N. Shewatkar,Edoardo Milana,Roland C. Aydin,Kai Franke

Main category: cs.CV

TL;DR: 该研究使用深度学习模型FFA-Net和AECR-Net来增强烟雾和雾霾环境下模拟仪表的可读性,通过Unreal Engine生成合成数据集进行训练,取得了良好的去雾效果,为应急响应中的仪表自动读取提供了技术支持。

  • Motivation: 在雾霾和烟雾环境中拍摄的图像能见度降低,这给基础设施监控带来挑战,并阻碍紧急服务在关键情况下的工作。准确解读仪表数据对应急响应人员具有重要价值。
  • Method: 使用两种深度学习架构FFA-Net和AECR-Net来增强受雾霾和烟雾影响的仪表图像可见度。由于缺乏模拟仪表基准数据集,使用Unreal Engine生成了包含超过14,000张图像的合成数据集。采用80%训练、10%验证、10%测试的数据划分。
  • Result: 对于合成雾霾数据集,SSIM和PSNR指标分别达到约0.98和43dB,与最先进结果相当。AECR-Net相比FFA-Net获得更稳健的结果。烟雾数据集的结果较差,但训练模型仍取得有趣成果。增强后的图像可成功进行后续处理以实现仪表自动读取。
  • Conclusion: 深度学习架构可以显著提高烟雾和雾霾场景中模拟仪表图像的质量,增强后的输出图像能够成功进行后续处理,实现仪表的自动自主读取,为应急响应提供有价值工具。

[55] Unleashing the Capabilities of Large Vision-Language Models for Intelligent Perception of Roadside Infrastructure

Luxuan Fu,Chong Liu,Bisheng Yang,Zhen Dong

Main category: cs.CV

TL;DR: 提出一个领域自适应框架,将通用视觉语言模型转化为智能基础设施分析的专业代理,通过数据高效微调和知识增强推理机制,显著提升城市路边设施感知的准确性和可靠性。

  • Motivation: 通用模型难以捕捉城市路边基础设施的细粒度属性和领域规则,而大型视觉语言模型在解释复杂设施状态时存在幻觉问题且不符合工程标准,导致实际应用不可靠。
  • Method: 1) 在Grounding DINO上进行开放词汇微调,实现最小监督下的多样化资产鲁棒定位;2) 在Qwen-VL上进行LoRA自适应,进行深度语义属性推理;3) 引入双模态检索增强生成模块,动态检索权威行业标准和视觉范例以减轻幻觉并确保专业合规。
  • Result: 在全面的城市路边场景新数据集上评估,检测性能达到58.9 mAP,属性识别准确率达到95.5%,展示了智能基础设施监控的稳健解决方案。
  • Conclusion: 该框架成功将通用视觉语言模型转化为智能基础设施分析的专业代理,通过数据高效微调和知识增强推理机制,显著提升了城市路边设施感知的准确性和可靠性,为智慧城市管理提供了有效解决方案。

[56] Inference-time Physics Alignment of Video Generative Models with Latent World Models

Jianhao Yuan,Xiaofeng Zhang,Felix Friedrich,Nicolas Beltran-Velez,Melissa Hall,Reyhane Askari-Hemmat,Xiaochuang Han,Nicolas Ballas,Michal Drozdzal,Adriana Romero-Soriano

Main category: cs.CV

TL;DR: 使用潜在世界模型(VJEPA-2)作为奖励函数,通过推理时对齐方法提升视频生成的物理合理性,在ICCV 2025物理IQ挑战赛中取得第一名。

  • Motivation: 当前最先进的视频生成模型虽然能产生有前景的视觉内容,但经常违反基本物理原理,限制了其实用性。研究发现这种缺陷不仅源于预训练中物理理解的不足,还来自次优的推理策略。
  • Method: 提出WMReward方法,将提升视频生成的物理合理性视为推理时对齐问题。利用潜在世界模型(VJEPA-2)的强物理先验作为奖励函数,搜索和引导多个候选去噪轨迹,通过增加测试时计算来提升生成性能。
  • Result: 该方法在图像条件、多帧条件和文本条件生成设置中显著提升了物理合理性,并通过人类偏好研究验证。在ICCV 2025 Perception Test PhysicsIQ挑战赛中,以62.64%的最终得分获得第一名,比之前的最先进方法提升了7.42%。
  • Conclusion: 这项工作证明了使用潜在世界模型提升视频生成物理合理性的可行性,超越了特定的实现或参数化方式。

[57] DeepUrban: Interaction-Aware Trajectory Prediction and Planning for Automated Driving by Aerial Imagery

Constantin Selzer,Fabian B. Flohr

Main category: cs.CV

TL;DR: DeepUrban是一个新的无人机数据集,专注于密集城市交通场景,旨在提升轨迹预测和规划基准,与nuScenes结合使用可显著提升预测精度。

  • Motivation: 当前自动驾驶系统的预测和规划基准缺乏密集交通场景,这限制了复杂交通交互的理解和建模能力。
  • Method: 与工业伙伴DeepScenario合作开发DeepUrban数据集,通过无人机在约100米高度采集城市交叉口的高分辨率图像,提取3D交通对象,并补充地图和场景信息。
  • Result: 将DeepUrban添加到nuScenes数据集后,车辆预测和规划的准确性显著提升,ADE/FDE指标分别提升44.1%/44.3%。
  • Conclusion: DeepUrban数据集填补了密集城市交通场景的空白,能有效提升自动驾驶系统的预测和规划性能,支持更先进的建模和仿真任务。

[58] Jordan-Segmentable Masks: A Topology-Aware definition for characterizing Binary Image Segmentation

Serena Grazia De Benedictis,Amedeo Altavilla,Nicoletta Del Buono

Main category: cs.CV

TL;DR: 提出基于Jordan曲线定理的数字拓扑分割评估框架,通过Betti数验证分割的结构一致性,替代传统评估指标

  • Motivation: 传统分割评估指标(像素级、区域或边界)难以捕捉分割的结构和拓扑一致性,在医学影像等应用中,小的边界误差可能导致高分数但无法保持对象全局形状或连通性
  • Method: 基于Jordan曲线定理定义"Jordan可分割掩码"概念,利用数字拓扑和同调理论分析分割掩码,提取4-曲线候选并验证其拓扑有效性(Betti数β₀=β₁=1)
  • Result: 建立了数学严谨的无监督标准来评估分割掩码的结构一致性,当掩码补集恰好分裂为两个8-连通分量时,被视为Jordan可分割
  • Conclusion: 该框架为分割评估提供了有价值的替代方案,特别适用于需要保持拓扑正确性的应用场景,结合数字Jordan理论和同调不变量

[59] Adversarial Evasion Attacks on Computer Vision using SHAP Values

Frank Mollard,Marcus Becker,Florian Roehrbein

Main category: cs.CV

TL;DR: 提出一种基于SHAP值的白盒攻击方法,通过量化输入对输出的重要性来生成对抗样本,相比FGSM在梯度隐藏场景下更具鲁棒性。

  • Motivation: 计算机视觉模型容易受到对抗攻击,这些攻击能够降低模型输出置信度或导致错误分类,同时由于人类难以察觉而更具隐蔽性。需要开发更有效的攻击方法来评估模型安全性。
  • Method: 提出基于SHAP值的白盒攻击方法,利用SHAP值在推理阶段量化单个输入对输出的重要性,以此生成对抗样本。与传统的Fast Gradient Sign Method进行对比分析。
  • Result: SHAP攻击在生成错误分类方面比FGSM更具鲁棒性,特别是在梯度隐藏场景下表现更优,能够更有效地欺骗深度学习模型。
  • Conclusion: SHAP值可以有效地用于生成对抗攻击,为评估计算机视觉模型的安全性提供了新方法,特别是在防御梯度隐藏技术时表现出优势。

[60] Action100M: A Large-scale Video Action Dataset

Delong Chen,Tejaswi Kasarla,Yejin Bang,Mustafa Shukor,Willy Chung,Jade Yu,Allen Bolourchi,Theo Moutakanni,Pascale Fung

Main category: cs.CV

TL;DR: Action100M是一个从120万互联网教学视频构建的大规模开放词汇动作数据集,包含约1亿个时间定位片段,通过自动化流程生成结构化标注,用于视频理解和世界建模研究。

  • Motivation: 从视觉观察中推断物理动作是机器智能在物理世界中发展的基础能力,这需要大规模、开放词汇的视频动作数据集来覆盖广泛领域。
  • Method: 使用全自动流程:(1) 基于V-JEPA 2嵌入进行分层时间分割,(2) 生成组织为"标题树"的多级帧和片段标题,(3) 通过GPT-OSS-120B推理模型在多轮自我精炼下聚合证据,输出结构化标注(简要/详细动作、执行者、简要/详细标题)。
  • Result: 在Action100M上训练VL-JEPA显示出持续的数据规模改进效果,并在多种动作识别基准测试中表现出强大的零样本性能。
  • Conclusion: Action100M为视频理解和世界建模的可扩展研究建立了新的基础,展示了大规模开放词汇数据集在动作理解任务中的价值。

[61] RSATalker: Realistic Socially-Aware Talking Head Generation for Multi-Turn Conversation

Peng Chen,Xiaobao Wei,Yi Yang,Naiming Yao,Hui Chen,Feng Tian

Main category: cs.CV

TL;DR: RSATalker:首个基于3D高斯泼溅的社交感知说话头生成框架,支持多轮对话,通过可学习查询机制编码社会关系,实现高真实感渲染

  • Motivation: 现有方法存在局限性:基于网格的3D方法能建模双人对话但缺乏真实纹理,基于大模型的2D方法外观自然但计算成本过高,而3DGS方法虽然高效真实但仅限于单人且忽略社会关系。需要一种既能高效渲染又能捕捉人际动态的解决方案。
  • Method: 1. 首先从语音驱动基于网格的3D面部运动;2. 将3D高斯绑定到网格面片以渲染高保真2D头像视频;3. 提出社交感知模块,通过可学习查询机制将社会关系(血缘/非血缘、平等/不平等)编码为高层嵌入;4. 设计三阶段训练范式,构建带社会关系标注的语音-网格-图像三元组数据集RSATalker。
  • Result: 大量实验表明,RSATalker在真实性和社交感知方面均达到最先进性能。代码和数据集将公开发布。
  • Conclusion: RSATalker是首个利用3DGS实现真实且社交感知的说话头生成框架,支持多轮对话,通过编码社会关系有效捕捉人际动态,为VR社交场景提供了高效且真实的解决方案。

[62] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

Christopher Clark,Jieyu Zhang,Zixian Ma,Jae Sung Park,Mohammadreza Salehi,Rohun Tripathi,Sangho Lee,Zhongzheng Ren,Chris Dongjoo Kim,Yinuo Yang,Vincent Shao,Yue Yang,Weikai Huang,Ziqi Gao,Taira Anderson,Jianrui Zhang,Jitesh Jain,George Stoica,Winson Han,Ali Farhadi,Ranjay Krishna

Main category: cs.CV

TL;DR: Molmo2是一系列开源视频语言模型,在视频理解、计数、字幕生成等任务上达到开源模型最佳性能,并在视频定位(指向和跟踪)方面展现出超越专有模型的新能力。

  • Motivation: 当前最强的视频语言模型多为专有模型,开源模型要么依赖专有模型的合成数据,要么不公开训练数据和配方。开源社区缺乏改进视频(和图像)语言模型的基础设施。许多下游应用需要像素级的定位能力(指向或跟踪),而即使是专有模型也缺乏这种能力。
  • Method: 贡献了7个新的视频数据集和2个多图像数据集,包括详细视频字幕预训练数据集、自由形式视频问答微调数据集、复杂查询对象跟踪数据集和创新视频指向数据集。提出了一种高效的数据打包和消息树编码训练方案,采用视觉令牌的双向注意力机制和新的令牌权重策略。
  • Result: 8B模型在短视频、计数和字幕生成方面优于同类开源模型,在长视频任务上具有竞争力。在视频定位方面,Molmo2显著优于Qwen3-VL等开源模型(视频计数准确率35.5 vs 29.6),在某些任务上甚至超越Gemini 3 Pro等专有模型(视频指向F1分数38.4 vs 20.0,视频跟踪J&F分数56.2 vs 41.1)。
  • Conclusion: Molmo2为开源社区提供了先进的视频语言模型基础,特别是在视频定位能力方面取得了突破性进展,展示了开源模型在关键任务上超越专有模型的潜力。

[63] CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos

Chengfeng Zhao,Jiazhi Shu,Yubo Zhao,Tianyu Huang,Jiahao Lu,Zekai Gu,Chengwei Ren,Zhiyang Dou,Qing Shuai,Yuan Liu

Main category: cs.CV

TL;DR: CoMoVi:通过耦合两个视频扩散模型,在单个去噪循环中同步生成3D人体运动和2D视频的协同生成框架

  • Motivation: 发现3D人体运动生成与2D人体视频生成本质上是耦合的:3D运动为视频提供结构先验保证合理性和一致性,而预训练视频模型为运动提供强大的泛化能力,因此需要耦合它们的生成过程
  • Method: 1) 提出有效的2D人体运动表示以继承预训练VDMs的强大先验;2) 设计双分支扩散模型,通过相互特征交互和3D-2D交叉注意力耦合人体运动和视频生成;3) 构建CoMoVi数据集,包含文本和运动标注的大规模真实世界人体视频
  • Result: 大量实验证明该方法在3D人体运动和视频生成任务中的有效性
  • Conclusion: 通过耦合3D运动和2D视频生成过程,CoMoVi框架能够同步生成高质量的人体运动和视频,充分利用两者的互补优势

[64] CURVE: A Benchmark for Cultural and Multilingual Long Video Reasoning

Darshan Singh,Arsha Nagrani,Kawshik Manikantan,Harman Singh,Dinesh Tewari,Tobias Weyand,Cordelia Schmid,Anelia Angelova,Shachi Dave

Main category: cs.CV

TL;DR: CURVE是一个多文化多语言的视频推理基准,包含18个全球地区的文化视频和人工标注的复杂问题、答案及推理步骤,用于评估模型对视觉文化背景的理解能力。

  • Motivation: 当前视频模型评估存在显著偏见,主要基于西方中心数据和英语主导,缺乏对多元文化和多语言环境的考量,需要更全面的评估基准。
  • Method: 构建CURVE基准,包含高质量人工生成的标注,涵盖18个全球地区的文化视频,提供复杂问题、答案和多步推理步骤,全部使用母语编写。利用推理轨迹构建证据图,提出基于图的迭代策略来识别细粒度推理错误。
  • Result: 当前最先进的视频大语言模型在CURVE上表现显著低于人类水平,主要错误源于对文化元素的视觉感知不足,突显了模型在跨文化理解方面的局限性。
  • Conclusion: CURVE基准揭示了当前视频模型在文化理解和多语言推理方面的严重不足,为开发更具文化感知能力的视频模型提供了重要评估工具。

[65] A continental-scale dataset of ground beetles with high-resolution images and validated morphological trait measurements

S M Rayeed,Mridul Khurana,Alyson East,Isadora E. Fluck,Elizabeth G. Campolongo,Samuel Stevens,Iuliia Zarubiieva,Scott C. Lowe,Michael W. Denslow,Evan D. Donoso,Jiaman Wu,Michelle Ramirez,Benjamin Baiser,Charles V. Stewart,Paula Mabee,Tanya Berger-Wolf,Anuj Karpatne,Hilmar Lapp,Robert P. Guralnick,Graham W. Taylor,Sydne Record

Main category: cs.CV

TL;DR: 该研究通过高分辨率成像数字化了超过13,200个NEON步甲标本,创建了包含数字测量鞘翅长度和宽度的多模态数据集,为AI驱动的自动特征提取和物种识别提供基础。

  • Motivation: 无脊椎动物在全球特征数据库中代表性不足,限制了生态分析。步甲作为重要的生物指示剂,其NEON标本主要作为物理收藏存在,限制了大规模研究访问。
  • Method: 从美国大陆和夏威夷的30个站点收集超过13,200个NEON步甲标本,通过高分辨率成像进行数字化,并数字测量每个标本的鞘翅长度和宽度。
  • Result: 创建了多模态数据集,数字特征提取达到亚毫米精度,验证了与手动测量的一致性,为AI驱动的自动物种识别和特征研究提供可靠基础。
  • Conclusion: 该工作解决了无脊椎动物在特征数据库中的代表性不足问题,支持AI驱动的自动物种识别和基于特征的研究,促进生物多样性监测和保护的发展。

[66] See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection

Amir Mallak,Erfan Aasi,Shiva Sreeram,Tsun-Hsuan Wang,Daniela Rus,Alaa Maalouf

Main category: cs.CV

TL;DR: 提出随机补丁选择(SPS)方法,通过在训练时随机掩码部分补丁特征来减少特征冗余,提升端到端自动驾驶策略的OOD鲁棒性、泛化性和效率。

  • Motivation: 现有基于基础模型补丁对齐特征的端到端自动驾驶策略存在特征冗余问题:由于自注意力机制,每个补丁特征都隐式包含其他补丁的信息,导致特征高度冗余。这种重叠信息使策略容易过拟合虚假相关性,损害OOD鲁棒性。
  • Method: 提出随机补丁选择(SPS):对每一帧图像,随机掩码一部分补丁描述符,不输入策略模型,同时保持剩余补丁的空间布局。这样策略在不同随机但完整的场景视图上训练,学习基于对特定令牌存活不变的特征进行决策。
  • Result: 在所有OOD场景中超越SOTA,平均提升6.2%,闭环仿真中最高提升20.4%,速度提升2.4倍。训练评估9个系统,其中8个超越先前SOTA。学习到的策略无需调优即可迁移到真实物理车辆。
  • Conclusion: SPS通过减少特征冗余和防止过拟合,显著提升了端到端自动驾驶策略的OOD鲁棒性、泛化性和效率,且具有良好的可迁移性。

[67] From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion

Cheng Chen,Yuyu Guo,Pengpeng Zeng,Jingkuan Song,Peng Di,Hang Yu,Lianli Gao

Main category: cs.CV

TL;DR: CLI框架通过动态多对多跨层注入,解决VLM中视觉特征瓶颈问题,显著提升多模态理解性能

  • Motivation: 现有视觉语言模型存在严重的视觉特征瓶颈,仅将视觉编码器输出连接到LLM输入,这种静态架构限制了LLM与层次化视觉知识的全面对齐,无法准确整合局部细节与全局语义进行连贯推理
  • Method: 提出跨层注入(CLI)框架,包含两个参数高效组件:自适应多投影(AMP)模块协调不同视觉层的特征,自适应门控融合(AGF)机制让LLM根据实时解码上下文选择性地注入最相关的视觉信息
  • Result: 在LLaVA-OneVision和LLaVA-1.5中集成CLI,在18个多样化基准测试中展示了显著的性能提升
  • Conclusion: CLI作为一种可扩展范式,通过赋予LLM按需访问完整视觉层次的能力,解锁了更深层次的多模态理解

[68] Alterbute: Editing Intrinsic Attributes of Objects in Images

Tal Reiss,Daniel Winter,Matan Cohen,Alex Rav-Acha,Yael Pritch,Ariel Shamir,Yedid Hoshen

Main category: cs.CV

TL;DR: Alterbute是一种基于扩散模型的图像编辑方法,专注于修改物体的内在属性(颜色、纹理、材质、形状),同时保持物体身份和场景上下文不变。

  • Motivation: 现有方法要么依赖无监督先验但难以保持物体身份,要么使用过于严格的监督限制了内在属性的有意义变化。需要一种既能保持物体身份又能灵活编辑内在属性的方法。
  • Method: 1) 使用宽松的训练目标,允许模型在身份参考图像、目标内在属性文本描述、背景图像和物体掩码的条件下改变内在和外在属性;推理时通过重用原始背景和掩码限制外在变化。2) 引入视觉命名实体(VNEs)作为细粒度视觉身份类别,使用视觉语言模型从大规模公共图像数据集中自动提取VNE标签和内在属性描述。
  • Result: Alterbute在保持身份的物体内在属性编辑任务上优于现有方法。
  • Conclusion: Alterbute通过结合宽松训练目标、推理时约束和视觉命名实体的自动标注,实现了高质量的物体内在属性编辑,在保持身份的同时允许有意义的属性变化。

[69] WildRayZer: Self-supervised Large View Synthesis in Dynamic Environments

Xuweiyi Chen,Wentao Zhou,Zezhou Cheng

Main category: cs.CV

TL;DR: WildRayZer是一个自监督框架,用于动态环境中的新视角合成,通过分析-合成测试分离静态背景和动态物体,在真实世界动态数据集上表现优异。

  • Motivation: 动态环境破坏了静态新视角合成模型依赖的多视角一致性,导致鬼影、虚假几何和不稳定的姿态估计问题。现有方法难以处理相机和物体同时运动的情况。
  • Method: 采用分析-合成测试:静态渲染器解释刚性结构,残差揭示瞬态区域。从残差构建伪运动掩码,蒸馏运动估计器,用于掩码输入token和门控损失梯度,使监督专注于跨视角背景补全。
  • Result: 在动态RealEstate10K数据集上,WildRayZer在瞬态区域去除和全帧新视角合成质量方面,一致优于基于优化的和前馈基线方法,仅需单次前馈推理。
  • Conclusion: WildRayZer通过自监督方式有效处理动态环境中的新视角合成问题,在真实世界动态场景中展现出优越性能,为动态场景理解提供了新思路。

cs.LG

[70] Comparative Evaluation of Deep Learning-Based and WHO-Informed Approaches for Sperm Morphology Assessment

Mohammad Abbadi

Main category: cs.LG

TL;DR: 本研究比较了基于图像的深度学习模型HuSHeM与增强版WHO标准(WHO(+SIRI))在精子形态评估中的表现,发现深度学习模型在判别性能、校准和临床效用方面均优于传统方法。

  • Motivation: 精子形态评估是男性生育力评估的关键但主观性强的环节,受观察者间变异性和资源限制影响。传统方法存在主观性和不一致性问题,需要更客观、可重复的评估工具。
  • Method: 开发了基于高分辨率精子形态图像的深度学习模型HuSHeM,并与增强版WHO标准(结合系统性炎症反应指数SIRI)进行比较。使用独立临床队列进行评估,采用判别性能、校准分析和临床效用分析等方法。
  • Result: HuSHeM模型表现出更高的判别性能(更高的AUC值),在类别不平衡情况下表现更好(更高的精确率-召回率面积值),校准分析显示预测概率与观察结果更一致,决策曲线分析表明在临床相关阈值概率下具有更大的净临床效益。
  • Conclusion: 基于图像的深度学习相比传统规则基础和炎症增强标准具有更好的预测可靠性和临床效用。该框架支持客观、可重复的精子形态评估,可作为生育筛查和转诊流程中的决策支持工具,但不能替代临床判断或实验室评估。

[71] Process-Guided Concept Bottleneck Model

Reza M. Asiyabi,SEOSAW Partnership,Steven Hancock,Casey Ryan

Main category: cs.LG

TL;DR: PG-CBM扩展概念瓶颈模型,通过领域定义的因果机制约束学习,使用生物物理意义的中介概念,在地球观测数据生物量密度估计中减少误差和偏见,同时提高可解释性。

  • Motivation: 标准概念瓶颈模型(CBMs)通常忽略领域特定关系和因果机制,且依赖完整概念标签,在科学领域监督稀疏但过程定义明确的情况下适用性受限。
  • Method: 提出过程引导概念瓶颈模型(PG-CBM),通过生物物理意义的中介概念约束学习遵循领域定义的因果机制,利用多源异构训练数据。
  • Result: 在地球观测数据的地上生物量密度估计案例中,PG-CBM相比多个基准模型减少了误差和偏见,同时产生可解释的中介输出。
  • Conclusion: PG-CBM不仅提高准确性,还增强透明度,能够检测虚假学习,提供科学洞察,是迈向科学应用中更可信AI系统的一步。

eess.IV

[72] Cell Behavior Video Classification Challenge, a benchmark for computer vision methods in time-lapse microscopy

Raffaella Fiamma Cabini,Deborah Barkauskas,Guangyu Chen,Zhi-Qi Cheng,David E Cicchetti,Judith Drazba,Rodrigo Fernandez-Gonzalez,Raymond Hawkins,Yujia Hu,Jyoti Kini,Charles LeWarne,Xufeng Lin,Sai Preethi Nakkina,John W Peterson,Koert Schreurs,Ayushi Singh,Kumaran Bala Kandan Viswanathan,Inge MN Wortel,Sanjian Zhang,Rolf Krause,Santiago Fernandez Gonzalez,Diego Ulisse Pizzagalli

Main category: eess.IV

TL;DR: 该论文组织了细胞行为视频分类挑战赛(CBVCC),评估了35种方法,比较了基于跟踪特征分类、端到端深度学习架构和特征集成三种方法在复杂细胞行为视频分类中的表现。

  • Motivation: 显微视频中复杂细胞行为的分类对于理解生物过程动态至关重要,但仍是计算机视觉的前沿挑战,需要能够有效建模无刚性边界物体的形状和运动、从整个图像序列提取层次时空特征、并处理视野中多个对象的方法。
  • Method: 组织细胞行为视频分类挑战赛(CBVCC),对35种方法进行基准测试,包括:1)基于跟踪特征分类的方法;2)端到端深度学习架构直接从整个视频序列学习时空特征,无需显式细胞跟踪;3)将跟踪特征与图像特征集成的方法。
  • Result: 挑战赛评估了35种不同方法,讨论了参与者取得的结果,并比较了每种方法的潜力和局限性,为促进研究细胞动态的计算机视觉方法发展提供了基础。
  • Conclusion: 该挑战赛为细胞行为视频分类建立了基准,比较了不同方法的优缺点,为未来开发更有效的细胞动态研究计算机视觉方法提供了重要参考。

[73] Multi-Objective Pareto-Front Optimization for Efficient Adaptive VVC Streaming

Angeliki Katsenou,Vignesh V. Menon,Guoda Laurinaviciute,Benjamin Bross,Detlev Marpe

Main category: eess.IV

TL;DR: 提出基于帕累托前沿优化的自适应视频流媒体框架,联合优化视频质量、码率和解码时间,实现内容自适应码率阶梯构建

  • Motivation: 自适应视频流媒体需要在码率、视频质量和解码复杂度之间取得平衡,以实现高效、内容感知和编解码器相关的流媒体传输。现有方法通常采用固定码率阶梯,无法适应不同内容和设备能力。
  • Method: 提出多目标帕累托前沿优化框架,引入两种策略:JRQT-PF(联合码率-质量-时间帕累托前沿)和JQT-PF(联合质量-时间帕累托前沿),在质量单调性约束下构建内容自适应码率阶梯,使用解码时间作为解码能耗的实用代理指标。
  • Result: 在Inter-4K UHD数据集上实验,JQT-PF方法平均节省11.76%码率,解码时间仅增加0.29%;更激进配置可节省27.88%码率但增加复杂度。JRQT-PF策略提供更可控权衡,节省6.38%码率并减少6.17%解码时间。框架优于固定阶梯、基于VMAF/XPSNR的动态分辨率选择等方法。
  • Conclusion: 帕累托前沿优化结合解码时间约束能够实现可持续的高质量流媒体,适应网络和设备能力,为自适应视频流媒体提供了有效的多目标优化解决方案。

cs.MM

[74] EditEmoTalk: Controllable Speech-Driven 3D Facial Animation with Continuous Expression Editing

Diqiong Jiang,Kai Zhu,Dan Song,Jian Chang,Chenglizhao Chen,Zhenyu Wu

Main category: cs.MM

TL;DR: EditEmoTalk:基于连续情感编辑的语音驱动3D面部动画框架,通过边界感知语义嵌入实现平滑情感操控,解决了现有方法依赖离散情感类别的问题。

  • Motivation: 现有语音驱动3D面部动画方法虽然能实现高质量唇部同步,但通常依赖离散情感类别,限制了连续和细粒度的情感控制能力。
  • Method: 1. 边界感知语义嵌入:学习情感间决策边界的法线方向,构建连续表情流形;2. 情感一致性损失:通过映射网络强制生成的运动动态与目标情感嵌入语义对齐。
  • Result: 实验表明EditEmoTalk在保持准确唇部同步的同时,实现了优越的可控性、表现力和泛化能力。
  • Conclusion: EditEmoTalk通过连续情感编辑框架解决了现有方法的局限性,实现了更自然、可控的语音驱动面部动画,代码和预训练模型将开源。

[75] Subjective evaluation of UHD video coded using VVC with LCEVC and ML-VVC

Naeem Ramzan,Muhammad Tufail Khan

Main category: cs.MM

TL;DR: LCEVC作为VVC基础层之上的增强层进行主观质量评估,与VVC上采样和多层VVC进行比较,结果显示在特定比特率下LCEVC增强层能提供更好的感知质量。

  • Motivation: 评估多层视频编码配置中LCEVC作为VVC基础层增强层的性能,比较其与传统VVC上采样和多层VVC编码方法的感知质量差异。
  • Method: 采用MPEG多层视频编码评估标准测试方法,使用LCEVC测试模型8.1版本作为增强层编码器。测试比较HD VVC基础层+LCEVC增强层重建的UHD输出与两个参考案例:上采样的VVC基础层解码和多层VVC。考虑两个工作点(增强层比特率约占总比特率的10%和50%),使用Degradation Category Rating方法由25名参与者对15个SDR和HDR序列进行主观评估。
  • Result: 报告了包含95%置信区间的平均意见分数(MOS),能够在定义的测试范围内比较不同编码方法和工作点的感知质量。结果显示LCEVC增强层在特定比特率配置下相比传统方法有质量提升。
  • Conclusion: LCEVC作为VVC基础层的增强层在多层层视频编码配置中是有效的,在特定比特率分配下能够提供优于传统VVC上采样和多层VVC的感知质量,为多层视频编码提供了新的技术方案。

cs.AI

[76] MHub.ai: A Simple, Standardized, and Reproducible Platform for AI Models in Medical Imaging

Leonard Nürnberg,Dennis Bontempi,Suraj Pai,Curtis Lisle,Steve Pieper,Ron Kikinis,Sil van de Leemput,Rahul Soni,Gowtham Murugesan,Cosmin Ciausu,Miriam Groeneveld,Felix J. Dorfner,Jue Jiang,Aneesh Rangnekar,Harini Veeraraghavan,Joeran S. Bosma,Keno Bressem,Raymond Mak,Andrey Fedorov,Hugo JWL Aerts

Main category: cs.AI

TL;DR: MHub.ai是一个开源容器化平台,通过标准化AI模型访问、提供统一接口和结构化元数据,解决医学影像AI实现多样、文档不一致和可复现性问题。

  • Motivation: 医学影像AI领域存在实现架构多样、文档不一致、可复现性差等问题,限制了研究和临床应用。需要一种标准化平台来简化模型访问和使用。
  • Method: 开发开源容器化平台MHub.ai,将同行评审的AI模型打包为标准容器,支持DICOM等格式直接处理,提供统一应用接口,嵌入结构化元数据,并附带公开参考数据。
  • Result: 平台包含初始的先进分割、预测和特征提取模型,支持社区贡献。通过肺分割模型的比较评估展示了临床实用性,并公开了分割结果、评估指标和交互式仪表板。
  • Conclusion: MHub.ai通过简化模型使用、支持标准化输出和降低临床转化门槛,促进了医学影像AI的可访问性和可复现性,为侧对侧基准测试提供了统一平台。

[77] ChartComplete: A Taxonomy-based Inclusive Chart Dataset

Ahmad Mustapha,Charbel Toumieh,Mariette Awad

Main category: cs.AI

TL;DR: 作者提出了ChartComplete数据集,填补了现有图表理解基准数据集中图表类型有限的空白,覆盖了30种不同图表类型。

  • Motivation: 随着深度学习和计算机视觉技术的发展,图表理解领域进展迅速。多模态大语言模型在图表理解方面表现出色,但现有基准数据集仅限于少量图表类型,无法全面评估模型性能。
  • Method: 基于可视化社区的图表分类学,构建了ChartComplete数据集,包含30种不同图表类型的分类图像集合。数据集本身不包含学习信号,仅提供分类后的图表图像。
  • Result: 提出了ChartComplete数据集,该数据集覆盖了30种图表类型,比现有基准数据集更全面。数据集以原始形式提供给研究社区,供后续研究使用。
  • Conclusion: ChartComplete数据集填补了图表理解基准数据集中图表类型多样性的空白,为更全面评估多模态大语言模型的图表理解能力提供了基础资源。

[78] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

Xingjun Ma,Yixu Wang,Hengyuan Xu,Yutao Wu,Yifan Ding,Yunhan Zhao,Zilong Wang,Jiabin Hua,Ming Wen,Jianan Liu,Ranjie Duan,Yifeng Gao,Yingshui Tan,Yunhao Chen,Hui Xue,Xin Wang,Wei Cheng,Jingjing Chen,Zuxuan Wu,Bo Li,Yu-Gang Jiang

Main category: cs.AI

TL;DR: 该报告对7个前沿AI模型进行综合安全评估,发现安全性能存在显著异质性,GPT-5.2表现最均衡,其他模型在不同评估维度存在明显权衡,所有模型在对抗评估中都表现脆弱。

  • Motivation: 尽管LLMs和MLLMs在推理、感知和生成能力上取得显著进步,但这些进步是否带来相应的安全改进尚不清楚,部分原因是现有评估实践局限于单一模态或威胁模型,需要综合评估来了解前沿模型的实际安全状况。
  • Method: 采用统一协议评估7个前沿模型(GPT-5.2、Gemini 3 Pro等),涵盖语言、视觉语言和图像生成设置,整合基准评估、对抗评估、多语言评估和合规评估四种评估模式。
  • Result: 安全性能呈现显著异质性:GPT-5.2在所有评估中表现均衡且强劲;其他模型在基准安全、对抗对齐、多语言泛化和监管合规之间存在明显权衡;所有模型在对抗评估中都显著退化;文生图模型在受监管视觉风险类别中相对对齐更好,但在对抗性或语义模糊提示下仍脆弱。
  • Conclusion: 前沿模型的安全本质上是多维度的,受模态、语言和评估方案影响,需要标准化安全评估来准确评估现实世界风险,指导负责任的模型开发和部署。

cs.HC

[79] The Algorithmic Gaze: An Audit and Ethnography of the LAION-Aesthetics Predictor Model

Jordan Taylor,William Agnew,Maarten Sap,Sarah E. Fox,Haiyi Zhu

Main category: cs.HC

TL;DR: 该研究审计了广泛用于视觉生成AI模型训练的LAION美学预测器(LAP),发现其存在性别、文化和西方中心主义偏见,强化了艺术史中的帝国主义和男性凝视。

  • Motivation: 当前视觉生成AI模型使用统一的美学评估标准,但美学判断与个人品味和文化价值观密切相关。研究旨在探究这些模型代表了谁的品味,特别是广泛使用的LAION美学预测器(LAP)存在的偏见问题。
  • Method: 1. 审计LAP在三个数据集上的表现:分析LAION-Aesthetics数据集的美学过滤效果;2. 使用LAP评估约33万张艺术图像;3. 对LAP创建过程进行数字民族志研究,分析其训练数据来源和开发背景。
  • Result: 1. LAP在LAION-Aesthetics数据集中不成比例地过滤掉提及男性或LGBTQ+人群的图像,而保留提及女性的图像;2. LAP对西方和日本艺术家的写实风景、城市景观和肖像画评分最高;3. LAP的训练数据主要来自英语国家摄影师和西方AI爱好者,反映了开发者的偏见。
  • Conclusion: LAP的美学评估强化了西方艺术史中的帝国主义和男性凝视,可能导致代表性伤害。研究者呼吁AI开发者放弃单一的美学评估标准,转向更加多元化的评估方法。

cs.MA

[80] Multi-Agent Cooperative Learning for Robust Vision-Language Alignment under OOD Concepts

Philip Xu,Isabel Wagner,Eerke Boiten

Main category: cs.MA

TL;DR: 提出多智能体协同学习框架解决视觉语言模型在处理分布外概念时的跨模态对齐崩溃问题,通过四个核心智能体的结构化消息传递缓解模态不平衡

  • Motivation: 解决视觉语言模型在处理分布外(OOD)概念时出现的跨模态对齐崩溃问题,特别是模态不平衡导致的性能下降
  • Method: 提出多智能体协同学习框架,包含图像、文本、名称和协调四个智能体,通过结构化消息传递、多智能体特征空间名称学习、上下文交换增强的少样本学习算法以及自适应动态平衡机制
  • Result: 在VISTA-Beyond数据集上的实验表明,MACL在少样本和零样本设置下显著提升性能,在不同视觉领域获得1-5%的精度提升
  • Conclusion: 多智能体协同学习框架有效缓解了视觉语言模型中的模态不平衡问题,提升了处理分布外概念的跨模态对齐能力