Skip to content
每日arXiv - 2025年8月26日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Towards High-Precision Depth Sensing via Monocular-Aided iToF and RGB Integration

Yansong Du,Yutong Deng,Yuting Zhou,Feiyu Jiao,Jian Song,Xun Guan

Main category: cs.CV

TL;DR: 提出了一种新颖的iToF-RGB融合框架,通过几何校准和双编码器网络解决iToF深度感知的低分辨率、窄视场和结构失真问题,实现深度超分辨率和视场扩展。

  • Motivation: 解决间接飞行时间(iToF)深度传感固有的空间分辨率低、视场有限以及在复杂场景中出现结构失真的局限性问题。
  • Method: 首先通过精确的几何校准和对齐模块将窄视场iToF深度图重投影到宽视场RGB坐标系,确保模态间像素级对应;然后采用双编码器融合网络联合提取重投影iToF深度和RGB图像的互补特征,在单目深度先验指导下恢复细粒度结构细节并进行深度超分辨率。
  • Result: 在合成和真实数据集上的大量实验表明,该方法在准确性、结构一致性和视觉质量方面显著优于最先进的方法。
  • Conclusion: 通过整合跨模态结构线索和深度一致性约束,该方法实现了增强的深度准确性、改进的边缘锐度和无缝的视场扩展。

[2] CountLoop: Training-Free High-Instance Image Generation via Iterative Agent Guidance

Anindya Mondal,Ayan Banerjee,Sauradip Nag,Josep Lladós,Xiatian Zhu,Anjan Dutta

Main category: cs.CV

TL;DR: CountLoop是一个无需训练的框架,通过迭代结构化反馈为扩散模型提供精确的实例控制,在复杂高密度场景中实现高达98%的计数准确率

  • Motivation: 扩散模型在逼真图像合成方面表现出色,但在生成具有精确对象实例数量的场景时仍不可靠,特别是在复杂和高密度设置中
  • Method: 采用训练免费框架,通过图像生成和多模态代理评估的交替过程,使用语言引导的规划器和评论器评估对象计数、空间布局和属性一致性,并引入实例驱动的注意力掩码和组合生成技术
  • Result: 在COCO Count、T2I CompBench和两个新高实例基准测试中,CountLoop实现了高达98%的计数准确率,同时保持空间保真度和视觉质量,得分0.97,优于基于布局和梯度引导的基线方法
  • Conclusion: CountLoop通过迭代结构化反馈有效解决了扩散模型在精确实例控制方面的局限性,为复杂场景生成提供了可靠的解决方案

[3] Do VLMs Have Bad Eyes? Diagnosing Compositional Failures via Mechanistic Interpretability

Ashwath Vaithinathan Aravindan,Abha Jha,Mihir Kulkarni

Main category: cs.CV

TL;DR: 研究发现CLIP视觉编码器中单个神经元同时表示多个特征(叠加现象),这阻碍了组合特征表示能力,导致视觉语言模型在组合推理和对象绑定方面表现不佳。

  • Motivation: 视觉语言模型在组合泛化和对象绑定方面存在困难,限制了处理新颖对象属性组合的能力,需要探究其根本原因。
  • Method: 使用机制可解释性技术分析CLIP视觉编码器的MLP层,研究神经元特征表示方式。
  • Result: 发现MLP层中的单个神经元存在特征叠加现象,这种表示方式直接损害了组合特征表示能力。
  • Conclusion: 这项研究为揭示视觉语言模型组合失败机制提供了初步探索,相关代码和结果已开源。

[4] MSNav: Zero-Shot Vision-and-Language Navigation with Dynamic Memory and LLM Spatial Reasoning

Chenghao Liu,Zhimu Zhou,Jiachen Zhang,Minghao Zhang,Songfang Huang,Huiling Duan

Main category: cs.CV

TL;DR: MSNav是一个解决视觉语言导航中空间推理、跨模态对齐和内存过载问题的框架,通过集成内存模块、空间模块和决策模块,在R2R和REVERIE数据集上取得了最先进的性能。

  • Motivation: 当前基于大语言模型的端到端视觉语言导航方法存在空间推理能力差、跨模态对齐弱和长时任务内存过载等关键缺陷,需要系统性地解决这些问题。
  • Method: 提出MSNav框架,包含三个协同模块:1)内存模块-动态地图内存,通过选择性节点剪枝处理内存过载;2)空间模块-空间推理和物体关系推断,提升终点识别能力;3)决策模块-基于LLM的路径规划执行稳健动作。还构建了I-O-S数据集并微调Qwen3-4B模型为Qwen-Spatial。
  • Result: 在Room-to-Room和REVERIE数据集上的广泛实验表明,MSNav在成功率和路径长度加权成功率方面取得了显著提升,达到了最先进的性能水平。Qwen-Spatial在物体列表提取任务上超越了领先的商业LLM,在I-O-S测试集上获得了更高的F1和NDCG分数。
  • Conclusion: MSNav通过模块化架构将脆弱的推理转化为稳健的集成智能,有效解决了视觉语言导航中的核心挑战,为复杂环境中的导航任务提供了强有力的解决方案。

[5] Optimizing Hyper parameters in CNN for Soil Classification using PSO and Whale Optimization Algorithm

Yasir Nooruldeen Ibrahim,Fawziya Mahmood Ramo,Mahmood Siddeeq Qadir,Muna Jaffer Al-Shamdeen

Main category: cs.CV

TL;DR: 使用卷积神经网络和群体智能算法(鲸鱼优化和粒子群优化)进行土壤图像分类,通过优化超参数提高分类性能

  • Motivation: 土壤分类对农业、土木工程和自然资源管理至关重要,需要智能方法来提高分类准确性和决策支持
  • Method: 采用卷积神经网络进行土壤类型分类,使用鲸鱼优化算法和粒子群优化算法优化CNN超参数,比较两种优化算法的性能
  • Result: 系统采用Accuracy和F1指标进行测试,获得了高效的分类结果
  • Conclusion: 群体智能算法能有效优化CNN超参数,提高土壤图像分类性能,为土壤质量评估提供实用解决方案

[6] QA-VLM: Providing human-interpretable quality assessment for wire-feed laser additive manufacturing parts with Vision Language Models

Qiaojie Zheng,Jiucai Zhang,Joy Gockel,Michael B. Wakin,Craig Brice,Xiaoli Zhang

Main category: cs.CV

TL;DR: 基于VLM的可解释性质量评估框架QA-VLM,通过注意机制和领域知识提升增材制造质量评估的可信过性

  • Motivation: 解决传统机器学习方法在增材制造质量评估中的黑盒问题,提供可解释的质量判断以增强信任度
  • Method: 构建QA-VLM框架,结合视觉-语言模型的注意机制和推理能力,并涵盖来自同行评审期刊的应用特定知识
  • Result: 在24个单珍样品上评估,QA-VLM框架在解释质量方面显示出比市面现成VLM更高的有效性和一致性
  • Conclusion: 该方法能够实现可信过、可解释的增材制造质量评估,有助于推动在实际应用中的采纳

[7] The Loupe: A Plug-and-Play Attention Module for Amplifying Discriminative Features in Vision Transformers

Naren Sengodan

Main category: cs.CV

TL;DR: 提出了The Loupe,一种轻量级即插即用的注意力模块,可插入预训练Transformer中,通过复合损失函数引导模型关注最具判别性的物体部位,无需部件级标注,在提升精度的同时提供可视化解释。

  • Motivation: 细粒度视觉分类需要识别高度细微的局部视觉线索,在生物多样性监测和医疗诊断等关键应用中至关重要。虽然大规模Vision Transformer取得了先进性能,但其决策过程缺乏可解释性,难以在这些领域获得信任和验证。
  • Method: 设计The Loupe注意力模块,可插入Swin Transformer等预训练骨干网络。使用复合损失函数进行端到端训练,隐式引导模型关注最具判别性的物体部位,无需显式的部件级标注。
  • Result: 在CUB-200-2011数据集上,The Loupe将Swin-Base模型的准确率从85.40%提升至88.06%,显著增益2.66%。定性分析显示注意力图能有效定位语义有意义的特征。
  • Conclusion: 简单的内在注意力机制可作为强大的正则化器,显著提升性能的同时提供清晰的可视化解释,为理解和信任模型决策过程提供了有价值工具。

[8] COVID19 Prediction Based On CT Scans Of Lungs Using DenseNet Architecture

Deborup Sanyal

Main category: cs.CV

TL;DR: 使用卷积神经网络分析COVID-19患者的肺部CT扫描,预测感染严重程度(是否需要插管或导致死亡)

  • Motivation: COVID-19大流行导致全球医疗系统崩溃,呼吸系统衰竭是主要死因。急需自动化工具帮助医生通过CT扫描准确评估病情严重程度,缓解医疗资源短缺问题
  • Method: 采用卷积神经网络(CNN)模型,基于患者确诊后一个月内的肺部CT扫描数据进行训练和分析
  • Result: 模型能够根据CT扫描预测COVID-19感染的严重程度,区分预后良好和不良(需要插管或导致死亡)的情况
  • Conclusion: 基于CNN的CT扫描分析模型有望为医生提供客观、准确的COVID-19严重程度评估工具,减少人为错误,提高诊疗效率

[9] MedRepBench: A Comprehensive Benchmark for Medical Report Interpretation

Fangxin Shang,Yuan Xia,Dalu Yang,Yahui Wang,Binglin Yang

Main category: cs.CV

TL;DR: MedRepBench是一个针对中文医疗报告结构化理解的综合基准测试,包含1900份真实医疗报告,支持视觉语言模型和纯文本评估两种方式,通过客观指标和主观评估来衡量模型性能。

  • Motivation: 当前缺乏标准化基准来评估医疗报告的结构化解释质量,需要建立能够全面评估视觉语言模型在医疗报告理解方面能力的评测体系。
  • Method: 构建包含1900份真实中文医疗报告的MedRepBench数据集,支持端到端视觉语言模型评估和OCR+LLM文本评估两种方式,采用客观字段召回率和基于LLM的主观评分双重评估协议。
  • Result: 基于客观指标设计奖励函数并应用GRPO优化中等规模视觉语言模型,获得最高6%的召回率提升。OCR+LLM管道虽性能强劲但存在布局盲区和延迟问题。
  • Conclusion: MedRepBench为医疗报告结构化理解提供了标准化评估基准,揭示了当前方法的局限性,推动了向更鲁棒的完全基于视觉的报告理解方向发展。

[10] Two-Stage Framework for Efficient UAV-Based Wildfire Video Analysis with Adaptive Compression and Fire Source Detection

Yanbing Bai,Rui-Yang Ju,Lemeng Zhao,Junjie Hu,Jianchao Bi,Erick Mas,Shunichi Koshimura

Main category: cs.CV

TL;DR: 提出轻量级两阶段框架用于无人机实时野火监测,第一阶段通过策略网络压缩冗余视频帧降低计算成本,第二阶段使用改进YOLOv8定位火源

  • Motivation: 无人机在灾害应急响应中重要性日益提升,但由于计算资源有限,无法独立运行大型模型进行实时视频分析
  • Method: 两阶段框架:第一阶段使用策略网络识别并丢弃冗余视频片段,引入站点机制利用未来帧信息;第二阶段对分类为"火灾"的帧使用改进YOLOv8模型进行火源定位
  • Result: 在FLAME和HMDB51数据集上评估第一阶段方法,在Fire & Smoke数据集上评估第二阶段方法。实验显示显著降低计算成本同时保持分类精度,检测精度更高且推理时间相近
  • Conclusion: 该方法有效解决了无人机计算资源有限的问题,实现了高效的实时野火监测和火源检测

[11] CellEcoNet: Decoding the Cellular Language of Pathology with Deep Learning for Invasive Lung Adenocarcinoma Recurrence Prediction

Abdul Rehman Akbar,Usama Sajjad,Ziyu Su,Wencheng Li,Fei Xing,Jimmy Ruiz,Wei Chen,Muhammad Khalid Khan Niazi

Main category: cs.CV

TL;DR: CellEcoNet是一个基于空间感知深度学习的新框架,通过自然语言类比分析全切片图像,将细胞视为单词、细胞邻域视为短语、组织结构视为句子,自动学习上下文依赖关系来预测肺腺癌复发风险。

  • Motivation: 约70%的侵袭性肺腺癌患者在术后5年内复发,现有工具无法准确识别需要辅助治疗的患者,存在未满足的临床需求。
  • Method: 提出CellEcoNet框架,将病理图像建模为语言系统:细胞=单词,细胞邻域=短语,组织结构=句子,通过深度学习自动学习空间相互作用和细胞变异来预测复发风险。
  • Result: 在456个H&E染色全切片图像数据集上,CellEcoNet达到AUC 77.8%和HR 9.54,显著优于IASLC分级系统(AUC 71.4%)、AJCC分期(AUC 64.0%)和其他计算方法(AUC 62.2-67.4%),在不同人口统计学和临床亚组中表现一致。
  • Conclusion: CellEcoNet不仅提供了优越的预后预测性能,还通过解码肿瘤微环境的细胞"语言",揭示了细胞变异如何编码复发风险,代表了病理学分析方法的范式转变。

[12] A Framework for Benchmarking Fairness-Utility Trade-offs in Text-to-Image Models via Pareto Frontiers

Marco N. Bochernitsan,Rodrigo C. Barros,Lucas S. Kupssinskü

Main category: cs.CV

TL;DR: 提出了一种使用帕累托最优前沿评估文本到图像模型公平性和效用的方法,能够比较不同模型并找到最优超参数配置

  • Motivation: 当前文本到图像模型的公平性评估主要依赖定性判断或有限比较,缺乏可重复的评估方法,无法同时评估公平性和效用
  • Method: 使用帕累托最优前沿分析去偏方法的超参数化,采用归一化香农熵和ClipScore分别评估公平性和效用
  • Result: 评估了Stable Diffusion、Fair Diffusion、SDXL、DeCoDi和FLUX等模型,发现大多数默认超参数配置在公平性-效用空间中处于被支配位置,可以轻松找到更好的超参数
  • Conclusion: 该方法为文本到图像模型提供了可重复的公平性和效用评估框架,能够识别最优配置并促进负责任的AI发展

[13] WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation

Rabiul Awal,Mahsa Massoud,Aarash Feizi,Zichao Li,Suyuchen Wang,Christopher Pal,Aishwarya Agrawal,David Vazquez,Siva Reddy,Juan A. Rodriguez,Perouz Taslakian,Spandana Gella,Sai Rajeswar

Main category: cs.CV

TL;DR: WebMMU是一个多语言基准测试,评估网站视觉问答、代码编辑和原型到代码生成三个核心Web任务,揭示当前多模态大语言模型在复杂推理、精确元素定位和功能性UI理解方面的局限性。

  • Motivation: 现有的基准测试将这些Web任务分开处理,而WebMMU通过专家标注的真实Web数据统一评估模型在复杂多步推理、精确元素定位和功能性UI理解编码方面的能力。
  • Method: 构建包含三个核心Web任务的多语言基准:网站视觉问答、HTML/CSS/JavaScript代码编辑、原型到代码生成,使用专家标注的真实Web数据进行评估。
  • Result: 多模态大语言模型在基础信息提取方面表现良好,但在推理和定位、保持功能性的代码编辑、以及支持多语言内容的层次结构保持方面存在困难。
  • Conclusion: 当前MLLMs存在关键局限性,需要改进多模态和跨语言推理能力,以构建能够自动化多样化Web开发任务的未来Web代理。

[14] Improving Performance, Robustness, and Fairness of Radiographic AI Models with Finely-Controllable Synthetic Data

Stefania L. Moroianu,Christian Bluethgen,Pierre Chambon,Mehdi Cherti,Jean-Benoit Delbrouck,Magdalini Paschali,Brandon Price,Judy Gichoya,Jenia Jitsev,Curtis P. Langlotz,Akshay S. Chaudhari

Main category: cs.CV

TL;DR: RoentGen-v2是一个文本到图像的扩散模型,用于生成胸部X光片,能够精确控制放射学发现和人口统计学属性。通过合成数据预训练策略,显著提高了下游疾病分类模型的性能、泛化能力和公平性。

  • Motivation: 解决临床可部署深度学习模型在不同患者群体中实现稳健性能和公平性的挑战,以及数据集规模和多样性限制的问题。
  • Method: 开发RoentGen-v2文本到图像扩散模型,生成包含56.5万张图像的大型合成数据集。提出改进的训练策略:先用合成数据进行监督预训练,然后在真实数据上进行微调。
  • Result: 在5个机构的13.7万张胸部X光片上评估,合成预训练使下游分类模型准确率提高6.5%,同时将诊断不足公平性差距减少19.3%。相比简单混合真实和合成数据的方法(仅提高2.7%)有显著改进。
  • Conclusion: 合成成像技术有潜力在真实世界数据约束下推进公平和可泛化的医学深度学习,代码、训练模型和合成数据集已开源。

[15] Towards Open-Vocabulary Multimodal 3D Object Detection with Attributes

Xinhao Xiang,Kuan-Chuan Peng,Suhas Lohit,Michael J. Jones,Jiawei Zhang

Main category: cs.CV

TL;DR: OVODA是一个开箱即用的开放词汇3D物体和属性检测框架,无需已知新类别的锚点尺寸,通过基础模型连接3D特征与文本语义,在nuScenes和Argoverse 2数据集上表现优于现有方法。

  • Motivation: 现有3D物体检测方法受限于闭集假设,难以识别现实场景中的新物体及其属性,需要开发能够处理开放词汇和属性检测的新方法。
  • Method: 使用基础模型特征拼接、提示调优策略、视角指定提示和水平翻转增强等技术,联合检测物体属性和空间关系等特征。
  • Result: 在nuScenes和Argoverse 2数据集上,OVODA在无需新类别锚点尺寸的情况下,在开放词汇3D物体检测方面优于最先进方法,并能成功识别物体属性。
  • Conclusion: OVODA框架有效解决了开放词汇3D检测的挑战,提出的OVAD数据集为该研究方向提供了重要资源,展示了基础模型在3D场景理解中的潜力。

[16] AIM 2025 Low-light RAW Video Denoising Challenge: Dataset, Methods and Results

Alexander Yakovenko,George Chakvetadze,Ilya Khrapov,Maksim Zhelezov,Dmitry Vatolin,Radu Timofte,Youngjin Oh,Junhyeong Kwon,Junyoung Park,Nam Ik Cho,Senyan Xu,Ruixuan Jiang,Long Peng,Xueyang Fu,Zheng-Jun Zha,Xiaoping Peng,Hansen Feng,Zhanyi Tie,Ziming Xia,Lizhi Wang

Main category: cs.CV

TL;DR: AIM 2025低光照RAW视频去噪挑战赛综述,旨在开发利用时间冗余在帧率限制下处理传感器特定信号相关噪声的方法,使用新基准数据集评估参与者表现。

  • Motivation: 解决低光照条件下RAW视频的噪声问题,利用时间冗余信息,在曝光时间受限的情况下实现有效的视频去噪,适应不同传感器的信号相关噪声特性。
  • Method: 建立包含756个十帧序列的新基准数据集,使用14种智能手机相机传感器在9种光照和曝光条件下采集,通过爆发平均获得高信噪比参考帧。参与者处理线性RAW序列并输出去噪后的第10帧,保留拜耳模式。
  • Result: 使用私有测试集进行全参考PSNR和SSIM评估,最终排名基于各指标排名的平均值。报告详细描述了数据集、挑战协议和提交方法。
  • Conclusion: 该挑战赛为低光照RAW视频去噪领域提供了标准化的评估框架和基准数据集,推动了利用时间冗余处理传感器特定噪声方法的发展。

[17] Transformer-Based Neural Network for Transient Detection without Image Subtraction

Adi Inada,Masao Sako,Tatiana Acero-Cuellar,Federica Bianco

Main category: cs.CV

TL;DR: 提出基于Transformer的神经网络,用于天文图像中真实与虚假瞬变检测的准确分类,无需计算昂贵的差异成像,在DES数据集上达到97.4%的准确率

  • Motivation: 传统卷积神经网络在图像处理任务中广泛使用,但需要计算昂贵的差异成像。本文旨在开发更适合逐像素比较的架构,提高超新星检测的准确性和效率
  • Method: 采用Transformer架构的神经网络,仅分析搜索图像和模板图像,无需差异成像。架构更适合详细的逐像素比较
  • Result: 在DES autoScan数据集上达到97.4%的分类准确率,随着训练集增大,差异图像的性能效用递减。即使输入图像未以超新星候选为中心,网络仍能保持相似性能水平
  • Conclusion: 该网络能有效提升大规模天文巡天中超新星检测的准确性和效率,展示了Transformer架构在天文图像处理中的优势

[18] NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

Denis Tarasov,Alexander Nikulin,Ilya Zisman,Albina Klepach,Nikita Lyubaykin,Andrei Polubarov,Alexander Derevyagin,Vladislav Kurenkov

Main category: cs.CV

TL;DR: NinA使用归一化流替代扩散模型作为VLA的动作解码器,实现单次采样,大幅提升推理速度,同时保持性能相当

  • Motivation: 扩散模型作为动作解码器需要多次迭代去噪步骤,推理速度慢,限制了在需要高频控制的现实场景中的实用性
  • Method: 用归一化流(NF)替换扩散动作解码器,通过可逆变换实现单次采样,集成到FLOWER VLA架构并在LIBERO基准上微调
  • Result: NinA在相同训练条件下性能与基于扩散的解码器相当,但推理速度显著更快
  • Conclusion: NinA为高效、高频的VLA控制提供了一条有前景的路径,且不牺牲性能

[19] RF-PGS: Fully-structured Spatial Wireless Channel Representation with Planar Gaussian Splatting

Lihao Zhang,Zongtan Li,Haijian Sun

Main category: cs.CV

TL;DR: RF-PGS是一个新颖的框架,通过平面高斯和特定射频优化,从稀疏路径损耗谱重建高保真无线电传播路径,显著提高了6G空间信道状态信息建模的准确性和效率。

  • Motivation: 6G时代需要大规模天线阵列和精确的空间信道状态信息,传统信道建模方法在空间分辨率、效率和可扩展性方面面临挑战,现有辐射场方法存在几何不准确和成本高昂的问题。
  • Method: 提出两阶段框架:第一阶段使用平面高斯作为几何基元进行密集表面对齐的场景重建;第二阶段结合全结构无线电辐射和定制多视图损失,准确建模无线电传播行为。
  • Result: 相比现有辐射场方法,RF-PGS显著提高了重建精度,降低了训练成本,实现了无线信道的高效表示。
  • Conclusion: RF-PGS为可扩展的6G空间CSI建模提供了实用解决方案,解决了传统方法和现有辐射场方法的局限性。

[20] Gaussian Primitive Optimized Deformable Retinal Image Registration

Xin Tian,Jiazheng Wang,Yuxi Zhang,Xiang Chen,Renjiu Hu,Gaolei Li,Min Liu,Hang Zhang

Main category: cs.CV

TL;DR: GPO是一种新颖的可变形视网膜图像配准框架,通过高斯基元优化和结构化消息传递,解决了视网膜图像中大面积同质区域和稀疏血管特征导致的梯度信号有限问题。

  • Motivation: 视网膜图像配准面临巨大挑战,因为图像中存在大面积同质区域和稀疏但关键的血管特征,这导致标准学习框架中的梯度信号有限,难以实现精确配准。
  • Method: 提出高斯基元优化(GPO)框架:1)初始粗配准后提取关键点作为描述符控制节点;2)每个节点建模为具有可训练位置、位移和半径的高斯基元;3)使用KNN高斯插值从信息丰富节点传播位移信号;4)通过多术语损失函数进行端到端优化。
  • Result: 在FIRE数据集上,GPO将目标配准误差从6.2像素降低到约2.4像素,并将25像素处的AUC从0.770提升到0.938,显著优于现有方法。
  • Conclusion: GPO框架通过战略性地在梯度丰富区域锚定节点,确保鲁棒的梯度流,有效解决了纹理缺失区域的梯度消失问题,为视网膜图像配准提供了有效的解决方案。

[21] Beyond Emotion Recognition: A Multi-Turn Multimodal Emotion Understanding and Reasoning Benchmark

Jinpeng Hu,Hongchang Shi,Chongyuan Dai,Zhuo Li,Peipei Song,Meng Wang

Main category: cs.CV

TL;DR: 提出了一个多轮多模态情感理解与推理基准(MTMEUR),包含1,451个真实场景视频和5,101个渐进式问题,并设计了多智能体框架来提升情感推理能力。

  • Motivation: 当前多模态大语言模型主要关注情感识别能力,而忽略了情感推理这一对提升人机交互自然性和有效性至关重要的能力。
  • Method: 构建包含多轮渐进式问题的视频数据集,并提出多智能体框架,各智能体分别专注于背景上下文、角色动态和事件细节等特定方面。
  • Result: 实验表明现有MLLM模型在该任务上面临显著挑战,验证了所提基准的难度和必要性。
  • Conclusion: 情感推理是多模态理解的重要方向,所提出的基准和方法为提升模型的情感理解深度提供了新的研究路径。

[22] Delta-SVD: Efficient Compression for Personalized Text-to-Image Models

Tangyuan Zhang,Shangyu Chen,Qixiang Chen,Jianfei Cai

Main category: cs.CV

TL;DR: Delta-SVD是一种无需训练的后处理压缩方法,通过奇异值分解压缩DreamBooth微调产生的权重增量,实现高效存储个性化扩散模型。

  • Motivation: DreamBooth等个性化文本到图像模型需要微调大规模扩散主干网络,导致存储大量主题特定模型时产生显著存储开销。
  • Method: 利用权重增量表现出强低秩结构的特点,首先应用奇异值分解(SVD)分解权重增量,然后采用基于能量的秩截断策略平衡压缩效率和重建保真度。
  • Result: 在多主题数据集上的实验表明,Delta-SVD实现了显著压缩,在CLIP分数、SSIM和FID等生成质量指标上损失可忽略不计。
  • Conclusion: 该方法实现了可扩展和高效的个性化扩散模型部署,为需要存储和部署大规模主题定制化的实际应用提供了实用解决方案。

[23] Do Multimodal LLMs See Sentiment?

Neemias B. da Silva,John Harrison,Rodrigo Minetto,Myriam R. Delgado,Bogdan T. Nassu,Thiago H. Silva

Main category: cs.CV

TL;DR: 提出了MLLMsent框架,通过三个角度研究多模态大语言模型的情绪推理能力,在基准测试中取得了最先进的结果,特别是在跨数据集测试中表现出色。

  • Motivation: 理解视觉内容如何传达情绪在社交媒体时代至关重要,但由于情绪感知与复杂的场景级语义密切相关,这仍然是一个具有挑战性的问题。
  • Method: 提出MLLMsent框架,从三个角度进行研究:(1)直接使用MLLMs进行图像情感分类;(2)将MLLMs与预训练LLMs结合,对自动生成的图像描述进行情感分析;(3)在情感标注的图像描述上微调LLMs。
  • Result: 在基准测试中,特别是微调方法,比基于词典、CNN和Transformer的基线方法分别高出30.9%、64.8%和42.4%。在跨数据集测试中,无需在新数据上训练,仍比最佳竞争对手高出8.26%。
  • Conclusion: 该研究展示了所提出的视觉推理方案在推进情感计算方面的潜力,同时为未来研究建立了新的基准。

[24] AWM-Fuse: Multi-Modality Image Fusion for Adverse Weather via Global and Local Text Perception

Xilai Li,Huichun Liu,Xiaosong Li,Tao Ye,Zhenyu Kuang,Huafeng Li

Main category: cs.CV

TL;DR: AWM-Fuse是一种新颖的多模态图像融合方法,通过全局和局部文本感知处理恶劣天气条件下的多种退化,利用BLIP和ChatGPT生成的文本描述来提升语义感知和图像融合质量。

  • Motivation: 解决恶劣天气条件下视觉信息损失问题,现有方法缺乏有效的文本信息分类和深入分析,需要更好的语义感知来提供更清晰的场景表示。
  • Method: 提出统一共享权重架构,包含全局特征感知模块(使用BLIP生成标题提取整体场景特征和主要退化类型)和局部模块(使用ChatGPT详细描述关注具体退化效果),通过文本描述约束融合图像生成。
  • Result: 在复杂天气条件和下游任务中优于当前最先进方法,实验证明其有效性。
  • Conclusion: AWM-Fuse通过结合全局和局部文本感知,有效提升了恶劣天气条件下的图像融合性能,代码已开源。

[25] A Lightweight Convolution and Vision Transformer integrated model with Multi-scale Self-attention Mechanism

Yi Zhang,Lingxiao Wei,Bowei Zhang,Ziwei Liu,Kai Yi,Shu Hu

Main category: cs.CV

TL;DR: SAEViT是一个轻量级视觉Transformer模型,通过稀疏注意力机制和卷积块融合,在保持高性能的同时显著降低计算复杂度。

  • Motivation: Vision Transformer在计算机视觉任务中表现出色,但存在模型尺寸大、计算成本高和局部特征建模能力弱的问题,限制了实际应用。需要平衡计算效率和性能。
  • Method: 提出SAEViT模型,包含:1)稀疏聚合注意力模块(SAA)进行自适应稀疏采样;2)通道交互前馈网络(CIFFN)增强通道间信息交换;3)分层金字塔结构嵌入深度可分离卷积块(DWSConv)
  • Result: 在ImageNet-1K分类任务上达到76.3%和79.6%的Top-1准确率,仅需0.8 GFLOPs和1.3 GFLOPs计算量,展现了轻量级解决方案的优势。
  • Conclusion: SAEViT通过创新的稀疏注意力机制和卷积-Transformer混合架构,成功实现了计算效率和性能的良好平衡,为各种基础视觉任务提供了有效的轻量级解决方案。

[26] MDIQA: Unified Image Quality Assessment for Multi-dimensional Evaluation and Restoration

Shunyu Yao,Ming Liu,Zhilu Zhang,Zhaolin Wan,Zhilong Ji,Jinfeng Bai,Wangmeng Zuo

Main category: cs.CV

TL;DR: 提出多维图像质量评估框架MDIQA,从技术和美学多个维度建模图像质量,通过分支训练和特征融合生成最终评分,并能灵活应用于图像修复任务。

  • Motivation: 现有图像质量评估方法大多只关注总体评分,忽略了人类通常从多个维度评估图像质量的事实,需要更符合人类感知的多维度评估框架。
  • Method: 构建包含5个技术维度和4个美学维度的多分支网络,每个分支单独训练特定维度特征,然后融合特征生成最终质量评分,并可调整维度权重适应不同用户偏好。
  • Result: 大量实验证明MDIQA在性能上表现优异,并能有效灵活地应用于图像修复任务,使修复结果更好地符合用户偏好。
  • Conclusion: MDIQA框架通过多维度建模更好地模拟了人类视觉感知,在图像质量评估和图像修复应用中展现出优越性能和灵活性。

[27] Structural Energy-Guided Sampling for View-Consistent Text-to-3D

Qing Zhang,Jinguang Tong,Jie Hong,Jing Zhang,Xuesong Li

Main category: cs.CV

TL;DR: SEGS是一个无需训练、即插即用的框架,通过定义结构能量并注入梯度来解决文本到3D生成中的Janus问题(正面正确但其他角度几何重复或扭曲的问题)。

  • Motivation: 文本到3D生成存在Janus问题,即物体正面看起来正确但从其他角度观察时几何体会出现重复或扭曲。这主要是由于2D扩散先验中的视角偏见传播到3D优化过程中。
  • Method: 提出Structural Energy-Guided Sampling (SEGS)框架,在PCA子空间中定义中间U-Net特征的结构能量,并在去噪过程中注入其梯度,引导几何体朝向预期视角,同时保持外观保真度。
  • Result: SEGS显著减少了Janus伪影,实现了更好的几何对齐和视角一致性,无需重新训练或修改权重。
  • Conclusion: SEGS是一个有效的训练无关解决方案,能够无缝集成到SDS/VSD流程中,成功解决了文本到3D生成中的多视角一致性问题。

[28] MSPCaps: A Multi-Scale Patchify Capsule Network with Cross-Agreement Routing for Visual Recognition

Yudong Hu,Yueju Han,Rui Sun,Jinke Ren

Main category: cs.CV

TL;DR: MSPCaps是一个新颖的多尺度胶囊网络架构,通过多尺度特征提取、统一补丁化胶囊层和跨协议路由机制,有效解决了传统胶囊网络忽略多尺度信息和特征融合困难的问题,在分类准确率和模型效率方面都表现出色。

  • Motivation: 现有胶囊网络通常依赖单一高层特征图,忽略了多尺度特征的丰富互补信息,且传统特征融合策略难以协调多尺度特征差异,导致分类性能不佳。
  • Method: 提出MSPCaps架构,包含三个核心组件:多尺度ResNet骨干网络(MSRB)提取多尺度特征;补丁化胶囊层(PatchifyCaps)将多尺度特征统一分割成初级胶囊;跨协议路由(CAR)块通过识别最大协议跨尺度预测对来自适应路由多尺度胶囊。
  • Result: MSPCaps展现出卓越的可扩展性和鲁棒性,在分类准确率方面持续超越多个基线方法,模型配置从高效的Tiny模型(344.3K参数)到强大的Large模型(10.9M参数)。
  • Conclusion: 该方法在推进特征表示学习方面具有巨大潜力,通过有效整合多尺度特征学习和高效胶囊路由,显著提升了胶囊网络的性能表现。

[29] LGE-Guided Cross-Modality Contrastive Learning for Gadolinium-Free Cardiomyopathy Screening in Cine CMR

Siqing Yuan,Yulin Wang,Zirui Cao,Yueyan Wang,Zehao Weng,Hui Wang,Lei Xu,Zixian Chen,Lei Chen,Zhong Xue,Dinggang Shen

Main category: cs.CV

TL;DR: CC-CMR是一种基于对比学习和跨模态对齐的框架,使用电影CMR序列进行无钆对比剂的心肌病筛查,通过将电影CMR与晚期钆增强序列的潜在空间对齐,在消除钆依赖性的同时实现了94.3%的准确率。

  • Motivation: 心脏磁共振(CMR)作为心肌病诊断的金标准,但依赖钆对比剂和人工密集解读阻碍了其在人群规模筛查中的应用,需要开发无钆的高效筛查方法。
  • Method: 提出对比学习和跨模态对齐框架,将电影CMR和LGE序列的潜在空间对齐,编码纤维化特异性病理信息;采用特征交互模块优化诊断精度和跨模态特征一致性,并通过不确定性引导的自适应训练机制动态校准任务目标。
  • Result: 在多中心231名受试者数据上评估,CC-CMR达到0.943的准确率(95% CI: 0.886-0.986),比最先进的仅使用电影CMR的模型性能提升4.3%,同时消除了钆依赖性。
  • Conclusion: CC-CMR框架展示了在广泛人群和医疗环境中进行无钆心肌病筛查的临床可行性,为大规模人群筛查提供了有效解决方案。

[30] Align 3D Representation and Text Embedding for 3D Content Personalization

Qi Song,Ziyuan Luo,Ka Chun Cheung,Simon See,Renjie Wan

Main category: cs.CV

TL;DR: Invert3D是一个新颖的3D内容个性化框架,通过建立3D表示与文本嵌入空间的对齐,实现无需重新训练的自然语言驱动的3D内容个性化。

  • Motivation: 现有的3D个性化方法主要依赖基于知识蒸馏的方法,需要计算昂贵的重新训练过程。虽然视觉语言模型如CLIP能够通过对齐的视觉-文本嵌入空间实现直接图像个性化,但由于3D内容与2D图像的结构差异,这些技术无法直接应用于3D个性化。
  • Method: 开发了一个相机条件的3D到文本逆向机制,将3D内容投影到与文本嵌入对齐的3D嵌入空间中。通过建立3D表示与文本嵌入空间的对齐,实现通过自然语言提示高效操作和个性化3D内容。
  • Result: 广泛的实验表明,Invert3D能够有效实现3D内容的个性化。该方法消除了计算昂贵的重新训练过程的需求。
  • Conclusion: Invert3D通过建立3D内容与文本嵌入空间的对齐,成功解决了3D内容个性化中的效率挑战,为自然语言驱动的3D内容操作提供了有效的解决方案。

[31] Addressing Annotation Scarcity in Hyperspectral Brain Image Segmentation with Unsupervised Domain Adaptation

Tim Mach,Daniel Rueckert,Alex Berger,Laurin Lux,Ivan Ezhov

Main category: cs.CV

TL;DR: 提出了一种新的深度学习框架,用于在脑部高光谱图像中分割脑血管,通过无监督域适应方法解决标签稀缺问题。

  • Motivation: 解决脑部高光谱图像中脑血管分割任务面临的严重标签稀缺问题,传统监督训练方法难以有效应用。
  • Method: 采用新颖的无监督域适应方法,结合少量专家标注的真实标签数据和大量未标注数据进行训练。
  • Result: 定量和定性评估均表明,该方法显著优于现有的最先进方法。
  • Conclusion: 证明了域适应方法在标签稀缺的生物医学成像任务中的有效性。

[32] NAT: Learning to Attack Neurons for Enhanced Adversarial Transferability

Krishna Kanth Nakka,Alexandre Alahi

Main category: cs.CV

TL;DR: NAT方法通过针对神经网络中的特定神经元进行攻击,而不是传统的嵌入层分离,显著提高了对抗性扰动的可转移性,在跨模型和跨域设置中分别超过现有基线14%和4%。

  • Motivation: 传统方法在单一中间层最大化干净图像和对抗图像的嵌入分离,往往过度关注少数相似概念的神经元,而忽略层内其他神经元。NAT旨在通过神经元级别的攻击来更有效地破坏神经网络的核心单元。
  • Method: NAT(Neuron Attack for Transferability)方法从嵌入层分离转向神经元特异性方法,针对嵌入中的特定神经元进行攻击,通过训练生成器来最大化对单个神经元的干扰。
  • Result: 在41个不同的ImageNet模型和9个细粒度模型上进行广泛实验,NAT在跨模型设置中超过现有基线14%以上,在跨域设置中超过4%。通过利用训练生成器的互补攻击能力,仅用10次查询就能获得令人印象深刻的欺骗率。
  • Conclusion: 针对单个神经元进行攻击能够有效破坏神经网络的核心单元,为不同模型间的可转移性提供了共同基础,NAT方法在对抗性攻击的可转移性方面取得了显著改进。

[33] HieroAction: Hierarchically Guided VLM for Fine-Grained Action Analysis

Junhao Wu,Xiuer Gu,Zhiying Li,Yeying Jin,Yunfeng Diao,Zhiyu Li,Zhenbo Song,Xiaomei Zhang,Zhaoxin Fan

Main category: cs.CV

TL;DR: HieroAction是一个视觉语言模型,通过逐步动作推理和分层策略学习,提供准确且可解释的人类动作评估,在多个基准数据集上表现优异。

  • Motivation: 现有方法通常只提供最终评分而缺乏解释性分析,限制了在体育、医疗和机器人等领域的实际应用,需要能够提供结构化评估和详细反馈的系统。
  • Method: 采用Stepwise Action Reasoning(逐步动作推理链)进行结构化评估,结合Hierarchical Policy Learning(分层策略学习)通过强化学习优化子动作动态与高层动作质量的对应关系。
  • Result: 在多个基准数据集上表现出优越性能,能够提供准确且可解释的动作评估。
  • Conclusion: HieroAction通过结合推理路径和策略学习,实现了准确且可解释的人类动作评估,代码将在接受后发布。

[34] RPD-Diff: Region-Adaptive Physics-Guided Diffusion Model for Visibility Enhancement under Dense and Non-Uniform Haze

Ruicheng Zhang,Puxin Yan,Zeyu Zhang,Yicheng Chang,Hongyi Chen,Zhi Jin

Main category: cs.CV

TL;DR: RPD-Diff是一种区域自适应物理引导去雾扩散模型,通过物理引导中间状态目标策略和雾感知去噪时间步预测器,有效处理密集和非均匀雾霾条件下的图像去雾问题。

  • Motivation: 传统基于扩散的去雾方法在密集和非均匀雾霾条件下存在生成条件不足和空间适应性差的问题,导致恢复效果不佳。
  • Method: 提出RPD-Diff模型,包含物理引导中间状态目标策略(PIST)利用物理先验重新制定扩散马尔可夫链,以及雾感知去噪时间步预测器(HADTP)通过透射图交叉注意力机制动态调整补丁特定的去噪时间步。
  • Result: 在四个真实世界数据集上的广泛实验表明,RPD-Diff在挑战性的密集和非均匀雾霾场景中实现了最先进的性能,产生具有卓越细节清晰度和色彩保真度的高质量无雾图像。
  • Conclusion: RPD-Diff通过结合物理先验和自适应机制,有效解决了密集非均匀雾霾条件下的图像去雾挑战,为复杂雾霾场景下的能见度增强提供了鲁棒解决方案。

[35] Local Information Matters: A Rethink of Crowd Counting

Tianhang Pan,Xiuyi Jia

Main category: cs.CV

TL;DR: 本文提出了一种新的群体计数模型设计原则:强调模型的局部建模能力,并设计了LIMM模型,通过窗口划分和窗口对比学习策略显著提升了局部密度建模性能。

  • Motivation: 重新思考群体计数的本质特征:个体(人头)在图像中占据很小比例,现有方法通常使用与其他视觉任务相同的骨干网络并追求大感受野,而忽略了局部建模能力的重要性。
  • Method: 提出LIMM模型,采用两种策略:1)窗口划分设计,将模型输入划分为网格窗口;2)窗口对比学习设计,增强模型区分局部密度水平的能力;最后使用全局注意力模块处理偶尔出现的大尺寸个体。
  • Result: 在多个公共数据集上的实验表明,该模型在局部建模能力上有显著提升(如在JHU-Crowd++高密度子集上MAE提升8.7%),同时不损害对大尺寸个体的计数能力,达到了最先进的性能。
  • Conclusion: 强调局部建模能力是群体计数任务的重要设计原则,LIMM模型通过创新的窗口策略有效解决了小尺寸个体的计数问题,同时保持了对大尺寸个体的处理能力。

[36] Robust Diagram Reasoning: A Framework for Enhancing LVLM Performance on Visually Perturbed Scientific Diagrams

Minghao Zhou,Rafael Souza,Yaqian Hu,Luming Che

Main category: cs.CV

TL;DR: 提出了RDR框架来增强和评估多模态大语言模型在视觉退化科学图表上的鲁棒性,通过多视图一致性验证机制和新的评估指标,发现现有模型在视觉扰动下性能显著下降

  • Motivation: 现有LVLMs在科学图表处理中缺乏对常见视觉扰动(如噪声、模糊、遮挡)的鲁棒性,而现有评估基准忽略了这一重要挑战
  • Method: 提出RDR框架,采用自适应多视图和一致性验证机制(AMCV),生成多个扰动版本图表进行并行推理,并通过一致性自校正循环;构建SciDiagram-Robust数据集,包含程序化生成的多样化视觉扰动
  • Result: 实验表明即使是GPT-4V等最先进模型在扰动输入下性能也显著下降(清洁准确率85.2% vs PRS 72.1%)
  • Conclusion: 视觉扰动对LVLMs的科学图表推理能力有显著影响,需要专门的鲁棒性增强方法和评估框架

[37] Balanced Sharpness-Aware Minimization for Imbalanced Regression

Yahao Liu,Qin Wang,Lixin Duan,Wen Li

Main category: cs.CV

TL;DR: 本文提出BSAM方法解决回归任务中的数据不平衡问题,通过平衡锐度感知最小化来提升模型在整个观测空间的泛化能力

  • Motivation: 现实世界数据往往呈现不平衡分布,传统回归模型在罕见观测值上表现较差,需要解决不平衡回归问题
  • Method: 提出平衡锐度感知最小化(BSAM),在传统锐度感知最小化基础上引入目标重加权策略,使模型在整个观测空间具有均匀的泛化能力
  • Result: 在年龄估计和深度估计等多个视觉回归任务上的实验表明,BSAM方法 consistently优于现有方法
  • Conclusion: BSAM通过平衡锐度感知最小化有效解决了不平衡回归问题,提供了理论泛化保证,在多个视觉任务中表现出色

[38] Hierarchical Contextual Grounding LVLM: Enhancing Fine-Grained Visual-Language Understanding with Robust Grounding

Leilei Guo,Antonio Carlos Rivera,Peiyu Tang,Haoxuan Ren,Zheyu Song

Main category: cs.CV

TL;DR: HCG-LVLM是一种分层上下文接地的大型视觉语言模型,采用从粗到细的处理方式,通过全局上下文感知和细粒度局部接地两层架构,显著提升了视觉语言理解的准确性和减少幻觉现象。

  • Motivation: 当前视觉语言大模型在复杂真实场景中表现出鲁棒性不足、容易产生幻觉和推理错误的问题,特别是在需要精确图像区域定位和细粒度视觉推理的任务中。
  • Method: 提出HCG-LVLM架构,包含全局上下文感知层和细粒度局部接地层,后者包括局部细节增强模块和语义一致性验证器,通过自适应融合机制整合两层信息。
  • Result: 在GQA、A-OKVQA和RefCOCO/+/g等挑战性数据集上,HCG-LVLM consistently优于Flamingo、BLIP-2和MiniGPT-4等最先进模型,实现了更高的准确性和显著减少的幻觉现象。
  • Conclusion: 分层设计有效增强了细粒度视觉语言理解和精确接地能力,验证了从粗到细认知处理方法的有效性。

[39] Combating Digitally Altered Images: Deepfake Detection

Saksham Kumar,Rhythm Narang

Main category: cs.CV

TL;DR: 基于改进Vision Transformer的Deepfake检测模型,在OpenForensics数据集上训练,通过数据增强和过采样处理类别不平衡,在测试集上达到先进性能

  • Motivation: Deepfake技术生成超真实伪造图像视频对公众和相关部门构成重大挑战,需要可靠的检测方法
  • Method: 使用改进的Vision Transformer模型,在OpenForensics数据集子集上训练,采用多种数据增强技术提高鲁棒性,通过过采样和分层划分处理类别不平衡问题
  • Result: 模型在测试数据集上表现出最先进的性能,能够精确检测Deepfake图像
  • Conclusion: 提出的改进ViT模型为Deepfake检测提供了有效的解决方案,在复杂图像操纵场景下具有良好鲁棒性

[40] Preserving Domain Generalization in Fine-Tuning via Joint Parameter Selection

Bin Pan,Shiyu Shen,Zongbin Wang,Zhenwei Shi,Xia Xu

Main category: cs.CV

TL;DR: JPS是一种新的领域泛化方法,通过选择性地微调预训练模型中的稀疏参数子集,在保持模型泛化能力的同时实现任务适应。

  • Motivation: 解决全参数微调会损害预训练模型固有泛化能力的问题,通过参数高效适应策略来平衡任务适应和泛化保持。
  • Method: 使用双操作符选择机制,识别和更新在所有源域中表现出一致且显著梯度的参数,限制只更新小的稀疏参数子集。
  • Result: 在广泛的基准实验中,JPS相比最先进的领域泛化方法取得了更优越的性能。
  • Conclusion: 该方法既高效又有效,通过理论上的泛化误差界限为选择性微调提供了原理性证明。

[41] HiCache: Training-free Acceleration of Diffusion Models via Hermite Polynomial-based Feature Caching

Liang Feng,Shikang Zheng,Jiacheng Liu,Yuqi Lin,Qinming Zhou,Peiliang Cai,Xinyu Wang,Junjie Chen,Chang Zou,Yue Ma,Linfeng Zhang

Main category: cs.CV

TL;DR: HiCache是一个无需训练的特征缓存加速框架,通过Hermite多项式逼近特征导数,在扩散模型中实现6.24倍加速同时保持生成质量

  • Motivation: 扩散模型虽然生成效果好但计算成本高,现有特征缓存方法因无法准确建模特征演化复杂动态而导致质量损失
  • Method: 利用扩散变换器中特征导数近似呈现多元高斯特性的洞察,采用Hermite多项式作为理论最优基函数,并引入双尺度机制确保数值稳定性
  • Result: 在FLUX.1-dev上实现6.24倍加速且超过基线质量,在文本到图像、视频生成和超分辨率任务中均表现优异
  • Conclusion: HiCache通过理论对齐和经验特性的结合,为扩散模型提供了高效且保持质量的推理加速解决方案

[42] An Efficient Dual-Line Decoder Network with Multi-Scale Convolutional Attention for Multi-organ Segmentation

Riad Hassan,M. Rubaiyat Hossain Mondal,Sheikh Iqbal Ahamed,Fahad Mostafa,Md Mostafijur Rahman

Main category: cs.CV

TL;DR: 本文提出EDLDNet,一种高效的双线解码器分割网络,通过噪声解码器训练增强鲁棒性,推理时仅使用无噪声解码器降低计算成本,在多个医学影像数据集上达到SOTA性能。

  • Motivation: 现有深度学习方法在医学图像分割中难以平衡准确性和计算效率,要么性能好但计算复杂,要么效率高但精度低。
  • Method: 采用双线解码器架构,训练时使用噪声解码器引入结构化扰动增强鲁棒性,推理时仅用无噪声解码器;结合多尺度卷积注意力模块、注意力门和上卷积块优化特征表示;使用基于变异的损失函数提升泛化能力。
  • Result: 在Synapse数据集上达到84.00% Dice分数,比UNet提升13.89%,同时减少89.7%的乘加运算;相比EMCAD等方法在保持计算效率的同时获得更高Dice分数。
  • Conclusion: EDLDNet在多个数据集上表现出优异的泛化能力、计算效率和鲁棒性,成功解决了准确性与效率的平衡问题。

[43] Contrastive Prompt Clustering for Weakly Supervised Semantic Segmentation

Wangyu Wu,Zhenhong Chen,Xiaowen Ma,Wenqiao Zhang,Xianglin Qiu,Siqi Song,Xiaowei Huang,Fei Ma,Jimin Xiao

Main category: cs.CV

TL;DR: CPC是一个新颖的弱监督语义分割框架,利用大型语言模型获取类别聚类,并通过对比学习实现类内一致性和类间分离,在PASCAL VOC和MS COCO数据集上达到最先进性能

  • Motivation: 现有弱监督语义分割方法过于强调类间分离,忽略了相关类别间的共享语义,缺乏细粒度区分能力
  • Method: 提出对比提示聚类(CPC)框架:1)利用LLMs获取编码类间关系的类别聚类 2)引入类感知的块级对比损失来增强类内一致性和类间分离 3)分层设计利用聚类作为粗粒度语义先验同时保持细粒度边界
  • Result: 在PASCAL VOC 2012和MS COCO 2014数据集上的实验表明,CPC超越了现有的最先进弱监督语义分割方法
  • Conclusion: CPC通过结合LLMs的语义理解和对比学习的分层设计,有效解决了相关类别混淆问题,提升了弱监督语义分割的性能

[44] Fiducial Marker Splatting for High-Fidelity Robotics Simulations

Diram Tabaa,Gianni Di Caro

Main category: cs.CV

TL;DR: 提出了一种结合高斯泼溅渲染与结构化标记的混合框架,用于在复杂环境中高效生成高保真3D模拟,特别适用于农业温室等具有遮挡和重复结构的场景。

  • Motivation: 传统基于网格的3D模拟在复杂环境(如密集温室)中表现不佳,而现有的神经渲染方法虽然视觉真实感强,但缺乏整合基准标记的能力,这对机器人定位和控制至关重要。
  • Method: 开发了一种混合框架,将高斯泼溅(GS)的光真实感与结构化标记表示相结合,核心贡献是提出了一种新颖算法,能够在杂乱场景中高效生成基于GS的基准标记(如AprilTags)。
  • Result: 实验表明,该方法在效率和姿态估计精度方面均优于传统的图像拟合技术,并在温室模拟中验证了框架的实用性。
  • Conclusion: 该框架在具有密集植被、相似元素和遮挡的农业环境中表现出色,为现实世界应用提供了重要价值,特别是在机器人感知和定位方面。

[45] Dual Orthogonal Guidance for Robust Diffusion-based Handwritten Text Generation

Konstantina Nikolaidou,George Retsinas,Giorgos Sfikas,Silvia Cascianelli,Rita Cucchiara,Marcus Liwicki

Main category: cs.CV

TL;DR: 提出DOG采样引导策略,通过正交投影改进扩散模型的手写文本生成,解决伪影和风格多样性问题

  • Motivation: 标准扩散模型在手写文本生成中容易记忆训练样本,在处理风格变化和生成清晰度方面存在困难,特别是在处理困难风格时会产生伪影和失真
  • Method: 提出双重正交引导(DOG)策略,利用负向扰动提示的正交投影到原始正向提示,采用三角调度控制去噪过程中的引导强度
  • Result: 在DiffusionPen和One-DM上的实验表明,DOG提高了内容清晰度和风格多样性,即使在词汇外单词和挑战性书写风格下也有效
  • Conclusion: DOG提供了一种更稳定、解耦的潜在空间方向,相比标准分类器自由引导能产生更清晰和多样化的手写文本生成结果

[46] Probabilistic Temporal Masked Attention for Cross-view Online Action Detection

Liping Xie,Yang Tan,Shicheng Jing,Huimin Lu,Kanjian Zhang

Main category: cs.CV

TL;DR: 提出概率时序掩码注意力模型(PTMA),通过概率建模和跨视图压缩表示解决在线动作检测中的视角敏感问题,在多个数据集上达到SOTA性能

  • Motivation: 主流在线动作检测模型对视频视角变化敏感,在面对未见过的视频源时泛化能力受限,需要解决视角不变性问题
  • Method: 提出PTMA模型,使用概率建模获得跨视图的潜在压缩表示,结合GRU基础的时序掩码注意力单元查询视频序列,增强信息交互和自回归帧级分析,整合多视角信息提取视角不变特征
  • Result: 在DAHLIA、IKEA ASM和Breakfast数据集上,通过跨主体、跨视角和跨主体-视角三种评估协议,PTMA达到了最先进的性能
  • Conclusion: PTMA模型通过概率建模和时序掩码注意力机制有效解决了在线动作检测中的视角敏感问题,提升了模型的泛化能力

[47] A Novel Local Focusing Mechanism for Deepfake Detection Generalization

Mingliang Li,Lin Yuanbo Wu,Changhong Liu,Hanxi Li

Main category: cs.CV

TL;DR: 提出局部聚焦机制(LFM)解决深度伪造检测中的泛化问题,通过显著性网络和Top-K池化选择最具信息量的局部特征,在准确率和效率上均超越现有方法

  • Motivation: 现有基于重建学习的深度伪造检测方法在跨类别和跨生成域时泛化能力差,主要因为深度CNN容易过拟合语义特征分布,且全局平均池化会丢失关键的局部伪造线索
  • Method: 提出局部聚焦机制(LFM),包含显著性网络(SNet)和任务特定的Top-K池化(TKP)模块来选择K个最具信息量的局部模式,并引入基于排名的线性dropout(RBLD)和随机K采样(RKS)正则化技术防止过拟合
  • Result: LFM在准确率上比最先进的NPR方法提升3.7%,平均精度提升2.8%,同时在单块NVIDIA A6000 GPU上达到1789 FPS的卓越效率
  • Conclusion: 该方法为跨域深度伪造检测设立了新的基准,解决了现有方法泛化能力不足的问题

Raghul Asokan

Main category: cs.CV

TL;DR: F4-ITS是一个无需训练的视觉语言模型引导框架,通过多模态特征融合和重新排序机制,显著提升食物图像-文本检索性能,在资源受限环境下表现出色。

  • Motivation: 数字食物内容的激增需要能够进行细粒度视觉理解和检索的鲁棒系统,特别是在饮食监测、智能厨房和餐厅自动化等应用中。
  • Method: 提出训练免费的VLM引导框架,包含单向/双向多模态融合策略(结合图像嵌入和VLM生成的文本描述)以及基于特征的重新排序机制(利用预测的食物成分优化检索结果)。
  • Result: 在密集和稀疏标注场景下,top-1检索分别提升约10%和7.7%,top-k成分级检索提升约28.6%。小模型通过文本融合可以匹配或超越大模型性能。
  • Conclusion: 该方法显著提高了食物图像-文本匹配的检索性能,特别是在资源受限环境中表现出色,证明了多模态特征融合的有效性。

[49] M3DMap: Object-aware Multimodal 3D Mapping for Dynamic Environments

Dmitry Yudin

Main category: cs.CV

TL;DR: 本文提出了一种多模态3D地图构建方法的分类法,并开发了M3DMap模块化方法,用于静态和动态场景的对象感知多模态3D地图构建。

  • Motivation: 动态环境中的3D建图是机器人学和自动驾驶领域的挑战,缺乏能够整合图像、点云和文本等多模态数据的通用动态3D场景表示方法。
  • Method: 提出了M3DMap模块化方法,包含神经多模态对象分割与跟踪模块、里程计估计模块、3D地图构建与更新模块以及多模态数据检索模块。
  • Result: 开发了完整的模块化系统,能够处理静态和动态场景,支持从3D对象定位到移动操作等多种实际任务。
  • Conclusion: 使用多模态数据和现代基础模型对3D建图方法具有积极影响,提出的分类法和M3DMap方法为解决动态环境3D建图问题提供了有效途径。

[50] Styleclone: Face Stylization with Diffusion Based Data Augmentation

Neeraj Matiyali,Siddharth Srivastava,Gaurav Sharma

Main category: cs.CV

TL;DR: StyleClone是一种图像风格转换方法,通过文本反演和扩散引导生成技术增强小规模风格数据集,训练出快速且高质量的图像转换网络

  • Motivation: 解决有限风格图像条件下的人脸风格化问题,传统方法在数据稀缺时性能受限,需要提升风格多样性和转换质量
  • Method: 结合文本反演和基于扩散的引导图像生成来增强风格数据集,系统生成多样化风格样本,然后训练快速的图像到图像转换网络
  • Result: 在多种风格上表现出更好的风格化质量,更好地保留源图像内容,推理速度显著提升,超越基于扩散的方法
  • Conclusion: 该方法有效解决了小数据集风格化问题,提供了数据增强技术的系统评估,在速度和质量方面都有显著改进

[51] PVNet: Point-Voxel Interaction LiDAR Scene Upsampling Via Diffusion Models

Xianjing Cheng,Lintai Wu,Zuowen Wang,Junhui Hou,Jie Wen,Yong Xu

Main category: cs.CV

TL;DR: PVNet是一个基于扩散模型的点云上采样框架,首次实现场景级点云任意倍率上采样,无需密集监督,通过点-体素交互提升室外稀疏LiDAR点云质量

  • Motivation: 室外3D场景理解依赖高质量点云,但LiDAR扫描数据通常极端稀疏,现有上采样方法主要针对单个物体,在复杂室外场景泛化能力有限
  • Method: 采用无分类器引导的DDPM扩散模型,以稀疏点云为条件,邻近帧合成点云为输入;设计体素补全模块精化粗体素特征;提出点-体素交互模块整合点和体素特征
  • Result: 在多个基准测试中达到最先进性能,支持任意上采样倍率,有效提升环境感知能力
  • Conclusion: PVNet是首个场景级点云上采样方法,通过扩散模型和点-体素交互机制,显著改善了室外稀疏LiDAR点云的上采样效果

[52] DeltaFlow: An Efficient Multi-frame Scene Flow Estimation Method

Qingwen Zhang,Xiaomeng Zhu,Yushan Zhang,Yixi Cai,Olov Andersson,Patric Jensfelt

Main category: cs.CV

TL;DR: DeltaFlow是一个轻量级3D场景流估计框架,通过Δ方案高效提取时序特征,解决了多帧方法计算成本高的问题,并引入类别平衡损失和实例一致性损失来提升精度

  • Motivation: 现有的场景流估计方法主要关注两帧输入,忽略了时序信息价值;而多帧方法随着帧数增加计算成本急剧上升,需要更高效的时序信息利用方式
  • Method: 提出DeltaFlow框架:1) 使用Δ方案以最小计算成本捕获运动线索和提取时序特征;2) 引入类别平衡损失处理类别分布不平衡问题;3) 使用实例一致性损失确保物体运动一致性
  • Result: 在Argoverse 2和Waymo数据集上达到SOTA性能:误差降低22%,推理速度快2倍,同时表现出强大的跨域泛化能力
  • Conclusion: DeltaFlow通过高效的时序特征提取和创新的损失函数设计,在保持计算效率的同时显著提升了场景流估计的精度和泛化能力

[53] REGEN: Real-Time Photorealism Enhancement in Games via a Dual-Stage Generative Network Framework

Stefanos Pasios,Nikos Nikolaidis

Main category: cs.CV

TL;DR: 通过双阶段生成对抗网络框架REGEN,实现了游戏渲染帧的实时照相实感增强,在保持视觉质量的同时提升推理速度32.14倍。

  • Motivation: 解决游戏动态环境中实时照相实感渲染的挑战,突破视觉质量与性能之间的交换价。
  • Method: 提出REGEN双阶段生成对抗网络框架,先用稳健的非配对图像转换模型生成语义一致的照相实感帧,再转换为简化的配对图像转换任务进行轻量级训练。
  • Result: 在GTA V中证明框架有效,视视效果可与稳健非配对方法相比,同时推理速度提升32.14倍,超越了直接训练轻量级非配对方法的效果。
  • Conclusion: REGEN框架成功实现了游戏渲染帧的实时照相实感增强,为解决视觉质量与性能的平衡问题提供了有效方案。

[54] SSG-Dit: A Spatial Signal Guided Framework for Controllable Video Generation

Peng Hu,Yu Gu,Liang Luo,Fuji Ren

Main category: cs.CV

TL;DR: SSG-DiT是一个新颖的可控视频生成框架,通过空间信号引导和双阶段处理,显著提升了生成视频与文本提示的语义一致性

  • Motivation: 现有视频生成模型在保持语义一致性方面存在困难,经常生成与提示细节不符的视频内容,需要解决这一挑战
  • Method: 提出解耦的两阶段方法:1)空间信号提示阶段利用预训练多模态模型生成空间感知视觉提示;2)通过轻量级SSG-Adapter将联合条件注入冻结的视频DiT主干,采用双分支注意力机制
  • Result: 在VBench基准测试中达到最先进性能,在空间关系控制和整体一致性等关键指标上超越现有模型
  • Conclusion: SSG-DiT框架通过空间信号引导和参数高效的设计,成功解决了可控视频生成中的语义一致性问题,为高质量视频合成提供了有效解决方案

[55] Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry

Haoyu Yun,Hamid Krim

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的框架,将视觉Transformer与近端工具相结合,通过统一的几何优化方法来改善特征表示和分类性能。

  • Motivation: 虽然ViT在计算机视觉中取得了显著成功,但其优化仅限于建模单张图片内部的局部关系,无法抓取数据点之间的全局几何关系。
  • Method: 通过ViT的自注意力机制构建流形的切线束,每个注意力头对应一个切线空间,提供多样化的局部视角几何表示。然后引入近端迭代来定义切线束内的截面并将数据从切线空间投影到基空间。
  • Result: 实验结果证实,所提方法在分类准确性和数据分布方面都超过传统ViT。
  • Conclusion: 该方法通过统一的几何优化接口,有效地完善了ViT的特征表示能力,实现了全局特征对齐和优化。

[56] PD-Loss: Proxy-Decidability for Efficient Metric Learning

Pedro Silva,Guilherme A. L. Silva,Pablo Coelho,Vander Freitas,Gladston Moreira,David Menotii,Eduardo Luz

Main category: cs.CV

TL;DR: PD-Loss结合了代理方法和可分离性统计框架,在保持计算效率的同时优化嵌入空间的全局分布特性

  • Motivation: 现有的深度度量学习方法存在局限性:成对损失需要复杂采样且收敛慢,代理损失无法优化全局分布特性,而基于可分离性的D-Loss又受限于大批次计算需求
  • Method: 提出Proxy-Decidability Loss (PD-Loss),通过可学习代理来估计真实分布和冒名分布,将代理方法的高效性与可分离性统计框架相结合
  • Result: 在细粒度分类和人脸验证等任务上,PD-Loss达到了与最先进方法相当的性能,同时提供了可扩展的分布感知优化
  • Conclusion: PD-Loss为嵌入优化提供了新的视角,结合了计算效率和原则性的可分离性优化,具有广泛的应用潜力

[57] GRASP: Geospatial pixel Reasoning viA Structured Policy learning

Chengjie Jiang,Yunqi Zhou,Jiafeng Yan,Jing Li

Main category: cs.CV

TL;DR: GRASP是一个结构化策略学习框架,通过强化学习从边界框和点提示中学习地理空间像素推理,无需密集掩码监督,在域内外数据集上均取得SOTA效果

  • Motivation: 现有MLLM系统需要密集像素监督训练,成本高昂且在域外数据上表现不佳,需要更高效且泛化能力强的解决方案
  • Method: 使用多模态大语言模型生成边界框和正点提示,然后输入预训练分割模型生成最终掩码,仅通过GRPO强化学习优化,使用格式奖励和准确性奖励
  • Result: 在域内数据上提升约4%,在域外基准上提升高达54%,表现出强大的泛化能力
  • Conclusion: 复杂的地理空间分割行为可以通过强化学习从弱空间线索中学习,证明了方法的有效性和泛化能力

[58] SugarcaneShuffleNet: A Very Fast, Lightweight Convolutional Neural Network for Diagnosis of 15 Sugarcane Leaf Diseases

Shifat E. Arman,Hasan Muhammad Abdullah,Syed Nazmus Sakib,RM Saiem,Shamima Nasrin Asha,Md Mehedi Hasan,Shahrear Bin Amin,S M Mahin Abrar

Main category: cs.CV

TL;DR: 该论文提出了SugarcaneLD-BD数据集、SugarcaneShuffleNet轻量模型和SugarcaneAI应用,为低资源地区的甘蔗叶病诊断提供高效可解释的解决方案。

  • Motivation: 解决AI植物诊断在低资源地区应用的挑战,现有深度学习模型在真实条件下泛化能力不足且计算资源需求高,限制了在资源受限地区的使用。
  • Method: 构建包含638张图像的甘蔗叶病数据集,结合其他数据集增强多样性;开发优化的轻量级SugarcaneShuffleNet模型,并与MnasNet、EdgeNeXt等其他轻量CNN模型进行对比;集成到渐进式Web应用中提供Grad-CAM解释。
  • Result: SugarcaneShuffleNet模型仅9.26MB,达到98.02%准确率和0.98 F1分数,单图推理时间4.14ms,在速度和精度间取得最佳平衡。
  • Conclusion: 该研究为甘蔗病害分类提供了多样化基准、适用于低资源环境的高效模型以及实用的现场诊断工具,能够应对农场中不同的光照、背景和设备条件。

[59] PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science

Syed Nazmus Sakib,Nafiul Haque,Mohammad Zabed Hossain,Shifat E. Arman

Main category: cs.CV

TL;DR: PlantVillageVQA是一个大规模农业视觉问答数据集,包含19.3万个QA对,基于5.5万张图像,涵盖14种作物和38种病害,旨在提升植物病害诊断的准确性。

  • Motivation: 推动农业决策和分析的视觉语言模型发展,提供专家验证的标准数据集来增强植物病害识别诊断准确性。
  • Method: 采用两阶段自动化流程:(1)基于图像元数据的模板QA合成,(2)多阶段语言重构,并由领域专家迭代审核科学准确性和相关性。
  • Result: 构建了包含193,609个高质量QA对的数据集,涵盖3个认知复杂度和9个问题类别,使用三个最先进模型进行了质量评估。
  • Conclusion: 该数据集将作为公开可用的标准化专家验证数据库,促进农业领域的科学研究,提升植物病害诊断的准确性。

[60] CE-RS-SBCIT A Novel Channel Enhanced Hybrid CNN Transformer with Residual, Spatial, and Boundary-Aware Learning for Brain Tumor MRI Analysis

Mirza Mumtaz Zahoor,Saddam Hussain Khan

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的混合框架CE-RS-SBCIT,通过结合CNN和Transformer的优势,解决了脑脱病变MRI图像分析中的计算成本高、对对比度变化敏感等挑战,在多个数据集上达到了98%以上的准确率。

  • Motivation: 常规CNN和Transformer在脑脱病变MRI图像分析中面临计算成本高、对对比度变化敏感、结构异质性和纹理不一致性等挑战,需要一种更有效的混合方法来提高诊断准确性。
  • Method: 提出CE-RS-SBCIT混合框架,包含四个核心创新:1)平滑和边界基础的CNN集成Transformer(SBCIT);2)尾装的残差和空间学习CNN;3)通道增强(CE)策略;4)新的空间注意力机制。通过结合局部细粒度和全局上下文特征来提高表征能力。
  • Result: 在Kaggle和Figshare的脑脱病变MRI数据集上进行评估,涵盖跨米细胞瘤、脑膜瘤、脑下腿瘤和健康对照组。结果显示优异性能:准确度98.30%、敏感度98.08%、F1分数98.25%、精确度98.43%。
  • Conclusion: CE-RS-SBCIT框架通过创新地结合CNN和Transformer的优势,有效解决了脑脱病变MRI图像分析中的关键挑战,在多个评估指标上都取得了突出的性能,为诊断和治疗规划提供了可靠的计算辅助工具。

[61] Structural Damage Detection Using AI Super Resolution and Visual Language Model

Catherine Hoier,Khandaker Mamun Ahmed

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于无人机和AI技术的灾害损坏评估框架,通过视频超分辨率和视觉语言模型提高了损坏分类的准确性和效率。

  • Motivation: 传统灾害损坏评估方法劳动密集、成本高且危险,在资源有限环境下很难实现快速响应。需要一种成本效益高、安全的自动化解决方案。
  • Method: 整合无人机并抓投影像、视频超分辨率模型VRT和270亿参数视觉语言模型Gemma3:27b,建立了一个能够提升低分辨率灾害影像、识别结构损坏并将建筑按损坏程度分为四级的系统。
  • Result: 在土耳兰2023地震和2013摩尔龙卷风数据集上验证,框架达到了84.5%的分类准确率,显示出高精度的评估能力。
  • Conclusion: 该框架不仅提供了准确的灾害损坏评估,还允许非技术用户进行初步分析,显著提高了灾害管理的响应速度和效率。

[62] Beyond Play and Pause: Turning GPT-4o Spatial Weakness into a Strength for In-Depth Interactive Video Learning

Sajad Goudarzi,Samaneh Zamanifard

Main category: cs.CV

TL;DR: Untwist是一个AI驱动的交互式视频学习系统,允许用户通过边界框对视频特定区域提问,获得多模态的上下文感知回答,将被动视频观看转变为主动学习体验。

  • Motivation: 传统视频学习是被动的,现有AI工具缺乏实时、区域特定的交互能力。需要开发能够支持用户与视频内容进行动态交互的系统。
  • Method: 集成GPT API和计算机视觉技术,通过视频预处理提取和结构化内容,利用标注帧而非原始坐标数据来克服GPT-4o的空间定位弱点,实现实时交互。
  • Result: 系统显著提高了视频内容定位和解释的准确性,能够提供上下文感知的多模态响应。
  • Conclusion: Untwist有潜力将被动视频消费转变为交互式AI驱动的学习体验,提升用户参与度和理解力。

[63] Development of an isotropic segmentation model for medial temporal lobe subregions on anisotropic MRI atlas using implicit neural representation

Yue Li,Pulkit Khandelwal,Rohit Jena,Long Xie,Michael Duong,Amanda E. Denning,Christopher A. Brown,Laura E. M. Wisse,Sandhitsu R. Das,David A. Wolk,Paul A. Yushkevich

Main category: cs.CV

TL;DR: 使用隐式神经表示方法结合T1和T2加权MRI的优势,构建了各向同性高分辨率MTL亚区图谱,提高了阿尔茨海默病影像生物标志物的准确性。

  • Motivation: 由于T2加权MRI的各向异性分辨率限制,难以准确提取内侧颞叶皮质亚区厚度,影响了阿尔茨海默病影像生物标志物的准确性。
  • Method: 采用隐式神经表示方法,结合T1和T2加权MRI的分辨率优势,将各向异性空间的MTL亚区图谱上采样到各向同性空间,建立多模态高分辨率图谱集,并开发各向同性MTL亚区分割模型。
  • Result: 在独立测试集中,各向同性模型提取的皮质亚区厚度在区分轻度认知障碍和认知正常参与者方面比各向异性方法显著性更高;在纵向分析中,各向同性方法提取的生物标志物在认知正常参与者中表现出更好的稳定性。
  • Conclusion: 该方法在不增加图谱标注工作量的情况下提高了AD影像生物标志物的准确性,有助于更精确量化AD与脑萎缩的关系,为疾病追踪提供更准确的测量指标。

[64] VROOM - Visual Reconstruction over Onboard Multiview

Yajat Yadav,Varun Bharadwaj,Jathin Korrapati,Tanish Baranwal

Main category: cs.CV

TL;DR: VROOM系统使用F1赛车车载摄像头视频重建摩纳哥大奖赛赛道3D模型,解决了高速运动和画面突变等挑战,部分恢复了赛道和车辆轨迹。

  • Motivation: 利用车载摄像头视频进行4D重建,解决真实场景中高速运动和计算约束的挑战,探索在复杂环境中进行可扩展重建的可行性。
  • Method: 结合DROID-SLAM、AnyCam和Monst3r等方法,采用掩码处理、时间分块和分辨率缩放等预处理技术来处理动态运动和计算限制。
  • Result: 系统能够部分恢复复杂环境中的赛道和车辆轨迹,证明了使用车载视频在真实场景中进行可扩展4D重建的可行性。
  • Conclusion: VROOM系统展示了仅使用车载摄像头视频进行3D赛道重建的潜力,为实时4D重建在真实世界应用提供了技术基础。

[65] Advancing Weakly-Supervised Change Detection in Satellite Images via Adversarial Class Prompting

Zhenghui Zhao,Chen Wu,Di Wang,Hongruixuan Chen,Cuiqun Chen,Zhuo Zheng,Bo Du,Liangpei Zhang

Main category: cs.CV

TL;DR: 提出AdvCP方法解决弱监督变化检测中的背景噪声问题,通过对抗提示挖掘和样本校正来提升性能,无需增加推理成本

  • Motivation: 弱监督变化检测仅依赖图像级标签,容易将背景变化误判为目标变化,特别是在复杂遥感场景中
  • Method: 包含两个阶段:对抗提示挖掘(使用错误标签激活错误特征映射)和对抗样本校正(构建在线全局原型整合样本)
  • Result: 在ConvNet、Transformer和SAM基线上均显示显著性能提升,且可泛化到其他多类弱监督密集预测场景
  • Conclusion: AdvCP方法有效解决了弱监督变化检测中的共现噪声问题,具有很好的通用性和实用性

[66] MMCIG: Multimodal Cover Image Generation for Text-only Documents and Its Dataset Construction via Pseudo-labeling

Hyeyeon Kim,Sungwoo Han,Jingun Kwon,Hidetaka Kamigaito,Manabu Okumura

Main category: cs.CV

TL;DR: 提出了一种新颖的多模态封面图像生成任务,通过多模态伪标注方法构建高质量数据集,能够从纯文本文档生成简洁摘要和对应的视觉图像。

  • Motivation: 现有的封面图像生成任务缺乏专门的数据集,需要一种低成本构建高质量数据集的方法来同时处理文本摘要和图像生成。
  • Method: 采用多模态伪标注方法:收集含多图像和标题的文档,排除事实不一致实例;通过黄金摘要独立对图像和标题进行排序;当图像和对应标题都排名第一时标注伪标签;移除包含直接图像引用的文档。
  • Result: 实验结果表明,所提出的多模态伪标注方法比单独考虑标题和图像的单模态方法构建的数据集更精确,生成的图像质量更高。
  • Conclusion: 多模态伪标注方法能有效构建高质量的封面图像生成数据集,为同时生成文本摘要和对应视觉图像提供了可行的解决方案。

[67] Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding

Yunxiang Yang,Ningning Xu,Jidong J. Yang

Main category: cs.CV

TL;DR: 提出基于专家混合策略的多智能体高速公路场景理解框架,使用大VLM生成任务特定的CoT提示来指导小VLM进行多模态推理,实现天气分类、路面湿度和交通拥堵检测等多任务分析。

  • Motivation: 解决高速公路场景中多任务感知的挑战,需要在保持计算效率的同时实现准确的天气、路面状况和交通流量分析,以提升交通安全和 situational awareness。
  • Method: 采用混合专家策略,使用大型通用VLM(如GPT-4o)生成任务特定的链式思考提示,指导小型高效VLM(如Qwen2.5-VL-7B)对短视频和多模态数据进行推理分析。
  • Result: 在专门构建的三个数据集上验证,表现出一致的强性能,特别是在结合视频和道路天气传感器的多模态路面湿度检测方面效果显著。
  • Conclusion: 该框架能够有效集成到现有交通摄像头系统中,特别适用于高风险农村地区,在资源受限环境下提供持续监控和及时警报,提升交通安全水平。

[68] Multi-modal Knowledge Decomposition based Online Distillation for Biomarker Prediction in Breast Cancer Histopathology

Qibin Zhang,Xinyu Hao,Qiao Chen,Rui Xu,Fengyu Cong,Cheng Lu,Hongming Xu

Main category: cs.CV

TL;DR: 提出基于多模态知识分解的在线蒸馏方法,通过教师-学生模型架构,在训练时利用基因组-病理学配对数据,推理时仅需病理切片即可实现优异的IHC生物标志物预测

  • Motivation: 解决多模态数据(如基因组和病理信息)同时获取困难的问题,通过知识蒸馏技术让单模态病理图像也能获得多模态数据的预测优势
  • Method: 多模态知识分解(MKD)框架,包含两个教师模型和一个学生模型,通过最小化MKD损失提取模态特定和模态通用特征;结合相似性保持知识蒸馏(SKD)和协作在线蒸馏(CLOD)技术
  • Result: 在TCGA-BRCA和内部QHSU数据集上验证,使用单模态数据实现了优异的IHC生物标志物预测性能
  • Conclusion: 该方法有效解决了多模态数据获取难题,为仅使用病理切片进行精准生物标志物预测提供了可行方案

[69] Deep Learning with Self-Attention and Enhanced Preprocessing for Precise Diagnosis of Acute Lymphoblastic Leukemia from Bone Marrow Smears in Hemato-Oncology

Md. Maruf,Md. Mahbubul Haque,Bishowjit Paul

Main category: cs.CV

TL;DR: 提出基于深度学习的急性淋巴细胞白血病自动诊断框架,通过VGG19+多头自注意力机制和Focal Loss实现99.25%的高精度分类

  • Motivation: 传统白血病诊断流程复杂耗时且易出错,需要开发自动化、高精度的诊断工具来指导治疗决策
  • Method: 结合预处理流程和CNN,在VGG19骨干网络中插入多头自注意力块来建模细胞特征的长程依赖关系,使用Focal Loss缓解类别不平衡问题
  • Result: 增强的VGG19+MHSA模型达到99.25%准确率,优于ResNet101基线模型(98.62%)
  • Conclusion: 注意力增强的CNN结合针对性损失优化和预处理,能够产生更具判别性的白血病细胞形态表征,为临床提供高效准确的自动化诊断工具

[70] 4D Visual Pre-training for Robot Learning

Chengkai Hou,Yanjie Ze,Yankai Fu,Zeyu Gao,Songbo Hu,Yue Yu,Shanghang Zhang,Huazhe Xu

Main category: cs.CV

TL;DR: FVP是一个新颖的4D视觉预训练框架,通过点云预测扩散模型提升3D表示性能,在12个真实世界操作任务中将DP3的成功率平均提升28%

  • Motivation: 现有的视觉预训练表示主要基于2D图像,忽略了世界的3D本质,但由于大规模3D数据稀缺,难以从网络数据集中提取通用3D表示
  • Method: 将视觉预训练目标构建为下一个点云预测问题,使用扩散模型作为预测模型,直接在大型公共数据集上进行预训练
  • Result: 在12个真实世界操作任务中,FVP将3D Diffusion Policy的平均成功率提升28%,达到模仿学习方法的最先进性能,且适用于各种点云编码器和数据集
  • Conclusion: FVP框架有效提升了3D表示性能,可应用于不同模型架构,包括更大的视觉-语言-动作机器人模型,显著改善了机器人任务表现

[71] PersPose: 3D Human Pose Estimation with Perspective Encoding and Perspective Rotation

Xiaoyang Hao,Han Li

Main category: cs.CV

TL;DR: 该论文提出了PersPose框架,通过视角编码和视角旋转技术解决单目3D人体姿态估计中因裁剪图像缺乏相机内参和透视失真导致的问题,在多个数据集上达到SOTA性能。

  • Motivation: 现有3D人体姿态估计方法仅使用裁剪图像作为输入,但缺乏相机内参信息导致关节相对深度估计不准确,且人体偏离图像中心时会产生透视失真,增加了模型拟合难度。
  • Method: 提出视角编码(PE)来编码裁剪图像的相机内参信息,并引入视角旋转(PR)变换将人体主体居中,减少透视失真。结合两者构建PersPose框架。
  • Result: 在3DPW、MPI-INF-3DHP和Human3.6M数据集上达到state-of-the-art性能,在3DPW数据集上MPJPE为60.1mm,比之前最佳方法降低7.54%。
  • Conclusion: PersPose通过有效整合相机内参信息和减少透视失真,显著提升了单目3D人体姿态估计的精度,为解决该领域的关键挑战提供了有效方案。

[72] CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models

Zicong Tang,Ziyang Ma,Suqing Wang,Zuchao Li,Lefei Zhang,Hai Zhao,Yun Li,Qianren Wang

Main category: cs.CV

TL;DR: CoViPAL是一种层级的上下文视觉token剪枝方法,通过轻量级插件模块在LVLM处理前预测并移除冗余视觉token,显著提升推理效率而不损失精度

  • Motivation: 大型视觉语言模型处理图像时会产生大量视觉token,导致计算成本高和内存开销大。现有剪枝方法在浅层效果不佳,但许多视觉token在浅层就存在冗余
  • Method: 提出CoViPAL方法,使用即插即用剪枝模块(PPM)在LVLM处理前预测和移除冗余视觉token。PPM轻量级、模型无关,可无缝集成到各种模型中
  • Result: 在多个基准测试中,CoViPAL在相同token预算下优于无训练剪枝方法,在可比监督下超越基于训练的方法
  • Conclusion: CoViPAL为LVLMs提供了可扩展且高效的推理效率提升方案,在不影响准确性的前提下显著降低计算成本

[73] Uncovering and Mitigating Destructive Multi-Embedding Attacks in Deepfake Proactive Forensics

Lixin Jia,Haiyang Sun,Zhiqing Guo,Yunfeng Diao,Dan Ma,Gaobo Yang

Main category: cs.CV

TL;DR: 本文首次提出并定义了多重嵌入攻击(MEA),揭示了现有深度伪造主动取证方法在多重水印嵌入场景下的脆弱性,并提出了一种通用的对抗干扰模拟(AIS)训练范式来增强水印的鲁棒性。

  • Motivation: 随着深度伪造技术的快速发展和数字媒体的广泛传播,个人隐私面临严重安全威胁。现有主动取证方法基于单一水印嵌入的理想化假设,但在现实场景中可能遭受多重嵌入攻击,导致原始取证水印被破坏或移除。
  • Method: 提出对抗干扰模拟(AIS)训练范式,在微调过程中显式模拟MEA场景,引入韧性驱动的损失函数来学习稀疏稳定的水印表示,而不需要修改网络架构。
  • Result: 大量实验表明,AIS训练范式显著增强了各种现有方法对MEA的鲁棒性,使模型能够在第二次嵌入后仍能正确提取原始水印。
  • Conclusion: AIS作为一种即插即用的训练方法,有效解决了多重水印嵌入导致的主动取证机制失效问题,为深度伪造防御提供了更可靠的解决方案。

[74] A biological vision inspired framework for machine perception of abutting grating illusory contours

Xiao Zhang,Kai-Fu Yang,Xian-Shi Zhang,Hong-Zhi You,Hong-Mei Yan,Yong-Jie Li

Main category: cs.CV

TL;DR: 提出ICPNet网络,通过模拟视觉皮层电路解决DNN在错觉轮廓感知方面与人类感知不一致的问题,在AG-MNIST和AG-Fashion-MNIST数据集上取得显著性能提升

  • Motivation: 深度神经网络在现实任务中表现优异,但在感知错觉轮廓(如abutting grating)方面与人类感知模式存在差异,需要提高机器智能与人类感知认知的对齐程度
  • Method: 提出ICPNet网络,包含多尺度特征投影模块(MFP)提取多尺度表征,特征交互注意力模块(FIAM)增强前馈和反馈特征交互,边缘融合模块(EFM)通过边缘检测任务注入形状约束
  • Result: 在AG-MNIST和AG-Fashion-MNIST测试集上,ICPNet对错觉轮廓的敏感性显著优于现有最优模型,在各种子集上的top-1准确率都有显著提升
  • Conclusion: 这项工作朝着基于DNN的模型实现人类水平智能迈出了一步,解决了DNN在错觉轮廓感知方面与人类感知的对齐问题

[75] SEER-VAR: Semantic Egocentric Environment Reasoner for Vehicle Augmented Reality

Yuzhi Lai,Shenghai Yuan,Peizheng Li,Jun Lou,Andreas Zell

Main category: cs.CV

TL;DR: SEER-VAR是一个创新的车载AR框架,通过语义分解、上下文感知SLAM分支和LLM驱动的推荐系统,在动态驾驶环境中实现鲁棒的空间对齐和感知一致的AR渲染。

  • Motivation: 现有的AR系统通常假设静态或单视图设置,无法满足动态驾驶环境中对场景理解和上下文感知AR叠加的需求。
  • Method: 使用深度引导的视觉语言基础动态分离车内和道路场景,采用两个SLAM分支分别跟踪不同上下文的自我运动,并基于GPT的模块生成上下文感知的叠加内容。
  • Result: 在真实世界数据集EgoSLAM-Drive上的实验表明,SEER-VAR实现了鲁棒的空间对齐和感知一致的AR渲染,提升了场景理解、叠加相关性和驾驶便利性。
  • Conclusion: SEER-VAR为基于LLM的AR推荐在自我中心驾驶中的应用提供了有效基础,是这一研究方向的首批探索之一,代码和数据集将开源。

Sumedha Arya,Nirmal Gaud

Main category: cs.CV

TL;DR: ResLink是一种新型深度学习架构,通过整合区域注意力机制和残差连接,在脑肿瘤CT图像分类中达到95%的高准确率。

  • Motivation: 脑肿瘤对神经功能构成严重威胁,早期准确诊断对有效治疗至关重要,需要开发更精确的医学影像分类方法。
  • Method: 提出ResLink架构,结合新颖的区域注意力机制和残差连接,采用多阶段卷积管道,包含dropout、正则化和下采样,最后通过基于注意力的细化进行分类。
  • Result: 在平衡数据集上训练后,ResLink实现了95%的高准确率,并展现出强大的泛化能力。
  • Conclusion: ResLink在脑肿瘤分类方面显示出巨大潜力,为医学影像应用提供了强大而高效的技术解决方案。

[77] CLIFF: Continual Learning for Incremental Flake Features in 2D Material Identification

Sankalp Pandey,Xuan Bac Nguyen,Nicholas Borys,Hugh Churchill,Khoa Luu

Main category: cs.CV

TL;DR: 提出了CLIFF框架,首个在二维材料领域系统研究持续学习的方法,通过冻结主干网络和基础头,学习材料特定的提示、嵌入和增量头来解决量子薄片自动分类问题

  • Motivation: 量子薄片识别对可扩展量子硬件至关重要,但光学显微镜下的自动层分类因不同材料间显著的外观变化而具有挑战性
  • Method: 冻结在参考材料上训练的主干网络和基础头,为每个新材料学习材料特定的提示、嵌入和增量头,使用提示池和余弦相似性门调制特征并计算材料特定校正,同时结合知识蒸馏的记忆重放
  • Result: CLIFF实现了具有竞争力的准确率,相比朴素微调和基于提示的基线方法,遗忘显著降低
  • Conclusion: 该方法为二维材料领域的持续学习提供了有效的解决方案,能够区分不同材料及其物理光学特性

[78] AdaGAT: Adaptive Guidance Adversarial Training for the Robustness of Deep Neural Networks

Zhenyu Liu,Huizhi Liang,Xinrun Li,Vaclav Snasel,Varun Ojha

Main category: cs.CV

TL;DR: 提出AdaGAT方法,通过动态调整引导模型的训练状态来提升目标模型的对抗鲁棒性

  • Motivation: 现有对抗蒸馏方法中使用可学习引导模型时,由于从零开始学习,难以在协同训练中保持最优状态进行有效知识迁移
  • Method: 开发AdaGAT方法,包含两个独立的损失函数,使引导模型更积极参与反向传播以达到最优状态
  • Result: 在CIFAR-10、CIFAR-100和TinyImageNet数据集上,使用WideResNet-34-10作为目标模型,相比多种基线模型显著提升了对抗攻击下的鲁棒性
  • Conclusion: 适当调整引导模型在特定精度范围内可以增强目标模型在各种对抗攻击下的鲁棒性

[79] Spatial-Temporal Human-Object Interaction Detection

Xu Sun,Yunqing He,Tongwei Ren,Gangshan Wu

Main category: cs.CV

TL;DR: 提出视频中的实例级人-物交互检测任务ST-HOID,包含细粒度交互识别和轨迹追踪,构建首个数据集VidOR-HOID,新方法在实验中优于现有基线。

  • Motivation: 人-物交互对于以人为中心的视频内容理解至关重要,需要同时识别细粒度交互和追踪主体与物体的运动轨迹。
  • Method: 提出包含物体轨迹检测模块和交互推理模块的新方法,构建包含10,831个时空交互实例的VidOR-HOID数据集。
  • Result: 实验结果表明,该方法在性能上优于基于图像人-物交互检测、视频视觉关系检测和视频人-物交互识别的最先进方法生成的基线。
  • Conclusion: 提出的ST-HOID任务和新方法有效解决了视频中实例级人-物交互检测问题,为视频内容理解提供了重要技术支撑。

[80] Deep Learning-Assisted Detection of Sarcopenia in Cross-Sectional Computed Tomography Imaging

Manish Bhardwaj,Huizhi Liang,Ashwin Sivaharan,Sandip Nandhra,Vaclav Snasel,Tamer El-Sayed,Varun Ojha

Main category: cs.CV

TL;DR: 使用深度学习模型自动化CT图像中肌肉面积测量,提高肌少症评估效率

  • Motivation: 肌少症与手术不良结果相关,但手动测量肌肉面积耗时耗力,需要更高效的自动化方案
  • Method: 采用转移学习和自监督学习方法,利用标注和未标注CT数据集训练深度学习模型进行肌肉面积预测
  • Result: 模型预测肌肉面积平均误差仅±3%,预测分割掩码的Dice相似系数达93%
  • Conclusion: 该方法为肌少症评估提供了完全自动化的可行途径,能有效解决数据不平衡和数据有限问题

[81] MTNet: Learning modality-aware representation with transformer for RGBT tracking

Ruichao Hou,Boyue Xu,Tongwei Ren,Gangshan Wu

Main category: cs.CV

TL;DR: 基于Transformer的多模态RGB-T跟踪方法MTNet,通过模态感知网络和Transformer融合网络提升表征表达,达到实时高性能跟踪

  • Motivation: 常规融合范式和固定模板限制了RGB-T跟踪中的特征交互能力,需要更有效的多模态表征学习方法
  • Method: 设计模态感知网络(包括频道聚合分布模块CADM和空间相似性感知模块SSPM),使用Transformer融合网络捐捕全局依赖关系,以及三叉预测头和动态更新策略保持可靠模板
  • Result: 在三个RGB-T测试集上达到了满意的结果,性能超过当前最先进方法,同时实现了实时运行速度
  • Conclusion: MTNet通过模态感知和Transformer融合机制,有效提升了RGB-T跟踪的表征学习能力和跟踪性能,为多模态跟踪领域提供了新的解决方案

[82] Quickly Tuning Foundation Models for Image Segmentation

Breenda Das,Lennart Purucker,Timur Carstensen,Frank Hutter

Main category: cs.CV

TL;DR: QTT-SEG是一个基于元学习的自动化方法,用于快速优化SAM模型在特定图像分割任务上的微调配置,在短时间内显著提升分割性能

  • Motivation: 基础模型如SAM在零样本分割方面表现良好,但在特定领域任务上表现不佳。传统微调需要大量人工工作和领域专业知识,因此需要自动化方法来加速和优化这一过程
  • Method: 基于Quick-Tune超参数优化框架,使用元学习的成本和性能模型来预测高性能配置,在超过2亿种可能性的搜索空间中高效导航
  • Result: 在8个二分类和5个多分类分割数据集上评估,QTT-SEG在3分钟内就能超越SAM的零样本性能,并且在大多数二分类任务上胜过AutoGluon Multimodal基准
  • Conclusion: 研究结果突显了元学习在自动化模型适配专门分割任务方面的潜力,为快速优化基础模型提供了有效解决方案

[83] Explain Before You Answer: A Survey on Compositional Visual Reasoning

Fucai Ke,Joy Hsu,Zhixi Cai,Zixian Ma,Xin Zheng,Xindi Wu,Sukai Huang,Weiqing Wang,Pari Delir Haghighi,Gholamreza Haffari,Ranjay Krishna,Jiajun Wu,Hamid Rezatofighi

Main category: cs.CV

TL;DR: 这是一份关于组合式视觉推理的综述性论文,系统总结了260+章论文,分析了该领域的发展过程、方法演进、评测标准和今后挑战。

  • Motivation: 组合式视觉推理作为多模态AI的关键研究前沿,需要专门的综述性研究来系统总结这个快速扩展的领域,以便为研究者提供基础参考和研究灵感。
  • Method: 系统分析了260+章论文,进行了五个阶段的范式转移分析:从提示增强语言中心流程,到工具增强LLM和VLM,再到链式思维推理和统一代理VLM,并识别了60+个评测标准。
  • Result: 本研究提供了统一的分类法、历史发展路线图和关键见解,识别了当前的挑战如LLM基础推理的局限性、幻觉问题、偏向演绎推理、扩展性监督等问题。
  • Conclusion: 该综述性研究为组合式视觉推理领域提供了基础性参考,并提出了未来研究方向包括世界模型集成、人工智能协作推理和丰富的评估协议,有助于推动下一代组合式视觉推理研究的发展。

[84] FoundDiff: Foundational Diffusion Model for Generalizable Low-Dose CT Denoising

Zhihao Chen,Qi Gao,Zilong Li,Junping Zhang,Yi Zhang,Jun Zhao,Hongming Shan

Main category: cs.CV

TL;DR: FoundDiff是一个基于扩散模型的基础性低剂量CT去噪方法,通过剂量-解剖感知对比学习和条件扩散模型,实现了跨不同剂量水平和解剖区域的统一去噪,具有优异的泛化能力。

  • Motivation: 现有基于深度学习的低剂量CT去噪方法通常在特定剂量水平和解剖区域上训练,难以处理不同扫描条件下的噪声特征和解剖异质性,限制了在临床场景中的通用性和鲁棒性。
  • Method: 采用两阶段策略:(1)剂量-解剖感知对比语言图像预训练模型(DA-CLIP),通过专门对比学习策略学习连续表示来量化剂量变化和识别解剖区域;(2)剂量-解剖感知扩散模型(DA-Diff),通过基于Mamba的剂量解剖条件块(DACB)将学习到的嵌入整合到扩散过程中。
  • Result: 在两个公共低剂量CT数据集上的广泛实验表明,FoundDiff在八个剂量水平和三个解剖区域上优于现有最先进方法,并对未见过的剂量水平表现出显著的泛化能力。
  • Conclusion: FoundDiff提供了一个统一且可泛化的低剂量CT去噪解决方案,通过创新的剂量-解剖感知机制和扩散模型集成,在多样化的临床场景中展现出卓越性能。

[85] PosBridge: Multi-View Positional Embedding Transplant for Identity-Aware Image Editing

Peilin Xiong,Junwen Chen,Honghui Yuan,Keiji Yanai

Main category: cs.CV

TL;DR: PosBridge是一个无需训练的高效图像编辑框架,通过位置嵌入移植技术将用户指定对象无缝插入目标场景,在结构一致性、外观保真度和计算效率方面优于主流基线方法。

  • Motivation: 随着生成模型规模扩大,训练成本急剧增加,需要开发无需训练且可扩展的图像编辑框架来实现定制化对象的精准插入。
  • Method: 采用位置嵌入移植技术引导扩散模型复制参考对象的结构特征,结合角点中心布局将参考图像与背景图像拼接输入FLUX.1-Fill模型,在渐进去噪过程中指导目标区域噪声分布。
  • Result: 大量实验表明,PosBridge在结构一致性、外观保真度和计算效率方面均优于主流基线方法。
  • Conclusion: PosBridge框架具有实用价值和广泛应用潜力,为无需训练的定制化对象插入提供了高效解决方案。

[86] First Place Solution to the MLCAS 2025 GWFSS Challenge: The Devil is in the Detail and Minority

Songliang Cao,Tianqi Hu,Hao Lu

Main category: cs.CV

TL;DR: 本文介绍了在MLCAS 2025小麦语义分割挑战赛中获得第一名的解决方案,通过针对小麦茎秆的特殊性设计了三个改进:动态上采样器SAPA、半监督引导蒸馏和测试时缩放策略。

  • Motivation: 当前分割技术已趋于成熟,单纯依靠技术改进难以在竞争中脱颖而出。通过可视化分析发现小麦茎秆具有细粒度结构和像素稀少的特点,是影响性能的关键因素。
  • Method: 1) 使用动态上采样器SAPA增强细节描绘;2) 采用半监督引导蒸馏结合茎秆感知样本选择挖掘未标注数据;3) 应用测试时缩放策略对图像进行两次分割。
  • Result: 该方法在竞赛中获得第一名,明显优于第二名,证明了针对问题本质进行针对性改进的有效性。
  • Conclusion: 针对特定问题的本质特征进行定制化改进比通用技术优化更有效,在小麦分割任务中关注茎秆这一关键难点带来了显著性能提升。

[87] Defending Deepfake via Texture Feature Perturbation

Xiao Zhang,Changfang Chen,Tianyi Wang

Main category: cs.CV

TL;DR: 提出了一种基于面部纹理特征的主动Deepfake检测方法,通过在纹理区域插入不可见扰动来破坏Deepfake生成质量

  • Motivation: 现有检测方法主要依赖被动分析,难以应对高质量Deepfake内容,需要发展主动防御技术
  • Method: 利用局部二值模式提取纹理特征,采用双模型注意力策略在低感知显著性纹理区域插入局部扰动
  • Result: 在CelebA-HQ和LFW数据集上验证了方法的有效性,能够显著扭曲Deepfake生成并产生明显视觉缺陷
  • Conclusion: 该方法为主动Deepfake检测提供了高效且可扩展的解决方案

[88] SpecGen: Neural Spectral BRDF Generation via Spectral-Spatial Tri-plane Aggregation

Zhenyu Jin,Wenjie Li,Zhanyu Ma,Heng Guo

Main category: cs.CV

TL;DR: SpecGen方法从单张RGB球体图像生成光谱BRDF,通过SSTA网络利用丰富的RGB BRDF数据增强光谱BRDF生成,在光谱图像重建方面超越现有方法8dB PSNR。

  • Motivation: 解决光谱图像合成中光谱BRDF数据稀缺的问题,实现从RGB图像到光谱BRDF的转换,支持任意光照和形状的光谱渲染。
  • Method: 提出SpecGen方法和Spectral-Spatial Tri-plane Aggregation (SSTA)网络,建模波长和入射-出射方向的反射响应,利用丰富的RGB BRDF数据训练策略。
  • Result: 方法能够从有限光谱数据准确重建光谱BRDF,在高光谱图像重建方面超越最先进方法8dB PSNR提升。
  • Conclusion: 该方法有效解决了光谱BRDF数据稀缺问题,实现了高质量的光谱图像合成和渲染能力。

[89] Mind the (Language) Gap: Towards Probing Numerical and Cross-Lingual Limits of LVLMs

Somraj Gautam,Abhirama Subramanyam Penamakuri,Abhishek Bhandari,Gaurav Harit

Main category: cs.CV

TL;DR: MMCRICBENCH-3K是一个用于板球记分卡视觉问答的基准测试,包含3,000个合成生成的图像和问答对,用于评估大视觉语言模型在结构化数值推理和跨语言理解方面的能力。

  • Motivation: 现有的视觉问答基准在结构化表格图像、数值推理和跨语言场景方面存在不足,需要专门的数据集来评估大视觉语言模型在这些复杂任务上的表现。
  • Method: 构建了包含1,463个合成生成的板球记分卡图像(ODI、T20和测试赛格式)和1,500个英文问答对的数据集,分为英文记分卡和印地语记分卡两个子集,但所有问题答案均为英文。
  • Result: 实验结果显示,即使是GPT-4o和Qwen2.5VL等最先进的大视觉语言模型,在英文子集上表现不佳,在印地语子集上性能进一步下降,揭示了模型在结构化视觉文本理解、数值推理和跨语言泛化方面的关键局限性。
  • Conclusion: 该基准测试揭示了当前大视觉语言模型在结构化表格理解、数值推理和跨语言场景中的显著不足,为相关研究提供了重要的评估工具和方向指引。

[90] No Pixel Left Behind: A Detail-Preserving Architecture for Robust High-Resolution AI-Generated Image Detection

Lianrui Mu,Zou Xingze,Jianhong Bai,Jiaqi Hu,Wenjie Zheng,Jiangnan Ye,Jiedong Zhuang,Mudassar Ali,Jing Wang,Haoji Hu

Main category: cs.CV

TL;DR: HiDA-Net是一个针对高分辨率AI生成图像检测的新框架,通过特征聚合模块确保不丢失任何像素信息,在多个数据集上实现了显著的性能提升。

  • Motivation: 现有AI生成图像检测方法主要针对低分辨率图像,无法有效处理高分辨率场景,存在输入信息丢失的问题。
  • Method: 提出HiDA-Net框架,包含特征聚合模块(FAM)融合全分辨率局部瓦片特征和降采样全局视图,以及Token-wise Forgery Localization和JPEG质量因子估计模块增强鲁棒性。
  • Result: 在Chameleon数据集上准确率提升超过13%,在新建的HiRes-50K数据集上提升10%,达到最先进水平。
  • Conclusion: HiDA-Net有效解决了高分辨率AI生成图像检测的挑战,为未来研究提供了新的基准数据集HiRes-50K。

[91] DiCache: Let Diffusion Model Determine Its Own Cache

Jiazi Bu,Pengyang Ling,Yujie Zhou,Yibin Wang,Yuhang Zang,Tong Wu,Dahua Lin,Jiaqi Wang

Main category: cs.CV

TL;DR: DiCache是一种无需训练的自适应缓存策略,通过浅层在线探针实时分析特征差异变化模式,动态决定缓存时机和组合方式,显著提升扩散模型加速效果和视觉质量。

  • Motivation: 现有基于缓存的扩散模型加速方法依赖预定义经验法则或数据集级先验,在高度动态的扩散过程中泛化性有限,对异常样本效果不佳。研究发现浅层特征差异变化模式与最终输出变化存在强相关性,不同层特征形成相似轨迹。
  • Method: DiCache包含两个核心组件:1)在线探针分析方案利用浅层在线探针实时获取缓存误差稳定先验,自主确定缓存时机;2)动态缓存轨迹对齐基于浅层探针特征轨迹组合多步缓存,更好近似当前特征。
  • Result: 在WAN 2.1、HunyuanVideo视频生成和Flux图像生成等多种领先扩散模型上的大量实验表明,DiCache相比最先进方法实现了更高效率和改进的视觉保真度。
  • Conclusion: DiCache通过揭示浅层特征变化模式与输出变化的强相关性,提出了统一的训练免费自适应缓存框架,有效解决了扩散模型加速中的缓存时机和利用问题,具有优异的泛化性和视觉质量。

[92] Condition Weaving Meets Expert Modulation: Towards Universal and Controllable Image Generation

Guoqing Zhang,Xingtong Ge,Lu Shi,Xin Zhang,Muqing Xue,Wanru Xu,Yigang Cen

Main category: cs.CV

TL;DR: 提出了UniGen统一图像生成框架,通过CoMoE模块和WeaveNet机制解决多条件图像生成中的参数冗余和计算效率问题,在多个数据集上达到SOTA性能。

  • Motivation: 现有方法为每种条件类型训练单独的控制分支,导致模型结构冗余和计算资源使用效率低下,需要统一的框架来支持多样化条件输入。
  • Method: 提出Condition Modulated Expert (CoMoE)模块聚合语义相似的patch特征并分配给专用专家模块,以及WeaveNet动态连接机制实现主干网络和控制分支的有效交互。
  • Result: 在Subjects-200K和MultiGen-20M数据集上的广泛实验表明,该方法在各种条件图像生成任务中始终达到最先进的性能。
  • Conclusion: UniGen框架通过统一的架构设计有效解决了多条件图像生成中的特征纠缠和冗余计算问题,在通用性和有效性方面都具有优势。

[93] Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for Medical Diagnosis

Nir Mazor,Tom Hope

Main category: cs.CV

TL;DR: 本文提出了一种联合优化多模态检索器和LVLM的医疗诊断模型,相比标准RAG方法能显著提升在具有挑战性的临床案例上的表现,但距离理想性能仍有较大差距。

  • Motivation: 临床决策需要解读医学图像进行诊断,从医学文献和医院记录中检索相关视觉信息可以提高诊断准确性。标准RAG方法中LVLM的错误信号无法传播到检索器,存在改进空间。
  • Method: 开发了一个联合优化多模态检索器和LVLM的模型,仅使用通用骨干网络进行轻量级微调,在临床多标签分类和视觉问答任务上进行评估。
  • Result: 模型在多项任务上达到与医学预训练模型竞争的结果,联合检索优化显著改善了具有挑战性的案例,但性能仍远低于理想oracle水平。
  • Conclusion: 虽然正确诊断经常可以通过检索到的图像实现,但实际性能与理想水平存在巨大差距,前沿LVLM重排序器也无法弥合这一差距,为未来方法留下了充足改进空间。

[94] Enhancing Underwater Images via Deep Learning: A Comparative Study of VGG19 and ResNet50-Based Approaches

Aoqi Li,Yanghui Song,Jichao Dao,Chengfu Yang

Main category: cs.CV

TL;DR: 提出基于VGG19和ResNet50双深度学习模型的集成方法,用于复杂水下场景图像增强,通过多尺度特征分析和定量评估指标验证效果

  • Motivation: 解决复杂水下环境中图像质量差、视觉效果不佳的问题,提升水下视觉任务的准确性和实用性
  • Method: 集成VGG19和ResNet50两个深度卷积神经网络模型,构建统一模型进行多尺度多层次深度特征分析,利用PSNR、UCIQE、UIQM等指标进行定量评估
  • Result: 实现了更全面准确的水下图像增强效果,通过定量指标验证了模型在不同场景下的性能表现
  • Conclusion: 该方法为复杂水下环境视觉增强任务提供了有效的技术方案,并通过模型优化、多模型融合和硬件选择等建议提升了系统的实用性和稳定性

[95] MoCo: Motion-Consistent Human Video Generation via Structure-Appearance Decoupling

Haoyu Wang,Hao Tang,Donglin Di,Zhilu Zhang,Wangmeng Zuo,Feng Gao,Siwei Ma,Shiliang Zhang

Main category: cs.CV

TL;DR: MoCo是一个将人体视频生成解耦为结构生成和外观生成的两阶段方法,首先生成3D人体运动序列,然后在结构指导下合成外观,解决了现有方法在全身长距离运动中的一致性问题。

  • Motivation: 现有视频生成模型过于关注外观保真度,导致人体运动不真实、物理上不可行且结构一致性差。现有数据集主要关注面部或上半身运动,限制了生成方法的适用范围。
  • Method: 提出两阶段解耦方法:1)使用高效3D结构生成器从文本提示生成人体运动序列;2)在生成的结构序列指导下合成剩余视频外观。引入Human-Aware Dynamic Control模块和密集跟踪约束来改善稀疏人体结构的细粒度控制。
  • Result: MoCo在生成真实且结构一致的人体视频方面优于现有方法。构建了大规模全身人体视频数据集,包含复杂多样的运动。
  • Conclusion: 通过解耦结构和外观生成,结合新的控制模块和数据集,MoCo能够有效解决人体视频生成中的运动一致性和真实性问题。

[96] E-BayesSAM: Efficient Bayesian Adaptation of SAM with Self-Optimizing KAN-Based Interpretation for Uncertainty-Aware Ultrasonic Segmentation

Bin Huang,Zhong Liu,Huiying Wen,Bingsheng Huang,Xin Chen,Shuo Li

Main category: cs.CV

TL;DR: E-BayesSAM是一个高效的贝叶斯SAM框架,通过Token-wise变分贝叶斯推理和无训练不确定性估计,以及自优化KAN网络提高可解释性,在医学图像分割中实现了实时推理、更高精度和更好的可解释性。

  • Motivation: 解决SAM在贝叶斯适应中的三个关键问题:大型预训练模型贝叶斯微调的不稳定性、计算成本高、以及黑盒设计缺乏可解释性,以满足临床安全关键应用的需求。
  • Method: 提出E-BayesSAM框架,包含Token-wise变分贝叶斯推理(T-VBI)进行高效贝叶斯适应,以及自优化Kolmogorov-Arnold网络(SO-KAN)通过自监督学习提高可解释性,无需辅助训练即可实现不确定性估计。
  • Result: 在五个超声数据集上的实验表明:实现实时推理(0.03秒/图像),分割精度更高(剪枝后DSC 89.0% vs E-BayesSAM 88.0% vs MedSAM 88.3%),并识别出控制SAM决策的四个关键token。
  • Conclusion: E-BayesSAM统一了效率、可靠性和可解释性,将SAM的通用性与临床需求连接起来,推动了在安全关键医疗应用中的部署。

[97] Data Leakage in Visual Datasets

Patrick Ramos,Ryan Ramos,Noa Garcia

Main category: cs.CV

TL;DR: 该论文分析了视觉数据集中的数据泄露问题,发现所有被分析的数据集都存在某种形式的泄露,且各种类型的泄露都会损害模型评估的可靠性。

  • Motivation: 由于大规模数据集通常从互联网获取,而许多计算机视觉基准测试是公开可用的,需要研究训练数据中混入评估图像的问题,以确保模型评估的公平性。
  • Method: 应用图像检索技术来识别和分类视觉数据泄露,将泄露现象按照模态、覆盖范围和程度进行特征化分类。
  • Result: 研究发现所有被分析的数据集都存在某种形式的数据泄露,从严重实例到更微妙的情况,所有类型的泄露都会损害下游任务中模型评估的可靠性。
  • Conclusion: 视觉数据集普遍存在数据泄露问题,这严重影响了模型评估的公平性和可靠性,需要在数据集构建和模型评估过程中引起重视。

[98] Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models

Xiaojie Yin,Qilong Wang,Qinghua Hu

Main category: cs.CV

TL;DR: 通过拓扑文本提示咄缩减视觉噪声的方法,提出CPE方法来改善视觉-语言模型的零样本分类性能

  • Motivation: 解决现有方法在文本提示不完整咄视觉提示噪声过多的问题,提高视觉-语言模型的语义对齐能力
  • Method: 包含两个核心组件:TGSSG通过大语言模型生成同义语义集合构建全面文本提示,CADRS通过激活地图识别区别性区域生成紧凑视觉提示,最后采用集合匹配策略实现有效对齐
  • Result: 方法能够生成更全面的文本提示咄更紧凑的视觉提示,通过语义视角改善了视觉-文本对齐效果
  • Conclusion: CPE方法通过结合语义分析咄区别性区域识别,有效解决了现有方法的限制,显著提升了视觉-语言模型的零样本分类性能

Zhao Zheng,Jingfan Fan,Long Shao,Hong Song,Danni Ai,Tianyu Fu,Deqiang Xiao,Yongtian Wang,Jian Yang

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于旋转只分析的几何最大重叠注册框架,通过将刚体变换分解为旋转轴向翻译和2D变换,使用分支定界搜索和区间最大查询来高效解决高异常比下的点云注册问题。

  • Motivation: 当前的图形基方法需要至少二次方空间和时间复杂度,而多阶段分支定界搜索方法容易受到局部最优解的影响。需要一种更高效、更准确的方法来处理高异常比下的点云注册问题。
  • Method: 使用Chasles定理将刚体变换分解为旋转轴向翻译和2D刚体变换。通过分支定界搜索最优旋转轴和角度,并将剩余参数形成区间最大查询问题。首先在半球参数化空间中搜索top-k旋转轴候选,然后通过间隔刷新估计每个轴向的翻译。关键技术是将2D注册松弛为1D旋转角搜索,使用扫描线算法和线段树高效解决。
  • Result: 在3DMatch、3DLoMatch和KITTI数据集上的实验结果显示,该方法在准确性和效率方面都超过了当前最先进方法。时间复杂度为多项式,空间复杂度与点数成线性关系,甚至在最坏情况下也保持高效。
  • Conclusion: 该方法通过刚体变换的智能分解和算法优化,成功地解决了高异常比下点云注册的效率和准确性问题,为实际应用提供了一种可靠的解决方案。

[100] FedKLPR: Personalized Federated Learning for Person Re-Identification with Adaptive Pruning

Po-Hsien Yu,Yu-Syuan Tseng,Shao-Yi Chien

Main category: cs.CV

TL;DR: FedKLPR是一个轻量级、通信高效的联邦学习框架,用于行人重识别,通过KL散度正则化、剪枝加权聚合、稀疏激活跳过和跨轮恢复四个关键组件,在非IID数据下显著降低通信成本并保持模型精度。

  • Motivation: 联邦学习在行人重识别应用中面临统计异构性和通信开销两大挑战:非IID数据分布导致模型性能下降,大规模模型频繁传输造成巨大通信负担。
  • Method: 提出FedKLPR框架,包含四个核心组件:1)KL散度正则化损失约束本地模型;2)KL散度剪枝加权聚合改进全局模型鲁棒性;3)稀疏激活跳过避免关键参数稀释;4)跨轮恢复动态控制剪枝过程。
  • Result: 在8个基准数据集上验证,相比现有方法,FedKLPR在ResNet-50上减少33%-38%通信成本,在ResNet-34上减少20%-40%通信成本,同时模型精度下降控制在1%以内。
  • Conclusion: FedKLPR有效解决了联邦学习在行人重识别中的统计异构性和通信开销问题,实现了通信效率与模型精度的良好平衡,为实际部署提供了可行解决方案。

[101] TinySR: Pruning Diffusion for Real-World Image Super-Resolution

Linwei Dong,Qingnan Fan,Yuhang Yu,Qi Zhang,Jinwei Chen,Yawei Luo,Changqing Zou

Main category: cs.CV

TL;DR: TinySR是一个专门为真实图像超分辨率设计的紧凑扩散模型,通过动态块间激活、扩展腐蚀策略、VAE压缩等技术大幅降低计算成本和模型大小,在保持感知质量的同时实现实时性能。

  • Motivation: 现有的扩散模型在图像超分辨率中虽然效果好,但迭代去噪过程计算开销大,难以实时应用。一步蒸馏方法虽然推理更快,但仍受限于大模型架构。
  • Method: 提出动态块间激活和扩展腐蚀策略进行深度剪枝,通过通道剪枝、注意力移除和轻量SepConv实现VAE压缩,消除时间和提示相关模块,采用预缓存技术加速。
  • Result: 相比教师模型TSD-SR,实现了5.68倍加速和83%参数减少,同时保持高质量结果。
  • Conclusion: TinySR证明了在保持感知质量的同时,通过精心设计的压缩策略可以实现实时图像超分辨率,为实际应用提供了可行方案。

[102] An LLM-LVLM Driven Agent for Iterative and Fine-Grained Image Editing

Zihan Liang,Jiahao Sun,Haoran Ma

Main category: cs.CV

TL;DR: RefineEdit-Agent是一个无需训练的多模态智能代理框架,通过结合LLM的规划能力和LVLM的视觉理解能力,实现了复杂、迭代且上下文感知的图像编辑,在LongBench-T2I-Edit基准测试中显著优于现有方法。

  • Motivation: 现有文本到图像生成模型在细粒度迭代编辑方面存在不足,包括粒度指令理解困难、修改过程中的上下文保持问题以及缺乏智能反馈机制。
  • Method: 采用基于LLM和LVLM的闭环系统,包含LVLM驱动的指令解析和场景理解模块、多级LLM驱动的编辑规划器、迭代图像编辑模块以及LVLM驱动的反馈评估循环。
  • Result: 在LongBench-T2I-Edit基准测试中获得3.67的平均分,显著优于Direct Re-Prompting(2.29)、InstructPix2Pix(2.91)、GLIGEN-based Edit(3.16)和ControlNet-XL(3.39)等基线方法。
  • Conclusion: RefineEdit-Agent通过智能代理设计在编辑保真度和上下文保持方面表现出色,消融实验和人类评估验证了其有效性。

[103] Disentangled Geometry and Appearance for Efficient Multi-View Surface Reconstruction and Rendering

Qitong Zhang,Jieqing Feng

Main category: cs.CV

TL;DR: 提出了一种基于显式网格表示的高效多视角表面重建方法,解决了神经渲染方法需要额外网格提取步骤的问题,在保持高效率的同时显著提升了重建质量和应用范围。

  • Motivation: 现有的神经渲染多视角表面重建方法需要额外的网格提取步骤,这个过程不仅不方便,而且会产生质量较差的表面(存在网格锯齿问题),限制了后续应用。
  • Method: 基于显式网格表示和可微分光栅化框架,引入解耦的几何和外观模型;构建神经变形场整合全局几何上下文;使用新颖的正则化约束几何特征;分离视角无关的漫反射项并烘焙到网格顶点中。
  • Result: 实现了最先进的训练速度(4.84分钟)和渲染速度(0.023秒),重建质量与顶级方法相当,支持网格和纹理编辑等实际应用。
  • Conclusion: 该方法在效率、质量和应用范围方面取得了良好平衡,为多视角表面重建和渲染领域提供了有价值的贡献。

[104] Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

Long Le,Ryan Lucas,Chen Wang,Chuhao Chen,Dinesh Jayaraman,Eric Eaton,Lingjie Liu

Main category: cs.CV

TL;DR: PIXIE是一个基于神经网络的方法,能够从3D视觉特征快速推断物理材质属性,比现有优化方法快几个数量级,并能零样本泛化到真实场景

  • Motivation: 现有方法依赖缓慢的逐场景优化,限制了泛化能力和应用,需要一种能够从视觉信息快速推断物理属性的通用方法
  • Method: 训练通用神经网络从3D视觉特征预测物理属性,使用监督损失,结合高斯泼溅等静态场景表示,支持快速前向推理
  • Result: PIXIE比测试时优化方法快1.46-4.39倍,速度快几个数量级,通过CLIP等预训练视觉特征能够零样本泛化到真实场景
  • Conclusion: PIXIE提供了一种快速、通用的物理属性推断方法,结合大规模数据集PIXIEVERSE,为创建交互式虚拟世界提供了有效解决方案

[105] Investigating Domain Gaps for Indoor 3D Object Detection

Zijing Zhao,Zhu Xu,Qingchao Chen,Yuxin Peng,Yang Liu

Main category: cs.CV

TL;DR: 本文提出了室内3D物体检测的跨数据集适应基准,分析了不同域差距对检测器性能的影响,并提供了多种适应方法的基线。

  • Motivation: 现有3D物体检测研究主要在分布相同的训练测试集上进行,缺乏对跨数据集适应能力的考察。室内点云数据集因采集方式不同存在多种域差距问题。
  • Method: 构建包含ScanNet、SUN RGB-D、3D Front及新提出的ProcTHOR-OD和ProcFront数据集的综合基准,实验涵盖合成到真实、点云质量、布局和实例特征等多种适应场景。
  • Result: 系统分析了不同域差距对3D物体检测器的影响,提出了多种改进适应性能的方法,为域自适应室内3D检测提供了基线结果。
  • Conclusion: 该研究为未来开发具有更强跨域泛化能力的3D物体检测器提供了重要基准和方法参考,推动了室内场景理解的域适应研究。

[106] Multi-Level LVLM Guidance for Untrimmed Video Action Recognition

Liyang Peng,Sihan Zhu,Yunjie Guo

Main category: cs.CV

TL;DR: ECVT是一种新颖的双分支视频Transformer架构,利用大型视觉语言模型生成多粒度语义描述,通过跨模态融合机制显著提升视频动作识别和定位性能,在多个基准数据集上达到最先进水平。

  • Motivation: 解决现有方法在复杂未修剪视频中难以捕捉细粒度动作、长期时间依赖和从低级视觉特征提取高级语义信息的问题。
  • Method: 采用双分支设计:视频编码分支负责时空特征提取,跨模态引导分支利用LVLM生成全局事件提示和时间子事件提示等多粒度语义描述,通过自适应门控、跨模态注意力和事件图模块进行融合。
  • Result: 在ActivityNet v1.3上达到40.5%的平均mAP,在THUMOS14上达到67.1%的mAP@0.5,显著超越现有基线方法。
  • Conclusion: ECVT通过有效整合视觉语言模型的语义理解能力,成功提升了视频时序结构和事件逻辑的理解能力,为复杂视频分析提供了有效的解决方案。

[107] A Synthetic Dataset for Manometry Recognition in Robotic Applications

Pedro Antonio Rabelo Saraiva,Enzo Ferreira de Souza,Joao Manoel Herrera Pinheiro,Thiago H. Segreto,Ricardo V. Godoy,Marcelo Becker

Main category: cs.CV

TL;DR: 本文提出了一种混合数据合成流水线,结合进程渲染和AI视频生成技术,解决工业环境中物体检测模型训练数据稀缺和采集成本高的挑战。

  • Motivation: 解决复杂工业环境(如海上石油平台)中收集真实数据的实际困难和高成本问题,促进自主检查系统的发展。
  • Method: 采用混合数据合成流水线:利用BlenderProc进行照相实度图像生成和精确标注,结合NVIDIA Cosmos-Predict2世界基础模型生成物理可行的视频序列,实现领域随机化和时序多样性。
  • Result: 基于YOLO的检测网络在真实图像与合成数据混合的复合数据集上训练后,性能超过仅使用真实数据的模型。真实与合成数据1:1混合比例获得最高准确度。
  • Conclusion: 合成数据首先的方法是开发安全关键工业应用中可靠感知系统的高效、成本效益和安全的可行选择。

[108] T2I-ReasonBench: Benchmarking Reasoning-Informed Text-to-Image Generation

Kaiyue Sun,Rongyao Fang,Chengqi Duan,Xian Liu,Xihui Liu

Main category: cs.CV

TL;DR: T2I-ReasonBench是一个评估文本到图像模型推理能力的基准测试,包含四个维度:习语解释、文本图像设计、实体推理和科学推理,采用两阶段评估协议。

  • Motivation: 现有的文本到图像模型评估主要关注图像质量,缺乏对模型推理能力的系统评估,需要专门的基准来测试模型在复杂推理任务中的表现。
  • Method: 提出包含四个推理维度的基准测试,采用两阶段评估协议:第一阶段评估推理准确性,第二阶段评估图像质量,对多种T2I生成模型进行基准测试。
  • Result: 对多种文本到图像生成模型进行了全面的性能分析和基准测试,提供了各模型在不同推理维度上的表现评估。
  • Conclusion: T2I-ReasonBench为评估文本到图像模型的推理能力提供了系统化的基准,有助于推动模型在复杂推理任务上的发展。

[109] GraphMMP: A Graph Neural Network Model with Mutual Information and Global Fusion for Multimodal Medical Prognosis

Xuhao Shan,Ruiquan Ge,Jikui Liu,Linglong Wu,Chi Zhang,Siqi Liu,Wenjian Qin,Wenwen Min,Ahmed Elazab,Changmiao Wang

Main category: cs.CV

TL;DR: 提出基于图神经网络的GraphMMP模型,通过互信息构建特征图和Mamba全局融合模块,在肝脏预后和METABRIC数据集上表现优异

  • Motivation: 多模态医学数据分析中,如何有效建模异质数据模态间的复杂交互关系,同时捕获跨模态的局部和全局依赖关系是主要挑战
  • Method: 基于图神经网络的两阶段多模态预后模型GraphMMP,使用互信息构建特征图,并采用Mamba构建全局融合模块
  • Result: 在肝脏预后和METABRIC研究相关数据集上超越了现有方法
  • Conclusion: GraphMMP在多模态医学预后任务中表现出色,验证了其有效性

[110] Optimizing Multi-Modal Trackers via Sensitivity-aware Regularized Tuning

Zhiwen Chen,Jinjian Wu,Zhiyu Zhu,Yifan Zhang,Guangming Shi,Junhui Hou

Main category: cs.CV

TL;DR: 通过敏感性识别和正则化调整方式,提出了一种新的多模态追踪器微调框架,解决了预训练模型在RGB数据向多模态过渡时的可塑性-稳定性交换问题。

  • Motivation: 现有的微调方法在过度自由和过度限制之间摇摆,导致了次优的可塑性-稳定性平衡,影响多模态追踪的性能。
  • Method: 提出敏感性识别的正则化微调框架:首先分析预训练权重的切空间来评估参数敏感性,保持通用性;然后在微调过程中探索过渡敏感性,强调适应性和稳定性,并将这些敏感性作为正则化项进行调整。
  • Result: 实验结果显示,该方法在各种多模态追踪任务上都超越了当前的最先进技术,显著提升了模态间的迁移能力。
  • Conclusion: 该研究通过敏感性识别和正则化机制,有效解决了多模态追踪器微调中的可塑性-稳定性两难问题,为预训练模型的多模态适配提供了新的解决方案。

[111] Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice

Hugo Bohy,Minh Tran,Kevin El Haddad,Thierry Dutoit,Mohammad Soleymani

Main category: cs.CV

TL;DR: Social-MAE是一个基于CAV-MAE改进的多模态自监督预训练模型,专门针对人类社交行为的视听感知,在情感识别、笑声检测和表观人格估计等下游任务上取得了优异表现。

  • Motivation: 人类社交行为本质上是多模态的,需要强大的视听模型来进行感知。现有的模型在社交行为理解方面仍有改进空间,特别是在自监督预训练领域。
  • Method: 扩展了CAV-MAE架构,使其能够接收更多帧作为输入,并在大规模人类社交互动数据集(VoxCeleb2)上进行自监督预训练,然后在下游任务上进行微调。
  • Result: 在多模态情感识别和笑声识别任务上达到了最先进水平,在表观人格估计任务上获得了有竞争力的结果,证明了领域内自监督预训练的有效性。
  • Conclusion: Social-MAE展示了在社交行为理解任务中,通过领域特定的自监督预训练可以显著提升模型性能,为多模态社交AI的发展提供了有效解决方案。

[112] DinoTwins: Combining DINO and Barlow Twins for Robust, Label-Efficient Vision Transformers

Michael Podsiadly,Brendon K Lay

Main category: cs.CV

TL;DR: 结合DINO和Barlow Twins两种自监督学习方法的优势,提出了一种在有限标签数据和计算资源下训练视觉Transformer的高效方法

  • Motivation: 解决自监督学习中DINO对数据增强敏感和Barlow Twins需要大批次尺寸的问题,利用两种方法的互补优势来降低对标注数据和计算资源的需求
  • Method: 将Barlow Twins的冗余减少目标与DINO的自蒸馏策略相结合,在MS COCO数据集上使用仅10%的标注数据进行线性探测训练
  • Result: 混合方法在损失和分类准确率方面与DINO相当,同时保持了强大的特征表示能力,注意力可视化显示在语义分割能力方面有所提升
  • Conclusion: 该方法为资源受限环境下训练ViT提供了一种可扩展、标签高效的替代方案

[113] OmniMRI: A Unified Vision--Language Foundation Model for Generalist MRI Interpretation

Xingxin He,Aurora Rofena,Ruimin Feng,Haozhe Liao,Zhaoye Zhou,Albert Jang,Fang Liu

Main category: cs.CV

TL;DR: OmniMRI是一个统一的视觉-语言基础模型,旨在整合MRI工作流程中的多个任务,包括重建、分割、检测、诊断和报告生成。

  • Motivation: 当前MRI工作流程碎片化,缺乏跨临床环境的通用性,且很少整合影像数据和语言信息。
  • Method: 使用大规模多源数据集进行多阶段训练,包括自监督视觉预训练、视觉-语言对齐、多模态预训练和多任务指令微调。
  • Result: 模型能够在单一架构中执行多种MRI任务,展现出良好的跨模态推理和指令跟随能力。
  • Conclusion: OmniMRI有潜力将碎片化的MRI流程整合为可扩展的通用框架,为统一影像和临床语言的基础模型铺平道路。

[114] Minimal Solvers for Full DoF Motion Estimation from Asynchronous Tracks

Petr Hruby,Marc Pollefeys

Main category: cs.CV

TL;DR: 提出了一种从异步点轨迹估计相机平移和角速度的多项式近似方法,开发了最小求解器并在合成和真实数据集上进行了评估

  • Motivation: 解决滚动快门和事件相机中从异步点轨迹估计相机平移和角速度的问题,原始问题是非多项式的
  • Method: 提出多项式近似方法,对最小问题进行分类并确定代数度,开发低度数的最小求解器
  • Result: 成功开发了多个低度数的最小求解器,并在合成和真实数据集上进行了验证
  • Conclusion: 该方法有效解决了异步点轨迹下的相机速度估计问题,代码将公开提供

[115] Towards Optimal Convolutional Transfer Learning Architectures for Breast Lesion Classification and ACL Tear Detection

Daniel Frees,Moritz Bolling,Aditri Bhagirath

Main category: cs.CV

TL;DR: 该研究深入探索了医学影像分析中的最佳CNN架构,对比RadImageNet和ImageNet预训练的效果,发现ResNet50等架构在乳腺癌检测和ACL捀裂检测中表现优异

  • Motivation: 医学影像数据稀缺限制了从头训练模型的效能,需要找到最优的转移学习方案来提升下游任务性能
  • Method: 进行系统性调研,比较不同CNN架构在两个医学影像任务中的表现,使用统计分析比较RadImageNet和ImageNet预训练的效果
  • Result: 最佳模型在ACL捀裂检测中达到AUC 0.9969,在乳腺癌检测中达到AUC 0.9641,体现了竞争力。未发现RadImageNet预训练在这些任务中显著优于ImageNet
  • Conclusion: 建议使用ResNet50预训练背骨网络和部分解冻策略,虽然RadImageNet预训练在某些领域有优势,但在这些具体任务中并未显示出更好性能

[116] MetaGen: A DSL, Database, and Benchmark for VLM-Assisted Metamaterial Generation

Liane Makatura,Benjamin Jones,Siyuan Bian,Wojciech Matusik

Main category: cs.CV

TL;DR: 提出了MetaDSL领域特定语言、MetaDB数据库和MetaBench基准测试套件三个工具,用于改进超材料的设计和理解结构-表示-性能关系

  • Motivation: 超材料的设计困难在于几何复杂性和从结构到性能的非平凡映射关系,需要更好的设计工具和方法
  • Method: 开发了MetaDSL语言描述超材料设计,构建了包含15万+参数化程序的MetaDB数据库,创建了MetaBench基准测试套件评估视觉-语言模型能力
  • Result: 建立了最先进视觉-语言模型的基线性能,并在CAD式交互界面中部署了全模型,展示了框架的有效性
  • Conclusion: 该框架为实现超材料集成设计和理解结构-表示-性能关系提供了重要进展

[117] IDU: Incremental Dynamic Update of Existing 3D Virtual Environments with New Imagery Data

Meida Chen,Luis Leal,Yue Hu,Rong Liu,Butian Xiong,Andrew Feng,Jiuyi Xu,Yangming Shi

Main category: cs.CV

TL;DR: 提出IDU管道,通过少量新图像增量更新3D高斯泼溅模型,减少军事虚拟环境更新的时间和成本

  • Motivation: 军事虚拟环境需要频繁更新以反映战场动态变化,但传统全规模更新方式耗时耗力
  • Method: 相机姿态估计对齐新图像,变化检测识别场景修改,3D生成AI创建新资产,人工指导确保精度,单次更新一个对象
  • Result: 实验证明IDU管道显著减少更新时间和人力成本
  • Conclusion: IDU为快速演变的军事场景提供了经济高效的目标化3D模型维护解决方案

[118] HERO: Hierarchical Extrapolation and Refresh for Efficient World Models

Quanjian Song,Xinyu Wang,Donghao Zhou,Jingyu Lin,Cunjian Chen,Yue Ma,Xiu Li

Main category: cs.CV

TL;DR: HERO是一个针对世界模型的无训练分层加速框架,通过浅层补丁刷新机制和深层线性外推方案,实现1.73倍加速且质量损失最小

  • Motivation: 生成式世界模型由于扩散模型的迭代特性导致推理速度慢,现有加速技术直接应用会导致质量下降。研究发现世界模型存在特征耦合现象:浅层特征时间变化大,深层特征更稳定
  • Method: 分层加速策略:浅层使用补丁刷新机制选择需要重新计算的token;深层使用线性外推方案直接估计中间特征,绕过注意力模块和前馈网络计算
  • Result: HERO实现了1.73倍的加速效果,质量退化最小,显著优于现有扩散模型加速方法
  • Conclusion: 基于世界模型特征耦合特性的分层加速框架HERO,在保持质量的同时大幅提升推理效率,为世界模型的实际应用提供了有效解决方案

[119] TinyGiantVLM: A Lightweight Vision-Language Architecture for Spatial Reasoning under Resource Constraints

Vinh-Thuan Ly,Hoang M. Truong,Xuan-Huong Nguyen

Main category: cs.CV

TL;DR: TinyGiantVLM是一个轻量级两阶段框架,专门用于工业环境中的物理空间推理,在AI City Challenge 2025中取得第5名成绩

  • Motivation: 现有视觉语言模型在理解仓库规模环境中的细粒度空间关系方面存在困难,无法有效处理3D布局、物体排列和多模态线索
  • Method: 采用两阶段框架:编码RGB和深度模态的全局和区域特征,使用混合专家(MoE)融合模块动态组合空间表示,分两阶段训练策略
  • Result: 64M参数基础模型在AI City Challenge 2025 Track 3中获得66.8861分(第5名),80M参数变体在空间推理任务上表现更优
  • Conclusion: 该框架有效连接了视觉感知和空间理解,在复杂工业环境中展现出强大的空间推理能力

[120] HotSpotter - Patterned Species Instance Recognition

Jonathan P. Crall,Charles V. Stewart,Tanya Y. Berger-Wolf,Daniel I. Rubenstein,Siva R. Sundaresan

Main category: cs.CV

TL;DR: HotSpotter是一个快速准确的动物个体识别算法,基于关键点提取和匹配,支持多种物种,在1000+图像数据库中实现秒级匹配且准确率优于现有方法

  • Motivation: 开发一个不依赖物种的通用动物个体识别系统,能够快速准确地在大型图像数据库中识别特定个体动物
  • Method: 提出两种基于关键点(热点)提取和匹配的方法:1)顺序匹配查询图像与数据库图像;2)使用快速最近邻搜索和竞争性评分机制(基于Local Naive Bayes Nearest Neighbor算法)
  • Result: 在包含1000多张图像的数据库上测试,比已发表方法更准确,每个查询图像只需几秒钟即可完成匹配
  • Conclusion: HotSpotter算法在动物个体识别任务中表现出色,具有快速、准确和物种无关的特点,适用于大规模图像数据库的实时识别应用

[121] A Weighted Vision Transformer-Based Multi-Task Learning Framework for Predicting ADAS-Cog Scores

Nur Amirah Abd Hamid,Mohd Ibrahim Shapiai,Daphne Teck Ching Lai

Main category: cs.CV

TL;DR: 提出基于加权Vision Transformer的多任务学习框架,联合预测ADAS-Cog总分及其13个子分数,通过子分数特异性损失加权提升预测准确性和可解释性。

  • Motivation: 现有方法主要关注预测ADAS-Cog总分,但忽略了13个子分数的预测价值,这些子分数反映不同的认知领域,对总分有不同影响。通过给临床意义重要的子分数分配更高损失权重,可以引导模型关注更相关的认知领域。
  • Method: 使用加权Vision Transformer多任务学习框架,基于基线MRI扫描联合预测24个月时的ADAS-Cog总分和13个子分数。集成ViT作为特征提取器,系统研究子分数特异性损失加权对模型性能的影响。
  • Result: 提出的加权策略具有群体依赖性:强加权对MRI模式更异质的MCI受试者性能更好,而适度加权对变异度较低的CN受试者更有效。统一加权未能充分利用关键子分数并限制泛化能力。
  • Conclusion: 该框架提供了一种灵活、可解释的AD预后方法,通过端到端的MRI学习实现。加权策略应根据患者群体的异质性进行调整,以优化预测性能。

[122] JCo-MVTON: Jointly Controllable Multi-Modal Diffusion Transformer for Mask-Free Virtual Try-on

Aowen Wang,Wei Li,Hao Luo,Mengxing Ao,Chenyu Zhu,Xinyang Li,Fan Wang

Main category: cs.CV

TL;DR: JCo-MVTON是一个无需人体掩码的多模态扩散变换器虚拟试穿框架,通过多模态条件融合和双向生成策略,在公开基准测试中达到最先进性能。

  • Motivation: 传统虚拟试穿系统过度依赖人体掩码,对服装属性控制有限,在真实场景中泛化能力差,需要克服这些限制。
  • Method: 基于多模态扩散变换器(MM-DiT)架构,将参考人物图像和目标服装图像通过专用条件路径融入去噪过程,使用精炼位置编码和注意力掩码增强空间对齐。采用双向生成策略构建数据集:一个管道使用基于掩码的模型生成参考图像,另一个对称的"Try-Off"模型以自监督方式恢复相应服装图像。
  • Result: 在DressCode等公开基准测试中显著超越现有方法,在定量指标和人工评估中都达到最先进性能,在真实世界应用中展现出强大的泛化能力,超越商业系统。
  • Conclusion: JCo-MVTON通过创新的多模态扩散变换器架构和双向数据集生成策略,成功解决了虚拟试穿系统中的关键限制,实现了无需掩码的高质量虚拟试穿,具有优异的泛化性能。

[123] Improving Interpretability in Alzheimer's Prediction via Joint Learning of ADAS-Cog Scores

Nur Amirah Abd Hamid,Mohd Shahrizal Rusli,Muhammad Thaqif Iman Mohd Taufek,Mohd Ibrahim Shapiai,Daphne Teck Ching Lai

Main category: cs.CV

TL;DR: 本研究提出多任务学习框架,联合预测ADAS-Cog总分及其13个子项评分,发现子项学习能提升总分预测精度,但存在临床特征主导和模型不稳定问题。

  • Motivation: 现有方法主要关注预测ADAS-Cog总分,但忽视了子项评分的预测价值,这些子项能捕捉特定领域的认知衰退。研究旨在探索各子项特别是与MRI特征相关的子项如何影响总分预测。
  • Method: 采用多任务学习框架,使用Vision Transformer和Swin Transformer架构提取影像特征,并与纵向临床数据融合来建模认知进展过程。
  • Result: 纳入子项学习改善了总分预测精度。分析发现Q1、Q4、Q8等少数子项主导预测结果,但部分重要子项预测误差较高,存在模型不稳定问题,主要由临床特征主导造成。
  • Conclusion: 研究证明了子项信息建模的价值,指出需要改进多模态融合和自适应损失加权来实现更平衡的学习,为构建更可解释和临床稳健的AD预测框架提供见解。

[124] Finding Outliers in a Haystack: Anomaly Detection for Large Pointcloud Scenes

Ryan Faulkner,Ian Reid,Simon Ratcliffe,Tat-Jun Chin

Main category: cs.CV

TL;DR: 提出基于Mamba架构和重建方法的户外场景开放集分割新方法,在大型点云数据上表现优异

  • Motivation: 户外LiDAR扫描产生大规模点云数据,在实际应用中会遇到训练数据之外的异常物体,需要有效的开放集分割方法
  • Method: 结合物体缺陷检测研究的经验,利用Mamba架构的长距离依赖处理能力和可扩展性,创建基于重建的开放集分割方法
  • Result: 该方法不仅在本方法的开放集分割中表现提升,在现有方法上应用也能改善性能,Mamba架构在挑战性大规模点云上与现有体素卷积方法竞争力相当
  • Conclusion: 提出的Mamba架构重建方法为户外场景开放集分割提供了有效的解决方案,在大型点云数据处理方面展现出良好性能

[125] Wound3DAssist: A Practical Framework for 3D Wound Assessment

Remi Chierchia,Rodrigo Santa Cruz,Léo Lebrat,Yulia Arzhaeva,Mohammad Ali Armin,Jeremy Oorloff,Chuong Nguyen,Olivier Salvado,Clinton Fookes,David Ahmedt-Aristizabal

Main category: cs.CV

TL;DR: Wound3DAssist是一个基于单目消费级视频的3D伤口评估框架,通过智能手机视频生成精确3D模型,实现非接触式自动测量,解决了传统2D方法存在的视角失真和深度信息缺失问题。

  • Motivation: 慢性伤口管理是医疗保健的主要挑战,传统临床评估依赖主观且耗时的手动记录方法。现有2D数字视频测量框架存在视角失真、视野有限和无法捕捉伤口深度等问题,特别是在解剖结构复杂或弯曲区域。
  • Method: 开发了Wound3DAssist框架,从手持智能手机短视频生成精确3D模型。该框架集成了3D重建、伤口分割、组织分类和伤口周围分析,形成一个模块化工作流程,支持非接触式、自动化的视角独立测量。
  • Result: 在数字模型、硅胶模型和真实患者上的评估显示,该框架支持高质量的伤口床可视化、毫米级精度测量和可靠的组织成分分析。完整评估可在20分钟内完成,证明了在真实临床环境中的可行性。
  • Conclusion: Wound3DAssist提供了一个实用的3D伤口评估解决方案,克服了传统2D方法的局限性,具有高精度、高效率的特点,适合实际临床应用,为慢性伤口管理提供了更客观、准确的评估工具。

[126] Few-Shot Pattern Detection via Template Matching and Regression

Eunchan Jo,Dahyun Kang,Sanghyun Kim,Yunseon Choi,Minsu Cho

Main category: cs.CV

TL;DR: 本文提出了一种基于模板匹配和回归的简单有效检测器TMR,用于少样本模式检测,在多个基准测试中优于现有方法。

  • Motivation: 现有的少样本目标计数和检测方法主要关注目标类别,往往无法定位非目标模式,且将目标样本表示为空间坍塌的原型会丢失结构信息。
  • Method: 重新审视经典的模板匹配和回归方法,通过在冻结骨干网络上添加少量可学习的卷积或投影层,有效保留和利用样本的空间布局信息。
  • Result: 在RPINE、FSCD-147和FSCD-LVIS三个基准测试中优于最先进方法,并在跨数据集评估中表现出强大的泛化能力。
  • Conclusion: TMR方法通过简单的模板匹配和回归结构,在少样本模式检测任务中取得了优异性能,特别是在处理非目标模式方面表现出色。

[127] Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning

Xinyu Wei,Guoli Yang,Jialu Zhou,Mingyue Yang,Leqian Li,Kedi Zhang,Chunping Qiu

Main category: cs.CV

TL;DR: DEHVF是一种基于动态嵌入和分层视觉特征融合的高效视觉语言微调方法,通过轻量级分层视觉融合器动态选择和融合与语义粒度对应的分层特征,避免序列扩展问题

  • Motivation: 现有方法将视觉特征投影后与文本标记拼接会导致输入序列长度显著增加,造成计算开销大,且往往忽略了模型内的分层语义表示和浅层视觉编码层中的细粒度视觉信息
  • Method: 利用视觉编码器和语言模型的固有分层表示特性,通过轻量级分层视觉融合器动态选择和融合分层特征,将融合后的层相关视觉特征投影对齐后直接嵌入到LLM相应层的FFN中
  • Result: 在各种VL基准测试中,DEHVF比现有的参数高效微调基线实现了更高的准确性,同时保持了高效的训练和推理
  • Conclusion: DEHVF方法通过动态融合多层视觉信息,仅微调少量参数就能实现跨模态信息在相同语义粒度上的精确对齐和互补

[128] HyTver: A Novel Loss Function for Longitudinal Multiple Sclerosis Lesion Segmentation

Dayan Perera,Ting Fung Fung,Vishnu Monn

Main category: cs.CV

TL;DR: 提出新型混合损失函数HyTver,解决多发性硬化症病灶分割中的数据不平衡问题,在保持Dice分数0.659的同时确保距离指标表现良好

  • Motivation: 纵向多发性硬化症病灶分割面临输入输出数据不平衡的挑战,现有损失函数如Dice损失和交叉熵损失对此考虑不足,需要开发更适合的损失函数来解决不平衡问题
  • Method: 提出HyTver混合损失函数,避免现有方法计算复杂或仅优化区域指标的问题,同时评估损失函数在预训练模型上的稳定性
  • Result: HyTver实现了0.659的Dice分数,距离指标与其他流行函数相当,表现出良好的分割性能和稳定性
  • Conclusion: HyTver是一种有效的混合损失函数,能够解决病灶分割中的不平衡问题,在多个指标上表现均衡且稳定

[129] FloraSyntropy-Net: Scalable Deep Learning with Novel FloraSyntropy Archive for Large-Scale Plant Disease Diagnosis

Saif Ur Rehman Khan,Muhammad Nabeel Asim,Sebastian Vollmer,Andreas Dengel

Main category: cs.CV

TL;DR: 这篇论文提出了FloraSyntropy-Net框架,通过联邦学习和记忆算法优化,实现了植物病害识别的高精度和良好的模型通用性。

  • Motivation: 解决现有AI模型在植物病害识别中缺乏通用性的问题,无法满足真实农业场景的多样性需求。
  • Method: 构建大规模FloraSyntropy数据集,提出联邦学习框架FloraSyntropy-Net,集成记忆算法优化选择基础模型,深度块提升特征表现,客户端克隆策略支持可扩展性训练。
  • Result: 在FloraSyntropy数据集上达到96.38%的准确率,在无关Pest数据集上达到99.84%的准确率,显示了极好的通用性。
  • Conclusion: 该研究不仅提供了价值较高的数据资源,还提出了一个健壮且具有高通用性的框架,推进了农业AI应用的实践发展。

[130] Rethinking the Detail-Preserved Completion of Complex Tubular Structures based on Point Cloud: a Dataset and a Benchmark

Yaolei Qi,Yikai Yang,Wenbo Peng,Shumei Miao,Yutao Hu,Guanyu Yang

Main category: cs.CV

TL;DR: 提出基于点云的管状结构补全方法TSRNet,建立首个冠状动脉补全数据集PC-CAC,在多个数据集上超越现有方法

  • Motivation: 现有分割算法在严重临床病例(如冠状动脉狭窄和血管闭塞)中容易出现结构不连续问题,影响下游诊断准确性,需要重新连接不连续结构以确保完整性
  • Method: 提出TSRNet网络,集成细节保留特征提取器、多重密集细化策略和全局到局部损失函数,确保准确重连的同时保持结构完整性
  • Result: 在PC-CAC和两个公共数据集(PC-ImageCAS和PC-PTR)上的综合实验表明,该方法在多个评估指标上一致优于最先进方法
  • Conclusion: 该方法为基于点云的管状结构重建设立了新的基准,建立的PC-CAC数据集为管状结构补全提供了新的基准测试平台

[131] M^3-GloDets: Multi-Region and Multi-Scale Analysis of Fine-Grained Diseased Glomerular Detection

Tianyu Shi,Xinzi He,Kenji Ikemura,Mert R. Sabuncu,Yihe Yang,Ruining Deng

Main category: cs.CV

TL;DR: 提出了M^3-GloDet框架,系统评估肾小球检测模型在不同区域、尺度和疾病类别下的性能,发现中等尺寸图像块和适度放大倍数能最佳平衡上下文信息与效率。

  • Motivation: 现有研究主要关注正常肾小球或全局硬化病例,对多种疾病亚型的肾小球检测研究不足,且缺乏对最佳成像放大倍数和视野尺寸的系统评估。
  • Method: 开发M^3-GloDet框架,评估传统基准架构和最新最先进模型,采用反映实际数字肾脏病理学中不同感兴趣区域尺寸和成像分辨率的实验设计。
  • Result: 中等尺寸的图像块在上下文信息和效率之间达到最佳平衡,适度放大倍数通过减少过拟合提高了模型的泛化能力。
  • Conclusion: 该研究为自动化检测策略和临床工作流程的优化提供了可行见解,推动了数字病理学领域对模型优势和局限性的理解。

[132] Hierarchical Vision-Language Learning for Medical Out-of-Distribution Detection

Runhe Lai,Xinhua Lu,Kanghao Chen,Qichao Chen,Wei-Shi Zheng,Ruixuan Wang

Main category: cs.CV

TL;DR: 基于视觉-语言模型的医疗OOD检测框架,通过跨尺度视觉融合和硬伪OOD样本生成提升对未知疾病的识别能力

  • Motivation: 在可信论医疗诊断系统中,需要检测分布外(OOD)样本以识别未知疾病,避免误诊风险,特别是对于与已知疾病相似的具有挑战性的未知疾病
  • Method: 提出跨尺度视觉融合策略,将多个尺度的视视嵌入进行耦合,以丰富医学图像的细节表征;同时提出跨尺度硬伪OOD样本生成策略,最大化地提升OOD检测效果
  • Result: 在三个公开医学数据集上的实验评估显示,该框架在OOD检测性能方面超过了现有方法
  • Conclusion: 该研究提出的基于VLM的医疗OOD检测框架通过层次视觉信息集成和硬伪OOD样本生成,能够有效识别具有挑战性的未知疾病,为可信论医疗诊断提供了重要技术支撑

[133] Language-Guided Temporal Token Pruning for Efficient VideoLLM Processing

Yogesh Kumar

Main category: cs.CV

TL;DR: LGTTP通过语言引导的时间令牌剪枝,利用查询中的时间线索自适应剪枝视频令牌,在减少65%计算量的同时保持97-99%的原始性能

  • Motivation: 视觉语言模型在处理长视频时面临注意力机制二次复杂度的挑战,需要降低计算开销同时保持性能
  • Method: 提出语言引导的时间令牌剪枝框架(LGTTP),根据查询的时间线索自适应剪枝视频令牌,在时间相关片段保留更高令牌密度
  • Result: 在TimeChat和LLaVA-Video上实现65%计算量减少,保持97-99%性能;QVHighlights上HIT@1提升9.5%,Charades-STA上R@1保持99.6%
  • Conclusion: LGTTP在显式时间标记的查询上表现优异,同时适用于通用视频理解任务,是模型无关的有效计算优化框架

[134] Benchmarking Class Activation Map Methods for Explainable Brain Hemorrhage Classification on Hemorica Dataset

Z. Rafati,M. Hoseyni,J. Khoramdel,A. Nikoofard

Main category: cs.CV

TL;DR: 本研究比较了9种CAM算法在脑出血诊断中的可解释性表现,发现HiResCAM在边界框对齐方面最佳,AblationCAM在像素级分割指标(Dice 0.57, IoU 0.40)表现最好,为医学影像AI提供了可复现的基准。

  • Motivation: 提高深度学习模型在医学影像中的透明度和临床可信度,通过可解释人工智能(XAI)技术增强脑出血诊断的可解释性。
  • Method: 开发了一个流程,使用9种最先进的CAM算法从分类模型中提取像素级分割和检测注释,在Hemorica数据集上进行定量评估,采用Dice、IoU和像素级重叠等指标。
  • Result: EfficientNetV2S的第5阶段表现出最强的定位性能,HiResCAM获得最高的边界框对齐度,AblationCAM达到最佳像素级Dice(0.57)和IoU(0.40)。
  • Conclusion: 这是首批定量比较CAM方法用于脑出血检测的研究之一,建立了可复现的基准,强调了XAI驱动流程在临床有意义AI辅助诊断中的潜力。

[135] CATformer: Contrastive Adversarial Transformer for Image Super-Resolution

Qinyi Tian,Spence Cox,Laura E. Dalton

Main category: cs.CV

TL;DR: CATformer是一种结合扩散模型、对抗学习和对比学习的超分辨率Transformer网络,在效率和图像质量方面优于现有方法

  • Motivation: 超分辨率技术需要提升低分辨率图像质量,现有方法在transformer、扩散模型和GAN之间存在性能差距,需要一种综合方法来弥合这一差距
  • Method: 采用双分支架构:主分支使用扩散启发的transformer逐步细化潜在表示,辅助分支通过学习的潜在对比增强噪声鲁棒性,最后使用残差密集块进行重建
  • Result: 在基准数据集上的广泛实验表明,CATformer在效率和视觉图像质量方面均优于最近的transformer基和扩散启发方法
  • Conclusion: 该工作弥合了transformer、扩散模型和GAN方法之间的性能差距,为扩散启发transformer在超分辨率中的实际应用奠定了基础

[136] NGD: Neural Gradient Based Deformation for Monocular Garment Reconstruction

Soham Dasgupta,Shanthika Naik,Preet Savalia,Sujay Kumar Ingle,Avinash Sharma

Main category: cs.CV

TL;DR: NGD方法通过神经梯度变形和自适应网格重划分技术,从单目视频中重建动态服装,解决了传统方法在细节建模和变形方面的局限性。

  • Motivation: 现有神经渲染方法在服装动态重建中存在局限性:隐式表示方法无法建模高频细节,模板重建方法使用顶点位移导致伪影。需要一种能够准确重建动态服装复杂几何和纹理的方法。
  • Method: 提出神经梯度变形方法(NGD),结合自适应网格重划分策略来建模动态演化的表面细节(如褶皱),并学习动态纹理贴图来捕捉每帧的光照和阴影效果。
  • Result: 通过广泛的定性和定量评估,该方法在动态服装重建质量方面显著优于现有最先进方法,能够生成高质量的服装重建结果。
  • Conclusion: NGD方法成功解决了动态服装重建中的关键挑战,通过神经梯度变形和自适应网格技术实现了高质量的几何细节和纹理重建,为单目视频中的动态服装建模提供了有效的解决方案。

[137] F2RVLM: Boosting Fine-grained Fragment Retrieval for Multi-Modal Long-form Dialogue with Vision Language Model

Hanbo Bi,Zhiqiang Yuan,Zexi Jia,Jiapei Zhang,Chongyang Li,Peixiang Luo,Ying Deng,Xiaoyue Duan,Jinchao Zhang

Main category: cs.CV

TL;DR: 本文提出了细粒度片段检索任务FFR,构建了大规模多模态对话检索数据集MLDR,并开发了F2RVLM模型,通过两阶段训练和难度感知课程采样,在多模态长对话检索中取得了优异性能。

  • Motivation: 传统对话检索方法无法满足用户从长对话中检索语义连贯内容的需求,特别是在多模态场景下,现有视觉语言模型往往检索出不连贯的片段。
  • Method: 提出F2RVLM生成式检索模型,采用两阶段训练:监督微调注入片段级检索知识,以及基于GRPO的强化学习;引入难度感知课程采样策略,按模型预测难度排序训练样本。
  • Result: F2RVLM在领域内和真实场景测试中都优于主流视觉语言模型,展示了优越的检索性能,特别是在处理长对话和多轮上下文方面。
  • Conclusion: 该研究填补了多模态长对话细粒度检索的空白,提出的方法和模型为实际应用场景中的对话内容检索提供了有效解决方案。

[138] Instant Preference Alignment for Text-to-Image Diffusion Models

Yang Li,Songlin Yang,Xiaoxuan Han,Wei Wang,Jing Dong,Yueming Lyu,Ziyu Xue

Main category: cs.CV

TL;DR: 提出基于多模态大语言模型的训练免费框架,通过偏好理解和偏好引导生成实现实时偏好对齐的图像生成

  • Motivation: 现有方法依赖静态预收集偏好或微调,难以适应动态变化的用户意图,需要实时的训练免费偏好对齐生成方法
  • Method: 将任务解耦为偏好理解和偏好引导生成:利用MLLM从参考图像提取全局偏好信号并丰富提示词;结合全局关键词控制和局部区域感知交叉注意力调制来引导扩散模型
  • Result: 在Viper数据集和自建基准测试中,定量指标和人工评估均优于现有方法
  • Conclusion: 该方法为基于对话的生成和MLLM-扩散模型集成开辟了新可能性,支持多轮交互式精炼

[139] Few-shot Human Action Anomaly Detection via a Unified Contrastive Learning Framework

Koichiro Kamide,Shunsuke Sakai,Shun Maeda,Chunzhi Gu,Chao Zhang

Main category: cs.CV

TL;DR: 提出统一的人类动作异常检测框架,通过对比学习和扩散模型增强,实现少样本场景下的跨类别泛化

  • Motivation: 解决现有方法需要为每个动作类别单独训练模型、需要大量正常样本的问题,提升在数据稀缺和新类别频繁出现的真实场景中的适用性
  • Method: 构建类别无关的表示空间(对比学习)+ 生成式运动增强策略(基于扩散模型)+ 支持集比较进行异常检测
  • Result: 在HumanAct12数据集上达到最先进效果,在可见和未见类别设置下均表现优异,训练效率和模型可扩展性突出
  • Conclusion: 该框架成功解决了少样本人类动作异常检测的挑战,为实际应用提供了高效可扩展的解决方案

[140] Segmentation and Classification of Pap Smear Images for Cervical Cancer Detection Using Deep Learning

Nisreen Albzour,Sarah S. Lam

Main category: cs.CV

TL;DR: 提出结合U-Net分割和分类模型的深度学习框架用于宫颈癌细胞检测,发现分割对分类性能提升有限但略有改善

  • Motivation: 宫颈癌是女性主要死因,传统Pap涂片检测耗时且易出错,需要自动化辅助诊断工具
  • Method: 使用Herlev数据集,集成U-Net进行细胞分割,比较分割前后图像对分类模型性能的影响
  • Result: 分割图像使精确度提高约0.41%,F1分数提高约1.30%,但整体提升有限
  • Conclusion: 分割有助于特征提取但对分类性能影响有限,框架可作为临床辅助工具帮助早期诊断

[141] CMFDNet: Cross-Mamba and Feature Discovery Network for Polyp Segmentation

Feng Jiang,Zongfei Zhang,Xin Xu

Main category: cs.CV

TL;DR: CMFDNet是一种创新的结肠息肉分割架构,通过CMD模块减少模糊边界,MSA模块增强多尺度识别能力,FD模块解决小息肉漏检问题,在多个数据集上超越现有最佳方法。

  • Motivation: 现有息肉分割方法面临三个主要挑战:(1)息肉形状和尺寸变化大,(2)息肉与周围组织边界模糊,(3)小尺寸息肉容易被忽略。这些实际问题驱动了CMFDNet的开发。
  • Method: 提出CMFDNet架构,包含三个核心模块:CMD模块(交叉扫描解码器减少模糊边界)、MSA模块(多分支并行结构增强几何和尺度识别)、FD模块(建立解码器特征依赖关系解决小息肉检测问题)。
  • Result: 实验结果显示CMFDNet在六个SOTA方法中表现最佳,特别是在ETIS和ColonDB数据集上,mDice分数分别超过最佳SOTA方法1.83%和1.55%。
  • Conclusion: CMFDNet通过创新的模块设计有效解决了结肠息肉分割中的三个关键挑战,在多个基准数据集上实现了最先进的性能,为自动化结肠息肉筛查提供了更可靠的解决方案。

[142] DroneKey: Drone 3D Pose Estimation in Image Sequences using Gated Key-representation and Pose-adaptive Learning

Seo-Bin Hwang,Yeong-Jun Cho

Main category: cs.CV

TL;DR: DroneKey是一个专门针对无人机3D姿态估计的框架,结合2D关键点检测和3D姿态估计,通过创新的门控求和机制和姿态自适应马氏距离损失函数,在无人机关键点检测和姿态估计方面取得了优异性能。

  • Motivation: 现有方法在无人机关键点检测方面存在困难,特别是无人机螺旋桨作为关键点具有高度视觉相似性和姿态多样性,难以准确检测。
  • Method: 提出DroneKey框架,包含2D关键点检测器和3D姿态估计器。在关键点检测阶段,从每个transformer编码器层提取两种关键表示(中间和紧凑),使用门控求和进行最优组合,并在损失函数中引入姿态自适应马氏距离以确保极端姿态下的稳定预测。
  • Result: 关键点检测AP达到99.68%(OKS),优于现有方法。3D姿态估计方面,MAE-angle为10.62度,RMSE为0.221m,MAE-absolute为0.076m。编码器设计改进实现44 FPS的实时处理。
  • Conclusion: DroneKey框架在无人机关键点检测和3D姿态估计方面表现出高精度和可靠性,提出的姿态自适应马氏损失函数有效提升了关键点预测的稳定性和准确性,同时满足实时处理需求。

[143] From Global to Local: Social Bias Transfer in CLIP

Ryan Ramos,Yusuke Hirota,Yuta Nakashima,Noa Garcia

Main category: cs.CV

TL;DR: 本文分析了CLIP预训练模型中的社会偏见如何传播到下游任务,发现偏见测量依赖于数据子集,预训练偏见与下游偏见之间缺乏一致性趋势,且不同CLIP模型在下游任务中的表征空间趋于收敛。

  • Motivation: 随着CLIP预训练模型被广泛用于下游任务,需要深入分析其社会偏见和人类刻板印象的传播机制,了解预训练阶段的偏见如何影响下游应用。
  • Method: 通过全面的实证分析:1) 比较全局和局部数据视图下的预训练偏见变化;2) 分析不同预训练偏见水平下预训练模型与下游任务偏见的关联性;3) 探索偏见不一致的原因,研究下游适应过程中表征空间的收敛现象。
  • Result: 偏见测量高度依赖于计算所用的数据子集;预训练偏见与下游偏见之间难以发现一致的趋势;当前范式下,不同预训练CLIP模型在下游任务适应时表征空间趋于收敛。
  • Conclusion: 这项工作为偏见行为提供了有价值的见解,希望为未来的偏见缓解实践提供信息,促进更好的偏见缓解方法研究。

[144] CEIDM: A Controlled Entity and Interaction Diffusion Model for Enhanced Text-to-Image Generation

Mingyue Yang,Dianxi Shi,Jialu Zhou,Xinyu Wei,Leqian Li,Shaowu Yang,Chunping Qiu

Main category: cs.CV

TL;DR: CEIDM是一种基于扩散模型的文本到图像生成方法,通过实体控制网络和交互关系挖掘,实现了对实体及其交互关系的双重控制,生成更符合现实逻辑的高质量图像。

  • Motivation: 解决文本到图像生成中实体复杂性及其交互关系控制的挑战,传统方法难以有效控制实体间的复杂交互,导致生成图像质量不高、交互关系不合理。
  • Method: 1)基于大语言模型的实体交互关系挖掘;2)交互动作聚类和偏移方法;3)实体控制网络生成语义引导的掩码,结合多尺度卷积网络和动态网络融合特征。
  • Result: 实验表明CEIDM在实体控制和交互控制方面均优于现有代表性方法,生成的图像更接近现实逻辑,交互关系更合理。
  • Conclusion: CEIDM通过双重控制机制有效解决了实体及其交互关系的控制问题,显著提升了文本到图像生成的质量和准确性。

[145] Robust Anomaly Detection in Industrial Environments via Meta-Learning

Muhammad Aqeel,Shakiba Sharifi,Marco Cristani,Francesco Setti

Main category: cs.CV

TL;DR: RAD框架结合归一化流和元学习,有效解决工业异常检测中训练数据标签噪声问题,在50%错误标签下仍保持86.8%以上的检测性能

  • Motivation: 工业环境中异常检测训练数据常包含错误标签样本,传统方法对此敏感,需要开发对标签噪声具有鲁棒性的检测框架
  • Method: 采用双层优化策略:元学习快速适应不同噪声条件,不确定性量化指导自适应L2正则化;结合预训练特征提取器进行多尺度特征处理,利用归一化流进行精确似然估计
  • Result: 在MVTec-AD和KSDD2数据集上,干净条件下分别达到95.4%和94.6%的I-AUROC分数,50%错误标签下仍保持86.8%和92.1%的检测性能
  • Conclusion: RAD框架对噪声训练条件具有卓越的鲁棒性,能够检测各种工业场景中的细微异常,是实际应用中数据标注不完美时的实用解决方案

[146] Sketchpose: Learning to Segment Cells with Partial Annotations

Clément Cazorla,Nathanaël Munier,Renaud Morin,Pierre Weiss

Main category: cs.CV

TL;DR: 提出了一种基于距离映射的细胞分割方法,能够处理部分标注的对象,在节俭学习、迁移学习和常规学习中都能显著节省时间和资源,同时保持分割质量。

  • Motivation: 现有的细胞分割网络(如Cellpose、Stardist、HoverNet等)虽然准确度高,但完全依赖完整标注的数据集,这限制了训练集的生成和迁移学习的应用。
  • Method: 开发了一种仍然基于距离映射但能够处理部分标注对象的方法,并将其集成到用户友好的Napari插件中。
  • Result: 实验表明该方法在节俭学习、迁移学习和常规学习场景下都能实现显著的时间和资源节省,且不牺牲分割质量。
  • Conclusion: 该方法解决了完全标注数据集的限制问题,为细胞分割提供了更高效和实用的解决方案。

[147] PoRe: Position-Reweighted Visual Token Pruning for Vision Language Models

Kai Zhao,Wubang Yuan,Alex Lingyu Hung,Dan Zeng

Main category: cs.CV

TL;DR: 提出了一种简单有效的位置重加权视觉token剪枝方法,通过调整视觉token的空间位置注意力分数来缓解序列模型的近因偏差问题。

  • Motivation: 视觉语言模型中视觉token数量远多于文本token,存在大量冗余。现有基于注意力分数的视觉token剪枝方法受到序列模型近因偏差的影响,导致图像底部区域的token获得过高的注意力分数,从而造成次优的剪枝效果。
  • Method: 提出位置重加权视觉token剪枝方法,根据视觉token在图像中的空间位置调整其注意力分数,这是一个即插即用的解决方案,无需改变模型架构或额外训练。
  • Result: 在大型视觉语言模型上的大量实验表明,该方法以最小的计算开销显著提升了视觉token剪枝的性能。
  • Conclusion: 该方法简单而有效,能够有效缓解视觉token剪枝中的近因偏差问题,提高剪枝效果。

[148] UniSino: Physics-Driven Foundational Model for Universal CT Sinogram Standardization

Xingyu Ai,Shaoyu Wang,Zhiyuan Jia,Ao Xu,Hongming Shan,Jianhua Ma,Qiegen Liu

Main category: cs.CV

TL;DR: UniSino是一个用于CT投影数据标准化的基础模型,直接在投影域处理数据,相比传统方法在多种欠采样场景下具有更强的泛化能力

  • Motivation: CT成像中原始数据采集时,欠采样和噪声等因素会降低采集的正弦图质量,导致重建图像出现严重伪影和噪声,影响诊断准确性。传统校正方法依赖手动设计的算法或固定经验参数,缺乏对不同类型伪影的泛化能力
  • Method: 提出UniSino基础模型,直接在投影域对数据进行标准化处理。训练框架结合了正弦图的物理特性,增强了泛化能力,能够在四个基准数据集的多个子任务上实现稳健性能
  • Result: 实验结果表明UniSino在单一和混合欠采样情况下都能实现优异的重建质量,在CT成像的正弦图增强方面表现出卓越的鲁棒性和泛化能力
  • Conclusion: UniSino通过在投影域直接处理数据,为CT正弦图标准化提供了一个有效的通用基础模型,解决了传统方法泛化能力不足的问题

[149] TemCoCo: Temporally Consistent Multi-modal Video Fusion with Visual-Semantic Collaboration

Meiqi Gong,Hao Zhang,Xunpeng Yi,Linfeng Tang,Jiayi Ma

Main category: cs.CV

TL;DR: 首个视频融合框架,通过视觉-语义协作和时间模型学习,解决了传统静态框融合方法导致的时间不一致性问题

  • Motivation: 现有多模态融合方法直接将静态框图像融合技术应用于视频融合任务,忽视了内在的时间依赖关系,导致框之间的不一致结果
  • Method: 1. 视觉-语义交互模块:使用Dinov2和VGG19进行针对性萌荐,同时增强视觉和语义表征 2. 时间协同模块:将视频退化增强任务集成到视频融合流程中 3. 时间增强机制:在网络中嵌入时间增强机制,设计时间损失来指导优化过程
  • Result: 在公开视频数据集上进行了广泛实验,结果表明方法优势显著,代码已开源发布
  • Conclusion: 该框架通过明确结合时间模型和视觉-语义协作,同时确保了视觉保真性、语义准确性和时间一致性,为视频融合领域提供了有效解决方案

[150] A Contrastive Learning-Guided Confident Meta-learning for Zero Shot Anomaly Detection

Muhammad Aqeel,Danijel Skocaj,Marco Cristani,Francesco Setti

Main category: cs.CV

TL;DR: CoZAD是一个新颖的零样本异常检测框架,通过软置信学习结合元学习和对比特征表示,解决了工业和医疗领域数据稀缺和标注成本高的问题,在多个数据集上实现了最先进的性能。

  • Motivation: 工业和医疗异常检测面临数据稀缺和标注成本高昂的挑战,特别是在快速变化的制造和医疗环境中,需要开发不依赖大量标注数据的检测方法。
  • Method: 整合软置信学习、元学习和对比特征表示。使用IQR阈值量化数据不确定性,通过协方差正则化处理模型不确定性,在模型无关元学习框架下实现。对比学习创建判别性特征空间,使正常模式形成紧凑簇。
  • Result: 在10个工业和医疗数据集上评估,在7个工业基准中的6个上超越现有方法,纹理丰富数据集表现优异(DTD-Synthetic 99.2% I-AUROC,BTAD 97.2%),像素级定位达到96.3% P-AUROC(MVTec-AD)。
  • Conclusion: 该框架消除了对视觉-语言对齐或模型集成的依赖,适用于资源受限环境中的快速部署,为工业和医疗异常检测提供了有效的零样本解决方案。

[151] HLG: Comprehensive 3D Room Construction via Hierarchical Layout Generation

Xiping Wang,Yuxi Wang,Mengqi Zhou,Junsong Fan,Zhaoxiang Zhang

Main category: cs.CV

TL;DR: 提出了HLG方法,采用从粗到细的分层方法生成细粒度3D室内场景,通过布局对齐和优化网络解决物体放置问题,显著提升了场景真实性和实用性。

  • Motivation: 现有方法在粗粒度家具布局方面取得进展,但难以捕捉细粒度物体放置,限制了生成环境的真实性和实用性,阻碍了虚拟现实体验和具身AI应用的详细场景理解。
  • Method: HLG方法采用分层布局生成,包括细粒度布局对齐模块(通过垂直和水平解耦构建分层布局)和可训练布局优化网络(解决位置、朝向和物体交叉等放置问题)。
  • Result: 通过大量实验证明该方法在生成真实室内场景方面优于现有方法,能够生成结构连贯且物理合理的场景。
  • Conclusion: 这项工作推动了场景生成领域的发展,为需要详细3D环境的应用开辟了新可能性,代码将在发表后开源以促进未来研究。

[152] SCOUT: Semi-supervised Camouflaged Object Detection by Utilizing Text and Adaptive Data Selection

Weiqi Yan,Lvhai Chen,Shengchuan Zhang,Yan Zhang,Liujuan Cao

Main category: cs.CV

TL;DR: 提出SCOUT方法,通过自适应数据增强选择和文本融合模块,有效利用未标注数据提升伪装目标检测性能

  • Motivation: 像素级标注困难阻碍了伪装目标检测发展,现有半监督方法对未标注数据的利用仍有很大改进空间
  • Method: 包含自适应数据增强选择模块(ADAS)和文本融合模块(TFM),ADAS通过对抗增强和采样策略选择有价值数据,TFM结合伪装相关知识和文本-视觉交互
  • Result: 在新建的RefTextCOD数据集上实验表明,该方法超越了之前的半监督方法,达到了最先进的性能
  • Conclusion: SCOUT方法通过有效利用未标注数据和文本信息,显著提升了半监督伪装目标检测的性能

[153] Diffusion-Based Data Augmentation for Medical Image Segmentation

Maham Nazir,Muhammad Aqeel,Francesco Setti

Main category: cs.CV

TL;DR: DiffAug是一个结合文本引导扩散生成和自动分割验证的新框架,用于解决医学图像中罕见异常分割的标注数据稀缺问题,在三个医学影像基准测试中实现了8-10%的Dice提升。

  • Motivation: 医学图像分割模型在处理罕见异常时面临标注病理数据稀缺的挑战,需要一种能够生成高质量异常样本的方法来改善模型性能。
  • Method: 使用基于潜在扩散模型的文本引导生成方法,通过医学文本描述和空间掩码在正常图像上进行修复来合成异常,并通过潜在空间分割网络进行动态质量验证。
  • Result: 在CVC-ClinicDB、Kvasir-SEG、REFUGE2三个基准测试中实现了最先进的性能,Dice系数比基线提高8-10%,对小型息肉和平坦病变等挑战性病例的假阴性率降低高达28%。
  • Conclusion: DiffAug框架通过文本引导的扩散生成和自动验证机制,有效解决了医学图像中罕见异常分割的数据稀缺问题,显著提升了分割性能,特别适用于早期筛查应用。

[154] Alternating Training-based Label Smoothing Enhances Prompt Generalization

Yang Chen,Yanbin Wei,Ke Jin,Yi Kong,James Kwok,Yu Zhang

Main category: cs.CV

TL;DR: 提出了ATLaS方法,通过交替使用one-hot标签和标签平滑生成的软标签来训练提示调优,解决了传统标签平滑在提示调优中泛化能力下降的问题。

  • Motivation: 预训练视觉语言模型具有出色的零样本泛化能力,但提示调优的泛化能力有限。标签平滑作为有效的正则化技术可以防止模型过拟合,但传统标签平滑反而会削弱提示调优的泛化能力。
  • Method: 提出ATLaS方法:交替使用标准one-hot标签和标签平滑生成的软标签来监督提示调优;引入两种高效的离线软标签(CSL和ISL)提供类间或实例-类关系。
  • Result: 大量实验表明,ATLaS方法结合CSL和ISL能持续提升提示调优的泛化性能,且与主流提示调优方法高度兼容。
  • Conclusion: ATLaS方法有效解决了标签平滑在提示调优中的负面效应,显著提升了模型的泛化能力,具有很好的实用性和兼容性。

[155] Box-Level Class-Balanced Sampling for Active Object Detection

Jingyi Liao,Xun Xu,Chuan-Sheng Foo,Lile Cai

Main category: cs.CV

TL;DR: 提出了一种针对目标检测中框级主动学习的类别平衡采样策略和任务感知软伪标签策略,以解决早期模型在少数类别上表现不佳导致的伪标签类别不平衡问题。

  • Motivation: 目标检测需要昂贵的边界框标注,主动学习可以减轻标注负担。框级主动学习比图像级更高效,但早期模型在少数类别上表现差,导致伪标签严重类别不平衡。
  • Method: 1. 类别平衡采样策略:选择更多少数类别的对象进行标注;2. 任务感知软伪标签策略:提高伪标签的准确性。
  • Result: 在公共基准数据集上评估,方法达到了最先进的性能。
  • Conclusion: 通过类别平衡采样和软伪标签策略,有效解决了框级主动学习中的类别不平衡问题,提升了目标检测模型的性能。

[156] VISA: Group-wise Visual Token Selection and Aggregation via Graph Summarization for Efficient MLLMs Inference

Pengfei Jiang,Hanjun Li,Linglan Zhao,Fei Chao,Ke Yan,Shouhong Ding,Rongrong Ji

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的组间视觉标记选择和聚合方法VISA,通过图论基础的视觉标记聚合和分组选择策略,在保留更多视觉信息的同时压缩视觉标记,提升多模态大语言模型的推理效率。

  • Motivation: 解决多模态大语言模型中因视觉标记过多导致的推理效率低下问题,同时保持较好的模型性能。
  • Method: 提出图论基础的视觉标记聚合模块(VTA),将视觉标记作为节点构建语义相似图,并将删除标记的信息聚合到保留标记中。同时采用分组标记选择策略(GTS),按组进行步进式的视觉信息聚合。
  • Result: 在LLaVA-1.5、LLaVA-NeXT和Video-LLaVA等多个模型上进行完整实验,VISA方法一赴超过之前的方法,实现了模型性能和推理速度之间的优异平衡。
  • Conclusion: VISA方法通过图论聚合和分组选择策略,有效解决了多模态大语言模型中视觉标记过多的问题,在保持视觉信息的同时显著提升了推理效率。

[157] AVAM: Universal Training-free Adaptive Visual Anchoring Embedded into Multimodal Large Language Model for Multi-image Question Answering

Kang Zeng,Guojin Zhong,Jintao Cheng,Jin Yuan,Zhiyong Li

Main category: cs.CV

TL;DR: 通过自适应性视觉锚定策略和协同解码机制,解决多图像VQA中的视觉冗余问题,提升MLLM的准确性和效率

  • Motivation: 多图像VQA中存在大量与问题无关的视觉冗余信息,影响模型准确性和效率,而现有方法缺乏灵活性且产生离散的视觉片段
  • Method: 提出自适应性视觉锚定策略,支持灵活控制压缩后的视觉token数量,并结合新的协同解码机制来平衡全局和压缩视觉输入的结果
  • Result: 广泛实验验证了方法的有效性,在各种MLLM上均实现了一致的性能提升
  • Conclusion: 该方法能够有效处理多图像VQA中的视觉冗余问题,提升MLLM的表现,且可无缝集成到现有模型中

[158] Camera Pose Refinement via 3D Gaussian Splatting

Lulu Hao,Lipu Zhou,Zhenzhong Wei,Xu Wang

Main category: cs.CV

TL;DR: 提出GS-SMC框架,利用3D高斯泼溅技术进行相机位姿优化,无需重新训练即可应用于不同场景,在多个数据集上显著超越现有方法

  • Motivation: 现有相机位姿优化方法需要重新构建场景或重新训练网络,缺乏几何约束导致精度不足,需要一种轻量级且通用的解决方案
  • Method: 基于3D高斯泼溅模型渲染多视角图像,利用对极几何约束进行迭代优化,可灵活选择特征提取器和匹配器
  • Result: 在7-Scenes数据集上平移和旋转误差中位数分别降低53.3%和56.9%,在Cambridge数据集上分别降低40.7%和53.2%
  • Conclusion: GS-SMC框架提供了一种无需重新训练的高效相机位姿优化方法,显著提升精度且具有很好的通用性

[159] Edge-Enhanced Vision Transformer Framework for Accurate AI-Generated Image Detection

Dabbrata Das,Mahshar Yahan,Md Tareq Zaman,Md Rishadul Bayesh

Main category: cs.CV

TL;DR: 提出了一种结合ViT和边缘处理模块的混合框架,用于检测AI生成图像,在多个数据集上达到97.75%的准确率

  • Motivation: 现有检测方法主要依赖深度学习提取全局特征,忽略了细微结构不一致性且计算资源需求大
  • Method: 使用微调的Vision Transformer结合新颖的边缘处理模块,通过计算平滑前后边缘差异图的方差来捕捉AI生成图像的纹理特征
  • Result: 在CIFAKE、Artistic和Custom Curated数据集上表现优异,CIFAKE准确率达97.75%,F1分数97.77%,超越现有最先进模型
  • Conclusion: 该方法为轻量级、可解释且有效的解决方案,适用于静态图像和视频帧的自动化内容验证和数字取证

[160] ISALux: Illumination and Segmentation Aware Transformer Employing Mixture of Experts for Low Light Image Enhancement

Raul Balmez,Alexandru Brateanu,Ciprian Orhei,Codruta Ancuti,Cosmin Ancuti

Main category: cs.CV

TL;DR: ISALux是一种基于Transformer的低光照图像增强方法,通过融合光照和语义先验,采用混合注意力机制和MoE前馈网络,结合LoRA技术解决过拟合问题,在多个数据集上达到SOTA水平。

  • Motivation: 现有低光照图像增强方法在处理真实场景中复杂的光照变化和结构细节时存在局限,需要更好地整合光照和语义信息来提升增强效果。
  • Method: 提出HISA-MSA自注意力模块分别处理光照和语义特征,采用MoE前馈网络进行专业化处理,并引入LoRA技术防止过拟合。
  • Result: 在多个专业数据集上的定性和定量评估表明,ISALux与最先进方法相比具有竞争力,消融研究验证了各组件的重要性。
  • Conclusion: ISALux通过有效整合光照和语义先验,为低光照图像增强提供了一种新颖且有效的解决方案,代码将在发表后开源。

[161] UniAPO: Unified Multimodal Automated Prompt Optimization

Qipeng Zhu,Yanzhe Chen,Huasong Zhong,Yan Li,Jie Chen,Zhixin Zhang,Junping Zhang,Zhenheng Yang

Main category: cs.CV

TL;DR: UniAPO是一个统一的多模态自动提示优化框架,通过EM启发式优化过程和短长期记忆机制,解决了视觉标记膨胀和缺乏过程级监督的挑战,在文本、图像和视频基准测试中均取得显著提升。

  • Motivation: 现有自动提示优化方法主要针对纯文本输入,在多模态任务中存在视觉标记膨胀和缺乏过程级监督两个核心挑战,限制了提示优化的效果。
  • Method: 采用EM启发式优化过程,将反馈建模和提示优化解耦;引入短长期记忆机制,历史反馈缓解上下文限制,历史提示提供方向性指导。
  • Result: 在文本、图像和视频基准测试中均取得一致性的性能提升,建立了高效且可迁移的统一提示优化框架。
  • Conclusion: UniAPO是首个专门为多模态自动提示优化设计的框架,通过创新的优化策略有效解决了多模态场景下的核心挑战,为跨模态提示优化提供了统一解决方案。

[162] Designing Practical Models for Isolated Word Visual Speech Recognition

Iason Ioannis Panagos,Giorgos Sfikas,Christophoros Nikou

Main category: cs.CV

TL;DR: 开发轻量级视觉语音识别架构,降低硬件成本同时保持良好性能

  • Motivation: 现有VSR系统依赖深度神经网络,计算成本高,硬件需求大,限制了在实际资源受限场景中的应用和部署
  • Method: 采用标准双网络设计范式,首先对图像分类中的高效模型进行基准测试,然后在时序卷积网络骨干中采用轻量级块设计,创建多个低资源需求但性能强的统一模型
  • Result: 在最大的英语单词公共数据库上的实验证明了所开发模型的有效性和实用性
  • Conclusion: 提出的轻量级架构能够有效降低VSR系统的硬件成本,同时保持强大的识别性能,提高了在实际应用中的可行性

[163] EndoUFM: Utilizing Foundation Models for Monocular depth estimation of endoscopic images

Xinning Yao,Bo Liu,Bojian Li,Jingjing Wang,Jinghua Yue,Fugen Zhou

Main category: cs.CV

TL;DR: EndoUFM是一种无监督单目深度估计框架,创新性地整合双基础模型,通过RVLoRA自适应微调策略和Res-DSC残差块提升手术场景深度估计性能,在多个数据集上达到最先进水平。

  • Motivation: 现有单目深度估计技术在手术环境中因光照变化和复杂纹理表现有限,视觉基础模型在自然图像上训练导致领域适应性不足和语义感知缺陷。
  • Method: 集成双基础模型,采用RVLoRA自适应微调策略增强模型适应性,使用基于深度可分离卷积的Res-DSC残差块捕获细粒度局部特征,设计掩码引导平滑损失保证解剖组织结构的深度一致性。
  • Result: 在SCARED、Hamlyn、SERV-CT和EndoNeRF数据集上的广泛实验证实该方法达到了最先进的性能,同时保持了高效的模型大小。
  • Conclusion: 该工作有助于增强微创手术中医生的空间感知能力,从而提高手术精度和安全性,对增强现实和导航系统具有重要影响。

[164] Gaze into the Heart: A Multi-View Video Dataset for rPPG and Health Biomarkers Estimation

Konstantin Egorov,Stepan Botman,Pavel Blinov,Galina Zubkova,Anton Ivaschenko,Alexander Kolsanov,Andrey Savchenko

Main category: cs.CV

TL;DR: 提出了一个大规模多视角rPPG数据集,包含600名受试者的3600个同步视频,配有多种生理信号和健康指标,用于训练高效rPPG模型并促进AI医疗助手发展

  • Motivation: 现有rPPG数据集存在规模小、隐私问题、缺乏多样性等问题,限制了远程光电容积脉搏波描记技术的发展
  • Method: 收集600名受试者在不同条件下(静息和运动后)的多角度视频数据,同步采集100Hz PPG信号和多种健康指标(心电图、血压、血氧饱和度等)
  • Result: 构建了包含3600个同步视频记录的大规模数据集,训练了高效的rPPG模型,并在跨数据集场景中与现有方法进行了质量比较
  • Conclusion: 该数据集的公开发布将显著加速AI医疗助手的开发进程

[165] See What You Need: Query-Aware Visual Intelligence through Reasoning-Perception Loops

Zixuan Dong,Baoyun Peng,Yufei Wang,Lin Liu,Xinxin Dong,Yunlong Cao,Xiaodong Wang

Main category: cs.CV

TL;DR: CAVIA是一个无需训练的视频理解框架,通过推理与感知的动态协调,实现了根据查询需求自适应地提取视觉信息,在多个基准测试中达到最先进性能。

  • Motivation: 当前长视频问答系统采用刚性管道,将推理与感知解耦,导致信息丢失或计算效率低下。核心问题在于无法根据特定推理需求自适应地提取视觉证据。
  • Method: CAVIA采用闭环系统,推理持续指导视觉提取。包含三个创新:分层推理引导精确定位、跨模态语义桥接进行目标提取、置信度驱动的迭代合成。
  • Result: 在EgoSchema(65.7%,+5.3%)、NExT-QA(76.1%,+2.6%)和IntentQA(73.8%,+6.9%)等基准测试中达到最先进性能。
  • Conclusion: 动态推理-感知协调为视频理解提供了可扩展的范式,证明了自适应视觉提取的重要性。

[166] Beam Geometry and Input Dimensionality: Impact on Sparse-Sampling Artifact Correction for Clinical CT with U-Nets

Tina Dorosti,Johannes Thalhammer,Sebastian Peterhansl,Daniela Pfeiffer,Franz Pfeiffer,Florian Schaff

Main category: cs.CV

TL;DR: 研究比较了不同光束几何形状和数据维度对U-Net稀疏采样条纹伪影校正性能的影响,发现2D U-Net在轴向切片上表现最佳

  • Motivation: 研究旨在探索如何将体积上下文信息整合到CT扫描伪影减少任务中,以改善模型性能,特别是针对不同光束几何形状和数据维度的影响
  • Method: 使用22个临床CT扫描样本,通过Astra工具箱模拟平行、扇形和锥形光束的稀疏采样CT体积。训练和验证2D和3D U-Net模型,比较512x512 2D图像、2.5D数据和3D数据块的处理效果
  • Result: 对于所有光束几何形状,在轴向2D切片上训练的2D U-Net获得了最佳的MSE和SSIM值,表现优于2.5D和3D输入数据维度
  • Conclusion: 尽管尝试了多种数据维度和光束几何形状,但传统的2D U-Net在轴向切片上的处理仍然是最有效的稀疏采样条纹伪影校正方法

[167] SAIL-Recon: Large SfM by Augmenting Scene Regression with Localization

Junyuan Deng,Heng Li,Tao Xie,Weiqiang Ren,Qian Zhang,Ping Tan,Xiaoyang Guo

Main category: cs.CV

TL;DR: SAIL-Recon是一个基于Transformer的前馈网络,通过增强场景回归网络的视觉定位能力来解决大规模Structure-from-Motion问题,在相机姿态估计和新视角合成方面达到最先进性能。

  • Motivation: 现有的场景回归方法(如VGGT)在处理极端视角变化的图像时表现优异,但无法有效处理大量输入图像。为了解决这个问题,需要开发能够处理大规模场景的方法。
  • Method: 首先从锚点图像子集计算神经场景表示,然后对回归网络进行微调,使其能够基于该神经场景表示重建所有输入图像。采用前馈Transformer架构增强视觉定位能力。
  • Result: 在TUM-RGBD、CO3Dv2和Tanks & Temples等基准测试中,该方法不仅能够高效扩展到大规模场景,还在相机姿态估计和新视角合成方面取得了最先进的结果。
  • Conclusion: SAIL-Recon通过结合神经场景表示和视觉定位能力,成功解决了大规模SfM问题,为场景重建提供了有效的解决方案,代码和模型已公开。

[168] Enhanced Drift-Aware Computer Vision Architecture for Autonomous Driving

Md Shahi Amran Hossain,Abu Shad Ahammed,Sayeri Mukherjee,Roman Obermaisser

Main category: cs.CV

TL;DR: 提出了一种用于自动驾驶的混合计算机视觉架构,通过YOLOv8快速检测和五层CNN验证相结合,在数据漂移环境下实现超过90%的检测准确率提升

  • Motivation: 解决自动驾驶在恶劣天气和低光照等数据漂移场景下的目标检测性能下降问题,提高道路安全性
  • Method: 使用数千张合成道路图像训练混合架构,结合YOLOv8快速检测和五层CNN验证的双模式框架
  • Result: 在漂移增强的道路图像测试中,检测准确率提高了90%以上
  • Conclusion: 混合模型架构能够有效提升在未见数据漂移环境中的鲁棒性,为道路安全提供更好的保障

[169] Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization

Keyang Zhang,Chenqi Kong,Hui Liu,Bo Ding,Xinghao Jiang,Haoliang Li

Main category: cs.CV

TL;DR: 提出Propose-Rectify框架,结合多模态大语言模型的语义理解和法医特征分析,通过提案-修正两阶段实现图像篡改检测和精确定位

  • Motivation: 现有MLLMs虽然具备语义理解能力,但难以感知低层次的法医痕迹,导致篡改定位精度不足,需要将语义推理与法医分析相结合
  • Method: 两阶段框架:1)提案阶段使用法医适配的LLaVA模型进行初步分析和可疑区域定位;2)修正阶段通过多尺度法医特征分析和法医校正模块验证优化提案,并增强分割模块整合法医线索
  • Result: 在多个数据集上实现最先进性能,具有出色的鲁棒性和泛化能力
  • Conclusion: 通过语义推理与法医方法学的协同结合,确保语义提案得到技术证据的系统验证和增强,实现全面的检测精度和定位精度

[170] Fence off Anomaly Interference: Cross-Domain Distillation for Fully Unsupervised Anomaly Detection

Xinyue Liu,Jianyuan Wang,Biao Leng,Shuo Zhang

Main category: cs.CV

TL;DR: 本文提出了一种基于跨域蒸馏的完全无监督异常检测方法,通过在含异常的训练数据中划分低异常比域并聚合跨域知识,有效解决了传统知识蒸馏在FUAD设置下学习异常表示的问题。

  • Motivation: 完全无监督异常检测(FUAD)要求在没有标签的情况下检测异常,即使训练集中可能包含异常样本。传统知识蒸馏方法在这种设置下容易让学生学习到教师对异常的表征,导致检测性能下降。
  • Method: 提出跨域蒸馏(CDD)框架:1)域特定训练:将训练集划分为多个低异常比域,为每个域训练特定学生;2)跨域知识聚合:利用域特定学生生成的伪正常特征协同指导全局学生学习跨样本的泛化正常表征。
  • Result: 在含噪声的MVTec AD和VisA数据集上的实验结果表明,该方法相比基线取得了显著的性能提升,验证了其在FUAD设置下的有效性。
  • Conclusion: 跨域蒸馏框架成功解决了FUAD设置下知识蒸馏的局限性,通过域划分和知识聚合实现了更好的异常检测性能,为完全无监督异常检测提供了有效解决方案。

[171] Development of a Neural Network Model for Currency Detection to aid visually impaired people in Nigeria

Sochukwuma Nwokoye,Desmond Moru

Main category: cs.CV

TL;DR: 使用SSD神经网络模型识别尼日利亚纸币,准确率超过90%,为视障人士提供货币识别辅助技术

  • Motivation: 探索人工神经网络在帮助视障人士区分不同形式现金方面的潜力,简化商业交易流程
  • Method: 构建包含3,468张图像的自定义数据集,训练SSD神经网络模型进行纸币识别
  • Result: 系统平均精度均值(mAP)超过90%,能够准确识别尼日利亚纸币
  • Conclusion: 该系统在辅助技术领域具有重要贡献潜力,能显著改善尼日利亚及全球视障人士的生活质量

[172] Towards Continual Visual Anomaly Detection in the Medical Domain

Manuel Barusco,Francesco Borsatti,Nicola Beda,Davide Dalle Pezze,Gian Antonio Susto

Main category: cs.CV

TL;DR: 本文首次将视觉异常检测模型应用于医学预处理场景的持续学习框架,通过PatchCoreCL模型在BMAD医学数据集上达到了与任务特定模型相当的性能,忘记率低于1%。

  • Motivation: 医学异常检测需要准确和可解释的检测结果,而随时间变化的数据分布可能导致模型性能泡水,因此需要持续学习框架来适应数据演化。
  • Method: 采用基于PatchCore的持续学习版本PatchCoreCL模型,在具有图像级和像素级标注的真实医学数据集BMAD上进行评估。
  • Result: PatchCoreCL在医学异常检测任务中表现出色,性能与任务特定模型相当,忘记率仅为1%,证明了持续学习在医学预处理中的可行性。
  • Conclusion: 这项研究首次证明了持续学习在医学预处理异常检测中的应用潜力,PatchCoreCL模型能够有效适应数据演化同时保持之前的知识,为医学预处理领域提供了一种适应性强的解决方案。

[173] FCR: Investigating Generative AI models for Forensic Craniofacial Reconstruction

Ravi Shankar Prasad,Dinesh Singh

Main category: cs.CV

TL;DR: 使用生成对抗网络从2D X光图像生成面部图像的骨骼面部重建方法,为法医学提供有效识别工具

  • Motivation: 传统的骨骼面部重建方法需要专业知识且耗时,现有的概率生成模型无法抓取骨骼和面部的跨域属性
  • Method: 使用CycleGANs、cGANs等生成对抗网络,对生成器和判别器进行精调,从2D X光图像生成骨骼和面部图像
  • Result: 使用FID、IS和SSIM指标评估生成面部质量,构建了基于生成面部图像的检索框架
  • Conclusion: 该方法可以成为法医学领域的有效识别工具

[174] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

Yaqi Li,Peng Chen,Mingyang Han,Bu Pi,Haoxiang Shi,Runzhou Zhao,Yang Yao,Xuan Zhang,Jun Song

Main category: cs.CV

TL;DR: 提出了Visual-CoG范式,通过三阶段推理和阶段感知奖励机制,解决了现有自回归文本到图像生成模型在多属性和模糊提示处理方面的局限性,在多个基准测试中显著提升性能。

  • Motivation: 现有的自回归文本到图像生成模型在处理多属性和模糊提示时能力有限,现有的链式思维方法虽然有所改进,但奖励信号只在生成结束时提供,难以识别各阶段的贡献,导致策略次优。
  • Method: 提出Visual-CoG范式,包含语义推理、过程精炼和结果评估三个阶段,通过阶段感知奖励在整个图像生成流程中提供即时指导。还构建了视觉认知基准VisCog-Bench来评估语义推理效果。
  • Result: 在GenEval、T2I-CompBench和VisCog-Bench基准测试中分别实现了15%、5%和19%的性能提升,证明了Visual-CoG的优越性能。
  • Conclusion: Visual-CoG通过多阶段推理和即时奖励机制有效提升了文本到图像生成的质量,特别是在处理复杂和模糊提示方面表现出色,为自回归模型的发展提供了新思路。

[175] ArgusCogito: Chain-of-Thought for Cross-Modal Synergy and Omnidirectional Reasoning in Camouflaged Object Segmentation

Jianwen Tan,Huiyao Zhang,Rui Xiong,Han Zhou,Hongfei Wang,Ye Li

Main category: cs.CV

TL;DR: ArgusCogito是一个基于视觉语言模型的零样本思维链框架,通过跨模态协同和全方位推理来解决伪装目标分割问题,在多个基准测试中达到最先进性能

  • Motivation: 现有方法受限于浅层特征表示、推理机制不足和跨模态整合薄弱,导致目标分离不完整和分割不精确的问题,需要更深入的认知能力
  • Method: 采用三个认知启发阶段:1)猜想阶段通过跨模态融合构建强认知先验;2)聚焦阶段进行全方位注意力扫描和聚焦推理;3)雕刻阶段通过迭代生成密集点提示来精细化分割掩码
  • Result: 在四个伪装目标分割基准和三个医学图像分割基准上的广泛评估表明,ArgusCogito实现了最先进的性能,展现出卓越的效能、优越的泛化能力和鲁棒性
  • Conclusion: 该框架通过模仿百眼巨人的感知策略,实现了对伪装目标的深度认知理解,为解决复杂分割任务提供了有效的零样本解决方案

[176] Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images

Kaiyu Li,Xiangyong Cao,Ruixun Liu,Shihong Wang,Zixuan Jiang,Zhi Wang,Deyu Meng

Main category: cs.CV

TL;DR: SegEarth-OV是首个用于遥感图像的无标注开放词汇分割框架,通过SimFeatUp上采样器和全局偏置缓解操作,有效利用预训练视觉语言模型的丰富语义,无需任务特定后训练即可实现精确分割。

  • Motivation: 遥感图像语义分割对地球观测至关重要,但新类别解释需求和昂贵的人工标注成本带来挑战。现有自然图像开放词汇分割框架无法处理遥感数据的尺度变化和细粒度细节,且需要大量标注。
  • Method: 提出SimFeatUp通用上采样器恢复高分辨率空间细节,纠正目标形状失真;设计全局偏置缓解操作提升局部语义保真度;针对SAR图像提出AlignEarth蒸馏策略,将光学VLM编码器知识迁移到SAR编码器。
  • Result: 在光学和SAR数据集上的大量实验表明,SegEarth-OV相比最先进方法实现了显著改进,为无标注开放世界地球观测建立了坚实基础。
  • Conclusion: 该框架成功解决了遥感图像开放词汇分割的挑战,无需标注即可实现精确分割,并可扩展到多种传感器类型,为地球观测提供了强大工具。

[177] EventTracer: Fast Path Tracing-based Event Stream Rendering

Zhenyang Li,Xiaoyang Bai,Jinfan Lu,Pengfei Shen,Edmund Y. Lam,Yifan Peng

Main category: cs.CV

TL;DR: EventTracer是一个基于路径追踪的渲染流水线,能够高效地从复杂3D场景模拟高保真事件序列,通过低SPP路径追踪加速渲染,并使用轻量级脉冲网络去噪生成逼真事件数据。

  • Motivation: 现有事件流模拟方法通常使用无噪声RGB帧,渲染成本高且时间分辨率低(100-300 FPS),远低于真实事件数据。需要一种高效、物理感知的方法来生成大规模、高时间分辨率的事件数据。
  • Method: 采用低样本每像素(SPP)路径追踪加速渲染过程,训练轻量级事件脉冲网络对生成的RGB视频去噪。网络使用双极性泄漏积分发放(BiLIF)脉冲单元和双向地球移动距离(EMD)损失函数来捕捉事件流的物理特性。
  • Result: EventTracer流水线以约4分钟/秒720p视频的速度运行,继承了路径追踪的精确时空建模优势。在下游任务中显示比其他事件模拟器能捕捉更好的场景细节,与真实事件数据相似度更高。
  • Conclusion: EventTracer是一个有前景的工具,能够低成本创建大规模事件-RGB数据集,缩小事件视觉的模拟到真实差距,推动机器人、自动驾驶、VR/AR等应用场景发展。

[178] Few-shot Unknown Class Discovery of Hyperspectral Images with Prototype Learning and Clustering

Chun Liu,Chen Zhang,Zhuo Li,Zheng Li,Wei Yang

Main category: cs.CV

TL;DR: 本文提出了一种用于高光谱图像开放集少样本分类的原型学习和聚类方法,不仅能区分已知和未知类别,还能进一步发现和识别未知类别。

  • Motivation: 当前开放集高光谱图像分类方法主要关注从已知类别中区分并拒绝未知类别样本,但无法进一步识别或发现未知类别。本文旨在解决这一局限性。
  • Method: 采用原型学习和聚类方法,利用少量标注样本推断未知类别的原型,在已知类别分类器拒绝未知样本后,根据与推断原型的距离将未知样本聚类到不同类别。
  • Result: 在四个基准高光谱数据集上的广泛实验表明,该方法在开放集少样本分类任务中表现出有竞争力的性能。
  • Conclusion: 所提出的方法不仅能有效区分已知和未知类别,还能成功发现和识别未知类别,为开放集少样本高光谱图像分类提供了有效解决方案。

[179] Incorporating Pre-trained Diffusion Models in Solving the Schrödinger Bridge Problem

Zhicong Tang,Tiankai Hang,Shuyang Gu,Dong Chen,Baining Guo

Main category: cs.CV

TL;DR: 本文通过三种重参数化技术统一了基于分数的生成模型和薛定谔桥问题,显著加速和稳定了SB模型的训练,并提出了使用预训练SGM初始化SB模型的新策略。

  • Motivation: 旨在统一基于分数的生成模型(SGMs/扩散模型)和薛定谔桥(SB)问题,解决SB模型训练效率低和不稳定的问题,同时充分利用预训练SGMs的优势。
  • Method: 提出了三种重参数化技术:迭代比例均值匹配(IPMM)、迭代比例终点匹配(IPTM)和迭代比例流匹配(IPFM),以及使用预训练SGMs初始化SB模型的策略。
  • Result: 实验证明所提方法显著有效,不仅加速和稳定了SB模型的训练,还进一步提升了SGMs的性能表现。
  • Conclusion: 这项工作为生成模型的未来研究做出了贡献并铺平了道路,成功实现了SGMs和SB问题的统一,提供了高效的训练方法。

[180] BirdRecorder's AI on Sky: Safeguarding birds of prey by detection and classification of tiny objects around wind turbines

Nico Klar,Nizam Gifary,Felix P. G. Ziegler,Frank Sehnke,Anton Kaifel,Eric Price,Aamir Ahmad

Main category: cs.CV

TL;DR: 开发了BirdRecorder AI防碰撞系统,通过SSD检测算法和硬件加速技术,在800米范围内实时检测、跟踪和分类鸟类,以减少风力涡轮机与濒危鸟类(特别是红鸢)的碰撞。

  • Motivation: 解决可再生能源(特别是风能)扩张与野生动物保护之间的冲突,保护濒危鸟类免受风力涡轮机碰撞的威胁。
  • Method: 集成机器人技术、遥测技术和高性能AI算法,使用Single Shot Detector (SSD)进行检测,结合专用硬件加速和跟踪算法,实现实时图像处理。
  • Result: 系统在准确性和效率方面优于现有方法,能够实现高检测精度和实时决策所需的速度。
  • Conclusion: BirdRecorder通过弥合可再生能源扩张与野生动物保护之间的差距,为技术与自然的可持续共存做出贡献。

[181] Assessing the Noise Robustness of Class Activation Maps: A Framework for Reliable Model Interpretability

Syamantak Sarkar,Revoti P. Bora,Bhupender Kaushal,Sudhish N George,Kiran Raja

Main category: cs.CV

TL;DR: 本文评估了不同CAM方法在各种噪声扰动下的鲁棒性,提出了一个包含一致性和响应性的新鲁棒性度量指标,并通过实验验证了该指标的有效性。

  • Motivation: CAM方法作为深度学习模型可视化的重要工具,其在不同噪声下的鲁棒性尚未得到充分研究,需要系统评估和量化其抗干扰能力。
  • Method: 通过分析不同噪声类型对CAM解释的影响,评估噪声敏感性;提出包含一致性和响应性两个关键属性的鲁棒性度量指标;在多个模型、扰动和数据集上进行实证评估。
  • Result: 研究发现不同CAM方法对噪声的敏感性存在显著差异;提出的鲁棒性度量指标能够有效捕捉CAM方法的稳定性和敏感性特征。
  • Conclusion: CAM方法的噪声鲁棒性存在较大差异,提出的度量指标为评估和比较不同CAM方法的鲁棒性提供了有效工具,有助于提高模型解释的可信度。

[182] SpotEdit: Evaluating Visually-Guided Image Editing Methods

Sara Ghazanfari,Wei-An Lin,Haitong Tian,Ersin Yumer

Main category: cs.CV

TL;DR: SpotEdit是一个全面的视觉引导图像编辑基准测试,系统评估了多种生成模型在真实编辑挑战中的表现,特别关注模型幻觉问题。

  • Motivation: 现有的视觉引导图像编辑评估过于简单,无法充分代表真实世界的编辑挑战,特别是模型可能产生幻觉的问题未被充分探索。
  • Method: 开发了SpotEdit基准测试,包含多样化编辑任务和专门的幻觉评估组件,测试了扩散模型、自回归模型和混合生成模型。
  • Result: 发现了显著的性能差异,并揭示领先模型(如GPT-4o)经常产生幻觉,错误地执行编辑任务。
  • Conclusion: SpotEdit为视觉引导图像编辑提供了更全面的评估框架,强调了模型幻觉问题的严重性,有助于推动该领域的发展。

[183] Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance

Xiangxiang Wang,Xuanyu Wang,YiJia Luo,Yongbin Yu,Manping Fan,Jingtao Zhang,Liyong Ren

Main category: cs.CV

TL;DR: 这篇论文提出了双重技术创新框架:跨模态差异化量化框架和场景感知向量化内存多代理系统,在保持模型性能的同时大幅减少内存占用,为视障用户提供实时辅助服务。

  • Motivation: 解决视觉-语言模型的大内存占用问题,并为视障用户提供更全面的实时辅助能力,包括场景感知、文本识别和导航等功能。
  • Method: 采用跨模态差异化量化框架减少模型内存占用,并构建场景感知向量化内存多代理系统,通过感知-记忆-推理工作流程实现历史记忆的持久存储和高效检索。
  • Result: 量化后的19B参数模型内存要求从38GB降至16GB,性能仅下降2.05%;在OCR-VQA上保持63.7准确率(原始64.9),超过相同内存要求的更小模型;响应延迟仅为2.83-3.52秒。
  • Conclusion: 该研究在保持模型性能的同时显著提升了计算效率,为视障用户提供了高效的实时辅助技术解决方案,在计算机效率和辅助技术领域都取得了重要进展。

[184] Emerging Semantic Segmentation from Positive and Negative Coarse Label Learning

Le Zhang,Fuping Wu,Arun Thirunavukarasu,Kevin Bronik,Thomas Nichols,Bartlomiej W. Papiez

Main category: cs.CV

TL;DR: 提出使用粗标注(包括正类和负类)训练语义分割CNN的方法,通过两个耦合CNN从噪声粗标注中学习真实分割标签分布,在多个数据集上优于现有方法。

  • Motivation: 像素级标注耗时且需要专家,而粗标注更快速便宜,即使非专家也能制作,但存在噪声问题。
  • Method: 使用两个耦合CNN从纯噪声粗标注中学习真实分割标签分布,通过高保真度分离两个网络,并添加互补标签学习来估计负标签分布。
  • Result: 在MNIST玩具数据集、Cityscapes多类分割数据集和视网膜医疗图像数据集上,方法均优于最先进方法,特别是在粗标注比例较小时表现更佳。
  • Conclusion: 该方法有效利用粗标注训练分割模型,降低了标注成本,在多种应用场景中展现出优越性能。

[185] BRAIN: Bias-Mitigation Continual Learning Approach to Vision-Brain Understanding

Xuan-Bac Nguyen,Thanh-Dat Truong,Pawan Sinha,Khoa Luu

Main category: cs.CV

TL;DR: 提出了BRAIN方法,通过持续学习和去偏对比学习来解决脑信号随时间衰减导致的表示偏移和性能下降问题

  • Motivation: 人类记忆衰减导致脑信号随时间变弱、不确定且视觉上下文信息减少,这种不一致性会影响视觉-大脑理解模型的性能
  • Method: 采用持续学习框架,提出De-bias Contrastive Learning损失函数来缓解偏差,并使用Angular-based Forgetting Mitigation方法防止灾难性遗忘
  • Result: 在多个基准测试中达到了最先进的性能,超越了先前的方法和非持续学习方法
  • Conclusion: BRAIN方法有效解决了脑信号表示偏移问题,为视觉-大脑理解提供了可靠的解决方案

[186] Explain and Monitor Deep Learning Models for Computer Vision using Obz AI

Neo Christopher Chung,Jakub Binda

Main category: cs.CV

TL;DR: Obz AI是一个全面的软件生态系统,旨在为视觉AI系统提供最先进的解释性和可观测性,通过无缝集成管道从Python客户端库到全栈分析仪表板。

  • Motivation: 深度学习在计算机视觉领域表现出色,但模型往往被视为"黑盒",决策过程缺乏透明度。尽管可解释AI有所进展,但在实际CV部署中仍未充分利用,主要障碍是缺乏将XAI技术与强大知识管理和监控框架集成的软件解决方案。
  • Method: 开发了Obz AI软件生态系统,提供从Python客户端库到全栈分析仪表板的无缝集成管道。使机器学习工程师能够轻松整合先进的XAI方法,提取和分析特征进行异常检测,并实时持续监控AI模型。
  • Result: Obz AI使深度模型的决策机制变得可解释,促进了计算机视觉系统的可观测性和负责任部署。
  • Conclusion: Obz AI填补了XAI技术与实际CV部署之间的集成空白,为视觉AI系统提供了全面的解释性和监控解决方案,有助于实现更透明和负责任的AI部署。

[187] Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance

Ayce Idil Aytekin,Helge Rhodin,Rishabh Dabral,Christian Theobalt

Main category: cs.CV

TL;DR: 提出基于扩散模型的单目RGB图像手持物体3D重建框架,利用手-物体交互作为几何指导,通过推理时指导和优化循环设计直接生成高质量几何

  • Motivation: 现有方法依赖大量后处理或产生低质量重建,需要一种能直接从单目图像重建高质量3D物体几何并确保手-物体交互合理性的方法
  • Method: 使用潜在扩散模型,以修复后的物体外观为条件,通过推理时指导优化重建。引入优化循环设计,对速度场施加监督,同时优化手和物体的变换,利用多模态几何线索(法向/深度对齐、轮廓一致性、2D关键点重投影)和符号距离场监督,强制接触和非相交约束
  • Result: 在遮挡情况下产生准确、鲁棒和一致的重建,在野外场景中泛化良好
  • Conclusion: 该方法通过扩散过程和优化循环设计,能够直接从单目图像重建高质量3D物体几何,同时确保手-物体交互的物理合理性,优于现有方法

[188] GM-Skip: Metric-Guided Transformer Block Skipping for Efficient Vision-Language Models

Lianming Huang,Haibo Hu,Qiao Li,Xin He,Nan Guan,Chun Jason Xue

Main category: cs.CV

TL;DR: GM-Skip是一个用于Transformer块跳过的灵活框架,通过度量引导的贪婪选择和反向删除机制,在保持输出质量的同时加速视觉语言模型的推理速度。

  • Motivation: 基于Transformer的视觉语言模型在图像描述、目标识别等任务上表现出色,但高计算成本阻碍了在延迟敏感应用(如自动驾驶)中的部署。
  • Method: 采用贪婪的度量引导块选择策略,利用度量反馈(如准确率、CIDEr)识别冗余层,结合反向顺序删除机制保留早期基础块以避免性能崩溃,并通过可调节的稀疏度-性能平衡目标支持多样化部署需求。
  • Result: 在COCO数据集上,GM-Skip将Person类别的单目标分类准确率从19.1%提升到87.3%,同时跳过超过40%的Transformer块。在自动驾驶系统中实现高达45.4%的延迟减少。
  • Conclusion: GM-Skip在多个任务和数据集上一致地提高了推理速度并保持任务性能,验证了其跳过配置的有效性和在实际应用中的实用价值。

[189] Sealing The Backdoor: Unlearning Adversarial Text Triggers In Diffusion Models Using Knowledge Distillation

Ashwath Vaithinathan Aravindan,Abha Jha,Matthew Salaway,Atharva Sandeep Bhide,Duygu Nur Yaldiz

Main category: cs.CV

TL;DR: SKD-CAG方法通过自知识蒸馏和交叉注意力引导,选择性消除文本到图像扩散模型中的后门攻击,在保持图像质量的同时有效防御像素和风格后门攻击。

  • Motivation: 文本到图像扩散模型容易受到后门攻击,攻击者可以通过注入不可见的文本触发器来操纵模型输出,而现有的生成模型缺乏有效的防御技术。
  • Method: 使用自知识蒸馏和交叉注意力引导(SKD-CAG),利用后门模型在没有触发器时仍能产生干净输出的特性,在注意力层面消除后门影响。
  • Result: 该方法在像素后门攻击上达到100%的移除准确率,在风格攻击上达到93%的移除准确率,且不牺牲模型的鲁棒性和图像保真度。
  • Conclusion: 目标性遗忘是保护生成模型安全的一种有前景的防御方法,SKD-CAG为文本到图像扩散模型提供了有效的后门防御解决方案。

[190] Interpretable Evaluation of AI-Generated Content with Language-Grounded Sparse Encoders

Yiming Tang,Arash Lagzian,Srinivas Anumasa,Qiran Zou,Trang Nguyen,Ehsan Adeli,Ching-Yu Cheng,Yilun Du,Dianbo Liu

Main category: cs.CV

TL;DR: LanSE是一个新的AI生成内容评估架构,通过识别可解释的视觉模式并用自然语言描述,提供细粒度的评估指标,解决了现有评估方法过于粗糙的问题。

  • Motivation: 当前AI生成内容(如合成图像)的质量评估指标过于粗糙,无法识别具体优缺点,限制了模型选择和科学理解。需要更细粒度的可解释评估方法。
  • Method: 提出Language-Grounded Sparse Encoders (LanSE)架构,识别可解释的视觉模式并自动用自然语言描述。通过大规模人工评估(超过11,000个标注)和多模态模型分析进行验证。
  • Result: LanSE在自然图像中检测可解释视觉模式的准确率超过93%,能够量化生成质量的四个关键维度:提示匹配、视觉真实性、物理合理性和内容多样性。揭示了现有指标无法发现的模型差异。
  • Conclusion: LanSE通过将可解释性与实际评估需求结合,为生成AI模型用户提供了强大的模型选择、合成内容质量控制和模型改进工具,有助于建立公众对AI生成内容的信心和安全。

[191] PriorFormer: A Transformer for Real-time Monocular 3D Human Pose Estimation with Versatile Geometric Priors

Mohamed Adjel,Vincent Bonnet

Main category: cs.CV

TL;DR: 这篇论文提出了一种轻量级的Transformer基础的3D姿势估计模型,能够在流动性的权重优先级设置下从2D关节点估计3D姿势,在保持高准确性的同时实现了极低的计算成本。

  • Motivation: 解决传统3D姿势估计模型对摄像机参数和身体段长度等先验知识的依赖性,以及在缺失这些信息时性能下降的问题。需要一种能够适应不同部署场景的灵活模型。
  • Method: 使用插入机制让模型在训练和推理时忽略缺失的先验知识,构建了一个单一的多功能网络。基于AMASS数据集生成2D合成数据进行训练,包括随机摄像机位置和内参数。
  • Result: 模型在GPU上仅需380微秒、CPU上1800微秒完成计算,平均误差仅36mm,比现有最佳方法提高50mm。在先验知识完整或缺失情况下都表现优异,超过了仅在完整先验知识下训练的专家模型。
  • Conclusion: 该方法成功实现了高效、轻量级的3D姿势估计,具有强大的实际部署能力,适用于从完全标定到无标定的各种相机场景。

[192] GSVisLoc: Generalizable Visual Localization for Gaussian Splatting Scene Representations

Fadi Khatib,Dror Moran,Guy Trostianetsky,Yoni Kasten,Meirav Galun,Ronen Basri

Main category: cs.CV

TL;DR: GSVisLoc是一种基于3D高斯泼溅(3DGS)场景表示的视觉定位方法,通过粗匹配、精匹配和姿态细化三个步骤,实现无需修改、重训练或额外参考图像的相机位姿估计。

  • Motivation: 现有的视觉定位方法通常需要复杂的场景表示或大量参考图像,而3DGS提供了一种紧凑且高效的场景表示方式,但缺乏直接用于视觉定位的方法。GSVisLoc旨在利用3DGS的显式场景表示来实现高效准确的视觉定位。
  • Method: 方法分为三个步骤:1) 粗匹配:对3D高斯进行下采样和编码生成场景特征,同时对图像块进行编码获得图像特征;2) 精匹配:在粗匹配基础上进行更精确的特征匹配;3) 姿态细化:应用姿态细化算法获得最终的精确相机位姿估计。
  • Result: 在室内外场景的标准基准测试中,GSVisLoc表现出具有竞争力的定位性能,优于现有的基于3DGS的基线方法。该方法能够有效泛化到新场景而无需额外训练。
  • Conclusion: GSVisLoc成功地将3D高斯泼溅表示应用于视觉定位任务,提供了一种无需修改场景表示、无需重训练、无需额外参考图像的高效定位解决方案,在多个基准测试中展现了优越性能。

[193] MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Sixun Dong,Juhua Hu,Mian Zhang,Ming Yin,Yanjie Fu,Qi Qian

Main category: cs.CV

TL;DR: 通过多模态覆盖准则优化视觉到形的选择,在保持VLMs性能的同时显著提升推理效率

  • Motivation: 现有的视觉到形剪枝方法仅使用单模态信息(视视或文本),忽视了视觉-语言任务的多模态本质,且缺乏通用的到形选择标准
  • Method: 提出MMTok方法,将子集选择形式化为最大覆盖问题,优化视觉到形子集以同时覆盖文本到形和原视觉到形集,并使用VLM代理提升文本到形质量
  • Result: 在POPE数据集上实现1.87倍速度提升,保持98.7%性能(LLaVA-NeXT-13B);仅用4个视觉到形保持87.7%性能(LLaVA-1.5-7B)
  • Conclusion: 多模态信息在到形选择中具有补充性,覆盖准则是有效的到形选择策略,能在保持性能的同时显著提升效率

[194] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

Weiyun Wang,Zhangwei Gao,Lixin Gu,Hengjun Pu,Long Cui,Xingguang Wei,Zhaoyang Liu,Linglin Jing,Shenglong Ye,Jie Shao,Zhaokai Wang,Zhe Chen,Hongjie Zhang,Ganlin Yang,Haomin Wang,Qi Wei,Jinhui Yin,Wenhao Li,Erfei Cui,Guanzhou Chen,Zichen Ding,Changyao Tian,Zhenyu Wu,Jingjing Xie,Zehao Li,Bowen Yang,Yuchen Duan,Xuehui Wang,Songze Li,Xiangyu Zhao,Haodong Duan,Nianchen Deng,Bin Fu,Yinan He,Yi Wang,Conghui He,Botian Shi,Junjun He,Yingtong Xiong,Han Lv,Lijun Wu,Wenqi Shao,Kaipeng Zhang,Huipeng Deng,Biqing Qi,Jiaye Ge,Qipeng Guo,Wenwei Zhang,Wanli Ouyang,Limin Wang,Min Dou,Xizhou Zhu,Tong Lu,Dahua Lin,Jifeng Dai,Bowen Zhou,Weijie Su,Kai Chen,Yu Qiao,Wenhai Wang,Gen Luo

Main category: cs.CV

TL;DR: InternVL 3.5是一个开源多模态模型系列,通过Cascade RL框架提升推理能力,ViR技术优化效率,相比前代性能提升16%,推理速度加快4.05倍,在多项任务上达到开源模型SOTA水平。

  • Motivation: 提升多模态模型的通用性、推理能力和推理效率,缩小与商业模型如GPT-5的性能差距。
  • Method: 采用Cascade Reinforcement Learning(Cascade RL)两阶段训练框架(离线RL稳定收敛+在线RL精细对齐),Visual Resolution Router(ViR)动态调整视觉token分辨率,Decoupled Vision-Language Deployment(DvD)策略分离视觉编码器和语言模型到不同GPU。
  • Result: 在MMMU和MathVista等下游推理任务上显著提升,整体推理性能提升16.0%,推理速度加快4.05倍,支持GUI交互和具身代理等新能力,最大模型在通用多模态、推理、文本和代理任务上达到开源MLLM的SOTA水平。
  • Conclusion: InternVL 3.5通过创新的训练框架和效率优化技术,显著提升了多模态模型的性能和效率,为开源社区提供了接近商业模型水平的强大工具。

[195] ObjFiller-3D: Consistent Multi-view 3D Inpainting via Video Diffusion Models

Haitang Feng,Jie Liu,Jie Tang,Gangshan Wu,Beiqi Chen,Jianhuang Lai,Guangcong Wang

Main category: cs.CV

TL;DR: ObjFiller-3D是一种新颖的3D修复方法,通过利用视频编辑模型而非传统2D图像修复来解决多视角不一致性问题,实现了更高质量和一致性的3D对象补全。

  • Motivation: 现有的3D修复方法依赖多视角2D图像修复,导致不同视角间存在不一致性,产生模糊纹理、空间不连续性和视觉伪影,影响3D对象补全的准确性和真实感。
  • Method: 提出ObjFiller-3D方法,使用最先进的视频编辑模型来填充3D对象的掩码区域,分析3D与视频之间的表示差距,并引入基于参考的3D修复方法进一步提升重建质量。
  • Result: 在多个数据集上的实验显示,ObjFiller-3D相比之前方法产生更忠实和精细的重建结果(PSNR 26.6 vs. NeRFiller 15.9,LPIPS 0.19 vs. Instant3dit 0.25)。
  • Conclusion: 该方法在真实世界3D编辑应用中展现出强大的实际部署潜力,为高质量3D对象补全和编辑提供了有效解决方案。

cs.AI

[196] WebSight: A Vision-First Architecture for Robust Web Agents

Tanvir Bhathal,Asanshay Gupta

Main category: cs.AI

TL;DR: WebSight是一个纯视觉感知的自主网络代理,通过WebSight-7B视觉语言模型和多智能体架构实现网页交互,在多个基准测试中表现优异。

  • Motivation: 开发不依赖HTML或DOM输入的视觉网络代理,实现更自然和鲁棒的网页交互方式。
  • Method: 使用LoRA在Wave-UI-25K数据集上微调WebSight-7B模型,采用模块化多智能体架构(规划、推理、视觉动作、验证智能体)和情景记忆机制。
  • Result: WebSight-7B在Showdown Clicks基准测试中达到58.84%的top-1准确率,完整WebSight在WebVoyager基准测试中达到68.0%成功率,正确率97.14%。
  • Conclusion: WebSight和WebSight-7B为可解释、鲁棒且高效的视觉网络导航设立了新标准。

[197] MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes

Nilay Pande,Sahiti Yerramilli,Jayant Sravan Tamarapalli,Rynaa Grover

Main category: cs.AI

TL;DR: 提出了MaRVL-QA基准测试,用于评估多模态大语言模型在数学曲面图上的深度数学和空间推理能力,包括拓扑计数和变换识别两个新任务。

  • Motivation: 当前多模态大语言模型在语义描述方面表现出色,但在深度数学和空间推理方面仍有待提升。数学曲面图提供了一个理想的测试平台,能够隔离自然图像中的语义噪声,专注于推理能力的评估。
  • Method: 创建了MaRVL-QA基准测试,包含两个新任务:拓扑计数(识别和枚举局部极值等特征)和变换识别(识别应用的几何变换)。通过精心筛选的函数库生成数据,并进行严格的模糊性过滤。
  • Result: 评估结果显示,即使是当前最先进的多模态大语言模型也表现不佳,往往依赖表面启发式方法而非稳健的空间推理。
  • Conclusion: MaRVL-QA为研究社区提供了一个具有挑战性的新工具,可用于衡量进展、揭示模型局限性,并指导开发具有更深层次推理能力的多模态大语言模型。

[198] SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models

Zhenwei Tang,Difan Jiao,Blair Yang,Ashton Anderson

Main category: cs.AI

TL;DR: SEAM是一个新的基准测试,通过四个领域中对等的文本和视觉表示来评估视觉语言模型的跨模态一致性推理能力,发现当前模型存在系统性模态不平衡问题。

  • Motivation: 现有的视觉语言模型评估方法存在模态比较被任务差异和不对称信息混淆的问题,需要一种能够严格比较文本符号推理和视觉空间推理能力的基准。
  • Method: 开发SEAM基准,使用四个领域(数学、化学、音乐、棋类)中已有的标准化文本和视觉符号系统,构建语义对等的输入对,避免OCR式的图像-文本配对问题。
  • Result: 在21个当代模型测试中发现系统性模态不平衡:视觉性能普遍落后于语言性能,跨模态一致性较低。主要错误来源是领域符号的文本感知失败和视觉感知失败导致的幻觉。
  • Conclusion: SEAM提供了一个受控的语义对等环境,可用于测量和改进模态无关的推理能力,结果对视觉变换具有鲁棒性。

eess.AS

[199] HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation

Sizhe Shan,Qiulin Li,Yutao Cui,Miles Yang,Yuehai Wang,Qun Yang,Jin Zhou,Zhao Zhong

Main category: eess.AS

TL;DR: HunyuanVideo-Foley是一个端到端的文本-视频-音频生成框架,通过创新的数据管道、表示对齐策略和多模态扩散变换器,解决了视频到音频生成中的关键挑战,实现了高保真音频与视觉动态的精确对齐。

  • Motivation: 当前视频生成技术虽然能产生视觉上逼真的内容,但缺乏同步音频严重影响了沉浸感。现有方法面临多模态数据稀缺、模态不平衡和音频质量有限等挑战。
  • Method: 1) 构建100k小时多模态数据集的自劢化标注数据管道;2) 使用自监督音频特征进行表示对齐,指导潜在扩散训练;3) 新颖的多模态扩散变换器,通过联合注意力实现双流音频-视频融合,通过交叉注意力注入文本语义。
  • Result: 综合评估表明,HunyuanVideo-Foley在音频保真度、视觉-语义对齐、时间对齐和分布匹配等方面达到了新的最先进性能。
  • Conclusion: 该框架成功解决了视频到音频生成的关键问题,为多模态内容生成提供了有效的解决方案,显著提升了音频与视觉内容的同步质量。

eess.IV

[200] Predicting brain tumour enhancement from non-contrast MR imaging with artificial intelligence

James K Ruffle,Samia Mohinta,Guilherme Pombo,Asthik Biswas,Alan Campbell,Indran Davagnanam,David Doig,Ahmed Hamman,Harpreet Hyare,Farrah Jabeen,Emma Lim,Dermot Mallon,Stephanie Owen,Sophie Wilkinson,Sebastian Brandner,Parashkev Nachev

Main category: eess.IV

TL;DR: 开发深度学习模型从非对比MRI预测脑肿瘤对比增强,在11089例MRI数据上训练,性能优于放射科专家,准确率83%,可减少钆对比剂使用

  • Motivation: 钆对比剂在脑肿瘤成像中并非总是可行(如频繁随访、肾功能不全、过敏或儿科患者),需要开发从非对比MRI预测增强的方法
  • Method: 使用nnU-Net、SegResNet、SwinUNETR等深度学习模型,仅基于非对比T1、T2和T2/FLAIR加权图像预测和分割增强肿瘤
  • Result: 最佳模型nnU-Net检测增强肿瘤的平衡准确率83%,敏感性91.5%,特异性74.4%,增强体积预测与真实值强相关(R² 0.859),性能优于放射科专家
  • Conclusion: 深度学习可从非对比MRI识别对比增强脑肿瘤,具有临床相关性能,有望作为筛查工具并减少神经肿瘤成像中对钆的依赖

[201] Analysis of Transferability Estimation Metrics for Surgical Phase Recognition

Prabhant Singh,Yiping Li,Yasmina Al Khalil

Main category: eess.IV

TL;DR: 本文提出了首个针对手术视频相位识别的源独立迁移性评估(SITE)基准测试,比较了LogME、H-Score和TransRate三种指标在RAMIE和AutoLaparo数据集上的表现。

  • Motivation: 在手术视频分析中,专家标注成本高昂且耗时,因此需要在不进行完整微调的情况下预测预训练模型在下游任务中的性能表现。
  • Method: 使用三种代表性迁移性评估指标(LogME、H-Score、TransRate)在两个手术视频数据集上进行系统性基准测试,并通过消融实验分析模型多样性对评估结果的影响。
  • Result: LogME指标(特别是按子集最小分数聚合时)与微调精度最接近;H-Score预测能力较弱;TransRate经常产生反向排名。当候选模型性能相似时,迁移性估计失去判别能力。
  • Conclusion: 提出了模型选择的实用指南,并指出未来需要开发领域特定指标、建立理论基础以及构建交互式基准测试工具。

[202] Multimodal Medical Endoscopic Image Analysis via Progressive Disentangle-aware Contrastive Learning

Junhao Wu,Yun Li,Junhao Li,Jingliang Bian,Xiaomao Fan,Wenbin Lei,Ruxin Wang

Main category: eess.IV

TL;DR: 提出基于'对齐-解耦-融合'机制的多模态表示学习框架,整合白光和窄带成像来提升喉咽肿瘤分割精度

  • Motivation: 传统单模态成像方法难以捕捉喉咽肿瘤的复杂解剖和病理特征,需要多模态融合来提升分割性能
  • Method: 采用多尺度分布对齐减少模态差异,渐进式特征解耦策略分离模态特定和共享特征,结合对比学习和语义融合
  • Result: 在多个数据集上实验表明,该方法 consistently 超越最先进方法,在不同临床场景中实现 superior 准确率
  • Conclusion: 提出的多模态表示学习框架能有效整合不同成像模态,显著提升喉咽肿瘤分割的准确性和鲁棒性

[203] Generating Synthetic Contrast-Enhanced Chest CT Images from Non-Contrast Scans Using Slice-Consistent Brownian Bridge Diffusion Network

Pouya Shiri,Xin Yi,Neel P. Mistry,Samaneh Javadinia,Mohammad Chegini,Seok-Bum Ko,Amirali Baniasadi,Scott J. Adams

Main category: eess.IV

TL;DR: 提出首个基于桥扩散模型的解决方案,从非对比CT扫描合成对比增强CTA图像,无需使用造影剂,提高患者安全性和可及性。

  • Motivation: 对比剂CT成像对诊断胸主动脉疾病至关重要,但造影剂存在肾毒性和过敏反应风险。无需造影剂生成高质量合成CTA图像将具有变革性意义。
  • Method: 基于Slice-Consistent Brownian Bridge Diffusion Model (SC-BBDM),在保持切片间一致性的同时建模复杂映射。采用全面的预处理流程包括重采样、对称归一化配准和扩张分割掩模提取主动脉结构。创建两个数据集进行详细分析。
  • Result: 在两个数据集上与基线方法比较,证明该方法在保持血管结构完整性和增强对比度保真度方面的有效性。
  • Conclusion: 该方法能够在低内存预算下保持完整的3D解剖完整性,同时以高分辨率2D方式运行,实现无缝体积解释,为无造影剂CTA成像提供了有前景的解决方案。

[204] Deep Learning Architectures for Medical Image Denoising: A Comparative Study of CNN-DAE, CADTra, and DCMIEDNet

Asadullah Bin Rahman,Masud Ibn Afjal,Md. Abdulla Al Mamun

Main category: eess.IV

TL;DR: 本文系统评估了三种深度学习模型在MRI脑部图像去噪中的表现,发现DCMIEDNet在低噪声水平下优势显著,而CADTra在高噪声水平下更为稳健,所有深度学习方法都显著超过传统小波去噪方法。

  • Motivation: 医学形态学图像容易受到噪声氞染,影响诊断效果和临床评估准确性,需要有效的去噪方法来提升图像质量。
  • Method: 使用Figshare MRI脑部数据集,系统测试三种深度学习模型(CNN-DAE、CADTra、DCMIEDNet)在不同高斯噪声强度(σ=10,15,25)下的去噪性能,并与传统小波方法进行对比。
  • Result: DCMIEDNet在低噪声水平(σ=10和15)下表现最佳,PSNR分别达到32.921±2.350dB和30.943±2.339dB;CADTra在高噪声水平(σ=25)下更为稳健,PSNR为27.671±2.091dB;所有深度学习方法都比传统小波方法提高5-8dB。
  • Conclusion: 研究为医学图像去噪预测了量化标准,并揭示了不同模型架构在不同噪声条件下的特定优势,为医学图像处理提供了有价值的见解。

[205] Semantic Diffusion Posterior Sampling for Cardiac Ultrasound Dehazing

Tristan S. W. Stevens,Oisín Nolan,Ruud J. G. van Sloun

Main category: eess.IV

TL;DR: 提出了一种基于语义引导扩散模型的超声心动图去雾算法,通过语义分割和扩散后验采样框架提升图像质量

  • Motivation: 超声心动图在心脏成像中至关重要,但多路径混响导致的雾状伪影会显著降低图像质量,特别是在难以成像的患者中
  • Method: 结合像素级噪声模型和语义分割,在扩散后验采样框架中使用在干净超声数据上训练的生成先验进行引导
  • Result: 在挑战数据集上的定量评估显示,该方法在对比度和保真度指标上表现优异
  • Conclusion: 该语义引导扩散去雾算法能有效提升超声心动图图像质量,代码已开源

[206] Towards Trustworthy Breast Tumor Segmentation in Ultrasound using Monte Carlo Dropout and Deep Ensembles for Epistemic Uncertainty Estimation

Toufiq Musah,Chinasa Kalaiwo,Maimoona Akram,Ubaida Napari Abdulai,Maruf Adewole,Farouk Dako,Adaobi Chiazor Emegoakor,Udunna C. Anazodo,Prince Ebenezer Adjei,Confidence Raymond

Main category: eess.IV

TL;DR: 本文提出了一种改进的Residual Encoder U-Net用于乳腺超声图像分割,重点解决了数据重复问题并进行了不确定性量化,在多个数据集上验证了模型性能。

  • Motivation: 乳腺超声图像自动分割对于精确病变描绘和肿瘤表征至关重要,但受到固有伪影和数据集不一致性的挑战,需要可靠的不确定性量化来提高临床部署的可信度。
  • Method: 使用改进的Residual Encoder U-Net架构,识别并校正BUSI数据集中的数据重复问题,使用蒙特卡洛dropout、深度集成及其组合来量化认知不确定性,在分布内和分布外数据集上进行基准测试。
  • Result: 在Breast-Lesion-USG数据集上实现了最先进的分割精度,提供了校准的不确定性估计,能有效指示模型低置信度区域。在分布外评估中观察到性能下降和不确定性增加。
  • Conclusion: 研究突出了医学成像中领域转移的持续挑战,以及集成不确定性建模对于可信临床部署的重要性,为乳腺超声分割提供了可靠的不确定性量化方法。

[207] TuningIQA: Fine-Grained Blind Image Quality Assessment for Livestreaming Camera Tuning

Xiangfei Sheng,Zhichao Duan,Xiaofeng Pan,Yipo Huang,Zhichao Yang,Pengfei Chen,Leida Li

Main category: eess.IV

TL;DR: 该论文提出了一个用于直播相机参数调优的细粒度盲图像质量评估方法TuningIQA,并建立了包含10,185张图像的大规模数据集FGLive-10K,解决了现有BIQA模型只能提供粗粒度质量评分的问题。

  • Motivation: 现有的盲图像质量评估模型通常只能预测粗粒度的整体质量分数,无法为相机参数调优提供细粒度的感知指导。直播场景中需要更精确的质量评估来指导相机参数优化。
  • Method: 首先建立了FGLive-10K数据集,包含10,185张高分辨率图像和50,925个多属性质量标注。然后开发了TuningIQA方法,整合了人类感知特征提取和基于图的相机参数融合技术。
  • Result: 实验表明TuningIQA在分数回归和细粒度质量排序方面显著优于最先进的BIQA方法,在直播相机调优部署中表现出优越性能。
  • Conclusion: 该研究填补了细粒度BIQA在直播相机调优领域的空白,提出的TuningIQA方法和FGLive-10K数据集为自动相机质量调优提供了有效的技术支撑。

physics.geo-ph

[208] 3D latent diffusion models for parameterizing and history matching multiscenario facies systems

Guido Di Federico,Louis J. Durlofsky

Main category: physics.geo-ph

TL;DR: 本文开发了一种基于生成式潜在扩散模型(LDM)的3D河道-堤坝-泥岩系统地质参数化方法,通过降维映射保持地质真实性,并成功应用于包含地质场景不确定性的历史拟合。

  • Motivation: 传统地质建模参数化需要将高维地质模型映射到低维潜在变量,这有助于大幅减少历史匹配中需要校准的变量数量,同时保持地质真实性。针对3D河道-堤坝-泥岩系统,需要开发能够处理可变场景参数(泥岩比例、河道走向、河道宽度)的有效参数化方法。
  • Method: 采用生成式潜在扩散模型(LDM)进行地质参数化,在训练过程中包含感知损失项以提高地质真实性。该方法可以为任何场景参数集生成无限数量的实现,在LDM潜在空间中进行模型更新,处理地质场景不确定性。
  • Result: 新生成的地质模型在视觉和一阶、二阶空间统计量上与参考模型高度相似,流动响应分布也高度一致。在三个不同地质场景的合成真实模型案例中,生产预测和地质场景参数的不确定性都明显降低。
  • Conclusion: 基于LDM的参数化方法能够有效处理3D河道-堤坝-泥岩系统的地质建模问题,在保持地质真实性的同时成功应用于历史匹配,为不同地质场景提供了与真实模型一致的后验地质模型。

cs.LG

[209] A Laplace diffusion-based transformer model for heart rate forecasting within daily activity context

Andrei Mateescu,Ioana Hadarau,Ionut Anghel,Tudor Cioara,Ovidiu Anchidin,Ancuta Nemes

Main category: cs.LG

TL;DR: 使用Transformer模型和Laplace扩散技术,通过运动上下文嵌入和关注机制来模型心率波动,在真实病人数据集上实现了更高的预测准确性

  • Motivation: 远程心率监测中,心率波动受多种因素影响,需要结合运动上下文来判断变化的意义。尽管AI模型可提高监测准确性,但运动数据的整合仍然缺乏
  • Method: 提出Transformer模型结合Laplace扩散技术,使用专门的运动上下文嵌入和关注机制,将整个模型过程条件化在运动上下文上。模型捐损长期模式和运动特异性心率动态
  • Result: 在29名病人4个月的真实数据集上,模型表现超过当前最佳方法,平均绝对误差降低43%,决定系数R2达到0.97
  • Conclusion: 该模型是一种实用有效的工具,可支持医疗服务提供者和远程病人监测系统

[210] Hyperbolic Multimodal Representation Learning for Biological Taxonomies

ZeMing Gong,Chuanqi Tang,Xiaoliang Huo,Nicholas Pellegrino,Austin T. Wang,Graham W. Taylor,Angel X. Chang,Scott C. Lowe,Joakim Bruslund Haurum

Main category: cs.LG

TL;DR: 该研究探索使用双曲网络作为生物分类学的嵌入空间,通过多模态输入和新的堆叠蕴含目标,在BIOSCAN-1M数据集上取得了与欧几里得基线相当的性能,并在DNA条形码的未知物种分类上表现最佳。

  • Motivation: 生物多样性研究中的分类学需要将生物标本组织成结构化层次,证据来自图像和遗传信息等多模态数据。研究旨在探索双曲网络是否能为此类层次模型提供更好的嵌入空间。
  • Method: 使用对比学习和新颖的堆叠蕴含目标,将多模态输入嵌入到共享的双曲空间中。在BIOSCAN-1M数据集上进行实验验证。
  • Result: 双曲嵌入实现了与欧几里得基线相当的竞争性能,在使用DNA条形码进行未知物种分类方面优于所有其他模型。但细粒度分类和开放世界泛化仍具挑战性。
  • Conclusion: 该框架为生物多样性建模提供了结构感知的基础,在物种发现、生态监测和保护工作方面具有潜在应用价值。

[211] UM3: Unsupervised Map to Map Matching

Chaolong Ying,Yinan Zhang,Lei Zhang,Jiazhuang Wang,Shujun Jia,Tianshu Yu

Main category: cs.LG

TL;DR: 无监督图到图匹配框架,通过伪坐标、适应性相似度平衡和几何一致损失,实现了高噪声大规模场景下的准确匹配。

  • Motivation: 解决异构地理数据对齐中缺乏真实对应关系、节点特征稀疏和可扩展性要求的挑战。
  • Method: 无监督学习方法,伪坐标提取相对空间布局,适应性特征-几何相似度平衡机制,基于码块的后处理流水线支持并行处理。
  • Result: 在真实数据集上达到独创的准确率,特别在高噪声和大规模场景下显著超越现有方法。
  • Conclusion: 提供了一种可扩展、实用的地图对齐解决方案,为传统方法提供了稳健高效的替代方案。

[212] Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions

Manan Gupta,Dhruv Kumar

Main category: cs.LG

TL;DR: 提出了Polysemanticity Index (PSI)指标,用于量化神经网络中多义神经元的语义聚类质量,发现深层网络比浅层网络具有更高的多义性

  • Motivation: 神经网络中存在多义神经元,这些神经元对多个有时不相关的特征做出响应,这给机制可解释性带来了挑战,需要一种量化方法来识别和研究这些神经元
  • Method: 引入PSI指标,包含三个校准组件:几何聚类质量(S)、与标记类别的对齐度(Q)、通过CLIP的开放词汇语义区分度(D)。在预训练的ResNet-50上使用Tiny-ImageNet图像进行评估
  • Result: PSI成功识别出激活集可分解为连贯、可命名原型的神经元,发现深层网络比浅层网络具有显著更高的PSI值。通过因果补丁交换干预验证了方法的有效性
  • Conclusion: PSI提供了一个原则性和实用性的工具,用于发现、量化和研究神经网络中的多义单元,有助于提升神经网络的可解释性

[213] SACA: Selective Attention-Based Clustering Algorithm

Meysam Shirdel Bilehsavar,Razieh Ghaedi,Samira Seyed Taheri,Xinqi Fan,Christian O'Reilly

Main category: cs.LG

TL;DR: 这篇论文提出了一种受选择性注意启发的新题密度聚类算法,最大化减少用户定义参数的需求,只需一个整数参数即可调整。

  • Motivation: 密度聚类算法如DBSCAN常需用户定义参数,这需要领域专业知识并带来优化挑战。需要一种更简单易用的方法。
  • Method: 算法首先在标准条件下不需用户参数。如需调整,只需一个整数参数。通过计算阈值过滤最稀疏分布点和离群点,形成初步聚类结构,然后重新整合排除点完成结果。
  • Result: 在多样化数据集上的实验评估显示,该方法具有良好的可访问性和稳健性能,为密度聚类任务提供了有效的替代方案。
  • Conclusion: 该新题密度聚类方法通过洞子选择性注意机制,显著减少了对用户参数的依赖,同时保持了良好的性能表现,是一种简洁而高效的聚类解决方案。

[214] Curvature Learning for Generalization of Hyperbolic Neural Networks

Xiaomeng Fan,Yuwei Wu,Zhi Gao,Mehrtash Harandi,Yunde Jia

Main category: cs.LG

TL;DR: 本文提出了基于PAC-Bayesian泛化边界理论的曲率学习方法,通过优化双曲神经网络中的曲率参数来平滑损失景观,提升模型泛化性能。

  • Motivation: 双曲神经网络在处理层次结构数据时表现出色,但曲率选择不当会导致模型收敛到次优参数,影响性能。目前缺乏关于曲率对HNNs影响的理论基础。
  • Method: 提出锐度感知曲率学习方法:设计曲率范围锐度度量,通过双层优化最小化;引入隐式微分算法近似曲率梯度;提供近似误差和收敛性分析。
  • Result: 在分类、长尾数据学习、噪声数据学习和少样本学习四个场景的实验表明,该方法能有效提升双曲神经网络的性能。
  • Conclusion: 理论分析和实验验证表明,通过优化曲率参数平滑损失景观可以显著改善双曲神经网络的泛化能力,为HNNs的曲率选择提供了理论指导。

[215] ShaLa: Multimodal Shared Latent Space Modelling

Jiali Cui,Yan-Ying Chen,Yanxia Zhang,Matthew Klenk

Main category: cs.LG

TL;DR: ShaLa是一个新颖的多模态生成框架,通过集成创新的架构推理模型和两阶段扩散先验,解决了多模态VAE在共享潜在表示学习和合成质量方面的挑战。

  • Motivation: 现有的多模态方法往往过度关注模态特定的细节,而忽略了跨模态共享的高层语义概念。多模态VAE虽然旨在捕获共享表示,但在表达性联合变分后验设计和合成质量方面存在不足。
  • Method: ShaLa整合了新颖的架构推理模型和第二阶段表达性扩散先验,既能有效推断共享潜在表示,又能显著提升多模态合成质量。
  • Result: 在多个基准测试中验证了ShaLa的优越性,相比最先进的多模态VAE表现出更好的连贯性和合成质量,并能扩展到更多模态。
  • Conclusion: ShaLa成功解决了多模态VAE的关键挑战,在共享潜在表示学习和多模态合成方面取得了显著改进,具有良好的可扩展性。

[216] Robustness Feature Adapter for Efficient Adversarial Training

Quanwei Wu,Jun Guo,Wei Wang,Yi Wang

Main category: cs.LG

TL;DR: 提出基于适配器的高效对抗训练方法,直接在特征空间进行训练,解决计算开销大和鲁棒过拟合问题

  • Motivation: 对抗训练在大规模骨干模型中计算开销过大,且存在鲁棒过拟合问题,需要同时解决这两个问题来构建更可信的基础模型
  • Method: 提出基于适配器的特征空间对抗训练方法,通过消除鲁棒过拟合来提高内循环收敛质量
  • Result: 显著提高计算效率,改善模型准确性,并将对抗鲁棒性泛化到未见过的攻击
  • Conclusion: 基于适配器的方法在不同骨干架构和大规模对抗训练中均表现出有效性

[217] Learning to Detect Label Errors by Making Them: A Method for Segmentation and Object Detection Datasets

Sarina Penquitt,Tobias Riedlinger,Timo Heller,Markus Reischl,Matthias Rottmann

Main category: cs.LG

TL;DR: 本文提出了一种统一的学习基于标签错误检测方法,可应用于物体检测、语义分割和实例分割多个计算机视觉任务,通过注入标签错误并将检测框架为实例分割问题。

  • Motivation: 目前标签错误检测方法通常只关注单一计算机视觉任务且非学习基于,导致检测效果有限。错误标注数据会降低模型性能、产生偏差基准结果和整体准确性。
  • Method: 通过向真实标签注入不同类型的标签错误,将标签错误检测框架为一个基于复合输入的实例分割问题,实现统一的学习基于检测方法。
  • Result: 在多个任务、数据集和基础模型上进行了实验对比,显示方法在标签错误检测性能上超过各任务领域的各种基线和现有最佳方法。同时在Cityscapes数据集中发现并释放了459个真实标签错误。
  • Conclusion: 该方法提供了一种统一的学习基于方案,能够在多个计算机视觉任务中有效检测标签错误,为提升数据集标注质量和模型性能提供了可靠的技术支撑。

[218] Generative Feature Imputing - A Technique for Error-resilient Semantic Communication

Jianhao Huang,Qunsong Zeng,Hongyang Du,Kaibin Huang

Main category: cs.LG

TL;DR: 提出生成式特征填补框架,通过空间错误集中打包、扩散模型特征重建和语义感知功率分配,提升语义通信在传输错误下的鲁棒性。

  • Motivation: 语义通信在6G网络中具有高效传输优势,但数字系统中的传输错误容易扭曲语义关键内容,需要确保鲁棒性。
  • Method: 1. 空间错误集中打包策略;2. 基于扩散模型的生成式特征填补方法;3. 语义感知功率分配方案
  • Result: 在块衰落条件下优于Deep Joint Source-Channel Coding和JPEG2000,获得更高的语义准确率和更低的LPIPS分数。
  • Conclusion: 所提框架能有效提升语义通信对传输错误的鲁棒性,为6G网络中的语义通信部署提供解决方案。

[219] Topology Aware Neural Interpolation of Scalar Fields

Mohamed Kissi,Keanu Sisouk,Joshua A. Levine,Julien Tierny

Main category: cs.LG

TL;DR: 提出基于神经网络的拓扑感知时间变化标量场插值方法,利用持久图和时间关键帧学习时间-标量场映射关系,通过拓扑损失提升非关键帧的几何和拓扑重建质量

  • Motivation: 解决时间变化标量场序列中非关键帧数据缺失的问题,传统插值方法难以保持数据的拓扑结构完整性,需要一种能够同时保证几何和拓扑准确性的插值方案
  • Method: 使用神经网络架构学习时间值与对应标量场的关系,基于关键帧示例进行训练,并引入特定拓扑损失函数来利用输入的持久图信息,提升非关键帧时间步的重建质量
  • Result: 在2D和3D时间变化数据集上的实验表明,该方法在数据和拓扑拟合方面均优于参考插值方案,能够瞬时生成查询时间的输出
  • Conclusion: 该方法通过神经网络和拓扑损失的结合,成功实现了时间变化标量场的拓扑感知插值,在保持几何精度的同时显著提升了拓扑结构的重建质量

[220] AQ-PCDSys: An Adaptive Quantized Planetary Crater Detection System for Autonomous Space Exploration

Aditri Paul,Archan Paul

Main category: cs.LG

TL;DR: AQ-PCDSys是一个用于行星陨石坑检测的自适应量化系统,结合量化神经网络和多传感器融合技术,在计算资源受限的太空任务中实现实时高精度检测。

  • Motivation: 行星探测任务需要实时准确的环境感知能力,但在资源受限的计算硬件上部署深度学习模型面临重大挑战。需要开发适合太空任务的计算高效、可靠的陨石坑检测解决方案。
  • Method: 采用量化神经网络架构(QNN)结合量化感知训练(QAT),集成自适应多传感器融合模块(AMF),通过自适应权重机制动态融合光学图像和数字高程模型数据,并配备多尺度检测头。
  • Result: 系统显著优化了模型大小和推理延迟,适合太空探索任务的实时机载部署,同时保持高精度,增强了不同行星景观下的检测鲁棒性。
  • Conclusion: AQ-PCDSys为行星陨石坑检测提供了计算高效、可靠且准确的解决方案,是下一代自主行星着陆、导航和科学探索的关键能力。

cs.GR

[221] MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation

Prerit Gupta,Jason Alexander Fotso-Puepi,Zhengyuan Li,Jay Mehta,Aniket Bera

Main category: cs.GR

TL;DR: MDD是一个多模态双人舞数据集,包含620分钟高质量动作捕捉数据、音乐和10K+细粒度文本描述,支持文本控制和音乐条件的3D双人舞生成任务。

  • Motivation: 现有的舞蹈生成数据集主要关注单人舞蹈,缺乏专门针对双人舞的多模态数据集,无法支持文本控制和音乐条件的双人舞动作生成研究。
  • Method: 收集专业舞者的动作捕捉数据,与音乐同步,并提供详细的自然语言描述,创建包含运动、音乐和文本的多模态数据集。提出两个新任务:文本到双人舞生成和文本到舞蹈伴奏生成。
  • Result: 构建了包含620分钟高质量数据的MDD数据集,包含10,000+细粒度文本描述,涵盖了丰富的运动词汇、空间关系和节奏细节。提供了两个任务的基线评估。
  • Conclusion: MDD是首个无缝整合人体运动、音乐和文本的双人舞生成数据集,为文本控制和音乐条件的3D双人舞生成研究提供了重要资源和支持。

[222] A Survey of Deep Learning-based Point Cloud Denoising

Jinxi Wang,Ben Fei,Dasith de Silva Edirimuni,Zheng Liu,Ying He,Xuequan Lu

Main category: cs.GR

TL;DR: 这篇综述论文系统回顾了截至2025年8月的深度学习点云去噪方法,从监督级别和建模视角两个维度对现有方法进行分类,建立了统一基准进行评估,并讨论了未来研究方向。

  • Motivation: 真实环境中获取的点云数据常因传感器、光照、材质等因素而包含噪声,降低了几何保真度和下游任务性能。传统优化方法难以处理复杂噪声模式,而深度学习方法在复杂大规模点云上表现出色,因此需要系统总结这一快速发展领域的最新进展。
  • Method: 从两个视角组织文献:(1)监督级别(有监督vs无监督);(2)建模视角,提出按去噪原理统一不同方法的功能分类法。分析架构趋势,建立统一基准进行一致性训练设置评估。
  • Result: 论文提供了深度学习点云去噪方法的全面综述,提出了功能分类法,建立了评估基准,从去噪质量、表面保真度、点分布和计算效率等方面评估了各种方法。
  • Conclusion: 点云去噪是基础性问题,深度学习方法是当前主流。该综述为研究者提供了系统参考,指出了开放挑战和未来研究方向,推动了这一快速发展领域的进步。

[223] DanceEditor: Towards Iterative Editable Music-driven Dance Generation with Open-Vocabulary Descriptions

Hengyuan Zhang,Zhe Li,Xingqun Qi,Mengze Li,Muyi Sun,Man Zhang,Sirui Han

Main category: cs.GR

TL;DR: 提出了DanceEditor框架和DanceRemix数据集,支持基于音乐的迭代式可编辑舞蹈生成,通过预测-编辑范式统一多模态条件

  • Motivation: 现有舞蹈生成方法只能直接合成,无法支持用户编辑舞蹈动作,而实际编舞场景中编辑功能更为实用,且缺乏高质量的可编辑舞蹈数据集
  • Method: 构建DanceRemix数据集(2530万舞蹈帧,8.45万对),采用预测-编辑范式:初始预测阶段从音乐直接建模舞蹈动作,编辑阶段通过跨模态编辑模块(CEM)整合文本描述作为条件信息
  • Result: 在新建的DanceRemix数据集上超越现有最先进模型,生成结果既保持音乐节奏性,又能与文本描述保持细粒度语义对齐
  • Conclusion: DanceEditor框架成功实现了音乐驱动的迭代式可编辑舞蹈生成,解决了实际编舞场景中的编辑需求,为舞蹈创作提供了实用工具

[224] MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

Hanzhi Chang,Ruijie Zhu,Wenjie Chang,Mulin Yu,Yanzhe Liang,Jiahao Lu,Zhuoyuan Li,Tianzhu Zhang

Main category: cs.GR

TL;DR: MeshSplat是一个基于高斯泼溅的可泛化稀疏视图表面重建框架,通过2D高斯泼溅连接新视角合成和几何先验,无需3D真值监督即可实现高质量网格重建。

  • Motivation: 现有的表面重建方法在输入视图极其稀疏时难以恢复准确的场景几何形状,需要解决稀疏视图下的几何重建挑战。
  • Method: 使用前馈网络预测每视图像素对齐的2D高斯泼溅,提出加权Chamfer距离损失正则化深度图,并使用法线预测网络对齐2D高斯泼溅方向与单目法线估计器预测的法向量。
  • Result: 大量实验验证了所提改进的有效性,在可泛化稀疏视图网格重建任务中实现了最先进的性能。
  • Conclusion: MeshSplat通过2D高斯泼溅桥接新视角合成和几何先验学习,成功解决了稀疏视图下的表面重建问题,为相关领域提供了有效的解决方案。

q-bio.NC

[225] BrainPath: Generating Subject-Specific Brain Aging Trajectories

Yifan Li,Javad Sohankar,Ji Luo,Jing Li,Yi Su

Main category: q-bio.NC

TL;DR: BrainPath是一个3D生成框架,能够从单次基线MRI扫描预测任意时间点的解剖学准确的大脑老化轨迹,在多个指标上优于现有方法。

  • Motivation: 当前的大脑老化预测方法存在局限:要么预测不完美的年龄替代指标,要么生成缺乏个体特异性的合成图像,无法捕捉个体化的老化轨迹。
  • Method: 结合年龄校准损失、交换学习策略和年龄感知损失,在训练中学习纵向大脑老化动态,推理时从单次基线扫描预测任意时间点的解剖学准确MRI。
  • Result: 在ADNI和NACC数据集上,BrainPath在结构相似性、均方误差、峰值信噪比和MRI年龄差异准确性方面均优于最先进模型,能够捕捉真实且时间一致的老化模式。
  • Conclusion: BrainPath为个性化大脑老化映射、合成随访扫描预测和基于轨迹的分析提供了基础,支持神经退行性疾病和老化的精准建模研究。

cs.CY

[226] Citizen Centered Climate Intelligence: Operationalizing Open Tree Data for Urban Cooling and Eco-Routing in Indian Cities

Kaushik Ravi,Andreas Brück

Main category: cs.CY

TL;DR: 基于参与式感知的全新城市智能框架,通过AI技术、卫星数据和生态路由引擎,实现公民驱动的城市智能与环境平等

  • Motivation: 解决城市气候须强调高分辨率数据而忽视公民参与的问题,对抗数据中央化和生态不平等趋势
  • Method: 三模块框架:1)AI动力智能手机测量工具包;2)卫星地表温度百分位模型计算冷却效果;3)静态环境质量指数的生态路由引擎
  • Result: 在印度普纳市实施,形成了公民生产可操作数据与享受个性化干预的闭环反馈机制
  • Conclusion: 该框架将开政数据从被动仓库转化为主动共治平台,为公民驱动的城市智能提供可复制模型

cs.RO

[227] Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

Dilermando Almeida,Guilherme Lazzarini,Juliano Negri,Thiago H. Segreto,Ricardo V. Godoy,Marcelo Becker

Main category: cs.RO

TL;DR: 通过深度学习框架提升四足机器人的抓取能力,采用模拟到真实方法生成合成数据集,训练CNN网络生成抓取质量热力图,实现了自主导航和精确抓取的完整任务。

  • Motivation: 四足机器人在复杂环境中具有优势,但抓取任务面临精确性和适应性挑战,需要大量真实数据和预编程配置。需要一种可扩展的方案来提高抓取能力。
  • Method: 采用模拟到真实方法,在Genesis模拟环境中生成合成数据集,包含千上万次抓取尝试的像素级注释。训练自定义U-Net类结构CNN,处理RGB、深度、分割掩码和法线图等多模态输入,输出抓取质量热力图。
  • Result: 在四足机器人上验证了完整框架,成功执行了自主导航、感知、预测最佳抓取姿势和精确抓取的完整任务。
  • Conclusion: 证明了利用模拟训练结合先进感知技术可以为物体处理提供可扩展和有效的解决方案,减少对真实数据的依赖。

[228] GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

Guanxing Lu,Baoxiong Jia,Puhao Li,Yixin Chen,Ziwei Wang,Yansong Tang,Siyuan Huang

Main category: cs.RO

TL;DR: 提出了基于高斯原语传播的3D世界模型GWM,通过扩散变换器和3D变分自编码器实现精细场景重建,显著提升机器人操作策略性能

  • Motivation: 现有基于图像的世界模型缺乏稳健的几何信息,需要三维空间和物理理解,即使在互联网规模视频预训练后仍存在不足
  • Method: 使用潜在扩散变换器(DiT)结合3D变分自编码器,通过高斯溅射进行细粒度场景级未来状态重建,推断高斯原语在机器人动作影响下的传播
  • Result: 在仿真和真实世界实验中,GWM能精确预测不同机器人动作条件下的未来场景,训练的策略性能显著超越现有最佳方法
  • Conclusion: 展示了3D世界模型的初始数据扩展潜力,既能增强模仿学习代理的视觉表示,又能作为支持基于模型强化学习的神经模拟器

[229] SEBVS: Synthetic Event-based Visual Servoing for Robot Navigation and Manipulation

Krishna Vinod,Prithvi Jai Ramesh,Pavan Kumar B N,Bharatesh Chakravarthi

Main category: cs.RO

TL;DR: 开发了一个开源ROS包,用于在Gazebo模拟器中从RGB相机生成事件流,并研究了基于事件的机器人策略在导航和操作任务中的性能。

  • Motivation: 事件相机具有微秒级延迟、高动态范围和低功耗等优势,适合在运动模糊、遮挡和光照变化等挑战性条件下进行实时机器人感知,但主流机器人模拟器中缺乏合成事件视觉模拟,阻碍了事件驱动方法在机器人操作和导航任务中的评估。
  • Method: 提出了一个开源的、用户友好的v2e ROS包,用于Gazebo模拟,能够从RGB相机馈送无缝生成事件流。使用该包研究基于事件的机器人策略,评估了两个代表性场景:移动机器人目标跟随和机械臂目标检测与抓取。通过行为克隆训练基于Transformer的ERP策略,并与基于RGB的对应策略在各种操作条件下进行比较。
  • Result: 实验结果表明,事件引导的策略始终提供竞争优势,在实时机器人导航和操作方面表现出色。
  • Conclusion: 事件驱动感知有潜力改善实时机器人导航和操作,为事件相机更广泛地集成到机器人策略学习中奠定了基础。

[230] Egocentric Instruction-oriented Affordance Prediction via Large Multimodal Model

Bokai Ji,Jie Gu,Xiaokang Ma,Chu Tang,Jingmin Chen,Guangxia Li

Main category: cs.RO

TL;DR: 本文提出了任务/指令依赖的affordance概念,构建了包含1.5万个物体-指令-操作三元组的数据集,并开发了基于大型多模态模型的迭代推理预测方法。

  • Motivation: 现有affordance研究大多忽略了任务/指令依赖性,即同一物体在不同指令下应有不同的操作区域和方向,这限制了智能机器人的物体操作能力。
  • Method: 构建了包含1.5万个三元组的egocentric视角数据集,提出了"search against verifiers"管道,让大型多模态模型通过迭代推理过程逐步预测affordance,每一步输出都由模型自身验证。
  • Result: 实验表明该方法不仅解锁了指令导向的affordance预测能力,而且在广泛任务上取得了优异性能。
  • Conclusion: 指令依赖的affordance概念对于智能机器人操作至关重要,提出的数据集和方法为这一方向提供了有效解决方案,大型多模态模型通过迭代推理能够有效预测任务相关的操作可能性。

[231] A holistic perception system of internal and external monitoring for ground autonomous vehicles: AutoTRUST paradigm

Alexandros Gkillas,Christos Anagnostopoulos,Nikos Piperigkos,Dimitris Tsiktsiris,Theofilos Christodoulou,Theofanis Siamatras,Dimitrios Triantafyllou,Christos Basdekis,Theoktisti Marinopoulou,Panagiotis Lepentsiotis,Elefterios Blitsis,Aggeliki Zacharaki,Nearchos Stylianidis,Leonidas Katelaris,Lamberto Salvan,Aris S. Lalos,Christos Laoudias,Antonios Lalas,Konstantinos Votis

Main category: cs.RO

TL;DR: 本文提出了一种用于自动驾驶车辆内外监控的整体感知系统,结合AI技术优化车载感知和体验,包括驾驶员行为识别、环境感知和智能传感器等功能。

  • Motivation: 开发一个全面的感知系统来同时监控自动驾驶车辆的内部环境和外部环境,通过AI技术提升车辆感知能力和用户体验,实现更安全、舒适的自动驾驶体验。
  • Method: 采用多摄像头系统进行驾驶员行为识别和面部识别,利用大语言模型作为虚拟助手;使用AI智能传感器监测空气质量和热舒适度;通过LiDAR进行低成本语义分割,对低质量3D点云进行超分辨率处理。
  • Result: 系统在欧盟Horizon Europe项目AutoTRUST框架下开发,已集成部署在ALKE提供的真实电动车上,在意大利Ispra联合研究中心的实验验证显示各模块性能效率均有提升。
  • Conclusion: 提出的整体感知架构通过模块化设计实现了内外环境的有效监控,实验证明该系统能够提高自动驾驶车辆的感知性能和运行效率。

[232] Scene-Agnostic Traversability Labeling and Estimation via a Multimodal Self-supervised Framework

Zipeng Fang,Yanbo Wang,Lei Zhao,Weidong Chen

Main category: cs.RO

TL;DR: 提出了一种多模态自监督框架,通过整合足印、LiDAR和相机数据,利用视觉基础模型生成可通行性标签,并训练双流网络进行多模态学习,在多个环境中实现了88%的IoU和1.6-3.5%的性能提升。

  • Motivation: 现有的自监督学习方法往往无法有效捕捉不可通行区域的特征,且大多数工作只关注单一模态,忽略了多模态传感器融合的互补优势,需要更鲁棒的可通行性估计方法。
  • Method: 1) 整合足印、LiDAR和相机数据作为视觉基础模型的提示,生成考虑语义和几何线索的可通行性标签;2) 训练解耦的双流网络从不同模态联合学习;3) 引入稀疏LiDAR监督来减轻伪标签噪声。
  • Result: 在城市场景、越野环境和校园环境中进行了广泛实验,自动标注方法在不同数据集上 consistently 达到约88%的IoU,相比现有自监督SOTA方法,多模态可通行性估计网络在所有评估数据集上IoU提高了1.6-3.5%。
  • Conclusion: 提出的多模态自监督框架通过有效整合异构传感器模态,显著提升了可通行性估计的性能,证明了多模态融合在机器人导航中的重要性。

cs.MM

[233] VGGSounder: Audio-Visual Evaluations for Foundation Models

Daniil Zverev,Thaddäus Wiedemer,Ameya Prabhu,Matthias Bethge,Wieland Brendel,A. Sophia Koepke

Main category: cs.MM

TL;DR: VGGSounder是一个重新标注的多标签测试集,用于更准确地评估音频-视觉基础模型,解决了VGGSound数据集的标签不完整、类别重叠和模态不对齐等问题。

  • Motivation: VGGSound数据集作为音频-视觉分类基准存在多个局限性,包括不完整标注、部分重叠类别和模态不对齐,导致对听觉和视觉能力的评估失真。
  • Method: 重新标注VGGSound数据集,创建VGGSounder多标签测试集,包含详细的模态标注,并引入新的模态混淆度量来分析性能退化。
  • Result: VGGSounder提供了更精确的模态特定性能分析,并通过模态混淆度量揭示了模型在添加额外输入模态时的性能限制。
  • Conclusion: VGGSounder作为一个改进的评估基准,能够更可靠地评估音频-视觉基础模型的多模态理解能力。

cs.HC

[234] Predicting User Grasp Intentions in Virtual Reality

Linghao Zeng

Main category: cs.HC

TL;DR: 该研究比较了分类和回归方法在VR中预测用户抓取意图的性能,发现LSTM回归模型在时间误差(0.25秒内)和距离误差(5-20厘米)方面表现更优,能更好地处理用户行为的动态复杂性。

  • Motivation: 预测VR中的用户意图对于创造沉浸式体验至关重要,特别是在需要精确触觉反馈的复杂抓取任务中,准确预测用户动作可以显著提升交互质量。
  • Method: 利用手部运动的时序数据,在810次试验中评估分类和回归方法,试验包含不同物体类型、尺寸和操作方式,特别使用LSTM网络进行回归分析。
  • Result: 分类模型在用户间泛化能力差,性能不稳定;而回归模型(尤其是LSTM)表现更稳健,在抓取前2秒关键窗口内时间误差在0.25秒内,距离误差约5-20厘米。
  • Conclusion: 回归方法特别是LSTM网络更适合处理VR中用户行为的动态复杂性,为实时预测用户动作和自适应触觉反馈奠定了基础,但精确手部姿态预测仍具挑战性。

[235] Negative Shanshui: Real-time Interactive Ink Painting Synthesis

Aven-Le Zhou

Main category: cs.HC

TL;DR: Negative Shanshui是一个实时交互式AI合成系统,通过重新诠释中国古典山水画来回应生态危机,结合了微调的Stable Diffusion模型、视线驱动的修复技术和VR体验

  • Motivation: 重新诠释中国传统山水画,通过AI技术让古典艺术形式与人类世生态危机进行对话,探索艺术与科技的融合
  • Method: 优化微调的Stable Diffusion模型实现实时推理,集成视线驱动的图像修复和帧插值技术,构建交互式VR体验系统
  • Result: 开发出能够根据观众视线动态变形动画的交互系统,并在艺术节中成功部署,观众反馈显示通过共情、矛盾心理和批判性反思等多种方式参与
  • Conclusion: 该项目展示了AI艺术在生态议题表达上的潜力,为传统艺术形式的现代重构提供了技术框架和交互范式

q-bio.QM

[236] Neural Proteomics Fields for Super-resolved Spatial Proteomics Prediction

Bokai Zhao,Weiyang Shi,Hanqing Chao,Zijiang Yang,Yiyang Zhang,Ming Song,Tianzi Jiang

Main category: q-bio.QM

TL;DR: 提出了首个用于空间蛋白质组学超分辨率重建的深度学习模型NPF,通过组织特异性网络在连续空间中重建蛋白质分布,在更少参数下达到SOTA性能

  • Motivation: 当前测序技术空间分辨率低,且组织间蛋白质表达差异大,现有分子数据预测方法性能受限
  • Method: NPF模型包含空间建模模块(学习组织特异性蛋白质空间分布)和形态建模模块(提取组织特异性形态特征),为每个组织训练专用网络
  • Result: NPF在建立的Pseudo-Visium SP基准数据集上实现了最先进的性能,且参数量更少
  • Conclusion: NPF模型在空间蛋白质组学超分辨率任务中表现出色,具有推动该领域研究的潜力