Skip to content
每日arXiv - 2025年10月29日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Explainable Detection of AI-Generated Images with Artifact Localization Using Faster-Than-Lies and Vision-Language Models for Edge Devices

Aryan Mathur,Asaduddin Ahmed,Pushti Amit Vasoya,Simeon Kandan Sonar,Yasir Z,Madesh Kuppusamy

Main category: cs.CV

TL;DR: 提出结合轻量级卷积分类器和视觉语言模型的可解释图像真实性检测系统,在32x32低分辨率图像上实现96.5%准确率,并能定位和解释视觉伪影

  • Motivation: AI生成图像日益逼真给视觉真实性验证带来挑战,需要开发可解释的检测系统
  • Method: 使用Faster-Than-Lies卷积分类器结合Qwen2-VL-7B视觉语言模型,通过自编码器重建误差图生成伪影定位热力图,将70种视觉伪影分为8个语义组
  • Result: 在增强的CiFAKE数据集上达到96.5%准确率,推理时间175ms,可在本地或边缘设备部署
  • Conclusion: 证明了结合视觉和语言推理在低分辨率图像中进行可解释真实性检测的可行性,在取证、工业检测和社交媒体审核等领域有应用潜力

[2] CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Md Tanvir Hossain,Akif Islam,Mohd Ruhul Ameen

Main category: cs.CV

TL;DR: CountFormer是一个基于transformer的类无关物体计数框架,通过识别视觉重复和结构关系来实现计数,在复杂形状和密集场景中表现优异。

  • Motivation: 人类能够通过感知视觉重复和结构关系来轻松计数,而现有计数模型在复杂形状、内部对称或重叠物体时经常出错。
  • Method: 基于CounTR架构,用自监督基础模型DINOv2替换视觉编码器,加入位置嵌入融合来保持几何关系,通过轻量卷积解码器生成密度图。
  • Result: 在FSC-147数据集上达到与当前最优方法相当的性能,在结构复杂或密集场景中表现出更高的准确性。
  • Conclusion: 集成DINOv2等基础模型使计数系统能够接近人类的结构感知能力,推进真正通用且无需示例的计数范式。

[3] A geometric and deep learning reproducible pipeline for monitoring floating anthropogenic debris in urban rivers using in situ cameras

Gauthier Grimmer,Romain Wenger,Clément Flint,Germain Forestier,Gilles Rixhon,Valentin Chardon

Main category: cs.CV

TL;DR: 提出基于固定摄像头的深度学习框架,用于河流漂浮垃圾的连续监测和量化,包括最优模型选择和几何尺寸估计方法

  • Motivation: 河流中漂浮的人为垃圾对环境、生物多样性和人类活动造成负面影响,需要有效的监测方法
  • Method: 使用固定原位摄像头,结合深度学习模型进行垃圾检测和量化,采用几何模型从2D图像估计物体实际尺寸,考虑相机内外参数
  • Result: 验证了在不同环境条件和学习配置下的模型性能,强调了数据集构建协议的重要性,特别是负样本整合和时间泄漏问题
  • Conclusion: 证明了结合投影几何和回归校正的度量对象估计方法的可行性,为开发低成本自动化城市水环境监测系统铺平道路

[4] RareFlow: Physics-Aware Flow-Matching for Cross-Sensor Super-Resolution of Rare-Earth Features

Forouzan Fallah,Wenwen Li,Chia-Yu Hsu,Hyunho Lee,Yezhou Yang

Main category: cs.CV

TL;DR: RareFlow是一个面向遥感图像超分辨率的物理感知框架,专门解决分布外(OOD)条件下的鲁棒性问题,通过双条件架构和不确定性量化来确保物理准确性。

  • Motivation: 遥感图像超分辨率在分布外条件下(如不同传感器捕获的罕见地貌特征)经常失败,产生视觉上合理但物理上不准确的结果。
  • Method: 采用双条件架构:门控ControlNet保持低分辨率输入的几何保真度,文本提示提供复杂特征的语义指导;引入多面损失函数确保光谱和辐射一致性;使用随机前向传播方法量化预测不确定性。
  • Result: 在盲评估中,地球物理专家认为模型输出接近地面真实图像的质量,显著优于最先进的基线方法;在感知指标上取得定量增益,FID降低近40%。
  • Conclusion: RareFlow为数据稀缺科学领域的高保真合成提供了鲁棒框架,并为严重域偏移下的受控生成提供了新范式。

[5] TRELLISWorld: Training-Free World Generation from Object Generators

Hanke Chen,Yuan Liu,Minchen Li

Main category: cs.CV

TL;DR: 提出了一种无需训练的方法,通过将通用文本到3D对象扩散模型重新用作模块化瓦片生成器,实现3D场景合成。

  • Motivation: 现有方法局限于单对象生成、需要领域特定训练或缺乏360度全景支持,需要一种更通用的3D场景生成方法。
  • Method: 将场景生成重新表述为多瓦片去噪问题,独立生成重叠的3D区域并通过加权平均无缝融合。
  • Result: 支持多样化场景布局、高效生成和灵活编辑,为通用语言驱动的3D场景构建提供了简单而强大的基础。
  • Conclusion: 该方法无需场景级数据集或重新训练,依赖最少启发式方法,继承了对象级先验的泛化能力。

[6] Improving Visual Discriminability of CLIP for Training-Free Open-Vocabulary Semantic Segmentation

Jinxin Zhou,Jiachen Jiang,Zhihui Zhu

Main category: cs.CV

TL;DR: LHT-CLIP是一个无需训练的新框架,通过系统利用CLIP在层、头和标记级别的视觉区分能力来改进语义分割性能。

  • Motivation: 由于CLIP模型的图像级预训练目标与密集预测所需的像素级视觉理解之间存在不对齐,现有方法继承了前层的全局对齐偏差,导致分割性能不佳。
  • Method: 提出三种互补技术:语义空间重加权、选择性头部增强和异常标记替换,无需额外训练、辅助预训练网络或大量超参数调优。
  • Result: 在8个常见语义分割基准测试中,LHT-CLP实现了最先进的性能,展示了其在真实世界部署中的有效性和实用性。
  • Conclusion: 通过系统利用CLIP在多个层次的视觉区分能力,LHT-CLIP能够有效恢复视觉区分性并显著提升分割性能,且无需训练过程。

[7] DynaStride: Dynamic Stride Windowing with MMCoT for Instructional Multi-Scene Captioning

Eddison Pham,Prisha Priyadarshini,Adrian Maliackel,Kanishk Bandi,Cristian Meo,Kevin Zhu

Main category: cs.CV

TL;DR: DynaStride是一个无需手动场景分割的管道,通过自适应帧采样和多模态窗口技术生成连贯的场景级视频字幕,在YouCookII数据集上优于VLLaMA3和GPT-4o等基线模型。

  • Motivation: 教学视频中的场景级字幕需要理解视觉线索和时间结构,但现有字幕缺乏这种结构会导致不连贯和质量差,影响教育效果。
  • Method: 使用自适应帧采样和多模态窗口捕捉关键过渡,采用多模态思维链生成多个动作-对象对,通过动态步长窗口选择算法平衡时间上下文和冗余,最终生成融合视觉语义和时间推理的教学字幕。
  • Result: 在N-gram指标(BLEU、METEOR)和语义相似度指标(BERTScore、CLIPScore)上均优于基线模型,定性分析显示生成的字幕在时间连贯性和信息量方面更优。
  • Conclusion: DynaStride为改进AI驱动的教学内容生成提供了一个有前景的方向,能够产生更连贯和信息丰富的场景级字幕。

[8] TurboPortrait3D: Single-step diffusion-based fast portrait novel-view synthesis

Emily Kim,Julieta Martinez,Timur Bagautdinov,Jessica Hodgins

Main category: cs.CV

TL;DR: TurboPortrait3D是一种低延迟的人像新视角合成方法,通过结合图像到3D模型和扩散模型来提升3D人像生成质量,同时保持3D感知和运行效率。

  • Motivation: 现有的人像图像到3D模型存在视觉伪影、细节缺失和身份保持不足的问题,而图像扩散模型虽然能生成高质量图像,但计算成本高且缺乏3D一致性。
  • Method: 采用前馈式图像到虚拟形象生成流程获得初始3D表示和噪声渲染,然后使用单步扩散模型在输入图像条件下进行多视角一致的渲染精炼,并通过合成多视图数据预训练和高质量真实图像微调的训练策略。
  • Result: 该方法在质量和数量上都优于当前最先进的人像新视角合成方法,同时保持时间效率。
  • Conclusion: TurboPortrait3D成功地将图像扩散模型用于增强图像到虚拟形象方法的质量,实现了高质量、3D感知且低延迟的人像新视角合成。

[9] PlanarGS: High-Fidelity Indoor 3D Gaussian Splatting Guided by Vision-Language Planar Priors

Xirui Jin,Renbiao Jin,Boying Li,Danping Zou,Wenxian Yu

Main category: cs.CV

TL;DR: PlanarGS是一个基于3D高斯泼溅的室内场景重建框架,通过引入语言提示平面先验和几何先验监督,解决了在低纹理区域中3DGS重建几何模糊的问题。

  • Motivation: 传统3D高斯泼溅在室内大范围低纹理区域中,仅使用光度损失会导致几何重建模糊,无法恢复高保真3D表面。
  • Method: 设计了语言提示平面先验管道,使用预训练视觉语言分割模型并通过跨视图融合和几何先验检查来优化区域提议;在3D高斯优化中增加了平面先验监督项和几何先验监督项。
  • Result: 在标准室内基准测试中,PlanarGS重建出准确且详细的3D表面,大幅优于现有最先进方法。
  • Conclusion: PlanarGS通过结合平面和几何先验,显著提升了室内场景的3D重建质量,特别是在低纹理区域。

[10] Adaptive Training of INRs via Pruning and Densification

Diana Aldana,João Paulo Lima,Daniel Csillag,Daniel Perazzo,Haoan Feng,Luiz Velho,Tiago Novello

Main category: cs.CV

TL;DR: AIRe是一种自适应隐式神经表示训练方案,通过神经元剪枝和输入频率密集化来优化网络架构,在保持重建质量的同时减小模型规模。

  • Motivation: 现有方法在隐式神经表示中需要手动选择输入频率和架构,存在参数冗余问题,通常依赖启发式方法和繁重的超参数优化。
  • Method: 采用神经元剪枝机制避免冗余,通过目标权重衰减将信息转移到剩余神经元后进行结构化剪枝;然后通过输入频率密集化在信号欠拟合的频谱区域添加频率,扩展表示基础。
  • Result: 在图像和SDF上的实验表明,AIRe在减小模型规模的同时保持甚至提高了重建质量。
  • Conclusion: AIRe通过自适应训练方案改进了网络规模与重建质量之间的权衡,提供了更高效的隐式神经表示方法。

[11] Neural USD: An object-centric framework for iterative editing and control

Alejandro Escontrela,Shrinu Kushagra,Sjoerd van Steenkiste,Yulia Rubanova,Aleksander Holynski,Kelsey Allen,Kevin Murphy,Thomas Kipf

Main category: cs.CV

TL;DR: 提出了Neural USD框架,通过结构化、层次化的场景表示实现精确的对象级编辑,解决了生成模型中对象编辑时出现意外全局变化的问题。

  • Motivation: 当前可控生成模型在精确迭代对象编辑方面存在挑战,改变条件信号往往导致场景的意外全局变化。
  • Method: 借鉴计算机图形学中的USD标准,引入结构化层次化场景表示,采用微调方法确保控制信号解耦。
  • Result: 评估了框架的设计考虑,展示了Neural USD如何支持迭代和增量工作流程。
  • Conclusion: Neural USD框架为精确对象编辑提供了有效解决方案,支持对场景中单个对象的外观、几何和姿态进行独立控制。

[12] SafeVision: Efficient Image Guardrail with Robust Policy Adherence and Explainability

Peiyang Xu,Minzhou Pan,Zhaorun Chen,Shuang Yang,Chaowei Xiao,Bo Li

Main category: cs.CV

TL;DR: SafeVision是一种新型图像护栏系统,通过整合类人推理来增强适应性和透明度,无需重新训练即可动态适应不断变化的安全策略,在多个基准测试中表现优于GPT-4o。

  • Motivation: 传统图像护栏模型受限于预定义类别,缺乏语义推理能力,容易误分类内容,且难以适应新威胁,需要昂贵的重新训练。
  • Method: 采用有效的数据收集和生成框架、策略遵循训练流程、定制损失函数,以及多样化的QA生成和训练策略来增强学习效果。
  • Result: SafeVision在VisionHarm-T上比GPT-4o表现提升8.6%,在VisionHarm-C上提升15.5%,同时速度快16倍以上。
  • Conclusion: SafeVision建立了全面、策略遵循、可解释的图像护栏系统,能够动态适应新兴威胁。

[13] Reasoning Visual Language Model for Chest X-Ray Analysis

Andriy Myronenko,Dong Yang,Baris Turkbey,Mariam Aboian,Sena Azamat,Esra Akcicek,Hongxu Yin,Pavlo Molchanov,Marc Edgar,Yufan He,Pengfei Guo,Yucheng Tang,Daguang Xu

Main category: cs.CV

TL;DR: 提出了一个将链式思维推理引入胸部X光解读的框架,通过两阶段训练(监督微调+强化学习)生成可验证的推理过程,提高临床可审计性和人机协作安全性。

  • Motivation: 现有视觉语言模型在医学图像分析中缺乏透明推理过程,无法提供临床医生依赖的逐步推理,需要开发可解释的AI系统。
  • Method: 结合高保真视觉编码和两阶段训练:推理风格的监督微调,然后使用可验证奖励的强化学习,模型输出模拟放射科医生系统思维过程、不确定性和鉴别诊断的推理。
  • Result: 在分布外评估中实现竞争力的多标签分类同时提高可解释性;在专家放射科医生阅读研究中,完整推理轨迹增加了信心,支持错误审计,并减少了最终报告时间。
  • Conclusion: 该框架支持社区在胸部放射学和其他医学成像任务中向可信赖、可解释AI的进展,其中推理质量与预测质量同样重要。

[14] Efficient Cost-and-Quality Controllable Arbitrary-scale Super-resolution with Fourier Constraints

Kazutoshi Akita,Norimichi Ukita

Main category: cs.CV

TL;DR: 提出联合预测多个傅里叶分量的方法,以改进任意尺度超分辨率的成本与质量可控性

  • Motivation: 现有方法使用循环神经网络逐个预测傅里叶分量,导致性能下降和效率低下
  • Method: 联合预测多个傅里叶分量
  • Result: 提高了质量和效率
  • Conclusion: 联合预测方法优于逐个预测方法

[15] TeleEgo: Benchmarking Egocentric AI Assistants in the Wild

Jiaqi Yan,Ruilong Ren,Jingren Liu,Shuning Xu,Ling Wang,Yiheng Wang,Yun Wang,Long Zhang,Xiangyu Chen,Changzhi Sun,Jixiang Luo,Dell Zhang,Hao Sun,Chi Zhang,Xuelong Li

Main category: cs.CV

TL;DR: TeleEgo是一个长时程、流式、全模态的基准测试,用于评估现实日常场景中的自我中心AI助手,包含超过14小时/参与者的同步自我中心视频、音频和文本数据,涵盖12个诊断子任务和3,291个人工验证的问答项。

  • Motivation: 现有基准测试通常孤立评估AI助手的能力,缺乏真实的流式场景,或仅支持短期任务,无法满足现实世界自我中心AI助手处理多模态输入、实时响应和保持长期记忆的需求。
  • Method: 构建包含工作学习、生活方式、社交活动和外出文化四个领域的同步多模态数据集,所有数据在统一全局时间线上对齐,包含高质量视觉叙述和语音转录,通过人工精炼。定义12个子任务,涵盖记忆、理解和跨记忆推理三大核心能力。
  • Result: TeleEgo提供了3,291个人工验证的问答项,涵盖单选、二元、多选和开放式多种问题格式,在严格流式设置下评估。提出了实时准确率和记忆持久时间两个关键指标来联合评估正确性、时间响应性和长期保持能力。
  • Conclusion: TeleEgo为实用AI助手的开发提供了现实且全面的评估框架,能够推动自我中心AI助手在真实世界环境中的发展。

[16] AdvBlur: Adversarial Blur for Robust Diabetic Retinopathy Classification and Cross-Domain Generalization

Heethanjan Kanagalingam,Thenukan Pathmanathan,Mokeeshan Vathanakumar,Tharmakulasingam Mukunthan

Main category: cs.CV

TL;DR: 提出AdvBlur方法,通过集成对抗性模糊图像和双损失函数框架来提升糖尿病视网膜病变分类的领域泛化能力,有效应对不同设备、人群和成像条件带来的分布变化。

  • Motivation: 现有深度学习模型在糖尿病视网膜病变检测中因设备差异、人口统计差异和成像条件变化导致的分布变化而缺乏鲁棒性,需要提升模型的领域泛化能力。
  • Method: AdvBlur方法:1) 在数据集中集成对抗性模糊图像;2) 采用双损失函数框架来处理领域泛化问题;3) 通过消融研究验证模糊图像和损失函数的有效性。
  • Result: 在多个数据集上的综合评估表明,该方法能有效减轻未见分布变化的影响,在未见外部数据集上取得了与最先进领域泛化DR模型相竞争的性能。
  • Conclusion: AdvBlur方法通过对抗性模糊图像和双损失函数框架成功提升了糖尿病视网膜病变分类的领域泛化能力,为应对现实世界中的分布变化提供了有效解决方案。

[17] Towards the Automatic Segmentation, Modeling and Meshing of the Aortic Vessel Tree from Multicenter Acquisitions: An Overview of the SEG.A. 2023 Segmentation of the Aorta Challenge

Yuan Jin,Antonio Pepe,Gian Marco Melito,Yuxuan Chen,Yunsu Byeon,Hyeseong Kim,Kyungwon Kim,Doohyun Park,Euijoon Choi,Dosik Hwang,Andriy Myronenko,Dong Yang,Yufan He,Daguang Xu,Ayman El-Ghotni,Mohamed Nabil,Hossam El-Kady,Ahmed Ayyad,Amr Nasr,Marek Wodzinski,Henning Müller,Hyeongyu Kim,Yejee Shin,Abbas Khan,Muhammad Asad,Alexander Zolotarev,Caroline Roney,Anthony Mathur,Martin Benning,Gregory Slabaugh,Theodoros Panagiotis Vagenas,Konstantinos Georgas,George K. Matsopoulos,Jihan Zhang,Zhen Zhang,Liqin Huang,Christian Mayer,Heinrich Mächler,Jan Egger

Main category: cs.CV

TL;DR: SEG.A挑战赛推出了首个大型公开主动脉血管树分割数据集,通过基准测试发现3D U-Net架构在分割任务中表现最佳,模型集成显著优于单个模型,为临床转化工具开发建立了新基准。

  • Motivation: 主动脉血管树自动分析具有巨大临床潜力,但缺乏共享高质量数据阻碍了该领域发展,因此需要创建公开数据集来推动算法进步。
  • Method: 通过SEG.A挑战赛引入大型多机构公开数据集,对隐藏测试集进行自动算法基准测试,并可选进行表面网格生成任务,分析不同深度学习方法的性能。
  • Result: 3D U-Net架构在顶级提交中占主导地位,排名最高算法的集成模型显著优于单个模型,性能与算法设计(特别是定制后处理步骤)和训练数据特征密切相关。
  • Conclusion: 该倡议不仅建立了新的性能基准,还为未来开发稳健、可临床转化的工具提供了持久资源,推动了主动脉血管树分割领域的发展。

[18] Mars-Bench: A Benchmark for Evaluating Foundation Models for Mars Science Tasks

Mirali Purohit,Bimal Gajera,Vatsal Malaviya,Irish Mehta,Kunal Kasodekar,Jacob Adler,Steven Lu,Umaa Rebbapragada,Hannah Kerner

Main category: cs.CV

TL;DR: Mars-Bench是首个用于系统评估火星相关任务的基准测试,包含20个数据集,涵盖分类、分割和检测任务,旨在为火星科学建立标准化的机器学习模型开发框架。

  • Motivation: 火星科学领域缺乏标准化的基准测试和评估框架,这限制了火星基础模型的发展。其他领域通过标准化基准实现了快速进步,而火星科学需要类似的工具来推动发展。
  • Method: 创建Mars-Bench基准测试,包含20个标准化数据集,涵盖轨道和地表图像,专注于关键地质特征如陨石坑、锥体、巨石和霜冻。使用在自然图像、地球卫星数据和最先进视觉语言模型上预训练的模型进行基线评估。
  • Result: 所有分析结果表明,火星特定的基础模型可能比通用领域模型具有优势,这激励了进一步探索领域自适应预训练。
  • Conclusion: Mars-Bench旨在为火星科学建立标准化的基础,用于开发和比较机器学习模型。该基准测试的数据、模型和代码已公开可用。

[19] AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Driven Adversarial Prompts

Yufan Liu,Wanqian Zhang,Huashan Chen,Lin Wang,Xiaojun Jia,Zheng Lin,Weiping Wang

Main category: cs.CV

TL;DR: APT是一个黑盒框架,利用大语言模型自动生成人类可读的对抗性后缀来评估文本到图像模型的安全漏洞,能够绕过基于困惑度的过滤器和黑名单词过滤器。

  • Motivation: 现有的红队方法通常需要白盒访问权限,依赖低效的逐提示优化,且生成的语义无意义提示容易被过滤器拦截,需要开发更有效的黑盒评估方法。
  • Method: 采用交替优化-微调管道,在对抗性后缀优化和LLM微调之间交替进行;集成双重规避策略,通过辅助LLM困惑度评分确保人类可读性,并引入禁止词惩罚来抑制黑名单词的生成。
  • Result: 实验证明该方法在红队测试中表现优异,生成的对抗性提示具有人类可读性且能抵抗过滤器,在零样本迁移性方面表现优越,能够快速适应未见过的提示并暴露商业API的关键漏洞。
  • Conclusion: APT框架成功解决了现有红队方法的局限性,为文本到图像模型的安全评估提供了有效的黑盒测试工具,具有实际应用价值。

[20] ResNet: Enabling Deep Convolutional Neural Networks through Residual Learning

Xingyu Liu,Kun Ming Goh

Main category: cs.CV

TL;DR: ResNet通过跳跃连接解决深度网络训练中的梯度消失问题,在CIFAR-10数据集上ResNet-18达到89.9%准确率,优于传统深度CNN的84.1%

  • Motivation: 解决深度卷积神经网络训练中的梯度消失问题,使能训练数百层的超深网络
  • Method: 使用跳跃连接(skip connections)构建残差网络,允许梯度通过捷径连接直接传播,绕过中间层
  • Result: 在CIFAR-10数据集上,ResNet-18达到89.9%准确率,相比相似深度的传统深度CNN(84.1%)有显著提升,且收敛更快、训练更稳定
  • Conclusion: 残差网络通过跳跃连接有效解决了深度网络训练难题,使超深网络训练成为可能,在准确率和训练效率方面都有显著优势

[21] Kernelized Sparse Fine-Tuning with Bi-level Parameter Competition for Vision Models

Shufan Shen,Junshu Sun,Shuhui Wang,Qingming Huang

Main category: cs.CV

TL;DR: SNELLA提出了一种单阶段的参数高效微调方法,通过非线性核函数扩展低秩分解和自适应双层级稀疏分配机制,在降低内存使用的同时提升下游任务性能。

  • Motivation: 当前稀疏调优方法存在两个问题:1) 两阶段方法基于梯度信息定位任务相关权重,但忽略了微调过程中的参数调整;2) 稀疏掩码梯度更新导致高内存使用。
  • Method: SNELLA采用单阶段方法:1) 通过两个低秩可学习矩阵的稀疏矩阵选择性更新权重;2) 引入非线性核函数扩展低秩分解,提高合并矩阵的秩;3) 提出自适应双层级稀疏分配机制,端到端地基于重要性分数在层间和层内竞争分配稀疏度。
  • Result: 在分类、分割和生成任务上的实验表明,SNELLA在低内存使用下达到SOTA性能:在FGVC基准上比SPT-LoRA提高1.8% Top-1准确率(91.9% vs 90.1%),内存减少31.1%-39.9%(模型参数规模86M-632M)。
  • Conclusion: SNELLA通过单阶段设计和自适应稀疏分配,有效解决了现有稀疏调优方法在性能和内存效率方面的限制,为参数高效微调提供了新的解决方案。

[22] Enhancing CLIP Robustness via Cross-Modality Alignment

Xingyu Zhu,Beier Zhu,Shuo Wang,Kesen Zhao,Hanwang Zhang

Main category: cs.CV

TL;DR: COLA是一个基于最优传输的跨模态对齐框架,通过恢复特征空间中的全局图像-文本对齐和局部结构一致性,有效解决CLIP模型在对抗攻击下的特征错位问题。

  • Motivation: 现有方法主要关注对抗微调或提示优化,但忽视了CLIP编码特征中的错位问题。在对抗扰动下,文本和图像特征之间的错位被显著放大,导致分类性能严重下降。
  • Method: 1) 将对抗图像嵌入投影到类文本特征张成的子空间,过滤非语义失真;2) 将图像和文本建模为多个增强视图上的离散分布,通过最优传输优化对齐,并将子空间投影无缝集成到成本计算中。
  • Result: 在14个零样本分类基准上的广泛评估显示,COLA在PGD对抗攻击下在ImageNet及其变体上平均提升6.7%,同时在干净样本上保持高准确率。
  • Conclusion: COLA是一个无需训练且与现有微调模型兼容的框架,能在对抗条件下实现稳定的跨模态对齐。

[23] Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

William Yang,Xindi Wu,Zhiwei Deng,Esin Tureci,Olga Russakovsky

Main category: cs.CV

TL;DR: 提出BOB方法,通过提取类别无关属性(如背景和姿态)并在微调时显式条件化,生成更有效的合成数据用于细粒度分类,在低样本情况下显著提升性能。

  • Motivation: T2I模型用于合成数据集生成时,直接微调容易导致过拟合和多样性降低,影响分类效果,需要解决这些问题。
  • Method: 提取类别无关属性,在微调T2I模型时显式条件化这些属性,生成时边缘化它们,避免过拟合并保持生成先验。
  • Result: 在多个T2I模型、骨干网络和数据集上,BOB在低样本细粒度分类中达到SOTA,在Aircraft数据集上比DataDream提升7.4%,在18/24个实验设置中优于现有方法。
  • Conclusion: BOB方法通过条件化类别无关属性有效缓解过拟合,提升合成数据质量,在低样本细粒度分类任务中表现优异。

[24] OmniText: A Training-Free Generalist for Controllable Text-Image Manipulation

Agus Gunawan,Samuel Teodoro,Yun Chen,Soo Ye Kim,Jihyong Oh,Munchurl Kim

Main category: cs.CV

TL;DR: OmniText是一个无需训练的通才方法,能够执行广泛的文本图像操作任务,包括文本移除、重缩放、重新定位以及具有样式控制的插入和编辑。它通过自注意力反转和交叉注意力重分布来解决现有文本修复方法的局限性,并在多个任务和指标上实现了最先进的性能。

  • Motivation: 现有的基于扩散的文本修复方法存在三个关键限制:(i) 无法移除文本,(ii) 缺乏对渲染文本样式的控制,(iii) 倾向于生成重复字母。这些限制阻碍了它们在更广泛的文本图像操作任务中的应用。
  • Method: 研究了交叉注意力和自注意力机制的两个关键特性,以实现文本移除并提供对文本样式和内容的控制。使用自注意力反转来减少文本幻觉,通过交叉注意力重分布来降低文本幻觉。在潜在优化框架中引入了新的损失函数:交叉注意力内容损失以提高文本渲染准确性,自注意力样式损失以促进样式定制。
  • Result: OmniText是第一个能够执行多样化文本图像操作任务的通才方法。与其他文本修复方法相比,它在多个任务和指标上实现了最先进的性能,并且与专门方法相当。
  • Conclusion: OmniText框架通过创新的注意力机制操作和损失函数设计,成功解决了现有文本修复方法的局限性,为广泛的文本图像操作任务提供了一个强大而灵活的工具。

[25] Enhancing Pre-trained Representation Classifiability can Boost its Interpretability

Shufan Shen,Zhaobo Qi,Junshu Sun,Qingming Huang,Qi Tian,Shuhui Wang

Main category: cs.CV

TL;DR: 该论文提出了一种评估预训练视觉模型表示可解释性的方法,发现可解释性和分类能力呈正相关,并展示了如何通过最大化可解释性来进一步提升分类性能。

  • Motivation: 预训练视觉模型在广泛应用中对表示可解释性提出了新要求,但目前尚不清楚预训练表示能否同时实现高可解释性和高分类能力。
  • Method: 提出固有可解释性评分(IIS),通过评估解释过程中的信息损失来量化表示可解释性,衡量表示中可解释语义的比例。
  • Result: 发现可解释性和分类能力呈正相关,分类能力越高的表示包含更多可解释语义;通过可解释性最大化微调可以进一步提升分类性能;基于解释的预测精度下降更少。
  • Conclusion: 实践者可以在预训练视觉模型中统一提升可解释性和分类能力,两者可以协同改进。

[26] UHKD: A Unified Framework for Heterogeneous Knowledge Distillation via Frequency-Domain Representations

Fengming Yu,Haiwei Pan,Kejia Zhang,Jian Guan,Haiying Jiang

Main category: cs.CV

TL;DR: 提出UHKD框架,通过频域特征转换和特征对齐模块解决异构模型知识蒸馏中的语义差异问题,在CIFAR-100和ImageNet-1K上分别获得5.59%和0.83%的性能提升

  • Motivation: 现有知识蒸馏方法主要针对同构模型设计,在异构场景下性能下降,特别是涉及中间特征时。架构多样性导致语义差异,限制了中间表示的有效利用
  • Method: 使用傅里叶变换在频域捕获全局特征信息,通过特征转换模块(FTM)生成紧凑的频域表示,特征对齐模块(FAM)投影学生特征并进行多级对齐,结合中间特征的均方误差和logits的KL散度联合训练
  • Result: 在CIFAR-100和ImageNet-1K数据集上,相比最新方法分别获得5.59%和0.83%的性能提升
  • Conclusion: UHKD是统一异构表示并有效利用视觉知识的有效方法,通过频域特征处理缓解了异构师生对之间的表示差异

[27] DogMo: A Large-Scale Multi-View RGB-D Dataset for 4D Canine Motion Recovery

Zan Wang,Siyu Chen,Luya Mo,Xinfeng Gao,Yuxin Shen,Lebin Ding,Wei Liang

Main category: cs.CV

TL;DR: DogMo是一个大规模多视角RGB-D视频数据集,包含10只不同品种狗的1200个运动序列,用于从图像恢复狗的运动。论文还提出了一个三阶段优化流程来拟合SMAL模型。

  • Motivation: 解决现有狗运动数据集在多视角、真实3D数据、规模和多样性方面的局限性,为狗运动恢复研究提供更好的基础。
  • Method: 使用三阶段实例特定优化流程:粗对齐、密集对应监督和时间正则化,逐步优化身体形状和姿态。
  • Result: 建立了四个运动恢复基准设置,支持单目和多视角、RGB和RGB-D输入的系统评估。
  • Conclusion: DogMo数据集和方法为狗运动恢复研究提供了原则性基础,并开启了计算机视觉、计算机图形学和动物行为建模交叉领域的新方向。

[28] ETC: training-free diffusion models acceleration with Error-aware Trend Consistency

Jiajian Xie,Hubery Yin,Chen Li,Zhou Zhao,Shengyu Zhang

Main category: cs.CV

TL;DR: 提出ETC框架,通过趋势一致性预测和模型特定误差容限搜索,解决扩散模型加速中的轨迹偏差问题,实现2.65倍加速且质量损失极小。

  • Motivation: 现有训练免费方法在加速扩散过程时忽略去噪趋势且缺乏误差控制,导致多步重用时轨迹偏差和生成结果不一致。
  • Method: 1) 引入一致性趋势预测器,利用扩散轨迹的平滑连续性预测稳定未来方向;2) 提出模型特定误差容限搜索机制,通过识别从语义规划到质量精炼的过渡点来推导校正阈值。
  • Result: 在FLUX上实现2.65倍加速,一致性退化极小(-0.074 SSIM分数)。
  • Conclusion: ETC框架有效解决了扩散模型加速中的轨迹偏差问题,实现了高质量加速生成。

[29] Compositional Image Synthesis with Inference-Time Scaling

Minsuk Ji,Sanghyeok Lee,Namhyuk Ahn

Main category: cs.CV

TL;DR: 提出了一种无需训练的框架,通过结合目标中心方法和自优化来提升文本到图像生成的布局忠实度,同时保持美学质量。

  • Motivation: 现代文本到图像模型在组合性方面仍有困难,经常无法准确渲染对象数量、属性和空间关系。
  • Method: 利用大语言模型从输入提示中合成显式布局,将这些布局注入图像生成过程,并通过目标中心视觉语言模型对多个候选结果进行重排序,迭代选择最符合提示的结果。
  • Result: 通过统一显式布局基础与基于自优化的推理时扩展,该框架相比最近的文本到图像模型实现了更强的场景与提示对齐。
  • Conclusion: 该框架有效提升了文本到图像生成的组合性和布局忠实度,代码已开源。

[30] VC4VG: Optimizing Video Captions for Text-to-Video Generation

Yang Du,Zhuoran Lin,Kaiqiang Song,Biao Wang,Zhicheng Zheng,Tiezheng Ge,Bo Zheng,Qin Jin

Main category: cs.CV

TL;DR: VC4VG是一个专门为文本到视频生成优化的视频字幕框架,通过分析视频重建所需的多维度要素,提出系统化的字幕设计方法,并构建了专门的评估基准。

  • Motivation: 当前文本到视频生成领域缺乏专门针对训练优化的视频字幕策略,高质量的视频-文本对对于生成连贯且符合指令的视频至关重要。
  • Method: 提出VC4VG框架,从T2V角度分析字幕内容,将视频重建所需要素分解为多个维度,建立原则性的字幕设计方法,并构建VC4VG-Bench评估基准。
  • Result: 广泛的T2V微调实验表明,改进的字幕质量与视频生成性能之间存在强相关性,验证了该方法的有效性。
  • Conclusion: VC4VG为文本到视频生成提供了专门的字幕优化框架,显著提升了视频生成质量,并发布了相关工具和代码支持进一步研究。

[31] Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning

Aodi Wu,Xubo Luo

Main category: cs.CV

TL;DR: 提出了一个基于四核心组件的系统框架,在IROS 2025 RoboSense挑战赛中显著提升了视觉语言模型在自动驾驶场景理解任务上的性能。

  • Motivation: 解决视觉语言模型在自动驾驶场景理解中面临的跨任务干扰、空间推理能力不足等问题,提升在感知、预测、规划等安全关键任务上的表现。
  • Method: 1) 混合提示路由器分类问题并分发到任务特定专家提示;2) 任务特定提示嵌入坐标系统、空间推理规则、思维链/树推理等;3) 视觉组装模块组合多视角图像与对象裁剪;4) 按任务配置模型推理参数。
  • Result: 在Qwen2.5-VL-72B上实现,Phase-1(干净数据)平均准确率70.87%,Phase-2(损坏数据)72.85%,证明了结构化提示和空间基础能显著提升性能。
  • Conclusion: 结构化提示设计和空间基础能有效增强视觉语言模型在安全关键自动驾驶任务上的能力,为实际应用提供了可行方案。

[32] Vanish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2

Ziqi Zhou,Yifan Hu,Yufei Song,Zijing Li,Shengshan Hu,Leo Yu Zhang,Dezhong Yao,Long Zheng,Hai Jin

Main category: cs.CV

TL;DR: 提出了UAP-SAM2,这是首个针对SAM2的跨提示通用对抗攻击方法,通过双语义偏差解决SAM2在视频分割中的鲁棒性问题。

  • Motivation: SAM2作为SAM的继任者,在视频分割中表现出强大的泛化能力,但其对抗鲁棒性尚未被探索。现有对SAM的攻击方法无法直接迁移到SAM2,因为存在两个关键挑战:提示的方向性引导和跨连续帧的语义纠缠。
  • Method: 设计了目标扫描策略将每帧划分为k个区域并随机分配提示,以减少优化过程中的提示依赖性。提出双语义偏差框架,通过扭曲当前帧内的语义和破坏跨连续帧的语义一致性来优化通用对抗扰动。
  • Result: 在六个数据集上的两个分割任务实验表明,UAP-SAM2显著优于现有最先进的攻击方法,证明了该方法的有效性。
  • Conclusion: UAP-SAM2成功解决了SAM2的对抗鲁棒性问题,为视频分割模型的对抗攻击提供了新的解决方案。

[33] CLFSeg: A Fuzzy-Logic based Solution for Boundary Clarity and Uncertainty Reduction in Medical Image Segmentation

Anshul Kaushal,Kunal Jangid,Vinod K. Kurmi

Main category: cs.CV

TL;DR: CLFSeg是一个基于编码器-解码器的框架,结合模糊卷积模块来提升息肉和心脏分割性能,解决了传统CNN模型的泛化性、鲁棒性和不确定性处理问题。

  • Motivation: 传统CNN模型在医学图像分割中存在泛化性有限、鲁棒性不足和无法处理不确定性的问题,影响了分割性能,特别是在边界区域。
  • Method: 提出CLFSeg框架,集成模糊卷积模块结合卷积层和模糊逻辑,使用二元交叉熵与dice损失处理类别不平衡问题,重点关注微小和边界区域。
  • Result: 在四个公开数据集上表现出卓越性能,超越了现有SOTA方法,并在解剖结构中关注相关感兴趣区域。
  • Conclusion: CLFSeg在确保计算效率的同时提高了分割性能,是现实世界医学诊断场景的潜在解决方案。

[34] MC-SJD : Maximal Coupling Speculative Jacobi Decoding for Autoregressive Visual Generation Acceleration

Junhyuk So,Hyunho Kook,Chaeyeon Jang,Eunhyeok Park

Main category: cs.CV

TL;DR: MC-SJD是一种无需训练、无损的并行解码框架,通过扩展Speculative Jacobi Decoding来加速自回归视觉生成,解决了SJD中因独立采样导致的token不稳定问题。

  • Motivation: 自回归视觉生成模型因逐token生成导致推理速度缓慢,需要数千步才能生成单个样本,这严重限制了其实际应用。
  • Method: 提出MC-SJD方法,基于耦合理论的信息论方法,通过最大化连续迭代中采样相同草稿token的概率来加速标准SJD,同时保持无损特性。该方法仅需对现有算法进行单行修改。
  • Result: 在图像生成中实现约4.2倍加速,在视频生成中实现约13.3倍加速,且输出质量无任何下降。
  • Conclusion: MC-SJD通过简单的算法修改显著提升了自回归视觉生成的推理速度,为实际应用提供了可行的解决方案。

[35] Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization

Haoxin Yang,Yihong Lin,Jingdan Kang,Xuemiao Xu,Yue Li,Cheng Xu,Shengfeng He

Main category: cs.CV

TL;DR: ID²Face是一个训练中心的人脸匿名化框架,通过解耦身份和非身份信息的结构化潜在空间,无需推理时优化即可实现可控匿名化。

  • Motivation: 现有扩散模型依赖推理时干预(如负引导或能量优化)来抑制身份特征,但这会导致分布偏移和属性纠缠,降低视觉保真度和数据效用。
  • Method: 设计条件扩散模型,包含身份掩码学习方案:身份解耦潜在重组器使用身份变分自编码器建模身份特征,非身份属性通过双向潜在对齐提取;身份引导潜在协调器通过软门控融合表示;训练使用基于重构的损失强制解耦。推理时从学习到的身份空间采样随机身份向量实现匿名化。
  • Result: 实验表明ID²Face在视觉质量、身份抑制和效用保持方面优于现有方法。
  • Conclusion: ID²Face通过训练时解耦身份和非身份信息,实现了无需推理优化的高效人脸匿名化,在多个指标上表现优异。

[36] SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs

Jinhong Deng,Wen Li,Joey Tianyi Zhou,Yang He

Main category: cs.CV

TL;DR: 提出SCOPE方法,通过联合建模显著性和覆盖度来修剪多模态大语言模型中的冗余视觉token,在保持语义完整性的同时提高计算效率。

  • Motivation: 现有视觉token修剪方法主要基于注意力分数选择最显著的token,导致所选token语义不完整,存在冗余计算问题。
  • Method: 提出SCOPE评分,结合token的显著性和覆盖度增益,迭代选择评分最高的token。通过集合覆盖度计算token关系,量化未选token的覆盖增益。
  • Result: 在多个视觉语言理解基准测试中使用LLaVA-1.5和LLaVA-Next模型进行实验,结果表明该方法持续优于先前方法。
  • Conclusion: SCOPE方法通过同时考虑显著性和覆盖度,有效解决了现有视觉token修剪方法的语义不完整问题,提高了多模态大语言模型的效率。

[37] Benchmarking Microsaccade Recognition with Event Cameras: A Novel Dataset and Evaluation

Waseem Shariff,Timothy Hanley,Maciej Stec,Hossein Javidnia,Peter Corcoran

Main category: cs.CV

TL;DR: 该论文提出了首个基于事件相机的微眼跳数据集,使用脉冲神经网络成功分类不同角位移的微眼跳,准确率达90%,为事件视觉研究建立了基准。

  • Motivation: 传统微眼跳研究方法成本高、可扩展性差且时间分辨率有限,而事件感知技术能高效捕捉精细时空变化,为认知计算中的小眼动研究提供新途径。
  • Method: 使用Blender渲染高保真眼动场景,模拟0.5-2.0度角位移的七类微眼跳,通过v2e转换为事件流,并开发Spiking-VGG16Flow等脉冲神经网络模型进行分类。
  • Result: 模型平均准确率约90%,能成功按角位移分类微眼跳,且分类结果与事件数量或持续时间无关。
  • Conclusion: 证明了脉冲神经网络在精细运动识别中的潜力,为事件视觉研究建立了基准,数据集和代码将公开。

[38] Delving into Cascaded Instability: A Lipschitz Continuity View on Image Restoration and Object Detection Synergy

Qing Zhao,Weijian Deng,Pengxu Wei,ZiYi Dong,Hannan Lu,Xiangyang Ji,Liang Lin

Main category: cs.CV

TL;DR: 该论文提出Lipschitz正则化目标检测(LROD)框架,通过将图像恢复直接集成到检测器特征学习中,解决传统级联框架中恢复网络与检测网络功能不匹配导致的稳定性问题。

  • Motivation: 在恶劣条件下(如雾霾和低光照),图像恢复通常作为预处理步骤来提升检测器性能,但恢复网络与检测网络之间的功能不匹配会引入不稳定性,这个问题尚未得到充分研究。
  • Method: 通过Lipschitz连续性分析恢复网络与检测网络的功能差异,提出LROD框架,将图像恢复直接集成到检测器特征学习中,在训练期间协调两个任务的Lipschitz连续性。
  • Result: 在雾霾和低光照基准测试上的广泛实验表明,LR-YOLO(LROD的YOLO实现)持续提高了检测稳定性、优化平滑度和整体精度。
  • Conclusion: LROD框架有效解决了传统级联框架中恢复与检测网络不匹配的问题,通过Lipschitz正则化实现了更稳定和准确的目标检测。

[39] DeshadowMamba: Deshadowing as 1D Sequential Similarity

Zhaotong Yang,Yi Chen,Yanying Li,Shengfeng He,Yangyang Xu,Junyu Dong,Jian Yang,Yong Du

Main category: cs.CV

TL;DR: 提出DeshadowMamba方法,使用选择性状态空间模型Mamba进行图像阴影去除,通过CrossGate机制注入阴影感知相似性,结合ColorShift正则化确保颜色保真度。

  • Motivation: 现有基于注意力的阴影去除方法存在固定注意力模式,容易混合不相关区域的照明线索,导致结构扭曲和颜色不一致。
  • Method: 从序列建模角度重新审视阴影去除,使用Mamba模型进行全局上下文传播,提出CrossGate方向调制机制注入阴影感知相似性,引入ColorShift正则化进行对比学习。
  • Result: 在公共基准测试中,DeshadowMamba实现了最先进的视觉质量和强大的定量性能。
  • Conclusion: 通过将序列建模适应阴影去除所需的结构完整性和色彩一致性要求,该方法有效解决了现有方法的局限性。

[40] UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation

Jiyu Guo,Shuo Yang,Yiming Huang,Yancheng Long,Xiaobo Xia,Xiu Su,Bo Zhao,Zeke Xie,Liqiang Nie

Main category: cs.CV

TL;DR: 提出了UtilGen框架,通过下游任务反馈来优化数据生成过程,生成任务特定的高效用训练数据,相比传统方法平均准确率提升3.87%。

  • Motivation: 现有数据增强方法主要关注数据的内在属性(如保真度和多样性),而忽略了任务特定需求。不同任务和网络架构对训练数据的要求差异很大,需要数据生成器考虑下游任务需求。
  • Method: 引入权重分配网络评估每个合成样本的任务特定效用,采用双级优化策略:模型级优化调整生成模型以适应下游任务,实例级优化在每轮生成中调整生成策略(如提示嵌入和初始噪声)。
  • Result: 在8个不同复杂度和粒度的基准数据集上的实验表明,UtilGen始终优于现有方法,平均准确率提升3.87%。数据分析显示UtilGen能产生更具影响力和任务相关性的合成数据。
  • Conclusion: UtilGen验证了从视觉特征中心到任务效用中心的数据增强范式转变的有效性,能够生成更高质量的任务特定训练数据。

[41] Training-free Source Attribution of AI-generated Images via Resynthesis

Pietro Bongini,Valentina Molinari,Andrea Costanzo,Benedetta Tondi,Mauro Barni

Main category: cs.CV

TL;DR: 提出了一种基于图像重合成的训练免费单样本归因方法,通过生成图像描述并用候选源重合成图像,在特征空间中比较与原图的相似度来进行归因。

  • Motivation: 合成图像来源归因在数据稀缺条件下具有挑战性,需要少样本或零样本分类能力。现有方法在样本不足时性能有限。
  • Method: 训练免费的单样本归因方法:1) 为待分析图像生成描述提示;2) 用所有候选源重合成图像;3) 在特征空间中比较重合成图像与原图的相似度,选择最接近的源作为归因结果。
  • Result: 提出的重合成方法在样本稀缺条件下优于现有少样本方法,特别是在只有少量训练样本时表现更佳。
  • Conclusion: 该方法为合成图像归因提供了有效的训练免费解决方案,新数据集为开发少样本和零样本归因方法提供了有价值的基准。

[42] ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model

Juntian Zhang,Song Jin,Chuanqi Cheng,Yuhan Liu,Yankai Lin,Xun Zhang,Yufei Zhang,Fei Jiang,Guojun Yin,Wei Lin,Rui Yan

Main category: cs.CV

TL;DR: 提出了ViPER框架,通过两阶段强化学习策略实现视觉语言模型的细粒度视觉感知能力自我提升,在多个基准测试中平均提升1.7%,细粒度感知提升达6.0%。

  • Motivation: 解决视觉语言模型在细粒度视觉感知能力上的瓶颈,现有方法如监督微调会损害通用能力,而强化微调则偏重文本推理而非视觉感知。
  • Method: 设计了两阶段任务,将视觉感知学习构建为从粗到细的渐进过程,通过自批判和自预测实现迭代演化,结合图像级和实例级重构与两阶段强化学习策略。
  • Result: 在Qwen2.5-VL系列上应用ViPER得到Qwen-Viper系列,在7个综合基准测试中平均提升1.7%,细粒度感知提升达6.0%,在不同视觉语言场景中表现优越且保持泛化能力。
  • Conclusion: ViPER不仅实现了感知能力的自我提升,还为生成与理解之间的互惠关系提供了具体证据,是开发更自主、更强大视觉语言模型的重要突破。

[43] Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning

Ivica Dimitrovski,Vlatko Spasev,Ivan Kitanovski

Main category: cs.CV

TL;DR: 本文系统探索了提示学习作为遥感图像场景分类的轻量级适应策略,在少样本场景下显著优于传统基线方法,特别是在跨域泛化方面表现优异。

  • Motivation: 遥感应用面临标注数据稀缺和跨域标注成本高的问题,现有视觉语言模型在遥感领域存在显著的领域差距和语义适应需求。
  • Method: 评估了多种提示学习方法:上下文优化、条件上下文优化、多模态提示学习和自约束提示学习,并与零样本CLIP和线性探针基准进行比较。
  • Result: 提示学习方法在少样本场景下持续优于两个基准方法,其中自约束提示学习在跨域性能方面表现最为稳健。
  • Conclusion: 提示学习是连接卫星和航空影像领域差距的可扩展高效解决方案,为未来研究提供了坚实基础。

[44] Adaptive Knowledge Transferring with Switching Dual-Student Framework for Semi-Supervised Medical Image Segmentation

Thanh-Huy Nguyen,Hoang-Thien Nguyen,Ba-Thinh Lam,Vi Vu,Bach X. Nguyen,Jianhua Xing,Tianyang Wang,Xingjian Li,Min Xu

Main category: cs.CV

TL;DR: 提出了一种新颖的切换式双学生架构,通过选择最可靠的学生来增强协作,并采用损失感知指数移动平均策略来提升伪标签质量,在3D医学图像分割中表现出色。

  • Motivation: 传统师生框架在医学图像分割中受限于师生网络间的强相关性和不可靠知识传递过程,限制了学习效果。
  • Method: 引入切换式双学生架构,在每次迭代中策略性地选择最可靠的学生;采用损失感知指数移动平均策略,动态确保教师从学生中吸收有意义信息。
  • Result: 在3D医学图像分割数据集上广泛评估,优于最先进的半监督方法,在有限监督下显著提高了分割精度。
  • Conclusion: 该即插即用框架通过改进师生协作和知识传递过程,有效提升了半监督医学图像分割的性能。

[45] Decoupling What to Count and Where to See for Referring Expression Counting

Yuda Zou,Zijian Zhang,Yongchao Xu

Main category: cs.CV

TL;DR: W2-Net通过双查询机制将指代表达式计数问题解耦为"数什么"和"看哪里",显著提升了细粒度子类级别的计数精度。

  • Motivation: 现有指代表达式计数方法存在根本性挑战:标注点通常放置在类别代表性位置(如头部),迫使模型关注类别级特征而忽略其他视觉区域(如腿部)的属性信息。
  • Method: 提出W2-Net框架,通过双查询机制显式解耦问题:除了标准的what-to-count查询用于定位对象外,引入专门的where-to-see查询来寻找和提取属性特定视觉区域的特征。同时提出子类可分离匹配策略,在标签分配时引入排斥力增强子类间可分离性。
  • Result: 在REC-8K数据集上显著优于最先进方法,计数误差分别降低22.5%(验证集)和18.0%(测试集),定位F1分别提高7%和8%。
  • Conclusion: W2-Net通过解耦"数什么"和"看哪里"的双查询机制,有效解决了指代表达式计数中的属性信息利用问题,实现了更精确的细粒度子类计数。

[46] Stroke Lesion Segmentation in Clinical Workflows: A Modular, Lightweight, and Deployment-Ready Tool

Yann Kerverdo,Florent Leray,Youwan Mahé,Stéphanie Leplaideur,Francesca Galassi

Main category: cs.CV

TL;DR: StrokeSeg是一个轻量级模块化框架,将研究级脑卒中病灶分割模型转化为可部署的临床应用工具,通过解耦预处理、推理和后处理流程,使用ONNX Runtime和Float16量化减少模型大小约50%。

  • Motivation: 解决深度学习框架(如nnU-Net)在临床部署中的困难,包括依赖繁重和整体式设计问题,使研究级脑卒中病灶分割模型能够在临床环境中实际使用。
  • Method: 采用模块化设计,预处理使用Anima工具箱生成BIDS兼容输出,推理使用ONNX Runtime配合Float16量化,提供图形界面和命令行界面,支持Python脚本和独立的Windows可执行文件。
  • Result: 在300名亚急性和慢性脑卒中患者的测试集上,分割性能与原始PyTorch流水线相当(Dice差异小于10^-3),模型大小减少约50%。
  • Conclusion: 高性能研究流水线可以成功转化为便携、临床可用的工具,证明了StrokeSeg框架在保持性能的同时实现临床部署的可行性。

[47] A Luminance-Aware Multi-Scale Network for Polarization Image Fusion with a Multi-Scene Dataset

Zhuangfan Huang,Xiaosong Li,Gao Wang,Tao Ye,Haishu Tan,Huafeng Li

Main category: cs.CV

TL;DR: 提出了一种亮度感知多尺度网络(MLSN)用于偏振图像融合,通过亮度分支和多尺度空间权重矩阵解决偏振图像固有对比度差异问题,并在瓶颈层设计全局-局部特征融合机制,在解码器阶段提出亮度增强模块实现非线性亮度校正。

  • Motivation: 偏振图像融合结合S0和DOLP图像,通过互补纹理特征揭示表面粗糙度和材料特性,在伪装识别、组织病理分析、表面缺陷检测等领域有重要应用。需要整合复杂亮度环境下不同偏振图像的互补信息。
  • Method: 在编码器阶段通过亮度分支生成多尺度空间权重矩阵,动态加权注入亮度信息;在瓶颈层设计全局-局部特征融合机制,通过窗口自注意力计算平衡全局上下文和局部细节;在解码器阶段提出亮度增强模块,建立亮度分布与纹理特征的映射关系。
  • Result: 在MSP、PIF和GAND数据集上的实验验证,MLSN在主观和客观评估中优于最先进方法,MS-SSIM和SD指标分别比其他方法平均值高出8.57%、60.64%、10.26%、63.53%、22.21%和54.31%。
  • Conclusion: 提出的MLSN网络有效解决了偏振图像融合中的亮度适应性问题,提出的MSP数据集解决了高质量偏振图像融合数据稀缺的问题,方法在多种复杂光照场景下表现出色。

[48] When are radiology reports useful for training medical image classifiers?

Herman Bergström,Zhongqi Yue,Fredrik D. Johansson

Main category: cs.CV

TL;DR: 本研究系统探讨了如何利用放射学报告在预训练和微调阶段提升医学图像分类性能,发现在标签与文本关联度高的任务中预训练有益,但在关联度低的任务中可能有害;微调阶段使用报告能带来显著改进。

  • Motivation: 医学图像通常配有包含丰富专家注释的放射学报告,但依赖这些报告进行临床预测需要放射科医生的及时手动工作。研究旨在探索何时以及如何在训练中利用放射学报告来改进仅基于图像的分类。
  • Method: 系统研究放射学报告在预训练和微调阶段的使用,涵盖诊断和预后任务(如12个月再入院),并在不同训练集规模下进行评估。
  • Result: 发现:(1) 当标签在文本中良好表示时,预训练阶段利用报告有益;但在标签与文本关联度低的情况下,通过显式图像-文本对齐进行预训练可能有害;(2) 微调阶段使用报告可带来显著改进,在某些情况下影响甚至超过预训练方法。
  • Conclusion: 研究为如何利用特权文本数据训练医学图像分类器提供了可操作的见解,同时指出了当前研究中的空白。

[49] Unsupervised Detection of Post-Stroke Brain Abnormalities

Youwan Mahé,Elise Bannier,Stéphanie Leplaideur,Elisa Fromont,Francesca Galassi

Main category: cs.CV

TL;DR: 评估REFLECT生成模型在卒中后患者中无监督检测病灶和非病灶异常的能力,发现使用健康对照数据训练的模型在病灶分割和非病灶异常检测方面表现更优。

  • Motivation: 卒中后MRI显示的继发性结构变化(如萎缩和脑室扩大)作为恢复和预后的影像生物标志物,但监督分割方法难以有效捕捉这些异常。
  • Method: 使用基于流的生成模型REFLECT进行无监督异常检测,在ATLAS数据上使用双专家中心切片标注,通过Free-Response ROC分析评估异常图性能。比较在卒中患者无病灶切片和健康对照数据上训练的两种模型。
  • Result: 在ATLAS测试对象上,使用健康对照数据(IXI)训练的模型在病灶分割(Dice = 0.37 vs 0.27)和非病灶异常检测敏感性(FROC = 0.62 vs 0.43)方面均优于使用卒中患者数据训练的模型。
  • Conclusion: 在完全健康解剖结构上训练能更好地建模正常变异性,从而实现更广泛和可靠的结构异常检测。

[50] GenTrack: A New Generation of Multi-Object Tracking

Toan Van Nguyen,Rasmus G. K. Christiansen,Dirk Kraft,Leon Bodenhagen

Main category: cs.CV

TL;DR: GenTrack是一种新颖的多目标跟踪方法,采用混合跟踪策略结合粒子群优化,能够鲁棒处理目标数量变化和非线性动态,通过社交交互增强跟踪性能,减少ID切换和轨迹丢失。

  • Motivation: 解决多目标跟踪中目标数量未知和时变的问题,特别是在保持目标身份一致性和处理非线性动态方面的挑战,以及弱检测器和遮挡情况下的跟踪困难。
  • Method: 采用混合跟踪方法结合随机和确定性方式,利用粒子群优化(PSO)和提出的适应度度量引导粒子,集成目标间的社交交互,构建基于空间一致性、外观、检测置信度、轨迹惩罚和社交分数的综合状态观测模型。
  • Result: 在标准基准测试和实际场景中,GenTrack相比最先进的跟踪器表现出优越性能,提供了三种变体实现,源代码已公开。
  • Conclusion: GenTrack为多目标跟踪提供了有效的解决方案,特别是在处理复杂动态和遮挡情况下表现出色,为未来研究提供了可扩展的基础。

[51] A Hybrid Approach for Visual Multi-Object Tracking

Toan Van Nguyen,Rasmus G. K. Christiansen,Dirk Kraft,Leon Bodenhagen

Main category: cs.CV

TL;DR: 提出了一种结合随机和确定性机制的多目标跟踪方法,使用粒子滤波处理非线性动态和非高斯噪声,通过PSO优化粒子分布,并采用确定性关联确保标识一致性。

  • Motivation: 解决非线性动态、非高斯噪声下未知且时变目标数量的多目标跟踪问题,确保标识一致性,特别是在目标交互和长时间遮挡情况下。
  • Method: 结合随机粒子滤波和确定性关联机制,使用PSO引导粒子向状态分布模式移动,提出包含运动一致性、外观相似性和社交交互线索的适应度度量,以及包含空间一致性、检测置信度和轨迹惩罚的成本矩阵。
  • Result: 实验结果表明,与最先进的跟踪器相比具有优越性能,能够灵活处理预录制视频和实时摄像头流。
  • Conclusion: 提出的方法在保持目标标识一致性的同时,有效处理非线性动态和复杂场景,为多目标跟踪提供了鲁棒的解决方案。

[52] 50 Years of Water Body Monitoring: The Case of Qaraaoun Reservoir, Lebanon

Ali Ahmad Faour,Nabil Amacha,Ali J. Ghandour

Main category: cs.CV

TL;DR: 提出了一种基于卫星影像和机器学习的无传感器方法,用于监测黎巴嫩Qaraaoun水库的蓄水量,避免了传统传感器故障和维护问题。

  • Motivation: Qaraaoun水库作为黎巴嫩最大的地表水体,其可持续管理依赖于可靠的蓄水量监测,但传统传感器经常故障且维护能力有限。
  • Method: 整合开源卫星影像(Sentinel-2和Landsat)、先进的水域分割技术和机器学习(支持向量回归SVR),仅通过卫星影像提取的水面面积来估算水库体积。
  • Result: 水域分割准确率超过95%,优化后的SVR模型误差低于水库总容量的1.5%,决定系数超过0.98。
  • Conclusion: 该方法具有鲁棒性和成本效益,为水库蓄水量监测提供了实用的无传感器解决方案,可推广到其他水体,50年的时间序列数据对气候变化研究具有重要价值。

[53] XAI Evaluation Framework for Semantic Segmentation

Reem Hammoud,Abdul karim Gizzini,Ali J. Ghandour

Main category: cs.CV

TL;DR: 提出了一个专门用于评估语义分割中可解释AI方法的系统框架,考虑空间和上下文任务复杂性,使用像素级评估策略和精心设计的指标。

  • Motivation: 随着AI在安全关键领域的应用增加,确保模型透明度和信任至关重要。虽然分类任务中的XAI评估已有进展,但语义分割的评估策略相对不足。
  • Method: 开发了专门针对语义分割的XAI评估框架,采用像素级评估策略和精心设计的指标,使用基于类激活映射(CAM)的XAI方案进行模拟验证。
  • Result: 模拟结果表明所提方法具有高效性、鲁棒性和可靠性,能够提供细粒度的可解释性洞察。
  • Conclusion: 该框架有助于推进透明、可信和可问责的语义分割模型发展。

[54] Deeply-Conditioned Image Compression via Self-Generated Priors

Zhineng Zhao,Zhihai He,Zikun Zhou,Siwei Ma,Yaowei Wang

Main category: cs.CV

TL;DR: 提出基于功能分解的深度条件图像压缩框架DCIC-sgp,通过自生成先验来分离图像结构骨架和细节纹理,有效解决低码率下的几何形变问题。

  • Motivation: 现有学习图像压缩方法难以建模自然图像中复杂的相关性结构,特别是全局结构与局部纹理的纠缠,导致低码率下出现严重几何形变。
  • Method: 首先编码自生成先验来捕捉图像结构骨架,然后用该先验深度调节整个压缩流程,特别是分析变换,使其专注于编码剩余的高熵细节。
  • Result: 视觉分析显示大幅减轻了低码率下的几何形变形伪影;在Kodak、CLIC和Tecnick数据集上相比VVC测试模型VTM-12.1分别实现了14.4%、15.7%和15.1%的BD-rate降低。
  • Conclusion: 通过分层依赖驱动的方法实现了信息流的有效解缠,在保持高率失真性能的同时显著改善了低码率下的视觉质量。

[55] Rethinking Visual Intelligence: Insights from Video Pretraining

Pablo Acuaviva,Aram Davtyan,Mariam Hassan,Sebastian Stapf,Ahmad Rahimi,Alexandre Alahi,Paolo Favaro

Main category: cs.CV

TL;DR: 视频扩散模型(VDMs)在视觉任务中表现出比语言模型更高的数据效率,表明视频预训练为视觉基础模型提供了有益的归纳偏差。

  • Motivation: 大型语言模型在语言领域取得了成功,但在视觉领域仍面临组合理解、样本效率和通用问题解决等挑战。研究探索视频扩散模型作为弥合这一差距的有前景方向。
  • Method: 使用预训练的视频扩散模型和语言模型,配备轻量级适配器,在自然模态中执行任务。在ARC-AGI、ConceptARC、视觉游戏、路径规划和元胞自动机等基准上进行评估。
  • Result: 在多个基准测试中,视频扩散模型比语言模型表现出更高的数据效率。
  • Conclusion: 视频预训练提供了支持视觉基础模型发展的归纳偏差,是推进视觉智能的有前景途径。

[56] A Critical Study towards the Detection of Parkinsons Disease using ML Technologies

Vivek Chetia,Abdul Taher Khan,Rahish Gogoi,David Kapsian Khual,Purnendu Bikash,Sajal Saha

Main category: cs.CV

TL;DR: 该论文提出使用深度学习技术来分类三种茶叶病害(红锈病、Helopeltis和红蜘蛛螨),并检测叶片受损区域。评估了SSD MobileNet V2和Faster R-CNN ResNet50 V1两种目标检测模型,其中Faster R-CNN表现更好。还使用Mask R-CNN进行实例分割来计算叶片受损面积。

  • Motivation: 开发能够自动识别茶叶病害并量化受损面积的深度学习系统,以帮助茶农及时检测和处理病害问题。
  • Method: 采用两种目标检测模型(SSD MobileNet V2和Faster R-CNN ResNet50 V1)进行病害分类,并使用Mask R-CNN进行实例分割,通过自定义方法计算叶片受损面积。
  • Result: Faster R-CNN ResNet50 V1在IOU 0.50:0.95范围内获得25%的mAP,优于SSD MobileNet V2的20.9%。两种模型的召回率都较低(分别为0.044和0.02)。
  • Conclusion: Faster R-CNN在茶叶病害检测方面表现优于SSD MobileNet V2,但整体性能仍有提升空间。Mask R-CNN可用于准确量化叶片受损面积。

[57] Kineo: Calibration-Free Metric Motion Capture From Sparse RGB Cameras

Charles Javerliat,Pierre Raimbaud,Guillaume Lavoué

Main category: cs.CV

TL;DR: Kineo是一种无需标定的多视角运动捕捉系统,使用非同步、未标定的消费级RGB相机,通过2D关键点同时标定相机和重建3D关键点,显著提升了标定精度和重建准确性。

  • Motivation: 现有的无标定运动捕捉方法需要精确的相机标定,限制了非专家用户的使用和在野外环境中的捕捉能力,且现有方法计算成本高、重建精度低。
  • Method: 利用现成的2D关键点检测器,结合置信度驱动的时空关键点采样策略和图优化全局优化,同时标定相机(包括畸变系数)并重建3D关键点和密集场景点云。
  • Result: 在EgoHumans和Human3.6M数据集上的评估显示,相比现有方法,相机平移误差降低83-85%,相机角度误差降低86-92%,世界平均关节误差降低83-91%。
  • Conclusion: Kineo提供了一种高效、自动化的无标定运动捕捉解决方案,在真实场景中处理速度快于视频时长,代码已开源以促进实际应用。

[58] Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling

Kyungmin Lee,Sihyun Yu,Jinwoo Shin

Main category: cs.CV

TL;DR: 提出Decoupled MeanFlow方法,将预训练的流模型转换为流图模型,无需架构修改,实现1-4步高质量图像生成,在ImageNet上取得SOTA性能。

  • Motivation: 去噪生成模型(如扩散模型)需要大量去噪步骤,存在离散化误差问题。流图方法可以缓解此问题并加速采样,但通常需要架构修改,限制了与预训练模型的兼容性。
  • Method: 提出解耦均值流方法,通过条件化扩散变换器的最终块在后续时间步上,将预训练的流模型直接重新用作流图。结合增强的训练技术,实现少步数高质量生成。
  • Result: 在ImageNet 256×256和512×512上,1步FID分别达到2.16和2.12,4步FID达到1.51和1.68,超越现有方法,同时提供100倍以上的推理加速。
  • Conclusion: 训练流模型后转换为流图比从头训练流图更高效有效,该方法实现了高质量少步数生成,显著提升了推理效率。

[59] Fast and accurate neural reflectance transformation imaging through knowledge distillation

Tinsae G. Dulecha,Leonardo Righetto,Ruggero Pintus,Enrico Gobbetti,Andrea Giachetti

Main category: cs.CV

TL;DR: 提出DisK-NeuralRTI方法,通过知识蒸馏降低NeuralRTI的计算成本,解决传统RTI方法在复杂反射场和阴影区域的问题。

  • Motivation: 传统RTI方法如PTM和HSH使用固定基函数和少量像素系数,难以准确捕捉复杂反射场,在高度反射或阴影区域会产生伪影。NeuralRTI虽然质量更好但计算成本高,无法在有限硬件上全分辨率渲染。
  • Method: 使用知识蒸馏技术,从大型教师网络向小型学生网络转移知识,降低NeuralRTI的计算复杂度,同时保持渲染质量。
  • Result: DisK-NeuralRTI在保持与NeuralRTI相当质量的同时,显著降低了计算成本,使其能够在有限硬件上实现全分辨率交互式重光照。
  • Conclusion: 知识蒸馏是降低NeuralRTI计算成本的有效方法,解决了传统RTI方法的局限性,使高质量交互式重光照在资源受限环境中变得可行。

[60] Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs

Huanyu Zhang,Wenshan Wu,Chengzu Li,Ning Shang,Yan Xia,Yangyu Huang,Yifan Zhang,Li Dong,Zhang Zhang,Liang Wang,Tieniu Tan,Furu Wei

Main category: cs.CV

TL;DR: Latent Sketchpad框架为多模态大语言模型添加内部视觉便签功能,通过生成视觉潜在表示来支持视觉思维,提升复杂场景中的视觉规划和想象力。

  • Motivation: 现有的多模态大语言模型在需要视觉规划和想象的复杂场景中表现不佳,而人类使用草图作为视觉思维工具来发展和交流想法。
  • Method: 构建包含上下文感知视觉头和预训练草图解码器的框架,让模型在自回归推理过程中交替生成文本推理和视觉潜在表示。
  • Result: 在MazePlanning数据集上的实验表明,Latent Sketchpad在保持骨干模型推理能力的同时,提供了相当或更优的推理性能,并能泛化到不同的前沿MLLMs。
  • Conclusion: 通过将模型的文本推理扩展到视觉思维,该框架为人机交互和更广泛的应用开辟了新机会。

[61] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents

Hongrui Jia,Jitong Liao,Xi Zhang,Haiyang Xu,Tianbao Xie,Chaoya Jiang,Ming Yan,Si Liu,Wei Ye,Fei Huang

Main category: cs.CV

TL;DR: OSWorld-MCP是首个全面且公平的基准测试,用于评估计算机使用代理在真实环境中的工具调用、GUI操作和决策能力。通过自动代码生成管道创建158个高质量工具,评估显示MCP工具能提高任务成功率,但即使最强模型也只有36.3%的工具调用率,表明仍有改进空间。

  • Motivation: 过去评估主要关注GUI交互技能,而工具调用能力(如通过模型上下文协议MCP启用)被忽视。将集成工具调用的代理与仅评估GUI交互的代理进行比较本质上不公平,需要建立公平的评估基准。
  • Method: 设计了新颖的自动代码生成管道来创建工具,并结合现有工具的精选集合。通过严格的手动验证产生了158个高质量工具(覆盖7个常见应用),每个工具都验证了功能正确性、实际适用性和多功能性。
  • Result: 在OSWorld-MCP上对最先进的多模态代理进行广泛评估显示,MCP工具通常能提高任务成功率(例如OpenAI o3从8.3%提升到20.4%,Claude 4 Sonnet从40.1%提升到43.3%)。但即使最强模型也只有36.3%的工具调用率。
  • Conclusion: OSWorld-MCP通过明确测量MCP工具使用技能,加深了对多模态代理的理解,并为在复杂、工具辅助环境中评估性能设定了新标准。基准测试突显了评估工具调用能力的重要性,并揭示了当前模型的改进空间。

[62] Physics-Inspired Gaussian Kolmogorov-Arnold Networks for X-ray Scatter Correction in Cone-Beam CT

Xu Jiang,Huiying Pan,Ligen Shi,Jianing Sun,Wenfeng Xu,Xing Zhao

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的散射伪影校正方法,利用高斯径向基函数建模点散射函数,并嵌入Kolmogorov-Arnold Networks层来学习高维散射特征,有效校正CBCT重建图像中的散射伪影。

  • Motivation: 锥束CT在数据采集过程中易受散射影响,导致CT值偏差和组织对比度降低,从而降低诊断准确性。需要解决散射伪影问题以提高图像质量。
  • Method: 利用散射概率密度分布在投影域具有旋转对称性的物理先验知识,使用高斯径向基函数建模点散射函数,并将其嵌入KAN层中,结合散射光子分布的物理特性和KAN的复杂函数映射能力来准确表示散射。
  • Result: 通过合成和真实扫描实验验证,该方法能有效校正重建图像中的散射伪影,在定量指标上优于现有方法。
  • Conclusion: 所提出的基于物理先验知识和深度学习的散射校正方法能够显著改善CBCT图像质量,提高诊断准确性。

[63] A Dual-Branch CNN for Robust Detection of AI-Generated Facial Forgeries

Xin Zhang,Yuqi Song,Fei Zuo

Main category: cs.CV

TL;DR: 提出了一种用于人脸伪造检测的双分支卷积神经网络,结合空间域和频域的互补线索,通过通道注意力模块自适应融合特征,并使用统一的FSC损失函数增强分类可分离性和鲁棒性。

  • Motivation: 生成式AI的快速发展使得伪造人脸图像越来越逼真,这对AI安全、数字媒体完整性和公众信任构成严重威胁,迫切需要开发鲁棒且可泛化的人脸伪造检测方法。
  • Method: 采用双分支CNN架构:RGB分支捕获语义信息,频率分支关注高频伪影;引入通道注意力模块自适应融合异质特征;设计FSC损失函数结合焦点损失、监督对比损失和频率中心边缘损失。
  • Result: 在DiFF基准测试中,模型在所有类别上都表现出色,超越了平均人类准确率,证明了其有效性。
  • Conclusion: 该方法在人脸伪造检测方面表现出强大的性能,有望为保护AI生态系统免受视觉伪造攻击做出重要贡献。

[64] Eye-Tracking, Mouse Tracking, Stimulus Tracking,and Decision-Making Datasets in Digital Pathology

Veronica Thai,Rui Li,Meng Ling,Shuning Jiang,Jeremy Wolfe,Raghu Machiraju,Yan Hu,Zaibo Li,Anil Parwani,Jian Chen

Main category: cs.CV

TL;DR: PathoGaze1.0是一个全面的病理学家行为数据集,记录了癌症诊断过程中视觉搜索和决策的动态过程,包含眼动追踪、鼠标交互等数据。

  • Motivation: 病理学家解读千兆像素全切片图像的诊断准确率平均约为70%,增加第二位病理学家并不能显著提高决策一致性,该领域缺乏足够的行为数据来解释诊断错误和不一致性。
  • Method: 开发了PathoGaze1.0数据集,通过PTAH应用基础测试平台收集了19位病理学家解读397张WSI的18.69小时眼动追踪、鼠标交互、刺激追踪、视口导航和诊断决策数据。
  • Result: 总共记录了171,909次注视、263,320次扫视和1,867,362次鼠标交互事件,数据集强调生态有效性。
  • Conclusion: 这些数据可用于改进病理学家和AI系统的训练,以支持人类专家,所有实验已预注册,完整数据集和分析代码已公开。

[65] Group Relative Attention Guidance for Image Editing

Xuanpu Zhang,Xuesong Niu,Ruidong Chen,Dan Song,Jianhao Zeng,Penghui Du,Haoxiang Cao,Kai Wu,An-an Liu

Main category: cs.CV

TL;DR: 提出Group Relative Attention Guidance方法,通过重新加权注意力机制中的delta值,实现对图像编辑强度的连续精细控制,无需调参即可提升编辑质量。

  • Motivation: 现有基于Diffusion-in-Transformer的图像编辑方法缺乏对编辑程度的有效控制,限制了获得定制化结果的能力。
  • Method: 分析DiT模型中的MM-Attention机制,发现Query和Key共享仅与层相关的偏置向量,将此偏置解释为模型固有编辑行为,而token与对应偏置的delta编码内容特定编辑信号。提出GRAG方法重新加权不同token的delta值来调节模型对输入图像相对于编辑指令的关注度。
  • Result: 在现有图像编辑框架上的广泛实验表明,GRAG仅需四行代码即可集成,能持续提升编辑质量。相比常用的Classifier-Free Guidance,GRAG能实现更平滑和精确的编辑程度控制。
  • Conclusion: GRAG是一种简单有效的图像编辑强度控制方法,通过注意力机制重加权实现连续精细控制,显著提升编辑质量。

[66] SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

Mia Kan,Yilin Liu,Niloy Mitra

Main category: cs.CV

TL;DR: 提出SAGE方法,通过结构引导和生成合成实现零样本视频过渡,在多样片段间产生平滑、语义一致的过渡效果

  • Motivation: 解决传统视频过渡方法在处理大时间间隔或显著语义差异片段时的局限性,填补内容感知和视觉连贯过渡的技术空白
  • Method: 结合结构引导(线条图和运动流)与生成合成,无需微调即可实现零样本视频过渡
  • Result: 在定量指标和用户研究中优于传统和生成基线方法(FILM、TVG、DiffMorpher、VACE、GI)
  • Conclusion: SAGE方法能够有效处理多样片段间的视频过渡,提供高质量、语义一致的过渡效果

[67] MIC-BEV: Multi-Infrastructure Camera Bird's-Eye-View Transformer with Relation-Aware Fusion for 3D Object Detection

Yun Zhang,Zhaoliang Zheng,Johnson Liu,Zhiyu Huang,Zewei Zhou,Zonglin Meng,Tianhui Cai,Jiaqi Ma

Main category: cs.CV

TL;DR: MIC-BEV是一个基于Transformer的鸟瞰图感知框架,用于基础设施多摄像头3D目标检测,支持异构摄像头配置并在传感器退化时保持鲁棒性。

  • Motivation: 现有基于摄像头的检测模型在基础设施感知场景中表现不佳,面临多视角设置、异构摄像头配置、视觉输入退化等挑战。
  • Method: 提出图增强融合模块,利用摄像头与BEV单元的几何关系和潜在视觉线索,将多视角图像特征集成到BEV空间中。
  • Result: 在M2I合成数据集和真实世界RoScenes数据集上的实验表明,MIC-BEV在3D目标检测中达到最先进性能,在极端天气和传感器退化条件下保持鲁棒。
  • Conclusion: MIC-BEV展示了在实际部署中的潜力,为智能交通系统的基础设施感知提供了有效解决方案。

[68] Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?

Yihao Li,Saeed Salehi,Lyle Ungar,Konrad P. Kording

Main category: cs.CV

TL;DR: 预训练的视觉Transformer(ViT)能够自然涌现出物体绑定能力,即识别哪些图像块属于同一物体的能力,这种能力在自监督模型中表现更强,并主动引导注意力机制。

  • Motivation: 探索视觉Transformer是否能够自然涌现出物体绑定能力,即识别图像中哪些补丁属于同一物体的能力,以及这种能力如何影响模型的注意力机制和下游任务性能。
  • Method: 使用相似性探针从ViT各层的补丁嵌入中解码"IsSameObject"属性,比较不同预训练目标(自监督vs监督)下该能力的表现,并通过消融实验验证其对模型性能的影响。
  • Result: 自监督ViT(DINO、MAE、CLIP)能够可靠地涌现物体绑定能力,准确率超过90%,而ImageNet监督模型该能力明显较弱;IsSameObject信号编码在对象特征的低维子空间中,并主动引导注意力。
  • Conclusion: ViT具有自然涌现的物体绑定能力,这种能力不是架构的人工产物,而是通过特定预训练目标获得的,对模型性能有积极贡献,挑战了ViT缺乏物体绑定的观点。

[69] Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

Yujie Wei,Shiwei Zhang,Hangjie Yuan,Yujin Han,Zhekai Chen,Jiayu Wang,Difan Zou,Xihui Liu,Yingya Zhang,Yu Liu,Hongming Shan

Main category: cs.CV

TL;DR: ProMoE是一个针对扩散变换器的混合专家框架,通过两步路由机制解决视觉MoE中专家专业化不足的问题,在ImageNet基准测试中超越了现有方法。

  • Motivation: 现有将MoE应用于扩散变换器的尝试效果有限,作者认为这是由于语言和视觉token的根本差异所致:语言token语义密集且变化明显,而视觉token存在空间冗余和功能异质性,阻碍了视觉MoE中的专家专业化。
  • Method: 提出ProMoE框架,包含两步路由器:条件路由根据功能角色将图像token划分为条件集和无条件集;原型路由通过可学习原型基于语义内容细化条件图像token的分配。还提出路由对比损失来增强原型路由过程。
  • Result: 在ImageNet基准测试中,ProMoE在Rectified Flow和DDPM训练目标下均超越了最先进方法。
  • Conclusion: ProMoE通过明确的路由指导和原型路由机制有效解决了视觉MoE中的专家专业化问题,证明了语义指导对视觉MoE的重要性。

[70] Uniform Discrete Diffusion with Metric Path for Video Generation

Haoge Deng,Ting Pan,Fan Zhang,Yang Liu,Zhuoyan Luo,Yufeng Cui,Wenxuan Wang,Chunhua Shen,Shiguang Shan,Zhaoxiang Zhang,Xinlong Wang

Main category: cs.CV

TL;DR: URSA是一个离散视频生成框架,通过迭代全局优化离散时空token,结合线性化度量路径和分辨率相关时间步移位机制,实现高效的高分辨率图像合成和长视频生成,性能媲美连续扩散方法。

  • Motivation: 连续空间视频生成发展迅速,而离散方法由于误差累积和长上下文不一致问题而落后,需要重新审视离散生成建模以缩小与连续方法的差距。
  • Method: 提出URSA框架,将视频生成任务建模为离散时空token的迭代全局优化,采用线性化度量路径和分辨率相关时间步移位机制,并引入异步时间微调策略统一多种任务。
  • Result: 在具有挑战性的视频和图像生成基准测试中,URSA始终优于现有离散方法,并达到与最先进连续扩散方法相当的性能。
  • Conclusion: URSA成功弥合了离散方法与连续方法在视频生成领域的差距,为可扩展的视频生成提供了简单而强大的解决方案。

[71] Generative View Stitching

Chonghyuk Song,Michal Stary,Boyuan Chen,George Kopanas,Vincent Sitzmann

Main category: cs.CV

TL;DR: 提出Generative View Stitching (GVS)方法,通过并行采样整个视频序列来解决自回归视频扩散模型在相机引导生成中的碰撞问题,实现与预定义相机轨迹的精确对齐。

  • Motivation: 自回归视频扩散模型虽然能生成稳定连贯的长序列,但无法利用未来信息来指导当前生成,导致在预定义相机轨迹下容易发生场景碰撞,进而导致生成崩溃。
  • Method: 提出GVS采样算法,将机器人规划中的扩散缝合技术扩展到视频生成;引入Omni Guidance技术增强时间一致性,通过同时考虑过去和未来信息实现循环闭合机制。
  • Result: GVS实现了稳定、无碰撞、帧间一致且能闭合循环的相机引导视频生成,适用于包括不可能楼梯在内的各种预定义相机路径。
  • Conclusion: GVS方法成功解决了自回归视频扩散模型在相机引导生成中的局限性,实现了与预定义相机轨迹完全对齐的高质量视频生成。

cs.RO

[72] RoboOmni: Proactive Robot Manipulation in Omni-modal Context

Siyin Wang,Jinlan Fu,Feihong Liu,Xinzhe He,Huangxuan Wu,Junhao Shi,Kexin Huang,Zhaoye Fei,Jingjing Gong,Zuxuan Wu,Yugang Jiang,See-Kiong Ng,Tat-Seng Chua,Xipeng Qiu

Main category: cs.RO

TL;DR: 提出了RoboOmni框架,基于全模态大语言模型,通过融合听觉和视觉信号进行意图识别,支持主动交互确认和执行,在模拟和真实环境中优于基于文本和ASR的基线方法。

  • Motivation: 现实世界中人类很少直接发出指令,而是通过对话、环境声音和视觉线索表达意图,现有机器人方法主要依赖显式指令,缺乏主动推断用户意图的能力。
  • Method: 提出Perceiver-Thinker-Talker-Executor框架,基于端到端全模态LLMs,时空融合听觉和视觉信号进行鲁棒意图识别,支持直接语音交互。构建了包含14万条数据的大规模训练数据集OmniAction。
  • Result: 在模拟和真实环境实验中,RoboOmni在成功率、推理速度、意图识别和主动协助方面均优于基于文本和ASR的基线方法。
  • Conclusion: RoboOmni框架能够有效处理跨模态上下文指令,实现主动意图识别和协作,为真实世界的人机交互提供了新思路。

[73] Adaptive Keyframe Selection for Scalable 3D Scene Reconstruction in Dynamic Environments

Raman Jha,Yang Zhou,Giuseppe Loianno

Main category: cs.RO

TL;DR: 提出了一种自适应关键帧选择方法,通过结合基于误差的选择模块和基于动量的更新模块,动态调整关键帧选择阈值,提高动态环境中3D场景重建的质量。

  • Motivation: 解决动态环境中实时感知的关键数据瓶颈问题,从压缩数据流中创建高质量的3D世界表示,这是实现复杂动态环境中可扩展机器人学习和部署的关键步骤。
  • Method: 集成两个互补模块:基于光度误差和结构相似性(SSIM)误差的误差选择模块,以及根据场景运动动态动态调整关键帧选择阈值的动量更新模块。
  • Result: 在Spann3r和CUT3R两种最先进的3D重建网络上评估,观察到重建质量的一致改进,显著优于传统的静态关键帧选择策略。消融研究证实了各个组件的有效性。
  • Conclusion: 该方法代表了向能够动态响应复杂和演化视觉场景的自适应感知系统迈出的有意义进展,为动态环境中的3D重建提供了有效的解决方案。

[74] ZTRS: Zero-Imitation End-to-end Autonomous Driving with Trajectory Scoring

Zhenxin Li,Wenhao Yao,Zi Wang,Xinglong Sun,Jingde Chen,Nadine Chang,Maying Shen,Jingyu Song,Zuxuan Wu,Shiyi Lan,Jose M. Alvarez

Main category: cs.RO

TL;DR: ZTRS是首个完全消除模仿学习的端到端自动驾驶框架,仅通过奖励学习直接处理高维传感器数据,结合离线强化学习和提出的详尽策略优化方法,在多个基准测试中表现出色。

  • Motivation: 现有端到端自动驾驶框架主要依赖模仿学习,但受到专家演示质量限制和部署时的协变量偏移问题。强化学习虽然能利用仿真扩展,但通常局限于低维符号输入,无法实现真正的端到端学习。
  • Method: 提出ZTRS框架,结合传感器输入和强化学习训练,使用离线强化学习和提出的详尽策略优化方法,专门针对可枚举动作和奖励进行优化。
  • Result: 在三个基准测试中表现优异:Navtest、Navhard和HUGSIM,其中在Navhard上达到最先进水平,在HUGSIM上优于基于模仿学习的基线方法。
  • Conclusion: ZTRS证明了完全消除模仿学习、仅通过奖励学习直接处理传感器数据的可行性,为端到端自动驾驶提供了新的研究方向。

[75] DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation

Jingyi Tian,Le Wang,Sanping Zhou,Sen Wang,Jiayi Li,Gang Hua

Main category: cs.RO

TL;DR: DynaRend是一个通过可微分体积渲染学习3D感知和动态感知的三平面特征的表示学习框架,用于提升机器人操作的泛化能力。

  • Motivation: 解决机器人操作中由于真实世界训练数据稀缺导致的泛化能力不足问题,现有方法要么关注静态语义或场景几何,要么关注2D动态,无法同时学习几何、语义和动态信息。
  • Method: 通过掩码重建和未来预测,使用可微分体积渲染学习三平面特征,在RGB-D多视角视频数据上进行预训练,然后通过动作价值图预测转移到下游机器人操作任务。
  • Result: 在RLBench和Colosseum基准测试以及真实机器人实验中,DynaRend在策略成功率、对环境扰动的泛化能力和真实世界适用性方面均有显著提升。
  • Conclusion: DynaRend能够统一学习空间几何、未来动态和任务语义,为机器人操作任务提供有效的表示学习解决方案。

[76] NVSim: Novel View Synthesis Simulator for Large Scale Indoor Navigation

Mingyu Jeong,Eunsung Kim,Sehun Park,Andrew Jaeyong Choi

Main category: cs.RO

TL;DR: NVSim是一个从普通图像序列自动构建大规模可导航室内模拟器的框架,解决了传统3D扫描的成本和可扩展性问题。

  • Motivation: 克服传统3D扫描方法在成本和可扩展性方面的限制,从常见的图像序列自动构建大规模室内导航模拟器。
  • Method: 采用3D高斯溅射技术,引入Floor-Aware高斯溅射确保清洁可导航的地面平面,并提出新的无网格可通行性检查算法,通过直接分析渲染视图构建拓扑图。
  • Result: 系统能够从真实世界数据生成有效的大规模导航图。
  • Conclusion: NVSim框架成功实现了从普通图像序列自动构建大规模可导航室内模拟器的目标,解决了稀疏观测地面视觉伪影问题。

[77] GroundLoc: Efficient Large-Scale Outdoor LiDAR-Only Localization

Nicolai Steinke,Daniel Goehring

Main category: cs.RO

TL;DR: GroundLoc是一种仅使用LiDAR的定位系统,通过BEV图像投影和R2D2/SIFT特征匹配,在大规模户外环境中实现移动机器人定位,在多个数据集上超越现有方法。

  • Motivation: 开发一种高效、轻量级的LiDAR定位方案,能够在大型户外环境中实现精确的在线定位,同时支持多种传感器类型。
  • Method: 使用BEV图像投影聚焦地面区域,采用R2D2或SIFT特征提取进行地图配准,将先验地图存储为2D栅格图像。
  • Result: 在SemanticKITTI和HeLiPR数据集上表现优异,多会话定位的平均轨迹误差低于50cm,满足在线运行要求,每平方公里地图仅需4MB存储。
  • Conclusion: GroundLoc提供了一种高效、轻量且通用的LiDAR定位解决方案,在精度和实用性方面均表现出色。

cs.AI

[78] Why Foundation Models in Pathology Are Failing

Hamid R. Tizhoosh

Main category: cs.AI

TL;DR: 病理学基础模型在癌症诊断、预后和多模态检索方面表现不佳,存在诊断准确率低、鲁棒性差、几何不稳定、计算需求大和安全漏洞等问题,需要从根本上重新思考该范式。

  • Motivation: 基础模型在计算机视觉和语言处理领域的成功促使人们期望其在计算病理学中也能带来突破,但实际评估显示这些模型存在根本性弱点。
  • Method: 本文通过系统评估分析病理学基础模型的七个相互关联的缺陷原因:生物复杂性、无效的自监督学习、过度泛化、过度架构复杂性、缺乏领域特定创新、数据不足以及与组织切片大小相关的根本设计缺陷。
  • Result: 研究发现当前病理学基础模型与组织形态学的本质存在概念上的不匹配,无法有效处理人类组织的内在复杂性。
  • Conclusion: 需要从根本上重新思考病理学基础模型的范式,因为现有方法在概念上与组织形态学的性质不符。

[79] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

Qiushi Sun,Mukai Li,Zhoumianze Liu,Zhihui Xie,Fangzhi Xu,Zhangyue Yin,Kanzhi Cheng,Zehao Li,Zichen Ding,Qi Liu,Zhiyong Wu,Zhuosheng Zhang,Ben Kao,Lingpeng Kong

Main category: cs.AI

TL;DR: 提出了MobileRisk-Live动态沙盒环境和OS-Sentinel混合安全检测框架,用于检测移动代理在数字环境中的安全风险,相比现有方法提升10%-30%性能。

  • Motivation: 基于视觉语言模型的计算机代理在移动平台等数字环境中展现出类人操作能力,但其潜在的安全风险(如系统破坏和隐私泄露)引发严重担忧,而检测这些风险在复杂移动环境中仍面临巨大挑战。
  • Method: 引入MobileRisk-Live动态沙盒环境和安全检测基准,提出OS-Sentinel混合安全检测框架,结合形式验证器检测显式系统级违规和基于VLM的上下文判断器评估上下文风险及代理行为。
  • Result: 实验表明OS-Sentinel在多个指标上比现有方法提升10%-30%的性能。
  • Conclusion: 该研究为移动代理安全研究奠定基础,通过深入分析为开发更安全可靠的自主移动代理提供了关键见解。

eess.AS

[80] Listening without Looking: Modality Bias in Audio-Visual Captioning

Yuchi Ishikawa,Toranosuke Manabe,Tatsuya Komatsu,Yoshimitsu Aoki

Main category: eess.AS

TL;DR: 本文系统分析了音频-视觉描述模型的模态鲁棒性,发现LAVCap模型存在音频模态偏置,并通过创建AudioVisualCaps数据集来评估和改善模型的模态平衡性。

  • Motivation: 研究当前音频-视觉描述模型在模态互补性方面的表现,以及当某一模态退化时模型的鲁棒性,旨在理解模型对音频和视觉模态的利用程度。
  • Method: 对LAVCap模型进行系统的模态鲁棒性测试,选择性抑制或破坏音频或视觉流;创建AudioVisualCaps数据集,包含同时描述音频和视觉流的文本标注;比较模型在不同数据集上的表现。
  • Result: 分析显示LAVCap存在明显的音频模态偏置;在AudioVisualCaps数据集上训练的LAVCap比在AudioCaps上训练的模型表现出更少的模态偏置。
  • Conclusion: 音频-视觉描述模型存在模态不平衡问题,通过适当的训练数据可以改善模型的模态平衡性,使其更均衡地利用音频和视觉信息。

cs.CL

[81] SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space

Viktoriia Zinkovich,Anton Antonov,Andrei Spiridonov,Denis Shepelev,Andrey Moskalenko,Daria Pugacheva,Elena Tutubalina,Andrey Kuznetsov,Vlad Shakhuro

Main category: cs.CL

TL;DR: 本文提出了一种新的对抗性改写任务,通过生成语法正确且语义保留的文本改写来降低多模态大语言模型的推理分割性能,并开发了SPARTA方法在语义潜在空间中进行优化。

  • Motivation: 现有研究主要关注图像输入的扰动,而语义等价的文本改写在实际应用中很重要但研究不足,用户可能用不同方式表达相同意图。
  • Method: 提出了SPARTA方法,这是一种在黑盒设置下、在文本自动编码器的低维语义潜在空间中进行句子级优化的方法,使用强化学习作为指导。
  • Result: SPARTA在ReasonSeg和LLMSeg-40k数据集上取得了显著更高的成功率,比先前方法高出最多2倍。
  • Conclusion: 先进的推理分割模型即使在严格的语义和语法约束下,仍然容易受到对抗性改写的攻击。

eess.IV

[82] MSRANetV2: An Explainable Deep Learning Architecture for Multi-class Classification of Colorectal Histopathological Images

Ovi Sarkar,Md Shafiuzzaman,Md. Faysal Ahamed,Golam Mahmud,Muhammad E. H. Chowdhury

Main category: eess.IV

TL;DR: 提出了MSRANetV2卷积神经网络架构,专门用于结直肠癌组织图像分类,在公开数据集上取得了优异的分类性能。

  • Motivation: 结直肠癌是全球癌症相关死亡的主要原因,传统诊断方法存在主观性、耗时且易变异的缺点,需要开发更精确高效的诊断工具。
  • Method: 使用ResNet50V2作为骨干网络,结合残差注意力机制和挤压激励模块,通过通道对齐和上采样操作融合多尺度特征表示。
  • Result: 在两个公开数据集上,模型在7K数据集上平均精度0.9884±0.0151,召回率0.9900±0.0151,F1分数0.9900±0.0145,AUC 0.9999±0.00006,测试准确率0.9905±0.0025;在100K数据集上表现同样优异。
  • Conclusion: MSRANetV2是一个可靠、可解释且高性能的结直肠癌组织分类模型,通过Grad-CAM可视化增强了模型的可解释性。

cs.LG

[83] Noise is All You Need: Solving Linear Inverse Problems by Noise Combination Sampling with Diffusion Models

Xun Su,Hiroyuki Kasai

Main category: cs.LG

TL;DR: 提出了一种名为噪声组合采样的新方法,通过合成最优噪声向量来近似测量分数,将条件信息自然嵌入扩散模型的生成过程中,无需依赖逐步超参数调整,显著提高了逆问题求解的鲁棒性和稳定性。

  • Motivation: 预训练扩散模型在零样本逆问题求解中表现出色,但存在一个固有困境:过度整合观测信息会干扰生成过程,而整合不足又无法强调逆问题施加的约束。
  • Method: 提出噪声组合采样方法,从噪声子空间合成最优噪声向量来近似测量分数,替代标准去噪扩散概率模型过程中的噪声项,使条件信息自然嵌入生成过程。
  • Result: 该方法可应用于广泛的逆问题求解器,包括图像压缩,特别是在生成步骤较少时,能以可忽略的计算开销实现优越性能。
  • Conclusion: 噪声组合采样方法显著提高了扩散模型在逆问题求解中的鲁棒性和稳定性,无需依赖超参数调整,计算开销极小。

[84] Quantum Machine Learning for Image Classification: A Hybrid Model of Residual Network with Quantum Support Vector Machine

Md. Farhan Shahriyar,Gazi Tanbhir,Abdullah Md Raihan Chy

Main category: cs.LG

TL;DR: 该研究提出了一种混合量子经典方法,使用ResNet-50进行特征提取和量子支持向量机(QSVM)进行分类,用于马铃薯疾病检测,其中基于Z特征映射的QSVM达到了99.23%的准确率。

  • Motivation: 经典机器学习和深度学习模型在处理高维复杂数据集时存在困难,需要量子计算等先进技术来提高分类效率。
  • Method: 使用ResNet-50从马铃薯疾病RGB图像中提取深度特征,通过PCA进行降维,然后使用QSVM模型应用ZZ、Z和Pauli-X等量子特征映射将经典数据转换为量子态。
  • Result: 基于Z特征映射的QSVM表现最佳,准确率达到99.23%,超过了SVM和随机森林等经典模型。
  • Conclusion: 该研究展示了将量子计算集成到图像分类中的优势,并通过混合量子经典建模提供了潜在的疾病检测解决方案。

[85] Quanvolutional Neural Networks for Pneumonia Detection: An Efficient Quantum-Assisted Feature Extraction Paradigm

Gazi Tanbhir,Md. Farhan Shahriyar,Abdullah Md Raihan Chy

Main category: cs.LG

TL;DR: 提出了一种用于肺炎检测的混合量子-经典模型,使用量子卷积神经网络在PneumoniaMNIST数据集上实现了83.33%的验证准确率,优于传统CNN的73.33%。

  • Motivation: 传统CNN在医学图像分析中存在计算成本高、特征表示有限、小数据集泛化能力差等问题,需要探索更高效的替代方案。
  • Method: 使用参数化量子电路构建量子卷积层处理2x2图像块,通过Y旋转门进行数据编码和纠缠层生成非经典特征表示,然后将量子提取的特征输入经典神经网络进行分类。
  • Result: 提出的QNN模型在验证集上达到83.33%的准确率,比可比较的经典CNN(73.33%)高出10个百分点,显示出更好的收敛性和样本效率。
  • Conclusion: 量子神经网络在医学图像分析中具有潜力,特别是在标记数据有限的情况下,为将量子计算集成到深度学习驱动的医疗诊断系统奠定了基础。

[86] Synergistic Neural Forecasting of Air Pollution with Stochastic Sampling

Yohan Abeysinghe,Muhammad Akhtar Munir,Sanoojan Baliah,Ron Sarafian,Fahad Shahbaz Khan,Yinon Rudich,Salman Khan

Main category: cs.LG

TL;DR: SynCast是一个高分辨率神经网络预报模型,整合气象和空气成分数据,通过区域适应的transformer架构和扩散随机精炼模块,显著提高PM浓度预测精度,特别是对极端污染事件的预测能力。

  • Motivation: 空气污染是全球健康和环境的主要风险,现有模型往往低估罕见但危险的污染事件,需要更准确的PM浓度预测来支持及时的公共卫生预警和干预。
  • Method: 基于区域适应的transformer架构,结合扩散随机精炼模块,整合ERA5和CAMS数据集,采用领域感知目标和极值理论指导的损失函数。
  • Result: 模型在多个PM变量(PM1、PM2.5、PM10)预测上表现出显著改进,特别是在极端条件下,在不影响全局准确性的前提下显著提升了高影响区域的性能。
  • Conclusion: 该方法为下一代空气质量早期预警系统提供了可扩展的基础,支持脆弱地区的气候健康风险缓解。

[87] What do vision-language models see in the context? Investigating multimodal in-context learning

Gabriel O. dos Santos,Esther Colombini,Sandra Avila

Main category: cs.LG

TL;DR: 本文系统研究了视觉语言模型中的上下文学习能力,发现当前VLM在整合多模态信息方面存在局限,主要依赖文本线索而未能有效利用视觉信息。

  • Motivation: 尽管上下文学习在大型语言模型中已被广泛研究,但在视觉语言模型中的有效性仍未充分探索。本文旨在系统分析VLM中的多模态上下文学习能力。
  • Method: 评估了7个涵盖4种架构的VLM模型,在3个图像描述基准上进行分析。研究了提示设计、架构选择和训练策略对多模态ICL的影响,并首次分析了注意力模式随演示示例数量的变化。
  • Result: 训练图像-文本交错数据能提升ICL性能,但不保证有效整合演示示例中的视觉和文本信息。指令调优改善了指令跟随能力,但可能减少对上下文演示的依赖。注意力分析显示当前VLM主要关注文本线索,未能充分利用视觉信息。
  • Conclusion: 当前VLM在上下文学习能力上存在关键限制,特别是在多模态整合方面。这些发现为增强VLM从多模态上下文示例中学习的能力提供了重要见解。

[88] Local Performance vs. Out-of-Distribution Generalization: An Empirical Analysis of Personalized Federated Learning in Heterogeneous Data Environments

Mortesa Hussaini,Jan Theiß,Anthony Stein

Main category: cs.LG

TL;DR: 该论文提出了一种名为FLIU的个性化联邦学习方法,通过自适应个性化因子来解决异构数据环境下的客户端漂移问题,并在多种数据分布条件下评估了其本地性能和泛化能力。

  • Motivation: 在异构数据联邦学习中,本地模型在训练过程中会收敛到各自的局部最优解,偏离全局数据分布。传统的FedAvg聚合方法会产生次优更新,而现有个性化联邦学习方法主要关注本地性能,忽视了FedAvg在分布外样本泛化能力方面的优势。
  • Method: 提出了FLIU方法,在FedAvg基础上增加了个性化步骤和自适应个性化因子。在MNIST和CIFAR-10数据集上进行了实证评估,包括IID、病理非IID以及使用狄利克雷分布构建的复杂异构数据环境。
  • Result: 对联邦学习方法进行了全面评估,包括本地性能和泛化能力。通过分析单个通信轮次的不同阶段,提供了对评估指标的更细致理解。
  • Conclusion: FLIU方法通过简单的个性化步骤有效解决了客户端漂移问题,在保持良好本地性能的同时,也考虑了模型的泛化能力,为异构数据环境下的联邦学习提供了更全面的解决方案。

cs.SD

[89] Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Jonas Hein,Lazaros Vlachopoulos,Maurits Geert Laurent Olthof,Bastian Sigrist,Philipp Fürnstahl,Matthias Seibold

Main category: cs.SD

TL;DR: 提出首个用于动态手术场景的空间声音定位方法,通过将相控麦克风阵列的声学定位信息投影到RGB-D相机的动态点云上,创建4D音频-视觉表示,增强手术场景理解。

  • Motivation: 当前手术场景理解主要依赖视觉数据或端到端学习,限制了细粒度上下文建模。通过整合3D声学信息,实现时空感知的多模态手术环境理解。
  • Method: 提出新颖框架:将相控麦克风阵列的声学定位信息投影到RGB-D相机的动态点云上,创建4D音频-视觉表示;使用基于transformer的声学事件检测模块识别包含工具-组织交互的相关时间片段;在真实手术室设置中进行实验评估。
  • Result: 成功在3D空间中定位手术声学事件并将其与视觉场景元素关联;实验证明准确的空间声音定位和稳健的多模态数据融合,提供全面的手术活动动态表示。
  • Conclusion: 这是首个在动态手术场景中实现空间声音定位的方法,标志着向多模态手术场景表示的重要进展;通过整合声学和视觉数据,实现了更丰富的上下文理解,为未来智能自主手术系统奠定基础。