Skip to content
每日arXiv - 2025年9月22日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Exploring the Capabilities of LLM Encoders for Image-Text Retrieval in Chest X-rays

Hanbin Ko,Gihun Cho,Inhyeok Baek,Donguk Kim,Joonbeom Koo,Changi Kim,Dongheon Lee,Chang Min Park

Main category: cs.CV

TL;DR: LLM2VEC4CXR和LLM2CLIP4CXR是用于胸部X射线报告的领域自适应LLM编码器和双塔框架,通过提高临床文本理解和图像-文本对齐来解决放射学报告中异质性和噪声问题。

  • Motivation: 放射学临床报告的异质性(缩写、印象笔记、风格变异)限制了视觉语言预训练在医学领域的进展,单纯扩大噪声报告数据集会导致性能下降。
  • Method: 引入LLM2VEC4CXR(领域自适应LLM编码器)和LLM2CLIP4CXR(双塔框架),将LLM编码器与视觉骨干网络耦合,在160万份异质噪声CXR研究上进行训练。
  • Result: LLM2VEC4CXR在临床文本理解上优于BERT基线,能处理缩写和风格变异;LLM2CLIP4CXR提高了检索准确性和临床导向评分,具有更强的跨数据集泛化能力。
  • Conclusion: 鲁棒性而非单纯的数据规模是有效多模态学习的关键,模型已发布以支持医学图像-文本表示学习的进一步研究。

[2] ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

Jialiang Kang,Han Shu,Wenshuo Li,Yingjie Zhai,Xinghao Chen

Main category: cs.CV

TL;DR: ViSpec是一个针对视觉语言模型(VLM)的推测解码框架,通过轻量级视觉适配器压缩图像标记,结合全局特征增强,实现了VLM推测解码的显著加速。

  • Motivation: 当前推测解码技术在视觉语言模型中的应用不足,现有方法只能实现有限的加速(<1.5倍)。随着多模态能力在大规模模型中的重要性日益增加,这一差距变得尤为显著。
  • Method: ViSpec采用轻量级视觉适配器模块将图像标记压缩为紧凑表示,并集成到草稿模型的注意力机制中,同时保留原始图像位置信息。此外,为每个输入图像提取全局特征向量,增强后续文本标记的多模态一致性。
  • Result: 实验验证了ViSpec的有效性,实现了VLM推测解码的首次显著加速。
  • Conclusion: ViSpec框架成功解决了VLM推测解码的挑战,为大模型多模态推理加速提供了有效解决方案。

[3] M-PACE: Mother Child Framework for Multimodal Compliance

Shreyash Verma,Amit Kesari,Vinayak Trivedi,Anupam Purwar,Ratnesh Jamidar

Main category: cs.CV

TL;DR: M-PACE是一个多模态合规检查框架,使用母-子MLLM架构统一处理视觉和文本内容,显著降低人工审核依赖和推理成本。

  • Motivation: 传统合规框架采用分散的多阶段流程,存在操作复杂、扩展性差、难以适应动态指南的问题,需要统一的多模态解决方案。
  • Method: 采用母-子MLLM架构,强大的母模型评估较小子模型的输出,在单次处理中评估超过15个合规属性,并构建了包含挑战性场景的标注基准。
  • Result: 推理成本降低31倍以上,最有效模型(Gemini 2.0 Flash)每张图像成本仅0.0005美元,与Gemini 2.5 Pro(0.0159美元)精度相当。
  • Conclusion: M-PACE框架在广告合规应用中实现了成本与输出质量的有效平衡,为多模态内容合规检查提供了实用的自动化解决方案。

[4] ProFusion: 3D Reconstruction of Protein Complex Structures from Multi-view AFM Images

Jaydeep Rade,Md Hasibul Hasan Hasib,Meric Ozturk,Baboucarr Faal,Sheng Yang,Dipali G. Sashital,Vincenzo Venditti,Baoyu Chen,Soumik Sarkar,Adarsh Krishnamurthy,Anwesha Sarkar

Main category: cs.CV

TL;DR: ProFusion是一个结合深度学习和原子力显微镜的混合框架,用于预测大型蛋白质复合物的3D结构,通过虚拟AFM生成合成图像训练模型,实现高精度的结构重建。

  • Motivation: 现有的AI方法在预测大型蛋白质复合物结构时缺乏3D空间线索,而实验方法如Cryo-EM成本高且耗时。需要开发一种准确且成本效益高的替代方案。
  • Method: 开发虚拟AFM框架生成合成图像数据集,训练条件扩散模型合成新视角图像,使用实例特定的NeRF模型进行3D结构重建。
  • Result: 重建的3D蛋白质结构在AFM成像分辨率内达到平均Chamfer距离,显示出高结构保真度,并在实验AFM图像上得到广泛验证。
  • Conclusion: 该方法展示了在准确、成本效益高的蛋白质复合物结构预测和快速迭代验证方面的强大潜力。

[5] Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models

Muhammad Imran,Yugyung Lee

Main category: cs.CV

TL;DR: 本文提出了多模态可解释学习(MMEL)框架,通过分层语义关系模块增强视觉语言模型的可解释性,同时保持高性能。

  • Motivation: 在安全关键场景中应用视觉语言模型面临挑战,需要提高模型的透明度和可靠性,以处理复杂对象关系和细微视觉线索。
  • Method: 基于Grad-eclip的梯度解释方法,引入分层语义关系模块,采用多尺度特征处理、自适应注意力加权和跨模态对齐技术。
  • Result: 在标准数据集上的实验表明,MMEL能生成更聚焦和上下文感知的可视化结果,更好地反映模型处理复杂场景的方式。
  • Conclusion: MMEL框架具有跨领域泛化能力,为需要高可解释性和可靠性的应用提供了有价值的模型决策洞察。

[6] Walk and Read Less: Improving the Efficiency of Vision-and-Language Navigation via Tuning-Free Multimodal Token Pruning

Wenda Qin,Andrea Burns,Bryan A. Plummer,Margrit Betke

Main category: cs.CV

TL;DR: 本文提出Navigation-Aware Pruning (NAP)方法,针对视觉语言导航任务中的token剪枝挑战,通过导航特定特征预过滤token,在保持高性能的同时显著提升计算效率。

  • Motivation: 大型模型在视觉语言导航任务中表现优异但计算成本高,现有token剪枝方法未考虑VLN特定挑战,如信息丢失可能导致导航路径变长,反而增加计算成本。
  • Method: NAP方法利用导航特定特征预过滤token为前景和背景:基于可导航方向过滤图像视图,使用大语言模型提取导航相关指令,主要对背景token进行剪枝,并移除低重要性导航节点避免回溯。
  • Result: 在标准VLN基准测试中,NAP显著优于现有方法,在保持更高成功率的同时节省超过50%的FLOPS。
  • Conclusion: NAP通过导航感知的token剪枝策略,有效解决了VLN任务中剪枝带来的信息丢失问题,实现了计算效率与导航性能的良好平衡。

[7] RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation

Silpa Vadakkeeveetil Sreelatha,Sauradip Nag,Muhammad Awais,Serge Belongie,Anjan Dutta

Main category: cs.CV

TL;DR: RespoDiff是一个负责任文本到图像生成的新框架,通过双模块转换扩散模型的中间瓶颈表示,同时确保公平性、安全性和语义保真度。

  • Motivation: 扩散模型在文本到图像生成方面取得了快速进展,但确保公平性和安全性仍然是一个开放挑战。现有方法通常以牺牲语义保真度和图像质量为代价来提高公平性和安全性。
  • Method: 提出RespoDiff框架,在扩散模型的中间瓶颈表示上引入双模块转换:一个模块专注于捕获和执行负责任概念(如公平性和安全性),另一个模块致力于保持与中性提示的语义对齐。使用新颖的分数匹配目标来促进双学习过程。
  • Result: 方法在负责任生成方面优于最先进方法,确保语义对齐的同时优化两个目标而不损害图像保真度。在多样未见提示上,负责任和语义一致生成提高了20%。可无缝集成到SDXL等大规模模型中。
  • Conclusion: RespoDiff通过双模块设计有效解决了文本到图像生成中的公平性和安全性问题,同时保持了高质量的语义对齐和图像保真度。

[8] Autoguided Online Data Curation for Diffusion Model Training

Valeria Pais,Luis Oala,Daniele Faccio,Marco Aversa

Main category: cs.CV

TL;DR: 本文研究了自动引导和在线数据选择方法是否能提高扩散模型训练的时间和样本效率,发现自动引导能持续改进样本质量和多样性,而早期数据选择仅在训练初期有轻微效率优势。

  • Motivation: 生成模型的计算成本重新激发了高效数据管理的需求,研究旨在评估最新数据选择方法对扩散模型训练效率的影响。
  • Method: 整合JEST和自动引导方法,在2D合成数据和3x64x64图像生成任务上进行对比实验,控制训练时间和样本数量,考虑选择开销。
  • Result: 自动引导在所有实验中一致提升样本质量和多样性;早期AJEST在数据效率上能匹配或略优于单独自动引导,但时间开销和复杂性使其在多数情况下不如自动引导或均匀随机选择。
  • Conclusion: 定向在线选择在早期训练中可能带来效率增益,但稳健的样本质量改进主要由自动引导驱动,数据选择仅在特定情况下有益。

[9] PRISM: Phase-enhanced Radial-based Image Signature Mapping framework for fingerprinting AI-generated images

Emanuele Ricco,Elia Onofri,Lorenzo Cima,Stefano Cresci,Roberto Di Pietro

Main category: cs.CV

TL;DR: PRISM是一个基于频率域指纹识别的AI生成图像溯源框架,通过离散傅里叶变换的径向缩减来捕获模型特定特征,在多个数据集上达到81.60%-95.06%的准确率

  • Motivation: 解决生成式AI中的溯源需求,特别是在商业环境中需要确保内容来源的可信度和问责制
  • Method: PRISM框架:基于相位增强的径向图像签名映射,利用离散傅里叶变换的幅度和相位信息,结合线性判别分析进行聚类
  • Result: 在PRISM-36K数据集上达到92.04%的溯源准确率,在文献基准测试中平均准确率81.60%,真假图像检测平均准确率88.41%,在GenImage上达到95.06%
  • Conclusion: 频率域指纹识别为跨架构和跨数据集的模型溯源提供了有效解决方案,有助于增强生成式AI系统的问责制和可信度

[10] Large Vision Models Can Solve Mental Rotation Problems

Sebastian Ray Mason,Anders Gjølbye,Phillip Chavarria Højbjerg,Lenka Tětková,Lars Kai Hansen

Main category: cs.CV

TL;DR: 本文系统评估了ViT、CLIP、DINOv2和DINOv3在心理旋转任务上的表现,发现自监督ViT比监督ViT更能捕捉几何结构,中间层表现优于最终层,且任务难度与旋转复杂度和遮挡程度相关,与人类反应时间相似。

  • Motivation: 心理旋转是人类空间推理的关键测试,但现代视觉变换器是否具备类似能力尚不清楚。本文旨在系统评估这些模型在心理旋转任务上的表现。
  • Method: 通过逐层探测模型表示,评估ViT、CLIP、DINOv2和DINOv3在从简单块结构到复杂块图形、三种文本类型和照片级真实物体的心理旋转任务上的表现。
  • Result: 自监督ViT比监督ViT更能捕捉几何结构;中间层表现优于最终层;任务难度随旋转复杂度和遮挡程度增加而增加,与人类反应时间相似。
  • Conclusion: 研究结果表明,自监督ViT在心理旋转任务上表现更好,中间层是关键,且模型表现与人类认知有相似之处。

[11] Which Direction to Choose? An Analysis on the Representation Power of Self-Supervised ViTs in Downstream Tasks

Yannis Kaltampanidis,Alexandros Doumanoglou,Dimitrios Zarpalas

Main category: cs.CV

TL;DR: 该论文系统评估了未经修改的ViT特征在图像分类和分割任务中的内在表示能力,分析了不同token类型和决策规则在不同任务和预训练目标下的表现。

  • Motivation: 现有方法通常对预训练的ViT特征进行额外处理来提升任务性能,但缺乏对未经修改特征内在表示能力的全面分析。
  • Method: 使用基于超平面(如逻辑回归)或余弦相似度的分类和分割规则,在不同token类型、任务和预训练ViT模型上进行系统分析,避免使用额外的特征变换。
  • Result: 研究提供了关于不同任务、上下文和预训练目标下最优token类型和决策选择的见解,并在两个广泛使用的数据集上报告了详细结果。
  • Conclusion: 该研究填补了对未经修改ViT特征内在表示能力分析的空白,为基于ViT的SSL方法提供了重要指导。

[12] How Good are Foundation Models in Step-by-Step Embodied Reasoning?

Dinura Dissanayake,Ahmed Heakl,Omkar Thawakar,Noor Ahsan,Ritesh Thawkar,Ketan More,Jean Lahoud,Rao Anwer,Hisham Cholakkal,Ivan Laptev,Fahad Shahbaz Khan,Salman Khan

Main category: cs.CV

TL;DR: 该论文提出了FoMER基准,用于评估大型多模态模型在具身环境中的推理能力,涵盖10个任务和8种具身形式,包含1100多个样本。

  • Motivation: 虽然大型多模态模型在视觉理解和语言生成方面表现出色,但其在真实世界具身任务中的结构化推理能力仍有待探索。
  • Method: 设计了FoMER基准,包含大规模具身推理任务集、新的评估框架(分离感知基础与动作推理),并对多个领先LMM进行实证分析。
  • Result: 研究结果揭示了LMM在具身推理中的潜力和当前局限性,为未来机器人智能研究指明了关键挑战和机遇。
  • Conclusion: FoMER基准为评估和改进LMM在复杂具身决策场景中的推理能力提供了重要工具,数据与代码将公开。

[13] CoDoL: Conditional Domain Prompt Learning for Out-of-Distribution Generalization

Min Zhang,Bo Jiang,Jie Zhou,Yimeng Liu,Xin Lin

Main category: cs.CV

TL;DR: 本文提出了一种新颖的条件域提示学习方法(CoDoL),通过利用现成的域信息来改进视觉-语言嵌入对齐,从而提高OOD泛化性能。

  • Motivation: 解决基于提示的CLIP方法存在的两个问题:i) 不准确的文本描述导致精度和鲁棒性下降;ii) 有限的视觉-语言嵌入对齐影响泛化性能。
  • Method: 提出CoDoL方法,利用域信息形成提示,并设计轻量级域元网络(DMN)来为每个域中的图像生成输入条件标记,以捕获实例特定和域特定信息。
  • Result: 在四个OOD基准测试(PACS、VLCS、OfficeHome和DigitDG)上的广泛实验验证了CoDoL在改进视觉-语言嵌入对齐和OOD泛化性能方面的有效性。
  • Conclusion: CoDoL方法通过条件域提示学习有效解决了CLIP方法在OOD泛化中的关键问题,显著提升了性能。

[14] Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception

Yulin Wang,Yang Yue,Yang Yue,Huanqian Wang,Haojun Jiang,Yizeng Han,Zanlin Ni,Yifan Pu,Minglei Shi,Rui Lu,Qisen Yang,Andrew Zhao,Zhuofan Xia,Shiji Song,Gao Huang

Main category: cs.CV

TL;DR: AdaptiveNN是一个从被动视觉处理转向主动自适应视觉的框架,通过序列化注视机制实现高效视觉感知,在17个基准测试中达到28倍推理成本降低,同时保持准确性。

  • Motivation: 人类视觉通过选择性注视高效处理复杂环境,而现有机器视觉模型被动处理整个场景,导致资源需求随分辨率线性增长,限制了实际应用和发展。
  • Method: 将视觉感知建模为从粗到细的序列决策过程,结合表示学习和自奖励强化学习,端到端训练非可微分的自适应神经网络,无需注视位置的额外监督。
  • Result: 在9个任务17个基准测试中,AdaptiveNN实现高达28倍的推理成本降低,无需重新训练即可灵活适应不同任务需求和资源预算,并提供可解释的注视模式。
  • Conclusion: AdaptiveNN展示了高效、灵活、可解释计算机视觉的可行路径,在许多情况下表现出接近人类的感知行为,有望成为研究视觉认知的有价值工具。

[15] LowDiff: Efficient Diffusion Sampling with Low-Resolution Condition

Jiuyi Xu,Qing Jin,Meida Chen,Andrew Feng,Yang Sui,Yangming Shi

Main category: cs.CV

TL;DR: LowDiff是一个基于级联方法的新型高效扩散框架,通过从低分辨率到高分辨率逐步生成图像,显著提高了扩散模型的采样速度,在保持或提升生成质量的同时实现了超过50%的吞吐量提升。

  • Motivation: 扩散模型在图像生成方面取得了显著成功,但实际应用受到采样速度慢的限制。现有改进方法主要关注模型压缩或减少去噪步骤数量,忽视了在生成过程中利用多分辨率输入的可能性。
  • Method: 提出LowDiff框架,采用级联方法逐步生成更高分辨率的输出,使用统一模型从低分辨率逐步细化到目标分辨率。该方法适用于像素空间和潜在空间的扩散模型。
  • Result: 在CIFAR-10、FFHQ和ImageNet上的实验表明,该方法在保持或提升生成质量的同时实现了超过50%的吞吐量提升。具体指标:无条件CIFAR-10 FID 2.11、IS 9.87;条件CIFAR-10 FID 1.94、IS 10.03;FFHQ 64x64 FID 2.43;ImageNet 256x256 FID 4.00、IS 195.06。
  • Conclusion: LowDiff通过创新的架构设计和生成技术,在显著减少高分辨率采样步骤的同时实现了可比甚至更优的性能,证明了多分辨率级联方法在扩散模型效率提升方面的有效性和通用性。

[16] MaskAttn-SDXL: Controllable Region-Level Text-To-Image Generation

Yu Chang,Jiahao Chen,Anzhe Cheng,Paul Bogdan

Main category: cs.CV

TL;DR: MaskAttn-SDXL是一种针对Stable Diffusion XL的区域级门控机制,通过在交叉注意力logits中注入二进制掩码来稀疏化token与潜在空间的交互,解决多对象提示中的组合失败问题。

  • Motivation: 文本到图像扩散模型在现实感方面表现出色,但在处理包含多个对象、属性和空间关系的提示时经常出现组合失败,导致实体纠缠、属性混淆和空间线索违反等问题。
  • Method: 在SDXL的UNet交叉注意力logits中应用区域级门控机制,为每层学习一个二进制掩码,在softmax之前注入到交叉注意力logit图中,稀疏化token与潜在空间的交互,只保留语义相关的连接。
  • Result: 该方法提高了多对象提示中的空间合规性和属性绑定,同时保持了整体图像质量和多样性,且无需位置编码、辅助token或外部区域掩码,推理路径保持不变且开销极小。
  • Conclusion: logit级别的掩码交叉注意力是实施组合控制的数据高效原语,该方法可作为文本到图像生成中空间控制的实用扩展。

[17] RaceGAN: A Framework for Preserving Individuality while Converting Racial Information for Image-to-Image Translation

Mst Tasnim Pervin,George Bebis,Fang Jiang,Alireza Tavakkoli

Main category: cs.CV

TL;DR: RaceGAN是一个新颖的多域图像到图像转换框架,专门用于种族属性转换,能够在保持个体特征和高层语义的同时映射多个域的风格代码,无需参考图像。

  • Motivation: 现有方法如CycleGAN、StarGAN等在多域图像转换中存在限制:要么只能处理一对域,要么无法映射深层次风格变化,或者需要额外参考图像且无法保持个体特征。本研究旨在解决种族特征转换中的这些问题。
  • Method: 提出RaceGAN框架,通过多域图像到图像转换技术映射种族特征。该框架能够在种族属性转换过程中映射多个域的风格代码,同时保持个体特征和高层语义,无需依赖参考图像。
  • Result: 在芝加哥人脸数据集上的测试表明,RaceGAN在种族特征转换(亚洲人、白人和黑人)方面优于其他模型。使用InceptionReNetv2分类器的定量分析证明了其有效性,模型还能将潜在空间划分为不同种族群体的清晰聚类。
  • Conclusion: RaceGAN成功实现了无需参考图像的多域种族特征转换,在保持个体特征的同时有效映射种族属性,为多域图像转换提供了新的解决方案。

[18] Generating Part-Based Global Explanations Via Correspondence

Kunal Rathore,Prasad Tadepalli

Main category: cs.CV

TL;DR: 提出一种利用有限图像的用户定义部件标签,高效迁移到大数据集的方法,通过聚合基于部件的局部解释来生成全局符号解释

  • Motivation: 深度学习模型缺乏可解释性,现有解释方法要么局限于单个图像的局部视觉解释,要么需要大量标注的概念解释方法成本过高
  • Method: 利用少量图像的用户定义部件标签,通过高效迁移技术将其扩展到大数据集,然后聚合基于部件的局部解释形成全局符号解释
  • Result: 能够在大规模上为模型决策提供人类可理解的解释
  • Conclusion: 该方法实现了低成本、高效的全局可解释性,解决了传统方法标注成本高的问题

[19] Causal Fingerprints of AI Generative Models

Hui Xu,Chi Liu,Congcong Zhu,Minghao Wang,Youyang Qu,Longxiang Gao

Main category: cs.CV

TL;DR: 本文提出了一种基于因果关系的生成模型指纹识别方法,通过解耦图像内容与风格来提取模型特有的因果指纹,在模型溯源和伪造检测方面优于现有方法。

  • Motivation: 现有方法依赖模型特定线索或合成伪影,产生的指纹泛化能力有限。作者认为完整的模型指纹应反映图像来源与模型痕迹之间的因果关系。
  • Method: 提出了因果关系解耦框架,在预训练扩散重建残差得到的语义不变潜在空间中,将因果指纹从图像特定内容和风格中分离出来,并通过多样化特征表示增强指纹粒度。
  • Result: 实验表明该方法在GAN和扩散模型的溯源任务中优于现有方法,并能通过因果指纹生成反事实示例实现来源匿名化。
  • Conclusion: 该方法在伪造检测、模型版权追踪和身份保护方面具有强大潜力,验证了因果指纹的有效性。

[20] NeuroRAD-FM: A Foundation Model for Neuro-Oncology with Distributionally Robust Training

Moinak Bhattacharya,Angelica P. Kurtz,Fabio M. Iwamoto,Prateek Prasanna,Gagandeep Singh

Main category: cs.CV

TL;DR: 该研究开发了一个神经肿瘤学专用的基础模型,通过分布鲁棒优化解决多中心数据异质性和罕见分子标记预测问题,显著提升了分子分类和生存预测的准确性。

  • Motivation: 神经肿瘤学数据异质性和肿瘤复杂性限制了基础模型的泛化能力,现有模型在预测罕见分子标记方面表现不佳,而这些标记对治疗反应和风险分层至关重要。
  • Method: 使用自监督学习框架(BYOL、DINO、MAE、MoCo)在多中心脑肿瘤MRI数据上预训练,并应用分布鲁棒优化来缓解站点和类别不平衡问题。
  • Result: 模型在所有测试站点均显著提升性能:CUIMC平衡准确率从0.744提升至0.785,AUC从0.656提升至0.676;罕见标记如CDKN2A/2B准确率从0.86提升至0.92;生存预测c-index在所有站点均有改善。
  • Conclusion: 将基础模型与分布鲁棒优化相结合能够产生更站点不变的表示,改善常见和罕见标记的预测,并增强生存区分能力,为精准神经肿瘤学的发展提供了重要支持。

[21] ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-Language Models

Chung-En Johnny Yu,Hsuan-Chih,Chen,Brian Jalaian,Nathaniel D. Bastian

Main category: cs.CV

TL;DR: ORCA是一个基于代理推理的框架,通过测试时结构化推理来提升大型视觉语言模型的事实准确性和对抗鲁棒性,无需访问模型内部或重新训练。

  • Motivation: 大型视觉语言模型存在幻觉问题和对抗攻击脆弱性,限制了其在现实应用中的可靠性。
  • Method: 采用观察-推理-批判-行动的循环机制,利用小型视觉模型(小于30亿参数)进行多工具查询和跨模型一致性验证,迭代优化预测结果。
  • Result: 在POPE幻觉基准上提升3.64%到40.67%,在对抗攻击下平均准确率提升20.11%,与防御技术结合时提升1.20%到48.00%。
  • Conclusion: ORCA为构建更可靠和鲁棒的多模态系统提供了有前景的路径。

[22] Region-Aware Deformable Convolutions

Abolfazl Saheban Maleki,Maryam Imani

Main category: cs.CV

TL;DR: RAD-Conv是一种新的卷积算子,通过使用四个边界偏移量创建灵活的矩形区域,动态调整感受野大小和形状,结合了注意力机制的适应性和标准卷积的效率。

  • Motivation: 传统可变形卷积局限于固定四边形采样区域,无法精确控制感受野的宽度和高度,难以同时捕捉局部细节和长距离依赖关系。
  • Method: RAD-Conv为每个核元素使用四个边界偏移量,创建灵活的矩形区域,将感受野形状与核结构解耦,即使使用1x1小核也能实现精确的宽度和高度控制。
  • Result: 该方法能够动态调整感受野大小和形状以匹配图像内容,有效捕捉局部细节和长距离依赖关系。
  • Conclusion: RAD-Conv为构建更具表达力和效率的视觉模型提供了实用解决方案,弥合了刚性卷积架构与计算成本高昂的注意力方法之间的差距。

[23] CAGE: Continuity-Aware edGE Network Unlocks Robust Floorplan Reconstruction

Yiyi Liu,Chunyang Liu,Weiqin Jiao,Bojian Wu,Fashuai Li,Biao Xiong

Main category: cs.CV

TL;DR: CAGE(Continuity-Aware edGE)网络是一个从点云密度图直接重建矢量平面图的鲁棒框架,采用边缘中心表示法,通过双查询变换器解码器实现连续几何建模,在多个数据集上达到最先进性能。

  • Motivation: 传统基于角点的多边形表示对噪声和不完整观测高度敏感,容易产生碎片化或不合理的布局。现有的线分组方法虽然利用结构线索提高鲁棒性,但仍难以恢复精细几何细节。
  • Method: 提出原生边缘中心表示法,将每个墙段建模为有向、几何连续的边。开发双查询变换器解码器,在去噪框架中集成扰动和潜在查询,稳定优化并加速收敛。
  • Result: 在Structured3D和SceneCAD数据集上,CAGE达到最先进性能:房间F1分数99.1%,角点91.7%,角度89.3%。方法还表现出强大的跨数据集泛化能力。
  • Conclusion: CAGE框架通过边缘中心表示和双查询变换器设计,有效解决了传统方法的局限性,实现了鲁棒、连续的平面图重建,具有优异的性能和泛化能力。

[24] Self-supervised learning of imaging and clinical signatures using a multimodal joint-embedding predictive architecture

Thomas Z. Li,Aravind R. Krishnan,Lianrui Zuo,John M. Still,Kim L. Sandler,Fabien Maldonado,Thomas A. Lasko,Bennett A. Landman

Main category: cs.CV

TL;DR: 本文提出了一种利用自监督学习从纵向多模态医疗档案中学习的方法,用于改善肺结节诊断模型,通过JEPA预训练和微调在内部数据集上表现优异,但在外部验证中存在泛化问题。

  • Motivation: 解决肺结节诊断中标注数据稀缺和模型过拟合训练分布的问题,利用未标注的多模态医疗档案提升模型性能。
  • Method: 使用自监督学习方法,从包含CT扫描和电子健康记录的纵向多模态档案中进行JEPA预训练,然后进行监督微调。
  • Result: 在内部队列中表现优异(AUC 0.91),优于多模态模型(0.88)和仅影像模型(0.73),但在外部队列中表现较差(0.72 vs 仅影像0.75)。
  • Conclusion: 该方法创新性地利用未标注多模态医疗档案改善预测模型,在肺结节诊断中展示了优势,但也揭示了在外部验证中的局限性。

[25] Efficient Multimodal Dataset Distillation via Generative Models

Zhenghao Zhao,Haoxuan Wang,Junyi Wu,Yuzhang Shang,Gaowen Liu,Yan Yan

Main category: cs.CV

TL;DR: EDGE是一种高效的多模态数据集蒸馏方法,通过生成式模型解决现有方法计算资源需求高、处理时间长的问题,实现了18倍的速度提升。

  • Motivation: 随着大语言模型和多模态大语言模型的发展,多模态数据集(特别是图像-文本数据集)的重要性日益凸显。现有方法受限于匹配训练轨迹算法,计算资源需求大且处理时间长。
  • Method: 提出基于生成式模型的新型训练流程,包含双向对比损失和多样性损失,并采用标题合成策略引入更多文本信息以提升文本-图像检索性能。
  • Result: 在Flickr30K、COCO和CC3M数据集上的评估显示,该方法在性能和效率上均优于现有方法,速度比最先进方法快18倍。
  • Conclusion: EDGE方法为多模态数据集蒸馏提供了高效解决方案,显著降低了计算成本和时间消耗。

[26] OpenViGA: Video Generation for Automotive Driving Scenes by Streamlining and Fine-Tuning Open Source Models with Public Data

Björn Möller,Zhengyang Li,Malte Stelzer,Thomas Graave,Fabian Bettels,Muaaz Ataya,Tim Fingscheidt

Main category: cs.CV

TL;DR: OpenViGA是一个开源的自动驾驶场景视频生成系统,通过分析图像标记器、世界模型和视频解码器三个组件,使用预训练开源模型在BDD100K数据集上微调,实现了256x256分辨率、4fps的实时视频预测。

  • Motivation: 解决现有视频生成系统模型庞大、训练资源需求高、设计选择缺乏深入分析、代码和数据集不公开的问题。
  • Method: 基于预训练开源模型,在BDD100K数据集上进行微调,构建包含图像标记器、世界模型和视频解码器的三组件系统,并优化组件间接口。
  • Result: 能够以仅一帧算法延迟预测真实的驾驶场景视频,在256x256分辨率下达到4fps的帧率。
  • Conclusion: OpenViGA提供了一个完全可复现的开源视频生成系统,填补了现有系统在透明度、可访问性和分析深度方面的不足。

[27] Comparing Computational Pathology Foundation Models using Representational Similarity Analysis

Vaibhav Mishra,William Lotter

Main category: cs.CV

TL;DR: 本文系统分析了6种计算病理学基础模型的表示空间结构,发现不同训练范式(视觉-语言对比学习vs自蒸馏)的模型在表示相似性、内在维度和对切片/疾病特征的依赖性方面存在显著差异。

  • Motivation: 基础模型在计算病理学中日益重要,但对其学习表示的结构和变异性了解不足。本研究旨在系统分析不同CPath基础模型的表示空间特征。
  • Method: 使用计算神经科学中的表示相似性分析技术,在TCGA的H&E图像补丁上比较6种模型的表示结构,包括视觉-语言对比学习模型(CONCH、PLIP、KEEP)和自蒸馏模型(UNI2、Virchow2、Prov-GigaPath)。
  • Result: UNI2和Virchow2表示结构最独特,Prov-GigaPath平均相似度最高;相同训练范式不保证更高相似性;所有模型都高度依赖切片特征而非疾病特征;染色标准化可降低切片依赖性5.5%-20.5%;视觉-语言模型表示更紧凑,视觉模型表示更分散。
  • Conclusion: 研究结果为改进模型对切片特征的鲁棒性、指导模型集成策略提供了机会,揭示了训练范式如何塑造模型表示,该框架可扩展到其他医学影像领域。

[28] SmolRGPT: Efficient Spatial Reasoning for Warehouse Environments with 600M Parameters

Abdarahmane Traore,Éric Hervet,Andy Couturier

Main category: cs.CV

TL;DR: SmolRGPT是一个紧凑的视觉语言架构,通过整合RGB和深度线索实现区域级空间推理,仅需6亿参数就能在仓库空间推理基准上达到与大模型相当的性能。

  • Motivation: 当前先进的视觉语言模型通常依赖超大模型,计算和内存需求过高,难以在资源受限的环境(如仓库、机器人、工业应用)中部署,而这些环境既需要高效率又需要强大的空间理解能力。
  • Method: SmolRGPT采用三阶段课程学习:逐步对齐视觉和语言特征、实现空间关系理解、适应特定任务数据集。该架构明确整合了RGB和深度线索来进行区域级空间推理。
  • Result: 仅用6亿参数的SmolRGPT在具有挑战性的仓库空间推理基准上取得了有竞争力的结果,匹配甚至超越了更大模型的性能。
  • Conclusion: 这项研究展示了在现实世界环境中实现高效、可部署的多模态智能的潜力,同时不牺牲核心空间推理能力。

[29] Lynx: Towards High-Fidelity Personalized Video Generation

Shen Sang,Tiancheng Zhi,Tianpei Gu,Jing Liu,Linjie Luo

Main category: cs.CV

TL;DR: Lynx是一个基于DiT的高保真个性化视频生成模型,通过两个轻量级适配器实现身份保真和细节注入

  • Motivation: 解决从单张输入图像生成个性化视频时的身份保真问题,确保生成视频中人物身份的准确性和一致性
  • Method: 使用ID-adapter通过Perceiver Resampler将ArcFace面部嵌入转换为紧凑身份令牌,Ref-adapter通过交叉注意力在所有transformer层注入冻结参考路径的VAE特征
  • Result: 在40个主体和20个提示词的800个测试案例中,Lynx表现出卓越的面部相似度、竞争性的提示跟随能力和强大的视频质量
  • Conclusion: Lynx通过创新的适配器设计,在保持时间一致性和视觉真实性的同时实现了强大的身份保真,推动了个性化视频生成技术的发展

[30] Backdoor Mitigation via Invertible Pruning Masks

Kealan Dunnett,Reza Arablouei,Dimity Miller,Volkan Dedeoglu,Raja Jurdak

Main category: cs.CV

TL;DR: 提出一种新颖的剪枝方法,通过可逆掩码机制同时消除后门任务并保留其能力,在低数据条件下表现优异

  • Motivation: 现有基于剪枝的后门防御方法难以准确识别和移除导致后门行为的特定参数,而微调方法虽然性能优越但缺乏可解释性
  • Method: 采用双层优化问题,联合学习选择变量、稀疏可逆掩码和基于干净数据的样本特定后门扰动,内层问题使用逆掩码合成候选触发器,外层问题优化掩码以抑制后门行为
  • Result: 实验表明该方法优于现有基于剪枝的后门缓解方法,在有限数据条件下保持强性能,与最先进的微调方法相比具有竞争力
  • Conclusion: 该方法在成功缓解后门后能有效恢复受损样本的正确预测,特别适用于低数据场景

[31] MEC-Quant: Maximum Entropy Coding for Extremely Low Bit Quantization-Aware Training

Junbiao Pang,Tianyang Cai,Baochang Zhang

Main category: cs.CV

TL;DR: 该论文提出了一种新的量化感知训练方法MEC-Quant,通过最大熵编码量化来减少量化偏差,在极低位设置下实现了与全精度模型相当甚至更好的性能。

  • Motivation: 当前量化感知训练在性能上仍不如全精度模型,特别是在极低位设置下,量化会不可避免地引入表示偏差。
  • Method: 提出最大熵编码量化(MEC-Quant),利用有损数据编码中的最小编码长度作为熵的计算可处理替代,并基于混合专家(MOE)推导出可扩展的目标函数。
  • Result: 在各种计算机视觉任务上的实验证明其优越性,首次将QAT的极限推至x位激活,准确率可与全精度模型相媲美甚至超越。
  • Conclusion: MEC-Quant为QAT建立了新的最先进水平,无需额外技巧即可实现优异性能。

[32] GUI-ARP: Enhancing Grounding with Adaptive Region Perception for GUI Agents

Xianhang Ye,Yiqing Li,Wei Dai,Miancan Liu,Ziyuan Chen,Zhangye Han,Hongbo Min,Jinkui Ren,Xiantao Zhang,Wen Yang,Zhi Jin

Main category: cs.CV

TL;DR: GUI-ARP是一个新颖的自适应多阶段推理框架,用于解决GUI定位中高分辨率截图细粒度定位困难的问题

  • Motivation: 现有的GUI定位方法在高分辨率截图中的细粒度定位方面表现不佳,需要更有效的解决方案
  • Method: 提出自适应区域感知(ARP)和自适应阶段控制(ASC),通过两阶段训练流程(监督微调+基于GRPO的强化微调)实现动态视觉注意力裁剪和自适应推理策略
  • Result: 在GUI定位基准测试中达到最先进性能,7B模型在ScreenSpot-Pro上达到60.8%准确率,在UI-Vision上达到30.9%,性能优于开源72B模型
  • Conclusion: GUI-ARP框架有效解决了高分辨率GUI截图中的细粒度定位问题,展示了强大的竞争力

[33] SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models

Sen Wang,Jingyi Tian,Le Wang,Zhimin Liao,Jiayi Li,Huaiyi Dong,Kun Xia,Sanping Zhou,Wei Tang,Hua Gang

Main category: cs.CV

TL;DR: SAMPO是一个混合框架,结合了视觉自回归建模和因果建模,通过尺度级自回归与运动提示来解决现有世界模型在视觉一致性预测方面的挑战,显著提升了时间一致性和推理效率。

  • Motivation: 现有的自回归世界模型在视觉一致性预测方面存在空间结构破坏、解码效率低和运动建模不足等问题,需要一种能够保持空间局部性、支持并行解码并提升动态场景理解的方法。
  • Method: SAMPO整合了时间因果解码与双向空间注意力,采用非对称多尺度分词器保留空间细节,并引入轨迹感知运动提示模块注入时空线索,优化动态区域关注和物理真实性。
  • Result: 实验表明SAMPO在动作条件视频预测和基于模型的控制中表现优异,生成质量提升且推理速度加快4.4倍,同时展现出零样本泛化能力和良好的缩放行为。
  • Conclusion: SAMPO通过创新的混合框架和运动提示机制,有效解决了世界模型在视觉一致性和效率方面的挑战,为规划和控制任务提供了更可靠的仿真环境。

[34] Beyond Words: Enhancing Desire, Emotion, and Sentiment Recognition with Non-Verbal Cues

Wei Chen,Tongguan Wang,Feiyue Xue,Junkai Li,Hui Liu,Ying Sha

Main category: cs.CV

TL;DR: 本文提出了一种对称双向多模态学习框架,用于欲望、情感和情感识别,通过文本和图像模态的相互引导来捕捉意图相关表示,在MSED数据集上取得了优于现有方法的效果。

  • Motivation: 现有方法主要关注情感分析中的语言线索,忽视了图像作为补充非语言线索的作用,且针对人类欲望理解的多模态方法研究不足。
  • Method: 提出对称双向多模态学习框架,使用低分辨率图像获取全局视觉表示进行跨模态对齐,高分辨率图像分割为子图像并通过掩码图像建模捕捉细粒度局部特征,引入文本引导图像解码器和图像引导文本解码器促进深度跨模态交互。
  • Result: 在MSED数据集上的实验结果表明,该方法在欲望理解、情感识别和情感分析任务上分别实现了1.1%、0.6%和0.9%的F1分数提升,优于现有最先进方法。
  • Conclusion: 所提出的对称双向多模态学习框架有效提升了欲望、情感和情感识别的性能,验证了文本和图像模态相互引导策略的有效性。

[35] Enhancing Sa2VA for Referent Video Object Segmentation: 2nd Solution for 7th LSVOS RVOS Track

Ran Hong,Feng Lu,Leilei Cao,An Yan,Youhai Jiang,Fengjie Zhu

Main category: cs.CV

TL;DR: 提出了一种无需训练的框架,通过视频-语言检查器和关键帧采样器显著提升Sa2VA在参考视频对象分割任务上的性能

  • Motivation: 现有的Sa2VA方法虽然结合了LLM和SAM~2,但在RVOS任务中仍存在误报问题,需要更精确的视频-语言对齐和时序信息捕捉
  • Method: 引入两个关键组件:1)视频-语言检查器,显式验证查询中的主体和动作是否出现在视频中;2)关键帧采样器,自适应选择信息丰富的帧来捕捉早期对象出现和长时序上下文
  • Result: 在MeViS测试集上获得64.14%的J&F分数,在ICCV 2025第7届LSVOS挑战赛的RVOS赛道中排名第2
  • Conclusion: 提出的无需训练框架有效提升了RVOS性能,通过显式验证和自适应帧采样解决了现有方法的局限性

[36] MS-GS: Multi-Appearance Sparse-View 3D Gaussian Splatting in the Wild

Deming Li,Kaiwen Jiang,Yutao Tang,Ravi Ramamoorthi,Rama Chellappa,Cheng Peng

Main category: cs.CV

TL;DR: MS-GS是一个针对稀疏视角和多外观条件下的3D场景重建框架,基于3D高斯泼溅技术,利用单目深度估计的几何先验和局部语义区域提取,通过几何引导的虚拟视角监督来提升3D一致性和减少过拟合。

  • Motivation: 解决野外照片集合中图像数量有限且存在多种外观变化(如不同时间、季节)对场景重建和新视角合成的挑战,现有方法容易过平滑和过拟合。
  • Method: 基于3D高斯泼溅技术,利用单目深度估计获取几何先验,通过SfM点锚定算法提取局部语义区域进行可靠对齐,采用几何引导的细粒度和粗粒度虚拟视角监督来增强3D一致性。
  • Result: MS-GS在各种挑战性的稀疏视角和多外观条件下实现了逼真的渲染效果,在不同数据集上显著优于现有方法。
  • Conclusion: 提出的MS-GS框架有效解决了稀疏视角和多外观条件下的3D场景重建问题,通过几何先验和虚拟视角监督实现了优异的性能。

[37] Diffusion-Based Cross-Modal Feature Extraction for Multi-Label Classification

Tian Lan,Yiming Zheng,Jianxin Yin

Main category: cs.CV

TL;DR: Diff-Feat是一个利用预训练扩散Transformer模型中间特征进行多标签分类的框架,通过融合图像和文本特征在特定扩散步骤和Transformer块中的表示,实现了SOTA性能。

  • Motivation: 多标签分类需要能够捕捉多标签交互的强大表示,而扩散Transformer模型的中间特征具有丰富的语义信息。
  • Method: 从预训练扩散Transformer模型中提取图像和文本的中间特征,设计启发式局部搜索算法找到最优的"图像-文本"×"块-时间步"对,通过简单的融合线性投影和加法融合特征。
  • Result: 在MS-COCO-enhanced上达到98.6% mAP,在Visual Genome 500上达到45.7% mAP,超越了CNN、图和Transformer基线模型,t-SNE和聚类指标显示Diff-Feat形成更紧密的语义簇。
  • Conclusion: 扩散Transformer的中间特征是多标签分类的强大表示源,特定层(如Layer 12)和时间步的特征组合能显著提升性能,该方法简单有效且无需复杂架构。

[38] From Development to Deployment of AI-assisted Telehealth and Screening for Vision- and Hearing-threatening diseases in resource-constrained settings: Field Observations, Challenges and Way Forward

Mahesh Shakya,Bijay Adhikari,Nirsara Shrestha,Bipin Koirala,Arun Adhikari,Prasanta Poudyal,Luna Mathema,Sarbagya Buddhacharya,Bijay Khatri,Bishesh Khanal

Main category: cs.CV

TL;DR: 本文探讨了在资源受限环境中实施AI辅助远程医疗和大规模筛查的挑战与解决方案,强调通过迭代式跨学科协作来优化从纸质工作流向AI就绪工作流的过渡。

  • Motivation: 在资源受限环境中,视觉和听觉威胁性疾病导致可预防的残疾,但缺乏专家和筛查设备。AI辅助筛查和远程医疗有潜力扩大早期检测,但实际部署面临纸质工作流和有限现场经验的挑战。
  • Method: 采用迭代式跨学科协作方法,包括早期原型设计、影子部署和持续反馈,以建立共享理解并减少从纸质工作流向AI就绪工作流过渡时的可用性障碍。利用公共数据集和AI模型,尽管存在领域偏移导致的性能不佳问题。
  • Result: 研究发现,公共数据集和AI模型在领域偏移情况下仍具价值,但需要自动化的AI图像质量检查以确保在高容量筛查营地中捕获可分级图像。迭代式共同设计过程有助于减少工作流过渡障碍。
  • Conclusion: AI开发和工​​作流数字化应被视为端到端的迭代共同设计过程。通过记录实际挑战和经验教训,旨在填补在资源受限环境中构建真实世界AI辅助远程医疗和大众筛查项目的上下文可操作现场知识空白。

[39] DC-Mamba: Bi-temporal deformable alignment and scale-sparse enhancement for remote sensing change detection

Min Sun,Fenghui Guo

Main category: cs.CV

TL;DR: DC-Mamba是一个基于ChangeMamba的"先对齐后增强"框架,通过BTDA模块解决几何错位问题,使用SSCA模块增强变化信号并抑制噪声,显著提升了遥感变化检测性能。

  • Motivation: 现有遥感变化检测方法(包括最先进的SSMs)缺乏明确的几何错位处理机制,难以区分细微真实变化与噪声。
  • Method: 提出DC-Mamba框架,包含两个轻量级模块:1)双时相可变形对齐(BTDA)在语义特征层面纠正空间错位;2)尺度稀疏变化放大器(SSCA)利用多源线索选择性增强高置信度变化信号并抑制噪声。
  • Result: 实验表明该方法显著优于ChangeMamba基线,F1分数从0.5730提升至0.5903,IoU从0.4015提升至0.4187。
  • Conclusion: "先对齐后增强"策略有效解决了RSCD中的几何和特征层面挑战,提供了稳健且易于部署的解决方案。

Shaojie Zhang,Ruoceng Zhang,Pei Fu,Shaokang Wang,Jiahui Yang,Xin Du,Shiqi Cui,Bin Qin,Ying Huang,Zhenbo Luo,Jian Luan

Main category: cs.CV

TL;DR: 提出“Blink-Think-Link”框架,模仿人类认知过程进行人机界面交互,通过三个生物启发阶段实现更自然的人机交互

  • Motivation: 现有AI驱动的人机界面交互技术虽然取得显著进展,但其交互逻辑与自然的人类-GUI通信模式存在显著偏差
  • Method: 将交互分解为三个生物启发阶段:Blink(快速检测和注意力分配)、Think(高级推理和决策)、Link(生成可执行命令);并引入Blink数据生成和BTL奖励两个关键技术创新
  • Result: 开发的BTL-UI模型在静态GUI理解和动态交互任务中均表现出最先进的性能
  • Conclusion: 该框架为开发高级GUI代理提供了有效的实证验证

[41] Towards Size-invariant Salient Object Detection: A Generic Evaluation and Optimization Approach

Shilong Bao,Qianqian Xu,Feiran Li,Boyu Han,Zhiyong Yang,Xiaochun Cao,Qingming Huang

Main category: cs.CV

TL;DR: 本文揭示了显著性目标检测中现有评估指标对目标大小的敏感性,提出了尺寸不变性评估框架SIEva和优化框架SIOpt来解决多尺寸目标检测的评估偏差问题。

  • Motivation: 现有SOD评估指标在图像中存在多个尺寸差异显著的显著性目标时,评估结果会偏向较大的目标区域,而忽略较小但语义重要的目标,导致性能评估偏差。
  • Method: 通过理论推导将评估结果分解为与区域大小成正比的项,提出SIEva框架对每个可分离组件单独评估后聚合结果,并开发模型无关的SIOpt优化框架。
  • Result: 理论分析支持新评估协议的有效性,综合实验证明了所提方法的有效性,SIOpt可无缝集成多种SOD骨干网络。
  • Conclusion: 本文提出的尺寸不变性评估和优化框架解决了SOD中的大小敏感性问题,为多尺寸目标检测提供了更公平的评估标准。

[42] Multimodal Learning for Fake News Detection in Short Videos Using Linguistically Verified Data and Heterogeneous Modality Fusion

Shanghong Li,Chiam Wen Qi Ruth,Hong Xu,Fang Liu

Main category: cs.CV

TL;DR: HFN(异构融合网络)是一种用于短视频假新闻检测的新型多模态框架,通过动态调整模态权重和加权多模态特征融合,在FakeTT和VESV数据集上分别实现了2.71%和4.14%的Marco F1提升。

  • Motivation: 短视频平台的快速发展需要先进的假新闻检测方法,因为错误信息的广泛传播和易分享性可能造成严重的社会危害,而现有方法难以处理短视频内容的动态和多模态特性。
  • Method: 提出HFN框架,整合视频、音频和文本数据,引入决策网络动态调整推理过程中的模态权重,以及加权多模态特征融合模块确保在不完整数据下的鲁棒性能。
  • Result: 在FakeTT和新收集的VESV数据集上的实验表明,相比最先进方法,Marco F1分别提升了2.71%和4.14%。
  • Conclusion: 这项工作为短视频平台复杂环境中的假新闻识别提供了鲁棒解决方案,为更可靠和全面的错误信息对抗方法铺平了道路。

[43] EyePCR: A Comprehensive Benchmark for Fine-Grained Perception, Knowledge Comprehension and Clinical Reasoning in Ophthalmic Surgery

Gui Wang,Yang Wennuo,Xusen Ma,Zehao Zhong,Zhuoru Wu,Ende Wu,Rong Qu,Wooi Ping Cheah,Jianfeng Ren,Linlin Shen

Main category: cs.CV

TL;DR: EyePCR是一个针对眼科手术分析的大规模基准测试,基于结构化临床知识评估多模态大语言模型在感知、理解和推理三个认知层面的能力。该基准包含超过21万个视觉问答对,覆盖1048个细粒度属性,并提出了一个领域适应的MLLM模型在多项任务中表现出色。

  • Motivation: 当前多模态大语言模型在一般场景中表现出色,但在高风险、领域特定的外科手术场景中的性能尚未充分探索。为了填补这一空白,需要开发专门针对眼科手术分析的基准测试。
  • Method: 开发了EyePCR基准,包含三个认知层面:感知(多视图感知的1048个细粒度属性)、理解(超过2.5万个三元组的医学知识图谱)和推理(四个临床基础的推理任务)。同时提出了EyePCR-MLLM,这是Qwen2.5-VL-7B的领域适应变体。
  • Result: EyePCR-MLLM在感知的多项选择题中达到最高准确率,在理解和推理任务中优于开源模型,性能可与GPT-4等商业模型相媲美。基准测试揭示了现有MLLM在外科认知方面的局限性。
  • Conclusion: EyePCR为评估和提升外科视频理解模型的临床可靠性奠定了基础,揭示了现有模型在外科认知方面的不足,并为未来模型改进提供了方向。

[44] TennisTV: Do Multimodal Large Language Models Understand Tennis Rallies?

Zhongyuan Bao,Lejun Zhang

Main category: cs.CV

TL;DR: 提出了TennisTV基准,这是首个全面评估多模态大语言模型在网球视频理解能力的基准,揭示了现有模型在高频运动理解上的不足。

  • Motivation: 多模态大语言模型在一般视频理解表现出色,但在快速、高频的网球等运动视频理解上存在困难,需要专门的评估基准。
  • Method: 将每个网球回合建模为时间有序的连续击球事件序列,使用自动化流程进行筛选和问题生成,涵盖8个任务级别,包含2500个人工验证的问题。
  • Result: 评估了16个代表性MLLMs,结果显示模型存在显著不足,发现帧采样密度需要根据任务定制平衡,改进时间定位对提升推理能力至关重要。
  • Conclusion: TennisTV基准为网球视频理解提供了首个系统性评估,揭示了当前MLLMs在高频运动理解上的局限性,并提出了改进方向。

[45] Enhancing WSI-Based Survival Analysis with Report-Auxiliary Self-Distillation

Zheng Wang,Hong Liu,Zheng Wang,Danyi Li,Min Cen,Baptiste Magnier,Li Liang,Liansheng Wang

Main category: cs.CV

TL;DR: 本文提出了一种基于病理报告辅助的自蒸馏框架(Rasa),用于全切片图像(WSI)的生存分析,通过LLM提取病理报告中的细粒度文本描述,并利用自蒸馏和风险感知混合策略提升模型性能。

  • Motivation: 传统WSI生存分析面临特征噪声大和数据可及性有限的问题,而病理报告包含丰富的患者特异性信息,但其在增强WSI生存分析方面的潜力尚未充分探索。
  • Method: 1. 使用大型语言模型(LLM)通过精心设计的任务提示从原始噪声病理报告中提取细粒度WSI相关文本描述;2. 设计基于自蒸馏的管道,在教师模型文本知识指导下过滤学生模型中不相关或冗余的WSI特征;3. 在学生模型训练中引入风险感知混合策略以增加训练数据的数量和多样性。
  • Result: 在收集的CRC数据和公开的TCGA-BRCA数据上的广泛实验表明,Rasa相比最先进方法具有显著优势。
  • Conclusion: Rasa框架有效整合了病理报告的文本信息,通过自蒸馏和风险感知混合策略显著提升了WSI生存分析的性能,为癌症预后评估提供了新的解决方案。

[46] PCSR: Pseudo-label Consistency-Guided Sample Refinement for Noisy Correspondence Learning

Zhuoyao Liu,Yang Liu,Wentao Feng,Shudong Huang

Main category: cs.CV

TL;DR: 本文提出PCSR框架,通过伪标签一致性指导样本细化,解决跨模态检索中噪声对应问题,提高检索鲁棒性。

  • Motivation: 现有方法假设图像-文本对完美对齐,忽略了真实数据中的噪声对应。这些错配对会误导相似性学习并降低检索性能。
  • Method: 提出PCSR框架:1)基于置信度估计区分干净和噪声对;2)通过伪标签一致性细化噪声对;3)提出PCS评分量化预测稳定性;4)采用自适应对优化策略。
  • Result: 在CC152K、MS-COCO和Flickr30K数据集上的广泛实验验证了该方法在噪声监督下提高检索鲁棒性的有效性。
  • Conclusion: PCSR框架通过细粒度样本划分和自适应优化策略,有效处理跨模态检索中的噪声对应问题,显著提升检索性能。

[47] pFedSAM: Personalized Federated Learning of Segment Anything Model for Medical Image Segmentation

Tong Wang,Xingyue Zhao,Linghao Zhuang,Haoyu Zhao,Jiayi Yin,Yuyang He,Gang Yu,Bo Lin

Main category: cs.CV

TL;DR: 提出了首个针对医学图像分割中异构数据场景的个性化联邦SAM框架,通过参数聚合和局部专家机制解决隐私保护和模型性能的平衡问题

  • Motivation: 医学图像分割需要跨机构数据共享但受隐私限制,联邦学习现有方法难以处理复杂异构数据,SAM模型在联邦环境下存在大规模编码器挑战
  • Method: 集成个性化策略(仅聚合全局参数捕获跨客户端共性,保留L-MoE组件保护领域特征)和解耦的全局-局部微调机制(通过知识蒸馏的师生范式桥接全局共享模型与个性化局部模型)
  • Result: 在两个公共数据集上的实验验证了该方法显著提升分割性能,实现鲁棒的跨域适应,并减少通信开销
  • Conclusion: 该框架有效解决了医学图像分割在联邦学习环境下的异构数据挑战,平衡了隐私保护与模型性能

[48] UNIV: Unified Foundation Model for Infrared and Visible Modalities

Fangyuan Mao,Shuo Wang,Jilin Mei,Chen Min,Shun Lu,Fuyang Liu,Yu Hu

Main category: cs.CV

TL;DR: 提出UNIV统一基础模型,通过生物启发的跨模态对比学习和双知识保留机制,实现RGB-可见光和红外模态的有效融合,在红外任务上性能显著提升的同时保持RGB任务性能。

  • Motivation: 解决RGB-可见光和红外预训练模型在多模态场景下性能不佳的问题,特别是在自动驾驶等需要全天候感知的应用中。
  • Method: 1. Patch-wise Cross-modality Contrastive Learning (PCCL):注意力引导的蒸馏框架,模拟视网膜水平细胞的侧向抑制机制;2. 双知识保留机制:结合LoRA适配器(仅增加2%参数)和同步蒸馏,防止灾难性遗忘。
  • Result: 在红外任务上显著提升(语义分割+1.7 mIoU,目标检测+0.7 mAP),同时保持RGB任务99%以上的基线性能。
  • Conclusion: UNIV模型通过生物启发的方法成功实现了RGB和红外模态的有效统一,为全天候感知系统提供了有效的解决方案。

[49] GS-Scale: Unlocking Large-Scale 3D Gaussian Splatting Training via Host Offloading

Donghyun Lee,Dawoon Jeong,Jae W. Lee,Hongil Yoon

Main category: cs.CV

TL;DR: GS-Scale是一个针对3D高斯泼溅技术的高效训练系统,通过将高斯数据存储在主机内存中并按需传输到GPU,显著降低了GPU内存需求3.3-5.6倍,同时保持与GPU训练相当的速度。

  • Motivation: 3D高斯泼溅技术虽然提供了高质量的图形渲染和快速渲染速度,但在大规模场景的高质量训练中面临GPU内存不足的挑战,因为需要存储参数、梯度和优化器状态。
  • Method: GS-Scale采用三种系统级优化:(1)选择性卸载几何参数以加速视锥体剔除;(2)参数转发将CPU优化器更新与GPU计算流水线化;(3)延迟优化器更新以减少对零梯度高斯的不必要内存访问。
  • Result: 在大型数据集上的评估显示,GS-Scale将GPU内存需求降低了3.3-5.6倍,训练速度与无主机卸载的GPU相当。在RTX 4070移动GPU上,高斯数量可从400万扩展到1800万,LPIPS指标提升23-35%。
  • Conclusion: GS-Scale使得在消费级GPU上进行大规模3D高斯泼溅训练成为可能,解决了内存瓶颈问题,同时保持了训练效率。

[50] FingerSplat: Contactless Fingerprint 3D Reconstruction and Generation based on 3D Gaussian Splatting

Yuwei Jia,Yutang Lu,Zhe Cui,Fei Su

Main category: cs.CV

TL;DR: 本文提出了一种基于3D高斯泼溅的无接触指纹3D注册、重建和生成框架,首次将该技术应用于指纹识别领域,能够在无需相机参数的情况下从稀疏2D图像实现有效的3D指纹重建。

  • Motivation: 当前无接触指纹识别性能落后于接触式方法,主要原因是缺乏具有姿态变化的无接触指纹数据以及未充分利用隐式3D指纹表示。
  • Method: 集成3D高斯泼溅技术,构建了一个新的无接触指纹识别范式,实现了从稀疏2D图像进行3D指纹注册、重建和生成,无需相机参数信息。
  • Result: 实验证明该方法能够准确从2D图像对齐和重建3D指纹,并从3D模型生成高质量的无接触指纹,显著提升了无接触指纹识别性能。
  • Conclusion: 这是首个将3D高斯泼溅应用于指纹识别的工作,为无接触指纹识别提供了新的技术范式,解决了数据不足和3D表示利用不充分的问题。

[51] A PCA Based Model for Surface Reconstruction from Incomplete Point Clouds

Hao Liu

Main category: cs.CV

TL;DR: 提出了一种基于主成分分析(PCA)的模型,用于从不完整的点云数据中进行表面重建。通过PCA估计表面法线信息作为正则化器,指导缺失数据区域的表面重建。

  • Motivation: 扫描过程中收集的点云数据可能由于高光吸收率和遮挡等因素无法覆盖整个表面,导致数据集不完整。推断数据缺失区域的表面结构并成功重建表面是一个挑战。
  • Method: 首先使用PCA从可用点云数据中估计基础表面的法线信息,将这些估计的法线信息作为模型中的正则化器,特别是在缺失数据区域指导表面重建。同时引入算子分裂方法来有效求解所提出的模型。
  • Result: 通过系统实验证明,该模型成功推断出数据缺失区域的表面结构,并很好地重建了基础表面,性能优于现有方法。
  • Conclusion: 基于PCA的表面重建模型能够有效处理不完整点云数据,在数据缺失区域成功推断表面结构,为不完整点云数据的表面重建提供了一种有效的解决方案。

[52] Camera Splatting for Continuous View Optimization

Gahye Lee,Hyomin Kim,Gwangjin Ju,Jooeun Son,Hyejeong Yoon,Seungyong Lee

Main category: cs.CV

TL;DR: Camera Splatting是一种新颖的视图优化框架,通过将相机建模为3D高斯分布(相机splat)并在表面附近放置虚拟相机来优化新视图合成。

  • Motivation: 为了解决复杂视图依赖现象(如强烈金属反射和复杂纹理)的捕捉问题,提出了一种优于最远视图采样(FVS)的方法。
  • Method: 将每个相机建模为3D高斯分布(相机splat),在表面附近采样3D点放置虚拟相机(点相机),通过连续可微分地优化相机splat来实现视图优化。
  • Result: 与FVS方法相比,优化的视图在捕捉复杂视图依赖现象方面表现出更优越的性能。
  • Conclusion: Camera Splatting框架能够有效提升新视图合成的质量,特别是在处理复杂反射和纹理方面。

[53] Layout Stroke Imitation: A Layout Guided Handwriting Stroke Generation for Style Imitation with Diffusion Model

Sidra Hanif,Longin Jan Latecki

Main category: cs.CV

TL;DR: 本文提出了一种基于条件扩散模型的手写笔画生成方法,通过多尺度注意力特征和词间距布局来模仿书法风格,在笔画生成任务上优于现有方法。

  • Motivation: 现有手写笔画生成方法没有明确考虑词间距(词布局)作为书法特征,导致风格模仿时词间距不一致。需要更好的书法风格模仿和笔画生成方法。
  • Method: 提出多尺度注意力特征来捕捉局部和全局风格特征;引入词布局特征以控制词间距;使用条件扩散模型进行笔画生成而非直接生成风格图像。
  • Result: 实验表明,提出的扩散模型在笔画生成任务上优于当前最先进方法,并与最近的图像生成网络具有竞争力。
  • Conclusion: 通过结合书法风格和词布局的条件扩散模型,能够实现更好的手写模仿和书法风格的笔画生成。

[54] Saccadic Vision for Fine-Grained Visual Classification

Johann Schmidt,Sebastian Stober,Joachim Denzler,Paul Bodesheim

Main category: cs.CV

TL;DR: 该论文提出了一种受人类扫视视觉启发的两阶段FGVC方法,通过外围特征提取和注视点采样来区分视觉相似的类别,解决了现有方法中空间冗余和特征利用不足的问题。

  • Motivation: 现有基于部件的方法依赖复杂的定位网络,存在空间冗余问题且难以确定最佳部件数量。受人类扫视视觉启发,希望开发更有效的细粒度视觉分类方法。
  • Method: 两阶段过程:首先提取外围特征生成采样图,然后使用权重共享编码器并行编码注视点补丁。采用情境化选择性注意力加权每个注视点补丁的影响,并使用非极大值抑制消除冗余。
  • Result: 在标准FGVC基准测试和具有挑战性的昆虫数据集上,该方法实现了与最先进方法相当的性能,并持续优于基线编码器。
  • Conclusion: 提出的方法有效解决了FGVC中的空间冗余问题,在多个数据集上表现出色,为细粒度视觉分类提供了新的解决方案。

[55] SCENEFORGE: Enhancing 3D-text alignment with Structured Scene Compositions

Cristian Sbrolli,Matteo Matteucci

Main category: cs.CV

TL;DR: SceneForge是一个通过结构化多对象场景组合来增强3D点云与文本对比学习的新框架,利用单个3D形状构建具有明确空间关系的多对象场景,并通过LLM生成连贯的多对象描述,有效解决3D-文本数据集稀缺问题。

  • Motivation: 解决大规模3D-文本数据集稀缺的问题,通过结构化组合增强数据复杂性和多样性,提升3D与文本的对比对齐效果。
  • Method: 利用单个3D形状构建多对象场景,结合LLM生成描述,系统研究关键设计元素如场景中对象数量、训练批次中组合样本比例和场景构建策略。
  • Result: 在多个任务上取得显著性能提升,包括ModelNet、ScanObjNN等零样本分类,ShapeNetPart少样本分割,以及ScanQA的3D视觉问答,展示出强大的空间推理能力。
  • Conclusion: SceneForge的组合增强方法具有模型无关性,能持续提升多种编码器架构的性能,并有效推广到复杂场景的检索任务中。

[56] ORIC: Benchmarking Object Recognition in Incongruous Context for Large Vision-Language Models

Zhaoyang Li,Zhan Ling,Yuchen Zhou,Hao Su

Main category: cs.CV

TL;DR: 该论文提出了ORIC基准测试,用于评估大型视觉语言模型在对象与上下文关系不一致场景下的识别能力,揭示了模型在对象误识别和幻觉方面的问题。

  • Motivation: 大型视觉语言模型在图像描述、视觉问答等领域取得显著进展,但在对象与上下文关系不一致的场景中容易出错,存在对象误识别和幻觉问题。
  • Method: 引入ORIC基准测试,采用两种策略:(1) LLM引导采样识别存在但上下文不一致的对象;(2) CLIP引导采样检测可能被幻觉但实际不存在的对象。
  • Result: 评估了18个LVLM和2个开放词汇检测模型,结果显示在上下文不一致场景下存在显著的识别差距。
  • Conclusion: 这项工作揭示了LVLM在上下文感知对象识别方面的局限性,为后续研究提供了重要见解。

[57] Training-Free Pyramid Token Pruning for Efficient Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

Yuxuan Liang,Xu Li,Xiaolei Chen,Yi Zheng,Haotian Chen,Bin Li,Xiangyang Xue

Main category: cs.CV

TL;DR: 提出了Pyramid Token Pruning (PTP)方法,通过结合自下而上的视觉显著性和自上而下的指令引导重要性,在无需训练的情况下对高分辨率图像进行token剪枝,显著降低计算开销和推理延迟。

  • Motivation: 大型视觉语言模型在处理高分辨率图像时面临计算开销过大的问题,现有方法将高分辨率图像分割成多个子图像会导致视觉token数量急剧增加,造成指数级计算负担。
  • Method: PTP方法整合了区域级和token级的自下而上视觉显著性分析,并结合自上而下的指令引导重要性评估,选择性保留视觉显著区域和与多模态任务最相关的token。
  • Result: 在13个多样化基准测试上的实验表明,该方法显著降低了计算开销和推理延迟,同时性能损失最小。
  • Conclusion: PTP方法有效解决了高分辨率图像处理中的计算效率问题,为大型视觉语言模型的实际应用提供了可行的解决方案。

[58] SGMAGNet: A Baseline Model for 3D Cloud Phase Structure Reconstruction on a New Passive Active Satellite Benchmark

Chi Yang,Fu Wang,Xiaofei Yang,Hao Huang,Weijia Cao,Xiaowen Chu

Main category: cs.CV

TL;DR: 本文提出了一个基准数据集和基线框架,用于将多模态卫星观测转换为详细的3D云相结构,旨在改进数值天气预报中的云微物理参数化。

  • Motivation: 云相剖面对于数值天气预报至关重要,直接影响辐射传输和降水过程。当前需要将多模态卫星观测转化为详细的3D云相结构,以改进云微物理参数化。
  • Method: 使用多模态卫星观测数据(地球同步卫星的VIS/TIR图像和CALIOP/CloudSat的垂直云相剖面),采用SGMAGNet模型与UNet变体和SegNet等基线架构进行比较,通过监督学习预测3D云相结构。
  • Result: SGMAGNet在云相重建方面表现优异,特别是在复杂的多层和边界过渡区域。定量指标:精确度0.922,召回率0.858,F1分数0.763,IoU 0.617,显著优于所有基线模型。
  • Conclusion: SGMAGNet框架能够有效将多模态卫星观测转换为详细的3D云相结构,为改进数值天气预报中的云微物理参数化提供了有力工具。

[59] Toward Medical Deepfake Detection: A Comprehensive Dataset and Novel Method

Shuaibo Li,Zhaohu Xing,Hongqiu Wang,Pengfei Hao,Xingyu Li,Zekai Liu,Lei Zhu

Main category: cs.CV

TL;DR: 本文提出了MedForensics数据集和DSKI检测器,用于检测AI生成的医学图像,以应对生成式AI在医学影像领域带来的安全威胁。

  • Motivation: 生成式AI在医学影像领域的快速发展带来了严重的安全风险,包括诊断欺骗、金融欺诈和错误信息传播。现有的媒体取证方法主要针对自然或面部图像,无法有效捕捉AI生成医学图像的独特特征和细微伪影。
  • Method: 提出了DSKI(双阶段知识注入检测器),包含两个核心组件:1)跨域细粒度适配器(CDFA)从空间和噪声域提取细微伪造线索;2)医学取证检索模块(MFRM)通过少样本检索提升检测精度。
  • Result: 实验结果表明,DSKI显著优于现有方法和人类专家,在多种医学模态上实现了卓越的检测准确率。
  • Conclusion: MedForensics数据集和DSKI检测器为解决AI生成医学图像的检测问题提供了有效的解决方案,填补了医学取证领域的数据和方法空白。

[60] TrueMoE: Dual-Routing Mixture of Discriminative Experts for Synthetic Image Detection

Laixin Zhang,Shuaibo Li,Wei Ma,Hongbin Zha

Main category: cs.CV

TL;DR: TrueMoE提出了一种双路由混合判别专家框架,通过多个专门化的轻量级判别子空间协同推理来检测合成图像,解决了传统单一判别空间泛化能力不足的问题。

  • Motivation: 现有合成图像检测方法构建单一通用判别空间,但这种统一空间复杂且脆弱,难以泛化到未见过的生成模式。需要更鲁棒的检测框架。
  • Method: TrueMoE框架包含判别专家阵列,沿流形结构和感知粒度两个互补轴组织。采用双路由机制(粒度感知稀疏路由器和流形感知密集路由器)自适应分配输入图像到最相关专家。
  • Result: 在广泛生成模型上的大量实验表明,TrueMoE实现了优异的泛化能力和鲁棒性。
  • Conclusion: TrueMoE通过多专家协作的方法显著提升了合成图像检测的泛化性能,为应对快速发展的生成模型提供了有效解决方案。

[61] Hybrid Lie semi-group and cascade structures for the generalized Gaussian derivative model for visual receptive fields

Tony Lindeberg

Main category: cs.CV

TL;DR: 该论文提出了处理视觉系统中感受野响应可变性的方法,通过构建协变感受野族来扩展感受野形状以适应图像变换的自由度,并推导了空间和时空感受野响应之间的关系。

  • Motivation: 现实世界图像结构在自然图像变换下存在变异性,导致视觉层次早期层的感受野响应受到几何图像变换的强烈影响。需要处理这种可变性以改进视觉系统。
  • Method: 推导了空间和时空感受野响应之间的关系,包括(i)无穷小关系(结合半群和李群概念)和(ii)宏观级联平滑特性(描述如何通过应用较小支持增量滤波器从更精细尺度的感受野响应计算更粗糙尺度的响应)。
  • Result: 建立了感受野响应在不同滤波器参数值下的深层理解,可用于设计更高效的多参数感受野族计算方案。
  • Conclusion: 提出的结果为理解空间和时空感受野响应关系提供了理论基础,可用于改进感受野响应计算效率并构建生物视觉中简单细胞计算的理论模型。

[62] FloorSAM: SAM-Guided Floorplan Reconstruction with Semantic-Geometric Fusion

Han Ye,Haofu Wang,Yunchi Zhang,Jiangjian Xiao,Yuqiang Jin,Jinyuan Liu,Wen-An Zhang,Uladzislau Sychou,Alexander Tuzikov,Vladislav Sobolevskii,Valerii Zakharov,Boris Sokolov,Minglei Fu

Main category: cs.CV

TL;DR: FloorSAM是一个将点云密度图与Segment Anything Model(SAM)相结合的新框架,用于从LiDAR数据中精确重建建筑平面图。

  • Motivation: 传统方法(如几何算法和Mask R-CNN)在处理噪声、泛化能力和几何细节保留方面存在不足,需要更鲁棒的解决方案。
  • Method: 使用网格过滤、自适应分辨率投影和图像增强创建鲁棒的俯视密度图,利用SAM的零样本学习进行精确房间分割,通过自适应提示点和多阶段过滤生成房间掩模,最后结合掩模和点云分析进行轮廓提取和正则化。
  • Result: 在Giblayout和ISPRS数据集上的测试显示,FloorSAM在准确性、召回率和鲁棒性方面优于传统方法,特别是在噪声和复杂环境中表现更佳。
  • Conclusion: FloorSAM框架能够有效重建精确的建筑平面图并恢复房间拓扑关系,为室内导航、BIM和精确测量提供了可靠解决方案。

[63] Simulated Cortical Magnification Supports Self-Supervised Object Learning

Zhengyang Yu,Arthur Aubret,Chen Yu,Jochen Triesch

Main category: cs.CV

TL;DR: 本文研究了模拟人类视网膜中央凹视觉(foveated vision)对自监督学习模型学习物体表征的影响,发现考虑视觉分辨率变化能提升表征质量。

  • Motivation: 现有自监督学习模型忽略了人类视觉的视网膜中央凹特性(中央高分辨率、周边低分辨率),本文旨在探索这种视觉特性在物体表征学习中的作用。
  • Method: 使用两个以自我为中心的视频数据集,应用人类视网膜中央凹和皮层放大模型处理输入,使视觉内容在周边变得模糊,然后用两个生物启发的自监督学习模型进行时间基学习训练。
  • Result: 模拟视网膜中央凹视觉特性提高了学习到的物体表征质量,主要原因是物体显得更大且中央与周边视觉信息达到更好平衡。
  • Conclusion: 这项工作使人类视觉表征学习模型更加真实和高效,向更生物合理的计算模型迈进一步。

[64] MCOD: The First Challenging Benchmark for Multispectral Camouflaged Object Detection

Yang Li,Tingfa Xu,Shuyan Bai,Peifu Liu,Jianan Li

Main category: cs.CV

TL;DR: 本文介绍了MCOD,首个专门为多光谱伪装目标检测设计的基准数据集,包含真实世界挑战场景和高质量标注,验证了多光谱信息对提升检测鲁棒性的价值。

  • Motivation: 现有COD基准数据集仅支持RGB图像,缺乏多光谱方法所需支持,阻碍了该领域发展。多光谱图像提供丰富光谱信息,有望增强前景-背景区分能力。
  • Method: 构建MCOD数据集,包含真实世界挑战属性(小目标尺寸、极端光照等)、多样化自然场景和高质量像素级标注。在MCOD上对11种代表性COD方法进行基准测试。
  • Result: 基准测试显示由于任务难度增加,所有方法性能均下降。但集成多光谱模态显著缓解了这种性能退化,证明了光谱信息对检测鲁棒性的增强作用。
  • Conclusion: MCOD为多光谱伪装目标检测研究提供了坚实基础,多光谱信息能有效提升在挑战性条件下的检测性能。

[65] Overview of PlantCLEF 2024: multi-species plant identification in vegetation plot images

Herve Goeau,Vincent Espitalier,Pierre Bonnet,Alexis Joly

Main category: cs.CV

TL;DR: PlantCLEF 2024挑战赛旨在通过AI技术提高生态研究中植物物种识别的效率,利用大规模标注数据和先进的视觉Transformer模型进行多标签分类任务评估。

  • Motivation: 生态研究中的样方图像分析需要大量人工识别工作,AI技术可以显著提高专家的工作效率,扩大生态研究的范围和覆盖面。
  • Method: 使用包含170万张单标签植物图像的大规模训练集,以及预训练的视觉Transformer模型,将样方图像的多标签分类任务作为弱监督学习问题进行处理。
  • Result: 挑战赛提供了包含数千张专家标注的多标签图像的新测试集,覆盖800多个物种,为评估植物识别技术的进展提供了标准基准。
  • Conclusion: PlantCLEF 2024挑战赛通过提供标准化数据集和评估方法,推动了AI在生态研究植物识别领域的应用和发展。

[66] Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation

Weimin Bai,Yubo Li,Weijian Luo,Wenzheng Chen,He Sun

Main category: cs.CV

TL;DR: VLM3D是一个新的文本到3D生成框架,通过将大型视觉语言模型集成到SDS流程中,解决了现有方法在语义对齐和3D空间一致性方面的局限性。

  • Motivation: 现有基于SDS的文本到3D生成方法存在两个主要问题:1)依赖CLIP文本编码器导致语义对齐粗糙,难以处理细粒度提示;2)2D扩散先验缺乏明确的3D空间约束,导致几何不一致和多对象场景中的关系不准确。
  • Method: 提出VLM3D框架,将大型视觉语言模型作为可微分的语义和空间先验集成到SDS流程中。VLMs利用丰富的语言基础监督实现细粒度提示对齐,其固有的视觉语言建模提供强大的空间理解能力。基于开源的Qwen2.5-VL模型实现。
  • Result: 在GPTeval3D基准测试中,VLM3D在多样化对象和复杂场景上显著优于先前的SDS方法,在语义保真度、几何一致性和空间正确性方面表现优异。
  • Conclusion: VLM3D通过集成VLMs作为语义和空间先验,有效解决了文本到3D生成中的语义对齐和3D一致性问题,为高质量3D内容生成提供了新思路。

[67] Enriched Feature Representation and Motion Prediction Module for MOSEv2 Track of 7th LSVOS Challenge: 3rd Place Solution

Chang Soo Lim,Joonyoung Moon,Donghyeon Cho

Main category: cs.CV

TL;DR: 提出了SCOPE框架,通过将SAM2的ViT编码器集成到Cutie中并添加运动预测模块,结合两者的优势,在LSVOS挑战赛中获得第三名。

  • Motivation: Cutie和SAM2在视频对象分割中各有局限:Cutie特征容量有限,SAM2缺乏时序建模能力。需要结合两者的互补优势来提升分割性能。
  • Method: 用SAM2的ViT编码器替换Cutie的编码器,引入运动预测模块增强时序稳定性,并采用Cutie、SAM2和本变体的集成策略。
  • Result: 在第七届LSVOS挑战赛的MOSEv2赛道中获得第三名,证明了丰富特征表示和运动预测对视频对象分割的有效性。
  • Conclusion: SCOPE框架通过集成互补技术和运动预测模块,实现了鲁棒的视频对象分割性能。

[68] Ideal Registration? Segmentation is All You Need

Xiang Chen,Fengting Zhang,Qinghao Liu,Min Liu,Kun Wu,Yaonan Wang,Hang Zhang

Main category: cs.CV

TL;DR: SegReg是一个分割驱动的图像配准框架,通过解剖学自适应正则化来处理区域变化的变形,在心脏、腹部和肺部图像配准中优于现有方法2-12%。

  • Motivation: 当前深度学习方法通常使用全局统一的平滑约束,无法适应解剖运动中复杂的区域变化变形。
  • Method: SegReg首先将输入的移动图像和固定图像通过分割分解为解剖学一致的子区域,然后由相同的配准骨干网络处理这些局部区域以计算优化的部分变形场,最后将这些部分变形场整合为全局变形场。
  • Result: 使用真实分割标签时,SegReg在关键解剖结构上达到98.23%的Dice相似系数;即使使用自动分割,在三个临床配准场景(心脏、腹部和肺部图像)中也比现有方法提升2-12%。
  • Conclusion: SegReg展示了配准精度与分割质量之间的近线性依赖关系,将配准挑战转化为分割问题。

[69] CBPNet: A Continual Backpropagation Prompt Network for Alleviating Plasticity Loss on Edge Devices

Runjie Shao,Boyu Diao,Zijia An,Ruiqi Liu,Yongjun Xu

Main category: cs.CV

TL;DR: CBPNet是一个针对边缘设备的高效持续学习框架,通过自适应重新初始化未充分利用的参数来解决冻结预训练模型中的可塑性损失问题。

  • Motivation: 为了解决机器人和自动驾驶等应用在动态环境中需要实时响应的需求,需要适合边缘设备的高效持续学习方法。当前使用冻结预训练模型加提示词的主流策略虽然能对抗灾难性遗忘,但引入了可塑性损失的新瓶颈。
  • Method: 提出Continual Backpropagation Prompt Network (CBPNet),创新性地集成高效的CBP块,通过自适应重新初始化训练过程中未充分利用的参数来恢复模型的学习活力。
  • Result: 在边缘设备上的实验结果表明,CBPNet在多个基准测试中表现优异。在Split CIFAR-100上比强基线平均准确率提高超过1%,在更具挑战性的Split ImageNet-R上达到69.41%的最先进准确率,而额外训练的参数仅占主干网络大小的不到0.2%。
  • Conclusion: CBPNet是一个有效且参数高效的框架,能够成功解决持续学习中的可塑性损失问题,适用于边缘设备的实时应用需求。

[70] FoBa: A Foreground-Background co-Guided Method and New Benchmark for Remote Sensing Semantic Change Detection

Haotian Zhang,Han Guo,Keyan Chen,Hao Chen,Zhengxia Zou,Zhenwei Shi

Main category: cs.CV

TL;DR: 该论文提出了一个新的遥感语义变化检测基准LevirSCD,并开发了前景-背景协同引导的FoBa方法,通过门控交互融合模块和一致性损失来提升变化检测性能。

  • Motivation: 现有遥感语义变化检测数据集存在类别有限、变化类型不足和粒度不够细的问题,同时现有方法对变化信息的利用不足,通常将其作为后处理步骤,限制了模型性能的进一步提升。
  • Method: 提出了前景-背景协同引导的语义变化检测方法(FoBa),利用前景关注感兴趣区域和背景提供上下文信息来协同指导模型;引入了门控交互融合模块(GIF)和简单的一致性损失来增强双时相交互和空间一致性。
  • Result: 在三个数据集(SECOND、JL1和LevirSCD)上的实验表明,FoBa方法相比当前SOTA方法在SeK指标上分别提升了1.48%、3.61%和2.81%。
  • Conclusion: LevirSCD数据集和FoBa方法有效解决了遥感语义变化检测中的数据和方法层面的挑战,为实际应用提供了更好的支持。

[71] Minimal Semantic Sufficiency Meets Unsupervised Domain Generalization

Tan Pan,Kaiyu Guo,Dongli Xu,Zhaorui Tan,Chen Jiang,Deshu Chen,Xin Guo,Brian C. Lovell,Limei Han,Yuan Cheng,Mahsa Baktashmotlagh

Main category: cs.CV

TL;DR: 该论文提出了一种无监督领域泛化方法MS-UDG,通过信息论框架学习最小充分语义表示,无需类别或领域标签即可提升模型泛化能力。

  • Motivation: 深度学习的泛化能力在监督学习中已得到广泛研究,但在无监督场景下研究较少。现有的无监督领域泛化方法通常依赖领域标签,而现实场景中这些标签往往不可得。
  • Method: 提出MS-UDG方法,基于信息论框架优化表示的两个目标:(i)充分性:保留增强视图间的共享语义信息;(ii)最小性:最大程度移除与语义无关的信息。具体通过InfoNCE目标实现充分性,通过语义-变化解耦损失和重构机制实现最小性。
  • Result: 在流行的无监督领域泛化基准测试中,MS-UDG取得了新的最先进性能,持续优于现有的自监督学习和无监督领域泛化方法。
  • Conclusion: 该工作证明了通过信息论框架学习最小充分语义表示的有效性,为无需标签的无监督领域泛化提供了新的解决方案。

[72] TASAM: Terrain-and-Aware Segment Anything Model for Temporal-Scale Remote Sensing Segmentation

Tianyang Wang,Xi Xiao,Gaofei Chen,Hanzhang Chi,Qi Zhang,Guo Cheng,Yingrui Ji

Main category: cs.CV

TL;DR: TASAM是专门针对高分辨率遥感图像分割的SAM扩展模型,通过集成地形感知适配器、时序提示生成器和多尺度融合策略,在三个遥感基准测试中显著优于零样本SAM和任务特定模型。

  • Motivation: SAM在自然图像领域展示了强大的零样本分割能力,但在遥感数据中面临复杂地形、多尺度对象和时序动态等独特挑战,泛化能力不足。
  • Method: TASAM集成了三个轻量级模块:地形感知适配器注入高程先验,时序提示生成器捕捉土地覆盖变化,多尺度融合策略增强细粒度对象划分,无需重新训练SAM主干网络。
  • Result: 在LoveDA、iSAID和WHU-CD三个遥感基准测试中,TASAM实现了显著的性能提升,超越了零样本SAM和任务特定模型,且计算开销最小。
  • Conclusion: 研究结果强调了领域自适应增强对基础模型的价值,并为构建更稳健的地理空间分割提供了可扩展的路径。

[73] ChronoForge-RL: Chronological Forging through Reinforcement Learning for Enhanced Video Understanding

Kehua Chen

Main category: cs.CV

TL;DR: ChronoForge-RL是一个结合Temporal Apex Distillation和KeyFrame-aware Group Relative Policy Optimization的视频理解框架,通过可微分关键帧选择机制解决计算效率和语义帧识别问题

  • Motivation: 当前视频理解方法面临两个关键挑战:密集视频内容处理的计算不可行性,以及通过朴素均匀采样策略识别语义重要帧的困难
  • Method: 采用三阶段可微分关键帧选择机制:TAD模块通过变化评分、拐点检测和优先级蒸馏选择信息量最大的帧;KF-GRPO模块通过对比学习和显著性增强奖励机制利用帧内容和时间关系
  • Result: 在VideoMME上达到69.1%,在LVBench上达到52.7%,明显超越基线方法,使7B参数模型达到与72B参数模型相当的性能
  • Conclusion: ChronoForge-RL框架有效解决了视频理解中的计算效率和语义帧识别问题,在保持高性能的同时显著提升了计算效率

[74] CIDER: A Causal Cure for Brand-Obsessed Text-to-Image Models

Fangjian Shen,Zifeng Liang,Chao Wang,Wushao Wen

Main category: cs.CV

TL;DR: CIDER是一个模型无关的框架,通过提示词优化来减轻文本到图像模型中的品牌偏见,无需重新训练模型。

  • Motivation: 文本到图像模型存在显著的'品牌偏见',即从通用提示中生成包含主导商业品牌的内容,这带来了伦理和法律风险。
  • Method: CIDER使用轻量级检测器识别品牌内容,并利用视觉语言模型生成风格不同的替代方案。引入品牌中立性评分来量化该问题。
  • Result: 实验表明CIDER显著减少了显性和隐性偏见,同时保持了图像质量和美学吸引力。
  • Conclusion: 该工作为生成更原创和公平的内容提供了实用解决方案,有助于开发可信赖的生成式AI。

[75] Boosting Active Learning with Knowledge Transfer

Tianyang Wang,Xi Xiao,Gaofei Chen,Xiaoying Liao,Guo Cheng,Yingrui Ji

Main category: cs.CV

TL;DR: 提出了一种基于知识迁移的主动学习方法,通过师生模型架构来提升不确定性估计,无需复杂辅助模型或特殊训练方式,适用于多种任务包括计算生物学中的冷冻电子断层扫描分类。

  • Motivation: 现有主动学习方法的不确定性估计需要复杂的辅助模型和特殊训练方式,难以应用于领域特定任务如冷冻电子断层扫描分类。
  • Method: 采用师生模型模式,教师模型是主动学习中的任务模型,学生模型是辅助模型。两个模型在每个主动学习周期中同时训练,通过模型输出之间的距离来测量未标记数据的不确定性。
  • Result: 在经典计算机视觉任务和冷冻电子断层扫描挑战上进行了广泛实验,验证了方法的有效性和效率。
  • Conclusion: 该方法证明了数据不确定性不依赖于任务损失的具体值,而与任务损失的上界密切相关,提供了一种通用且高效的不确定性估计方案。

[76] LC-SLab -- An Object-based Deep Learning Framework for Large-scale Land Cover Classification from Satellite Imagery and Sparse In-situ Labels

Johannes Leonhardt,Juergen Gall,Ribana Roscher

Main category: cs.CV

TL;DR: LC-SLab是首个针对稀疏监督下大规模土地覆盖分类的基于对象的深度学习框架,通过图神经网络和输出聚合方法,在保持精度的同时显著减少预测碎片化

  • Motivation: 现有基于深度学习的土地覆盖制图方法在使用稀疏实地调查数据时会产生碎片化和噪声预测,需要探索基于对象的分类方法来改善这一问题
  • Method: 提出LC-SLab框架,支持输入级聚合(图神经网络)和输出级聚合(语义分割后处理),并整合预训练网络特征来提升小数据集性能
  • Result: 在Sentinel-2数据和LUCAS标签上的评估显示,基于对象的方法在匹配像素级模型精度的同时产生更连贯的地图,输入级聚合在小数据集上更鲁棒,输出级聚合在数据充足时表现最佳
  • Conclusion: LC-SLab框架证明了基于对象的方法在稀疏监督土地覆盖分类中的有效性,多个配置优于现有土地覆盖产品,具有实际应用价值

[77] Zero-Shot Visual Grounding in 3D Gaussians via View Retrieval

Liwei Liao,Xufeng Li,Xiaoyun Zheng,Boning Liu,Feng Gao,Ronggang Wang

Main category: cs.CV

TL;DR: GVR是一个新颖的零样本3D视觉定位框架,通过将3D定位任务转化为2D检索任务来解决现有方法需要逐场景训练和大量标注数据的问题。

  • Motivation: 现有3D视觉定位方法面临两个主要挑战:难以处理3D高斯泼溅中的隐式空间纹理表示(需要逐场景训练),以及需要大量标注数据进行有效训练。
  • Method: 提出基于视图检索的定位框架(GVR),利用对象级视图检索从多个视图中收集定位线索,将3D视觉定位转化为2D检索任务。
  • Result: 大量实验表明,该方法在避免逐场景训练的同时实现了最先进的视觉定位性能。
  • Conclusion: GVR为零样本3D视觉定位研究提供了坚实基础,避免了昂贵的3D标注过程和逐场景训练需求。

[78] ENSAM: an efficient foundation model for interactive segmentation of 3D medical images

Elias Stenhede,Agnar Martin Bjørnstad,Arian Ranjbar

Main category: cs.CV

TL;DR: ENSAM是一个轻量级、可提示的3D医学图像分割模型,结合了SegResNet编码器、提示编码器和掩码解码器,在有限数据和计算资源下表现出色,在CVPR 2025挑战赛中超越多个基线模型。

  • Motivation: 开发一个在有限数据和计算预算下仍能实现良好性能的通用3D医学图像分割模型,解决医学图像分割中的资源限制问题。
  • Method: 采用U-Net风格的架构,结合SegResNet编码器、提示编码器和掩码解码器,使用潜在交叉注意力、相对位置编码、归一化注意力和Muon优化器进行训练。
  • Result: 在CVPR 2025挑战赛隐藏测试集上,ENSAM获得DSC AUC 2.404、NSD AUC 2.266、最终DSC 0.627、最终NSD 0.597,超越了VISTA3D和SAM-Med3D两个基线模型,与SegVol表现相当。在核心集赛道中排名第5(共10个),在未使用预训练权重的方法中表现最佳。
  • Conclusion: ENSAM证明了在有限计算资源下训练高质量3D医学图像分割模型的可行性,相对位置编码和Muon优化器显著加速收敛并提升分割质量。

[79] Self-Supervised Cross-Modal Learning for Image-to-Point Cloud Registration

Xingmei Wang,Xiaoyu Hu,Chengkai Huang,Ziyan Zeng,Guohao Nie,Quan Z. Sheng,Lina Yao

Main category: cs.CV

TL;DR: CrossI2P是一个自监督框架,通过跨模态学习和两阶段配准,解决图像到点云配准中的语义-几何差距和局部最优问题。

  • Motivation: 解决2D图像和3D点云之间的语义-几何差距问题,以及现有方法容易陷入局部最优的局限性,实现更鲁棒的自适应系统感知。
  • Method: 采用双路径对比学习构建几何-语义融合嵌入空间,使用粗到精的配准范式:全局阶段建立超点-超像素对应关系,局部阶段进行几何约束的点级细化,并通过动态训练机制平衡损失。
  • Result: 在KITTI Odometry基准测试上优于现有方法23.7%,在nuScenes上优于37.9%,显著提高了准确性和鲁棒性。
  • Conclusion: CrossI2P通过统一的端到端管道有效解决了I2P配准挑战,在多个基准测试中表现出色,为跨模态感知提供了有效解决方案。

[80] RACap: Relation-Aware Prompting for Lightweight Retrieval-Augmented Image Captioning

Xiaosheng Long,Hanyu Wang,Zhentao Song,Kun Luo,Hongde Liu

Main category: cs.CV

TL;DR: RACap是一个关系感知的检索增强图像描述模型,通过挖掘检索描述中的结构化关系语义和识别图像中的异构对象,解决了现有方法在关系建模方面的局限性。

  • Motivation: 当前检索增强图像描述方法在关系建模方面存在挑战:语义提示表示过于粗糙无法捕捉细粒度关系,缺乏对图像对象及其语义关系的显式建模。
  • Method: 提出RACap模型,不仅从检索描述中挖掘结构化关系语义,还识别图像中的异构对象,有效检索包含异构视觉信息的结构化关系特征。
  • Result: 实验结果显示,RACap仅需1080万个可训练参数,在性能上优于之前的轻量级描述模型。
  • Conclusion: RACap通过关系感知的检索增强方法,显著提升了图像描述的语义一致性和关系表达能力。

[81] RangeSAM: Leveraging Visual Foundation Models for Range-View repesented LiDAR segmentation

Paul Julius Kühn,Duc Anh Nguyen,Arjan Kuijper,Holger Graf,Dieter Fellner,Saptarshi Neil Sinha

Main category: cs.CV

TL;DR: 本文提出了首个将SAM2视觉基础模型适配到3D点云分割的range-view框架,通过架构优化实现了在LiDAR点云分割上的竞争性性能。

  • Motivation: 现有体素和点基方法计算成本高且实时效率有限,而range-view方法可以利用成熟的2D分割技术实现快速准确预测。受视觉基础模型在分割任务上的进展启发,研究SAM2是否可作为LiDAR点云分割的强骨干网络。
  • Method: 提出range-view框架,将SAM2适配到3D分割,结合高效2D特征提取和标准投影/反投影操作。对编码器进行三项架构修改:1)强调LiDAR距离图像水平空间依赖性的新模块;2)针对球面投影几何特性定制的配置;3)捕捉range-view伪图像独特空间模式的适配机制。
  • Result: 在SemanticKITTI数据集上实现了竞争性性能,同时受益于2D管道的速度、可扩展性和部署简单性。
  • Conclusion: 这项工作证明了视觉基础模型作为3D感知通用骨干网络的可行性,为统一的、基础模型驱动的LiDAR分割开辟了道路,使用VFMs的range-view分割方法取得了有前景的结果。

[82] Global Regulation and Excitation via Attention Tuning for Stereo Matching

Jiahao Li,Xinhong Chen,Zhengmin Jiang,Qian Zhou,Yung-Hui Li,Jianping Wang

Main category: cs.CV

TL;DR: 提出了GREAT框架,通过三个注意力模块增强立体匹配算法的全局上下文感知能力,在困难区域表现优异

  • Motivation: 现有迭代式立体匹配方法在遮挡、纹理缺失或重复模式等困难区域表现不佳,缺乏全局上下文和几何信息
  • Method: 提出GREAT框架包含三个注意力模块:空间注意力(SA)捕获空间维度全局上下文,匹配注意力(MA)沿极线提取全局上下文,体积注意力(VA)结合前两者构建更鲁棒的成本体积
  • Result: 在多个基准测试中取得领先成绩:Scene Flow测试集、KITTI 2015和ETH3D排行榜第一,Middlebury基准测试第二
  • Conclusion: GREAT框架能有效提升现有迭代式立体匹配方法的性能,特别是在困难区域表现突出

[83] Deep Feedback Models

David Calhas,Arlindo L. Oliveira

Main category: cs.CV

TL;DR: Deep Feedback Models (DFMs) 是一种新型的状态神经网络,通过结合自下而上的输入和随时间变化的高层表示,引入反馈机制,使静态架构具有动态特性,能够迭代优化内部状态并模拟生物决策过程。

  • Motivation: 研究动机是探索反馈机制在神经网络中的作用,特别是在提高模型对噪声的鲁棒性和在有限数据下的泛化能力方面,模拟生物决策的迭代优化过程。
  • Method: 将DFMs建模为通过递归神经网络求解的微分方程,并通过指数衰减进行稳定以确保收敛。在物体识别和分割任务中评估DFMs的有效性,重点关注其对噪声的鲁棒性和在有限数据下的泛化能力。
  • Result: 在物体识别和分割任务中,DFMs始终优于前馈网络,尤其在数据稀缺或高噪声环境下表现更佳。DFMs还能有效应用于医学影像设置,并对各种类型的噪声干扰具有鲁棒性。
  • Conclusion: 研究结果强调了反馈机制在实现稳定、鲁棒和可泛化学习中的重要性,DFMs为处理噪声和有限数据场景提供了有效解决方案。

[84] Sparse Multiview Open-Vocabulary 3D Detection

Olivier Moliner,Viktor Larsson,Kalle Åström

Main category: cs.CV

TL;DR: 本文提出了一种无需训练的开集词汇3D目标检测方法,利用预训练的2D基础模型在稀疏视图场景下实现3D目标检测,通过提升2D检测结果并优化3D提案来实现跨视图的特征一致性。

  • Motivation: 传统的3D目标检测方法通常只能检测固定类别的物体,限制了其应用范围。本文旨在解决稀疏视图设置下的开集词汇3D目标检测问题,这是一个具有挑战性但实用的场景。
  • Method: 采用无需训练的方法,直接使用预训练的2D基础模型,避免计算密集的3D特征融合或3D特定学习。通过提升2D检测结果并直接优化3D提案,实现跨视图的特征一致性,充分利用2D领域丰富的训练数据。
  • Result: 在标准基准测试中,该方法在密集采样场景下与最先进技术表现相当,在稀疏视图设置下显著优于现有方法,建立了一个强大的基线。
  • Conclusion: 这种简单的流水线证明了利用2D基础模型进行3D目标检测的有效性,特别是在数据有限的稀疏视图场景中,为开集词汇3D检测提供了有前景的解决方案。

[85] PAN: Pillars-Attention-Based Network for 3D Object Detection

Ruan Bispo,Dane Mitrev,Letizia Mariotti,Clément Botty,Denver Humphrey,Anthony Scanlan,Ciarán Eising

Main category: cs.CV

TL;DR: 提出一种新颖高效的相机-雷达融合3D目标检测算法,在BEV视角下利用雷达优势,通过自注意力机制建模雷达点依赖关系,简化卷积层减少推理时间,在nuScenes数据集上达到新的SOTA性能。

  • Motivation: 相机-雷达融合为3D目标检测提供了在恶劣天气和光照条件下鲁棒且低成本的替代方案,但目前相关研究较少,需要开发新架构来充分利用雷达点云的优势如精确距离估计和速度信息。
  • Method: 在BEV视角下开发相机-雷达融合算法,引入新骨干网络将雷达柱特征映射到嵌入维度,使用自注意力机制建模雷达点间依赖关系,用简化卷积层替代基于FPN的卷积层以减少推理时间。
  • Result: 在nuScenes数据集上达到58.2的NDS指标(使用ResNet-50),在同类算法中创造了新的推理时间基准,实现了新的SOTA性能。
  • Conclusion: 该方法通过有效利用雷达优势并优化网络架构,在保持高性能的同时显著提升了推理效率,为实时3D目标检测提供了实用解决方案。

[86] A multi-temporal multi-spectral attention-augmented deep convolution neural network with contrastive learning for crop yield prediction

Shalini Dangi,Surya Karthikeya Mullapudi,Chandravardhan Singh Raghaw,Shahid Shafi Dar,Mohammad Zia Ur Rehman,Nagendra Kumar

Main category: cs.CV

TL;DR: 提出MTMS-YieldNet网络,通过整合多光谱数据与时空信息,利用对比学习进行预训练,显著提高了作物产量预测精度。

  • Motivation: 气候变化影响农业产量预测准确性,现有方法在处理多光谱数据方面存在困难,而多光谱数据对评估作物健康和生长模式至关重要。
  • Method: 提出MTMS-YieldNet网络,集成光谱数据与时空信息,采用对比学习进行预训练,专注于从遥感数据中捕获空间-光谱模式和时空依赖关系。
  • Result: 在Sentinel-1、Landsat-8和Sentinel-2数据集上分别获得0.336、0.353和0.331的MAPE分数,优于7种现有最先进方法。
  • Conclusion: MTMS-YieldNet的优异性能不仅提高了产量预测准确性,还为农民提供了有价值的决策支持,有望改善作物产量。

[87] Shedding Light on Depth: Explainability Assessment in Monocular Depth Estimation

Lorenzo Cirillo,Claudio Schiavella,Lorenzo Papa,Paolo Russo,Irene Amerini

Main category: cs.CV

TL;DR: 该论文研究了单目深度估计(MDE)网络的可解释性,评估了三种特征归因方法(显著图、积分梯度和注意力展开)在不同MDE模型上的表现,并提出了新的评估指标Attribution Fidelity。

  • Motivation: 尽管单目深度估计在现实应用中广泛部署,但其可解释性研究仍然不足。作者旨在分析MDE网络如何从输入图像映射到预测深度图,并评估现有可解释性方法的有效性。
  • Method: 研究在两种不同复杂度的MDE模型(轻量级网络METER和深度网络PixelFormer)上应用三种特征归因方法。通过选择性扰动最重要和最不重要的像素来评估解释质量,并引入Attribution Fidelity指标来评估特征归因的可靠性。
  • Result: 实验结果表明,显著图和积分梯度分别在轻量级和深度MDE模型中表现良好。Attribution Fidelity能够有效识别可解释性方法是否产生可靠的视觉图,即使在传统指标显示满意结果的情况下。
  • Conclusion: 该研究为MDE网络的可解释性提供了系统分析,证明了不同特征归因方法在不同模型架构中的适用性,并提出了更有效的评估指标来验证解释的可靠性。

[88] CoPAD : Multi-source Trajectory Fusion and Cooperative Trajectory Prediction with Anchor-oriented Decoder in V2X Scenarios

Kangyu Wu,Jiaqi Qiao,Ya Zhang

Main category: cs.CV

TL;DR: CoPAD是一个轻量级的协同轨迹预测框架,通过匈牙利算法和卡尔曼滤波融合多源轨迹数据,结合注意力机制和锚点解码器,在V2X场景下实现最先进的性能。

  • Motivation: 单车辆感知的不稳定性限制了轨迹预测的准确性,需要利用车辆和道路基础设施的多源数据进行协同预测。
  • Method: 提出包含匈牙利算法和卡尔曼滤波的融合模块、历史时间注意力模块、模式注意力模块和锚点导向解码器的轻量级框架。
  • Result: 在DAIR-V2X-Seq数据集上实现了最先进的性能,验证了模型在V2X场景中协同轨迹预测的有效性。
  • Conclusion: CoPAD框架能够有效融合多源轨迹数据,生成高完整性和准确性的轨迹预测,为自动驾驶的协同感知提供了有效解决方案。

[89] Towards Sharper Object Boundaries in Self-Supervised Depth Estimation

Aurélien Cecille,Stefan Duffner,Franck Davoine,Rémi Agier,Thibault Neveu

Main category: cs.CV

TL;DR: 提出一种自监督的单目深度估计方法,通过混合分布建模像素深度,在物体边界处产生清晰的深度不连续性,无需细粒度监督即可实现锐利边缘。

  • Motivation: 现有单目深度估计方法在物体边界处往往会产生模糊的深度值,引入虚假的3D点,而获得锐利边缘通常需要非常精细的监督信号。
  • Method: 将每个像素的深度建模为混合分布,捕捉多个可能的深度值,并将不确定性从直接回归转移到混合权重上。通过方差感知损失函数和不确定性传播无缝集成到现有流程中。
  • Result: 在KITTI和VKITTIv2数据集上的广泛评估显示,该方法相比最先进的基线方法,边界锐度提高了35%,并改善了点云质量。
  • Conclusion: 该方法仅使用自监督就能产生清晰的深度不连续性,在单目深度估计中实现了更好的边界处理效果。

[90] DAFTED: Decoupled Asymmetric Fusion of Tabular and Echocardiographic Data for Cardiac Hypertension Diagnosis

Jérémie Stym-Popper,Nathan Painchaud,Clément Rambour,Pierre-Yves Courand,Nicolas Thome,Olivier Bernard

Main category: cs.CV

TL;DR: 提出了一种基于主模态的不对称融合策略,通过解耦共享和模态特定信息来增强医学诊断的多模态数据融合方法

  • Motivation: 多模态数据融合是提升医学诊断效果的关键方法,特别是在处理超声心动图时间序列和表格记录等复杂医疗数据时
  • Method: 采用不对称融合策略,从主模态出发,通过解耦共享信息和模态特定信息来整合次要模态
  • Result: 在239名患者的超声心动图时间序列和表格记录数据集上验证,模型性能优于现有方法,AUC超过90%
  • Conclusion: 该方法为临床使用建立了重要的基准,显著提升了诊断性能

[91] Towards Robust Visual Continual Learning with Multi-Prototype Supervision

Xiwei Liu,Yulong Li,Yichen Li,Xinlin Zhuang,Haolin Yang,Huifa Li,Imran Razzak

Main category: cs.CV

TL;DR: MuproCL是一个用于视觉持续学习的新框架,通过使用多个上下文感知的原型替代单一语义目标,解决了语义模糊性和类内视觉多样性的问题。

  • Motivation: 现有的语言引导监督方法依赖PLM生成的单一语义目标,存在两个关键限制:1)语义模糊性,多义词类别名称导致冲突的视觉表示;2)类内视觉多样性,单一原型无法捕捉类内丰富的视觉外观变化。
  • Method: 使用轻量级LLM代理进行类别消歧和视觉模态扩展,生成鲁棒的语义原型集合。通过LogSumExp聚合机制,使视觉模型能够自适应地与给定图像最相关的原型对齐。
  • Result: 在各种持续学习基准上的广泛实验表明,MuproCL持续提升了性能和鲁棒性。
  • Conclusion: MuproCL为语言引导的持续学习建立了一条更有效的路径,通过多原型方法显著改善了语义表示的质量。

[92] DistillMatch: Leveraging Knowledge Distillation from Vision Foundation Model for Multimodal Image Matching

Meng Yang,Fan Fan,Zizhuo Li,Songchu Deng,Yong Ma,Jiayi Ma

Main category: cs.CV

TL;DR: DistillMatch是一种多模态图像匹配方法,通过从视觉基础模型进行知识蒸馏来提取高层语义特征,解决不同模态图像间像素级对应问题。

  • Motivation: 多模态图像匹配面临模态间外观差异大、高质量标注数据稀缺的挑战,现有深度学习方法性能不佳且缺乏适应性。
  • Method: 采用知识蒸馏构建轻量级学生模型,从DINOv2/DINOv3提取语义特征;注入模态类别信息增强跨模态相关性理解;设计V2I-GAN进行可见光到伪红外图像的数据增强。
  • Result: 在公开数据集上的实验表明,DistillMatch优于现有算法。
  • Conclusion: 利用视觉基础模型的通用特征表示,通过知识蒸馏和模态信息注入,有效提升了多模态图像匹配的性能和泛化能力。

[93] Generalized Deep Multi-view Clustering via Causal Learning with Partially Aligned Cross-view Correspondence

Xihong Yang,Siwei Wang,Jiaqi Jin,Fangdi Wang,Tianrui Liu,Yueming Jin,Xinwang Liu,En Zhu,Kunlun He

Main category: cs.CV

TL;DR: 本文提出CauMVC因果多视图聚类网络,通过因果建模解决部分对齐数据的广义多视图聚类问题,将部分对齐数据视为干预,并设计VAE进行因果学习。

  • Motivation: 现实场景中多视图数据往往只有部分对齐,传统方法依赖完全对齐假设,导致性能下降。本文旨在解决数据顺序偏移(从完全对齐到部分对齐)引起的性能下降问题。
  • Method: 采用因果建模方法,将部分对齐数据视为干预,设计基于变分自编码器的因果学习框架,包含编码器估计不变特征、解码器进行干预后推理,以及对比正则化器捕获样本相关性。
  • Result: 在完全和部分对齐数据上的实验表明,CauMVC具有强大的泛化能力和有效性。
  • Conclusion: 这是首个通过因果学习处理广义多视图聚类的工作,CauMVC为解决部分对齐数据的多视图聚类问题提供了有效方案。

[94] GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition

Tianyue Wang,Shuang Yang,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: GLip是一个用于视觉语音识别的全局-局部集成渐进框架,通过双路径特征提取和两阶段渐进学习,解决现实世界中的光照变化、遮挡、模糊和姿态变化等视觉挑战。

  • Motivation: 现有的视觉语音识别方法对现实世界中的视觉挑战(如光照变化、遮挡、模糊、姿态变化)关注有限,需要开发更鲁棒的解决方案。
  • Method: 提出GLip框架,包含双路径特征提取架构和两阶段渐进学习:第一阶段学习视觉特征与语音单元的粗对齐;第二阶段通过上下文增强模块动态整合局部特征与全局上下文。
  • Result: 在LRS2和LRS3基准测试中表现优于现有方法,并在新引入的挑战性普通话数据集上验证了有效性。
  • Conclusion: GLip通过渐进学习策略独特地利用判别性局部区域,在各种视觉挑战下展现出增强的鲁棒性。

[95] Graph-based Point Cloud Surface Reconstruction using B-Splines

Stuti Pathak,Rhys G. Evans,Gunther Steenackers,Rudi Penne

Main category: cs.CV

TL;DR: 本文提出了一种基于字典引导图卷积网络的表面重建策略,能够同时预测控制点的位置和数量,为噪声点云数据生成平滑表面,无需使用点法向量。

  • Motivation: 现实世界点云数据存在噪声,现有数据驱动的表面重建算法严重依赖地面真实法向量或计算近似法向量作为中间步骤,这使得它们在噪声点云数据集上极不可靠。B样条重建技术虽然提供紧凑的表面表示,但现有方法预测固定数量的控制点位置,难以匹配底层表面的复杂性。
  • Method: 开发了一种字典引导图卷积网络,同时预测控制点的位置和数量,为噪声点云数据生成平滑表面,无需使用任何点法向量。
  • Result: 通过广泛使用的评估指标与多个知名和近期基线方法进行比较,证明该方法在定性和定量上都优于所有基线方法。
  • Conclusion: 该方法能够有效处理噪声点云数据,生成高质量的平滑表面,克服了现有方法对法向量的依赖和控制点数量固定的局限性。

[96] Language-Instructed Reasoning for Group Activity Detection via Multimodal Large Language Model

Jihua Peng,Qianxiong Xu,Yichen Liu,Chenxi Liu,Cheng Long,Rui Zhao,Ziyue Li

Main category: cs.CV

TL;DR: 本文提出LIR-GAD框架,使用多模态大语言模型进行群体活动检测,通过引入活动级和群体级特殊令牌增强语义理解能力

  • Motivation: 现有深度学习方法依赖视觉特征的隐式模式识别,缺乏上下文推理和可解释性,需要更智能的群体活动检测方法
  • Method: 扩展MLLM词汇表,引入ACT和GROUP令牌,结合视频帧和语言指令,设计多模态双对齐融合模块整合视觉特征和语言嵌入
  • Result: 定量和定性实验表明该方法在群体活动检测任务上表现优异
  • Conclusion: LIR-GAD框架通过语言指导的推理有效提升了群体活动检测的性能和可解释性

[97] See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model

Pengteng Li,Pinhao Song,Wuyang Li,Weiyu Guo,Huizai Yao,Yijie Xu,Dugang Liu,Hui Xiong

Main category: cs.CV

TL;DR: SEE&TREK是首个无需训练、专门针对纯视觉约束下提升多模态大语言模型空间理解能力的提示框架。

  • Motivation: 现有方法通常依赖深度图或点云等额外模态来增强空间推理,但纯视觉空间理解仍未被充分探索。SEE&TREK旨在填补这一空白。
  • Method: 基于两个核心原则:1)视觉多样性增强-通过最大语义丰富度采样提取语义丰富的关键帧;2)运动重建-模拟视觉轨迹并编码相对空间位置。该方法无需训练和GPU,仅需单次前向传播。
  • Result: 在VSI-BENCH和STI-BENCH上的广泛实验表明,SEE&TREK能持续提升多种MLLM在空间推理任务上的性能,最高提升达3.5%。
  • Conclusion: SEE&TREK为增强空间智能提供了一条有前景的路径,可无缝集成到现有MLLM中。

[98] Blind-Spot Guided Diffusion for Self-supervised Real-World Denoising

Shen Cheng,Haipeng Li,Haibin Huang,Xiaohong Liu,Shuaicheng Liu

Main category: cs.CV

TL;DR: 提出Blind-Spot Guided Diffusion框架,解决盲点网络在图像去噪中的局部细节损失问题,通过双分支扩散模型实现自监督去噪

  • Motivation: 解决盲点网络在图像去噪中牺牲局部细节和引入像素不连续性的问题,同时克服扩散模型在自监督去噪中的适应困难
  • Method: 采用双分支扩散框架:BSN-based扩散分支生成半干净图像,传统扩散分支捕捉噪声分布;使用BSN分支指导采样过程,在保留局部细节的同时捕捉噪声结构
  • Result: 在SIDD和DND数据集上展示了最先进的性能表现
  • Conclusion: 该方法是一种高效的自监督真实世界图像去噪解决方案

[99] AdaSports-Traj: Role- and Domain-Aware Adaptation for Multi-Agent Trajectory Modeling in Sports

Yi Xu,Yun Fu

Main category: cs.CV

TL;DR: AdaSports-Traj是一个自适应轨迹建模框架,专门解决多智能体体育场景中角色和领域间的分布差异问题,通过角色和领域感知适配器以及分层对比学习来实现更好的轨迹预测性能。

  • Motivation: 多智能体体育场景中的轨迹预测面临结构异质性(如球员与球的角色差异)和不同体育领域间的动态分布差异挑战,现有统一框架难以捕捉这些结构化分布变化,导致跨角色和跨领域的泛化能力不足。
  • Method: 提出AdaSports-Traj框架,核心包括:1)角色和领域感知适配器,根据智能体身份和领域上下文条件调整潜在表示;2)分层对比学习目标,分别监督角色敏感和领域感知表示,鼓励解耦的潜在结构而不引入优化冲突。
  • Result: 在三个不同的体育数据集(Basketball-U、Football-U和Soccer-U)上的实验表明,该自适应设计在统一和跨领域轨迹预测设置中均取得了强劲性能。
  • Conclusion: AdaSports-Traj通过显式处理角色和领域间的分布差异,有效提升了多智能体体育场景轨迹预测的泛化能力,为跨领域体育分析提供了实用解决方案。

[100] SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features

Jinyuan Qu,Hongyang Li,Xingyu Chen,Shilong Liu,Yukai Shi,Tianhe Ren,Ruitao Jing,Lei Zhang

Main category: cs.CV

TL;DR: SegDINO3D是一个新颖的Transformer编码器-解码器框架,用于3D实例分割,通过充分利用预训练的2D检测模型的表示来提升3D表示能力。

  • Motivation: 由于3D训练数据通常不如2D训练图像充足,SegDINO3D旨在充分利用预训练2D检测模型的2D表示(包括图像级和对象级特征)来改进3D表示。
  • Method: SegDINO3D同时输入点云和相关的2D图像。在编码器阶段,通过从对应的图像视图中检索2D图像特征来丰富每个3D点,然后使用3D编码器进行3D上下文融合。在解码器阶段,将3D对象查询表示为3D锚框,并执行从3D查询到使用2D检测模型从2D图像获得的2D对象查询的交叉注意力。
  • Result: SegDINO3D在ScanNetV2和ScanNet200 3D实例分割基准测试中取得了最先进的性能。在具有挑战性的ScanNet200数据集上,SegDINO3D在验证集和隐藏测试集上分别比先前方法显著提高了+8.7和+6.8 mAP。
  • Conclusion: SegDINO3D通过有效利用2D预训练模型的知识,显著提升了3D实例分割的性能,特别是在数据稀缺的情况下表现出色。

[101] RadarGaussianDet3D: An Efficient and Effective Gaussian-based 3D Detector with 4D Automotive Radars

Weiyi Xiong,Bing Zhu,Tao Huang,Zewei Zheng

Main category: cs.CV

TL;DR: 本文提出了一种基于高斯分布的3D检测器RadarGaussianDet3D,用于解决4D雷达检测中的特征稀疏性和检测精度问题,同时提高推理速度以满足实时部署需求。

  • Motivation: 现有4D雷达3D检测器存在三个主要问题:1)基于pillar编码器的BEV特征提取导致特征图稀疏;2)边界框属性独立优化导致检测精度不理想;3)在车载嵌入式设备上难以满足实时性要求。
  • Method: 提出RadarGaussianDet3D方法:1)设计Point Gaussian Encoder(PGE)将点云转换为高斯基元,利用3D Gaussian Splatting技术进行BEV栅格化;2)提出Box Gaussian Loss(BGL)将边界框转换为3D高斯分布进行距离度量优化。
  • Result: 在TJ4DRadSet和View-of-Delft数据集上的实验表明,RadarGaussianDet3D在检测精度上达到state-of-the-art水平,同时推理速度显著提升。
  • Conclusion: 该方法通过高斯表示有效解决了4D雷达检测中的关键问题,在精度和速度方面均表现出色,具有在自动驾驶中实时部署的潜力。

[102] BaseReward: A Strong Baseline for Multimodal Reward Model

Yi-Fan Zhang,Haihua Yang,Huanyu Zhang,Yang Shi,Zezhou Chen,Haochen Tian,Chaoyou Fu,Haotian Wang,Kai Wu,Bo Cui,Xu Wang,Jianfei Pan,Haotian Wang,Zhang Zhang,Liang Wang

Main category: cs.CV

TL;DR: 本文提出了构建高性能多模态奖励模型(MRM)的系统方法,介绍了BaseReward基准模型,该模型在多个基准测试中达到SOTA性能,并为MLLM与人类偏好对齐提供了实用指南。

  • Motivation: 多模态大语言模型(MLLM)的快速发展使得与人类偏好对齐成为关键挑战,但目前缺乏构建先进多模态奖励模型的系统性指导。
  • Method: 通过系统实验分析MRM开发流程的关键组件,包括奖励建模范式、奖励头架构、训练策略、数据整理、骨干模型和模型规模、集成方法等,并基于这些洞察构建BaseReward模型。
  • Result: BaseReward在MM-RLHF-Reward Bench、VL-Reward Bench和Multimodal Reward Bench等主要基准上达到新的SOTA性能,并在实际强化学习管道中成功提升了MLLM在感知、推理和对话任务上的表现。
  • Conclusion: 该工作不仅提供了顶级的MRM模型,更重要的是为社区提供了基于实证的清晰指南,用于开发下一代MLLM的稳健奖励模型。

[103] Recovering Parametric Scenes from Very Few Time-of-Flight Pixels

Carter Sifferman,Yiquan Li,Yiming Li,Fangzhou Mu,Michael Gleicher,Mohit Gupta,Yin Li

Main category: cs.CV

TL;DR: 该论文提出了一种使用极少量(如15个像素)低分辨率飞行时间传感器深度测量来恢复3D参数化场景几何的方法,通过结合前馈预测和可微分渲染来估计物体6D姿态。

  • Motivation: 利用低成本商业飞行时间传感器(单像素但宽视场)的详细飞行时间数据,从稀疏测量中恢复简单参数化场景的几何信息,探索在强先验条件下使用极少测量点进行场景重建的可行性。
  • Method: 设计了一种结合前馈预测推断场景参数的方法,并在分析-合成框架中使用可微分渲染来细化场景参数估计。
  • Result: 开发了硬件原型,在仿真和受控真实世界捕获中有效恢复了已知无纹理3D模型的物体姿态,并展示了在其他参数化场景中的初步有希望结果。
  • Conclusion: 该方法证明了使用极稀疏飞行时间测量恢复简单参数化场景几何的可行性,并探索了该成像解决方案的极限和能力。

[104] AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models

Vatsal Malaviya,Agneet Chatterjee,Maitreya Patel,Yezhou Yang,Chitta Baral

Main category: cs.CV

TL;DR: 本文提出了AcT2I基准来评估文本到图像模型在动作中心提示下的生成性能,发现现有模型表现不佳,并通过基于大语言模型的知识蒸馏技术显著提升了生成准确率72%

  • Motivation: 当前文本到图像模型在渲染以动作和交互为主要语义焦点的复杂场景时存在困难,经常无法捕捉动作描绘中的细微和隐含属性
  • Method: 开发了训练免费的知识蒸馏技术,利用大语言模型在三个维度上增强提示信息,特别是注入时间细节来改善图像生成
  • Result: 实验验证主流T2I模型在AcT2I基准上表现不佳,但通过提示增强技术显著提升了生成准确性,最佳模型实现了72%的提升
  • Conclusion: 当前T2I方法在需要复杂推理的图像生成方面存在局限性,系统性整合语言知识可以显著推进细微和上下文准确图像的生成

[105] Pointing to a Llama and Call it a Camel: On the Sycophancy of Multimodal Large Language Models

Renjie Pi,Kehao Miao,Li Peihang,Runtao Liu,Jiahui Gao,Jipeng Zhang,Xiaofang Zhou

Main category: cs.CV

TL;DR: 该论文发现多模态大语言模型在图像输入时表现出明显的视觉谄媚行为,称为"谄媚模态差距",并提出了反思调优方法SRT来缓解这一问题。

  • Motivation: 多模态大语言模型在处理图像输入时表现出比文本模型更明显的谄媚行为,即过度迎合用户的误导性指令,这影响了模型的可靠性和准确性。
  • Method: 首先尝试了简单的监督微调,但发现会导致模型过度固执。随后提出了Sycophantic Reflective Tuning(SRT)方法,让模型在得出结论前进行反思推理,判断用户指令是误导性还是纠正性的。
  • Result: 应用SRT后,模型对误导性指令的谄媚行为显著减少,同时不会对纠正性指令表现出过度固执。
  • Conclusion: SRT方法有效缓解了多模态大语言模型的视觉谄媚行为,在保持对纠正性指令开放性的同时,减少了对误导性指令的盲目迎合。

[106] Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks

Het Patel,Muzammil Allie,Qian Zhang,Jia Chen,Evangelos E. Papalexakis

Main category: cs.CV

TL;DR: 提出一种轻量级防御方法,通过张量分解技术过滤对抗性噪声,无需重新训练即可提升视觉语言模型的鲁棒性。

  • Motivation: 现有防御方法需要昂贵的重新训练或重大架构修改,而该方法旨在为预训练模型提供即插即用的轻量级防御方案。
  • Method: 使用张量分解和重构视觉编码器表示,通过低秩张量列车分解(秩8-32)和低残差强度(α=0.1-0.2)来过滤对抗性噪声。
  • Result: 在Flickr30K上恢复12.3%的性能损失,Recall@1准确率从7.5%提升至19.8%;在COCO上恢复8.1%性能,准确率从3.8%提升至11.9%。
  • Conclusion: 该方法是一种实用的即插即用解决方案,对现有视觉语言模型具有最小开销,能有效防御对抗性攻击。

[107] UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation

Xiaoqi Zhao,Youwei Pang,Chenyang Yu,Lihe Zhang,Huchuan Lu,Shijian Lu,Georges El Fakhri,Xiaofeng Liu

Main category: cs.CV

TL;DR: UniMRSeg是一个统一的多模态图像分割网络,通过分层自监督补偿机制解决实际部署中模态缺失/损坏问题,在多种分割任务上显著优于现有方法。

  • Motivation: 解决多模态图像分割在真实部署中面临的模态不完整/损坏问题,避免现有方法需要为每种模态组合训练专门模型的高昂部署成本。
  • Method: 采用分层自监督补偿(HSSC)机制,包括:1)混合随机掩码增强的模态重建;2)模态不变对比学习;3)轻量级反向注意力适配器;4)混合一致性约束的微调。
  • Result: 在MRI脑肿瘤分割、RGB-D语义分割、RGB-D/T显著目标分割等多种任务上,UniMRSeg在多样缺失模态场景下显著优于最先进方法。
  • Conclusion: UniMRSeg通过统一的分层补偿框架有效解决了多模态分割的模态缺失问题,实现了稳定预测且无需大量模型子集,降低了部署成本。

[108] Fast OTSU Thresholding Using Bisection Method

Sai Varun Kodathala

Main category: cs.CV

TL;DR: 提出了一种基于二分法的Otsu阈值优化算法,将计算复杂度从O(L)降低到O(log L),在保持分割精度的同时显著提升计算效率

  • Motivation: 传统Otsu阈值算法因穷举搜索所有可能阈值而计算效率低下,限制了其在大规模图像处理系统中的实时应用
  • Method: 利用类间方差函数的单峰特性,采用二分法替代穷举搜索来寻找最优阈值
  • Result: 在48个标准测试图像上,方差计算减少91.63%,算法迭代减少97.21%,66.67%的测试案例获得精确阈值匹配,95.83%的偏差在5个灰度级以内
  • Conclusion: 该优化方法解决了Otsu算法在大型图像处理系统中的计算瓶颈问题,同时保持了原始方法的理论基础和分割质量,适用于实时应用

[109] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

Yanghao Li,Rui Qian,Bowen Pan,Haotian Zhang,Haoshuo Huang,Bowen Zhang,Jialing Tong,Haoxuan You,Xianzhi Du,Zhe Gan,Hyunjik Kim,Chao Jia,Zhenbang Wang,Yinfei Yang,Mingfei Gao,Zi-Yi Dou,Wenze Hu,Chang Gao,Dongxu Li,Philipp Dufter,Zirui Wang,Guoli Yin,Zhengdong Zhang,Chen Chen,Yang Zhao,Ruoming Pang,Zhifeng Chen

Main category: cs.CV

TL;DR: Manzano是一个统一的多模态大语言模型框架,通过混合图像分词器和精心设计的训练方案,同时实现了图像理解和图像生成能力,在统一模型中达到最先进水平。

  • Motivation: 现有的开源多模态模型在理解能力和生成能力之间存在性能权衡,需要一种能够同时兼顾两种能力的统一框架。
  • Method: 使用共享视觉编码器配合两个轻量级适配器,分别产生连续嵌入用于图像理解和离散标记用于图像生成。统一的自动回归LLM预测文本和图像标记的高级语义,辅助扩散解码器将图像标记转换为像素。
  • Result: Manzano在统一模型中达到最先进水平,与专业模型竞争力相当,特别是在文本丰富的评估中表现优异。研究显示任务冲突最小,模型规模扩展带来持续增益。
  • Conclusion: 混合分词器的设计选择得到验证,该框架能够实现理解能力和生成能力的可扩展联合学习。

cs.LG

[110] Kuramoto Orientation Diffusion Models

Yue Song,T. Anderson Keller,Sevan Brodjian,Takeru Miyato,Yisong Yue,Pietro Perona,Max Welling

Main category: cs.LG

TL;DR: 提出了一种基于Kuramoto同步动力学的分数生成模型,用于处理具有丰富方向模式的图像(如指纹和纹理),通过周期域上的随机扩散过程实现结构化图像生成。

  • Motivation: 标准各向同性欧几里得扩散难以有效建模具有相干角度方向模式的图像(如指纹和纹理),受生物系统中相位同步现象的启发,利用Kuramoto动力学作为结构化生成的归纳偏置。
  • Method: 构建基于随机Kuramoto动力学的分数生成模型,前向过程通过全局或局部耦合振荡器相互作用实现相位变量的同步,反向过程通过学习的分数函数进行去同步生成多样化模式。采用包裹高斯转移核和周期性感知网络处理圆形几何结构。
  • Result: 在通用图像基准上取得有竞争力的结果,在指纹和纹理等方向密集数据集上显著提高了生成质量。
  • Conclusion: 这项工作展示了生物启发的同步动力学作为生成模型中结构化先验的潜力,为处理具有复杂方向模式的图像提供了新思路。

[111] Global Pre-fixing, Local Adjusting: A Simple yet Effective Contrastive Strategy for Continual Learning

Jia Tang,Xinrui Wang,Songcan Chen

Main category: cs.LG

TL;DR: 本文提出了一种名为GPLASC的对比学习策略,通过全局预固定和局部调整来解决持续学习中的任务间和任务内特征混淆问题。

  • Motivation: 持续学习面临灾难性遗忘问题,现有基于对比损失的方法仍受任务间和任务内特征混淆的限制。
  • Method: 使用等角紧框架将表示空间划分为非重叠区域,为每个任务分配固定区域,同时在区域内形成可调整的特征结构。
  • Result: 实验验证了该方法的有效性,能够同时确保任务间和任务内的判别性特征结构。
  • Conclusion: GPLASC是一种简单有效的对比策略,可无缝集成到现有对比持续学习框架中。

[112] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

Zinan Lin,Enshu Liu,Xuefei Ning,Junyi Zhu,Wenyu Wang,Sergey Yekhanin

Main category: cs.LG

TL;DR: LZN提出统一框架解决生成建模、表示学习和分类三大机器学习任务,通过共享高斯潜空间实现任务协同,在多个基准测试中取得SOTA性能。

  • Motivation: 当前机器学习中生成建模、表示学习和分类三大核心任务的解决方案相互独立,缺乏统一原则。本文旨在探索能否用一个统一框架同时解决这三个问题,简化机器学习流程并促进任务间的协同效应。
  • Method: 提出Latent Zoning Network (LZN),构建共享高斯潜空间,为每种数据类型(如图像、文本、标签)配备编码器和解码器。机器学习任务通过编码器和解码器的组合实现:例如标签条件图像生成使用标签编码器和图像解码器,图像嵌入使用图像编码器,分类使用图像编码器和标签解码器。
  • Result: 1) 与SOTA Rectified Flow模型结合,在CIFAR10上将FID从2.76提升至2.59;2) 在无监督表示学习中,在ImageNet下游线性分类上分别超越MoCo和SimCLR方法9.3%和0.2%;3) 在CIFAR10上同时实现生成和分类任务,提升FID并达到SOTA分类精度。
  • Conclusion: LZN展示了统一框架解决多个机器学习任务的可行性,为简化机器学习流程和促进任务协同提供了有前景的方向。

[113] FedHK-MVFC: Federated Heat Kernel Multi-View Clustering

Kristina P. Sinaga

Main category: cs.LG

TL;DR: 提出了一种结合量子场论和联邦学习的多视图聚类框架,用于隐私保护的医疗数据分析,通过热核距离转换实现几何感知的相似性度量,在心血管患者数据集上显示出8-12%的准确率提升和70%的通信减少。

  • Motivation: 在分布式AI和隐私保护医疗应用的背景下,需要一种能够在保护患者隐私的同时,有效分析多样化医疗数据的多视图聚类方法,特别是要满足HIPAA合规的医院间协作需求。
  • Method: 使用谱分析中的热核系数将欧氏距离转换为几何感知的相似性度量,开发了两种算法:集中式热核增强多视图模糊聚类(HK-MVFC)和联邦热核多视图模糊聚类(FedHK-MVFC),后者采用差分隐私和安全聚合技术。
  • Result: 在心血管患者合成数据集上测试显示聚类准确率提升8-12%,通信量减少70%,效率保持98.2%。在两家医院的10,000份患者记录验证中,该方法在ECG、心脏成像和行为数据的协同表型分析中表现有效。
  • Conclusion: 该研究为医疗保健领域的几何感知联邦学习设立了新标准,将高级数学理论转化为可行的解决方案,在保证严谨性和临床相关性的同时分析敏感医疗数据。

[114] Efficient Long-Tail Learning in Latent Space by sampling Synthetic Data

Nakul Sharma

Main category: cs.LG

TL;DR: 提出了一种利用视觉基础模型生成合成数据,结合真实数据训练简单线性分类器来处理长尾分类问题的新框架,显著提高了计算效率并取得了最先进的性能。

  • Motivation: 解决不平衡分类数据集中模型偏向多数类的问题,同时克服现有方法计算资源消耗大且难以在平衡数据集上达到理想性能的局限性。
  • Method: 利用视觉基础模型的丰富语义潜在空间生成合成数据,然后使用真实数据和合成数据的混合训练一个简单的线性分类器,大幅减少可训练参数数量。
  • Result: 在CIFAR-100-LT基准测试中达到了新的最先进水平,在Places-LT基准测试中也表现出强大的性能。
  • Conclusion: 该方法证明了利用基础模型生成合成数据结合简单线性分类器的有效性,为长尾分类提供了一种计算效率高且性能优越的解决方案。

[115] From Data to Diagnosis: A Large, Comprehensive Bone Marrow Dataset and AI Methods for Childhood Leukemia Prediction

Henning Höfener,Farina Kock,Martina Pontones,Tabita Ghete,David Pfrang,Nicholas Dickel,Meik Kunz,Daniela P. Schacherer,David A. Clunie,Andrey Fedorov,Max Westphal,Markus Metzler

Main category: cs.LG

TL;DR: 本文提出了一个大型、高质量、公开可用的白血病骨髓数据集,覆盖从细胞检测到诊断的完整流程,并开发了相应的AI模型用于细胞检测、分类和诊断预测。

  • Motivation: 当前白血病诊断主要依赖人工显微镜分析,过程复杂耗时。现有AI解决方案大多使用私有数据集且仅覆盖部分诊断流程,因此需要开发覆盖完整诊断过程的公开数据集和方法。
  • Method: 构建了包含246名儿科患者的数据集,包含诊断、临床和实验室信息,超过40,000个带边界框标注的细胞,其中28,000多个有高质量类别标签。开发了细胞检测、细胞分类和诊断预测的AI方法。
  • Result: AI模型在细胞检测上获得0.96的平均精度,33类细胞分类的AUC为0.98、F1分数为0.61,使用预测细胞计数的诊断预测平均F1分数为0.90。
  • Conclusion: 提出的方法在AI辅助诊断中表现出有效性,该数据集将促进该领域的进一步研究和发展,最终有助于更精确的诊断和改善患者预后。

[116] MTS-DMAE: Dual-Masked Autoencoder for Unsupervised Multivariate Time Series Representation Learning

Yi Xu,Yitian Zhang,Yun Fu

Main category: cs.LG

TL;DR: 提出DMAE框架,通过双掩码自编码器进行无监督多元时间序列表示学习,结合重构和潜在表示估计任务,在分类、回归和预测任务中表现优异。

  • Motivation: 无监督多元时间序列表示学习需要从原始序列中提取紧凑且信息丰富的表示,而不依赖标签,以实现高效迁移到各种下游任务。
  • Method: DMAE框架包含两个互补的预训练任务:基于可见属性重构掩码值,以及通过教师编码器指导估计掩码特征的潜在表示。引入特征级对齐约束以提高表示质量。
  • Result: 在分类、回归和预测任务上的综合评估表明,该方法在竞争基线中实现了持续且优越的性能。
  • Conclusion: 通过联合优化这些目标,DMAE能够学习时间一致且语义丰富的表示,为无监督多元时间序列表示学习提供了有效解决方案。

[117] DiffusionNFT: Online Diffusion Reinforcement with Forward Process

Kaiwen Zheng,Huayu Chen,Haotian Ye,Haoxiang Wang,Qinsheng Zhang,Kai Jiang,Hang Su,Stefano Ermon,Jun Zhu,Ming-Yu Liu

Main category: cs.LG

TL;DR: DiffusionNFT是一种新的在线强化学习范式,通过流匹配直接在正向过程中优化扩散模型,解决了传统方法在扩散模型RL中的限制。

  • Motivation: 现有扩散模型的在线RL方法存在求解器限制、前向-反向不一致性以及与分类器自由引导复杂集成等问题,需要更高效的训练范式。
  • Method: 通过流匹配在正向过程中优化扩散模型,对比正负生成来定义隐式策略改进方向,将强化信号自然融入监督学习目标。
  • Result: DiffusionNFT比FlowGRPO效率提升25倍,在1k步内将GenEval分数从0.24提升到0.98,显著提升SD3.5-Medium在所有基准测试中的性能。
  • Conclusion: DiffusionNFT提供了一种高效、灵活的扩散模型RL训练方法,无需似然估计和采样轨迹,支持任意黑盒求解器,且与CFG无关。

[118] Dynamic Classifier-Free Diffusion Guidance via Online Feedback

Pinelopi Papalampidi,Olivia Wiles,Ira Ktena,Aleksandar Shtedritski,Emanuele Bugliarello,Ivana Kajic,Isabela Albuquerque,Aida Nematzadeh

Main category: cs.LG

TL;DR: 本文提出了一种动态CFG调度框架,通过在线反馈评估生成质量,为每个提示和样本定制独特的指导计划,显著提升文本对齐、视觉质量和文本渲染能力。

  • Motivation: 传统的静态指导尺度无法适应不同提示的多样化需求,现有解决方案存在复杂性和泛化能力不足的问题。
  • Method: 利用CLIP对齐、鉴别器保真度和人类偏好奖励模型等小规模潜在空间评估的在线反馈,在反向扩散过程的每个步骤进行贪婪搜索选择最优CFG尺度。
  • Result: 在Imagen 3等模型上实现了显著改进,相比基线获得高达53.8%的人类偏好胜率,在文本渲染等特定能力上达到55.5%的胜率。
  • Conclusion: 最优指导计划本质上是动态且依赖于提示的,本文提供了一个高效且可泛化的框架来实现这一目标。

cs.AI

[119] MICA: Multi-Agent Industrial Coordination Assistant

Di Wen,Kunyu Peng,Junwei Zheng,Yufan Chen,Yitain Shi,Jiale Wei,Ruiping Liu,Kailun Yang,Rainer Stiefelhagen

Main category: cs.AI

TL;DR: MICA是一个面向工业工作流程的多智能体协调助手系统,通过语音交互提供实时指导,具备感知能力和隐私保护特性,可在离线硬件上部署。

  • Motivation: 工业工作流程需要能够在有限计算能力、连接性和严格隐私约束下运行的适应性强的可信助手系统。
  • Method: MICA协调五个角色专门化的语言智能体,采用自适应步骤融合(ASF)技术动态融合专家推理和自然语音反馈的在线适应,确保准确合规的支持。
  • Result: 实验表明MICA在任务成功率、可靠性和响应性方面持续优于基线结构,同时保持在实际离线硬件上的可部署性。
  • Conclusion: MICA代表了向可部署、隐私保护的多智能体助手在动态工厂环境中迈出的重要一步,为工业辅助建立了新的多智能体协调基准和评估指标。

eess.IV

[120] Recent Advancements in Microscopy Image Enhancement using Deep Learning: A Survey

Debasish Dutta,Neeharika Sonowal,Risheraj Barauh,Deepjyoti Chetia,Sanjib Kr Kalita

Main category: eess.IV

TL;DR: 这篇调查论文综述了基于深度学习的显微镜图像增强技术,重点关注超分辨率、重建和去噪三个关键领域的现状、应用、挑战和未来方向。

  • Motivation: 显微镜图像增强在理解生物细胞和材料的微观细节中起着关键作用,近年来深度学习方法的快速发展推动了该领域的显著进步,需要对此进行系统性的总结和分析。
  • Method: 采用文献调查的方法,对显微镜图像增强领域的最新深度学习技术进行系统性回顾和分析,重点关注超分辨率、重建和去噪三个核心领域的发展趋势。
  • Result: 提供了显微镜图像增强领域深度学习方法的全面概述,包括各领域的技术演进、实际应用价值以及当前面临的挑战。
  • Conclusion: 深度学习在显微镜图像增强领域展现出巨大潜力,但仍需解决数据稀缺、模型泛化等挑战,未来发展方向包括更高效的网络架构和跨模态学习等。

[121] Analysis Plug-and-Play Methods for Imaging Inverse Problems

Edward P. Chandler,Shirin Shoushtari,Brendt Wohlberg,Ulugbek S. Kamilov

Main category: eess.IV

TL;DR: 本文提出了一种基于梯度域的Plug-and-Play Priors(PnP)分析方法,通过在梯度域而非图像域训练高斯去噪器,扩展了全变分正则化到学习的TV正则化。

  • Motivation: 传统的PnP方法直接在图像域应用去噪器作为隐式先验,本文考虑在图像的变换表示(如梯度)上施加先验,这可以看作是全变分正则化的学习扩展。
  • Method: 开发了两种基于半二次分裂(APnP-HQS)和交替方向乘子法(APnP-ADMM)的分析PnP算法,在梯度域训练高斯去噪器。
  • Result: 在图像去模糊和超分辨率任务上的评估表明,分析公式的性能与图像域PnP算法相当。
  • Conclusion: 梯度域PnP方法为图像重建提供了一种有效的替代方案,实现了与传统图像域方法相当的性能。

[122] Prostate Capsule Segmentation from Micro-Ultrasound Images using Adaptive Focal Loss

Kaniz Fatema,Vaibhav Thakur,Emad A. Mohammed

Main category: eess.IV

TL;DR: 该研究提出了一种自适应焦点损失函数,用于从微超声图像中分割前列腺包膜,解决了边界模糊和标注变异性的挑战。

  • Motivation: 现有方法在前列腺包膜边界模糊的情况下表现不佳,需要开发针对性的方法来处理这种模糊区域和标注变异性。
  • Method: 提出自适应焦点损失函数,动态调整硬区域和简单区域的权重,通过专家和非专家标注的差异来识别模糊区域,并整合标准焦点损失作为基础。
  • Result: 在测试数据集上实现了平均Dice系数0.940和平均Hausdorff距离1.949mm的优异性能。
  • Conclusion: 自适应焦点损失函数显著提高了前列腺包膜分割的准确性,有望改善前列腺癌诊断和治疗规划中的临床决策。

[123] Uncertainty-Gated Deformable Network for Breast Tumor Segmentation in MR Images

Yue Zhang,Jiahua Dong,Chengtao Peng,Qiuli Wang,Dan Song,Guiduo Duan

Main category: eess.IV

TL;DR: 提出了一种不确定性门控可变形网络,用于乳腺癌MRI图像中不规则肿瘤的精确分割,通过结合CNN和Transformer的互补信息,并引入自适应感受野和边界敏感监督损失,在临床数据集上取得了优于现有方法的分割性能。

  • Motivation: 现有方法在捕捉不规则肿瘤形状和有效整合局部与全局特征方面存在挑战,这限制了乳腺癌MRI图像分割的准确性。
  • Method: 设计了不确定性门控可变形网络,在卷积和注意力模块中引入可变形特征建模实现自适应感受野,开发了基于像素级不确定性的U-GEM模块来选择性地交换CNN和Transformer的互补特征,并提出了边界敏感的深度监督损失。
  • Result: 在两个临床乳腺癌MRI数据集上的综合实验表明,该方法相比最先进方法取得了更优的分割性能。
  • Conclusion: 该方法在准确描绘乳腺肿瘤边界方面显示出临床潜力,为乳腺癌诊断提供了有效的分割工具。

[124] DPC-QA Net: A No-Reference Dual-Stream Perceptual and Cellular Quality Assessment Network for Histopathology Images

Qijun Yang,Boyang Wang,Hujun Yin

Main category: eess.IV

TL;DR: DPC-QA Net是一个无参考双流网络,通过小波全局差异感知和细胞质量评估来检测全玻片成像中的质量问题,在多个数据集上达到>92%的准确率。

  • Motivation: 全玻片成像的质量可靠性至关重要,但染色伪影、失焦和细胞退化等问题普遍存在,需要有效的质量评估方法。
  • Method: 提出DPC-QA Net双流网络,结合小波全局差异感知和基于核膜嵌入的细胞质量评估,使用Aggr-RWKV模块、交叉注意力融合和多术语损失函数。
  • Result: 在多个数据集上检测染色、膜和核问题的准确率超过92%,在LIVEC和KonIQ数据集上优于现有NR-IQA方法,预测质量与细胞识别准确率呈强正相关。
  • Conclusion: 该模型能够有效预筛选WSI区域用于计算病理学,具有实际应用价值。

[125] QWD-GAN: Quality-aware Wavelet-driven GAN for Unsupervised Medical Microscopy Images Denoising

Qijun Yang,Yating Huang,Lintao Xiang,Hujun Yin

Main category: eess.IV

TL;DR: 提出了一种基于生成对抗网络的无监督图像去噪方法QWD-GAN,专门针对生物医学显微镜图像,通过小波变换和多尺度自适应生成器以及双分支判别器来提升去噪性能。

  • Motivation: 生物医学显微镜图像去噪面临采集条件限制、复杂噪声类型、算法适应性和临床应用需求等多重挑战,现有深度学习方法在图像细节保留、算法效率和临床可解释性方面仍需改进。
  • Method: 采用GAN架构,引入基于小波变换的多尺度自适应生成器和集成差异感知特征图与原始特征的双分支判别器。
  • Result: 在多个生物医学显微镜图像数据集上的实验结果表明,该模型实现了最先进的去噪性能,特别是在高频信息保留方面表现出色。
  • Conclusion: QWD-GAN模型在生物医学图像去噪中具有优异性能,其双分支判别器可与各种GAN框架无缝兼容。

[126] The Missing Piece: A Case for Pre-Training in 3D Medical Object Detection

Katharina Eckstein,Constantin Ulrich,Michael Baumgartner,Jessica Kächele,Dimitrios Bounias,Tassilo Wald,Ralf Floca,Klaus H. Maier-Hein

Main category: eess.IV

TL;DR: 本文首次系统研究了预训练方法在3D医学目标检测中的应用,发现重建式自监督预训练优于监督预训练,而对比学习预训练对3D医学目标检测无明显益处。

  • Motivation: 3D医学目标检测在计算机辅助诊断中至关重要,但与分割任务相比,预训练在该领域的应用尚未充分探索。现有方法主要依赖2D医学数据或自然图像预训练,未能充分利用3D体积信息。
  • Method: 系统研究现有预训练方法如何集成到最先进的检测架构中,涵盖CNN和Transformer模型,比较监督预训练、重建式自监督预训练和对比学习预训练的效果。
  • Result: 预训练在各种任务和数据集上一致提高检测性能,重建式自监督预训练表现最佳,对比学习预训练无明显优势。
  • Conclusion: 重建式自监督预训练是3D医学目标检测的有效方法,为未来研究提供了重要基准和方向。

[127] SLaM-DiMM: Shared Latent Modeling for Diffusion Based Missing Modality Synthesis in MRI

Bhavesh Sandbhor,Bheeshm Sharma,Balamurugan Palaniappan

Main category: eess.IV

TL;DR: SLaM-DiMM是一个基于扩散模型的缺失MRI模态生成框架,能够从其他可用模态合成四种目标MRI模态中的任意一种,确保结构一致性。

  • Motivation: 临床实践中,由于各种原因并非所有MRI模态都可用,这使得缺失模态生成成为医学图像分析中的关键挑战。
  • Method: 提出SLaM-DiMM框架,利用扩散模型从可用模态合成目标MRI模态,并通过专门的相干性增强机制确保体积深度的结构一致性。
  • Result: 在BraTS-Lighthouse-2025挑战数据集上的定性和定量评估表明,该方法能够合成解剖学上合理且结构一致的结果。
  • Conclusion: SLaM-DiMM框架能够有效解决MRI模态缺失问题,生成高质量且结构一致的医学图像。

[128] FMD-TransUNet: Abdominal Multi-Organ Segmentation Based on Frequency Domain Multi-Axis Representation Learning and Dual Attention Mechanisms

Fang Lu,Jingyu Xu,Qinxiu Sun,Qiong Lou

Main category: eess.IV

TL;DR: 提出FMD-TransUNet框架,通过集成多轴频率域特征提取和改进的双注意力机制,提升腹部多器官分割精度

  • Motivation: 现有深度学习方法在分割小、不规则或解剖结构复杂的器官时存在困难,且大多只关注空间域分析,忽略了频域表示的协同潜力
  • Method: 在TransUNet框架中集成多轴外部权重块(MEWB)提取多轴频域特征,以及改进的双注意力模块(DA+)增强特征融合,减少冗余信息
  • Result: 在Synapse数据集上,FMD-TransUNet平均DSC达到81.32%,HD为16.35mm,相比基线模型DSC提高3.84%,HD降低15.34mm
  • Conclusion: FMD-TransUNet能有效提高腹部多器官分割的准确性,证明了频域和空间域特征融合的有效性

[129] PRISM: Probabilistic and Robust Inverse Solver with Measurement-Conditioned Diffusion Prior for Blind Inverse Problems

Yuanyun Hu,Evan Bell,Guijin Wang,Yu Sun

Main category: eess.IV

TL;DR: 提出PRISM方法解决盲逆问题,将测量条件扩散模型融入理论严谨的后验采样方案,在盲图像去模糊任务中优于现有方法

  • Motivation: 当前大多数基于扩散模型的逆问题求解器需要完全了解前向算子,无法有效处理盲逆问题
  • Method: 开发了测量条件扩散先验的概率鲁棒逆求解器(PRISM),将强大的测量条件扩散模型融入理论严谨的后验采样框架
  • Result: 在盲图像去模糊实验中,PRISM在图像和模糊核恢复方面均优于最先进的基线方法
  • Conclusion: PRISM为盲逆问题提供了一种有效的解决方案,通过测量条件扩散先验实现了技术上的进步

cs.MM

[130] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

Xueqiao Zhang,Chao Zhang,Jingtao Xu,Yifan Zhu,Xin Shi,Yi Yang,Yawei Luo

Main category: cs.MM

TL;DR: 本文提出了动态角色档案的概念,通过将视频模态融入角色扮演代理(RPAs)来弥补现有方法只关注静态角色档案的不足。

  • Motivation: 现有角色扮演代理方法主要关注静态角色档案,忽视了人类固有的动态感知能力,需要开发能够模拟动态感知的角色扮演系统。
  • Method: 构建了包含6万视频和70万对话的大规模数据集Role-playing-Video60k,开发了结合自适应时间采样与动态静态角色档案表示的RPA框架,动态档案通过自适应采样视频帧按时间顺序输入LLM,静态档案包含训练视频中的角色对话和推理时输入视频的摘要上下文。
  • Result: 实验结果表明该框架有效,证明了动态角色档案在开发RPA中的重要性,提出的八项指标评估方法也验证了系统性能。
  • Conclusion: 动态角色档案的引入显著提升了角色扮演代理的响应质量,为开发更沉浸式和交互性角色模拟系统提供了重要方向。

cs.GR

[131] MoAngelo: Motion-Aware Neural Surface Reconstruction for Dynamic Scenes

Mohamed Ebbed,Zorah Lähner

Main category: cs.GR

TL;DR: 提出了一种基于NeuralAngelo的动态场景重建框架,通过联合优化变形场和模板更新,实现高精度的动态表面重建

  • Motivation: 现有动态重建方法主要关注新视角合成,提取的网格往往噪声较大;而追求几何保真度的方法则因问题的不适定性导致网格过于平滑
  • Method: 从初始帧使用NeuralAngelo构建高质量模板场景重建,然后联合优化变形场来跟踪模板并根据时间序列进行细化,灵活模板允许更新几何以包含变形场无法建模的变化
  • Result: 在ActorsHQ数据集上展示了优于现有最先进方法的重建精度
  • Conclusion: 该方法成功将静态3D重建方法扩展到动态场景,解决了动态重建中的计算和表示挑战

q-bio.NC

[132] Incorporating Visual Cortical Lateral Connection Properties into CNN: Recurrent Activation and Excitatory-Inhibitory Separation

Jin Hyun Park,Cheng Zhang,Yoonsuck Choe

Main category: q-bio.NC

TL;DR: 该论文提出在标准CNN框架中引入生物视觉系统中的侧向连接机制,包括循环激活和兴奋/抑制连接分离,以提高分类精度并使模型更接近生物视觉系统。

  • Motivation: 当前CNN模型缺少生物视觉系统中存在的侧向连接(同一视觉皮层区域内的连接),这限制了模型与生物视觉系统的对齐。
  • Method: 在标准CNN中建模侧向连接:1)使用权重共享的循环CNN实现循环激活;2)通过自定义损失函数分离兴奋性和抑制性权重。
  • Result: 添加侧向连接后提高了分类准确率,且模型激活特性和连接特性显示出与生物视觉系统相似的特性。
  • Conclusion: 该方法有助于使CNN更接近其生物对应物,并更好地理解视觉皮层计算原理。

cs.RO

[133] CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine

Shiyu Fang,Yiming Cui,Haoyang Liang,Chen Lv,Peng Hang,Jian Sun

Main category: cs.RO

TL;DR: CoReVLA是一个持续学习的端到端自动驾驶框架,通过双阶段数据收集和行为优化来提升长尾安全关键场景的性能,在Bench2Drive基准测试中显著优于现有方法。

  • Motivation: 自动驾驶系统在长尾安全关键场景中的表现仍然有限,这些罕见情况导致了不成比例的事故数量。视觉语言动作模型具有强大的推理能力,但缺乏高质量数据和在这些条件下的低效学习限制了其有效性。
  • Method: 提出CoReVLA框架:1)在开源驾驶QA数据集上联合微调获得基础理解;2)在CAVE仿真平台中收集驾驶员接管数据;3)通过直接偏好优化从人类偏好中学习,避免手动设计奖励导致的奖励黑客问题。
  • Result: 在Bench2Drive基准测试中,CoReVLA获得72.18的驾驶评分和50%的成功率,在长尾安全关键场景下分别比最先进方法高出7.96分和15%。案例研究表明模型能够利用过去的接管经验持续改进类似易失败场景的性能。
  • Conclusion: CoReVLA通过持续学习框架有效解决了自动驾驶在长尾安全关键场景中的性能瓶颈,展示了从人类偏好中学习的有效性,为自动驾驶系统的安全性和可靠性提供了有前景的解决方案。