Skip to content
每日arXiv - 2025年8月15日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Stochastic-based Patch Filtering for Few-Shot Learning

Javier Rodenas,Eduardo Aguilar,Petia Radeva

Main category: cs.CV

TL;DR: 提出了一种基于随机性补丁过滤的少样本学习方法(SPFF),用于解决食物图像因视觉复杂性和多样性导致的分类问题,通过过滤与类别无关的补丁嵌入,显著提升了分类性能。

  • Motivation: 食物图像的视觉复杂性和多样性(如不同装饰、光照和视角)导致少样本学习模型容易忽略关键特征,从而产生误分类。
  • Method: 提出SPFF方法,通过随机过滤与类别表示相关性较低的补丁嵌入,并利用相似性矩阵量化查询图像与支持图像的关系。
  • Result: 在Food-101、VireoFood-172和UECFood-256等基准测试中,SPFF表现优于现有方法。
  • Conclusion: SPFF能有效聚焦于类别相关的食物特征,过滤无关补丁,显著提升少样本分类性能。

[2] DINOv3

Oriane Siméoni,Huy V. Vo,Maximilian Seitzer,Federico Baldassarre,Maxime Oquab,Cijo Jose,Vasil Khalidov,Marc Szafraniec,Seungeun Yi,Michaël Ramamonjisoa,Francisco Massa,Daniel Haziza,Luca Wehrstedt,Jianyuan Wang,Timothée Darcet,Théo Moutakanni,Leonel Sentana,Claire Roberts,Andrea Vedaldi,Jamie Tolan,John Brandt,Camille Couprie,Julien Mairal,Hervé Jégou,Patrick Labatut,Piotr Bojanowski

Main category: cs.CV

TL;DR: DINOv3是一种自监督学习模型,通过数据扩展和Gram anchoring方法提升性能,无需微调即可超越现有技术。

  • Motivation: 消除手动数据标注需求,实现从多样化数据源学习通用视觉表示。
  • Method: 结合数据扩展、模型优化和Gram anchoring方法,解决密集特征图退化问题。
  • Result: DINOv3在多种视觉任务中表现优异,超越现有自监督和弱监督模型。
  • Conclusion: DINOv3为视觉任务提供了灵活、可扩展的解决方案,推动自监督学习发展。

[3] Empowering Morphing Attack Detection using Interpretable Image-Text Foundation Model

Sushrut Patwardhan,Raghavendra Ramachandra,Sushma Venkatesh

Main category: cs.CV

TL;DR: 本文提出了一种多模态学习方法,用于生成变形攻击检测的文本描述,并通过零样本评估验证其有效性。

  • Motivation: 变形攻击检测是人脸识别系统中确保可靠验证的关键部分,本文旨在通过多模态学习提供更直观的文本描述。
  • Method: 采用对比语言-图像预训练(CLIP)进行零样本评估,设计了十种文本提示,并结合SOTA预训练神经网络进行实验。
  • Result: 实验表明,该方法不仅能实现通用的变形攻击检测,还能预测最相关的文本片段。
  • Conclusion: 该方法在多种变形生成技术和媒介中表现出色,为变形攻击检测提供了新的解决方案。

[4] Interpretable Oracle Bone Script Decipherment through Radical and Pictographic Analysis with LVLMs

Kaixin Peng,Mengyang Zhao,Haiyang Yu,Teng Fu,Bin Li

Main category: cs.CV

TL;DR: 提出了一种基于大型视觉语言模型的可解释甲骨文破译方法,结合部首分析和象形语义理解,显著提升了零样本破译能力。

  • Motivation: 甲骨文因其稀有性、抽象性和象形多样性,破译难度大,现有深度学习方法忽视了字形与语义的复杂联系,导致泛化性和可解释性不足。
  • Method: 采用渐进式训练策略,从部首识别到象形分析,设计了部首-象形双重匹配机制,并构建了包含47,157个汉字的象形破译数据集。
  • Result: 在公开基准测试中达到Top-10准确率,零样本破译能力突出,并提供逻辑分析过程。
  • Conclusion: 该方法为未破译甲骨文提供了考古学参考,具有数字人文和历史研究的应用潜力。

[5] Deep Learning Enables Large-Scale Shape and Appearance Modeling in Total-Body DXA Imaging

Arianna Bunnell,Devon Cataldi,Yannik Glaser,Thomas K. Wolfgruber,Steven Heymsfield,Alan B. Zonderman,Thomas L. Kelly,Peter Sadowski,John A. Shepherd

Main category: cs.CV

TL;DR: 开发了一种基于深度学习的自动标记方法,用于TBDXA扫描,准确率达99.5%,并用于健康标记关联分析。

  • Motivation: TBDXA扫描是一种低成本全身成像技术,但手动标记费时费力,需要自动化解决方案。
  • Method: 使用1,683份手动标注的TBDXA扫描训练深度学习模型,并在外部测试集上验证。
  • Result: 模型在外部测试集上达到99.5%的关键点正确率,并用于分析35,928份扫描的健康标记关联。
  • Conclusion: 该方法不仅验证了现有健康标记关联,还提出了新的假设,代码和模型已开源。

[6] MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning

Thanh-Dat Truong,Christophe Bobda,Nitin Agarwal,Khoa Luu

Main category: cs.CV

TL;DR: 提出了一种新的多模态注意力归一化流方法(MANGO),通过可逆交叉注意力层(ICA)和三种新的交叉注意力机制,显式地学习多模态数据的相关性,提升了性能。

  • Motivation: 当前多模态融合方法通过Transformer的注意力机制隐式学习特征相关性,难以捕捉模态本质特征和复杂结构。
  • Method: 提出可逆交叉注意力层(ICA)和三种新机制(MMCA、IMCA、LICA),构建归一化流模型。
  • Result: 在语义分割、图像到图像翻译和电影类型分类任务上达到SOTA性能。
  • Conclusion: MANGO方法显式、可解释且高效,适用于高维多模态数据。

[7] Improving watermelon (Citrullus lanatus) disease classification with generative artificial intelligence (GenAI)-based synthetic and real-field images via a custom EfficientNetV2-L model

Nitin Rai,Nathan S. Boyd,Gary E. Vallad,Arnold W. Schumann

Main category: cs.CV

TL;DR: 研究探讨了结合少量真实图像与合成图像是否能提升西瓜病害分类模型的性能,发现混合使用显著提高了模型表现。

  • Motivation: 评估生成式AI模型在农业病害诊断中结合真实与合成图像的效果,以减少对资源密集型实地数据收集的依赖。
  • Method: 使用五种不同比例的真实与合成图像训练EfficientNetV2-L模型,并评估其分类性能。
  • Result: 混合真实与合成图像的训练显著提升了模型的精确度、召回率和F1分数,加权F1分数从0.65提升至1.00。
  • Conclusion: 合成图像无法完全替代真实图像,混合使用能最大化模型性能。

[8] SynSpill: Improved Industrial Spill Detection With Synthetic Data

Aaditya Baranwal,Abdul Mueez,Jason Voelker,Guneet Bhatia,Shruti Vyas

Main category: cs.CV

TL;DR: 论文提出了一种基于合成数据的框架,用于提升视觉语言模型(VLMs)在工业泄漏检测等安全关键领域的性能,弥补了真实数据稀缺的问题。

  • Motivation: 由于隐私、数据敏感性和事件罕见性,真实数据稀缺,传统微调方法在工业场景中不可行。
  • Method: 通过高质量合成数据生成管道,结合参数高效微调(PEFT)方法,提升VLM和目标检测器的性能。
  • Result: 合成数据显著提升了VLM和检测器的性能,使其在未见泄漏场景中表现接近。
  • Conclusion: 高保真合成数据是解决安全关键领域数据稀缺问题的有效途径,结合轻量级适配方法,为工业环境提供了一种经济高效的解决方案。

[9] EntropyGS: An Efficient Entropy Coding on 3D Gaussian Splatting

Yuning Huang,Jiahao Pang,Fengqing Zhu,Dong Tian

Main category: cs.CV

TL;DR: 3D高斯泼溅(3DGS)是一种新兴的视图合成方法,具有快速训练/渲染和高质量视觉效果的优点。本文提出了一种名为EntropyGS的因子化和参数化熵编码方法,用于压缩3DGS高斯属性,实现了约30倍的码率降低,同时保持相似的渲染质量。

  • Motivation: 3DGS的高斯创建和视图渲染通常在不同时间或设备上进行,因此需要存储/传输和压缩高斯属性。本文通过分析高斯属性的相关性和统计特性,发现其符合特定分布规律,从而提出了一种高效的压缩方法。
  • Method: 通过分析3DGS高斯属性的相关性和统计特性,发现球谐AC属性符合拉普拉斯分布,而旋转、缩放和不透明度可以用高斯混合模型近似。基于此,提出了一种因子化和参数化的熵编码方法EntropyGS,自适应地对高斯属性进行量化和编码。
  • Result: EntropyGS在基准数据集上实现了约30倍的码率降低,同时保持相似的渲染质量,且编码和解码速度快。
  • Conclusion: 本文提出的EntropyGS方法有效地压缩了3DGS高斯属性,显著降低了存储和传输成本,同时保持了高质量的渲染效果。

[10] CellSymphony: Deciphering the molecular and phenotypic orchestration of cells with single-cell pathomics

Paul H. Acosta,Pingjun Chen,Simon P. Castillo,Maria Esther Salvatierra,Yinyin Yuan,Xiaoxi Pan

Main category: cs.CV

TL;DR: CellSymphony是一个多模态框架,整合Xenium空间转录组学和病理图像数据,实现单细胞分辨率下的细胞类型注释和微环境分析。

  • Motivation: 解决从病理图像中提取细胞级特征并与空间转录组数据整合的挑战。
  • Method: 利用基础模型嵌入,融合空间基因表达和形态学信息,学习联合表征。
  • Result: 在三种癌症类型中实现准确的细胞类型注释并揭示微环境差异。
  • Conclusion: 展示了基础模型和多模态融合在解析复杂组织生态系统中的潜力。

[11] Deep Learning for Crack Detection: A Review of Learning Paradigms, Generalizability, and Datasets

Xinan Zhang,Haolin Wang,Yung-An Hsieh,Zhongyu Yang,Anthony Yezzi,Yi-Chang Tsai

Main category: cs.CV

TL;DR: 本文综述了基于深度学习的裂缝检测领域的新趋势,包括学习范式的转变、泛化能力的提升和数据采集的多样化,并介绍了新的3DCrack数据集和基准测试。

  • Motivation: 裂缝检测对基础设施至关重要,深度学习推动了该领域的发展,但新兴趋势需要系统分析。
  • Method: 系统分析了学习范式、泛化能力和数据采集的多样化趋势,并引入3DCrack数据集进行基准测试。
  • Result: 总结了代表性工作,并通过实验为常用深度学习方法建立了基线。
  • Conclusion: 研究为裂缝检测领域的方法论演变和未来方向提供了见解。

[12] MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs

Haonan Ge,Yiwei Wang,Ming-Hsuan Yang,Yujun Cai

Main category: cs.CV

TL;DR: MRFD是一种无需训练的解码方法,通过建模区域间一致性减少视觉语言模型的幻觉问题。

  • Motivation: 大型视觉语言模型在多模态任务中表现优异,但常因无法验证图像不同区域信息而产生幻觉文本。
  • Method: 提出MRFD方法,利用交叉注意力识别显著区域,生成初始响应,基于Jensen-Shannon散度计算可靠性权重,并通过区域感知提示进行一致性融合。
  • Result: 实验表明,MRFD显著减少幻觉并提高事实性,且无需模型更新。
  • Conclusion: MRFD是一种有效的训练无关方法,可提升视觉语言模型的可靠性。

[13] Pose-Robust Calibration Strategy for Point-of-Gaze Estimation on Mobile Phones

Yujie Zhao,Jiabei Zeng,Shiguang Shan

Main category: cs.CV

TL;DR: 论文研究了如何通过动态校准策略提高基于外观的视线估计(PoG)对头部姿态变化的鲁棒性,并提出了MobilePoG基准数据集。

  • Motivation: 现有PoG估计器因个体差异需个性化校准,但对头部姿态变化敏感,需改进校准策略。
  • Method: 构建MobilePoG数据集,分析校准点和头部姿态多样性对估计精度的影响,提出动态校准策略。
  • Result: 实验表明,校准时引入更多头部姿态变化可提升估计器对姿态变化的适应性。
  • Conclusion: 动态校准策略在用户友好且高效的过程中显著提升了PoG估计器的鲁棒性。

[14] High Fidelity Text to Image Generation with Contrastive Alignment and Structural Guidance

Danyi Gao

Main category: cs.CV

TL;DR: 提出了一种结合文本-图像对比约束与结构引导机制的高保真图像生成方法,解决了现有方法在语义对齐和结构一致性上的瓶颈。

  • Motivation: 现有文本驱动图像生成方法在语义对齐精度和结构一致性上存在性能瓶颈,需改进。
  • Method: 集成文本-图像对比约束与结构引导机制,引入对比学习模块和结构先验(如语义布局图或边缘草图),联合优化对比损失、结构一致性损失和语义保留损失。
  • Result: 在COCO-2014数据集上验证,CLIP Score、FID和SSIM指标表现优异,显著提升语义对齐与结构保真度。
  • Conclusion: 该方法在不增加计算复杂度的情况下,有效平衡语义对齐与结构保真,为联合文本-图像建模和图像生成提供了可行技术路径。

[15] VIFSS: View-Invariant and Figure Skating-Specific Pose Representation Learning for Temporal Action Segmentation

Ryota Tanaka,Tomohiro Suzuki,Keisuke Fujii

Main category: cs.CV

TL;DR: 提出了一种新的TAS框架,结合三维特性和语义程序,用于花样滑冰跳跃动作识别,并引入新的数据集和注释方案。

  • Motivation: 花样滑冰跳跃动作识别需要专家知识,现有TAS方法数据不足且忽略三维特性和程序结构。
  • Method: 提出VIFSS方法,结合对比学习和动作分类,构建FS-Jump3D数据集,并设计细粒度注释方案。
  • Result: 在元素级TAS上达到92% F1@50,且在数据有限时表现优异。
  • Conclusion: 新框架有效解决了现有问题,尤其在数据有限时实用性显著。

[16] JRDB-Reasoning: A Difficulty-Graded Benchmark for Visual Reasoning in Robotics

Simindokht Jahangard,Mehrzad Mohammadi,Yi Shen,Zhixi Cai,Hamid Rezatofighi

Main category: cs.CV

TL;DR: 该论文提出了一个自适应查询引擎和新基准JRDB-Reasoning,用于解决现有视觉推理基准的局限性,支持复杂度和任务定制化的评估。

  • Motivation: 现有视觉推理基准缺乏对复杂度的明确定义、任务定制化和结构化推理标注,限制了视觉推理能力的研究。
  • Method: 通过形式化推理复杂度,开发自适应查询引擎生成可定制问题,并扩展JRDB数据集以创建JRDB-Reasoning基准。
  • Result: 新引擎和基准支持对视觉推理框架的细粒度评估,并动态评估视觉语言模型在不同推理层级的表现。
  • Conclusion: 该工作填补了视觉推理基准的空白,为视觉推理研究提供了更全面的评估工具。

[17] A Sub-Pixel Multimodal Optical Remote Sensing Images Matching Method

Tao Huang,Hongbo Pan,Nanxi Zhou,Shun Zhou

Main category: cs.CV

TL;DR: 提出了一种基于相位一致性加权最小绝对偏差(PCWLAD)的亚像素模板匹配方法,用于提高多模态光学图像的匹配精度。

  • Motivation: 多模态光学图像匹配精度受非线性辐射和几何变形差异影响,需改进匹配方法。
  • Method: 分两步:粗匹配使用结构相似性指数(SSIM),细匹配使用WLAD,并结合辐射和几何变换模型及互结构滤波。
  • Result: 在三种数据集上表现优于现有八种方法,平均匹配精度约0.4像素。
  • Conclusion: PCWLAD方法在多模态图像匹配中具有高精度和鲁棒性。

[18] InterSyn: Interleaved Learning for Dynamic Motion Synthesis in the Wild

Yiyi Ma,Yuanzhi Liang,Xiu Li,Chi Zhang,Xuelong Li

Main category: cs.CV

TL;DR: InterSyn提出了一种新的交互运动合成框架,通过联合学习单人及多人动态,生成更真实的交互运动。

  • Motivation: 现有方法通常将单人及多人动态分开处理,而InterSyn旨在通过交错学习策略捕捉真实场景中的自然交互与协调。
  • Method: 框架包含两个模块:INS(交错交互合成)模块联合建模单人及交互行为,REC(相对协调细化)模块优化角色间的动态同步。
  • Result: 实验表明,InterSyn生成的运动序列在文本到运动对齐和多样性上优于现有方法。
  • Conclusion: InterSyn为自然运动合成设定了新基准,未来将开源代码以推动进一步研究。

[19] From Pixel to Mask: A Survey of Out-of-Distribution Segmentation

Wenjie Zhao,Jia Li,Yunhui Guo

Main category: cs.CV

TL;DR: 该论文综述了OoD(分布外)检测与分割的进展,重点讨论了OoD分割在自动驾驶等安全关键应用中的重要性,并分类总结了当前方法。

  • Motivation: 随着AI安全问题的关注增加,OoD检测和分割的需求日益突出。传统OoD检测方法缺乏空间定位能力,限制了其在下游任务中的应用。OoD分割通过像素级定位异常对象,为自动驾驶等场景提供了更精确的解决方案。
  • Method: 论文将当前OoD分割方法分为四类:测试时OoD分割、基于异常暴露的监督训练、重构方法和利用强大模型的方法,并系统回顾了自动驾驶场景中的最新进展。
  • Result: 综述了OoD分割的现状,总结了各类方法的优缺点,并指出了自动驾驶场景中的挑战。
  • Conclusion: OoD分割在安全关键应用中具有重要价值,未来研究应关注解决现有挑战并探索新方向。

[20] Integrating Reinforcement Learning with Visual Generative Models: Foundations and Advances

Yuanzhi Liang,Yijie Fang,Rui Li,Ziqi Ni,Ruijie Su,Chi Zhang,Xuelong Li

Main category: cs.CV

TL;DR: 本文综述了强化学习(RL)在视觉内容生成中的应用,探讨了RL如何优化生成模型的非可微目标,并提升生成内容的可控性、一致性和人类对齐性。

  • Motivation: 生成模型通常使用替代目标(如似然或重建损失)训练,但这些目标与感知质量、语义准确性或物理真实性不一致。RL提供了一个优化这些非可微目标的框架。
  • Method: 本文系统回顾了RL在图像、视频和3D/4D生成中的应用,探讨了RL从经典控制到通用优化工具的演变及其在生成任务中的整合。
  • Result: RL在生成任务中不仅作为微调机制,还作为结构组件,用于对齐复杂的高层目标。
  • Conclusion: 文章总结了RL与生成模型交叉领域的开放挑战和未来研究方向。

[21] Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models

Andrew Bai,Justin Cui,Ruochen Wang,Cho-Jui Hsieh

Main category: cs.CV

TL;DR: 论文提出了一种针对视觉语言指令调优的数据选择方法,通过匹配基准测试中的概念或技能优化性能,实验验证了其有效性。

  • Motivation: 发现视觉语言基准测试在训练时主要受益于相似技能或概念,因此设计了一种针对性的数据选择方法以优化性能。
  • Method: 提取基准测试中的概念/技能,确定其受益类型(概念或技能),然后选择匹配度最高的指令进行训练。
  • Result: 在10多个基准测试中验证,平均性能提升0.9%,技能聚焦子集提升1.5%。
  • Conclusion: 研究强调了在指令选择中平衡概念知识与视觉技能的重要性。

[22] Glo-DMU: A Deep Morphometry Framework of Ultrastructural Characterization in Glomerular Electron Microscopic Images

Zhentai Zhang,Danyi Weng,Guibin Zhang,Xiang Chen,Kaixing Long,Jian Geng,Yanmeng Lu,Lei Zhang,Zhitao Zhou,Lei Cao

Main category: cs.CV

TL;DR: Glo-DMU框架通过三个深度学习模型自动量化肾小球超微结构特征,提升肾脏疾病诊断效率。

  • Motivation: 当前研究多关注单一超微结构识别,难以满足实际诊断需求,需开发同时量化多特征的自动化工具。
  • Method: 基于三个深度学习模型:超微结构分割、肾小球滤过屏障区域分类和电子致密沉积物检测模型。
  • Result: 在115名患者中验证,自动量化结果与病理报告形态描述一致,具有高精度和高通量。
  • Conclusion: Glo-DMU为肾病理学家提供了高效工具,实现了多特征同时量化。

[23] Improving OCR for Historical Texts of Multiple Languages

Hylke Westerdijk,Ben Blankenborg,Khondoker Ittehadul Islam

Main category: cs.CV

TL;DR: 本文介绍了在OCR和文档布局分析中使用深度学习技术的三个任务的方法和结果,包括历史希伯来文本、16至18世纪会议决议和现代英文手写识别。

  • Motivation: 解决历史文献和现代手写文本的识别问题,提升OCR技术的准确性和适用性。
  • Method: 1. 历史希伯来文本:数据增强+Kraken和TrOCR模型;2. 会议决议:CRNN+DeepLabV3+和双向LSTM+伪标签;3. 现代手写:CRNN+ResNet34+CTC损失。
  • Result: 改进了字符识别和模型性能,提供了有效的解决方案。
  • Conclusion: 研究为OCR领域提供了有价值的见解,并指出了未来研究方向。

[24] AtomDiffuser: Time-Aware Degradation Modeling for Drift and Beam Damage in STEM Imaging

Hao Wang,Hongkui Zheng,Kai He,Abolfazl Razi

Main category: cs.CV

TL;DR: AtomDiffuser是一个时间感知的降解建模框架,用于分离STEM数据中的样本漂移和辐射衰减,通过预测仿射变换和空间衰减图来解析材料动态。

  • Motivation: 现有方法难以明确分离STEM数据中的空间漂移和辐射损伤导致的信号损失,这些因素复杂且时间相关,影响了原子分辨率下的材料动态建模。
  • Method: 提出AtomDiffuser框架,通过预测仿射变换和空间衰减图来解耦样本漂移和辐射衰减,利用合成降解过程训练模型,并推广到真实数据。
  • Result: AtomDiffuser在真实世界的低温STEM数据中表现良好,支持高分辨率降解推断和漂移对齐,可视化并量化与辐射诱导的原子不稳定性相关的降解模式。
  • Conclusion: AtomDiffuser提供了一种物理启发、时间条件化的降解建模方法,能够解析原子分辨率的材料动态,为STEM数据分析提供了新工具。

[25] Contrast Sensitivity Function of Multimodal Vision-Language Models

Pablo Hernández-Cámara,Alexandra Gomez-Villa,Jose Manuel Jaén-Lorites,Jorge Vila-Tomás,Jesus Malo,Valero Laparra

Main category: cs.CV

TL;DR: 提出了一种新方法,通过直接提示多模态视觉语言模型(VLMs)判断不同频率和对比度下的模式可见性,评估其与人类感知的对齐程度。

  • Motivation: 评估VLMs与人类感知的对齐性,理解其对低层次视觉特征的感知方式。
  • Method: 使用带通滤波噪声图像和多样化提示,直接提示VLMs判断模式可见性,模拟心理物理学实验。
  • Result: 部分模型近似人类对比敏感度函数(CSF)的形状或幅度,但无一完全复制两者;提示措辞对响应影响显著。
  • Conclusion: 为探测多模态模型的视觉敏感性提供了新框架,揭示了其视觉表征与人类感知之间的关键差距。

[26] Towards Spatially Consistent Image Generation: On Incorporating Intrinsic Scene Properties into Diffusion Models

Hyundo Lee,Suhyung Choi,Byoung-Tak Zhang,Inwoo Hwang

Main category: cs.CV

TL;DR: 本文提出了一种利用场景固有属性(如深度、分割图)共同生成图像及其对应属性的方法,以解决现有图像生成模型在空间一致性和布局上的不足。

  • Motivation: 现有图像生成模型因缺乏底层结构和空间布局信息,常生成空间不一致和扭曲的图像。本文旨在通过共同生成图像和其固有属性,提升生成图像的空间一致性和真实性。
  • Method: 首先从大型数据集中提取固有属性,通过自编码器聚合为单一潜在变量;基于预训练的潜在扩散模型(LDM),同时去噪图像和固有属性域,共享信息以保持一致性。
  • Result: 实验表明,该方法能纠正空间不一致性,生成更自然的场景布局,同时保持基础模型(如Stable Diffusion)的保真度和文本对齐性。
  • Conclusion: 通过共同生成图像和固有属性,本文方法显著提升了生成图像的空间一致性和真实性。

[27] Unlocking Robust Semantic Segmentation Performance via Label-only Elastic Deformations against Implicit Label Noise

Yechan Kim,Dongho Yoon,Younkwan Lee,Unse Fatima,Hong Kook Kim,Songjae Lee,Sanga Park,Jeong Ho Park,Seonjong Kang,Moongu Jeon

Main category: cs.CV

TL;DR: NSegment+是一种新的数据增强框架,通过解耦图像和标签变换来处理语义分割中的隐式标签噪声,显著提升模型性能。

  • Motivation: 现实数据集中的隐式标签噪声(如模糊对象边界和标注者差异)会损害模型性能,传统数据增强方法可能放大这些噪声。
  • Method: NSegment+仅对分割标签施加弹性变形,保持原始图像不变,从而学习更鲁棒的物体结构表示。
  • Result: 在多个数据集(Vaihingen、LoveDA、Cityscapes、PASCAL VOC)上平均mIoU提升显著(最高+3.39)。
  • Conclusion: NSegment+有效解决了隐式标签噪声问题,性能提升明显,且可与其他训练技巧结合进一步优化。

[28] PQ-DAF: Pose-driven Quality-controlled Data Augmentation for Data-scarce Driver Distraction Detection

Haibin Sun,Xinghui Song

Main category: cs.CV

TL;DR: 提出了一种基于姿态驱动的质量控制数据增强框架(PQ-DAF),通过视觉语言模型筛选样本,提升小样本驾驶员分心检测的泛化能力。

  • Motivation: 现有模型在真实场景中泛化能力不足,主要由于数据标注成本高和训练数据与目标场景的域偏移问题。
  • Method: 采用渐进条件扩散模型(PCDMs)生成多样训练样本,并利用CogVLM视觉语言模型过滤低质量样本。
  • Result: 实验表明PQ-DAF显著提升了小样本条件下的模型泛化性能。
  • Conclusion: PQ-DAF为解决驾驶员分心检测中的数据稀缺和域偏移问题提供了有效方案。

[29] Translation of Text Embedding via Delta Vector to Suppress Strongly Entangled Content in Text-to-Image Diffusion Models

Eunseo Koh,Seunghoo Hong,Tae-Young Kim,Simon S. Woo,Jae-Pil Heo

Main category: cs.CV

TL;DR: 论文提出了一种新方法,通过修改文本嵌入空间中的delta向量来抑制扩散模型中与特定词汇强关联的内容,并进一步优化为选择性抑制方法(SSDV)。

  • Motivation: 解决文本到图像(T2I)扩散模型中与特定词汇强关联内容难以抑制的问题(如生成“查理·卓别林”时无法避免“胡子”)。
  • Method: 引入delta向量修改文本嵌入以削弱不想要内容的影响,并通过零样本方法获取该向量;提出SSDV方法将delta向量融入交叉注意力机制以实现更有效的抑制。
  • Result: 实验结果表明,该方法在定量和定性指标上显著优于现有方法,并能在个性化T2I模型中实现更精确的抑制。
  • Conclusion: 该方法有效解决了扩散模型中内容抑制的难题,为生成更符合用户需求的图像提供了新思路。

[30] SC-Lane: Slope-aware and Consistent Road Height Estimation Framework for 3D Lane Detection

Chaesong Park,Eunbin Seo,Jihyeon Hwang,Jongwoo Lim

Main category: cs.CV

TL;DR: SC-Lane是一种新颖的3D车道检测框架,通过自适应融合坡度特征和时序一致性提升高度图估计的鲁棒性和准确性。

  • Motivation: 现有方法依赖固定坡度锚点,难以适应多样化道路几何形状,SC-Lane旨在解决这一问题。
  • Method: 提出Slope-Aware Adaptive Feature模块动态预测权重,融合多坡度特征;Height Consistency模块确保时序一致性。
  • Result: 在OpenLane基准测试中,SC-Lane以64.3%的F-score显著优于现有方法。
  • Conclusion: SC-Lane通过自适应坡度特征和时序一致性,实现了3D车道检测的最先进性能。

[31] NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer

Shanyuan Liu,Jian Zhu,Junda Lu,Yue Gong,Liuzhuozheng Li,Bo Cheng,Yuhang Ma,Liebucha Wu,Xiaoyu Wu,Dawei Leng,Yuhui Yin

Main category: cs.CV

TL;DR: NanoControl提出了一种高效的DiT可控文本到图像生成方法,通过LoRA风格控制模块和KV-Context增强机制,显著降低了计算开销,同时保持了高质量生成和可控性。

  • Motivation: 现有DiT可控生成方法依赖ControlNet范式,导致参数和计算成本高,需改进。
  • Method: 采用Flux作为主干网络,设计LoRA风格控制模块和KV-Context增强机制,直接学习控制信号并融合条件特征。
  • Result: 仅增加0.024%参数和0.029%GFLOPs,实现了高效可控生成,性能优于传统方法。
  • Conclusion: NanoControl在降低计算成本的同时,提升了生成质量和可控性,为DiT可控生成提供了高效解决方案。

[32] STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes

Keishi Ishihara,Kento Sasaki,Tsubasa Takahashi,Daiki Shiono,Yu Yamaguchi

Main category: cs.CV

TL;DR: STRIDE-QA是一个用于自动驾驶的大规模视觉问答数据集,解决了现有视觉语言模型在动态交通场景中时空推理的不足。

  • Motivation: 现有视觉语言模型基于静态图像-文本对训练,无法满足动态交通场景的精确时空推理需求。
  • Method: 构建STRIDE-QA数据集,包含100小时多传感器驾驶数据,提供1600万问答对和285K帧图像,支持对象中心和自我中心推理。
  • Result: 现有模型在预测一致性上表现极差,而基于STRIDE-QA微调的模型在空间定位和未来运动预测上显著提升。
  • Conclusion: STRIDE-QA为开发更可靠的视觉语言模型提供了基础,适用于安全关键自动驾驶系统。

[33] CRISP: Contrastive Residual Injection and Semantic Prompting for Continual Video Instance Segmentation

Baichen Liu,Qi Lyu,Xudong Wang,Jiahua Dong,Lianqing Liu,Zhi Han

Main category: cs.CV

TL;DR: CRISP是一种针对持续视频实例分割任务的新方法,通过对比残差注入和语义提示解决实例、类别和任务级别的混淆问题。

  • Motivation: 持续视频实例分割需要同时吸收新类别并保留旧类别,同时保持时间一致性,现有方法难以满足这些需求。
  • Method: CRISP通过实例跟踪建模、自适应残差语义提示学习框架和任务间查询空间初始化策略,分别解决实例、类别和任务级别的混淆。
  • Result: 在YouTube-VIS-2019和YouTube-VIS-2021数据集上,CRISP显著优于现有方法,避免了灾难性遗忘并提升了分割和分类性能。
  • Conclusion: CRISP为持续视频实例分割提供了一种有效的解决方案,通过多级学习机制显著提升了性能。

[34] DOD-SA: Infrared-Visible Decoupled Object Detection with Single-Modality Annotations

Hang Jin,Chenqiang Gao,Junjie Guo,Fangcen Liu,Kanghui Tian,Qinyao Chang

Main category: cs.CV

TL;DR: 提出了一种基于单模态标注的红外-可见光解耦目标检测框架DOD-SA,通过协作师生网络和渐进式训练策略提升性能。

  • Motivation: 现有方法需要双模态标注,标注成本高;DOD-SA旨在通过单模态标注实现高效跨模态知识迁移。
  • Method: 采用协作师生网络(CoSD-TSNet)和渐进自调训练策略(PaST),包括伪标签生成和模态对齐。
  • Result: 在DroneVehicle数据集上表现优于现有方法。
  • Conclusion: DOD-SA通过单模态标注和协作设计,显著降低了标注成本并提升了检测性能。

[35] SkeySpot: Automating Service Key Detection for Digital Electrical Layout Plans in the Construction Industry

Dhruv Dosi,Rohit Meena,Param Rajpura,Yogesh Kumar Meena

Main category: cs.CV

TL;DR: 论文提出了一种自动化识别电气布局图中符号的方法,并开发了一个名为SkeySpot的轻量级工具包,支持实时检测和分类,性能达到82.5%的mAP。

  • Motivation: 传统扫描的电气布局图缺乏机器可读性,导致大规模解析耗时且易出错,需要一种自动化解决方案。
  • Method: 使用预训练的目标检测模型(如YOLOv8)在标注的DELP数据集上进行符号识别,并开发了SkeySpot工具包。
  • Result: YOLOv8在DELP数据集上表现最佳,mAP为82.5%。SkeySpot能生成标准化输出,支持下游应用。
  • Conclusion: 该方法降低了企业对专有CAD系统的依赖,提升了电气布局数字化的可及性,支持标准化和可持续发展。

[36] From Images to Perception: Emergence of Perceptual Properties by Reconstructing Images

Pablo Hernández-Cámara,Jesus Malo,Valero Laparra

Main category: cs.CV

TL;DR: 论文提出了一种受生物启发的视觉模型PerceptNet,通过端到端优化在图像重建任务中表现出与人类感知判断的高度相关性。

  • Motivation: 探索人类视觉感知是否源于图像统计,以及生物启发的模型是否能无监督学习感知度量。
  • Method: 设计了PerceptNet模型,优化了自编码、去噪、去模糊和稀疏正则化任务。
  • Result: V1-like层在图像失真任务中与人类感知判断相关性最高,且对中等噪声、模糊和稀疏性表现最佳。
  • Conclusion: 视觉系统可能针对特定失真和稀疏性水平进行优化,生物启发模型可无监督学习感知度量。

[37] Trajectory-aware Shifted State Space Models for Online Video Super-Resolution

Qiang Zhu,Xiandong Meng,Yuxian Jiang,Fan Zhang,David Bull,Shuyuan Zhu,Bing Zeng

Main category: cs.CV

TL;DR: 提出了一种基于轨迹感知移位状态空间模型(TS-Mamba)的在线视频超分辨率方法,通过长时轨迹建模和低复杂度Mamba实现高效时空信息聚合。

  • Motivation: 现有在线视频超分辨率方法仅利用相邻前一帧进行时间对齐,限制了长时视频建模能力。状态空间模型(SSMs)具有线性计算复杂度和全局感受野,可显著提升效率和性能。
  • Method: TS-Mamba通过构建视频轨迹选择相似令牌,并设计轨迹感知移位Mamba聚合模块(TSMA)进行信息聚合。移位SSMs块基于Hilbert扫描和移位操作补偿扫描损失并增强空间连续性。
  • Result: 在三个广泛使用的VSR测试数据集上,TS-Mamba在多数情况下优于六个基准模型,且计算复杂度降低22.7%。
  • Conclusion: TS-Mamba通过长时轨迹建模和高效Mamba实现了高性能和低复杂度的在线视频超分辨率。

[38] Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers

Hanna Herasimchyk,Robin Labryga,Tomislav Prusina

Main category: cs.CV

TL;DR: 提出了一种基于多头视觉Transformer的方法,用于植被图像中的多标签植物物种预测,解决了PlantCLEF 2025挑战中的领域偏移问题。

  • Motivation: 解决从单物种植物图像训练到多物种图像测试的领域偏移问题。
  • Method: 使用预训练的DINOv2 Vision Transformer Base(ViT-B/14)作为主干,结合多分类头(物种、属、科)和分类层次结构,采用多尺度分块、动态阈值优化和集成策略。
  • Result: 在约140万张训练图像上实验,表现优异,在私有排行榜上排名第三。
  • Conclusion: 该方法在多标签植物物种预测任务中表现出色,代码已开源。

[39] SingleStrip: learning skull-stripping from a single labeled example

Bella Specktor-Fadida,Malte Hoffmann

Main category: cs.CV

TL;DR: 结合领域随机化和自训练方法,仅需单一样本标签即可训练三维颅骨剥离网络,通过自动体素强度分箱和卷积自编码器(AE)评估伪标签质量,实现高效半监督分割。

  • Motivation: 解决深度学习分割对大量标注数据的依赖问题,尤其是在脑MRI等体积图像中,标注成本高且耗时。
  • Method: 1. 自动分箱体素强度生成合成图像训练初始模型;2. 使用卷积AE评估伪标签质量;3. 选择高质量伪标签微调网络。
  • Result: 在分布外数据上,性能接近使用更多标注数据的模型,且AE方法比一致性排名更准确。
  • Conclusion: 领域随机化与AE质量控制结合,为极有限标注数据的半监督分割提供有效策略,减轻标注负担。

[40] Enhanced Sparse Point Cloud Data Processing for Privacy-aware Human Action Recognition

Maimunatu Tunau,Vincent Gbouna Zakka,Zhuangzhuang Dai

Main category: cs.CV

TL;DR: 本文评估了三种雷达数据处理方法(DBSCAN、匈牙利算法和卡尔曼滤波)在人类动作识别中的性能,分析了单独使用、两两组合及三者结合的效果,并提出了改进方法。

  • Motivation: 传统视觉系统存在隐私问题,毫米波雷达是替代方案,但其数据稀疏且噪声大。现有方法缺乏全面评估,本文填补这一空白。
  • Method: 使用MiliPoint数据集,分别评估三种方法及其组合的性能,并提出改进措施。
  • Result: 提供了每种方法及其组合在识别精度和计算成本上的表现,为未来研究提供指导。
  • Conclusion: 综合分析揭示了各方法的优缺点及组合效果,推动了毫米波雷达在动作识别中的应用。

[41] STAMP: Multi-pattern Attention-aware Multiple Instance Learning for STAS Diagnosis in Multi-center Histopathology Images

Liangrui Pan,xiaoyu Li,Guang Zhu,Guanting Li,Ruixin Wang,Jiadi Luo,Yaning Yang,Liang qingchun,Shaoliang Peng

Main category: cs.CV

TL;DR: 该研究提出了一种名为STAMP的多模式注意力感知多实例学习框架,用于通过深度学习模型诊断肺腺癌中的空气传播(STAS),在多中心数据集上取得了优于临床水平的诊断结果。

  • Motivation: STAS是肺腺癌的一种新型侵袭模式,与肿瘤复发和生存率降低相关,但其诊断因病理特征独特而容易误诊或漏诊,亟需高效准确的诊断方法。
  • Method: 研究收集了多中心STAS患者的病理图像,由三位资深病理学家交叉验证标注,构建了三个数据集。提出的STAMP框架采用双分支架构、Transformer编码和多模式注意力聚合模块,动态选择与STAS相关的区域,抑制噪声。
  • Result: STAMP在三个数据集上的AUC分别为0.8058、0.8017和0.7928,均超过临床水平。
  • Conclusion: STAMP框架在STAS诊断中表现出色,为临床提供了一种高效且准确的解决方案。

[42] TweezeEdit: Consistent and Efficient Image Editing with Path Regularization

Jianda Mao,Kaibo Wang,Yang Xiang,Kani Chen

Main category: cs.CV

TL;DR: TweezeEdit是一种无需调优和反转的图像编辑框架,通过正则化整个去噪路径而非依赖反转锚点,实现了高效的语义保留和目标对齐。

  • Motivation: 现有方法在编辑图像时过度依赖目标提示而忽略源图像语义,且编辑路径长效率低。
  • Method: 提出TweezeEdit框架,通过梯度驱动正则化直接注入目标提示语义,利用一致性模型缩短编辑路径。
  • Result: 实验表明TweezeEdit在语义保留和目标对齐上优于现有方法,仅需12步(1.6秒/次)。
  • Conclusion: TweezeEdit高效且适用于实时应用,解决了现有方法的局限性。

[43] Multi-Sample Anti-Aliasing and Constrained Optimization for 3D Gaussian Splatting

Zheng Zhou,Jia-Chen Zhang,Yu-Jie Xiong,Chun-Ming Xia

Main category: cs.CV

TL;DR: 提出了一种结合多重采样抗锯齿(MSAA)和双重几何约束的优化框架,显著提升了3D高斯泼溅在细节重建上的性能。

  • Motivation: 现有3D高斯泼溅技术在场景优化中缺乏几何约束,导致高频纹理和锐利不连续区域的模糊重建。
  • Method: 通过自适应混合四重子样本计算像素颜色,引入动态梯度分析的权重策略和梯度微分约束。
  • Result: 在多个基准测试中实现了细节保留的最先进性能,显著提升了结构相似性(SSIM)和感知质量(LPIPS)。
  • Conclusion: 该方法在保持实时渲染效率的同时,有效提升了高频纹理和锐利不连续区域的细节重建质量。

[44] A Segmentation-driven Editing Method for Bolt Defect Augmentation and Detection

Yangjie Xiao,Ke Zhang,Jiacun Wang,Xin Sheng,Yurong Guo,Meijuan Chen,Zehua Ren,Zhaoye Zheng,Zhenbing Zhao

Main category: cs.CV

TL;DR: 提出了一种基于分割的螺栓缺陷编辑方法(SBDE),通过增强数据集解决缺陷图像稀缺和数据分布不平衡问题,显著提升了螺栓缺陷检测性能。

  • Motivation: 螺栓缺陷检测对输电线路安全至关重要,但缺陷图像稀缺和数据分布不平衡限制了检测性能。
  • Method: 1. 提出螺栓属性分割模型(Bolt-SAM),通过CLAHE-FFT适配器和多部分感知掩码解码器生成高质量掩码;2. 设计掩码优化模块(MOD)与图像修复模型(LaMa)结合,构建螺栓缺陷属性编辑模型(MOD-LaMa);3. 提出编辑恢复增强策略(ERA)扩展缺陷检测数据集。
  • Result: 实验表明,SBDE生成的缺陷图像优于现有图像编辑模型,并显著提升缺陷检测性能。
  • Conclusion: SBDE方法有效解决了螺栓缺陷检测中的数据问题,具有广泛的应用潜力。

[45] EgoMusic-driven Human Dance Motion Estimation with Skeleton Mamba

Quang Nguyen,Nhat Le,Baoru Huang,Minh Nhat Vu,Chengcheng Tang,Van Nguyen,Ngan Le,Thieu Vo,Anh Nguyen

Main category: cs.CV

TL;DR: 提出一种新方法,结合第一人称视频和音乐预测舞蹈动作,使用EgoAIST++数据集和Skeleton Mamba网络,性能优于现有方法。

  • Motivation: 舞蹈动作估计具有工业应用价值,但现有方法多基于单一输入(视频或音乐),联合估计未被充分探索。
  • Method: 引入EgoAIST++数据集,结合扩散模型和Mamba,开发EgoMusic Motion Network,核心为Skeleton Mamba。
  • Result: 实验表明,方法优于现有技术,并能泛化到真实数据。
  • Conclusion: 新方法在联合输入下表现优异,具有理论和实践支持。

[46] Reasoning in Computer Vision: Taxonomy, Models, Tasks, and Methodologies

Ayushman Sarkar,Mohd Yamani Idna Idris,Zhenyu Yu

Main category: cs.CV

TL;DR: 该论文综述了视觉推理的五大类型及其实现方法,分析了评估协议的局限性,并提出了未来研究方向。

  • Motivation: 现有研究对视觉推理的多个方向缺乏统一分析,论文旨在填补这一空白。
  • Method: 通过分类视觉推理为五大类型,并系统分析其实现架构和评估协议。
  • Result: 揭示了评估协议的局限性,并提出了视觉推理领域的关键挑战。
  • Conclusion: 未来研究需结合感知与推理,构建透明、可信且跨领域适应的AI系统。

[47] Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset

Ziye Deng,Ruihan He,Jiaxiang Liu,Yuan Wang,Zijie Meng,Songtao Jiang,Yong Xie,Zuozhu Liu

Main category: cs.CV

TL;DR: 论文提出Med-GLIP-5M数据集和Med-GLIP框架,解决医学图像定位任务中的模态覆盖不足和标注粒度问题。

  • Motivation: 现有医学图像定位研究存在模态覆盖有限、标注粒度粗糙和缺乏统一框架的问题。
  • Method: 构建包含530万区域标注的Med-GLIP-5M数据集,并提出模态感知的Med-GLIP框架,通过隐式学习实现多粒度语义理解。
  • Result: Med-GLIP在多个基准测试中优于现有方法,并在下游任务(如医学VQA和报告生成)中显著提升性能。
  • Conclusion: Med-GLIP-5M和Med-GLIP为医学图像定位提供了统一且通用的解决方案,具有广泛的应用潜力。

[48] GCRPNet: Graph-Enhanced Contextual and Regional Perception Network For Salient Object Detection in Optical Remote Sensing Images

Mengyu Ren,Yutong Li,Hua Li,Runmin Cong,Sam Kwong

Main category: cs.CV

TL;DR: 提出了一种基于Mamba架构的图增强上下文和区域感知网络(GCRPNet),用于解决光学遥感图像中显著目标检测的挑战,如目标尺度变化大和背景对比度低。

  • Motivation: 现有基于ViT和CNN的方法难以有效整合全局和局部特征,限制了性能。
  • Method: 采用视觉状态空间(VSS)编码器提取多尺度特征,设计了差异相似性引导的层次图注意力模块(DS-HGAM)和LEVSS解码器模块。
  • Result: 实验结果表明,GCRPNet在显著目标检测任务中达到了最先进的性能。
  • Conclusion: GCRPNet通过增强长程依赖和区域特征表示,显著提升了检测效果。

[49] PSScreen: Partially Supervised Multiple Retinal Disease Screening

Boyi Zheng,Qing Liu

Main category: cs.CV

TL;DR: PSScreen提出了一种部分监督的多视网膜疾病筛查模型,通过双流学习和特征蒸馏解决领域偏移和标签缺失问题,显著提升了检测性能。

  • Motivation: 减少对完全标注数据集的依赖,解决多数据集训练中的领域偏移和部分类别标签缺失问题。
  • Method: 采用双流学习(确定性特征和概率性特征),结合文本引导的特征解耦与蒸馏,以及伪标签一致性和自蒸馏技术。
  • Result: 在六种视网膜疾病和正常状态的检测中表现优异,在域内和域外数据集上均达到最先进水平。
  • Conclusion: PSScreen通过创新方法有效解决了多数据集训练中的挑战,显著提升了疾病筛查的准确性和泛化能力。

[50] AR Surgical Navigation With Surface Tracing: Comparing In-SitVisualization with Tool-Tracking Guidance for Neurosurgical Applications

Marc J. Fischer,Jeffrey Potts,Gabriel Urreola,Dax Jones,Paolo Palmisciano,E. Bradley Strong,Branden Cord,Andrew D. Hernandez,Julia D. Sharma,E. Brandon Strong

Main category: cs.CV

TL;DR: 研究提出了一种利用AR技术辅助手术导航的新方法,通过模拟外部脑室引流导管放置验证其效果,结果显示实时工具跟踪显著提高了准确性。

  • Motivation: 传统手术导航系统存在局限性,AR技术有望解决这些问题,但深度感知和遮挡处理仍是挑战。
  • Method: 使用HoloLens 2的传感器,通过表面追踪和实时红外工具跟踪实现导管导航,比较静态和实时跟踪两种AR引导方式。
  • Result: 实时工具跟踪在所有准确性指标上表现更优,用户主观评价也更高。
  • Conclusion: 实时工具跟踪的AR导航系统在手术中具有潜力,尤其在需要高精度的场景。

[51] Retrieval-Augmented Prompt for OOD Detection

Ruisong Han,Zongbo Han,Jiahao Zhang,Mingyue Cheng,Changqing Zhang

Main category: cs.CV

TL;DR: 论文提出了一种名为RAP的新方法,通过检索外部知识增强预训练视觉语言模型的提示,以改进OOD检测性能。

  • Motivation: 现有OOD检测方法依赖有限的外部异常样本或ID数据,导致语义监督不足,性能不佳。
  • Method: RAP通过检索外部知识动态更新OOD提示,增强语义监督,并在测试时实时调整提示以适应环境。
  • Result: 在ImageNet-1k数据集上,RAP将FPR95降低7.05%,AUROC提高1.71%,优于现有方法。
  • Conclusion: RAP通过动态检索和更新提示,显著提升了OOD检测性能,验证了其模块和动机的有效性。

[52] PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks

Xinhao Wang,Zhiwei Lin,Zhongyu Xia,Yongtao Wang

Main category: cs.CV

TL;DR: PTQAT是一种混合量化算法,结合了PTQ和QAT的优点,通过选择关键层进行QAT微调,其余层使用PTQ,提高了量化模型的效率和性能。

  • Motivation: 解决PTQ导致性能下降和QAT资源消耗大的问题,提出一种更高效的混合量化方法。
  • Method: 选择输出差异小的关键层进行QAT微调,其余层使用PTQ,以减少量化误差传播。
  • Result: 在多种3D感知任务中表现优于QAT基线,量化效率更高,性能提升显著。
  • Conclusion: PTQAT是一种通用且高效的量化方法,适用于多种模型架构和任务。

[53] HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis

Shiyu Liu,Kui Jiang,Xianming Liu,Hongxun Yao,Xiaocheng Feng

Main category: cs.CV

TL;DR: HM-Talker提出了一种结合隐式和显式运动特征的混合运动表示方法,用于生成高质量、时序一致的说话头部视频,解决了现有方法中的运动模糊和唇部抖动问题。

  • Motivation: 当前音频驱动的说话头部视频生成方法因依赖隐式建模音频-面部运动关联,缺乏显式发音先验,导致视频质量不佳。
  • Method: HM-Talker通过混合运动表示(隐式和显式特征)和跨模态解缠模块(CMDM)提取互补特征,并引入混合运动建模模块(HMMM)增强跨主体泛化能力。
  • Result: 实验表明HM-Talker在视觉质量和唇同步准确性上优于现有方法。
  • Conclusion: HM-Talker通过显式和隐式特征的结合,显著提升了说话头部视频的生成质量,为个性化合成提供了新思路。

[54] SpaRC-AD: A Baseline for Radar-Camera Fusion in End-to-End Autonomous Driving

Philipp Wolters,Johannes Gilg,Torben Teepe,Gerhard Rigoll

Main category: cs.CV

TL;DR: SpaRC-AD是一种基于查询的端到端相机-雷达融合框架,通过稀疏3D特征对齐和多普勒速度估计,显著提升了自动驾驶任务的性能。

  • Motivation: 视觉方法在恶劣天气、部分遮挡和精确速度估计方面存在局限性,而自动驾驶需要准确的运动理解和长时程轨迹预测以确保安全。
  • Method: 采用相机-雷达融合框架,通过稀疏3D特征对齐和多普勒速度估计优化3D场景表示,改进代理锚点、地图多段线和运动建模。
  • Result: 在3D检测、多目标跟踪、在线地图、运动预测和轨迹规划等任务中均优于纯视觉基线,性能提升显著。
  • Conclusion: SpaRC-AD证明了雷达融合在安全关键场景中的有效性,尤其在运动理解和长时程轨迹预测方面表现优异。

[55] Adapting SAM via Cross-Entropy Masking for Class Imbalance in Remote Sensing Change Detection

Humza Naveed,Xina Zeng,Mitch Bryson,Nagita Mehrseresht

Main category: cs.CV

TL;DR: 论文提出了一种基于SAM模型的改进方法,通过微调SAM编码器并结合时空特征增强和多尺度解码器融合,用于遥感变化检测。同时提出了一种新的交叉熵掩码损失函数以解决类别不平衡问题,在多个数据集上表现优于现有方法。

  • Motivation: 现有基础模型(如SAM)在计算机视觉领域表现优异,但如何将其适应于遥感变化检测任务仍具挑战性。论文旨在通过改进SAM模型,提升其在多尺度变化检测中的鲁棒性。
  • Method: 方法包括微调SAM编码器,结合时空特征增强(STFE)和多尺度解码器融合(MSDF),并提出交叉熵掩码损失(CEM)以处理类别不平衡。
  • Result: 在Levir-CD、WHU-CD、CLCD和S2Looking四个数据集上优于现有方法,尤其在S2Looking数据集上F1分数提升了2.5%。
  • Conclusion: 论文提出的方法有效提升了遥感变化检测的性能,尤其在处理多尺度和类别不平衡问题上表现出色。

[56] Towards Agentic AI for Multimodal-Guided Video Object Segmentation

Tuyen Tran,Thao Minh Le,Truyen Tran

Main category: cs.CV

TL;DR: 论文提出了一种基于多模态代理(Multi-Modal Agent)的灵活自适应方法,用于解决基于参考的视频对象分割问题,通过动态工作流和专用工具提升性能。

  • Motivation: 传统方法计算复杂度高且依赖人工标注,而现有基于通用模型的方法缺乏灵活性。
  • Method: 利用大型语言模型(LLMs)生成动态工作流,结合多模态专用工具迭代识别目标对象。
  • Result: 在多模态条件下的VOS任务(RVOS和Ref-AVS)上表现优于现有方法。
  • Conclusion: 提出的代理系统为多模态视频对象分割提供了更灵活、高效的解决方案。

[57] HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs

Zheng Qin,Ruobing Zheng,Yabing Wang,Tianqi Li,Yi Yuan,Jingdong Chen,Le Wang

Main category: cs.CV

TL;DR: HumanSense是一个评估多模态大语言模型(MLLMs)在人类中心场景中感知与交互能力的基准测试,揭示了现有模型的不足,并提出多阶段强化学习提升推理能力。

  • Motivation: 当前MLLMs在理解复杂人类意图和提供共情反馈方面缺乏细粒度评估框架,阻碍了其实现类人交互的潜力。
  • Method: 引入HumanSense基准,结合视觉、音频和文本输入,采用多阶段模态渐进强化学习增强推理能力。
  • Result: 实验显示领先MLLMs仍有改进空间,多模态输入显著提升性能,推理能力是关键。
  • Conclusion: 通过上下文分析和推理能力优化,可显著提升MLLMs的人类中心交互表现,且非推理模型也能通过提示设计改进。

[58] EvTurb: Event Camera Guided Turbulence Removal

Yixing Liu,Minggui Teng,Yifei Xia,Peiqi Duan,Boxin Shi

Main category: cs.CV

TL;DR: EvTurb利用高速事件流解耦湍流引起的模糊和倾斜效应,通过两步事件引导网络实现湍流去除,并在真实数据集TurbEvent上验证了其优越性。

  • Motivation: 大气湍流导致图像模糊和几何倾斜失真,现有方法难以解决这一高度不适定问题。
  • Method: EvTurb通过事件积分减少模糊,利用事件流方差图消除倾斜失真,采用两步事件引导网络。
  • Result: 实验表明EvTurb在计算效率上优于现有方法。
  • Conclusion: EvTurb有效解决了湍流引起的图像失真问题,并提供了首个真实数据集TurbEvent。

[59] Towards Powerful and Practical Patch Attacks for 2D Object Detection in Autonomous Driving

Yuxin Cao,Yedi Zhang,Wentao He,Yifan Liao,Yan Xiao,Chang Li,Zhiyong Huang,Jin Song Dong

Main category: cs.CV

TL;DR: 论文提出P3A框架,优化高分辨率数据下的对抗性补丁攻击,提升实际攻击成功率。

  • Motivation: 基于学习的自动驾驶系统易受对抗性补丁攻击,现有黑盒攻击方法在低分辨率数据上训练,实际效果不佳。
  • Method: 提出PASR指标和LCSL损失函数,结合PSPP预处理步骤,优化攻击效果。
  • Result: P3A在未见模型和高分辨率数据集上优于现有攻击方法。
  • Conclusion: P3A框架显著提升攻击效果,更贴近实际场景需求。

[60] Fourier-Guided Attention Upsampling for Image Super-Resolution

Daejune Choi,Youchan No,Jinhyung Lee,Duksu Kim

Main category: cs.CV

TL;DR: 提出了一种轻量级上采样模块FGA,通过频率引导注意力机制提升单图像超分辨率性能,减少伪影并保留高频细节。

  • Motivation: 传统上采样方法(如子像素卷积)效率高但难以重建高频细节且易引入伪影,FGA旨在解决这些问题。
  • Method: FGA结合了基于傅里叶特征的多层感知机、跨分辨率相关性注意力层和频域L1损失,实现频率编码、空间对齐和频谱保真。
  • Result: FGA仅增加0.3M参数,在五种超分辨率骨干网络上均提升性能,PSNR平均提高0.12~0.14 dB,频域一致性提升29%。
  • Conclusion: FGA有效减少伪影并保留细节,是传统上采样方法的实用替代方案。

[61] FIND-Net -- Fourier-Integrated Network with Dictionary Kernels for Metal Artifact Reduction

Farid Tasharofi,Fuxin Fan,Melika Qahqaie,Mareike Thies,Andreas Maier

Main category: cs.CV

TL;DR: FIND-Net是一种结合频域和空间域处理的新型金属伪影减少(MAR)框架,通过傅里叶卷积层和可训练高斯滤波,显著减少伪影并保留结构细节。

  • Motivation: 金属植入物在CT成像中产生的高密度伪影严重影响图像质量,现有深度学习方法在抑制伪影和保留结构细节之间存在困难。
  • Method: FIND-Net整合了频域和空间域处理,采用快速傅里叶卷积层和可训练高斯滤波,将MAR任务视为混合域任务。
  • Result: 在合成数据集上,FIND-Net在MAE、SSIM和PSNR上均优于现有方法;在真实临床CT扫描中也表现出色。
  • Conclusion: FIND-Net在MAR任务中表现优异,具有更好的结构保留和临床适用性。

[62] Increasing the Utility of Synthetic Images through Chamfer Guidance

Nicola Dall'Asen,Xiaofeng Zhang,Reyhane Askari Hemmat,Melissa Hall,Jakob Verbeek,Adriana Romero-Soriano,Michal Drozdzal

Main category: cs.CV

TL;DR: 提出了一种名为Chamfer Guidance的训练自由引导方法,利用少量真实样本图像提升合成数据的多样性和质量,并在ImageNet-1k和地理多样性基准测试中表现优异。

  • Motivation: 解决条件图像生成模型在生成质量提升时牺牲多样性的问题,同时关注合成数据与真实数据之间的分布偏移。
  • Method: 引入Chamfer Guidance,利用少量真实样本图像评估合成数据的质量和多样性,无需训练。
  • Result: 在ImageNet-1k和地理多样性基准测试中,生成多样性和质量显著提升,仅需2张真实样本即可实现96.4%的精确度和86.4%的分布覆盖率。
  • Conclusion: Chamfer Guidance在提升合成数据多样性和质量的同时,减少了计算开销,为下游任务(如图像分类)提供了显著性能提升。

[63] ChatENV: An Interactive Vision-Language Model for Sensor-Guided Environmental Monitoring and Scenario Simulation

Hosam Elgendy,Ahmed Sharshar,Ahmed Aboeitta,Mohsen Guizani

Main category: cs.CV

TL;DR: ChatENV是一种交互式视觉语言模型,结合卫星图像和传感器数据,用于环境监测和推理。

  • Motivation: 当前视觉语言模型忽视环境传感器的因果信号,依赖单一来源的标题,缺乏交互式推理能力。
  • Method: 构建177k图像数据集,使用GPT-4和Gemini 2.0标注,并通过LoRA适配器微调Qwen-2.5-VL模型。
  • Result: ChatENV在时间推理和假设分析中表现优异(BERT-F1 0.903),优于现有时间模型。
  • Conclusion: ChatENV是一种强大的工具,支持基于传感器的环境监测和交互式分析。

[64] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

Ryan Ramos,Vladan Stojnić,Giorgos Kordopatis-Zilos,Yuta Nakashima,Giorgos Tolias,Noa Garcia

Main category: cs.CV

TL;DR: 本文分析了视觉编码器对图像采集参数和细微变换的敏感性,发现这些参数会被编码到视觉表示中,并对语义预测产生显著影响。

  • Motivation: 研究视觉编码器对图像采集参数和细微变换的敏感性,探讨其对语义预测的影响。
  • Method: 分析图像采集过程中的参数和变换,研究其在视觉表示中的编码及其对语义预测的作用。
  • Result: 发现这些参数会被系统编码,且其存在可能对语义预测产生积极或消极影响,取决于与语义标签的相关性。
  • Conclusion: 图像采集参数和细微变换对视觉编码器的语义预测具有重要影响,值得进一步研究。

[65] Lameness detection in dairy cows using pose estimation and bidirectional LSTMs

Helena Russello,Rik van der Tol,Eldert J. van Henten,Gert Kootstra

Main category: cs.CV

TL;DR: 提出了一种结合姿态估计和BLSTM神经网络的跛行检测方法,显著优于传统手动特征方法,准确率达85%。

  • Motivation: 传统跛行检测依赖手动设计特征,效率低且不灵活。本研究旨在通过自动学习运动特征,提高检测效率和准确性。
  • Method: 使用T-LEAP姿态估计模型提取奶牛行走视频中的9个关键点轨迹,输入BLSTM分类器进行二元跛行分类。
  • Result: BLSTM分类器准确率达85%,优于传统方法的80%,且仅需1秒视频数据即可检测。
  • Conclusion: 结合姿态估计和BLSTM的方法高效、准确,适用于小数据集和短序列,为跛行检测提供了新思路。

[66] SemPT: Semantic Prompt Tuning for Vision-Language Models

Xiao Shi,Yangjun Ou,Zhenzhong Chen

Main category: cs.CV

TL;DR: 论文提出了一种名为SemPT的新框架,通过利用跨类别的共享属性级知识解决视觉迁移学习中未见类别的泛化问题。

  • Motivation: 现有方法依赖稀疏类别标签或LLM生成的描述,导致知识表示碎片化,限制了迁移能力。
  • Method: SemPT采用两步提示策略提取共享视觉属性并生成属性级描述,结合视觉引导权重减少噪声,并联合对齐图像和文本嵌入。
  • Result: 在15个基准数据集上的实验表明,SemPT在多种设置下均达到最先进性能。
  • Conclusion: SemPT通过属性级知识增强和动态推理,有效平衡了已知类别的区分性和未见类别的迁移能力。

[67] Serial Over Parallel: Learning Continual Unification for Multi-Modal Visual Object Tracking and Benchmarking

Zhangyong Tang,Tianyang Xu,Xuefeng Zhu,Chunyang Cheng,Tao Zhou,Xiaojun Wu,Josef Kittler

Main category: cs.CV

TL;DR: 论文提出UniBench300统一多模态视觉目标跟踪(MMVOT)任务的基准,并通过串行整合任务和持续学习(CL)解决性能退化问题。

  • Motivation: 多模态数据在跟踪任务中的互补性需要统一基准,但现有方法因训练与测试不一致导致性能退化。
  • Method: 引入UniBench300基准,采用串行任务整合方式,并探索持续学习(CL)的应用。
  • Result: 实验证明UniBench300的有效性,CL能稳定整合过程,性能退化与网络容量负相关。
  • Conclusion: UniBench300和CL为多模态视觉研究提供新方向,模态差异影响任务性能退化程度。

[68] AddressVLM: Cross-view Alignment Tuning for Image Address Localization using Large Vision-Language Models

Shixiong Xu,Chenghao Zhang,Lubin Fan,Yuan Zhou,Bin Fan,Shiming Xiang,Gaofeng Meng,Jieping Ye

Main category: cs.CV

TL;DR: 论文提出AddressVLM模型,通过结合卫星图像和街景图像,提升大视觉语言模型在细粒度地址定位中的性能。

  • Motivation: 大视觉语言模型在粗粒度地理定位表现良好,但在细粒度街级定位中表现不佳,需改进。
  • Method: 提出两阶段训练协议:跨视角对齐调整和地址定位调整,结合卫星图像和街景图像。
  • Result: AddressVLM在两个数据集上的地址定位准确率分别提升9%和12%。
  • Conclusion: AddressVLM通过跨视角对齐和自动标签生成机制,显著提升了细粒度地址定位性能。

[69] Hybrid Generative Fusion for Efficient and Privacy-Preserving Face Recognition Dataset Generation

Feiran Li,Qianqian Xu,Shilong Bao,Boyu Han,Zhiyong Yang,Qingming Huang

Main category: cs.CV

TL;DR: 本文提出了一种构建高质量人脸数据集的方法,用于训练人脸识别模型,通过混合专家策略和数据增强技术,结合合成身份生成,最终在竞赛中取得第一名。

  • Motivation: 构建一个不与现有公开人脸数据集重叠的高质量数据集,以提升人脸识别模型的性能。
  • Method: 1. 清理基线数据集HSFace,使用MoE策略结合聚类和GPT-4o验证;2. 通过数据增强和合成身份生成(Stable Diffusion和Vec2Face)扩展数据集;3. 采用课程学习策略优化训练。
  • Result: 构建的数据集在竞赛中排名第一,并在不同规模的身份识别任务中显著提升模型性能。
  • Conclusion: 混合真实和合成数据的策略高效且有效,能够构建多样且高质量的数据集,提升模型性能。

[70] HyperTea: A Hypergraph-based Temporal Enhancement and Alignment Network for Moving Infrared Small Target Detection

Zhaoyuan Qi,Weihua Gao,Wenlong Niu,Jie Tang,Yun Li,Xiaodong Peng

Main category: cs.CV

TL;DR: 论文提出了一种名为HyperTea的方法,结合全局和局部时间视角,利用超图神经网络(HGNNs)提升红外小目标检测性能。

  • Motivation: 现有方法在红外小目标检测中仅建模低阶特征关联且局限于单一时间尺度,而超图在高阶关联学习中潜力未被充分挖掘。
  • Method: HyperTea包含三个模块:全局时间增强模块(GTEM)、局部时间增强模块(LTEM)和时间对齐模块(TAM),结合CNN、RNN和HGNN。
  • Result: 在DAUB和IRDST数据集上表现优于现有方法,达到SOTA性能。
  • Conclusion: HyperTea首次将CNN、RNN和HGNN结合用于红外小目标检测,显著提升了检测性能。

[71] Physics-Informed Joint Multi-TE Super-Resolution with Implicit Neural Representation for Robust Fetal T2 Mapping

Busra Bulut,Maik Dannecker,Thomas Sanchez,Sara Neves Silva,Vladyslav Zalevskyi,Steven Jia,Jean-Baptiste Ledoux,Guillaume Auzias,François Rousseau,Jana Hutter,Daniel Rueckert,Meritxell Bach Cuadra

Main category: cs.CV

TL;DR: 该论文提出了一种结合隐式神经表示和物理信息正则化的方法,用于在胎儿脑MRI中联合重建多回波时间(TE)数据,以减少运动伪影并缩短扫描时间。

  • Motivation: 胎儿脑MRI中的T2映射在0.55T中场强下具有潜力,但传统方法因运动伪影和长扫描时间而受限。
  • Method: 结合隐式神经表示和物理信息正则化,联合重建多TE数据,利用解剖冗余减少每个TE所需的堆叠数量。
  • Result: 在模拟胎儿脑和成人数据集上展示了先进性能,并首次实现了0.55T下的胎儿T2映射。
  • Conclusion: 该方法有望减少T2映射中每个TE所需的堆叠数量,提高效率和准确性。

[72] IADGPT: Unified LVLM for Few-Shot Industrial Anomaly Detection, Localization, and Reasoning via In-Context Learning

Mengyang Zhao,Teng Fu,Haiyang Yu,Ke Niu,Bin Li

Main category: cs.CV

TL;DR: 论文提出了一种名为IADGPT的统一框架,用于少样本工业异常检测(FS-IAD),通过三阶段训练策略提升模型在异常检测、定位和推理任务中的表现。

  • Motivation: 现有基于大型视觉语言模型(LVLMs)的FS-IAD方法缺乏工业知识和推理能力,无法媲美专业质检员。
  • Method: 采用三阶段渐进训练策略:前两阶段学习基础工业知识和差异感知,第三阶段通过上下文学习提升泛化能力。同时设计了图像级和像素级异常评分策略。
  • Result: 实验表明IADGPT在异常检测中表现优异,在异常定位和推理任务中也具有竞争力。
  • Conclusion: IADGPT通过模拟人类质检员的方式,显著提升了FS-IAD任务的性能,并提供了新的数据集支持训练。

[73] Novel View Synthesis using DDIM Inversion

Sehajdeep SIngh,A V Subramanyam

Main category: cs.CV

TL;DR: 提出了一种轻量级视图转换框架TUNet,利用预训练扩散模型的高保真生成能力,通过融合策略解决单图像新视图合成的模糊问题。

  • Motivation: 现有方法需微调大型扩散模型或从头训练,成本高且效果不佳,模糊重建和泛化能力差。
  • Method: 使用DDIM反演潜在空间,结合相机姿态条件转换U-Net(TUNet)预测目标视图潜在,提出噪声相关融合策略以保留细节。
  • Result: 在MVImgNet上实验表明,该方法优于现有方法。
  • Conclusion: 提出的框架高效且能生成高质量新视图,解决了模糊和泛化问题。

[74] Beyond conventional vision: RGB-event fusion for robust object detection in dynamic traffic scenarios

Zhanwen Liu,Yujing Sun,Yang Wang,Nan Yang,Shengbo Eben Li,Xiangmo Zhao

Main category: cs.CV

TL;DR: 论文提出了一种结合事件相机和RGB相机的方法(MCFNet),通过动态范围信息和运动线索融合,提升复杂交通环境下的目标检测性能。

  • Motivation: 传统RGB相机的动态范围限制导致复杂交通环境(如夜间驾驶、隧道)中全局对比度降低和高频细节丢失,影响目标检测性能。
  • Method: 提出MCFNet,包括事件校正模块(ECM)、事件动态上采样模块(EDUM)和跨模态融合模块(CMM),实现时空对齐和自适应特征融合。
  • Result: 在DSEC-Det和PKU-DAVIS-SOD数据集上,MCFNet显著优于现有方法,mAP50提升7.4%,mAP提升1.7%。
  • Conclusion: MCFNet通过融合事件相机和RGB相机信息,有效解决了复杂光照下的目标检测问题,性能显著提升。

[75] CountCluster: Training-Free Object Quantity Guidance with Cross-Attention Map Clustering for Text-to-Image Generation

Joohyeon Lee,Jin-Seop Lee,Jee-Hyong Lee

Main category: cs.CV

TL;DR: 论文提出CountCluster方法,通过优化对象交叉注意力图的分簇,提升扩散模型在生成图像时准确反映输入提示中对象数量的能力。

  • Motivation: 现有扩散模型在生成图像时难以准确反映输入提示中的对象数量,且现有方法依赖外部模块或忽略早期去噪步骤的关键作用。
  • Method: 提出CountCluster方法,在推理时基于注意力分数将对象交叉注意力图分为k簇,定义理想分布并优化潜在表示以对齐目标分布。
  • Result: 方法在对象数量准确性上平均提升18.5%,并在多种提示下表现出优越的数量控制性能。
  • Conclusion: CountCluster无需外部工具或额外训练,有效解决了扩散模型在对象数量生成上的问题。

[76] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

NextStep Team,Chunrui Han,Guopeng Li,Jingwei Wu,Quan Sun,Yan Cai,Yuang Peng,Zheng Ge,Deyu Zhou,Haomiao Tang,Hongyu Zhou,Kenkun Liu,Ailin Huang,Bin Wang,Changxin Miao,Deshan Sun,En Yu,Fukun Yin,Gang Yu,Hao Nie,Haoran Lv,Hanpeng Hu,Jia Wang,Jian Zhou,Jianjian Sun,Kaijun Tan,Kang An,Kangheng Lin,Liang Zhao,Mei Chen,Peng Xing,Rui Wang,Shiyu Liu,Shutao Xia,Tianhao You,Wei Ji,Xianfang Zeng,Xin Han,Xuelin Zhang,Yana Wei,Yanming Xu,Yimin Jiang,Yingming Wang,Yu Zhou,Yucheng Han,Ziyang Meng,Binxing Jiao,Daxin Jiang,Xiangyu Zhang,Yibo Zhu

Main category: cs.CV

TL;DR: NextStep-1是一个14B自回归模型,结合157M流匹配头,通过离散文本和连续图像令牌训练,在文本到图像生成任务中达到SOTA性能。

  • Motivation: 解决现有自回归模型依赖计算密集型扩散模型或量化损失的问题。
  • Method: 使用离散文本令牌和连续图像令牌训练,结合流匹配头和下一令牌预测目标。
  • Result: 在文本到图像生成任务中表现优异,支持高保真图像合成和编辑。
  • Conclusion: NextStep-1展示了统一方法的强大和多功能性,代码和模型将开源。

[77] Lightweight CNNs for Embedded SAR Ship Target Detection and Classification

Fabian Kresse,Georgios Pilikos,Mario Azcueta,Nicolas Floury

Main category: cs.CV

TL;DR: 论文提出了一种用于实时处理未聚焦SAR数据的神经网络模型,解决了卫星资源受限的问题,并在FPGA上验证了可行性。

  • Motivation: 实时监测海上船只受限于数据下行和处理延迟,传统方法因卫星资源有限难以实现。
  • Method: 设计了适用于Stripmap和IW模式SAR数据的神经网络,支持实时推理。
  • Result: 模型在FPGA上可行,并成功实现了船只与风力发电机的二分类任务。
  • Conclusion: 神经网络可有效解决卫星资源受限问题,支持实时SAR数据处理和目标分类。

[78] Revisiting Cross-View Localization from Image Matching

Panwang Xia,Qiong Wu,Lei Yu,Yi Liu,Mingtao Xiong,Lei Liang,Yongjun Zhang,Yi Wan

Main category: cs.CV

TL;DR: 论文提出了一种改进跨视角定位和图像匹配的新框架,通过引入表面模型和相似性矩阵优化模块,显著提升了定位精度和匹配质量。

  • Motivation: 在GNSS受限环境中,现有跨视角定位方法难以建立精确的空间对应关系,导致匹配粗糙或几何不一致。
  • Method: 提出表面模型用于精确鸟瞰图投影,以及SimRefiner模块通过局部-全局残差校正优化相似性矩阵。
  • Result: 实验表明,该方法显著提升了定位精度和图像匹配质量,并建立了首个带有像素级对应标注的跨视角图像对基准数据集CVFM。
  • Conclusion: 该框架为跨视角定位和匹配提供了新的解决方案,并在极端视角差异下设定了新的基准。

[79] Exploiting Discriminative Codebook Prior for Autoregressive Image Generation

Longxiang Tang,Ruihang Chu,Xiang Wang,Yujin Han,Pingyu Wu,Chunming He,Yingya Zhang,Shiwei Zhang,Jiaya Jia

Main category: cs.CV

TL;DR: 论文提出了一种名为DCPE的方法,替代传统的k-means聚类,更有效地利用代码本中的token相似性信息,提升自回归模型的训练效率和性能。

  • Motivation: 现有方法仅利用token索引值训练自回归模型,而忽略了代码本中丰富的token相似性信息。k-means聚类在代码本特征空间中表现不佳,存在token空间差异和质心距离不准确的问题。
  • Method: 提出DCPE方法,采用基于实例的距离替代质心距离,并通过聚合合并技术解决token空间差异问题。
  • Result: DCPE能够无缝集成现有代码本范式,将LlamaGen-B的训练速度提升42%,并改善FID和IS性能。
  • Conclusion: DCPE是一种即插即用的方法,有效挖掘和利用代码本中的token相似性信息,显著提升自回归模型的训练效率和生成质量。

[80] EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Yanjun Li,Yuqian Fu,Tianwen Qian,Qi'ao Xu,Silong Dai,Danda Pani Paudel,Luc Van Gool,Xiaoling Wang

Main category: cs.CV

TL;DR: 论文介绍了EgoCross基准,用于评估多模态大语言模型在跨域自我中心视频问答中的泛化能力,发现现有模型在非日常领域表现不佳。

  • Motivation: 现有研究局限于日常活动,而实际应用需应对域偏移,因此需要评估模型在多样化领域的表现。
  • Method: 提出EgoCross基准,覆盖四个挑战性领域,包含四种问答任务和两种格式,并进行实验和初步改进研究。
  • Result: 实验显示现有模型在非日常领域泛化能力不足,但通过微调和强化学习可能改进。
  • Conclusion: EgoCross为推进跨域自我中心视频理解提供了基础,数据和代码将开源。

[81] Dissecting Generalized Category Discovery: Multiplex Consensus under Self-Deconstruction

Luyao Tang,Kunze Huang,Chaoqi Chen,Yuxuan Yuan,Chenxin Li,Xiaotong Tu,Xinghao Ding,Yue Huang

Main category: cs.CV

TL;DR: 论文提出了一种名为ConGCD的方法,通过分解视觉基元和跨知识比较来模拟人类认知过程,以解决广义类别发现(GCD)问题。

  • Motivation: 人类感知系统能够识别已知和新颖类别的物体,而现有机器学习方法主要关注优化目标函数,未能充分模拟人类认知过程。
  • Method: ConGCD通过高层语义重构建立基元导向表示,并通过解构绑定类内共享属性。同时,采用主导和上下文共识单元分别捕捉类别区分模式和分布不变性。
  • Result: 在粗粒度和细粒度基准测试中,ConGCD表现出色,验证了其作为共识感知范式的有效性。
  • Conclusion: ConGCD通过模拟人类认知过程,提供了一种有效的GCD解决方案,代码已开源。

[82] Privacy-enhancing Sclera Segmentation Benchmarking Competition: SSBC 2025

Matej Vitek,Darian Tomašević,Abhijit Das,Sabari Nathan,Gökhan Özbulak,Gözde Ayşe Tataroğlu Özbulak,Jean-Paul Calbimonte,André Anjos,Hariohm Hemant Bhatt,Dhruv Dhirendra Premani,Jay Chaudhari,Caiyong Wang,Jian Jiang,Chi Zhang,Qi Zhang,Iyyakutti Iyappan Ganapathi,Syed Sadaf Ali,Divya Velayudan,Maregu Assefa,Naoufel Werghi,Zachary A. Daniels,Leeon John,Ritesh Vyas,Jalil Nourmohammadi Khiarak,Taher Akbari Saeed,Mahsa Nasehi,Ali Kianfar,Mobina Pashazadeh Panahi,Geetanjali Sharma,Pushp Raj Panth,Raghavendra Ramachandra,Aditya Nigam,Umapada Pal,Peter Peer,Vitomir Štruc

Main category: cs.CV

TL;DR: 2025年SSBC竞赛总结,比较了基于合成数据和混合数据的巩膜分割模型性能,结果显示合成数据训练的模型表现优异。

  • Motivation: 评估合成数据训练的巩膜分割模型性能,推动隐私保护生物识别技术发展。
  • Method: 竞赛分两赛道:纯合成数据和混合数据训练模型,参赛者采用多种架构设计。
  • Result: 纯合成数据训练的模型表现优异(F1分数>0.8),混合赛道性能提升更多依赖方法而非真实数据。
  • Conclusion: 合成数据在隐私保护生物识别开发中具有潜力。

[83] Axis-level Symmetry Detection with Group-Equivariant Representation

Wongyun Yu,Ahyun Seo,Minsu Cho

Main category: cs.CV

TL;DR: 提出了一种新框架,用于检测反射和旋转对称性,通过几何基元表示对称轴,采用双分支架构,性能优于现有方法。

  • Motivation: 复杂场景中对称性检测仍具挑战性,现有热图方法在识别单个对称轴时精度不足。
  • Method: 使用双分支架构,分别处理反射和旋转对称性,引入方向锚点和反射/旋转匹配机制。
  • Result: 实验表明,该方法在性能上优于现有方法。
  • Conclusion: 提出的框架在对称性检测中表现优异,为复杂场景提供了更精确的解决方案。

[84] Forgery Guided Learning Strategy with Dual Perception Network for Deepfake Cross-domain Detection

Lixin Jia,Zhiqing Guo,Gaobo Yang,Liejun Wang,Keqin Li

Main category: cs.CV

TL;DR: 提出了一种基于伪造引导学习(FGL)和双感知网络(DPNet)的深度伪造检测方法,以应对未知伪造技术的挑战。

  • Motivation: 当前深度伪造检测方法在未知伪造技术上表现不佳,亟需一种具有强泛化能力的技术。
  • Method: 采用FGL策略捕获已知与未知伪造技术的差异信息,设计DPNet动态感知伪造痕迹的差异与关系。
  • Result: 实验表明,该方法在不同场景下泛化能力强,能有效处理未知伪造技术。
  • Conclusion: FGL和DPNet为深度伪造检测提供了鲁棒支持,代码已开源。

[85] An Efficient Model-Driven Groupwise Approach for Atlas Construction

Ziwei Zou,Bei Zou,Xiaoyan Kui,Wenqi Lu,Haoran Dou,Arezoo Zakeri,Timothy Cootes,Alejandro F Frangi,Jinming Duan

Main category: cs.CV

TL;DR: DARC是一种新型模型驱动的群组配准框架,用于高效构建医学图像图谱,支持多种图像相似性度量,并解决了GPU内存问题。

  • Motivation: 数据驱动方法依赖大数据集且泛化性差,模型驱动方法虽高效但面临可扩展性和优化挑战。DARC旨在提供一种灵活、通用的解决方案。
  • Method: 采用坐标下降策略和中心化激活函数,实现无偏、微分同胚的图谱构建。
  • Result: DARC在一次性分割和形状合成中表现优异,超越现有方法。
  • Conclusion: DARC为图谱构建及其应用提供了高效、通用的框架。

[86] From Diagnosis to Improvement: Probing Spatio-Physical Reasoning in Vision Language Models

Tiancheng Han,Yunfei Gao,Yong Li,Wuzhou Yu,Qiaosheng Zhang,Wenqi Shao

Main category: cs.CV

TL;DR: 论文分析了主流视觉语言模型(VLMs)在空间物理推理任务中的不足,提出了一种结合监督微调和规则强化学习的方法,显著提升了模型性能,但泛化能力仍有局限。

  • Motivation: 空间物理推理是理解现实物理世界的基础能力,但当前视觉语言模型在此任务上的表现尚未充分探索,存在明显不足。
  • Method: 采用监督微调(supervised fine-tuning)和基于规则的强化学习(rule-based reinforcement learning)对Qwen2.5-VL-7B模型进行优化。
  • Result: 优化后的模型在空间物理推理任务上表现显著提升,超越了主流专有模型。
  • Conclusion: 尽管模型性能有所提升,但在新物理场景下的泛化能力仍然有限,亟需新的方法进一步改进。

[87] AEGIS: Authenticity Evaluation Benchmark for AI-Generated Video Sequences

Jieyu Li,Xin Zhang,Joey Tianyi Zhou

Main category: cs.CV

TL;DR: AEGIS是一个新的大规模基准数据集,用于检测高度真实和语义复杂的AI生成视频,填补了现有基准的不足。

  • Motivation: AI生成的合成视频对社会信任和数字完整性构成严重威胁,现有检测基准在真实性、规模和复杂性上不足。
  • Method: AEGIS包含10,000多个精心筛选的真实和合成视频,涵盖多种先进生成模型,并提供多模态注释。
  • Result: 实验显示现有模型在AEGIS最具挑战性的子集上检测能力有限,突显其独特复杂性。
  • Conclusion: AEGIS为开发鲁棒、可靠的视频真实性检测方法提供了关键基准,推动应对现实伪造威胁的研究。

[88] Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation

Youping Gu,Xiaolong Li,Yuhao Hu,Bohan Zhuang

Main category: cs.CV

TL;DR: BLADE提出了一种数据无关的联合训练框架,结合自适应块稀疏注意力机制和稀疏感知的步蒸馏方法,显著提升了视频生成模型的推理速度和生成质量。

  • Motivation: 扩散变换器在高质量视频生成中表现优异,但其迭代去噪过程缓慢且长序列的二次注意力成本高昂,导致推理瓶颈。现有加速方法(步蒸馏和稀疏注意力)单独使用效果有限,联合训练又面临数据需求高的问题。
  • Method: BLADE框架包含自适应块稀疏注意力(ASA)机制和基于轨迹分布匹配(TDM)的稀疏感知步蒸馏方法,动态生成内容感知的稀疏掩码并直接融入蒸馏过程。
  • Result: 在CogVideoX-5B和Wan2.1-1.3B模型上,BLADE分别实现了8.89x和14.10x的推理加速,同时VBench-2.0评分显著提升。
  • Conclusion: BLADE通过联合训练稀疏注意力与步蒸馏,高效解决了视频生成模型的推理瓶颈,同时提升了生成质量。

[89] Ultra-High-Definition Reference-Based Landmark Image Super-Resolution with Generative Diffusion Prior

Zhenning Shi,Zizheng Yan,Yuhang Yu,Clara Xue,Jingyu Zhuang,Qi Zhang,Jinwei Chen,Tao Li,Qingnan Fan

Main category: cs.CV

TL;DR: 论文提出TriFlowSR框架,通过显式匹配低分辨率图像与参考高分辨率图像,解决了现有方法信息对齐不足的问题,并引入首个超高清地标场景RefSR数据集Landmark-4K。

  • Motivation: 现有基于ControlNet的RefSR方法难以有效对齐低分辨率图像与参考高分辨率图像的信息,且现有数据集分辨率低、质量差,无法支持高质量恢复。
  • Method: 提出TriFlowSR框架,设计Reference Matching Strategy显式匹配图像,并引入Landmark-4K数据集。
  • Result: 实验表明,TriFlowSR能更好地利用参考高分辨率图像的语义和纹理信息。
  • Conclusion: TriFlowSR是首个针对超高清地标场景的扩散基RefSR方法,解决了实际退化问题。

[90] Cooperative Face Liveness Detection from Optical Flow

Artem Sokolov,Mikhail Nikitin,Anton Konushin

Main category: cs.CV

TL;DR: 提出了一种基于用户交互的新型视频活体检测方法,通过控制面部接近相机的动作结合光流分析,显著提高了对真实面部和攻击的区分能力。

  • Motivation: 现有被动活体检测方法在区分真实面部和多种攻击(如打印照片、屏幕显示、面具和视频重放)时效果有限,需要更主动的交互方式提升准确性。
  • Method: 设计了用户缓慢将面部靠近相机的交互场景,结合光流分析和神经网络分类器,提取时空特征进行活体检测。
  • Result: 该方法通过主动交互和光流分析,显著提高了对真实面部和攻击的区分能力。
  • Conclusion: 提出的交互式光流分析方法在活体检测中表现出更高的可靠性和鲁棒性。

[91] VasoMIM: Vascular Anatomy-Aware Masked Image Modeling for Vessel Segmentation

De-Xing Huang,Xiao-Hu Zhou,Mei-Jiang Gui,Xiao-Liang Xie,Shi-Qi Liu,Shuang-Yi Wang,Tian-Yu Xiang,Rui-Ze Ma,Nu-Fang Xiao,Zeng-Guang Hou

Main category: cs.CV

TL;DR: VasoMIM是一种针对X射线血管造影的自监督学习框架,通过引入血管解剖知识改进传统MIM,显著提升了血管分割性能。

  • Motivation: 解决传统MIM方法因血管与背景像素类别不平衡导致的血管表征不足问题。
  • Method: 提出VasoMIM框架,包含解剖引导的掩蔽策略和解剖一致性损失,专注于血管区域的重建和语义一致性。
  • Result: 在三个数据集上达到最先进性能。
  • Conclusion: VasoMIM有望推动X射线血管造影分析的进步。

[92] Object Fidelity Diffusion for Remote Sensing Image Generation

Ziqi Ye,Shuran Ma,Jie Yang,Xiaoyi Yang,Ziyang Gong,Xue Yang,Haipeng Wang

Main category: cs.CV

TL;DR: 本文提出了一种名为OF-Diff的方法,通过提取对象先验形状和引入双分支扩散模型,显著提升了遥感图像生成的精确性和保真度。

  • Motivation: 现有扩散模型在遥感图像生成中难以捕捉形态细节,导致生成图像保真度低,影响目标检测模型的鲁棒性和可靠性。
  • Method: 提出OF-Diff方法,首次基于布局提取对象先验形状,并引入双分支扩散模型和扩散一致性损失,无需真实图像即可生成高保真遥感图像。此外,使用DDPO优化扩散过程,增强多样性和语义一致性。
  • Result: 实验表明,OF-Diff在关键质量指标上优于现有方法,多态和小目标类别的性能显著提升,如飞机、船只和车辆的mAP分别提高8.3%、7.7%和4.0%。
  • Conclusion: OF-Diff通过改进对象保真度和多样性,为高精度遥感图像生成提供了有效解决方案。

[93] Mobile-Friendly Deep Learning for Plant Disease Detection: A Lightweight CNN Benchmark Across 101 Classes of 33 Crops

Anand Kumar,Harminder Pal Monga,Tapasi Brahma,Satyam Kalra,Navas Sherif

Main category: cs.CV

TL;DR: 开发了一种基于移动设备的植物病害早期检测系统,能够准确分类33种作物的101种病害,最佳模型EfficientNet-B1的准确率达94.7%。

  • Motivation: 植物病害对全球粮食安全构成威胁,需要开发早期检测系统以应对这一挑战。
  • Method: 结合多个数据集(Plant Doc、PlantVillage、PlantWild),评估了多种轻量级架构(MobileNetV2、MobileNetV3、EfficientNet-B0/B1)。
  • Result: EfficientNet-B1表现最佳,分类准确率为94.7%,在准确性和计算效率间取得平衡。
  • Conclusion: 该系统适合在移动设备上部署,为植物病害检测提供了高效解决方案。

[94] UI-Venus Technical Report: Building High-performance UI Agents with RFT

Zhangxuan Gu,Zhengwen Zeng,Zhenyu Xu,Xingran Zhou,Shuheng Shen,Yunfei Liu,Beitong Zhou,Changhua Meng,Tianyu Xia,Weizhi Chen,Yue Wen,Jingya Dou,Fei Tang,Jinzhen Lin,Yulin Liu,Zhenlin Guo,Yichen Gong,Heng Jia,Changlong Gao,Yuan Guo,Yong Deng,Zhenyu Guo,Liang Chen,Weiqiang Wang

Main category: cs.CV

TL;DR: UI-Venus是一个基于多模态大语言模型的UI代理,仅需截图输入,通过强化微调在少量高质量样本上实现SOTA性能。

  • Motivation: 解决UI基础任务(如定位和导航)的挑战,提升现有模型的性能。
  • Method: 采用强化微调(RFT)和精心设计的奖励函数,结合高效数据清理策略,并提出自进化轨迹历史对齐和稀疏动作增强方法。
  • Result: 在标准基准测试中表现优异,7B和72B模型分别达到94.1%/50.8%和95.3%/61.9%的准确率,并在导航任务中显著超越现有模型。
  • Conclusion: UI-Venus为开源社区提供了SOTA模型、数据清理协议和自进化框架,推动UI代理领域的进一步发展。

[95] Self-Supervised Stereo Matching with Multi-Baseline Contrastive Learning

Peng Xu,Zhiyu Xiang,Jingyun Fu,Tianyu Pu,Kai Wang,Chaojie Ji,Tingming Bai,Eryun Liu

Main category: cs.CV

TL;DR: BaCon-Stereo提出了一种基于对比学习的自监督立体匹配框架,通过教师-学生范式处理遮挡区域,提升了预测效果。

  • Motivation: 解决现有自监督立体匹配方法在遮挡区域因光度一致性假设失效而表现不佳的问题。
  • Method: 采用教师-学生范式,利用多基线输入和遮挡感知注意力图,通过教师模型预测指导学生学习。
  • Result: 在KITTI 2015和2012基准测试中表现优于现有自监督方法,提升了遮挡和非遮挡区域的预测效果。
  • Conclusion: BaCon-Stereo框架有效解决了遮挡区域的预测问题,具有强泛化能力和鲁棒性。

[96] Generalizable Federated Learning using Client Adaptive Focal Modulation

Tajamul Ashraf,Iqra Altaf Gillani

Main category: cs.CV

TL;DR: 论文提出了AdaptFED,一种改进的联邦学习框架,通过任务感知的客户端嵌入和低秩超网络条件优化,提升了非独立同分布和跨域场景下的性能。

  • Motivation: 解决联邦学习在非独立同分布和跨域场景下的性能问题,并减少服务器与客户端之间的通信开销。
  • Method: 引入任务感知的客户端嵌入和低秩超网络条件优化,改进焦点调制层的个性化动态。
  • Result: 在八个多样化数据集上验证了方法的优越性,特别是在无源和跨任务联邦设置中。
  • Conclusion: AdaptFED不仅扩展了焦点调制在联邦学习中的应用,还为更自适应、可扩展和通用的基于Transformer的联邦系统铺平了道路。

[97] Hierarchical Fine-grained Preference Optimization for Physically Plausible Video Generation

Harold Haodong Chen,Haojian Huang,Qifeng Chen,Harry Yang,Ser-Nam Lim

Main category: cs.CV

TL;DR: PhysHPO提出了一种分层跨模态直接偏好优化框架,通过四个层次的细粒度对齐提升物理合理的视频生成质量。

  • Motivation: 当前视频生成技术虽能生成高质量视频,但在物理合理性上仍有不足,限制了真实感和准确性。
  • Method: PhysHPO通过实例、状态、运动和语义四个层次进行细粒度偏好对齐,并引入自动数据选择流程优化数据集。
  • Result: 实验表明,PhysHPO显著提升了视频生成的物理合理性和整体质量。
  • Conclusion: 该研究首次探索了细粒度偏好对齐和数据选择,为更真实、符合人类偏好的视频生成奠定了基础。

[98] Performance of GPT-5 in Brain Tumor MRI Reasoning

Mojtaba Safari,Shansong Wang,Mingzhe Hu,Zach Eidex,Qiang Li,Xiaofeng Yang

Main category: cs.CV

TL;DR: 论文研究了GPT系列模型在脑肿瘤MRI视觉问答任务中的表现,发现GPT-5-mini表现最佳,但整体准确率仍不足以用于临床。

  • Motivation: 脑肿瘤类型的准确区分对治疗规划至关重要,而大型语言模型(LLMs)在视觉问答(VQA)中的应用为这一领域提供了新方法。
  • Method: 研究评估了GPT-4o、GPT-5-nano、GPT-5-mini和GPT-5在基于BraTS数据集的脑肿瘤VQA任务中的表现,采用零样本链式推理设置。
  • Result: GPT-5-mini表现最佳(44.19%),但所有模型的准确率均未达到临床可接受水平。
  • Conclusion: GPT-5系列模型在结构化神经肿瘤VQA任务中表现中等,但尚不适用于临床。

[99] TexVerse: A Universe of 3D Objects with High-Resolution Textures

Yibo Zhang,Li Zhang,Rui Ma,Nan Cao

Main category: cs.CV

TL;DR: TexVerse是一个大规模高分辨率纹理3D数据集,填补了现有数据集的空白,包含858K独特模型和1.6M实例,支持多种3D图形任务。

  • Motivation: 当前大规模3D数据集缺乏高分辨率纹理数据,限制了端到端高分辨率纹理生成的研究。
  • Method: 从Sketchfab收集并整理超过858K高分辨率3D模型,包括PBR材质、骨架和动画数据,并提供详细注释。
  • Result: TexVerse包含1.6M实例,涵盖PBR材质、骨架和动画,为纹理合成、动画等任务提供高质量数据。
  • Conclusion: TexVerse为3D图形和视觉任务提供了丰富的高质量数据资源,具有广泛应用潜力。

[100] Medico 2025: Visual Question Answering for Gastrointestinal Imaging

Sushant Gautam,Vajira Thambawita,Michael Riegler,Pål Halvorsen,Steven Hicks

Main category: cs.CV

TL;DR: Medico 2025挑战赛聚焦于胃肠道内窥镜图像的视觉问答(VQA),旨在开发可解释的人工智能(XAI)模型,提供符合医学推理的答案和解释。

  • Motivation: 推动医学图像分析中可信赖AI的发展,通过结合定量性能指标和专家评审的解释性评估。
  • Method: 使用Kvasir-VQA-x1数据集,包含6,500张图像和159,549个复杂QA对,分为两个子任务:视觉问答和多模态解释生成。
  • Result: 挑战赛为医学AI领域提供了标准化数据集和评估框架。
  • Conclusion: 该任务促进了可解释AI在医疗领域的应用,提升了临床决策的透明度和信任度。

[101] ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Lingen Li,Guangzhi Wang,Zhaoyang Zhang,Yaowei Li,Xiaoyu Li,Qi Dou,Jinwei Gu,Tianfan Xue,Ying Shan

Main category: cs.CV

TL;DR: ToonComposer是一种生成模型,将中间帧生成和上色统一为一个后关键帧阶段,通过稀疏草图注入和卡通适配方法提升控制性和灵活性。

  • Motivation: 传统卡通和动漫制作需要大量手动工作,现有AI方法分阶段处理导致误差累积和伪影。ToonComposer旨在解决这些问题。
  • Method: 采用稀疏草图注入机制和空间低秩适配器,将现代视频基础模型适配到卡通领域,保持时间先验。
  • Result: ToonComposer在视觉质量、运动一致性和生产效率上优于现有方法,支持稀疏输入和多草图控制。
  • Conclusion: ToonComposer为AI辅助卡通制作提供了更优、更灵活的解决方案。

[102] STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

Yushi Lan,Yihang Luo,Fangzhou Hong,Shangchen Zhou,Honghua Chen,Zhaoyang Lyu,Shuai Yang,Bo Dai,Chen Change Loy,Xingang Pan

Main category: cs.CV

TL;DR: STream3R是一种基于Transformer的3D重建方法,通过流式处理和因果注意力机制高效处理图像序列,优于现有方法。

  • Motivation: 现有多视图重建方法依赖昂贵的全局优化或简单内存机制,难以处理长序列和动态场景。
  • Method: 采用解码器专用Transformer,结合因果注意力和几何先验学习,支持流式处理和大规模预训练。
  • Result: 在静态和动态场景基准测试中表现优异,兼容LLM式训练基础设施。
  • Conclusion: 展示了因果Transformer模型在实时3D感知中的潜力,适用于流式环境。

[103] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

Antoine Labatie,Michael Vaccaro,Nina Lardiere,Anatol Garioud,Nicolas Gonthier

Main category: cs.CV

TL;DR: 论文提出了一种名为MAESTRO的自监督学习方法,针对遥感数据的特点优化了融合策略和目标归一化方案,在多时相动态任务中表现优异。

  • Motivation: 自监督学习在遥感领域潜力巨大,但现有方法需适应地球观测数据的独特特性。
  • Method: 通过基准测试评估融合策略和重建目标归一化方案,提出MAESTRO方法,结合优化的融合策略和光谱先验的自监督信号。
  • Result: 在四个数据集上评估,MAESTRO在多时相动态任务中达到新最优水平,在单时相任务中表现优异。
  • Conclusion: MAESTRO为遥感数据的自监督学习提供了有效解决方案,代码已开源。

[104] ESSENTIAL: Episodic and Semantic Memory Integration for Video Class-Incremental Learning

Jongseo Lee,Kyungho Bae,Kyle Min,Gyeong-Moon Park,Jinwoo Choi

Main category: cs.CV

TL;DR: 论文提出ESSENTIAL方法,通过结合情景记忆和语义记忆解决视频类增量学习中的记忆效率与性能权衡问题。

  • Motivation: 现有视频类增量学习方法在记忆效率和性能之间存在权衡,要么存储密集样本导致内存浪费,要么存储稀疏样本丢失关键时序信息。
  • Method: 提出ESSENTIAL方法,结合情景记忆(存储稀疏特征)和语义记忆(存储可学习提示),并引入记忆检索模块通过交叉注意力整合两者。
  • Result: 在多个数据集上验证,ESSENTIAL以显著减少的内存实现了优越性能。
  • Conclusion: ESSENTIAL有效解决了视频类增量学习中的记忆效率与性能问题。

[105] Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning

Mengyuan Liu,Xinshun Wang,Zhongbin Fang,Deheng Ye,Xia Li,Tao Tang,Songtao Wu,Xiangtai Li,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: 提出了一种统一跨领域3D人体运动模型HiC,通过单阶段训练解决现有模型依赖领域特定组件和多阶段训练的问题,提升了泛化能力和性能。

  • Motivation: 现有跨领域模型依赖领域特定组件和多阶段训练,限制了实用性和扩展性,需改进。
  • Method: 提出Pose-in-Context (PiC)和Human-in-Context (HiC)模型,后者结合姿态和网格表示,扩展任务覆盖范围,并引入最大-最小相似性提示采样策略和双分支上下文注入架构。
  • Result: HiC在泛化能力、数据规模和性能上优于PiC,展示了统一跨领域模型的潜力。
  • Conclusion: HiC为构建灵活且可扩展的统一跨领域3D人体运动模型提供了有效解决方案。

[106] Puppeteer: Rig and Animate Your 3D Models

Chaoyue Song,Xiu Li,Fan Yang,Zhongcong Xu,Jiacheng Wei,Fayao Liu,Jiashi Feng,Guosheng Lin,Jianfeng Zhang

Main category: cs.CV

TL;DR: Puppeteer是一个自动化3D模型绑定和动画生成的框架,通过预测骨骼结构和皮肤权重,结合优化动画流程,显著提升了动画质量和效率。

  • Motivation: 现代交互应用需要动态3D内容,但静态3D模型的动画化仍依赖专家干预,亟需自动化解决方案。
  • Method: 使用自回归变换器预测骨骼结构,结合注意力架构推断皮肤权重,并通过可微分优化生成动画。
  • Result: 在多个基准测试中,Puppeteer在骨骼预测和皮肤权重质量上优于现有技术,并能稳定处理多样化的3D内容。
  • Conclusion: Puppeteer为3D内容创作提供了高效、高质量的自动化解决方案,减少了专家依赖。

[107] Quantum Visual Fields with Neural Amplitude Encoding

Shuteng Wang,Christian Theobalt,Vladislav Golyanik

Main category: cs.CV

TL;DR: 本文提出了一种新型量子隐式神经表示(QVF),用于2D图像和3D几何场学习,通过量子态向量编码数据,提升了视觉表示的准确性。

  • Motivation: 量子隐式神经表示(QINRs)在架构、设计、训练效率等方面存在挑战,本文旨在解决这些问题并探索其潜力。
  • Method: QVF采用神经振幅编码和全纠缠的可学习参数化量子电路,在实希尔伯特空间中实现稳定训练和快速收敛。
  • Result: 实验表明,QVF在视觉表示准确性上优于现有量子方法和经典基线,并展示了在2D和3D任务中的实际应用。
  • Conclusion: QVF为量子视觉场学习提供了高效且稳定的解决方案,具有广泛的应用前景。

cs.RO

[108] ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

Wenxuan Song,Ziyang Zhou,Han Zhao,Jiayi Chen,Pengxiang Ding,Haodong Yan,Yuxin Huang,Feilong Tang,Donglin Wang,Haoang Li

Main category: cs.RO

TL;DR: ReconVLA是一种通过重构视觉注意力区域来提升视觉-语言-动作模型性能的方法,解决了当前模型视觉注意力分散的问题。

  • Motivation: 当前视觉-语言-动作模型在视觉注意力分配上表现不佳,注意力分散导致目标区域识别不准确。
  • Method: 提出ReconVLA,利用扩散变换器重构图像中的目标区域,引导模型学习细粒度表示并准确分配视觉注意力。
  • Result: 实验证明该方法在模拟和真实环境中均表现出色,实现了精确操作和良好的泛化能力。
  • Conclusion: ReconVLA通过隐式接地范式显著提升了视觉-语言-动作模型的性能,为机器人操作任务提供了有效解决方案。

[109] CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

Zhuoyuan Yu,Yuxing Long,Zihan Yang,Chengyan Zeng,Hongwei Fan,Jiyao Zhang,Hao Dong

Main category: cs.RO

TL;DR: 论文提出了一种名为Self-correction Flywheel的后训练范式,通过利用模型的错误轨迹生成自校正数据,逐步提升视觉语言导航模型的性能。

  • Motivation: 现有视觉语言导航模型在执行指令时容易偏离正确轨迹,且缺乏有效的错误校正能力。
  • Method: 提出Self-correction Flywheel范式,将错误轨迹视为有价值的数据源,生成自校正数据用于持续训练。
  • Result: 在R2R-CE和RxR-CE基准测试中,CorrectNav模型分别达到65.1%和69.3%的成功率,优于之前最佳模型。
  • Conclusion: 该方法显著提升了模型的错误校正能力和动态障碍物避障能力,适用于复杂环境。

eess.IV

[110] Explainable AI Technique in Lung Cancer Detection Using Convolutional Neural Networks

Nishan Rai,Sujan Khatri,Devendra Risal

Main category: eess.IV

TL;DR: 提出一种基于深度学习的肺癌筛查框架,结合可解释性技术,使用多种CNN模型在CT图像上实现高精度分类。

  • Motivation: 肺癌早期检测对提高生存率至关重要,但传统方法依赖人工且效率低。
  • Method: 采用自定义CNN及微调的DenseNet121、ResNet152和VGG19模型,结合成本敏感学习解决类别不平衡问题。
  • Result: ResNet152准确率最高(97.3%),DenseNet121在精确率、召回率和F1分数上表现最佳(分别达92%、90%、91%)。SHAP技术增强了模型的可解释性。
  • Conclusion: 结合可解释性的CNN方法可为肺癌筛查提供快速、准确且透明的支持,尤其适用于资源有限的环境。

[111] Data-Efficient Learning for Generalizable Surgical Video Understanding

Sahar Nasirihaghighi

Main category: eess.IV

TL;DR: 该博士研究通过改进深度学习模型和半监督框架,解决了手术视频分析中的标注稀缺、时空复杂性和领域差距问题,并发布了两个多任务数据集以推动领域发展。

  • Motivation: 手术视频分析在临床部署中面临标注稀缺、时空复杂性和领域差距等挑战,研究旨在开发鲁棒且通用的AI系统以支持手术流程。
  • Method: 通过基准测试选择最优神经网络架构,提出新架构和模块,开发半监督框架(如DIST、SemiVT-Surge和ENCORE)以减少对标注数据的依赖。
  • Result: 提出的半监督框架在手术数据集上实现了最先进性能,并发布了GynSurg和Cataract-1K两个多任务数据集。
  • Conclusion: 研究为手术视频分析提供了鲁棒、高效且可扩展的解决方案,为AI系统在手术护理和培训中的应用奠定了基础。

[112] DINOMotion: advanced robust tissue motion tracking with DINOv2 in 2D-Cine MRI-guided radiotherapy

Soorena Salari,Catherine Spino,Laurie-Anne Pharand,Fabienne Lathuiliere,Hassan Rivaz,Silvain Beriault,Yiming Xiao

Main category: eess.IV

TL;DR: DINOMotion是一种基于DINOv2和LoRA层的新型深度学习框架,用于2D-Cine MRI引导放疗中的运动跟踪,具有高效、鲁棒和可解释性。

  • Motivation: 现有方法在大错位和可解释性方面存在不足,需要一种更高效、鲁棒的解决方案。
  • Method: 结合DINOv2的强大特征表示和LoRA层减少可训练参数,直接计算图像配准。
  • Result: 在肾脏、肝脏和肺部的实验中,Dice分数分别为92.07%、90.90%和95.23%,Hausdorff距离分别为5.47 mm、8.31 mm和6.72 mm,处理速度约30ms/扫描。
  • Conclusion: DINOMotion在实时运动跟踪中表现出色,具有潜在临床应用价值。

[113] Efficient Image Denoising Using Global and Local Circulant Representation

Zhaoming Kong,Jiahuan Zhang,Xiaowei Yang

Main category: eess.IV

TL;DR: 提出了一种基于Haar变换和t-SVD的图像去噪算法Haar-tSVD,结合非局部自相似性和PCA,实现高效并行化去噪。

  • Motivation: 随着成像设备的进步和图像数据的爆炸式增长,对高效去噪算法的需求日益增加。
  • Method: 利用Haar变换和t-SVD统一捕获全局和局部相关性,无需学习局部基,结合CNN噪声估计增强鲁棒性。
  • Result: 实验验证了Haar-tSVD在去噪速度和性能上的平衡,能有效去除噪声并保留细节。
  • Conclusion: Haar-tSVD是一种高效、并行化的去噪方法,适用于实际任务,代码和数据已开源。

[114] DIVA-VQA: Detecting Inter-frame Variations in UGC Video Quality

Xinyi Wang,Angeliki Katsenou,David Bull

Main category: eess.IV

TL;DR: 论文提出了一种基于帧间变化的时空碎片化无参考视频质量评估(NR-VQA)模型,通过多层级分析质量敏感区域,结合2D和3D特征提取,在五个UGC数据集上表现优异,平均排名前二。

  • Motivation: 随着用户生成视频内容(UGC)的快速增长,无参考视频质量评估(NR-VQA)成为社交媒体和流媒体应用中大规模视频质量监测的关键需求。
  • Method: 模型利用帧间差异,逐步分析帧、块和碎片化帧的质量敏感区域,整合帧、碎片化残差和对齐的碎片化帧,提取2D和3D特征以捕捉时空变化。
  • Result: 在五个UGC数据集上,模型平均排名前二(DIVA-VQA-L: 0.898,DIVA-VQA-B: 0.886),且运行复杂度低。
  • Conclusion: 提出的NR-VQA模型在性能和效率上均优于现有方法,代码和模型已开源。

[115] When Experts Disagree: Characterizing Annotator Variability for Vessel Segmentation in DSA Images

M. Geshvadi,G. So,D. D. Chlorogiannis,C. Galvin,E. Torio,A. Azimi,Y. Tachie-Baffour,N. Haouchine,A. Golby,M. Vangel,W. M. Wells,Y. Epelboym,R. Du,F. Durupinar,S. Frisken

Main category: eess.IV

TL;DR: 分析2D DSA中颅脑血管分割的变异性,量化分割不确定性,并探讨其在指导额外标注和开发不确定性感知自动分割方法中的应用。

  • Motivation: 研究多标注者对颅脑血管分割的变异性,以量化分割不确定性。
  • Method: 分析多标注者的2D DSA颅脑血管分割数据,量化不确定性。
  • Result: 量化了分割不确定性,并提出了其在标注和自动分割中的应用方向。
  • Conclusion: 分割不确定性分析可指导标注改进和开发不确定性感知的自动分割方法。

cs.CR

[116] Invisible Watermarks, Visible Gains: Steering Machine Unlearning with Bi-Level Watermarking Design

Yuhao Sun,Yihua Zhang,Gaowen Liu,Hongtao Xie,Sijia Liu

Main category: cs.CR

TL;DR: 论文提出了一种基于数字水印的机器遗忘(MU)新方法Water4MU,通过优化水印网络降低遗忘难度,提升遗忘效果。

  • Motivation: 随着‘被遗忘权’需求增加,机器遗忘成为提升信任和合规性的重要工具,但现有方法多依赖模型权重调整,数据层面调整的潜力未被充分探索。
  • Method: 提出Water4MU框架,采用双层优化(BLO)设计:上层优化水印网络以降低遗忘难度,下层独立训练模型。
  • Result: 实验表明,Water4MU在图像分类和生成任务中均有效,尤其在‘挑战性遗忘’场景中优于现有方法。
  • Conclusion: Water4MU通过数据水印优化,为机器遗忘提供了高效且可控的解决方案。

q-bio.NC

[117] Insights from the Algonauts 2025 Winners

Paul S. Scotti,Mihir Tripathy

Main category: q-bio.NC

TL;DR: Algonauts 2025挑战赛聚焦于通过多模态电影预测人类大脑活动,MedARC团队获得第四名。

  • Motivation: 推动计算神经科学领域发展,探索大脑对自然刺激的编码机制。
  • Method: 使用长时多模态电影刺激,预测fMRI响应,基于CNeuroMod项目数据。
  • Result: 优胜团队成功预测了大脑活动,MedARC团队排名第四。
  • Conclusion: 挑战赛揭示了当前大脑编码研究的进展,并展望了未来方向。

cs.LG

[118] From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation

Ke Niu,Haiyang Yu,Zhuofan Chen,Mengyang Zhao,Teng Fu,Bin Li,Xiangyang Xue

Main category: cs.LG

TL;DR: CAD-RL是一种结合多模态思维链(CoT)和强化学习的框架,用于从自然语言生成CAD建模代码,显著提升了推理质量、输出精度和代码可执行性。

  • Motivation: 当前CAD工作流程需要大量领域专业知识和手动建模,而直接翻译设计意图为可执行代码仍具挑战性。
  • Method: 结合CoT冷启动和目标驱动的强化学习,采用三种任务特定奖励和三种优化策略。
  • Result: 实验表明,CAD-RL在推理质量、输出精度和代码可执行性上优于现有方法。
  • Conclusion: CAD-RL为自动化CAD建模提供了有效解决方案,并发布了ExeCAD数据集支持后续研究。

[119] AI-Driven Detection and Analysis of Handwriting on Seized Ivory: A Tool to Uncover Criminal Networks in the Illicit Wildlife Trade

Will Fein,Ryan J. Horwitz,John E. Brown III,Amit Misra,Felipe Oviedo,Kevin White,Juan M. Lavista Ferres,Samuel K. Wasser

Main category: cs.LG

TL;DR: AI分析象牙上的手写标记,提供低成本、可扩展的取证证据,补充现有技术。

  • Motivation: 跨国象牙贸易导致非洲象数量下降,现有取证技术(如DNA分析)成本高且有时不可行,而手写标记虽易获取但未被充分利用。
  • Method: 收集6,085张象牙照片,使用目标检测模型提取17,000多个标记,通过AI工具识别184个重复标记,其中20个连接多个查获批次。
  • Result: 发现20个重复标记连接多个象牙查获批次,证明AI手写分析可作为补充取证手段。
  • Conclusion: AI手写分析填补了取证空白,展示了其在打击野生动物犯罪中的潜力。

[120] SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning

Weijian Mai,Jiamin Wu,Yu Zhu,Zhouheng Yao,Dongzhan Zhou,Andrew F. Luo,Qihao Zheng,Wanli Ouyang,Chunfeng Song

Main category: cs.LG

TL;DR: SynBrain是一个生成框架,通过概率建模和语义约束解决视觉到神经映射中的变异性问题,优于现有方法。

  • Motivation: 现有确定性方法难以同时建模生物变异性与功能一致性,SynBrain旨在解决这一问题。
  • Method: 引入BrainVAE和语义到神经映射器,通过概率学习和语义约束建模神经响应。
  • Result: SynBrain在视觉到fMRI编码性能上超越现有方法,并能高效适应新被试。
  • Conclusion: SynBrain揭示了跨试验和被试的功能一致性,为神经变异性提供了可解释的建模。

[121] Improving Learning of New Diseases through Knowledge-Enhanced Initialization for Federated Adapter Tuning

Danni Peng,Yuan Wang,Kangning Cai,Peiyan Ning,Jiming Xu,Yong Liu,Rick Siow Mong Goh,Qingsong Wei,Huazhu Fu

Main category: cs.LG

TL;DR: FedKEI是一种利用跨客户端和跨任务知识迁移的联邦学习框架,通过聚类和权重优化快速适应新任务。

  • Motivation: 医疗环境中需要快速适应新任务或疾病,同时保护隐私,FedKEI旨在通过知识迁移实现高效适配。
  • Method: FedKEI通过全局聚类和双层次优化(集群间和集群内权重)实现知识迁移,并利用适配器调整新任务。
  • Result: 在皮肤病、胸部X光和视网膜OCT数据集上,FedKEI优于现有方法,能更快适应新疾病。
  • Conclusion: FedKEI通过知识迁移和个性化权重优化,显著提升了联邦学习在医疗任务中的适应能力。

[122] On the Complexity-Faithfulness Trade-off of Gradient-Based Explanations

Amir Mehrpanah,Matteo Gamba,Kevin Smith,Hossein Azizpour

Main category: cs.LG

TL;DR: 论文提出了一种统一的光谱框架,用于分析和量化解释的平滑性与忠实性及其权衡,并通过正则化ReLU网络对高频信息的贡献来解决现有方法的局限性。

  • Motivation: 现有方法(如GradCAM)通过生成替代模型来平滑解释,但牺牲了忠实性。ReLU网络的尖锐过渡和依赖单个像素的特性导致梯度解释噪声大且难以解释。
  • Method: 引入光谱框架,系统分析平滑性和忠实性,并量化ReLU网络对高频信息的贡献。通过正则化方法识别权衡点。
  • Result: 分析表明替代平滑方法会扭曲解释,形成“解释差距”。实验验证了理论发现。
  • Conclusion: 提出的框架为解释的平滑性与忠实性提供了理论基础,并通过实验验证了其有效性。

[123] On Spectral Properties of Gradient-based Explanation Methods

Amir Mehrpanah,Erik Englesson,Hossein Azizpour

Main category: cs.LG

TL;DR: 该论文通过概率和频谱视角分析深度网络的解释方法,揭示了梯度使用中的频谱偏差,并提出两种改进方法:标准化扰动尺度和SpectralLens聚合方法。

  • Motivation: 理解深度网络行为以增强对其结果的信心,但现有解释方法存在可靠性问题,需更形式化的分析。
  • Method: 采用概率和频谱视角分析解释方法,研究梯度偏差及扰动超参数选择的影响。
  • Result: 发现梯度使用中的频谱偏差,提出标准化扰动尺度和SpectralLens聚合方法,并通过实验验证。
  • Conclusion: 形式化分析揭示了梯度偏差问题,提出的改进方法提高了解释的可靠性。

[124] Geospatial Diffusion for Land Cover Imperviousness Change Forecasting

Debvrat Varshney,Vibhas Vats,Bhartendu Pandey,Christa Brelsford,Philipe Dias

Main category: cs.LG

TL;DR: 论文提出了一种基于生成式AI(GenAI)的新范式,用于预测土地利用和土地覆盖变化(LULC),并通过实验验证了其可行性。

  • Motivation: 当前区域地球系统模型在预测未来气候情景下的水文和大气过程方面表现优异,但LULC预测能力滞后,而LULC是风险评估的关键输入。
  • Method: 将LULC预测问题转化为基于历史和辅助数据的数据合成问题,利用扩散模型进行十年尺度的不透水面预测。
  • Result: 在12个大都市区的实验中,模型在分辨率≥0.7×0.7km²时,MAE低于无变化基线,表明其能捕捉时空模式。
  • Conclusion: 生成式模型能有效预测未来LULC变化,未来研究将整合地球物理属性和驱动变量以支持多情景模拟。

cs.AI

[125] MM-Food-100K: A 100,000-Sample Multimodal Food Intelligence Dataset with Verifiable Provenance

Yi Dong,Yusuke Muraoka,Scott Shi,Yi Zhang

Main category: cs.AI

TL;DR: MM-Food-100K是一个公开的10万样本多模态食品数据集,具有可验证来源,用于食品智能研究。

  • Motivation: 提供一个高质量、可追溯的食品数据集,支持多模态食品智能研究。
  • Method: 通过Codatta贡献模型收集数据,结合社区众包和AI辅助质量检查,并采用链下账本确保可追溯性。
  • Result: 微调大型视觉语言模型在营养预测任务上表现优于基线模型。
  • Conclusion: MM-Food-100K数据集公开免费提供部分样本,其余部分可能用于商业用途,收益与贡献者共享。

[126] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

Runqi Qiao,Qiuna Tan,Peiqing Yang,Yanzi Wang,Xiaowan Wang,Enhui Wan,Sitong Zhou,Guanting Dong,Yuchen Zeng,Yida Xu,Jie Wang,Chong Sun,Chen Li,Honggang Zhang

Main category: cs.AI

TL;DR: We-Math 2.0是一个统一系统,通过结构化数学知识系统、模型中心数据空间建模和强化学习训练范式,提升多模态大语言模型的数学推理能力。

  • Motivation: 现有研究多关注数据集构建和方法优化,忽视了知识驱动设计和数据空间建模,导致复杂数学推理能力不足。
  • Method: We-Math 2.0整合了四部分:1)五层级数学知识系统;2)MathBook-Standard和Pro数据集;3)两阶段强化学习框架;4)MathBookEval评估基准。
  • Result: 实验表明,MathBook-RL在四个基准测试中表现优异,并在MathBookEval上展现出强泛化能力。
  • Conclusion: We-Math 2.0通过综合设计显著提升了数学推理能力,为未来研究提供了新方向。

[127] Agentic Design Review System

Sayan Nag,K J Joseph,Koustava Goswami,Vlad I Morariu,Balaji Vasan Srinivasan

Main category: cs.AI

TL;DR: 提出了一种多代理协作的设计评审系统(AgenticDRS),通过图匹配和提示扩展方法提升代理的设计感知能力,并在DRS-BENCH基准上验证其有效性。

  • Motivation: 当前图形设计评估多依赖专家评审,缺乏系统性方法。本文旨在通过多代理协作实现更全面的设计评估。
  • Method: 提出AgenticDRS系统,利用图匹配和提示扩展方法使代理具备设计感知能力,并通过meta-agent协调多代理协作。
  • Result: 实验表明AgenticDRS在DRS-BENCH基准上优于现有方法,并能生成可操作的反馈。
  • Conclusion: AgenticDRS为图形设计评估提供了有效工具,呼吁关注这一实用但未充分探索的研究方向。