Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Pathological Truth Bias in Vision-Language Models
Yash Thube
Main category: cs.CV
TL;DR: MATS是一个紧凑的行为审计工具,用于评估视觉语言模型是否拒绝视觉上矛盾的陈述,包含空间一致性评分(SCS)和错误同意率(IAR)两个指标。研究发现指令调优的生成式VLMs表现较差,而对比编码器模型更为稳健。
- Motivation: 标准基准测试可能掩盖系统性的失败,降低现实世界中的可信度,因此需要一种能够测量模型是否拒绝视觉矛盾陈述的审计方法。
- Method: 引入MATS行为审计,测量模型拒绝视觉矛盾陈述的能力,使用SCS和IAR两个指标进行评估,并通过激活修补技术定位失败原因。
- Result: 指令调优的生成式VLMs(如LLaVA 1.5、QwenVLchat)表现出极低的SCS和较高的IAR,而对比编码器(如CLIP、SigLIP)则更为稳健。激活修补定位到生成式模型失败在跨注意力层,对比模型在池化投影组件。
- Conclusion: MATS揭示了VLMs在视觉一致性方面的系统性失败,为模型修复提供了具体路径,对比编码器在拒绝视觉矛盾陈述方面表现更好。
[2] Scale and Rotation Estimation of Similarity-Transformed Images via Cross-Correlation Maximization Based on Auxiliary Function Method
Shinji Yamashita,Yuma Kinoshita,Hitoshi Kiya
Main category: cs.CV
TL;DR: 提出一种高效算法,能够以亚像素精度联合估计两幅图像之间的尺度和旋转变化。
- Motivation: 传统相位相关技术在处理平移偏移时有效,但在处理相机缩放或旋转引起的尺度和旋转变化时不足。图像配准在医学成像和计算机视觉等领域有广泛应用需求。
- Method: 将基于对数极坐标傅里叶变换的尺度和旋转估计与交叉相关最大化策略相结合,利用辅助函数方法,并引入亚像素级交叉相关。
- Result: 实验结果表明,该方法在尺度和旋转的估计误差上低于传统的基于离散交叉相关的傅里叶变换技术。
- Conclusion: 所提出的算法能够精确估计尺度和旋转参数,在图像配准任务中表现优于传统方法。
[3] Robust Object Detection for Autonomous Driving via Curriculum-Guided Group Relative Policy Optimization
Xu Jia
Main category: cs.CV
TL;DR: 提出了一个强化学习框架,通过课程数据调度和难度感知过滤增强GRPO,在自动驾驶基准测试中显著提升了检测精度和鲁棒性。
- Motivation: 多模态大语言模型在视觉语言推理方面表现出色,但在需要精确定位和鲁棒性的结构化感知任务中表现不佳。
- Method: 采用强化学习框架,结合课程数据调度和难度感知过滤来增强GRPO,在稀疏、噪声奖励下稳定优化过程,逐步适应复杂样本。
- Result: 在自动驾驶基准测试中显示出检测精度和鲁棒性的显著提升,消融研究确认了奖励设计、KL正则化和课程进度对收敛稳定性和泛化的重要性。
- Conclusion: 强化驱动优化结合结构化数据课程是实现鲁棒和可解释多模态检测的可扩展路径。
[4] Graph-Theoretic Consistency for Robust and Topology-Aware Semi-Supervised Histopathology Segmentation
Ha-Hieu Pham,Minh Le,Han Huynh,Nguyen Quoc Khanh Le,Huy-Hieu Pham
Main category: cs.CV
TL;DR: 提出拓扑图一致性(TGC)框架,通过图论约束改善半监督语义分割,在病理图像上实现最先进性能
- Motivation: 解决半监督语义分割中像素级一致性方法传播噪声伪标签、产生碎片化或拓扑无效掩码的问题
- Method: 集成图论约束,通过对齐预测图和参考图的拉普拉斯谱、组件数量和邻接统计来强制执行全局拓扑
- Result: 在GlaS和CRAG数据集上,在5-10%监督下达到最先进性能,显著缩小与全监督的差距
- Conclusion: TGC框架通过图论约束有效改善半监督语义分割的拓扑质量,在有限标注下取得优异性能
[5] A review of Recent Techniques for Person Re-Identification
Andrea Asperti,Salvatore Fiorilla,Simone Nardi,Lorenzo Orsini
Main category: cs.CV
TL;DR: 这篇综述论文分析人员重识别(ReId)领域的发展,重点关注从监督学习向无监督学习的转变趋势,比较两种方法的性能差距缩小现象。
- Motivation: 监督学习方法依赖大量标注数据,存在可扩展性和计算成本问题。无监督方法利用未标记数据克服这一限制,近年来展现出与监督方法性能差距缩小的趋势。
- Method: 采用双焦点综述方法:1)回顾和分类监督人员重识别的重要文献,分析当前最先进技术;2)探索过去三年无监督人员重识别的最新进展,识别新兴趋势。
- Result: 监督方法已接近性能上限,改进空间有限;无监督方法近年来取得显著进展,性能与监督方法的差距正在缩小。
- Conclusion: 人员重识别领域正在经历从监督学习向无监督学习的范式转变,无监督方法展现出巨大潜力,有望在未来实现与监督方法相当的性能水平。
[6] Sequential Token Merging: Revisiting Hidden States
Yan Wen,Peng Ye,Lin Zhang,Baopu Li,Jiakang Yuan,Yaoxin Yang,Tao Chen
Main category: cs.CV
TL;DR: 提出Sequential Token Merging (STM)方法解决Vision Mambas的token冗余问题,通过双向最近邻合并和隐藏状态保护机制,在显著减少token数量的同时保持模型性能。
- Motivation: Vision Mambas虽然具有次二次复杂度,但效率仍受图像分辨率导致的二次token缩放限制。现有方法忽略了ViMs固有的有限方向序列依赖(LDSD)这一关键信息流机制。
- Method: STM包含:1)双向最近邻合并,通过对称空间聚合保持序列依赖;2)隐藏状态保护,稳定类别token周围的隐藏状态。利用Mamba的逐层损失收敛将时间遗忘转化为稳定性。
- Result: 实验显示STM优越性:ViM-Ti在20% token减少时仅1.0%精度下降,ViM-S在40%减少时仅1.4%性能下降。方法以最小复杂度实现最先进效率。
- Conclusion: STM在显著减少Vision Mambas计算复杂度的同时保持性能,为状态空间模型动力学提供了新见解。
[7] Deep Learning Empowered Super-Resolution: A Comprehensive Survey and Future Prospects
Le Zhang,Ao Li,Qibin Hou,Ce Zhu,Yonina C. Eldar
Main category: cs.CV
TL;DR: 这是一篇关于超分辨率技术的综合性综述论文,涵盖了单图像超分辨率、视频超分辨率、立体超分辨率和光场超分辨率等多个领域,分析了超过150种SISR方法、近70种VSR方法以及约30种SSR和LFSR技术。
- Motivation: 现有的大多数超分辨率综述都局限于特定领域,缺乏对该领域的全面概述。本文旨在提供一个深入全面的超分辨率方法综述,填补这一空白。
- Method: 作者对各类超分辨率方法进行了系统分类和分析,包括方法论、数据集、评估协议、实证结果和复杂度分析,并根据不同的骨干结构进行了分类学构建。
- Result: 论文提供了超过150种SISR方法、近70种VSR方法以及约30种SSR和LFSR技术的详细分析,并创建了专门的资源库供研究人员访问。
- Conclusion: 这项工作将为超分辨率领域的研究人员提供有价值的资源和指导,并探讨了该领域中一些有价值但研究不足的开放性问题。
[8] Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment
Abhiroop Chatterjee,Susmita Ghosh
Main category: cs.CV
TL;DR: 提出了一种基于CLIP风格对比学习框架的视觉语言模型,用于高光谱图像场景理解,仅更新0.07%参数即可实现最先进性能。
- Motivation: 高光谱图像具有高维3D体素结构,传统视觉语言模型在该领域的跨模态对齐仍是一个未充分探索的问题,需要高效的数据利用而非暴力扩展模型规模。
- Method: 使用CLIP风格对比训练框架,将视觉主干网络的体素级嵌入映射到冻结大型嵌入模型的潜在空间,通过可训练探针对齐视觉特征与文本标记表示,使用硬负样本和半硬负样本进行对比学习,并引入描述性提示作为结构化锚点。
- Result: 在Indian Pines数据集上比单模态和多模态基线方法提高0.92%总体精度和1.60 Kappa系数,在Pavia University数据集上提高0.69%总体精度和0.90 Kappa系数,参数量比DCTN和SS-TMNet分别小50倍和90倍。
- Conclusion: 该方法通过高效的参数更新和精心设计的对比学习框架,在高光谱图像场景理解任务中实现了优异的性能,证明了数据蒸馏和跨模态对齐的重要性。
[9] Global Prompt Refinement with Non-Interfering Attention Masking for One-Shot Federated Learning
Zhuang Qi,Pan Yu,Lei Meng,Sijin Zhou,Han Yu,Xiaoxiao Li,Xiangxu Meng
Main category: cs.CV
TL;DR: 提出GPR-NIAM方法,通过注意力隔离和跨设备协作精炼模块,实现单轮联邦提示学习,在保持跨任务泛化能力的同时解决数据异构性问题。
- Motivation: 现有联邦提示学习方法依赖多轮通信,且单轮联邦学习方法缺乏跨任务泛化能力,需要一种能在单轮通信中实现高效协作并保持泛化能力的方法。
- Method: 使用注意力隔离模块限制可学习提示嵌入与原始文本嵌入的过度交互,并通过跨设备协作精炼模块整合分散的视觉知识,校准全局提示。
- Result: 在10个基准数据集的两个任务上,GPR-NIAM在类别级和领域级泛化方面优于8种最先进方法。
- Conclusion: GPR-NIAM通过创新的注意力机制和知识对齐策略,成功实现了单轮联邦提示学习,在保持通信效率的同时提升了跨任务泛化性能。
[10] GZSL-MoE: Apprentissage G{é}n{é}ralis{é} Z{é}ro-Shot bas{é} sur le M{é}lange d'Experts pour la Segmentation S{é}mantique de Nuages de Points 3DAppliqu{é} {à} un Jeu de Donn{é}es d'Environnement de Collaboration Humain-Robot
Ahed Alboody
Main category: cs.CV
TL;DR: 提出GZSL-MoE模型,将混合专家层集成到生成式零样本学习框架中,用于3D点云语义分割,在COVERED数据集上提升了对可见和不可见类别的性能。
- Motivation: 解决3D点云语义分割中缺乏所有对象类别完整训练数据的问题,特别是在人机协作环境中,需要模型能够识别训练时未见过的对象类别。
- Method: 将混合专家层集成到生成式零样本学习的生成器和判别器中,使用预训练的KPConv模型提取真实特征,生成与真实特征相似的伪特征。
- Result: GZSL-MoE模型在COVERED数据集上表现出色,能够同时提升对可见和不可见类别的分割性能。
- Conclusion: 结合生成式零样本学习和混合专家的GZSL-MoE模型为复杂3D环境理解提供了有前景的解决方案,特别是在缺乏完整训练数据的情况下。
[11] IBiT: Utilizing Inductive Biases to Create a More Data Efficient Attention Mechanism
Adithya Giri
Main category: cs.CV
TL;DR: 通过引入学习掩码为Vision Transformers注入归纳偏置,使其能在小数据集上有效学习,无需知识蒸馏
- Motivation: Transformer在计算机视觉中占主导地位,但缺乏CNN的归纳偏置,需要大数据集才能学习这些偏置
- Method: 提出IBiT方法,通过学习掩码为Vision Transformers引入归纳偏置
- Result: IBiT在小数据集上显著更准确,同时保持Transformer的可解释性
- Conclusion: 通过学习掩码引入归纳偏置是Vision Transformers在小数据集上有效学习的可行方法
[12] LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning
Zezhong Fan,Xiaohan Li,Luyi Ma,Kai Zhao,Liang Peng,Topojoy Biswas,Evren Korpeoglu,Kaushiki Nag,Kannan Achan
Main category: cs.CV
TL;DR: LayoutAgent是一个结合视觉语言推理和组合扩散的智能框架,用于生成符合语义关系和物理合理性的多目标场景布局。
- Motivation: 现有扩散模型缺乏显式空间推理导致布局不真实,而传统空间规划方法难以捕捉视觉场景的语义丰富性,需要桥接这一差距。
- Method: 使用视觉语言模型进行输入预处理(分割、尺寸估计、场景图构建、提示重写),然后利用组合扩散合成符合场景图关系的边界框,最后通过前景条件图像生成器渲染完整场景。
- Result: 实验表明LayoutAgent在布局一致性、空间真实性和美学对齐方面优于其他最先进的布局生成模型。
- Conclusion: LayoutAgent成功地将视觉语言推理与组合扩散相结合,实现了更真实和语义一致的多目标场景布局生成。
[13] CompareBench: A Benchmark for Visual Comparison Reasoning in Vision-Language Models
Jie Cai,Kangning Yang,Lan Fu,Jiaming Ding,Jinlong Li,Huiming Sun,Daitao Xing,Jinglin Shen,Zibo Meng
Main category: cs.CV
TL;DR: CompareBench是一个评估视觉语言模型视觉比较推理能力的基准,包含1000个QA对,涵盖数量、时间、几何和空间四个任务,揭示了当前VLMs在视觉比较方面的系统性盲点。
- Motivation: 视觉比较推理是视觉语言模型的基本但研究不足的技能,需要专门的基准来评估和推动该领域的发展。
- Method: 构建CompareBench基准,包含1000个QA对,分为数量(600)、时间(100)、几何(200)和空间(100)四个任务,基于两个辅助数据集TallyBench和HistCaps。评估了闭源API和开源模型。
- Result: 结果显示明显的扩展趋势,但最强模型在时间排序和空间关系上持续失败,在基础计数和几何比较中也经常出错,这些对人类来说很简单。
- Conclusion: 视觉比较是当前VLMs的系统性盲点,CompareBench为推进更可靠的多模态推理奠定了基础。
[14] MILR: Improving Multimodal Image Generation via Test-Time Latent Reasoning
Yapeng Mi,Hengli Li,Yanpeng Zhao,Chenxi Li,Huimin Wu,Xiaojian Ma,Song-Chun Zhu,Ying Nian Wu,Qing Li
Main category: cs.CV
TL;DR: MILR是一种在测试时联合推理图像和文本的方法,通过在统一潜在向量空间中搜索离散标记的向量表示来实现跨模态推理,在多个基准测试中达到最先进性能。
- Motivation: 现有基于推理的图像生成方法要么仅限于单一模态(图像或文本),要么依赖高质量推理数据进行微调。MILR旨在解决这些限制,实现跨模态联合推理。
- Method: 在统一多模态理解和生成(MUG)框架中实例化MILR,通过在统一潜在空间中搜索图像和文本标记的向量表示,使用策略梯度方法和图像质量评判器进行指导,完全在测试时操作。
- Result: 在GenEval、T2I-CompBench和WISE基准测试中均达到最先进结果,特别是在知识密集型WISE上获得0.63总分,比基线提高80%。
- Conclusion: 统一潜在空间中的联合推理是MILR强大性能的关键,定性研究显示其在时间和文化推理方面具有显著能力。
[15] UESA-Net: U-Shaped Embedded Multidirectional Shrinkage Attention Network for Ultrasound Nodule Segmentation
Tangqi Shi,Pietro Lio
Main category: cs.CV
TL;DR: 提出了UESA-Net网络,通过多方向收缩注意力机制在超声图像中实现乳腺癌和甲状腺癌病灶的精确分割,在TN3K和BUSI数据集上取得了最先进的性能。
- Motivation: 超声成像是一种经济有效的实时病灶检测和分割方式,但存在斑点噪声、结构重叠以及全局-局部特征交互弱的问题。现有网络难以平衡高级语义和低级空间细节,需要开发能够弥合全局上下文与局部细节语义差距的分割框架。
- Method: 提出UESA-Net,一种具有多方向收缩注意力的U形网络。编码器-解码器架构捕获病灶的长程依赖性和细粒度结构。在每个编码块中,注意力模块沿水平、垂直和深度方向操作以利用空间细节,同时收缩(阈值)策略整合先验知识和局部特征。解码器镜像编码器但应用成对收缩机制,将先验低级物理线索与相应编码器特征结合以增强上下文建模。
- Result: 在两个公共数据集TN3K(3493张图像)和BUSI(780张图像)上,UESA-Net分别取得了0.8487和0.6495的交并比(IoU)分数,达到了最先进的性能。
- Conclusion: UESA-Net通过有效聚合多方向空间信息和先验知识,提高了乳腺和甲状腺超声分割的鲁棒性和准确性,在多个基准测试中表现出优于现有方法的性能。
[16] PartCo: Part-Level Correspondence Priors Enhance Category Discovery
Fernando Julio Cendra,Kai Han
Main category: cs.CV
TL;DR: PartCo是一个新的广义类别发现框架,通过引入部分级视觉特征对应关系来增强类别发现性能,能够无缝集成到现有GCD方法中。
- Motivation: 现有GCD方法主要依赖语义标签和全局图像表示,忽略了区分密切相关类别所需的关键部分级线索。
- Method: 提出PartCo框架,利用部分级视觉特征对应关系来捕捉更细粒度的语义结构,从而更细致地理解类别关系。
- Result: 在多个基准数据集上的广泛实验表明,PartCo显著提升了当前GCD方法的性能,达到了最先进的结果。
- Conclusion: PartCo通过弥合语义标签和部分级视觉组合之间的差距,为GCD设定了新的基准。
[17] DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models
Komal Kumar,Rao Muhammad Anwer,Fahad Shahbaz Khan,Salman Khan,Ivan Laptev,Hisham Cholakkal
Main category: cs.CV
TL;DR: DEFT是一个分解式高效微调框架,通过将预训练权重矩阵的更新分解为两个可训练矩阵:在低秩子空间补集上的投影和低秩更新,实现文本到图像模型的高效微调。
- Motivation: 解决文本到图像模型在高效微调中面临的挑战:在目标分布对齐(从有限图像学习新概念)、保持多任务统一指令能力、维持可编辑性之间取得平衡。
- Method: DEFT框架将预训练权重矩阵更新分解为两个组件:一个可训练低秩矩阵定义子空间,另一个可训练低秩矩阵在该子空间内实现灵活参数适应。
- Result: 在Dreambooth、Dreambench Plus、InsDet和VisualCloze数据集上的实验表明,DEFT在个性化、对象场景适应和视觉上下文学习方面实现了最先进的性能。
- Conclusion: DEFT展示了高效微调的新兴特性,在保持模型编辑能力的同时实现了优异的性能表现。
[18] VideoScore2: Think before You Score in Generative Video Evaluation
Xuan He,Dongfu Jiang,Ping Nie,Minghao Liu,Zhengxuan Jiang,Mingyi Su,Wentao Ma,Junru Lin,Chun Ye,Yi Lu,Keming Wu,Benjamin Schneider,Quy Duc Do,Zhuofeng Li,Yiming Jia,Yuxuan Zhang,Guo Cheng,Haozhe Wang,Wangchunshu Zhou,Qunshu Lin,Yuanxing Zhang,Ge Zhang,Wenhao Huang,Wenhu Chen
Main category: cs.CV
TL;DR: VideoScore2是一个多维度、可解释的视频评估框架,通过三个维度(视觉质量、文本-视频对齐、物理/常识一致性)和详细推理来评估文本到视频生成的质量,在多个基准测试中表现优异。
- Motivation: 现有视频评估方法仅限于单一不透明分数,缺乏可解释性,或仅提供粗略分析,无法全面捕捉视频质量评估的多方面特性。
- Method: 使用包含27,168个人工标注视频的大规模数据集VideoFeedback2,采用两阶段训练流程:监督微调后使用GRPO进行强化学习,以增强分析鲁棒性。
- Result: 在VideoScore-Bench-v2基准上达到44.35准确率(提升5.94),在四个跨域基准上平均性能达到50.37(提升4.32),并提供可解释的评估。
- Conclusion: VideoScore2通过提供可解释的多维度评估,弥合了评估与可控生成之间的差距,为Best-of-N采样提供了有效的奖励建模。
[19] TRUST: Test-Time Refinement using Uncertainty-Guided SSM Traverses
Sahar Dastani,Ali Bahri,Gustavo Adolfo Vargas Hakim,Moslem Yazdanpanah,Mehrdad Noori,David Osowiechi,Samuel Barbeau,Ismail Ben Ayed,Herve Lombaert,Christian Desrosiers
Main category: cs.CV
TL;DR: TRUST是一种针对状态空间模型(SSMs)的测试时自适应方法,通过利用多样化的遍历排列生成多个因果视角,使用模型预测作为伪标签来更新Mamba特定参数,从而提高在分布偏移下的泛化性能。
- Motivation: 状态空间模型(SSMs)作为视觉Transformer的有效替代方案,在分布偏移下泛化性能显著下降,需要专门的自适应方法来提升其鲁棒性。
- Method: 提出TRUST方法,利用多样化的遍历排列生成输入图像的多个因果视角,使用模型预测作为伪标签来指导Mamba特定参数的更新,并通过平均适应权重来整合不同遍历扫描中学到的信息。
- Result: 在七个基准测试上的实验表明,TRUST持续提高了鲁棒性,并优于现有的测试时自适应方法。
- Conclusion: TRUST是首个明确利用SSMs独特架构特性进行自适应的方法,有效解决了状态空间模型在分布偏移下的泛化性能下降问题。
[20] MMPB: It's Time for Multi-Modal Personalization
Jaeik Kim,Woojin Kim,Woohyeon Park,Jaeyoung Do
Main category: cs.CV
TL;DR: MMPB是首个用于评估视觉语言模型个性化能力的广泛基准,包含10k图像-查询对和111个可个性化概念,涵盖人类、动物、物体和角色四类。研究发现大多数VLM在个性化方面表现不佳,特别是在对话一致性、处理用户偏好和适应视觉线索方面存在挑战。
- Motivation: 视觉个性化在面向用户的AI系统中至关重要,但现有大型视觉语言模型在适应用户个性化需求方面仍未被充分探索。需要建立一个全面的基准来评估和改进VLM的个性化能力。
- Method: 构建包含10k图像-查询对的MMPB基准,涵盖111个个性化概念。将个性化任务分为三种类型,使用23个开源和闭源VLM,通过三阶段协议(概念注入、多轮对话、个性化查询)评估个性化性能。
- Result: 大多数VLM(包括一些闭源模型)在个性化方面表现不佳,特别是在对话一致性、处理用户偏好和适应视觉线索方面存在困难。研究发现拒绝行为和长上下文遗忘等挑战表明VLM个性化仍有很大改进空间。
- Conclusion: MMPB基准通过识别VLM个性化的局限性,为未来研究提供了有价值的见解和坚实基础,推动真正个性化的多模态AI发展。
[21] Seeing Isn't Believing: Context-Aware Adversarial Patch Synthesis via Conditional GAN
Roie Kazoom,Alon Goldberg,Hodaya Cohen,Ofer Hadar
Main category: cs.CV
TL;DR: 提出了一种完全可控的对抗性补丁生成框架,允许攻击者自由选择输入图像和目标类别,实现精确的错误分类控制。该方法结合生成式U-Net设计和Grad-CAM引导的补丁放置,在保持视觉真实性的同时最大化攻击效果。
- Motivation: 现有对抗性补丁攻击方法存在不切实际的白盒假设、非针对性目标或产生视觉上明显的补丁等问题,限制了实际应用。需要开发一种同时确保真实性、针对性控制和黑盒适用性的攻击框架。
- Method: 结合生成式U-Net架构和Grad-CAM引导的语义感知补丁放置策略,实现对抗性补丁的精确生成和定位。
- Result: 在卷积网络(DenseNet-121、ResNet-50)和视觉变换器(ViT-B/16、Swin-B/16等)上的广泛实验表明,该方法在所有设置下都达到了最先进的性能,攻击成功率(ASR)和目标类别成功率(TCS)均超过99%。
- Conclusion: 该框架在对抗性补丁攻击的三个最具挑战性的维度(真实性、针对性控制和黑盒适用性)上同时取得了突破,为对抗性鲁棒性研究建立了新的基准。
[22] Learning Temporal Saliency for Time Series Forecasting with Cross-Scale Attention
Ibrahim Delibasoglu,Fredrik Heintz
Main category: cs.CV
TL;DR: CrossScaleNet是一种创新的时间序列预测架构,结合了基于patch的交叉注意力机制和多尺度处理,在保持高性能的同时提供增强的时间可解释性。
- Motivation: 传统的时间显著性检测方法计算成本高,特别是在与特征重要性检测相比时。虽然消融技术适用于特征较少的数据集,但识别时间显著性由于其复杂性而面临更大挑战。现有声称可解释性的模型往往无法在标准基准测试中保持强大性能。
- Method: 提出CrossScaleNet架构,将基于patch的交叉注意力机制与多尺度处理相结合,在训练过程中嵌入注意力机制,为时间显著性提供内在可解释性。
- Result: 在具有已知显著性真值的合成数据集和已建立的公共基准上验证了方法的鲁棒性。在真实世界数据集上的实验显示,该方法在保持预测准确性的同时,在时间显著性检测和预测准确性方面都表现出优越性能。
- Conclusion: CrossScaleNet解决了现有模型的局限性,提供了一种平衡的方法,既能有效捕捉时间显著性,又能在不同复杂度的数据集上提供最先进的预测性能。
[23] Multimodal Slice Interaction Network Enhanced by Transfer Learning for Precise Segmentation of Internal Gross Tumor Volume in Lung Cancer PET/CT Imaging
Yi Luo,Yike Guo,Hamed Hooshangnejad,Rui Zhang,Xue Feng,Quan Chen,Wil Ngwa,Kai Ding
Main category: cs.CV
TL;DR: 提出了一种基于迁移学习的多模态交互感知网络,结合MAMBA预训练和2.5D分割框架,通过切片交互模块(SIM)改进肺癌PET/CT图像中内部肿瘤体积(IGTV)的分割精度。
- Motivation: 肺癌是全球癌症相关死亡的主要原因,准确勾画PET/CT图像中的内部肿瘤体积(IGTV)对移动肿瘤的放射治疗至关重要,但面临标注数据有限和肿瘤边界PET信号强度衰减的挑战。
- Method: 采用迁移学习方法,使用预训练在大规模GTV数据集上的多模态交互感知网络,在私有IGTV数据集上微调。引入切片交互模块(SIM)结合通道和空间注意力分支,在2.5D分割框架中建模切片间关系。
- Result: 在私有IGTV数据集上达到Dice系数0.609,显著优于传统基线方法的0.385。
- Conclusion: 该研究展示了迁移学习结合先进多模态技术和SIM模块在提高肺癌放射治疗计划中IGTV分割可靠性和临床相关性方面的潜力。
[24] ControlEvents: Controllable Synthesis of Event Camera Datawith Foundational Prior from Image Diffusion Models
Yixuan Hu,Yuxuan Xue,Simon Klenk,Daniel Cremers,Gerard Pons-Moll
Main category: cs.CV
TL;DR: ControlEvents是一个基于扩散模型的生成模型,能够通过文本标签、2D骨架和3D身体姿态等控制信号合成高质量的事件数据,显著降低标注事件数据集的成本。
- Motivation: 事件相机具有高时间分辨率和高动态范围等生物启发特性,但获取大规模标注事件数据具有挑战性且成本高昂。
- Method: 利用Stable Diffusion等基础模型的扩散先验,通过最小化微调和有限标注数据实现高质量事件数据生成,支持文本标签、2D骨架和3D身体姿态等多种控制信号。
- Result: 实验表明合成的标注事件数据在视觉识别、2D骨架估计和3D身体姿态估计等任务中都能提升模型性能,并能基于训练中未见过的文本标签生成事件。
- Conclusion: 该方法简化了数据生成流程,显著降低了生产标注事件数据集的成本,并继承了基础模型强大的基于文本的生成能力。
[25] Learning KAN-based Implicit Neural Representations for Deformable Image Registration
Nikita Drozdov,Marat Zinovev,Dmitry Sorokin
Main category: cs.CV
TL;DR: 提出了KAN-IDIR和RandKAN-IDIR方法,首次将Kolmogorov-Arnold Networks(KANs)集成到可变形图像配准中,通过随机基函数采样策略在保持配准质量的同时显著降低计算成本。
- Motivation: 解决传统学习型方法需要大量训练数据且在某些器官类型和成像模态上精度不足的问题,同时克服隐式神经表示方法实例特定优化带来的计算效率和稳定性挑战。
- Method: 将KANs集成到可变形图像配准的隐式神经表示中,提出随机基函数采样策略减少所需基函数数量,降低计算成本。
- Result: 在三个不同数据集(肺部CT、脑部MRI、心脏MRI)上评估,KAN-IDIR和RandKAN-IDIR在所有评估模态和解剖结构中达到INR方法中最高的精度,计算开销最小且学习稳定性最佳。
- Conclusion: RandKAN-IDIR通过随机基函数采样在略微提升性能的同时消除了可学习基函数索引的额外训练复杂度,为医学图像配准提供了高效稳定的解决方案。
[26] Convolutional Set Transformer
Federico Chinello,Giacomo Boracchi
Main category: cs.CV
TL;DR: 提出了卷积集合变换器(CST),一种直接处理3D图像张量的集合输入神经网络架构,能够同时进行特征提取和上下文建模,在集合分类和集合异常检测任务中表现优异。
- Motivation: 现有集合输入网络(如Deep Sets和Set Transformer)只能处理向量输入,需要与CNN特征提取器级联,无法直接处理3D图像张量,限制了特征提取和上下文建模的协同作用。
- Method: CST直接操作3D图像张量,同时执行特征提取和上下文建模,支持CNN可解释性方法如Grad-CAM,并可在大型数据集上预训练后迁移到新领域。
- Result: 在集合分类和集合异常检测任务中表现优于现有方法,提供更好的可解释性,并发布了在ImageNet上预训练的CST-15骨干网络。
- Conclusion: CST通过直接处理图像张量实现了特征提取和上下文建模的协同,在性能和可解释性方面均优于现有方法,支持预训练和迁移学习。
[27] TY-RIST: Tactical YOLO Tricks for Real-time Infrared Small Target Detection
Abdulkarim Atrash,Omar Moured,Yufan Chen,Jiaming Zhang,Seyda Ertekin,Omur Ugur
Main category: cs.CV
TL;DR: 提出了TY-RIST,一种优化的YOLOv12n架构,用于红外小目标检测,通过改进的骨干网络、高分辨率检测头、级联坐标注意力块和分支剪枝策略,在降低25.5%计算成本的同时提升检测性能。
- Motivation: 解决红外小目标检测中的四个关键挑战:目标特征少导致的丢失、复杂环境中的虚警、低显著性导致的漏检以及高计算成本问题。
- Method: 采用优化的YOLOv12n架构,包含步长感知骨干网络、高分辨率检测头、级联坐标注意力块、分支剪枝策略,并引入归一化高斯瓦瑟斯坦距离(NWD)提升回归稳定性。
- Result: 在四个基准数据集和20个模型上的实验显示,mAP@0.5 IoU提升+7.9%,精确度提升+3%,召回率提升+10.2%,在单GPU上达到123 FPS,计算成本降低约25.5%。
- Conclusion: TY-RIST在红外小目标检测中实现了最先进的性能,具有良好的泛化能力,并在保持实时推理的同时显著提升了检测精度。
[28] Learning Unified Representation of 3D Gaussian Splatting
Yuelin Xin,Yuheng Liu,Xiaohui Xie,Xinke Li
Main category: cs.CV
TL;DR: 提出基于连续子流形场的3D高斯溅射嵌入表示方法,解决原始高斯参数在神经网络中学习困难的问题。
- Motivation: 3D高斯溅射的参数化表示在神经网络中难以学习,原始高斯参数存在非唯一性和异构性问题,导致模型高度依赖数据。
- Method: 基于连续子流形场构建3D高斯溅射的嵌入表示,封装高斯基元的本质信息,保持颜色和几何结构,同时强制唯一映射和通道同质性。
- Result: 该方法为3D高斯溅射提供了更适合神经网络学习的表示形式。
- Conclusion: 提出的嵌入表示方法能够更好地支持3D高斯溅射在神经网络中的学习过程。
[29] Soft-Di[M]O: Improving One-Step Discrete Image Generation with Soft Embeddings
Yuanzhi Zhu,Xi Wang,Stéphane Lathuilière,Vicky Kalogeiton
Main category: cs.CV
TL;DR: 该论文提出软嵌入方法,解决一步生成器因离散令牌输出导致的梯度流中断问题,使生成器可进行对抗训练、奖励微调等后蒸馏优化,在多个任务上取得SOTA结果。
- Motivation: 解决一步生成器存在的两个关键限制:继承教师模型偏差,以及离散令牌输出阻断梯度流,无法进行对抗训练、奖励微调等后蒸馏优化。
- Method: 提出软嵌入方法,用生成器输出分布的期望嵌入替换离散令牌,保持表示保真度的同时提供完全可微的连续代理,与教师主干和令牌解码器兼容。
- Result: 在多个MDM教师模型上,Soft-Di[M]O实现SOTA一步结果:改进的类别到图像性能,ImageNet-256上一步FID达1.56,文本到图像任务上获得更高的GenEval和HPS分数。
- Conclusion: 软嵌入使一步生成器端到端可训练,支持GAN精炼、可微奖励微调和TTEO等优化方法,显著提升生成质量。
[30] FishAI 2.0: Marine Fish Image Classification with Multi-modal Few-shot Learning
Chenghan Yang,Peng Zhou,Dong-Sheng Zhang,Yueyun Wang,Hong-Bin Shen,Xiaoyong Pan
Main category: cs.CV
TL;DR: FishAI 2.0是一个智能海洋鱼类识别框架,通过多模态少样本深度学习和图像生成技术解决稀有物种数据稀缺问题,在家族、属和种级别都取得了高准确率。
- Motivation: 传统海洋生物图像识别面临数据集不完整和模型精度不足的问题,特别是在稀有物种的少样本条件下,数据稀缺严重影响了性能。
- Method: 使用分层海洋鱼类基准数据集,利用大语言模型DeepSeek生成高质量文本描述,通过分层扩散策略输入Stable Diffusion 2进行图像增强,构建多模态特征空间,然后使用基于CLIP的模型进行少样本图像识别。
- Result: FishAI 2.0在家族级别达到Top-1准确率91.67%和Top-5准确率97.97%,在属和种级别分别达到87.58%和85.42%的Top-1准确率,显著优于基线CLIP和ViT模型。
- Conclusion: FishAI 2.0提高了海洋鱼类识别的效率和准确性,为海洋生态监测和保护提供了可扩展的技术解决方案,具有科学价值和实际应用性。
[31] Brain Tumor Classification from MRI Scans via Transfer Learning and Enhanced Feature Representation
Ahta-Shamul Hoque Emran,Hafija Akter,Abdullah Al Shiam,Abu Saleh Musa Miah,Anichur Rahman,Fahmid Al Farid,Hezerul Abdul Karim
Main category: cs.CV
TL;DR: 提出基于ResNet50的深度学习框架,通过Dense-Dropout序列增强特征学习,并创建MMCBT脑肿瘤MRI数据集用于自动脑肿瘤检测。
- Motivation: 脑肿瘤的及时检测对改善患者预后至关重要,但缺乏可靠的脑肿瘤MRI数据集资源。
- Method: 使用预训练ResNet50进行特征提取,结合全局平均池化和线性投影,采用新颖的Dense-Dropout序列增强非线性特征学习并减少过拟合。
- Result: 创建了包含209名受试者、3671张肿瘤图像和13273张非肿瘤图像的MMCBT数据集,通过数据增强解决了类别不平衡问题。
- Conclusion: 提出的框架和数据集为脑肿瘤检测提供了有效的自动化和可靠的数据资源。
[32] Hemorica: A Comprehensive CT Scan Dataset for Automated Brain Hemorrhage Classification, Segmentation, and Detection
Kasra Davoodi,Mohammad Hoseyni,Javad Khoramdel,Reza Barati,Reihaneh Mortazavi,Amirhossein Nikoofard,Mahdi Aliyari-Shoorehdeli,Jaber Hatam Parikhan
Main category: cs.CV
TL;DR: Hemorica是一个公开的颅内出血CT扫描数据集,包含372个头部CT检查,提供五种ICH亚型的详细标注,用于AI模型开发和基准测试。
- Motivation: 解决颅内出血(ICH)CT扫描AI开发中公共数据碎片化的问题,为开发稳健的AI解决方案提供统一基准。
- Method: 收集2012-2024年间的372个头部CT检查,采用双读流程和神经外科医生裁决进行详尽标注,包括五种ICH亚型的分类标签、边界框和像素/体素掩码。
- Result: 轻量级模型MobileViT-XS在二元分类中达到87.8%的F1分数,U-Net with DenseNet161编码器在病变分割中达到85.5%的Dice分数,验证了标注质量和样本量充足性。
- Conclusion: Hemorica提供了一个统一、细粒度的基准数据集,支持多任务和课程学习,促进AI辅助ICH检测和量化系统的设计。
[33] ARSS: Taming Decoder-only Autoregressive Visual Generation for View Synthesis From Single View
Wenbin Teng,Gonglin Chen,Haiwei Chen,Yajie Zhao
Main category: cs.CV
TL;DR: ARSS是一个基于自回归Transformer的新颖视角生成框架,使用GPT风格的解码器从单张图像生成多视角视图,通过视频标记化和相机轨迹编码实现3D位置引导,在保持自回归结构的同时提升生成质量。
- Motivation: 扩散模型在生成质量上表现出色,但由于其非因果生成方式,在多视角生成任务中容易出现视图间的扭曲和不一致,难以增量适应新查询。自回归模型具有因果特性,更适合世界建模任务。
- Method: 使用视频标记器将连续图像序列映射为离散标记,相机编码器将相机轨迹转换为3D位置引导。提出自回归Transformer模块,随机排列标记的空间顺序但保持时间顺序,以增强生成质量。
- Result: 在公开数据集上的定性和定量实验表明,该方法在性能上可与基于扩散模型的最先进视角合成方法相媲美甚至更优。
- Conclusion: ARSS框架证明了自回归模型在多视角生成任务中的有效性,为世界建模提供了新的解决方案。
[34] Disentangling Static and Dynamic Information for Reducing Static Bias in Action Recognition
Masato Kobayashi,Ning Ding,Toru Tamaki
Main category: cs.CV
TL;DR: 提出一种通过分离时间动态信息和静态场景信息来减少动作识别中静态偏差的方法,使用统计独立性损失和场景预测损失。
- Motivation: 动作识别模型过度依赖静态线索而非人体动态运动,这种静态偏差导致在现实应用和零样本动作识别中表现不佳。
- Method: 使用统计独立性损失分离偏置流和无偏置流,并结合场景预测损失来减少静态偏差。
- Result: 实验证明该方法有效减少了静态偏差,并确认了场景预测损失的重要性。
- Conclusion: 通过分离动态和静态信息的方法能够有效缓解动作识别中的静态偏差问题。
[35] Desensitizing for Improving Corruption Robustness in Point Cloud Classification through Adversarial Training
Zhiqiang Tian,Weigang Li,Chunhua Deng,Junwei Hu,Yongqiang Wang,Wenping Liu
Main category: cs.CV
TL;DR: 该论文提出了去敏感对抗训练(DesenAT)方法,通过特征去敏感化生成对抗样本并在自蒸馏框架下训练,以减轻DNN对点云特征的过度依赖,提高模型对损坏点云的鲁棒性。
- Motivation: 由于场景复杂性、传感器不精确和处理误差,点云损坏不可避免。DNN对输入特征的过度依赖是其脆弱性的根源,但尚不清楚这个问题是否存在于涉及点云的3D任务中,以及减少对这些特征的依赖是否能增强模型对损坏点云的鲁棒性。
- Method: 提出DesenAT方法:1) 使用Shapley值量化DNN对点云特征的敏感性;2) 通过消除高贡献成分的数据点和使用空间变换模拟损坏场景来生成对抗样本;3) 在自蒸馏框架下进行对抗训练,将干净样本的知识转移到对抗样本中。
- Result: 在ModelNet-C和PointCloud-C上的大量实验表明,该方法能有效提高模型的鲁棒性,且不会降低干净数据集的性能。
- Conclusion: 通过特征去敏感化和自蒸馏的对抗训练可以有效减轻DNN对点云特征的过度依赖,显著提高模型对损坏点云的鲁棒性,同时保持对干净数据的性能。
[36] Geometry-Aware Losses for Structure-Preserving Text-to-Sign Language Generation
Zetian Wu,Tianshuo Zhou,Stefan Lee,Liang Huang
Main category: cs.CV
TL;DR: 提出了一种新的手语翻译方法,通过显式建模骨骼关节关系、引入几何约束和骨骼姿态损失,显著提升了手语视频生成的自然度和解剖学准确性。
- Motivation: 现有手语翻译方法往往忽视人体骨骼运动的解剖学约束和协调模式,导致生成的动作僵硬或不符合生物力学原理,影响手语交流的有效性。
- Method: 通过几何约束建模骨骼关节关系,引入父节点相对重加权机制增强手指灵活性,使用骨骼姿态损失和骨骼长度约束确保解剖学一致性结构。
- Result: 将先前最佳方法与真实数据之间的性能差距缩小了56.51%,骨骼长度和运动方差的差异分别减少了18.76%和5.48%。
- Conclusion: 该方法在手语翻译中实现了显著的解剖学真实性和运动自然度提升,为改善聋人和听力障碍者的交流提供了更有效的解决方案。
[37] Planning with Unified Multimodal Models
Yihao Sun,Zhilong Zhang,Yang Yu,Pierre-Luc Bacon
Main category: cs.CV
TL;DR: Uni-Plan是一个基于统一多模态模型(UMMs)的规划框架,通过视觉内容生成进行推理,在长时程规划任务中显著优于基于视觉语言模型的方法。
- Motivation: 现有方法主要依赖基于语言的推理,限制了推理和决策能力。统一多模态模型支持多模态输入输出,具有通过生成视觉内容进行推理的更大潜力。
- Method: 提出Uni-Plan规划框架,单个模型同时作为策略、动态模型和价值函数。引入自判别过滤方法,让生成模型作为自判别器过滤无效的动态预测以避免幻觉。
- Result: 在长时程规划任务中,Uni-Plan相比基于VLM的方法显著提高了成功率,同时表现出强大的数据可扩展性,无需专家演示且在相同训练数据量下获得更好性能。
- Conclusion: 这项工作为未来使用UMMs进行推理和决策的研究奠定了基础。
[38] Copyright Infringement Detection in Text-to-Image Diffusion Models via Differential Privacy
Xiafeng Man,Zhipeng Wei,Jingjing Chen
Main category: cs.CV
TL;DR: 提出了D-Plus-Minus (DPM)框架,基于差分隐私理论检测文本到图像扩散模型中的版权侵权,无需原始训练数据即可可靠识别侵权内容。
- Motivation: 大型视觉模型(如Stable Diffusion)可能未经授权记忆和复制受版权保护的内容,现有检测方法缺乏鲁棒性和理论支撑。
- Method: 从差分隐私角度形式化版权侵权概念,提出条件敏感度指标,通过微调模型进行学习/反学习来模拟数据包含/排除过程,使用统计指标在正交提示分布上计算置信度得分。
- Result: DPM能够可靠检测侵权内容,无需访问原始训练数据集或文本提示,为生成AI时代的知识产权保护提供可解释的实用解决方案。
- Conclusion: 该研究为检测扩散模型中的版权侵权提供了理论基础和实用框架,有助于在生成AI时代保护知识产权。
[39] Perceptual Influence: Improving the Perceptual Loss Design for Low-Dose CT Enhancement
Gabriel A. Viana,Luis F. Alves Pereira,Tsang Ing Ren,George D. C. Cavalcanti,Jan Sijbers
Main category: cs.CV
TL;DR: 本文提出了感知影响度量的概念,用于量化感知损失在总损失中的相对贡献,并建立了一个原则性框架来评估损失设计选择对模型训练性能的影响。
- Motivation: 感知损失在低剂量CT图像增强中显示出潜力,但现有文献中感知损失的设计决策(如特征表示层级、预训练编码器数据集、感知损失权重等)缺乏系统研究,导致性能不佳。
- Method: 引入感知影响度量,通过系统实验评估不同感知损失配置对模型训练的影响,包括特征层级选择、预训练数据集和损失权重等关键参数。
- Result: 研究表明文献中广泛使用的感知损失配置表现不佳,而优化设计的感知损失能显著改善CT图像重建的噪声抑制和结构保真度,且无需改变网络架构。
- Conclusion: 本文提供了基于统计分析的目标指导原则,支持感知损失在低剂量CT去噪中的有效使用,并开源了相关代码。
[40] Sensor-Adaptive Flood Mapping with Pre-trained Multi-Modal Transformers across SAR and Multispectral Modalities
Tomohiro Tanaka,Narumasa Tsutsumida
Main category: cs.CV
TL;DR: 提出了一种轻量级、传感器灵活的洪水检测方法,通过微调Presto多模态预训练变换器,能够处理SAR和光学数据,在单传感器或融合场景下都能有效进行洪水制图。
- Motivation: 洪水灾害频发造成严重损失,现有遥感技术面临数据可用性受限和计算资源需求大的问题,需要快速响应且传感器灵活的方法。
- Method: 微调轻量级多模态预训练变换器Presto(约0.4M参数),处理SAR和光学数据,支持单一传感器或融合输入的统一架构。
- Result: 在Sen1Floods11数据集上优于Prithvi-100M基线,融合场景F1达0.896,光学场景0.893,SAR场景0.718,显示鲁棒性。
- Conclusion: 参数高效、传感器灵活的方法为实际灾害场景提供了可访问且鲁棒的洪水范围评估解决方案。
[41] GeLoc3r: Enhancing Relative Camera Pose Regression with Geometric Consistency Regularization
Jingxing Li,Yongjae Lee,Deliang Fan
Main category: cs.CV
TL;DR: GeLoc3r通过几何一致性正则化(GCR)增强相对相机位姿回归方法,在训练时利用深度信息生成稠密3D-2D对应关系,通过加权RANSAC计算几何一致位姿作为监督信号,从而在不增加推理时间的情况下提升回归精度。
- Motivation: 解决ReLoc3R等回归方法存在的几何不一致性问题,同时保持其快速推理速度,接近基于对应关系方法(如MASt3R)的高精度水平。
- Method: 在训练阶段:1) 利用真实深度生成稠密3D-2D对应关系;2) 使用FusionTransformer学习对应关系重要性权重;3) 通过加权RANSAC计算几何一致位姿;4) 构建一致性损失将几何知识转移到回归网络中。推理时仅使用增强后的回归头。
- Result: 在多个挑战性基准测试中显著优于ReLoc3R:CO3Dv2数据集AUC@5°从34.85%提升至40.45%(相对提升16%),RealEstate10K从66.70%提升至68.66%,MegaDepth1500从49.60%提升至50.45%。
- Conclusion: GeLoc3r通过在训练而非推理时教授几何一致性,实现了回归方法的速度与对应关系方法的几何理解之间的平衡,代表了神经网络学习相机几何的新范式。
[42] MMeViT: Multi-Modal ensemble ViT for Post-Stroke Rehabilitation Action Recognition
Ye-eun Kim,Suhyeon Lim,Andrew J. Choi
Main category: cs.CV
TL;DR: 本研究针对中风患者康复需求,开发了基于IMU传感器和RGB-D相机的多模态动作识别系统,专门用于识别中风患者的上肢日常生活活动,并提出了适合处理多模态数据的深度学习模型。
- Motivation: 中风患者康复治疗需求增加但医疗资源不足,现有动作识别技术主要针对健康人群,无法有效识别中风患者的动作特征,需要开发专门针对中风患者的远程监测系统。
- Method: 使用IMU传感器和RGB-D相机收集中风患者上肢日常生活活动数据,设计多模态数据处理流程,提出适合处理多模态数据的深度学习模型。
- Result: 发现中风患者的动作数据聚类性较差,提出的模型能够学习难以聚类的数据特征,在类似标签上表现出相似的学习趋势。
- Conclusion: 该研究展示了深度学习模型学习中风患者动作特征的潜力,未来可扩展到不仅简单动作识别,还能提供有助于家庭康复的评估反馈。
[43] Activation Matching for Explanation Generation
Pirzada Suhail,Aditya Anand,Amit Sethi
Main category: cs.CV
TL;DR: 提出了一种基于激活匹配的方法,为预训练分类器在任意图像上的决策生成最小且忠实的最小化解释。该方法训练轻量级自编码器输出二元掩码,使解释区域既能保持模型预测结果,又能匹配中间层激活。
- Motivation: 需要为预训练分类器的决策提供既忠实又最小化的解释,既要保留模型行为,又要剔除不相关输入区域,生成人类可解释的小型掩码。
- Method: 训练轻量级自编码器输出二元掩码,结合多目标优化:多层级激活匹配(KL散度对齐分布、交叉熵保持标签)、掩码先验(L1面积最小化、二值化惩罚、总变分紧凑性)以及溯因约束确保忠实性和必要性。
- Result: 该方法能够生成小型、人类可解释的掩码,在保留分类器行为的同时丢弃不相关输入区域,为底层模型的决策提供实用且忠实的最小化解释。
- Conclusion: 提出的激活匹配方法能够有效生成最小且忠实的解释,通过多目标优化确保解释既保留模型决策依据,又具有人类可解释的紧凑形式。
[44] Mask What Matters: Controllable Text-Guided Masking for Self-Supervised Medical Image Analysis
Ruilang Wang,Shuotong Xu,Bowen Liu,Runlin Huang,Donglong Chen,Weifeng Su
Main category: cs.CV
TL;DR: 提出了一种可控的文本引导掩码框架Mask What Matters,用于自监督医学图像分析,通过视觉语言模型定位关键区域进行差异化掩码,在多个医学成像模态上优于现有方法。
- Motivation: 解决医学图像等专业领域标注数据稀缺的问题,现有自监督掩码图像建模方法依赖随机高比例掩码导致效率低下和语义对齐不佳,需要更智能的掩码策略。
- Method: 利用视觉语言模型进行基于提示的区域定位,对诊断相关区域应用差异化掩码,减少背景区域的冗余,实现可控的文本引导掩码。
- Result: 在脑部MRI、胸部CT和肺部X射线等多个医学成像模态上,分类准确率提升达3.1个百分点,检测任务中BoxAP提升1.3,MaskAP提升1.1,且总体掩码比例显著降低(40% vs 70%)。
- Conclusion: 可控的文本驱动掩码能够实现语义对齐的自监督学习,推动医学图像分析中鲁棒视觉模型的发展。
[45] FMC-DETR: Frequency-Decoupled Multi-Domain Coordination for Aerial-View Object Detection
Ben Liang,Yuan Liu,Bingwen Qiu,Yihong Wang,Xiubao Sui,Qian Chen
Main category: cs.CV
TL;DR: FMC-DETR是一种用于航空视角目标检测的新框架,通过频率解耦融合解决了小目标检测中的全局上下文建模问题,在VisDrone数据集上实现了6.5% AP和8.2% AP50的性能提升。
- Motivation: 航空视角目标检测在自然资源监测、交通管理和无人机搜救等应用中至关重要。现有方法在检测高分辨率航空图像中的微小目标时面临挑战,主要由于视觉线索有限、全局上下文建模困难、上下文融合延迟和非线性建模不足等问题。
- Method: 提出FMC-DETR框架:1)WeKat骨干网络使用级联小波变换增强浅层特征的全局低频上下文感知,同时保留细粒度细节,并采用Kolmogorov-Arnold网络实现多尺度依赖的自适应非线性建模;2)轻量级跨阶段部分融合模块减少冗余并改进多尺度特征交互;3)多域特征协调模块统一空间、频率和结构先验,平衡细节保留和全局增强。
- Result: 在基准航空视角数据集上的广泛实验表明,FMC-DETR以更少的参数实现了最先进的性能。在具有挑战性的VisDrone数据集上,相比基线模型获得了6.5% AP和8.2% AP50的改进。
- Conclusion: FMC-DETR通过频率解耦融合有效解决了航空视角小目标检测中的关键挑战,在保持较少参数的同时显著提升了检测性能,证明了其在微小目标检测中的有效性。
[46] Follow-Your-Preference: Towards Preference-Aligned Image Inpainting
Yutao Shen,Junkun Yuan,Toru Aonishi,Hideki Nakayama,Yue Ma
Main category: cs.CV
TL;DR: 该论文研究图像修复中的偏好对齐问题,通过直接偏好优化方法和公共奖励模型构建训练数据集,发现奖励模型存在可观察的偏见,通过简单集成方法能显著提升性能。
- Motivation: 重新审视图像修复中偏好对齐的基本问题,探索如何有效利用现有奖励模型来实现对齐训练,而不需要引入新的方法或数据集。
- Method: 使用直接偏好优化方法进行对齐训练,利用公共奖励模型构建偏好训练数据集,在9个奖励模型、2个基准测试和2个基线模型上进行实验,并采用模型集成来缓解偏见。
- Result: 发现大多数奖励模型能提供有效的奖励分数,偏好数据在不同模型和基准上表现出稳健趋势,通过模型集成显著提升了性能,在标准指标、GPT-4评估和人工评估中均优于先前模型。
- Conclusion: 研究为图像修复偏好对齐提供了一个简单而坚实的基线,展示了通过现有工具和方法就能实现显著改进,推动了这一有前景领域的发展。
[47] Streamline pathology foundation model by cross-magnification distillation
Ziyu Su,Abdul Rehman Akbar,Usama Sajjad,Anil V. Parwani,Muhammad Khalid Khan Niazi
Main category: cs.CV
TL;DR: XMAG是一个轻量级基础模型,通过跨放大倍率蒸馏技术,将20x放大倍率的教师模型知识转移到5x放大倍率的学生架构,实现高效计算病理学分析。
- Motivation: 现有基础模型参数庞大、处理高倍率图像计算成本高,难以在临床环境中部署。需要开发轻量级模型来降低计算需求。
- Method: 采用跨放大倍率蒸馏框架,包含双级知识转移(全局图像表示和局部空间标记对齐),使用紧凑主干网络,完全在5x放大倍率下运行。
- Result: 在6个临床相关组织病理学分析任务中,XMAG达到与大型基础模型相差1%的诊断准确率,同时实现30倍处理加速,处理速度达8.8张WSI/分钟。
- Conclusion: 跨放大倍率蒸馏是资源受限临床环境中部署基础模型能力的可行方法,有望实现实时病理AI集成。
[48] CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP
Na Min An,Inha Kang,Minhyun Lee,Hyunjung Shim
Main category: cs.CV
TL;DR: CoPatch是一个零样本参考图像分割框架,通过利用模型内部组件增强文本和图像的空间表示,无需额外训练即可显著提升空间定位能力。
- Motivation: 当前基础视觉语言模型(如CLIP)在图像文本对齐方面表现出色,但在理解空间关系方面存在困难。文本流中现有方法通常只关注主要名词短语而忽略上下文标记,视觉流中CLIP对不同空间布局的图像生成相似特征,导致对空间结构的敏感性有限。
- Method: CoPatch框架在语言方面构建包含空间线索上下文标记的混合文本特征,在视觉方面从中间层提取新的路径来获取更好保留空间结构的补丁级图像特征,然后将这些增强特征融合到聚类的图像-文本相似度映射CoMap中,实现精确的掩码选择。
- Result: CoPatch在RefCOCO、RefCOCO+、RefCOCOg和PhraseCut数据集上的零样本参考图像分割任务中显著提升了空间定位能力(mIoU提升2-7点),且无需任何额外训练。
- Conclusion: 研究强调了恢复和利用视觉语言模型中固有但未被开发的空间知识的重要性,为零样本参考图像分割开辟了新途径。
[49] Deep Learning for Oral Health: Benchmarking ViT, DeiT, BEiT, ConvNeXt, and Swin Transformer
Ajo Babu George,Sadhvik Bathini,Niranjana S R
Main category: cs.CV
TL;DR: 本研究系统评估了五种基于Transformer的架构(ViT、DeiT、ConvNeXt、Swin Transformer、BEiT)在牙科疾病多分类任务中的表现,特别关注数据不平衡问题。
- Motivation: 现有文献往往忽视真实世界中的数据不平衡问题,本研究旨在评估不同Transformer架构在牙科疾病分类中的表现,特别关注它们处理不平衡数据的能力。
- Method: 使用Oral Diseases数据集训练和验证所选模型,测量验证准确率、精确率、召回率和F1分数等性能指标,重点关注各架构对不平衡类别的处理能力。
- Result: ConvNeXt获得最高验证准确率81.06,其次是BEiT(80.00)和Swin Transformer(79.73),均表现出较强的F1分数。ViT和DeiT准确率分别为79.37和78.79,但在龋齿相关类别上表现较差。
- Conclusion: ConvNeXt、Swin Transformer和BEiT展现出可靠的诊断性能,是牙科影像临床应用的有前景候选模型。研究结果为未来AI驱动的口腔疾病诊断工具提供了模型选择指导,并强调了在真实场景中解决数据不平衡问题的重要性。
[50] HTMA-Net: Towards Multiplication-Avoiding Neural Networks via Hadamard Transform and In-Memory Computing
Emadeldeen Hamdan,Ahmet Enis Cetin
Main category: cs.CV
TL;DR: HTMA-Net结合哈达玛变换和免乘法SRAM内存计算,在保持精度的同时显著减少神经网络中的乘法运算和计算复杂度。
- Motivation: 降低乘法运算成本对边缘设备的高效深度神经网络部署至关重要,特别是在能源受限的环境中。
- Method: HTMA-Net选择性地用混合哈达玛变换层替换中间卷积层,这些层的内部卷积通过免乘法内存操作实现,结合了哈达玛变换和SRAM内存计算技术。
- Result: 在ResNet-18、ResNet-20和ResNet-50模型上,HTMA-Net相比基线模型消除了高达52%的乘法运算,同时保持了可比的准确率,并显著减少了计算复杂度和参数数量。
- Conclusion: 将结构化哈达玛变换层与SRAM内存计算免乘法算子相结合,是实现高效深度学习架构的有前景的路径。
[51] Towards Comprehensive Interactive Change Understanding in Remote Sensing: A Large-scale Dataset and Dual-granularity Enhanced VLM
Junxiao Xue,Quan Deng,Xuecheng Wu,Kelu Yao,Xinyi Yin,Fei Yu,Wei Zhou,Yanfei Zhong,Yang Liu,Dingkang Yang
Main category: cs.CV
TL;DR: 提出了ChangeIMTI数据集和ChangeVG模型,用于遥感图像变化理解的多任务学习,在变化描述任务上表现优异。
- Motivation: 现有遥感变化理解数据集缺乏深度理解和多任务交互,无法满足变化描述、分类、计数和定位等多样化任务需求。
- Method: 构建ChangeIMTI多任务指令数据集,设计ChangeVG视觉引导视觉语言模型,采用双分支架构结合细粒度空间特征提取和高级语义总结,作为辅助提示指导大语言模型进行指令调优。
- Result: 在变化描述任务上,方法比最强基线Semantic-CC在综合S*m指标上提升1.39分,该指标整合了语义相似性和描述准确性。
- Conclusion: 提出的ChangeIMTI数据集和ChangeVG模型有效解决了遥感变化理解的多任务挑战,通过视觉引导和层次化跨模态学习显著提升了性能。
[52] Stochastic Interpolants via Conditional Dependent Coupling
Chenrui Ma,Xi Xiao,Tianyang Wang,Xiao Wang,Yanning Shen
Main category: cs.CV
TL;DR: 提出基于条件依赖耦合策略的统一多阶段生成框架,通过多阶段插值轨迹分解生成过程,实现准确分布学习和端到端优化,在多个分辨率下实现高保真度和效率。
- Motivation: 现有图像生成模型在计算与保真度之间存在权衡问题:基于预训练VAE的模型存在信息丢失、细节有限且无法端到端训练;直接在像素空间操作的模型计算成本过高;级联模型虽然能降低计算成本,但阶段分离阻碍了端到端优化和知识共享。
- Method: 提出条件依赖耦合策略的统一多阶段生成框架,将生成过程分解为多阶段插值轨迹,整个过程建模为单一统一扩散变换器,无需分离模块并支持知识共享。
- Result: 大量实验证明,该方法在多个分辨率下同时实现了高保真度和高效率。
- Conclusion: 该统一多阶段生成框架成功解决了现有图像生成模型在计算效率与生成质量之间的权衡问题,实现了端到端优化和准确分布学习。
[53] Benchmarking DINOv3 for Multi-Task Stroke Analysis on Non-Contrast CT
Donghao Zhang,Yimin Chen,Kauê TN Duarte,Taha Aslan,Mohamed AlShamrani,Brij Karmur,Yan Wan,Shengcai Chen,Bo Hu,Bijoy K Menon,Wu Qiu
Main category: cs.CV
TL;DR: 利用DINOv3自监督视觉变换器生成特征表示,用于非对比CT图像中的多种卒中分析任务,包括梗死和出血分割、异常分类、出血亚型分类和ASPECTS分类。
- Motivation: 非对比CT在快速卒中诊断中至关重要,但受限于低图像对比度和信噪比,需要提升自动诊断能力。
- Method: 采用DINOv3自监督视觉变换器生成特征表示,在多个公共和私有数据集上评估梗死和出血分割、异常分类、出血亚型分类及ASPECTS分类任务。
- Result: 为这些卒中分析任务建立了强大的基准,证明了先进自监督模型在改善NCCT自动卒中诊断方面的潜力。
- Conclusion: 展示了自监督模型在卒中诊断中的优势,同时分析了当前方法的局限性,代码已开源。
[54] Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
Peilin Feng,Zhutao Lv,Junyan Ye,Xiaolei Wang,Xinjie Huo,Jinhua Yu,Wanghan Xu,Wenlong Zhang,Lei Bai,Conghui He,Weijia Li
Main category: cs.CV
TL;DR: 提出了Earth-Agent,首个基于MCP的工具生态系统,统一RGB和光谱EO数据,支持跨模态、多步骤和定量时空推理的智能体框架。
- Motivation: 当前MLLMs在EO领域缺乏处理复杂任务的能力,无法进行多步骤推理和使用领域特定工具。现有基于智能体的方法局限于RGB感知、浅层推理,且缺乏系统评估协议。
- Method: Earth-Agent框架统一RGB和光谱EO数据,在MCP工具生态系统中动态调用跨模态专家工具和模型,支持地球物理参数检索和定量时空分析等复杂科学任务。
- Result: 实验表明Earth-Agent在不同LLM骨干网络、与通用智能体框架对比、以及在遥感基准测试中与MLLMs对比均表现出有效性。
- Conclusion: Earth-Agent为EO分析建立了新范式,推动该领域向科学基础扎实的下一代LLM应用发展。
[55] WeatherCycle: Unpaired Multi-Weather Restoration via Color Space Decoupled Cycle Learning
Wenxuan Fang,Jiangwei Weng,Jianjun Qian,Jian Yang,Jun Li
Main category: cs.CV
TL;DR: WeatherCycle是一个统一的非配对框架,通过双向退化-内容转换循环和退化感知课程正则化来解决多天气条件下的图像恢复问题。
- Motivation: 现有的图像恢复方法通常依赖任务特定的物理先验,其狭窄的焦点限制了在多样化真实天气场景下的可扩展性和泛化能力。
- Method: 采用亮度-色度分解策略解耦退化与内容,提出亮度退化引导模块(LDGM)学习亮度退化先验,并通过难度感知对比正则化(DACR)模块增强语义一致性。
- Result: 在多个多天气数据集上的广泛实验表明,该方法在无监督方法中实现了最先进的性能,对复杂天气退化具有强大的泛化能力。
- Conclusion: WeatherCycle通过统一的非配对框架成功解决了多天气条件下的图像恢复问题,无需建模复杂天气即可实现退化与内容的解耦。
[56] Sparse2Dense: A Keypoint-driven Generative Framework for Human Video Compression and Vertex Prediction
Bolin Chen,Ru-Ling Liao,Yan Ye,Jie Chen,Shanzhi Yin,Xinrui Ju,Shiqi Wang,Yibo Fan
Main category: cs.CV
TL;DR: Sparse2Dense是一个基于关键点的生成框架,利用稀疏3D关键点作为紧凑传输符号,实现超低码率人体视频压缩和精确顶点预测。
- Motivation: 解决带宽受限多媒体应用中同时实现超低码率人体视频压缩和准确顶点预测的挑战,需要协调动态运动建模、细节外观合成和几何一致性。
- Method: 采用多任务学习和关键点感知的深度生成模型,通过紧凑3D关键点编码复杂人体运动,并利用这些稀疏关键点估计密集运动以实现时间一致和逼真纹理的视频合成。同时集成顶点预测器,通过联合优化学习人体顶点几何。
- Result: 实验表明Sparse2Dense在人体视频压缩方面优于传统/生成式视频编码器,同时能够实现精确的人体顶点预测,适用于下游几何应用。
- Conclusion: Sparse2Dense有望促进带宽高效的人体中心媒体传输,如实时运动分析、虚拟人体动画和沉浸式娱乐。
[57] TRAX: TRacking Axles for Accurate Axle Count Estimation
Avinash Rai,Sandeep Jana,Vishal Vijay
Main category: cs.CV
TL;DR: 提出基于视频的端到端车轴计数系统,结合YOLO-OBB车辆检测和YOLO轮胎检测,通过创新的TRAX算法解决长车辆和遮挡场景下的检测挑战。
- Motivation: 准确的车轴计数对交通控制、收费和基础设施发展至关重要,现有方法在密集环境中存在局限性。
- Method: 使用YOLO-OBB检测和分类车辆,YOLO检测轮胎,通过智能关联轮胎与车辆,提出TRAX算法跟踪帧间车轴特征。
- Result: 显著减少误报,提高长车辆车轴计数准确性,在真实交通视频中表现出强鲁棒性。
- Conclusion: 这是向可扩展AI驱动车轴计数系统的重要一步,为机器视觉替代传统路边基础设施铺平道路。
[58] Confidence-Calibrating Regularization for Robust Brain MRI Segmentation Under Domain Shift
Behraj Khan,Tahir Qasim Syed
Main category: cs.CV
TL;DR: CalSAM是一个轻量级适配框架,通过特征Fisher信息惩罚和置信度错位惩罚来提升SAM模型在医学图像分割中的域泛化能力和校准性能,仅微调掩码解码器。
- Motivation: SAM模型在自然图像上表现出强大的零样本性能,但在医学体积图像上存在域偏移和过度自信的问题。
- Method: 提出CalSAM框架:(i) 通过3D特征图上的特征Fisher信息惩罚降低编码器对域偏移的敏感性;(ii) 通过置信度错位惩罚惩罚过度自信的体素级错误。仅微调掩码解码器,保持SAM编码器冻结。
- Result: 在跨中心和扫描仪偏移评估中,CalSAM显著提高了准确性和校准性:在BraTS扫描仪分割上,DSC相对提升+7.4%,HD95减少-26.9%,ECE减少-39.5%。在ATLAS-C上,DSC相对提升+5.3%,ECE减少-32.6%。
- Conclusion: CalSAM为脑MRI分割提供了改进的域泛化和更好的校准不确定性估计,同时保留了冻结SAM编码器的计算优势。
[59] Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss
Yifan Zhang,Wei Zhang,Chuangxin He,Zhonghua Miao,Junhui Hou
Main category: cs.CV
TL;DR: 提出了一种新的无监督在线3D实例分割框架,通过合成点云序列生成增强训练多样性,采用灵活的时间采样策略和动态加权损失,在多个数据集上优于现有方法。
- Motivation: 现有无监督3D实例分割方法(如UNIT)存在训练多样性有限、时间采样僵化、对噪声伪标签依赖严重等问题,需要改进以提升分割准确性和时间关联鲁棒性。
- Method: 1) 合成点云序列生成增强训练分布多样性;2) 灵活时间采样策略利用相邻和非相邻帧捕捉长短时依赖;3) 动态加权损失强调置信度高和信息丰富的样本。
- Result: 在SemanticKITTI、nuScenes和PandaSet数据集上的实验表明,该方法持续优于UNIT和其他无监督基线,实现了更高的分割准确性和更鲁棒的时间关联。
- Conclusion: 所提出的框架通过合成数据增强、灵活时间采样和动态加权损失,显著提升了无监督在线3D实例分割的性能,代码将开源。
[60] Real-World Transferable Adversarial Attack on Face-Recognition Systems
Andrey Kaznacheev,Matvey Mikhalchuk,Andrey Kuznetsov,Aleksandr Petiushko,Anton Razzhigaev
Main category: cs.CV
TL;DR: 提出GaP(高斯补丁)方法,在严格黑盒设置下生成通用、物理可转移的对抗性补丁,通过查询高效算法在额头构建对称灰度图案,仅需约1万次查询即可有效攻击人脸识别系统。
- Motivation: 人脸识别系统面临对抗性攻击的安全威胁,但现有攻击多局限于数字域或需要白盒访问。本研究旨在开发在黑盒设置下实用且可转移的物理对抗攻击方法。
- Method: 使用查询高效的零阶贪婪算法,通过逐步添加高斯斑点迭代构建对称灰度图案,仅依赖替代FR模型的余弦相似度分数来最大化降低身份识别准确性。
- Result: 仅需约1万次查询,GaP在数字和真实世界物理测试中均实现高攻击成功率,且对未见过的FaceNet模型表现出强转移性。
- Conclusion: 这项工作揭示了人脸识别系统的实际严重漏洞,证明在目标系统知识有限的情况下也能构建鲁棒且可转移的攻击。
[61] UltraUNet: Real-Time Ultrasound Tongue Segmentation for Diverse Linguistic and Imaging Conditions
Alisher Myrgyyassov,Zhen Song,Yu Sun,Bruce Xiao Wang,Min Ney Wong,Yongping Zheng
Main category: cs.CV
TL;DR: 提出UltraUNet,一种轻量级编码器-解码器架构,用于实时分割超声舌图像中的舌轮廓,在8个数据集上表现出高准确性和鲁棒性。
- Motivation: 实时舌轮廓分割在超声舌成像中具有挑战性,主要由于低信噪比、成像变异性和计算需求。
- Method: 采用轻量级Squeeze-and-Excitation模块、组归一化和小批量稳定性处理,以及基于求和的跳跃连接来减少内存和计算开销,并集成超声特定的增强方法如去噪和模糊模拟。
- Result: 达到250帧/秒的速度,单数据集Dice系数为0.855,MSD为0.993像素,跨数据集Dice系数平均为0.734和0.761。
- Conclusion: UltraUNet为语音研究、临床诊断和言语运动障碍分析提供了快速准确的解决方案。
[62] Patch Rebirth: Toward Fast and Transferable Model Inversion of Vision Transformers
Seongsoo Heo,Dong-Wan Choi
Main category: cs.CV
TL;DR: 提出了Patch Rebirth Inversion (PRI)方法,通过渐进式分离重要补丁来构建稀疏合成图像,同时让剩余补丁继续演化,解决了ViT模型反转的计算效率问题,比标准密集模型反转快10倍,比稀疏模型反转快2倍且精度更高。
- Motivation: 现有的稀疏模型反转(SMI)方法在ViT上通过剪枝丢弃看似不重要的补丁来提高效率,但研究发现即使是随机选择的补丁最终也能获得可迁移知识,过早丢弃补丁会抑制类无关特征的提取。
- Method: PRI方法在反转过程中逐步分离最重要的补丁来构建稀疏合成图像,同时允许剩余补丁继续演化以供未来选择,实现渐进式策略。
- Result: PRI比标准密集模型反转(DMI)快10倍,比SMI快2倍,在精度上持续优于SMI并达到DMI的性能水平。
- Conclusion: PRI通过补丁重生效应有效平衡了类无关和类特定知识,在保持性能的同时显著提高了模型反转的效率。
[63] Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection
Mingfei Han,Haihong Hao,Jinxing Zhou,Zhihui Li,Yuhui Zheng,Xueqing Deng,Linjie Yang,Xiaojun Chang
Main category: cs.CV
TL;DR: 提出了一种利用模型自身长回答与短答案之间一致性来生成训练数据的框架,无需人工标注或外部监督即可减少视觉语言模型的幻觉问题
- Motivation: 视觉语言模型经常产生幻觉细节,生成不存在对象或不准确属性,影响输出可靠性。现有方法依赖大量人工标注或更强大模型的外部监督
- Method: 设计自反思管道,通过比较详细模型响应与简洁二元答案的一致性,利用不一致信号自动生成高质量训练数据,仅依赖自一致性而非外部监督
- Result: 在多个基准测试(AMBER、MultiObject-Hal、Object HalBench、MMHal-Bench)上显著改善了事实基础和可靠性,同时在LLaVA-Bench和MMBench上保持了强大的指令遵循能力
- Conclusion: 该方法提供了一种可扩展且高效的解决方案,仅使用未标记数据就能有效减少幻觉,同时保持模型性能
[64] TATTOO: Training-free AesTheTic-aware Outfit recOmmendation
Yuntian Wu,Xiaonan Hu,Ziqi Zhou,Hao Lu
Main category: cs.CV
TL;DR: TATTOO是一种训练免费的审美感知服装搭配推荐方法,利用多模态大语言模型生成目标物品描述和审美链式思考,在共享嵌入空间中排名候选物品,在Aesthetic-100数据集上达到最先进性能。
- Motivation: 传统时尚电商服装搭配工具需要昂贵的大规模标注数据和任务特定训练,且缺乏明确的审美指导。在MLLM时代,可以简化为训练免费范式,获得更好的推荐分数和增强的审美意识。
- Method: 使用MLLMs生成目标物品描述,通过审美链式思考将图像提炼为结构化审美档案(颜色、风格、场合、季节、材质、平衡),通过动态熵门控机制融合视觉摘要、文本描述和审美向量,在共享嵌入空间中排名候选物品。
- Result: 在真实评估集Aesthetic-100上,TATTOO相比现有基于训练的方法达到最先进性能。在标准Polyvore数据集上也展示了先进的零样本检索能力。
- Conclusion: TATTOO证明了在MLLM时代,传统的基于训练的方法可以简化为训练免费范式,实现更好的推荐性能和审美意识。
[65] Increasing the Diversity in RGB-to-Thermal Image Translation for Automotive Applications
Kaili Wang,Leonardo Ravaglia,Roberto Longo,Lore Goetschalckx,David Van Hamme,Julie Moeyersoms,Ben Stoffelen,Tom De Schepper
Main category: cs.CV
TL;DR: 提出了一种基于CoAdaIN的多模态RGB到热成像图像转换框架,实现一对多映射,生成更真实多样的热成像图像。
- Motivation: 解决ADAS中热成像研究面临的数据集稀缺和驾驶模拟器中代表性不足的问题,改进现有RGB到热成像转换方法的一对一映射限制。
- Method: 使用多模态转换框架,引入组件感知自适应实例归一化(CoAdaIN),对不同图像组件分别应用样式,而不是像原始AdaIN那样全局应用。
- Result: 生成了更真实和多样化的热成像图像转换结果。
- Conclusion: CoAdaIN方法在RGB到热成像图像转换中实现了更优的一对多映射效果,为ADAS热成像研究提供了更好的数据生成解决方案。
[66] LiDAR-based Human Activity Recognition through Laplacian Spectral Analysis
Sasan Sharifipour,Constantino Álvarez Casado,Le Nguyen,Tharindu Ekanayake,Manuel Lage Cañellas,Nhi Nguyen,Miguel Bordallo López
Main category: cs.CV
TL;DR: 提出一种基于图谱分析的人体活动识别方法,使用LiDAR点云构建邻近图,通过拉普拉斯谱特征进行活动分类,在MM-Fi数据集上达到94.4%的准确率。
- Motivation: LiDAR点云提供隐私保护且对光照鲁棒的活动识别方案,需要开发直接从点云几何中提取紧凑可解释特征的方法。
- Method: 将LiDAR帧映射为邻近图,计算拉普拉斯谱,用特征值和特征向量统计量构成姿态描述符,通过滑动窗口时间统计生成固定向量,使用支持向量机和随机森林分类。
- Result: 在MM-Fi数据集40个受试者27种活动上,严格受试者独立协议下,13类康复活动准确率94.4%,全部27类活动准确率90.3%,超越基于骨架的基线方法。
- Conclusion: 该方法提供了一种直接从点云几何中提取紧凑可解释特征集的方案,为端到端深度学习提供了准确高效的替代方案。
[67] OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting
Atakan Topaloglu,Kunyi Li,Michael Niemeyer,Nassir Navab,A. Murat Tekalp,Federico Tombari
Main category: cs.CV
TL;DR: OracleGS是一个结合生成模型完整性和回归模型几何保真度的稀疏视图新视角合成框架,通过"提出-验证"机制使用3D感知扩散模型生成完整场景,再利用多视角立体模型作为3D感知预言机验证生成视图的3D不确定性,指导3D高斯溅射优化。
- Motivation: 解决稀疏视图新视角合成中的几何模糊性问题,调和生成模型的场景完整性与回归模型的几何保真度之间的权衡。
- Method: 采用"提出-验证"框架:首先使用预训练的3D感知扩散模型合成新视图提出完整场景,然后重新利用多视角立体模型作为3D感知预言机验证生成视图的3D不确定性,通过注意力图揭示多视角证据支持区域和高不确定性区域,使用不确定性加权损失指导3D高斯溅射优化。
- Result: 在Mip-NeRF 360和NeRF Synthetic等数据集上优于现有最先进方法,能够在过滤幻觉伪影的同时保留欠约束区域的合理补全。
- Conclusion: OracleGS成功地将强大的生成先验与多视角几何证据相结合,实现了稀疏视图新视角合成中生成完整性与几何保真度的统一。
[68] Learning Regional Monsoon Patterns with a Multimodal Attention U-Net
Swaib Ilias Mazumder,Manish Kumar,Aparajita Khan
Main category: cs.CV
TL;DR: 提出了一种用于印度高分辨率降水分类的多模态深度学习框架,整合了7种地理空间数据,在1公里分辨率上优于现有方法,特别是在极端降雨预测方面。
- Motivation: 印度季风降雨预测对农业和水资源管理至关重要,但由于地面观测稀疏和区域变异性复杂,准确预测仍具挑战性。
- Method: 使用注意力引导的U-Net架构,整合7种地理空间模态数据,结合焦点损失和Dice损失函数处理降雨类别不平衡问题。
- Result: 多模态框架在1公里分辨率上持续优于单模态基线和现有深度学习方法,在极端降雨类别中表现尤为突出。
- Conclusion: 这项工作为区域季风预报、气候适应力和地理空间AI应用提供了一个可扩展的框架、基准数据集和最先进的结果。
[69] SynDoc: A Hybrid Discriminative-Generative Framework for Enhancing Synthetic Domain-Adaptive Document Key Information Extraction
Yihao Ding,Soyeon Caren Han,Yanbei Jiang,Yan Li,Zechuan Li,Yifan Peng
Main category: cs.CV
TL;DR: SynDoc是一个结合判别式和生成式模型的框架,通过合成数据生成和自适应指令调优,解决领域特定视觉丰富文档理解中的幻觉、领域适应不足等问题。
- Motivation: 现有的大语言模型在视觉丰富文档理解中存在幻觉、领域适应不足和依赖大量微调数据的问题,特别是在医学、金融等敏感领域。
- Method: 使用合成数据生成工作流(结构信息提取和领域特定查询生成)产生高质量标注,通过自适应指令调优提升判别模型的领域知识提取能力,并采用递归推理机制迭代优化两个模型的输出。
- Result: 该框架实现了可扩展、高效且精确的文档理解,在文档关键信息提取任务中弥合了领域特定适应与通用世界知识之间的差距。
- Conclusion: SynDoc框架有效解决了领域特定视觉丰富文档理解的挑战,通过结合判别式和生成式模型的方法提供了稳定准确的预测能力。
[70] Vid-Freeze: Protecting Images from Malicious Image-to-Video Generation via Temporal Freezing
Rohit Chowdhury,Aniruddha Bala,Rohan Jaiswal,Siddharth Roheda
Main category: cs.CV
TL;DR: Vid-Freeze是一种针对图像转视频生成模型的对抗攻击方法,通过添加精心设计的扰动来抑制注意力机制,阻止恶意视频内容的生成。
- Motivation: 随着图像转视频生成模型的快速发展,从静态图像合成视频带来了显著风险,可能被用于制作欺骗性或恶意内容。现有防御方法如I2VGuard尝试对图像进行免疫,但有效且原理性的阻止运动生成的保护方法仍有待探索。
- Method: 提出Vid-Freeze方法,通过向图像添加精心设计的对抗性扰动,明确针对I2V模型的注意力机制,完全破坏运动合成,同时保持输入图像的语义保真度。
- Result: 经过免疫处理的图像生成静止或接近静态的视频,有效阻止恶意内容的创建。实验证明了该方法提供的显著保护效果。
- Conclusion: 注意力攻击是应对I2V生成模型滥用的一个前景广阔的方向,为构建鲁棒和主动防御提供了重要思路。
[71] Seeing Through the Blur: Unlocking Defocus Maps for Deepfake Detection
Minsun Jeon,Simon S. Woo
Main category: cs.CV
TL;DR: 提出了一种基于离焦模糊的深度伪造检测框架,利用光学成像原理中的离焦模糊作为可解释的取证信号来识别合成图像。
- Motivation: 生成式AI的快速发展使得合成图像越来越逼真,威胁视觉媒体的完整性。需要开发能够有效区分真实和伪造内容的检测方法。
- Method: 构建离焦模糊图作为判别特征,利用光学成像中深度依赖的离焦模糊现象来捕捉合成图像缺乏真实景深特性的差异。
- Result: 实验证实离焦模糊提供了可靠且可解释的合成图像识别线索,支持了该方法的有效性。
- Conclusion: 基于离焦模糊的检测框架为媒体取证研究提供了有意义的贡献,其实现已公开。
[72] Seeing the Unseen in Low-light Spike Streams
Liwen Hu,Yang Li,Mianzhi Liu,Yijia Guo,Shenghao Xie,Ziluo Ding,Tiejun Huang,Lei Ma
Main category: cs.CV
TL;DR: 提出了Diff-SPK,首个基于扩散模型的脉冲相机重建方法,专门针对低光照高速场景下的脉冲流重建问题。
- Motivation: 传统方法在低光照高速场景下处理脉冲流时面临严重噪声和稀疏信息问题,难以生成清晰图像。
- Method: 使用增强纹理间隔(ETFI)聚合稀疏信息,然后作为ControlNet的条件输入生成高速场景,并引入ETFI特征融合模块提升质量。
- Result: 在真实低光照脉冲流上的表现证明了Diff-SPK的优越性,并建立了首个低光照脉冲流重建基准数据集。
- Conclusion: Diff-SPK通过利用生成先验有效补充低光照条件下的纹理信息,在低光照高速脉冲相机重建任务中表现出色。
[73] Balanced Diffusion-Guided Fusion for Multimodal Remote Sensing Classification
Hao Liu,Yongjie Zheng,Yuhan Kang,Mingyang Zhang,Maoguo Gong,Lorenzo Bruzzone
Main category: cs.CV
TL;DR: 提出平衡扩散引导融合(BDGF)框架,利用多模态扩散特征指导多分支网络进行土地覆盖分类,通过自适应模态掩码策略解决模态不平衡问题,在四个多模态遥感数据集上取得优越性能。
- Motivation: 解决多模态DDPM预训练中的模态不平衡问题,以及如何有效利用扩散特征指导互补多样性特征提取这一开放性问题。
- Method: 1) 自适应模态掩码策略鼓励DDPM获得模态平衡而非光谱图像主导的数据分布;2) 扩散特征通过特征融合、组通道注意力和交叉注意力机制分层指导CNN、Mamba和transformer网络的特征提取;3) 开发互学习策略通过对齐概率熵和特征相似性增强分支间协作。
- Result: 在四个多模态遥感数据集上的广泛实验表明,所提方法实现了优越的分类性能。
- Conclusion: BDGF框架有效解决了多模态DDPM中的模态不平衡问题,并通过扩散特征引导的多分支网络实现了高性能的土地覆盖分类。
[74] Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning
Haorui Yu,Qiufeng Yi,Yijia Chu,Yang Zhao
Main category: cs.CV
TL;DR: 该研究引入了一个诊断框架来评估视觉语言模型在火主题文化图像上的推理能力,发现模型存在系统性偏见,能够正确识别西方节日但在非西方文化事件上表现不佳,甚至将紧急情况误分类为庆祝活动。
- Motivation: 视觉语言模型表面上具有文化能力,但实际上依赖表面模式匹配而非真正的文化理解。研究者希望揭示这些模型在文化理解方面的局限性。
- Method: 通过分类和解释分析,测试多个模型在西方节日、非西方传统和紧急场景等火主题文化图像上的表现。
- Result: 模型存在系统性偏见:能正确识别突出的西方节日,但在代表性不足的文化事件上表现困难,经常提供模糊标签或危险地将紧急情况误分类为庆祝活动。
- Conclusion: 这些失败暴露了符号捷径的风险,强调需要超越准确性指标的文化评估,以确保可解释和公平的多模态系统。
[75] C3-OWD: A Curriculum Cross-modal Contrastive Learning Framework for Open-World Detection
Siheng Wang,Zhengdao Li,Yanshu Li,Canran Xiao,Haibo Zhan,Zhengtao Yao,Xuzhi Zhang,Jiale Kang,Linshan Li,Weiming Liu,Zhikang Dong,Jifeng Shen,Junhao Dong,Qiang Sun,Piotr Koniusz
Main category: cs.CV
TL;DR: C3-OWD是一个课程跨模态对比学习框架,通过两阶段训练同时解决目标检测的鲁棒性和泛化性问题,在RGB-T数据和视觉语言对齐上取得平衡。
- Motivation: 现实世界目标检测面临两个关键挑战:对未见类别的泛化能力差,以及在恶劣条件下的鲁棒性不足。现有研究分别探索这两个问题,但难以同时实现鲁棒性和多样性。
- Method: 提出两阶段课程学习框架:第一阶段使用RGBT数据预训练增强鲁棒性,第二阶段通过视觉语言对齐提高泛化能力。引入指数移动平均机制防止灾难性遗忘。
- Result: 在FLIR数据集上达到80.1 AP50,在OV-COCO上达到48.6 AP50_Novel,在OV-LVIS上达到35.7 mAP_r,在鲁棒性和多样性评估中均表现出竞争力。
- Conclusion: C3-OWD成功统一了鲁棒性和泛化性的优势,通过课程学习和EMA机制有效解决了现有方法的局限性,在多个基准测试中取得了优异性能。
[76] Spatial-Spectral Binarized Neural Network for Panchromatic and Multi-spectral Images Fusion
Yizhen Jiang,Mengting Ma,Anqi Zhu,Xiaowen Ma,Jiaxin Li,Wei Zhang
Main category: cs.CV
TL;DR: 本文提出了一种用于遥感图像全色锐化的二进制神经网络S2BNet,通过定制化的空间-频谱二值化卷积(S2B-Conv)解决二值化过程中的频谱失真和空间特征退化问题。
- Motivation: 现有深度学习模型在全色锐化中性能优秀但计算复杂度高,难以在资源受限设备上应用。本文探索二进制神经网络在全色锐化中的应用可行性,旨在开发高效的全色锐化方法。
- Method: 设计了空间-频谱二值化卷积(S2B-Conv),包含频谱重分布机制(SRM)和Gabor空间特征放大器(GSFA)。SRM通过动态学习生成缩放和偏置参数,GSFA随机选择预设范围内的频率和角度来处理多尺度和各向异性空间特征。
- Result: 大量定量和定性实验表明,这种高效二值化全色锐化方法能够获得有前景的性能。
- Conclusion: S2BNet通过定制化的二值化卷积设计,成功解决了全色锐化中二值化带来的频谱失真和空间特征退化问题,实现了高效的全色锐化处理。
[77] Decoupling Reasoning and Perception: An LLM-LMM Framework for Faithful Visual Reasoning
Hongrui Jia,Chaoya Jiang,Shikun Zhang,Wei Ye
Main category: cs.CV
TL;DR: 提出了一种无需训练的解耦视觉推理框架,将推理和感知过程分离,使用LLM进行高层推理,LMM作为视觉问答引擎提供感知细节,显著减少视觉无根据的推理步骤。
- Motivation: 大型多模态模型在扩展推理链时过度依赖文本逻辑,逐渐脱离视觉信息基础,导致推理路径偏离图像内容而产生错误结论。
- Method: 采用无需训练的解耦视觉推理管道,由强大的LLM主导高层推理,策略性地询问LMM以提取所需的视觉信息,LMM专门作为视觉问答引擎。
- Result: 框架有效控制视觉推理过程,显著减少视觉无根据的推理步骤,大幅提升推理保真度。
- Conclusion: 这种轻量级即插即用方法无需额外训练或架构修改,能有效解决LMM在长推理链中视觉基础丢失的问题。
[78] DDP: Dual-Decoupled Prompting for Multi-Label Class-Incremental Learning
Kaile Du,Zihan Ye,Junzhou Xie,Fan Lyu,Yixi Shen,Yuyang Li,Miaoxuan Zhu,Fuyuan Hu,Ling Shao,Guangcan Liu
Main category: cs.CV
TL;DR: DDP是一种无需重放且参数高效的双解耦提示框架,通过类特定的正负提示和渐进置信度解耦策略,解决了多标签类增量学习中的语义混淆和部分标签导致的假阳性问题。
- Motivation: 现有的基于提示的单标签类增量学习方法直接扩展到多标签场景效果不佳,主要面临两个内在挑战:共现类别导致的语义混淆和部分标签引起的真阴性-假阳性混淆。
- Method: 提出DDP框架,包含类特定的正负提示来解耦语义,以及渐进置信度解耦(PCD)策略来抑制假阳性。冻结过去提示作为知识锚点,使用层间提示提高效率。
- Result: 在MS-COCO和PASCAL VOC数据集上,DDP持续优于先前方法,是首个在标准MS-COCO B40-C10基准下超过80% mAP和70% F1的无重放MLCIL方法。
- Conclusion: DDP通过显式解决多标签类增量学习中的两个关键挑战,实现了显著的性能提升,证明了其在无重放多标签类增量学习中的有效性。
[79] LRPO: Enhancing Blind Face Restoration through Online Reinforcement Learning
Bin Wu,Yahui Liu,Chi Zhang,Yao Zhao,Wei Wang
Main category: cs.CV
TL;DR: 提出LRPO框架,首次将在线强化学习应用于盲人脸恢复任务,通过似然正则化策略优化解决大解空间探索问题,显著提升恢复质量。
- Motivation: 盲人脸恢复面临大解空间探索的固有挑战,导致恢复图像出现细节缺失和身份模糊等常见伪影。
- Method: 提出LRPO框架,包含三个关键策略:1)针对人脸恢复评估的复合奖励函数;2)基于真实图像的似然正则化;3)噪声级别优势分配。
- Result: 大量实验表明,LRPO在基线方法基础上显著提高了人脸恢复质量,并达到了最先进的性能。
- Conclusion: LRPO框架成功解决了盲人脸恢复中的大解空间探索问题,在感知质量和保真度之间取得了良好平衡。
[80] DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice
Zijie Meng,Jin Hao,Xiwei Dai,Yang Feng,Jiaxiang Liu,Bin Feng,Huikai Wu,Xiaotang Gai,Hengchuan Zhu,Tianxiang Hu,Yangyang Wu,Hongxia Xu,Jin Li,Jun Xiao,Xiaoqiang Liu,Joey Tianyi Zhou,Fudong Zhu,Zhihe Zhao,Lunguo Xia,Bing Fang,Jimeng Sun,Jian Wu,Zuozhu Liu
Main category: cs.CV
TL;DR: DentVLM是一个多模态视觉语言模型,在口腔疾病诊断中表现出专家级水平,显著优于现有模型,并能提升牙医诊断效率和准确性。
- Motivation: 当前AI模型在处理口腔疾病的多模态复杂诊断需求方面存在不足,需要开发能够整合多种成像模态的先进诊断工具。
- Method: 使用包含110,447张图像和246万视觉问答对的双语数据集开发DentVLM模型,能够解释7种2D口腔成像模态,涵盖36个诊断任务。
- Result: 在临床研究中,DentVLM在36个任务中的21个任务上超过13名初级牙医,在12个任务上超过12名高级牙医,协作工作流中可将初级牙医表现提升至高级水平,诊断时间减少15-22%。
- Conclusion: DentVLM作为强大的临床决策支持工具,有望提升初级牙科护理质量,缓解医患资源不平衡,并在牙科领域普及专业医学知识。
[81] Dynamic-TreeRPO: Breaking the Independent Trajectory Bottleneck with Structured Sampling
Xiaolong Fu,Lichen Ma,Zipeng Guo,Gaojing Zhou,Chongxiao Wang,ShiPing Dong,Shizhe Zhou,Shizhe Zhou,Ximan Liu,Jingling Fu,Tan Lit Sin,Yu Shi,Zhen Chen,Junshi Huang,Jason Li
Main category: cs.CV
TL;DR: 提出了Dynamic-TreeRPO方法,通过树状结构搜索和动态噪声强度优化文本到图像生成,结合LayerTuning-RL范式,在保持生成质量的同时显著提升训练效率。
- Motivation: 现有强化学习在文本到图像生成中虽然提升了质量,但存在探索效率低、采样策略无效的问题,需要更高效的探索方法。
- Method: 采用滑动窗口采样策略构建树状结构搜索,结合GRPO引导优化和约束SDE采样,通过共享前缀路径分摊计算开销,并设计LayerTuning-RL范式将SFT损失函数重构为动态加权的进度奖励模型。
- Result: 在HPS-v2.1、PickScore和ImageReward基准测试中分别超越现有最佳方法4.9%、5.91%和8.66%,同时训练效率提升近50%。
- Conclusion: Dynamic-TreeRPO通过树状结构采样和LayerTuning-RL范式,在语义一致性、视觉保真度和人类偏好对齐方面表现出显著优势,同时大幅提升训练效率。
[82] Test-time Uncertainty Estimation for Medical Image Registration via Transformation Equivariance
Lin Tian,Xiaoling Hu,Juan Eugenio Iglesias
Main category: cs.CV
TL;DR: 提出了一种与任何预训练配准网络兼容的测试时不确定性估计框架,通过分析网络在空间扰动下预测的方差来评估配准可靠性。
- Motivation: 当前深度配准网络缺乏对其预测可靠性的指示,现有不确定性估计方法需要架构修改或重新训练,限制了在预训练网络中的应用。
- Method: 基于配准的变换等变性原理,通过空间扰动输入图像并分析网络预测的方差,将基于扰动的不确定性分解为内在扩散和偏置抖动两个分量。
- Result: 在四个解剖结构(脑、心脏、腹部、肺)和多个配准模型上的实验表明,不确定性图与配准误差一致相关,并能突出需要谨慎处理的区域。
- Conclusion: 该框架可将任何预训练配准网络转变为风险感知工具,使医学图像配准更接近在临床和大规模研究环境中的安全部署。
[83] GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval
Zhaohua Zhang,Jianhuan Zhuo,Muxi Chen,Chenchen Zhao,Wenyu Jiang,Tianwen Jiang,Mingyang Chen,Yu Tang,Qiuyong Xiao,Jihong Zhang,Zhixun Su
Main category: cs.CV
TL;DR: GRAPE是一种即插即用的增强方法,通过将排序信号融入基于LLM的查询重写中,解决CLIP模型在分布偏移情况下的检索性能下降问题。
- Motivation: CLIP模型在大规模检索系统中表现优异,但在输入分布与训练语料不同的任务中(如多语言、长文本或多模态差异)表现不佳。现有方法使用LLM进行查询重写,但缺乏监督信号导致无法生成最优重写结果。
- Method: 提出GRAPE方法,使用GRPO(Grouped Ranking-Aware Policy Optimization)将排序信号融入检索引导的查询重写过程,通过语料相对排序奖励机制解决分数膨胀问题。
- Result: 在多种分布偏移场景下(多语言差异、长度差异、多模态差异)的实验表明,GRAPE能持续提升检索性能,在Recall@10指标上平均提升4.9%。
- Conclusion: GRAPE通过将排序信号融入查询重写过程,有效解决了CLIP模型在分布偏移情况下的性能下降问题,是一种有效的即插即用增强方法。
[84] CasPoinTr: Point Cloud Completion with Cascaded Networks and Knowledge Distillation
Yifan Yang,Yuxiang Yan,Boda Liu,Jian Pu
Main category: cs.CV
TL;DR: CasPoinTr是一个新颖的点云补全框架,通过级联网络和知识蒸馏来解决不完整点云的形状预测和缺失区域重建问题。
- Motivation: 现实环境中采集的点云通常由于传感器分辨率限制、单一视角、遮挡和噪声等因素而不完整,这使得点云补全对于各种应用至关重要。
- Method: 使用级联网络和知识蒸馏,将补全任务分解为两个协同阶段:形状重建(生成辅助信息)和融合补全(利用辅助信息和知识蒸馏生成最终输出)。教师模型在更密集的点云上训练,向学生模型传递不完整-完整关联知识。
- Result: 在ShapeNet-55数据集的不同难度设置下的实验表明,CasPoinTr在形状恢复和细节保留方面优于现有方法。
- Conclusion: 级联结构和蒸馏策略有效增强了模型捕捉全局形状上下文和细化局部细节的能力,成功弥合了不完整输入和完整目标之间的差距。
[85] UniPose: Unified Cross-modality Pose Prior Propagation towards RGB-D data for Weakly Supervised 3D Human Pose Estimation
Jinghong Zheng,Changlong Jiang,Jiaqi Li,Haohong Kuang,Hang Xu,Tingbing Yan
Main category: cs.CV
TL;DR: UniPose是一种统一跨模态姿态先验传播方法,通过自监督学习将2D人体姿态估计标注迁移到3D领域,无需3D关键点标注,在RGB-D序列上实现弱监督3D人体姿态估计。
- Motivation: 解决3D人体姿态估计需要大量3D关键点标注的问题,通过利用易获取的RGB-D序列和现有2D姿态标注,避免多视角相机标定和合成到真实数据迁移的问题。
- Method: 使用现成的2D姿态估计作为点云网络的弱监督,结合时空约束(身体对称性和关节运动),通过2D到3D反投影损失和跨模态交互增强学习过程,采用锚点到关节预测方法在RGB和深度网络上进行3D提升。
- Result: 在CMU Panoptic和ITOP数据集上,UniPose达到与全监督方法相当的性能,结合大规模无标签数据(如NTU RGB+D 60)在挑战性条件下性能进一步提升,3D提升方法达到最先进结果。
- Conclusion: UniPose证明了通过跨模态学习可以有效利用2D标注进行3D姿态估计,为实际应用提供了可行的弱监督解决方案。
[86] Generative Modeling of Shape-Dependent Self-Contact Human Poses
Takehiko Ohkawa,Jihyun Lee,Shunsuke Saito,Jason Saragih,Fabian Prado,Yichen Xu,Shoou-I Yu,Ryosuke Furuta,Yoichi Sato,Takaaki Shiratori
Main category: cs.CV
TL;DR: 提出了首个包含精确身体形状注册的广泛自接触数据集Goliath-SC,并基于此开发了条件于身体形状参数的自接触先验生成模型,用于改进单视角人体姿态估计。
- Motivation: 现有自接触数据集缺乏多样化的自接触姿态和精确的身体形状,限制了自接触姿态与身体形状之间关系的分析。
- Method: 引入Goliath-SC数据集(383K个自接触姿态,130个受试者),提出基于身体部位潜扩散和自注意力的条件生成模型,并将其整合到单视角姿态估计中。
- Result: 实验表明形状条件对于成功建模自接触姿态分布至关重要,从而改善了自接触场景下的单视角姿态估计性能。
- Conclusion: 身体形状条件化是有效建模自接触姿态分布的关键因素,提出的方法能够显著提升自接触场景下的姿态估计精度。
[87] WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving
Ziyue Zhu,Zhanqian Wu,Zhenxin Zhu,Lijun Zhou,Haiyang Sun,Bing Wan,Kun Ma,Guang Chen,Hangjun Ye,Jin Xie,jian Yang
Main category: cs.CV
TL;DR: WorldSplat是一个用于4D驾驶场景生成的创新框架,通过结合4D感知的潜在扩散模型和增强的视频扩散模型,生成高质量、时空一致的多视角驾驶视频。
- Motivation: 现有的驾驶场景生成方法主要关注合成多样化和高保真度的驾驶视频,但缺乏3D一致性和稀疏视角覆盖,难以支持高质量的新视角合成。而3D/4D重建方法虽然改善了新视角合成,但缺乏生成能力。
- Method: 采用前馈框架,包含两个关键步骤:(i) 引入4D感知的潜在扩散模型,整合多模态信息以前馈方式生成像素对齐的4D高斯分布;(ii) 使用增强的视频扩散模型对从这些高斯分布渲染的新视角视频进行细化。
- Result: 在基准数据集上的广泛实验表明,WorldSplat能够有效生成高保真度、时空一致的多视角驾驶视频。
- Conclusion: WorldSplat成功解决了场景生成与重建之间的困境,为自动驾驶系统提供了可扩展和可控的训练数据生成方法。
[88] Enhanced Fracture Diagnosis Based on Critical Regional and Scale Aware in YOLO
Yuyang Sun,Junchuan Yu,Cuiming Zou
Main category: cs.CV
TL;DR: 提出改进的Fracture-YOLO模型,通过CRSelector注意力机制和ScA多尺度模块增强骨折检测性能,在mAP指标上显著超越基线模型
- Motivation: 传统骨折诊断依赖医生经验,速度和准确性受限。AI技术特别是YOLO框架在骨折检测中展现潜力,需要进一步提升检测性能
- Method: 基于YOLO框架改进,集成CRSelector注意力模块(利用全局纹理信息聚焦关键区域)和ScA模块(动态调整多尺度特征权重)
- Result: 相比基线模型,mAP50提升4%,mAP50-95提升3%,达到SOTA性能
- Conclusion: Fracture-YOLO通过注意力机制和多尺度处理有效提升了骨折检测精度,在医学影像分析中具有重要应用价值
[89] FracDetNet: Advanced Fracture Detection via Dual-Focus Attention and Multi-scale Calibration in Medical X-ray Imaging
Yuyang Sun,Cuiming Zou
Main category: cs.CV
TL;DR: 提出了FracDetNet骨折检测框架,结合双焦点注意力和多尺度校准机制,在GRAZPEDWRI-DX数据集上实现最先进性能,mAP50-95达到40.0%,比基线模型提升7.5%。
- Motivation: 解决医学影像中细微和形态多样骨折检测的挑战,现有方法因成像角度变化和图像质量不佳而难以准确检测。
- Method: 集成双焦点注意力(DFA)模块,通过全局和局部注意力机制捕捉局部细节和全局上下文;多尺度校准(MC)自适应优化特征表示。
- Result: 在GRAZPEDWRI-DX数据集上,mAP50-95达到40.0%(提升7.5%),mAP50达到63.9%(提升4.2%),骨折特异性检测精度提升2.9%。
- Conclusion: FracDetNet框架有效提升了骨折检测性能,特别是在处理细微和形态多样骨折方面表现出色。
[90] SPIKE-RL: Video-LLMs meet Bayesian Surprise
Sahithya Ravi,Aditya Chinchure,Raymond T. Ng,Leonid Sigal,Vered Shwartz
Main category: cs.CV
TL;DR: SPIKE是一个推理时框架,通过量化贝叶斯惊喜来识别视频中的关键时刻,SPIKE-RL进一步优化信念假设,实现基于惊喜的帧采样策略,在多个下游基准上优于均匀采样。
- Motivation: 现实世界视频通常包含常规活动和令人难忘的惊喜事件,但现有Video-LLMs通过均匀采样帧可能错过定义视频叙事的关键时刻。
- Method: SPIKE量化贝叶斯惊喜作为新视觉证据触发的信念更新,识别新证据与先验信念冲突的时刻;SPIKE-RL使用GRPO基于视频字幕的奖励信号优化信念假设。
- Result: SPIKE能有效定位视频中的惊喜,与人类在正负惊喜基准上强相关;基于惊喜的帧采样策略在五个下游基准上持续优于均匀采样。
- Conclusion: 通过让Video-LLMs跟踪信念并注册惊喜,这项工作为更强大的模型铺平了道路,这些模型能够根据新信息修正理解。
[91] FM-SIREN & FM-FINER: Nyquist-Informed Frequency Multiplier for Implicit Neural Representation with Periodic Activation
Mohammed Alsakabi,Wael Mobeirek,John M. Dolan,Ozan K. Tonguz
Main category: cs.CV
TL;DR: 提出了FM-SIREN和FM-FINER方法,通过为周期性激活分配神经元特定的频率乘子来解决现有INR网络中的特征冗余问题,显著提升了信号重建性能。
- Motivation: 现有的周期性激活隐式神经表示网络(如SIREN和FINER)存在隐藏特征冗余问题,由于使用固定频率乘子导致层内神经元捕获重叠的频率分量,限制了多层感知器的表达能力。
- Method: 受离散正弦变换等经典信号处理方法启发,提出了FM-SIREN和FM-FINER,为周期性激活分配基于奈奎斯特频率的神经元特定频率乘子,无需超参数调优或增加网络深度即可引入频率多样性。
- Result: 该方法将特征冗余减少近50%,在多种INR任务(包括1D音频、2D图像、3D形状拟合和神经辐射场合成)中持续改善信号重建性能,优于基线方法同时保持效率。
- Conclusion: 这种简单而原则性的修改有效减少了特征冗余,提升了隐式神经表示网络的表达能力,在各种任务中表现出优越性能。
[92] FoR-SALE: Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing
Tanawan Premsri,Parisa Kordjamshidi
Main category: cs.CV
TL;DR: FoR-SALE是一个基于参考框架的空间调整方法,用于改进LLM控制扩散模型在文本到图像生成中的空间理解能力,通过视觉模块提取图像空间配置并映射空间表达,实现语言与视觉的对齐评估和校正。
- Motivation: 当前最先进的文本到图像生成模型在从非相机视角提供空间描述时存在显著的性能差距,需要将长期被忽视的参考框架概念整合到多模态语言模型中。
- Method: 扩展SLD框架,通过视觉模块提取图像空间配置,将空间表达映射到相机视角,评估语言与视觉对齐,检测到不对齐时生成并应用编辑操作,使用新颖的潜在空间操作调整生成图像的朝向和深度。
- Result: 在专门评估参考框架空间理解的两个基准测试中,FoR-SALE将最先进T2I模型的性能提升了高达5.3%,仅通过单轮校正实现。
- Conclusion: FoR-SALE有效解决了文本到图像生成中参考框架空间理解的挑战,显著提升了模型对空间描述的处理能力。
[93] 3DPCNet: Pose Canonicalization for Robust Viewpoint-Invariant 3D Kinematic Analysis from Monocular RGB cameras
Tharindu Ekanayake,Constantino Álvarez Casado,Miguel Bordallo López
Main category: cs.CV
TL;DR: 3DPCNet是一个紧凑的、与估计器无关的模块,可将单目3D姿态估计器产生的相机中心骨架转换为身体中心的规范坐标系,消除视角依赖性,便于运动分析。
- Motivation: 单目3D姿态估计器产生相机中心的骨架,创建视角依赖的运动信号,这使健康监测和运动科学等应用中的比较分析变得复杂。
- Method: 3DPCNet使用混合编码器融合图卷积网络的局部骨骼特征和transformer的全局上下文,通过门控交叉注意力机制预测连续6D旋转,映射到SO(3)矩阵来对齐姿态。模型在MM-Fi数据集上以自监督方式训练,使用合成旋转的姿态。
- Result: 在MM-Fi基准测试中,3DPCNet将平均旋转误差从超过20°降低到3.4°,平均每关节位置误差从约64mm降低到47mm。在TotalCapture数据集上的定性评估显示,该方法从视频产生的加速度信号与真实IMU传感器数据具有强视觉对应性。
- Conclusion: 3DPCNet模块有效消除了视角变异性,实现了物理上合理的运动分析,为基于视频的运动监测应用提供了可靠解决方案。
[94] No Concept Left Behind: Test-Time Optimization for Compositional Text-to-Image Generation
Mohammad Hossein Sameti,Amir M. Mansourian,Arash Marioriyad,Soheil Fadaee Oshyani,Mohammad Hossein Rohban,Mahdieh Soleymani Baghshah
Main category: cs.CV
TL;DR: 提出了一种细粒度的测试时优化框架,通过分解提示词为语义概念并在全局和概念层面评估对齐,使用改进的CLIP计算概念级对应关系,通过迭代提示词优化循环提升文本到图像生成的组合忠实度。
- Motivation: 现有的文本到图像模型在处理复杂提示词时经常遗漏或错误表示特定对象和属性,测试时优化方法虽然能改善生成质量但主要依赖全局图像/文本相似度评分,缺乏细粒度的概念级评估。
- Method: 将输入提示词分解为语义概念,使用细粒度CLIP变体计算概念级对应关系,生成关于缺失或不准确概念的详细反馈,通过迭代提示词优化循环让大型语言模型提出改进的提示词。
- Result: 在DrawBench和CompBench提示词上的实验表明,该方法在概念覆盖率和人类评判的忠实度方面显著优于标准测试时优化方法和基础文本到图像模型。
- Conclusion: 提出的细粒度测试时优化框架能够有效提升文本到图像生成的组合忠实度,通过概念级评估和迭代优化显著改善了概念覆盖和生成质量。
[95] Robust Multi-Modal Face Anti-Spoofing with Domain Adaptation: Tackling Missing Modalities, Noisy Pseudo-Labels, and Model Degradation
Ming-Tsung Hsu,Fang-Yu Hsu,Yi-Ting Lin,Kai-Heng Chien,Jun-Ren Chen,Cheng-Hsiang Su,Yi-Chen Ou,Chiou-Ting Hsu,Pei-Kai Huang
Main category: cs.CV
TL;DR: 提出MFAS-DANet框架解决多模态人脸防伪在域适应场景下的三个主要挑战:模态缺失、噪声伪标签和模型退化
- Motivation: 现有的多模态人脸防伪模型难以检测来自新目标域的未知攻击,且域适应方法在多模态场景中尚未被探索
- Method: 1) 从其他模态提取互补特征替代缺失模态;2) 利用多模态预测不确定性获取可靠伪标签;3) 设计自适应机制动态调整损失权重
- Result: 大量实验证明MFAS-DANet的有效性和最先进性能
- Conclusion: MFAS-DANet成功解决了多模态人脸防伪在域适应场景下的关键挑战
[96] RestoRect: Degraded Image Restoration via Latent Rectified Flow & Feature Distillation
Shourya Verma,Mengbo Wang,Nadia Atallah Lanman,Ananth Grama
Main category: cs.CV
TL;DR: 提出了RestoRect方法,通过潜在整流流特征蒸馏解决图像恢复中性能与速度的权衡问题,结合Retinex理论和可学习扩散约束,在15个数据集上取得优越结果
- Motivation: 现有图像恢复方法面临关键权衡:高性能模型太慢不实用,快速模型效果差。传统知识蒸馏方法无法捕捉现代transformer架构的动态特征生成
- Method: 应用整流流将特征蒸馏重新表述为生成过程,学生通过潜在空间中的可学习轨迹学习合成教师质量特征。结合Retinex理论进行物理分解、可学习各向异性扩散约束和三角色彩空间极化,引入特征层提取损失进行跨架构知识迁移
- Result: 在15个图像恢复数据集、4个任务、8个指标上展示了优越结果,实现了更好的训练稳定性、更快的收敛和推理速度,同时保持恢复质量
- Conclusion: RestoRect通过潜在整流流特征蒸馏有效解决了图像恢复中性能与速度的权衡问题,为不同网络架构间的知识迁移提供了稳健解决方案
[97] Orientation-anchored Hyper-Gaussian for 4D Reconstruction from Casual Videos
Junyi Wu,Jiachen Tao,Haoxuan Wang,Gaowen Liu,Ramana Rao Kompella,Yan Yan
Main category: cs.CV
TL;DR: Orientation-anchored Gaussian Splatting (OriGS) 是一个用于从单目视频进行高质量4D重建的新框架,通过引入基于场景方向的超维表示来改进复杂动态场景的建模。
- Motivation: 现有方法基于低秩假设,难以建模无约束动态场景中复杂的区域特定变形,需要更有效的动态建模方法。
- Method: 首先估计全局方向场作为结构指导,然后提出方向感知超高斯表示,将时间、空间、几何和方向嵌入统一概率状态,通过条件切片推断区域特定变形。
- Result: 实验表明OriGS在具有挑战性的真实动态场景中优于主流方法,具有卓越的重建保真度。
- Conclusion: OriGS通过方向锚定的高斯溅射框架,有效解决了复杂动态场景的4D重建问题,实现了高质量的重建效果。
[98] Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional
Divyam Madaan,Varshan Muhunthan,Kyunghyun Cho,Sumit Chopra
Main category: cs.CV
TL;DR: 该研究通过大规模实证分析发现,多模态基准测试中视觉和文本模态的依赖关系存在显著差异,许多旨在减少文本偏见的基准反而放大了图像依赖,导致模型性能掩盖了真实的多模态推理能力不足。
- Motivation: 理解模态内依赖(单个模态对目标任务的贡献)和模态间依赖(模态与目标任务的关系)对于推进多模态学习至关重要,但目前基准评估中这些依赖的性质和相互作用仍缺乏系统表征。
- Method: 使用多模态大语言模型对23个视觉问答基准进行大规模实证研究,涵盖常识推理、专家知识推理、光学字符识别和文档理解等领域,量化视觉、文本及其相互作用的依赖关系。
- Result: 研究发现视觉、问题和它们相互作用的依赖程度在不同基准间和基准内都存在显著差异;许多旨在缓解文本偏见的基准无意中放大了图像依赖;这种特征在不同模型规模下持续存在,大模型常利用模态内依赖实现高性能,掩盖了多模态推理能力的不足。
- Conclusion: 研究提供了多模态数据集的量化表征,为多模态基准设计和评估提供了原则性方法。
[99] Enhancing Polyp Segmentation via Encoder Attention and Dynamic Kernel Update
Fatemeh Salahi Chashmi,Roya Sotoudeh
Main category: cs.CV
TL;DR: 提出一种结合动态核机制和全局编码器注意力的息肉分割框架,通过动态核迭代优化分割预测,全局注意力捕获关键病灶特征,统一通道适配简化解码器结构,在KvasirSEG和CVC ClinicDB数据集上取得优异性能。
- Motivation: 息肉分割在结直肠癌检测中至关重要,但由于息肉形状多样、尺寸不一以及医学图像中边界对比度低等问题,现有方法面临挑战。
- Method: 集成动态核机制和全局编码器注意力模块,动态核通过全局上下文向量初始化并迭代优化分割预测,全局注意力聚合多尺度编码器信息,统一通道适配标准化解码器特征维度。
- Result: 在KvasirSEG和CVC ClinicDB基准数据集上超越多个最先进分割方法,获得优异的Dice和IoU分数,同时简化解码器结构降低计算成本。
- Conclusion: 该方法为息肉分割提供了鲁棒且适应性强的解决方案,在临床和自动化诊断系统中具有良好应用前景。
[100] Evaluating point-light biological motion in multimodal large language models
Akila Kadambi,Marco Iacoboni,Lisa Aziz-Zadeh,Srini Narayanan
Main category: cs.CV
TL;DR: ActPLD是首个评估多模态大语言模型从人类点光源显示中处理动作能力的基准,结果显示各模型在此任务上表现普遍较差。
- Motivation: 人类能够从稀疏的视觉线索(如点光源显示)中提取丰富的语义信息,这种能力源于人类的具身经验。研究旨在测试多模态大语言模型在动作理解方面的限制。
- Method: 创建ActPLD基准,在单人和社交互动的点光源显示上测试包括最先进的专有和开源系统在内的多种模型。
- Result: 所有模型在点光源显示的动作处理任务上表现一致较差,揭示了在动作和时空理解方面的基本差距。
- Conclusion: 多模态大语言模型在从稀疏视觉线索理解人类动作方面存在显著不足,需要进一步改进动作和时空理解能力。
[101] Imaging-Based Mortality Prediction in Patients with Systemic Sclerosis
Alec K. Peltekian,Karolina Senkow,Gorkem Durak,Kevin M. Grudzinski,Bradford C. Bemiss,Jane E. Dematte,Carrie Richardson,Nikolay S. Markov,Mary Carns,Kathleen Aren,Alexandra Soriano,Matthew Dapas,Harris Perlman,Aaron Gundersheimer,Kavitha C. Selvan,John Varga,Monique Hinchcliff,Krishnan Warrior,Catherine A. Gao,Richard G. Wunderink,GR Scott Budinger,Alok N. Choudhary,Anthony J. Esposito,Alexander V. Misharin,Ankit Agrawal,Ulas Bagci
Main category: cs.CV
TL;DR: 本研究开发了一个结合放射组学和深度学习的大规模纵向胸部CT分析框架,用于预测系统性硬化症患者间质性肺病相关的死亡率。
- Motivation: 系统性硬化症中,间质性肺病是主要的发病和死亡原因,但CT在疾病进展和死亡率预测中的作用尚未完全明确。
- Method: 收集了2,125例系统性硬化症患者的CT扫描,使用ResNet-18、DenseNet-121和Swin Transformer等预训练模型进行微调,进行1年、3年和5年死亡率分析。
- Result: 模型在预测1年、3年和5年死亡率方面分别达到了0.769、0.801和0.709的AUC值。
- Conclusion: 放射组学和深度学习方法在改善系统性硬化症相关间质性肺病的早期检测和风险评估方面具有潜力,是文献中的重要进展。
[102] Calibrated and Resource-Aware Super-Resolution for Reliable Driver Behavior Analysis
Ibne Farabi Shihab,Weiheng Chai,Jiyang Wang,Sanjeda Akter,Senem Velipasalar Gursoy,Anuj Sharma
Main category: cs.CV
TL;DR: 提出了一种资源感知的自适应超分辨率框架,用于优化驾驶员监控系统中的模型校准和关键事件检测精度,在安全关键指标上达到最先进性能。
- Motivation: 驾驶员监控系统不仅需要高精度,还需要可靠的置信度分数以确保安全关键部署。直接低分辨率训练虽然整体精度高,但会产生校准不良的预测,这在安全关键场景中可能很危险。
- Method: 采用资源感知自适应超分辨率框架,结合轻量级伪影检测器(0.3M参数,5.2ms开销)来过滤超分辨率引起的幻觉。
- Result: 在安全中心指标上达到最先进性能:最佳校准(ECE为5.8% vs 基线6.2%)、最高AUPR用于疲劳检测(0.78 vs 0.74)、手机使用检测的卓越精确度-召回率(0.74 vs 0.71)。
- Conclusion: 虽然低分辨率训练的视频模型作为通用基线表现强劲,但我们的自适应框架代表了在可靠性至关重要的安全关键应用中的最先进解决方案。
[103] OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction
Hongyang Li,Jinyuan Qu,Lei Zhang
Main category: cs.CV
TL;DR: OVSeg3R是一种从2D感知模型学习开放词汇3D实例分割的训练方案,利用3D重建技术将2D实例掩码投影到3D空间生成标注,通过视图级实例划分和2D实例边界感知超点聚类解决标注不完整和几何细节丢失问题。
- Motivation: 现有3D实例分割方法需要大量人工标注且词汇表封闭,无法识别新类别。作者希望利用成熟的2D开放词汇模型和3D重建技术,实现无需人工标注的开放词汇3D实例分割。
- Method: 1) 利用3D重建模型提供的2D-3D对应关系,将2D开放词汇模型的实例掩码预测投影到3D空间生成标注;2) 提出视图级实例划分算法,避免部分标注引入的错误监督;3) 引入2D实例边界感知超点聚类,防止超点跨越实例边界。
- Result: 在ScanNet200基准测试上整体性能提升+2.3 mAP,显著缩小了尾部类别与头部类别的性能差距。在标准开放词汇设置下,新类别性能比之前方法提升约+7.1 mAP。
- Conclusion: OVSeg3R成功将最先进的封闭词汇3D实例分割模型扩展到开放词汇,证明了利用2D感知模型和3D重建技术实现零人工标注3D实例分割的可行性,在性能和泛化能力上均有显著提升。
[104] From Fields to Splats: A Cross-Domain Survey of Real-Time Neural Scene Representations
Javed Ahmad,Penggang Gao,Donatien Delehelle,Mennuti Canio,Nikhil Deshpande,Jesús Ortiz,Darwin G. Caldwell,Yonas Teodros Tefera
Main category: cs.CV
TL;DR: 3D高斯泼溅(3DGS)作为神经辐射场(NeRF)的显式高效替代方案,在SLAM、远程呈现、机器人操作和3D内容生成等领域逐渐取代NeRF方法,平衡了真实感渲染、几何保真度和计算效率。
- Motivation: 比较3DGS相对于NeRF的技术优势,探讨其如何适应不同输入模态和领域特定约束,分析其局限性,为神经渲染在感知、交互和内容创建中的应用提供路线图。
- Method: 通过系统比较领域特定流程,围绕统一研究问题组织综述,考察3DGS在多个应用领域的采用情况。
- Result: 3DGS在真实感渲染、几何保真度和计算效率之间取得了良好平衡,正逐渐取代基于NeRF的方法,支持高质量渲染、快速优化和任务驱动的场景理解。
- Conclusion: 3DGS为神经渲染在图像合成、感知、交互和内容创建中的广泛应用提供了可行路径,能够跨越真实和虚拟环境实现统一的方法。
[105] Pancreas Part Segmentation under Federated Learning Paradigm
Ziliang Hong,Halil Ertugrul Aktas,Andrea Mia Bejar,Katherine Wu,Hongyi Pan,Gorkem Durak,Zheyuan Zhang,Sait Kayali,Temel Tirkes,Federica Proietto Salanitri,Concetto Spampinato,Michael Goggins,Tamas Gonda,Candice Bolan,Raj Keswani,Frank Miller,Michael Wallace,Ulas Bagci
Main category: cs.CV
TL;DR: 首个用于MRI胰腺分部位(头、体、尾)分割的联邦学习方法,解决了胰腺疾病区域异质性和数据稀缺问题。
- Motivation: 胰腺疾病具有明显的区域异质性(癌症多发生在头部,慢性胰腺炎导致尾部组织损失),准确的胰腺分部位分割对于精确诊断和治疗规划至关重要。
- Method: 采用隐私保护的联邦学习框架,在7个医疗机构间协作训练模型,不直接共享数据。评估了三种分割架构(U-Net、Attention U-Net、Swin UNETR)和两种FL算法(FedAvg、FedProx),并提出了基于解剖学知识的损失函数。
- Result: 在711个T1W和726个T2W MRI扫描的多样化数据集上,发现Attention U-Net与FedAvg组合在胰腺异质性处理上表现最优。
- Conclusion: 该方法在分布式异构数据集上训练仍能达到临床可行的性能,为胰腺分部位分割提供了有效解决方案。
[106] Towards Interpretable Visual Decoding with Attention to Brain Representations
Pinyuan Feng,Hossein Adeli,Wenxuan Guo,Fan Cheng,Ethan Hwang,Nikolaus Kriegeskorte
Main category: cs.CV
TL;DR: 提出了NeuroAdapter框架,直接基于大脑表征驱动潜在扩散模型进行视觉解码,无需中间特征空间,同时开发了IBBI双向可解释性框架来分析不同脑区对生成过程的影响。
- Motivation: 当前方法通常将脑信号映射到中间图像或文本特征空间,这掩盖了不同脑区对最终重建输出的贡献。需要更直接、透明的脑到图像解码方法。
- Method: NeuroAdapter框架直接以大脑表征为条件驱动潜在扩散模型,绕过中间特征空间。开发了IBBI双向可解释性框架,通过分析扩散去噪步骤中的交叉注意力机制来揭示不同脑区对生成轨迹的影响。
- Result: 在公开fMRI数据集上展示了与现有方法相当的视觉重建质量,同时提供了对脑信号如何塑造生成过程的更大透明度。
- Conclusion: 端到端脑到图像解码具有巨大潜力,为通过视觉神经科学视角解释扩散模型建立了路径。
[107] RobuQ: Pushing DiTs to W1.58A2 via Robust Activation Quantization
Kaicheng Yang,Xun Zhang,Haotong Qin,Yucheng Lin,Kaisen Yang,Xianglong Yan,Yulun Zhang
Main category: cs.CV
TL;DR: 提出了RobuQ框架,这是首个针对扩散变换器(DiTs)的系统性量化感知训练方法,通过鲁棒量化器和激活混合精度网络,在平均2位激活量化下实现了稳定的图像生成。
- Motivation: 扩散变换器虽然性能优于U-Net架构,但其实际部署受到计算和内存成本的严重限制。激活量化是DiTs在极低位设置下的主要瓶颈。
- Method: 1. 建立强三元权重(W1.58A4)DiT基线;2. 提出RobustQuantizer实现鲁棒激活量化,利用Hadamard变换将未知分布转换为正态分布;3. 提出AMPN激活混合精度网络管道,全网络使用三元权重,各层分配不同激活精度。
- Result: 在无条件/条件图像生成任务中,RobuQ在亚4位量化配置下实现了DiT量化的最先进性能,是首个在ImageNet-1K等大型数据集上实现平均2位激活量化且生成质量稳定的方法。
- Conclusion: RobuQ框架成功解决了DiTs量化中的关键挑战,为扩散变换器的实际部署提供了可行的低比特量化解决方案。
[108] VividFace: High-Quality and Efficient One-Step Diffusion For Video Face Enhancement
Shulian Zhang,Yong Guo,Long Peng,Ziyang Wang,Ye Chen,Wenbo Li,Xiao Zhang,Yulun Zhang,Jian Chen
Main category: cs.CV
TL;DR: VividFace是一个高效的一步扩散框架,用于视频人脸增强,解决了现有方法在纹理建模、模型泛化和推理效率方面的挑战。
- Motivation: 当前视频人脸增强方法面临三个主要挑战:难以精确建模复杂面部纹理同时保持时间一致性、缺乏高质量训练数据导致模型泛化能力受限、以及推理过程中重复去噪步骤导致的低效率。
- Method: 基于预训练的WANX视频生成模型,采用单步流匹配范式利用强大的时空先验;提出联合潜在-像素人脸聚焦训练策略,通过随机切换面部区域优化和全局重建进行两阶段训练;引入MLLM驱动的数据筛选流程自动选择高质量视频人脸数据集。
- Result: VividFace在感知质量、身份保持和时间稳定性方面达到了最先进水平,同时显著减少了推理时间。
- Conclusion: 该方法为视频人脸增强提供了一个高效且高质量的解决方案,并为研究社区提供了实用资源。
[109] Multi-Level Heterogeneous Knowledge Transfer Network on Forward Scattering Center Model for Limited Samples SAR ATR
Chenxi Zhao,Daochang Wang,Siqian Zhang,Gangyao Kuang
Main category: cs.CV
TL;DR: 提出了一种基于前向散射中心模型(FSCM)的模拟数据辅助SAR目标识别方法,通过多级异构知识迁移网络(MHKT)从特征、分布和类别三个层次迁移纯净的目标知识,解决了传统模拟图像中背景噪声等无关信息影响迁移质量的问题。
- Motivation: 现有基于模拟图像的SAR目标识别方法存在大量无关信息(如背景、噪声)影响迁移质量的问题,需要探索新的模拟数据来迁移更纯净和关键的目标知识。
- Method: 提出多级异构知识迁移网络(MHKT),包括:1)任务关联信息选择器(TAIS)分离非信息知识;2)目标通用知识迁移(TGKT)模块使用最大判别散度(MDD)进行分布对齐;3)类别关系知识迁移(CRKT)模块利用类别关系一致性约束解决模拟与实测数据不平衡问题。
- Result: 在两个由FSCM数据和实测SAR图像组成的新数据集上进行了广泛实验,证明了该方法的优越性能。
- Conclusion: 该方法通过逐步知识选择和迁移,确保了迁移的FSCM知识的完整性,为模拟数据辅助SAR目标识别提供了新的解决方案。
[110] VAMamba: An Efficient Visual Adaptive Mamba for Image Restoration
Han Hu,Zhuoran Zheng,Liang Li,Chen Lyu
Main category: cs.CV
TL;DR: VAMamba是一个视觉自适应Mamba框架,通过QCLAM和GPS-SS2D两个创新模块解决了传统Mamba方法固定扫描模式和低效特征利用的问题,在图像恢复任务中实现了更好的性能与效率。
- Motivation: 传统Mamba架构依赖预定义的扫描路径,无法适应多样化的图像退化情况,限制了恢复性能和计算效率。需要开发能够自适应处理不同退化类型的框架。
- Method: 提出VAMamba框架:1) QCLAM使用FIFO缓存存储历史表示,通过LoRA适配特征与缓存特征的相似性指导智能融合;2) GPS-SS2D通过Vision Transformer生成得分图估计像素重要性,使用贪心策略确定最优扫描路径。
- Result: 在多种图像恢复任务上的广泛实验表明,VAMamba在恢复质量和效率方面持续优于现有方法,建立了自适应图像恢复的新基准。
- Conclusion: VAMamba通过自适应特征学习和扫描路径优化,成功克服了传统Mamba方法的局限性,为图像恢复任务提供了高效且高性能的解决方案。
[111] Deep Taxonomic Networks for Unsupervised Hierarchical Prototype Discovery
Zekun Wang,Ethan Haarer,Zhiyi Dai,Tianyi Zhu,Christopher J. MacLellan
Main category: cs.CV
TL;DR: 提出深度分类网络,一种新的深度潜在变量方法,通过优化完整的二叉树结构混合高斯先验,自动从未标记数据中发现分类结构和原型聚类,无需假设真实标签大小。
- Motivation: 受人类将知识组织成层次分类的能力启发,解决当前深度层次聚类方法的结构与类别数量绑定、未充分利用中间层次原型信息等关键限制。
- Method: 在变分推断框架内优化大型潜在分类层次结构(完整的二叉树结构混合高斯先验),自动发现分类结构和相关原型聚类。
- Result: 经验证明该方法在层次聚类方面表现优异,在多个图像分类数据集上超越基线方法,并发现丰富可解释的层次分类法。
- Conclusion: 深度分类网络能够自动发现层次关系,捕获粗粒度语义类别和细粒度视觉区分,提供有效的层次聚类解决方案。
[112] MAN: Latent Diffusion Enhanced Multistage Anti-Noise Network for Efficient and High-Quality Low-Dose CT Image Denoising
Tangtangfang Fang,Jingxi Hu,Xiangjian He,Jiaqi Yang
Main category: cs.CV
TL;DR: 提出MAN模型,一种用于低剂量CT图像去噪的高效方法,在保持高质量的同时大幅降低计算成本,推理速度比传统扩散模型快60倍以上。
- Motivation: 扩散模型在低剂量CT去噪中表现出色,但计算成本过高(单次扫描推理时间超过千秒),严重阻碍了临床采用。
- Method: 使用感知优化的自动编码器在压缩潜在空间中操作,通过基于注意力的条件U-Net进行快速、确定性的条件去噪扩散过程,显著减少计算开销。
- Result: 在LDCT和Projection数据集上,模型实现了优越的感知质量,超越CNN/GAN方法,同时与计算量大的扩散模型(如DDPM和Dn-Dp)在重建保真度上相当,推理速度比像素空间扩散去噪器快60倍以上,PSNR/SSIM分数保持竞争力。
- Conclusion: 该工作弥合了高保真度和临床可行性之间的差距,为医学成像中先进生成模型的实际应用展示了可行路径。
[113] VMDiff: Visual Mixing Diffusion for Limitless Cross-Object Synthesis
Zeren Xiong,Yue Yu,Zedong Zhang,Shuo Chen,Jian Yang,Jun Li
Main category: cs.CV
TL;DR: 提出了Visual Mixing Diffusion (VMDiff)框架,通过噪声和潜在层面的融合解决多源图像融合中的共存生成和偏见生成问题。
- Motivation: 解决图像到图像生成中多源视觉线索融合的基本问题,现有方法存在共存生成(对象简单并列)和偏见生成(一个对象主导输出)的挑战。
- Method: 提出VMDiff扩散框架,包含混合采样过程(引导去噪、反转和球面插值)和自适应调整模块(基于相似性评分自动搜索最优参数)。
- Result: 在780个概念对的基准测试中,该方法在视觉质量、语义一致性和人类评价的创造力方面优于强基线方法。
- Conclusion: VMDiff框架有效解决了多源图像融合中的关键挑战,实现了更好的视觉融合效果。
[114] FlowLUT: Efficient Image Enhancement via Differentiable LUTs and Iterative Flow Matching
Liubing Hu,Chen Wu,Anrui Wang,Dianjie Lu,Guijuan Zhang,Zhuoran Zheng
Main category: cs.CV
TL;DR: FlowLUT是一个结合3D LUT效率和流匹配重建的端到端图像增强模型,通过多先验LUT集合和内容感知融合实现实时场景自适应色彩校正,同时使用迭代流匹配恢复局部细节。
- Motivation: 解决深度学习图像增强方法在计算效率和表示能力之间的权衡问题,传统3D LUT虽然实时但表示灵活性不足且依赖固定先验。
- Method: 1) 使用可微分3D LUT集合进行色彩空间变换;2) 轻量级内容感知网络预测融合权重实现场景自适应色彩校正;3) 创新迭代流匹配方法恢复局部结构细节和消除伪影;4) 在复合损失函数下联合优化整个模型。
- Result: 在三个基准测试上的广泛实验结果表明该方法的有效性。
- Conclusion: FlowLUT成功整合了LUT的效率、多先验和流匹配重建的参数无关特性,实现了高效且高质量的图像增强。
[115] InteractMove: Text-Controlled Human-Object Interaction Generation in 3D Scenes with Movable Objects
Xinhao Cai,Minghang Zheng,Xin Jin,Yang Liu
Main category: cs.CV
TL;DR: 提出了3D场景中文本控制的可移动人-物交互生成任务,构建了InteractMove数据集,并提出包含3D视觉定位、手-物联合可供性学习和局部场景建模的流水线解决方案。
- Motivation: 现有的人-场景交互数据集交互类别不足,通常只考虑与静态物体的交互,收集可移动物体交互数据集困难且成本高。
- Method: 首先使用3D视觉定位模型识别交互对象,然后通过手-物联合可供性学习预测不同手部关节和物体部件的接触区域,最后通过局部场景建模和碰撞避免约束优化交互。
- Result: 综合实验表明,该方法在生成物理合理、符合文本描述的交互方面优于现有方法。
- Conclusion: 提出的方法能够准确识别交互对象,学习与不同尺寸和类别物体的交互,避免可移动物体与场景的碰撞,生成物理合理的交互动作。
[116] BioVessel-Net and RetinaMix: Unsupervised Retinal Vessel Segmentation from OCTA Images
Cheng Huang,Weizheng Xie,Fan Gao,Yutong Liu,Ruoling Wu,Zeyu Han,Jingxi Qiu,Xiangxiang Wang,Zhenglin Yang,Hao Wang,Yongbin Yu
Main category: cs.CV
TL;DR: BioVessel-Net是一个无监督生成框架,通过整合血管生物统计学与对抗性精炼,实现无需标注数据的视网膜血管分割,在RetinaMix数据集上达到接近完美的准确率。
- Motivation: 当前视网膜血管分割方法依赖监督学习和大量人工标注,这在OCTA成像中成本高、易出错且难以获取,需要开发无需标注的解决方案。
- Method: 结合血管生物统计学与对抗性精炼,采用半径引导的分割策略,直接建模具有生物统计一致性的血管结构。
- Result: 在RetinaMix和现有数据集上实现接近完美的分割准确率,显著优于当前最先进的监督和半监督方法。
- Conclusion: BioVessel-Net和RetinaMix为视网膜血管分析提供了无需标注、计算高效且临床可解释的解决方案,在青光眼监测、血流建模和进展预测方面具有广泛应用潜力。
[117] DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation
Wei Pan,Huiguo He,Hiuyi Cheng,Yilin Shi,Lianwen Jin
Main category: cs.CV
TL;DR: DiffInk是一个基于潜在扩散Transformer的文本到在线手写生成框架,通过InkVAE和InkDiT组件实现全行手写生成,在字形准确性和风格保真度方面优于现有方法。
- Motivation: 现有文本到手写生成方法主要关注字符或单词级别,导致效率低下且缺乏整体结构建模,无法有效处理整行文本。
- Method: 提出DiffInk框架:1) InkVAE - 使用OCR损失和风格分类损失进行双重正则化的序列变分自编码器;2) InkDiT - 集成目标文本和参考风格的潜在扩散Transformer。
- Result: 实验结果表明DiffInk在字形准确性和风格保真度方面优于现有最先进方法,同时显著提高了生成效率。
- Conclusion: DiffInk通过双重正则化实现内容与风格解耦的语义结构化潜在空间,为全行手写生成提供了高效且高质量的解决方案。
[118] RIV: Recursive Introspection Mask Diffusion Vision Language Model
YuQian Li,Limeng Qiao,Lin Ma
Main category: cs.CV
TL;DR: 提出RIV模型,通过内省训练和递归推理机制为掩码扩散视觉语言模型添加自校正能力,在多个基准测试中达到最先进性能。
- Motivation: 现有的掩码扩散视觉语言模型缺乏自校正能力,无法修正生成token中的错误。
- Method: 采用两种新机制:1)内省训练,引入内省模型识别生成序列中的错误;2)递归推理,通过交替的"解掩码→内省→重掩码"过程递归修正错误。
- Result: 在多个基准测试中表现优异,超越了大多数现有的MDVLMs。
- Conclusion: RIV模型成功为掩码扩散视觉语言模型添加了自校正能力,显著提升了模型性能。
[119] Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models
Beomseok Kang,Niluthpol Chowdhury Mithun,Mikhail Sizintsev,Han-Pang Chiu,Supun Samarasekera
Main category: cs.CV
TL;DR: FAMDA是一个多任务无监督域自适应框架,利用视觉基础模型作为教师生成高质量伪标签,将语义分割和深度估计任务适应到新领域。
- Motivation: 多任务密集预测在机器人应用中很重要,但面临域偏移问题。现有的多任务UDA方法主要依赖对抗学习,效果不如自训练技术。
- Method: 利用分割和深度基础模型作为教师,通过自训练范式为目标域生成高质量伪标签,将强大的泛化能力蒸馏到单个高效学生网络中。
- Result: 在标准合成到真实UDA多任务学习基准和具有挑战性的日间到夜间适应任务上达到最先进性能。轻量级变体比基础模型小10倍以上。
- Conclusion: FAMDA适合为资源受限的机器人应用创建领域自适应和高效模型。
[120] MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing
Ruibing Hou,Mingshuang Luo,Hongyu Pan,Hong Chang,Shiguang Shan
Main category: cs.CV
TL;DR: MotionVerse是一个统一的框架,利用大语言模型理解和生成单人与多人人体运动,通过运动分词器和延迟并行建模策略实现高效运动表示和生成。
- Motivation: 为了解决人体运动理解和生成任务中模态干扰和计算效率的问题,需要开发一个能够统一处理单人和多人运动场景的框架。
- Method: 使用带残差量化的运动分词器将连续运动序列转换为多流离散标记;提出延迟并行建模策略,错时编码残差标记流;采用双塔架构分离运动和语言模态参数。
- Result: 综合消融研究验证了各组件有效性,广泛实验表明MotionVerse在多种运动相关任务上表现优异。
- Conclusion: MotionVerse框架成功解决了运动与语言模态干扰问题,在保持计算效率的同时实现了高质量的运动理解和生成。
[121] LightFair: Towards an Efficient Alternative for Fair T2I Diffusion via Debiasing Pre-trained Text Encoders
Boyu Han,Qianqian Xu,Shilong Bao,Zhiyong Yang,Kangli Zi,Qingming Huang
Main category: cs.CV
TL;DR: LightFair是一种轻量级方法,通过微调文本嵌入来解决文本到图像扩散模型的公平性问题,避免了对整个模型进行全参数训练或依赖辅助网络。
- Motivation: 现有方法要么需要全参数训练,要么依赖辅助网络进行校正,导致训练负担重、采样效率低且性能不理想。文本编码器作为最可微调的前端模块,其输出在CLIP空间中存在显著偏斜,且噪声预测网络会进一步放大这种不平衡。
- Method: 提出协作距离约束去偏策略,通过平衡嵌入距离来提高公平性,无需辅助参考;同时引入两阶段文本引导采样策略,限制去偏文本编码器的干预时机,以保持原始生成质量。
- Result: 在Stable Diffusion v1.5上,LightFair仅需1/4的训练负担就实现了最先进的去偏效果,且采样负担几乎没有增加。
- Conclusion: LightFair是一种有效且高效的公平文本到图像扩散模型方法,通过聚焦文本编码器的微调,在保持生成质量的同时显著降低了计算成本。
[122] EfficientMIL: Efficient Linear-Complexity MIL Method for WSI Classification
Chengying She,Ben Wang,Xinran Zhang,Dongjie Fan,Jialu Zhang,Chengwei Chen,Lizhuang Liu
Main category: cs.CV
TL;DR: 提出了EfficientMIL,一种线性复杂度的多实例学习方法,用于全切片图像分类,通过自适应补丁选择器和高效序列模型替代Transformer中的自注意力机制,显著提升计算效率并超越现有方法。
- Motivation: 当前基于注意力的SOTA MIL方法在处理数十万个补丁时存在二次复杂度问题,需要大量计算资源,存在计算瓶颈。
- Method: 设计了自适应补丁选择器(APS),用基于RNN的GRU、LSTM和状态空间模型Mamba等高效序列模型替代Transformer中的二次复杂度自注意力机制。
- Result: 在TCGA-Lung数据集上,EfficientMIL-Mamba达到AUC 0.976和准确率0.933;在CAMELYON16数据集上,EfficientMIL-GRU达到AUC 0.990和准确率0.975,超越之前SOTA方法。
- Conclusion: EfficientMIL实现了显著的计算效率提升,同时性能优于其他MIL方法,APS在补丁选择方面也比传统策略更有效。
[123] From Static to Dynamic: a Survey of Topology-Aware Perception in Autonomous Driving
Yixiao Chen,Ruining Yang,Xin Chen,Jia He,Dongliang Xu,Yue Yao
Main category: cs.CV
TL;DR: 该论文系统综述了自动驾驶中拓扑感知感知的四个核心研究方向:矢量化地图构建、拓扑结构建模、先验知识融合和基于语言模型的感知,揭示了从静态预建地图到动态传感器驱动感知的范式转变趋势。
- Motivation: 传统静态地图构建成本高、难以实时更新且缺乏跨区域泛化能力,限制了自动驾驶系统的可扩展性。因此需要转向动态的传感器驱动感知方法来实现更自适应和可扩展的自动驾驶系统。
- Method: 通过四个研究方向实现范式转变:紧凑空间建模(矢量化地图构建)、语义关系推理(拓扑结构建模)、鲁棒领域知识集成(先验知识融合)以及基于预训练语言模型的多模态场景理解。
- Result: 研究发现这些研究方向共同推动了从静态地图到动态感知的转变,为更自适应、可扩展和可解释的自动驾驶系统铺平了道路。
- Conclusion: 拓扑感知感知是自动驾驶的关键,动态传感器驱动感知范式相比传统静态地图具有更好的实时性、更新能力和跨区域泛化能力,代表了该领域的发展方向。
[124] Griffin: Generative Reference and Layout Guided Image Composition
Aryan Mikaeili,Amirhossein Alimohammadi,Negar Hassanpour,Ali Mahdavi-Amiri,Andrea Tagliasacchi
Main category: cs.CV
TL;DR: 提出一种无需训练的多图像布局控制方法,通过图像而非文本指定内容,并指导模型放置每个元素的位置
- Motivation: 文本到图像模型虽然能生成逼真图像,但文本控制限制了更精确的指导需求。需要明确定义图像内容及其精确位置以实现更精细的控制
- Method: 训练免费的方法,每个参考只需单张图像,提供对象和部分级别的显式简单控制
- Result: 在各种图像合成任务中展示了方法的有效性
- Conclusion: 该方法能够实现多图像布局控制,为图像合成提供更精确的指导
[125] Sparse-Up: Learnable Sparse Upsampling for 3D Generation with High-Fidelity Textures
Lu Xiao,Jiale Zhang,Yang Liu,Taicheng Huang,Xin Tian
Main category: cs.CV
TL;DR: 提出了Sparse-Up框架,通过稀疏体素引导纹理重建,使用表面锚定和视域分区技术突破分辨率限制,在保持几何一致性的同时保留高频纹理细节。
- Motivation: 现有方法在创建高保真3D资产时面临高频细节丢失问题,要么牺牲跨视图一致性导致纹理撕裂,要么受限于显式体素的分辨率上限而无法保留精细纹理。
- Method: 使用稀疏体素指导纹理重建,采用表面锚定(可学习上采样策略将体素约束在网格表面)和视域分区(图像块引导的体素分区方案)来降低内存消耗。
- Result: 表面锚定消除了传统体素上采样中70%以上的冗余体素,视域分区仅在可见局部块上进行梯度监督和反向传播,显著减少了高分辨率体素训练时的内存消耗。
- Conclusion: Sparse-Up框架能够在不牺牲几何一致性的情况下有效保留纹理中的高频细节,解决了3D资产创建中的像素级痛点。
[126] Color-Pair Guided Robust Zero-Shot 6D Pose Estimation and Tracking of Cluttered Objects on Edge Devices
Xingjian Yang,Ashis G. Banerjee
Main category: cs.CV
TL;DR: 提出一个统一的6D姿态估计框架,结合鲁棒的初始姿态估计模块和快速运动跟踪器,使用共享的照明不变颜色对特征表示,适用于边缘设备的高效执行。
- Motivation: 解决在挑战性光照条件下新颖物体的6D姿态估计问题,需要在准确初始姿态估计和高效实时跟踪之间取得平衡,特别是在边缘设备上的部署需求。
- Method: 使用共享的照明不变颜色对特征表示,该特征为初始估计阶段提供RGB-D视图与3D网格间的鲁棒配准,并为跟踪阶段验证时间对应关系,使轻量级模型能够可靠回归物体运动。
- Result: 在基准数据集上的广泛实验表明,该方法既有效又鲁棒,在保持高保真跟踪的同时提供有竞争力的姿态估计精度,即使在突然姿态变化下也能稳定工作。
- Conclusion: 该集成方法通过共享特征表示成功统一了初始姿态估计和跟踪,为边缘设备上的6D物体姿态估计提供了高效且鲁棒的解决方案。
[127] ReWatch-R1: Boosting Complex Video Reasoning in Large Vision-Language Models through Agentic Data Synthesis
Congzhi Zhang,Zhibin Wang,Yinchao Ma,Jiawei Peng,Yihan Wang,Qiang Zhou,Jun Song,Bo Zheng
Main category: cs.CV
TL;DR: ReWatch是一个用于提升视频推理能力的大规模数据集,通过多阶段合成流程生成包含字幕、问答和思维链的数据,并基于此开发了ReWatch-R1模型,在五个视频推理基准测试中达到最先进水平。
- Motivation: 现有的强化学习可验证奖励(RLVR)方法在图像推理中表现良好,但在复杂视频推理中应用不足,主要原因是缺乏具有挑战性的多跳问题和高质量视频基础思维链数据。
- Method: 提出多阶段合成流程构建ReWatch数据集,包括ReWatch-Caption、ReWatch-QA和ReWatch-CoT三个组件,核心创新是使用多智能体ReAct框架模拟人类"重看"过程来生成视频基础推理轨迹。基于该数据集,通过监督微调和RLVR框架开发ReWatch-R1模型,引入新颖的观察与推理奖励机制。
- Result: ReWatch-R1在五个具有挑战性的视频推理基准测试中实现了最先进的平均性能。
- Conclusion: ReWatch数据集和ReWatch-R1模型有效解决了视频推理中的数据瓶颈问题,通过模拟人类重看过程和可验证奖励机制显著提升了视频推理能力。
[128] LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
Xiang An,Yin Xie,Kaicheng Yang,Wenkang Zhang,Xiuwei Zhao,Zheng Cheng,Yirui Wang,Songcen Xu,Changrui Chen,Chunsheng Wu,Huajie Tan,Chunyuan Li,Jing Yang,Jie Yu,Xiyao Wang,Bin Qin,Yumeng Wang,Zizhen Yan,Ziyong Feng,Ziwei Liu,Bo Li,Jiankang Deng
Main category: cs.CV
TL;DR: LLaVA-OneVision-1.5是一个新型大型多模态模型家族,以显著降低的计算和财务成本实现最先进性能,提供开放、高效、可复现的从头构建高质量视觉语言模型框架。
- Motivation: 现有的多模态模型构建成本高昂且不够开放,需要开发一个高效、低成本、可复现的框架来构建高质量视觉语言模型。
- Method: 构建大规模精选数据集(85M概念平衡预训练数据集和26M指令数据集),开发端到端高效训练框架,采用离线并行数据打包策略,在16,000美元预算内完成训练。
- Result: LLaVA-OneVision-1.5-8B在27个基准测试中的18个上优于Qwen2.5-VL-7B,LLaVA-OneVision-1.5-4B在全部27个基准测试中超越Qwen2.5-VL-3B。
- Conclusion: LLaVA-OneVision-1.5以显著降低的成本实现了竞争性性能,为社区提供了高效的多模态模型构建框架,并计划发布强化学习版本。
[129] HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score
Jingqi Xu,Jingxi Lu,Chenghao Li,Sreetama Sarkar,Peter A. Beerel
Main category: cs.CV
TL;DR: 提出HIVTP方法,通过分层视觉令牌剪枝提升视觉语言模型的推理效率,无需训练即可减少50%以上的首令牌生成时间
- Motivation: 视觉编码器输出的视觉令牌数量庞大严重影响推理效率,且许多令牌不重要可以安全剪枝
- Method: 使用视觉编码器中间层注意力图评估令牌重要性,采用分层剪枝策略:全局保留阶段按区域保留重要令牌,局部保留阶段在窗口内保留最重要令牌
- Result: LLaVA-v1.5-7B和LLaVA-Next-7B的首令牌生成时间分别减少50.0%和55.1%,令牌生成吞吐量提升60.9%和47.3%,准确率不降反升
- Conclusion: HIVTP在保持更好准确率的同时提供更高的推理效率,优于现有方法
[130] Token Merging via Spatiotemporal Information Mining for Surgical Video Understanding
Xixi Jiang,Chen Yang,Dong Zhang,Pingcheng Dong,Xin Yang,Kwang-Ting Cheng
Main category: cs.CV
TL;DR: 提出STIM-TM方法,通过时空解耦策略减少手术视频中的token冗余,在保持精度的同时显著降低计算成本
- Motivation: 当前视觉Transformer模型在手术视频理解中计算成本过高,现有token合并方法未能充分考虑视频数据的时空结构和信息分布异质性
- Method: 采用时空解耦策略:时间维度通过显著性权重合并连续帧的空间对应token;空间维度通过时间稳定性分析优先合并静态token,保护动态区域
- Result: 在保持竞争力的精度下,实现了超过65%的GFLOPs减少,支持长序列手术视频的高效训练
- Conclusion: STIM-TM是首个专门针对手术视频理解的token合并方法,有效解决了计算瓶颈问题,为手术应用提供了高效解决方案
[131] RCI: A Score for Evaluating Global and Local Reasoning in Multimodal Benchmarks
Amit Agarwal,Hitesh Laxmichand Patel,Srikant Panda,Hansa Meghwani,Jyotika Singh,Karan Dua,Paul Li,Tao Sheng,Sujith Ravi,Dan Roth
Main category: cs.CV
TL;DR: 提出了区域理解指数(RCI)来量化多模态数据集对全局与局部视觉信息的依赖程度,发现大多数现有基准偏向局部推理并存在空间偏差。
- Motivation: 现有多模态大语言模型在视觉语言基准上表现优异,但不清楚这些基准是否真正评估全局推理能力,还是仅通过局部视觉线索就能成功。缺乏明确区分这两种能力的评估方法阻碍了有效数据集构建和现实世界应用导向的模型开发。
- Method: 引入区域理解指数(RCI),通过系统比较参考模型在图像块与完整图像上的性能表现,直接量化数据集对全局与局部视觉信息的依赖程度。
- Result: 将RCI应用于13个广泛使用的多模态基准,发现大多数基准偏向局部推理并表现出显著的空间偏差,这在现实世界应用中存在潜在风险。
- Conclusion: RCI为研究人员和实践者提供了可操作的工具来诊断和缓解这些偏差,能够构建促进稳健、企业级多模态系统发展的数据集和基准。
[132] MSD-KMamba: Bidirectional Spatial-Aware Multi-Modal 3D Brain Segmentation via Multi-scale Self-Distilled Fusion Strategy
Dayu Tan,Ziwei Zhang,Yansan Su,Xin Peng,Yike Dai,Chunhou Zheng,Weimin Zhong
Main category: cs.CV
TL;DR: 提出MSD-KMamba框架,通过双向空间感知和多尺度自蒸馏融合策略,解决3D多模态图像分割中全局注意力机制计算复杂度高的问题,在保持高计算效率的同时提升分割精度。
- Motivation: 现有CNN-Transformer混合模型依赖高复杂度的全局注意力机制来捕获长距离依赖,导致非线性计算复杂度和显著资源消耗。知识蒸馏和稀疏注意力机制虽然能提高效率,但在复杂任务中往往无法提供足够高的分割精度。平衡模型性能与计算效率仍是关键挑战。
- Method: 提出MSD-KMamba框架,集成双向空间感知分支和多尺度自蒸馏融合策略。双向空间感知分支有效捕获跨脑区的长距离空间上下文依赖,并包含强大的非线性特征提取机制。多尺度自蒸馏融合策略增强分层特征表示,改善不同分辨率级别的语义信息传递。
- Result: 在多个标准基准数据集上的广泛实验表明,MSD-KMamba在分割精度、鲁棒性和泛化能力方面持续优于最先进方法,同时保持高计算效率和良好的可扩展性。
- Conclusion: MSD-KMamba通过联合利用双向空间感知分支和多尺度自蒸馏融合策略,有效缓解了体积分割中二次计算复杂度的瓶颈,同时解决了全局感知不足的限制,为3D多模态图像分割提供了高效准确的解决方案。
[133] QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification
Weilun Feng,Chuanguang Yang,Haotong Qin,Mingqiang Wu,Yuqi Li,Xiangqi Li,Zhulin An,Libo Huang,Yulun Zhang,Michele Magno,Yongjun Xu
Main category: cs.CV
TL;DR: 提出QuantSparse框架,将模型量化与注意力稀疏化相结合,通过多尺度显著注意力蒸馏和二阶稀疏注意力重参数化,显著提升视频生成模型的压缩效率,在保持性能的同时实现3.68倍存储减少和1.88倍推理加速。
- Motivation: 扩散变换器在视频生成方面表现出色,但计算和内存成本过高阻碍实际部署。单独使用模型量化或注意力稀疏化在激进压缩下会导致严重性能下降,需要一种统一的压缩框架。
- Method: 提出QuantSparse统一框架:1)多尺度显著注意力蒸馏,利用全局结构指导和局部显著监督缓解量化偏差;2)二阶稀疏注意力重参数化,利用二阶残差的时间稳定性有效恢复稀疏化损失的信息。
- Result: 在HunyuanVideo-13B上的实验表明,QuantSparse达到20.88 PSNR,显著优于最先进的量化基线Q-VDiT(16.85 PSNR),同时实现3.68倍存储减少和1.88倍端到端推理加速。
- Conclusion: QuantSparse成功将模型量化与注意力稀疏化相结合,通过创新的蒸馏和重参数化技术,在保持视频生成质量的同时实现了显著的效率提升,为实际部署提供了可行的解决方案。
[134] HomeSafeBench: A Benchmark for Embodied Vision-Language Models in Free-Exploration Home Safety Inspection
Siyuan Gao,Jiashu Yao,Haoyu Wen,Yuhang Guo,Zeming Liu,Heyan Huang
Main category: cs.CV
TL;DR: 提出了HomeSafeBench基准,用于评估具身智能体在家庭安全检查任务中的能力,包含12,900个数据点,覆盖5种常见家庭安全隐患。
- Motivation: 现有基准存在两个关键限制:使用文本描述而非视觉信息,以及使用单一静态视角,这限制了基于视觉语言模型的具身智能体的准确评估。
- Method: 提供来自模拟家庭环境的动态第一人称视角图像,允许具身智能体自由探索房间,提供复杂环境中的多个动态视角。
- Result: 对主流视觉语言模型的综合评估显示,即使表现最佳的模型F1分数也仅为10.23%,表明当前模型在识别安全隐患和选择有效探索策略方面存在显著局限性。
- Conclusion: HomeSafeBench将为未来家庭安全检查相关研究提供有价值的参考和支持。
[135] Confidence Aware SSD Ensemble with Weighted Boxes Fusion for Weapon Detection
Atharva Jadhav,Arush Karekar,Manas Divekar,Shachi Natu
Main category: cs.CV
TL;DR: 本文提出使用多种骨干网络的SSD模型集成方法,通过加权框融合(WBF)技术提升武器检测在复杂场景下的鲁棒性,相比单模型提升2.948% mAP。
- Motivation: 公共空间安全监控需要准确检测武器,但单模型检测器在遮挡、光照变化和复杂背景等挑战性条件下缺乏鲁棒性。
- Method: 使用VGG16、ResNet50、EfficientNet和MobileNetV3四种骨干网络分别训练SSD模型,然后采用加权框融合(WBF)方法集成这些模型的预测结果。
- Result: 采用'max'置信度评分策略的WBF方法达到了0.838的mAP,相比最佳单模型相对提升2.948%,且优于其他融合启发式方法。
- Conclusion: 研究表明融合策略与模型多样性同等重要,置信度感知融合是提升集成检测器准确性的关键机制,为实时武器检测提供了鲁棒解决方案。
[136] INSTINCT: Instance-Level Interaction Architecture for Query-Based Collaborative Perception
Yunjiang Xu,Lingzhi Li,Jin Wang,Yupeng Ouyang,Benyuan Yang
Main category: cs.CV
TL;DR: INSTINCT是一个基于实例级交互的协作感知框架,通过质量感知过滤、双分支检测路由和跨智能体本地实例融合模块,在显著降低通信带宽的同时提升检测精度。
- Motivation: 解决协作感知系统中频繁交互和实时需求带来的严格带宽限制问题,同时弥补LiDAR聚焦实现中性能落后于最先进方法的不足。
- Method: 提出三个核心组件:1)质量感知过滤机制选择高质量实例特征;2)双分支检测路由方案解耦协作相关和无关实例;3)跨智能体本地实例融合模块聚合本地混合实例特征。
- Result: 在DAIR-V2X和V2V4Real数据集上分别实现13.23%和33.08%的精度提升,同时将通信带宽降低至最先进方法的1/281和1/264。
- Conclusion: INSTINCT框架在显著降低带宽需求的同时实现了优越的性能,为协作感知系统提供了高效的解决方案。
[137] CrimEdit: Controllable Editing for Counterfactual Object Removal, Insertion, and Movement
Boseong Jeon,Junghyuk Lee,Jimin Park,Kwanyoung Kim,Jingi Jung,Sangwon Lee,Hyunbo Shim
Main category: cs.CV
TL;DR: CrimEdit是一个统一的扩散模型,通过联合训练移除和插入任务嵌入,利用无分类器引导技术处理对象效果,实现高效的对象移除、可控效果插入和单步对象移动。
- Motivation: 现有方法在处理对象效果(如阴影和反射)时使用反事实数据集训练的扩散模型,但无分类器引导在统一模型中处理对象效果的性能影响尚未充分探索。
- Method: 在单个模型中联合训练移除和插入任务嵌入,在无分类器引导方案中利用这些嵌入,增强对象及其效果的移除,并在插入时实现对象效果的可控合成。
- Result: 广泛实验表明,CrimEdit实现了优越的对象移除、可控效果插入和高效对象移动,无需额外训练或单独的移除和插入阶段。
- Conclusion: CrimEdit通过联合任务训练和引导技术,为复合编辑任务提供了高效统一的解决方案。
[138] PD-Diag-Net: Clinical-Priors guided Network on Brain MRI for Auxiliary Diagnosis of Parkinson's Disease
Shuai Shao,Shu Jiang,Shiyuan Zhao,Di Yang,Yan Wang,Yutong Bai,Jianguo Zhang,Jiangtao Wang
Main category: cs.CV
TL;DR: 提出了PD-Diag-Net,一种端到端的帕金森病自动诊断方法,直接从原始MRI扫描进行风险评估和辅助诊断,在外部测试中达到86%准确率,早期诊断准确率超过96%。
- Motivation: 帕金森病诊断流程复杂,严重依赖神经科医生专业知识,导致早期检测延迟和及时干预机会错失。需要开发自动化诊断方法来改善这一状况。
- Method: 提出PD-Diag-Net框架:1)MRI预处理模块减少扫描差异;2)引入脑区相关先验和脑区老化先验;3)设计相关先验引导的特征聚合模块和年龄先验引导的诊断模块;4)利用脑年龄差距作为辅助约束增强诊断准确性。
- Result: 在外部测试数据上达到86%的准确率,早期诊断准确率超过96%,比现有先进方法性能提升超过20%。
- Conclusion: PD-Diag-Net通过整合临床先验知识和深度学习,实现了高效准确的帕金森病自动诊断,在外部验证中表现出色,具有重要的临床应用价值。
[139] DiffPCN: Latent Diffusion Model Based on Multi-view Depth Images for Point Cloud Completion
Zijun Li,Hongyu Yan,Shijie Li,Kunming Luo,Li Lu,Xulei Yang,Weisi Lin
Main category: cs.CV
TL;DR: DiffPCN是一个基于扩散模型的粗到精点云补全框架,通过深度图像生成和点云去噪上采样两阶段方法,解决了点云补全中几何精度和形状完整性的挑战。
- Motivation: 潜在扩散模型在低层视觉任务中表现出色,但由于点云的无结构和不规则特性,其在点云补全中的应用尚未充分探索。本文旨在利用扩散模型的强大生成能力来解决点云补全问题。
- Method: 提出两阶段框架:1) 将部分点云投影为深度图像,使用DepthLDM生成多视角深度图像形成粗点云;2) 设计点去噪网络去除异常点,并开发关联感知点上采样器进行精化。
- Result: 实验结果表明,DiffPCN在几何精度和形状完整性方面达到最先进性能,显著提高了点云补全的鲁棒性和一致性。
- Conclusion: DiffPCN通过结合扩散模型的生成能力和专门设计的点云处理模块,成功解决了点云补全中的关键挑战,为不规则数据的生成任务提供了有效解决方案。
[140] Video Panels for Long Video Understanding
Lars Doorenbos,Federico Spurio,Juergen Gall
Main category: cs.CV
TL;DR: 提出了一种无需训练、无需参数、模型无关的视觉提示策略,通过将多个视频帧组合成面板图像来提高长视频理解性能。
- Motivation: 现有的视频语言模型在长视频理解任务上表现不如图像或短视频任务,但改进模型需要引入新模块和额外复杂性。本文采取不同思路,最大化现有模型的性能。
- Method: 提出视觉提示策略,将多个帧组合成一个面板图像,有效平衡空间细节和时间分辨率。该方法无需训练、无需额外参数,且与模型架构无关。
- Result: 在五个基准测试上的广泛实验表明该方法具有一致性。在TimeScope(Long)数据集上,视频问答准确率最高提升19.4%。
- Conclusion: 该方法为长视频理解模型设定了新的性能标准,无需额外训练即可显著提升现有模型的性能。
[141] M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation
Yiheng Zhang,Zhuojiang Cai,Mingdao Wang,Meitong Guo,Tianxiao Li,Li Lin,Yuwang Wang
Main category: cs.CV
TL;DR: 提出了M3DLayout数据集,这是一个用于3D室内布局生成的大规模多源数据集,包含15,080个布局和258k+物体实例,整合了真实扫描、CAD设计和程序生成场景三种来源。
- Motivation: 当前3D室内布局生成模型受限于现有数据集的规模小、多样性不足和标注质量差的问题,需要更丰富的数据资源来提升模型学习能力。
- Method: 构建了包含真实扫描、专业CAD设计和程序生成场景的多源数据集,每个布局都配有详细的结构化文本描述,包括全局场景摘要、大型家具关系布局和小物品细粒度安排。
- Result: 实验结果表明,该数据集为训练布局生成模型提供了坚实基础,多源组成增强了多样性,特别是Inf3DLayout子集提供了丰富的小物体信息,能够生成更复杂详细的场景。
- Conclusion: M3DLayout可作为推进文本驱动3D场景合成研究的有价值资源,其多源特性和丰富标注有助于模型学习复杂的空间和语义模式。
[142] LUQ: Layerwise Ultra-Low Bit Quantization for Multimodal Large Language Models
Shubhang Bhatnagar,Andy Xu,Kar-Han Tan,Narendra Ahuja
Main category: cs.CV
TL;DR: 本文首次研究了多模态大语言模型(MLLMs)的超低比特(<4位)量化,提出了LUQ方法,通过分层选择性量化在保持性能的同时显著减少内存使用。
- Motivation: 多模态大语言模型部署需要大量内存和计算资源,而现有的后训练量化方法对MLLMs的有效性尚未充分探索,特别是在超低比特量化方面。
- Method: 提出LUQ:分层超低比特量化策略,选择性对更耐受量化的层应用超低比特量化,并使用混合多模态令牌进行PTQ以提升VQA性能。
- Result: 在LLaVA-1.5和Qwen-2.5-VL上的评估显示,LUQ模型比4位量化模型分别减少40%和31%内存使用,在MME基准上性能下降小于10%。
- Conclusion: 多模态令牌具有更高的统计方差和熵,对超低比特量化更敏感,但通过分层选择性量化策略可以有效实现MLLMs的超低比特压缩。
[143] FastViDAR: Real-Time Omnidirectional Depth Estimation via Alternative Hierarchical Attention
Hangtian Zhao,Xiang Chen,Yizhe Li,Qianhao Wang,Haibo Lu,Fei Gao
Main category: cs.CV
TL;DR: FastViDAR是一个新颖的360度深度估计框架,使用四个鱼眼相机输入,通过替代分层注意力机制和ERP融合方法,在嵌入式硬件上实现实时性能。
- Motivation: 现有的360度深度估计方法在计算效率和跨视图特征融合方面存在挑战,需要开发能够在嵌入式硬件上实时运行的解决方案。
- Method: 提出替代分层注意力机制(AHA),通过分离的帧内和帧间窗口自注意力实现跨视图特征融合;采用ERP融合方法将多视图深度估计投影到共享的等距柱面坐标系。
- Result: 在HM3D和2D3D-S数据集上生成ERP图像-深度对进行评估,在真实数据集上表现出竞争力的零样本性能,在NVIDIA Orin NX嵌入式硬件上达到20 FPS。
- Conclusion: FastViDAR框架实现了高效的360度深度估计,在保持准确性的同时显著提升了运行速度,适用于实时应用场景。
[144] HieraTok: Multi-Scale Visual Tokenizer Improves Image Reconstruction and Generation
Cong Chen,Ziyuan Huang,Cheng Zou,Muzhi Zhu,Kaixiang Ji,Jiajia Liu,Jingdong Chen,Hao Chen,Chunhua Shen
Main category: cs.CV
TL;DR: HieraTok是一种新颖的多尺度视觉Transformer标记器,通过多尺度下采样和尺度因果注意力机制,在图像重建和生成任务中显著优于单尺度方法。
- Motivation: 克服单尺度表示建模的固有局限性,实现从低分辨率全局语义特征到高分辨率结构细节的渐进信息流动。
- Method: 采用多尺度下采样生成多尺度标记序列,结合尺度因果注意力机制实现信息从粗到细的流动。
- Result: 在相同设置下,多尺度标记器比单尺度方法在rFID上提升27.2%(1.47→1.07),在下游生成任务中收敛速度快1.38倍,gFID提升18.9%(16.4→13.3)。通过扩大训练规模,在ViT标记器中达到sota水平(rFID 0.45,gFID 1.82)。
- Conclusion: HieraTok是首个在图像重建和生成中引入多尺度ViT标记器的方法,其设计和发现推动了视觉生成任务中基于ViT的标记器发展。
[145] GRS-SLAM3R: Real-Time Dense SLAM with Gated Recurrent State
Guole Shen,Tianchen Deng,Yanbo Wang,Yongtao Chen,Yilin Shen,Jiuming Liu,Jingchuan Wang
Main category: cs.CV
TL;DR: GRS-SLAM3R是一个基于DUSt3R的端到端SLAM框架,支持序列化输入并增量估计全局坐标系下的度量尺度点云,通过空间记忆和子图分区实现全局一致性重建。
- Motivation: 现有DUSt3R方法仅使用图像对估计点图,忽略了空间记忆和全局一致性,导致重建结果缺乏全局协调性。
- Method: 使用潜在状态作为空间记忆,设计基于transformer的门控更新模块来重置和更新空间记忆;将场景划分为子图,在子图内进行局部对齐,并使用相对约束将所有子图注册到共同世界坐标系中。
- Result: 在多个数据集上的实验表明,该框架实现了优越的重建精度,同时保持实时性能。
- Conclusion: GRS-SLAM3R通过空间记忆和子图分区策略,在保持实时性的同时显著提升了密集场景重建的全局一致性。
[146] ResAD++: Towards Class Agnostic Anomaly Detection via Residual Feature Learning
Xincheng Yao,Chao Shi,Muming Zhao,Guangtao Zhai,Chongyang Zhang
Main category: cs.CV
TL;DR: 提出了ResAD++框架,通过残差特征和特征超球约束解决类无关异常检测问题,在8个真实数据集上取得优异性能
- Motivation: 现有单类和多类异常检测方法在新类别上性能不佳,主要原因是特征表示仍然与类别相关(特征相关性)
- Method: 学习残差特征分布而非初始特征分布,通过匹配和减去正常参考特征实现特征去相关;提出特征超球约束方法使不同类别的特征尺度一致;使用对数障碍双向收缩OCC损失和基于向量量化的特征分布匹配模块
- Result: 在8个真实世界异常检测数据集上,ResAD++在新类别上直接使用时取得显著异常检测结果,优于最先进竞争方法并超越ResAD
- Conclusion: 残差特征学习和特征超球约束能有效解决类无关异常检测中的特征相关性问题,提出的ResAD++框架在新类别上具有优异的泛化能力
[147] Poivre: Self-Refining Visual Pointing with Reinforcement Learning
Wenjie Yang,Zengfeng Huang
Main category: cs.CV
TL;DR: 提出了Poivre方法,通过自我精炼过程(先标记、可视化、再精炼)来提升视觉语言模型在视觉指向任务中的性能,使用强化学习训练,在Point-Bench上达到新SOTA。
- Motivation: 当前视觉语言模型在视觉指向任务中表现远低于人类水平,主要限制是需要单步完成指向任务,类似于要求人类不看手指指向物体。
- Method: 提出Point, Visualize, then Refine (Poivre)自我精炼过程,使用强化学习训练模型先标记估计点,然后迭代精炼坐标,设计了基于理论性质的过程奖励。
- Result: Poivre-7B在Point-Bench上创下新SOTA,超越Gemini-2.5-Pro和Molmo-72B等模型3%以上。
- Conclusion: Poivre方法通过自我精炼过程有效提升了视觉指向任务的性能,为未来研究提供了训练代码、数据集和模型检查点。
[148] PVTAdpNet: Polyp Segmentation using Pyramid vision transformer with a novel Adapter block
Arshia Yousefi Nezhad,Helia Aghaei,Hedieh Sajedi
Main category: cs.CV
TL;DR: 提出PVTAdpNet模型用于结直肠癌息肉分割,结合U-Net编码器-解码器结构和金字塔视觉Transformer,通过残差块和适配器跳跃连接实现实时准确分割。
- Motivation: 结直肠癌是常见致命癌症,传统结肠镜检查因息肉变异性导致高漏检率,需要更有效的早期检测方法。
- Method: 集成U-Net编码器-解码器结构与金字塔视觉Transformer骨干网络,使用新颖残差块和基于适配器的跳跃连接,结合压缩-激励注意力机制增强通道特征细化。
- Result: 在分布外息肉数据集上获得0.8851 Dice系数和0.8167 mIoU,在PolypGen数据集上展示实时准确性能。
- Conclusion: PVTAdpNet实现了实时准确的息肉分割,在基准数据集上表现优异,适合临床应用。
[149] UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception
Xinyang Song,Libin Wang,Weining Wang,Shaozhen Liu,Dandan Zheng,Jingdong Chen,Qi Li,Zhenan Sun
Main category: cs.CV
TL;DR: 提出UniAlignment统一多模态生成框架,使用单一扩散transformer实现双流扩散训练策略,增强跨模态一致性和指令遵循能力,并在新基准SemGen-Bench上取得优异表现。
- Motivation: 扩散模型在文本到图像生成方面取得显著成功,但扩展到多模态任务时,现有方法依赖视觉语言模型或模块化设计,导致架构碎片化和计算效率低下。
- Method: 在单一扩散transformer中构建统一多模态生成框架,采用双流扩散训练策略,结合内在模态语义对齐和跨模态语义对齐。
- Result: 在多个任务和基准测试中,UniAlignment优于现有基线方法,展示了扩散模型在统一多模态生成中的巨大潜力。
- Conclusion: UniAlignment证明了单一扩散transformer框架在统一多模态生成任务中的有效性,为复杂语义指令下的跨模态一致性提供了新解决方案。
[150] GenView++: Unifying Adaptive View Generation and Quality-Driven Supervision for Contrastive Representation Learning
Xiaojie Li,Bei Wang,Jianlong Wu,Yue Yu,Liqiang Nie,Min Zhang
Main category: cs.CV
TL;DR: GenView++是一个统一的对比学习框架,通过多源自适应视图生成机制和基于质量的对比学习机制,解决了正样本对构建质量不足和训练监督不均衡的问题,在视觉和视觉语言任务上取得了显著提升。
- Motivation: 当前对比学习方法在正样本对构建方面存在多样性不足和语义破坏风险,在学习方面缺乏质量评估机制导致所有样本对被同等对待,影响了学习效果。
- Method: 提出多源自适应视图生成机制,通过动态调节图像条件、文本条件和图像-文本条件策略来合成多样且语义一致的视图;引入质量驱动的对比学习机制,评估每对样本的语义对齐和多样性,动态重新加权其训练贡献。
- Result: 在视觉表示学习中,将MoCov2在ImageNet线性分类上的性能提升了+2.5%;在视觉语言学习中,在十个数据集上的平均零样本分类准确率比CLIP提高了+12.31%,比SLIP提高了+5.31%,Flickr30k文本检索R@5提升了+3.2%。
- Conclusion: GenView++通过改进正样本对构建质量和引入质量感知的训练机制,显著提升了对比学习在视觉和视觉语言任务上的性能,证明了其方法的有效性。
[151] A Modality-Tailored Graph Modeling Framework for Urban Region Representation via Contrastive Learning
Yaya Zhao,Kaiqi Zhao,Zixuan Tang,Zhiyuan Liu,Xiaoling Lu,Yalei Du
Main category: cs.CV
TL;DR: MTGRR是一个针对多模态城市数据的图建模框架,通过模态定制化图架构和空间感知融合机制,解决了现有方法在模态特定结构捕捉和空间异质性处理上的不足。
- Motivation: 现有图模型在处理多模态城市数据时存在两个主要问题:对所有模态使用相同的图神经网络架构,无法捕捉模态特定特征;在融合阶段忽视空间异质性,假设不同区域的模态聚合权重相同,导致次优表示。
- Method: 1) 将模态分为聚合级和点级两类,分别采用专家混合图架构和双级GNN处理;2) 设计空间感知多模态融合机制动态推断区域特定的模态融合权重;3) 使用联合对比学习策略整合三个层次的优化目标。
- Result: 在两个真实世界数据集上,涵盖六种模态和三个任务,MTGRR始终优于最先进的基线方法,验证了其有效性。
- Conclusion: MTGRR通过模态定制化图建模和空间感知融合,能够有效学习城市区域表示,在多模态城市数据分析任务中表现出色。
[152] Texture Vector-Quantization and Reconstruction Aware Prediction for Generative Super-Resolution
Qifan Li,Jiale Zou,Jinhua Zhang,Wei Long,Xinyu Zhou,Shuhang Gu
Main category: cs.CV
TL;DR: 提出纹理向量量化和重建感知预测策略,解决VQ方法在视觉先验建模中的量化误差和次优预测问题,实现高质量图像超分辨率。
- Motivation: 现有VQ方法存在两个问题:1)视觉特征丰富导致VQ编码产生大量量化误差;2)使用代码级监督训练预测器无法考虑最终重建误差,导致先验建模精度不理想。
- Method: 1)纹理向量量化:利用超分辨率任务特性,仅对缺失纹理引入码本建模;2)重建感知预测:使用直通估计器直接通过图像级监督训练索引预测器。
- Result: 所提出的TVQ&RAP生成式SR模型能够以较小的计算成本提供逼真的超分辨率结果。
- Conclusion: 通过纹理向量量化和重建感知预测策略,有效解决了VQ方法在视觉先验建模中的关键问题,实现了高质量且计算效率高的图像超分辨率。
[153] GroupCoOp: Group-robust Fine-tuning via Group Prompt Learning
Nayeong Kim,Seong Joon Oh,Suha Kwak
Main category: cs.CV
TL;DR: GroupCoOp是一种参数高效的微调方法,通过使用组特定文本提示作为组代表来解决视觉语言模型微调中的伪相关性问题,在多个基准测试中取得了最佳结果。
- Motivation: 解决视觉语言模型微调过程中由于子组不平衡导致的伪相关性问题,增强微调后模型的组鲁棒性。
- Method: 提出Group Context Optimization (GroupCoOp)算法,使用组特定文本提示作为组代表,为每个类别提供多个分类器,利用VLM文本编码器的丰富语义知识发现有效的组提示。
- Result: 在五个基准测试和五种CLIP架构上取得了最佳结果,有时甚至优于微调整个网络的方法,尽管只训练了网络参数的0.016%。
- Conclusion: GroupCoOp是一种简单有效的去偏微调算法,能够有效解决组不平衡训练集带来的问题,显著提升视觉语言模型的组鲁棒性。
[154] From Unstable to Playable: Stabilizing Angry Birds Levels via Object Segmentation
Mahdi Farrokhimaleki,Parsa Rahmati,Richard Zhao
Main category: cs.CV
TL;DR: 提出了一种基于图像分析的方法来识别和修复PCG生成的不稳定游戏关卡,以Angry Birds为案例验证了方法的有效性。
- Motivation: PCG技术虽然能自动生成多样化环境,但确保生成内容始终保持高质量和行业标准仍具挑战性,需要解决生成关卡的结构稳定性问题。
- Method: 利用物体分割和关卡图像视觉分析来检测结构间隙并进行针对性修复,评估多种分割模型并选择最优模型构建修复流程。
- Result: 实验结果表明该方法能显著提升AI生成关卡的稳定性和可玩性。
- Conclusion: 虽然评估基于Angry Birds,但这种基于图像的方法设计上适用于具有类似关卡结构的各类2D游戏。
[155] Controllable Generation of Large-Scale 3D Urban Layouts with Semantic and Structural Guidance
Mengyuan Niu,Xinxin Zhuo,Ruizhe Wang,Yuyue Huang,Junyan Yang,Qiao Wang
Main category: cs.CV
TL;DR: 提出了一种可控的大规模3D矢量城市布局生成框架,融合几何和语义属性,能够从2D布局扩展到真实3D结构,并支持用户通过修改语义属性直接控制输出。
- Motivation: 现有基于图像的方法生成多样化布局但缺乏几何连续性和可扩展性,而基于图的方法捕捉结构关系却忽略地块语义。需要一种能够同时考虑几何和语义的可控城市建模方法。
- Method: 通过融合几何和语义属性、引入边权重、在图中嵌入建筑高度,将2D布局扩展到真实3D结构。支持用户通过修改语义属性直接控制输出。
- Result: 实验表明该方法能够生成有效的大规模城市模型,为数据驱动的规划和设计提供了有效工具。
- Conclusion: 该框架成功解决了现有方法在几何连续性和语义考虑方面的不足,实现了可控的大规模3D城市布局生成。
[156] A Multi-Camera Vision-Based Approach for Fine-Grained Assembly Quality Control
Ali Nazeri,Shashank Mishra,Achim Wagner,Martin Ruskowski,Didier Stricker,Jason Rambach
Main category: cs.CV
TL;DR: 提出了一种多视角质量控制模块,通过三摄像头系统和图像融合方法解决单视角检测中的遮挡和视角限制问题,显著提升了小零件装配质量检测的准确率。
- Motivation: 现有单视角成像或人工检测方法存在遮挡、视角受限和光照不一致等问题,需要额外检测工位,导致生产线中断和成本增加。
- Method: 集成多摄像头成像系统与先进目标检测算法,采用三视角图像采集和定制化图像融合方法,结合多场景标注数据集。
- Result: 实验结果表明该方法显著优于单视角方法,在识别螺丝等小装配零件紧固问题时实现了高精度和高召回率。
- Conclusion: 该工作通过克服单视角限制,为工业自动化提供了可扩展、经济高效且准确的质量控制机制,确保装配线的可靠性和安全性。
[157] Assessing Visual Privacy Risks in Multimodal AI: A Novel Taxonomy-Grounded Evaluation of Vision-Language Models
Efthymios Tsaprazlis,Tiantian Feng,Anil Ramakrishna,Rahul Gupta,Shrikanth Narayanan
Main category: cs.CV
TL;DR: 该论文提出了一个视觉隐私分类法,用于评估视觉语言模型对隐私概念的理解能力,并发现现有模型在理解上下文隐私方面存在显著不一致性。
- Motivation: 大型语言模型和视觉语言模型在推理和语言理解方面表现出色,但在理解隐私概念方面存在严重局限性,需要测试资源来评估这种能力。
- Method: 引入一个全面的、多层次的视觉隐私分类法,该分类法捕捉了广泛的隐私问题,并评估了多个最先进的视觉语言模型的能力。
- Result: 评估揭示了视觉语言模型在理解上下文隐私方面存在显著的不一致性。
- Conclusion: 这项工作为未来研究提供了基础分类法,并对当前模型局限性进行了关键基准测试,表明迫切需要更强大、隐私感知的AI系统。
[158] Uni4D-LLM: A Unified SpatioTemporal-Aware VLM for 4D Understanding and Generation
Hanyu Zhou,Gim Hee Lee
Main category: cs.CV
TL;DR: Uni4D-LLM是首个统一4D场景理解和生成的视觉语言模型框架,通过共享表示和架构实现时空感知的4D任务统一处理。
- Motivation: 现有3D和4D方法在场景理解(自回归模型)和内容生成(扩散模型)之间存在范式差距,无法在动态4D环境中实现统一处理,特别是时空建模至关重要。
- Method: 1) 提取语义特征用于理解,注入噪声的外观特征用于生成,结合4D几何线索,通过自适应交叉注意力融合成时空感知的视觉表示;2) 将自回归和扩散模型集成到单一LLM中,使用任务特定头部;3) 在多样化4D视觉语言数据集上进行指令微调。
- Result: 在多个基准测试上的广泛实验表明,Uni4D-LLM相比最先进模型取得了竞争性或更优的结果,首次真正实现了4D场景理解和生成的统一。
- Conclusion: Uni4D-LLM通过共享表示和架构设计,成功实现了4D场景理解和生成的统一,为物理世界的视觉语言建模提供了新的解决方案。
[159] 2nd Place Report of MOSEv2 Challenge 2025: Concept Guided Video Object Segmentation via SeC
Zhixiong Zhang,Shuangrui Ding,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Jiaqi Wang
Main category: cs.CV
TL;DR: 该论文评估了Segment Concept (SeC)框架在MOSEv2数据集上的零样本性能,该框架使用大型视觉语言模型建立目标对象的深度语义理解,在复杂视频对象分割挑战中排名第二。
- Motivation: 解决传统半监督视频对象分割方法在面对剧烈视觉变化、遮挡和场景转换等挑战时鲁棒性不足的问题,这些方法主要依赖外观模式匹配而缺乏对目标的高层次概念理解。
- Method: 使用Segment Concept (SeC)框架,该框架利用大型视觉语言模型建立目标对象的深度语义理解,实现更持久的视频对象分割。
- Result: 在MOSEv2测试集上实现了39.7的JFn分数,在第七届大规模视频对象分割挑战的复杂VOS赛道中排名第二,且无需在训练集上进行微调。
- Conclusion: SeC框架通过深度语义理解显著提升了半监督视频对象分割在复杂场景下的零样本性能,证明了大型视觉语言模型在视频分割任务中的有效性。
[160] Towards Fine-Grained Text-to-3D Quality Assessment: A Benchmark and A Two-Stage Rank-Learning Metric
Bingyang Cui,Yujie Zhang,Qi Yang,Zhu Li,Yiling Xu
Main category: cs.CV
TL;DR: 提出了T23D-CompBench基准和Rank2Score评估器,用于解决文本到3D生成质量评估的挑战。
- Motivation: 现有文本到3D质量评估存在基准过时、碎片化、粗粒度的问题,以及客观指标设计局限性导致特征提取不具代表性和鲁棒性下降。
- Method: 1) 构建T23D-CompBench基准,定义5个组件12个子组件的组合提示,生成3600个纹理网格;2) 提出Rank2Score评估器,采用两阶段训练:第一阶段通过监督对比回归和课程学习增强成对训练,第二阶段使用平均意见分数优化预测。
- Result: Rank2Score在多个维度上一致优于现有指标,并能作为奖励函数优化生成模型。收集了129,600个可靠的人类评分。
- Conclusion: T23D-CompBench和Rank2Score为文本到3D质量评估提供了全面基准和有效评估器,显著提升了与人类判断的一致性。
[161] CE-FAM: Concept-Based Explanation via Fusion of Activation Maps
Michihiro Kuroki,Toshihiko Yamasaki
Main category: cs.CV
TL;DR: 提出CE-FAM方法,通过融合激活图进行基于概念的解释,能够同时揭示图像分类器学习的概念、相关区域及其对预测的贡献。
- Motivation: 现有方法难以同时揭示图像分类器学习的概念、相关区域及其贡献,而基于概念的解释方法能够将AI预测分解为人类可理解的概念。
- Method: 使用分支网络共享图像分类器的激活图,学习模仿视觉语言模型的嵌入,通过概念预测分数的梯度加权激活图来表示概念区域,量化其对分类得分的贡献。
- Result: 方法在定性和定量评估中优于现有方法,在未见概念的零样本推理方面表现出色,无需标注数据集即可处理任意概念。
- Conclusion: CE-FAM提供了一个通用框架,能够识别概念区域及其贡献,同时利用VLM知识处理任意概念,无需标注数据集。
[162] FairViT-GAN: A Hybrid Vision Transformer with Adversarial Debiasing for Fair and Explainable Facial Beauty Prediction
Djamel Eddine Boukhari
Main category: cs.CV
TL;DR: 提出了FairViT-GAN混合框架,结合CNN和ViT的优势,并引入对抗性去偏机制,在面部美预测任务中实现高精度和公平性。
- Motivation: 现有面部美预测模型存在架构限制、人口统计偏见和缺乏透明度的问题,CNN擅长局部纹理但忽略全局和谐,ViT建模长程依赖但忽略细节,且模型可能学习社会偏见。
- Method: 提出FairViT-GAN混合框架,集成CNN分支提取局部特征和ViT分支建模全局上下文,并引入对抗性去偏机制使特征表示对受保护属性不变。
- Result: 在SCUT-FBP5500基准测试中,皮尔逊相关系数达0.9230,RMSE降至0.2650,种族子组间性能差距减少82.9%,对抗者分类准确率降至52.1%。
- Conclusion: FairViT-GAN为开发负责任的主观视觉评估AI系统提供了稳健、透明且更公平的蓝图。
[163] Sim-DETR: Unlock DETR for Temporal Sentence Grounding
Jiajin Tang,Zhengxuan Wei,Yuchen Zhu,Cheng Shi,Guanbin Li,Liang Lin,Sibei Yang
Main category: cs.CV
TL;DR: 本文提出了Sim-DETR,通过限制查询间的自注意力并添加查询-帧对齐,解决了DETR在时间语句定位任务中的性能异常问题。
- Motivation: 发现典型的DETR增强策略在时间语句定位任务中不仅没有提升性能,反而可能降低性能,需要分析根本原因并解决。
- Method: 在解码器层进行两个小修改:1)基于语义和位置重叠约束查询间的自注意力;2)添加查询-帧对齐以桥接全局和局部上下文。
- Result: 实验证明Sim-DETR能够充分发挥DETR在时间语句定位任务中的潜力。
- Conclusion: Sim-DETR为时间语句定位任务提供了一个强大的基线模型,解决了DETR在该任务中的性能异常问题。
[164] Not All Tokens are Guided Equal: Improving Guidance in Visual Autoregressive Models
Ky Dan Nguyen,Hoang Lam Tran,Anh-Dung Dinh,Daochang Liu,Weidong Cai,Xiuying Wang,Chang Xu
Main category: cs.CV
TL;DR: 提出信息接地引导(IGG)机制,通过注意力锚定语义重要区域来解决自回归图像生成中的信息不一致问题
- Motivation: 自回归图像生成模型面临渐进分辨率缩放导致的时间步间patch信息不一致问题,这些不一致会分散引导信号,使其偏离条件信息,导致特征模糊和不忠实
- Method: 开发信息接地引导(IGG)机制,通过注意力自适应地强化信息丰富的patch,确保引导信号与内容保持紧密对齐
- Result: 在类别条件和文本到图像生成任务中,IGG能够生成更清晰、更连贯且语义接地的图像,为基于AR的方法设定了新基准
- Conclusion: IGG通过锚定语义重要区域有效解决了自回归图像生成中的信息不一致问题,显著提升了生成图像的质量和语义忠实度
[165] PCRI: Measuring Context Robustness in Multimodal Models for Enterprise Applications
Hitesh Laxmichand Patel,Amit Agarwal,Srikant Panda,Hansa Meghwani,Karan Dua,Paul Li,Tao Sheng,Sujith Ravi,Dan Roth
Main category: cs.CV
TL;DR: 提出了PCRI指标来系统评估多模态大语言模型对视觉上下文变化的鲁棒性,发现大多数先进模型对背景噪声敏感,只有少数模型表现稳定。
- Motivation: 现有评估指标未能捕捉多模态大语言模型在真实场景中对无关视觉上下文的敏感性,这影响了模型的可靠性。
- Method: 引入PCRI指标,通过比较模型在局部图像块和完整图像输入上的性能变化,量化模型对视觉上下文粒度变化的鲁棒性。
- Result: 在19个先进MLLM和15个基准测试中,大多数模型对背景噪声脆弱,仅InternVL2-26B和Qwen2VL-72B等少数模型在不同任务中表现一致鲁棒。
- Conclusion: PCRI能够严格比较上下文鲁棒性,为模型选择提供依据,并指导开发更鲁棒的架构和训练策略以支持实际部署。
[166] Learning Adaptive Pseudo-Label Selection for Semi-Supervised 3D Object Detection
Taehun Kong,Tae-Kyun Kim
Main category: cs.CV
TL;DR: 提出了一种新颖的半监督3D目标检测框架,通过可学习的伪标签模块自动选择高质量伪标签,解决了传统方法依赖手动阈值设置的局限性。
- Motivation: 现有半监督3D目标检测方法主要依赖教师-学生框架,但伪标签选择通常通过手动设置置信度阈值,忽略了上下文信息和网络可用信息,导致伪标签质量评估不充分。
- Method: 在教师输出层引入两个网络,通过分数融合可靠评估伪标签质量并确定上下文自适应阈值,同时提出软监督策略在伪标签噪声下进行鲁棒学习。
- Result: 在KITTI和Waymo数据集上的大量实验表明,该方法能选择高精度伪标签,同时保持更广泛的上下文覆盖和更高的召回率,显著改进了相关方法。
- Conclusion: 提出的可学习伪标签模块能够自动适应地选择高质量伪标签,软监督策略增强了在噪声环境下的学习鲁棒性,为半监督3D目标检测提供了有效解决方案。
[167] Tunable-Generalization Diffusion Powered by Self-Supervised Contextual Sub-Data for Low-Dose CT Reconstruction
Guoquan Wei,Zekun Zhou,Liu Shi,Wenzhe Shan,Qiegen Liu
Main category: cs.CV
TL;DR: 提出SuperDiff方法,通过自监督上下文子数据驱动的可调泛化扩散模型解决低剂量CT重建问题,在投影域和图像域双域策略级联,仅需LDCT投影数据即可训练和测试,在重建和泛化性能上优于现有方法。
- Motivation: 现有深度学习方法严重依赖配对数据且泛化能力差,扩散模型需要学习干净数据分布,在医学临床应用中难以满足。自监督方法面临从当前剂量预训练模型扩展到其他剂量时泛化性能显著下降的挑战。
- Method: 设计上下文子数据相似性自适应感知策略用于投影域去噪,结合知识蒸馏与潜在扩散模型优化图像细节,使用预训练模型进行推理重建,提出像素级自校正融合技术增强图像保真度,灵活应用于上下剂量甚至未见剂量的泛化。
- Result: 在数据集和真实数据上的定性和定量评估表明,SuperDiff在重建和泛化性能方面始终优于现有最先进方法。
- Conclusion: SuperDiff通过双域策略级联的自监督LDCT去噪方法,仅需LDCT投影域数据即可实现优异的重建和泛化性能,为低剂量CT重建提供了有效解决方案。
[168] AssemblyHands-X: Modeling 3D Hand-Body Coordination for Understanding Bimanual Human Activities
Tatsuro Banno,Takehiko Ohkawa,Ruicong Liu,Ryosuke Furuta,Yoichi Sato
Main category: cs.CV
TL;DR: 提出了AssemblyHands-X,首个无标记3D手-身体基准数据集,用于研究双手活动中手-身体协调对动作识别的影响。实验表明基于姿态的动作推理比视频基线更高效准确,联合建模手和身体线索能提升识别性能。
- Motivation: 现有3D活动数据集通常只标注手或身体姿态,而基于标记的运动捕捉系统存在视觉伪影问题,限制了模型在自然无标记视频上的泛化能力。需要系统评估双手活动中手-身体协调对动作理解的影响。
- Method: 构建了从同步多视角视频进行3D姿态标注的流程,结合多视角三角测量和SMPL-X网格拟合,获得可靠的手和上半身3D配准。验证了不同输入表示(视频、手姿态、身体姿态或手-身体姿态)在基于图卷积或时空注意力的动作识别模型中的效果。
- Result: 基于姿态的动作推理比视频基线更高效准确。联合建模手和身体线索比单独使用手或上半身能改善动作识别,强调了建模相互依赖的手-身体动态对于全面理解双手活动的重要性。
- Conclusion: 手-身体协调对于双手活动的动作识别至关重要,联合建模手和身体动态能显著提升识别性能,为理解双手活动提供了更全面的视角。
[169] LifeCLEF Plant Identification Task 2015
Herve Goeau,Pierre Bonnet,Alexis Joly
Main category: cs.CV
TL;DR: LifeCLEF 2015植物识别挑战赛评估了在接近真实生物多样性监测场景下的大规模植物识别方法,使用了超过10万张西欧1000种植物图像的数据集。
- Motivation: 构建一个接近真实世界生物多样性监测条件的大规模植物识别评估平台,通过参与式感知平台收集数据。
- Method: 使用由数万名贡献者通过参与式感知平台收集的超过10万张图像数据集,涵盖西欧1000种植物物种。
- Result: 挑战赛成功评估了各种植物识别方法和系统在大规模条件下的表现。
- Conclusion: LifeCLEF挑战赛为大规模植物识别提供了有效的评估框架,展示了参与式数据收集在生物多样性监测中的潜力。
[170] Preserving Cross-Modal Stability for Visual Unlearning in Multimodal Scenarios
Jinghan Xu Yuyang Zhang Qixuan Cai Jiancheng Chen Keqiu Li
Main category: cs.CV
TL;DR: 提出跨模态对比遗忘框架CCU,通过选择性视觉遗忘、跨模态知识保留和双集对比分离来解决视觉模态遗忘中的隐私泄露问题,同时保持其他模态性能和模型稳定性。
- Motivation: 现实多模态应用中视觉模态最易泄露隐私,现有遗忘方法在视觉遗忘时会破坏跨模态知识并影响保留数据的类内结构稳定性,导致整体性能下降。
- Method: CCU框架包含三个关键组件:选择性视觉遗忘使用反向对比学习分离视觉表示与原语义;跨模态知识保留通过语义一致性保持其他模态判别性;双集对比分离隔离遗忘集和保留集的结构扰动。
- Result: 在三个数据集上的实验表明,CCU相比最佳基线方法准确率提升7.12%,且仅需7%的遗忘时间。
- Conclusion: CCU框架有效解决了视觉模态遗忘中的跨模态知识保持和结构稳定性问题,在提升性能的同时显著降低了计算成本。
[171] Q-FSRU: Quantum-Augmented Frequency-Spectral For Medical Visual Question Answering
Rakesh Thakur,Yusra Tariq,Rakesh Chandra Joshi
Main category: cs.CV
TL;DR: Q-FSRU是一个结合频率谱表示融合(FSRU)和量子检索增强生成(Quantum RAG)的医学视觉问答模型,通过频域转换和量子检索技术提升医疗AI的性能和可解释性。
- Motivation: 解决需要同时理解图像和文本的临床难题是医疗AI的主要挑战,现有模型在处理复杂医学推理任务时表现有限。
- Method: 使用快速傅里叶变换将医学图像和文本特征转换到频域,结合量子检索系统从外部源获取医疗知识,并将检索信息与频域特征融合进行推理。
- Result: 在VQA-RAD数据集上的评估显示,Q-FSRU优于早期模型,特别是在需要图像文本推理的复杂病例上表现突出。
- Conclusion: 频率和量子信息的结合为构建智能、清晰且实用的医生AI工具提供了一种有前景的方法。
[172] LifeCLEF Plant Identification Task 2014
Herve Goeau,Alexis Joly,Pierre Bonnet,Souheil Selmi,Jean-Francois Molino,Daniel Barthelemy,Nozha Boujemaa
Main category: cs.CV
TL;DR: LifeCLEFs植物识别任务评估了500种树木和草本植物的识别系统,使用7种图像类型,数据来自公民科学倡议,更接近真实应用场景。
- Motivation: 通过公民科学倡议构建真实植物识别数据集,评估植物识别系统在真实世界条件下的性能。
- Method: 使用7种图像内容类型:叶片扫描图、以及6种在植物上直接拍摄的详细视图(花、果实、茎皮、枝条、叶片和整体视图),共有10个研究组提交了27个运行结果。
- Result: 确认了图像与多媒体检索社区对生物多样性和植物学的兴趣,并突出了植物识别中具有挑战性的研究方向。
- Conclusion: 该任务展示了植物识别领域的持续研究兴趣,并为未来更具挑战性的研究奠定了基础。
[173] EWC-Guided Diffusion Replay for Exemplar-Free Continual Learning in Medical Imaging
Anoushka Harit,William Prew,Zhongtian Sun,Florian Markowetz
Main category: cs.CV
TL;DR: 提出一种结合类别条件扩散回放和弹性权重巩固的持续学习框架,用于医学影像基础模型的隐私保护式持续适应,无需存储患者样本。
- Motivation: 医学影像基础模型需要持续适应,但完整重训练受隐私约束和成本限制,需要开发不存储患者样本的持续学习方法。
- Method: 使用紧凑视觉Transformer骨干网络,结合类别条件扩散回放生成合成样本,配合弹性权重巩固来减少灾难性遗忘。
- Result: 在CheXpert上达到0.851 AUROC,相比DER++减少30%以上遗忘,接近联合训练的0.869 AUROC,同时保持高效和隐私保护。
- Conclusion: 该方法为临床影像模型的可扩展、隐私感知持续适应提供了实用路径,分析显示遗忘与回放保真度和Fisher加权参数漂移相关。
[174] Adversarial Versus Federated: An Adversarial Learning based Multi-Modality Cross-Domain Federated Medical Segmentation
You Zhou,Lijiang Chen,Shuchang Lyu,Guangxia Cui,Wenpei Bai,Zheng Zhou,Meng Li,Guangliang Cheng,Huiyu Zhou,Qi Zhao
Main category: cs.CV
TL;DR: 提出FedDA框架解决联邦学习中医疗图像多模态数据异质性问题,通过特征级对抗学习实现跨域联邦聚合,让单模态客户端具备跨模态处理能力。
- Motivation: 医疗领域联邦学习中,不同客户端可能拥有不同模态的医疗图像数据,这种异质性给跨域医学图像分割带来重大挑战。
- Method: 提出FedDA框架,通过嵌入对抗训练机制在客户端间对齐特征图,实现特征级对抗学习,增强模型在多域上的泛化能力。
- Result: 在三个医疗图像数据集上的实验表明,FedDA显著实现了跨域联邦聚合,赋予单模态客户端跨模态处理能力,在客观和主观评估中均表现优于现有联邦聚合算法。
- Conclusion: FedDA框架有效解决了联邦学习中医疗图像多模态异质性问题,为跨域医学图像分割提供了可行的解决方案。
[175] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling
Xin Luo,Jiahao Wang,Chenyuan Wu,Shitao Xiao,Xiyan Jiang,Defu Lian,Jiajun Zhang,Dong Liu,Zheng liu
Main category: cs.CV
TL;DR: 本文提出了EditScore奖励模型系列和EditReward-Bench基准,通过精心设计的高保真奖励信号解决了图像编辑中强化学习应用的核心障碍,实现了高效的策略优化和显著的性能提升。
- Motivation: 当前指令引导的图像编辑模型在处理复杂指令时面临挑战,需要多次尝试才能获得满意结果。强化学习虽然很有前景,但缺乏高保真、高效的奖励信号阻碍了其在图像编辑领域的应用。
- Method: 首先构建EditReward-Bench基准系统评估奖励模型;然后开发EditScore系列奖励模型(7B-72B),通过精心数据筛选和自集成策略;最后将高保真奖励模型应用于在线强化学习进行策略优化。
- Result: EditScore在基准测试中性能与学习专有视觉语言模型相当,最大变体甚至超越GPT-5。应用该框架到OmniGen2基础模型后,获得了显著且一致的性能提升。
- Conclusion: 这项工作首次系统性地从基准测试到奖励建模再到强化学习训练,证明了高保真、领域专业化的奖励模型是释放强化学习在图像编辑领域全部潜力的关键。
[176] MoReact: Generating Reactive Motion from Textual Descriptions
Xiyan Xu,Sirui Xu,Yu-Xiong Wang,Liang-Yan Gui
Main category: cs.CV
TL;DR: 本文提出MoReact模型,通过扩散方法生成基于文本描述的双人互动反应动作,通过分离全局轨迹和局部动作生成来提升互动真实性和语义一致性。
- Motivation: 现有方法要么将多人视为单一实体直接生成互动,要么仅依赖单方动作生成反应,缺乏对互动场景丰富语义信息的整合,在适应性响应方面存在不足。
- Method: 提出MoReact扩散模型,顺序解耦全局轨迹和局部动作生成,先生成全局轨迹指导局部动作,并引入新的交互损失函数增强近距离互动的真实性。
- Result: 实验证明该方法能够生成真实、多样且可控的反应动作,既紧密匹配对方动作又符合文本指导。
- Conclusion: MoReact模型在文本驱动的人类反应生成任务中表现出色,能够产生语义一致且真实的互动动作序列。
[177] Revisit the Imbalance Optimization in Multi-task Learning: An Experimental Analysis
Yihang Guo,Tianyuan Yu,Liang Bai,Yanming Guo,Yirun Ruan,William Li,Weishi Zheng
Main category: cs.CV
TL;DR: 本文通过系统实验分析多任务学习中的优化不平衡问题,发现任务特定梯度范数与优化不平衡强相关,提出基于梯度范数缩放任务损失的简单策略,可达到与昂贵网格搜索相当的性能。
- Motivation: 多任务学习旨在构建通用视觉系统,但其潜力常受"优化不平衡"问题限制,即任务干扰导致性能不如单任务模型。本文旨在系统分析造成这一持续问题的因素。
- Method: 进行系统实验分析,研究现有优化方法在不同数据集上的表现差异,评估视觉基础模型的作用,并分析梯度范数与优化不平衡的关系,提出基于梯度范数的损失缩放策略。
- Result: 发现现有优化方法性能在不同数据集上不一致,先进架构仍需昂贵网格搜索;视觉基础模型虽提供强初始化但无法解决优化不平衡;增加数据量收益有限;任务特定梯度范数与优化不平衡强相关;基于梯度范数的损失缩放策略可达到网格搜索性能。
- Conclusion: 理解和控制梯度动态是解决多任务学习优化不平衡问题的更直接路径,而非开发日益复杂的方法。
[178] Bridging the Task Gap: Multi-Task Adversarial Transferability in CLIP and Its Derivatives
Kuanrong Liu,Siyuan Liang,Cheng Qian,Ming Zhang,Xiaochun Cao
Main category: cs.CV
TL;DR: 本文系统分析了CLIP模型在多任务下的对抗样本迁移行为,发现细粒度任务生成的对抗样本具有更强的跨任务迁移能力,并提出了MT-AdvCLIP框架来增强对抗攻击效果。
- Motivation: CLIP模型在细粒度任务上表现不佳,且其对抗鲁棒性研究不足。理解对抗样本在不同任务间的迁移机制对于评估CLIP的泛化极限和安全风险至关重要。
- Method: 提出了MT-AdvCLIP框架,引入任务感知特征聚合损失,生成具有增强跨任务泛化能力的扰动,提升细粒度任务模型对共享CLIP骨干网络的攻击效果。
- Result: 在多个公开数据集上的实验表明,MT-AdvCLIP显著提高了对抗迁移成功率(平均攻击成功率提升超过39%),且不增加扰动预算。
- Conclusion: 本研究揭示了多任务CLIP模型中对抗样本的迁移机制,为多任务鲁棒性评估和对抗样本设计提供了新见解。
[179] Token Painter: Training-Free Text-Guided Image Inpainting via Mask Autoregressive Models
Longtao Jiang,Mingfei Han,Lei Chen,Yongqiang Yu,Feng Zhao,Xiaojun Chang,Zhihui Li
Main category: cs.CV
TL;DR: 提出Token Painter,一种基于掩码自回归模型的免训练文本引导图像修复方法,通过双流编码器信息融合和自适应解码器注意力增强,在保持背景一致性的同时更好地对齐文本提示。
- Motivation: 解决扩散模型在文本引导图像修复中难以同时保证文本对齐和背景一致性的问题,探索掩码自回归模型在此任务中的潜力。
- Method: 1. 双流编码器信息融合:在频域融合文本和背景的语义与上下文信息生成引导令牌;2. 自适应解码器注意力增强:自适应增强对引导令牌和修复令牌的注意力分数。
- Result: 在几乎所有指标上都优于现有最先进方法,提供更优越的视觉结果。
- Conclusion: Token Painter方法在文本引导图像修复任务中表现出色,无需训练即可实现更好的文本对齐和背景一致性。
[180] DriveE2E: Closed-Loop Benchmark for End-to-End Autonomous Driving through Real-to-Simulation
Haibao Yu,Wenxian Yang,Ruiyang Hao,Chuanye Wang,Jiaru Zhong,Ping Luo,Zaiqing Nie
Main category: cs.CV
TL;DR: 提出了一个简单但具有挑战性的闭环评估框架,将真实世界驾驶场景集成到CARLA模拟器中,通过基础设施合作实现更真实的自动驾驶评估。
- Motivation: 当前基于CARLA模拟器的闭环基准测试依赖手动配置的交通场景,与现实世界条件存在差异,限制了其反映实际驾驶性能的能力。
- Method: 从100小时基础设施传感器视频数据集中提取800个动态交通场景,为15个真实世界交叉路口创建静态数字孪生资产,在CARLA中准确复制真实世界的交通和环境特征。
- Result: 创建了一个包含多样化驾驶行为、位置、天气条件和时间变化的复杂城市交叉路口评估框架,提供了更真实的模拟环境。
- Conclusion: 该框架能够更准确地评估端到端自动驾驶模型,解决了现有基准测试与现实世界条件脱节的问题。
[181] Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks
Alexandros Doumanoglou,Kurt Driessens,Dimitrios Zarpalas
Main category: cs.CV
TL;DR: 该论文提出了一种新方法来理解深度视觉网络中的概念表示,通过编码方向和解码方向对来揭示网络内部的概念结构,并展示了在模型理解、调试和修正方面的应用。
- Motivation: 深度神经网络是黑盒模型,难以理解其内部概念表示。现有的矩阵分解、自编码器或字典学习方法依赖特征重构,存在局限性。需要新的方法来直接恢复编码-解码方向对,从而打开深度网络的黑箱。
- Method: 提出新视角:通过激活的方向聚类识别解码方向,在概率视角下用信号向量估计编码方向。利用网络权重通过不确定性区域对齐技术,揭示影响预测的可解释方向。
- Result: 在合成数据上能恢复真实方向对;在真实数据上解码方向对应单义可解释概念,优于无监督基线;信号向量能忠实估计编码方向,通过激活最大化验证。
- Conclusion: 该方法成功揭示了深度网络中的概念表示结构,为模型理解、个体预测解释和干预纠正错误提供了有效工具,实现了对深度网络黑箱的打开。
[182] SAR-KnowLIP: Towards Multimodal Foundation Models for Remote Sensing
Yi Yang,Xiaokun Zhang,Qingchen Fang,Ziqi Ye,Rui Li,Li Liu,Haipeng Wang
Main category: cs.CV
TL;DR: 提出了SAR-KnowLIP,首个通用的SAR多模态基础模型,包含可重用数据和评估基准,在11个下游任务中表现领先。
- Motivation: 现有跨模态AI方法主要针对RGB图像,在合成孔径雷达(SAR)图像建模方面存在显著空白。SAR具有全天候成像能力,在遥感场景理解中具有不可替代的作用。
- Method: 1) 引入地理信息属性,构建SAR-GEOVL-1M数据集;2) 通过分层认知思维链生成对齐的结构化文本;3) 设计自洽迭代优化机制增强跨模态对齐;4) 建立统一评估基准。
- Result: 在11个代表性下游任务中与14个领先基础模型比较,SAR-KnowLIP表现出领先性能,特别是在目标计数和土地覆盖分类任务中。
- Conclusion: SAR-KnowLIP的大规模多模态数据、可迁移模型架构和全面实验基准将显著推进SAR多模态基线模型的发展。
[183] AutoPrune: Each Complexity Deserves a Pruning Policy
Hanshi Wang,Yuhao Xu,Zekun Xu,Jin Gao,Yufan Liu,Weiming Hu,Ke Wang,Zhipeng Zhang
Main category: cs.CV
TL;DR: AutoPrune是一种训练免费、即插即用的视觉语言模型剪枝框架,通过量化视觉和文本token之间的互信息,为不同复杂度的样本和任务定制剪枝策略,在LLaVA-1.5-7B上剪枝89%视觉token,减少76.8%推理FLOPs,同时保持96.7%的原始准确率。
- Motivation: 现有剪枝方法采用固定的层特定剪枝策略,无法适应不同输入样本和任务的复杂度变化,且不符合模型整体推理轨迹。认知科学研究表明人类视觉处理从广泛探索到聚焦目标的过程,在视觉语言模型中存在类似模式。
- Method: AutoPrune通过量化视觉和文本token之间的互信息,将其投影到预算约束的逻辑保留曲线,为不同复杂度的任务生成特定的剪枝策略,确保满足预定义的计算约束。
- Result: 在LLaVA-1.5-7B上,剪枝89%视觉token,减少76.8%推理FLOPs,保持96.7%的原始准确率,比PDrop方法提升9.1%。
- Conclusion: AutoPrune通过复杂度自适应剪枝策略,有效平衡了计算效率和模型性能,为视觉语言模型的高效推理提供了有效解决方案。
[184] CrashSplat: 2D to 3D Vehicle Damage Segmentation in Gaussian Splatting
Dragoş-Andrei Chileban,Andrei-Ştefan Bulzan,Cosmin Cernǎzanu-Glǎvan
Main category: cs.CV
TL;DR: 提出了一种基于3D高斯溅射的汽车损伤自动检测方法,通过单视图3D分割技术解决多视图一致性方法在汽车损伤检测中的局限性。
- Motivation: 汽车损伤自动检测对保险行业具有重要意义,但现有方法多局限于2D图像分析,缺乏利用3D重建技术提供更全面几何准确损伤表征的研究。
- Method: 开发了自动汽车损伤检测流程,通过提升2D掩码进行3D损伤分割,并提出基于Z缓冲和深度、不透明度正态分布模型的无学习单视图3D高斯溅射分割方法。
- Result: 该方法在具有挑战性的汽车损伤检测场景中特别有效,能够处理仅在单视图中清晰可见的目标对象(如划痕、小凹痕)。
- Conclusion: 提出的单视图3D分割方法为汽车损伤检测提供了实用的解决方案,特别是在多视图一致性方法不适用的情况下。
[185] HunyuanImage 3.0 Technical Report
Siyu Cao,Hangting Chen,Peng Chen,Yiji Cheng,Yutao Cui,Xinchi Deng,Ying Dong,Kipper Gong,Tianpeng Gu,Xiusen Gu,Tiankai Hang,Duojun Huang,Jie Jiang,Zhengkai Jiang,Weijie Kong,Changlin Li,Donghao Li,Junzhe Li,Xin Li,Yang Li,Zhenxi Li,Zhimin Li,Jiaxin Lin,Linus,Lucaz Liu,Shu Liu,Songtao Liu,Yu Liu,Yuhong Liu,Yanxin Long,Fanbin Lu,Qinglin Lu,Yuyang Peng,Yuanbo Peng,Xiangwei Shen,Yixuan Shi,Jiale Tao,Yangyu Tao,Qi Tian,Pengfei Wan,Chunyu Wang,Kai Wang,Lei Wang,Linqing Wang,Lucas Wang,Qixun Wang,Weiyan Wang,Hao Wen,Bing Wu,Jianbing Wu,Yue Wu,Senhao Xie,Fang Yang,Miles Yang,Xiaofeng Yang,Xuan Yang,Zhantao Yang,Jingmiao Yu,Zheng Yuan,Chao Zhang,Jian-Wei Zhang,Peizhen Zhang,Shi-Xue Zhang,Tao Zhang,Weigang Zhang,Yepeng Zhang,Yingfang Zhang,Zihao Zhang,Zijian Zhang,Penghao Zhao,Zhiyuan Zhao,Xuefei Zhe,Jianchen Zhu,Zhao Zhong
Main category: cs.CV
TL;DR: HunyuanImage 3.0是一个原生多模态模型,在自回归框架中统一了多模态理解和生成,是目前最大最强的开源图像生成模型。
- Motivation: 开发一个统一多模态理解和生成的先进模型,推动多模态生态系统发展。
- Method: 采用精心数据整理、先进架构设计、原生思维链模式、渐进式预训练、积极后训练以及高效基础设施,构建了包含800亿参数的MoE模型。
- Result: 在文本-图像对齐和视觉质量的自动和人工评估中,HunyuanImage 3.0与之前最先进模型相媲美。
- Conclusion: 通过发布代码和权重,旨在为社区提供最先进的基础模型,促进动态活跃的多模态生态系统发展。
[186] ColLab: A Collaborative Spatial Progressive Data Engine for Referring Expression Comprehension and Generation
Shilan Zhang,Jirui Huang,Ruilin Yao,Cong Wang,Yaxiong Chen,Peng Xu,Shengwu Xiong
Main category: cs.CV
TL;DR: 提出ColLab框架,通过协作式空间渐进数据引擎实现完全自动化的REC和REG数据生成,无需人工标注。
- Motivation: 现有REC和REG数据集依赖人工标注,成本高且难以扩展,需要自动化数据生成方法。
- Method: 采用协作式多模态模型交互策略,结合MLLMs和LLMs的语义理解生成描述,并设计空间渐进增强模块提升重复实例间的空间表达能力。
- Result: 实验表明ColLab显著加速REC和REG标注过程,同时提高生成表达的质量和区分度,已被ICCV 2025 MARS2挑战赛部分采用。
- Conclusion: ColLab为多模态理解任务提供了高效、自动化的数据生成解决方案,能够产生更符合实际推理需求的多样化样本。
[187] Reinforcement Learning with Inverse Rewards for World Model Post-training
Yang Ye,Tianyu He,Shuo Yang,Jiang Bian
Main category: cs.CV
TL;DR: 提出了RLIR框架,通过逆向动力学模型从生成视频中恢复输入动作来提供可验证的奖励信号,提升视频世界模型的动作跟随能力
- Motivation: 现有视频世界模型在动作跟随能力方面存在不足,而强化学习后训练方法因大规模偏好标注成本高和基于规则的视频验证器不可行而难以应用
- Method: 使用逆向动力学模型将高维视频模态映射到低维动作空间,通过组相对策略优化提供可验证的奖励信号进行优化
- Result: 在自回归和扩散范式下,动作跟随能力提升5-10%,视觉质量提升高达10%,获得更高的人类偏好评分
- Conclusion: RLIR是首个专门设计用于增强视频世界模型动作跟随能力的后训练方法
[188] A Novel Hybrid Deep Learning and Chaotic Dynamics Approach for Thyroid Cancer Classification
Nada Bouchekout,Abdelkrim Boukabou,Morad Grimes,Yassine Habchi,Yassine Himeur,Hamzah Ali Alkhazaleh,Shadi Atalla,Wathiq Mansoor
Main category: cs.CV
TL;DR: 提出了一种结合自适应CNN、CDF9/7小波和n-scroll混沌系统的智能分类方法,在甲状腺超声图像分类中达到98.17%准确率,优于现有SOTA方法,并具有良好的泛化能力和计算效率。
- Motivation: 甲状腺癌全球发病率上升,及时准确诊断对有效治疗和改善患者预后至关重要。
- Method: 将自适应CNN与CDF9/7小波结合,其细节系数通过n-scroll混沌系统调制以增强判别特征。
- Result: 在DDTI数据集上达到98.17%准确率、98.76%灵敏度、97.58%特异性、97.55% F1分数和0.9912 AUC,优于EfficientNetV2-S等SOTA方法。
- Conclusion: 小波-混沌-CNN管道在甲状腺超声分类中实现了最先进的性能,具有强大的泛化能力和适合临床集成的实际运行特性。
[189] VFSI: Validity First Spatial Intelligence for Constraint-Guided Traffic Diffusion
Kargi Chauhan,Leilani H. Gilpin
Main category: cs.CV
TL;DR: 提出VFSI方法,在扩散采样过程中通过基于能量的引导来强制执行物理约束,无需重新训练模型,显著提高了交通仿真的物理有效性。
- Motivation: 现有扩散模型生成的交通仿真虽然逼真,但系统性地违反物理约束,50%的轨迹存在碰撞、偏离道路等问题,需要将物理有效性作为架构要求而非涌现属性。
- Method: 采用基于能量的引导方法,在扩散采样过程中将碰撞避免和运动学约束作为能量函数,引导去噪过程生成物理有效的轨迹。
- Result: 在Waymo数据集200个城市场景中,碰撞率降低67%(24.6%到8.1%),整体有效性提升87%(50.3%到94.2%),同时提高了真实度指标(ADE从1.34m降至1.21m)。
- Conclusion: 在推理过程中显式强制执行约束对于物理有效的交通仿真是必要且充分的,模型无关的方法证明了这一有效性。
[190] Towards Redundancy Reduction in Diffusion Models for Efficient Video Super-Resolution
Jinpei Guo,Yifei Ji,Zheng Chen,Yufei Wang,Sizhuo Ma,Yong Guo,Yulun Zhang,Jian Wang
Main category: cs.CV
TL;DR: OASIS是一个高效的一步扩散模型,通过注意力专业化路由和渐进训练策略,解决了扩散模型在视频超分辨率中的冗余问题,实现了6.2倍的推理加速和SOTA性能。
- Motivation: 直接应用生成扩散模型到视频超分辨率会产生冗余,因为低质量视频已包含大量内容信息,导致计算开销增加和学习负担加重。
- Method: 提出注意力专业化路由机制,根据注意力头的内在行为将其分配到不同模式;采用渐进训练策略,从时间一致退化开始,逐步转向不一致设置。
- Result: 在合成和真实世界数据集上达到SOTA性能,相比一步扩散基线(如SeedVR2)提供6.2倍推理加速。
- Conclusion: OASIS通过减少冗余同时保留预训练知识,使扩散模型更好地适应视频超分辨率任务,在性能和效率上均有显著提升。
[191] RPG360: Robust 360 Depth Estimation with Perspective Foundation Models and Graph Optimization
Dongki Jung,Jaehoon Choi,Yonghan Lee,Dinesh Manocha
Main category: cs.CV
TL;DR: RPG360是一种无需训练的360度单目深度估计方法,利用透视基础模型和图优化来解决360度图像深度估计问题,在多个数据集上表现出色。
- Motivation: 360度图像在各领域应用日益增多,但获取大规模标注数据集用于360度深度估计仍然是一个重大挑战。
- Method: 将360度图像转换为六面立方体贴图表示,使用透视基础模型估计深度和表面法线,通过基于图的优化技术进行深度尺度对齐,确保六个面之间的深度尺度一致性。
- Result: 在Matterport3D、Stanford2D3D和360Loc等多个数据集上实现卓越性能,并在特征匹配(提升3.2~5.4%)和运动结构恢复(提升0.2~9.7%)等下游任务中验证了其有效性。
- Conclusion: RPG360方法通过结合基础模型和图优化,成功解决了360度深度估计中的尺度不一致问题,在零样本设置下表现出强大的鲁棒性和泛化能力。
[192] Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning
Muleilan Pei,Shaoshuai Shi,Shaojie Shen
Main category: cs.CV
TL;DR: SMART-R1是一种新颖的R1风格强化微调范式,用于多智能体交通行为模拟,通过度量导向的策略优化和迭代训练策略,在Waymo开放模拟智能体挑战赛中获得最先进性能。
- Motivation: 现有数据驱动模拟器主要依赖监督学习,存在训练与测试间的分布偏移问题,影响模型在未见环境中的泛化能力。
- Method: 提出R1风格强化微调范式,包含度量导向策略优化算法和"SFT-RFT-SFT"迭代训练策略,交替使用监督微调和强化微调。
- Result: 在Waymo开放运动数据集上的实验验证了该框架的有效性,在WOSAC挑战赛中以0.7858的总体真实感元分数排名第一。
- Conclusion: SMART-R1通过简单的R1风格训练框架显著提升了基础模型的性能,在多智能体交通模拟中实现了最先进的真实感。
[193] TREAT-Net: Tabular-Referenced Echocardiography Analysis for Acute Coronary Syndrome Treatment Prediction
Diane Kim,Minh Nguyen Nhat To,Sherif Abdalla,Teresa S. M. Tsang,Purang Abolmaesumi,and Christina Luong
Main category: cs.CV
TL;DR: TREAT-Net是一个多模态深度学习框架,利用超声心动图视频和临床记录预测急性冠脉综合征治疗,无需侵入性冠状动脉造影,准确率达67.6%。
- Motivation: 冠状动脉造影作为ACS诊断金标准具有侵入性和资源密集性,可能导致治疗延迟。需要开发非侵入性工具实现及时准确的患者分诊。
- Method: 采用表格引导的交叉注意力机制增强视频解释,结合晚期融合机制对齐多模态预测,在9000多例ACS病例数据集上训练。
- Result: 模型表现优于单模态和非融合基线,平衡准确率67.6%,AUROC 71.1%,跨模态一致性分析显示介入预测准确率达88.6%。
- Conclusion: TREAT-Net有潜力作为非侵入性工具,在医疗资源有限的人群中实现及时准确的患者分诊。
[194] Gaze Estimation for Human-Robot Interaction: Analysis Using the NICO Platform
Matej Palider,Omar Eldardeer,Viktor Kocur
Main category: cs.CV
TL;DR: 评估HRI共享工作空间场景中的视线估计方法,使用NICO机器人平台收集新数据集,测试4种最先进模型,发现角度误差接近通用基准,但实际工作空间距离误差中位数为16.48cm,揭示了当前方法的实际局限性。
- Motivation: 在HRI共享工作空间场景中评估当前视线估计方法的实际性能,量化其在真实交互环境中的局限性。
- Method: 使用NICO机器人平台收集新的带注释数据集,评估4种最先进的视线估计模型,将角度误差转换为共享工作空间中的实际距离误差。
- Result: 角度误差接近通用基准水平,但在共享工作空间中转换为距离误差时,最佳中位误差为16.48cm,显示了当前方法的实际应用限制。
- Conclusion: 讨论了当前视线估计方法的局限性,并为HRI系统中如何最佳集成视线估计模态提供了建议。
[195] SIE3D: Single-image Expressive 3D Avatar generation via Semantic Embedding and Perceptual Expression Loss
Zhiqi Huang,Dulongkai Cui,Jinglu Hu
Main category: cs.CV
TL;DR: SIE3D是一个从单张图像和描述性文本生成表达性3D头部化身的框架,通过融合图像身份特征和文本语义嵌入实现细粒度控制,并使用感知表达损失函数确保表达准确性。
- Motivation: 当前方法缺乏通过文本对表情进行细粒度、直观控制的能力,难以从单张图像生成高保真3D头部化身。
- Method: 提出新颖的条件调节方案融合图像身份特征和文本语义嵌入,引入基于预训练表达分类器的感知表达损失函数来正则化生成过程。
- Result: 实验表明SIE3D在可控性和真实感方面显著提升,在身份保持和表达保真度上优于竞争方法,且仅需单个消费级GPU。
- Conclusion: SIE3D框架成功实现了从单张图像和文本生成高保真、可控制的3D头部化身,解决了现有方法在文本控制表情方面的局限性。
[196] FrameMind: Frame-Interleaved Chain-of-Thought for Video Reasoning via Reinforcement Learning
Haonan Ge,Yiwei Wang,Kai-Wei Chang,Hang Wu,Yujun Cai
Main category: cs.CV
TL;DR: FrameMind是一个通过强化学习训练的端到端框架,使用帧交错思维链(FiCOT)让模型在推理过程中动态请求视觉信息,显著提升了视频理解性能。
- Motivation: 当前视频理解模型使用固定的帧采样策略,无法根据具体问题需求自适应地收集视觉证据,导致在需要广泛时间覆盖或精细空间细节的任务上表现不佳。
- Method: 提出FrameMind框架,采用多轮推理模式,模型在文本推理和主动视觉感知之间交替,使用工具提取目标帧或视频片段。引入动态分辨率帧采样(DRFS)和DRFS-GRPO算法来训练有效的动态采样策略。
- Result: 在MLVU和VideoMME等挑战性基准测试上的广泛实验表明,该方法显著优于现有模型,在灵活高效的视频理解方面达到了最先进的水平。
- Conclusion: FrameMind通过动态视觉信息请求机制,为视频理解任务提供了更灵活和高效的解决方案,推动了自适应视频理解技术的发展。
[197] Generalized Category Discovery in Hyperspectral Images via Prototype Subspace Modeling
Xianlu Li,Nicolas Nadisic,Shaoguang Huang,Aleksandra Pizurica
Main category: cs.CV
TL;DR: 提出了首个针对高光谱图像的广义类别发现框架,使用原型子空间建模来更好地捕捉类别结构
- Motivation: 现有GCD方法主要针对RGB图像,其假设和建模策略不适用于高维且具有复杂光谱结构的高光谱图像
- Method: 使用一组基向量为每个类别建模子空间表示,引入基向量正交性约束和重构约束来指导学习
- Result: 在真实高光谱数据集上的实验表明,该方法显著优于现有最先进的GCD方法
- Conclusion: 为高光谱环境下的广义类别发现建立了坚实基础
[198] Hazy Pedestrian Trajectory Prediction via Physical Priors and Graph-Mamba
Jian Chen,Zhuoran Zheng,Han Hu,Guijuan Zhang,Dianjie Lu,Liang Li,Chen Lyu
Main category: cs.CV
TL;DR: 提出结合大气散射物理先验和行人关系拓扑建模的深度学习模型,解决雾霾天气下行人轨迹预测的物理信息退化和交互建模问题,在能见度<30米的浓雾场景中显著优于现有方法。
- Motivation: 解决雾霾天气条件下行人轨迹预测中的物理信息退化问题和行人交互建模失效的挑战,为智能交通系统在恶劣环境下的可靠感知提供新范式。
- Method: 1) 构建可微分大气散射模型,通过物理参数估计网络解耦雾霾浓度和光照退化;2) 设计自适应扫描状态空间模型进行特征提取;3) 开发异构图注意力网络建模行人间多粒度交互,结合时空融合模块捕捉运动协同演化模式。
- Result: 在基于ETH/UCY构建的新数据集上,相比SOTA模型,在浓雾场景(能见度<30m)中minADE/minFDE指标分别降低37.2%和41.5%,自适应Mamba变体推理速度比原生Mamba提升78%。
- Conclusion: 该方法通过融合物理先验和拓扑建模,有效解决了雾霾天气下的行人轨迹预测问题,为恶劣环境下的智能交通感知提供了可靠的技术方案。
[199] : Reconstruction, Raw, and Rain: Deraining Directly in the Bayer Domain
Nate Rothschild,Moshe Kimhi,Avi Mendelson,Chaim Baskin
Main category: cs.CV
TL;DR: 该论文提出直接在原始Bayer马赛克数据上进行图像重建,相比传统的后ISP sRGB图像重建方法,能够获得更优的重建效果,并引入了信息守恒评分(ICS)作为新的评估指标。
- Motivation: 传统图像重建网络在ISP处理后的sRGB图像上训练,但ISP处理会不可逆地混合颜色、裁剪动态范围并模糊细节。该研究旨在避免这些损失,探索直接在原始Bayer数据上学习的优势。
- Method: 使用雨退化问题作为案例研究,评估后ISP和Bayer重建流程;创建了首个真实雨天场景的公开基准数据集Raw-Rain;引入了颜色不变性指标信息守恒评分(ICS)。
- Result: 在测试集上,原始域模型相比sRGB结果提升了+0.99 dB PSNR和+1.2% ICS,同时运行速度更快,计算量减半(GFLOPs)。
- Conclusion: 研究结果支持低层视觉任务采用ISP后处理范式,为端到端可学习相机管线打开了大门。
[200] Joint Superpixel and Self-Representation Learning for Scalable Hyperspectral Image Clustering
Xianlu Li,Nicolas Nadisic,Shaoguang Huang,Aleksandra Pizurica
Main category: cs.CV
TL;DR: 提出了一种端到端的统一框架,联合优化超像素分割和子空间聚类,通过反馈机制实现聚类感知的分割,在HSI数据集上取得优越性能
- Motivation: 现有超像素方法通常独立于聚类任务进行分割,导致分割结果与后续聚类目标不一致,且传统子空间聚类计算和内存成本高限制了可扩展性
- Method: 端到端联合优化框架,包含基于展开ADMM的自表示网络和可微分超像素模块,通过反馈机制实现聚类感知分割,每个超像素学习独特的紧凑度参数
- Result: 在基准HSI数据集上的广泛实验表明,该方法相比最先进的聚类方法始终获得更优越的准确性
- Conclusion: 联合优化超像素分割和子空间聚类能产生聚类感知的分割,同时保持光谱和空间结构,实现更灵活自适应的分割
[201] A Second-Order Perspective on Pruning at Initialization and Knowledge Transfer
Leonardo Iurada,Beatrice Occhiena,Tatiana Tommasi
Main category: cs.CV
TL;DR: 该论文研究了预训练视觉模型剪枝的数据依赖性问题,发现基于一个任务进行剪枝后,模型在未见任务上仍能保持零样本性能,且微调后能恢复未见任务的性能。
- Motivation: 传统观点认为有效剪枝需要任务特定数据,但当下游任务未知时这成为挑战。作者旨在探索数据如何影响预训练视觉模型的剪枝。
- Method: 研究预训练视觉模型在不同任务数据上的剪枝效果,分析剪枝后模型在原始任务和未见任务上的性能表现。
- Result: 令人惊讶的是,基于一个任务的剪枝能保持模型在未见任务上的零样本性能,微调这些剪枝模型不仅能提升原始任务性能,还能恢复未见任务的性能。
- Conclusion: 这种现象归因于大规模数据集上广泛预训练带来的有利损失景观。
[202] Uncovering Grounding IDs: How External Cues Shape Multi-Modal Binding
Hosein Hasani,Amirmohammad Izadi,Fatemeh Askari,Mobin Bagherian,Sadegh Mohammadian,Mohammad Izadi,Mahdieh Soleymani Baghshah
Main category: cs.CV
TL;DR: 该论文研究了大型视觉语言模型中外部视觉结构如何通过诱导"接地标识"来改善多模态绑定,减少幻觉并提高推理准确性。
- Motivation: 尽管大型视觉语言模型在多模态基准测试中表现良好,但在结构化推理和精确接地方面仍有局限。最近研究表明添加简单视觉结构能提高准确性,但其内部机制尚不清楚。
- Method: 通过表示分析和因果干预,研究外部线索如何诱导潜在标识符(Grounding IDs),这些标识符在嵌入空间中形成分区内对齐,减少模态差距。
- Result: 研究发现接地标识作为稳健的分区内对齐在嵌入空间中出现,调节对象与符号线索之间的绑定,增强相关组件间的注意力,从而改善跨模态接地并减少幻觉。
- Conclusion: 接地标识是解释外部线索如何增强多模态绑定的关键符号机制,既提供了可解释性,又在实际应用中提高了鲁棒性。
[203] Autoregressive Video Generation beyond Next Frames Prediction
Sucheng Ren,Chen Chen,Zhenbang Wang,Liangchen Song,Xiangxin Zhu,Alan Yuille,Yinfei Yang,Jiasen Lu
Main category: cs.CV
TL;DR: 本文提出VideoAR框架,挑战了传统视频生成中逐帧预测的范式,支持多种预测单元(包括完整帧、关键细节帧、多尺度精化和时空立方体),发现时空立方体作为预测单元能同时处理空间和时间维度,在质量和效率上均优于现有方法。
- Motivation: 质疑传统视频生成中逐帧预测的合理性,探索更合适的预测单元来改进视频自回归建模。
- Method: 提出VideoAR统一框架,支持多种预测单元:完整帧、关键细节帧、多尺度精化和时空立方体,特别关注时空立方体作为预测单元的自回归建模。
- Result: 基于立方体的预测在质量、速度和时序一致性方面表现最佳,在VBench上超越现有方法,推理更快,并能扩展到分钟级序列。
- Conclusion: 打破了逐帧预测的限制,为视频和其他时空领域的序列分解提供了新的思考方向。
[204] Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow
Prerit Gupta,Shourya Verma,Ananth Grama,Aniket Bera
Main category: cs.CV
TL;DR: DualFlow是一个统一高效的多模态双人运动生成框架,通过整流流技术实现确定性采样路径,结合检索增强生成模块提升语义理解,在文本、音乐和运动序列等多种条件下生成高质量、同步的双人运动。
- Motivation: 解决在计算机图形学、动画和人机交互领域中,基于多样化模态生成逼真、上下文感知的双人运动这一核心挑战。
- Method: 使用整流流技术实现噪声到数据的直线采样路径;采用检索增强生成模块,利用音乐特征和基于LLM的文本分解检索运动样本;引入对比目标增强与条件信号的对齐;使用同步损失改善人际协调。
- Result: 在文本到运动、音乐到运动和多模态交互基准测试中,DualFlow在运动质量、响应性和效率方面取得一致提升,生成时间连贯且节奏同步的运动。
- Conclusion: DualFlow在多模态人体运动生成领域达到了最先进的水平,能够生成高质量、同步的双人运动。
[205] SVAC: Scaling Is All You Need For Referring Video Object Segmentation
Li Zhang,Haoxiang Gao,Zhihao Zhang,Luoxiao Huang,Tao Zhang
Main category: cs.CV
TL;DR: SVAC是一个统一的RVOS模型,通过扩展输入帧和分割token来增强视频-语言交互和分割精度,同时使用ASTC模块压缩视觉token和CSA策略处理动态对象行为。
- Motivation: 现有的RVOS方法在利用MLLMs先验知识、处理长视频的计算成本以及复杂时序动态方面存在不足。
- Method: 提出SVAC模型,包含Anchor-Based Spatio-Temporal Compression (ASTC)模块压缩视觉token,以及Clip-Specific Allocation (CSA)策略处理跨视频片段的动态对象行为。
- Result: 在多个RVOS基准测试中取得了最先进的性能,同时保持了有竞争力的效率。
- Conclusion: SVAC通过扩展输入规模和优化计算策略,有效提升了RVOS的性能和效率。
[206] GANji: A Framework for Introductory AI Image Generation
Chandon Hamel,Mike Busch
Main category: cs.CV
TL;DR: GANji是一个轻量级框架,用于比较生成式AI图像生成技术,使用10,314个日本汉字字符数据集系统比较VAE、GAN和DDPM的性能。
- Motivation: 生成模型比较研究通常需要大量计算资源,这为研究人员和从业者设置了障碍,因此需要开发轻量级框架来降低门槛。
- Method: 使用10,314个日本汉字字符数据集,系统比较变分自编码器(VAE)、生成对抗网络(GAN)和去噪扩散概率模型(DDPM)的性能。
- Result: DDPM获得最高的图像保真度(FID得分26.2),但其采样时间比其他模型慢2,000多倍。
- Conclusion: GANji框架是揭示模型架构、计算成本和视觉质量之间基本权衡的有效工具,适用于教育和研究目的。
[207] Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding
Zhecheng Li,Guoxian Song,Yiwei Wang,Zhen Xiong,Junsong Yuan,Yujun Cai
Main category: cs.CV
TL;DR: GMS是一个用于GUI界面自然语言查询定位的协同粗到精框架,通过结合通用视觉语言模型和专用GUI定位模型的优势,将准确率从单独模型的2.0%-3.7%提升到35.7%。
- Motivation: 解决在图形用户界面中定位自然语言查询的挑战,该任务需要理解各种应用程序和系统中的不同UI元素,并准确预测操作的空间坐标。
- Method: 提出GMS框架,将通用视觉语言模型作为'Scanner'识别感兴趣区域,专用GUI定位模型作为'Locator'在这些区域内输出精确坐标,采用五阶段层次搜索和跨模态通信。
- Result: 在ScreenSpot-Pro数据集上,单独Scanner和Locator模型准确率仅为2.0%和3.7%,但GMS框架集成后达到35.7%准确率,提升10倍,显著优于其他基线方法。
- Conclusion: GMS框架通过协同利用通用和专用模型的优势,在GUI定位任务中表现出强大的鲁棒性和泛化潜力。
[208] EYE-DEX: Eye Disease Detection and EXplanation System
Youssef Sabiri,Walid Houmaidi,Amine Abouaomar
Main category: cs.CV
TL;DR: EYE-DEX是一个基于深度学习框架,用于自动分类10种视网膜疾病,在包含21,577张眼底图像的大规模数据集上实现了92.36%的最新测试准确率,并集成了Grad-CAM技术提供可视化解释。
- Motivation: 视网膜疾病诊断对预防视力丧失和减轻社会经济负担至关重要。传统手动分级方法耗时且主观,而深度学习可以自动化视网膜图像分析并达到专家级性能。
- Method: 使用三个预训练的CNN模型(VGG16、VGG19、ResNet50)进行基准测试,其中微调的VGG16模型表现最佳。集成Grad-CAM技术生成可视化解释,突出显示疾病特异性区域。
- Result: 微调的VGG16模型在视网膜疾病分类任务中达到了92.36%的最新测试准确率,超越了其他基准模型。
- Conclusion: EYE-DEX框架不仅实现了高精度的视网膜疾病自动分类,还通过Grad-CAM技术增强了透明度和可解释性,有助于建立临床医生对AI辅助诊断的信任和可靠性。
[209] Analysis of Bias in Deep Learning Facial Beauty Regressors
Chandon Hamel,Mike Busch
Main category: cs.CV
TL;DR: AI面部审美预测存在种族偏见,即使使用平衡数据集训练,模型仍会放大社会审美偏见而非缓解。研究发现仅4.8-9.5%的组间比较满足分布均等标准。
- Motivation: AI系统即使从看似平衡的数据源也会引入偏见,AI面部审美预测存在基于种族的偏见问题。本研究旨在揭示AI在塑造审美规范中的偏见风险,并为开发公平的审美技术提供路径。
- Method: 使用SCUT-FBP5500和MEBeauty数据集训练模型,通过严格的统计验证(Kruskal-Wallis H检验、事后Dunn分析)和交叉数据集验证,在平衡的FairFace数据集上进行评估。
- Result: 两个模型在不同种族群体间都表现出显著的预测差异(p < 0.001),算法放大了社会审美偏见而非缓解,仅4.8-9.5%的组间比较满足分布均等标准。
- Conclusion: 当前AI审美预测方法存在不足,需要制定缓解策略来应对种族偏见问题,确保AI审美技术的公平性。
[210] Asymmetric VAE for One-Step Video Super-Resolution Acceleration
Jianze Li,Yong Guo,Yulun Zhang,Xiaokang Yang
Main category: cs.CV
TL;DR: FastVSR提出了一种高效的视频超分辨率方法,通过高压缩VAE(f16空间压缩比)显著降低计算成本,实现比多步模型快111.9倍、比现有单步模型快3.92倍的推理速度。
- Motivation: 扩散模型在视频超分辨率领域表现出色,但现有单步采样模型在推理效率方面仍有优化空间,需要进一步降低计算成本。
- Method: 设计f16 VAE结构,采用像素重排和通道复制实现额外上采样,并提出下界引导训练策略,使用更简单的训练目标作为VAE性能下界,使训练更稳定易收敛。
- Result: 实验结果显示FastVSR在推理效率上取得显著提升,相比多步模型加速111.9倍,相比现有单步模型加速3.92倍。
- Conclusion: FastVSR通过高压缩VAE和稳定训练框架,在保持性能的同时大幅提升了视频超分辨率的推理效率。
[211] Accelerating Cerebral Diagnostics with BrainFusion: A Comprehensive MRI Tumor Framework
Walid Houmaidi,Youssef Sabiri,Salmane El Mansour Billah,Amine Abouaomar
Main category: cs.CV
TL;DR: BrainFusion结合微调的CNN模型(VGG16、ResNet50、Xception)和YOLOv8进行脑肿瘤分类与定位,VGG16达到99.86%的测试准确率,超越了之前的基准。
- Motivation: 早期准确分类脑肿瘤对指导有效治疗策略和改善患者预后至关重要。
- Method: 使用微调的卷积神经网络(VGG16、ResNet50、Xception)进行肿瘤分类,结合YOLOv8进行精确的肿瘤定位,并采用可解释AI技术增强临床可解释性。
- Result: 微调的VGG16模型在脑肿瘤MRI数据集上达到99.86%的测试准确率,显著超过之前的基准。
- Conclusion: 该方法展示了深度学习在提供更快、更可靠诊断方面的变革潜力,有助于改善患者护理和生存率。
[212] LatXGen: Towards Radiation-Free and Accurate Quantitative Analysis of Sagittal Spinal Alignment Via Cross-Modal Radiographic View Synthesis
Moxin Zhao,Nan Meng,Jason Pui Yin Cheung,Chris Yuk Kwan Tang,Chenxi Yu,Wenting Zhong,Pengyu Lu,Chang Shi,Yipeng Zhuang,Teng Zhang
Main category: cs.CV
TL;DR: LatXGen是一个生成式框架,能够从背部RGBD图像合成真实的侧位脊柱X光片,实现无辐射的矢状面脊柱对齐评估。
- Motivation: 青少年特发性脊柱侧弯(AIS)需要评估冠状面和矢状面对齐,但现有研究主要关注冠状面评估,无辐射的矢状面评估方法仍待探索。
- Method: 采用双阶段架构:首先估计侧位脊柱结构,然后合成相应X光片。引入基于注意力的快速傅里叶卷积模块整合解剖特征,以及空间变形网络建模侧位形态变化。
- Result: 实验结果表明LatXGen生成解剖学准确的X光片,在视觉保真度和定量指标上优于现有GAN方法。构建了包含3,264对RGBD和侧位X光片的大型配对数据集。
- Conclusion: 该研究为矢状面脊柱评估提供了有前景的无辐射解决方案,推进了AIS的全面评估。
[213] High-Order Progressive Trajectory Matching for Medical Image Dataset Distillation
Le Dong,Jinghao Bian,Jingyang Hou,Jingliang Hu,Yilei Shi,Weisheng Dong,Xiao Xiang Zhu,Lichao Mou
Main category: cs.CV
TL;DR: 提出了一种新的医学图像数据集蒸馏方法,通过形状势能捕捉参数轨迹的几何结构,并使用由易到难的匹配策略,在保护隐私的同时提升蒸馏性能。
- Motivation: 医学图像分析面临数据共享的隐私和协议挑战,现有轨迹匹配方法主要关注终端状态而忽略了中间优化状态的重要信息。
- Method: 提出形状势能捕捉参数轨迹的几何结构,采用由易到难的匹配策略逐步处理不同复杂度的参数。
- Result: 在医学图像分类任务上的实验表明,该方法提升了蒸馏性能,同时保持了与原始数据集训练相当的模型准确率。
- Conclusion: 该方法有效解决了医学图像数据共享的隐私问题,通过改进的轨迹匹配方法在保持准确性的同时提升了数据集蒸馏效果。
[214] Combining Discrepancy-Confusion Uncertainty and Calibration Diversity for Active Fine-Grained Image Classification
Yinghao Jin,Xi Yang
Main category: cs.CV
TL;DR: 提出DECERN方法,结合差异-混淆不确定性和校准多样性,用于细粒度图像分类中的主动学习,通过多维度信息度量有效评估样本价值。
- Motivation: 在细粒度图像分类中,由于类间差异细微,评估样本信息量具有挑战性,需要更有效的方法在有限标注预算下选择最有信息量的样本。
- Method: 引入差异-混淆不确定性量化类别方向性和结构稳定性,进行不确定性加权聚类,然后校准多样性以最大化全局多样性同时保持局部代表性。
- Result: 在7个细粒度图像数据集和26个实验设置上的广泛实验表明,该方法优于现有最先进方法。
- Conclusion: DECERN方法通过结合不确定性和多样性度量,在细粒度图像分类的主动学习中取得了优越性能。
[215] Tumor Synthesis conditioned on Radiomics
Jonghun Kim,Inye Na,Eun Sook Ko,Hyunjin Park
Main category: cs.CV
TL;DR: 提出了一种基于放射组学特征的肿瘤生成模型,利用GAN生成肿瘤掩膜,扩散模型生成肿瘤纹理,可根据用户指定的放射组学特征在任意位置生成肿瘤图像。
- Motivation: 由于隐私问题,在医学图像分析中获取大型3D数据集具有挑战性,现有生成模型在输出多样性方面存在局限,无法准确表示3D医学图像。
- Method: 使用GAN生成肿瘤掩膜,扩散模型生成肿瘤纹理,以放射组学特征作为生成条件。放射组学特征是生物学基础良好的高维手工语义特征。
- Result: 模型在四个不同器官(肾脏、肺、乳腺、脑)的CT和MRI上测试,合成图像有效辅助下游任务训练,专家评估证实其真实性。
- Conclusion: 该方法允许移除、操作和重新定位肿瘤,在不同场景下生成各种肿瘤类型,在治疗规划中具有潜在应用价值。
[216] Simulating Post-Neoadjuvant Chemotherapy Breast Cancer MRI via Diffusion Model with Prompt Tuning
Jonghun Kim,Hyunjin Park
Main category: cs.CV
TL;DR: 使用扩散模型从治疗前的DCE-MRI图像生成治疗后的图像,以预测乳腺癌新辅助化疗的响应情况
- Motivation: 准确预测新辅助化疗(NAC)的响应有助于乳腺癌治疗规划,但目前缺乏有效的预测方法
- Method: 采用扩散模型,利用DCE-MRI的最大强度投影图像,从治疗前图像生成治疗后图像,并引入提示调优来考虑临床因素
- Result: 模型在图像质量指标上优于其他生成模型,能更好地生成反映肿瘤大小变化的图像,消融研究验证了方法设计
- Conclusion: 该方法在精准医疗方面具有潜力,能帮助预测NAC响应
[217] Talk in Pieces, See in Whole: Disentangling and Hierarchical Aggregating Representations for Language-based Object Detection
Sojung An,Kwanyong Park,Yong Jae Lee,Donghyun Kim
Main category: cs.CV
TL;DR: 提出了TaSe框架,通过解构语言表示来解决视觉语言模型在复杂查询中的感知限制,显著提升了基于语言的目标检测性能。
- Motivation: 当前视觉语言模型在处理涉及描述性属性和关系从句的复杂查询时表现有限,主要原因是文本编码器无法有效分离目标对象与其属性和关系。
- Method: 提出TaSe框架:1)构建分层合成字幕数据集;2)Talk in Pieces模块通过解构损失函数将文本嵌入分解为对象、属性和关系三个组件;3)See in Whole模块学习将解构组件聚合成分层结构嵌入。
- Result: 在OmniLabel基准测试中实现了24%的性能提升,证明了语言组合性的重要性。
- Conclusion: 通过引入层次化语言结构归纳偏置,TaSe框架能够生成细粒度的多模态表示,显著提升了基于语言的目标检测能力。
[218] An Efficient 3D Latent Diffusion Model for T1-contrast Enhanced MRI Generation
Zach Eidex,Mojtaba Safari,Jie Ding,Richard Qiu,Justin Roper,David Yu,Hui-Kuo Shu,Zhen Tian,Hui Mao,Xiaofeng Yang
Main category: cs.CV
TL;DR: 开发了一个高效的3D深度学习框架T1C-RFlow,通过预对比多参数MRI生成T1对比增强图像,避免了钆基对比剂的使用,并在生成质量和速度上优于现有基准模型。
- Motivation: 钆基对比剂在T1加权MRI中常用于增强病灶可视化,但存在肾源性系统性纤维化风险和成像不一致性问题,需要开发无对比剂的替代方法。
- Method: 提出3D潜在整流流模型,首先将T1w和T2-FLAIR图像输入预训练自编码器获得潜在空间表示,然后在该潜在空间中训练整流流扩散模型。
- Result: T1C-RFlow在三个脑肿瘤数据集上表现优异,NMSE和SSIM指标均优于基准模型,且去噪时间显著更快(6.9秒/体积 vs 37.7秒和4.3小时)。
- Conclusion: 该方法生成的合成T1C图像与真实图像高度相似,且生成时间大幅缩短,为脑肿瘤的无对比剂MRI提供了实用方法的发展前景。
[219] UniVid: The Open-Source Unified Video Model
Jiabin Luo,Junhui Lin,Zeyu Zhang,Biao Wu,Meng Fang,Ling Chen,Hao Tang
Main category: cs.CV
TL;DR: UniVid是一个统一的视频建模架构,通过轻量级适配器将多模态大语言模型与扩散解码器耦合,实现视频理解和生成功能,解决了文本-视觉标记不平衡和跨模态注意力限制等挑战。
- Motivation: 统一视频建模需要同时具备生成和理解能力,但面临两个关键挑战:基于流的生成中由于文本-视觉标记不平衡导致的语义忠实度问题,以及跨模态注意力在流轨迹上的局限性;同时需要高效地将图像为中心的MLLMs扩展到视频领域而无需昂贵的重新训练。
- Method: 提出UniVid统一架构,通过轻量级适配器将MLLM与扩散解码器耦合;引入温度模态对齐来改善提示遵循能力,以及金字塔反射通过动态关键帧选择实现高效时序推理。
- Result: 在标准基准测试中展现出最先进的性能:相比EasyAnimateV5.1在VBench-Long总分上提升2.2%;相比最佳7B基线在MSVD-QA和ActivityNet-QA上分别获得1.0%和3.3%的准确率提升。
- Conclusion: UniVid通过统一的架构设计成功解决了视频建模中的关键挑战,在视频理解和生成任务上都取得了显著的性能提升,证明了该方法的有效性。
[220] BALR-SAM: Boundary-Aware Low-Rank Adaptation of SAM for Resource-Efficient Medical Image Segmentation
Zelin Liu,Sicheng Dong,Bocheng Li,Yixuan Yang,Jiacheng Ruan,Chenxu Zhou,Suncheng Xiang
Main category: cs.CV
TL;DR: BALR-SAM是一个边界感知的低秩适配框架,用于增强SAM在医学图像分割中的性能,通过三个关键组件实现高效微调,仅需更新1.8%的参数即可超越完全微调的MedSAM。
- Motivation: 视觉基础模型(如SAM)在医学图像分割中表现不佳,因为缺乏领域特定适配。临床实践中需要以最小资源需求高效微调这些模型,同时保持强大性能。
- Method: 1. 互补细节增强网络(CDEN)使用深度可分离卷积和多尺度融合捕获边界敏感特征;2. 在SAM的ViT块中集成低秩适配器优化医学上下文特征表示和注意力;3. 在掩码解码器中采用低秩张量注意力机制,减少75%内存使用。
- Result: 在标准医学分割数据集上的实验表明,BALR-SAM无需提示即可超越多个SOTA方法,包括完全微调的MedSAM,同时仅更新11.7M参数(占总参数的1.8%)。
- Conclusion: BALR-SAM通过边界感知低秩适配有效解决了SAM在医学图像分割中的领域适应问题,实现了高效微调和强大性能的平衡。
[221] Forge4D: Feed-Forward 4D Human Reconstruction and Interpolation from Uncalibrated Sparse-view Videos
Yingdong Hu,Yisheng He,Jinnan Chen,Weihao Yuan,Kejie Qiu,Zehong Lin,Siyu Zhu,Zilong Dong,Jun Zhang
Main category: cs.CV
TL;DR: Forge4D是一个前馈4D人体重建和插值模型,能够从无标定稀疏视角视频中高效重建时间对齐的表示,支持新视角和新时间合成。
- Motivation: 现有方法要么重建速度慢,要么无法生成新时间表示。需要解决从无标定稀疏视角视频快速重建动态3D人体的问题。
- Method: 将4D重建和插值问题简化为流式3D高斯重建和稠密运动预测的联合任务。使用可学习状态令牌保持时间一致性,设计运动预测模块预测相邻帧间的稠密运动,并通过遮挡感知高斯融合过程插值任意时间戳的3D高斯。
- Result: 在领域内和领域外数据集上的广泛实验证明了模型的有效性。
- Conclusion: Forge4D能够高效地从无标定稀疏视角视频重建动态3D人体,支持新视角和新时间合成,解决了现有方法的局限性。
[222] Scalable Audio-Visual Masked Autoencoders for Efficient Affective Video Facial Analysis
Xuecheng Wu,Junxiao Xue,Xinyi Yin,Yunyun Shi,Liangyu Fu,Danlei Huang,Yifan Wang,Jia Zhang,Jiayu Nie,Jun Wang
Main category: cs.CV
TL;DR: 提出了AVF-MAE++,一个音频-视觉MAE模型家族,用于研究情感视频面部分析中的缩放特性并增强跨模态相关性建模,在17个数据集上达到最先进性能。
- Motivation: 情感视频面部分析领域数据有限,且缩放特性对多模态学习的影响尚未充分探索,同时需要更好地捕捉模态内和模态间相关性。
- Method: 采用双掩码策略,增强模态编码器设计,引入迭代音频-视觉相关性学习模块,以及渐进式语义注入策略,将训练分为三个阶段。
- Result: 在17个数据集上进行的广泛实验表明,AVF-MAE++在三个主要AVFA任务中实现了持续的最先进性能。
- Conclusion: 该框架成功解决了AVFA中的缩放和相关性建模挑战,每个组件都对性能提升有重要贡献,代码和模型已公开。
[223] EVLF-FM: Explainable Vision Language Foundation Model for Medicine
Yang Bai,Haoran Cheng,Yang Zhou,Jun Zhou,Arun Thirunavukarasu,Yuhe Ke,Jie Yao,Kanae Fukutsu,Chrystie Wan Ning Quek,Ashley Hong,Laura Gutierrez,Zhen Ling Teo,Darren Shu Jeng Ting,Brian T. Soetikno,Christopher S. Nielsen,Tobias Elze,Zengxiang Li,Linh Le Dinh,Hiok Hong Chan,Victor Koh,Marcus Tan,Kelvin Z. Li,Leonard Yip,Ching Yu Cheng,Yih Chung Tham,Gavin Siew Wei Tan,Leopold Schmetterer,Marcus Ang,Rahat Hussain,Jod Mehta,Tin Aung,Lionel Tim-Ee Cheng,Tran Nguyen Tuan Anh,Chee Leong Cheng,Tien Yin Wong,Nan Liu,Iain Beehuat Tan,Soon Thye Lim,Eyal Klang,Tony Kiat Hon Lim,Rick Siow Mong Goh,Yong Liu,Daniel Shu Wei Ting
Main category: cs.CV
TL;DR: EVLF-FM是一个多模态视觉语言基础模型,旨在统一广泛的诊断能力与细粒度可解释性,在11种成像模态的23个数据集上开发,并在外部验证中表现出强大的零样本和少样本性能。
- Motivation: 当前医学AI基础模型存在模态特定、缺乏透明推理过程的问题,阻碍了临床采用。需要开发具有可解释性和推理能力的多疾病模型。
- Method: 采用混合训练策略,结合监督学习和视觉强化微调,开发具有像素级视觉定位和推理能力的多模态视觉语言基础模型。
- Result: 在内部验证中,EVLF-FM在疾病诊断方面达到最高平均准确率(0.858)和F1分数(0.797);在医学视觉定位中,在9种模态上平均mIOU为0.743,Acc@0.5为0.837。
- Conclusion: EVLF-FM是早期具有可解释性和推理能力的多疾病VLM模型,可促进基础模型在真实世界临床部署中的采用和信任。
[224] FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation
Seungwook Kim,Seunghyeon Lee,Minsu Cho
Main category: cs.CV
TL;DR: 提出了两种无需训练的推理时技术,通过充分利用显式动作参数来改进基于扩散的机器人视频生成,包括动作缩放的无分类器引导和动作缩放的噪声截断。
- Motivation: 从显式动作轨迹生成逼真的机器人视频对于构建有效的世界模型和机器人基础模型至关重要,但现有方法往往将动作向量作为被动条件信号处理。
- Method: 1. 动作缩放的无分类器引导:根据动作幅度动态调节引导强度;2. 动作缩放的噪声截断:调整初始采样噪声分布以更好地对齐期望的运动动态。
- Result: 在真实机器人操作数据集上的实验表明,这些技术显著提高了不同机器人环境中的动作连贯性和视觉质量。
- Conclusion: 通过主动利用动作参数来引导扩散过程,可以有效提升机器人视频生成的动作控制能力和生成质量。
[225] Latent Visual Reasoning
Bangzheng Li,Ximeng Sun,Jiang Liu,Ze Wang,Jialian Wu,Xiaodong Yu,Hao Chen,Emad Barsoum,Muhao Chen,Zicheng Liu
Main category: cs.CV
TL;DR: 提出了Latent Visual Reasoning (LVR)新范式,直接在视觉嵌入空间进行自回归推理,显著提升视觉问答任务的性能
- Motivation: 现有方法将推理局限于语言空间,视觉信息被当作静态前提条件,存在根本性限制
- Method: 使用视觉编码器将图像投影到与语言模型共享的联合语义空间中的视觉标记,训练语言模型生成能重构关键视觉标记的潜在状态,结合GRPO算法进行强化学习
- Result: 在MMVP上达到71.67%,相比Qwen2.5-VL的66.67%有显著提升,增强了细粒度视觉理解和感知能力
- Conclusion: LVR通过直接在视觉嵌入空间进行推理,大幅改善了视觉理解性能,为多模态推理提供了新方向
[226] When MLLMs Meet Compression Distortion: A Coding Paradigm Tailored to MLLMs
Jinming Liu,Zhaoyang Jia,Jiahao Li,Bin Li,Xin Jin,Wenjun Zeng,Yan Lu
Main category: cs.CV
TL;DR: 提出了一种专为多模态大语言模型(MLLMs)设计的图像编解码器CoTAM,通过自适应保护多级特征来适应下游任务需求,相比传统编解码器可节省35.99%码率。
- Motivation: 传统图像编解码器主要针对人类视觉系统优化,不适用于MLLMs的多任务需求,需要专门为MLLMs设计压缩方法以减少边缘设备传输带宽。
- Method: 基于压缩失真对不同层级特征影响不均的发现,提出CoTAM编解码器:编码器利用CLIP浅层注意力生成重要性图进行比特分配;解码器集成轻量级适配器和多级损失函数,确保低层细节和高层语义的忠实重建。
- Result: 实验验证该方法在保持MLLM任务性能的同时,相比现有最优神经编解码器可节省高达35.99%的码率。
- Conclusion: CoTAM通过自适应保护多级特征,有效解决了MLLMs的压缩需求,在码率节省和任务性能之间取得了良好平衡。
[227] S NN: Sub-bit Spiking Neural Networks
Wenjie Wei,Malu Zhang,Jieyuan Zhang,Ammar Belatreche,Shuai Wang,Yimeng Shan,Hanwen Liu,Honglin Cao,Guoqing Wang,Yang Yang,Haizhou Li
Main category: cs.CV
TL;DR: 提出亚比特脉冲神经网络(S²NN),通过小于1比特的权重表示进一步压缩和加速SNN,解决了二进制SNN的存储和计算需求问题。
- Motivation: 脉冲神经网络虽然能效高,但大规模部署时存储和计算需求仍然很大。现有二进制SNN仍有压缩空间,需要探索更高效的权重表示方法。
- Method: 1. 利用训练好的二进制SNN中核的聚类模式建立S²NN基线;2. 提出异常值感知的亚比特权重量化(OS-Quant)方法,通过识别和自适应缩放异常值来优化码字选择;3. 提出基于膜电位的特征蒸馏(MPFD)方法,通过教师模型提供更精确的指导。
- Result: 在视觉和非视觉任务上的广泛实验表明,S²NN在性能和效率上都优于现有的量化SNN,适用于边缘计算应用。
- Conclusion: S²NN通过亚比特权重表示成功实现了SNN的进一步压缩和加速,在保持性能的同时显著提升了效率,为边缘计算提供了有前景的解决方案。
[228] Cycle Diffusion Model for Counterfactual Image Generation
Fangrui Huang,Alan Wang,Binxu Li,Bailey Trang,Ridvan Yesiloglu,Tianyu Hua,Wei Peng,Ehsan Adeli
Main category: cs.CV
TL;DR: 提出Cycle Diffusion Model (CDM),通过循环训练框架改进扩散模型,提高医学图像合成的条件忠实度和图像质量
- Motivation: 确保医学图像合成中的条件忠实度和高质量合成图像仍然是一个挑战,特别是在直接或反事实生成方面
- Method: 引入循环训练框架,通过循环约束强制生成图像与原始图像之间的一致性,改进扩散模型的微调
- Result: 在3D脑部MRI数据集上的实验表明,该方法提高了条件准确性和图像质量(FID和SSIM指标)
- Conclusion: CDM中的循环策略是改进基于扩散的医学图像生成的有效方法,适用于数据增强、反事实和疾病进展建模
[229] Skeleton-based Robust Registration Framework for Corrupted 3D Point Clouds
Yongqiang Wang,Weigang Li,Wenping Liu,Zhiqiang Tian,Jinling Li
Main category: cs.CV
TL;DR: 提出了一种基于骨架的鲁棒点云配准框架SRRF,通过引入抗干扰的骨架表示来提升配准的鲁棒性和准确性,在多种噪声场景下优于现有方法。
- Motivation: 现实世界点云常受传感器限制、环境噪声和预处理误差影响,导致密度失真、噪声污染和几何变形,现有配准方法对此敏感且配准精度下降。
- Method: 集成骨架结构到配准过程,结合点云对齐和骨架对齐的变换结果;设计了分布距离损失函数来强制源骨架和目标骨架的一致性。
- Result: 在多种噪声数据集上的实验评估表明,SRRF在各种噪声场景下(包括密度失真、噪声污染和几何变形)都优于最先进的配准方法。
- Conclusion: SRRF在处理噪声点云方面具有鲁棒性,是真实世界3D感知任务的潜在方法,同时考虑局部几何特征和骨架结构的全局稳定性。
[230] Robust Partial 3D Point Cloud Registration via Confidence Estimation under Global Context
Yongqiang Wang,Weigang Li,Wenping Liu,Zhe Xu,Zhiqiang Tian
Main category: cs.CV
TL;DR: 提出了CEGC框架,通过联合建模重叠置信度和对应关系可靠性来解决部分点云配准问题,在复杂场景中实现准确对齐。
- Motivation: 部分点云配准在自主感知和3D场景理解中至关重要,但由于结构模糊性、部分可见性和噪声等因素,仍然具有挑战性。
- Method: CEGC框架包含混合重叠置信度估计模块(集成语义描述符和几何相似性)和上下文感知匹配策略(使用全局注意力分配软置信度分数),指导可微分加权SVD求解器计算精确变换。
- Result: 在ModelNet40、ScanObjectNN和7Scenes等3D视觉数据集上的实验表明,CEGC在准确性、鲁棒性和泛化能力方面优于最先进方法。
- Conclusion: CEGC为具有挑战性条件下的部分点云配准提供了一个可解释且可扩展的解决方案。
[231] ASIA: Adaptive 3D Segmentation using Few Image Annotations
Sai Raj Kishore Perla,Aditya Vora,Sauradip Nag,Ali Mahdavi-Amiri,Hao Zhang
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[232] SVGThinker: Instruction-Aligned and Reasoning-Driven Text-to-SVG Generation
Hanqi Chen,Zhongyin Zhao,Ye Chen,Zhujin Liang,Bingbing Ni
Main category: cs.CV
TL;DR: SVGThinker是一个基于推理的文本到SVG生成框架,通过链式思维和多模态标注提升SVG代码生成的质量和稳定性,支持完整的SVG图元集。
- Motivation: 解决现有文本到SVG生成方法存在的泛化能力弱和指令遵循性差的问题,利用大语言模型提升SVG代码生成质量。
- Method: 采用推理驱动框架,通过多模态模型顺序渲染和标注SVG图元,构建逐步更新的训练数据,使用监督微调训练LLM并暴露中间推理过程。
- Result: 相比现有方法,SVGThinker生成更稳定、可编辑且高质量的SVG,保持矢量图形的结构优势,支持精确和分层编辑。
- Conclusion: 该方法为设计、内容创作和自动化图形生成开辟了新方向,相比基于图像的方法具有更好的可编辑性。
[233] FrameThinker: Learning to Think with Long Videos via Multi-Turn Frame Spotlighting
Zefeng He,Xiaoye Qu,Yafu Li,Siyuan Huang,Daizong Liu,Yu Cheng
Main category: cs.CV
TL;DR: FrameThinker是一个用于长视频推理的新框架,通过迭代式查询视频内容和两阶段训练策略,在显著减少处理帧数的同时大幅提升推理性能。
- Motivation: 现有大型视觉语言模型在长视频理解中存在均匀帧采样和静态文本推理的局限性,导致效率低下且难以处理视觉密集型视频任务。
- Method: 提出FrameThinker框架,采用两阶段训练:监督微调阶段培养基础动作能力,强化学习阶段优化策略决策策略,并对每个动作和格式奖励进行深入设计。
- Result: 在多个推理基准测试中,FrameThinker相比基线平均提升10.4%,同时大幅减少处理帧数。7B模型在LongVideo-Reason上达到76.1%准确率,仅使用20.6帧,优于LongVILA-R1且帧数减少20倍以上。
- Conclusion: FrameThinker通过迭代式视频推理框架和精心设计的训练策略,在长视频理解任务中实现了效率与性能的显著提升,为LVLMs在长视频推理领域树立了新标杆。
[234] OMeGa: Joint Optimization of Explicit Meshes and Gaussian Splats for Robust Scene-Level Surface Reconstruction
Yuhang Cao,Haojun Yan,Danya Yao
Main category: cs.CV
TL;DR: OMeGa是一个端到端框架,联合优化显式三角网格和2D高斯溅射,通过网格约束和法线监督解决室内无纹理区域重建问题,在室内重建基准上达到最先进性能。
- Motivation: 现有方法存在两个局限:(i) 在无纹理室内区域几何重建不准确;(ii) 网格提取与优化分离,无法利用网格几何指导溅射优化。
- Method: 提出OMeGa框架,通过灵活的绑定策略联合优化三角网格和2D高斯溅射,集成网格约束和单目法线监督,并提出启发式迭代网格细化策略。
- Result: 在挑战性室内重建基准上达到最先进性能,相比2DGS基线将Chamfer-L1降低了47.3%,同时保持竞争力的新视角渲染质量。
- Conclusion: OMeGa有效解决了先前在室内无纹理重建中的局限性,证明了联合优化网格和高斯溅射的有效性。
[235] Towards Foundation Models for Cryo-ET Subtomogram Analysis
Runmin Jiang,Wanyue Feng,Yuntian Yang,Shriya Pingulkar,Hong Wang,Xi Xiao,Xiaoyu Cao,Genpei Zhang,Xiao Wang,Xiaolong Wu,Tianyang Wang,Yang Liu,Xingjian Li,Min Xu
Main category: cs.CV
TL;DR: 该论文提出了首个面向冷冻电子断层扫描(cryo-ET)子断层图分析的基础模型,通过大规模合成数据生成、自适应相位标记增强的视觉Transformer和噪声鲁棒对比学习策略,在三个主要子断层图分析任务上实现了最先进性能。
- Motivation: 冷冻电子断层扫描能够原位可视化大分子结构,但子断层图分析受到注释稀缺、严重噪声和泛化能力差的限制。为了解决这些挑战,需要开发基础模型来提升分析效果。
- Method: 1) 开发CryoEngine大规模合成数据生成器,产生904k个子断层图;2) 设计自适应相位标记增强的视觉Transformer(APT-ViT);3) 引入噪声鲁棒对比学习(NRCL)策略。
- Result: 在24个合成和真实数据集上的评估显示,该方法在三个主要子断层图分析任务上均达到最先进性能,并对未见数据集表现出强泛化能力。
- Conclusion: 该方法推进了冷冻电子断层扫描中可扩展和鲁棒的子断层图分析,为相关领域提供了有效的解决方案。
[236] Similarity-Aware Selective State-Space Modeling for Semantic Correspondence
Seungwook Kim,Minsu Cho
Main category: cs.CV
TL;DR: MambaMatcher是一种新颖的语义匹配方法,通过选择性状态空间模型高效建模高维相关性,在保持线性复杂度的同时实现最先进的性能。
- Motivation: 传统特征度量方法可能错过复杂的互相关关系,而相关度量方法由于处理4D相关图导致计算成本过高。需要一种能克服这些限制的高效方法。
- Method: 采用选择性状态空间模型,实现相似性感知的选择性扫描机制,基于Mamba的线性复杂度算法有效优化4D相关图,同时保持特征图分辨率和感受野。
- Result: 在标准语义对应基准测试中,MambaMatcher实现了最先进的性能。
- Conclusion: MambaMatcher通过高效建模高维相关性,成功克服了传统方法的局限性,在语义对应任务中表现出色。
[237] TP-MVCC: Tri-plane Multi-view Fusion Model for Silkie Chicken Counting
Sirui Chen,Yuhong Feng,Yifeng Wang,Jianghai Liao,Qi Zhang
Main category: cs.CV
TL;DR: 提出TP-MVCC模型,通过三平面融合和多视角特征集成,解决密集场景下动物计数问题,在真实农场条件下达到95.1%的准确率。
- Motivation: 密集场景下的动物计数因遮挡和有限视角而困难,需要开发多视角融合方法提高智能农业中的计数准确性。
- Method: 使用三平面融合框架,提取单视角特征,通过几何投影对齐到统一地面平面,解码场景级密度图进行精确计数。
- Result: 在真实农场条件下构建首个多视角丝羽鸡数据集,TP-MVCC显著优于单视角和传统融合方法,在密集遮挡场景中表现鲁棒。
- Conclusion: TP-MVCC展示了在智能农业中处理密集遮挡动物计数问题的实际潜力,为多视角融合计数提供了有效解决方案。
[238] Hyperspherical Latents Improve Continuous-Token Autoregressive Generation
Guolin Ke,Hui Xue
Main category: cs.CV
TL;DR: SphereAR通过将自回归模型的输入输出约束在固定半径的超球面上,解决了VAE潜在空间中异质性方差导致的方差崩溃问题,在图像生成任务上实现了最先进的性能。
- Motivation: 连续token自回归模型在图像生成中通常落后于潜在扩散和掩码生成模型,主要原因是VAE潜在空间中的异质性方差在自回归解码过程中被放大,特别是在分类器无关引导下会导致方差崩溃。
- Method: 提出SphereAR方法,将所有自回归输入输出(包括CFG后)约束在固定半径的超球面上,利用超球面VAE。理论分析表明超球面约束移除了尺度分量(方差崩溃的主要原因),从而稳定自回归解码。
- Result: 在ImageNet生成任务上,SphereAR-H(943M参数)实现了FID 1.34的新SOTA;较小的SphereAR-L(479M)达到FID 1.54,SphereAR-B(208M)达到1.92,均优于或匹配更大的基线模型。
- Conclusion: 这是首次纯next-token自回归图像生成器在可比较参数规模下超越扩散和掩码生成模型,证明了超球面约束在稳定自回归解码中的有效性。
[239] Dynamic Orchestration of Multi-Agent System for Real-World Multi-Image Agricultural VQA
Yan Ke,Xin Yu,Heming Du,Scott Chapman,Helen Huang
Main category: cs.CV
TL;DR: 提出了一种自反思、自改进的多智能体框架,用于解决农业视觉问答中多图像输入和外部知识不足的问题,在AgMMU基准测试中表现出色。
- Motivation: 现有农业视觉问答方法主要针对文本查询或单图像场景,无法应对需要多图像互补视角和生长阶段信息的真实农业场景,且缺乏外部农业上下文知识更新和系统质量控制。
- Method: 构建包含四个角色的多智能体框架:检索器(检索外部信息)、反思器(评估充分性并触发重新检索)、两个并行回答器(生成候选答案以减少偏见)、改进器(迭代优化答案并确保多图像信息有效对齐)。
- Result: 在AgMMU基准测试中,该框架在多图像农业问答任务上取得了有竞争力的性能表现。
- Conclusion: 提出的自反思多智能体框架能够有效处理农业视觉问答中的多图像输入和上下文知识不足问题,通过协作机制实现了上下文增强、反思推理和迭代改进。
[240] NeRV-Diffusion: Diffuse Implicit Neural Representations for Video Synthesis
Yixuan Ren,Hanyu Wang,Hao Chen,Bo He,Abhinav Shrivastava
Main category: cs.CV
TL;DR: NeRV-Diffusion是一种隐式潜在视频扩散模型,通过生成神经网络权重来合成视频,将视频表示为统一的神经网络,实现高效高质量的视频生成。
- Motivation: 传统视频tokenizer将视频编码为逐帧特征图,而NeRV-Diffusion将视频整体压缩并生成为统一的神经网络,避免了去噪器中的时间跨帧注意力,提高了生成效率和质量。
- Method: 采用两阶段框架:1)基于超网络的tokenizer将原始视频从像素空间编码到神经参数空间;2)隐式扩散变换器对潜在INR权重进行去噪。通过重用瓶颈潜在、重新设计权重分配、上采样连接和输入坐标,实现高斯分布的INR权重。
- Result: 在UCF-101和Kinetics-600等真实世界视频基准测试中,NeRV-Diffusion达到了优于先前基于INR的模型的视频生成质量,与最近最先进的非隐式模型性能相当,并提供了平滑的INR权重空间,便于帧间或视频间的无缝插值。
- Conclusion: NeRV-Diffusion通过将视频表示为神经网络的创新方法,在视频生成任务中实现了高效、高质量的结果,并为视频插值等应用提供了便利。
[241] An Enhanced Pyramid Feature Network Based on Long-Range Dependencies for Multi-Organ Medical Image Segmentation
Dayu Tan,Cheng Kong,Yansen Su,Hai Chen,Dongliang Yang,Junfeng Xia,Chunhou Zheng
Main category: cs.CV
TL;DR: 提出了LamFormer网络用于多器官医学图像分割,通过线性注意力Mamba模块和降维Transformer来解决传统Transformer计算成本高和局部细节提取不足的问题。
- Motivation: 现有方法使用Transformer捕捉长距离依赖关系,但忽视了其高计算成本和局部细节信息提取不足的缺陷。
- Method: 设计U形网络LamFormer,使用线性注意力Mamba模块在增强金字塔编码器中捕捉多尺度长距离依赖,构建并行层次特征聚合模块整合不同层特征,并设计降维Transformer全局建模上采样特征。
- Result: 在七个复杂多样的数据集上优于现有分割方法,表现出卓越性能。
- Conclusion: 提出的网络在模型性能和模型复杂度之间实现了平衡。
[242] DRIFT: Divergent Response in Filtered Transformations for Robust Adversarial Defense
Amira Guesmi,Muhammad Shafique
Main category: cs.CV
TL;DR: DRIFT通过训练随机滤波器集成来主动破坏梯度共识,从而增强对抗鲁棒性,在ImageNet上显著优于现有防御方法。
- Motivation: 深度神经网络对对抗样本高度脆弱,现有防御在梯度可估计时容易失效。作者发现梯度共识是导致对抗可迁移性的关键因素。
- Method: 提出DRIFT防御方法,通过训练轻量级可学习滤波器集成,最大化Jacobian空间和logit空间的响应差异,同时保持自然预测准确性。
- Result: 在ImageNet上,DRIFT在CNN和Vision Transformer上均取得显著鲁棒性提升,优于最先进的预处理、对抗训练和基于扩散的防御方法。
- Conclusion: 梯度分歧是实用且可泛化的对抗防御原则,DRIFT以可忽略的运行时间和内存成本实现了这些改进。
[243] UI-UG: A Unified MLLM for UI Understanding and Generation
Hao Yang,Weijie Qiu,Ru Zhang,Zhou Fang,Ruichao Mao,Xiaoyu Lin,Maji Huang,Zhaosong Huang,Teng Guo,Shuoyang Liu,Hai Rao
Main category: cs.CV
TL;DR: UI-UG是一个统一的多模态大语言模型,集成了UI理解和生成能力,在特定领域任务中达到最先进性能。
- Motivation: 现有的多模态大语言模型在用户界面(UI)等特定领域任务中面临理解准确性和生成质量的挑战。
- Method: 采用监督微调(SFT)结合组相对策略优化(GRPO)增强理解能力,使用直接偏好优化(DPO)提升生成质量,并提出包含领域特定语言(DSL)设计的工业有效工作流程。
- Result: 在理解任务上达到最先进性能,超越更大的通用模型和类似规模的UI专用模型;在生成任务上与更大模型性能相当但计算成本大幅降低。
- Conclusion: 集成理解和生成任务可以相互提升准确性和质量,证明了统一方法的有效性。
[244] Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models
Jitai Hao,Hao Liu,Xinyan Xiao,Qiang Huang,Jun Yu
Main category: cs.CV
TL;DR: Uni-X提出了一种两端分离、中间共享的X形架构,解决了统一多模态模型中视觉和文本之间的梯度冲突问题,在保持参数效率的同时实现了优越的训练效率和性能。
- Motivation: 现有的基于自回归变换器的统一多模态模型存在严重的梯度冲突问题,特别是在浅层和深层,这源于图像和文本在低层统计特性上的根本差异。
- Method: Uni-X采用X形设计:初始和最终层专用于模态特定处理,中间层保持共享参数用于高层语义融合,从而消除两端的梯度冲突并缓解共享层中的残余冲突。
- Result: 在相同训练条件下,Uni-X实现了优越的训练效率。扩展到3B参数时,其性能匹配或超越7B参数的自回归统一多模态模型,在图像生成、文本和视觉理解任务上表现强劲。
- Conclusion: Uni-X为未来统一多模态建模提供了一个参数高效且可扩展的基础架构,有效解决了多模态训练中的梯度冲突问题。
[245] Real-Aware Residual Model Merging for Deepfake Detection
Jinhee Park,Guisik Kim,Choongsang Cho,Junseok Kwon
Main category: cs.CV
TL;DR: 提出R²M框架,通过模型融合解决深度伪造检测问题,无需重新训练即可适应新伪造方法
- Motivation: 深度伪造生成器快速进化,使得数据收集和重复训练变得不切实际。模型融合天然适合深度伪造检测,因为各专家模型共享相同的二元决策,仅在生成器特定伪影上有所不同
- Method: 提出Real-aware Residual Model Merging (R²M):通过低秩分解估计共享的Real组件,将每个专家分解为Real对齐部分和Fake残差,用层级秩截断对残差去噪,并通过每任务范数匹配聚合以防止单一生成器主导
- Result: 在分布内、跨数据集和未见数据集上,R²M优于联合训练和其他融合基线。R²M具有可组合性,当新伪造家族出现时,只需微调一个专家并重新融合,无需重新训练
- Conclusion: R²M提供了一种高效且可扩展的深度伪造检测解决方案,通过模型融合适应快速演变的伪造技术,同时保持检测性能
[246] From Satellite to Street: A Hybrid Framework Integrating Stable Diffusion and PanoGAN for Consistent Cross-View Synthesis
Khawlah Bajbaa,Abbas Anwar,Muhammad Saqib,Hafeez Anwar,Nabin Sharma,Muhammad Usman
Main category: cs.CV
TL;DR: 提出了一种结合扩散模型和条件生成对抗网络的混合框架,用于从卫星图像生成地理一致的街景图像,在CVUSA数据集上表现优于纯扩散方法,并与最先进的GAN方法竞争。
- Motivation: 街景图像是地理空间数据收集和城市分析的重要来源,但从卫星图像合成街景图像存在显著挑战,因为两个域在外观和视角上存在巨大差异。
- Method: 使用多阶段训练策略,将Stable Diffusion作为双分支架构的核心组件,集成条件GAN生成地理一致的街景全景图,并实施融合策略结合两种模型的优势。
- Result: 在CVUSA数据集上的实验结果表明,该混合方法在多个评估指标上优于纯扩散方法,与最先进的GAN方法竞争,成功生成真实且几何一致的街景图像。
- Conclusion: 该混合框架能够生成具有精细局部细节(如街道标记、次要道路和云等大气元素)的现实街景图像,同时保持几何一致性。
[247] DINOReg: Strong Point Cloud Registration with Vision Foundation Model
Congjia Chen,Yufu Qu
Main category: cs.CV
TL;DR: DINOReg是一个利用视觉和几何信息的点云配准网络,通过DINOv2提取图像特征并与几何特征在patch级别融合,在RGBD-3DMatch和RGBD-3DLoMatch数据集上显著优于现有方法。
- Motivation: 现有方法主要依赖几何信息,虽然一些研究引入了颜色信息,但未能充分利用图像中的丰富纹理和语义信息,且特征融合存在信息损失。
- Method: 使用DINOv2提取图像视觉特征,在patch级别融合视觉和几何特征,提出混合位置编码同时编码图像空间和点云空间的位置信息。
- Result: 在RGBD-3DMatch和RGBD-3DLoMatch数据集上,patch内点率提升14.2%,配准召回率提升15.7%,显著优于现有的几何方法和多模态方法。
- Conclusion: DINOReg通过充分利用视觉和几何信息,在点云配准任务中取得了显著性能提升,证明了视觉基础模型在3D计算机视觉任务中的有效性。
[248] Mask Clustering-based Annotation Engine for Large-Scale Submeter Land Cover Mapping
Hao Chen,Fang Xu,Tamer Saleh,Weifeng Hao,Gui-Song Xia
Main category: cs.CV
TL;DR: 提出了MCAE(掩码聚类标注引擎),利用空间自相关原理,将语义一致的掩码组作为最小标注单元,显著提高亚米级遥感图像标注效率1-2个数量级,并构建了包含约140亿标注像素的HiCity-LC数据集。
- Motivation: 亚米级遥感图像缺乏足够高质量标注数据集,现有标注方法不可靠或成本过高,限制了其在大规模土地覆盖制图中的应用潜力。
- Method: 基于空间自相关原理,将语义一致的掩码组作为最小标注单元,实现多个实例的同时高效标注。
- Result: 标注效率提高1-2个数量级,构建了HiCity-LC数据集,支持五个中国主要城市生成精度超过85%的城市级土地覆盖图。
- Conclusion: MCAE展示了在大规模亚米级制图中的可扩展性和实用性,HiCity-LC是首个公开可用的亚米级城市级土地覆盖基准数据集。
[249] REALIGN: Regularized Procedure Alignment with Matching Video Embeddings via Partial Gromov-Wasserstein Optimal Transport
Soumyadeep Chandra,Kaushik Roy
Main category: cs.CV
TL;DR: REALIGN是一个基于正则化融合部分Gromov-Wasserstein最优传输的自监督程序学习框架,能够处理教学视频中的背景片段、重复动作和非单调步骤顺序问题。
- Motivation: 真实世界教学数据包含背景片段、重复动作和乱序步骤,这违反了传统对齐方法的强单调性假设。现有方法如OPEL仅依赖特征相似性,无法捕捉任务的高阶时间结构。
- Method: 提出R-FPGWOT(正则化融合部分Gromov-Wasserstein最优传输),联合建模视觉对应关系和时间关系,采用部分对齐方案处理无关帧和重复动作。结合序列间对比学习稳定训练。
- Result: 在EgoProceL、ProceL和CrossTask基准测试中,REALIGN实现了高达18.9%的平均F1分数提升和超过30%的时间IoU增益,同时产生更可解释的传输映射。
- Conclusion: REALIGN框架能够有效处理教学视频中的复杂时间结构,在多个基准测试中显著优于现有方法,并提供了更好的可解释性。
[250] Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy
Haijier Chen,Bo Xu,Shoujian Zhang,Haoze Liu,Jiaxuan Lin,Jingrong Wang
Main category: cs.CV
TL;DR: Vid-LLM是一个基于视频的3D多模态大语言模型,无需外部3D数据输入,通过视频直接实现3D场景理解,在多个3D任务上表现优异。
- Motivation: 现有3D多模态大语言模型依赖3D数据输入,限制了可扩展性和泛化能力,需要开发不依赖外部3D数据的实用解决方案。
- Method: 使用几何先验提升场景感知,设计跨任务适配器模块对齐3D几何先验与视觉语言表示,引入度量深度模型恢复真实尺度几何信息,采用两阶段蒸馏优化策略进行微调。
- Result: 在3D问答、3D密集描述和3D视觉定位等多个基准测试中验证了方法的有效性,展示了优越的多任务能力。
- Conclusion: Vid-LLM成功实现了无需外部3D数据的3D场景理解,为实际部署提供了实用解决方案,在多个3D任务上表现出色。
[251] PCICF: A Pedestrian Crossing Identification and Classification Framework
Junyi Gu,Beatriz Cabrero-Daniel,Ali Nouri,Lydia Armini,Christian Berger
Main category: cs.CV
TL;DR: 提出了PCICF框架,用于系统识别和分类弱势道路使用者(VRU)情境,支持自动驾驶出租车(robotaxis)的运营设计域(ODD)事故分析。
- Motivation: 自动驾驶出租车在特定ODD内运营,需要可靠检测弱势道路使用者(如行人、自行车骑手)。端到端AI系统需要高质量数据来训练和评估,特别是在复杂的多行人穿越情境中。
- Method: 基于SMIRK合成数据集扩展为MoreSMIRK数据集,构建多行人穿越情境的结构化字典。使用空间填充曲线(SFCs)将多维场景特征转换为特征模式,并与MoreSMIRK中的条目匹配。
- Result: 在包含150多个手动标注行人穿越视频的PIE真实数据集上评估,PCICF能成功识别和分类复杂的行人穿越情境,即使行人群体合并或分裂时也能有效工作。
- Conclusion: PCICF框架通过计算高效的组件(如SFCs)具有在自动驾驶出租车上用于ODD检测的潜力,并提供了开源复现包。
[252] RapidMV: Leveraging Spatio-Angular Representations for Efficient and Consistent Text-to-Multi-View Synthesis
Seungwook Kim,Yichun Shi,Kejie Li,Minsu Cho,Peng Wang
Main category: cs.CV
TL;DR: RapidMV是一个快速文本到多视图生成模型,能在约5秒内生成32张多视图合成图像,通过新颖的时空角度潜在空间提高效率和视图一致性。
- Motivation: 从文本提示生成合成多视图图像是创建合成3D资产的关键桥梁,现有方法在生成速度和视图一致性方面存在不足。
- Method: 提出新颖的时空角度潜在空间,将空间外观和角度视角偏差编码到单一潜在表示中;采用多步骤训练策略进行有效训练。
- Result: RapidMV在一致性和延迟方面优于现有方法,具有竞争力的质量和文本-图像对齐效果。
- Conclusion: RapidMV实现了快速高效的多视图图像生成,为3D资产创建提供了有效的解决方案。
[253] CLQ: Cross-Layer Guided Orthogonal-based Quantization for Diffusion Transformers
Kai Liu,Shaoqiu Zhang,Linghe Kong,Yulun Zhang
Main category: cs.CV
TL;DR: CLQ是一种针对扩散变换器(DiTs)的跨层引导正交量化方法,通过交叉块校准、正交平滑和跨层参数搜索,在W4A4量化下实现几乎无损的视觉生成质量,获得3.98倍内存节省和3.95倍加速。
- Motivation: 扩散变换器(DiTs)虽然提升了视觉生成质量,但模型规模和复杂度的增加阻碍了其在边缘设备上的实际部署。后训练量化(PTQ)作为高效模型压缩技术,可以减少内存消耗和加速推理,但会带来性能下降。
- Method: CLQ包含三个关键设计:1) 交叉块校准(CBC)获取准确的校准数据;2) 正交平滑(OBS)量化通道异常值并使用块Hadamard矩阵平滑异常值;3) 跨层参数搜索(CLPS)进行参数搜索。
- Result: 在图像生成和视频生成模型上评估CLQ,成功将模型压缩到W4A4量化,视觉质量和指标仅有可忽略的下降。实现了3.98倍内存节省和3.95倍加速。
- Conclusion: CLQ方法有效解决了DiTs模型在边缘设备部署时的量化性能下降问题,在保持高质量视觉生成的同时显著提升了部署效率。
[254] A Data-Centric Perspective on the Influence of Image Data Quality in Machine Learning Models
Pei-Han Chen,Szu-Chi Chung
Main category: cs.CV
TL;DR: 本文研究了图像数据集质量评估方法,开发了一个集成CleanVision和Fastdup工具的自动化流水线,通过自动阈值选择检测问题图像,显著提升了检测性能。
- Motivation: 随着模型架构成熟,数据质量成为关键因素,但图像领域数据集质量的系统研究仍然有限。
- Method: 使用CIFAKE数据集,集成CleanVision和Fastdup工具,开发自动化阈值选择方法检测问题图像,并将检测任务形式化为二分类问题。
- Result: 自动阈值方法在单扰动下将F1分数从0.6794提升到0.9468,在双扰动下从0.7447提升到0.8557;去重策略将F1分数从0.4576提升到0.7928。
- Conclusion: 卷积神经网络对模糊和严重下采样等关键视觉特征被遮挡的退化特别敏感,提出的工作流程有效提升了数据质量评估能力。
[255] Proxy-GS: Efficient 3D Gaussian Splatting via Proxy Mesh
Yuanyuan Gao,Yuning Gong,Yifei Liu,Li Jingfeng,Zhihang Zhong,Dingwen Zhang,Yanci Zhang,Dan Xu,Xiao Sun
Main category: cs.CV
TL;DR: 提出了Proxy-GS方法,通过代理系统引入高斯遮挡感知,加速3D高斯渲染并提升渲染质量
- Motivation: 现有3D高斯渲染方法存在显著冗余,缺乏遮挡感知能力,导致渲染效率低下
- Method: 使用快速代理系统生成精确遮挡深度图,指导锚点和高斯剔除,并在训练中引导表面致密化
- Result: 在MatrixCity Streets等遮挡严重场景中,Proxy-GS比Octree-GS快2.5倍以上,渲染质量显著提升
- Conclusion: Proxy-GS通过遮挡感知有效解决了3D高斯渲染中的冗余问题,实现了速度和质量的双重提升
[256] Rethinking Unsupervised Cross-modal Flow Estimation: Learning from Decoupled Optimization and Consistency Constraint
Runmin Zhang,Jialiang Wang,Si-Yuan Cao,Zhu Yu,Junchen Yu,Guangyi Zhang,Hui-Liang Shen
Main category: cs.CV
TL;DR: DCFlow是一个新颖的无监督跨模态光流估计框架,采用解耦优化策略和跨模态一致性约束,通过协同训练模态转换网络和光流估计网络来分别解决模态差异和几何错位问题。
- Motivation: 现有方法仅从外观相似性隐式学习光流估计,无法有效处理跨模态场景中的模态差异和几何错位问题。
- Method: 提出解耦优化策略,分别训练模态转换网络和光流估计网络;使用几何感知数据合成流程和抗异常值损失实现可靠的运动监督;引入跨模态一致性约束联合优化两个网络。
- Result: DCFlow可与多种光流估计网络集成,在无监督方法中达到最先进性能。
- Conclusion: DCFlow通过解耦优化和跨模态一致性约束有效解决了跨模态光流估计问题,在无监督方法中表现优异。
[257] UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark
Ailing Zhang,Lina Lei,Dehong Kong,Zhixin Wang,Jiaqi Xu,Fenglong Song,Chun-Le Guo,Chang Liu,Fan Li,Jie Chen
Main category: cs.CV
TL;DR: 提出了UI2V-Bench基准,用于评估图像到视频生成模型在语义理解和推理能力方面的表现,填补了现有评估主要关注视频质量和时序一致性而忽视语义理解的空白。
- Motivation: 现有图像到视频生成评估基准主要关注视频质量和时序一致性,但忽视了模型对输入图像中特定主体语义理解的能力,以及生成视频是否符合物理规律和人类常识。
- Method: 设计了四个主要评估维度:空间理解、属性绑定、类别理解和推理;基于多模态大语言模型开发了两种评估方法:实例级管道用于细粒度语义理解,反馈式推理管道用于逐步因果评估。
- Result: UI2V-Bench包含约500个精心构建的文本-图像对,评估了多个开源和闭源的I2V模型,人类评估结果显示与提出的MLLM指标有很强的一致性。
- Conclusion: UI2V-Bench通过强调语义理解和推理能力,填补了I2V评估的关键空白,为该领域的未来研究和模型开发提供了稳健的框架和数据集。
[258] NeoWorld: Neural Simulation of Explorable Virtual Worlds via Progressive 3D Unfolding
Yanpeng Zhao,Shanyan Guan,Yunbo Wang,Yanhao Ge,Wei Li,Xiaokang Yang
Main category: cs.CV
TL;DR: NeoWorld是一个从单张输入图像生成交互式3D虚拟世界的深度学习框架,采用混合场景结构,在用户探索时动态渲染高真实感3D内容。
- Motivation: 受科幻小说《Simulacron-3》按需世界构建概念启发,旨在创建仅在被用户主动探索区域才渲染高真实感3D内容的虚拟世界。
- Method: 使用混合场景结构:关键前景对象完全3D建模,背景和未交互区域2D合成,结合表示学习和对象到3D技术,支持自然语言控制。
- Result: 在WorldScore基准测试中显著优于现有的2D和2.5D深度分层方法,支持灵活视角操作和物理合理的场景动画。
- Conclusion: NeoWorld通过渐进式展开的3D细节,提供了动态、沉浸式和视觉一致的探索体验,实现了高效的交互式虚拟世界生成。
[259] Beyond Isolated Facts: Synthesizing Narrative and Grounded Supervision for VideoQA
Jianxin Liang,Tan Yue,Yuxuan Wang,Yueqian Wang,Zhihan Yin,Huishuai Zhang,Dongyan Zhao
Main category: cs.CV
TL;DR: 本文提出了一种新的VideoQA训练框架,通过问题改写和问题描述两种策略合成更丰富的监督信号,替代传统的孤立问答对监督,显著提升了模型性能和泛化能力。
- Motivation: 传统VideoQA模型的监督信号通常由孤立的问答对组成,这种"事实袋"方法无法捕捉视频的叙事和因果结构,限制了模型对视频内容的深层理解。
- Method: 提出两种互补策略:问题改写(QBP)将现有问答对合成重建视频事件结构的整体叙事段落;问题描述(QBC)为每个问题生成细粒度的视觉理由,将答案基于具体相关证据。利用生成模型合成数据,在统一的下一个token预测目标下训练VideoQA模型。
- Result: 在STAR和NExT-QA数据集上的实验验证了方法的有效性:3B模型在STAR上达到72.5%(提升4.9%),7B模型在NExT-QA上达到80.8%,创下新的SOTA。QBP和QBC都显著增强了跨数据集泛化能力,QBP还加速了模型收敛速度超过2.5倍。
- Conclusion: 将数据合成从孤立事实转向叙事连贯性和基于证据的理由,能够产生更准确、高效和可泛化的训练范式。
[260] Generalist Multi-Class Anomaly Detection via Distillation to Two Heterogeneous Student Networks
Hangil Park,Yongmin Seo,Tae-Kyun Kim
Main category: cs.CV
TL;DR: 提出基于知识蒸馏的双模型集成方法,通过教师-学生架构结合编码器-解码器和编码器-编码器模型,实现工业异常检测和语义异常检测的统一框架,在多个基准测试中达到最先进性能。
- Motivation: 当前异常检测方法存在领域偏见,工业检测方法难以泛化到语义异常检测,反之亦然。现有通用异常检测方法对数据集设置敏感,性能受限。
- Method: 使用知识蒸馏的双模型集成框架:教师模型和两个学生模型(编码器-解码器模型用于工业异常检测,编码器-编码器模型用于语义异常检测),共享DINOv2预训练编码器,通过Noisy-OR目标联合学习,结合局部和语义异常分数获得最终异常得分。
- Result: 在8个公开基准测试中达到最先进性能:MVTec-AD图像级AUROC 99.7%,CIFAR-10 97.8%,在多类别和单类别设置下均优于现有通用异常检测模型,甚至超过专业模型。
- Conclusion: 该方法成功实现了跨多个异常检测领域的泛化,在工业检测和语义异常检测任务上都表现出色,证明了双模型集成框架的有效性。
[261] LaMoGen: Laban Movement-Guided Diffusion for Text-to-Motion Generation
Heechang Kim,Gwanghyun Kim,Se Young Chun
Main category: cs.CV
TL;DR: 提出了一种零样本推理时优化方法,通过将拉班动作分析的Effort和Shape组件量化方法集成到文本引导的运动生成模型中,实现可解释和富有表现力的人体运动控制。
- Motivation: 当前文本到运动合成虽然能生成高质量运动,但难以实现细粒度的表现力运动控制,主要原因是数据集缺乏运动风格多样性以及自然语言难以表达定量特征。
- Method: 使用零样本推理时优化方法,在采样步骤中更新预训练扩散模型的文本嵌入,引导运动生成模型具有所需的拉班Effort和Shape组件,无需额外运动数据。
- Result: 该方法能够成功根据目标拉班标签操纵运动属性,产生多样化的表现力运动质量,同时保持运动身份。
- Conclusion: 提出的方法实现了可解释和富有表现力的人体运动生成控制,通过拉班动作分析组件实现了细粒度的运动质量操控。
[262] Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
Shijie Lian,Changti Wu,Laurence Tianruo Yang,Hang Yuan,Bin Yu,Lei Zhang,Kai Chen
Main category: cs.CV
TL;DR: 该论文通过将欧几里得几何问题解决作为代理任务,构建了包含3万个平面和立体几何问题的Euclid30K数据集,使用GRPO方法微调多模态大语言模型,显著提升了模型在空间推理任务上的零样本性能。
- Motivation: 解决多模态大语言模型在空间智能方面的关键挑战,包括形状可视化、物体旋转、位置关系判断和数量估计等能力。
- Method: 构建Euclid30K几何问题数据集,使用Group Relative Policy Optimization (GRPO)方法微调Qwen2.5VL和RoboBrain2.0系列模型,使模型能够学习并应用欧几里得原理进行多步推理。
- Result: 在四个空间推理基准测试(Super-CLEVR、Omni3DBench、VSI-Bench和MindCube)上实现了显著的零样本性能提升,其中RoboBrain2.0-Euclid-7B在VSI-Bench上达到49.6%准确率,超越了之前的SOTA模型Spatial-MLLM。
- Conclusion: 这是首个系统研究表明以几何为中心的微调可以为视觉语言模型赋予广泛可迁移的空间技能,几何训练能够有效提升多模态大语言模型的空间推理能力。
[263] Performance-Efficiency Trade-off for Fashion Image Retrieval
Julio Hurtado,Haoran Ni,Duygu Sap,Connor Mattinson,Martin Lotz
Main category: cs.CV
TL;DR: 提出了一种选择性表示框架,通过聚类和核心集选择方法将二手服装图像数据库压缩至原始大小的10%,同时保持检索准确性。引入基于邻域同质性一致性评分的异常值移除方法,在筛选前过滤非典型样本。
- Motivation: 时尚产业是废物和排放的主要贡献者,促进二手市场发展需要大规模评估二手服装。机器学习方法在促进二手市场创建和扩展方面发挥重要作用,但需要解决二手图像检索的可扩展性问题。
- Method: 1. 探索聚类和核心集选择方法识别代表性样本;2. 引入基于邻域同质性一致性评分的有效异常值移除方法,在筛选前过滤非典型样本;3. 在三个公开数据集上评估方法。
- Result: 结果显示通过战略性修剪和选择图像的代表性向量,实现了明显的性能-效率权衡。检索系统保持接近最优的准确性,同时通过减少添加到向量数据库的图像数量大幅降低计算成本。将异常值移除方法应用于聚类技术可获得更高的检索性能。
- Conclusion: 选择性表示框架能够在不牺牲检索准确性的情况下显著缩小数据库规模,为二手服装市场的可扩展图像检索提供了有效解决方案。
[264] Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs
Yuanshuai Li,Yuping Yan,Junfeng Tang,Yunxuan Li,Zeqi Zheng,Yaochu Jin
Main category: cs.CV
TL;DR: 提出了语义课程偏好优化(SCPO)框架,通过渐进式课程学习、动态参考模型和双向目标来缓解多模态大语言模型的视觉幻觉问题,在多个基准测试中显著降低幻觉率。
- Motivation: 多模态大语言模型存在严重的视觉幻觉问题,即生成响应与视觉证据相矛盾。现有的直接偏好优化方法难以捕捉细粒度语义差异,容易导致捷径学习。
- Method: 构建语义课程偏好对数据集,按难度排序提供细粒度语义对比;采用动态参考模型和新颖的对称双向目标,同时从文本和视觉偏好中学习;实现语义、对称性和课程学习的统一。
- Result: 在LLaVA模型的各种规模和版本上验证,SCPO在多个幻觉基准测试中表现优异,幻觉率降低高达62.9%;在通用基准测试中保持事实性并保留通用能力。
- Conclusion: SCPO是首个统一语义、对称性和课程学习的MLLM对齐框架,能有效缓解视觉幻觉问题,同时保持模型的通用能力。
[265] Robust Multimodal Semantic Segmentation with Balanced Modality Contributions
Jiaqi Tan,Xu Zheng,Fangyu Li,Yang Liu
Main category: cs.CV
TL;DR: 提出了EQUISeg多模态分割框架,通过均衡的模态编码来解决模态不平衡问题,提升模型在模态退化情况下的鲁棒性。
- Motivation: 现有多模态语义分割方法存在模态依赖不平衡问题,当主导模态在真实场景中退化时,整体性能会显著下降。
- Method: 基于四阶段跨模态Transformer块(CMTB)构建EQUISeg框架,实现高效多模态融合和分层选择;设计自引导模块(SGM)通过互引导机制自适应调整各模态贡献。
- Result: 在多个数据集上的广泛实验表明,EQUISeg实现了显著的性能提升,有效缓解了分割任务中模态不平衡的不利影响。
- Conclusion: EQUISeg通过均衡模态编码和自引导机制,成功解决了多模态分割中的模态不平衡挑战,提升了模型在实际场景中的鲁棒性。
[266] Instruction Guided Multi Object Image Editing with Quantity and Layout Consistency
Jiaqi Tan,Fangyu Li,Yang Liu
Main category: cs.CV
TL;DR: QL-Adapter是一个用于多目标图像编辑的框架,通过图像-布局融合模块和跨模态增强模块解决复杂场景中目标数量和空间布局的编辑挑战。
- Motivation: 标准CLIP文本编码器在复杂多目标场景中难以准确执行图像编辑指令,特别是在保持目标数量和空间布局一致性方面存在困难。
- Method: QL-Adapter包含两个核心模块:ILFM将布局先验与CLIP图像编码器的ViT补丁令牌融合以增强空间结构理解;CMAM将图像特征注入文本分支以丰富文本嵌入并改善指令跟随。
- Result: 在构建的QL-Dataset基准测试中,QL-Adapter在数量与布局一致性图像编辑任务上达到了最先进的性能,显著优于现有模型。
- Conclusion: QL-Adapter通过融合布局先验和跨模态特征增强,有效解决了复杂多目标场景中的图像编辑问题,为指令驱动的图像编辑提供了新的解决方案。
[267] CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models
Zheyuan Hu,Chieh-Hsin Lai,Yuki Mitsufuji,Stefano Ermon
Main category: cs.CV
TL;DR: 提出Consistency Mid-Training (CMT)方法,在扩散预训练和流映射训练之间插入轻量级中间阶段,实现稳定高效的少步生成。
- Motivation: 现有流映射模型训练不稳定、对超参数敏感且成本高,即使从预训练扩散模型初始化仍存在不稳定性问题。
- Method: 在预训练和最终流映射训练之间插入中间训练阶段,训练模型将求解器轨迹上的点直接映射到干净样本,获得轨迹一致且稳定的初始化。
- Result: 在多个数据集上达到SOTA性能:CIFAR-10两步FID 1.97,ImageNet 64x64两步FID 1.32,ImageNet 512x512两步FID 1.84,训练数据和使用GPU时间减少98%。
- Conclusion: CMT为训练流映射模型提供了一个原则性、高效且通用的框架,显著提高训练效率和稳定性。
[268] CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D
Mohamad Amin Mirzaei,Pantea Amoie,Ali Ekhterachian,Matin Mirzababaei
Main category: cs.CV
TL;DR: 提出了一种改进的零样本开放词汇3D语义映射方法,通过使用SemanticSAM进行渐进式粒度细化生成更准确的对象级掩码,并采用上下文感知的CLIP编码策略,显著提升了3D场景理解性能。
- Motivation: 现有方法使用原始掩码直接投影到3D空间,导致掩码碎片化和语义分配不准确,限制了在复杂环境中的有效性。
- Method: 1) 使用SemanticSAM进行渐进式粒度细化,生成更准确和更多的对象级掩码;2) 采用上下文感知的CLIP编码策略,集成多个上下文视图并使用经验确定的权重。
- Result: 在多个基准数据集上的实验结果显示,该方法在3D语义分割和基于语言查询的对象检索任务上显著优于现有方法。
- Conclusion: 该方法通过改进掩码生成和语义编码策略,有效提升了零样本开放词汇3D语义映射的性能,为具身AI和机器人提供了更可靠的感知能力。
[269] Diffusion Bridge or Flow Matching? A Unifying Framework and Comparative Analysis
Kaizhen Zhu,Mokai Pan,Zhechuan Yu,Jingya Wang,Jingyi Yu,Ye Shi
Main category: cs.CV
TL;DR: 本文首次对Diffusion Bridge和Flow Matching两种模型进行了统一的理论和实验验证,证明了Diffusion Bridge具有更低的成本函数和更稳定的轨迹,而Flow Matching在小数据量下效果会下降。
- Motivation: 目前对于Diffusion Bridge和Flow Matching哪种方法更优存在困惑,两种模型在建模假设和实际实现上的显著差异阻碍了对它们相对优点的统一理论解释。
- Method: 从随机最优控制角度重新构建两种模型框架,证明Diffusion Bridge的成本函数更低;从最优传输角度分析Flow Matching的插值系数问题;提出基于潜在Transformer的Diffusion Bridge新架构,并使用相同结构的Flow Matching模型进行公平比较。
- Result: 在图像修复、超分辨率、去模糊、去噪、转换和风格迁移等任务上的综合实验表明,Diffusion Bridge在不同分布差异和数据量下表现更稳定,实验结果与理论预测完全一致。
- Conclusion: Diffusion Bridge在稳定性和轨迹自然性方面优于Flow Matching,特别是在小数据量场景下;研究为两种模型的优缺点提供了清晰界定。
[270] Foggy Crowd Counting: Combining Physical Priors and KAN-Graph
Yuhao Wang,Zhuoran Zheng,Han Hu,Dianjie Lu,Guijuan Zhang,Chen Lyu
Main category: cs.CV
TL;DR: 提出一种结合大气散射物理先验的雾天人群计数方法,通过物理机制与数据驱动的协同优化,解决雾天环境下的远距离目标模糊、局部特征退化和图像对比度衰减等挑战。
- Motivation: 针对雾天环境中人群计数的关键挑战,包括远距离目标模糊、局部特征退化和图像对比度衰减等问题,需要开发能够适应复杂气象条件的准确计数方法。
- Method: 1. 引入可微分大气散射模型,采用透射率动态估计和散射参数自适应校准技术;2. 基于Kolmogorov-Arnold表示定理设计MSA-KAN,构建可学习边缘激活函数;3. 提出天气感知GCN,利用MSA-KAN提取的深度特征动态构建空间邻接矩阵。
- Result: 在四个公共数据集上的实验表明,在浓雾场景下,该方法相比主流算法在MAE指标上实现了12.2%-27.5%的降低。
- Conclusion: 该方法通过物理机制与数据驱动的协同优化,有效提升了雾天环境下人群计数的准确性,为解决复杂气象条件下的计算机视觉任务提供了新思路。
[271] NeMo: Needle in a Montage for Video-Language Understanding
Zi-Yuan Hu,Shuo Liang,Duo Zheng,Yanyang Li,Yeyao Tao,Shijia Huang,Wei Feng,Jia Qin,Jianguang Yu,Jing Huang,Meng Fang,Yin Li,Liwei Wang
Main category: cs.CV
TL;DR: 提出了Needle in a Montage (NeMo)任务和NeMoBench基准,用于评估视频大语言模型的时序推理能力,包括长上下文回忆和时间定位。
- Motivation: 视频大语言模型的发展需要新的评估协议和基准来测试复杂的时序推理能力,受LLMs中'大海捞针'测试启发。
- Method: 开发了可扩展的自动化数据生成流水线,从13,486个时长从秒到小时的视频中自动生成31,378个问答对。
- Result: 实验证明流水线能可靠自动生成高质量评估数据,评估了20个最先进模型并提供了关键洞察。
- Conclusion: NeMoBench为视频语言理解提供了有效的评估基准,能够持续更新最新视频内容。
[272] TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models
Zhifang Zhang,Qiqi Tao,Jiaqi Lv,Na Zhao,Lei Feng,Joey Tianyi Zhou
Main category: cs.CV
TL;DR: TokenSwap是一种针对大型视觉语言模型的更隐蔽的后门攻击方法,通过破坏模型对物体关系的理解能力,而不是强制生成固定目标内容,从而提高了攻击的隐蔽性。
- Motivation: 现有的LVLM后门攻击方法使用固定的目标模式,容易被检测到,因为模型会记忆这些频繁出现的模式。需要开发更隐蔽的攻击方式。
- Method: TokenSwap在训练时将视觉触发器注入选定样本,同时交换对应文本回答中关键token的语法角色,并使用自适应token加权损失来强调交换token的学习。
- Result: 实验表明TokenSwap在多个基准测试和各种LVLM架构上实现了高攻击成功率,同时保持了优越的隐蔽性和隐匿性。
- Conclusion: TokenSwap证明了针对LVLM组合理解能力的后门攻击比固定模式攻击更隐蔽有效,揭示了LVLM安全性的新挑战。
[273] SCOPE: Semantic Conditioning for Sim2Real Category-Level Object Pose Estimation in Robotics
Peter Hönig,Stefan Thalhammer,Jean-Baptiste Weibel,Matthias Hirschmanner,Markus Vincze
Main category: cs.CV
TL;DR: SCOPE是一种基于扩散模型的类别级物体姿态估计方法,利用DINOv2特征作为连续语义先验,无需离散类别标签,在合成训练和跨类别泛化方面表现出色。
- Motivation: 在开放环境中,机器人会遇到未知物体,需要语义理解来泛化到已知类别和未知类别。现有方法依赖离散类别标签,限制了泛化能力。
- Method: 结合DINOv2特征与逼真训练数据,通过交叉注意力注入连续语义先验,使用点法线噪声模型减少Sim2Real差距。
- Result: 在合成训练的类别级物体姿态估计中相对改进31.9%,在两个实例级数据集上展示出超越已知类别的泛化能力,抓取未知类别物体的成功率高达100%。
- Conclusion: SCOPE通过连续语义先验实现了超越已知类别的泛化能力,为开放环境中的物体操作提供了有效的姿态估计解决方案。
[274] BFSM: 3D Bidirectional Face-Skull Morphable Model
Zidu Wang,Meng Xu,Miao Xu,Hengyuan Ma,Jiankuo Zhao,Xutao Li,Xiangyu Zhu,Zhen Lei
Main category: cs.CV
TL;DR: 构建了一个联合的面部-颅骨可变形模型,解决了配对数据稀缺、配准精度不足等问题,支持面部和颅骨之间的形状推断以及组织厚度变化建模。
- Motivation: 构建面部-颅骨联合模型在远程诊断、手术规划等领域有巨大潜力,但受限于配对数据稀缺、配准精度不足、临床应用探索有限,且颅面畸形患者常被忽视。
- Method: 构建包含200多个样本的数据集,提出密集射线匹配配准方法确保拓扑一致性,建立3D双向面部-颅骨可变形模型,通过共享系数空间实现形状推断并建模组织厚度变化。
- Result: 实验证实方法的鲁棒性和准确性,展示了在单图像3D面部-颅骨重建和手术规划预测等医疗应用中的潜力。
- Conclusion: BFSM模型成功解决了面部-颅骨建模的关键挑战,为医疗应用提供了有效工具,代码已开源。
[275] Comprehensive Benchmarking of YOLOv11 Architectures for Scalable and Granular Peripheral Blood Cell Detection
Mohamad Abou Ali,Mariam Abdulfattah,Baraah Al Hussein,Fadi Dornaika,Ali Cherry,Mohamad Hajj-Hassan,Lara Hamawy
Main category: cs.CV
TL;DR: 本文系统评估了YOLOv11模型在血液涂片细胞检测中的表现,创建了包含16,891张图像和298,850个标注细胞的大规模数据集,发现YOLOv11 Medium变体在计算效率和准确性之间达到最佳平衡。
- Motivation: 手动外周血涂片分析劳动密集且主观性强,深度学习提供了有前景的替代方案,但缺乏对YOLOv11等先进模型在精细PBS检测中的系统评估。
- Method: 创建大规模标注数据集,包含12种外周血细胞类别和红细胞类别;系统评估5种YOLOv11变体(从Nano到XLarge),采用两种数据分割策略(70:20:10和80:10:10),使用mAP、精确度、召回率、F1分数和计算效率等多重指标。
- Result: YOLOv11 Medium变体在8:1:1分割下达到mAP@0.5为0.934的最佳平衡;更大模型仅带来边际精度提升但计算成本显著增加;8:1:1分割在所有模型中一致优于7:2:1分割。
- Conclusion: YOLOv11,特别是Medium变体,是自动化精细PBS检测的高效框架;公开的数据集为血液学中血细胞检测和分类研究提供了宝贵资源。
[276] Biomechanical-phase based Temporal Segmentation in Sports Videos: a Demonstration on Javelin-Throw
Bikash Kumar Badatya,Vipul Baghel,Jyotirmoy Amin,Ravi Hegde
Main category: cs.CV
TL;DR: 提出了一种基于结构化最优传输的无监督框架,用于精英标枪投掷运动的分割分析,无需手动标注即可识别动作阶段转换。
- Motivation: 传统运动分析方法依赖手动标注或实验室设备,耗时昂贵且难以扩展,需要开发自动化的运动阶段分割方法。
- Method: 将结构化最优传输概念应用于注意力时空图卷积网络,实现无监督的运动阶段分割。
- Result: 在测试数据上达到71.02%的平均精度和74.61%的F1分数,显著优于现有无监督方法。
- Conclusion: 该方法能够有效实现标枪投掷运动的无监督分割,并发布了包含211个专业标枪投掷视频的新数据集。
[277] FreeRet: MLLMs as Training-Free Retrievers
Yuhan Zhu,Xiangyu Zeng,Chenting Wang,Xinhao Li,Yicheng Xu,Ziang Yan,Yi Wang,Limin Wang
Main category: cs.CV
TL;DR: FreeRet是一个即插即用框架,可将任何多模态大语言模型转换为两阶段检索器,无需额外训练即可实现强大的检索性能。
- Motivation: 多模态大语言模型虽然作为混合模态检索的基础模型很有前景,但通常需要大量后训练才能转换为对比编码器进行检索。本研究探索是否可以直接使用现成的MLLM作为检索器而无需训练。
- Method: FreeRet采用两阶段检索:首先直接从模型获取语义基础嵌入进行快速候选搜索,然后利用模型的推理能力进行精确重排序。包含三个关键技术:绕过词汇对齐层获取语义忠实嵌入、使用显式先验条件生成表示、通过中性选择框架减轻重排序中的框架效应。
- Result: 在涵盖46个数据集的MMEB和MMEB-V2基准测试中,FreeRet显著优于经过数百万对数据训练的模型。该框架具有模型无关性,可无缝扩展到不同MLLM家族和规模,保持生成能力,支持任意模态组合。
- Conclusion: 研究表明,经过精心设计的预训练MLLM无需训练即可作为强大的检索引擎,填补了其作为通用模型角色的关键空白。
[278] Can you SPLICE it together? A Human Curated Benchmark for Probing Visual Reasoning in VLMs
Mohamad Ballout,Okajevo Wilfred,Seyedalireza Yaghoubi,Nohayr Muhammad Abdelmoneim,Julius Mayer,Elia Bruni
Main category: cs.CV
TL;DR: SPLICE是一个基于COIN教学视频数据集的人类标注基准,用于评估多维度事件推理能力。该基准包含3,381个视频和11,423个事件片段,要求将打乱的事件片段重新排序成连贯序列。实验显示视觉语言模型在事件推理方面与人类存在显著差距。
- Motivation: 当前视觉语言模型在事件推理方面存在不足,需要构建专门基准来评估模型在时间、因果、空间、上下文和常识等多维度推理能力。
- Method: 从COIN教学视频数据集中筛选3,381个视频,分割成11,423个事件片段,让人类参与者和视觉语言模型分别进行事件片段排序任务,比较两者的表现差异。
- Result: 视觉语言模型的表现显著低于人类,即使使用人类标注的文本描述提升模型准确率,仍无法达到人类水平。模型在时间因果推理主导的视频上表现相对较好,但在上下文和空间推理主导的视频上表现较差。
- Conclusion: 视觉语言模型在事件推理方面仍面临重大挑战,过度依赖语言先验而非视觉理解,在复杂推理任务中与人类存在明显差距。
[279] RIFLE: Removal of Image Flicker-Banding via Latent Diffusion Enhancement
Zhu,Libo,Zhou,Zihan,Liu,Xiaoyang,Zhang,Weihang,Shi,Keyu,Fu,Yifan,Zhang,Yulun
Main category: cs.CV
TL;DR: RIFLE是一个基于扩散模型的框架,专门用于去除屏幕照片中的闪烁带纹(flicker-banding),通过先验估计器和掩码损失来提升恢复效果,并提供了模拟数据集用于训练。
- Motivation: 屏幕照片中的闪烁带纹严重影响可读性和感知质量,但该问题研究不足,需要专门的恢复方法来解决这一常见问题。
- Method: 提出RIFLE框架,包含闪烁带纹先验估计器(FPE)预测关键带纹属性并注入恢复网络,以及掩码损失(ML)专注于带纹区域监督。还开发了模拟管道在亮度域合成带纹数据。
- Result: 在真实世界数据集上,RIFLE在定量指标和视觉比较中始终优于现有图像重建基线方法,从轻微到严重带纹情况都表现优异。
- Conclusion: 这是首个研究闪烁带纹模拟和去除的工作,为后续研究在数据集构建和去除模型设计方面奠定了良好基础。
[280] Learning Object-Centric Representations Based on Slots in Real World Scenarios
Adil Kaan Akan
Main category: cs.CV
TL;DR: 该论文提出了一个框架,将预训练扩散模型适配为以对象为中心的合成方法,在保持生成能力的同时实现细粒度的对象级控制。
- Motivation: 现有扩散模型将图像整体处理并依赖文本条件,与对象级编辑需求不匹配。目标是实现离散对象组合的场景表示,支持可控的图像和视频生成。
- Method: 集成轻量级的基于槽位的条件机制到预训练模型中,使用寄存器令牌处理背景/风格,槽位条件模块处理对象。视频扩展使用不变槽注意力分离对象身份与姿态,以及基于Transformer的时间聚合器。
- Result: 在对象发现、分割、组合编辑和可控图像生成方面达到最先进结果。在无监督视频对象分割和重建方面建立新基准,支持对象移除、替换和插入等高级编辑任务。
- Conclusion: 建立了一个通用且可扩展的以对象为中心的图像和视频生成建模方法,弥合了人类基于对象的感知与机器学习之间的差距,扩展了交互式、结构化和用户驱动的生成工具的设计空间。
[281] VNODE: A Piecewise Continuous Volterra Neural Network
Siddharth Roheda,Aniruddha Bala,Rohit Chowdhury,Rohan Jaiswal
Main category: cs.CV
TL;DR: VNODE是一种结合非线性Volterra滤波和神经ODE的混合模型,用于图像分类,在减少参数的同时提升性能。
- Motivation: 受视觉皮层中离散事件处理与连续集成交替的启发,旨在开发更高效的图像分类架构。
- Method: 交替使用离散Volterra特征提取和ODE驱动的状态演化,构建分段连续的Volterra神经网络。
- Result: 在CIFAR10和Imagenet1K等基准数据集上,VNODE持续优于最先进模型,且计算复杂度更低。
- Conclusion: VNODE通过混合离散-连续处理,以更少参数实现了更好的分类性能,验证了该方法的有效性。
[282] Classifier-Centric Adaptive Framework for Open-Vocabulary Camouflaged Object Segmentation
Hanyu Zhang,Yiming Zhou,Jinxia Zhang
Main category: cs.CV
TL;DR: 提出了一种基于分类器中心的自适应框架,通过轻量级文本适配器和分层非对称初始化来增强分类组件,从而显著提升开放词汇伪装目标分割性能。
- Motivation: 开放词汇伪装目标分割对模型泛化能力要求极高,现有方法的分类组件显著影响整体分割性能。
- Method: 采用分类器中心的自适应框架,通过轻量级文本适配器和分层非对称初始化来改进分类组件。
- Result: 在OVCamo基准测试中,相比OVCoser基线,cIoU从0.443提升至0.493,cSm从0.579提升至0.658,cMAE从0.336降低至0.239。
- Conclusion: 针对性的分类增强为提升伪装目标分割性能提供了有效途径。
[283] Traumatic Brain Injury Segmentation using an Ensemble of Encoder-decoder Models
Ghanshyam Dhamat,Vaanathi Sundaresan
Main category: cs.CV
TL;DR: 该研究开发了一个基于nnUNet框架的自动化分割管道,用于在T1加权MRI扫描中检测和分割中重度创伤性脑损伤(TBI)病变,在AIMS-TBI 2025挑战赛中取得了前6名的成绩。
- Motivation: 中重度创伤性脑损伤病变在神经影像中识别和分割具有挑战性,这些病变在大小、数量和偏侧性方面存在极端异质性,影响了下游图像处理任务(如图像配准和脑区分割)的准确性。
- Method: 利用nnUNet框架内的多种架构进行初始分割,并辅以后处理策略来提升评估指标。
- Result: 在AIMS-TBI 2025挑战赛中,最终提交的准确率为0.8451,有可见病变和无可见病变图像的Dice分数分别为0.4711和0.8514,总体Dice分数为0.5973,排名前6。
- Conclusion: 开发了有效的自动化分割管道用于TBI病变分割,Python实现已公开可用。
[284] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
Junsong Chen,Yuyang Zhao,Jincheng Yu,Ruihang Chu,Junyu Chen,Shuai Yang,Xianbang Wang,Yicheng Pan,Daquan Zhou,Huan Ling,Haozhe Liu,Hongwei Yi,Hao Zhang,Muyang Li,Yukang Chen,Han Cai,Sanja Fidler,Ping Luo,Song Han,Enze Xie
Main category: cs.CV
TL;DR: SANA-Video是一个小型扩散模型,能够高效生成720x1280分辨率、分钟级时长的视频,具有快速生成速度,可在RTX 5090 GPU上部署。
- Motivation: 解决现有视频生成模型计算成本高、生成速度慢的问题,实现低成本、高质量的视频生成。
- Method: 采用线性注意力机制(Linear DiT)和恒定内存KV缓存技术,结合有效的数据过滤和训练策略。
- Result: 相比现有模型训练成本降低99%,生成速度提升16倍,在RTX 5090上生成5秒720p视频从71秒加速到29秒。
- Conclusion: SANA-Video实现了低成本、高质量的视频生成,为高效视频生成提供了可行方案。
[285] Enhancing Physical Plausibility in Video Generation by Reasoning the Implausibility
Yutong Hao,Chen Chen,Ajmal Saeed Mian,Chang Xu,Daochang Liu
Main category: cs.CV
TL;DR: 提出无需训练的框架,通过在推理时显式推理物理不合理性来提升视频生成的物理合理性,使用物理感知推理管道构建反事实提示,并提出同步解耦引导策略来抑制不合理内容。
- Motivation: 现有扩散模型依赖大规模文本-视频数据集隐式学习物理推理,成本高、难以扩展,且容易产生违反物理定律的不合理运动。
- Method: 使用轻量级物理感知推理管道构建反事实提示,提出同步解耦引导策略,包括同步方向归一化来对抗滞后抑制,以及轨迹解耦去噪来减轻累积轨迹偏差。
- Result: 在不同物理领域的实验中,该方法显著提升了物理保真度,同时保持了照片真实感,且无需额外训练。消融研究证实了物理感知推理组件和SDG的互补有效性。
- Conclusion: 建立了一种新的即插即用的物理感知视频生成范式,能够有效提升生成视频的物理合理性。
[286] IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
Yang Chen,Minghao Liu,Yufan Shen,Yunwen Li,Tianyuan Huang,Xinyu Fang,Tianyu Zheng,Wenxuan Huang,Cheng Yang,Daocheng Fu,Jianbiao Mei,Rong Wu,Licheng Wen,Xuemeng Yang,Song Mao,Qunshu Lin,Zhi Yu,Yongliang Shen,Yu Qiao,Botian Shi
Main category: cs.CV
TL;DR: 提出了IWR-Bench基准测试,用于评估大型视觉语言模型从交互视频重建网页的能力,包含113个任务,显示当前最佳模型仅得36.35%总分,功能正确性远落后于视觉保真度。
- Motivation: 现有基准主要关注静态截图到代码任务,忽略了真实网页应用中的动态交互特性,需要新的基准来评估模型处理交互式网页重建的能力。
- Method: 构建包含113个任务的IWR-Bench基准,涵盖100个真实网站、1001个动作,包含用户交互视频和静态资源,使用代理作为评判框架自动评估功能正确性和视觉保真度。
- Result: 在28个LVLM上的实验显示,最佳模型总体得分仅36.35%,功能正确性得分24.39%远低于视觉保真度64.25%,表明模型在时序动态推理和事件驱动逻辑合成方面存在严重局限。
- Conclusion: IWR-Bench为视觉语言研究建立了具有挑战性的前沿,揭示了当前模型在处理交互式网页重建时的关键限制,特别是时序推理和事件逻辑合成能力不足。
[287] Evaluation of Polarimetric Fusion for Semantic Segmentation in Aquatic Environments
Luis F. W. Batista,Tom Bourbon,Cedric Pradalier
Main category: cs.CV
TL;DR: 该论文评估了偏振成像在分割水面漂浮碎片方面的效果,发现偏振线索能提高低对比度物体的分割精度并抑制反射引起的误报,但会增加计算负担和新的误报风险。
- Motivation: 水面漂浮碎片的准确分割常受到水面反光和室外光照变化的影响,偏振成像提供了一种单传感器方法来缓解这些问题。
- Method: 在PoTATO公共数据集上对最先进的融合网络进行基准测试,并与使用传统模型的单图像基线进行比较。
- Result: 偏振线索有助于恢复低对比度物体并抑制反射引起的误报,提高了平均IoU并降低了轮廓误差,但增加了模型大小和计算负担。
- Conclusion: 通过提供可复现的诊断基准和公开代码,帮助研究人员判断偏振相机是否适合其应用,并加速相关研究。
[288] Toward a Vision-Language Foundation Model for Medical Data: Multimodal Dataset and Benchmarks for Vietnamese PET/CT Report Generation
Huu Tien Nguyen,Dac Thai Nguyen,The Minh Duc Nguyen,Trung Thanh Nguyen,Thao Nguyen Truong,Huy Hieu Pham,Johan Barthelemy,Minh Quan Tran,Thanh Tam Nguyen,Quoc Viet Hung Nguyen,Quynh Anh Chau,Hong Son Mai,Thanh Trung Nguyen,Phi Le Nguyen
Main category: cs.CV
TL;DR: 提出了一个包含156.7万对CT-PET图像和2757份越南语临床报告的多模态医学数据集,填补了PET/CT数据和越南语在医学视觉语言模型中的空白。
- Motivation: 解决现有医学视觉语言模型在多样化成像模态和多语言临床数据方面的局限性,特别是PET/CT数据和越南语等低资源语言的不足。
- Method: 构建越南语多模态医学数据集,并引入包含数据增强和专家验证测试集的训练框架,在医学报告生成和视觉问答等下游任务上对先进VLMs进行基准测试。
- Result: 实验结果表明,融入该数据集显著提升了现有VLMs的性能。
- Conclusion: 该数据集和基准测试将推动医学成像领域更鲁棒的VLMs发展,特别是在低资源语言环境,提升其在越南医疗中的临床相关性。
[289] Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm
Xue-Feng Zhu,Tianyang Xu,Yifan Pan,Jinjie Gu,Xi Li,Jiwen Lu,Xiao-Jun Wu,Josef Kittler
Main category: cs.CV
TL;DR: 提出了一种新的三模态(RGB、深度、热红外)目标跟踪任务,构建了RGBDT500数据集,并开发了RDTTrack跟踪器,通过正交投影约束融合多模态信息,显著提升了复杂场景下的跟踪性能。
- Motivation: 现有双模态跟踪方法(如RGB-D或RGB-T)在复杂场景中因输入模态有限而面临挑战,需要更多互补模态来增强鲁棒性。
- Method: 提出RDTTrack跟踪器,利用预训练的RGB跟踪模型和提示学习技术,通过正交投影约束融合热红外和深度模态,然后与RGB信号集成作为提示输入。
- Result: 实验结果表明,该方法在复杂场景下的跟踪精度和鲁棒性方面显著优于现有的双模态方法。
- Conclusion: 三模态跟踪方法通过有效融合RGB、深度和热红外的互补信息,能够显著提升复杂场景下的目标跟踪性能。
[290] ExGS: Extreme 3D Gaussian Compression with Diffusion Priors
Jiaqi Chen,Xinhao Ji,Yuanyuan Gao,Hao Li,Yuning Gong,Yifei Liu,Dan Xu,Zhihang Zhong,Dingwen Zhang,Xiao Sun
Main category: cs.CV
TL;DR: ExGS是一个新颖的前馈框架,统一了通用高斯压缩(UGC)和GaussPainter,实现了极端的3D高斯飞溅(3DGS)压缩。UGC执行无需重新优化的剪枝来大幅减少高斯基元,而GaussPainter利用扩散先验和掩码引导细化来从严重剪枝的高斯场景中恢复高质量渲染。
- Motivation: 神经场景表示(如3DGS)虽然实现了高质量的神经渲染,但其大存储和传输成本阻碍了在资源受限环境中的部署。现有压缩方法要么依赖昂贵的优化,要么采用无训练的剪枝和量化,在高压缩比下会降低渲染质量。
- Method: 提出ExGS框架,包含两个核心组件:1)UGC:执行无需重新优化的剪枝,保留基本信息;2)GaussPainter:利用扩散先验和掩码引导细化,不仅填充缺失区域还增强可见像素,采用轻量VAE和一步扩散设计实现实时恢复。
- Result: 该框架可以实现超过100倍的压缩(将典型的354.77 MB模型减少到约3.31 MB),同时保持保真度,并在挑战性条件下显著提高图像质量。
- Conclusion: 这些结果突显了扩散先验在弥合极端压缩和高质量神经渲染之间差距中的核心作用。
[291] VTPerception-R1: Enhancing Multimodal Reasoning via Explicit Visual and Textual Perceptual Grounding
Yizhuo Ding,Mingkang Chen,Zhibang Feng,Tong Xiao,Wanying Qu,Wenqi Shao,Yanwei Fu
Main category: cs.CV
TL;DR: 本文研究了多模态大语言模型中的感知策略,提出了VTPerception-R1框架,通过解耦感知与推理来提升模型在多模态任务中的推理准确性和鲁棒性。
- Motivation: 多模态大语言模型在将推理基于感知证据方面存在困难,需要系统研究不同感知策略的效果。
- Method: 提出VTPerception-R1两阶段框架:第一阶段进行感知增强微调,第二阶段应用具有视觉、文本和一致性奖励的感知感知强化学习。
- Result: 实验表明VTPerception-R1显著提高了跨多个任务的推理准确性和鲁棒性,特别是对小模型效果更明显。
- Conclusion: VTPerception-R1为基于感知的多模态推理提供了可扩展且可审计的解决方案,显式感知与文本线索结合效果最佳。
[292] SkyLink: Unifying Street-Satellite Geo-Localization via UAV-Mediated 3D Scene Alignment
Hongyang Zhang,Yinhao Liu,Zhenyu Kuang
Main category: cs.CV
TL;DR: 提出了SkyLink方法解决跨视角地理定位问题,通过数据增强、局部特征聚合和3D场景信息集成来提升在极端视角差异下的鲁棒性。
- Motivation: 现有方法通过直接特征相似性匹配学习跨视角相关性,但往往忽略了极端视角差异导致的语义退化问题。
- Method: 使用Google检索增强模块对街景图像进行数据增强;采用Patch-Aware特征聚合模块强调多局部特征聚合;集成多尺度无人机图像构建的3D场景信息作为桥梁;通过自监督和跨视角对比学习进行特征对齐。
- Result: 在University-1652数据集上的UAVM2025挑战赛中实现了25.75%的Recall@1准确率,在多样化城市场景中展现出鲁棒性和泛化能力。
- Conclusion: SkyLink方法通过创新的数据增强、特征聚合和3D场景信息集成,有效解决了跨视角地理定位中的视角差异问题,取得了显著的性能提升。
[293] LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning
Shenghao Fu,Qize Yang,Yuan-Ming Li,Xihan Wei,Xiaohua Xie,Wei-Shi Zheng
Main category: cs.CV
TL;DR: LOVE-R1通过自适应缩放机制解决长视频理解中时间线索与空间细节的冲突,采用慢-快自适应帧采样策略,在多个长视频理解基准上平均提升3.1%
- Motivation: 传统LVLMs采用均匀帧采样机制,无法同时兼顾长时间理解的时间线索和高分辨率帧的空间细节,导致次优解
- Method: 提出自适应缩放模型,先提供小分辨率密集采样帧,需要时基于推理放大感兴趣片段,通过多步推理实现。使用38k高质量CoT数据微调,并通过解耦强化微调优化内部缩放能力
- Result: 在长视频理解基准测试中,LOVE-R1相比基线Qwen2.5-VL平均提升3.1%,实现了采样密度与帧分辨率之间的良好平衡
- Conclusion: 自适应缩放机制能有效解决长视频理解中时间与空间的冲突,多步推理和解耦强化微调显著提升了模型性能
[294] Vision Function Layer in Multimodal LLMs
Cheng Shi,Yizhou Yu,Sibei Yang
Main category: cs.CV
TL;DR: 研究发现MLLMs中的视觉功能解码分布在不同的解码器层,每个视觉功能集中在2-3个特定层(VFL),且不同VFL的深度顺序在不同MLLMs中保持一致。基于此开发的VFL-LoRA和VFL-select方法能显著提升模型性能和训练效率。
- Motivation: 理解MLLMs中视觉相关功能的解码机制,探索不同解码器层在视觉处理中的具体功能分布,为优化模型训练和应用提供理论基础。
- Method: 提出视觉令牌交换(Visual Token Swapping)分析框架,通过修改特定KV缓存条目来精确揭示解码过程中各层的功能;开发VFL-LoRA(选择性训练VFL层)和VFL-select(基于VFL功能的数据自动分类)方法。
- Result: 发现不同视觉功能(如计数、定位、OCR识别)集中在特定VFL层,且功能层顺序在不同MLLMs中一致;VFL-LoRA优于全层LoRA训练并防止功能遗忘;VFL-select仅用20%数据即可达到98%的全数据性能,超越人工数据选择。
- Conclusion: 该研究深化了对MLLM视觉处理机制的理解,为开发更高效、可解释和鲁棒的模型提供了新思路,VFL相关方法在模型优化和数据选择方面展现出显著优势。
[295] Causal-Adapter: Taming Text-to-Image Diffusion for Faithful Counterfactual Generation
Lei Tong,Zhihua Liu,Chaochao Lu,Dino Oglic,Tom Diethe,Philip Teare,Sotirios A. Tsaftaris,Chen Jin
Main category: cs.CV
TL;DR: Causal-Adapter是一个模块化框架,通过适配冻结的文本到图像扩散模型来实现反事实图像生成,能够在保持图像核心身份的同时对目标属性进行因果干预。
- Motivation: 现有方法依赖提示工程而缺乏明确的因果结构,无法一致地将属性效果传播到因果依赖项,需要一种能够进行精确语义控制并减少伪相关性的方法。
- Method: 利用结构因果建模,结合两种属性正则化策略:提示对齐注入(将因果属性与文本嵌入对齐以实现精确语义控制)和条件标记对比损失(解耦属性因子并减少伪相关性)。
- Result: 在合成和真实世界数据集上达到最先进性能,在Pendulum数据集上MAE减少高达91%,在ADNI数据集上FID减少87%,实现了准确的属性控制和高保真MRI图像生成。
- Conclusion: 该方法能够实现鲁棒、可泛化的反事实编辑,具有忠实的属性修改和强大的身份保持能力。
[296] TACO-Net: Topological Signatures Triumph in 3D Object Classification
Anirban Ghosh,Ayan Dutta
Main category: cs.CV
TL;DR: 提出了一种结合拓扑数据分析和图像过滤技术的3D物体分类方法TACO-Net,在多个数据集上达到SOTA性能,并表现出对噪声和损坏的强鲁棒性。
- Motivation: 3D物体分类在实际应用中很重要,但点云数据具有无序性、不规则性和噪声等挑战,现有方法难以达到高分类精度。
- Method: 将点云转换为体素化二值3D图像,提取拓扑特征,然后使用轻量级1D CNN进行分类。
- Result: 在ModelNet40和ModelNet10上分别达到99.05%和99.52%的准确率,在真实世界OmniObject3D数据集上表现稳健,对损坏输入具有强鲁棒性。
- Conclusion: TACO-Net通过结合拓扑特征和深度学习,在3D物体分类任务上实现了新的SOTA性能,并展现出优异的鲁棒性。
[297] UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
Zeyu Cai,Ziyang Li,Xiaoben Li,Boqian Li,Zeyu Wang,Zhenyu Zhang,Yuliang Xiu
Main category: cs.CV
TL;DR: UP2You是首个无需调参的解决方案,能够从极度不受约束的野外2D照片重建高保真3D穿衣人像,支持任意姿态控制和免训练的多服装3D虚拟试穿。
- Motivation: 解决现有方法需要"干净"输入(如全身图像、最小遮挡或良好校准的跨视角捕捉)的限制,直接处理原始、非结构化的照片,这些照片在姿态、视角、裁剪和遮挡方面可能有显著差异。
- Method: 引入数据校正器范式,在单次前向传播中高效地将不受约束的输入转换为干净的正交多视角图像;核心是姿态相关特征聚合模块(PCFA),选择性融合多个参考图像信息;采用感知器基础的多参考形状预测器,无需预捕捉的身体模板。
- Result: 在4D-Dress、PuzzleIOI和野外捕捉数据集上的广泛实验表明,UP2You在几何精度(Chamfer-15%、P2S-18%)和纹理保真度(PSNR-21%、LPIPS-46%)方面均优于先前方法,效率高(1.5分钟/人)。
- Conclusion: UP2You高效(1.5分钟/人)、多功能(支持任意姿态控制和免训练的多服装3D虚拟试穿),使其在人类被随意捕捉的真实场景中具有实用性。
[298] Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models
Youngeun Kim,Youjia Zhang,Huiling Liu,Aecheon Jung,Sunwoo Lee,Sungeun Hong
Main category: cs.CV
TL;DR: 提出了一种无需训练的大视觉语言模型token剪枝框架,通过零阶扰动估计token敏感度,选择具有高影响力和互补视觉信息的token,显著提升推理效率
- Motivation: 现有token剪枝方法存在局限性:基于注意力的方法依赖不稳定的注意力分数,导致冗余选择;基于多样性的方法可能丢弃对准确预测重要的区域
- Method: 在投影层使用零阶扰动估计token敏感度,通过轻量前向传播衡量小随机扰动对投影输出的影响,无需反向传播即可近似每个token的影响力
- Result: 在多个VLM和基准测试中表现优异,能剪枝高达94.4%的token,同时保持准确性,端到端推理速度提升最高达2.30倍
- Conclusion: 该方法提供了一种高效且无需训练的token剪枝解决方案,通过敏感度估计和互补性选择,在保持性能的同时显著提升推理效率
[299] PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement
Bo Zhao,Dan Guo,Junzhe Cao,Yong Xu,Tao Tan,Yue Sun,Bochao Zou,Jie Zhang,Zitong Yu
Main category: cs.CV
TL;DR: 提出了PHASE-Net,一种基于物理学的rPPG测量方法,通过Navier-Stokes方程推导出脉搏信号遵循二阶动态系统,使用轻量级TCN架构实现高效准确的非接触式心率监测。
- Motivation: 现有的深度学习rPPG方法缺乏理论依据,在头部运动和光照变化下精度下降。需要建立理论支撑的模型来提高鲁棒性和可解释性。
- Method: 从血流动力学Navier-Stokes方程推导出脉搏信号的二阶动态系统模型,设计PHASE-Net包含三个关键组件:零FLOPs轴向交换器、自适应空间滤波器和门控TCN。
- Result: PHASE-Net在广泛实验中实现了最先进的性能,具有强大的效率,提供了理论支撑且可部署的rPPG解决方案。
- Conclusion: 基于物理学的rPPG范式为远程光电容积脉搏波测量提供了理论依据,PHASE-Net模型在精度和效率方面都表现出色,是理论指导实践的成功案例。
[300] ELPG-DTFS: Prior-Guided Adaptive Time-Frequency Graph Neural Network for EEG Depression Diagnosis
Jingru Qiu,Jiale Liang,Xuanhan Fan,Mingda Zhang,Zhenli He
Main category: cs.CV
TL;DR: ELPG-DTFS是一种基于脑电图的抑郁症诊断方法,通过通道-频带注意力、可学习邻接矩阵和残差知识图路径,在MODMA数据集上达到97.63%准确率和97.33% F1分数。
- Motivation: 现有抑郁症诊断依赖主观量表,脑电图作为低成本生物标志物,但现有深度模型将频谱视为静态图像、固定通道间图结构并忽略先验知识,限制了准确性和可解释性。
- Method: 提出先验引导的自适应时频图神经网络ELPG-DTFS,包含:(1)带跨频带互信息的通道-频带注意力;(2)动态功能连接的可学习邻接矩阵;(3)注入神经科学先验的残差知识图路径。
- Result: 在128通道MODMA数据集(53名受试者)上,ELPG-DTFS达到97.63%准确率和97.33% F1分数,超越2025年最先进的ACM-GNN。消融实验显示移除任何模块会使F1最多降低4.35。
- Conclusion: ELPG-DTFS为下一代基于脑电图的抑郁症诊断提供了一个鲁棒且可解释的框架。
[301] Vision At Night: Exploring Biologically Inspired Preprocessing For Improved Robustness Via Color And Contrast Transformations
Lorena Stracke,Lia Nimmermann,Shashank Agnihotri,Margret Keuper,Volker Blanz
Main category: cs.CV
TL;DR: 该论文提出了一种受人类视觉系统启发的输入预处理方法,通过应用高斯差分滤波来增强局部对比度,从而提高语义分割模型在恶劣条件下的鲁棒性。
- Motivation: 受人类视觉系统的对比度增强和颜色对抗机制启发,探索生物启发的输入预处理方法,以提升语义分割模型在恶劣环境下的鲁棒性,而不需要修改模型架构或训练过程。
- Method: 在RGB、灰度和对抗颜色通道上应用高斯差分(DoG)滤波,增强局部对比度。这种预处理方法模型无关且轻量级,可直接集成到成像管道中。
- Result: 在Cityscapes、ACDC和Dark Zurich数据集上的评估表明,该方法在保持分布内性能的同时,显著提高了对夜间、雾天和雪天等恶劣条件的鲁棒性。
- Conclusion: 这种生物启发的预处理方法具有模型无关性和轻量级特点,有潜力集成到成像系统中,为下游视觉模型在安全关键环境中提供任务就绪的鲁棒输入。
[302] StreamForest: Efficient Online Video Understanding with Persistent Event Memory
Xiangyu Zeng,Kefan Qiu,Qingyu Zhang,Xinhao Li,Jing Wang,Jiaxin Li,Ziang Yan,Kun Tian,Meng Tian,Xinhai Zhao,Yi Wang,Limin Wang
Main category: cs.CV
TL;DR: StreamForest是一个专为流媒体视频理解设计的新型架构,通过持久事件记忆森林和细粒度时空窗口解决实时流媒体场景中的存储限制和时空推理不足问题,在多个基准测试中达到最先进性能。
- Motivation: 现有的多模态大语言模型在视频理解方面取得了显著进展,但在实时流媒体场景中效果有限,主要受限于历史视觉特征的存储约束和实时时空推理能力不足。
- Method: 提出StreamForest架构,核心包括:1)持久事件记忆森林,基于时间距离、内容相似性和合并频率的惩罚函数自适应组织视频帧为事件级树结构;2)细粒度时空窗口,捕获详细短期视觉线索;3)OnlineIT指令调优数据集。
- Result: 在StreamingBench上达到77.3%准确率,OVBench上60.5%,OVO-Bench上55.6%。即使在极端视觉token压缩(限制为1024个token)下,模型仍能保持默认设置下平均准确率的96.8%。
- Conclusion: StreamForest在流媒体视频理解方面展现出强大的鲁棒性、高效性和泛化能力,特别适用于自动驾驶等实际应用场景。
[303] Environment-Aware Satellite Image Generation with Diffusion Models
Nikos Kostagiolas,Pantelis Georgiades,Yannis Panagakis,Mihalis A. Nicolaou
Main category: cs.CV
TL;DR: 提出了一种基于环境上下文的新型扩散模型,能够通过文本、元数据和视觉数据三种控制信号的任意组合来生成卫星图像,解决了现有方法在环境上下文有限、数据缺失和用户意图反映方面的局限性。
- Motivation: 现有扩散模型在遥感领域的应用虽然取得了初步成功,但仍面临环境上下文有限、处理缺失或损坏数据困难、以及难以可靠反映用户意图等显著限制。
- Method: 开发了一种条件扩散模型,通过动态环境条件作为控制信号,并采用元数据融合策略来建模属性嵌入交互,以处理部分损坏和/或缺失的观测数据。
- Result: 在单图像和时间序列生成试验中,该方法在定性和定量评估(使用6种不同指标)上都优于先前方法,表现出对缺失元数据的鲁棒性、对控制输入的更高响应性,以及更高的保真度、准确性和生成质量。
- Conclusion: 结果表明,基于环境上下文的调节可以改善卫星图像基础模型的性能,使该模型成为下游任务的有前途候选方案,同时构建了首个公开可用的三模态数据集。
[304] ThermalGen: Style-Disentangled Flow-Based Generative Models for RGB-to-Thermal Image Translation
Jiuhong Xiao,Roshan Nayak,Ning Zhang,Daniel Tortei,Giuseppe Loianno
Main category: cs.CV
TL;DR: ThermalGen是一个基于流的生成模型,用于从RGB图像生成热成像图像,解决了RGB-热成像配对数据稀缺的问题,并在多个基准测试中表现出色。
- Motivation: 同步校准的RGB-热成像配对数据稀缺,限制了视觉-热成像传感器融合和跨模态任务的发展,RGB到热成像图像转换成为解决这一问题的有前景方案。
- Method: 提出ThermalGen自适应流基生成模型,包含RGB图像条件架构和风格解耦机制,并构建了8个公共数据集和3个新的大规模卫星-航空RGB-T数据集。
- Result: 在多个RGB-T基准测试中,ThermalGen实现了与现有GAN基和扩散基方法相当或更优的转换性能,能够合成反映视角、传感器特性和环境条件显著变化的热成像图像。
- Conclusion: ThermalGen是首个能够合成反映多种变化因素的热成像图像的RGB-T图像转换模型,为解决RGB-热成像数据稀缺问题提供了有效解决方案。
[305] Vehicle Classification under Extreme Imbalance: A Comparative Study of Ensemble Learning and CNNs
Abu Hanif Muhammad Syarubany
Main category: cs.CV
TL;DR: 本文研究了车辆类型识别中的类别不平衡问题,通过合并多个数据集创建了16类语料库,并采用多种重采样方法和模型进行实验。最佳集成模型达到74.8%准确率,CNN模型在完整测试集上达到79.19%,在未见推理批次上达到81.25%。
- Motivation: 公共数据集中严重的类别不平衡问题抑制了稀有类别的识别性能,这影响了智能交通和物流系统的准确性。
- Method: 合并Kaggle、ImageNet和网络爬取数据创建16类语料库(约47k图像),通过SMOTE过采样和针对性欠采样创建6个平衡变体。使用基于MobileNet-V2特征的轻量级集成方法(随机森林、AdaBoost、软投票组合器)与可配置的ResNet风格CNN进行对比,CNN采用强数据增强和标签平滑训练。
- Result: 最佳集成模型(SMOTE组合)达到74.8%测试准确率,CNN在完整测试集上达到79.19%,在未见推理批次上达到81.25%。但代表性最少的类别(驳船)仍然是失败模式。
- Conclusion: 深度模型具有优势,但仅靠重采样有局限性。建议优先收集更多少数类数据,使用成本敏感目标(如焦点损失),并探索混合集成或CNN管道来结合可解释性与表示能力。
[306] MMRQA: Signal-Enhanced Multimodal Large Language Models for MRI Quality Assessment
Fankai Jia,Daisong Gan,Zhe Zhang,Zhaochi Wen,Chenchen Dan,Dong Liang,Haifeng Wang
Main category: cs.CV
TL;DR: 提出了MMRQA框架,首次将多模态大语言模型与采集感知信号处理相结合,用于MRI质量评估,在多个基准测试中达到最先进性能。
- Motivation: 解决传统MRI质量评估方法在数据稀缺和协议变异性方面的挑战,克服信号方法缺乏语义理解和深度学习方法缺乏可解释性的局限。
- Method: 结合三个关键创新:通过MRQy增强模拟伪影的鲁棒指标提取、使用Qwen将指标转化为问答对的结构化转换、通过LLaVA-OneVision的LoRA进行参数高效融合。
- Result: 在MR-ART、FastMRI和MyConnectome基准测试中实现最先进性能,具有强大的零样本泛化能力,并通过全面消融研究验证。
- Conclusion: 通过桥接定量分析与语义推理,该框架生成临床可解释的输出,增强了动态医疗环境中的质量控制。
[307] VAGUEGAN: Stealthy Poisoning and Backdoor Attacks on Image Generative Pipelines
Mostafa Mohaimen Akand Faisal,Rabeya Amin Jhuma
Main category: cs.CV
TL;DR: VagueGAN是一种针对生成模型的攻击方法,通过结合PoisonerNet扰动网络和生成器-判别器对,制作隐蔽的触发信号,在生成图像中引起目标变化。
- Motivation: 虽然对抗性攻击在判别模型中已有深入研究,但针对生成管道的攻击研究较少,特别是那些在输入中加入微小扰动就能控制输出变化的攻击。
- Method: 使用PoisonerNet模块化扰动网络与生成器-判别器对,制作隐蔽触发信号,并通过自定义代理指标评估攻击效果,在感知和频域分析隐蔽性。
- Result: 实验显示中毒输出可能比干净对应物具有更高的视觉质量,挑战了中毒必然降低保真度的假设。潜在空间中毒可以保留甚至增强输出美学,暴露像素级防御的盲点。
- Conclusion: 精心优化的扰动可以在生成器输出中产生一致且隐蔽的效果,同时保持视觉上的不明显,这对图像生成管道的完整性提出了担忧。
[308] DWGS: Enhancing Sparse-View Gaussian Splatting with Hybrid-Loss Depth Estimation and Bidirectional Warping
Yu Ma,Guoliang Wei,Yue Cheng
Main category: cs.CV
TL;DR: DWGS是一个增强3D高斯溅射用于稀疏视图合成的统一框架,通过集成结构线索、虚拟视图约束和遮挡区域补全来解决稀疏视图下的过拟合和几何失真问题。
- Motivation: 稀疏视图下的新视角合成存在过拟合、几何失真和场景恢复不完整的问题,3D高斯溅射在稀疏输入下会出现浮动伪影和结构不一致。
- Method: 提出混合损失深度估计模块、双向扭曲虚拟视图合成方法和遮挡感知重建组件,分别处理多视图一致性、几何约束和遮挡区域补全。
- Result: 在LLFF、Blender和DTU基准测试中达到新的最先进水平,PSNR达21.13 dB,LPIPS为0.189,同时保持实时推理能力。
- Conclusion: DWGS通过集成结构约束、虚拟视图和遮挡补全,有效提升了稀疏视图下3D高斯溅射的性能,实现了高质量的新视角合成。
[309] DAM: Dual Active Learning with Multimodal Foundation Model for Source-Free Domain Adaptation
Xi Chen,Hongxun Yao,Zhaopan Xu,Kui Jiang
Main category: cs.CV
TL;DR: 提出了DAM框架,通过整合视觉-语言模型的多模态监督来补充稀疏的人工标注,在源自由主动域自适应中实现双向蒸馏和稳定目标初始化。
- Motivation: 现有方法将ViL模型和数据监督视为独立来源,缺乏有效融合,限制了源自由主动域自适应的性能。
- Method: DAM框架整合多模态监督形成双重监督信号,初始化稳定的ViL引导目标,并采用双向蒸馏机制促进目标模型与双重监督之间的知识交换。
- Result: 在多个SFADA基准测试和主动学习策略中,DAM始终优于现有方法,创造了新的最先进水平。
- Conclusion: DAM框架通过有效融合多模态监督和稀疏人工标注,显著提升了源自由主动域自适应的性能。
[310] Accurate Cobb Angle Estimation via SVD-Based Curve Detection and Vertebral Wedging Quantification
Chang Shi,Nan Meng,Yipeng Zhuang,Moxin Zhao,Jason Pui Yin Cheung,Hua Huang,Xiuyuan Chen,Cong Nie,Wenting Zhong,Guiqiang Jiang,Yuxin Wei,Jacob Hong Man Yu,Si Chen,Xiaowen Ou,Teng Zhang
Main category: cs.CV
TL;DR: 提出了一种用于青少年特发性脊柱侧弯评估的新型深度学习框架,通过预测椎体终板角度和坐标,结合生物力学约束和SVD分析,实现了高精度的脊柱侧弯诊断和预后评估。
- Motivation: 传统手动测量Cobb角存在观察者变异性问题,现有自动化方法使用简化的脊柱模型和预设曲线模式,无法处理临床复杂性。需要一种能保持椎体楔形解剖现实性的准确评估方法。
- Method: 结合HRNet骨干网络和Swin-Transformer模块,采用生物力学约束增强特征提取。使用奇异值分解直接分析椎体形态的角度预测,无需预设曲线假设。引入椎体楔形指数量化椎体变形。
- Result: 在630张全脊柱前后位X光片上达到83.45%的诊断准确率和2.55°的平均绝对误差。框架在分布外病例上表现出优异的泛化能力。纵向分析显示VWI与曲线进展显著相关,而传统Cobb角无相关性。
- Conclusion: 该框架为早期AIS检测、个性化治疗规划和进展监测提供了有力支持,VWI作为新型指标在预后评估中显示出比传统Cobb角更好的相关性。
[311] Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer
Mohsen Ghafoorian,Denis Korzhenkov,Amirhossein Habibian
Main category: cs.CV
TL;DR: 提出Attention Surgery框架,将预训练视频扩散模型中的注意力机制线性化或混合化,在保持生成质量的同时显著降低计算成本
- Motivation: 基于Transformer的视频扩散模型虽然生成质量优秀,但自注意力机制存在二次计算复杂度问题,导致长序列和高分辨率视频生成计算成本高昂
- Method: 结合软注意力和线性注意力的混合注意力机制,配合轻量级蒸馏和微调流程,以及成本感知的块率策略来平衡表达能力和效率
- Result: 在Wan2.1 1.3B模型上实现首个具有竞争力的次二次注意力视频扩散模型,注意力计算成本降低高达40%(FLOPs),在VBench和VBench-2.0基准上保持生成质量
- Conclusion: Attention Surgery框架成功实现了预训练视频扩散模型的高效线性化,在显著降低计算成本的同时保持了生成质量
[312] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
Zhihong Chen,Xuehai Bai,Yang Shi,Chaoyou Fu,Huanyu Zhang,Haotian Wang,Xiaoyan Sun,Zhang Zhang,Liang Wang,Yuanxing Zhang,Pengfei Wan,Yi-Fan Zhang
Main category: cs.CV
TL;DR: 提出了OpenGPT-4o-Image数据集,通过分层任务分类和自动化数据生成方法构建,包含80k高质量指令-图像对,显著提升了多模态模型的生成和编辑性能。
- Motivation: 现有数据集缺乏系统结构和真实应用场景,限制了统一多模态模型的性能提升,需要更全面和具有挑战性的训练数据。
- Method: 采用分层任务分类学结合自动化数据生成的方法,利用结构化资源池和GPT-4o构建包含11个主要领域和51个子任务的80k指令-图像对数据集。
- Result: 在多个基准测试中取得显著性能提升,编辑任务提升18%(UniWorld-V1在ImgEdit-Bench),生成任务提升13%(Harmon在GenEval)。
- Conclusion: 系统化的数据构建是推进多模态AI能力的关键,OpenGPT-4o-Image数据集为模型训练提供了高质量和多样化的数据基础。
[313] Learning Goal-Oriented Language-Guided Navigation with Self-Improving Demonstrations at Scale
Songze Li,Zun Wang,Gengze Zhou,Jialu Li,Xiangyu Zeng,Limin Wang,Yu Qiao,Qi Wu,Mohit Bansal,Yi Wang
Main category: cs.CV
TL;DR: SID是一种目标导向的语言引导导航学习方法,通过自我改进演示来增强智能体的探索能力,在未知环境中无需逐步指令即可导航到指定目标。
- Motivation: 现有方法主要使用最短路径轨迹,缺乏有效的探索先验来训练导航智能体,导致在未知环境中的探索能力不足。
- Method: SID首先在环境采样的最短路径数据上训练初始智能体,然后利用该智能体生成新的探索轨迹。这些轨迹提供更强的探索策略演示,用于训练更好的智能体,形成迭代自我改进的循环。
- Result: SID显著提升了导航智能体的探索能力和泛化性能,在REVERIE和SOON等目标导向语言导航任务中实现了新的最先进性能,在SOON未见验证集上达到50.9%的成功率,比之前领先方法高出13.9%。
- Conclusion: 这种迭代自我改进方法能够扩展到新环境,产生的演示可以跨多种语言引导导航任务迁移使用,为多样化目标导向导航任务提升了性能上限。
[314] Segmentor-Guided Counterfactual Fine-Tuning for Image Synthesis
Tian Xia,Matthew Sinclair,Andreas Schuh,Fabio De Sousa Ribeiro,Raghav Mehta,Rajat Rasal,Esther Puyol-Antón,Samuel Gerber,Kersten Petersen,Michiel Schaap,Ben Glocker
Main category: cs.CV
TL;DR: 提出了Seg-CFT方法,用于生成结构特定的反事实医学图像,避免了对像素级标签图的依赖,能够产生局部一致且有效的反事实图像。
- Motivation: 当前的反事实图像生成方法依赖于外部分类器或回归器,对于结构特定的干预(如改变左肺区域)效果不足,会产生不理想的全局效应,且需要用户提供繁琐的像素级标签图。
- Method: 提出了Segmentor-guided Counterfactual Fine-Tuning (Seg-CFT)方法,通过分割器引导的反事实微调,在保持对结构特定标量变量干预的简单性的同时,生成局部一致的反事实图像。
- Result: 展示了生成真实胸部X光片的能力,并在冠状动脉疾病建模方面取得了有希望的结果。
- Conclusion: Seg-CFT方法能够有效生成结构特定的反事实医学图像,避免了传统方法对像素级标签图的依赖,在医学图像分析中具有应用潜力。
[315] Scalable GANs with Transformers
Sangeek Hyun,MinKyu Lee,Jae-Pil Heo
Main category: cs.CV
TL;DR: 本文研究了GAN的可扩展性,通过在VAE潜空间训练和采用纯transformer架构,解决了GAN缩放时的失败模式,实现了高效的类条件图像生成。
- Motivation: 探索生成对抗网络(GANs)的可扩展性,虽然可扩展性推动了生成模型的进展,但在对抗学习中的原理仍未被充分探索。
- Method: 在紧凑的VAE潜空间进行训练,采用纯transformer生成器和判别器,通过轻量级中间监督和宽度感知学习率调整解决缩放问题。
- Result: GAT-XL/2在ImageNet-256上实现了最先进的单步类条件生成性能(FID为2.96),仅需40个epoch,比强基线少6倍。
- Conclusion: 通过潜空间训练和transformer架构,GAN可以可靠地在各种容量范围内训练,并实现高效的图像生成。
[316] Perceive, Reflect and Understand Long Video: Progressive Multi-Granular Clue Exploration with Interactive Agents
Jiahua Li,Kun Wei,Zhe Xu,Zibo Su,Xu Yang,Cheng Deng
Main category: cs.CV
TL;DR: CogniGPT是一个基于多粒度感知代理和验证增强反思代理交互循环的长视频理解框架,通过模拟人类渐进式视觉认知,在保证准确性的同时显著提升效率。
- Motivation: 长视频具有时间复杂性和任务相关信息稀疏的特点,现有LLM方法难以同时实现信息捕获的完整性和效率。受人类渐进视觉认知启发,需要开发能高效可靠理解长视频的框架。
- Method: 提出CogniGPT框架,包含多粒度感知代理(MGPA)模拟人类视觉注意机制捕获任务相关信息,验证增强反思代理(VERA)验证关键线索并优化感知策略,通过交互循环探索最小化但可靠的任务相关线索集。
- Result: 在EgoSchema、Video-MME、NExT-QA和MovieChat数据集上的实验表明,CogniGPT在准确性和效率方面均优于现有方法。在EgoSchema上仅使用11.2帧就超越了现有免训练方法,性能接近Gemini 1.5-Pro。
- Conclusion: CogniGPT通过模拟人类渐进视觉认知的交互循环机制,实现了长视频理解中准确性与效率的良好平衡,为解决长视频复杂推理挑战提供了有效方案。
[317] Evaluating Temperature Scaling Calibration Effectiveness for CNNs under Varying Noise Levels in Brain Tumour Detection
Ankur Chanda,Kushan Choudhury,Shubhrodeep Roy,Shubhajit Biswas,Somenath Kuiry
Main category: cs.CV
TL;DR: 评估温度缩放(TS)在校准脑肿瘤分类CNN模型中的效果,通过引入五种图像噪声模拟真实世界不确定性,结果显示TS能显著降低校准误差而不影响分类精度。
- Motivation: 深度学习在医学影像等高风险领域需要精确的置信度估计,过度自信的错误分类可能带来严重后果。
- Method: 开发定制CNN并在合并的脑MRI数据集上训练,引入五种图像噪声(高斯、泊松、椒盐、斑点、均匀),使用温度缩放进行后处理校准。
- Result: 在所有噪声条件下,温度缩放显著降低了预期校准误差(ECE)和负对数似然(NLL),同时没有降低分类准确率。
- Conclusion: 温度缩放是一种有效且计算高效的方法,能增强医学AI系统的决策置信度,使模型在噪声或不确定环境中输出更可靠。
[318] Social 3D Scene Graphs: Modeling Human Actions and Relations for Interactive Service Robots
Ermanno Bartoli,Dennis Rotondi,Buwei He,Patric Jensfelt,Kai O. Arras,Iolanda Leite
Main category: cs.CV
TL;DR: 提出了Social 3D Scene Graphs,一种增强的3D场景图表示,用于捕捉人类及其与环境的关系,并创建了包含全面人-场景关系标注的新基准。
- Motivation: 现有3D场景图方法大多忽略场景中的人类,且缺乏标注的人-环境关系数据,同时现有方法通常只能从单帧图像中捕捉开放词汇关系,限制了建模长距离交互的能力。
- Method: 引入Social 3D Scene Graphs表示,捕捉人类属性、活动以及与环境的关系(包括本地和远程),采用开放词汇框架,并创建包含合成环境和多样化查询的新基准。
- Result: 实验表明,该表示方法提高了人类活动预测能力和对人-环境关系的推理能力。
- Conclusion: 这项工作为开发具有社会智能的机器人铺平了道路。
[319] Event-based Facial Keypoint Alignment via Cross-Modal Fusion Attention and Self-Supervised Multi-Event Representation Learning
Donghwa Kang,Junho Kim,Dongwoo Kang
Main category: cs.CV
TL;DR: 提出基于跨模态融合注意力和自监督多事件表示学习的事件相机面部关键点对齐框架,通过融合RGB数据指导特征提取,并在真实和合成事件数据集上超越现有方法。
- Motivation: 事件相机在低光照和快速运动条件下具有优势,但现有RGB方法在事件数据上表现不佳,且事件数据空间信息有限,缺乏标注数据集阻碍了该领域发展。
- Method: 使用跨模态融合注意力(CMFA)整合RGB数据指导事件输入的特征提取,同时采用自监督多事件表示学习(SSMER)从无标签事件数据中学习有效特征。
- Result: 在真实事件E-SIE数据集和合成事件WFLW-V基准测试中,该方法在多个评估指标上持续超越最先进方法。
- Conclusion: 该框架成功解决了事件数据空间信息有限和标注数据缺乏的问题,为事件相机面部关键点对齐提供了有效解决方案。
[320] On-the-Fly Data Augmentation for Brain Tumor Segmentation
Ishika Jain,Siri Willems,Steven Latre,Tom De Schepper
Main category: cs.CV
TL;DR: 提出了一种动态插入合成肿瘤的在线数据增强策略,使用预训练的生成对抗网络(GliGANs)在训练期间增强脑胶质瘤分割模型的泛化能力,在BraTS 2025挑战赛中排名第一。
- Motivation: 解决脑胶质瘤分割模型在治疗前后扫描中的泛化问题,同时克服高质量标注数据有限和3D数据存储计算成本高的问题。
- Method: 基于nnU-Net框架,使用预训练的GliGAN权重和肿瘤插入方法,开发了三种模型:无外部增强的基线模型、常规在线增强模型和定制化在线增强模型,并进行模型集成。
- Result: 在BraTS 2025验证平台上获得病灶级别的Dice分数:ET 0.79、NETC 0.749、RC 0.872、SNFH 0.825、TC 0.79、WT 0.88,在BraTS Lighthouse Challenge 2025任务1中排名第一。
- Conclusion: 在线数据增强策略能有效提升脑胶质瘤分割模型在治疗时间线上的泛化性能,证明了动态合成肿瘤插入方法的有效性。
[321] Wan-Alpha: High-Quality Text-to-Video Generation with Alpha Channel
Haotian Dong,Wenjing Wang,Chen Li,Di Lin
Main category: cs.CV
TL;DR: 提出了Wan-Alpha框架,通过联合学习RGB和alpha通道来生成透明视频,在视觉质量、运动真实感和透明度渲染方面优于现有方法。
- Motivation: 现有的RGBA视频生成方法往往忽视视觉质量,限制了实际应用。需要一种能生成高质量透明视频的方法。
- Method: 设计了一个有效的变分自编码器(VAE),将alpha通道编码到RGB潜在空间中,并构建了高质量多样的RGBA视频数据集来训练扩散变换器。
- Result: 模型在视觉质量、运动真实感和透明度渲染方面表现出色,能够生成各种半透明物体、发光效果和头发丝等精细细节。
- Conclusion: Wan-Alpha框架在RGBA视频生成任务中取得了显著进展,为透明视频生成提供了有效的解决方案。
[322] SDPose: Exploiting Diffusion Priors for Out-of-Domain and Robust Pose Estimation
Shuang Liang,Jing He,Chuanmeizhi Wang,Lejun Liao,Guo Zhang,Yingcong Chen,Yuan Yuan
Main category: cs.CV
TL;DR: SDPose是一个基于Stable Diffusion的微调框架,利用预训练扩散先验进行人体姿态估计,在少量训练下达到与Sapiens相当的性能,并在跨域基准上创下新纪录。
- Motivation: 预训练扩散模型具有丰富的多尺度潜在特征,但它们在结构化输出(如人体姿态估计)方面的潜力尚未充分探索。现有方法如Marigold和Lotus主要关注密集预测,而SDPose旨在充分利用扩散先验进行姿态估计。
- Method: 1) 直接在SD U-Net的图像潜在空间中预测关键点热图以保留原始生成先验;2) 通过轻量级卷积姿态头将潜在特征映射到关键点热图;3) 引入辅助RGB重建分支防止过拟合并增强跨域鲁棒性。
- Result: 仅使用Sapiens在COCO上训练计划的五分之一,SDPose在COCO验证集上与Sapiens-1B/2B持平,并在跨域基准HumanArt和COCO-OOD上创下新纪录。还能作为零样本姿态标注器用于可控生成任务。
- Conclusion: SDPose成功展示了预训练扩散模型作为结构化预测任务的强大骨干的潜力,在姿态估计和跨域泛化方面表现出色,并为下游可控生成任务提供高质量的姿态引导。
[323] PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion
Yuyang Yin,HaoXiang Guo,Fangfu Liu,Mengyu Wang,Hanwen Liang,Eric Li,Yikai Wang,Xiaojie Jin,Yao Zhao,Yunchao Wei
Main category: cs.CV
TL;DR: PanoWorld-X是一个用于高保真可控全景视频生成的新框架,通过球面感知扩散变换器架构解决了传统视频扩散模型在全景数据上的几何对齐问题,实现了更广泛的运动范围和精确的相机控制。
- Motivation: 现有方法存在视场角限制和相机可控性不足的问题,阻碍了连续完整场景的合成和用户自由探索。需要开发能够生成完整可探索360度视觉世界的方法。
- Method: 首先通过Unreal Engine在虚拟3D环境中模拟相机轨迹构建大规模全景视频-探索路径数据集,然后提出球面感知扩散变换器架构,将等矩形特征重新投影到球面以建模几何邻接关系。
- Result: 广泛实验表明PanoWorld-X在运动范围、控制精度和视觉质量等方面均取得优越性能,证明了其在现实应用中的潜力。
- Conclusion: PanoWorld-X框架成功解决了全景视频生成中的几何对齐问题,实现了高保真和可控的全景视频生成,为下游应用提供了有力支持。
[324] LVT: Large-Scale Scene Reconstruction via Local View Transformers
Tooba Imtiaz,Lucy Chai,Kathryn Heal,Xuan Luo,Jungyeon Park,Jennifer Dy,John Flynn
Main category: cs.CV
TL;DR: 提出Local View Transformer (LVT)架构,通过局部邻域处理和相对几何变换编码,避免标准Transformer的二次复杂度问题,实现大规模场景重建和新视角合成。
- Motivation: 标准Transformer的二次复杂度限制了其在大型3D场景中的应用,需要找到更高效的方法来处理大规模场景重建和新视角合成任务。
- Method: 使用局部视图Transformer,仅处理每个视图周围局部邻域的信息,并利用基于相对几何变换的新型位置编码来关注附近视图的token,最终解码为包含颜色和不透明度视图依赖的3D高斯溅射场景表示。
- Result: LVT能够在单次前向传播中重建任意大规模、高分辨率的场景,有效解决了Transformer在3D视觉中的可扩展性问题。
- Conclusion: Local View Transformer通过局部处理和几何感知的位置编码,成功实现了高效的大规模场景重建和新视角合成,为3D视觉任务提供了可扩展的解决方案。
[325] CLASP: Adaptive Spectral Clustering for Unsupervised Per-Image Segmentation
Max Curie,Paulo da Costa
Main category: cs.CV
TL;DR: CLASP是一个无需标注数据或微调的轻量级无监督图像分割框架,通过自监督ViT提取特征、构建亲和矩阵进行谱聚类,自动选择分割数量并使用DenseCRF锐化边界。
- Motivation: 为大型未标注数据集提供易于复现的无监督分割基线,特别适用于数字广告和营销工作流中的品牌安全筛查、创意资产管理和社交媒体内容审核。
- Method: 使用自监督ViT(DINO)提取补丁特征,构建亲和矩阵并应用谱聚类,通过特征间隙轮廓搜索自动选择分割数量,最后使用全连接DenseCRF锐化边界。
- Result: 在COCO Stuff和ADE20K数据集上获得具有竞争力的mIoU和像素精度,与近期无监督基线方法表现相当。
- Conclusion: CLASP的零训练设计使其成为处理大型未标注语料库的强大且易于复现的基线方法,特别适合实际应用场景。
[326] GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Mustansar Fiaz,Hiyam Debary,Paolo Fraccaro,Danda Paudel,Luc Van Gool,Fahad Khan,Salman Khan
Main category: cs.CV
TL;DR: 提出了一种新颖的后训练框架,通过任务感知奖励机制,将基于推理的强化学习模型有效适配到多种地球观测任务中。
- Motivation: 尽管强化学习在自然图像领域展现出强大的推理能力,但其在地球观测任务中的潜力尚未充分探索。地球观测任务面临独特挑战,需要任务感知的推理能力。
- Method: 采用后训练框架,引入任务感知奖励机制,增强遥感图像的推理能力,稳定优化过程并提高鲁棒性。
- Result: 在多个地球观测基准测试中,相比最先进的通用和专用视觉语言模型,该方法都取得了持续的性能提升。
- Conclusion: 该框架成功地将推理型强化学习模型适配到地球观测领域,为遥感图像分析提供了有效的解决方案。
[327] STAGE: Stable and Generalizable GRPO for Autoregressive Image Generation
Xiaoxiao Ma,Haibo Qiu,Guohui Zhang,Zhixiong Zeng,Siqi Yang,Lin Ma,Feng Zhao
Main category: cs.CV
TL;DR: 提出了STAGE框架,通过优势/KL重加权和熵奖励来解决GRPO在自回归图像生成中的训练不稳定问题,改善图像质量和泛化能力
- Motivation: 现有GRPO算法应用于自回归图像模型时存在训练不稳定问题,容易破坏预训练模型能力,导致收益有限、图像质量下降和泛化能力差
- Method: STAGE框架包含两个关键解决方案:1)优势/KL重加权 - 相似性感知的重加权缓解冲突更新;2)熵奖励 - 基于参考模型的熵奖励来稳定学习
- Result: 在多个基准测试中,STAGE相比基线GRPO持续改善了视觉质量、稳定性和跨任务泛化能力
- Conclusion: 通过缓解token间的冲突和引入熵奖励稳定训练,STAGE减少了对预训练分布的破坏,缓解了奖励黑客攻击,从而改善了泛化能力并在其他基准上表现更好
[328] VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning
Wenhao Li,Qiangchang Wang,Xianjing Meng,Zhibin Wu,Yilong Yin
Main category: cs.CV
TL;DR: 提出VT-FSL框架,通过大语言模型构建跨模态提示,结合几何感知对齐方法,在少样本学习中实现视觉与文本的深度融合,在多个基准测试中达到最先进性能。
- Motivation: 现有少样本学习方法在融合语义信息时容易产生与视觉证据矛盾的幻觉语义,导致噪声指导和昂贵的修正成本。
- Method: 提出跨模态迭代提示(CIP)和跨模态几何对齐(CGA)。CIP基于类名和支持图像条件化LLM生成精确类别描述,CGA通过最小化三维平行多面体的核化体积来对齐文本、支持和合成视觉表示。
- Result: 在十个不同的基准测试中建立了新的最先进性能,包括标准、跨域和细粒度少样本学习场景。
- Conclusion: VT-FSL通过精确的跨模态提示和几何感知对齐,有效解决了少样本学习中的语义幻觉问题,实现了视觉与文本的深度融合。
[329] Fast Real-Time Pipeline for Robust Arm Gesture Recognition
Milán Zsolt Bagladi,László Gulyás,Gergő Szalay
Main category: cs.CV
TL;DR: 提出基于OpenPose关键点估计、关键点归一化和循环神经网络分类器的动态手势识别实时流水线,包含1×1归一化方案和两种特征表示,并通过人工旋转训练数据提高对相机角度变化的鲁棒性。
- Motivation: 开发一个能够实时识别动态手势的系统,特别是在交通控制等实际应用场景中,需要处理不同视角和速度变化带来的挑战。
- Method: 使用OpenPose进行关键点估计,采用1×1归一化方案处理关键点数据,提供坐标基和角度基两种特征表示,利用循环神经网络进行分类,并通过人工旋转训练数据增强模型对视角变化的鲁棒性。
- Result: 在自定义交通控制手势数据集上的实验表明,该系统在不同视角和速度下都能达到高准确率。
- Conclusion: 该流水线能够有效实时识别动态手势,对视角和速度变化具有鲁棒性,并提供了计算手势速度的方法,适用于实际应用场景。
[330] A Scalable Distributed Framework for Multimodal GigaVoxel Image Registration
Rohit Jena,Vedant Zope,Pratik Chaudhari,James C. Gee
Main category: cs.CV
TL;DR: FFDP是一个用于大规模图像配准的IO感知非GEMM融合内核和分布式框架,能够处理比现有方法大64倍的问题,在8个A6000 GPU上1分钟内完成570倍于标准临床数据的大规模图像配准。
- Motivation: 图像配准是生物医学和生命科学中的基本逆问题,但现有算法无法与图像采集能力同步扩展,需要解决大规模图像配准的计算瓶颈。
- Method: 提出IO感知的非GEMM融合内核,结合分布式框架,优化非GEMM瓶颈并实现卷积感知的张量分片,补充现有的模型并行技术。
- Result: 在8个A6000 GPU上1分钟内完成100微米分辨率的人类大脑MRI体积的多模态配准,加速现有SOTA方法6-7倍,减少峰值内存消耗20-59%,单GPU可处理比现有SOTA大64倍的问题。
- Conclusion: FFDP框架实现了前所未有的图像配准规模能力,显著提升了配准算法的性能和效率,为大规模生物医学图像分析提供了可行的解决方案。
[331] GEM: 3D Gaussian Splatting for Efficient and Accurate Cryo-EM Reconstruction
Huaizhi Qu,Xiao Wang,Gengwei Zhang,Jie Peng,Tianlong Chen
Main category: cs.CV
TL;DR: GEM是一个基于3D高斯泼溅的冷冻电镜重建框架,直接在实空间操作,通过紧凑的3D高斯表示蛋白质,实现了更快的训练速度、更低的内存使用和更高的分辨率。
- Motivation: 冷冻电镜数据集规模庞大,传统傅里叶空间方法效率高但保真度低,而基于NeRF的实空间方法精度高但内存和计算开销巨大。需要一种兼顾效率和精度的重建方法。
- Method: 使用3D高斯泼溅技术,用紧凑的3D高斯表示蛋白质(每个高斯仅11个参数),并设计了新颖的梯度计算方法来提高训练效率。
- Result: 在标准基准测试中,GEM相比最先进方法实现了48%更快的训练速度、12%更低的内存使用,局部分辨率提升高达38.8%。
- Conclusion: GEM为冷冻电镜重建提供了一个实用且可扩展的范式,统一了速度、效率和高分辨率精度。
[332] BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation
Dingning Liu,Haoyu Guo,Jingyi Zhou,Tong He
Main category: cs.CV
TL;DR: BRIDGE是一个基于强化学习优化的深度到图像生成框架,通过合成2000多万个几何精确的RGB图像及其配对的真实深度图,解决了单目深度估计中的数据稀缺问题,并在训练中采用混合监督策略,显著提升了深度估计性能。
- Motivation: 传统单目深度估计方法受限于数据稀缺和质量问题,影响了模型的鲁棒性。为了解决这个问题,研究者提出了BRIDGE框架来生成大规模、高质量的深度-图像配对数据。
- Method: 提出BRIDGE框架:1)使用RL优化的深度到图像生成方法,从多样化的源深度图合成2000多万个真实且几何精确的RGB图像;2)采用混合监督训练策略,结合教师伪标签和真实深度进行综合训练。
- Result: BRIDGE在规模和领域多样性方面取得突破,在定量评估和复杂场景细节捕捉方面持续优于现有最先进方法,培养了通用且鲁棒的深度特征。
- Conclusion: BRIDGE通过创新的数据生成和训练范式,为单目深度估计提供了大规模高质量数据集,显著提升了深度估计性能,推动了通用鲁棒深度特征的发展。
[333] UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation
Guanjun Wu,Jiemin Fang,Chen Yang,Sikuang Li,Taoran Yi,Jia Lu,Zanwei Zhou,Jiazhong Cen,Lingxi Xie,Xiaopeng Zhang,Wei Wei,Wenyu Liu,Xinggang Wang,Qi Tian
Main category: cs.CV
TL;DR: UniLat3D是一个统一的3D资产生成框架,通过几何-外观统一VAE将几何和外观信息编码到单一潜在空间中,实现单阶段直接生成,避免了传统两阶段方法中的几何-纹理不对齐问题。
- Motivation: 传统3D生成模型采用两阶段流水线(先生成几何再合成外观),容易产生几何-纹理不对齐问题且成本较高,需要更高效统一的生成方法。
- Method: 提出几何-外观统一VAE,将高分辨率稀疏特征压缩为紧凑的UniLat潜在表示;基于该统一表示,训练单一流匹配模型直接从高斯噪声映射到UniLat。
- Result: 在公开数据集上训练,UniLat3D能在数秒内从单张图像生成高质量3D资产,在视觉保真度和几何质量方面表现优异。
- Conclusion: UniLat3D通过统一潜在表示实现了高效的单阶段3D生成,解决了传统方法的对齐问题,显著提升了生成质量和效率。
[334] MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial Purification
Xiaoyi Huang,Junwei Wu,Kejia Zhang,Carl Yang,Zhiming Luo
Main category: cs.CV
TL;DR: 提出MANI-Pure对抗净化框架,通过频率自适应噪声注入有效抑制对抗扰动,在保持高清洁精度的同时显著提升鲁棒性。
- Motivation: 现有对抗净化方法使用均匀噪声注入,会破坏语义结构并削弱鲁棒性。研究发现对抗扰动主要集中在高频区域,且在不同频率和攻击类型中具有异质性强度模式。
- Method: MANI-Pure利用输入的幅度谱指导净化过程,自适应应用异质、频率目标噪声,在脆弱的高频低幅度频段有效抑制对抗扰动,同时保留语义关键的低频内容。
- Result: 在CIFAR-10和ImageNet-1K上的实验表明,MANI-Pure将清洁精度差距缩小到原始分类器的0.59以内,同时将鲁棒精度提升2.15,在RobustBench排行榜上达到top-1鲁棒精度,超越先前最先进方法。
- Conclusion: MANI-Pure通过频率自适应噪声注入策略,实现了对抗净化的显著改进,在保持高清洁精度的同时大幅提升模型鲁棒性。
[335] Triangle Splatting+: Differentiable Rendering with Opaque Triangles
Jan Held,Renaud Vandeghen,Sanghyun Son,Daniel Rebain,Matheus Gadelha,Yi Zhou,Ming C. Lin,Marc Van Droogenbroeck,Andrea Tagliasacchi
Main category: cs.CV
TL;DR: Triangle Splatting+ 是一种直接优化三角形的方法,在可微分溅射框架中实现,可直接生成兼容标准图形引擎的网格,无需后处理。
- Motivation: 解决3D高斯溅射与基于网格的VR头盔和实时图形应用不兼容的问题,避免现有转换方法带来的复杂性增加和视觉质量下降。
- Method: 提出三角形参数化方法实现顶点共享连接,设计训练策略强制三角形不透明,在可微分溅射框架中直接优化三角形基元。
- Result: 在Mip-NeRF360和Tanks & Temples数据集上实现了基于网格的新视角合成的最先进性能,视觉保真度优于先前溅射方法。
- Conclusion: 该方法生成的半连接网格支持物理模拟和交互式漫游等下游应用,训练高效快速,输出可直接用于标准图形引擎。
[336] Score Distillation of Flow Matching Models
Mingyuan Zhou,Yi Gu,Huangjie Zheng,Liangchen Song,Guande He,Yizhe Zhang,Wenze Hu,Yinfei Yang
Main category: cs.CV
TL;DR: 本文证明了分数蒸馏技术可以直接应用于文本到图像的流匹配模型,将扩散模型和流匹配统一起来,实现了无需教师微调或架构修改的加速生成。
- Motivation: 扩散模型生成质量高但采样速度慢,而流匹配方法在理论上与扩散模型等价,但之前不确定蒸馏技术是否能直接应用于流匹配模型。
- Method: 基于贝叶斯规则和条件期望的简单推导,统一了高斯扩散和流匹配,并将分数身份蒸馏(SiD)扩展到预训练的文本到图像流匹配模型。
- Result: 实验表明,只需对流匹配和DiT进行适度调整,SiD就能在这些模型上直接工作,在无数据和有数据辅助的设置中都有效。
- Conclusion: 这首次系统证明了分数蒸馏广泛适用于文本到图像流匹配模型,解决了之前关于稳定性和合理性的担忧,统一了扩散和流基生成器的加速技术。
[337] TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models
Junyi Zhang,Jia-Chen Gu,Wenbo Hu,Yu Zhou,Robinson Piramuthu,Nanyun Peng
Main category: cs.CV
TL;DR: TemMed-Bench是首个用于分析患者在不同临床就诊期间病情变化的时间医学图像基准,挑战大型视觉语言模型进行时序医学图像推理。
- Motivation: 现有医学推理基准主要基于单次就诊图像分析患者状况,这与临床实践中医生参考患者历史状况进行综合评估的现实不符。
- Method: 构建包含三个任务(视觉问答、报告生成、图像对选择)的测试集和超过17,000个实例的补充知识库,评估了6个专有和6个开源LVLM。
- Result: 大多数LVLM缺乏分析时序医学图像中患者病情变化的能力,在闭卷设置下大部分表现仅达到随机猜测水平。GPT o3、o4-mini和Claude 3.5 Sonnet表现相对较好但未达理想水平。多模态检索增强比无检索和仅文本检索带来更高性能提升。
- Conclusion: 该基准揭示了LVLM在时序医学图像推理方面的局限性,并表明多模态检索增强是解决这一挑战的有前景方向。
[338] Fast Feature Field ( ): A Predictive Representation of Events
Richeek Das,Kostas Daniilidis,Pratik Chaudhari
Main category: cs.CV
TL;DR: 提出了Fast Feature Field (F³)方法,从事件相机数据中学习表示,通过预测未来事件来保留场景结构和运动信息,在多个机器人平台上实现了最先进的性能。
- Motivation: 开发一种能够从事件相机数据中有效构建表示的方法,利用事件数据的稀疏性,对噪声和事件率变化具有鲁棒性,并支持多种下游任务。
- Method: 使用多分辨率哈希编码和深度集合思想,将事件表示为连续时空体积内的多通道图像,通过预测未来事件来学习表示。
- Result: 在HD分辨率下达到120Hz,VGA分辨率下达到440Hz的计算效率;在光流估计、语义分割和单目度量深度估计等任务上获得最先进性能;在三个机器人平台、不同光照条件和环境下验证了有效性。
- Conclusion: F³方法能够高效处理事件相机数据,在多种视觉任务中表现出色,适用于各种机器人平台和环境条件。
[339] VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning
Zhaozhi Wang,Tong Zhang,Mingyue Guo,Yaowei Wang,Qixiang Ye
Main category: cs.CV
TL;DR: VideoAnchor是一个即插即用的模块,通过利用子空间亲和性来增强跨帧的视觉线索,无需重新训练即可将注意力锚定到共享的视觉结构上,从而解决多模态大语言模型在视觉空间推理方面的局限性。
- Motivation: 多模态大语言模型在视觉-语言对齐方面取得了显著进展,但在视觉空间推理方面仍然存在限制。研究发现这种限制源于注意力机制:视觉标记被语言标记所掩盖,导致模型无法跨帧一致地识别相同的视觉线索。
- Method: 作者在稀疏子空间聚类中的自表达性与Transformer中的注意力机制之间建立了新的联系。基于这一洞见,提出了VideoAnchor模块,利用子空间亲和性来增强跨帧的视觉线索,无需重新训练即可将注意力锚定到共享的视觉结构上。
- Result: 在多个基准测试和骨干模型上的广泛实验显示了一致的性能提升——例如,在VSI-Bench和Video-MME(空间相关任务)上,使用InternVL2-8B和Qwen2.5VL-72B分别实现了3.2%和4.6%的改进。定性分析展示了更一致的子空间划分和更强的视觉基础。
- Conclusion: VideoAnchor通过将注意力锚定到共享的视觉结构上,有效解决了多模态大语言模型在视觉空间推理方面的局限性,为提升视频理解能力提供了一种有效的解决方案。
[340] GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts
Fan Yuan,Yuchen Yan,Yifan Jiang,Haoran Zhao,Tao Feng,Jinyan Chen,Yanwei Lou,Wenqi Zhang,Yongliang Shen,Weiming Lu,Jun Xiao,Yueting Zhuang
Main category: cs.CV
TL;DR: 提出了GSM8K-V基准测试,将文本数学问题转化为视觉形式,评估视觉语言模型在多图像数学推理方面的能力。
- Motivation: 现有视觉数学推理基准主要局限于几何问题,缺乏数学应用题,且很少评估跨多图像的推理能力。
- Method: 通过自动化图像生成流程和人工标注,将GSM8K文本数据集系统性地转化为1,319个高质量视觉样本。
- Result: 现有VLM在文本GSM8K上接近饱和(95.22%),但在GSM8K-V上表现显著下降(46.93%),显示视觉数学推理仍有很大改进空间。
- Conclusion: GSM8K-V为视觉数学推理提供了新视角,建立了指导开发更鲁棒和通用VLM的基准。
[341] Rolling Forcing: Autoregressive Long Video Diffusion in Real Time
Kunhao Liu,Wenbo Hu,Jiale Xu,Ying Shan,Shijian Lu
Main category: cs.CV
TL;DR: 提出了Rolling Forcing技术,通过联合去噪、注意力池和高效训练算法,解决了流式视频生成中的误差累积问题,实现了单GPU上实时生成多分钟高质量视频。
- Motivation: 现有流式视频生成方法存在严重的误差累积问题,导致长时域视频质量显著下降,需要一种能够最小化误差累积的技术。
- Method: 1. 联合去噪方案:同时处理多帧而非逐帧采样;2. 注意力池机制:保留初始帧作为全局上下文锚点;3. 高效训练算法:在扩展去噪窗口上进行少步蒸馏。
- Result: 实验表明Rolling Forcing能够在单GPU上实时生成多分钟视频流,显著减少了误差累积。
- Conclusion: Rolling Forcing技术有效解决了流式视频生成中的误差累积问题,实现了高质量、低延迟的长视频生成。
[342] Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models
Bowei Chen,Sai Bi,Hao Tan,He Zhang,Tianyuan Zhang,Zhengqi Li,Yuanjun Xiong,Jianming Zhang,Kai Zhang
Main category: cs.CV
TL;DR: 提出一种将预训练视觉编码器对齐作为潜在扩散模型图像生成分词器的方法,通过三阶段对齐策略获得语义丰富的图像分词器,加速扩散模型收敛并提升生成质量。
- Motivation: 传统从零训练VAE主要关注低级细节,而预训练基础编码器具有丰富的语义结构,希望利用这些语义信息来改进图像生成分词器。
- Method: 三阶段对齐策略:1)冻结编码器,训练适配器和解码器建立语义潜在空间;2)联合优化所有组件并添加语义保持损失;3)细化解码器提升重建质量。
- Result: 在ImageNet 256×256上,分词器加速扩散模型收敛,64个epoch达到gFID 1.90;在LAION上,2B参数文本到图像模型性能优于FLUX VAE。
- Conclusion: 该方法简单、可扩展,为连续分词器设计建立了语义基础范式,能够产生语义丰富的图像分词器并提升扩散模型性能。
[343] YOLO26: Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
Ranjan Sapkota,Rahul Harsha Cheppally,Ajay Sharda,Manoj Karkee
Main category: cs.CV
TL;DR: YOLO26是Ultralytics于2025年9月发布的最新YOLO系列模型,专为边缘设备优化,在架构上进行了多项创新,包括端到端无NMS推理、移除DFL损失、引入ProgLoss和STAL等,在边缘设备上展现出卓越的效率和精度表现。
- Motivation: 推动边缘和低功耗设备上的目标检测效率与精度边界,满足实时边缘计算需求。
- Method: 采用端到端无NMS推理架构,移除DFL损失简化导出流程,引入ProgLoss和STAL提升稳定性和小目标检测能力,使用MuSGD优化器。
- Result: 在NVIDIA Orin Jetson等边缘设备上,YOLO26相比YOLOv8、YOLO11、YOLOv12和YOLOv13展现出更优的效率和精度,具备更好的部署灵活性。
- Conclusion: YOLO26代表了YOLO演进历程中的重要里程碑,在边缘设备目标检测领域具有卓越的性能表现和部署优势。
[344] Personalized Vision via Visual In-Context Learning
Yuxin Jiang,Yuchao Gu,Yiren Song,Ivor Tsang,Mike Zheng Shou
Main category: cs.CV
TL;DR: PICO是一个基于扩散变换器的视觉上下文学习框架,通过单个标注示例实现个性化视觉任务,无需重新训练即可推广到新输入。
- Motivation: 现有视觉模型在个性化任务上表现不佳,需要昂贵的微调或合成数据管道,缺乏灵活性。视觉上下文学习提供了有希望的替代方案,但先前方法局限于狭窄领域任务。
- Method: 提出四面板PICO框架,将扩散变换器重新用作视觉上下文学习器。构建VisRel多样化调优数据集,并引入注意力引导的种子评分器提高可靠性。
- Result: PICO在实验中超越微调和合成数据基线,能够灵活适应新颖用户定义任务,并在识别和生成任务上都表现出良好的泛化能力。
- Conclusion: 任务多样性而非规模驱动鲁棒泛化,PICO为开放式个性化视觉任务提供了有效的免训练解决方案。
[345] Mitigating Hallucination in Multimodal LLMs with Layer Contrastive Decoding
Bingkui Tong,Jiaer Xia,Kaiyang Zhou
Main category: cs.CV
TL;DR: 提出LayerCD方法,通过对比视觉编码器浅层和深层特征的输出分布来过滤多模态大语言模型的幻觉问题
- Motivation: 多模态大语言模型存在幻觉问题,生成与输入图像不一致的输出。研究发现浅层视觉特征更容易导致幻觉,因为它们只捕获有偏见的低层信息,不足以支持高层推理
- Method: LayerCD(层对比解码),通过对比视觉编码器浅层和深层特征生成的输出分布来过滤幻觉
- Result: 在两个幻觉基准测试上进行了广泛实验,LayerCD显著优于当前最先进方法
- Conclusion: LayerCD是一种简单有效的解决多模态大语言模型幻觉问题的方法
[346] GHOST: Hallucination-Inducing Image Generation for Multimodal LLMs
Aryan Yazdan Parast,Parsa Hosseini,Hesam Asadollahzadeh,Arshia Soltani Moakhar,Basim Azam,Soheil Feizi,Naveed Akhtar
Main category: cs.CV
TL;DR: GHOST是一种自动生成诱导多模态大语言模型产生物体幻觉的图像的方法,通过优化图像嵌入空间来误导模型,同时保持目标对象实际不存在,从而发现模型的幻觉漏洞。
- Motivation: 当前多模态大语言模型存在物体幻觉问题,即在图像中不存在物体时模型错误地感知到物体。现有研究使用静态基准测试,无法发现模型特定或未预料的幻觉漏洞。
- Method: GHOST方法在图像嵌入空间中进行优化,误导模型同时保持目标对象不存在,然后引导扩散模型基于该嵌入生成自然图像。生成的图像看起来自然且接近原始输入,但包含微妙的误导线索。
- Result: 该方法在包括GLM-4.1V-Thinking在内的多个模型上实现了超过28%的幻觉成功率,远高于先前数据驱动方法的约1%。生成的图像质量高且确实不包含目标对象。此外,为Qwen2.5-VL优化的图像在GPT-4o上诱导幻觉的成功率达66.5%。
- Conclusion: GHOST不仅是一种诊断工具,还能通过在其生成的图像上进行微调来减轻幻觉问题,为构建更可靠的多模态系统提供了诊断和纠正工具。
[347] DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
Wenkun He,Yuchao Gu,Junyu Chen,Dongyun Zou,Yujun Lin,Zhekai Zhang,Haocheng Xi,Muyang Li,Ligeng Zhu,Jincheng Yu,Junsong Chen,Enze Xie,Song Han,Han Cai
Main category: cs.CV
TL;DR: DC-Gen是一个通过深度压缩潜在空间来加速文本到图像扩散模型的通用框架,在保持基础模型质量的同时显著提升生成效率
- Motivation: 现有的文本到图像扩散模型在生成高质量图像方面表现出色,但在扩展到高分辨率(如4K图像生成)时面临显著的效率挑战,且现有研究很少处理潜在空间内的固有冗余
- Method: 采用后训练管道而非从头训练,首先通过轻量级嵌入对齐训练桥接基础模型潜在空间与深度压缩潜在空间之间的表示差距,然后仅需少量LoRA微调即可解锁基础模型的生成质量
- Result: 在SANA和FLUX.1-Krea上验证了DC-Gen的有效性,DC-Gen-FLUX在NVIDIA H100 GPU上将4K图像生成的延迟降低了53倍,结合NVFP4 SVDQuant后,在单张NVIDIA 5090 GPU上仅需3.5秒生成4K图像,总延迟相比基础FLUX.1-Krea模型降低了138倍
- Conclusion: DC-Gen框架能够在不牺牲生成质量的前提下,显著加速文本到图像扩散模型,特别是在高分辨率图像生成场景下表现出卓越的效率提升
[348] DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder
Junyu Chen,Wenkun He,Yuchao Gu,Yuyang Zhao,Jincheng Yu,Junsong Chen,Dongyun Zou,Yujun Lin,Zhekai Zhang,Muyang Li,Haocheng Xi,Ligeng Zhu,Enze Xie,Song Han,Han Cai
Main category: cs.CV
TL;DR: DC-VideoGen是一个视频生成后训练加速框架,通过深度压缩潜在空间和轻量级微调,可将预训练视频扩散模型的推理延迟降低14.8倍,并支持单GPU生成2160x3840分辨率视频。
- Motivation: 解决视频生成模型计算成本高、推理延迟大的问题,提高视频生成效率并降低资源需求。
- Method: 采用深度压缩视频自编码器(32x/64x空间压缩和4x时间压缩)和AE-Adapt-V适应策略,将预训练模型快速稳定地迁移到新潜在空间。
- Result: 在Wan-2.1-14B模型上仅需10个H100 GPU天完成适配,推理延迟降低14.8倍,质量不受影响,支持单GPU生成4K视频。
- Conclusion: DC-VideoGen为预训练视频扩散模型提供了高效的后训练加速方案,显著提升生成效率并降低硬件要求。
[349] PAD3R: Pose-Aware Dynamic 3D Reconstruction from Casual Videos
Ting-Hsuan Liao,Haowen Liu,Yiran Xu,Songwei Ge,Gengshan Yang,Jia-Bin Huang
Main category: cs.CV
TL;DR: PAD3R是一种从随意拍摄的单目视频中重建可变形3D对象的方法,能够处理包含显著对象变形、大尺度相机运动和有限视角覆盖的长视频序列。
- Motivation: 现有方法难以处理包含大幅对象变形、大尺度相机运动和有限视角覆盖的长视频序列,这些挑战限制了传统系统的应用。
- Method: 训练个性化的对象中心姿态估计器,通过预训练的图像到3D模型进行监督,指导可变形3D高斯表示的优化,并使用长期2D点跟踪进行正则化,结合生成先验和可微分渲染。
- Result: PAD3R能够以类别无关的方式重建高保真、可关节化的3D表示,在挑战性场景中表现出良好的鲁棒性和泛化能力。
- Conclusion: 该方法在动态场景理解和3D内容创建方面具有重要潜力,能够有效处理传统方法难以应对的复杂视频序列。
[350] PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images
Shuoshuo Zhang,Zijian Li,Yizhen Zhang,Jingjing Fu,Lei Song,Jiang Bian,Jun Zhang,Yujiu Yang,Rui Wang
Main category: cs.CV
TL;DR: PixelCraft是一个用于结构化图像(如图表和几何图形)的多智能体系统,通过高保真图像处理和灵活视觉推理显著提升多模态大语言模型的性能。
- Motivation: 现有的基于视觉线索的方法在处理结构化图像时存在图像处理保真度低和推理模式线性僵化的问题,限制了在复杂结构化图像任务上的有效性。
- Method: 构建了一个包含调度器、规划器、推理器、批评器和视觉工具智能体的多智能体系统。通过微调MLLM作为基础模型,结合传统计算机视觉算法实现像素级定位,采用动态三阶段工作流程(工具选择、智能体讨论、自我批评)和图像记忆机制。
- Result: 在具有挑战性的图表和几何基准测试中,PixelCraft显著提升了高级MLLMs的视觉推理性能,为结构化图像推理设立了新标准。
- Conclusion: PixelCraft通过高保真图像处理和灵活的视觉推理方法,有效解决了结构化图像处理中的感知错误和推理僵化问题,为复杂视觉推理任务提供了创新解决方案。
[351] FlashI2V: Fourier-Guided Latent Shifting Prevents Conditional Image Leakage in Image-to-Video Generation
Yunyang Ge,Xinhua Cheng,Chengshu Zhao,Xianyi He,Shenghai Yuan,Bin Lin,Bin Zhu,Li Yuan
Main category: cs.CV
TL;DR: FlashI2V是一种新的图像到视频生成方法,通过潜在偏移和傅里叶引导解决现有方法中的条件图像泄漏问题,在域外数据上表现最佳。
- Motivation: 现有I2V方法存在条件图像泄漏问题,导致运动缓慢、颜色不一致等性能下降,并且在域外场景中性能降低。
- Method: 提出FlashI2V方法,包含:(1) 潜在偏移:通过从噪声潜在中减去条件图像信息来修改流匹配的源分布和目标分布;(2) 傅里叶引导:使用傅里叶变换获得的高频幅度特征来加速收敛并调整生成视频的细节水平。
- Result: 实验结果表明,该方法有效克服条件图像泄漏,在域外数据上实现最佳泛化性能。仅使用13亿参数,在Vbench-I2V上获得53.01的动态度分数,超越了CogVideoX1.5-5B-I2V和Wan2.1-I2V-14B-480P。
- Conclusion: FlashI2V通过创新的潜在偏移和傅里叶引导机制,成功解决了I2V生成中的条件图像泄漏问题,在域外数据上表现出优越的泛化能力。
[352] Visual Jigsaw Post-Training Improves MLLMs
Penghao Wu,Yushan Zhang,Haiwen Diao,Bo Li,Lewei Lu,Ziwei Liu
Main category: cs.CV
TL;DR: Visual Jigsaw是一个自监督的后训练框架,通过视觉拼图任务增强多模态大语言模型的视觉理解能力,无需额外注释或视觉生成组件。
- Motivation: 当前多模态大语言模型的后训练主要依赖文本中心的方法,视觉输入仅用于提取稀疏线索进行文本推理,缺乏对视觉信号的深入理解。
- Method: 将视觉输入分割、打乱,让模型通过自然语言输出正确的排列顺序,与可验证奖励的强化学习对齐,无需额外视觉生成组件。
- Result: 在图像、视频和3D数据上的实验显示,在细粒度感知、时序推理和3D空间理解方面有显著提升。
- Conclusion: 自监督视觉中心任务在后训练多模态大语言模型中具有巨大潜力,有望激发更多视觉中心预训练设计的研究。
[353] VGGT-X: When VGGT Meets Dense Novel View Synthesis
Yang Liu,Chuanchen Luo,Zimo Tang,Junran Peng,Zhaoxiang Zhang
Main category: cs.CV
TL;DR: VGGT-X是一个解决3D基础模型在密集新视角合成中应用问题的系统,通过内存高效的VGGT实现、自适应全局对齐和鲁棒3DGS训练,在无COLMAP初始化的情况下实现了最先进的密集新视角合成和姿态估计性能。
- Motivation: 现有新视角合成方法依赖SfM获取的3D属性(如相机姿态和点云),但SfM在低纹理或低重叠捕获中速度慢且脆弱。3D基础模型虽然速度快,但在密集视图设置中存在VRAM负担增加和输出不完善的问题。
- Method: 提出VGGT-X系统,包含:1)可扩展到1000+图像的内存高效VGGT实现;2)用于增强VGGT输出的自适应全局对齐;3)鲁棒的3DGS训练实践。
- Result: 实验表明这些措施显著缩小了与COLMAP初始化管线的保真度差距,在密集无COLMAP新视角合成和姿态估计中实现了最先进的结果。
- Conclusion: VGGT-X为3D基础模型和密集新视角合成的未来发展提供了重要见解,分析了与COLMAP初始化渲染的剩余差距原因。
cs.LG
[354] Localizing Adversarial Attacks To Produces More Imperceptible Noise
Pavan Reddy,Aditya Sanjay Gujral
Main category: cs.LG
TL;DR: 本文系统评估了局部对抗攻击,发现相比全局攻击,局部攻击具有更低的像素扰动、更高的PSNR和SSIM,但计算成本更高且攻击成功率略有下降。迭代方法比单步方法对局部化约束更具鲁棒性。
- Motivation: 传统对抗攻击主要关注全局扰动,而局部对抗噪声的潜力尚未充分探索,需要系统评估其有效性、不可感知性和计算效率。
- Method: 通过引入二元掩码将噪声限制在特定区域,在FGSM、PGD和C&W等广泛使用的方法上系统评估局部对抗攻击。
- Result: 局部攻击相比全局攻击实现了显著更低的平均像素扰动、更高的峰值信噪比和结构相似性指数,但计算工作量增加且攻击成功率略有降低。
- Conclusion: 迭代方法比单步方法对局部化约束更具鲁棒性,本研究为推进攻击策略和设计鲁棒防御系统提供了实用见解。
[355] MonoCon: A general framework for learning ultra-compact high-fidelity representations using monotonicity constraints
Shreyas Gokhale
Main category: cs.LG
TL;DR: MonoCon是一个通过功能约束学习高质量表示的框架,使用单调MLP头连接到预训练编码器,在保持性能的同时获得更紧凑和鲁棒的嵌入表示。
- Motivation: 学习高质量、鲁棒、高效且解耦的表示是AI的核心挑战。现有方法主要依赖架构和优化约束,本文引入功能约束作为第三种方法。
- Method: 在预训练编码器上附加小型单调MLP头,通过对比损失和单调性约束引导编码器与头的协同适应,学习鲁棒、解耦且紧凑的嵌入。
- Result: 在CIFAR-100上,表示比基线紧凑9倍、鲁棒性提高1.5倍,保持99%的5-NN分类准确率;在SNLI上,表示紧凑3.4倍、鲁棒性提高1.4倍,STSb分数略有下降。
- Conclusion: 通过功能约束学习的鲁棒超紧凑表示为从边缘计算到云规模检索等不同场景提供了统一解决方案。
[356] Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Adversarial Scheduling
Jonas Ngnawé,Maxime Heuillet,Sabyasachi Sahoo,Yann Pequignot,Ola Ahmad,Audrey Durand,Frédéric Precioso,Christian Gagné
Main category: cs.LG
TL;DR: 该论文研究了从非鲁棒预训练模型进行鲁棒微调(RFT)的挑战,发现了次优迁移现象,并提出Epsilon-Scheduling方法和预期鲁棒性指标来解决这个问题。
- Motivation: 尽管开源仓库中有大量非鲁棒预训练模型,但它们在鲁棒微调(RFT)中的潜力尚未被充分理解。现有方法在同时实现下游任务适应性和对抗鲁棒性方面面临挑战。
- Method: 系统研究从非鲁棒模型进行RFT,提出Epsilon-Scheduling方法(在训练过程中调度扰动强度)和预期鲁棒性评估指标。
- Result: 实验表明,使用鲁棒目标微调非鲁棒模型会导致次优迁移,在挑战性场景下甚至可能失败。Epsilon-Scheduling能有效防止次优迁移并持续提升预期鲁棒性。
- Conclusion: Epsilon-Scheduling方法成功解决了从非鲁棒预训练模型进行鲁棒微调时的次优迁移问题,为鲁棒迁移学习提供了有效解决方案。
[357] Graph Your Own Prompt
Xi Ding,Lei Wang,Piotr Koniusz,Yongsheng Gao
Main category: cs.LG
TL;DR: 提出了图一致性正则化(GCR)框架,通过将模型预测衍生的关系图结构注入学习过程,促进类别感知的语义特征表示,实现自我提示式的特征优化。
- Motivation: 深度网络学习到的丰富表示往往包含与模型预测语义相矛盾的噪声类间相似性,需要一种方法来强制特征级关系反映类别一致的预测行为。
- Method: 在任意深度引入参数自由的图一致性层(GCLs),构建批次级特征相似图并与全局类别感知掩码预测图对齐,通过多层跨空间图对齐机制和自适应权重学习来增强语义结构。
- Result: 实验表明GCR促进了更清晰的特征结构、更强的类内凝聚力和改进的泛化能力,在各种网络和数据集上都能改善语义结构。
- Conclusion: GCR提供了一种从预测结构学习的新视角,是模型无关、轻量级的方法,能够在不修改架构或训练过程的情况下提升特征质量。
[358] Temporal Generalization: A Reality Check
Divyam Madaan,Sumit Chopra,Kyunghyun Cho
Main category: cs.LG
TL;DR: 该论文研究了机器学习模型在仅依赖过去数据的情况下能否实现对未来数据的泛化,比较了参数插值和参数外推两种方法,发现在多种时序任务中,没有任何方法能始终优于简单使用最新模型参数的基线。
- Motivation: 机器学习模型在分布偏移下性能往往下降,作者希望探究仅使用过去数据时模型能否有效泛化到未来数据,以及实现这种泛化的条件。
- Method: 探索了两种主要方法:参数插值(过去模型参数的凸组合)和参数外推(超越过去参数凸包的显式外推),在语言建模、新闻摘要、卫星图像分类等多样化时序任务上进行基准测试。
- Result: 实证结果表明,在所有场景中,评估的方法都没有一致地优于简单使用最新可用模型参数的基线方法。
- Conclusion: 在没有未来数据访问或对数据生成过程的稳健假设的情况下,这些结果强调了泛化和外推到未来数据的内在困难,并对声称实现这种泛化的主张提出了警示。
[359] GBSK: Skeleton Clustering via Granular-ball Computing and Multi-Sampling for Large-Scale Data
Yewang Chen,Junfeng Li,Shuyin Xia,Qinghong Lai,Xinbo Gao,Guoyin Wang,Dongdong Cheng,Yi Liu,Yi Wang
Main category: cs.LG
TL;DR: 提出GBSK算法,利用粒度球技术处理大规模数据聚类,通过多采样构建多粒度粒度球来提取数据骨架结构,显著降低计算开销并保持高聚类精度。
- Motivation: 为了解决大规模数据集聚类任务的计算效率问题,需要开发能够有效捕捉数据底层结构的高效算法。
- Method: 使用粒度球技术,通过多采样数据集构建多粒度粒度球,逐步揭示统计"骨架"作为原始数据结构和分布的空间抽象。还提出了自适应版本AGBSK简化参数设置。
- Result: 在标准计算硬件上的大量实验表明,GBSK在大规模数据集上实现了高效率和强聚类性能,包括处理高达1亿个实例、256维的数据集。
- Conclusion: GBSK算法通过粒度球技术有效解决了大规模数据聚类问题,在保持高精度的同时显著提升了计算效率,适用于实际部署场景。
[360] FedAgentBench: Towards Automating Real-world Federated Medical Image Analysis with Server-Client LLM Agents
Pramit Saha,Joshua Strong,Divyanshu Mishra,Cheng Ouyang,J. Alison Noble
Main category: cs.LG
TL;DR: 提出了一个基于智能代理的联邦学习框架FedAgentBench,用于自动化医疗联邦学习的协调和管理,减少人工干预。
- Motivation: 现实世界中的联邦学习部署面临复杂的操作挑战,如客户端选择、协调、数据预处理等,现有工作忽视了这些实际协调问题,需要自主的代理驱动系统。
- Method: 引入代理驱动的联邦学习框架,包含40种FL算法和201个数据集,模拟6种医疗环境,评估14个开源和10个专有LLM的代理性能。
- Result: GPT-4.1和DeepSeek V3等代理核心能够自动化FL管道的多个阶段,但基于隐式目标的复杂互依赖任务对最强模型仍具挑战性。
- Conclusion: 代理驱动的FL系统有潜力减少医疗联邦学习的人工干预,但复杂任务的自动化仍需进一步研究。
[361] Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation
Pengxiang Li,Zechen Hu,Zirui Shang,Jingrong Wu,Yang Liu,Hui Liu,Zhi Gao,Chenrui Shi,Bofei Zhang,Zihao Zhang,Xiaochuan Shi,Zedong YU,Yuwei Wu,Xinxiao Wu,Yunde Jia,Liuyu Xiang,Zhaofeng He,Qing Li
Main category: cs.LG
TL;DR: DART是一个用于GUI代理的解耦强化学习训练框架,通过异步模块设计解决了多轮交互缓慢和高质量交互数据不足的问题,显著提升了系统效率和训练效果。
- Motivation: 基于视觉语言模型的GUI代理在自动化桌面和移动任务方面具有潜力,但面临强化学习应用的两大挑战:与GUI环境的多轮交互速度慢,以及代理-环境交互数据质量不足。
- Method: 提出DART框架,将训练系统分为四个异步模块:环境集群、滚动服务、数据管理器和训练器,实现非阻塞通信、异步训练、滚动轨迹采样和按工作器模型同步。引入自适应数据管理方案,包括预收集成功轨迹、动态调整滚动参数、选择性训练高熵步骤和使用截断重要性采样。
- Result: 系统效率显著提升:1.6倍GPU利用率用于滚动,1.9倍训练吞吐量,5.5倍环境利用率。在OSWorld基准测试中,DART-GUI-7B达到42.13%的任务成功率,比基础模型提升14.61%,比开源SOTA高7.34%。
- Conclusion: DART框架有效解决了GUI代理强化学习训练中的效率和数据质量问题,显著提升了任务成功率,并将完全开源训练框架、数据和模型检查点,为代理强化学习开源社区做出贡献。
[362] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention
Jintao Zhang,Haoxu Wang,Kai Jiang,Shuo Yang,Kaiwen Zheng,Haocheng Xi,Ziteng Wang,Hongzhou Zhu,Min Zhao,Ion Stoica,Joseph E. Gonzalez,Jun Zhu,Jianfei Chen
Main category: cs.LG
TL;DR: 提出SLA(稀疏线性注意力)方法,通过将注意力权重分为关键、边缘和可忽略三类,分别应用O(N²)、O(N)计算和跳过计算,实现20倍注意力计算减少,在保持生成质量的同时显著加速扩散模型。
- Motivation: 扩散变换器(DiT)模型中,由于长序列长度和二次复杂度,注意力延迟是主要瓶颈。研究发现注意力权重可分为高秩大权重和低秩剩余权重两部分。
- Method: SLA将注意力权重分类为关键、边缘和可忽略三类,分别应用O(N²)注意力、O(N)注意力和跳过计算,并将这些计算融合到单个GPU内核中,支持前向和后向传播。
- Result: SLA将注意力计算减少95%,在Wan2.1-1.3B上实现13.7倍注意力计算加速和2.2倍端到端视频生成加速,且不降低生成质量。
- Conclusion: SLA通过融合稀疏和线性注意力,仅需少量微调步骤即可显著加速DiT模型,在保持生成质量的同时大幅减少计算开销。
[363] GPS-MTM: Capturing Pattern of Normalcy in GPS-Trajectories with self-supervised learning
Umang Garg,Bowen Zhang,Anantanjit Subrahmanya,Chandrakanth Gudavalli,BS Manjunath
Main category: cs.LG
TL;DR: GPS-MTM是一个用于大规模移动数据的轨迹基础模型,通过分解移动行为为状态和动作两种模态,使用双向Transformer和掩码建模目标,在轨迹填充和下一站预测等任务上表现出色。
- Motivation: 基础模型在文本、视觉和视频理解方面取得了显著进展,现在有望在轨迹建模领域实现类似突破。现有方法将轨迹扁平化为坐标流,无法充分捕捉人类移动的语义模式。
- Method: 将移动行为分解为两种互补模态:状态(兴趣点类别)和动作(智能体转移)。使用双向Transformer和自监督掩码建模目标,重建跨模态的缺失片段,无需手动标签即可学习丰富的语义关联。
- Result: 在Numosim-LA、Urban Anomalies和Geolife等基准数据集上,GPS-MTM在轨迹填充和下一站预测等下游任务中持续优于其他方法,在需要上下文推理的动态任务中优势最为明显。
- Conclusion: GPS-MTM成为轨迹分析的强大基础模型,将移动数据确立为大规模表示学习的一流模态。代码已发布供进一步参考。
[364] AQUAIR: A High-Resolution Indoor Environmental Quality Dataset for Smart Aquaculture Monitoring
Youssef Sabiri,Walid Houmaidi,Ouail El Maadi,Yousra Chtouki
Main category: cs.LG
TL;DR: AQUAIR是一个开放获取的室内水产养殖环境数据集,记录了空气温度、湿度、CO2等6个环境变量,填补了水产养殖领域头部空间环境数据的空白。
- Motivation: 由于缺乏描述室内养殖池周围空气环境的公共数据集,限制了预测和异常检测工具的发展,因此需要创建这样的数据集来支持智能水产养殖研究。
- Method: 在摩洛哥Azrou的水产养殖设施中使用Awair HOME监测器每5分钟采样,记录6个IEQ变量,采用ISO标准安装高度,经过校准检查,并使用开源处理流程进行数据质量控制。
- Result: 获得了超过23,000个时间戳观测数据,显示稳定的环境条件(中位CO2=758 ppm,PM2.5=12微克/立方米),并观察到明显的喂食时间峰值。
- Conclusion: AQUAIR填补了智能水产养殖信息学的关键空白,为数据驱动的机器学习课程和环境传感研究提供了可复现的基准数据集。
[365] Clebsch-Gordan Transformer: Fast and Global Equivariant Attention
Owen Lewis Howell,Linfeng Zhao,Xupeng Zhu,Yaoyao Qian,Haojie Huang,Lingfeng Sun,Wil Thomason,Robert Platt,Robin Walters
Main category: cs.LG
TL;DR: 提出Clebsch-Gordan Transformer,通过新颖的Clebsch-Gordon卷积在SO(3)不可约表示上实现高效全局注意力,解决了现有等变transformer仅支持低阶等变特征和局部上下文窗口的限制。
- Motivation: 全局注意力机制是transformer架构成功的关键,但存在二次计算成本问题。等变模型在物理、生化、计算机视觉和机器人任务中通常能获得更高精度,但现有等变transformer仅支持低阶等变特征和局部上下文窗口,限制了其表达能力和性能。
- Method: 使用新颖的Clebsch-Gordon卷积在SO(3)不可约表示上实现高效全局注意力,达到O(N log N)输入令牌复杂度,并通过利用Clebsch-Gordon矩阵的稀疏性实现高阶不可约特征的良好扩展性。
- Result: 在n体模拟、QM9、ModelNet点云分类和机器人抓取数据集等多个基准测试中,相比现有等变transformer在GPU内存大小、速度和准确性方面均显示出明显优势。
- Conclusion: Clebsch-Gordan Transformer能够高效建模所有阶的等变特征,同时实现线性对数复杂度的全局注意力,在多个任务中超越了现有等变transformer的性能。
[366] Semantic Editing with Coupled Stochastic Differential Equations
Jianxin Zhang,Clayton Scott
Main category: cs.LG
TL;DR: 提出使用耦合随机微分方程来指导预训练生成模型的采样过程,实现图像编辑,无需重新训练或额外网络
- Motivation: 现有图像编辑方法常常扭曲细节或引入伪影,需要一种能保持视觉相似性同时实现语义编辑的方法
- Method: 使用耦合SDEs,通过相同相关噪声驱动源图像和编辑图像,引导采样过程保持像素级一致性
- Result: 方法无需重新训练即可工作,实现高提示保真度和接近像素级的一致性
- Conclusion: 耦合SDEs是控制生成AI的简单而强大的工具
[367] Rethinking JEPA: Compute-Efficient Video SSL with Frozen Teachers
Xianhang Li,Chen Huang,Chun-Liang Li,Eran Malach,Josh Susskind,Vimal Thilak,Etai Littwin
Main category: cs.LG
TL;DR: 提出SALT方法,通过两阶段训练(像素重建+掩码潜在预测)替代EMA机制,实现更高效、可扩展的视频表示学习。
- Motivation: V-JEPA中的EMA机制虽然防止表示崩溃,但增加了模型选择的复杂性并耦合了师生架构。
- Method: 两阶段训练:先训练目标编码器进行像素重建,然后冻结该教师模型,训练学生模型预测掩码区域的潜在表示。
- Result: SALT在多个基准测试中优于V-JEPA 2编码器,计算效率更高,且学生模型对教师质量具有鲁棒性。
- Conclusion: SALT是EMA自蒸馏的简单、可扩展且计算高效的替代方案,建议将计算预算主要分配给学生模型。
[368] SAIP: A Plug-and-Play Scale-adaptive Module in Diffusion-based Inverse Problems
Lingyu Wang,Xiangming Meng
Main category: cs.LG
TL;DR: 提出SAIP模块,自适应调整扩散模型中先验与似然项的平衡尺度,无需重新训练即可提升图像复原质量
- Motivation: 现有方法使用固定尺度来平衡先验得分与似然得分,这种静态设计在不同时间步和任务中表现不佳,限制了性能和泛化能力
- Method: SAIP是一个即插即用模块,在每个时间步自适应地优化尺度参数,无需重新训练扩散主干网络,可无缝集成到现有采样器中
- Result: SAIP在多种图像复原任务中持续改善重建质量,包括具有挑战性的场景
- Conclusion: SAIP通过自适应尺度调整解决了现有方法的局限性,为扩散模型在逆问题求解中提供了更优的平衡策略
[369] A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity
Giordano Cicchetti,Eleonora Grassucci,Danilo Comminiello
Main category: cs.LG
TL;DR: 提出了TRIANGLE方法,一种新的三模态相似度度量,通过在高维嵌入空间中计算三角形面积来改进三个模态的联合对齐,避免了额外的融合层或成对相似度计算。
- Motivation: 当前多模态模型存在模态对齐不充分的问题,某些模态可能未被有效对齐,导致模型在下游任务中无法充分利用多模态信息。
- Method: TRIANGLE方法直接在模态嵌入的高维空间中计算三角形面积相似度,改进三个模态的联合对齐,无需额外的融合层或成对相似度计算。
- Result: 在视频-文本和音频-文本检索、音频-视频分类等三模态任务中,TRIANGLE取得了最先进的结果,相比基于余弦相似度的方法将Recall@1性能提升了高达9个百分点。
- Conclusion: TRIANGLE通过三角形面积相似度显著提升了多模态建模性能,同时提供了可解释的对齐原理,是多模态学习中的有效方法。
[370] Score-based Membership Inference on Diffusion Models
Mingxing Rao,Bowen Qu,Daniel Moyer
Main category: cs.LG
TL;DR: 本文提出了SimA,一种基于分数推理的成员推理攻击方法,通过分析扩散模型预测的噪声向量来检测训练样本的成员身份。研究发现潜在扩散模型比像素空间模型更安全,并提出了增强LDM训练鲁棒性的策略。
- Motivation: 扩散模型的成员推理攻击是一个紧迫的隐私问题,现有方法需要多次查询,效率低下。本文旨在开发一种基于理论分析的、高效的成员推理攻击方法。
- Method: 提出SimA单查询攻击方法,利用扩散模型预测的噪声向量,分析其范数编码的训练集邻近性来揭示成员身份。通过理论分析表明去噪器输出指向训练样本的核加权局部均值。
- Result: SimA在DDPM和LDM等模型上表现一致强劲。发现潜在扩散模型比像素空间模型更安全,这是由于潜在自编码器施加的强信息瓶颈。通过调整β-VAE中的正则化超参数,提出了增强LDM训练鲁棒性的策略。
- Conclusion: 研究巩固了基于分数的成员推理攻击理论,同时强调需要更好地理解VAE的反演问题,而不仅仅是扩散过程的反演。
[371] Uncertainty-Aware Deep Learning for Wildfire Danger Forecasting
Spyros Kondylatos,Gustau Camps-Valls,Ioannis Papoutsis
Main category: cs.LG
TL;DR: 提出了一种不确定性感知的深度学习框架,用于改进短期野火危险预测,通过联合建模认知不确定性和偶然不确定性来提高预测的准确性和可靠性。
- Motivation: 野火是最严重的自然灾害之一,对人类社会和生态系统构成重大威胁。深度学习在野火危险预测中显示出潜力,但由于缺乏不确定性量化,其可靠性受到质疑,阻碍了实际应用。
- Method: 开发了一个不确定性感知的深度学习框架,能够同时捕捉认知不确定性(模型不确定性)和偶然不确定性(数据不确定性),用于增强短期野火危险预测。
- Result: 在次日预测中,最佳模型相比确定性基线将F1分数提高了2.3%,预期校准误差降低了2.1%。实验证实了不确定性估计的可靠性,并展示了其在决策支持中的实际效用。
- Conclusion: 该方法显著提高了野火危险预测的准确性和可靠性,推进了可信赖野火深度学习系统的发展。两种不确定性类型在具有挑战性的条件下提供互补的见解,强调了联合建模的价值。
cs.SD
[372] Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention
Kai Li,Kejun Gao,Xiaolin Hu
Main category: cs.SD
TL;DR: 提出了一种高效的视听语音分离方法Dolphin,通过轻量级视觉编码器和音频分离器,在保持高质量分离的同时大幅提升了计算效率。
- Motivation: 现有的视听语音分离方法通常参数量大、计算成本高,这在语音分离仅作为预处理步骤的应用中不可接受,需要开发更高效的解决方案。
- Method: 开发了DP-LipCoder双路径轻量级视频编码器将唇部运动转换为离散音频对齐语义标记,构建了包含全局-局部注意力块的轻量级编码器-解码器分离器。
- Result: 在三个基准数据集上,Dolphin不仅超越了当前最先进模型的分离质量,还实现了显著效率提升:参数量减少50%以上,MACs减少2.4倍以上,GPU推理速度提升6倍以上。
- Conclusion: Dolphin为现实场景中的高性能视听语音分离提供了一个实用且可部署的解决方案。
[373] Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music
Tianle Wang,Sirui Zhang,Xinyi Tong,Peiyang Yu,Jishang Chen,Liangke Zhao,Xinpu Gao,Yves Zhu,Tiezheng Ge,Bo Zheng,Duo Xu,Yang Liu,Xin Jin,Feng Yu,Songchun Zhu
Main category: cs.SD
TL;DR: 提出一种无监督机器学习算法,从符号音乐数据中发现重复出现的音乐模式(称为"音乐词"),通过两阶段EM学习框架解决音乐语义模糊性问题。
- Motivation: 音乐中的重复模式反映了作曲的认知过程,但由于音乐解释的语义模糊性,提取这些模式具有挑战性。
- Method: 将音乐词发现建模为统计优化问题,采用两阶段EM学习框架:1. 开发音乐词词典;2. 重构音乐数据。
- Result: 与人类专家标注相比,算法达到了0.61的IoU分数,表明最小化编码长度能有效解决语义模糊问题。
- Conclusion: 该方法使计算机能够提取音乐的"基本构建块",支持AI音乐任务和音乐学分析,揭示了人类编码系统优化对音乐语义形成的影响。
[374] MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech
Chengyao Wang,Zhisheng Zhong,Bohao Peng,Senqiao Yang,Yuqi Liu,Haokun Gui,Bin Xia,Jingyao Li,Bei Yu,Jiaya Jia
Main category: cs.SD
TL;DR: MGM-Omni是一个统一的多模态大语言模型,采用双轨令牌架构实现多模态理解和实时语音生成,支持长序列音频感知和流式零样本语音克隆。
- Motivation: 解决传统级联管道中语音合成孤立的问题,实现高效跨模态交互和低延迟流式语音生成,建立端到端的多模态理解和可控个性化长序列语音生成范式。
- Method: 采用"大脑-嘴巴"设计的双轨令牌架构,使用统一训练策略和双音频编码器,结合基于块的并行解码方案,缩小文本-语音令牌率差距。
- Result: 在保持音色一致性、生成自然上下文感知语音以及长序列音频和多模态理解方面优于现有开源模型,实现了数据高效训练。
- Conclusion: MGM-Omni建立了一个高效、端到端的范式,用于多模态理解和可控、个性化的长序列语音生成。
astro-ph.IM
[375] Interpreting deep learning-based stellar mass estimation via causal analysis and mutual information decomposition
Wei Zhang,Qiufan Lin,Yuan-Sen Ting,Shupei Chen,Hengxin Ruan,Song Li,Yifan Wang
Main category: astro-ph.IM
TL;DR: 该论文使用因果分析和互信息分解两种可解释性技术,来解释基于深度学习的星系恒星质量估计模型,揭示输入数据中形态学信息对质量估计的贡献机制。
- Motivation: 由于端到端深度学习模型缺乏可解释性且具有关联性本质,难以理解除积分测光外(如形态学)的额外信息如何贡献于星系物理属性估计任务。提升这方面的理解有助于揭示星系属性间的物理联系和优化数据利用。
- Method: 使用两种可解释性技术:因果分析(揭示变量间因果路径)和互信息分解(量化不同输入数据对恒星质量估计的多组分贡献,包括冗余、独特和协同贡献)。数据来自SDSS和WISE巡天。
- Result: 获得了有意义的结果,为基于图像的模型提供了物理解释,展示了深度学习与可解释性技术结合的优势。
- Conclusion: 这项工作展示了深度学习与可解释性技术结合的价值,有望推动更多数据驱动的天体物理研究,如天体物理参数估计和复杂多元物理过程研究。
cs.CR
[376] Responsible Diffusion: A Comprehensive Survey on Safety, Ethics, and Trust in Diffusion Models
Kang Wei,Xin Yuan,Fushuo Huo,Chuan Ma,Long Yuan,Songze Li,Ming Ding,Dacheng Tao
Main category: cs.CR
TL;DR: 这篇论文对扩散模型的安全、伦理和可信度进行了全面调查,系统分析了其框架、威胁和防御措施,并讨论了关键经验教训、开放挑战和未来研究方向。
- Motivation: 扩散模型在各个领域展现出生成高质量数据的能力,但与传统深度学习系统类似,也存在潜在威胁。为了提供对扩散模型安全性、伦理性和可信度的深入全面见解。
- Method: 全面阐述扩散模型的框架、威胁和防御措施,系统性地检查和分类每种威胁及其对策,提供具体使用案例、潜在危险和防护方法。
- Result: 建立了扩散模型安全威胁的系统分类框架,提出了相应的防御对策,为理解和管理扩散模型的安全风险提供了结构化分析。
- Conclusion: 这项工作旨在不仅加速生成式人工智能技术能力的发展,也促进其应用的成熟度和智慧,为扩散模型安全研究指明了未来方向。
[377] StolenLoRA: Exploring LoRA Extraction Attacks via Synthetic Data
Yixu Wang,Yan Teng,Yingchun Wang,Xingjun Ma
Main category: cs.CR
TL;DR: 本文提出了一种针对LoRA适配模型的新型模型提取攻击方法StolenLoRA,通过合成数据和半监督学习策略,仅用少量查询就能高效提取LoRA模型功能,揭示了PEFT方法的安全漏洞。
- Motivation: LoRA等参数高效微调方法虽然提升了视觉模型适配效率,但其紧凑性带来了新的安全隐患,特别是对模型提取攻击的脆弱性。本文旨在研究LoRA适配模型面临的提取攻击风险。
- Method: 提出StolenLoRA攻击方法:1) 利用大语言模型生成有效提示来合成数据;2) 采用基于分歧的半监督学习策略最大化有限查询的信息增益;3) 训练替代模型来提取LoRA适配模型的功能。
- Result: 实验证明StolenLoRA攻击效果显著,仅用1万次查询就能达到96.60%的攻击成功率,即使在跨骨干网络场景下(攻击者和受害者模型使用不同的预训练骨干)也表现良好。
- Conclusion: 研究揭示了LoRA适配模型对提取攻击的特定脆弱性,强调了为PEFT方法定制鲁棒防御机制的紧迫性。初步探索了基于多样化LoRA部署的防御策略,显示出缓解此类攻击的潜力。
[378] Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack
Yukun Chen,Boheng Li,Yu Yuan,Leyi Qi,Yiming Li,Tianwei Zhang,Zhan Qin,Kui Ren
Main category: cs.CR
TL;DR: 本文提出了一种新型的知识蒸馏条件后门攻击(DCBA),该攻击在教师模型中植入休眠后门,在知识蒸馏过程中激活到学生模型中,即使使用干净的蒸馏数据集也无法检测。
- Motivation: 虽然第三方平台的教师模型可能经过安全验证(如后门检测),但作者发现知识蒸馏过程中存在一个被忽视的严重威胁:蒸馏条件后门攻击。
- Method: 将攻击建模为双层优化问题,提出SCAR方法:内层优化通过优化代理学生模型模拟知识蒸馏过程,外层优化利用代理输出优化教师模型以植入条件后门,使用隐式微分算法解决复杂优化问题。
- Result: 跨多个数据集、模型架构和知识蒸馏技术的广泛实验验证了SCAR的有效性,并证明其对现有后门检测方法具有抵抗力。
- Conclusion: 这项工作揭示了知识蒸馏过程中一个显著但先前被忽视的安全漏洞,强调了在部署深度学习模型时需要更加关注蒸馏过程的安全性。
[379] Of-SemWat: High-payload text embedding for semantic watermarking of AI-generated images with arbitrary size
Benedetta Tondi,Andrea Costanzo,Mauro Barni
Main category: cs.CR
TL;DR: 提出了一种用于文本嵌入的高载荷图像水印方法,能够在AI生成的大规模图像中嵌入语义描述,具有高鲁棒性和不可感知性。
- Motivation: 随着AI图像生成器的普及,需要一种能够在大规模图像中嵌入高载荷语义信息的水印方法,以追踪图像来源和检测语义修改。
- Method: 基于传统水印方案,结合正交码和turbo码提高鲁棒性,采用频域嵌入和感知掩蔽技术增强不可感知性。
- Result: 实验表明该方法对各种图像处理操作具有极高鲁棒性,即使在传统和AI修复后仍能提取嵌入文本,通过图像-文本不匹配分析可揭示语义修改。
- Conclusion: 该方法成功实现了高载荷文本嵌入,为AI生成图像的溯源和完整性验证提供了有效解决方案。
cs.NE
[380] Accuracy-Robustness Trade Off via Spiking Neural Network Gradient Sparsity Trail
Nhan T. Luu
Main category: cs.NE
TL;DR: SNNs在特定架构下具有天然梯度稀疏性,无需显式正则化即可实现最先进的对抗防御性能,但存在鲁棒性与泛化性的权衡。
- Motivation: 脉冲神经网络因其能效高和内存占用小而受到关注,但其在视觉任务中的对抗鲁棒性研究尚不充分。
- Method: 研究发现特定架构配置下SNNs具有天然梯度稀疏性,无需额外正则化即可实现对抗防御。
- Result: SNNs在特定配置下能实现最先进的对抗防御性能,但发现鲁棒性与泛化性之间存在权衡关系。
- Conclusion: 梯度稀疏性有助于提升对抗鲁棒性但会损害泛化能力,而密集梯度则相反,需要在两者间取得平衡。
[381] Hybrid Layer-Wise ANN-SNN With Surrogate Spike Encoding-Decoding Structure
Nhan T. Luu,Duong T. Luu,Pham Ngoc Nam,Truong Cong Thang
Main category: cs.NE
TL;DR: 提出了一种新颖的混合ANN-SNN框架,通过使用替代梯度实现位平面脉冲编码函数的端到端可微分训练,在ANN和SNN层之间实现深度协作。
- Motivation: 现有的混合ANN-SNN方法由于脉冲编码函数的不可微分性,通常采用严格分离的组件或SNN编码器+ANN分类器的结构,缺乏反向传播过程中的深层协作。
- Method: 在传统ANN流水线中集成层级的编码-解码SNN块,使用位平面脉冲编码函数的替代梯度实现端到端可微分训练。
- Result: 该方法在保持脉冲计算效率和时序表示优势的同时,达到了与最先进纯ANN和SNN模型相竞争的准确率。
- Conclusion: 这是首次在混合ANN-SNN背景下实现位平面编码的替代梯度,开创了一类新的混合模型,为未来研究指明了新方向。
eess.AS
[382] AISHELL6-whisper: A Chinese Mandarin Audio-visual Whisper Speech Dataset with Speech Recognition Baselines
Cancan Li,Fei Su,Juan Liu,Hui Bu,Yulong Wan,Hongbin Suo,Ming Li
Main category: eess.AS
TL;DR: 提出了AISHELL6-Whisper数据集和基于Whisper-Flamingo的视听语音识别基线模型,在中文耳语识别任务上取得优异性能。
- Motivation: 中文普通话视听耳语识别因缺乏大规模数据集而发展受限,耳语识别在隐私保护、医疗通讯和噪声敏感环境中具有重要应用价值。
- Method: 构建包含30小时耳语和正常语音的视听数据集,提出基于Whisper-Flamingo框架的AVSR基线模型,采用并行训练策略对齐不同语音类型的嵌入表示,并使用投影层适应耳语语音的频谱特性。
- Result: 在自建数据集测试集上,耳语语音字符错误率为4.13%,正常语音为1.11%;在wTIMIT基准测试中创造了新的最先进结果。
- Conclusion: AISHELL6-Whisper数据集和提出的AVSR基线模型有效推动了中文耳语识别研究,相关资源已开源。
[383] VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
Xin Cheng,Yuyue Wang,Xihua Wang,Yihan Wu,Kaisi Guan,Yijing Chen,Peng Zhang,Xiaojiang Liu,Meng Cao,Ruihua Song
Main category: eess.AS
TL;DR: VSSFlow是一个统一的流匹配框架,将视频到声音(V2S)和视觉文本到语音(VisualTTS)任务整合在一起,通过创新的条件聚合机制处理不同输入信号,在两种任务上都超越了领域特定的最先进基线。
- Motivation: 视频条件下的声音和语音生成通常作为独立任务处理,缺乏统一框架。现有统一尝试面临处理不同条件类型和复杂训练阶段的挑战。
- Method: 使用流匹配框架,通过交叉注意力处理模糊的视频条件,自注意力处理确定的语音转录本,采用端到端联合学习过程,无需额外训练阶段设计。
- Result: 在V2S和VisualTTS基准测试中都超越了领域特定的最先进方法,证明了统一生成模型的潜力。
- Conclusion: VSSFlow成功统一了V2S和VisualTTS任务,通过共享的通用音频先验知识加速收敛、增强条件生成并稳定分类器自由引导过程。
eess.IV
[384] VIRTUS-FPP: Virtual Sensor Modeling for Fringe Projection Profilometry in NVIDIA Isaac Sim
Adam Haroon,Anush Lakshman,Badrinath Balasubramaniam,Beiwen Li
Main category: eess.IV
TL;DR: 提出了VIRTUS-FPP,首个基于物理的虚拟传感器建模框架,用于条纹投影轮廓术,可在NVIDIA Isaac Sim中进行端到端建模,从校准到重建,显著加速实际FPP系统的开发。
- Motivation: 传统条纹投影轮廓术面临复杂校准要求、系统体积庞大和对环境条件敏感的局限性,需要一种更灵活高效的开发方法。
- Method: 利用NVIDIA Isaac Sim的物理渲染和可编程感知能力,构建基于物理的虚拟传感器建模框架,实现从校准到重建的端到端建模,保持与结构光基本原理的数学保真度。
- Result: 实验结果表明VIRTUS-FPP准确建模了对FPP至关重要的光学现象,实现与真实系统相当的结果,同时在系统配置、传感器原型设计和环境控制方面提供前所未有的灵活性。
- Conclusion: 该框架通过在实际实施前实现快速虚拟原型设计,显著加速了真实世界FPP系统的开发。
[385] Explainable Deep Learning for Cataract Detection in Retinal Images: A Dual-Eye and Knowledge Distillation Approach
MohammadReza Abbaszadeh Bavil Soflaei,Karim SamadZamini
Main category: eess.IV
TL;DR: 提出基于深度学习的白内障分类流程,使用Swin-Base Transformer达到98.58%准确率,并通过知识蒸馏获得轻量级模型,在保持高性能的同时显著降低计算成本。
- Motivation: 白内障是全球视力障碍的主要原因,通过视网膜成像进行早期检测对于及时干预至关重要。
- Method: 使用包含5000名患者左右眼底照片的Ocular Disease Recognition数据集,评估了CNN、transformer、轻量级架构和知识蒸馏模型,并提出了双眼Siamese变体模型。
- Result: Swin-Base Transformer达到98.58%准确率和0.9836 F1分数;蒸馏MobileNetV3达到98.42%准确率和0.9787 F1分数;双眼Siamese模型达到98.21%准确率。
- Conclusion: 即使使用轻量级模型也能实现准确、可解释的白内障检测,支持在资源有限环境中的临床整合。
[386] Achieving Fair Skin Lesion Detection through Skin Tone Normalization and Channel Pruning
Zihan Wei,Tapabrata Chakraborti
Main category: eess.IV
TL;DR: 提出了一种基于个体类型学角度(ITA)损失函数的肤色归一化和数据增强方法,结合可适应的元学习联合通道剪枝框架,以解决皮肤病变图像分类模型在多个敏感属性上的公平性问题。
- Motivation: 现有偏置缓解方法通常以准确率下降为代价实现公平性,或仅改善单一属性的公平性,且大多通过数据预处理或后处理而非集成到模型学习本身。
- Method: 使用ITA进行肤色类型估计和自动调整以实现数据集平衡;采用联合通道剪枝框架,内层优化循环通过加权软最近邻损失找到并剪枝局部关键通道,外层优化循环通过元集上的组间方差损失更新各属性权重。
- Result: 在ISIC2019数据集上的实验验证了该方法能同时提高模型在多个敏感属性上的公平性,且不会显著降低准确率。
- Conclusion: 尽管剪枝机制在训练阶段增加了计算成本,但训练通常是离线进行的,更重要的是该方法有效解决了多属性公平性问题。
[387] Consistency Models as Plug-and-Play Priors for Inverse Problems
Merve Gülle,Junno Yun,Yaşar Utku Alçalar,Mehmet Akçakaya
Main category: eess.IV
TL;DR: 提出PnP-CM方法,将一致性模型重新解释为先验的邻近算子,集成到plug-and-play框架中,实现快速收敛的逆问题求解,仅需2-4步即可获得高质量重建结果。
- Motivation: 现有基于一致性模型的逆问题求解器需要额外任务特定训练或使用收敛缓慢的数据保真度操作,不适合大规模问题。
- Method: 将一致性模型重新解释为先验的邻近算子,集成到PnP-ADMM框架中,利用共轭梯度法快速收敛,并通过噪声注入和动量进一步加速。
- Result: 在多种逆问题上(修复、超分辨率、高斯去模糊、MRI重建)获得高质量重建,仅需2-4步即可产生有意义结果,优于同类CM方法。
- Conclusion: PnP-CM是首个为MRI数据集训练的一致性模型,在真实世界逆问题中表现出色,实现了快速高质量重建。
[388] S F-Net: A Multi-Modal Approach to Medical Image Classification via Spatial-Spectral Summarizer Fusion Network
Md. Saiful Bari Siddiqui,Mohammed Imamul Hassan Bhuiyan
Main category: eess.IV
TL;DR: 提出了S
- Motivation: 传统卷积神经网络专注于单一空间域,无法有效捕捉全局模式和频率域特征,限制了医学图像分析的效果。
- Method: 采用双分支框架,将深度空间CNN与提出的浅层频谱编码器SpectraNet融合,SpectraNet包含SpectralFilter层,利用卷积定理通过元素级乘法在傅里叶频谱上应用可学习滤波器。
- Result: 在四个医学影像数据集上一致且显著优于纯空间基线,BRISC2025数据集准确率达98.76%,胸部X光肺炎数据集准确率达93.11%,超越许多更深层的模型。
- Conclusion: 双域方法是医学图像分析中强大且可泛化的范式,网络能根据输入病理动态调整对各分支的依赖。
[389] A University of Texas Medical Branch Case Study on Aortic Calcification Detection
Eric Walser,Peter McCaffrey,Kal Clark,Nicholas Czarnek
Main category: eess.IV
TL;DR: UTMB与Zauron Labs合作,利用AI工具检测主动脉钙化,发现12.4%的编码错误率和2.1%的漏诊率,潜在影响患者护理并挽回31.4万美元年收入。
- Motivation: 主动脉钙化在心血管疾病中具有重要预后价值,但经常被漏报,UTMB希望通过AI技术提高检测和编码准确性。
- Method: 使用高性能图像模型(AUC=0.938)和基于Meta Llama 3.2微调的语言模型,回顾性分析影像和报告数据。
- Result: 在3988名患者(5000次检查)中,发现495名患者存在编码错误,84名患者漏诊,潜在挽回年收入31.4万美元。
- Conclusion: UTMB决定在全系统采用Zauron的Guardian Pro软件,通过AI增强的同行评审和编码,改善患者护理和财务稳定性。
[390] Non-Invasive Detection of PROState Cancer with Novel Time-Dependent Diffusion MRI and AI-Enhanced Quantitative Radiological Interpretation: PROS-TD-AI
Baltasar Ramos,Cristian Garrido,Paulette Narv'aez,Santiago Gelerstein Claro,Haotian Li,Rafael Salvador,Constanza V'asquez-Venegas,Iv'an Gallegos,Yi Zhang,V'ictor Casta~neda,Cristian Acevedo,Dan Wu,Gonzalo C'ardenas,Camilo G. Sotomayor
Main category: eess.IV
TL;DR: 该研究开发了一个名为PROSTDAI的AI增强TDD-MRI软件,用于提高前列腺癌诊断准确性,旨在减少mpMRI的假阳性和假阴性问题。
- Motivation: 多参数MRI在前列腺癌诊断中存在假阳性、假阴性和观察者间一致性中等的问题,需要更准确的诊断工具。
- Method: 结合时间依赖性扩散MRI衍生指标与机器学习技术,开发AI增强TDD-MRI软件,并与PI-RADS v2.1标准对比评估。
- Result: 研究方案已制定,将进行前瞻性评估,验证结果与MRI引导前列腺活检的一致性。
- Conclusion: AI增强TDD-MRI有望提供更稳健、区域特异性的风险预测,减少对读者培训的依赖,提高诊断准确性。
[391] ReCon-GS: Continuum-Preserved Guassian Streaming for Fast and Compact Reconstruction of Dynamic Scenes
Jiaye Fu,Qiankun Gao,Chengxiang Wen,Yanmin Wu,Siwei Ma,Jiaqi Zhang,Jian Zhang
Main category: eess.IV
TL;DR: ReCon-GS是一个存储感知的在线自由视点视频重建框架,通过动态分配多级锚点高斯和层次重构策略,实现了高效训练、高质量渲染和显著内存节省。
- Motivation: 解决在线自由视点视频重建中的慢速逐帧优化、运动估计不一致性和不可持续的存储需求等挑战。
- Method: 使用密度自适应方式动态分配多级锚点高斯来捕捉帧间几何变形,设计动态层次重构策略保持运动表达能力,并引入存储感知优化机制调整锚点高斯密度。
- Result: 在三个数据集上的实验表明,相比最先进方法,训练效率提升约15%,渲染质量更优,内存需求减少超过50%。
- Conclusion: ReCon-GS框架在保持高质量重建的同时,显著提升了训练效率和存储效率,为在线自由视点视频重建提供了有效的解决方案。
[392] Wavelet-Assisted Mamba for Satellite-Derived Sea Surface Temperature Super-Resolution
Wankun Chen,Feng Gao,Yanhai Gan,Jingchao Cao,Junyu Dong,Qian Du
Main category: eess.IV
TL;DR: 提出了一种基于小波辅助Mamba的超分辨率框架WMSR,用于卫星海表温度数据重建,通过低频状态空间模块和高频增强模块分别处理全局信息和纹理细节,在三个SST数据集上表现优于现有方法。
- Motivation: 获取高分辨率海表温度数据具有挑战性,而基于深度神经网络的超分辨率是有效解决方案。Mamba方法在长距离依赖建模方面展现出潜力,但在SST数据超分辨率中的应用尚未充分探索。
- Method: WMSR框架包含两个关键组件:低频状态空间模块(LFSSM)使用2D-SSM捕获输入数据的全局信息,高频增强模块(HFEM)采用像素差异卷积匹配和校正高频特征,实现准确的纹理重建。
- Result: 在三个SST数据集上的综合实验表明,WMSR相比最先进方法表现出更优越的性能。
- Conclusion: WMSR框架成功应用于卫星SST数据超分辨率,通过结合小波变换和Mamba模型,有效提升了重建质量,代码和数据集将公开提供。
[393] A Novel Preprocessing Unit for Effective Deep Learning based Classification and Grading of Diabetic Retinopathy
Pranoti Nage,Sanjay Shitole
Main category: eess.IV
TL;DR: 提出了一种用于早期检测糖尿病视网膜病变(DR)和糖尿病黄斑水肿(DME)的三阶段框架,包括预处理、分割、特征提取和分类。
- Motivation: 早期检测糖尿病视网膜病变至关重要,可以及时干预,预防视力丧失并有效管理糖尿病并发症。
- Method: 使用模糊滤波进行噪声过滤,非线性扩散滤波进行伪影去除,自适应可变距离斑点(AVDS)滤波进行对比度增强。分割采用改进的Mask RCNN,分类使用自空间注意力融合的VGG-16(SSA-VGG-16)。
- Result: 在IDRiD和MESSIDOR数据集上评估了方法的有效性,汉明距离方法在对比度方面表现更好,欧几里得距离显示误差值较小且PSNR较高。
- Conclusion: 所提出的方法能够有效捕获视网膜图像中的全局上下文关系和关键空间区域,提高了DR和DME检测和分级的准确性和鲁棒性。
cs.AI
[394] Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
Zejun Li,Yingxiu Zhao,Jiwen Zhang,Siyuan Wang,Yang Yao,Runzhou Zhao,Jun Song,Bo Zheng,Zhongyu Wei
Main category: cs.AI
TL;DR: 提出Mixture-of-Visual-Thoughts (MoVT)自适应推理范式,通过AdaVaR框架统一不同推理模式并实现上下文自适应模式选择,提升通用视觉推理能力。
- Motivation: 现有视觉推理方法主要关注特定推理模式,虽然在特定领域有改进,但难以发展通用推理能力。
- Method: 提出AdaVaR两阶段自适应视觉推理学习框架:监督冷启动阶段统一学习不同模式,通过精心设计的AdaGRPO算法进行强化学习诱导模式选择能力。
- Result: 实验表明AdaVaR能有效指导模型学习和区分多种模式,执行上下文自适应模式选择,在各种场景下实现一致改进。
- Conclusion: MoVT是构建通用视觉推理模型的有效解决方案。
[395] AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors
Junyang Zhang,Tianyi Zhu,Thierry Tambe
Main category: cs.AI
TL;DR: 提出了Attention Anchor框架,通过跨模态语义分组改善视觉语言模型的注意力机制,减少幻觉并提升性能
- Motivation: 当前视觉语言模型因直接拼接图像和文本标记并使用模态盲位置编码,导致跨模态语义相关标记之间需要长距离注意力,造成幻觉和性能下降
- Method: 提出参数无关的Attention Anchor框架,将语义相似的跨模态标记分组,在相关视觉块附近插入文本标记作为语义路标,引导模型关注正确的图像区域
- Result: 在15个不同指标和基准测试中,13个获得改进,推理任务提升达32%,幻觉基准提升达15%,TinyLLaVA 1B在POPE上超越LLaVA 7B和QwenVL 3B,仅增加0.1%推理时间开销
- Conclusion: Attention Anchor通过混合模态标记分组有效增强跨模态局部性,是首个研究跨模态联合聚类而非单模态分组或后对齐的工作
[396] Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned
Brandon Ong,Tej Deep Pala,Vernon Toh,William Chandra Tjhi,Soujanya Poria
Main category: cs.AI
TL;DR: 本文研究了视觉语言过程奖励模型(VL-PRMs)的设计空间,提出混合数据合成框架和感知聚焦监督方法,在多个多模态基准测试中验证了VL-PRMs在提升视觉语言模型推理可靠性方面的有效性。
- Motivation: 现有视觉语言过程奖励模型(VL-PRMs)依赖蒙特卡洛树搜索进行数据构建,会产生噪声监督信号并限制跨任务泛化能力,需要探索更有效的VL-PRMs设计方法。
- Method: 提出混合数据合成框架(结合MCTS与强VLM判断)、感知聚焦监督方法,并系统评估多种测试时扩展策略。
- Result: 在五个多模态基准测试上的实验表明:VL-PRMs作为结果奖励模型时表现更佳;小模型可匹配或超越大模型;能发掘更强VLM的潜在推理能力;感知级监督带来显著提升;在数学推理数据集上表现良好。
- Conclusion: VL-PRMs能有效提升视觉语言模型的推理可靠性,为VLM的进一步发展提供了重要支持。
[397] BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving
Shu Liu,Wenlin Chen,Weihao Li,Zheng Wang,Lijin Yang,Jianing Huang,Yipin Zhang,Zhongzhan Huang,Ze Cheng,Hao Yang
Main category: cs.AI
TL;DR: BridgeDrive是一种新颖的锚点引导扩散桥策略,用于闭环轨迹规划,通过理论一致的扩散框架将专家驾驶行为锚点转化为细粒度轨迹计划,在Bench2Drive基准测试中实现了最先进的性能。
- Motivation: 基于扩散的规划器在自动驾驶中表现出色,但如何在反应式闭环环境中有效引导这些模型仍然是一个重大挑战。简单的条件化在复杂动态驾驶场景中往往无法提供足够的指导。
- Method: 提出BridgeDrive,一种锚点引导的扩散桥策略,通过理论一致的扩散框架将专家驾驶行为锚点转化为细粒度轨迹计划,并与高效的ODE求解器兼容。
- Result: 在Bench2Drive基准测试中实现了最先进的性能,成功率比现有技术提高了5%。
- Conclusion: BridgeDrive提供了一个原则性的扩散框架,能够有效地将锚点转化为细粒度轨迹计划,并适当响应变化的交通条件,为实时自动驾驶部署提供了关键支持。
[398] Transparent Visual Reasoning via Object-Centric Agent Collaboration
Benjamin Teoh,Ben Glocker,Francesca Toni,Avinash Kori
Main category: cs.AI
TL;DR: OCEAN是一个基于对象中心表示和透明多智能体推理的可解释AI框架,通过博弈论推理过程生成可信且直观的解释。
- Motivation: 解决可解释AI中生成基于人类可理解概念的解释这一核心挑战,特别是在视觉领域。
- Method: 使用对象中心表示和透明多智能体推理过程,通过博弈论驱动智能体就一致且具有区分性的证据达成共识。
- Result: 在两个诊断性多对象数据集上,OCEAN与最先进的黑盒模型性能相当,用户研究显示其解释更直观可信。
- Conclusion: OCEAN提供了一个忠实且可解释的决策过程,在保持竞争力的同时显著提升了解释的直观性和可信度。
[399] Vision-and-Language Navigation with Analogical Textual Descriptions in LLMs
Yue Zhang,Tianyi Ma,Zun Wang,Yanyuan Qiao,Parisa Kordjamshidi
Main category: cs.AI
TL;DR: 提出一种通过多视角文本描述增强视觉语言导航中类比推理的方法,在R2R数据集上显著提升了导航性能
- Motivation: 现有零样本LLM视觉语言导航代理要么将图像编码为文本场景描述(可能过度简化视觉细节),要么处理原始图像输入(可能无法捕获高级推理所需的抽象语义)
- Method: 通过整合多视角的文本描述来促进图像间的类比推理,利用基于文本的类比推理增强全局场景理解和空间推理
- Result: 在R2R数据集上的实验表明导航性能有显著提升
- Conclusion: 通过多视角文本描述和类比推理可以有效增强导航代理的上下文理解能力,提高导航准确性
q-bio.NC
[400] Targeted perturbations reveal brain-like local coding axes in robustified, but not standard, ANN-based brain models
Nikolas McNeal,N. Apurva Ratan Murty
Main category: q-bio.NC
TL;DR: 使用对抗性探针评估人工神经网络脑模型的局部表征几何,发现大多数模型虽然预测准确率高但局部表征脆弱,而鲁棒模型的对抗探针能产生可泛化且语义有意义的变化。
- Motivation: 随着许多人工神经网络脑模型达到相似的预测准确率,需要更强的评估标准来区分模型质量。
- Method: 使用小规模对抗性探针来表征多个高预测准确率ANN脑模型的局部表征几何。
- Result: 发现大多数当代ANN脑模型意外脆弱,对抗敏感性比预测准确率更能区分模型;标准模型依赖不跨架构迁移的局部编码方向;鲁棒模型的对抗探针产生可泛化语义变化。
- Conclusion: 局部表征几何为脑模型评估提供了更强标准,鲁棒模型更稳定的编码轴与神经选择性更一致,并为未来实验提供可测试预测。
[401] End-to-end Topographic Auditory Models Replicate Signatures of Human Auditory Cortex
Haider Al-Tahan,Mayukh Deb,Jenelle Feather,N. Apurva Ratan Murty
Main category: q-bio.NC
TL;DR: TopoAudio模型通过引入皮层布线约束损失,在保持高性能的同时实现了听觉皮层的拓扑组织,是首个展现涌现地形结构的端到端生物基础听觉模型。
- Motivation: 当前听觉感知计算模型缺乏对人类听觉皮层地形结构的评估,现有最佳模型在预测fMRI响应时未能体现这种拓扑组织。
- Method: 在基于耳蜗图输入的语音和环境声音分类任务中,添加2D皮层片上邻近单元具有相似调谐的约束,使用视觉感知中设计的皮层布线约束损失。
- Result: TopoAudio在基准任务上达到与非约束基线模型相当的准确率,能同样好地预测fMRI响应,但额外发展出平滑的拓扑映射(频率拓扑和幅度调制)以及音乐和语音的聚类响应模块。
- Conclusion: 布线长度约束可作为通用正则化工具实现生物对齐的表征,TopoAudio是首个展现涌现地形结构的端到端生物基础听觉模型。
cs.RO
[402] ReSeFlow: Rectifying SE(3)-Equivariant Policy Learning Flows
Zhitao Wang,Yanke Wang,Jiangtao Wen,Roberto Horowitz,Yuxing Han
Main category: cs.RO
TL;DR: 提出了ReSeFlow方法,将整流流技术引入SE(3)-等变扩散模型,实现了快速、测地线一致且计算效率高的机器人操作策略生成。
- Motivation: 解决SE(3)-等变扩散模型在非结构化环境中机器人操作策略生成时推理时间成本高的问题,同时保持数据效率和鲁棒性。
- Method: 将整流流技术整合到SE(3)-等变扩散模型中,使用SE(3)-等变网络保持旋转和平移对称性,实现测地线一致的策略生成。
- Result: 在模拟基准测试中,ReSeFlow仅需一步推理就能达到比基线方法更好的性能,在绘画任务中误差减少48.5%,在旋转三角形任务中减少21.9%。
- Conclusion: ReSeFlow结合了SE(3)等变性和整流流的优势,为生成式策略学习模型在真实世界应用提供了数据和推理效率的解决方案。
[403] Self-driving cars: Are we there yet?
Merve Atasever,Zhuochen Liu,Qingpei Li,Akshay Hitendra Shah,Hans Walker,Jyotirmoy V. Deshmukh,Rahul Jain
Main category: cs.RO
TL;DR: 对CARLA、nuPlan和Waymo三大自动驾驶规划算法排行榜中的方法进行综合分析比较,识别当前趋势、共同挑战和未来研究方向
- Motivation: 自动驾驶领域需要标准化评估平台来比较不同运动规划算法的性能,但目前各大排行榜使用不同数据集和评估协议,缺乏统一比较基准
- Method: 采用CARLA leaderboard v2.0作为统一评估平台,对三大排行榜中的规划方法进行兼容性修改并进行对比分析
- Result: 系统评估了当前主流运动规划方法的优缺点,揭示了现有方法在复杂驾驶场景下的表现差异
- Conclusion: 通过统一比较识别出运动规划研究的主要趋势、共同挑战,并为未来研究方向提供了建议
[404] Robot Learning from Any Images
Siheng Zhao,Jiageng Mao,Wei Chow,Zeyu Shangguan,Tianheng Shi,Rong Xue,Yuxi Zheng,Yijia Weng,Yang You,Daniel Seita,Leonidas Guibas,Sergey Zakharov,Vitor Guizilini,Yue Wang
Main category: cs.RO
TL;DR: RoLA是一个框架,能够将任意真实世界图像转换为交互式、支持物理的机器人环境,无需额外硬件或数字资产,可在几分钟内从各种图像源生成大量视觉运动机器人演示数据。
- Motivation: 传统方法需要额外硬件或数字资产来创建机器人训练环境,限制了机器人数据的可扩展性和可访问性。RoLA旨在通过单张图像直接生成机器人环境,实现机器人数据生成的民主化。
- Method: 结合单视图物理场景恢复的新方法和高效的视觉融合策略,从单张图像中恢复物理场景并生成逼真的数据收集环境。
- Result: RoLA展示了在可扩展机器人数据生成与增强、从互联网图像学习机器人技能、以及单图像真实-仿真-真实系统等多个应用中的多功能性,适用于机械臂和人形机器人。
- Conclusion: RoLA框架通过单张图像即可创建物理启用的机器人环境,显著降低了机器人数据生成的门槛,为机器人学习提供了高效、可扩展的解决方案。
[405] UniPrototype: Humn-Robot Skill Learning with Uniform Prototypes
Xiao Hu,Qi Yin,Yangming Shi,Yang Ye
Main category: cs.RO
TL;DR: UniPrototype是一个通过共享运动基元实现从人类到机器人知识转移的新框架,解决了机器人学习中数据稀缺的问题。
- Motivation: 机器人学习面临数据稀缺的挑战,而人类演示可以从丰富的运动捕捉数据和互联网资源中受益。为了弥合人类和机器人操作能力之间的差距,需要有效的知识转移方法。
- Method: 提出了三个关键贡献:(1) 具有软分配的复合原型发现机制,允许多个基元共同激活以捕捉混合和分层技能;(2) 自适应原型选择策略,自动调整原型数量以匹配任务复杂性;(3) 在仿真环境和真实机器人系统中进行广泛实验验证。
- Result: UniPrototype成功将人类操作知识转移到机器人,相比现有方法显著提高了学习效率和任务性能。
- Conclusion: 该框架有效解决了机器人学习中的数据稀缺问题,通过共享运动基元实现了从人类到机器人的知识转移,代码和数据集将在匿名存储库中发布。
[406] Leave No Observation Behind: Real-time Correction for VLA Action Chunks
Kohei Sendai,Maxime Alvarez,Tatsuya Matsushima,Yutaka Matsuo,Yusuke Iwasawa
Main category: cs.RO
TL;DR: 提出A2C2方法,通过轻量级实时动作块校正头解决VLA模型动作分块导致的延迟和长时程反应性问题,无需重新训练基础策略。
- Motivation: VLA模型使用动作分块提高效率和时序一致性,但这在推理延迟和长时程下会损害反应性。
- Method: A2C2在每个控制步骤运行,结合最新观察、VLA预测动作、动作块内位置特征和基础策略特征,输出逐步骤校正。
- Result: 在动态Kinetix任务套件和LIBERO Spatial上,相比RTC方法,延迟和时程增加时成功率分别提升23%和7%,零延迟长时程下鲁棒性也得到改善。
- Conclusion: A2C2是一种有效、即插即用的机制,可在实时控制中部署高容量分块策略,计算开销小。
[407] RAVEN: Resilient Aerial Navigation via Open-Set Semantic Memory and Behavior Adaptation
Seungchan Kim,Omar Alama,Dmytro Kurdydyk,John Keller,Nikhil Keetha,Wenshan Wang,Yonatan Bisk,Sebastian Scherer
Main category: cs.RO
TL;DR: RAVEN是一个基于3D记忆和行为树的空中语义导航框架,用于非结构化户外环境,通过语义体素射线地图实现长距离规划,结合短距离体素搜索和长距离射线搜索,并利用视觉语言模型提供辅助线索。
- Motivation: 现有语义导航方法主要针对室内环境,受限于空间范围和结构化布局,不适合户外长距离搜索。户外语义导航方法要么依赖反应式策略导致短视行为,要么依赖离线预计算场景图限制在线部署适应性。
- Method: 使用空间一致的语义体素射线地图作为持久记忆,结合短距离体素搜索和长距离射线搜索,利用大视觉语言模型提供辅助线索,通过行为树协调自适应切换行为。
- Result: 在10个逼真户外仿真环境中测试100个语义任务,RAVEN比基线方法性能提升85.25%,并在真实户外环境中通过空中机器人部署验证了实用性。
- Conclusion: RAVEN框架在户外语义导航中表现出色,通过3D记忆和自适应行为树实现了长距离规划和鲁棒操作,解决了户外环境中的目标稀疏性和大规模搜索挑战。
[408] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models
Rokas Bendikas,Daniel Dijkman,Markus Peschl,Sanjay Haresh,Pietro Mazzaglia
Main category: cs.RO
TL;DR: Oat-VLA提出了一种面向对象和智能体的视觉标记化方法,通过大幅减少视觉标记数量(仅需几个标记)来实现高效的视觉-语言-动作模型训练,同时保持性能。
- Motivation: 现有的视觉-语言-动作模型在适应机器人领域时计算成本过高,主要问题在于视觉输入的标记化方案效率低下。
- Method: 基于对象中心表示学习的洞察,引入对场景对象和智能体自身视觉信息的归纳偏置,提出对象-智能体中心标记化方法。
- Result: Oat-VLA在LIBERO套件上的收敛速度至少是OpenVLA的两倍,并在多样化的真实世界拾取放置任务中表现优于OpenVLA。
- Conclusion: 通过对象中心标记化方法可以显著提高VLA模型的训练效率,同时保持甚至提升性能。
[409] Mash, Spread, Slice! Learning to Manipulate Object States via Visual Spatial Progress
Priyanka Mandikal,Jiaheng Hu,Shivin Dass,Sagnik Majumder,Roberto Martín-Martín,Kristen Grauman
Main category: cs.RO
TL;DR: SPARTA是一个统一框架,用于处理物体状态变化类操作任务,如搅拌、涂抹、切片等。它通过空间渐进式物体变化分割图来感知可操作区域与已变换区域,生成结构化策略观察和密集奖励,支持强化学习和贪心控制两种策略变体。
- Motivation: 大多数机器人操作关注物体的运动状态变化(如抓取、放置),但现实世界中许多任务涉及物体物理和视觉状态的渐进式变化(如搅拌、涂抹、切片),这类任务缺乏统一框架。
- Method: SPARTA整合空间渐进式物体变化分割图,通过视觉技能感知特定任务中的可操作区域与已变换区域,生成结构化策略观察(消除外观变化)和密集奖励(捕捉增量进展)。提供两种策略变体:强化学习(无需演示或仿真)和贪心控制(快速轻量部署)。
- Result: 在真实机器人上验证了3个挑战性任务,涉及10种不同的真实物体。相比稀疏奖励和视觉目标条件基线,在训练时间和准确性方面取得显著提升。
- Conclusion: 进展感知的视觉表示是更广泛物体状态操作任务家族的多功能基础,SPARTA为这类任务提供了首个统一框架。
[410] PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization
Siyan Dong,Zijun Wang,Lulu Cai,Yi Ma,Yanchao Yang
Main category: cs.RO
TL;DR: 提出了一种结合学习式初始化和优化式精化的RGB-D SLAM方法,通过相机位姿回归网络预测相对位姿作为优化起点,在剧烈相机运动下实现鲁棒的实时稠密场景重建。
- Motivation: 当前RGB-D SLAM系统在相机经历大视角变化、快速运动或突然抖动时容易失败。基于优化的方法精度高但对初始化敏感,基于学习的方法鲁棒但精度不足。
- Method: 使用相机位姿回归网络从连续RGB-D帧预测度量感知的相对位姿,作为随机优化算法的可靠起点,进一步将深度图像与场景几何对齐。
- Result: 在挑战性基准测试中优于最佳竞争对手,在稳定运动序列上保持相当精度,系统可实时运行。
- Conclusion: 结合简单而原则性的技术可以在不稳定运动下实现鲁棒性,同时保持稠密重建的精度。
[411] CEDex: Cross-Embodiment Dexterous Grasp Generation at Scale from Human-like Contact Representations
Zhiyuan Wu,Rolandos Alexandros Potamias,Xuyang Zhang,Zhongqun Zhang,Jiankang Deng,Shan Luo
Main category: cs.RO
TL;DR: 提出CEDex方法,通过将机器人运动学模型与生成的人类接触表示对齐,实现跨形态灵巧抓取合成,构建了包含500K物体、20M抓取的最大跨形态抓取数据集
- Motivation: 现有方法要么依赖缺乏人类运动学理解的物理优化,要么需要局限于拟人结构的手动数据收集过程,需要大量可靠多样的抓取数据来实现通用机器人操作
- Method: 使用在人类接触数据上预训练的条件变分自编码器生成人类接触表示,通过拓扑合并进行运动学对齐,然后基于符号距离场进行物理感知约束的抓取优化
- Result: 构建了迄今最大的跨形态抓取数据集,包含500K物体和20M抓取,实验表明CEDex优于最先进方法,数据集能提供高质量多样的抓取
- Conclusion: CEDex通过桥接人类抓取运动学和机器人运动学,实现了有效的跨形态灵巧抓取合成,为通用机器人操作提供了重要基础
[412] DRCP: Diffusion on Reinforced Cooperative Perception for Perceiving Beyond Limits
Lantao Li,Kang Yang,Rui Song,Chen Sun
Main category: cs.RO
TL;DR: 提出了DRCP框架,通过跨模态协作感知和轻量级扩散细化模块,在动态驾驶环境中实时提升感知鲁棒性。
- Motivation: 解决实际部署中由于部分检测和噪声累积导致的检测精度限制问题。
- Method: 集成两个关键组件:精确金字塔跨模态跨代理模块和掩码-扩散-掩码聚合模块,分别进行注意力融合和扩散细化。
- Result: 在移动平台上实现实时性能,在挑战性条件下显著提高鲁棒性。
- Conclusion: DRCP框架有效解决了协作感知中的检测精度问题,具备实际部署价值。
[413] AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation
Ryosuke Takanami,Petr Khrapchenkov,Shu Morikuni,Jumpei Arima,Yuta Takaba,Shunsuke Maeda,Takuya Okubo,Genki Sano,Satoshi Sekioka,Aoi Kadoya,Motonari Kambara,Naoya Nishiura,Haruto Suzuki,Takanori Yoshimoto,Koya Sakamoto,Shinnosuke Ono,Hu Yang,Daichi Yashima,Aoi Horo,Tomohiro Motoda,Kensuke Chiyoma,Hiroshi Ito,Koki Fukuda,Akihito Goto,Kazumi Morinaga,Yuya Ikeda,Riko Kawada,Masaki Yoshikawa,Norio Kosuge,Yuki Noguchi,Kei Ota,Tatsuya Matsushima,Yusuke Iwasawa,Yutaka Matsuo,Tetsuya Ogata
Main category: cs.RO
TL;DR: 提出了AIRoA MoMa数据集,一个用于移动操作的大规模多模态数据集,包含同步的RGB图像、关节状态、六轴腕部力-扭矩信号和机器人内部状态,以及用于分层学习和错误分析的两层注释方案。
- Motivation: 随着机器人从受控环境转向非结构化的人类环境,构建能够可靠遵循自然语言指令的通用智能体仍然是一个核心挑战。现有数据集缺乏同步的力-扭矩传感、分层注释和明确的失败案例。
- Method: 收集了25,469个episode(约94小时)的数据,使用HSR机器人,包含同步的多模态数据,并采用新颖的两层注释方案(子目标和原始动作)。
- Result: 创建了一个标准化在LeRobot v2.1格式中的大规模数据集,独特地整合了移动操作、接触丰富的交互和长时程结构。
- Conclusion: AIRoA MoMa为推进下一代视觉-语言-动作模型提供了关键基准,数据集已在HuggingFace上发布。
cs.GR
[414] DiffTex: Differentiable Texturing for Architectural Proxy Models
Weidan Xiong,Yongli Wu,Bochuan Zeng,Jianwei Guo,Dani Lischinski,Daniel Cohen-Or,Hui Huang
Main category: cs.GR
TL;DR: 提出了一种从无序照片自动生成建筑代理模型纹理图的方法,通过建立UV图与输入图像像素的对应关系,使用可微分渲染优化混合参数,确保纹理的一致性和视觉保真度。
- Motivation: 建筑代理模型的几何简化导致颜色和几何细节丢失,需要纹理来补偿这些损失,但从无序RGB照片中保留原始密集重建的丰富纹理信息仍然是一个挑战。
- Method: 建立UV图上纹理元素与输入图像像素的对应关系,每个纹理元素的颜色计算为相关像素值的加权混合,使用可微分渲染优化混合参数以确保光度一致性和透视一致性,同时保持无缝纹理连贯性。
- Result: 实验结果表明该方法在不同建筑模型和不同摄影条件下都具有有效性和鲁棒性,能够创建保持视觉保真度和结构细节的高质量纹理。
- Conclusion: 该方法能够从无序照片集合中自动生成逼真的建筑代理模型纹理,解决了几何简化带来的细节损失问题,为实时渲染提供了高质量的纹理支持。
[415] Automated design of compound lenses with discrete-continuous optimization
Arjun Teh,Delio Vicini,Bernd Bickel,Ioannis Gkioulekas,Matthew O'Toole
Main category: cs.GR
TL;DR: 提出了一种自动联合优化复合透镜连续和离散参数的方法,通过结合梯度优化和马尔可夫链蒙特卡洛采样算法,能够优化透镜元素数量和类型等离散参数,相比传统方法在速度和清晰度权衡方面取得更好效果。
- Motivation: 传统复合透镜设计方法只能优化连续参数(如透镜曲率),需要专家干预来实现拓扑结构变化,限制了设计空间的探索能力。
- Method: 结合梯度优化和定制的马尔可夫链蒙特卡洛采样算法,使用跨维度突变和近轴投影操作进行高效全局探索,能够同时优化连续参数和离散参数(如透镜元素数量和类型)。
- Result: 在各种透镜设计任务中,该方法有效探索了扩展的复合透镜设计空间,相比先前方法产生更好的设计,推动了自动透镜设计在速度-清晰度权衡方面的边界。
- Conclusion: 该方法通过联合优化连续和离散参数,实现了更全面的复合透镜自动化设计,在性能优化方面超越了传统方法。
[416] ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing
Xiang Tang,Ruotong Li,Xiaopeng Fan
Main category: cs.GR
TL;DR: ZeroScene是一个零样本3D场景生成和纹理编辑系统,利用大型视觉模型实现单图像到3D场景重建和纹理编辑,确保场景连贯性和多视角一致性。
- Motivation: 现有方法在复杂环境中难以同时保证单个资产质量和整体场景连贯性,纹理编辑技术也难以维持局部连续性和多视角一致性。
- Method: 提取对象级2D分割和深度信息推断空间关系,联合优化3D和2D投影损失更新对象姿态,采用扩散模型约束和掩码引导渐进图像生成策略进行纹理编辑,结合PBR材质估计。
- Result: 实验结果表明,该框架不仅确保生成资产的几何和外观准确性,还能忠实重建场景布局并生成与文本提示高度匹配的详细纹理。
- Conclusion: ZeroScene成功实现了零样本3D场景重建和纹理编辑,在保持场景连贯性和多视角一致性方面表现出色。
[417] DFG-PCN: Point Cloud Completion with Degree-Flexible Point Graph
Zhenyu Shu,Jian Yao,Shiqing Xin
Main category: cs.GR
TL;DR: 提出DFG-PCN点云补全框架,通过自适应节点度分配和几何感知图集成模块,解决传统方法在几何复杂度不均区域表现不佳的问题。
- Motivation: 传统点云补全方法使用固定局部区域划分(如k近邻),无法处理形状不同区域几何复杂度高度不均的问题,导致低效表示和次优重建,特别是在细粒度细节或结构不连续区域。
- Method: 提出DFG-PCN框架:1)使用结合特征变化和曲率的细节感知度量自适应分配节点度;2)引入几何感知图集成模块,使用曼哈顿距离进行边聚合,并通过细节引导融合局部和全局特征。
- Result: 在多个基准数据集上的广泛实验表明,该方法持续优于最先进的方法。
- Conclusion: DFG-PCN通过自适应节点度分配和几何感知特征融合,有效提升了点云补全性能,特别是在复杂几何区域。
[418] StrucADT: Generating Structure-controlled 3D Point Clouds with Adjacency Diffusion Transformer
Zhenyu Shu,Jiajun Shen,Zhongui Chen,Xiaoguang Han,Shiqing Xin
Main category: cs.GR
TL;DR: 提出了StrucADT模型,通过形状结构(部件存在性和邻接关系)来控制3D点云生成,解决了现有方法缺乏可控性的问题。
- Motivation: 现有3D生成模型难以生成符合用户特定需求的可控点云形状,限制了3D点云生成的大规模应用。
- Method: 构建StructureGraph表示,包含StrucADT模型:StructureGraphNet提取结构感知特征,cCNF Prior学习邻接控制的特征分布,Diffusion Transformer基于特征和邻接关系生成结构一致的点云。
- Result: 在ShapeNet数据集上实现了高质量、多样化的可控点云生成,达到了最先进的性能。
- Conclusion: 提出的结构可控点云生成方法能够基于用户指定的形状结构生成可控点云,有效解决了3D点云生成缺乏控制的问题。
[419] Diff-3DCap: Shape Captioning with Diffusion Models
Zhenyu Shu,Jiawei Wen,Shiyang Li,Shiqing Xin,Ligang Liu
Main category: cs.GR
TL;DR: Diff-3DCap是一种基于连续扩散模型的3D形状描述方法,通过投影视图表示3D对象,利用预训练的视觉语言模型指导生成过程,无需额外分类器。
- Motivation: 传统3D形状描述方法依赖昂贵的体素表示或物体检测技术,但效果不佳。需要一种更有效的方法来解决这一挑战。
- Method: 使用投影视图序列表示3D对象,采用连续扩散模型进行描述生成。在正向阶段通过高斯噪声扰动嵌入描述,在反向阶段预测重构注释,并利用预训练视觉语言模型的视觉嵌入作为指导信号。
- Result: 实验结果表明,Diff-3DCap能够达到与当前最先进方法相媲美的性能。
- Conclusion: Diff-3DCap提供了一种有效的3D形状描述解决方案,通过扩散模型和视觉语言模型的结合,在无需额外分类器的情况下实现了良好的性能。
[420] ReLumix: Extending Image Relighting to Video via Video Diffusion Models
Lezhong Wang,Shutong Jin,Ruiqi Cui,Anders Bjorholm Dahl,Jeppe Revall Frisvad,Siavash Bigdeli
Main category: cs.GR
TL;DR: ReLumix是一个新颖的视频重照明框架,通过将重照明算法与时间合成解耦,使任何图像重照明技术都能无缝应用于视频。
- Motivation: 现有方法缺乏灵活性,限制用户使用特定的重照明模型。视频后期制作中的光照控制是一个关键但难以实现的目标。
- Method: 采用两阶段流程:艺术家使用任意图像重照明技术处理参考帧,然后通过微调的稳定视频扩散模型将目标光照传播到整个序列。引入门控交叉注意力机制和平滑特征融合,以及时间引导策略。
- Result: 尽管在合成数据上训练,但ReLumix在真实世界视频上表现出良好的泛化能力,在视觉保真度方面有显著改进。
- Conclusion: 该方法为动态光照控制提供了一个可扩展且多功能的解决方案。
[421] Neural Visibility of Point Sets
Jun-Hao Wang,Yi-Yang Tian,Baoquan Chen,Peng-Shuai Wang
Main category: cs.GR
TL;DR: 提出一种基于深度学习的方法,将点云可见性判定作为二分类任务,使用3D U-Net提取特征并结合MLP预测可见性,显著优于传统方法。
- Motivation: 传统点云可见性判定方法如HPR存在计算效率低、对噪声敏感、处理凹区域和低密度点云效果差等问题,需要更高效鲁棒的解决方案。
- Method: 使用3D U-Net提取视角无关的点特征,结合共享MLP利用提取的特征和视角方向预测点可见性,端到端训练,使用渲染3D模型生成的真实可见性标签。
- Result: 在准确性和计算效率上显著优于HPR,在大型点云上实现126倍加速,对噪声和不同点云密度具有鲁棒性,在ShapeNet、ABC和真实数据集上验证有效。
- Conclusion: 该方法在点云可见性判定任务中表现出色,具有高精度、高效率、强鲁棒性和良好泛化能力,适用于多种应用场景。
[422] Light-SQ: Structure-aware Shape Abstraction with Superquadrics for Generated Meshes
Yuhan Wang,Weikai Chen,Zeyu Hu,Runze Zhang,Yingda Yin,Ruoyu Wu,Keyang Luo,Shengju Qian,Yiyan Ma,Hongyi Li,Yuan Gao,Yuhuan Zhou,Hao Luo,Wan Wang,Xiaobin Shen,Zhaowei Li,Kuixin Zhu,Chuanlang Hong,Yueyue Wang,Lijie Feng,Xin Wang,Chen Change Loy
Main category: cs.GR
TL;DR: Light-SQ是一个基于超二次曲面的优化框架,通过SDF雕刻、结构感知体积分解和自适应残差修剪等方法,实现结构感知的形状抽象,支持多尺度拟合和局部细化,为UGC应用提供高效、高保真且可编辑的3D资产创建方案。
- Motivation: 在用户生成内容(UGC)应用中,非专业用户依赖图像到3D生成模型创建3D资产。基于基元的形状抽象通过将高分辨率网格压缩为紧凑、可编辑的表示,为UGC场景提供有前景的解决方案。
- Method: 1. SDF雕刻:迭代更新目标符号距离场,减少基元重叠
- 块-重生长-填充策略:基于结构感知体积分解指导基元放置
- 自适应残差修剪:基于SDF更新历史抑制过度分割,确保紧凑结果
- 支持多尺度拟合,实现局部细化以保留精细几何细节
- Result: 在扩展的3DGen-Prim基准测试中,Light-SQ能够为复杂生成几何实现高效、高保真且可编辑的形状抽象,推进3D UGC创建的可行性。
- Conclusion: Light-SQ通过结构感知的优化方法,显著提升了基于超二次曲面的形状抽象能力,为UGC应用中的3D资产创建提供了有效的解决方案。
[423] CharGen: Fast and Fluent Portrait Modification
Jan-Niklas Dihlmann,Arnela Killguss,Hendrik P. A. Lensch
Main category: cs.GR
TL;DR: CharGen是一个结合概念滑块和流式扩散采样的字符图像编辑系统,通过修复步骤保持细节,实现快速精确的编辑控制。
- Motivation: 解决扩散模型在字符图像编辑中细粒度控制、生成速度和视觉保真度之间的权衡问题。
- Method: 结合属性特定的概念滑块和StreamDiffusion采样流水线,提出轻量级修复步骤来恢复细节。
- Result: 相比InstructPix2Pix和Google Gemini,编辑速度提升2-4倍,实现精确编辑控制和身份一致的结果。
- Conclusion: CharGen在字符图像编辑中实现了速度、控制精度和视觉质量的平衡。
[424] Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives
AmirHossein Zamani,Bruno Roy,Arianna Rampini
Main category: cs.GR
TL;DR: 提出了一种无监督可微分框架,用于自动生成语义感知和可见性感知的UV映射,解决了传统手动UV映射的瓶颈问题。
- Motivation: 现有3D生成模型依赖手动UV映射,这是一个耗时且需要专业技能的过程。现有自动方法缺乏语义感知(UV图表应在形状间对齐语义相似部分)和可见性感知(切割缝应在不易被看到的区域)。
- Method: 使用无监督可微分框架,结合语义感知和可见性感知目标。语义感知:将网格分割为语义部分,应用无监督学习的每部分UV参数化骨干网络,聚合部分图表为统一UV图集。可见性感知:使用环境光遮蔽作为曝光代理,通过可微分AO加权缝目标将切割缝引导至遮挡区域。
- Result: 通过定性和定量评估,该方法生成的UV图集比现有基线方法更好地支持纹理生成,并减少了可感知的缝伪影。
- Conclusion: 提出的方法成功自动化了网格参数化过程,生成了语义和可见性感知的UV映射,显著提升了纹理生成质量并减少了视觉伪影。
[425] LayerD: Decomposing Raster Graphic Designs into Layers
Tomoyuki Suzuki,Kang-Jun Liu,Naoto Inoue,Kota Yamaguchi
Main category: cs.GR
TL;DR: LayerD是一种将栅格图形设计分解为可重新编辑图层的方法,通过迭代提取未遮挡的前景图层来解决图层分解问题。
- Motivation: 设计师在图层表示中创建和编辑图形设计,但一旦合成到栅格图像中,基于图层的编辑就变得不可能。
- Method: 提出LayerD方法,通过迭代提取未遮挡的前景图层来分解栅格图形设计,并利用图层通常具有均匀外观的假设进行有效细化。
- Result: 实验表明LayerD成功实现了高质量的分解,并优于基线方法。
- Conclusion: LayerD能够与最先进的图像生成器和基于图层的编辑一起使用,为创意工作流程提供可重新编辑的图层分解能力。
cs.CL
[426] Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval
Shubhashis Roy Dipta,Francis Ferraro
Main category: cs.CL
TL;DR: Q2E是一种查询到事件分解方法,用于零样本多语言文本到视频检索,通过分解查询来增强对简化人类查询的理解,并在多模态融合中表现出色。
- Motivation: 改进复杂现实世界事件相关视频的识别和检索,通过自动提取LLMs和VLMs中的潜在参数知识来增强对简化查询的理解。
- Method: 提出Q2E方法,使用LLMs和VLMs中嵌入的知识分解查询,支持视觉和语音输入,采用基于熵的融合评分进行零样本融合。
- Result: 在两个多样化数据集和多个检索指标上的评估显示,Q2E优于多个最先进的基线方法,音频信息的集成显著改善了文本到视频检索性能。
- Conclusion: Q2E方法通过分解查询和融合多模态知识,有效提升了零样本多语言文本到视频检索的性能,音频信息的加入带来显著改进。
[427] LLMs Behind the Scenes: Enabling Narrative Scene Illustration
Melissa Roemmele,John Joon Young Chung,Taewook Kim,Yuqian Sun,Alex Calderwood,Max Kreminski
Main category: cs.CL
TL;DR: 该论文提出了一种使用LLM作为接口来提示文生图模型,为故事文本自动生成场景插图的流程,并构建了SceneIllustrations数据集用于跨模态叙事转换研究。
- Motivation: 生成式AI能够将内容从一种媒介转换为另一种媒介,特别是在讲故事方面,视觉插图可以照亮原本以文本表达的故事。本文专注于叙事场景插图生成任务。
- Method: 使用LLM作为接口来提示文生图模型,给定原始故事文本生成场景插图。将该流程应用于一个著名的故事语料库,为这些故事中的场景合成插图,并通过人工标注任务获得插图质量的成对判断。
- Result: 构建了SceneIllustrations数据集,作为未来跨模态叙事转换工作的新资源。分析表明LLM能够有效表达故事文本隐含的场景知识,这对生成和评估插图具有重要影响。
- Conclusion: LLM能够有效表达故事文本隐含的场景知识,这种能力对于生成和评估插图具有重要影响,为跨模态叙事转换提供了新的研究资源和方法。
[428] ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning
Jasin Cekinmez,Omid Ghahroodi,Saad Fowad Chandle,Dhiman Gupta,Ehsaneddin Asgari
Main category: cs.CL
TL;DR: ADAM是一个评估和改进多模态大语言模型在传记推理能力的框架,包含多语言多模态数据集AdamDB、基于布鲁姆分类法的评估基准AdamBench,以及针对传记上下文优化的检索增强生成系统AdamRAG。
- Motivation: 传记推理是事实知识的关键维度但研究不足,需要系统评估LLM在此领域的能力,特别是解决幻觉问题。
- Method: 构建包含400万人的多语言多模态数据集AdamDB,设计基于布鲁姆分类法的认知结构化评估AdamBench,并提出针对传记优化的检索增强生成系统AdamRAG。
- Result: AdamRAG显著提升开源模型性能,对闭源模型有适度改善,在低阶推理上效果最明显。流行度强烈影响准确性,面部图像的多模态输入改善较小且不稳定。
- Conclusion: ADAM建立了首个基于认知、文化和多模态的传记评估基准和框架,推动了多语言、准确且抗幻觉的多模态大语言模型发展。
[429] CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding
Xi Zhang,Zaiqiao Meng,Jake Lever,Edmond S. L. Ho
Main category: cs.CL
TL;DR: 提出Clinical Contrastive Cecoding (CCD)框架,通过双阶段对比机制减少放射学多模态大语言模型中的医学幻觉问题,无需训练即可提升临床准确性。
- Motivation: 多模态大语言模型在放射学中生成临床无依据的描述(医学幻觉),这在要求准确性的医疗应用中存在严重风险。
- Method: 引入CCD框架,整合任务特定放射学专家模型的结构化临床信号,通过双阶段对比机制在生成过程中细化token级logits。
- Result: 在三个数据集和多个模型上的实验表明,CCD在放射学报告生成任务上持续提升性能,在MIMIC-CXR数据集上使最先进模型的RadGraph-F1指标提升高达17%。
- Conclusion: CCD提供了一个轻量级且可泛化的解决方案,有效缓解医学幻觉问题,在放射学中成功桥接专家模型和多模态大语言模型。
eess.SP
[430] YOLO-based Bearing Fault Diagnosis With Continuous Wavelet Transform
Po-Heng Chou,Wei-Lung Mao,Ru-Ping Lin
Main category: eess.SP
TL;DR: 提出基于YOLO的框架,使用连续小波变换的时频谱图进行轴承故障诊断,在多个数据集上取得高精度和泛化能力。
- Motivation: 传统方法难以有效捕捉轴承故障的瞬态特征,需要开发能够同时实现故障分类和位置可视化的诊断方法。
- Method: 将一维振动信号通过Morlet小波变换为时频谱图,然后使用YOLOv9、v10和v11模型进行故障类型分类和定位。
- Result: 在CWRU、PU和IMS数据集上,YOLOv11分别达到99.4%、97.8%和99.5%的mAP分数,显著优于基线MCNN-LSTM模型。
- Conclusion: CWT-YOLO框架为旋转机械状态监测提供了高精度、可泛化且能直接可视化故障位置的实用解决方案。
[431] Introducing Multimodal Paradigm for Learning Sleep Staging PSG via General-Purpose Model
Jianheng Zhou,Chenyu Liu,Jinan Zhou,Yi Ding,Yang Liu,Haoran Luo,Ziyu Jia,Xinliang Zhou
Main category: eess.SP
TL;DR: 提出了一种新的睡眠分期方法,将一维PSG信号转换为二维波形图像,利用多模态大模型模拟临床诊断实践,在三个公共数据集上表现优于现有方法。
- Motivation: 现有自动睡眠分期方法通常从复杂的PSG信号中提取特征并训练领域特定模型,缺乏直观性且需要大量专业数据集。
- Method: 将原始一维PSG时间序列转换为直观的二维波形图像,然后微调多模态大模型学习这些表示。
- Result: 在ISRUC、MASS、SHHS三个公共数据集上的实验表明,该方法使通用模型无需事先接触睡眠数据即可获得稳健的分期能力,且解释分析显示模型学会了模拟人类专家基于PSG图像的视觉诊断流程。
- Conclusion: 该方法在准确性和鲁棒性上持续优于最先进的基线方法,突显了其在医疗应用中的效率和实用价值。
cs.HC
[432] TraitSpaces: Towards Interpretable Visual Creativity for Human-AI Co-Creation
Prerna Luthra
Main category: cs.HC
TL;DR: 提出基于心理学和艺术家访谈的视觉创造力建模框架,涵盖四个领域:内在、外在、想象和道德世界,定义了12个创造力特质,使用GPT-4.1标注2万件艺术品,评估从CLIP图像嵌入中学习这些特质的能力。
- Motivation: 将文化美学洞察与计算建模相结合,为艺术家、研究人员和AI系统提供共享语言和可解释工具,实现有意义的协作,而非将创造力简化为数字。
- Method: 基于心理学理论和艺术家访谈定义12个创造力特质,使用GPT-4.1对SemArt数据集中的2万件艺术品进行标注,评估从CLIP图像嵌入中学习这些特质的可行性。
- Result: 环境对话性和救赎弧等特质预测可靠性高(R²≈0.64-0.68),而记忆印记等特质仍具挑战性,揭示了纯视觉编码的局限性。可视化创造力特质空间支持可解释的、特质感知的协同创作。
- Conclusion: 该框架成功连接了文化美学洞察与计算建模,提供了可解释的工具支持艺术家、研究者和AI系统之间的协作,同时承认了纯视觉方法在捕捉某些创造力维度上的局限性。
Powered by Deepseek & arXiv Daily AI Enhanced