Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] GR3EN: Generative Relighting for 3D Environments
Xiaoyan Xing,Philipp Henzler,Junhwa Hur,Runze Li,Jonathan T. Barron,Pratul P. Srinivasan,Dor Verbin
Main category: cs.CV
TL;DR: 提出一种将视频到视频重光照扩散模型输出蒸馏到3D重建中的方法,实现大规模房间尺度场景的可控3D重光照,避免解决困难的逆渲染问题。
- Motivation: 现有3D场景重光照方法需要解决欠定或病态的逆渲染问题,难以在复杂真实世界场景中产生高质量结果。虽然生成式图像和视频扩散模型在重光照方面有进展,但仅限于2D图像/视频重光照或单个物体的3D重光照。
- Method: 通过将视频到视频重光照扩散模型的输出蒸馏到3D重建中,绕过困难的逆渲染问题,构建灵活系统来处理复杂真实世界场景的3D重建重光照。
- Result: 在合成和真实世界数据集上验证了该方法能够忠实渲染新光照条件下的场景新视角。
- Conclusion: 该方法实现了房间尺度场景的可控3D重光照,避免了传统逆渲染方法的困难,为复杂真实世界场景的重光照提供了灵活解决方案。
[2] Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory
Dohun Lee,Chun-Hao Paul Huang,Xuelin Chen,Jong Chul Ye,Duygu Ceylan,Hyeonho Jeong
Main category: cs.CV
TL;DR: Memory-V2V:首个解决多轮视频编辑中跨一致性问题的框架,通过显式记忆机制增强现有视频扩散模型,保持编辑序列一致性并减少30%计算开销。
- Motivation: 现实世界视频编辑通常是迭代过程,用户需要多轮交互来优化结果。现有视频编辑器在多轮编辑中难以保持跨一致性(cross-consistency),即无法确保连续编辑结果之间的连贯性。
- Method: 1. 为现有视频到视频模型添加显式记忆机制;2. 使用准确检索和动态标记化策略,基于先前编辑结果条件化当前编辑步骤;3. 在DiT骨干网络中引入可学习的标记压缩器,压缩冗余条件标记同时保留关键视觉线索。
- Result: 在视频新视角合成和文本条件长视频编辑等挑战性任务上验证:1. 生成视频的跨一致性显著提升;2. 计算开销最小化,整体加速30%;3. 任务特定性能保持或优于最先进基线。
- Conclusion: Memory-V2V首次解决了多轮视频编辑中的跨一致性问题,通过显式记忆机制有效保持编辑序列的连贯性,同时通过标记压缩实现高效计算,为迭代式视频编辑提供了实用解决方案。
[3] FeTTL: Federated Template and Task Learning for Multi-Institutional Medical Imaging
Abhijeet Parida,Antonia Alomar,Zhifan Jiang,Pooneh Roshanitabrizi,Austin Tapp,Ziyue Xu,Syed Muhammad Anwar,Maria J. Ledesma-Carbayo,Holger R. Roth,Marius George Linguraru
Main category: cs.CV
TL;DR: FeTTL是一个联邦学习框架,通过联合学习全局模板和任务模型来对齐多机构医学影像数据分布,显著提升模型性能。
- Motivation: 联邦学习在医学影像应用中面临数据分布偏移和异质性问题,不同机构的采集协议、扫描仪类型和患者群体差异导致模型性能下降,需要解决这些挑战以实现稳健的多机构协作学习。
- Method: 提出联邦模板与任务学习(FeTTL)框架,同时学习全局模板和任务模型来对齐客户端之间的数据分布,通过模板学习实现数据分布对齐,任务模型完成具体医学影像任务。
- Result: 在视网膜眼底视盘分割和组织病理学转移分类两个多机构医学影像任务上,FeTTL显著优于现有联邦学习方法(p值<0.002),实验证明联合学习模板和任务对性能提升至关重要。
- Conclusion: FeTTL为缓解联邦学习中的分布偏移提供了原则性和可扩展的解决方案,支持在真实世界多机构环境中部署稳健模型,联合学习模板和任务的方法对医学影像联邦学习具有重要意义。
[4] Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments
Aditya K Surikuchi,Raquel Fernández,Sandro Pezzelle
Main category: cs.CV
TL;DR: 该研究评估多模态模型在足球视频中识别重要子事件的能力,发现现有模型性能接近随机水平,主要依赖单一模态且多模态融合效果差
- Motivation: 基础模型被广泛用于从时序多模态事件生成语言,但模型识别视频中重要子事件的能力尚不清楚。本研究旨在评估模型区分足球比赛中重要与非重要子事件的能力,这是叙述或总结多模态事件的基本前提
- Method: 利用足球比赛集锦视频中隐含的人类重要性偏好构建新数据集,无需额外标注成本。使用该数据集比较多个最先进的多模态模型,并通过超越标准评估指标的分析揭示模型行为模式
- Result: 多模态模型性能接近随机水平,模型倾向于依赖单一主导模态,在多源信息融合方面效果不佳。分析揭示了模型处理多模态数据样本级异质性的局限性
- Conclusion: 需要模块化架构来处理多模态数据的样本级异质性,以及互补的训练程序来最大化跨模态协同效应。研究强调了当前多模态模型在识别重要事件方面的不足
[5] Coarse-to-Fine Non-rigid Multi-modal Image Registration for Historical Panel Paintings based on Crack Structures
Aline Sindel,Andreas Maier,Vincent Christlein
Main category: cs.CV
TL;DR: 提出一种基于裂纹特征的多模态图像配准方法,用于历史面板画分析,采用粗到细的非刚性配准策略,结合CNN关键点检测和GNN匹配,实现高效精确的多模态图像对齐。
- Motivation: 历史面板画的多模态图像分析需要像素级对齐,目前多依赖手动配准,耗时且精度有限。由于图像分辨率差异大、尺寸巨大、存在非刚性形变以及模态依赖的内容差异,自动配准具有挑战性。
- Method: 提出粗到细非刚性多模态配准方法:1)利用历史画作裂纹特征作为配准线索;2)使用CNN进行关键点联合检测与描述;3)采用GNN进行基于块的描述符匹配;4)基于局部单应性重投影误差过滤匹配点;5)引入多级关键点细化方法处理混合分辨率图像。
- Result: 创建了包含大量关键点标注的多模态面板画数据集和包含五个多模态域及不同分辨率的测试集。消融研究验证了各模块的有效性,相比竞争的关键点、密集匹配和细化方法,取得了最佳配准结果。
- Conclusion: 该方法能显著减少历史面板画多模态图像分析中的手动配准工作,提高配准速度和精度,为艺术技术研究提供高效工具。
[6] Cognitively-Inspired Tokens Overcome Egocentric Bias in Multimodal Models
Bridget Leonard,Scott O. Murray
Main category: cs.CV
TL;DR: 论文提出在LLaVA-1.5-13B模型中引入视角标记,通过嵌入身体关键点线索或抽象旋转表示来编码方向,显著提升了多模态语言模型在空间推理和视角采择任务上的性能。
- Motivation: 当前多模态语言模型在语义视觉语言任务上表现良好,但在需要采用其他智能体视觉视角的空间推理任务上存在困难。这些错误反映了持续的自我中心偏差,并引发了对当前模型是否支持异中心推理的疑问。受人类空间认知启发,需要解决模型在视角采择任务上的局限性。
- Method: 引入视角标记——专门化的嵌入向量,通过两种方式编码方向:(1) 基于具身身体关键点线索;(2) 支持心理旋转的抽象表示。将这些标记集成到LLaVA-1.5-13B模型中,并在合成和自然基准测试(Isle Bricks V2、COCO、3DSRBench)上进行评估。
- Result: 视角标记显著提高了模型在二级视觉视角采择任务上的准确性。基于旋转的标记能够泛化到非人类参考智能体。表征分析表明,微调增强了基础模型中已有的潜在方向敏感性,表明多模态语言模型包含异中心推理的前兆但缺乏适当的内部结构。
- Conclusion: 将认知基础的空间结构直接嵌入到标记空间中,为视角采择和更类似人类的空间推理提供了一种轻量级、模型无关的机制。这表明多模态语言模型已经具备了异中心推理的潜力,只需要适当的内部结构调整。
[7] VTFusion: A Vision-Text Multimodal Fusion Network for Few-Shot Anomaly Detection
Yuxin Jiang,Yunkang Cao,Yuqi Cheng,Yiheng Zhang,Weiming Shen
Main category: cs.CV
TL;DR: VTFusion是一个针对少样本异常检测的视觉-文本多模态融合框架,通过自适应特征提取器和跨模态融合模块,在工业检测场景中显著提升了性能。
- Motivation: 现有少样本异常检测方法主要依赖自然场景预训练特征,忽略了工业检测所需的领域特定语义;同时,当前的多模态融合策略多为简单的特征拼接,未能解决视觉与文本模态间的语义不对齐问题,导致跨模态干扰下的鲁棒性不足。
- Method: 提出VTFusion框架:1) 引入图像和文本模态的自适应特征提取器,学习任务特定表示,并生成多样合成异常增强特征判别性;2) 设计多模态预测融合模块,包含促进跨模态信息交换的融合块和生成精细化像素级异常图的分割网络。
- Result: 在MVTec AD和VisA数据集上,2-shot场景下分别达到96.8%和86.2%的图像级AUROC;在本文引入的工业汽车塑料部件真实数据集上达到93.5%的AUPRO,展示了在实际工业场景中的适用性。
- Conclusion: VTFusion通过领域自适应的特征提取和有效的跨模态融合,显著提升了少样本异常检测在工业场景中的性能,为解决视觉-文本语义不对齐问题提供了有效方案,具有实际工业应用价值。
[8] ResAgent: Entropy-based Prior Point Discovery and Visual Reasoning for Referring Expression Segmentation
Yihao Wang,Jusheng Zhang,Ziyi Tang,Keze Wang,Meng Yang
Main category: cs.CV
TL;DR: EBD-VBR:一种新的RES框架,通过熵基点发现和视觉基推理解决MLLM方法中粗边界框导致冗余点提示以及文本坐标推理不可靠的问题,在多个基准数据集上达到SOTA。
- Motivation: 现有基于MLLM的RES方法存在两个关键限制:1)MLLM生成的粗边界框导致冗余或非判别性的点提示;2)依赖文本坐标推理不可靠,无法区分视觉相似的干扰物。
- Method: 提出EBD-VBR框架,包含熵基点发现(EBD)和视觉基推理(VBR)。EBD通过建模粗边界框内的空间不确定性,将点选择视为信息最大化过程;VBR通过联合视觉语义对齐验证点正确性。采用从粗到细的工作流程:边界框初始化、熵引导点发现、视觉基验证、掩码解码。
- Result: 在RefCOCO、RefCOCO+、RefCOCOg和ReasonSeg四个基准数据集上进行广泛评估,在所有四个基准上均实现了新的最先进性能。
- Conclusion: EBD-VBR框架通过熵基点和视觉基推理,能够以最少的提示生成准确且语义基础的细分掩码,有效解决了现有RES方法的局限性。
[9] A Cosine Network for Image Super-Resolution
Chunwei Tian,Chengyuan Zhang,Bob Zhang,Zhiwu Li,C. L. Philip Chen,David Zhang
Main category: cs.CV
TL;DR: 提出CSRNet用于图像超分辨率,通过设计异构块提取互补结构信息,结合线性与非线性信息增强鲁棒性,并使用余弦退火机制优化训练过程。
- Motivation: 虽然深度卷积神经网络能利用层次信息逐步提取结构信息来恢复高质量图像,但在图像超分辨率中,保持所获结构信息的有效性至关重要。现有方法在同源信息提取方面存在局限,需要改进网络架构和训练策略。
- Method: 1. 设计奇偶异构块来扩大架构差异,提取互补的同源结构信息;2. 结合线性和非线性结构信息以克服同源信息缺陷,增强结构信息的鲁棒性;3. 采用余弦退火机制优化训练过程,通过热重启和调整学习率来避免梯度下降的局部最小值。
- Result: 实验结果表明,提出的CSRNet在图像超分辨率任务中与最先进方法具有竞争力。
- Conclusion: 通过改进网络架构和训练策略,CSRNet能够有效提取和保持结构信息,在图像超分辨率任务中取得了有竞争力的性能。
[10] DCCS-Det: Directional Context and Cross-Scale-Aware Detector for Infrared Small Target
Shuying Li,Qiang Ma,San Zhang,Chuang Yang
Main category: cs.CV
TL;DR: 提出DCCS-Det红外小目标检测器,通过双流显著性增强块和潜在感知语义提取聚合模块,解决现有方法在局部-全局特征联合建模不足、特征冗余和语义稀释等问题,在多个数据集上达到SOTA性能。
- Motivation: 现有红外小目标检测方法存在两个主要问题:1) 局部-全局特征联合建模不足,影响目标-背景区分能力;2) 特征冗余和语义稀释,降低目标表示质量。这些问题在复杂背景下尤为突出。
- Method: 提出DCCS-Det检测器,包含两个核心组件:1) 双流显著性增强(DSE)块,集成局部感知和方向感知上下文聚合,捕获长距离空间依赖和局部细节;2) 潜在感知语义提取聚合(LaSEA)模块,通过跨尺度特征提取和随机池化采样策略,缓解特征退化,增强判别性特征并抑制噪声。
- Result: 在多个数据集上的实验表明,DCCS-Det实现了最先进的检测精度,同时保持了有竞争力的效率。消融研究进一步验证了DSE和LaSEA在复杂场景下对目标感知和特征表示的贡献。
- Conclusion: DCCS-Det通过创新的DSE块和LaSEA模块,有效解决了红外小目标检测中的特征建模和表示问题,在复杂背景下实现了优异的检测性能,为红外小目标检测提供了新的解决方案。
[11] AlphaFace: High Fidelity and Real-time Face Swapper Robust to Facial Pose
Jongmin Yu,Hyeontaek Oh,Zhongtian Sun,Angelica I Aviles-Rivero,Moongu Jeon,Jinhong Yang
Main category: cs.CV
TL;DR: AlphaFace是一种基于视觉语言模型和CLIP嵌入的实时人脸交换方法,通过视觉和文本语义对比损失提升身份表示和属性保留,在极端面部姿态下表现优异。
- Motivation: 现有的人脸交换方法在受限场景下表现良好,但在极端面部姿态下质量显著下降。基于几何特征的方法增加了额外依赖和计算成本,而基于扩散的方法虽然效果好但不适合实时处理。
- Method: 利用开源视觉语言模型和CLIP图像/文本嵌入,应用新颖的视觉和文本语义对比损失,实现更强的身份表示和更精确的属性保留,同时保持实时性能。
- Result: 在FF++、MPIE和LPFF数据集上的综合实验表明,AlphaFace在姿态挑战性案例中超越了现有最先进方法,项目已在GitHub上公开。
- Conclusion: AlphaFace通过结合视觉语言模型和对比学习,在保持实时性能的同时,显著提升了极端面部姿态下的人脸交换质量。
[12] MDAFNet: Multiscale Differential Edge and Adaptive Frequency Guided Network for Infrared Small Target Detection
Shuying Li,Qiang Ma,San Zhang,Wuwei Wang,Chuang Yang
Main category: cs.CV
TL;DR: MDAFNet提出了一种结合多尺度差分边缘和自适应频率引导的红外小目标检测网络,通过MSDE模块补偿边缘信息损失,DAFE模块增强高频目标并抑制噪声,在多个数据集上表现优异。
- Motivation: 现有红外小目标检测方法面临两个主要问题:1)随着网络层数增加,目标边缘像素逐渐退化;2)传统卷积难以区分频率分量,导致低频背景干扰高频目标,高频噪声引发误检。
- Method: 提出MDAFNet网络,包含两个核心模块:MSDE模块通过多尺度边缘提取和增强机制补偿下采样过程中的目标边缘信息损失;DAFE模块结合频域处理机制和空间域模拟频率分解与融合机制,自适应增强高频目标并选择性抑制高频噪声。
- Result: 在多个数据集上的实验结果表明,MDAFNet具有优越的检测性能。
- Conclusion: MDAFNet通过整合多尺度差分边缘和自适应频率引导机制,有效解决了红外小目标检测中的边缘退化和频率干扰问题,提升了检测性能。
[13] Masked Face Recognition under Different Backbones
Bo Zhang,Ming Zhang,Kun Wu,Lei Bian,Yi Lin
Main category: cs.CV
TL;DR: 该论文对多种人脸识别骨干网络在正常和戴口罩场景下的性能进行全面评估,发现r100系列在标准测试中表现最佳,而r100_mask_v2在戴口罩测试中领先,ViT-Small/Tiny在戴口罩场景下也有显著性能提升。
- Motivation: 后疫情时代,大量民航乘客在安检时佩戴口罩,这对传统人脸识别模型构成重大挑战。骨干网络作为人脸识别模型的核心组件,需要评估其在戴口罩场景下的性能表现。
- Method: 通过大量对比实验,对多个核心骨干网络进行全面评估,包括r100系列、r50、r34_mask_v1、r100_mask_v2、r50_mask_v3以及ViT-Small/Tiny等模型,分别在标准测试和戴口罩测试中进行性能比较。
- Result: 标准测试中:r100系列表现最佳(人脸比对98%+准确率@0.01% FAR,搜索任务高top1/top5),r50排名第二,r34_mask_v1落后。戴口罩测试中:r100_mask_v2领先(90.07%准确率),r50_mask_v3在r50系列中表现最好但仍落后于r100系列,ViT-Small/Tiny在戴口罩场景下表现出色且有效果提升。
- Conclusion: 论文全面评估了不同骨干网络在正常和戴口罩场景下的性能差异,揭示了不同模型对戴口罩人脸识别的影响,并为实际部署提供了具体建议,特别推荐r100_mask_v2和ViT系列在戴口罩场景下的应用。
[14] Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding
Xiaojiang Peng,Jingyi Chen,Zebang Cheng,Bao Peng,Fengyi Wu,Yifei Dong,Shuyuan Tu,Qiyu Hu,Huiting Huang,Yuxiang Lin,Jun-Yan He,Kai Wang,Zheng Lian,Zhi-Qi Cheng
Main category: cs.CV
TL;DR: Emotion-LLaMAv2是一个端到端的多模态情感推理框架,配合MMEVerse基准,通过多视图编码器、Conv Attention预融合模块和感知到认知的课程指令调优,解决了现有情感计算中数据集质量低、评估标准缺失的问题。
- Motivation: 当前多模态大语言模型在情感推理方面能力有限,缺乏高质量描述性情感标注的大规模数据集,且缺少标准化评估基准。现有的Emotion-LLaMA框架受到显式人脸检测器、隐式融合策略和低质量训练数据的限制。
- Method: 1) 端到端多视图编码器,消除外部人脸检测,通过丰富时空多视图token捕捉细微情感线索;2) Conv Attention预融合模块,在LLM主干外部实现局部和全局多模态特征交互;3) 在LLaMA2主干中采用感知到认知的课程指令调优方案,统一情感识别和自由形式情感推理。
- Result: 构建了MMEVerse基准,整合了12个公开情感数据集(包括IEMOCAP、MELD、DFEW、MAFW等),通过多智能体流水线重新标注,产生了13万训练片段和3.6万测试片段,覆盖18个评估基准。
- Conclusion: Emotion-LLaMAv2和MMEVerse基准为情感识别和推理建立了端到端流水线和标准化评估设置,解决了现有方法的局限性,为多模态情感计算提供了更强大的工具和评估框架。
[15] VISTA-PATH: An interactive foundation model for pathology image segmentation and quantitative analysis in computational pathology
Peixian Liang,Songhao Li,Shunsuke Koga,Yutong Li,Zahra Alipour,Yucheng Tang,Daguang Xu,Zhi Huang
Main category: cs.CV
TL;DR: VISTA-PATH是一个交互式、类别感知的病理分割基础模型,通过结合视觉上下文、语义组织描述和专家空间提示,实现精确的多类别分割,支持动态人机交互优化,并提升临床病理分析。
- Motivation: 现有分割基础模型虽然通过大规模预训练提高了泛化能力,但将其视为静态视觉预测任务,与病理学需求不匹配。需要解决异质结构分割、整合专家反馈、生成对临床解释有直接意义的像素级分割。
- Method: 开发VISTA-PATH模型,联合视觉上下文、语义组织描述和可选专家空间提示进行分割。构建VISTA-PATH Data数据集,包含160万图像-掩码-文本三元组,涵盖9个器官和93个组织类别。支持动态人机交互优化,将稀疏的补丁级边界框标注反馈传播到整个切片分割。
- Result: 在广泛的保留测试集和外部基准测试中,VISTA-PATH持续优于现有分割基础模型。模型产生的高保真、类别感知分割改善了肿瘤微环境分析,提出的肿瘤相互作用评分(TIS)与患者生存率显示出强且显著的关联。
- Conclusion: VISTA-PATH将病理图像分割从静态预测提升为交互式、临床基础的表征,建立了病理分割的基础模型,为数字病理学提供了更有效的工具。
[16] Order from Chaos: Physical World Understanding from Glitchy Gameplay Videos
Meng Cao,Haoran Tang,Haoze Zhao,Mingfei Han,Ruyang Liu,Qiang Sun,Xiaojun Chang,Ian Reid,Xiaodan Liang
Main category: cs.CV
TL;DR: 利用游戏视频中的视觉异常(glitches)作为物理世界理解的监督信号,提出PhysGame数据集和GameBench基准,显著提升多模态模型的物理推理能力
- Motivation: 当前多模态大语言模型在物理原理理解方面仍达不到人类水平,现有数据集要么依赖高成本的真实视频标注,要么使用有限真实性和多样性的合成模拟。游戏视频中的视觉异常(违反物理定律的glitches)提供了丰富且可扩展的监督来源。
- Method: 提出利用游戏视频中的glitches作为物理理解的监督源,构建PhysGame数据集(包含140,057个glitch中心的问题-答案对,覆盖5个物理领域和16个细粒度类别),使用游戏元数据(标题和描述)引导高质量QA生成。同时构建GameBench基准(包含880个专家标注的glitch识别游戏视频)。
- Result: PhysGame显著提升了Game2Real和Game2General的迁移能力:在PhysBench上提升Qwen2.5VL的物理推理性能2.5%,在MVBench上获得1.9%增益。在GameBench上获得3.7%绝对提升,增强了检测物理不合理性的鲁棒性。
- Conclusion: 从游戏异常中学习为推进多模态智能的物理世界理解提供了一条可扩展且有效的途径,游戏glitches作为监督源具有实用价值。
[17] Multi-View Consistent Wound Segmentation With Neural Fields
Remi Chierchia,Léo Lebrat,David Ahmedt-Aristizabal,Yulia Arzhaeva,Olivier Salvado,Clinton Fookes,Rodrigo Santa Cruz
Main category: cs.CV
TL;DR: 评估WoundNeRF方法,这是一种基于NeRF SDF的技术,用于从自动生成的标注中估计鲁棒的伤口分割,并与最先进的Vision Transformer网络和传统光栅化算法进行比较。
- Motivation: 伤口护理面临经济和后勤负担的挑战,计算机视觉和机器学习算法可以提供支持。伤口分割特别重要,因为它能从标准RGB图像提供快速自动的组织评估。虽然已有方法扩展到3D分割以实现更完整精确的愈合进展跟踪,但从2D图像推断多视角一致的3D结构仍然是一个挑战。
- Method: 提出WoundNeRF方法,这是一种基于NeRF SDF(神经辐射场符号距离函数)的方法,用于从自动生成的标注中估计鲁棒的伤口分割。该方法能够处理多视角一致的3D结构重建问题。
- Result: 通过将WoundNeRF与最先进的Vision Transformer网络和传统光栅化算法进行比较,证明了该方法在恢复准确分割方面的潜力。代码将发布以促进该有前景范式的发展。
- Conclusion: WoundNeRF展示了从2D图像进行鲁棒伤口分割的潜力,特别是在实现多视角一致的3D结构重建方面,为伤口护理的计算机视觉应用提供了新的范式。
[18] Expert Knowledge-Guided Decision Calibration for Accurate Fine-Grained Tree Species Classification
Chen Long,Dian Chen,Ruifei Ding,Zhe Chen,Zhen Dong,Bisheng Yang
Main category: cs.CV
TL;DR: 提出EKDC-Net框架,通过引入外部"领域专家"和不确定性引导的决策校准,解决细粒度树种分类中的长尾分布和高类间相似性问题,在三个基准数据集上取得SOTA性能。
- Motivation: 现有细粒度树种分类方法主要设计复杂架构拟合局部数据分布,但忽略了有限数据中的长尾分布和高类间相似性,难以区分少样本或易混淆类别。受人类知识传播过程中寻求专家帮助的启发,引入外部"领域专家"来克服这些挑战。
- Method: 提出专家知识引导的分类决策校准网络(EKDC-Net),包含两个核心模块:1) 局部先验引导知识提取模块(LPKEM),利用类激活图分析引导领域专家专注于分类关键特征;2) 不确定性引导决策校准模块(UDCM),基于类别不确定性和实例级预测不确定性动态校正局部模型决策。
- Result: 在三个基准数据集上实现最先进性能。作为轻量级即插即用模块,仅增加0.08M可学习参数,使骨干网络准确率提升6.42%,精确率提升11.46%。同时发布了包含102个树种的大规模分类数据集CU-Tree102。
- Conclusion: EKDC-Net通过引入外部领域专家知识和不确定性校准机制,有效解决了细粒度树种分类中的长尾分布和类间相似性问题,在保持轻量化的同时显著提升了分类性能。
[19] SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
Tongcheng Fang,Hanling Zhang,Ruiqi Xie,Zhuo Han,Xin Tao,Tianchen Zhao,Pengfei Wan,Wenbo Ding,Wanli Ouyang,Xuefei Ning,Yu Wang
Main category: cs.CV
TL;DR: SALAD提出了一种轻量级线性注意力分支与稀疏注意力并行的架构,通过输入相关的门控机制平衡两者,在保持生成质量的同时实现90%稀疏度和1.72倍推理加速,仅需少量数据和训练步骤。
- Motivation: 扩散变换器在视频生成中表现出色,但全注意力的二次复杂度导致高计算延迟。现有稀疏注意力方法存在局限:训练无关方法稀疏度有限,训练相关方法需要大量数据和计算资源。
- Method: 提出SALAD方法,在稀疏注意力旁并行添加轻量级线性注意力分支,通过输入相关的门控机制精细平衡两个分支,实现高效稀疏化。
- Result: 达到90%稀疏度和1.72倍推理加速,生成质量与全注意力基线相当,仅需2000个视频样本和1600训练步骤(批量大小8)。
- Conclusion: SALAD在稀疏度、推理速度和训练效率方面取得良好平衡,为视频生成中的注意力优化提供了高效解决方案。
[20] TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning
Daixian Liu,Jiayi Kuang,Yinghui Li,Yangning Li,Di Yin,Haoyu Cao,Xing Sun,Ying Shen,Hai-Tao Zheng,Liang Lin,Philip S. Yu
Main category: cs.CV
TL;DR: 提出TangramPuzzle基准测试,用于评估多模态大语言模型在组合空间推理方面的能力,发现现有模型倾向于匹配目标轮廓而忽视几何约束
- Motivation: 多模态大语言模型在视觉识别和语义理解方面取得显著进展,但在精确的组合空间推理能力方面尚未充分探索。现有基准测试任务相对简单,依赖语义近似或粗略的相对定位,评估指标有限且缺乏严格的数学公式化。
- Method: 引入TangramPuzzle基准测试,基于经典七巧板游戏评估组合空间推理。提出Tangram Construction Expression (TCE)符号几何框架,将七巧板组装精确地基于机器可验证的坐标规范。设计两个互补任务:轮廓预测(从局部组件推断全局形状)和端到端代码生成(解决逆向几何组装问题)。
- Result: 通过对先进开源和专有模型进行广泛评估实验,发现一个有趣的见解:多模态大语言模型倾向于优先匹配目标轮廓,而忽视几何约束,导致拼片变形或扭曲。
- Conclusion: TangramPuzzle基准测试填补了多模态大语言模型在精确组合空间推理评估方面的空白,揭示了现有模型在几何约束理解方面的局限性,为未来模型改进提供了方向。
[21] AnchoredDream: Zero-Shot 360° Indoor Scene Generation from a Single View via Geometric Grounding
Runmao Yao,Junsheng Zhou,Zhen Dong,Yu-Shen Liu
Main category: cs.CV
TL;DR: AnchoredDream:基于几何锚定的零样本单视图室内场景生成方法,通过外观-几何互增强机制实现高质量的360°场景生成
- Motivation: 单视图室内场景生成在现实应用中很重要,但从单张图像生成完整的360°场景仍然是一个高度不适定且具有挑战性的问题。现有方法虽然利用扩散模型和深度估计网络取得进展,但在大视角变化下难以保持外观一致性和几何合理性,限制了全场景生成的效果。
- Method: 提出AnchoredDream零样本流水线,通过外观-几何互增强机制将360°场景生成锚定在高保真几何上。方法包括:1) 外观引导的几何生成构建可靠的3D场景布局;2) 通过warp-and-inpaint、warp-and-refine、后优化等模块渐进生成完整场景;3) 新颖的Grouting Block确保输入视图与生成区域之间的无缝过渡。
- Result: 大量实验表明,AnchoredDream在外观一致性和几何合理性方面大幅优于现有方法,且完全以零样本方式实现。结果突出了几何锚定在高质量零样本单视图场景生成中的潜力。
- Conclusion: AnchoredDream通过几何锚定和外观-几何互增强机制,实现了高质量的零样本单视图室内场景生成,解决了现有方法在大视角变化下外观不一致和几何不合理的问题。
[22] OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding
Zixian Liu,Zhaoxi Chen,Liang Pan,Ziwei Liu
Main category: cs.CV
TL;DR: OnlineSI:一个让多模态大语言模型通过视频流持续提升空间理解能力的框架,使用有限空间记忆和3D点云语义融合,适用于真实世界具身系统部署。
- Motivation: 现有MLLM方法大多忽视在动态世界中持续工作的能力,且缺乏在真实世界具身系统上部署的可能性,需要解决空间理解的持续性和实用性。
- Method: 提出OnlineSI框架,核心是维护有限空间记忆以保留过去观测,确保推理计算量不随输入累积而增加;同时整合3D点云与语义信息,帮助MLLM更好地定位和识别场景物体。
- Result: 在两个代表性数据集上测试,引入Fuzzy F1-Score缓解模糊性,实验证明了方法的有效性。
- Conclusion: 该工作为真实世界具身系统的发展铺平了道路,展示了MLLM在动态环境中持续空间理解的可行性。
[23] Semi-Supervised Hierarchical Open-Set Classification
Erik Wallin,Fredrik Kahl,Lars Hammarstrand
Main category: cs.CV
TL;DR: 提出了一种基于伪标记的师生框架,用于半监督层次开放集分类,通过子树伪标签和年龄门控机制处理未知类别数据
- Motivation: 将层次开放集分类扩展到半监督设置,利用包含已知和未知类别的大规模未标注数据集来提升层次开放集性能
- Method: 基于伪标记的师生框架,引入两个关键组件:1) 子树伪标签,在未知数据存在时提供可靠监督;2) 年龄门控机制,缓解伪标签的过度自信问题
- Result: 在iNaturalist19基准测试中,该方法优于自监督预训练后监督适应的方案,当每类仅使用20个标注样本时,性能甚至与完全监督方法相当
- Conclusion: 提出的半监督层次开放集分类框架能有效利用未标注数据提升性能,在标注数据有限的情况下达到与完全监督相当的效果
[24] HA2F: Dual-module Collaboration-Guided Hierarchical Adaptive Aggregation Framework for Remote Sensing Change Detection
Shuying Li,Yuchen Wang,San Zhang,Chuang Yang
Main category: cs.CV
TL;DR: 提出HA2F框架,通过动态层次特征校准和噪声自适应特征精炼模块,解决遥感变化检测中的跨时相特征匹配偏差和噪声敏感性问题,在多个数据集上达到SOTA性能。
- Motivation: 现有遥感变化检测方法要么关注局部特征提取,要么追求整体图像处理,导致跨时相特征匹配偏差,并对辐射和几何噪声敏感。需要解决这些限制以提升变化检测的准确性和鲁棒性。
- Method: 提出HA2F框架,包含两个核心模块:1) 动态层次特征校准模块(DHFCM):通过感知特征选择动态融合相邻层次特征,抑制无关差异以解决多时相特征对齐偏差;2) 噪声自适应特征精炼模块(NAFRM):利用双重特征选择机制突出变化敏感区域并生成空间掩码,抑制无关区域或阴影干扰。
- Result: 在LEVIR-CD、WHU-CD和SYSU-CD三个数据集上实现了最先进的性能,在精度指标和计算效率方面均超越了现有对比方法。消融实验验证了DHFCM和NAFRM模块的有效性。
- Conclusion: HA2F框架通过层次自适应聚合有效解决了遥感变化检测中的特征对齐偏差和噪声敏感性问题,为多学科应用提供了可靠的技术支持。
[25] X-Aligner: Composed Visual Retrieval without the Bells and Whistles
Yuqian Zheng,Mariana-Iuliana Georgescu
Main category: cs.CV
TL;DR: 提出基于视觉语言模型的新型组合视频检索框架,通过X-Aligner模块渐进融合视觉文本查询,并引入视觉查询的标题作为额外输入,在Webvid-CoVR数据集上实现SOTA性能(Recall@1 63.93%),同时在CIR任务上展示强大的零样本泛化能力。
- Motivation: 现有组合视频检索(CoVR)框架通常单阶段融合多模态输入,相比初始基线仅获得边际增益。需要更有效的框架来充分利用视觉语言模型的表征能力,提升组合查询的检索性能。
- Method: 提出基于BLIP系列架构的新型CoVR框架,包含新颖的交叉注意力模块X-Aligner,通过交叉注意力层渐进融合视觉和文本输入,并将多模态表示与目标视频对齐。引入视觉查询的标题作为额外输入增强查询表示。采用两阶段训练策略:第一阶段仅训练新模块,第二阶段微调文本查询编码器。
- Result: 在Webvid-CoVR-Test上获得63.93%的Recall@1,达到最先进性能。在CIRCO和Fashion-IQ等组合图像检索数据集上展示强大的零样本泛化能力。
- Conclusion: 提出的框架通过渐进融合策略和两阶段训练,有效提升了组合视频检索性能,并展示了良好的跨任务泛化能力,为多模态检索任务提供了新的解决方案。
[26] A Lightweight Medical Image Classification Framework via Self-Supervised Contrastive Learning and Quantum-Enhanced Feature Modeling
Jingsong Xia,Siqi Wang
Main category: cs.CV
TL;DR: 提出轻量级医学图像分类框架,结合自监督对比学习与量子增强特征建模,在资源受限环境下实现高性能分类
- Motivation: 医学图像分析面临标注稀缺、计算资源有限、模型泛化能力不足等挑战,需要开发轻量高效且性能优越的解决方案
- Method: 使用MobileNetV2作为轻量骨干网络,通过SimCLR式自监督预训练,嵌入参数化量子电路作为量子特征增强模块,构建混合经典-量子架构,在少量标注数据上微调
- Result: 仅需约2-3百万参数和低计算成本,在准确率、AUC和F1分数上均优于无自监督学习或量子增强的经典基线方法,特征可视化显示判别性和表示稳定性提升
- Conclusion: 为资源受限环境下的高性能医学人工智能提供了实用且前瞻性的解决方案,展示了量子增强与自监督学习结合在医学图像分析中的潜力
[27] Boundary and Position Information Mining for Aerial Small Object Detection
Rongxin Huang,Guangfeng Lin,Wenbo Zhou,Zhirong Li,Wenhuan Wu
Main category: cs.CV
TL;DR: 提出BPIM框架用于无人机图像中的小目标检测,通过边界和位置信息挖掘解决尺度不平衡和边缘模糊问题,在多个数据集上优于基线方法。
- Motivation: 无人机应用中,由于目标尺度不平衡和边缘模糊,小目标检测面临准确率低的挑战。现有方法难以有效捕捉小目标的边界和位置信息。
- Method: 提出BPIM框架,包含PIG模块获取位置信息、BIG模块提取边界信息、CSF模块融合浅层特征、TFF模块融合位置和边界信息、AWF模块自适应融合深层语义特征。采用注意力机制和跨尺度特征融合策略。
- Result: 在VisDrone2021、DOTA1.0和WiderPerson数据集上,BPIM相比基线Yolov5-P2表现更好,在计算量相当的情况下达到SOTA水平。
- Conclusion: BPIM框架通过有效整合边界、位置和尺度信息,显著提升了无人机图像中小目标检测的性能,为解决尺度不平衡和边缘模糊问题提供了有效方案。
[28] SCHIGAND: A Synthetic Facial Generation Mode Pipeline
Ananya Kadali,Sunnie Jehan-Morrison,Orasiki Wellington,Barney Evans,Precious Durojaiye,Richard Guest
Main category: cs.CV
TL;DR: SCHIGAND是一个集成StyleCLIP、HyperStyle、InterfaceGAN和Diffusion模型的合成人脸生成管道,能够生成高质量、多样化的面部数据集,适用于生物识别测试。
- Motivation: 由于隐私法规、数据稀缺和伦理问题,获取多样化高质量面部数据集面临挑战。现有生成模型难以平衡真实性、多样性和身份保持。
- Method: 提出SCHIGAND合成人脸生成管道,整合StyleCLIP、HyperStyle、InterfaceGAN和Diffusion模型,增强身份保持的同时生成真实的类内变化并保持类间区分度。
- Result: 使用ArcFace面部验证模型评估,SCHIGAND在图像质量和多样性之间取得平衡,优于现有生成模型,能够补充甚至替代真实数据。
- Conclusion: SCHIGAND为面部生物识别应用提供了隐私合规且可扩展的合成数据集生成解决方案,有望补充或替代真实数据。
[29] Edge-Aware Image Manipulation via Diffusion Models with a Novel Structure-Preservation Loss
Minsu Gong,Nuri Ryu,Jungseul Ok,Sunghyun Cho
Main category: cs.CV
TL;DR: 提出一种结构保持损失(SPL),利用局部线性模型量化输入与编辑图像间的结构差异,无需训练即可在扩散模型生成过程中保持像素级边缘结构,提升基于潜在扩散的图像编辑质量。
- Motivation: 虽然潜在扩散模型(LDMs)在文本驱动的图像编辑中表现出色,但在保持像素级边缘结构方面仍存在挑战,这对于照片级风格迁移或色调调整等任务至关重要。
- Method: 提出结构保持损失(SPL),利用局部线性模型量化结构差异;将SPL直接集成到扩散模型的生成过程中;采用后处理步骤减轻LDM解码失真;使用掩码策略进行精确编辑定位;添加颜色保持损失保护未编辑区域的色调。
- Result: 实验证实SPL能有效增强结构保真度,在基于潜在扩散的图像编辑中实现了最先进的性能。
- Conclusion: 提出的SPL方法解决了潜在扩散模型在图像编辑中保持结构完整性的关键问题,通过训练自由的方式实现了高质量的像素级结构保持,为相关应用提供了有效解决方案。
[30] Reliable Brain Tumor Segmentation Based on Spiking Neural Networks with Efficient Training
Aurora Pia Ghiardelli,Guangzhi Tang,Tao Sun
Main category: cs.CV
TL;DR: 提出基于脉冲神经网络的可靠且节能的3D脑肿瘤分割框架,通过多视角集成提供体素级不确定性估计,采用FPTT降低计算成本,在BraTS数据集上实现竞争性精度和87%的FLOPs减少。
- Motivation: 开发可靠且节能的脑肿瘤分割方法,适用于医疗物联网和床旁系统。传统方法计算成本高,而脉冲神经网络具有低功耗优势,但训练效率需要改进。
- Method: 1. 使用多视角(矢状面、冠状面、轴向)脉冲神经网络集成进行3D分割;2. 通过集成提供体素级不确定性估计;3. 采用前向传播时间算法(FPTT)降低训练计算成本,保持时间学习效率。
- Result: 在BraTS 2017和2023数据集上:1. 达到竞争性的分割精度;2. 获得良好校准的不确定性估计;3. 实现87%的浮点运算减少;4. 验证了SNN在可靠、低功耗医疗应用中的潜力。
- Conclusion: 提出的SNN框架在脑肿瘤分割中实现了可靠性和能源效率的平衡,通过多视角集成和FPTT算法显著降低计算成本,为医疗物联网和床旁系统提供了有前景的解决方案。
[31] ReWeaver: Towards Simulation-Ready and Topology-Accurate Garment Reconstruction
Ming Li,Hui Shan,Kai Zheng,Chentao Shen,Siyu Liu,Yanwei Fu,Zhen Chen,Xiangru Huang
Main category: cs.CV
TL;DR: ReWeaver:从稀疏多视角RGB图像重建拓扑精确的3D服装和缝纫图案的框架,解决现有方法无法准确重建服装拓扑和缝纫结构的问题。
- Motivation: 现有服装重建方法通常依赖非结构化表示(如3D高斯泼溅),难以准确重建服装拓扑和缝纫结构,导致重建结果不适合高保真物理模拟。需要解决数字化身、虚拟试穿和机器人操作等应用中的sim-to-real差距问题。
- Method: 提出ReWeaver框架,仅需4个输入视角即可预测2D UV空间和3D空间中的接缝、面板及其连接性。构建大规模数据集GCD-TS,包含多视角RGB图像、3D服装几何、纹理人体网格和标注缝纫图案,包含超过10万个合成样本。
- Result: ReWeaver在拓扑准确性、几何对齐和接缝-面板一致性方面持续优于现有方法,能够生成与多视角图像精确对齐的结构化2D-3D服装表示,适用于3D感知、高保真物理模拟和机器人操作。
- Conclusion: ReWeaver通过结构化表示实现了从稀疏多视角图像到拓扑精确的3D服装和缝纫图案的重建,为数字化身、虚拟试穿和机器人操作等应用提供了高质量的3D服装重建解决方案。
[32] Affinity Contrastive Learning for Skeleton-based Human Activity Understanding
Hongda Liu,Yunfan Liu,Min Ren,Lin Sui,Yunlong Wang,Zhenan Sun
Main category: cs.CV
TL;DR: ACLNet通过亲和度对比学习网络,利用活动类别间的聚类关系改进骨架动作识别,提出亲和度度量、动态温度调度和基于边界的对比策略,在多个数据集上表现优异。
- Motivation: 现有骨架动作识别方法大多采用对比学习范式,但未能充分利用类别间的结构相似性,且忽略了异常正样本的影响,需要更有效的特征判别方法。
- Method: 提出亲和度对比学习网络(ACLNet):1)亲和度度量改进相似性计算,形成活动超类提供更有信息的对比信号;2)动态温度调度自适应调整不同超类的惩罚强度;3)基于边界的对比策略改善类内难正负样本的分离。
- Result: 在NTU RGB+D 60、NTU RGB+D 120、Kinetics-Skeleton、PKU-MMD、FineGYM和CASIA-B等多个数据集上验证了方法在骨架动作识别、步态识别和行人重识别任务上的优越性。
- Conclusion: ACLNet通过探索活动类别间的聚类关系,有效提升了骨架动作理解的特征判别能力,为相关任务提供了有效的对比学习框架。
[33] CER-HV: A CER-Based Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR
Sana Al-azzawi,Elisa Barney,Marcus Liwicki
Main category: cs.CV
TL;DR: 提出CER-HV框架,通过CER排名和人工验证检测并清理阿拉伯文字手写识别数据集中的标签错误,显著提升模型性能。
- Motivation: 阿拉伯文字手写识别性能落后于拉丁文字,现有数据集存在标签质量问题,需要系统化的错误检测和清理方法。
- Method: CER-HV框架:1) 使用精心配置的CRNN(带早停机制避免过拟合噪声样本)构建基于CER的噪声检测器;2) 人工验证高排名样本;3) 识别转录、分割、方向和非文本内容等错误。
- Result: 1) 在Muharaf和PHTI数据集中以80-90%的精度识别错误;2) CRNN在6个数据集中的5个达到SOTA性能;3) CER-HV使评估CER提升0.3-1.8%;4) 在PHTD数据集建立11.3% CER新基线。
- Conclusion: 数据质量是阿拉伯文字手写识别的关键限制因素,CER-HV框架能有效检测和清理数据集错误,提升模型性能,且方法具有通用性可应用于其他文本识别任务。
[34] Using Shadows in Circular Synthetic Aperture Sonar Imaging for Target Analysis
Yann Le Gall,Nicolas Burlet,Mathieu Simon,Fabien Novella,Samantha Dugelay,Jean-Philippe Malkasse
Main category: cs.CV
TL;DR: CSAS提供360°海底视图但丢失阴影信息,本文提出通过子孔径滤波和固定聚焦阴影增强技术从CSAS数据中提取阴影信息,用于目标分析和3D重建
- Motivation: CSAS虽然提供360°方位覆盖,但处理过程中丢失了阴影信息,而阴影对目标识别和3D重建至关重要。需要从CSAS数据中恢复阴影信息以提高目标分析能力
- Method: 1) 使用子孔径滤波获取沿圆形轨迹不同视角的图像集合;2) 应用固定聚焦阴影增强技术获得清晰阴影;3) 开发交互界面可视化阴影;4) 采用空间雕刻方法从分割的阴影推断3D形状
- Result: 成功从CSAS数据中提取阴影信息,证明阴影在圆形合成孔径声纳中对目标分析和3D重建具有重要价值
- Conclusion: 阴影信息对CSAS目标识别和3D重建至关重要,提出的方法有效恢复了阴影信息,为水下目标分析提供了新工具
[35] A Step to Decouple Optimization in 3DGS
Renjie Ding,Yaonan Wang,Min Liu,Jialin Zhu,Jiazheng Wang,Jiahao Zhao,Wenting Shen,Feixiang He,Xiang Che
Main category: cs.CV
TL;DR: 该论文分析了3D高斯泼溅(3DGS)优化中的耦合问题,提出了解耦优化方法,并最终设计了AdamW-GS优化器,在效率和效果上都有提升。
- Motivation: 3DGS采用类似深度神经网络的优化方法(如Adam),但忽略了其物理意义和特定设计带来的两个耦合问题:更新步长耦合和梯度矩耦合,这些耦合可能导致优化效率低下和正则化效果不佳。
- Method: 首先解耦3DGS优化过程,提出三个组件:稀疏Adam、重新状态正则化和解耦属性正则化。然后基于实证分析重新设计优化器,提出AdamW-GS,重新耦合有益组件。
- Result: 在3DGS和3DGS-MCMC框架下的大量实验表明,提出的解耦方法能更好地理解各组件作用,而AdamW-GS能同时实现更好的优化效率和表示效果。
- Conclusion: 通过深入分析3DGS优化中的耦合问题,提出解耦方法并重新设计优化器,AdamW-GS在优化效率和表示效果上都有显著提升,为3DGS优化提供了新的理解和改进方向。
[36] Automated Road Crack Localization to Guide Highway Maintenance
Steffen Knoblauch,Ram Kumar Muthusamy,Pedram Ghamisi,Alexander Zipf
Main category: cs.CV
TL;DR: 利用开源数据(航空影像+OSM)微调YOLOv11进行高速公路裂缝检测,并构建瑞士相对裂缝密度指数指导维护决策
- Motivation: 气候变化导致温度波动加剧路面应力,增加维护成本,需要更精准高效的维护策略。开源数据可能为基础设施维护提供新思路。
- Method: 整合航空影像和OpenStreetMap数据,微调YOLOv11模型进行高速公路裂缝定位,并计算瑞士相对裂缝密度指数(RHCD)指导全国维护。
- Result: 裂缝分类模型F1分数:裂缝类0.84,非裂缝类0.97。RHCD指数与长期地表温度振幅(r=-0.05)和交通流量(r=0.17)相关性弱,表明其独特价值。城市中心和交叉口附近RHCD值较高。
- Conclusion: 开源数据共享能推动创新,为公共部门提供更高效的解决方案。RHCD指数为高速公路维护提供了新的决策依据,尤其在城市区域效果显著。
[37] Curated endoscopic retrograde cholangiopancreatography images dataset
Alda João Andrade,Mónica Martins,André Ferreira,Tarcísio Araújo,Luís Lopes,Victor Alves
Main category: cs.CV
TL;DR: 该研究提供了一个大型、经过人工标注的ERCP图像数据集,包含19,018张原始图像和19,317张处理后的图像,其中5,519张已标注,旨在解决ERCP领域公共数据集稀缺的问题。
- Motivation: ERCP是诊断和治疗胆胰疾病的关键技术,人工智能有潜力实现自动化诊断,但公共ERCP数据集稀缺限制了相关研究的发展。
- Method: 收集了1,602名患者的ERCP图像,由经验丰富的胃肠病学家进行人工检查和标注,包括两名5年以上经验的专家和一名20年以上经验的专家进行审核。
- Result: 提供了包含19,018张原始图像和19,317张处理后图像的数据集,其中5,519张已标注,并通过分类实验验证了数据集的实用性和有效性。
- Conclusion: 该数据集填补了ERCP领域公共数据集的空白,为自动ERCP分析和胆胰疾病诊断提供了基准数据集,有助于推动相关AI研究的发展。
[38] Flow Matching for Probabilistic Monocular 3D Human Pose Estimation
Cuong Le,Pavló Melnyk,Bastian Wandt,Mårten Wadenbäck
Main category: cs.CV
TL;DR: FMPose:基于流匹配生成方法的概率性3D人体姿态估计方法,通过连续归一化流学习从简单源分布到合理3D姿态分布的最优传输,相比扩散方法更快更准确。
- Motivation: 从单目相机恢复3D人体姿态是高度不适定问题,存在深度模糊性。现有方法常产生错误但过度自信的3D估计,需要引入不确定性测量来处理姿态不确定性。
- Method: 提出FMPose,基于流匹配生成方法,通过连续归一化流学习从简单源分布到合理3D姿态分布的最优传输。使用图卷积网络建模2D提升条件,利用人体关节间的可学习连接作为图结构进行特征聚合。
- Result: 相比基于扩散的方法,FMPose通过最优传输产生更快更准确的3D姿态生成。在Human3.6M、MPI-INF-3DHP和3DPW三个基准测试上显著优于当前最先进方法。
- Conclusion: FMPose作为概率性3D人体姿态估计方法,通过流匹配和最优传输有效处理姿态不确定性,在准确性和效率上均优于现有方法,为单目3D姿态估计提供了有效解决方案。
[39] AutoRegressive Generation with B-rep Holistic Token Sequence Representation
Jiahao Li,Yunpeng Bai,Yongkang Dai,Hao Guo,Hongping Gan,Yilei Shi
Main category: cs.CV
TL;DR: BrepARG:首个将B-rep几何与拓扑编码为整体token序列的方法,支持基于序列的自回归生成,在B-rep生成任务上达到SOTA性能。
- Motivation: 现有B-rep表示与生成方法依赖图结构,将几何与拓扑特征解耦处理,无法利用序列生成框架(如Transformer)的优势。需要一种能将B-rep几何和拓扑统一编码为序列的方法。
- Method: 1) 将B-rep编码为三种token:几何token、位置token和面索引token;2) 分层构建整体token序列:先构建几何块(面和边),再进行几何块排序;3) 使用仅解码器的Transformer架构,通过因果掩码进行下一token预测,学习token序列分布。
- Result: BrepARG在B-rep生成任务上达到了最先进的性能,验证了将B-rep表示为整体token序列的可行性。
- Conclusion: 该方法成功将B-rep的几何和拓扑编码为统一token序列,支持基于序列的自回归生成,为B-rep生成开辟了新方向。
[40] CASP: Few-Shot Class-Incremental Learning with CLS Token Attention Steering Prompts
Shuai Huang,Xuhan Lin,Yuwu Lu
Main category: cs.CV
TL;DR: CASP:一种基于CLS令牌注意力引导提示的少样本类增量学习方法,通过引入可训练的偏置参数调制注意力权重,结合注意力扰动和流形令牌混合策略,在多个数据集上超越现有方法
- Motivation: 少样本类增量学习面临的核心挑战是模型需要快速适应新类别同时缓解灾难性遗忘。现有基于提示的方法在极端少样本增量设置下,模型的迁移和泛化能力变得关键,需要利用预训练知识学习可在未来类别间共享的特征表示。
- Method: 提出CLS令牌注意力引导提示(CASP):1)在CLS令牌的查询、键、值投影中引入类别共享的可训练偏置参数,显式调制自注意力权重;2)设计注意力扰动策略;3)在浅层特征空间执行流形令牌混合,合成潜在新类别特征以提升泛化能力。
- Result: 在CUB200、CIFAR100和ImageNet-R数据集上的实验表明,CASP在标准和细粒度FSCIL设置中均优于现有最先进方法,且在增量阶段无需微调,同时显著减少了参数开销。
- Conclusion: CASP通过调制CLS令牌的注意力机制,结合扰动和混合策略,有效提升了少样本类增量学习中的泛化能力和表示容量保留,为极端少样本设置下的持续学习提供了有效解决方案。
[41] SLD: Segmentation-Based Landmark Detection for Spinal Ligaments
Lara Blomenkamp,Ivanna Kramer,Sabine Bauer,Theresa Schöche
Main category: cs.CV
TL;DR: 提出一种新颖的脊柱韧带附着点检测方法,通过形状分割和领域规则实现高精度检测,在多个数据集上验证优于现有方法
- Motivation: 在生物力学建模中,韧带附着点的准确表示对于模拟椎骨间作用力至关重要。现有自动化检测方法要么局限于特定脊柱区域,要么精度不足,需要一种更准确、通用的解决方案
- Method: 首先对3D椎骨进行基于形状的分割,然后应用领域特定规则来识别不同类型的韧带附着点
- Result: 在两个独立脊柱数据集上验证,平均绝对误差(MAE)为0.7毫米,均方根误差(RMSE)为1.1毫米,优于现有方法,在所有脊柱区域都表现出良好的泛化能力
- Conclusion: 该方法实现了高精度的脊柱韧带附着点检测,为构建可靠的脊柱生物力学模型提供了有效工具,具有广泛的临床应用价值
[42] REL-SF4PASS: Panoramic Semantic Segmentation with REL Depth Representation and Spherical Fusion
Xuewei Li,Xinghan Bao,Zhimin Chen,Xi Li
Main category: cs.CV
TL;DR: 提出REL-SF4PASS方法,通过圆柱坐标系REL深度表示和球面动态多模态融合SMMF,改进全景语义分割性能
- Motivation: 现有全景语义分割方法通常关注球面几何的RGB输入或使用原始/HHA格式的深度信息,未能充分利用全景图像的几何特性
- Method: 提出REL深度表示(包含校正深度、高程增益垂直倾角和横向方位角),采用圆柱坐标系表示3D空间和表面法线方向;设计SMMF融合策略,针对不同全景区域采用不同融合方式,减少ERP投影中圆柱侧面展开的断裂
- Result: 在Stanford2D3D全景数据集上,所有3折的平均mIoU提升2.35%,面对3D干扰时性能方差减少约70%
- Conclusion: REL-SF4PASS通过创新的深度表示和多模态融合策略,显著提升了全景语义分割的性能和鲁棒性
[43] Incorporating Eye-Tracking Signals Into Multimodal Deep Visual Models For Predicting User Aesthetic Experience In Residential Interiors
Chen-Ying Chien,Po-Chih Kuo
Main category: cs.CV
TL;DR: 本文提出了一种融合视觉特征与眼动信号的双分支CNN-LSTM框架,用于预测住宅室内设计的美学评价,在客观维度上达到72.2%准确率,主观维度上达到66.8%准确率。
- Motivation: 理解人们对室内空间的感知和评价对于设计促进福祉的环境至关重要,但由于感知的主观性和视觉反应的复杂性,预测美学体验仍然很困难。
- Method: 采用双分支CNN-LSTM框架,融合视觉特征与眼动信号。收集了224个室内设计视频数据集,包含28名参与者的同步眼动数据,参与者对15个美学维度进行评分。
- Result: 模型在客观维度(如光线)上达到72.2%准确率,在主观维度(如放松感)上达到66.8%准确率,优于现有视频基线方法,在主观评价任务上表现尤为突出。使用眼动数据训练的模型仅用视觉输入也能保持可比性能。
- Conclusion: 眼动追踪作为训练时的特权信息具有重要价值,瞳孔反应对客观评估贡献最大,而注视与视觉线索的结合能增强主观评价。这为室内设计美学评估提供了更实用的工具。
[44] ColorConceptBench: A Benchmark for Probabilistic Color-Concept Understanding in Text-to-Image Models
Chenxi Ruan,Yu Xiao,Yihan Hou,Guosheng Hu,Wei Zeng
Main category: cs.CV
TL;DR: 本文介绍了ColorConceptBench基准,用于评估文本到图像模型在颜色-概念关联方面的能力,发现现有模型对抽象语义不敏感且难以通过常规方法改进
- Motivation: 当前文本到图像(T2I)模型在颜色与隐含概念关联方面的能力尚未得到充分探索,需要系统性的评估方法来理解模型如何理解和表示抽象的颜色语义
- Method: 提出ColorConceptBench基准,包含1,281个隐含颜色概念和6,369个人工标注,通过概率颜色分布来评估模型对颜色-概念关联的理解能力,测试了七个主流T2I模型
- Result: 评估发现当前模型对抽象语义缺乏敏感性,且这种局限性对标准干预方法(如模型缩放和引导)具有抵抗性,表明问题不仅仅是模型规模的问题
- Conclusion: 实现人类水平的颜色语义理解需要超越更大模型的思路,要求模型在学习和表示隐含意义方面进行根本性的转变
[45] No Validation, No Problem: Predicting Model Performance from a Single Gradient
Fangzheng Wu,Brian Summa
Main category: cs.CV
TL;DR: 提出一种无需验证集的检查点选择方法:使用分类头梯度的Frobenius范数作为代理指标,在单次前向-反向传播中计算,能有效预测模型性能。
- Motivation: 传统检查点选择需要验证集和标签,增加了计算成本和数据需求。本文旨在开发一种无需验证集、标签无关的轻量级检查点选择方法。
- Method: 使用分类头梯度的Frobenius范数 ||dL/dW||_F 作为代理指标,仅需一个批次的分离特征进行单次前向-反向传播。针对不同架构(CNN/Transformer)采用头尺度或特征尺度归一化。
- Result: 在ImageNet-1k上,该代理指标与Top-1准确率强负相关,与损失值强正相关。使用最小梯度检查点选择策略,在短尾窗口中能接近oracle性能(差距4.24%±2.00%)。同样适用于COCO检测/分割和扩散模型。
- Conclusion: 提出的梯度范数代理指标是一种高效、轻量的检查点选择方法,无需验证标签,计算开销极小(<0.1% epoch),可作为验证无关检查点选择和早停的即插即用方案。
[46] GPA-VGGT:Adapting VGGT to Large scale Localization by self-Supervised learning with Geometry and Physics Aware loss
Yangfan Xu,Lilian Zhang,Xiaofeng He,Pengdong Wu,Wenqi Wu,Jun Mao
Main category: cs.CV
TL;DR: 提出自监督框架训练VGGT模型,通过序列几何约束和联合优化损失,无需地面真值标签,提升大规模环境下的定位能力。
- Motivation: 现有VGGT模型依赖地面真值标签训练,难以适应无标签和未见场景,需要自监督方法提升模型在未标注数据上的定位能力。
- Method: 将成对关系扩展到序列几何约束,采样多个源帧几何投影到不同目标帧以改善时序特征一致性;将物理光度一致性和几何约束公式化为联合优化损失,避免硬标签需求。
- Result: 模型在数百次迭代内收敛,在大规模定位任务中取得显著改进,局部和全局跨视图注意力层以及相机和深度头都能有效捕捉底层多视图几何。
- Conclusion: 提出的自监督框架成功训练VGGT模型,无需地面真值标签,增强了模型在大规模环境中的定位能力,为无标签场景的视觉几何理解提供了有效解决方案。
[47] Evaluating Large Vision-language Models for Surgical Tool Detection
Nakul Poudel,Richard Simon,Cristian A. Linte
Main category: cs.CV
TL;DR: 评估大型视觉语言模型在手术工具检测任务中的表现,发现Qwen2.5在零样本和微调设置下均表现最佳,优于其他VLM和开放集检测基线。
- Motivation: 当前手术AI系统多为单模态,缺乏对手术场景的整体理解。大型视觉语言模型具有多模态处理能力,有望提供类人的场景推理,但在手术应用中的系统性研究有限。
- Method: 在GraSP机器人手术数据集上评估三种先进VLM(Qwen2.5、LLaVA1.5、InternVL3.5),采用零样本和参数高效的LoRA微调两种设置,并与开放集检测基线Grounding DINO比较。
- Result: Qwen2.5在两种配置下均表现最优,相比Grounding DINO具有更强的零样本泛化能力和相当的微调性能。Qwen2.5在工具识别方面更优,而Grounding DINO在定位方面更强。
- Conclusion: 大型视觉语言模型在手术工具检测任务中表现出色,Qwen2.5是当前最佳选择,但不同模型各有优势(识别vs定位),为通用手术AI系统开发提供了重要参考。
[48] LoL: Longer than Longer, Scaling Video Generation to Hour
Justin Cui,Jie Wu,Ming Li,Tao Yang,Xiaojie Li,Rui Wang,Andrew Bai,Yuanhao Ban,Cho-Jui Hsieh
Main category: cs.CV
TL;DR: 提出一种轻量级训练免费方法,通过引入多头RoPE抖动来抑制视频生成中的sink-collapse问题,实现实时、流式、无限长度视频生成
- Motivation: 当前自回归长视频生成模型存在错误累积和长期一致性丢失问题,注意力sink帧虽然缓解性能衰减,但会导致sink-collapse现象——生成内容反复回退到sink帧,造成场景重置和循环运动模式
- Method: 提出轻量级训练免费方法,通过引入多头RoPE抖动来打破多头注意力同质化,缓解长期崩溃。分析发现sink-collapse源于RoPE周期性结构与多头注意力机制的内在冲突
- Result: 方法成功缓解sink-collapse同时保持生成质量,实现实时、流式、无限长度视频生成,生成长达12小时的连续视频,是公开演示中最长的流式视频生成结果
- Conclusion: 通过解决RoPE与多头注意力的冲突,提出的方法有效抑制了sink-collapse,为长视频生成提供了稳健解决方案,首次展示了质量衰减极小的实时流式无限长度视频生成
[49] Reward-Forcing: Autoregressive Video Generation with Reward Feedback
Jingran Zhang,Ning Li,Yuanhao Ban,Andrew Bai,Justin Cui
Main category: cs.CV
TL;DR: 本文提出了一种使用奖励信号引导的自回归视频生成方法,无需依赖教师模型,在保持高质量的同时实现了更高效和可扩展的生成。
- Motivation: 现有自回归视频生成方法严重依赖教师模型,这限制了性能,特别是在缺乏强大自回归教师的情况下,导致输出质量通常落后于双向模型。需要一种更高效、可扩展且不依赖教师架构约束的方法。
- Method: 采用奖励信号来引导生成过程,通过奖励信号指导模型,简化训练过程,同时保持高视觉保真度和时间一致性。
- Result: 在标准基准测试中,该方法与现有自回归模型性能相当,在某些情况下甚至超过了类似规模的双向模型。例如在VBench上获得84.92的总分,接近需要大量异构蒸馏的最先进自回归方法(84.31分)。
- Conclusion: 使用奖励信号引导的自回归视频生成方法能够避免教师架构的限制,实现高效、可扩展的高质量视频生成,为实时视频生成提供了有前景的替代方案。
[50] Domain-invariant Mixed-domain Semi-supervised Medical Image Segmentation with Clustered Maximum Mean Discrepancy Alignment
Ba-Thinh Lam,Thanh-Huy Nguyen,Hoang-Thien Nguyen,Quang-Khai Bui-Tran,Nguyen Lan Vi Vu,Phat K. Huynh,Ulas Bagci,Min Xu
Main category: cs.CV
TL;DR: 提出一种领域不变混合领域半监督分割框架,通过跨领域复制粘贴增强数据多样性,使用聚类最大均值差异对齐特征,在少量标注和未知领域差异下实现鲁棒分割。
- Motivation: 医学图像分割中,深度学习依赖大规模专家标注和一致数据分布,但实际中标注稀缺且数据来自多个扫描仪或中心,形成混合领域设置,存在未知领域标签和严重领域差异。现有半监督或领域适应方法通常假设单一领域偏移或需要显式领域索引,这在现实部署中很少成立。
- Method: 提出领域不变混合领域半监督分割框架:1) 复制粘贴机制(CPM)通过跨领域转移信息区域增强训练集;2) 聚类最大均值差异(CMMD)块聚类未标记特征并通过MMD目标与标记锚点对齐,鼓励领域不变表示;3) 集成在教师-学生框架中。
- Result: 在Fundus和M&Ms基准测试中,该方法在仅有少量标注示例和多个未知领域差异的情况下,持续超越半监督和领域适应方法,实现了鲁棒且精确的分割。
- Conclusion: 该方法为混合领域半监督医学图像分割提供了一个潜在解决方案,能够有效增强数据多样性并减轻领域偏差,在现实医疗场景中具有应用价值。
[51] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
Zirui Wang,Junyi Zhang,Jiaxin Ge,Long Lian,Letian Fu,Lisa Dunlap,Ken Goldberg,XuDong Wang,Ion Stoica,David M. Chan,Sewon Min,Joseph E. Gonzalez
Main category: cs.CV
TL;DR: VisGym是一个包含17个环境的评估和训练套件,用于测试视觉语言模型在多步视觉交互中的表现,发现前沿模型在交互设置中表现不佳,揭示了模型在长上下文利用、视觉表示理解等方面的局限性。
- Motivation: 现代视觉语言模型在多步视觉交互中的表现尚未得到充分研究,特别是在如何整合感知、记忆和行动以应对长时程任务方面存在不足。需要系统性的评估框架来理解模型在交互环境中的能力局限。
- Method: 提出了VisGym评估套件,包含17个环境,涵盖符号谜题、真实图像理解、导航和操作任务。提供难度、输入表示、规划时程和反馈的灵活控制。开发了多步求解器生成结构化演示数据,支持监督微调。
- Result: 所有前沿模型在交互设置中表现不佳,在简单配置中成功率46.6%,困难配置中仅26.0%。模型难以有效利用长上下文,无界历史窗口表现比截断窗口更差。文本符号任务一旦转为视觉表示难度显著增加。
- Conclusion: 明确的目标观察、文本反馈以及在部分可观测或未知动态设置中的探索性演示能带来持续改进,揭示了改进多步视觉决策的具体失败模式和可行路径。VisGym为评估和训练视觉语言模型提供了系统框架。
[52] SyncLight: Controllable and Consistent Multi-View Relighting
David Serrano-Lozano,Anand Bhattad,Luis Herranz,Jean-François Lalonde,Javier Vazquez-Corral
Main category: cs.CV
TL;DR: SyncLight是首个能在多个未标定视角下实现一致参数化重光照的方法,通过单次推理即可为整个图像集生成高质量重光照效果。
- Motivation: 现有生成式方法在多视角重光照中难以保持严格的照明一致性,而多相机广播、立体电影和虚拟制作等应用需要跨视角的照明一致性。
- Method: 使用基于潜在桥匹配公式训练的多视角扩散变换器,通过单个参考编辑控制整个场景的光照强度和颜色,无需相机姿态信息。
- Result: 方法仅使用图像对训练,却能零样本泛化到任意数量的视角,有效传播光照变化,支持实用的多视角重光照工作流。
- Conclusion: SyncLight解决了多视角重光照的一致性问题,为多视角捕捉系统提供了实用的重光照解决方案,具有重要的应用价值。
[53] AnyView: Synthesizing Any Novel View in Dynamic Scenes
Basile Van Hoorick,Dian Chen,Shun Iwase,Pavel Tokmakov,Muhammad Zubair Irshad,Igor Vasiljevic,Swati Gupta,Fangzhou Cheng,Sergey Zakharov,Vitor Campagnolo Guizilini
Main category: cs.CV
TL;DR: AnyView是一个基于扩散模型的视频生成框架,用于动态视角合成,无需强几何假设,通过多源数据训练实现任意相机轨迹的零样本新视频生成。
- Motivation: 现有生成视频模型在高度动态的真实世界环境中难以保持多视角和时空一致性,需要解决极端动态视角合成的挑战。
- Method: 利用单目(2D)、多视角静态(3D)和多视角动态(4D)数据集训练通用时空隐式表示,基于扩散模型框架实现任意视角的视频生成。
- Result: 在标准基准测试中取得竞争性结果,在提出的AnyViewBench极端动态视角合成基准上,相比基线方法显著提升,能生成真实、合理且时空一致的视频。
- Conclusion: AnyView框架能够从任意视角生成高质量动态视频,解决了现有方法在极端视角合成中的局限性,为动态视角合成提供了有效解决方案。
cs.CL
[54] Learning Domain Knowledge in Multimodal Large Language Models through Reinforcement Fine-Tuning
Qinglong Cao,Yuntian Chen,Chao Ma,Xiaokang Yang
Main category: cs.CL
TL;DR: 本文发现当前多模态大语言模型无法通过文本指令有效吸收领域知识,提出通过强化微调框架将领域知识作为约束和奖励信号直接整合到优化目标中,在遥感和医学领域取得显著性能提升。
- Motivation: 当前多模态大语言模型在专业领域(如遥感和医学影像)表现有限,研究发现仅通过文本指令、提示或辅助描述等输入级领域知识注入几乎无法提升科学多模态任务性能,表明当前模型无法仅通过语言内化领域特定先验知识。
- Method: 提出强化微调框架,将领域知识直接整合到学习目标中。不是将领域知识作为描述性信息,而是将其编码为领域感知的约束和奖励信号,在输出空间塑造模型行为。
- Result: 在遥感和医学领域的多个数据集上进行广泛实验,一致显示出显著的性能提升,在多模态领域任务上取得了最先进的结果。
- Conclusion: 研究强调了优化级领域知识整合的必要性,揭示了当前多模态大语言模型中文本领域条件化的根本局限性。领域知识必须在优化层面进行整合,而非仅通过语言输入。
[55] EMemBench: Interactive Benchmarking of Episodic Memory for VLM Agents
Xinze Li,Ziyue Zhu,Siyuan Liu,Yubo Ma,Yuhang Zang,Yixin Cao,Aixin Sun
Main category: cs.CL
TL;DR: EMemBench是一个通过交互式游戏评估智能体长期记忆的程序化基准测试,它从智能体自身轨迹生成问题,覆盖文本和视觉游戏环境,评估多种记忆技能。
- Motivation: 现有记忆评估方法通常使用固定问题集,缺乏从智能体自身经验生成问题的能力,且难以全面评估多种记忆技能(如时空推理、归纳、逻辑推理等)。需要一种更全面、可验证的长期记忆评估基准。
- Method: EMemBench通过程序化生成问题,从智能体在游戏中的轨迹创建评估问题。每个问题模板都从底层游戏信号计算可验证的真实答案,控制答案的可回答性,并平衡覆盖多种记忆技能:单跳/多跳回忆、归纳、时间、空间、逻辑和对抗性推理。评估使用强语言模型和视觉语言模型作为骨干,以上下文提示作为基线。
- Result: 在15个文本游戏和多个视觉种子上的结果显示,性能远未饱和:归纳和空间推理是持续瓶颈,尤其在视觉环境中。持久性记忆对文本游戏的开放骨干有明显提升,但对视觉语言模型智能体的改进不太一致,表明视觉基础的情景记忆仍是一个开放挑战。人类研究进一步证实了EMemBench的难度。
- Conclusion: EMemBench提供了一个全面评估智能体长期记忆的基准测试,揭示了当前智能体在归纳和空间推理方面的局限性,特别是视觉基础的情景记忆仍然是一个重要挑战,为未来记忆研究提供了重要方向。
cs.LG
[56] Beyond Superficial Unlearning: Sharpness-Aware Robust Erasure of Hallucinations in Multimodal LLMs
Xianya Fang,Feiyang Ren,Xiang Chen,Yu Tian,Zhen Bi,Haiyang Yu,Sheng-Jun Huang
Main category: cs.LG
TL;DR: 论文提出SARE方法解决多模态大语言模型的对象幻觉问题,通过几何稳定化实现鲁棒的去学习,防止幻觉在轻量级再学习后灾难性复发。
- Motivation: 多模态大语言模型存在对象幻觉问题(描述不存在的实体),现有去学习方法存在结构性脆弱缺陷,只能实现表面抑制,模型陷入尖锐最小值,幻觉在轻量级再学习后会灾难性复发。
- Method: 提出SARE方法,将去学习构建为有针对性最小最大优化问题,使用Targeted-SAM机制显式平坦化幻觉概念周围的损失景观,通过模拟最坏情况参数扰动来抑制幻觉,确保对权重变化的鲁棒性。
- Result: SARE在擦除效果上显著优于基线方法,同时保持一般生成质量。关键的是,它能持久抑制幻觉对抗再学习和参数更新,验证了几何稳定化的有效性。
- Conclusion: 通过几何稳定化方法解决多模态大语言模型对象幻觉问题的结构性脆弱性,SARE框架实现了鲁棒的去学习,确保幻觉的持久抑制。
[57] Understanding and Improving UMAP with Geometric and Topological Priors: The JORC-UMAP Algorithm
Xiaobin Li,Run Zhang
Main category: cs.LG
TL;DR: JORC-UMAP:通过引入Ollivier-Ricci曲率几何先验和Jaccard相似性拓扑先验,改进UMAP在非线性降维中的表现,减少拓扑撕裂和结构坍塌问题。
- Motivation: UMAP等非线性降维方法在可视化高维数据时广泛使用,但UMAP基于局部欧氏距离的假设常常无法捕捉内在流形几何结构,导致拓扑撕裂和结构坍塌问题。研究发现UMAP对k近邻图的敏感性是主要原因。
- Method: 提出JORC-UMAP方法:1) 引入Ollivier-Ricci曲率作为几何先验,强化几何瓶颈处的边连接,减少冗余链接;2) 由于曲率估计对噪声敏感,同时引入基于Jaccard相似性的拓扑先验,确保邻域一致性;3) 结合两种先验来更好地区分真实流形结构和虚假连接。
- Result: 在合成和真实数据集上的实验表明,JORC-UMAP比标准UMAP和其他降维方法更有效地减少了撕裂和坍塌问题,通过SVM准确率和三元组保持分数等指标验证了改进效果,同时保持了计算效率。
- Conclusion: JORC-UMAP为UMAP提供了几何感知的增强,能够实现更忠实的数据可视化,通过结合几何和拓扑先验来更好地捕捉高维数据的本质结构。
[58] Calibrated Probabilistic Interpolation for GEDI Biomass
Robin Young,Srinivasan Keshav
Main category: cs.LG
TL;DR: ANPs (Attentive Neural Processes) 为GEDI任务提供概率元学习框架,通过局部观测集和地理空间基础模型嵌入显式调节预测,实现校准的预测区间,优于传统机器学习方法。
- Motivation: 传统机器学习方法(如Random Forest、XGBoost)在处理GEDI稀疏LiDAR观测插值时,将空间预测视为独立任务,未适应异质景观的难度变化,无法产生校准的预测区间,主要问题在于混淆了集成方差与偶然不确定性,并忽略了局部空间上下文。
- Method: 提出Attentive Neural Processes (ANPs)概率元学习框架,通过显式条件化局部观测集和地理空间基础模型嵌入进行预测。ANPs学习灵活的空间协方差函数,使不确定性估计在复杂景观中扩展,在均匀区域收缩。该方法支持少样本适应,在跨区域迁移中利用少量本地数据恢复性能差距。
- Result: 在五个不同生物群落(从热带亚马逊森林到北方和高山生态系统)验证中,ANPs实现了竞争性精度,同时保持接近理想的不确定性校准。少样本适应实验显示,模型使用最小本地数据即可恢复跨区域迁移中的大部分性能差距。
- Conclusion: ANPs为大陆尺度地球观测提供了可扩展、理论严谨的替代方案,解决了传统集成方差方法的局限性,实现了可靠的不确定性校准,支持少样本适应,适用于异质景观的生物量制图。
[59] Embedding -based Crop Type Classification in the Groundnut Basin of Senegal
Madeline C. Lisaius,Srinivasan Keshav,Andrew Blake,Clement Atzberger
Main category: cs.LG
TL;DR: TESSERA地理空间基础模型嵌入方法在塞内加尔花生盆地作物类型分类中表现最佳,满足性能、合理性、可迁移性和可访问性四项标准,相比次优方法准确率提升28%。
- Motivation: 现有卫星遥感作物类型制图方法大多不适用于小农户条件,需要开发适合小农户区域的实用方法,以支持粮食安全、生计改善和气候变化缓解。
- Method: 建立包含性能、合理性、可迁移性和可访问性的四项标准,评估TESSERA和AlphaEarth地理空间基础模型嵌入方法,与现有基线方法在塞内加尔花生盆地区域进行比较。
- Result: TESSERA嵌入方法在所有四项标准中表现最佳,在时间迁移示例中比次优方法准确率高28%,表明该方法在塞内加尔作物类型分类任务中具有有效性。
- Conclusion: TESSERA地理空间基础模型嵌入是塞内加尔作物类型分类和制图的有效方法,满足小农户条件下的实用需求,为相关应用提供了有前景的解决方案。
eess.IV
[60] Experience with Single Domain Generalization in Real World Medical Imaging Deployments
Ayan Banerjee,Komandoor Srivathsan,Sandeep K. S. Gupta
Main category: eess.IV
TL;DR: 论文提出DL+EKE方法,将专家知识整合到深度学习中以解决医学影像中的单域泛化问题,并在糖尿病视网膜病变、压力心电图和静息态fMRI三个应用上验证其优于现有SOTA方法。
- Motivation: 医学影像应用中,不同扫描设备和成像协议导致域偏移,加剧罕见类别特征的变异性。单域泛化(SDG)旨在单个域上训练的模型能泛化到未见目标域,但现有SOTA方法在实际部署中效果不佳。
- Method: 提出DL+EKE方法,将专家知识整合到深度学习框架中。首先在糖尿病视网膜病变应用上实例化该方法,然后部署到压力心电图冠状动脉检测和静息态fMRI癫痫发作区检测两个真实案例。
- Result: DL+EKE在糖尿病视网膜病变应用上优于现有SOTA SDG方法。在压力心电图和静息态fMRI两个真实世界案例中,DL+EKE也展示了更好的泛化性能,并讨论了SDG技术面临的实际问题。
- Conclusion: 专家知识整合的深度学习方法(DL+EKE)能有效解决医学影像中的单域泛化问题,在实际部署中优于现有技术,为多中心研究中的域偏移问题提供了实用解决方案。
[61] On The Robustness of Foundational 3D Medical Image Segmentation Models Against Imprecise Visual Prompts
Soumitri Chattopadhyay,Basar Demir,Marc Niethammer
Main category: eess.IV
TL;DR: 系统研究3D医学基础模型对不精确提示的鲁棒性,通过控制扰动实验揭示模型对视觉形状和空间线索的依赖程度
- Motivation: 虽然3D基础模型在医学体积分割中显示出潜力,但其对不精确提示的鲁棒性尚未得到充分探索。本研究旨在填补这一空白,系统研究各种受控扰动对密集视觉提示的影响,这些扰动密切模拟真实世界的不精确性。
- Method: 通过在多器官腹部分割任务上对两个最近的基础模型进行实验,系统研究各种受控扰动对密集视觉提示的影响。这些扰动密切模拟真实世界的不精确性,以揭示模型对视觉形状和空间线索的依赖程度。
- Result: 实验揭示了可提示医学分割的多个方面,特别是关于模型对视觉形状和空间线索的依赖程度,以及模型对某些扰动的弹性程度。代码已开源。
- Conclusion: 本研究首次系统探索了3D医学基础模型对不精确提示的鲁棒性,揭示了模型在真实应用场景中可能面临的挑战,为改进模型鲁棒性提供了重要见解。
[62] PanopMamba: Vision State Space Modeling for Nuclei Panoptic Segmentation
Ming Kang,Fung Fung Ting,Raphaël C. -W. Phan,Zongyuan Ge,Chee-Ming Ting
Main category: eess.IV
TL;DR: 提出PanopMamba,首个基于Mamba的全景分割方法,用于组织病理图像中的细胞核分割,通过混合Mamba-Transformer架构和特征增强融合解决小目标检测、模糊边界和类别不平衡问题。
- Motivation: 细胞核全景分割对癌症诊断至关重要,但面临小目标检测困难、边界模糊和类别不平衡等挑战。现有方法在这些问题上表现有限,需要更有效的长距离感知和特征融合机制。
- Method: 提出PanopMamba混合编码器-解码器架构:1) 多尺度Mamba骨干网络;2) 基于状态空间模型(SSM)的特征增强融合网络;3) 金字塔特征网络与动态特征增强的集成。同时引入新的评估指标:图像级PQ、边界加权PQ和频率加权PQ。
- Result: 在MoNuSAC2020和NuInsSeg两个多类细胞核分割基准数据集上,PanopMamba在细胞核全景分割任务上优于现有最先进方法,验证了其鲁棒性。
- Conclusion: PanopMamba是首个基于Mamba的全景分割方法,通过SSM-based特征增强融合有效解决了细胞核分割的独特挑战,同时提出的PQ变体指标能更公平地评估分割性能。
[63] Fast, faithful and photorealistic diffusion-based image super-resolution with enhanced Flow Map models
Maxence Noble,Gonzalo Iñaki Quintana,Benjamin Aubin,Clément Chadebec
Main category: eess.IV
TL;DR: FlowMapSR:基于Flow Map自蒸馏扩散模型的高效图像超分辨率框架,通过正负提示引导和对抗性微调,在重建保真度和照片真实感之间取得更好平衡
- Motivation: 现有基于扩散模型的超分辨率方法面临重建保真度与照片真实感之间的权衡问题,而教师-学生蒸馏方法存在信息压缩限制,会降低感知质量。Flow Map自蒸馏模型在图像生成中表现出色,但尚未应用于超分辨率任务
- Method: 提出FlowMapSR框架:1) 将Flow Map模型(Eulerian、Lagrangian、Shortcut三种变体)适配到超分辨率任务;2) 引入正负提示引导,将分类器自由引导范式推广到Flow Map模型;3) 使用低秩适应(LoRA)进行对抗性微调
- Result: Shortcut变体Flow Map模型结合增强技术表现最佳。FlowMapSR在x4和x8超分辨率上比现有方法更好地平衡了重建保真度和照片真实感,同时保持有竞争力的推理时间。单个模型支持两种缩放因子,无需尺度特定条件或退化引导机制
- Conclusion: FlowMapSR通过将Flow Map自蒸馏模型与正负提示引导和对抗性微调相结合,为高效扩散基超分辨率提供了有效解决方案,在保持快速推理的同时提升了感知质量
[64] PocketDVDNet: Realtime Video Denoising for Real Camera Noise
Crispian Morris,Imogen Dexter,Fan Zhang,David R. Bull,Nantheera Anantrasirichai
Main category: eess.IV
TL;DR: PocketDVDNet是一个轻量级视频去噪模型,通过模型压缩框架结合结构化剪枝、物理噪声模型和知识蒸馏,在减少74%模型大小的同时提升去噪质量,实现实时处理。
- Motivation: 现实世界中的多组件传感器噪声给实时视频去噪带来挑战,特别是在自动对焦、自动驾驶和监控等应用中需要平衡去噪质量和计算效率。
- Method: 采用模型压缩框架:1) 从参考模型出发,诱导稀疏性并进行针对性通道剪枝;2) 在真实多组件噪声上重新训练教师网络;3) 学生网络通过知识蒸馏学习隐式噪声处理,无需显式噪声图输入。
- Result: 模型大小减少74%,去噪质量提升,能够实时处理5帧图像块,在性能和效率之间取得良好平衡。
- Conclusion: 激进的模型压缩结合领域适应的知识蒸馏能够协调性能和效率,为实际实时视频去噪应用提供可行解决方案。
cs.RO
[65] ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance
Zhuohao Li,Yinghao Li,Jian-Jian Jiang,Lang Zhou,Tianyu Zhang,Wei-Shi Zheng
Main category: cs.RO
TL;DR: ReViP是一个新的VLA框架,通过视觉-本体感知再平衡来解决模态不平衡问题,减少状态主导偏差和虚假完成错误,提高机器人操作的鲁棒性。
- Motivation: 现有VLA模型在融合本体感知信号时存在模态不平衡问题,导致策略过度依赖内部状态而忽视视觉证据,产生状态主导偏差和虚假完成错误(即使执行失败也预测成功)。
- Method: 提出ReViP框架:1) 使用外部VLM作为任务阶段观察器提取实时任务中心视觉线索;2) 通过视觉-本体感知特征线性调制自适应调节语义感知与本体感知动态的耦合;3) 引入辅助任务感知环境先验增强环境意识。
- Result: 在提出的False-Completion Benchmark Suite(基于LIBERO构建)上,ReViP有效降低了虚假完成率,提高了成功率,优于现有VLA基线。优势扩展到LIBERO、RoboTwin 2.0和真实世界评估。
- Conclusion: ReViP通过视觉-本体感知再平衡解决了VLA模型中的模态不平衡问题,增强了视觉基础性和鲁棒性,减少了状态驱动错误,为机器人操作提供了更可靠的VLA框架。
cs.CR
[66] DeMark: A Query-Free Black-Box Attack on Deepfake Watermarking Defenses
Wei Song,Zhenchang Xing,Liming Zhu,Yulei Sui,Jingling Xue
Main category: cs.CR
TL;DR: DeMark攻击框架成功破解了8种最先进的深度伪造防御水印方案,将检测准确率从100%降至32.9%,同时保持图像质量,现有防御策略基本无效。
- Motivation: 当前防御水印方案被认为具有抗移除性,但作者质疑这一假设,认为现有水印方案存在潜在漏洞,需要验证其实际安全性。
- Method: DeMark采用无查询黑盒攻击框架,利用压缩感知稀疏化过程针对编码器-解码器水印模型的潜在空间漏洞,抑制水印信号同时保持感知和结构真实性。
- Result: 在8种最先进水印方案上,DeMark将水印检测准确率从100%平均降至32.9%,同时保持自然视觉质量,优于现有攻击方法。三种防御策略(超分辨率、稀疏水印、对抗训练)基本无效。
- Conclusion: 当前编码器-解码器水印方案对潜在空间操作仍然脆弱,需要开发更鲁棒的水印方法来有效防御深度伪造。
Powered by Deepseek & arXiv Daily AI Enhanced