Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Salience Adjustment for Context-Based Emotion Recognition
Bin Han,Jonathan Gratch
Main category: cs.CV
TL;DR: 本文提出了一个基于显著性调整的情境感知情感识别框架,结合贝叶斯线索整合和视觉-语言模型,在囚徒困境场景中动态权衡面部表情和情境信息,显著提升了情感识别性能。
- Motivation: 动态社会情境中的情感识别需要理解面部表情和情境线索之间的复杂交互作用,现有方法缺乏对面部线索表达性的动态权重调整机制。
- Method: 提出了一个显著性调整框架,结合贝叶斯线索整合(BCI)和视觉-语言模型(VLMs),基于面部线索的表达性动态权衡面部和情境信息。
- Result: 在囚徒困境场景中使用人工标注和自动情感识别系统进行评估,结果表明融入显著性调整显著提升了情感识别性能。
- Conclusion: 显著性调整框架有效提升了情境感知情感识别的性能,为未来将该框架扩展到更广泛的社会情境和多模态应用提供了有前景的研究方向。
[2] Document Haystack: A Long Context Multimodal Image/Document Understanding Vision LLM Benchmark
Goeric Huybrechts,Srikanth Ronanki,Sai Muralidhar Jayanthi,Jack Fitzgerald,Srinivasan Veeravanallur
Main category: cs.CV
TL;DR: 本文介绍了Document Haystack基准测试,用于评估视觉语言模型在处理长篇视觉复杂文档方面的能力,包含5-200页的文档和8,250个问题。
- Motivation: 多模态大语言模型在处理长文档方面的能力仍未得到充分探索,主要是由于缺乏合适的基准测试。现有的视觉语言模型在分析复杂数据输入方面虽有显著进展,但对长文档处理的研究存在空白。
- Method: 构建了Document Haystack综合基准测试,包含5-200页的文档,在文档的不同深度战略性地插入纯文本或多模态文本+图像的"针"来挑战VLMs的检索能力。基准包含400个文档变体和总计8,250个问题,并配备客观的自动化评估框架。
- Result: 创建了一个全面的基准测试数据集,对主要的视觉语言模型进行了测试并展示了结果。该基准成功评估了VLMs在长文档处理方面的性能表现。
- Conclusion: Document Haystack为评估视觉语言模型处理长文档的能力提供了有效的基准测试工具,填补了该领域的研究空白,并为未来在长文档理解方面的研究提供了潜在的研究方向。
[3] PAT++: a cautionary tale about generative visual augmentation for Object Re-identification
Leonardo Santiago Benitez Pereira,Arathy Jeevan
Main category: cs.CV
TL;DR: 该研究评估了生成式数据增强在物体重识别任务中的有效性,发现由于域偏移和身份特征丢失,生成图像会导致性能下降,质疑了生成模型在细粒度识别任务中的可转移性。
- Motivation: 尽管生成式数据增强在多个视觉任务中显示出效果,但其在需要保持细粒度视觉细节的物体重识别任务中的影响尚未得到充分探索,因此需要评估身份保持图像生成在物体重识别中的有效性。
- Method: 提出了名为PAT++的新管道,将扩散自蒸馏(Diffusion Self-Distillation)融入到已建立的Part-Aware Transformer中,使用Urban Elements ReID Challenge数据集进行实验,将生成图像用于模型训练和查询扩展。
- Result: 实验结果显示性能持续下降,主要由域偏移和无法保持身份定义特征所驱动。生成的图像在物体重识别任务中未能提供预期的性能提升。
- Conclusion: 研究结果质疑了生成模型在细粒度识别任务中的可转移性假设,并揭示了当前视觉增强方法在身份保持应用中的关键局限性,表明生成式数据增强可能不适用于需要精确身份识别的任务。
[4] Local Dense Logit Relations for Enhanced Knowledge Distillation
Liuchi Xu,Kang Liu,Jinshuai Liu,Lu Wang,Lisheng Xu,Jun Cheng
Main category: cs.CV
TL;DR: 提出了局部密集关系logit蒸馏(LDRLD)方法,通过递归解耦和重组logit信息来捕捉类间关系,并引入自适应衰减权重策略来动态调整关键类别对的权重,在多个数据集上取得了优于现有logit蒸馏方法的性能。
- Motivation: 现有的logit蒸馏方法虽然具有通用性、简单性和高效性,但尚未深入探讨logit知识内部的细粒度关系,缺乏对类间关系的详细和清晰的洞察。
- Method: 提出局部密集关系logit蒸馏(LDRLD)方法,通过递归解耦和重组logit信息来捕捉类间关系;引入自适应衰减权重(ADW)策略,使用逆排名权重(IRW)和指数排名衰减(ERD)动态调整关键类别对的权重;对递归解耦后的非目标知识进行蒸馏以确保知识完整性。
- Result: 在CIFAR-100、ImageNet-1K和Tiny-ImageNet等数据集上的大量实验表明,该方法与现有最先进的基于logit的蒸馏方法相比具有显著优势。
- Conclusion: 通过传递细粒度知识和强调最关键的关系,LDRLD方法成功提升了学生模型的性能,为logit蒸馏领域提供了新的研究方向和有效解决方案。
[5] An empirical study for the early detection of Mpox from skin lesion images using pretrained CNN models leveraging XAI technique
Mohammad Asifur Rahim,Muhammad Nazmul Arefin,Md. Mizanur Rahman,Md Ali Hossain,Ahmed Moustafa
Main category: cs.CV
TL;DR: 本研究评估了预训练CNN模型(VGG16、VGG19、InceptionV3、MobileNetV2)在猴痘早期检测中的效果,并使用Grad-CAM技术增强模型可解释性。InceptionV3在二分类数据集上达到95%准确率,MobileNetV2在多分类数据集上达到93%准确率。
- Motivation: 猴痘是一种人畜共患病,与其他皮肤病症状相似,准确的早期诊断具有挑战性。虽然人工智能特别是深度学习在医学图像分析中表现出色,但预训练CNN模型和XAI技术在猴痘检测中的应用仍未得到充分探索。
- Method: 使用MSLD和MSLD v2.0两个数据集进行训练和验证。通过迁移学习技术对预训练CNN模型进行微调,冻结初始层并添加自定义层以适应猴痘检测任务并避免过拟合。使用准确率、精确率、召回率、F1分数和ROC等指标评估模型性能。利用Grad-CAM技术可视化关键特征。
- Result: InceptionV3在二分类数据集上表现最佳,准确率达95%;MobileNetV2在多分类数据集上表现最佳,准确率达93%。Grad-CAM成功突出了关键图像区域。尽管准确率较高,但一些模型显示出过拟合倾向,训练损失和验证损失之间存在差异。
- Conclusion: 研究强调了预训练CNN模型在猴痘检测中的潜力以及XAI技术的价值。未来工作应解决数据集局限性,整合多模态数据,并探索其他可解释性技术以提高诊断可靠性和模型透明度。
[6] A Lightweight Face Quality Assessment Framework to Improve Face Verification Performance in Real-Time Screening Applications
Ahmed Aman Ibrahim,Hamad Mansour Alawar,Abdulnasser Abbas Zehi,Ahmed Mohammad Alkendi,Bilal Shafi Ashfaq Ahmed Mirza,Shan Ullah,Ismail Lujain Jaleel,Hassan Ugail
Main category: cs.CV
TL;DR: 本文提出了一个轻量级的人脸图像质量评估框架,通过归一化面部关键点和随机森林回归分类器来预过滤低质量人脸图像,在迪拜警方真实CCTV数据集上实现了96.67%的准确率,并将误拒率降低了99.7%。
- Motivation: 在实时监控、身份验证和门禁控制等应用中,低质量的人脸图像(由运动模糊、光照条件差、遮挡和极端姿态变化等因素造成)会显著降低人脸识别系统的性能,导致更高的误拒率和误接受率,因此需要一个有效的人脸质量评估方法来预过滤低质量图像。
- Method: 提出了一个基于归一化面部关键点和随机森林回归分类器的轻量级人脸质量评估框架,该方法在人脸验证流水线之前预过滤低质量人脸图像,并与ArcFace人脸验证模型集成。
- Result: 在包含600多个受试者的迪拜警方真实CCTV数据集上实现了96.67%的准确率,误拒率降低了99.7%,余弦相似度得分得到提升,在计算效率方面优于现有的人脸质量评估技术。
- Conclusion: 所提出的框架有效缓解了低质量人脸图像的影响,在保持计算效率的同时优于现有技术,特别是解决了实时筛查中的两个关键挑战:人脸分辨率变化和姿态偏差,这些在实际监控场景中都很常见。
[7] FW-VTON: Flattening-and-Warping for Person-to-Person Virtual Try-on
Zheng Wang,Xianbing Sun,Shengyi Wu,Jiahui Zhan,Jianlou Si,Chi Zhang,Liqing Zhang,Jianfu Zhang
Main category: cs.CV
TL;DR: 本文提出了FW-VTON方法,实现人对人的虚拟试衣,通过三阶段流程(服装展平、变形对齐、无缝融合)解决传统方法局限性,并构建了专门数据集,在定性和定量评估中均达到最优性能。
- Motivation: 传统虚拟试衣方法主要关注服装到人的试衣任务,需要平展的服装表示。而现实中更常见的是人对人试衣场景,即仅通过目标人物和穿着所需服装的另一个人的图像来实现试衣。现有方法缺乏针对这种场景的有效解决方案和高质量数据集。
- Method: 提出Flattening-and-Warping Virtual Try-On (FW-VTON)方法,包含三个核心阶段:(1)从源图像中提取展平的服装图像;(2)将服装变形以与目标姿态对齐;(3)将变形后的服装无缝集成到目标人物上。同时构建了专门针对人对人试衣场景的新数据集。
- Result: 实验评估显示FW-VTON在人对人虚拟试衣任务中达到了最先进的性能,在定性和定量评估中都取得了优异结果。此外,该方法在服装提取子任务中也表现出色,证明了其各个组件的有效性。
- Conclusion: FW-VTON成功解决了人对人虚拟试衣的挑战,通过创新的三阶段架构和专门构建的数据集,实现了高质量的试衣效果。该方法为虚拟试衣领域提供了新的解决方案,具有重要的实用价值和发展前景。
[8] Is Tracking really more challenging in First Person Egocentric Vision?
Matteo Dunnhofer,Zaira Manigrasso,Christian Micheloni
Main category: cs.CV
TL;DR: 该研究通过设计新的基准评估策略,分离了第一人称视角和人-物体活动领域各自对目标跟踪和分割任务难度的贡献,为理解自我中心视觉追踪的真正挑战提供了更精确的分析框架。
- Motivation: 现有研究认为第一人称自我中心视觉在目标跟踪和分割任务上表现不佳,但这些结论基于在显著不同场景下的评估。许多被归因于自我中心视觉的挑战特性也存在于第三人称的人-物体活动视频中,因此需要区分性能下降到底是由第一人称视角本身还是人-物体活动领域特性造成的。
- Method: 引入新的基准研究设计,通过评估策略来精确分离第一人称视角相关的挑战和人-物体活动理解领域相关的挑战,使研究能够更准确地识别自我中心视觉追踪和分割任务中真正的困难来源。
- Result: 通过新的基准评估,能够更精确地分离第一人称视角和人-物体活动领域各自对任务难度的贡献,为理解自我中心视觉追踪和分割的真正困难来源提供了更深入的见解。
- Conclusion: 该研究为自我中心视觉中的目标跟踪和分割任务提供了更精确的分析框架,通过分离不同因素的影响,有助于推动该领域更有针对性的技术进步和方法改进。
[9] Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers
Andrew Lu,Wentinn Liao,Liuhui Wang,Huzheng Yang,Jianbo Shi
Main category: cs.CV
TL;DR: 本文研究了视觉Transformer中的大规模令牌和伪影令牌现象,提出了Fast Nyström Attention方法,在保持竞争性性能的同时大幅降低计算开销
- Motivation: 尽管视觉Transformer在各种应用中表现强大,但其内部工作机制仍然不够清楚。研究者发现了大规模令牌(具有异常高激活范数的注意力汇聚点)和伪影令牌现象,需要深入理解这些令牌如何影响网络信息流动
- Method: 1. 分析大规模令牌和伪影令牌通过注意力机制相互抑制的机制;2. 基于这些洞察提出Fast Nyström Attention(FNA),这是一种无需训练的方法,通过利用大规模令牌和伪影令牌形成的结构化模式来线性时间和空间复杂度近似自注意力;3. 提出掩码策略来减轻这些令牌的噪声影响
- Result: 在预训练的视觉骨干网络上评估,在检索、分类、分割和视觉问答(VQA)任务上展现了竞争性性能,同时显著降低了计算开销。掩码策略在几乎无成本的情况下带来了适度的性能提升
- Conclusion: 通过深入理解视觉Transformer中大规模令牌和伪影令牌的作用机制,成功开发了高效的Fast Nyström Attention方法,实现了在保持模型性能的同时大幅提升计算效率的目标
[10] Discovering and using Spelke segments
Rahul Venkatesh,Klemen Kotar,Lilian Naing Chen,Seungwoo Kim,Luca Thomas Wheeler,Jared Watrous,Ashley Xu,Gia Ancone,Wanhee Lee,Honglin Chen,Daniel Bear,Stefan Stojanov,Daniel Yamins
Main category: cs.CV
TL;DR: 本文提出了基于Spelke物体概念的图像分割方法SpelkeNet,通过预测运动模式来识别物理上连贯移动的物体片段,在SpelkeBench数据集上优于现有方法,并在物体操作任务中展现实用价值。
- Motivation: 传统计算机视觉分割方法依赖语义和类别特定约定,而发展心理学表明人类以Spelke物体(受物理力作用时可靠地一起移动的物理事物组合)的方式感知世界。Spelke物体基于类别无关的因果运动关系,可能更好地支持操作和规划等任务。
- Method: 1) 构建SpelkeBench数据集,包含自然图像中定义明确的Spelke片段;2) 开发SpelkeNet视觉世界模型,训练预测未来运动分布;3) 估计运动可供性图(识别可能在戳击下移动的区域)和期望位移图(捕获场景其余部分如何移动);4) 使用"统计反事实探测",在高运动可供性区域应用虚拟戳击,利用期望位移图将Spelke片段定义为相关运动统计的统计聚合。
- Result: SpelkeNet在SpelkeBench上优于监督基线方法如SegmentAnything (SAM)。在3DEditBench物理物体操作基准测试中,当用于各种现成物体操作模型时,Spelke概念产生了优越的性能表现。
- Conclusion: Spelke物体概念为图像分割提供了一种新的范式,通过基于物理运动关系而非语义类别的分割方法,不仅在专门的基准测试中表现优异,还在实际的物体操作应用中展现了实用价值,证明了这种方法在计算机视觉和机器人学领域的潜力。
[11] Disrupting Semantic and Abstract Features for Better Adversarial Transferability
Yuyang Luo,Xiaosen Wang,Zhijin Ge,Yingzhe He
Main category: cs.CV
TL;DR: 本文提出SAFER方法,通过同时干扰语义特征和抽象特征(高频成分)来提升对抗样本的可转移性,在ImageNet数据集上验证了该方法的有效性。
- Motivation: 现有的特征级对抗攻击主要操纵语义信息来计算权重矩阵,但CNN更关注高频成分(如纹理、边缘等抽象特征)。作者发现在高频空间变换图像也能提升可转移性,因此需要平衡语义和抽象特征的干扰。
- Method: 提出SAFER(语义和抽象特征干扰)方法:在计算权重矩阵时,对输入图像进行BLOCKMIX操作,对频谱进行SELF-MIX操作,以突出关键特征。利用该权重矩阵指导攻击者同时干扰语义和抽象特征。
- Result: 在ImageNet数据集上的大量实验表明,SAFER方法能有效提升对抗样本的可转移性,相比现有方法有显著改进。
- Conclusion: 通过平衡干扰语义特征和抽象特征(高频成分),SAFER方法成功提升了对抗样本在黑盒设置下的可转移性,为迁移式攻击提供了新的有效途径。
[12] Improving Personalized Image Generation through Social Context Feedback
Parul Gupta,Abhinav Dhall,Thanh-Toan Do
Main category: cs.CV
TL;DR: 本文提出了一种基于反馈的个性化图像生成方法,通过集成姿态、人物-物体交互、面部识别和视线估计检测器来优化扩散模型,解决了现有方法在复杂活动生成、身份保持和视线模式方面的问题。
- Motivation: 现有的个性化图像生成方法存在三个主要局限:无法正确生成复杂活动(如人推摩托车时的人体姿态不正确)、无法保持参考人物的身份特征、生成的人物视线模式不自然且与场景描述不一致。
- Method: 提出基于反馈的微调方法来改进现有个性化生成方法,使用最先进的姿态检测、人物-物体交互检测、人脸识别和人眼视线估计检测器来优化扩散模型。同时提出基于时间步的反馈模块融合策略,根据信号的层次(低层次如人体姿态,高层次如视线点)决定不同反馈模块的加入时机。
- Result: 在三个基准数据集上,该方法在生成的交互质量、面部身份保持和整体图像质量方面都有显著提升。
- Conclusion: 通过集成多种检测器的反馈信号和时间步控制策略,成功解决了个性化图像生成中的关键技术难题,显著提升了生成图像在复杂场景下的准确性和真实性。
[13] Stop-band Energy Constraint for Orthogonal Tunable Wavelet Units in Convolutional Neural Networks for Computer Vision problems
An D. Le,Hung Nguyen,Sungbal Seo,You-Suk Bae,Truong Q. Nguyen
Main category: cs.CV
TL;DR: 本文提出了一种基于正交可调小波单元的滤波器停带能量约束方法,通过格子结构改进CNN在纹理丰富数据集上的图像分类和异常检测性能
- Motivation: 现有CNN在处理纹理丰富的图像数据时性能有限,需要改进卷积、池化和下采样操作来更好地处理纹理特征,提升图像分类和异常检测的准确性
- Method: 引入了具有格子结构的正交可调小波单元的滤波器停带能量约束,将该方法集成到ResNet架构中,改进卷积、池化和下采样操作
- Result: 在ResNet-18上,CIFAR-10数据集准确率提升2.48%,Describable Textures数据集准确率提升13.56%;ResNet-34也观察到类似改进;在MVTec榛子异常检测任务中,在分割和检测方面都取得了竞争性结果
- Conclusion: 所提出的停带能量约束方法能够有效改善CNN在纹理丰富数据集上的性能,在图像分类和异常检测任务中都超越了现有方法,证明了该方法的有效性
[14] PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
Yaofang Liu,Yumeng Ren,Aitor Artola,Yuxuan Hu,Xiaodong Cun,Xiaotong Zhao,Alan Zhao,Raymond H. Chan,Suiyun Zhang,Rui Liu,Dandan Tu,Jean-Michel Morel
Main category: cs.CV
TL;DR: 本文提出了Pusa,一个基于向量化时间步适应(VTA)的视频扩散模型新范式,能够在统一框架内实现精细的时间控制,以极低的训练成本($500 vs $100,000+)和数据集规模(4K vs 10M+样本)超越了现有SOTA模型性能
- Motivation: 现有视频扩散模型在时间建模方面存在根本性限制,特别是传统标量时间步变量强加的帧演化刚性同步问题。现有的任务特定适应和自回归模型虽然试图解决这些挑战,但仍受计算效率低下、灾难性遗忘或适用性狭窄等问题制约
- Method: 提出向量化时间步适应(VTA)方法,这是一种非破坏性适应技术,能够完全保留基础模型的能力。通过对SOTA的Wan2.1-T2V-14B模型进行VTA微调,实现了在统一视频扩散框架内的精细时间控制
- Result: 在图像到视频(I2V)生成任务上取得了87.32%的VBench-I2V总分(相比Wan-I2V-14B的86.86%),同时解锁了多种零样本多任务能力,如起始-结束帧和视频扩展功能。训练成本仅为现有方法的1/200($500 vs ≥$100,000),数据集规模仅为1/2500(4K vs ≥10M样本)
- Conclusion: 建立了一个可扩展、高效且多功能的下一代视频合成范式,通过保留基础模型的生成先验同时精确注入时间动态,避免了向量化时间步固有的组合爆炸问题,为研究和工业界民主化了高保真视频生成技术
[15] Universal Wavelet Units in 3D Retinal Layer Segmentation
An D. Le,Hung Nguyen,Melanie Tran,Jesse Most,Dirk-Uwe G. Bartsch,William R Freeman,Shyamanga Borooah,Truong Q. Nguyen,Cheolhong An
Main category: cs.CV
TL;DR: 本研究首次将可调谐小波单元(UwUs)应用于OCT体积数据的3D视网膜层分割,通过集成三种基于小波的下采样模块到MGU-Net架构中,在JRC OCT数据集上实现了准确率和Dice分数的显著提升。
- Motivation: 传统最大池化在医学图像分割中存在局限性,无法有效保持空间细节和结构一致性,特别是在3D视网膜层分割这种需要精确细节的任务中。因此需要开发新的下采样方法来克服这些问题。
- Method: 将三种基于小波的下采样模块(OrthLattUwU、BiorthLattUwU和LS-BiorthLattUwU)集成到运动校正的MGU-Net架构中。这些模块使用可学习的格子滤波器组来同时保留低频和高频特征,从而增强空间细节和结构一致性。
- Result: 在Jacobs视网膜中心(JRC) OCT数据集上的评估显示,该框架在准确率和Dice分数方面有显著改善,其中LS-BiorthLattUwU模块表现最佳,证明了可调谐小波滤波器在体积医学图像分割中的优势。
- Conclusion: 可调谐小波单元能够有效改善3D视网膜层分割的性能,特别是LS-BiorthLattUwU模块在保持图像细节和结构一致性方面表现突出,为体积医学图像分割提供了新的有效方法。
[16] LongSplat: Online Generalizable 3D Gaussian Splatting from Long Sequence Images
Guichen Huang,Ruoyu Wang,Xiangjun Gao,Che Sun,Yuwei Wu,Shenghua Gao,Yunde Jia
Main category: cs.CV
TL;DR: LongSplat提出了一个在线实时3D高斯重建框架,通过流式更新机制和高斯图像表示(GIR)实现长序列图像的高效3D重建,相比现有方法减少44%的高斯数量同时保持实时性能。
- Motivation: 现有3D高斯喷射方法在长序列在线场景中应用受限,要么依赖缓慢的逐场景优化,要么无法提供高效的增量更新,阻碍了连续性能表现。
- Method: 提出LongSplat框架,核心是流式更新机制,能够增量整合当前视图观测并选择性压缩冗余历史高斯。关键创新是高斯图像表示(GIR),将3D高斯参数编码为结构化的类图像2D格式,实现当前视图和历史高斯的高效融合以及身份感知的冗余压缩。
- Result: 在实时新视角合成中实现了最先进的效率-质量权衡,相比现有的逐像素高斯预测方法减少了44%的高斯数量,同时保持实时重建性能。
- Conclusion: LongSplat成功解决了3D高斯喷射在长序列在线场景中的应用限制,通过创新的流式更新机制和GIR表示实现了高效的实时3D重建,在内存和计算成本控制方面表现优异。
[17] SPACT18: Spiking Human Action Recognition Benchmark Dataset with Complementary RGB and Thermal Modalities
Yasser Ashraf,Ahmed Sharshar,Velibor Bojkovic,Bin Gu
Main category: cs.CV
TL;DR: 本文介绍了首个基于脉冲相机的视频动作识别数据集,结合RGB和热成像模态,为脉冲神经网络提供综合基准测试平台,推动超低功耗视频理解研究。
- Motivation: 现有动作识别研究缺乏专门针对脉冲相机的数据集,而脉冲相机具有超高能效和优异时间分辨率的特点,比事件相机提供更精细的时空分辨率和连续变化表示,因此需要构建相应数据集来充分发挥其潜力。
- Method: 构建了首个脉冲相机视频动作识别数据集,同时包含同步的RGB和热成像模态数据,保持脉冲数据固有的稀疏性和时间精度,为脉冲神经网络提供多模态基准测试平台。
- Result: 成功创建了三个数据集,提供了独特的多模态视频理解平台,能够直接比较脉冲、热成像和RGB三种模态的性能,为脉冲神经网络的动作识别任务提供了宝贵资源。
- Conclusion: 该工作贡献了一个新颖的数据集,将推动基于脉冲数据的节能、超低功耗视频理解研究,特别是在动作识别任务方面,为相关领域研究提供重要支撑。
[18] LSSGen: Leveraging Latent Space Scaling in Flow and Diffusion for Efficient Text to Image Generation
Jyun-Ze Tang,Chih-Fan Hsu,Jeng-Lin Li,Ming-Ching Chang,Wei-Chao Chen
Main category: cs.CV
TL;DR: 本文提出了潜在空间缩放生成(LSSGen)框架,通过在潜在空间直接进行分辨率缩放来改善文本到图像生成的效率和质量,避免了传统像素空间缩放方法产生的伪影问题。
- Motivation: 传统的文本到图像生成模型为了加速合成通常在低分辨率下进行早期去噪,然后在像素空间进行缩放,但这种方法会在图像重新编码到潜在空间时引入伪影和失真,导致最终图像质量下降。
- Method: 提出潜在空间缩放生成(LSSGen)框架,使用轻量级潜在上采样器直接在潜在空间执行分辨率缩放,无需改变Transformer或U-Net架构,支持灵活的多分辨率生成。
- Result: 在生成1024²图像时,LSSGen在相似速度下实现了高达246%的TOPIQ分数提升,在文本-图像对齐和感知质量评估中显著优于传统缩放方法。
- Conclusion: LSSGen框架通过在潜在空间直接进行分辨率缩放,有效解决了传统像素空间缩放方法的伪影问题,在保持生成效率的同时显著提升了图像质量和文本-图像对齐性能。
[19] AMMNet: An Asymmetric Multi-Modal Network for Remote Sensing Semantic Segmentation
Hui Ye,Haodong Chen,Zeke Zexi Hu,Xiaoming Chen,Yuk Ying Chung
Main category: cs.CV
TL;DR: 提出了一种非对称多模态网络(AMMNet),通过非对称双编码器、非对称先验融合器和分布对齐模块,解决了RGB-DSM遥感语义分割中的计算复杂度和模态不对齐问题,在ISPRS数据集上取得了最优性能。
- Motivation: 遥感语义分割中RGB和DSM数据融合面临两个主要限制:架构冗余导致的计算复杂度增加,以及模态不对齐导致的分割性能下降。这些问题在复杂城市环境中尤为严重,影响了多模态融合的效率和鲁棒性。
- Method: 提出非对称多模态网络(AMMNet),包含三个核心设计:1)非对称双编码器(ADE)根据模态特性分配表征能力,为RGB使用深层编码器捕获丰富上下文信息,为DSM使用轻量级编码器提取稀疏结构特征;2)非对称先验融合器(APF)将模态感知先验矩阵集成到融合过程中;3)分布对齐(DA)模块通过散度最小化增强跨模态兼容性。
- Result: 在ISPRS Vaihingen和Potsdam数据集上的大量实验表明,AMMNet在多模态网络中达到了最先进的分割精度,同时减少了计算和内存需求。
- Conclusion: AMMNet通过非对称架构设计成功解决了RGB-DSM遥感语义分割中的关键挑战,实现了高效且鲁棒的多模态语义分割,为遥感图像分析提供了新的解决方案。
[20] AtrousMamaba: An Atrous-Window Scanning Visual State Space Model for Remote Sensing Change Detection
Tao Wang,Tiecheng Bai,Chao Xu,Bin Liu,Erlei Zhang,Jiyun Huang,Hongming Zhang
Main category: cs.CV
TL;DR: 本文提出AtrousMamba模型,通过膨胀窗口选择性扫描机制平衡局部细节提取和全局上下文信息整合,在变化检测任务中超越现有CNN、Transformer和Mamba方法
- Motivation: 现有Mamba模型虽然在长序列建模方面表现出色,但在密集预测任务中往往忽略了局部信息的重要性,且Mamba能否像CNN一样有效提取局部特征仍是一个开放性问题
- Method: 提出AtrousMamba模型,采用膨胀窗口选择性扫描机制(atrous-window selective scan),通过可调节的扩张率逐渐扩大扫描范围,缩短相邻token之间的距离。基于AWVSS模块设计了端到端的二值变化检测(AWMambaBCD)和语义变化检测(AWMambaSCD)框架
- Result: 在六个基准数据集上的实验结果显示,所提出的框架在二值变化检测和语义变化检测任务中均优于现有的基于CNN、Transformer和Mamba的方法
- Conclusion: 实验结果清楚地证明Mamba不仅能够捕获视觉数据中的长程依赖关系,还能有效保持细粒度的局部细节,成功平衡了局部特征提取和全局上下文建模
[21] Explicit Context Reasoning with Supervision for Visual Tracking
Fansheng Zeng,Bineng Zhong,Haiying Xia,Yufei Tan,Xiantao Hu,Liangtao Shi,Shuxiang Song
Main category: cs.CV
TL;DR: RSTrack提出了一种新的视觉跟踪方法,通过显式建模和监督上下文推理来增强跨帧建模中的时间一致性,在多个基准数据集上实现了最先进的性能。
- Motivation: 主流跟踪算法通常仅通过堆叠历史信息来关联上下文,而没有显式监督关联过程,这使得难以有效建模目标的演化动态,导致上下文关联发散问题。
- Method: 提出RSTrack方法,包含三个核心机制:1) 上下文推理机制:构建目标状态推理管道,将无约束的上下文关联转换为基于历史目标状态预测当前表示的时间推理过程;2) 前向监督策略:利用真实目标特征作为锚点约束推理管道,引导预测输出向真实目标分布靠近;3) 高效状态建模:采用压缩-重构机制提取目标核心特征,去除冗余信息。
- Result: 在多个基准数据集上达到最先进性能,同时保持实时运行速度。实验结果表明三个机制协同工作有效缓解了传统时间建模中的上下文关联发散问题。
- Conclusion: RSTrack通过显式建模和监督上下文推理有效解决了视觉跟踪中的时间一致性问题,三个核心机制的协同作用成功缓解了上下文关联发散,在保持实时性的同时实现了最先进的跟踪性能。
[22] LMM4Edit: Benchmarking and Evaluating Multimodal Image Editing with LMMs
Zitong Xu,Huiyu Duan,Bingnan Liu,Guangji Ma,Jiarui Wang,Liu Yang,Shiqi Gao,Xiaoyu Wang,Jia Wang,Xiongkuo Min,Guangtao Zhai,Weisi Lin
Main category: cs.CV
TL;DR: 本文提出了EBench-18K,首个大规模文本引导图像编辑评估基准,包含18K编辑图像和细粒度人类偏好标注,并基于此开发了LMM4Edit评估指标,能够全面评估图像编辑模型的感知质量、编辑对齐、属性保持和任务特定准确性。
- Motivation: 现有文本引导图像编辑(TIE)模型在平衡图像质量、编辑对齐和原图一致性方面仍存在困难,限制了实际应用。现有评估基准和指标在规模或与人类感知对齐方面存在局限性,缺乏大规模、全面的评估框架。
- Method: 构建EBench-18K大规模图像编辑基准,包含1,080张源图像、21个编辑任务、17个最先进TIE模型生成的18K+编辑图像、55K+平均意见分数和18K+问答对。基于此基准,利用大型多模态模型(LMM)评估编辑图像,并提出LMM4Edit评估指标,从感知质量、编辑对齐、属性保持和任务特定QA准确性四个维度进行全方位评估。
- Result: LMM4Edit在评估性能上表现出色,与人类偏好高度一致。在其他数据集上的零样本验证也显示了模型的良好泛化能力。该基准为文本引导图像编辑模型的评估提供了标准化的评估框架。
- Conclusion: EBench-18K为文本引导图像编辑领域提供了首个大规模评估基准,LMM4Edit指标能够全面准确地评估编辑模型性能并与人类偏好保持一致,为该领域的发展提供了重要的评估工具和标准。
[23] A Single-step Accurate Fingerprint Registration Method Based on Local Feature Matching
Yuwei Jia,Zhe Cui,Fei Su
Main category: cs.CV
TL;DR: 本文提出了一种端到端的单步指纹配准算法,通过直接预测半密集匹配点对应关系来对齐两个指纹,避免了传统两步法中细节点检测失败导致的配准失败问题。
- Motivation: 传统指纹配准方法采用两步法:基于细节点的初始配准和基于匹配点的密集配准。当指纹图像质量较低时,检测到的细节点数量减少,导致初始配准频繁失败,进而使整个指纹配准过程失败。
- Method: 提出端到端单步指纹配准算法,通过直接预测两个指纹之间的半密集匹配点对应关系来对齐指纹。该方法利用全局-局部注意力机制实现端到端的像素级对齐。
- Result: 实验结果表明,该方法仅通过单步配准就能达到最先进的匹配性能,同时还可以与密集配准算法结合使用以进一步提升性能。
- Conclusion: 所提出的单步指纹配准算法有效解决了传统两步法中细节点配准失败的问题,在保持高性能的同时简化了配准流程,为指纹识别系统提供了更可靠的解决方案。
[24] Advancing Visual Large Language Model for Multi-granular Versatile Perception
Wentao Xiang,Haoxian Tan,Cong Wei,Yujie Zhong,Dengjie Li,Yujiu Yang
Main category: cs.CV
TL;DR: 本文提出MVP-LM框架,一个基于视觉大语言模型的多粒度通用感知框架,能够在单一架构中统一处理词级和句级感知任务以及框和掩码预测,通过创新的多粒度解码器和CoT启发的数据统一策略实现跨任务的监督微调。
- Motivation: 现有计算机视觉感知研究通常只关注有限的任务子集,这限制了其在不同场景下的适用性和通用性。为了解决这一挑战,需要开发一个能够整合多种感知任务的统一框架。
- Method: 提出MVP-LM框架,采用视觉大语言模型,设计了创新的多粒度解码器,结合CoT启发的数据统一策略,实现词级和句级感知任务以及框和掩码预测的统一处理。还引入了查询增强策略来利用VLLM的解码和生成能力。
- Result: 在多个基准数据集上进行了广泛实验,验证了该框架在词级和句级感知任务上的有效性,能够成功处理全景分割、检测、定位和指代表达分割等多种任务。
- Conclusion: MVP-LM成功构建了一个多粒度通用感知框架,通过统一的架构有效整合了多种感知任务,实验结果证明了该方法的有效性和通用性,为计算机视觉感知任务提供了新的解决方案。
[25] LDRFusion: A LiDAR-Dominant multimodal refinement framework for 3D object detection
Jijun Wang,Yan Wu,Yujian Mo,Junqiao Zhao,Jun Yan,Yinghao Hu
Main category: cs.CV
TL;DR: 提出了LDRFusion,一种以激光雷达为主导的两阶段细化框架,用于多传感器融合3D目标检测,通过分离激光雷达和伪点云的作用来减少噪声影响
- Motivation: 现有的激光雷达-相机融合方法通过深度补全构建空间伪点云来解决点云稀疏性问题,但引入伪点云不可避免地带来噪声,可能导致预测不准确。考虑到不同模态的作用和可靠性水平差异,需要一种更好的融合策略
- Method: 提出LDRFusion框架:(1)第一阶段仅依赖激光雷达产生精确定位的提案;(2)第二阶段结合伪点云检测具有挑战性的实例;(3)合并两个阶段的实例级结果;(4)设计层次化伪点残差编码模块,使用特征和位置残差编码邻域集合来增强伪点云中局部结构的表示
- Result: 在KITTI数据集上的实验表明,该框架在多个类别和难度级别上始终保持强劲性能
- Conclusion: LDRFusion通过以激光雷达为主导的两阶段设计和层次化伪点残差编码,有效解决了多传感器融合中伪点云带来的噪声问题,在3D目标检测任务上取得了优异的性能
[26] MONITRS: Multimodal Observations of Natural Incidents Through Remote Sensing
Shreelekha Revankar,Utkarsh Mall,Cheng Perng Phoo,Kavita Bala,Bharath Hariharan
Main category: cs.CV
TL;DR: 研究者构建了MONITRS数据集,包含超过10,000个FEMA灾害事件的时序卫星图像和自然语言标注,用于训练多模态大语言模型进行灾害监测,在灾害响应任务上取得显著性能提升。
- Motivation: 现有的灾害监测方法存在局限性:只关注特定灾害类型、依赖人工专家解释、缺乏足够时间粒度和自然语言标注的数据集来跟踪灾害进展。需要开发更全面、自动化的灾害监测系统来应对自然灾害造成的巨大破坏。
- Method: 构建了MONITRS多模态数据集,包含超过10,000个FEMA灾害事件,配有时序卫星图像、来自新闻文章的自然语言标注、地理标记位置和问答对。在此数据集上微调现有的多模态大语言模型(MLLMs)。
- Result: 在MONITRS数据集上微调的多模态大语言模型在灾害监测任务上取得了显著的性能提升,为机器学习辅助的灾害响应系统建立了新的基准。
- Conclusion: MONITRS数据集成功解决了现有灾害监测方法的局限性,通过结合时序卫星图像和自然语言标注,为开发更有效的自动化灾害监测和响应系统提供了重要资源和基准。
[27] Positive Style Accumulation: A Style Screening and Continuous Utilization Framework for Federated DG-ReID
Xin Xu,Chaoyue Ren,Wei Liu,Wenke Huang,Bin Yang,Zhixi Yu,Kui Jiang
Main category: cs.CV
TL;DR: 本文提出了一个联邦域泛化人员重识别框架SSCU,通过筛选和持续利用正面风格来提升模型的泛化性能,包括设计泛化增益引导的动态风格记忆模块和协作风格训练策略。
- Motivation: 现有的联邦域泛化人员重识别方法主要通过风格转换提升样本多样性,但并非所有风格都有利于模型泛化性能。因此需要区分正面风格和负面风格,并有效筛选和持续利用正面风格来提升模型泛化能力。
- Method: 提出了风格筛选和持续利用(SSCU)框架,包含三个核心组件:1)泛化增益引导的动态风格记忆(GGDSM)模块,用于筛选和累积正面风格;2)风格记忆识别损失,充分利用记忆中的正面风格;3)协作风格训练(CST)策略,在两个不同分支上同时利用新生成的风格和记忆中累积的正面风格来训练客户端模型。
- Result: 大量实验结果表明,该方法在源域和目标域上都优于现有方法,有效提升了联邦域泛化人员重识别的性能。
- Conclusion: 通过区分正面和负面风格,并设计有效的风格筛选、记忆和持续利用机制,SSCU框架成功提升了联邦域泛化人员重识别模型的泛化性能,为该领域提供了新的解决思路。
[28] Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling
Chao Zhou,Tianyi Wei,Nenghai Yu
Main category: cs.CV
TL;DR: 本文针对统一图像生成模型(如OmniGen)在处理包含多个子指令的文本时存在指令忽略问题,提出了自适应注意力缩放(SaaS)方法,通过动态调整每个子指令的注意力激活来提高指令遵循保真度,无需额外训练即可改善图像编辑和生成效果。
- Motivation: 统一图像生成模型虽然能在单一框架内处理多样化的图像生成和编辑任务,但存在文本指令忽略问题,特别是当文本指令包含多个子指令时,模型往往无法准确遵循所有指令,影响生成质量和用户体验。
- Method: 通过对输入进行扰动分析识别关键步骤和层,检查这些关键步骤的交叉注意力图,发现被忽略的子指令与输入图像激活之间存在显著冲突。基于此提出自适应注意力缩放(SaaS)方法,利用相邻时间步之间交叉注意力的一致性来动态缩放每个子指令的注意力激活。
- Result: 在基于指令的图像编辑和视觉条件图像生成任务上的实验结果表明,SaaS方法在指令遵循保真度方面优于现有方法,能够有效提升模型对复杂多子指令的处理能力,且无需额外的训练或测试时优化。
- Conclusion: SaaS方法成功解决了统一图像生成模型中的文本指令忽略问题,特别是多子指令场景下的问题,通过动态调整注意力激活显著提高了指令遵循保真度,为统一图像生成模型的实际应用提供了有效的改进方案。
[29] HoliTracer: Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
Yu Wang,Bo Dang,Wanchun Li,Wei Chen,Yansheng Li
Main category: cs.CV
TL;DR: HoliTracer是首个专为大尺寸遥感影像设计的整体性地理对象矢量化提取框架,通过上下文注意力网络(CAN)增强分割效果,并结合掩码轮廓重构器(MCR)和多边形序列追踪器(PST)实现完整的矢量化流程。
- Motivation: 现有方法仅能处理小图像块,导致上下文信息丢失和矢量输出碎片化。随着遥感影像分辨率不断提高,大尺寸遥感影像成为高精度地理对象矢量制图的重要数据源,迫切需要能够整体性处理大尺寸影像的矢量化方法。
- Method: 提出HoliTracer框架,包含三个核心组件:1)上下文注意力网络(CAN)采用局部到全局注意力机制捕获上下文依赖关系,增强大尺寸遥感影像的分割效果;2)掩码轮廓重构器(MCR)用于重构多边形;3)多边形序列追踪器(PST)用于追踪顶点,通过鲁棒的流水线实现整体矢量化。
- Result: 在包含建筑物、水体和道路的大尺寸遥感影像数据集上进行了广泛实验,HoliTracer在性能上超越了现有的最先进方法,证明了该框架在大尺寸遥感影像矢量化任务中的有效性。
- Conclusion: HoliTracer成功解决了现有方法在处理大尺寸遥感影像时面临的上下文信息丢失和输出碎片化问题,为大尺寸遥感影像的整体性地理对象矢量化提取提供了有效的解决方案,在多种地理对象类型上都取得了优异的性能表现。
[30] Edge-case Synthesis for Fisheye Object Detection: A Data-centric Perspective
Seunghyeon Kim,Kyeongryeol Go
Main category: cs.CV
TL;DR: 本文提出了一种数据驱动的管道,通过识别模型盲点并合成边缘案例来改善鱼眼相机目标检测性能
- Motivation: 鱼眼相机引入显著畸变,对传统数据集训练的目标检测模型造成独特挑战,需要解决模型在鱼眼图像上的检测性能问题
- Method: 通过详细错误分析识别关键边缘案例(如混淆类别对、周边畸变、代表性不足的上下文),然后微调图像生成模型并使用精心设计的提示生成复制真实世界失败模式的合成图像,最后使用高质量检测器为合成图像伪标记并集成到训练中
- Result: 该方法带来了一致的性能提升,证明了深入理解数据并选择性修复其弱点在鱼眼目标检测等专业领域的影响力
- Conclusion: 数据驱动的边缘案例合成方法能够有效改善鱼眼相机目标检测性能,深入理解数据弱点并针对性解决是提升专业领域检测性能的有效途径
[31] Quality Text, Robust Vision: The Role of Language in Enhancing Visual Robustness of Vision-Language Models
Futa Waseda,Saku Sugawara,Isao Echizen
Main category: cs.CV
TL;DR: 该论文提出了QT-AFT方法,通过在对抗训练中使用高质量标题来指导生成对抗样本,提升视觉-语言模型(如CLIP)的零样本对抗鲁棒性,克服了现有方法的过拟合和缺乏语义指导的问题。
- Motivation: 现有的对抗训练方法在提升视觉-语言模型鲁棒性时存在两个主要问题:(1)监督对抗训练依赖短文本(如类别标签)生成对抗扰动,导致对训练数据中的目标类别过拟合;(2)无监督对抗训练虽然避免了过拟合,但由于缺乏语义指导,在面对实际的文本引导对抗攻击时效果次优。
- Method: 提出了Quality Text-guided Adversarial Fine-Tuning (QT-AFT)方法,该方法在训练过程中利用高质量的图像标题来指导对抗样本远离图像中存在的多样化语义。这使得视觉编码器能够在对抗噪声下鲁棒地识别更广泛的图像特征,从而增强在各种下游任务中的鲁棒性。
- Result: QT-AFT在16个零样本数据集上实现了最先进的零样本对抗鲁棒性和干净准确性。研究还发现,除了描述对象名称外,描述对象属性进一步增强了零样本鲁棒性。该方法成功克服了先前方法的关键弱点——监督对抗训练中的过拟合和无监督对抗训练中缺乏语义感知。
- Conclusion: 研究揭示了语言在增强视觉鲁棒性方面的几个关键见解,强调了高质量语言监督在鲁棒视觉表示学习中的重要性。论文指出,未来工作的紧迫方向是将高质量的语言监督作为鲁棒视觉表示学习的中心。
[32] ToFe: Lagged Token Freezing and Reusing for Efficient Vision Transformer Inference
Haoyue Zhang,Jie Zhang,Song Guo
Main category: cs.CV
TL;DR: 提出了一种Token冻结和重用(ToFe)框架,通过在Vision Transformer的不同阶段识别重要token并临时冻结不重要的token,允许其在后续阶段重新使用,在保持性能的同时降低计算成本
- Motivation: 现有的Vision Transformer在资源受限设备上部署困难,因为自注意力机制计算开销大。虽然token减少方法可以提高效率,但现有方法不可逆地处理不重要的token,无法在后续块中重用,而transformer在不同块中关注不同信息,早期块中被减少的token在后续可能有用
- Method: 设计了Token冻结和重用(ToFe)框架,包含:1)预测模块用于token识别,2)近似模块用于恢复冻结的token。通过计算预算感知的端到端训练与骨干网络联合优化,使模型能够在每个块中自适应处理必要的token
- Result: 在LV-ViT模型上的实验表明,ToFe将计算成本降低了50%,Top-1准确率下降不到2%,相比现有方法在性能和复杂度之间取得了更好的平衡
- Conclusion: ToFe框架通过智能的token冻结和重用策略,成功解决了Vision Transformer在资源受限设备上的部署问题,实现了显著的计算成本降低同时保持了模型性能,为transformer模型的高效部署提供了新的解决方案
[33] MAN++: Scaling Momentum Auxiliary Network for Supervised Local Learning in Vision Tasks
Junhao Su,Feiyu Zhu,Hengyu Shi,Tianyang Han,Yurui Qiu,Junfeng Luo,Xiaoming Wei,Jialin Gao
Main category: cs.CV
TL;DR: 提出了Momentum Auxiliary Network++ (MAN++)方法,通过指数移动平均和可学习缩放偏置实现局部监督学习中的跨块信息流动,在保持与端到端训练相当性能的同时显著降低GPU内存消耗。
- Motivation: 端到端反向传播训练存在参数更新锁定、高GPU内存消耗和缺乏生物学合理性等问题,而现有的监督局部学习方法由于梯度仅在单个局部块内传播,导致性能下降,无法替代端到端反向传播。
- Method: 提出MAN++方法,采用相邻块参数的指数移动平均(EMA)创建动态交互机制以增强网络间通信;通过EMA更新的辅助网络桥接块间信息差距;引入可学习缩放偏置来平衡局部块间的特征差异。
- Result: 在图像分类、目标检测和图像分割等多个任务和网络架构上的广泛实验表明,MAN++达到了与端到端训练相当的性能,同时显著减少了GPU内存使用。
- Conclusion: MAN++为监督局部学习提供了新的视角,是传统训练方法的可行替代方案,能够在保持性能的同时解决端到端训练的内存和生物学合理性问题。
[34] Beyond Label Semantics: Language-Guided Action Anatomy for Few-shot Action Recognition
Zefeng Qian,Xincheng Yao,Yifei Huang,Chongyang Zhang,Jiangyong Ying,Hong Sun
Main category: cs.CV
TL;DR: 提出了语言引导的动作解剖(LGA)框架,利用大语言模型将动作标签分解为原子级描述,结合视觉解剖模块捕获动作的时序结构,通过细粒度融合策略在原子级别整合文本和视觉特征,实现少样本动作识别的最优性能。
- Motivation: 少样本动作识别面临训练数据稀缺的挑战,仅依靠动作标签无法充分利用人体姿态变化、运动动态和物体交互等关键的动作内在知识,需要更深入地挖掘动作标签背后的表征特征。
- Method: 提出LGA框架:1)使用大语言模型将动作标签解剖为原子动作描述序列,关注主体、动作、客体三个核心要素;2)设计视觉解剖模块将动作分割为原子视频阶段;3)采用细粒度融合策略在原子级别整合文本和视觉特征;4)引入多模态匹配机制,包括视频-视频和视频-文本匹配。
- Result: 在多个少样本动作识别基准数据集上达到了最先进的性能表现。
- Conclusion: LGA框架通过利用大语言模型的先验知识有效解剖动作标签,结合视觉解剖和多模态融合,成功解决了少样本动作识别中的数据稀缺问题,实现了更好的泛化能力和分类性能。
[35] Dens3R: A Foundation Model for 3D Geometry Prediction
Xianze Fang,Jingnan Gao,Zhe Wang,Zhuo Chen,Xingyu Ren,Jiangjing Lyu,Qiaomu Ren,Zhonglei Yang,Xiaokang Yang,Yichao Yan,Chengfei Lyu
Main category: cs.CV
TL;DR: Dens3R是一个3D基础模型,通过联合预测多个几何量(深度、表面法线、点图等)来实现一致的几何感知,采用两阶段训练框架和轻量级编码器-解码器架构,在单视图到多视图输入上都能准确回归多个几何量。
- Motivation: 现有的密集3D重建方法通常只能从输入图像预测单一几何量,而深度、表面法线、点图等几何量本质上是相关的。孤立估计这些量往往无法确保一致性,限制了准确性和实用性。因此需要探索统一框架来显式建模不同几何属性之间的结构耦合,实现联合回归。
- Method: 提出Dens3R,采用两阶段训练框架逐步构建既可泛化又本质不变的点图表示。设计轻量级共享编码器-解码器骨干网络,引入位置插值旋转位置编码来保持表达能力同时增强对高分辨率输入的鲁棒性。通过整合图像对匹配特征和内在不变性建模,准确回归多个几何量。还提出支持几何一致多视图推理的后处理管道。
- Result: 大量实验表明Dens3R在各种密集3D预测任务上表现优异,能够从单视图到多视图输入准确回归表面法线和深度等多个几何量,实现一致的几何感知,并展现出更广泛应用的潜力。
- Conclusion: Dens3R成功解决了现有方法在几何量预测一致性方面的局限,通过联合建模多个相关几何属性,实现了准确统一的几何预测,为密集3D重建领域提供了一个强大的基础模型,具有广泛的下游任务适应性。
[36] MotionShot: Adaptive Motion Transfer across Arbitrary Objects for Text-to-Video Generation
Yanchen Liu,Yanan Sun,Zhening Xing,Junyao Gao,Kai Chen,Wenjie Pei
Main category: cs.CV
TL;DR: MotionShot是一个无需训练的文本到视频框架,通过细粒度的参考-目标对应关系解析,实现高保真度的运动迁移,即使在外观和结构差异显著的对象间也能保持连贯性。
- Motivation: 现有的文本到视频方法在将运动从参考对象平滑迁移到外观或结构存在显著差异的目标对象时存在困难,需要一种能够处理这种挑战的新方法。
- Method: MotionShot采用无需训练的框架,首先通过语义特征匹配确保参考对象和目标对象之间的高级对齐,然后通过参考到目标的形状重定向建立低级形态对齐,最后使用时间注意力机制编码运动信息。
- Result: 通过广泛实验验证,MotionShot能够在对象间存在显著外观和结构差异的情况下,连贯地迁移运动,实现高保真度的运动传递并保持外观的连贯性。
- Conclusion: MotionShot成功解决了现有文本到视频方法在处理外观和结构差异显著的对象间运动迁移时的困难,提供了一种有效的无需训练的解决方案。
[37] M-SpecGene: Generalized Foundation Model for RGBT Multispectral Vision
Kailai Zhou,Fuqiang Yang,Shixian Wang,Bihan Wen,Chongde Zi,Linsen Chen,Qiu Shen,Xun Cao
Main category: cs.CV
TL;DR: 该研究提出了M-SpecGene,一个RGB-热红外多光谱通用基础模型,通过自监督学习从大规模数据中学习模态不变表征,解决了传统逐案例研究范式的局限性
- Motivation: 传统RGBT任务采用逐案例研究范式,依赖人工定制模型学习任务导向表征,但这种范式受到人为归纳偏差、模态偏差和数据瓶颈的固有限制
- Method: 引入跨模态结构稀疏性(CMSS)度量来量化两种模态的信息密度,开发GMM-CMSS渐进掩码策略,实现灵活的、由易到难的、以对象为中心的预训练过程
- Result: 在11个数据集上针对4个RGBT下游任务的综合实验验证了M-SpecGene的泛化能力
- Conclusion: M-SpecGene成功构建了通用的RGBT多光谱基础模型,为多光谱融合提供了新见解,并将先前的逐案例研究整合到统一范式中
[38] Scene Text Detection and Recognition "in light of" Challenging Environmental Conditions using Aria Glasses Egocentric Vision Cameras
Joseph De Mathia,Carlos Francisco Moreno-García
Main category: cs.CV
TL;DR: 本研究使用Meta的Project Aria智能眼镜,评估了环境变量(光照、距离、分辨率)对场景文本检测识别(STDR)算法性能的影响,发现分辨率和距离是关键因素,图像放大预处理可显著提升识别准确率,并展示了眼动追踪在优化处理效率方面的潜力。
- Motivation: 随着可穿戴技术重塑各种应用,通过第一人称视角进行场景文本检测识别成为一个直接的选择。研究旨在探索环境变量如何影响现实场景中最先进STDR算法的性能,为自适应、用户感知的AR系统奠定基础。
- Method: 使用Meta的Project Aria智能眼镜构建自定义数据集,在受控条件下采集数据。评估两种OCR管道:EAST配合CRNN,以及EAST配合PyTesseract。研究环境变量(光照、距离、分辨率)对算法性能的影响,并测试图像放大等预处理技术和眼动追踪集成的效果。
- Result: 研究发现分辨率和距离显著影响识别准确率,而光照的作用较难预测。图像放大作为关键预处理技术,将字符错误率(CER)从0.65降低到0.48。眼动追踪技术能够通过聚焦用户注意区域来优化处理效率。
- Conclusion: 本工作不仅在现实条件下基准测试了STDR性能,还为自适应、用户感知的AR系统奠定了基础。研究贡献旨在启发未来在辅助和研究导向应用(如资产检查和营养分析)中鲁棒、上下文敏感文本识别的研究。
[39] One Polyp Identifies All: One-Shot Polyp Segmentation with SAM via Cascaded Priors and Iterative Prompt Evolution
Xinyu Mao,Xiaohan Xing,Fei Meng,Jianbang Liu,Fan Bai,Qiang Nie,Max Meng
Main category: cs.CV
TL;DR: 提出了OP-SAM框架,一种基于SAM的单样本息肉分割方法,通过自动生成提示词解决了传统方法需要大量标注和SAM需要手动输入提示词的问题,在Kvasir数据集上IoU达到76.93%,超越现有最佳方法11.44%。
- Motivation: 传统全监督息肉分割方法在形态变异和域偏移方面表现不佳,需要频繁重训练;大规模标注成为瓶颈,因为息肉边界标注耗时且容易出错;虽然SAM等视觉基础模型展现了强泛化能力,但其依赖提示词的特性限制了医疗应用中的自动化,手动为每张图像输入提示词既费力又耗时。
- Method: 提出OP-SAM框架,包含三个核心组件:1) 基于相关性的先验生成(CPG)用于语义标签转移;2) 尺度级联先验融合(SPF)适应息肉尺寸变化并过滤噪声转移;3) 欧几里得提示词进化(EPE)进行迭代提示词优化,逐步提升分割质量。该方法仅需一张标注图像即可自动生成提示词。
- Result: 在五个数据集上进行了广泛评估,验证了OP-SAM的有效性。在Kvasir数据集上取得了76.93%的IoU,比现有最佳方法高出11.44%。
- Conclusion: OP-SAM成功解决了传统息肉分割方法和SAM在医疗应用中的局限性,通过单样本学习实现了准确且可泛化的息肉分割,为早期结直肠癌检测提供了有效的自动化解决方案。
[40] Navigating Large-Pose Challenge for High-Fidelity Face Reenactment with Video Diffusion Model
Mingtao Guo,Guanyu Xing,Yanci Zhang,Yanli Liu
Main category: cs.CV
TL;DR: 提出了FRVD(面部重演视频扩散模型),通过隐式关键点提取和扭曲特征映射器解决大姿态变化下的高保真面部重演问题
- Motivation: 现有基于隐式或显式关键点的面部重演方法在处理大姿态变化时存在扭曲伪影或粗糙面部特征点限制的问题,难以生成高质量的说话人头视频
- Method: 采用运动提取器从源图像和驱动图像中提取隐式面部关键点表示细粒度运动,通过扭曲模块进行运动对齐,并引入扭曲特征映射器(WFM)将扭曲的源图像映射到预训练图像到视频模型的运动感知潜在空间中
- Result: 在姿态准确性、身份保持和视觉质量方面优于现有方法,特别是在极端姿态变化的挑战性场景中表现出色
- Conclusion: FRVD框架有效解决了大姿态变化下的面部重演问题,通过利用大规模视频数据学习的面部动态先验知识,实现了有效的扭曲校正和时间一致性增强
[41] Mamba-OTR: a Mamba-based Solution for Online Take and Release Detection from Untrimmed Egocentric Video
Alessandro Sebastiano Catinello,Giovanni Maria Farinella,Antonino Furnari
Main category: cs.CV
TL;DR: 本文提出了Mamba-OTR模型,用于在未剪辑的第一人称视频中在线检测物体的拿取和释放动作,该模型基于Mamba架构,通过焦点损失和新颖的正则化方案解决标签不平衡问题,在准确性和效率方面都优于基于Transformer的方法。
- Motivation: 现有的在线物体拿取和释放检测任务面临严重的标签不平衡问题、时间上稀疏的正样本标注、需要精确的时间预测,以及在真实在线环境中部署时需要高计算效率等挑战。
- Method: 提出基于Mamba架构的Mamba-OTR模型,该模型在推理时利用时间递归特性,同时在短视频片段上进行训练。训练流程结合了焦点损失和一种新颖的正则化方案,使模型预测与评估指标保持一致,以解决标签不平衡问题。
- Result: 在EPIC-KITCHENS-100数据集上的实验表明,Mamba-OTR在滑动窗口模式下达到45.48的mp-mAP,在流式模式下达到43.35,显著优于vanilla transformer的20.32和vanilla Mamba的25.16。模型在全长视频和高帧率序列评估中表现尤为出色。
- Conclusion: Mamba-OTR为在线物体拿取和释放检测任务提供了一个强有力的基线模型,在准确性和效率方面都表现优异,特别是在处理全长视频或高帧率序列时,即使仅在短视频片段上训练也能保持良好性能。
[42] LPTR-AFLNet: Lightweight Integrated Chinese License Plate Rectification and Recognition Network
Guangzhu Xu,Pengcheng Zuo,Zhi Ke,Bangjun Lei
Main category: cs.CV
TL;DR: 提出了一个名为LPTR-AFLNet的轻量级统一网络,用于中国车牌的透视校正和识别,结合透视变换校正模块和优化的车牌识别网络,在中低端GPU上运行时间不到10毫秒,实现了高精度和实时性能。
- Motivation: 中国车牌识别在复杂环境下面临挑战,特别是由于不同拍摄角度造成的透视畸变以及单行和双行车牌的校正问题。考虑到边缘设备的计算资源有限,需要开发低复杂度的端到端集成网络来实现实时高效部署。
- Method: 提出LPTR-AFLNet轻量级统一网络,结合透视变换校正模块(PTR)和优化的车牌识别网络AFLNet。利用识别输出作为弱监督信号指导校正过程。对LPRNet进行改进,包括改进的注意力模块来减少相似字符间的混淆,以及使用Focal Loss解决训练中的类别不平衡问题。
- Result: 实验结果表明LPTR-AFLNet在透视畸变校正和双行车牌识别方面表现出色,在各种挑战性场景下保持高识别精度。在中低端GPU平台上运行时间不到10毫秒,显示出实用效率和广泛适用性。
- Conclusion: LPTR-AFLNet成功解决了中国车牌识别中的透视畸变和双行车牌识别难题,实现了校正和识别的端到端集成,在保证高精度的同时满足了边缘设备实时部署的要求,具有重要的实用价值和应用前景。
[43] STAR: A Benchmark for Astronomical Star Fields Super-Resolution
Kuo-Cheng Wu,Guohang Zhuang,Jinyang Huang,Xiang Zhang,Wanli Ouyang,Yan Lu
Main category: cs.CV
TL;DR: 提出了STAR数据集和FISR模型,解决天文超分辨率重建中的通量一致性问题,包含54,738对通量一致的星场图像对,并在通量一致性指标上超越现有方法24.84%
- Motivation: 现有天文超分辨率数据集存在三个关键限制:通量不一致、目标裁剪设置和数据多样性不足,严重阻碍了天文超分辨率技术的发展
- Method: 构建了包含54,738对通量一致星场图像对的STAR大规模天文超分辨率数据集,结合哈勃太空望远镜高分辨率观测数据和通过通量保持数据生成管道产生的物理真实低分辨率对应图像;提出了通量不变超分辨率(FISR)模型和新的通量误差(FE)评估指标
- Result: FISR模型在新设计的通量一致性指标上比现有超分辨率方法提升24.84%,能够准确从输入测光数据推断出通量一致的高分辨率图像
- Conclusion: 提出的STAR数据集和FISR方法有效解决了天文超分辨率重建中的通量一致性问题,为天体物理学应用提供了优先级更高的解决方案,实验证明了方法的有效性和数据集的价值
[44] From Flat to Round: Redefining Brain Decoding with Surface-Based fMRI and Cortex Structure
Sijin Yu,Zijiao Chen,Wenxuan Wu,Shengxian Chen,Zhongliang Liu,Jingxin Nie,Xiaofen Xing,Xiangmin Xu,Xin Zhang
Main category: cs.CV
TL;DR: 本文提出了一种从人脑fMRI信号重建视觉刺激的新方法,通过球面标记器建模皮层表面的空间信息,整合结构MRI数据处理个体差异,并使用正样本混合策略提升重建准确性和生物学可解释性。
- Motivation: 现有从脑活动重建视觉刺激的方法存在关键问题:忽略了大脑结构-功能关系,将空间信息扁平化处理,且未考虑个体解剖结构差异,这些限制了重建效果和生物学意义。
- Method: 提出三个核心创新:(1)设计新颖的球面标记器,将fMRI信号建模为皮层表面上空间连贯的二维球面数据;(2)整合结构MRI数据,实现个体解剖变异的个性化编码;(3)采用正样本混合策略,高效利用与同一视觉刺激相关的多个fMRI扫描数据。
- Result: 实验表明该方法在视觉刺激重建任务上显著优于现有最先进方法,在重建准确性、生物学可解释性和跨个体泛化能力方面都有明显提升。
- Conclusion: 通过考虑大脑的结构-功能关系和个体差异,所提出的生物学启发方法能够更准确地从fMRI信号重建视觉刺激,为神经科学和计算机视觉的交叉研究提供了有效的技术路径。
[45] Are Foundation Models All You Need for Zero-shot Face Presentation Attack Detection?
Lazaro Janier Gonzalez-Sole,Juan E. Tapia,Christoph Busch
Main category: cs.CV
TL;DR: 本文提出了一种零样本人脸呈现攻击检测(PAD)框架,通过使用基础模型来解决现有深度学习PAD方法在面对未知攻击时泛化能力不足的问题。
- Motivation: 现有的深度学习人脸呈现攻击检测方法需要大量数据来获得可靠的检测性能,但在面对训练时未见过的未知呈现攻击工具或数据库时,其性能会显著下降,缺乏泛化能力。
- Method: 评估基础模型在既定和具有挑战性的实验场景中的有效性和泛化性,然后提出一个简单但有效的零样本PAD框架。
- Result: 基础模型能够在困难场景中以最小的努力达到与更先进PAD机制相当的性能,顶级基础模型在SiW-Mv2数据库的留一协议上显著超越了现有最佳方法的表现。
- Conclusion: 基础模型在零样本人脸呈现攻击检测方面展现出强大的能力,能够有效处理包含挑战性未知2D和3D攻击的复杂场景,为PAD领域提供了新的解决思路。
[46] ADCD-Net: Robust Document Image Forgery Localization via Adaptive DCT Feature and Hierarchical Content Disentanglement
Kahim Wong,Jicheng Zhou,Haiwei Wu,Yain-Whar Si,Jiantao Zhou
Main category: cs.CV
TL;DR: 该论文提出了ADCD-Net,一个专门用于文档图像伪造检测的鲁棒性模型,通过自适应融合RGB/DCT特征和分层内容解耦等技术,在多种失真条件下的伪造定位性能比现有方法平均提升20.79%。
- Motivation: 现有的自然图像伪造检测方法在文档图像上表现不佳,因为篡改区域容易融入统一的文档背景和结构化文本中;而现有文档专用方法对各种退化缺乏足够的鲁棒性,限制了实际部署。
- Method: 提出ADCD-Net模型,包含三个关键技术:1)基于预测对齐分数自适应调节DCT特征贡献,提高对失真的鲁棒性;2)分层内容解耦方法减轻文本-背景差异;3)构建原始原型捕获未篡改区域的痕迹特征。
- Result: ADCD-Net在5种不同失真类型上的伪造定位性能比现有最先进方法平均提升20.79%,展现出优越的检测精度和鲁棒性。
- Conclusion: 通过自适应利用RGB/DCT法医痕迹并整合文档图像的关键特征,ADCD-Net成功解决了文档图像伪造检测中的关键挑战,为实际应用提供了更加鲁棒可靠的解决方案。
[47] ReasonVQA: A Multi-hop Reasoning Benchmark with Structural Knowledge for Visual Question Answering
Thuy-Duong Tran,Trung-Kien Tran,Manfred Hauswirth,Danh Le Phuoc
Main category: cs.CV
TL;DR: 本文提出了ReasonVQA数据集,这是一个用于视觉问答任务的新数据集,能够自动集成结构化百科知识并生成复杂的多跳问题,规模超过现有需要外部知识的数据集一个数量级以上。
- Motivation: 现有的视觉问答数据集在处理需要外部知识的复杂推理问题方面存在不足,缺乏能够生成多跳复杂问题且规模足够大的数据集来有效评估和推进VQA模型的发展。
- Method: 提出了一个低成本的自动化框架,能够将结构化的百科知识自动集成到数据集中,并利用该框架生成复杂的多跳问题,构建ReasonVQA数据集。该方法具有良好的可扩展性,能够轻松地根据输入图像进行规模扩展。
- Result: 在ReasonVQA数据集上评估了最先进的VQA模型,实验结果表明ReasonVQA对这些模型构成了重大挑战。当前版本的数据集规模超过现有需要外部知识的最大数据集一个数量级以上,证明了其作为基准测试的价值。
- Conclusion: ReasonVQA数据集成功地为视觉问答任务提供了一个具有挑战性的新基准,其自动化的构建框架和大规模的数据量使其在推进VQA领域发展方面具有重要潜力,为评估模型在复杂推理任务上的能力提供了有效工具。
[48] Sparse-View 3D Reconstruction: Recent Advances and Open Challenges
Tanveer Younis,Zhanglin Cheng
Main category: cs.CV
TL;DR: 这是一篇关于稀疏视图3D重建的综述论文,系统回顾了神经隐式模型、显式点云方法和混合框架的最新进展,分析了几何正则化、形状建模和生成推理在解决稀疏视图重建问题中的应用
- Motivation: 在机器人、AR/VR和自主系统等应用中,密集图像采集不现实,最少的图像重叠导致传统的运动结构(SfM)和多视图立体(MVS)方法失效,因此需要新的稀疏视图3D重建方法
- Method: 综述了三类主要方法:1) 神经隐式模型(如NeRF及其正则化版本);2) 显式点云方法(如3D高斯喷射);3) 混合框架(利用扩散模型和视觉基础模型的先验)。分析了几何正则化、显式形状建模和生成推理在缓解漂浮物和姿态歧义等问题中的作用
- Result: 通过标准基准测试的比较结果揭示了重建精度、效率和泛化能力之间的关键权衡关系。提供了基于几何、神经隐式和生成(基于扩散)方法的统一视角
- Conclusion: 强调了领域泛化和无姿态重建中的持续挑战,并概述了开发3D原生生成先验和实现实时、无约束稀疏视图重建的未来方向
[49] Towards Railway Domain Adaptation for LiDAR-based 3D Detection: Road-to-Rail and Sim-to-Real via SynDRA-BBox
Xavier Diaz,Gianluca D'Amico,Raul Dominguez-Sanchez,Federico Nesti,Max Ronecker,Giorgio Buttazzo
Main category: cs.CV
TL;DR: 本文介绍了SynDRA-BBox,一个专门为铁路领域2D和3D目标检测设计的合成数据集,并通过半监督域适应方法验证了合成数据在铁路环境感知中的有效性。
- Motivation: 铁路行业缺乏公开可用的真实标注数据集,这使得在该领域测试和验证新的感知解决方案变得困难,阻碍了自动列车运行系统中基于视觉算法的发展。
- Method: 创建了SynDRA-BBox合成数据集,专门用于现实铁路场景中的目标检测和其他基于视觉的任务;将原本为汽车感知开发的最先进半监督域适应方法适配到铁路环境中,实现合成数据向3D目标检测的可迁移性。
- Result: 实验结果显示出良好的性能表现,证明了合成数据集和域适应技术在提升铁路环境感知能力方面的有效性;该数据集已公开发布供研究使用。
- Conclusion: SynDRA-BBox作为首个专门针对铁路领域2D和3D目标检测的合成数据集,结合域适应技术,为解决铁路行业真实标注数据稀缺问题提供了有效途径,推动了铁路环境感知技术的发展。
[50] Combined Image Data Augmentations diminish the benefits of Adaptive Label Smoothing
Georg Siedel,Ekagra Gupta,Weijia Shao,Silvia Vock,Andrey Morozov
Main category: cs.CV
TL;DR: 本文将软增强的自适应标签平滑框架从随机裁剪扩展到随机擦除和噪声注入等其他激进的数据增强方法,发现该方法在有限、同质的图像变换类型下有效,但在多样化变换下效果消失。
- Motivation: 现有的软增强方法主要针对随机裁剪进行自适应标签平滑,需要将这一框架扩展到其他类型的激进数据增强方法,以更好地理解其适用范围和局限性。
- Method: 将软增强的自适应标签平滑框架扩展应用到随机擦除(Random Erasing)和噪声注入等数据增强技术,通过基于增强强度来调整训练样本的标签置信度来正则化监督学习过程。
- Result: 自适应标签平滑在随机擦除和噪声注入中表现有效,允许通过高强度随机擦除实现更强的正则化。但当与多样化图像变换(如TrivialAugment)结合使用时,其效果消失,过度的标签平滑会损害对常见损坏的鲁棒性。
- Conclusion: 自适应标签平滑应该仅在训练数据分布由有限、同质的图像变换类型主导时使用。该方法的有效性取决于数据增强的多样性程度,多样化变换会削弱其正则化效果。
[51] Robust Noisy Pseudo-label Learning for Semi-supervised Medical Image Segmentation Using Diffusion Model
Lin Xi,Yingliang Ma,Cheng Wang,Sandra Howell,Aldo Rinaldi,Kawal S. Rhode
Main category: cs.CV
TL;DR: 提出了一种基于扩散模型的半监督医学图像分割框架,通过原型对比一致性约束改善语义分布结构,在有限标注数据下实现准确分割,并在EndoScapes2023和新发布的MOSXAV数据集上取得了优于现有方法的性能。
- Motivation: 医学领域像素级标注既昂贵又耗时,需要临床专家与开发者密切合作。现有半监督方法由于伪标签噪声难以在潜在空间中构建良好的语义分布结构,因此需要开发能够利用有限标注数据和大量无标签数据实现准确分割的新方法。
- Method: 提出基于扩散模型的半监督医学图像分割框架,在去噪扩散过程中通过强制执行基于原型的对比一致性来约束语义标签的潜在结构。模型利用类原型作为潜在空间中集中语义表示的锚点,而非显式划分语义边界,以提高密集预测的鲁棒性。
- Result: 在EndoScapes2023和新发布的MOSXAV数据集上进行了广泛实验,结果表明该方法在半监督学习设置下优于现有最先进的医学图像分割方法。同时发布了新的公开基准数据集MOSXAV,为X射线血管造影视频中的多目标分割提供详细的手工标注分割真值。
- Conclusion: 本工作提出了一个鲁棒且数据高效的扩散模型,具有增强的灵活性和在广泛临床应用中的强大潜力。该方法有效解决了半监督医学图像分割中伪标签噪声问题,为医学图像分析领域提供了新的解决方案。
[52] VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
Kai Deng,Zexin Ti,Jiawei Xu,Jian Yang,Jin Xie
Main category: cs.CV
TL;DR: 本文提出VGGT-Long系统,通过分块处理策略和重叠对齐优化,将单目3D重建扩展到公里级户外环境,无需相机标定和深度监督即可实现与传统方法相当的性能。
- Motivation: 现有的3D视觉基础模型在大规模RGB流3D重建中面临内存限制问题,难以处理公里级别的无界户外环境重建任务。
- Method: 提出基于分块处理策略的VGGT-Long系统,结合重叠对齐和轻量级回环闭合优化,解决现有模型的可扩展性瓶颈,无需相机标定、深度监督或模型重训练。
- Result: 在KITTI、Waymo和Virtual KITTI数据集上评估显示,VGGT-Long能够成功处理基础模型通常失败的长RGB序列,并在各种条件下产生准确一致的几何结构,轨迹和重建性能与传统方法相当。
- Conclusion: 研究证明了利用基础模型进行可扩展单目3D场景重建在真实世界环境中的潜力,特别是在自动驾驶场景中具有重要应用价值。
[53] DenseSR: Image Shadow Removal as Dense Prediction
Yu-Fan Lin,Chia-Ming Lee,Chih-Chung Hsu
Main category: cs.CV
TL;DR: 本文提出DenseSR框架,通过几何语义先验引导的深度场景理解和新颖的密集融合块(DFB)来解决单图像阴影去除中的内容退化不均匀和固有模糊性问题,实现高保真度的阴影去除效果。
- Motivation: 传统单图像阴影去除方法在间接照明等复杂条件下面临挑战,无法同时恢复阴影内部细节和保持清晰边界,导致不一致的修复效果和模糊问题,影响下游应用和整体视觉体验。
- Method: 提出DenseSR框架,采用密集预测视角,结合两个关键策略:(1)利用几何语义先验引导的深度场景理解来解决歧义性和隐式定位阴影;(2)通过解码器中的新颖密集融合块(DFB)实现高保真度修复。DFB包含自适应内容平滑模块(ACSM)和纹理边界恢复模块(TBRM),分别处理外观一致性和精细纹理边界。
- Result: 广泛的实验结果表明该方法相比现有方法具有优势,能够有效解决不一致修复和模糊问题,实现保持一致性和保真度的优化特征表示。
- Conclusion: DenseSR框架通过几何语义先验引导和密集融合块的协同作用,成功解决了单图像阴影去除中的关键挑战,在保持阴影内部细节恢复的同时维持清晰边界,显著改善了修复质量和视觉体验。
[54] Survival Modeling from Whole Slide Images via Patch-Level Graph Clustering and Mixture Density Experts
Ardhendu Sekhar,Vasu Soni,Keshav Aske,Garima Jain,Pranav Jeevan,Amit Sethi
Main category: cs.CV
TL;DR: 研究者提出了一个模块化框架,通过整合动态补丁选择、图引导聚类、注意力机制和专家指导的混合密度建模四个关键组件,从全幻灯片病理图像预测癌症特异性生存率,在肾癌和肺腺癌数据集上显著超越了现有最佳方法。
- Motivation: 全幻灯片病理图像(WSIs)尺寸巨大且复杂,现有方法在癌症生存预测方面准确性不足,需要一个能够有效处理大规模图像数据、捕获组织异质性并建模复杂生存分布的综合框架来提高预测性能。
- Method: 提出了一个包含四个关键组件的模块化框架:1)使用基于分位数阈值的动态补丁选择来分离具有预后信息的组织区域;2)使用图引导的k-means聚类通过空间和形态学一致性捕获表型级异质性;3)使用注意力机制建模簇内和簇间关系,在全局空间关系中对局部特征进行上下文化;4)使用专家指导的混合密度建模通过高斯混合模型估计复杂的生存分布。
- Result: 在TCGA-KIRC(肾癌)数据集上获得了0.712±0.028的一致性指数和0.254±0.018的Brier评分;在TCGA-LUAD(肺腺癌)数据集上获得了0.645±0.017的一致性指数和0.281±0.031的Brier评分,这些结果显著优于现有最先进方法。
- Conclusion: 所提出的模块化框架在癌症生存预测方面表现出色,显著超越了现有技术水平,证明了该方法在不同癌症类型中的预测潜力,为基于病理图像的癌症预后分析提供了一个有效的解决方案。
[55] PlantSAM: An Object Detection-Driven Segmentation Pipeline for Herbarium Specimens
Youcef Sklab,Florian Castanet,Hanane Ariouat,Souhila Arib,Jean-Daniel Zucker,Eric Chenin,Edi Prifti
Main category: cs.CV
TL;DR: 该研究提出了PlantSAM,一个自动化植物标本图像分割流水线,结合YOLOv10和SAM2模型来解决标本图像背景异质性问题,显著提升了植物分类准确性。
- Motivation: 植物标本图像的深度学习分类受到背景异质性的阻碍,背景噪声和伪影会误导模型并降低分类准确性,因此需要解决这些背景相关的挑战以提升模型性能。
- Method: 提出PlantSAM自动分割流水线,集成YOLOv10进行植物区域检测和SAM2进行分割。YOLOv10生成边界框提示来指导SAM2,提升分割精度。两个模型都在标本图像上进行微调,使用IoU和Dice系数评估性能。
- Result: PlantSAM达到了最先进的分割性能,IoU为0.94,Dice系数为0.97。将分割后的图像纳入分类模型后,在五个测试的植物学特征上都获得了一致的性能提升,准确率提升高达4.36%,F1分数提升4.15%。
- Conclusion: 研究结果突出了背景移除在标本图像分析中的重要性,通过让模型更有效地聚焦于前景植物结构,显著提升了分类准确性。
[56] C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning
Xiuwei Chen,Wentao Hu,Hanhui Li,Jun Zhou,Zisheng Chen,Meng Cao,Yihan Zeng,Kui Zhang,Yu-Jie Yuan,Jianhua Han,Hang Xu,Xiaodan Liang
Main category: cs.CV
TL;DR: 提出了C2-Evo框架,通过跨模态数据演化和数据-模型演化双循环,自动提升多模态大语言模型的推理能力,在数学推理基准测试中取得显著性能提升。
- Motivation: 现有多模态大语言模型的进一步提升需要高质量的视觉-语言数据集,但构建成本高且难以扩展。现有自改进方法存在两个核心问题:1)视觉和文本数据分别增强导致复杂度不匹配;2)数据和模型演化分离导致任务难度不匹配。
- Method: 提出C2-Evo自动闭环自改进框架,包含两个核心循环:1)跨模态数据演化循环 - 生成结合结构化文本子问题和迭代指定几何图表的复杂多模态问题来扩展基础数据集;2)数据-模型演化循环 - 根据基础模型性能自适应选择生成的问题,交替进行监督微调和强化学习。
- Result: 该方法持续优化模型和训练数据,在多个数学推理基准测试中获得了显著的性能提升。
- Conclusion: C2-Evo框架通过联合演化训练数据和模型能力,有效解决了现有自改进方法中的数据复杂度不匹配和任务难度不匹配问题,为多模态大语言模型的自动改进提供了可行的解决方案。
[57] Spatial 3D-LLM: Exploring Spatial Awareness in 3D Vision-Language Models
Xiaoyan Wang,Zeju Li,Yifan Xu,Jiaxing Qi,Zhifei Yang,Ruifei Ma,Xiangde Liu,Chao Zhang
Main category: cs.CV
TL;DR: 本文提出了Spatial 3D-LLM,一个专门设计用于增强3D视觉语言任务空间感知能力的多模态大语言模型,通过渐进式空间感知方案丰富3D场景的空间嵌入表示。
- Motivation: 现有的3D多模态大语言模型主要依赖于压缩整体3D场景信息或分割独立对象来执行任务,这种方式由于对3D场景固有丰富性的表示不足而限制了其空间感知能力。
- Method: 提出Spatial 3D-LLM,集成了LLM骨干网络和渐进式空间感知方案,该方案随着感知域的扩展逐步捕获空间信息,生成位置丰富的3D场景嵌入作为视觉提示。同时引入了两个新任务:3D物体距离测量和3D布局编辑,并构建了3D指令数据集MODEL来评估模型的空间感知能力。
- Result: 实验结果表明,Spatial 3D-LLM在广泛的3D视觉语言任务中达到了最先进的性能,证明了渐进式空间感知方案在挖掘更深层空间信息方面的改进效果。
- Conclusion: 通过渐进式空间感知方案增强3D场景的空间嵌入表示,Spatial 3D-LLM成功提升了3D视觉语言任务的空间感知能力,在多个任务上取得了最优性能,验证了该方法的有效性。
[58] EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion
Shang Liu,Chenjie Cao,Chaohui Yu,Wen Qian,Jing Wang,Fan Wang
Main category: cs.CV
TL;DR: 本文提出了EarthCrafter框架和Aerial-Earth3D数据集,通过稀疏解耦潜在扩散模型实现大规模3D地球表面生成,解决了现有3D生成方法无法扩展到地理尺度的问题。
- Motivation: 现有的3D生成方法无法扩展到地理尺度(如建模数千平方公里的地球表面),这是一个开放性挑战。需要开发能够处理大规模地理区域的3D生成技术。
- Method: 提出双重创新:1)构建Aerial-Earth3D数据集,包含5万个精选场景(每个600m×600m),涵盖4500万个多视角Google Earth帧;2)设计EarthCrafter框架,采用稀疏解耦潜在扩散,将结构和纹理生成分离,使用双稀疏3D-VAE压缩几何体素和纹理2D高斯点云,并提出条件感知流匹配模型处理混合输入。
- Result: 广泛实验表明EarthCrafter在超大规模生成任务中表现显著优于现有方法。该框架支持多种应用,包括语义引导的城市布局生成和无条件地形合成,同时通过丰富的数据先验保持地理合理性。
- Conclusion: 通过数据基础设施和模型架构的双重创新,成功解决了3D生成方法扩展到地理尺度的挑战,EarthCrafter框架能够高效生成大规模3D地球表面,为地理建模和相关应用提供了新的解决方案。
[59] Optimization of DNN-based HSI Segmentation FPGA-based SoC for ADS: A Practical Approach
Jon Gutiérrez-Zaballa,Koldo Basterretxea,Javier Echanobe
Main category: cs.CV
TL;DR: 本文提出了一套针对自动驾驶系统中基于FPGA的SoC平台部署DNN高光谱图像分割处理器的优化技术,通过软硬件协同设计、模型压缩等方法实现了显著的性能提升。
- Motivation: 高光谱成像(HSI)在自主导航中具有优势,能克服灰度和RGB成像在描述目标物理特性方面的局限性。但安全关键的自动驾驶系统对延迟、资源消耗和安全性有严格要求,需要将机器学习工作负载转移到边缘平台,这需要彻底的软硬件协同设计来有效分配和优化有限计算资源。
- Method: 采用软硬件协同设计方案,包括:功能性软硬件任务分配、硬件感知预处理、机器学习模型压缩、完整的流水线部署等关键优化技术。针对FPGA-based SoC平台设计DNN-based HSI分割处理器。
- Result: 应用的压缩技术显著降低了DNN复杂度,运算量减少到原来的24.34%,参数数量减少到原来的1.02%,推理任务速度提升2.86倍,且分割准确性没有明显下降。
- Conclusion: 通过软硬件协同设计和模型压缩技术,成功实现了高光谱图像分割处理器在边缘平台的高效部署,为自动驾驶系统中的HSI应用提供了实用的解决方案。
[60] Comparative validation of surgical phase recognition, instrument keypoint estimation, and instrument instance segmentation in endoscopy: Results of the PhaKIR 2024 challenge
Tobias Rueckert,David Rauber,Raphaela Maerkl,Leonard Klausmann,Suemeyye R. Yildiran,Max Gutbrod,Danilo Weber Nunes,Alvaro Fernandez Moreno,Imanol Luengo,Danail Stoyanov,Nicolas Toussaint,Enki Cho,Hyeon Bae Kim,Oh Sung Choo,Ka Young Kim,Seong Tae Kim,Gonçalo Arantes,Kehan Song,Jianjun Zhu,Junchen Xiong,Tingyi Lin,Shunsuke Kikuchi,Hiroki Matsuzaki,Atsushi Kouno,João Renato Ribeiro Manesco,João Paulo Papa,Tae-Min Choi,Tae Kyeong Jeong,Juyoun Park,Oluwatosin Alabi,Meng Wei,Tom Vercauteren,Runzhi Wu,Mengya Xu,An Wang,Long Bai,Hongliang Ren,Amine Yamlahi,Jakob Hennighausen,Lena Maier-Hein,Satoshi Kondo,Satoshi Kasai,Kousuke Hirasawa,Shu Yang,Yihui Wang,Hao Chen,Santiago Rodríguez,Nicolás Aparicio,Leonardo Manrique,Juan Camilo Lyons,Olivia Hosie,Nicolás Ayobi,Pablo Arbeláez,Yiping Li,Yasmina Al Khalil,Sahar Nasirihaghighi,Stefanie Speidel,Daniel Rueckert,Hubertus Feussner,Dirk Wilhelm,Christoph Palm
Main category: cs.CV
TL;DR: 本文介绍了MICCAI 2024会议上的PhaKIR挑战赛,该挑战赛提供了一个多中心数据集,包含13个完整的腹腔镜胆囊切除术视频,用于同时进行手术阶段识别、器械关键点估计和器械实例分割三项相关任务,旨在推进机器人辅助微创手术中基于时序和上下文感知的方法开发。
- Motivation: 内镜手术视频中手术器械的可靠识别和定位是计算机和机器人辅助微创手术(RAMIS)中多种应用的基础,包括手术培训、技能评估和自主辅助。然而,在真实世界条件下实现鲁棒性能仍然是一个重大挑战。融入手术上下文信息(如当前手术阶段)已成为提高鲁棒性和可解释性的有前景策略。
- Method: 组织了PhaKIR(手术程序阶段、关键点和器械识别)子挑战赛作为MICCAI 2024内镜视觉挑战的一部分。引入了一个新颖的多中心数据集,包含来自三个不同医疗机构的13个完整腹腔镜胆囊切除术视频,对三个相互关联的任务进行统一标注:手术阶段识别、器械关键点估计和器械实例分割。
- Result: 该数据集与现有数据集不同,能够在相同数据内联合研究器械定位和手术上下文,同时支持整个手术过程中时序信息的整合。按照生物医学图像分析挑战的BIAS指南报告了结果和发现。
- Conclusion: PhaKIR子挑战赛通过为RAMIS中开发时序感知、上下文驱动方法提供独特基准来推进该领域发展,并为支持手术场景理解的未来研究提供了高质量资源。
[61] A Multimodal Deviation Perceiving Framework for Weakly-Supervised Temporal Forgery Localization
Wenbo Xu,Junyan Wu,Wei Lu,Xiangyang Luo,Qian Wang
Main category: cs.CV
TL;DR: 提出了一个多模态偏差感知框架(MDP),用于弱监督时序伪造定位,仅使用视频级标注就能识别部分伪造片段的精确时间戳
- Motivation: 现有深度伪造检测研究将其视为分类任务或时序伪造定位问题,存在限制性强、耗时且难以扩展到大数据集的问题
- Method: 提出多模态交互机制(MI)和可扩展偏差感知损失函数。MI引入时序属性保持的跨模态注意力机制,在概率嵌入空间中测量视觉和音频模态的相关性;偏差感知损失旨在扩大伪造样本相邻片段的偏差,减少真实样本的偏差
- Result: 在多个评估指标上取得了与全监督方法相当的结果,证明了框架的有效性
- Conclusion: 该框架能够有效识别模态间偏差,构建综合视频特征进行时序伪造定位,为弱监督学习下的深度伪造检测提供了新的解决方案
[62] Dyna3DGR: 4D Cardiac Motion Tracking with Dynamic 3D Gaussian Representation
Xueming Fu,Pei Wu,Yingtai Li,Xin Luo,Zihang Jiang,Junhao Mei,Jian Lu,Gao-Jun Teng,S. Kevin Zhou
Main category: cs.CV
TL;DR: 提出了Dyna3DGR框架,结合3D高斯表示和隐式神经运动场建模来进行心脏运动追踪,在ACDC数据集上超越了现有的深度学习配准方法
- Motivation: 现有的心脏运动追踪方法存在局限性:基于图像的方法在拓扑一致性方面有困难或需要大量训练数据;基于表示的方法会丢失图像级别的细节信息。需要一种能够准确追踪4D心脏运动的新方法
- Method: 提出了动态3D高斯表示(Dyna3DGR)框架,结合显式3D高斯表示和隐式神经运动场建模。通过可微分体积渲染,以自监督方式同时优化心脏结构和运动,无需大量训练数据或点对点对应关系
- Result: 在ACDC数据集上的综合评估显示,该方法在追踪精度上超越了最先进的基于深度学习的微分同胚配准方法,同时保持了拓扑和时间一致性
- Conclusion: Dyna3DGR成功解决了心脏运动追踪中的关键挑战,通过结合3D高斯表示和神经运动场建模,实现了更准确的心脏运动分析,为心脏功能评估提供了有效的工具
[63] CTSL: Codebook-based Temporal-Spatial Learning for Accurate Non-Contrast Cardiac Risk Prediction Using Cine MRIs
Haoyang Su,Shaohao Rui,Jinyi Xiang,Lianming Wu,Xiaosong Wang
Main category: cs.CV
TL;DR: 本文提出了一种基于码本的时空学习框架(CTSL),用于从无对比剂的心脏电影MRI序列中进行主要不良心脏事件(MACE)预测,无需分割掩码,通过自监督学习实现高精度心脏风险评估。
- Motivation: 现有的MACE预测方法通常需要基于人工精细化掩码的监督学习,在没有对比剂的情况下变得不实用。需要一种能够从原始电影MRI数据中学习动态时空表征的无监督方法,以实现准确且无对比剂的心脏风险预测。
- Method: 提出了基于码本的时空学习(CTSL)框架,采用多视图蒸馏策略解耦时间和空间特征,其中教师模型处理多个电影视图,学生模型从降维的Cine-SA序列中学习。利用基于码本的特征表示和通过运动线索进行动态病变自检测来捕获复杂的时间依赖关系和运动模式。
- Result: CTSL模型实现了高置信度的MACE风险预测,性能优于传统的依赖对比剂的方法,为心脏风险评估提供了快速、无创的解决方案。
- Conclusion: 该框架成功实现了无需分割掩码和对比剂的心脏风险评估,能够及时、便捷地进行心脏疾病诊断,在临床环境中具有重要应用价值。
[64] Automatic Fine-grained Segmentation-assisted Report Generation
Frederic Jonske,Constantin Seibold,Osman Alperen Koras,Fin Bahnsen,Marie Bauer,Amin Dada,Hamza Kalisch,Anton Schily,Jens Kleesiek
Main category: cs.CV
TL;DR: 本文提出ASaRG方法,通过将放射学模型的中间特征和细粒度分割图融入LLaVA架构来改进临床报告生成,在F1分数上相比基线提升2.77%,并增强了报告的可追溯性和准确性验证能力。
- Motivation: 临床报告生成需要强大的通用性能和内在的基础能力来说服临床医生和患者相信生成报告的准确性,现有方法在性能和可解释性方面仍有不足,需要开发能够减轻放射科医生工作负担并提供可靠第二意见的报告生成模型。
- Method: 提出ASaRG(自动分割辅助报告生成)方法,基于LLaVA架构扩展,通过简单串联的方式将专业放射学模型创建的中间特征和细粒度分割图融合到LLaVA的多模态投影层中,仅增加少量参数来提升性能和可解释性。
- Result: 仅使用中间特征时CE F1分数相比LLaVA基线提升0.89%(p=0.012),结合中间特征和细粒度分割图时提升2.77%(p<0.001);相比其他利用分割的报告生成方法COMG和ORID,F1分数分别提升6.98%和6.28%;方法允许将报告元素追溯到对应的分割图并验证评估的准确性。
- Conclusion: ASaRG成功提升了临床报告生成的性能,通过融合分割信息增强了模型的基础能力和可解释性,该方法与LLaVA架构的其他改进不互斥,具有与该领域其他进展结合的潜力,为可靠的端到端临床报告生成提供了有效解决方案。
[65] A2Mamba: Attention-augmented State Space Models for Visual Recognition
Meng Lou,Yunxiang Fu,Yizhou Yu
Main category: cs.CV
TL;DR: 本文提出A2Mamba,一种Transformer-Mamba混合网络架构,通过引入多尺度注意力增强状态空间模型(MASS)实现深度集成,在图像识别、语义分割和目标检测等视觉任务上超越了现有的ConvNet、Transformer和Mamba架构。
- Motivation: 现有的Transformer-Mamba混合方法仅仅是简单地堆叠Transformer和Mamba层,缺乏两者之间的交互机制,因此Transformer和Mamba层之间的深度集成仍然是一个开放问题。
- Method: 提出A2Mamba架构,核心是多尺度注意力增强状态空间模型(MASS)。MASS通过使用多尺度注意力图对SSM的隐藏状态进行空间聚合,执行一种交叉注意力的变体,增强二维空间的空间依赖性并改善SSM的动态建模能力。
- Result: A2Mamba在多个视觉识别任务上表现优异:A2Mamba-L在ImageNet-1K上达到86.1%的top-1准确率;在语义分割中,A2Mamba-B比CAFormer-S36高出2.5% mIoU且效率更高;在目标检测和实例分割中,A2Mamba-S比MambaVision-B在AP^b/AP^m上高出1.2%/0.9%,同时参数量减少40%。
- Conclusion: A2Mamba通过MASS成功实现了Transformer和Mamba的深度集成,在保持高效性的同时显著提升了视觉识别任务的性能,为混合架构设计提供了新的解决方案。
[66] Benchmarking pig detection and tracking under diverse and challenging conditions
Jonathan Henrich,Christian Post,Maximilian Zilke,Parth Shiroya,Emma Chanut,Amir Mollazadeh Yamchi,Ramin Yahyapour,Thomas Kneib,Imke Traulsen
Main category: cs.CV
TL;DR: 本研究构建了两个用于猪只行为监测的基准数据集PigDetect和PigTrack,系统性地比较了目标检测和多目标跟踪方法在真实猪舍环境中的性能表现。
- Motivation: 传统的猪只行为监测依赖人工操作,缺乏自动化和个体化信息收集能力。虽然机器学习方法在猪只目标检测和多目标跟踪方面有广泛研究,但缺乏系统性的基准测试研究来评估不同方法的性能。
- Method: 构建了两个数据集:PigDetect(目标检测)和PigTrack(多目标跟踪),数据来源于真实猪舍环境的图像和视频,包含遮挡和低能见度等挑战性场景。比较了不同的目标检测模型和多目标跟踪方法(包括SORT-based方法和端到端可训练模型)的性能表现。
- Result: 目标检测方面:具有挑战性的训练图像能显著提升检测性能,最先进的模型在检测质量上明显优于实时方法。多目标跟踪方面:SORT-based方法在检测性能上表现更优,而端到端模型在关联性能上更好。训练的模型在未见过的猪舍中表现良好,显示出良好的泛化能力。
- Conclusion: 高质量的训练数据对于猪只行为监测系统的性能至关重要。SORT-based方法目前在多目标跟踪中表现最佳,但端到端模型显示出未来发展潜力。研究提供的数据集和代码有助于促进该领域的可重现性研究和进一步发展。
[67] Synthetic Data Matters: Re-training with Geo-typical Synthetic Labels for Building Detection
Shuang Song,Yang Tang,Rongjun Qin
Main category: cs.CV
TL;DR: 该论文提出了一种新方法,通过在测试时使用针对目标区域城市布局定制的合成数据重新训练模型,以解决深度学习建筑分割模型在不同地理区域泛化能力差的问题。
- Motivation: 深度学习在遥感建筑分割方面取得了显著进展,但由于不同地理区域在城市布局、建筑类型、大小和位置分布等方面存在差异,模型难以泛化。同时,捕获全球多样性所需的耗时标注数据可能永远无法满足日益数据饥渴的模型需求。
- Method: 提出在测试时使用针对目标区域城市布局定制的合成数据重新训练模型的新方法。该方法利用OpenStreetMap等地理空间数据生成紧密复制目标区域城市结构的地理典型合成数据,使用程序化建模和基于物理的渲染创建超高分辨率合成图像,并在建筑形状、材料和环境照明方面进行领域随机化。将地理典型数据集成到对抗性领域自适应框架中进行建筑分割。
- Result: 实验显示性能显著提升,根据领域差距的不同,中位数改进高达12%。该方法能够生成几乎无限的训练样本,同时保持目标环境的基本特征,有效克服了合成到真实的领域差距。
- Conclusion: 这种可扩展且成本效益高的方法将部分地理知识与合成图像相结合,为纯合成数据集中的"模型崩溃"问题提供了有前景的解决方案。它为在不需要大量真实世界标注的情况下改善遥感建筑分割的泛化能力提供了实用路径。
[68] QRetinex-Net: Quaternion-Valued Retinex Decomposition for Low-Level Computer Vision Applications
Sos Agaian,Vladimir Frants
Main category: cs.CV
TL;DR: 本文提出了基于四元数的Retinex理论新方法,通过四元数Hamilton乘积分解图像为反射率和光照分量,解决低光照图像的颜色偏移、对比度低和噪声问题,在多个视觉任务中相比现有方法提升2-11%。
- Motivation: 低光照图像存在颜色偏移、对比度低、噪声等问题影响计算机视觉精度。传统Retinex模型存在四个关键缺陷:独立处理RGB通道、缺乏神经科学色觉模型、无法完美重建输入图像、无法解释人类颜色恒常性。需要一种更好的图像分解方法。
- Method: 提出首个四元数Retinex公式,将场景表示为四元数值反射率和光照的Hamilton乘积。引入反射率一致性指数来衡量反射率的不变性程度。利用四元数数学框架统一处理颜色信息而非独立处理RGB通道。
- Result: 在低光照裂缝检测、变化光照下人脸检测、红外-可见光融合等任务上,相比领先方法获得2-11%的性能提升,同时具有更好的颜色保真度、更低的噪声和更高的反射率稳定性。
- Conclusion: 四元数Retinex方法成功解决了传统Retinex模型的关键缺陷,通过统一的数学框架处理颜色信息,在多个计算机视觉任务中展现出优越性能,为低光照图像处理提供了新的有效解决方案。
[69] Enhancing Remote Sensing Vision-Language Models Through MLLM and LLM-Based High-Quality Image-Text Dataset Generation
Yiguo He,Junjie Zhu,Yiying Li,Xiaoyu Zhang,Chunping Qiu,Jun Wang,Qiangjuan Huang,Ke Yang
Main category: cs.CV
TL;DR: 本文提出MpGI方法生成高质量遥感图像文本描述,创建了HQRS-IT-210K数据集,训练的HQRS-CLIP模型仅用4.2%数据就超越了之前的最佳遥感CLIP模型。
- Motivation: 现有遥感视觉-语言基础模型面临高质量大规模图像-文本配对训练数据稀缺的问题,已有数据集由于描述生成方法简陋导致质量不佳,需要更大数据量才能获得有限的性能提升。
- Method: 提出两阶段MpGI(多视角生成与整合)方法:1)使用规则-多模态大语言模型接力生成和MLLM生成方法从不同视角生成独特详细的描述;2)利用大语言模型将多样化描述整合为综合性描述,捕获多视角细节。
- Result: 创建了包含约21万张遥感图像和130万条描述的HQRS-IT-210K数据集;微调得到HQRS-CLIP和RS-CoCa模型;HQRS-CLIP仅用4.2%训练数据就在各种下游任务中超越了之前最佳的遥感CLIP模型;RS-CoCa在基准数据集上优于其他先进方法,能生成与人工标注相当甚至更好的遥感图像描述。
- Conclusion: 通过多视角生成和整合方法能够有效提升遥感图像描述质量,显著减少所需训练数据量的同时获得更好的模型性能,为遥感领域的视觉-语言模型发展提供了新的解决方案。
[70] Temporally-Constrained Video Reasoning Segmentation and Automated Benchmark Construction
Yiqing Shen,Chenjia Li,Chenxiao Fan,Mathias Unberath
Main category: cs.CV
TL;DR: 本文提出了时间约束视频推理分割任务,解决传统视频分割无法处理动态时间相关性的问题,并构建了TCVideoRSBenchmark数据集
- Motivation: 传统视频分割方法局限于预定义物体类别,无法识别词汇表外物体或复杂文本查询中隐含提及的物体。现有视频推理分割假设目标物体在整个视频序列中保持上下文相关性,但在真实场景(如手术视频)中,感兴趣的物体会根据时间上下文动态出现、消失或改变相关性
- Method: 提出时间约束视频推理分割任务,要求模型根据包含时间推理的文本查询隐式推断目标物体何时变得上下文相关。开发创新的自动化基准构建方法,避免昂贵的手动标注,并构建TCVideoRSBenchmark数据集
- Result: 构建了包含52个样本的TCVideoRSBenchmark数据集,使用MVOR数据集中的视频。该数据集支持时间约束的视频推理分割任务评估
- Conclusion: 成功引入了时间约束视频推理分割这一新任务,提供了自动化数据集构建方法,为处理复杂动态场景中的视频分割问题提供了新的解决方案,特别适用于手术视频等需要灵活分析的应用场景
[71] HarmonPaint: Harmonized Training-Free Diffusion Inpainting
Ying Li,Xinzhe Li,Yong Du,Yangyang Xu,Junyu Dong,Shengfeng He
Main category: cs.CV
TL;DR: HarmonPaint是一个无需训练的图像修复框架,通过利用扩散模型的注意力机制实现高质量、风格协调的图像修复,无需重新训练或微调模型。
- Motivation: 现有的图像修复方法通常需要大量的重新训练或微调才能无缝集成新内容,但在保持修复区域与周围背景在结构和风格上的一致性方面存在困难。
- Method: 提出HarmonPaint框架,通过在自注意力机制中使用掩码策略确保结构保真度,同时利用扩散模型的内在特性将风格信息从未掩码区域传递到掩码区域,实现风格的和谐融合。
- Result: 在不同场景和风格上的大量实验证明了HarmonPaint的有效性,验证了其通用性和性能表现。
- Conclusion: HarmonPaint成功实现了无需训练的高质量图像修复,能够在结构和风格上保持与背景的协调一致性,为图像修复领域提供了一种新的解决方案。
[72] DFR: A Decompose-Fuse-Reconstruct Framework for Multi-Modal Few-Shot Segmentation
Shuai Chen,Fanman Meng,Xiwei Zhang,Haoran Wei,Chenhao Wu,Qingbo Wu,Hongliang Li
Main category: cs.CV
TL;DR: 本文提出DFR框架,通过分解、融合、重构三个步骤,系统性地整合视觉、文本和音频三种模态信息,显著提升了少样本分割任务的性能。
- Motivation: 现有的少样本分割方法主要依赖单一或双模态范式(视觉支持样本或文本描述),限制了对现实场景中丰富感知信息的充分利用,因此需要一个能够有效利用多模态指导的新框架。
- Method: 提出DFR(分解、融合、重构)框架,包含三个核心创新:1)多模态分解:利用SAM进行层次化分解,提取视觉区域建议、扩展文本语义描述符、处理音频特征;2)多模态对比融合:采用对比学习策略保持跨模态一致性,实现前景背景特征的动态语义交互;3)双路径重构:结合三模态融合令牌的语义指导和多模态位置先验的几何线索。
- Result: 在视觉、文本和音频模态的合成和真实设置下进行的大量实验表明,DFR相比最先进方法取得了显著的性能提升。
- Conclusion: DFR框架通过系统性地整合三种模态信息,成功解决了少样本分割中多模态指导利用不充分的根本挑战,为多模态少样本分割任务提供了有效的解决方案。
[73] Denoising-While-Completing Network (DWCNet): Robust Point Cloud Completion Under Corruption
Keneni W. Tesema,Lyndon Hill,Mark W. Jones,Gary K. L. Tam
Main category: cs.CV
TL;DR: 本文提出了DWCNet网络来解决真实世界中受多种退化影响的点云补全和去噪问题,并引入了CPCCD数据集来评估方法的鲁棒性
- Motivation: 真实世界环境中的点云由于噪声和遮挡难以获得干净完整的数据,现有的在合成数据上训练的补全网络在真实世界退化情况下表现不佳,需要解决同时受多种退化影响的高度损坏部分点云的补全和去噪问题
- Method: 提出DWCNet(边去噪边补全网络),包含噪声管理模块(NMM),该模块利用对比学习和自注意力机制来抑制噪声并建模结构关系;同时引入CPCCD数据集来评估不同腐蚀情况下的方法鲁棒性
- Result: DWCNet在干净和损坏的合成数据集以及真实世界数据集上都达到了最先进的性能表现
- Conclusion: 通过引入专门的噪声管理模块和对比学习机制,DWCNet成功解决了真实世界中多重退化点云的补全问题,为点云补全任务在自动驾驶、增强现实和机器人等领域的实际应用提供了有效解决方案
[74] Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
Ang Li,Charles Wang,Kaiyu Yue,Zikui Cai,Ollie Liu,Deqing Fu,Peng Guo,Wang Bill Zhu,Vatsal Sharan,Robin Jia,Willie Neiswanger,Furong Huang,Tom Goldstein,Micah Goldblum
Main category: cs.CV
TL;DR: 本文介绍了Zebra-CoT,一个包含182,384个样本的大规模多模态推理数据集,用于训练模型进行视觉思维链推理,在多个基准测试中取得了显著的性能提升。
- Motivation: 现有的视觉思维链(Visual CoT)模型性能较差,缺乏高质量的训练数据,难以像人类一样使用视觉辅助工具(如图表、草图)来解决复杂问题。
- Method: 构建了Zebra-CoT数据集,包含182,384个样本,涵盖四类任务:科学问题(几何、物理、算法)、2D视觉推理(视觉搜索、拼图)、3D推理(多跳推理、具身机器人规划)、视觉逻辑问题和策略游戏。使用该数据集对Anole-7B和Bagel-7B模型进行微调。
- Result: 在Zebra-CoT上微调的Anole-7B模型在测试集上准确率提升12%,在标准VLM基准评测中性能提升高达13%。微调的Bagel-7B模型能够生成高质量的交错视觉推理链。
- Conclusion: Zebra-CoT数据集有效提升了多模态推理能力,证明了视觉思维链方法的有效性。作者开源了数据集和模型以支持视觉CoT的开发和评估。
[75] CMP: A Composable Meta Prompt for SAM-Based Cross-Domain Few-Shot Segmentation
Shuai Chen,Fanman Meng,Chunjin Yang,Haoran Wei,Chenhao Wu,Qingbo Wu,Hongliang Li
Main category: cs.CV
TL;DR: 提出了可组合元提示(CMP)框架来解决跨域少样本分割问题,通过三个关键模块克服SAM模型在跨域场景中的限制,在多个数据集上取得了最先进的性能表现。
- Motivation: 跨域少样本分割面临数据有限和域偏移的挑战。虽然SAM等基础模型在通用分割任务中表现出色,但将其适配到跨域少样本分割时存在两个关键问题:依赖手动提示和跨域能力有限。
- Method: 提出可组合元提示(CMP)框架,包含三个关键模块:(1)参考补充与变换(RCT)模块用于语义扩展;(2)可组合元提示生成(CMPG)模块用于自动化元提示合成;(3)频率感知交互(FAI)模块用于缓解域差异。
- Result: 在四个跨域数据集上的评估显示CMP达到了最先进的性能,在1-shot和5-shot场景下分别实现了71.8%和74.5%的mIoU。
- Conclusion: CMP框架成功解决了SAM模型在跨域少样本分割中的关键限制,通过自动化元提示生成和域差异缓解技术,显著提升了跨域少样本分割的性能。
[76] Faithful, Interpretable Chest X-ray Diagnosis with Anti-Aliased B-cos Networks
Marcel Kleinmann,Shashank Agnihotri,Margret Keuper
Main category: cs.CV
TL;DR: 本文改进了B-cos网络在医学影像中的应用,通过引入反混叠策略和扩展多标签分类能力,解决了原有模型解释图中的伪影问题和分类局限性
- Motivation: B-cos网络虽然能提供可解释的类别特定解释,但存在两个关键问题:1)解释图中存在严重的混叠伪影,不适合临床使用;2)原始B-cos仅限于多分类任务,而胸部X光分析常需要多标签分类来处理共现异常
- Method: 提出两个改进策略:1)引入反混叠技术,使用FLCPooling(FLC)和BlurPool(BP)来显著改善解释质量;2)扩展B-cos网络架构以支持多标签分类任务
- Result: 在胸部X光数据集上的实验表明,改进的B-cos_FLC和B-cos_BP模型在保持强预测性能的同时,提供了忠实且无伪影的解释,适合多标签临床应用
- Conclusion: 成功解决了B-cos网络的混叠伪影问题和多标签分类局限性,使其更适用于安全关键的医学影像领域,为临床应用提供了清晰可靠的解释
[77] Task-Specific Zero-shot Quantization-Aware Training for Object Detection
Changhao Li,Xinrui Chen,Ji Wang,Kang Zhao,Jianfei Chen
Main category: cs.CV
TL;DR: 本文提出了一种针对目标检测网络的任务特定零样本量化框架,通过边界框和类别采样策略生成任务特定的校准集,并结合知识蒸馏过程恢复量化检测网络的性能,在MS-COCO和Pascal VOC数据集上达到了最先进的性能。
- Motivation: 现有的零样本量化方法使用无标签的任务无关合成图像,缺乏目标检测所需的特定信息(如目标位置、大小和类别分布),导致性能次优。需要开发专门针对目标检测任务的零样本量化方法。
- Method: 提出了两阶段的任务特定零样本量化框架:1)引入边界框和类别采样策略,从预训练网络中合成任务特定的校准集,重构目标位置、大小和类别分布;2)将任务特定训练集成到知识蒸馏过程中,恢复量化检测网络的性能。
- Result: 在MS-COCO和Pascal VOC数据集上进行的广泛实验表明,该方法具有高效性并达到了最先进的性能水平。
- Conclusion: 本文成功解决了目标检测网络零样本量化中的关键问题,通过任务特定的数据合成和知识蒸馏策略,显著提升了量化后检测网络的性能,为隐私保护场景下的模型压缩提供了有效解决方案。
[78] Enhancing Domain Diversity in Synthetic Data Face Recognition with Dataset Fusion
Anjith George,Sebastien Marcel
Main category: cs.CV
TL;DR: 该论文提出通过融合两个不同架构生成的合成人脸数据集来训练人脸识别模型,以解决单一生成器产生的模型特定伪影问题,并在多个基准测试中取得了优异性能。
- Motivation: 现有人脸识别系统训练数据通常通过网络爬取获得,缺乏用户明确同意,存在伦理和隐私问题;虽然合成数据可以解决这些问题,但单一生成器创建的合成数据集存在模型特定伪影,导致过拟合和性能不佳。
- Method: 结合两个使用架构不同的骨干网络生成的最先进合成人脸数据集,通过数据融合减少模型特定伪影,增强姿态、光照和人口统计学的多样性,并通过强调身份相关特征来隐式正则化人脸识别模型。
- Result: 在标准人脸识别基准测试中,使用融合数据集训练的模型在多个基准测试中表现出优异的性能,超越了使用单一合成数据集训练的模型。
- Conclusion: 通过融合不同架构生成的合成人脸数据集,可以有效减少生成器偏见和伪影,提高人脸识别模型的性能,为解决人脸识别中的隐私和伦理问题提供了有效解决方案。
[79] HOComp: Interaction-Aware Human-Object Composition
Dong Liang,Jinyuan Jia,Yuhao Liu,Rynson W. H. Lau
Main category: cs.CV
TL;DR: 本文提出HOComp方法,解决人物与物体交互的图像合成问题,通过多模态大语言模型驱动的区域姿态引导和细节一致性外观保持技术,实现自然和谐的人物-物体交互合成,并构建了首个交互感知人物-物体合成数据集IHOC。
- Motivation: 现有的图像引导合成方法在处理涉及人物-物体交互的任务时,往往难以合成无缝的交互感知合成图像。这些方法在确保前景物体与背景人物之间和谐交互以及保持一致外观方面存在困难。
- Method: 提出HOComp方法,包含两个关键设计:(1)多模态大语言模型驱动的区域姿态引导(MRPG),利用MLLMs识别交互区域和交互类型,提供从粗到细的姿态约束;(2)细节一致性外观保持(DCAP),统一形状感知注意力调制机制、多视角外观损失和背景一致性损失,确保前景和背景的一致性。
- Result: 在提出的IHOC数据集上的实验结果表明,HOComp能够有效生成和谐的人物-物体交互,具有一致的外观表现,在定性和定量评估中都优于相关方法。
- Conclusion: HOComp方法成功解决了人物-物体交互合成中的关键挑战,通过MLLMs驱动的姿态引导和细节一致性保持技术,实现了高质量的交互感知图像合成,为该领域提供了新的技术方案和数据集基准。
[80] ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
Chi-Pin Huang,Yueh-Hua Wu,Min-Hung Chen,Yu-Chiang Frank Wang,Fu-En Yang
Main category: cs.CV
TL;DR: ThinkAct提出了一个双系统框架,通过强化视觉潜在规划将高级推理与低级动作执行相结合,训练多模态大语言模型生成具身推理计划,并将其压缩为视觉计划潜在表示来指导动作模型执行
- Motivation: 现有的视觉-语言-动作(VLA)推理方法通常采用端到端训练,直接将输入映射到动作而缺乏显式推理,这阻碍了它们进行多步规划或适应复杂任务变化的能力
- Method: 提出ThinkAct双系统框架,训练多模态大语言模型生成基于目标完成和轨迹一致性的动作对齐视觉奖励引导的具身推理计划,将推理计划压缩为视觉计划潜在表示,用于条件化下游动作模型进行鲁棒动作执行
- Result: 在具身推理和机器人操作基准测试中的大量实验表明,ThinkAct在复杂具身AI任务中实现了少样本适应、长期规划和自我纠正行为
- Conclusion: ThinkAct通过将高级推理与低级动作执行分离并通过强化视觉潜在规划连接,有效解决了现有VLA模型在多步规划和复杂任务适应方面的局限性
cs.LG
[81] Semantic-Aware Gaussian Process Calibration with Structured Layerwise Kernels for Deep Neural Networks
Kyung-hwan Lee,Kyung-tae Kim
Main category: cs.LG
TL;DR: 提出了语义感知分层高斯过程(SAL-GP)框架,通过镜像神经网络分层架构来改进深度学习模型的置信度校准,实现更好的预测可靠性评估
- Motivation: 传统的高斯过程校准方法无法捕获深度神经网络的内部分层结构,限制了对预测可靠性评估的可解释性和有效性
- Method: 设计了语义感知分层高斯过程(SAL-GP)框架,采用多层GP模型镜像目标神经网络的分层架构,每层的特征表示映射到局部校准修正,通过结构化多层核函数耦合各层GP,实现跨层联合边际化
- Result: SAL-GP能够同时捕获局部语义依赖性和全局校准一致性,在整个网络中一致地传播预测不确定性,提高了与网络架构一致的可解释性
- Conclusion: 该框架增强了与网络架构对齐的可解释性,并能够对深度模型中的置信度一致性和不确定性量化进行原则性评估
[82] Understanding Generalization, Robustness, and Interpretability in Low-Capacity Neural Networks
Yash Kumar
Main category: cs.LG
TL;DR: 本研究通过MNIST数据集上的二分类任务,系统研究了低容量神经网络中模型容量、稀疏性和鲁棒性之间的基本关系,发现了最小容量与任务复杂度的直接关系、极端剪枝后的稀疏高性能子网络存在性,以及过参数化对输入corruption的鲁棒性优势。
- Motivation: 现代深度学习虽然依赖大规模过参数化模型,但低容量网络中容量、稀疏性和鲁棒性之间的基本相互作用仍是重要研究领域。需要通过受控框架来系统研究这些基础属性之间的权衡关系。
- Method: 创建了基于MNIST数据集的二分类任务套件,任务视觉难度递增(如0和1 vs 4和9)。通过这个受控框架来研究模型容量、稀疏性和鲁棒性的关系,并使用显著性图进行可解释性分析。
- Result: 发现三个核心结论:1)成功泛化所需的最小模型容量与任务复杂度直接相关;2)训练后的网络对极端幅度剪枝具有鲁棒性(高达95%稀疏度),揭示了稀疏高性能子网络的存在;3)过参数化在抵抗输入corruption方面提供显著优势。显著性图分析确认稀疏子网络保留了原始密集模型的核心推理过程。
- Conclusion: 该工作为简单神经网络的基础权衡关系提供了清晰的实证证明,揭示了容量、稀疏性和鲁棒性之间的根本性权衡规律,为理解神经网络的基本性质提供了重要见解。
[83] Towards Resilient Safety-driven Unlearning for Diffusion Models against Downstream Fine-tuning
Boheng Li,Renjie Gu,Junjie Wang,Leyi Qi,Yiming Li,Run Wang,Zhan Qin,Tianwei Zhang
Main category: cs.LG
TL;DR: 提出了ResAlign框架,通过建模下游微调为隐式优化问题和元学习策略,解决文本到图像扩散模型在微调后安全性失效的问题,在保持良性生成能力的同时显著提升安全遗忘方法的鲁棒性。
- Motivation: 现有的文本到图像扩散模型虽然生成质量高,但从有毒预训练数据中继承了不安全行为。虽然安全驱动的遗忘方法在抑制模型毒性方面取得进展,但这些方法在下游微调时表现脆弱,即使在完全良性的数据集上微调,最先进的方法也很大程度上无法保持其有效性。
- Method: 提出ResAlign安全驱动遗忘框架,具有增强的抗下游微调鲁棒性。通过将下游微调建模为带有Moreau包络重构的隐式优化问题,实现高效梯度估计以最小化有害行为的恢复。此外,提出元学习策略来模拟多样化的微调场景分布以提高泛化能力。
- Result: 在广泛的数据集、微调方法和配置上进行的大量实验表明,ResAlign在下游微调后保持安全性方面始终优于先前的遗忘方法,同时很好地保持了良性生成能力。
- Conclusion: ResAlign框架成功解决了现有安全遗忘方法在微调后失效的问题,通过创新的建模方法和元学习策略,在保持模型良性功能的同时显著提升了安全性的持久性,为文本到图像模型的安全应用提供了更可靠的解决方案。
[84] Screen2AX: Vision-Based Approach for Automatic macOS Accessibility Generation
Viktor Muryn,Marta Sumyk,Mariya Hirna,Sofiya Garkot,Maksym Shamrai
Main category: cs.LG
TL;DR: Screen2AX是首个从单张截图自动创建实时树形结构可访问性元数据的框架,通过视觉语言和目标检测模型检测、描述和分层组织UI元素,在重建完整可访问性树方面达到77% F1分数,并在自主代理任务执行中实现2.2倍性能提升。
- Motivation: 桌面可访问性元数据对AI代理解释屏幕和支持依赖屏幕阅读器等工具的用户至关重要,但许多应用程序由于开发者提供的元数据不完整或缺失而无法访问(macOS上仅33%的应用程序提供完整可访问性支持)。现有的结构化屏幕表示工作主要解决特定挑战,如UI元素检测或字幕生成,但没有尝试通过复制完整层次结构来捕获桌面界面的全部复杂性。
- Method: Screen2AX使用视觉语言模型和目标检测模型来检测、描述和分层组织UI元素,模仿macOS的系统级可访问性结构。为解决macOS桌面应用程序数据有限的问题,研究团队编译并公开发布了三个数据集,涵盖112个macOS应用程序,每个都标注了UI元素检测、分组和层次可访问性元数据以及相应的截图。
- Result: Screen2AX在重建完整可访问性树方面达到77% F1分数,能够准确推断层次树。这些层次树提高了自主代理解释和与复杂桌面界面交互的能力。在Screen2AX-Task基准测试中,该系统比原生可访问性表示提供2.2倍的性能改进,并在ScreenSpot基准测试中超越了最先进的OmniParser V2系统。
- Conclusion: Screen2AX成功解决了桌面应用程序可访问性元数据不完整的问题,通过从单张截图自动生成树形结构的可访问性元数据,显著提升了AI代理在桌面环境中的任务执行能力,为桌面可访问性和自主代理交互提供了重要的技术突破。
[85] Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning
Junhao Shen,Haiteng Zhao,Yuzhe Gu,Songyang Gao,Kuikun Liu,Haian Huang,Jianfei Gao,Dahua Lin,Wenwei Zhang,Kai Chen
Main category: cs.LG
TL;DR: 本文提出SOPHIA方法,通过半离策略强化学习增强大型视觉语言模型的慢思考推理能力,在多个多模态推理基准测试中达到开源模型的最先进性能
- Motivation: 现有大型视觉语言模型主要通过视觉语言对齐训练,难以采用在策略强化学习发展慢思考能力,而直接使用离策略方法又可能因模型间视觉感知能力不匹配导致视觉幻觉问题
- Method: 提出SOPHIA半离策略强化学习框架:结合可训练LVLM的在策略视觉理解与语言模型的离策略慢思考推理构建半离策略行为模型,为推理分配基于结果的奖励并反向传播视觉奖励,然后通过离策略RL算法让LVLM从获得的推理轨迹中学习慢思考推理能力
- Result: 在InternVL2.5和InternVL3.0(8B和38B)上的实验显示SOPHIA有效性显著,将InternVL3.0-38B平均性能提升8.50%,在多个多模态推理基准上达到开源LVLM最先进性能,在MathVision和OlympiadBench上甚至超越部分闭源模型(如GPT-4.1),分别达到49.08%和49.95%的pass@1准确率
- Conclusion: SOPHIA方法优于监督微调和直接在策略RL方法,为进一步的在策略训练提供了更好的策略初始化,成功解决了大型视觉语言模型慢思考推理能力增强的关键技术难题
cs.CR
[86] DREAM: Scalable Red Teaming for Text-to-Image Generative Systems via Distribution Modeling
Boheng Li,Junjie Wang,Yiming Li,Zhiyang Hu,Leyi Qi,Jianshuo Dong,Run Wang,Han Qiu,Zhan Qin,Tianwei Zhang
Main category: cs.CR
TL;DR: 本文提出DREAM框架,这是一个可扩展的红队测试方法,用于自动发现文本到图像生成模型中的问题提示词,通过建模问题提示词的概率分布来同时优化有效性和多样性
- Motivation: 尽管文本到图像生成模型集成了安全对齐和外部过滤器,但仍容易产生有害内容(如色情或暴力图像),现有的自动化红队测试方法将提示词发现视为孤立的提示级优化任务,限制了其可扩展性、多样性和整体有效性
- Method: 提出DREAM框架,直接建模目标系统问题提示词的概率分布,借鉴能量模型将目标重新表述为简单可处理的目标函数,引入GC-SPSA优化算法通过长且可能不可微的T2I管道提供稳定的梯度估计
- Result: 通过广泛实验验证,DREAM在提示词成功率和多样性方面显著超越了9个最先进的基线方法,在广泛的T2I模型和安全过滤器上都表现出色
- Conclusion: DREAM框架成功解决了现有红队测试方法的局限性,通过概率分布建模实现了更有效和多样化的问题提示词发现,为T2I系统的安全评估和改进提供了重要工具
cs.AI
[87] Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report
Shanghai AI Lab,:,Xiaoyang Chen,Yunhao Chen,Zeren Chen,Zhiyun Chen,Hanyun Cui,Yawen Duan,Jiaxuan Guo,Qi Guo,Xuhao Hu,Hong Huang,Lige Huang,Chunxiao Li,Juncheng Li,Qihao Lin,Dongrui Liu,Xinmin Liu,Zicheng Liu,Chaochao Lu,Xiaoya Lu,Jingjing Qu,Qibing Ren,Jing Shao,Jingwei Shi,Jingwei Sun,Peng Wang,Weibing Wang,Jia Xu,Lewen Yan,Xiao Yu,Yi Yu,Boxuan Zhang,Jie Zhang,Weichen Zhang,Zhijie Zheng,Tianyi Zhou,Bowen Zhou
Main category: cs.AI
TL;DR: 本研究基于E-T-C分析框架,评估了前沿AI模型在7个关键领域的风险,建立了绿-黄-红三级风险区间,发现当前所有前沿AI模型都处于绿色和黄色区间,未跨越红线,但在某些领域(如说服操控、生物化学风险)需要加强缓解措施。
- Motivation: 随着AI模型快速发展,需要理解和识别前沿AI模型带来的前所未有的风险,建立系统性的风险评估框架,以指导AI的安全部署和发展。
- Method: 采用前沿AI风险管理框架中的E-T-C分析方法(部署环境、威胁源、使能能力),识别7个关键风险领域,运用"AI-45°定律"建立"红线"(不可容忍阈值)和"黄线"(早期预警指标),定义绿-黄-红三级风险区间进行风险评估。
- Result: 所有近期前沿AI模型都处于绿色和黄色区间,未跨越红线。具体而言:网络攻击和无控制AI研发风险未跨越黄线;自我复制、战略欺骗等大多在绿色区间,部分推理模型在黄色区间;说服操控方面多数模型在黄色区间;生物化学风险无法排除多数模型处于黄色区间的可能性。
- Conclusion: 当前前沿AI模型虽未达到红色危险区间,但在多个领域存在需要关注的风险,特别是说服操控和生物化学风险领域。研究呼吁采取集体行动来缓解这些挑战,加强对AI前沿风险的监管和控制。
cs.RO
[88] Improved Semantic Segmentation from Ultra-Low-Resolution RGB Images Applied to Privacy-Preserving Object-Goal Navigation
Xuying Huang,Sicong Pan,Olga Zatsarynna,Juergen Gall,Maren Bennewitz
Main category: cs.RO
TL;DR: 本文提出了一种在超低分辨率设置下进行语义机器人导航的方法,通过联合学习的特征提取器和分割感知判别器来实现隐私保护的语义目标导航,在保护视觉隐私的同时提高导航成功率。
- Motivation: 移动机器人中的用户隐私保护已成为关键问题。现有方法通常只关注下游机器人任务性能或隐私保护其中之一,隐私保护往往会限制任务执行的有效性。需要一种能够同时解决任务性能和隐私保护双重目标的方法。
- Method: 提出了一种新颖的完全联合学习方法,集成了聚合特征提取器(agglomerative feature extractor)和分割感知判别器(segmentation-aware discriminator)来解决超低分辨率语义分割问题,从而实现隐私保护的语义目标导航。
- Result: 该方法在超低分辨率语义分割任务上优于不同基线方法,改进的分割结果提高了真实世界隐私约束场景下语义目标导航的成功率。
- Conclusion: 通过联合学习方法成功解决了机器人导航中隐私保护与任务性能之间的权衡问题,在超低分辨率图像上实现了有效的语义分割,为隐私保护的机器人导航提供了可行的解决方案。
[89] Designing for Difference: How Human Characteristics Shape Perceptions of Collaborative Robots
Sabrina Livanec,Laura Londoño,Michael Gorki,Adrian Röfer,Abhinav Valada,Andrea Kiesel
Main category: cs.RO
TL;DR: 研究探讨了人们如何评估不同机器人行为与不同人群(如残疾人、老年人)的协作,发现反社会机器人行为评价最低,与老年人协作需要更敏感的评估,物体传递场景评价更积极
- Motivation: 目前缺乏关于参与者如何评估不同机器人行为与多样化人类需求结合的研究,特别是与残疾人、老年人等受保护群体的互动。由于参与者对先进家用机器人的实际经验有限,需要开发能够支持有意义反思的评估方法
- Method: 在线研究招募112名参与者(实验组和对照组),评估28种人机协作变化中的7个视频。实验组首先完成认知-情感映射(CAM)练习,然后提供评分。对比分析CAM反思对评估的影响
- Result: CAM反思虽然没有显著影响整体评分,但对某些机器人行为和人类条件组合产生了更明显的评估差异。反社会机器人行为评分最低,与老年人的协作引发更敏感的评估,包含物体传递的场景比不包含的评价更积极
- Conclusion: 人类特征和互动范式都会影响协作机器人的可接受性认知,强调了亲社会设计的重要性。CAM等反思方法具有引发细致反馈的潜力,支持开发以用户为中心、面向不同人群的社会责任机器人系统
[90] A Target-based Multi-LiDAR Multi-Camera Extrinsic Calibration System
Lorenzo Gentilini,Pierpaolo Serio,Valentina Donzella,Lorenzo Pollini
Main category: cs.RO
TL;DR: 本文提出了一种基于标定板的多激光雷达和多相机外参标定系统,通过自定义ChArUco标定板和非线性优化方法实现传感器间的交叉标定,在仓库环境的真实数据测试中验证了方法的有效性。
- Motivation: 外参标定是自动驾驶的基石,其精度对感知管道至关重要,任何误差都可能影响车辆安全。现代传感器系统收集不同类型的环境数据,使得数据对齐变得更加困难,因此需要一种有效的多传感器外参标定方法。
- Method: 提出了一种基于标定板的外参标定系统,专门针对多激光雷达和多相机传感器套件。该系统使用自定义的ChArUco标定板,结合定制的非线性优化方法,能够在有限先验知识的情况下实现激光雷达和相机之间的交叉标定。
- Result: 在仓库环境中使用真实世界数据对系统进行了测试,结果证明了所提出方法的有效性,展示了针对各种类型传感器的独特标定流程的可行性。
- Conclusion: 该研究成功开发了一种适用于多激光雷达和多相机系统的外参标定方法,通过实验验证了其在实际应用中的有效性和可行性,为自动驾驶中的多传感器标定提供了可靠的解决方案。
physics.med-ph
[91] Handcrafted vs. Deep Radiomics vs. Fusion vs. Deep Learning: A Comprehensive Review of Machine Learning -Based Cancer Outcome Prediction in PET and SPECT Imaging
Mohammad R. Salmanpour,Somayeh Sadat Mehrnia,Sajad Jabarzadeh Ghandilu,Zhino Safahi,Sonya Falahati,Shahram Taeb,Ghazal Mousavi,Mehdi Maghsoudi,Ahmad Shariftabrizi,Ilker Hacihaliloglu,Arman Rahmim
Main category: physics.med-ph
TL;DR: 这项系统性综述分析了226项研究,比较了机器学习方法(手工放射组学特征、深度放射组学特征、深度学习模型和融合方法)在PET/SPECT影像癌症预后预测中的表现,发现深度放射组学特征准确率最高(0.862),融合模型AUC最高(0.861),但存在数据质量和标准化问题。
- Motivation: 不同机器学习方法(手工放射组学特征、深度放射组学特征、深度学习模型和混合融合方法)在PET和SPECT影像癌症预后预测中的比较性能在临床应用中表现不一致,需要系统性分析各方法的优劣。
- Method: 采用系统性综述方法,分析2020-2025年间226项将机器学习应用于PET或SPECT影像预后预测的研究。使用59项评估框架对每项研究进行评价,涵盖数据集构建、特征提取、验证方法、可解释性和偏倚风险等方面。
- Result: PET研究(95%)总体优于SPECT研究;深度放射组学特征(DRF)模型达到最高平均准确率(0.862),融合模型获得最高AUC(0.861);ANOVA确认了性能差异显著(准确率p=0.0006,AUC p=0.0027);常见限制包括类别不平衡处理不当(59%)、缺失数据(29%)和人群多样性低(19%);仅48%研究遵循IBSI标准。
- Conclusion: 研究强调需要建立标准化流程、改善数据质量和发展可解释AI来支持临床整合。不同机器学习方法在PET/SPECT癌症预后预测中各有优势,但数据质量和标准化仍是关键挑战。
eess.IV
[92] Systole-Conditioned Generative Cardiac Motion
Shahar Zuler,Gal Lifshitz,Hadar Averbuch-Elor,Dan Raviv
Main category: eess.IV
TL;DR: 本文提出了一种基于条件变分自编码器(CVAE)的方法,通过合成心脏CT图像对并生成密集3D流场标注,解决心脏运动估计中标注数据稀缺的问题
- Motivation: 心脏CT成像中的精确运动估计对心脏功能评估和手术规划至关重要,但数据驱动方法需要大量带有密集真值运动标注的标记数据,而这些数据往往难以获得
- Method: 采用条件变分自编码器(CVAE)结合新颖的多尺度特征条件机制,基于单个CT帧生成3D流场,然后通过生成的流场对给定帧进行变形,创建模拟真实心肌变形的帧对
- Result: 成功生成了具有密集3D流场标注的真实心脏CT帧对,这些合成数据可以作为完全标注的数据样本,提供光流真值标注,显著减少对人工标注的依赖
- Conclusion: 该数据生成流水线能够支持训练和验证更复杂、更准确的心肌运动模型,为心脏运动估计提供了新的解决方案,大幅降低了对手动标注的需求
[93] Quantization-Aware Neuromorphic Architecture for Efficient Skin Disease Classification on Resource-Constrained Devices
Haitian Wang,Xinyu Wang,Yiren Wang,Karen Lee,Zichen Geng,Xian Zhang,Kehkashan Kiran,Yu Zhang,Bo Miao
Main category: eess.IV
TL;DR: 本文提出了QANA,一种用于边缘设备皮肤病变分类的量化感知神经形态架构,通过集成幽灵模块、高效通道注意力和挤压激励块,实现了低延迟、高能效的推理,在HAM10000数据集上达到91.6%的Top-1准确率,在神经形态硬件上部署后推理延迟仅1.5ms,能耗1.7mJ。
- Motivation: 边缘设备上准确高效的皮肤病变分类对于可及的皮肤科医疗至关重要,但由于计算、能耗和隐私约束而面临挑战。现有的CNN到SNN转换方法在资源受限的硬件上表现不佳,需要一种专门设计的量化感知神经形态架构。
- Method: 提出QANA架构,有效集成了幽灵模块(ghost modules)、高效通道注意力(efficient channel attention)和挤压激励块(squeeze-and-excitation blocks)来实现鲁棒的特征表示。设计了量化感知头部和尖峰兼容变换,使模型能够无缝转换为脉冲神经网络并部署在神经形态平台上。
- Result: 在HAM10000基准数据集上达到91.6%的Top-1准确率和82.4%的宏F1分数,在真实临床数据集上达到90.8%/81.7%的性能。在BrainChip Akida硬件上部署后,推理延迟为1.5ms,每张图像能耗1.7mJ,相比基于GPU的CNN,推理延迟和能耗分别降低了94.6%和98.6%。
- Conclusion: QANA在边缘环境中实现了准确、实时且隐私敏感的医疗分析,显著优于现有的CNN到SNN转换基线方法。该架构为资源受限的边缘设备上的皮肤病变分类提供了有效解决方案,具有重要的临床应用价值。
[94] MLRU++: Multiscale Lightweight Residual UNETR++ with Attention for Efficient 3D Medical Image Segmentation
Nand Kumar Yadav,Rodrigue Rizk,Willium WC Chen,KC
Main category: eess.IV
TL;DR: 本文提出MLRU++架构,一种多尺度轻量级残差UNETR++模型,通过轻量级通道瓶颈注意力模块(LCBAM)和多尺度瓶颈块(M2B)实现高精度医学图像分割的同时大幅降低计算成本
- Motivation: 现有CNN-Transformer混合架构虽然在医学图像分割上达到最先进性能,但计算复杂度高,需要在分割精度和计算效率之间找到平衡点
- Method: 设计MLRU++架构,包含两个核心创新:1)轻量级通道瓶颈注意力模块(LCBAM)增强上下文特征编码且开销最小;2)多尺度瓶颈块(M2B)解码器通过多分辨率特征聚合捕获细粒度细节
- Result: 在四个公开基准数据集上取得最先进性能:Synapse平均Dice得分87.57%,ACDC为93.00%,Lung为81.12%。相比现有领先模型,在Synapse和ACDC上Dice得分分别提升5.38%和2.12%,同时显著减少参数量和计算成本
- Conclusion: MLRU++为3D医学图像分割任务提供了实用且高性能的解决方案,成功平衡了分割精度和计算效率,消融研究进一步证实了所提出架构组件的有效性
[95] SFNet: A Spatio-Frequency Domain Deep Learning Network for Efficient Alzheimer's Disease Diagnosis
Xinyue Yang,Meiliang Liu,Yunfang Xu,Xiaoxiao Yang,Zhengye Si,Zijin Li,Zhiwen Zhao
Main category: eess.IV
TL;DR: 本文提出了SFNet,这是首个同时利用空间域和频率域信息的端到端深度学习框架,用于增强基于3D MRI的阿尔茨海默病诊断,在ANDI数据集上达到了95.1%的分类准确率。
- Motivation: 现有的阿尔茨海默病诊断模型大多只从单一域提取特征,限制了对疾病复杂神经影像特征的完整捕获能力。虽然有些研究结合了空间和频率信息,但主要局限于2D MRI,在3D MRI中的双域分析潜力尚未被探索。
- Method: 提出了空间-频率网络(SFNet),集成了增强的密集卷积网络来提取局部空间特征,以及全局频率模块来捕获全局频率域表示。此外,还提出了一个新颖的多尺度注意力模块来进一步改进空间特征提取。
- Result: 在阿尔茨海默病神经影像倡议(ANDI)数据集上的实验表明,SFNet在分类认知正常(CN)和阿尔茨海默病患者方面优于现有基线方法,达到95.1%的准确率,同时降低了计算开销。
- Conclusion: SFNet作为首个端到端的双域深度学习框架,成功地同时利用了3D MRI的空间和频率信息,为阿尔茨海默病的早期诊断提供了一种有效的解决方案,在保持高准确率的同时减少了计算成本。
[96] A High Magnifications Histopathology Image Dataset for Oral Squamous Cell Carcinoma Diagnosis and Prognosis
Jinquan Guan,Junhong Guo,Qi Chen,Jian Chen,Yongkang Cai,Yilin He,Zhiquan Huang,Yan Wang,Yutong Xie
Main category: eess.IV
TL;DR: 研究者构建了Multi-OSCC数据集,包含1,325名口腔鳞状细胞癌患者的病理图像,支持6个临床任务的诊断和预后评估,并通过多种深度学习方法进行基准测试,为口腔癌的计算机辅助诊断提供了重要资源。
- Motivation: 现有的口腔鳞状细胞癌(OSCC)公开数据集存在患者队列有限、仅关注诊断或预后单一任务的问题,限制了综合性和可泛化模型的开发,因此需要构建一个集成诊断和预后信息的大规模数据集来弥补这一空白。
- Method: 构建了包含1,325名OSCC患者的Multi-OSCC病理图像数据集,每位患者包含6张高分辨率图像(x200、x400、x1000放大倍数各2张,覆盖肿瘤核心和边缘区域)。对6个关键临床任务进行标注:复发预测、淋巴结转移、肿瘤分化、肿瘤侵袭、癌栓和神经周围侵袭。系统性评估了不同视觉编码器、多图像融合技术、染色标准化和多任务学习框架的效果。
- Result: 最佳模型在复发预测任务上达到94.72%的AUC,肿瘤分化任务达到81.23%的AUC,所有任务均超过70%的AUC。发现染色标准化对诊断任务有益但对复发预测有负面影响。多任务学习相比单任务模型平均AUC下降3.34%,显示了数据集中平衡多任务的挑战性。
- Conclusion: Multi-OSCC数据集为口腔鳞状细胞癌的计算机辅助诊断和预后评估提供了重要的公共资源,基准测试结果显示了深度学习模型在多个临床任务上的良好性能,同时揭示了多任务学习在该领域的挑战,为未来研究奠定了基础。
[97] Semantic Segmentation for Preoperative Planning in Transcatheter Aortic Valve Replacement
Cedric Zöllner,Simon Reiß,Alexander Jaus,Amroalalaa Sholi,Ralf Sodian,Rainer Stiefelhagen
Main category: eess.IV
TL;DR: 本研究开发了基于语义分割的人工智能方法来支持经导管主动脉瓣置换术(TAVR)的术前规划,通过从粗粒度解剖信息中提取细粒度的TAVR相关伪标签来训练分割模型,并提出了改进的损失函数,使Dice性能提升了1.27%。
- Motivation: 在基于医学影像进行手术术前规划时,人工智能方法可以为医生提供评估支持。针对TAVR手术的医学指导原则,需要通过语义分割模型识别CT扫描中的相关解剖结构,使这些结构变得可测量,从而辅助术前规划决策。
- Method: 首先从粗粒度解剖信息中提取细粒度的TAVR相关伪标签,用于训练语义分割模型并量化模型在扫描中找到这些结构的能力。然后提出了训练分割模型时损失函数的改进方案,以提高模型性能。
- Result: 通过改进的损失函数,在语义分割任务中实现了+1.27%的Dice性能提升。研究还提供了细粒度的TAVR相关伪标签和所使用的CT扫描数据集。
- Conclusion: 成功开发了支持TAVR术前规划的AI辅助系统,通过细粒度伪标签和改进的损失函数提高了解剖结构分割的准确性,为医生在CT扫描中识别和测量相关解剖结构提供了有效工具,并公开了相关数据集以促进进一步研究。
[98] Pyramid Hierarchical Masked Diffusion Model for Imaging Synthesis
Xiaojiao Xiao,Qinmin Vivian Hu,Guanghui Wang
Main category: eess.IV
TL;DR: 本文提出了PHMDiff模型,一种基于金字塔分层掩码扩散的医学图像合成网络,通过多尺度分层方法和Transformer架构实现高质量医学图像合成,在PSNR和SSIM指标上表现优异。
- Motivation: 医学成像中经常出现模态缺失问题,原因包括扫描时间长、图像损坏、伪影、患者运动和对比剂不耐受等,需要一种有效的图像合成方法来解决这些临床工作流程中的常见问题。
- Method: 提出金字塔分层掩码扩散模型(PHMDiff),采用多尺度分层方法进行图像合成;使用随机多尺度高比例掩码加速扩散模型训练;集成基于Transformer的扩散模型过程,结合跨粒度正则化来建模各粒度潜在空间间的互信息一致性。
- Result: 在两个具有挑战性的数据集上进行综合实验,PHMDiff在峰值信噪比(PSNR)和结构相似性指数(SSIM)方面均达到了卓越性能,能够生成具有优秀结构完整性的高质量合成图像。消融研究证实了各组件的贡献。
- Conclusion: PHMDiff作为一个跨医学成像模态和模态内的多尺度图像合成框架,相比其他方法显示出显著优势,能够有效解决医学图像合成中的质量和结构完整性问题,为临床应用提供了可靠的解决方案。
[99] Improving U-Net Confidence on TEM Image Data with L2-Regularization, Transfer Learning, and Deep Fine-Tuning
Aiden Ochoa,Xinyuan Xu,Xing Wang
Main category: eess.IV
TL;DR: 本文提出了一种基于迁移学习的方法来自动识别透射电子显微镜(TEM)图像中的纳米级缺陷,通过使用预训练编码器和L2正则化显著提升了模型性能,并引入了新的评估指标来解决人工标注错误的问题。
- Motivation: 随着数据量不断增长,急需开发自动化方法来识别TEM图像中的纳米级缺陷。然而,与传统照片相比,TEM图像中的纳米级缺陷由于复杂的对比机制和复杂的缺陷结构表现出更大的变化性,导致标注数据较少且标注错误率较高,这对提升机器学习模型性能构成了重大障碍。
- Method: 研究团队通过利用用于自然图像的大型预训练模型来检验迁移学习方法。使用预训练编码器和L2正则化,使模型忽略语义复杂的特征,转而关注更简单、更可靠的线索。同时引入了独立于标注准确性的新颖评估指标,以UO2 TEM图像中的晶界检测作为案例研究。
- Result: 该方法在缺陷检测率方面实现了57%的提升,这是衡量模型在TEM数据集上性能的一个稳健且全面的指标。研究还发现,模型的自信度只有通过迁移学习和对深层网络的微调才能实现。传统的F1分数等评估指标由于将人工标注错误视为真实标准而可能产生偏差。
- Conclusion: 通过迁移学习和预训练模型的应用,可以显著改善TEM图像中纳米级缺陷的自动检测性能。新的评估指标比传统指标更能准确反映模型的真实性能,避免了人工标注错误的干扰。该方法为TEM图像分析领域的机器学习应用提供了有效的解决方案。
[100] MultiTaskDeltaNet: Change Detection-based Image Segmentation for Operando ETEM with Application to Carbon Gasification Kinetics
Yushuo Niu,Tianyu Li,Yuanyuan Zhu,Qian Yang
Main category: eess.IV
TL;DR: 提出了MultiTaskDeltaNet (MTDN)架构,通过将语义分割重新概念化为变化检测问题,解决了原位透射电镜成像中标记数据稀缺和小目标分割困难的问题,在碳丝气化实验中相比传统分割模型性能提升10.22%
- Motivation: 传统深度学习语义分割方法在原位透射电镜成像中面临标记数据稀缺、视觉特征模糊和小目标场景等限制,需要开发能够实现动态演化特征高精度自动分割的新方法,以将原位TEM成像转化为空间分辨的操作表征工具
- Method: 提出MultiTaskDeltaNet (MTDN)架构,采用基于U-Net骨干网络的独特孪生网络结构,将分割任务重新定义为变化检测问题,使用配对图像捕获特征变化,并采用多任务学习策略利用感兴趣物理特征之间的相关性
- Result: 在原位环境透射电镜(ETEM)碳丝气化视频数据评估中,MTDN相比传统分割模型表现出显著优势,特别是在精确描绘精细结构特征方面,在预测小型和视觉模糊物理特征时性能提升10.22%
- Conclusion: MTDN成功弥合了深度学习与实际TEM图像分析之间的关键差距,推进了复杂实验环境中纳米材料的自动化表征技术发展,为原位TEM成像的空间分辨操作表征提供了有效解决方案
Powered by Deepseek & arXiv Daily AI Enhanced