Skip to content
每日arXiv - 2025年9月15日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Australian Supermarket Object Set (ASOS): A Benchmark Dataset of Physical Objects and 3D Models for Robotics and Computer Vision

Akansel Cosgun,Lachlan Chumbley,Benjamin J. Meyer

Main category: cs.CV

TL;DR: ASOS是一个包含50种常见超市商品的3D纹理网格数据集,专为机器人和计算机视觉基准测试设计,强调真实性和可获取性

  • Motivation: 现有数据集多依赖合成模型或难以获取的专业物品,缺乏真实世界应用的实用性和可访问性
  • Method: 采用运动恢复结构技术,通过高分辨率成像生成水密3D网格,包含10个类别具有不同形状、尺寸和重量的日常商品
  • Result: 创建了一个成本效益高、易于获取的超市商品数据集,所有物品均来自澳大利亚主要超市连锁店
  • Conclusion: ASOS数据集在可访问性和真实世界适用性方面的优势,使其成为物体检测、姿态估计和机器人应用基准测试的宝贵资源

[2] A Multimodal RAG Framework for Housing Damage Assessment: Collaborative Optimization of Image Encoding and Policy Vector Retrieval

Jiayi Miao,Dingxin Lu,Zhuqi Wang

Main category: cs.CV

TL;DR: 提出了一种新颖的多模态检索增强生成框架(MM-RAG),用于自然灾害后房屋损坏评估,通过双分支编码器结构实现图像和文本的跨模态语义对齐,在检索准确率和损坏严重程度分类指标上表现优异。

  • Motivation: 自然灾害后准确的房屋损坏评估对于保险理赔响应和资源规划至关重要,需要同时处理图像损坏特征和文本政策信息。
  • Method: 基于经典RAG架构设计双分支多模态编码器:图像分支使用ResNet+Transformer提取建筑损坏特征,文本分支使用BERT检索器处理文本向量化;集成跨模态交互模块通过多头注意力实现语义对齐;引入模态注意力门控机制动态控制生成过程中视觉证据和文本先验信息的作用;采用端到端训练,结合对比损失、检索损失和生成损失进行多任务优化。
  • Result: 在检索准确率和损坏严重程度分类指标上表现出优异性能,Top-1检索准确率提升了9.6%。
  • Conclusion: 该MM-RAG框架通过有效的跨模态语义对齐和多任务学习,成功实现了自然灾害后房屋损坏的图像理解和政策匹配,为保险理赔和资源规划提供了可靠的技术支持。

[3] Improving MLLM Historical Record Extraction with Test-Time Image

Taylor Archibald,Tony Martinez

Main category: cs.CV

TL;DR: 提出了一种基于LLM的集成框架,通过多图像增强变体转录和Needleman-Wunsch对齐器融合,提高噪声历史文档转录准确率4个百分点

  • Motivation: 解决从噪声历史文档中提取文本的稳定性问题,传统单次转录方法在噪声环境下准确率有限
  • Method: 使用Gemini 2.0 Flash对每个图像的多个增强变体进行转录,然后通过自定义的Needleman-Wunsch风格对齐器融合输出,生成共识转录和置信度分数
  • Result: 在622份宾夕法尼亚州死亡记录数据集上,相比单次转录基线,准确率提高了4个百分点;填充和模糊处理对提升准确率最有效,网格扭曲扰动最适合区分高低置信度情况
  • Conclusion: 该方法简单、可扩展,可立即部署到其他文档集合和转录模型,为历史文档转录提供了有效的集成解决方案

[4] MITS: A Large-Scale Multimodal Benchmark Dataset for Intelligent Traffic Surveillance

Kaikai Zhao,Zhaoxiang Liu,Peng Wang,Xin Wang,Zhicheng Ma,Yajun Xu,Wenjing Zhang,Yibing Nan,Kai Wang,Shiguo Lian

Main category: cs.CV

TL;DR: 提出了首个大规模多模态智能交通监控数据集MITS,包含17万张真实交通监控图像和500万条指令-问答对,显著提升了主流大模型在交通监控任务中的性能。

  • Motivation: 通用大模型在智能交通监控领域表现有限,主要因为缺乏专门的交通监控多模态数据集。
  • Method: 收集17万张真实交通监控图像并标注8大类24小类对象和事件,通过系统化数据生成流程创建高质量图像描述和500万条指令-问答对,涵盖5个关键交通监控任务。
  • Result: 在MITS数据集上微调后,LLaVA-1.5性能从0.494提升至0.905(+83.2%),LLaVA-1.6从0.678到0.921(+35.8%),Qwen2-VL从0.584到0.926(+58.6%),Qwen2.5-VL从0.732到0.930(+27.0%)。
  • Conclusion: MITS数据集有效解决了交通监控领域多模态数据缺失问题,显著提升了大模型在该领域的性能,为智能交通监控和大模型研究提供了高价值资源。

[5] Decomposing Visual Classification: Assessing Tree-Based Reasoning in VLMs

Sary Elmansoury,Islam Mesabah,Gerrit Großmann,Peter Neigel,Raj Bhalwankar,Daniel Kondermann,Sebastian J. Vollmer

Main category: cs.CV

TL;DR: 本文研究了基于决策树的结构化推理是否能提升视觉语言模型在细粒度分类任务中的性能,发现虽然模型能很好地理解树状知识,但树基推理始终不如标准零样本提示方法。

  • Motivation: 视觉语言模型在零样本视觉分类方面表现出色,但在细粒度任务和大规模层次标签空间中的性能尚未得到充分研究,因此探索结构化树基推理是否能提升性能。
  • Method: 引入一个框架,使用决策树将分类分解为可解释的决策,并在细粒度(GTSRB)和粗粒度(CIFAR-10)数据集上进行评估,同时探索使用LLM生成的类别和图像描述来增强树提示。
  • Result: 模型在理解树知识方面达到98.2%的准确率,但树基推理始终表现不如标准零样本提示。添加图像描述后,树基方法和零样本方法的性能都有所提升。
  • Conclusion: 研究结果揭示了结构化推理在视觉分类中的局限性,为设计更可解释的VLM系统提供了见解。

[6] World Modeling with Probabilistic Structure Integration

Klemen Kotar,Wanhee Lee,Rahul Venkatesh,Honglin Chen,Daniel Bear,Jared Watrous,Simon Kim,Khai Loong Aw,Lilian Naing Chen,Stefan Stojanov,Kevin Feigelis,Imran Thobani,Alex Durango,Khaled Jedoui,Atlas Kazemian,Dan Yamins

Main category: cs.CV

TL;DR: PSI是一个从数据中学习可控制和可提示的世界模型的系统,通过概率预测、结构提取和集成三个步骤的循环来构建和改进模型

  • Motivation: 构建能够从视频数据中学习丰富可控性和灵活提示能力的世界模型,支持各种视频理解和预测任务
  • Method: 三步骤循环:1) 概率预测构建概率图模型 2) 结构提取通过因果推断提取低维属性 3) 集成将结构转换为新的token类型并重新训练
  • Result: 在1.4万亿token的视频数据上训练,实现了最先进的光流、自监督深度和对象分割,支持完整的预测改进循环
  • Conclusion: PSI系统通过循环改进机制有效提升了世界模型的建模能力和控制能力,创建了类似LLM的通用提示语言

[7] Images in Motion?: A First Look into Video Leakage in Collaborative Deep Learning

Md Fazle Rasul,Alanood Alqobaisi,Bruhadeshwar Bezawada,Indrakshi Ray

Main category: cs.CV

TL;DR: 本文首次分析了联邦学习中视频数据的梯度反演攻击风险,发现特征提取器能提供更好保护但仍有泄漏风险,超分辨率技术可提升攻击效果

  • Motivation: 联邦学习虽然通过交换模型更新而非原始数据来保护隐私,但梯度反演攻击能从中重建敏感数据。现有研究主要关注图像、文本和表格数据,视频数据的泄漏风险尚未被研究
  • Method: 评估两种视频分类方法:使用预训练特征提取器的方法和处理原始视频帧的简单变换方法。测试在不同攻击场景下(零参考帧、一个参考帧、多个参考帧)的梯度反演攻击效果,并应用超分辨率技术提升重建质量
  • Result: 特征提取器对梯度反演攻击具有更强韧性,但分类器复杂度不足时仍可能泄漏。超分辨率技术能显著提升攻击者重建的视频质量。视频数据在联邦学习中存在可行的泄漏威胁
  • Conclusion: 视频数据在联邦学习中的泄漏是一个真实存在的威胁,需要进一步研究其发生条件和防护措施,特征提取器提供了一定保护但并非完全安全

[8] A Co-Training Semi-Supervised Framework Using Faster R-CNN and YOLO Networks for Object Detection in Densely Packed Retail Images

Hossein Yazdanjouei,Arash Mansouri,Mohammad Shokouhifar

Main category: cs.CV

TL;DR: 提出了一种用于密集零售环境目标检测的半监督协同训练框架,结合Faster R-CNN和YOLO进行伪标签交换,集成多种分类器提高鲁棒性,并通过元启发式算法优化超参数,在SKU-110k数据集上表现优异。

  • Motivation: 解决密集零售环境中有限标注数据和复杂条件(如遮挡、重叠对象)带来的挑战,降低人工标注成本并适应零售场景中频繁的产品和布局变化。
  • Method: 使用Faster R-CNN(ResNet骨干)进行精确定位和YOLO(Darknet骨干)获取全局上下文,通过伪标签交换实现协同训练;集成XGBoost、随机森林和SVM进行分类;采用元启发式算法优化超参数。
  • Result: 在SKU-110k数据集上表现出色,证明了框架的可扩展性和实用性,适用于自动化库存跟踪、产品监控和结账系统等实际零售应用。
  • Conclusion: 该半监督协同训练框架有效解决了密集零售环境中的目标检测问题,减少了标注依赖,提高了检测精度和效率,具有实际应用价值。

[9] Purge-Gate: Backpropagation-Free Test-Time Adaptation for Point Clouds Classification via Token Purging

Moslem Yazdanpanah,Ali Bahri,Mehrdad Noori,Sahar Dastani,Gustavo Adolfo Vargas Hakim,David Osowiechi,Ismail Ben Ayed,Christian Desrosiers

Main category: cs.CV

TL;DR: 提出了Token Purging (PG),一种无需反向传播的测试时自适应方法,通过移除受域偏移影响严重的token来提升3D点云分类性能,在准确率、速度和内存效率方面均优于现有方法。

  • Motivation: 解决3D点云分类中因分布偏移导致的性能下降问题,现有测试时自适应方法需要迭代更新且计算成本高,需要一种更高效的自适应方法。
  • Method: 提出了Token Purging (PG)方法,在token级别进行操作,移除受域偏移影响严重的token,防止其进入注意力层。包含两个变体:PG-SP(利用源统计信息)和PG-SF(完全无源的CLS-token驱动自适应)。
  • Result: 在ModelNet40-C、ShapeNet-C和ScanObjectNN-C数据集上,PG-SP比最先进的无反向传播方法平均准确率高10.3%,PG-SF在无源自适应方面创下新基准。PG比基线方法快12.4倍,内存效率高5.5倍。
  • Conclusion: Token Purging是一种高效且有效的测试时自适应方法,无需反向传播,在保持高性能的同时显著提升了计算效率和内存效率,适合实际部署应用。

[10] Fine-Grained Cross-View Localization via Local Feature Matching and Monocular Depth Priors

Zimin Xia,Chenghao Xu,Alexandre Alahi

Main category: cs.CV

TL;DR: 提出了一种精确且高度可解释的细粒度跨视角定位方法,通过匹配地面图像与参考航空图像的局部特征来估计3自由度位姿,避免了传统鸟瞰图转换中的信息损失问题。

  • Motivation: 传统方法将地面图像转换为鸟瞰图表示再与航空图像对齐,这种转换常因透视畸变或高度信息压缩导致信息损失,降低对齐质量。
  • Method: 直接在图像间建立对应关系,仅使用单目深度先验将匹配的关键点提升到鸟瞰空间,支持度量和相对深度,采用尺度感知的Procrustes对齐来估计相机位姿。
  • Result: 实验结果表明,仅需相机位姿的弱监督,该方法就能学习准确的局部特征对应,在跨区域泛化和未知方向等挑战性条件下实现优越的定位性能。
  • Conclusion: 该方法兼容各种相对深度模型且无需针对每个模型进行微调,具有灵活性和强大的定位性能,非常适合实际部署。

[11] Early Detection of Visual Impairments at Home Using a Smartphone Red-Eye Reflex Test

Judith Massmann,Alexander Lichtenstein,Francisco M. López

Main category: cs.CV

TL;DR: 开发基于智能手机的儿童视力筛查应用KidsVisionCheck,使用红眼反射图像和深度学习模型,准确率达90%,无需专业设备

  • Motivation: 利用智能手机和AI技术重现Bruckner测试,使儿童视力筛查更加便捷和普及,实现早期视力异常干预
  • Method: 使用眼科医生收集和标注的儿童瞳孔图像训练深度神经网络模型,开发移动应用进行红眼反射图像分析
  • Result: 模型在未见测试数据上达到90%的准确率,能够识别最佳数据收集条件并提供即时用户反馈
  • Conclusion: 这项工作标志着向全球可及的儿科视力筛查和视力异常早期干预迈出了第一步

[12] DGFusion: Depth-Guided Sensor Fusion for Robust Semantic Perception

Tim Broedermannn,Christos Sakaridis,Luigi Piccinelli,Wim Abbeloos,Luc Van Gool

Main category: cs.CV

TL;DR: 提出了一种深度引导的多模态融合方法DGFusion,通过整合深度信息实现条件感知融合,在自动驾驶语义感知中实现了最先进的性能。

  • Motivation: 现有的传感器融合方法在处理具有挑战性的条件时,通常在整个输入空间范围内统一处理传感器数据,这限制了性能。需要一种能够根据空间变化条件动态调整传感器融合的方法。
  • Method: 提出DGFusion网络,将多模态分割作为多任务问题处理,利用激光雷达测量作为输入和深度学习的真值。通过辅助深度头学习深度感知特征,编码为空间变化的局部深度标记,结合全局条件标记动态调整传感器融合。
  • Result: 在具有挑战性的MUSES和DELIVER数据集上实现了最先进的全景和语义分割性能。
  • Conclusion: 深度引导的多模态融合方法能够有效适应传感器在不同深度条件下的可靠性变化,显著提升了自动驾驶语义感知的鲁棒性。

[13] Patch-based Automatic Rosacea Detection Using the ResNet Deep Learning Framework

Chengyu Yang,Rishik Reddy Yesgari,Chengjun Liu

Main category: cs.CV

TL;DR: 基于ResNet-18深度学习框架的斑块式玫瑰痤疮自动检测策略,通过提取面部不同区域图像斑块,实现高精度检测并保护患者隐私

  • Motivation: 玫瑰痤疮作为慢性炎症性皮肤病需要早期精确检测以提高治疗效果,传统全图像方法可能包含过多无关信息且存在隐私问题
  • Method: 使用ResNet-18深度学习框架,从面部图像提取不同大小、形状和位置的图像斑块,进行局部视觉信息对模型性能影响的深入研究
  • Result: 斑块式检测策略在准确性和敏感性方面达到或优于全图像方法,能够引导模型关注临床相关区域,增强鲁棒性和可解释性
  • Conclusion: 提出的斑块式策略为改进自动化皮肤病诊断提供了实用见解,在保持高精度的同时有效保护患者隐私

[14] Privacy-Preserving Automated Rosacea Detection Based on Medically Inspired Region of Interest Selection

Chengyu Yang,Rishik Reddy Yesgari,Chengjun Liu

Main category: cs.CV

TL;DR: 提出了一种基于临床先验知识和合成数据的隐私保护型玫瑰痤疮自动检测方法,通过构建红色通道掩码聚焦诊断相关区域,使用ResNet-18在合成数据上训练,在真实测试数据上表现优于全脸基线方法。

  • Motivation: 玫瑰痤疮是一种常见但诊断不足的炎症性皮肤病,自动检测面临症状弥散、标注数据稀缺以及面部图像隐私问题等挑战。
  • Method: 首先基于临床观察构建红色通道掩码,选择面部图像中红色通道强度持续较高的区域(脸颊、鼻子、前额),排除身份识别特征;然后在掩码处理后的合成图像上训练ResNet-18深度学习模型。
  • Result: 该方法在真实测试数据上相比全脸基线方法在准确率、召回率和F1分数方面均有显著提升,表现出优越性能。
  • Conclusion: 合成数据和临床先验知识可以共同实现准确且符合伦理的皮肤病AI系统,特别适用于远程医疗和大规模筛查等隐私敏感应用场景。

[15] Investigating the Impact of Various Loss Functions and Learnable Wiener Filter for Laparoscopic Image Desmoking

Chengyu Yang,Chengjun Liu

Main category: cs.CV

TL;DR: 本文对ULW腹腔镜图像去烟框架进行了全面的消融研究,评估了可学习维纳滤波器模块和复合损失函数中各损失项的贡献。

  • Motivation: 为了严格评估ULW框架中各个组件的有效性和必要性,特别是可学习维纳滤波器和复合损失函数中各损失项的具体贡献。
  • Method: 采用系统消融研究方法:1)移除可学习维纳滤波器;2)选择性使用复合损失函数中的单个损失项(MSE、SSIM损失、感知损失)。在公开的配对腹腔镜图像数据集上进行定量和定性评估。
  • Result: 研究使用SSIM、PSNR、MSE和CIEDE-2000等定量指标以及视觉比较来评估不同变体的性能表现。
  • Conclusion: 通过消融分析明确了ULW框架中各个组件的必要性和有效性,为腹腔镜图像去烟技术的优化提供了重要指导。

[16] WAVE-DETR Multi-Modal Visible and Acoustic Real-Life Drone Detector

Razvan Stefanescu,Ethan Oh,Ruben Vazquez,Chris Mesterharm,Constantin Serban,Ritu Chadha

Main category: cs.CV

TL;DR: WAVE-DETR是一个结合可见光RGB和声学信号的多模态无人机检测器,通过融合视觉和声学特征,在Deformable DETR和Wav2Vec2架构基础上实现鲁棒的无人机目标检测。

  • Motivation: 为了解决在复杂环境条件下无人机检测的挑战,利用声学信息补充视觉信息,提高检测性能。
  • Method: 开发了四种不同的融合配置(门控机制、线性层、MLP和交叉注意力),将Wav2Vec2声学嵌入与Deformable DETR的多分辨率特征映射融合。
  • Result: 最佳的门控融合方法将Deformable DETR检测器在小型无人机上的mAP提高了11.1%到15.3%,所有尺寸无人机的整体性能提升3.27%到5.84%。
  • Conclusion: 多模态融合方法显著提升了无人机检测性能,特别是在具有挑战性的环境条件下,声学信息对视觉检测器有重要补充作用。

[17] Surrogate Supervision for Robust and Generalizable Deformable Image Registration

Yihao Liu,Junyu Chen,Lianrui Zuo,Shuwen Wei,Brian D. Boyd,Carmen Andreescu,Olusola Ajilore,Warren D. Taylor,Aaron Carass,Bennett A. Landman

Main category: cs.CV

TL;DR: 提出了一种称为代理监督的新训练范式,通过将空间变换应用于代理图像来解耦输入域和监督域,从而提高深度学习图像配准网络对输入变化的鲁棒性和泛化能力。

  • Motivation: 深度学习图像配准虽然精度高,但对输入图像特性变化(如伪影、视场不匹配、模态差异)敏感,需要提高其鲁棒性和泛化性。
  • Method: 引入代理监督方法,将估计的空间变换应用于代理图像,使输入域与监督域解耦,从而可以在异质输入上训练,同时确保在相似性定义良好的域中进行监督。
  • Result: 在三个代表性应用中(抗伪影脑MR配准、掩码无关肺CT配准、多模态MR配准)均显示出对输入变化的强韧性,同时在良好整理的数据上保持高性能。
  • Conclusion: 代理监督提供了一个原则性框架,在不增加复杂性的情况下训练鲁棒且可泛化的深度学习配准模型,为更广泛的生物医学成像应用提供了实用途径。

[18] An Autoencoder and Vision Transformer-based Interpretability Analysis of the Differences in Automated Staging of Second and Third Molars

Barkin Buyukcakir,Jannick De Tobel,Patrick Thevissen,Dirk Vandermeulen,Peter Claes

Main category: cs.CV

TL;DR: 提出结合卷积自编码器和Vision Transformer的框架,在牙齿年龄估计中同时提升性能与可解释性,发现第三磨牙的高类内形态变异性是性能限制因素

  • Motivation: 深度学习在法医牙科年龄估计等高风险应用中因'黑盒'特性而受限,需要同时提升模型性能和透明度
  • Method: 使用卷积自编码器(AE)与Vision Transformer(ViT)结合的框架,通过AE的潜在空间度量和图像重建提供多维度诊断洞察
  • Result: 分类准确率显著提升:牙齿37从0.712提高到0.815,牙齿38从0.462提高到0.543,并发现牙齿38数据集的高类内形态变异性是主要限制因素
  • Conclusion: 单一可解释性模式(如注意力图)不足,需要多维度分析方法来支持法医年龄估计中的专家决策,该框架既能提高准确性又能解释模型不确定性原因

[19] SCoDA: Self-supervised Continual Domain Adaptation

Chirayu Agrawal,Snehasis Mukherjee

Main category: cs.CV

TL;DR: SCoDA是一种无需源域数据的自监督域自适应方法,通过几何流形对齐和EMA更新机制,在多个基准数据集上显著优于现有SFDA方法

  • Motivation: 解决传统SFDA方法依赖监督预训练和余弦相似度导致几何信息丢失的问题,提出完全自监督的域适应框架
  • Method: 使用自监督预训练的教师模型,结合实例级特征匹配和空间相似性损失进行几何流形对齐,通过EMA更新教师参数防止灾难性遗忘
  • Result: 在多个基准数据集上的大量实验表明,SCoDA显著优于最先进的SFDA方法
  • Conclusion: SCoDA通过自监督预训练和几何流形对齐,成功解决了SFDA中的关键挑战,为无源域数据适应提供了有效解决方案

[20] Segment Anything for Cell Tracking

Zhu Chen,Mert Edgü,Er Jin,Johannes Stegmaier

Main category: cs.CV

TL;DR: 提出了一种基于Segment Anything 2 (SAM2)的零样本细胞追踪框架,无需手动标注训练数据即可在2D和3D显微视频中实现竞争性精度的细胞追踪和有丝分裂事件检测。

  • Motivation: 现有基于深度学习的细胞追踪方法依赖昂贵耗时的手动标注数据集,且由于显微数据的巨大多样性,其泛化能力有限。
  • Method: 将通用图像视频分割基础模型SAM2集成到追踪流程中,构建完全无监督的零样本追踪框架,不依赖特定训练数据集。
  • Result: 在2D和大规模3D延时显微视频中达到竞争性精度,无需针对特定数据集进行微调。
  • Conclusion: 该方法克服了传统方法的局限性,具有良好的泛化能力,为细胞追踪提供了无需标注数据的有效解决方案。

[21] Online 3D Multi-Camera Perception through Robust 2D Tracking and Depth-based Late Aggregation

Vu-Minh Le,Thao-Anh Tran,Duc Huy Do,Xuan Canh Do,Huong Ninh,Hai Tran

Main category: cs.CV

TL;DR: 提出了一种将现有2D多摄像头跟踪系统扩展到3D空间的方法,通过深度信息重建目标点云并优化3D边界框,在AI City Challenge 2025中获得第三名

  • Motivation: 现有的多目标多摄像头跟踪系统主要基于2D空间,而3D跟踪需要完全重构系统组件,对现有系统来说不可行。本文旨在利用深度信息将现有2D系统扩展到3D空间
  • Method: 利用深度信息重建目标点云空间,通过聚类和偏航角优化恢复3D边界框,并引入增强的在线数据关联机制,利用目标局部ID一致性进行跨帧全局ID分配
  • Result: 在2025 AI City Challenge的3D MTMC数据集上评估,在排行榜上获得第三名
  • Conclusion: 该方法成功将现有2D多摄像头跟踪系统扩展到3D空间,无需完全重构系统组件,为大规模监控系统的3D感知提供了可行方案

[22] Zero-Shot Referring Expression Comprehension via Visual-Language True/False Verification

Jeffrey Liu,Rongbin Hu

Main category: cs.CV

TL;DR: 零样本视觉语言验证方法在指代表达理解任务中表现优异,无需特定训练即可超越传统方法

  • Motivation: 探索无需任务特定训练的零样本方法来解决指代表达理解问题,验证工作流设计而非预训练的重要性
  • Method: 将REC重新定义为基于框的视觉语言验证:使用通用检测器生成候选框,通过通用VLM对每个区域进行True/False查询验证
  • Result: 在RefCOCO、RefCOCO+和RefCOCOg数据集上超越零样本GroundingDINO基线,甚至超过经过REC训练的GroundingDINO和GroundingDINO+CRG的报道结果
  • Conclusion: 工作流设计而非任务特定的预训练是实现强零样本REC性能的关键因素,验证方法显著优于基于选择的方法

[23] Augment to Segment: Tackling Pixel-Level Imbalance in Wheat Disease and Pest Segmentation

Tianqi Wei,Xin Yu,Zhi Chen,Scott Chapman,Zi Huang

Main category: cs.CV

TL;DR: 提出RPCP数据增强方法,通过随机几何变换和投影滤波处理虫害斑块,解决小麦叶片病虫害分割中的极端像素不平衡问题

  • Motivation: 小麦叶片病虫害分割中虫害类别像素占比极低,导致模型过拟合常见类别而无法充分学习罕见类别,影响整体分割性能
  • Method: 从标注图像提取稀有虫害斑块,应用随机几何变换模拟变化,避免与病变区域重叠地粘贴到合适位置,并使用随机投影滤波器优化局部特征使其与背景自然融合
  • Result: 方法显著提升了虫害类别的分割性能,同时保持甚至略微提高了其他类别的准确率
  • Conclusion: 目标性数据增强能有效缓解极端像素不平衡问题,为农业图像分割提供简单有效的解决方案

[24] An HMM-based framework for identity-aware long-term multi-object tracking from sparse and uncertain identification: use case on long-term tracking in livestock

Anne Marthe Sophie Ngo Bibinbe,Chiron Bang,Patrick Gagnon,Jamie Ahloy-Dallaire,Eric R. Paquet

Main category: cs.CV

TL;DR: 提出了一种结合不确定身份信息和跟踪的HMM框架,用于解决长期多目标跟踪中的身份切换问题,在牲畜跟踪和标准基准数据集上均表现出色。

  • Motivation: 现有多目标跟踪方法在长时间视频中由于身份切换问题性能下降,无法满足实际应用需求,而现实场景中可以通过喂食器等设备获得零星的身份识别信息。
  • Method: 使用隐马尔可夫模型(HMM)框架,将不确定的身份信息与跟踪过程相结合,利用从喂食站等来源获得的零星身份识别来改善长期跟踪性能。
  • Result: 在10分钟的猪只跟踪数据集上,相比领先的ByteTrack方法(即使使用重识别),F1分数得到提升;在MOT17和MOT20基准数据集上使用ByteTrack和FairMOT验证了性能改进;方法对身份识别的不确定性具有鲁棒性,随着身份提供频率增加性能提升。
  • Conclusion: 提出的HMM框架有效解决了长期多目标跟踪中的身份切换问题,通过利用零星身份信息显著提升了跟踪性能,在真实牲畜监控场景和标准基准测试中均证明有效。

[25] Event Camera Guided Visual Media Restoration & 3D Reconstruction: A Survey

Aupendu Kar,Vishnu Raj,Guan-Ming Su

Main category: cs.CV

TL;DR: 本调查论文系统回顾了事件相机与传统帧相机融合技术在视频恢复和3D重建领域的最新进展,重点关注深度学习在时空增强方面的应用,并提供了公开数据集资源。

  • Motivation: 事件相机作为新兴的生物启发式传感器,具有低延迟、低功耗和高捕获率等优势,但其与传统帧相机的融合技术发展迅速,需要系统性的综述来总结最新进展并指导未来研究方向。
  • Method: 采用系统性文献综述方法,从两个维度分析:时间增强(帧插值、运动去模糊等)和空间增强(超分辨率、低光照增强、HDR增强等),同时探讨3D重建领域的融合技术发展。
  • Result: 总结了事件相机与传统相机融合在视频恢复和3D重建方面的主要深度学习贡献,提供了全面的技术分析和对挑战性条件下视觉质量提升的深入讨论。
  • Conclusion: 通过整合最新进展和见解,本调查旨在激发进一步研究,特别是在结合深度学习技术方面,推动事件相机系统在高级视觉媒体恢复和增强中的应用发展。

[26] ISTASTrack: Bridging ANN and SNN via ISTA Adapter for RGB-Event Tracking

Siying Liu,Zikai Wang,Hanle Zheng,Yifan Hu,Xilin Wang,Qingkai Yang,Jibin Wu,Hao Guo,Lei Deng

Main category: cs.CV

TL;DR: ISTASTrack是首个基于Transformer的ANN-SNN混合跟踪器,通过ISTA适配器实现RGB和事件数据的有效融合,在多个基准测试中达到SOTA性能

  • Motivation: 现有ANN网络难以充分利用事件流的稀疏和异步特性,ANN-SNN混合架构在RGB-Event感知中展现出潜力,但跨异构范式的特征融合仍是挑战
  • Method: 采用双分支结构:视觉Transformer提取RGB空间上下文,脉冲Transformer捕获事件流时空动态;设计基于ISTA算法的适配器进行双向特征交互;加入时序下采样注意力模块对齐特征
  • Result: 在FE240hz、VisEvent、COESOT和FELT等基准测试中实现最先进性能,同时保持高能效
  • Conclusion: ISTASTrack证明了ANN-SNN混合设计在鲁棒视觉跟踪中的有效性和实用性,为跨模态融合提供了新思路

[27] FLARE-SSM: Deep State Space Models with Influence-Balanced Loss for 72-Hour Solar Flare Prediction

Yusuke Takagi,Shunya Nagashima,Komei Sugiura

Main category: cs.CV

TL;DR: 提出基于多深度状态空间模型的太阳耀斑预测方法,引入FLARE损失函数处理类别不平衡问题,在完整太阳活动周期数据集上超越基线方法。

  • Motivation: 当前太阳耀斑预测性能不足,现有方法难以有效处理耀斑类别间的严重不平衡问题,需要更准确的预测方法来保护关键基础设施。
  • Method: 使用多深度状态空间模型构建预测框架,提出频率和局部边界感知可靠性损失函数(FLARE loss)来改善类别不平衡下的预测性能和可靠性。
  • Result: 在覆盖完整11年太阳活动周期的多波长太阳图像数据集上实验,在Gandin-Murphy-Gerrity分数和真实技能统计量两个标准指标上均优于基线方法。
  • Conclusion: 所提出的多深度状态空间模型结合FLARE损失函数能够有效处理太阳耀斑预测中的类别不平衡问题,显著提升预测性能和可靠性。

[28] TUNI: Real-time RGB-T Semantic Segmentation with Unified Multi-Modal Feature Extraction and Cross-Modal Feature Fusion

Xiaodong Guo,Tong Liu,Yike Li,Zi'ang Lin,Zhihong Deng

Main category: cs.CV

TL;DR: TUNI是一个用于RGB-热成像语义分割的统一编码器模型,通过多模态特征提取和跨模态融合的一体化设计,实现了更紧凑的架构和实时推理能力。

  • Motivation: 解决现有RGB-T语义分割模型中热特征提取有限、跨模态融合效果不佳以及编码器冗余导致的实时效率低下的问题。
  • Method: 提出TUNI模型,采用堆叠块结构的RGB-T编码器同时进行多模态特征提取和跨模态融合;通过RGB和伪热数据的大规模预训练;精简热分支实现紧凑架构;引入RGB-T局部模块使用自适应余弦相似度选择性地强调跨模态的显著一致和差异局部特征。
  • Result: 在FMB、PST900和CART数据集上达到与最先进模型竞争的性能,参数量更少,计算成本更低;在Jetson Orin NX上实现27 FPS的推理速度。
  • Conclusion: TUNI通过统一的编码器设计有效解决了RGB-T语义分割中的特征提取和融合问题,在保持高性能的同时实现了实时部署能力。

[29] Few-Part-Shot Font Generation

Masaki Akiba,Shumpei Takezaki,Daichi Haraguchi,Seiichi Uchida

Main category: cs.CV

TL;DR: 提出了一种基于局部设计元素的少部件字体生成模型,只需部分形状而非完整字符即可生成整个字体

  • Motivation: 传统少样本字体生成需要完整字符形状,而该方法旨在通过仅使用部分设计元素来提高字体创建效率,并探索局部设计细节如何影响整体字符结构
  • Method: 设计了一个新颖的少部件字体生成模型,以局部形状作为输入来生成整个字体
  • Result: 该方法不仅提高了字体创建效率,还提供了关于局部设计细节如何影响字符整体结构的见解
  • Conclusion: 该模型为字体设计提供了一种更高效的途径,通过局部元素即可生成完整字体,同时揭示了设计细节与整体结构之间的关系

[30] Efficient and Accurate Downfacing Visual Inertial Odometry

Jonas Kühne,Christian Vogt,Michele Magno,Luca Benini

Main category: cs.CV

TL;DR: 本文提出了一种针对微型和纳米无人机优化的高效视觉惯性里程计(VIO)流水线,在超低功耗RISC-V SoC上实现了实时性能,精度比基线提升3.65倍

  • Motivation: 传统高精度VIO系统需要强大计算能力,而微型无人机需要轻量级实现,本文旨在填补这一空白
  • Method: 采用SuperPoint、PX4FLOW和ORB等先进特征检测跟踪方法,经过量化和优化,结合刚体运动模型减少估计误差
  • Result: 在GAP9低功耗SoC上,ORB特征跟踪器的RMSE平均降低3.65倍,PX4FLOW在低速运动下与ORB精度相当但运行时间更短
  • Conclusion: 该流水线成功实现了在超低功耗系统上的高精度实时VIO,为微型无人机应用提供了可行的解决方案

[31] Hierarchical MLANet: Multi-level Attention for 3D Face Reconstruction From Single Images

Danling Cao

Main category: cs.CV

TL;DR: 提出基于卷积神经网络的层次化多级注意力网络(MLANet),从单张野外图像重建3D人脸模型,预测几何、纹理、姿态和光照参数

  • Motivation: 解决从2D野外图像恢复3D人脸模型的挑战,包括缺乏标注数据和真实环境的复杂性
  • Method: 使用预训练的层次化主干网络,在不同阶段引入多级注意力机制,采用半监督训练策略结合3DMM参数和可微分渲染器
  • Result: 在AFLW2000-3D和MICC Florence数据集上进行广泛实验,包括对比和消融研究,定量和定性评估均显示有效性
  • Conclusion: 提出的MLANet方法能够有效从单张野外图像重建3D人脸模型,解决了现有挑战

[32] LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA

Jing Huang,Zhiya Tan,Shutao Gong,Fanwei Zeng,Jianshu Li

Main category: cs.CV

TL;DR: LaV-CoT是一个语言感知的视觉思维链框架,通过多阶段推理流程和奖励优化,显著提升了多语言视觉问答性能,在多个数据集上超越开源和商业模型。

  • Motivation: 现有的思维链方法主要依赖文本推理,对多语言多模态推理支持有限,限制了在实际应用中的部署。需要开发能够同时处理多语言和视觉信息的推理框架。
  • Method: 提出多阶段推理流程(文本摘要+边界框、语言识别、空间对象级描述、逐步逻辑推理),采用自动化数据标注方法,结合监督微调和语言感知组相对策略优化进行两阶段训练。
  • Result: 在MMMB、Multilingual MMBench和MTVQA等数据集上,比同规模开源基线提升约9.5%准确率,甚至超越规模大2倍的模型约2.6%,优于GPT-4o-0513和Gemini-2.5-flash等先进专有模型。
  • Conclusion: LaV-CoT通过语言感知的视觉思维链框架和多方面奖励优化,有效提升了多语言视觉问答的性能和可解释性,展示了在工业部署中的实用性。

[33] Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation

Sung-Lin Tsai,Bo-Lun Huang,Yu Ting Shen,Cheng Yu Yeo,Chiang Tseng,Bo-Kai Ruan,Wen-Sheng Lien,Hong-Han Shuai

Main category: cs.CV

TL;DR: 提出无需训练的框架,利用大语言模型解析模糊颜色描述,在CIELAB色彩空间中优化文本嵌入,提升文本到图像生成中的颜色准确性

  • Motivation: 当前扩散模型在处理复杂颜色术语时存在颜色对齐问题,无法准确理解如Tiffany蓝、柠檬绿等模糊颜色描述,影响时尚、产品可视化等应用
  • Method: 使用大语言模型解析提示词中的模糊颜色术语,基于CIELAB色彩空间中的空间关系优化文本嵌入,指导颜色混合操作
  • Result: 实验结果表明该方法在不影响图像质量的情况下显著改善了颜色对齐效果,填补了文本语义与视觉生成之间的差距
  • Conclusion: 该训练免费框架通过结合大语言模型和色彩空间分析,有效解决了文本到图像生成中的颜色模糊问题,为实际应用提供了可靠解决方案

[34] Multimodal Mathematical Reasoning Embedded in Aerial Vehicle Imagery: Benchmarking, Analysis, and Exploration

Yue Zhou,Litong Feng,Mengcheng Lan,Xue Yang,Qingyun Li,Yiping Ke,Xue Jiang,Wayne Zhang

Main category: cs.CV

TL;DR: AVI-Math是首个评估无人机遥感图像中多模态数学推理能力的基准测试,包含3,773个高质量车辆相关问题,涵盖6个数学学科和20个主题,揭示了当前视觉语言模型在数学推理方面的显著局限性。

  • Motivation: 当前视觉语言模型在无人机遥感任务中的数学推理能力(如精确距离计算、轨迹估计和空间分析)尚未得到充分测试,需要专门的基准来评估这一重要能力。
  • Method: 构建AVI-Math数据集,包含从不同高度和角度采集的无人机图像,涵盖几何、逻辑和代数等数学领域。对14个主流视觉语言模型进行全面评估,并探索思维链提示和微调技术的应用。
  • Result: 尽管这些模型在以往的多模态基准测试中表现良好,但在AVI-Math的推理任务上表现不佳,显示出当前视觉语言模型在数学推理能力方面存在重大局限性。思维链提示和微调技术显示出改善推理挑战的潜力。
  • Conclusion: 研究不仅暴露了视觉语言模型在数学推理方面的局限性,还为推进无人机应用中可信赖视觉语言模型的发展提供了有价值的见解,相关代码和数据集将公开发布。

[35] BEVTraj: Map-Free End-to-End Trajectory Prediction in Bird's-Eye View with Deformable Attention and Sparse Goal Proposals

Minsang Kong,Myeongjun Kim,Sang Gu Kang,Sang Hun Lee

Main category: cs.CV

TL;DR: BEVTraj是一个新颖的轨迹预测框架,直接在鸟瞰图空间利用实时传感器数据进行轨迹预测,无需依赖预建地图,性能与最先进的HD地图模型相当。

  • Motivation: 现有方法依赖预建高清地图或实时地图构建模块,但预建地图局限于特定区域且无法适应瞬时变化,而地图构建模块可能遗漏关键场景细节或引入错误,影响预测性能。
  • Method: 提出BEVTraj框架,在BEV空间使用可变形注意力机制从密集BEV特征中提取相关上下文,并引入稀疏目标候选提议(SGCP)模块实现完全端到端预测,无需后处理步骤。
  • Result: 大量实验表明,BEVTraj在消除对预建地图依赖的同时,实现了与最先进HD地图模型相当的性能。
  • Conclusion: BEVTraj通过直接在BEV空间处理实时传感器数据,提供了更大的灵活性,同时保持了与地图依赖方法相当的性能,为自动驾驶轨迹预测提供了新的解决方案。

[36] Leveraging Multi-View Weak Supervision for Occlusion-Aware Multi-Human Parsing

Laura Bragagnolo,Matteo Terreran,Leonardo Barcellona,Stefano Ghidoni

Main category: cs.CV

TL;DR: 提出了一种利用多视角信息改进遮挡情况下多人解析的新训练框架,通过弱监督和一致性损失提升模型在人体重叠场景下的表现

  • Motivation: 现有方法在人体重叠场景下表现不佳,而多视角信息可以从不同角度分离重叠的人体,从而改善遮挡情况下的解析效果
  • Method: 提出基于弱监督的人类实例分割和多视角一致性损失的新训练框架,使用半自动标注策略从多视角RGB+D数据和3D人体骨架生成标注数据
  • Result: 在遮挡场景下相比基线模型获得了4.20%的相对性能提升
  • Conclusion: 多视角信息可以有效提升多人解析模型在遮挡情况下的性能,提出的训练框架和标注策略为解决人体重叠问题提供了有效方案

[37] VARCO-VISION-2.0 Technical Report

Young-rok Cha,Jeongho Ju,SunYoung Park,Jong-Hyeon Lee,Younghyun Yu,Youngjune Kim

Main category: cs.CV

TL;DR: VARCO-VISION-2.0是一个开源的韩英双语视觉语言模型,相比前代模型有显著提升,支持多图像理解、布局感知OCR,在14B和1.7B两种规模下都表现出色。

  • Motivation: 开发一个能够同时处理韩语和英语的双语视觉语言模型,支持复杂多图像输入和空间定位功能,推动双语VLM的实际应用发展。
  • Method: 采用四阶段课程训练和内存高效技术,通过偏好优化提升安全性和多模态对齐能力,同时保持核心语言能力。
  • Result: 在广泛基准测试中展现出强大的空间定位能力,14B模型在OpenCompass VLM排行榜上位列同规模模型第8名,同时发布了适用于设备部署的1.7B轻量版本。
  • Conclusion: VARCO-VISION-2.0系列模型显著推进了双语视觉语言模型的发展,为实际应用提供了高质量的开源解决方案,两种规模模型均已发布在Hugging Face平台。

[38] A Lightweight Ensemble-Based Face Image Quality Assessment Method with Correlation-Aware Loss

MohammadAli Hamidi,Hadi Amirpour,Luigi Atzori,Christian Timmerer

Main category: cs.CV

TL;DR: 提出了一种轻量级的人脸图像质量评估方法,使用MobileNetV3-Small和ShuffleNetV2集成网络,结合MSECorrLoss损失函数,在保持高精度的同时显著降低计算成本。

  • Motivation: 现有的人脸图像质量评估方法要么无法有效捕捉人脸特有的退化特征,要么计算复杂度太高,限制了在实际应用中的部署。需要一种既准确又高效的解决方案。
  • Method: 集成两个紧凑卷积神经网络(MobileNetV3-Small和ShuffleNetV2),通过简单平均进行预测级融合,并采用结合MSE和Pearson相关正则化的MSECorrLoss损失函数来提升与人类感知判断的一致性。
  • Result: 在VQualA FIQA基准测试中取得了SRCC 0.9829和PLCC 0.9894的优秀性能,同时满足计算效率约束。
  • Conclusion: 该方法在准确性和计算成本之间实现了良好平衡,适合在实际人脸识别和验证系统中部署应用。

[39] Realism Control One-step Diffusion for Real-World Image Super-Resolution

Zongliang Wu,Siming Zheng,Peng-Tao Jiang,Xin Yuan

Main category: cs.CV

TL;DR: 提出RCOD框架,通过潜在域分组策略和视觉提示注入,在单步扩散模型中实现保真度与真实感的灵活控制平衡

  • Motivation: 单步扩散方法虽然提高了效率,但缺乏多步方法中通过调整采样步骤来平衡保真度和真实感的灵活控制机制
  • Method: 提出RCOD框架,包含潜在域分组策略、退化感知采样策略和视觉提示注入模块,在噪声预测阶段实现显式控制
  • Result: 在定量指标和视觉质量上均优于最先进的单步扩散方法,同时保持计算效率
  • Conclusion: RCOD框架成功解决了单步扩散模型在真实图像超分辨率任务中保真度与真实感的权衡问题,提供了灵活的推理阶段控制能力

[40] Grad-CL: Source Free Domain Adaptation with Gradient Guided Feature Disalignment

Rini Smita Thakur,Rajeev Ranjan Dwivedi,Vinod K Kurmi

Main category: cs.CV

TL;DR: Grad-CL是一个源自由域适应框架,通过梯度引导的伪标签精化和余弦相似度对比学习,在不需要源数据的情况下提升视盘和视杯的跨域分割性能。

  • Motivation: 解决视盘和视杯分割模型在不同成像协议或条件下的跨域性能退化问题,特别是在无法访问源数据的情况下实现鲁棒的域适应。
  • Method: 两阶段方法:第一阶段通过梯度机制提取类别特定特征,进行不确定性量化和原型估计来精化伪标签;第二阶段使用余弦相似度对比学习强制视杯和视盘特征间的类间分离性。
  • Result: 在具有挑战性的跨域眼底成像数据集上,Grad-CL超越了最先进的无监督和源自由域适应方法,实现了优越的分割精度和边界描绘改进。
  • Conclusion: Grad-CL框架有效解决了医学图像分割中的域适应挑战,为视盘和视杯的准确分割提供了可靠的源自由解决方案,具有重要的临床应用价值。

[41] Scalable Training for Vector-Quantized Networks with 100% Codebook Utilization

Yifan Chang,Jie Qin,Limeng Qiao,Xiaofeng Wang,Zheng Zhu,Lin Ma,Xingang Wang

Main category: cs.CV

TL;DR: VQBridge解决了向量量化(VQ)训练中的不稳定性问题,通过压缩-处理-恢复流水线实现了100%代码本使用率,提升了图像重建性能和生成质量

  • Motivation: 解决向量量化训练中的直通估计偏差、一步延迟更新和代码本梯度稀疏问题,这些问题导致了次优的重建性能和低代码本使用率
  • Method: 提出VQBridge投影器,基于map函数方法,通过压缩-处理-恢复流水线优化代码向量,结合学习逆逆变过程实现了100%代码本使用率
  • Result: 在262k大规模代码本下仍能达到100%使用率,获得状态前沿的重建性能,与LlamaGen结合后在图像生成任务上超过VAR 0.5 rFID和DiT 0.2 rFID
  • Conclusion: VQBridge提供了一种简单有效的方案来解决VQ训练不稳定性问题,高质量的离散化标记器对强大的自回归图像生成至关重要

[42] LayerLock: Non-collapsing Representation Learning with Progressive Freezing

Goker Erdogan,Nikhil Parthasarathy,Catalin Ionescu,Drew Hudson,Alexander Lerchner,Andrew Zisserman,Mehdi Sajjadi,Joao Carreira

Main category: cs.CV

TL;DR: LayerLock是一种通过渐进层冻结实现从像素预测到潜在预测过渡的自监督视觉表示学习方法,能够加速MAE训练并避免表示坍塌问题

  • Motivation: 观察到在视频掩码自编码训练中,ViT层按深度顺序收敛:浅层早收敛,深层晚收敛,这一现象可用于优化训练过程
  • Method: 通过明确的进度表在训练过程中渐进冻结模型层,实现从像素预测到潜在预测的平滑过渡,避免表示坍塌
  • Result: 在高达40亿参数的大型模型上应用LayerLock,在4DS感知套件上的表现超越了非潜在掩码预测方法
  • Conclusion: LayerLock提供了一种简单有效的自监督学习策略,通过利用ViT层收敛特性来加速训练并提升表示学习性能

[43] On the Geometric Accuracy of Implicit and Primitive-based Representations Derived from View Rendering Constraints

Elias De Smijter,Renaud Detry,Christophe De Vleeschouwer

Main category: cs.CV

TL;DR: 本文系统比较了隐式和显式新视角合成方法在空间3D物体重建中的表现,发现外观嵌入主要提升光度保真度而非几何精度,凸面溅射比高斯溅射获得更紧凑的无杂波表示。

  • Motivation: 研究外观嵌入在空间机器人应用中3D重建的作用,特别是几何精度这一关键需求,比较不同方法在空间场景下的重建质量和表示效率。
  • Method: 使用SPEED+数据集,比较K-Planes、高斯溅射和凸面溅射三种方法,分析外观嵌入对几何精度和表示效率的影响。
  • Result: 外观嵌入主要减少显式方法所需的基元数量而非提升几何保真度;凸面溅射比高斯溅射获得更紧凑且无杂波的表示,更适合安全关键应用。
  • Conclusion: 外观嵌入在几何中心任务中存在局限性,空间场景中需要在重建质量和表示效率之间进行权衡,凸面溅射在交互和碰撞避免等安全关键应用中具有优势。

[44] GAMMA: Generalizable Alignment via Multi-task and Manipulation-Augmented Training for AI-Generated Image Detection

Haozhen Yan,Yan Hong,Suning Lang,Jiahui Zhan,Yikun Ji,Yujie Gao,Jun Lan,Huijia Zhu,Weiqiang Wang,Jianfu Zhang

Main category: cs.CV

TL;DR: GAMMA是一个新的AI生成图像检测框架,通过减少领域偏差和增强语义对齐,在未见过的生成模型上实现了最先进的泛化性能,在GenImage基准上准确率提升5.8%。

  • Motivation: 现有AI生成图像检测器在分布内生成图像上表现良好,但对未见生成模型的泛化能力有限,主要原因是过度依赖生成特定的伪影(如风格先验和压缩模式)。
  • Method: 提出GAMMA训练框架:1)引入多样化操作策略(基于修复的操作和语义保持扰动);2)采用多任务监督,包含双分割头和分类头;3)使用反向交叉注意力机制让分割头指导分类分支纠正偏差表示。
  • Result: 在GenImage基准上实现最先进的泛化性能,准确率提升5.8%,并对新发布的GPT-4o等生成模型保持强鲁棒性。
  • Conclusion: GAMMA通过减少领域偏差和增强语义对齐,显著提高了AI生成图像检测器的泛化能力,为应对日益复杂的生成模型提供了有效解决方案。

[45] Robustness and Diagnostic Performance of Super-Resolution Fetal Brain MRI

Ema Masterl,Tina Vipotnik Vesnaver,Žiga Špiclin

Main category: cs.CV

TL;DR: 比较三种胎儿脑MRI超分辨率重建方法(NiftyMIC、SVRTK、NeSVoR)在140例扫描中的表现,包括健康对照和病理病例,评估重建成功率、体积测量一致性和诊断分类性能。

  • Motivation: 胎儿脑MRI通常采用快速多视角2D切片采集以减少运动伪影,但这些图像分辨率低、可能存在运动损坏,且无法充分捕捉3D解剖结构。现有超分辨率重建方法的比较性能,特别是在病理情况下的表现,以及对下游体积分析和诊断任务的影响尚未充分探索。
  • Method: 应用三种最先进的SRR方法(NiftyMIC、SVRTK、NeSVoR)处理140例胎儿脑MRI扫描,包括健康对照和脑室扩大病理病例。使用BoUNTi算法对每个高分辨率重建进行分割,提取九个主要脑结构的体积。评估视觉质量、重建成功率、体积测量一致性和诊断分类性能。
  • Result: NeSVoR在健康对照和病理病例组中都表现出最高且最一致的重建成功率(>90%)。虽然不同SRR方法之间的体积估计存在显著差异,但脑室扩大的分类性能不受SRR方法选择的影响。
  • Conclusion: 研究结果突显了NeSVoR的鲁棒性,以及尽管SRR引起的体积变异性,诊断性能仍具有弹性。

[46] Mask Consistency Regularization in Object Removal

Hua Yuan,Jin Yuan,Yicheng Jiang,Yao Zhang,Xin Geng,Yong Rui

Main category: cs.CV

TL;DR: 提出Mask Consistency Regularization (MCR)训练策略,通过掩码扩张和重塑扰动来解决目标移除任务中的掩码幻觉和掩码形状偏差问题。

  • Motivation: 当前扩散模型在图像修复中的目标移除任务面临两个关键挑战:掩码幻觉(在掩码区域生成无关内容)和掩码形状偏差(填充内容模仿掩码形状而非周围内容)。
  • Method: 提出MCR训练策略,在训练过程中引入两种掩码扰动:扩张和重塑。扩张掩码帮助模型输出与周围内容对齐,重塑掩码鼓励模型打破掩码形状偏差。
  • Result: 实验表明MCR显著减少了幻觉和掩码形状偏差,在目标移除任务中实现了更好的性能。
  • Conclusion: MCR通过掩码一致性正则化能够产生更鲁棒和上下文一致的图像修复结果,有效解决了目标移除任务中的关键挑战。

[47] MagicMirror: A Large-Scale Dataset and Benchmark for Fine-Grained Artifacts Assessment in Text-to-Image Generation

Jia Wang,Jie Hu,Xiaoqi Ma,Hanghang Ma,Yanbing Zeng,Xiaoming Wei

Main category: cs.CV

TL;DR: MagicMirror是一个全面的文本到图像生成伪影评估框架,包含首个大规模人工标注数据集MagicData340K、基于VLM的评估模型MagicAssessor,以及自动化基准测试MagicBench,揭示了当前顶级T2I模型仍存在严重伪影问题

  • Motivation: 当前文本到图像生成虽然取得了显著进展,但在物理伪影(如解剖和结构缺陷)方面存在普遍问题,严重影响了感知质量并限制了应用。缺乏系统性和细粒度的评估框架来识别和解决这些多样复杂的伪影问题
  • Method: 1) 建立生成图像伪影的详细分类法;2) 人工标注340K图像的大规模数据集MagicData340K;3) 训练基于视觉语言模型的MagicAssessor评估器;4) 设计新颖的数据采样策略和多级奖励系统的GRPO方法;5) 构建自动化基准测试MagicBench
  • Result: 评估发现即使像GPT-image-1这样的顶级模型也持续受到显著伪影的困扰,凸显了伪影减少是未来T2I发展的关键前沿
  • Conclusion: MagicMirror框架填补了T2I生成伪影评估的空白,提供了一个全面的解决方案,包括数据集、评估模型和基准测试,为未来T2I模型的改进提供了重要工具和方向

[48] SignClip: Leveraging Mouthing Cues for Sign Language Translation by Multimodal Contrastive Fusion

Wenfang Wu,Tingting Yuan,Yupeng Li,Daling Wang,Xiaoming Fu

Main category: cs.CV

TL;DR: SignClip是一个新的手语翻译框架,通过融合手势和唇部运动特征,并采用分层对比学习来提高翻译准确性。

  • Motivation: 当前手语翻译方法主要关注手势信号,忽视了唇部运动等非手动线索,而这些线索对于区分视觉相似的手势至关重要。
  • Method: 提出SignClip框架,融合空间手势和唇部运动特征,引入分层对比学习框架,实现手语-唇部和视觉-文本模态的多层次对齐。
  • Result: 在PHOENIX14T和How2Sign数据集上表现优异,在PHOENIX14T的无注释设置下,BLEU-4从24.32提升到24.71,ROUGE从46.57提升到48.38。
  • Conclusion: 融合手动和非手动线索的分层对比学习框架能显著提升手语翻译的准确性,证明了唇部运动信息的重要性。

[49] Detecting Text Manipulation in Images using Vision Language Models

Vidit Vidit,Pavel Korshunov,Amir Mohammadi,Christophe Ecabert,Ketan Kotwal,Sébastien Marcel

Main category: cs.CV

TL;DR: 该研究分析了开源和闭源大型视觉语言模型在文本篡改检测方面的性能,发现开源模型正在接近但仍在闭源模型之后,并揭示了专门用于图像篡改检测的模型在文本篡改检测中存在泛化问题。

  • Motivation: 现有研究主要关注大型视觉语言模型在图像篡改检测中的有效性,但文本篡改检测方面存在研究空白,需要填补这一知识差距。
  • Method: 通过在多个文本篡改数据集上测试闭源和开源VLMs,包括对野外场景文本和仿真实世界滥用的幻想ID卡的篡改检测。
  • Result: 开源模型性能正在提升但仍落后于GPT-4o等闭源模型;专门用于图像篡改检测的VLMs在文本篡改检测中存在泛化问题。
  • Conclusion: 文本篡改检测是VLMs的一个重要应用领域,开源模型需要进一步改进以达到闭源模型的性能水平,同时需要开发更具泛化能力的模型。

[50] MCL-AD: Multimodal Collaboration Learning for Zero-Shot 3D Anomaly Detection

Gang Li,Tianjiao Chen,Mingle Zhou,Min Li,Delong Han,Jin Wan

Main category: cs.CV

TL;DR: MCL-AD是一个新颖的多模态协作学习框架,通过整合点云、RGB图像和文本语义,实现零样本3D异常检测,无需标注训练数据。

  • Motivation: 现有方法主要关注点云数据,忽略了RGB图像和文本先验等互补模态提供的丰富语义线索,限制了零样本3D异常检测的性能。
  • Method: 提出多模态提示学习机制(MPLM)增强模态内表示能力和模态间协作学习,包括对象无关的解耦文本提示和多模态对比损失;提出协作调制机制(CMM)充分利用点云和RGB图像的互补表示。
  • Result: 大量实验证明MCL-AD框架在零样本3D异常检测中达到了最先进的性能。
  • Conclusion: 通过多模态协作学习,MCL-AD有效提升了零样本3D异常检测能力,为数据稀缺场景下的缺陷检测提供了有效解决方案。

[51] Adversarial robustness through Lipschitz-Guided Stochastic Depth in Neural Networks

Laith Nayal,Mahmoud Mousatat,Bader Rasheed

Main category: cs.CV

TL;DR: 提出一种基于Lipschitz约束的随机深度(DropPath)方法,通过深度相关的丢弃概率来控制网络的有效Lipschitz常数,在保持清洁精度的同时提升对抗鲁棒性并减少计算量。

  • Motivation: 深度神经网络和Vision Transformers在计算机视觉中表现优异但对抗扰动脆弱,现有防御方法计算成本高或缺乏形式化保证。
  • Method: 采用Lipschitz引导的随机深度方法,丢弃概率随深度增加,以控制网络的有效Lipschitz常数,正则化深层网络。
  • Result: 在CIFAR-10和ViT-Tiny上的实验表明,该方法保持接近基线的清洁精度,提升了对FGSM、PGD-20和AutoAttack的鲁棒性,并显著减少了FLOPs。
  • Conclusion: 深度相关的DropPath调度能有效平衡模型精度、鲁棒性和计算效率,为对抗防御提供了新的解决方案。

[52] A Stochastic Birth-and-Death Approach for Street Furniture Geolocation in Urban Environments

Evan Murphy,Marco Viola,Vladimir A. Krylov

Main category: cs.CV

TL;DR: 提出基于能量图的概率框架,用于复杂城市环境中街道家具的精确定位,通过随机生死优化算法整合地理空间信息,提高定位精度

  • Motivation: 解决城市环境中街道家具的精确定位问题,这对公共基础设施的有效监控和维护至关重要
  • Method: 基于能量图的概率框架,编码物体位置的空间似然性;使用随机生死优化算法推断最可能的资产配置;整合GIS图层、道路地图等外部地理空间信息
  • Result: 在都柏林市中心街灯基础设施数据集上进行真实模拟评估,展示了该方法在可扩展和准确的城市资产测绘方面的潜力
  • Conclusion: 该方法为城市资产管理提供了有效的解决方案,算法实现将在GitHub上开源

[53] Compute Only 16 Tokens in One Timestep: Accelerating Diffusion Transformers with Cluster-Driven Feature Caching

Zhixin Zheng,Xinyu Wang,Chang Zou,Shaobo Wang,Linfeng Zhang

Main category: cs.CV

TL;DR: ClusCa通过空间聚类减少扩散变换器中90%以上的token计算,实现4.96倍加速且保持图像质量

  • Motivation: 扩散变换器虽然能生成高质量图像视频,但迭代去噪过程计算成本巨大。现有特征缓存方法只利用时间维度相似性,忽略了空间维度的相似性
  • Method: ClusCa在每个时间步对token进行空间聚类,每个聚类只计算一个token,然后将信息传播给其他token,大幅减少token数量
  • Result: 在DiT、FLUX和HunyuanVideo上验证有效性,FLUX实现4.96倍加速,ImageReward达到99.49%,比原模型提升0.51%
  • Conclusion: ClusCa提供了与现有特征缓存正交互补的空间维度加速方法,无需训练即可直接应用于任何扩散变换器,显著提升效率

[54] I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation

Jordan Sassoon,Michal Szczepanski,Martyna Poreba

Main category: cs.CV

TL;DR: I-Segmenter是首个完全整数化的ViT语义分割框架,通过系统替换浮点运算、提出新激活函数λ-ShiftGELU、移除L2归一化层和使用最近邻上采样,在保持精度的同时显著提升了效率。

  • Motivation: Vision Transformers在语义分割中表现优异,但在资源受限设备上部署困难,因为高内存占用和计算成本。量化虽能提高效率,但ViT分割模型在低精度下脆弱,量化误差会在深度编码器-解码器管道中累积。
  • Method: 基于Segmenter架构,系统替换浮点运算为整数运算;提出λ-ShiftGELU激活函数处理长尾激活分布;移除L2归一化层;用最近邻上采样替换双线性插值,确保整个计算图整数化执行。
  • Result: I-Segmenter在精度上仅比FP32基线平均低5.1%,同时模型大小减少达3.8倍,推理速度提升达1.2倍。即使在单张校准图像的一次性PTQ设置下,也能提供有竞争力的精度。
  • Conclusion: I-Segmenter是首个完全整数化的ViT分割框架,在保持合理精度的同时显著提升了效率,证明了其在现实世界部署中的实用性。

[55] GARD: Gamma-based Anatomical Restoration and Denoising for Retinal OCT

Botond Fazekas,Thomas Pinetz,Guilherme Aresta,Taha Emre,Hrvoje Bogunovic

Main category: cs.CV

TL;DR: GARD是一种基于伽马扩散模型的OCT图像去噪方法,通过噪声减少保真项和加速推理框架,在保持解剖结构的同时有效去除散斑噪声

  • Motivation: OCT图像存在固有的散斑噪声,传统去噪方法难以平衡噪声去除与解剖结构保留,需要更准确的噪声统计模型和更好的去噪效果
  • Method: 提出GARD方法,使用Denoising Diffusion Gamma Model替代传统高斯噪声假设,引入Noise-Reduced Fidelity Term指导去噪过程,并采用Denoising Diffusion Implicit Model加速推理
  • Result: 在配对噪声和低噪声OCT B扫描数据集上,GARD在PSNR、SSIM和MSE指标上显著优于传统方法和最先进的深度学习模型,定性结果显示边缘更清晰、解剖细节保留更好
  • Conclusion: GARD通过伽马扩散模型和噪声减少保真项,有效解决了OCT图像去噪中噪声去除与结构保留的平衡问题,为医学图像处理提供了新思路

[56] GLAM: Geometry-Guided Local Alignment for Multi-View VLP in Mammography

Yuexi Du,Lihui Chen,Nicha C. Dvornek

Main category: cs.CV

TL;DR: GLAM模型通过几何引导的全局和局部对比学习,解决了乳腺X线多视图对应关系建模问题,在多个数据集上超越现有基线方法

  • Motivation: 现有乳腺X线视觉语言模型从自然图像迁移而来,忽略了多视图几何关系这一关键领域特征,导致预测性能不佳
  • Method: 提出GLAM框架,利用乳腺X线多视图成像的先验知识,通过联合全局-局部、视觉-视觉和视觉-语言的对比学习来学习局部跨视图对齐和细粒度特征
  • Result: 在最大的公开乳腺X线数据集EMBED上预训练后,该模型在多个数据集的不同设置下均优于基线方法
  • Conclusion: 几何引导的多视图对齐方法能够有效提升乳腺X线视觉语言模型的性能,为医学影像分析提供了新的思路

[57] Towards Understanding Visual Grounding in Visual Language Models

Georgios Pantazopoulos,Eda B. Özyiğit

Main category: cs.CV

TL;DR: 这篇综述论文系统回顾了现代通用视觉语言模型中的视觉定位研究,包括其重要性、核心组件、实际应用、基准评估,以及与多模态思维链和推理的关系,并分析了当前挑战和未来方向。

  • Motivation: 视觉定位能力使模型能够根据文本描述精确定位视觉输入中的特定区域,这对于实现细粒度视觉理解、多模态推理和实际应用至关重要。论文旨在系统梳理这一重要研究领域的发展现状。
  • Method: 采用文献综述方法,首先概述视觉定位在VLM中的重要性,然后详细分析现代接地模型的核心组件构建范式,并考察其实际应用场景和评估基准。
  • Result: 系统梳理了视觉定位技术的关键研究进展,建立了完整的理论框架和应用体系,明确了该领域与多模态思维链、推理能力的深层关联。
  • Conclusion: 视觉定位是VLM发展的核心技术,虽然面临诸多挑战,但在多模态理解、细粒度控制等领域具有广阔的应用前景,需要进一步深入研究。

[58] Immunizing Images from Text to Image Editing via Adversarial Cross-Attention

Matteo Trippodo,Federico Becattini,Lorenzo Seidenari

Main category: cs.CV

TL;DR: 提出Attention Attack攻击方法,通过自动生成的图像描述作为代理提示词来破坏文本-图像编辑中的跨注意力机制,无需知道具体编辑方法或提示词即可破坏图像内容与文本描述的对齐。

  • Motivation: 现有的基于文本的图像编辑方法容易受到对抗攻击,但现有攻击方法存在局限性,需要针对视觉组件开发更有效的攻击策略。
  • Method: 使用源图像的自动生成描述作为编辑提示词的代理,破坏文本提示词与视觉表示之间的跨注意力机制,从而干扰编辑过程。提出了Caption Similarity和语义IoU两种新的评估指标。
  • Result: 在TEDBench++基准测试中,该攻击显著降低了编辑性能,同时保持攻击的不可感知性。
  • Conclusion: Attention Attack是一种有效的对抗攻击方法,能够破坏文本-图像编辑系统的功能,同时提出的新评估指标能更好地衡量攻击效果。

[59] Efficient Learned Image Compression Through Knowledge Distillation

Fabien Allemand,Attilio Fiandrotti,Sumanta Chaudhuri,Alaa Eddine Mazouz

Main category: cs.CV

TL;DR: 该研究通过知识蒸馏技术降低神经网络图像压缩模型的计算资源需求,使小型网络能够在大模型指导下获得更好的压缩性能,适用于不同架构规模和码率质量权衡。

  • Motivation: 现有的神经网络图像压缩方法虽然性能优于传统编解码器,但计算资源需求过高,无法在资源受限平台上实时运行,限制了其在实际应用中的部署。
  • Method: 采用知识蒸馏训练范式,让小型神经网络部分学习大型复杂模型的输出,从而在保持压缩性能的同时显著降低计算复杂度。
  • Result: 研究表明知识蒸馏能有效应用于图像压缩任务,适用于不同架构规模,实现不同的图像质量/码率权衡,并节省处理和能源资源。
  • Conclusion: 知识蒸馏为神经网络图像压缩提供了有效的资源优化方案,未来可探索不同教师模型和损失函数的影响,并扩展到基于transformer的模型。

[60] Ordinality of Visible-Thermal Image Intensities for Intrinsic Image Decomposition

Zeqing Leo Yuan,Mani Ramanagopal,Aswin C. Sankaranarayanan,Srinivasa G. Narasimhan

Main category: cs.CV

TL;DR: 提出了一种无需训练的本征图像分解方法,仅使用可见光和热成像图像对,通过热成像检测吸收光能来推断光照和反射率的序数关系,实现自监督分解。

  • Motivation: 传统本征图像分解方法缺乏真实世界场景的大规模地面实况数据,现有方法依赖合成数据或稀疏标注,限制了在户外场景的应用。
  • Method: 利用可见光和热成像图像对,基于光能被不透明表面吸收后转化为热能的热成像检测原理,通过两种图像强度的序数关系来推断光照和反射率的序数关系,为神经网络提供密集的自监督信号。
  • Result: 在自然光和人工光照条件下对已知反射率和光照进行定量评估,并在多样化户外场景进行定性实验,结果显示优于近期基于学习的方法。
  • Conclusion: 该方法为获取真实世界序数监督提供了一条可扩展的路径,这在之前通过人工标注是不可行的,展示了在户外场景本征图像分解方面的优越性能。

[61] Compressed Video Quality Enhancement: Classifying and Benchmarking over Standards

Xiem HoangVan,Dang BuiDinh,Sang NguyenQuang,Wen-Hsiao Peng

Main category: cs.CV

TL;DR: 本文提出了压缩视频质量增强(CVQE)的系统分类和统一基准测试框架,解决了现有综述在分类体系、架构比较和基准测试方面的不足

  • Motivation: 现有压缩视频质量增强的综述缺乏系统性的分类方法,无法将具体方法与编码标准和伪影类型关联,缺乏跨编码类型的架构范式比较分析,以及基准测试实践不完善
  • Method: 提出了三个关键贡献:1) 新的分类法,按架构范式、编码标准和压缩域特征利用对CVQE方法进行分类;2) 统一的基准测试框架,整合现代压缩协议和标准测试序列;3) 系统分析重建性能与计算复杂度之间的权衡关系
  • Result: 建立了全面的CVQE评估基础,为研究部署提供一致的评估标准和明智的模型选择依据
  • Conclusion: 该综述为CVQE领域建立了系统性的分类和评估框架,指出了未来研究的有前景方向,特别是在性能与复杂度权衡方面的深入探索

[62] Multimodal SAM-adapter for Semantic Segmentation

Iacopo Curti,Pierluigi Zama Ramirez,Alioscia Petrelli,Luigi Di Stefano

Main category: cs.CV

TL;DR: MM SAM-adapter是一个新颖的多模态语义分割框架,通过适配器网络将融合的多模态特征注入到Segment Anything Model的RGB特征中,在保持RGB特征强泛化能力的同时选择性利用辅助模态信息,在多个挑战性基准测试中实现了最先进的性能。

  • Motivation: 当前语义分割方法在恶劣光照、遮挡和恶劣天气等挑战性条件下表现脆弱,需要多模态方法来整合辅助传感器数据(如LiDAR、红外)以提供互补信息并增强鲁棒性。
  • Method: 提出MM SAM-adapter框架,使用适配器网络将融合的多模态特征注入到SAM的丰富RGB特征中,保留RGB特征的强泛化能力,同时仅在辅助模态提供额外线索时选择性整合它们。
  • Result: 在DeLiVER、FMB和MUSES三个挑战性基准测试中实现了最先进的性能。将DeLiVER和FMB划分为RGB-easy和RGB-hard子集的分析表明,该框架在有利和不利条件下都优于竞争方法。
  • Conclusion: 多模态适配对于鲁棒场景理解非常有效,MM SAM-adapter实现了多模态信息的平衡和高效利用,在保持RGB特征优势的同时充分利用辅助模态的补充信息。

[63] InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

Tao Han,Wanghan Xu,Junchao Gong,Xiaoyu Yue,Song Guo,Luping Zhou,Lei Bai

Main category: cs.CV

TL;DR: InfGen是一种基于潜在扩散模型的第二代图像生成方法,通过用一步生成器替换VAE解码器,可以从固定大小的潜在表示生成任意分辨率的图像,显著降低计算复杂度,将4K图像生成时间从100多秒缩短到10秒以内。

  • Motivation: 当前扩散模型在生成高分辨率图像时计算需求呈二次方增长,导致4K图像生成延迟超过100秒,需要一种更高效的任意分辨率图像生成方法。
  • Method: 将扩散模型生成的固定潜在表示作为内容表示,提出使用一步生成器解码任意分辨率图像,用新的生成器替换VAE解码器,无需重新训练扩散模型。
  • Result: 实验表明InfGen能够将多个模型升级到任意高分辨率时代,同时将4K图像生成时间缩短到10秒以内。
  • Conclusion: InfGen简化了高分辨率图像生成过程,显著降低了计算复杂度,可应用于使用相同潜在空间的任何模型,实现了高效的任意分辨率图像生成。

[64] SSL-AD: Spatiotemporal Self-Supervised Learning for Generalizability and Adaptability Across Alzheimer's Prediction Tasks and Datasets

Emily Kaczmarek,Justin Szeto,Brennan Nichyporuk,Tal Arbel

Main category: cs.CV

TL;DR: 本研究将三种先进的时序自监督学习方法应用于3D脑部MRI分析,通过处理变长输入和增强空间特征学习,在阿尔茨海默病预测任务中超越了监督学习方法。

  • Motivation: 解决阿尔茨海默病预测中深度学习模型面临的标注数据不足、跨数据集泛化能力差以及对不同扫描数量和间隔时间适应性差的问题。
  • Method: 采用时序自监督学习(SSL)方法,包括时序顺序预测和对比学习,处理变长输入并学习鲁棒的空间特征,使用四个公开数据集(3,161名患者)进行预训练。
  • Result: 在七个下游任务中的六个任务上,自监督学习方法的表现优于监督学习,展示了跨任务和不同输入图像数量及时间间隔的适应性和泛化能力。
  • Conclusion: 时序自监督学习方法在阿尔茨海默病预测中具有优越性能,能够适应不同的临床应用场景,代码和模型已公开。

eess.IV

[65] Automated Tuning for Diffusion Inverse Problem Solvers without Generative Prior Retraining

Yaşar Utku Alçalar,Junno Yun,Mehmet Akçakaya

Main category: eess.IV

TL;DR: 提出了ZADS方法,一种无需重新训练扩散先验的自适应采样方法,通过测试时优化调整保真度权重,在加速MRI重建中优于传统压缩感知和现有扩散方法。

  • Motivation: 现有扩散模型在解决逆问题(如加速MRI重建)时,性能严重依赖精心调整的保真度权重,特别是在快速采样计划下。现有方法通常依赖启发式或固定权重,无法适应不同的测量条件和不规则时间步计划。
  • Method: ZADS(Zero-shot Adaptive Diffusion Sampling)是一种测试时优化方法,将去噪过程视为固定的展开采样器,仅使用欠采样测量以自监督方式优化保真度权重,无需重新训练扩散先验。
  • Result: 在fastMRI膝盖数据集上的实验表明,ZADS始终优于传统压缩感知和最近的基于扩散的方法,展示了其在不同噪声计划和采集设置下提供高保真重建的能力。
  • Conclusion: ZADS方法通过自适应调整保真度权重,有效解决了扩散模型在逆问题中的权重依赖问题,为加速MRI重建提供了一种灵活且高性能的解决方案。

[66] Drone-Based Multispectral Imaging and Deep Learning for Timely Detection of Branched Broomrape in Tomato Farms

Mohammadreza Narimani,Alireza Pourreza,Ali Moghimi,Mohsen Mesgaran,Parastoo Farajpoor,Hamid Jafarbiglu

Main category: eess.IV

TL;DR: 本研究结合无人机多光谱影像和LSTM深度学习网络,使用SMOTE技术处理类别不平衡,成功实现了番茄田中分枝列当的早期检测,最高准确率达到88.37%,召回率95.37%。

  • Motivation: 分枝列当对加州番茄产业构成严重威胁,其地下生命周期使早期检测困难,传统化学防治方法成本高、环境危害大且效果有限。
  • Method: 在已知感染列当的番茄农场进行研究,使用无人机多光谱影像采集数据,通过LSTM深度学习网络处理时序生长阶段数据,并采用SMOTE技术解决类别不平衡问题。
  • Result: 在897生长度日时,检测准确率达到79.09%,召回率70.36%;整合所有生长阶段并使用SMOTE增强后,准确率提升至88.37%,召回率达到95.37%。
  • Conclusion: 时序多光谱分析和LSTM网络在早期列当检测方面具有强大潜力,无人机多光谱传感与深度学习结合可为精准农业提供有力工具,减少损失并提高番茄生产的可持续性。

[67] Polarization Denoising and Demosaicking: Dataset and Baseline Method

Muhamad Daniel Ariff Bin Abdul Rahman,Yusuke Monno,Masayuki Tanaka,Masatoshi Okutomi

Main category: eess.IV

TL;DR: 本文提出了一个用于偏振去噪和去马赛克的新数据集和方法,包含40个真实场景和三种噪声条件,采用先去噪再去马赛克的信号处理方法,在图像重建性能上优于其他方法。

  • Motivation: 由于缺乏合适的评估数据集和可靠的基线方法,针对偏振去噪和去马赛克联合任务的研究很少,而DoFP偏振计在许多应用中具有重要价值。
  • Method: 采用先去噪再去马赛克的方法,基于成熟的信号处理组件构建可复现的方法,使用包含噪声马赛克输入和无噪声完整图像对的数据集。
  • Result: 实验结果表明,该方法在图像重建性能上优于其他替代方法,提供了一个可靠的基线。
  • Conclusion: 提出的数据集和方法为偏振去噪和去马赛克任务提供了有效的解决方案和评估基准。

[68] Multi-pathology Chest X-ray Classification with Rejection Mechanisms

Yehudit Aperstein,Amit Tzahar,Alon Gottlib,Tal Verber,Ravit Shagan Damti,Alexander Apartsin

Main category: eess.IV

TL;DR: 该研究提出了一个基于DenseNet-121的不确定性感知框架,通过熵拒绝和置信区间拒绝两种选择性预测机制,在胸部X光多标签分类中提高模型可靠性,避免过度自信的预测。

  • Motivation: 深度学习模型在医学影像任务中存在过度自信风险,特别是在需要同时检测多种共发病变的胸部X光多标签分类中,不确定的预测可能带来高风险。
  • Method: 使用DenseNet-121作为骨干网络,集成熵基拒绝和置信区间拒绝两种选择性预测机制,采用分位数校准程序调整拒绝阈值,支持全局和类别特定策略。
  • Result: 在三个大型公共数据集上的实验表明,选择性拒绝改善了诊断准确性和覆盖范围之间的权衡,熵基拒绝在所有病理学中获得了最高的平均AUC。
  • Conclusion: 该研究支持将选择性预测整合到AI辅助诊断工作流程中,为深度学习在临床环境中更安全、不确定性感知的部署提供了实用步骤。

cs.GR

[69] Chord: Chain of Rendering Decomposition for PBR Material Estimation from Generated Texture Images

Zhi Ying,Boxiang Rong,Jingyu Wang,Maoyuan Xu

Main category: cs.GR

TL;DR: 提出了一种新颖的两阶段生成-估计框架,用于PBR材质生成,通过微调扩散模型生成可平铺纹理,再通过链式分解方案预测SVBRDF通道,实现了高质量、灵活的用户控制。

  • Motivation: 传统材质创建和重建需要艺术家大量时间和专业知识,现有基于视觉基础模型的方法在质量、灵活性和用户控制方面存在不足。
  • Method: 两阶段框架:1)生成阶段使用微调扩散模型合成着色可平铺纹理;2)估计阶段采用链式分解方案,通过单步图像条件扩散模型顺序预测SVBRDF通道。
  • Result: 在材质生成和估计方面优于现有方法,对生成纹理和真实照片都表现出强鲁棒性,支持文本到材质、图像到材质、结构引导生成和材质编辑等多种应用。
  • Conclusion: 该方法高效、高质量且支持灵活用户控制,为PBR材质生成提供了有效的解决方案。

cs.LG

[70] LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

Jiahao Chen,Zhiyuan Huang,Yurou Liu,Bing Su

Main category: cs.LG

TL;DR: 该论文提出了LoFT框架,通过参数高效微调基础模型来解决长尾半监督学习中的过自信和低质量伪标签问题,并在开放世界场景下扩展为LoFT-OW来处理分布外样本。

  • Motivation: 现有的长尾半监督学习方法大多从零开始训练模型,容易导致过自信和低质量伪标签问题。作者希望利用基础模型微调范式来解决这些问题,并探索更实际的开放世界场景。
  • Method: 提出LoFT框架,通过参数高效微调基础模型来生成更可靠的伪标签;进一步提出LoFT-OW来处理开放世界场景下的分布外样本,提升判别能力。
  • Result: 在多个基准测试中,该方法相比先前方法取得了更优越的性能,即使只使用1%的无标签数据也能达到良好效果。
  • Conclusion: 基于基础模型微调的长尾半监督学习方法能够有效解决传统方法的局限性,在标准设置和开放世界场景下都表现出色,为实际应用提供了有效解决方案。

[71] Adaptive Token Merging for Efficient Transformer Semantic Communication at the Edge

Omar Erak,Omar Alhussein,Hatem Abou-Zeid,Mehdi Bennis,Sami Muhaidat

Main category: cs.LG

TL;DR: 提出一种无需训练的token合并框架,通过自适应合并语义冗余token来压缩transformer表示,在保持精度的同时显著降低计算和通信成本

  • Motivation: 大规模transformer在语义通信中计算和通信成本高昂,难以部署在资源受限的边缘设备上,需要一种无需重新训练的高效压缩方法
  • Method: 基于每层相似度阈值选择性合并语义冗余token,将合并策略发现建模为多目标优化问题,使用贝叶斯优化获得精度、推理成本和通信成本之间的帕累托最优权衡
  • Result: 在ImageNet分类上以30%更少的FLOPs和低于20%的原始通信成本匹配未修改transformer的精度;在VQA任务上以不到三分之一计算量和十分之一带宽达到与完整LLaVA模型竞争的性能
  • Conclusion: 该框架为在资源受限的边缘智能场景中部署强大transformer模型提供了实用且通用的解决方案,具有跨信道条件的鲁棒性和隐私保护优势

cs.RO

[72] HHI-Assist: A Dataset and Benchmark of Human-Human Interaction in Physical Assistance Scenario

Saeed Saadatnejad,Reyhaneh Hosseininejad,Jose Barreiros,Katherine M. Tsui,Alexandre Alahi

Main category: cs.RO

TL;DR: 提出HHI-Assist数据集和基于Transformer的条件去噪扩散模型,用于物理交互场景中的人体运动预测,以提升辅助机器人的安全性和响应能力。

  • Motivation: 劳动力短缺和人口老龄化需要辅助机器人,但物理交互场景中的人体运动预测仍具挑战性,主要由于辅助场景的多样性和耦合动力学的复杂性。
  • Method: 构建HHI-Assist人-人交互动作捕捉数据集,并开发基于条件Transformer的去噪扩散模型来预测交互代理的姿态。
  • Result: 模型有效捕捉了护理者与被护理者之间的耦合动力学,相比基线方法有所改进,并在未见场景中表现出强大的泛化能力。
  • Conclusion: 通过推进交互感知的运动预测和引入新数据集,这项工作有望显著增强机器人辅助策略,数据集和代码已开源。

[73] GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation

Hang Yin,Haoyu Wei,Xiuwei Xu,Wenxuan Guo,Jie Zhou,Jiwen Lu

Main category: cs.RO

TL;DR: 提出了一种无需训练的视觉语言导航框架,通过将导航指令分解为空间约束图并进行优化求解,实现零样本连续环境导航

  • Motivation: 现有零样本VLN方法主要针对离散环境或在连续模拟器中需要无监督训练,难以在真实世界场景中泛化和部署,需要开发真正无需训练且适用于连续环境的框架
  • Method: 将导航指令分解为显式空间约束,构建空间约束库,将人类指令解析为有向无环图,通过约束求解器进行图约束优化确定路径点位置,使用导航树和回溯机制处理无解或多解情况
  • Result: 在标准基准测试中相比最先进的零样本VLN方法在成功率和导航效率方面有显著提升,真实世界实验表明能有效泛化到新环境和指令集
  • Conclusion: 该框架为实现更鲁棒和自主的导航系统铺平了道路,展示了训练free方法在连续环境中的有效性