Skip to content
每日arXiv - 2025年9月17日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Artificial Intelligence in Breast Cancer Care: Transforming Preoperative Planning and Patient Education with 3D Reconstruction

Mustafa Khanbhai,Giulia Di Nardo,Jun Ma,Vivienne Freitas,Caterina Masino,Ali Dolatabadi,Zhaoxun "Lorenz" Liu,Wey Leong,Wagner H. Souza,Amin Madani

Main category: cs.CV

TL;DR: 本研究提出了一种基于U-Mamba架构的人机协同机器学习方法,用于改进3D解剖结构分割和重建算法在乳腺癌及其他医学应用中的泛化能力,取得了优异的分割精度并提升了临床规划和患者教育效果。

  • Motivation: 传统模型在处理多样化数据集时泛化能力不足,需要开发能够准确分割解剖结构并适用于不同成像场景的算法,以支持有效的术前规划。
  • Method: 采用三阶段处理流程:1)对120例回顾性乳腺MRI进行匿名化和手动分割;2)共配准并分割全乳、纤维腺体组织和肿瘤;3)使用ITK-SNAP进行3D可视化。采用人机协同方法,利用U-Mamba架构优化分割结果。
  • Result: U-Mamba模型表现出色:全器官DSC为0.97±0.013,纤维腺体组织为0.96±0.024,肿瘤为0.82±0.12。生成的3D重建能够准确可视化复杂解剖特征,临床访谈显示改善了术前规划、术中导航和决策支持。
  • Conclusion: 这种人机协同机器学习方法成功实现了跨患者数据集的算法泛化,为临床医生提供了增强的可视化工具,改善了术前规划,并通过3D可视化增强了患者教育和沟通效果,促进了共同决策。

[2] RU-Net for Automatic Characterization of TRISO Fuel Cross Sections

Lu Cai,Fei Xu,Min Xian,Yalei Tang,Shoukun Sun,John Stempien

Main category: cs.CV

TL;DR: 使用卷积神经网络自动分割TRISO颗粒燃料的微观图像层,以替代人工分析,提高效率和客观性

  • Motivation: TRISO颗粒燃料在辐照过程中会出现内核膨胀和缓冲层致密化等现象,传统人工显微镜分析数千个颗粒既繁琐又主观,需要自动化解决方案
  • Method: 构建包含2000多张辐照TRISO颗粒微观图像的数据集,使用RU-Net、U-Net、ResNet和Attention U-Net等CNN架构进行自动图像分割
  • Result: 基于RU-Net的模型在交并比(IoU)指标上表现最佳,能够显著加速TRISO颗粒截面分析并提高分割结果的客观性
  • Conclusion: 卷积神经网络可以有效自动化TRISO燃料颗粒的微观图像分析,减少人工劳动并提高分析结果的客观性和效率

[3] Modular, On-Site Solutions with Lightweight Anomaly Detection for Sustainable Nutrient Management in Agriculture

Abigail R. Cohen,Yuming Sun,Zhihao Qin,Harsh S. Muriki,Zihao Xiao,Yeonju Lee,Matthew Housley,Andrew F. Sharkey,Rhuanito S. Ferrarezi,Jing Li,Lu Gan,Yongsheng Chen

Main category: cs.CV

TL;DR: 本研究提出了一种分层管道,用于作物营养异常检测和状态估计,结合自动编码器进行早期预警,并比较了不同复杂度的植被指数和视觉变换器方法,在效率和准确性之间取得平衡。

  • Motivation: 当前营养管理方法需要冗长分析,无法实时优化;成像技术虽然快速但计算密集,难以在资源受限环境下部署。需要开发灵活高效的方法来实现实时作物监测和营养管理。
  • Method: 使用多光谱成像技术,构建分层管道:1)用自动编码器进行异常检测和早期预警;2)比较两种状态估计模块:基于植被指数的随机森林方法和基于原始图像的视觉变换器深度学习方法。实验设置三种施肥处理(100%、50%、25%肥料强度)。
  • Result: 高效异常检测(移植后9天检测出73%的T3样本),能耗远低于浪费氮素的蕴含能量。状态估计显示权衡关系:ViT在磷和钙估计上表现更好(R² 0.61 vs 0.58,0.48 vs 0.35),但能耗更高。
  • Conclusion: 该模块化管道为边缘诊断和农业可持续发展提供了实用机会,实现了效率与准确性之间的平衡,支持实时作物营养监测和优化。

[4] Humor in Pixels: Benchmarking Large Multimodal Models Understanding of Online Comics

Yuriel Ryan,Rui Yang Tan,Kenny Tsu Wei Choo,Roy Ka-Wei Lee

Main category: cs.CV

TL;DR: PixelHumor是一个包含2800个标注多格漫画的基准数据集,用于评估大型多模态模型理解多模态幽默和识别叙事序列的能力。实验显示当前最先进模型在面板排序任务上仅达到61%准确率,远低于人类表现,揭示了模型在整合视觉和文本线索进行连贯叙事和幽默理解方面的严重局限性。

  • Motivation: 幽默理解是社会智能的核心方面,但对大型多模态模型(LMMs)仍是一个重大挑战。现有模型在多模态幽默理解和叙事推理方面存在明显不足,需要专门的评估框架来推动模型发展。
  • Method: 构建PixelHumor基准数据集,包含2800个标注的多格漫画,设计实验评估LMMs在多模态幽默理解和面板排序任务上的表现,并与人类性能进行对比。
  • Result: 实验结果显示,最先进的LMMs在面板排序任务上仅达到61%的准确率,远低于人类表现水平,表明当前模型在整合视觉和文本线索进行连贯叙事和幽默理解方面存在显著差距。
  • Conclusion: PixelHumor为评估多模态上下文和叙事推理提供了一个严谨框架,旨在推动开发能够更好地参与自然、具有社会意识交互的LMMs,当前模型的局限性凸显了该领域需要进一步研究和发展。

[5] OnlineHOI: Towards Online Human-Object Interaction Generation and Perception

Yihong Ji,Yunze Liu,Yiyao Zhuo,Weijiang Yu,Fei Ma,Joshua Huang,Fei Yu

Main category: cs.CV

TL;DR: 本文提出了在线人-物交互(HOI)生成与感知任务,并开发了基于Mamba框架的OnlineHOI方法,在流式数据处理中实现了最先进的性能。

  • Motivation: 当前HOI方法都是离线设置,可以从整个交互序列获取信息,但现实场景中只能获取当前时刻和历史数据。离线方法在在线场景中表现不佳,因此需要专门针对在线设置的新方法。
  • Method: 提出了OnlineHOI框架,基于Mamba框架构建网络架构,采用记忆机制。利用Mamba对流式数据的强大建模能力和记忆机制对历史信息的高效整合。
  • Result: 在Core4D和OAKINK2在线生成任务以及在线HOI4D感知任务上取得了最先进的结果。
  • Conclusion: 在线HOI处理是一个重要但被忽视的问题,提出的OnlineHOI框架通过结合Mamba和记忆机制,在在线设置下显著提升了HOI生成和感知的性能。

[6] EfficientNet-Based Multi-Class Detection of Real, Deepfake, and Plastic Surgery Faces

Li Kun,Milena Radenkovic

Main category: cs.CV

TL;DR: 本文分析了深度学习技术特别是Deepfake技术对社会的影响,探讨了其在隐私、声誉和国家安全方面的风险。

  • Motivation: 随着深度学习技术在各个领域的广泛应用,特别是Deepfake技术的发展,对社会产生了深远影响。本文旨在分析这些技术的双面性,重点关注其负面社会影响。
  • Method: 通过文献综述和分析,探讨深度学习技术特别是Deepfake技术的应用现状、技术原理及其对社会各层面的影响。
  • Result: 研究发现Deepfake技术能够生成难以辨别的伪造图像和视频,对个人隐私、名人声誉、政治选举和国家安全构成严重威胁,可能破坏面部识别系统的功能。
  • Conclusion: 深度学习技术特别是Deepfake技术虽然具有革命性潜力,但其滥用对社会造成了多方面的负面影响,需要加强监管和技术防范措施。

[7] A Modern Look at Simplicity Bias in Image Classification Tasks

Xiaoguang Chang,Teng Wang,Changyin Sun

Main category: cs.CV

TL;DR: 本文研究了CLIP模型中的简单性偏置(SB)与图像分类任务性能的关系,提出了频率感知的SB测量方法,并发现SB强度与不同任务性能存在相关性。

  • Motivation: 神经网络简单性偏置对泛化能力很重要,但现有研究主要关注小模型或合成任务,缺乏对大模型SB的测量方法及其在实际图像分类任务中影响的研究。
  • Method: 理论分析现有复杂度测量方法的局限性,提出频率感知的SB测量方法,在CLIP模型上验证该方法,并研究SB与多种图像分类任务性能的关系。
  • Result: 提出的频率感知SB测量方法比现有方法更具信息性和一致性;发现更强的SB与OOD泛化性能正相关,但与对抗鲁棒性表现不同。
  • Conclusion: 模型归纳偏置与目标任务特性的对齐很重要,SB强度应根据具体任务需求进行调整,频率感知测量方法为研究大模型SB提供了有效工具。

[8] GraphDerm: Fusing Imaging, Physical Scale, and Metadata in a Population-Graph Classifier for Dermoscopic Lesions

Mehdi Yousefzadeh,Parsa Esfahanian,Sara Rashidifar,Hossein Salahshoor Gavalan,Negar Sadat Rafiee Tabatabaee,Saeid Gorgin,Dara Rahmati,Maryam Daneshpazhooh

Main category: cs.CV

TL;DR: GraphDerm是一个基于群体图框架的皮肤镜图像分类系统,融合了图像、毫米级校准和元数据,在ISIC数据集上实现了优于纯图像方法的性能

  • Motivation: 现有的皮肤镜AI系统通常只使用图像数据,忽略了患者元数据(年龄、性别、部位)和物理尺度信息,而这些信息对于几何分析至关重要
  • Method: 使用U-Net进行病变和标尺分割,通过轻量级1D-CNN回归像素-毫米比例,计算真实尺度描述符,构建包含图像特征、元数据和几何相似性的图神经网络进行半监督节点分类
  • Result: 标尺和病变分割Dice分别达到0.904和0.908,尺度回归MAE为1.5像素。图模型AUC达到0.9812,稀疏版本使用约25%边仍保持0.9788 AUC,显著优于纯图像基线的0.9440
  • Conclusion: 将校准尺度、病变几何和元数据统一在群体图中相比纯图像流程有显著提升,稀疏图保持接近最优精度,尺度感知的图AI是皮肤镜决策支持的有前景方向

[9] PATIMT-Bench: A Multi-Scenario Benchmark for Position-Aware Text Image Machine Translation in Large Vision-Language Models

Wanru Zhuang,Wenbo Li,Zhibin Lan,Xu Han,Peng Li,Jinsong Su

Main category: cs.CV

TL;DR: 该论文将传统文本图像机器翻译扩展为位置感知的TIMT(PATIMT),支持细粒度和保持布局的翻译,并构建了包含10个真实场景的基准测试集PATIMTBench。

  • Motivation: 当前TIMT研究主要关注图像中所有文本的翻译,忽略了提供边界框和覆盖有限场景的问题,需要支持细粒度、保持布局的翻译任务。
  • Method: 提出位置感知TIMT任务,包含区域特定翻译和带定位的全图像翻译两个子任务;构建PATIMTBench基准,采用自适应图像OCR精炼管道选择合适OCR工具;使用紧凑大型视觉语言模型进行微调。
  • Result: 经过数据微调后,紧凑型大型视觉语言模型在两个子任务上都达到了最先进的性能,实验结果表明训练数据具有良好的可扩展性和泛化性。
  • Conclusion: PATIMT任务具有重要实用价值,提出的方法和基准测试集为细粒度文本图像翻译提供了有效解决方案,证明了紧凑模型在该任务上的优越性能。

[10] Domain Adaptive SAR Wake Detection: Leveraging Similarity Filtering and Memory Guidance

He Gao,Baoxiang Huang,Milena Radenkovic,Borui Li,Ge Chen

Main category: cs.CV

TL;DR: 提出SimMemDA框架解决SAR与光学图像间的跨模态域适应问题,通过相似性引导和记忆引导机制提升船尾迹检测的准确性和鲁棒性

  • Motivation: SAR图像具有全天候观测能力但特征抽象噪声多,光学图像视觉线索清晰但存在域偏移问题,需要解决跨模态域适应挑战
  • Method: 使用WakeGAN进行风格迁移生成伪SAR图像,设计实例级特征相似性过滤机制,引入特征-置信度记忆库和K近邻置信度加权融合策略,结合区域混合训练
  • Result: 实验结果表明SimMemDA方法能够提高跨模态船尾迹检测任务的准确性和鲁棒性
  • Conclusion: 该方法有效解决了光学到SAR图像的域适应问题,验证了所提框架的有效性和可行性

[11] Uncertainty-Aware Hourly Air Temperature Mapping at 2 km Resolution via Physics-Guided Deep Learning

Shengjie Kris Liu,Siqin Wang,Lu Zhang

Main category: cs.CV

TL;DR: 提出Amplifier Air-Transformer方法,通过深度学习结合物理机制,生成美国本土2km分辨率小时级气温数据,精度达1.93°C

  • Motivation: 现有气象站提供连续监测但空间覆盖有限,卫星提供广域覆盖但无法提供无缝时空数据,需要融合两者优势实现高时空分辨率气温监测
  • Method: 使用编码年温度周期的神经网络重建被云遮挡的GOES-16地表温度数据,通过线性放大和卷积层捕捉时空变化;再用神经网络将重建的地表温度转换为气温;采用深度集成学习进行不确定性估计
  • Result: 基于77.7亿个地表温度像素和1.55亿个气象站气温记录(2018-2024),在站点验证中达到1.93°C的小时气温制图精度
  • Conclusion: 该方法简化了地表温度重建和气温预测流程,可扩展到其他卫星数据源,实现高时空分辨率无缝气温监测

[12] DS@GT AnimalCLEF: Triplet Learning over ViT Manifolds with Nearest Neighbor Classification for Animal Re-identification

Anthony Miyaguchi,Chandrasekaran Maruthaiyannan,Charles R. Clark

Main category: cs.CV

TL;DR: 本文研究发现,在动物重识别任务中,后处理度量学习的效果高度依赖于骨干网络嵌入的初始质量和领域特异性。领域专用模型比通用模型更适合细粒度重识别任务。

  • Motivation: 探索在动物重识别任务中,通用预训练模型与领域专用模型在后处理度量学习中的表现差异,以及度量学习对这两种模型的影响程度。
  • Method: 使用DINOv2(通用模型)和MegaDescriptor(领域专用模型)作为骨干网络,采用K近邻分类器进行个体识别,并比较使用三元组学习投影头前后的性能变化。
  • Result: 三元组学习对领域专用模型提升显著(0.13分),但对通用模型提升有限(0.03分)。通用模型的流形结构更难为细粒度任务重塑,验证损失停滞不前。
  • Conclusion: 通用预训练特征在专业化、数据有限的重新识别任务中存在关键局限性,领域特异性预训练对于此类任务至关重要。

[13] GhostNetV3-Small: A Tailored Architecture and Comparative Study of Distillation Strategies for Tiny Images

Florian Zager,Hamza A. A. Gardi

Main category: cs.CV

TL;DR: GhostNetV3-Small在CIFAR-10上达到93.94%准确率,优于原版GhostNetV3。研究发现架构适配比知识蒸馏更有效,所有蒸馏策略反而降低了准确率。

  • Motivation: 解决深度神经网络在资源受限边缘设备上的部署问题,探索模型压缩和适配策略,特别针对低分辨率输入场景。
  • Method: 提出GhostNetV3-Small架构适配低分辨率输入,并比较了传统知识蒸馏、教师助理和教师集成等多种蒸馏技术。
  • Result: GhostNetV3-Small在CIFAR-10上表现显著优于原版,准确率达93.94%。所有蒸馏策略都导致准确率下降,不如基线训练。
  • Conclusion: 在小规模图像分类任务中,架构适配比知识蒸馏更具影响力,需要在低分辨率领域进一步研究有效的模型设计和先进蒸馏技术。

[14] From Orthomosaics to Raw UAV Imagery: Enhancing Palm Detection and Crown-Center Localization

Rongkun Zhu,Kangning Cui,Wei Tang,Rui-Feng Wang,Sarra Alqahtani,David Lutz,Fan Yang,Paul Fine,Jordan Karubian,Robert Plemmons,Jean-Michel Morel,Victor Pauca,Miles Silman

Main category: cs.CV

TL;DR: 本研究探讨了使用原始无人机影像进行热带森林棕榈树检测和冠层中心定位,发现原始影像在实际部署中表现更优,而正射影像在跨域泛化方面更有价值,冠层中心标注能进一步提高定位精度。

  • Motivation: 准确绘制单棵树分布图对生态监测和森林管理至关重要。虽然无人机正射影像被广泛使用,但拼接伪影和繁重的预处理限制了其野外部署适用性。
  • Method: 使用最先进的检测器和关键点模型,比较正射影像和原始影像在棕榈树检测和冠层中心定位方面的性能,包括域内和跨域迁移,并评估冠层中心标注对定位精度的提升效果。
  • Result: 原始影像在部署相关场景中表现更优,而正射影像在跨域泛化方面更具鲁棒性。加入冠层中心标注训练能显著提高定位精度,为下游生态分析提供精确的树木位置。
  • Conclusion: 研究结果为基于无人机的生物多样性和保护监测提供了实用指导,推荐在实地部署中使用原始影像并结合冠层中心标注来获得最佳定位效果。

[15] DYNAMO: Dependency-Aware Deep Learning Framework for Articulated Assembly Motion Prediction

Mayank Patel,Rahul Jain,Asim Unmesh,Karthik Ramani

Main category: cs.CV

TL;DR: 提出了MechBench数据集和DYNAMO模型,用于从CAD点云预测齿轮组件的运动轨迹,解决了机械装配中几何耦合运动推理的挑战。

  • Motivation: 现有方法主要处理简化运动结构的日常铰接物体,但机械装配(如齿轮)的运动来自几何耦合(啮合齿或对齐轴),难以仅从几何形状推理关系运动。
  • Method: 创建包含693个合成齿轮组件的MechBench数据集,并提出DYNAMO依赖感知神经网络模型,直接从分割的CAD点云预测每个部件的SE(3)运动轨迹。
  • Result: 实验表明DYNAMO优于强基线方法,在不同齿轮配置下实现了准确且时间一致的运动预测。
  • Conclusion: MechBench和DYNAMO共同建立了一个新颖的系统框架,用于CAD装配中耦合机械运动的数据驱动学习。

[16] Cott-ADNet: Lightweight Real-Time Cotton Boll and Flower Detection Under Field Conditions

Rui-Feng Wang,Mingrui Xu,Matthew C Bauer,Iago Beffart Schardong,Xiaowen Ma,Kangning Cui

Main category: cs.CV

TL;DR: Cott-ADNet是一个轻量级实时棉花铃花检测器,基于YOLOv11n改进,在复杂田间条件下实现高精度检测,为自动化棉花采摘提供可靠基础。

  • Motivation: 棉花采摘依赖人工,效率低且易错过最佳收获期,需要准确的棉花铃花识别技术来实现自动化采摘、产量估算和育种研究。
  • Method: 基于YOLOv11n构建,改进卷积设计增强空间表示和鲁棒性,引入NeLU增强全局注意力机制捕获弱特征和低对比度特征,以及扩张感受野SPPF模块以低成本扩展感受野进行多尺度上下文建模。
  • Result: 在4,966张标注图像数据集上,Cott-ADNet达到91.5%精确率、89.8%召回率、93.3% mAP50、71.3% mAP和90.6% F1分数,仅需7.5 GFLOPs,在多尺度和旋转变化下保持稳定性能。
  • Conclusion: Cott-ADNet是准确高效的田间部署解决方案,为自动化棉花采摘和高通量表型分析提供了可靠基础,代码和数据集已开源。

[17] Deep learning for 3D point cloud processing -- from approaches, tasks to its implications on urban and environmental applications

Zhenxin Zhang,Zhihua Xu,Yuwei Cao,Ningli Xu,Shuye Wang,Shen'ao Cui,Zhen Li,Rongjun Qin

Main category: cs.CV

TL;DR: 本文对深度学习在点云处理中的应用进行了元综述,重点关注实际应用价值而非网络架构,分析了场景补全、配准、语义分割等关键任务在真实世界应用中的差距。

  • Motivation: 现有综述主要关注适应无序点云的网络架构更新,忽视了点云处理算法在实际应用中的实用价值,包括超大数据量、多样化场景内容、变化点密度和多模态数据等实际问题。
  • Method: 通过元综述方法,系统回顾深度学习方法和数据集,涵盖场景补全、配准、语义分割和建模等关键点云处理任务,并分析这些任务在城市场景和环境应用中的支持能力。
  • Result: 识别了深度学习点云处理方法在转化为实际应用时需要解决的关键差距,包括算法性能和实际应用需求之间的不匹配问题。
  • Conclusion: 从算法和实际应用两个角度总结了调查结果,指出了当前方法在向真实世界实践转化过程中需要关注的关键问题和未来发展方向。

[18] Two-Stage Decoupling Framework for Variable-Length Glaucoma Prognosis

Yiran Song,Yikai Zhang,Silvia Orengo-Nania,Nian Wang,Fenglong Ma,Rui Zhang,Yifan Peng,Mingquan Lin

Main category: cs.CV

TL;DR: 提出两阶段解耦框架TSDF用于可变长度青光眼预后预测,通过自监督学习和注意力机制解决数据量有限和输入长度固定的问题

  • Motivation: 青光眼是全球不可逆失明的主要原因,现有方法受限于固定长度输入和数据量不足,需要更灵活高效的预后预测方法
  • Method: 两阶段框架:第一阶段使用自监督学习聚合多个数据集学习特征表示;第二阶段使用基于注意力的时序聚合模块处理可变长度序列输入
  • Result: 在OHTS和GRAPE两个不同规模和临床环境的基准数据集上验证了方法的有效性和鲁棒性,显著提升模型性能同时保持参数紧凑
  • Conclusion: TSDF框架能够有效利用多源青光眼数据,处理可变长度序列输入,为青光眼预后预测提供了灵活高效的解决方案

[19] Image Tokenizer Needs Post-Training

Kai Qiu,Xiang Li,Hao Chen,Jason Kuen,Xiaohao Xu,Jiuxiang Gu,Yinyi Luo,Bhiksha Raj,Zhe Lin,Marios Savvides

Main category: cs.CV

TL;DR: 本文提出了一种新的tokenizer训练方案,包括主训练和后训练,通过模拟生成过程中的采样噪声和优化解码器,显著提升了生成质量和收敛速度。

  • Motivation: 当前图像生成模型在预构建的潜在空间中捕获图像分布,但重建分布与生成分布之间存在显著差异。现有tokenizer只关注重建任务,未考虑生成过程中的采样误差。
  • Method: 提出主训练和后训练两阶段方案:主训练采用潜在扰动策略模拟采样噪声,提升tokenizer鲁棒性;后训练针对训练好的生成模型优化tokenizer解码器,减小生成与重建token的分布差异。
  • Result: 使用约4亿参数的生成器,经过主训练的离散tokenizer达到1.60 gFID,后训练后进一步提升至1.36 gFID。实验验证了该方法对离散和连续tokenizer以及自回归和扩散生成器的有效性。
  • Conclusion: 提出的tokenizer训练方案有效解决了重建与生成分布差异问题,显著提升了生成质量,并提出了新的评估指标pFID成功关联tokenizer性能与生成质量。

[20] Towards Foundational Models for Single-Chip Radar

Tianshu Huang,Akarsh Prabhakara,Chuhan Chen,Jay Karhade,Deva Ramanan,Matthew O'Toole,Anthony Rowe

Main category: cs.CV

TL;DR: 提出了一个基于100万样本的大型毫米波雷达数据集和通用雷达变换器(GRT)基础模型,能够实现高质量的3D占用和语义分割,性能接近高分辨率传感器

  • Motivation: 毫米波雷达虽然成本低、耐用且不受环境条件影响,但角分辨率较差。现有方法缺乏标准化的基础模型和大规模数据集,通常需要从头训练特定任务模型
  • Method: 收集了100万个原始雷达样本(29小时),训练了4D单芯片雷达的基础模型GRT,使用原始雷达数据而非有损表示,并进行了广泛的设计消融实验
  • Result: GRT能够泛化到不同场景,可微调用于不同任务,每10倍数据量性能提升20%。使用原始数据相当于增加10倍训练数据,估计需要约1亿样本(3000小时)才能充分发挥GRT潜力
  • Conclusion: 大规模原始雷达数据和基础模型方法能够显著提升毫米波雷达感知性能,为雷达感知领域提供了重要的数据集和模型基准

[21] Evaluating Robustness of Vision-Language Models Under Noisy Conditions

Purushoth,Alireza

Main category: cs.CV

TL;DR: 该研究提出了一个全面的评估框架,用于测试多种最先进的视觉语言模型在受控扰动下的性能表现,包括光照变化、运动模糊和压缩伪影等噪声条件。

  • Motivation: 尽管视觉语言模型在多模态任务中取得了显著成功,但其在噪声条件下的鲁棒性仍未被充分了解,需要系统性的评估来理解模型在不同噪声环境下的表现。
  • Method: 使用受控扰动(光照变化、运动模糊、压缩伪影)对多个SOTA VLMs进行测试,采用基于词汇的指标(BLEU、METEOR、ROUGE、CIDEr)和基于神经网络的句子嵌入相似度度量来量化语义对齐。
  • Result: 实验发现:1)真实标注的描述性显著影响模型性能;2)大型模型如LLaVA在语义理解方面表现优异但并非在所有方面都优于小型模型;3)某些噪声类型(如JPEG压缩和运动模糊)会显著降低所有模型的性能。
  • Conclusion: 研究揭示了模型大小、数据集特征和噪声鲁棒性之间的微妙权衡关系,为未来鲁棒多模态学习提供了标准化基准。

[22] Instance-Guided Class Activation Mapping for Weakly Supervised Semantic Segmentation

Ali Torabi,Sanjog Gaihre,MD Mahbubur Rahman,Yaqoob Majeed

Main category: cs.CV

TL;DR: IG-CAM是一种新的弱监督语义分割方法,通过实例引导和影响函数集成,在仅使用图像级标注的情况下实现了高质量的边界感知定位,在PASCAL VOC 2012上达到86.6%的mIoU。

  • Motivation: 解决现有弱监督语义分割方法在对象边界定位不精确和仅关注最具判别性区域的问题,避免昂贵的像素级标注需求。
  • Method: 提出IG-CAM方法,包含三个关键创新:实例引导细化、影响函数集成和多尺度边界增强,利用实例级线索和影响函数生成高质量定位图。
  • Result: 在PASCAL VOC 2012数据集上达到82.3% mIoU(后处理前)和86.6% mIoU(CRF后处理后),显著优于现有方法,展示了优异的定位精度和完整对象覆盖。
  • Conclusion: IG-CAM为弱监督语义分割设立了新的基准,为缺乏像素级标注的场景提供了实用解决方案,具有优异的泛化能力和计算效率。

[23] Artist-Created Mesh Generation from Raw Observation

Yao He,Youngjoong Kwon,Wenxiao Cai,Ehsan Adeli

Main category: cs.CV

TL;DR: 提出端到端框架,从噪声或不完整点云生成艺术家风格网格,通过2D修复任务重新定义3D点云细化

  • Motivation: 艺术家创建的网格对商业图形流水线至关重要,但现有方法假设输入干净完整或依赖复杂多阶段流程,限制了实际应用
  • Method: 端到端方法,将3D点云细化重新定义为2D修复任务,利用强大生成模型直接生成高质量网格
  • Result: 在ShapeNet数据集上的初步结果显示能够生成干净完整的网格
  • Conclusion: 该框架在从真实传感器数据生成艺术家风格网格方面展现出潜力

[24] Axis-Aligned 3D Stalk Diameter Estimation from RGB-D Imagery

Benjamin Vail,Rahul Harsha Cheppally,Ajay Sharda,Sidharth Rai

Main category: cs.CV

TL;DR: 提出了一种基于RGB-D图像的几何感知计算机视觉管道,用于从玉米茎秆图像中自动估计茎秆直径,解决了传统测量方法劳动密集、易出错的问题。

  • Motivation: 传统茎秆直径测量方法劳动密集、易出错,无法满足现代作物育种项目对高通量表型分析的需求,特别是在机械稳定性、生物量生产和抗病性等性状改良方面。
  • Method: 集成深度学习实例分割、3D点云重建和基于主成分分析(PCA)的轴对齐切片技术,通过几何感知方法减轻曲率、遮挡和图像噪声的影响。
  • Result: 开发了一个可扩展且可靠的茎秆直径估计解决方案,能够支持育种和农学研究中的高通量表型分析。
  • Conclusion: 该几何感知计算机视觉管道为作物茎秆直径测量提供了自动化、高精度的替代方案,有望显著提高表型分析的效率和准确性。

[25] Neural Collapse-Inspired Multi-Label Federated Learning under Label-Distribution Skew

Can Peng,Yuyuan Liu,Yingyu Yang,Pramit Saha,Qianye Yang,J. Alison Noble

Main category: cs.CV

TL;DR: 提出一种基于神经崩溃理论的多标签联邦学习方法,通过特征解耦和预定义NC结构来应对数据异构性和标签分布倾斜问题

  • Motivation: 联邦学习中多标签场景下数据异构性导致性能下降,现有研究主要关注单标签分类,而医疗影像等实际应用多为多标签设置
  • Method: 引入特征解耦模块提取语义特定特征,通过预定义共享NC结构指导类特征聚类,设计正则化损失促进潜在特征空间中的紧凑聚类
  • Result: 在四个基准数据集和八种不同设置下的实验表明,该方法优于现有方法
  • Conclusion: 该方法有效解决了多标签联邦学习中的数据异构性问题,通过NC结构和特征解耦实现了更好的特征表示学习

[26] Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection

Yingxin Lai,Zitong Yu,Jun Wang,Linlin Shen,Yong Xu,Xiaochun Cao

Main category: cs.CV

TL;DR: 该论文提出了Agent4FaceForgery多智能体框架,通过LLM驱动的智能体模拟人类伪造意图和迭代过程,生成具有文本-图像一致性标签的伪造数据,解决了人脸伪造检测中训练数据生态无效性的问题。

  • Motivation: 解决人脸伪造检测中离线基准与真实世界效果之间的差距,主要原因是训练数据的生态无效性,无法捕捉人类伪造的多样意图和迭代过程,以及社交媒体中复杂的文本-图像交互。
  • Method: 提出多智能体框架,LLM驱动的智能体配备配置文件记忆模块,模拟伪造创建过程;在模拟社交环境中交互生成样本,标注细致的文本-图像一致性;采用自适应拒绝采样(ARS)机制确保数据质量和多样性。
  • Result: 大量实验验证,通过模拟驱动方法生成的数据为多种架构的检测器带来显著性能提升,充分证明了框架的有效性和价值。
  • Conclusion: Agent4FaceForgery框架成功解决了人脸伪造检测中的生态无效性问题,通过模拟人类伪造过程和复杂交互,生成了高质量的训练数据,显著提升了检测器性能。

[27] Explicit Multimodal Graph Modeling for Human-Object Interaction Detection

Wenxuan Ji,Haichao Shi,Xiao-Yu zhang

Main category: cs.CV

TL;DR: 本文提出MGNM方法,利用图神经网络显式建模人-物交互关系,通过多模态图网络框架和多层次特征交互机制,在HOI检测任务上取得SOTA性能

  • Motivation: Transformer方法在HOI检测中占主导地位,但无法显式建模关系结构,而图神经网络天生适合处理关系建模,因此提出基于GNN的解决方案
  • Method: 设计四阶段图结构的多模态图网络框架,引入多层次视觉和语言特征交互机制,增强人-物对之间的信息传播
  • Result: 在HICO-DET和V-COCO基准测试中达到最先进性能,与更先进的目标检测器结合时性能显著提升,并在稀有和非稀有类别间保持有效平衡
  • Conclusion: MGNM方法通过显式的关系结构建模和多模态特征交互,有效提升了HOI检测性能,证明了图神经网络在该任务中的优势

[28] VQT-Light:Lightweight HDR Illumination Map Prediction with Richer Texture.pdf

Kunliang Xie

Main category: cs.CV

TL;DR: VQT-Light是一个基于VQVAE和ViT架构的轻量级光照估计框架,通过将光照估计转化为多分类任务,实现了40FPS的推理速度,在纹理细节和保真度方面优于现有方法。

  • Motivation: 现有光照估计方法要么难以恢复光照图的详细纹理,要么在运行速度和纹理保真度方面面临挑战。需要一种既能保持轻量快速又能提供高质量纹理细节的解决方案。
  • Method: 提出VQT-Light框架,包含特征提取和光照估计两个模块:1)使用VQVAE提取光照图的离散特征以避免"后验坍塌";2)使用ViT而非CNN捕获输入图像的全局上下文和依赖关系,以改善视野外光照的预测;3)将光照估计制定为多分类任务。
  • Result: 模型能够预测具有更丰富纹理和更好保真度的光照图,同时保持轻量快速,达到40FPS的推理速度,并在多个评估指标上有所提升。
  • Conclusion: 定性和定量实验表明,该方法相比现有最先进方法实现了优越的结果,在光照估计任务中取得了更好的性能和效率平衡。

[29] Adaptive Sampling Scheduler

Qi Wang,Shuliang Zhu,Jinjia Zhou

Main category: cs.CV

TL;DR: 本文提出了一种适用于各种一致性蒸馏框架的自适应采样调度器,通过动态目标时间步选择、优化交替采样和稳定化技术,显著提升了扩散模型的采样效率和生成质量。

  • Motivation: 现有的一致性蒸馏方法在目标时间步选择上主要依赖确定性或随机策略,需要为不同蒸馏过程专门设计采样调度器,限制了扩散模型在实际应用中的采样灵活性和潜力。
  • Method: 提出自适应采样调度器,包含三个创新策略:(1)动态目标时间步选择,基于计算的重要性自适应选择时间步;(2)优化交替采样,基于时间步重要性指导前向去噪和后向加噪;(3)使用平滑裁剪和颜色平衡技术实现稳定高质量生成。
  • Result: 通过综合实验评估验证了自适应采样调度器在各种一致性蒸馏方法中的有效性和灵活性,实验结果表明生成性能显著提升,方法具有很强的适应性。
  • Conclusion: 所提出的自适应采样调度器能够有效克服现有方法的局限性,为一致性蒸馏框架提供了通用的采样解决方案,在复杂生成场景中展现出优异的性能和应用潜力。

[30] DisorientLiDAR: Physical Attacks on LiDAR-based Localization

Yizhen Lao,Yu Zhang,Ziting Wang,Chengbo Wang,Yifei Xue,Wanpeng Shao

Main category: cs.CV

TL;DR: 针对LiDAR定位的新型对抗攻击框架DisorientLiDAR,通过逆向工程定位模型识别关键点并策略性移除,显著降低点云配准精度和自动驾驶定位稳定性。

  • Motivation: 深度学习模型易受视觉不可察觉的对抗攻击影响,但针对自动驾驶定位系统的攻击研究较少,大多数对抗攻击集中在3D感知领域,存在严重的安全挑战。
  • Method: 通过逆向工程定位模型(如特征提取网络)识别关键关键点,策略性移除包含Top-K关键点的区域,使用近红外吸收材料在物理世界隐藏关键区域。
  • Result: 在KITTI数据集上对三种最先进点云配准模型(HRegNet、D3Feat、GeoTransformer)的评估显示,移除关键区域显著降低配准精度;在Autoware平台上隐藏少量关键区域即可引起明显定位漂移;物理世界攻击成功复现了KITTI数据中的攻击效果。
  • Conclusion: 该研究证明了针对LiDAR定位系统的对抗攻击的有效性和通用性,通过物理世界实施验证了攻击的真实性,为自动驾驶安全提供了重要警示。

[31] Exploring Spectral Characteristics for Single Image Reflection Removal

Pengbo Guo,Chengxu Liu,Guoshuai Zhao,Xingsong Hou,Jialie Shen,Xueming Qian

Main category: cs.CV

TL;DR: 提出基于光谱学习的反射去除方法,通过光谱码本重建反射图像的光学光谱,利用波长差异区分反射,并结合光谱感知Transformer在光谱和像素域联合恢复透射内容。

  • Motivation: 现有反射去除方法仅关注图像域,忽略了反射光的光谱特性变化,无法有效区分反射。需要从光谱学习的新视角解决反射与透射分量重叠的问题。
  • Method: 提出光谱码本重建反射图像的光学光谱,设计两个光谱先验细化模块在空间维度重新分配像素并在波长维度自适应增强光谱差异,使用光谱感知Transformer在光谱和像素域联合恢复。
  • Result: 在三个不同的反射基准测试上实验结果表明,该方法相比最先进模型具有优越性和泛化能力。
  • Conclusion: 通过光谱学习的新视角,提出的光谱码本和光谱感知Transformer能够有效区分和去除反射,在反射去除任务上取得了显著改进。

[32] Maps for Autonomous Driving: Full-process Survey and Frontiers

Pengxin Chen,Zhipeng Luo,Xiaoqi Jiang,Zhangcai Yin,Jonathan Li

Main category: cs.CV

TL;DR: 本文综述了自动驾驶地图的演进历程,分为高清地图、轻量级地图和隐式地图三个阶段,分析了各阶段的生产流程、技术挑战及解决方案,并探讨了地图表示的前沿研究与端到端自动驾驶框架的集成。

  • Motivation: 随着自动驾驶技术的发展,地图的表示和生产方式经历了重大变革。为了系统理解这一演进过程并为未来研究提供指导,需要对地图技术的发展阶段、技术挑战和解决方案进行全面梳理。
  • Method: 采用文献综述方法,将地图演进分为三个阶段进行系统分析:高清地图(HD maps)、轻量级地图(Lite maps)和隐式地图(Implicit maps)。对每个阶段详细分析地图生产工作流程、技术挑战,并总结学术界提出的相关解决方案。
  • Result: 系统梳理了地图技术发展的三个主要阶段及其特征,识别了各阶段的关键技术挑战,汇总了相应的学术解决方案,并探讨了前沿地图表示方法如何与端到端自动驾驶框架集成。
  • Conclusion: 地图技术在自动驾驶领域持续演进,从传统高清地图到轻量级地图再到隐式地图,体现了向更高效、更灵活方向发展的趋势。未来地图技术需要更好地与端到端自动驾驶系统融合,以支持更智能的驾驶决策。

[33] CIARD: Cyclic Iterative Adversarial Robustness Distillation

Liming Lu,Shuchao Pang,Xu Zheng,Xiang Gu,Anan Du,Yunhuai Liu,Yongbin Zhou

Main category: cs.CV

TL;DR: 提出CIARD方法解决对抗鲁棒性蒸馏中双教师框架的优化目标冲突问题,通过多教师对比推拉损失对齐和连续对抗重训练,在保持鲁棒性的同时提升干净样本准确率

  • Motivation: 现有对抗鲁棒性蒸馏方法虽然能增强学生模型的鲁棒性,但会导致干净样本性能下降,主要原因是双教师模型的优化目标分歧和迭代生成的对抗样本导致鲁棒教师性能退化
  • Method: 提出循环迭代ARD方法(CIARD),包含多教师框架对比推拉损失对齐来解决双教师优化目标冲突,以及连续对抗重训练来维持动态教师鲁棒性
  • Result: 在CIFAR-10、CIFAR-100和Tiny-ImageNet上实验表明,CIARD在各种攻击场景下平均提升3.53%的对抗防御率,干净样本准确率提升5.87%
  • Conclusion: CIARD在平衡模型鲁棒性和泛化能力方面建立了新的基准,有效解决了传统ARD方法的性能退化问题

[34] Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations

Jinjie Shen,Yaxiong Wang,Lechao Cheng,Nan Pu,Zhun Zhong

Main category: cs.CV

TL;DR: 本文提出了首个语义对齐的多模态操纵检测数据集SAMM和检索增强的检测框架RamDG,解决了现有基准中跨模态不对齐导致的虚假异常问题,在检测准确率上比现有方法提升2.06%。

  • Motivation: 现有多模态操纵检测基准存在跨模态不对齐的人工痕迹,无法反映真实世界中保持语义一致性的攻击模式,需要构建更真实的语义协调操纵数据集和检测方法。
  • Method: 1) 构建SAMM数据集:采用两阶段流程,先应用先进图像操纵技术,再生成语义一致的文本叙述;2) 提出RamDG框架:利用外部知识检索上下文证据,通过图像伪造定位和深度操纵检测模块进行多模态分析。
  • Result: 实验表明RamDG框架显著优于现有方法,在SAMM数据集上检测准确率比最先进方法提高2.06%。
  • Conclusion: 通过构建语义对齐的多模态操纵数据集和检索增强检测框架,有效解决了真实世界多模态媒体伪造检测的挑战,为媒体取证提供了更实用的解决方案。

[35] MFAF: An EVA02-Based Multi-scale Frequency Attention Fusion Method for Cross-View Geo-Localization

YiTong Liu,TianZhu Liu,YanFeng GU

Main category: cs.CV

TL;DR: 提出基于EVA02的多尺度频率注意力融合方法(MFAF),通过多频率分支块和频率感知空间注意力模块,有效解决跨视角地理定位中的特征提取难题,在多个基准测试中取得优异性能

  • Motivation: 解决跨视角地理定位任务中由于视角变化导致的显著外观差异问题,现有方法往往忽略空间和语义信息,需要提取更具判别性的特征
  • Method: 提出MFAF方法,包含多频率分支块(MFB)捕获多尺度的低频结构特征和高频边缘细节,以及频率感知空间注意力(FSA)模块自适应关注频率特征的关键区域
  • Result: 在University-1652、SUES-200和Dense-UAV等广泛认可的基准测试中,MFAF方法在无人机定位和导航任务中都取得了有竞争力的性能
  • Conclusion: 所提出的MFAF方法通过有效融合多尺度频率信息和空间注意力机制,显著提高了跨视角地理定位的特征表示一致性和鲁棒性,减少了背景噪声和视角变化的干扰

[36] A Comparative Study of YOLOv8 to YOLOv11 Performance in Underwater Vision Tasks

Gordon Hung,Ivan Felipe Rodriguez

Main category: cs.CV

TL;DR: 本文对YOLOv8到YOLOv11系列模型在水下图像检测任务上的性能进行了系统比较,发现YOLOv9后精度趋于饱和,而YOLOv10在嵌入式AUV部署中提供了最佳的速度-精度权衡。

  • Motivation: 水下自主航行器(AUVs)依赖计算机视觉系统进行任务,但水下图像存在光线衰减、浑浊和类别不平衡等问题,且AUV计算资源有限。需要评估YOLO系列模型在水下环境中的表现。
  • Method: 使用两个公开水下数据集(珊瑚疾病和鱼类物种),创建四种训练规模,在相同超参数下训练YOLOv8-s到YOLOv11-s模型,评估精度、召回率、mAP、推理时间等指标,并进行Grad-CAM可视化分析。
  • Result: 在两个数据集上,YOLOv9之后精度趋于饱和,主要改进在于效率而非精度。推理速度显著提升,YOLOv10在速度和精度之间提供了最佳平衡。
  • Conclusion: YOLOv10是嵌入式AUV部署的最佳选择,研究提供了首个近期YOLO变体在水下图像上的对照比较,并建立了开放的基准和代码库以加速未来海洋视觉研究。

[37] StereoCarla: A High-Fidelity Driving Dataset for Generalizable Stereo

Xianda Guo,Chenming Zhang,Ruilin Wang,Youmin Zhang,Wenzhao Zheng,Matteo Poggi,Hao Zhao,Qin Zou,Long Chen

Main category: cs.CV

TL;DR: StereoCarla是一个基于CARLA模拟器的高保真合成立体视觉数据集,专为自动驾驶场景设计,通过多样化的相机配置和环境条件提升立体匹配模型的泛化性能。

  • Motivation: 现有的立体匹配训练数据多样性有限,制约了学习模型的泛化能力。需要创建更丰富多样的合成数据集来提升自动驾驶深度感知系统的鲁棒性。
  • Method: 基于CARLA模拟器构建StereoCarla数据集,包含多种相机配置(不同基线、视角、传感器位置)和环境条件(光照变化、天气效果、道路几何)。
  • Result: 在四个标准评估数据集(KITTI2012、KITTI2015、Middlebury、ETH3D)上的跨域实验表明,使用StereoCarla训练的模型在泛化准确性上优于使用11个现有数据集的模型,多数据集训练中也能显著提升性能。
  • Conclusion: StereoCarla为在真实、多样和可控环境下开发和评估立体算法提供了有价值的基准,有助于构建更鲁棒的自动驾驶深度感知系统。

[38] SmokeBench: A Real-World Dataset for Surveillance Image Desmoking in Early-Stage Fire Scenes

Wenzhuo Jin,Qianfeng Yang,Xianhao Wu,Hongming Chen,Pengpeng Li,Xiang Chen

Main category: cs.CV

TL;DR: 提出了一个名为SmokeBench的真实世界监控图像去烟基准数据集,包含不同场景设置和烟雾浓度下的图像对,用于监督学习和算法评估。

  • Motivation: 早期火灾场景(点火后0-15分钟)是紧急干预的关键时间窗口,但烟雾会严重降低监控系统的可见度,影响应急响应和救援操作。目前缺乏大规模真实世界的无烟-有烟配对图像数据集,限制了去烟算法的发展。
  • Method: 构建了一个真实世界的监控图像去烟基准数据集SmokeBench,包含精确对齐的退化图像和干净图像对,涵盖不同场景设置和烟雾浓度。
  • Result: 创建了SmokeBench数据集,并在此基础上对各种去烟方法进行了全面的基准测试实验。
  • Conclusion: 该数据集为推进真实火灾场景中鲁棒实用的图像去烟技术提供了宝贵基础,数据集已公开发布。

[39] RIS-FUSION: Rethinking Text-Driven Infrared and Visible Image Fusion from the Perspective of Referring Image Segmentation

Siju Ma,Changsiyu Gong,Xiaofeng Fan,Yong Ma,Chengjie Jiang

Main category: cs.CV

TL;DR: RIS-FUSION是一个级联框架,通过联合优化统一了图像融合和参考图像分割任务,利用文本特征增强语义对齐,在mIoU指标上超越现有方法11%以上。

  • Motivation: 现有文本驱动的红外与可见光图像融合方法缺乏目标对齐的任务来监督和评估文本输入对融合结果的有效贡献。观察到参考图像分割(RIS)和文本驱动融合具有共同目标:突出文本所指的对象。
  • Method: 提出RIS-FUSION级联框架,包含LangGatedFusion模块将文本特征注入融合主干网络以增强语义对齐。构建MM-RIS大规模基准数据集,包含12.5k训练和3.5k测试三元组(红外-可见光图像对、分割掩码和参考表达式)。
  • Result: 大量实验表明RIS-FUSION达到最先进性能,在mIoU指标上超越现有方法超过11%。
  • Conclusion: 通过统一融合和RIS任务的联合优化框架,有效解决了文本驱动图像融合中语义对齐的监督问题,取得了显著的性能提升。

[40] Learning by Imagining: Debiased Feature Augmentation for Compositional Zero-Shot Learning

Haozhe Zhang,Chenchen Jing,Mingyu Liu,Qingsheng Wang,Hao Chen

Main category: cs.CV

TL;DR: DeFA方法通过解构-重构框架和去偏策略,在组合零样本学习中合成高质量的组合特征,有效解决了属性-对象纠缠和长尾分布问题,在多个数据集上取得了最先进的性能。

  • Motivation: 组合零样本学习面临属性与对象纠缠以及现实数据长尾分布的挑战,受神经科学发现(想象与感知共享神经过程)启发,需要开发能够利用已有属性对象先验知识来合成未见组合的方法。
  • Method: 提出Debiased Feature Augmentation (DeFA)方法,包含解构-重构框架进行特征增强和去偏策略,通过合成高保真度的组合特征来支持组合泛化。
  • Result: 在三个广泛使用的数据集上的大量实验表明,DeFA在封闭世界和开放世界设置下都达到了最先进的性能。
  • Conclusion: DeFA通过结合特征增强和去偏策略,有效解决了CZSL中的关键挑战,为组合零样本学习提供了新的解决方案。

[41] AsyMoE: Leveraging Modal Asymmetry for Enhanced Expert Specialization in Large Vision-Language Models

Heng Zhang,Haichuan Hu,Yaomin Shen,Weihao Yu,Yilei Yuan,Haochen You,Guo Cheng,Zijian Zhang,Lubin Gan,Huihui Wei,Hao Zhang,Jin Huang

Main category: cs.CV

TL;DR: AsyMoE是一种新颖的混合专家架构,专门针对视觉-语言模型中的模态不对称问题,通过三种专家组设计显著提升了性能并减少了参数使用。

  • Motivation: 现有的混合专家方法在处理视觉和语言模态时面临不对称挑战,视觉信息具有空间完整性而语言需要保持序列上下文,导致MoE模型难以平衡模态特定特征和跨模态交互。
  • Method: 提出AsyMoE架构,包含三种专门专家组:模态内专家处理模态特定特征,双曲跨模态专家处理层次化跨模态交互,证据优先语言专家抑制参数偏见并保持上下文基础。
  • Result: 实验表明AsyMoE相比普通MoE和模态特定MoE分别实现了26.58%和15.45%的准确率提升,同时比密集模型激活参数减少25.45%。
  • Conclusion: AsyMoE通过建模视觉-语言处理的不对称性,有效解决了MoE在跨模态任务中的挑战,在性能和效率方面都取得了显著改进。

[42] EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer

Pukun Zhao,Longxiang Wang,Miaowei Wang,Chen Chen,Fanqing Zhou,Haojian Huang

Main category: cs.CV

TL;DR: 提出了两个动态空间推理基准测试:局部可观察迷宫导航和match-2消除任务,用于评估模型在局部感知、环境反馈和全局目标耦合情况下的空间理解和自适应规划能力。

  • Motivation: 现有空间推理基准主要关注静态或全局可观察环境,无法捕捉在部分可观察性和动态变化下的长时程推理和记忆利用挑战。
  • Method: 设计了两个动态空间基准测试,每个动作都会触发环境结构变化,需要持续更新认知和策略。提出了基于主观经验的记忆机制用于跨任务经验迁移和验证。
  • Result: 实验表明,基准测试揭示了主流模型在动态空间推理和长期记忆方面的关键局限性。
  • Conclusion: 该研究为未来方法学进展提供了一个全面的评估平台,代码和数据已公开。

[43] SPGen: Spherical Projection as Consistent and Flexible Representation for Single Image 3D Shape Generation

Jingdong Zhang,Weikai Chen,Yuan Liu,Jionghao Wang,Zhengming Yu,Zhuowen Shen,Bo Yang,Wenping Wang,Xin Li

Main category: cs.CV

TL;DR: SPGen提出了一种基于球面投影的单视图3D生成方法,通过将几何信息投影到边界球面并展开为多层2D表示,解决了多视图不一致性问题,同时支持复杂内部结构和拓扑表示。

  • Motivation: 现有的单视图3D生成模型采用多视图扩散先验,但存在视图间不一致、无法准确表示复杂内部结构和非平凡拓扑的问题。
  • Method: 将几何信息投影到边界球面并展开为紧凑的结构化多层2D球面投影(SP)表示,在图像域操作,直接继承强大的2D扩散先验。
  • Result: 大量实验表明,SPGen在几何质量和计算效率方面显著优于现有基线方法。
  • Conclusion: SPGen通过球面投影表示同时实现了视图一致性、结构灵活性和计算效率,为单视图3D生成提供了有效的解决方案。

[44] Defense-to-Attack: Bypassing Weak Defenses Enables Stronger Jailbreaks in Vision-Language Models

Yunhan Zhao,Xiang Zheng,Xingjun Ma

Main category: cs.CV

TL;DR: 提出Defense2Attack方法,通过将防御机制融入攻击流程,显著提升视觉语言模型越狱攻击的效果和效率,在单次尝试中超越现有最先进方法

  • Motivation: 尽管视觉语言模型(VLMs)能力强大,但存在越狱攻击漏洞。现有越狱方法的效果和效率仍有提升空间,研究发现将弱防御融入攻击流程可以显著增强越狱效果
  • Method: Defense2Attack包含三个核心组件:(1)视觉优化器:嵌入具有肯定和鼓励语义的通用对抗扰动;(2)文本优化器:使用防御风格提示精炼输入;(3)红队后缀生成器:通过强化微调增强越狱效果
  • Result: 在4个VLMs和4个安全基准测试上的实验表明,Defense2Attack在单次尝试中实现了优越的越狱性能,超越了需要多次尝试的最先进攻击方法
  • Conclusion: 这项工作为越狱VLMs提供了新的视角,展示了利用防御模式来指导越狱提示设计的有效性

[45] Effective Gaussian Management for High-fidelity Object Reconstruction

Jiateng Liu,Hao Gao,Jiu-Cheng Xie,Chi-Man Pun,Jian Xiong,Haolun Li,Feng Xu

Main category: cs.CV

TL;DR: 提出了一种高效的高斯管理方法,通过动态激活球谐函数或法向量来缓解双监督梯度冲突,并开发轻量级高斯表示实现自适应SH阶数调整和任务解耦剪枝,在重建质量和效率上均优于现有方法。

  • Motivation: 现有高斯溅射方法采用无差别属性分配导致梯度冲突和表示效率低下,需要一种更智能的高斯管理策略来提升重建质量和参数效率。
  • Method: 1) 新颖的致密化策略:在表面重建模块监督下动态激活SH或法向量;2) 轻量级高斯表示:基于梯度幅度自适应调整SH阶数;3) 任务解耦剪枝:移除对重建任务影响最小的高斯而不影响其他任务
  • Result: 在大量实验中一致优于最先进方法,在重建质量和效率方面都表现出色,使用显著更少的参数实现了优越性能
  • Conclusion: 该方法具有模型无关性,可无缝集成到其他框架中,在提升性能的同时减少模型大小,为高斯表示管理提供了有效解决方案

[46] Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Tony Lindeberg,Zahra Babaiee,Peyman M. Kiasari

Main category: cs.CV

TL;DR: 该论文分析了ConvNeXt架构深度可分离网络中学习的8个主关键滤波器,发现它们可以通过高斯核的空间平滑操作的差分算子来建模,且理想化模型具有良好的预测性能。

  • Motivation: 研究深度可分离卷积网络中学习到的滤波器的空间特性和可分离性,探索是否可以用离散尺度空间滤波器来近似这些学习到的滤波器。
  • Method: 首先计算学习滤波器的空间扩散度量(加权均值和方差),然后使用高斯核的离散模拟进行空间平滑操作的差分算子来建模主关键滤波器,采用两种不同的尺度参数设置方式,并通过空间方差相等或最小化l1/l2范数进行模型拟合。
  • Result: 学习到的滤波器可以通过可分离的空间滤波操作建模,非中心滤波器的空间偏移接近半个网格单位,理想化模型与学习滤波器具有良好的定性相似性,且在深度可分离网络中替换为理想化滤波器时表现出良好的预测性能。
  • Conclusion: 深度可分离深度网络中学习到的滤波器可以很好地用离散尺度空间滤波器来近似,这为理解神经网络中滤波器学习机制提供了新的视角。

[47] What Makes a Good Generated Image? Investigating Human and Multimodal LLM Image Preference Alignment

Rishab Parthasarathy,Jasmine Collins,Cory Stephenson

Main category: cs.CV

TL;DR: 本文研究了多模态LLM与人类在图像质量评估方面的差异,发现LLM在理解图像美学、解剖准确性等质量属性方面与人类存在显著差异

  • Motivation: 自动化评估文本生成图像模型具有挑战性,现有研究使用多模态LLM评估图像质量,但缺乏对LLM如何利用人类相关概念(如图像风格、构图等)进行判断的深入理解
  • Method: 首先构建人工偏好数据集,使用合成生成的图像对;通过任务间相关性分析理解各图像质量属性之间的关系;分别对人类和LLM进行相同分析;针对单个质量属性生成高度可控的合成数据集
  • Result: 人类能够轻松判断所有特定图像质量属性,但多模态LLM在某些属性(如解剖准确性)上学习判断更加困难;图像质量属性之间的关系在LLM中比在人类中弱得多
  • Conclusion: 研究发现揭示了人类和多模态LLM在图像感知方面存在有趣差异,为改进自动化图像质量评估提供了重要见解

[48] Recurrent Cross-View Object Geo-Localization

Xiaohan Zhang,Si-Yuan Cao,Xiaokai Bai,Yiming Li,Zhangkai Shen,Zhe Wu,Xiaoxi Hu,Hui-liang Shen

Main category: cs.CV

TL;DR: ReCOT是一个循环跨视角物体地理定位Transformer,将CVOGL任务重新定义为循环定位问题,通过可学习token和迭代注意力机制精确定位,结合SAM知识蒸馏和层次注意力模块,在减少60%参数的同时达到SOTA性能。

  • Motivation: 现有方法将跨视角物体地理定位视为一次性检测任务,直接回归位置,容易受到特征噪声影响且缺乏纠错机制。
  • Method: 提出循环定位框架,使用可学习token编码查询意图,迭代注意力精炼位置;集成SAM知识蒸馏提供语义指导;引入层次注意力模块增强参考特征。
  • Result: 在标准CVOGL基准测试中达到最先进性能,同时比之前SOTA方法减少60%参数。
  • Conclusion: ReCOT通过循环定位框架和知识蒸馏策略,有效解决了跨视角地理定位中的噪声和纠错问题,实现了高效准确的定位性能。

[49] A-TDOM: Active TDOM via On-the-Fly 3DGS

Yiwei Xu,Xiang Wang,Yifei Yu,Wentian Gan,Luca Morelli,Giulio Perda,Xiongwu Xiao,Zongqian Zhan,Xin Wang,Fabio Remondino

Main category: cs.CV

TL;DR: A-TDOM是一种基于实时3DGS优化的近实时数字正射影像图生成方法,通过在线SfM计算相机位姿和稀疏点云,集成高斯到新区域,实现秒级更新和可接受的渲染质量。

  • Motivation: 传统TDOM生成方法依赖复杂的离线摄影测量流程,存在延迟问题且质量易受相机位姿不准确、数字表面模型误差和场景遮挡等因素影响,无法满足实时应用需求。
  • Method: 基于实时3DGS优化,通过在线SfM计算每张图像的位姿和稀疏点云,将新高斯集成到未见过或粗略重建区域,结合正交splatting技术实现实时渲染。
  • Result: 在多个基准测试上的实验表明,A-TDOM能够以近实时方式主动渲染TDOM,每张新图像的3DGS优化仅需数秒,同时保持可接受的渲染质量和几何精度。
  • Conclusion: A-TDOM方法成功解决了传统TDOM生成的实时性问题,为城市管理、城市规划等领域的实时应用提供了可行的技术方案。

[50] DyGLNet: Hybrid Global-Local Feature Fusion with Dynamic Upsampling for Medical Image Segmentation

Yican Zhao,Ce Wang,You Hao,Lei Li,Tianli Liao

Main category: cs.CV

TL;DR: DyGLNet是一个用于医学图像分割的高效准确模型,通过融合全局和局部特征结合动态上采样机制,在多个数据集上优于现有方法,特别在边界精度和小目标分割方面表现突出。

  • Motivation: 解决医学图像分割中多尺度病变变异性、边界模糊和计算密集的挑战,需要开发一个既能保持高精度又能降低计算复杂度的解决方案。
  • Method: 提出DyGLNet模型,包含混合特征提取模块(SHDCBlock)结合单头自注意力和多尺度扩张卷积来协同建模局部细节和全局上下文,以及动态自适应上采样模块(DyFusionUp)基于可学习偏移实现高保真特征图重建,采用轻量化设计降低计算开销。
  • Result: 在七个公共数据集上的实验表明,DyGLNet优于现有方法,特别是在边界精度和小目标分割方面表现优异,同时具有较低的计算复杂度。
  • Conclusion: DyGLNet为临床医学图像分析提供了一个高效可靠的解决方案,代码即将公开。

[51] BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers

Mohammed Al-Habib,Zuping Zhang,Abdulrahman Noman

Main category: cs.CV

TL;DR: BATR-FST是一个用于少样本学习的双层次自适应令牌精炼方法,通过令牌聚类、不确定性感知权重和双层次注意力机制提升Vision Transformers在少样本分类中的性能

  • Motivation: Vision Transformers在少样本学习中面临令牌级交互精炼困难、训练数据有限和归纳偏置不足的挑战,现有方法依赖不灵活的令牌匹配或简单相似性度量,限制了全局上下文和局部特征精炼的有效整合
  • Method: 提出双阶段方法:预训练阶段使用掩码图像建模提供可迁移的补丁级表示;元微调阶段包含双层次自适应令牌精炼模块(令牌聚类、不确定性感知令牌加权、双层次注意力机制)、图令牌传播确保支持集和查询集语义一致性,以及类分离惩罚保持类别边界
  • Result: 在三个基准少样本数据集上的广泛实验表明,BATR-FST在1-shot和5-shot场景中均取得优异结果,提升了基于transformer的少样本分类性能
  • Conclusion: BATR-FST通过渐进式改进令牌表示和保持强大的归纳偏置,有效解决了Vision Transformers在少样本学习中的关键挑战,为少样本分类提供了有效的解决方案

[52] CECT-Mamba: a Hierarchical Contrast-enhanced-aware Model for Pancreatic Tumor Subtyping from Multi-phase CECT

Zhifang Gong,Shuo Gao,Ben Zhao,Yingjing Xu,Yijun Yang,Shenghong Ju,Guangquan Zhou

Main category: cs.CV

TL;DR: 本文提出了一种基于Mamba架构的自动多期相CECT胰腺肿瘤亚型分类方法,通过双层次对比增强感知模块和时空采样序列,实现了97.4%的准确率和98.6%的AUC。

  • Motivation: 胰腺肿瘤具有高度异质性和变异性,传统方法难以有效利用多期相CECT数据的上下文信息进行精确亚型诊断。
  • Method: 采用Mamba架构,设计双层次对比增强感知模块、时空采样序列、相似性引导细化模块、空间互补整合器和多粒度融合模块,探索病灶的期相内外对比变化。
  • Result: 在270例临床数据上,PDAC与PNETs区分准确率达97.4%,AUC为98.6%。
  • Conclusion: 该方法为胰腺肿瘤亚型诊断提供了更准确高效的自动化工具,展现了Mamba在医学影像分析中的潜力。

[53] Modeling the Multivariate Relationship with Contextualized Representations for Effective Human-Object Interaction Detection

Zhehao Li,Yucheng Qian,Chong Wang,Yinghao Lu,Zhihao Yang,Jiafei Wu

Main category: cs.CV

TL;DR: 提出了一种上下文表示学习网络,通过整合功能推理和上下文提示来改进人-物交互检测,在HICO-Det和V-COCO数据集上表现优异

  • Motivation: 现有两阶段方法在上下文建模方面存在不足,无法充分捕捉复杂的交互关系,特别是涉及辅助实体(如工具)的多变量关系
  • Method: 扩展传统HOI检测框架,引入三元组结构<人,工具,物体>显式建模辅助对象的功能角色;使用可学习提示词整合实例类别信息,通过注意力机制将语言与图像内容在全局和区域层面进行对齐
  • Result: 在HICO-Det和V-COCO数据集的大多数场景中表现出优越性能
  • Conclusion: 通过上下文化表示学习和功能推理,能够更可靠地处理复杂、依赖上下文的交互关系,为人-物交互检测提供了新的有效方法

[54] Double Helix Diffusion for Cross-Domain Anomaly Image Generation

Linchun Wu,Qin Zou,Xianbiao Qi,Bo Du,Zhongyuan Wang,Qingquan Li

Main category: cs.CV

TL;DR: DH-Diff是一个双螺旋扩散模型,通过跨域生成框架同时合成高质量异常图像和像素级标注掩码,解决了现有方法中结构不一致和特征纠缠的问题。

  • Motivation: 制造业视觉异常检测面临真实异常样本稀缺的问题,现有合成数据方法存在结构不一致和特征纠缠的局限性,需要新的生成框架来提升合成数据的真实性和多样性。
  • Method: 采用双螺旋架构,包含特征分离、连接和融合模块,使用域解耦注意力机制独立增强图像和标注特征,并通过语义分数图对齐模块确保结构真实性,支持文本提示和图形引导控制。
  • Result: 实验表明DH-Diff在多样性和真实性方面显著优于现有方法,下游异常检测性能得到显著提升。
  • Conclusion: DH-Diff框架有效解决了合成异常数据中的结构一致性和特征纠缠问题,为制造业视觉异常检测提供了高质量的训练数据生成方案。

[55] Superpixel Anything: A general object-based framework for accurate yet regular superpixel segmentation

Julien Walther,Rémi Giraud,Michaël Clément

Main category: cs.CV

TL;DR: SPAM是一个新颖的超像素分割框架,结合深度学习特征提取和大规模预训练模型,能够生成既准确又规则的超像素分割结果

  • Motivation: 传统超像素方法依赖低级特征,而深度学习方法虽然利用高级特征但牺牲了规则性,导致分割结果准确但可解释性差。需要一种既能保持准确性又能维持规则性的超像素分割方法
  • Method: 训练模型提取图像特征用于超像素生成,在推理时利用大规模预训练的语义无关分割模型确保超像素与对象掩码对齐。可以处理任何先验高级分割,解决不确定区域,并支持交互式对象聚焦
  • Result: 综合实验表明SPAM在分割任务上定性和定量都优于最先进方法,成为各种应用的宝贵且鲁棒的工具
  • Conclusion: SPAM提供了一个多功能框架,能够生成准确且规则的超像素分割,解决了现有方法在准确性和规则性之间的权衡问题

[56] Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation

Biwen Lei,Yang Li,Xinhai Liu,Shuhui Yang,Lixin Xu,Jingwei Huang,Ruining Tang,Haohan Weng,Jian Liu,Jing Xu,Zhen Zhou,Yiling Zhu,Jiankai Xing,Jiachen Xu,Changfeng Ma,Xinhao Yan,Yunhan Yang,Chunshi Wang,Duoteng Xu,Xueqi Ma,Yuguang Chen,Jing Li,Mingxin Yang,Sheng Zhang,Yifei Feng,Xin Huang,Di Luo,Zebin He,Puhua Jiang,Changrong Hu,Zihan Qin,Shiwei Miao,Haolin Liu,Yunfei Zhao,Zeqiang Lai,Qingxiang Lin,Zibo Zhao,Kunhong Li,Xianghui Yang,Huiwen Shi,Xin Yang,Yuxuan Wang,Zebin Yao,Yihang Lian,Sicong Liu,Xintong Han,Wangchen Qin,Caisheng Ouyang,Jianyin Liu,Tianwen Yuan,Shuai Jiang,Hong Duan,Yanqi Niu,Wencong Lin,Yifu Sun,Shirui Huang,Lin Niu,Gu Gong,Guojian Xiao,Bojian Zheng,Xiang Yuan,Qi Chen,Jie Xiao,Dongyang Zheng,Xiaofeng Yang,Kai Liu,Jianchen Zhu,Lifu Wang,Qinglin Lu,Jie Liu,Liang Dong,Fan Jiang,Ruibin Chen,Lei Wang,Chao Zhang,Jiaxin Lin,Hao Zhang,Zheng Ye,Peng He,Runzhou Wu,Yinhe Wu,Jiayao Du,Jupeng Chen,Xinyue Mao,Dongyuan Guo,Yixuan Tang,Yulin Tsai,Yonghao Tan,Jiaao Yu,Junlin Yu,Keren Zhang,Yifan Li,Peng Chen,Tian Liu,Di Wang,Yuhong Liu,Linus,Jie Jiang,Zhuo Chen,Chunchao Guo

Main category: cs.CV

TL;DR: Hunyuan3D Studio是一个端到端的AI驱动内容创作平台,通过自动化生成游戏就绪的3D资产来革新游戏生产流程。

  • Motivation: 传统3D资产创建流程劳动密集且专业化,需要简化和自动化游戏开发中的3D内容生成。
  • Method: 集成先进的神经模块(如部件级3D生成、多边形生成、语义UV等)到统一的用户友好系统中,支持从概念图像或文本描述快速生成生产级3D模型。
  • Result: 生成的资产不仅视觉吸引力强,而且符合现代游戏引擎的严格技术要求,显著减少迭代时间并降低3D内容创作门槛。
  • Conclusion: Hunyuan3D Studio代表了游戏开发和交互媒体中AI辅助工作流程的重大进步,为创意意图到技术资产提供了无缝桥梁。

[57] SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Yuan Cao,Dong Wang

Main category: cs.CV

TL;DR: SAGA提出选择性自适应门控机制,改进线性注意力中的KV信息压缩方式,在保持线性复杂度同时提升表达能力和性能。

  • Motivation: 传统线性注意力均匀压缩历史KV信息导致特征冗余和方向对齐丢失,造成性能差距。需要选择性调制信息聚合来缓解低秩约束。
  • Method: 引入输入自适应的可学习门控选择性调制KV特征图的信息聚合,提出高效的Hadamard乘积分解方法计算门控,无额外内存开销。
  • Result: 在1280×1280分辨率下,相比PVT-T实现1.76倍吞吐量提升和2.69倍峰值GPU内存减少,ImageNet上top-1准确率最高提升4.4%。
  • Conclusion: SAGA通过选择性门控机制有效解决了线性注意力的低秩约束问题,在计算效率和模型性能方面都取得了显著改进。

[58] Data Scaling Laws for Radiology Foundation Models

Maximilian Ilse,Harshita Sharma,Anton Schwaighofer,Sam Bond-Taylor,Fernando Pérez-García,Olesya Melnichenko,Anne-Marie G. Sykes,Kelly K. Horst,Ashish Khandelwal,Maxwell Reynolds,Maria T. Wetscherek,Noel C. F. Codella,Javier Alvarez-Valle,Korfiatis Panagiotis,Valentina Salvatelli

Main category: cs.CV

TL;DR: 本研究系统分析了MedImageInsight和RAD-DINO两种视觉编码器在350万张胸部X光片上的持续预训练表现,发现不同编码器范式在不同医疗任务上各有优势,并证明少量领域内数据即可超越开源基础模型。

  • Motivation: 医疗影像基础模型受限于较小数据集,需要系统研究数据规模和预训练范式对性能的影响,以理解如何通过持续预训练提升医疗影像分析性能。
  • Method: 使用单一机构的350万张胸部X光片,对代表CLIP和DINOv2两种主要编码器范式的MedImageInsight和RAD-DINO进行持续预训练,保持计算和评估协议一致,评估分类、分割和放射报告生成任务。
  • Result: MI2在放射发现相关任务上扩展性更好,RAD-DINO在导管相关任务上更强;使用UniCL结合报告和结构化标签持续预训练MI2可提升性能;仅需3万张领域内样本即可在某些任务上超越开源基础模型。
  • Conclusion: 中心特定的持续预训练具有重要实用价值,医疗机构可通过利用领域内数据获得显著性能提升,不同编码器范式在不同医疗任务上各有优势。

[59] Exploring Metric Fusion for Evaluation of NeRFs

Shreyas Shivakumara,Gabriel Eilertsen,Karljohan Lundin Palmerius

Main category: cs.CV

TL;DR: 结合DISTS和VMAF两种感知度量方法,通过融合策略提升NeRF生成图像质量评估与主观评分的一致性

  • Motivation: NeRF生成图像存在独特伪影,现有单一度量指标在不同数据集上表现不一致,需要融合不同感知方法的多指标来克服个体局限性
  • Method: 采用两种归一化策略处理DISTS和VMAF指标,使用两种融合策略组合指标,在Synthetic和Outdoor两个数据集上测试三种配置
  • Result: 融合指标相比单一指标在主观评分相关性方面表现更优,证明了融合方法的鲁棒性和泛化能力
  • Conclusion: 基于不同感知方法的度量融合能够有效提升NeRF生成图像质量评估的准确性,为NeRF输出评估提供了更可靠的解决方案

[60] Leveraging Large Language Models to Effectively Generate Visual Data for Canine Musculoskeletal Diagnoses

Martin Thißen,Thi Ngoc Diep Tran,Barbara Esteve Ratsch,Ben Joel Schönbein,Ute Trapp,Beate Egner,Romana Piat,Elke Hergenröther

Main category: cs.CV

TL;DR: 使用大型语言模型生成犬类肌肉骨骼诊断的合成视觉训练数据,解决了数据稀缺问题,在真实数据上达到88%的F1分数

  • Motivation: 在犬类肌肉骨骼诊断中,由于异常情况罕见或数据收集成本高,训练数据稀缺。LLMs在医疗领域表现出强大能力,有潜力生成合成训练数据
  • Method: 开发了将视觉文档分割为200多个标记区域的映射方法,使用引导解码、思维链推理和少样本提示技术生成合成视觉文档
  • Result: 生成了1000个髌骨脱位诊断的合成文档,对诊断位置和严重程度敏感且与性别无关。使用合成数据训练的模型在70个真实文档上达到88%的F1分数
  • Conclusion: LLM生成的合成数据在解决罕见疾病数据稀缺方面具有巨大潜力,虽然方法针对医疗领域定制,但可适应其他领域

[61] Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Avinaash Manoharan,Xiangyu Yin,Domenik Helm,Chih-Hong Cheng

Main category: cs.CV

TL;DR: 提出了一种无需标注的物体检测模型评估指标CCS,通过测试时数据增强和空间一致性计算来替代传统需要真实标注的评估方法

  • Motivation: 在真实部署环境中,物体检测模型难以获得真实标注数据,需要一种无需标注的评估指标来持续监控模型性能
  • Method: CCS方法对每张图像应用测试时数据增强,收集不同增强视图的预测边界框,使用IoU计算重叠度,通过最大重叠度的归一化和平均来度量空间一致性
  • Result: 在Open Images和KITTI数据集上的实验显示,CCS与F1分数、概率检测质量和最优校正成本等指标达到90%以上的一致性
  • Conclusion: CCS提供了一个模型无关的鲁棒评估框架,支持单阶段和两阶段检测器,能够实现DevOps风格的物体检测器监控

[62] Few to Big: Prototype Expansion Network via Diffusion Learner for Point Cloud Few-shot Semantic Segmentation

Qianguang Zhao,Dongli Wang,Yan Zhou,Jianxun Li,Richard Irampa

Main category: cs.CV

TL;DR: PENet是一个用于少样本3D点云语义分割的新框架,通过扩散模型生成通用特征来扩展原型表示能力,解决类内多样性和集合间不一致性问题

  • Motivation: 现有基于原型的方法存在两个关键挑战:(1) 类内多样性 - 原型的有限表示能力无法覆盖类的全部变化;(2) 集合间不一致性 - 支持集生成的原型与查询特征空间不对齐
  • Method: 提出原型扩展网络(PENet),采用双流学习器架构:固有学习器(IL)提取代表性特征,扩散学习器(DL)提供丰富的通用特征。通过原型同化模块(PAM)和原型校准机制(PCM)处理双原型
  • Result: 在S3DIS和ScanNet数据集上的大量实验表明,PENet在各种少样本设置下显著优于最先进的方法
  • Conclusion: 利用扩散模型的预训练条件编码器为原型扩展提供通用特征来源,有效解决了少样本3D点云分割中的原型表示限制问题

[63] Lego-Edit: A General Image Editing Framework with Model-Level Bricks and MLLM Builder

Qifei Jia,Yu Liu,Yajie Chai,Xintong Yao,Qiming Lu,Yasen Zhang,Runyu Shi,Ying Huang,Guoquan Zhang

Main category: cs.CV

TL;DR: Lego-Edit是一个基于多模态大语言模型的图像编辑系统,通过模型级工具包和渐进式强化学习,实现了对开放域指令的泛化编辑能力。

  • Motivation: 解决现有基于指令的图像编辑方法泛化能力不足的问题,无法有效处理训练域外的多样化用户指令,限制了实际应用。
  • Method: 1) 构建包含多样化模型和图像处理功能的模型级工具包;2) 采用三阶段渐进式强化学习方法,利用未标注的开放域指令反馈训练MLLM。
  • Result: 在GEdit-Bench和ImgBench上达到最先进性能,展现出对开放域指令的强大推理能力,并能无需微调直接使用新编辑工具。
  • Conclusion: Lego-Edit通过MLLM的组织能力和强化学习训练,成功实现了对真实世界多样化指令的泛化图像编辑,具有很好的实用价值。

[64] Runge-Kutta Approximation and Decoupled Attention for Rectified Flow Inversion and Semantic Editing

Weiming Chen,Zhihan Zhu,Yijia Wang,Zhihai He

Main category: cs.CV

TL;DR: 提出了针对Rectified Flow模型的高阶反演方法和解耦注意力机制,解决了反演精度低和多模态注意力纠缠问题,在图像重建和文本编辑任务中达到SOTA性能

  • Motivation: Rectified Flow模型在真实应用中面临两个主要挑战:(1)反演精度低导致与源图像一致性差,(2)扩散变换器中多模态注意力纠缠阻碍精确注意力控制
  • Method: 提出基于Runge-Kutta微分方程求解器的高效高阶反演方法,以及解耦扩散变换器注意力机制(DDTA),将文本和图像注意力分离以实现更精确的语义控制
  • Result: 在图像重建和文本引导编辑任务上的大量实验表明,该方法在保真度和可编辑性方面达到了最先进的性能
  • Conclusion: 该方法有效解决了Rectified Flow模型的两个关键挑战,通过高阶反演和注意力解耦机制显著提升了生成质量和控制精度

[65] MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization

Yiyi Zhang,Yuchen Yuan,Ying Zheng,Jialun Pei,Jinpeng Li,Zheng Li,Pheng-Ann Heng

Main category: cs.CV

TL;DR: 提出MEJO框架解决手术三重识别中的任务间和任务内优化冲突问题,通过共享-特定解耦学习和协调梯度学习策略,在CholecT数据集上取得优异性能

  • Motivation: 手术三重识别面临长尾数据分布问题,现有方法存在任务间表示纠缠导致的优化冲突和类别不平衡导致的训练冲突
  • Method: MEJO框架包含:1)S²D学习方案分解任务共享和特定表示;2)MLLM增强的语义提示池;3)协调梯度学习策略重新平衡头尾类梯度
  • Result: 在CholecT45和CholecT50数据集上的大量实验证明了该框架的优越性
  • Conclusion: 提出的MEJO框架有效解决了手术三重识别中的优化冲突问题,验证了其在处理任务间和任务内冲突方面的有效性

[66] DialNav: Multi-turn Dialog Navigation with a Remote Guide

Leekyeung Han,Hyunji Min,Gyeom Hwangbo,Jonghyun Choi,Paul Hongsuck Seo

Main category: cs.CV

TL;DR: DialNav是一个新颖的协作式具身对话任务,导航代理和远程引导者通过多轮对话到达目标位置,需要引导者推断导航者位置,强调通信的重要性。

  • Motivation: 现有工作缺乏对导航任务中通信协作的全面评估,需要创建能够评估导航和对话能力的综合基准。
  • Method: 收集并发布RAIN数据集(人类对话配对导航轨迹),设计综合评估基准,分析不同导航者和引导者模型的影响。
  • Result: 提出了DialNav任务和RAIN数据集,建立了评估框架,识别了关键挑战。
  • Conclusion: DialNav为具身对话研究提供了重要基础,公开数据集和代码将促进该领域的未来发展。

[67] Cross-Layer Vision Smoothing: Enhancing Visual Understanding via Sustained Focus on Key Objects in Large Vision-Language Models

Jianfei Zhao,Feng Zhang,Xin Sun,Lingxing Kong,Zhixing Tan,Chong Feng

Main category: cs.CV

TL;DR: 提出了跨层视觉平滑(CLVS)方法,通过视觉记忆机制在LVLM的不同层之间平滑注意力分布,使模型能够持续关注关键物体,从而提升视觉理解能力。

  • Motivation: 大型视觉语言模型(LVLMs)能够准确定位图像中的关键物体,但对这些物体的注意力往往很短暂。假设持续关注关键物体可以提升LVLMs的视觉能力。
  • Method: CLVS方法包含一个视觉记忆机制,在第一层使用位置无偏的视觉注意力初始化记忆,在后续层中模型的视觉注意力会综合考虑先前层的视觉记忆,同时记忆会迭代更新以保持对关键物体的平滑注意力。使用不确定性作为视觉理解完成的指标来终止平滑过程。
  • Result: 在三个LVLMs的四个基准测试中验证了方法的有效性和泛化性。CLVS在各种视觉理解任务上达到了最先进的性能,特别是在关系和属性理解方面有显著提升。
  • Conclusion: 跨层视觉平滑通过维持对关键物体的持续注意力,有效提升了LVLMs的视觉理解能力,特别是在复杂的关系和属性理解任务上表现突出。

[68] MSGFusion: Multimodal Scene Graph-Guided Infrared and Visible Image Fusion

Guihui Li,Bowei Dong,Kaizhi Dong,Jiayi Li,Haiyong Zheng

Main category: cs.CV

TL;DR: MSGFusion是一个基于多模态场景图指导的红外与可见光图像融合框架,通过结构化场景图显式建模实体、属性和空间关系,在多个基准测试中显著优于现有方法。

  • Motivation: 现有深度学习方法主要依赖纹理、对比度等低层视觉线索,难以捕捉图像中的高层语义信息。近期尝试使用文本作为语义指导的方法依赖于非结构化描述,无法显式建模实体、属性和关系,限制了细粒度融合性能。
  • Method: MSGFusion通过深度耦合从文本和视觉中提取的结构化场景图,显式表示实体、属性和空间关系,然后通过场景图表示、层次聚合和图驱动融合等连续模块同步优化高层语义和低层细节。
  • Result: 在多个公共基准测试上的广泛实验表明,MSGFusion显著优于最先进的方法,特别是在细节保持和结构清晰度方面,并在低光目标检测、语义分割和医学图像融合等下游任务中展现出优异的语义一致性和泛化能力。
  • Conclusion: MSGFusion通过结构化场景图指导的多模态融合框架,成功解决了红外与可见光图像融合中高层语义信息捕获不足的问题,为多模态图像融合提供了新的有效解决方案。

[69] AREPAS: Anomaly Detection in Fine-Grained Anatomy with Reconstruction-Based Semantic Patch-Scoring

Branko Mitic,Philipp Seeböck,Helmut Prosch,Georg Langs

Main category: cs.CV

TL;DR: 提出了一种新的生成式异常检测方法,通过图像到图像转换和补丁相似性评分来精确检测医学图像中的异常区域,在胸部CT和脑部MRI上均表现出优于现有方法的性能。

  • Motivation: 医学图像中正常组织的细粒度变异性(如肺部解剖结构)对现有生成式异常检测方法构成挑战,需要开发能够更好处理这种变异性的新方法。
  • Method: 该方法包含两个主要步骤:1)使用图像到图像转换进行无异常重建;2)通过观察图像与生成图像对之间的补丁相似性评分来实现精确的异常定位。
  • Result: 在胸部CT感染性病变检测和脑部MRI缺血性卒中病变分割任务中,该方法在像素级异常分割方面表现优异,DICE分数分别相对提升了+1.9%和+4.4%。
  • Conclusion: 所提出的生成式异常检测方法能够有效处理医学图像中的正常组织变异性,在多个医学影像模态上都显示出优于现有最先进方法的性能,具有广泛的医学应用潜力。

[70] T-SiamTPN: Temporal Siamese Transformer Pyramid Networks for Robust and Efficient UAV Tracking

Hojat Ardi,Amir Jahanshahi,Ali Diba

Main category: cs.CV

TL;DR: T-SiamTPN是一个时序感知的Siamese跟踪框架,在SiamTPN架构基础上加入显式时序建模,通过时序特征融合和注意力机制提升跟踪性能,在保持计算效率的同时显著提升了成功率和精度。

  • Motivation: 现有跟踪器大多关注空间线索而忽略时序依赖,导致长期跟踪和遮挡情况下鲁棒性不足。基于相关性的Siamese跟踪器受限于线性相关操作,难以处理复杂的非线性外观变化。
  • Method: 扩展SiamTPN架构,引入时序特征融合和基于注意力的交互机制,增强时序一致性和特征表示能力。
  • Result: 相比基线方法,T-SiamTPN成功率和精度分别提升13.7%和14.7%,在Jetson Nano上实现7.1 FPS实时运行,计算效率高。
  • Conclusion: 时序建模对Siamese跟踪框架至关重要,T-SiamTPN为空中目标跟踪提供了一个强大而高效的解决方案。

[71] A Novel Compression Framework for YOLOv8: Achiev-ing Real-Time Aerial Object Detection on Edge Devices via Structured Pruning and Channel-Wise Distillation

Melika Sabaghian,Mohammad Ali Keyvanrad,Seyyedeh Mahila Moghadami

Main category: cs.CV

TL;DR: 提出了一种针对YOLOv8的三阶段压缩管道,结合稀疏感知训练、结构化通道剪枝和通道知识蒸馏,在VisDrone数据集上实现73.51%参数减少,仅损失2.7% AP50,推理速度从26FPS提升至68FPS。

  • Motivation: 在资源受限设备上高效部署深度学习模型进行空中目标检测,需要在不影响性能的情况下实现显著压缩。
  • Method: 三阶段压缩管道:1)稀疏感知训练引入动态稀疏性;2)利用批归一化缩放因子进行结构化通道剪枝;3)使用通道知识蒸馏(CWD)缓解精度损失,采用可调节温度和损失加权方案。
  • Result: YOLOv8m参数从25.85M减少到6.85M(减少73.51%),FLOPs从49.6G降到13.3G,MACs从101G降到34.5G,AP50仅下降2.7%至47.9,推理速度从26FPS提升到45FPS。使用TensorRT后进一步提升到68FPS。
  • Conclusion: 该方法实现了高效的模型压缩,在保持检测精度的同时显著提升推理速度,适用于资源受限的高吞吐量场景。

[72] MATTER: Multiscale Attention for Registration Error Regression

Shipeng Liu,Ziliang Xiong,Khac-Hoang Ngo,Per-Erik Forssén

Main category: cs.CV

TL;DR: 本文提出了一种基于回归的点云配准质量验证方法,取代传统的分类方法,能够更精细地量化配准质量,并采用多尺度特征提取和注意力聚合机制,在异构空间密度的点云上实现准确鲁棒的配准误差估计。

  • Motivation: 现有的点云配准质量验证方法都将其视为分类任务,只能将配准质量分配到少数几个类别中,无法提供精细的量化评估。本文旨在通过回归方法实现更细粒度的配准质量量化。
  • Method: 使用回归方法进行点云配准质量验证,扩展了先前使用的错位相关特征,采用多尺度特征提取和基于注意力的聚合机制。
  • Result: 在多样化数据集上实现了准确鲁棒的配准误差估计,特别是在具有异构空间密度的点云上表现优异。当用于指导下游建图任务时,相比最先进的基于分类的方法,显著提高了给定重配准帧数下的建图质量。
  • Conclusion: 回归方法比分类方法能更精细地量化点云配准质量,多尺度特征提取和注意力聚合机制提高了在异构密度点云上的性能,对下游任务有显著改进效果。

[73] 4DRadar-GS: Self-Supervised Dynamic Driving Scene Reconstruction with 4D Radar

Xiao Tang,Guirong Zhuo,Cong Wang,Boyuan Zheng,Minqing Huang,Lianqing Zheng,Long Chen,Shouyi Lu

Main category: cs.CV

TL;DR: 4DRadar-GS是一个基于4D雷达增强的自监督3D重建框架,专门针对动态驾驶场景,通过雷达辅助的高斯初始化和速度引导的点跟踪模型,解决了现有方法在动态物体重建中的挑战。

  • Motivation: 现有的自监督3D重建方法在频率域解耦或光流方面存在局限性,难以准确重建动态物体,主要由于运动估计不精确和时间一致性弱,导致动态场景元素的不完整或扭曲表示。
  • Method: 提出4D雷达辅助的高斯初始化方案,利用4D雷达的速度和空间信息分割动态物体并恢复单目深度尺度;开发速度引导的点跟踪模型(VGPT),在场景流监督下联合训练,跟踪细粒度动态轨迹并构建时间一致的表示。
  • Result: 在OmniHD-Scenes数据集上评估,4DRadar-GS在动态驾驶场景3D重建方面达到了最先进的性能。
  • Conclusion: 4DRadar-GS通过整合4D雷达信息,有效解决了动态物体重建的挑战,为自动驾驶系统的验证和感知模型训练提供了更准确的3D重建解决方案。

[74] Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings

Abdalla Arafa,Didier Stricker

Main category: cs.CV

TL;DR: 提出了一种基于预分解对象级高斯和CLIP特征聚合的新方法,绕过可微分渲染来解决3D高斯溅射的语义理解限制,实现准确的开放词汇对象检索和任务适应。

  • Motivation: 3D高斯溅射(3DGS)在实时逼真渲染方面取得进展,但其固有的模糊性阻碍了3D场景理解,限制了在AR/VR和机器人领域的应用。现有方法通过2D基础模型蒸馏学习语义,但alpha混合会平均跨对象语义,无法实现3D级理解。
  • Method: 利用预分解的对象级高斯,通过多视图CLIP特征聚合表示每个对象,创建全面的"嵌入包"来整体描述对象。绕过可微分渲染进行语义处理,支持文本查询与对象级嵌入比较进行检索,并能将对象ID传播到像素或高斯进行分割和提取。
  • Result: 实验表明该方法有效克服了3D开放词汇对象提取的挑战,同时在2D开放词汇分割方面与最先进方法性能相当,确保了最小程度的妥协。
  • Conclusion: 该方法提供了一个范式转换的替代方案,通过对象级表示和特征聚合解决了3D高斯溅射的语义理解限制,为3D场景理解开辟了新途径。

[75] Time-step Mixup for Efficient Spiking Knowledge Transfer from Appearance to Event Domain

Yuqi Xie,Shuhan Ye,Chong Wang,Jiazhen Xu,Le Shen,Yuanbin Qian,Jiangbo Qian

Main category: cs.CV

TL;DR: 提出Time-step Mixup知识迁移方法(TMKT),通过时间步混合RGB和DVS输入,结合模态感知辅助学习目标,实现跨模态的平滑知识迁移,提升脉冲神经网络在视觉分类任务中的性能。

  • Motivation: 事件相机与脉冲神经网络结合具有能效优势,但事件数据稀缺且DVS输出稀疏,现有方法忽略了RGB与DVS模态间的分布差异,需要更好的跨模态知识迁移策略。
  • Method: 提出时间步混合知识迁移(TMKT):1)在多个时间步对RGB和DVS输入进行插值混合;2)引入模态感知辅助学习目标,支持跨模态标签混合并增强模态区分能力。
  • Result: 在多个数据集上的广泛实验证明了方法的有效性,能够实现更平滑的知识迁移,缓解训练中的模态偏移,在脉冲图像分类任务中取得优越性能。
  • Conclusion: TMKT方法充分利用SNNs的异步特性,通过精细的时间步混合和模态感知学习目标,成功解决了跨模态知识迁移中的分布差异问题,为事件相机视觉处理提供了有效的训练方案。

[76] MMMS: Multi-Modal Multi-Surface Interactive Segmentation

Robin Schön,Julian Lorenz,Katja Ludwig,Daniel Kienzle,Rainer Lienhart

Main category: cs.CV

TL;DR: 提出了一种基于用户点击的多模态多表面交互式分割方法,通过融合RGB图像、非RGB模态和用户点击信息来改进分割掩码,在复杂多表面分割场景中显著减少了所需点击次数。

  • Motivation: 解决多表面同时存在于同一图像中的复杂分割问题,这些表面可能高度纠缠和相邻,需要新的交互式分割方法来处理这种挑战性场景。
  • Method: 设计了一个网络架构,输入包括RGB图像、多个非RGB模态、错误掩码和编码的点击信息,网络预测改进的分割掩码。架构设计满足两个条件:RGB主干网络作为黑盒使用,交互特定信息在图像特征提取和多模态融合后集成以减少响应时间。
  • Result: 多模态融合策略有效,在DeLiVER数据集上平均每表面减少1.28次点击(NoC@90),在MFNet上减少1.19次点击。RGB-only基线在经典单掩码交互分割场景中也表现出竞争性甚至优越性能。
  • Conclusion: 该方法在多模态多表面交互分割任务中表现出色,通过有效融合多模态信息和用户交互,显著提高了分割效率和准确性,为复杂分割场景提供了实用解决方案。

[77] ICDAR 2025 Competition on FEw-Shot Text line segmentation of ancient handwritten documents (FEST)

Silvia Zottin,Axel De Nardin,Giuseppe Branca,Claudio Piciarelli,Gian Luca Foresti

Main category: cs.CV

TL;DR: FEST竞赛旨在推动古代手写文档的少样本文本行分割方法开发,参赛者仅使用每份手稿的3张标注图像进行训练,以解决历史文档分析中标注数据稀缺的问题。

  • Motivation: 历史手写文档的文本行分割面临独特挑战:不规则笔迹、墨水褪色、复杂版式以及标注数据稀缺,使得完全监督学习方法不实用。
  • Method: 通过少样本学习竞赛形式,要求参与者仅使用每份手稿的3张标注图像训练系统,在U-DIADS-TL数据集上进行文本行分割。
  • Result: 竞赛数据集包含多样化古代手稿,具有各种版式、退化程度和非标准格式,真实反映实际应用场景。
  • Conclusion: FEST竞赛旨在促进开发鲁棒且适应性强的少样本学习方法,使人文研究者能以最少的手动标注工作使用自动化文档分析工具。

[78] SHREC 2025: Protein surface shape retrieval including electrostatic potential

Taher Yacoub,Camille Depenveiller,Atsushi Tatsuma,Tin Barisin,Eugen Rusakov,Udo Gobel,Yuxu Peng,Shiqiang Deng,Yuki Kagaya,Joon Hong Park,Daisuke Kihara,Marco Guerra,Giorgio Palmieri,Andrea Ranieri,Ulderico Fugacci,Silvia Biasotti,Ruiwen He,Halim Benhabiles,Adnane Cabani,Karim Hammoudi,Haotian Li,Hao Huang,Chunyan Li,Alireza Tehrani,Fanwang Meng,Farnaz Heidar-Zadeh,Tuan-Anh Yang,Matthieu Montes

Main category: cs.CV

TL;DR: SHREC 2025蛋白质表面形状检索赛道评估了15种方法在11,555个蛋白质表面上的检索性能,发现结合静电势能的方法表现最佳

  • Motivation: 评估不同蛋白质表面形状检索方法在大规模数据集上的性能,探索分子表面描述符对检索效果的影响
  • Method: 使用11,555个带有静电势能计算的蛋白质表面数据集,通过准确率、平衡准确率、F1分数、精确率和召回率等指标评估15种检索方法
  • Result: 结合静电势能作为分子表面形状补充的方法取得了最佳检索性能,在数据有限的类别中也表现良好
  • Conclusion: 静电势能等附加分子表面描述符对蛋白质表面形状检索至关重要,特别是在数据有限的情况下能显著提升检索效果

[79] Improving Accuracy and Efficiency of Implicit Neural Representations: Making SIREN a WINNER

Hemanth Chandravamsi,Dhanush V. Shenoy,Steven H. Frankel

Main category: cs.CV

TL;DR: WINNER提出了一种针对SIREN网络的权重初始化方法,通过高斯噪声扰动来解决SIREN在拟合频谱不匹配信号时的'频谱瓶颈'问题,在音频、图像和3D形状拟合任务中取得了显著提升。

  • Motivation: SIREN网络在权重初始化不当时,无法有效拟合超出其频率支持的信号,特别是在频谱不匹配时会出现'频谱瓶颈'现象,导致输出接近零且无法恢复可表示的频率成分。
  • Method: WINNER方法对均匀初始化的SIREN权重添加高斯噪声,噪声尺度根据目标信号的频谱质心自适应确定,类似于随机傅里叶嵌入但无需额外可训练参数。
  • Result: 该方法在音频拟合任务中达到state-of-the-art性能,在图像和3D形状拟合任务中相比基础SIREN有显著提升。
  • Conclusion: WINNER不仅解决了SIREN的频谱瓶颈问题,还为深度神经网络训练提供了新的自适应、目标感知初始化策略方向。

[80] PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era

Xu Zheng,Chenfei Liao,Ziqiao Weng,Kaiyu Lei,Zihao Dongfang,Haocong He,Yuanhuiyi Lyu,Lutao Jiang,Lu Qi,Li Chen,Danda Pani Paudel,Kailun Yang,Linfeng Zhang,Luc Van Gool,Xuming Hu

Main category: cs.CV

TL;DR: 全景视觉在具身AI时代的快速发展,提出了PANORAMA系统架构,涵盖生成、感知、理解等关键子系统,并分析了未来挑战和机遇

  • Motivation: 全向视觉相比传统针孔视觉能提供更全面的环境感知,但在基础研究上滞后。随着工业需求和学术兴趣增长,需要系统性地推动全向视觉在具身AI时代的发展
  • Method: 提出PANORAMA全景系统架构,包含四个关键子系统,综合分析学术界和工业界的突破,包括全向生成、感知、理解及相关数据集
  • Result: 系统梳理了全向视觉的最新进展,提出了理想的系统架构,并识别了该领域的发展趋势、跨社区影响和未来路线图
  • Conclusion: 全向视觉在具身AI时代具有重要价值,PANORAMA架构为构建鲁棒的通用全向AI系统提供了框架,但仍面临开放挑战需要未来研究解决

[81] Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection

Boyu Han,Qianqian Xu,Shilong Bao,Zhiyong Yang,Sicong Li,Qingming Huang

Main category: cs.CV

TL;DR: 提出DR-MoE双阶段重加权专家混合框架,通过特征级和分类级专家模块融合,有效识别第一人称视频中的细微错误动作

  • Motivation: 解决从第一人称视角视频中检测用户动作错误的问题,特别是针对那些细微且不频繁发生的错误,这些错误在传统方法中难以识别
  • Method: 双阶段框架:第一阶段使用冻结ViViT和LoRA调优ViViT提取特征,通过特征级专家模块融合;第二阶段训练三个不同目标分类器(重加权交叉熵、AUC损失、标签感知损失+锐度感知最小化),通过分类级专家模块融合预测
  • Result: 该方法取得了强劲性能,特别是在识别罕见和模糊错误实例方面表现突出
  • Conclusion: DR-MoE框架通过多专家融合策略有效解决了动作错误检测中的类别不平衡和模糊性问题,代码已开源

[82] Brought a Gun to a Knife Fight: Modern VFM Baselines Outgun Specialized Detectors on In-the-Wild AI Image Detection

Yue Zhou,Xinan He,Kaiqing Lin,Bing Fan,Feng Ding,Jinhua Zeng,Bin Li

Main category: cs.CV

TL;DR: 基于现代视觉基础模型(VFM)的简单线性分类器在AI生成图像检测任务中显著优于专用检测器,在真实场景中准确率提升超过20%,主要得益于VFM在预训练中学习到的文本-图像对齐能力。

  • Motivation: 现有专用AI生成图像检测器在精心设计的基准测试上表现优异,但在真实世界场景中失败率极高,需要寻找更有效的解决方案。
  • Method: 使用现代视觉基础模型(VFM)作为特征提取器,在其上训练简单的线性分类器进行AI生成图像检测,并通过文本-图像相似性分析探究VFM的能力来源。
  • Result: 该方法在真实世界基准测试中比专用检测器准确率提升超过20%,发现VFM通过预训练学习到了伪造相关概念的文本-图像对齐能力。
  • Conclusion: 现代VFM的原始能力比静态专用检测器更有效,真正的泛化评估需要测试数据独立于模型的整个训练历史(包括预训练)。

[83] Drone Detection Using a Low-Power Neuromorphic Virtual Tripwire

Anton Eldeborg Lundin,Rasmus Winzell,Hanna Hamrell,David Gustafsson,Hannes Ovrén

Main category: cs.CV

TL;DR: 基于脉冲神经网络和神经形态相机的无人机检测系统,比GPU方案能效高几个数量级,可电池供电运行一年以上

  • Motivation: 小型无人机对军事和民用基础设施构成威胁,需要早期自动化检测
  • Method: 使用脉冲神经网络和神经形态相机(事件相机)构建检测系统,部署在神经形态芯片上,形成全神经形态系统
  • Result: 系统比边缘GPU参考方案能效高几个数量级,可电池供电运行超过一年;模型主要依赖无人机形状而非螺旋桨时间特征
  • Conclusion: 小型低功耗设计便于在争议区域或缺乏电力基础设施的地点部署,可构建虚拟警戒线检测无人机进入限制区域

[84] Dream3DAvatar: Text-Controlled 3D Avatar Reconstruction from a Single Image

Gaofeng Liu,Hengsen Li,Ruoyu Gao,Xuetong Li,Zhiyuan Ma,Tao Fang

Main category: cs.CV

TL;DR: Dream3DAvatar是一个高效、文本可控的两阶段3D虚拟人生成框架,通过多视角生成和3D重建技术,解决了单图像重建中遮挡区域几何和纹理控制的难题。

  • Motivation: 单图像3D虚拟人重建任务由于单目输入信息有限,存在固有不适定性,难以控制遮挡区域的几何和纹理生成。
  • Method: 两阶段框架:第一阶段使用轻量级适配器增强的多视角生成模型(包含Pose-Adapter和ID-Adapter-G),第二阶段使用前馈Transformer模型进行3D高斯溅射表示重建(包含ID-Adapter-R)。
  • Result: 实验表明该方法能够生成逼真、可直接动画化的3D虚拟人,无需后处理,在多个评估指标上均优于现有基线方法。
  • Conclusion: Dream3DAvatar通过创新的适配器设计和两阶段流程,有效解决了单图像3D虚拟人重建中的遮挡问题,实现了高质量的文本可控生成。

[85] Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models

Yan Chen,Long Li,Teng Xi,Long Zeng,Jingdong Wang

Main category: cs.CV

TL;DR: 提出了一个两阶段强化学习框架PeBR-R1,专门针对视觉语言模型的感知和推理能力进行联合增强,解决了直接移植LLM RL方法到VLM的不足

  • Motivation: 现有的RL方法直接从LLM移植到VLM效果不佳,因为VLM任务更复杂,需要先准确感知视觉输入才能进行有效推理
  • Method: 采用两阶段RL框架:第一阶段通过粗粒度和细粒度视觉理解增强视觉感知能力;第二阶段专门提升推理能力。使用数据集级采样解决RL训练中的优势消失问题
  • Result: 在七个基准数据集上的实验证明该方法有效,PeBR-R1模型在多种视觉推理任务上表现出优越性能
  • Conclusion: 提出的两阶段RL框架成功解决了VLM中感知和推理能力的联合优化问题,为视觉语言模型的能力提升提供了有效方案

[86] HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models

Xu Li,Yuxuan Liang,Xiaolei Chen,Yi Zheng,Haotian Chen,Bin Li,Xiangyang Xue

Main category: cs.CV

TL;DR: HERO是一个高分辨率视觉标记早期丢弃框架,通过内容自适应标记预算分配和功能感知标记选择,在HR-LVLMs中实现高效推理,无需训练即可获得优越的效率-准确性权衡。

  • Motivation: HR-LVLMs通过将高分辨率图像裁剪为局部图块并独立编码,实现了卓越的细粒度视觉理解能力,但这种分治范式显著增加了视觉标记数量,导致计算和内存开销大幅增加。
  • Method: 基于三个关键发现:局部图块重要性不同、CLIP编码器中CLS标记呈现两阶段注意力模式、不同阶段强调的视觉标记编码不同粒度信息。提出HERO框架,整合内容自适应标记预算分配和功能感知标记选择。
  • Result: HERO在多样化基准测试和模型规模上实现了优越的效率-准确性权衡,所有操作都在无需训练的情况下完成。
  • Conclusion: 该研究为HR-LVLMs中的高效推理提供了实证见解和实用解决方案,通过准确估计图块级重要性并选择性保留具有互补作用的视觉标记来优化性能。

[87] TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation

Qianqi Lu,Yuxiang Xie,Jing Zhang,Shiwei Zou,Yan Chen,Xidao Luan

Main category: cs.CV

TL;DR: TFANet是一个三阶段图像-文本特征对齐网络,通过知识增强、融合和强化三个阶段系统性地解决多模态错位和语言语义损失问题,在复杂场景中实现更精确的指代图像分割。

  • Motivation: 现有的指代图像分割方法在多模态对齐和语言语义保持方面存在困难,特别是在包含多个视觉相似对象的复杂场景中,经常出现目标定位错误或不完整分割的问题。
  • Method: 提出三阶段框架:1)知识增强阶段(KPS)使用多尺度线性交叉注意力模块(MLAM)实现双向语义交换;2)知识融合阶段(KFS)通过跨模态特征扫描模块(CFSM)捕获长距离依赖;3)知识强化阶段(KIS)使用词级语言特征引导的语义深化模块(WFDM)补偿语义退化。
  • Result: 该方法建立了图像区域与不同粒度语言描述之间的丰富高效对齐,能够建模长距离跨模态依赖,在复杂场景中提升对齐精度。
  • Conclusion: TFANet通过系统性的三阶段多模态特征对齐框架,有效解决了指代图像分割中的多模态错位和语义损失问题,特别适用于包含多个相似对象的复杂场景。

[88] Using KL-Divergence to Focus Frequency Information in Low-Light Image Enhancement

Yan Xingyang,Huang Xiaohong,Zhang Zhao,You Tian,Xu Ziheng

Main category: cs.CV

TL;DR: LLFDisc是一个用于频域感知增强的U型深度网络,通过交叉注意力和门控机制,结合新颖的分布感知损失函数,在傅里叶域直接拟合信息并最小化KL散度,实现了优于传统MSE损失的频域对齐效果。

  • Motivation: 传统傅里叶频率信息拟合使用像素级损失函数,过度关注局部信息导致全局信息丢失。需要一种能够更好处理频域信息的方法来提升图像增强效果。
  • Method: 提出U型深度增强网络LLFDisc,集成交叉注意力和门控机制;设计分布感知损失函数,在傅里叶域使用闭式KL散度目标最小化差异;改进基于VGG的感知损失,在深度特征中嵌入KL散度。
  • Result: 在多个基准测试上的广泛实验表明,LLFDisc在定性和定量评估中都达到了最先进的性能。
  • Conclusion: LLFDisc通过频域感知增强方法和分布感知损失函数,有效解决了传统方法中的全局信息丢失问题,实现了优异的图像增强效果。

[89] Enhancing Dual Network Based Semi-Supervised Medical Image Segmentation with Uncertainty-Guided Pseudo-Labeling

Yunyao Lu,Yihang Wu,Ahmad Chaddad,Tareef Daqqaq,Reem Kateb

Main category: cs.CV

TL;DR: 提出基于双网络架构的半监督3D医学图像分割框架,通过交叉一致性增强模块和不确定性感知机制减少伪标签噪声,结合自监督对比学习降低预测不确定性,在多个数据集上取得优异性能

  • Motivation: 监督医学图像分割模型依赖大量标注数据,现实中难以获取。现有半监督分割方法存在伪标签噪声和特征空间监督不足的问题
  • Method: 使用双网络架构,设计交叉一致性增强模块(交叉伪监督和熵过滤监督),动态权重策略调整伪标签贡献,自监督对比学习机制对齐不确定体素特征与可靠类别原型
  • Result: 在三个3D分割数据集(左心房、NIH胰腺、BraTS-2019)上表现优异,如10%标注数据下左心房Dice分数达89.95%,优于现有最佳方法
  • Conclusion: 所提方法能有效减少伪标签噪声和预测不确定性,在半监督医学图像分割任务中展现出优越性能,各模块的有效性通过消融实验得到验证

[90] A Synthetic Data Pipeline for Supporting Manufacturing SMEs in Visual Assembly Control

Jonas Werheid,Shengjie He,Aymen Gannouni,Anas Abdelrazeq,Robert H. Schmitt

Main category: cs.CV

TL;DR: 提出基于CAD数据生成合成训练数据的视觉装配质量控制方法,可显著减少数据收集和标注成本,在合成数据上达到99.5% mAP,真实数据上达到93% mAP

  • Motivation: 解决中小企业在计算机视觉装配质量控制中面临的高成本数据采集、标注和训练难题,通过合成数据降低实施门槛
  • Method: 利用CAD数据生成模拟场景的合成训练数据,结合目标检测算法构建数据高效的视觉装配控制方案
  • Result: 在合成行星齿轮系统组件识别中,合成训练数据达到99.5% mAP@0.5:0.95,迁移到真实相机拍摄测试数据时达到93% mAP
  • Conclusion: 合成数据生成在适应性流程中效果显著,有潜力支持中小企业实施资源高效的视觉装配控制解决方案

[91] Hierarchical Deep Fusion Framework for Multi-dimensional Facial Forgery Detection -- The 2024 Global Deepfake Image Detection Challenge

Kohou Wang,Huan Hu,Xiang Liu,Zezhou Chen,Ping Chen,Zhaoxiang Liu,Shiguo Lian

Main category: cs.CV

TL;DR: 提出了层次化深度融合框架HDFF,通过集成四种预训练模型实现高性能人脸伪造检测,在竞赛中排名前11%

  • Motivation: 深度伪造技术的泛滥对数字安全和真实性构成重大挑战,需要能够检测多种伪造技术的鲁棒通用模型
  • Method: 集成Swin-MLP、CoAtNet、EfficientNetV2和DaViT四种预训练模型,通过多阶段微调和特征拼接,训练最终分类器层
  • Result: 在竞赛私有排行榜上获得0.96852的最终得分,在184个团队中排名第20位
  • Conclusion: 层次化融合方法在复杂图像分类任务中表现出高效性,证明了集成多样化模型的优势

[92] Weakly and Self-Supervised Class-Agnostic Motion Prediction for Autonomous Driving

Ruibo Li,Hanyu Shi,Zhe Wang,Guosheng Lin

Main category: cs.CV

TL;DR: 提出弱监督和自监督的类无关运动预测方法,利用前景/背景或非地面/地面掩码替代运动标注,显著减少标注成本,性能接近有监督方法

  • Motivation: 自动驾驶需要理解动态环境中的运动,但获取运动标注成本高昂。室外场景通常包含移动前景和静态背景,运动理解可与场景解析关联
  • Method: 提出弱监督范式,用全标注或部分标注(1%, 0.1%)的前景/背景掩码替代运动标注;利用非地面/地面掩码进一步减少标注需求;设计鲁棒一致性感知Chamfer距离损失函数
  • Result: 弱监督和自监督模型优于现有自监督方法,弱监督模型甚至可与某些有监督方法媲美
  • Conclusion: 该方法在标注成本和性能之间取得了有效平衡,为类无关运动预测提供了实用的解决方案

[93] Advancing Real-World Parking Slot Detection with Large-Scale Dataset and Semi-Supervised Baseline

Zhihao Zhang,Chunyu Lin,Lang Nie,Jiyuan Wang,Yao Zhao

Main category: cs.CV

TL;DR: 本文提出了一个大规模停车位检测数据集CRPS-D和首个半监督停车位检测方法SS-PSD,通过教师-学生模型和置信度引导的掩码一致性提升检测性能。

  • Motivation: 现有停车位检测数据集规模有限,缺乏真实世界噪声干扰,且人工标注成本高、易出错,需要构建更大规模数据集并开发能利用未标注数据的半监督方法。
  • Method: 构建CRPS-D数据集(包含多种光照、天气条件和挑战性停车位变体),开发基于教师-学生模型的SS-PSD方法,采用置信度引导掩码一致性和自适应特征扰动技术。
  • Result: 实验结果表明SS-PSD在提出的数据集和现有数据集上均优于现有最优方法,未标注数据越多,性能提升越显著。
  • Conclusion: CRPS-D是目前规模最大、停车位密度最高的数据集,SS-PSD是首个半监督停车位检测方法,有效解决了数据标注成本高和真实场景噪声问题。

[94] MSDNet: Efficient 4D Radar Super-Resolution via Multi-Stage Distillation

Minqing Huang,Shouyi Lu,Boyuan Zheng,Ziyao Li,Xiao Tang,Guirong Zhuo

Main category: cs.CV

TL;DR: MSDNet是一个多阶段蒸馏框架,通过特征重建和轻量级扩散网络,将稠密LiDAR先验知识高效迁移到4D雷达特征中,实现高保真重建和低延迟推理

  • Motivation: 现有4D雷达超分辨率方法存在训练成本高、推理延迟大、泛化能力差的问题,难以平衡精度和效率
  • Method: 提出两阶段蒸馏框架:第一阶段进行重建引导的特征蒸馏,第二阶段进行扩散引导的特征蒸馏,并引入噪声适配器自适应对齐噪声水平
  • Result: 在VoD和内部数据集上的实验表明,MSDNet实现了高保真重建和低延迟推理,并在下游任务上持续提升性能
  • Conclusion: MSDNet通过多阶段蒸馏有效解决了4D雷达超分辨率中精度与效率的平衡问题,为自动驾驶感知提供了高效可靠的解决方案

[95] TexTAR : Textual Attribute Recognition in Multi-domain and Multi-lingual Document Images

Rohan Kumar,Jyothi Swaroopa Jinka,Ravi Kiran Sarvadevabhatla

Main category: cs.CV

TL;DR: TexTAR是一个基于Transformer的多任务上下文感知模型,用于文本属性识别(如粗体、斜体、下划线、删除线),通过创新的数据选择管道和2D RoPE机制提升性能,并在新构建的多语言多领域数据集MMTAD上取得最优效果。

  • Motivation: 现有方法在计算效率和嘈杂多语言环境下的适应性方面存在不足,而文本属性识别对于理解文档语义、结构和视觉呈现至关重要。
  • Method: 提出TexTAR模型,采用多任务上下文感知Transformer架构,引入新颖的数据选择管道增强上下文感知,使用2D RoPE风格的机制整合输入上下文信息。
  • Result: 在新建的多语言多领域数据集MMTAD上进行广泛评估,TexTAR超越了现有方法,证明了上下文感知对提升文本属性识别性能的重要性。
  • Conclusion: 上下文感知是实现最先进文本属性识别性能的关键因素,TexTAR模型在计算效率和适应性方面表现出色,为文档分析提供了有效的解决方案。

[96] Enhancing Video Large Language Models with Structured Multi-Video Collaborative Reasoning (early version)

Zhihao He,Tianyao He,Tieyuan Chen,Yun Xu,Huabin Liu,Chaofan Gan,Gui Zou,Weiyao Lin

Main category: cs.CV

TL;DR: 提出多视频协作框架,通过视频结构化模块将视频知识表示为时空图,再通过图融合模块整合多视频信息,最后构建结构化提示输入大语言模型,有效解决单视频时空不完整性问题。

  • Motivation: 当前视频语言模型因单个视频固有的时空不完整性导致幻觉和不准确,需要利用多个相关视频来增强推理性能,但直接输入冗余视频数据会适得其反。
  • Method: 1) 视频结构化模块将视频知识表示为时空图;2) 图融合模块整合多视频有价值信息到增强图节点token;3) 构建多视频结构化提示整合图、视觉和文本token输入大语言模型。
  • Result: 大量实验证实了框架的有效性,展示了其作为推进视频语言模型发展的有前景途径。
  • Conclusion: 提出的多视频协作框架通过结构化表示和融合方法,有效解决了视频推理中的时空不完整性问题,为视频语言模型的进步提供了新方向。

[97] WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Ruifei Ding,Zhe Chen,Wen Fan,Chen Long,Huijuan Xiao,Yelu Zeng,Zhen Dong,Bisheng Yang

Main category: cs.CV

TL;DR: WHU-STree是一个跨城市、多模态、丰富标注的街景树木数据集,包含21,007棵标注树木实例,涵盖50个物种和2个形态参数,支持10多项街景树木盘点任务。

  • Motivation: 传统街景树木调查方法耗时耗力,现有移动测绘系统获取的数据集存在规模小、标注有限或单模态等问题,限制了全面分析的实用性。
  • Method: 通过移动测绘系统在两个不同城市收集同步点云和高分辨率图像数据,构建包含21,007个标注树木实例的多模态数据集。
  • Result: 数据集支持树木物种分类和单木分割等关键任务,实验证明多模态数据融合具有显著潜力,跨域适用性是实际算法部署的关键前提。
  • Conclusion: WHU-STree为街景树木资产管理提供了重要数据基础,未来研究方向包括多模态融合、多任务协作、跨域泛化、空间模式学习和多模态大语言模型应用。

[98] More performant and scalable: Rethinking contrastive vision-language pre-training of radiology in the LLM era

Yingtai Li,Haoran Lai,Xiaoqian Zhou,Shuai Ming,Wenxin Ma,Wei Wei,Shaohua Kevin Zhou

Main category: cs.CV

TL;DR: 利用大型语言模型自动从放射报告中提取诊断标签,创建低成本的大规模医疗视觉-语言预训练数据集,显著提升医学AI系统的性能和可扩展性

  • Motivation: 大型语言模型的出现为医学对比视觉-语言预训练带来了革命性机遇,但需要解决如何低成本获取大规模监督预训练数据的问题
  • Method: 使用LLMs自动从放射报告中提取诊断标签(准确率>96%),创建"银标准"数据集,然后用3D ResNet-18和标准CLIP训练进行监督预训练
  • Result: 在多个数据集上达到最先进性能:CT-RATE零样本诊断AUC 83.8%,RAD-ChestCT AUC 77.3%,跨模态检索性能显著提升(图像-图像MAP@50=53.7%,报告-图像Recall@100=52.2%)
  • Conclusion: LLMs能够以极低成本(约3美元处理5万对CT图像-报告)实现大规模监督预训练,使高性能医疗AI系统更加普及和可扩展

[99] Road Obstacle Video Segmentation

Shyam Nandan Rai,Shyamgopal Karthik,Mariana-Iuliana Georgescu,Barbara Caputo,Carlo Masone,Zeynep Akata

Main category: cs.CV

TL;DR: 本文提出道路障碍物视频分割任务,通过利用时间连续性改进现有单帧分割方法的不一致性问题,建立了四个评估基准并引入基于视觉基础模型的强基线方法,在长视频序列中达到了最先进性能。

  • Motivation: 现有道路障碍物分割方法仅处理单帧图像,忽略了问题的时序特性,导致连续帧间的预测结果不一致。作者认为道路障碍物分割本质上是时序任务,因为连续帧的分割图具有强相关性。
  • Method: 策划和适配了四个道路障碍物视频分割评估基准,评估了11种最先进的图像和视频分割方法,并引入了两种基于视觉基础模型的强基线方法。
  • Result: 在长距离视频序列的道路障碍物视频分割任务中建立了新的最先进性能,为未来研究提供了有价值的见解和方向。
  • Conclusion: 道路障碍物分割是固有的时序任务,利用时间连续性可以显著改善分割一致性,基于视觉基础模型的方法在该任务上表现出色,为自动驾驶安全导航提供了重要技术支撑。

[100] Vi-SAFE: A Spatial-Temporal Framework for Efficient Violence Detection in Public Surveillance

Ligang Chang,Shengkai Xu,Liangchang Shen,Binhan Xu,Junqiao Wang,Tianyu Shi,Yanhui Du

Main category: cs.CV

TL;DR: Vi-SAFE是一个用于公共监控暴力检测的时空框架,结合增强版YOLOv8和时序分割网络,在RWF-2000数据集上达到88%准确率,优于现有方法。

  • Motivation: 解决公共监控中暴力检测面临的挑战,包括小尺度目标、复杂环境和实时时序分析需求,提升公共安全监控效果。
  • Method: 提出Vi-SAFE框架:使用GhostNetV3作为轻量化骨干网络优化YOLOv8,加入EMA注意力机制和剪枝技术降低计算成本;YOLOv8负责提取人体区域,TSN进行暴力行为二分类,两者分别在行人和暴力数据集上单独训练。
  • Result: 在RWF-2000数据集上实验显示,Vi-SAFE达到0.88的准确率,显著优于单独使用TSN的0.77准确率,在准确率和效率方面都超越了现有方法。
  • Conclusion: Vi-SAFE框架在公共安全监控中表现出色,有效解决了暴力检测的关键挑战,证明了其在准确性和计算效率方面的优势。

[101] End4: End-to-end Denoising Diffusion for Diffusion-Based Inpainting Detection

Fei Wang,Xuecheng Wu,Zheng Zhang,Danlei Huang,Yuheng Huang,BoWang

Main category: cs.CV

TL;DR: 提出End4方法检测扩散修复图像,通过去噪重建模型和尺度感知金字塔融合模块提高检测性能,建立了包含五种掩码区域的综合基准测试

  • Motivation: 扩散模型在图像生成和修复方面能力强大,但存在被恶意使用的风险。现有方法难以有效检测基于扩散的修复图像,即使训练数据中包含类似修复图像
  • Method: End4方法设计端到端去噪重建模型,提高重建和检测过程的潜在空间对齐度;采用尺度感知金字塔融合模块(SPFM),在不同尺度注意力金字塔层指导下细化局部图像特征
  • Result: 大量实验表明End4能有效泛化到未见过的掩码模式,并在各种扰动下保持鲁棒性
  • Conclusion: End4方法在扩散修复图像检测方面表现出色,具有很好的泛化能力和鲁棒性,代码和数据集将很快发布

[102] Curriculum Multi-Task Self-Supervision Improves Lightweight Architectures for Onboard Satellite Hyperspectral Image Segmentation

Hugo Carlesso,Josiane Mothe,Radu Tudor Ionescu

Main category: cs.CV

TL;DR: 提出了一种新颖的课程多任务自监督学习框架(CMTSSL),用于高光谱图像的轻量级模型训练,在保持高性能的同时大幅降低模型复杂度

  • Motivation: 高光谱成像数据维度高且卫星数据传输速率慢,需要轻量级模型支持星上处理并减少冗余数据传输
  • Method: 整合掩码图像建模与解耦的空间和光谱拼图求解,采用课程学习策略逐步增加数据复杂度,联合捕获光谱连续性、空间结构和全局语义特征
  • Result: 在四个公共基准数据集上验证,下游分割任务表现一致提升,模型比现有最优模型轻16000倍以上
  • Conclusion: CMTSSL在轻量级架构的通用表示学习方面具有巨大潜力,特别适合星上卫星部署的实际高光谱应用

[103] Intelligent Vacuum Thermoforming Process

Andi Kuswoyo,Christos Margadji,Sebastian W. Pattinson

Main category: cs.CV

TL;DR: 基于视觉的真空热成型质量控制系统,使用k近邻算法优化工艺参数,提高零件质量

  • Motivation: 真空热成型过程中材料性能和工具配置的变化导致质量一致性难以保证,需要开发一种能够预测和优化工艺参数的质量控制系统
  • Method: 使用真空成型样本的视觉数据构建数据集,采用图像增强技术改进模型训练,应用k近邻算法将低质量零件映射到高质量对应物以确定工艺参数调整
  • Result: 模型在调整加热功率、加热时间和真空时间方面表现出色,有效减少缺陷并提高生产效率
  • Conclusion: 该视觉质量控制系统能够以最少的数据需求显著提升真空热成型零件的质量一致性和生产效率

[104] ResidualViT for Efficient Temporally Dense Video Encoding

Mattia Soldan,Fabian Caba Heilbron,Bernard Ghanem,Josef Sivic,Bryan Russell

Main category: cs.CV

TL;DR: 提出ResidualViT架构,通过可学习残差连接和token削减模块,在保持精度的同时显著降低视频时序密集任务的计算成本

  • Motivation: 视频理解任务需要高时间分辨率下的时序密集推理,但计算帧级特征的计算成本很高,需要降低计算开销
  • Method: 引入ResidualViT架构,包含可学习残差连接确保时序一致性,以及token削减模块选择性丢弃冗余信息;提出轻量级蒸馏策略近似原始基础模型的帧级特征
  • Result: 在4个任务5个数据集上验证,计算成本降低60%,推理速度提升2.5倍,同时保持接近原始基础模型的精度
  • Conclusion: ResidualViT能有效降低视频时序密集任务的计算成本,在零样本和全监督设置下都表现出色

[105] RadGame: An AI-Powered Platform for Radiology Education

Mohammed Baharoon,Siavash Raissi,John S. Jun,Thibault Heintz,Mahmoud Alabbad,Ali Alburkani,Sung Eun Kim,Kent Kleinschmidt,Abdulrahman O. Alhumaydhi,Mohannad Mohammed G. Alghamdi,Jeremy Francis Palacio,Mohammed Bukhaytan,Noah Michael Prudlo,Rithvik Akula,Brady Chrisler,Benjamin Galligos,Mohammed O. Almutairi,Mazeen Mohammed Alanazi,Nasser M. Alrashdi,Joel Jihwan Hwang,Sri Sai Dinesh Jaliparthi,Luke David Nelson,Nathaniel Nguyen,Sathvik Suryadevara,Steven Kim,Mohammed F. Mohammed,Yevgeniy R. Semenov,Kun-Hsing Yu,Abdulrhman Aljouie,Hassan AlOmaish,Adam Rodman,Pranav Rajpurkar

Main category: cs.CV

TL;DR: RadGame是一个AI驱动的游戏化放射学教育平台,通过定位异常和生成报告两个游戏模块,结合大规模公共数据集和AI自动反馈,显著提升放射学培训效果。

  • Motivation: 传统放射学培训依赖被动案例学习或需要放射科医生实时指导,缺乏即时和可扩展的反馈机制。RadGame旨在通过AI驱动的游戏化解决这一局限性。
  • Method: 平台包含两个核心模块:RadGame Localize(玩家绘制异常边界框,与放射科医生标注对比,视觉语言模型生成错漏解释)和RadGame Report(玩家撰写报告,基于放射学报告生成指标提供结构化AI反馈)。
  • Result: 前瞻性评估显示,使用RadGame的参与者在定位准确率上提升68%(传统方法17%),报告撰写准确率提升31%(传统方法4%)。
  • Conclusion: RadGame展示了AI驱动游戏化在提供可扩展、反馈丰富的放射学培训方面的潜力,重新构想了医疗AI资源在教育中的应用。

[106] Image Realness Assessment and Localization with Multimodal Features

Lovish Kaushik,Agnij Biswas,Somdyuti Paul

Main category: cs.CV

TL;DR: 提出一个基于视觉语言模型的多模态框架,用于评估AI生成图像的整体真实性和识别局部视觉不一致区域

  • Motivation: 需要可靠的方法来量化AI生成图像的感知真实度并识别视觉不一致区域,这对于AI生成图像的实际应用和通过真实度反馈改进生成AI的光写实性至关重要
  • Method: 使用在大规模数据集上训练的视觉语言模型生成视觉不一致的文本描述,作为人类标注的可靠替代,实现整体客观真实度评估和局部不一致识别
  • Result: 多模态方法提高了客观真实度预测性能,并生成能够有效区分真实和不真实空间区域的密集真实度图
  • Conclusion: 该框架成功实现了对AI生成图像的整体真实度评估和局部不一致识别,为生成AI的改进提供了有效的真实度反馈机制

[107] StyleSculptor: Zero-Shot Style-Controllable 3D Asset Generation with Texture-Geometry Dual Guidance

Zefan Qu,Zhenwei Wang,Haoyuan Wang,Ke Xu,Gerhard Hancke,Rynson W. H. Lau

Main category: cs.CV

TL;DR: StyleSculptor是一个无需训练的零样本方法,通过内容图像和风格图像生成风格可控的3D资产,使用新颖的Style Disentangled Attention模块实现细粒度的纹理和几何风格控制。

  • Motivation: 在视频游戏和虚拟现实等应用中,需要创建与现有资产风格一致的3D资产,但现有的3D生成方法难以实现精确的风格控制。
  • Method: 提出Style Disentangled Attention模块,通过跨3D注意力机制建立内容和风格图像的动态交互,并引入风格解耦特征选择策略来分离风格和内容特征。
  • Result: 实验表明StyleSculptor在生成高保真3D资产方面优于现有基线方法,能够实现纹理、几何或两者的精确风格控制。
  • Conclusion: StyleSculptor提供了一种有效的零样本解决方案,实现了细粒度的3D风格控制,为风格化3D资产生成开辟了新途径。

[108] 3D Aware Region Prompted Vision Language Model

An-Chieh Cheng,Yang Fu,Yukang Chen,Zhijian Liu,Xiaolong Li,Subhashree Radhakrishnan,Song Han,Yao Lu,Jan Kautz,Pavlo Molchanov,Hongxu Yin,Xiaolong Wang,Sifei Liu

Main category: cs.CV

TL;DR: SR-3D是一个空间区域感知的视觉语言模型,通过共享视觉标记空间连接单视图2D图像和多视图3D数据,支持灵活的3D区域提示,无需多帧标注即可实现准确的空间推理。

  • Motivation: 为了解决传统方法需要多帧标注的繁琐问题,并利用2D视觉先验来增强3D空间推理能力,实现2D和3D表示空间的统一。
  • Method: 通过用3D位置嵌入丰富2D视觉特征,使3D模型能够利用强大的2D先验进行跨帧空间推理,支持边界框、分割掩码或直接3D标注等多种区域提示方式。
  • Result: 在通用2D视觉语言和专用3D空间基准测试中达到最先进性能,能够准确推断空间关系和度量测量,即使在无传感器3D输入或真实3D标注的野外视频中也适用。
  • Conclusion: SR-3D有效统一了2D和3D表示空间,为场景理解提供了强大的工具,展示了在缺乏3D输入的情况下仍能进行准确空间推理的能力。

cs.CL

[109] ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement

Ali Salamatian,Amirhossein Abaskohi,Wan-Cyuan Fan,Mir Rayat Imtiaz Hossain,Leonid Sigal,Giuseppe Carenini

Main category: cs.CL

TL;DR: ChartGaze是一个新的眼动追踪数据集,通过比较人类和模型的注意力模式,发现LVLMs在图表问答任务中注意力与人类注视存在差异,提出基于人类注视的注意力优化方法,显著提升了模型准确性和可解释性。

  • Motivation: 大型视觉语言模型在图表问答任务中仍面临挑战,特别是模型经常关注图表中不相关区域,导致解释性和准确性下降。
  • Method: 构建ChartGaze眼动追踪数据集,捕获人类在图表推理任务中的注视模式;提出基于人类注视的注意力优化方法,将图像-文本注意力与人类注视对齐。
  • Result: 方法在多个模型上实现了高达2.56个百分点的准确率提升,同时改善了注意力对齐效果。
  • Conclusion: 将人类注视模式融入图表导向的LVLMs能够显著提升推理质量和模型可解释性,展示了人类注视数据在增强视觉语言模型性能方面的潜力。

cs.RO

[110] Neural 3D Object Reconstruction with Small-Scale Unmanned Aerial Vehicles

Àlmos Veres-Vitàlyos,Genis Castillo Gomez-Raya,Filip Lemic,Daniel Johannes Bugelnig,Bernhard Rinner,Sergi Abadal,Xavier Costa-Pérez

Main category: cs.RO

TL;DR: 提出了一种用于100克以下微型无人机的自主高保真3D扫描系统,通过双重建流水线和动态轨迹调整实现室内精细3D重建

  • Motivation: 解决小型无人机在有效载荷和自主性方面的限制,使其能够执行复杂的高质量3D重建任务,特别是在室内和难以到达的环境中
  • Method: 采用双重建流水线架构:近实时处理使用SfM生成即时点云并动态调整无人机轨迹;非实时处理使用基于NeRF的N3DR方法,结合SfM相机姿态和UWB定位数据
  • Result: 实验证明动态轨迹调整比静态飞行路径显著提高重建质量,在单机和多机配置下均验证了系统的有效性
  • Conclusion: 这项工作展示了微型无人机在受限环境中进行精细3D重建的可扩展自主解决方案,突破了此前只能由大型平台实现的能力限制

[111] The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning

Titong Jiang,Xuefeng Jiang,Yuan Ma,Xin Wen,Bailin Li,Kun Zhan,Peng Jia,Yahui Liu,Sheng Sun,Xianpeng Lang

Main category: cs.RO

TL;DR: LightVLA是一个针对视觉-语言-动作模型的可微分token剪枝框架,通过自适应剪枝视觉token来减少计算开销,同时提升任务性能,在LIBERO基准测试中实现了59.1%的FLOPs减少和2.9%的成功率提升。

  • Motivation: VLA模型在资源受限平台上部署时,由于需要处理大量视觉token而面临计算瓶颈,需要一种既能保持性能又能提高效率的解决方案。
  • Method: 使用动态查询评估视觉token重要性,采用Gumbel softmax实现可微分token选择,通过微调学习保留信息丰富的token并剪枝无用token,无需启发式参数或额外可训练参数。
  • Result: 在LIBERO基准测试中,LightVLA相比现有方法实现了59.1%的FLOPs减少、38.2%延迟降低和2.9%任务成功率提升,同时LightVLA*变体也取得了满意性能。
  • Conclusion: LightVLA是首个将自适应视觉token剪枝应用于VLA任务的工作,从性能驱动角度自发学习剪枝策略,为构建更高效、强大和实用的实时机器人系统迈出了重要一步。

[112] ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation

Zekai Zhang,Weiye Zhu,Hewei Pan,Xiangchen Wang,Rongtao Xu,Xing Sun,Feng Zheng

Main category: cs.RO

TL;DR: ActiveVLN是一个视觉语言导航框架,通过多轮强化学习实现主动探索,相比传统模仿学习和DAgger方法,在减少数据收集和训练成本的同时取得了更好的性能。

  • Motivation: 现有基于MLLM的VLN方法主要依赖模仿学习和DAgger后训练,成本高昂。强化学习虽然有潜力,但先前方法缺乏与环境动态交互,依赖专家轨迹进行奖励塑造,限制了智能体发现多样化导航路径的能力。
  • Method: 采用两阶段方法:第一阶段使用少量专家轨迹进行模仿学习初始化;第二阶段通过多轮强化学习,智能体迭代预测和执行动作,自动收集多样化轨迹,并使用GRPO目标优化多个rollout。引入动态早停策略剪枝长尾或可能失败的轨迹。
  • Result: ActiveVLN在性能提升方面超过了基于DAgger和先前RL后训练方法,尽管使用较小模型,仍达到了与最先进方法竞争的性能。
  • Conclusion: ActiveVLN通过主动探索和多轮强化学习有效解决了VLN任务中的covariate shift问题,在减少成本的同时实现了优异的导航性能。

[113] Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Junlin Song,Antoine Richard,Miguel Olivares-Mendez

Main category: cs.RO

TL;DR: 提出了一种基于离散时间状态表示的新型高效视觉-惯性标定方法,解决了传统连续时间方法计算成本高的问题,同时克服了离散时间方法在时间标定方面的弱点。

  • Motivation: 视觉-惯性融合在机器人导航和增强现实等应用中至关重要,但现有基于B样条的连续时间标定方法计算成本高昂。随着无人机、手机等视觉-惯性平台的普及,需要更高效的标定方法来节省大量计算时间。
  • Method: 采用离散时间状态表示方法进行空间-时间标定,通过创新方法解决了离散时间表示在时间标定方面的局限性,实现了高效计算。
  • Result: 该方法实现了极高的计算效率,相比连续时间方法显著降低了计算成本,同时保持了标定精度。
  • Conclusion: 所提出的离散时间标定方法为大规模设备标定提供了高效解决方案,具有重要的研究和工业应用价值,代码将开源以惠及社区。

cond-mat.mes-hall

[114] QDFlow: A Python package for physics simulations of quantum dot devices

Donovan L. Buterakos,Sandesh S. Kalantre,Joshua Ziegler,Jacob M Taylor,Justyna P. Zwolak

Main category: cond-mat.mes-hall

TL;DR: QDFlow是一个开源量子点阵列物理模拟器,可生成带真实标签的合成数据,解决量子设备研究中实验数据获取困难的问题。

  • Motivation: 量子点设备校准和操作需要大量高质量标注数据,但实验获取困难且标注成本高,需要可靠的合成数据生成工具。
  • Method: 结合自洽Thomas-Fermi求解器、动态电容模型和可定制噪声模块,生成与实验相似的电荷稳定性图和射线数据。
  • Result: 能够产生多样化的合成数据集,支持机器学习开发、基准测试和量子设备研究。
  • Conclusion: QDFlow为量子计算研究提供了重要的数据生成工具,解决了实验数据稀缺的问题,推动了机器学习在量子设备领域的应用。

cs.LG

[115] Flexible Multimodal Neuroimaging Fusion for Alzheimer's Disease Progression Prediction

Benjamin Burns,Yuan Xue,Douglas W. Scharre,Xia Ning

Main category: cs.LG

TL;DR: PerM-MoE是一种新颖的稀疏专家混合方法,使用独立的路由器处理每个模态,在阿尔茨海默病进展预测中,特别是在高模态缺失情况下,优于现有方法。

  • Motivation: 阿尔茨海默病进展预测需要整合多模态神经影像数据,但现有多模态模型在临床环境中经常遇到模态缺失时预测准确性下降。
  • Method: 提出PerM-MoE方法,使用独立的路由器处理每个模态,替代传统的单一路由器,提高在高模态缺失情况下的灵活性。
  • Result: 在ADNI数据集上评估显示,PerM-MoE在大多数模态缺失变化中优于最先进的Flex-MoE和单模态模型,能更有效地利用专家。
  • Conclusion: PerM-MoE方法通过独立模态路由设计,显著提高了多模态模型在临床现实场景中的实用性和预测性能。

[116] Neural Diffeomorphic-Neural Operator for Residual Stress-Induced Deformation Prediction

Changqing Liu,Kaining Dai,Zhiwei Zhao,Tianyi Wu,Yingguang Li

Main category: cs.LG

TL;DR: 提出了一种基于微分同胚嵌入神经算子的新框架NDNO,用于高效预测不同几何形状结构件的加工变形,解决了传统数值方法计算成本高和神经算子直接应用于变化几何域的限制问题。

  • Motivation: 结构件加工变形预测对确保尺寸精度和可靠性至关重要,但传统数值方法计算成本高,特别是处理不同几何形状时。神经算子虽能高效求解偏微分方程,但直接应用于变化几何域存在理论和实践限制。
  • Method: 通过受平滑性和可逆性约束的微分同胚神经网络将复杂三维几何显式映射到公共参考域,然后在参考域上训练神经算子学习残余应力引起的变形场。
  • Result: 该方法能够准确预测主方向和多方向变形场,在不同几何形状(包括组件类型、尺寸和特征)的零件上实现了高精度和高效率。
  • Conclusion: NDNO框架为变化几何形状结构件的变形预测提供了有效且计算高效的解决方案,实现了对不同几何形状的快速适应能力。

[117] InJecteD: Analyzing Trajectories and Drift Dynamics in Denoising Diffusion Probabilistic Models for 2D Point Cloud Generation

Sanyam Jain,Khuram Naveed,Illia Oleksiienko,Alexandros Iosifidis,Ruben Pauwels

Main category: cs.LG

TL;DR: InJecteD是一个用于解释去噪扩散概率模型(DDPMs)的框架,通过分析2D点云生成过程中的样本轨迹来增强模型透明度。

  • Motivation: 提高生成模型的透明度和可解释性,支持人类与AI的协作,使从业者能够调试和改进生成模型。
  • Method: 使用简化的DDPM架构,分析去噪过程中的样本轨迹,量化位移、速度、聚类和漂移场动态等轨迹特性,采用Wasserstein距离和余弦相似度等统计指标。
  • Result: 实验揭示了不同的去噪阶段:初始噪声探索、快速形状形成和最终细化,不同数据集表现出特定行为(如牛眼图的同心收敛与恐龙图的复杂轮廓形成)。傅里叶基嵌入提高了轨迹稳定性和重建质量。
  • Conclusion: InJecteD框架有效提升了DDPMs的可解释性,为生成模型的调试和优化提供了有价值的分析工具,傅里叶嵌入方法显示出更好的性能表现。

[118] iCD: A Implicit Clustering Distillation Mathod for Structural Information Mining

Xiang Xue,Yatu Ji,Qing-dao-er-ji Ren,Bao Shi,Min Lu,Nier Wu,Xufei Zhuang,Haiteng Xu,Gan-qi-qi-ge Cha

Main category: cs.LG

TL;DR: 提出了隐式聚类蒸馏(iCD)方法,通过Gram矩阵挖掘和传递可解释的结构知识,无需真实标签或特征对齐,在细粒度分类任务中表现优异

  • Motivation: 解决传统Logit知识蒸馏方法决策过程可解释性有限的问题,希望在不依赖中间特征对齐的情况下提升模型的可解释性
  • Method: 使用解耦的局部logit表示的Gram矩阵,让学生模型学习潜在的语义结构模式,无需真实标签或特征空间对齐
  • Result: 在基准数据集上的广泛实验显示iCD在不同师生架构中均有效,特别是在细粒度分类任务中达到+5.08%的峰值提升
  • Conclusion: iCD是一种简单有效的知识蒸馏方法,能够挖掘和传递可解释的结构知识,显著提升模型性能特别是细粒度分类任务的表现

[119] Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use

Yabo Zhang,Yihan Zeng,Qingyun Li,Zhen Hu,Kavin Han,Wangmeng Zuo

Main category: cs.LG

TL;DR: Tool-R1是一个强化学习框架,通过生成可执行Python代码使大语言模型能够进行通用、组合式和多步骤的工具使用,在GAIA基准测试中比强基线提高约10%的准确率

  • Motivation: 解决大语言模型在处理需要最新知识、精确操作或专用工具使用的现实任务时的局限性
  • Method: 提出基于强化学习的框架,支持用户自定义工具和标准库集成,使用基于结果的奖励函数(结合LLM答案判断和代码执行成功)指导策略优化,并维护动态样本队列提高训练效率
  • Result: 在GAIA基准测试中显著提高了准确性和鲁棒性,比强基线提高约10%,在复杂多步骤任务上改进更大
  • Conclusion: Tool-R1在现实应用中具有实现可靠高效工具增强推理的潜力

[120] Sy-FAR: Symmetry-based Fair Adversarial Robustness

Haneen Najjar,Eyal Ronen,Mahmood Sharif

Main category: cs.LG

TL;DR: 该论文提出Sy-FAR方法,通过追求对称性而非完美公平性来提升对抗性鲁棒性的公平性,在面部识别等安全关键任务中表现优于现有方法。

  • Motivation: 现有对抗性鲁棒性方法存在不公平问题,某些类别更容易被攻击。在现实公平关键任务中实现完美公平性往往不可行,而对称性(攻击从类别i到j与从j到i的成功率相同)更具可行性。
  • Method: 开发了Sy-FAR技术,通过鼓励对称性同时优化对抗性鲁棒性。使用五个数据集和三种模型架构进行评估,包括针对定向和非定向现实攻击。
  • Result: Sy-FAR相比最先进方法显著提高了公平对抗性鲁棒性,运行速度更快且结果更一致。同时改善了另一种不公平性——对抗样本容易被分类到的目标类别在诱导对称性后变得显著不易受攻击。
  • Conclusion: 对称性是实现公平对抗性鲁棒性的更可行方法,Sy-FAR技术在多个数据集和模型架构上都表现出优越性能,为解决机器学习安全系统中的公平性问题提供了新思路。

cs.AI

[121] V-Math: An Agentic Approach to the Vietnamese National High School Graduation Mathematics Exams

Duong Q. Nguyen,Quy P. Nguyen,Nguyen Van Nhon,Quang-Thinh Bui,H. Nguyen-Xuan

Main category: cs.AI

TL;DR: V-Math是一个为越南高中生设计的自主代理框架,用于国家高中数学毕业考试准备,包含问题生成、解题解释和个性化辅导三个AI代理模块。

  • Motivation: 帮助越南高中生更好地准备国家高中数学毕业考试,同时减轻教师手动出题的工作负担,提供高质量的教学资源。
  • Method: 集成三个专门AI代理:基于规范矩阵的问题生成器、详细步骤解题解释器、以及根据学生表现自适应的个性化辅导系统。
  • Result: 初步评估显示V-Math能生成符合矩阵要求的考试题目,具有高解题准确率,提供连贯的解释,并丰富了练习材料的多样性。
  • Conclusion: V-Math有潜力支持符合国家标准的可扩展、公平的数学备考,同时通过AI辅助考试创建赋能教师。

[122] Developing an aeroponic smart experimental greenhouse for controlling irrigation and plant disease detection using deep learning and IoT

Mohammadreza Narimani,Ali Hajiahmad,Ali Moghimi,Reza Alimardani,Shahin Rafiee,Amir Hossein Mirzabe

Main category: cs.AI

TL;DR: 开发了一个结合物联网和人工智能的智能气雾温室系统,用于监测天竺葵植物状态和环境条件,并通过AI算法实现疾病检测

  • Motivation: 温室环境控制和植物状态监测对于作物生产管理决策至关重要,需要开发智能化系统来提高管理效率和作物产量
  • Method: 开发了基于物联网的平台来监控和控制环境条件,并使用VGG-19、InceptionResNetV2和InceptionV3等AI算法构建疾病检测框架,分析定期捕获的植物图像
  • Result: 物联网系统能够持续在线发布温度、湿度、水流量等数据并调整控制参数;VGG-19算法在疾病检测中表现最佳,准确率达到92%
  • Conclusion: 该智能温室系统成功实现了环境监控和植物疾病检测,VGG-19算法在识别干旱胁迫和锈病叶片方面具有最高准确性,为精准农业管理提供了有效工具

[123] Human + AI for Accelerating Ad Localization Evaluation

Harshit Rajgarhia,Shivali Dalmia,Mengyang Zhao,Mukherji Abhishek,Kiran Ganesh

Main category: cs.AI

TL;DR: 提出了一个结合自动组件和人工监督的结构化框架,用于广告本地化,整合了场景文本检测、修复、机器翻译和文本重排技术,在六个地区实现了语义准确且视觉一致的本地化广告。

  • Motivation: 多语言广告本地化不仅需要文本翻译,还需要保持视觉一致性、空间对齐和风格完整性,传统方法难以满足这些复杂需求。
  • Method: 结合场景文本检测、修复、机器翻译和文本重排的自动化组件,配合人工监督的结构化框架。
  • Result: 在六个地区的定性结果显示,该方法能够产生语义准确且视觉一致的本地化广告,适合实际工作流部署。
  • Conclusion: 该框架是首个专门针对加速广告本地化评估工作流的集成解决方案,成功解决了多语言广告本地化的复杂挑战。

[124] HLSMAC: A New StarCraft Multi-Agent Challenge for High-Level Strategic Decision-Making

Xingxing Hong,Yungong Wang,Dexin Jin,Ye Yuan,Ximing Huang,Zijian Wu,Wenxin Li

Main category: cs.AI

TL;DR: HLSMAC是一个基于星际争霸II的新多智能体强化学习基准测试,包含12个基于三十六计策略设计的场景,专注于评估高级战略决策能力,超越了传统微操作的测试范围。

  • Motivation: 现有的MARL基准测试(如SMAC)主要关注微操作层面,缺乏对高级战略智能的全面评估,需要新的基准来测试多智能体的高层次战略决策能力。
  • Method: 基于三十六计经典策略设计了12个星际争霸II场景,每个场景对应特定策略,挑战智能体的战术机动、时间协调和欺骗等战略元素,并提出了超越传统胜率的多维度新评估指标。
  • Result: 将最先进的MARL算法和基于LLM的智能体集成到HLSMAC环境中进行综合实验,结果表明HLSMAC能够有效评估多智能体战略决策能力。
  • Conclusion: HLSMAC作为一个强大的测试平台,为推进多智能体战略决策研究提供了有效的评估框架,填补了现有基准在高层次战略测试方面的空白。

[125] Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy

Nadim Barakat,William Lotter

Main category: cs.AI

TL;DR: 该研究评估了多模态大语言模型(MLLMs)在糖尿病视网膜病变检测中的应用,比较了GPT-4o和MedGemma两种模型的表现,并探索了不同输出格式对临床AI辅助效果的影响。

  • Motivation: 当前FDA批准的糖尿病视网膜病变筛查系统主要提供二元转诊输出,这种最小化输出可能限制临床信任和实用性。研究旨在确定最有效的输出格式来增强临床医生与AI的协作性能。
  • Method: 在IDRiD和Messidor-2数据集上测试GPT-4o和MedGemma两种模型,包括基线评估、模拟AI辅助实验(使用合成预测)以及实际的AI间协作实验(GPT-4o整合MedGemma输出)。
  • Result: MedGemma在基线评估中表现优于GPT-4o,具有更高的敏感性和AUROC;GPT-4o在模拟AI辅助中表现不稳定,但在实际协作中通过MedGemma的描述性输出获得了强结果(AUROC高达0.96)。
  • Conclusion: MLLMs可以改善糖尿病视网膜病变筛查流程,并作为可扩展的模拟器研究临床AI辅助;开源轻量级模型如MedGemma在资源有限环境中特别有价值,描述性输出可增强临床工作流程中的可解释性和信任度。

math.AC

[126] Universal Gröbner Bases of (Universal) Multiview Ideals

Timothy Duff,Jack Kendrick,Rekha R. Thomas

Main category: math.AC

TL;DR: 该论文证明了自然多项式集合构成多视理想和通用多视理想的通用Gröbner基,使用了Huang-Larson准则,并通过对称约简和归纳法处理无限理想族。

  • Motivation: 多视理想源于针孔相机成像几何,通用多视理想是其未知相机情况下的类比。研究这些理想的Gröbner基结构对于理解多视图几何和相机标定具有重要意义。
  • Method: 采用Huang-Larson准则证明多项式集合构成通用Gröbner基,运用对称约简和归纳法处理无限理想族,并给出了相关拟阵的显式描述。
  • Result: 成功证明了自然多项式集合构成多视理想和通用多视理想的通用Gröbner基,扩展了Huang-Larson准则在该设置下的应用。
  • Conclusion: 该方法能够有效处理多视理想相关的无限理想族,为多视图几何和相机标定问题提供了新的理论工具和数学基础。

cs.HC

[127] Gesture Evaluation in Virtual Reality

Axel Wiebe Werner,Jonas Beskow,Anna Deichler

Main category: cs.HC

TL;DR: 本文比较了VR和2D环境下AI生成手势的感知差异,发现VR环境下手势评分略高,特别是对动作捕捉的真实运动效果更明显。

  • Motivation: 虚拟化身使用AI生成手势增强真实感,但现有评估主要局限于2D环境。VR提供沉浸式体验,可能影响手势感知方式。
  • Method: 比较评估VR和2D环境下的计算机生成手势,使用2023 GENEA挑战赛中的三个模型进行测试。
  • Result: VR环境下手势平均评分略高,对动作捕捉"真实运动"的效果最明显。模型排名在两种设置中保持一致,但VR影响了参与者的整体感知。
  • Conclusion: VR相比传统2D评估提供了独特优势,影响了参与者对手势的整体感知,尽管模型性能排名保持一致。

eess.IV

[128] Enhancing Radiographic Disease Detection with MetaCheX, a Context-Aware Multimodal Model

Nathan He,Cody Chen

Main category: eess.IV

TL;DR: MetaCheX是一个多模态框架,通过整合胸部X光图像和患者元数据来提高诊断准确性和公平性,在CheXpert Plus数据集上显著优于仅使用放射图像的基线模型。

  • Motivation: 现有的胸部放射学深度学习模型往往忽略患者元数据,限制了诊断准确性和公平性。为了弥补这一差距,需要开发能够整合多模态信息的框架来模拟临床决策过程。
  • Method: 提出MetaCheX框架,结合卷积神经网络(CNN)主干网络处理X光图像,使用多层感知机处理结构化患者元数据,通过共享分类器进行融合。
  • Result: 在CheXpert Plus数据集上评估,MetaCheX在多个CNN架构上一致优于仅使用放射图像的基线模型,诊断准确性显著提高(AUROC增加),减少了算法偏见并增强了模型在不同患者群体中的泛化能力。
  • Conclusion: MetaCheX通过整合元数据推进了临床人工智能向稳健、上下文感知的放射学疾病检测发展,证明了多模态信息在提高诊断性能和公平性方面的重要性。

[129] DinoAtten3D: Slice-Level Attention Aggregation of DinoV2 for 3D Brain MRI Anomaly Classification

Fazle Rafsani,Jay Shah,Catherine D. Chong,Todd J. Schwedt,Teresa Wu

Main category: eess.IV

TL;DR: 提出基于注意力机制的3D医学图像异常分类框架,利用DINOv2预训练模型提取特征,通过软注意力机制为脑MRI轴向切片分配重要性权重,结合对比学习和类方差正则化解决数据稀缺和类别不平衡问题。

  • Motivation: 医学图像异常检测面临标注数据有限、类别不平衡和专家标注成本高的挑战,预训练视觉基础模型如DINOv2提供了通用表征能力,可缓解这些限制。
  • Method: 使用自监督DINOv2模型作为预训练特征提取器处理脑MRI的2D轴向切片,通过软注意力机制分配自适应切片级重要性权重,采用结合监督对比学习和类方差正则化的复合损失函数。
  • Result: 在ADNI数据集和机构多类别头痛队列上验证,尽管数据有限且类别严重不平衡,仍表现出强大的异常分类性能。
  • Conclusion: 预训练的2D基础模型与基于注意力的切片聚合相结合,在医学影像体积异常检测中具有高效性和鲁棒性。

[130] DeepEyeNet: Generating Medical Report for Retinal Images

Jia-Hong Huang

Main category: eess.IV

TL;DR: 本论文研究利用AI技术自动化视网膜图像医疗报告生成,通过多模态深度学习方法解决医疗关键词表示、长距离依赖关系和系统可解释性等关键挑战,显著提升诊断效率和准确性。

  • Motivation: 视网膜疾病日益普遍,但眼科医生资源不足导致诊断瓶颈。传统手动报告生成方法耗时且易出错,需要自动化解决方案来减轻医生负担并提高诊断效率。
  • Method: 采用多模态深度学习框架,整合文本关键词与视网膜图像的交互;改进医疗关键词表示方法;克服RNN模型在长距离依赖关系上的限制;增强AI系统的可解释性技术。
  • Result: 通过多种评估指标验证,所提方法达到了最先进的性能水平,在医疗报告生成任务上表现出色。
  • Conclusion: AI技术能够革命性地改变视网膜疾病诊断流程,通过自动化医疗报告生成显著提升临床效率、诊断准确性和患者护理质量。

[131] MEGAN: Mixture of Experts for Robust Uncertainty Estimation in Endoscopy Videos

Damola Agbelese,Krishna Chaitanya,Pushpak Pati,Chaitanya Parmar,Pooya Mobadersany,Shreyas Fadnavis,Lindsey Surace,Shadi Yarandi,Louis R. Ghanem,Molly Lucas,Tommaso Mansi,Oana Gabriela Cula,Pablo F. Damasceno,Kristopher Standish

Main category: eess.IV

TL;DR: MEGAN是一个多专家门控网络,通过整合多个EDL模型的预测和不确定性,在医学AI中提供更可靠的uncertainty quantification,特别针对存在标注者间变异性的场景。

  • Motivation: 传统不确定性量化方法依赖单一专家的标注作为ground truth,忽视了医疗领域普遍存在的标注者间变异性问题。
  • Method: 提出MEGAN多专家门控网络,整合多个基于不同ground truth和建模策略训练的EDL模型,通过门控网络优化组合各模型的预测和不确定性。
  • Result: 在溃疡性结肠炎内镜视频评估中,MEGAN相比现有方法F1-score提升3.5%,预期校准误差降低30.5%,并能实现不确定性引导的样本分层。
  • Conclusion: MEGAN有效解决了医疗AI中标注变异性问题,提高了预测置信度和校准性能,有望减少标注负担并提高临床试验效率。

physics.optics

[132] Generalizable Holographic Reconstruction via Amplitude-Only Diffusion Priors

Jeongsol Kim,Chanseok Lee,Jong Chul Ye,Mooseok Jang

Main category: physics.optics

TL;DR: 提出了一种基于扩散模型的离轴全息相位恢复方法,仅需振幅数据进行训练即可同时恢复振幅和相位,无需真实相位数据,具有良好的泛化能力。

  • Motivation: 解决内联全息中由于振幅和相位的非线性耦合导致的病态逆问题,传统方法需要真实相位数据进行训练,成本高且限制应用范围。
  • Method: 使用扩散模型,仅基于物体振幅数据进行训练,采用预测器-校正器采样框架,为振幅和相位分别设计似然梯度,实现复杂场重建。
  • Result: 通过大量仿真和实验验证,方法在不同物体形状、成像系统配置和模式(包括无透镜设置)下均表现出鲁棒的泛化性能,使用简单振幅数据(如聚苯乙烯珠)训练的扩散先验成功重建复杂生物组织结构。
  • Conclusion: 该框架为计算成像中的非线性逆问题提供了成本效益高、可泛化的解决方案,并为超越全息术的更广泛相干成像应用奠定了基础。