Skip to content
每日arXiv - 2025年10月14日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] TinyViT-Batten: Few-Shot Vision Transformer with Explainable Attention for Early Batten-Disease Detection on Pediatric MRI

Khartik Uppalapati,Bora Yimenicioglu,Shakeel Abdulkareem,Adan Eftekhari,Bhavya Uppalapati,Viraj Kamath

Main category: cs.CV

TL;DR: 提出TinyViT-Batten框架,使用小参数Vision Transformer和少样本学习来检测早期Batten病,在有限训练数据下达到91%准确率和0.95以上AUC,优于基线模型。

  • Motivation: Batten病是一种罕见儿科神经退行性疾病,早期MRI征象细微且常被漏诊,需要开发能在有限训练数据下准确检测的AI解决方案。
  • Method: 将大型教师ViT蒸馏为500万参数TinyViT,使用基于度量的少样本学习(原型损失,5-shot episodes)进行微调,并集成Grad-CAM实现可解释预测。
  • Result: 在包含79例确诊Batten病MRI和90例年龄匹配对照的多中心数据集上,模型准确率约91%,AUC≥0.95,敏感性>90%,特异性约90%,优于3D-ResNet和Swin-Tiny基线。
  • Conclusion: 模型的小尺寸和强性能展示了实用的AI解决方案,可用于早期Batten病检测,并通过Grad-CAM提供可解释的预测。

[2] Ultralytics YOLO Evolution: An Overview of YOLO26, YOLO11, YOLOv8 and YOLOv5 Object Detectors for Computer Vision and Pattern Recognition

Ranjan Sapkota,Manoj Karkee

Main category: cs.CV

TL;DR: 本文全面回顾了Ultralytics YOLO系列目标检测器的发展历程,重点分析了YOLO26、YOLO11、YOLOv8和YOLOv5的关键创新,并在MS COCO数据集上进行了基准测试比较,讨论了部署应用和未来挑战。

  • Motivation: 系统梳理YOLO系列检测器的架构演进,为研究者和开发者提供全面的技术参考和发展趋势分析。
  • Method: 通过文献回顾和基准测试方法,分析YOLO系列各版本的核心技术创新,并在MS COCO数据集上进行量化性能比较。
  • Result: YOLO26在精度和效率方面表现优异,YOLO系列整体在目标检测领域持续创新,各版本在不同应用场景下各有优势。
  • Conclusion: YOLO系列在目标检测领域不断演进,未来需要在密集场景处理、CNN-Transformer融合、开放词汇检测等方面继续突破。

[3] TreeNet: Layered Decision Ensembles

Zeshan Khan

Main category: cs.CV

TL;DR: TreeNet是一种新颖的分层决策集成学习方法,专为医学图像分析设计,结合了神经网络、集成学习和基于树的决策模型的优势,在数据有限的情况下仍能保持良好性能。

  • Motivation: 医学图像分析领域面临数据可用性有限和数据置信度的普遍挑战,现有方法在数据量充足时表现良好,但在实际应用中数据往往有限。
  • Method: 提出TreeNet方法,通过整合神经网络、集成学习和基于树的决策模型的关键特征,构建分层决策集成学习框架。
  • Result: 使用完整训练数据时F1分数达到0.85,使用50%训练数据时F1分数为0.77,性能下降仅0.08;处理速度达到32帧/秒,适用于实时应用。
  • Conclusion: TreeNet在医学图像分析领域,特别是在实时分析方面,展现出高效性和实用性,具有良好的应用前景。

[4] OmniSAT: Compact Action Token, Faster Auto Regression

Huaihai Lyu,Chaofan Chen,Senwei Xie,Pengwei Wang,Xiansheng Chen,Shanghang Zhang,Changsheng Xu

Main category: cs.CV

TL;DR: 提出Omni Swift Action Tokenizer (OmniSAT),通过B样条编码和多阶段残差量化方法压缩动作序列,实现6.8倍序列长度缩短,提升自回归模型的训练效率和性能。

  • Motivation: 现有自回归模型在处理高维动作序列时面临序列过长问题,而之前的压缩方法存在重建质量差或压缩效率低的问题。
  • Method: 使用B样条编码归一化值域和时间范围,然后对位置、旋转和夹爪子空间应用多阶段残差量化,生成具有粗细粒度的离散token。
  • Result: 在Droid数据集上预训练后,离散token化将训练序列缩短6.8倍,降低目标熵,实现更高压缩率同时保持重建质量。
  • Conclusion: OmniSAT在保持重建质量的同时实现高效压缩,加速自回归模型训练收敛并提升性能,支持跨具身学习策略。

[5] Knowledge-Aware Mamba for Joint Change Detection and Classification from MODIS Times Series

Zhengsen Xu,Yimin Zhu,Zack Dewis,Mabel Heffring,Motasem Alkayid,Saeid Taleghanidoozdoozan,Lincoln Linlin Xu

Main category: cs.CV

TL;DR: 本文提出了一种新颖的知识感知Mamba模型(KAMamba),用于增强MODIS时间序列变化检测,通过知识驱动的转换矩阵、多任务学习和空间-光谱-时间解耦模块,在变化检测和土地利用分类任务上取得了显著性能提升。

  • Motivation: MODIS时间序列变化检测面临混合像素、空间-光谱-时间信息耦合效应和背景类异质性等关键挑战,需要开发更有效的方法来解决这些问题。
  • Method: 设计了知识驱动的转换矩阵引导方法(KAT-loss)、多任务学习框架(PreC-loss、PostC-loss、Chg-loss)、空间-光谱-时间Mamba模块(SSTMamba)以及稀疏可变形Mamba骨干网络(SDMamba)。
  • Result: 在加拿大萨斯喀彻温省的MODIS时间序列数据集上,变化检测的平均F1分数比基线方法提高了约1.5-6%,土地利用分类的OA、AA和Kappa指标提高了约2%。
  • Conclusion: KAMamba模型通过知识注入、多任务学习和信息解耦,有效提升了MODIS时间序列变化检测的性能,同时保持了计算效率。

[6] NNDM: NN_UNet Diffusion Model for Brain Tumor Segmentation

Sashank Makanaboyina

Main category: cs.CV

TL;DR: 提出NNDM混合框架,结合NN-UNet的鲁棒特征提取和扩散概率模型的生成能力,通过迭代去噪过程改进脑肿瘤分割精度

  • Motivation: 现有CNN模型如U-Net在泛化能力、边界精度和数据多样性方面存在不足,需要改进脑肿瘤MRI分割的准确性和鲁棒性
  • Method: 集成NN-UNet和扩散模型,扩散模型学习预测掩码与真实掩码之间的残差误差分布,通过迭代去噪过程细化分割结果
  • Result: 在BraTS 2021数据集上优于传统U-Net和基于transformer的基线方法,在Dice系数和Hausdorff距离指标上均有提升
  • Conclusion: NNDM为结合确定性分割网络与随机扩散模型开辟了新方向,推进了自动脑肿瘤分析的技术水平

[7] Adaptive Fusion Network with Temporal-Ranked and Motion-Intensity Dynamic Images for Micro-expression Recognition

Thi Bich Phuong Man,Luu Tu Nguyen,Vu Tram Anh Khuong,Thanh Ha Le,Thi Duyen Ngo

Main category: cs.CV

TL;DR: 提出了一种新的微表情识别方法,通过两种互补表示(时间排序动态图像和运动强度动态图像)以及自适应融合网络,在多个基准数据集上取得了最先进的性能。

  • Motivation: 微表情是细微、瞬时的面部变化,强度极低,肉眼几乎无法察觉,但能揭示人的真实情感,在测谎、行为分析和心理评估中具有重要价值。
  • Method: 提出两种互补表示:时间排序动态图像(强调时间进展)和运动强度动态图像(通过包含运动强度的帧重排序机制突出细微运动);提出自适应融合网络,自动学习最优整合这两种表示。
  • Result: 在CASME-II数据集上达到93.95%准确率和0.897 UF1,创下新纪录;在SAMM数据集上达到82.47%准确率和0.665 UF1,显示更均衡的类别识别;在MMEW数据集上达到76.00%准确率,验证了泛化能力。
  • Conclusion: 输入表示和所提架构都对提升微表情识别性能起重要作用,为情感计算、测谎和人机交互领域的进一步研究和实际应用奠定了坚实基础。

[8] Multi Camera Connected Vision System with Multi View Analytics: A Comprehensive Survey

Muhammad Munsif,Waqas Ahmad,Amjid Ali,Mohib Ullah,Adnan Hussain,Sung Wook Baik

Main category: cs.CV

TL;DR: 这篇论文是第一篇全面综述多视角多摄像头系统的调查,将MVMC跟踪、重识别和动作理解统一到一个框架中,提出了新的分类法并讨论了该领域的挑战和未来研究方向。

  • Motivation: 现有调查主要关注跟踪、重识别和动作理解等孤立任务,忽视了将它们整合到统一系统中的重要性,且多侧重于单视角设置,忽略了多摄像头协作和多视角数据分析的复杂性与机遇。
  • Method: 提出独特的分类法,将连接视觉系统分为四个关键部分:MVMC跟踪、重识别、动作理解和组合方法,系统整理和总结了最先进的数据集、方法、结果和评估指标。
  • Result: 提供了该领域发展的结构化视图,识别并讨论了开放研究问题和挑战,包括终身学习、隐私保护和联邦学习等新兴技术。
  • Conclusion: 论文概述了增强连接视觉系统在复杂现实应用中鲁棒性、效率和适应性的关键研究方向,旨在启发创新解决方案并指导未来研究。

[9] Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping

Dwip Dalal,Gautam Vashishtha,Utkarsh Mishra,Jeonghwan Kim,Madhav Kanda,Hyeonjeong Ha,Svetlana Lazebnik,Heng Ji,Unnat Jain

Main category: cs.CV

TL;DR: AttWarp是一种轻量级方法,通过跨模态注意力引导的图像扭曲,在不改变模型权重或架构的情况下,重新分配空间分辨率到模型认为重要的区域,从而提升多模态大语言模型在细粒度感知任务中的性能。

  • Motivation: 多模态大语言模型在复杂场景中经常忽略小细节和空间关系,导致细粒度感知任务出错。需要一种方法能够在不改变模型的情况下提升其对重要区域的关注度。
  • Method: 使用MLLM的跨模态注意力对输入图像进行直线扭曲,将空间分辨率重新分配到模型认为重要的区域,同时保留全局上下文。该方法保持所有原始图像信息但非均匀重新分布。
  • Result: 在五个基准测试(TextVQA、GQA、DocVQA、POPE、MMMU)和四个MLLM(LLaVA、Qwen-VL、InternVL、InstructBLIP)上,AttWarp持续提高准确性,增强组合推理能力,减少幻觉,优于四个竞争基线方法。
  • Conclusion: 注意力引导的扭曲能够优先处理与查询相关的信息同时保留上下文,相同的MLLM在接收这种扭曲输入时表现更好。

[10] Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning

Yufei Wang,Adriana Kovashka,Loretta Fernández,Marc N. Coutanche,Seth Wiener

Main category: cs.CV

TL;DR: 研究多模态外语学习情境,分析图像和文本特征如何帮助学习者推断陌生单词含义,并探讨AI系统预测学习者表现的能力。

  • Motivation: 探索在多模态情境(图像+句子)中,学习者如何推断陌生单词含义,以及哪些数据特征和学习者背景因素影响推断成功率。
  • Method: 通过人类参与者实验,使用不同的图像-文本对,分析图像和文本特征对单词含义推断的影响,并测试AI系统预测参与者表现的能力。
  • Result: 发现只有部分直观特征与参与者表现有强相关性,需要进一步研究预测特征;AI系统在推理参与者表现方面显示出改进潜力。
  • Conclusion: 多模态外语学习情境需要更深入的特征分析,AI系统在此类任务中的推理能力有进一步提升空间。

[11] Task-Aware Resolution Optimization for Visual Large Language Models

Weiqing Luo,Zhen Tan,Yifan Li,Xinyu Zhao,Kwonjoon Lee,Behzad Dariush,Tianlong Chen

Main category: cs.CV

TL;DR: 提出了一种自适应确定视觉语言任务最佳分辨率的方法,并通过参数高效微调技术扩展预训练VLLM的视觉输入分辨率。

  • Motivation: 现有视觉大语言模型(VLLM)通常假设固定分辨率用于下游任务,导致性能不佳,而真实应用需要不同感知粒度。
  • Method: 首先研究不同视觉语言任务的分辨率偏好,提出结合图像复杂度和VLLM不确定性方差的经验公式确定最佳分辨率;然后提出参数高效微调技术扩展预训练VLLM的视觉输入分辨率。
  • Result: 在各种视觉语言任务上的广泛实验验证了方法的有效性。
  • Conclusion: 该方法能够自适应确定最佳分辨率并有效扩展VLLM的视觉输入能力,提升视觉语言任务性能。

[12] Post Processing of image segmentation using Conditional Random Fields

Aashish Dhawan,Pankaj Bodani,Vishal Garg

Main category: cs.CV

TL;DR: 研究不同条件随机场(CRF)在卫星图像分割中的应用,比较它们在低质量卫星图像和高质量航拍图像上的表现,寻找最适合的分割方法。

  • Motivation: 卫星图像分割结果通常不清晰,主要原因是卫星图像特征质量较低。需要找到合适的条件随机场方法来提高分割图像的清晰度。
  • Method: 研究不同类型CRF的适用性,在低质量卫星图像和高质量航拍照片两个数据集上进行实验评估,比较各种CRF方法的表现。
  • Result: 通过实验发现了不同CRF方法在两种数据集上的优缺点,识别了各种方法的潜力和局限性。
  • Conclusion: 不同CRF方法在图像分割中表现各异,需要根据图像质量特征选择合适的方法,研究为卫星图像分割提供了方法选择的指导。

[13] Exploration of Incremental Synthetic Non-Morphed Images for Single Morphing Attack Detection

David Benavente-Rios,Juan Ruiz Rodriguez,Gustavo Gatica

Main category: cs.CV

TL;DR: 使用合成人脸数据增强单形态攻击检测,通过增量测试协议评估泛化能力,发现谨慎添加合成图像可改善性能,但仅依赖合成数据会导致最差效果。

  • Motivation: 解决由于隐私问题导致真实人脸图像数据集稀缺的局限性,探索合成数据在单形态攻击检测中的应用价值。
  • Method: 采用多种形态生成工具和跨数据集评估方案,实施增量测试协议来评估随着合成图像增加时的泛化能力。
  • Result: 实验结果显示,谨慎控制合成图像数量或逐步添加真实图像可以改善泛化能力,但无差别使用合成数据会导致次优性能,仅使用合成数据时达到最高的等错误率。
  • Conclusion: 在操作场景中,最佳选择不应仅依赖合成数据进行单形态攻击检测,需要结合真实数据以获得更好的检测性能。

[14] Cell Instance Segmentation: The Devil Is in the Boundaries

Peixian Liang,Yifan Ding,Yizhe Zhang,Jianxu Chen,Hao Zheng,Hongxiao Wang,Yejia Zhang,Guangyu Meng,Tim Weninger,Michael Niemier,X. Sharon Hu,Danny Z Chen

Main category: cs.CV

TL;DR: 提出了一种新的细胞实例分割方法Ceb,利用细胞边界特征和标签将前景像素划分为细胞实例,相比现有像素聚类方法表现更优。

  • Motivation: 现有的基于深度学习的细胞实例分割方法使用像素级目标(如距离图、热扩散图等)可能会丢失细胞实例的重要几何特性(如形状、曲率、凸性),这些特性需要像素集合来表示。
  • Method: Ceb方法首先从语义分割概率图中提取前景-前景边界,为每个边界候选构建边界特征表示(边界签名),使用边界分类器预测其二元边界标签,最后基于预测的边界标签通过分割或合并相邻区域获得细胞实例。
  • Result: 在六个数据集上的广泛实验表明,Ceb在语义分割概率图上优于现有的像素聚类方法,并且与最先进的细胞实例分割方法相比具有高度竞争力的性能。
  • Conclusion: Ceb方法通过利用细胞边界特征有效解决了像素级目标丢失几何特性的问题,在细胞实例分割任务中表现出色。

[15] Cluster-Aware Prompt Ensemble Learning for Few-Shot Vision-Language Model Adaptation

Zhi Chen,Xin Yu,Xiaohui Tao,Yan Li,Zi Huang

Main category: cs.CV

TL;DR: 提出了Cluster-Aware Prompt Ensemble Learning (CAPEL)框架,通过在分类logits空间进行集成,而不是特征空间平均,以解决传统提示集成方法导致类别中心偏移的问题。

  • Motivation: 传统提示集成方法在特征空间平均文本特征会导致类别中心偏离真实分布,影响零样本迁移性能。
  • Method: CAPEL框架将图像分类到多个类别簇,每个簇由不同提示表示;在logits空间进行集成;引入簇保持正则化项;集成自适应提示权重技术。
  • Result: 该方法能更好地对齐视觉特征分布,保持提示的簇特性和区分能力,提升跨数据集和任务的鲁棒性能。
  • Conclusion: CAPEL通过簇感知的提示集成学习,有效解决了传统提示集成方法的局限性,在保持提示多样性的同时提升了分类性能。

[16] Fast Self-Supervised depth and mask aware Association for Multi-Object Tracking

Milad Khanchi,Maria Amer,Charalambos Poullis

Main category: cs.CV

TL;DR: 提出一种多目标跟踪方法,使用深度和掩码特征通过自监督编码器生成稳定对象表示,作为边界框IoU和重识别特征的补充相似性线索,避免计算分割掩码IoU的高计算成本。

  • Motivation: 传统MOT方法依赖IoU进行关联,但在对象相似或遮挡时不可靠,且计算分割掩码IoU计算成本高。需要更稳定且高效的对象表示方法。
  • Method: 融合深度和掩码特征,通过自监督训练的紧凑编码器生成对象表示。使用零样本深度估计器获取深度图,可提示视觉分割模型获取对象掩码。在跟踪检测框架中,将该表示与边界框IoU和重识别特征结合进行匹配。
  • Result: 在具有非线性运动、遮挡和拥挤场景的挑战性基准(如SportsMOT和DanceTrack)上,该方法在大多数指标上优于TBD最新技术,在简单线性运动基准(如MOT17)上达到竞争性性能。
  • Conclusion: 该方法首次使用自监督编码器来优化分割掩码而不计算掩码IoU,为多目标跟踪提供了更稳定和高效的对象表示方案。

[17] CHUG: Crowdsourced User-Generated HDR Video Quality Dataset

Shreshth Saini,Alan C. Bovik,Neil Birkbeck,Yilin Wang,Balu Adsumilli

Main category: cs.CV

TL;DR: 提出了首个大规模用户生成HDR视频质量数据集CHUG,包含856个源视频和5,992个转码视频,收集了211,848个主观评分,填补了UGC-HDR视频质量评估的研究空白。

  • Motivation: 现有HDR视频质量评估数据集主要关注专业生成内容,而用户生成内容在捕获条件、编辑伪影和压缩失真方面存在独特挑战,缺乏针对UGC-HDR的专门数据集。
  • Method: 构建包含856个UGC-HDR源视频的数据集,通过多种分辨率和比特率转码模拟真实场景,共生成5,992个视频,通过Amazon Mechanical Turk进行大规模主观研究收集评分。
  • Result: 创建了首个大规模UGC-HDR视频质量数据集CHUG,提供了分析UGC特定失真的基准,数据集已公开可用。
  • Conclusion: CHUG数据集将推动无参考HDR视频质量评估研究,为UGC-HDR视频质量分析提供大规模、多样化的真实世界数据支持。

[18] Geometry-Aware Scene Configurations for Novel View Synthesis

Minkwan Kim,Changwoon Choi,Young Min Kim

Main category: cs.CV

TL;DR: 提出了场景自适应策略,通过几何先验指导表示容量的高效分配,用于从不完整观测生成室内环境的沉浸式体验。

  • Motivation: 室内场景通常具有不规则布局和变化复杂度,包含杂乱、遮挡和平坦墙壁。现有方法采用均匀基函数布置效率低下,需要更智能的资源分配策略。
  • Method: 在估计的几何支架上记录观测统计数据,指导基函数的最优放置;提出场景自适应虚拟视点来补偿输入轨迹中视图配置的几何缺陷并施加必要正则化。
  • Result: 在多个大规模室内场景中进行了全面分析,相比采用规则放置的基线方法,在渲染质量和内存需求方面都显示出显著提升。
  • Conclusion: 基于几何先导的场景自适应策略能够有效利用有限资源,显著改进可扩展神经辐射场表示的性能。

[19] LTGS: Long-Term Gaussian Scene Chronology From Sparse View Updates

Minkwan Kim,Seungmin Lee,Junho Kim,Young Min Kim

Main category: cs.CV

TL;DR: 提出LTGS方法,从稀疏视角更新中构建长期高斯场景时间线,能够高效表示日常环境变化,支持快速轻量级更新。

  • Motivation: 解决日常环境从随意拍摄中获取的挑战,包括频繁场景变化和需要密集时空观测的问题,特别是针对高度约束不足的随意拍摄。
  • Method: 将对象建模为模板高斯,作为共享对象轨迹的结构化可重用先验;通过少样本观察的细化管道调制先验以适应时变环境;通过简单变换实现跨时间步泛化。
  • Result: 在真实世界数据集上实验表明,相比其他基线方法获得更优的重建质量,同时支持快速轻量级更新。
  • Conclusion: LTGS框架能够有效建模长期场景时间线,显著增强3D环境时间演化的可扩展性,适用于稀疏捕获设置下的真实世界变化表示。

[20] An uncertainty-aware framework for data-efficient multi-view animal pose estimation

Lenny Aharon,Keemin Lee,Karan Sikka,Selmaan Chettih,Cole Hurwitz,Liam Paninski,Matthew R Whiteway

Main category: cs.CV

TL;DR: 提出一个综合框架,结合多视角变换器、几何一致性增强、非线性集成卡尔曼平滑器和模型蒸馏,用于动物姿态估计,在有限标注数据下实现准确跟踪和不确定性量化。

  • Motivation: 现有方法在有限标注数据下难以实现准确的动物姿态跟踪,且不确定性估计效果不佳,这限制了动物行为量化分析的科学应用。
  • Method: 使用多视角变换器(MVT)同时处理所有视角信息,引入补丁掩码方案学习跨视角对应关系;在标定设置中结合3D增强和三角化损失;扩展非线性集成卡尔曼平滑器并增强不确定性量化;设计蒸馏过程利用改进的EKS预测生成高质量伪标签。
  • Result: 框架组件在三种不同动物物种(苍蝇、小鼠、山雀)上一致优于现有方法,每个组件都提供互补优势。
  • Conclusion: 开发了一个实用、不确定性感知的系统,能够在真实世界数据约束下实现可靠的姿态估计,支持下游行为分析。

[21] SpectralCA: Bi-Directional Cross-Attention for Next-Generation UAV Hyperspectral Vision

D. V. Brovko

Main category: cs.CV

TL;DR: 开发了一种集成高光谱成像的深度学习架构,通过SpectralCA块实现光谱和空间特征的双向交叉注意力融合,提升无人机在复杂环境中的感知效率。

  • Motivation: 满足无人机在干扰、能见度差或伪装等复杂环境中可靠运行的需求,利用高光谱成像实现精细材料识别和物体区分,支持导航、监视、农业和环境监测。
  • Method: 基于Mobile 3D Vision Transformer改进,引入SpectralCA块,采用双向交叉注意力机制融合光谱和空间特征,减少参数和推理时间。
  • Result: 在WHU-Hi-HongHu数据集上评估,使用总体精度、平均精度和Kappa系数验证,证实架构提高了无人机感知效率,支持实时操作。
  • Conclusion: 提出的架构有效提升了无人机在复杂环境中的感知能力,为导航、物体识别和环境监测任务提供了实时解决方案。

[22] HeadsUp! High-Fidelity Portrait Image Super-Resolution

Renjie Li,Zihao Zhu,Xiaoyu Wang,Zhengzhong Tu

Main category: cs.CV

TL;DR: 提出了HeadsUp,一种单步扩散模型,用于无缝恢复和放大肖像图像,解决了现有方法在面部区域和背景之间混合时产生的边界伪影问题。

  • Motivation: 现有的图像超分辨率技术要么专注于通用真实世界图像,要么专注于严格对齐的面部图像。在实践中,混合使用不同模型处理肖像照片会导致面部区域周围出现混合或边界伪影,而人类感知对面部保真度特别敏感。
  • Method: 基于单步扩散模型构建,开发了面部监督机制来引导模型专注于面部区域,并集成了基于参考的机制来帮助身份恢复,减少低质量面部恢复中的面部模糊。还构建了高质量的4K肖像图像ISR数据集PortraitSR-4K。
  • Result: 广泛的实验表明,HeadsUp在PortraitISR任务上实现了最先进的性能,同时在通用图像和对齐面部数据集上保持相当或更高的性能。
  • Conclusion: HeadsUp能够以端到端的方式无缝恢复和放大肖像图像,克服了现有混合方法的局限性,在保持面部保真度方面表现出色。

[23] Denoising Diffusion as a New Framework for Underwater Images

Nilesh Jain,Elie Alhajjar

Main category: cs.CV

TL;DR: 提出使用去噪扩散模型和Controlnet来扩展和增强水下图像数据集,以解决现有数据集多样性不足和质量低下的问题。

  • Motivation: 水下图像在海洋研究中至关重要,但由于环境复杂导致图像质量差,现有数据集缺乏多样性且多为单目图像,限制了不同光照条件和角度的表示。
  • Method: 使用去噪扩散模型扩展数据集类型(立体、广角、微距、特写图像),并利用Controlnet评估和增强图像质量。
  • Result: 通过该方法可以创建更丰富多样的水下图像数据集,提高图像质量。
  • Conclusion: 提出的方法能够克服现有水下图像数据集的局限性,改善海洋生态系统研究的数据基础。

[24] Semi-disentangled spatiotemporal implicit neural representations of longitudinal neuroimaging data for trajectory classification

Agampreet Aulakh,Nils D. Forkert,Matthias Wilms

Main category: cs.CV

TL;DR: 提出了一种基于隐式神经表示(INR)的新方法,用于建模脑部衰老轨迹,能够处理不规则采样的纵向MRI数据,并在模拟数据上实现了81.3%的分类准确率。

  • Motivation: 纵向MRI数据具有离散性和不规则采样特性,传统深度学习方法难以表示连续的生物过程,需要开发能够处理这种数据特性的新方法。
  • Method: 使用隐式神经表示(INR)将纵向T1加权MRI数据建模为连续函数,设计了能够部分解耦空间和时间轨迹参数的INR架构,并在INR参数空间上直接进行分类。
  • Result: 在模拟数据实验中,特别是在更现实的不规则采样场景下,INR方法达到81.3%的分类准确率,优于标准深度学习基线模型的73.7%。
  • Conclusion: INR方法能够有效处理不规则采样的纵向神经影像数据,为脑部衰老轨迹分析提供了有前景的解决方案。

[25] Explainable Human-in-the-Loop Segmentation via Critic Feedback Signals

Pouya Shaeri,Ryan T. Woo,Yasaman Mohammadpour,Ariane Middel

Main category: cs.CV

TL;DR: 提出了一种人机交互的干预学习框架,通过人类对分割输出的针对性修正来引导模型学习鲁棒的语义特征,而非虚假相关性。

  • Motivation: 现有分割模型在基准测试中表现良好,但在真实场景中容易依赖虚假相关性而非真实物体边界,导致泛化能力差。
  • Method: 将人类修正视为干预信号,通过传播修正信息到视觉相似的图像中,系统性地纠正模型的失败模式,实现干预学习。
  • Result: 在挑战性立方体地图数据上分割准确率提升9 mIoU点(12-15%相对提升),标注工作量减少3-4倍,同时在基准数据集上保持竞争力。
  • Conclusion: 该框架为构建准确、鲁棒、数据高效且适应真实世界领域的分割系统提供了实用解决方案。

[26] A Multi-Strategy Framework for Enhancing Shatian Pomelo Detection in Real-World Orchards

Pan Wang,Yihao Hu,Xiaodong Bai,Aiping Yang,Xiangxiang Li,Meiping Ding,Jianguo Yao

Main category: cs.CV

TL;DR: 本文提出了一种多策略框架来解决沙田柚检测中的关键挑战,包括成像设备差异、光照条件、目标尺度变化和遮挡问题,通过构建多场景数据集和设计REAS-Det网络实现了优越的检测性能。

  • Motivation: 沙田柚作为大宗特色农产品,需要自动化检测来确保准确数量并满足精益生产需求。现有方法在真实场景中性能下降,主要面临成像设备、光照条件、目标尺度变化和遮挡四个关键挑战。
  • Method: 1) 构建多场景数据集STP-AgriData,整合真实果园图像和网络数据;2) 应用数据增强模拟光照变化;3) 设计REAS-Det网络,使用RFAConv和C3RFEM模块处理尺度变化,采用MultiSEAM和soft-NMS处理遮挡问题。
  • Result: 实验结果显示:精确率87.6%,召回率74.9%,mAP@.50为82.8%,mAP@.50:.95为53.3%,优于其他最先进的检测方法。
  • Conclusion: 提出的多策略框架有效解决了沙田柚检测中的关键挑战,在真实场景中表现出优越性能,为农产品自动化检测提供了可行解决方案。

[27] J-RAS: Enhancing Medical Image Segmentation via Retrieval-Augmented Joint Training

Salma J. Ahmed,Emad A. Mohammed,Azam Asilian Bidgoli

Main category: cs.CV

TL;DR: 提出J-RAS方法,通过联合训练分割模型和检索模型,利用检索到的图像-掩码对增强分割性能,在多个数据集和架构上取得显著改进。

  • Motivation: 解决医学图像分割中手动标注耗时且存在变异性,以及AI方法需要大量标注数据且泛化能力不足的问题。
  • Method: 联合训练分割模型和检索模型,分割模型利用检索到的图像-掩码对增强解剖理解,检索模型学习分割相关特征。
  • Result: 在ACDC数据集上,SegFormer结合J-RAS将Dice分数从0.8708提升到0.9115,Hausdorff距离从1.8130降低到1.1489。
  • Conclusion: J-RAS方法有效提升了分割性能,具有良好的泛化能力,适用于不同架构和数据集。

[28] Scaling Traffic Insights with AI and Language Model-Powered Camera Systems for Data-Driven Transportation Decision Making

Fan Zuo,Donglin Zhou,Jingqin Gao,Kaan Ozbay

Main category: cs.CV

TL;DR: 开发了一个基于AI的端到端框架,利用现有交通摄像头基础设施进行高分辨率、大规模的纵向交通分析,通过YOLOv11模型提取交通密度和分类指标,并引入图基视角归一化方法处理动态摄像头视角问题。

  • Motivation: 由于传感器部署成本高,而交通摄像头提供了一种经济有效的替代方案,但现有视频分析难以处理动态摄像头视角和大规模摄像头网络产生的海量数据。
  • Method: 使用在本地城市场景上训练的微调YOLOv11模型实时提取多模态交通密度和分类指标;引入新颖的图基视角归一化方法处理非静态PTZ摄像头的不一致性;集成领域特定大语言模型处理24/7视频流数据,生成频繁的自动化交通模式摘要。
  • Result: 在纽约市拥堵收费早期实施期间验证系统,结果显示工作日乘用车密度在拥堵缓解区内下降9%,卡车流量早期减少但出现反弹迹象,行人和自行车活动在走廊和区域尺度上持续增加。
  • Conclusion: 该框架展示了作为实用、基础设施就绪的解决方案的潜力,可用于大规模、政策相关的交通监控,且人工干预最少。

[29] FlareX: A Physics-Informed Dataset for Lens Flare Removal via 2D Synthesis and 3D Rendering

Lishen Qu,Zhihao Liu,Jinshan Pan,Shihao Zhou,Jinglei Shi,Duosheng Chen,Jufeng Yang

Main category: cs.CV

TL;DR: 提出了一种基于物理原理的镜头光晕数据生成方法FlareX,包含参数化模板创建、光照感知的2D合成和基于物理引擎的3D渲染三个阶段,构建了包含9500个2D模板和3000个3D渲染图像对的混合数据集。

  • Motivation: 现有光晕数据集通常通过在背景图像上叠加人工光晕模板来合成,但模板缺乏多样性且忽视物理原理,导致训练模型在真实场景中泛化能力差。
  • Method: 三阶段方法:参数化模板创建、光照感知的2D合成、物理引擎3D渲染,构建混合2D/3D数据集FlareX,并设计掩码方法从真实光晕图像获取无光晕图像。
  • Result: 构建了包含9500个2D模板(来自95种光晕模式)和3000个光晕图像对(来自60个3D场景)的数据集,实验证明方法有效。
  • Conclusion: 提出的物理信息光晕数据生成方法和FlareX数据集能有效提升模型在真实场景中的泛化能力。

[30] BurstDeflicker: A Benchmark Dataset for Flicker Removal in Dynamic Scenes

Lishen Qu,Zhihao Liu,Shihao Zhou,Yaqi Luo,Jie Liang,Hui Zeng,Lei Zhang,Jufeng Yang

Main category: cs.CV

TL;DR: 提出了BurstDeflicker数据集,通过三种互补的数据采集策略构建可扩展的基准测试,用于解决滚动快门相机在交流电照明下产生的闪烁伪影问题。

  • Motivation: 由于缺乏大规模、真实的闪烁数据集,阻碍了闪烁去除研究的进展。闪烁伪影会降低图像质量并影响高级视觉任务。
  • Method: 1. 基于Retinex的合成管道,可控制关键闪烁属性;2. 从不同场景采集4000张真实闪烁图像;3. 提出绿幕方法在动态场景中保留真实闪烁退化。
  • Result: 综合实验证明了数据集的有效性及其在推进闪烁去除研究方面的潜力。
  • Conclusion: BurstDeflicker数据集通过多种数据采集策略,为闪烁去除研究提供了可扩展的基准测试,有助于模型更好地理解真实闪烁特征并泛化到实际场景。

[31] MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output

Yanyuan Chen,Dexuan Xu,Yu Huang,Songkun Zhan,Hanpin Wang,Dongxue Chen,Xueping Wang,Meikang Qiu,Hang Li

Main category: cs.CV

TL;DR: 提出MIMO模型解决医疗视觉语言模型的两个问题:输入缺乏对图像视觉线索的直接理解,输出缺乏与图像关键区域的连接。MIMO支持视觉参考的多模态输入和像素定位的多模态输出。

  • Motivation: 现有医疗视觉语言模型仅依赖文本指令输入,缺乏对图像视觉线索的直接理解;输出仅提供文本答案,缺乏与图像关键区域的连接。
  • Method: 提出统一医疗视觉语言模型MIMO,具有视觉参考的多模态输入和像素定位的多模态输出能力。构建MIMOSeg数据集,包含89.5万个样本,涵盖基础指令跟随和复杂问答任务。
  • Result: 在多个下游医疗多模态任务上的实验结果表明,MIMO能够独特地结合视觉参考和像素定位能力,这是先前模型所不具备的。
  • Conclusion: MIMO模型成功解决了医疗视觉语言模型在输入和输出方面的局限性,通过多模态输入输出实现了对医疗图像的更全面理解。

Junan Chen,Trung Thanh Nguyen,Takahiro Komamizu,Ichiro Ide

Main category: cs.CV

TL;DR: 提出Query-Adapter(Q-Adapter)轻量级视觉适配器模块,用于多模态大语言模型的参数高效微调,在视频字幕任务中仅需1.4%参数即可达到与全微调方法竞争的性能。

  • Motivation: 现有参数高效微调方法主要关注语言组件,在多模态任务中视觉信息理解不足,且随着模型规模增大,全模型微调变得计算成本过高。
  • Method: Q-Adapter在视觉编码器中引入可学习查询令牌和门控层,无需外部文本监督即可有效提取稀疏的、与字幕相关的特征。
  • Result: 在MSR-VTT和MSVD数据集上,Q-Adapter在参数高效微调方法中达到最先进性能,在BLEU@4、METEOR、ROUGE-L和CIDEr指标上表现优异。
  • Conclusion: Q-Adapter在字幕质量和参数效率之间实现了良好平衡,展示了其在视频语言建模中的可扩展性。

[33] P-4DGS: Predictive 4D Gaussian Splatting with 90× Compression

Henan Wang,Hanxin Zhu,Xinliang Gong,Tianyu He,Xin Li,Zhibo Chen

Main category: cs.CV

TL;DR: P-4DGS是一种新颖的动态3D高斯泼溅表示方法,通过时空预测、自适应量化和熵编码技术,显著压缩动态场景的存储需求,在保持高质量重建的同时实现极低的内存占用。

  • Motivation: 现有的动态3D高斯泼溅方法忽略了动态场景中固有的时空冗余性,导致内存消耗过高,需要一种更紧凑的4D场景建模表示方法。
  • Method: 设计基于3D锚点的时空预测模块来利用3D高斯基元间的时空相关性,结合自适应量化和基于上下文的熵编码进一步压缩3D锚点数据。
  • Result: 在合成和真实世界数据集上的实验表明,该方法实现了最先进的重建质量和最快的渲染速度,平均存储占用仅约1MB,在合成和真实场景上分别达到40倍和90倍的压缩比。
  • Conclusion: P-4DGS通过有效利用时空相关性,在动态3D场景重建中实现了存储效率和重建质量的显著提升,为紧凑的4D场景建模提供了有效解决方案。

[34] Complementary and Contrastive Learning for Audio-Visual Segmentation

Sitong Gong,Yunzhi Zhuge,Lu Zhang,Pingping Zhang,Huchuan Lu

Main category: cs.CV

TL;DR: 提出CCFormer框架,通过并行双边架构融合多尺度视觉特征与音频数据,使用多查询Transformer模块动态学习音频查询能力,并引入双模态对比学习促进模态对齐,在多个数据集上达到新的SOTA性能。

  • Motivation: 传统CNN方法受限于局部感受野,而基于Transformer的方法在提取多模态系数和时序动态方面存在不足,需要同时处理局部和全局信息并全面捕捉时空上下文。
  • Method: CCFormer包含三个核心模块:早期集成模块(EIM)并行融合多尺度视觉和音频特征;多查询Transformer模块(MTM)动态赋予音频查询学习能力,同时建模帧级和视频级关系;双模态对比学习(BCL)促进统一特征空间中的模态对齐。
  • Result: 在S4、MS3和AVSS数据集上均达到了新的最先进性能基准。
  • Conclusion: CCFormer通过有效结合局部全局信息处理和时空上下文捕捉,在音频-视觉分割任务中表现出色,为多模态学习提供了新的解决方案。

[35] Think Twice to See More: Iterative Visual Reasoning in Medical VLMs

Kaitao Chen,Shaohao Rui,Yankai Jiang,Jiamin Wu,Qihao Zheng,Chunfeng Song,Xiaosong Wang,Mu Zhou,Mianxin Liu

Main category: cs.CV

TL;DR: ViTAR是一个医学视觉语言模型框架,通过模拟人类专家的迭代推理过程(思考-行动-再思考-回答)来提升医学图像诊断性能。

  • Motivation: 现有的视觉语言模型通常依赖单次推理,忽略了局部视觉线索,而临床实践中人类专家会迭代扫描、聚焦和细化感兴趣区域。ViTAR旨在缩小这种机器与人类感知差距。
  • Method: 提出认知链"think-act-rethink-answer"框架,将医学图像视为交互对象进行多步视觉推理。采用两阶段训练策略:监督微调引导认知轨迹,强化学习优化决策。构建了1K交互示例和16K视觉问答训练数据。
  • Result: ViTAR在广泛评估中优于现有最先进模型。视觉注意力分析显示,从"思考"到"再思考"阶段,模型逐渐锚定到临床关键区域,并在推理过程中保持对视觉标记的高注意力分配。
  • Conclusion: 将专家风格的迭代思维链嵌入视觉语言模型可以增强医学AI的性能和可信度。

[36] DREAM: A Benchmark Study for Deepfake REalism AssessMent

Bo Peng,Zichuan Wang,Sheng Yu,Xiaochuan Jin,Wei Wang,Jing Dong

Main category: cs.CV

TL;DR: 提出了DREAM基准,用于评估深度伪造视频的视觉真实感,包括数据集、大规模人工标注和16种评估方法的综合分析。

  • Motivation: 深度伪造检测已有较多研究,但深度伪造的主观感知(特别是视觉真实感)的计算建模和模仿缺乏充分研究。
  • Method: 构建DREAM基准,包含多样质量的深度伪造视频数据集、14万个真实感评分和文本描述的大规模人工标注,评估了16种代表性真实感评估方法。
  • Result: 建立了首个全面的深度伪造视觉真实感评估基准,为未来研究奠定了基础。
  • Conclusion: DREAM基准为深度伪造视觉真实感评估及相关领域的研究提供了重要基础。

[37] Collaborative Learning of Semantic-Aware Feature Learning and Label Recovery for Multi-Label Image Recognition with Incomplete Labels

Zhi-Fen He,Ren-Dong Xie,Bo Li,Bin Liu,Jin-Yan Hu

Main category: cs.CV

TL;DR: 提出CLSL方法解决多标签图像识别中标签不完整问题,通过语义感知特征学习和标签恢复的协同学习框架,在MS-COCO、VOC2007和NUS-WIDE数据集上优于现有方法。

  • Motivation: 多标签图像识别面临语义感知特征学习和缺失标签恢复两个核心挑战,需要统一的学习框架来解决。
  • Method: 设计了语义相关特征学习模块、语义引导特征增强模块,以及整合特征学习和标签恢复的协同学习框架,形成相互强化的循环过程。
  • Result: 在三个公开数据集上的大量实验表明,CLSL方法在标签不完整情况下优于当前最先进的多标签图像识别方法。
  • Conclusion: CLSL方法通过协同学习语义感知特征和标签恢复,有效解决了多标签图像识别中的标签不完整问题,取得了优异性能。

[38] Probabilistic Hyper-Graphs using Multiple Randomly Masked Autoencoders for Semi-supervised Multi-modal Multi-task Learning

Pîrvu Mihai-Cristian,Leordeanu Marius

Main category: cs.CV

TL;DR: 提出了PHG-MAE模型,将神经图与掩码自编码器结合,通过随机掩码整个模态来采样超边分布,统一了预训练和微调过程,并支持推理时集成和知识蒸馏。

  • Motivation: 利用自监督预训练方法(如MAE)无需人工标注数据的优势,结合神经图理论,为多模态多任务学习提供统一框架。
  • Method: 提出PHG-MAE模型,随机掩码整个模态而非仅图像块,在每次前向传播中采样超边分布,将预训练和微调整合到单一训练循环中。
  • Result: 模型支持推理时集成提升预测性能和一致性,可在小于100万参数的模型上应用知识蒸馏且性能损失很小。
  • Conclusion: 该方法主要针对无人机户外场景,但可推广到自动驾驶、室内机器人等类似领域,并发布了自动化扩展的Dronescapes数据集和相关代码。

[39] Tracking the Spatiotemporal Evolution of Landslide Scars Using a Vision Foundation Model: A Novel and Universal Framework

Meijun Zhou,Gang Mei,Zhengjing Ma,Nengxiong Xu,Jianbing Peng

Main category: cs.CV

TL;DR: 提出了一种基于视觉基础模型的通用框架,用于追踪大规模滑坡疤痕的时空演化,通过将离散遥感图像重构为连续视频序列,实现滑坡演化过程的连续监测。

  • Motivation: 现有研究多关注单阶段或前后双阶段滑坡识别,难以追踪滑坡疤痕的时空演化过程,而这对理解演化机制和识别失稳前兆至关重要。
  • Method: 将离散光学遥感图像重构为连续视频序列,利用为视频分割开发的视觉基础模型,在知识引导、自动传播和交互精炼的范式下进行滑坡疤痕的连续识别。
  • Result: 在巴格滑坡和色拉滑坡两个代表性案例中验证,框架能够连续追踪滑坡疤痕,捕捉到对早期预警关键的失稳前兆以及对评估次生灾害和长期稳定性重要的失稳后演化。
  • Conclusion: 该框架为大规模滑坡疤痕的时空演化追踪提供了一种有效方法,在滑坡早期预警和风险评估中具有重要应用价值。

[40] Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting

Jiahui Lu,Haihong Xiao,Xueyan Zhao,Wenxiong Kang

Main category: cs.CV

TL;DR: Gesplat是一个基于3D高斯泼溅的框架,能够在无姿态的稀疏图像下实现鲁棒的新视角合成和几何一致重建,通过VGGT基础模型获取初始姿态和密集点云,结合混合高斯表示和深度正则化等技术。

  • Motivation: NeRF和3DGS严重依赖准确的相机姿态和密集视角覆盖,限制了在稀疏视图设置中的应用,因为姿态估计不可靠且监督不足。
  • Method: 1) 使用VGGT基础模型获取可靠的初始姿态和密集点云;2) 混合高斯表示与双位置-形状优化;3) 图引导属性细化模块;4) 基于流量的深度正则化。
  • Result: 在正向面对和大规模复杂数据集上,相比其他无姿态方法实现了更鲁棒的性能。
  • Conclusion: Gesplat框架有效解决了稀疏视图下3D重建和新视角合成的挑战,通过结合基础模型和多种优化技术,实现了几何一致的重建效果。

[41] Cooperative Pseudo Labeling for Unsupervised Federated Classification

Kuangpu Guo,Lijun Sheng,Yongcan Yu,Jian Liang,Zilei Wang,Ran He

Main category: cs.CV

TL;DR: 首次将无监督联邦学习扩展到分类问题,提出FedCoPL方法,利用CLIP模型实现客户端间伪标签分布调整和部分提示聚合,解决全局类别不平衡问题。

  • Motivation: 现有无监督联邦学习主要关注表示学习和聚类任务,而CLIP等视觉语言模型的零样本预测能力为UFL范式下的分类问题提供了新机会,但尚未被充分探索。
  • Method: 提出FedCoPL方法:客户端估计并上传伪标签分布,服务器调整并重新分配以避免全局类别不平衡;引入部分提示聚合协议,服务器聚合视觉提示,客户端保留文本提示以实现有效协作和个性化。
  • Result: 大量实验证明FedCoPL相比基线方法具有优越性能。
  • Conclusion: 成功将无监督联邦学习扩展到分类问题,提出的FedCoPL方法通过伪标签分布调整和部分提示聚合,有效解决了全局类别不平衡问题,实现了优异的性能。

[42] Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models

Minbin Huang,Runhui Huang,Chuanyang Zheng,Jingyao Li,Guoxuan Chen,Han Shi,Hong Cheng

Main category: cs.CV

TL;DR: 提出ACRE方法,通过一致性检查改进GRPO算法,解决强化学习中推理链与最终答案不一致的问题,在视频推理和数学推理任务上分别提升2.2%和1.5%。

  • Motivation: 标准GRPO方法在视觉问答任务中推理步骤与最终答案的一致性仅为79.7%,存在推理链与答案不匹配的问题,需要改进强化学习以保持推理一致性。
  • Method: 修改GRPO算法,增加辅助一致性检查:模型生成推理链和初始答案后,打乱选项顺序,用相同推理链预测第二个答案,设计一致性验证奖励机制。
  • Result: 在视频推理和多模态数学推理基准测试中,ACRE相比GRPO基线分别平均提升2.2%和1.5%。
  • Conclusion: ACRE方法有效解决了强化学习中推理与答案不一致的问题,通过一致性检查机制惩罚推理-答案错位,减少对虚假模式的依赖。

[43] Uncertainty-Aware Post-Detection Framework for Enhanced Fire and Smoke Detection in Compact Deep Learning Models

Aniruddha Srinivas Joshi,Godwyn James William,Shreyas Srinivas Joshi

Main category: cs.CV

TL;DR: 提出了一种不确定性感知的后检测框架,通过统计不确定性和领域相关视觉线索重新调整检测置信度,提升紧凑型深度学习模型在火灾烟雾检测中的鲁棒性。

  • Motivation: 现有基于视觉的火灾烟雾检测方法在效率和可靠性之间难以平衡,紧凑型模型如YOLOv5n/YOLOv8n在部署时容易产生误报和漏检,传统后处理方法仅依赖空间重叠,在复杂场景中效果不佳。
  • Method: 提出轻量级置信度精炼网络,集成不确定性估计与颜色、边缘、纹理特征来调整检测分数,无需修改基础模型。
  • Result: 在D-Fire数据集上相比现有基线方法,精度、召回率和平均精度均值均有提升,仅带来适度的计算开销。
  • Conclusion: 后检测重评分能有效增强紧凑型深度学习模型在真实世界火灾烟雾检测中的鲁棒性。

[44] Training-Free In-Context Forensic Chain for Image Manipulation Detection and Localization

Rui Chen,Bin Liu,Changtao Miao,Xinghao Wang,Yi Li,Tao Gong,Qi Chu,Nenghai Yu

Main category: cs.CV

TL;DR: 提出ICFC框架,利用多模态大语言模型进行无需训练的图像篡改定位,通过对象化规则构建和自适应过滤构建知识库,采用多步渐进推理实现从粗到细的取证分析。

  • Motivation: 图像篡改技术发展带来安全威胁,需要有效的篡改定位方法。现有监督方法依赖昂贵的像素级标注,而弱监督或无训练方法性能不足且缺乏可解释性。
  • Method: ICFC框架包含对象化规则构建与自适应过滤构建可靠知识库,以及多步渐进推理流程,模拟专家取证工作流程,从粗粒度提案到细粒度取证结果。
  • Result: 在多个基准测试中,ICFC不仅超越了最先进的无训练方法,还达到了与弱监督和全监督方法相当或更优的性能。
  • Conclusion: ICFC框架能够系统性地利用MLLM推理能力,实现图像级分类、像素级定位和文本级可解释性,为图像取证提供有效的训练免费解决方案。

[45] ImmerIris: A Large-Scale Dataset and Benchmark for Immersive Iris Recognition in Open Scenes

Yuxi Mi,Qiuyang Yuan,Zhizhou Zhong,Xuan Zhao,Jiaogen Zhou,Fubao Zhu,Jihong Guan,Shuigeng Zhou

Main category: cs.CV

TL;DR: 提出了ImmerIris数据集,这是目前最大的公开VR头显采集的离轴虹膜数据集,包含564名受试者的499,791张眼部图像。针对传统虹膜识别方法在沉浸式场景中的不足,提出了无需归一化的新范式,在离轴虹膜识别中表现更优。

  • Motivation: 在增强现实和虚拟现实等自我中心应用中,沉浸式虹膜识别正成为一种准确且无缝的身份识别方式。但传统系统在受控环境下通过专用正面传感器获取虹膜图像,而沉浸式设置主要通过倾斜放置的头显相机在开放场景中捕获离轴虹膜,这带来了透视畸变、质量退化和虹膜纹理类内变化等独特挑战。
  • Method: 1) 构建ImmerIris数据集,通过VR头显采集大规模离轴虹膜图像;2) 建立评估协议来测试不同挑战因素下的识别方法;3) 提出无需归一化的新范式,直接从眼部图像学习,仅需最小调整。
  • Result: 当前主要为经典正轴图像设计的方法在沉浸式设置中表现不佳,主要依赖易出错的归一化。提出的无需归一化方法尽管简单,但始终优于基于归一化的对应方法。
  • Conclusion: 无需归一化的范式为鲁棒的沉浸式虹膜识别指明了有前景的方向,ImmerIris数据集填补了该领域数据稀缺的空白,为未来研究提供了重要基准。

[46] Multi Class Parkinsons Disease Detection Based on Finger Tapping Using Attention-Enhanced CNN BiLSTM

Abu Saleh Musa Miah,Najmul Hassan,Md Maruf Al Hossain,Yuichi Okuyama,Jungpil Shin

Main category: cs.CV

TL;DR: 提出了一种基于注意力增强CNN-BiLSTM的多类帕金森病检测系统,通过手指敲击视频分析来评估PD严重程度。

  • Motivation: 现有基于手势的PD识别系统性能不理想,需要开发更准确的PD严重程度评估方法以支持临床管理和干预开发。
  • Method: 收集手指敲击视频,提取手腕和手部运动的时域、频域和幅度特征,构建CNN-BiLSTM-注意力混合深度学习框架进行多类PD严重程度分类。
  • Result: 模型在区分五个严重程度类别方面表现出色,证明了该方法的有效性。
  • Conclusion: 结合时空表示与注意力机制可以改善自动PD严重程度检测,有望成为支持临床医生进行PD监测和进展跟踪的非侵入性工具。

[47] DeepFusionNet: Autoencoder-Based Low-Light Image Enhancement and Super-Resolution

Halil Hüseyin Çalışkan,Talha Koruk

Main category: cs.CV

TL;DR: DeepFusionNet是一种轻量级网络架构,用于解决低光照图像增强和超分辨率问题,相比传统方法具有更少的参数和更好的性能。

  • Motivation: 解决计算机视觉中低光照图像质量差的问题,以及传统自编码器方法参数多、计算量大、SSIM和PSNR得分低的问题。
  • Method: 提出DeepFusionNet架构,使用自编码器方法进行低光照图像增强和超分辨率处理,相比GAN方法参数更少。
  • Result: 在LOL-v1数据集上,低光照增强任务获得92.8% SSIM和26.30 PSNR,仅250万参数;超分辨率任务获得80.7% SSIM和25.30 PSNR,仅10万参数。
  • Conclusion: DeepFusionNet在保持轻量级的同时,在低光照图像增强和超分辨率任务上都取得了优异的性能表现。

[48] YOLOv11-Litchi: Efficient Litchi Fruit Detection based on UAV-Captured Agricultural Imagery in Complex Orchard Environments

Hongxing Peng,Haopei Xie,Weijia Lia,Huanai Liuc,Ximing Li

Main category: cs.CV

TL;DR: 提出YOLOv11-Litchi轻量检测模型,用于无人机荔枝检测,相比基准模型参数量减少32.5%,mAP提升2.5%至90.1%,F1-Score提升1.4%至85.5%,帧率达57.2 FPS。

  • Motivation: 传统人工荔枝分选方法无法满足现代生产需求,结合无人机航拍和深度学习可提高效率、降低成本。
  • Method: 基于YOLOv11框架,引入多尺度残差模块增强跨尺度特征提取,轻量级特征融合方法减少模型大小和计算成本,荔枝遮挡检测头缓解遮挡效应。
  • Result: 模型参数量6.35MB,比基准减少32.5%;mAP达90.1%,提升2.5%;F1-Score达85.5%,提升1.4%;帧率57.2 FPS。
  • Conclusion: YOLOv11-Litchi适合复杂果园环境中的无人机荔枝检测,在精准农业中具有广泛应用潜力。

[49] Color3D: Controllable and Consistent 3D Colorization with Personalized Colorizer

Yecong Wan,Mingwen Shao,Renlong Wu,Wangmeng Zuo

Main category: cs.CV

TL;DR: Color3D是一个用于从单色输入对静态和动态3D场景进行着色的高度适应性框架,通过个性化色彩器实现跨视图和时间的一致性,同时保持色彩多样性和可控性。

  • Motivation: 现有方法主要关注静态场景,通过平均颜色变化来强制多视图一致性,但这牺牲了色彩丰富性和可控性。需要一种能同时保持色彩多样性和可控性,同时确保跨视图和时间一致性的方法。
  • Method: 核心思路是仅对一个关键视图进行着色,然后微调个性化色彩器来将颜色传播到新视图和时间步。通过个性化,色彩器学习场景特定的确定性颜色映射,通过其固有的归纳偏置将对应颜色一致地投影到新视图和视频帧中。
  • Result: 在多样化的静态和动态3D着色基准测试中,该方法能够提供更一致和色彩丰富的渲染结果,并具有精确的用户控制能力。
  • Conclusion: 该框架巧妙地将复杂的3D着色问题重新表述为更易处理的单图像范式,允许无缝集成任意图像着色模型,增强了灵活性和可控性。

[50] Stroke Locus Net: Occluded Vessel Localization from MRI Modalities

Mohamed Hamad,Muhammad Khan,Tamer Khattab,Mohamed Mabrok

Main category: cs.CV

TL;DR: 提出了Stroke Locus Net,一个端到端的深度学习管道,用于仅使用MRI扫描进行检测、分割和闭塞血管定位。

  • Motivation: 缺血性卒中诊断中准确识别闭塞血管位置是一个关键挑战,现有方法主要关注病灶分割,在血管定位方面研究有限。
  • Method: 结合使用nnUNet进行病灶检测的分割分支、用于血管映射和识别的动脉图谱,以及使用pGAN从MRI合成MRA图像的生成分支。
  • Result: 在卒中影响的T1 MRI扫描上显示出有前景的闭塞血管定位结果。
  • Conclusion: 该方法有潜力实现更快、更明智的卒中诊断。

[51] ReMix: Towards a Unified View of Consistent Character Generation and Editing

Benjia Zhou,Bin Fu,Pei Cheng,Yanru Wang,Jiayuan Fan,Tao Chen

Main category: cs.CV

TL;DR: ReMix是一个统一的字符一致性生成和编辑框架,包含ReMix模块和IP-ControlNet两个核心组件,解决了现有方法在身份一致性和空间可控性方面的不足。

  • Motivation: 现有的大规模文本到图像扩散模型在字符生成和编辑方面存在局限性:生成方法难以保持细粒度身份一致性,编辑方法容易失去空间可控性和指令对齐。需要统一这两个任务的框架。
  • Method: ReMix模块利用MLLM的多模态推理能力编辑输入图像的语义特征,无需微调即可适配指令嵌入到原生DiT主干。IP-ControlNet扩展ControlNet,从参考图像解耦语义和布局线索,在共享噪声空间中联合去噪参考图像和目标图像。
  • Result: ReMix支持个性化生成、图像编辑、风格迁移和多条件合成等多种任务,实验验证了其作为统一框架的有效性和效率。
  • Conclusion: ReMix通过创新的模块设计和潜在空间优化,成功实现了字符一致性生成和编辑的统一,在保持身份一致性的同时提供了更好的空间可控性。

[52] SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

Zhenjie Mao,Yuhuan Yang,Chaofan Ma,Dongsheng Jiang,Jiangchao Yao,Ya Zhang,Yanfeng Wang

Main category: cs.CV

TL;DR: 提出SaFiRe框架解决指称图像分割中的歧义表达问题,通过模拟人类两阶段认知过程,利用Mamba的扫描-更新特性实现高效多轮细化。

  • Motivation: 现有RIS方法主要处理简单表达,难以应对现实世界中的对象干扰表达和类别隐式表达等歧义场景。
  • Method: SaFiRe框架模拟人类认知过程:先形成全局理解,再通过细节导向检查进行细化,利用Mamba的扫描-更新特性实现线性复杂度的多轮细化。
  • Result: 在标准数据集和提出的aRefCOCO基准测试中,SaFiRe均优于现有最先进基线方法。
  • Conclusion: SaFiRe通过两阶段认知建模有效处理歧义指称表达,新基准aRefCOCO为RIS模型评估提供了更现实的测试环境。

[53] SparseUWSeg: Active Sparse Point-Label Augmentation for Underwater Semantic Segmentation

César Borja,Carlos Plou,Rubén Martinez-Cantín,Ana C. Murillo

Main category: cs.CV

TL;DR: SparseUWSeg是一个用于水下语义分割的框架,通过主动采样策略和混合标签传播方法,利用稀疏点标注生成高质量分割掩码。

  • Motivation: 水下图像语义分割对生态监测很重要,但获取密集专家标注成本高昂。稀疏点标注更容易获取,但面临标注点选择和稀疏信息传播的挑战。
  • Method: 采用主动采样策略指导标注者选择最有价值的点,结合SAM2和超像素方法的混合标签传播方法。
  • Result: 在两个不同的水下数据集上,SparseUWSeg比现有方法表现更好,相比D+NN提高了5%的mIoU。
  • Conclusion: 开发并发布了简单有效的交互式标注工具,使生态研究人员能够利用基础模型和计算机视觉高效生成高质量分割掩码。

[54] ViConEx-Med: Visual Concept Explainability via Multi-Concept Token Transformer for Medical Image Analysis

Cristiano Patrício,Luís F. Teixeira,João C. Neves

Main category: cs.CV

TL;DR: ViConEx-Med是一个基于transformer的视觉概念可解释性框架,通过多概念可学习token联合预测和定位视觉概念,在医学应用中提供概念级定位图。

  • Motivation: 现有概念模型将概念视为数值属性,缺乏视觉定位能力,限制了在医疗等高风险场景的实用性。
  • Method: 使用多概念可学习token,通过专门的注意力层处理视觉和文本概念token,生成概念级定位图。
  • Result: 在合成和真实医学数据集上,ViConEx-Med在概念检测和定位精度方面优于现有概念模型,与黑盒模型性能相当。
  • Conclusion: 该方法为构建基于视觉概念的内在可解释模型提供了有前景的方向。

[55] HccePose(BF): Predicting Front & Back Surfaces to Construct Ultra-Dense 2D-3D Correspondences for Pose Estimation

Yulin Wang,Mengting Hu,Hongli Li,Chen Luo

Main category: cs.CV

TL;DR: 提出了一种新的姿态估计方法,通过预测物体前后表面的3D坐标并在其间密集采样,创建超密集的2D-3D对应关系,结合分层连续坐标编码(HCCE)提高表示精度,在BOP数据集上超越现有SOTA方法。

  • Motivation: 现有姿态估计方法主要关注物体前表面的3D坐标预测精度,忽略了利用物体后表面和内部信息的潜力。为了充分利用物体的完整表面和内部空间,本研究探索了包含前后表面和内部坐标的方法。
  • Method: 预测物体前后表面的3D坐标,在两者之间密集采样创建超密集2D-3D对应关系,使用PnP算法进行姿态估计,并提出分层连续坐标编码(HCCE)来更准确高效地表示前后表面坐标。
  • Result: 在BOP网站的七个经典核心数据集上,该方法超越了现有的最先进方法,表现出更高的姿态估计精度。
  • Conclusion: 通过利用物体的完整表面和内部信息,结合超密集对应关系和高效坐标编码,显著提升了姿态估计的准确性。

[56] TCMA: Text-Conditioned Multi-granularity Alignment for Drone Cross-Modal Text-Video Retrieval

Zixu Zhao,Yang Zhan

Main category: cs.CV

TL;DR: 构建了无人机视频文本匹配数据集DVTMD,并提出TCMA框架实现多粒度文本-视频对齐,在无人机文本-视频检索任务上达到最先进性能。

  • Motivation: 无人机产生大量航拍视频,但现有文本-视频检索方法在无人机领域研究不足,主要受限于数据集标注粗糙冗余的问题。
  • Method: 提出文本条件多粒度对齐(TCMA)框架,包含全局视频-句子对齐、句子引导帧聚合和词语引导补丁对齐,并设计了词语补丁选择模块和文本自适应动态温度机制。
  • Result: 在DVTMD和CapERA数据集上建立首个完整基准,TCMA在文本到视频检索中R@1达到45.5%,视频到文本检索中R@1达到42.8%。
  • Conclusion: 构建的DVTMD数据集和TCMA框架有效解决了无人机文本-视频检索问题,为相关应用提供了有力工具。

[57] Fairness Without Labels: Pseudo-Balancing for Bias Mitigation in Face Gender Classification

Haohua Dong,Ana Manzano Rodríguez,Camille Guinaudeau,Shin'ichi Satoh

Main category: cs.CV

TL;DR: 提出了一种名为伪平衡的方法,用于在半监督学习中缓解人脸性别分类模型的偏见问题,通过无标签图像实现人口统计平衡,显著提高了公平性和准确性。

  • Motivation: 人脸性别分类模型经常反映并放大训练数据中的人口统计偏见,导致在不同性别和种族子组中表现不均。需要一种简单有效的方法来缓解这种偏见。
  • Method: 引入伪平衡策略,在伪标签选择过程中强制执行人口统计平衡,仅使用来自种族平衡数据集的无标签图像,无需真实标注。
  • Result: 伪平衡方法在整体准确率上达到79.81%,比基线提高6.53%,性别准确率差距减少44.17%。在东亚子组中,基线差距超过49%的情况下,差距缩小至仅5.01%。
  • Conclusion: 即使在没有标签监督的情况下,访问人口统计平衡或适度倾斜的无标签数据集可以作为消除现有计算机视觉模型偏见的有力资源。

[58] B2N3D: Progressive Learning from Binary to N-ary Relationships for 3D Object Grounding

Feng Xiao,Hongbin Xu,Hai Ci,Wenxiong Kang

Main category: cs.CV

TL;DR: 提出了一种渐进式关系学习框架,将关系学习从二元扩展到n元,用于3D物体定位,通过分组监督损失和混合注意力机制在场景图中定位目标物体。

  • Motivation: 当前方法仅建模成对物体关系,忽略了n元组合在多模态关系理解中的全局感知重要性,导致3D-语言对齐困难。
  • Method: 扩展关系学习从二元到n元,设计分组监督损失促进n元关系学习,在n元关系场景图中使用混合注意力机制的多模态网络定位目标。
  • Result: 在ReferIt3D和ScanRefer基准测试中优于现有最先进方法,证明了n元关系感知在3D定位中的优势。
  • Conclusion: n元关系学习能够更好地匹配指称描述的全局视觉关系,显著提升3D物体定位性能。

[59] From Generic to Specialized: A Subspecialty Diagnostic System Powered by Self-Supervised Learning for Cervical Histopathology

Yizhi Wang,Li Chen,Qiang Huang,Tian Guan,Xi Deng,Zhiyuan Shen,Jiawen Li,Xinrui Chen,Bin Hu,Xitong Ling,Taojie Zhu,Zirui Huang,Deshui Yu,Yan Liu,Jiurun Chen,Lianghui Zhu,Qiming He,Yiqing Liu,Diwei Shi,Hanzhong Liu,Junbo Hu,Hongyi Gao,Zhen Song,Xilong Zhao,Chao He,Ming Zhao,Yonghong He

Main category: cs.CV

TL;DR: 开发了Cervical Subspecialty Pathology (CerS-Path)诊断系统,通过两阶段预训练和集成多种下游诊断功能,在宫颈病理学中实现显著进步,具有优异的泛化能力和临床适用性。

  • Motivation: 宫颈癌作为主要恶性肿瘤,需要广泛复杂的组织病理学评估和全面支持工具。现有深度学习模型缺乏准确性和泛化性,通用基础模型难以捕捉专科特定特征和任务适应性。
  • Method: 采用两阶段协同预训练:自监督学习约1.9亿个组织切片构建宫颈特异性特征提取器,以及250万图像-文本对的多模态增强,随后集成多个下游诊断功能。
  • Result: 支持8种诊断功能,包括罕见癌症分类和多模态问答,在5个中心的3173例前瞻性测试中保持99.38%的筛查敏感性,展现出优异的泛化能力。
  • Conclusion: CerS-Path系统在宫颈病理学领域取得显著进展,具有专科诊断转化和宫颈癌筛查的潜力,超越了先前基础模型的范围和临床适用性。

[60] A Style-Based Metric for Quantifying the Synthetic-to-Real Gap in Autonomous Driving Image Datasets

Dingyi Yao,Xinyao Han,Ruibo Ming,Zhihang Song,Lihui Peng,Jianming Hu,Danya Yao,Yi Zhang

Main category: cs.CV

TL;DR: 提出了一种量化自动驾驶系统中合成到真实数据差距的系统框架,引入了风格嵌入分布差异(SEDD)作为新的评估指标。

  • Motivation: 自动驾驶感知系统需要大量环境测试,但真实世界测试不切实际。合成数据集虽然成本低、无偏见且场景可控,但合成与真实数据之间的领域差距限制了AI模型的泛化能力。
  • Method: 结合基于Gram矩阵的风格提取和优化类内紧凑性与类间分离度的度量学习来提取风格嵌入,建立系统框架量化合成到真实差距。
  • Result: 在多种数据集和仿真到真实方法上的实验表明,该方法能够有效量化合成到真实差距。
  • Conclusion: 这项工作提供了一个标准化的质量控制工具,能够系统诊断和针对性增强合成数据集,推动数据驱动自动驾驶系统的未来发展。

[61] Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images

Chuangchuang Tan,Xiang Ming,Jinglu Wang,Renshuai Tao,Bin Li,Yunchao Wei,Yao Zhao,Yan Lu

Main category: cs.CV

TL;DR: 提出了AnomReason基准和AnomAgent框架,用于检测和推理AI生成图像中的语义异常,包括不合理的物体配置、物理定律违反和常识不一致等问题。

  • Motivation: AI生成内容(AIGC)快速发展,但许多输出存在微妙的语义异常,影响生成场景的可信度。检测这些语义级异常对于评估AIGC媒体的可信度至关重要。
  • Method: 构建了大规模基准AnomReason,采用结构化四元组标注(Name, Phenomenon, Reasoning, Severity),通过模块化多智能体管道AnomAgent进行标注,结合轻量级人工验证。
  • Result: 在AnomReason上微调的模型在语义匹配指标(SemAP和SemF1)上优于强视觉语言基线,在可解释深度伪造检测和图像生成器语义合理性评估中展示了实际应用价值。
  • Conclusion: AnomReason和AnomAgent为测量和改进AI生成图像的语义合理性提供了基础,将发布代码、指标、数据和对齐任务模型以支持可复现研究。

[62] MRI Brain Tumor Detection with Computer Vision

Jack Krolik,Jake Lynn,John Henry Rudden,Dmytro Vremenko

Main category: cs.CV

TL;DR: 该研究应用深度学习技术自动检测和分割MRI扫描中的脑肿瘤,使用多种机器学习模型进行分类、分割和检测,结果显示在诊断准确性和效率方面有显著提升。

  • Motivation: 探索深度学习在医学影像中的应用,特别是提高脑肿瘤诊断的准确性和效率,以改善临床治疗效果。
  • Method: 采用逻辑回归、CNN、ResNet进行脑肿瘤分类,使用U-Net进行语义分割,以及EfficientDet进行基于锚点的目标检测。
  • Result: 研究结果显示在脑肿瘤诊断的准确性和效率方面取得了有希望的改进。
  • Conclusion: 深度学习在医学影像中具有巨大潜力,能够显著改善脑肿瘤的临床诊断效果。

[63] Are Video Models Emerging as Zero-Shot Learners and Reasoners in Medical Imaging?

Yuxiang Lai,Jike Zhong,Ming Li,Yuheng Li,Xiaofeng Yang

Main category: cs.CV

TL;DR: 大型视觉模型在零样本设置下应用于医学影像任务,包括器官分割、去噪、超分辨率和运动预测,无需医学数据训练即可实现竞争性性能。

  • Motivation: 探索自回归视频建模原理是否可以直接应用于医学影像任务,尽管模型从未在医学数据上训练过。
  • Method: 在零样本设置下评估大型视觉模型在四个代表性任务上的表现:器官分割、去噪、超分辨率和放疗运动预测。
  • Result: 模型能够描绘CT扫描中的解剖结构,在分割、去噪和超分辨率任务上表现竞争性,在运动预测中超越了专门的DVF基线和生成基线,实现了最先进的空间精度。
  • Conclusion: 研究揭示了医学视频建模中零样本能力的出现,凸显了通用视频模型作为统一学习器和推理器的潜力,为基于视频模型的未来医学基础模型奠定了基础。

[64] Opacity-Gradient Driven Density Control for Compact and Efficient Few-Shot 3D Gaussian Splatting

Abdelrhman Elrawy,Emad A. Mohammed

Main category: cs.CV

TL;DR: 提出了一种改进3D高斯泼溅在少样本场景下效率的框架,通过使用不透明度梯度作为轻量级渲染误差代理来触发致密化,结合更保守的修剪策略,显著减少了基元数量。

  • Motivation: 3D高斯泼溅在少样本场景中容易过拟合并产生臃肿的重建结果,现有方法如FSGS虽然提高了质量但显著增加了基元数量,需要更高效的优化框架。
  • Method: 用不透明度梯度替代标准位置梯度启发式作为致密化触发器,结合保守的修剪策略防止破坏性优化循环,并使用标准深度相关损失提供几何指导。
  • Result: 在3视图LLFF数据集上比FSGS紧凑40%以上(32k vs 57k基元),在Mip-NeRF 360数据集上减少约70%基元,在重建质量与效率的帕累托前沿上达到新最优。
  • Conclusion: 该框架通过核心优化改进实现了3D高斯泼溅在少样本场景下的根本性效率提升,在保持重建质量的同时大幅减少基元数量。

[65] VividAnimator: An End-to-End Audio and Pose-driven Half-Body Human Animation Framework

Donglin Huang,Yongyuan Li,Tianhang Liu,Junming Huang,Xiaoda Yang,Chi Wang,Weiwei Xu

Main category: cs.CV

TL;DR: VividAnimator是一个端到端的框架,通过音频和稀疏手部姿态条件生成高质量半身人体动画,解决了现有方法中头部运动僵硬和手部模糊的问题。

  • Motivation: 现有音频和姿态驱动的人体动画方法存在头部运动僵硬和手部模糊的问题,主要由于音频与头部运动相关性弱以及手部结构复杂。
  • Method: 提出三个关键创新:预训练手部清晰度码本(HCC)编码高保真手部纹理先验;设计双流音频感知模块(DSAA)分别建模唇同步和自然头部姿态动态;引入姿态校准技巧(PCT)通过放松刚性约束来优化和对齐姿态条件。
  • Result: 大量实验表明VividAnimator实现了最先进的性能,生成具有卓越手部细节、手势真实性和身份一致性的视频,通过定量指标和定性评估得到验证。
  • Conclusion: VividAnimator框架有效解决了音频和姿态驱动动画中的关键问题,能够生成高质量、自然流畅的半身人体动画。

[66] Bridging Perspectives: Foundation Model Guided BEV Maps for 3D Object Detection and Tracking

Markus Käppeler,Özgün Çiçek,Daniele Cattaneo,Claudius Gläser,Yakov Miron,Abhinav Valada

Main category: cs.CV

TL;DR: DualViewDistill是一个结合透视视图和鸟瞰图特征的3D目标检测与跟踪框架,通过基础模型引导的BEV映射和特征蒸馏,在nuScenes和Argoverse 2基准测试中达到最先进性能。

  • Motivation: 当前最先进的方法通常只依赖透视视图或鸟瞰图特征,无法同时利用细粒度目标细节和空间结构化的场景表示,限制了感知能力。
  • Method: 提出混合检测跟踪框架,结合PV和BEV特征,引入基础模型引导的BEV映射,通过新颖的蒸馏过程将DINOv2特征蒸馏到BEV表示中,并使用可变形聚合整合这些特征。
  • Result: 在nuScenes和Argoverse 2基准测试中实现了最先进的性能,证明了基础模型BEV映射在自动驾驶感知中的潜力。
  • Conclusion: DualViewDistill展示了结合PV和BEV特征的混合表示能够显著提升3D目标检测和跟踪性能,为自动驾驶提供更可靠的感知能力。

[67] SAM2LoRA: Composite Loss-Guided, Parameter-Efficient Finetuning of SAM2 for Retinal Fundus Segmentation

Sayan Mandal,Divyadarshini Karthikeyan,Manas Paldhe

Main category: cs.CV

TL;DR: SAM2LoRA是一种参数高效的微调方法,通过低秩适配器将Segment Anything Model 2(SAM2)适配于眼底图像分割任务,仅需不到5%的可训练参数即可实现高性能分割。

  • Motivation: SAM2虽然能够在低资源环境下进行快速推理,但其微调仍然具有挑战性。为了在眼底图像分割任务中有效利用SAM2的强大能力,同时降低训练成本,需要开发参数高效的微调策略。
  • Method: 在SAM2的图像编码器和掩码解码器中集成低秩适配器,使用结合分割BCE、SoftDice和FocalTversky损失的复合损失函数进行网络调优。
  • Result: 在11个具有挑战性的眼底分割数据集上评估,SAM2LoRA在跨数据集训练条件下,在血管和视盘分割方面均表现出高性能,分别达到最高0.86和0.93的Dice分数,以及0.98和0.99的AUC值。
  • Conclusion: SAM2LoRA在显著减少训练开销的同时,实现了最先进的性能,为眼底图像分割提供了一种高效且有效的解决方案。

[68] From Programs to Poses: Factored Real-World Scene Generation via Learned Program Libraries

Joy Hsu,Emily Jin,Jiajun Wu,Niloy J. Mitra

Main category: cs.CV

TL;DR: FactoredScenes是一个通过分解场景为层次化概念来合成真实3D场景的框架,利用房间结构和物体姿态变化生成难以与真实ScanNet场景区分的房间。

  • Motivation: 现实世界场景(如ScanNet)难以捕捉且数据有限,生成具有多样化物体姿态的真实场景仍然是一个开放且具有挑战性的任务。
  • Method: 引入分解表示法,将场景分解为层次化组织的房间程序和物体姿态概念;学习可重用布局模式的函数库;使用大语言模型生成高级程序;学习程序条件模型来分层预测物体姿态;检索并放置3D物体。
  • Result: FactoredScenes生成了难以与真实ScanNet场景区分的真实世界房间。
  • Conclusion: 该框架通过分解场景表示和层次化学习,成功生成了高度逼真的3D场景,证明了其在场景合成任务中的有效性。

[69] Ordinal Scale Traffic Congestion Classification with Multi-Modal Vision-Language and Motion Analysis

Yu-Hsuan Lin

Main category: cs.CV

TL;DR: 提出了一种结合视觉语言推理、目标检测和运动分析的多模态交通拥堵分类框架,能够在1-5的序数尺度上准确预测拥堵等级,显著优于单模态基线方法。

  • Motivation: 准确的交通拥堵分类对于智能交通系统和实时城市交通管理至关重要,需要开发能够保持序数结构并利用多模态信息的分类方法。
  • Method: 采用多模态框架,结合开放词汇视觉语言推理(CLIP)、目标检测(YOLO-World)和基于MOG2背景减除的运动分析,通过运动置信度加权增强可解释性。
  • Result: 模型达到76.7%的准确率、0.752的F1分数和0.684的二次加权Kappa值,显著优于单模态基线方法。
  • Conclusion: 该框架在保持序数结构和利用视觉语言与运动模态方面表现出有效性,未来可进一步整合车辆尺寸和精细化密度指标进行增强。

[70] Ortho-Fuse: Orthomosaic Generation for Sparse High-Resolution Crop Health Maps Through Intermediate Optical Flow Estimation

Rugved Katole,Christopher Stewart

Main category: cs.CV

TL;DR: 提出Ortho-Fuse框架,通过光流估计合成过渡图像,降低正射影像生成所需的重叠率要求,使AI驱动的作物健康监测系统在资源受限条件下也能可靠运行。

  • Motivation: 传统摄影测量重建需要70-80%的图像重叠率,但AI系统在资源受限条件下难以达到此要求,导致重建质量下降,影响农民对自主监测技术的信心。
  • Method: 采用基于光流的框架,通过中间光流估计合成连续航拍帧之间的过渡图像,人工增强特征对应关系以改进几何重建。
  • Result: 实验验证显示最低重叠率要求降低了20%,提高了在稀疏航拍图像数据集上生成可靠正射影像的能力。
  • Conclusion: Ortho-Fuse框架有效解决了AI驱动作物健康监测系统的技术限制,为精准农业中AI监测系统的更好集成提供了可行路径。

[71] PointMAC: Meta-Learned Adaptation for Robust Test-Time Point Cloud Completion

Linlian Jiang,Rui Ma,Li Gu,Ziqiang Wang,Xinxin Zuo,Yang Wang

Main category: cs.CV

TL;DR: PointMAC是一个用于点云补全的元学习框架,支持测试时自适应,无需额外监督即可针对每个样本进行特定优化,在合成、模拟和真实数据集上达到最先进效果。

  • Motivation: 现有点云补全模型依赖训练时学到的归纳偏置,在测试时难以适应新的结构模式和传感器引起的失真,限制了在安全关键应用中的鲁棒性。
  • Method: 提出基于MAML的元辅助学习策略,通过两个自监督辅助目标模拟结构和传感器级的不完整性,在推理时动态调整共享编码器,并引入自适应λ校准机制平衡梯度。
  • Result: 在合成、模拟和真实数据集上的广泛实验表明,PointMAC通过逐个样本细化实现了高质量的补全效果,达到了最先进水平。
  • Conclusion: 这是首个将元辅助测试时自适应应用于点云补全的工作,证明了该方法在提升模型对新模式和失真适应能力方面的有效性。

[72] Vision4PPG: Emergent PPG Analysis Capability of Vision Foundation Models for Vital Signs like Blood Pressure

Saurabh Kataria,Ayca Ermis,Lovely Yeswanth Panchumarthi,Minxiao Wang,Xiao Hu

Main category: cs.CV

TL;DR: Vision4PPG方法通过将一维PPG信号转换为二维图像表示(如STFT),利用视觉基础模型(如DINOv3和SIGLIP-2)在生理任务中取得了SOTA性能,特别是在血压估计方面。

  • Motivation: 现有的生理信号处理主要使用专门的或时间序列基础模型,但研究发现视觉基础模型也能有效处理PPG信号,且性能优异。
  • Method: 将一维PPG信号转换为二维图像表示(如短时傅里叶变换、相位图和递归图),然后使用最新的视觉基础模型进行参数高效微调。
  • Result: 在多个生理任务中实现了SOTA性能,特别是在血压估计方面表现突出,同时在其它生命体征和血液检测任务中也取得良好结果。
  • Conclusion: Vision4PPG为临床科学家提供了一类新的强大工具,不仅性能优越,而且计算效率高,具有良好的泛化能力。

[73] Self-Supervised Multi-Scale Transformer with Attention-Guided Fusion for Efficient Crack Detection

Blessing Agyei Kyem,Joshua Kofi Asamoah,Eugene Denteh,Andrews Danyo,Armstrong Aboah

Main category: cs.CV

TL;DR: 提出了完全自监督的Crack-Segmenter框架,无需人工标注即可实现像素级裂缝分割,在10个公共数据集上超越13种监督方法。

  • Motivation: 传统路面裂缝检测依赖昂贵耗时的像素级标注,限制了大规模基础设施监测的可扩展性。
  • Method: 开发了Crack-Segmenter框架,包含三个互补模块:尺度自适应嵌入器(SAE)用于多尺度特征提取,方向注意力变换器(DAT)保持线性裂缝连续性,注意力引导融合(AGF)模块实现自适应特征集成。
  • Result: 在10个公共数据集上,Crack-Segmenter在所有主要指标(mIoU、Dice分数、XOR、HD)上均优于13种最先进的监督方法。
  • Conclusion: 无标注裂缝检测不仅可行且性能更优,为交通机构和基础设施管理者提供了可扩展且经济高效的监测方案。

[74] Identifying bias in CNN image classification using image scrambling and transforms

Sai Teja Erukude

Main category: cs.CV

TL;DR: 该论文探讨了CNN中的隐藏偏见问题,提出了两种方法来区分上下文信息和背景噪声,包括图像分块随机重排和多种图像变换技术。

  • Motivation: CNN作为黑盒模型,其决策过程可能受到难以检测的背景信息偏见影响,需要开发方法来识别这些隐藏偏见。
  • Method: 提出了两种方法:1) 将图像分割成不同大小的非重叠图块并随机重排;2) 应用傅里叶变换、小波变换和中值滤波器等多种图像变换及其组合来恢复背景噪声信息。
  • Result: 在六个不同数据集(包括自然、合成和混合数据集)上测试表明,该方法能有效区分上下文信息和背景噪声,无需背景信息即可检测背景噪声的存在。
  • Conclusion: 所提出的方法能够有效识别CNN中的隐藏偏见,区分背景噪声和上下文信息,为理解CNN决策过程提供了重要工具。

[75] AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Xinlong Chen,Yue Ding,Weihong Lin,Jingyun Hua,Linli Yao,Yang Shi,Bozhou Li,Yuanxing Zhang,Qiang Liu,Pengfei Wan,Liang Wang,Tieniu Tan

Main category: cs.CV

TL;DR: AVoCaDO是一个强大的视听视频字幕生成器,通过两阶段后训练流程(SFT和GRPO)实现音频和视觉模态的时间协调,在多个基准测试中显著优于现有开源模型。

  • Motivation: 视听视频字幕旨在生成语义丰富的描述,实现视觉和听觉事件的时间对齐,这对视频理解和生成都有益处。
  • Method: 提出两阶段后训练流程:AVoCaDO SFT在10.7万高质量时间对齐的视听字幕数据集上微调模型;AVoCaDO GRPO使用定制奖励函数增强时间连贯性和对话准确性,同时规范化字幕长度和减少崩溃。
  • Result: AVoCaDO在四个视听视频字幕基准测试中显著优于现有开源模型,在仅视觉设置的VDC和DREAM-1K基准上也达到竞争性性能。
  • Conclusion: AVoCaDO通过时间协调的视听模态驱动,在视听视频字幕任务上表现出色,证明了其方法的有效性。

[76] Mesh-Gait: A Unified Framework for Gait Recognition Through Multi-Modal Representation Learning from 2D Silhouettes

Zhao-Yang Wang,Jieneng Chen,Jiang Liu,Yuxiang Guo,Rama Chellappa

Main category: cs.CV

TL;DR: Mesh-Gait是一个新颖的多模态步态识别框架,通过从2D轮廓直接重建3D热图作为中间表示,有效结合了2D轮廓和3D几何信息的优势,在保持计算效率的同时实现了最先进的识别精度。

  • Motivation: 传统2D步态识别方法在处理视角变化、遮挡和噪声方面存在困难,而现有的多模态方法虽然结合3D身体形状信息提高了鲁棒性,但计算成本高昂,难以应用于实时场景。
  • Method: 提出Mesh-Gait框架,通过重建3D热图作为中间表示来捕获3D几何信息,同时从轮廓和重建的3D热图中提取判别性特征,避免了直接从RGB视频进行3D重建的沉重计算负担。
  • Result: 大量实验表明Mesh-Gait达到了最先进的识别精度,同时保持了计算效率。
  • Conclusion: Mesh-Gait通过创新的3D热图重建方法,成功地将2D轮廓和3D几何信息相结合,在步态识别任务中实现了高性能和计算效率的平衡。

[77] Guided Image Feature Matching using Feature Spatial Order

Chin-Hung Teng,Ben-Jian Dong

Main category: cs.CV

TL;DR: 提出了一种结合特征空间顺序和渐进式匹配框架的图像特征匹配方法,通过空间顺序模型和极线几何共同指导特征匹配,提高匹配效率和准确性。

  • Motivation: 传统图像特征匹配方法在处理大量特征点时耗时较长,特征空间顺序作为与极线几何独立的概念,可以互补地指导特征匹配,提高匹配效率。
  • Method: 将特征空间顺序整合到渐进式匹配框架中,利用初始匹配特征构建空间顺序计算模型,预测后续特征的可能空间范围,过滤不必要的匹配;结合极线几何进一步优化;通过基础矩阵进行图像对齐以消除旋转影响。
  • Result: 在标准基准数据集、自生成模拟图像和真实图像上的实验表明,该方法相比传统方法显著提高了匹配效率和准确性。
  • Conclusion: 提出的结合特征空间顺序和极线几何的渐进式匹配方法能够有效提高图像特征匹配的效率和准确性,具有实际应用价值。

[78] Combo-Gait: Unified Transformer Framework for Multi-Modal Gait Recognition and Attribute Analysis

Zhao-Yang Wang,Zhimin Shao,Jieneng Chen,Rama Chellappa

Main category: cs.CV

TL;DR: 提出多模态多任务框架,结合2D时间轮廓和3D SMPL特征进行步态分析,同时执行步态识别和人体属性估计(年龄、BMI、性别),在挑战性条件下优于现有方法。

  • Motivation: 当前步态识别方法通常只关注2D或3D单一模态,无法充分捕捉人类行走模式的几何和动态复杂性,需要多模态融合来提升识别鲁棒性。
  • Method: 使用统一transformer融合多模态步态特征(2D时间轮廓+3D SMPL特征),采用多任务学习策略同时进行步态识别和人体属性估计。
  • Result: 在BRIAR大规模数据集上的实验表明,该方法在长距离(达1公里)和极端俯仰角(达50度)等挑战条件下,在步态识别和人体属性估计方面均优于现有最先进方法。
  • Conclusion: 多模态和多任务学习在现实场景中推进基于步态的人类理解方面具有良好前景,能够有效融合不同模态信息并学习属性相关表示。

[79] Towards Cybersickness Severity Classification from VR Gameplay Videos Using Transfer Learning and Temporal Modeling

Jyotirmay Nag Setu,Kevin Desai,John Quarles

Main category: cs.CV

TL;DR: 本研究提出了一种基于视频特征的VR晕动症预测方法,使用InceptionV3提取视觉特征,结合LSTM捕捉时间动态,在VR游戏视频上实现了68.4%的晕动症严重程度分类准确率。

  • Motivation: 随着VR技术在医疗、教育和娱乐等领域的广泛应用,晕动症问题严重阻碍了VR的普及。现有研究多关注多模态传感器数据,但对基于视频特征的晕动症预测研究有限。
  • Method: 采用迁移学习方法,使用在ImageNet上预训练的InceptionV3模型从VR游戏视频中提取高级视觉特征,然后将这些特征输入LSTM网络以捕捉VR体验的时间动态并预测晕动症严重程度。
  • Result: 该方法在VR游戏视频数据上实现了68.4%的晕动症严重程度分类准确率,超过了仅使用视频数据的现有模型性能。
  • Conclusion: 该研究为VR开发者提供了评估和缓解晕动症的有效工具,并为基于视频的时间建模研究奠定了基础,有助于提升VR应用的用户舒适度。

[80] Taming a Retrieval Framework to Read Images in Humanlike Manner for Augmenting Generation of MLLMs

Suyang Xi,Chenxi Yang,Hong Ding,Yiqing Ni,Catherine C. Liu,Yunhao Liu,Chengqi Zhang

Main category: cs.CV

TL;DR: HuLiRAG是一个人类化检索增强生成框架,通过"什么-哪里-重加权"级联方法解决多模态大语言模型在细粒度视觉问答中的幻觉问题,提高定位保真度和事实一致性。

  • Motivation: 多模态大语言模型在细粒度视觉问答中经常产生关于物体身份、位置和关系的幻觉,因为文本查询没有明确锚定到视觉参照物。现有检索增强生成方法缺乏局部细节和对细粒度交互的推理能力。
  • Method: 采用"什么-哪里-重加权"级联方法:通过开放词汇检测锚定候选参照物(什么),使用SAM衍生掩码进行空间解析恢复细粒度精度(哪里),通过局部与全局对齐的权衡自适应优先处理(重加权)。掩码引导的微调将空间证据注入生成过程。
  • Result: 广泛实验表明,这种人类化级联方法提高了定位保真度和事实一致性,同时减少了幻觉,推动了多模态问答向可信推理发展。
  • Conclusion: HuLiRAG框架通过模拟人类推理过程,将定位从被动偏见转变为对答案制定的显式约束,显著提升了多模态问答的可靠性和准确性。

[81] MonoSE(3)-Diffusion: A Monocular SE(3) Diffusion Framework for Robust Camera-to-Robot Pose Estimation

Kangjian Zhu,Haobo Jiang,Yigong Zhang,Jianjun Qian,Jian Yang,Jin Xie

Main category: cs.CV

TL;DR: MonoSE(3)-Diffusion是一个单目SE(3)扩散框架,通过条件去噪扩散过程进行无标记的基于图像的机器人姿态估计,在DREAM和RoboKeyGen基准测试中表现优异。

  • Motivation: 当前方法使用固定尺度扰动,无法生成视场内多样化的训练姿态,限制了网络泛化能力。需要一种能够生成视场内多样化姿态并实现渐进式姿态优化的方法。
  • Method: 提出包含两个过程的框架:1) 可见性约束扩散过程,通过逐步扰动真实姿态生成噪声变换,确保变换保持在相机视场内;2) 时间步感知反向过程,通过去噪网络迭代预测姿态,并按照从粗到细的调度程序进行姿态优化。
  • Result: 在两个基准测试(DREAM和RoboKeyGen)上均取得改进,在最具挑战性的数据集上达到66.75的AUC,比现有最优方法提升32.3%。
  • Conclusion: 该方法通过扩散过程生成视场内多样化训练姿态,通过时间步感知反向过程实现渐进式姿态优化,展现出比直接预测更高的鲁棒性,显著提升了姿态估计性能。

[82] On the Problem of Consistent Anomalies in Zero-Shot Industrial Anomaly Detection

Tai Le-Gia,Ahn Jaehyun

Main category: cs.CV

TL;DR: 提出CoDeGraph算法解决零样本图像异常分类和分割中一致性问题,通过图结构和社区检测过滤重复出现的异常模式,显著提升性能。

  • Motivation: 现有基于表示的方法在处理一致异常(相似缺陷在多张图像中重复出现)时表现不佳,导致异常分类和分割性能下降。
  • Method: 构建图像级图结构,节点为图像,边连接具有共享一致异常模式的图像,利用社区检测过滤异常;基于极端值理论分析正常与异常补丁的相似性差异。
  • Result: 在MVTec AD数据集上,使用ViT-L-14-336骨干网络达到98.3% AUROC的异常分类性能,分割性能F1分数66.8%(提升4.2%),AP 68.1%(提升5.4%);使用DINOv2骨干网络进一步提升分割性能。
  • Conclusion: CoDeGraph能有效识别和过滤一致异常,在零样本异常检测任务中显著优于现有方法,且在不同骨干网络下均表现稳健。

[83] Learning from Disagreement: A Group Decision Simulation Framework for Robust Medical Image Segmentation

Chen Zhong,Yuxuan Yang,Xinyue Zhang,Ruohan Ma,Yong Guo,Gang Li,Jupeng Li

Main category: cs.CV

TL;DR: 提出了一种新的医学图像分割方法,通过模拟临床专家小组的决策过程来处理标注者间差异,将专家分歧视为有用信号而非噪声。

  • Motivation: 医学图像分割标注存在标注者间差异问题,传统方法简单平均专家标签会丢弃临床不确定性信息。
  • Method: 使用群体决策模拟框架,包括专家签名生成器学习标注者风格,模拟咨询模块从潜在空间采样生成最终分割。
  • Result: 在CBCT和MRI数据集上达到最先进结果,Dice分数分别为92.11%和90.72%。
  • Conclusion: 通过将专家分歧视为有用信号而非噪声,为构建更稳健可信的医疗AI系统提供了清晰路径。

[84] Post-TIPS Prediction via Multimodal Interaction: A Multi-Center Dataset and Framework for Survival, Complication, and Portal Pressure Assessment

Junhao Dong,Dejia Liu,Ruiqi Ding,Zongxing Chen,Yingjie Huang,Zhu Meng,Jianbo Zhao,Zhicheng Zhao,Fei Su

Main category: cs.CV

TL;DR: 提出了MultiTIPS数据集和新型多模态预后框架,通过双选项分割、多模态交互和多任务预测解决TIPS术前预后建模的挑战。

  • Motivation: TIPS手术预后结果差异大且常发生肝性脑病,需要准确的术前预后模型。现有方法面临ROI标注耗时、单模态方法可靠性差、单终点预测评估不完整等问题,且缺乏公开数据集。
  • Method: 基于MultiTIPS数据集,开发包含三个核心模块的框架:(1)双选项分割整合半监督和基础模型实现稳健ROI分割;(2)多模态交互通过MGRA、POD和CGPE技术实现跨模态特征交互;(3)多任务预测使用分阶段训练策略同时优化生存率、门脉压力梯度和肝性脑病预测。
  • Result: 在MultiTIPS数据集上的广泛实验表明,该方法优于现有先进方法,具有强大的跨域泛化能力和可解释性。
  • Conclusion: 该方法在临床应用中具有良好前景,数据集和代码已公开。

[85] When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Jinjin Cao,Zhiyang Chen,Zijun Wang,Liyuan Ma,Weijian Luo,Guojun Qi

Main category: cs.CV

TL;DR: 提出Cross-Modal Guidance(CMG)方法,通过降解视觉-语言注意力来减少视觉语言模型的幻觉问题,无需额外训练。

  • Motivation: 现有视觉语言模型存在严重幻觉问题,倾向于生成与图像无关但语言流畅的响应,主要原因是语言偏见。
  • Method: 通过自适应掩码关键图像标记的注意力权重来降解视觉-语言感知,利用原始模型与降解后模型输出分布的差异进行解码。
  • Result: CMG显著减少语言偏见而不损害VLM能力,在幻觉基准测试中提升不同VLM性能,且无需额外条件或训练成本。
  • Conclusion: CMG是一种有效的训练自由解码方法,能显著缓解视觉语言模型的幻觉问题,具有良好的泛化能力。

[86] DAGLFNet:Deep Attention-Guided Global-Local Feature Fusion for Pseudo-Image Point Cloud Segmentation

Chuang Chen,Wenyi Ge

Main category: cs.CV

TL;DR: DAGLFNet是一个基于伪图像的LiDAR语义分割框架,通过全局-局部特征融合编码、多分支特征提取和深度特征引导注意力机制,在保持实时性的同时提升了分割性能。

  • Motivation: 现有伪图像方法在处理非结构化点云时往往忽略点云的结构和语义细节,导致特征融合和区分能力有限。
  • Method: 1. 全局-局部特征融合编码模块增强局部特征相关性并捕获全局上下文;2. 多分支特征提取网络捕获更多邻域信息并增强轮廓特征区分性;3. 深度特征引导注意力机制提升跨通道特征融合精度。
  • Result: 在SemanticKITTI和nuScenes验证集上分别达到69.83%和78.65%的准确率,平衡了高性能与实时能力。
  • Conclusion: DAGLFNet在保持实时性的同时显著提升了LiDAR语义分割性能,展现了在实时应用中的巨大潜力。

[87] MSF-Mamba: Motion-aware State Fusion Mamba for Efficient Micro-Gesture Recognition

Deng Li,Jun Shao,Bohao Xing,Rong Gao,Bihan Wen,Heikki Kälviäinen,Xin Liu

Main category: cs.CV

TL;DR: 提出了MSF-Mamba模型,通过融合局部上下文相邻状态来增强Mamba的局部时空建模能力,解决了微手势识别中长程依赖和局部时空依赖的建模问题。

  • Motivation: 微手势识别需要准确建模长程和局部时空依赖。CNN擅长局部模式但受限于感受野,Transformer能处理长程依赖但计算成本高,Mamba虽高效但缺乏局部时空建模能力。现有方法还缺乏运动感知设计。
  • Method: 提出MSF-Mamba,基于中心帧差(CFD)设计运动感知状态融合模块,融合局部上下文相邻状态。还提出多尺度版本MSF-Mamba+,支持多尺度运动感知状态融合和自适应尺度加权模块。
  • Result: 在两个公开微手势识别数据集上的实验表明,即使是轻量级版本MSF-Mamba也达到了最先进性能,超越了现有的CNN、Transformer和SSM模型,同时保持高效率。
  • Conclusion: MSF-Mamba通过运动感知局部时空建模有效捕捉微手势的细微运动线索,解决了vanilla Mamba在微手势识别中的局限性,实现了高性能和高效率的平衡。

[88] Towards Self-Refinement of Vision-Language Models with Triangular Consistency

Yunlong Deng,Guangyi Chen,Tianpei Gu,Lingjing Kong,Yan Li,Zeyu Tang,Kun Zhang

Main category: cs.CV

TL;DR: 该研究验证了视觉语言模型(VLMs)具有自我精炼能力,无需外部监督即可生成高质量训练数据并自主学习。提出了基于三角一致性原则的自精炼框架,通过三个步骤实现模型自我改进。

  • Motivation: 探索视觉语言模型在无监督指令训练下的潜力,验证其内在的自我精炼能力,以摆脱对外部监督数据的依赖。
  • Method: 提出基于三角一致性原则的自精炼框架:1)通过多任务指令调优激活指令生成能力;2)从未标注图像生成图像-查询-答案三元组并用三角一致性过滤;3)使用过滤后的合成数据更新模型。
  • Result: 使用LLaVA-1.5作为基线,实验表明模型无需外部监督即可在多个基准测试中实现一致的改进,尽管改进幅度有意保持适度。
  • Conclusion: 该研究揭示了视觉语言模型的自我精炼能力,为未来研究视觉语言模型学习机制提供了重要启示。

[89] Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation

Jiaye Li,Baoyou Chen,Hui Li,Zilong Dong,Jingdong Wang,Siyu Zhu

Main category: cs.CV

TL;DR: HARoPE是一种针对图像生成的改进型旋转位置编码方法,通过可学习的线性变换动态调整频率分配和旋转平面对齐,解决了标准RoPE在细粒度空间关系建模、颜色线索和物体计数方面的局限性。

  • Motivation: 标准的多维RoPE在图像生成中存在三个关键限制:刚性频率分配、轴间独立性和统一的头处理方式,这些限制了其在细粒度图像生成中捕捉复杂结构偏差的能力。
  • Method: 提出HARoPE,在旋转映射前插入一个通过奇异值分解参数化的可学习线性变换,实现动态频率重分配、旋转平面语义对齐和头特定的位置感受野,同时严格保持RoPE的相对位置属性。
  • Result: 在类条件ImageNet和文本到图像生成(Flux和MMDiT)上的广泛实验表明,HARoPE始终优于强RoPE基线和其他扩展方法。
  • Conclusion: HARoPE可作为有效的即插即用替代方案,为基于Transformer的图像生成模型提供原则性和适应性强的位置感知增强解决方案。

[90] Jigsaw3D: Disentangled 3D Style Transfer via Patch Shuffling and Masking

Yuteng Ye,Zheng Zhang,Qinchuan Zhang,Di Wang,Youjia Zhang,Wenxiao Zhang,Wei Yang,Yuan Liu

Main category: cs.CV

TL;DR: Jigsaw3D是一个基于多视角扩散的3D风格迁移方法,通过拼图操作分离风格与内容,实现快速、视角一致的3D资产风格化

  • Motivation: 现有3D风格迁移方法存在每场景优化成本高、风格与语义内容纠缠的问题,需要一种能解耦风格与内容的高效方法
  • Method: 使用拼图操作(空间打乱和随机掩码参考图像块)抑制对象语义并提取风格统计特征,通过参考到视角的交叉注意力将风格线索集成到多视角扩散模型中
  • Result: 在标准3D风格化基准测试中,Jigsaw3D实现了高风格保真度和多视角一致性,延迟显著降低,并能泛化到部分参考风格化、多对象场景风格化和可平铺纹理生成
  • Conclusion: Jigsaw3D提供了一种高效解耦风格与内容的3D风格迁移解决方案,在保持多视角一致性的同时大幅降低了计算成本

[91] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

Qunzhong Wang,Jie Liu,Jiajun Liang,Yilei Jiang,Yuanxing Zhang,Jinyuan Chen,Yaozhi Zheng,Xintao Wang,Pengfei Wan,Xiangyu Yue,Jiaheng Liu

Main category: cs.CV

TL;DR: 提出了VideoReward Thinker (VR-Thinker)框架,通过视觉推理操作和可配置的视觉记忆窗口,使奖励模型能够主动获取和更新视觉证据,解决了当前多模态奖励模型中视觉输入消耗大量上下文预算和导致幻觉的问题。

  • Motivation: 当前多模态奖励模型存在两个固有局限:(1) 视觉输入消耗大量上下文预算,导致帧数减少和细粒度细节丢失;(2) 所有视觉信息都打包到初始提示中,加剧了思维链推理过程中的幻觉和遗忘问题。
  • Method: 引入VR-Thinker框架,配备视觉推理操作和可配置视觉记忆窗口。采用强化微调流程:冷启动使用精心策划的视觉思维链数据;选择所有维度判断正确的样本进行拒绝采样微调;应用组相对策略优化来加强推理。
  • Result: 在视频偏好基准测试中达到最先进的准确率,特别是对于长视频:7B VR-Thinker在VideoGen Reward上达到80.5%,在GenAI-Bench上达到82.3%,在MJ-Bench-Video上达到75.6%。
  • Conclusion: 结果验证了基于图像思考的多模态奖励建模的有效性和前景。

[92] Receptive Field Expanded Look-Up Tables for Vision Inference: Advancing from Low-level to High-level Tasks

Xi Zhang,Xiaolin Wu

Main category: cs.CV

TL;DR: 提出了一种扩展CNN感受野的LUT方法,通过自适应量化、不规则空洞卷积和U型级联结构,在固定表大小下提升推理性能

  • Motivation: 现有LUT方法因表大小组合爆炸导致卷积核感受野受限,需要在保持空间复杂度不变的情况下扩展感受野
  • Method: 学习最优格点向量量化器自适应分配量化分辨率,结合不规则空洞卷积和U型级联LUT结构捕获多级上下文信息
  • Result: 有效平衡了速度、精度和内存效率,相比现有LUT方法有显著改进
  • Conclusion: 提出的方法成功扩展了CNN感受野,在固定表大小下实现了更好的性能平衡

[93] Unified Open-World Segmentation with Multi-Modal Prompts

Yang Liu,Yufei Yin,Chenchen Jing,Muzhi Zhu,Hao Chen,Yuling Xi,Bo Feng,Hao Wang,Shiyu Li,Chunhua Shen

Main category: cs.CV

TL;DR: COSINE是一个统一的开世界分割模型,整合了开放词汇分割和基于多模态提示的上下文分割,通过基础模型提取图像和提示的表征,使用SegDecoder对齐表征并生成指定掩码。

  • Motivation: 解决现有开放词汇分割和上下文分割方法在架构、学习目标和表征策略上的不一致问题,构建统一的模型来处理不同粒度的分割任务。
  • Method: 利用基础模型提取输入图像和多模态提示的表征,通过SegDecoder对齐这些表征、建模交互,并生成由输入提示指定的掩码。
  • Result: 综合实验表明COSINE在开放词汇和上下文分割任务上都有显著性能提升,视觉和文本提示的协同使用显著优于单模态方法。
  • Conclusion: COSINE成功统一了开放词汇分割和上下文分割,多模态提示的协同作用带来了更好的泛化能力,为开世界分割提供了有效的解决方案。

[94] Layout-Independent License Plate Recognition via Integrated Vision and Language Models

Elham Shabaninia,Fatemeh Asadi-zeydabadi,Hossein Nezamabadi-pour

Main category: cs.CV

TL;DR: 提出了一种模式感知的自动车牌识别框架,通过结合视觉变换器和迭代语言建模机制,实现了跨多种车牌布局的鲁棒识别,无需依赖启发式修正或手动布局分类。

  • Motivation: 解决传统车牌识别系统在多样化车牌布局和现实挑战条件下(如噪声、失真、非常规字体)的可靠性问题,实现布局无关的识别能力。
  • Method: 采用高精度检测网络,结合基于transformer的视觉模型和迭代语言建模机制,在统一识别阶段同时进行字符识别和OCR后处理优化,学习车牌特有的结构模式和格式规则。
  • Result: 在多个国际数据集(IR-LPR、UFPR-ALPR、AOLP)上表现出优于现有无分割方法的准确性和鲁棒性。
  • Conclusion: 通过将模式分析嵌入识别阶段,有效桥接了计算机视觉和语言建模,为智能交通和监控应用提供了更强的适应性。

[95] MCE: Towards a General Framework for Handling Missing Modalities under Imbalanced Missing Rates

Binyu Zhao,Wei Zhang,Zhaonian Zou

Main category: cs.CV

TL;DR: 提出MCE方法解决多模态学习中缺失模态不平衡问题,通过动态平衡学习进度和增强特征表示来提升性能

  • Motivation: 多模态学习中缺失模态的不平衡问题导致恶性循环:缺失率高的模态更新少,学习进度不一致,特征质量下降,进一步降低其贡献
  • Method: MCE包含两个协同组件:LCE通过多级因子动态平衡模态特定学习进度;RCE通过子集预测和跨模态补全任务提升特征语义和鲁棒性
  • Result: 在四个多模态基准测试上的综合评估表明,MCE在各种缺失配置下始终优于最先进方法
  • Conclusion: MCE有效解决了多模态学习中缺失模态不平衡问题,通过动态平衡和特征增强显著提升了模型性能

[96] GLOFNet -- A Multimodal Dataset for GLOF Monitoring and Prediction

Zuha Fatima,Muhammad Anser Sohaib,Muhammad Talha,Sidra Sultana,Ayesha Kanwal,Nazia Perwaiz

Main category: cs.CV

TL;DR: GLOFNet是一个用于冰川湖溃决洪水监测和预测的多模态数据集,整合了Sentinel-2多光谱影像、NASA冰川速度产品和MODIS地表温度数据,旨在解决数据碎片化和单模态问题。

  • Motivation: 冰川湖溃决洪水是高山地区罕见但破坏性强的灾害,现有研究受限于碎片化和单模态数据,缺乏预测能力。需要结合视觉指标和物理前兆的统一数据集。
  • Method: 整合三种互补数据源:Sentinel-2用于空间监测、NASA ITS_LIVE用于冰川运动学、MODIS用于地表温度。进行云掩膜、质量过滤、归一化、时间插值、数据增强和循环编码等预处理,实现多模态数据协调。
  • Result: 探索性分析揭示了冰川速度的季节性周期、长期升温趋势(约0.8K/十年)和冰冻圈条件的空间异质性。GLOFNet数据集已公开可用。
  • Conclusion: GLOFNet通过解决类别不平衡、云污染和粗分辨率等挑战,为罕见灾害预测的多模态深度学习方法提供了结构化基准数据集。

[97] MRS-YOLO Railroad Transmission Line Foreign Object Detection Based on Improved YOLO11 and Channel Pruning

Siyuan Liu,Junting Lin

Main category: cs.CV

TL;DR: 提出基于YOLO11的改进算法MRS-YOLO,通过多尺度特征融合模块、重新校准特征金字塔网络和空间通道重构检测头,显著提升了铁路输电线路异物检测的准确率和效率。

  • Motivation: 解决铁路环境下输电线路异物检测存在的漏检、误检和检测效率低的问题。
  • Method: 1. 提出多尺度自适应核深度特征融合模块(MAKDF)与C3k2模块融合;2. 设计重新校准特征融合金字塔网络(RCFPN)作为颈部结构;3. 设计基于空间和通道预处理的检测头(SC_Detect);4. 使用通道剪枝技术减少模型冗余。
  • Result: mAP50提升至94.8%,mAP50:95提升至86.4%,分别比基线提高0.7和2.3个百分点,参数量和计算量分别减少44.2%和17.5%。
  • Conclusion: 改进算法能更好地应用于铁路输电线路异物检测任务。

[98] Deep semi-supervised approach based on consistency regularization and similarity learning for weeds classification

Farouq Benchallal,Adel Hafiane,Nicolas Ragot,Raphael Canals

Main category: cs.CV

TL;DR: 提出了一种结合一致性正则化和相似性学习的深度半监督方法,用于杂草物种分类,在标记数据稀缺的情况下提高分类性能。

  • Motivation: 杂草分类对精准农业很重要,但传统深度学习方法需要大量标注数据,而农业应用中数据标注耗时费力,标记数据稀缺成为限制因素。
  • Method: 开发了深度自编码器架构,结合一致性正则化和相似性学习,利用未标记数据提升模型性能。
  • Result: 在DeepWeeds数据集上的实验表明,该方法在噪声条件下比全监督深度学习方法更有效和鲁棒。
  • Conclusion: 提出的联合学习策略在标记数据有限的情况下能够提供稳健的高性能杂草分类。

[99] UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

Zhengrong Yue,Haiyu Zhang,Xiangyu Zeng,Boyu Chen,Chenting Wang,Shaobin Zhuang,Lu Dong,KunPeng Du,Yi Wang,Limin Wang,Yali Wang

Main category: cs.CV

TL;DR: 提出了UniFlow通用统一分词器,通过分层自适应自蒸馏和轻量级像素流解码器,解决了视觉理解与生成之间的性能权衡问题。

  • Motivation: 现有分词器在视觉理解和生成之间存在显著性能权衡,源于高层语义抽象与低层像素重建之间的内在冲突。
  • Method: 采用分层自适应自蒸馏技术,使预训练视觉编码器同时继承强语义特征并适应细粒度细节;提出轻量级补丁级像素流解码器,通过建模条件流实现高保真像素重建。
  • Result: 在13个基准测试中,7B UniFlow-XL在理解任务上超越14B TokenFlow-XL 7.75%,在视觉重建和生成任务上分别超越UniTok 0.15 rFID和0.09 gFID。
  • Conclusion: UniFlow实现了视觉理解与生成的双赢,有效缓解了训练冲突,提高了训练效率。

[100] Injecting Frame-Event Complementary Fusion into Diffusion for Optical Flow in Challenging Scenes

Haonan Wang,Hanyu Zhou,Haoyue Liu,Luxin Yan

Main category: cs.CV

TL;DR: 提出Diff-ABFlow框架,使用扩散模型进行光流估计,结合帧相机和事件相机的优势,解决高速和低光场景下的运动模糊和光照不足问题。

  • Motivation: 传统光流估计方法在高速和低光场景中面临挑战,帧相机提供密集外观但边界稀疏,事件相机提供稀疏外观但边界密集。现有方法通过特征融合或域适应引入事件信息,但外观特征仍然退化,影响判别式和生成式模型的性能。
  • Method: 基于扩散模型,学习从噪声流到清晰流的映射,不受退化视觉特征影响。提出Diff-ABFlow框架,结合帧-事件外观-边界融合。
  • Result: 该方法能够有效处理运动模糊和光照不足场景,通过扩散模型学习流场映射,不受退化视觉特征的限制。
  • Conclusion: 扩散模型为光流估计提供了新思路,能够有效处理高速和低光场景中的挑战,结合帧相机和事件相机的互补优势。

[101] Equipping Vision Foundation Model with Mixture of Experts for Out-of-Distribution Detection

Shizhen Zhao,Jiahui Liu,Xin Wen,Haoru Tan,Xiaojuan Qi

Main category: cs.CV

TL;DR: 该论文系统研究了预训练视觉基础模型在OOD检测中的应用,发现DINOv2模型无需微调即可提供高度判别性的特征空间。针对大语义空间场景,提出了MoFE模块和Dynamic-β Mixup策略来提升性能。

  • Motivation: 预训练视觉基础模型在计算机视觉任务中表现出色,但其在OOD检测任务中的潜力尚未充分探索。论文旨在系统研究这些模型在OOD检测中的应用价值。
  • Method: 1) 评估预训练DINOv2模型在OOD检测中的表现;2) 提出Mixture of Feature Experts (MoFE)模块,将特征划分为子空间以捕获复杂数据分布;3) 引入Dynamic-β Mixup策略,从动态beta分布中采样插值权重,适应不同类别的学习难度。
  • Result: 实验表明,预训练的DINOv2模型在OOD检测中表现出色,无需微调即可达到与现有最先进方法相当的性能。提出的MoFE和Dynamic-β Mixup策略显著优于基线方法。
  • Conclusion: 预训练视觉基础模型为OOD检测提供了强大的特征表示能力,但在大语义空间场景中仍需专门设计。提出的MoFE模块和Dynamic-β Mixup策略有效解决了这一挑战,显著提升了OOD检测性能。

[102] A Simple and Better Baseline for Visual Grounding

Jingchao Wang,Wenlong Zhang,Dingjiang Huang,Hong Wang,Yefeng Zheng

Main category: cs.CV

TL;DR: 提出FSVG方法,通过特征选择机制实现视觉定位,在精度和效率之间取得更好平衡

  • Motivation: 现有方法需要迭代处理不同图像尺度并在缓存中存储特征,带来额外开销。希望简化实现过程,减少计算成本
  • Method: 将语言和视觉模态封装到统一网络架构中,不采用复杂迭代过程。引入基于相似度的特征选择机制,仅利用语言相关的视觉特征
  • Result: 在多个基准数据集上的实验证明,FSVG在准确性和效率方面优于当前最先进方法
  • Conclusion: FSVG是一个简单有效的视觉定位基线方法,实现了精度和效率的更好平衡

[103] ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models

Yuqi Liu,Liangyu Chen,Jiazhen Liu,Mingkang Zhu,Zhisheng Zhong,Bei Yu,Jiaya Jia

Main category: cs.CV

TL;DR: ViSurf是一种统一的后训练范式,将监督微调(SFT)和强化学习(RLVR)的优势整合在单一阶段,通过向RLVR注入真实标签实现外部监督和内部强化的同时作用。

  • Motivation: 传统SFT方法性能不佳,而RLVR在处理超出模型内部知识库的任务时存在困难,需要一种能结合两者优势的统一方法。
  • Method: 提出ViSurf范式,分析推导SFT和RLVR目标以建立统一目标,在RLVR中注入真实标签,并引入三种新的奖励控制策略来稳定训练过程。
  • Result: 在多个基准测试上的广泛实验表明,ViSurf优于单独的SFT、RLVR以及两阶段SFT→RLVR方法。
  • Conclusion: ViSurf通过统一SFT和RLVR范式,有效解决了各自方法的局限性,提供了更优的后训练解决方案。

[104] OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment

Yiting Lu,Fengbin Guan,Yixin Gao,Yan Zhong,Xinge Peng,Jiakang Yuan,Yihao Liu,Bo Zhang,Xin Li,Zhibo Chen,Weisi Lin

Main category: cs.CV

TL;DR: OmniQuality-R是一个统一奖励建模框架,将多任务质量推理转化为连续可解释的奖励信号,用于策略优化。

  • Motivation: 当前视觉评估方法通常局限于单一任务,需要解决多任务质量评估的统一框架问题。
  • Method: 构建推理增强的奖励建模数据集,通过拒绝采样获取信息丰富的规划-推理轨迹,形成链式思维数据集用于监督微调,然后应用GRPO进行后训练,并加入STD过滤和熵门控机制来稳定训练。
  • Result: 在三个关键IQA任务上进行了评估:美学质量评估、技术质量评估和图文对齐。
  • Conclusion: OmniQuality-R框架成功实现了多任务质量推理的统一建模,提供了连续可解释的奖励信号。

[105] GraphTARIF: Linear Graph Transformer with Augmented Rank and Improved Focus

Zhaolin Hu,Kun Li,Hehe Fan,Yi Yang

Main category: cs.CV

TL;DR: 提出了一种混合框架来增强线性注意力机制在图Transformer中的表达能力,通过添加门控局部图网络分支和学习性对数幂函数来提升注意力矩阵的秩和聚焦能力。

  • Motivation: 现有线性注意力模型由于低秩投影结构和过于均匀的注意力分布,导致表达能力显著下降,限制了节点表示的分类能力。
  • Method: 在值矩阵上附加门控局部图网络分支以增加注意力矩阵的秩;引入学习性对数幂函数到注意力分数中,减少熵并锐化注意力聚焦。
  • Result: 在同类性和异类性图基准测试中,该方法在保持线性注意力可扩展性的同时实现了有竞争力的性能。
  • Conclusion: 所提出的混合框架有效解决了线性注意力机制的表达能力限制问题,在保持计算效率的同时提升了模型性能。

[106] DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis

Peiyin Chen,Zhuowei Yang,Hui Feng,Sheng Jiang,Rui Yan

Main category: cs.CV

TL;DR: DEMO是一个基于流匹配的生成框架,用于音频驱动的说话肖像视频合成,能够解耦控制嘴唇运动、头部姿态和眼球注视。

  • Motivation: 现有的基于扩散模型的音频驱动说话头生成方法在生成时间连贯的视频和细粒度运动控制方面仍面临挑战。
  • Method: 提出运动自编码器构建结构化潜在空间,其中运动因子独立表示并近似正交化,在此基础上应用基于最优传输的流匹配和transformer预测器来生成时间平滑的运动轨迹。
  • Result: 在多个基准测试上的广泛实验表明,DEMO在视频真实感、嘴唇-音频同步和运动保真度方面优于先前方法。
  • Conclusion: 将细粒度运动解耦与基于流的生成建模相结合,为可控说话头视频合成提供了强大的新范式。

[107] A Machine Learning Perspective on Automated Driving Corner Cases

Sebastian Schmidt,Julius Körner,Stephan Günnemann

Main category: cs.CV

TL;DR: 提出了一种基于数据分布的机器学习方法,用于自动驾驶等高风险应用中的角点案例识别,无需手动规范定义。

  • Motivation: 传统基于示例的角点案例分类方法不可扩展且缺乏数据覆盖视角,无法有效泛化到机器学习模型的训练数据。
  • Method: 提出考虑底层数据分布的机器学习框架,将现有基于场景的角点案例分类统一到分布视角下。
  • Result: 在标准基准测试中实现了强大的角点案例检测性能,扩展了现有的分布外检测基准,并通过新引入的雾增强Lost & Found数据集分析了组合角点案例。
  • Conclusion: 为角点案例识别提供了原则性基础,强调了无需手动规范的定义方法。

[108] Stability Under Scrutiny: Benchmarking Representation Paradigms for Online HD Mapping

Hao Shan,Ruikai Li,Han Jiang,Yizhe Fan,Ziyang Yan,Bohan Li,Xiaoshuai Hao,Hao Zhao,Zhiyong Cui,Yilong Ren,Haiyang Yu

Main category: cs.CV

TL;DR: 该论文提出了首个在线高精地图模型时间稳定性的综合基准,通过多维度稳定性评估框架和统一评分系统,发现准确性和稳定性是两个相对独立的性能维度。

  • Motivation: 现有在线地图构建模型主要关注单帧精度,而忽略了时间稳定性问题。传感器空间位移导致实时高精地图结果偏移,这种不稳定性对下游任务构成根本性挑战。
  • Method: 提出了多维度稳定性评估框架,包含存在稳定性、定位稳定性和形状稳定性三个新颖指标,并整合为统一的平均稳定性评分(mAS)。在42个模型和变体上进行了广泛实验。
  • Result: 实验表明准确度(mAP)和稳定性(mAS)是两个相对独立的性能维度。分析了关键模型设计选择对这两个标准的影响,识别出有助于高精度、高稳定性或两者兼备的架构和训练因素。
  • Conclusion: 时间稳定性应作为核心评估标准与准确性并列,推动更可靠的自动驾驶系统发展。将发布公开基准以鼓励更广泛关注稳定性问题。

[109] Scalable Face Security Vision Foundation Model for Deepfake, Diffusion, and Spoofing Detection

Gaojian Wang,Feng Lin,Tong Wu,Zhisheng Yan,Kui Ren

Main category: cs.CV

TL;DR: FS-VFM是一个自监督预训练框架,通过3C学习目标(一致性、连贯性、对应性)结合掩码图像建模和实例判别,学习真实人脸的通用表示,并在多种人脸安全任务中展现出色的泛化能力。

  • Motivation: 利用大量未标记的真实人脸数据,学习鲁棒且可迁移的人脸表示,以提升在各种人脸安全任务中的泛化能力。
  • Method: 提出FS-VFM框架,包含三种学习目标:1) CRFR-P掩码策略促进区域内一致性和区域间连贯性;2) 自蒸馏机制结合掩码图像建模和实例判别建立局部到全局的对应关系;3) FS-Adapter轻量适配器实现高效迁移。
  • Result: 在11个公共基准测试中,FS-VFM在跨数据集深度伪造检测、跨域人脸反欺骗和未见扩散模型取证等任务中,优于多种视觉基础模型和特定任务方法。
  • Conclusion: FS-VFM能够学习通用的人脸基础表示,在多种人脸安全任务中实现优异的泛化性能,FS-Adapter提供了良好的效率-性能权衡。

[110] AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

Yu Li,Menghan Xia,Gongye Liu,Jianhong Bai,Xintao Wang,Conglang Zhang,Yuxuan Lin,Ruihang Chu,Pengfei Wan,Yujiu Yang

Main category: cs.CV

TL;DR: 该论文提出了一种利用预训练文本到视频(T2V)模型进行视点规划的两阶段方法,通过将4D场景表示注入T2V模型并引入相机外参扩散分支来实现视点预测。

  • Motivation: 受T2V模型在模拟真实世界几何和物理定律方面强大能力的启发,探索利用视频生成先验从给定4D场景进行视点规划的可行性,因为视频内部伴随着具有自然视点的动态场景。
  • Method: 提出两阶段范式:1) 通过自适应学习分支将4D场景表示注入预训练T2V模型;2) 将视点提取制定为混合条件引导的相机外参去噪过程,引入相机外参扩散分支。
  • Result: 实验结果表明该方法优于现有竞争对手,消融研究验证了关键技术设计的有效性。
  • Conclusion: 这项工作在一定程度上证明了视频生成模型在现实世界4D交互方面的潜力。

[111] Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

Jinxuan Li,Chaolei Tan,Haoxuan Chen,Jianxin Ma,Jian-Fang Hu,Wei-Shi Zheng,Jianhuang Lai

Main category: cs.CV

TL;DR: 这篇综述首次全面回顾了图像到视频迁移学习领域,系统分类了现有策略并分析了它们在视频文本学习任务中的应用效果。

  • Motivation: 图像语言基础模型在图像文本理解/生成任务中表现出色,但视频文本研究需要大量数据和计算资源。图像到视频迁移学习可以缓解从头训练视频语言基础模型的需求。
  • Method: 将现有图像到视频迁移学习策略分为两类:冻结特征(保持原始表示)和修改特征(对原始表示进行修改),并系统阐述这些策略在细粒度到粗粒度视频文本学习任务中的应用。
  • Result: 通过详细的实验分析,调查了不同图像到视频迁移学习范式在一系列下游视频理解任务中的有效性。
  • Conclusion: 识别了当前挑战并突出了未来研究的有前景方向,旨在为基于现有图像语言基础模型推进视频文本学习建立结构化路线图。

[112] MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Yuxiang Luo,Qing Xu,Hai Huang,Yuqi Ouyang,Zhen Chen,Wenting Duan

Main category: cs.CV

TL;DR: 提出MSM-Seg框架用于多模态脑肿瘤分割,通过双记忆分割范式整合多模态和切片间信息,使用类别无关提示提高分割准确性。

  • Motivation: 现有基于提示的分割方法忽略跨模态相关性,依赖劳动密集的类别特定提示,限制了在实际场景中的适用性。
  • Method: 设计模态-切片记忆注意力(MSMA)利用跨模态和切片间关系;提出多尺度类别无关提示编码器(MCP-Encoder);开发模态自适应融合解码器(MF-Decoder)利用不同模态的互补解码信息。
  • Result: 在不同MRI数据集上的广泛实验表明,MSM-Seg在多模态转移瘤和胶质瘤分割中优于最先进方法。
  • Conclusion: MSM-Seg框架通过创新的双记忆分割范式有效解决了多模态脑肿瘤分割中的关键挑战,提供了更实用的临床解决方案。

[113] Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Xinyu Yang,Zheheng Jiang,Feixiang Zhou,Yihang Zhu,Na Lv,Nan Xing,Huiyu Zhou

Main category: cs.CV

TL;DR: 提出状态特定模型(SSM)框架,统一增强动作检测和预测任务,通过关键状态压缩、动作模式学习和跨时间交互模块,在多个基准数据集上表现优于现有方法。

  • Motivation: 未修剪视频存在大量冗余信息和噪声,现有方法常忽略智能体意图对动作的影响,需要同时处理动作检测和预测的统一框架。
  • Method: 1. 关键状态记忆压缩模块压缩帧序列;2. 动作模式学习模块构建多维边状态转移图;3. 跨时间交互模块建模意图与过去/当前信息的相互影响。
  • Result: 在EPIC-Kitchens-100、THUMOS'14、TVSeries和PDMB数据集上的实验表明,所提框架性能优于现有最先进方法。
  • Conclusion: 动作动态学习和跨时间交互对动作理解至关重要,为未来研究奠定了基础。

[114] Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos

Xuankai Zhang,Junjin Xiao,Qing Zhang

Main category: cs.CV

TL;DR: 提出统一框架处理单目视频中的散焦模糊和运动模糊,通过模糊预测网络估计可靠模糊核,结合动态高斯致密化策略提升新视角合成质量

  • Motivation: 现有方法只能单独处理散焦模糊或运动模糊,缺乏同时处理两者的能力。虽然两者都可建模为模糊核卷积,但准确估计模糊核的困难限制了该方向进展
  • Method: 使用模糊预测网络估计像素级可靠模糊核,利用模糊相关场景和相机信息,施加模糊感知稀疏约束;引入动态高斯致密化策略解决不完整区域高斯不足问题;结合未见视角信息约束场景优化
  • Result: 在散焦和运动模糊的单目视频上,本方法在生成逼真新视角合成方面优于现有最先进方法
  • Conclusion: 提出的统一框架能够高质量处理散焦和运动模糊,通过可靠模糊核估计和动态高斯致密化策略,显著提升了新视角合成的真实感

[115] WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting

Yifan Liu,Zhiyuan Min,Zhenwei Wang,Junta Wu,Tengfei Wang,Yixuan Yuan,Yawei Luo,Chunchao Guo

Main category: cs.CV

TL;DR: WorldMirror是一个统一的前馈模型,能够同时生成多种3D几何表示,包括点云、深度图、相机参数、表面法线和3D高斯,在多种3D任务上达到最先进性能。

  • Motivation: 现有方法通常局限于图像输入或针对特定任务定制,缺乏灵活集成多种几何先验并同时生成多种3D表示的能力。
  • Method: 构建统一架构,灵活整合相机位姿、内参和深度图等几何先验,通过单次前向传播生成多种3D表示,解决结构模糊性问题。
  • Result: 在相机估计、点云、深度、表面法线估计和新视角合成等多个基准测试中达到最先进性能,同时保持前馈推理的高效性。
  • Conclusion: WorldMirror展示了统一架构在解决多种3D几何预测任务上的有效性,为3D理解提供了强大而高效的工具。

[116] Seeing My Future: Predicting Situated Interaction Behavior in Virtual Reality

Yuan Xu,Zimu Zhang,Xiaoxuan Ma,Wentao Zhu,Yu Qiao,Yizhou Wang

Main category: cs.CV

TL;DR: 提出了一种分层意图感知框架,通过认知机制建模人类意图并预测详细的情境行为,使用动态图卷积网络捕捉人-环境关系,在VR/AR系统中实现智能行为预测。

  • Motivation: 虚拟和增强现实系统需要智能适应用户行为以增强交互体验,这要求准确理解人类意图并预测未来情境行为(如注视方向和对象交互),但现有方法缺乏对驱动人-环境交互的认知过程建模。
  • Method: 提出分层意图感知框架,基于历史人类动态和场景上下文识别潜在交互目标并预测细粒度未来行为,使用动态图卷积网络有效捕捉人-环境关系。
  • Result: 在真实世界基准测试和实时VR环境中的广泛实验表明,该方法在所有指标上都取得了优越性能,能够实现预测用户行为和自适应虚拟环境的实用应用。
  • Conclusion: 该框架通过建模认知机制成功预测人类意图和情境行为,为主动式VR系统提供了有效的技术基础,能够前瞻性地适应用户行为并调整虚拟环境。

[117] Uncovering Anomalous Events for Marine Environmental Monitoring via Visual Anomaly Detection

Laura Weihl,Nejc Novak,Stefan H. Bengtson,Malte Pedersen

Main category: cs.CV

TL;DR: 提出了AURA数据集,评估了四种水下视觉异常检测模型,发现模型性能对训练数据量和'正常'场景定义高度敏感,强调了软标签和共识标签的重要性

  • Motivation: 水下视频监测是评估海洋生物多样性的有前景策略,但海量无事件镜头使得人工检查极其不切实际
  • Method: 引入首个多标注者水下VAD基准数据集AURA,评估四种VAD模型,采用鲁棒的帧选择策略提取有意义的视频片段
  • Result: 当前VAD模型性能差异显著,对训练数据量和定义'正常'场景的视觉内容变异性高度敏感
  • Conclusion: 软标签和共识标签具有重要价值,为支持科学探索和可扩展生物多样性监测提供了实用方法

[118] Restricted Receptive Fields for Face Verification

Kagan Ozturk,Aman Bhatta,Haiyu Wu,Patrick Flynn,Kevin W. Bowyer

Main category: cs.CV

TL;DR: 提出了一种基于局部补丁相似性的人脸相似度度量方法,通过将全局相似度分解为受限感受野的贡献,提供局部可加性解释,无需依赖后处理分析。

  • Motivation: 由于缺乏可靠的评估指标,后处理方法对模型实际推理的保真度存在不确定性,因此需要设计决策过程本身可解释的模型。
  • Method: 将两张人脸图像的相似度定义为补丁级相似度分数的总和,使用受限感受野的局部相似性来构建全局相似度度量。
  • Result: 在112x112人脸图像中使用28x28补丁时达到有竞争力的验证性能,使用56x56补丁时超越了最先进方法。
  • Conclusion: 该方法提供了一种内在可解释的人脸相似度度量,通过局部加性解释实现了良好的性能表现。

[119] EGD-YOLO: A Lightweight Multimodal Framework for Robust Drone-Bird Discrimination via Ghost-Enhanced YOLOv8n and EMA Attention under Adverse Condition

Sudipto Sarkar,Mohammad Asif Hasan,Khondokar Ashik Shahriar,Fablia Labiba,Nahian Tasnim,Sheikh Anawarul Haq Fattah

Main category: cs.CV

TL;DR: 提出EGD-YOLOv8n轻量级目标检测模型,用于准确识别无人机和鸟类,在VIP CUP 2025数据集上结合RGB和红外图像实现高效实时检测。

  • Motivation: 正确识别无人机和鸟类对于保障空域安全和提升安防系统至关重要,需要开发既准确又高效的检测方法。
  • Method: 基于YOLOv8n改进的EGD-YOLOv8n模型,采用智能设计变更和注意力层来聚焦重要特征,减少计算量,并使用特殊检测头适应不同形状大小的目标。训练了RGB、红外和两者结合的三个版本。
  • Result: 结合RGB和红外图像的模型取得了最佳准确性和可靠性,同时在普通GPU上能够实现实时运行。
  • Conclusion: EGD-YOLOv8n是一个轻量级但功能强大的目标检测模型,在多模态图像融合下能够有效识别无人机和鸟类,适合实时安防应用。

[120] Structured Spectral Graph Learning for Multi-label Abnormality Classification in 3D Chest CT Scans

Theo Di Piazza,Carole Lazarus,Olivier Nempont,Loic Boussel

Main category: cs.CV

TL;DR: 提出了一种基于图的2.5D方法,将3D胸部CT扫描表示为结构化图,通过谱图卷积处理轴向切片三元组,有效捕捉切片间依赖关系,在跨数据集泛化和临床应用方面表现优异。

  • Motivation: 随着CT检查量的增长,需要自动化工具支持放射科医生。现有3D CNN方法难以捕捉长程依赖,而Vision Transformers需要大量领域特定数据预训练。
  • Method: 将3D CT体积表示为结构化图,轴向切片三元组作为节点,通过谱图卷积处理,能够推理切片间依赖关系,同时保持临床部署的复杂度。
  • Result: 在3个独立机构的数据集上训练和评估,实现了强大的跨数据集泛化能力,与最先进的视觉编码器相比具有竞争力。
  • Conclusion: 该方法在放射学报告生成和腹部CT数据上展示了更广泛的适用性,为3D医学图像分析提供了有效的2.5D替代方案。

[121] DISC-GAN: Disentangling Style and Content for Cluster-Specific Synthetic Underwater Image Generation

Sneha Varur,Anirudh R Hanchinamani,Tarun S Bagewadi,Uma Mudenagudi,Chaitra D Desai,Sujata C,Padmashree Desai,Sumit Meharwade

Main category: cs.CV

TL;DR: 提出DISC-GAN框架,通过风格-内容解耦和聚类特定训练策略实现逼真的水下图像合成。

  • Motivation: 水下图像合成受到颜色衰减和浑浊等光学现象的影响,这些现象在不同水域中表现为不同的风格变化。现有生成模型难以建模不同水下环境的非均匀条件。
  • Method: 使用K-means聚类将数据集划分为风格特定域,采用分离的编码器获取风格和内容的潜在空间,通过AdaIN整合潜在表示并解码生成最终合成图像,在每个风格聚类上独立训练以保持域特定特征。
  • Result: 框架表现出最先进的性能,获得SSIM 0.9012、平均PSNR 32.5118 dB和FID 13.3728。
  • Conclusion: DISC-GAN成功整合了风格-内容解耦和聚类特定训练策略,能够生成高质量的水下图像。

[122] ImHead: A Large-scale Implicit Morphable Model for Localized Head Modeling

Rolandos Alexandros Potamias,Stathis Galanakis,Jiankang Deng,Athanasios Papaioannou,Stefanos Zafeiriou

Main category: cs.CV

TL;DR: 提出imHead,一种新颖的隐式3D可变形模型,用于建模和编辑3D头部头像,支持局部面部特征编辑,使用紧凑的身份空间和区域特定潜在表示。

  • Motivation: 传统3D可变形模型受限于严格拓扑结构和线性特性,难以表示复杂的全头形状,且现有方法需要较大的潜在空间。
  • Method: 保留单一紧凑身份空间,引入中间区域特定潜在表示来实现局部编辑,使用大规模4K身份数据集进行训练。
  • Result: 模型能够表示多样化的身份和表情,性能优于先前方法,并提供可解释的3D面部操作解决方案。
  • Conclusion: imHead在3D头部建模方面表现出强大的表达能力,同时支持局部编辑,为大规模3D头部建模迈出重要一步。

[123] Full segmentation annotations of 3D time-lapse microscopy images of MDA231 cells

Aleksandra Melnikova,Petr Matula

Main category: cs.CV

TL;DR: 本文提供了首个公开的3D时间推移细胞迁移分割标注数据集,包含MDA231人乳腺癌细胞的复杂动态形状标注,并验证了标注的一致性和准确性。

  • Motivation: 高质量的公开分割标注对图像处理领域至关重要,特别是对大量目标的体积图像标注耗时且具有挑战性。
  • Method: 三名不同标注者对Cell Tracking Challenge中的两个MDA231细胞序列进行全3D时间推移分割标注,并与CTC提供的自动标注进行比较。
  • Result: 创建的标注与CTC发布的追踪标记一致,分割精度在标注者间变异范围内,且比CTC的自动标注更好地反映了输入图像的复杂性。
  • Conclusion: 该标注数据集可用于测试和训练细胞分割,或分析高度动态物体的3D形状。

[124] MSCloudCAM: Cross-Attention with Multi-Scale Context for Multispectral Cloud Segmentation

Md Abdullah Al Mazid,Liangdong Deng,Naphtali Rishe

Main category: cs.CV

TL;DR: MSCloudCAM是一个用于多光谱和多传感器云分割的跨注意力多尺度上下文网络,在Sentinel-2和Landsat-8数据上实现了最先进的云分割精度。

  • Motivation: 云层是光学卫星图像分析的主要障碍,影响环境监测、土地覆盖制图和气候研究的可靠性。
  • Method: 结合Swin Transformer骨干网络进行分层特征提取,使用ASPP和PSP多尺度上下文模块增强尺度感知学习,通过跨注意力块实现多传感器和多光谱特征融合,并集成ECAB和空间注意力模块自适应优化特征表示。
  • Result: 在CloudSEN12和L8Biome数据集上的综合实验表明,MSCloudCAM在保持竞争性参数效率和FLOPs的同时,超越了领先的基线架构,实现了最先进的分割精度。
  • Conclusion: 该模型在大型地球观测任务和实际应用中具有有效性和实用性。

[125] From Detection to Mitigation: Addressing Bias in Deep Learning Models for Chest X-Ray Diagnosis

Clemence Mottez,Louisa Fay,Maya Varma,Sophie Ostmeier,Curtis Langlotz

Main category: cs.CV

TL;DR: 提出一个针对胸部X光诊断任务的偏差检测和缓解框架,通过用XGBoost替换CNN最后一层来改善不同人口统计亚组的公平性,同时保持或提高整体预测性能。

  • Motivation: 深度学习模型在提高胸部X光诊断准确性的同时,存在在不同人口统计群体间性能差异导致医疗不平等的问题。
  • Method: 扩展CNN-XGBoost管道支持多标签分类,用XGBoost替换CNN最后一层,在DenseNet-121和ResNet-50等不同骨干网络上验证,并与对抗训练、重加权、数据增强和主动学习等传统方法比较。
  • Result: 该方法在保持或提高整体预测性能的同时改善了亚组公平性,在不同骨干网络上均获得类似强性能和公平性结果,与XGBoost重训练结合的主动学习在所有人口统计亚组中实现了最大的偏差减少。
  • Conclusion: 该方法为临床放射学中公平深度学习部署提供了一条实用有效的路径,计算成本仅为传统方法的一小部分。

[126] FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

Soroush Mehraban,Andrea Iaboni,Babak Taati

Main category: cs.CV

TL;DR: 提出两种3D人体网格恢复的合并策略:误差约束层合并和掩码引导令牌合并,结合扩散解码器实现2.3倍加速且性能略有提升

  • Motivation: 现有基于transformer的3D人体网格恢复模型计算成本高、复杂度大,主要由于深层transformer架构和冗余令牌
  • Method: 1. 误差约束层合并:选择性合并对MPJPE影响最小的transformer层;2. 掩码引导令牌合并:专注于合并对最终预测贡献小的背景令牌;3. 扩散解码器:结合时间上下文并利用大规模运动捕捉数据集的姿态先验
  • Result: 在多个基准测试中,方法实现了高达2.3倍的加速,同时性能相比基线略有提升
  • Conclusion: 提出的合并策略和扩散解码器有效解决了transformer模型的计算效率问题,在保持性能的同时显著提升了推理速度

[127] rareboost3d: a synthetic lidar dataset with enhanced rare classes

Shutong Lin,Zhengkang Xiang,Jianzhong Qi,Kourosh Khoshelham

Main category: cs.CV

TL;DR: 提出了RareBoost3D合成点云数据集来解决真实世界数据集中罕见类别的长尾问题,并开发了CSC损失函数来实现跨域特征对齐。

  • Motivation: 真实世界点云数据集中某些罕见类别实例数量有限,导致长尾问题,影响LiDAR感知技术的发展。
  • Method: 创建RareBoost3D合成数据集补充罕见类别实例,并提出CSC损失函数对齐不同域中相同类别的特征表示。
  • Result: 实验结果表明,这种跨域特征对齐显著提升了LiDAR点云分割模型在真实世界数据上的性能。
  • Conclusion: 通过合成数据增强和跨域特征对齐,有效解决了点云分割中的长尾问题,提高了模型性能。

[128] Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales

Zhaofang Qian,Hardy Chen,Zeyu Wang,Li Zhang,Zijun Wang,Xiaoke Huang,Hui Liu,Xianfeng Tang,Zeyu Zheng,Haoqin Tu,Cihang Xie,Yuyin Zhou

Main category: cs.CV

TL;DR: EarthWhere是一个全面的VLM图像地理定位基准,包含810张全球分布图像,评估视觉识别、逐步推理和证据使用能力。基准显示当前最佳模型准确率为56.32%,存在区域偏见和推理能力不足的问题。

  • Motivation: 当前视觉语言模型在开放世界条件下的图像地理定位能力尚未得到全面评估,而这是一个具有实际需求且具有挑战性的任务。
  • Method: 构建EarthWhere基准,包含两个互补的地理定位尺度:WhereCountry(500个选择题,国家级别)和WhereStreet(310个细粒度街道级别任务,需要多步推理和可选网络搜索)。采用最终预测指标和中间推理链评分方法。
  • Result: 在13个最先进的VLM上测试,Gemini-2.5-Pro达到最佳平均准确率56.32%,最强开源模型GLM-4.5V达到34.71%。发现网络搜索和推理在视觉线索有限时不能保证性能提升,模型存在区域偏见,某些区域得分比其他区域高42.7%。
  • Conclusion: 研究结果不仅显示了模型的潜力,也突显了持续存在的挑战,包括减少偏见和实现鲁棒、细粒度定位的困难。

[129] Topological Alignment of Shared Vision-Language Embedding Space

Junwon You,Dasol Kang,Jae-Hun Jung

Main category: cs.CV

TL;DR: ToMCLIP是一个拓扑感知的多语言CLIP对齐框架,通过拓扑保持约束来增强多语言表示的结构一致性,提高零样本准确率和跨语言检索性能。

  • Motivation: 现有的对比视觉语言模型在多语言对齐方面存在偏差,主要偏向英语,且多语言扩展方法只关注实例级对齐而忽略了共享嵌入空间的全局几何结构。
  • Method: 提出ToMCLIP框架,应用持久同调定义拓扑对齐损失,并使用图稀疏化策略近似持久图,具有理论误差界。
  • Result: 实验表明该方法增强了多语言表示的结构一致性,在CIFAR-100上获得更高的零样本准确率,在xFlickr&CO上实现更强的多语言检索性能。
  • Conclusion: ToMCLIP不仅改进了多语言视觉语言模型,还为表示学习中的拓扑对齐提供了一种通用方法。

[130] SceneTextStylizer: A Training-Free Scene Text Style Transfer Framework with Diffusion Model

Honghui Yuan,Keiji Yanai

Main category: cs.CV

TL;DR: SceneTextStylizer是一个无需训练的扩散模型框架,用于在场景图像中实现灵活、高保真的文本风格迁移,支持提示引导的文本区域风格转换,同时保持文本可读性和风格一致性。

  • Motivation: 现有场景文本编辑方法通常局限于内容替换和简单风格,缺乏自由风格迁移能力,无法实现灵活和局部化的文本风格编辑。
  • Method: 设计了特征注入模块利用扩散模型反转和自注意力机制有效迁移风格特征;引入基于距离变化掩码的区域控制机制实现精确空间控制;采用基于傅里叶变换的风格增强模块提升风格丰富度。
  • Result: 大量实验表明,该方法在场景文本风格转换方面表现优异,在视觉保真度和文本保持方面均优于现有最先进方法。
  • Conclusion: SceneTextStylizer框架成功解决了场景文本灵活局部化风格编辑的挑战,实现了高质量的风格迁移效果。

[131] DreamMakeup: Face Makeup Customization using Latent Diffusion Models

Geon Yeong Park,Inhwa Han,Serin Yang,Yeobin Hong,Seongmin Jeong,Heechan Jeon,Myeongjin Goh,Sung Won Yi,Jin Nam,Jong Chul Ye

Main category: cs.CV

TL;DR: DreamMakeup是一种基于扩散模型的免训练化妆定制方法,通过早期停止DDIM反演保持面部结构和身份,同时支持多种条件输入进行广泛定制。

  • Motivation: 全球化妆品市场的快速增长推动了虚拟化妆模拟技术的发展,但基于GAN的方法存在训练不稳定和定制能力有限的问题。
  • Method: 采用免训练的扩散模型,利用早期停止DDIM反演技术,通过参考图像、RGB颜色和文本描述等多种条件输入实现化妆定制。
  • Result: 相比现有的GAN基和扩散基框架,在定制能力、颜色匹配、身份保持以及与文本描述/LLM的兼容性方面都有显著改进,且计算成本可控。
  • Conclusion: DreamMakeup通过扩散模型实现了更优越的可控性和精确的真实图像编辑,为虚拟化妆定制提供了有效的解决方案。

[132] FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

Chunyu Xie,Bin Wang,Fanjing Kong,Jincheng Li,Dawei Liang,Ji Ao,Dawei Leng,Yuhui Yin

Main category: cs.CV

TL;DR: FG-CLIP 2是一个双语视觉语言模型,旨在提升英语和中文的细粒度对齐能力,通过区域-文本匹配、长标题建模和多判别目标等方法,在29个数据集上实现最先进性能。

  • Motivation: 当前模型在细粒度视觉语言理解方面存在局限,特别是在非英语环境中,难以准确捕捉对象属性、空间关系和语言表达的细微差别,且双语理解支持有限。
  • Method: 采用丰富的细粒度监督方法,包括区域-文本匹配和长标题建模,结合多判别目标,并引入文本模态内对比损失来更好区分语义相似的标题。使用大规模英中数据混合训练。
  • Result: 在29个数据集和8个任务上的广泛实验表明,FG-CLIP 2在两种语言中都超越了现有方法,实现了最先进的性能。
  • Conclusion: FG-CLIP 2显著提升了双语细粒度对齐能力,为未来双语细粒度对齐研究提供了模型、代码和基准数据集。

[133] DKPMV: Dense Keypoints Fusion from Multi-View RGB Frames for 6D Pose Estimation of Textureless Objects

Jiahong Chen,Jinghao Wang,Zi Wang,Ziwen Wang,Banglei Guan,Qifeng Yu

Main category: cs.CV

TL;DR: DKPMV是一种仅使用多视角RGB图像进行6D姿态估计的管道,通过密集关键点级融合和三阶段渐进姿态优化策略,在纹理缺失物体上超越现有方法。

  • Motivation: 解决纹理缺失物体6D姿态估计中深度信息丢失的问题,当前多视角方法要么依赖深度数据,要么未能充分利用多视角几何线索。
  • Method: 设计三阶段渐进姿态优化策略,利用密集多视角关键点几何信息;通过注意力聚合和对称感知训练增强关键点网络,提高预测精度并解决对称物体模糊性。
  • Result: 在ROBI数据集上的大量实验表明,DKPMV优于最先进的多视角RGB方法,在大多数情况下甚至超越了RGB-D方法。
  • Conclusion: DKPMV证明了仅使用RGB图像就能实现高质量的6D姿态估计,为工业机器人应用提供了有效的解决方案。

[134] Towards Distribution-Shift Uncertainty Estimation for Inverse Problems with Generative Priors

Namhoon Kim,Sara Fridovich-Keil

Main category: cs.CV

TL;DR: 提出了一种无需校准的实例级不确定性指标,用于检测生成模型在解决逆问题时遇到的分布偏移问题,通过重建稳定性来判断图像是否超出训练分布。

  • Motivation: 生成模型作为数据驱动先验在解决逆问题(如医学图像重建)时,当测试图像超出训练分布时可能产生幻觉特征。现有不确定性量化方法需要校准数据集、提供启发式估计或无法区分分布偏移。
  • Method: 基于重建稳定性假设:分布内图像在随机测量变化下重建稳定,而分布外图像重建不稳定。通过计算重建变异性作为分布偏移的代理指标。
  • Result: 在MNIST数字的断层重建实验中,仅用数字"0"训练的模型在其他数字上重建时显示出更高的变异性,与重建误差正相关,验证了该指标的有效性。
  • Conclusion: 该方法为生成先验提供了轻量级保护机制,可在分布内情况下实现激进测量减少,同时在先验应用于分布外时自动发出警告。

[135] IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation

Zeteng Lin,Xingxing Li,Wen You,Xiaoyang Li,Zehan Lu,Yujun Cai,Jing Tang

Main category: cs.CV

TL;DR: 提出了IUT-Plug模块,基于图像理解树增强现有交错视觉语言模型,通过显式结构化推理缓解逻辑、实体身份和风格上的上下文漂移问题。

  • Motivation: 现有视觉语言模型在图像-文本生成中难以保持逻辑、对象身份和风格的一致性,这限制了它们在复杂多模态场景中的泛化能力。
  • Method: 采用两阶段框架:(1)动态IUT-Plug提取模块将视觉场景解析为层次化符号结构;(2)协调的叙事流和图像合成机制确保跨模态一致性。
  • Result: 实验结果表明,IUT-Plug不仅提高了现有基准测试的准确性,还能有效缓解三种关键形式的上下文漂移。
  • Conclusion: IUT-Plug通过结构化推理显著提升了视觉语言模型在多模态问答场景中的逻辑一致性和上下文保持能力。

[136] Chart-RVR: Reinforcement Learning with Verifiable Rewards for Explainable Chart Reasoning

Sanchit Sinha,Oana Frunza,Kashif Rasul,Yuriy Nevmyvaka,Aidong Zhang

Main category: cs.CV

TL;DR: Chart-RVR是一个通过可验证奖励和组相对策略优化来微调大型视觉语言模型的框架,旨在提高图表推理的鲁棒性和可解释性。

  • Motivation: 现有的大型视觉语言模型在分布外数据上表现不佳,且在生成思维链推理时性能进一步下降,限制了模型的可解释性。
  • Method: 使用组相对策略优化(GRPO)结合三种自动可验证奖励:正确图表类型分类、忠实图表表格重建和过程一致性。
  • Result: 在30亿参数模型上,Chart-RVR在分布内和分布外数据集上均优于标准监督微调,在六个图表推理基准测试中达到最先进水平。
  • Conclusion: Chart-RVR通过可验证奖励和GRPO训练出了更可靠、可解释的图表推理模型,提高了推理的忠实度和可信度。

[137] Mixup Helps Understanding Multimodal Video Better

Xiaoyu Ma,Ding Ding,Hao Chen

Main category: cs.CV

TL;DR: 提出了Multimodal Mixup (MM)和Balanced Multimodal Mixup (B-MM)两种方法来解决多模态视频理解中强模态主导学习的问题,通过特征混合和动态调整混合比例来提升泛化能力和多模态鲁棒性。

  • Motivation: 多模态模型容易过度拟合强模态,导致弱模态的贡献被抑制,影响模型的泛化能力和多模态鲁棒性。
  • Method: 首先提出Multimodal Mixup (MM),在聚合的多模态特征层面应用Mixup策略生成虚拟特征-标签对;进一步提出Balanced Multimodal Mixup (B-MM),根据各模态对学习目标的相对贡献动态调整混合比例。
  • Result: 在多个数据集上的广泛实验表明,所提方法能有效提升泛化能力和多模态鲁棒性。
  • Conclusion: MM和B-MM方法能有效缓解多模态学习中的模态不平衡问题,提高模型的泛化性能和多模态鲁棒性。

[138] A Survey on Agentic Multimodal Large Language Models

Huanjin Yao,Ruifei Zhang,Jiaxing Huang,Jingyi Zhang,Yibo Wang,Bo Fang,Ruolin Zhu,Yongcheng Jing,Shunyu Liu,Guanbin Li,Dacheng Tao

Main category: cs.CV

TL;DR: 本文对Agentic Multimodal Large Language Models(Agentic MLLMs)进行了全面综述,建立了包含智能内部功能、外部工具调用和环境交互三个维度的概念框架,并整理了相关训练资源、数据集和应用。

  • Motivation: 随着自主智能体系统的革命性发展,研究界正从传统的静态、被动、领域特定的AI智能体转向更动态、主动和可泛化的智能体AI。本文旨在探索Agentic MLLMs这一新兴范式及其向AGI发展的潜力。
  • Method: 建立了概念框架,从三个基本维度组织Agentic MLLMs:(i) 智能内部功能作为系统指挥官,通过推理、反思和记忆实现准确的长程规划;(ii) 外部工具调用,模型主动使用各种外部工具扩展问题解决能力;(iii) 环境交互,模型在虚拟或物理环境中采取行动、适应策略并维持目标导向行为。
  • Result: 整理了开源训练框架、训练和评估数据集,以加速Agentic MLLMs的研究发展。综述了Agentic MLLMs的下游应用,并建立了持续更新的公共存储库。
  • Conclusion: Agentic MLLMs代表了AI智能体发展的新方向,具有从静态被动向动态主动转变的重要特征。本文为该快速发展的领域提供了系统性的概念框架和研究资源,并指出了未来的研究方向。

[139] Perspective-aware 3D Gaussian Inpainting with Multi-view Consistency

Yuxin Cheng,Binxiao Huang,Taiqiang Wu,Wenyong Zhou,Chenchen Ding,Zhengwu Liu,Graziano Chesi,Ngai Wong

Main category: cs.CV

TL;DR: PAInpainter是一种新颖的3D高斯修复方法,通过视角感知内容传播和多视图一致性验证,显著提升3D场景修复的全局一致性和纹理保真度。

  • Motivation: 3D高斯修复在虚拟现实和多媒体应用中至关重要,但确保多视图一致性仍然是关键挑战。现有方法在保持多视图一致性方面存在不足。
  • Method: 采用视角感知内容传播和一致性验证,通过从视角图中自适应采样多个视图,迭代优化修复结果和3D高斯表示,将修复图像作为先验信息传播并验证相邻视图间的一致性。
  • Result: 在SPIn-NeRF和NeRFiller数据集上分别达到26.03 dB和29.51 dB的PSNR分数,优于现有方法,显示出卓越的3D修复质量和泛化能力。
  • Conclusion: PAInpainter通过创新的多视图一致性机制有效解决了3D高斯修复中的一致性挑战,为高质量3D场景修复提供了有效解决方案。

[140] ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

Ruihang Xu,Dewei Zhou,Fan Ma,Yi Yang

Main category: cs.CV

TL;DR: ContextGen是一个用于多实例图像生成的扩散Transformer框架,通过布局和参考图像引导,解决了现有方法在对象布局控制和多主体身份保持方面的局限性。

  • Motivation: 现代扩散模型在多实例图像生成中存在关键限制,难以实现精确的对象布局控制,也无法保持多个不同主体的身份一致性。
  • Method: 提出了ContextGen框架,包含两个关键技术:上下文布局锚定机制将复合布局图像整合到生成上下文中,以牢固锚定对象位置;身份一致性注意力机制利用上下文参考图像确保多实例的身份一致性。
  • Result: ContextGen在控制精度、身份保真度和整体视觉质量方面优于现有方法,创造了新的最先进水平。
  • Conclusion: ContextGen通过创新的布局锚定和身份一致性机制,有效解决了多实例图像生成中的关键挑战,并引入了首个具有详细布局和身份标注的大规模数据集IMIG-100K。

[141] Frequency Domain Unlocks New Perspectives for Abdominal Medical Image Segmentation

Kai Han,Siqi Ma,Chengxuan Qian,Jun Chen,Chongwen Lyu,Yuqing Song,Zhe Liu

Main category: cs.CV

TL;DR: 提出FASS框架,通过前景感知模块、小波变换频率增强模块和边缘约束模块,解决医学图像中低对比度肿瘤分割难题,在复杂条件下实现优越性能。

  • Motivation: 基础模型在复杂低对比度背景下难以聚焦前景区域,特别是当恶性肿瘤与正常器官相似时,上下文区分变得困难。
  • Method: 1) 前景感知模块放大背景与整个体积空间的区分;2) 基于小波变换的特征级频率增强模块提取判别性高频特征;3) 边缘约束模块保持分割边界的几何连续性。
  • Result: 在多个医学数据集上的广泛实验显示,所有指标均表现优越,特别是在复杂条件下的鲁棒性和精细结构识别方面验证了框架有效性。
  • Conclusion: 该框架显著增强了低对比度图像的分割能力,为更复杂多样的医学成像场景应用铺平了道路。

[142] COCO-Tree: Compositional Hierarchical Concept Trees for Enhanced Reasoning in Vision Language Models

Sanchit Sinha,Guangzhi Xiong,Aidong Zhang

Main category: cs.CV

TL;DR: COCO-Tree是一种增强视觉语言模型组合推理能力的新方法,通过从大型语言模型学习神经符号概念树来提升VLM的语言推理能力。

  • Motivation: 现代视觉语言模型在组合推理方面存在持续弱点,特别是在理解图像中多个对象、属性和关系交互时表现不佳。现有方法要么资源密集,要么缺乏可解释的推理过程。
  • Method: 提出COCO-Tree方法,通过从大型语言模型学习精心设计的神经符号概念树来增强VLM输出,采用波束搜索启发的推理过程。
  • Result: 在四个组合性基准测试(Winoground、EqBench、ColorSwap、SugarCrepe)和七个不同规模的开源VLM上,COCO-Tree将组合泛化性能显著提升了5-10%。
  • Conclusion: COCO-Tree方法有效提升了视觉语言模型的组合推理能力,同时提供了可解释的预测依据。

[143] High-Resolution Spatiotemporal Modeling with Global-Local State Space Models for Video-Based Human Pose Estimation

Runyang Feng,Hyung Jin Chang,Tze Ho Elden Tse,Boeun Kim,Yi Chang,Yixing Gao

Main category: cs.CV

TL;DR: 提出了一种基于Mamba的全局-局部时空建模框架,用于视频人体姿态估计,通过全局时空Mamba和局部细化Mamba分别处理全局动态上下文和局部运动细节,在保持线性复杂度的同时提升性能。

  • Motivation: 现有VHPE方法难以平衡全局动态上下文和局部运动细节的建模,且存在二次复杂度问题。Mamba模型在长序列建模方面表现出色但仅限于1D数据,需要扩展到时空维度。
  • Method: 提出全局时空Mamba进行6D选择性时空扫描和时空调制扫描合并,以及基于窗口时空扫描的局部细化Mamba,分别提取全局表示和增强局部关键点运动细节。
  • Result: 在四个基准数据集上的实验表明,该模型优于现有最先进的VHPE方法,同时实现了更好的计算权衡。
  • Conclusion: 该框架成功将Mamba扩展到时空维度,有效解决了VHPE中全局-局部建模平衡和计算复杂度问题,为高分辨率序列处理提供了高效解决方案。

[144] GeoVLMath: Enhancing Geometry Reasoning in Vision-Language Models via Cross-Modal Reward for Auxiliary Line Creation

Shasha Guo,Liang Pang,Xi Wang,Yanling Wang,Huawei Shen,Jing Zhang

Main category: cs.CV

TL;DR: 提出GeoVLMath方法,通过文本描述辅助线构造来增强大视觉语言模型在几何问题中的推理能力,使用强化学习框架提升图文对齐效果。

  • Motivation: 当前图像编辑模型难以精确绘制几何辅助线,而大视觉语言模型在处理文本描述方面表现更好,因此需要一种方法将几何问题的空间结构转化为文本描述。
  • Method: 提出强化学习框架,使用跨模态奖励评估生成的辅助线描述与真实辅助线图的对齐程度,基于GRPO的强化学习阶段实现精确的图文对齐。
  • Result: 在3B和7B规模上,GeoVLMath在辅助线推理基准测试中表现优异,与开源和专有大视觉语言模型相比具有竞争力甚至更优。
  • Conclusion: 通过文本描述辅助线构造的方法有效提升了LVLMs在复杂几何问题中的推理能力,强化学习框架成功实现了图文对齐。

[145] GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

Hongxiang Li,Yaowei Li,Bin Lin,Yuwei Niu,Yuhang Yang,Xiaoshuang Huang,Jiayin Cai,Xiaolong Jiang,Yao Hu,Long Chen

Main category: cs.CV

TL;DR: GIR-Bench是一个全面的多模态基准测试,用于评估统一模型在理解与生成一致性、推理驱动的文本到图像生成以及多步推理编辑三个互补方面的表现。

  • Motivation: 当前缺乏严格的推理中心基准来系统评估多模态模型的理解与生成对齐及其在复杂视觉任务中的泛化潜力。
  • Method: 设计了三个子集:理解-生成一致性测试、推理驱动的文本到图像生成测试、多步推理编辑测试,并为每个任务定制了专门的评估流程。
  • Result: 统一模型在推理驱动的视觉任务中表现更好,但在理解与生成之间仍存在持续差距。
  • Conclusion: GIR-Bench为多模态模型提供了细粒度和可解释的评估框架,揭示了理解与生成之间的对齐挑战。

[146] Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Ganlin Yang,Tianyi Zhang,Haoran Hao,Weiyun Wang,Yibin Liu,Dehui Wang,Guanzhou Chen,Zijian Cai,Junting Chen,Weijie Su,Wengang Zhou,Yu Qiao,Jifeng Dai,Jiangmiao Pang,Gen Luo,Wenhai Wang,Yao Mu,Zhi Hou

Main category: cs.CV

TL;DR: Vlaser是一个视觉-语言-动作模型,通过整合高层次推理与低层次控制来弥合具身推理与VLA策略学习之间的差距,在多个具身推理基准测试中取得最先进性能。

  • Motivation: 当前研究很少直接解决上游VLM推理与下游VLA策略学习之间的关键差距,需要弥合具身推理与VLA策略学习。
  • Method: 基于高质量Vlaser-6M数据集构建Vlaser模型,系统研究不同VLM初始化对监督VLA微调的影响,提供缓解互联网规模预训练数据与具身特定策略学习数据之间领域转移的新见解。
  • Result: 在空间推理、具身基础、具身问答和任务规划等具身推理基准测试中达到最先进性能,在WidowX基准测试中取得最先进结果,在Google Robot基准测试中具有竞争力。
  • Conclusion: Vlaser成功整合了高层次推理与低层次控制,为具身智能体提供了协同的具身推理能力,并通过研究VLM初始化对VLA微调的影响提供了有价值的见解。

[147] Enhancing Zero-Shot Anomaly Detection: CLIP-SAM Collaboration with Cascaded Prompts

Yanning Hou,Ke Xu,Junfa Li,Yanran Ruan,Jianfeng Qiu

Main category: cs.CV

TL;DR: 提出一种新颖的两阶段框架,用于工业异常检测中的零样本异常分割任务,通过结合CLIP的异常定位能力和SAM的边界感知能力,在多个数据集上实现了最先进的性能。

  • Motivation: 基础模型在零样本异常分割任务中展现出强大的泛化能力,但如何正确引导这些模型解决下游任务仍然是一个挑战。
  • Method: 两阶段框架:1) Co-Feature Point Prompt Generation (PPG)模块,利用CLIP和SAM生成正负点提示,引导SAM专注于异常区域而非整个对象;2) Cascaded Prompts for SAM (CPS)模块,使用混合提示与SAM的轻量级解码器级联,优化分割结果。
  • Result: 在多个数据集上实现最先进的零样本异常分割结果,特别是在Visa数据集上,F1-max和AP指标分别比现有最佳方法高出10.3%和7.7%。
  • Conclusion: 该框架有效结合了CLIP和SAM的优势,在零样本异常分割任务中取得了显著性能提升,证明了所提方法的有效性。

[148] Benchmarking Deep Learning Models for Laryngeal Cancer Staging Using the LaryngealCT Dataset

Nivea Roy,Son Tran,Atul Sajjanhar,K. Devaraja,Prakashini Koteshwara,Yong Xiang,Divya Rao

Main category: cs.CV

TL;DR: 提出了LaryngealCT数据集,包含1029个喉癌CT扫描,用于标准化深度学习模型开发。评估了多种3D深度学习架构在喉癌分期分类任务上的性能,并提供了可解释性分析。

  • Motivation: 喉癌影像研究缺乏标准化的数据集来支持可复现的深度学习模型开发,这限制了AI在喉癌临床决策中的应用。
  • Method: 从TCIA收集了1029个CT扫描,使用弱监督参数搜索框架提取喉部感兴趣区域。评估了3D CNN、ResNet18/50/101和DenseNet121等架构在早期vs晚期和T4 vs非T4分类任务上的性能,并使用3D GradCAM进行模型可解释性分析。
  • Result: 3D CNN在早期vs晚期分类任务中表现最佳(AUC=0.881,F1-macro=0.821),ResNet18在T4 vs非T4分类中表现最佳(AUC=0.892,F1-macro=0.646)。可解释性分析显示非T4病例中模型更关注软骨周围区域,而T4预测中显示局部激活。
  • Conclusion: LaryngealCT通过开源数据、预训练模型和集成可解释性工具,为AI驱动的喉癌研究提供了可复现的基础,支持临床决策。

[149] Zero-shot Face Editing via ID-Attribute Decoupled Inversion

Yang Hou,Minggu Wang,Jianjun Zhao

Main category: cs.CV

TL;DR: 提出基于ID-属性解耦反演的零样本人脸编辑方法,通过将人脸表征分解为ID和属性特征,实现独立控制,在保持身份一致性和结构一致性的同时进行精确的面部属性编辑。

  • Motivation: 现有基于文本引导扩散模型的图像编辑方法在真实人脸编辑任务中难以保持ID和结构一致性,需要解决这一限制。
  • Method: 将人脸表征分解为ID和属性特征,作为联合条件指导反演和反向扩散过程,实现ID和属性的独立控制。
  • Result: 方法支持仅使用文本提示进行复杂多属性人脸编辑,无需区域特定输入,运行速度与DDIM反演相当,实验证明其实用性和有效性。
  • Conclusion: 该方法在保持身份一致性和结构一致性的同时,实现了精确的面部属性编辑,为文本引导的人脸编辑提供了有效解决方案。

[150] LSVOS 2025 Challenge Report: Recent Advances in Complex Video Object Segmentation

Chang Liu,Henghui Ding,Kaining Ying,Lingyi Hong,Ning Xu,Linjie Yang,Yuchen Fan,Mingqi Gao,Jingkun Chen,Yunqi Miao,Gengshen Wu,Zhijin Qin,Jungong Han,Zhixiong Zhang,Shuangrui Ding,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Jiaqi Wang,Chang Soo Lim,Joonyoung Moon,Donghyeon Cho,Tingmin Li,Yixuan Li,Yang Yang,An Yan,Leilei Cao,Feng Lu,Ran Hong,Youhai Jiang,Fengjie Zhu,Yujie Xie,Hongyang Zhang,Zhihui Liu,Shihai Ruan,Quanzhu Niu,Dengxian Gong,Shihao Chen,Tao Zhang,Yikang Zhou,Haobo Yuan,Lu Qi,Xiangtai Li,Shunping Ji,Ran Hong,Feng Lu,Leilei Cao,An Yan,Alexey Nekrasov,Ali Athar,Daan de Geus,Alexander Hermans,Bastian Leibe

Main category: cs.CV

TL;DR: 本文介绍了ICCV 2025第7届大规模视频目标分割挑战赛,新增了Complex VOS (MOSEv2)赛道,提升了难度并采用新评估指标J&Ḟ。

  • Motivation: 推动视频目标分割技术在现实复杂场景中的鲁棒性,超越精心设计的基准测试,应对更真实的挑战。
  • Method: 挑战赛包含三个赛道:传统VOS、RVOS和新引入的MOSEv2,后者增加了密集小目标、频繁消失重现、严重遮挡、恶劣天气等复杂场景。
  • Result: 总结了数据集和协议,突出了顶级解决方案,提炼出LLM/MLLM组件和内存感知传播等新兴趋势。
  • Conclusion: 为野外环境下的弹性、语言感知视频分割技术指明了未来发展方向。

[151] ROFI: A Deep Learning-Based Ophthalmic Sign-Preserving and Reversible Patient Face Anonymizer

Yuan Tian,Min Zhou,Yitong Chen,Fang Li,Lingzi Qi,Shuo Wang,Xieyang Xu,Yu Yu,Shiqiong Xu,Chaoyu Lei,Yankai Jiang,Rongzhao Zhang,Jia Tan,Li Wu,Hong Chen,Xiaowei Liu,Wei Lu,Lin Li,Huifang Zhou,Xuefei Song,Guangtao Zhai,Xianqun Fan

Main category: cs.CV

TL;DR: ROFI是一个基于深度学习的眼科隐私保护框架,通过弱监督学习和神经身份转换,在匿名化面部特征的同时保留疾病特征,实现隐私保护与医疗诊断的平衡。

  • Motivation: 患者面部图像为评估眼病提供了便利,但也引发了隐私担忧,需要在保护患者隐私的同时维持医疗诊断的准确性。
  • Method: 采用弱监督学习和神经身份转换技术,匿名化面部特征但保留疾病相关特征。
  • Result: 在三个队列的11种眼病中实现100%诊断敏感性和高一致性(κ>0.90),匿名化超过95%的图像,与AI系统兼容且保持原始诊断(κ>0.80),支持安全图像反转(相似度>98%)。
  • Conclusion: ROFI在数字医疗时代有效保护患者隐私,同时支持审计和长期护理需求。

[152] Source-Free Object Detection with Detection Transformer

Huizai Yao,Sicheng Zhao,Shuo Lu,Hui Chen,Yangyang Li,Guoping Liu,Tengfei Xing,Chenggang Yan,Jianhua Tao,Guiguang Ding

Main category: cs.CV

TL;DR: FRANCK是一个专门为DETR设计的源自由目标检测框架,通过特征重加权和对比学习来增强查询特征,在无需源数据的情况下实现知识迁移。

  • Motivation: 现有的源自由目标检测方法要么局限于传统检测模型如Faster R-CNN,要么缺乏针对新型DETR架构的专门适配,需要专门为DETR设计SFOD解决方案。
  • Method: 包含四个关键组件:基于目标性得分的样本重加权、基于匹配记忆库的对比学习、不确定性加权的查询融合特征蒸馏,以及改进的自训练流水线。
  • Result: 在多个基准测试上达到最先进性能,证明了其有效性和与DETR基SFOD模型的兼容性。
  • Conclusion: FRANCK能够有效地将源预训练的DETR模型适配到目标域,具有增强的鲁棒性和泛化能力。

[153] Text-Enhanced Panoptic Symbol Spotting in CAD Drawings

Xianlin Liu,Yan Gong,Bohao Li,Jiajing Huang,Bowen Du,Junchen Ye,Liyan Xu

Main category: cs.CV

TL;DR: 提出了一种结合文本标注的全景符号检测框架,通过联合建模几何和文本基元,使用Transformer骨干网络和类型感知注意力机制,在CAD图纸符号检测任务中优于现有方法。

  • Motivation: 现有CAD图纸符号检测方法主要关注几何基元,忽略了丰富的文本标注信息,且缺乏对基元间关系的显式建模,导致对图纸的整体理解不够全面。
  • Method: 构建几何和文本基元的统一表示,使用预训练CNN提取视觉特征作为初始表示,采用基于Transformer的骨干网络,并增强类型感知注意力机制来显式建模不同类型基元间的空间依赖关系。
  • Result: 在真实数据集上的实验表明,该方法在涉及文本标注的符号检测任务中优于现有方法,并在复杂CAD图纸中表现出更强的鲁棒性。
  • Conclusion: 提出的框架通过整合文本标注和显式建模基元关系,显著提升了CAD图纸符号检测的性能和鲁棒性。

[154] Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Bozhou Zhang,Nan Song,Jingyu Li,Xiatian Zhu,Jiankang Deng,Li Zhang

Main category: cs.CV

TL;DR: SeerDrive是一个端到端自动驾驶框架,通过联合建模未来场景演化和轨迹规划,在闭环中实现未来感知的轨迹规划。

  • Motivation: 现有端到端自动驾驶方法通常依赖当前场景上下文,低估了场景动态性和时间演化的重要性,限制了在复杂驾驶场景中做出适应性决策的能力。
  • Method: 提出SeerDrive框架,包含两个关键组件:(1) 未来感知规划,将预测的BEV特征注入轨迹规划器;(2) 迭代场景建模和车辆规划,通过协作优化同时优化未来场景预测和轨迹生成。
  • Result: 在NAVSIM和nuScenes基准测试上的广泛实验表明,SeerDrive显著优于现有最先进方法。
  • Conclusion: 自动驾驶车辆的未来轨迹与环境动态演化密切相关,双向建模这种关系可以显著提升轨迹规划性能。

[155] CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization

Fengling Zhu,Boshi Liu,Jingyu Hua,Sheng Zhong

Main category: cs.CV

TL;DR: 提出了一种基于监督扩散的去噪框架,用于防御多模态大语言模型的视觉对抗攻击,通过配对对抗-干净图像数据集微调扩散模型,并结合提示优化增强防御能力。

  • Motivation: 多模态大语言模型容易受到对抗攻击,现有防御方法如对抗训练和输入净化存在计算成本高、图像质量下降和泛化能力不足等问题。
  • Method: 使用配对对抗-干净图像数据集微调扩散模型,结合任务特定指导进行监督去噪,并集成提示优化作为补充防御机制。
  • Result: 在图像描述和视觉问答任务上的实验表明,该方法显著提高了鲁棒性,并对未知对抗攻击具有良好的迁移性。
  • Conclusion: 监督扩散去噪为多模态防御提供了有效解决方案,有助于多模态大语言模型在现实应用中的可靠和安全部署。

[156] Compositional Zero-Shot Learning: A Survey

Ans Munir,Faisal Z. Qureshi,Mohsen Ali,Muhammad Haris Khan

Main category: cs.CV

TL;DR: 这是第一篇专门针对组合零样本学习的全面综述论文,系统回顾了该领域的最新方法,提出了基于解缠的分类法,并分析了不同方法在闭世界和开世界场景下的优缺点。

  • Motivation: 组合零样本学习是计算机视觉中的重要任务,能够识别已知属性和对象在未见过的组合情况。由于原始特征的视觉表现具有高度上下文依赖性,有效建模这种上下文性和组合性对于鲁棒的组合零样本识别至关重要。
  • Method: 提出了基于解缠的分类法,将方法分为四类:无显式解缠、文本解缠、视觉解缠和跨模态解缠。对每种方法进行了详细的比较分析,突出了它们在不同问题设置下的核心优势和局限性。
  • Result: 提供了该领域的系统综述和分类框架,识别了主要挑战和未来研究方向,为研究人员提供了基础资源来指导和启发该领域的进一步发展。
  • Conclusion: 这篇综述论文为组合零样本学习领域提供了首个全面的调研,通过系统分类和比较分析,为该重要且迷人的研究领域奠定了坚实基础,并指明了未来的发展方向。

[157] MoMaps: Semantics-Aware Scene Motion Generation with Motion Maps

Jiahui Lei,Kyle Genova,George Kopanas,Noah Snavely,Leonidas Guibas

Main category: cs.CV

TL;DR: 提出一种像素对齐的运动图(MoMap)表示方法,从单张图像预测3D场景运动,并构建大规模MoMap数据库训练扩散模型,实现语义一致的3D运动生成。

  • Motivation: 从真实世界视频中学习语义和功能上有意义的3D运动先验,以支持从单张输入图像预测未来3D场景运动。
  • Method: 提出像素对齐的MoMap表示,从5万多真实视频构建大规模MoMap数据库,训练扩散模型进行运动生成,并提出新的2D视频合成流程。
  • Result: 实验结果表明该方法能够生成合理且语义一致的3D场景运动。
  • Conclusion: MoMap表示和基于扩散模型的运动生成方法能够有效预测3D场景运动,并为2D视频合成提供了新思路。

[158] Multimodal Disease Progression Modeling via Spatiotemporal Disentanglement and Multiscale Alignment

Chen Liu,Wenfang Yao,Kejing Yin,William K. Cheung,Jing Qin

Main category: cs.CV

TL;DR: DiPro框架通过区域感知解耦和多时间尺度对齐,解决了纵向多模态数据中CXR序列冗余和与EHR数据时间不对齐的问题,在疾病进展识别和ICU预测任务上达到最先进性能。

  • Motivation: 纵向多模态数据(包括电子健康记录和连续胸部X光片)对于疾病进展建模至关重要,但由于两个关键挑战而未被充分利用:(1) 连续CXR序列中的冗余,静态解剖区域主导了临床意义的动态变化;(2) 稀疏、不规则成像与连续EHR数据之间的时间不对齐。
  • Method: DiPro框架通过区域感知解耦将CXR序列中的静态(解剖)和动态(病理进展)特征分离,优先考虑疾病相关变化;然后通过局部(成对间隔级)和全局(全序列)同步,分层对齐这些CXR特征与异步EHR数据,以建模一致的进展路径。
  • Result: 在MIMIC数据集上的广泛实验表明,DiPro能够有效提取时间临床动态,在疾病进展识别和一般ICU预测任务上均达到最先进性能。
  • Conclusion: DiPro框架成功解决了纵向多模态数据集成中的关键挑战,为疾病进展建模提供了有效的解决方案。

[159] Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning

Hao Tang,Shengfeng He,Jing Qin

Main category: cs.CV

TL;DR: 提出SynTrans框架,通过从大型多模态模型转移多样化互补知识来增强现成的少样本学习器,显著提升少样本分类性能

  • Motivation: 现有方法利用小规模模型的语义知识来解决少样本学习中的数据稀缺问题,但这些方法常因数据简单性引入噪声和偏差
  • Method: 使用CLIP作为强教师模型,少样本视觉编码器作为弱学生模型,通过无监督代理任务蒸馏语义对齐的视觉知识;包含训练自由的协同知识挖掘模块、视觉-语义桥接模块、视觉权重生成器和语义权重重构器
  • Result: 在四个少样本学习数据集上的实验表明,即使搭配简单的少样本视觉编码器,SynTrans也显著优于当前最先进方法
  • Conclusion: SynTrans框架通过有效转移大型多模态模型的多样化互补知识,成功解决了少样本学习中的挑战

[160] Demystifying Numerosity in Diffusion Models -- Limitations and Remedies

Yaqi Zhao,Xiaochen Wang,Li Dong,Wentao Zhang,Yuhui Yuan

Main category: cs.CV

TL;DR: 扩散模型在遵循文本提示中的计数指令方面存在困难,仅通过扩大数据集和模型规模无法解决该问题。研究发现模型过度依赖噪声初始化而非文本提示中的明确数量,并提出通过注入计数感知布局信息到噪声先验中的有效策略。

  • Motivation: 研究扩散模型是否能够仅通过扩大数据集和模型规模来准确生成文本提示中指定的对象数量,因为现有模型在计数准确性方面表现不佳。
  • Method: 构建了两个互补的合成计数基准数据集:GrayCount250用于控制缩放研究,NaturalCount6用于复杂自然场景。分析了扩散模型对噪声初始化的依赖,并提出通过注入计数感知布局信息到噪声先验中的方法来控制数量。
  • Result: 缩放假设不成立:更大的模型和数据集无法提高计数准确性。提出的方法在GrayCount250上准确率从20.0%提升到85.3%,在NaturalCount6上从74.8%提升到86.3%。
  • Conclusion: 仅靠扩大模型和数据规模无法解决扩散模型的计数问题,但通过控制噪声先验中的布局信息可以显著提高计数准确性,该方法在不同设置下具有良好的泛化能力。

[161] video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory

Guangzhi Sun,Yixuan Li,Xiaodong Wu,Yudong Yang,Wei Li,Zejun Ma,Chao Zhang

Main category: cs.CV

TL;DR: 提出了video-SALMONN S,首个能在固定内存预算下处理3小时视频(1 FPS,360p分辨率)的流式视听大语言模型,通过测试时训练内存模块和提示相关内存读取器实现长视频理解。

  • Motivation: 当前视频理解LLM难以扩展处理长视频流,离线方法需要调整帧率,流式方法会丢失信息。需要开发能在固定内存下连续处理长视频的方法。
  • Method: 引入测试时训练(TTT)内存模块持续更新token表示来捕获长程依赖,替代token合并;使用提示相关内存读取器从固定大小内存中选择性检索相关内容;采用Hessian-free共轭梯度优化TTT模块。
  • Result: 在长视频基准测试(Video-MME、LVBench、VideoEvalPro)上,video-SALMONN S能在1万个帧和100万个token的多小时视频上保持高质量理解。8B参数模型在Video-MME长分割上达到74.2%总体和67.8%的分数,优于离线和流式基线。
  • Conclusion: video-SALMONN S是首个能在固定内存预算下处理3小时长视频的流式视听LLM,通过创新的内存管理方法解决了长视频处理的扩展性问题。

[162] Validation of an Artificial Intelligence Tool for the Detection of Sperm DNA Fragmentation Using the TUNEL In Situ Hybridization Assay

Byron Alexander Jacobs,Aqeel Morris,Ifthakaar Shaik,Frando Lin

Main category: cs.CV

TL;DR: 开发了一种基于人工智能的形态辅助集成模型,通过相位对比显微镜图像检测精子DNA碎片化,使用TUNEL检测作为金标准,实现了60%的灵敏度和75%的特异性。

  • Motivation: 传统精液分析无法评估精子DNA碎片化这一关键男性生育力参数,需要开发非破坏性的实时检测方法用于生殖医学临床诊断和治疗。
  • Method: 提出形态辅助集成AI模型,结合图像处理技术和基于transformer的机器学习模型(GC-ViT),从相位对比图像预测DNA碎片化,并与纯视觉transformer模型和仅形态模型进行基准比较。
  • Result: 所提出的框架能够达到60%的灵敏度和75%的特异性,显示出有前景的结果。
  • Conclusion: 这种非破坏性方法代表了生殖医学的重要进展,能够基于DNA完整性实现实时精子选择,用于临床诊断和治疗应用。

[163] Multiview Manifold Evidential Fusion for PolSAR Image Classification

Junfei Shi,Haojia Zhang,Haiyan Jin,Junhuai Li,Xiaogang Song,Yuanfan Guo,Haonan Su,Weisi Lin

Main category: cs.CV

TL;DR: 提出MMEFnet方法,在流形空间中融合PolSAR协方差矩阵和多特征,通过证据理论量化不确定性,实现更可靠可解释的分类

  • Motivation: 传统融合方法忽视协方差矩阵和多特征位于不同流形结构,且忽略视图重要性差异和不确定性,导致预测不可靠
  • Method: 将协方差矩阵建模在HPD流形,多特征建模在Grassmann流形,构建核度量学习网络学习流形表示,使用证据融合替代softmax分类器,基于Dempster-Shafer理论融合证据
  • Result: 在三个真实PolSAR数据集上的实验表明,该方法在准确性、鲁棒性和可解释性方面均优于现有方法
  • Conclusion: MMEFnet成功将PolSAR流形学习与证据融合统一,实现了更可靠、可解释的多视图分类

[164] CoPRS: Learning Positional Prior from Chain-of-Thought for Reasoning Segmentation

Zhenyu Lu,Liupeng Li,Jinpeng Wang,Yan Feng,Bin Chen,Ke Chen,Yaowei Wang

Main category: cs.CV

TL;DR: CoPRS是一个基于多模态思维链的定位感知模型,通过可微分的热图将语言推理与分割任务连接起来,提高了可解释性并生成更精确的分割掩码。

  • Motivation: 现有方法直接将语言模型的隐藏特征连接到掩码解码器或表示文本位置,限制了可解释性和语义细节。需要一种更清晰的方法来连接推理和分割。
  • Method: 使用可学习的集中令牌聚合图像和推理文本特征,生成可微分的热图作为位置先验,通过轻量级解码器解码为精确掩码。
  • Result: 在RefCOCO系列和ReasonSeg数据集上,CoPRS达到或超过了最佳报告指标,验证集和测试集性能均达到或优于先前最先进方法。
  • Conclusion: 热图质量强烈影响掩码质量,支持推理输出与下游掩码生成之间的一致关联,证明了该范式在连接推理和分割方面的实用性。

[165] Reliable Cross-modal Alignment via Prototype Iterative Construction

Xiang Ma,Litian Xu,Lexin Fang,Caiming Zhang,Lizhen Cui

Main category: cs.CV

TL;DR: 提出PICO框架,通过量化特征列表示语义信息的概率作为嵌入交互权重,抑制风格信息干扰,提升跨模态对齐性能

  • Motivation: 传统方法假设嵌入仅包含语义信息,忽略了风格信息在跨模态对齐中的干扰,导致信息偏差或丢失
  • Method: 提出原型迭代构建方法,使用基于性能反馈的加权函数为原型分配权重,量化特征列的语义概率作为嵌入交互权重
  • Result: 在多个基准测试和模型骨干上,PICO比最先进方法提升5.2%-14.1%
  • Conclusion: PICO通过有效抑制风格干扰,显著提升了跨模态对齐性能,证明了语义-风格解耦的重要性

[166] G2L:From Giga-Scale to Cancer-Specific Large-Scale Pathology Foundation Models via Knowledge Distillation

Yesung Cho,Sungmin Lee,Geongyu Lee,Minkyung Lee,Jongbae Park,Dongmyung Shin

Main category: cs.CV

TL;DR: 提出G2L框架,通过知识蒸馏将千亿参数病理基础模型的能力转移到仅15%参数的大规模模型上,仅需1000张目标癌症病理切片即可达到千亿级模型性能水平。

  • Motivation: 千亿级病理基础模型虽然性能优越,但计算成本过高,难以在实际应用中部署。需要找到一种参数和数据高效的方法来达到类似性能。
  • Method: 使用知识蒸馏技术,将千亿级教师模型的能力转移到仅15%参数的大规模学生模型上,仅需1000张目标癌症病理切片进行蒸馏训练。
  • Result: 蒸馏后的大规模模型不仅超越了同规模的最先进模型,在某些基准测试中甚至超过了千亿级教师模型和更大规模的模型,同时表现出更高的鲁棒性指数。
  • Conclusion: 提出的蒸馏方法是一种参数和数据高效的方式,可以在不产生过高计算负担的情况下,为癌症特定应用实现千亿级模型性能。

[167] BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models

Bryan Chen Zhengyu Tan,Zheng Weihua,Zhengyuan Liu,Nancy F. Chen,Hwaran Lee,Kenny Tsu Wei Choo,Roy Ka-Wei Lee

Main category: cs.CV

TL;DR: BLEnD-Vis是一个多模态、多文化基准测试,用于评估视觉语言模型在日常文化知识方面的鲁棒性,涵盖语言重构和视觉模态。

  • Motivation: 随着视觉语言模型在全球部署,评估其理解文化背景知识的能力变得至关重要。现有评估主要关注静态回忆或孤立视觉基础,未能验证模型是否具备鲁棒且可迁移的文化理解能力。
  • Method: 基于BLEnD数据集构建313个文化基础问题模板,涵盖16个地区,生成三种对齐的多选题格式:文本基线(地区→实体)、倒置文本(实体→地区)和VQA风格版本(含生成图像)。最终包含4,916张图像和21,000多个多选题实例,并通过人工标注验证。
  • Result: BLEnD-Vis揭示了当前VLM文化知识的显著脆弱性:模型在语言重构下性能下降,虽然视觉线索通常有助于提升性能,但低跨模态一致性突显了在鲁棒整合文本和视觉理解方面的挑战,特别是在资源较少地区。
  • Conclusion: BLEnD-Vis为系统分析文化鲁棒性和多模态基础提供了关键测试平台,暴露了现有模型的局限性,并指导开发更具文化能力的视觉语言模型。

[168] Saudi Sign Language Translation Using T5

Ali Alhejab,Tomas Zelezny,Lamya Alkanhal,Ivan Gruber,Yazeed Alharbi,Jakub Straka,Vaclav Javorek,Marek Hruz,Badriah Alkalifah,Ahmed Ali

Main category: cs.CV

TL;DR: 该论文研究了使用T5模型进行沙特手语翻译,通过预训练在YouTubeASL数据集上的模型显著提升了沙特手语翻译性能(BLEU-4分数提高约3倍),证明了手语模型的跨语言迁移能力。

  • Motivation: 探索沙特手语翻译的挑战,特别是面部遮盖等独特特征对识别和翻译的影响,并研究利用大规模美国手语数据来改进沙特手语翻译的可能性。
  • Method: 使用T5模型进行沙特手语翻译,比较了在YouTubeASL数据集上预训练的模型与直接在沙特手语数据集上训练的模型性能。
  • Result: 实验结果显示,在YouTubeASL上预训练的模型性能显著优于直接训练的模型,BLEU-4分数提高了约3倍,证明了跨语言迁移的有效性。
  • Conclusion: 利用大规模美国手语数据进行预训练可以有效提升沙特手语翻译性能,为开发更有效的手语翻译系统提供了重要见解。

[169] FlexAC: Towards Flexible Control of Associative Reasoning in Multimodal Large Language Models

Shengming Yuan,Xinyu Lyu,Shuailong Wang,Beitao Chen,Jingkuan Song,Lianli Gao

Main category: cs.CV

TL;DR: 提出了FlexAC框架,通过控制多模态大语言模型的联想推理强度,在忠实性和创造性之间实现灵活平衡。

  • Motivation: 现有方法缺乏调节联想推理强度的灵活性,限制了MLLMs在事实性和创造性场景中的适应性。
  • Method: FlexAC框架通过诱导幻觉引导的中间表示来编码联想方向,选择高联想实例构建有效的联想引导向量,并自适应校准强度以平衡创造性引导和输出稳定性。
  • Result: 在Creation-MMBench上实现创造力提升5.8倍,在CHAIR上幻觉率降低29%,优于现有基线方法。
  • Conclusion: FlexAC能够有效调节MLLMs的联想行为,在忠实性和创造性之间实现灵活控制。

[170] Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos

Rohit Gupta,Anirban Roy,Claire Christensen,Sujeong Kim,Sarah Gerard,Madeline Cincebeaux,Ajay Divakaran,Todd Grindal,Mubarak Shah

Main category: cs.CV

TL;DR: 提出了一种基于对比学习的多模态方法,用于检测在线视频中的教育内容,特别是识字和数学类内容。

  • Motivation: 随着儿童在线媒体消费增长,需要数据驱动工具来筛选适合幼儿的教育内容。
  • Method: 使用基于类原型的监督对比学习方法,结合多模态transformer网络捕捉视觉和音频线索的交互。
  • Result: 在APPROVE数据集(193小时专家标注视频)上表现优于YouTube-8M和COIN等基准方法。
  • Conclusion: 该方法能有效识别视频中的细粒度教育内容,为教育内容筛选提供了实用工具。

[171] Investigating Identity Signals in Conversational Facial Dynamics via Disentangled Expression Features

Masoumeh Chapariniya,Pierre Vuillecard,Jean-Marc Odobez,Volker Dellwo,Teodora Vukovic

Main category: cs.CV

TL;DR: 该研究证明仅通过面部表情的动态成分就能识别个人身份,独立于静态面部外观。使用FLAME 3D模型分离面部形状和表情动态,在1,429人的数据集上达到61.14%的识别准确率。

  • Motivation: 探究面部表情动态是否包含独特的个人身份特征,独立于静态面部外观,这对社交感知和临床评估具有重要意义。
  • Method: 使用FLAME 3D可变形模型分离面部形状和表情动态参数,保留表情和下颌系数。采用Conformer模型和监督对比学习方法进行1,429路分类。
  • Result: 在CANDOR数据集上达到61.14%的识别准确率(458倍于随机概率),证明面部动态携带强身份特征。引入漂移噪声比(DNR)量化形状-表情分离可靠性。
  • Conclusion: 会话面部动态包含个人特异性签名,形状估计的不稳定性会影响动态识别性能,这对社交感知和临床评估有重要启示。

[172] LightPneumoNet: Lightweight Pneumonia Classifier

Neilansh Chauhan,Piyush Kumar Gupta,Faraz Doja

Main category: cs.CV

TL;DR: LightPneumoNet是一个轻量级CNN模型,专门用于在资源受限环境下从胸部X光片检测肺炎,仅38.8万参数,内存占用1.48MB,在测试集上达到94.2%准确率和99%敏感度。

  • Motivation: 解决在资源有限环境中部署大型深度学习模型进行肺炎诊断的困难,提供可访问且准确的诊断解决方案。
  • Method: 使用自定义CNN架构,包含四个卷积块,仅388,082个可训练参数。预处理包括图像调整到224x224、灰度转换、像素归一化,以及数据增强(旋转、缩放、剪切)来防止过拟合。
  • Result: 在独立测试集上表现优异:总体准确率0.942,精确率0.92,F1分数0.96,敏感度(召回率)0.99,几乎完美识别真实肺炎病例并最小化临床显著假阴性。
  • Conclusion: LightPneumoNet的高效性使其能够在低成本硬件上部署,为服务不足的诊所提供先进的计算机辅助诊断,作为可靠的第二意见工具改善患者预后。

[173] Nepali Sign Language Characters Recognition: Dataset Development and Deep Learning Approaches

Birat Poudel,Satyam Ghimire,Sijan Bhattarai,Saurav Bhandari,Suramya Sharma Dahal

Main category: cs.CV

TL;DR: 该研究创建了首个尼泊尔手语(NSL)基准数据集,包含36个手势类别,每类1500个样本,并使用MobileNetV2和ResNet50模型分别达到90.45%和88.78%的分类准确率。

  • Motivation: 为听力言语障碍人士提供重要沟通系统的手语,特别是像尼泊尔手语这样的代表性不足语言,其数字语言数据集资源仍然稀缺。
  • Method: 构建了首个NSL基准数据集,包含36个手势类别,每类1500个样本,并微调MobileNetV2和ResNet50架构进行手势识别。
  • Result: MobileNetV2和ResNet50在数据集上分别达到90.45%和88.78%的分类准确率,证明了卷积神经网络在手势识别任务中的有效性。
  • Conclusion: 这项工作代表了首个系统性的努力,为NSL识别构建基准数据集并评估深度学习方法,突出了迁移学习和微调在推进未充分探索手语研究中的潜力。

[174] DTEA: Dynamic Topology Weaving and Instability-Driven Entropic Attenuation for Medical Image Segmentation

Weixuan Li,Quanjun Li,Guang Yu,Song Yang,Zimeng Li,Chi-Man Pun,Yupeng Liu,Xuhang Chen

Main category: cs.CV

TL;DR: 提出DTEA模型,通过语义拓扑重构和熵扰动门控模块改进医学图像分割中的跳跃连接,增强结构表示和上下文建模能力

  • Motivation: 现有医学图像分割方法在结构表示和上下文建模方面存在不足,影响在复杂临床场景中的泛化能力
  • Method: DTEA模型包含语义拓扑重构模块和熵扰动门控模块,前者将多尺度语义特征重组为动态超图以建模跨分辨率解剖依赖,后者通过扰动评估通道稳定性并过滤高熵通道
  • Result: 在三个基准数据集上的实验表明,该框架实现了优越的分割精度和更好的跨临床场景泛化能力
  • Conclusion: DTEA模型通过改进的跳跃连接框架有效提升了医学图像分割的性能和泛化能力

[175] A Large-Language-Model Assisted Automated Scale Bar Detection and Extraction Framework for Scanning Electron Microscopic Images

Yuxuan Chen,Ruotong Yang,Zhengyang Zhang,Mehreen Ahmed,Yanming Wang

Main category: cs.CV

TL;DR: 提出一个多模态自动化尺度条检测框架,结合目标检测、文本识别和LLM代理,显著提高SEM图像分析的效率和准确性。

  • Motivation: 解决SEM图像中尺度条检测依赖人工操作的问题,该方法耗时且易出错,需要自动化解决方案。
  • Method: 四阶段框架:自动数据集生成、尺度条目标检测、混合OCR系统信息提取、LLM代理结果验证。
  • Result: 目标检测精度100%、召回率95.8%、mAP 99.2%(IoU=0.5);OCR系统精度89%、召回率65%、F1分数75%,优于主流引擎。
  • Conclusion: 该自动化方法显著提升了SEM图像尺度条检测的效率和准确性,为科学图像分析提供了有价值的工具。

[176] Exploring and Leveraging Class Vectors for Classifier Editing

Jaeik Kim,Jaeyoung Do

Main category: cs.CV

TL;DR: 本文提出了Class Vectors方法,通过在潜在空间中捕获类别特定的表示调整,实现图像分类器的灵活编辑,包括类别遗忘、环境适应等应用。

  • Motivation: 现有分类器编辑方法要么局限于错误修正,要么需要大量重新训练成本,难以实现灵活编辑。图像分类中的编辑研究也相对有限。
  • Method: 引入Class Vectors,在微调过程中捕获类别特定的表示调整。这些向量在潜在空间中解耦每个类别的适应,可通过特征引导或权重空间映射来更新决策边界。
  • Result: Class Vectors能够捕获每个类别的语义偏移,其固有的线性和正交性支持通过简单的类别算术实现高效、灵活的高层概念编辑。
  • Conclusion: Class Vectors为图像分类器编辑提供了有效的解决方案,在遗忘学习、环境适应、对抗防御等应用中展现出实用价值。

[177] EEMS: Edge-Prompt Enhanced Medical Image Segmentation Based on Learnable Gating Mechanism

Han Xia,Quanjun Li,Qian Li,Zimeng Li,Hongbin Ye,Yupeng Liu,Haolun Li,Xuhang Chen

Main category: cs.CV

TL;DR: 提出了EEMS模型用于医学图像分割,结合边缘感知增强和多尺度提示生成,通过双源自适应门控融合提升分割精度和鲁棒性。

  • Motivation: 医学图像分割面临模糊边缘和背景噪声等复杂因素的挑战,需要更精确的边界定义和目标定位方法。
  • Method: 使用边缘感知增强单元(EAEU)进行多频特征提取增强边缘感知,多尺度提示生成单元(MSPGU)整合高层语义和低层空间特征,双源自适应门控融合单元(DAGFU)融合边缘和语义特征。
  • Result: 在ISIC2018等数据集上的测试证实了EEMS模型的优越性能和作为临床工具的可靠性。
  • Conclusion: EEMS模型通过创新的边缘感知和多尺度特征融合机制,显著提升了医学图像分割的准确性和鲁棒性。

[178] Human Uncertainty-Aware Data Selection and Automatic Labeling in Visual Question Answering

Jian Lan,Zhicheng Liu,Udo Schlegel,Raoyuan Zhao,Yihong Liu,Hinrich Schütze,Michael A. Hedderich,Thomas Seidl

Main category: cs.CV

TL;DR: HaDola是一个人类不确定性感知的数据选择和自动标注框架,通过四个阶段迭代识别有害样本、优先选择信息丰富的样本,并使用少量种子数据自举训练,显著减少对昂贵人工标注的依赖。

  • Motivation: 现实世界数据集通常存在人类不确定性(HU)——不同标注者置信度的差异,但标准的监督微调仅优化最频繁标签,忽视了HU分布。这引发了两个问题:HU如何影响SFT,以及如何在训练中有效利用HU。
  • Method: HaDola框架包含四个阶段:区分、自标注、错误触发和训练,通过迭代识别有害样本、优先选择信息丰富的样本,并使用5%的种子数据自举训练。
  • Result: 在VQAv2和VizWiz数据集上的广泛实验表明,HaDola在更少训练数据的情况下持续匹配或优于最先进的基线方法,使VLMs更准确且校准更好。
  • Conclusion: 研究强调了在SFT中显式建模HU的重要性,表明更好地利用HU比单纯扩大数据集规模更有效。

[179] ΔEnergy: Optimizing Energy Change During Vision-Language Alignment Improves both OOD Detection and OOD Generalization

Lin Zhu,Yifeng Yang,Xinbing Wang,Qinying Gu,Nanyang Ye

Main category: cs.CV

TL;DR: 提出了一种名为ΔEnergy的新型OOD检测分数,通过最大化其下界(EBM)同时提升OOD检测和泛化能力,在多个基准测试中显著优于现有方法。

  • Motivation: 现实应用中VLM会遇到分布内(ID)和分布外(OOD)数据,其中OOD包含协变量偏移和语义偏移。需要同时提升对协变量偏移OOD的泛化能力,并有效检测语义偏移的OOD类别。
  • Method: 基于视觉-语言模态重新对齐时观察到的能量显著变化,提出ΔEnergy OOD分数,并通过下界最大化(EBM)构建统一微调框架。
  • Result: 在具有挑战性的OOD检测和泛化基准测试中,AUROC指标比现有方法提升10%到25%。
  • Conclusion: ΔEnergy和EBM框架为VLM提供了统一的解决方案,同时显著提升了OOD检测和泛化性能,理论分析表明该方法能产生域一致的Hessian矩阵。

[180] When Does Supervised Training Pay Off? The Hidden Economics of Object Detection in the Era of Vision-Language Models

Samer Al-Hamadani

Main category: cs.CV

TL;DR: 该论文首次对监督学习检测器(YOLO)和零样本视觉语言模型(Gemini)进行成本效益分析,建立了架构选择的定量平衡点阈值。

  • Motivation: 传统监督检测需要大量标注成本,而零样本VLM无需标注但精度较低,需要系统比较两者的成本效益以指导实际部署选择。
  • Method: 在1000张分层COCO图像和200张多样化产品图像上进行系统评估,结合详细的总拥有成本建模,分析两种方法的准确性和成本。
  • Result: 监督YOLO准确率91.2%,零样本Gemini准确率68.5%,但Gemini在成本效益上优势明显,每正确检测成本$0.00050 vs $0.143。平衡点在5500万次推理。
  • Conclusion: 最优架构选择取决于部署量、类别稳定性、预算约束和精度要求,而非单纯技术性能指标。

[181] sketch2symm: Symmetry-aware sketch-to-shape generation via semantic bridging

Yan Zhou,Mingji Li,Xiantao Zeng,Jie Lin,Yuexia Zhou

Main category: cs.CV

TL;DR: 提出Sketch2Symm方法,通过语义桥接和对称约束从稀疏草图生成几何一致的3D形状

  • Motivation: 解决基于草图的3D重建中因草图抽象稀疏而缺乏足够语义和几何信息的问题
  • Method: 两阶段生成方法:通过草图到图像翻译进行语义桥接,并引入对称约束作为几何先验
  • Result: 在主流草图数据集上相比现有方法在Chamfer距离、Earth Mover距离和F-Score指标上表现更优
  • Conclusion: 验证了语义桥接和对称感知设计的有效性

[182] Evaluating the effects of preprocessing, method selection, and hyperparameter tuning on SAR-based flood mapping and water depth estimation

Jean-Paul Travert,Cédric Goeury,Sébastien Boyaval,Vito Bacchi,Fabrice Zaoui

Main category: cs.CV

TL;DR: 本研究评估了SAR影像预处理、洪水制图和水深估计方法对洪水模拟的影响,发现方法选择和超参数调整对结果有显著影响,建议采用集成方法而非单一配置。

  • Motivation: 洪水制图和水深估计对水文模型校准验证至关重要,但现有方法选择对结果影响尚不明确,需要系统评估不同处理步骤的累积不确定性。
  • Method: 使用SAR影像,评估多种预处理(特别是斑点噪声抑制)、洪水制图和深度估计方法,考虑不同步骤方法选择和超参数的影响,采用集成方法分析,以法国加龙河2019和2021年洪水事件为案例。
  • Result: 斑点滤波器选择导致洪水范围估计变化达数平方公里;监督方法优于无监督方法,但调优的无监督方法(如局部阈值或变化检测)可达到相似效果;预处理和洪水制图步骤的累积不确定性导致水深估计高度可变。
  • Conclusion: 必须考虑整个处理流程(预处理、洪水制图、水深估计)及其超参数;应采用集成方法并考虑方法不确定性;洪水制图中方法选择影响最大,水深估计中洪水制图结果和超参数影响最大。

[183] REACT3D: Recovering Articulations for Interactive Physical 3D Scenes

Zhao Huang,Boyang Sun,Alexandros Delitzas,Jiaqi Chen,Marc Pollefeys

Main category: cs.CV

TL;DR: REACT3D是一个可扩展的零样本框架,可将静态3D场景转换为模拟就绪的交互式副本,包含可开启物体检测、关节估计、隐藏几何补全和交互场景集成等功能。

  • Motivation: 现有3D交互场景数据集由于手动标注部件分割、运动类型和轨迹的成本高昂而受限,需要一种可扩展的方法来自动生成交互式3D场景。
  • Method: 采用四步框架:可开启物体检测与分割、关节类型和运动参数估计、隐藏几何补全与交互对象组装、以及交互场景集成到标准模拟平台。
  • Result: 在多样室内场景中实现了检测/分割和关节度量的最先进性能,证明了框架的有效性。
  • Conclusion: REACT3D为可扩展交互场景生成提供了实用基础,降低了大规模关节场景理解研究的门槛。

[184] InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

Haomin Wang,Jinhui Yin,Qi Wei,Wenguang Zeng,Lixin Gu,Shenglong Ye,Zhangwei Gao,Yaohui Wang,Yanting Zhang,Yuanqi Li,Yanwen Guo,Wenhai Wang,Kai Chen,Yu Qiao,Hongjie Zhang

Main category: cs.CV

TL;DR: 提出了InternSVG框架,通过多模态大语言模型实现SVG的统一建模,包含数据集SAgoge、基准SArena和模型InternSVG,在SVG理解、编辑和生成任务上取得显著性能提升。

  • Motivation: 解决SVG建模面临的三个挑战:数据集碎片化、方法跨任务迁移性差、处理结构复杂性困难。
  • Method: 构建SAgoge数据集和SArena基准,提出InternSVG模型,采用SVG特定标记、子词嵌入初始化和两阶段训练策略。
  • Result: 在SArena和现有基准上的实验表明,InternSVG相比领先的开源和专有模型取得了显著性能增益。
  • Conclusion: 基于MLLM的统一建模方法能够实现SVG任务间的正向迁移,提升整体性能。

[185] MMAP: A Multi-Magnification and Prototype-Aware Architecture for Predicting Spatial Gene Expression

Hai Dang Nguyen,Nguyen Dang Huy Pham,The Minh Duc Nguyen,Dac Thai Nguyen,Hang Thi Nguyen,Duong M. Nguyen

Main category: cs.CV

TL;DR: 提出MMAP框架,通过多放大倍率补丁表示和原型增强架构,从H&E染色全切片图像预测空间基因表达,在多个评估指标上优于现有方法。

  • Motivation: 空间转录组学(ST)能保留空间信息测量基因表达,但现有方法存在局部特征提取粒度不足和全局空间上下文覆盖不充分的问题。
  • Method: MMAP框架使用多放大倍率补丁表示捕获细粒度组织学细节,并学习潜在原型嵌入作为切片级信息的紧凑表示。
  • Result: 在多个评估指标(MAE、MSE、PCC)上,MMAP始终优于所有现有最先进方法。
  • Conclusion: MMAP通过同时解决局部特征粒度和全局上下文覆盖的挑战,显著提升了从组织学图像预测空间基因表达的性能。

[186] Uncertainty-Aware ControlNet: Bridging Domain Gaps with Synthetic Image Generation

Joshua Niemeijer,Jan Ehrhardt,Heinz Handels,Hristina Uzunova

Main category: cs.CV

TL;DR: 提出一种在ControlNet中引入不确定性控制的方法,利用未标记域数据训练扩散模型,生成目标域带标签的合成数据,显著提升分割模型在域外数据上的性能。

  • Motivation: 现有ControlNet倾向于复制原始训练分布,增强效果有限。需要利用未标记域数据来创建目标域带标签的合成数据,解决域偏移问题。
  • Method: 在控制机制中引入不确定性概念,结合来自未标记数据集的不确定性控制和来自标记数据集的语义控制,训练能够生成目标域高不确定性标注数据的ControlNet。
  • Result: 在视网膜OCT和交通场景实验中,该方法显著改善了分割结果,无需额外监督即可处理大域偏移问题。
  • Conclusion: 不确定性引导方法优于风格迁移,无需严格学习图像风格即可实现任意域偏移,为域适应提供了有效解决方案。

[187] Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Shijie Zhao,Xuanyu Zhang,Weiqi Li,Junlin Li,Li Zhang,Tianfan Xue,Jian Zhang

Main category: cs.CV

TL;DR: 本文揭示了基于推理的图像质量评估模型通过强化学习实现泛化的机制,并提出了一种新的RALI算法,通过对比学习直接对齐图像与可泛化文本表示,在保持相似泛化性能的同时大幅降低计算开销。

  • Motivation: 基于推理的IQA模型虽然泛化能力强,但其推理能耗和延迟远高于早期模型,限制了实际部署。同时,这些模型通过强化学习实现泛化的具体机制尚未得到充分探索。
  • Method: 提出RALI算法,使用对比学习直接对齐图像与通过强化学习学到的可泛化文本表示,无需依赖推理过程或加载大型语言模型。
  • Result: RALI框架在质量评分任务中实现了与基于推理模型相当的泛化性能,同时仅需不到5%的模型参数和推理时间。
  • Conclusion: 通过揭示基于推理IQA模型的泛化机制,并开发高效的替代方案,为高质量图像质量评估的实际部署提供了可行路径。

[188] MaterialRefGS: Reflective Gaussian Splatting with Multi-view Consistent Material Inference

Wenyuan Zhang,Jimin Tang,Weiqi Zhang,Yi Fang,Yu-Shen Liu,Zhizhong Han

Main category: cs.CV

TL;DR: 提出一种基于多视角一致性的高斯泼溅反射建模方法,通过多视角一致材质推断和物理环境建模来准确学习反射效果,解决了现有方法在有限环境建模下的光照锯齿和泛化问题。

  • Motivation: 现有方法在高斯泼溅中增强反射相关材质属性时,由于材质推断缺乏足够约束(特别是在有限环境建模下),导致光照锯齿和泛化能力下降。
  • Method: 1) 强制2D高斯在延迟着色中产生多视角一致的材质图;2) 通过跟踪多视角光度变化识别高反射区域作为反射强度项的强先验;3) 引入基于2DGS光线追踪的环境建模策略处理间接光照。
  • Result: 在广泛使用的基准测试中,该方法忠实地恢复了光照和几何信息,在新视角合成中实现了最先进的渲染质量。
  • Conclusion: 多视角一致材质推断与更物理的环境建模是高斯泼溅中学习准确反射的关键,该方法在反射建模和渲染质量方面表现出色。

[189] DocReward: A Document Reward Model for Structuring and Stylizing

Junpeng Liu,Yuzhong Zhao,Bowen Cao,Jiayu Ding,Yilin Jia,Tengchao Lv,Yupan Huang,Shaohan Huang,Nan Yang,Li Dong,Lei Cui,Tao Ge,Xun Wang,Huitian Jiao,Sun Mao,FNU Kartik,Si-Qing Chen,Wai Lam,Furu Wei

Main category: cs.CV

TL;DR: 提出了DocReward文档奖励模型,专注于评估文档的结构和样式质量,解决了现有方法只关注文本质量而忽略视觉结构和样式的问题。

  • Motivation: 现有的智能体工作流主要关注文本质量,忽视了视觉结构和样式对文档可读性和吸引力的重要性,这主要是由于缺乏合适的奖励模型来指导生成具有良好结构和样式的文档。
  • Method: 构建了包含117K对文档的多领域数据集DocPair,涵盖32个领域和267种文档类型,每对文档内容相同但结构和样式不同。使用Bradley-Terry损失训练DocReward模型来对文档进行评分。
  • Result: DocReward在准确性上分别比GPT-4o和GPT-5高出30.6和19.4个百分点。在文档生成的外部评估中,DocReward获得了60.8%的胜率,显著高于GPT-5的37.7%。
  • Conclusion: DocReward能够有效评估文档的结构和样式质量,在指导生成智能体产生人类偏好的文档方面表现出色,优于现有基线模型。

[190] Robust Ego-Exo Correspondence with Long-Term Memory

Yijun Hu,Bing Fan,Xin Gu,Haiqing Ren,Dongfang Liu,Heng Fan,Libo Zhang

Main category: cs.CV

TL;DR: 提出了基于SAM 2的LM-EEC框架,通过双记忆架构和自适应特征路由模块解决自我-外部视角对应任务中的特征融合和长期记忆问题,在EgoExo4D基准测试中取得SOTA结果。

  • Motivation: 解决自我-外部视角对应任务中的极端视角变化、遮挡和小物体等挑战,现有方法在特征融合和长期记忆方面存在不足。
  • Method: 基于SAM 2构建LM-EEC框架,包含Memory-View MoE模块(双分支路由机制)和双记忆库系统(压缩策略),实现自适应特征融合和长期信息保留。
  • Result: 在EgoExo4D基准测试中取得新的SOTA结果,显著优于现有方法和SAM 2基线,展现出强大的跨场景泛化能力。
  • Conclusion: LM-EEC框架通过有效的特征融合和长期记忆机制,成功解决了自我-外部视角对应任务中的关键挑战,为智能助手提供精确的视觉指导。

[191] Enhancing Maritime Domain Awareness on Inland Waterways: A YOLO-Based Fusion of Satellite and AIS for Vessel Characterization

Geoffery Agorku,Sarah Hernandez,Hayley Hames,Cade Wagner

Main category: cs.CV

TL;DR: 提出了一种融合高分辨率卫星影像和AIS数据的框架,用于内河航道海事感知,通过YOLO v11模型检测船舶并识别暗船,验证合作交通,支持高级MDA。

  • Motivation: 解决AIS监控系统的局限性,利用非合作卫星影像与AIS数据融合,提升内河航道海事感知能力。
  • Method: 使用YOLO v11目标检测模型,结合卫星影像和AIS轨迹数据,开发包含4550个实例的标注数据集,进行船舶分类、驳船覆盖检测、运行状态分类等任务。
  • Result: 船舶分类F1分数95.8%,驳船覆盖检测F1分数91.6%,运行状态分类F1分数99.4%,方向性准确率93.8%,驳船计数MAE为2.4,空间可转移性分析准确率高达98%。
  • Conclusion: 卫星传感与AIS融合方法可行,支持近实时船队盘点、异常检测和高质量内河航道监控数据生成,未来将扩展数据集并探索多模态深度学习。

[192] Coupled Degradation Modeling and Fusion: A VLM-Guided Degradation-Coupled Network for Degradation-Aware Infrared and Visible Image Fusion

Tianpei Zhang,Jufeng Zhao,Yiming Zhu,Guangmang Cui

Main category: cs.CV

TL;DR: 提出VGDCFusion方法,将退化建模与图像融合过程紧密耦合,利用视觉语言模型进行退化感知和引导抑制,在退化图像场景下显著优于现有方法。

  • Motivation: 现有红外与可见光图像融合方法假设高质量输入,处理退化图像时需要手动切换预处理技术,这种退化处理与图像融合的解耦导致性能显著下降。
  • Method: 提出VLM引导的退化耦合融合网络,包含特定提示退化耦合提取器(SPDCE)实现模态特定退化感知,以及联合提示退化耦合融合(JPDCF)实现跨模态退化感知和特征融合。
  • Result: 大量实验表明,VGDCFusion在各种退化图像场景下显著优于现有最先进的融合方法。
  • Conclusion: 该方法成功将退化建模与融合过程紧密耦合,利用VLMs实现退化感知和引导抑制,在退化图像融合任务中表现出色。

[193] VA-GS: Enhancing the Geometric Representation of Gaussian Splatting via View Alignment

Qing Li,Huifang Feng,Xun Gong,Yu-Shen Liu

Main category: cs.CV

TL;DR: 提出了一种通过视图对齐增强3D高斯分布几何表示的方法,结合边缘感知图像线索、可见性感知光度对齐损失、法线约束和深度图像特征嵌入,在表面重建和新视角合成方面达到最先进性能。

  • Motivation: 3D高斯分布虽然在新视角合成方面表现出色,但其表面重建能力尚未充分探索。由于高斯分布的离散和非结构化特性,仅基于图像渲染损失的监督往往导致不准确的几何形状和不一致的多视图对齐。
  • Method: 1) 将边缘感知图像线索融入渲染损失以改善表面边界描绘;2) 引入可见性感知光度对齐损失来强制多视图几何一致性;3) 加入法线约束以减轻光照变化带来的模糊性;4) 利用深度图像特征嵌入增强跨视图一致性。
  • Result: 在标准基准测试上的广泛实验表明,该方法在表面重建和新视角合成方面都达到了最先进的性能。
  • Conclusion: 通过视图对齐方法显著提升了3D高斯分布的几何表示能力,在保持高效渲染的同时实现了更准确的表面重建。

[194] AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model

Zhiwei Jin,Xiaohui Song,Nan Wang,Yafei Liu,Chao Li,Xin Li,Ruichen Wang,Zhihao Li,Qi Qi,Long Cheng,Dongze Hao,Quanlong Zheng,Yanhao Zhang,Haobo Ji,Jian Ma,Zhitong Zheng,Zhenyi Lin,Haolin Deng,Xin Zou,Xiaojie Yin,Ruilin Wang,Liankai Cai,Haijing Liu,Yuqing Qiu,Ke Chen,Zixian Li,Chi Xie,Huafei Li,Chenxing Li,Chuangchuang Wang,Kai Tang,Zhiguang Zhu,Kai Tang,Wenmei Gao,Rui Wang,Jun Wu,Chao Liu,Qin Xie,Chen Chen,Haonan Lu

Main category: cs.CV

TL;DR: AndesVL是一系列面向移动设备的轻量级多模态大语言模型,参数规模从0.6B到4B,在多种视觉语言任务上达到同类模型的一流性能。

  • Motivation: 解决云端大型多模态模型参数过大、无法在移动设备上部署的问题,为边缘设备提供高效的多模态AI能力。
  • Method: 基于Qwen3的LLM和各种视觉编码器构建,采用完整的训练流程和训练数据,并引入1+N LoRA技术。
  • Result: 在文本丰富图像理解、推理与数学、多图像理解、通用VQA、幻觉缓解、多语言理解和GUI相关任务等多个开源基准测试中达到同类模型的最优性能。
  • Conclusion: AndesVL成功证明了在移动设备上部署高效多模态大语言模型的可行性,为边缘AI应用提供了实用解决方案。

[195] Towards Fast and Scalable Normal Integration using Continuous Components

Francesco Milano,Jen Jen Chung,Lionel Ott,Roland Siegwart

Main category: cs.CV

TL;DR: 提出了一种新的表面法向积分方法,通过将问题重新定义为估计连续组件的相对尺度,大幅减少了优化变量数量,实现了比像素级方法快一个数量级的计算速度。

  • Motivation: 现有的法向积分方法需要对每个像素的深度进行迭代全局优化,在处理大分辨率法向图时计算效率低下。
  • Method: 将法向积分重新定义为估计连续组件的相对尺度,包括启发式组件估计、优化项重新平衡和组件迭代合并技术。
  • Result: 在标准法向积分基准测试中达到最先进结果,仅需几秒钟完成,在大分辨率法向图上比像素级方法快一个数量级。
  • Conclusion: 该方法通过组件级优化显著提高了法向积分的计算效率,为大规模法向图处理提供了实用解决方案。

[196] Situat3DChange: Situated 3D Change Understanding Dataset for Multimodal Large Language Model

Ruiping Liu,Junwei Zheng,Yufan Chen,Zirui Wang,Kunyu Peng,Kailun Yang,Jiaming Zhang,Marc Pollefeys,Rainer Stiefelhagen

Main category: cs.CV

TL;DR: Situat3DChange是一个大规模3D数据集,支持三种情境感知变化理解任务,包含121K问答对、36K变化描述和17K重排指令。该数据集利用11K人类观察构建共享心智模型,并提出SCReasoner方法进行高效点云比较。

  • Motivation: 当前3D数据集和评估基准往往只关注动态场景或动态情境的孤立方面,导致理解不完整。为了克服这些限制,需要构建一个支持情境感知变化理解的综合数据集。
  • Method: 利用11K人类观察构建共享心智模型,整合自我中心和他者中心视角以及分类和坐标空间关系,使用LLM支持情境变化理解。提出SCReasoner方法,一种高效的3D MLLM方法,能够以最小参数开销进行点云比较。
  • Result: 在Situat3DChange任务上的综合评估显示了MLLMs在动态场景和情境理解方面的进展和局限性。数据缩放和跨域迁移实验证明了Situat3DChange作为MLLMs训练数据集的任务无关有效性。
  • Conclusion: Situat3DChange数据集和SCReasoner方法为动态3D场景理解提供了重要基础,展示了在情境感知变化理解方面的潜力,同时也揭示了当前方法的局限性。

[197] LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Jianhao Yuan,Fabio Pizzati,Francesco Pinto,Lars Kunze,Ivan Laptev,Paul Newman,Philip Torr,Daniele De Martini

Main category: cs.CV

TL;DR: LikePhys是一个无需训练的方法,通过使用去噪目标作为ELBO似然替代来评估视频扩散模型中的直觉物理理解能力,在12个物理场景的基准测试中表现出与人类偏好强一致性的评估效果。

  • Motivation: 由于难以在生成过程中将物理正确性与视觉外观分离,准确评估视频扩散模型中的直觉物理理解能力仍然具有挑战性。
  • Method: 使用去噪目标作为ELBO似然替代,在精心策划的有效-无效视频对数据集上区分物理有效和不可能的视频。
  • Result: 提出的评估指标PPE与人类偏好强一致,优于现有最佳评估基线。系统评估显示模型容量和推理设置扩展时物理理解能力有明确改善趋势。
  • Conclusion: 尽管当前模型在复杂和混沌动力学方面仍有困难,但随着模型容量和推理设置的扩展,物理理解能力呈现明显的改善趋势。

[198] mmWalk: Towards Multi-modal Multi-view Walking Assistance

Kedi Ying,Ruiping Liu,Chongyan Chen,Mingzhe Tao,Hao Shi,Kailun Yang,Jiaming Zhang,Rainer Stiefelhagen

Main category: cs.CV

TL;DR: mmWalk是一个为盲人和低视力人群设计的户外安全导航多模态数据集,包含120条手动控制的行走轨迹和62k同步帧,涵盖RGB、深度和语义模态的559k全景图像。同时创建了包含69k视觉问答对的基准测试mmWalkVQA,用于评估视觉语言模型在风险评估和导航任务中的表现。

  • Motivation: 解决盲人和低视力人群在极端或复杂环境中行走辅助的挑战,主要由于缺乏全面的场景理解能力。基于BLV社区的实际需求,构建一个集成了多视角传感器和可访问性特征的数据集。
  • Method: 构建mmWalk模拟多模态数据集,包含120条手动控制的场景分类行走轨迹,62k同步帧,超过559k全景图像(RGB、深度、语义模态)。每条轨迹都包含户外极端情况和BLV用户特定的可访问性地标。同时生成mmWalkVQA基准测试,包含69k视觉问答对,涵盖9个安全行走辅助相关类别。
  • Result: 评估了最先进的视觉语言模型在零样本和少样本设置下的表现,发现它们在风险评估和导航任务上表现不佳。在真实世界数据集上验证了基于mmWalk微调的模型,证明了数据集在推进多模态行走辅助方面的有效性。
  • Conclusion: mmWalk数据集和mmWalkVQA基准测试为盲人和低视力人群的户外安全导航提供了重要资源,能够有效评估和提升视觉语言模型在复杂环境中的行走辅助能力。

[199] Massive Activations are the Key to Local Detail Synthesis in Diffusion Transformers

Chaofan Gan,Zicheng Zhao,Yuanpeng Tu,Xi Chen,Ziran Qin,Tieyuan Chen,Mehrtash Harandi,Weiyao Lin

Main category: cs.CV

TL;DR: 本文研究了DiT模型中的大规模激活现象,发现它们对局部细节合成至关重要,并提出了一种无需训练的自引导策略DG来增强细节保真度。

  • Motivation: DiT模型内部特征图中出现的大规模激活现象功能尚不明确,需要系统研究其在视觉生成中的作用。
  • Method: 通过分析大规模激活的分布特性,提出Detail Guidance策略,通过破坏大规模激活构建退化模型来引导原始网络提升细节合成质量。
  • Result: DG策略能显著提升各种预训练DiT模型的细粒度细节质量,且能与CFG无缝集成进一步优化细节。
  • Conclusion: 大规模激活在DiT模型中主要负责局部细节合成,DG策略为提升生成图像的细节质量提供了有效解决方案。

[200] ODI-Bench: Can MLLMs Understand Immersive Omnidirectional Environments?

Liu Yang,Huiyu Duan,Ran Tao,Juntao Cheng,Sijing Wu,Yunhao Li,Jing Liu,Xiongkuo Min,Guangtao Zhai

Main category: cs.CV

TL;DR: 提出了ODI-Bench基准测试和Omni-CoT方法,用于评估和提升多模态大语言模型在全方位图像理解方面的能力。

  • Motivation: 虽然多模态大语言模型在传统2D图像和视频理解方面表现出色,但其对全方位图像的理解能力尚未得到充分探索,需要专门的基准测试和方法来评估和提升。
  • Method: 构建了包含2,000张全方位图像和4,000个标注问答对的ODI-Bench基准测试,并提出了Omni-CoT方法,通过思维链推理结合文本信息和视觉线索来增强模型理解能力。
  • Result: 实验表明当前MLLMs在理解全方位图像环境方面仍存在困难,而Omni-CoT方法能显著提升模型在全方位环境中的理解能力。
  • Conclusion: 该研究填补了MLLMs在全方位图像理解领域的空白,提出的基准测试和方法为未来研究提供了重要基础。

[201] How many samples to label for an application given a foundation model? Chest X-ray classification study

Nikolay Nechaev,Evgenia Przhezdzetskaya,Viktor Gombolevskiy,Dmitry Umerenkov,Dmitry Dylov

Main category: cs.CV

TL;DR: 通过幂律拟合预测达到特定ROC-AUC阈值所需的训练样本量,发现XrayCLIP和XraySigLIP在显著减少标注样本的情况下仍能获得良好性能,仅需50个标注病例即可准确预测最终性能平台。

  • Motivation: 胸部X光分类至关重要但资源密集,通常需要大量标注数据。基础模型减轻了这种依赖,但需要多少标注样本仍不明确。
  • Method: 系统评估使用幂律拟合来预测达到特定ROC-AUC阈值所需的训练样本量,测试多种病理和基础模型。
  • Result: XrayCLIP和XraySigLIP在显著少于ResNet-50基线的情况下实现了强劲性能,仅用50个标注病例的学习曲线斜率就能准确预测最终性能平台。
  • Conclusion: 研究结果使从业者能够通过仅标注达到目标性能所需的基本样本来最小化标注成本。

[202] SNAP: Towards Segmenting Anything in Any Point Cloud

Aniket Gupta,Hanhui Wang,Charles Saunders,Aruni RoyChowdhury,Hanumant Singh,Huaizu Jiang

Main category: cs.CV

TL;DR: SNAP是一个统一的交互式3D点云分割模型,支持点提示和文本提示,在室内、室外和航空等多个领域实现跨域泛化,在零样本基准测试中达到最先进性能。

  • Motivation: 解决当前交互式3D分割方法局限于单一领域和单一交互方式的问题,避免多数据集训练中的负迁移现象,开发一个通用的跨域分割工具。
  • Method: 在7个跨领域数据集上训练,采用域自适应归一化防止负迁移;对于文本提示分割,自动生成掩码提案并与CLIP文本查询嵌入匹配,支持全景和开放词汇分割。
  • Result: 在9个零样本空间提示分割基准中的8个达到最先进性能,在5个文本提示基准中均取得有竞争力的结果,统一模型性能优于专门的领域特定方法。
  • Conclusion: SNAP证明了统一模型可以匹配或超越专门的领域特定方法,为可扩展的3D标注提供了实用工具。

[203] A Framework for Low-Effort Training Data Generation for Urban Semantic Segmentation

Denis Zavadski,Damjan Kalšan,Tim Küchler,Haebom Lee,Stefan Roth,Carsten Rother

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的框架,可将合成数据集适配到特定目标域,仅使用不完美的伪标签进行训练,生成高质量的目标域对齐图像,显著提升分割性能。

  • Motivation: 合成数据集与真实图像存在明显差距,特别是在特定目标域(如Cityscapes)中,这种差距限制了模型性能。传统方法需要昂贵的3D建模,违背了低成本标注数据的初衷。
  • Method: 使用现成的扩散模型,仅通过不完美的伪标签进行目标域适配训练,能够从任何合成数据集的语义图生成高保真、目标域对齐的图像。方法包括过滤次优生成、修正图像标签错位、标准化跨数据集语义。
  • Result: 在五个合成数据集和两个真实目标数据集上的实验显示,分割性能比最先进的翻译方法提升高达+8.0% mIoU,使快速构建的合成数据集达到与需要大量人工设计的高成本合成数据集相同的效果。
  • Conclusion: 该工作展示了一种有价值的协作范式,快速语义原型设计与生成模型相结合,能够为城市场景理解创建可扩展、高质量的训练数据。

[204] Benchmarking foundation models for hyperspectral image classification: Application to cereal crop type mapping

Walid Elbarz,Mohamed Bourriz,Hicham Hajji,Hamd Ait Abdelali,François Bourzeix

Main category: cs.CV

TL;DR: 本文系统评估了三种基础模型在农作物高光谱制图中的性能,发现基于SpectralEarth数据集预训练的Vision Transformer模型表现最佳,准确率达93.5%,强调了模型架构对跨区域泛化能力的重要性。

  • Motivation: 基础模型正在改变地球观测领域,但它们在农作物高光谱制图方面的潜力尚未充分探索,需要系统评估不同基础模型在此任务上的表现。
  • Method: 使用三种基础模型(HyperSigma、DOFA和基于SpectralEarth数据集预训练的Vision Transformer)进行谷物作物制图,在训练区域进行微调,在独立测试区域评估性能,采用总体准确率、平均准确率和F1分数作为评估指标。
  • Result: HyperSigma准确率为34.5%(±1.8%),DOFA为62.6%(±3.5%),SpectralEarth模型达到93.5%(±0.8%),从头训练的紧凑版SpectralEarth模型也达到91%的准确率。
  • Conclusion: SpectralEarth预训练的Vision Transformer模型在农作物高光谱制图中表现最优,模型架构对跨地理区域和传感器平台的强泛化能力至关重要,为未来模型开发指明了方向。

[205] MS-Mix: Unveiling the Power of Mixup for Multimodal Sentiment Analysis

Hongyu Zhu,Lin Chen,Mounim A. El-Yacoubi,Mingsheng Shang

Main category: cs.CV

TL;DR: MS-Mix是一个情感感知的多模态数据增强框架,通过情感感知样本选择、情感强度引导的混合比例计算和情感对齐损失,解决了多模态情感分析中数据稀缺和混合增强导致的语义不一致问题。

  • Motivation: 多模态情感分析面临标注数据稀缺的挑战,而传统的Mixup增强方法在多模态场景下会引入标签模糊和语义不一致问题,因为缺乏情感感知的混合机制。
  • Method: 提出MS-Mix框架,包含三个核心组件:情感感知样本选择策略防止情感矛盾样本混合;情感强度引导模块动态计算模态特定混合比例;情感对齐损失通过KL散度正则化联合训练情感强度预测器和主干网络。
  • Result: 在三个基准数据集和六个最先进的主干网络上进行广泛实验,MS-Mix始终优于现有方法,为鲁棒的多模态情感增强建立了新标准。
  • Conclusion: MS-Mix通过情感感知的混合增强机制有效解决了多模态情感分析中的数据稀缺问题,显著提升了模型性能,为多模态数据增强提供了新的解决方案。

[206] ACE-G: Improving Generalization of Scene Coordinate Regression Through Query Pre-Training

Leonard Bruns,Axel Barroso-Laguna,Tommaso Cavallari,Áron Monszpart,Sowmya Munukutla,Victor Adrian Prisacariu,Eric Brachmann

Main category: cs.CV

TL;DR: 提出ACE-G方法,将坐标回归器和地图表示分离为通用变换器和场景特定地图代码,通过在大规模场景上预训练变换器,显著提高了视觉重定位的泛化能力。

  • Motivation: 传统场景坐标回归方法在训练视图和查询图像的成像条件差异较大时容易失败,因为其训练目标本质上是对训练视图的过拟合。需要解决SCR方法泛化能力不足的问题。
  • Method: 将坐标回归器和地图表示分离为通用变换器和场景特定地图代码,在大规模场景上预训练变换器,使其能够从映射图像泛化到未见过的查询图像。
  • Result: 在多个具有挑战性的重定位数据集上,ACE-G方法显著提高了鲁棒性,同时保持了较低的计算开销。
  • Conclusion: 通过分离坐标回归器和地图表示,并利用大规模预训练,ACE-G方法成功解决了SCR方法的泛化问题,实现了更好的重定位性能。

[207] ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

Yicheng Xu,Yue Wu,Jiashuo Yu,Ziang Yan,Tianxiang Jiang,Yinan He,Qingsong Zhao,Kai Chen,Yu Qiao,Limin Wang,Manabu Okumura,Yi Wang

Main category: cs.CV

TL;DR: ExpVid是首个用于系统评估多模态大语言模型在科学实验视频理解能力的基准测试,包含细粒度感知、程序理解和科学推理三个层次的任务,揭示了现有模型在细节区分、状态跟踪和科学推理方面的不足。

  • Motivation: 现有基准测试忽略了真实实验室工作的细粒度和长时程特性,无法准确评估多模态大语言模型在科学发现加速方面的真正能力。
  • Method: 从同行评审的视频出版物中构建ExpVid基准,采用三层任务层次结构(细粒度感知、程序理解、科学推理),结合自动生成和多学科专家验证的视觉中心标注流程。
  • Result: 评估19个领先的MLLM发现:模型在粗粒度识别方面表现良好,但在区分细节、跟踪状态变化和连接实验程序与科学结果方面存在困难;专有模型与开源模型之间存在显著性能差距,特别是在高阶推理方面。
  • Conclusion: ExpVid不仅提供了诊断工具,还为开发能够在科学实验中成为可信赖伙伴的MLLM绘制了路线图。

[208] High-resolution Photo Enhancement in Real-time: A Laplacian Pyramid Network

Feng Zhang,Haoyou Deng,Zhiqiang Li,Lida Li,Bin Xu,Qingbo Lu,Zisheng Cao,Minchen Wei,Changxin Gao,Nong Sang,Xiang Bai

Main category: cs.CV

TL;DR: LLF-LUT++是一种金字塔网络,通过拉普拉斯金字塔分解和重建整合全局和局部操作,在保持高性能的同时实现高分辨率图像的快速处理。

  • Motivation: 现有照片增强方法要么注重性能但无法在边缘设备部署,要么注重计算效率但实际应用性能不足,需要平衡性能与效率。
  • Method: 使用图像自适应3D LUT利用下采样图像的全局色调特征,结合空间频率变换器权重预测器提取权重,并应用局部拉普拉斯滤波器自适应细化高频边缘细节。
  • Result: 在HDR+数据集上PSNR提升2.64 dB,4K分辨率图像在单GPU上仅需13毫秒处理时间,在两个基准数据集上表现优于最先进方法。
  • Conclusion: LLF-LUT++成功实现了高性能与高效率的平衡,为高分辨率图像增强提供了有效的解决方案。

[209] EvoCAD: Evolutionary CAD Code Generation with Vision Language Models

Tobias Preintner,Weixuan Yuan,Adrian König,Thomas Bäck,Elena Raponi,Niki van Stein

Main category: cs.CV

TL;DR: EvoCAD是一种结合视觉语言模型和进化优化的方法,用于通过符号表示生成CAD对象,在CADPrompt基准数据集上表现优于先前方法。

  • Motivation: 结合大型语言模型的生成和上下文学习能力与进化算法的优势,探索在CAD对象生成中的应用。
  • Method: 使用视觉语言模型和推理语言模型,通过进化优化方法采样和优化多个CAD对象,引入基于欧拉特性的拓扑性质新指标。
  • Result: EvoCAD在多个指标上优于先前方法,特别是在生成拓扑正确对象方面表现突出,新提出的拓扑指标有效补充了现有空间指标。
  • Conclusion: EvoCAD证明了结合语言模型和进化算法在CAD生成任务中的有效性,新拓扑指标为3D对象语义相似性评估提供了新视角。

[210] NV3D: Leveraging Spatial Shape Through Normal Vector-based 3D Object Detection

Krittin Chaowakarn,Paramin Sangwongngam,Nang Htet Htet Aung,Chalie Charoenlarpnopparut

Main category: cs.CV

TL;DR: NV3D提出了一种新的3D物体检测方法,通过从体素邻居中提取法向量特征来增强检测性能,并采用两种采样策略减少55%的数据量同时保持性能。

  • Motivation: 现有的多模态方法面临特征对齐挑战,而局部特征提取方法对于复杂的3D物体检测任务可能过于简化。
  • Method: 使用KNN和PCA计算每个体素的法向量特征,提出法向量密度采样和FOV感知分箱采样两种策略,并应用元素级注意力融合机制。
  • Result: 在KITTI数据集上,无采样版本在汽车和自行车检测上分别达到86.60%和80.18% mAP,比基线Voxel R-CNN分别提升2.61%和4.23%。使用采样后仍能保持85.54% mAP,同时过滤掉约55%的体素。
  • Conclusion: NV3D通过法向量特征有效提升了3D物体检测性能,特别是在汽车和自行车检测方面表现优异,同时采样策略显著减少了计算量。

[211] IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

Yinan Chen,Jiangning Zhang,Teng Hu,Yuxiang Zeng,Zhucun Xue,Qingdong He,Chengjie Wang,Yong Liu,Xiaobin Hu,Shuicheng Yan

Main category: cs.CV

TL;DR: IVEBench是一个专门为指令引导视频编辑评估设计的现代基准套件,包含600个高质量源视频、8类编辑任务和三维评估协议。

  • Motivation: 现有的视频编辑基准无法充分支持指令引导视频编辑的评估,存在源多样性有限、任务覆盖范围窄和评估指标不完整的问题。
  • Method: 构建包含600个高质量源视频的多样化数据库,涵盖7个语义维度;通过大语言模型和专家评审生成和优化8类35个子类编辑任务的提示;建立包含视频质量、指令遵从性和视频保真度的三维评估协议。
  • Result: 广泛的实验证明IVEBench在基准测试最先进的指令引导视频编辑方法方面具有有效性,能够提供全面且与人类评估一致的结果。
  • Conclusion: IVEBench解决了现有基准的局限性,为指令引导视频编辑提供了系统、全面的评估框架,支持该领域的研究和发展。

[212] PhySIC: Physically Plausible 3D Human-Scene Interaction and Contact from a Single Image

Pradyumna Yalandur Muralidhar,Yuxuan Xue,Xianghui Xie,Margaret Kostyrko,Gerard Pons-Moll

Main category: cs.CV

TL;DR: PhySIC是一个从单张RGB图像重建物理合理的人类-场景交互和接触的框架,能够恢复度量一致的SMPL-X人体网格、密集场景表面和顶点级接触图。

  • Motivation: 现有方法在处理深度模糊、遮挡和物理不一致接触方面存在困难,需要一种能够从单张图像重建物理合理的人类-场景交互的方法。
  • Method: 从粗略的单目深度和人体估计开始,执行遮挡感知修复,融合可见深度与未缩放几何体构建度量支架,合成缺失支撑表面,并通过置信度加权优化联合执行深度对齐、接触先验、互穿避免和2D重投影一致性。
  • Result: PhySIC显著优于单图像基线方法,将平均每顶点场景误差从641mm降低到227mm,PA-MPJPE减半至42mm,接触F1从0.09提升到0.51。
  • Conclusion: PhySIC通过将单张图像转换为物理合理的3D人类-场景对,推进了可扩展的3D场景理解。

[213] InfiniHuman: Infinite 3D Human Creation with Precise Control

Yuxuan Xue,Xianghui Xie,Margaret Kostyrko,Gerard Pons-Moll

Main category: cs.CV

TL;DR: InfiniHuman是一个通过蒸馏现有基础模型来生成无限规模、丰富标注的3D人体数据的框架,包含自动数据生成管道InfiniHumanData和基于扩散的生成模型InfiniHumanGen,实现了高质量、可控的虚拟人生成。

  • Motivation: 传统方法采集和标注大规模人体数据集成本高昂且多样性有限,本文旨在探索是否可以通过蒸馏现有基础模型来生成理论上无限规模、丰富标注的3D人体数据。
  • Method: 提出InfiniHuman框架:1)InfiniHumanData自动管道利用视觉语言和图像生成模型创建大规模多模态数据集;2)InfiniHumanGen基于扩散的生成管道,支持文本、体型和服装资产的条件生成。
  • Result: 生成包含11.1万个身份的InfiniHumanData数据集,涵盖前所未有的多样性,用户研究表明自动生成的身份与扫描渲染无法区分。InfiniHumanGen在视觉质量、生成速度和可控性方面显著优于现有方法。
  • Conclusion: 该方法通过实用且经济高效的解决方案,实现了具有细粒度控制的高质量虚拟人生成,达到了理论上无限规模的效果。

[214] FACE: Faithful Automatic Concept Extraction

Dipkamal Bhusal,Michael Clifford,Sara Rampazzi,Nidhi Rastogi

Main category: cs.CV

TL;DR: 提出FACE框架,通过KL散度正则化增强非负矩阵分解,确保模型原始预测与基于概念预测的一致性,提高概念解释的忠实度

  • Motivation: 现有自动概念发现方法往往无法将提取的概念与模型真实决策过程对齐,影响解释的忠实度
  • Method: 在非负矩阵分解基础上加入KL散度正则化项,在概念学习过程中融入分类器监督,强制预测一致性
  • Result: 在ImageNet、COCO和CelebA数据集上的系统评估显示,FACE在忠实度和稀疏性指标上优于现有方法
  • Conclusion: FACE框架通过理论保证和实验验证,能够提供更忠实的概念解释

[215] Beyond 'Templates': Category-Agnostic Object Pose, Size, and Shape Estimation from a Single View

Jinyu Zhang,Haitao Lin,Jiashu Hou,Xiangyang Xue,Yanwei Fu

Main category: cs.CV

TL;DR: 提出了一种统一的类别无关框架,从单张RGB-D图像同时预测6D位姿、尺寸和密集形状,无需模板、CAD模型或类别标签,在四个基准测试中实现了最先进的精度和强大的零样本泛化能力。

  • Motivation: 现有方法要么依赖特定物体的先验知识如CAD模型或模板,要么由于位姿-形状纠缠和多阶段流程而泛化能力有限。需要一种能够跨类别泛化的统一解决方案。
  • Method: 使用Transformer编码器融合视觉基础模型的密集2D特征和部分3D点云,通过Mixture-of-Experts增强,采用并行解码器进行位姿-尺寸估计和形状重建,仅使用合成数据训练。
  • Result: 在SOPE、ROPE、ObjaversePose和HANDAL四个基准测试中达到最先进精度,在已见类别上表现优异,对未见真实世界物体展现出强大的零样本泛化能力,推理速度达28 FPS。
  • Conclusion: 该框架为机器人和具身AI中的开放集6D理解建立了新标准,实现了实时推理和强大的跨类别泛化能力。

[216] Diffusion Transformers with Representation Autoencoders

Boyang Zheng,Nanye Ma,Shengbang Tong,Saining Xie

Main category: cs.CV

TL;DR: 本文提出用表示自编码器(RAE)替代传统VAE作为扩散变换器的潜在空间编码器,解决了VAE在架构简单性、信息容量和表示质量方面的限制,实现了更好的图像生成效果。

  • Motivation: 传统的扩散变换器使用VAE作为潜在空间编码器存在三个主要问题:使用过时的骨干网络影响架构简洁性、低维潜在空间限制信息容量、以及纯重建训练导致的弱表示质量限制生成效果。
  • Method: 使用预训练表示编码器(如DINO、SigLIP、MAE)配合训练的解码器构建表示自编码器(RAE),并针对高维潜在空间设计了理论驱动的解决方案,采用轻量级宽DDT头使扩散变换器能有效工作。
  • Result: 在ImageNet上取得了优异的图像生成结果:无引导时256x256分辨率FID为1.51,有引导时256x256和512x512分辨率FID均为1.13,且收敛更快无需辅助表示对齐损失。
  • Conclusion: RAE具有明显优势,应该成为扩散变换器训练的新标准方法。

[217] Bayesian Topological Convolutional Neural Nets

Sarah Harkins Dayton,Hayden Everett,Ioannis Schizas,David L. Boothe Jr.,Vasileios Maroulas

Main category: cs.CV

TL;DR: 提出了一种新的贝叶斯拓扑卷积神经网络,结合拓扑感知学习和贝叶斯采样,在有限或损坏的训练数据情况下提供更好的不确定度量化和分类性能。

  • Motivation: 传统卷积神经网络需要大量训练数据、容易产生过度自信的预测,并且缺乏对预测不确定性的量化能力。
  • Method: 通过将先验分布放在网络参数上并学习适当的后验分布,利用重要流形信息加速训练,同时在学习成本中包含一致性条件来改进先验分布。
  • Result: 在基准图像分类数据集上表现出优于传统CNN、贝叶斯神经网络和拓扑CNN的性能,特别是在训练数据有限或损坏的情况下具有优势。
  • Conclusion: 这种新颖的混合方法在图像分类中具有更高效和鲁棒的潜力,能够更好地识别未经训练的非分布数据。

[218] DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

Haoran Feng,Dizhe Zhang,Xiangtai Li,Bo Du,Lu Qi

Main category: cs.CV

TL;DR: DiT360是一个基于DiT的框架,通过混合训练透视和全景数据来生成全景图像,解决了几何保真度和照片真实感的问题。

  • Motivation: 现有方法主要关注模型设计,而全景图像生成质量不佳的主要原因是缺乏大规模、高质量的真实世界全景数据。
  • Method: 在图像级别通过透视图像引导和全景细化引入跨域知识,在token级别应用混合监督,包括循环填充、偏航损失和立方体损失。
  • Result: 在文本到全景、修复和外延任务上的广泛实验表明,该方法在11个定量指标上实现了更好的边界一致性和图像保真度。
  • Conclusion: DiT360通过数据中心的视角和混合训练策略,有效提升了全景图像生成的质量和几何保真度。

[219] Point Prompting: Counterfactual Tracking with Video Diffusion Models

Ayush Shrivastava,Sanyam Mehta,Daniel Geng,Andrew Owens

Main category: cs.CV

TL;DR: 利用预训练的视频扩散模型进行零样本点跟踪,通过在查询点放置彩色标记并重新生成视频来传播标记,从而追踪点的轨迹。

  • Motivation: 跟踪器和视频生成器解决密切相关的问题:前者分析运动,后者合成运动。这种联系使得预训练的视频扩散模型能够通过视觉标记点来进行零样本点跟踪。
  • Method: 在查询点放置独特颜色的标记,然后从中等噪声级别重新生成视频的其余部分,从而传播标记跨帧追踪点的轨迹。使用未编辑的初始帧作为负提示,确保标记在反事实生成中保持可见。
  • Result: 通过多个图像条件视频扩散模型的实验发现,这种"涌现"的跟踪方法优于先前的零样本方法,能够持续通过遮挡,通常获得与专门的自监督模型相竞争的性能。
  • Conclusion: 预训练的视频扩散模型可以有效地执行零样本点跟踪,通过视觉标记点的传播来追踪运动轨迹,在跟踪性能上表现出色。

[220] Ev4DGS: Novel-view Rendering of Non-Rigid Objects from Monocular Event Streams

Takuya Nakabayashi,Navami Kairanda,Hideo Saito,Vladislav Golyanik

Main category: cs.CV

TL;DR: Ev4DGS是首个仅从单目事件流中渲染非刚性变形物体新视角的方法,使用可变形3D高斯泼溅表示,无需RGB输入。

  • Motivation: 现有方法处理非刚性物体时需要稀疏RGB输入,这限制了实用性。本文探索是否仅从事件流中学习类似模型。
  • Method: 通过1) 将估计模型输出与2D事件观测空间关联的损失函数,和2) 从事件生成的二值掩码训练的粗糙3D变形模型,回归可变形3D高斯泼溅表示。
  • Result: 在合成和真实数据集上的实验表明Ev4DGS的有效性,相比多个朴素基线表现出优越性能。
  • Conclusion: Ev4DGS证明了仅从事件流渲染非刚性变形物体新视角的可行性,为事件相机在动态场景重建中的应用开辟了新途径。

[221] CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

Chengqi Duan,Kaiyue Sun,Rongyao Fang,Manyuan Zhang,Yan Feng,Ying Luo,Yufang Liu,Ke Wang,Peng Pei,Xunliang Cai,Hongsheng Li,Yi Ma,Xihui Liu

Main category: cs.CV

TL;DR: 提出了CodePlot-CoT方法,通过生成可执行的绘图代码来创建"视觉思考",解决需要视觉辅助的数学问题。

  • Motivation: 现有大语言模型和视觉语言模型在处理需要视觉辅助的数学问题时存在瓶颈,缺乏生成精确可控图像的能力。
  • Method: 构建Math-VR双语数据集,开发图像转代码转换器,训练CodePlot-CoT模型生成文本推理和绘图代码。
  • Result: 在新基准测试上比基础模型提升高达21%,验证了代码驱动推理范式的有效性。
  • Conclusion: 为多模态数学推理开辟了新方向,提供了首个大规模数据集、基准测试和强效方法。

cs.CL

[222] Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation

Fanwei Zhu,Jinke Yu,Zulong Chen,Ying Zhou,Junhao Ji,Zhibo Yang,Yuxue Zhang,Haoyuan Hu,Zhenghao Liu

Main category: cs.CL

TL;DR: 提出一个布局感知且效率优化的自动化简历信息提取框架,解决简历布局异构性、LLM高成本延迟、缺乏标准化数据集三大挑战。

  • Motivation: 自动化简历信息提取对规模化人才招聘至关重要,但面临简历布局内容极度异构、大语言模型高成本高延迟、缺乏标准化数据集和评估工具三大挑战。
  • Method: 结合微调布局解析器标准化文档格式、基于并行提示和指令调优的推理高效LLM提取器、以及由新基准数据集支持的两阶段自动化评估框架。
  • Result: 广泛实验表明该框架在准确性和效率上显著优于强基线,特别是微调的0.6B紧凑LLM实现顶级准确性同时显著降低推理延迟和计算成本。
  • Conclusion: 系统已在阿里巴巴智能HR平台全面部署,支持其业务部门的实时应用。

[223] VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation

Yubo Sun,Chunyi Peng,Yukun Yan,Shi Yu,Zhenghao Liu,Chi Chen,Zhiyuan Liu,Maosong Sun

Main category: cs.CL

TL;DR: EVisRAG是一个端到端的视觉检索增强生成框架,通过证据引导的多图像推理来减少幻觉并提高视觉问答准确性。

  • Motivation: 当前VRAG系统在多图像感知和证据整合方面不可靠,导致推理基础薄弱和错误结论。
  • Method: 提出EVisRAG框架:先观察检索到的图像并记录每张图像的证据,然后从聚合证据中得出最终答案。使用RS-GRPO训练方法,将细粒度奖励与范围特定token绑定,联合优化视觉感知和推理能力。
  • Result: 在多个视觉问答基准测试中,EVisRAG相比基础VLM平均提升27%的性能。
  • Conclusion: EVisRAG通过精确感知和定位多图像中的问题相关证据,并基于证据得出最终答案,显著提高了视觉问答的准确性。

[224] Text Prompt Injection of Vision Language Models

Ruizhe Zhu

Main category: cs.CL

TL;DR: 本文研究了一种针对大型视觉语言模型的文本提示注入攻击方法,该方法简单有效且计算资源需求低。

  • Motivation: 随着大型视觉语言模型的广泛应用,其安全性问题日益凸显,需要研究有效的攻击方法来揭示潜在风险。
  • Method: 开发了一种文本提示注入攻击算法,通过实验验证其有效性和效率。
  • Result: 相比其他攻击方法,该方法对大型模型特别有效,且不需要大量计算资源。
  • Conclusion: 文本提示注入是一种简单而有效的攻击方式,能够误导大型视觉语言模型,需要引起安全关注。

[225] BitMar: Low-Bit Multimodal Fusion with Episodic Memory for Edge Devices

Euhid Aman,Esteban Carlin,Hsing-Kuo Pao,Giovanni Beltrame,Ghaluh Indah Permata Sari,Yie-Tarng Chen

Main category: cs.CL

TL;DR: BitMar是一种量化多模态变换器,使用1.58位编码器和外部情景记忆,在资源受限的硬件上实现高效的图像-文本生成。

  • Motivation: 解决交叉注意力变换器和其他多模态视觉语言模型在边缘设备部署时面临的内存和计算资源限制问题。
  • Method: 采用1.58位编码器(BitNet风格的文本编码器和DiNOv2基础的视觉编码器),结合固定大小的键值情景记忆,使用逐层条件化和滑动窗口注意力机制。
  • Result: 在低延迟和小模型占用下实现了具有竞争力的图像描述和多模态理解性能。
  • Conclusion: BitMar的特性使其非常适合边缘部署,在质量和速度之间实现了良好的权衡。

[226] Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations

Johannes Moll,Markus Graf,Tristan Lemke,Nicolas Lenhart,Daniel Truhn,Jean-Benoit Delbrouck,Jiazhen Pan,Daniel Rueckert,Lisa C. Adams,Keno K. Bressem

Main category: cs.CL

TL;DR: 提出了一个临床基础的评估框架,用于评估胸部X光视觉问答中思维链解释的真实性,发现答案准确性与解释质量脱节,专有模型在归因和保真度方面表现更好。

  • Motivation: 视觉语言模型产生的思维链解释往往听起来合理但未能反映实际决策过程,这在临床高风险应用中会削弱信任。现有评估很少捕捉到这种不一致性。
  • Method: 通过控制文本和图像修改,在三个维度上评估思维链的真实性:临床保真度、因果归因和置信度校准。进行了读者研究(n=4),并与放射科医生进行相关性分析。
  • Result: 评估者与放射科医生的相关性在所有维度上都落在观察到的放射科医生间范围内,归因对齐强(τ_b=0.670),保真度对齐中等(τ_b=0.387),置信度对齐弱(τ_b=0.091)。答案准确性与解释质量脱节,文本线索比视觉线索更能改变解释。
  • Conclusion: 专有模型在归因(25.0% vs. 1.4%)和保真度(36.1% vs. 31.7%)方面得分更高,突显了部署风险以及需要超越最终答案准确性进行评估的必要性。

[227] Scaling Language-Centric Omnimodal Representation Learning

Chenghao Xiao,Hou Pong Chan,Hao Zhang,Weiwen Xu,Mahani Aljunied,Yu Rong

Main category: cs.CL

TL;DR: 本文提出LCO-Emb框架,揭示了MLLM在生成预训练中实现隐式跨模态对齐,使对比学习成为轻量级精炼阶段,并发现了生成-表示缩放定律。

  • Motivation: 探索基于MLLM的多模态嵌入方法优越性的根本原因,特别是理解生成预训练如何促进跨模态对齐。
  • Method: 提出语言中心的全模态嵌入框架LCO-Emb,通过各向异性和核相似性结构分析验证隐式对齐,并利用对比学习进行精炼。
  • Result: 在多样化骨干网络和基准测试中实现最先进性能,验证了生成-表示缩放定律,表明生成能力提升能增强表示质量。
  • Conclusion: 改进生成能力是提升表示质量的有效范式,持续生成预训练能进一步增强模型的嵌入潜力。

physics.med-ph

[228] UltraScatter: Ray-Based Simulation of Ultrasound Scattering

Felix Duelmer,Mohammad Farid Azampour,Nassir Navab

Main category: physics.med-ph

TL;DR: UltraScatter是一种基于概率射线追踪的超声模拟框架,相比传统波动方程数值解法,能在几秒内生成B模式图像,同时保持真实的散射和包埋模式。

  • Motivation: 传统超声模拟方法计算成本高,基于卷积的替代方法仍然较慢,需要几分钟生成完整B模式图像。
  • Method: 使用概率射线追踪框架,将组织表示为散射概率和散射幅度的体积场,通过自由飞行delta跟踪模拟射线相互作用,结合平面波成像和波束形成技术。
  • Result: 验证显示产生真实的散斑和包埋模式,能够在几秒内生成B模式图像。
  • Conclusion: UltraScatter作为基于波动方程方法的可扩展替代方案,实现了高效且逼真的超声散射模拟。

cs.CE

[229] Comparative Evaluation of Neural Network Architectures for Generalizable Human Spatial Preference Prediction in Unseen Built Environments

Maral Doctorarastoo,Katherine A. Flanigan,Mario Bergés,Christopher McComb

Main category: cs.CE

TL;DR: 比较图神经网络、卷积神经网络和标准前馈神经网络在预测未见过空间布局中人类偏好时的泛化能力,使用合成口袋公园环境数据进行评估。

  • Motivation: 为开发网络-物理-社会基础设施系统,需要预测人类在建筑环境中的空间偏好,但现有模型在未见环境配置中的泛化能力存在挑战。
  • Method: 使用合成口袋公园环境生成数据,比较GNN、CNN和标准前馈NN三种架构,通过精确率-召回率曲线下面积计算泛化得分来评估模型性能。
  • Result: 研究评估了不同神经网络架构在预测受物理、环境和社会特征影响的偏好时的泛化能力,为未见建筑环境中的人类行为建模提供见解。
  • Conclusion: 该比较研究为选择适合在未见建筑环境中进行偏好感知人类行为建模的神经网络架构提供了指导。

cs.LG

[230] Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

Filippo Rinaldi,Aniello Panariello,Giacomo Salici,Fengyuan Liu,Marco Ciccone,Angelo Porrello,Simone Calderara

Main category: cs.LG

TL;DR: GradFix是一种无需额外微调即可跨基础模型版本迁移任务向量的方法,通过近似目标模型的梯度符号结构来对齐参数空间,仅需少量标注样本即可实现知识迁移。

  • Motivation: 当基础模型发布新版本时,即使任务相同,用户通常需要重新进行完整微调。虽然任务向量可以捕获模型对特定任务的适应,但由于参数空间不匹配,它们往往无法在不同预训练模型间有效迁移。
  • Method: 提出GradFix方法,通过计算目标模型的少量梯度来近似理想的梯度符号结构,然后根据该结构对源任务向量进行掩码处理,从而在目标模型的损失景观中实现局部对齐。
  • Result: 在视觉和语言基准测试中表现出显著性能提升,始终优于简单的任务向量加法和小样本微调方法。
  • Conclusion: GradFix通过利用目标模型的梯度符号结构,成功解决了任务向量跨模型迁移的问题,提供了一阶下降的理论保证,为模型更新提供了高效的知识迁移方案。

[231] Learning What Matters: Steering Diffusion via Spectrally Anisotropic Forward Noise

Luca Scimeca,Thomas Jiralerspong,Berton Earnshaw,Jason Hartford,Yoshua Bengio

Main category: cs.LG

TL;DR: 该论文提出了谱各向异性高斯扩散(SAGD),通过引入各向异性噪声算子来构建扩散概率模型的归纳偏置,用结构化频率对角协方差替代各向同性协方差,从而更好地适应数据分布。

  • Motivation: 扩散概率模型虽然取得了强大的生成性能,但其归纳偏置仍然很大程度上是隐式的。本研究旨在将归纳偏置明确地构建到扩散模型的训练和采样过程中,以更好地适应目标数据分布。
  • Method: 引入各向异性噪声算子,用结构化频率对角协方差替代各向同性前向协方差,统一了带通掩码和幂律加权,允许强调或抑制指定频带,同时保持前向过程的高斯性。
  • Result: 经验证明,诱导的各向异性在多个视觉数据集上优于标准扩散模型,并实现了选择性忽略:在特定频带内忽略已知的损坏模式进行学习。
  • Conclusion: 精心设计的各向异性前向噪声为在DPMs中定制归纳偏置提供了一个简单而有原则的方法。

[232] Semantic-Cohesive Knowledge Distillation for Deep Cross-modal Hashing

Changchang Sun,Vickie Chen,Yan Yan

Main category: cs.LG

TL;DR: 提出SODA方法,通过语义凝聚知识蒸馏解决跨模态哈希中多标签语义提取与原始多模态数据交互不足的问题

  • Motivation: 现有深度跨模态哈希方法在自监督学习语义信息方面取得进展,但多标签语义提取过程未能与原始多模态数据显式交互,导致学习到的表示级语义信息与异构多模态数据不兼容,阻碍了模态间隙的弥合
  • Method: 将多标签信息作为新的文本模态,重新表述为一组真实标签提示,描述图像中呈现的语义;设计跨模态教师网络,在图像和标签模态之间有效蒸馏跨模态语义特征,为图像模态学习良好映射的汉明空间;将该汉明空间作为先验知识指导跨模态学生网络学习
  • Result: 在两个基准数据集上的广泛实验证明了该方法相对于最先进方法的优越性
  • Conclusion: SODA方法通过语义凝聚知识蒸馏方案,有效解决了跨模态哈希中语义信息与多模态数据兼容性问题,显著提升了性能

[233] Deep Neural Networks Inspired by Differential Equations

Yongshuai Liu,Lianfang Wang,Kuilin Qin,Qinghua Zhang,Faqiang Wang,Li Cui,Jun Liu,Yuping Duan,Tieyong Zeng

Main category: cs.LG

TL;DR: 本文综述了基于微分方程视角的深度神经网络架构和动态建模方法,包括ODE启发的确定性网络模型和SDE启发的随机网络模型,旨在提升神经网络的理论理解、可解释性和泛化能力。

  • Motivation: 深度学习在多个领域取得显著进展,但神经网络仍面临理论理解不足、可解释性差和泛化能力有限等挑战。研究者希望通过微分方程视角为神经网络提供统一的理论框架和系统设计方法。
  • Method: 系统回顾了基于ODE的深度神经网络模型和确定性动态网络构建,以及基于SDE的正则化技术和随机动态网络模型,并进行数值比较分析。
  • Result: 通过数值比较展示了不同模型的特性和性能表现,验证了微分方程视角在神经网络设计中的有效性。
  • Conclusion: 微分方程与深度学习的结合为开发具有更好可解释性和泛化能力的智能计算方法提供了新的研究方向和理论洞见。

[234] Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry

Atharv Goel,Sharat Agarwal,Saket Anand,Chetan Arora

Main category: cs.LG

TL;DR: NCAL-R是一个基于神经崩溃几何的可靠主动学习框架,通过类均值对齐扰动和特征波动评分来对抗噪声标签和数据分布偏移,在减少标注成本的同时提高模型鲁棒性。

  • Motivation: 传统主动学习方法在标签噪声和数据分布偏移时可靠性不足,因为不确定性、多样性等启发式方法会放大错误标注或冗余样本的影响。
  • Method: 提出两个互补信号:类均值对齐扰动评分(量化候选样本对类间几何结构的稳定/扭曲程度)和特征波动评分(捕捉训练检查点间表征的时间不稳定性)。
  • Result: 在ImageNet-100和CIFAR100上的实验表明,NCAL-R在合成标签噪声下表现更鲁棒,在更少标签情况下获得更高准确率,对分布外数据有更强泛化能力。
  • Conclusion: 将几何可靠性标准融入主动学习的样本选择中,可以减少对标注错误和分布偏移的脆弱性,是实现真实世界标注流程中可信部署的关键一步。

[235] Causality Decodability, and Vice Versa: Lessons from Interpreting Counting ViTs

Lianghuan Huang,Yingshan Chang

Main category: cs.LG

TL;DR: 该研究发现神经网络中的可解码性和因果性存在系统性不匹配:中间层的对象标记具有强因果影响但可解码性弱,而最终层的对象标记可解码性强但因果影响弱。

  • Motivation: 动机是厘清神经网络中经常被混淆的两个概念:可解码性(从隐藏状态恢复信息的能力)和因果性(这些状态对输出的功能性影响程度)。
  • Method: 使用激活修补技术在干净-损坏图像对之间移植激活,测试空间和CLS标记的因果作用;同时训练线性探针评估不同深度处计数信息的可解码性。
  • Result: 结果显示系统性的不匹配:中间层对象标记因果影响强但可解码性弱,最终层对象标记可解码性强但因果影响弱;CLS标记在中间层可解码但在最终层才获得因果能力。
  • Conclusion: 可解码性和因果性反映了表征的互补维度——存在什么信息与使用什么信息——它们的分歧可以揭示隐藏的计算电路。

[236] Decomposer Networks: Deep Component Analysis and Synthesis

Mohsen Joneidi

Main category: cs.LG

TL;DR: Decomposer Networks (DecompNet) 是一种语义自编码器,通过并行分支和残差输入分解输入为多个可解释组件,实现组件间的显式竞争。

  • Motivation: 传统自编码器将输入压缩为单一潜在表示,而DecompNet旨在分解输入为多个语义可解释的组件,提供更丰富的表示。
  • Method: 使用N个并行分支,每个分支的残差输入定义为原始信号减去其他分支的重建结果,通过展开Gauss-Seidel风格的块坐标下降为可微分网络。
  • Result: DecompNet实现了组件间的显式竞争,产生简洁且语义有意义的表示。
  • Conclusion: DecompNet是首个实现全除一残差更新规则的语义自编码器,在分解方法中具有新颖性。

[237] Harnessing Self-Supervised Deep Learning and Geostationary Remote Sensing for Advancing Wildfire and Associated Air Quality Monitoring: Improved Smoke and Fire Front Masking using GOES and TEMPO Radiance Data

Nicholas LaHaye,Thilanka Munashinge,Hugo Lee,Xiaohua Pan,Gonzalo Gonzalez Abad,Hazem Mahmoud,Jennifer Wei

Main category: cs.LG

TL;DR: 利用NASA TEMPO卫星任务的小时数据和自监督深度学习改进美国西部野火和空气质量管理,能够实时追踪野火前沿和烟雾羽流。

  • Motivation: 利用TEMPO卫星前所未有的小时数据和自监督深度学习技术,改进美国西部野火和空气质量管理。
  • Method: 采用创新的自监督深度学习系统,结合GOES-18和TEMPO数据,成功区分烟雾羽流与云层。
  • Result: 在不同传感模式生成的烟雾和火灾掩膜之间具有强一致性,相比同类业务产品有显著改进。
  • Conclusion: 深度学习在利用卫星数据实时监测野火蔓延和烟雾扩散方面具有显著效果和潜力。

[238] Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling

Hehe Fan,Yi Yang,Mohan Kankanhalli,Fei Wu

Main category: cs.LG

TL;DR: 提出Translution操作,统一自注意力的自适应识别能力和卷积的相对编码优势,并引入轻量级变体α-Translution以解决参数过多问题。

  • Motivation: 自注意力能自适应识别相关元素但依赖绝对位置嵌入,卷积能相对编码但固定核大小限制其自适应选择能力。需要结合两者优势。
  • Method: 提出Translution操作,结合自注意力的自适应识别和卷积的相对编码。为解决参数过多问题,开发轻量级α-Translution变体。
  • Result: 在计算机视觉和自然语言处理任务上的实验表明,Translution(包括α-Translution)比自注意力获得更优的准确率。
  • Conclusion: Translution成功统一了自注意力和卷积的优势,在保持高性能的同时解决了参数过多的问题。

[239] INR-Bench: A Unified Benchmark for Implicit Neural Representations in Multi-Domain Regression and Reconstruction

Linfei Li,Fengyi Zhang,Zhong Wang,Lin Zhang,Ying Shen

Main category: cs.LG

TL;DR: 本文提出了INR-Bench,这是第一个专门为多模态INR任务设计的综合基准,通过NTK理论分析模型架构、位置编码和非线性原语对信号频率响应的影响,并评估了56个Coordinate-MLP变体和22个Coordinate-KAN模型在9个隐式多模态任务上的表现。

  • Motivation: 隐式神经表示(INR)在各种信号处理任务中取得了成功,但其有效性和局限性的影响因素仍未得到充分探索。为了更好地理解这些因素,需要建立一个全面的基准来评估不同神经模型在多模态INR任务中的表现。
  • Method: 利用神经正切核(NTK)理论分析模型架构(经典MLP和新兴KAN)、位置编码和非线性原语对信号频率响应的影响。引入INR-Bench基准,包含56个Coordinate-MLP模型变体(4种位置编码和14种激活函数)和22个Coordinate-KAN模型,在9个隐式多模态任务上进行评估。
  • Result: 建立了首个专门针对多模态INR任务的综合基准INR-Bench,提供了评估不同神经模型在正向和逆向问题中表现的稳健平台,揭示了各种模型的优势和局限性。
  • Conclusion: INR-Bench为未来研究奠定了坚实基础,通过系统评估不同神经模型在多模态INR任务中的表现,有助于更好地理解隐式神经表示的有效性和局限性。

[240] ImpMIA: Leveraging Implicit Bias for Membership Inference Attack under Realistic Scenarios

Yuval Golbari,Navve Wasserman,Gal Vardi,Michal Irani

Main category: cs.LG

TL;DR: ImpMIA是一种基于隐式偏差的白盒成员推理攻击方法,无需依赖参考模型,在仅有权重和训练数据超集的情况下达到最先进性能

  • Motivation: 现有黑盒成员推理攻击依赖不现实的假设:攻击者知道训练超参数、非训练样本与训练数据同分布、评估集中训练数据比例已知。移除这些假设会导致性能显著下降
  • Method: 利用神经网络的最大间隔隐式偏差理论,通过KKT最优性条件识别训练样本,找到梯度最能重构模型参数的样本
  • Result: 在仅有权重和训练数据超集的现实场景中,ImpMIA相比黑盒和白盒攻击都达到了最先进的性能
  • Conclusion: ImpMIA通过利用隐式偏差,在不需要参考模型的情况下实现了有效的成员推理攻击,为现实场景中的隐私保护提供了重要启示

[241] Optimally Deep Networks -- Adapting Model Depth to Datasets for Superior Efficiency

Shaharyar Ahmed Khan Tareen,Filza Khan Tareen

Main category: cs.LG

TL;DR: 提出Optimally Deep Networks (ODNs)方法,通过渐进式深度扩展训练策略,为不同复杂度的数据集自动选择最优网络深度,显著减少模型大小和计算开销。

  • Motivation: 深度神经网络通常采用过大的模型规模,导致计算资源浪费、内存占用过高,难以在资源受限设备上部署。需要根据任务复杂度自动调整网络深度。
  • Method: 提出渐进式深度扩展训练策略,从浅层网络开始训练,随着早期模块收敛逐步增加网络深度,直到达到目标精度,自动移除冗余层。
  • Result: 在MNIST和SVHN数据集上,ResNet-18和ResNet-34的最优深度版本分别实现了98.64%和96.44%的内存占用减少,同时保持99.31%和96.08%的竞争性准确率。
  • Conclusion: ODNs方法能够根据数据集复杂度自动选择最优网络深度,显著降低计算和内存开销,同时保持模型性能,有利于在边缘设备上部署。

[242] On the Optimal Representation Efficiency of Barlow Twins: An Information-Geometric Interpretation

Di Zhang

Main category: cs.LG

TL;DR: 提出了一种基于信息几何的框架来量化表示效率,证明了Barlow Twins方法在特定条件下能达到最优表示效率(η=1)。

  • Motivation: 自监督学习取得了显著成功,但缺乏统一的理论框架来理解和比较不同SSL范式的效率。
  • Method: 引入信息几何框架,定义表示效率η为学习表示空间的有效内在维度与环境维度的比率,其中有效维度来自编码器诱导的统计流形上Fisher信息矩阵的谱特性。
  • Result: 在特定自然假设下,证明Barlow Twins通过将表示的互相关矩阵驱动到单位矩阵,从而诱导各向同性的FIM,实现了最优表示效率(η=1)。
  • Conclusion: 这项工作为理解Barlow Twins的有效性提供了严格的理论基础,并为分析SSL算法提供了新的几何视角。

[243] The Easy Path to Robustness: Coreset Selection using Sample Hardness

Pranav Ramesh,Arjun Roy,Deepak Ravikumar,Kaushik Roy,Gopalakrishnan Srinivasan

Main category: cs.LG

TL;DR: 提出了EasyCore核心集选择算法,通过保留低平均输入梯度范数(AIGN)的“简单”样本来提高对抗鲁棒性训练效果

  • Motivation: 现有核心集选择算法主要针对清洁准确率设计,在保持对抗鲁棒性方面表现不足,需要从数据中心的视角理解哪些样本对学习鲁棒特征最为关键
  • Method: 将样本的对抗脆弱性与其“难度”联系起来,使用训练过程中的平均输入梯度范数(AIGN)量化样本难度,提出EasyCore算法选择低AIGN的简单样本进行训练
  • Result: 在标准训练和TRADES对抗训练下,使用EasyCore选择的数据训练的模型比现有核心集方法分别实现了高达7%和5%的对抗准确率提升
  • Conclusion: AIGN是模型无关的数据集属性,EasyCore是一种高效且广泛适用的数据中心方法,可显著提高对抗鲁棒性

[244] Lightweight Facial Landmark Detection in Thermal Images via Multi-Level Cross-Modal Knowledge Transfer

Qiyi Tong,Olivia Nocentini,Marta Lagomarsino,Kuanqi Cai,Marta Lorenzini,Arash Ajoudani

Main category: cs.LG

TL;DR: 提出MLCM-KD框架,通过双向知识蒸馏解决热成像面部关键点检测中的模态差异问题,实现高效准确的热成像FLD模型

  • Motivation: 热成像面部关键点检测在挑战性光照条件下很重要,但缺乏丰富的视觉线索。传统跨模态方法计算成本高或引入结构伪影,限制了实际部署
  • Method: 提出多级跨模态知识蒸馏(MLCM-KD)框架,包含双向注入知识蒸馏(DIKD)机制,建立RGB和热成像模态间的连接,通过闭环监督强制学生学习模态不变特征
  • Result: 在公开热成像FLD基准测试中达到新的最先进水平,显著优于先前方法,同时大幅降低计算开销
  • Conclusion: MLCM-KD框架成功解决了RGB到热成像知识转移中的模态差异问题,为热成像面部关键点检测提供了既准确又高效的解决方案

[245] QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Wei Huang,Yi Ge,Shuai Yang,Yicheng Xiao,Huizi Mao,Yujun Lin,Hanrong Ye,Sifei Liu,Ka Chun Cheung,Hongxu Yin,Yao Lu,Xiaojuan Qi,Song Han,Yukang Chen

Main category: cs.LG

TL;DR: QeRL是一个结合NVFP4量化和LoRA的强化学习框架,通过量化噪声增强探索,在减少内存开销的同时加速RL训练,首次实现在单张H100 80GB GPU上训练32B LLM。

  • Motivation: 传统RL训练LLM资源密集,需要大量GPU内存和长rollout时间,限制了大规模模型的应用。
  • Method: 结合NVFP4量化和LoRA,引入自适应量化噪声机制动态调整训练过程中的噪声。
  • Result: rollout阶段加速1.5倍以上,在7B模型上达到GSM8K 90.8%和MATH 500 77.4%的准确率,匹配全参数微调性能。
  • Conclusion: QeRL是LLM强化学习训练的高效有效框架,在保持性能的同时显著提升训练效率。

[246] Adversarial Attacks Leverage Interference Between Features in Superposition

Edward Stevinson,Lucas Prieto,Melih Barsbey,Tolga Birdal

Main category: cs.LG

TL;DR: 该论文提出对抗性漏洞源于神经网络中的高效信息编码机制,特别是叠加现象(网络表示的特征多于维度数),攻击者可以利用叠加特征间的干扰来创建对抗样本。

  • Motivation: 探讨对抗性样本产生的根本原因,现有观点将其归因于决策边界的不规则性或对非鲁棒特征的敏感性,而本文认为对抗性漏洞可能来自神经网络的高效信息编码。
  • Method: 通过分析叠加现象(superposition)如何创建可被利用的潜在表示排列,在精确控制叠加的合成设置中验证假设,并在CIFAR-10上训练的ViT模型中进行实证验证。
  • Result: 证明叠加足以产生对抗性漏洞,对抗扰动利用了叠加特征间的干扰,攻击模式可从特征排列中预测,解释了模型间攻击可迁移性和类特定漏洞模式。
  • Conclusion: 对抗性漏洞可能是网络表示压缩的副产品,而非学习过程的缺陷或非鲁棒输入的问题。

cs.RO

[247] Cross-Sensor Touch Generation

Samanta Rodriguez,Yiming Dou,Miquel Oller,Andrew Owens,Nima Fazeli

Main category: cs.RO

TL;DR: 提出了两种跨传感器触觉图像生成方法:Touch2Touch(端到端方法)和T2D2(通过深度表示的方法),解决了不同触觉传感器之间的模型通用性问题。

  • Motivation: 当前视觉触觉传感器形状和尺寸各异,导致难以开发通用触觉表示,大多数模型都依赖于特定的传感器设计。
  • Method: 1. Touch2Touch:端到端方法,利用配对数据;2. T2D2:构建中间深度表示,无需配对数据。两种方法都通过跨传感器触觉生成过程实现传感器特定模型的跨传感器使用。
  • Result: 在手持姿态估计和行为克隆等下游任务中验证了有效性,成功将在一个传感器上训练的模型迁移到另一个传感器。
  • Conclusion: 这些模型为传感器转换提供了灵活解决方案,可根据数据可用性和应用需求选择合适方法。

[248] Dejavu: Post-Deployment Learning for Embodied Agents via Experience Feedback

Shaokai Wu,Yanbiao Ji,Qiuchang Li,Zhiyi Zhang,Qichen He,Wenyuan Xie,Guodong Zhang,Bayram Bayramli,Yue Ding,Hongtao Lu

Main category: cs.RO

TL;DR: Dejavu是一个后部署学习框架,通过经验反馈网络(EFN)和检索执行记忆来增强冻结的视觉-语言-动作(VLA)策略,使具身代理能够在部署后持续学习。

  • Motivation: 解决具身代理在真实环境部署后无法获取新知识来提升任务性能的根本限制。
  • Method: 使用经验反馈网络(EFN)自动识别上下文成功的先验动作经验,并基于检索的指导条件化动作预测。采用带语义相似度奖励的强化学习来确保预测动作与当前观察下的过去成功行为一致。
  • Result: 在多样化具身任务实验中,EFN显著提高了适应性、鲁棒性和成功率,优于冻结基线。
  • Conclusion: Dejavu框架为实现部署后持续优化行为的具身代理提供了一条有前景的路径。

[249] X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

Jinliang Zheng,Jianxiong Li,Zhihao Wang,Dongxiu Liu,Xirui Kang,Yuchun Feng,Yinan Zheng,Jiayin Zou,Yilun Chen,Jia Zeng,Ya-Qin Zhang,Jiangmiao Pang,Jingjing Liu,Tai Wang,Xianyuan Zhan

Main category: cs.RO

TL;DR: 提出X-VLA模型,通过软提示方法整合跨具身机器人数据,在6个仿真和3个真实机器人上实现SOTA性能

  • Motivation: 解决通用视觉-语言-动作模型需要有效利用跨具身、异构机器人数据的问题,促进丰富多样机器人数据源的整合利用
  • Method: 提出软提示方法,为不同数据源引入可学习嵌入作为具身特定提示;构建基于流匹配的X-VLA架构,仅使用软提示的标准Transformer编码器
  • Result: 0.9B参数的X-VLA-0.9B在多个基准测试中同时实现SOTA性能,在灵活性、跨具身适应等方面表现优异
  • Conclusion: 软提示方法能有效利用跨具身特征,X-VLA架构兼具可扩展性和简单性,在多样化机器人任务中表现出色

[250] SuperEx: Enhancing Indoor Mapping and Exploration using Non-Line-of-Sight Perception

Kush Garg,Akshat Dave

Main category: cs.RO

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[251] SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams

Zhuoheng Gao,Jiyao Zhang,Zhiyong Xie,Hao Dong,Zhaofei Yu,Rongmei Chen,Guozhang Chen,Tiejun Huang

Main category: cs.RO

TL;DR: SpikeGrasp是一个神经启发的6-DoF抓取检测框架,直接处理来自立体脉冲相机的异步事件,无需构建3D点云,在杂乱和无纹理场景中表现优于传统方法。

  • Motivation: 传统机器人抓取系统依赖将传感器数据转换为3D点云,这与生物智能的处理方式不同。本文旨在探索一种更接近生物视觉运动通路的神经启发范式。
  • Method: 使用立体脉冲相机捕获原始异步事件,通过循环脉冲神经网络融合立体脉冲流,迭代优化抓取假设,完全避免点云重建。
  • Result: 实验表明SpikeGrasp在合成基准数据集上超越传统点云基线方法,特别是在杂乱和无纹理场景中,并展现出显著的数据效率优势。
  • Conclusion: SpikeGrasp证明了端到端神经启发方法的可行性,为开发具有自然界中流畅高效操作能力的系统铺平了道路,特别适用于动态物体抓取。

[252] Into the Unknown: Towards using Generative Models for Sampling Priors of Environment Uncertainty for Planning in Configuration Spaces

Subhransu S. Bhattacharjee,Hao Lu,Dylan Campbell,Rahul Shome

Main category: cs.RO

TL;DR: 提出了一种基于采样的流程,利用大规模预训练生成模型为零样本规划提供概率先验,能够从部分观测恢复完整的RGB-D点云,用于配置空间规划。

  • Motivation: 在部分可观测环境下规划需要先验知识,但实践中难以获得。本文旨在利用生成模型提供环境不确定性和空间语义关系的先验。
  • Method: 基于采样的流程,使用预训练生成模型从部分观测生成完整的RGB-D点云样本,包含占据和目标语义信息,可直接用于配置空间规划。
  • Result: 在Matterport3D基准测试中,方法恢复了与真实情况一致的常识空间语义,生成了多样化、干净的3D点云,可用于运动规划。
  • Conclusion: 生成模型作为机器人规划的丰富先验来源具有很大潜力,能够有效表示未观测区域的占据和目标位置不确定性。

[253] SCOOP'D: Learning Mixed-Liquid-Solid Scooping via Sim2Real Generative Policy

Kuanning Wang,Yongchong Gu,Yuqian Fu,Zeyu Shangguan,Sicheng He,Xiangyang Xue,Yanwei Fu,Daniel Seita

Main category: cs.RO

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

cs.CR

[254] SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents

Zonghao Ying,Yangguang Shao,Jianle Gan,Gan Xu,Junjie Shen,Wenxin Zhang,Quanchen Zou,Junzheng Shi,Zhenfei Yin,Mingchuan Zhang,Aishan Liu,Xianglong Liu

Main category: cs.CR

TL;DR: 提出了首个针对大型视觉语言模型网络代理的全面安全评估基准,包含6个模拟网络环境和2970条高质量轨迹,定义了6种攻击向量,通过三层评估协议分析9个代表性模型的安全漏洞。

  • Motivation: 现有安全评估基准覆盖范围有限,通常仅限于用户级提示操作等狭窄场景,无法捕捉网络代理的广泛漏洞,需要设计更全面的安全评估方法。
  • Method: 构建包含6个模拟网络环境的统一评估套件,定义6种攻击向量的结构化分类法,引入分析内部推理、行为轨迹和任务结果的三层评估协议,对9个代表性LVLM进行大规模实验。
  • Result: 所有测试代理都对微妙的对抗性操作持续脆弱,揭示了模型专业化与安全性之间的关键权衡。
  • Conclusion: 该基准通过提供全面的基准套件和关于现代LVLM网络代理安全挑战的实证见解,为推进可信网络代理部署奠定了基础。

[255] ArtPerception: ASCII Art-based Jailbreak on LLMs with Recognition Pre-test

Guan-Yan Yang,Tzu-Yu Cheng,Ya-Wen Teng,Farn Wanga,Kuo-Hui Yeh

Main category: cs.CR

TL;DR: ArtPerception是一个新颖的黑盒越狱框架,利用ASCII艺术绕过最先进LLM的安全措施,通过两阶段方法实现高效的一次性恶意攻击。

  • Motivation: 现有安全对齐主要关注语义解释,使LLM容易受到使用非标准数据表示的攻击。需要防御多模态解释空间,即使在纯文本输入中。
  • Method: 两阶段方法:阶段1进行一次性模型特定预测试,经验性地确定ASCII艺术识别的最佳参数;阶段2利用这些洞察发起高效的一次性恶意越狱攻击。使用改进的Levenshte距离(MLD)指标评估LLM识别能力。
  • Result: 在四个最先进的开源LLM上展示了优越的越狱性能,成功转移到GPT-4o、Claude Sonnet 3.7和DeepSeek-V3等商业模型,并对LLaMA Guard和Azure内容过滤器等防御进行了有效性分析。
  • Conclusion: 真正的LLM安全需要防御多模态解释空间,即使在纯文本输入中,并突显了基于侦察的战略攻击的有效性。

cs.IR

[256] MTMD: A Multi-Task Multi-Domain Framework for Unified Ad Lightweight Ranking at Pinterest

Xiao Yang,Peifeng Yin,Abe Engle,Jinfeng Zhuang,Ling Leng

Main category: cs.IR

TL;DR: 提出了一种多任务多领域(MTMD)架构,用于轻量级广告排序层的联合优化,通过专家混合架构和领域适应模块实现跨领域知识共享和迁移。

  • Motivation: 解决广告推荐系统中多优化任务(如CTR、CVR)、多广告产品(购物广告、标准广告)和多投放场景(首页信息流、搜索等)的联合优化问题,最大化平台、广告主和用户的价值。
  • Method: 基于双塔范式构建MTMD架构,使用专家混合架构学习领域专有知识和共享知识,引入领域适应模块促进专家间知识迁移,并对不同预测任务进行约束建模。
  • Result: 离线损失值降低12%-36%,对应在线每次点击成本降低2%,已部署到生产环境替代9个生产模型。
  • Conclusion: MTMD框架能够有效统一处理多任务多领域的广告推荐问题,通过知识共享和迁移显著提升模型性能,实现单一模型替代多个专用模型的目标。

cs.GR

[257] CLoD-GS: Continuous Level-of-Detail via 3D Gaussian Splatting

Zhigang Cheng,Mingchao Sun,Yu Liu,Zengye Ge,Luyang Tang,Mu Xu,Yangyan Li,Peng Pan

Main category: cs.GR

TL;DR: 提出了CLoD-GS框架,将连续细节层次机制集成到3D高斯泼溅表示中,通过可学习的距离相关衰减参数实现平滑的细节缩放,解决了传统离散LoD方法的存储开销和视觉伪影问题。

  • Motivation: 传统离散细节层次方法需要存储多个模型副本且会产生视觉'弹出'伪影,而新兴的3D高斯泼溅技术的显式基元特性为实现连续细节层次提供了理想基础。
  • Method: 为每个高斯基元引入可学习的距离相关衰减参数,动态调整其不透明度;采用虚拟距离缩放机制和从粗到细的训练策略,结合渲染点数量正则化。
  • Result: CLoD-GS从单一模型实现了平滑、质量可扩展的渲染,在广泛性能目标下提供高保真结果,同时减少了基元数量和内存占用。
  • Conclusion: 该方法成功消除了离散方法的存储开销和视觉伪影,证明了在3D高斯泼溅表示中实现连续细节层次的可行性。

[258] VLM-Guided Adaptive Negative Prompting for Creative Generation

Shelly Golan,Yotam Nitzan,Zongze Wu,Or Patashnik

Main category: cs.GR

TL;DR: 提出了一种无需训练、在推理时使用视觉语言模型引导自适应负提示的方法,通过分析生成过程中的中间输出来引导生成远离传统视觉概念,从而促进创造性图像生成。

  • Motivation: 当前文本到图像扩散模型虽然能生成逼真场景,但难以产生真正新颖的内容。现有增强生成创造性的方法要么局限于预定义类别,要么需要耗时的优化过程。
  • Method: VLM引导的自适应负提示方法,利用视觉语言模型分析生成过程的中间输出,自适应地引导生成远离常规视觉概念,鼓励新颖和令人惊讶的输出。
  • Result: 通过CLIP嵌入空间的统计指标评估,在创造性新颖性方面取得一致提升,计算开销可忽略。方法可扩展到复杂场景,生成连贯的创造性对象集。
  • Conclusion: 该方法可无缝集成到现有扩散管道中,为生成超越文本描述限制的创造性输出提供了实用途径。

eess.IV

[259] Generative Latent Video Compression

Zongyu Guo,Zhaoyang Jia,Jiahao Li,Xiaoyi Zhang,Bin Li,Yan Lu

Main category: eess.IV

TL;DR: GLVC是一个基于生成式潜在模型的视频压缩框架,通过预训练连续标记器将视频帧映射到感知对齐的潜在空间,实现了优异的感知压缩性能,在DISTS和LPIPS指标上达到SOTA,用户研究表明其能以近一半的码率媲美最新神经视频编解码器。

  • Motivation: 解决神经视频压缩中感知优化与率失真权衡的挑战,特别是帧间质量波动导致的闪烁伪影问题,需要开发能够保持时间一致性的感知视频压缩方法。
  • Method: 使用预训练连续标记器将视频帧投影到感知对齐的潜在空间,重新设计潜在域编解码架构,引入统一帧内/帧间编码和循环记忆机制。
  • Result: 在多个基准测试中,GLVC在DISTS和LPIPS指标上达到最先进性能,用户研究证实其能以近一半码率媲美最新神经视频编解码器,同时保持稳定的时间一致性。
  • Conclusion: GLVC框架在感知视频压缩方面取得了重要进展,通过潜在生成模型有效解决了率失真感知权衡问题,标志着向实用感知视频压缩迈出了一步。

[260] Towards Efficient 3D Gaussian Human Avatar Compression: A Prior-Guided Framework

Shanzhi Yin,Bolin Chen,Xinju Wu,Ru-Ling Liao,Jie Chen,Shiqi Wang,Yan Ye

Main category: eess.IV

TL;DR: 提出了一种高效的3D虚拟人编码框架,通过紧凑的人体先验和规范到目标变换,在超低比特率下实现高质量的3D虚拟人视频压缩。

  • Motivation: 为了在元宇宙应用中实现无缝的沉浸式多媒体体验,需要开发能够在超低比特率下保持高质量3D虚拟人视频的压缩方法。
  • Method: 使用无网络方式训练规范高斯虚拟人作为外观建模基础,同时利用人体先验模板通过紧凑参数化表示捕捉时序身体运动。通过线性混合蒙皮变换将规范虚拟人变形为目标虚拟人。
  • Result: 实验结果表明,该方法在主流的多人视频数据集上,在率失真性能方面显著优于传统的2D/3D编解码器和现有的可学习动态3D高斯溅射压缩方法。
  • Conclusion: 该框架通过分解外观和时序演化最小化冗余,为元宇宙应用中的沉浸式多媒体体验铺平了道路。

[261] JND-Guided Light-Weight Neural Pre-Filter for Perceptual Image Coding

Chenlong He,Zijing Dong,Min Li,Zhijian Hao,Leilei Huang,Xiaoyang Zeng,Yibo Fan

Main category: eess.IV

TL;DR: 提出了FJNDF-Pytorch统一基准平台和轻量级CNN框架,在图像压缩效率和计算成本方面均达到最优性能

  • Motivation: 现有JND引导预滤波器方法计算成本高,且缺乏标准化基准进行公平比较
  • Method: 开发开源FJNDF-Pytorch基准平台,并提出完整的轻量级CNN学习框架
  • Result: 在多个数据集和编码器上均优于竞争对手,处理1080p图像仅需7.15 GFLOPs(仅为最近轻量级网络成本的14.1%)
  • Conclusion: 提供了一个在性能和效率方面均表现优异的稳健解决方案,并支持可重复研究平台

[262] Generalisation of automatic tumour segmentation in histopathological whole-slide images across multiple cancer types

Ole-Johan Skrede,Manohar Pradhan,Maria Xepapadakis Isaksen,Tarjei Sveinsgjerd Hveem,Ljiljana Vlatkovic,Arild Nesbakken,Kristina Lindemann,Gunnar B Kristensen,Jenneke Kasius,Alain G Zeimet,Odd Terje Brustugun,Lill-Tove Rasmussen Busund,Elin H Richardsen,Erik Skaaheim Haug,Bjørn Brennhovd,Emma Rewcastle,Melinda Lillesand,Vebjørn Kvikstad,Emiel Janssen,David J Kerr,Knut Liestøl,Fritz Albregtsen,Andreas Kleppe

Main category: eess.IV

TL;DR: 开发了一个通用的肿瘤分割模型,在多种癌症类型中表现良好,Dice系数超过80%,性能与专门针对单一癌症类型的模型相当。

  • Motivation: 深度学习有望通过自动化任务如肿瘤分割来帮助病理学家,目标是开发一个适用于不同癌症类型的通用肿瘤分割模型。
  • Method: 使用来自4000多名患者的20000多张全切片图像开发模型,涵盖结直肠癌、子宫内膜癌、肺癌和前列腺癌。在3000多名患者的六个癌症类型的外部队列中进行验证。
  • Result: 在所有验证队列和癌症基因组图谱队列中,平均Dice系数均超过80%。通用模型与专门针对单一癌症类型的模型相比没有性能损失。
  • Conclusion: 广泛而严格的评估表明,单一模型可以在不同癌症类型、患者群体、样本制备和切片扫描仪之间实现通用的肿瘤分割。

physics.optics

[263] Enabling High-Quality In-the-Wild Imaging from Severely Aberrated Metalens Bursts

Debabrata Mandal,Zhihan Peng,Yujie Wang,Praneeth Chakravarthula

Main category: physics.optics

TL;DR: 提出了一种端到端的超薄纳米光子金属透镜相机成像解决方案,通过轻量级卷积网络和内存高效的连拍融合算法,在真实手持拍摄中显著优于现有方法。

  • Motivation: 金属透镜虽然能大幅减小相机尺寸和重量,但存在严重色差、明显光散射、窄光谱带宽和低光效等问题,限制了实际应用。
  • Method: 采用端到端解决方案,将超薄金属透镜与定制的多图像恢复框架结合,使用轻量级卷积网络和内存高效的连拍融合算法,自适应校正噪声、饱和裁剪和透镜引起的畸变。
  • Result: 在多样化真实世界手持拍摄的广泛实验中,该方法始终优于现有的连拍模式和单图像恢复技术。
  • Conclusion: 这些结果为在日常成像应用中部署基于金属透镜的相机提供了一条实用途径。