Skip to content
每日arXiv - 2025年9月5日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Towards Efficient General Feature Prediction in Masked Skeleton Modeling

Shengkai Sun,Zefan Zhang,Jianfeng Dong,Zhiyong Cheng,Xiaojun Chang,Meng Wang

Main category: cs.CV

TL;DR: 提出GFP框架,用高级特征预测替代传统低级坐标重建,实现高效骨架动作识别

  • Motivation: 现有MAE方法局限于原始关节坐标重建,导致计算冗余和语义表示有限
  • Method: 轻量级目标生成网络动态产生多样化监督信号,采用约束优化确保特征多样性
  • Result: 训练速度提升6.2倍,在NTU和PKU-MMD数据集上达到SOTA性能
  • Conclusion: 高级特征预测框架在计算效率和表示质量方面均优于传统方法

[2] Teacher-Student Model for Detecting and Classifying Mitosis in the MIDOG 2025 Challenge

Seungho Choe,Xiaoli Qin,Abubakr Shafique,Amanda Dy,Dimitri Androutsos,Susan Done,April Khademi

Main category: cs.CV

TL;DR: 通过教师-学生模型和基于UNet的分割方法,结合对比表征学习和域对抗训练,实现了聚合分裂检测和非典型聚合分裂分类的统一框架,有效应对域假移和数据不平衡问题

  • Motivation: 解决疾病理学家在计数聚合分裂时的时间消耗和观察者间变异性,同时应对AI工具遇到的域假移问题和数据不平衡挑战
  • Method: 使用教师-学生策略和UNet分割背骨,集成对比表征学习和域对抗训练模块,为注释聚合分裂、难以识别的负样本和正常核生成像素级假掩码,并在多任务学习框架中使用多尺度CNN分类器
  • Result: 在预测试集上,算法在轨道一聚合分裂检测任务中获得F1分数0.7660,在轨道二非典型聚合分裂分类任务中获得平衡准确率0.8414
  • Conclusion: 集成基于分割的检测和分类方法到统一框架中,能够有效地实现健壮的聚合分裂分析,应对域假移和数据不平衡挑战

[3] Multi Attribute Bias Mitigation via Representation Learning

Rajeev Ranjan Dwivedi,Ankur Kumar,Vinod K Kurmi

Main category: cs.CV

TL;DR: GMBM是一个两阶段框架,通过自适应偏差集成学习和梯度抑制微调来解决多偏差问题,无需测试时组标签,显著提升最差组准确率并降低偏差放大。

  • Motivation: 现实世界图像存在多种重叠偏差(纹理、水印、性别特征等),这些偏差会损害视觉模型的鲁棒性和公平性。单独处理每个偏差效果有限,因为缓解一个偏差往往会导致其他偏差加剧。
  • Method: 1. 自适应偏差集成学习(ABIL):为每个属性训练编码器并与主干网络集成,强制分类器显式识别这些偏差
  1. 梯度抑制微调:从主干梯度中修剪偏差方向,得到忽略所有学习到的捷径的紧凑网络
  2. 引入Scaled Bias Amplification(SBA)指标来区分模型引起的偏差放大和分布差异
  • Result: 在FB CMNIST、CelebA和COCO数据集上验证,提升了最差组准确率,将多属性偏差放大减半,在SBA指标上创下新低,即使偏差复杂度和分布变化加剧。
  • Conclusion: GMBM是第一个实用的端到端多偏差解决方案,适用于视觉识别任务,能够在训练时仅需组标签,测试时最小化偏差。

[4] Lightweight image segmentation for echocardiography

Anders Kjelsrud,Lasse Løvstakken,Erik Smistad,Håvard Dalen,Gilles Van De Vyver

Main category: cs.CV

TL;DR: 这篇论文通过细完整的罚除研究识别了nnU-Net在心臀分割中的关键有效组件,开发了一种轻量级U-Net模型,在保持类似nnU-Net性能的同时大大减少了模型规模和计算时间。

  • Motivation: 虽然nnU-Net在心臀彩超分割中表现良好,但模型过大过慢,限制了实时应用。需要找到保持性能的同时大幅缩减模型规模的方法。
  • Method: 通过系统性的罚除研究,逐步评估了数据增帿方案、网络结构修改、损失函数和后处理技术对性能的影响。基于发现的关键因素,设计了轻量级U-Net模型。
  • Result: 新模型参数量从33M降到2M(减少16倍),处理速度从5.40ms提升到1.35ms(提高4倍),而在CAMUS数据集上的Dice分数保持统计学无显著差异(LV:0.93、MYO:0.85、LA:0.89)。跨数据集验证也显示了相似的通用性。
  • Conclusion: 简单的affine增帿和深度监督是驱动性能的关键因素,而复杂的增帿和大模型容量带来的收益逐渐减少。通过细心的组件分析,可以在保持分割性能的同时实现大幅度的模型缩减。

[5] treeX: Unsupervised Tree Instance Segmentation in Dense Forest Point Clouds

Josafat-Mattias Burmeister,Andreas Tockner,Stefan Reder,Markus Engel,Rico Richter,Jan-Peter Mund,Jürgen Döllner

Main category: cs.CV

TL;DR: 基于旧版treeX算法的改进版本,通过两种参数预设支持地面和无人机扫描数据,在保持资源高效的同时提升了准确性和运行速度。

  • Motivation: 虽然深度学习方法在树木实例分割中表现出色,但需要大量标注数据和计算资源,因此需要一种资源效率更高的无监督方法作为替代方案。
  • Method: 改进的treeX算法,结合聚类基础的树干检测和区域生长的树冠划分方法,提供了地面扫描和无人机扫描两种参数预设。
  • Result: 在6个公开数据集上评估,与原版treeX相比,运行时间减少且准确性提升(F1分数提升0.11-0.49)。在ULS数据上达到0.58的F1分数,而原算法失败。与深度学习方法类似。
  • Conclusion: 该方法可作为深度学习的资源效率替代方案,也可用于半自动生成深度学习模型的标签。开源Python实现举pointtree包。

[6] Reg3D: Reconstructive Geometry Instruction Tuning for 3D Scene Understanding

Hongpei Zheng,Lintao Xiang,Qijun Yang,Qian Lin,Hujun Yin

Main category: cs.CV

TL;DR: Reg3D是一个创新的重建几何指令调优框架,通过将几何感知监督直接整合到训练过程中,解决了现有方法仅依赖文本监督的局限性,显著提升了3D场景理解能力。

  • Motivation: 大型多模态模型在2D视觉理解方面取得了显著进展,但扩展到3D场景理解仍面临挑战。现有方法主要依赖纯文本监督,无法提供学习稳健3D空间表示所需的几何约束。
  • Method: 采用双监督范式,在双编码器架构中设计互补的对象级和帧级重建任务,既将3D几何信息作为输入,也作为显式学习目标,强制几何一致性以促进空间推理能力的发展。
  • Result: 在ScanQA、Scan2Cap、ScanRefer和SQA3D等数据集上的广泛实验表明,Reg3D带来了显著的性能提升。
  • Conclusion: Reg3D为空间感知多模态模型建立了一个新的训练范式,通过重建底层几何结构而非仅仅描述它们,实现了有效的3D理解。

[7] QuantV2X: A Fully Quantized Multi-Agent System for Cooperative Perception

Seth Z. Zhao,Huizhi Zhang,Zhaowei Li,Juntong Peng,Anthony Chui,Zewei Zhou,Zonglin Meng,Hao Xiang,Zhiyu Huang,Fujia Wang,Ran Tian,Chenfeng Xu,Bolei Zhou,Jiaqi Ma

Main category: cs.CV

TL;DR: QuantV2X是首个完全量化的多模态多智能体V2X协同感知系统,通过统一的端到端量化策略,在保持精度的同时显著降低了计算负载和传输带宽,系统延迟减少3.2倍,mAP30提升9.5。

  • Motivation: 现有V2X协同感知研究主要关注精度指标,忽视了效率、延迟和实际部署等关键系统级考虑。大多数系统依赖全精度模型,计算和传输成本高,难以在资源受限环境中实时运行。
  • Method: 提出QuantV2X系统,采用统一的端到端量化策略,同时对神经网络模型和传输消息表示进行量化,减少计算负载和传输带宽。
  • Result: 在低比特约束下达到与全精度系统相当的精度,系统级延迟减少3.2倍,mAP30提升9.5,能更有效地扩展模型规模以适应严格的内存预算。
  • Conclusion: QuantV2X证明了完全量化的多智能体中间融合系统在实际部署中的可行性,为V2X协同感知的实用化提供了有效解决方案。

[8] Transfer Learning-Based CNN Models for Plant Species Identification Using Leaf Venation Patterns

Bandita Bharadwaj,Ankur Mishra,Saurav Bharadwaj

Main category: cs.CV

TL;DR: 深度学习模型在植物叶脉分类中的性能评估,EfficientNetB0表现最优

  • Motivation: 评估不同深度学习模型在基于植物叶脉图案进行自动种类分类的效果,叶脉图案是具有高分类学相关性的关键形态特征
  • Method: 使用瑞典叶片数据集(15种植物,1125张图片),比较ResNet50、MobileNetV2和EfficientNetB0三种深度学习模型的训练和测试性能
  • Result: ResNet50训练准确率94.11%但存在过拟合,测试准确率88.45%;MobileNetV2测试准确率93.34%,具有更好的普通化能力;EfficientNetB0表现最优,测试准确率94.67%,准确率、召回率和F1分数均超194.6%
  • Conclusion: 深度学习特别是EfficientNetB0在基于叶脉特征的自动植物分类中具有强大潜力,能够开发出可扩展且准确的分类工具

[9] LayoutGKN: Graph Similarity Learning of Floor Plans

Casper van Engelenburg,Jan van Gemert,Seyran Khademi

Main category: cs.CV

TL;DR: LayoutGKN是一种更高效的图匹配方法,通过将跨图节点级交互推迟到联合嵌入架构的末端,使用可微分图核作为距离函数,在保持相似性能的同时显著提升速度

  • Motivation: 平面图通常表示为图结构以捕捉空间关系,现有图匹配网络依赖昂贵的中间跨图节点级交互,导致推理时间缓慢
  • Method: 使用可微分图核作为最终学习节点嵌入的距离函数,将跨图节点级交互推迟到联合嵌入架构的末端
  • Result: LayoutGKN在计算相似性方面与图匹配网络相当或更好,同时显著提高了速度
  • Conclusion: LayoutGKN提供了一种更高效的图匹配方法,适用于搜索、聚类和数据可视化等应用,代码和数据已开源

[10] Singular Value Few-shot Adaptation of Vision-Language Models

Taha Koleilat,Hassan Rivaz,Yiming Xiao

Main category: cs.CV

TL;DR: CLIP-SVD是一种基于奇异值分解的多模态参数高效适应方法,仅需调整0.04%的参数即可实现CLIP模型的领域适应,在自然和生物医学数据集上达到最先进性能。

  • Motivation: 现有的视觉语言模型适应方法依赖提示工程和全模型微调,成本高且可能破坏预训练知识,需要更高效的适应技术。
  • Method: 使用奇异值分解(SVD)修改CLIP参数矩阵的奇异值,通过重新缩放基向量实现领域适应,无需注入额外模块。
  • Result: 在11个自然数据集和10个生物医学数据集上实现了最先进的分类结果,在少样本设置下准确率和泛化能力均优于先前方法。
  • Conclusion: CLIP-SVD提供了一种参数高效、性能优越且可解释的CLIP适应方法,能够更好地保持模型的泛化能力。

[11] STA-Net: A Decoupled Shape and Texture Attention Network for Lightweight Plant Disease Classification

Zongsen Qiu

Main category: cs.CV

TL;DR: 本文提出STA-Net模型,通过连接基于DeepMAD的轻量化网络和形状-纹理注意力模块(STAM),解决了边缘设备上植物病害识别的挑战。STAM使用可变卷积和Gabor滤波器分别抓取病变形状和纹理特征,在CCMT数据集上达到89.00%的准确率。

  • Motivation: 精准农业中植物病害识别需要在边缘设备上部署高精度模型,但现有轻量化模型使用通用的注意机制,无法有效抓取植物病变的缩微特征如不规则病变形状和复杂纹理。
  • Method: 1. 使用无需训练的神经网络架构搜索方法DeepMAD构建高效轻量网络背榜
  1. 提出形状-纹理注意力模块(STAM),通过两个分支分别处理:使用可变卷积(DCNv4)抓取形状特征,使用Gabor滤波器组抓取纹理特征
  • Result: 在CCMT植物病害数据集上,STA-Net模型(401K参数,51.1M FLOPs)达到了89.00%的准确率和88.96%的F1分数。消融实验证明STAM模块显著提升了基线模型和标准注意力模型的性能。
  • Conclusion: 通过解耦注意力机制整合领域知识,为边缘部署的精准农业AI提供了有前景的解决方案。

[12] SLENet: A Guidance-Enhanced Network for Underwater Camouflaged Object Detection

Xinxin Wang,Han Sun,Ningzhong Liu,Huiyu Zhou,Yinan Yao

Main category: cs.CV

TL;DR: 本文提出了水下伪装目标检测(UCOD)任务,创建了DeepCamo基准数据集,并开发了SLENet框架,通过Gamma-Asymmetric Enhancement模块和Localization Guidance Branch提升检测性能,在多个数据集上验证了其优越性。

  • Motivation: 水下伪装目标检测对海洋生态学至关重要,但现有研究不足,受到光学失真、水体浑浊和海洋生物复杂特性的严重阻碍,需要专门的方法来解决这些挑战。
  • Method: 提出了SLENet框架,包含Gamma-Asymmetric Enhancement(GAE)模块增强多尺度特征表示,Localization Guidance Branch(LGB)生成富含全局语义信息的位置图,Multi-Scale Supervised Decoder(MSSD)进行准确预测。
  • Result: 在DeepCamo数据集和三个基准COD数据集上的实验表明,SLENet性能优于现有最先进方法,并显示出对更广泛COD任务的高度通用性。
  • Conclusion: SLENet框架有效解决了水下伪装目标检测的挑战,为海洋生态研究和相关应用提供了有力的技术支撑,具有重要的实际应用价值。

[13] Fitting Image Diffusion Models on Video Datasets

Juhun Lee,Simon S. Woo

Main category: cs.CV

TL;DR: 通过利用连续视频帧的时间归纳偏置改善图像滿散模型训练,加速收敛速度超2倍,提高生成质量和多样性

  • Motivation: 传统图像滿散模型在独立采样的静态图像上训练,无法充分利用时间序列信息,导致收敛慢、分布覆盖有限和一般化能力不足
  • Method: 提出简单有效的训练策略,利用连续视频帧的时间归纳偏置改善滿散训练,无需改变网络结构,可无缝集成到标准训练流程
  • Result: 在HandCo数据集上评估,方法加速收敛超2倍以上,在训练和验证集上都获得更低的FID分数,同时提高了生成的多样性,通过损失正则化降低梯度方差
  • Conclusion: 利用视频帧的时间信息可以显著改善图像滿散模型的训练效果,方法简单有效且无需改变网络结构

[14] MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting

Yuheng Li,Yenho Chen,Yuxiang Lai,Jike Zhong,Vanessa Wildman,Xiaofeng Yang

Main category: cs.CV

TL;DR: MedVista3D是一个用于3D CT分析的多尺度语义增强视觉语言预训练框架,通过局部和全局图像文本对齐解决放射诊断中的漏读错误和沟通失败问题,在多个任务上达到最先进性能。

  • Motivation: 放射诊断错误(漏读错误、注意力盲区和沟通失败)在临床实践中仍然普遍存在,特别是在3D成像中需要检查数百个切片,现有3D视觉语言模型无法同时满足精确局部检测、全局体积级推理和语义一致的自然语言报告需求。
  • Method: MedVista3D采用多尺度语义增强视觉语言预训练框架,执行局部和全局图像文本对齐进行细粒度表示学习,使用语言模型重写和引入放射学语义匹配库来处理报告变异性。
  • Result: MedVista3D在零样本疾病分类、报告检索和医学视觉问答方面达到最先进性能,同时在器官分割和预后预测任务上表现出良好的迁移能力。
  • Conclusion: MedVista3D通过结合局部-全局理解和语义感知对齐,有效解决了3D放射诊断中的关键挑战,为临床实践提供了强大的辅助诊断工具。

[15] Causality-guided Prompt Learning for Vision-language Models via Visual Granulation

Mengyu Gao,Qiulei Dong

Main category: cs.CV

TL;DR: CaPL是一种基于因果推理的视觉粒度化提示学习方法,通过属性解耦和粒度学习模块,显著提升了CLIP模型在细粒度识别任务上的性能

  • Motivation: 现有的CLIP提示学习方法在处理细粒度数据集时表现有限,需要一种能够捕捉类别间细微差异的方法
  • Method: 包含两个模块:1)属性解耦模块使用布朗桥扩散模型将视觉特征分解为共享属性和特定属性;2)粒度学习模块通过因果推理策略整合属性构建视觉粒度
  • Result: 在15个数据集上的实验表明,CaPL方法显著优于最先进的提示学习方法,特别是在细粒度数据集上
  • Conclusion: 通过视觉粒度化和因果推理,CaPL方法能够学习更具判别性的文本提示,有效提升CLIP在细粒度识别任务中的性能

[16] EGTM: Event-guided Efficient Turbulence Mitigation

Huanan Li,Rui Fan,Juntao Guan,Weidong Hao,Lai Rui,Tong Wu,Yikai Wang,Lin Gu

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于事件相机的空气氛氛流减弱方法,通过事件流的逆时空分布提取元素级的氛流免指导信息,实现了比现有方法更高效的氛流恢复效果。

  • Motivation: 现有的深度学习氛流减弱方法需要大容量网络学习同步帧间的粗粒度氛流动力学,计算和存储效率低。事件相机具有微秒级时间分辨率,可以根本解决这个瓶颈。
  • Method: 提出了"事件幸运见解",揭示氛流扭曲与事件流逆时空分布的相关性,并构建了EGTM框架,从噪声氛流事件中提取像素级的可靠氛流免指导信息进行时间幸运融合。
  • Result: 在真实世界EGTM数据集上,方法在恢复质量上达到最佳水平(PSNR提升0.94,SSIM提升0.08),同时模型大小、推理延迟和复杂度分别减少了710倍、214倍和224倍。
  • Conclusion: 这个工作证明了将事件模态引入氛流减弱任务的巨大效率优势,为高效氛流恢复提供了新的解决方案。

[17] Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection

Nan Yang,Yang Wang,Zhanwen Liu,Yuchao Dai,Yang Liu,Xiangmo Zhao

Main category: cs.CV

TL;DR: FocusMamba通过事件引导的多模态稀疏化和跨模态聚焦融合,实现了RGB-事件检测中精度与效率的更好平衡

  • Motivation: 现有RGB-事件检测方法在处理两种模态的低信息区域时采用统一处理方式,导致计算成本高且性能不佳,需要更智能的特征稀疏化方法
  • Method: 提出事件引导多模态稀疏化(EGMS)策略,利用事件相机感知的场景变化来自适应丢弃各模态中的低信息区域;设计跨模态聚焦融合(CMFF)模块来有效整合互补特征
  • Result: 在DSEC-Det和PKU-DAVIS-SOD数据集上的实验表明,该方法在准确性和效率方面均优于现有方法
  • Conclusion: FocusMamba通过自适应协作稀疏化和高效融合机制,成功解决了RGB-事件检测中的计算冗余问题,实现了更好的性能平衡

[18] SalientFusion: Context-Aware Compositional Zero-Shot Food Recognition

Jiajun Song,Xiaoou Liu

Main category: cs.CV

TL;DR: 提出了组合零样本食物识别任务(CZSFR),解决背景冗余、主副食角色混淆和语义偏差三大挑战,通过SalientFusion方法在新建基准数据集上取得SOTA效果

  • Motivation: 传统食物识别方法难以处理新出现的菜品类别,需要零样本学习能力。组合零样本学习中的属性和对象概念与菜系和食材天然对应,但存在背景干扰、角色混淆和语义偏差等问题
  • Method: 提出SalientFusion方法,包含SalientFormer(去除背景冗余,利用深度特征解决角色混淆)和DebiasAT(通过提示词与视觉特征对齐减少语义偏差)两个组件
  • Result: 在新建的CZSFood-90和CZSFood-164基准数据集上达到最先进水平,同时在通用CZSL数据集上也表现优异
  • Conclusion: SalientFusion方法有效解决了CZSFR中的关键挑战,为零样本食物识别提供了有效的解决方案,代码已开源

[19] Human Motion Video Generation: A Survey

Haiwei Xue,Xiangyang Luo,Zhanghao Hu,Xin Zhang,Xunzhi Xiang,Yuqin Dai,Jianzhuang Liu,Zhensong Zhang,Minglei Li,Jian Yang,Fei Ma,Zhiyong Wu,Changpeng Yang,Zonghong Dai,Fei Richard Yu

Main category: cs.CV

TL;DR: 这是一份关于人体运动视频生成的综述性论文,系统分析了该领域的生成过程五个关键阶段,涵盖十余个子任务,并首次讨论了大语言模型在该领域的应用潜力。

  • Motivation: 现有的调查研究主要集中于单个方法,缺乏对整个人体运动视频生成过程的系统性概述。本文填补了这一空白,通过涉及超过200篇论文的深度调查,为该领域提供全面的技术概览。
  • Method: 本文采用系统化的研究方法,将人体运动视频生成过程分解为五个关键阶段:输入、运动规划、运动视频生成、精炼和输出。这个框架涵盖了视觉、文本和音频三种主要模态,以及超过10个子任务。
  • Result: 该综述性研究提供了一个完整的人体运动视频生成技术地图,标记了领域内的里程碑式研究成果。论文还首次探讨了大语言模型在该领域的应用潜力,为未来研究指明了新方向。
  • Conclusion: 本文为人体运动视频生成领域提供了一个系统的研究框架和技术概览,揭示了该技术的广阔应用前景。这份综述将成为推动数字人类全面应用的重要资源和参考。

[20] OccTENS: 3D Occupancy World Model via Temporal Next-Scale Prediction

Bu Jin,Songen Gu,Xiaotao Hu,Yupeng Zheng,Xiaoyang Guo,Qian Zhang,Xiaoxiao Long,Wei Yin

Main category: cs.CV

TL;DR: OccTENS是一个生成式占用世界模型,通过时间下一尺度预测任务解决长期占用生成中的效率、时间退化和可控性问题,在保持计算效率的同时实现高质量可控生成。

  • Motivation: 现有的自回归方法在占用世界模型中存在效率低下、长期生成时间退化以及缺乏可控性等问题,需要一种能够同时处理精细3D几何和动态演化的高效解决方案。
  • Method: 将占用世界模型重新表述为时间下一尺度预测(TENS)任务,通过TensFormer管理时间因果关系和空间关系,并采用整体姿态聚合策略增强姿态可控性。
  • Result: 实验表明OccTENS在占用质量和推理时间方面均优于最先进方法,实现了更高的生成质量和更快的推理速度。
  • Conclusion: OccTENS通过创新的时间下一尺度预测框架和姿态控制策略,成功解决了占用世界模型生成中的关键挑战,为可控高效的长期3D场景生成提供了有效解决方案。

[21] Weakly-Supervised Learning of Dense Functional Correspondences

Stefan Stojanov,Linan Zhao,Yunzhi Zhang,Daniel L. K. Yamins,Jiajun Wu

Main category: cs.CV

TL;DR: 提出了一种弱监督学习方法,利用视觉语言模型为多视角图像伪标注功能部件,结合密集对比学习来建立密集功能对应关系,在跨类别物体匹配任务中表现优于基线方法。

  • Motivation: 在不同类别物体间建立密集对应关系时,物体功能(即物体对其他物体的影响效果)可以指导对应关系的建立,因为实现特定功能的对象部件通常在形状和外观上具有相似性。
  • Method: 利用视觉语言模型为多视角图像伪标注功能部件,然后与基于像素对应的密集对比学习相结合,将功能和空间知识蒸馏到新模型中,从而建立密集功能对应关系。
  • Result: 构建了合成和真实评估数据集作为任务基准,实验结果表明该方法优于由现成自监督图像表示和基于视觉语言模型的基线解决方案。
  • Conclusion: 该方法通过结合视觉语言模型的伪标注能力和密集对比学习,成功建立了跨类别物体的密集功能对应关系,为形状重建和机器人操作等任务提供了有效解决方案。

[22] Attn-Adapter: Attention Is All You Need for Online Few-shot Learner of Vision-Language Model

Phuoc-Nguyen Bui,Khanh-Binh Nguyen,Hyunseung Choo

Main category: cs.CV

TL;DR: Attn-Adapter是一种新颖的在线少样本学习框架,通过双重注意力机制增强CLIP的适应性,无需重新训练基础模型即可实现动态适应

  • Motivation: 对比视觉语言模型在零样本图像识别方面表现出色,但在少样本场景下面临挑战,因为需要计算密集的离线微调,容易过拟合
  • Method: 提出双注意力机制:Memory Attn-Adapter使用支持样本细化类别嵌入,Local-Global Attn-Adapter通过整合局部和全局特征丰富图像嵌入
  • Result: 在跨类别和跨数据集泛化方面优于最先进方法,保持高效推理并在不同CLIP骨干网络上具有良好的扩展性
  • Conclusion: Attn-Adapter框架有效解决了CLIP在少样本学习中的局限性,实现了动态适应和优异的泛化性能

[23] SPECS: Specificity-Enhanced CLIP-Score for Long Image Caption Evaluation

Xiaofu Chen,Israfel Salazar,Yova Kementchedjhieva

Main category: cs.CV

TL;DR: SPECS是一个针对长图像描述任务设计的无参考评估指标,通过改进CLIP模型来强调特异性,在保持与人类判断高度相关的同时大幅提升计算效率

  • Motivation: 现有评估指标存在不足:n-gram指标无法捕捉语义正确性,基于表示相似性的指标计算成本高且与人类判断相关性低,LLM指标虽然相关性强但计算成本过高,不适合模型开发中的迭代评估
  • Method: 改进CLIP模型,引入新的目标函数来强调特异性——奖励正确细节并惩罚错误细节,从而构建SPECS指标
  • Result: SPECS在相关性方面与开源LLM指标相当,但计算效率显著更高,适合在图像描述模型开发中进行迭代检查点评估
  • Conclusion: SPECS提供了一个实用高效的替代方案,能够在保持评估质量的同时大幅降低计算成本,促进图像描述模型的迭代开发

[24] A Generative Foundation Model for Chest Radiography

Yuanfeng Ji,Dan Lin,Xiyue Wang,Lu Zhang,Wenhui Zhou,Chongjian Ge,Ruihang Chu,Xiaoli Yang,Junhan Zhao,Junsong Chen,Xiangde Luo,Sen Yang,Jin Fang,Ping Luo,Ruijiang Li

Main category: cs.CV

TL;DR: ChexGen是一个生成式视觉语言基础模型,用于合成胸部X光片,通过文本、掩码和边界框引导生成,在医学AI系统中提高准确性、数据效率和公平性。

  • Motivation: 医学图像标注数据稀缺是开发可靠医疗AI模型的主要障碍,需要利用生成式基础模型来解决数据不足问题。
  • Method: 基于潜在扩散变换器架构,在96万张胸部X光片-报告对数据集上进行预训练,开发了统一的文本、掩码和边界框引导合成框架。
  • Result: 通过专家评估和定量指标验证了准确的X光片合成能力,在疾病分类、检测和分割任务中使用少量训练数据实现了性能提升,并能创建多样化患者队列以增强模型公平性。
  • Conclusion: 生成式基础模型在构建更准确、数据高效和公平的医疗AI系统中具有变革性作用。

[25] LMVC: An End-to-End Learned Multiview Video Coding Framework

Xihua Sheng,Yingwen Zhang,Long Xu,Shiqi Wang

Main category: cs.CV

TL;DR: 提出端到端学习的多视角视频编码框架,通过利用独立视角的运动和内容信息来增强依赖视角的压缩效率,显著优于传统MV-HEVC标准。

  • Motivation: 多视角视频是体视频的关键数据源,但数据量巨大导致存储和传输挑战。现有深度学习方法主要关注单视角或立体视频,通用多视角场景研究不足。
  • Method: 提出特征级视角间运动向量预测方法,利用解码的独立视角运动特征来条件化依赖视角运动编码;提出无视差的视角间上下文预测模块,从解码的独立视角内容特征预测视角间上下文;配合相应的熵模型学习视角间先验。
  • Result: 实验结果表明,所提出的LMVC框架大幅优于传统MV-HEVC标准的参考软件,压缩效率显著提升。
  • Conclusion: 该框架为多视角视频编码建立了强有力的基准,确保了随机访问和向后兼容性,同时提升了压缩性能,为未来研究奠定了基础。

[26] TopoSculpt: Betti-Steered Topological Sculpting of 3D Fine-grained Tubular Shapes

Minghui Zhang,Yaoyu Liu,Junyang Wu,Xin You,Hanxiao Zhang,Junjun He,Yun Gu

Main category: cs.CV

TL;DR: TopoSculpt是一个用于3D细粒度管状结构拓扑精炼的新框架,通过整体区域建模、拓扑完整性约束和课程精炼方案,显著改善了医学管状解剖结构的几何和拓扑重建精度。

  • Motivation: 现有方法依赖体素重叠度量,无法捕捉拓扑正确性和完整性。虽然拓扑感知损失和持久同调约束有潜力,但通常是补丁式应用,无法保证全局保持或推理时的几何错误修正。
  • Method: 采用整体区域建模策略捕捉完整空间上下文;首次引入拓扑完整性Betti约束,联合执行Betti数先验和全局完整性;使用持久同调的课程精炼方案从粗到细逐步修正错误。
  • Result: 在肺气道和Willis环数据集上,β₀错误从69.00降至3.40(气道)和从1.65降至0.30(CoW),树长检测和分支检测率提高近10%。
  • Conclusion: TopoSculpt能有效修正关键拓扑错误,推进复杂3D管状解剖结构的高保真建模。

[27] Chest X-ray Pneumothorax Segmentation Using EfficientNet-B4 Transfer Learning in a U-Net Architecture

Alvaro Aranibar Roque,Helga Sebastian

Main category: cs.CV

TL;DR: 使用U-Net网络以EfficientNet-B4作为编码器的深度学习模型,在气胸分割任务上达到了0.7008 IoU和0.8241 Dice分数,能够准确定位气胸并支持攻弋师辅助诊断。

  • Motivation: 气胸如果未及时检测可能导致生命危险,胸部X光片是首选诊断工具但小型气胸很难发现,需要自动化诊断方案来提高检出率。
  • Method: 提出了一个自动化深度学习流水线,使用U-Net网络结构以EfficientNet-B4作为编码器来分割气胸区域。模型在SIIM-ACR数据集上训练,采用了数据增帽技术和二元交叉瑣加Dice损失函数的组合损失。
  • Result: 在独立的PTX-498数据集上,模型达到了IoU 0.7008和Dice分数 0.8241的性能。
  • Conclusion: 该深度学习模型能够准确地定位气胸,为攻弋师提供了有效的辅助诊断支持,在自动化气胸检测方面表现出艾。

[28] ANTS: Shaping the Adaptive Negative Textual Space by MLLM for OOD Detection

Zhu Wenjie,Zhang Yabin,Xin Jin,Wenjun Zeng,Lei Zhang

Main category: cs.CV

TL;DR: 提出自适应负文本空间(ANTS)方法,利用多模态大语言模型生成表达性负标签,提升OOD检测性能,在ImageNet基准上FPR95降低4.2%

  • Motivation: 现有方法缺乏对OOD图像的理解,难以构建准确的负空间,且假负标签会显著降低近OOD性能
  • Method: 利用MLLMs识别OOD样本并生成表达性负句子,针对近OOD场景生成视觉相似的负标签,设计自适应加权分数平衡两种负文本空间
  • Result: 在ImageNet基准上显著降低FPR95达4.2%,建立新的SOTA,方法无需训练且零样本,具有高可扩展性
  • Conclusion: ANTS方法通过MLLMs的理解和推理能力有效构建负文本空间,显著提升OOD检测性能,特别是在近OOD场景下减少假负标签

[29] Multimodal Feature Fusion Network with Text Difference Enhancement for Remote Sensing Change Detection

Yijun Zhou,Yikui Zhai,Zilu Ying,Tingfeng Xian,Wenlve Zhou,Zhiheng Zhou,Xiaolin Tian,Xudong Jia,Hongsheng Zhang,C. L. Philip Chen

Main category: cs.CV

TL;DR: MMChange是一个多模态遥感变化检测方法,结合图像和文本模态,通过图像特征细化、文本差异增强和跨模态融合模块,显著提升了变化检测的准确性和鲁棒性。

  • Motivation: 现有深度学习方法主要依赖单一图像模态,在光照和噪声干扰下特征表示有限,变化模式建模和泛化能力不足,需要多模态信息来增强性能。
  • Method: 提出MMChange框架:1)图像特征细化模块突出关键区域并抑制环境噪声;2)使用视觉语言模型生成双时相图像的语义描述;3)文本差异增强模块捕捉细粒度语义变化;4)图像-文本特征融合模块实现深度跨模态集成。
  • Result: 在LEVIRCD、WHUCD和SYSUCD三个数据集上的大量实验表明,MMChange在多个指标上 consistently超越最先进方法,验证了其有效性。
  • Conclusion: 多模态方法通过结合图像和文本信息,显著提升了遥感变化检测的性能,为解决光照和噪声干扰下的变化检测问题提供了有效解决方案。

[30] SAC-MIL: Spatial-Aware Correlated Multiple Instance Learning for Histopathology Whole Slide Image Classification

Yu Bai,Zitong Yu,Haowen Tian,Xijing Wang,Shuo Yan,Lin Wang,Honglin Li,Xitong Ling,Bo Zhang,Zheng Zhang,Wufan Wang,Hui Gao,Xiangyang Gong,Wendong Wang

Main category: cs.CV

TL;DR: SAC-MIL是一种用于WSI分类的空间感知相关多实例学习方法,通过位置编码和全实例相关性计算,在多个数据集上达到SOTA性能

  • Motivation: 解决WSI分类中空间信息利用不足和计算复杂度高的问题,特别是Transformer方法需要定制CUDA内核的部署困难
  • Method: 包含位置编码模块(利用实例坐标编码空间关系)和SAC块(基于MLP实现线性时间复杂度的全实例相关性计算)
  • Result: 在CAMELYON-16、TCGA-LUNG和TCGA-BRAC数据集上取得了最先进的性能
  • Conclusion: SAC-MIL通过简单有效的MLP结构实现了高性能WSI分类,解决了长度外推问题且易于部署

[31] Improving Vessel Segmentation with Multi-Task Learning and Auxiliary Data Available Only During Model Training

Daniel Sobotka,Alexander Herold,Matthias Perkonigg,Lucian Beer,Nina Bastati,Alina Sablatnig,Ahmed Ba-Ssalamah,Georg Langs

Main category: cs.CV

TL;DR: 一种多任务学习框架,利用训练期间的对比增强MRI辅助数据来提升非对比增强MRI中的肝脉管分割精度,减少对大规模标注数据的依赖

  • Motivation: 解决非对比增强MRI中肝脉管分割的挑战,因为这种拍摄方式更常见但分割困难,而对比增强形式虽好但不统一采集
  • Method: 多任务学习框架,在训练时利用成对的非对比增强和对比增强MRI数据(有无脉管标注均可),通过共享任务结构来提升特征表征能力
  • Result: 辅助数据显著提高了脉管分割的准确性,即使在推理时不可用。在标注数据少时效果更为明显,该方法在脑绕分割任务中也得到验证
  • Conclusion: 辅助性信息丰富的成像模态可以在只于训练期可用的情况下增强专家标注的效果,适用于多个领域

[32] Promptception: How Sensitive Are Large Multimodal Models to Prompts?

Mohamed Insaf Ismithdeen,Muhammad Uzair Khattak,Salman Khan

Main category: cs.CV

TL;DR: 论文分析了大型多模态模型在多项选择问答中的提示词敏感性,发现微小提示词变化可导致15%的准确率差异,提出了Promptception框架系统评估提示词敏感性,并为专有和开源模型制定了不同的提示原则。

  • Motivation: 大型多模态模型在多项选择问答中的提示词设计缺乏系统研究,模型性能评估存在不公平性,因为最佳性能往往来自精心挑选的提示词。
  • Method: 提出Promptception框架,包含61种提示类型、15个类别和6个超类别,用于评估10个不同规模的大型多模态模型在3个基准测试上的表现。
  • Result: 专有模型对提示词语义更敏感但性能更好,开源模型更稳定但难以处理复杂提示词。提示词敏感性最高可达15%的准确率差异。
  • Conclusion: 需要针对不同类型模型制定专门的提示原则,以实现更稳健和公平的模型评估,提示词设计对模型性能有显著影响。

[33] SliceSemOcc: Vertical Slice Based Multimodal 3D Semantic Occupancy Representation

Han Huang,Han Sun,Ningzhong Liu,Huiyu Zhou,Jiaquan Shen

Main category: cs.CV

TL;DR: 提出了SliceSemOcc框架,通过垂直切片处理和SEAttention3D模块改进3D语义占据预测,在高度维度上实现更好的特征表示

  • Motivation: 现有3D语义占据预测方法在处理体素特征时忽视了高度轴信息,传统通道注意力对所有高度层赋予相同权重,限制了不同高度特征的差异化表达能力
  • Method: 使用全局和局部垂直切片提取体素特征,通过全局局部融合模块协调细粒度空间细节和整体上下文信息,提出SEAttention3D模块保持高度分辨率并为每个高度层分配动态通道注意力权重
  • Result: 在nuScenes-SurroundOcc和nuScenes-OpenOccupancy数据集上的实验表明,方法显著提升了平均IoU,特别是在大多数小物体类别上取得了明显增益
  • Conclusion: SliceSemOcc框架通过有效的垂直切片处理和高度感知的注意力机制,显著提升了3D语义占据预测的性能

[34] Detecting Regional Spurious Correlations in Vision Transformers via Token Discarding

Solha Kang,Esla Timothy Anzaku,Wesley De Neve,Arnout Van Messem,Joris Vankerschaver,Francois Rameau,Utku Ozbulak

Main category: cs.CV

TL;DR: 这篇论文提出了一种新方法来检测视觉Transformer模型中的偏偏相关,并通过大规模实验验证了方法的有效性,还发现训练方法对模型依赖偏偏相关的影响。

  • Motivation: 神经网络视觉模型容易利用数据中意外的模式做出正确预测,这称为偏偏相关,影响模型的可靠性和普适性。需要检测和减少这种现象。
  • Method: 提出了一种新方法来检测视觉Transformer模型中的偏偏相关,使用了有监督和自监督训练的模型,在ImageNet数据集上进行大规模实验。
  • Result: 方法能够有效识别偏偏相关,发现训练方法对模型依赖偏偏相关有显著影响,识别了ImageNet中容易造成偏偏信号的类别,并提供了相关图片列表。
  • Conclusion: 论文通过实际案例研究(侵入性乳腺类别分类)验证了方法的实际应用价值,并建议在未来研究中谨慎使用存在偏偏信号的图片。

[35] Learning from Majority Label: A Novel Problem in Multi-class Multiple-Instance Learning

Shiku Kaito,Shinnosuke Matsuo,Daiki Suehiro,Ryoma Bise

Main category: cs.CV

TL;DR: 提出了一种新的多类多示例学习问题LML,通过多数标签学习实例分类,设计了计数网络和多数比例增强模块,在多个数据集上优于传统方法

  • Motivation: 解决多示例学习中基于包内实例多数类标签的学习问题,在病理图像分割、政治投票预测、客户情感分析等应用中具有重要价值
  • Method: 提出计数网络来生成包级多数标签,并通过多数比例增强模块(MPEM)移除少数类实例来提高多数类比例
  • Result: 在四个数据集上的实验表明该方法优于传统多示例学习方法,消融研究证实了各模块的有效性
  • Conclusion: LML是一个有价值的新问题,提出的计数网络和MPEM模块能有效解决该问题,高多数类比例的包有助于学习

[36] Millisecond-Response Tracking and Gazing System for UAVs: A Domestic Solution Based on "Phytium + Cambricon"

Yuchen Zhu,Longxiang Yin,Kai Zhao

Main category: cs.CV

TL;DR: 提出基于飞腾处理器和寒武纪加速卡的异构计算架构,构建毫秒级响应的无人机跟踪凝视系统,解决传统视频监控200ms以上延迟问题

  • Motivation: 传统摄像头系统在动态场景中响应延迟超过200ms,深度学习特征提取能力不足和计算架构效率瓶颈无法满足复杂场景实时需求
  • Method: 硬件采用飞腾FT-2000/4处理器与MLU220加速卡协同计算架构,软件集成轻量化YOLOv5s检测网络与DeepSORT级联跟踪算法,形成检测-跟踪-反馈闭环控制链
  • Result: 系统在1920*1080分辨率视频流处理中实现50-100ms稳定单帧综合处理延迟,多尺度目标识别准确率超过98.5%
  • Conclusion: 为无人机监控和国产芯片应用提供了创新解决方案,兼具低延迟和高精度特性

[37] A Re-ranking Method using K-nearest Weighted Fusion for Person Re-identification

Quang-Huy Che,Le-Chuong Nguyen,Gia-Nghia Tran,Dinh-Duy Phan,Vinh-Tiep Nguyen

Main category: cs.CV

TL;DR: 提出了一种基于K近邻加权融合的无监督多视角特征重排序方法,显著提升了行人重识别的Rank@1和mAP指标,特别是在具有挑战性的数据集上效果明显。

  • Motivation: 传统重排序方法主要依赖单视角图像特征,容易受到视角偏差、姿态变化、视角变化和遮挡等问题的影响。使用多视角特征可以更好地表示行人身份,减少视角偏差。
  • Method: 提出K近邻加权融合(KWF)方法,无监督地选择K个邻近特征来生成多视角特征。探索了特征聚合过程中的权重选择策略,无需模型微调或额外标注。
  • Result: 在Market1501、MSMT17和Occluded-DukeMTMC数据集上验证,相比初始结果,在MSMT17和Occluded-DukeMTMC上Rank@1分别提升9.8%和22.0%,计算效率也显著优于其他重排序方法。
  • Conclusion: 该方法通过多视角特征聚合有效解决了单视角特征的限制,在提升重排序精度的同时保持了计算效率,适用于大规模数据集的实际应用。

[38] TEn-CATS: Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph

Yaru Chen,Faegheh Sardari,Peiliang Zhang,Ruohao Guo,Yang Xiang,Zhenbo Li,Wenwu Wang

Main category: cs.CV

TL;DR: 提出结合双向文本融合(BiT)和类别感知时序图(CATS)的新方法,解决音频-视觉视频解析中伪标签噪声传播问题,在多个指标上达到SOTA性能

  • Motivation: 现有方法存在两个问题:一是将噪声段级伪标签视为可靠监督,二是让无差别注意力将错误传播到所有帧,导致初始误差在训练中被反复放大
  • Method: 使用BiT模块进行语义注入和动态校准来定位和净化更干净的语义线索,然后利用CATS模块进行语义传播和连接,实现精确的跨时间语义信息传播
  • Result: 在两个基准数据集LLP和UnAV-100上的多个关键指标上实现了最先进的性能
  • Conclusion: 通过整合两种研究方向的优势并互补,有效解决了音频-视觉视频解析中的噪声传播问题,取得了优异的性能表现

[39] TriLiteNet: Lightweight Model for Multi-Task Visual Perception

Quang-Huy Che,Duc-Khai Lam

Main category: cs.CV

TL;DR: TriLiteNet是一个高效的多任务全景驾驶感知模型,在BDD100k数据集上实现了车辆检测、可行驶区域分割和车道线分割的竞争性性能,同时保持低计算成本。

  • Motivation: 高级驾驶辅助系统(ADAS)需要快速处理和响应的感知模型,以满足实时执行需求并确保现实环境中的安全性和有效性。
  • Method: 提出TriLiteNet模型,能够同时处理多个全景驾驶感知任务,通过优化设计在保持低计算成本的同时实现高性能。模型包括基础配置和微小配置两种版本。
  • Result: 在BDD100k数据集上,TriLiteNet_base实现车辆检测召回率85.6%、可行驶区域分割mIoU 92.4%、车道线分割准确率82.3%,仅需2.35M参数和7.72 GFLOPs计算量。微小版本仅0.14M参数,在嵌入式设备上表现出低延迟和合理功耗。
  • Conclusion: TriLiteNet通过平衡性能、计算效率和可扩展性,为现实世界自动驾驶应用提供了实用且可部署的解决方案。

[40] DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset

Mustafa Sakhai,Kaung Sithu,Min Khant Soe Oke,Maciej Wielgosz

Main category: cs.CV

TL;DR: DVS-PedX是一个用于行人检测和过街意图分析的神经形态数据集,包含合成和真实世界的事件流数据,支持在正常和恶劣天气条件下的研究。

  • Motivation: 事件相机具有低延迟、高动态范围和运动鲁棒性等优势,但缺乏专门用于行人安全和意图预测的数据集。DVS-PedX旨在填补这一空白,促进基于事件的行人安全研究。
  • Method: 数据集包含两个互补来源:(1) CARLA模拟器中生成的合成事件流,控制不同的天气和光照条件;(2) 真实世界JAAD行车记录仪视频通过v2e工具转换的事件流。每个序列都包含配对的RGB帧、事件帧和帧级标签。
  • Result: 提供了基线脉冲神经网络(SNN)实验结果,展示了数据集的可用性,并揭示了模拟到真实的差距,为领域适应和多模态融合提供了动机。
  • Conclusion: DVS-PedX数据集将加速基于事件的行人安全、意图预测和神经形态感知的研究,为这一领域提供重要的数据资源。

[41] TaleDiffusion: Multi-Character Story Generation with Dialogue Rendering

Ayan Banerjee,Josep Lladós,Umapada Pal,Anjan Dutta

Main category: cs.CV

TL;DR: TaleDiffusion是一个用于生成多角色故事可视化内容的新框架,通过迭代过程保持角色一致性和准确对话分配,解决了现有方法在角色一致性和对话渲染方面的不足。

  • Motivation: 现有的文本到故事可视化方法在多个角色跨帧交互时存在角色一致性差、生成伪影和对话渲染不准确的问题,导致故事叙述不连贯。
  • Method: 使用预训练LLM通过上下文学习生成每帧描述、角色细节和对话;采用有界注意力掩码技术控制角色交互;使用身份一致自注意力机制确保跨帧角色一致性;区域感知交叉注意力实现精确对象放置;通过CLIPSeg渲染对话气泡并分配给角色。
  • Result: 实验结果表明,TaleDiffusion在一致性、降噪和对话渲染方面优于现有方法。
  • Conclusion: TaleDiffusion框架有效解决了多角色故事可视化中的关键挑战,为生成连贯、一致的故事内容提供了有效解决方案。

[42] MEPG:Multi-Expert Planning and Generation for Compositionally-Rich Image Generation

Yuan Zhao,Liu Lin

Main category: cs.CV

TL;DR: MEPG是一个多专家规划和生成框架,通过位置风格感知LLM分解提示词,结合多专家扩散模块实现跨区域生成,显著提升了图像质量和风格多样性

  • Motivation: 解决现有文本到图像扩散模型在处理复杂多元素提示词和有限风格多样性方面的局限性
  • Method: 包含两个核心组件:1)位置风格感知模块使用微调LLM分解提示词为空间坐标和风格编码语义指令;2)多专家扩散模块通过动态专家路由在局部区域和全局区域进行跨区域生成,使用注意力门控机制选择专家模型
  • Result: 实验表明MEPG在相同骨干网络下显著优于基线模型,在图像质量和风格多样性方面都有显著提升
  • Conclusion: 该框架支持轻量级集成和替换专家模型,提供强大的可扩展性,并通过交互界面实现实时空间布局编辑和每区域风格选择

[43] Revisiting Simple Baselines for In-The-Wild Deepfake Detection

Orlando Castaneda,Kevin So-Tang,Kshitij Gurung

Main category: cs.CV

TL;DR: 通过调优超参数,基础视觉模型在Deepfake-Eval-2024野生数据集上达到81%准确率,超18%并竞争商业检测器

  • Motivation: 现有深度伪造检测器在野生数据集上表现较差(61%-69%),远较商业检测器(82%),需要提高开源模型的实际性能
  • Method: 重新调优Ojha等人的基础方法,使用预训练视觉背骨网络通过精心调整超参数来提高深度伪造检测的通用性
  • Result: 在Deepfake-Eval-2024野生数据集上达到81%准确率,远超之前的61%-69%表现,与商业检测器(82%)相当接近
  • Conclusion: 简单的基础方法通过谨慎的超参数调优即可实现高性能深度伪造检测,在准确性、计算成本和可解释性之间取得平衡,具有实际部署潜力

[44] YOLO Ensemble for UAV-based Multispectral Defect Detection in Wind Turbine Components

Serhii Svystun,Pavlo Radiuk,Oleksandr Melnychenko,Oleg Savenko,Anatoliy Sachenko

Main category: cs.CV

TL;DR: 通过集成YOLOv8和专门热成像模型,结合可见光和热成像频道,提高风力发电设备缺陷检测的准确性

  • Motivation: 风力发电设备监测需要高分辨率多谱数据和高效处理方法,现有方法在缺陷检测准确性方面有限
  • Method: 开发YOLO深度学习模型集成方法,结合通用YOLOv8模型和专门热成像模型,使用精细的边框融合算法结合预测结果
  • Result: 方法达到mAP@.5 0.93和F1-score 0.90,超越单独YOLOv8模型的mAP@.5 0.91
  • Conclusion: 多重YOLO架构结合融合多谱数据提供了更可靠的解决方案,显著改善了可视和热成缺陷的检测能力

[45] VisioFirm: Cross-Platform AI-assisted Annotation Tool for Computer Vision

Safouane El Ghazouali,Umberto Michelucci

Main category: cs.CV

TL;DR: VisioFirm是一个开源的AI辅助图像标注工具,通过集成先进的基础模型和自动化流程,将人工标注工作量减少高达90%,同时支持多种标注格式和离线操作。

  • Motivation: 传统图像标注工具需要大量人工输入,限制了大规模数据集的可扩展性。为了解决这个问题,需要开发AI辅助的自动化标注工具来提高效率。
  • Method: 集成CLIP与预训练检测器(如Ultralytics模型)和零样本模型(如Grounding DINO),采用低置信度阈值最大化召回率,结合交互式工具进行精炼,并通过WebGPU加速的分割功能。
  • Result: 在COCO类数据集上测试显示,初始预测大多正确,人工工作量减少90%,同时通过聚类和IoU图保持高标注准确性。
  • Conclusion: VisioFirm通过AI辅助自动化显著提高了图像标注效率,减少了人工工作量,同时保持了高质量的标注结果,是一个有效的图像标注解决方案。

[46] DUDE: Diffusion-Based Unsupervised Cross-Domain Image Retrieval

Ruohong Yang,Peng Hu,Yunfan Li,Xi Peng

Main category: cs.CV

TL;DR: DUDE是一种基于特征解缠的无监督跨域图像检索方法,通过文本到图像生成模型分离对象特征和域特定风格,并采用渐进式跨域对齐策略,在多个基准数据集上达到最先进性能。

  • Motivation: 现有的无监督跨域图像检索方法通常对整个图像进行跨域特征对齐,但由于对象特征经常与域特定风格纠缠,导致难以克服域间差异。
  • Method: 利用文本到图像生成模型进行特征解缠,分离对象特征和域特定风格;采用渐进式跨域对齐策略,通过域内到跨域的互邻对齐实现可靠的特征对齐。
  • Result: 在3个基准数据集上的13个域中实现了最先进的性能表现。
  • Conclusion: DUDE通过特征解缠和渐进式对齐有效解决了跨域图像检索中的域差异问题,为无监督跨域检索提供了新的解决方案。

[47] Learning Active Perception via Self-Evolving Preference Optimization for GUI Grounding

Wanfu Wang,Qipeng Huang,Guangquan Xue,Xiaobo Liang,Juntao Li

Main category: cs.CV

TL;DR: LASER是一个自进化框架,通过多步感知能力使视觉语言模型能够进行精确坐标预测,在GUI定位任务中实现最先进性能

  • Motivation: 解决视觉语言模型在高分辨率输入和复杂多元素视觉交互下,有效推理适当图像区域的核心挑战
  • Method: 集成蒙特卡洛质量估计和IoU区域质量评估,构建高质量偏好数据,引导模型关注指令相关关键区域并自适应分配推理步骤
  • Result: 在ScreenSpot Pro和ScreenSpot-v2基准测试中取得一致性能提升,GTA1-7B微调后在ScreenSpot-Pro达到55.7分,创7B规模模型新纪录
  • Conclusion: LASER框架有效提升了视觉语言模型在GUI定位任务中的多步感知和坐标预测能力,为复杂视觉推理任务提供了有效解决方案

[48] Differential Morphological Profile Neural Networks for Semantic Segmentation

David Huangal,J. Alex Hurt

Main category: cs.CV

TL;DR: 该论文探索将差分形态剖面(DMP)多尺度形状提取方法集成到现代语义分割网络中,以解决遥感图像分割中的尺度变化、前景-背景不平衡等挑战。

  • Motivation: 现有的最先进分割网络主要针对地面视角照片开发,无法直接应对遥感图像中的极端尺度变化、前景-背景不平衡和大图像尺寸等挑战。DMP方法能够为深度神经网络提供关键的形状信息,在遥感图像分类和目标检测中表现出色。
  • Method: 将DMP特征集成到三种最先进的卷积和变换器语义分割架构中,采用直接输入(调整输入结构以接受DMP通道)和混合架构(双流设计融合RGB和DMP编码器)两种方式。在iSAID基准数据集上评估多种DMP差分和结构元素形状。
  • Result: 非DMP模型通常优于直接输入变体,但混合DMP架构始终优于直接输入,并且能够在mIoU、F1和Recall指标上超越非DMP模型。
  • Conclusion: 混合DMP架构能够有效提升遥感图像语义分割性能,通过融合RGB和DMP特征为模型提供更好的形状信息,在多个评估指标上表现出优越性能。

[49] TauGenNet: Plasma-Driven Tau PET Image Synthesis via Text-Guided 3D Diffusion Models

Yuxin Gong,Se-in Jang,Wei Shao,Yi Su,Kuang Gong

Main category: cs.CV

TL;DR: 使用结构性MRI咄血液p-tau217测量作为多模态条件,通过文本引导的3D扩散模型生成实际的淡水滴PET图像,以解决淡水滴PET成本高、可用性限的问题。

  • Motivation: 淡水滴PET扫描对防治和监测耳朴默病关键,但成本高且可用性限。结构性MRI咄血液生物标记物提供了无侵入性、广泛可用的补充信息,需要开发一种成本效益更高的替代方案。
  • Method: 提出文本引导的3D扩散模型,利用多模态条件:血液p-tau217测量提供文本提示(AD疾病进展关键指标),MRI提供解剖结构约束。基于ADNI数据库的AV1451淡水滴PET数据进行训练咄评估。
  • Result: 实验结果表明,该方法能够生成实际、临床意义丰富的3D淡水滴PET图像,覆盖不同疾病阶段。生成的图像可用于数据增强、淡水滴病理可视化替代方案,以及模拟不同血液生物标记物水平咄认知条件下的疾病进展。
  • Conclusion: 该研究提出的框架为淡水滴PET数据的生成提供了一种非侵入性、成本效益高的方案,有助于解决淡水滴PET扫描在临床应用中的实际限制,为耳朴默病的诊断咄监测提供了新的技术支持。

[50] Dual-Scale Volume Priors with Wasserstein-Based Consistency for Semi-Supervised Medical Image Segmentation

Junying Meng,Gangxuan Zhou,Jun Liu,Weihong Guo

Main category: cs.CV

TL;DR: 提出了一种结合空间正则化和体积先验的半监督医学图像分割框架,通过图像尺度和数据集尺度的Wasserstein距离约束来提升分割性能

  • Motivation: 现有半监督医学图像分割方法忽视了特征提取的方法论指导和数据集中的重要先验信息,需要有效整合空间正则化方法和体积先验
  • Method: 集成显式图像尺度体积先验和Threshold Dynamics空间正则化,使用回归网络估计未标注图像的目标区域体积,通过Wasserstein距离约束确保分割结果与预测体积一致,并设计数据集尺度的Wasserstein损失函数
  • Result: 在ACDC 2017、PROMISE12和大腿肌肉MR图像数据集上表现出优越性能
  • Conclusion: 该方法通过有效整合空间正则化和体积先验,显著提升了半监督医学图像分割的性能

[51] PAOLI: Pose-free Articulated Object Learning from Sparse-view Images

Jianning Deng,Kartic Subr,Hakan Bilen

Main category: cs.CV

TL;DR: 一种从稀疏视角、无相机位姬的图像中学习关节对象表征的自监督方法,仅需4个视图即可实现精确的三维重建和运动分析

  • Motivation: 解决传统方法依赖密集多视图和相机位姬的限制,让关节对象表征学习在更实际的稀疏视角、无相机监督的条件下也能进行
  • Method: 首先独立重建每个关节姿态,然后学习变形场建立密集对应关系,逐步解耦静态和动态部分,最后通过跨视图和跨姿态一致性损失合同优化几何、外观和运动学
  • Result: 在标准测试集和实际场景中,该方法能够在输入条件明显更弱的情况下产生准确且细致的关节对象表征
  • Conclusion: 该研究提出了一种在极稀疏视角和无相机监督条件下供的关节对象表征学习方法,为实际应用提供了更可行的解决方案

[52] Noisy Label Refinement with Semantically Reliable Synthetic Images

Yingxuan Li,Jiafeng Mao,Yusuke Matsui

Main category: cs.CV

TL;DR: 提出利用高质量合成图像作为可靠参考点来识别和修正噪声数据集中的错误标签,显著提升语义噪声下的分类准确率

  • Motivation: 图像分类数据集中存在语义噪声(视觉相似类别被错误标注),传统监督学习方法面临挑战,需要新的解决方案
  • Method: 使用先进文本到图像模型生成的合成图像作为可靠参考点,识别和修正噪声数据集中的错误标签样本
  • Result: 在多个基准数据集上显著提升分类准确率,在70%语义噪声下CIFAR-10提升30%,CIFAR-100提升11%,在真实噪声下ImageNet-100提升24%
  • Conclusion: 该方法与现有噪声鲁棒学习技术正交,结合使用时能达到最优性能,为解决语义标签噪声问题提供了有效方案

[53] Efficient Odd-One-Out Anomaly Detection

Silvio Chito,Paolo Rabino,Tatiana Tommasi

Main category: cs.CV

TL;DR: 提出基于DINO的高效异常检测模型,参数减少1/3,训练时间缩短3倍,性能保持竞争力

  • Motivation: 解决多目标场景中异常检测任务对深度学习模型的空间推理和多视图关系推理的挑战,同时注重效率提升
  • Method: 采用DINO-based模型架构,通过优化设计减少模型参数和训练时间
  • Result: 相比当前最优方法,参数量减少33%,训练时间缩短3倍,性能保持竞争力;同时建立了多模态大语言模型基线,揭示了其在结构化视觉推理任务中的局限性
  • Conclusion: 提出的高效模型在保持性能的同时显著提升了计算效率,为多目标异常检测任务提供了实用的解决方案,并指出了多模态大语言模型在该领域的当前局限

[54] GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization

Pengyue Jia,Yingyi Zhang,Xiangyu Zhao,Yixuan Li

Main category: cs.CV

TL;DR: GeoArena是一个用于评估大型视觉语言模型在全球图像地理定位任务上的开放平台,解决了当前评估方法中的数据泄露和隐私问题,通过真实野外图像和人类判断来进行更准确的评估。

  • Motivation: 当前图像地理定位评估存在两个主要问题:1)数据泄露 - 大型视觉语言模型通常在测试数据集上预训练,影响评估准确性;2)现有指标过度依赖精确坐标,忽视推理过程并引发隐私担忧。
  • Method: 开发GeoArena平台,允许用户上传真实野外图像构建多样化评估语料库,利用成对人类判断来确定哪个模型输出更符合人类期望,收集数千条投票记录进行分析。
  • Result: 平台已在线部署两个月,收集了大量投票数据,建立了不同大型视觉语言模型在图像地理定位任务上的排行榜。
  • Conclusion: GeoArena提供了一个真实野外和以人为中心的基准测试平台,解决了当前图像地理定位评估中的关键问题,为模型性能评估提供了更准确和实用的方法。

[55] From Editor to Dense Geometry Estimator

JiYuan Wang,Chunyu Lin,Lei Sun,Rongying Liu,Lang Nie,Mingxing Li,Kang Liao,Xiangxiang Chu,Yao Zhao

Main category: cs.CV

TL;DR: FE2E是一个基于图像编辑模型(而非文本生成模型)的密集几何估计框架,通过扩散变换器架构实现了深度和法线联合估计,在多个数据集上取得了显著的零样本性能提升。

  • Motivation: 密集预测本质上是图像到图像任务,图像编辑模型比文本到图像生成模型更适合作为微调基础。研究发现编辑模型具有固有的结构先验,能够更稳定地收敛并获得更高性能。
  • Method: 基于扩散变换器(DiT)架构,将编辑模型的流匹配损失重新表述为"一致速度"训练目标,使用对数量化解决精度冲突,利用DiT的全局注意力实现深度和法线的单次前向联合估计。
  • Result: 在不增加训练数据的情况下,在多个数据集上实现了显著的零样本单目深度和法线估计性能提升,在ETH3D数据集上获得超过35%的性能增益,性能超过使用100倍数据训练的DepthAnything系列。
  • Conclusion: 图像编辑模型比生成模型更适合密集几何估计任务,FE2E框架证明了基于编辑模型的扩散变换器架构在密集预测任务中的优越性。

[56] MICACL: Multi-Instance Category-Aware Contrastive Learning for Long-Tailed Dynamic Facial Expression Recognition

Feng-Qi Cui,Zhen Lin,Xinlong Rao,Anyang Tong,Shiyao Li,Fei Wang,Changlin Chen,Bin Liu

Main category: cs.CV

TL;DR: 提出了MICACL多实例学习框架,通过图增强实例交互模块和加权实例聚合网络解决动态面部表情识别中的长尾分布和时空特征建模问题,结合多尺度类别感知对比学习策略,在DFEW和FERV39k数据集上达到SOTA性能。

  • Motivation: 动态面部表情识别面临长尾类别分布和复杂时空特征建模的挑战,现有深度学习方法存在模型归纳偏差问题,需要新的解决方案。
  • Method: 1. Graph-Enhanced Instance Interaction Module (GEIIM):通过自适应邻接矩阵和多尺度卷积捕获相邻实例间的复杂时空关系
  1. Weighted Instance Aggregation Network (WIAN):基于实例重要性动态分配权重进行特征聚合
  2. Multiscale Category-aware Contrastive Learning (MCCL):平衡主要和次要类别的训练
  • Result: 在DFEW和FERV39k等真实世界数据集上的大量实验表明,MICACL实现了最先进的性能,具有优越的鲁棒性和泛化能力。
  • Conclusion: MICACL框架有效解决了动态面部表情识别中的长尾分布和时空建模问题,为相关领域提供了新的解决方案。

[57] Stitching the Story: Creating Panoramic Incident Summaries from Body-Worn Footage

Dor Cohen,Inga Efrosman,Yehudit Aperstein,Alexander Apartsin

Main category: cs.CV

TL;DR: 开发了一个计算机视觉流水线,将执法记录仪视频转换为信息丰富的全景图像,用于快速理解复杂环境和辅助决策

  • Motivation: 应急响应人员广泛使用执法记录仪记录现场,但审查冗长视频在时间紧迫的情况下不切实际,需要能够快速解读的简洁视觉摘要
  • Method: 利用单目SLAM估计相机轨迹和重建环境空间布局,通过聚类相机姿态识别关键视点,从每个聚类中选择代表性帧,使用多帧拼接技术将这些帧融合成空间一致的全景图像
  • Result: 生成的空间连贯全景图像能够实现对复杂环境的快速理解
  • Conclusion: 该方法能够促进高效的决策制定和事件审查,为应急响应提供有效的视觉摘要工具

Hao Ju,Hu Zhang,Zhedong Zheng

Main category: cs.CV

TL;DR: 本文提出AnomalyLMM框架,首次利用大型多模态模型进行文本基于人员异常行为检索,解决细粒度跨模态对齐和稀疏样本挑战,在PAB数据集上较基线提升+0.96% Recall@1精度。

  • Motivation: 文本基于人员异常检索面临两大挑战:文本异常描述与视觉行为的细粒度跨模态对齐,以及稀疏实际样本下的异常识别。虽然大型多模态模型在多模态理解上表现优异,但在细粒度异常检索方面潜力未充分发挥。
  • Method: 提出AnomalyLMM框架:(1)新的粗细粒度管道,集成LMMs平滑跨越生成式知识与检索式异常检测间的域差距;(2)无训练的适配方法,包括遮掩跨模态提示、行为显著性预测和知识感知重排,支持零样本关注细微异常线索。
  • Result: 在PAB数据集(唯一公开的文本基于人员异常检索标准数据集)上进行严格评估,方法超过竞争基线+0.96% Recall@1精度。同时显示了文本异常与视觉行为之间的可解释性对齐,通过定性分析验证。
  • Conclusion: AnomalyLMM是首个使用LMMs进行文本基于人员异常检索的框架,有效解决了细粒度跨模态对齐和稀疏样本挑战。方法不仅提升了检索精度,还揭示了文本与视视行为间的可解释性关联,为该领域的未来研究提供了基础。

[59] Aesthetic Image Captioning with Saliency Enhanced MLLMs

Yilin Tao,Jiashui Huang,Huaze Xu,Ling Shao

Main category: cs.CV

TL;DR: 提出了ASE-MLLM框架,通过图像美学显著性模块和交叉注意力机制,将美学显著性特征融入多模态大语言模型,在美学图像描述任务上达到SOTA性能

  • Motivation: 现有美学图像描述研究主要依赖微调方法,没有专门让多模态大语言模型关注目标美学内容,需要显式地将美学显著性整合到模型中
  • Method: 提出端到端的ASE-MLLM框架,包含图像美学显著性模块(IASM)提取美学特征,设计IAS-ViT图像编码器通过交叉注意力机制融合美学特征和原始图像特征
  • Result: 在主流美学图像描述基准测试中显著优于传统方法和通用多模态大语言模型,达到最先进的性能
  • Conclusion: ASE-MLLM是首个将图像美学显著性整合到多模态大语言模型中的框架,专门针对美学图像描述任务,证明了美学显著性特征对提升模型性能的重要性

[60] SSGaussian: Semantic-Aware and Structure-Preserving 3D Style Transfer

Jimin Xu,Bosheng Qin,Tao Jin,Zhou Zhao,Zhenhui Ye,Jun Yu,Fei Wu

Main category: cs.CV

TL;DR: 基于预训练2D滿散模型的三阶段三维风格转换方法,通过跨视图风格对齐和实例级风格转换,实现了更高质量的3D场景风格化效果

  • Motivation: 解决现有三维风格转换方法在高级风格语义提取和转换上的不足,以及结果中结构清晰度和实例分离性缺乏的问题
  • Method: 两阶段流水线:首先利用滿散模型生成关键视角的风格化渲染,然后将风格化关键视图转换到3D表示。包含跨视图风格对齐和实例级风格转换两个创新设计
  • Result: 实验结果显示该方法在各种场景上都显著超越了现有最优方法,从前向视角到具有挑战性的360度环境
  • Conclusion: 该方法能够生成结构更清晰、视觉更一致、艺术更丰富的三维风格化效果,有效解决了现有方法的局限性

[61] Learning neural representations for X-ray ptychography reconstruction with unknown probes

Tingyou Li,Zixin Xu,Zirui Gao,Hanfei Yan,Xiaojing Huang,Jizhou Li

Main category: cs.CV

TL;DR: 提出PtyINR框架,通过神经隐式表示同时解决X射线叠层成像中的物体和探针恢复问题,无需预标定探针,在低信号条件下表现出卓越的重建质量和鲁棒性。

  • Motivation: X射线叠层成像在未知探针情况下的图像重建存在挑战,传统迭代方法和深度学习在低剂量实验条件下效果不佳,限制了该技术的广泛应用。
  • Method: 使用神经隐式表示参数化物体和探针,构建自监督框架,直接从原始衍射图案进行端到端重建,无需探针预标定。
  • Result: 在模拟和实验数据上均获得优异的重建质量,在低信号条件下表现出显著鲁棒性。
  • Conclusion: PtyINR提供了一个通用、物理信息驱动的框架,可广泛应用于计算显微镜中的探针依赖逆问题。

[62] Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

Jingen Qu,Lijun Li,Bo Zhang,Yichen Yan,Jing Shao

Main category: cs.CV

TL;DR: 本文提出了一种面向图像的自适应数据集构建方法,用于构建真实世界多模态安全场景数据集,并引入了标准化的安全数据集评估指标。

  • Motivation: 当前多模态大语言模型面临日益复杂的安全挑战,但现有的风险导向数据集构建方法无法覆盖真实世界多模态安全场景的复杂性,且缺乏统一的评估指标。
  • Method: 采用面向图像的自适应数据集构建方法,从图像出发构建配对的文本和指导响应,自动生成了包含35k图像-文本对的数据集,并提出了通过微调安全判断模型来评估数据集能力的标准化指标。
  • Result: 在各种任务上的广泛实验证明了所提出方法的有效性,结果证实了面向图像方法的可扩展性和有效性。
  • Conclusion: 该方法为真实世界多模态安全数据集的构建提供了新的视角,解决了现有方法的局限性。

[63] Few-step Flow for 3D Generation via Marginal-Data Transport Distillation

Zanwei Zhou,Taoran Yi,Jiemin Fang,Chen Yang,Lingxi Xie,Xinggang Wang,Wei Shen,Qi Tian

Main category: cs.CV

TL;DR: 通过Velocity Matching和Velocity Distillation方法,将流基3D生成模型的采样步数从25步降到1-2步,实现9.0x和6.5x速度提升,保持高保真度

  • Motivation: 现有流基3D生成模型需要多次采样步骤,而Consistency Models在3D生成任务中研究较少,需要快速生成方案
  • Method: 提出MDT-dist框架,通过Velocity Matching(VM)和Velocity Distillation(VD)两种可优化目标,将转运优化转换为速度和分布层面的学习
  • Result: 在TRELLIS框架上将每个流变换器的采样步数从25降到1-2步,实现0.68s(1步x2)和0.94s(2步x2)延迟,速度提升9.0x和6.5x,保持高视觉和几何保真度
  • Conclusion: 该方法显著超过现有CM蓄粉方法,使TRELLIS在少步骤3D生成中达到优异性能

[64] Durian: Dual Reference-guided Portrait Animation with Attribute Transfer

Hyunsoo Cha,Byungjun Kim,Hanbyul Joo

Main category: cs.CV

TL;DR: Durian是首个零样本肖像动画生成方法,通过双参考网络实现面部属性迁移,无需显式三元组监督训练即可实现高质量、空间一致的跨帧属性迁移。

  • Motivation: 解决现有方法在肖像动画中面部属性迁移时存在的高保真度、空间一致性和泛化能力不足的问题,特别是在零样本设置下。
  • Method: 采用双参考网络将肖像和属性图像的空间特征注入扩散模型去噪过程,使用自重建训练策略,结合掩码扩展和空间/外观变换增强来提高鲁棒性。
  • Result: 在肖像动画属性迁移任务上达到最先进性能,双参考设计支持单次生成过程中多属性组合,无需额外训练。
  • Conclusion: Durian通过创新的双参考网络架构和训练策略,成功实现了零样本下的高质量肖像动画生成和面部属性迁移,具有较强的泛化能力和实用性。

[65] From Lines to Shapes: Geometric-Constrained Segmentation of X-Ray Collimators via Hough Transform

Benjamin El-Zein,Dominik Eckert,Andreas Fieselmann,Christopher Syben,Ludwig Ritschl,Steffen Kappler,Sebastian Stober

Main category: cs.CV

TL;DR: 基于可微震浩变换网络的深度学习方法,通过检测准直器边界和ROI中心信息的结合,实现了高精度的X光准直区域分割检测

  • Motivation: X光影像中准直器阴影检测对于限制腾射范围和降低患者放射强度至关重要,但散射X光容易遮蔽边缘信息
  • Method: 提出一种内在受到几何约束的深度学习分割方法,结合可微震浩变换网络检测准直器边界,并提取ROI中心信息,在推理时结合两者信息生成精细的线条约束分割掩码
  • Result: 在实际X光图像测试集上实现了稳健的准直区域重建,达到了中位洋Hausdorff距离4.3-5.0mm的高精度
  • Conclusion: 该方法能够有效处理被散射X光遮蔽的准直器阴影检测问题,虽然应用中最多只涉及四条边缘,但方法本质上不受边数限制

[66] The Telephone Game: Evaluating Semantic Drift in Unified Models

Sabbir Mollah,Rohit Gupta,Sirnam Swetha,Qingyang Liu,Ahnaf Munir,Mubarak Shah

Main category: cs.CV

TL;DR: 提出了UCF-UM框架,通过循环评估协议量化统一视觉语言模型在图像理解和生成之间的语义漂移,揭示了现有单次评估方法的不足。

  • Motivation: 现有评估方法将视觉理解和生成能力分开评估,无法衡量模型在跨模态转换中的语义一致性,需要一种能够量化语义漂移的评估框架。
  • Method: 提出UCF-UM循环评估协议,通过交替进行图像到文本和文本到图像的多次生成来量化语义漂移,包含三个指标:MCD(平均累积漂移)、SDR(语义漂移率)和MGG(多代GenEval)。
  • Result: 评估了七个最新模型,发现模型在跨模态稳定性上存在显著差异,有些模型如BAGEL能够保持语义一致性,而其他模型如Vila-u尽管单次评估得分高但语义漂移很快。
  • Conclusion: 循环一致性评估是标准I2T和T2I评估的必要补充,UCF-UM提供了实用的指标来一致评估统一模型的跨模态稳定性和共享表示强度。

[67] One Flight Over the Gap: A Survey from Perspective to Panoramic Vision

Xin Lin,Xian Ge,Dizhe Zhang,Zhaoliang Wan,Xianshun Wang,Xiangtai Li,Wenjie Jiang,Bo Du,Dacheng Tao,Ming-Hsuan Yang,Lu Qi

Main category: cs.CV

TL;DR: 这篇论文是一个全景视觉技术的综述性调查,重点分析了透视图像向全景图像的域适配挑战咈解决方案,涵盖20+代表性任务和300多篇研究论文。

  • Motivation: 全景图像在虚拟现实、自主驾驶等领域需求增长,但其特殊的几何投影、空间分布咈边界连续性与透视图像存在显著差异,直接域适配面临挑战。
  • Method: 首先回顾全景成像流程咈投影方法,分析结构差异;总结三大域适配挑战:极点附近严重几何扭曲、等矩投影中的非均匀采样、周期性边界连续性;从跨方法咈跨任务两个维度分析代表性策略咈应用。
  • Result: 将全景视觉技术分为四大类别:视觉质量提升咈评估、视觉理解、多模态理解、视觉生成,提供了跨方法咈跨任务的系统分析。
  • Conclusion: 论文提供了全景视觉领域的全面视角,讨论了数据、模型咈应用方面的开放挑战咈未来方向,有助于推动全景视觉技术的发展。

[68] Plot'n Polish: Zero-shot Story Visualization and Disentangled Editing with Text-to-Image Diffusion Models

Kiymet Akdemir,Jing Shi,Kushal Kafle,Brian Price,Pinar Yanardag

Main category: cs.CV

TL;DR: 提出了Plot'n Polish零样本框架,用于实现一致的故事可视化生成,并提供细粒度的多层级控制

  • Motivation: 现有文本到图像扩散模型在故事可视化应用中缺乏灵活的控制能力,无法在保持视觉和叙事一致性的同时进行精细或粗粒度编辑,限制了创作者对视觉故事的完善能力
  • Method: Plot'n Polish零样本框架,支持多层级细节的故事可视化控制
  • Result: 能够实现一致的故事生成,并提供细粒度的编辑控制
  • Conclusion: 该框架解决了故事可视化中保持一致性同时提供灵活编辑控制的重要挑战

[69] TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection

Zehong Yan,Peng Qi,Wynne Hsu,Mong Li Lee

Main category: cs.CV

TL;DR: TRUST-VL是一个统一且可解释的视觉语言模型,用于多模态虚假信息检测,通过联合训练和问题感知视觉放大器模块,在领域内和零样本基准测试中达到最先进性能。

  • Motivation: 多模态虚假信息(包含文本、视觉和跨模态扭曲)对社会构成日益严重的威胁,现有方法通常只关注单一扭曲类型且难以泛化到未见场景。
  • Method: 提出TRUST-VL模型,包含新颖的问题感知视觉放大器模块来提取任务特定的视觉特征,并构建了包含19.8万样本的TRUST-Instruct指令数据集,包含结构化推理链。
  • Result: 在领域内和零样本基准测试中,TRUST-VL实现了最先进的性能,同时提供了强大的泛化能力和可解释性。
  • Conclusion: 联合训练不同扭曲类型促进了知识共享,增强了模型的泛化能力,TRUST-VL为多模态虚假信息检测提供了一个有效且可解释的解决方案。

[70] Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image -- Technical Preview

Jun-Kun Chen,Aayush Bansal,Minh Phuoc Vo,Yu-Xiong Wang

Main category: cs.CV

TL;DR: VFR是一个创新的视频生成模型,能够生成任意长度的虚拟试穿视频,通过分段自回归生成方式解决长视频生成中的局部平滑性和全局时序一致性问题。

  • Motivation: 解决传统虚拟试穿视频生成需要大量计算资源和长视频数据的问题,同时提供生成任意长度视频的灵活性。
  • Method: 采用分段自回归生成过程,使用前缀视频条件确保局部平滑性,通过360度锚点视频保持全局时序一致性。
  • Result: 能够生成分钟级别的虚拟试穿视频,在各种动作下都保持局部平滑和全局时序一致性。
  • Conclusion: VFR是长虚拟试穿视频生成领域的开创性工作,为任意长度视频生成提供了有效的解决方案。

cs.AI

[71] A Multidimensional AI-powered Framework for Analyzing Tourist Perception in Historic Urban Quarters: A Case Study in Shanghai

Kaizhen Tan,Yufan Wu,Yuxuan Liu,Haoran Zeng

Main category: cs.AI

TL;DR: 一种多模态AI框架,通过社交媒体数据分析游客对历史城区的视觉关注、色彩偏好和情感反应,为可持续城市规划提供数据支撑

  • Motivation: 理解游客对历史城区的感知对于可持续、人本化的城市规划至关重要,现有研究需要更全面的多维度分析框架
  • Method: 采用多模态AI框架,整合视觉重点提取、色彩主题分析和情感挖掘。使用精调语义分割模型分析照片视觉重点,聚类方法提取主导色彩,混合规则基础和多任务BERT模型进行情感分析
  • Result: 发现了美学吸引力和情感反应的空间差异,社交媒体照片与实际街景在色彩主题上存在显著差异,反映了视觉期望与建筑环境之间的潜在差距
  • Conclusion: 该框架提供了一种整合的、数据驱动的方法来解码游客感知,为旅游业、遗产保护和公共空间设计的细致化决策提供了重要支撑

cs.LG

[72] Insights from Gradient Dynamics: Gradient Autoscaled Normalization

Vincent-Daniel Yun

Main category: cs.LG

TL;DR: 这篇论文通过实证分析梯度动态的方差和标准偏差变化,提出了一种无需调参的梯度归一化方法,在CIFAR-100数据集上实现了稳定的优化和改进的测试精度。

  • Motivation: 梯度动态对深度神经网络的稳定性和普途化能力至关重要,但理论预期与实证行为之间存在差距,需要直接跟踪梯度变化来提供更深入的见解。
  • Method: 提出一种超参数免调整的梯度归一化方法,将梯度缩放与其自然演化进程对齐,防止意外放大并稳定优化过程。
  • Result: 在CIFAR-100数据集上使用ResNet-20、ResNet-56和VGG-16-BN模型进行实验,证明该方法在强普途化条件下仍能保持或提高测试精度。
  • Conclusion: 该研究突出了直接跟踪梯度动态的重要性,有助于缩小理论与实践的差距,为未来优化算法研究提供了有价值的见解。

[73] Mapping on a Budget: Optimizing Spatial Data Collection for ML

Livia Betti,Farooq Sanni,Gnouyaro Sogoyou,Togbe Agbagla,Cullen Molitor,Tamma Carleton,Esther Rolf

Main category: cs.LG

TL;DR: 本文提出了卫星图像机器学习中空间训练数据优化的首个问题框架,针对标注数据稀疏、空间聚集且收集成本不均的问题,开发了在预算约束下最大化模型性能的采样优化方法。

  • Motivation: 卫星图像机器学习在实际应用中面临标注训练数据稀疏、空间分布不均且收集成本差异大的问题,现有研究主要关注模型架构而非数据条件建模,导致大规模监测应用中数据收集策略不明确。
  • Method: 提出了考虑异构数据收集成本和现实预算约束的空间训练数据优化问题框架,开发了新颖的采样优化方法,在三大洲四个任务上进行实验验证。
  • Result: 实验显示优化采样策略能带来显著性能提升,进一步实验明确了优化采样特别有效的应用场景设置。
  • Conclusion: 该问题框架和方法设计具有跨领域通用性,特别适用于增强聚集式农业调查数据,已在多哥的农业监测中得到实际应用。

[74] Data-Augmented Quantization-Aware Knowledge Distillation

Justin Kur,Kaiqi Zhao

Main category: cs.LG

TL;DR: 本文提出了一种新的数据增强选择方法,通过最大化上下文互信息和确保预测接近真实标签来自动选择最适合量化感知知识蒸馏的数据增强策略。

  • Motivation: 现有的量化感知训练和知识蒸馏研究主要关注网络输出层面的改进,但忽视了输入变换(如数据增强)对低精度模型的影响。量化感知知识蒸馏与数据增强之间的关系尚未被探索。
  • Method: 提出了一种新颖的度量标准,评估数据增强策略在最大化上下文互信息(与图像标签不直接相关的信息)方面的能力,同时确保每个类别的预测平均接近真实标签。该方法自动对数据增强策略进行排名和选择,训练开销极小,且与任何知识蒸馏或量化感知训练算法兼容。
  • Result: 广泛的评估表明,使用该度量标准选择数据增强策略能够显著改进各种模型架构和数据集上的最先进量化感知训练和知识蒸馏工作。
  • Conclusion: 该方法为量化感知知识蒸馏中的数据增强选择提供了有效的解决方案,能够自动选择最优的数据增强策略,显著提升低精度模型的性能。

[75] FedQuad: Federated Stochastic Quadruplet Learning to Mitigate Data Heterogeneity

Ozgu Goksu,Nicolas Pugeault

Main category: cs.LG

TL;DR: FedQuad是一种新的联邦学习方法,通过优化类内方差和类间方差来解决数据异构性问题,在CIFAR数据集上表现出优越性能

  • Motivation: 联邦学习中数据异构性导致全局模型泛化能力下降,特别是在数据集小且类别不平衡的情况下,需要新的方法来改善模型聚合效果
  • Method: 提出FedQuad方法,通过最小化相似对距离、最大化负对距离来显式优化类内方差和类间方差,在共享特征空间中解耦客户端数据
  • Result: 在CIFAR-10和CIFAR-100数据集上,在各种数据分布和大量客户端情况下,FedQuad相比现有方法表现出优越性能
  • Conclusion: 基于度量学习的策略在监督学习和联邦学习范式中都能有效解决联邦设置中的表示学习挑战,FedQuad方法为解决数据异构性问题提供了有效方案

[76] Transition Models: Rethinking the Generative Learning Objective

Zidong Wang,Yiyuan Zhang,Xiaoyu Yue,Xiangyu Yue,Yangguang Li,Wanli Ouyang,Lei Bai

Main category: cs.LG

TL;DR: TiM模型通过精确的连续时间动力学方程,解决了生成模型中迭代扩散模型计算成本高与少步生成模型质量上限的矛盾,实现了任意步长的状态转换,在865M参数下超越了8B和12B参数的大型模型。

  • Motivation: 解决生成模型中迭代扩散模型计算成本高与少步生成模型质量受限的根本矛盾,突破传统训练目标对无限小动态或直接端点预测的局限。
  • Method: 引入精确的连续时间动力学方程,定义任意有限时间间隔的状态转换,构建Transition Models(TiM)生成范式,支持从单步跳跃到多步细化的任意步长转换。
  • Result: TiM仅用865M参数就超越了SD3.5(8B)和FLUX.1(12B)等领先模型,在所有评估步数下都达到最先进性能,且随着采样预算增加呈现单调质量提升,在4096x4096分辨率下表现出色。
  • Conclusion: TiM通过创新的连续时间动力学方法成功解决了生成模型中的步数-质量权衡问题,为高效高质量的生成建模提供了新的解决方案。

cs.CL

[77] MobileRAG: Enhancing Mobile Agent with Retrieval-Augmented Generation

Gowen Loo,Chang Liu,Qinghong Yin,Xiang Chen,Jiawei Chen,Jingyuan Zhang,Yu Tian

Main category: cs.CL

TL;DR: MobileRAG是一个基于检索增强生成(RAG)的移动代理框架,通过InterRAG、LocalRAG和MemRAG组件解决了现有移动代理的三大问题:过度依赖LLM理解能力、缺乏外部环境交互和记忆能力不足,在复杂移动任务上比现有方法提升10.3%

  • Motivation: 当前LLM移动代理存在三个主要问题:1)过度依赖LLM理解能力,容易产生误操作或步骤遗漏;2)缺乏外部环境交互,当应用无法满足查询时任务会终止;3)缺乏记忆能力,每次指令都需要重新构建界面且无法从错误中学习
  • Method: 提出MobileRAG框架,包含三个RAG增强组件:InterRAG、LocalRAG和MemRAG,利用检索增强生成技术快速准确识别用户查询并完成复杂长序列移动任务
  • Result: 在MobileRAG-Eval基准测试中,MobileRAG能够轻松处理现实世界移动任务,比最先进方法提升10.3%的性能,且操作步骤更少
  • Conclusion: MobileRAG通过RAG技术有效解决了当前移动代理的关键局限性,为复杂移动任务自动化提供了更可靠和高效的解决方案

cs.RO

[78] OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection

Chen Hu,Shan Luo,Letizia Gionfrida

Main category: cs.RO

TL;DR: OVGrasp是一个用于软体外骨骼抓握辅助的分层控制框架,通过整合RGB-D视觉、开放词汇提示和语音命令实现多模态交互,能够在开放环境中零样本检测未见过的物体,并在多物体场景中推断用户意图。

  • Motivation: 为运动障碍患者在非结构化环境中提供抓握辅助,这些环境中的物体类别和用户意图多样且不可预测,需要能够处理未知物体和复杂交互的解决方案。
  • Method: 采用分层控制框架,整合视觉-语言基础模型和开放词汇机制,通过多模态决策器融合空间和语言线索来推断用户意图,部署在定制化的自我中心视角可穿戴外骨骼上。
  • Result: 在15个物体和三种抓握类型上的系统评估显示,OVGrasp达到87.00%的抓握能力得分,优于最先进的基线方法,并实现了与自然手部运动更好的运动学对齐。
  • Conclusion: OVGrasp框架通过多模态交互和开放词汇能力,为运动障碍患者在复杂环境中提供了有效的抓握辅助解决方案,展示了在实际应用中的良好性能。

[79] DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

Hao-Shu Fang,Branden Romero,Yichen Xie,Arthur Hu,Bo-Ruei Huang,Juan Alvarez,Matthew Kim,Gabriel Margolis,Kavya Anbarasu,Masayoshi Tomizuka,Edward Adelson,Pulkit Agrawal

Main category: cs.RO

TL;DR: DEXOP是一个被动手部外骨骼系统,通过perioperation范式收集人类操作数据,提供直接接触反馈和姿态镜像,相比遥操作能更高效地收集高质量演示数据用于机器人技能学习。

  • Motivation: 为了解决机器人灵巧操作数据收集的挑战,传统遥操作方式存在自然性差、效率低的问题,需要一种能够最大化人类操作能力同时保证数据可迁移性的新范式。
  • Method: 开发DEXOP被动手部外骨骼,机械连接人类手指与机器人手指,提供直接接触反馈和姿态镜像功能,在自然环境中收集丰富的视觉+触觉数据。
  • Result: DEXOP在多种灵巧接触任务中表现出色,相比遥操作能显著提高单位时间数据收集的任务性能,收集的数据质量更高。
  • Conclusion: DEXOP是推进机器人灵巧操作能力的有力工具,perioperation范式为机器人数据收集提供了新的有效途径。

cs.GR

[80] LuxDiT: Lighting Estimation with Video Diffusion Transformer

Ruofan Liang,Kai He,Zan Gojcic,Igor Gilitschenski,Sanja Fidler,Nandita Vijaykumar,Zian Wang

Main category: cs.GR

TL;DR: LuxDiT:基于视频扩散Transformer的HDR环境光照估计方法,通过大规模合成数据训练和低秩适应微调,能够从单张图像或视频中准确推断全局光照条件

  • Motivation: 现有基于学习的光照估计方法受限于真实HDR环境地图数据的稀缺性和多样性不足,而生成模型虽然具有强大的图像合成先验,但在光照估计方面仍面临间接视觉线索依赖、全局上下文推断和高动态范围输出恢复等挑战
  • Method: 提出LuxDiT方法,通过微调视频扩散Transformer来生成基于视觉输入条件的HDR环境地图。使用大规模合成数据集训练,学习从间接视觉线索推断光照,并采用低秩适应微调策略提高输入与预测环境地图之间的语义对齐
  • Result: 该方法能够生成具有真实角度高频细节的准确光照预测,在定量和定性评估中均优于现有最先进技术,并能够有效泛化到真实世界场景
  • Conclusion: LuxDiT通过结合视频扩散Transformer和精心设计的训练策略,成功解决了单图像/视频光照估计的关键挑战,为计算机视觉和图形学中的光照估计问题提供了有效的解决方案

[81] ContraGS: Codebook-Condensed and Trainable Gaussian Splatting for Fast, Memory-Efficient Reconstruction

Sankeerth Durvasula,Sharanshangar Muhunthan,Zain Moustafa,Richard Chen,Ruofan Liang,Yushi Guan,Nilesh Ahuja,Nilesh Jain,Selvakumar Panneer,Nandita Vijaykumar

Main category: cs.GR

TL;DR: ContraGS是一种直接在压缩的3D高斯泼溅表示上进行训练的方法,通过使用码本存储高斯参数向量,显著减少内存消耗,同时保持接近最先进的质量。

  • Motivation: 3D高斯泼溅技术需要大量3D高斯来实现高质量表示,但这显著增加了GPU内存需求,导致训练和渲染效率低下。需要一种方法在保持高斯数量的同时减少内存使用。
  • Method: 使用码本紧凑存储高斯参数向量,将参数估计建模为贝叶斯推理问题,采用MCMC采样从压缩表示的后验分布中采样。
  • Result: 训练峰值内存平均减少3.49倍,训练和渲染速度分别平均提升1.36倍和1.88倍,同时保持接近最先进的质量。
  • Conclusion: ContraGS成功解决了在码本压缩表示上直接训练的挑战,实现了内存效率的大幅提升和性能加速,为3DGS的高效训练提供了有效解决方案。

[82] TensoIS: A Step Towards Feed-Forward Tensorial Inverse Subsurface Scattering for Perlin Distributed Heterogeneous Media

Ashish Tiwari,Satyam Bhardwaj,Yash Bachwana,Parag Sarvoday Sahu,T. M. Feroz Ali,Bhargava Chintalapati,Shanmuganathan Raman

Main category: cs.GR

TL;DR: 使用Fractal Perlin噪声模型化异质散射参数,提出TensoIS学习框架通过低秩张量分解从多视角图像中估计异质散射参数

  • Motivation: 现有方法多假设均质媒介,缺少对实际异质散射参数的明确分布模型,Perlin噪声在模拟自然表面复杂异质性方面有效
  • Method: 创建HeteroSynth合成数据集(使用Fractal Perlin噪模型异质散射参数),提出TensoIS框架(用可学习低秩张量组件表示散射体积,从稀疏多视角图像中进行逆散射估计)
  • Result: 在HeteroSynth测试集、烟雾云净水模型和实际样品上验证了TensoIS的有效性,能够估计异质散射参数
  • Conclusion: 这是首次尝试使用Perlin噪声分布来模拟实际异质散射环境,为前向学习方法提供了新的解决方案

[83] SMooGPT: Stylized Motion Generation using Large Language Models

Lei Zhong,Yi Yang,Changjian Li

Main category: cs.GR

TL;DR: 通过将人体部位文本空间作为中间表示,使用细调的LLM作为理解器、组合器和生成器,实现了高可解释性和细粒度控制的风格化动作生成。

  • Motivation: 现有方法在风格化动作生成中存在低可解释性、控制限制、对新风格的汉化能力差以及生成动作类型限制等问题,需要从新角度解决这些挑战。
  • Method: 提出了一种理解-组合-生成的新视角,使用人体部位文本空间作为中间表示,并细调LLM(SMooGPT)来执行理解、组合和生成任务,通过文本驱动方式生成风格化动作。
  • Result: 综合实验和评估显示方法有效,特别是在纯文本驱动的风格化动作生成中表现优异,能够实现高可解释性、细粒度控制并良好地汉化到新风格。
  • Conclusion: 通过利用LLM在人体部位文本空间的理解和生成能力,该方法为风格化动作生成提供了一种高可解释性、可控制性强且汉化能力好的新解决方案。

[84] Hyper Diffusion Avatars: Dynamic Human Avatar Generation using Network Weight Space Diffusion

Dongliang Cao,Guoxing Sun,Marc Habermann,Florian Bernard

Main category: cs.GR

TL;DR: 提出了一种结合个性化渲染和扩散模型的新方法,通过两阶段流程生成具有高真实感和姿态相关变形能力的动态人体化身

  • Motivation: 现有方法存在局限性:基于辐射场的个性化渲染方法虽然质量高但无法跨身份泛化,而基于扩散模型的生成方法虽然能生成不同身份但渲染质量较低且无法捕捉姿态相关变形
  • Method: 两阶段流程:1) 优化一组个性化UNet网络,每个网络代表一个能捕捉复杂姿态相关变形的动态人体化身;2) 在优化后的网络权重上训练超扩散模型,推理时生成网络权重以实现实时可控渲染
  • Result: 使用大规模跨身份多视角视频数据集验证,该方法在动态人体化身生成方面优于最先进方法
  • Conclusion: 该方法成功结合了个性化渲染的高质量和生成模型的泛化能力,实现了既具有高真实感又能捕捉姿态相关变形的动态人体化身生成

cs.IR

[85] Global-to-Local or Local-to-Global? Enhancing Image Retrieval with Efficient Local Search and Effective Global Re-ranking

Dror Aiger,Bingyi Cao,Kaifeng Chen,Andre Araujo

Main category: cs.IR

TL;DR: 本文提出了一种基于高效局部特征搜索和全局特征重排序的图像检索新范式,通过动态生成重排序全局特征来提升检索性能。

  • Motivation: 传统的全局到局部检索范式存在计算成本高的问题,而新兴的高效局部特征搜索技术为改变这种范式提供了可能性。
  • Method: 提出局部到全局检索范式,通过多维尺度缩放技术动态生成重排序全局特征,这些特征基于局部特征搜索的相似性。
  • Result: 在Revisited Oxford和Paris数据集上达到了新的状态上的最佳检索性能。
  • Conclusion: 局部到全局检索范式通过结合高效局部搜索和有效全局重排序,能够实现更好的图像检索效果。

astro-ph.EP

[86] Revealing Fine Structure in Protoplanetary Disks with Physics Constrained Neural Fields

Aviad Levis,Nhan Luong,Richard Teague,Katherine. L. Bouman,Marcelo Barraza-Alfaro,Kevin Flaherty

Main category: astro-ph.EP

TL;DR: 提出了一个结合物理约束神经场和可微分渲染的计算框架RadJAX,实现了比传统射线追踪器快10,000倍的GPU加速可微分线辐射传输求解器,用于解析原行星盘的三维结构。

  • Motivation: 原行星盘是行星的诞生地,解析其三维结构对理解盘演化至关重要。ALMA的空前分辨率需要超越传统方法的建模方法。
  • Method: 开发了RadJAX框架,整合物理约束神经场与可微分渲染,实现GPU加速的全可微分线辐射传输求解器。
  • Result: 应用于HD 163296的ALMA CO观测,恢复了CO富集层的垂直形态,揭示了在400 au以外发射面明显变窄和平坦的特征,这是现有方法遗漏的。
  • Conclusion: 这项工作建立了提取复杂盘结构的新范式,推进了对原行星盘演化的理解。