Skip to content
每日arXiv - 2025年9月25日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Vision-Based Perception for Autonomous Vehicles in Off-Road Environment Using Deep Learning

Nelson Alves Ferreira Neto

Main category: cs.CV

TL;DR: 提出了一种用于非铺装道路和越野环境的感知系统,能够在不预设路径的情况下导航崎岖地形。开发了可配置模块化分割网络(CMSNet)框架,并创建了Kamino数据集进行验证。

  • Motivation: 为露天矿场和发展中国家的自动驾驶系统提供低延迟智能解决方案,解决非铺装道路和越野环境下的导航挑战。
  • Method: 提出CMSNet框架支持不同架构配置,使用TensorRT、C++和CUDA进行实时推理优化,创建包含近12,000张图像的Kamino数据集进行训练和测试。
  • Result: 在两种数据集上的实证实验验证了系统的有效性,能够实时分割障碍物和可通行地面,并在恶劣条件下(夜间、雨天、灰尘)保持良好性能。
  • Conclusion: CMSNet框架为自动驾驶车辆在非结构化地形中的实时感知提供了有效解决方案,特别是在恶劣能见度条件下表现出良好的鲁棒性。

[2] Overview of LifeCLEF Plant Identification task 2020

Herve Goeau,Pierre Bonnet,Alexis Joly

Main category: cs.CV

TL;DR: 该论文提出了PlantCLEF 2020植物识别挑战,旨在通过使用植物标本馆收藏来改进对数据稀缺地区(特别是南美洲圭亚那地盾)植物物种的自动识别。

  • Motivation: 当前基于深度学习的植物识别主要关注北美和西欧的物种,而生物多样性最丰富的热带地区数据稀缺。植物标本馆收藏了大量热带地区植物标本,可作为补充数据源。
  • Method: 采用跨域分类方法,训练集包含数十万张植物标本馆标本和数千张野外照片,测试集仅包含野外照片,旨在学习两个域之间的映射关系。
  • Result: 挑战基于约1000种南美洲圭亚那地盾植物物种的数据集进行,评估了自动化识别系统在数据稀缺地区的表现。
  • Conclusion: 植物标本馆收藏可以作为改进热带地区植物自动识别的重要数据源,跨域学习方法有望解决数据不平衡问题。

[3] iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning

Manyi Yao,Bingbing Zhuang,Sparsh Garg,Amit Roy-Chowdhury,Christian Shelton,Manmohan Chandraker,Abhishek Aich

Main category: cs.CV

TL;DR: iFinder是一个结构化语义理解框架,通过将行车记录仪视频转换为层次化、可解释的数据结构,将感知与推理解耦,从而提升LLM在驾驶视频分析中的表现。

  • Motivation: 现有基于视频的视觉语言模型在驾驶视频分析中缺乏空间推理、因果推断和事件可解释性能力,特别是在仅有视觉模态的情况下。
  • Method: 采用模块化、无需训练的流程,使用预训练视觉模型提取关键线索(物体姿态、车道位置、物体轨迹),并组织成层次化结构,结合三块提示策略实现逐步推理。
  • Result: 在四个公开行车记录仪基准测试中,iFinder显著优于端到端V-VLM,事故推理准确率提升高达39%。
  • Conclusion: 通过将LLM与驾驶领域特定表示相结合,iFinder为零样本、可解释且可靠的驾驶视频理解提供了替代方案。

[4] CURE: Centroid-guided Unsupervised Representation Erasure for Facial Recognition Systems

Fnu Shivam,Nima Najafzadeh,Yenumula Reddy,Prashnna Gyawali

Main category: cs.CV

TL;DR: CURE是首个无需身份标签的无监督人脸识别遗忘框架,通过质心引导的表征擦除技术,在保护整体模型性能的同时有效移除特定样本,并提出了新的遗忘效率评分指标。

  • Motivation: 当前人脸识别系统存在隐私问题,需要数据移除功能,但现有机器学习遗忘技术依赖身份标签,这在隐私受限或大规模噪声数据集中往往不可用。
  • Method: 提出CURE框架,使用质心引导的无监督表征擦除方法,无需身份标签即可移除目标样本的影响,同时保持模型性能。
  • Result: CURE显著优于现有无监督遗忘方法,并在低质量图像遗忘任务中表现出色,证明了图像质量在机器学习遗忘中的重要性。
  • Conclusion: CURE填补了无监督机器学习遗忘的空白,为隐私保护的人脸识别系统提供了实用的解决方案,新的评估指标也为该领域提供了更好的评估标准。

[5] Synthesizing Artifact Dataset for Pixel-level Detection

Dennis Menn,Feng Liang,Diana Marculescu

Main category: cs.CV

TL;DR: 提出一种自动注入伪影到高质量合成图像的方法,无需人工标注即可生成像素级注释,用于训练伪影检测器

  • Motivation: 训练伪影检测器需要昂贵的像素级人工标注,缺乏标注数据限制了检测器性能,现有伪标注方法存在噪声标签问题
  • Method: 设计伪影污染管道,自动在干净的合成图像预定区域注入伪影,生成像素级标注而不需要人工标注
  • Result: 该方法训练的伪影检测器在人工标注数据上验证,相比基线方法,ConvNeXt性能提升13.2%,Swin-T提升3.7%
  • Conclusion: 这是向可扩展的像素级伪影标注数据集迈出的第一步,将世界知识整合到伪影检测中

[6] Parameter-Efficient Multi-Task Learning via Progressive Task-Specific Adaptation

Neeraj Gangwar,Anshuka Rangi,Rishabh Deshmukh,Holakou Rahmanian,Yesh Dattatreya,Nickvash Kani

Main category: cs.CV

TL;DR: 提出了一种渐进式任务特定的多任务适配方法,通过在预训练模型中引入适配器模块,在初始层共享所有任务,在后续层逐渐变得任务特定,以减少任务冲突并提高参数效率。

  • Motivation: 解决参数高效微调方法在多任务学习中面临的任务干扰和负迁移问题,由于可训练参数数量有限,这些挑战在多任务学习中更加严重。
  • Method: 在预训练模型中引入适配器模块,初始层共享所有任务,后续层逐渐任务特定化;提出基于梯度的任务相似性计算方法,将相似任务分配到共享适配器模块。
  • Result: 在PASCAL和NYUD-v2数据集上的实验表明,该方法仅需五分之一的训练参数就能超越完全微调的多任务模型,在参数效率多任务学习方面超越了当前最先进方法。
  • Conclusion: 该渐进式任务特定多任务适配方法有效解决了多任务学习中的任务冲突问题,在保持参数效率的同时显著提升了性能。

[7] Raw-JPEG Adapter: Efficient Raw Image Compression with JPEG

Mahmoud Afifi,Ran Zhang,Michael S. Brown

Main category: cs.CV

TL;DR: 本文提出RawJPEG Adapter,一种轻量级、可学习且可逆的预处理管道,将原始图像适配为标准JPEG压缩,通过存储在JPEG注释字段中的紧凑参数实现准确的原始数据重建。

  • Motivation: 原始数据保留完整传感器信息,但存储需求大;JPEG格式压缩效率高但不适合原始存储。需要在压缩效率和原始信息保留之间找到平衡。
  • Method: 应用空间和可选频域变换,将紧凑参数存储在JPEG注释字段中,实现原始数据的准确重建。
  • Result: 在多个数据集上的实验表明,该方法比直接JPEG存储具有更高的保真度,支持其他编解码器,并在压缩比和重建精度之间提供了有利的权衡。
  • Conclusion: RawJPEG Adapter为原始图像存储提供了一种实用的解决方案,在保持高压缩效率的同时实现了准确的原始数据重建。

[8] The Impact of 2D Segmentation Backbones on Point Cloud Predictions Using 4D Radar

William L. Muckelroy III,Mohammed Alsakabi,John M. Dolan,Ozan K. Tonguz

Main category: cs.CV

TL;DR: 本研究探讨了更高容量的分割骨干网络对使用4D雷达生成LiDAR级点云质量的影响,发现最优分割骨干网络相比现有技术可提升23.7%的性能。

  • Motivation: LiDAR成本高昂限制了高级自动驾驶系统的广泛应用,研究旨在通过4D雷达替代LiDAR生成高质量点云,降低系统成本。
  • Method: 使用更高容量的分割骨干网络来改进基于4D雷达生成LiDAR级点云的神经网络架构,评估不同容量模型对点云质量的影响。
  • Result: 研究发现过高容量的模型反而会损害性能,但找到最优分割骨干网络可以实现23.7%的性能提升。
  • Conclusion: 选择合适的网络容量对4D雷达生成点云任务至关重要,最优分割骨干网络能显著提升生成点云的质量。

[9] Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment

Aravind Narayanan,Vahid Reza Khazaie,Shaina Raza

Main category: cs.CV

TL;DR: 该研究构建了一个包含1343个新闻图像-问题对的基准测试,用于评估大型视觉语言模型在视觉上下文影响下产生社会偏见的风险,发现视觉线索会系统性影响模型输出,性别和职业属性存在较高偏见风险。

  • Motivation: 大型视觉语言模型虽然能够联合理解图像和文本,但容易吸收和再现有害的社会刻板印象,特别是在存在年龄、性别、种族、服装或职业等视觉线索时。
  • Method: 创建新闻图像基准测试,使用大型语言模型作为评判者并经过人工验证,评估多种最先进的视觉语言模型在视觉上下文影响下的偏见表现。
  • Result: 视觉上下文在开放设置中会系统性影响模型输出;不同属性和模型的偏见程度不同,性别和职业属性风险最高;更高的忠实度并不一定对应更低的偏见。
  • Conclusion: 研究揭示了视觉语言模型存在社会偏见风险,并发布了基准测试、评估标准和代码,支持可复现和公平感知的多模态评估。

[10] MoTiC: Momentum Tightness and Contrast for Few-Shot Class-Incremental Learning

Zeyu He,Shuai Huang,Yuwu Lu,Ming Zhao

Main category: cs.CV

TL;DR: 本文提出MoTiC框架,通过贝叶斯分析将新类先验与旧类统计对齐来减少方差,结合大规模对比学习和动量自监督来增强特征紧密度和多样性,在FSCIL任务上取得SOTA性能。

  • Motivation: 解决FSCIL中新类原型因数据稀缺导致的估计偏差问题,同时缓解灾难性遗忘和过拟合。
  • Method: 使用贝叶斯分析对齐新类先验与旧类统计,提出MoTiC框架整合动量自监督和虚拟类别,通过大规模对比学习增强特征紧密度。
  • Result: 在三个FSCIL基准测试中取得最优性能,特别是在细粒度任务CUB-200上表现突出。
  • Conclusion: 该方法能有效减少估计偏差,提高增量学习的鲁棒性,构建了具有丰富表示和增强类间凝聚力的特征空间。

[11] Deep Learning for Clouds and Cloud Shadow Segmentation in Methane Satellite and Airborne Imaging Spectroscopy

Manuel Perez-Carrasco,Maya Nasr,Sebastien Roche,Chris Chan Miller,Zhan Zhang,Core Francisco Park,Eleanor Walker,Cecilia Garraffo,Douglas Finkbeiner,Ritesh Gautam,Steven Wofsy

Main category: cs.CV

TL;DR: 本研究使用机器学习方法解决高分辨率遥感仪器中的云和云影检测问题,比较了传统方法和深度学习架构的性能。

  • Motivation: 有效的云和云影检测是准确获取大气甲烷或其他痕量气体浓度的关键前提,特别对于MethaneSAT和MethaneAIR任务至关重要,因为云和云影会偏差甲烷反演结果并影响排放量化。
  • Method: 部署和评估了传统技术(迭代逻辑回归ILR和多层感知器MLP)以及先进的深度学习架构(UNet和光谱通道注意力网络SCAN)。
  • Result: 传统方法在空间一致性和边界定义方面表现不佳,而深度学习模型显著提高了检测质量:UNet在保持空间结构方面表现最佳,SCAN在捕捉精细边界细节方面表现优异,特别是在MethaneSAT数据上SCAN超越了UNet。
  • Conclusion: 深入评估表明,先进的深度学习架构在提供稳健、可扩展的云和云影筛查解决方案方面具有优势,能够增强现有和下一代高光谱任务的甲烷排放量化能力。

[12] Enhancing Transformer-Based Vision Models: Addressing Feature Map Anomalies Through Novel Optimization Strategies

Sumit Mamtani

Main category: cs.CV

TL;DR: 提出了两种轻量级优化技术(STA和ANF)来改善Vision Transformers的特征图质量,减少结构化噪声伪影,提升下游任务性能

  • Motivation: Vision Transformers在计算机视觉任务中表现出色,但其特征图中存在的结构化噪声伪影阻碍了分割和深度估计等下游应用
  • Method: 1. Structured Token Augmentation (STA):在tokenization过程中通过空间扰动增强token多样性;2. Adaptive Noise Filtering (ANF):在transformer层之间应用可学习的在线去噪
  • Result: 在ImageNet、Ade20k和NYUv2等标准基准测试中,实验结果显示视觉质量和任务性能均得到一致提升
  • Conclusion: 所提出的STA和ANF方法是架构无关的,具有实际有效性,能够显著改善ViTs的视觉质量和下游任务表现

[13] From Prompt to Progression: Taming Video Diffusion Models for Seamless Attribute Transition

Ling Lo,Kelvin C. K. Chan,Wen-Huang Cheng,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: 提出了一种通过引入帧级引导来改善视频生成中属性渐变过渡的方法,并创建了CAT-Bench基准来评估模型性能

  • Motivation: 现有模型在处理复杂时间变化,特别是具有渐变属性过渡的视频生成时存在困难,常见的提示插值方法无法有效处理渐变属性过渡
  • Method: 在去噪过程中引入帧级引导,为每个噪声潜在空间构建数据特定的过渡方向,逐帧引导从初始属性到最终属性的渐变过渡,同时保持视频的运动动态
  • Result: 实验结果表明该方法在视觉保真度、文本提示对齐和属性过渡平滑性方面优于现有基线
  • Conclusion: 提出的方法能够有效实现平滑一致的属性过渡,并发布了代码和CAT-Bench基准

[14] Anatomically Constrained Transformers for Cardiac Amyloidosis Classification

Alexander Thorley,Agis Chartsias,Jordan Strom,Roberto Lang,Jeremy Slivnick,Jamie O'Driscoll,Rajan Sharma,Dipak Kotecha,Jinming Duan,Alberto Gomez

Main category: cs.CV

TL;DR: 该论文提出了一种基于解剖约束的Transformer模型,用于心脏淀粉样变性(CA)分类,通过将模型注意力限制在心肌区域来提高分类性能并确保临床相关性。

  • Motivation: 传统神经网络方法处理整个超声心动图视频,但无法保证分类基于与CA相关的临床特征。作者希望开发一种方法,确保分类只关注已知CA异常发生的解剖区域(心肌)。
  • Method: 提出解剖约束的Transformer模型,将心肌表示为变形点和相应的图像块作为输入标记。同时将这种约束应用于自监督学习的掩码自编码器预训练,只掩码和重建解剖区域。
  • Result: 通过将Transformer和预训练任务约束在心肌区域,在CA分类任务上相比完整视频Transformer实现了更高的性能。
  • Conclusion: 该方法不仅提高了分类性能,还提供了明确的保证,确保分类只关注超声心动图的解剖区域,并能可视化Transformer在变形心肌上的注意力分数。

[15] Learning to Stop: Reinforcement Learning for Efficient Patient-Level Echocardiographic Classification

Woo-Jin Cho Kim,Jorge Oliveira,Arian Beqiri,Alex Thorley,Jordan Strom,Jamie O'Driscoll,Rajan Sharma,Jeremy Slivnick,Roberto Lang,Alberto Gomez,Agisilaos Chartsias

Main category: cs.CV

TL;DR: 提出了一种基于强化学习的方法,用于选择最优的超声心动图视频剪辑子集,以最大化疾病分类性能,同时减少计算成本。

  • Motivation: 当前自动疾病分类方法要么使用单个剪辑(忽略互补信息),要么使用所有剪辑(计算成本高),需要一种平衡性能与效率的解决方案。
  • Method: 使用强化学习训练智能体,学习何时继续处理特定视图剪辑以减少分类不确定性,或何时停止处理(当分类置信度足够时)。同时提出可学习的基于注意力的聚合方法融合多剪辑信息。
  • Result: 在检测心脏淀粉样变性的任务中,仅使用30%的剪辑就获得了0.91的AUC,超过了使用所有剪辑和其他基准方法的性能。
  • Conclusion: 该方法在保持高性能的同时显著降低了计算需求,有望促进临床采用自动疾病分类系统。

[16] Towards Robust In-Context Learning for Medical Image Segmentation via Data Synthesis

Jiesi Hu,Yanwu Yang,Zhiyu Ye,Chenfei Ye,Hanyang Peng,Jianfeng Cao,Ting Ma

Main category: cs.CV

TL;DR: SynthICL是一个基于领域随机化的医学图像分割数据合成框架,通过利用真实数据集的解剖先验生成多样化且分布合适的合成数据,解决了ICL训练中的数据稀缺问题。

  • Motivation: 随着上下文学习在通用医学图像分割中的应用增加,对大规模多样化数据集的需求加剧了数据稀缺问题。现有数据合成方法难以同时实现高数据多样性和适合医学数据的领域分布。
  • Method: 基于领域随机化构建数据合成框架,利用真实数据集的解剖先验确保真实性,生成多样化解剖结构以覆盖广泛数据分布,并显式建模主体间变异以创建适合ICL的数据队列。
  • Result: 在四个保留数据集上的实验验证了框架有效性,使用合成数据训练的模型在平均Dice指标上提升高达63%,并显著增强了对未见解剖领域的泛化能力。
  • Conclusion: 该工作有助于缓解基于ICL的分割方法的数据瓶颈,为构建鲁棒模型铺平了道路。

[17] VIMD: Monocular Visual-Inertial Motion and Depth Estimation

Saimouli Katragadda,Guoquan Huang

Main category: cs.CV

TL;DR: 本文提出了一种单目视觉惯性运动和深度(VIMD)学习框架,通过利用MSCKF-based单目视觉惯性运动跟踪来估计密集度量深度,核心创新是利用多视图信息迭代细化像素级尺度而非全局拟合仿射模型。

  • Motivation: 准确高效的密集度量深度估计对于机器人和XR中的3D视觉感知至关重要,现有方法存在全局尺度拟合的局限性。
  • Method: 开发模块化的VIMD框架,利用多视图信息迭代细化每个像素的尺度,兼容多种现有深度估计骨干网络。
  • Result: 在TartanAir和VOID数据集上的评估显示,即使每幅图像只有10-20个稀疏度量深度点,VIMD也能实现卓越的准确性和鲁棒性,并在AR Table数据集上展示零样本泛化能力。
  • Conclusion: VIMD为资源受限环境提供了实用解决方案,其鲁棒性能和强大泛化能力在广泛场景中具有显著应用潜力。

[18] Frequency-domain Multi-modal Fusion for Language-guided Medical Image Segmentation

Bo Yu,Jianhua Yang,Zetao Du,Yan Huang,Chenglong Li,Liang Wang

Main category: cs.CV

TL;DR: 提出FMISeg模型,通过频域多模态交互实现语言引导的医学图像分割,解决现有方法在融合视觉-语言模态时的语义鸿沟问题

  • Motivation: 现有方法难以有效融合放射学图像和临床文本报告,无法充分增强视觉特征表示和消除语义无关信息,导致分割性能不理想
  • Method: FMISeg是一种后期融合模型,在解码器中建立语言特征和频域视觉特征的交互。包含频域特征双向交互模块和语言引导的频域特征交互模块
  • Result: 在QaTa-COV19和MosMedData+数据集上的实验表明,该方法在定性和定量上都优于现有最先进方法
  • Conclusion: FMISeg通过频域多模态交互有效提升了语言引导的医学图像分割性能

[19] PolGS: Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

Yufei Han,Bowen Tie,Heng Guo,Youwei Lyu,Si Li,Boxin Shi,Yunpeng Jia,Zhanyu Ma

Main category: cs.CV

TL;DR: PolGS是一种基于偏振高斯泼溅的快速反射表面重建方法,能够在10分钟内完成高质量重建,通过偏振约束有效分离镜面反射和漫反射分量。

  • Motivation: 现有3D高斯泼溅方法虽然渲染速度快,但在复杂反射表面重建质量上不如隐式神经表示,特别是对于具有复杂反射特性的表面恢复效果较差。
  • Method: 将偏振约束集成到3D高斯泼溅框架中,通过偏振信息有效分离镜面反射和漫反射分量,提升对挑战性反射材料的重建质量。
  • Result: 在合成和真实世界数据集上的实验验证了该方法的有效性,能够实现快速高质量的反射表面重建。
  • Conclusion: PolGS方法通过引入偏振约束,显著提升了3D高斯泼溅在复杂反射表面重建方面的性能,实现了快速高质量的表面重建。

[20] CAMILA: Context-Aware Masking for Image Editing with Language Alignment

Hyunseung Kim,Chiho Choi,Srikanth Malla,Sai Prahladh Padmanabhan,Saurabh Bagchi,Joon Hee Choi

Main category: cs.CV

TL;DR: CAMILA是一种上下文感知的图像编辑方法,通过验证指令与图像的上下文一致性,只对相关区域应用可行编辑,忽略不可执行指令,从而避免无意义输出。

  • Motivation: 现有图像编辑模型会盲目遵循所有用户指令,即使指令不可行或矛盾,导致输出无意义。需要解决指令可行性验证问题。
  • Method: 提出CAMILA方法,使用上下文感知掩码和语言对齐技术,验证指令与图像的上下文一致性,只对指定区域应用相关编辑。
  • Result: 在包含不可行请求的单指令和多指令图像编辑数据集上评估,CAMILA在性能和语义对齐方面优于现有最先进模型。
  • Conclusion: CAMILA能有效处理复杂指令挑战,在保持图像完整性的同时实现更好的编辑效果。

[21] Robust RGB-T Tracking via Learnable Visual Fourier Prompt Fine-tuning and Modality Fusion Prompt Generation

Hongtao Yang,Bineng Zhong,Qihua Liang,Zhiruo Zhu,Yaozong Zheng,Ning Li

Main category: cs.CV

TL;DR: 提出VFPTrack方法,通过傅里叶变换在频域学习模态相关提示,结合空间域和频域信息提升RGB-T跟踪性能

  • Motivation: 现有基于参数高效微调的RGB-T跟踪方法仅依赖空间域信息作为提示,忽略了频域信息在提示学习中的重要作用,导致性能不佳
  • Method: 使用对称特征提取编码器、视觉傅里叶提示和模态融合提示生成器。首先提取RGB和热红外模态特征,然后将空间域视觉提示与FFT获得的频域提示结合,最后通过模态融合生成双向交互提示
  • Result: 在三个流行的RGB-T跟踪基准测试上进行的广泛实验表明,该方法表现出色
  • Conclusion: VFPTrack方法通过结合空间域和频域信息,实现了跨模态特征的充分交互,显著提升了RGB-T跟踪性能

[22] Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation

Xinhao Zhong,Shuoyang Sun,Xulin Gu,Chenyang Zhu,Bin Chen,Yaowei Wang

Main category: cs.CV

TL;DR: 本文提出RD³方法,系统研究数据集蒸馏中不同后评估设置对测试精度的影响,揭示现有方法性能差异主要源于评估不一致而非方法本身,并建立标准化基准。

  • Motivation: 现有解耦数据集蒸馏方法存在后评估协议不一致的问题,阻碍了该领域的发展。需要系统研究评估设置的影响并建立公平比较标准。
  • Method: 提出Rectified Decoupled Dataset Distillation (RD³)方法,通过标准化后评估协议,系统分析不同设置对性能的影响,识别提升蒸馏数据集有效性的通用策略。
  • Result: 分析表明大部分性能变化可归因于评估不一致而非合成数据内在质量差异,RD³为公平可复现比较提供了基础。
  • Conclusion: 建立标准化基准和严格评估协议对数据集蒸馏研究的公平比较至关重要,RD³为该领域提供了可靠基础。

[23] nnFilterMatch: A Unified Semi-Supervised Learning Framework with Uncertainty-Aware Pseudo-Label Filtering for Efficient Medical Segmentation

Yi Yang

Main category: cs.CV

TL;DR: 提出nnFilterMatch框架,将半监督学习与主动学习结合,在单次训练中实现高效医学图像分割,减少标注需求

  • Motivation: 传统SSL_AL混合方法需要迭代重训练,计算开销大且限制临床应用的扩展性,需要更高效的解决方案
  • Method: 在nnU-Net框架中集成SSL和基于熵的伪标签过滤机制,选择性排除高置信度伪标签,避免重训练循环
  • Result: 在多个临床分割基准测试中,仅使用5%-20%标注数据即可达到或超过全监督模型性能
  • Conclusion: 该工作提供了一种可扩展的端到端学习策略,在不牺牲准确性的前提下显著降低医学图像分割的标注需求

[24] Talking Head Generation via AU-Guided Landmark Prediction

Shao-Yu Chang,Jingyi Xu,Hieu Le,Dimitris Samaras

Main category: cs.CV

TL;DR: 提出一个两阶段框架,通过面部动作单元(AUs)实现音频驱动的说话头生成,具有细粒度表情控制。第一阶段使用变分运动生成器从音频和AU强度预测时间连贯的地标序列,第二阶段使用基于扩散的合成器生成逼真的唇同步视频。

  • Motivation: 现有方法依赖情感标签或隐式AU条件,缺乏物理基础的表情控制。本文旨在通过显式将AUs映射到2D面部地标,实现更精确、稳定的表情控制。
  • Method: 两阶段框架:1)变分运动生成器预测地标序列;2)扩散合成器生成视频。分离运动和外观建模,提高表达准确性和时间稳定性。
  • Result: 在MEAD数据集上的实验表明,该方法在多个指标上优于现有最先进基线,证明了显式AU到地标建模的有效性。
  • Conclusion: 通过显式AU到地标的物理基础建模,实现了更精确、稳定的表情控制,提升了说话头生成的表达准确性和视觉真实感。

[25] ExpFace: Exponential Angular Margin Loss for Deep Face Recognition

Jinhui Zheng,Xueyuan Gong

Main category: cs.CV

TL;DR: 提出了ExpFace损失函数,通过角空间中的指数项作为边际,对中心区域的干净样本施加更大惩罚,对边缘区域的噪声样本施加较小惩罚,从而提升人脸识别的性能。

  • Motivation: 现有的基于边际的softmax损失(如SphereFace、CosFace、ArcFace)忽略了噪声样本的影响。通过观察角空间中样本分布,发现干净样本主要聚集在中心区域,而噪声样本倾向于向边缘区域偏移。
  • Method: 提出指数角边际损失(ExpFace),在角空间中引入指数项作为边际,对中心区域施加更大惩罚,对边缘区域施加较小惩罚,强调干净样本同时抑制噪声样本。
  • Result: 实验表明ExpFace达到了最先进的性能,避免了SphereFace的训练不稳定性和ArcFace的非单调性问题,且相似度曲线与角空间中的决策边界惩罚方式一致。
  • Conclusion: ExpFace是一种有效的人脸识别损失函数,通过角空间中的指数边际设计,能更好地处理噪声样本,提升模型性能。源代码已开源。

[26] Logics-Parsing Technical Report

Xiangyang Chen,Shuzhao Li,Xiuwen Zhu,Yongfan Chen,Fan Yang,Cheng Fang,Lin Qu,Xiaoxiao Xu,Hu Wei,Minggang Wu

Main category: cs.CV

TL;DR: Logics-Parsing是一个基于大型视觉语言模型(LVLM)的端到端文档解析模型,通过强化学习增强布局分析和阅读顺序推理能力,支持多种数据类型处理,并在新构建的LogicsParsingBench基准测试中达到最先进性能。

  • Motivation: 现有的端到端LVLM文档解析方法缺乏明确的文档布局分析和阅读顺序推理阶段,限制了处理复杂文档类型(如多栏报纸、海报)的能力。
  • Method: 提出Logics-Parsing模型,结合强化学习设计奖励机制来优化复杂布局分析和阅读顺序推理,并在监督微调中融入化学公式和手写汉字等多种数据类型。
  • Result: 在包含1,078页PDF图像、涵盖9大类20多子类的LogicsParsingBench基准测试中,模型在多样化文档分析场景中表现出有效性和最先进性能。
  • Conclusion: Logics-Parsing通过强化学习增强的布局分析和多数据类型支持,显著提升了LVLM在复杂文档解析任务中的能力,为文档智能分析提供了新的解决方案。

[27] Sex-based Bias Inherent in the Dice Similarity Coefficient: A Model Independent Analysis for Multiple Anatomical Structures

Hartmut Häntze,Myrthe Buser,Alessa Hering,Lisa C. Adams,Keno K. Bressem

Main category: cs.CV

TL;DR: 该研究发现Dice相似系数(DSC)本身存在性别偏见,因为该指标对小结构的分割错误惩罚更重,而女性器官通常较小,导致相同大小的分割错误在女性中DSC得分更低。

  • Motivation: 现有研究关注模型或数据集的性别差异,但尚未有人研究DSC指标本身可能引入的性别偏见。本研究旨在量化DSC在理想化设置下的性别差异。
  • Method: 在50名参与者的手动MRI标注上应用相同大小的合成错误,确保性别间的可比性,分析不同大小器官的DSC差异。
  • Result: 即使最小错误(如1mm边界偏移)也会产生系统性DSC性别差异:小结构平均差异约0.03,中等结构约0.01,只有大器官(肺、肝)基本不受影响。
  • Conclusion: 使用DSC作为评估指标时不应期望男女得分相同,因为该指标本身存在偏见。识别这一因素对医学图像分析的公平评估至关重要。

[28] EfficienT-HDR: An Efficient Transformer-Based Framework via Multi-Exposure Fusion for HDR Reconstruction

Yu-Shen Huang,Tzu-Han Chen,Cheng-Yen Hsiao,Shaou-Gang Miaou

Main category: cs.CV

TL;DR: 本文提出了一种轻量级视觉Transformer架构,专门用于资源受限边缘设备上的高质量HDR成像,解决了传统多曝光融合方法的高计算成本和重影问题。

  • Motivation: 在资源受限的边缘设备上实现高质量HDR成像对智能监控和自动驾驶等下游任务至关重要,但现有方法面临高计算成本和重影伪影的双重瓶颈。
  • Method: 基于上下文感知视觉Transformer,将输入图像转换为YCbCr色彩空间,采用交叉感知自适应融合模块抑制重影,引入倒置残差嵌入、动态Tanh和增强多尺度扩张卷积实现轻量化设计。
  • Result: 与基线相比,主版本减少FLOPs约67%,在CPU上推理速度提升5倍以上,在边缘设备上提升2.5倍,同时保持优异的图像质量。
  • Conclusion: 该方法为边缘设备提供了高效且无重影的HDR成像解决方案,在各种动态场景中展现出多功能性和实用性。

[29] BiTAA: A Bi-Task Adversarial Attack for Object Detection and Depth Estimation via 3D Gaussian Splatting

Yixun Zhang,Feng Zhou,Jianqin Yin

Main category: cs.CV

TL;DR: BiTAA是一种基于3D高斯泼溅的双任务对抗攻击方法,能够通过单一扰动同时降低目标检测性能并偏置单目深度估计,揭示了自动驾驶多任务感知中的安全风险。

  • Motivation: 现有2D/3D攻击方法存在任务孤岛问题,缺乏可控深度偏置机制,且没有标准化协议来量化跨任务转移,导致检测与深度任务间的交互关系未被充分探索。
  • Method: 提出基于3D高斯泼溅的双模型攻击框架,支持全图像和补丁设置,兼容常见检测器和深度估计器,采用复合损失函数将检测抑制与可控的log-depth偏置耦合。
  • Result: 实验显示该方法能实现一致的跨任务性能下降,并揭示了从检测到深度与从深度到检测转移之间的明显不对称性。
  • Conclusion: 研究结果凸显了多任务相机感知的实际风险,并呼吁在自动驾驶场景中开发跨任务感知的防御机制。

[30] StrCGAN: A Generative Framework for Stellar Image Restoration

Shantanusinh Parmar

Main category: cs.CV

TL;DR: StrCGAN是一种用于增强低分辨率天体摄影图像的生成模型,通过3D卷积层、多光谱融合和天体物理正则化模块来改进传统CycleGAN,生成物理一致的高保真天体图像。

  • Motivation: 解决小型望远镜观测图像分辨率低、质量差的问题,传统CycleGAN在2D映射中会扭曲恒星和星系的形态,需要更先进的方法来重建高保真天体图像。
  • Method: 扩展CycleGAN框架,引入3D卷积层捕获体积空间相关性,多光谱融合对齐光学和近红外域,天体物理正则化模块保护恒星形态,使用多任务全天巡天数据指导训练。
  • Result: StrCGAN生成的图像不仅视觉上更清晰,而且物理一致性更好,在天体物理图像增强任务中优于标准GAN模型。
  • Conclusion: StrCGAN通过创新的3D卷积、多光谱融合和物理正则化技术,成功解决了低分辨率天体图像增强的挑战,为天体摄影提供了更高质量的图像重建方案。

[31] Adaptive Model Ensemble for Continual Learning

Yuchuan Mao,Zhi Gao,Xiaomeng Fan,Yuwei Wu,Yunde Jia,Chenchen Jing

Main category: cs.CV

TL;DR: 提出meta-weight-ensembler方法,通过元学习训练混合系数生成器,自适应融合不同任务的知识,解决持续学习中的任务级和层级知识冲突问题

  • Motivation: 现有的模型集成方法在持续学习中存在任务级和层级的知识冲突问题,导致新旧任务的学习性能都受到影响
  • Method: 使用元学习训练混合系数生成器,为每个层级单独生成混合系数,自适应地融合不同任务的知识
  • Result: 在多个持续学习数据集上的实验表明,该方法有效缓解了灾难性遗忘,并达到了最先进的性能
  • Conclusion: meta-weight-ensembler可以灵活地与现有持续学习方法结合,提升其缓解灾难性遗忘的能力

[32] ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection

Tai-Ming Huang,Wei-Tung Lin,Kai-Lung Hua,Wen-Huang Cheng,Junichi Yamagishi,Jun-Cheng Chen

Main category: cs.CV

TL;DR: ThinkFake是一个基于推理的AI生成图像检测框架,使用多模态大语言模型和强化学习,通过逐步推理产生可解释的结构化输出,在多个基准测试中表现出色。

  • Motivation: AI生成图像的逼真度不断提高,引发了错误信息和隐私泄露的严重担忧,现有方法大多依赖二元分类或监督微调,泛化能力有限。
  • Method: 提出ThinkFake框架,利用配备伪造推理提示的多模态大语言模型,采用Group Relative Policy Optimization强化学习训练,并设计了结构化检测管道。
  • Result: 在GenImage基准测试中优于现有最先进方法,在LOKI基准测试中展现出强大的零样本泛化能力。
  • Conclusion: 该框架在AI生成图像检测方面具有有效性和鲁棒性,代码将在接受后发布。

[33] PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents

Filippo Ziliotto,Jelin Raphael Akkara,Alessandro Daniele,Lamberto Ballan,Luciano Serafini,Tommaso Campari

Main category: cs.CV

TL;DR: PersONAL是一个用于研究具身AI个性化能力的基准测试,专注于在家庭环境中根据用户特定偏好进行物体导航和定位。

  • Motivation: 当前具身AI在现实人类中心场景(如家庭环境)中部署困难,主要挑战在于难以建模个体人类偏好和行为。
  • Method: 构建包含2000+高质量场景的基准测试,基于HM3D数据集的30+个逼真家庭环境,支持主动导航和物体定位两种评估模式。
  • Result: 实验显示最先进基线模型与人类性能存在显著差距,表明现有代理在个性化信息感知、推理和记忆方面能力不足。
  • Conclusion: 该基准为开发能够处理个性化信息的具身代理铺平了道路,推动现实世界辅助机器人的发展。

[34] FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models

Xin Wang,Jie Li,Zejia Weng,Yixu Wang,Yifeng Gao,Tianyu Pang,Chao Du,Yan Teng,Yingchun Wang,Zuxuan Wu,Xingjun Ma,Yu-Gang Jiang

Main category: cs.CV

TL;DR: 本文识别并形式化了VLA模型中的一种关键对抗性漏洞,即对抗图像可以"冻结"模型使其忽略后续指令,提出了FreezeVLA攻击框架,在多个VLA模型和机器人基准测试中取得了76.2%的平均攻击成功率。

  • Motivation: VLA模型在机器人领域取得了快速进展,但其安全性和对抗攻击的鲁棒性尚未得到充分探索。本文旨在研究VLA模型中的对抗性漏洞,特别是能够导致模型"冻结"并忽略指令的攻击。
  • Method: 提出了FreezeVLA攻击框架,通过min-max双层优化生成和评估动作冻结攻击。该方法在三个最先进的VLA模型和四个机器人基准测试上进行了实验验证。
  • Result: FreezeVLA达到了76.2%的平均攻击成功率,显著优于现有方法。生成的对抗图像具有很强的可迁移性,单个图像能够可靠地在不同语言提示下诱导瘫痪。
  • Conclusion: 研究结果揭示了VLA模型中的关键安全风险,强调了开发鲁棒防御机制的紧迫性。

[35] Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection

Yunqing Hu,Zheming Yang,Chang Zhao,Wen Ji

Main category: cs.CV

TL;DR: 提出基于自适应引导的语义增强边缘云协同目标检测方法,利用MLLM在复杂场景下平衡检测精度与效率

  • Motivation: 传统目标检测方法在低光照、严重遮挡等复杂场景下性能下降,缺乏高级语义理解能力
  • Method: 通过指令微调使MLLM生成结构化场景描述,设计自适应映射机制将语义信息转换为边缘检测器参数调整信号,在边缘云协同框架中基于置信度自动选择调用云端语义引导或直接输出边缘检测结果
  • Result: 在低光照和严重遮挡场景下,延迟降低超过79%,计算成本降低70%,同时保持检测精度
  • Conclusion: 该方法能有效提升复杂场景下的目标检测精度和效率

[36] Generalized Shortest Path-based Superpixels for 3D Spherical Image Segmentation

Rémi Giraud,Rodrigo Borba Pinheiro,Yannick Berthoumieu

Main category: cs.CV

TL;DR: 提出了一种专门针对360度球形图像的超像素分割方法SphSPS,通过考虑球形几何特征来改进分割精度和形状规整性。

  • Motivation: 现有超像素分割方法主要针对标准2D平面图像设计,无法有效处理360度球形图像的几何失真问题,需要专门的方法来适应球形采集空间的几何特性。
  • Method: SphSPS方法基于球形最短路径,将像素与超像素中心之间的最短路径概念推广到球形空间,快速提取相关聚类特征,并提出了球形空间的全局规整性度量。
  • Result: 在参考360度球形全景分割数据集和合成道路全向图像上验证,SphSPS在分割精度、噪声鲁棒性和规整性方面显著优于平面和球形最先进方法。
  • Conclusion: SphSPS为360度图像的超像素应用提供了一个非常有价值的工具,通过考虑采集空间的几何特性来联合改进分割精度和超像素形状规整性。

[37] Efficient Cell Painting Image Representation Learning via Cross-Well Aligned Masked Siamese Network

Pin-Jui Huang,Yu-Hsuan Liao,SooHeon Kim,NoSeong Park,JongBae Park,DongMyung Shin

Main category: cs.CV

TL;DR: 提出CWA-MSN框架,通过跨孔对齐掩码孪生网络学习细胞图像表示,在数据量和参数更少的情况下优于现有方法

  • Motivation: 解决细胞表型响应预测中提取生物学意义且抗批次效应的细胞涂片表示的挑战,传统自监督和对比学习方法需要大规模模型和大量数据但仍受批次效应影响
  • Method: CWA-MSN框架,通过跨孔对齐相同扰动细胞的嵌入,在掩码孪生架构中强制语义一致性,捕获细粒度形态特征
  • Result: 在基因-基因关系检索基准测试中,CWA-MSN优于OpenPhenom和CellCLIP,分别提升29%和9%,同时使用更少数据(0.2M vs 2.2M)和更小模型(22M vs 1.48B参数)
  • Conclusion: CWA-MSN是学习细胞图像表示的有效方法,在有限数据和参数预算下实现高效表型建模

[38] Aerial-Ground Image Feature Matching via 3D Gaussian Splatting-based Intermediate View Rendering

Jiangxue Yu,Hui Wang,San Jiang,Xing Zhang,Dejin Zhang,Qingquan Li

Main category: cs.CV

TL;DR: 提出了一种用于航空和地面图像特征匹配的算法,通过生成中间视图来缓解视角变化引起的透视畸变,从而提高匹配可靠性。

  • Motivation: 解决复杂场景3D建模中航空和地面图像集成时因视角差异大而难以找到可靠对应点的问题。
  • Method: 1) 仅使用航空图像通过增量SfM重建稀疏模型;2) 使用3D高斯泼溅进行场景渲染;3) 设计渲染视点确定算法生成高质量中间图像;4) 通过中间图像进行可靠的特征匹配。
  • Result: 实验表明该方法能显著增加初始和精炼匹配数量,为准确的ISfM重建和完整的3DGS场景渲染提供足够匹配点。
  • Conclusion: 所提出的解决方案能够为航空和地面图像提供可靠的特征匹配,有效解决视角差异大的匹配难题。

[39] CapStARE: Capsule-based Spatiotemporal Architecture for Robust and Efficient Gaze Estimation

Miren Samaniego,Igor Rodriguez,Elena Lazkano

Main category: cs.CV

TL;DR: CapStARE是一种基于胶囊的时空架构,用于视线估计,结合了ConvNeXt骨干网络、带注意力路由的胶囊形成以及专门处理慢速和快速视线动态的双GRU解码器,在多个数据集上实现了最先进的性能。

  • Motivation: 开发一个能够高效进行部分-整体推理和分离时间建模的实时视线估计系统,以应对交互系统中对鲁棒性和可解释性的需求。
  • Method: 采用模块化设计,包括ConvNeXt骨干网络提取特征,胶囊形成与注意力路由进行高效的部分-整体推理,以及双GRU解码器分别处理慢速和快速的视线动态变化。
  • Result: 在ETH-XGaze(3.36)、MPIIFaceGaze(2.65)、Gaze360(9.06)和RT-GENE(4.76)数据集上均取得了优异性能,实现了实时推理(<10ms),且参数量更少、可解释性更强。
  • Conclusion: CapStARE为交互系统中的实时视线估计提供了一个实用且鲁棒的解决方案,在性能和效率方面均优于现有方法。

[40] GS-RoadPatching: Inpainting Gaussians via 3D Searching and Placing for Driving Scenes

Guo Chen,Jiarun Liu,Sicong Du,Chenming Wu,Deqi Li,Shi-Sheng Huang,Guofeng Zhang,Sheng Yang

Main category: cs.CV

TL;DR: GS-RoadPatching是一种基于3D高斯溅射的驾驶场景修复方法,通过参考完全重建区域进行替代性场景修复和编辑,无需依赖2D跨模态的空间时间一致性或重新训练高斯模型。

  • Motivation: 现有3DGS修复方法依赖2D视角的扩散或GAN模型来预测缺失区域的有限外观或深度线索,存在空间时间一致性问题和耗时重新训练的需求。本文旨在直接在3DGS模态上进行场景修复和编辑。
  • Method: 构建特征嵌入的3DGS场景,采用多尺度局部上下文抽象和3D空间结构搜索方法,找到候选补丁,并提出替代融合优化以实现更好的视觉协调性。
  • Result: 在多个公开数据集上的实验表明,该方法在驾驶场景中具有高效性和有效性,在质量和互操作性方面达到最先进性能。在一般场景中的额外实验也验证了该3D修复策略的适用性。
  • Conclusion: GS-RoadPatching通过3DGS模态的直接修复方法,解决了现有方法对2D跨模态的依赖和重新训练耗时的问题,在驾驶场景修复中表现出优越性能。

[41] Interpreting ResNet-based CLIP via Neuron-Attention Decomposition

Edmund Bu,Yossi Gandelsman

Main category: cs.CV

TL;DR: 本文提出了一种通过分解神经元对输出的贡献来解释CLIP-ResNet中神经元的新技术,通过分析神经元-注意力头对并将其近似为嵌入空间中的单一方向,实现了神经元的文本解释,并应用于无训练语义分割和数据集分布偏移监测。

  • Motivation: 动机是理解CLIP-ResNet中神经元的内部工作机制,通过分析计算路径来揭示可解释的单元,并利用这些单元进行下游任务。
  • Method: 方法包括分析所有神经元对与后续注意力头的组合,将这些神经元-头对近似为CLIP-ResNet图像-文本嵌入空间中的单一方向,并通过文本关联进行解释。
  • Result: 结果表明只有稀疏的神经元-头对显著贡献于输出值,某些多义性对代表其对应神经元的子概念。在无训练语义分割任务中优于先前方法,并能有效监测数据集分布偏移。
  • Conclusion: 结论是通过检查神经网络中的个体计算路径可以发现可解释单元,这些单元可用于下游任务,为神经网络的可解释性提供了新视角。

[42] When Words Can't Capture It All: Towards Video-Based User Complaint Text Generation with Multimodal Video Complaint Dataset

Sarmistha Das,R E Zera Marveen Lyngkhoi,Kirtan Jain,Vinayak Goyal,Sriparna Saha,Manish Gupta

Main category: cs.CV

TL;DR: 本文提出了一个基于视频的投诉描述新任务(CoD-V),通过视频帮助用户更清晰地表达产品缺陷投诉,并构建了ComVID数据集和新的投诉保留评估指标。

  • Motivation: 现有文本投诉挖掘方法存在表达不清的问题,用户难以用文字准确描述产品缺陷,但可以通过视频直观展示问题。
  • Method: 构建了包含1,175个投诉视频的ComVID数据集,提出投诉保留评估指标,并开发了基于多模态检索增强生成的VideoLLaMA2-7b模型。
  • Result: 对多个视频语言模型进行了全面评估,使用了METEOR、困惑度和可读性评分等指标,验证了方法的有效性。
  • Conclusion: 为通过视频表达投诉提供了新的研究基础,数据集和资源已公开。

[43] SynchroRaMa : Lip-Synchronized and Emotion-Aware Talking Face Generation via Multi-Modal Emotion Embedding

Phyo Thet Yee,Dimitrios Kollias,Sudeepta Mishra,Abhinav Dhall

Main category: cs.CV

TL;DR: SynchroRaMa是一个多模态情感嵌入框架,通过结合文本情感分析和音频情感识别,生成具有丰富情感表现力的说话人脸视频,解决了现有方法在情感捕捉和动态变化方面的限制。

  • Motivation: 现有情感感知方法主要依赖单一模态(音频或图像)进行情感嵌入,难以捕捉细微的情感线索,且大多基于单张参考图像,无法有效表示跨时间的动态动作或属性变化。
  • Method: 提出SynchroRaMa框架,集成多模态情感嵌入(文本情感分析+音频情感识别+音频价唤醒特征),包含音频到运动模块确保头部运动和唇部同步,并引入LLM生成的场景描述作为额外文本输入。
  • Result: 在基准数据集上的定量和定性实验表明,SynchroRaMa在图像质量、表情保持和运动真实性方面优于现有技术,用户研究确认其在自然度、运动多样性和视频流畅度方面获得更高主观评分。
  • Conclusion: SynchroRaMa通过多模态情感嵌入和动态场景描述,显著提升了说话人脸生成的情感表现力和视觉真实感,为需要丰富情感交互的应用提供了有效解决方案。

[44] OmniScene: Attention-Augmented Multimodal 4D Scene Understanding for Autonomous Driving

Pei Liu,Hongliang Lu,Haichao Liu,Haipeng Liu,Xin Liu,Ruoyu Yao,Shengbo Eben Li,Jun Ma

Main category: cs.CV

TL;DR: 提出OmniScene框架,通过视觉语言模型和多模态融合实现人类化的4D场景理解,在自动驾驶任务中达到最先进性能

  • Motivation: 当前自动驾驶系统缺乏人类对三维场景的深度理解能力,主要依赖基于深度的3D重建而非真正的场景理解
  • Method: 提出OmniScene框架,包括OmniVLM视觉语言模型、师生架构知识蒸馏、分层融合策略(HFS)来平衡几何和语义特征
  • Result: 在nuScenes数据集上全面评估,在感知、预测、规划和视觉问答等任务中均优于十余种最先进模型
  • Conclusion: OmniScene框架实现了更接近人类的场景理解能力,为自动驾驶系统提供了更智能的感知-理解-行动架构

[45] CamPVG: Camera-Controlled Panoramic Video Generation with Epipolar-Aware Diffusion

Chenhao Ji,Chaohui Yu,Junyao Gao,Fan Wang,Cairong Zhao

Main category: cs.CV

TL;DR: CamPVG是首个基于扩散模型的、通过精确相机姿态引导的全景视频生成框架,解决了传统方法在全景投影中的几何一致性挑战。

  • Motivation: 现有方法主要关注透视投影视频生成中的相机控制,而几何一致的全景视频生成由于全景姿态表示和球面投影的复杂性仍然具有挑战性。
  • Method: 提出了全景Plücker嵌入来通过球坐标变换编码相机外参,并引入球面极线模块通过沿极线的自适应注意力掩码来增强几何约束和跨视图特征聚合。
  • Result: 大量实验表明,该方法能生成与相机轨迹一致的高质量全景视频,在全景视频生成方面远超现有方法。
  • Conclusion: CamPVG框架成功解决了全景视频生成中的几何一致性难题,为精确相机控制的全景视频生成提供了有效解决方案。

[46] SDE-DET: A Precision Network for Shatian Pomelo Detection in Complex Orchard Environments

Yihao Hu,Pan Wang,Xiaodong Bai,Shijie Cai,Hang Wang,Huazhong Liu,Aiping Yang,Xiangxiang Li,Meiping Ding,Hongyan Liu,Jianguo Yao

Main category: cs.CV

TL;DR: 本研究针对复杂果园环境中的沙田柚检测难题,提出了SDE-DET模型,通过Star Block、Deformable Attention和Efficient Multi-Scale Attention等技术,在STP-AgriData数据集上实现了state-of-the-art的检测性能。

  • Motivation: 沙田柚检测对于自动化收获和成熟度分析至关重要,但在复杂果园环境中面临多尺度问题、枝叶遮挡、小目标检测等挑战。
  • Method: 提出SDE-DET模型,使用Star Block获取高维信息,采用Deformable Attention增强遮挡条件下的检测能力,集成Efficient Multi-Scale Attention机制提升小目标检测性能。
  • Result: 在STP-AgriData数据集上,SDE-DET在Precision、Recall、mAP@0.5、mAP@0.5:0.95和F1-score分别达到0.883、0.771、0.838、0.497和0.823,优于Yolo系列和其他主流检测模型。
  • Conclusion: SDE-DET为沙田柚检测提供了可靠方法,为自动收获机器人的进一步发展奠定了基础。

[47] Improving Generalizability and Undetectability for Targeted Adversarial Attacks on Multimodal Pre-trained Models

Zhifang Zhang,Jiahan Zhang,Shengjie Zhou,Qi Wei,Shuo He,Feng Liu,Lei Feng

Main category: cs.CV

TL;DR: 本文提出了一种名为代理目标攻击(PTA)的新方法,用于解决多模态预训练模型中现有目标对抗攻击在泛化性和不可检测性方面的局限性。

  • Motivation: 现有的多模态预训练模型(如ImageBind)在跨模态对齐任务中,针对目标对抗攻击存在泛化性不足(对部分已知或语义相似目标效果有限)和不可检测性差(容易被简单异常检测方法识别)的问题。
  • Method: PTA方法利用多个源模态和目标模态代理来优化目标对抗样本,确保其在保持对防御措施规避性的同时与多个潜在目标对齐。同时提供了理论分析来确保在满足不可检测性要求的同时实现最优泛化性。
  • Result: 实验结果表明,PTA能够在各种相关目标上实现高成功率,并且对多种异常检测方法保持不可检测性。
  • Conclusion: PTA方法有效解决了多模态预训练模型中目标对抗攻击的泛化性和不可检测性问题,为模型安全性提供了重要改进。

[48] Anomaly Detection by Clustering DINO Embeddings using a Dirichlet Process Mixture

Nico Schulthess,Ender Konukoglu

Main category: cs.CV

TL;DR: 本文提出了一种基于DINOv2嵌入和Dirichlet过程混合模型的无监督医学图像异常检测方法,通过建模正常特征的分布来实现高效异常检测。

  • Motivation: 针对大型医学数据集,传统的基于内存库的异常检测方法计算负担过重,需要更高效的解决方案。
  • Method: 使用DINOv2预训练模型提取特征,采用Dirichlet过程混合模型建模正常特征分布,通过特征与聚类中心的相似度计算异常分数。
  • Result: 该方法在医学图像异常检测基准上取得有竞争力的性能,同时推理时间至少减少一半,且归一化DINOv2特征与解剖结构更匹配。
  • Conclusion: 基于DINOv2嵌入和DPMM的方法为大规模医学图像异常检测提供了高效且有效的解决方案。

[49] Table Detection with Active Learning

Somraj Gautam,Nachiketa Purohit,Gaurav Harit

Main category: cs.CV

TL;DR: 该论文提出了一种结合不确定性和多样性策略的主动学习方法,用于表格检测任务的数据标注优化,在有限标注预算下显著优于随机采样方法。

  • Motivation: 机器学习中高效数据标注是重要挑战,特别是对象检测任务需要大量标注数据。主动学习能通过选择最有信息量的样本来最小化标注成本。
  • Method: 采用结合不确定性和多样性策略的主动学习方法,确保选择具有代表性的样本来提升模型泛化能力。在TableBank-LaTeX和TableBank-Word数据集上使用CascadeTabNet和YOLOv9架构进行评估。
  • Result: 主动学习方法显著优于随机采样,在相同标注预算下实现了更高的mAP分数,同时保持了与全监督模型相当的性能。
  • Conclusion: 该方法有效减少了表格检测任务的标注工作量,在有限预算下维持了模型性能,为高效数据标注提供了可行方案。

[50] Does the Manipulation Process Matter? RITA: Reasoning Composite Image Manipulations via Reversely-Ordered Incremental-Transition Autoregression

Xuekang Zhu,Ji-Zhe Zhou,Kaiwen Feng,Chenfan Qu,Yunfei Wang,Liting Zhou,Jian liu

Main category: cs.CV

TL;DR: 本文提出了RITA框架,将图像篡改定位重新表述为条件序列预测任务,通过分层预测方式解决传统单次预测方法中的维度塌陷问题。

  • Motivation: 现有图像篡改定位方法忽视了篡改过程的序列性和层次性特征,直接以单次预测方式生成定位掩码,导致维度塌陷和任务本质不匹配。
  • Method: 提出RITA框架,将篡改定位建模为条件序列预测任务,逐层预测篡改区域,每一步的预测作为下一步的条件,显式建模编辑操作间的时序依赖和层次结构。
  • Result: 在传统基准测试中达到最先进水平,并为新的分层定位任务提供了坚实基础,验证了其作为通用有效范式的潜力。
  • Conclusion: RITA框架通过序列预测方法更好地匹配图像篡改的本质特征,为解决图像篡改定位问题提供了新的有效范式。

[51] PS3: A Multimodal Transformer Integrating Pathology Reports with Histology Images and Biological Pathways for Cancer Survival Prediction

Manahil Raza,Ayesha Azam,Talha Qaiser,Nasir Rajpoot

Main category: cs.CV

TL;DR: 提出PS3模型,整合病理报告、全切片图像和转录组数据三种模态,通过原型生成方法解决模态不平衡问题,在癌症生存预测任务中优于现有方法

  • Motivation: 现有多模态融合方法主要整合全切片图像和基因组数据,但病理报告作为临床工作流程的重要组成部分,包含专家解读和临床背景信息,可以进一步提升预后预测性能
  • Method: 采用原型生成方法:1)病理报告诊断原型,利用自注意力提取诊断相关部分;2)组织学原型,紧凑表示WSI中的关键形态模式;3)生物通路原型,编码转录组表达。使用基于Transformer的三模态融合模型PS3处理原型化表示
  • Result: 在TCGA的六个数据集上评估,PS3模型在临床、单模态和多模态基线方法中均表现出最佳性能
  • Conclusion: 病理报告的加入显著提升了癌症生存预测性能,原型生成方法有效解决了不同模态间的异质性和不平衡问题

[52] Generative Adversarial Networks Applied for Privacy Preservation in Biometric-Based Authentication and Identification

Lubos Mjachky,Ivan Homoliak

Main category: cs.CV

TL;DR: 提出一种基于GAN的隐私保护身份认证方法,将人脸图像转换为视觉隐私域(如花朵或鞋子),在隐私域图像上训练分类器进行认证

  • Motivation: 传统生物特征认证系统存在隐私泄露风险,用户无法控制数据使用方式,数据可能被滥用而用户不知情
  • Method: 使用生成对抗网络(GAN)将人脸图像转换到视觉隐私域,然后在隐私域图像上训练分类器进行身份认证
  • Result: 实验表明该方法对攻击具有鲁棒性,同时保持了有意义的实用性
  • Conclusion: 该方法能够有效保护个人隐私,同时确保认证系统的可用性和安全性

[53] Predictive Quality Assessment for Mobile Secure Graphics

Cas Steigstra,Sergey Milyaev,Shaodi You

Main category: cs.CV

TL;DR: 提出一个轻量级框架来预测视频帧的质量,以解决智能手机采集安全图形验证图像时的可靠性问题,通过预测性估计帧对下游验证任务的实用性来降低误拒率。

  • Motivation: 智能手机采集高熵安全图形验证图像时,由于用户拍摄条件不可控导致高误拒率,存在显著的可靠性差距。
  • Method: 引入一个轻量级模型预测视频帧的质量分数,判断其是否适合资源密集型的验证模型,使用重新情境化的FNMR和ISRR指标在32,000+图像数据集上验证。
  • Result: 跨域分析发现,在冻结的ImageNet预训练网络上使用轻量级探针比完全微调模型对未见过的打印技术具有更好的泛化能力。
  • Conclusion: 对于物理制造引起的域偏移,冻结的通用骨干网络比完全微调更鲁棒,后者可能过度拟合源域伪影,这为实际应用中的泛化提供了关键见解。

[54] SHMoAReg: Spark Deformable Image Registration via Spatial Heterogeneous Mixture of Experts and Attention Heads

Yuxi Zheng,Jianhui Feng,Tianran Li,Marius Staring,Yuchuan Qiao

Main category: cs.CV

TL;DR: 本文提出了一种新颖的专家引导的可变形图像配准网络SHMoAReg,在编码器和解码器中应用混合专家机制,通过MoA增强特征提取的专业化,通过SHMoE实现三方向异构变形场预测,在腹部CT数据集上Dice分数从60.58%提升至65.58%。

  • Motivation: 当前基于编码器-解码器架构的可变形图像配准方法缺乏专门的特征提取机制,并且在三个方向上采用同质化的变形场预测方式,限制了配准性能。
  • Method: 提出SHMoAReg网络,在编码器层集成混合注意力头机制动态选择最优注意力组合,在解码器层使用空间异构混合专家机制,为每个体素使用不同核大小的专家预测三方向异构变形场。
  • Result: 在两个公开数据集上的实验显示,相比多种方法均有持续改进,特别是在腹部CT数据集上Dice分数从60.58%显著提升至65.58%。
  • Conclusion: SHMoAReg通过混合专家机制显著提升了配准性能,增强了模型可解释性,是首个将MoE机制引入DIR任务的工作。

[55] Unleashing the Potential of the Semantic Latent Space in Diffusion Models for Image Dehazing

Zizheng Yang,Hu Yu,Bing Li,Jinghao Zhang,Jie Huang,Feng Zhao

Main category: cs.CV

TL;DR: 本文提出DiffLI^2D方法,利用预训练扩散模型的语义潜在空间进行图像去雾,避免了重新训练扩散模型和迭代采样过程。

  • Motivation: 扩散模型在图像去雾中表现出色,但存在计算负担大和推理步骤多的问题,限制了其广泛应用。
  • Method: 探索雾霾图像在预训练扩散模型语义潜在空间中的特性,将不同时间步的扩散潜在表示集成到精心设计的去雾网络中。
  • Result: 在多个数据集上的实验表明,该方法优于现有的图像去雾方法。
  • Conclusion: DiffLI^2D为将扩散模型引入图像去雾提供了新视角,有效利用了预训练扩散模型的信息表示。

[56] Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models

JuanaJuana Valeria Hurtado,Rohit Mohan,Abhinav Valada

Main category: cs.CV

TL;DR: 提出了一种新的高光谱适配器,利用预训练的视觉基础模型来有效学习高光谱数据,在自动驾驶数据集上实现了最先进的语义分割性能

  • Motivation: 当前的高光谱语义分割方法表现不佳,因为它们依赖于为RGB输入优化的架构和学习框架。高光谱成像具有丰富的空间和光谱信息,可以在复杂环境中实现鲁棒的机器人感知
  • Method: 提出了一种新颖的高光谱适配器架构,包含光谱变换器和光谱感知空间先验模块来提取丰富的空间-光谱特征,以及模态感知交互块来有效整合高光谱表示和冻结的视觉Transformer特征
  • Result: 在三个基准自动驾驶数据集上的广泛评估表明,该架构在使用高光谱输入时实现了最先进的语义分割性能,优于基于视觉和高光谱的分割方法
  • Conclusion: 该方法成功地将预训练视觉基础模型应用于高光谱数据,为复杂环境下的机器人感知提供了有效的解决方案

[57] A Simple Data Augmentation Strategy for Text-in-Image Scientific VQA

Belal Shoer,Yova Kementchedjhieva

Main category: cs.CV

TL;DR: 本文提出了一种通过将现有图像-文本对转换为统一图像格式来合成训练数据的方法,以解决科学视觉问答中文本嵌入图像格式数据稀缺的问题,并在多语言多模态模型上取得了显著改进。

  • Motivation: 科学视觉问答对视觉语言模型提出了重大挑战,因为科学图的复杂性和多模态上下文。传统方法将图和文本作为分开的输入处理,而EXAMS-V将视觉和文本内容嵌入到单个图像中,但即使在零样本设置下,最先进的专有模型也表现不佳,凸显了任务特定微调的需求。
  • Method: 为了解决文本嵌入图像格式训练数据稀缺的问题,作者合成了一个新数据集,将现有的分开的图像-文本对转换为统一的图像。然后在一个小型多语言多模态模型上,使用合成数据和EXAMS-V的混合数据进行微调。
  • Result: 在13种语言上的实验结果显示,该方法带来了显著的性能提升,证明了强大的平均改进和跨语言迁移能力。
  • Conclusion: 通过合成训练数据并微调多语言多模态模型,可以有效解决科学视觉问答中文本嵌入图像格式的数据稀缺问题,并在多语言环境下实现显著性能提升。

[58] EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models

Botai Yuan,Yutian Zhou,Yingjie Wang,Fushuo Huo,Yongcheng Jing,Li Shen,Ying Wei,Zhiqi Shen,Ziwei Liu,Tianwei Zhang,Jie Yang,Dacheng Tao

Main category: cs.CV

TL;DR: 本文提出了EchoBench基准,用于系统评估医学大型视觉语言模型中的奉承行为(sycophancy),发现所有模型都存在显著的奉承倾向,即使准确率较高的模型也不例外。

  • Motivation: 现有的医学LVLM基准过于关注准确率,而忽视了可靠性和安全性。在高风险的临床环境中,模型盲目附和用户提供的信息可能带来严重后果。
  • Method: 开发包含2,122张图像、18个科室、20种模态的EchoBench基准,使用90个模拟患者、医学生和医生偏见的提示来评估模型的奉承行为。
  • Result: 所有评估的模型都表现出显著的奉承行为,最好的专有模型Claude 3.7 Sonnet仍有45.98%的奉承率,GPT-4.1达到59.15%,许多医学专用模型超过95%。
  • Conclusion: 研究强调需要超越准确率的鲁棒评估,提供了减少奉承行为的可行策略,包括数据质量提升和提示级干预,为开发更安全可靠的医学LVLM提供了指导。

[59] Smaller is Better: Enhancing Transparency in Vehicle AI Systems via Pruning

Sanish Suwal,Shaurya Garg,Dipkamal Bhusal,Michael Clifford,Nidhi Rastogi

Main category: cs.CV

TL;DR: 本文系统研究了三种训练方法(自然训练、对抗训练和剪枝)对交通标志分类器后验解释质量的影响,发现剪枝能显著提升解释的可理解性和忠实度。

  • Motivation: 自动驾驶车辆依赖AI系统,透明度和安全性至关重要。后验解释为黑盒AI模型提供透明度,但其质量和可靠性常因不一致性和缺乏忠实性而受到质疑。
  • Method: 通过广泛的实证评估,比较自然训练、对抗训练和剪枝三种训练方法对交通标志分类器后验解释(使用显著图)质量的影响。
  • Result: 剪枝显著增强了解释的可理解性和忠实度,不仅提高了模型效率,还强制学习表示的稀疏性,导致更可解释和可靠的决策。
  • Conclusion: 剪枝是开发透明深度学习模型的有前景策略,特别适用于资源受限的车载AI系统。

[60] C2MIL: Synchronizing Semantic and Topological Causalities in Multiple Instance Learning for Robust and Interpretable Survival Analysis

Min Cen,Zhenfeng Zhuang,Yuzhe Zhang,Min Zeng,Baptiste Magnier,Lequan Yu,Hong Zhang,Liansheng Wang

Main category: cs.CV

TL;DR: 本文提出了一种新颖的双因果图MIL模型C²MIL,通过语义因果干预和拓扑因果发现来解决WSI生存分析中的语义偏差和拓扑噪声问题。

  • Motivation: H&E染色全切片图像分析中,染色和扫描的变异会引入语义偏差,而与因果关系无关的拓扑子图会产生噪声,导致有偏的切片级表示,影响模型的解释性和泛化能力。
  • Method: C²MIL采用双结构因果模型理论,包含跨尺度自适应特征解缠模块进行语义因果干预,以及伯努利可微因果子图采样方法进行拓扑因果发现,结合解缠监督和对比学习的联合优化策略。
  • Result: 实验表明C²MIL在泛化性和可解释性方面持续优于现有方法,可作为多种MIL基线的因果增强模块。
  • Conclusion: C²MIL通过同时优化语义和拓扑因果关系,有效提升了图基MIL模型在WSI生存分析中的性能和可解释性。

[61] U-Mamba2-SSL for Semi-Supervised Tooth and Pulp Segmentation in CBCT

Zhi Qin Tan,Xiatian Zhu,Owen Addison,Yunpeng Li

Main category: cs.CV

TL;DR: U-Mamba2-SSL是一个基于U-Mamba2模型的半监督学习框架,用于CBCT图像中牙齿和牙髓的自动分割,通过自监督预训练、一致性正则化和伪标签策略实现高性能分割。

  • Motivation: CBCT图像中牙齿和牙髓的准确分割对临床治疗规划和诊断至关重要,但传统方法需要专业知识和大量时间,因此需要能够有效利用未标记数据的自动化算法。
  • Method: 提出U-Mamba2-SSL框架,采用多阶段训练策略:1)使用破坏性自编码器进行自监督预训练;2)通过输入和特征扰动实现一致性正则化;3)采用降低损失权重的伪标签策略减少错误影响。
  • Result: 在验证数据集上获得平均得分0.872和DSC 0.969,表现出优越性能。
  • Conclusion: U-Mamba2-SSL框架能够有效利用未标记数据,在CBCT牙齿和牙髓分割任务中取得优异结果,为临床应用提供了高效的自动化解决方案。

[62] Optical Ocean Recipes: Creating Realistic Datasets to Facilitate Underwater Vision Research

Patricia Schöntag,David Nakath,Judith Fischer,Rüdiger Röttgers,Kevin Köser

Main category: cs.CV

TL;DR: 本文提出了"光学海洋配方"框架,用于在受控水下环境中创建真实数据集,解决水下机器视觉评估缺乏可控、可重复测试环境的问题。

  • Motivation: 水下机器视觉开发面临挑战,主要因为缺乏能够考虑光学挑战(如颜色失真、对比度降低、散射等)的受控测试环境,且现有评估通常在特定光学条件下进行,缺乏泛化性。
  • Method: 开发了光学海洋配方框架,使用校准的颜色和散射添加剂,在受控条件下创建真实水下数据集,支持重复性测试和分析水成分对图像外观的影响。
  • Result: 提供了基于该框架生成的演示数据集,并展示了在两个水下视觉任务中的应用,数据集和评估代码将公开。
  • Conclusion: 该框架为分析水下机器视觉提供了独特工具,能够在真实但受控的场景下创建地面真实数据,支持多种视觉任务。

[63] Universal Camouflage Attack on Vision-Language Models for Autonomous Driving

Dehong Kong,Sifan Yu,Siyuan Liang,Jiawei Liang,Jianhou Gan,Aishan Liu,Wenqi Ren

Main category: cs.CV

TL;DR: 本文提出了首个针对视觉语言建模自动驾驶系统的通用伪装攻击框架UCA,通过在特征空间操作生成物理可实现的伪装纹理,显著提升了攻击效果和泛化能力。

  • Motivation: 现有的对抗攻击方法存在局限性:物理攻击主要针对视觉模块难以直接迁移到VLM-AD系统,而针对VLM-AD的攻击主要集中在数字层面。需要开发能够在物理世界部署的有效攻击方法。
  • Method: UCA框架在特征空间操作,引入特征差异损失最大化干净图像和对抗图像的表征差异,采用多尺度学习策略和调整采样比例来增强对现实场景中尺度和视角变化的适应性。
  • Result: 实验表明UCA能够在各种VLM-AD模型和驾驶场景中诱导错误的驾驶命令,显著超越现有最先进攻击方法(在3-P指标上提升30%),并在不同视角和动态条件下表现出强大的攻击鲁棒性。
  • Conclusion: UCA是首个针对VLM-AD的通用伪装攻击框架,具有物理可实现性和强泛化能力,展示了在实际部署中的高潜力,为VLM-AD系统的安全性研究提供了重要参考。

[64] PU-Gaussian: Point Cloud Upsampling using 3D Gaussian Representation

Mahmoud Khater,Mona Strauss,Philipp von Olshausen,Alexander Reiterer

Main category: cs.CV

TL;DR: PU-Gaussian是一种新颖的点云上采样网络,使用各向异性3D高斯分布对点云局部邻域建模,通过直接点采样在局部几何域中执行上采样,并利用细化网络优化结果。

  • Motivation: 解决3D传感器产生的点云稀疏和噪声问题,克服现有方法在几何可解释性和对输入稀疏性鲁棒性方面的局限性。
  • Method: 使用各向异性3D高斯分布建模点云局部几何结构,通过直接点采样生成密集但粗糙的点云,然后用细化网络调整分布均匀性和边缘清晰度。
  • Result: 在PU1K和PUGAN数据集上的广泛测试表明,PU-Gaussian达到了最先进的性能。
  • Conclusion: 该方法通过几何显式建模实现了高质量的点云上采样,代码和模型权重已公开。

[65] ImageNet-trained CNNs are not biased towards texture: Revisiting feature reliance through controlled suppression

Tom Burgert,Oliver Stoll,Paolo Rota,Begüm Demir

Main category: cs.CV

TL;DR: 本文重新检验了CNN具有纹理偏见的假设,提出了一个领域无关的框架来量化特征依赖,发现CNN主要依赖局部形状特征而非纹理,且这种依赖可以通过现代训练策略缓解。不同领域模型的特征依赖模式存在系统性差异。

  • Motivation: 重新审视Geirhos等人的线索冲突实验的局限性,挑战CNN固有纹理偏见的假设,开发更准确的特征依赖量化方法。
  • Method: 提出了领域无关的框架,通过系统性地抑制形状、纹理和颜色线索来量化特征依赖,避免强制选择冲突的混淆因素,在受控抑制条件下评估人类和神经网络。
  • Result: 发现CNN并非固有纹理偏见,而是主要依赖局部形状特征;现代训练策略或架构可以显著缓解这种依赖;计算机视觉模型优先形状,医学影像模型强调颜色,遥感模型更依赖纹理。
  • Conclusion: CNN的特征依赖模式比先前认为的更复杂,不同应用领域存在系统性差异,为理解深度学习模型的特征使用提供了新视角。

[66] An Anisotropic Cross-View Texture Transfer with Multi-Reference Non-Local Attention for CT Slice Interpolation

Kwang-Hyun Uhm,Hyunjun Cho,Sung-Hoo Hong,Seung-Won Jung

Main category: cs.CV

TL;DR: 提出一种基于交叉视图纹理传递的CT切片插值方法,利用CT体积的各向异性特性,通过高分辨率平面内纹理细节重建低分辨率平面间图像。

  • Motivation: 临床CT图像通常具有较大的切片厚度,导致各向异性的CT体积,平面间分辨率远低于平面内分辨率,这给疾病诊断带来困难。现有方法未能充分利用CT体积的各向异性特性。
  • Method: 设计了一个独特的框架,将高分辨率平面内纹理细节作为参考,并将其传递到低分辨率平面间图像。引入多参考非局部注意力模块,从多个平面内图像中提取有意义的特征来重建平面间高频细节。
  • Result: 在公共CT数据集(包括真实配对基准)上的广泛实验表明,该方法在CT切片插值方面显著优于现有竞争方法。
  • Conclusion: 验证了所提出框架的有效性,该方法能够有效利用CT体积的各向异性特性进行高质量的切片插值。

[67] 4D Driving Scene Generation With Stereo Forcing

Hao Lu,Zhuang Ma,Guangfeng Jiang,Wenhang Ge,Bohan Li,Yuzhan Cai,Wenzhao Zheng,Yunpeng Zhang,Yingcong Chen

Main category: cs.CV

TL;DR: PhiGenesis是一个统一的4D场景生成框架,通过结合视频生成技术和几何时间一致性,从多视角图像序列生成动态4D高斯溅射表示,支持时间外推和空间新视角合成。

  • Motivation: 解决当前生成模型在无需逐场景优化的情况下,同时支持时间外推和空间新视角合成的4D驾驶场景生成难题。
  • Method: 采用两阶段方法:第一阶段使用预训练视频VAE和范围视图适配器进行前馈4D重建;第二阶段引入几何引导的视频扩散模型,使用渲染的历史4D场景作为先验,结合Stereo Forcing策略处理几何曝光偏差。
  • Result: 在外观和几何重建、时间生成和新视角合成任务中达到最先进性能,并在下游评估中表现优异。
  • Conclusion: PhiGenesis成功实现了统一的4D场景生成,为动态驾驶场景的生成和新视角合成提供了有效解决方案。

[68] A Versatile Foundation Model for AI-enabled Mammogram Interpretation

Fuxiang Huang,Jiayi Zhu,Yunfang Yu,Yu Xie,Yuan Guo,Qingcong Kong,Mingxiang Wu,Xinrui Jiang,Shu Yang,Jiabo Ma,Ziyi Liu,Zhe Xu,Zhixuan Chen,Yujie Tan,Zifan He,Luhui Mao,Xi Wang,Junlin Hou,Lei Zhang,Qiong Luo,Zhenhui Li,Herui Yao,Hao Chen

Main category: cs.CV

TL;DR: VersaMammo是一个用于乳腺X光片分析的通用基础模型,通过两阶段预训练策略在最大多机构数据集上训练,在92个临床任务中表现出色,显著提升了乳腺癌筛查和诊断的可靠性。

  • Motivation: 乳腺癌是全球女性最常见的癌症,乳腺X光片对早期检测至关重要。现有基础模型在临床转化中存在训练数据多样性不足、模型泛化能力有限以及缺乏全面临床评估等限制。
  • Method: 构建了包含706,239张图像的最大多机构乳腺X光片数据集,采用两阶段预训练策略:首先通过自监督学习训练教师模型提取可迁移特征,然后结合监督学习和知识蒸馏将特征和临床知识转移到VersaMammo模型中。
  • Result: VersaMammo在92个临床任务评估中表现优异,在68个内部任务中50个排名第一,在24个外部验证任务中20个排名第一,平均排名分别为1.5和1.2。
  • Conclusion: VersaMammo展示了卓越的泛化能力和临床实用性,为实现可靠且可扩展的乳腺癌筛查和诊断提供了重要进展。

[69] A co-evolving agentic AI system for medical imaging analysis

Songhao Li,Jonathan Xu,Tiancheng Bao,Yuxuan Liu,Yuchen Liu,Yihang Liu,Lilin Wang,Wenhui Lei,Sheng Wang,Yinuo Xu,Yan Cui,Jialu Yao,Shunsuke Koga,Zhi Huang

Main category: cs.CV

TL;DR: TissueLab是一个协同进化的智能AI系统,通过整合病理学、放射学和空间组学工具,实现医学图像的实时交互分析,在临床量化任务中达到最先进性能。

  • Motivation: 当前医学图像分析中智能AI的性能和应用受限,缺乏强大的生态系统、工具集不足以及缺少实时专家反馈。
  • Method: 开发TissueLab系统,标准化不同工具的输入、输出和能力,让研究人员能够直接提问、自动规划生成可解释的工作流程,专家可实时可视化和优化中间结果。
  • Result: 在涉及分期、预后和治疗规划等临床量化任务中,TissueLab性能优于端到端视觉语言模型和其他智能AI系统,并能通过主动学习在未见疾病情境中快速提供准确结果。
  • Conclusion: TissueLab作为可持续开源生态系统,旨在加速医学图像的计算研究和转化应用,为下一代医疗AI奠定基础。

[70] HiPerformer: A High-Performance Global-Local Segmentation Model with Modular Hierarchical Fusion Strategy

Dayu Tan,Zhenpeng Xu,Yansen Su,Xin Peng,Chunhou Zheng,Weimin Zhong

Main category: cs.CV

TL;DR: HiPerformer是一种创新的医学图像分割方法,通过模块化分层架构和局部-全局特征融合模块,解决了CNN-Transformer混合架构中特征不一致和信息丢失的问题。

  • Motivation: 现有基于CNN-Transformer混合架构的方法采用简单的特征融合技术(如串行堆叠、端点连接或点加),难以解决特征不一致性,容易导致信息冲突和丢失。
  • Method: 提出HiPerformer编码器采用模块化分层架构,动态并行融合多源特征;设计局部-全局特征融合(LGFF)模块实现局部细节和全局语义信息的精确集成;提出渐进金字塔聚合(PPA)模块替代传统跳跃连接以增强多尺度特征表示能力。
  • Result: 在11个公共数据集上的实验表明,该方法优于现有分割技术,具有更高的分割精度和鲁棒性。
  • Conclusion: HiPerformer通过创新的架构设计和特征融合策略,有效解决了医学图像分割中局部细节与全局上下文整合的挑战,实现了更全面的特征表示。

[71] PerFace: Metric Learning in Perceptual Facial Similarity for Enhanced Face Anonymization

Haruka Kumagai,Leslie Wöhler,Satoshi Ikehata,Kiyoharu Aizawa

Main category: cs.CV

TL;DR: 本文提出了一种基于人类感知的面部相似性度量方法,通过创建包含6400个三元组标注的数据集和度量学习来预测面部相似度,解决了现有模型只能进行二元身份分类的局限性。

  • Motivation: 随着社会对隐私问题的关注增加,面部匿名化技术不断发展。在面部交换中,需要在匿名性和自然度之间取得平衡,这需要仔细选择身份:过于相似的面孔会损害匿名性,而差异过大的面孔会降低自然度。现有模型主要关注二元身份分类,难以衡量细微的相似度差异。
  • Method: 创建了一个包含6400个三元组标注的数据集,采用度量学习方法来预测面部相似度。该方法基于人类感知来评估面部相似性,而非简单的二元分类。
  • Result: 实验结果表明,该方法在面部相似性预测和基于属性的面部分类任务上都显著优于现有方法。
  • Conclusion: 提出的基于人类感知的面部相似性度量方法能够有效解决现有模型的局限性,为面部匿名化技术提供了更精细的相似度评估工具。

[72] FAST: Foreground-aware Diffusion with Accelerated Sampling Trajectory for Segmentation-oriented Anomaly Synthesis

Xichen Xu,Yanshu Wang,Jinbao Wang,Xiaoning Lei,Guoyang Xie,Guannan Jiang,Zhichao Lu

Main category: cs.CV

TL;DR: FAST是一个用于工业异常分割的前景感知扩散框架,通过AIAS加速采样和FARM模块实现高效可控的异常合成,在多个工业基准测试中表现优异。

  • Motivation: 工业异常分割依赖像素级标注,但真实异常稀缺且标注成本高。现有异常合成方法难以平衡采样效率和生成质量,且忽视异常与背景区域的统计差异。
  • Method: 提出FAST框架,包含两个模块:AIAS(训练自由采样算法,通过粗到精聚合加速反向过程)和FARM(在掩码前景区域自适应调整异常感知噪声)。
  • Result: 实验表明FAST在多个工业基准测试中优于现有异常合成方法,仅需10步即可合成最先进的分割导向异常。
  • Conclusion: FAST框架有效解决了工业异常分割中标注稀缺的问题,实现了高效可控的异常合成,为下游分割任务提供了优质数据。

[73] A Comprehensive Evaluation of YOLO-based Deer Detection Performance on Edge Devices

Bishal Adhikari,Jiajia Li,Eric S. Michel,Jacob Dykes,Te-Ming Paul Tseng,Mary Love Tagert,Dong Chen

Main category: cs.CV

TL;DR: 本文提出了一种基于深度学习的鹿类检测系统,通过评估四种YOLO架构在真实场景中的性能,为农业防鹿入侵提供智能解决方案。研究贡献包括创建公开数据集、模型对比分析和边缘设备性能基准测试。

  • Motivation: 传统防鹿方法成本高且效果差,农业经济损失严重。目前缺乏针对鹿检测的专用数据集和实际部署研究,阻碍了智能解决方案的发展。
  • Method: 使用3,095张标注图像数据集,对比评估12个YOLO模型变体(v8、v9、v10、v11),并在高端GPU和边缘设备(树莓派5、NVIDIA Jetson)上进行性能测试。
  • Result: 树莓派5无法实现实时检测,而NVIDIA Jetson在's'和'n'系列模型上能达到30+FPS。YOLOv11n、YOLOv8s和YOLOv9s在准确率(AP@.5 > 0.85)和计算效率(FPS > 30)方面表现最优。
  • Conclusion: 研究证明小型先进模型在边缘设备上可实现高效鹿检测,为农业智能防鹿系统提供了实用解决方案。数据集和代码已公开以促进进一步研究。

[74] Efficient Encoder-Free Pose Conditioning and Pose Control for Virtual Try-On

Qi Li,Shuwen Qiu,Julien Han,Xingzi Xu,Mehmet Saygin Seyfioglu,Kee Kiat Koo,Karim Bouyarmane

Main category: cs.CV

TL;DR: 该论文研究了在虚拟试穿技术中如何有效集成姿态控制,通过空间拼接姿态数据的方法,在不增加额外参数的情况下提升姿态保持和输出真实感。

  • Motivation: 随着在线购物的发展,虚拟试穿技术需求激增,但姿态控制这一关键条件面临挑战,包括选择最佳姿态表示、无额外参数集成姿态、以及平衡姿态保持与灵活控制。
  • Method: 基于纯拼接范式的基线VTON模型,通过空间拼接姿态数据(比较姿态图和骨架),采用混合掩码训练策略(细粒度掩码和边界框掩码),不增加额外参数或模块。
  • Result: 实验表明,使用姿态图进行姿态拼接效果最佳,显著提升了姿态保持和输出真实感,同时混合掩码训练策略支持了不同姿态和条件下的灵活产品集成。
  • Conclusion: 通过简单的空间拼接方法和混合掩码训练,可以在不增加模型复杂度的情况下有效实现虚拟试穿中的姿态控制,为实际应用提供了实用解决方案。

[75] PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation

Chen Wang,Chuhao Chen,Yiming Huang,Zhiyang Dou,Yuan Liu,Jiatao Gu,Lingjie Liu

Main category: cs.CV

TL;DR: PhysCtrl是一个基于物理的图像到视频生成框架,通过物理参数和力控制实现物理上合理的视频生成。

  • Motivation: 现有的视频生成模型虽然能够从文本或图像生成逼真视频,但缺乏物理合理性和3D可控性。
  • Method: 使用生成物理网络学习四种材料(弹性、沙子、橡皮泥、刚性)的物理动力学分布,通过扩散模型结合物理参数和施加力,采用新的时空注意力块模拟粒子相互作用,并在训练中加入物理约束。
  • Result: PhysCtrl生成了真实、基于物理的运动轨迹,驱动图像到视频模型后产生高保真、可控的视频,在视觉质量和物理合理性方面优于现有方法。
  • Conclusion: 该框架成功解决了现有视频生成模型缺乏物理合理性的问题,为物理基础的视频生成提供了有效解决方案。

[76] EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning

Xuan Ju,Tianyu Wang,Yuqian Zhou,He Zhang,Qing Liu,Nanxuan Zhao,Zhifei Zhang,Yijun Li,Yuanhao Cai,Shaoteng Liu,Daniil Pakhomov,Zhe Lin,Soo Ye Kim,Qiang Xu

Main category: cs.CV

TL;DR: EditVerse是一个统一的图像和视频生成编辑框架,通过将文本、图像和视频表示为统一标记序列,利用自注意力机制实现跨模态知识转移和任意分辨率处理。

  • Motivation: 当前图像生成编辑已实现统一框架,但视频生成编辑仍因架构限制和数据稀缺而碎片化,需要开发统一的多模态框架。
  • Method: 将多模态表示为统一标记序列,设计可扩展数据管道收集23.2万视频编辑样本,结合大规模图像视频数据集进行联合训练。
  • Result: EditVerse在广泛实验和用户研究中达到最先进性能,超越现有开源和商业模型,展现出跨模态的涌现编辑生成能力。
  • Conclusion: EditVerse成功实现了图像和视频生成编辑的统一框架,解决了视频编辑数据稀缺问题,并建立了首个基于指令的视频编辑基准EditVerseBench。

eess.IV

[77] Frequency-Aware Ensemble Learning for BraTS 2025 Pediatric Brain Tumor Segmentation

Yuxiao Yi,Qingyao Zhuang,Zhi-Qin John Xu

Main category: eess.IV

TL;DR: 提出一种集成nnU-Net、Swin UNETR和HFF-Net的方法用于儿科脑肿瘤分割,通过可调初始化尺度、迁移学习和频域分解等技术优化模型性能

  • Motivation: 儿科脑肿瘤分割面临罕见性和异质性挑战,但对临床诊断和治疗规划至关重要
  • Method: 集成nnU-Net(可调初始化尺度)、Swin UNETR(迁移学习预训练模型)和HFF-Net(频域分解)三种模型
  • Result: 在BraTS-PED 2025挑战中取得Dice分数:ET 72.3%、NET 95.6%、CC 68.9%、ED 89.5%、TC 92.3%、WT 92.3%
  • Conclusion: 提出的集成方法在儿科脑肿瘤分割任务中表现出色,为临床诊断提供了有效工具

[78] Ensuring Reliable Participation in Subjective Video Quality Tests Across Platforms

Babak Naderi,Ross Cutler

Main category: eess.IV

TL;DR: 本文提出了一种检测远程桌面用户的主客观方法,并比较了两个主流众包平台在真实测试条件下的易受攻击性和缓解措施。

  • Motivation: 主观视频质量评估是衡量用户体验的关键标准,但众包平台存在不可靠提交的问题,包括利用视频元数据和远程桌面连接等作弊手段,这些都会导致结果偏差。
  • Method: 提出客观和主观检测器来识别远程桌面用户,并在真实测试条件下比较两个主流众包平台的易受攻击性和缓解措施。
  • Result: 研究发现众包平台存在远程桌面连接等作弊行为,这些行为会影响评估结果的准确性。
  • Conclusion: 需要有效的检测和缓解措施来确保众包视频质量评估的可靠性和准确性。

cs.CL

[79] Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models

Mohammad Saim,Phan Anh Duong,Cat Luong,Aniket Bhanderi,Tianyu Jiang

Main category: cs.CL

TL;DR: 提出ELENA框架,利用大型视觉语言模型生成基于身体部位的具身情感叙事,在面部遮挡图像中有效识别情感,优于基线方法

  • Motivation: 身体部位的具身情感反应包含丰富的情绪体验信息,但现有模型存在对面部区域的偏见,需要开发能够更好理解全身情感表达的方法
  • Method: 利用最先进的大型视觉语言模型生成多层次的具身情感叙事文本输出,重点关注情感反应中显著的身体部位,并使用注意力图分析模型行为
  • Result: 提出的ELENA框架在面部遮挡图像中能够有效识别具身情感,性能优于基线方法且无需微调,但发现现有模型仍存在对面部区域的偏见
  • Conclusion: ELENA为跨视觉模态的具身情感分析开辟了新路径,丰富了情感感知环境下的建模能力

[80] CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition

Sina J. Semnani,Han Zhang,Xinyan He,Merve Tekgürler,Monica S. Lam

Main category: cs.CL

TL;DR: CHURRO是一个专门用于历史文本识别的30亿参数开源视觉语言模型,在最大的历史文本数据集CHURRO-DS上训练,在识别准确率和成本效益方面均优于现有模型

  • Motivation: 现有视觉语言模型主要针对现代标准化文本设计,无法有效处理历史文献中的多样化语言、不规则布局和退化问题,限制了文化遗产研究和保护工作
  • Method: 构建了包含155个历史语料库、99,491页文本的CHURRO-DS数据集,涵盖22个世纪的46种语言变体,并训练了专门的30亿参数视觉语言模型CHURRO
  • Result: CHURRO在测试集上达到82.3%(印刷体)和70.1%(手写体)的归一化Levenshtein相似度,分别比第二好的Gemini 2.5 Pro模型高出1.4%和6.5%,同时成本效益高出15.5倍
  • Conclusion: 通过发布模型和数据集,旨在推动社区驱动的研究,提高历史文本的可读性并加速学术研究

cs.LG

[81] TIMED: Adversarial and Autoregressive Refinement of Diffusion-Based Time Series Generation

MohammadReza EskandariNasab,Shah Muhammad Hamdi,Soukaina Filali Boubrahimi

Main category: cs.LG

TL;DR: TIMED是一个统一的生成框架,用于合成高质量的时间序列数据,通过结合扩散模型、监督网络和对抗训练来捕捉时间序列的全局结构和局部依赖关系。

  • Motivation: 时间序列合成在预测和异常检测等领域至关重要,但真实数据往往稀缺、嘈杂或收集成本高。与静态数据生成不同,时间序列合成需要同时建模观测值的边缘分布和时序依赖关系。
  • Method: TIMED框架集成了:1)去噪扩散概率模型(DDPM)通过前向-反向扩散过程捕捉全局结构;2)监督网络通过教师强制学习自回归依赖关系;3)Wasserstein判别器提供对抗反馈确保时序平滑性和保真度;4)最大均值差异(MMD)损失在特征空间对齐真实和合成分布。所有组件都使用掩码注意力架构进行联合训练。
  • Result: 在多个多元时间序列基准测试中,TIMED生成的序列比最先进的生成模型更加真实和时序一致。
  • Conclusion: TIMED框架能够有效捕捉时间序列数据的无条件和条件特征,生成高质量的时间序列数据,在多个基准测试中表现优于现有方法。

[82] C2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Kunlun Xu,Yibo Feng,Jiangmeng Li,Yongsheng Qi,Jiahuan Zhou

Main category: cs.LG

TL;DR: 本文提出C²Prompt方法,通过增强客户端间类级别知识一致性来解决联邦持续学习中的时空遗忘问题。

  • Motivation: 现有基于提示的联邦持续学习方法存在类级别知识一致性问题,包括客户端间类内分布差异和类间知识混淆,这会加剧时空遗忘。
  • Method: 提出类感知客户端知识交互方法,包括局部类分布补偿机制(LCDC)减少类内分布差异,以及类感知提示聚合方案(CPA)缓解类间知识混淆。
  • Result: 在多个联邦持续学习基准测试上的实验表明,C²Prompt达到了最先进的性能。
  • Conclusion: C²Prompt通过增强类级别知识一致性,有效缓解了联邦持续学习中的时空遗忘问题,取得了优异性能。

[83] Predictive Coding-based Deep Neural Network Fine-tuning for Computationally Efficient Domain Adaptation

Matteo Cardoni,Sam Leroux

Main category: cs.LG

TL;DR: 提出一种结合反向传播和预测编码的混合训练方法,用于在资源受限的边缘设备上实现高效的领域自适应。

  • Motivation: 深度神经网络在动态环境中部署时,单一静态模型往往无法应对输入数据分布的变化(如传感器漂移、光照变化),需要持续模型自适应。
  • Method: 首先使用反向传播进行离线训练获得高初始性能,然后使用预测编码进行在线自适应,利用反向传播的鲁棒性进行初始表示学习,以及预测编码的计算效率进行持续学习。
  • Result: 在MNIST和CIFAR-10数据集上的实验结果表明,该混合策略能够有效实现自适应,同时降低计算开销。
  • Conclusion: 该方法为在动态环境中维持模型性能提供了一个有前景的解决方案,特别适合资源受限的边缘设备或未来的神经形态加速器。

[84] Video models are zero-shot learners and reasoners

Thaddäus Wiedemer,Yuxuan Li,Paul Vicol,Shixiang Shane Gu,Nick Matarese,Kevin Swersky,Been Kim,Priyank Jaini,Robert Geirhos

Main category: cs.LG

TL;DR: Veo 3视频模型展示了类似大型语言模型的零样本能力,能够解决多种未经过专门训练的任务,表明视频模型正朝着通用视觉基础模型的方向发展。

  • Motivation: 探索视频模型是否能够像大型语言模型那样发展出通用的视觉理解能力,而不仅仅是特定任务的解决方案。
  • Method: 使用Veo 3视频模型,通过简单的生成模型训练方法,在网页规模数据上进行训练,测试其在多种视觉任务上的零样本表现。
  • Result: Veo 3能够完成物体分割、边缘检测、图像编辑、物理属性理解、物体功能识别、工具使用模拟等多种任务,并展现出早期的视觉推理能力。
  • Conclusion: 视频模型正在朝着统一、通用的视觉基础模型方向发展,其涌现的零样本能力表明这一技术路径的可行性。

cs.RO

[85] HUNT: High-Speed UAV Navigation and Tracking in Unstructured Environments via Instantaneous Relative Frames

Alessandro Saviolo,Jeffrey Mao,Giuseppe Loianno

Main category: cs.RO

TL;DR: HUNT是一个实时框架,将无人机的高速穿越、目标获取和跟踪统一在相对导航框架下,能够在没有全局定位和感知受限的情况下实现自主搜索救援。

  • Motivation: 解决无人机在搜索救援任务中同时需要高速穿越未知非结构化环境和跟踪检测到的目标的挑战,特别是在感知受限和没有全局定位的情况下。
  • Method: HUNT框架基于相对导航方法,将导航目标直接定义为机载瞬时观测值(如姿态、高度、速度),实现搜索期间的高速反应飞行。一旦检测到目标,相同的感知控制管道无缝切换到跟踪模式。
  • Result: 在密集森林、集装箱场地和搜索救援操作中的户外实验表明,HUNT在全局方法失效的情况下仍能实现稳健的自主性,成功跟踪车辆和人偶目标。
  • Conclusion: HUNT框架证明了相对导航方法在无人机搜索救援任务中的有效性,能够统一处理穿越、获取和跟踪任务,为在恶劣环境下的自主飞行提供了可行解决方案。

[86] ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

Jason Chen,I-Chun Arthur Liu,Gaurav Sukhatme,Daniel Seita

Main category: cs.RO

TL;DR: 本文提出ROPA方法,通过微调Stable Diffusion合成第三人称RGB和RGB-D观察数据,同时生成对应的关节空间动作标签,用于双手机器人操作的数据增强。

  • Motivation: 收集真实世界多样且精确的双手机器人操作演示数据成本高昂且耗时,现有数据增强方法主要针对手腕摄像头设置或仅生成新图像而无配对动作,缺乏针对第三人称RGB-D训练数据的有效增强方法。
  • Method: ROPA方法微调Stable Diffusion来合成新的机器人姿态的第三人称RGB和RGB-D观察数据,同时生成对应的关节空间动作标签,并通过约束优化确保双手机器人场景中夹爪与物体接触的物理一致性。
  • Result: 在5个模拟任务和3个真实世界任务上的评估显示,ROPA在2625次模拟试验和300次真实世界试验中均优于基线方法和消融实验,证明了其在第三人称双手机器人操作中RGB和RGB-D数据增强的可扩展性。
  • Conclusion: ROPA方法展示了在眼到手双手机器人操作中RGB和RGB-D数据增强的潜力,为可扩展的数据增强提供了有效解决方案。

[87] Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

Sacha Morin,Kumaraditya Gupta,Mahtab Sandhu,Charlie Gauthier,Francesco Argenziano,Kirsty Ellis,Liam Paull

Main category: cs.RO

TL;DR: ASP是一个基于现代场景表示的语言条件机器人策略框架,通过语义、空间和功能查询能力执行开放词汇查询,在复杂指令和新场景中优于端到端视觉语言动作模型。

  • Motivation: 解决当前模仿学习和视觉语言动作模型在处理复杂指令和新场景时的局限性,通过显式场景表示作为机器人与世界之间的可查询接口。
  • Method: 利用现代场景表示的高级语义、空间和功能查询能力,通过显式推理对象功能来处理复杂技能,实现零样本开放词汇查询。
  • Result: 在桌面操作问题上与VLA模型对比实验显示ASP表现更优,能够通过功能引导导航处理房间级查询,并扩展场景表示规模。
  • Conclusion: ASP框架通过显式场景表示和功能推理,为语言条件机器人策略提供了更强大的能力,特别是在复杂指令和新场景环境下。

[88] EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

Ryan Punamiya,Dhruv Patel,Patcharapong Aphiwetsa,Pranav Kuppili,Lawrence Y. Zhu,Simar Kareer,Judy Hoffman,Danfei Xu

Main category: cs.RO

TL;DR: EgoBridge是一个统一的协同训练框架,通过域适应方法对齐人类和机器人数据的策略潜在空间,显著提升了机器人操作任务的性能。

  • Motivation: 利用人类自我中心体验数据来扩展端到端模仿学习,但人类和机器人之间存在视觉外观、传感器模态和运动学的显著域差距,阻碍了知识迁移。
  • Method: 使用最优传输(OT)度量联合策略潜在特征和动作的差异,学习既能在人类和机器人域之间对齐又能保留策略学习关键动作相关信息的观测表示。
  • Result: 在三个真实世界单臂和双手操作任务中,相比人类增强的跨具身基线,EgoBridge实现了44%的绝对策略成功率提升,并能泛化到仅在人类数据中见过的新物体、场景和任务。
  • Conclusion: EgoBridge框架有效解决了人类-机器人域差距问题,显著提升了模仿学习的性能,展示了在机器人操作任务中的强大泛化能力。

[89] Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning

Xun Li,Rodrigo Santa Cruz,Mingze Xi,Hu Zhang,Madhawa Perera,Ziwei Wang,Ahalya Ravendran,Brandon J. Matthews,Feng Xu,Matt Adcock,Dadong Wang,Jiajun Liu

Main category: cs.RO

TL;DR: 3D Queryable Scene Representation (3D QSR)是一个统一三种3D表示的新框架,通过结合几何、视觉和语义信息,使机器人能够理解高级人类指令并在复杂3D环境中执行任务。

  • Motivation: 为了让机器人理解高级人类指令并执行复杂任务,需要实现全面的场景理解,这需要融合精确几何结构和丰富语义的智能地图。
  • Method: 基于多媒体数据构建3D QSR框架,统一三种互补的3D表示:全景重建的3D一致新视角渲染和分割、3D点云的精确几何、3D场景图的结构化组织。采用以对象为中心的设计,与大型视觉语言模型集成,支持语义查询和对象级信息检索。
  • Result: 在Unity模拟的机器人任务规划场景中使用Replica室内公共数据集进行评估,并在真实湿实验室的数字副本中测试应急响应任务规划。结果表明框架能够促进场景理解,整合空间和语义推理。
  • Conclusion: 3D QSR框架能够有效将高级人类指令转化为复杂3D环境中的精确机器人任务规划,展示了在场景理解和语义推理方面的能力。

[90] VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation

Shaofeng Yin,Yanjie Ze,Hong-Xing Yu,C. Karen Liu,Jiajun Wu

Main category: cs.RO

TL;DR: VisualMimic是一个视觉模拟到现实的框架,将自我中心视觉与分层全身控制相结合,使类人机器人能够在非结构化环境中完成各种定位操作任务。

  • Motivation: 现有方法要么依赖外部运动捕捉系统,要么无法在不同任务间泛化。非结构化环境中的类人定位操作需要自我中心感知和全身控制的紧密集成。
  • Method: 结合任务无关的低级关键点跟踪器(通过师生方案从人类运动数据训练)和任务特定的高级策略(从视觉和本体感觉输入生成关键点命令)。通过向低级策略注入噪声并使用人类运动统计数据裁剪高级动作来确保稳定训练。
  • Result: VisualMimic实现了从模拟到真实类人机器人的零样本迁移,完成了箱子搬运、推动、足球运球和踢球等多种定位操作任务,并在室外环境中表现出强大的泛化能力。
  • Conclusion: 该框架为类人机器人在非结构化环境中的视觉定位操作提供了一种有效的解决方案,展示了从模拟到真实世界的成功迁移和泛化能力。

cs.MM

[91] MultiSoundGen: Video-to-Audio Generation for Multi-Event Scenarios via SlowFast Contrastive Audio-Visual Pretraining and Direct Preference Optimization

Jianxuan Yang,Xiaoran Yang,Lipan Zhang,Xinyue Guo,Zhao Wang,Gongping Huang

Main category: cs.MM

TL;DR: 该论文提出了MultiSoundGen框架,通过引入直接偏好优化(DPO)和慢快对比音频视觉预训练(SF-CAVP)来解决复杂多事件场景下的视频到音频生成问题。

  • Motivation: 现有视频到音频方法在复杂多事件场景中存在两个关键限制:1)难以精确对齐复杂语义信息和快速动态特征;2)基础训练缺乏对语义-时间对齐和音频质量的定量偏好优化。
  • Method: 提出MultiSoundGen框架,包含两个关键创新:1)SF-CAVP - 采用统一双流架构的音频视觉预训练模型,显式对齐核心语义表示和快速动态特征;2)AVP-RPO - 将DPO方法集成到V2A任务中,使用SF-CAVP作为奖励模型来量化和优先处理关键语义-时间匹配。
  • Result: 实验表明MultiSoundGen在多事件场景中实现了最先进的性能,在分布匹配、音频质量、语义对齐和时间同步方面取得了全面增益。
  • Conclusion: 该研究成功解决了复杂多事件场景下视频到音频生成的挑战,提出的框架在多个关键指标上表现出色,代码和数据集将公开发布。

cs.AI

[92] Design Insights and Comparative Evaluation of a Hardware-Based Cooperative Perception Architecture for Lane Change Prediction

Mohamed Manzour,Catherine M. Elias,Omar M. Shehata,Rubén Izquierdo,Miguel Ángel Sotelo

Main category: cs.AI

TL;DR: 该研究通过真实硬件部署探索协同变道预测,重点关注实际部署中面临的挑战和限制,为类似系统提供实践指导。

  • Motivation: 现有变道预测研究多在仿真环境或预录数据集上进行,依赖简化假设,而真实世界部署较少且实践经验记录不足。
  • Method: 在混合交通环境中进行真实硬件部署,通过实际实现和测试来探索协同变道预测系统。
  • Result: 识别了系统实施中的实际挑战,包括瓶颈、可靠性问题和操作约束等影响系统行为的关键因素。
  • Conclusion: 通过记录这些实践经验,为从事类似管道工作的研究人员提供了有价值的指导,强调了真实世界部署的重要性。

cs.GR

[93] AJAHR: Amputated Joint Aware 3D Human Mesh Recovery

Hyunjin Cho,Giyun Choi,Jongwon Choi

Main category: cs.GR

TL;DR: 提出AJAHR框架,通过身体部位截肢分类器和合成数据集A3D,改进对截肢者的3D人体网格重建

  • Motivation: 现有方法假设标准人体结构,忽略了截肢等解剖学差异,且缺乏合适的数据集
  • Method: 集成身体部位截肢分类器与网格恢复网络联合训练,并引入合成数据集A3D
  • Result: 在非截肢者上保持竞争力,在截肢者上达到最先进效果
  • Conclusion: AJAHR框架有效解决了截肢者3D人体网格重建的挑战

[94] MeshMosaic: Scaling Artist Mesh Generation via Local-to-Global Assembly

Rui Xu,Tianyang Xue,Qiujie Dong,Le Wan,Zhe Zhu,Peng Li,Zhiyang Dou,Cheng Lin,Shiqing Xin,Yuan Liu,Wenping Wang,Taku Komura

Main category: cs.GR

TL;DR: MeshMosaic是一个新颖的局部到全局框架,用于艺术家网格生成,能够扩展到超过10万个三角形,显著超越现有方法(通常只能处理约8K个面)。

  • Motivation: 现有的基于transformer的自回归生成模型在处理高三角形数量的艺术家设计网格时面临挑战,主要受限于长序列瓶颈和量化分辨率限制,无法忠实再现精细几何细节和结构化密度模式。
  • Method: MeshMosaic首先将形状分割成补丁,自回归生成每个补丁,并利用共享边界条件来促进相邻区域之间的连贯性、对称性和无缝连接。通过单独量化补丁,实现了对高分辨率网格的可扩展性。
  • Result: 在多个公共数据集上的广泛实验表明,MeshMosaic在几何保真度和用户偏好方面显著优于最先进的方法,支持更优的细节表示和实际应用中的网格生成。
  • Conclusion: MeshMosaic通过局部到全局的方法有效解决了高分辨率网格生成的挑战,为实际应用提供了优越的网格生成能力。

[95] KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

Tianle Lyu,Junchuan Zhao,Ye Wang

Main category: cs.GR

TL;DR: KSDiff是一个基于扩散模型的关键帧增强语音感知双路径框架,用于音频驱动的面部动画生成,通过分离语音特征和预测关键帧来提升面部运动的真实性和同步性。

  • Motivation: 现有方法将语音特征视为单一表示,无法捕捉其驱动不同面部运动的细粒度作用,同时忽略了建模具有强烈动态的关键帧的重要性。
  • Method: 提出双路径语音编码器(DPSE)分离表情相关和头部姿态相关的语音特征,使用自回归关键帧建立学习(KEL)模块预测最显著的运动帧,并通过双路径运动生成器合成连贯真实的面部运动。
  • Result: 在HDTF和VoxCeleb数据集上的实验表明,KSDiff在唇部同步准确性和头部姿态自然度方面均达到最先进性能。
  • Conclusion: 结合语音解缠和关键帧感知扩散的方法在说话头部生成中具有显著效果。