Skip to content
每日arXiv - 2025年8月11日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Boosting Adversarial Transferability via Residual Perturbation Attack

Jinjia Peng,Zeze Tao,Huibing Wang,Meng Wang,Yang Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为ResPA的新型攻击方法,通过利用残差梯度作为扰动方向,提升对抗样本的迁移性。

  • Motivation: 现有迁移攻击方法忽略了扰动方向的影响,导致迁移性受限。
  • Method: ResPA通过指数移动平均获取参考梯度,并利用当前梯度与参考梯度的残差来捕捉全局扰动方向变化。
  • Result: 实验表明,ResPA的迁移性优于现有典型迁移攻击方法,且与输入变换方法结合可进一步提升效果。
  • Conclusion: ResPA通过优化扰动方向,显著提升了对抗样本的迁移性。

[2] Generalized Few-Shot Out-of-Distribution Detection

Pinxuan Li,Bing Cao,Changqing Zhang,Qinghua Hu

Main category: cs.CV

TL;DR: 提出了一种广义少样本OOD检测框架(GOOD),通过引入通用知识模型(GKM)提升泛化能力,解决了现有方法因少样本学习导致的过拟合问题。

  • Motivation: 现有少样本OOD检测方法因训练数据有限,泛化能力不足,导致在实际场景中性能下降。
  • Method: 提出GOOD框架,利用GKM增强模型通用知识,并设计知识动态嵌入(KDE)机制自适应调整通用知识指导。
  • Result: 实验证明GOOD在真实OOD基准测试中表现优越,理论推导的GS平衡降低了泛化误差上界。
  • Conclusion: GOOD框架通过GKM和KDE机制有效提升了少样本OOD检测的泛化能力和性能。

[3] UnGuide: Learning to Forget with LoRA-Guided Diffusion Models

Agnieszka Polowczyk,Alicja Polowczyk,Dawid Malarz,Artur Kasymov,Marcin Mazur,Jacek Tabor,Przemysław Spurek

Main category: cs.CV

TL;DR: UnGuide是一种新方法,通过动态推理机制UnGuidance,结合LoRA适配器,实现对扩散模型中特定知识的精确去除,同时保持模型性能。

  • Motivation: 大规模文本到图像扩散模型的潜在滥用问题引发了对有效机器遗忘的需求,即在不影响整体性能的情况下移除特定知识。
  • Method: UnGuide利用Classifier-Free Guidance(CFG)动态调整引导尺度,结合LoRA适配器,选择性去除知识。
  • Result: 实验表明,UnGuide在概念去除任务中优于现有LoRA方法,同时保持了图像的真实性。
  • Conclusion: UnGuide提供了一种高效且精确的机器遗忘解决方案,适用于扩散模型。

[4] Improving Masked Style Transfer using Blended Partial Convolution

Seyed Hadi Seyed,Ayberk Cansever,David Hart

Main category: cs.CV

TL;DR: 论文提出了一种基于部分卷积的风格迁移网络,专注于对图像中特定区域进行风格迁移,解决了传统方法在区域风格迁移中的不足。

  • Motivation: 传统方法通常对整个图像进行风格迁移,而用户可能仅需对特定区域应用风格。直接对区域进行掩码处理会导致风格特征捕捉不准确。
  • Method: 采用部分卷积的风格迁移网络,结合网络内部混合技术,以精确应用风格特征到感兴趣区域。
  • Result: 实验表明,该方法在视觉和量化指标上均优于传统方法,使用SA-1B数据集验证了其有效性。
  • Conclusion: 提出的方法显著提升了区域风格迁移的准确性,代码已开源。

[5] MAISI-v2: Accelerated 3D High-Resolution Medical Image Synthesis with Rectified Flow and Region-specific Contrastive Loss

Can Zhao,Pengfei Guo,Dong Yang,Yucheng Tang,Yufan He,Benjamin Simon,Mason Belue,Stephanie Harmon,Baris Turkbey,Daguang Xu

Main category: cs.CV

TL;DR: MAISI-v2是一个加速的3D医学图像合成框架,通过整合rectified flow实现快速高质量生成,并引入区域特异性对比损失增强条件一致性。

  • Motivation: 解决现有扩散模型在医学图像合成中的泛化性差、推理速度慢和输入条件对齐弱的问题。
  • Method: 整合rectified flow加速生成,引入区域特异性对比损失增强条件一致性。
  • Result: MAISI-v2实现了33倍加速的潜在扩散模型,并达到SOTA图像质量,下游分割实验验证了合成图像的数据增强效果。
  • Conclusion: MAISI-v2在速度和条件一致性上显著改进,为医学图像合成提供了高效解决方案。

[6] Few-Shot Deployment of Pretrained MRI Transformers in Brain Imaging Tasks

Mengyu Li,Guoyao Shen,Chad W. Farris,Xin Zhang

Main category: cs.CV

TL;DR: 提出了一种基于预训练MRI变换器的少样本部署框架,适用于多种脑成像任务,通过MAE预训练策略和混合架构MAE-FUnet,在数据有限条件下实现高效性能。

  • Motivation: 解决医学影像中标注数据稀缺问题,提升预训练变换器在真实世界中的适用性。
  • Method: 采用MAE预训练策略生成可迁移的潜在表示,结合轻量级线性头或混合架构MAE-FUnet,分别处理分类和分割任务。
  • Result: 在MRI序列识别中达到SOTA准确率,在分割任务中优于基线模型,表现出高效、稳定和可扩展性。
  • Conclusion: 该框架适合低资源临床环境和广泛神经影像应用。

[7] Optimization-Free Style Transfer for 3D Gaussian Splats

Raphael Du Sablon,David Hart

Main category: cs.CV

TL;DR: 提出了一种无需重建或优化的3D高斯样条风格迁移方法,通过生成样条表示的隐式表面图结构,实现快速风格化。

  • Motivation: 现有方法需要重建或优化样条表示,限制了效率和灵活性。
  • Method: 生成样条表示的隐式表面图结构,采用前馈表面风格化方法并插值回场景中的样条。
  • Result: 实现了快速风格化(2分钟内),支持任意风格图像和3D高斯样条,无需额外训练或优化。
  • Conclusion: 该方法高效灵活,适用于多种风格迁移场景。

[8] MZEN: Multi-Zoom Enhanced NeRF for 3-D Reconstruction with Unknown Camera Poses

Jong-Ik Park,Carlee Joe-Wong,Gary K. Fedder

Main category: cs.CV

TL;DR: MZEN是一种改进的NeRF框架,通过处理多缩放图像集,显著提升了工业检测中的细节捕捉能力。

  • Motivation: 现有NeRF方法在工业检测中无法捕捉微米级细节,而多缩放图像会破坏多视角一致性。MZEN旨在解决这一问题。
  • Method: MZEN引入可学习的缩放因子和新的姿态策略,先通过广角图像建立全局框架,再通过缩放一致的裁剪匹配处理缩放图像。
  • Result: 在多个场景中,MZEN显著优于基线方法,PSNR提升28%,SSIM提升10%,LPIPS降低222%。
  • Conclusion: MZEN成功将NeRF应用于工业检测,兼顾全局精度和微米级细节捕捉。

[9] TSMS-SAM2: Multi-scale Temporal Sampling Augmentation and Memory-Splitting Pruning for Promptable Video Object Segmentation and Tracking in Surgical Scenarios

Guoping Xu,Hua-Chieh Shao,You Zhang

Main category: cs.CV

TL;DR: TSMS-SAM2是一种新框架,通过多时间尺度视频采样增强和内存分割修剪机制,提升了手术视频中可提示视频对象分割和跟踪的性能。

  • Motivation: 手术视频分析中,复杂运动动态和内存冗余限制了基础模型(如SAM2)的应用。
  • Method: 提出多时间尺度视频采样增强和内存分割修剪机制。
  • Result: 在EndoVis2017和EndoVis2018数据集上分别达到95.24和86.73的Dice分数,优于现有方法。
  • Conclusion: TSMS-SAM2在复杂手术场景中展现出高效、鲁棒的分割潜力。

[10] Temporal Cluster Assignment for Efficient Real-Time Video Segmentation

Ka-Wai Yung,Felix J. S. Bragman,Jialang Xu,Imanol Luengo,Danail Stoyanov,Evangelos B. Mazomenos

Main category: cs.CV

TL;DR: 提出了一种名为Temporal Cluster Assignment (TCA)的轻量级方法,通过利用帧间时间一致性优化视频分割中的token聚类,显著减少计算成本。

  • Motivation: Swin Transformer在视频分割中计算成本高,现有token剪枝方法因窗口注意力机制受限,且未充分利用时间冗余。
  • Method: TCA通过时间相关性优化token聚类,保留细节并减少计算。
  • Result: 在多个数据集上验证,TCA提升了现有聚类方法的精度与速度平衡。
  • Conclusion: TCA在自然和特定领域视频中均表现优异。

[11] VISTA: Vision-Language Imitation of Situational Thinking and Attention for Human-Like Driver Focus in Dynamic Environments

Kaiser Hamid,Khandakar Ashrafi Akbar,Nade Liang

Main category: cs.CV

TL;DR: 论文提出了一种基于视觉-语言框架的方法,通过自然语言建模驾驶员视线变化,利用少样本和零样本学习在静态RGB图像上预测注意力分配。

  • Motivation: 现有研究多关注单时刻的注意力分配,而本文旨在通过自然语言描述动态的驾驶员视线变化,为自动驾驶和HCI提供可解释的AI方向。
  • Method: 结合人类反馈优化BDD-A数据集的高质量标注,微调LLaVA模型,整合低级线索和高级上下文(如路线语义、风险预测),实现基于语言的视线行为描述。
  • Result: 微调后的模型在注意力转移检测和可解释性上优于通用视觉语言模型,并通过领域特定指标验证了语义对齐和响应多样性。
  • Conclusion: 该方法为自动驾驶中的可解释AI提供了新方向,支持下游任务如行为预测和人机协作。

[12] Multi-view Gaze Target Estimation

Qiaomu Miao,Vivek Raju Golani,Jingyi Xu,Progga Paromita Dutta,Minh Hoai,Dimitris Samaras

Main category: cs.CV

TL;DR: 提出一种多视角相机方法用于视线目标估计(GTE),通过整合不同视角信息提升精度并解决单视角方法的局限性。

  • Motivation: 现有单视角GTE方法存在面部遮挡、目标模糊和视野外目标等问题,多视角方法能有效弥补这些不足。
  • Method: 结合头部信息聚合(HIA)、基于不确定性的视线选择(UGS)和基于极线的场景注意力(ESA)模块,处理双视角输入。
  • Result: 显著优于单视角基线方法,尤其在第二视角提供清晰面部视图时;还能仅用第二视角图像估计第一视角的视线目标。
  • Conclusion: 多视角方法在GTE任务中表现优越,并提供了多视角数据集以支持未来研究。

[13] ETTA: Efficient Test-Time Adaptation for Vision-Language Models through Dynamic Embedding Updates

Hamidreza Dastmalchi,Aijun An,Ali cheraghian

Main category: cs.CV

TL;DR: ETTA提出了一种高效的测试时适应方法,通过递归更新模块和自适应集成模块,动态优化决策边界和提示选择,显著提升了分布偏移下的性能。

  • Motivation: 预训练的视觉语言模型(如CLIP)在零样本任务中表现良好,但在分布偏移下泛化能力不足。测试时适应(TTA)通过适应未标记的测试数据解决这一问题,但现有方法存在局限性。
  • Method: ETTA引入递归更新模块,动态整合所有测试样本以优化决策边界;同时采用自适应集成模块减少对提示的依赖,并根据置信度动态结合两个模块的输出。
  • Result: 在两个基准测试中,ETTA在计算复杂度和准确性上均优于现有TTA方法。
  • Conclusion: ETTA为高效、有效的测试时适应设定了新标准,代码已开源。

[14] HOLODECK 2.0: Vision-Language-Guided 3D World Generation with Editing

Zixuan Bian,Ruohan Ren,Yue Yang,Chris Callison-Burch

Main category: cs.CV

TL;DR: HOLODECK 2.0是一个基于视觉语言模型的3D场景生成框架,支持通过文本输入生成多样风格的场景,并允许交互式编辑。

  • Motivation: 当前3D场景生成依赖大量人工,且现有自动化方法难以支持开放域场景或灵活编辑,因此需要一种更高效的解决方案。
  • Method: 利用视觉语言模型解析输入文本并生成高质量3D资产,通过空间约束实现语义一致和物理合理的布局。
  • Result: HOLODECK 2.0生成的场景在语义和视觉质量上优于基线方法,并支持灵活的编辑功能。
  • Conclusion: HOLODECK 2.0为3D场景生成提供了高效、灵活的解决方案,适用于游戏建模等实际应用。

[15] Robust Image Stitching with Optimal Plane

Lang Nie,Yuan Mei,Kang Liao,Yunqiu Xu,Chunyu Lin,Bin Xiao

Main category: cs.CV

TL;DR: RopStitch是一种无监督的深度图像拼接框架,通过双分支架构和虚拟最优平面概念,实现了鲁棒性和自然性的提升。

  • Motivation: 现有的图像拼接方法在内容对齐和结构保留之间存在矛盾,且缺乏对多样化场景的泛化能力。
  • Method: 提出双分支架构(预训练分支和可学习分支)捕获特征,并通过虚拟最优平面概念解决对齐与保留的矛盾。
  • Result: 在多个数据集上,RopStitch显著优于现有方法,尤其在场景鲁棒性和内容自然性方面。
  • Conclusion: RopStitch通过创新的架构和优化方案,为无监督图像拼接提供了高效且通用的解决方案。

[16] Neural Field Representations of Mobile Computational Photography

Ilya Chugunov

Main category: cs.CV

TL;DR: 论文探讨了如何利用神经场模型在移动设备上高效处理复杂几何和光照效果,无需复杂预处理或标记数据。

  • Motivation: 移动设备已成为多功能计算成像平台,结合神经场模型的潜力,探索其在移动摄影中的应用。
  • Method: 设计自正则化的神经场模型,通过随机梯度下降直接拟合智能手机原始数据。
  • Result: 方法在深度估计、图层分离和图像拼接等任务中优于现有技术。
  • Conclusion: 神经场模型为移动计算成像提供了高效、无需复杂预处理的新途径。

[17] Enhancing Construction Site Analysis and Understanding with 3D Segmentation

Sri Ramana Saketh Vasanthawada,Pengkun Liu,Pingbo Tang

Main category: cs.CV

TL;DR: 论文探讨了计算机视觉方法在建筑进度监测中的应用,评估了SAM和Mask3D两种3D分割模型在复杂建筑环境中的表现,并指出当前缺乏户外场景的基准测试。

  • Motivation: 建筑进度监测资源密集,传统方法在复杂多变的建筑环境中表现不佳,需要更高效的计算机视觉方法。
  • Method: 评估了SAM和Mask3D两种3D分割模型在室内和户外建筑环境中的适应性和性能。
  • Result: 研究发现当前分割方法缺乏户外场景的基准测试,但SAM和Mask3D在建筑环境中表现出潜力。
  • Conclusion: 研究强调了定制化分割流程的重要性,以推动建筑监测向更自动化和精确的方向发展。

[18] A 3DGS-Diffusion Self-Supervised Framework for Normal Estimation from a Single Image

Yanxing Liang,Yinghui Wang,Jinlong Yang,Wei Li

Main category: cs.CV

TL;DR: SINGAD提出了一种自监督框架,通过3D高斯扩散估计单张图像的法线,解决了多视角几何不一致和数据依赖问题。

  • Motivation: 现有方法依赖数据驱动的统计先验,缺乏光-表面相互作用的显式建模,导致多视角法线方向冲突,且无法通过梯度传播优化几何误差。
  • Method: 结合物理驱动的光相互作用建模和可微分渲染重投影策略,构建3D高斯重参数化模型,嵌入几何先验约束法线生成。
  • Result: 在Google Scanned Objects数据集上,SINGAD在多个指标上优于现有方法。
  • Conclusion: SINGAD通过自监督优化和几何一致性建模,显著提升了单图像法线估计的精度和鲁棒性。

[19] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Han Lin,Jaemin Cho,Amir Zadeh,Chuan Li,Mohit Bansal

Main category: cs.CV

TL;DR: Bifrost-1是一个统一框架,通过将多模态LLMs与扩散模型结合,利用CLIP图像嵌入作为潜在变量,实现高效的高保真可控图像生成。

  • Motivation: 现有方法在训练大型语言模型(LLMs)或将其与扩散模型结合时成本高昂,且LLMs未在预训练中接触图像表示。Bifrost-1旨在解决这一问题。
  • Method: 使用patch级CLIP图像嵌入作为潜在变量,通过轻量级ControlNet适配扩散模型,并初始化MLLM的视觉生成分支以保留多模态推理能力。
  • Result: Bifrost-1在视觉保真度和多模态理解方面表现优异,且训练计算成本显著降低。
  • Conclusion: Bifrost-1通过有效整合预训练MLLMs和扩散模型,实现了高效可控的图像生成,验证了其设计选择的有效性。

[20] PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation

Zhihao Zhu,Yifan Zheng,Siyu Pan,Yaohui Jin,Yao Mu

Main category: cs.CV

TL;DR: PASG框架通过几何特征聚合和VLM驱动的语义锚定,解决了机器人操作中语义与几何特征的割裂问题,实现了动态语义-功能关系的捕捉。

  • Motivation: 机器人操作中高层任务语义与低层几何特征的割裂问题限制了视觉语言模型(VLMs)的动态语义-功能关系捕捉能力。
  • Method: 提出PASG框架,包括自动几何基元提取、VLM驱动的语义锚定,以及空间-语义推理基准和微调VLM(Qwen2.5VL-PA)。
  • Result: PASG在多样化机器人操作任务中表现优异,性能接近人工标注水平。
  • Conclusion: PASG实现了更细粒度的语义-功能理解,为机器人操作中几何基元与任务语义的统一提供了新范式。

[21] AnimateScene: Camera-controllable Animation in Any Scene

Qingyang Liu,Bingjie Gao,Weiheng Huang,Jun Zhang,Zhongqian Sun,Yang Wei,Zelin Peng,Qianli Ma,Shuai Yang,Zhaohe Liao,Haonan Zhao,Li Niu

Main category: cs.CV

TL;DR: AnimateScene提出了一种统一框架,解决了3D场景重建与4D人体动画无缝集成的挑战,包括位置放置、风格对齐和相机轨迹插入。

  • Motivation: 将3D场景重建与4D人体动画无缝集成以生成视觉吸引力的结果存在挑战,如位置放置、风格不一致和相机轨迹需求。
  • Method: 设计了准确的位置放置模块、无训练的风格对齐方法,以及联合后重建方法以支持相机轨迹插入。
  • Result: 实验表明AnimateScene能生成具有高几何细节和时空一致性的动态场景视频。
  • Conclusion: AnimateScene通过统一框架解决了集成问题,实现了高质量的动态场景视频生成。

[22] ETA: Energy-based Test-time Adaptation for Depth Completion

Younjoon Chung,Hyoungseob Park,Patrick Rim,Xiaoran Zhang,Jihe He,Ziyao Zeng,Safa Cicek,Byung-Woo Hong,James S. Duncan,Alex Wong

Main category: cs.CV

TL;DR: 提出了一种基于能量的测试时适应方法(ETA),用于预训练深度补全模型的测试时适应,通过对抗扰动探索数据空间并训练能量模型,显著提升了模型在新环境下的性能。

  • Motivation: 深度补全模型在新环境(目标数据)中因协变量偏移导致预测错误,而传统方法缺乏对目标数据的先验知识。
  • Method: 利用对抗扰动探索数据空间,训练能量模型评估预测的分布可能性,并在测试时通过最小化能量更新模型参数。
  • Result: 在三个室内和三个室外数据集上,ETA平均分别优于现有方法10.23%(室内)和6.94%(室外)。
  • Conclusion: ETA通过测试时适应有效解决了协变量偏移问题,显著提升了深度补全模型在新环境中的性能。

[23] Fast Motion Estimation and Context-Aware Refinement for Efficient Bayer-Domain Video Vision

Haichao Wang,Xinyue Xi,Jiangtao Wen,Yuxing Han

Main category: cs.CV

TL;DR: 提出了一种高效视频计算机视觉系统,通过去除图像信号处理器和采用快速块匹配运动估计算法,显著减少计算开销,同时保持性能。

  • Motivation: 视频计算机视觉系统因时间冗余和前端计算开销效率低下,现有方法未能充分解决这些问题。
  • Method: 直接输入Bayer格式数据,采用快速块匹配运动估计算法,引入MV细化模块和上下文感知块细化网络,并采用帧选择策略。
  • Result: 在多个视频计算机视觉任务中,实现了显著加速且性能损失较小。
  • Conclusion: 该方法有效平衡了效率与精度,为高效视频计算机视觉提供了可行方案。

[24] ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge

Juewen Hu,Yexin Li,Jiulin Li,Shuo Chen,Pring Wong

Main category: cs.CV

TL;DR: 提出了一种新颖的多模态情感识别框架,通过预训练模型提取视觉、音频和文本特征,并采用双分支视觉编码器和上下文丰富方法优化特征提取,最终通过自注意力机制和残差连接融合多模态特征,显著提升了MER2025-SEMI数据集的性能。

  • Motivation: 提升人机交互中的情感识别能力,解决数据稀缺问题。
  • Method: 利用预训练模型提取多模态特征,设计双分支视觉编码器和上下文丰富的文本处理方法,采用自注意力机制和残差连接进行特征融合,并通过多源标签策略优化训练数据。
  • Result: 在MER2025-SEMI数据集上,加权F-score达到87.49%,显著优于官方基线的78.63%。
  • Conclusion: 提出的多模态情感识别框架有效提升了性能,验证了其在数据稀缺情况下的实用性。

[25] EvoMakeup: High-Fidelity and Controllable Makeup Editing with MakeupQuad

Huadong Wu,Yi Fu,Yunhao Li,Yuan Gao,Kang Du

Main category: cs.CV

TL;DR: 论文提出MakeupQuad数据集和EvoMakeup框架,解决面部化妆编辑中数据不足和模型退化问题,实现高保真、可控的多任务化妆编辑。

  • Motivation: 现有方法因缺乏结构化配对数据,导致化妆细节粗糙且难以平衡身份和化妆保真度。
  • Method: 引入MakeupQuad数据集,提出EvoMakeup框架,通过多阶段蒸馏避免图像退化,支持全脸、局部和文本驱动的化妆编辑。
  • Result: EvoMakeup在真实场景中表现优于现有方法,实现高保真化妆和身份保留。
  • Conclusion: 该方法有效解决了化妆编辑中的关键问题,为多任务化妆编辑提供了统一解决方案。

[26] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models

Jun Feng,Zixin Wang,Zhentao Zhang,Yue Guo,Zhihan Zhou,Xiuyi Chen,Zhenyang Li,Dawei Yin

Main category: cs.CV

TL;DR: MathReal是一个包含2000个真实场景数学问题的数据集,用于评估多模态大语言模型(MLLMs)在真实教育环境中的表现,发现现有模型能力不足。

  • Motivation: 现有数学推理基准多基于干净或处理过的多模态输入,缺乏真实K-12教育场景中的图像数据,MathReal填补了这一空白。
  • Method: 构建MathReal数据集,包含2000个真实场景数学问题,分类为图像质量、视角变化和无关内容干扰三类,并设计六种实验设置评估MLLMs。
  • Result: 现有MLLMs在真实教育场景中的问题解决能力显著不足,研究分析了其错误模式及能力局限。
  • Conclusion: MathReal为多模态数学推理提供了真实场景基准,揭示了MLLMs的不足,并指出了未来改进方向。

[27] ExploreGS: Explorable 3D Scene Reconstruction with Virtual Camera Samplings and Diffusion Priors

Minsu Kim,Subin Jeon,In Cho,Mijin Yoo,Seon Joo Kim

Main category: cs.CV

TL;DR: 提出了一种基于3D高斯泼溅(3DGS)的流程,通过生成额外训练视图和虚拟相机策略提升重建质量,显著减少了渲染时的伪影和缺失区域。

  • Motivation: 现有方法在偏离训练轨迹的视角下渲染时存在伪影和缺失区域,限制了场景的无缝探索。
  • Method: 采用信息增益驱动的虚拟相机放置策略和视频扩散先验,优化3D高斯泼溅的重建质量。
  • Result: 在Wild-Explore基准测试中,该方法优于现有3DGS方法,实现了高质量、无伪影的任意视角渲染。
  • Conclusion: 提出的方法显著提升了3DGS的重建质量,适用于复杂场景的探索。

[28] Improved Sub-Visible Particle Classification in Flow Imaging Microscopy via Generative AI-Based Image Synthesis

Utku Ozbulak,Michaela Cohrs,Hristo L. Svilenov,Joris Vankerschaver,Wesley De Neve

Main category: cs.CV

TL;DR: 利用深度学习结合流式成像显微镜分析亚可见颗粒,但数据稀缺和类别不平衡问题限制了多分类器的效果。本文开发了一种扩散模型生成高质量图像以增强数据集,并通过实验验证其有效性。

  • Motivation: 解决亚可见颗粒分析中数据稀缺和类别不平衡问题,特别是对罕见颗粒类型(如硅油和气泡)的分类挑战。
  • Method: 开发扩散模型生成高保真图像以增强训练数据集,并训练多分类深度神经网络。
  • Result: 生成的图像与真实颗粒图像在视觉和结构上高度相似,实验表明该方法显著提升了分类性能。
  • Conclusion: 扩散模型生成的图像有效解决了数据不平衡问题,提升了分类效果,相关模型和代码已开源。

[29] Learning 3D Texture-Aware Representations for Parsing Diverse Human Clothing and Body Parts

Kiran Chhatre,Christopher Peters,Srikrishna Karanam

Main category: cs.CV

TL;DR: Spectrum是一种统一网络,用于细粒度的人体部位和服装解析,通过改进的图像到纹理扩散模型实现更好的语义对齐。

  • Motivation: 现有方法在人体解析中通常使用固定掩码类别,无法区分细粒度服装类型;而开放词汇分割方法虽能零样本迁移,但缺乏对服装和身体部位的详细区分。
  • Method: Spectrum利用改进的图像到纹理(I2Tx)扩散模型提取特征,并通过提示引导生成语义有效的掩码。
  • Result: 实验表明,Spectrum在身体部位、服装类别和未见服装的解析中均优于基线方法。
  • Conclusion: Spectrum通过结合扩散模型和细粒度解析,显著提升了人体和服装分割的准确性。

[30] InstantEdit: Text-Guided Few-Step Image Editing with Piecewise Rectified Flow

Yiming Gong,Zhen Zhu,Minjia Zhang

Main category: cs.CV

TL;DR: InstantEdit是一种基于RectifiedFlow框架的快速文本引导图像编辑方法,通过PerRFI反转策略和Inversion Latent Injection技术实现高效编辑,同时保持内容一致性。

  • Motivation: 解决现有文本引导图像编辑方法在速度和编辑质量上的不足,提出一种既能快速完成编辑又能保持内容一致性的方法。
  • Method: 结合RectifiedFlow框架,引入PerRFI反转策略和Inversion Latent Injection技术,使用Disentangled Prompt Guidance平衡编辑与细节保留,并集成Canny-conditioned ControlNet。
  • Result: 在PIE数据集上,InstantEdit在速度和编辑质量上均优于现有方法。
  • Conclusion: InstantEdit是一种高效且高质量的文本引导图像编辑方法,适用于快速且精确的编辑任务。

[31] More Is Better: A MoE-Based Emotion Recognition Framework with Human Preference Alignment

Jun Xie,Yingjian Zhu,Feng Chen,Zhenghao Zhang,Xiaohui Fan,Hongzhu Yi,Xinming Wang,Chen Yu,Yue Bi,Zhaoran Zhao,Xiongjun Guan,Zhepeng Wang

Main category: cs.CV

TL;DR: 本文提出了一种半监督学习框架,通过混合专家模型(MoE)整合多模态输入,结合伪标签策略和投票集成,在MER2025-SEMI挑战中取得第二名的成绩(F1-score 0.8772)。

  • Motivation: 解决半监督学习中的情绪识别问题,利用多模态数据和未标注数据提升模型性能。
  • Method: 1. 构建MoE模型,整合多种输入模态(如视觉-语言模型和动作单元信息);2. 采用共识伪标签策略生成高质量标签;3. 两阶段训练;4. 多专家投票集成与规则重排序。
  • Result: 在MER2025-SEMI测试集上F1-score为0.8772,排名第二。
  • Conclusion: 提出的框架有效整合多模态数据和半监督学习策略,显著提升情绪识别性能。

[32] Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models

Huanyu Wang,Jushi Kai,Haoli Bai,Lu Hou,Bo Jiang,Ziwei He,Zhouhan Lin

Main category: cs.CV

TL;DR: Fourier-VLM通过频域压缩视觉表示,减少计算开销和推理延迟,同时保持性能。

  • Motivation: 视觉语言模型中视觉特征的高维度导致计算开销大,现有方法在性能和成本间难以平衡。
  • Method: 利用二维离散余弦变换(DCT)对视觉特征进行低通滤波,通过FFT高效计算。
  • Result: 在多个基准测试中表现优异,推理FLOPs减少83.8%,生成速度提升31.2%。
  • Conclusion: Fourier-VLM在高效性和实用性上具有显著优势。

[33] NEP: Autoregressive Image Editing via Next Editing Token Prediction

Huimin Wu,Xiaojian Ma,Haozhe Zhao,Yanpeng Zhao,Qing Li

Main category: cs.CV

TL;DR: 论文提出了一种基于自回归图像生成的Next Editing-token Prediction(NEP)方法,仅对需要编辑的图像区域进行重新生成,避免了不必要的计算和非编辑区域的修改。

  • Motivation: 现有文本引导图像编辑方法会生成整个目标图像,导致计算成本高且非编辑区域的重建偏差影响编辑质量。
  • Method: 通过预训练一个任意顺序自回归文本到图像(T2I)模型,实现零样本图像编辑,并适应NEP方法。
  • Result: 该方法在广泛使用的图像编辑基准上达到了新的最优性能,并支持零样本迭代优化。
  • Conclusion: NEP方法显著提升了图像编辑的效率和准确性,同时支持灵活的零样本编辑和优化。

[34] VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning

Linhan Cao,Wei Sun,Weixia Zhang,Xiangyang Zhu,Jun Jia,Kaiwei Zhang,Dandan Zhu,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: VQAThinker是一个基于推理的视频质量评估框架,利用多模态模型和强化学习解决现有模型的泛化性和可解释性问题。

  • Motivation: 现有视频质量评估模型在泛化性和可解释性上存在不足,限制了其实际应用。
  • Method: 采用GRPO强化学习算法,结合三种奖励机制(回归奖励、排序奖励和时间一致性奖励)模拟人类感知决策。
  • Result: 在域内和域外基准测试中表现优异,同时在失真归因和质量描述任务中优于现有模型。
  • Conclusion: 强化学习为构建仅需分数监督的泛化性和可解释性VQA模型提供了有效途径。

[35] LV-Net: Anatomy-aware lateral ventricle shape modeling with a case study on Alzheimer's disease, the Australian Imaging Biomarkers and Lifestyle flagship study of ageing

Wonjung Park,Suhyun Ahn,Jinah Park

Main category: cs.CV

TL;DR: LV-Net是一个从脑MRI生成个性化3D侧脑室网格的新框架,通过变形联合模板提高重建精度和形状统计准确性,并应用于阿尔茨海默病分析。

  • Motivation: 侧脑室形状分析作为神经疾病的生物标志物具有潜力,但个体间形状差异大和MRI分辨率低导致分割困难。
  • Method: LV-Net通过变形具有解剖学意识的联合侧脑室-海马模板网格,结合顶点分类增强点对应性。
  • Result: LV-Net在重建精度和形状描述符可靠性上表现优越,并识别出与阿尔茨海默病显著相关的侧脑室子区域。
  • Conclusion: LV-Net为侧脑室形状分析提供了更可靠的框架,并在疾病研究中展示了应用潜力。

[36] AGI for the Earth, the path, possibilities and how to evaluate intelligence of models that work with Earth Observation Data?

Mojtaba Valipour,Kelly Zheng,James Lowman,Spencer Szabados,Mike Gartner,Bobby Braswell

Main category: cs.CV

TL;DR: 论文呼吁关注卫星光谱图像作为AGI的新模态,提出需要更全面的基准评估地球观测模型,并设计了一套任务来评估模型能力。

  • Motivation: 卫星光谱图像作为AGI的新模态尚未受到足够重视,但其在理解自然世界方面潜力巨大。
  • Method: 分析现有基准的局限性,提出一套全面任务以评估地球观测模型。
  • Result: 强调现有基准不足,提出新任务框架以提升模型评估效果。
  • Conclusion: 需要更全面的基准来推动地球观测模型的发展,以支持AGI的进步。

[37] Lightweight Quad Bayer HybridEVS Demosaicing via State Space Augmented Cross-Attention

Shiyang Zhou,Haijin Zeng,Yunfan Lu,Yongyong Chen,Jie Liu,Jingyong Su

Main category: cs.CV

TL;DR: TSANet是一个轻量级的两阶段网络,通过状态空间增强的交叉注意力,解决了HybridEVS相机中事件像素修复和去马赛克的问题,性能优于现有方法。

  • Motivation: HybridEVS相机结合Quad Bayer CFA传感器和事件像素时,缺乏颜色信息导致去马赛克过程中出现伪影和混叠问题,现有方法难以在资源有限的移动设备上解决这些问题。
  • Method: TSANet采用两阶段网络,分别处理事件像素修复和去马赛克,并引入轻量级的Cross-Swin State Block,利用位置先验和状态空间模型增强全局依赖。
  • Result: 在模拟和真实HybridEVS数据上,TSANet在PSNR和SSIM指标上优于DemosaicFormer,参数和计算成本分别降低1.86倍和3.29倍。
  • Conclusion: TSANet为移动设备上的高效图像去马赛克提供了新可能性。

[38] Distribution-Specific Learning for Joint Salient and Camouflaged Object Detection

Chao Hao,Zitong Yu,Xin Liu,Yuhao Wang,Weicheng Xie,Jingang Shi,Huanjing Yue,Jingyu Yang

Main category: cs.CV

TL;DR: 论文提出SCJoint联合学习方案,通过共享网络结构和少量任务特定参数,同时解决显著目标检测(SOD)和伪装目标检测(COD)任务,并引入SBSS采样策略优化训练。

  • Motivation: 传统观点认为SOD和COD任务联合学习会降低性能,但作者认为通过正确方法可实现双任务协同提升。
  • Method: 提出SCJoint方案,学习解码过程的分布特性,并设计SBSS采样策略平衡训练集。
  • Result: 实验证明JoNet网络能同时捕捉显著和伪装目标,性能优异。
  • Conclusion: SCJoint和SBSS有效解决了SOD和COD任务的矛盾属性,实现了双任务协同优化。

[39] Can Large Models Fool the Eye? A New Turing Test for Biological Animation

Zijian Chen,Lirong Deng,Zhengyu Chen,Kaiwei Zhang,Qi Jia,Yuan Tian,Yucheng Zhu,Guangtao Zhai

Main category: cs.CV

TL;DR: BioMotion Arena通过视觉动画评估大语言模型(LLM)和多模态大语言模型(MLLM),利用点光源成像放大模型性能差异。

  • Motivation: 现有基准测试无法提供直观、即时的性能反馈,BioMotion Arena旨在填补这一空白。
  • Method: 采用成对比较评估,收集45k+投票,分析53个主流LLM和MLLM在90种生物运动变体上的表现。
  • Result: 90%以上模型(包括前沿开源和专有模型)无法生成基本人形点光源组,更不用说流畅的生物运动。
  • Conclusion: BioMotion Arena是一个具有挑战性的性能可视化基准,无需依赖真实数据。

[40] Towards MR-Based Trochleoplasty Planning

Michael Wehrli,Alicia Durrer,Paul Friedrich,Sidaty El Hadramy,Edwin Li,Luana Brahaj,Carol C. Hasler,Philippe C. Cattin

Main category: cs.CV

TL;DR: 提出一种基于临床MR扫描的3D超分辨率伪健康形态生成方法,用于治疗滑车发育不良(TD),显著改善手术效果。

  • Motivation: 当前TD治疗方法依赖低分辨率MR扫描和外科医生经验,手术效果不一致且微创技术应用有限。
  • Method: 使用隐式神经表示(INR)生成超分辨率MR图像,多标签网络分割骨骼,小波扩散模型(WDM)生成伪健康滑车区域形态。
  • Result: 在25例TD患者中验证,显著改善滑车角度(SA)和滑车沟深度(TGD)。
  • Conclusion: 该方法无需CT,减少辐射,为术前规划提供高分辨率3D形态,提升手术效果。

[41] DreamVE: Unified Instruction-based Image and Video Editing

Bin Xia,Jiyang Liu,Yuechen Zhang,Bohao Peng,Ruihang Chu,Yitong Wang,Xinglong Wu,Bei Yu,Jiaya Jia

Main category: cs.CV

TL;DR: DreamVE是一个基于指令的图像和视频编辑统一模型,采用两阶段训练策略和多样化的数据合成方法,提升了编辑性能。

  • Motivation: 指令式编辑潜力巨大,但视频编辑因训练数据不足受限,DreamVE旨在解决这一问题。
  • Method: 两阶段训练(先图像后视频)、拼贴和生成模型数据合成、高效编辑框架。
  • Result: DreamVE在关键编辑类型中表现优异,泛化和迁移能力强。
  • Conclusion: DreamVE通过多样化数据合成和高效框架,显著提升了指令式编辑的实用性和性能。

[42] SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment

Yanxiao Sun,Jiafu Wu,Yun Cao,Chengming Xu,Yabiao Wang,Weijian Cao,Donghao Luo,Chengjie Wang,Yanwei Fu

Main category: cs.CV

TL;DR: 论文提出SwiftVideo,一种结合轨迹保持和分布匹配的统一蒸馏框架,显著减少视频生成的推理步骤。

  • Motivation: 现有基于扩散或流的视频生成模型计算开销大,而现有蒸馏方法在少步设置下性能下降或产生更多伪影。
  • Method: 提出连续时间一致性蒸馏和双视角对齐(分布对齐与轨迹对齐),确保ODE轨迹精确保持。
  • Result: 在OpenVid-1M基准测试中,SwiftVideo在少步视频生成上显著优于现有方法。
  • Conclusion: SwiftVideo在保持高质量视频生成的同时,大幅减少了推理步骤。

[43] AdaptInfer: Adaptive Token Pruning for Vision-Language Model Inference with Dynamical Text Guidance

Weichen Zhang,Zhui Zhu,Ningbo Li,Kebin Liu,Yunhao Liu

Main category: cs.CV

TL;DR: AdaptInfer是一种自适应视觉令牌剪枝框架,通过动态文本引导和跨模态注意力分析,显著降低推理成本,同时保持高准确性。

  • Motivation: 现有剪枝方法未能充分利用推理过程中的动态内部信号,导致视觉令牌处理效率低下。
  • Method: 提出动态文本引导剪枝机制和基于跨模态注意力分析的剪枝调度策略。
  • Result: 在LLaVA-1.5-7B上,CUDA延迟降低61.3%,平均准确率保持在92.9%。
  • Conclusion: AdaptInfer是一种轻量级、即插即用的高效剪枝方法,适用于多模态任务。

[44] Q-CLIP: Unleashing the Power of Vision-Language Models for Video Quality Assessment through Unified Cross-Modal Adaptation

Yachun Mi,Yu Li,Yanting Li,Shixin Sun,Chen Hui,Tong Zhang,Yuanyuan Liu,Chenyue Song,Shaohui Liu

Main category: cs.CV

TL;DR: Q-CLIP是一个基于视觉语言模型(VLMs)的视频质量评估(VQA)框架,通过共享跨模态适配器(SCMA)和可学习的质量提示,显著降低了计算成本并提升了性能。

  • Motivation: 当前VQA方法依赖大规模预训练数据集,计算成本高且语义知识迁移不足,而视觉语言模型(VLMs)在质量评估中展现出潜力。
  • Method: 提出Q-CLIP框架,使用SCMA增强视觉和文本表示,引入可学习的质量提示,并研究帧采样策略对性能的影响。
  • Result: Q-CLIP在多个VQA数据集上表现优异,计算成本显著降低。
  • Conclusion: Q-CLIP为VQA提供了一种高效且高性能的解决方案,展示了VLMs在质量评估中的潜力。

[45] E-React: Towards Emotionally Controlled Synthesis of Human Reactions

Chen Zhu,Buzhen Huang,Zijing Wu,Binghui Zuo,Yangang Wang

Main category: cs.CV

TL;DR: 论文提出了一种基于情感驱动的反应动作生成方法,通过半监督情感先验和扩散模型提升动作生成的多样性和自然性。

  • Motivation: 现有动作生成框架未考虑情感影响,导致动作不自然且应用受限。本文旨在解决情感驱动的反应动作生成问题。
  • Method: 采用半监督学习训练情感先验,并结合扩散模型生成考虑空间交互和情感响应的反应动作。
  • Result: 实验表明,该方法在反应动作生成任务中优于现有方法。
  • Conclusion: 提出的方法能生成多样且自然的反应动作,为情感驱动的交互任务提供了新思路。

[46] UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization

Yachun Mi,Xingyang He,Shixin Sun,Yu Li,Yanting Li,Zhixuan Li,Jian Jin,Chen Hui,Shaohui Liu

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的生成框架UGD-IML,统一了图像篡改定位(IML)和约束IML(CIML)任务,减少了标注数据依赖,性能优于现有方法。

  • Motivation: 数字时代图像编辑工具威胁视觉内容真实性,现有IML方法依赖大规模标注数据且数据集不足,CIML方法流程复杂低效。
  • Method: 基于扩散模型的生成框架UGD-IML,通过类嵌入机制和参数共享设计,统一IML和CIML任务,实现端到端训练。
  • Result: 在多个数据集上,UGD-IML的F1分数分别比SOTA方法平均高9.66(IML)和4.36(CIML),且在不确定性估计和鲁棒性方面表现优异。
  • Conclusion: UGD-IML为图像篡改检测提供了高效统一的解决方案,显著提升了性能并降低了数据依赖。

[47] MCA: 2D-3D Retrieval with Noisy Labels via Multi-level Adaptive Correction and Alignment

Gui Zou,Chaofan Gan,Chern Hong Lim,Supavadee Aramvith,Weiyao Lin

Main category: cs.CV

TL;DR: 提出了一种名为MCA的鲁棒2D-3D跨模态检索框架,通过多模态联合标签校正和多层次自适应对齐,解决了噪声标签条件下的检索问题。

  • Motivation: 现有方法在噪声标签条件下容易过拟合,且缺乏跨模态一致性建模,需要更鲁棒的解决方案。
  • Method: MCA框架包含多模态联合标签校正(MJC)和多层次自适应对齐(MAA)策略,分别用于标签优化和特征增强。
  • Result: MCA在传统和噪声3D基准测试中均达到最先进性能,验证了其通用性和有效性。
  • Conclusion: MCA通过联合建模和多层次对齐,显著提升了噪声标签条件下的跨模态检索性能。

[48] Mask & Match: Learning to Recognize Handwritten Math with Self-Supervised Attention

Shree Mitra,Ritabrata Chakraborty,Nilkanta Sahu

Main category: cs.CV

TL;DR: 提出了一种自监督学习框架,用于手写数学表达式识别(HMER),无需昂贵标注数据。通过全局和局部对比损失预训练图像编码器,并设计自监督注意力网络,采用渐进空间掩码策略提升模型性能。

  • Motivation: HMER任务因二维结构、符号尺度变化和复杂空间关系而具有挑战性,现有方法依赖大量标注数据。本文旨在通过自监督学习减少标注需求。
  • Method: 结合全局和局部对比损失预训练图像编码器,设计自监督注意力网络,采用渐进空间掩码策略学习语义区域,最后通过监督微调生成LATEX序列。
  • Result: 在CROHME基准测试中优于现有自监督和全监督基线,验证了渐进注意力机制的有效性。
  • Conclusion: 提出的自监督框架显著提升了HMER性能,减少了标注依赖,为复杂结构识别提供了新思路。

[49] FMCE-Net++: Feature Map Convergence Evaluation and Training

Zhibo Zhu,Renyu Huang,Lei He

Main category: cs.CV

TL;DR: FMCE-Net++是一种新的训练框架,通过结合特征图收敛评分(FMCS)和任务标签,动态优化模型性能,无需修改架构或增加数据。

  • Motivation: 解决深度神经网络(DNNs)因内部表示不透明而难以解释的问题,并改进现有FMCE方法缺乏实验验证和闭环集成的局限性。
  • Method: 提出FMCE-Net++框架,集成预训练的FMCE-Net作为辅助头,生成FMCS预测,并通过表示辅助损失(RAL)动态平衡分类损失和特征收敛优化。
  • Result: 在多个数据集(MNIST、CIFAR-10等)上验证,FMCE-Net++显著提升模型性能,如ResNet-50在CIFAR-10上准确率提升1.16个百分点。
  • Conclusion: FMCE-Net++能有效提升模型性能,为DNNs的可解释性和性能优化提供了新方法。

[50] GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving

Jian Wang,Chaokang Jiang,Haitao Xu

Main category: cs.CV

TL;DR: GMF-Drive提出了一种基于门控Mamba融合的端到端自动驾驶框架,通过几何增强的LiDAR表示和高效的空间感知状态空间模型(SSM),显著提升了性能。

  • Motivation: 当前基于扩散模型的自动驾驶方法受限于Transformer的二次计算复杂性和缺乏空间先验,无法有效处理高分辨率特征和BEV表示。
  • Method: 1. 使用几何增强的LiDAR表示替代传统直方图表示;2. 提出门控Mamba融合(GM-Fusion)架构,用高效SSM替代Transformer。
  • Result: 在NAVSIM基准测试中,GMF-Drive性能显著优于DiffusionDrive,达到新SOTA。
  • Conclusion: 任务特定的SSM在性能和效率上均优于通用Transformer,为自动驾驶提供了更优解决方案。

[51] SynSeg: Feature Synergy for Multi-Category Contrastive Learning in Open-Vocabulary Semantic Segmentation

Weichen Zhang,Kebin Liu,Fan Dang,Zhui Zhu,Xikai Sun,Yunhao Liu

Main category: cs.CV

TL;DR: SynSeg提出了一种新的弱监督方法,通过多类别对比学习(MCCL)和特征协同结构(FSS)解决开放词汇语义分割中的挑战,显著提升了性能。

  • Motivation: 开放词汇语义分割面临语义类别广泛和细粒度的挑战,现有弱监督方法因依赖类别特定监督和不适合的特征构建方法导致性能不佳。
  • Method: SynSeg采用MCCL策略结合FSS框架,通过融合先验和语义激活图增强,重构判别性特征,避免视觉编码器引入的前景偏差。
  • Result: 在多个基准测试中,SynSeg优于现有最佳方法,如VOC上提升4.5%,Context上提升8.9%。
  • Conclusion: SynSeg通过改进的对比学习和特征重构,显著提升了弱监督下的语义定位和区分能力。

[52] Learning Representations of Satellite Images with Evaluations on Synoptic Weather Events

Ting-Shuo Yo,Shih-Hao Su,Chien-Ming Wu,Wei-Ting Chen,Jung-Lien Chu,Chiao-Wei Chang,Hung-Chi Kuo

Main category: cs.CV

TL;DR: 研究比较了PCA、CAE和PT三种表示学习算法在卫星图像天气事件分类中的表现,发现CAE效果最佳,但缺乏物理可解释性。

  • Motivation: 探索不同表示学习算法在卫星图像天气事件分类中的效果,并评估其潜在空间的性能。
  • Method: 使用PCA、CAE和PT三种算法学习卫星图像的潜在空间,并通过分类任务评估其性能。
  • Result: CAE在所有分类任务中表现最佳,PCA命中率高但误报率高,PT在热带气旋识别中表现优异。高分辨率数据集对深度学习算法更有利。
  • Conclusion: CAE虽高效,但缺乏物理可解释性,未来可开发物理信息增强的CAE版本。

[53] SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning

Lin Zhang,Xianfang Zeng,Kangcong Li,Gang Yu,Tao Chen

Main category: cs.CV

TL;DR: SC-Captioner是一个基于强化学习的框架,通过设计奖励函数提升图像字幕模型的自我修正能力,显著优于直接偏好优化策略。

  • Motivation: 现有图像字幕模型缺乏自我修正能力,导致字幕生成不够准确。
  • Method: 通过场景图解析算法分解字幕为对象、属性和关系集合,计算集合差异以设计奖励函数,激励准确修正。
  • Result: 实验表明,SC-Captioner能生成更优的字幕,显著超越直接偏好优化策略。
  • Conclusion: SC-Captioner通过自我修正机制提升了字幕生成质量,为图像字幕领域提供了新思路。

[54] SAM Encoder Breach by Adversarial Simplicial Complex Triggers Downstream Model Failures

Yi Qin,Rui Wang,Tao Huang,Tong Xiao,Liping Jing

Main category: cs.CV

TL;DR: VeSCA是一种新方法,通过利用SAM的编码器生成可转移的对抗样本,显著提升了对抗攻击的跨域性能。

  • Motivation: 评估SAM的可转移漏洞,以预防下游应用因单点风险而失败。
  • Method: 使用参数化单纯复形表征SAM与下游模型的共享脆弱区域,并通过迭代顶点细化优化。
  • Result: VeSCA在五个领域数据集上比现有方法性能提升12.7%。
  • Conclusion: SAM的漏洞对下游模型构成风险,需开发更鲁棒的基础模型。

[55] Roll Your Eyes: Gaze Redirection via Explicit 3D Eyeball Rotation

YoungChan Choi,HengFei Wang,YiHua Cheng,Boeun Kim,Hyung Jin Chang,YoungGeun Choi,Sang-Il Choi

Main category: cs.CV

TL;DR: 提出了一种基于显式3D眼球结构的新型3D视线重定向框架,优于现有基于神经辐射场的方法。

  • Motivation: 现有视线重定向方法通常基于隐式神经表示,无法显式建模眼球的旋转和平移。
  • Method: 引入3D高斯泼溅(3DGS)显式表示眼球结构,并通过旋转和平移实现视线重定向,同时提出自适应变形模块模拟眼部肌肉运动。
  • Result: 在ETH-XGaze数据集上实验表明,该方法能生成多样化的视线图像,图像质量和视线估计精度优于现有方法。
  • Conclusion: 显式3D眼球结构结合自适应变形模块,显著提升了视线重定向的逼真度和准确性。

[56] DiffCap: Diffusion-based Real-time Human Motion Capture using Sparse IMUs and a Monocular Camera

Shaohua Pan,Xinyu Yi,Yan Zhou,Weihua Jian,Yuan Zhang,Pengfei Wan,Feng Xu

Main category: cs.CV

TL;DR: 该论文提出了一种基于扩散模型的方法,结合稀疏IMU和单目摄像头进行实时人体运动捕捉,通过融合两种信号模态实现高效运动估计。

  • Motivation: 结合稀疏IMU和单目摄像头进行实时人体运动捕捉是一个有前景的方向,但需要解决视觉信息偶尔缺失和IMU信号时序信息利用的问题。
  • Method: 将视觉信息整体转化为条件嵌入,同时将IMU测量值与噪声姿态逐帧拼接,作为扩散模型的输入,以充分利用两种信号的优势。
  • Result: 实验表明,该方法在姿态估计上表现优异,性能优于现有方法。
  • Conclusion: 该框架有效融合了视觉和IMU信号,解决了视觉信息偶尔缺失的问题,实现了实时高效的运动捕捉。

[57] SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models

Hanqing Wang,Yuan Tian,Mingyu Liu,Zhenhao Zhang,Xiangyang Zhu

Main category: cs.CV

TL;DR: SDEval是一个动态安全评估框架,通过调整安全基准的分布和复杂性来解决多模态大语言模型(MLLMs)的安全问题。

  • Motivation: 随着MLLMs的发展,现有安全数据集可能过时且易受数据污染影响,需要动态评估框架来解决这些问题。
  • Method: SDEval采用文本、图像和文本-图像动态策略生成新样本,并研究这些策略对模型安全性的影响。
  • Result: 实验表明,SDEval显著影响安全评估,缓解数据污染,并暴露MLLMs的安全限制。
  • Conclusion: SDEval是一个通用的动态评估框架,适用于现有安全和能力基准,有效提升MLLMs的安全性评估。

[58] Text-guided Visual Prompt DINO for Generic Segmentation

Yuchen Guan,Chong Sun,Canmiao Fu,Zhipeng Huang,Chun Yuan,Chen Li

Main category: cs.CV

TL;DR: Prompt-DINO提出了一种文本引导的视觉提示框架,通过早期融合机制、顺序对齐查询选择和生成数据引擎,解决了多模态视觉模型中的特征融合和查询选择问题。

  • Motivation: 解决多模态视觉模型中后期特征融合不足、查询选择不优以及词汇表限制的问题。
  • Method: 1. 早期融合机制统一文本/视觉提示和骨干特征;2. 顺序对齐查询选择优化文本与视觉查询的结构对齐;3. 生成数据引擎通过双路径交叉验证减少标签噪声。
  • Result: Prompt-DINO在开放世界检测基准上达到最优性能,语义覆盖范围显著扩大。
  • Conclusion: Prompt-DINO为开放世界场景中的多模态检测和数据生成提供了新范式。

[59] DSConv: Dynamic Splitting Convolution for Pansharpening

Xuanyu Liu,Bonan An

Main category: cs.CV

TL;DR: 提出了一种名为DSConv的动态卷积核分割方法,结合注意力机制提升图像融合效果。

  • Motivation: 现有方法多依赖标准卷积,而自适应卷积能更好地利用遥感图像的像素相关性。
  • Method: 动态分割卷积核并结合注意力机制,选择感兴趣位置,将原始卷积核拆分为多个小核。
  • Result: DSConv有效提升了特征提取能力,网络泛化性和性能达到先进水平。
  • Conclusion: DSConv在图像融合任务中表现出优越性和高效性。

[60] VISTAR:A User-Centric and Role-Driven Benchmark for Text-to-Image Evaluation

Kaiyuan Jiang,Ruoxi Sun,Ying Cao,Yuqi Xu,Xinran Zhang,Junyan Guo,ChengSheng Deng

Main category: cs.CV

TL;DR: VISTAR是一个用户中心的多维度文本到图像(T2I)评估基准,结合确定性指标和新型HWPQ方案,显著提升评估准确性。

  • Motivation: 解决现有T2I评估指标的局限性,提供更全面和用户导向的评估方法。
  • Method: 采用两阶段混合范式:确定性指标量化物理属性,HWPQ方案评估抽象语义。基于专家研究定义用户角色和评估角度。
  • Result: VISTAR指标与人类评估高度一致(>75%),HWPQ在抽象语义上达到85.9%准确率,显著优于基线。
  • Conclusion: VISTAR提供可复现的T2I评估资源,揭示不同模型的领域优势,为实际部署提供指导。

[61] An Interpretable Multi-Plane Fusion Framework With Kolmogorov-Arnold Network Guided Attention Enhancement for Alzheimer's Disease Diagnosis

Xiaoxiao Yang,Meiliang Liu,Yunfang Xu,Zijin Li,Zhengye Si,Xinyue Yang,Zhiwen Zhao

Main category: cs.CV

TL;DR: 提出了一种名为MPF-KANSC的创新框架,通过多平面融合和KANSC注意力机制,提升了阿尔茨海默病诊断的准确性。

  • Motivation: 阿尔茨海默病(AD)的早期精确诊断具有挑战性,现有深度学习方法难以捕捉脑部复杂非线性关系。
  • Method: 结合多平面融合(MPF)和KANSC注意力机制,并行提取多平面特征,精确识别脑萎缩特征。
  • Result: 在ADNI数据集上表现优异,并发现AD进展中右脑结构不对称的新证据。
  • Conclusion: MPF-KANSC显著提升了AD诊断性能,并具有较好的可解释性。

[62] Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment

Zhenbang Du,Yonggan Fu,Lifu Wang,Jiayi Qian,Xiao Luo,Yingyan,Lin

Main category: cs.CV

TL;DR: PostDiff框架通过混合分辨率去噪和模块级缓存策略,在无需微调的情况下优化预训练扩散模型的效率与生成质量。

  • Motivation: 扩散模型计算需求高,资源受限平台部署困难,研究如何在无需微调的情况下优化模型效率。
  • Method: 提出PostDiff框架,包括混合分辨率去噪方案和模块级缓存策略,减少冗余计算。
  • Result: 实验表明,PostDiff显著提升效率与生成质量的平衡,降低单步推理成本比减少去噪步数更有效。
  • Conclusion: PostDiff为扩散模型的高效部署提供了实用解决方案,单步优化优于步数减少。

[63] UW-3DGS: Underwater 3D Reconstruction with Physics-Aware Gaussian Splatting

Wenpeng Xing,Jie Chen,Zaifeng Yang,Changting Lin,Jianfeng Dong,Chaochao Chen,Xun Zhou,Meng Han

Main category: cs.CV

TL;DR: 论文提出UW-3DGS框架,通过3D高斯泼溅技术改进水下3D场景重建,解决了传统方法在浑浊环境中的几何和颜色保真度问题。

  • Motivation: 水下3D重建因光线吸收、散射和浑浊而面临挑战,传统方法如NeRF及其扩展(如SeaThru-NeRF)在效率和空间分辨率上受限。
  • Method: 采用3D高斯泼溅技术,结合可学习的体素回归模块建模水下光线衰减和背散射,并通过物理感知不确定性剪枝(PAUP)去除噪声高斯点。
  • Result: 在SeaThru-NeRF和UWBundle数据集上表现优异,PSNR达27.604,SSIM为0.868,LPIPS为0.104,浮点伪影减少约65%。
  • Conclusion: UW-3DGS框架显著提升了水下3D重建的质量和效率,适用于浑浊环境。

[64] Synthetic Data-Driven Multi-Architecture Framework for Automated Polyp Segmentation Through Integrated Detection and Mask Generation

Ojonugwa Oluwafemi Ejiga Peter,Akingbola Oluwapemiisin,Amalahu Chetachi,Adeniran Opeyemi,Fahmi Khalifa,Md Mahmudur Rahman

Main category: cs.CV

TL;DR: 研究提出了一种多方向架构框架,结合合成数据生成和检测分割算法,用于自动化结肠镜图像中的息肉检测,解决了数据集小和标注复杂的问题。

  • Motivation: 结肠镜检查是结直肠癌早期诊断的关键工具,但数据有限且标注复杂,因此需要自动化解决方案。
  • Method: 结合Faster R-CNN进行初步定位,Segment Anything Model (SAM)优化分割掩码,并评估了五种分割模型(U-Net、PSPNet、FPN、LinkNet、MANet)。
  • Result: Faster R-CNN召回率93.08%,精度88.97%,F1分数90.98%;FPN在PSNR和SSIM上表现最佳,UNet在召回率上最优,LinkNet在IoU和Dice分数上平衡。
  • Conclusion: 提出的框架在息肉检测和分割中表现优异,FPN和LinkNet在不同指标上各有优势,为结肠镜图像分析提供了高效解决方案。

[65] Graph-based Robot Localization Using a Graph Neural Network with a Floor Camera and a Feature Rich Industrial Floor

Dominik Brämer,Diana Kleingarn,Oliver Urbann

Main category: cs.CV

TL;DR: 提出了一种基于图表示和图卷积网络(GCNs)的机器人定位框架,利用地板特征实现高精度(0.64cm误差)和高效定位,解决了复杂环境中的适应性问题。

  • Motivation: 传统定位方法(如激光雷达或二维码)在复杂环境中存在扩展性和适应性不足的问题,需要更灵活高效的解决方案。
  • Method: 使用图表示地板特征,并应用图卷积网络(GCNs)进行定位,避免了复杂的滤波过程。
  • Result: 实现了0.64cm的定位误差,并在每一帧中成功解决了机器人绑架问题。
  • Conclusion: 该方法为机器人导航在多样化环境中的应用提供了新的可能性。

[66] MA-CBP: A Criminal Behavior Prediction Framework Based on Multi-Agent Asynchronous Collaboration

Cheng Liu,Daou Zhang,Tingxu Liu,Yuhan Wang,Jinyang Chen,Yuexuan Li,Xinying Xiao,Chenbo Xin,Ziru Wang,Weichao Wu

Main category: cs.CV

TL;DR: MA-CBP框架通过多智能体异步协作,将实时视频流转化为语义描述,结合历史和短期上下文进行推理,预测犯罪行为,并在实验中表现优异。

  • Motivation: 城市化加速导致公共场景犯罪行为威胁增加,传统方法难以捕捉高级语义且实时性不足。
  • Method: 提出MA-CBP框架,将视频流转化为语义描述,构建因果一致的历史摘要,融合相邻帧进行长短上下文联合推理。
  • Result: 实验显示方法在多个数据集上表现优异,为城市公共安全提供有效风险预警。
  • Conclusion: MA-CBP为犯罪行为预测提供了高效解决方案,适用于实时公共安全场景。

[67] A Semantic Segmentation Algorithm for Pleural Effusion Based on DBIF-AUNet

Ruixiang Tang,Jianglong Qin,Mingda Zhang,Yan Song,Yi Wu,Wei Wu

Main category: cs.CV

TL;DR: 论文提出了一种名为DBIF-AUNet的双分支交互融合注意力模型,用于解决胸水CT图像语义分割中的挑战,包括灰度相似、边缘模糊和形态多变等问题。通过DDFD模块和BIAF模块的设计,模型在多尺度特征互补和动态特征融合方面表现优异,显著提升了分割精度。

  • Motivation: 胸水CT图像的语义分割在临床诊断中具有重要意义,但现有方法难以应对灰度相似、边缘模糊和形态多变等挑战,导致分割精度不足。
  • Method: 提出DBIF-AUNet模型,包含DDFD模块(双域特征解耦)和BIAF模块(分支交互注意力融合),并采用嵌套深度监督机制和分层自适应混合损失函数。
  • Result: 在1,622张胸水CT图像上验证,IoU和Dice分数分别达到80.1%和89.0%,优于U-Net++和Swin-UNet。
  • Conclusion: DBIF-AUNet显著优化了复杂胸水CT图像的分割精度,为临床诊断提供了更高效的工具。

[68] LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning

Chang Che,Ziqi Wang,Pengwan Yang,Qi Wang,Hui Ma,Zenglin Shi

Main category: cs.CV

TL;DR: 论文提出了一种名为LiLoRA的高效架构扩展方法,用于解决多模态大语言模型在持续视觉指令调整中的灾难性遗忘问题,显著提升了参数效率。

  • Motivation: 持续视觉指令调整(CVIT)中,灾难性遗忘和参数效率低是主要挑战,现有方法扩展整个层导致参数冗余和可扩展性差。
  • Method: LiLoRA通过共享LoRA矩阵A、对矩阵B进行低秩分解以减少任务特定参数,并引入余弦正则化稳定性损失来保持共享表示的一致性。
  • Result: 在多样化CVIT基准测试中,LiLoRA在顺序任务学习中表现优异,同时显著提高了参数效率。
  • Conclusion: LiLoRA是一种高效且可扩展的解决方案,适用于多模态大语言模型的持续学习任务。

[69] AnomalyMoE: Towards a Language-free Generalist Model for Unified Visual Anomaly Detection

Zhaopeng Gu,Bingke Zhu,Guibo Zhu,Yingying Chen,Wei Ge,Ming Tang,Jinqiao Wang

Main category: cs.CV

TL;DR: AnomalyMoE是一个基于Mixture-of-Experts架构的通用异常检测框架,通过分解异常检测问题为三个语义层次,显著提升了跨领域的性能。

  • Motivation: 现有异常检测方法通常针对特定领域或异常类型,泛化能力有限。
  • Method: AnomalyMoE采用三个专家网络分别处理局部结构异常、组件级语义异常和全局逻辑异常,并引入EIR和ESB模块优化专家多样性和利用率。
  • Result: 在8个数据集上的实验表明,AnomalyMoE显著优于领域专用方法,达到新的SOTA性能。
  • Conclusion: AnomalyMoE通过分层设计和模块优化,实现了通用且高效的异常检测。

[70] PA-HOI: A Physics-Aware Human and Object Interaction Dataset

Ruiyan Wang,Lin Zuo,Zonghao Lin,Qiang Wang,Zhengxue Cheng,Rong Xie,Jun Ling,Li Song

Main category: cs.CV

TL;DR: PA-HOI数据集填补了现有HOI数据集的不足,关注物体物理属性对人类长期运动的影响,包含562个动作序列,验证了其在实际应用中的价值。

  • Motivation: 现有HOI数据集多关注功能细节,忽略了物体物理属性对人类运动的影响,PA-HOI旨在填补这一空白。
  • Method: 构建PA-HOI数据集,包含562个动作序列,涉及不同性别受试者与35种3D物体的交互,记录运动动态。
  • Result: 数据集成功展示了物体物理属性对人类姿势、速度、运动规模和交互策略的影响。
  • Conclusion: PA-HOI数据集扩展了HOI研究范围,并验证了其在运动生成方法中的实用性。

[71] Interpretable Rheumatoid Arthritis Scoring via Anatomy-aware Multiple Instance Learning

Zhiyan Bo,Laura C. Coates,Bartlomiej W. Papiez

Main category: cs.CV

TL;DR: 提出了一种基于双手腕X光片的SvdH评分预测方法,通过两阶段流程提取疾病相关区域并预测评分,性能接近专业放射科医生。

  • Motivation: SvdH评分在临床实践中因复杂性难以推广,手动评分效率低,需自动化解决方案。
  • Method: 采用两阶段流程:1)提取疾病相关图像区域;2)基于注意力机制的多实例学习整合特征。提出两种区域提取方案:异常区域采样和关节区域裁剪。
  • Result: 最佳模型PCC为0.943,RMSE为15.73;集成学习后PCC达0.945,RMSE为15.57,接近专业放射科医生水平。
  • Conclusion: 该方法高效识别RA相关解剖结构,为临床实践提供了可靠工具。

[72] TEFormer: Texture-Aware and Edge-Guided Transformer for Semantic Segmentation of Urban Remote Sensing Images

Guoyu Zhou,Jing Zhang,Yi Yan,Hui Zhang,Li Zhuo

Main category: cs.CV

TL;DR: 提出了一种纹理感知和边缘引导的Transformer(TEFormer),用于解决城市遥感图像语义分割中的纹理差异和边缘模糊问题。

  • Motivation: 城市遥感图像中地理对象的细微纹理差异和相似空间结构易导致语义模糊和误分类,同时不规则形状和模糊边界增加了分割难度。
  • Method: 设计了纹理感知模块(TaM)捕捉纹理差异,构建边缘引导三分支解码器(Eg3Head)保留边缘细节,并通过边缘引导特征融合模块(EgFFM)整合信息。
  • Result: 在Potsdam、Vaihingen和LoveDA数据集上的mIoU分别达到88.57%、81.46%和53.55%。
  • Conclusion: TEFormer有效提升了城市遥感图像的语义分割精度。

[73] Depth Jitter: Seeing through the Depth

Md Sazidur Rahman,David Cabecinhas,Ricard Marxer

Main category: cs.CV

TL;DR: 论文提出了一种基于深度的数据增强技术Depth-Jitter,通过模拟自然深度变化提升模型在深度敏感环境中的泛化能力。

  • Motivation: 传统数据增强技术忽略了深度感知变换,限制了模型在真实世界深度变化中的鲁棒性。
  • Method: Depth-Jitter采用自适应深度偏移技术,基于深度方差阈值生成合成深度扰动,同时保持结构完整性。
  • Result: 在FathomNet和UTDAC2020数据集上的实验表明,Depth-Jitter能提升模型在深度变化下的稳定性,但绝对性能未必优于传统方法。
  • Conclusion: Depth-Jitter为深度感知增强提供了新思路,支持进一步研究深度相关学习策略,代码已开源。

[74] Towards Unified Image Deblurring using a Mixture-of-Experts Decoder

Daniel Feijoo,Paula Garrido-Mellado,Jaesung Rim,Alvaro Garcia,Marcos V. Conde

Main category: cs.CV

TL;DR: 提出了一种通用的图像去模糊方法,通过混合专家(MoE)解码模块动态处理多种模糊类型,实现高效恢复。

  • Motivation: 现有方法针对特定模糊类型设计,缺乏通用性,无法适应多种模糊场景。
  • Method: 采用混合专家(MoE)解码模块,动态识别模糊类型并路由特征,实现端到端恢复。
  • Result: 方法在多种模糊类型上表现优异,性能接近专用模型,且对未见模糊场景具有鲁棒性。
  • Conclusion: 提出的通用去模糊方法在性能和泛化能力上均优于现有专用解决方案。

[75] Deepfake Detection that Generalizes Across Benchmarks

Andrii Yermakov,Jan Cech,Jiri Matas,Mario Fritz

Main category: cs.CV

TL;DR: 论文提出了一种参数高效的CLIP视觉编码器微调方法(LNCLIP-DF),仅调整层归一化参数(0.03%),通过L2归一化和潜在空间增强提升泛化能力。在13个基准数据集上表现优异,揭示了配对真实-伪造数据训练的重要性,并发现学术数据集检测难度未随时间增加。

  • Motivation: 解决深度伪造检测器对未知操纵技术的泛化问题,避免复杂架构设计。
  • Method: 微调预训练CLIP模型的层归一化参数(0.03%),结合L2归一化和潜在空间增强。
  • Result: 在13个数据集上取得最优性能,揭示了配对数据训练的关键作用和数据集难度的非递增趋势。
  • Conclusion: 通过最小化预训练模型改动,实现了高效且可复现的泛化性能提升。

[76] FedX: Explanation-Guided Pruning for Communication-Efficient Federated Learning in Remote Sensing

Barış Büyüktaş,Jonas Klotz,Begüm Demir

Main category: cs.CV

TL;DR: 联邦学习(FL)在遥感图像分类任务中面临通信开销大的问题,本文提出FedX方法,通过解释引导的剪枝减少模型更新大小,同时保持性能。

  • Motivation: 遥感数据因法律和隐私限制难以集中,FL适合此类任务,但通信开销是主要挑战。
  • Method: FedX利用反向传播解释方法估计模型组件重要性,剪枝不相关部分,减少传输模型大小。
  • Result: 在BigEarthNet-S2和EuroSAT数据集上,FedX显著减少参数数量并提升模型泛化能力。
  • Conclusion: FedX有效降低通信开销,优于未剪枝模型和其他先进剪枝方法。

[77] XAG-Net: A Cross-Slice Attention and Skip Gating Network for 2.5D Femur MRI Segmentation

Byunghyun Ko,Anning Tian,Jeongkyu Lee

Main category: cs.CV

TL;DR: XAG-Net是一种新型2.5D U-Net架构,结合像素级跨切片注意力和跳跃注意力门控机制,显著提升了股骨MRI分割的准确性。

  • Motivation: 现有2D和3D深度学习分割方法在股骨MRI分割中存在局限性,需要更高效的解决方案。
  • Method: 提出XAG-Net,通过像素级跨切片注意力(CSA)和跳跃注意力门控(AG)增强切片间上下文建模和切片内特征细化。
  • Result: XAG-Net在股骨分割准确性上优于基线2D、2.5D和3D U-Net模型,同时保持计算效率。
  • Conclusion: XAG-Net是一种高效且准确的股骨MRI分割框架,CSA和AG模块发挥了关键作用。

[78] SIFThinker: Spatially-Aware Image Focus for Visual Reasoning

Zhangquan Chen,Ruihui Zhao,Chuwei Luo,Mingze Sun,Xinlei Yu,Yangyang Kang,Ruqi Huang

Main category: cs.CV

TL;DR: SIFThinker是一种空间感知的多模态框架,通过注意力校正和图像区域聚焦提升复杂视觉任务表现。

  • Motivation: 当前多模态大语言模型在复杂视觉任务(如空间理解和细粒度感知)中表现不足,缺乏利用空间线索进行注意力校正的能力。
  • Method: 提出SIFThinker框架,结合深度增强边界框和自然语言,采用反向扩展前向推理策略和GRPO-SIF强化训练范式。
  • Result: 实验表明SIFThinker在空间理解和细粒度视觉感知上优于现有方法,同时保持通用能力。
  • Conclusion: SIFThinker通过动态注意力校正和区域聚焦,显著提升了复杂视觉任务的性能。

[79] Uncertainty-quantified Rollout Policy Adaptation for Unlabelled Cross-domain Temporal Grounding

Jian Hu,Zixu Cheng,Shaogang Gong,Isabel Guan,Jianye Hao,Jun Wang,Kun Shao

Main category: cs.CV

TL;DR: 论文提出了一种数据高效的无标注跨域视频时间定位方法(URPA),通过少量目标域无标注视频实现模型适应,解决了传统方法依赖标注数据和高计算开销的问题。

  • Motivation: 现有方法(如GRPO)依赖标注数据且计算开销大,难以在无标注域和实时场景中应用。
  • Method: 提出URPA方法,利用GRPO生成多个候选预测,通过伪标签和置信度加权训练奖励,实现无标注跨域知识迁移。
  • Result: 在三个数据集和六种跨域设置下,URPA仅需少量无标注目标视频即可实现良好泛化。
  • Conclusion: URPA是一种高效、实用的无标注跨域视频时间定位方法,适用于实时部署。

[80] Mixture of Experts Guided by Gaussian Splatters Matters: A new Approach to Weakly-Supervised Video Anomaly Detection

Giacomo D'Amicantonio,Snehashis Majhi,Quan Kong,Lorenzo Garattoni,Gianpiero Francesca,François Bremond,Egor Bondarev

Main category: cs.CV

TL;DR: 论文提出GS-MoE框架,通过多专家模型和时序高斯损失解决弱监督视频异常检测中的多样性和弱信号问题。

  • Motivation: 现有模型难以处理复杂异常事件,且弱监督信号缺乏精确时序信息。
  • Method: 采用多专家模型,每个专家专注于特定异常类型,并结合时序高斯损失增强弱监督。
  • Result: 在UCF-Crime、XD-Violence和MSAD数据集上取得SOTA性能(91.58% AUC)。
  • Conclusion: GS-MoE通过类别特定专家和时序引导,为弱监督视频异常检测设定了新基准。

[81] Can Diffusion Models Bridge the Domain Gap in Cardiac MR Imaging?

Xin Ci Wong,Duygu Sarikaya,Kieran Zucker,Marc De Kamps,Nishant Ravikumar

Main category: cs.CV

TL;DR: 提出一种基于扩散模型的合成数据生成方法,解决心脏MR图像分析中的域偏移问题,显著提升分割性能。

  • Motivation: 心脏MR图像因设备和协议差异导致域偏移,影响AI模型在实际场景中的表现,传统方法(如数据增强或迁移学习)效果有限。
  • Method: 使用扩散模型生成合成心脏MR图像,保持结构和空间一致性,并用于训练分割模型(2D/3D nnU-Net和U-Net)。
  • Result: 在未见目标域数据上,分割性能显著提升(Welch's t-test, p < 0.01)。
  • Conclusion: 该方法有效减少对迁移学习的需求,适用于数据稀缺场景。

[82] ViPro-2: Unsupervised State Estimation via Integrated Dynamics for Guiding Video Prediction

Patrick Takenaka,Johannes Maucher,Marco F. Huber

Main category: cs.CV

TL;DR: 论文改进了ViPro模型,使其能够从观测中正确推断状态,无需初始真实状态,并在无监督方式下实现。

  • Motivation: 解决ViPro模型因依赖初始真实状态而无法在噪声环境下准确预测的问题。
  • Method: 在ViPro基础上添加改进,使其能无监督地从观测中推断状态,并扩展了3D数据集。
  • Result: 模型能够无监督地推断状态,且在3D数据集上表现良好。
  • Conclusion: 改进后的ViPro模型在复杂动态环境中更具鲁棒性,适用于真实场景。

[83] Street View Sociability: Interpretable Analysis of Urban Social Behavior Across 15 Cities

Kieran Elrod,Katherine Flanigan,Mario Bergés

Main category: cs.CV

TL;DR: 研究利用街景图像和大语言模型分析城市社交互动质量,发现其与城市环境特征及居民归属感相关。

  • Motivation: 现有研究多关注行人数量而非社交互动质量,街景图像可能隐含社交信息,填补这一空白。
  • Method: 分析15个城市的2,998张街景图像,结合Mehta的社交分类理论,使用线性回归模型控制变量。
  • Result: 天空视野指数与所有社交类型相关,绿色视野指数预测持久社交,归属感与短暂社交正相关。
  • Conclusion: 街景图像可推断社交互动与城市环境的关系,为城市设计提供隐私保护的研究工具。

[84] Aligning Effective Tokens with Video Anomaly in Large Language Models

Yingxian Chen,Jiahui Liu,Ruifan Di,Yanwei Li,Chirui Chang,Shizhen Zhao,Wilton W. T. Fok,Xiaojuan Qi,Yik-Chung Wu

Main category: cs.CV

TL;DR: VA-GPT是一种新型多模态大语言模型,专注于视频中异常事件的总结与定位,通过空间和时间有效令牌选择模块提升性能。

  • Motivation: 现有视频理解多模态大语言模型在处理异常事件时表现不佳,主要因异常事件的空间和时间稀疏性导致冗余信息。
  • Method: 提出VA-GPT模型,结合视觉语言模型和大语言模型,通过SETS和TETG模块高效对齐视觉编码器和LLM的有效令牌。
  • Result: 模型在多个基准测试中优于现有方法,并构建了指令跟随数据集和跨域评估基准。
  • Conclusion: VA-GPT通过空间和时间令牌优化,显著提升了异常事件分析的准确性。

[85] An Implemention of Two-Phase Image Segmentation using the Split Bregman Method

Olakunle S. Abawonse,Günay Doğan

Main category: cs.CV

TL;DR: 本文实现了一种基于Goldstein等人提出的两阶段图像分割算法,通过改进Chan-Vese能量模型,利用split Bregman方法高效完成分割。

  • Motivation: 解决图像分割中区域边界平滑和像素值分类的问题,改进Chan-Vese模型以提高效率。
  • Method: 采用split Bregman方法最小化改进后的Chan-Vese能量模型,实现两阶段图像分割。
  • Result: 通过多组图像和参数测试,验证了算法的有效性和性能。
  • Conclusion: 该实现方法在图像分割中表现高效且稳定,适用于两阶段分割任务。

Aman Bhatta,Maria Dhakal,Michael C. King,Kevin W. Bowyer

Main category: cs.CV

TL;DR: 论文提出了一种新方法,利用排名第一的身份的额外注册图像来预测其是否为图库内或图库外,以减少误识别和调查时间浪费。

  • Motivation: 解决一-to-多人脸识别中图库外样本的检测问题,传统方法依赖相似度阈值,效果有限。
  • Method: 通过提取排名第一身份的额外注册图像特征,训练分类器预测图库内外状态。
  • Result: 实验证明该方法对多种退化图像有效,且在不同人口群体中表现一致。
  • Conclusion: 该方法能客观评估图库外状态,减少误识,且仅在使用先进损失函数的匹配器中有效。

[87] Text as Any-Modality for Zero-Shot Classification by Consistent Prompt Tuning

Xiangyu Wu,Feng Yu,Yang Yang,Jianfeng Lu

Main category: cs.CV

TL;DR: TaAM-CPT是一种通过一致提示调优构建通用表示模型的方法,仅需文本数据即可扩展到无限模态。

  • Motivation: 现有方法依赖大量模态特定标注数据或仅适用于单一模态,限制了通用性。
  • Method: TaAM-CPT结合模态提示池、文本构建和预训练模态对齐文本编码器,设计跨模态学习目标。
  • Result: 无需模态特定标注数据,TaAM-CPT在视频、图像和音频分类任务中表现领先。
  • Conclusion: TaAM-CPT展示了通过文本数据扩展多模态学习的潜力,具有高度可扩展性。

[88] FVGen: Accelerating Novel-View Synthesis with Adversarial Video Diffusion Distillation

Wenbin Teng,Gonglin Chen,Haiwei Chen,Yajie Zhao

Main category: cs.CV

TL;DR: FVGen提出了一种快速新视角合成框架,通过蒸馏视频扩散模型(VDMs)减少采样步骤,显著提升时间效率。

  • Motivation: 稀疏视角下的3D重建存在未观察区域的伪影问题,现有方法因VDMs采样速度慢而受限。
  • Method: 使用GAN和软化反向KL散度最小化,将多步去噪教师模型蒸馏为少步去噪学生模型。
  • Result: 实验表明,FVGen在保持(或提升)视觉质量的同时,采样时间减少90%以上。
  • Conclusion: FVGen显著提升了稀疏输入视角下的时间效率,适用于下游重建任务。

[89] A Classification-Aware Super-Resolution Framework for Ship Targets in SAR Imagery

Ch Muhammad Awais,Marco Reggiannini,Davide Moroni,Oktay Karakus

Main category: cs.CV

TL;DR: 论文探讨了将分类目标直接融入超分辨率过程是否能提高分类准确性,并提出了一种优化图像质量和分类性能的新型方法。

  • Motivation: 低分辨率图像限制了自动化分析的准确性,传统超分辨率方法仅关注像素级指标,未充分探索超分辨率图像保真度与下游分类性能的关系。
  • Method: 提出了一种新颖的方法,通过优化同时考虑图像质量和分类性能的损失函数,提高合成孔径雷达图像的分辨率。
  • Result: 该方法不仅提升了图像质量,还显著提高了分类准确性。
  • Conclusion: 研究表明,将分类目标融入超分辨率过程可以有效提升分类性能,为相关领域提供了新的解决方案。

[90] Feature-Space Oversampling for Addressing Class Imbalance in SAR Ship Classification

Ch Muhammad Awais,Marco Reggiannini,Davide Moroni,Oktay Karakus

Main category: cs.CV

TL;DR: 论文提出两种新算法M2mf和M2mu,用于解决SAR船舰分类中的长尾数据集问题,通过特征空间过采样方法提升分类效果。

  • Motivation: SAR船舰分类面临长尾数据集问题,传统过采样方法在光学数据中有效,但在SAR数据中的效果尚不明确。
  • Method: 提出两种基于Major-to-minor (M2m)方法的算法M2mf和M2mu,并在OpenSARShip和FuSARShip数据集上测试,使用ViT、VGG16和ResNet50作为特征提取器。
  • Result: 新方法在FuSARShip和OpenSARShip数据集上分别平均提升F1-score 8.82%和4.44%,优于原始M2m和基线方法。
  • Conclusion: 特征空间过采样方法在SAR船舰分类中有效,新算法显著提升了分类性能。

[91] SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation

Guido Manni,Clemente Lauretti,Loredana Zollo,Paolo Soda

Main category: cs.CV

TL;DR: 提出了一种基于GAN的半监督学习框架,针对医学影像中标注数据稀缺的问题,通过集成生成器、判别器和分类器,结合伪标签技术,显著提升了分类性能。

  • Motivation: 解决医学影像中标注数据不足的问题,降低标注成本。
  • Method: 采用GAN框架,结合生成器、判别器和分类器,通过伪标签技术和图像翻译利用未标注数据。
  • Result: 在11个MedMNIST数据集上显著优于6种现有方法,尤其在5-shot场景下表现突出。
  • Conclusion: 为医学影像提供了一种高效的半监督学习解决方案,适用于标注成本高的场景。

[92] MotionSwap

Om Patil,Jinesh Modi,Suryabha Mukhopadhyay,Meghaditya Giri,Chhavi Malhotra

Main category: cs.CV

TL;DR: 本文改进了SimSwap框架,通过引入自注意力与交叉注意力机制、动态损失加权和余弦退火学习率调度,显著提升了人脸交换的保真度。

  • Motivation: 提升人脸交换技术的身份保留、属性一致性和视觉质量。
  • Method: 在生成器架构中集成自注意力和交叉注意力机制,采用动态损失加权和余弦退火学习率调度。
  • Result: 实验显示改进模型在身份相似性、FID分数和视觉质量上优于基线,并通过消融研究验证了各改进的重要性。
  • Conclusion: 未来方向包括整合StyleGAN3、改进唇同步、引入3D面部建模和视频应用的时间一致性。

[93] CLIPin: A Non-contrastive Plug-in to CLIP for Multimodal Semantic Alignment

Shengzhu Yang,Jiawei Du,Shuai Lu,Weihang Zhang,Ningli Wang,Huiqi Li

Main category: cs.CV

TL;DR: CLIPin是一种非对比性插件,可无缝集成到CLIP架构中,提升多模态语义对齐的鲁棒性和泛化能力。

  • Motivation: 解决大规模自然图像-文本数据集语义对齐松散和医学数据集内容多样性低的问题,以提升CLIP模型的表示学习能力。
  • Method: 设计统一的非对比性插件CLIPin,并引入共享预投影器,以参数妥协方式结合对比和非对比学习。
  • Result: 在多样化下游任务中验证了CLIPin的有效性和通用性。
  • Conclusion: CLIPin是一种即插即用的组件,适用于多种对比性框架,显著提升了多模态对齐性能。

[94] TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation

Mattia Litrico,Mario Valerio Giuffrida,Sebastiano Battiato,Devis Tuia

Main category: cs.CV

TL;DR: TRUST是一种新型无监督域适应方法,利用语言模态的鲁棒性指导视觉模型适应,通过伪标签生成和不确定性估计提升性能,并在对比学习中引入多模态对齐。

  • Motivation: 解决复杂域偏移(如地理偏移)中现有方法表现不佳的问题,利用语言模态的鲁棒性提升视觉模型的适应性。
  • Method: 生成目标样本的伪标签,基于CLIP相似度估计不确定性并重分类损失;提出多模态软对比学习损失,对齐视觉和语言特征空间。
  • Result: 在经典(DomainNet)和复杂(GeoNet)域偏移上优于现有方法,达到新SOTA。
  • Conclusion: TRUST通过语言模态的引导和不确定性估计,显著提升了复杂域偏移下的适应性能。

[95] Text Embedded Swin-UMamba for DeepLesion Segmentation

Ruida Cheng,Tejas Sudharshan Mathai,Pritam Mukherjee,Benjamin Hou,Qingqing Zhu,Zhiyong Lu,Matthew McAuliffe,Ronald M. Summers

Main category: cs.CV

TL;DR: 研究探讨了将大语言模型(LLM)与Swin-UMamba架构结合用于病灶分割的可行性,结果显示其性能优于现有方法。

  • Motivation: 通过结合影像特征和放射学报告中的病灶描述,提升慢性疾病(如淋巴瘤)的自动测量准确性。
  • Method: 使用公开的ULS23 DeepLesion数据集和报告中的简短描述,将文本信息整合到Swin-UMamba架构中。
  • Result: 测试数据集的Dice Score为82%,Hausdorff距离为6.58像素,性能显著优于其他模型。
  • Conclusion: Text-Swin-UMamba模型在病灶分割任务中表现优异,为临床评估提供了新工具。

[96] WGAST: Weakly-Supervised Generative Network for Daily 10 m Land Surface Temperature Estimation via Spatio-Temporal Fusion

Sofiane Bouaziz,Adel Hafiane,Raphael Canals,Rachid Nedjai

Main category: cs.CV

TL;DR: WGAST是一种弱监督生成网络,用于通过时空融合方法从多源卫星数据中估算每日10米分辨率的陆地表面温度(LST)。

  • Motivation: 城市化、气候变化和农业压力增加了对环境监测的需求,而现有遥感系统在空间和时间分辨率之间存在权衡。
  • Method: 采用条件生成对抗网络架构,包括特征提取、融合、LST重建和噪声抑制四个阶段,结合弱监督训练策略。
  • Result: WGAST在定量和定性评估中均优于现有方法,平均降低RMSE 17.18%,提高SSIM 11.00%,并能有效捕捉细尺度热模式。
  • Conclusion: WGAST为解决高分辨率LST估算问题提供了有效的端到端深度学习框架,并在实际应用中表现出鲁棒性。

[97] Effective Training Data Synthesis for Improving MLLM Chart Understanding

Yuwei Yang,Zeyu Zhang,Yunzhong Hou,Zhuowan Li,Gaowen Liu,Ali Payani,Yuan-Sen Ting,Liang Zheng

Main category: cs.CV

TL;DR: 通过模块化和多样化视觉细节改进图表理解能力,提出五步数据合成流程,生成高质量数据集ECD,显著提升多模态大语言模型性能。

  • Motivation: 现有开源多模态大语言模型在图表理解任务上表现不佳(成功率30%-50%),且合成图表与真实图表差异较大,影响模型训练效果。
  • Method: 设计五步数据合成流程:分离数据和功能生成单图、多子图条件生成、视觉多样化、过滤低质量数据、用GPT-4生成问答对,构建ECD数据集。
  • Result: ECD数据集包含10k+图表和300k+问答对,覆盖25个主题和250+图表类型组合,显著提升多种MLLM在真实和合成测试集上的性能。
  • Conclusion: 模块化和多样化视觉细节的数据合成方法有效提升图表理解能力,ECD数据集为MLLM训练提供了高质量资源。

[98] LightSwitch: Multi-view Relighting with Material-guided Diffusion

Yehonathan Litman,Fernando De la Torre,Shubham Tulsiani

Main category: cs.CV

TL;DR: Lightswitch是一种基于扩散框架的3D重光照方法,通过利用多视图和材质信息,高效地将输入图像重光照到目标光照条件。

  • Motivation: 现有2D重光照生成先验未能充分利用物体的固有属性或多视图数据,导致重光照效果不佳。
  • Method: 提出Lightswitch框架,结合多视图和材质信息,采用可扩展的去噪方案进行高效重光照。
  • Result: Lightswitch在2D重光照预测质量上超越现有方法,并在合成和真实物体重光照任务中表现优异。
  • Conclusion: Lightswitch通过整合固有属性和多视图数据,显著提升了重光照的效率和效果。

eess.IV

[99] Neural Field-Based 3D Surface Reconstruction of Microstructures from Multi-Detector Signals in Scanning Electron Microscopy

Shuo Chen,Yijin Li,Xi Zheng,Guofeng Zhang

Main category: eess.IV

TL;DR: NFH-SEM是一种基于神经场的混合SEM 3D重建方法,通过多视角、多检测器的2D SEM图像输入,结合几何和光度信息,实现复杂微结构的精确重建。

  • Motivation: 传统2D SEM图像无法直接显示微样品的3D形貌,现有方法在复杂微结构重建中存在离散3D表示、参考样本校准和阴影梯度误差等限制。
  • Method: NFH-SEM利用神经场表示,通过端到端自校准消除手动校准,并在训练中自动分离阴影,实现高精度重建。
  • Result: 实验验证了NFH-SEM在真实和模拟数据集上的有效性,成功重建了多种复杂样品,如双光子光刻微结构、桃花粉和碳化硅颗粒表面。
  • Conclusion: NFH-SEM展示了高保真重建能力和广泛适用性,为复杂微结构的3D重建提供了新方法。

[100] Transformer-Based Explainable Deep Learning for Breast Cancer Detection in Mammography: The MammoFormer Framework

Ojonugwa Oluwafemi Ejiga Peter,Daniel Emakporuena,Bamidele Dayo Tunde,Maryam Abdulkarim,Abdullahi Bn Umar

Main category: eess.IV

TL;DR: MammoFormer框架结合Transformer架构和多特征增强技术,提升乳腺癌检测性能并提供可解释AI功能。

  • Motivation: 解决乳腺癌检测中因微小异常和专家解读差异导致的困难,以及现有CNN方法在局部与全局信息处理及可解释性上的不足。
  • Method: 开发MammoFormer框架,结合Transformer架构、多特征增强和XAI功能,测试七种架构和四种增强技术。
  • Result: 性能提升达13%,ViT结合AHE达98.3%准确率,Swin Transformer通过HOG增强提升13%。
  • Conclusion: MammoFormer通过优化架构和增强技术,结合CNN可靠性与Transformer全局建模,为临床AI乳腺检测提供可行方案。

[101] Clinically-guided Data Synthesis for Laryngeal Lesion Detection

Chiara Baldini,Kaisar Kushibar,Richard Osuala,Simone Balocco,Oliver Diaz,Karim Lekadir,Leonardo S. Mattos

Main category: eess.IV

TL;DR: 论文提出了一种利用潜在扩散模型(LDM)和ControlNet适配器生成喉镜图像-标注对的方法,以解决数据稀缺问题,并提升喉部病变检测模型的性能。

  • Motivation: 当前喉镜CADx/e系统因缺乏标注数据而受限,活检成本高且风险大,需要一种解决数据稀缺的方法。
  • Method: 结合LDM和ControlNet生成合成喉镜图像,确保图像质量和临床相关性。
  • Result: 仅添加10%合成数据,喉部病变检测率在内部测试中提升9%,外部数据中提升22.1%。专家难以区分合成与真实图像。
  • Conclusion: 该方法可加速喉部疾病诊断工具的研发,解决数据稀缺问题,并展示合成数据在实际应用中的潜力。

[102] Advanced Deep Learning Techniques for Accurate Lung Cancer Detection and Classification

Mobarak Abumohsen,Enrique Costa-Montenegro,Silvia García-Méndez,Amani Yousef Owda,Majdi Owda

Main category: eess.IV

TL;DR: 本文提出了一种基于DenseNet201模型的创新方法,用于从CT图像中检测和分类肺癌,通过Focal Loss、数据增强和正则化等技术解决了数据不平衡和过拟合问题,取得了98.95%的高准确率。

  • Motivation: 肺癌是全球范围内常见的致命癌症,CT图像因其低成本和处理速度快成为主要诊断方法,但现有技术因数据不平衡导致高误报率和低准确率。
  • Method: 采用DenseNet201模型,结合Focal Loss、数据增强和正则化技术,以解决数据不平衡和过拟合问题。
  • Result: 实验结果表明,该方法达到了98.95%的高准确率。
  • Conclusion: 提出的方法在肺癌检测和分类中表现出色,为解决数据不平衡和过拟合问题提供了有效方案。

[103] Multivariate Fields of Experts

Stanislas Ducotterd,Michael Unser

Main category: eess.IV

TL;DR: 提出了一种新的图像先验学习框架——多元专家场,通过引入多元势函数提升性能,在多个逆问题上表现优异。

  • Motivation: 现有专家场方法在图像先验学习中表现有限,希望通过多元势函数扩展其能力。
  • Method: 利用Moreau包络构建多元势函数,应用于图像去噪、去模糊、压缩感知MRI和CT等逆问题。
  • Result: 优于单变量模型,接近深度学习正则化器性能,但速度更快、参数更少、数据需求更低。
  • Conclusion: 多元专家场在性能、效率和可解释性上均表现优异,是一种高效的图像先验学习方法。

cs.HC

[104] ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation

Daniel Lee,Nikhil Sharma,Donghoon Shin,DaEun Choi,Harsh Sharma,Jeonghwan Kim,Heng Ji

Main category: cs.HC

TL;DR: ThematicPlane是一个交互式系统,帮助用户通过高级语义概念(如情绪、风格或叙事基调)导航和操作生成图像,弥合创意意图与系统控制之间的差距。

  • Motivation: 生成式AI使图像创作更易用,但对非专家而言,将输出与复杂创意意图对齐仍具挑战性。现有工具通常要求用户通过提示或参考外部化想法,限制了流畅探索。
  • Method: 引入ThematicPlane系统,用户可在交互式主题设计平面中操作高级语义概念。通过探索性研究(N=6),观察用户在发散和收敛创意模式中的行为。
  • Result: 用户常将意外结果作为灵感或迭代线索,但主题与输出映射的预期差异表明需要更可解释的控制。
  • Conclusion: ThematicPlane支持表达性和迭代性工作流,为生成设计工具中直观的语义驱动交互提供了新方向。

cs.DC

[105] KnapFormer: An Online Load Balancer for Efficient Diffusion Transformers Training

Kai Zhang,Peng Wang,Sai Bi,Jianming Zhang,Yuanjun Xiong

Main category: cs.DC

TL;DR: KnapFormer是一个高效框架,结合工作负载平衡和序列并行,优化分布式训练中的Diffusion Transformers(DiT)。

  • Motivation: 解决分布式训练中因变长文本输入和混合分辨率/图像-视频联合训练导致的令牌不平衡问题。
  • Method: 通过全局背包问题重新分配令牌,结合序列并行和半经验工作负载模型,最小化通信开销。
  • Result: 在真实训练中实现小于1%的工作负载差异,消除滞后效应,速度提升2-3倍。
  • Conclusion: KnapFormer有效优化了DiT训练,已在开源平台发布。

cs.LG

[106] Improving Diagnostic Accuracy for Oral Cancer with inpainting Synthesis Lesions Generated Using Diffusion Models

Yong Oh Lee,JeeEun Kim,Jung Woo Lee

Main category: cs.LG

TL;DR: 该研究提出了一种基于扩散模型的图像修复技术,用于合成逼真的口腔癌病变图像,以解决训练数据不足的问题,显著提升了诊断模型的性能。

  • Motivation: 口腔癌诊断中,标注数据集的稀缺性和训练数据的不足限制了诊断模型的性能。
  • Method: 通过微调的扩散模型和图像修复技术合成逼真的口腔癌病变图像,并结合多源数据集训练诊断模型。
  • Result: 分类模型在区分癌与非癌组织时准确率达0.97,检测模型对病变位置的识别准确率为0.85。
  • Conclusion: 该方法验证了合成图像在医学诊断中的潜力,并为其他癌症诊断研究提供了新思路。

[107] FedMeNF: Privacy-Preserving Federated Meta-Learning for Neural Fields

Junhyeog Yun,Minui Hong,Gunhee Kim

Main category: cs.LG

TL;DR: FedMeNF是一种新的联邦元学习方法,通过隐私保护损失函数解决传统FML的隐私泄露问题,适用于资源受限的边缘设备。

  • Motivation: 神经场学习需要大量数据和计算资源,传统FML存在隐私泄露问题,FedMeNF旨在解决这些问题。
  • Method: FedMeNF采用隐私保护损失函数,在本地元优化中减少隐私泄露,同时快速高效优化。
  • Result: 实验显示FedMeNF在少样本或非IID数据下仍能快速优化并保持重建性能,同时保护隐私。
  • Conclusion: FedMeNF是一种高效、隐私保护的联邦元学习方法,适用于多模态数据学习。

cs.RO

[108] Integrating Vision Foundation Models with Reinforcement Learning for Enhanced Object Interaction

Ahmad Farooq,Kamran Iqbal

Main category: cs.RO

TL;DR: 论文提出了一种结合视觉基础模型与强化学习的新方法,提升了模拟环境中物体交互能力。

  • Motivation: 通过整合先进视觉模型(如SAM和YOLOv5)与强化学习(PPO),旨在提高智能体在复杂环境中的感知与交互能力。
  • Method: 使用Segment Anything Model (SAM)和YOLOv5结合PPO智能体,在AI2-THOR模拟环境中进行实验。
  • Result: 实验显示,与基线相比,平均累积奖励提升68%,物体交互成功率提高52.5%,导航效率增加33%。
  • Conclusion: 结合视觉基础模型与强化学习可显著提升复杂机器人任务的表现,为更先进的自主智能体铺平道路。

[109] Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model

Hanqing Wang,Shaoyang Wang,Yiming Zhong,Zemin Yang,Jiamin Wang,Zhiqing Cui,Jiahao Yuan,Yifan Han,Mingyu Liu,Yuexin Ma

Main category: cs.RO

TL;DR: Affordance-R1提出了一种统一的affordance grounding框架,结合了认知CoT和GRPO强化学习,解决了现有模型在OOD泛化和显式推理能力上的不足。

  • Motivation: 现有模型缺乏Chain-of-Thought推理能力,限制了其在跨域泛化和显式推理上的表现。
  • Method: 提出Affordance-R1框架,结合认知CoT和GRPO强化学习,设计了包含格式、感知和认知奖励的affordance函数,并构建了ReasonAff数据集支持训练。
  • Result: Affordance-R1在零样本泛化和测试时推理能力上表现优异,超越了现有方法,并展示了开放世界泛化能力。
  • Conclusion: Affordance-R1首次将GRPO强化学习与推理结合,为affordance推理领域提供了新思路,代码和数据集已开源。

[110] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

Youguang Xing,Xu Luo,Junlin Xie,Lianli Gao,Hengtao Shen,Jingkuan Song

Main category: cs.RO

TL;DR: 论文研究了通用机器人策略在大型数据集(如OXE)训练后泛化能力受限的原因,发现任务无关特征的依赖(捷径学习)是主要障碍,并提出数据集收集和数据增强策略以改善泛化能力。

  • Motivation: 通用机器人策略在大型数据集训练后泛化能力不足,研究旨在揭示其根本原因并提出解决方案。
  • Method: 通过理论和实证分析,识别捷径学习的两个主要来源:子数据集内部多样性不足和子数据集间的分布差异。
  • Result: 发现数据集结构和收集方式是捷径学习的关键因素,并提出数据增强策略可有效改善泛化能力。
  • Conclusion: 优化数据集收集策略和采用数据增强技术可减少捷径学习,提升机器人策略的泛化能力。

cs.IR

[111] Fine-Tuning Vision-Language Models for Markdown Conversion of Financial Tables in Malaysian Audited Financial Reports

Jin Khye Tan,En Jun Choong,Ethan Jeremiah Chitty,Yan Pheng Choo,John Hsin Yang Wong,Chern Eu Cheah

Main category: cs.IR

TL;DR: 该研究提出了一种基于Qwen2.5-VL-7B的微调视觉语言模型,用于从马来西亚审计财务报告中高保真地生成Markdown格式表格,性能显著优于基模型和其他大型模型。

  • Motivation: 财务表格的结构提取和表示是文档理解中的关键挑战,尤其是对于监管和分析用例。
  • Method: 使用2,152个图像-文本对的数据集和LoRA微调策略,提出了一种优化的视觉语言模型。
  • Result: 模型在标准评估中达到92.20%的准确率和96.53%的Markdown TEDS分数,性能优于基模型和专有模型。
  • Conclusion: 领域特定微调是连接非结构化财务文档与下游自动化的高效方法,性能媲美大型通用模型且计算成本更低。

cs.CR

[112] Universally Unfiltered and Unseen:Input-Agnostic Multimodal Jailbreaks against Text-to-Image Model Safeguards

Song Yan,Hui Wei,Jinlong Fei,Guoliang Yang,Zhengyu Zhao,Zheng Wamg

Main category: cs.CR

TL;DR: 论文提出了一种名为U3-Attack的多模态越狱攻击方法,旨在绕过文本到图像(T2I)模型的安全检查器和提示过滤器,解决了现有方法扩展性差和优化耗时的问题。

  • Motivation: 现有的多模态越狱攻击方法局限于特定提示和图像的扰动,扩展性差且优化耗时,因此需要一种更高效、通用的攻击方法。
  • Method: U3-Attack通过优化图像背景的对抗性补丁来绕过安全检查器,并通过优化敏感词的安全释义集来绕过提示过滤器,同时减少冗余计算。
  • Result: 实验结果表明,U3-Attack在开源和商业T2I模型上表现优异,例如在Runway-inpainting模型上,其成功率比现有最佳方法高约4倍。
  • Conclusion: U3-Attack是一种高效且通用的多模态越狱攻击方法,能够有效绕过T2I模型的安全防护措施。

[113] Anti-Tamper Protection for Unauthorized Individual Image Generation

Zelin Li,Ruohan Zong,Yifan Liu,Ruichen Yao,Yaokun Liu,Yang Zhang,Dong Wang

Main category: cs.CR

TL;DR: 论文提出了一种新型抗篡改扰动(ATP)方法,通过结合保护扰动和授权扰动,有效防御伪造攻击并检测净化篡改。

  • Motivation: 随着个性化图像生成技术的发展,伪造攻击侵犯肖像权和隐私的问题日益严重,现有保护扰动算法易被净化技术绕过。
  • Method: ATP在频域中引入保护扰动和授权扰动,通过掩膜指导确保两者互不干扰,授权扰动分布在全图像素以保持对篡改的敏感性。
  • Result: 实验表明,ATP在各种攻击设置下均能有效防御伪造攻击,保护肖像权和隐私。
  • Conclusion: ATP为肖像权和隐私保护提供了鲁棒解决方案,代码已开源。