Skip to content
每日arXiv - 2025年10月17日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] MultiFoodhat: A potential new paradigm for intelligent food quality inspection

Yue Hu,Guohang Zhuang

Main category: cs.CV

TL;DR: MultiFoodChat是一个基于多智能体对话的零样本食物识别框架,通过视觉语言模型和大语言模型的协作推理实现无需训练的食物分类。

  • Motivation: 现有监督模型依赖大量标注数据且泛化能力有限,需要开发无需标注就能识别新食物类别的零样本方法。
  • Method: 集成视觉语言模型和大型语言模型,通过多轮视觉-文本对话进行协作推理,使用对象感知令牌捕获细粒度视觉属性,交互式推理代理动态解释上下文线索。
  • Result: 在多个公共食物数据集上的实验表明,MultiFoodChat在识别准确性和可解释性方面优于现有的无监督和少样本方法。
  • Conclusion: 该框架展示了作为智能食品质量检测和分析新范式的潜力,能够灵活理解复杂食物场景而无需额外训练或手动标注。

[2] Post-surgical Endometriosis Segmentation in Laparoscopic Videos

Andreas Leibetseder,Klaus Schoeffmann,Jörg Keckstein,Simon Keckstein

Main category: cs.CV

TL;DR: 开发了一个用于分割子宫内膜异位症中常见视觉表现(深色子宫内膜植入物)的系统,能够分析腹腔镜手术视频并标注识别区域

  • Motivation: 子宫内膜异位症具有多种视觉表现且出现在不同体内位置,这使得其识别非常困难,特别是对于非专科医生。该系统旨在为妇科医生提供辅助诊断支持
  • Method: 训练一个系统来分割深色子宫内膜植入物,能够分析腹腔镜手术视频,用多色叠加标注识别区域,并显示检测摘要以改进视频浏览
  • Result: 系统成功实现了对深色子宫内膜植入物的分割和标注功能,能够辅助医生进行视频分析和诊断
  • Conclusion: 该系统为子宫内膜异位症的诊断提供了有价值的辅助工具,特别是通过视频分析和标注功能帮助医生更准确地识别病变区域

[3] Efficient Few-Shot Learning in Remote Sensing: Fusing Vision and Vision-Language Models

Jia Yun Chua,Argyrios Zolotas,Miguel Arana-Catania

Main category: cs.CV

TL;DR: 该论文提出了一种结合传统视觉模型和视觉语言模型的方法,用于提升遥感图像分析性能,特别是在飞机检测和场景理解任务中。

  • Motivation: 遥感数据量大幅增加,但传统视觉模型需要大量领域特定标注数据且难以理解复杂环境上下文。视觉语言模型在遥感领域的应用仍待探索。
  • Method: 将YOLO与LLaVA、ChatGPT、Gemini等视觉语言模型结合,在标注和未标注遥感数据以及退化图像场景中进行评估。
  • Result: 在飞机检测和计数准确性方面平均MAE提升48.46%,在挑战性条件下表现尤其突出;CLIPScore在遥感图像综合理解方面提升6.17%。
  • Conclusion: 传统视觉模型与视觉语言模型的结合为更先进高效的遥感图像分析开辟了新途径,特别是在少样本学习场景中。

[4] Finding Holes: Pathologist Level Performance Using AI for Cribriform Morphology Detection in Prostate Cancer

Kelvin Szolnoky,Anders Blilie,Nita Mulliqi,Toyonori Tsuzuki,Hemamali Samaratunga,Matteo Titus,Xiaoyi Ji,Sol Erika Boman,Einar Gudlaugsson,Svein Reidar Kjosavik,José Asenjo,Marcello Gambacorta,Paolo Libretti,Marcin Braun,Radisław Kordek,Roman Łowicki,Brett Delahunt,Kenneth A. Iczkowski,Theo van der Kwast,Geert J. L. H. van Leenders,Katia R. M. Leite,Chin-Chen Pan,Emiel Adrianus Maria Janssen,Martin Eklund,Lars Egevad,Kimmo Kartasalo

Main category: cs.CV

TL;DR: 开发了一个基于深度学习的AI系统,用于检测前列腺癌中的筛状形态,该系统在内部和外部验证中表现出色,甚至超过了专家病理学家的表现。

  • Motivation: 前列腺癌中的筛状形态是一个重要的预后指标,但目前存在报告不足和观察者间变异性的问题,需要更可靠的检测方法。
  • Method: 使用EfficientNetV2-S编码器和多实例学习的深度学习模型,在640个前列腺核心针活检切片上进行训练,并在多个队列中进行验证。
  • Result: 模型在内部验证中AUC为0.97,外部验证中AUC为0.90,在专家间一致性分析中表现最佳(Cohen's kappa: 0.66),优于所有9位病理学家。
  • Conclusion: 该AI模型在前列腺癌筛状形态检测方面达到了病理学家水平,有望提高诊断可靠性、标准化报告并改善治疗决策。

[5] NAPPure: Adversarial Purification for Robust Image Classification under Non-Additive Perturbations

Junjie Nan,Jianing Li,Wei Chen,Mingkun Zhang,Xueqi Cheng

Main category: cs.CV

TL;DR: 提出NAPPure框架,扩展对抗净化方法以处理非加性对抗扰动(如模糊、遮挡、扭曲),通过似然最大化分离干净图像和扰动参数。

  • Motivation: 现有对抗净化方法主要针对加性扰动设计,对非加性扰动(模糊、遮挡、扭曲)效果不佳,需要扩展框架来处理这类现实世界中常见的扰动。
  • Method: 建立对抗图像生成过程,通过似然最大化方法分离底层干净图像和扰动参数,实现非加性扰动的净化。
  • Result: 在GTSRB和CIFAR-10数据集上的实验表明,NAPPure显著提升了图像分类模型对非加性扰动的鲁棒性。
  • Conclusion: NAPPure框架成功扩展了对抗净化的适用范围,有效处理非加性扰动,提升了模型在现实对抗场景中的鲁棒性。

[6] Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding

Xiaoqian Shen,Wenxuan Zhang,Jun Chen,Mohamed Elhoseiny

Main category: cs.CV

TL;DR: 提出了Vgent框架,通过图结构表示视频和中间推理步骤来增强长视频理解能力,在多个基准测试中显著提升性能。

  • Motivation: 解决长视频处理中的挑战:超出上下文窗口的视频token处理困难,以及长期序列信息保留问题。现有RAG方法在视频中面临时间依赖破坏和无关信息干扰的问题。
  • Method: 1) 使用结构化图表示视频,保留视频片段间的语义关系;2) 引入中间推理步骤,通过结构化验证减少检索噪声,显式聚合跨片段相关信息。
  • Result: 在三个长视频理解基准测试中,相比基础模型整体性能提升3.0%~5.4%,在MLVU上比最先进的视频RAG方法高出8.6%。
  • Conclusion: Vgent框架通过图结构表示和中间推理有效解决了长视频理解中的关键挑战,显著提升了LVLMs的性能。

[7] Synchronization of Multiple Videos

Avihai Naaman,Ron Shapira Weber,Oren Freifeld

Main category: cs.CV

TL;DR: 提出了时序原型学习(TPL)框架,通过构建共享的紧凑1D表示来同步不同场景或生成AI视频,无需穷举成对匹配。

  • Motivation: 同步来自不同场景或生成AI视频存在复杂挑战,因为存在多样化的主体、背景和非线性时间错位。
  • Method: TPL框架从预训练模型提取的高维嵌入中构建共享的紧凑1D表示,通过学习统一原型序列来锚定关键动作阶段。
  • Result: 实验显示TPL在多样化数据集上提高了同步准确性、效率和鲁棒性,包括细粒度帧检索和阶段分类任务。
  • Conclusion: TPL是首个解决多个生成AI视频中同步问题的方法,在复杂视频同步场景中表现出色。

[8] Capture, Canonicalize, Splat: Zero-Shot 3D Gaussian Avatars from Unstructured Phone Images

Emanuel Garbin,Guy Adam,Oded Krams,Zohar Barzelay,Eran Guendelman,Michael Schwarz,Moran Vatelmacher,Yigal Shenkman,Eli Peker,Itai Druker,Uri Patish,Yoav Blum,Max Bluvstein,Junxuan Li,Rawal Khirodkar,Shunsuke Saito

Main category: cs.CV

TL;DR: 提出了一种从少量非结构化手机图像创建超真实、保持身份特征的3D头像的零样本方法,通过生成规范化模块和基于transformer的模型解决现有方法的几何不一致性和细节缺失问题。

  • Motivation: 现有方法面临几何不一致、幻觉问题导致身份特征退化,以及合成数据训练无法捕捉高频细节如皮肤皱纹和细发等限制真实感的问题。
  • Method: 采用"捕获、规范化、渲染"流程,包括生成规范化模块处理多视角图像为标准化表示,和基于transformer的模型在高质量高斯渲染头像数据集上训练。
  • Result: 该方法从非结构化照片生成静态半身头像,具有令人信服的真实感和稳健的身份特征保持能力。
  • Conclusion: 提出的零样本流程能够从少量非结构化图像创建超真实、身份保持的3D头像,解决了现有方法的局限性。

[9] cubic: CUDA-accelerated 3D Bioimage Computing

Alexandr A. Kalinin,Anne E. Carpenter,Shantanu Singh,Matthew J. O'Meara

Main category: cs.CV

TL;DR: cubic是一个开源的Python库,通过GPU加速增强SciPy和scikit-image API,为生物图像分析提供可扩展的2D和3D图像处理解决方案。

  • Motivation: 现代显微镜生成的大型2D和3D数据集需要更高效的计算方法,现有工具在可扩展性、GPU加速和与现代科学计算工作流集成方面存在局限。
  • Method: 开发设备无关的API,基于CuPy和RAPIDS cuCIM提供GPU加速替代方案,自动在GPU和CPU之间调度操作。
  • Result: 在去卷积和分割流程中实现显著加速,同时保持算法保真度,为可扩展、可重现的生物图像分析奠定基础。
  • Conclusion: cubic为生物图像分析建立了强大的基础,能够与更广泛的Python科学计算生态系统集成,支持交互式探索和自动化高通量分析工作流。

[10] Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures

Yuancheng Xu,Wenqi Xian,Li Ma,Julien Philip,Ahmet Levent Taşel,Yiwei Zhao,Ryan Burgert,Mingming He,Oliver Hermann,Oliver Pilarski,Rahul Garg,Paul Debevec,Ning Yu

Main category: cs.CV

TL;DR: 提出一个通过定制化数据管道实现视频扩散模型中多视角角色一致性和3D相机控制的框架,使用4D高斯泼溅技术重新渲染体积捕捉表演,支持多主体生成、场景定制和运动控制。

  • Motivation: 解决视频扩散模型中角色一致性、精确相机控制和光照适应性的问题,推动视频生成在虚拟制作中的集成应用。
  • Method: 使用4D高斯泼溅技术重新渲染体积捕捉表演,结合视频重光照模型获得光照变化,在定制化数据上微调最先进的视频扩散模型。
  • Result: 实验显示视频质量提升、个性化精度更高、相机控制和光照适应性增强。
  • Conclusion: 该框架显著提升了视频生成在虚拟制作中的应用能力,支持多主体生成、场景定制和精确控制。

[11] Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait Recognition

Ryo Masumura,Shota Orihashi,Mana Ihori,Tomohiro Tanaka,Naoki Makishima,Taiga Yamane,Naotaka Kawata,Satoshi Suzuki,Taichi Katayama

Main category: cs.CV

TL;DR: 提出了一种联合建模Big Five和HEXACO人格特质的多模态方法,用于从人类行为中自动识别表观人格特征。

  • Motivation: 现有研究主要关注Big Five人格模型,但忽视了HEXACO模型中的诚实-谦逊特质,该特质与攻击性、复仇心等行为相关。同时,两种人格模型在机器学习中的关系尚未明确。
  • Method: 采用联合优化方法同时识别Big Five和HEXACO人格特质,通过多模态人类行为数据进行建模。
  • Result: 在自我介绍视频数据集上的实验表明,该方法能够有效识别Big Five和HEXACO人格特质。
  • Conclusion: 通过联合建模Big Five和HEXACO,提高了多模态人类行为认知能力,为表观人格识别提供了更全面的解决方案。

[12] LOTA: Bit-Planes Guided AI-Generated Image Detection

Hongsong Wang,Renxi Cheng,Yang Zhang,Chaolei Han,Jie Gui

Main category: cs.CV

TL;DR: 提出了一种基于位平面处理的AI生成图像检测方法,通过噪声特征提取和最大梯度补丁选择,在GenImage基准上达到98.9%的平均准确率,比现有方法快近百倍。

  • Motivation: 现有基于重建误差的AI图像检测方法计算成本高且无法捕捉原始图像中的固有噪声特征,需要更高效准确的检测方案。
  • Method: 使用位平面引导的噪声图像生成,结合图像归一化策略;设计最大梯度补丁选择来放大噪声信号;提出轻量级分类头结构。
  • Result: 在GenImage基准上平均准确率达98.9%,提升11.9%;GAN到Diffusion检测准确率超98.2%,Diffusion到GAN超99.2%;提取速度达毫秒级,比现有方法快近百倍。
  • Conclusion: 该方法通过位平面处理和噪声特征提取,实现了高效准确的AI生成图像检测,具有优异的跨生成器泛化能力和实时处理能力。

[13] PIA: Deepfake Detection Using Phoneme-Temporal and Identity-Dynamic Analysis

Soumyya Kanti Datta,Tanvi Ranga,Chengzhe Sun,Siwei Lyu

Main category: cs.CV

TL;DR: 提出了一种名为PIA的多模态音频-视觉框架,通过结合语言、动态面部运动和面部识别线索来检测现代深度伪造视频,解决了传统检测方法对先进生成模型生成的深度伪造识别不足的问题。

  • Motivation: 传统深度伪造检测方法依赖手动设计的音素-视位对齐阈值、基本帧级一致性检查或单模态检测策略,无法有效识别由GAN、扩散模型和神经渲染技术等先进生成模型生成的现代深度伪造,这些技术生成的单帧图像近乎完美但会产生轻微的时间差异。
  • Method: 提出PIA多模态音频-视觉框架,整合音素序列、唇部几何数据和先进的面部身份嵌入,通过语言、动态面部运动和面部识别线索进行综合分析。
  • Result: 该集成方法通过识别多个互补模态中的不一致性,显著提高了对细微深度伪造篡改的检测能力。
  • Conclusion: PIA框架通过多模态分析有效解决了现代深度伪造检测的挑战,代码已开源。

[14] Event Interval Modulation: A Novel Scheme for Event-based Optical Camera Communication

Miu Sumino,Mayu Ishii,Shun Kaizu,Daisuke Hisano,Yu Nakayama

Main category: cs.CV

TL;DR: 提出了一种名为事件间隔调制(EIM)的新型调制方案,专门针对基于事件视觉传感器的光学相机通信系统,通过调制事件之间的间隔来提升传输速度,在室内环境中实现了28 kbps(10米)和8.4 kbps(50米)的传输速率。

  • Motivation: 传统基于帧的OCC系统存在比特率低和处理负载高的问题,而现有的基于事件视觉传感器的OCC系统虽然使用异步操作和高动态范围特性,但尚未充分利用EVS的独特特性,需要专门设计的调制方案。
  • Method: 提出事件间隔调制(EIM)方案,通过调制事件之间的间隔来编码信息;优化EVS参数以针对EIM优化频率响应;实验确定EIM的最大调制阶数;基于获得的参数进行传输实验。
  • Result: 在室内环境中成功实现了28 kbps(10米距离)和8.4 kbps(50米距离)的传输速率,为基于事件的OCC系统设立了新的比特率基准。
  • Conclusion: EIM调制方案能够充分利用事件视觉传感器的独特特性,显著提升基于事件的OCC系统的传输性能,为高速、低延迟的光学相机通信提供了有效的解决方案。

[15] MACE: Mixture-of-Experts Accelerated Coordinate Encoding for Large-Scale Scene Localization and Rendering

Mingkai Liu,Dikai Fan,Haohua Que,Haojia Gao,Xiao Liu,Shuxue Peng,Meixia Lin,Shengyu Gu,Ruicong Ye,Wanli Qiu,Handong Yao,Ruopeng Zhang,Xianliang Huang

Main category: cs.CV

TL;DR: 提出了MACE方法,通过混合专家网络和负载均衡策略,在大规模场景中实现高效定位和高质量渲染。

  • Motivation: 解决大规模场景中定位和渲染的计算成本高、单个网络容量有限的问题。
  • Method: 引入门控网络隐式分类选择子网络,每次推理只激活单个子网络;提出无辅助损失负载均衡策略提升定位精度。
  • Result: 在剑桥测试集上仅用10分钟训练即可获得高质量渲染结果,显著降低成本同时保持更高精度。
  • Conclusion: MACE为大规模场景应用提供了高效的解决方案,在减少成本的同时实现了高精度定位和渲染。

[16] Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization

Liao Shen,Wentao Jiang,Yiran Zhu,Tiezheng Ge,Zhiguo Cao,Bo Zheng

Main category: cs.CV

TL;DR: 提出IPRO方法,通过强化学习优化视频扩散模型,解决图像到视频生成中的人脸身份一致性保持问题。

  • Motivation: 现有图像到视频生成模型在人脸身份一致性保持方面存在困难,特别是当人脸在图像中占比较小且视频中人物表情和动作变化较大时。
  • Method: 基于强化学习的视频扩散框架,使用人脸身份评分器优化扩散模型,通过反向传播奖励信号和KL散度正则化来稳定训练。
  • Result: 在Wan 2.2 I2V模型和内部I2V模型上的广泛实验证明了方法的有效性。
  • Conclusion: IPRO方法能够有效提升图像到视频生成中的人脸身份一致性,且无需引入额外模块或改变模型架构。

[17] Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning

Xiangyu Meng,Zixian Zhang,Zhenghao Zhang,Junchao Liao,Long Qin,Weizhi Wang

Main category: cs.CV

TL;DR: 提出Identity-GRPO方法,通过人类反馈优化多人物身份保持的视频生成,在VACE和Phantom基础上提升多人物动态交互中的身份一致性。

  • Motivation: 现有方法如VACE和Phantom在特定场景视频生成方面有进展,但在多人物动态交互中难以保持身份一致性,这对多角色视频生成至关重要。
  • Method: 构建基于大规模偏好数据集的视频奖励模型,包含人工标注和合成失真数据,使用针对多人物一致性优化的GRPO变体来改进VACE和Phantom。
  • Result: Identity-GRPO在人类一致性指标上比基线方法提升高达18.9%,通过消融研究评估了标注质量和设计选择对策略优化的影响。
  • Conclusion: 该方法为强化学习与个性化视频生成的对齐提供了可行见解,显著提升了多人物视频生成中的身份保持能力。

[18] MatchAttention: Matching the Relative Positions for High-Resolution Cross-View Matching

Tingman Yan,Tao Liu,Xilian Yang,Qunfei Zhao,Zeyang Xia

Main category: cs.CV

TL;DR: 提出MatchAttention机制和MatchDecoder,通过动态匹配相对位置和分层解码器实现高效跨视图匹配,在多个基准测试中达到最先进性能。

  • Motivation: 高分辨率图像的跨视图匹配面临二次复杂度和缺乏显式匹配约束的挑战,现有交叉注意力机制难以有效处理。
  • Method: 提出MatchAttention机制,使用BilinearSoftmax实现连续可微的滑动窗口注意力采样,通过残差连接迭代更新相对位置;设计分层跨视图解码器MatchDecoder;引入门控交叉MatchAttention和一致性约束损失处理遮挡问题。
  • Result: MatchStereo-B在Middlebury基准测试中平均误差排名第一,KITTI分辨率推理仅需29ms;MatchStereo-T仅用3GB GPU内存在0.1秒内处理4K UHD图像;在KITTI 2012、KITTI 2015、ETH3D和Spring flow数据集上均达到最先进性能。
  • Conclusion: 该方法结合高精度和低计算复杂度,使实时、高分辨率、高精度的跨视图匹配成为可能。

[19] Experimental Demonstration of Event-based Optical Camera Communication in Long-Range Outdoor Environment

Miu Sumino,Mayu Ishii,Shun Kaizu,Daisuke Hisano,Yu Nakayama

Main category: cs.CV

TL;DR: 提出了一种基于事件视觉传感器的光学相机通信系统鲁棒解调方案,结合OOK、切换解调器和数字锁相环,在室外实验中首次实现了200米-60kbps和400米-30kbps下BER<10^{-3}的性能。

  • Motivation: 解决光学相机通信系统在长距离传输中的鲁棒解调问题,提高通信距离和数据速率。
  • Method: 使用事件视觉传感器,结合OOK调制、切换解调器和数字锁相环技术。
  • Result: 在室外实验中,首次实现了200米距离60kbps和400米距离30kbps传输速率下,误码率低于10^{-3}的性能。
  • Conclusion: 该方案显著提升了光学相机通信系统的传输距离和可靠性,为长距离视觉通信提供了有效解决方案。

[20] GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering

Alexander Valverde,Brian Xu,Yuyin Zhou,Meng Xu,Hongyun Wang

Main category: cs.CV

TL;DR: GauSSmart是一种混合2D-3D方法,通过整合2D基础模型(如DINO)的特征监督和语义先验,增强高斯泼溅的场景重建质量,特别是在稀疏区域和细节保留方面。

  • Motivation: 高斯泼溅在大规模数据集上表现良好,但在稀疏覆盖区域难以捕捉细节和保持真实感,主要受限于稀疏3D训练数据的固有局限性。
  • Method: 提出GauSSmart混合方法,整合2D计算机视觉技术(凸滤波、语义特征监督),利用2D分割先验和高维特征嵌入指导高斯泼溅的密度化和细化。
  • Result: 在三个数据集上的验证表明,GauSSmart在大多数评估场景中持续优于现有高斯泼溅方法。
  • Conclusion: 混合2D-3D方法具有显著潜力,通过将2D基础模型与3D重建管道有机结合,能够克服各自方法的固有局限性。

[21] CLEAR: Causal Learning Framework For Robust Histopathology Tumor Detection Under Out-Of-Distribution Shifts

Kieu-Anh Truong Thi,Huy-Hieu Pham,Duc-Trong Le

Main category: cs.CV

TL;DR: 提出基于因果推断的框架来解决组织病理学中的域偏移问题,通过前门准则利用语义特征并减轻混杂因素的影响,在CAMELYON17和私有数据集上取得显著性能提升。

  • Motivation: 组织病理学中的域偏移(由采集过程或数据源差异引起)严重影响了深度学习模型的泛化能力。现有方法主要依赖统计相关性建模,但忽视了因果关系。
  • Method: 设计基于因果推断的框架,通过前门准则实现,创建包含中介变量和观察组织切片的转换策略,明确处理混杂因素。
  • Result: 在CAMELYON17数据集和私有组织病理学数据集上验证,在未见域上获得一致性能提升,相比现有基线方法提升高达7%。
  • Conclusion: 因果推断是解决组织病理学图像分析中域偏移问题的有力工具,具有重要应用潜力。

[22] Watermarking for Factuality: Guiding Vision-Language Models Toward Truth via Tri-layer Contrastive Decoding

Kyungryul Back,Seongbeom Park,Milim Kim,Mincheol Kwon,SangHyeok Lee,Hyunyoung Lee,Junhee Cho,Seunghyun Park,Jinkyu Kim

Main category: cs.CV

TL;DR: 提出一种无需训练的三层对比解码方法,通过选择成熟层和业余层、使用水印相关问题识别视觉接地层,来减少大型视觉语言模型的幻觉问题。

  • Motivation: 大型视觉语言模型在多种多模态任务中表现出色,但仍容易产生幻觉,过度依赖单一模态或记忆训练数据而缺乏视觉基础。
  • Method: 训练免费的三层对比解码加水印方法:选择解码层中的成熟层和业余层;使用水印相关问题识别视觉接地层;应用三层对比解码生成最终输出。
  • Result: 在POPE、MME和AMBER等公开基准测试中,该方法在减少LVLMs幻觉方面达到最先进性能,生成更视觉接地的响应。
  • Conclusion: 提出的三层对比解码方法能有效减少大型视觉语言模型的幻觉问题,提高输出的视觉基础性。

[23] A Multi-domain Image Translative Diffusion StyleGAN for Iris Presentation Attack Detection

Shivangi Yadav,Arun Ross

Main category: cs.CV

TL;DR: 提出MID-StyleGAN框架,结合扩散模型和GAN生成多领域合成眼部图像,解决虹膜生物识别中呈现攻击检测的数据稀缺问题。

  • Motivation: 虹膜生物识别系统易受呈现攻击,但缺乏足够的训练和评估数据集,因为构建和成像呈现攻击存在困难。
  • Method: 使用多领域图像转换扩散StyleGAN,结合扩散模型和GAN的优势,通过多领域架构在不同领域间转换,采用针对眼部数据的自适应损失函数。
  • Result: 在LivDet2020数据集上,1%误检率下的真检测率从93.41%提升到98.72%,显著提升了PAD系统性能。
  • Conclusion: MID-StyleGAN能生成高质量合成眼部图像,有效解决虹膜和眼部生物识别中的数据稀缺问题,为PAD系统提供可扩展解决方案。

[24] Vision-Centric Activation and Coordination for Multimodal Large Language Models

Yunnan Wang,Fan Lu,Kecheng Zheng,Ziyuan Huang,Ziqiang Li,Wenjun Zeng,Xin Jin

Main category: cs.CV

TL;DR: VaCo通过视觉中心激活和协调机制,将多个视觉基础模型的特征整合到多模态大语言模型中,解决了传统MLLMs仅关注文本token预测而忽略视觉关键信息的问题。

  • Motivation: 主流多模态大语言模型仅通过文本token的下一个token预测进行监督,忽略了视觉中心信息,这限制了模型的视觉分析能力。
  • Method: 引入可学习的模块化任务查询和视觉对齐层,在多个视觉基础模型的监督下激活特定视觉信号,并使用令牌网关掩码协调不同视觉基础模型之间的表示冲突。
  • Result: 大量实验表明,VaCo显著提升了不同MLLMs在各种基准测试上的性能,展示了其在视觉理解方面的卓越能力。
  • Conclusion: VaCo通过视觉中心激活和协调机制有效提升了多模态大语言模型的视觉理解能力,为MLLMs的发展提供了新的优化方向。

[25] Leveraging Cycle-Consistent Anchor Points for Self-Supervised RGB-D Registration

Siddharth Tourani,Jayaram Reddy,Sarvesh Thakur,K Madhava Krishna,Muhammad Haris Khan,N Dinesh Reddy

Main category: cs.CV

TL;DR: 提出了一种基于循环一致性关键点和GRU姿态块的RGB-D自监督配准方法,在ScanNet和3DMatch数据集上超越了先前方法

  • Motivation: 随着消费级深度相机的普及,大量未标记的RGB-D数据可用,需要探索如何利用这些数据进行场景几何推理,而传统方法主要依赖几何和基于特征的相似性
  • Method: 使用循环一致性关键点作为显著点来增强空间一致性约束,并引入结合GRU循环单元和变换同步的新颖姿态块,融合历史和多视图数据
  • Result: 在ScanNet和3DMatch数据集上超越了先前的自监督配准方法,甚至优于一些较旧的监督方法,组件集成到现有方法中也显示出有效性
  • Conclusion: 提出的循环一致性关键点和GRU姿态块方法为RGB-D配准提供了有效的自监督解决方案,显著提升了配准精度

[26] Spatial Preference Rewarding for MLLMs Spatial Understanding

Han Qiu,Peng Gao,Lewei Lu,Xiaoqin Zhang,Ling Shao,Shijian Lu

Main category: cs.CV

TL;DR: SPR方法通过空间偏好奖励增强多模态大语言模型的空间理解能力,奖励具有精确定位的详细响应,而非模糊或不准确的响应。

  • Motivation: 现有MLLMs在细粒度空间感知能力上存在不足,如生成详细区域描述或精确定位物体,且无法满足用户对细粒度空间理解的需求,主要原因是现有方法仅关注对预标注指令数据的建模,缺乏对MLLMs实际响应的直接监督。
  • Method: SPR通过语义和定位评分全面评估MLLM生成描述的质量,将定位精度最佳的精炼描述与得分最低的初始描述配对进行直接偏好优化,增强与视觉输入的细粒度对齐。
  • Result: 在标准参考和定位基准测试上的广泛实验表明,SPR能有效提升MLLM空间理解能力,且训练开销极小。
  • Conclusion: SPR方法通过空间偏好奖励机制,成功提升了多模态大语言模型在细粒度空间理解方面的能力,实现了更好的视觉输入对齐。

[27] DOS: Directional Object Separation in Text Embeddings for Multi-Object Image Generation

Dongnam Byun,Jungwon Park,Jumgmin Ko,Changin Choi,Wonjong Rhee

Main category: cs.CV

TL;DR: DOS方法通过修改CLIP文本嵌入来改善多对象图像生成,解决了对象遗漏和混合问题,在人类评估中显著优于其他方法。

  • Motivation: 现有文本到图像生成模型在处理多对象提示时经常出现对象遗漏或对象混合的问题,特别是在相似形状、相似纹理、不同背景偏差和多个对象等四种场景下。
  • Method: 提出DOS方法,基于CLIP嵌入的两个关键观察,在将文本嵌入传入文本到图像模型之前修改三种类型的CLIP文本嵌入。
  • Result: DOS持续提高了多对象图像生成的成功率并减少了对象混合。在人类评估中,DOS在四个基准测试中获得了比其他四种竞争方法多26.24%-43.04%的投票。
  • Conclusion: DOS是一个实用且有效的解决方案,能够显著改善多对象图像生成的质量。

[28] DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Danish Ali,Ajmal Mian,Naveed Akhtar,Ghulam Mubashar Hassan

Main category: cs.CV

TL;DR: 提出DRBD-Mamba模型,一种高效3D脑肿瘤分割方法,通过双分辨率双向Mamba架构减少计算开销,并在BraTS2023数据集上取得性能提升和15倍效率改进。

  • Motivation: 解决Mamba模型在脑肿瘤分割中计算开销大、多轴特征扫描效率低的问题,并填补BraTS数据分区鲁棒性评估的空白。
  • Method: 使用空间填充曲线进行3D到1D特征映射,提出门控融合模块自适应整合前后向上下文,采用量化块离散化特征,并建立五个系统性折叠进行严格评估。
  • Result: 在BraTS2023测试集上,全肿瘤、肿瘤核心和增强肿瘤的Dice分别提升0.10%、1.75%和0.93%;在系统性五折评估中,肿瘤核心和增强肿瘤平均Dice分别提升0.86%和1.45%,同时实现15倍效率提升。
  • Conclusion: DRBD-Mamba模型在保持高分割精度的同时显著提升计算效率,证明了其在脑肿瘤分割中的鲁棒性和计算优势。

[29] BoardVision: Deployment-ready and Robust Motherboard Defect Detection with YOLO+Faster-RCNN Ensemble

Brandon Hill,Kma Solaiman

Main category: cs.CV

TL;DR: BoardVision是一个可复现的框架,用于检测主板组装级缺陷,通过集成YOLOv7和Faster R-CNN模型,并提出了轻量级集成方法CTV Voter来平衡精度和召回率。

  • Motivation: 在电子制造中,主板缺陷检测对确保可靠性至关重要。现有研究主要针对裸板或线路级缺陷,而组装级全主板检测研究不足。
  • Method: 提出了BoardVision框架,基准测试了YOLOv7和Faster R-CNN两种检测器,并设计了轻量级集成方法CTV Voter,通过可解释规则平衡精度和召回率。
  • Result: 在MiracleFactory主板数据集上进行了系统比较,YOLO在精度上表现优异但召回率不足,Faster R-CNN则相反。CTV Voter方法有效平衡了性能。
  • Conclusion: 展示了计算机视觉技术从基准结果向实际主板制造质量保证的过渡,并发布了可部署的GUI驱动检测工具。

[30] DCMIL: A Progressive Representation Learning Model of Whole Slide Images for Cancer Prognosis Analysis

Chao Tu,Kun Huang,Jie Zhang,Qianjin Feng,Yu Zhang,Zhenyuan Ning

Main category: cs.CV

TL;DR: 提出DCMIL模型,通过双课程对比多实例学习处理全切片图像,无需密集标注即可预测癌症预后,在12种癌症类型上表现优于现有方法。

  • Motivation: 计算病理学面临千兆像素输入的算力瓶颈和密集标注稀缺的问题,现有方法常忽略多放大倍率的细粒度信息和肿瘤微环境变化。
  • Method: 采用从易到难的渐进表示学习,结合双课程对比多实例学习,直接处理全切片图像生成预后预测。
  • Result: 在12种癌症类型(5,954患者,1254万图块)上验证,DCMIL优于标准WSI预后模型,能识别细粒度预后相关区域并提供不确定性估计。
  • Conclusion: DCMIL能有效处理WSI图像,识别形态学差异,具有生成新生物学见解的潜力,所有代码已开源。

[31] Real-Time Neural Video Compression with Unified Intra and Inter Coding

Hui Xiang,Yifan Bian,Li Li,Jingran Wu,Xianguo Zhang,Dong Liu

Main category: cs.CV

TL;DR: 提出了一种统一的神经视频压缩框架,结合了帧内和帧间编码,通过自适应编码和双向帧间冗余利用,显著提升了压缩效率和稳定性。

  • Motivation: 现有神经视频压缩方案在处理遮挡、新内容、帧间误差传播等方面存在不足,需要借鉴传统视频编码中的帧内编码工具来消除这些限制。
  • Method: 设计了统一的帧内/帧间编码框架,使用单一模型自适应执行编码;提出同时双帧压缩设计,利用前向和后向帧间冗余。
  • Result: 相比DCVC-RT平均降低10.7%的BD-rate,提供更稳定的比特率和每帧质量,同时保持实时编码/解码性能。
  • Conclusion: 该框架有效解决了现有神经视频压缩的局限性,在压缩效率、稳定性和实时性方面都取得了显著提升。

[32] Structured Universal Adversarial Attacks on Object Detection for Video Sequences

Sven Jacob,Weijia Shao,Gjergji Kasneci

Main category: cs.CV

TL;DR: 提出了一种针对视频目标检测的最小失真通用对抗攻击方法,利用核范数正则化生成集中在背景的结构化扰动,采用自适应乐观指数梯度方法进行高效优化。

  • Motivation: 基于深度学习的视频目标检测器在安全关键应用中至关重要,但它们仍然容易受到对抗攻击,特别是涉及通用扰动的攻击。
  • Method: 使用核范数正则化促进背景集中的结构化扰动,并采用自适应乐观指数梯度方法进行高效优化。
  • Result: 所提出的攻击在有效性上优于低秩投影梯度下降和Frank-Wolfe攻击,同时保持高隐蔽性。
  • Conclusion: 该方法为视频目标检测提供了一种高效且隐蔽的通用对抗攻击方案,代码和数据已公开。

[33] Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Youwan Mahé,Elise Bannier,Stéphanie Leplaideur,Elisa Fromont,Francesca Galassi

Main category: cs.CV

TL;DR: 本文对2018-2025年间49项研究进行了系统性综述,分析了无监督深度生成模型在神经影像异常检测中的应用,包括自编码器、变分自编码器、生成对抗网络和去噪扩散模型等。

  • Motivation: 监督方法需要大量体素级标注数据且仅适用于特征明确的病理,而无监督深度生成模型仅需健康数据训练,能够识别与学习到的正常脑结构偏离的异常,特别适用于罕见或异质性疾病。
  • Method: 采用PRISMA指导的范围综述方法,系统分析49项研究,涵盖脑MRI和CT在肿瘤、中风、多发性硬化、小血管病等病理中的应用,比较性能指标和架构设计选择。
  • Result: 生成模型在大病灶检测中表现良好,在处理更细微异常方面取得进展,关键优势是能够生成可解释的伪健康重建,在标注数据稀缺时特别有价值。
  • Conclusion: 生成模型为异常检测提供了有前景的方向,支持半监督学习、新成像生物标志物发现以及统一端到端框架内的疾病内和跨疾病偏差映射。未来工作应优先考虑解剖感知建模、基础模型开发、任务适当评估指标和严格临床验证。

[34] Pruning Overparameterized Multi-Task Networks for Degraded Web Image Restoration

Thomas Katraouras,Dimitrios Rafailidis

Main category: cs.CV

TL;DR: 提出了一种压缩多任务图像恢复模型的方法MIR-L,通过迭代剪枝策略发现高度稀疏的子网络,仅保留10%的可训练参数同时保持高性能。

  • Motivation: 多任务图像恢复模型虽然能同时处理多种图像退化问题,但参数量过大导致计算效率低下,需要找到既能保持性能又减少参数的方法。
  • Method: 使用迭代剪枝策略,通过多轮移除低幅值权重,同时将剩余权重重置为原始初始化,以发现高性能的稀疏子网络。
  • Result: 在去雨、去雾和去噪任务的基准数据集上,MIR-L仅保留10%的可训练参数,同时保持了高水平的图像恢复性能。
  • Conclusion: 提出的MIR-L模型通过有效的稀疏化方法,在显著减少参数量的情况下仍能维持或超越现有最先进模型的性能,为多任务图像恢复提供了高效解决方案。

[35] Grazing Detection using Deep Learning and Sentinel-2 Time Series Data

Aleksis Pirinen,Delia Fano Yela,Smita Chakraborty,Erik Källman

Main category: cs.CV

TL;DR: 该研究使用Sentinel-2卫星时间序列数据,通过CNN-LSTM集成模型检测牧场放牧活动,在验证集上平均F1得分为77%,放牧牧场召回率达90%。

  • Motivation: 放牧活动同时影响农业生产和生物多样性,但目前缺乏可扩展的放牧监测方法。研究旨在利用免费卫星数据开发可靠的放牧检测系统,以指导保护性土地利用的合规检查。
  • Method: 使用Sentinel-2 L2A时间序列影像(4-10月),为每个多边形定义的牧场边界进行二元预测(放牧/未放牧)。训练CNN-LSTM集成模型处理多时相反射特征。
  • Result: 模型在五个验证分割上的平均F1得分为77%,放牧牧场召回率达到90%。在操作层面,如果检查员每年最多只能访问4%的场地,使用模型预测优先检查未放牧场地,比随机检查能多发现17.2倍确认未放牧的场地。
  • Conclusion: 结果表明,粗分辨率的免费卫星数据能够可靠地指导检查资源分配,用于保护性土地利用的合规监管。代码和模型已公开。

[36] Vision Mamba for Permeability Prediction of Porous Media

Ali Kashefi,Tapan Mukerji

Main category: cs.CV

TL;DR: 该论文首次将Vision Mamba作为骨干网络用于三维多孔介质渗透率预测,相比ViT和CNN在计算效率和内存使用方面具有优势。

  • Motivation: Vision Mamba相比Vision Transformers具有线性而非二次方的网络规模扩展特性,计算和内存效率更高,且比传统CNN需要更少的可训练参数。
  • Method: 使用Vision Mamba作为骨干网络构建神经网络,用于三维多孔介质渗透率预测,并与ViT和CNN模型进行性能比较,同时进行消融研究评估各组件对准确性的影响。
  • Result: 在实际应用中验证了Vision Mamba相比ViT和CNN在三维多孔介质渗透率预测中的优势,包括计算效率和内存效率的提升。
  • Conclusion: 提出的框架有潜力集成到大型视觉模型中,用Vision Mamba替代ViT,源代码已公开以促进可重复性和进一步研究。

[37] Real-Time Surgical Instrument Defect Detection via Non-Destructive Testing

Qurrat Ul Ain,Atif Aftab Ahmed Jilani,Zunaira Shafqat,Nigar Azhar Butt

Main category: cs.CV

TL;DR: SurgScan是一个基于AI的手术器械缺陷检测框架,使用YOLOv8实时分类缺陷,在102,876张高分辨率图像数据集上训练,达到99.3%的准确率和4.2-5.8毫秒的实时推理速度。

  • Motivation: 手术器械缺陷会严重影响无菌性、机械完整性和患者安全,增加手术并发症风险。目前的质量控制主要依赖人工检查,容易出错且不一致。
  • Method: 使用YOLOv8架构,在包含11种器械类型和5种主要缺陷类别的高分辨率数据集上进行训练,采用对比度增强预处理技术。
  • Result: 与最先进的CNN架构相比,SurgScan达到最高准确率99.3%,实时推理速度4.2-5.8毫秒/图像,统计显示对比度增强预处理显著提升缺陷检测性能。
  • Conclusion: SurgScan提供了一个可扩展、经济高效的AI解决方案,用于自动化质量控制,减少对人工检查的依赖,同时确保符合ISO 13485和FDA标准,为医疗制造中的缺陷检测开辟了新途径。

[38] Noise Projection: Closing the Prompt-Agnostic Gap Behind Text-to-Image Misalignment in Diffusion Models

Yunze Tong,Didi Zhu,Zijing Hu,Jinluan Yang,Ziyu Zhao

Main category: cs.CV

TL;DR: 提出了一种噪声投影器,通过文本条件优化将初始噪声映射到更适合预训练Stable Diffusion模型的提示感知噪声,改善文本-图像对齐问题。

  • Motivation: 解决文本到图像生成中的训练-推理不匹配问题:训练时噪声来自提示特定子空间,而推理时噪声来自提示无关的高斯先验,导致图像与提示对齐不佳。
  • Method: 设计噪声投影器,基于提示嵌入将噪声映射到提示感知版本;通过视觉语言模型获取反馈,蒸馏到奖励模型,使用准直接偏好优化优化投影器。
  • Result: 实验表明该方法显著改善了多样提示下的文本-图像对齐效果,且推理成本小,无需多样本选择。
  • Conclusion: 提出的提示感知噪声投影框架有效解决了训练-推理不匹配问题,无需修改SD模型或参考图像,提升了生成质量。

[39] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Cheng Cui,Ting Sun,Suyin Liang,Tingquan Gao,Zelun Zhang,Jiaxuan Liu,Xueqing Wang,Changda Zhou,Hongen Liu,Manhui Lin,Yue Zhang,Yubo Zhang,Handong Zheng,Jing Zhang,Jun Zhang,Yi Liu,Dianhai Yu,Yanjun Ma

Main category: cs.CV

TL;DR: PaddleOCR-VL是一个用于文档解析的先进且资源高效的模型,其核心是PaddleOCR-VL-0.9B视觉语言模型,支持109种语言,在文档解析和元素识别方面达到SOTA性能。

  • Motivation: 开发一个既能准确识别复杂文档元素(如文本、表格、公式、图表)又具有资源效率的文档解析模型,以适应实际部署需求。
  • Method: 采用NaViT风格的动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型集成,构建紧凑而强大的视觉语言模型。
  • Result: 在公共基准和内部基准的全面评估中,PaddleOCR-VL在页面级文档解析和元素级识别方面均达到SOTA性能,显著优于现有解决方案,并具有快速推理速度。
  • Conclusion: PaddleOCR-VL在性能、效率和实用性方面表现出色,非常适合在实际场景中部署使用。

[40] Towards Generalist Intelligence in Dentistry: Vision Foundation Models for Oral and Maxillofacial Radiology

Xinrui Huang,Fan Xiao,Dongming He,Anqi Gao,Dandan Li,Xiaofan Zhang,Shaoting Zhang,Xudong Wang

Main category: cs.CV

TL;DR: 提出了DentVFM,这是首个专为牙科设计的视觉基础模型系列,通过自监督学习在160万张多模态牙科影像上训练,在多种牙科任务中表现出优异的泛化能力。

  • Motivation: 解决牙科AI系统受限于单模态、任务特定设计和依赖昂贵标注数据的问题,提升在多样化临床场景中的泛化能力。
  • Method: 基于Vision Transformer架构开发2D和3D变体,使用自监督学习在DentVista数据集(约160万张多模态牙科影像)上训练,并引入DentBench综合基准测试。
  • Result: DentVFM在疾病诊断、治疗分析、生物标志物识别和解剖标志检测分割等任务中显著优于监督、自监督和弱监督基线方法,在跨模态诊断中表现优于经验丰富的牙医。
  • Conclusion: DentVFM为牙科AI设立了新范式,提供了可扩展、适应性强且标签效率高的模型,有助于改善智能牙科医疗并解决全球口腔医疗的关键缺口。

[41] Acquisition of interpretable domain information during brain MR image harmonization for content-based image retrieval

Keima Abe,Hayato Muraki,Shuhei Tomoshige,Kenichi Oishi,Hitoshi Iyatomi

Main category: cs.CV

TL;DR: PL-SE-ADA是一个用于医学图像领域协调和可解释表示学习的框架,通过解耦域不变和域特定特征,在保持疾病相关信息的同时提高模型可解释性。

  • Motivation: 医学图像(如MR扫描)存在跨成像站点的域偏移问题,这会降低机器学习在疾病分类等任务中的性能。现有方法虽然效果好但缺乏可解释性,而可解释性在医学应用中至关重要。
  • Method: 提出PL-SE-ADA框架,包含两个编码器分别提取域不变特征和域特定特征,一个解码器重构图像,以及一个域预测器。通过对抗训练和图像重构,确保特征解耦和模型可解释性。
  • Result: 与现有方法相比,PL-SE-ADA在图像重构、疾病分类和域识别方面达到同等或更好的性能,并能可视化域独立脑特征和域特定成分。
  • Conclusion: PL-SE-ADA不仅实现了有效的域协调,还提供了高可解释性,能够可视化域不变和域特定特征,为医学图像分析提供了更可靠的解决方案。

[42] Exploring Image Representation with Decoupled Classical Visual Descriptors

Chenyuan Qu,Hao Chen,Jianbo Jiao

Main category: cs.CV

TL;DR: VisualSplit是一个将图像分解为解耦的经典视觉描述符的框架,通过重建驱动的预训练方案学习可解释的视觉表示,并在图像生成和编辑等任务中实现有效的属性控制。

  • Motivation: 深度学习内部表示不透明难以解释,而经典视觉描述符(如边缘、颜色、强度分布)对人类直观可理解。研究现代学习能否从这些经典线索中受益。
  • Method: 提出VisualSplit框架,将图像显式分解为解耦的经典描述符,每个作为视觉知识的独立但互补组件。采用重建驱动的预训练方案来学习每个视觉描述符的本质。
  • Result: 通过显式分解视觉属性,该方法在图像生成和编辑等高级视觉任务中实现了有效的属性控制,超越了传统的分类和分割任务。
  • Conclusion: 这种新的学习方法在视觉理解方面表现出有效性,证明了现代学习可以从经典视觉线索中受益。

[43] Exploring Cross-Modal Flows for Few-Shot Learning

Ziqi Jiang,Yanghao Wang,Long Chen

Main category: cs.CV

TL;DR: 提出Flow Matching Alignment (FMA)方法,通过多步调整实现跨模态特征对齐,相比传统单步PEFT方法在复杂数据集上表现更优。

  • Motivation: 现有参数高效微调(PEFT)方法都是单步调整,对于特征高度纠缠的复杂数据集不够有效,需要多步调整能力。
  • Method: 学习跨模态速度场,使用固定耦合策略确保类别对应,噪声增强策略缓解数据稀缺,早停求解器提高效率和精度。
  • Result: 在多个基准测试和骨干网络上均取得显著性能提升,特别是在挑战性数据集上表现突出。
  • Conclusion: FMA通过多步校正能力实现了更精确和鲁棒的跨模态对齐,优于传统单步PEFT方法。

[44] Consistent text-to-image generation via scene de-contextualization

Song Tang,Peihao Gong,Kunyu Li,Kai Guo,Boyu Wang,Mao Ye,Jianwei Zhang,Xiatian Zhu

Main category: cs.CV

TL;DR: 提出了一种名为Scene De-Contextualization (SDeC)的训练无关提示嵌入编辑方法,通过抑制文本到图像生成中固有的场景-身份相关性来解决身份漂移问题。

  • Motivation: 解决文本到图像生成中的身份漂移问题,特别是针对现有方法需要预先知道所有目标场景的不现实假设。发现身份漂移的主要来源是模型训练过程中自然形成的场景与身份之间的相关性。
  • Method: 提出SDeC方法,通过量化SVD方向稳定性来自适应重加权相应特征值,识别并抑制身份提示嵌入中的潜在场景-身份相关性。该方法无需训练,支持单场景使用。
  • Result: 实验表明SDeC显著增强了身份保持能力,同时保持了场景多样性。
  • Conclusion: SDeC是一种高效、灵活且通用的解决方案,特别适合现实世界应用,其中预先知道所有目标场景通常不可行或随时间变化。

[45] Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video

Yulin Zhang,Cheng Shi,Yang Wang,Sibei Yang

Main category: cs.CV

TL;DR: 提出一个主动式AI助手,能够通过流式视频输入理解、预测和响应动态事件,在适当时刻主动回答多样化问题,同时保持感知与推理的同步。

  • Motivation: 构建能够在人类环境中主动运作的AI系统,超越被动观察,实现主动理解、预测和响应动态事件的能力。
  • Method: 提出包含数据引擎、多阶段训练策略和主动动态压缩技术的综合技术流程,并引入ESTP-Bench基准和ESTP-F1评估指标。
  • Result: 所提出的模型在多个在线和离线基准测试中优于多个基线方法,有效解决了主动一致性、及时响应性和同步效率等关键属性。
  • Conclusion: 该工作为实现主动式AI助手提供了有效的技术框架和评估方法,在动态环境中展现出优越的性能。

[46] BalanceGS: Algorithm-System Co-design for Efficient 3D Gaussian Splatting Training on GPU

Junyi Wu,Jiaming Xu,Jinhao Li,Yongkang Zhou,Jiayi Pan,Xingyang Li,Guohao Dai

Main category: cs.CV

TL;DR: BalanceGS是一个算法-系统协同设计的3D高斯溅射训练优化方法,通过密度控制、自适应采样和内存访问优化,在保持质量的同时实现1.44倍训练加速。

  • Motivation: 传统3DGS训练存在三个关键效率问题:高斯密度分配不均、计算负载不平衡和内存访问碎片化。
  • Method: 算法层面采用启发式负载敏感高斯密度控制;系统层面使用相似性高斯采样和合并;映射层面采用重排序内存访问策略。
  • Result: 在NVIDIA A100 GPU上实现1.44倍训练加速,质量损失可忽略不计。
  • Conclusion: BalanceGS通过算法-系统协同设计有效解决了3DGS训练效率问题,显著提升了训练速度。

[47] CALM-Net: Curvature-Aware LiDAR Point Cloud-based Multi-Branch Neural Network for Vehicle Re-Identification

Dongwook Lee,Sol Han,Jinwhan Kim

Main category: cs.CV

TL;DR: CALM-Net是一种基于LiDAR点云的曲率感知多分支神经网络,用于车辆重识别,通过集成边缘卷积、点注意力和曲率嵌入来学习区分性特征。

  • Motivation: 解决从三维点云中学习区分性和互补特征以区分不同车辆的挑战。
  • Method: 采用多分支架构,集成边缘卷积、点注意力和曲率嵌入机制,表征点云中的局部表面变化。
  • Result: 在nuScenes数据集上的实验表明,CALM-Net相比最强基线平均重识别准确率提升约1.97%。
  • Conclusion: 将曲率信息整合到深度学习架构中有效,多分支特征学习对基于LiDAR点云的车辆重识别有益。

[48] Talking Points: Describing and Localizing Pixels

Matan Rusanovsky,Shimon Malnick,Shai Avidan

Main category: cs.CV

TL;DR: 提出了一个用于像素级关键点定位的双向框架,包含点描述器和点定位器两个组件,能够通过自然语言实现精确的关键点理解。

  • Motivation: 现有的视觉语言模型仅限于对象级或区域级定位,缺乏通过自然语言进行像素级关键点理解的能力。
  • Method: 框架包含点描述器(生成关键点的上下文描述)和点定位器(从描述回归像素坐标),使用合成的LlamaPointInPart数据集进行训练,并通过GRPO优化描述器。
  • Result: 在LlamaPointInPart数据集上的实验表明,该方法相比基线模型具有更优越的性能。
  • Conclusion: 该双向框架为关键点引导的图像理解和语言引导的精确定位提供了新的可能性。

[49] STANCE: Motion Coherent Video Generation Via Sparse-to-Dense Anchored Encoding

Zhifei Chen,Tianshuo Xu,Leyi Wu,Luozhou Wang,Dongyu Yan,Zihan You,Wenting Luo,Guo Zhang,Yingcong Chen

Main category: cs.CV

TL;DR: STANCE是一个图像到视频生成框架,通过实例线索和密集RoPE解决视频生成中的运动一致性问题,无需逐帧轨迹脚本。

  • Motivation: 当前视频生成在保持物体运动连贯性和交互方面存在困难,主要瓶颈包括:人类提供的运动提示在编码后有效token过少,以及单头优化中外观优先于时间一致性。
  • Method: 1. 实例线索:将稀疏的用户可编辑提示转换为密集的2.5D运动场;2. 密集RoPE:在token空间中保持线索显著性;3. 联合RGB+辅助图预测,分离结构和外观处理。
  • Result: 该方法减少了深度模糊性,稳定了优化过程,提高了时间连贯性。
  • Conclusion: STANCE通过简单的组件有效解决了视频生成中的运动一致性问题,无需复杂的逐帧轨迹规划。

[50] Hierarchical Re-Classification: Combining Animal Classification Models with Vision Transformers

Hugo Markoff,Jevgenijs Galaktionovs

Main category: cs.CV

TL;DR: 提出了一种用于动物检测平台的分层重分类系统,结合SpeciesNet EfficientNetV2-M预测与CLIP嵌入和度量学习,将高层级分类标签细化到物种级别识别。

  • Motivation: 现有动物分类模型如SpeciesNet虽然能预测数千个物种,但采用保守的汇总策略,导致许多动物只能标记在高层级分类而非物种级别。
  • Method: 五阶段流水线:高置信度接受、鸟类覆盖、质心构建、三元组损失度量学习和自适应余弦距离评分,结合SpeciesNet预测与CLIP嵌入。
  • Result: 在LILA BC Desert Lion Conservation数据集上,从"空白"和"动物"标签中恢复了761个鸟类检测,重新分类了456个标记为动物、哺乳动物或空白的检测,准确率达96.5%,实现了64.9%的物种级别识别。
  • Conclusion: 该分层重分类系统能有效提升动物检测平台从高层级分类到物种级别识别的能力,具有较高的准确性和实用性。

[51] Zero-Shot Wildlife Sorting Using Vision Transformers: Evaluating Clustering and Continuous Similarity Ordering

Hugo Markoff,Jevgenijs Galaktionovs

Main category: cs.CV

TL;DR: 评估零样本方法在相机陷阱图像分析中的应用,使用自监督视觉变换器进行无监督聚类和相似性排序,在动物检测平台上实现了高效的生物多样性监测。

  • Motivation: 相机陷阱生成数百万张野生动物图像,但许多数据集包含现有分类器未覆盖的物种,需要零样本方法来组织未标记的野生动物图像。
  • Method: 比较无监督聚类方法(DBSCAN、GMM)在三种架构(CLIP、DINOv2、MegaDescriptor)上的表现,结合降维技术(PCA、UMAP),并通过t-SNE投影实现连续1D相似性排序。
  • Result: 在5个物种测试集上,DINOv2与UMAP和GMM组合达到88.6%准确率(宏F1=0.874),1D排序在哺乳动物和鸟类上达到88.2%一致性,在鱼类上达到95.2%一致性。
  • Conclusion: 基于这些发现,将连续相似性排序部署到生产环境中,能够快速进行探索性分析并加速生物多样性监测的手动标注工作流程。

[52] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

Yuyang Hong,Jiaqi Gu,Qi Yang,Lubin Fan,Yue Wu,Ying Wang,Kun Ding,Shiming Xiang,Jieping Ye

Main category: cs.CV

TL;DR: 提出Wiki-PRF三阶段方法,通过处理、检索和过滤阶段改进知识库视觉问答任务,结合强化学习训练提升模型性能,在基准数据集上取得显著改进。

  • Motivation: 解决基于知识的视觉问答任务中多模态查询质量差和检索结果相关性不足的问题,提升视觉语言模型整合视觉理解与外部知识检索的能力。
  • Method: 提出三阶段Wiki-PRF方法:处理阶段动态调用视觉工具提取精确多模态信息;检索阶段整合视觉和文本特征进行多模态知识检索;过滤阶段对检索结果进行相关性过滤和集中。使用强化学习训练视觉语言模型,以答案准确性和格式一致性作为奖励信号。
  • Result: 在E-VQA和InfoSeek基准数据集上分别取得36.0和42.8的显著改进,达到了最先进的性能水平。
  • Conclusion: Wiki-PRF方法通过三阶段处理和多模态检索增强,结合强化学习训练,有效提升了知识库视觉问答任务的性能,证明了该方法在处理复杂多模态查询和知识检索方面的有效性。

[53] Shot2Tactic-Caption: Multi-Scale Captioning of Badminton Videos for Tactical Understanding

Ning Ding,Keisuke Fujii,Toru Tamaki

Main category: cs.CV

TL;DR: 提出了Shot2Tactic-Caption框架,用于羽毛球视频的语义和时间多尺度字幕生成,能够同时生成描述单个动作的击球级字幕和捕捉战术执行过程的战术级字幕。

  • Motivation: 羽毛球战术理解不仅需要解释单个动作,还需要理解战术如何随时间动态执行,现有方法缺乏对战术执行过程的描述能力。
  • Method: 采用双分支设计,包含视觉编码器、时空Transformer编码器和基于Transformer的解码器。引入战术单元检测器识别有效战术单元、类型和状态,并使用击球级提示引导机制将预测的战术类型和状态作为提示注入解码器。
  • Result: 实验结果表明该框架在生成击球和战术字幕方面有效,消融研究显示基于ResNet50的时空编码器优于其他变体,击球级提示结构能产生更连贯准确的战术字幕。
  • Conclusion: Shot2Tactic-Caption框架成功实现了羽毛球视频的多尺度字幕生成,能够描述成功执行的战术以及被中断后恢复的战术执行过程,为战术理解提供了新方法。

[54] Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference

Natan Bagrov,Eugene Khvedchenia,Borys Tymchenko,Shay Aharon,Lior Kadoch,Tomer Keren,Ofri Masad,Yonatan Geifman,Ran Zilberstein,Tuomas Rintamaki,Matthieu Le,Andrew Tao

Main category: cs.CV

TL;DR: 提出了Efficient Video Sampling (EVS)方法,通过识别和修剪时间上静态的补丁来减少视频中的令牌冗余,从而降低处理成本并提高推理速度。

  • Motivation: 视觉语言模型在处理密集帧序列时面临二次成本问题,长视频往往超出令牌预算,导致上下文限制和延迟问题。
  • Method: EVS是一种即插即用的方法,通过识别和修剪时间上静态的空间区域来减少令牌冗余,无需架构更改或重新训练。
  • Result: EVS显著减少令牌数量同时保持语义保真度,使LLM的首令牌时间减少高达4倍,且精度损失最小。结合随机修剪率的上训练,模型在不同压缩级别下保持稳健性能。
  • Conclusion: EVS持续改善效率-精度权衡,在不牺牲质量的情况下实现可扩展的视频语言理解。

[55] Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

Ming Gui,Johannes Schusterbauer,Timy Phan,Felix Krause,Josh Susskind,Miguel Angel Bautista,Björn Ommer

Main category: cs.CV

TL;DR: RepTok是一个生成建模框架,使用自监督视觉变换器的单个连续潜在token表示图像,通过微调语义token嵌入和生成解码器实现高效图像生成。

  • Motivation: 解决2D潜在空间的空间冗余问题,显著降低训练成本,同时保持生成质量。
  • Method: 基于预训练的SSL编码器,仅微调语义token嵌入,配合使用流匹配目标的生成解码器,添加余弦相似度损失保持潜在空间几何特性。
  • Result: 在类别条件ImageNet生成上取得竞争性结果,在MS-COCO上以极有限的训练预算达到竞争性零样本性能。
  • Conclusion: 微调的自监督表示可以作为紧凑有效的潜在空间,用于高效生成建模。

[56] SteeringTTA: Guiding Diffusion Trajectories for Robust Test-Time-Adaptation

Jihyun Yu,Yoojin Oh,Wonho Bae,Mingyu Kim,Junhyug Noh

Main category: cs.CV

TL;DR: SteeringTTA是一种基于Feynman-Kac引导的测试时适应框架,通过扩散模型引导输入适应,无需模型更新或源数据,在ImageNet-C上表现优于基线方法。

  • Motivation: 解决现有基于扩散的测试时适应方法依赖梯度引导,限制了探索能力和对不同失真类型的泛化能力的问题。
  • Method: 采用Feynman-Kac引导机制,维护多个粒子轨迹,通过累积top-K概率和熵调度来平衡探索与置信度,使用伪标签驱动的奖励来引导扩散过程。
  • Result: 在ImageNet-C数据集上,SteeringTTA始终优于基线方法,且无需任何模型更新或源数据。
  • Conclusion: SteeringTTA通过Feynman-Kac引导机制有效提升了测试时适应的性能,在保持输入适应优势的同时解决了现有方法的局限性。

[57] In-Context Learning with Unpaired Clips for Instruction-based Video Editing

Xinyao Liao,Xianfang Zeng,Ziye Song,Zhoujie Fu,Gang Yu,Guosheng Lin

Main category: cs.CV

TL;DR: 提出了一种基于指令的视频编辑预训练策略,利用非配对视频片段进行上下文学习,显著降低了构建大规模配对视频编辑数据集的成本。

  • Motivation: 基于指令的图像编辑发展迅速,但扩展到视频领域仍面临挑战,主要原因是构建大规模配对视频编辑数据集成本高昂且复杂。
  • Method: 采用低成本预训练策略,先在约100万个真实视频片段上预训练学习基本编辑概念,然后在少于15万个精选编辑配对上微调,扩展更多编辑任务并提升编辑质量。
  • Result: 实验表明,该方法在指令对齐和视觉保真度方面均优于现有基于指令的视频编辑方法,编辑指令遵循度提升12%,编辑质量提升15%。
  • Conclusion: 该预训练策略赋予基础视频生成模型通用编辑能力,可高效利用少量高质量配对编辑数据进行微调,为指令式视频编辑提供了有效解决方案。

[58] Decorrelation Speeds Up Vision Transformers

Kieran Carrigg,Rob van Gastel,Melda Yeghaian,Sander Dalm,Faysal Boughorbel,Marcel van Gerven

Main category: cs.CV

TL;DR: 将去相关反向传播(DBP)集成到MAE预训练中,通过减少输入相关性来加速收敛,在保持性能的同时显著降低计算成本和碳排放

  • Motivation: MAE预训练在低标签场景下性能优异但计算成本过高,难以在工业环境中实际应用
  • Method: 在MAE预训练的编码器中选择性应用DBP优化方法,迭代减少每层的输入相关性以加速收敛
  • Result: DBP-MAE将达到基线性能的预训练时间减少21.1%,碳排放降低21.4%,分割mIoU提升1.1个百分点,在工业数据上也获得类似收益
  • Conclusion: DBP能够在大规模ViT预训练中同时减少训练时间、能源消耗并提升下游任务性能

[59] EuroMineNet: A Multitemporal Sentinel-2 Benchmark for Spatiotemporal Mining Footprint Analysis in the European Union (2015-2024)

Weikang Yu,Vincent Nwazelibe,Xianping Ma,Xiaokang Zhang,Richard Gloaguen,Xiao Xiang Zhu,Pedram Ghamisi

Main category: cs.CV

TL;DR: EuroMineNet是首个基于Sentinel-2多光谱影像的采矿足迹制图与监测多时序基准数据集,涵盖欧盟133个采矿点2015-2024年的年度观测和专家验证标注,支持采矿足迹制图和跨时序变化检测任务。

  • Motivation: 采矿活动是环境退化的主要来源,但现有数据集在时间深度或地理范围上有限,需要长期一致的采矿诱发地表变化监测来支持可持续资源管理和环境治理。
  • Method: 构建EuroMineNet数据集,包含133个欧盟采矿点的年度Sentinel-2多光谱影像和专家验证标注,支持两个任务:多时序采矿足迹制图(使用新的Change-Aware Temporal IoU指标评估)和跨时序变化检测。
  • Result: 对20个最先进深度学习模型进行基准测试显示,GeoAI方法能有效识别长期环境变化,但在检测对及时缓解至关重要的短期动态方面仍面临挑战。
  • Conclusion: EuroMineNet通过推进时间一致且可解释的采矿监测,为可持续土地利用管理、环境韧性以及将GeoAI应用于社会和环境的更广泛目标做出贡献。

[60] WeCKD: Weakly-supervised Chained Distillation Network for Efficient Multimodal Medical Imaging

Md. Abdur Rahman,Mohaimenul Azam Khan Raiaan,Sami Azam,Asif Karim,Jemima Beissbarth,Amanda Leach

Main category: cs.CV

TL;DR: 提出了首个弱监督链式知识蒸馏网络WeCKD,通过构建渐进式蒸馏链来重新定义知识传递,解决了传统知识蒸馏中的知识退化、监督效率低和数据依赖性强等问题。

  • Motivation: 传统知识蒸馏方法存在知识退化、监督效率低、依赖强教师模型或大数据集的问题,限制了在现实世界有限数据场景下的有效性。
  • Method: 构建渐进式蒸馏链,每个模型不仅从前驱学习知识,还会在传递前进行知识精炼,形成结构化的知识传递过程。每个模型仅使用部分数据集进行训练。
  • Result: 在四个耳镜成像数据集上的评估显示,该方法不仅匹配甚至超越了现有监督方法的性能。在其他两个数据集上的实验进一步证明了其在多种医学成像模态(包括显微和磁共振成像)上的泛化能力,相比单骨干网络在相同有限数据下获得了高达+23%的累积准确率提升。
  • Conclusion: WeCKD通过链式知识蒸馏机制有效减少了数据依赖性,缓解了一步知识蒸馏的局限性,在有限监督下实现了高效学习,具有现实世界应用的潜力。

[61] VTimeCoT: Thinking by Drawing for Video Temporal Grounding and Reasoning

Jinglei Zhang,Yuanfan Guo,Rolandos Alexandros Potamias,Jiankang Deng,Hang Xu,Chao Ma

Main category: cs.CV

TL;DR: VTimeCoT是一个无需训练的视频时序定位和推理框架,通过引入进度条工具和视觉时序思维链,显著提升了多模态大语言模型在视频理解中的性能。

  • Motivation: 现有基于多模态大语言模型的视频问答系统在视频时序定位和推理方面存在明显不足,这阻碍了有效现实世界视频理解系统的发展。
  • Method: 提出了VTimeCoT框架,包含两个新颖的视觉工具:即插即用的进度条集成工具和高效高亮工具,并引入了视觉时序思维链过程,实现视频和文本的跨模态推理。
  • Result: 在Qwen2VL-7B和GPT4o基准上,视频时序定位和基于推理的问答任务中均显示出显著的性能提升。
  • Conclusion: 该框架实现了组合式和可解释的推理过程,为视频理解提供了有效的解决方案。

[62] Leveraging Learned Image Prior for 3D Gaussian Compression

Seungjoo Shin,Jaesik Park,Sunghyun Cho

Main category: cs.CV

TL;DR: 提出了一种利用学习图像先验来恢复3D高斯溅射压缩质量下降的新框架,通过残差恢复网络和侧信息增强率失真性能,兼容现有压缩方法。

  • Motivation: 现有3D高斯溅射压缩技术缺乏学习先验,限制了率失真权衡的进一步改进,需要解决压缩引起的质量退化问题。
  • Method: 基于初始压缩的高斯,构建恢复网络在图像空间建模压缩伪影,引入粗渲染残差作为侧信息,通过恢复图像监督优化压缩高斯。
  • Result: 实验验证了框架有效性,在率失真性能上表现优越,渲染质量超过最先进的3DGS压缩方法,同时显著减少存储需求。
  • Conclusion: 该框架成功利用学习先验提升3DGS压缩性能,兼容现有方法,在保持高质量渲染的同时大幅降低存储开销。

[63] Where are the Whales: A Human-in-the-loop Detection Method for Identifying Whales in High-resolution Satellite Imagery

Caleb Robinson,Kimberly T. Goetz,Christin B. Khan,Meredith Sackett,Kathleen Leonard,Rahul Dodhia,Juan M. Lavista Ferres

Main category: cs.CV

TL;DR: 提出了一种基于统计异常检测的半自动化鲸鱼监测方法,通过识别空间异常点来筛选可能的鲸鱼目标,结合网页标注界面让专家快速验证,大幅减少了需要人工检查的区域面积。

  • Motivation: 传统鲸鱼种群监测方法昂贵且难以扩展,而现有基于高分辨率卫星图像的自动检测方法面临标注数据缺乏、图像质量多变、处理大规模遥感数据成本高等挑战。
  • Method: 使用统计异常检测方法识别空间异常点("有趣点"),配合网页标注界面让专家快速验证这些点,无需依赖标注训练数据。
  • Result: 在三个基准场景测试中,召回率达到90.3%至96.4%,同时将需要专家检查的区域面积减少了高达99.8%(从超过1000平方公里减少到不足2平方公里)。
  • Conclusion: 该方法为未来基于卫星的海洋哺乳动物监测提供了可扩展的第一步,不依赖标注数据,已开源相关代码。

[64] Camera Movement Classification in Historical Footage: A Comparative Study of Deep Video Models

Tingyu Lin,Armin Dadras,Florian Kleber,Robert Sablatnig

Main category: cs.CV

TL;DR: 本文首次系统评估了深度视频相机运动分类模型在历史档案影片上的表现,使用HISTORIAN数据集测试了五种标准视频分类模型,其中Video Swin Transformer表现最佳,准确率达80.25%。

  • Motivation: 相机运动传递了理解视频内容所需的空间和叙事信息,但现有相机运动分类方法在现代数据集上表现良好,其在历史档案素材上的泛化能力尚未被探索。
  • Method: 总结了代表性方法和数据集,重点分析了模型设计和标签定义的差异,并在包含专家标注的二战镜头的HISTORIAN数据集上评估了五种标准视频分类模型。
  • Result: 最佳表现模型Video Swin Transformer达到了80.25%的准确率,尽管训练数据有限但仍显示出强大的收敛能力。
  • Conclusion: 研究结果凸显了将现有模型适应低质量视频的挑战和潜力,并激励未来工作结合多样输入模态和时间架构。

[65] Cross-Layer Feature Self-Attention Module for Multi-Scale Object Detection

Dingzhou Xie,Rushi Lan,Cheng Pang,Enhao Ning,Jiahao Zeng,Wei Zheng

Main category: cs.CV

TL;DR: 提出跨层特征自注意力模块CFSAM,通过建模多尺度特征间的局部和全局依赖关系,显著提升目标检测性能,在PASCAL VOC和COCO数据集上分别达到78.6%和52.1%的mAP。

  • Motivation: 现有注意力机制大多局限于单层或双层特征优化,忽略了多尺度表示间的丰富层间依赖关系,限制了检测大尺度变化目标的能力。
  • Method: CFSAM包含三个核心组件:卷积局部特征提取器、基于Transformer的全局建模单元(高效捕捉跨层交互)、以及特征融合机制来恢复和增强原始表示。
  • Result: 在SSD300框架中集成CFSAM后,PASCAL VOC上mAP从75.5%提升至78.6%,COCO上从43.1%提升至52.1%,优于现有注意力模块,且加速训练收敛而不增加显著计算开销。
  • Conclusion: 显式的跨层注意力建模对于推进多尺度目标检测具有重要意义。

[66] Free-Grained Hierarchical Recognition

Seulki Park,Zilin Wang,Stella X. Yu

Main category: cs.CV

TL;DR: 提出了ImageNet-F基准和free-grain学习方法,用于处理现实世界中粒度不一的图像标注问题,通过视觉语言模型和半监督学习提升混合粒度监督下的分层分类性能。

  • Motivation: 现有分层图像分类方法假设完整的细粒度标注,但实际标注粒度因图像质量、标注者专业知识和任务需求而异,需要处理混合粒度的监督信号。
  • Method: 使用CLIP模拟语义模糊性创建混合粒度标签,提出free-grain学习框架,结合视觉语言模型生成伪属性和半监督学习增强语义和视觉引导。
  • Result: 提出的方法和强基线在混合监督下显著提升了分层分类性能。
  • Conclusion: ImageNet-F基准和free-grain学习方法推进了在现实约束下的分层分类研究。

[67] DEXTER: Diffusion-Guided EXplanations with TExtual Reasoning for Vision Models

Simone Carnemolla,Matteo Pennisi,Sarinda Samarasinghe,Giovanni Bellitto,Simone Palazzo,Daniela Giordano,Mubarak Shah,Concetto Spampinato

Main category: cs.CV

TL;DR: DEXTER是一个无需数据的框架,利用扩散模型和大型语言模型为视觉分类器生成全局文本解释,通过优化文本提示合成激活目标分类器的类别条件图像,然后生成详细的语言报告来描述类别特定的决策模式和偏见。

  • Motivation: 理解和解释机器学习模型的行为对于构建透明和可信赖的AI系统至关重要,但现有方法通常需要训练数据或真实标签。
  • Method: 通过优化文本提示来合成类别条件图像,这些合成样本强烈激活目标分类器,然后使用这些样本来生成详细的自然语言报告,描述类别特定的决策模式和偏见。
  • Result: 在ImageNet、Waterbirds、CelebA和FairFaces上的实验表明,DEXTER在全局模型解释和类别级偏见报告方面优于现有方法,定量和定性评估(包括用户研究)显示其产生准确、可解释的输出。
  • Conclusion: DEXTER是一个灵活且有效的框架,能够在无需访问训练数据或真实标签的情况下,通过自然语言揭示视觉分类器的内部机制和偏见。

[68] LightQANet: Quantized and Adaptive Feature Learning for Low-Light Image Enhancement

Xu Wu,Zhihui Lai,Xianxu Hou,Jie Zhou,Ya-nan Zhang,Linlin Shen

Main category: cs.CV

TL;DR: 提出了LightQANet框架,通过量化自适应特征学习解决低光图像增强问题,包含光照量化模块和光照感知提示模块,在多个数据集上达到最先进性能。

  • Motivation: 现有低光图像增强方法由于像素级信息严重退化,难以提取可靠特征表示,导致纹理恢复差、颜色不一致和伪影问题。
  • Method: 设计光照量化模块(LQM)显式提取和量化光照相关因子,增强光照不变表示;引入光照感知提示模块(LAPM)将光照先验编码为可学习提示,动态指导特征学习。
  • Result: 在多个低光数据集上的广泛实验表明,该方法实现了最先进的性能,在各种挑战性光照场景下提供优越的定性和定量结果。
  • Conclusion: LightQANet通过量化自适应特征学习,能够实现跨不同光照条件的一致和鲁棒图像质量增强。

[69] Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Giuseppe Lorenzo Catalano,Agata Marta Soccini

Main category: cs.CV

TL;DR: 提出了一种基于无条件扩散模型的方法来重建火星表面地形,填补卫星图像中的缺失值,相比传统方法在重建精度和感知相似度上表现更优。

  • Motivation: 火星地形数据中存在大量缺失值,传统插值方法难以保持几何一致性,而地球上的条件方法无法应用于火星,需要开发新的重建方法。
  • Method: 使用无条件扩散模型,在12000个火星高度图增强数据集上进行训练,采用非均匀缩放策略捕捉多尺度地形特征,最终固定为128x128分辨率。
  • Result: 在1000个测试样本上,相比逆距离加权、克里金法和纳维-斯托克斯算法,该方法在RMSE上提升4-15%,在LPIPS上提升29-81%。
  • Conclusion: 无条件扩散模型能够有效重建火星表面地形,显著优于传统方法,为行星科学研究和太空任务规划提供了可靠工具。

[70] MoCom: Motion-based Inter-MAV Visual Communication Using Event Vision and Spiking Neural Networks

Zhang Nengbo,Hann Woei Ho,Ye Zhou

Main category: cs.CV

TL;DR: 提出了一种基于视觉运动信号的微型飞行器(MAV)群通信框架,模仿蜜蜂摇摆舞,使用四种运动基元来传递信息,通过事件相机和脉冲神经网络进行解码。

  • Motivation: 传统无线电通信在MAV群中面临频谱拥堵、干扰和高功耗问题,需要一种更可靠的替代通信方式。
  • Method: 使用四种运动基元(垂直、水平、左-上-右、左-下-右)作为控制符号,通过事件相机捕获MAV飞行模式,采用事件帧分割模型和轻量级脉冲神经网络进行解码。
  • Result: 实验验证了该框架的有效性,实现了准确解码和低功耗,在受限环境中具有良好性能。
  • Conclusion: 该视觉通信框架为MAV群提供了一种节能高效的替代通信方案,特别适用于受限环境。

[71] CoT-PL: Visual Chain-of-Thought Reasoning Meets Pseudo-Labeling for Open-Vocabulary Object Detection

Hojun Choi,Youngsun Lim,Jaeyo Shin,Hyunjung Shim

Main category: cs.CV

TL;DR: CoT-PL是一个用于开放词汇目标检测的新框架,通过引入视觉链式思维推理和对比背景学习,在拥挤或遮挡场景中显著提升了新类别的伪标签质量。

  • Motivation: 现有的开放词汇目标检测方法过度依赖直接的图像-文本匹配,忽略了理解语义复杂场景所需的中间推理步骤,导致在拥挤或遮挡场景中鲁棒性有限。
  • Method: CoT-PL将目标理解分解为三个可解释步骤:区域感知、零样本类别识别和背景定位。通过对比背景学习使用预计算的背景线索作为负样本来促进目标与背景的特征解耦。
  • Result: 在拥挤和遮挡场景中,新类别伪标签质量分别比现有最佳方法提升了103.4%和168.4%。在开放词汇COCO上实现了+7.7 AP50的提升,在LVIS上新类别实现了+2.9 mask AP的提升,达到了新的最先进水平。
  • Conclusion: CoT-PL通过结构化视觉链式思维推理和对比背景学习,显著提升了开放词汇目标检测在复杂场景中的性能,特别是在拥挤和遮挡条件下表现优异。

[72] Morphology-Aware Prognostic model for Five-Year Survival Prediction in Colorectal Cancer from H&E Whole Slide Images

Usama Sajjad,Abdul Rehman Akbar,Ziyu Su,Deborah Knight,Wendy L. Frankel,Metin N. Gurcan,Wei Chen,Muhammad Khalid Khan Niazi

Main category: cs.CV

TL;DR: 开发了PRISM模型,一种可解释的AI模型,通过整合连续变异谱来表征结直肠癌的形态多样性,在5年总生存期预测上表现优异,超越现有方法15-23%的准确率。

  • Motivation: 当前计算病理学的基础模型往往忽略器官特异性关键形态模式,而这些模式代表不同的生物过程,会显著影响肿瘤行为、治疗反应和患者预后。
  • Method: PRISM模型整合了连续变异谱来表征形态多样性,基于424名III期结直肠癌患者的874万张组织学图像进行训练。
  • Result: PRISM在5年总生存期预测上表现优异(AUC=0.70,准确率68.37%,HR=3.34),超越现有CRC特定方法15%,超越AI基础模型约23%准确率,且在不同亚组中表现稳定。
  • Conclusion: PRISM模型成功捕捉了结直肠癌的形态多样性,提供了优越的预后预测性能,证明了整合连续变异谱在表征肿瘤进化过程中的价值。

[73] Scaling Artificial Intelligence for Multi-Tumor Early Detection with More Reports, Fewer Masks

Pedro R. A. S. Bassi,Xinze Zhou,Wenxuan Li,Szymon Płotka,Jieneng Chen,Qi Chen,Zheren Zhu,Jakub Prządo,Ibrahim E. Hamacı,Sezgin Er,Yuhan Wang,Ashwin Kumar,Bjoern Menze,Jarosław B. Ćwikła,Yuyin Zhou,Akshay S. Chaudhari,Curtis P. Langlotz,Sergio Decherchi,Andrea Cavalli,Kang Wang,Yang Yang,Alan L. Yuille,Zongwei Zhou

Main category: cs.CV

TL;DR: R-Super是一种利用医学报告训练AI进行肿瘤分割的新方法,大幅减少对人工绘制肿瘤掩模的需求,在多种肿瘤类型上达到甚至超越放射科医生的检测性能。

  • Motivation: 传统AI肿瘤分割模型需要大量人工绘制的肿瘤掩模,成本高昂且耗时。而临床实践中已有丰富的医学报告描述肿瘤特征,这些信息未被充分利用。
  • Method: R-Super通过训练AI模型使其能够根据医学报告中的描述来分割肿瘤,利用大量现成的医学报告进行训练,减少对人工掩模的依赖。
  • Result: 在101,654份报告上训练的模型性能与723个掩模训练的模型相当。结合报告和掩模训练,灵敏度提升13%,特异性提升8%,在7种肿瘤类型中有5种超越放射科医生。
  • Conclusion: 该方法挑战了大规模人工肿瘤掩模创建不可或缺的传统观念,为多种肿瘤类型的早期检测提供了可扩展且易于实现的路径。

[74] Unifying Environment Perception and Route Choice Modeling for Trajectory Representation Learning

Ji Cao,Yu Wang,Tongya Zheng,Zujie Ren,Canghong Jin,Gang Chen,Mingli Song

Main category: cs.CV

TL;DR: PRTraj是一个新的轨迹表示学习框架,通过统一环境感知和路径选择建模来改进轨迹表示,在多个下游任务中表现出优越性能。

  • Motivation: 现有轨迹表示学习方法将轨迹视为孤立的时空序列,忽略了影响轨迹形成的外部环境和内部路径选择行为。
  • Method: PRTraj包含环境感知模块和路径选择编码器,前者从POI分布捕获多粒度环境语义,后者将道路段转换建模为决策序列来捕捉路径选择行为。
  • Result: 在3个真实世界数据集和5个下游任务上的广泛实验验证了PRTraj的有效性和泛化能力,在少样本场景下也保持稳健性能。
  • Conclusion: PRTraj通过统一环境感知和路径选择建模,显著提升了轨迹表示学习的性能,展示了强大的数据效率。

[75] FraQAT: Quantization Aware Training with Fractional bits

Luca Morreale,Alberto Gil C. P. Ramos,Malcolm Chadwick,Mehid Noroozi,Ruchika Chavhan,Abhinav Mehrotra,Sourav Bhattacharya

Main category: cs.CV

TL;DR: 提出了一种新的分数位量化方法(SHORT),通过渐进式降低模型精度从32位到4位,在优化过程中利用分数位来保持生成质量,成功在智能手机上部署生成模型。

  • Motivation: 解决大容量生成模型无法在智能手机上部署的问题,因为手机内存和计算资源有限。虽然量化方法可以降低模型参数精度实现高效计算,但激进量化会损害模型质量。
  • Method: 提出分数位量化方法,渐进式降低模型精度(32位→4位),在优化过程中利用分数位来维持生成质量。在多种扩散模型上验证,包括SD3.5-Medium、Sana、PixArt和FLUX.1-schnell。
  • Result: SHORT方法在各种扩散模型上表现出改进的质量,比标准QAT(量化感知训练)实现了4-7%更低的FiD(Fréchet Inception Distance)。成功在三星S25U手机上部署Sana模型,运行在高通SM8750-AB Snapdragon 8 Elite Hexagon Tensor Processor上。
  • Conclusion: 分数位量化方法能够有效平衡模型效率和生成质量,使得大容量生成模型能够在资源受限的移动设备上部署运行。

[76] Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data

Qi Chen,Xinze Zhou,Chen Liu,Hao Chen,Wenxuan Li,Zekun Jiang,Ziyan Huang,Yuxuan Zhao,Dexin Yu,Junjun He,Yefeng Zheng,Ling Shao,Alan Yuille,Zongwei Zhou

Main category: cs.CV

TL;DR: 该研究发现合成数据可以显著提升肿瘤分割AI的数据扩展效率,通过创建包含10,135个CT扫描的AbdomenAtlas 2.0数据集,在六个器官上实现了比现有公开数据集更好的分割性能。

  • Motivation: AI肿瘤分割受限于缺乏大规模体素级标注数据集,这些数据集创建困难且需要医学专家。在JHH数据集上发现AI性能在1,500个扫描后停止提升,而合成数据仅用500个真实扫描就能达到相同性能。
  • Method: 创建AbdomenAtlas 2.0数据集,包含10,135个CT扫描,15,130个肿瘤实例,涵盖六个器官(胰腺、肝脏、肾脏、结肠、食管和子宫),由23名专家放射科医生进行体素级手动标注。
  • Result: AbdomenAtlas 2.0在分布内测试中DSC提升+7%,在分布外测试中DSC提升+16%,显著优于现有公开数据集。
  • Conclusion: 合成数据可以显著提升数据扩展效率,AbdomenAtlas 2.0为训练多器官肿瘤分割AI提供了强大基础,展示了合成数据在医学影像分析中的巨大潜力。

[77] QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision-Language-Action Models

Yixuan Li,Yuhui Chen,Mingcai Zhou,Haoran Li

Main category: cs.CV

TL;DR: QDepth-VLA通过引入深度预测任务增强VLA模型的空间感知能力,提升精细操作任务的性能

  • Motivation: 现有VLA模型缺乏对3D结构的理解和推理能力,难以实现精确控制
  • Method: 设计深度专家模块预测VQ-VAE编码器生成的量化深度图潜在token,学习深度感知表示
  • Result: 在仿真基准和真实世界任务中展现出强大的空间推理能力和竞争力的操作性能
  • Conclusion: QDepth-VLA框架通过深度感知表示学习有效增强了VLA模型的空间感知和推理能力

[78] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

Meiqi Wu,Jiashu Zhu,Xiaokun Feng,Chubin Chen,Chen Zhu,Bingze Song,Fangyuan Mao,Jiahong Wu,Xiangxiang Chu,Kaiqi Huang

Main category: cs.CV

TL;DR: 提出了ImagerySearch方法,通过动态调整推理搜索空间和奖励函数来改善视频生成模型在想象力场景中的表现,并创建了LDT-Bench基准进行评估。

  • Motivation: 现有视频生成模型在现实场景表现出色,但在想象力场景中性能显著下降,这些场景包含罕见共现概念和长距离语义关系,超出了训练分布范围。
  • Method: ImagerySearch是一种提示引导的自适应测试时搜索策略,根据提示中的语义关系动态调整推理搜索空间和奖励函数。
  • Result: 在LDT-Bench基准上,ImagerySearch持续优于强基线视频生成方法和现有测试时缩放方法,在VBench上也取得了有竞争力的改进。
  • Conclusion: ImagerySearch方法有效提升了视频生成模型在想象力场景中的表现,LDT-Bench基准将促进未来想象力视频生成研究。

[79] A Multi-Task Deep Learning Framework for Skin Lesion Classification, ABCDE Feature Quantification, and Evolution Simulation

Harsha Kotla,Arun Kumar Rajasekaran,Hannah Rana

Main category: cs.CV

TL;DR: 提出一个深度学习框架,既能对皮肤病变进行分类,又能量化ABCDE特征评分,模拟病变演化过程,提高黑色素瘤检测的可解释性。

  • Motivation: 当前深度学习模型对皮肤病变分析缺乏可解释性,无法解释ABCDE分类法中的人类可理解特征,限制了医生对AI诊断的信任和应用。
  • Method: 开发深度学习框架,分类皮肤病变并量化ABCD特征评分,在潜在空间中可视化特征轨迹,模拟病变从良性到恶性的演化过程。
  • Result: 在HAM10000数据集上达到89%分类准确率,黑色素瘤AUC为0.96,不对称性、颜色变化和直径特征预测良好,但边界不规则性建模较困难。
  • Conclusion: 该框架将机器学习诊断与临床相关标准联系起来,改善了皮肤癌进展的理解,为医生提供了更可信的诊断工具。

[80] Multi-modal video data-pipelines for machine learning with minimal human supervision

Mihai-Cristian Pîrvu,Marius Leordeanu

Main category: cs.CV

TL;DR: 该论文提出了一种多模态学习方法,通过预训练专家模型和程序化组合,在无需人工监督的情况下整合多种视觉模态,并开发了高效的小参数模型PHG-MAE,在实时语义分割等任务上取得与大型模型相当的竞争性结果。

  • Motivation: 现实世界本质上是多模态的,但传统机器学习模型多为单模态或双模态。为了真正理解世界,需要整合所有独立的模态,特别是在视觉领域整合尽可能多的模态。
  • Method: 使用预训练专家模型和程序化组合方法,构建完全自主的数据流水线来处理原始视频数据,采用专门设计的PHG-MAE模型来利用多模态数据,并将模型高效蒸馏成低参数版本(<100万参数)。
  • Result: 开发的小参数模型(<100万参数)在性能上可与约3亿参数的大型模型竞争,成功实现了在普通硬件上的实时语义分割和近实时深度估计。
  • Conclusion: 通过多模态整合和高效模型设计,可以在保持小参数规模的同时获得竞争性性能,为在资源受限设备上部署多模态AI应用提供了可行方案。

[81] Benchmarking Multimodal Large Language Models for Face Recognition

Hatef Otroshi Shahreza,Sébastien Marcel

Main category: cs.CV

TL;DR: 本文系统评估了多模态大语言模型在面部识别任务上的表现,发现虽然MLLMs能捕捉丰富的语义信息,但在零样本应用中的高精度识别场景下仍落后于专用模型。

  • Motivation: 多模态大语言模型在各种视觉语言任务中表现出色,但其在面部识别方面的潜力尚未充分探索,特别是开源MLLMs需要在标准基准上与传统面部识别模型进行性能比较。
  • Method: 在多个面部识别数据集(LFW、CALFW、CPLFW、CFP、AgeDB和RFW)上对最先进的MLLMs进行系统性基准测试。
  • Result: 实验结果显示,MLLMs能够捕捉丰富的语义线索,但在零样本应用的高精度识别场景中表现不如专用面部识别模型。
  • Conclusion: 该基准为推进基于MLLM的面部识别提供了基础,为设计具有更高准确性和泛化能力的下一代模型提供了见解。

[82] TOUCH: Text-guided Controllable Generation of Free-Form Hand-Object Interactions

Guangyi Han,Wei Zhai,Yuhang Yang,Yang Cao,Zheng-Jun Zha

Main category: cs.CV

TL;DR: 提出了Free-Form HOI生成方法,通过细粒度意图控制生成多样化、物理合理的手-物体交互,超越了传统的抓握模式。

  • Motivation: 现有HOI生成研究局限于固定的抓握模式,控制依赖于物理先验或通用意图指令,无法捕捉日常HOI的多样性。
  • Method: 构建了WildO2数据集,包含4.4k个独特交互;提出了TOUCH框架,基于多级扩散模型,利用显式接触建模进行条件控制,并通过接触一致性和物理约束进行细化。
  • Result: 能够生成可控、多样化且物理合理的手部交互,代表日常活动中的各种交互模式。
  • Conclusion: 该方法成功扩展了HOI从抓握到自由形式交互的能力,为细粒度语义控制下的多样化手-物体交互生成提供了有效解决方案。

[83] BADAS: Context Aware Collision Prediction Using Real-World Dashcam Data

Roni Goldshmidt,Hamish Scott,Lorenzo Niccolini,Shizhan Zhu,Daniel Moura,Orly Zvitia

Main category: cs.CV

TL;DR: BADAS是一个基于真实世界行车记录仪碰撞数据训练的碰撞预测模型家族,专门针对自我车辆威胁进行优化,减少误报,在多个基准测试中达到最先进性能。

  • Motivation: 现有碰撞预测方法无法区分自我车辆威胁和不涉及自我车辆的随机事故,导致实际部署中产生过多误报。
  • Method: 使用V-JEPA2骨干网络端到端训练,重新标注主要基准数据集以识别自我车辆参与,添加共识警报时间标签,必要时合成负样本。提供BADAS-Open(基于1.5k公开视频)和BADAS1.0(基于40k专有视频)两个变体。
  • Result: 在DAD、DADA-2000、DoTA和Nexar数据集上,BADAS实现了最先进的AP/AUC性能,优于前向碰撞ADAS基线,并产生更真实的事故时间估计。
  • Conclusion: BADAS通过专门针对自我车辆威胁的评估方法,显著提升了碰撞预测的准确性和实用性,促进了自我中心碰撞预测研究的发展。

[84] ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention

Keli Liu,Zhendong Wang,Wengang Zhou,Shaodong Xu,Ruixiao Dong,Houqiang Li

Main category: cs.CV

TL;DR: ScaleWeaver是一个基于视觉自回归模型的可控文本到图像生成框架,通过参数高效微调实现高保真度和精确控制,改进了MMDiT块并引入了参考注意力模块。

  • Motivation: 虽然扩散模型已经探索了控制机制,但在视觉自回归范式内实现精确灵活的控制仍然研究不足,需要弥合这一关键差距。
  • Method: 提出ScaleWeaver框架,核心是改进的MMDiT块和参考注意力模块,该模块丢弃了图像→条件的非必要注意力,降低计算成本并稳定控制注入,同时强调参数重用和零初始化线性投影。
  • Result: 大量实验表明,ScaleWeaver能够提供高质量生成和精确控制,同时在效率上优于基于扩散的方法。
  • Conclusion: ScaleWeaver是视觉自回归范式中可控文本到图像生成的实用有效解决方案。

[85] You May Speak Freely: Improving the Fine-Grained Visual Recognition Capabilities of Multimodal Large Language Models with Answer Extraction

Logan Lawrence,Oindrila Saha,Megan Wei,Chen Sun,Subhransu Maji,Grant Van Horn

Main category: cs.CV

TL;DR: 提出了nlg2choice方法,通过两阶段处理解决多模态大语言模型在细粒度视觉分类中的自由形式响应评估问题,特别是在多选项(数百到数千个)和检索式任务中的挑战。

  • Motivation: 现有方法主要关注纯语言任务或不超过5个选项的多选题,无法有效处理细粒度视觉分类中选项数量多、相关性高的场景,以及在检索式问题中扩展LLM选择提取的计算成本问题。
  • Method: nlg2choice两阶段方法:首先向MLLM提出开放式问题,然后使用纯文本约束解码预测最可能的选择;在检索设置中,采用提前停止方法计算约束响应的选择概率以提高吞吐量。
  • Result: 在七个细粒度视觉数据集上的实验表明,该方法在分类和检索评估指标上均有改进,且性能在不同自然语言任务实现方式下保持稳定。
  • Conclusion: nlg2choice方法有效解决了细粒度视觉分类中多选项和检索式任务的评估挑战,为MLLM在实际应用中的性能评估提供了实用解决方案。

[86] Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Furkan Mumcu,Michael J. Jones,Anoop Cherian,Yasin Yilmaz

Main category: cs.CV

TL;DR: 提出基于多模态大语言模型的视频异常检测框架,通过分析对象活动和交互的文本描述来检测复杂异常,并提供可解释性

  • Motivation: 现有半监督视频异常检测方法在处理复杂对象交互异常时效果不佳,且缺乏可解释性
  • Method: 使用MLLM分析不同时刻对象对的视觉输入,生成活动和交互的文本描述,在测试时与正常训练视频的文本描述进行比较
  • Result: 在基准数据集上有效检测复杂交互异常,并在无交互异常的数据集上达到最先进性能
  • Conclusion: 该方法不仅能有效检测复杂异常,还提供可解释性,可与传统VAD方法结合进一步提升性能

[87] MaskCaptioner : Learning to Jointly Segment and Caption Object Trajectories in Videos

Gabriel Fiastre,Antoine Yang,Cordelia Schmid

Main category: cs.CV

TL;DR: 提出了MaskCaptioner模型,通过生成合成字幕扩展LVIS和LV-VIS数据集,实现了端到端的视频目标检测、分割、跟踪和字幕生成,在多个基准测试中达到最先进水平。

  • Motivation: 由于密集视频目标字幕任务的复杂性和手动标注的高成本,现有方法采用分离训练策略导致性能欠佳,需要开发端到端的解决方案。
  • Method: 利用最先进的视觉语言模型生成关于时空定位实体的合成字幕,扩展LVIS和LV-VIS数据集,训练MaskCaptioner端到端模型。
  • Result: 在三个现有基准测试VidSTG、VLN和BenSMOT上实现了最先进的密集视频目标字幕结果。
  • Conclusion: 通过合成数据生成和端到端训练,MaskCaptioner有效解决了密集视频目标字幕任务,显著提升了性能。

[88] 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation

JoungBin Lee,Jaewoo Jung,Jisang Han,Takuya Narihira,Kazumi Fukuda,Junyoung Seo,Sunghwan Hong,Yuki Mitsufuji,Seungryong Kim

Main category: cs.CV

TL;DR: 3DScenePrompt是一个视频生成框架,通过双时空条件机制和3D场景记忆实现长视频生成,支持精确相机控制并保持场景一致性。

  • Motivation: 现有方法通常基于单张图像或短片段生成视频,难以在长视频生成中保持场景一致性和精确相机控制。
  • Method: 采用双时空条件机制:时间相邻帧用于运动连续性,空间相邻内容用于场景一致性。构建3D场景记忆表示静态几何,通过动态SLAM和动态掩码策略分离静态场景和动态元素。
  • Result: 实验表明,该方法在场景一致性、相机可控性和生成质量方面显著优于现有方法。
  • Conclusion: 3DScenePrompt框架成功解决了长视频生成中的场景一致性和相机控制问题,同时保持计算效率和运动真实性。

[89] OmniMotion: Multimodal Motion Generation with Continuous Masked Autoregression

Zhe Li,Weihao Yuan,Weichao Shen,Siyu Zhu,Zilong Dong,Chang Xu

Main category: cs.CV

TL;DR: 提出了一种连续掩码自回归运动变换器,结合DiT结构和多模态融合机制,在全身多模态人体运动生成任务中优于现有方法。

  • Motivation: 解决全身多模态人体运动生成的两个主要挑战:创建有效的运动生成机制和整合文本、语音、音乐等多种模态。
  • Method: 开发连续掩码自回归运动变换器,采用门控线性注意力和RMSNorm模块,利用DiT结构扩散条件,通过AdaLN和交叉注意力融合文本、语音、音乐信号。
  • Result: 实验结果表明,该方法在所有模态(文本到运动、语音到手势、音乐到舞蹈)上都优于先前的方法。
  • Conclusion: 提出的框架在多模态人体运动生成任务中表现出色,代码将公开发布。

[90] RealDPO: Real or Not Real, that is the Preference

Guo Cheng,Danni Yang,Ziqi Huang,Jianlou Si,Chenyang Si,Ziwei Liu

Main category: cs.CV

TL;DR: RealDPO是一种新的对齐范式,利用真实世界数据作为偏好学习的正样本,通过DPO和定制损失函数提升运动合成的真实感,显著改善了视频质量、文本对齐和运动真实性。

  • Motivation: 现有视频生成模型在合成复杂运动时存在困难,生成的运动往往不够自然、平滑且上下文不一致,这限制了其实际应用。
  • Method: 提出RealDPO对齐范式,使用真实世界视频作为正样本进行偏好学习,采用DPO和定制损失函数,通过对比真实视频与错误模型输出来实现迭代自校正。
  • Result: 大量实验表明,RealDPO相比最先进模型和现有偏好优化技术,显著提升了视频质量、文本对齐和运动真实感。
  • Conclusion: RealDPO通过利用真实世界数据进行偏好学习,有效解决了复杂运动合成的挑战,提升了视频生成模型的实用性和运动质量。

[91] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

Weikang Shi,Aldrich Yu,Rongyao Fang,Houxing Ren,Ke Wang,Aojun Zhou,Changyao Tian,Xinyu Fu,Yuxuan Hu,Zimu Lu,Linjiang Huang,Si Liu,Rui Liu,Hongsheng Li

Main category: cs.CV

TL;DR: MathCanvas框架赋予统一大型多模态模型内在的视觉思维链能力,通过视觉操作预训练和策略性视觉辅助推理微调,在数学问题上实现显著的性能提升。

  • Motivation: 现有方法在几何等需要视觉辅助的数学领域中表现不佳,要么受限于外部工具的僵化,要么无法生成高质量、适时出现的图表来支持复杂问题解决。
  • Method: 采用两阶段方法:1) 视觉操作阶段预训练模型掌握图表生成和编辑;2) 策略性视觉辅助推理阶段微调模型学习何时及如何利用视觉辅助。
  • Result: BAGEL-Canvas模型在MathCanvas-Bench上相比强基线提升了86%,在其他公共数学基准测试中表现出优秀的泛化能力。
  • Conclusion: 该工作提供了完整的工具包,包括框架、数据集和基准测试,为解锁LMMs中复杂、类人的视觉辅助推理能力奠定了基础。

[92] C4D: 4D Made from 3D through Dual Correspondences

Shizun Wang,Zhenxiang Jiang,Xingyi Yang,Xinchao Wang

Main category: cs.CV

TL;DR: C4D是一个从单目视频恢复4D动态场景的框架,通过结合短期光流和长期点跟踪来扩展现有3D重建方法,能够分离动态物体和静态背景,实现完整的4D重建。

  • Motivation: 现有的点图式3D重建方法在处理动态场景时表现不佳,因为运动物体违反了多视角几何约束,导致重建不准确。需要专门的方法来处理动态场景的4D重建问题。
  • Method: C4D框架预测点图的同时捕获两种对应关系:短期光流和长期点跟踪。训练动态感知点跟踪器提供移动性信息,估计运动掩码分离动态元素和静态背景。引入动态场景优化目标来恢复每帧3D几何和相机参数,将2D轨迹提升为平滑的3D轨迹。
  • Result: 实验表明该框架实现了完整的4D恢复,在深度估计、相机姿态估计和点跟踪等多个下游任务中表现出强大性能。
  • Conclusion: C4D通过时间对应关系成功扩展了3D重建方法到4D动态场景,为单目视频的4D重建提供了有效解决方案。

[93] RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion

Thao Nguyen,Jiaqi Ma,Fahad Shahbaz Khan,Souhaib Ben Taieb,Salman Khan

Main category: cs.CV

TL;DR: 提出了一种集成Token-wise Attention的扩散模型,用于降水临近预报,无需单独潜在模块即可捕获多尺度时空依赖关系,显著优于现有方法。

  • Motivation: 现有扩散模型在降水临近预报中存在可扩展性问题:潜在空间方法需要单独训练自编码器,增加复杂性;像素空间方法计算密集且缺乏注意力机制,难以建模长程时空依赖。
  • Method: 在U-Net扩散模型和时空编码器中集成Token-wise Attention,动态捕获多尺度空间交互和时间演化,无需单独潜在模块。
  • Result: 在多个数据集上的实验表明,该方法在局部保真度、泛化能力和鲁棒性方面显著优于现有最先进方法。
  • Conclusion: 提出的Token-wise Attention集成方法有效解决了降水临近预报中扩散模型的可扩展性问题,实现了更好的性能表现。

[94] ChangingGrounding: 3D Visual Grounding in Changing Scenes

Miao Hu,Zhiwei Huang,Tai Wang,Jiangmiao Pang,Dahua Lin,Nanning Zheng,Runsen Xu

Main category: cs.CV

TL;DR: 提出了ChangingGrounding基准和Mem-ChangingGrounder方法,用于在动态场景中通过记忆驱动的3D视觉定位,减少重新扫描成本并提高定位精度。

  • Motivation: 现有3D视觉定位方法假设场景是静态且重建好的点云,这在现实动态场景中需要频繁重新扫描,成本高昂且不实用。
  • Method: 提出Mem-ChangingGrounder方法:通过跨模态检索识别查询对象类型,检索相关记忆指导行动,高效探索目标场景,多视角扫描目标,并将融合证据投影到准确边界框。
  • Result: 在ChangingGrounding基准上评估,Mem-ChangingGrounder实现了最高的定位精度,同时大幅降低了探索成本。
  • Conclusion: 该基准和方法推动了面向实际应用的、以记忆为中心的3D视觉定位研究发展。

[95] WithAnyone: Towards Controllable and ID Consistent Image Generation

Hengyuan Xu,Wei Cheng,Peng Xing,Yixiao Fang,Shuhan Wu,Rui Wang,Xianfang Zeng,Daxin Jiang,Gang Yu,Xingjun Ma,Yu-Gang Jiang

Main category: cs.CV

TL;DR: 该论文提出了WithAnyone模型,通过构建MultiID-2M数据集、引入对比身份损失和新的训练范式,解决了身份一致生成中的copy-paste问题,在保持身份相似性的同时实现多样化的可控生成。

  • Motivation: 现有身份一致生成方法因缺乏大规模配对数据集而依赖重建训练,导致copy-paste问题——模型直接复制参考人脸而非在姿态、表情、光照等自然变化中保持身份一致性,这削弱了可控性和生成表达能力。
  • Method: 1) 构建大规模配对数据集MultiID-2M,为每个身份提供多样化参考;2) 提出量化copy-paste伪影和身份保真度与变化权衡的基准;3) 引入基于对比身份损失的新训练范式,利用配对数据平衡保真度与多样性。
  • Result: WithAnyone模型显著减少了copy-paste伪影,提高了姿态和表情的可控性,并保持了强大的感知质量。用户研究验证了该方法在实现高身份保真度的同时支持富有表现力的可控生成。
  • Conclusion: 通过数据集构建、基准制定和新训练范式的综合贡献,WithAnyone模型有效缓解了copy-paste问题,在身份一致生成中实现了保真度与多样性的良好平衡。

[96] Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

Shaowei Liu,Chuan Guo,Bing Zhou,Jian Wang

Main category: cs.CV

TL;DR: Ponimator是一个基于近距离交互姿态的通用交互动画框架,使用两个条件扩散模型从交互姿态生成动态运动序列或合成交互姿态。

  • Motivation: 近距离人-人交互姿态蕴含丰富的交互动态信息,人类可以凭直觉推断上下文并预测可能的过去和未来动态。受此启发,作者希望利用交互姿态先验来实现通用交互动画。
  • Method: 使用两个条件扩散模型:姿态动画器利用时间先验从交互姿态生成动态运动序列;姿态生成器利用空间先验从单姿态、文本或两者合成交互姿态。训练数据来自动作捕捉交互数据集中的近距离双人姿态及其时间上下文。
  • Result: 实验证明姿态先验具有普适性,框架在多样化数据集和应用中表现出有效性和鲁棒性。
  • Conclusion: Ponimator支持图像驱动的交互动画、反应动画和文本到交互合成等多样化任务,能够将高质量动作捕捉数据的交互知识迁移到开放世界场景中。

[97] Terra: Explorable Native 3D World Model with Point Latents

Yuanhui Huang,Weiliang Chen,Wenzhao Zheng,Xin Tao,Pengfei Wan,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: Terra是一个原生3D世界模型,通过内在3D潜在空间表示和生成可探索环境,解决了现有方法依赖像素对齐表示而忽略物理世界3D本质的问题。

  • Motivation: 现有世界模型大多依赖像素对齐表示作为世界演化的基础,忽视了物理世界固有的3D特性,这会破坏3D一致性并降低建模效率。
  • Method: 提出点-高斯变分自编码器(P2G-VAE)将3D输入编码为潜在点表示,然后解码为3D高斯基元来联合建模几何和外观;引入稀疏点流匹配网络(SPFlow)生成潜在点表示,同时去噪点的位置和特征。
  • Result: 在ScanNet v2室内场景上的实验表明,Terra在重建和生成方面都达到了最先进的性能,具有很高的3D一致性。
  • Conclusion: Terra通过原生3D表示和架构实现了精确的多视角一致性,支持单次生成过程即可从任意视角灵活渲染,并通过点潜在空间中的渐进生成实现了可探索的世界建模。

[98] Learning an Image Editing Model without Image Editing Pairs

Nupur Kumari,Sheng-Yu Wang,Nanxuan Zhao,Yotam Nitzan,Yuheng Li,Krishna Kumar Singh,Richard Zhang,Eli Shechtman,Jun-Yan Zhu,Xun Huang

Main category: cs.CV

TL;DR: 提出无需配对数据的图像编辑训练范式,通过展开扩散模型并利用视觉语言模型的反馈进行端到端优化,在少步设置下性能媲美基于监督配对数据训练的模型。

  • Motivation: 当前图像编辑模型依赖大规模输入-目标配对数据进行监督微调,但这类自然配对数据难以大规模获取。现有方法使用合成训练对会传播预训练模型的缺陷。
  • Method: 直接优化少步扩散模型:训练时展开模型,利用视觉语言模型评估编辑是否遵循指令并保留未变内容,提供端到端优化的直接梯度;结合分布匹配损失确保生成图像在预训练模型学习的图像流形内。
  • Result: 在标准基准测试中,无需任何配对数据,该方法在少步设置下性能与基于大量监督配对数据训练的各种图像编辑扩散模型相当;使用相同视觉语言模型作为奖励模型时,优于基于强化学习的技术如Flow-GRPO。
  • Conclusion: 该工作提出了一个无需配对数据的训练范式,通过直接优化扩散模型并利用视觉语言模型反馈,在图像编辑任务中取得了与监督方法相当的性能,解决了配对数据稀缺的瓶颈问题。

[99] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Haiwen Diao,Mingxuan Li,Silei Wu,Linjun Dai,Xiaohua Wang,Hanming Deng,Lewei Lu,Dahua Lin,Ziwei Liu

Main category: cs.CV

TL;DR: 本文提出了NEO原生视觉语言模型系列,通过设计三个核心原则来解决原生VLMs与模块化VLMs的区别问题,并在仅使用3.9亿图像-文本对的情况下实现了与顶级模块化模型相媲美的性能。

  • Motivation: 解决原生视觉语言模型面临的两个关键挑战:明确原生VLMs与模块化VLMs的根本区别及如何克服这些障碍,以及如何使原生VLMs研究更加普及和民主化。
  • Method: 提出三个原生VLM构建原则:(i)在共享语义空间中有效对齐像素和词表示;(ii)无缝整合视觉和语言模块的优势;(iii)内在地体现支持统一视觉语言编码、对齐和推理的跨模态特性。基于这些原则构建了NEO模型系列。
  • Result: NEO模型在仅使用3.9亿图像-文本对的情况下,从零开始高效开发视觉感知能力,并在各种现实场景中能够与顶级模块化模型竞争。
  • Conclusion: NEO为可扩展和强大的原生VLMs奠定了基础,提供了丰富的可重用组件,促进了成本效益高且可扩展的生态系统发展。

[100] Coupled Diffusion Sampling for Training-Free Multi-View Image Editing

Hadi Alzayer,Yunzhi Zhang,Chen Geng,Jia-Bin Huang,Jiajun Wu

Main category: cs.CV

TL;DR: 提出一种推理时扩散采样方法,通过隐式3D正则化实现多视图一致的图像编辑,避免显式3D表示的优化过程。

  • Motivation: 现有2D图像编辑模型在多视图图像编辑时无法保持视图间一致性,而基于显式3D表示的方法存在优化过程冗长和稀疏视图下不稳定的问题。
  • Method: 使用耦合扩散采样技术,同时从多视图图像分布和2D编辑图像分布中采样两个轨迹,通过耦合项强制生成图像的多视图一致性。
  • Result: 在三个不同的多视图图像编辑任务上验证了方法的有效性和通用性,适用于各种模型架构。
  • Conclusion: 该方法作为多视图一致编辑的通用解决方案具有潜力,无需显式3D优化即可实现视图一致性。

cs.AI

[101] Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline

Haiyang Li,Yaxiong Wang,Shengeng Tang,Lianwei Wu,Lechao Cheng,Zhun Zhong

Main category: cs.AI

TL;DR: 提出了一个统一的多模态虚假内容检测框架UMFDet,能够同时处理人类制作的虚假信息和AI生成内容,解决了现有方法只能处理单一类型虚假内容的问题。

  • Motivation: 现有的虚假内容检测研究通常孤立地处理人类制作的虚假信息和AI生成内容,但在真实场景中虚假内容的类型通常是未知的,限制了专门化系统的有效性。
  • Method: 构建了包含12.7万样本的OmniFake数据集,提出了UMFDet框架,使用VLM骨干网络,结合类别感知的MoE适配器和归因思维链机制来捕获类别特定的欺骗信号。
  • Result: 大量实验表明,UMFDet在两种虚假信息类型上都实现了稳健且一致的性能,优于专门的基线方法。
  • Conclusion: UMFDet为真实世界的多模态欺骗检测提供了一个实用的解决方案,能够统一处理不同类型的虚假内容。

[102] AI for Service: Proactive Assistance with AI Glasses

Zichen Wen,Yiyu Wang,Chenfei Liao,Boxue Yang,Junxian Li,Weifeng Liu,Haocong He,Bolong Feng,Xuyang Liu,Yuanhuiyi Lyu,Xu Zheng,Xuming Hu,Linfeng Zhang

Main category: cs.AI

TL;DR: 提出了AI4Service新范式,通过Alpha-Service框架实现主动式AI助手,能够从第一人称视角视频中检测服务机会并提供个性化服务。

  • Motivation: 现有AI服务大多是被动的,只能响应显式用户命令。作者认为真正智能的助手应该能够预测用户需求并在适当时机主动采取行动。
  • Method: 基于AI眼镜,提出Alpha-Service统一框架,包含五个核心组件:输入单元(感知)、中央处理单元(任务调度)、算术逻辑单元(工具使用)、内存单元(长期个性化)和输出单元(人机交互),通过多智能体系统实现。
  • Result: 通过案例研究(实时21点顾问、博物馆导览、购物搭配助手)展示了系统能够无缝感知环境、推断用户意图,并在无需显式提示的情况下提供及时有用的帮助。
  • Conclusion: AI4Service范式将AI从被动工具转变为主动伴侣,Alpha-Service框架为实现这一愿景提供了可行方案,展示了主动式AI助手在日常生活中的应用潜力。

[103] Agentic Design of Compositional Machines

Wenqian Zhang,Weiyang Liu,Zhen Liu

Main category: cs.AI

TL;DR: 该论文研究大型语言模型能否通过组合式机器设计来创造复杂机器,开发了BesiegeField测试平台,并发现当前开源模型在空间推理、策略组装等方面存在不足,探索了强化学习作为改进路径。

  • Motivation: 探索大型语言模型是否能够学习创造复杂机器,这是人类智能的重要标志和工程实践的基础。
  • Method: 引入BesiegeField测试平台,基于Besiege游戏构建,支持基于组件的构建、物理模拟和奖励驱动评估;使用智能体工作流程对最先进的LLM进行基准测试;探索强化学习微调作为改进方法。
  • Result: 识别出成功所需的关键能力包括空间推理、策略组装和指令遵循;当前开源模型表现不足;通过强化学习微调实验展示了改进潜力。
  • Conclusion: 在语言、机器设计和物理推理的交叉领域仍存在开放挑战,强化学习是提升LLM机器设计能力的可行路径。

q-bio.QM

[104] GenCellAgent: Generalizable, Training-Free Cellular Image Segmentation via Large Language Model Agents

Xi Yu,Yang Yang,Qun Liu,Yonghua Du,Sean McSweeney,Yuewei Lin

Main category: q-bio.QM

TL;DR: GenCellAgent是一个无需训练的多智能体框架,通过规划器-执行器-评估器循环和长期记忆,自动路由细胞图像到最佳分割工具,支持文本引导分割和自适应学习。

  • Motivation: 细胞图像分割在定量生物学中至关重要,但由于模态异质性、形态变异性和有限标注而困难。需要一种无需重新训练就能适应新条件的方法。
  • Method: 采用多智能体框架,包含规划器-执行器-评估器循环:选择工具→运行→质量检查,具有长期记忆功能,支持自动路由、自适应学习和文本引导分割。
  • Result: 在四个细胞分割基准测试中,比最先进基线平均准确率提升15.7%;在新数据集的内质网和线粒体分割中,IoU平均提高37.6%;通过文本引导迭代细化可分割高尔基体等新对象。
  • Conclusion: 该框架为无需重新训练的稳健、自适应细胞图像分割提供了实用路径,减少了标注负担并匹配用户偏好。

cs.GR

[105] PoissonNet: A Local-Global Approach for Learning on Surfaces

Arman Maesumi,Tanish Makadia,Thibault Groueix,Vladimir G. Kim,Daniel Ritchie,Noam Aigerman

Main category: cs.GR

TL;DR: PoissonNet是一种新颖的网格神经网络架构,通过泊松方程作为特征传播机制,解决了现有方法在学习高频特征、感受野不足、对离散化敏感和计算效率方面的缺陷。

  • Motivation: 现有网格学习架构存在学习高频特征困难、感受野不足、对离散化敏感和计算效率低等问题,需要一种能够克服这些缺陷的新方法。
  • Method: 采用局部-全局学习框架,在网格梯度域应用局部特征变换,然后求解泊松系统进行全局特征传播。该方法对网格三角化不敏感,计算高效。
  • Result: 在语义分割和参数化高细节动画表面等任务中达到最先进性能,在表面变形学习方面显著优于现有架构。
  • Conclusion: PoissonNet通过局部-全局学习框架和泊松方程机制,提供了一种高效、可扩展的网格学习方法,能够处理大规模数据集和大尺寸训练样本。

cs.RO

[106] Learning Human-Humanoid Coordination for Collaborative Object Carrying

Yushi Du,Yixuan Li,Baoxiong Jia,Yutang Lin,Pei Zhou,Wei Liang,Yanchao Yang,Siyuan Huang

Main category: cs.RO

TL;DR: 提出了一种仅使用本体感觉的强化学习方法COLA,实现人形机器人与人类的顺从协作搬运,无需外部传感器或复杂交互模型

  • Motivation: 虽然机械臂的顺从人机协作已广泛发展,但由于人形机器人复杂的全身动力学,实现顺从的人-人形机器人协作仍未被充分探索
  • Method: 结合领导者与跟随者行为的单一策略强化学习,在闭环环境中训练,通过协调轨迹规划预测物体运动模式和人类意图以保持负载平衡
  • Result: 模拟实验减少24.7%的人力消耗,真实世界实验验证了在不同物体类型和运动模式下的鲁棒性,用户研究显示比基线模型平均提升27.4%
  • Conclusion: 该方法为现实世界部署提供了无需外部传感器或复杂交互模型的实用解决方案,实现了顺从的人-人形机器人协作搬运

[107] GOPLA: Generalizable Object Placement Learning via Synthetic Augmentation of Human Arrangement

Yao Zhong,Hanzhi Chen,Simon Schaefer,Anran Zhang,Stefan Leutenegger

Main category: cs.RO

TL;DR: GOPLA是一个分层框架,通过增强的人类演示学习可泛化的物体放置,结合语义推理和几何可行性分析,在真实世界机器人放置场景中显著提升了成功率。

  • Motivation: 解决机器人作为智能助手在家庭环境中进行物体放置时面临的挑战,需要同时考虑语义偏好(如常识性物体关系)和几何可行性(如碰撞避免)。
  • Method: 使用多模态大语言模型将人类指令和视觉输入转换为结构化计划,通过空间映射器生成3D可操作性地图,基于扩散的规划器生成放置位姿,并引入可扩展的管道扩展人类演示数据。
  • Result: 在定位准确性和物理合理性评估中,相比第二名方法提升了30.04个百分点的放置成功率,在广泛的真实世界机器人放置场景中展现出强大的泛化能力。
  • Conclusion: GOPLA框架通过结合语义推理和几何约束,有效解决了机器人物体放置问题,在真实场景中表现出优异的性能和泛化能力。

[108] From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance

Zhe Li,Cheng Chi,Yangyang Wei,Boan Zhu,Yibo Peng,Tao Huang,Pengwei Wang,Zhongyuan Wang,Shanghang Zhang,Chang Xu

Main category: cs.RO

TL;DR: RoboGhost是一个无需重定向的人形机器人框架,通过扩散策略直接从语言引导的运动潜变量生成可执行动作,避免了传统多阶段流程中的累积误差和高延迟问题。

  • Motivation: 现有语言引导的人形机器人运动流程存在多阶段处理导致的累积误差、高延迟以及语义与控制弱耦合的问题,需要一个更直接的从语言到动作的路径。
  • Method: 采用基于扩散的策略,直接从噪声中生成可执行动作,使用混合因果transformer-diffusion运动生成器确保长期一致性和稳定性,同时保持多样性。
  • Result: 实验表明RoboGhost显著降低了部署延迟,提高了成功率和跟踪精度,在真实人形机器人上产生平滑且语义对齐的运动。
  • Conclusion: RoboGhost提供了一个通用的视觉-语言-动作人形系统基础,可扩展到图像、音频和音乐等其他模态。

[109] RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks

Mingxuan Yan,Yuping Wang,Zechun Liu,Jiachen Li

Main category: cs.RO

TL;DR: 提出基于检索的演示分解器(RDD),通过视觉特征对齐自动将演示分解为子任务,提升分层视觉-语言-动作框架的任务性能

  • Motivation: 现有VLM规划器需要人工标注或启发式规则来分解任务,但启发式子任务可能与底层视觉运动策略的训练数据不匹配,导致性能下降
  • Method: RDD通过将分解的子任务区间的视觉特征与底层视觉运动策略训练数据的视觉特征对齐,自动分解演示为子任务
  • Result: 在仿真和真实世界任务中均优于最先进的子任务分解器,在不同设置下表现出鲁棒性
  • Conclusion: RDD方法有效解决了子任务分解与底层策略训练数据不匹配的问题,提升了分层VLA框架的性能

cs.LG

[110] Self-Training with Dynamic Weighting for Robust Gradual Domain Adaptation

Zixi Wang,Yushe Cao,Yubo Huang,Jinzhu Wei,Jingzehua Xu,Shuai Zhang,Xin Lai

Main category: cs.LG

TL;DR: 提出了一种名为STDW的自训练动态加权方法,通过动态平衡源域和目标域损失贡献来增强渐进域适应的鲁棒性。

  • Motivation: 传统渐进域适应方法在通过中间域和自训练缓解域偏移时,常面临知识迁移效率低或中间数据不完整的问题。
  • Method: 引入动态加权机制,通过时间变化超参数ϱ控制域特定学习强度,结合自训练生成伪标签并优化加权目标函数进行迭代模型更新。
  • Result: 在旋转MNIST、颜色偏移MNIST、肖像数据集和Cover Type数据集上的实验表明,STDW优于现有基线方法。
  • Conclusion: 该工作为鲁棒渐进域适应提供了理论洞见和实用框架,在动态现实场景中具有应用潜力。

[111] Weight Weaving: Parameter Pooling for Data-Free Model Merging

Levy Chaves,Eduardo Valle,Sandra Avila

Main category: cs.LG

TL;DR: 提出Weight Weaving方法,通过权重池化技术解决模型合并中缩放超参数λ的数据依赖问题,实现无需评估数据的模型融合。

  • Motivation: 现有模型合并方法严重依赖缩放超参数λ,而设置这些参数通常需要评估数据,这在实践中不可行。需要一种无需数据的方法来优化模型合并。
  • Method: Weight Weaving技术通过用户定义的池化函数(如平均、随机选择或现有合并方法)在λ值搜索空间中池化模型权重,具有高模块性和最小约束。
  • Result: 在三个ViT变体和三个实验设置中验证,该方法持续提升多个模型合并方法的性能,在无数据设置下平均准确率提升高达15.9个百分点。
  • Conclusion: Weight Weaving提供了一种正交于现有模型合并方法的插件式解决方案,消除了评估数据需求,显著提升了模型合并性能。

[112] Distributional Consistency Loss: Beyond Pointwise Data Terms in Inverse Problems

George Webber,Andrew J. Reader

Main category: cs.LG

TL;DR: 提出了一种新的数据保真度损失函数——分布一致性损失,用于逆问题中的信号恢复,通过分布级校准替代逐点匹配,避免对测量噪声的过拟合。

  • Motivation: 传统的数据保真度损失函数如均方误差或负对数似然寻求与噪声测量的逐点一致性,往往导致对噪声的过拟合。需要一种能统计评估测量数据与当前估计所隐含噪声分布一致性的方法。
  • Method: 引入分布一致性损失,使用基于模型的概率分数对每个测量进行分布级校准,作为标准数据一致性项的直接实用替代品。与现有正则化器兼容,优化方式与传统损失相同。
  • Result: 在图像去噪中,用DC损失替代MSE损失无需早停即可获得更高PSNR;在医学图像重建中,DC损失减少了高度迭代重建中的伪影,增强了手工正则化的效果。
  • Conclusion: DC损失作为一种统计基础、性能增强的替代方案,适用于许多实际逆问题,特别是在测量噪声分布已知且测量数据集包含许多独立噪声值的情况下。

[113] Towards Reversible Model Merging For Low-rank Weights

Mohammadsajad Alipour,Mohammad Mohammadi Amiri

Main category: cs.LG

TL;DR: 提出可逆模型融合(RMM)方法,通过构建紧凑基空间而非单一合并权重,解决低秩压缩模型融合时的性能下降问题。

  • Motivation: 传统模型融合方法应用于低秩权重(如LoRA或SVD压缩)时会导致严重的性能下降,需要新的融合策略。
  • Method: 构建重构能力的模型空间,通过线性组合恢复原始任务特定模型,提供闭式解选择最优权重基和任务特定系数。
  • Result: 在多样化数据集和模型规模上的实验表明,RMM显著优于现有融合方法,大幅保留低秩压缩模型的性能。
  • Conclusion: 将模型融合重新定义为生成重构能力模型空间而非单一合并模型,能够有效解决低秩模型融合的性能问题。

[114] Backdoor Unlearning by Linear Task Decomposition

Amel Abdelraheem,Alessandro Favero,Gerome Bovet,Pascal Frossard

Main category: cs.LG

TL;DR: 该论文提出了一种简单有效的后门移除方法,利用后门与良性任务在权重空间中的解耦特性,能够几乎完美地消除后门影响,同时保持96%的干净准确率。

  • Motivation: 基础模型容易受到对抗性扰动和后门攻击,现有防御方法需要昂贵的微调且会降低模型在其他任务上的性能。本文研究是否能在不损害模型通用能力的前提下移除后门。
  • Method: 研究发现后门在模型权重空间中与良性任务是解耦的,基于这一发现提出了一种简单的反学习方法,通过隔离和擦除后门的影响来实现无学习。
  • Result: 在CLIP模型和常见对抗触发器的实验中,该方法实现了近乎完美的后门移除,平均保持96%的干净准确率,即使攻击未知也能通过反向工程触发器成功移除后门。
  • Conclusion: 该方法在无学习和干净准确率权衡方面始终优于现有最先进的防御方法,证明了后门移除可以不损害模型通用能力。

[115] pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation

Hansheng Chen,Kai Zhang,Hao Tan,Leonidas Guibas,Gordon Wetzstein,Sai Bi

Main category: cs.LG

TL;DR: 提出π-Flow模型,通过策略蒸馏方法解决少步扩散模型中的质量-多样性权衡问题,在ImageNet 256²上达到1-NFE FID 2.85,优于相同架构的MeanFlow。

  • Motivation: 传统少步扩散模型将速度预测教师模型蒸馏为预测去噪捷径的学生模型,这种格式不匹配导致复杂的蒸馏过程,往往面临质量与多样性的权衡问题。
  • Method: π-Flow修改学生流模型的输出层,在单个时间步预测无网络策略,该策略在后续子步产生动态流速度,实现快速准确的ODE积分而无需额外网络评估。采用模仿蒸馏方法,使用标准ℓ₂流匹配损失将策略速度与教师速度沿策略轨迹匹配。
  • Result: 在ImageNet 256²上达到1-NFE FID 2.85,优于相同DiT架构的MeanFlow。在FLUX.1-12B和Qwen-Image-20B上,4 NFE时比最先进少步方法获得显著更好的多样性,同时保持教师级质量。
  • Conclusion: π-Flow通过简单模仿教师行为,实现了稳定可扩展的训练,避免了质量-多样性权衡问题,在少步生成任务中表现出色。

cs.MM

[116] Deep Compositional Phase Diffusion for Long Motion Sequence Generation

Ho Yin Au,Jie Chen,Junkun Jiang,Jingyu Xiang

Main category: cs.MM

TL;DR: 提出Compositional Phase Diffusion框架,通过语义相位扩散模块和过渡相位扩散模块解决多语义运动序列生成中的过渡不连续问题。

  • Motivation: 现有运动生成模型在创建包含多个语义运动片段的复合序列时,难以保持运动动力学在片段过渡边界处的连续性,导致尴尬的过渡和突变伪影。
  • Method: 使用语义相位扩散模块(SPDM)和过渡相位扩散模块(TPDM),在预训练的动作中心运动相位自编码器(ACT-PAE)建立的潜在运动频域中,逐步将语义指导和相邻运动片段的相位细节融入扩散过程。
  • Result: 实验结果表明该框架在生成与输入条件语义对齐的复合运动序列方面具有竞争力,同时保持了前后运动片段之间的相位过渡连续性。
  • Conclusion: 该框架通过固定输入运动序列的相位参数,还可实现运动插值任务,展示了扩展到各种应用场景的潜力。

cs.CL

[117] Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA

A H M Rezaul Karim,Ozlem Uzuner

Main category: cs.CL

TL;DR: MasonNLP系统使用基于检索增强生成(RAG)的通用指令调优大语言模型,在MEDIQA-WV 2025伤口护理视觉问答任务中排名第三,证明了轻量级RAG方法在医疗多模态NLP任务中的有效性。

  • Motivation: 解决医疗视觉问答(MedVQA)中的伤口护理问题,支持临床决策和患者护理,需要生成自由文本回答和结构化伤口属性。
  • Method: 采用通用指令调优大语言模型,结合检索增强生成(RAG)框架,融入领域内数据的文本和视觉示例,无需额外训练或复杂重排序。
  • Result: 在19个团队51个提交中排名第三,平均得分41.37%,在dBLEU、ROUGE、BERTScore和基于LLM的指标上表现优异。
  • Conclusion: 轻量级RAG与通用LLMs结合提供了一个简单有效的多模态临床NLP任务基线方法,仅需少量相关示例的索引和融合。

[118] Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking

Ziqi Dai,Xin Zhang,Mingxin Li,Yanzhao Zhang,Dingkun Long,Pengjun Xie,Meishan Zhang,Wenjie Li,Min Zhang

Main category: cs.CL

TL;DR: 该论文比较了对比学习(CL)和监督微调(SFT)在LLM重排序任务中的效果,发现SFT在权重更新方面显著优于CL,从而在LLM重排序中表现更好。

  • Motivation: 在信息检索中,BERT编码器使用对比学习更有效,而LLM使用监督微调更有效,这种差异引发了研究:哪种目标函数更适合LLM重排序,以及其背后的机制是什么?
  • Method: 将目标函数分解为权重和方向两个组件,通过统一框架分析它们的相互作用,并在通用多模态检索(UMR)上进行实验比较。
  • Result: SFT提供了比CL更强的权重方案,而评分方向没有明显差异,SFT在LLM重排序中具有一致优势,在MRB基准上取得了新的最先进结果。
  • Conclusion: SFT在LLM重排序中优于CL,主要原因是其更强的权重更新机制,这一发现对未来的研究和应用具有重要价值。

[119] DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

Yu Zhou,Sohyun An,Haikang Deng,Da Yin,Clark Peng,Cho-Jui Hsieh,Kai-Wei Chang,Nanyun Peng

Main category: cs.CL

TL;DR: 多模态生成模型在处理方言文本输入时存在显著性能下降,本文构建了包含6种英语方言的大规模基准测试,并提出了一种编码器缓解策略来同时提升方言性能并保持标准英语性能。

  • Motivation: 研究多模态生成模型是否能有效处理方言文本输入,因为方言使用者在与生成模型交互时经常使用方言,但现有模型可能无法很好地处理这种语言变体。
  • Method: 构建包含6种英语方言的4200多个提示的大规模基准测试,评估17个图像和视频生成模型,并提出基于编码器的缓解策略来教模型识别新方言特征同时保持标准英语性能。
  • Result: 当前最先进的多模态生成模型在使用单个方言词时性能下降32.26%至48.17%,常见缓解方法只能小幅提升方言性能(<7%)但可能显著降低标准英语性能。本文方法能在Stable Diffusion 1.5等模型上同时将5种方言性能提升至与标准英语相当(+34.4%),且对标准英语性能影响极小。
  • Conclusion: 多模态生成模型在处理方言输入时存在显著挑战,本文提出的编码器缓解策略能有效解决这一问题,实现方言性能的大幅提升同时保持标准英语性能。

eess.IV

[120] Reinforcement Learning for Unsupervised Domain Adaptation in Spatio-Temporal Echocardiography Segmentation

Arnaud Judge,Nicolas Duchateau,Thierry Judge,Roman A. Sandler,Joseph Z. Sokol,Christian Desrosiers,Olivier Bernard,Pierre-Marc Jodoin

Main category: eess.IV

TL;DR: RL4Seg3D是一个用于2D+时间超声心动图分割的无监督域自适应框架,通过强化学习和新颖的奖励函数提高分割精度、解剖有效性和时间一致性,无需目标域标签。

  • Motivation: 解决医学图像分割中域自适应方法在目标域可靠性不足的问题,特别是在时空数据和超声心动图中,噪声、伪影和时间不一致性会严重影响分割质量。
  • Method: 使用强化学习进行图像分割,集成新颖的奖励函数和融合方案,处理全尺寸输入视频,提高关键地标精度。
  • Result: 在超过30,000个超声心动图视频上验证,性能优于标准域自适应方法,无需目标域标签,并提供稳健的不确定性估计器。
  • Conclusion: RL4Seg3D框架有效解决了超声心动图分割中的域自适应挑战,提高了分割精度和时间一致性,同时提供有用的不确定性估计。

[121] A Density-Informed Multimodal Artificial Intelligence Framework for Improving Breast Cancer Detection Across All Breast Densities

Siva Teja Kakileti,Bharath Govindaraju,Sudhakar Sampangi,Geetha Manjunath

Main category: eess.IV

TL;DR: 提出了一种基于乳腺密度的多模态AI框架,通过动态选择乳腺X线摄影或热成像来优化乳腺癌检测,在致密型乳腺中显著提高了检测灵敏度。

  • Motivation: 乳腺X线摄影在致密型乳腺组织中的灵敏度较低,导致漏诊或延迟诊断,需要开发能够补充结构数据的功能性成像方法。
  • Method: 324名女性同时接受乳腺X线摄影和热成像检查,基于乳腺密度动态选择最佳成像模态:脂肪型乳腺使用乳腺X线AI,致密型乳腺使用热成像AI。
  • Result: 多模态AI框架灵敏度达94.55%,特异性79.93%,优于单独乳腺X线AI(灵敏度81.82%)和热成像AI(灵敏度92.73%)。乳腺X线在致密型乳腺中灵敏度显著下降至67.86%。
  • Conclusion: 密度指导的多模态AI框架可克服单模态筛查的关键限制,在不同乳腺成分中均能提供高性能,具有可解释性、低成本且易于部署的优势。