Skip to content
每日arXiv - 2025年12月5日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Beyond Flicker: Detecting Kinematic Inconsistencies for Generalizable Deepfake Video Detection

Alejandro Cobo,Roberto Valle,José Miguel Buenaposada,Luis Baumela

Main category: cs.CV

TL;DR: 提出一种合成视频生成方法,通过操纵面部运动基元引入运动不一致性,训练网络检测生物力学缺陷,在多个基准测试中实现最先进的泛化性能。

  • Motivation: 现有深度伪造检测方法难以泛化到未见过的伪造技术,特别是视频领域。现有视频检测方法主要关注帧间不稳定性,但忽略了不同面部区域自然运动依赖关系的破坏这一关键漏洞。
  • Method: 提出合成视频生成方法:1) 训练自编码器将面部关键点配置分解为运动基元;2) 通过操纵这些基元选择性地破坏面部运动的自然相关性;3) 通过面部变形将这些伪影引入原始视频;4) 用生成的数据训练网络检测生物力学缺陷。
  • Result: 在多个流行基准测试中实现了最先进的泛化结果,能够有效检测出复杂的生物力学缺陷。
  • Conclusion: 通过合成具有运动不一致性的训练数据,可以训练网络检测面部运动的生物力学缺陷,显著提高深度伪造检测的泛化能力,特别是在视频领域。

[2] OnSight Pathology: A real-time platform-agnostic computational pathology companion for histopathology

Jinzhen Hu,Kevin Faust,Parsa Babaei Zadeh,Adrienn Bourkas,Shane Eaton,Andrew Young,Anzar Alvi,Dimitrios George Oreopoulos,Ameesha Paliwal,Assem Saleh Alrumeh,Evelyn Rose Kamski-Hennekam,Phedias Diamandis

Main category: cs.CV

TL;DR: OnSight Pathology是一个平台无关的计算机视觉软件,通过连续屏幕捕获提供实时AI推理,可在消费级PC上本地运行,无需复杂集成,支持多种病理学任务。

  • Motivation: 传统组织学检查依赖主观解释和专家,准确性受限;现有AI解决方案多为专有系统,部署障碍大,需要一种易于部署的实时AI病理分析工具。
  • Method: 开发平台无关的计算机视觉软件,通过连续自定义屏幕捕获技术,在用户查看数字切片图像时提供实时AI推理,支持本地运行,无需复杂软件集成。
  • Result: 在2500多张公开全切片图像和临床病例上验证,软件在脑肿瘤分类、有丝分裂检测、免疫组化染色定量等常规病理任务中表现稳健,兼容多种切片查看器和实时显微镜摄像头。
  • Conclusion: OnSight Pathology能够跨多种病理流程提供实时AI推理,消除了AI工具在组织病理学中采用的关键障碍,具有广泛部署潜力。

[3] Look Around and Pay Attention: Multi-camera Point Tracking Reimagined with Transformers

Bishoy Galoaa,Xiangyu Bai,Shayda Moezzi,Utsav Nandi,Sai Siddhartha Vivek Dhir Rangoju,Somaieh Amraee,Sarah Ostadabbas

Main category: cs.CV

TL;DR: LAPA是一种基于Transformer的端到端多相机点跟踪架构,通过注意力机制结合外观匹配和几何约束,在复杂运动和遮挡场景中显著优于现有方法。

  • Motivation: 传统多相机点跟踪方法将检测、关联和跟踪解耦,导致误差传播和时间不一致性,特别是在具有挑战性的场景中。需要一种统一的方法来同时处理跨视图和时间的推理。
  • Method: 提出LAPA架构,使用跨视图注意力机制结合几何先验建立软对应关系,通过注意力加权聚合构建3D点表示,并通过Transformer解码器建模长程依赖以保持时间一致性。
  • Result: 在TAPVid-3D-MC和PointOdyssey-MC数据集上分别达到37.5%和90.3%的APD,显著优于现有方法,特别是在复杂运动和遮挡场景中表现优异。
  • Conclusion: LAPA通过统一的端到端Transformer架构成功整合了外观匹配和几何约束,为多相机点跟踪提供了更鲁棒和一致的解决方案,代码已开源。

[4] Generalized Event Partonomy Inference with Structured Hierarchical Predictive Learning

Zhou Chen,Joe Lin,Sathyanarayanan N. Aakur\

Main category: cs.CV

TL;DR: PARSE:一个无监督学习框架,通过分层预测器从流式视频中学习多尺度事件结构,利用预测误差峰值检测事件边界,实现人类感知式的层次化事件分割。

  • Motivation: 人类自然地将连续经验感知为时间嵌套事件的层次结构,但计算机视觉需要能够前瞻性和层次性地分割视频的模型。现有方法通常需要监督或只能进行回顾性分析。
  • Method: PARSE使用分层循环预测器框架,不同层级以不同时间粒度运行:底层建模短期动态,高层通过注意力反馈整合长期上下文。事件边界通过预测误差的瞬态峰值自然出现。
  • Result: 在Breakfast Actions、50 Salads和Assembly 101三个基准测试中,PARSE在流式方法中达到最先进性能,在时间对齐(H-GEBD)和结构一致性(TED, hF1)方面与离线基线相当。
  • Conclusion: 不确定性下的预测学习为实现类人的时间抽象和组合事件理解提供了可扩展的路径,能够无监督地学习反映人类事件感知的层次化事件结构。

[5] MoReGen: Multi-Agent Motion-Reasoning Engine for Code-based Text-to-Video Synthesis

Xiangyu Bai,He Liang,Bishoy Galoaa,Utsav Nandi,Shayda Moezzi,Yuhang He,Sarah Ostadabbas

Main category: cs.CV

TL;DR: MoReGen是一个运动感知、物理基础的文本到视频生成框架,通过多智能体LLM、物理模拟器和渲染器生成物理准确的视频,并提出MoReSet基准和轨迹对应度量来评估物理有效性。

  • Motivation: 当前文本到视频生成在真实感方面取得显著进展,但生成符合物理原理、运动连贯的视频仍是核心挑战。现有模型难以保持物理有效性,需要系统研究牛顿运动控制的视频生成与评估。
  • Method: 提出MoReGen框架,整合多智能体LLM、物理模拟器和渲染器,在代码域中从文本提示生成可重现的物理准确视频。提出物体轨迹对应作为直接评估指标,并构建MoReSet基准数据集(1,275个人工标注视频,涵盖9类牛顿现象)。
  • Result: 实验表明,现有最先进的T2V模型在保持物理有效性方面存在困难,而MoReGen为物理连贯的视频合成建立了原则性方向。通过MoReSet基准评估,揭示了当前模型的物理一致性缺陷。
  • Conclusion: MoReGen框架为物理准确的视频生成提供了系统方法,MoReSet基准和评估指标为物理有效性评估提供了量化标准,推动了物理连贯视频合成的发展。

[6] ReasonX: MLLM-Guided Intrinsic Image Decomposition

Alara Dirik,Tuanfeng Wang,Duygu Ceylan,Stefanos Zafeiriou,Anna Frühstück

Main category: cs.CV

TL;DR: ReasonX利用多模态大语言模型作为感知评判器,通过相对内在比较作为GRPO奖励,在无标注的真实图像上微调内在分解模型,显著提升性能

  • Motivation: 当前基于扩散和Transformer的内在图像分解模型依赖合成数据集的配对监督,但在多样化真实场景中的泛化能力有限
  • Method: 使用多模态大语言模型作为感知评判器提供相对内在比较,将这些比较作为GRPO奖励来微调内在分解模型,通过奖励模型输出与评判器关系评估之间的一致性来对齐条件内在预测器
  • Result: 在多种基础架构和模态上取得显著改进:IIW数据集上白度差异减少9-25%,ETH3D数据集上深度准确率提升高达46%
  • Conclusion: ReasonX展示了MLLM引导的比较监督在连接低层和高层视觉推理方面的潜力,为无监督内在图像分解提供了有效框架

[7] 6 Fingers, 1 Kidney: Natural Adversarial Medical Images Reveal Critical Weaknesses of Vision-Language Models

Leon Mayer,Piotr Kalinowski,Caroline Ebersbach,Marcel Knopp,Tim Rädsch,Evangelia Christodoulou,Annika Reinke,Fiona R. Kolbinger,Lena Maier-Hein

Main category: cs.CV

TL;DR: 提出了AdversarialAnatomyBench基准测试,用于评估视觉语言模型在罕见解剖变异上的表现,发现现有模型在罕见解剖结构上的准确率大幅下降,揭示了医学AI中的解剖偏见问题。

  • Motivation: 现有视觉语言模型基准测试主要评估常见解剖表现,无法捕捉罕见解剖变异带来的挑战。临床工作中需要处理各种解剖变异,但当前模型在这方面的表现尚未得到系统评估。
  • Method: 创建了AdversarialAnatomyBench基准测试,包含多种成像模态和解剖区域的自然罕见解剖变异。评估了22个最先进的视觉语言模型,包括GPT-5、Gemini 2.5 Pro和Llama 4 Maverick等。
  • Result: 模型在罕见解剖变异上的平均准确率从典型解剖的74%下降到29%。即使表现最好的模型也出现了41-51%的性能下降。模型错误反映了预期的解剖偏见,模型缩放和干预措施(包括偏见感知提示和测试时推理)都无法解决这些问题。
  • Conclusion: 当前视觉语言模型在罕见解剖表现上的泛化能力存在严重不足,这是先前未被量化的关键限制。AdversarialAnatomyBench为系统测量和减轻多模态医学AI系统中的解剖偏见提供了基础。

[8] MVRoom: Controllable 3D Indoor Scene Generation with Multi-View Diffusion Models

Shaoheng Fang,Chaohui Yu,Fan Wang,Qixing Huang

Main category: cs.CV

TL;DR: MVRoom是一个用于3D室内场景的可控新视角合成管道,使用基于粗糙3D布局的多视角扩散模型,通过两阶段设计和布局感知的极线注意力机制实现高质量、一致的多视角生成。

  • Motivation: 现有新视角合成方法在保持多视角一致性和可控性方面存在挑战,特别是在复杂室内场景中。需要一种能够利用3D布局信息来增强一致性和可控性的方法。
  • Method: 采用两阶段设计:第一阶段使用新颖表示方法桥接3D布局和图像条件信号;第二阶段进行图像条件多视角生成,引入布局感知极线注意力机制。还提出迭代框架支持递归生成和文本到场景生成。
  • Result: 实验结果表明,MVRoom在新视角合成中实现了高保真度和可控的3D场景生成,在定量和定性评估上都优于最先进的基线方法。消融研究验证了关键组件的有效性。
  • Conclusion: MVRoom通过结合3D布局条件和创新的多视角一致性机制,成功实现了高质量、可控的室内场景新视角合成,为3D场景生成提供了有效的解决方案。

[9] UniLight: A Unified Representation for Lighting

Zitian Zhang,Iliyan Georgiev,Michael Fischer,Yannick Hold-Geoffroy,Jean-François Lalonde,Valentin Deschaintre

Main category: cs.CV

TL;DR: UniLight提出统一的联合潜在空间作为光照表示,将文本、图像、辐照度和环境贴图等多种模态统一到共享嵌入中,支持跨模态的光照操作。

  • Motivation: 光照对视觉外观有重要影响,但现有光照表示(环境贴图、辐照度、球谐函数、文本)互不兼容,限制了跨模态的转换和操作。
  • Method: 提出UniLight联合潜在空间表示,训练模态特定的编码器(文本、图像、辐照度、环境贴图)进行对比学习对齐表示,并加入球谐函数预测任务增强方向性理解。构建多模态数据管道支持大规模训练。
  • Result: 实验表明该表示能捕获一致且可迁移的光照特征,在光照检索、环境贴图生成和扩散模型图像合成中的光照控制三个任务上表现良好。
  • Conclusion: UniLight实现了跨模态的光照统一表示,为灵活的光照操作提供了有效解决方案。

[10] Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video Motion Transfer

Tasmiah Haque,Srinjoy Das

Main category: cs.CV

TL;DR: 提出GRU-SNF,在GRU-NF推理时引入MCMC步骤,增强视频运动转移中未来预测的多样性而不损失准确性

  • Motivation: 实时视频运动转移应用(如沉浸式游戏和视觉异常检测)需要准确且多样化的未来预测,以支持真实合成和不确定性下的鲁棒决策。现有GRU-NF虽然能捕捉多模态分布,但其确定性变换结构限制了表达能力。
  • Method: 提出GRU-SNF(Gated Recurrent Unit-Stochastic Normalizing Flows),在GRU-NF推理时引入受随机归一化流(SNF)启发的MCMC步骤,使模型能探索更丰富的输出空间,更好地近似真实数据分布,无需重新训练。
  • Result: 在基于关键点的视频运动转移管道中验证,GRU-SNF在生成多样化输出方面优于GRU-NF,且不牺牲准确性,即使在较长预测时间范围内也表现良好。通过推理时注入随机性,能更有效地捕捉多模态行为。
  • Conclusion: 将随机动力学与基于流的序列模型相结合,在生成式时间序列预测中具有潜力。GRU-SNF通过推理时MCMC步骤增强了模型表达能力,为视频运动转移等应用提供了更真实和多样化的未来预测。

[11] Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Fan Jia,Yuhao Huang,Shih-Hsin Wang,Cristina Garcia-Cardona,Andrea L. Bertozzi,Bao Wang

Main category: cs.CV

TL;DR: 本文为PnP-Flow图像修复方法建立了SDE理论模型,基于该模型提出了改进策略:优化步长调度、正则化向量场Lipschitz常数,并通过外推加速。实验证明改进方法在多种图像修复任务中优于基线方法。

  • Motivation: PnP-Flow模型在图像修复中取得了显著经验成功,但缺乏理论理解。本文旨在建立PnP-Flow的理论基础,通过连续极限推导出SDE替代模型,从而指导模型改进。
  • Method: 1. 推导PnP-Flow的连续极限,得到SDE替代模型;2. 基于SDE模型量化图像修复误差,指导步长调度优化和向量场Lipschitz常数正则化;3. 通过外推加速现有PnP-Flow模型,提出重缩放SDE模型。
  • Result: 在图像去噪、去模糊、超分辨率和修复等基准任务上验证了SDE指导的改进PnP-Flow的有效性。数值结果表明,该方法显著优于基线PnP-Flow和其他最先进方法,在各项评估指标上均取得优越性能。
  • Conclusion: 通过建立PnP-Flow的SDE理论模型,不仅提供了理论理解,还指导了实际改进策略。改进后的PnP-Flow在多种图像修复任务中表现出色,证明了理论指导实践的有效性。

[12] Learning Single-Image Super-Resolution in the JPEG Compressed Domain

Sruthi Srinivasan,Elham Shakibapour,Rajy Rawther,Mehdi Saeedi

Main category: cs.CV

TL;DR: 提出直接在JPEG编码特征上训练超分辨率模型,避免完全解码,显著提升数据加载和训练速度

  • Motivation: 深度学习模型日益复杂,输入数据规模增大,数据加载成为训练和推理的主要瓶颈。尽管专用深度学习硬件有显著进步,但数据加载效率仍需提升
  • Method: 提出轻量级超分辨率流水线,直接在JPEG离散余弦变换(DCT)系数上操作,在频域进行处理,避免完全JPEG解码
  • Result: 数据加载速度提升2.6倍,训练速度提升2.5倍,同时保持与标准超分辨率方法相当的视觉质量
  • Conclusion: 直接在JPEG编码特征上训练超分辨率模型是有效的,能显著提升效率而不牺牲质量,为图像处理任务提供了新的优化方向

[13] Gamma-from-Mono: Road-Relative, Metric, Self-Supervised Monocular Geometry for Vehicular Applications

Gasser Elazab,Maximilian Jansen,Michael Unterreiner,Olaf Hellwich

Main category: cs.CV

TL;DR: GfM是一种轻量级单目几何估计方法,通过解耦全局和局部结构来解决单相机重建中的投影模糊问题,预测主导路面平面和残差变化,实现高精度的近场深度和路面几何估计。

  • Motivation: 传统单目深度估计方法往往会过度平滑路面几何细节(如颠簸、坡度、表面不规则性),丢失对车辆运动规划和稳定性至关重要的信息,需要一种能准确感知车辆3D环境精细几何的方法。
  • Method: GfM通过解耦全局和局部结构来解决单相机重建的投影模糊问题:预测主导路面平面和残差变化,使用gamma(垂直偏差与相机深度的无量纲比值)表示局部变化。仅需相机离地高度,通过闭式解恢复度量深度,无需完整外参标定,适合自监督学习。
  • Result: 在KITTI和RSRD数据集上评估,GfM在近场深度和gamma估计方面达到最先进精度,同时保持竞争力的全局深度性能。轻量级模型(880万参数)能适应不同相机设置,是首个在RSRD上评估的自监督单目方法。
  • Conclusion: GfM提供了一种物理可解释的单目几何估计方法,能准确恢复路面精细几何细节,为车辆安全舒适控制提供关键信息,同时避免了大规模标注数据的需求。

[14] How (Mis)calibrated is Your Federated CLIP and What To Do About It?

Mainak Singha,Masih Aminbeidokhti,Paolo Casari,Elisa Ricci,Subhankar Roy

Main category: cs.CV

TL;DR: 本文研究了联邦学习(FL)对CLIP模型校准的影响,提出了FL²oRA方法,通过LoRA微调策略在联邦学习环境中自然改善模型校准,减少了对显式校准过程的需求。

  • Motivation: 虽然视觉语言模型如CLIP已被广泛研究,但其校准问题(对可靠预测至关重要)关注有限。现有工作主要研究离线环境下的CLIP校准,而联邦学习(FL)微调对CLIP校准的影响尚未探索。本文旨在研究FL如何影响CLIP校准,并提出在分布式环境中提高可靠性的策略。
  • Method: 首先分析文本提示调优方法在FL下的校准表现,发现其会降低校准指标。然后评估现有训练中校准技术在不同全局聚合方法下的效果,发现改进有限。基于这些发现,提出了FL²oRA方法——一种基于LoRA的简单方法,通过选择适当的微调组件自然改善FL中的校准。
  • Result: 实验表明,文本提示调优在FL下会显著降低校准性能,现有校准技术在FL环境中效果有限。而提出的FL²oRA方法在多个基准测试中始终产生良好校准的模型,减少了对显式校准过程的需求。
  • Conclusion: FL中CLIP校准的关键挑战不仅在于如何聚合或校准,更在于选择哪些组件进行微调。FL²oRA通过LoRA微调策略有效解决了这一问题,为联邦学习环境下的模型校准提供了实用解决方案。

[15] Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction

Rui Fonseca,Bruno Martins,Gil Rocha

Main category: cs.CV

TL;DR: TOM Cap是一种无需对齐图像-文本对的文本训练方法,通过CLIP表示和检索增强技术改进图像描述生成

  • Motivation: 减少对人工标注数据的依赖,探索无需对齐图像-文本对的图像描述生成方法,提升无监督方法的性能
  • Method: 基于预训练语言模型解码器,使用经过模态间隙减少处理的CLIP表示进行提示,结合检索到的描述示例和潜在向量表示来指导生成过程
  • Result: TOM Cap在无需训练和纯文本方法中表现最佳,通过实验验证了检索增强和模态间隙减少组件配置选择的影响
  • Conclusion: 提出的文本训练方法在无需对齐图像-文本对的情况下有效提升了图像描述生成的性能

[16] Real-time Cricket Sorting By Sex

Juan Manuel Cantarero Angulo,Matthew Smith

Main category: cs.CV

TL;DR: 开发低成本实时系统,结合计算机视觉和物理执行机构,实现家蟋蟀的自动化性别分选,准确率达86.8%

  • Motivation: 全球对可持续蛋白质来源的需求推动食用昆虫产业发展,家蟋蟀是适合工业化生产的物种。当前养殖实践通常混养而不进行性别分选,尽管选择性育种、优化繁殖比例和营养差异化等方面存在潜在好处。
  • Method: 采用低成本实时系统,结合计算机视觉和物理执行机构。设备集成树莓派5、官方树莓派AI摄像头和定制YOLOv8 nano目标检测模型,配合伺服驱动分选臂。
  • Result: 模型测试中达到mAP@0.5为0.977,实际蟋蟀群体分选实验总体准确率达86.8%。
  • Conclusion: 证明了在资源受限设备上部署轻量级深度学习模型用于昆虫养殖应用的可行性,为改善蟋蟀生产效率和可持续性提供了实用解决方案。

[17] Mind-to-Face: Neural-Driven Photorealistic Avatar Synthesis via EEG Decoding

Haolin Xiong,Tianwen Fu,Pratusha Bhuvana Prasad,Yunxuan Cai,Haiwei Chen,Wenbin Teng,Hanyuan Xiao,Yajie Zhao

Main category: cs.CV

TL;DR: Mind-to-Face:首个从非侵入式脑电图(EEG)信号直接解码为高保真面部表情的框架,通过EEG预测动态、个性化的面部表情,包括细微情感反应。

  • Motivation: 当前的表情化虚拟形象系统严重依赖视觉线索,当面部被遮挡或情感内隐时会失效。需要探索神经信号作为面部表情解码的新途径。
  • Method: 构建双模态记录装置获取同步的EEG和多视角面部视频数据;使用CNN-Transformer编码器将EEG信号映射到密集的3D位置图(超过65k顶点);通过改进的3D高斯溅射渲染管道生成逼真、视角一致的结果。
  • Result: EEG信号能够可靠预测动态、个性化的面部表情,包括细微的情感反应,证明神经信号包含比先前假设更丰富的情感和几何信息。
  • Conclusion: Mind-to-Face建立了神经驱动虚拟形象的新范式,为沉浸式环境中的个性化、情感感知的远程呈现和认知交互提供了可能。

[18] DisentangleFormer: Spatial-Channel Decoupling for Multi-Channel Vision

Jiashu Liao,Pietro Liò,Marc de Kamps,Duygu Sarikaya

Main category: cs.CV

TL;DR: 提出DisentangleFormer,通过空间-通道解耦解决Vision Transformers中空间和通道维度纠缠的问题,特别针对高光谱成像应用,在多个基准数据集上达到SOTA性能。

  • Motivation: 标准自注意力机制同时处理空间和通道维度,导致表示纠缠,无法独立建模结构和语义依赖。这在多通道视觉任务(如高光谱成像)中尤为严重,因为不同通道捕获不同的生物物理或生化线索。
  • Method: 提出基于信息论解相关表示学习的并行架构:1) 并行解耦:独立处理空间token和通道token流;2) 压缩token增强器:动态融合空间和通道流的自适应校准模块;3) 多尺度FFN:用多尺度局部上下文补充全局注意力。
  • Result: 在高光谱基准测试(Indian Pine, Pavia University, Houston, BigEarthNet)和红外病理数据集上达到SOTA性能。在ImageNet上保持竞争力的准确率,同时减少17.8%的FLOPs计算成本。
  • Conclusion: DisentangleFormer通过空间-通道解耦实现了鲁棒的多通道视觉表示,解决了Vision Transformers中的表示纠缠问题,在高光谱成像等应用中表现出色,同时计算效率更高。

[19] SyncTrack4D: Cross-Video Motion Alignment and Video Synchronization for Multi-Video 4D Gaussian Splatting

Yonghan Lee,Tsung-Wei Huang,Shiv Gehlot,Jaehoon Choi,Guan-Ming Su,Dinesh Manocha

Main category: cs.CV

TL;DR: 提出SyncTrack4D方法,通过4D高斯泼溅技术处理非同步多视频,实现跨视频同步与4D重建

  • Motivation: 动态3D场景建模具有挑战性,需要从多视角聚合信息来重建随时间演变的3D几何和运动。现有方法难以处理现实世界中非同步的视频集
  • Method: 1) 计算密集的每视频4D特征轨迹和跨视频轨迹对应关系(使用融合Gromov-Wasserstein最优传输方法)
  1. 执行全局帧级时间对齐以最大化匹配4D轨迹的重叠运动
  2. 基于运动样条支架表示构建多视频4D高斯泼溅实现亚帧同步
  • Result: 在Panoptic Studio和SyncNeRF Blender数据集上评估,平均时间误差低于0.26帧,Panoptic Studio数据集上PSNR达到26.3分,实现了亚帧同步精度和高保真4D重建
  • Conclusion: SyncTrack4D是首个通用的非同步视频集4D高斯泼溅方法,无需预定义场景对象或先验模型,能生成具有密集显式3D轨迹和视频时间偏移的同步4DGS表示

[20] Bayes-DIC Net: Estimating Digital Image Correlation Uncertainty with Bayesian Neural Networks

Biao Chen,Zhenhua Lei,Yahui Zhang,Tongzhi Niu

Main category: cs.CV

TL;DR: 提出基于非均匀B样条曲面的DIC数据集生成方法和Bayes-DIC Net网络架构,通过贝叶斯神经网络提供预测置信度

  • Motivation: 传统DIC方法在真实位移场数据集生成和深度学习算法泛化能力方面存在局限,需要更有效的数据集生成方法和能够提供预测置信度的网络架构
  • Method: 1) 基于非均匀B样条曲面随机生成控制点坐标,构建多样化真实位移场,生成散斑图案数据集;2) 提出Bayes-DIC Net网络架构,包含多级信息提取和单跳跃连接的信息聚合;3) 集成dropout模块实现贝叶斯神经网络,在推理阶段提供预测置信度
  • Result: 开发了能够生成大规模真实位移场数据集的方法,并构建了Bayes-DIC Net网络,该网络不仅提供位移预测结果,还能给出预测置信度,增强了DIC算法在实际应用中的实用性和可靠性
  • Conclusion: 本文为DIC领域的数据集生成和算法性能提升提供了新的视角和方法,通过创新的数据集生成技术和贝叶斯神经网络架构,显著提高了深度学习DIC算法的训练效果和实际应用可靠性

[21] A Retrieval-Augmented Generation Approach to Extracting Algorithmic Logic from Neural Networks

Waleed Khalid,Dmitry Ignatov,Radu Timofte

Main category: cs.CV

TL;DR: NN-RAG是一个检索增强生成系统,可将大型异构PyTorch代码库转换为可搜索、可执行的已验证神经模块库,支持跨仓库的架构模式迁移。

  • Motivation: 现有神经网络组件的重用对研究效率至关重要,但从数千个开源仓库中发现、提取和验证这些模块仍然困难。当前缺乏能够大规模实现跨仓库神经模块发现和迁移的开源系统。
  • Method: NN-RAG采用范围感知的依赖解析、导入保留重构和验证器门控提升。通过多级去重(精确、词法、结构)确保每个检索块都是范围封闭、可编译和可运行的。框架支持与语言模型的可选集成。
  • Result: 应用于19个主要仓库,提取了1,289个候选块,验证了941个(73.0%),其中超过80%结构独特。为LEMUR数据集贡献了约72%的新颖网络结构,实现了跨仓库架构模式的迁移。
  • Conclusion: NN-RAG将碎片化的视觉代码转换为可重现、可追溯的算法发现基础,提供了首个既能量化又能扩展跨仓库可执行神经架构多样性的开源解决方案。

[22] Open Set Face Forgery Detection via Dual-Level Evidence Collection

Zhongyi Cai,Bryce Gernon,Wentao Bao,Yifan Li,Matthew Wright,Yu Kong

Main category: cs.CV

TL;DR: 本文提出DLED方法解决开放集人脸伪造检测问题,通过空间和频率层面的证据融合来估计预测不确定性,在检测新型伪造类别上比基线模型平均提升20%性能。

  • Motivation: 随着人脸伪造生成算法的快速发展,新型伪造类别不断出现,现有的人脸伪造检测方法通常只能进行二值真伪分类或识别已知伪造类别,无法检测新型伪造类型,这在实际应用中存在重大挑战。
  • Method: 提出双层级证据人脸伪造检测(DLED)方法,通过不确定性估计解决开放集人脸伪造检测问题。该方法在空间和频率两个层面收集和融合类别特定的证据来估计预测不确定性,从而识别新型伪造类别。
  • Result: 在多种实验设置下的广泛评估表明,DLED方法在检测新型伪造类别上达到了最先进的性能,比各种基线模型平均提升了20%。在传统的真伪人脸伪造检测任务上,DLED方法也表现出有竞争力的性能。
  • Conclusion: DLED方法通过不确定性估计有效解决了开放集人脸伪造检测问题,能够识别新型伪造类别,在实际应用中具有重要价值,同时在传统真伪检测任务上也保持良好性能。

[23] Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

Kai-Po Chang,Wei-Yuan Cheng,Chi-Pin Huang,Fu-En Yang,Yu-Chiang Frank Wang

Main category: cs.CV

TL;DR: SANTA框架通过自增强对比对齐缓解多模态大语言模型在视频描述中的对象和动作幻觉问题

  • Motivation: 现有MLLMs在生成视频描述时存在事实不准确和严重幻觉问题,特别是动态视频中的视觉对象和时间动作幻觉尚未得到有效解决
  • Method: 提出自增强对比对齐框架:1)幻觉自增强方案识别潜在幻觉并生成对比负样本;2)轨迹-短语对比对齐匹配区域对象和关系引导的动作与对应的视觉和时间短语
  • Result: SANTA在缓解对象和动作幻觉方面优于现有方法,在幻觉检测基准上表现优异
  • Conclusion: SANTA框架通过自增强对比对齐有效解决了视频描述中的对象和动作幻觉问题,提升了MLLMs的事实准确性

[24] MAFNet:Multi-frequency Adaptive Fusion Network for Real-time Stereo Matching

Ao Xu,Rujin Zhao,Xiong Xu,Boceng Huang,Yujia Jia,Hongfeng Long,Fuxuan Chen,Zilong Cao,Fangyuan Chen

Main category: cs.CV

TL;DR: MAFNet:基于多频自适应融合网络的实时立体匹配方法,仅使用高效2D卷积生成高质量视差图,在准确性和实时性间取得良好平衡。

  • Motivation: 现有立体匹配网络要么依赖3D卷积构建代价体(计算开销大),要么基于迭代优化的变形方法(缺乏非局部上下文建模能力),两者在资源受限的移动设备上兼容性差,限制了实时应用部署。
  • Method: 提出多频自适应融合网络(MAFNet):1)自适应频域滤波注意力模块,将完整代价体分解为高频和低频分量分别进行频率感知特征聚合;2)基于Linformer的低秩注意力机制,自适应融合高频和低频信息以获得更鲁棒的视差估计。
  • Result: 在Scene Flow和KITTI 2015等公开数据集上的大量实验表明,MAFNet显著优于现有实时方法,在准确性和实时性能之间展现出良好平衡。
  • Conclusion: MAFNet通过仅使用高效2D卷积实现高质量立体匹配,解决了现有方法在移动设备上的部署限制,为实时应用提供了可行的解决方案。

[25] FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring

Geunhyuk Youk,Jihyong Oh,Munchurl Kim

Main category: cs.CV

TL;DR: FMA-Net++ 是一个联合视频超分辨率和去模糊的框架,专门处理运动与动态变化曝光耦合的复杂退化问题,通过曝光时间感知调制和流引导动态滤波实现高效恢复。

  • Motivation: 现实世界视频恢复面临运动与动态变化曝光耦合的复杂退化问题,这是自动曝光或低光拍摄的常见伪影,但先前工作大多忽略了这一关键挑战。
  • Method: 采用序列级架构,基于分层细化与双向传播块实现并行长程时序建模。每个块包含曝光时间感知调制层,根据每帧曝光条件调整特征,驱动曝光感知的流引导动态滤波模块推断运动和曝光感知的退化核。将退化学习与恢复解耦:前者预测曝光和运动感知先验来指导后者。
  • Result: 在仅使用合成数据训练的情况下,FMA-Net++ 在新提出的 REDS-ME(多曝光)和 REDS-RE(随机曝光)基准测试以及 GoPro 数据集上实现了最先进的准确性和时序一致性,在恢复质量和推理速度方面均优于近期方法,并能很好地泛化到具有挑战性的真实世界视频。
  • Conclusion: FMA-Net++ 通过显式建模运动与动态变化曝光的耦合效应,有效解决了现实世界视频恢复中的关键挑战,在准确性和效率方面均有显著提升,并具有良好的泛化能力。

[26] Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Hieu Dinh Trung Pham,Huy Minh Nhat Nguyen,Cuong Tuan Nguyen

Main category: cs.CV

TL;DR: FARL框架通过傅里叶分析显式解耦视觉表征,使用双交叉注意力机制分别从相位谱和幅度谱提取结构和风格特征,增强视觉语言模型的泛化能力。

  • Motivation: 现有大规模预训练视觉语言模型(VLMs)通常学习整体表征,其中图像的领域不变结构与其领域特定风格隐式纠缠,这限制了模型的泛化能力,需要进一步解耦这些视觉线索。
  • Method: 提出FARL框架:1) 使用傅里叶分析将图像分解为相位谱(结构特征)和幅度谱(风格特征);2) 设计双交叉注意力机制,让可学习的表征标记分别查询这两种特征;3) 采用非对称注入策略将解耦后的标记深度注入VLM编码器。
  • Result: 在15个数据集上的广泛实验证明了该方法的有效性,能够学习更鲁棒的视觉语言对齐。
  • Conclusion: 通过显式解耦视觉表征中的结构和风格特征,FARL框架显著增强了视觉语言模型的泛化能力和鲁棒性。

[27] Performance Evaluation of Transfer Learning Based Medical Image Classification Techniques for Disease Detection

Zeeshan Ahmad,Shudi Bao,Meng Chen

Main category: cs.CV

TL;DR: 该论文对基于深度卷积神经网络的迁移学习技术在医学图像分类中的应用进行了全面分析,评估了6种预训练模型在胸部X光疾病检测任务上的表现,发现InceptionV3性能最优,ResNet系列随深度增加性能提升,并探讨了模型选择的影响因素。

  • Motivation: 医学图像分类在疾病诊断中至关重要,但从头训练大型深度学习模型通常不可行。迁移学习技术通过重用预训练模型来解决这一问题,但需要系统评估不同模型在医学图像分类任务中的表现和适用性。
  • Method: 使用6种预训练模型(AlexNet、VGG16、ResNet18、ResNet34、ResNet50和InceptionV3)在自定义胸部X光数据集上进行疾病检测评估,同时进行不确定性分析和运行时间比较,评估模型的鲁棒性和计算效率。
  • Result: InceptionV3在所有标准指标上表现最佳;ResNet系列随深度增加性能逐渐提升;VGG16和AlexNet表现尚可但准确率较低;迁移学习在数据有限时特别有益,但改进程度受模型架构、数据集大小和领域相似性等因素影响。
  • Conclusion: 迁移学习在医学图像分类中具有重要价值,特别是数据有限时。选择合适的模型需要考虑具体需求,使用训练良好的特征提取器配合轻量级前馈模型即可实现高效预测。该研究为理解迁移学习在医学图像分类中的应用提供了见解。

[28] Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Xiangyi Gao,Danpei Zhao,Bo Yuan,Wentao Li

Main category: cs.CV

TL;DR: 提出DS2D2方法,通过双流谱解耦蒸馏解决遥感图像目标检测中的特征混合和细微特征差异问题,在DIOR和DOTA数据集上显著提升检测性能。

  • Motivation: 现有知识蒸馏方法在遥感图像目标检测中存在特征混合问题,且忽视了由细微特征变化引起的差异,导致知识混淆。需要一种能处理密集小目标检测挑战的通用方法。
  • Method: 提出双流谱解耦蒸馏(DS2D2)方法:1) 使用一阶小波变换进行谱分解以保留关键空间特征,设计密度无关尺度权重(DISW)处理密集小目标;2) 通过全频和高频放大器提取隐含在师生特征差异中的隐式知识。
  • Result: 在DIOR数据集上,RetinaNet提升4.2% AP50,Faster R-CNN提升3.8% AP50,优于现有蒸馏方法。在DOTA数据集上也验证了有效性。
  • Conclusion: DS2D2是一种架构无关的通用蒸馏方法,能有效解决遥感图像目标检测中的特征混合和细微差异问题,显著提升检测性能,代码已开源。

[29] UTrice: Unifying Primitives in Differentiable Ray Tracing and Rasterization via Triangles for Particle-Based 3D Scenes

Changhe Liu,Ehsan Javanmardi,Naren Bao,Alex Orsholits,Manabu Tsukada

Main category: cs.CV

TL;DR: 提出了一种基于三角形的可微光线追踪管道,直接使用三角形作为渲染基元,无需代理几何体,在保持实时渲染性能的同时显著提升渲染质量

  • Motivation: 现有方法通过代理几何体追踪高斯粒子,需要构建复杂的中间网格并执行昂贵的相交测试,因为高斯粒子不适合同时作为光线追踪和光栅化的统一基元
  • Method: 提出可微的基于三角形的光线追踪管道,直接以三角形作为渲染基元,无需依赖任何代理几何体,能够直接渲染光栅化方法Triangle Splatting优化的三角形
  • Result: 该方法比现有光线追踪方法获得显著更高的渲染质量,同时保持实时渲染性能,并能统一新颖视角合成中使用的基元
  • Conclusion: 基于三角形的可微光线追踪管道解决了高斯粒子作为统一渲染基元的局限性,实现了高质量实时渲染和基元统一

[30] Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion and Large Language Models

Manar Alnaasan,Md Selim Sarowar,Sungho Kim

Main category: cs.CV

TL;DR: 提出一个可解释的多模态框架,结合RGB和深度数据识别帕金森病步态模式,通过双编码器提取特征,融合模块增强时空表示,并利用冻结大语言模型生成临床解释。

  • Motivation: 现有步态分析方法存在单模态输入、鲁棒性低、缺乏临床透明度等限制,需要开发更准确、鲁棒且可解释的帕金森病步态分析系统。
  • Method: 使用双YOLOv11编码器提取RGB和深度模态特征,通过多尺度局部-全局提取模块和跨空间颈部融合机制增强时空表示,最后利用冻结大语言模型将视觉嵌入和结构化元数据转换为临床文本解释。
  • Result: 在多模态步态数据集上的实验表明,该RGB-D融合框架相比单输入基线实现了更高的识别准确率、更好的环境变化鲁棒性,以及清晰的视觉-语言推理能力。
  • Conclusion: 通过结合多模态特征学习和基于语言的可解释性,该研究弥合了视觉识别与临床理解之间的差距,为可靠且可解释的帕金森病步态分析提供了新的视觉-语言范式。

[31] Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Sidan Zhu,Hongteng Xu,Dixin Luo

Main category: cs.CV

TL;DR: 提出SSMP方法,通过自步调自校正的掩码预测实现电影预告片自动生成,超越传统的"选择-排序"范式

  • Motivation: 现有自动预告片生成方法采用"选择-排序"范式,存在错误传播问题,限制了生成质量。需要超越这一范式的新方法
  • Method: 提出SSMP方法:使用Transformer编码器,以电影镜头序列为提示生成预告片镜头序列。通过掩码预测训练,掩码率自步调调整任务难度。生成时采用渐进自校正机制,高置信度填充位置后重新掩码剩余位置
  • Result: 定量结果和用户研究均表明SSMP优于现有自动电影预告片生成方法,达到最先进水平
  • Conclusion: SSMP通过双向上下文建模和渐进自校正,超越了传统的"选择-排序"范式,在自动预告片生成任务上取得了优异表现

[32] MindDrive: An All-in-One Framework Bridging World Models and Vision-Language Model for End-to-End Autonomous Driving

Bin Suna,Yaoguang Caob,Yan Wanga,Rui Wanga,Jiachen Shanga,Xiejie Fenga,Jiayi Lu,Jia Shi,Shichun Yang,Xiaoyu Yane,Ziying Song

Main category: cs.CV

TL;DR: MindDrive是一个端到端自动驾驶框架,通过"上下文模拟-候选生成-多目标权衡"的结构化推理范式,将高质量轨迹生成与全面决策推理相结合,实现可解释且认知引导的自动驾驶。

  • Motivation: 现有端到端自动驾驶研究存在两个方向的问题:轨迹生成导向的方法虽然能产生高质量轨迹,但决策机制简单;轨迹选择导向的方法能进行多维度评估选择最佳轨迹,但生成能力不足。需要一种能同时兼顾高质量轨迹生成和全面决策推理的框架。
  • Method: 提出MindDrive框架,包含两个核心组件:1) 基于世界动作模型(WaM)的未来感知轨迹生成器(FaTG),通过自我条件化的"假设分析"模拟预测未来场景并生成前瞻性轨迹候选;2) 基于视觉语言模型(VLM)的评估器(VLoE),利用大模型的推理能力在安全、舒适、效率等多个维度评估轨迹,实现理性且符合人类偏好的决策。
  • Result: 在NAVSIM-v1和NAVSIM-v2基准测试上的大量实验表明,MindDrive在多维度驾驶指标上实现了最先进的性能,显著提升了安全性、合规性和泛化能力。
  • Conclusion: MindDrive通过整合高质量轨迹生成与全面决策推理,为可解释和认知引导的自动驾驶提供了一条有前景的路径,建立了"上下文模拟-候选生成-多目标权衡"的结构化推理范式。

[33] StreamEQA: Towards Streaming Video Understanding for Embodied Scenarios

Yifei Wang,Zhenkai Li,Tianwen Qian,Huanran Zheng,Zheng Wang,Yuqian Fu,Xiaoling Wang

Main category: cs.CV

TL;DR: StreamEQA:首个面向具身智能的流式视频问答基准,评估模型在具身场景下的连续感知和推理能力,包含42个任务和约21K问答对。

  • Motivation: 随着具身智能向现实世界部署发展,需要模型能够持续感知和理解流式视觉输入,维持环境态势感知,理解与周围实体的交互,并基于过去观察、当前上下文和预期未来事件进行动态规划。现有基准无法充分评估这些能力。
  • Method: 提出StreamEQA基准,包含两个正交维度:具身维度(感知、交互、规划三个层次)和流式维度(后向、实时、前向推理)。基于156个独立长视频,通过自动化生成和人工精炼的混合流程创建约21K带精确时间戳的问答对。
  • Result: 评估了13个最先进的视频-LLM,发现尽管在传统基准上表现良好,这些模型在具身场景下的流式视频理解方面仍然存在困难。
  • Conclusion: StreamEQA基准将促进具身应用中的流式视频理解研究,为评估模型在真实世界连续感知和推理能力提供了重要工具。

[34] GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

Changjin Kim,HyeokJun Lee,YoungJoon Yoo

Main category: cs.CV

TL;DR: GuidNoise:基于单对引导的扩散模型,用于广义噪声合成,无需相机元数据,仅需单对噪声/干净图像作为引导,可生成高质量合成噪声图像用于数据增强。

  • Motivation: 现有生成式噪声合成方法需要相机元数据和大量目标特定的噪声-干净图像对,成本高且泛化能力有限。需要一种更简单、更通用的噪声合成方法。
  • Method: 提出GuidNoise方法:1)使用单对噪声/干净图像作为引导;2)引入引导感知仿射特征修改(GAFM);3)设计噪声感知细化损失函数,优化扩散模型的反向过程。
  • Result: GuidNoise能在多样噪声环境下生成高质量合成噪声图像,无需额外元数据。通过自增强显著提升去噪性能,特别是在轻量模型和有限训练数据的实际场景中。
  • Conclusion: GuidNoise提供了一种简单有效的噪声合成解决方案,仅需单对引导图像即可生成逼真噪声,为数据增强和去噪模型训练提供了实用工具。

[35] dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning

Yingzi Ma,Yulong Cao,Wenhao Ding,Shuibai Zhang,Yan Wang,Boris Ivanovic,Ming Jiang,Marco Pavone,Chaowei Xiao

Main category: cs.CV

TL;DR: dVLM-AD:基于扩散的视觉语言模型,用于端到端自动驾驶,通过双向注意力机制提升推理与规划的一致性,在长尾场景中表现优于自回归基线。

  • Motivation: 现有基于自回归的视觉语言模型在自动驾驶中存在推理与规划不一致的问题,而扩散模型具有更好的可控性和可靠性,因此探索扩散模型在端到端驾驶中的应用。
  • Method: 提出dVLM-AD,一个基于离散扩散的视觉语言模型,统一感知、结构化推理和低层规划,利用双向注意力机制和迭代去噪过程。
  • Result: 在nuScenes和WOD-E2E数据集上,dVLM-AD产生更一致的推理-动作对,规划性能与现有驾驶VLM/VLA系统相当,在长尾WOD-E2E场景中行为-轨迹一致性提升9%,RFS提升6%。
  • Conclusion: 扩散模型为可扩展的端到端自动驾驶提供了一条可控且可靠的路径,优于自回归方法。

[36] UniTS: Unified Time Series Generative Model for Remote Sensing

Yuxiang Zhang,Shunlin Liang,Wenyuan Li,Han Ma,Jianglei Xu,Yichuan Ma,Jiangwei Xie,Wei Li,Mengmeng Zhang,Ran Tao,Xiang-Gen Xia

Main category: cs.CV

TL;DR: UniTS是一个基于流匹配生成范式的统一时间序列生成模型,适用于多种遥感时间序列任务,包括重建、去云、变化检测和预测。

  • Motivation: 现有方法通常需要为不同任务设计专门模型,缺乏跨多个时间序列任务的时空特征统一建模。卫星遥感需要捕捉地球环境的复杂动态,包括重建连续无云时间序列图像、检测土地覆盖变化和预测未来地表演化等任务。
  • Method: 基于流匹配生成范式,构建从噪声到目标的确定性演化路径,在任务特定条件指导下实现多任务时空表示的统一建模。架构包括具有时空块的扩散变换器,设计了自适应条件注入器(ACor)增强对多模态输入的条件感知,以及时空感知调制器(STM)提升捕获复杂时空依赖的能力。
  • Result: 构建了两个高质量多模态时间序列数据集TS-S12和TS-S12CR,填补了时间序列去云和预测任务的基准数据集空白。实验表明UniTS在低层和高层时间序列任务中都表现出卓越的生成和认知能力,显著优于现有方法,特别是在严重云污染、模态缺失和预测物候变化等挑战下表现优异。
  • Conclusion: UniTS为多种时间序列任务提供了一个统一的生成模型框架,通过创新的架构设计和高质量数据集构建,在遥感时间序列分析中实现了卓越的性能和泛化能力。

[37] DeRA: Decoupled Representation Alignment for Video Tokenization

Pengbo Guo,Junke Wang,Zhen Xing,Chengxu Liu,Daoguo Dong,Xueming Qian,Zuxuan Wu

Main category: cs.CV

TL;DR: DeRA是一种新颖的1D视频分词器,通过解耦时空表示学习来提高训练效率和性能,在视频生成任务上达到新的SOTA

  • Motivation: 现有视频分词器在同时学习空间和时间表示时存在效率问题,需要一种能够解耦这两种表示学习的方法来提升训练效率和性能
  • Method: DeRA采用1D潜在空间,将视频编码分解为外观和运动两个流,分别与预训练视觉基础模型对齐以捕获空间语义和时间动态。为解决异质监督带来的梯度冲突,提出了对称对齐-冲突投影(SACP)模块来主动重构梯度
  • Result: DeRA在UCF-101上的rFVD指标比之前的SOTA视频分词器LARP提升了25%。在自回归视频生成任务中,在UCF-101类别条件生成和K600帧预测上都达到了新的SOTA结果
  • Conclusion: DeRA通过解耦时空表示学习,结合SACP模块解决梯度冲突,实现了高效且高性能的视频分词,为视频生成任务提供了强大的基础

[38] Not All Birds Look The Same: Identity-Preserving Generation For Birds

Aaron Sun,Oindrila Saha,Subhransu Maji

Main category: cs.CV

TL;DR: 论文提出了NABirds Look-Alikes (NABLA)数据集,用于评估鸟类身份保持生成任务,并展示了现有方法在该数据集上的局限性,以及通过按物种、年龄和性别分组训练可以显著提升性能。

  • Motivation: 当前可控图像生成模型在人类和刚性物体上表现良好,但在非刚性或细粒度类别(如鸟类)上仍有局限。这些领域缺乏高质量数据(尤其是视频或多视角观测),难以评估和改进。鸟类具有高多样性、需要细粒度识别线索和多种姿态,是理想的测试领域。
  • Method: 构建了NABLA数据集,包含4,759个专家标注的图像对,加上从iNaturalist收集的1,073个多图像观测对和少量视频。使用物种、年龄和性别作为身份代理,对图像进行分组训练,以改进身份保持生成性能。
  • Result: 最先进的基线方法在该数据集上无法保持身份一致性。通过按物种、年龄和性别分组训练,在已见和未见物种上都显著提升了身份保持生成性能。
  • Conclusion: NABLA数据集为评估细粒度身份保持生成提供了重要基准,展示了现有方法的局限性,并提出通过分组训练策略可以有效改进鸟类等复杂领域的身份保持生成能力。

[39] Controllable Long-term Motion Generation with Extended Joint Targets

Eunjong Lee,Eunhee Kim,Sanghoon Hong,Eunho Jung,Jihoon Kim

Main category: cs.CV

TL;DR: COMET:实时角色动画生成框架,通过Transformer条件VAE实现精确关节控制,引入参考引导反馈机制保证长期稳定性,支持实时风格迁移。

  • Motivation: 现有角色动画生成方法在实时应用中存在两个主要问题:1)难以提供细粒度控制;2)长序列中运动质量会逐渐退化。这限制了它们在交互式应用中的使用。
  • Method: 提出COMET自回归框架,采用高效的Transformer条件VAE架构,支持对任意用户指定关节的精确交互控制。关键创新是引入参考引导反馈机制,防止误差累积并确保长期时间稳定性,该机制还可作为即插即用的风格化模块。
  • Result: COMET能够以实时速度稳健生成高质量运动,在复杂运动控制任务中显著优于现有方法,验证了其在要求苛刻的交互应用中的实用性。
  • Conclusion: COMET框架解决了实时角色动画生成中的细粒度控制和长期稳定性问题,通过创新的参考引导反馈机制实现了高质量、可控的实时运动合成,为交互式应用提供了实用解决方案。

[40] Shift-Window Meets Dual Attention: A Multi-Model Architecture for Specular Highlight Removal

Tianci Huo,Lingfeng Qi,Yuhan Chen,Qihong Xue,Jinyuan Shao,Hai Yu,Jie Li,Zhanhua Zhang,Guofa Li

Main category: cs.CV

TL;DR: 提出MM-SHR多模型架构,结合卷积和注意力机制,通过OAIBlock和HDDAConv模块实现高效高精度的镜面高光去除

  • Motivation: 实际环境中的镜面高光严重影响视觉性能,降低任务效果和效率。现有单类型模型(CNN或Transformer)难以同时捕捉局部细节和全局依赖关系,无法处理不同尺度的镜面高光问题
  • Method: 提出多模型架构MM-SHR:浅层使用卷积提取局部细节,深层使用注意力机制捕获全局特征;采用粗到细策略,设计OAIBlock(全向注意力集成块)和HDDAConv(自适应区域感知混合域双注意力卷积网络),利用全向像素移位和窗口划分操作实现高光去除
  • Result: 在三个基准任务和六种表面材料上的实验表明,MM-SHR在精度和效率上都优于现有最先进方法
  • Conclusion: MM-SHR通过结合卷积和注意力机制的多模型架构,有效解决了不同尺度镜面高光的去除问题,在准确性和效率上均表现优异

[41] Back to Basics: Motion Representation Matters for Human Motion Generation Using Diffusion Model

Yuduo Jin,Brandon Haworth

Main category: cs.CV

TL;DR: 该论文系统研究了运动扩散模型中运动表示和损失函数的影响,通过代理模型vMDM比较了六种运动表示的性能,分析了不同配置对训练时间的影响,为条件运动扩散模型提供了改进基础。

  • Motivation: 尽管扩散模型在人体运动合成中已广泛应用,但关于运动表示和损失函数等基础问题缺乏系统研究。本文旨在通过受控研究深入理解这些因素对运动扩散模型性能的影响,为改进条件运动扩散模型提供理论基础。
  • Method: 使用代理运动扩散模型(MDM)进行实证研究,采用v损失作为预测目标(vMDM),其中v是运动数据和噪声的加权和。系统评估了文献中六种常见运动表示的性能,比较了不同配置下的训练时间,并在大规模运动数据集上进行评估分析。
  • Result: 实验结果显示不同运动表示在多样数据集上存在明显的性能差异。不同配置对模型训练有显著影响,证明了这些决策对运动扩散模型结果的重要性和有效性。研究还揭示了如何加速运动扩散模型的训练过程。
  • Conclusion: 该研究为运动扩散模型中的关键设计决策提供了实证依据,增强了对潜在数据分布的理解,为改进条件运动扩散模型奠定了基础。研究结果表明运动表示选择和训练配置对模型性能有重要影响。

[42] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

Min Zhao,Bokai Yan,Xue Yang,Hongzhou Zhu,Jintao Zhang,Shilong Liu,Chongxuan Li,Jun Zhu

Main category: cs.CV

TL;DR: UltraImage是一个解决图像扩散变换器在超出训练分辨率时出现内容重复和质量下降问题的框架,通过频率校正和注意力优化实现高质量的超分辨率图像生成。

  • Motivation: 当前图像扩散变换器在生成超出训练分辨率的大尺寸图像时,会出现内容重复和质量下降的问题,限制了其在实际应用中的扩展能力。
  • Method: 1. 通过频率分析发现重复问题源于位置嵌入的主导频率周期性;引入递归主导频率校正来约束外推后的频率周期。2. 发现质量下降源于注意力稀释;提出熵引导的自适应注意力集中,通过调整注意力聚焦因子来平衡局部细节和全局结构。
  • Result: UltraImage在Qwen-Image和Flux(约4K分辨率)上优于现有方法,减少了内容重复并提高了视觉保真度。能够从1328p训练分辨率生成高达6K*6K的图像,展示了极端的扩展能力。
  • Conclusion: UltraImage通过频率校正和注意力优化,有效解决了图像扩散变换器在超分辨率生成中的内容重复和质量下降问题,实现了高质量的大尺寸图像生成。

[43] DuGI-MAE: Improving Infrared Mask Autoencoders via Dual-Domain Guidance

Yinghui Xing,Xiaoting Su,Shizhou Zhang,Donghao Chu,Di Xu

Main category: cs.CV

TL;DR: 提出DuGI-MAE红外基础模型,通过确定性掩码策略和双域引导模块解决InfMAE的局限性,在Inf-590K数据集上预训练,在多种下游任务中表现优异。

  • Motivation: 现有基于可见光数据训练的MAE等基础模型在红外图像理解任务上表现不佳,而InfMAE仍存在信息token遗漏、全局关联建模不足、非均匀噪声忽略等局限性。
  • Method: 1) 基于token熵的确定性掩码策略,仅保留高熵token进行重建;2) 双域引导(DDG)模块同时捕获全局token关系并自适应过滤红外图像中常见的非均匀背景噪声;3) 构建Inf-590K大规模红外数据集进行预训练。
  • Result: 在Inf-590K上预训练的DuGI-MAE在红外目标检测、语义分割和小目标检测等下游任务中展现出强大的泛化能力,实验结果表明其优于监督和自监督对比方法。
  • Conclusion: DuGI-MAE通过改进的掩码策略和双域引导模块有效解决了红外基础模型的局限性,在多种红外视觉任务中实现了优越性能。

[44] EgoLCD: Egocentric Video Generation with Long Context Diffusion

Liuzhou Zhang,Jiarui Ye,Yuanlei Wang,Ming Zhong,Mingju Cao,Wanke Xia,Bowen Zeng,Zeyu Zhang,Hao Tang

Main category: cs.CV

TL;DR: EgoLCD是一个用于生成长上下文第一人称视角视频的端到端框架,通过高效的记忆管理解决内容漂移问题,在EgoVid-5M基准测试中达到最先进性能。

  • Motivation: 现有自回归模型在生成长第一人称视角视频时存在内容漂移问题,对象身份和场景语义随时间退化,需要可靠的长期记忆来保持手-物交互和程序性任务的一致性。
  • Method: EgoLCD将长视频合成视为高效稳定的记忆管理问题,结合长期稀疏KV缓存用于稳定全局上下文,注意力短期记忆通过LoRA进行局部适配,使用记忆调节损失确保一致性记忆使用,结构化叙事提示提供显式时序指导。
  • Result: 在EgoVid-5M基准测试上的广泛实验表明,EgoLCD在感知质量和时序一致性方面均达到最先进性能,有效缓解生成遗忘问题。
  • Conclusion: EgoLCD代表了构建可扩展具身AI世界模型的重要一步,通过创新的记忆管理机制解决了长第一人称视角视频生成中的内容漂移挑战。

[45] VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

Yifei Yu,Xiaoshan Wu,Xinting Hu,Tao Hu,Yangtian Sun,Xiaoyang Lyu,Bo Wang,Lin Ma,Yuewen Ma,Zhongrui Wang,Xiaojuan Qi

Main category: cs.CV

TL;DR: VideoSSM提出了一种结合自回归扩散和混合状态空间记忆的长视频生成模型,通过全局状态空间记忆和局部上下文窗口解决分钟级视频生成的连贯性问题。

  • Motivation: 自回归扩散模型在流式、交互式长视频生成中存在挑战:累积误差、运动漂移和内容重复导致分钟级时间尺度上的连贯性难以保持。需要从记忆角度处理视频合成,将其视为需要协调短期和长期上下文的循环动态过程。
  • Method: 提出VideoSSM模型,统一自回归扩散与混合状态空间记忆。状态空间模型作为整个序列中场景动态的演化全局记忆,上下文窗口提供运动线索和细节的局部记忆。这种混合设计保持全局一致性而不产生冻结重复模式,支持提示自适应交互,并以序列长度的线性时间扩展。
  • Result: 在短期和长期基准测试中,在自回归视频生成器中展示了最先进的时间一致性和运动稳定性,特别是在分钟级时间尺度上。实现了内容多样性和基于提示的交互控制,建立了可扩展、记忆感知的长视频生成框架。
  • Conclusion: VideoSSM通过结合自回归扩散和混合状态空间记忆,成功解决了长视频生成中的连贯性问题,为流式、交互式分钟级视频生成提供了可扩展的解决方案。

[46] Boundary-Aware Test-Time Adaptation for Zero-Shot Medical Image Segmentation

Chenlin Xu,Lei Zhang,Lituan Wang,Xinyu Pu,Pengfei Ma,Guangwu Qian,Zizhou Wang,Yan Wang

Main category: cs.CV

TL;DR: BA-TTA-SAM:一种任务无关的测试时适应框架,通过高斯提示注入和边界感知注意力对齐,显著提升SAM在医学图像分割中的零样本性能,无需源域训练数据。

  • Motivation: 医学图像分割面临标注数据稀缺和计算成本高的挑战。现有方法依赖下游任务特定训练,而SAM等基础模型在医学领域存在域偏移问题,需要高效的零样本增强方法。
  • Method: 提出BA-TTA-SAM框架:1)编码器级高斯提示注入,将基于高斯的提示直接嵌入图像编码器,为初始表示学习提供显式指导;2)跨层边界感知注意力对齐,利用ViT主干中的层次特征交互,将深层语义响应与浅层边界线索对齐。
  • Result: 在ISIC、Kvasir、BUSI和REFUGE四个数据集上,相比SAM的零样本分割性能,DICE分数平均提升12.4%,在医学图像分割中持续优于最先进模型。
  • Conclusion: 该框架显著增强了SAM的泛化能力,无需任何源域训练数据,在公开医学数据集上的广泛实验证明了其优越性。

[47] WiFi-based Cross-Domain Gesture Recognition Using Attention Mechanism

Ruijing Liu,Cunhua Pan,Jiaming Zeng,Hong Ren,Kezhi Wang,Lei Kong,Jiangzhou Wang

Main category: cs.CV

TL;DR: 提出一种基于WiFi信号的跨域手势识别方法,通过融合多角度多普勒频谱图像,结合注意力机制提取领域无关特征,在保持高域内准确率的同时显著提升跨域识别性能。

  • Motivation: 现有WiFi手势识别方案在训练环境中表现良好,但缺乏跨域能力(在未训练环境中的识别性能)。WiFi信号具有广泛可用性、硬件成本低、对环境条件(光照、温度、湿度)鲁棒性强等优势,适合用于环境感知。
  • Method: 1. 从所有接收器的CSI中提取多普勒频谱,沿相同时间轴拼接生成包含多角度信息的融合图像作为输入特征;2. 提出结合多语义空间注意力机制和基于自注意力的通道机制的姿态识别网络,构建注意力图量化手势的时空特征;3. 使用ResNet18作为骨干网络进一步捕获深层特征。
  • Result: 在公开Widar3数据集上的评估显示:域内准确率达到99.72%,跨域识别准确率达到97.61%,显著优于现有最佳解决方案。
  • Conclusion: 提出的方法通过融合多角度多普勒频谱和注意力机制,有效提取领域无关的手势特征,实现了高性能的跨域手势识别,为WiFi信号在环境感知中的应用提供了有效解决方案。

[48] Identity Clue Refinement and Enhancement for Visible-Infrared Person Re-Identification

Guoqing Zhang,Zhun Wang,Hairui Wang,Zhonglin Ye,Yuhui Zheng

Main category: cs.CV

TL;DR: 提出ICRE网络,通过挖掘模态特定属性中的身份线索来增强VI-ReID性能,在多个数据集上超越现有SOTA方法

  • Motivation: 当前VI-ReID方法主要关注学习模态不变特征,但忽视了模态特定身份感知知识在判别特征学习中的关键作用。现有方法只关注跨模态的共同判别语义,而忽略了模态特定属性中的隐含判别知识。
  • Method: 提出ICRE网络:1) MPFR模块聚合共享分支的浅层特征以捕获易被忽视的模态特定属性;2) SDCE模块从聚合的浅层特征中蒸馏身份感知知识并指导模态不变特征学习;3) ICG损失减轻增强特征中的模态差异并促进多样化表示空间学习
  • Result: 在多个公共数据集上的广泛实验表明,ICRE网络明显优于现有的SOTA方法
  • Conclusion: 通过挖掘和利用模态特定属性中的隐含判别知识,ICRE网络有效提升了VI-ReID性能,证明了模态特定身份线索在跨模态匹配中的重要性

[49] Auto3R: Automated 3D Reconstruction and Scanning via Data-driven Uncertainty Quantification

Chentao Shen,Sizhe Zheng,Bingqian Wu,Yaohua Feng,Yuanchen Fei,Mingyu Mei,Hanwen Jiang,Xiangru Huang

Main category: cs.CV

TL;DR: Auto3R是一个数据驱动的三维扫描与重建自动化系统,通过不确定性量化模型预测最佳扫描视角,无需地面真实几何信息,支持非朗伯和镜面材质物体。

  • Motivation: 传统高质量三维扫描依赖人工规划扫描过程,随着无人机、机器人等具身系统的发展,需要完全自动化的精准三维扫描与重建方法,特别是对于非朗伯和镜面材质物体。
  • Method: 提出数据驱动的不确定性量化模型Auto3R,在迭代式三维重建与扫描过程中,无需地面真实几何和外观信息,能高效准确预测潜在扫描视角的不确定性分布。
  • Result: 实验表明Auto3R性能显著优于现有方法,在机器人手臂上部署验证了其能有效数字化真实世界三维物体,生成即用型、照片级逼真的数字资产。
  • Conclusion: Auto3R实现了三维扫描与重建的完全自动化,为具身系统提供了强大的数字化能力,能够处理复杂材质物体并生成高质量数字资产。

[50] PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglement

Yu-Wei Zhan,Xin Wang,Hong Chen,Tongtong Feng,Wei Feng,Ren Wang,Guangyao Li,Qing Li,Wenwu Zhu

Main category: cs.CV

TL;DR: PhyVLLM是一个物理引导的视频大语言模型框架,通过双分支编码器分离外观和运动,使用神经ODE建模物理动力学,无需物理标注,在物理推理和通用视频理解任务上优于现有方法。

  • Motivation: 现有视频大语言模型主要依赖外观匹配,缺乏对物理动力学的深入理解,导致在需要物理推理的场景中表现不佳。物理运动建模面临三个关键挑战:运动信号与外观变化纠缠、需要连续时间运动表示和物理动力学建模、物理属性标注成本高且不切实际。
  • Method: 提出PhyVLLM框架:1) 使用双分支编码器分离视觉外观和物体运动;2) 引入神经ODE模块生成可微分的物理动力学表示;3) 将运动感知表示投影到预训练LLM的token空间;4) 采用自监督方式建模物体运动的连续演化,避免显式物理标注。
  • Result: 实验结果表明,PhyVLLM在物理推理和通用视频理解任务上显著优于最先进的视频大语言模型,证明了显式物理建模的优势。
  • Conclusion: 通过显式融入物理运动建模,PhyVLLM解决了视频大语言模型在物理理解方面的局限性,同时保持了原有的多模态能力,为视频理解提供了更深入的物理推理能力。

[51] Refaçade: Editing Object with Given Reference Texture

Youze Huang,Penghui Ruan,Bojia Zi,Xianbiao Qi,Jianan Wang,Rong Xiao

Main category: cs.CV

TL;DR: Refaçade是一个用于图像和视频对象重纹理的方法,通过纹理移除器和拼图置换技术实现精确可控的局部纹理转移。

  • Motivation: 扩散模型在图像视频编辑方面取得显著进展,但对象重纹理任务尚未充分探索。现有方法如ControlNet存在控制性有限的问题:原始参考图像引入不需要的结构信息,且无法解耦源对象的视觉纹理和结构信息。
  • Method: 提出Refaçade方法,包含两个关键设计:1) 使用在成对纹理/无纹理3D网格渲染上训练的纹理移除器,去除外观信息同时保留源视频的几何和运动;2) 通过拼图置换破坏参考对象的全局布局,使模型专注于局部纹理统计而非全局布局。
  • Result: 大量实验证明该方法在视觉质量、精确编辑和控制性方面表现优异,在定量和人工评估中都优于强基线方法。
  • Conclusion: Refaçade方法能够实现图像和视频中精确可控的纹理转移,解决了现有方法在控制性方面的局限性。

[52] Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent Fusion Model

Bita Baroutian,Atefe Aghaei,Mohsen Ebrahimi Moghaddam

Main category: cs.CV

TL;DR: 提出基于视频的面部序列分析方法,结合图注意力网络和3D ResNet特征,用于酒精中毒检测,在自建数据集上达到95.82%准确率。

  • Motivation: 酒精消费是重要的公共卫生问题,也是全球事故和死亡的主要原因,需要开发非侵入性的可靠检测方法。
  • Method: 整合图注意力网络进行面部关键点分析,使用3D ResNet提取时空视觉特征,通过自适应优先级动态融合特征以提升分类性能。
  • Result: 在包含3,542个视频片段的自建数据集上,模型达到95.82%准确率、0.977精确率和0.97召回率,优于3D-CNN和VGGFace+LSTM基线方法。
  • Conclusion: 该方法在公共安全系统中具有实际部署潜力,能够实现非侵入性、可靠的酒精中毒检测。

[53] X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale

Pei Yang,Hai Ci,Yiren Song,Mike Zheng Shou

Main category: cs.CV

TL;DR: X-Humanoid是一个生成式视频编辑方法,将人类视频转换为类人机器人视频,解决了现有方法无法处理复杂全身运动和遮挡的问题,并创建了大规模数据集。

  • Motivation: 具身AI和人形机器人发展受限于大规模多样化训练数据的稀缺。现有方法主要是在第一人称视频上"叠加"机械臂,无法处理第三人称视频中的复杂全身运动和场景遮挡,不适合将人类视频"机器人化"。
  • Method: 将强大的Wan 2.2模型适配为视频到视频结构,并针对人类到人形机器人的转换任务进行微调。设计可扩展的数据创建流程,使用Unreal Engine将社区资产转换为17+小时的配对合成视频。
  • Result: 将训练好的模型应用于60小时的Ego-Exo4D视频,生成并发布了包含超过360万帧"机器人化"人形机器人视频的大规模数据集。定量分析和用户研究显示方法优于现有基线:69%用户认为其运动一致性最佳,62.1%用户认为具身正确性最佳。
  • Conclusion: X-Humanoid成功解决了人类视频到人形机器人视频转换的挑战,为具身AI和人形机器人研究提供了高质量的大规模训练数据,推动了该领域的发展。

[54] VideoMem: Enhancing Ultra-Long Video Understanding via Adaptive Memory Management

Hongbo Jin,Qingyuan Wang,Wenhao Zhang,Yang Liu,Sijie Cheng

Main category: cs.CV

TL;DR: VideoMem:通过自适应内存管理将超长视频理解建模为序列生成任务的新框架,显著提升现有开源模型性能

  • Motivation: 现有视觉语言模型(VLMs)在超长视频理解方面存在局限,主要受限于上下文长度不足和长期记忆保留效率低。虽然已有工作尝试构建外部知识库和检索增强生成(RAG)系统,但这些方法带来巨大的存储和计算开销。
  • Method: VideoMem将超长视频理解建模为序列生成任务,采用自适应内存管理机制,动态更新全局内存缓冲区,保留关键信息同时丢弃冗余内容。训练时集成了渐进分组相对策略优化(PRPO)算法,包含渐进状态传播(PSP)模块自适应保留有效状态并传播到下一步,以及时间级联奖励(TCR)模块缓解奖励稀疏问题。
  • Result: 在多个超长视频理解基准测试中,VideoMem显著优于现有开源模型,证明了其在处理超长视频内容方面的有效性。
  • Conclusion: VideoMem通过创新的自适应内存管理和高效的PRPO训练算法,成功解决了超长视频理解的挑战,为长视频内容分析提供了有效的解决方案。

[55] Gaussian Entropy Fields: Driving Adaptive Sparsity in 3D Gaussian Optimization

Hong Kuang,Jianchen Liu

Main category: cs.CV

TL;DR: GEF框架通过熵最小化提升3D高斯泼溅的表面重建质量,在保持渲染效率的同时改善几何精度

  • Motivation: 3D高斯泼溅(3DGS)在新视角合成中表现出色,但表面重建质量有待提升。作者观察到良好重建的表面具有低构型熵特性,即主导基元清晰定义几何而冗余成分被抑制。
  • Method: 提出GEF框架,包含三个技术贡献:1)通过熵最小化实现熵驱动的表面建模;2)使用表面邻域冗余指数(SNRI)和图像熵引导加权的自适应空间正则化;3)通过竞争性跨尺度熵对齐实现多尺度几何保持。
  • Result: 在DTU和T&T基准测试中取得竞争性的几何精度,在Mip-NeRF 360上获得最佳渲染质量。具体指标:DTU上Chamfer距离0.64,T&T上F1分数0.44,Mip-NeRF 360上SSIM 0.855和LPIPS 0.136。
  • Conclusion: GEF框架能够在保持光度保真度的同时显著提升表面重建精度,验证了基于熵最小化的表面建模方法的有效性。

[56] Counterfeit Answers: Adversarial Forgery against OCR-Free Document Visual Question Answering

Marco Pintore,Maura Pintor,Dimosthenis Karatzas,Battista Biggio

Main category: cs.CV

TL;DR: 本文提出了一种针对文档视觉问答(DocVQA)系统的新型对抗攻击方法,能够在视觉上难以察觉的情况下伪造文档内容,诱导模型产生特定错误答案或系统性失效。

  • Motivation: 尽管现有的DocVQA模型表现出色,但它们仍然容易受到对抗攻击。当前缺乏针对文档内容进行视觉不可察觉但语义针对性伪造的攻击场景研究,这种攻击可能被用于传播错误信息或破坏系统可靠性。
  • Method: 开发了专门的攻击算法,能够根据攻击者的不同目标(从针对性错误信息到系统性模型失效)生成对抗性伪造文档。这些算法针对文档的视觉和文本特征进行优化,确保伪造在视觉上难以察觉但语义上具有针对性。
  • Result: 攻击方法在两种最先进的端到端DocVQA模型上验证有效:Pix2Struct(视觉语言Transformer)和Donut(基于Transformer的文档图像问答模型)。实验表明这些模型对提出的对抗攻击存在严重脆弱性。
  • Conclusion: 当前DocVQA系统存在严重的安全漏洞,需要开发更强大的防御机制来应对这种新型对抗攻击。研究揭示了文档理解系统中视觉和语义层面安全性的重要性。

[57] COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

Zefeng Zhang,Xiangzhao Hao,Hengzhu Tang,Zhenyu Zhang,Jiawei Sheng,Xiaodong Li,Zhenyang Li,Li Gao,Daiting Shi,Dawei Yin,Tingwen Liu

Main category: cs.CV

TL;DR: COOPER是一个统一的多模态大语言模型,通过深度和分割作为辅助模态,采用两阶段训练获得辅助模态生成和自适应交错推理能力,在空间推理任务上取得了显著提升。

  • Motivation: 当前多模态大语言模型在3D感知推理方面存在困难,现有方法通常孤立地增强感知(通过深度、分割等辅助模态)或推理(通过空间VQA数据集训练),缺乏统一的处理方式。
  • Method: 提出COOPER模型,利用深度和分割作为辅助模态,采用两阶段训练:第一阶段学习辅助模态生成,第二阶段学习自适应交错推理能力。
  • Result: COOPER在空间推理任务上平均提升6.91%,同时保持通用性能。仅训练辅助模态生成的变体在距离和大小估计任务上获得7.92%的提升。
  • Conclusion: 学习生成辅助模态有助于模型内化空间知识并增强空间理解能力,统一的MLLM可以通过自适应交错推理实现更强的空间智能。

[58] Dataset creation for supervised deep learning-based analysis of microscopic images -- review of important considerations and recommendations

Christof A. Bertram,Viktoria Weiss,Jonas Ammeling,F. Maria Schabel,Taryn A. Donovan,Frauke Wilm,Christian Marzahl,Katharina Breininger,Marc Aubreville

Main category: cs.CV

TL;DR: 这篇综述为病理学深度学习模型开发提供了全面的数据集创建指南,涵盖图像采集、标注软件选择和标注创建等关键步骤,并强调应对领域偏移和标注质量的重要性。

  • Motivation: 深度学习在病理图像分析中展现出巨大潜力,但其开发和验证严重依赖高质量、大规模数据集。当前数据集创建面临时间限制、领域变异性、图像收集和标签创建中的偏见风险等挑战,需要系统性的指导来促进高质量数据集的开发。
  • Method: 提供全面的数据集创建指南,包括:1)图像采集;2)标注软件选择;3)标注创建。强调应对图像变异性(领域偏移),提出标注质量的三个"C"标准:正确性、完整性和一致性。探索使用先进技术提高标注质量的方法,并提供标准操作程序作为补充材料。
  • Result: 建立了病理学深度学习数据集创建的系统框架,提供了应对领域偏移和标注质量挑战的实用解决方案。通过标准操作程序和最佳实践指导,支持数据集创建者开发高质量、大规模数据集。
  • Conclusion: 通过解决数据集创建中的挑战并提供实用建议,这篇综述旨在促进高质量、大规模数据集的创建和可用性,最终推动病理学应用中可泛化和鲁棒的深度学习模型的发展。同时强调开放数据集在推动创新和增强深度学习研究可重复性方面的重要性。

[59] Prompt2Craft: Generating Functional Craft Assemblies with LLMs

Vitor Hideyo Isume,Takuya Kiyokawa,Natsuki Yamanobe,Yukiyasu Domae,Weiwei Wan,Kensuke Harada

Main category: cs.CV

TL;DR: 提出Craft Assembly Task:机器人使用与目标部件不直接对应的可用物体组装目标物体,重点研究从RGB图像中选择可用物体子集的方法。

  • Motivation: 受传统手工艺启发,传统手工艺中人们根据可用物体即兴组装,希望机器人也能在可用物体与目标部件不直接对应的情况下完成组装任务。
  • Method: 使用掩码分割神经网络识别可见部件,检索标记模板网格,进行姿态优化选择最合适模板,将模板网格简化为立方体或圆柱体等基本形状,设计基于局部和全局比例的搜索算法寻找场景对应关系。
  • Result: 在两个不同场景中取得了与基线方法相当的结果,并在真实场景中展示了定性结果。基线方法考虑所有可能组合并选择前景图和掩码精度常用指标得分最高的组合。
  • Conclusion: 提出了Craft Assembly Task的正式定义,并开发了一种从RGB图像中选择可用物体子集的有效方法,在模拟和真实场景中均展示了可行性。

[60] TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

Zishuo Wan,Qinqin Kang,Yi Huang,Yun Bian,Dawei Ding,Ke Yan

Main category: cs.CV

TL;DR: 提出TARDis框架,将缺失的多期相CT视为连续时间衰减曲线上的缺失采样点,通过解耦静态解剖和动态灌注特征来生成缺失的血流动力学特征。

  • Motivation: 多期相CT在肿瘤分割和诊断中至关重要,但临床实践中常因辐射担忧或扫描限制而无法获得完整多期相数据,导致"缺失模态"问题。现有深度学习方法通常将缺失期相视为独立的缺失通道,忽略了血流动力学的固有时间连续性。
  • Method: 提出时间衰减表示解耦(TARDis)框架,将缺失模态重新定义为连续时间衰减曲线上的缺失采样点。采用双路径架构:1)基于量化的路径,使用可学习嵌入字典提取一致的解剖结构;2)概率路径,使用条件变分自编码器建模以估计扫描时间为条件的动态增强。通过从学习的潜在分布中采样来生成缺失的血流动力学特征。
  • Result: 在大型私有腹部CT数据集(2,282例)和两个公共数据集上的实验表明,TARDis显著优于最先进的不完整模态框架。即使在极端数据稀疏场景下,该方法仍能保持稳健的诊断性能。
  • Conclusion: TARDis框架通过物理感知的方法处理缺失的多期相CT数据,在减少辐射暴露的同时保持诊断精度,具有重要的临床应用潜力。

[61] Infrared UAV Target Tracking with Dynamic Feature Refinement and Global Contextual Attention Knowledge Distillation

Houzhang Fang,Chenxing Wu,Kun Bai,Tianqi Chen,Xiaolin Wang,Xiyang Liu,Yi Chang,Luxin Yan

Main category: cs.CV

TL;DR: 提出SiamDFF网络,通过动态特征融合和知识蒸馏解决红外无人机目标跟踪中特征弱、背景复杂的问题,在真实数据集上优于现有方法并达到实时速度。

  • Motivation: 红外无人机目标跟踪在反无人机应用中很重要,但红外目标特征弱、背景复杂,给准确跟踪带来重大挑战。
  • Method: 提出SiamDFF网络,包含选择性目标增强网络(STEN)、动态空间特征聚合模块(DSFAM)和动态通道特征聚合模块(DCFAM),并设计目标感知上下文注意力知识蒸馏器来提升特征提取能力。
  • Result: 在真实红外无人机数据集上的大量实验表明,该方法在复杂背景下优于最先进的目标跟踪器,同时达到实时跟踪速度。
  • Conclusion: SiamDFF通过动态特征融合和知识蒸馏有效解决了红外无人机目标跟踪的挑战,在性能和速度上都表现出色。

[62] SAM3-I: Segment Anything with Instructions

Jingjing Li,Yue Feng,Yuchen Guo,Jincai Huang,Yongri Piao,Qi Bi,Miao Zhang,Xiaoqi Zhao,Qiang Chen,Shihao Zou,Wei Ji,Huchuan Lu,Li Cheng

Main category: cs.CV

TL;DR: SAM3-I扩展了SAM3,使其能够直接理解自然语言指令进行分割,而不仅限于名词短语概念,通过指令感知的级联适配机制统一概念级理解和指令级推理。

  • Motivation: SAM3虽然引入了语言级概念分割,但仅支持名词短语提示,而真实世界应用需要更丰富的表达,包括属性、空间关系、功能、动作、状态等复杂指令。现有方法依赖外部多模态代理将复杂指令转换为名词短语并进行迭代掩码过滤,但名词短语级概念过于粗糙,无法精确表示特定实例。
  • Method: 提出SAM3-I框架,引入指令感知的级联适配机制,逐步对齐表达性指令语义与SAM3现有的视觉-语言表示;设计结构化指令分类法(概念级、简单级、复杂级);开发可扩展的数据引擎构建多样化的指令-掩码对数据集。
  • Result: 实验显示SAM3-I表现出色,证明SAM3可以有效扩展到遵循自然语言指令,同时保持其强大的概念基础。开源SAM3-I并提供实用的微调工作流程,使研究人员能够将其适配到特定领域应用。
  • Conclusion: SAM3-I成功将SAM3从仅支持名词短语概念分割扩展到能够直接理解复杂自然语言指令进行分割,实现了概念级理解和指令级推理的统一,为开放词汇分割提供了更强大的工具。

[63] When Robots Should Say "I Don't Know": Benchmarking Abstention in Embodied Question Answering

Tao Wu,Chuhao Zhou,Guangyu Zhao,Haozhi Cao,Yewen Pu,Jianfei Yang

Main category: cs.CV

TL;DR: 论文提出了AbstainEQA数据集,专注于具身问答中的弃权能力(知道何时不回答),发现现有模型弃权召回率仅42.79%,远低于人类的91.17%。

  • Motivation: 现有具身问答基准假设所有问题都必须回答,但实际中智能体需要知道何时缺乏足够信息来回答问题。研究发现32.4%的人类查询存在缺失或未充分指定的上下文,因此需要研究弃权能力。
  • Method: 基于500个人类查询研究和认知理论,定义了五类需要弃权的情况:行动性限制、指代未明确、偏好依赖、信息不可用、错误预设。将OpenEQA中的问题转换为这些模糊变体,构建了包含1,636个弃权案例的AbstainEQA数据集。
  • Result: 评估发现:最佳前沿模型弃权召回率仅42.79%,人类达到91.17%;扩展规模、提示工程和推理仅带来边际改进;微调模型容易过度拟合文本线索。
  • Conclusion: 弃权是具身环境中可靠交互的基本前提,也是有效澄清的必要基础。当前模型弃权能力严重不足,需要进一步研究。

[64] Malicious Image Analysis via Vision-Language Segmentation Fusion: Detection, Element, and Location in One-shot

Sheng Hang,Chaoxiang He,Hongsheng Hu,Hanqing Hu,Bin Benjamin Zhu,Shi-Feng Sun,Dawu Gu,Shuo Wang

Main category: cs.CV

TL;DR: 提出一个零样本检测管道,能同时检测有害图像内容、识别关键元素并进行像素级定位,通过融合基础分割模型和视觉语言模型实现,对对抗攻击具有高鲁棒性。

  • Motivation: 当前的内容审核需要超越简单的NSFW标记,需要知道图像中哪些具体对象是非法的以及它们的位置。现有方法缺乏细粒度、可解释的恶意图像检测能力。
  • Method: 使用基础分割模型(SAM)生成候选对象掩码并细化为独立区域,通过视觉语言模型(VLM)使用开放词汇提示对每个区域进行恶意相关性评分,加权融合生成恶意对象图,并采用多分割器集成增强对抗攻击鲁棒性。
  • Result: 在790张包含毒品、性、暴力和极端主义内容的数据集上,达到85.8%元素级召回率、78.1%精确率和92.1%分割成功率,比直接零样本VLM定位召回率提高27.4%。对抗PGD攻击时精度和召回率下降不超过10%。
  • Conclusion: 该管道在几秒内处理图像,可无缝集成到现有VLM工作流中,是首个实用的细粒度、可解释恶意图像审核工具,对对抗攻击具有高鲁棒性。

[65] Denoise to Track: Harnessing Video Diffusion Priors for Robust Correspondence

Tianyu Yuan,Yuanbo Yang,Lin-Zhuo Chen,Yao Yao,Zhuzhong Qian

Main category: cs.CV

TL;DR: HeFT是一个零样本点跟踪框架,利用预训练视频扩散模型的视觉先验,通过分析VDiT内部表示发现注意力头的功能特化和低频成分的重要性,提出头-频率感知特征选择策略,在TAP-Vid基准上达到最先进的零样本跟踪性能。

  • Motivation: 探索预训练视频扩散模型如何编码时空信息,并利用这些视觉先验开发无需标注训练数据的零样本点跟踪方法,减少对监督训练的依赖。
  • Method: 1) 分析VDiT内部表示,发现注意力头的功能特化(匹配、语义理解、位置编码)和低频成分的重要性;2) 提出头-频率感知特征选择策略,联合选择最有信息的注意力头和低频成分;3) 通过单步去噪提取判别特征,应用特征选择,使用软argmax定位和前向-后向一致性检查进行对应估计。
  • Result: 在TAP-Vid基准测试中,HeFT实现了最先进的零样本跟踪性能,准确率接近监督方法,同时消除了对标注训练数据的需求。
  • Conclusion: 视频扩散模型可以作为强大的基础模型支持各种下游任务,HeFT展示了利用这些模型的视觉先验实现高效零样本跟踪的可行性,为统一的视觉基础模型铺平了道路。

[66] SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Self-Diagnostic Contrastive Decoding

Chang-Hsun Wu,Kai-Po Chang,Yu-Yang Sheng,Hung-Kai Chung,Kuei-Chun Wang,Yu-Chiang Frank Wang

Main category: cs.CV

TL;DR: SEASON是一种无需训练的方法,通过自适应对比解码来增强视频大语言模型在时空维度上的忠实性,有效缓解幻觉问题

  • Motivation: 当前视频大语言模型在理解视频时难以有效感知和利用丰富的时间信息,导致生成的事件描述存在时间不一致或因果不合理的问题,产生严重的幻觉。现有研究主要关注空间幻觉(如对象不匹配),而时间推理在视频理解中相对未被充分探索。
  • Method: 提出自我诊断对比解码(SEASON),这是一种无需训练的方法,通过动态诊断每个输出token的幻觉倾向,并对其对应的时空负样本应用自适应对比解码,从而自适应地增强每个输出token在时间和空间维度上的忠实性。
  • Result: SEASON在三个幻觉检测基准测试中优于所有现有的无需训练的幻觉缓解方法,同时在四个通用视频理解基准测试中进一步提升了视频大语言模型的性能。
  • Conclusion: SEASON通过自适应对比解码有效解决了视频大语言模型中的时空幻觉问题,无需额外训练即可显著提升模型的时空忠实性和整体视频理解能力。

[67] I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models

Juntong Wang,Jiarui Wang,Huiyu Duan,Jiaxiang Kang,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: I2I-Bench是一个全面的图像编辑模型基准测试,包含10个任务类别、30个细粒度评估维度,采用自动化混合评估方法,解决了现有基准测试任务范围有限、评估维度不足、依赖人工标注的问题。

  • Motivation: 现有图像编辑基准测试存在任务范围有限、评估维度不足、过度依赖人工标注等问题,这限制了其可扩展性和实际应用性,因此需要建立一个更全面、自动化的评估基准。
  • Method: 提出I2I-Bench基准测试,包含三个核心特点:(1) 多样化的任务,涵盖10个任务类别,包括单图像和多图像编辑任务;(2) 全面的评估维度,包含30个解耦的细粒度评估维度,采用自动化混合评估方法,结合专业工具和大规模多模态模型;(3) 严格的对齐验证,确保基准评估与人类偏好的一致性。
  • Result: 使用I2I-Bench对多个主流图像编辑模型进行了基准测试,揭示了不同模型在各种维度上的差距和权衡。所有组件将开源以促进未来研究。
  • Conclusion: I2I-Bench是一个全面、可扩展的图像编辑模型评估基准,解决了现有基准的局限性,为图像编辑研究提供了更可靠的评估框架。

[68] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

Yubo Huang,Hailong Guo,Fangtai Wu,Shifeng Zhang,Shijie Huang,Qijun Gan,Lin Liu,Sirui Zhao,Enhong Chen,Jiaming Liu,Steven Hoi

Main category: cs.CV

TL;DR: Live Avatar:首个实现实时高保真虚拟人生成的算法-系统协同设计框架,通过时间步强制流水线并行和滚动汇帧机制,在5个H800 GPU上达到20FPS的端到端生成

  • Motivation: 现有基于扩散模型的视频生成方法存在顺序计算和长时不一致性问题,限制了在实时流式音频驱动虚拟人合成中的实际应用
  • Method: 1. 时间步强制流水线并行(TPP):将去噪步骤流水线化到多个GPU上,打破自回归瓶颈;2. 滚动汇帧机制(RSFM):通过缓存参考图像动态重新校准外观,增强时间一致性;3. 自强制分布匹配蒸馏:实现大规模模型的可流式因果适配
  • Result: 在5个H800 GPU上实现20FPS端到端生成,达到最先进性能,是首个实现实用、实时、高保真虚拟人生成的系统
  • Conclusion: Live Avatar为工业级长视频合成应用中部署先进扩散模型建立了新范式,解决了实时流式虚拟人生成的关键瓶颈

[69] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

Yunhong Lu,Yanhong Zeng,Haobo Li,Hao Ouyang,Qiuyu Wang,Ka Leong Cheng,Jiapeng Zhu,Hengyuan Cao,Zhipeng Zhang,Xing Zhu,Yujun Shen,Min Zhang

Main category: cs.CV

TL;DR: 提出Reward Forcing框架,包含EMA-Sink和Re-DMD两个创新设计,解决现有视频生成方法中初始帧复制和运动动态不足的问题,实现高效流式视频生成。

  • Motivation: 现有流式视频生成方法使用滑动窗口注意力,将初始帧作为sink tokens来维持注意力性能和减少误差累积,但这导致视频帧过度依赖静态token,造成初始帧复制和运动动态减弱的问题。
  • Method: 提出Reward Forcing框架:1) EMA-Sink:维护固定大小的token,从初始帧初始化并通过指数移动平均融合被移出窗口的token,捕获长期上下文和近期动态;2) Re-DMD:通过视觉语言模型评估动态性,优先处理高奖励样本,使模型输出分布偏向动态内容丰富的区域。
  • Result: 在标准基准测试中达到最先进性能,在单张H100 GPU上实现23.1 FPS的高质量流式视频生成,有效防止初始帧复制并显著提升运动质量。
  • Conclusion: Reward Forcing框架通过EMA-Sink和Re-DMD的创新设计,成功解决了现有视频生成方法的局限性,实现了高效、高质量的流式视频生成,在保持数据保真度的同时显著提升了运动动态。

[70] Towards Cross-View Point Correspondence in Vision-Language Models

Yipu Wang,Yuheng Ji,Yuyang Liu,Enshen Zhou,Ziqiang Yang,Yuxuan Tian,Ziheng Qin,Yue Liu,Huajie Tan,Cheng Chi,Zhiyuan Ma,Daniel Dajun Zeng,Xiaolong Zheng

Main category: cs.CV

TL;DR: 提出跨视角点对应任务(CVPC)和CrossPoint-Bench基准,构建CrossPoint-378K数据集,开发CroPond模型,显著提升跨视角点对应能力。

  • Motivation: 现有视觉语言模型在跨视角点级对应能力不足,而精确的点对应对于空间理解和具身AI中的精确操作交互至关重要。
  • Method: 1) 提出CVPC任务和分层设计的CrossPoint-Bench基准;2) 构建包含378K问答对的CrossPoint-378K数据集,聚焦可操作区域;3) 提出CroPond模型,在数据集上训练。
  • Result: 1) 现有SOTA模型(Gemini-2.5-Pro)与人类差距超过54.65%;2) CroPond在CrossPoint-Bench上超越Gemini-2.5-Pro 39.7%准确率,达到SOTA性能。
  • Conclusion: 跨视角点对应是重要但尚未解决的任务,提出的基准、数据集和模型为未来研究提供了基础,显著提升了模型的精确对应能力。

[71] OmniScaleSR: Unleashing Scale-Controlled Diffusion Prior for Faithful and Realistic Arbitrary-Scale Image Super-Resolution

Xinning Chai,Zhengxue Cheng,Yuhong Zhang,Hengsheng Zhang,Yingsheng Qin,Yucai Yang,Rong Xie,Li Song

Main category: cs.CV

TL;DR: OmniScaleSR:基于扩散模型的任意尺度超分辨率框架,通过显式尺度控制机制与隐式尺度适应协同工作,实现高保真度和高真实感

  • Motivation: 现有任意尺度超分辨率方法主要依赖隐式神经表示,但其回归驱动的特征提取和聚合限制了细节合成能力,导致真实感不足。扩散模型在4x超分辨率中表现出色,但缺乏显式尺度控制,在不同放大倍数下会产生过度幻觉或模糊输出
  • Method: 提出OmniScaleSR框架:1)引入扩散原生的显式尺度控制机制,与隐式尺度适应协同工作,实现尺度感知和内容感知的扩散过程调制;2)结合多域保真度增强设计,进一步提高重建精度
  • Result: 在双三次降质基准测试和真实世界数据集上的实验表明,OmniScaleSR在保真度和感知真实感方面均超越现有最先进方法,在大放大倍数下表现尤为突出
  • Conclusion: OmniScaleSR成功解决了扩散模型在任意尺度超分辨率中的尺度控制问题,实现了高保真度和高真实感的平衡,特别是在超高尺度下表现出色

[72] Measuring the Unspoken: A Disentanglement Model and Benchmark for Psychological Analysis in the Wild

Yigui Feng,Qinglin Wang,Haotian Mo,Yang Liu,Ke Liu,Gencheng Liu,Xinhai Chen,Siqi Shen,Songzhu Mei,Jie Liu

Main category: cs.CV

TL;DR: 提出MIND模型解决对话中视觉-语言模型的发音-情感歧义问题,构建ConvoInsight-DB数据集和PRISM评估框架,在微表情检测上比SOTA提升86.95%

  • Motivation: 野外对话的生成式心理分析面临两大挑战:现有视觉语言模型无法解决发音-情感歧义(说话时的视觉模式模仿情感表达),以及缺乏可验证的评估指标来衡量视觉基础和推理深度。
  • Method: 提出完整生态系统:1) MIND分层视觉编码器,引入状态判断模块基于时间特征方差算法抑制歧义的唇部特征;2) 构建ConvoInsight-DB大规模数据集,包含专家标注的微表情和深度心理推理;3) 设计PRISM自动维度框架,使用专家引导的LLM评估大型心理视觉模型的多维性能。
  • Result: 在PRISM基准测试中,MIND显著优于所有基线模型,在微表情检测上比先前SOTA提升86.95%。消融研究证实状态判断解耦模块是性能提升的最关键组件。
  • Conclusion: 提出的完整生态系统有效解决了野外对话心理分析的两大核心挑战,MIND模型通过算法抑制发音-情感歧义实现了显著的性能提升,为生成式心理分析提供了可靠的解决方案。

[73] E3AD: An Emotion-Aware Vision-Language-Action Model for Human-Centric End-to-End Autonomous Driving

Yihong Tang,Haicheng Liao,Tong Nie,Junlin He,Ao Qu,Kehua Chen,Wei Ma,Zhenning Li,Lijun Sun,Chengzhong Xu

Main category: cs.CV

TL;DR: E3AD是一个情感感知的视觉-语言-动作自动驾驶框架,通过连续VAD情感模型和双通路空间推理模块,实现更人性化的自动驾驶决策。

  • Motivation: 当前端到端自动驾驶系统通常忽略乘客的情感状态,而情感状态对舒适度和自动驾驶接受度至关重要。需要开发能够理解自然语言指令、推断情感并规划可行轨迹的自动驾驶系统。
  • Method: 提出E3AD框架,包含:1) 连续Valenc-Arousal-Dominance(VAD)情感模型,从语言中捕捉语气和紧迫性;2) 双通路空间推理模块,融合自我中心和他者中心视角;3) 一致性导向的训练方案,结合模态预训练和基于偏好的对齐。
  • Result: 在真实世界数据集上,E3AD改善了视觉定位和路径点规划,在情感估计方面实现了最先进的VAD相关性,表明情感注入能产生更人性化的自动驾驶行为。
  • Conclusion: 将情感注入视觉-语言-动作风格的自动驾驶系统能够产生更人性化的定位、规划和反馈,提升自动驾驶系统与人类的对齐程度。

[74] MT-Depth: Multi-task Instance feature analysis for the Depth Completion

Abdul Haseeb Nizamani,Dandi Zhou,Xinhai Sun

Main category: cs.CV

TL;DR: 该论文提出了一种实例感知的深度补全框架,通过集成实例分割掩码作为空间先验来改进深度预测,在Virtual KITTI 2数据集上取得了比基准方法更低的RMSE误差。

  • Motivation: 现有深度补全方法通常依赖语义分割来指导,但忽视了物体级理解的优势。作者认为实例级别的空间信息(如物体边界、遮挡关系)对深度补全有重要价值,特别是在自动驾驶、机器人和增强现实等应用中。
  • Method: 提出四组件框架:1) 冻结的YOLO V11实例分割分支生成前景掩码;2) U-Net深度补全主干网络;3) 交叉注意力融合模块,让实例掩码通过注意力机制指导深度分支;4) 注意力引导的预测头。该方法利用实例掩码作为空间先验,让网络在细化过程中聚焦于物体中心区域。
  • Result: 在Virtual KITTI 2数据集上验证,相比U-Net基准和之前的语义引导方法,取得了更低的RMSE(均方根误差),同时保持竞争力的MAE(平均绝对误差)。定性和定量结果显示,该方法在物体边界、遮挡和薄结构附近的深度准确性得到显著提升。
  • Conclusion: 集成实例感知线索为改进深度补全提供了有前景的方向,无需依赖密集的语义标签。实例级空间先验能有效提升深度预测精度,特别是在复杂场景的细节区域。

[75] Order Matters: 3D Shape Generation from Sequential VR Sketches

Yizi Chen,Sidi Wu,Tianyi Xiao,Nina Wiedemann,Loic Landrieu

Main category: cs.CV

TL;DR: VRSketch2Shape:首个从顺序VR草图生成3D形状的框架和数据集,通过时序感知编码和扩散模型提升几何保真度

  • Motivation: 现有草图到形状模型忽略了笔画的时序顺序,丢弃了关于结构和设计意图的关键线索,而VR草图提供了更直观的3D设计方式
  • Method: 1) 从任意形状自动生成顺序VR草图的流水线;2) 包含4个类别超过20k合成和900手绘草图-形状对的数据集;3) 时序感知草图编码器结合基于扩散的3D生成器
  • Result: 相比先前工作具有更高的几何保真度,从合成到真实草图的泛化效果好且只需最小监督,在部分草图上表现良好
  • Conclusion: VRSketch2Shape是首个处理顺序VR草图的框架,通过利用时序信息显著提升了3D形状生成质量,数据集和模型将开源发布

[76] PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

Bowen Ping,Chengyou Jia,Minnan Luo,Changliang Xia,Xin Shen,Zhuohang Dang,Hangwei Qian

Main category: cs.CV

TL;DR: PaCo-RL:通过强化学习实现一致图像生成的框架,包含一致性奖励模型PaCo-Reward和高效RL算法PaCo-GRPO,在保持视觉一致性方面达到SOTA性能。

  • Motivation: 现有监督学习方法在一致图像生成任务上存在困难,因为缺乏大规模一致性数据集且难以建模人类主观感知偏好。强化学习提供了一种无需大量标注数据就能学习复杂视觉标准的方法。
  • Method: 提出PaCo-RL框架:1) PaCo-Reward:通过自动子图配对构建的大规模数据集训练的一致性评估器,采用生成式自回归评分机制,结合任务感知指令和思维链推理;2) PaCo-GRPO:采用分辨率解耦优化策略降低RL成本,以及log-tamed多奖励聚合机制确保平衡稳定的奖励优化。
  • Result: PaCo-Reward显著提升了与人类视觉一致性感知的对齐度;PaCo-GRPO在一致性性能上达到SOTA,同时提高了训练效率和稳定性。
  • Conclusion: PaCo-RL为一致图像生成提供了一个实用且可扩展的解决方案,展示了强化学习在建模复杂主观视觉标准方面的潜力。

[77] LaFiTe: A Generative Latent Field for 3D Native Texturing

Chia-Hao Chen,Zi-Xin Zou,Yan-Pei Cao,Ze Yuan,Guan Luo,Xiaojuan Qi,Ding Liang,Song-Hai Zhang,Yuan-Chen Guo

Main category: cs.CV

TL;DR: LaFiTe是一个3D原生纹理生成框架,通过生成式稀疏潜在颜色场实现高保真纹理,在重建质量上比现有方法提升超过10dB PSNR。

  • Motivation: 现有3D原生纹理生成方法缺乏强大且通用的潜在表示,这严重限制了生成纹理的保真度和通用性。UV映射和多视图投影方法存在长期局限性,需要一种能够直接在3D表面上生成无缝高保真纹理的新方法。
  • Method: 使用变分自编码器将复杂表面外观编码为稀疏结构化潜在空间,然后解码为连续颜色场。在此基础上,采用条件整流流模型合成高质量、连贯的纹理。
  • Result: 在重建质量上超过现有方法超过10dB PSNR,实现了前所未有的保真度。能够有效解耦纹理外观与网格拓扑和UV参数化,支持多样化的风格和几何形状。
  • Conclusion: LaFiTe为3D原生纹理生成设立了新基准,支持材料合成和纹理超分辨率等下游应用,为下一代3D内容创建工作流程铺平了道路。

[78] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

Xin He,Longhui Wei,Jianbo Ouyang,Lingxi Xie,Qi Tian

Main category: cs.CV

TL;DR: EMMA是一个高效统一的多模态架构,通过32倍压缩的自动编码器、通道级连接、共享解耦网络和专家混合机制,在理解、生成和编辑任务上实现高效高性能

  • Motivation: 当前多模态模型通常专注于单一任务(理解或生成),缺乏统一的架构。现有统一架构存在效率低下、视觉token过多、任务间训练不平衡等问题,需要一种既能高效处理多任务又能保持高性能的解决方案
  • Method: 1) 32倍压缩的高效自动编码器,减少生成所需token数,平衡理解与生成训练;2) 视觉理解与生成token的通道级连接而非token级连接,进一步减少视觉token;3) 共享解耦网络,实现任务间相互促进同时满足特定任务需求;4) 视觉理解编码器采用专家混合机制,以少量参数大幅提升感知能力
  • Result: EMMA-4B在效率和性能上显著优于最先进的统一多模态方法(如BAGEL-7B),同时与最新的多模态理解和生成专家模型(如Qwen3-VL和Qwen-Image)相比也取得竞争性结果
  • Conclusion: EMMA为统一多模态架构的未来发展奠定了坚实基础,证明了通过高效设计可以在统一框架中同时实现多模态理解、生成和编辑任务的高性能

[79] RobustSplat++: Decoupling Densification, Dynamics, and Illumination for In-the-Wild 3DGS

Chuanyu Fu,Guanying Chen,Yuqi Zhang,Kunbin Yao,Yuan Xiong,Chuan Huang,Shuguang Cui,Yasuyuki Matsushita,Xiaochun Cao

Main category: cs.CV

TL;DR: RobustSplat++ 通过延迟高斯增长策略和尺度级联掩码引导方法,解决了3DGS在野外场景中因瞬态物体和光照变化导致的渲染伪影问题。

  • Motivation: 现有3DGS方法难以准确建模受瞬态物体和光照变化影响的野外场景,导致渲染图像出现伪影。研究发现高斯致密化过程在增强场景细节捕捉的同时,会无意中生成额外的Gaussian来建模瞬态干扰和光照变化,从而加剧了伪影问题。
  • Method: 1. 延迟高斯增长策略:优先优化静态场景结构,再允许高斯分裂/克隆,避免早期优化中对瞬态物体的过拟合。2. 尺度级联掩码引导:先利用低分辨率特征相似性监督获得可靠的初始瞬态掩码估计(利用其更强的语义一致性和噪声鲁棒性),再逐步过渡到高分辨率监督以实现更精确的掩码预测。3. 将延迟增长策略和掩码引导与外观建模结合,处理包含瞬态和光照变化的野外场景。
  • Result: 在多个具有挑战性的数据集上进行的大量实验表明,该方法优于现有方法,清晰证明了其鲁棒性和有效性。
  • Conclusion: RobustSplat++ 通过创新的延迟高斯增长和尺度级联掩码引导策略,有效解决了3DGS在野外场景中的鲁棒性问题,实现了对瞬态物体和光照变化的准确建模,显著减少了渲染伪影。

[80] LatentFM: A Latent Flow Matching Approach for Generative Medical Image Segmentation

Huynh Trinh Ngoc,Hoang Anh Nguyen Kim,Toan Nguyen Hai,Long Tran Quoc

Main category: cs.CV

TL;DR: LatentFM是一种在潜在空间操作的基于流的医学图像分割模型,通过变分自编码器编码图像和掩码,学习条件速度场生成多样化分割结果,并提供不确定性估计。

  • Motivation: 流匹配技术在生成模型领域取得了显著进展,能够学习精确的数据密度分布。受此启发,作者希望将这种强大的生成能力应用于医学图像分割任务,实现既能提供准确分割又能量化不确定性的模型。
  • Method: 首先设计两个变分自编码器分别编码医学图像及其对应掩码到低维潜在空间,然后估计基于输入图像的条件速度场来引导流过程。通过采样多个潜在表示,生成多样化的分割输出,其像素级方差可靠地捕捉底层数据分布。
  • Result: 在ISIC-2018和CVC-Clinic两个数据集上的实验表明,该方法在分割准确性方面优于现有基线模型(包括确定性和生成式方法),同时在潜在空间中保持高效性。能够生成置信度图量化模型确定性。
  • Conclusion: LatentFM成功将流匹配技术应用于医学图像分割,实现了高精度和不确定性感知的预测,为临床医生提供了更丰富的信息进行深入分析,在潜在空间中实现了高效准确的分割。

[81] FreeGen: Feed-Forward Reconstruction-Generation Co-Training for Free-Viewpoint Driving Scene Synthesis

Shijie Chen,Peixi Peng

Main category: cs.CV

TL;DR: FreeGen:通过重建-生成协同训练框架,实现自动驾驶场景的自由视点合成,解决了现有方法在插值一致性和外推真实性之间的权衡问题。

  • Motivation: 自动驾驶的闭环仿真和大规模预训练需要合成自由视点驾驶场景,但现有数据集和生成方法很少提供一致的偏离轨迹观测,限制了大规模评估和训练。现有生成模型要么难以同时实现插值一致性和外推真实性,要么需要逐场景优化。
  • Method: 提出FreeGen,一个前馈的重建-生成协同训练框架。重建模型提供稳定的几何表示以确保插值一致性,生成模型执行几何感知增强以提升未见视点的真实性。通过协同训练,生成先验被蒸馏到重建模型中以提高偏离轨迹渲染质量,而精炼的几何又为生成提供更强的结构指导。
  • Result: 实验表明,FreeGen在自由视点驾驶场景合成方面达到了最先进的性能。
  • Conclusion: FreeGen通过重建和生成模型的协同训练,成功解决了自由视点驾驶场景合成中插值一致性和外推真实性的平衡问题,为自动驾驶仿真和大规模预训练提供了有效解决方案。

[82] Tokenizing Buildings: A Transformer for Layout Synthesis

Manuel Ladron de Guevara,Jinmo Rhee,Ardavan Bidgoli,Vaidas Razgaitis,Michael Bergin

Main category: cs.CV

TL;DR: SBM是一种基于Transformer的BIM场景布局合成架构,通过统一异构建筑元素特征为序列,学习联合表示,支持编码器-解码器两种模式,实现高质量房间嵌入和布局生成。

  • Motivation: 解决建筑信息建模(BIM)中如何将异构的建筑元素特征统一为序列表示,同时保持组合结构,以支持布局合成任务。
  • Method: 1) 将建筑元素表示为稀疏属性-特征矩阵;2) 设计统一嵌入模块学习分类和连续特征的联合表示;3) 训练单一Transformer骨干网络,支持编码器模式(生成房间嵌入)和编码器-解码器模式(自回归预测房间实体)。
  • Result: SBM学习到紧凑的房间嵌入,能可靠地按类型和拓扑聚类,实现强语义检索;在DDEP模式下生成功能合理的布局,减少碰撞和边界违规,提高可导航性。
  • Conclusion: SBM通过统一的特征表示和Transformer架构,有效解决了BIM布局合成中的特征异构问题,在检索和生成任务上都表现出色。

[83] A Sanity Check for Multi-In-Domain Face Forgery Detection in the Real World

Jikang Cheng,Renye Yan,Zhiyuan Yan,Yaozhong Gan,Xueyi Zhang,Zhongyuan Wang,Wei Peng,Ling Liang

Main category: cs.CV

TL;DR: 提出MID-FFD新范式解决多域深度伪造检测中域差异主导特征空间的问题,开发DevDet框架增强真伪差异

  • Motivation: 现有深度伪造检测方法追求泛化性,但在训练伪造样本和域有限的情况下,期望完全覆盖未见变体过于理想。多域训练数据对实际应用重要,但域间差异会主导特征空间,导致单图像真伪判断困难
  • Method: 提出MID-FFD研究范式,包含足够多的真伪域训练数据;开发DevDet框架,包含Face Forgery Developer(FFDev)增强真伪差异,以及Dose-Adaptive Fine-Tuning(DAFT)策略进行检测器微调
  • Result: 实验证明该方法在MID-FFD场景下能有效预测真伪,同时保持对未见数据的原始泛化能力
  • Conclusion: MID-FFD是更实用的研究范式,DevDet通过增强真伪差异解决域主导问题,为实际应用中的帧级独立检测提供有效解决方案

[84] Autoregressive Image Generation Needs Only a Few Lines of Cached Tokens

Ziran Qin,Youru Lv,Mingbao Lin,Zeren Zhang,Chanfan Gan,Tieyuan Chen,Weiyao Lin

Main category: cs.CV

TL;DR: LineAR:一种无需训练的自回归图像生成KV缓存压缩方法,通过逐行管理缓存,在保持生成质量的同时显著减少内存使用并提高吞吐量。

  • Motivation: 现有自回归图像生成方法在解码时需要缓存所有已生成的视觉token,导致严重的内存瓶颈,存储需求高且吞吐量低。
  • Method: 提出LineAR方法,利用视觉注意力的内在特性,以2D视图在行级别管理KV缓存,通过行间注意力指导逐步淘汰对后续行生成无害的非信息性token。
  • Result: 在六个自回归图像生成模型上验证有效性,包括LlamaGen-XL、Janus-Pro-1B等。仅保留1/6 KV缓存即可改善生成质量(ImageNet FID从2.77提升至2.68),同时实现高达67.61%的内存减少和7.57倍的加速。
  • Conclusion: LineAR是一种高效的自回归图像生成KV缓存压缩方案,无需训练即可显著降低内存需求并提高吞吐量,同时保持或改善生成质量,具有广泛适用性。

[85] Contact-Aware Refinement of Human Pose Pseudo-Ground Truth via Bioimpedance Sensing

Maria-Paola Forte,Nikos Athanasiou,Giulia Ballardini,Jan Ulrich Bartels,Katherine J. Kuchenbecker,Michael J. Black

Main category: cs.CV

TL;DR: BioTUCH:结合视觉姿态估计与生物阻抗传感的新框架,通过考虑自接触来捕捉3D人体姿态,在重建精度上平均提升11.7%

  • Motivation: 现有视频姿态估计方法在自接触场景(如手触脸)中经常失败,而可穿戴生物阻抗传感能廉价、无干扰地测量皮肤间接触,因此需要结合两者优势来准确捕捉野外3D人体姿态
  • Method: 使用现成姿态估计器初始化姿态,在测量到自接触时引入接触感知的姿态优化:最小化重投影误差和输入估计偏差,同时强制执行顶点接近约束
  • Result: 在同步RGB视频、生物阻抗测量和3D动作捕捉的新数据集上验证,使用三种输入姿态估计器测试,重建精度平均提升11.7%,并开发了微型可穿戴生物阻抗传感器
  • Conclusion: BioTUCH通过结合视觉估计与生物阻抗传感有效解决了自接触场景的姿态估计问题,为大规模收集接触感知训练数据提供了可行方案,有助于改进姿态估计和生成方法

[86] SP-Det: Self-Prompted Dual-Text Fusion for Generalized Multi-Label Lesion Detection

Qing Xu,Yanqian Wang,Xiangjian Hea,Yue Li,Yixuan Zhang,Rong Qu,Wenting Duan,Zhen Chen

Main category: cs.CV

TL;DR: SP-Det是一个自提示检测框架,无需专家标注即可自动生成文本提示来指导胸部X光多病灶检测,通过双文本提示生成器和双向特征增强器提升检测性能。

  • Motivation: 现有可提示检测框架依赖手动标注作为提示,这需要大量人工且不适用于临床实际应用,因此需要开发无需专家标注的自提示检测方法。
  • Method: 提出SP-Det框架,包含:1) 专家无关的双文本提示生成器(DTPG),生成语义上下文提示和疾病信标提示;2) 双向特征增强器(BFE),整合诊断上下文与疾病特定嵌入以增强特征表示。
  • Result: 在两个胸部X光数据集上的实验表明,SP-Det在多种胸部疾病类别上优于现有最先进的检测方法,同时完全消除了对专家标注提示的依赖。
  • Conclusion: SP-Det通过自提示机制成功解决了现有方法对专家标注的依赖问题,为临床应用中自动病灶检测提供了实用且高效的解决方案。

[87] SDG-Track: A Heterogeneous Observer-Follower Framework for High-Resolution UAV Tracking on Embedded Platforms

Jiawen Wen,Yu Hu,Suixuan Qiu,Jinshan Huang,Xiaowen Chu

Main category: cs.CV

TL;DR: SDG-Track:一种稀疏检测引导的跟踪器,采用观察者-跟随者架构,在边缘设备上实现小无人机实时跟踪,解决分辨率与速度的冲突。

  • Motivation: 边缘设备上实时跟踪小型无人机面临分辨率与速度的根本冲突:下采样高分辨率图像会导致小目标特征消失,而处理原生1080p帧在资源受限平台上又无法满足实时控制需求。
  • Method: 提出SDG-Track稀疏检测引导跟踪器,采用观察者-跟随者架构:观察者流在GPU上低频运行高容量检测器处理1920x1080帧;跟随者流在CPU上高频执行ROI约束的稀疏光流进行轨迹插值。引入双空间恢复机制,结合颜色直方图匹配和几何一致性约束处理跟踪失败。
  • Result: 在地对空跟踪站实验中,SDG-Track达到35.1 FPS系统吞吐量,同时保持97.2%的逐帧检测精度。在NVIDIA Jetson Orin Nano上成功跟踪敏捷的FPV无人机。
  • Conclusion: SDG-Track有效解决了边缘设备上小无人机跟踪的分辨率-速度冲突,实现了实时高性能跟踪,为实际应用提供了可行解决方案。

[88] You Only Train Once (YOTO): A Retraining-Free Object Detection Framework

Priyanto Hidayatullah,Nurjannah Syakrani,Yudi Widhiyasana,Muhammad Rizqi Sholahuddin,Refdinal Tubagus,Zahri Al Adzani Hidayat,Hanri Fajar Ramadhan,Dafa Alfarizki Pratama,Farhan Muhammad Yasin

Main category: cs.CV

TL;DR: 提出YOTO框架解决目标检测中的灾难性遗忘问题,结合YOLO11n定位、DeIT特征提取和代理锚点损失,通过余弦相似度分类,在零售场景中实现高效增量学习。

  • Motivation: 目标检测在计算机视觉中广泛应用,但面临灾难性遗忘问题。每当新产品加入时,传统方法需要重新训练整个数据集,导致训练成本高、时间消耗大。在零售结账等频繁更新产品的场景中,这一问题尤为突出。
  • Method: 提出YOTO框架:1) 使用YOLO11n进行目标定位;2) 结合DeIT和代理锚点损失进行特征提取和度量学习;3) 通过计算目标产品嵌入特征与Qdrant向量数据库中特征的余弦相似度进行分类。
  • Result: 在包含140个产品的零售店案例研究中,YOTO框架对新产品和现有产品都取得了令人鼓舞的准确率。无需重新训练时,训练时间效率比传统目标检测方法提高近3倍,且随着新产品增加效率进一步提升。在边缘设备上,包含多个产品的图像平均推理时间为580ms。
  • Conclusion: YOTO框架有效解决了目标检测中的灾难性遗忘问题,实现了高效的增量学习,在零售等实际应用场景中具有可行性,显著降低了训练成本和时间消耗。

[89] Equivariant Symmetry-Aware Head Pose Estimation for Fetal MRI

Ramya Muthukrishnan,Borjan Gagoski,Aryn Lee,P. Ellen Grant,Elfar Adalsteinsson,Polina Golland,Benjamin Billot

Main category: cs.CV

TL;DR: E(3)-Pose是一种新颖的快速姿态估计方法,通过显式建模旋转等变性和物体对称性,解决胎儿MRI扫描中头部运动估计问题,在临床数据上表现出优越的鲁棒性和泛化能力。

  • Motivation: 解决胎儿MRI诊断扫描中头部运动估计的挑战性问题,目标是实现自动自适应2D诊断MRI切片处方,支持在每次2D切片前快速获取的3D MRI体积中进行6自由度头部姿态估计。
  • Method: 提出E(3)-Pose方法,通过构造方式显式建模解剖对称性和刚性姿态等变性,联合处理旋转等变性和物体对称性,从而获得鲁棒的胎儿头部姿态估计。
  • Result: 在公开可用的代表性临床胎儿MRI数据集上的实验表明,该方法在跨域情况下具有优越的鲁棒性和泛化能力,在临床MRI体积上达到最先进的准确性。
  • Conclusion: E(3)-Pose通过显式建模对称性和等变性,为临床转化铺平了道路,在临床MRI体积上实现了最先进的姿态估计准确性。

[90] ReflexFlow: Rethinking Learning Objective for Exposure Bias Alleviation in Flow Matching

Guanbo Huang,Jingjia Mao,Fanding Huang,Fengkai Liu,Xiangyang Luo,Yaoyuan Liang,Jiasheng Lu,Xiaoe Wang,Pei Liu,Ruiliu Fu,Shao-Lun Huang

Main category: cs.CV

TL;DR: ReflexFlow:一种通过反漂移校正和频率补偿来动态纠正流匹配中曝光偏差的反射式精炼方法

  • Motivation: 尽管流匹配方法取得了巨大进展,但仍存在训练和推理不一致导致的曝光偏差问题。本文研究了曝光偏差的根本原因:1)模型对训练期间有偏输入缺乏泛化能力;2)早期去噪过程中低频内容捕获不足,导致偏差累积。
  • Method: 提出ReflexFlow方法,包含两个组件:1)反漂移校正(ADR):在训练时计划采样下,通过重新设计的损失函数反射性地调整有偏输入的预测目标;2)频率补偿(FC):通过使用曝光偏差重新加权损失,反射缺失的低频成分并进行补偿。
  • Result: 在CIFAR-10、CelebA-64和ImageNet-256上的实验表明,ReflexFlow在减轻曝光偏差方面优于先前方法,在CelebA-64上实现了35.65%的FID降低。
  • Conclusion: ReflexFlow是一种简单有效的流匹配学习目标反射式精炼方法,能够动态纠正曝光偏差,与所有流匹配框架兼容,并在多个数据集上提高了生成质量。

[91] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

Yueming Pan,Ruoyu Feng,Qi Dai,Yuqi Wang,Wenfeng Lin,Mingyu Guo,Chong Luo,Nanning Zheng

Main category: cs.CV

TL;DR: 提出语义优先扩散(SFD)范式,通过异步去噪语义和纹理潜在变量,实现更自然的从粗到细的图像生成,显著提升生成质量和收敛速度。

  • Motivation: 现有潜在扩散模型(LDMs)虽然遵循从粗到细的生成过程,但通常同步去噪语义和纹理潜在变量,忽略了语义形成先于纹理生成的时序特性,限制了生成质量。
  • Method: SFD首先通过专门的语义VAE从预训练视觉编码器中提取紧凑语义潜在变量,与纹理潜在变量组合成复合潜在变量。核心创新是使用分离的噪声调度异步去噪语义和纹理:语义去噪先于纹理一个时间偏移,为纹理细化提供更清晰的高层语义指导。
  • Result: 在ImageNet 256×256数据集上,SFD达到FID 1.06(LightningDiT-XL)和FID 1.04(1.0B LightningDiT-XXL),相比原始DiT实现高达100倍的收敛加速。SFD还能改进现有方法如ReDi和VA-VAE。
  • Conclusion: SFD通过显式优先处理语义形成,实现了更自然的从粗到细生成过程,证明了异步、语义主导的建模方法的有效性,为扩散模型提供了新的范式。

[92] Virtually Unrolling the Herculaneum Papyri by Diffeomorphic Spiral Fitting

Paul Henderson

Main category: cs.CV

TL;DR: 首个自动拟合严重损坏卷轴CT扫描的顶部方法,通过参数化模型全局拟合神经网络预测,保证连续2D表面

  • Motivation: 赫库兰尼姆纸莎草卷轴因维苏威火山爆发碳化埋藏,包含大量未见的希腊和拉丁文本,但极其脆弱无法物理展开。虚拟展开是访问这些文本的解决方案,但手动追踪CT扫描中的卷轴表面非常耗时
  • Method: 提出首个顶部方法,自动将表面模型拟合到严重损坏卷轴的CT扫描。采用新颖方法,全局拟合显式参数化模型到现有神经网络预测的卷轴可能位置。该方法保证结果表面是单一连续的2D薄片,即使通过CT扫描中无法检测表面的区域
  • Result: 在两个卷轴的高分辨率CT扫描上进行全面实验,显示该方法成功展开大面积区域,并超越了唯一适合此类数据的现有自动展开方法的性能
  • Conclusion: 该方法为赫库兰尼姆纸莎草卷轴的虚拟展开提供了有效的自动化解决方案,能够处理严重损坏的卷轴并保证表面连续性,为访问这些珍贵历史文本提供了新途径

[93] LiteVGGT: Boosting Vanilla VGGT via Geometry-aware Cached Token Merging

Zhijian Shu,Cheng Lin,Tao Xie,Wei Yin,Ben Li,Zhiyuan Pu,Weize Li,Yao Yao,Xun Cao,Xiaoyang Guo,Xiao-Xiao Long

Main category: cs.CV

TL;DR: LiteVGGT:针对3D视觉基础模型VGGT的轻量化改进,通过几何感知缓存token合并策略,实现10倍加速和内存大幅减少,支持处理1000张图像的大规模场景。

  • Motivation: 现有3D视觉基础模型VGGT在处理长序列时计算耗时且内存占用大,限制了其在大规模场景(数百张图像以上)的应用。
  • Method: 提出几何感知缓存token合并策略:1)分析token的几何重要性,优化锚点token选择以保留重建关键信息;2)缓存并重用相邻网络层的合并索引,减少计算冗余。
  • Result: 实现高达10倍加速和显著内存减少,能够高效处理1000张图像的大规模场景,同时保持VGGT的核心性能,支持高效微调和FP8量化。
  • Conclusion: LiteVGGT通过创新的token合并策略解决了3D视觉基础模型的计算效率问题,为大规模场景处理提供了高效解决方案,具有良好可扩展性和鲁棒性。

[94] Towards Adaptive Fusion of Multimodal Deep Networks for Human Action Recognition

Novanto Yudistira

Main category: cs.CV

TL;DR: 该研究提出了一种基于深度神经网络和多模态自适应融合的人类动作识别方法,通过门控机制融合RGB、光流、音频和深度信息,显著提升了识别准确性和鲁棒性。

  • Motivation: 传统单模态动作识别方法存在局限性,无法充分利用多种信息源。该研究旨在通过多模态融合技术克服这些限制,探索在监控、人机交互等领域的应用潜力。
  • Method: 采用深度神经网络和门控机制进行多模态自适应融合,研究不同门控融合策略,选择性整合RGB、光流、音频和深度信息的关键特征。
  • Result: 在人类动作识别、暴力动作检测和自监督学习任务中,该方法在基准数据集上展现出优于传统单模态方法的性能,实现了识别准确性的显著提升。
  • Conclusion: 多模态信息融合通过门控机制能够有效提升动作识别系统的性能,为监控、人机交互和主动辅助生活等应用领域带来革命性进展。

[95] FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neural Action Tokenization

Yicheng Liu,Shiduo Zhang,Zibin Dong,Baijun Ye,Tianyuan Yuan,Xiaopeng Yu,Linqi Yin,Chenhao Lu,Junhao Shi,Luca Jiang-Tao Yu,Liangtao Zheng,Tao Jiang,Jingjing Gong,Xipeng Qiu,Hang Zhao

Main category: cs.CV

TL;DR: FASTER框架通过可学习的动作分词器和自回归策略,在机器人操作中实现了高效推理和任务性能的平衡

  • Motivation: 现有的自回归视觉-语言-动作模型在动作分词化过程中存在重建保真度与推理效率之间的权衡问题,需要一种更高效且可泛化的解决方案
  • Method: 提出FASTER统一框架,包含FASTERVQ(将动作块编码为单通道图像的分词器)和FASTERVLA(基于块级自回归解码和轻量级动作专家的策略模型)
  • Result: FASTERVQ在重建质量、token利用率和跨任务/跨具身泛化方面表现优异;FASTERVLA在推理速度和任务性能上均超越现有最先进的VLA模型
  • Conclusion: FASTER框架通过创新的动作分词和高效解码策略,成功解决了VLA模型中的效率-性能权衡问题,为机器人学习提供了统一且可泛化的解决方案

[96] GeoPE:A Unified Geometric Positional Embedding for Structured Tensors

Yupu Yao,Bowen Yang

Main category: cs.CV

TL;DR: GeoPE是一种新的位置编码方法,通过四元数将旋转扩展到3D欧几里得空间,解决传统ViT将2D图像展平为1D序列时破坏空间拓扑结构的问题。

  • Motivation: 标准Vision Transformers将2D图像展平为1D序列,破坏了自然空间拓扑结构。现有的2D RoPE方法通常独立处理空间轴,无法将错误的序列邻近性与真实空间距离解耦。
  • Method: 引入几何位置嵌入(GeoPE)框架,使用四元数将旋转扩展到3D欧几里得空间。通过计算李代数中的几何平均来构建统一的旋转算子,克服非交换性并确保对称性,创建几何耦合的编码。
  • Result: 在图像分类、目标检测和3D语义分割上的大量实验表明,GeoPE始终优于现有的2D RoPE变体,并显著增强了形状偏差,证实了其捕捉真实几何结构的能力。
  • Conclusion: GeoPE通过恢复2D空间流形,有效分离空间维度,为Vision Transformers提供了更好的几何结构表示能力。

[97] Balanced Few-Shot Episodic Learning for Accurate Retinal Disease Diagnosis

Jasmaine Khale,Ravi Prakash Srivastava

Main category: cs.CV

TL;DR: 提出平衡少样本学习框架用于视网膜疾病诊断,通过平衡采样、针对性增强和ResNet-50编码器,在RFMiD数据集上显著提升准确率并减少对多数类别的偏倚。

  • Motivation: 视网膜疾病自动诊断需求增长,但传统深度学习方法需要大量标注数据且存在类别不平衡问题。少样本学习能解决数据稀缺问题,但现有方法在视网膜疾病诊断中仍面临类别不平衡的挑战。
  • Method: 提出平衡少样本学习框架:1) 平衡情景采样确保所有类别在5-way 5-shot情景中平等参与;2) 针对性增强包括CLAHE和颜色/几何变换以增加少数类多样性;3) 使用ImageNet预训练的ResNet-50编码器提取特征;4) 在嵌入空间计算原型并使用余弦相似度进行分类。
  • Result: 在100个情景训练和1000个测试情景评估中,该框架显著提升准确率并减少对多数类别的偏倚,对代表性不足的疾病有显著改进。
  • Conclusion: 数据集感知的少样本流程结合平衡采样和CLAHE增强预处理,能在数据受限条件下提供更稳健和临床公平的视网膜疾病诊断。

[98] Rethinking the Use of Vision Transformers for AI-Generated Image Detection

NaHyeon Park,Kunhee Kim,Junsuk Choe,Hyunjung Shim

Main category: cs.CV

TL;DR: 论文提出MoLD方法,通过门控机制动态整合CLIP-ViT多层特征来提升AI生成图像检测性能,发现早期层特征比最终层更具局部性和泛化性。

  • Motivation: 现有AI生成图像检测方法主要使用CLIP-ViT的最终层特征,但缺乏对多层特征贡献的系统分析。研究发现不同层捕获数据的不同方面,早期层提供更具局部性和泛化性的特征。
  • Method: 提出MoLD方法,使用基于门控的机制动态整合多个ViT层的特征,自适应地融合不同层的特征表示。
  • Result: 在GAN和扩散模型生成的图像上实验表明,MoLD显著提升检测性能,增强对不同生成模型的泛化能力,并在真实场景中表现出鲁棒性。
  • Conclusion: 多层特征整合对AI生成图像检测至关重要,MoLD方法具有可扩展性和通用性,可成功应用于其他预训练ViT如DINOv2。

[99] Stable Single-Pixel Contrastive Learning for Semantic and Geometric Tasks

Leonid Pogorelyuk,Niels Bracher,Aaron Verkleeren,Lars Kühmichel,Stefan T. Radev

Main category: cs.CV

TL;DR: 提出一种稳定的对比损失家族,用于学习像素级表示,同时捕获语义和几何信息,无需基于动量的师生训练即可实现跨图像的精确点对应。

  • Motivation: 需要学习同时包含语义和几何信息的像素级表示,以实现跨图像的精确点对应,同时避免复杂的师生训练架构。
  • Method: 使用稳定的对比损失家族,将图像每个像素映射到过完备描述符,该描述符既具有视图不变性又具有语义意义。
  • Result: 在合成2D和3D环境中的实验验证了损失函数的特性和生成的过完备表示的有效性。
  • Conclusion: 该方法能够学习同时捕获语义和几何信息的像素级表示,无需复杂的师生训练即可实现精确的点对应。

[100] Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

NaHyeon Park,Namin An,Kunhee Kim,Soyeon Yoon,Jiahao Huo,Hyunjung Shim

Main category: cs.CV

TL;DR: 研究发现基于大型视觉语言模型(LVLM)的文生图系统比非LVLM模型产生更严重的社会偏见,系统提示是偏见传播的主要驱动因素,作者提出FairPro训练免费元提示框架来减少偏见。

  • Motivation: 大型视觉语言模型(LVLM)已成为文生图系统的主导范式,但这些模型是否会放大社会偏见尚未得到充分理解。作者旨在研究LVLM模型是否比非LVLM模型产生更多社会偏见,并探索偏见传播机制。
  • Method: 创建包含1024个提示的基准测试,涵盖四个语言复杂度级别,系统评估多个属性的社会偏见。通过解码中间表示、标记概率诊断和嵌入关联分析揭示系统提示如何编码人口统计先验。提出FairPro训练免费元提示框架,让LVLM在测试时自我审计并构建公平感知的系统提示。
  • Result: LVLM模型比非LVLM模型产生明显更多社会偏见的图像。系统提示是偏见行为的主要驱动因素。在SANA和Qwen-Image两个LVLM文生图模型上的实验表明,FairPro显著减少了人口统计偏见,同时保持了文本-图像对齐。
  • Conclusion: 系统提示在偏见传播中起核心作用。FairPro提供了一种实用、可部署的方法来构建更负责任的文生图系统。研究为理解LVLM偏见机制提供了深入见解,并为减少偏见提供了有效解决方案。

[101] A dynamic memory assignment strategy for dilation-based ICP algorithm on embedded GPUs

Qiong Chang,Weimin Wang,Junpei Zhong,Jun Miyazaki

Main category: cs.CV

TL;DR: 提出VANICP点云配准算法的内存优化策略,使其能在嵌入式GPU上轻量级运行,内存消耗减少97%以上

  • Motivation: VANICP算法虽然计算效率高,但原始实现需要大量内存,限制了在嵌入式系统等资源受限环境中的部署
  • Method: 提出GPU导向的动态内存分配策略,优化膨胀操作的内存使用,并基于此构建增强版VANICP框架
  • Result: 内存消耗减少97%以上,同时保持原始性能,可在嵌入式GPU上轻量级执行
  • Conclusion: 成功实现了VANICP算法的内存优化,使其适用于资源受限的嵌入式环境,为点云应用在边缘设备上的部署提供了解决方案

[102] Reflection Removal through Efficient Adaptation of Diffusion Transformers

Daniyar Zakarin,Thiemo Wandel,Anton Obukhov,Dengxin Dai

Main category: cs.CV

TL;DR: 提出基于扩散Transformer的单图像反射去除框架,利用预训练基础扩散模型,通过物理渲染合成数据和LoRA高效适配,实现最先进的反射去除性能。

  • Motivation: 现有反射去除方法依赖任务特定架构,缺乏泛化能力;同时缺乏高质量、多样化的训练数据。需要利用基础扩散模型的强大泛化能力,并解决数据稀缺问题。
  • Method: 1) 重新利用预训练的DiT基础模型,以反射污染图像为条件,引导生成干净透射层;2) 在Blender中构建基于物理的渲染管道,合成逼真的玻璃材质和反射效果;3) 使用LoRA进行高效模型适配。
  • Result: 在领域内和零样本基准测试中均达到最先进性能,证明了预训练扩散Transformer与物理基础数据合成和高效适配相结合的有效性。
  • Conclusion: 预训练扩散Transformer配合物理基础数据合成和高效适配,为反射去除提供了可扩展、高保真的解决方案,展示了基础模型在图像恢复任务中的强大潜力。

[103] Self-Supervised Learning for Transparent Object Depth Completion Using Depth from Non-Transparent Objects

Xianghui Fan,Zhaoyu Chen,Mengyang Pan,Anping Deng,Hang Yang

Main category: cs.CV

TL;DR: 提出自监督深度补全方法,无需大量标注数据即可训练网络补全透明物体的深度信息

  • Motivation: 透明物体感知是计算机视觉的挑战,传统深度传感器因折射反射难以获取透明物体深度。现有方法需要大量标注数据,但深度图标注成本高昂。
  • Method: 提出自监督训练方法:在非透明区域模拟透明物体的深度缺失,使用原始深度图作为监督信号训练深度补全网络
  • Result: 方法性能与监督方法相当,在小样本情况下通过预训练可提升模型性能
  • Conclusion: 提出的自监督方法能有效解决透明物体深度感知问题,减少对标注数据的依赖,在小样本场景下表现优异

[104] Generative Neural Video Compression via Video Diffusion Prior

Qi Mao,Hao Cheng,Tinghan Yang,Libiao Jin,Siwei Ma

Main category: cs.CV

TL;DR: GNVC-VD是首个基于DiT的生成式神经视频压缩框架,通过统一的流匹配潜在优化模块,利用视频扩散Transformer进行序列级去噪,解决了传统感知编解码器的时间一致性问题和闪烁伪影。

  • Motivation: 现有感知编解码器主要依赖预训练的图像生成先验来恢复高频细节,但其逐帧特性缺乏时间建模,不可避免地导致感知闪烁伪影。需要一种能够保持时空一致性的视频原生生成先验方法。
  • Method: 1) 引入统一的流匹配潜在优化模块,利用视频扩散Transformer联合增强帧内和帧间潜在表示;2) 从解码的时空潜在表示初始化优化过程,而非从纯高斯噪声开始;3) 学习适应压缩退化的校正项;4) 通过条件适配器向DiT中间层注入压缩感知线索。
  • Result: GNVC-VD在感知质量上超越了传统和学习的编解码器,显著减少了先前生成方法中持续的闪烁伪影,即使在低于0.01 bpp的极端比特率约束下也能保持时间一致性。
  • Conclusion: 该工作展示了将视频原生生成先验集成到神经编解码器中的前景,为下一代感知视频压缩提供了有希望的解决方案,通过序列级生成优化实现了时空一致的高质量视频重建。

[105] HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Text Recognition

Pham Thach Thanh Truc,Dang Hoai Nam,Huynh Tong Dang Khoa,Vo Nguyen Le Duy

Main category: cs.CV

TL;DR: HTR-ConvText:结合卷积神经网络与MobileViT的手写文本识别模型,通过混合架构捕捉局部笔画特征与全局上下文,在有限数据下实现更好的泛化性能

  • Motivation: 手写文本识别面临数据有限、书写风格差异大、复杂变音符号等挑战,现有方法通常需要大量合成数据才能泛化,需要开发在有限训练样本下表现更好的模型
  • Method: 提出HTR-ConvText模型:1)特征提取阶段集成残差CNN主干与带位置编码的MobileViT块,捕捉结构模式和细微书写细节;2)引入ConvText编码器,混合全局上下文和局部特征的层次结构,减少序列长度提高效率;3)添加辅助模块注入文本上下文以缓解CTC的弱点
  • Result: 在IAM、READ2016、LAM和HANDS-VNOnDB数据集上的评估显示,该方法相比现有方法实现了改进的性能和更好的泛化能力,特别是在训练样本有限和手写多样性高的场景中
  • Conclusion: HTR-ConvText通过结合局部笔画特征提取和全局上下文建模,有效解决了手写文本识别的挑战,在有限数据下表现出优越的泛化性能,为实际应用提供了有前景的解决方案

[106] RAMEN: Resolution-Adjustable Multimodal Encoder for Earth Observation

Nicolas Houdré,Diego Marcos,Hugo Riffaud de Turckheim,Dino Ienco,Laurent Wendling,Camille Kurtz,Sylvain Lobry

Main category: cs.CV

TL;DR: RAMEN是一个分辨率可调的多模态编码器,能够以传感器无关的方式学习地球观测数据的共享视觉表示,通过将空间分辨率作为可控输出参数,在统一潜在空间中实现跨模态的连贯分析。

  • Motivation: 当前的地球观测基础模型通常需要固定输入分辨率或基于特定传感器编码器,限制了在异构EO模态间的泛化能力。需要一种能够处理不同空间、光谱和时间分辨率数据的统一方法。
  • Method: RAMEN将模态、空间和时间分辨率作为关键输入特征,将空间分辨率定义为可控输出参数,使用单一统一的Transformer编码器重建来自不同来源的掩码多模态EO数据。
  • Result: RAMEN在社区标准PANGAEA基准测试中优于更大的最先进模型,能够有效迁移到已知和未见过的传感器配置,在各种多传感器和多分辨率下游任务中表现优异。
  • Conclusion: RAMEN通过分辨率可调的设计实现了传感器无关的地球观测数据表示学习,为跨模态分析提供了统一的框架,在空间精度和计算成本之间提供了明确的权衡。

[107] Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding

Abhigyan Bhattacharya,Hiranmoy Roy

Main category: cs.CV

TL;DR: 提出语义引导的分层合成架构,通过语义布局生成和多模态纹理细化两阶段方法,解决面部图像修复中语义不一致和纹理模糊问题,在CelebA-HQ和FFHQ数据集上表现优于现有方法。

  • Motivation: 现有面部图像修复方法在处理大不规则掩码时存在纹理模糊、语义不一致和面部结构不自然的问题,主要原因是直接像素级合成和面部先验利用不足。
  • Method: 采用语义引导的分层合成:第一阶段结合CNN局部特征和Vision Transformer全局特征生成清晰语义布局;第二阶段使用多模态纹理生成器进行多尺度纹理细化。架构通过动态注意力处理任意掩码配置,无需掩码特定训练。
  • Result: 在CelebA-HQ和FFHQ数据集上优于现有方法,在LPIPS、PSNR和SSIM等指标上有提升,特别是在大面积修复场景中能产生视觉上更吸引人、语义保持更好的结果。
  • Conclusion: 提出的语义引导分层合成架构有效解决了面部图像修复中的关键挑战,通过语义布局生成和纹理细化的两阶段方法,在处理大不规则掩码时实现了更好的语义一致性和视觉质量。

[108] Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

Yanran Zhang,Ziyi Wang,Wenzhao Zheng,Zheng Zhu,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: MoRe4D:从单张静态图像生成交互式动态4D场景的新框架,通过联合运动生成和几何重建解决时空不一致问题

  • Motivation: 现有方法将几何与运动解耦,导致时空不一致和泛化能力差。需要从单张静态图像生成高质量、一致的4D场景
  • Method: 1) 构建TrajScene-60K大规模数据集;2) 提出4D-STraG扩散模型联合生成几何一致的运动轨迹;3) 设计深度引导运动归一化和运动感知模块;4) 提出4D-ViSM从点轨迹渲染任意视角视频
  • Result: MoRe4D能够从单张图像生成具有多视角一致性和丰富动态细节的高质量4D场景,优于现有方法
  • Conclusion: MoRe4D通过联合运动生成和几何重建,有效解决了4D场景生成的时空一致性问题,为单图像到4D场景转换提供了新解决方案

[109] 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

Xianfeng Wu,Yajing Bai,Minghan Li,Xianzu Wu,Xueqi Zhao,Zhongyuan Lai,Wenyu Liu,Xinggang Wang

Main category: cs.CV

TL;DR: 4DLangVGGT:首个基于Transformer的前馈统一框架,用于4D语言接地,通过联合几何感知和语言对齐实现动态场景的开放词汇查询。

  • Motivation: 现有4D语义场构建方法主要依赖场景特定的高斯泼溅,需要逐场景优化、泛化能力有限且难以扩展到实际应用。需要一种能联合训练、直接推理的高效通用框架。
  • Method: 提出4DLangVGGT框架,包含两个关键组件:4D视觉几何Transformer(StreamVGGT)捕获动态场景的时空几何表示;语义桥接解码器(SBD)将几何感知特征投影到语言对齐的语义空间。
  • Result: 在HyperNeRF和Neu3D数据集上,方法不仅有效泛化,还达到最先进性能,在逐场景训练下提升2%,多场景训练下提升1%。
  • Conclusion: 4DLangVGGT通过联合几何感知和语言对齐,实现了无需逐场景优化的高效4D语言接地,为开放词汇4D场景理解建立了新范式,显著提升了大规模部署的实用性。

[110] BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

Yiming Wang,Qihang Zhang,Shengqu Cai,Tong Wu,Jan Ackermann,Zhengfei Kuang,Yang Zheng,Frano Rajič,Siyu Tang,Gordon Wetzstein

Main category: cs.CV

TL;DR: 提出4D可控视频扩散框架,将场景动态与相机运动解耦,实现精细的时空控制

  • Motivation: 现有视频扩散模型将场景动态与相机运动耦合,限制了精确的时空控制能力
  • Method: 通过4D位置编码和自适应归一化,将连续世界时间序列和相机轨迹作为条件输入注入视频扩散模型
  • Result: 模型在多样化时序模式和相机轨迹上实现鲁棒的4D控制,保持高质量生成,在可控性上优于先前工作
  • Conclusion: 提出的框架成功解耦场景动态与相机姿态,实现了精细的4D可控视频生成

[111] Object Reconstruction under Occlusion with Generative Priors and Contact-induced Constraints

Minghan Zhu,Zhiyi Wang,Qihang Sun,Maani Ghaffari,Michael Posa

Main category: cs.CV

TL;DR: 提出一种结合生成模型先验和接触信息引导的3D物体重建方法,通过接触引导的3D生成减少视觉信号歧义

  • Motivation: 机器人操作需要准确的物体几何信息,但相机只能捕捉物体的部分观测,特别是在遮挡情况下。需要利用额外信息源来减少视觉信号的歧义。
  • Method: 结合两种信息源:1)生成模型学习常见物体形状先验,对不可见几何部分进行合理推测;2)从视频和物理交互中获取接触信息,提供几何边界的稀疏约束。通过接触引导的3D生成方法,灵感来源于生成模型中的拖拽式编辑。
  • Result: 在合成数据和真实数据上的实验表明,该方法相比纯3D生成和基于接触的优化方法,在重建效果上有显著提升。
  • Conclusion: 结合生成模型先验和接触信息的引导方法能有效提高物体几何重建质量,为机器人操作提供更准确的几何信息。

[112] Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

Jung Yi,Wooseok Jang,Paul Hyunbin Cho,Jisu Nam,Heeji Yoon,Seungryong Kim

Main category: cs.CV

TL;DR: Deep Forcing:无需训练的视频扩散KV缓存管理方法,通过Deep Sink和Participative Compression实现12倍外推生成长视频,保持实时生成质量

  • Motivation: 现有自回归视频扩散方法存在时间重复、漂移和运动减速问题,直接应用StreamingLLM注意力机制会导致质量下降和运动停滞
  • Method: 提出Deep Forcing框架,包含两个无需训练的机制:1) Deep Sink:分配一半滑动窗口给持久sink token并重新对齐时间RoPE相位;2) Participative Compression:重要性感知KV缓存剪枝,保留参与最近注意力的token
  • Result: 实现12倍外推(如5秒训练到60秒+生成),图像质量优于LongLive,美学质量优于RollingForcing,保持整体一致性,动态程度显著提升,同时维持实时生成
  • Conclusion: 无需训练的KV缓存管理方法在自回归流式长视频生成中可以匹配甚至超越基于训练的方法

[113] Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark

Haobo Yuan,Yueyi Sun,Yanwei Li,Tao Zhang,Xueqing Deng,Henghui Ding,Lu Qi,Anran Wang,Xiangtai Li,Ming-Hsuan Yang

Main category: cs.CV

TL;DR: 提出视觉推理追踪任务VRT,要求模型不仅定位目标物体,还要预测构成推理路径的中间物体,并构建了VRT-Bench基准、新评估指标和VRT-80k训练数据集。

  • Motivation: 当前多模态大语言模型在视觉定位和视觉问答等任务上表现良好,但推理过程不透明,只输出最终预测而不揭示中间步骤或细粒度证据,这与人类通过视觉推理链进行思考的方式形成对比。
  • Method: 引入视觉推理追踪任务,要求模型定位目标物体并预测中间推理路径;构建VRT-Bench基准用于评估视觉推理;设计新的推理轨迹质量评估指标;创建VRT-80k大规模数据集用于训练推理模型。
  • Result: 实验显示现有模型虽然能产生正确最终输出,但在中间推理的定位上存在困难;而使用VRT-80k训练的模型在追踪推理路径方面取得了显著改进。
  • Conclusion: 视觉推理追踪任务有助于提高多模态模型的透明度和可解释性,通过显式要求模型输出中间推理步骤,使模型更接近人类的视觉推理过程。

[114] SA-IQA: Redefining Image Quality Assessment for Spatial Aesthetics with Multi-Dimensional Rewards

Yuan Gao,Jin Song

Main category: cs.CV

TL;DR: 提出了空间美学评估新范式SA-IQA,针对AI生成室内场景图像的质量评估,包含布局、和谐、光照、失真四个维度,并构建了首个空间美学基准SA-BENCH。

  • Motivation: 现有图像质量评估方法主要针对人像和艺术图像,缺乏对室内场景的系统性评估,需要专门针对空间美学的评估框架。
  • Method: 提出空间美学评估范式,包含布局、和谐、光照、失真四个维度;构建SA-BENCH基准数据集(18,000张图像,50,000个标注);通过MLLM微调和多维度融合方法开发SA-IQA评估框架。
  • Result: SA-IQA在SA-BENCH上显著优于现有方法,为空间美学评估设立了新标准;成功应用于两个下游任务:1)作为奖励信号结合GRPO强化学习优化AIGC生成流程,2)Best-of-N选择筛选高质量图像提升生成质量。
  • Conclusion: 空间美学评估是AI生成室内场景图像质量评估的重要方向,SA-IQA框架和SA-BENCH基准为相关研究和应用提供了有力工具,代码和数据集将开源以推动该领域发展。

[115] EvoIR: Towards All-in-One Image Restoration via Evolutionary Frequency Modulation

Jiaqi Ma,Shengkai Hu,Jun Wan,Jiaxing Huang,Lefei Zhang,Salman Khan

Main category: cs.CV

TL;DR: EvoIR是一个全合一图像修复框架,通过进化频率调制和优化策略,动态适应多种退化类型,提升图像修复效果。

  • Motivation: 现有全合一图像修复方法缺乏显式频率建模,依赖固定或启发式优化策略,限制了在异构退化场景下的泛化能力。
  • Method: 提出EvoIR框架:1) 频率调制模块(FMM)显式分解高低频特征并自适应调制;2) 进化优化策略(EOS)通过种群进化迭代调整频率感知目标,动态平衡结构精度和感知保真度。
  • Result: 在多个基准测试中,EvoIR超越了最先进的全合一图像修复方法,FMM和EOS的协同作用比单独使用任一组件带来更大改进。
  • Conclusion: EvoIR通过进化频率调制和优化策略,有效解决了全合一图像修复中的异构退化问题,实现了更好的泛化性能和修复效果。

[116] NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Yu Zeng,Charles Ochoa,Mingyuan Zhou,Vishal M. Patel,Vitor Guizilini,Rowan McAllister

Main category: cs.CV

TL;DR: 提出相位保持扩散(φ-PD),通过保留输入相位而随机化幅度,实现结构对齐的生成,适用于需要几何一致性的任务

  • Motivation: 标准扩散使用高斯噪声会破坏相位分量,从而破坏空间结构,不适用于需要几何一致性的任务(如重渲染、仿真增强、图像到图像转换)
  • Method: 提出模型无关的扩散过程重构:相位保持扩散(φ-PD)保留输入相位而随机化幅度;进一步提出频率选择结构(FSS)噪声,通过单一频率截止参数提供连续的结构刚性控制
  • Result: φ-PD在逼真和风格化重渲染、驾驶规划器的仿真到真实增强中产生可控的空间对齐结果;应用于CARLA仿真器时,将CARLA到Waymo规划器性能提升50%
  • Conclusion: φ-PD无需推理时间成本,与任何图像或视频扩散模型兼容,是对现有条件方法的补充,广泛适用于图像到图像和视频到视频生成

[117] ShadowDraw: From Any Object to Shadow-Drawing Compositional Art

Rundong Luo,Noah Snavely,Wei-Chiu Ma

Main category: cs.CV

TL;DR: ShadowDraw:将3D物体转换为阴影绘画艺术,通过优化场景参数让物体投影完成可识别图像

  • Motivation: 探索计算视觉艺术的新设计空间,弥合算法设计与艺术叙事之间的差距,为创建阴影绘画艺术提供实用工具
  • Method: 优化场景配置(物体姿态和光照)以产生有意义的阴影,使用阴影笔触指导线描生成,采用自动评估确保阴影绘画的一致性和视觉质量
  • Result: 系统在多样输入上产生引人注目的结果,包括真实世界扫描、策划数据集和生成资产,并能自然扩展到多物体场景、动画和物理部署
  • Conclusion: ShadowDraw为创建阴影绘画艺术提供了实用流程,拓宽了计算视觉艺术的设计空间,连接了算法设计与艺术叙事

[118] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

Shengyuan Ding,Xinyu Fang,Ziyu Liu,Yuhang Zang,Yuhang Cao,Xiangyu Zhao,Haodong Duan,Xiaoyi Dong,Jianze Liang,Bin Wang,Conghui He,Dahua Lin,Jiaqi Wang

Main category: cs.CV

TL;DR: ARM-Thinker是一个能够自主调用外部工具(如图像裁剪、文档检索)来获取可验证证据的智能多模态奖励模型,通过多阶段强化学习训练,在奖励建模和工具使用任务上显著优于现有方法。

  • Motivation: 当前视觉语言系统的奖励模型存在幻觉问题、视觉基础薄弱、无法使用工具进行验证,限制了其在复杂多模态推理任务上的可靠性。
  • Method: 提出ARM-Thinker智能多模态奖励模型,能够自主调用外部工具(图像裁剪、文档页面检索等)来获取可验证证据,替代静态的非交互式奖励评分。使用多阶段强化学习联合优化工具调用决策和判断准确性。
  • Result: ARM-Thinker在奖励建模基准上平均提升16.2%,在工具使用任务上提升9.6%,在多模态数学和逻辑推理基准上优于基线方法。同时提出了ARMBench-VL评估基准,包含三个子基准来评估细粒度视觉基础、多页文档理解和指令遵循能力。
  • Conclusion: 智能能力显著提升了奖励模型的准确性和可解释性,通过工具调用获取可验证证据的方法能够有效解决现有奖励模型的局限性。

[119] DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Dongzhi Jiang,Renrui Zhang,Haodong Li,Zhuofan Zong,Ziyu Guo,Jun He,Claire Guo,Junyan Ye,Rongyao Fang,Weijia Li,Rui Liu,Hongsheng Li

Main category: cs.CV

TL;DR: DraCo提出了一种新颖的交错推理范式,通过生成低分辨率草稿图像作为视觉规划,利用模型内在理解能力验证语义对齐,并通过选择性校正进行超分辨率细化,显著提升文本到图像生成质量。

  • Motivation: 现有多模态大语言模型在文本到图像生成中仍存在局限:要么仅将模型视为独立生成器,要么依赖抽象文本规划。文本规划的粒度较粗,且难以生成罕见属性组合,需要更具体的视觉规划和验证机制。
  • Method: DraCo采用交错推理范式:1)首先生成低分辨率草稿图像作为视觉预览,提供具体结构化的视觉规划;2)利用模型内在理解能力验证草稿与输入提示之间的语义对齐;3)通过选择性校正和超分辨率进行细化。还构建了DraCo-240K训练数据集,并开发了DraCo-CFG专门分类器自由引导策略。
  • Result: 在GenEval上提升8%,Imagine-Bench提升0.91分,GenEval++提升3%,显著优于直接生成和其他基于CoT的生成方法,证明了交错推理在解决文本规划粒度粗和罕见属性组合生成困难方面的有效性。
  • Conclusion: DraCo通过将草稿作为思维链,实现了文本和视觉内容的充分融合,为多模态大语言模型提供了更有效的规划和验证机制,显著提升了文本到图像生成的质量和准确性。

[120] Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

Hao-Jen Chien,Yi-Chuan Huang,Chung-Ho Wu,Wei-Lun Chao,Yu-Lun Liu

Main category: cs.CV

TL;DR: 提出Splannequin方法,通过动态高斯泼溅技术从单目Mannequin-Challenge视频合成高质量冻结3D场景,引入时间锚定解决稀疏时间监督导致的伪影问题

  • Motivation: 从单目Mannequin-Challenge视频合成高质量冻结3D场景是一个独特问题,不同于标准动态场景重建。目标是在创建冻结场景的同时策略性地保留细微动态,以实现用户控制的即时选择
  • Method: 使用动态高斯泼溅技术动态建模场景,通过固定时间参数渲染静态场景。提出Splannequin正则化方法,检测高斯原语的隐藏和缺陷状态,应用时间锚定:前向相机运动下,隐藏状态锚定到最近良好观测的过去状态,缺陷状态锚定到有更强监督的未来状态
  • Result: 方法显著提升视觉质量,实现高保真、用户可选择的冻结时间渲染,获得96%的用户偏好率。无需架构更改,零推理开销
  • Conclusion: Splannequin通过简单损失项集成到现有动态高斯管道中,有效解决单目捕获稀疏时间监督导致的伪影问题,为Mannequin-Challenge视频的冻结场景合成提供了实用解决方案

[121] Light-X: Generative 4D Video Rendering with Camera and Illumination Control

Tianqi Liu,Zhaoxi Chen,Zihao Huang,Shaocong Xu,Saining Zhang,Chongjie Ye,Bohan Li,Zhiguo Cao,Wei Li,Hao Zhao,Ziwei Liu

Main category: cs.CV

TL;DR: Light-X是一个视频生成框架,能够从单目视频实现可控渲染,同时支持视角和光照控制,通过解耦几何与光照信号实现高质量生成。

  • Motivation: 现有方法在光照保真度和时间一致性之间存在权衡,而真实世界场景的生成建模需要同时控制相机轨迹和光照,因为视觉动态由几何和光照共同塑造。
  • Method: 1) 提出解耦设计:通过动态点云沿用户定义相机轨迹捕捉几何和运动,通过重光照帧提供光照线索;2) 引入Light-Syn:基于退化的合成流程,从野外单目视频生成训练对,构建包含静态、动态和AI生成场景的数据集。
  • Result: 实验表明,Light-X在联合相机-光照控制方面优于基线方法,在文本和背景条件设置下都超越了先前的视频重光照方法。
  • Conclusion: Light-X通过解耦几何和光照表示,实现了高质量的视频生成,支持同时控制相机轨迹和光照,为真实世界场景的生成建模提供了有效方案。

q-bio.NC

[122] Human-Centred Evaluation of Text-to-Image Generation Models for Self-expression of Mental Distress: A Dataset Based on GPT-4o

Sui He,Shenbin Qian

Main category: q-bio.NC

TL;DR: 研究评估AI生成图像在帮助中国留英学生表达心理困扰方面的效果,发现提示设计显著影响感知帮助性,插画师角色获得最高评分

  • Motivation: 国际学生在心理健康沟通中面临语言和文化障碍,需要有效工具支持心理困扰的表达。AI生成图像可能成为帮助克服这些障碍的创新方法
  • Method: 邀请20名英国大学的中国留学生描述心理困扰经历,使用GPT-4o基于四种心理咨询实践的角色提示模板生成对应图像,参与者评估图像对表达感受的帮助性
  • Result: 创建了包含100个心理困扰文本描述、400张生成图像及人类评估分数的数据集。提示设计显著影响感知帮助性,插画师角色获得最高评分
  • Conclusion: 该研究提供了心理健康领域首个公开的带有人类判断分数的文本到图像评估数据集,为图像评估、人类反馈强化学习和心理健康沟通的多模态研究提供宝贵资源

cs.GR

[123] Efficient Spatially-Variant Convolution via Differentiable Sparse Kernel Complex

Zhizhen Wu,Zhe Cao,Yuchi Huo

Main category: cs.GR

TL;DR: 提出一种可微分的核分解框架,使用稀疏核样本来近似复杂的空间变化卷积核,在移动设备和实时渲染中实现高效处理。

  • Motivation: 复杂核的图像卷积在摄影、科学成像和动画效果中很关键,但直接密集卷积在资源受限设备上计算成本过高。现有近似方法要么效率不足,要么无法处理非凸核。
  • Method: 引入可微分核分解框架,使用稀疏核样本来表示目标空间变化的密集复杂核。包括:(1) 支持稀疏核可微分优化的分解方法;(2) 针对非凸形状的专用初始化策略以避免局部最优;(3) 核空间插值方案,无需重新训练即可将单核滤波扩展到空间变化滤波。
  • Result: 在高斯和非凸核上的实验表明,该方法比模拟退火方法获得更高保真度,比低秩分解方法显著降低计算成本。
  • Conclusion: 该方法为移动成像和实时渲染提供了实用解决方案,同时保持完全可微分性,可集成到更广泛的学习流程中。

cs.SD

[124] Shared Multi-modal Embedding Space for Face-Voice Association

Christopher Simic,Korbinian Riedhammer,Tobias Bocklet

Main category: cs.SD

TL;DR: 该论文提出了一种多模态人脸-语音关联方法,在FAME 2026挑战赛中取得第一名,平均EER为23.99%

  • Motivation: 解决FAME 2026挑战中的两个难点:1) 人脸-语音关联学习;2) 多语言环境下的泛化能力,包括在未训练语言上的测试
  • Method: 采用分离的单模态处理流程:通用人脸和语音特征提取,辅以年龄-性别特征提取增强预测能力。将单模态特征投影到共享嵌入空间,并使用自适应角度边缘损失(AAM)进行训练
  • Result: 在FAME 2026挑战赛中取得第一名,平均等错误率(EER)为23.99%
  • Conclusion: 提出的分离单模态处理流程结合AAM损失的方法在多模态人脸-语音关联任务中表现优异,特别是在多语言泛化场景下

cs.LG

[125] Studying Various Activation Functions and Non-IID Data for Machine Learning Model Robustness

Long Dang,Thushari Hapuarachchi,Kaiqi Xiong,Jing Lin

Main category: cs.LG

TL;DR: 本文研究了对抗训练中不同激活函数对模型鲁棒性的影响,提出了改进的对抗训练方法,并扩展到联邦学习环境,通过数据共享提升非IID数据下的鲁棒性。

  • Motivation: 现有对抗训练研究主要关注ReLU激活函数和集中式环境,缺乏对不同激活函数影响的系统分析,以及在联邦学习环境中对抗鲁棒性的研究。
  • Method: 1) 提出改进的集中式对抗训练方法,结合模型架构变化、软标签、简化数据增强和动态学习率;2) 在10种激活函数上实验评估;3) 扩展到联邦学习环境,考虑IID和非IID数据设置;4) 引入数据共享策略解决非IID性能下降问题。
  • Result: 1) 集中式方法在CIFAR-10上达到77.08%自然准确率和67.96%鲁棒准确率;2) ReLU在多数情况下表现最佳;3) 联邦学习中鲁棒性显著下降,非IID数据尤其严重;4) 40%数据共享可使准确率达到70.09%和54.79%,优于CalFAT算法。
  • Conclusion: 激活函数选择对模型鲁棒性有重要影响,ReLU通常表现最佳;联邦学习中非IID数据会严重降低对抗鲁棒性,适当比例的数据共享能显著提升性能,这对实际应用有重要价值。

[126] STeP-Diff: Spatio-Temporal Physics-Informed Diffusion Models for Mobile Fine-Grained Pollution Forecasting

Nan Zhou,Weijie Hong,Huandong Wang,Jianfeng Zheng,Qiuhua Wang,Yali Song,Xiao-Ping Zhang,Yong Li,Xinlei Chen

Main category: cs.LG

TL;DR: 提出STeP-Diff模型,利用扩散模型的反向过程结合物理约束,从不完整移动传感器数据中预测细粒度空气污染时空场。

  • Motivation: 细粒度空气污染预测对城市管理和健康建筑发展至关重要。移动平台上的便携传感器提供了低成本、易维护、广覆盖的数据收集方案,但由于移动模式的随机性,数据往往不完整且时间不一致。
  • Method: 提出STeP-Diff模型,利用DeepONet建模空间测量序列,结合PDE-informed扩散模型从不完整时变数据中预测时空场。通过PDE约束正则化框架,去噪过程渐近收敛于对流-扩散动力学。
  • Result: 在两个城市部署59个自设计便携传感设备收集14天数据。相比次优算法,模型在MAE上提升89.12%,RMSE提升82.30%,MAPE提升25.00%。
  • Conclusion: STeP-Diff能有效捕捉空气污染场的时空依赖性,确保预测既基于真实测量又符合污染扩散的基本物理规律。

[127] Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative Study on Saint-Gaudens Double Eagles

Tanmay Dogra,Eric Ngo,Mohammad Alam,Jean-Paul Talavera,Asim Dahal

Main category: cs.LG

TL;DR: 在圣高登双鹰金币自动分级任务中,基于专家知识设计的特征工程ANN(86%准确率)显著优于CNN(31%)和SVM(30%),证明在小样本不平衡数据场景下,领域知识驱动的传统方法优于深度学习。

  • Motivation: 挑战"深度学习总是优于传统技术"的普遍观念,特别是在数据稀缺(<2000样本)、类别不平衡的特定领域任务中,探索领域专家知识是否比纯数据驱动的深度学习更有效。
  • Method: 比较三种方法:1)基于192个自定义特征的人工神经网络(ANN),特征来自Sobel边缘检测和HSV颜色分析;2)混合卷积神经网络(CNN),结合EfficientNetV2;3)支持向量机(SVM)作为对照。使用1,785枚专家分级金币进行测试。
  • Result: ANN表现最佳:精确匹配准确率86%,±3级容差准确率98%。CNN和SVM表现差:精确匹配仅31%和30%,主要猜测最常见等级。CNN在宽容差指标上看似不错,但这是回归平均效应掩盖了其无法准确识别具体等级的问题。
  • Conclusion: 在小样本、类别不平衡的特定领域质量检测任务中,通过特征设计融入领域专家知识的传统方法优于"黑盒"式深度学习。这对其他数据稀缺、专业知识比计算能力更重要的细分领域具有启示意义。

[128] Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspective

Bowen Zheng,Ran Cheng

Main category: cs.LG

TL;DR: 本文提出广义解耦知识蒸馏(GDKD),从预测分布视角重新思考DKD,通过改进的解耦策略和关注非最高logit的蒸馏损失,在多个基准测试中超越现有方法。

  • Motivation: 尽管解耦知识蒸馏(DKD)重新强调了logit知识的重要性并取得了显著进展,但其内在机制仍需深入探索。本文从预测分布的角度重新审视DKD,旨在揭示被忽视的关键机制并进一步提升知识蒸馏效果。
  • Method: 首先提出广义解耦知识蒸馏(GDKD)损失函数,提供更通用的logit解耦方法。然后深入分析教师模型预测分布对GDKD损失梯度的影响,发现两个关键洞察:1) 最高logit的分区显著改善非最高logit的相互关系;2) 增强对非最高logit蒸馏损失的关注能提升它们之间的知识提取。基于这些洞察,进一步提出简化的GDKD算法,采用高效的分区策略处理教师模型预测分布的多模态特性。
  • Result: 在CIFAR-100、ImageNet、Tiny-ImageNet、CUB-200-2011和Cityscapes等多个基准测试上的综合实验表明,GDKD在性能上超越了原始DKD和其他领先的知识蒸馏方法。
  • Conclusion: 从预测分布视角重新思考DKD揭示了被忽视的关键机制,提出的GDKD方法通过改进的解耦策略和关注非最高logit的蒸馏损失,在知识蒸馏任务中取得了更优的性能,为logit-based知识蒸馏提供了新的发展方向。

[129] MemLoRA: Distilling Expert Adapters for On-Device Memory Systems

Massimo Bini,Ondrej Bohdal,Umberto Michieli,Zeynep Akata,Mete Ozay,Taha Ceritli

Main category: cs.LG

TL;DR: MemLoRA:为小型语言模型配备专用记忆适配器,实现本地部署的记忆增强系统;MemLoRA-V扩展支持视觉理解,在保持文本任务性能的同时显著提升视觉推理能力。

  • Motivation: 现有记忆增强系统依赖大型语言模型,成本过高无法本地部署;小型模型性能不足且缺乏原生视觉能力,限制了在隐私保护的多模态场景中的应用。
  • Method: 提出MemLoRA系统,为小型语言模型配备专门训练的记忆适配器(知识提取、记忆更新、记忆增强生成);MemLoRA-V集成小型视觉语言模型,实现原生视觉理解。基于知识蒸馏原理分别训练各适配器。
  • Result: MemLoRA在文本任务上超越10倍大的基线模型(如Gemma2-27B),性能接近60倍大的模型(如GPT-OSS-120B);MemLoRA-V在视觉问答任务上大幅领先基于字幕的方法(81.3 vs 23.7准确率),同时保持文本任务性能。
  • Conclusion: MemLoRA系统使小型模型能够实现准确的本地记忆操作,无需云端依赖;MemLoRA-V扩展了记忆系统在视觉理解方面的能力,为隐私保护的多模态应用提供了有效解决方案。

[130] TV2TV: A Unified Framework for Interleaved Language and Video Generation

Xiaochuang Han,Youssef Emad,Melissa Hall,John Nguyen,Karthik Padthe,Liam Robbins,Amir Bar,Delong Chen,Michal Drozdzal,Maha Elbayad,Yushi Hu,Shang-Wen Li,Sreya Dutta Roy,Jakob Verbeek,XuDong Wang,Marjan Ghazvininejad,Luke Zettlemoyer,Emily Dinan

Main category: cs.LG

TL;DR: TV2TV是一个统一的视频生成框架,通过交替生成文本和视频帧,让模型先用文字"思考"后续内容,再用像素"行动"生成视频,从而提升视频质量和可控性。

  • Motivation: 当前视频生成模型在处理需要复杂语义分支或高层推理的视频时仍存在困难。为了解决这个问题,研究者希望将语言模型的推理能力整合到视频生成中,让模型能够更好地决定后续内容。
  • Method: TV2TV采用混合Transformer架构,联合学习语言建模(下一词预测)和视频流匹配(下一帧预测)。在推理时,模型自主决定何时在生成文本和视频帧之间切换,实现"用文字思考,用像素行动"的交替生成过程。
  • Result: 在视频游戏数据上的实验显示,TV2TV在视觉质量和可控性方面都有显著提升。模型也能扩展到自然视频(如体育视频),通过视觉语言模型增强后,能够生成复杂的真实世界动作序列,表现出良好的视觉质量和提示对齐能力。
  • Conclusion: TV2TV代表了向具有开放式文本推理和控制能力的视频生成迈出的有希望的一步,通过整合语言推理能力,显著提升了视频生成的质量和可控性。

[131] Deep infant brain segmentation from multi-contrast MRI

Malte Hoffmann,Lilla Zöllei,Adrian V. Dalca

Main category: cs.LG

TL;DR: BabySeg:一个用于婴幼儿脑部MRI分割的深度学习框架,支持多种MRI协议和输入配置,通过域随机化和灵活特征池化实现高性能分割

  • Motivation: 婴幼儿脑部MRI分割面临诸多挑战:图像获取困难、模态不一致、非头部解剖结构干扰、运动伪影等。现有方法往往局限于特定图像类型或年龄组,对临床中变化较大的图像鲁棒性差,存在方法碎片化问题。
  • Method: 1. 基于域随机化技术,合成远超现实范围的训练图像以增强对数据集偏移的鲁棒性;2. 设计灵活的特征池化和交互机制,支持任意数量输入扫描的特征融合;3. 构建统一的深度学习框架,支持多样化的MRI协议和训练时未见过的图像类型。
  • Result: BabySeg在多个年龄组和输入配置下均达到或超越了现有方法的性能,且运行时间仅为许多现有工具的一小部分。单个模型即可处理各种情况,展现了卓越的泛化能力。
  • Conclusion: BabySeg解决了婴幼儿脑部MRI分割的方法碎片化问题,通过域随机化和灵活特征交互实现了对多样化MRI协议和临床图像的鲁棒分割,为婴幼儿脑发育分析提供了高效统一的工具。

[132] Value Gradient Guidance for Flow Matching Alignment

Zhen Liu,Tim Z. Xiao,Carles Domingo-Enrich,Weiyang Liu,Dinghuai Zhang

Main category: cs.LG

TL;DR: 提出VGG-Flow方法,通过最优控制理论实现流匹配模型的高效微调,在有限计算预算下实现有效且保持先验的对齐

  • Motivation: 现有方法在适应效率和概率上合理的先验保持方面存在不足,需要一种既能高效微调流匹配模型,又能保持预训练模型先验分布的方法
  • Method: 基于最优控制理论,提出VGG-Flow方法,核心思想是微调后的速度场与预训练速度场之间的最优差异应与价值函数的梯度场相匹配,结合奖励模型的一阶信息和价值函数的启发式初始化
  • Result: 在流行的文本到图像流匹配模型Stable Diffusion 3上验证,方法能在有限计算预算下有效微调流匹配模型,实现有效且保持先验的对齐
  • Conclusion: VGG-Flow方法通过最优控制理论解决了流匹配模型微调中的效率和先验保持问题,为流匹配模型与人类偏好的对齐提供了有效解决方案

[133] The Universal Weight Subspace Hypothesis

Prakhar Kaushik,Shravan Chaudhari,Ankit Vaidya,Rama Chellappa,Alan Yuille

Main category: cs.LG

TL;DR: 深度神经网络在不同任务训练后,会收敛到相似的低维参数子空间,这些通用子空间在架构、任务和初始化之间保持一致。

  • Motivation: 探索深度神经网络在不同任务训练后是否存在共同的参数结构,以及这种结构对模型复用、多任务学习和计算效率的影响。
  • Method: 通过对1100多个模型(包括500个Mistral-7B LoRA、500个Vision Transformers和50个LLaMA-8B模型)进行模态谱分析,应用谱分解技术识别权重矩阵中的通用低维子空间。
  • Result: 发现神经网络系统性地收敛到共享的谱子空间,仅需少数主方向就能捕获大部分方差,这些稀疏的联合子空间在不同架构、任务和数据集之间保持一致。
  • Conclusion: 深度网络存在固有的信息组织结构,这种通用子空间结构对模型复用、多任务学习、模型融合和高效算法开发具有重要意义,可能减少大规模神经模型的碳足迹。

cs.RO

[134] From Generated Human Videos to Physically Plausible Robot Trajectories

James Ni,Zekai Wang,Wei Lin,Amir Bar,Yann LeCun,Trevor Darrell,Jitendra Malik,Roei Herzig

Main category: cs.RO

TL;DR: 提出GenMimic方法,通过两阶段流程让仿人机器人零样本模仿生成视频中的人类动作,解决了生成视频噪声和形态扭曲的挑战。

  • Motivation: 视频生成模型能合成新情境下的人类动作,有潜力作为机器人控制的高级规划器,但生成视频存在噪声和形态扭曲,难以让仿人机器人直接模仿执行。
  • Method: 两阶段流程:1) 将视频像素提升为4D人体表示并重定向到仿人形态;2) 提出GenMimic策略,基于物理感知的强化学习,以3D关键点为条件,采用对称正则化和关键点加权跟踪奖励训练。
  • Result: GenMimic能模仿噪声生成视频中的人类动作,在仿真中优于强基线,在Unitree G1仿人机器人上实现连贯、物理稳定的运动跟踪而无需微调。
  • Conclusion: 这项工作为实现视频生成模型作为机器人控制高级策略的潜力提供了有前景的路径,通过GenMimicBench基准评估零样本泛化和策略鲁棒性。

physics.soc-ph

[135] The changing surface of the world's roads

Sukanya Randhawa,Guntaj Randhawa,Clemens Langer,Francis Andorful,Benjamin Herfort,Daniel Kwakye,Omer Olchik,Sven Lautenbach,Alexander Zipf

Main category: physics.soc-ph

TL;DR: 利用深度学习分析全球卫星影像,创建首个全球多时相道路铺面状况与宽度数据集,覆盖920万公里关键动脉道路,揭示道路基础设施与人类发展的多尺度地理关系。

  • Motivation: 道路基础设施是联合国可持续发展目标的基础,但目前缺乏衡量网络功能和韧性的关键指标——全球道路表面信息的综合基线数据。
  • Method: 应用深度学习框架分析2020年和2024年的全球Planetscope卫星影像镶嵌图,创建全球多时相道路铺面状况和宽度数据集。
  • Result: 创建了首个全球多时相道路数据集,覆盖920万公里关键动脉道路,达到95.5%覆盖率,其中近一半网络此前未分类。发现道路铺面变化率是国家发展轨迹的稳健代理指标(与HDI相关性=0.65)。
  • Conclusion: 该研究提供了基础数据集和多尺度分析框架,用于监测全球基础设施,从国家发展动态到地方治理、气候适应和公平现实。道路表面数据比夜间灯光等传统代理指标更能直接测量支撑繁荣和韧性的物理基础设施。

cs.CC

[136] Hardware-aware Neural Architecture Search of Early Exiting Networks on Edge Accelerators

Alaa Zniber,Arne Symons,Ouassim Karrakchou,Marian Verhelst,Mounir Ghogho

Main category: cs.CC

TL;DR: 提出硬件感知的神经架构搜索框架,通过优化早期退出点位置,在边缘设备上实现超过50%的计算成本降低

  • Motivation: 边缘计算对深度学习的计算和能耗有严格限制,早期退出神经网络虽然能提高效率,但其性能受边缘加速器异构性和量化约束影响,而现有研究对边缘硬件的自动优化不足
  • Method: 提出硬件感知的神经架构搜索框架,系统整合量化效应和硬件资源分配,优化网络主干中早期退出点的放置位置
  • Result: 在CIFAR-10数据集上的实验表明,该框架发现的架构相比传统静态网络能减少超过50%的计算成本
  • Conclusion: 提出的硬件感知NAS框架能有效优化早期退出神经网络设计,使其更适合资源受限的边缘环境部署