Skip to content
每日arXiv - 2025年12月15日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Leveraging Text Guidance for Enhancing Demographic Fairness in Gender Classification

Anoop Krishnan

Main category: cs.CV

TL;DR: 该研究提出利用文本引导方法增强人脸图像性别分类算法的公平性,通过图像文本匹配指导和图像文本融合两种策略,在无需人口统计标签的情况下减少性别和种族偏见。

  • Motivation: 解决人工智能中的公平性问题,特别是在人脸图像性别分类算法中存在的性别和种族偏见问题。当前方法往往存在人口统计偏差,需要开发更公平、可解释的算法。
  • Method: 提出两种文本引导策略:1) 图像文本匹配指导:训练模型识别图像和文本之间的细粒度对齐,获得增强的多模态表示;2) 图像文本融合:将图像和文本模态结合成综合表示。两种方法都利用图像标题中的语义信息来改善模型的泛化能力。
  • Result: 在基准数据集上的广泛实验表明,这些方法有效减轻了偏见,提高了不同性别和种族群体的分类准确性,优于现有方法。该方法无需人口统计标签,具有应用无关性。
  • Conclusion: 该研究通过文本引导方法成功减少了人脸分析算法中的偏见,为开发更公平的计算机视觉系统提供了可解释、直观的训练范式,为解决人口统计偏见这一关键挑战做出了贡献。

[2] SoccerMaster: A Vision Foundation Model for Soccer Understanding

Haolin Yang,Jiayuan Rao,Haoning Wu,Weidi Xie

Main category: cs.CV

TL;DR: 提出SoccerMaster,首个足球专用视觉基础模型,通过监督多任务预训练统一处理多种足球视觉理解任务,构建SoccerFactory数据集,并在多个下游任务中超越任务专用模型。

  • Motivation: 足球理解因其领域特定的复杂性和独特挑战而受到关注。现有研究通常依赖孤立的、任务专用的专家模型,缺乏统一框架来处理从细粒度感知到语义推理的多样化足球视觉理解任务。
  • Method: 提出SoccerMaster足球专用视觉基础模型,通过监督多任务预训练在单一框架中统一处理多样化任务;开发自动化数据标注流程生成可扩展的空间标注,整合现有足球视频数据集构建SoccerFactory预训练数据资源。
  • Result: SoccerMaster在多个下游任务中持续超越任务专用专家模型,展示了其广度和优越性。数据、代码和模型将公开可用。
  • Conclusion: SoccerMaster作为首个足球专用视觉基础模型,成功统一了多样化足球理解任务,通过多任务预训练和综合数据集构建,在性能上超越了传统任务专用模型,为足球视觉理解提供了统一解决方案。

[3] Weakly Supervised Tuberculosis Localization in Chest X-rays through Knowledge Distillation

Marshal Ashif Shawkat,Moidul Hasan,Taufiq Hasan

Main category: cs.CV

TL;DR: 该研究利用知识蒸馏技术训练CNN模型,减少虚假相关性并定位结核病异常,无需边界框标注,在TBX11k数据集上取得了0.2428 mIOU的优异表现。

  • Motivation: 结核病是全球主要死因之一,胸片是经济有效的诊断工具但需要专家解读。现有机器学习模型依赖虚假相关性且泛化能力差,而构建高质量医学图像标注数据集成本高昂。
  • Method: 采用知识蒸馏技术,使用教师-学生框架(基于ResNet50架构),无需边界框标注即可训练CNN模型减少虚假相关性并定位结核病相关异常。
  • Result: 在TBX11k数据集上取得了0.2428 mIOU的优异表现,学生模型持续优于教师模型,显示出改进的鲁棒性和在多样化临床环境中部署的潜力。
  • Conclusion: 知识蒸馏技术能有效训练结核病分类模型,减少对虚假相关性的依赖,无需昂贵的边界框标注,具有更好的泛化能力和临床部署潜力。

[4] Synthetic Vasculature and Pathology Enhance Vision-Language Model Reasoning

Chenjun Li,Cheng Wan,Laurin Lux,Alexander Berger,Richard B. Rosen,Martin J. Menten,Johannes C. Paetzold

Main category: cs.CV

TL;DR: 提出SVR框架,通过可控合成视网膜血管图像和对应文本,创建OCTA-100K-SVR数据集,训练通用VLM在OCTA图像诊断中达到89.67%的零样本分类准确率,超越监督基线。

  • Motivation: 在医学影像诊断领域,训练视觉语言模型需要大规模图像-文本数据集,但在OCTA等专业领域,带有精确病理描述的地面真值文本非常稀缺,这限制了VLM在医学诊断中的应用。
  • Method: 提出Synthetic Vasculature Reasoning (SVR)框架,可控合成具有糖尿病视网膜病变特征的视网膜血管图像(毛细血管脱落、微动脉瘤、新生血管、血管迂曲),并自动生成细粒度推理文本,创建了包含10万对数据的OCTA-100K-SVR数据集。
  • Result: 在OCTA-100K-SVR数据集上训练的通用VLM(Qwen3-VL-8b)在真实OCTA图像上实现了89.67%的零样本平衡分类准确率,超越了监督基线方法。人类专家评估显示,该方法显著提高了临床数据上的解释质量和病理定位能力。
  • Conclusion: SVR框架通过合成数据有效解决了医学专业领域数据稀缺问题,使VLM能够在OCTA图像诊断中实现高性能的零样本分类和解释能力,为可解释医学诊断提供了有前景的路径。

[5] VDAWorld: World Modelling via VLM-Directed Abstraction and Simulation

Felix O'Mahony,Roberto Cipolla,Ayush Tewari

Main category: cs.CV

TL;DR: VDAWorld:通过视觉语言模型智能抽象和自适应物理模拟构建可查询世界模型的新范式

  • Motivation: 传统生成视频模型存在违反物理逻辑规则、缺乏交互性、黑箱操作等问题,不适合构建结构化可查询的世界模型
  • Method: 提出VDAWorld框架,使用视觉语言模型作为智能代理,将图像-文本对蒸馏为可处理的抽象表示,自主构建2D/3D场景表示并选择兼容的物理模拟器,从静态场景推断潜在动态
  • Result: 智能抽象与自适应模拟的结合能够产生高质量模拟,适用于广泛的动态场景
  • Conclusion: VDAWorld通过新的世界建模范式克服了传统生成模型的局限性,实现了结构化、可查询的模拟能力

[6] E-CHUM: Event-based Cameras for Human Detection and Urban Monitoring

Jack Brady,Andrew Dailey,Kristen Schang,Zo Vic Shong

Main category: cs.CV

TL;DR: 本文综述了事件相机在城市场景动态研究中的应用,分析了其优势、挑战及机器学习应用,并提出了多传感器融合方案。

  • Motivation: 传统城市监测方法存在局限,需要更好的技术来理解城市动态。事件相机作为一种新兴传感器,具有独特优势(如低光工作能力),有望改善城市动态研究。
  • Method: 通过文献综述方法,分析事件相机的工作原理、应用场景、优势挑战以及机器学习应用,并提出事件相机与其他传感器(红外、LiDAR、振动传感器)的多传感器融合方案。
  • Result: 事件相机能够捕捉重要信息同时保护隐私,适合城市动态研究。多传感器融合可以增强事件相机的能力并克服其现有挑战。
  • Conclusion: 事件相机是研究城市动态的有前景媒介,结合多传感器融合技术可以进一步提升城市监测能力。

[7] Vision-Language Models for Infrared Industrial Sensing in Additive Manufacturing Scene Description

Nazanin Mahjourian,Vinh Nguyen

Main category: cs.CV

TL;DR: 提出VLM-IRIS框架,通过将红外图像转换为岩浆色表示,使CLIP等视觉语言模型能够零样本处理红外数据,应用于工业环境中的工件检测。

  • Motivation: 许多制造环境在低光照或封闭机器中运行,传统视觉系统难以工作。红外相机在此类环境中具有优势,但现有视觉语言模型无法理解红外数据,因为它们是在RGB数据上训练的。
  • Method: VLM-IRIS框架通过预处理FLIR Boson传感器捕获的红外图像,将其转换为适合CLIP编码器的RGB兼容输入。具体方法包括将红外图像转换为岩浆色表示,并应用质心提示集成与CLIP ViT-B/32编码器。
  • Result: 在3D打印机床上实现了零样本工件存在检测,利用构建板和工作之间的温度差异,通过热成像实现高精度检测,无需任何模型重新训练。
  • Conclusion: 提出的VLM改进可以有效地扩展到热应用,实现无标签监控,为红外工业传感提供了实用的零样本学习框架。

[8] VGent: Visual Grounding via Modular Design for Disentangling Reasoning and Prediction

Weitai Kang,Jason Kuen,Mengwei Ren,Zijun Wei,Yan Yan,Kangning Liu

Main category: cs.CV

TL;DR: VGent提出模块化编码器-解码器架构,通过冻结MLLM保持推理能力,使用检测器提案作为查询,实现快速准确的多目标视觉定位。

  • Motivation: 现有视觉定位模型存在两个问题:基于MLLM的自回归解码速度慢且易产生幻觉;重新对齐LLM学习新特殊标记会损害预训练推理能力。需要一种既能保持强大推理能力又能快速准确预测边界框的方法。
  • Method: 采用模块化编码器-解码器架构:冻结的MLLM作为编码器保持推理能力;解码器以检测器提出的高质量边界框作为查询,通过交叉注意力从编码器隐藏状态中选择目标框。引入QuadThinker增强多目标推理能力,mask-aware标签解决检测-分割歧义,全局目标识别改进目标识别。
  • Result: 在多目标视觉定位基准测试中,VGent实现了新的SOTA,F1分数比先前方法提升+20.6%,在视觉参考挑战中gIoU提升+8.2%,cIoU提升+5.8%,同时保持恒定快速的推理延迟。
  • Conclusion: VGent通过模块化设计成功解耦高级推理和低级边界框预测,充分利用目标检测和MLLM的进展,避免了自回归解码的缺陷,实现了快速准确的视觉定位,支持模块化升级。

[9] Information-driven Fusion of Pathology Foundation Models for Enhanced Disease Characterization

Brennan Flannery,Thomas DeSilvio,Jane Nguyen,Satish E. Viswanath

Main category: cs.CV

TL;DR: 提出基于信息驱动的智能融合策略,整合多个病理学基础模型,通过相关性引导的特征剪枝提升癌症分级和分期任务的性能。

  • Motivation: 虽然基础模型在病理学任务中表现良好,但对其互补性、嵌入空间冗余性和特征生物学解释的理解有限,需要开发有效的多模型融合方法。
  • Method: 使用肾癌、前列腺癌和直肠癌的H&E全切片图像,评估三种融合方案:多数投票集成、朴素特征拼接和基于相关性引导剪枝的智能融合,在瓦片级和切片级进行对比。
  • Result: 智能融合在所有三种癌症分类任务中均优于最佳单一模型和朴素融合,全局相似性高但局部邻域一致性低,注意力图显示智能融合能更集中关注肿瘤区域。
  • Conclusion: 相关性引导的病理学基础模型智能融合能产生紧凑、任务定制的表示,在计算病理学下游任务中同时提升预测性能和可解释性。

[10] Learning from a Generative Oracle: Domain Adaptation for Restoration

Yuyang Hu,Mojtaba Sahraee-Ardakan,Arpit Bansal,Kangfu Mei,Christian Qi,Peyman Milanfar,Mauricio Delbracio

Main category: cs.CV

TL;DR: LEGO:一种无需配对数据的后训练领域自适应框架,利用生成式Oracle将无监督挑战转化为伪监督学习,有效解决预训练图像恢复模型在真实世界分布外退化上的性能下降问题。

  • Motivation: 预训练图像恢复模型在真实世界、分布外的退化场景中表现不佳,存在显著的领域差距。适应这些未见领域具有挑战性,因为分布外数据缺乏真实标签,传统自适应方法通常需要复杂的架构修改。
  • Method: 提出LEGO三阶段框架:1) 从预训练模型获得初始恢复结果;2) 利用冻结的大规模生成式Oracle将这些估计精炼为高质量的伪真实标签;3) 使用混合监督策略(结合分布内数据和新的伪配对)微调原始模型。
  • Result: 实验表明LEGO能有效弥合领域差距,在多样化的真实世界基准测试中显著提升性能,同时不牺牲模型的原始鲁棒性或需要架构修改。
  • Conclusion: LEGO提供了一种实用的后训练领域自适应方法,无需配对数据即可适应新分布,为图像恢复模型在真实世界应用中的部署提供了有效解决方案。

[11] Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching

Bowen Wen,Shaurya Dewan,Stan Birchfield

Main category: cs.CV

TL;DR: Fast-FoundationStereo 是一种新型立体视觉架构,首次实现了在实时帧率下的强零样本泛化能力,比 FoundationStereo 快10倍以上,同时保持相近的零样本精度。

  • Motivation: 现有立体视觉基础模型虽然零样本泛化能力强,但计算成本高无法实时应用;而高效的立体架构则牺牲鲁棒性换取速度,且需要昂贵的领域微调。需要弥合这一差距。
  • Method: 采用分治加速策略:1) 知识蒸馏将混合骨干网络压缩为单一高效学生模型;2) 块级神经架构搜索自动发现最优代价滤波设计;3) 结构化剪枝消除迭代细化模块冗余。同时引入自动伪标签流水线,收集140万真实世界立体图像对补充合成训练数据。
  • Result: 模型运行速度比 FoundationStereo 快10倍以上,同时零样本精度与之接近,在实时方法中建立了新的最先进水平。
  • Conclusion: Fast-FoundationStereo 首次实现了在实时帧率下的强零样本泛化能力,为实时立体视觉应用提供了高效且鲁棒的解决方案。

[12] Learning complete and explainable visual representations from itemized text supervision

Yiwei Lyu,Chenhui Zhao,Soumyanil Banerjee,Shixuan Liu,Akshay Rao,Akhil Kondepudi,Honglak Lee,Todd C. Hollon

Main category: cs.CV

TL;DR: ItemizedCLIP:针对医学影像和遥感等非中心化视觉领域的框架,利用项目化文本标注(多个独立文本描述同一图像的不同区域)学习完整且可解释的视觉表示,相比传统方法在零样本性能和可解释性上有显著提升。

  • Motivation: 传统语言监督的视觉模型主要针对中心化物体场景,但医学影像、遥感等非中心化领域常包含项目化文本标注——同一图像中有多个独立语义的文本描述,这些描述不是冗余重叠的,而是描述图像中不同的独立发现。现有方法无法有效处理这种监督信号。
  • Method: ItemizedCLIP采用交叉注意力模块生成文本项目条件化的视觉嵌入,并设计专门的目标函数:1)项目独立性目标:确保不同文本项目对应不同图像区域;2)表示完整性目标:确保所有文本项目都能在图像中找到对应表示。框架结合这两种目标学习完整且可解释的表示。
  • Result: 在四个自然项目化文本监督领域(脑MRI、头CT、胸CT、遥感)和一个合成项目化数据集上,ItemizedCLIP在零样本性能和细粒度可解释性方面显著优于基线方法。生成的表示具有语义基础、项目可区分性、完整性和视觉可解释性。
  • Conclusion: ItemizedCLIP成功解决了非中心化视觉领域中项目化文本监督的挑战,通过学习完整且可解释的视觉表示,为医学影像和遥感等领域的细粒度理解和解释提供了有效框架,代码已开源。

[13] Image Tiling for High-Resolution Reasoning: Balancing Local Detail with Global Context

Anatole Jacquin de Margerie,Alexis Roger,Irina Rish

Main category: cs.CV

TL;DR: 对Monkey VLM的复现研究,验证了图像分块策略能有效恢复局部细节,同时研究了全局上下文的影响,发现结果偏差与任务类型和分块粒度密切相关。

  • Motivation: 复杂多模态模型往往缺乏透明的实现细节和可访问的训练基础设施,这影响了科学研究的可复现性。本研究旨在对CVPR24发表的Monkey VLM进行详细复现和批判性分析,以促进高分辨率图像理解领域的可复现研究。
  • Method: 使用开源检查点复现Monkey VLM的策略,重新实现训练流程。通过图像分块处理大尺寸图像以恢复细粒度视觉细节,同时保持计算效率。进一步研究了全局上下文信息对模型性能的影响。
  • Result: 证实了原始Monkey VLM的关键发现:分块策略能有效恢复局部细节。同时发现结果存在偏差,这些偏差的大小严重依赖于任务类型和分块粒度。全局上下文的加入为未来高分辨率多模态建模提供了实用见解。
  • Conclusion: 本研究成功复现了Monkey VLM的核心发现,验证了图像分块在高分辨率视觉理解中的有效性。研究揭示了任务类型和分块粒度对结果的重要影响,为未来高分辨率多模态模型设计提供了重要参考,强调了可复现性在科学研究中的重要性。

[14] Lightweight 3D Gaussian Splatting Compression via Video Codec

Qi Yang,Geert Van Der Auwera,Zhu Li

Main category: cs.CV

TL;DR: 提出基于视频编解码器的轻量级3D高斯泼溅压缩方法,通过两阶段Morton扫描和MiniPLAS优化,在保持高质量的同时大幅降低计算开销

  • Motivation: 现有基于视频的GS压缩方法依赖计算昂贵的PLAS排序,限制了在轻量设备上的应用,需要更高效的压缩方案
  • Method: 1) 两阶段Morton扫描生成块状2D映射;2) PCA降维球谐系数;3) 设计灵活快速的MiniPLAS进行块内排序;4) 结合视频编解码器配置优化
  • Result: 在MPEG数据集上实现超过20%的率失真性能提升,2D映射生成时间降至约1秒,编码时间减少50%
  • Conclusion: LGSCV方法在保持高质量压缩的同时显著降低了计算复杂度,使3D高斯泼溅技术更适合轻量设备应用

[15] Multi-task Learning with Extended Temporal Shift Module for Temporal Action Localization

Anh-Kiet Duong,Petra Gomez-Krämer

Main category: cs.CV

TL;DR: 本文提出了针对BinEgo-360挑战赛的解决方案,通过扩展TSM模块处理时序动作定位,采用多任务学习框架结合场景分类,并通过加权集成策略提升性能,在比赛中获得第一名。

  • Motivation: BinEgo-360挑战赛聚焦于多视角、多模态视频中的时序动作定位,数据集包含全景、第三人称和第一人称视角的录制视频,标注了细粒度的动作类别。需要开发能够有效处理这种复杂场景的动作定位方法。
  • Method: 1. 基于时序移位模块(TSM)构建基础框架,扩展其处理时序动作定位的能力,引入背景类别并对固定长度的非重叠区间进行分类;2. 采用多任务学习框架,联合优化场景分类和时序动作定位任务,利用动作与环境之间的上下文线索;3. 通过加权集成策略整合多个模型,提高预测的鲁棒性和一致性。
  • Result: 该方法在BinEgo-360挑战赛的初赛和扩展轮次中均排名第一,证明了结合多任务学习、高效骨干网络和集成学习在时序动作定位任务中的有效性。
  • Conclusion: 多任务学习框架、高效的TSM骨干网络以及模型集成策略的组合,为多视角多模态视频中的时序动作定位提供了有效的解决方案,在复杂场景下表现出色。

[16] CADKnitter: Compositional CAD Generation from Text and Geometry Guidance

Tri Le,Khang Nguyen,Baoru Huang,Tung D. Ta,Anh Nguyen

Main category: cs.CV

TL;DR: CADKnitter是一个组合式CAD生成框架,通过几何引导的扩散采样策略,能够根据给定的CAD模型几何约束和文本提示的语义约束,生成互补的CAD部件。

  • Motivation: 传统CAD建模耗时且需要专业技能,现有3D生成方法主要关注单部件生成,但实际应用中需要多个部件在语义和几何约束下组装。
  • Method: 提出CADKnitter框架,采用几何引导的扩散采样策略,能够生成符合几何约束和语义约束的互补CAD部件。同时构建了包含31万样本的KnitCAD数据集。
  • Result: 实验表明,CADKnitter在组合式CAD生成任务上明显优于其他最先进的基线方法。
  • Conclusion: CADKnitter通过几何引导的扩散采样实现了组合式CAD生成,解决了实际应用中多部件组装的需求,在语义和几何约束下生成互补部件。

[17] AutoRefiner: Improving Autoregressive Video Diffusion Models via Reflective Refinement Over the Stochastic Sampling Path

Zhengyang Yu,Akio Hayakawa,Masato Ishii,Qingtao Yu,Takashi Shibuya,Jing Zhang,Yuki Mitsufuji

Main category: cs.CV

TL;DR: AutoRefiner:针对自回归视频扩散模型的高效噪声优化插件,通过路径式噪声优化和反射KV缓存提升样本保真度

  • Motivation: 自回归视频扩散模型(AR-VDMs)作为可扩展的双向VDMs替代方案,在实时和交互应用中表现出色,但样本保真度仍有提升空间。现有的推理时对齐方法计算成本高,不适合AR-VDMs,而文本到图像领域的噪声优化器不能直接应用于视频模型。
  • Method: 提出AutoRefiner,专门为AR-VDMs设计的噪声优化器,包含两个关键设计:1)路径式噪声优化:沿随机去噪路径优化噪声;2)反射KV缓存:提高优化效率
  • Result: 实验表明AutoRefiner作为AR-VDMs的高效插件,能有效提升样本保真度,通过单次前向传播优化噪声,避免昂贵的优化或搜索过程
  • Conclusion: AutoRefiner成功解决了将T2I噪声优化器扩展到AR-VDMs的挑战,为自回归视频扩散模型提供了高效且有效的样本质量提升方案

[18] SmokeBench: Evaluating Multimodal Large Language Models for Wildfire Smoke Detection

Tianye Qi,Weihao Li,Nick Barnes

Main category: cs.CV

TL;DR: 本文提出了SmokeBench基准测试,用于评估多模态大语言模型在图像中识别和定位野火烟雾的能力,发现现有模型在烟雾定位方面存在显著不足,尤其是在早期阶段。

  • Motivation: 野火烟雾具有透明、无定形且常与云混淆的视觉特性,使得早期检测特别困难。当前多模态大语言模型在烟雾识别和定位方面的能力尚未得到系统评估,这对于安全关键的野火监测应用至关重要。
  • Method: 构建了SmokeBench基准测试,包含四个任务:烟雾分类、基于图块的烟雾定位、基于网格的烟雾定位和烟雾检测。评估了Idefics2、Qwen2.5-VL、InternVL3、Unified-IO 2、Grounding DINO、GPT-4o和Gemini-2.5 Pro等多个MLLM模型。
  • Result: 虽然部分模型能够在烟雾覆盖大面积区域时进行分类,但所有模型在精确定位方面都表现不佳,尤其是在早期阶段。烟雾体积与模型性能强相关,而对比度的影响相对较小。
  • Conclusion: 当前MLLM模型在安全关键的野火监测中存在严重局限性,特别是在早期烟雾定位方面。研究强调了开发改进早期烟雾定位方法的必要性。

[19] VFMF: World Modeling by Forecasting Vision Foundation Model Features

Gabrijel Boduljak,Yushi Lan,Christian Rupprecht,Andrea Vedaldi

Main category: cs.CV

TL;DR: 提出一种在视觉基础模型特征空间中进行自回归流匹配的生成式预测方法,通过紧凑的潜在空间编码实现多模态不确定性预测

  • Motivation: 现有方法存在两个极端:基于像素的随机视频生成计算量大且难以转化为决策信号;基于VFM特征的确定性回归会平均多个可能未来,无法捕捉不确定性。需要一种既能保持计算效率又能处理不确定性的预测方法。
  • Method: 在VFM特征空间中执行自回归流匹配的生成式预测。关键创新是将VFM特征编码到适合扩散的紧凑潜在空间,该空间比之前使用的PCA替代方案能更有效地保留信息。潜在预测可以解码为多种有用输出模态:语义分割、深度、表面法线甚至RGB。
  • Result: 在相同架构和计算条件下,该方法在所有模态上都比回归方法产生更清晰、更准确的预测。潜在空间不仅适用于预测,也适用于图像生成等其他应用。
  • Conclusion: VFM特征的随机条件生成为未来世界模型提供了一个有前景且可扩展的基础,能够在保持计算效率的同时处理预测不确定性,并生成多种可解释的输出模态。

[20] FutureX: Enhance End-to-End Autonomous Driving via Latent Chain-of-Thought World Model

Hongbin Lin,Yiming Yang,Yifan Zhang,Chaoda Zheng,Jie Feng,Sheng Wang,Zhennan Wang,Shijia Chen,Boyang Wang,Yu Zhang,Xianming Liu,Shuguang Cui,Zhen Li

Main category: cs.CV

TL;DR: FutureX是一个基于思维链的自动驾驶规划框架,通过未来场景推理和轨迹优化来提升端到端规划器的性能,在复杂动态环境中生成更合理的运动规划。

  • Motivation: 现有端到端规划器仅依赖当前场景进行运动规划,在高度动态的交通环境中可能产生次优响应,因为自车行为会改变未来场景。需要建模未来场景演化以进行更复杂的推理。
  • Method: 提出FutureX框架:1) 自动思维开关评估当前场景是否需要额外推理;2) 思维模式下,潜在世界模型进行思维链引导的未来场景表示预测;3) 总结模块基于未来场景表示优化运动规划;4) 简单场景下使用即时模式单次前向传播。
  • Result: 实验表明FutureX能提升现有方法性能,生成更合理的运动规划,减少碰撞,同时保持效率。例如在NAVSIM上为TransFuser带来6.2 PDMS的性能提升。
  • Conclusion: FutureX通过思维链驱动的未来场景推理和轨迹优化,有效提升了端到端规划器在复杂动态环境中的运动规划质量,实现了性能的显著提升。

[21] REST: Diffusion-based Real-time End-to-end Streaming Talking Head Generation via ID-Context Caching and Asynchronous Streaming Distillation

Haotian Wang,Yuzhe Weng,Xinyi Yu,Jun Du,Haoran Xu,Xiaoyan Wu,Shan He,Bing Yin,Cong Liu,Qingfeng Liu

Main category: cs.CV

TL;DR: REST是首个基于扩散模型、实时、端到端的流式音频驱动说话头生成框架,通过紧凑视频潜在空间、ID-Context缓存机制和异步流式蒸馏训练策略,实现了实时生成并保持时序一致性和身份连贯性。

  • Motivation: 现有基于扩散模型的说话头生成方法存在推理速度慢和非自回归范式的问题,严重限制了实际应用。需要开发能够实时、端到端生成且保持时序一致性的流式音频驱动说话头生成框架。
  • Method: 1) 通过高时空VAE压缩学习紧凑视频潜在空间;2) 引入ID-Context缓存机制,结合ID-Sink和Context-Cache原则进行键值缓存,保持长时间流式生成中的时序一致性和身份连贯性;3) 提出异步流式蒸馏训练策略,利用非流式教师模型和异步噪声调度来监督流式学生模型的训练,减少自回归生成中的误差累积。
  • Result: REST在生成速度和整体性能上都优于最先进的方法,成功弥合了自回归和基于扩散方法之间的差距,为需要实时说话头生成的应用提供了重要价值。
  • Conclusion: REST是首个基于扩散模型的实时端到端流式音频驱动说话头生成框架,通过创新的紧凑潜在空间、缓存机制和训练策略,实现了实时生成并保持了高质量,具有重要的实际应用价值。

[22] RoomPilot: Controllable Synthesis of Interactive Indoor Environments via Multimodal Semantic Parsing

Wentang Chen,Shougao Zhang,Yiman Zhang,Tianhao Zhou,Ruihui Li

Main category: cs.CV

TL;DR: RoomPilot是一个统一的室内场景生成框架,能够将文本描述或CAD平面图等多样化输入解析为室内领域特定语言(IDSL),实现可控、交互式的3D室内场景生成。

  • Motivation: 现有室内场景生成方法要么处理输入模态范围有限,要么依赖随机过程导致可控性差。游戏开发、建筑可视化和具身AI训练等应用需要可控且交互式的室内场景生成。
  • Method: 提出RoomPilot框架,将多模态输入(文本描述或CAD平面图)解析为室内领域特定语言(IDSL),利用带交互标注的资产数据集合成具有现实物体行为的场景。
  • Result: 实验验证了RoomPilot在多模态理解、细粒度场景生成可控性、物理一致性和视觉保真度方面的优越性能,在可控3D室内场景生成方面取得显著进展。
  • Conclusion: RoomPilot通过IDSL作为共享语义表示,实现了从单一模态生成高质量、交互式室内场景的统一框架,为通用可控3D室内场景生成迈出重要一步。

[23] WildCap: Facial Appearance Capture in the Wild via Hybrid Inverse Rendering

Yuxuan Han,Xin Ming,Tianxiao Li,Zhuofan Shen,Qixuan Zhang,Lan Xu,Feng Xu

Main category: cs.CV

TL;DR: WildCap提出了一种从智能手机视频中高质量捕捉面部外观的新方法,通过混合逆渲染框架在非受控光照条件下分离高质量反射率

  • Motivation: 现有方法需要在可控光照条件下才能实现高质量面部外观捕捉,这增加了捕捉成本并限制了实用性。需要一种能在自然光照条件下(如智能手机视频)进行高质量面部外观捕捉的方法
  • Method: 提出混合逆渲染框架:1)使用SwitchLight数据驱动方法将捕获图像转换为更受约束的条件;2)采用基于模型的逆渲染;3)提出纹理网格光照模型将非物理效应解释为干净反照率受局部物理光照照射;4)在优化中联合采样反射率图的扩散先验并优化光照
  • Result: 在相同捕捉设置下显著优于现有技术,大幅缩小了自然光照与可控录制之间的质量差距
  • Conclusion: WildCap能够在自然光照条件下实现高质量面部外观捕捉,解决了现有方法对可控光照的依赖问题,具有更好的实用性和可访问性

[24] Cross-modal Prompting for Balanced Incomplete Multi-modal Emotion Recognition

Wen-Jue He,Xiaofeng Zhu,Zheng Zhang

Main category: cs.CV

TL;DR: 本文提出了一种新颖的跨模态提示(ComP)方法,通过增强模态特定特征和提升各模态性能来解决不完整多模态情感识别中的性能差距和模态欠优化问题。

  • Motivation: 不完整多模态情感识别(IMER)面临性能差距和模态欠优化问题,这些问题在多模态数据缺失的情况下更加严重,阻碍了有效的多模态学习。
  • Method: 提出跨模态提示(ComP)方法,包括:1)带有动态梯度调制器的渐进提示生成模块,产生简洁一致的模态语义线索;2)跨模态知识传播,通过传递的提示选择性放大模态特征中的一致信息;3)协调器动态重新加权模态输出作为平衡策略的补充。
  • Result: 在4个数据集上对7种最先进方法在不同缺失率下进行了广泛实验,验证了所提方法的有效性。
  • Conclusion: ComP方法通过强调一致信息和提升各模态性能,有效解决了不完整多模态情感识别中的挑战,提高了整体识别准确率。

[25] PersonaLive! Expressive Portrait Image Animation for Live Streaming

Zhiyuan Li,Chi-Man Pun,Chen Fang,Jue Wang,Xiaodong Cun

Main category: cs.CV

TL;DR: PersonaLive:面向直播场景的实时人像动画扩散框架,通过多阶段训练实现低延迟、稳定长视频生成,速度比现有方法快7-22倍

  • Motivation: 现有扩散式人像动画模型过于关注视觉质量和表情真实感,忽略了生成延迟和实时性能,限制了在直播场景中的应用范围
  • Method: 1. 采用混合隐式信号(隐式面部表示和3D隐式关键点)实现图像级运动控制;2. 提出少步外观蒸馏策略消除去噪过程中的外观冗余;3. 引入自回归微块流式生成范式,配备滑动训练策略和历史关键帧机制
  • Result: PersonaLive在保持最先进性能的同时,比现有扩散式人像动画模型快7-22倍,实现了低延迟和稳定的长视频生成
  • Conclusion: PersonaLive通过创新的多阶段训练方法,成功解决了扩散模型在直播场景中的实时性能瓶颈,为人像动画的实际应用开辟了新途径

[26] Do We Need Reformer for Vision? An Experimental Comparison with Vision Transformers

Ali El Bellaj,Mohammed-Amine Cheddadi,Rhassan Berber

Main category: cs.CV

TL;DR: Reformer架构在视觉任务中理论上能降低注意力复杂度,但实际应用中ViT在效率和计算时间上表现更好,除非序列长度远超典型高分辨率图像。

  • Motivation: Vision Transformers (ViTs) 在计算机视觉中表现出色,但全局自注意力计算复杂度为O(n²),限制了在高分辨率输入和资源受限环境中的实用性。需要探索更高效的替代架构。
  • Method: 采用Reformer架构作为视觉主干网络,结合基于patch的token化和局部敏感哈希(LSH)注意力,近似全局自注意力同时将理论时间复杂度从O(n²)降低到O(n log n)。
  • Result: 在CIFAR-10上Reformer比ViT基线准确率更高,但在ImageNet-100和高分辨率医学影像数据集上,ViT在实际效率和端到端计算时间方面始终优于Reformer。
  • Conclusion: 尽管LSH注意力具有理论优势,但要在实际中获得有意义的计算收益,需要序列长度远超典型高分辨率图像产生的长度。对于大多数视觉任务,ViT仍然是更实用的选择。

[27] Evaluating the Efficacy of Sentinel-2 versus Aerial Imagery in Serrated Tussock Classification

Rezwana Sultana,Manzur Murshed,Kathryn Sheffield,Singarayer Florentine,Tsz-Kwan Lee,Shyh Wei Teng

Main category: cs.CV

TL;DR: 该研究评估了多时相Sentinel-2卫星影像在景观尺度监测入侵植物锯齿丛草的效果,发现其分类精度(OA 68%)略优于航空影像模型(OA 67%),为大规模入侵物种监测提供了成本效益更高的替代方案。

  • Motivation: 锯齿丛草是澳大利亚维多利亚州的主要入侵草种,对生态系统和农业造成严重威胁。传统地面调查和航空影像监测方法在小尺度有效,但成本高、难以扩展到景观尺度。需要寻找更经济、可扩展的监测方案。
  • Method: 使用多时相Sentinel-2卫星影像,结合光谱波段、纹理特征、植被指数和季节性数据,开发了11个模型。采用随机森林分类器,并与航空影像模型进行对比评估。
  • Result: 最佳Sentinel-2模型(M76*)总体精度为68%,Kappa系数0.55,略优于最佳航空影像模型的67%精度和0.52 Kappa系数。多季节特征增强的卫星模型在景观尺度入侵物种分类中表现出潜力。
  • Conclusion: 多时相Sentinel-2影像虽然空间分辨率较低,但通过利用其高光谱分辨率和季节性物候信息,能够提供与航空影像相当的分类精度,为大规模入侵物种监测提供了更具成本效益的替代方案。

[28] FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion

Xiangyang Luo,Qingyu Li,Xiaokun Liu,Wenyu Qin,Miao Yang,Meng Wang,Pengfei Wan,Di Zhang,Kun Gai,Shao-Lun Huang

Main category: cs.CV

TL;DR: FilmWeaver是一个用于生成任意长度多镜头视频的新框架,通过自回归扩散和双级缓存机制解决跨镜头一致性和镜头内连贯性问题。

  • Motivation: 当前视频生成模型在单镜头合成上表现良好,但在多镜头视频生成中面临挑战:难以保持角色和背景在不同镜头间的一致性,以及灵活生成任意长度和镜头数量的视频。
  • Method: 采用自回归扩散范式实现任意长度视频生成。通过双级缓存机制:镜头内存缓存前序镜头关键帧以保持角色和场景一致性,时间内存保留当前镜头帧历史以确保运动连贯性。支持灵活的多轮用户交互。
  • Result: 实验结果表明,该方法在一致性和美学质量指标上均超越现有方法,支持多概念注入和视频扩展等下游任务。
  • Conclusion: FilmWeaver为创建更一致、可控和叙事驱动的视频内容开辟了新可能性,通过解耦设计实现了高通用性。

[29] RcAE: Recursive Reconstruction Framework for Unsupervised Industrial Anomaly Detection

Rongcheng Wu,Hao Zhu,Shiying Zhang,Mingzhe Wang,Zhidong Li,Hui Li,Jianlong Zhou,Jiangtao Cui,Fang Chen,Pingyang Sun,Qiyu Liao,Ye Lin

Main category: cs.CV

TL;DR: 提出递归自编码器RcAE,通过迭代重建逐步抑制异常并保留细节,结合跨递归检测模块和细节保留网络,在性能和效率上优于现有方法。

  • Motivation: 传统自编码器方法在工业异常检测中存在单次解码无法有效处理不同严重程度和尺度的异常、异常抑制不完整以及细节丢失的问题。
  • Method: 提出递归自编码器架构,通过迭代重建逐步抑制异常;引入跨递归检测模块跟踪重建过程中的不一致性;加入细节保留网络恢复高频纹理细节。
  • Result: 方法显著优于现有非扩散方法,性能与最新扩散模型相当,但参数量仅为10%,推理速度大幅提升。
  • Conclusion: 递归自编码器架构在工业异常检测中具有实用性和高效性,为实际应用提供了有效的解决方案。

[30] Autoregressive Video Autoencoder with Decoupled Temporal and Spatial Context

Cuifeng Shen,Lumin Xu,Xingguo Zhu,Gengdai Liu

Main category: cs.CV

TL;DR: ARVAE是一种自回归视频自编码器,通过时空解耦表示和自回归处理,实现高质量视频压缩与重建,支持任意长度视频处理。

  • Motivation: 现有视频自编码器往往将时空信息纠缠在一起,限制了捕捉时间一致性的能力,导致性能不佳。需要一种能够解耦时空信息、保持时间连贯性的视频压缩方法。
  • Method: 提出自回归视频自编码器(ARVAE),以自回归方式压缩和重建每一帧,基于前一帧进行条件处理。采用时空解耦表示:下采样流场用于时间连贯性,空间相对补偿用于新出现内容。编码器将当前帧和前一帧压缩为时间运动和空间补充,解码器基于前一帧和潜在表示重建原始帧。采用多阶段训练策略逐步优化模型。
  • Result: ARVAE在极轻量模型和小规模训练数据下实现了卓越的重建质量。在视频生成任务上的评估显示了其在下游应用中的强大潜力。
  • Conclusion: ARVAE通过自回归处理和时空解耦表示,有效解决了现有视频自编码器的时空纠缠问题,实现了高质量的视频压缩与重建,为下游视频生成应用提供了有力支持。

[31] Few-Shot VLM-Based G-Code and HMI Verification in CNC Machining

Yasaman Hashem Pour,Nazanin Mahjourian,Vinh Nguyen

Main category: cs.CV

TL;DR: 提出基于视觉语言模型(VLM)的少样本G代码验证方法,同时评估G代码和HMI显示的错误与安全状态,相比传统LLM方法能更全面检测CNC加工中的问题。

  • Motivation: 传统基于LLM的G代码验证方法主要检查编程错误,但CNC加工需要大量使用HMI界面来显示机器状态和错误。LLM无法访问视觉模态,缺乏利用HMI知识的能力,因此需要结合视觉信息的验证方法。
  • Method: 提出少样本VLM验证框架:1) 使用包含G代码文本和对应HMI截图的配对数据集;2) 基于先验启发式知识提供结构化JSON模式;3) 使用包含正确和错误案例的少样本示例指导VLM;4) 同时评估G代码和HMI显示的错误与安全状态。
  • Result: 与零样本VLM相比,少样本提示显著提高了HMI错误检测能力,并能更好地发现G代码与HMI显示之间的不一致性,实现了更全面的调试验证。
  • Conclusion: 该框架适合验证CNC培训中手动生成的G代码,通过结合视觉信息实现了比纯文本LLM方法更全面的错误检测,为CNC操作学习提供了有效的验证工具。

[32] MultiEgo: A Multi-View Egocentric Video Dataset for 4D Scene Reconstruction

Bate Li,Houqiang Zhong,Zhengxue Cheng,Qiang Hu,Qiang Wang,Li Song,Wenjun Zhang

Main category: cs.CV

TL;DR: MultiEgo是首个多视角自我中心动态场景重建数据集,包含5个社交互动场景,每个场景有5个AR眼镜拍摄的真实自我中心视频,具有亚毫秒级时间同步和准确姿态标注。

  • Motivation: 多视角自我中心动态场景重建在全息社交互动记录中具有重要应用价值,但现有数据集主要关注静态多视角或单自我中心视角设置,缺乏多视角自我中心的动态场景重建数据集。
  • Method: 设计了基于硬件的采集系统和处理流程,实现了亚毫秒级跨视角时间同步和准确姿态标注。数据集包含会议、表演和演示等5个典型社交互动场景,每个场景由参与者佩戴AR眼镜采集5个真实自我中心视频。
  • Result: 实验验证表明该数据集在自由视点视频(FVV)应用中具有实际效用和有效性,为推进多视角自我中心动态场景重建研究建立了基础资源。
  • Conclusion: MultiEgo是首个多视角自我中心动态场景重建数据集,填补了该领域的数据空白,为相关研究提供了重要基础资源。

[33] SATMapTR: Satellite Image Enhanced Online HD Map Construction

Bingyuan Huang,Guanyi Zhao,Qian Xu,Yang Lou,Yung-Hui Li,Jianping Wang

Main category: cs.CV

TL;DR: SATMapTR:一种融合卫星图像与车载感知的在线地图构建模型,通过门控特征精炼和几何感知融合模块,显著提升高精地图构建的准确性和鲁棒性。

  • Motivation: 传统高精地图构建面临车载传感器能力有限和遮挡问题,导致输入数据质量低、地图不完整。虽然卫星图像提供了稳定的大范围视角,但存在阴影和遮挡退化问题,现有融合方法效果不佳。
  • Method: 提出SATMapTR模型,包含两个核心组件:1)门控特征精炼模块,通过整合高层语义与低层结构线索自适应过滤卫星图像特征,提取高信噪比的地图相关表示;2)几何感知融合模块,在网格级别一致地融合卫星与BEV特征,最小化无关区域和低质量输入的干扰。
  • Result: 在nuScenes数据集上达到73.8 mAP的最高性能,比现有卫星增强模型提升高达14.2 mAP。在恶劣天气和传感器故障下表现出更低的mAP下降,在扩展感知范围内达到近3倍的mAP提升。
  • Conclusion: SATMapTR通过有效的卫星图像融合策略,显著提升了在线地图构建的准确性和鲁棒性,为自动驾驶在多样化场景中提供了更可靠的高精地图支持。

[34] KeyframeFace: From Text to Expressive Facial Keyframes

Jingchao Wu,Zejian Kang,Haibo Liu,Yuanchen Fei,Xiangru Huang

Main category: cs.CV

TL;DR: KeyframeFace是一个用于文本到动画研究的大规模多模态数据集,通过关键帧级监督提供表情丰富的脚本、视频、ARKit系数等数据,并提出首个利用LLM先验进行可解释面部运动合成的文本到动画框架。

  • Motivation: 现有数据集和方法主要关注语音驱动动画或无结构表情序列,缺乏语义基础和时序结构,无法生成富有表现力的人类表演。需要建立能够理解时序语义和细粒度表情变化的数据集和方法。
  • Method: 1) 构建KeyframeFace数据集:包含2,100个表情丰富的脚本,配有单目视频、逐帧ARKit系数、上下文背景、复杂情感、手动定义的关键帧,以及通过LLM/MLLM基于ARKit系数和图像的多视角标注。2) 提出首个文本到动画框架:利用LLM先验进行可解释面部运动合成,将LLM的语义理解能力与ARKit系数的可解释结构对齐。
  • Result: KeyframeFace数据集为文本到动画研究提供了大规模多模态资源,提出的LLM-based框架实现了高保真度的表情动画生成。两者共同为可解释、关键帧引导、上下文感知的文本到动画建立了新基础。
  • Conclusion: KeyframeFace数据集和LLM-based框架为文本到动画研究提供了新的基础,实现了可解释、关键帧引导、上下文感知的高质量面部动画生成,解决了现有方法缺乏语义基础和时序结构的问题。

[35] MLLM Machine Unlearning via Visual Knowledge Distillation

Yuhang Wang,Zhenxing Niu,Haoxuan Ji,Guangyu He,Haichang Gao,Gang Hua

Main category: cs.CV

TL;DR: 提出针对MLLM的视觉知识选择性遗忘方法,通过视觉知识蒸馏方案,仅微调视觉组件,在保持文本知识的同时有效移除目标视觉知识

  • Motivation: 现有机器遗忘方法主要针对LLM,而MLLM导向的遗忘研究仍处于早期阶段。需要开发专门的方法来选择性移除MLLM中的视觉知识,同时保留文本知识
  • Method: 解耦MLLM中嵌入的视觉和文本知识,引入视觉知识蒸馏方案,利用MLLM内部的中间视觉表示作为监督信号,仅微调视觉组件
  • Result: 在广泛实验中,该方法在有效性和效率方面优于最先进的遗忘方法,并首次评估了MLLM遗忘对重新学习攻击的鲁棒性
  • Conclusion: 提出的视觉知识蒸馏方法能够有效选择性地遗忘MLLM中的目标视觉知识,同时保持文本知识,具有高效性和鲁棒性优势

[36] Physics-Informed Video Flare Synthesis and Removal Leveraging Motion Independence between Flare and Scene

Junqiao Wang,Yuanfei Huang,Hua Huang

Main category: cs.CV

TL;DR: 提出首个视频镜头光晕去除方法,通过物理启发的动态光晕合成管道和基于Mamba的时空建模网络,有效处理光晕、光源和场景内容的独立运动问题。

  • Motivation: 现有光晕去除研究主要集中在图像领域,视频光晕的时空特性尚未充分探索。视频光晕合成与去除面临更大挑战,因为光晕、光源和场景内容的运动相互独立,这会影响修复性能并导致闪烁和伪影。
  • Method: 1) 提出物理启发的动态光晕合成管道,使用光流模拟光源运动,并建模散射和反射光晕的时序行为;2) 设计视频光晕去除网络,包含注意力模块空间抑制光晕区域,以及基于Mamba的时序建模组件捕获长距离时空依赖;3) 构建首个视频光晕数据集,包含大量合成配对视频和真实世界视频。
  • Result: 在真实和合成视频上的广泛实验表明,该方法在视频光晕去除方面始终优于现有的视频修复和图像光晕去除方法,能有效去除动态光晕,同时保持光源完整性和场景的时空一致性。
  • Conclusion: 该方法通过运动独立的时空表示有效消除了多帧对齐的需求,缓解了光晕与场景内容之间的时序混叠,显著提升了视频光晕去除性能,为视频光晕处理领域提供了首个系统解决方案。

[37] FreqDINO: Frequency-Guided Adaptation for Generalized Boundary-Aware Ultrasound Image Segmentation

Yixuan Zhang,Qing Xu,Yue Li,Xiangjian He,Qian Zhang,Mainul Haque,Rong Qu,Wenting Duan,Zhen Chen

Main category: cs.CV

TL;DR: FreqDINO:一种频率引导的超声图像分割框架,通过多尺度频率提取对齐和边界细化,增强DINOv3对超声图像边界退化的感知能力。

  • Motivation: 超声图像分割对临床诊断至关重要,但受到斑点噪声和成像伪影的挑战。DINOv3在医学图像分割中表现出色,但其基于自然图像预训练,对超声特定的边界退化不敏感。
  • Method: 提出FreqDINO框架:1)多尺度频率提取与对齐策略(MFEA),分离低频结构和多尺度高频边界细节并通过可学习注意力对齐;2)频率引导边界细化模块(FGBR),从高频分量提取边界原型并细化空间特征;3)多任务边界引导解码器(MBGD),确保边界和语义预测的空间一致性。
  • Result: 大量实验表明FreqDINO超越了最先进方法,具有卓越的泛化能力。
  • Conclusion: FreqDINO通过频率引导的方法有效解决了超声图像分割中的边界退化问题,提高了分割精度和泛化性能。

[38] UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models

Hewen Pan,Cong Wei,Dashuang Liang,Zepeng Huang,Pengfei Gao,Ziqi Zhou,Lulu Xue,Pengfei Yan,Xiaoming Wei,Minghui Li,Shengshan Hu

Main category: cs.CV

TL;DR: UFVideo是首个具备统一多粒度协同理解能力的视频大语言模型,能够在单个模型中处理全局、像素和时间尺度的视频理解任务,并通过统一视觉语言引导对齐实现灵活的视频分析。

  • Motivation: 现有视频大语言模型局限于专门的视频理解任务,无法实现全面、多粒度的视频感知。为了填补这一空白,需要开发能够统一处理不同粒度视频理解任务的模型。
  • Method: 设计了统一视觉语言引导对齐机制,使模型能够灵活处理全局、像素和时间尺度的视频理解。模型动态编码不同任务的视觉和文本输入,生成文本响应、时间定位或基础掩码。
  • Result: 构建了UFVideo-Bench基准测试,包含三个不同尺度的协同任务,证明UFVideo相比GPT-4o具有灵活性和优势。在9个公共基准测试中验证了模型有效性,为未来视频大语言模型提供了有价值的见解。
  • Conclusion: UFVideo是首个统一多粒度协同理解的视频大语言模型,通过创新的对齐机制实现了跨尺度的视频理解,在多个基准测试中表现出色,为视频理解研究开辟了新方向。

[39] Task-Specific Distance Correlation Matching for Few-Shot Action Recognition

Fei Long,Yao Zhang,Jiaming Lv,Jiangtao Xie,Peihua Li

Main category: cs.CV

TL;DR: TS-FSAR是一个用于少样本动作识别的新框架,通过视觉梯子侧网络、任务特定距离相关匹配和引导LSN与适应CLIP模块,解决了现有方法在非线性关系建模和有限数据下优化困难的问题。

  • Motivation: 现有少样本动作识别方法存在两个关键限制:1)现有集合匹配度量主要依赖余弦相似度,只能捕捉线性依赖关系,忽略了非线性关系和任务特定线索;2)通过跳跃融合层微调CLIP的方法在有限数据条件下难以优化新引入的侧层。
  • Method: 提出TS-FSAR框架,包含三个组件:1)视觉梯子侧网络(LSN)用于高效CLIP微调;2)任务特定距离相关匹配(TS-DCM),使用α-距离相关建模线性和非线性帧间依赖,并利用任务原型实现任务特定匹配;3)引导LSN与适应CLIP(GLAC)模块,通过适应后的冻结CLIP正则化LSN,在有限监督下改善α-距离相关估计。
  • Result: 在五个广泛使用的基准测试上进行大量实验,证明TS-FSAR相比先前最先进方法具有优越性能。
  • Conclusion: TS-FSAR通过创新的LSN架构、TS-DCM度量和GLAC正则化机制,有效解决了少样本动作识别中的非线性关系建模和有限数据优化问题,取得了显著性能提升。

[40] Surveillance Video-Based Traffic Accident Detection Using Transformer Architecture

Tanu Singh,Pranamesh Chakraborty,Long T. Truong

Main category: cs.CV

TL;DR: 提出基于Transformer的交通事故检测模型,使用预提取的空间视频特征,结合卷积层提取局部相关性和Transformer捕获时序依赖,并通过融合RGB与光流特征达到88.3%准确率。

  • Motivation: 交通事故是全球主要死因,传统计算机视觉方法在时空理解和跨域泛化方面存在局限,而现有Transformer应用受限于小规模、非多样化数据集,且多数研究忽视运动线索的重要性。
  • Method: 1) 构建全面平衡的交通事故数据集;2) 提出基于Transformer的检测模型,使用卷积层提取帧内局部相关性,Transformer捕获时序依赖;3) 评估多种运动线索融合方法,最终采用RGB特征与光流特征拼接。
  • Result: RGB特征与光流特征拼接的方法达到最高准确率88.3%,优于其他输入方式。与GPT、Gemini、LLaVA-NeXT-Video等视觉语言模型相比,提出的方法表现更优。
  • Conclusion: 提出的Transformer架构结合运动线索能有效检测交通事故,构建的多样化数据集解决了现有数据不足问题,为开发鲁棒、可泛化的交通事故检测系统提供了可行方案。

[41] A Multi-Mode Structured Light 3D Imaging System with Multi-Source Information Fusion for Underwater Pipeline Detection

Qinghan Hu,Haijiang Zhu,Na Sun,Lei Chen,Zhengqiang Fan,Zhiqing Li

Main category: cs.CV

TL;DR: 开发基于多源信息融合的多模式水下结构光3D成像系统,用于水下管道检测,实现高精度缺陷表征和鲁棒重建。

  • Motivation: 水下管道易受腐蚀,传统人工检测不可靠,需要智能实时成像系统。结构光3D成像能提供足够空间细节进行精确缺陷表征。
  • Method: 1) 快速畸变校正方法;2) 基于因子图的参数优化方法进行传感器外参标定;3) 多模式3D成像策略;4) 多源信息融合和自适应扩展卡尔曼滤波;5) 基于边缘检测的ICP算法(ED-ICP)结合管道边缘检测网络。
  • Result: 在不同操作模式、速度和深度下进行广泛实验,系统表现出优越的精度、适应性和鲁棒性,为自主水下管道检测提供坚实基础。
  • Conclusion: 开发的多模式水下结构光3D成像系统能有效应对水下环境挑战,实现稳定姿态估计和高精度测量,为水下管道检测提供可靠解决方案。

[42] Prior-Enhanced Gaussian Splatting for Dynamic Scene Reconstruction from Casual Video

Meng-Li Shih,Ying-Huan Chen,Yu-Lun Liu,Brian Curless

Main category: cs.CV

TL;DR: 提出一个全自动管道,从单目RGB视频重建动态场景,通过增强动态高斯泼溅的先验知识,结合视频分割和极线误差图获得物体级掩码,指导深度损失和跟踪,提升重建质量。

  • Motivation: 现有单目动态场景重建方法在处理细薄结构和复杂运动时存在不足,需要改进先验知识以提升重建质量和渲染效果。
  • Method: 1. 视频分割结合极线误差图生成物体级掩码;2. 掩码指导物体深度损失锐化深度图;3. 骨架采样和掩码引导重识别产生可靠2D跟踪;4. 虚拟视角深度损失去除漂浮物;5. 支架投影损失将运动节点绑定到跟踪,保持几何细节和运动一致性。
  • Result: 系统超越先前单目动态场景重建方法,在渲染质量上取得显著提升,能够更好地处理细薄结构和复杂运动。
  • Conclusion: 通过增强动态高斯泼溅的先验知识,结合多种损失函数和跟踪技术,实现了高质量的单目动态场景重建,为相关领域提供了有效解决方案。

[43] Reliable Detection of Minute Targets in High-Resolution Aerial Imagery across Temporal Shifts

Mohammad Sadegh Gholizadeh,Amir Arsalan Rezapour,Hamidreza Shayegh,Ehsan Pazouki

Main category: cs.CV

TL;DR: 该论文提出使用基于迁移学习的Faster R-CNN架构来检测稻田中的水稻幼苗,通过无人机采集的高分辨率图像数据集进行训练,并在不同时间采集的三个测试集上验证模型的泛化能力。

  • Motivation: 无人机高效作物检测对规模化精准农业至关重要,但由于目标尺寸小和环境变化大,检测仍具挑战性。特别是在稻田中检测水稻幼苗面临目标微小和高分辨率航空影像中环境多变的困难。
  • Method: 采用基于迁移学习的Faster R-CNN架构,构建了大规模的无人机数据集进行训练,通过三个不同时间间隔采集的测试集来评估模型的泛化能力和鲁棒性。
  • Result: 实验结果表明,迁移学习不仅促进了农业场景中目标检测模型的快速收敛,而且在图像采集领域转移的情况下仍能保持一致的性能表现。
  • Conclusion: 该方法能有效解决无人机农业检测中目标微小和环境变化的问题,迁移学习策略在农业目标检测中具有实用价值,能够适应不同成像条件下的检测需求。

[44] Assisted Refinement Network Based on Channel Information Interaction for Camouflaged and Salient Object Detection

Kuan Wang,Yanjun Qin,Mengge Lu,Liejun Wang,Xiaoming Tao

Main category: cs.CV

TL;DR: 提出ARNet-v2模型解决伪装目标检测中的两个关键问题:通过通道信息交互模块增强同层特征跨通道交互,通过先验知识引导的协作解码架构协同建模边界和区域信息。

  • Motivation: 当前COD方法在解码阶段存在两个关键问题:1)同层特征内跨通道信息交互不足,限制特征表达能力;2)无法有效协同建模边界和区域信息,难以准确重建完整区域和锐利边界。
  • Method: 1)通道信息交互模块(CIIM):在通道维度引入水平-垂直整合机制,进行跨通道特征重组和交互;2)先验知识引导的协作解码架构:通过边界提取(BE)和区域提取(RE)模块生成边界先验和目标定位图,使用混合注意力协同校准解码特征;3)多尺度增强(MSE)模块丰富上下文特征表示。
  • Result: 在四个COD基准数据集上的广泛实验验证了模型的有效性和最先进性能。模型成功迁移到显著目标检测任务,并在息肉分割、透明目标检测、工业和道路缺陷检测等下游任务中展示了适应性。
  • Conclusion: 提出的ARNet-v2模型通过创新的通道信息交互和先验引导协作解码架构,有效解决了COD中的关键挑战,在多个任务上表现出优越性能,代码已开源。

[45] Out-of-Distribution Segmentation via Wasserstein-Based Evidential Uncertainty

Arnold Brosch,Abdelrahman Eldesokey,Michael Felsberg,Kira Maag

Main category: cs.CV

TL;DR: 提出基于Wasserstein损失的证据分割框架,结合KL正则化和Dice结构一致性项,提升开放世界场景中未知物体的分割性能

  • Motivation: 深度神经网络在语义分割中表现出色,但仅限于预定义类别集,在开放世界场景中遇到未知物体时会失败。识别和分割这些分布外(OOD)物体对于自动驾驶等安全关键应用至关重要。
  • Method: 提出证据分割框架,使用Wasserstein损失捕捉分布距离并尊重概率单纯形几何结构。结合Kullback-Leibler正则化和Dice结构一致性项。
  • Result: 相比基于不确定性的方法,该方法在OOD分割性能上有所提升。
  • Conclusion: 提出的证据分割框架能有效处理开放世界场景中的未知物体分割问题,对安全关键应用具有重要意义。

[46] The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

Zhifan Zhu,Yifei Huang,Yoichi Sato,Dima Damen

Main category: cs.CV

TL;DR: 提出N-Body问题:从单人视频学习如何让N个人并行执行相同任务,最大化加速但需满足物理约束,通过结构化提示引导VLM推理3D环境、物体使用和时序依赖。

  • Motivation: 人类能直观地并行化复杂活动,但模型能否从观察单人视频中学习这种能力?研究如何让N个人并行执行单人视频中的任务,同时避免物理上不可能的冲突。
  • Method: 形式化N-Body问题,提出评估指标(性能:加速、任务覆盖;可行性:空间碰撞、物体冲突、因果约束),引入结构化提示策略引导视觉语言模型推理3D环境、物体使用和时序依赖。
  • Result: 在EPIC-Kitchens和HD-EPIC的100个视频上,N=2时,相比Gemini 2.5 Pro基线提示,动作覆盖提升45%,同时碰撞率、物体冲突和因果冲突分别降低55%、45%和55%。
  • Conclusion: 提出的结构化提示方法能有效引导VLM生成可行的并行执行计划,在提升任务覆盖的同时显著减少物理冲突,为解决N-Body问题提供了有效方案。

[47] FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing

Yilei Jiang,Zhen Wang,Yanghao Wang,Jun Yu,Yueting Zhuang,Jun Xiao,Long Chen

Main category: cs.CV

TL;DR: FlowDC提出了一种并行叠加多个子编辑效果的复杂图像编辑方法,通过速度分解保持源图像一致性,并在构建的Complex-PIE-Bench基准上表现优异。

  • Motivation: 当前复杂图像编辑方法存在局限性:单轮编辑难以遵循长文本描述,多轮编辑则存在累积不一致问题,无法在语义对齐和源图像一致性之间取得平衡。
  • Method: FlowDC将复杂编辑解耦为多个子编辑效果,在编辑过程中并行叠加;同时分解速度场,衰减与编辑位移正交的速度分量以更好地保持源图像结构。
  • Result: 在两个基准测试中,FlowDC相比现有方法表现出优越性能;作者还构建了复杂编辑基准Complex-PIE-Bench,并详细分析了模块设计的消融实验。
  • Conclusion: FlowDC通过并行叠加子编辑效果和速度分解策略,有效解决了复杂图像编辑中语义对齐与源图像一致性的平衡问题,在复杂编辑任务上取得显著改进。

[48] Collaborative Reconstruction and Repair for Multi-class Industrial Anomaly Detection

Qishan Wang,Haofeng Wang,Shuyong Gao,Jia Guo,Li Xiong,Jiaqi Li,Dengxuan Bai,Wenqiang Zhang

Main category: cs.CV

TL;DR: 提出CRR框架,通过协同重建与修复解决多类工业异常检测中的身份映射问题,实现统一模型检测

  • Motivation: 工业异常检测是开放集任务,传统方法需要为每个类别单独建模,消耗内存且泛化能力有限。重建网络存在身份映射问题,直接复制输入特征导致检测失败。
  • Method: 提出协同重建与修复(CRR)框架:1)优化解码器重建正常样本同时修复合成异常;2)特征级随机掩码确保解码器表示包含足够局部信息;3)训练分割网络监督合成异常掩码,减少编码器-解码器特征差异导致的检测误差。
  • Result: 在工业数据集上的广泛实验表明,CRR有效缓解身份映射问题,在多类工业异常检测中达到最先进性能。
  • Conclusion: CRR框架通过将重建转化为修复,解决了多类工业异常检测中的身份映射问题,实现了统一的高性能异常检测模型。

[49] JoyAvatar: Real-time and Infinite Audio-Driven Avatar Generation with Autoregressive Diffusion

Chaochao Li,Ruikui Wang,Liangbo Zhou,Jinheng Feng,Huaishao Luo,Huan Zhang,Youzheng Wu,Xiaodong He

Main category: cs.CV

TL;DR: JoyAvatar:基于音频驱动的自回归扩散模型,实现实时推理和无限时长视频生成,通过渐进步长引导、运动条件注入和缓存重置的无限RoPE解决现有方法的计算开销大、质量下降和错误累积问题。

  • Motivation: 现有基于DiT的音频驱动化身生成方法存在计算开销大、无法生成长时长视频的局限性。自回归方法虽然解决了时长问题,但存在错误累积和质量下降的问题。
  • Method: 提出JoyAvatar模型,包含三个关键技术:1) 渐进步长引导(PSB):为初始帧分配更多去噪步数以稳定生成;2) 运动条件注入(MCI):注入噪声污染的前一帧作为运动条件以增强时间一致性;3) 缓存重置的无限RoPE(URCR):通过动态位置编码实现无限时长生成。
  • Result: 13亿参数的因果模型在单GPU上达到16FPS,在视觉质量、时间一致性和唇部同步方面取得有竞争力的结果。
  • Conclusion: JoyAvatar通过创新的渐进步长引导、运动条件注入和无限位置编码技术,成功实现了实时、高质量、无限时长的音频驱动化身生成,解决了现有方法的计算开销和错误累积问题。

[50] Flowception: Temporally Expansive Flow Matching for Video Generation

Tariq Berrada Ifriqi,John Nguyen,Karteek Alahari,Jakob Verbeek,Ricky T. Q. Chen

Main category: cs.CV

TL;DR: Flowception是一个非自回归、可变长度的视频生成框架,通过交织离散帧插入和连续帧去噪来学习概率路径,相比自回归方法减少了误差累积,相比全序列流方法降低了计算成本。

  • Motivation: 现有视频生成方法存在局限性:自回归方法容易产生误差累积和漂移问题,而全序列流方法计算成本高且难以处理长序列。需要一种既能处理长时上下文又计算高效的方法。
  • Method: Flowception学习一个交织离散帧插入和连续帧去噪的概率路径。在采样过程中,帧插入机制作为高效压缩机制处理长时上下文。该方法减少了训练FLOPs三倍,支持局部注意力变体,并能联合学习视频长度和内容。
  • Result: 实验结果显示,在FVD和VBench指标上优于自回归和全序列基线方法。定性结果也验证了性能提升。此外,该方法能无缝集成图像到视频生成和视频插值等不同任务。
  • Conclusion: Flowception提供了一个高效的非自回归视频生成框架,通过交织离散帧插入和连续帧去噪,在减少计算成本的同时提升了生成质量,并能灵活处理多种视频生成任务。

[51] YawDD+: Frame-level Annotations for Accurate Yawn Prediction

Ahmed Mujtaba,Gleb Radchenko,Marc Masana,Radu Prodan

Main category: cs.CV

TL;DR: 提出半自动标注流程改善疲劳驾驶检测数据集质量,在YawDD+数据集上训练MNasNet和YOLOv11模型,帧准确率提升6%,mAP提升5%,达到99.34%分类准确率和95.69%检测mAP,在边缘设备上实现59.8 FPS实时监测

  • Motivation: 驾驶员疲劳是道路事故的主要原因(24%事故涉及疲劳驾驶),打哈欠是早期疲劳行为指标。现有机器学习方法面临视频标注数据集引入的粗粒度时间标注系统噪声问题
  • Method: 开发半自动标注流程,结合人在回路验证,应用于YawDD数据集创建YawDD+。训练MNasNet分类器和YOLOv11检测器架构,对比视频级监督方法
  • Result: 在YawDD+上训练,帧准确率提升达6%,mAP提升5%,达到99.34%分类准确率和95.69%检测mAP。在NVIDIA Jetson Nano边缘AI硬件上实现59.8 FPS,支持设备端实时监测
  • Conclusion: 仅通过提升数据质量就能支持设备端打哈欠监测,无需服务器端计算,证实了高质量标注数据对边缘AI疲劳驾驶检测的重要性

[52] Boosting Skeleton-based Zero-Shot Action Recognition with Training-Free Test-Time Adaptation

Jingmin Zhu,Anqi Zhu,Hossein Rahmani,Jun Liu,Mohammed Bennamoun,Qiuhong Ke

Main category: cs.CV

TL;DR: Skeleton-Cache是首个无需训练、基于测试时自适应的骨架动作识别框架,通过轻量级检索和非参数缓存提升对未见动作的泛化能力。

  • Motivation: 解决骨架动作识别中模型对未见动作泛化能力不足的问题,传统方法需要额外训练或访问训练数据,而Skeleton-Cache旨在实现无需训练的自适应。
  • Method: 将推理重构为轻量级检索过程,使用非参数缓存存储结构化骨架表示(全局和局部描述符),并利用大语言模型(LLM)的语义推理能力为类别分配重要性权重以指导预测融合。
  • Result: 在NTU RGB+D 60/120和PKU-MMD II数据集上的大量实验表明,Skeleton-Cache在各种骨架动作识别骨干网络下,在零样本和广义零样本设置中均能持续提升性能。
  • Conclusion: Skeleton-Cache通过结合结构化描述符和LLM引导的语义先验,实现了对未见动作的动态自适应,无需额外训练或访问训练数据,为骨架动作识别提供了有效的测试时适应框架。

[53] Exploring MLLM-Diffusion Information Transfer with MetaCanvas

Han Lin,Xichen Pan,Ziqi Huang,Ji Hou,Jialiang Wang,Weifeng Chen,Zecheng He,Felix Juefei-Xu,Junzhe Sun,Zhipeng Fan,Ali Thabet,Mohit Bansal,Chu Wang

Main category: cs.CV

TL;DR: MetaCanvas是一个轻量级框架,让多模态大语言模型直接在空间和时空潜在空间中推理规划,并与扩散生成器紧密接口,显著提升图像/视频生成的精确控制能力。

  • Motivation: 当前多模态大语言模型在视觉理解方面表现出色,能解析复杂布局、属性和知识密集型场景,但在视觉生成中通常只被用作扩散模型的全局文本编码器,其强大的推理和规划能力未被充分利用,导致理解与生成之间存在差距。
  • Method: 提出MetaCanvas框架,让MLLMs直接在空间和时空潜在空间中进行推理和规划,并与扩散生成器紧密接口。在三种不同的扩散模型骨干上实现,支持文本到图像、文本/图像到视频、图像/视频编辑和上下文视频生成等任务。
  • Result: MetaCanvas在六个任务上持续优于全局条件化基线方法,包括文本到图像生成、文本/图像到视频生成、图像/视频编辑和上下文视频生成,特别是在需要精确布局、鲁棒属性绑定和推理密集型控制的任务中表现优异。
  • Conclusion: 将多模态大语言模型作为潜在空间规划器是一个有前景的方向,有助于缩小多模态理解与生成之间的差距,MetaCanvas框架为此提供了有效的实现方案。

[54] DOS: Distilling Observable Softmaps of Zipfian Prototypes for Self-Supervised Point Representation

Mohamed Abdelsamad,Michael Ulrich,Bin Yang,Miao Zhang,Yakov Miron,Abhinav Valada

Main category: cs.CV

TL;DR: DOS是一个自监督学习框架,通过仅在可观察点蒸馏语义相关性软图来学习3D点云表示,避免信息泄露并提供比离散token分配更丰富的监督。

  • Motivation: 3D点云的自监督学习面临不规则几何、容易产生捷径重建和语义分布不平衡等挑战,需要更有效的表示学习方法。
  • Method: 提出DOS框架:1)仅在未掩码的可观察点蒸馏语义相关性软图;2)引入Zipfian原型和Zipf-Sinkhorn算法,强制原型使用遵循幂律分布并调节目标软图的锐度。
  • Result: 在nuScenes、Waymo、SemanticKITTI、ScanNet和ScanNet200等多个基准测试中,DOS在语义分割和3D目标检测任务上优于当前最先进方法,无需额外数据或标注。
  • Conclusion: 可观察点软图蒸馏为学习鲁棒的3D表示提供了一个可扩展且有效的范式。

[55] CADMorph: Geometry-Driven Parametric CAD Editing via a Plan-Generate-Verify Loop

Weijian Ma,Shizhao Sun,Ruiyu Wang,Jiang Bian

Main category: cs.CV

TL;DR: CADMorph:基于预训练领域基础模型的几何驱动参数化CAD编辑框架,通过规划-生成-验证三阶段迭代,在无需编辑数据三元组的情况下实现结构保持、语义有效和高形状保真度的CAD模型编辑。

  • Motivation: 在CAD迭代设计中,几何形状的调整需要同步编辑底层的参数化序列(几何驱动参数化CAD编辑)。该任务面临三大挑战:1)保持原始序列结构,2)确保每次编辑的语义有效性,3)在稀缺的编辑数据三元组下保持高形状保真度。
  • Method: 提出CADMorph框架,包含规划-生成-验证三阶段:1)规划阶段:使用参数到形状(P2S)潜在扩散模型的交叉注意力图定位需要修改的片段并提供编辑掩码;2)生成阶段:使用掩码参数预测(MPP)模型填充掩码区域,生成语义有效的编辑;3)验证阶段:P2S模型将候选序列嵌入形状潜在空间,测量与目标形状的距离,选择最接近的序列。
  • Result: CADMorph在无需三元组数据训练的情况下,超越了GPT-4o和专门的CAD基线方法,支持迭代编辑和逆向工程增强等下游应用。
  • Conclusion: CADMorph通过利用预训练先验中的几何意识和设计知识,有效解决了结构保持、语义有效性和形状保真度三大挑战,同时绕过了数据稀缺的瓶颈,为几何驱动参数化CAD编辑提供了有效的解决方案。

[56] VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing

Emanuel Sánchez Aimar,Gulnaz Zhambulova,Fahad Shahbaz Khan,Yonghao Xu,Michael Felsberg

Main category: cs.CV

TL;DR: VLM2GeoVec:一个统一的单编码器视觉语言模型,通过对比学习嵌入交错的多模态输入(图像、文本、边界框、地理坐标),实现遥感场景的可扩展检索与区域级空间推理的统一。

  • Motivation: 卫星影像与自然图像存在根本差异:航拍视角、超高分辨率、尺度变化多样、小物体丰富,需要区域级空间推理和整体场景理解。现有遥感方法存在碎片化问题:双编码器检索模型擅长大规模跨模态搜索但无法交错模态,生成式助手支持区域级解释但缺乏可扩展检索能力。
  • Method: 提出VLM2GeoVec,一个遵循指令的单编码器视觉语言模型,通过对比学习训练,将交错输入(图像、文本、边界框、地理坐标)嵌入到统一的向量空间。单编码器将所有输入交错处理为联合嵌入,使用对比损失训练,消除了多阶段流水线和任务特定模块。
  • Result: 在RSMEB基准测试中:区域-标题检索P@1达到26.6%(比双编码器基线提升25个百分点);指代表达检索P@1达到32.5%(提升19个百分点);语义地理定位检索P@1达到17.8%(比之前最佳提升3倍以上);同时在场景分类和跨模态检索等传统任务上匹配或超越专用基线。
  • Conclusion: VLM2GeoVec统一了可扩展检索与区域级空间推理,实现了遥感中连贯的多模态分析。该方法消除了任务特定模块,为遥感领域提供了统一的解决方案。

[57] TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition

Yanan Liu,Jun Liu,Hao Zhang,Dan Xu,Hossein Rahmani,Mohammed Bennamoun,Qiuhong Ke

Main category: cs.CV

TL;DR: TSkel-Mamba:一种结合Transformer和Mamba的混合框架,用于骨架动作识别,通过空间Transformer学习空间特征,Mamba进行时序建模,并引入TDM块增强跨通道时序交互能力。

  • Motivation: 骨架动作识别在计算机视觉领域受到广泛关注。虽然Mamba在建模1D时序序列方面表现出色,但其独立的SSM块限制了跨通道依赖建模能力,需要更好地适应骨架数据并增强时序依赖建模。
  • Method: 提出TSkel-Mamba混合框架:1)使用空间Transformer学习空间特征;2)使用Mamba进行时序建模;3)引入Temporal Dynamic Modeling (TDM)块,包含Multi-scale Temporal Interaction (MTI)模块,采用多尺度Cycle算子捕获跨通道时序交互。
  • Result: 在NTU-RGB+D 60、NTU-RGB+D 120、NW-UCLA和UAV-Human数据集上的实验表明,TSkel-Mamba实现了最先进的性能,同时保持低推理时间,既高效又有效。
  • Conclusion: TSkel-Mamba通过结合Transformer和Mamba的优势,并引入TDM块增强跨通道时序交互,为骨架动作识别提供了一个高效且高性能的解决方案。

[58] SSA3D: Text-Conditioned Assisted Self-Supervised Framework for Automatic Dental Abutment Design

Mianjie Zheng,Xinquan Yang,Along He,Xuguang Li,Feilie Zhong,Xuefen Liu,Kun Tang,Zhicheng Zhang,Linlin Shen

Main category: cs.CV

TL;DR: 提出SSA³D框架,通过双分支架构(重建分支+回归分支)实现牙科种植体基台自动设计,无需单独预训练和微调,节省50%训练时间并提高精度。

  • Motivation: 牙科种植体基台设计是关键但繁琐的手工过程,现有AI方法受限于标注数据稀缺。自监督学习虽能缓解数据问题,但需要预训练和微调,计算成本高、训练时间长。
  • Method: 提出SSA³D双分支架构:重建分支学习恢复掩码的口内扫描数据并传递结构信息;回归分支在监督学习下预测基台参数。还设计了文本条件提示模块整合临床信息(种植位置、系统、系列)。
  • Result: 在收集的数据集上实验表明,SSA³D节省一半训练时间,比传统自监督方法精度更高,相比其他方法达到最先进性能,显著提高自动基台设计的精度和效率。
  • Conclusion: SSA³D框架通过创新的双分支架构和文本条件提示模块,有效解决了牙科基台自动设计中的数据稀缺和计算效率问题,为临床实践提供了高效准确的解决方案。

[59] On Geometric Understanding and Learned Data Priors in VGGT

Jelena Bratulić,Sudhanshu Mittal,Thomas Brox,Christian Rupprecht

Main category: cs.CV

TL;DR: VGGT是一个3D基础模型,通过系统分析发现它能在全局注意力层中隐式执行对应匹配并编码极线几何,尽管训练时没有显式几何约束,同时结合了学习的数据驱动先验。

  • Motivation: 研究VGGT模型的核心问题:它是否真正理解几何概念(如传统多视图方法),还是主要依赖学习的外观数据驱动先验?需要系统分析其内部机制来揭示几何理解是否在其表示中涌现。
  • Method: 通过探测中间特征、分析注意力模式和执行干预实验,研究模型如何实现其功能。使用空间输入掩码和扰动实验评估其对遮挡、外观变化和相机配置的鲁棒性,并与经典多阶段流程进行比较。
  • Result: 发现VGGT在其全局注意力层中隐式执行对应匹配并编码极线几何,尽管训练时没有显式几何约束。模型同时利用了学习的数据驱动先验,在几何结构和数据先验之间取得了平衡。
  • Conclusion: VGGT通过内部化几何结构并利用学习的数据驱动先验,实现了单步前向传递中的相机几何和场景结构推断,展示了深度学习模型能够隐式学习几何概念的能力。

[60] Reconstruction as a Bridge for Event-Based Visual Question Answering

Hanyue Lou,Jiayi Zhou,Yang Zhang,Boyu Li,Yi Wang,Guangnan Ye,Boxin Shi

Main category: cs.CV

TL;DR: 提出FRT和ART方法,通过重建将事件相机数据适配到多模态大语言模型,并创建首个事件MLLM基准EvQA,在真实数据集上取得SOTA性能。

  • Motivation: 事件相机在挑战性视觉条件下具有优势,但需要与基于帧的MLLMs兼容。需要平衡事件数据独特优势与模型兼容性。
  • Method: 提出两种方法:1) FRT:基于帧的重建与标记化;2) ART:自适应重建与标记化,利用事件稀疏性。创建EvQA基准,包含22个公共数据集的1000个事件-QA对。
  • Result: 在EvQA基准上取得state-of-the-art性能,证明了MLLMs在事件视觉中的巨大潜力。
  • Conclusion: 通过重建作为桥梁,成功将事件相机与MLLMs集成,在真实世界事件理解任务中表现出色,为事件MLLMs发展奠定基础。

[61] Super-Resolved Canopy Height Mapping from Sentinel-2 Time Series Using LiDAR HD Reference Data across Metropolitan France

Ekaterina Kalinicheva,Florian Helen,Stéphane Mermoz,Florian Mouret,Milena Planells

Main category: cs.CV

TL;DR: THREASURE-Net是一个用于树木高度回归和超分辨率的端到端深度学习框架,仅使用Sentinel-2时序数据和LiDAR高度信息,无需预训练模型或高分辨率光学影像,就能生成高精度年度树高图。

  • Motivation: 精细尺度森林监测对于理解冠层结构及其动态至关重要,这些是碳储量、生物多样性和森林健康的关键指标。深度学习能有效整合光谱、时间和空间信号来反映冠层结构,但现有方法通常依赖高分辨率光学影像或预训练模型。
  • Method: 提出THREASURE-Net端到端框架,使用Sentinel-2时序数据作为输入,以LiDAR HD数据在多个空间分辨率下导出的参考高度指标进行训练,生成年度高度图。模型包含三个变体,分别产生2.5米、5米和10米分辨率的树高预测。超分辨率模块仅从LiDAR高度信息学习,无需预训练模型或高分辨率光学影像。
  • Result: 在法国大都会地区评估,THREASURE-Net在2.5米、5米和10米分辨率下分别达到2.62米、2.72米和2.88米的平均绝对误差。性能优于基于Sentinel数据的现有方法,与基于高分辨率影像的方法相当。
  • Conclusion: THREASURE-Net展示了仅使用免费卫星数据进行可扩展、经济高效的温带森林结构监测的潜力。该方法为生成高精度年度冠层高度图提供了有效解决方案,代码已开源。

[62] HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning

Yiqing Yang,Kin-Man Lam

Main category: cs.CV

TL;DR: 提出端到端可训练的任务自适应框架,通过Chain-of-Thought指导小型语言模型生成任务特定查询向量,结合集合级优化和师生互学习,解决视频关键帧选择中的冗余和静态伪标签问题。

  • Motivation: 传统top-K帧选择方法独立评分导致选择时间聚集和视觉冗余的帧;使用MLLM离线生成的伪标签训练轻量级选择器无法动态适应任务目标。
  • Method: 1) Chain-of-Thought指导SLM生成任务特定隐式查询向量;2) 定义包含相关性、覆盖度和冗余度的连续集合级目标函数,通过Gumbel-Softmax进行可微分优化;3) 采用师生互学习,通过KL散度对齐学生选择器(SLM)和教师推理器(MLLM)的帧重要性分布。
  • Result: 在Video-MME、LongVideoBench、MLVU、NExT-QA等多个基准测试中显著优于现有方法。
  • Conclusion: 提出的端到端可训练任务自适应框架通过动态查询生成、集合级优化和师生互学习,有效解决了视频关键帧选择中的冗余问题和静态伪标签限制。

[63] Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models

Hossein Shahabadi,Niki Sepasian,Arash Marioriyad,Ali Sharifi-Zarchi,Mahdieh Soleymani Baghshah

Main category: cs.CV

TL;DR: 该研究首次系统比较了视觉自回归模型与扩散模型在文本到图像生成中的组合对齐能力,发现Infinity-8B在组合对齐方面表现最佳,而Infinity-2B在效率-性能权衡上具有优势。

  • Motivation: 现代文本到图像模型在实现文本描述与生成图像之间的组合对齐(涵盖对象、属性和空间关系)方面仍面临核心挑战。虽然扩散模型已被广泛研究,但新兴视觉自回归模型的组合行为尚未得到充分检验。
  • Method: 在完整的T2I-CompBench++和GenEval基准测试套件上对六个不同的T2I系统(SDXL、PixArt-α、Flux-Dev、Flux-Schnell、Infinity-2B和Infinity-8B)进行基准测试,评估颜色和属性绑定、空间关系、数字能力和复杂多对象提示的对齐情况。
  • Result: Infinity-8B在两个基准测试中都实现了最强的整体组合对齐,而Infinity-2B在多个类别中匹配或超越了更大的扩散模型,显示出有利的效率-性能权衡。相比之下,SDXL和PixArt-α在属性敏感和空间任务中表现出持续弱点。
  • Conclusion: 这项研究首次系统比较了VAR和扩散方法在组合对齐方面的表现,为T2I模型的未来发展建立了统一的基线,表明视觉自回归模型在组合对齐方面具有显著优势。

[64] SSL-MedSAM2: A Semi-supervised Medical Image Segmentation Framework Powered by Few-shot Learning of SAM2

Zhendi Gong,Xin Chen

Main category: cs.CV

TL;DR: SSL-MedSAM2是一个用于医学图像分割的半监督学习框架,结合了基于SAM2的训练少样本学习分支和基于nnUNet的迭代全监督学习分支,在肝脏分割任务中表现出色。

  • Motivation: 医学图像标注耗时且成本高,限制了深度学习模型在临床中的应用。半监督学习能够利用有限标注数据,降低标注成本。
  • Method: 提出SSL-MedSAM2框架:1) TFFS-MedSAM2分支:基于预训练大模型SAM2的训练少样本学习分支,用于生成伪标签;2) FSL-nnUNet分支:基于nnUNet的迭代全监督学习分支,用于伪标签精炼。
  • Result: 在MICCAI2025 CARE-LiSeg肝脏分割挑战中表现优异:GED4测试集Dice分数0.9710,Hausdorff距离20.07;T1 MRI测试集Dice分数0.9648,Hausdorff距离21.97。
  • Conclusion: SSL-MedSAM2通过结合大模型SAM2和nnUNet的优势,在有限标注数据下实现了优秀的医学图像分割性能,为临床应用提供了有效的半监督解决方案。

[65] 3DTeethSAM: Taming SAM2 for 3D Teeth Segmentation

Zhiguo Lu,Jianwen Lou,Mingjun Ma,Hairong Jin,Youyi Zheng,Kun Zhou

Main category: cs.CV

TL;DR: 3DTeethSAM:基于SAM2的3D牙齿分割方法,通过2D渲染、SAM2分割和3D重建,结合轻量级学习模块和DGAP插件,在3DTeethSeg基准测试中达到91.90% IoU的新SOTA。

  • Motivation: 3D牙齿分割在数字牙科中至关重要但具有挑战性,因为真实世界牙列的复杂性。需要一种能够准确分割牙齿实例并进行语义分类的方法。
  • Method: 1) 从预定义视角渲染3D牙齿模型的2D图像;2) 使用SAM2进行2D分割;3) 通过2D-3D投影重建3D结果;4) 引入三个轻量级学习模块:提示嵌入生成器、掩码精炼器和掩码分类器;5) 在SAM2图像编码器中加入可变形全局注意力插件(DGAP)。
  • Result: 在3DTeethSeg基准测试中,高分辨率3D牙齿网格上达到91.90% IoU,建立了该领域新的最先进水平。
  • Conclusion: 3DTeethSAM成功将SAM2适应于3D牙齿分割任务,通过创新的轻量级模块和DGAP插件,显著提升了分割精度和训练效率,为数字牙科提供了有效的解决方案。

[66] DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

Zhenyang Cai,Jiaming Zhang,Junjie Zhao,Ziyi Zeng,Yanchao Li,Jingyi Liang,Junying Chen,Yunjin Yang,Jiajun You,Shuzhi Deng,Tongfei Wang,Wanting Chen,Chunxiu Hao,Ruiqi Xie,Zhenwei Wen,Xiangyi Feng,Zou Ting,Jin Zou Lin,Jianquan Li,Guangjun Yu,Liangyi Chen,Junwen Wang,Shan Jiang,Benyou Wang

Main category: cs.CV

TL;DR: DentalGPT:通过高质量牙科知识注入和强化学习开发的专门牙科多模态大语言模型,在牙科疾病分类和视觉问答任务中表现出色

  • Motivation: 当前多模态大语言模型在牙科领域存在两个主要问题:1)难以捕捉细粒度的牙科视觉细节;2)缺乏足够的推理能力进行精确诊断。需要专门针对牙科领域开发更可靠的多模态模型
  • Method: 1)构建了迄今为止最大的牙科多模态数据集(超过12万张牙科图像配详细描述);2)通过高质量领域知识注入训练增强视觉理解能力;3)采用强化学习阶段进一步强化多模态复杂推理能力
  • Result: 在口腔内和全景X光片基准测试以及牙科医学VQA基准测试中,DentalGPT在疾病分类和牙科视觉问答任务上表现优异,超越了许多最先进的多模态大语言模型,尽管只有70亿参数
  • Conclusion: 高质量牙科数据结合分阶段适应为构建能力强、领域专门的牙科多模态大语言模型提供了有效途径,DentalGPT展示了在自动化口腔医疗保健中的潜力

[67] Multi-temporal Calving Front Segmentation

Marcel Dreier,Nora Gourmelon,Dakota Pyles,Fei Wu,Matthias Braun,Thorsten Seehaus,Andreas Maier,Vincent Christlein

Main category: cs.CV

TL;DR: 提出一种处理卫星图像时间序列的多帧并行处理方法,通过交换时间信息来稳定冰川前缘预测,在CaFFe基准数据集上达到新的SOTA性能

  • Motivation: 现有深度学习模型在自动描绘合成孔径雷达图像中的冰川前缘时,难以正确分类受季节性条件(如冰混合物或积雪表面)影响的区域,需要更稳定的预测方法
  • Method: 处理同一冰川卫星图像时间序列中的多帧图像,并行处理并交换相应特征图之间的时间信息,以稳定每个预测,将方法集成到当前最先进的Tyrion架构中
  • Result: 在CaFFe基准数据集上实现了新的最先进性能:平均距离误差为184.4米,平均交并比为83.6
  • Conclusion: 通过处理多帧时间序列图像并交换时间信息,可以有效提高冰川前缘预测的稳定性,特别是在处理受季节性条件影响的区域时表现优异

[68] Evaluating Foundation Models' 3D Understanding Through Multi-View Correspondence Analysis

Valentina Lilova,Toyesh Chakravorty,Julian I. Bibo,Emma Boccaletti,Brandon Li,Lívia Baxová,Cees G. M. Snoek,Mohammadreza Salehi

Main category: cs.CV

TL;DR: 提出了一个无需微调、直接评估基础模型3D空间理解能力的基准测试,基于Hummingbird框架扩展到3D多视角数据集MVImgNet,测试模型在不同视角差异下的分割性能。

  • Motivation: 现有评估方法通常依赖下游任务的微调或特定解码器,难以隔离预训练编码器本身的3D推理能力。需要一种直接评估密集视觉特征质量的基准测试。
  • Method: 基于Hummingbird框架扩展到3D场景理解,使用MVImgNet多视角数据集。给定特定角度的图像作为键,评估模型分割新视角查询图像的能力,根据键-查询视角差异分为简单、中等、困难、极端四个难度等级。
  • Result: 评估了8个最先进的基础模型,发现基于DINO的编码器在大视角变化下仍保持竞争力,而像VGGT这样的3D感知模型需要专门的多视角调整。
  • Conclusion: 提出了一个无需微调的3D场景理解基准测试,能够直接评估预训练编码器的内在3D推理能力,为机器人、自动驾驶等实际应用提供重要评估工具。

[69] In-Context Learning for Seismic Data Processing

Fabian Fuchs,Mario Ruben Fernandez,Norman Ettrich,Janis Keuper

Main category: cs.CV

TL;DR: ContextSeisNet是一种基于上下文学习的模型,用于地震多次波压制处理,通过利用相邻地震道集的示例对进行条件预测,实现无需重新训练的任务特定处理,提高了空间一致性和数据效率。

  • Motivation: 传统地震处理方法面临噪声数据、手动参数调优等挑战,现有深度学习方法存在空间不一致性和缺乏用户控制的问题。需要一种能够提供灵活用户控制和改进横向一致性的新方法。
  • Method: 提出ContextSeisNet上下文学习模型,通过条件化预测于空间相关的示例对(相邻共深度点道集及其对应标签),在推理时通过观察相似道集应如何处理来学习任务特定处理行为,无需重新训练。
  • Result: 在合成数据上优于U-Net基线,展示了增强的空间相干性;在野外数据上相比传统Radon去多次波和U-Net基线具有更好的横向一致性,改善了近偏移距性能和更完整的多次波去除,仅用10%的训练数据就实现了可比性能。
  • Conclusion: ContextSeisNet为空间一致的地震多次波压制提供了一种实用方法,具有扩展到其他地震处理任务的潜力,通过上下文学习实现了用户控制、空间一致性和数据效率的平衡。

[70] Using GUI Agent for Electronic Design Automation

Chunyi Li,Longfei Li,Zicheng Zhang,Xiaohong Liu,Min Tang,Weisi Lin,Guangtao Zhai

Main category: cs.CV

TL;DR: 该研究首次系统性地将GUI代理应用于EDA工作流,创建了大规模GUI-EDA数据集,评估了30+主流GUI代理,并提出了EDA专用评估指标EDAgent,在工业CAD软件上首次超越电气工程博士生。

  • Motivation: 现有GUI代理主要评估在通用办公软件上,而专业CAD套件具有更高经济回报但性能最差,远不能替代EDA专家工程师。需要将GUI代理从通用办公自动化扩展到专业高价值工程领域。
  • Method: 创建大规模GUI-EDA数据集(5个CAD工具×5个物理领域,2000+高质量截图-答案-动作对);建立全面基准评估30+主流GUI代理;提出EDA专用评估指标EDAgent,配备反思机制。
  • Result: EDA任务构成主要未解决挑战;EDAgent在工业CAD软件上实现可靠性能,首次超越电气工程博士生,为提升EDA生产力提供新途径。
  • Conclusion: 该工作将GUI代理从通用办公自动化扩展到专业高价值工程领域,为EDA生产力提升开辟新途径,数据集将开源发布。

[71] Embodied Image Compression

Chunyi Li,Rui Qing,Jianbo Zhang,Yuan Tian,Xiangyang Zhu,Zicheng Zhang,Xiaohong Liu,Weisi Lin,Guangtao Zhai

Main category: cs.CV

TL;DR: 本文首次提出"具身图像压缩"科学问题,建立标准化基准EmbodiedComp,用于评估超低比特率下具身AI在多智能体系统中的通信约束问题。

  • Motivation: 随着机器智能的快速发展,压缩目标已从特定任务虚拟模型转向在真实环境中操作的具身智能体。需要解决多智能体系统中具身AI的通信约束问题,确保实时任务执行。
  • Method: 建立标准化基准EmbodiedComp,在闭环设置下进行超低比特率条件的系统评估。在模拟和真实环境中进行广泛实证研究,测试现有视觉-语言-动作模型在压缩条件下的性能。
  • Result: 现有视觉-语言-动作模型在压缩到低于具身比特率阈值时,甚至无法可靠执行简单的操作任务。这凸显了为具身智能体开发特定领域压缩技术的必要性。
  • Conclusion: EmbodiedComp基准将推动针对具身智能体的领域特定压缩技术的发展,从而加速具身AI在真实世界中的部署和应用。

[72] Fast and Explicit: Slice-to-Volume Reconstruction via 3D Gaussian Primitives with Analytic Point Spread Function Modeling

Maik Dannecker,Steven Jia,Nil Stolt-Ansó,Nadine Girard,Guillaume Auzias,François Rousseau,Daniel Rueckert

Main category: cs.CV

TL;DR: 提出使用高斯显式表示替代神经隐式表示,通过解析解实现快速3D医学图像重建,速度提升5-10倍

  • Motivation: 传统隐式神经表示在医学图像3D重建中需要昂贵的蒙特卡洛采样来模拟点扩散函数,计算成本高,限制了临床实时应用
  • Method: 使用各向异性高斯基元参数化3D图像,利用高斯函数在卷积下的封闭性,推导出前向模型的解析解,将采集积分简化为协方差加法
  • Result: 在新生儿和胎儿数据上,重建质量与当前最优方法相当,但速度提升5-10倍,收敛时间通常少于30秒
  • Conclusion: 高斯显式表示方法通过解析解避免了计算密集的随机采样,实现了快速高质量的3D重建,为胎儿MRI的临床实时应用铺平了道路

[73] FactorPortrait: Controllable Portrait Animation via Disentangled Expression, Pose, and Viewpoint

Jiapeng Tang,Kai Li,Chengxiang Yin,Liuhao Ge,Fei Jiang,Jiu Xu,Matthias Nießner,Christian Häne,Timur Bagautdinov,Egor Zakharov,Peihong Guo

Main category: cs.CV

TL;DR: FactorPortrait:基于视频扩散的肖像动画方法,通过解耦的面部表情、头部运动和相机视角控制信号实现逼真合成

  • Motivation: 现有肖像动画方法在控制精度、真实感和视角一致性方面存在局限,需要一种能够同时处理面部表情、头部运动和相机视角控制的统一方法
  • Method: 使用预训练图像编码器提取驱动视频的面部表情潜在表示作为控制信号,通过提出的表情控制器注入视频扩散变换器;使用Plücker射线图和法线图进行相机和头部姿态控制;构建大规模合成数据集进行训练
  • Result: 在真实感、表现力、控制精度和视角一致性方面优于现有方法,能够从单张肖像图像生成逼真的动画,同时支持任意视角合成
  • Conclusion: FactorPortrait通过解耦控制信号实现了高质量的肖像动画,在多个评估指标上表现出色,为可控肖像动画提供了有效的解决方案

[74] Kinetic Mining in Context: Few-Shot Action Synthesis via Text-to-Motion Distillation

Luca Cazzola,Ahed Alboody

Main category: cs.CV

TL;DR: KineMIC是一个用于少样本动作合成的迁移学习框架,通过利用CLIP文本嵌入建立稀疏HAR标签与T2M源数据之间的对应关系,将通用T2M扩散模型适配到HAR领域,显著提升动作识别性能。

  • Motivation: 获取大规模标注运动数据集是骨骼动作识别(HAR)的关键瓶颈。现有的文本到运动(T2M)生成模型虽然能提供可扩展的合成数据,但其训练目标强调通用艺术性运动,与HAR需要的运动学精确、类别区分性动作存在显著领域差距。
  • Method: 提出KineMIC框架,通过假设文本编码空间中的语义对应关系可以为运动学蒸馏提供软监督,采用动力学挖掘策略利用CLIP文本嵌入建立稀疏HAR标签与T2M源数据之间的对应关系,指导微调过程,将通用T2M骨干网络转变为专门的少样本动作到运动生成器。
  • Result: 使用HumanML3D作为源T2M数据集,NTU RGB+D 120子集作为目标HAR领域(每类仅随机选择10个样本),KineMIC生成的运动更加连贯,作为数据增强源使准确率提升了+23.1个百分点。
  • Conclusion: KineMIC成功弥合了通用T2M模型与HAR需求之间的领域差距,通过少样本学习实现了有效的动作合成,为骨骼动作识别提供了强大的数据增强解决方案。

[75] Cross-modal Context-aware Learning for Visual Prompt Guided Multimodal Image Understanding in Remote Sensing

Xu Zhang,Jiabin Fang,Zhuoming Ding,Jin Yuan,Xuan Liu,Qianjun Zhang,Zhiyong Li

Main category: cs.CV

TL;DR: CLV-Net:一种通过视觉提示(边界框)引导的跨模态遥感图像理解方法,结合上下文感知掩码解码器和语义关系对齐模块,提升用户意图对齐的多模态输出质量。

  • Motivation: 现有方法在仅提供简单文本提示时难以引导模型关注用户相关区域,且遥感图像中物体视觉相似度高、关系复杂,导致准确识别困难。
  • Method: 提出CLV-Net:1)用户提供边界框作为视觉提示;2)上下文感知掩码解码器建模物体间关系以增强目标表示;3)语义关系对齐模块包含跨模态语义一致性损失和关系一致性损失。
  • Result: 在两个基准数据集上的实验表明,CLV-Net优于现有方法,达到新的最先进水平,能有效捕捉用户意图并生成精确的多模态输出。
  • Conclusion: CLV-Net通过视觉提示引导和跨模态上下文学习,解决了遥感图像理解中用户意图对齐和相似物体区分的挑战,实现了更准确的多模态图像理解。

[76] Depth-Copy-Paste: Multimodal and Depth-Aware Compositing for Robust Face Detection

Qiushi Guo

Main category: cs.CV

TL;DR: 提出Depth Copy Paste,一种多模态深度感知数据增强框架,通过复制全身人物实例并粘贴到语义兼容场景中,生成多样且物理一致的人脸检测训练样本。

  • Motivation: 传统复制粘贴增强方法由于前景提取不准确、场景几何不一致和背景语义不匹配,往往产生不真实的合成图像。需要解决这些限制,为具有挑战性条件(如遮挡、光照变化和复杂环境)下的人脸检测系统提供更鲁棒的训练数据。
  • Method: 1) 使用BLIP和CLIP联合评估语义和视觉一致性,自动检索最合适的背景图像;2) 集成SAM3进行精确分割,使用Depth-Anything提取非遮挡可见人物区域,确保高质量前景掩码;3) 引入深度引导滑动窗口放置机制,在背景深度图上搜索具有最佳深度连续性和尺度对齐的粘贴位置。
  • Result: 实验表明,Depth Copy Paste能提供更多样和真实的训练数据,与传统复制粘贴和无深度增强方法相比,在下游人脸检测任务中带来显著的性能提升。
  • Conclusion: Depth Copy Paste通过多模态语义匹配、高质量前景提取和深度感知几何对齐,生成了物理一致且视觉逼真的合成图像,有效提升了人脸检测系统的鲁棒性。

[77] Text images processing system using artificial intelligence models

Aya Kaysan Bahjat

Main category: cs.CV

TL;DR: 提出一种文本图像分类设备,使用DBNet++检测文本、BART分类文本内容,将图像分为发票、表格、信件或报告四类,在Total-Text数据集上达到94.62%的识别率。

  • Motivation: 解决实际应用中文本图像分类的挑战,包括光照变化、随机方向、文本弯曲或部分覆盖、低分辨率、文本可见度低等问题,开发一个实用的文档分类系统。
  • Method: 采用四步处理流程:1) 图像采集与预处理;2) 使用DBNet++模型检测文本元素;3) 使用BART模型对检测到的文本进行分类;4) 通过Python和PyQt5编写的用户界面展示结果。支持图库模式(浏览存储设备)和实时模式(摄像头输入)。
  • Result: 在Total-Text数据集上进行了10小时测试,实现了约94.62%的文本识别率。该系统在不受控制的成像条件下仍能有效进行混合来源的文本分类。
  • Conclusion: 提出的方法在实践中有效,能够处理各种具有挑战性的成像条件,为文档分类提供了一个实用的解决方案。

[78] EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

Wei Chow,Linfeng Li,Lingdong Kong,Zefeng Li,Qi Xu,Hang Song,Tian Ye,Xian Wang,Jinbin Bai,Shilin Xu,Xiangtai Li,Junting Pan,Shaoteng Liu,Ran Zhou,Tianshu Yang,Songhua Liu

Main category: cs.CV

TL;DR: EditMGT:首个基于掩码生成Transformer的图像编辑框架,通过多层级注意力整合和区域保持采样实现精准局部编辑,在保持非目标区域完整性的同时实现6倍加速。

  • Motivation: 扩散模型在图像编辑中虽然视觉质量优秀,但其全局去噪机制会将局部编辑目标与全图上下文混淆,导致非目标区域产生意外修改。需要寻找能够显式保护非相关区域的替代方法。
  • Method: 1) 利用MGT的交叉注意力图提供编辑相关区域定位信号,设计多层级注意力整合方案实现细粒度精确定位;2) 引入区域保持采样,限制低注意力区域的token翻转以抑制虚假编辑;3) 构建CrispEdit-2M高分辨率数据集,通过注意力注入将预训练文本到图像MGT适配为图像编辑模型。
  • Result: 在四个标准基准测试中,模型参数量少于10亿,实现了相似性能的同时编辑速度提升6倍。在风格变化和风格迁移任务上分别提升3.6%和17.6%的编辑质量。
  • Conclusion: MGT的局部解码范式为图像编辑提供了显式保护非相关区域的内在能力,EditMGT框架成功利用这一特性实现了精准、高效的局部图像编辑,为图像编辑任务提供了新的有效解决方案。

[79] Referring Change Detection in Remote Sensing Imagery

Yilmaz Korkmaz,Jay N. Paranjape,Celso M. de Melo,Vishal M. Patel

Main category: cs.CV

TL;DR: 提出Referring Change Detection (RCD)框架,通过自然语言提示检测遥感图像中的特定类别变化,解决传统方法无法区分变化类型和语义方法类别定义僵化的问题。

  • Motivation: 传统变化检测方法无法区分变化类型,而语义变化检测方法依赖固定的类别定义和模型架构,难以跨数据集和任务复用。需要一种更灵活、用户可指定变化类型的方法。
  • Method: 提出两阶段框架:1) RCDNet - 用于指代变化检测的跨模态融合网络;2) RCDGen - 基于扩散模型的合成数据生成管道,仅使用变化前图像生成真实的变化后图像和变化图,无需语义分割掩码。
  • Result: 在多个数据集上的实验表明,该框架能够实现可扩展和有针对性的变化检测,解决了标注数据有限和类别不平衡的问题。
  • Conclusion: 提出的RCD框架通过自然语言提示实现了灵活、用户可指定的遥感图像变化检测,同时通过合成数据生成降低了大规模数据创建的障碍,为遥感变化检测提供了新的解决方案。

[80] Reframing Music-Driven 2D Dance Pose Generation as Multi-Channel Image Generation

Yan Zhang,Han Zou,Lincong Feng,Cong Xie,Ruiqi Yu,Zhenpeng Zhan

Main category: cs.CV

TL;DR: 将音乐到舞蹈生成重新定义为音乐token条件化的多通道图像合成问题,通过图像VAE压缩2D姿态序列,使用DiT风格主干建模,引入时间共享索引和参考姿态条件化策略,显著提升舞蹈生成质量。

  • Motivation: 现有姿态到视频模型能将2D姿态序列转换为逼真舞蹈视频,但关键挑战是从音乐生成时间连贯、节奏对齐的2D姿态,特别是在复杂、高方差的野外分布下。
  • Method: 1) 将2D姿态序列编码为one-hot图像,用预训练图像VAE压缩,用DiT风格主干建模;2) 引入时间共享时间索引方案,显式同步音乐token和姿态潜在表示;3) 提出参考姿态条件化策略,保持主体特定身体比例和屏幕尺度。
  • Result: 在大型野外2D舞蹈语料库和校准的AIST++2D基准测试中,在姿态和视频空间指标以及人类偏好方面持续优于代表性音乐到舞蹈方法,消融实验验证了表示、时间索引和参考条件化的贡献。
  • Conclusion: 通过将音乐到舞蹈生成重新定义为图像合成问题,并引入时间同步和参考条件化机制,能够更好地捕捉高方差2D姿态分布,生成更高质量、更连贯的舞蹈序列。

[81] Weak-to-Strong Generalization Enables Fully Automated De Novo Training of Multi-head Mask-RCNN Model for Segmenting Densely Overlapping Cell Nuclei in Multiplex Whole-slice Brain Images

Lin Bai,Xiaoyang Li,Liqiang Huang,Quynh Nguyen,Hien Van Nguyen,Saurabh Prasad,Dragan Maric,John Redell,Pramod Dash,Badrinath Roysam

Main category: cs.CV

TL;DR: 提出一种弱到强泛化方法,用于全自动训练带高效通道注意力的多头Mask-RCNN,实现重叠细胞核的可靠分割,无需人工标注即可学习新仪器/新协议下的图像分割。

  • Motivation: 解决多重循环免疫荧光全玻片图像中重叠细胞核的可靠分割问题,特别是在生产环境中无法进行大规模人工视觉校对的情况下,需要全自动、无需人工标注的解决方案。
  • Method: 采用弱到强泛化方法,结合多头Mask-RCNN扩展和高效通道注意力机制,实现伪标签校正和覆盖范围扩展,能够从新仪器/新成像协议中学习分割新类别图像。
  • Result: 与五种当前广泛使用的方法相比,该方法显示出显著改进,并提供了用于生产环境中自动自诊断分割质量的指标。
  • Conclusion: 该方法为重叠细胞核分割提供了有效的全自动解决方案,无需人工标注,代码、样本图像和高分辨率分割结果已开源,便于社区采用和适应。

[82] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

Minglei Shi,Haolin Wang,Borui Zhang,Wenzhao Zheng,Bohan Zeng,Ziyang Yuan,Xiaoshi Wu,Yuanxing Zhang,Huan Yang,Xintao Wang,Pengfei Wan,Kun Gai,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: SVG-T2I是一个在视觉基础模型表示空间中直接进行文本到图像生成的扩散模型,通过自监督表示实现高质量图像合成

  • Motivation: 虽然基于视觉基础模型表示的视觉生成提供了统一的理解、感知和生成途径,但在VFM表示空间中完全训练大规模文本到图像扩散模型仍未被充分探索
  • Method: 扩展SVG框架,提出SVG-T2I,在VFM特征域中直接支持高质量的文本到图像合成,利用标准的文本到图像扩散流程
  • Result: 在GenEval上达到0.75分,在DPG-Bench上达到85.78分,具有竞争力的性能,验证了VFM在生成任务中的内在表示能力
  • Conclusion: SVG-T2I证明了视觉基础模型表示空间对于生成任务的有效性,并开源了整个项目以促进表示驱动的视觉生成研究

[83] Reducing Domain Gap with Diffusion-Based Domain Adaptation for Cell Counting

Mohammad Dehghanmanshadi,Wallapak Tavanapong

Main category: cs.CV

TL;DR: 将InST风格迁移框架应用于生物医学显微图像,通过扩散模型中的潜在空间自适应实例归一化和随机反转,将真实荧光显微图像的风格迁移到合成图像上,显著提升细胞计数模型的性能。

  • Motivation: 在标签稀缺的环境下(如每张图像包含大量细胞的细胞计数任务),生成真实的合成显微图像对训练深度学习模型至关重要。传统域适应方法在处理缺乏复杂纹理和视觉模式的合成图像时,往往难以弥合域差距。
  • Method: 采用InST(基于反转的风格迁移)框架,结合扩散模型中的潜在空间自适应实例归一化和随机反转技术,将真实荧光显微图像的风格迁移到合成图像上,同时弱保留内容结构。
  • Result: 使用InST合成图像训练的模型在细胞计数任务中表现优异:与硬编码合成数据相比,MAE降低37%;与Cell200-s数据集相比,MAE从53.70降至25.95(降低52%);甚至优于仅使用真实数据训练的模型(25.95 vs 27.74 MAE)。结合DACS和CutMix等轻量级域适应技术可获得进一步改进。
  • Conclusion: InST风格迁移能最有效地减少合成与真实显微数据之间的域差距,为提升细胞计数性能提供可扩展的路径,同时最大限度地减少手动标注工作量。该方法在生物医学图像分析领域具有重要应用价值。

[84] Smudged Fingerprints: A Systematic Evaluation of the Robustness of AI Image Fingerprints

Kai Yao,Marc Juarez

Main category: cs.CV

TL;DR: 论文首次系统评估模型指纹检测技术的安全性,发现现有方法在对抗攻击下表现脆弱,移除攻击成功率高达80%,伪造攻击效果因目标模型而异,揭示了准确性与鲁棒性之间的权衡。

  • Motivation: 模型指纹检测技术用于追踪AI生成图像的来源模型,但其在对抗条件下的鲁棒性尚未得到充分研究。论文旨在填补这一空白,系统评估这些技术的安全性。
  • Method: 形式化了白盒和黑盒访问的威胁模型,定义了指纹移除和指纹伪造两种攻击目标。实现了五种攻击策略,评估了14种代表性指纹检测方法(涵盖RGB、频率和学习特征域),在12个最先进的图像生成器上进行实验。
  • Result: 实验显示清洁环境与对抗环境性能存在显著差距:移除攻击在白盒设置下成功率常超过80%,黑盒受限访问下也超过50%;伪造攻击更具挑战性但效果因目标模型而异;发现准确性与鲁棒性权衡——最高准确率的方法往往最脆弱;没有方法在所有威胁模型中同时实现高鲁棒性和高准确性。
  • Conclusion: 现有模型指纹检测技术在对抗攻击下表现脆弱,需要开发平衡鲁棒性和准确性的新技术。研究识别了推进这一目标的最有前景的方法方向。

[85] MatAnyone 2: Scaling Video Matting via a Learned Quality Evaluator

Peiqing Yang,Shangchen Zhou,Kai Hao,Qingyi Tao

Main category: cs.CV

TL;DR: 提出MQE评估器评估alpha遮罩质量,构建大规模真实视频遮罩数据集VMReal,开发MatAnyone 2模型在合成和真实基准上达到SOTA

  • Motivation: 现有视频遮罩数据集规模有限且缺乏真实感,分割数据虽然能增强语义稳定性,但缺乏有效的边界监督导致遮罩缺乏精细细节
  • Method: 1. 提出学习型遮罩质量评估器(MQE),无需真实标注即可评估语义和边界质量;2. 构建大规模真实视频遮罩数据集VMReal;3. 引入参考帧训练策略处理长视频外观变化;4. 开发MatAnyone 2模型
  • Result: 构建了包含28K视频片段和2.4M帧的VMReal数据集,MatAnyone 2在合成和真实世界基准测试中超越所有先前方法,在所有指标上达到SOTA
  • Conclusion: MQE评估器能够有效提升视频遮罩质量,结合大规模真实数据集和参考帧训练策略,实现了视频遮罩技术的显著进步

[86] Uncertainty-Aware Domain Adaptation for Vitiligo Segmentation in Clinical Photographs

Wentao Jiang,Vamsi Varra,Caitlin Perez-Stable,Harrison Zhu,Meredith Apicella,Nicole Nyamongo

Main category: cs.CV

TL;DR: 提出一个可信赖的频率感知分割框架,用于从临床照片中准确量化白癜风范围,通过数据高效训练、架构改进和临床信任机制实现卓越性能。

  • Motivation: 准确量化白癜风范围对于纵向监测治疗反应至关重要,需要开发可靠、自动化的评估方法。
  • Method: 基于三个协同支柱:1) 数据高效训练策略(ISIC 2019数据集域自适应预训练+ROI约束双任务损失);2) 架构改进(ConvNeXt V2编码器+高频谱门控模块+茎跳连接);3) 临床信任机制(K折集成+测试时增强生成像素级不确定性图)。
  • Result: 在专家标注的临床队列上验证,Dice分数达85.05%,显著减少边界误差(95% Hausdorff距离从44.79px降至29.95px),优于CNN和Transformer基线,零灾难性失败,提供可解释的熵图。
  • Conclusion: 该框架为自动化白癜风评估建立了稳健可靠的标准,具有高可靠性和可解释性,能识别模糊区域供临床医生审查。

[87] Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Yang Fei,George Stoica,Jingyuan Liu,Qifeng Chen,Ranjay Krishna,Xiaojuan Wang,Benlin Liu

Main category: cs.CV

TL;DR: 提出SAM2VideoX方法,通过从自回归视频跟踪模型(SAM2)提取结构保持运动先验,并融入双向视频扩散模型(CogVideoX),显著提升视频生成中结构保持运动的质量

  • Motivation: 现有视频生成模型在保持物体结构(特别是人体和动物等可变形物体)方面存在挑战,仅靠扩大训练数据无法解决物理上不合理的运动过渡问题,现有方法依赖有噪声的运动表示
  • Method: 1) 从自回归视频跟踪模型(SAM2)提取全局结构保持运动先验的双向特征融合模块;2) 对齐局部特征如何一起运动的Local Gram Flow损失函数
  • Result: 在VBench上达到95.51%,比REPA提升2.60%;FVD降低到360.57,比REPA和LoRA微调分别改善21.20%和22.46%;人类偏好达到71.4%
  • Conclusion: 通过从跟踪模型中提取结构保持运动先验并融入扩散模型,能够显著提升视频生成中结构保持运动的质量,解决现有方法的局限性

[88] Particulate: Feed-Forward 3D Object Articulation

Ruining Li,Yuxin Yao,Chuanxia Zheng,Christian Rupprecht,Joan Lasenby,Shangzhe Wu,Andrea Vedaldi

Main category: cs.CV

TL;DR: Particulate是一个前馈方法,能从单个静态3D网格直接推断日常物体的底层铰接结构,包括3D部件、运动学结构和运动约束,比现有方法快得多。

  • Motivation: 现有方法需要针对每个物体进行优化,速度慢且效率低。需要一种能够从单个静态3D网格快速、准确地推断完整铰接结构的方法,以支持从图像生成完整铰接3D模型的应用。
  • Method: 核心是Part Articulation Transformer(部件铰接变换器)网络,处理输入网格的点云,使用灵活可扩展的架构预测所有铰接属性,支持多关节。端到端训练于公共数据集的多样化铰接3D资产。
  • Result: 在几秒内生成完全铰接的3D模型,显著快于需要逐物体优化的先前方法。能准确推断AI生成的3D资产的铰接结构,结合现成的图像到3D生成器,可从单个图像提取完整铰接3D对象。在新建的基准测试中显著优于最先进方法。
  • Conclusion: Particulate提供了一种高效的前馈方法,能够快速、准确地从单个静态3D网格推断完整铰接结构,为从图像生成铰接3D模型提供了实用解决方案,并在新基准测试中表现出优越性能。

[89] V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Ye Fang,Tong Wu,Valentin Deschaintre,Duygu Ceylan,Iliyan Georgiev,Chun-Hao Paul Huang,Yiwei Hu,Xuelin Chen,Tuanfeng Yang Wang

Main category: cs.CV

TL;DR: V-RGBX是首个端到端的本征感知视频编辑框架,能够联合理解场景本征属性(反照率、法线、材质、辐照度),利用这些属性进行视频合成,并支持基于本征表示的可编辑操作。

  • Motivation: 现有的大规模视频生成模型虽然在建模真实外观和光照交互方面表现出色,但缺乏一个闭环框架来联合理解场景本征属性、利用这些属性进行视频合成,并支持可编辑的本征表示。
  • Method: V-RGBX采用交错条件机制,统一三个关键能力:1)将视频逆渲染为本征通道;2)从这些本征表示合成真实感视频;3)基于本征通道的关键帧视频编辑。支持通过用户选择的关键帧进行直观、物理基础的视频编辑。
  • Result: V-RGBX能够生成时间一致的真实感视频,并以物理合理的方式将关键帧编辑传播到整个序列。在物体外观编辑和场景级重光照等多样化应用中表现出色,超越了先前方法的性能。
  • Conclusion: V-RGBX是首个端到端的本征感知视频编辑框架,通过统一逆渲染、视频合成和关键帧编辑能力,实现了物理基础的可编辑视频生成,为视频编辑提供了新的可能性。

[90] Moment-Based 3D Gaussian Splatting: Resolving Volumetric Occlusion with Order-Independent Transmittance

Jan U. Müller,Robin Tim Landsgesell,Leif Van Holland,Patrick Stotko,Reinhard Klein

Main category: cs.CV

TL;DR: 本文提出了一种基于矩的高保真透射率计算方法,用于3D高斯溅射渲染,无需光线追踪或逐像素排序即可实现复杂半透明物体的准确渲染。

  • Motivation: 3D高斯溅射(3DGS)虽然实现了快速优化和实时渲染,但其依赖简化的alpha混合和粗糙的密度积分近似,限制了渲染复杂重叠半透明物体的能力。需要一种既能保持实时渲染优势又能提高物理准确性的方法。
  • Method: 基于矩的无序透明度方法,从所有贡献的3D高斯中解析推导和计算每像素矩,构建连续透射率函数,然后在每个高斯内独立采样,实现高保真透射率计算。
  • Result: 该方法在复杂半透明介质中显著提高了光线衰减建模的准确性,大幅改善了整体重建和渲染质量,同时保持了实时渲染的优势。
  • Conclusion: 通过基于矩的透射率计算方法,成功弥合了光栅化渲染与物理准确性之间的差距,为3D高斯溅射提供了处理复杂半透明物体的有效解决方案。

cs.DC

[91] Parallax: Runtime Parallelization for Operator Fallbacks in Heterogeneous Edge Systems

Chong Tang,Hao Dai,Jagmohan Chauhan

Main category: cs.DC

TL;DR: Parallax是一个移动端DNN推理框架,通过计算图分区、分支感知内存管理和自适应调度,在不修改模型的情况下加速动态控制流模型的推理,实现高达46%的延迟降低和30%的能耗节省。

  • Motivation: 边缘设备上实时DNN应用需求增长,但动态控制流操作和不支持的算子通常回退到CPU执行,现有框架处理回退效果差,导致CPU核心闲置、高延迟和内存峰值问题。
  • Method: 1) 分区计算DAG以暴露并行性;2) 采用分支感知内存管理,使用专用内存池和缓冲区重用减少运行时内存占用;3) 自适应调度器根据设备内存约束执行分支;4) 细粒度子图控制实现动态模型的异构推理。
  • Result: 在三种不同移动设备上评估五个代表性DNN模型,Parallax相比最先进框架:延迟降低高达46%,平均内存开销控制在26.5%,能耗节省高达30%。
  • Conclusion: Parallax框架通过创新的并行化、内存管理和调度策略,在不需模型重构或自定义算子实现的情况下,显著提升了移动端动态DNN模型的推理性能,满足实时移动推理的响应性需求。

eess.IV

[92] mViSE: A Visual Search Engine for Analyzing Multiplex IHC Brain Tissue Images

Liqiang Huang,Rachel W. Mills,Saikiran Mandula,Lin Bai,Mahtab Jeyhani,John Redell,Hien Van Nguyen,Saurabh Prasad,Dragan Maric,Badrinath Roysam

Main category: eess.IV

TL;DR: mViSE是一个用于全切片多重脑组织图像分析的免编程视觉搜索引擎,通过分而治之策略和多面板自监督学习实现细胞和微环境检索

  • Motivation: 全切片多重脑组织成像产生海量信息密集的图像,分析困难且需要定制软件,需要一种更易用的免编程解决方案
  • Method: 采用分而治之策略将数据组织成相关分子标记面板,使用自监督学习训练每个面板的多重编码器,通过信息论方法组合多个面板处理视觉查询
  • Result: 成功验证了mViSE检索单个细胞、邻近细胞对、组织斑块、描绘皮层层、脑区和亚区的能力
  • Conclusion: mViSE提供了一种免编程的脑组织多重图像分析方法,作为开源QuPath插件可用,支持组织探索、脑区描绘和比较等多种应用

cs.AI

[93] Back to the Baseline: Examining Baseline Effects on Explainability Metrics

Agustin Martin Picard,Thibaut Boissin,Varshini Subhash,Rémi Cadène,Thomas Fel

Main category: cs.AI

TL;DR: 本文指出当前XAI中基于基准线的保真度评估指标(插入/删除)存在严重问题:基准线选择会偏袒特定归因方法,甚至导致线性模型得出矛盾结果。作者提出理想基准线应具备信息移除和不产生过度分布外图像两个特性,发现现有基准线无法同时满足,并引入基于特征可视化的模型依赖基准线来改善这一权衡。

  • Motivation: 当前XAI中广泛使用的归因方法评估指标(插入/删除)依赖于基准线来修改输入图像的重要像素。研究发现基准线选择会系统性偏袒某些归因方法,甚至导致简单线性模型得出相互矛盾的最优方法选择,这暴露了现有评估体系的基础性问题。
  • Method: 首先分析基准线应满足的两个理想特性:信息移除能力和不产生过度分布外图像。通过实验验证现有基准线无法同时满足这两个标准,存在权衡关系。然后提出基于特征可视化的模型依赖基准线,利用模型内部表示生成既能移除信息又不过度分布外的基准图像。
  • Result: 实验表明现有基准线存在信息移除与分布外程度之间的权衡:要么能有效移除信息但产生分布外图像,要么保持分布内但信息移除不足。提出的模型依赖基准线在权衡上优于现有方法,能更好地同时满足两个理想特性。
  • Conclusion: 基准线选择对XAI评估有重大影响,现有基准线存在固有缺陷。提出的模型依赖基准线通过特征可视化技术改善了信息移除与分布外程度之间的权衡,为更可靠的归因方法评估提供了新方向。代码已开源供社区使用。

cs.CL

[94] Minimal Clips, Maximum Salience: Long Video Summarization via Key Moment Extraction

Galann Pennec,Zhengyuan Liu,Nicholas Asher,Philippe Muller,Nancy F. Chen

Main category: cs.CL

TL;DR: 提出一种基于轻量级视频描述模型和LLM的关键片段选择方法,用于构建多模态视频摘要,在保持低计算成本的同时有效捕捉重要视觉信息。

  • Motivation: VLMs处理长视频时容易丢失重要视觉信息,且需要设计成本效益高的长视频分析工具。当前需要一种能有效选择关键视频片段用于多模态摘要的方法。
  • Method: 1) 将视频分成短片段;2) 使用轻量级视频描述模型为每个片段生成紧凑的视觉描述;3) 将这些描述输入LLM,选择K个包含最相关视觉信息的片段用于多模态摘要。
  • Result: 在MovieSum数据集上,该方法达到接近参考片段的摘要性能,比随机片段选择捕获更多相关视频信息。参考片段(少于电影的6%)足以构建完整的多模态摘要。
  • Conclusion: 提出的片段选择方法能有效识别关键视频时刻用于多模态摘要,在保持低计算成本的同时显著提升视觉信息捕获能力。

math.PR

[95] Stochastics of shapes and Kunita flows

Stefan Sommer,Gefan Yang,Elizabeth Louise Baker

Main category: math.PR

TL;DR: 本文提出了在形状空间中构建兼容的随机过程的方法,通过Kunita流确保形状结构的兼容性,并展示了如何利用桥采样技术进行参数推断。

  • Motivation: 在进化生物学等应用中,形态会随进化过程随机变化,但由于形状空间的非线性和无限维特性,构建合适的随机形状过程具有挑战性。需要定义与形状结构兼容的随机过程。
  • Method: 定义了随机形状过程应满足的理想性质,将其与Kunita流联系起来,Kunita流在形状空间上作用时能自动满足这些标准。同时调查了其他相关形状随机过程,并展示了如何使用桥采样技术对观测数据进行条件化。
  • Result: 建立了随机形状过程的数学框架,通过Kunita流构造了与形状结构兼容的随机过程,并提供了基于桥采样的统计推断方法,能够对随机动力学参数进行估计。
  • Conclusion: 本文为形状空间中的随机过程提供了系统的数学基础,通过Kunita流确保了形状结构的兼容性,桥采样技术使得基于观测数据的参数推断成为可能,为进化生物学等领域的应用提供了理论工具。

cs.RO

[96] WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control

Haoran Jiang,Jin Chen,Qingwen Bu,Li Chen,Modi Shi,Yanjie Zhang,Delong Li,Chuanzhe Suo,Chuang Wang,Zhihui Peng,Hongyang Li

Main category: cs.RO

TL;DR: WholeBodyVLA:首个实现大空间人形机器人全身运动操作的统一框架,通过视觉-语言-动作系统和专门的强化学习策略,解决了现有方法在操作感知运动方面的不足。

  • Motivation: 现有的人形机器人运动操作方法(模块化或端到端)在操作感知运动方面存在不足,限制了机器人的工作空间,无法执行大空间运动操作。主要问题包括:缺乏人形遥操作数据导致运动操作知识获取困难,以及现有RL控制器精度和稳定性不足导致运动命令执行不可靠。
  • Method: 提出统一潜在学习框架,使视觉-语言-动作系统能从低成本的无动作第一人称视频中学习;设计高效的人类数据收集管道来扩展数据集;开发专门针对运动操作的核心运动(前进、转向、蹲下)的LMO强化学习策略,实现精确稳定的运动命令执行。
  • Result: 在AgiBot X2人形机器人上的综合实验验证了WholeBodyVLA的有效性,比先前基线方法性能提升21.3%。展示了在广泛任务中的强大泛化能力和高扩展性。
  • Conclusion: WholeBodyVLA是首个实现大空间人形机器人全身运动操作的统一框架,通过结合视觉-语言-动作学习和专门的强化学习策略,解决了现有方法的局限性,为人形机器人的实际应用提供了重要进展。

[97] Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy

Kechun Xu,Zhenjie Zhu,Anzhe Chen,Shuqi Zhao,Qing Huang,Yifei Yang,Haojian Lu,Rong Xiong,Masayoshi Tomizuka,Yue Wang

Main category: cs.RO

TL;DR: BayesVLA通过贝叶斯分解解决VLA模型中的模态不平衡问题,将策略分解为视觉-动作先验和语言条件似然,有效缓解灾难性遗忘并提升泛化能力。

  • Motivation: VLA模型在微调时容易出现灾难性遗忘,现有方法依赖外部推理数据且需要复杂调优。研究发现VLA数据集存在模态不平衡问题(语言多样性远低于视觉和动作多样性),导致模型偏向视觉捷径和语言遗忘。
  • Method: 提出BayesVLA:1)贝叶斯分解策略为视觉-动作先验(支持"看到即行动")和语言条件似然(支持"提示即指定");2)结合接触前和接触后阶段以更好利用预训练基础模型;3)信息论分析验证缓解捷径学习的有效性。
  • Result: 在未见过的指令、物体和环境上展现出优于现有方法的泛化能力。信息论分析正式验证了缓解捷径学习的有效性。
  • Conclusion: BayesVLA通过贝叶斯分解有效解决了VLA模型中的模态不平衡问题,无需外部依赖即可缓解灾难性遗忘,显著提升了模型的泛化能力和指令跟随能力。

[98] AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis

Junjie Ye,Rong Xue,Basile Van Hoorick,Pavel Tokmakov,Muhammad Zubair Irshad,Yue Wang,Vitor Guizilini

Main category: cs.RO

TL;DR: AnchorDream:基于预训练视频扩散模型的机器人数据合成方法,通过机器人运动渲染锚定具身性,从少量演示生成大规模多样化数据集,显著提升模仿学习性能

  • Motivation: 大规模多样化机器人演示数据收集是模仿学习的主要瓶颈,真实数据获取成本高,仿真器多样性有限且存在明显的仿真到现实差距。现有生成方法要么只改变视觉外观而不创造新行为,要么存在具身不一致导致动作不合理。
  • Method: AnchorDream是一种具身感知的世界模型,重新利用预训练的视频扩散模型进行机器人数据合成。该方法将扩散过程条件化于机器人运动渲染,锚定具身性以防止幻觉,同时合成与机器人运动学一致的对象和环境。仅需少量人类遥操作演示,即可扩展为大规模、多样化、高质量的数据集,无需显式环境建模。
  • Result: 实验表明,生成的数据在下游策略学习中带来持续改进:在仿真基准测试中相对提升36.4%,在真实世界研究中性能提升近一倍。
  • Conclusion: 将生成世界模型基于机器人运动,为扩展模仿学习提供了实用路径。AnchorDream通过锚定具身性解决了现有方法的局限性,实现了高质量机器人数据合成。

physics.flu-dyn

[99] Particle Image Velocimetry Refinement via Consensus ADMM

Alan Bonomi,Francesco Banelli,Antonio Terpin

Main category: physics.flu-dyn

TL;DR: 提出一种基于共识框架的并行化PIV方法,通过多算法并行计算并结合ADMM优化,显著提升流场量化精度和鲁棒性。

  • Motivation: 传统PIV方法依赖特定成像参数设置,对光照、流动条件和粒子密度变化敏感;现有机器学习方法在训练集外表现脆弱。实验发现对同一图像对的不同区域应用不同调参或算法能改善流场量化效果。
  • Method: 采用多算法并行化瞬时流场量化,基于交替方向乘子法(ADMM)建立共识框架,无缝整合平滑性和不可压缩性等先验知识,在JAX中实现以充分利用硬件加速。
  • Result: 数值实验显示,与密集逆搜索估计器相比,端点误差降低高达20%,推理速率达60Hz,通过离群值拒绝可进一步提升性能。方法集成于Flow Gym平台,支持可重复比较、算法测试和流体控制应用部署。
  • Conclusion: 提出的共识框架PIV方法通过并行多算法计算和ADMM优化,显著提高了流场量化的精度、鲁棒性和计算效率,为实验流体动力学提供了更可靠的测量工具。

cs.LG

[100] Multimodal Fusion of Regional Brain Experts for Interpretable Alzheimer's Disease Diagnosis

Farica Zhuang,Dinara Aliyeva,Shu Yang,Zixuan Wen,Duy Duong-Tran,Christos Davatzikos,Tianlong Chen,Song Wang,Li Shen

Main category: cs.LG

TL;DR: 提出MREF-AD模型,通过多模态区域专家融合框架,自适应平衡淀粉样蛋白PET和MRI等生物标志物在阿尔茨海默病诊断中的贡献,提升诊断性能并提供区域级可解释性。

  • Motivation: 阿尔茨海默病的准确早期诊断需要整合多模态信息,但传统融合方法通常采用简单的特征拼接,无法自适应平衡不同脑区生物标志物的贡献。
  • Method: 提出MREF-AD模型,采用混合专家框架,将每个模态的中尺度脑区建模为独立专家,使用两级门控网络学习受试者特定的融合权重。
  • Result: 在ADNI数据上,MREF-AD实现了最先进的性能,同时提供了脑区特异性生物标志物相关性的增强可解释性。
  • Conclusion: MREF-AD作为一个通用框架,为神经影像中的自适应和可解释多模态融合提供了实用工具,既能提升诊断性能又能提供区域级洞察。

[101] Autoencoder-based Semi-Supervised Dimensionality Reduction and Clustering for Scientific Ensembles

Lennard Manuel,Hamid Gadirov,Steffen Frey

Main category: cs.LG

TL;DR: 提出一种结合聚类损失和对比损失的增强自编码器框架,用于高维科学集合数据的可视化与特征提取

  • Motivation: 高维复杂的科学集合数据集在分析和可视化方面面临挑战,传统降维技术和自编码器难以有效处理此类数据
  • Method: 使用EfficientNetV2为无标签数据生成伪标签,构建结合重建损失、聚类损失(基于软轮廓分数)和对比损失的自编码器框架,最后用UMAP生成2D投影
  • Result: 在土壤通道结构和液滴冲击薄膜两个科学集合数据集上,结合聚类或对比损失的模型略优于基线方法
  • Conclusion: 提出的增强自编码器框架能有效改善科学集合数据的可视化和可解释性,聚类和对比损失的结合有助于在潜在空间中形成更有意义的特征表示

[102] Beyond Memorization: Gradient Projection Enables Selective Learning in Diffusion Models

Divya Kothandaraman,Jaclyn Pytlarz

Main category: cs.LG

TL;DR: 提出梯度投影框架,在扩散模型训练中通过正交投影消除敏感概念特征的梯度影响,实现概念级别的选择性遗忘,解决记忆化带来的安全和知识产权风险。

  • Motivation: 大规模文本到图像扩散模型的记忆化带来严重安全和知识产权风险,传统去记忆化技术(如正则化和数据过滤)只能限制对特定训练样本的过拟合,无法系统性地防止禁止概念级别特征的内部化。直接丢弃包含敏感特征的所有图像会浪费宝贵训练数据,需要概念级别的选择性遗忘方法。
  • Method: 提出梯度投影框架,在反向传播过程中系统识别并切除与禁止属性嵌入对齐的训练信号。具体方法是将每个梯度更新投影到敏感特征嵌入空间的正交补空间上,从而消除其对模型权重的影响。该方法可无缝集成到标准扩散模型训练流程中,并与现有防御措施互补。
  • Result: 在广泛实验中证明,该框架显著减少记忆化,同时严格保持生成质量和语义保真度。通过将记忆控制重新定义为选择性学习,为IP安全和隐私保护的生成式AI建立了新范式。
  • Conclusion: 梯度投影框架通过概念级别的特征排除,有效解决扩散模型的记忆化问题,在保护知识产权和隐私的同时保持模型性能,为生成式AI的安全训练提供了新方法。

[103] Task-Aware Multi-Expert Architecture For Lifelong Deep Learning

Jianyu Wang,Jacob Nean-Hua Sheikh,Cat P. Le,Hoda Bidkhori

Main category: cs.LG

TL;DR: TAME是一种终身深度学习算法,通过任务感知的多专家系统、重放缓冲区和注意力机制,在连续学习任务中平衡适应性和知识保留。

  • Motivation: 终身深度学习需要在连续任务中学习新知识的同时保留先前知识,避免灾难性遗忘。现有方法在平衡适应性和保留性方面存在挑战。
  • Method: TAME算法包含:1)任务感知的多专家系统,基于任务相似性选择最相关的预训练专家;2)共享密集层整合专家特征进行预测;3)重放缓冲区存储先前任务的代表性样本和嵌入;4)注意力机制优先选择最相关的存储信息。
  • Result: 在基于CIFAR-100的二分类任务实验中,TAME在提高新任务准确率的同时,保持了先前任务的性能,有效平衡了适应性和保留性。
  • Conclusion: TAME通过结合任务感知的专家选择、重放缓冲和注意力机制,在终身学习场景中实现了灵活适应和知识保留的有效平衡。

[104] Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

Sam Gijsen,Marc-Andre Schulz,Kerstin Ritter

Main category: cs.LG

TL;DR: Brain-Semantoks是一个自监督框架,通过语义分词器和自蒸馏目标学习大脑动态的抽象表征,在fMRI时间序列分析中实现强大的下游任务性能

  • Motivation: 现有fMRI基础模型通常在小脑区域上使用掩码-重建目标训练,关注低层次信息,导致表征对噪声和时间波动敏感,需要大量微调。需要开发能学习大脑动态抽象表征的模型。
  • Method: 提出Brain-Semantoks自监督框架,包含两个核心创新:1) 语义分词器将噪声区域信号聚合为表示功能网络的鲁棒token;2) 自蒸馏目标强制跨时间表征稳定性。通过新颖的训练课程稳定目标,从低信噪比时间序列中学习有意义的特征。
  • Result: 学习到的表征即使在仅使用线性探针的情况下,也能在各种下游任务中实现强大性能。全面的缩放分析表明,更多未标记数据可靠地带来分布外性能提升,无需领域适应。
  • Conclusion: Brain-Semantoks通过语义分词和自蒸馏学习大脑动态的抽象表征,解决了现有fMRI基础模型的局限性,实现了鲁棒的表征学习,为疾病和认知表型预测提供了有前景的解决方案。