Skip to content
每日arXiv - 2025年12月17日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Complex Mathematical Expression Recognition: Benchmark, Large-Scale Dataset and Strong Baseline

Weikang Bai,Yongkun Du,Yuchen Su,Yazhen Xie,Zhineng Chen

Main category: cs.CV

TL;DR: 该论文针对复杂数学表达式识别难题,提出了CMER-Bench基准、大规模数据集MER-17M/CMER-3M、结构化数学语言表示方法,以及专门模型CMERNet,显著提升了复杂数学表达式的识别性能。

  • Motivation: 现有数学表达式识别方法在简单表达式上表现良好,但在处理包含多标记、多行的复杂数学表达式时性能显著下降,主要原因是现有公开训练数据集主要由简单样本组成,缺乏对复杂表达式的充分覆盖。
  • Method: 1) 构建CMER-Bench基准,将表达式分为简单、中等、复杂三个难度等级;2) 创建大规模数据集MER-17M和CMER-3M,强调复杂数学表达式的识别;3) 提出结构化数学语言表示方法,显式建模表达式的层次和空间结构;4) 基于编码器-解码器架构设计专门模型CMERNet。
  • Result: 实验结果表明,CMERNet仅用1.25亿参数,在CMER-Bench基准上显著优于现有的数学表达式识别模型和多模态大语言模型,特别是在复杂数学表达式识别方面表现突出。
  • Conclusion: 该研究通过构建专门的基准、大规模数据集、新的表示方法和专门模型,有效解决了复杂数学表达式识别的挑战,为开发准确、鲁棒的复杂数学表达式识别系统提供了重要基础。

[2] Human-AI Collaboration Mechanism Study on AIGC Assisted Image Production for Special Coverage

Yajie Yang,Yuqing Zhao,Xiaochao Xi,Yinan Zhu

Main category: cs.CV

TL;DR: 本文探讨了AI生成内容在新闻图像制作中的可控性路径,通过两个实验构建了人机协作的模块化流程,确保编辑保真度和语义对齐。

  • Motivation: AI生成内容在新闻图像制作中引发争议,主要问题包括虚假信息、真实性、语义保真度和可解释性。大多数AIGC工具是"黑箱",阻碍了内容准确性和语义对齐的双重需求,并引发了伦理、社会技术和信任困境。
  • Method: 进行了两个实验:实验1测试跨平台适应性,通过标准化提示在三个场景中揭示语义对齐、文化特异性和视觉真实性的差异;实验2构建了人机协作的模块化流程,结合高精度分割、语义对齐和风格调节,通过CLIP语义评分、NSFW/OCR/YOLO过滤和可验证内容凭证确保编辑保真度。
  • Result: 实验揭示了训练语料偏见和平台级过滤导致的语义对齐、文化特异性和视觉真实性差异;构建的模块化流程能够确保编辑保真度并保留语义表征。
  • Conclusion: 提出了新闻特殊报道中AIGC辅助图像制作的人机协作机制,并建议评估角色身份稳定性、文化表达准确性和用户-公众适宜性三个关键指标。

[3] DL3M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Md. Najib Hasan,Imran Ahmad,Sourav Basak Shuvo,Md. Mahadi Hasan Ankon,Sunanda Das,Nazmul Siddique,Hui Wang

Main category: cs.CV

TL;DR: 提出结合深度学习与LLM的医疗图像推理框架,用MobileCoAtNet进行胃镜图像分类,再用LLM生成临床解释,但发现当前LLM在医疗推理中仍不稳定不可靠。

  • Motivation: 现有医疗图像分类器缺乏解释能力,而大语言模型虽能生成临床文本但视觉推理能力弱且解释不稳定,存在模型所见与临床医生期望的推理类型之间的差距。
  • Method: 提出结合图像分类与结构化临床推理的框架:1) 设计MobileCoAtNet用于胃镜图像分类(8个胃相关类别);2) 用分类结果驱动多个LLM进行推理;3) 构建两个专家验证的基准(涵盖病因、症状、治疗、生活方式、随访护理)评估LLM。
  • Result: MobileCoAtNet在胃镜图像分类上达到高准确率;32个LLM评估显示强分类能提升解释质量,但所有模型均未达到人类稳定性水平,即使最佳LLM也会随提示变化而改变推理;当前LLM在高风险医疗决策中仍不可靠。
  • Conclusion: 深度学习与LLM结合可产生有用的临床叙述,但当前LLM仍不适合高风险医疗决策;该框架揭示了LLM的局限性,并为构建更安全的推理系统提供了路径。

[4] Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making

Siyuan Dai,Lunxiao Li,Kun Zhao,Eardi Lila,Paul K. Crane,Heng Huang,Dongkuan Xu,Haoteng Tang,Liang Zhan

Main category: cs.CV

TL;DR: 当前多模态大语言模型在医学决策任务上表现不佳,文本推理优于视觉或视觉文本结合,需要改进视觉理解能力。

  • Motivation: 尽管多模态大语言模型在通用视觉语言任务上表现出色,但在医学决策任务中表现不佳,需要研究其局限性并探索改进方法。
  • Method: 使用两个具有挑战性的数据集:三阶段阿尔茨海默病分类和MIMIC-CXR胸片分类,比较文本、视觉和多模态输入的推理性能,并探索三种改进策略:带推理注释的上下文学习、视觉描述后文本推理、视觉塔的少样本微调。
  • Result: 文本推理在医学决策任务中始终优于视觉或多模态推理,多模态输入甚至比纯文本表现更差,表明当前MLLMs缺乏扎实的视觉理解能力。
  • Conclusion: 当前多模态大语言模型在医学视觉理解方面存在局限性,需要改进视觉基础能力,文中提出的三种策略为医疗领域多模态决策提供了有前景的改进方向。

[5] STAR: STacked AutoRegressive Scheme for Unified Multimodal Learning

Jie Qin,Jiancheng Huang,Limeng Qiao,Lin Ma

Main category: cs.CV

TL;DR: STAR提出了一种堆叠自回归方案,通过分阶段(理解、生成、编辑)和多模块堆叠的方式,在保持现有理解能力的同时增强生成性能,实现了统一的多模态学习。

  • Motivation: 多模态大语言模型在追求通用人工智能中至关重要,但实现统一的多模态理解和生成目标存在挑战,主要由于优化冲突和性能权衡问题。需要在增强生成性能的同时保持现有的理解能力。
  • Method: STAR采用堆叠自回归方案,将多模态学习分解为理解、生成和编辑三个阶段。通过冻结基础自回归模型参数,逐步堆叠同构的自回归模块来避免跨任务干扰。同时引入高容量VQ增强图像表示粒度,采用隐式推理机制提升复杂条件下的生成质量。
  • Result: 实验表明STAR在GenEval(0.91)、DPG-Bench(87.44)和ImgEdit(4.34)上达到了最先进的性能,验证了其统一多模态学习的有效性。
  • Conclusion: STAR通过任务渐进式的堆叠自回归方案,成功解决了多模态学习中理解与生成的优化冲突,实现了性能的协同提升,为统一多模态学习提供了有效解决方案。

[6] Time-aware UNet and super-resolution deep residual networks for spatial downscaling

Mika Sipilä,Sabrina Maggio,Sandra De Iaco,Klaus Nordhausen,Monica Palma,Sara Taskinen

Main category: cs.CV

TL;DR: 本文提出将时间感知模块集成到SRDRN和UNet架构中,用于卫星臭氧数据的空间降尺度,显著提升了性能和收敛速度。

  • Motivation: 卫星大气污染物数据通常空间分辨率较低,限制了其在局地尺度环境分析和决策中的应用。需要将粗分辨率卫星数据转换为高分辨率场。
  • Method: 扩展两种深度学习架构(SRDRN和UNet),加入轻量级时间模块,使用正弦或径向基函数编码观测时间,并将时间特征与空间表示融合。
  • Result: 在意大利臭氧降尺度案例研究中,时间感知扩展相比基线版本显著提升了降尺度性能和收敛速度,同时仅略微增加计算复杂度。
  • Conclusion: 时间感知模块能有效提升卫星数据空间降尺度方法的性能,为局地尺度环境分析提供更高质量的数据。

[7] Nexels: Neurally-Textured Surfels for Real-Time Novel View Synthesis with Sparse Geometries

Victor Rong,Jan Held,Victor Chu,Daniel Rebain,Marc Van Droogenbroeck,Kiriakos N. Kutulakos,Andrea Tagliasacchi,David B. Lindell

Main category: cs.CV

TL;DR: 提出一种解耦几何与外观的紧凑表示方法,使用面元表示几何,结合全局神经场和逐基元颜色表示外观,相比3D高斯泼溅使用更少基元和内存,渲染更快且保持视觉质量。

  • Motivation: 尽管高斯泼溅在新视角合成中取得了令人印象深刻的结果,但即使场景几何简单,也需要数百万个基元来建模高纹理场景。现有方法在基元数量和内存使用上效率不高。
  • Method: 使用面元表示几何,外观通过全局神经场和逐基元颜色组合表示。神经场为每个像素纹理固定数量的基元,确保计算开销低。该方法解耦了几何和外观表示。
  • Result: 在室外场景中使用9.7倍更少的基元和5.5倍更少的内存,在室内场景中使用31倍更少的基元和3.7倍更少的内存。渲染速度是现有纹理基元方法的两倍,同时视觉质量更好。
  • Conclusion: 提出的解耦几何与外观的紧凑表示方法,在保持3D高斯泼溅感知质量的同时,显著减少了基元数量和内存使用,并提高了渲染速度,为高效的新视角合成提供了新方案。

[8] VajraV1 -- The most accurate Real Time Object Detector of the YOLO family

Naman Balbir Singh Makkar

Main category: cs.CV

TL;DR: VajraV1是一个新的实时目标检测模型,通过结合先前YOLO模型的有效设计选择,在保持竞争力的推理速度的同时,在COCO验证集上实现了最先进的准确率。

  • Motivation: 近年来实时目标检测领域取得了显著进展,出现了YOLOv10、YOLO11、YOLOv12和YOLOv13等模型。为了进一步提升性能,需要开发新的架构来超越现有的YOLO模型。
  • Method: VajraV1模型架构引入了对现有YOLO检测器的架构增强,结合了先前YOLO模型的有效设计选择,以在保持竞争力的推理速度的同时实现最先进的准确率。
  • Result: 在COCO验证集上,VajraV1各个版本都超越了对应的YOLO模型:Nano版达到44.3% mAP,Small版50.4% mAP,Medium版52.7% mAP,Large版53.7% mAP,Xlarge版56.2% mAP,均优于现有实时目标检测器。
  • Conclusion: VajraV1通过架构增强和有效设计选择的结合,在实时目标检测领域实现了最先进的性能,超越了所有现有的实时目标检测器。

[9] MoLingo: Motion-Language Alignment for Text-to-Motion Generation

Yannan He,Garvita Tiwari,Xiaohan Zhang,Pankaj Bora,Tolga Birdal,Jan Eric Lenssen,Gerard Pons-Moll

Main category: cs.CV

TL;DR: MoLingo是一个在连续潜在空间中进行去噪的文本到动作生成模型,通过语义对齐的潜在空间和交叉注意力文本调节,实现了最先进的人类动作生成效果。

  • Motivation: 当前文本到动作生成模型在连续潜在空间扩散方面存在两个关键问题:如何构建语义对齐的潜在空间以提高扩散效率,以及如何最佳地注入文本调节以确保动作紧密跟随描述。
  • Method: 提出语义对齐的动作编码器,使用帧级文本标签训练,使语义相似的潜在表示更接近;比较单令牌调节与多令牌交叉注意力方案,发现交叉注意力能提供更好的动作真实性和文本-动作对齐;结合自回归生成。
  • Result: 在标准指标和用户研究中,MoLingo在人类动作生成方面达到了新的最先进水平,实现了更真实的动作生成和更好的文本-动作对齐。
  • Conclusion: 通过语义对齐的潜在空间、自回归生成和交叉注意力文本调节,MoLingo显著提升了文本到动作生成的质量,为后续研究和下游应用提供了有力工具。

[10] Improvise, Adapt, Overcome -- Telescopic Adapters for Efficient Fine-tuning of Vision Language Models in Medical Imaging

Ujjwal Mishra,Vinita Shukla,Praful Hambarde,Amit Shukla

Main category: cs.CV

TL;DR: 提出Telescopic Adapters框架,通过深度感知缩放实现参数高效微调,在医学视觉语言分割模型中仅用61.3万可训练参数(比端到端微调少244倍)就能在多个医学数据集上取得优异性能。

  • Motivation: 传统微调方法在医学视觉语言分割模型上需要大量计算开销,现有参数高效微调方法在所有transformer层使用统一的适配器维度,导致参数分配不优和适应效率降低。
  • Method: 提出Telescopic Adapters框架,采用深度感知缩放策略,从浅层到深层transformer层逐步增加适配器容量。在CLIPSeg的视觉和文本编码器中集成轻量级瓶颈模块,根据层深度和语义相关性动态缩放适配器维度。
  • Result: 仅使用61.3万可训练参数(比端到端微调少244倍),在五个不同的医学数据集(息肉分割、皮肤病变检测、乳腺超声成像)上取得优异性能。消融研究表明深层需要比浅层更多的适应能力。
  • Conclusion: 该方法为医学视觉语言分割模型的高效微调建立了新范式,能够在资源受限的临床环境中部署,同时保持有竞争力的分割精度。

[11] Coarse-to-Fine Hierarchical Alignment for UAV-based Human Detection using Diffusion Models

Wenda Li,Meng Wu,Sungmin Eum,Heesung Kwon,Qing Qu

Main category: cs.CV

TL;DR: CFHA是一个三阶段扩散框架,通过全局风格迁移、局部细化和幻觉消除来缩小合成与真实无人机图像之间的域差距,提升人类检测性能。

  • Motivation: 无人机人类检测需要大量标注数据,但标注成本高且目标分布不断变化。合成数据虽成本低,但存在域差距问题,影响模型在真实场景的应用效果。
  • Method: 提出粗到细层次对齐框架:1)全局风格迁移:扩散模型对齐颜色、光照和纹理统计;2)局部细化:超分辨率扩散模型增强小物体细节;3)幻觉消除:过滤不符合真实世界属性的人类实例。
  • Result: 在公开的无人机Sim2Real检测基准测试中,方法显著提升检测精度,在Semantic-Drone基准上mAP50提升高达+14.1。消融研究证实了全局和局部阶段的互补作用。
  • Conclusion: CFHA通过层次化对齐策略有效缩小合成与真实图像域差距,为无人机人类检测提供了一种高效的域适应解决方案,同时保持原始合成标签的有效性。

[12] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

Jitesh Jain,Jialuo Li,Zixian Ma,Jieyu Zhang,Chris Dongjoo Kim,Sangho Lee,Rohun Tripathi,Tanmay Gupta,Christopher Clark,Humphrey Shi

Main category: cs.CV

TL;DR: 提出SAGE系统,实现长视频多轮推理与短视频单轮处理的灵活视频推理能力,通过合成数据训练和RL后训练提升性能,在超长视频任务上取得显著改进。

  • Motivation: 人类能够根据任务需求灵活选择浏览长视频或完整观看短视频,但现有视频推理模型通常需要一次性处理大量帧,资源消耗大且缺乏灵活性。需要开发能够灵活处理不同时长视频的推理系统。
  • Method: 1) 提出SAGE智能体系统,支持多轮推理处理长视频和单轮处理短视频;2) 使用Gemini-2.5-Flash构建合成数据生成管道训练协调器SAGE-MM;3) 提出有效的RL后训练方法培养any-horizon推理能力;4) 构建平均时长超过700秒的SAGE-Bench基准测试。
  • Result: 在开放式视频推理任务上取得高达6.1%的改进,在超过10分钟的长视频上获得8.2%的显著提升,验证了系统、数据和RL训练方法的有效性。
  • Conclusion: 成功开发了具有any-horizon推理能力的SAGE系统,通过合成数据生成和RL后训练实现了灵活的视频推理,在长视频任务上表现优异,为实际娱乐应用场景提供了有效解决方案。

[13] Route-DETR: Pairwise Query Routing in Transformers for Object Detection

Ye Zhang,Qi Chen,Wenyou Huang,Rui Liu,Zhengjian Kang

Main category: cs.CV

TL;DR: Route-DETR通过自适应成对路由解决DETR中查询竞争问题,使用抑制路由和委托路由机制,在训练时引入路由偏置而推理时不增加计算成本,显著提升检测性能。

  • Motivation: DETR虽然提供了端到端的目标检测方案,但存在查询竞争问题,多个查询会收敛到相似位置,导致冗余计算和效率低下。
  • Method: 提出Route-DETR,在解码器自注意力层引入自适应成对路由机制:1)使用查询间相似性、置信度和几何信息区分竞争查询和互补查询;2)设计抑制路由减少竞争查询间的重复;3)设计委托路由鼓励探索不同区域;4)通过可学习的低秩注意力偏置实现非对称查询交互;5)采用双分支训练策略,训练时包含路由偏置,推理时保持标准注意力。
  • Result: 在COCO和Cityscapes数据集上,Route-DETR在多个DETR基线上取得一致改进:在ResNet-50上比DINO提升+1.7% mAP,在Swin-L上达到57.6% mAP,超越了先前的最先进模型。
  • Conclusion: Route-DETR通过自适应路由机制有效解决了DETR中的查询竞争问题,在保持推理效率的同时显著提升了检测性能,为端到端目标检测提供了更高效的解决方案。

[14] KLO-Net: A Dynamic K-NN Attention U-Net with CSP Encoder for Efficient Prostate Gland Segmentation from MRI

Anning Tian,Byunghyun Ko,Kaichen Qu,Mengyuan Liu,Jeongkyu Lee

Main category: cs.CV

TL;DR: KLO-Net:一种用于MRI前列腺分割的动态K近邻注意力U-Net,通过CSP编码器和动态K-NN注意力机制实现高效分割

  • Motivation: 临床工作站上实时部署前列腺MRI分割常受计算负载和内存占用的限制,而基于深度学习的前列腺分割方法因解剖结构变异性大而具有挑战性
  • Method: 提出KLO-Net,结合动态K-NN注意力机制(自适应确定每个空间位置的注意力连接数)和CSP编码器(减少计算负载和内存消耗)的U-Net架构
  • Result: 在PROMISE12和PROSTATEx两个公开数据集上的实验表明,该模型在计算效率和分割质量方面具有优势
  • Conclusion: KLO-Net能够有效解决前列腺MRI分割中的计算效率问题,同时保持可靠的分割精度,适合临床工作站实时部署

[15] An evaluation of SVBRDF Prediction from Generative Image Models for Appearance Modeling of 3D Scenes

Alban Gauthier,Valentin Deschaintre,Alexandre Lanvin,Fredo Durand,Adrien Bousseau,George Drettakis

Main category: cs.CV

TL;DR: 该论文分析了在快速外观建模流程中SVBRDF预测的挑战与机遇,比较了不同神经网络架构和条件设置,发现标准UNet在准确性和一致性方面具有竞争力。

  • Motivation: 随着深度生成模型的发展,数字内容创作正在经历深刻变革。结合条件图像生成器和SVBRDF预测网络,可以快速为3D场景生成SVBRDF纹理图谱。然而,单视图SVBRDF预测可能存在多视图不一致问题,而生成的RGB图像及其条件模态可能为SVBRDF估计提供额外信息。
  • Method: 论文比较了不同的神经网络架构和条件设置,评估它们在SVBRDF预测中的表现。研究分析了在快速外观建模流程中,如何利用生成的RGB图像及其条件模态来提升SVBRDF估计的准确性和一致性。
  • Result: 研究发现,令人惊讶的是,标准的UNet架构与更复杂的设计相比具有竞争力,能够在准确性和一致性方面达到良好表现。论文识别了能够实现高准确性和一致性的设计选择。
  • Conclusion: 该研究为快速外观建模流程中的SVBRDF预测提供了重要见解,表明相对简单的架构如UNet在实际应用中可能足够有效,同时分析了多视图一致性和生成图像条件带来的机遇与挑战。

[16] From Unlearning to UNBRANDING: A Benchmark for Trademark-Safe Text-to-Image Generation

Dawid Malarz,Artur Kasymov,Filip Manjak,Maciej Zięba,Przemysław Spurek

Main category: cs.CV

TL;DR: 提出"去品牌化"新任务,旨在从生成图像中精细移除商标和结构性品牌特征,同时保持语义连贯性,并引入基于VLM的评估指标来检测显性和隐性品牌特征。

  • Motivation: 文本到图像扩散模型的快速发展引发了对未经授权复制商标内容的担忧。现有方法主要针对一般概念(如风格、名人),但无法处理具体的品牌标识。品牌识别是多维度的,不仅包括显性商标,还包含结构性特征(如汽车前格栅)。
  • Method: 引入"去品牌化"新任务,构建全面的基准数据集。提出基于视觉语言模型(VLM)的新型评估指标,采用问答框架来探测图像中的显性商标和隐性整体品牌特征。
  • Result: 随着模型保真度提高(SDXL、FLUX比Stable Diffusion更容易合成品牌标识),去品牌化挑战的紧迫性凸显。VLM指标验证的结果确认去品牌化是一个独特且具有实际意义的问题,需要专门技术。
  • Conclusion: 去品牌化是一个需要专门技术解决的独特实际问题,提出的VLM评估指标能有效检测显性和隐性品牌特征,为相关研究提供了新的方向和评估框架。

[17] Quality-Driven and Diversity-Aware Sample Expansion for Robust Marine Obstacle Segmentation

Miaohua Zhang,Mohammad Ali Armin,Xuesong Li,Sisi Liang,Lars Petersson,Changming Sun,David Ahmedt-Aristizabal,Zeeshan Hayder

Main category: cs.CV

TL;DR: 提出一种质量驱动、多样性感知的样本扩展流程,通过推理时生成合成训练数据来增强海洋障碍物检测的鲁棒性。

  • Motivation: 海洋障碍物检测面临恶劣条件(如太阳眩光、雾、快速变化的波浪模式)导致的图像质量下降,以及海洋数据集稀缺和结构重复导致的训练数据多样性不足问题。现有基于掩码条件的扩散模型在低熵掩码和提示条件下往往产生低多样性输出,限制了其提升模型鲁棒性的能力。
  • Method: 提出一个无需重新训练扩散模型的推理时训练数据生成框架,包含两个关键组件:(1) 类感知风格库构建高熵、语义基础的提示;(2) 自适应退火采样器扰动早期条件,同时通过COD引导的比例控制器调节扰动以在保持布局保真度的同时提升多样性。
  • Result: 在海洋障碍物基准测试中,使用这些受控合成样本增强训练数据,能够持续提升多个骨干网络的语义分割性能,并增加稀有类和纹理敏感类的视觉变化。
  • Conclusion: 该质量驱动、多样性感知的样本扩展流程能够有效生成多样化的合成训练数据,显著提升海洋障碍物检测模型在恶劣条件下的鲁棒性和分割性能。

[18] XAI-Driven Diagnosis of Generalization Failure in State-Space Cerebrovascular Segmentation Models: A Case Study on Domain Shift Between RSNA and TopCoW Datasets

Youssef Abuzeid,Shimaa El-Bana,Ahmad Al-Kabbany

Main category: cs.CV

TL;DR: 本文提出一种两阶段方法,使用可解释AI诊断SSM模型在脑血管分割中的泛化失败,发现模型在目标域中注意力机制偏离真实解剖特征,证明了XAI在识别数据集偏差方面的价值。

  • Motivation: 深度学习模型在医学影像中的临床部署受到域偏移的严重阻碍,模型在外部数据集上性能急剧下降。这需要超越简单性能指标,深入理解失败原因,使可解释AI成为医学图像分析中重要的诊断工具。
  • Method: 采用两阶段方法:首先量化源数据集(RSNA CTA Aneurysm)和目标数据集(TopCoW Circle of Willis CT)之间的域差距;然后使用Seg-XRes-CAM诊断泛化失败原因,通过测量注意力图与真实分割、注意力图与模型预测掩码之间的重叠来量化模型关注点。
  • Result: 模型在源数据集上Dice分数为0.8604,在目标数据集上骤降至0.2902。分析显示模型泛化失败是因为其注意力机制在目标域中放弃了真实解剖特征,注意力与真实血管的重叠度低(IoU~0.101),但仍与其自身错误预测对齐(IoU~0.282),表明模型学习了虚假相关性。
  • Conclusion: 可解释AI是识别新兴架构中数据集偏差的强大诊断工具。模型泛化失败的根本原因是注意力机制在目标域中偏离了真实解剖特征,这为改进模型泛化能力提供了重要见解。

[19] FocalComm: Hard Instance-Aware Multi-Agent Perception

Dereje Shenkut,Vijayakumar Bhagavatula

Main category: cs.CV

TL;DR: FocalComm是一个专注于交换困难实例特征的多智能体协作感知框架,通过硬实例挖掘和查询融合技术,显著提升了行人检测性能。

  • Motivation: 现有协作感知方法主要优化车辆检测指标,对行人等安全关键的小物体检测效果不佳,且采用全特征交换而非仅交换有助于减少漏检的关键特征。
  • Method: 提出FocalComm框架:1) 可学习的渐进硬实例挖掘模块提取困难实例特征;2) 基于查询的特征级融合技术动态加权这些特征。
  • Result: 在V2X-Real和DAIR-V2X两个真实数据集上超越现有协作感知方法,在车辆和基础设施协作设置中均表现优异,特别是在V2X-Real的行人检测上有显著性能提升。
  • Conclusion: FocalComm通过专注于交换困难实例特征,有效提升了协作感知系统对安全关键小物体的检测能力,为自动驾驶安全提供了更好的解决方案。

[20] Repurposing 2D Diffusion Models for 3D Shape Completion

Yao He,Youngjoong Kwon,Tiange Xiang,Wenxiao Cai,Ehsan Adeli

Main category: cs.CV

TL;DR: 提出一个框架,将2D扩散模型适配用于从不完整点云进行3D形状补全,通过引入Shape Atlas这一紧凑的2D表示来弥合3D输入与2D潜在空间之间的模态差距。

  • Motivation: 虽然文本到图像的扩散模型在丰富的2D数据上取得了显著成功,但3D扩散模型由于高质量3D数据集的稀缺性以及3D输入与2D潜在空间之间持续的模态差距而落后。需要一种方法能够充分利用预训练2D扩散模型的生成能力,同时解决模态对齐问题。
  • Method: 引入Shape Atlas——一种紧凑的3D几何2D表示,它能够充分利用预训练2D扩散模型的生成能力,并在条件输入和输出空间之间对齐模态,从而实现更有效的条件控制。这种统一的2D表述便于从有限的3D数据中学习,并产生高质量、保留细节的形状补全。
  • Result: 在PCN和ShapeNet-55数据集上验证了方法的有效性,能够产生高质量的细节保留形状补全。还展示了从完成的点云创建艺术家制作的网格的下游应用,进一步证明了方法的实用性。
  • Conclusion: 提出的框架通过Shape Atlas表示成功地将2D扩散模型适配用于3D形状补全任务,克服了3D数据稀缺和模态差距的限制,为3D生成任务提供了一种实用且有效的解决方案。

[21] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

Shufan Li,Jiuxiang Gu,Kangning Liu,Zhe Lin,Zijun Wei,Aditya Grover,Jason Kuen

Main category: cs.CV

TL;DR: Sparse-LaViDa通过动态截断推理步骤中的冗余掩码标记来加速掩码离散扩散模型,同时引入寄存器标记保持生成质量,实现2倍加速且不损失性能。

  • Motivation: 掩码离散扩散模型(MDMs)在多模态任务中表现出色,但由于需要在每个采样步骤重复处理冗余的掩码标记,导致推理速度不理想。需要一种方法在保持生成质量的同时加速推理过程。
  • Method: 提出Sparse-LaViDa框架:1)动态截断每个推理步骤中不必要的掩码标记;2)引入专门的寄存器标记作为截断标记的紧凑表示以保持生成质量;3)设计专门的注意力掩码,确保训练与推理过程的一致性。
  • Result: 基于最先进的统一MDM模型LaViDa-O,Sparse-LaViDa在文本到图像生成、图像编辑和数学推理等多种任务上实现了高达2倍的加速,同时保持了生成质量。
  • Conclusion: Sparse-LaViDa通过动态稀疏化策略有效解决了MDM推理速度瓶颈问题,在保持性能的同时显著加速推理过程,为高效的多模态生成模型提供了新思路。

[22] KFS-Bench: Comprehensive Evaluation of Key Frame Sampling in Long Video Understanding

Zongyao Li,Kengo Ishida,Satoshi Yamazaki,Xiaotong Ji,Jianquan Liu

Main category: cs.CV

TL;DR: KFS-Bench是首个针对长视频问答中关键帧采样的基准测试,提供多场景标注,可直接评估采样策略质量,并提出了新的采样质量指标和自适应平衡采样方法。

  • Motivation: 现有长视频问答研究仅通过问答准确率间接评估帧选择质量,缺乏直接评估关键帧采样策略的基准。关键帧采样对高效长视频理解至关重要,但缺乏专门的评估工具。
  • Method: 1) 构建KFS-Bench基准,包含多场景标注,可直接分析采样方法在整个长视频中捕获关键内容的能力;2) 设计新的采样质量指标,综合考虑采样精度、场景覆盖和采样平衡;3) 开发基于问题-视频相关性的自适应平衡采样方法,平衡采样多样性与问题-帧相似性。
  • Result: 研究发现采样精度、场景覆盖和采样平衡是影响问答性能的关键因素。提出的自适应平衡采样方法在关键帧采样和问答性能上均表现优异。新设计的采样质量指标与问答准确率有良好相关性。
  • Conclusion: KFS-Bench填补了长视频问答中关键帧采样评估的空白,为直接评估采样策略提供了标准基准。提出的自适应平衡采样方法通过平衡多样性与相关性,显著提升了采样质量和问答性能。

[23] Deep Learning Perspective of Scene Understanding in Autonomous Robots

Afia Maham,Dur E Nayab Tashfa

Main category: cs.CV

TL;DR: 本文综述了深度学习在自主机器人场景理解中的应用,涵盖目标检测、语义/实例分割、深度估计、3D重建和视觉SLAM等领域,强调这些技术如何改进传统几何模型的局限性,并探讨了当前问题与未来研究方向。

  • Motivation: 传统几何模型在自主机器人场景理解中存在局限性,特别是在处理遮挡、纹理缺失表面和实时深度感知方面。深度学习技术能够克服这些限制,提升环境语义理解能力,从而改善机器人的决策制定、导航和交互能力。
  • Method: 采用文献综述方法,系统分析深度学习在多个场景理解任务中的应用:包括目标检测、语义分割、实例分割、深度估计、3D重建和视觉SLAM。重点关注这些技术如何整合到动态和非结构化环境中。
  • Result: 深度学习技术显著提升了自主机器人的场景理解能力,能够更好地处理遮挡和纹理缺失表面,实现实时深度感知,增强语义推理。当这些感知模块集成到动态环境中时,能有效改善决策制定、导航和交互性能。
  • Conclusion: 深度学习在自主机器人场景理解中展现出巨大潜力,但仍存在需要解决的问题。本文为基于学习的场景理解技术提供了系统综述,并指出了未来的研究方向,以推动该领域的进一步发展。

[24] Unleashing the Power of Image-Tabular Self-Supervised Learning via Breaking Cross-Tabular Barriers

Yibing Fu,Yunpeng Zhao,Zhitao Zeng,Cheng Chen,Yueming Jin

Main category: cs.CV

TL;DR: CITab是一个新颖的自监督学习框架,通过语义感知的表格建模和原型引导的混合线性层,实现跨表格的多模态医学图像-表格数据表示学习。

  • Motivation: 现有自监督学习方法在医学图像和表格数据的多模态学习中存在局限性,主要因为其僵化的表格建模机制无法有效处理异质表格数据,导致模型局限于特定数据队列,难以学习跨队列的可迁移医学知识。
  • Method: 提出CITab框架:1)从语义感知角度设计表格建模机制,整合列标题作为语义线索;2)提出原型引导的混合线性层模块,用于表格特征专业化处理,有效应对表格数据的异质性并探索底层医学概念。
  • Result: 在阿尔茨海默病诊断任务上,使用三个公开数据队列(共4,461名受试者)进行综合评估,实验结果表明CITab优于现有最先进方法。
  • Conclusion: CITab为有效且可扩展的跨表格多模态学习铺平了道路,能够学习强大的多模态特征表示,促进可迁移医学知识的学习和利用多数据源进行预训练的可扩展性。

[25] Robust Single-shot Structured Light 3D Imaging via Neural Feature Decoding

Jiaheng Li,Qiyu Dai,Lihan Li,Praneeth Chakravarthula,He Sun,Baoquan Chen,Wenzheng Chen

Main category: cs.CV

TL;DR: 提出基于学习的单次结构光解码框架,在特征空间而非像素域进行匹配,结合单目深度估计先验进行细化,使用物理渲染合成数据训练,在真实室内场景表现优异

  • Motivation: 传统结构光方法在像素域进行匹配,在遮挡、精细结构、非朗伯表面等挑战场景下鲁棒性有限,需要更稳健的对应关系解码方法
  • Method: 从投影图案和红外图像提取神经特征,在特征空间构建代价体,结合几何先验进行匹配;引入深度细化模块利用大规模单目深度估计模型的强先验;开发基于物理的结构光渲染管道生成近百万合成数据
  • Result: 仅用合成数据训练即可很好泛化到真实室内环境,能处理多种图案类型无需重新训练,性能优于商业结构光系统和被动RGB立体深度估计方法
  • Conclusion: 基于学习的特征空间匹配方法显著提升了结构光解码的鲁棒性和精度,为3D成像提供了更可靠的解决方案

[26] ACE-SLAM: Scene Coordinate Regression for Neural Implicit Real-Time SLAM

Ignacio Alzugaray,Marwan Taher,Andrew J. Davison

Main category: cs.CV

TL;DR: 提出首个基于场景坐标回归(SCR)的实时神经隐式RGB-D SLAM系统,通过轻量网络直接映射2D图像特征到3D全局坐标,实现高效低内存的隐式地图表示

  • Motivation: 探索将场景坐标回归(SCR)作为神经SLAM核心隐式地图表示的新范式,SCR网络能提供高效低内存的3D地图表示、实现极快速重定位、并天然保护隐私,特别适合神经隐式SLAM
  • Method: 设计专门用于实时SLAM的新型SCR架构,将SCR集成到实时SLAM流程中,系统支持稀疏和稠密特征,能在动态环境中可靠运行而无需特殊适配
  • Result: 在合成和真实世界基准测试中展示了与最先进方法竞争的性能,是首个在神经隐式RGB-D SLAM中实现严格实时性的系统
  • Conclusion: 基于SCR的神经隐式SLAM系统简单灵活,在实时性、内存效率和隐私保护方面具有优势,为神经SLAM提供了新的有效范式

[27] ASAP-Textured Gaussians: Enhancing Textured Gaussians with Adaptive Sampling and Anisotropic Parameterization

Meng Wei,Cheng Zhang,Jianmin Zheng,Hamid Rezatofighi,Jianfei Cai

Main category: cs.CV

TL;DR: 提出ASAP Textured Gaussians方法,通过自适应采样和各向异性参数化,显著提升纹理高斯方法的效率与质量平衡

  • Motivation: 现有纹理高斯方法存在两个关键限制:1)纹理定义在规范空间中,导致对低贡献区域进行低效采样,浪费纹理容量;2)纹理参数化在所有高斯上均匀分配,不考虑视觉复杂性,导致过度参数化
  • Method: 采用两种简单有效的策略:1)基于高斯密度分布的自适应采样;2)根据渲染误差分配纹理资源的误差驱动各向异性参数化
  • Result: ASAP Textured Gaussians显著改善了质量效率权衡,使用更少的纹理参数实现了高保真渲染
  • Conclusion: 通过解决现有纹理高斯方法的采样效率和参数分配问题,提出的自适应方法在保持高质量的同时大幅减少了内存使用

[28] ChartAgent: A Chart Understanding Framework with Tool Integrated Reasoning

Boran Wang,Xinming Wang,Yi Chen,Xiang Li,Jian Xu,Jing Yuan,Chenglin Liu

Main category: cs.CV

TL;DR: ChartAgent:基于工具集成推理的图表理解框架,通过模块化工具库和结构化证据包,显著提升稀疏标注下的鲁棒性和可解释性

  • Motivation: 现有多模态大语言模型在图表理解中过度依赖显式文本标注,当关键数字缺失时性能显著下降,需要更鲁棒和可解释的解决方案
  • Method: 提出ChartAgent框架,基于工具集成推理,将复杂图表分析分解为可观察、可重放的步骤,使用包含关键元素检测、实例分割、OCR等十多个核心工具的模块化工具库
  • Result: ChartAgent在稀疏标注设置下显著提升鲁棒性,通过结构化证据包提供可追溯、可复现的中间输出支持最终结论
  • Conclusion: ChartAgent为可信赖和可扩展的图表理解系统提供了实用路径,超越了黑盒范式,实现了透明和可验证的推理过程

[29] OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving

Zhenguo Zhang,Haohan Zhen,Yishen Wang,Le Xu,Tianchen Deng,Xuefeng Chen,Qu Chen,Bo Zhang,Wuxiong Huang

Main category: cs.CV

TL;DR: OmniDrive-R1是一个端到端的视觉语言模型框架,通过交错多模态思维链机制统一感知与推理,采用强化学习驱动的视觉定位能力,无需密集标注即可实现自动驾驶场景下的可靠推理。

  • Motivation: 当前视觉语言模型在自动驾驶等安全关键领域存在可靠性问题,特别是物体幻觉问题。现有方法存在感知与推理阶段解耦、依赖昂贵密集标注等根本缺陷,需要一种端到端的解决方案。
  • Method: 提出OmniDrive-R1框架,采用交错多模态思维链机制统一感知与推理。核心创新是强化学习驱动的视觉定位能力,通过两阶段强化学习训练流程和Clip-GRPO算法实现,该算法引入无标注、基于过程的定位奖励机制。
  • Result: 在DriveLMM-o1数据集上的实验显示显著改进:相比基线Qwen2.5VL-7B,整体推理分数从51.77%提升到80.35%,最终答案准确率从37.81%提升到73.62%。
  • Conclusion: OmniDrive-R1通过端到端统一感知与推理、强化学习驱动的视觉定位以及无标注训练方法,有效解决了自动驾驶中视觉语言模型的可靠性问题,显著提升了推理性能。

[30] SELECT: Detecting Label Errors in Real-world Scene Text Data

Wenjun Liu,Qian Wu,Yifeng Hu,Yuke Li

Main category: cs.CV

TL;DR: SELECT是一种利用多模态训练检测真实场景文本数据集中标签错误的新方法,通过图像-文本编码器和字符级分词器解决变长序列标签、标签序列不对齐和字符级错误问题,并引入SSLC模拟真实错误场景进行训练。

  • Motivation: 真实场景文本数据集存在标签错误问题,现有方法难以处理变长序列标签、标签序列不对齐和字符级错误,需要开发能有效检测这些错误并提升场景文本识别准确性的方法。
  • Method: 1. 使用图像-文本编码器和字符级分词器处理变长序列标签;2. 引入相似性序列标签损坏(SSLC)方法,在训练时故意引入错误模拟真实场景,考虑字符视觉相似性并允许序列长度变化;3. 多模态训练框架。
  • Result: SELECT在检测标签错误方面优于现有方法,能有效提升场景文本识别(STR)在真实文本数据集上的准确性,展示了实际应用价值。
  • Conclusion: SELECT是首个成功处理变长标签的真实场景文本数据集标签错误检测方法,通过多模态训练和SSLC技术有效解决了现有方法的局限性,具有重要的实际应用意义。

[31] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

HyperAI Team,Yuchen Liu,Kaiyang Han,Zhiqiang Xia,Yuhang Dong,Chen Song,Kangyu Tang,Jiaming Xu,Xiushi Feng,WenXuan Yu,Li Peng,Mingyang Wang,Kai Wang,Changpeng Yang,Yang Li,Haoyu Lu,Hao Wang,Bingna Xu,Guangyao Liu,Long Huang,Kaibin Guo,Jinyang Wu,Dan Wu,Hongzhen Wang,Peng Zhou,Shuai Nie,Shande Wang,Runyu Shi,Ying Huang

Main category: cs.CV

TL;DR: HyperVL:针对设备端推理的高效多模态大语言模型,通过图像分块策略限制峰值内存,引入视觉分辨率压缩器和双重一致性学习,在保持性能的同时显著降低延迟和功耗。

  • Motivation: 当前多模态大语言模型虽然具备强大的感知和推理能力,但计算和内存需求高,难以直接部署在设备端环境。标准Vision Transformer编码器在处理高分辨率输入时存在延迟和内存消耗过高的问题。
  • Method: 1. 采用图像分块策略限制峰值内存使用;2. 引入视觉分辨率压缩器(VRC)自适应预测最佳编码分辨率以消除冗余计算;3. 提出双重一致性学习(DCL)在多尺度ViT编码器之间对齐,实现在共享LLM下动态切换视觉分支。
  • Result: 在多个基准测试中,HyperVL在同等规模模型中实现了最先进的性能。在实际移动设备上显著降低了延迟和功耗,证明了其在设备端多模态推理的实用性。
  • Conclusion: HyperVL通过创新的效率优化技术,成功解决了多模态大语言模型在设备端部署的挑战,为实际应用提供了可行的解决方案。

[32] FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling

Kim Sung-Bin,Joohyun Chang,David Harwath,Tae-Hyun Oh

Main category: cs.CV

TL;DR: FacEDiT将说话人脸编辑和生成统一为语音条件面部运动填充任务,提出基于扩散Transformer的框架,支持局部编辑并确保平滑过渡,同时引入首个说话人脸编辑基准数据集。

  • Motivation: 传统上说话人脸编辑和生成被视为独立任务,缺乏统一框架。本文旨在将两者统一为语音条件面部运动填充的自监督预训练任务,实现更灵活的面部运动编辑和生成。
  • Method: 提出FacEDiT框架:基于扩散Transformer和流匹配训练,受掩码自编码器启发,学习在周围运动和语音条件下合成掩码面部运动。采用偏置注意力机制和时间平滑约束增强边界连续性和唇部同步。
  • Result: FacEDiT能够实现准确、语音对齐的面部编辑,保持强身份特征和视觉连续性,同时在说话人脸生成任务上表现出良好的泛化能力。提出的FacEDiTBench数据集为评估提供了标准基准。
  • Conclusion: 说话人脸编辑和生成可以作为语音条件运动填充的子任务统一处理,FacEDiT框架通过自监督学习实现了灵活的面部运动编辑和生成,为相关研究提供了新的视角和基准。

[33] Real-time prediction of workplane illuminance distribution for daylight-linked controls using non-intrusive multimodal deep learning

Zulin Zhuang,Yu Bian

Main category: cs.CV

TL;DR: 提出基于多模态深度学习的实时室内工作面照度预测框架,通过仅分析侧窗区域图像特征,适用于动态占用空间,在广州实地实验中取得高精度预测效果。

  • Motivation: 日光联动控制(DLCs)在建筑节能方面潜力巨大,但现有室内日光预测研究多针对静态场景,无法适应动态占用的室内空间。需要开发能够实时准确预测工作面照度分布的非侵入式方法。
  • Method: 提出多模态深度学习框架,从非侵入式图像中提取时空特征预测室内工作面照度分布。关键创新是仅从侧窗区域提取图像特征而非室内像素,使方法适用于动态占用空间。在广州测试房间进行实地实验,收集17,344个样本用于模型训练和验证。
  • Result: 模型在同分布测试集上达到R2 > 0.98、RMSE 0.82、RMSE < 0.17,显示出高准确性和可接受的时间泛化能力。
  • Conclusion: 该多模态深度学习框架能够实时准确预测室内工作面照度分布,仅依赖侧窗区域图像特征使其适用于动态占用空间,为日光联动控制提供了有效的实时预测工具,具有实际应用价值。

[34] Bridging Fidelity-Reality with Controllable One-Step Diffusion for Image Super-Resolution

Hao Chen,Junyang Chen,Jinshan Pan,Jiangxin Dong

Main category: cs.CV

TL;DR: CODSR是一个可控的一步扩散网络,用于图像超分辨率,通过LQ引导特征调制、区域自适应生成先验激活和文本匹配引导策略,解决了现有方法在保真度、生成先验激活和文本语义对齐方面的限制。

  • Motivation: 现有基于扩散的一步超分辨率方法存在三个关键限制:1) 由于低质量输入压缩编码导致的信息损失造成保真度性能下降;2) 生成先验的区域区分性激活不足;3) 文本提示与其对应语义区域之间的不对齐。
  • Method: 提出CODSR可控一步扩散网络:1) LQ引导特征调制模块,利用低质量输入的原始未压缩信息为扩散过程提供高保真条件;2) 区域自适应生成先验激活方法,在不牺牲局部结构保真度的情况下增强感知丰富度;3) 文本匹配引导策略,充分利用文本提示的条件潜力。
  • Result: 大量实验表明,CODSR在高效一步推理的情况下,相比最先进方法实现了卓越的感知质量和有竞争力的保真度。
  • Conclusion: CODSR通过解决现有一步扩散超分辨率方法的三个关键限制,在保持高效推理的同时,显著提升了图像超分辨率的感知质量和保真度性能。

[35] SDAR-VL: Stable and Efficient Block-wise Diffusion for Vision-Language Understanding

Shuang Cheng,Yuhua Jiang,Zineng Zhou,Dawei Liu,Wang Tao,Linfeng Zhang,Biqing Qi,Bowen Zhou

Main category: cs.CV

TL;DR: SDAR-VL首次将分块离散扩散系统应用于大规模视觉语言理解,通过集成框架解决训练成本高、收敛慢和不稳定问题,在21个基准测试中超越传统分块扩散,匹配或超越自回归基线。

  • Motivation: 分块离散扩散在并行生成和因果依赖建模之间提供了良好平衡,但实际应用受到高训练成本、收敛慢和不稳定性的限制,使其落后于自回归基线。需要解决这些限制,使分块扩散成为实用的视觉语言建模骨干。
  • Method: 提出了SDAR-VL集成训练框架,包含三个组件:1) 异步分块噪声调度,多样化批次内监督;2) 有效掩码比例缩放,在随机掩码下实现无偏损失归一化;3) 渐进式Beta噪声课程,增加有效掩码覆盖同时保持破坏多样性。
  • Result: 在21个单图像、多图像和视频基准测试中,SDAR-VL在训练效率、收敛稳定性和任务性能上一致优于传统分块扩散。在匹配设置下,匹配或超越了LLaVA-OneVision等自回归基线和LLaDA-V全局扩散基线。
  • Conclusion: SDAR-VL确立了分块离散扩散作为视觉语言理解的实用骨干,首次在大规模视觉语言理解中系统应用分块扩散,并解决了其训练挑战,实现了与自回归基线相当或更好的性能。

[36] GaussianPlant: Structure-aligned Gaussian Splatting for 3D Reconstruction of Plants

Yang Yang,Risa Shinoda,Hiroaki Santo,Fumio Okura

Main category: cs.CV

TL;DR: 提出GaussianPlant方法,基于3D高斯泼溅技术,从多视角图像中联合恢复植物外观和内部结构,实现高保真外观重建和准确结构提取。

  • Motivation: 传统3DGS能重建场景外观用于新视角合成,但缺乏对植物内部结构(如分支模式)的表示,限制了在植物表型分析等任务中的应用。
  • Method: 提出分层3DGS表示GaussianPlant,使用结构基元(StPs)显式表示枝干和叶片几何(圆柱体和圆盘),外观基元(ApPs)表示外观。通过自组织方式优化StP属性,ApPs绑定到StPs,使用重渲染损失和梯度流联合优化。
  • Result: 实验表明GaussianPlant通过ApPs实现高保真外观重建,通过StPs实现准确结构重建,能够提取分支结构和叶片实例。
  • Conclusion: GaussianPlant方法成功实现了植物外观和结构的联合重建,为植物表型分析等应用提供了有效的解决方案。

[37] ProtoFlow: Interpretable and Robust Surgical Workflow Modeling with Learned Dynamic Scene Graph Prototypes

Felix Holm,Ghazal Ghazaei,Nassir Navab

Main category: cs.CV

TL;DR: ProtoFlow:基于动态场景图原型的可解释手术工作流分析框架,在数据稀缺场景下表现优异

  • Motivation: 手术识别需要高标注成本、数据稀缺且缺乏可解释模型,现有场景图方法未能充分发挥潜力,需要更鲁棒、可解释的手术工作流分析方法
  • Method: 采用图神经网络编码器-解码器架构,结合自监督预训练和原型微调,学习动态场景图原型来捕捉重复的临床有意义手术交互模式
  • Result: 在CAT-SG数据集上超越标准GNN基线,在少样本场景下表现优异(仅需1个手术视频),学习到的原型能识别不同手术子技术并提供可解释的工作流偏差分析
  • Conclusion: ProtoFlow将鲁棒表示学习与内在可解释性结合,为开发更透明、可靠、数据高效的AI系统迈出重要一步,加速临床在手术培训、实时决策支持和流程优化中的应用

[38] Quality-Aware Framework for Video-Derived Respiratory Signals

Nhi Nguyen,Constantino Álvarez Casado,Le Nguyen,Manuel Lage Cañellas,Miguel Bordallo López

Main category: cs.CV

TL;DR: 提出一个基于质量感知的预测框架,通过整合多种信号源和动态可靠性评估,提高视频呼吸率估计的准确性。

  • Motivation: 视频呼吸率估计常因不同提取方法的信号质量不一致而不可靠,需要一种能整合异质信号源并动态评估可靠性的方法。
  • Method: 从面部远程光电容积描记(rPPG)、上半身运动和深度学习管道提取10种信号,使用四种频谱估计器分析,利用分段质量指标训练机器学习模型预测准确性或选择最可靠信号,实现自适应信号融合和质量分段过滤。
  • Result: 在三个公共数据集上的实验表明,该框架在大多数情况下比单一方法获得更低的呼吸率估计误差,性能提升取决于数据集特性。
  • Conclusion: 质量驱动的预测建模有潜力提供可扩展和可泛化的视频呼吸监测解决方案。

[39] AnchorHOI: Zero-shot Generation of 4D Human-Object Interaction via Anchor-based Prior Distillation

Sisi Dai,Kai Xu

Main category: cs.CV

TL;DR: AnchorHOI是一个利用视频扩散模型先验进行4D人-物交互生成的新框架,通过锚点引导策略解决高维优化挑战,在多样性和泛化性上优于现有方法。

  • Motivation: 现有方法存在局限性:监督方法受限于4D HOI数据集稀缺,而零样本方法仅使用图像扩散模型,交互线索提取不足。需要更有效的框架来利用混合先验进行4D HOI生成。
  • Method: 提出AnchorHOI框架:1) 引入基于锚点的先验蒸馏策略,构建交互感知锚点;2) 设计两种专用锚点:锚点NeRF用于表达性交互组合,锚点关键点用于真实运动合成;3) 采用可处理的两步生成过程。
  • Result: 大量实验表明,AnchorHOI在多样性和泛化性方面优于先前方法,能够生成更高质量的4D人-物交互序列。
  • Conclusion: AnchorHOI通过有效利用视频扩散模型先验和锚点引导策略,成功解决了4D HOI生成中的挑战,为多样化交互场景提供了可扩展的解决方案。

[40] OUSAC: Optimized Guidance Scheduling with Adaptive Caching for DiT Acceleration

Ruitong Sun,Tianze Yang,Wei Niu,Jin Sun

Main category: cs.CV

TL;DR: OUSAC通过优化引导调度和自适应缓存,在保持生成质量的同时显著加速扩散模型,减少高达82%的无条件前向计算。

  • Motivation: 扩散模型生成高质量图像但计算成本高,Classifier-Free Guidance (CFG) 虽然提升质量但需要双倍计算(条件+无条件前向)。现有缓存方法假设固定引导尺度,无法适应动态引导模式。
  • Method: 两阶段方法:1) 使用进化算法联合优化跳过哪些时间步和使用什么引导尺度,减少无条件前向;2) 引入自适应秩分配,针对不同transformer块在动态条件下调整校准。
  • Result: OUSAC显著优于现有加速方法:DiT-XL/2上节省53%计算同时质量提升15%;PixArt-alpha上节省60%计算同时质量提升16.1%;FLUX上实现5倍加速且CLIP分数优于50步基线。
  • Conclusion: OUSAC通过系统优化引导调度和自适应缓存,在保持甚至提升生成质量的同时大幅减少扩散模型的计算开销,为高效高质量图像生成提供了有效解决方案。

[41] ViewMask-1-to-3: Multi-View Consistent Image Generation via Multimodal Diffusion Models

Ruishu Zhu,Zhihao Huang,Jiacheng Sun,Ping Luo,Hongyuan Zhang,Xuelong Li

Main category: cs.CV

TL;DR: ViewMask-1-to-3:首个将离散扩散模型应用于多视角图像生成的方法,通过视觉token化和掩码预测实现跨视角一致性,无需复杂3D几何约束

  • Motivation: 单图像+文本描述生成多视角图像面临几何一致性挑战,现有方法依赖3D感知架构或专用扩散模型,需要大量多视角训练数据和复杂几何先验
  • Method: 将多视角合成建模为离散序列问题,使用MAGVIT-v2将每个视角表示为视觉token,通过掩码token预测统一语言和视觉,结合随机掩码和自注意力实现跨视角一致性
  • Result: 在GSO和3D-FUTURE数据集上PSNR、SSIM、LPIPS指标平均排名第一,证明了离散扩散作为多视角生成方法的可行性和简单性
  • Conclusion: 离散扩散为多视角图像生成提供了可行且简单的替代方案,通过掩码token预测和自注意力机制实现跨视角一致性,无需复杂3D几何约束或专用注意力架构

[42] Neurosymbolic Inference On Foundation Models For Remote Sensing Text-to-image Retrieval With Complex Queries

Emanuele Mezzi,Gertjan Burghouts,Maarten Kruithof

Main category: cs.CV

TL;DR: RUNE结合大型语言模型与神经符号AI,通过检测实体与一阶逻辑表达式的推理进行遥感图像检索,相比传统RS-LVLMs在性能、鲁棒性和可解释性方面表现更优。

  • Motivation: 当前遥感领域的文本-图像检索虽然借助RS-LVLMs取得了进展,但仍面临可解释性有限和处理复杂空间关系能力不足的问题,限制了实际应用。
  • Method: 提出RUNE方法:1) 使用LLM将文本查询转换为FOL表达式;2) 检测图像中的实体;3) 通过神经符号推理模块进行显式推理;4) 采用逻辑分解策略提高可扩展性。
  • Result: 在重新标注的DOTA数据集上,RUNE在复杂遥感检索任务中优于最先进的RS-LVLMs,并引入了RRQC和RRIU两个新评估指标,展示了在洪水后卫星图像检索等实际应用中的潜力。
  • Conclusion: RUNE通过显式推理而非隐式联合嵌入,在遥感图像检索中实现了更好的性能、鲁棒性和可解释性,为实际应用提供了有前景的解决方案。

[43] Selective, Controlled and Domain-Agnostic Unlearning in Pretrained CLIP: A Training- and Data-Free Approach

Ashish Mishra,Gyanaranjan Nayak,Tarun Kumar,Arpit Shah,Suparna Bhattacharya,Martin Foltin

Main category: cs.CV

TL;DR: 提出一种无需训练和数据的CLIP模型遗忘框架,支持三种遗忘范式:全局遗忘、领域特定知识移除和选择性领域完全遗忘

  • Motivation: 预训练模型如CLIP在零样本分类中表现优异,但实际应用常需移除特定对象类别而不需额外数据或重新训练,同时不影响模型在其他任务上的性能
  • Method: 通过文本提示和从CLIP联合嵌入空间合成的视觉原型协同整合,利用多模态零空间,高效移除不需要的类别信息同时保留其余知识
  • Result: 该方法克服了现有基于重新训练方法的局限性,为受控模型遗忘提供了灵活且计算高效的解决方案
  • Conclusion: 提出的训练和数据无关的遗忘框架实现了三种不同的遗忘范式,能够有效移除特定对象类别信息而不损害模型其他能力

[44] MFE-GAN: Efficient GAN-based Framework for Document Image Enhancement and Binarization with Multi-scale Feature Extraction

Rui-Yang Ju,KokSheik Wong,Yanlin Jin,Jen-Shiun Chiang

Main category: cs.CV

TL;DR: MFE-GAN:一种基于多尺度特征提取的高效GAN框架,用于文档图像增强和二值化,显著减少训练和推理时间,同时保持与SOTA方法相当的性能。

  • Motivation: 现有方法为不同颜色通道训练独立的GAN来去除阴影和噪声,但部署多个GAN导致训练和推理时间过长。需要一种更高效的文档图像增强和二值化方法。
  • Method: 提出MFE-GAN框架,结合Haar小波变换和归一化处理文档图像,然后输入GAN训练。设计了新颖的生成器、判别器和损失函数,并进行消融研究验证其有效性。
  • Result: 在Benchmark、Nabuco和CMATERdb数据集上的实验表明,MFE-GAN显著减少了总训练和推理时间,同时保持了与SOTA方法相当的性能。
  • Conclusion: MFE-GAN是一种高效的文档图像增强和二值化框架,通过多尺度特征提取和优化网络设计,在保持性能的同时大幅降低了计算成本。

[45] SportsGPT: An LLM-driven Framework for Interpretable Sports Motion Assessment and Training Guidance

Wenbo Tian,Ruting Lin,Hongxian Zheng,Yaodong Yang,Geng Wu,Zihao Zhang,Zhang Zhang

Main category: cs.CV

TL;DR: SportsGPT:基于大语言模型的运动动作评估与训练指导框架,通过MotionDTW时间序列对齐、KISMAM可解释评估和SportsRAG知识检索,实现从运动数据到专业指导的闭环系统。

  • Motivation: 现有智能运动分析系统主要关注"计分与可视化",缺乏自动性能诊断和可解释的训练指导。大语言模型和运动分析技术的发展为解决这些局限性提供了新机会。
  • Method: 1. MotionDTW:两阶段时间序列对齐算法,用于从骨架运动序列中准确提取关键帧;2. KISMAM:基于知识的可解释运动评估模型,通过对比关键帧与目标模型获得可解释评估指标;3. SportsRAG:基于Qwen3的RAG训练指导模型,利用6B-token知识库检索领域特定QA对,生成专业训练指导。
  • Result: MotionDTW在时间误差和IoU分数上显著优于传统方法;消融研究验证了KISMAM和SportsRAG的有效性;SportsGPT在诊断准确性和专业性方面超越通用大语言模型。
  • Conclusion: SportsGPT建立了从运动时间序列输入到专业训练指导的闭环框架,通过创新的时间序列对齐、可解释评估和知识检索技术,实现了比现有系统更全面的运动分析能力。

[46] Consistent Instance Field for Dynamic Scene Understanding

Junyi Wu,Van Nguyen Nguyen,Benjamin Planche,Jiachen Tao,Changchang Sun,Zhongpai Gao,Zhenghao Zhao,Anwesa Choudhuri,Gengyu Zhang,Meng Zheng,Feiran Wang,Terrence Chen,Yan Yan,Ziyan Wu

Main category: cs.CV

TL;DR: 提出一种连续概率时空表示方法CIF,用于动态场景理解,通过可变形3D高斯建模实现辐射与语义联合编码,在新型视角全景分割和开放词汇4D查询任务上表现优异。

  • Motivation: 现有方法依赖离散跟踪或视角依赖特征,难以在时空维度上保持一致的实例表示。需要一种能够解耦可见性与持久对象身份、实现连续时空理解的表示方法。
  • Method: 基于可变形3D高斯构建实例嵌入表示,联合编码辐射和语义信息;引入高斯身份校准机制和面向语义活跃区域的高斯重采样,确保时空一致的实例表示;通过可微分光栅化从RGB图像和实例掩码直接学习。
  • Result: 在HyperNeRF和Neu3D数据集上,该方法在新型视角全景分割和开放词汇4D查询任务上显著优于现有最先进方法。
  • Conclusion: CIF提供了一种连续概率时空表示,能够有效解耦可见性与对象身份,实现动态场景的一致理解,为4D场景分析任务提供了有力工具。

[47] Erasing CLIP Memories: Non-Destructive, Data-Free Zero-Shot class Unlearning in CLIP Models

Ashish Mishra,Tarun Kumar,Gyanaranjan Nayak,Arpit Shah,Suparna Bhattacharya,Martin Foltin

Main category: cs.CV

TL;DR: 提出一种基于零空间投影的多模态模型选择性遗忘方法,无需重新训练或遗忘集图像,通过消除目标类别在投影层中的信息实现高效遗忘。

  • Motivation: 传统遗忘方法需要迭代微调和大量数据整理,计算成本高且不够精确。需要一种更高效、更精确的方法来从多模态模型中移除特定类别信息,以解决模型去污染和隐私保护问题。
  • Method: 利用零空间投影技术,计算目标文本嵌入张成的子空间的正交基,然后将这些方向投影掉,从而消除最终投影层中的目标类别信息。该方法支持部分投影以平衡遗忘与信息保留。
  • Result: 实验表明该方法能显著降低目标类别的零样本性能,同时保持模型的整体多模态知识。部分投影可以在完全遗忘和保留有用信息之间取得平衡。
  • Conclusion: 该方法为多模态模型的选择性遗忘提供了一种计算高效且精确的解决方案,无需重新训练或遗忘集图像,在模型去污染和隐私保护方面具有重要应用价值。

[48] SketchAssist: A Practical Assistant for Semantic Edits and Precise Local Redrawing

Han Zou,Yan Zhang,Ruiqi Yu,Cong Xie,Jie Huang,Zhenpeng Zhan

Main category: cs.CV

TL;DR: SketchAssist是一个交互式草图绘制助手,通过统一指令引导的全局编辑和线条引导的区域重绘来加速创作,同时保持无关区域和整体构图不变。

  • Motivation: 现有图像编辑系统难以在保持线稿稀疏、风格敏感结构的同时,支持高级语义变化和精确局部重绘。需要一种能统一全局编辑和局部重绘的草图编辑解决方案。
  • Method: 1) 开发可控数据生成管道:从无属性基础草图构建属性添加序列,通过跨序列采样形成多步编辑链,使用风格保持属性移除模型扩展风格覆盖;2) 基于DiT编辑器构建统一草图编辑框架,重新利用RGB通道编码输入;3) 集成任务引导的混合专家到LoRA层,通过文本和视觉线索路由以提升语义可控性、结构保真度和风格保持。
  • Result: 在指令引导编辑和线条引导重绘两个任务上都取得了最先进的结果,相比现有基线在指令遵循、风格/结构保持方面表现更优。
  • Conclusion: SketchAssist及其数据集为草图创建和修订提供了一个实用、可控的助手,能够有效统一全局语义编辑和局部精确重绘。

[49] TorchTraceAP: A New Benchmark Dataset for Detecting Performance Anti-Patterns in Computer Vision Models

Hanning Chen,Keyu Man,Kevin Zhu,Chenguang Zhu,Haonan Li,Tongbo Luo,Xizhou Feng,Wei Sun,Sreen Tallam,Mohsen Imani,Partha Kanuparthy

Main category: cs.CV

TL;DR: 提出了首个用于评估ML模型检测性能反模式能力的基准数据集,包含600多个PyTorch trace,并提出轻量级ML模型+LLM的迭代方法,显著优于现有技术。

  • Motivation: 机器学习模型中的性能反模式识别对高效训练和推理至关重要,但需要跨系统、ML模型和内核开发的深厚专业知识。当前方法依赖专家手动分析torch trace,对普通计算机视觉研究者来说资源密集且难以自动化。
  • Method: 1) 创建包含600多个PyTorch trace的基准数据集,涵盖分类、检测、分割和生成等计算机视觉模型;2) 提出迭代方法:轻量级ML模型先检测trace中的反模式片段,然后由大语言模型(LLM)进行细粒度分类和针对性反馈。
  • Result: 实验结果表明,该方法在检测反模式区域方面显著优于无监督聚类和基于规则的统计技术。同时有效补偿了LLM的有限上下文长度和推理效率问题。
  • Conclusion: 提出的基准数据集和方法为自动化检测ML性能反模式提供了有效解决方案,降低了计算机视觉研究者对专业基础设施工程师的依赖,提高了性能优化的可及性。

[50] CIS-BA: Continuous Interaction Space Based Backdoor Attack for Object Detection in the Real-World

Shuxin Zhao,Bo Lang,Nan Xiao,Yilang Zhang

Main category: cs.CV

TL;DR: CIS-BA是一种新颖的后门攻击范式,通过连续交互空间触发器实现多触发多对象攻击,在复杂环境中保持高攻击成功率并规避现有防御。

  • Motivation: 现有后门攻击方法依赖于单触发单对象映射和脆弱的像素级线索,在能力和鲁棒性上存在固有局限,无法应对自动驾驶等现实世界应用中对象检测模型面临的安全威胁。
  • Method: 提出CIS-Frame框架:1) 通过交互分析构建空间触发器;2) 将触发器形式化为类几何约束进行样本投毒;3) 在检测器训练中嵌入后门。支持单对象攻击(错误分类和消失)和多对象同时攻击。
  • Result: 在MS-COCO和真实世界视频上的实验表明:CIS-BA在复杂环境下攻击成功率超过97%,在动态多触发条件下保持超过95%的有效性,并能规避三种最先进的防御方法。
  • Conclusion: CIS-BA重新定义了后门攻击范式,将触发器设计从静态对象特征转向连续交互模式,为交互密集型场景中的后门攻击提供了新视角,并揭示了对象检测系统的安全新见解。

[51] FastDDHPose: Towards Unified, Efficient, and Disentangled 3D Human Pose Estimation

Qingyuan Cai,Linxin Zhang,Xuecai Hu,Saihui Hou,Yongzhen Huang

Main category: cs.CV

TL;DR: Fast3DHPE是一个用于单目3D人体姿态估计的统一框架,旨在实现公平比较和高效训练,同时提出了FastDDHPose方法,利用解耦扩散模型在骨骼长度和方向上取得SOTA性能。

  • Motivation: 现有3D人体姿态估计方法在训练和评估上缺乏统一框架,导致难以公平比较。同时,现有方法通常采用不同框架,缺乏标准化协议。
  • Method: 提出Fast3DHPE模块化框架,标准化训练和评估协议。在该框架内提出FastDDHPose方法,使用解耦扩散模型分别建模骨骼长度和方向分布,避免层次误差累积放大。设计了高效的运动学层次时空去噪器,专注于关节层次结构。
  • Result: 在Human3.6M和MPI-INF-3DHP数据集上的实验表明,Fast3DHPE框架实现了所有方法的公平比较并显著提高训练效率。FastDDHPose在该统一框架内取得了最先进的性能,在野外场景中表现出强大的泛化能力和鲁棒性。
  • Conclusion: Fast3DHPE为3D人体姿态估计提供了一个公平比较和高效开发的统一框架,而FastDDHPose方法在该框架内通过解耦扩散建模实现了SOTA性能,具有良好的泛化能力。

[52] Improving Semantic Uncertainty Quantification in LVLMs with Semantic Gaussian Processes

Joseph Hoche,Andrei Bursuc,David Brellmann,Gilles Louppe,Pavel Izmailov,Angela Yao,Gianni Franchi

Main category: cs.CV

TL;DR: SGPU提出了一种基于贝叶斯框架的语义不确定性估计方法,通过分析答案嵌入的几何结构来量化语义不确定性,避免了脆弱的聚类方法,在多个模型和数据集上实现了最先进的性能。

  • Motivation: 大型视觉语言模型(LVLMs)经常产生看似合理但不可靠的输出,因此需要稳健的不确定性估计。现有的语义不确定性估计方法依赖外部模型对多个采样响应进行聚类并测量其语义一致性,但这些聚类方法通常很脆弱,对细微的措辞变化高度敏感,可能错误地分组或分离语义相似的答案,导致不可靠的不确定性估计。
  • Method: 提出了语义高斯过程不确定性(SGPU),这是一个贝叶斯框架,通过分析答案嵌入的几何结构来量化语义不确定性,避免了脆弱的聚类。SGPU将生成的答案映射到密集的语义空间,计算其嵌入的Gram矩阵,并通过特征谱总结它们的语义配置。然后将这种谱表示输入高斯过程分类器,该分类器学习将语义一致性模式映射到预测不确定性,并且可以在黑盒和白盒设置中应用。
  • Result: 在六个LLM和LVLM模型上,跨越八个数据集(包括VQA、图像分类和文本QA),SGPU在标定(ECE)和判别(AUROC、AUARC)性能方面一致实现了最先进的表现。进一步研究表明,SGPU能够跨模型和模态迁移,表明其谱表示捕捉了语义不确定性的一般模式。
  • Conclusion: SGPU提供了一种稳健的语义不确定性估计框架,通过分析答案嵌入的几何结构而非脆弱的聚类方法,能够更可靠地量化模型输出的不确定性,并且具有良好的跨模型和跨模态迁移能力。

[53] Spherical Voronoi: Directional Appearance as a Differentiable Partition of the Sphere

Francesco Di Sario,Daniel Rebain,Dor Verbin,Marco Grangetto,Andrea Tagliasacchi

Main category: cs.CV

TL;DR: 提出球面Voronoi作为3D高斯泼溅中外观表示的统一框架,解决球谐函数在高频信号、镜面反射方面的局限性,提供更直观稳定的参数化方法。

  • Motivation: 辐射场方法(如3D高斯泼溅)在新视角合成中表现出色,但其外观建模通常依赖球谐函数,存在根本性限制:难以处理高频信号、产生吉布斯振铃伪影、无法捕捉镜面反射(真实渲染的关键组件)。虽然球面高斯等替代方案有所改进,但增加了显著的优化复杂性。
  • Method: 提出球面Voronoi作为3D高斯泼溅中外观表示的统一框架。SV将方向域划分为具有平滑边界的可学习区域,为视角相关效果提供直观稳定的参数化。对于漫反射外观,SV在保持优化简单性的同时获得有竞争力的结果。对于反射(球谐函数失败的地方),将SV用作可学习的反射探针,遵循经典图形学原理以反射方向作为输入。
  • Result: 在合成和真实世界数据集上达到最先进的结果。对于漫反射外观,SV在保持优化简单性的同时获得有竞争力的结果;对于反射建模,SV在球谐函数失败的场景中表现出色,证明了其作为显式3D表示中外观建模的通用解决方案的有效性。
  • Conclusion: 球面Voronoi为显式3D表示中的外观建模提供了一个原则性、高效且通用的解决方案,解决了球谐函数的局限性,在保持优化简单性的同时实现了更好的反射建模效果。

[54] Fracture Morphology Classification: Local Multiclass Modeling for Multilabel Complexity

Cassandra Krause,Mattias P. Heinrich,Ron Keuth

Main category: cs.CV

TL;DR: 提出一种自动为骨折边界框分配全球AO代码的方法,将多标签任务转化为多类别任务,提升F1分数7.89%,但实际部署中不完美的骨折检测器会影响性能。

  • Motivation: 15-45%的儿童在成长期间会经历骨折,准确的诊断至关重要。骨折形态、位置和碎片角度是关键诊断特征,需要自动提取骨折形态的方法。
  • Method: 提出一种方法,自动为骨折边界框分配全球AO代码,利用公共数据集,将全球多标签任务重新表述为局部多类别任务。
  • Result: 该方法将平均F1分数提高了7.89%,但在使用不完美的骨折检测器时性能下降,突显了实际部署的挑战。
  • Conclusion: 提出的方法能有效提取骨折形态并提高诊断准确性,但实际临床应用中需要解决骨折检测器的可靠性问题。代码已在GitHub上公开。

[55] Beyond a Single Light: A Large-Scale Aerial Dataset for Urban Scene Reconstruction Under Varying Illumination

Zhuoxiao Li,Wenzong Ma,Taoyu Wu,Jinjing Zhu,Zhenchao Q,Shuai Zhang,Jing Ou,Yinrui Ren,Weiqing Qi,Guobin Shen,Hui Xiong,Wufan Zhao

Main category: cs.CV

TL;DR: SkyLume是一个大规模无人机数据集,专门用于研究光照鲁棒的三维重建,包含10个城市区域在一天三个时段的图像,配有LiDAR扫描和三维真值,并提出了评估光照与材质解耦的TCC指标。

  • Motivation: 现有基于NeRF和3D高斯泼溅的大规模无人机三维重建方法在处理多时相数据时,由于光照不一致会导致颜色伪影、几何误差和外观不一致。缺乏系统性的光照变化无人机数据集限制了这一问题的研究。
  • Method: 收集了10个城市区域的100k+高分辨率无人机图像(四个倾斜视角和天底视角),每个区域在一天三个时段拍摄以系统隔离光照变化。提供每场景的LiDAR扫描和精确三维真值用于评估深度、表面法线和重建质量。提出TCC指标评估光照与材质解耦的稳定性。
  • Result: 创建了SkyLume数据集,这是首个专门针对光照鲁棒三维重建的大规模真实世界无人机数据集,包含多时相图像、LiDAR扫描和三维真值,并提出了TCC评估指标。
  • Conclusion: SkyLume数据集填补了光照变化下大规模三维重建研究的空白,为逆渲染、几何重建和新视角合成提供了重要的研究基础和真实世界评估资源。

[56] DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos

Yang Bai,Liudi Yang,George Eskandar,Fengyi Shen,Mohammad Altillawi,Ziyuan Liu,Gitta Kutyniok

Main category: cs.CV

TL;DR: DRAW2ACT:一种深度感知的轨迹条件视频生成框架,用于机器人操作,通过多模态表示和联合RGB-D视频生成提高可控性和一致性。

  • Motivation: 现有视频扩散模型在机器人操作中可控性有限,轨迹条件视频生成方法通常依赖2D轨迹或单模态条件,限制了生成可控且一致的机器人演示的能力。
  • Method: 1. 从输入轨迹提取多个正交表示(深度、语义、形状和运动)注入扩散模型;2. 联合生成空间对齐的RGB和深度视频,利用跨模态注意力机制和深度监督增强时空一致性;3. 基于生成的RGB-D序列训练多模态策略模型回归机器人关节角度。
  • Result: 在Bridge V2、Berkeley Autolab和仿真基准测试中,DRAW2ACT在视觉保真度和一致性方面优于现有基线,同时获得更高的操作成功率。
  • Conclusion: DRAW2ACT通过深度感知的轨迹条件视频生成和多模态策略学习,显著提高了机器人操作演示的可控性和一致性,为具身AI提供了更强大的仿真器。

[57] History-Enhanced Two-Stage Transformer for Aerial Vision-and-Language Navigation

Xichen Ding,Jianzhe Gao,Cong Pan,Wenguan Wang,Jie Qin

Main category: cs.CV

TL;DR: 提出HETT框架,通过粗到细的两阶段导航流程,结合全局环境推理和局部场景理解,提升无人机在视觉语言导航任务中的性能。

  • Motivation: 现有的无人机视觉语言导航系统通常采用单粒度框架,难以平衡全局环境推理和局部场景理解这两个关键方面,限制了导航性能。
  • Method: 提出历史增强的两阶段Transformer框架(HETT):1) 粗粒度阶段融合空间地标和历史上下文预测目标位置;2) 细粒度阶段通过视觉分析精炼动作;3) 设计历史网格图动态聚合视觉特征为结构化空间记忆。
  • Result: 在精炼后的CityNav数据集上,HETT取得了显著的性能提升,广泛的消融研究验证了各组件有效性。
  • Conclusion: HETT框架通过粗到细的两阶段导航流程有效整合了全局推理和局部理解,提升了无人机视觉语言导航性能,历史网格图的设计增强了场景感知能力。

[58] OmniGen: Unified Multimodal Sensor Generation for Autonomous Driving

Tao Tang,Enhui Ma,xia zhou,Letian Wang,Tianyi Yan,Xueyang Zhang,Kun Zhan,Peng Jia,XianPeng Lang,Jia-Wang Bian,Kaicheng Yu,Xiaodan Liang

Main category: cs.CV

TL;DR: OminiGen:统一框架生成对齐的多模态传感器数据(LiDAR和多视角相机),通过共享BEV空间和新型UAE解码方法实现可控生成

  • Motivation: 自动驾驶依赖大量真实数据收集,但获取多样性和极端案例数据成本高、效率低。现有生成方法主要关注单模态,导致多模态传感器数据效率低下和对齐问题
  • Method: 1. 使用共享鸟瞰图(BEV)空间统一多模态特征;2. 设计新颖的通用多模态重建方法UAE,通过体渲染联合解码LiDAR和多视角相机数据;3. 结合带ControlNet分支的扩散变换器(DiT)实现可控多模态传感器生成
  • Result: 综合实验表明,OminiGen在统一多模态传感器数据生成方面实现了期望的性能,具有多模态一致性和灵活的传感器调整能力
  • Conclusion: OminiGen为解决自动驾驶中多模态传感器数据生成的对齐和效率问题提供了有效解决方案,通过统一框架实现可控、一致的多模态数据生成

[59] Multi-View MRI Approach for Classification of MGMT Methylation in Glioblastoma Patients

Rawan Alyahya,Asrar Alruwayqi,Atheer Alqarni,Asma Alkhaldi,Metab Alkubeyyer,Xin Gao,Mona Alshahrani

Main category: cs.CV

TL;DR: 提出一种基于多视角MRI和深度学习的非侵入性MGMT启动子甲基化检测方法,避免复杂3D模型,通过空间关系分析提高诊断准确性。

  • Motivation: MGMT启动子甲基化对胶质母细胞瘤化疗效果至关重要,但目前依赖侵入性脑肿瘤组织活检。需要开发非侵入性检测方法来改善患者诊断和治疗。
  • Method: 采用多视角MRI扫描和深度学习模型,考虑MRI视图间的空间关系来检测MGMT甲基化状态。提出新的肿瘤切片提取技术,避免使用复杂的3D深度学习模型,减少参数数量、收敛慢和内存需求问题。
  • Result: 新方法在多个评估指标上优于现有方法,与最先进模型相比显示出有效性。同时提供了可复现的模型管道,促进透明度和稳健诊断工具的开发。
  • Conclusion: 研究展示了非侵入性方法识别MGMT启动子甲基化的潜力,有助于推进胶质母细胞瘤治疗中的精准医疗发展。

[60] ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body

Juze Zhang,Changan Chen,Xin Chen,Heng Yu,Tiange Xiang,Ali Sartaz Khan,Shrinidhi K. Lakshmikanth,Ehsan Adeli

Main category: cs.CV

TL;DR: ViBES是一个多模态对话代理,能联合规划语言和动作,实现语音、面部表情和身体运动的同步生成,超越传统的语音驱动动作生成方法。

  • Motivation: 现有系统将人类行为建模为翻译任务(语音到手势或文本到动作),缺乏对何时移动、做什么以及如何适应多轮对话的智能决策,导致时序脆弱、社交基础薄弱,且语音、文本和动作训练孤立。
  • Method: 采用语音-语言-行为(SLB)模型,基于混合模态专家(MoME)架构:模态分区transformer专家处理语音、面部表情和身体运动,通过跨专家注意力共享信息,利用预训练语音语言模型支持混合主动交互。
  • Result: 在多轮对话基准测试中,在对话-动作对齐和行为质量指标上持续优于强基线;支持用户通过语音、打字或身体动作指令进行交互,提供可控的行为钩子。
  • Conclusion: ViBES超越了"语音条件动作生成",实现了语言、韵律和动作的联合生成,创造了可控、社交能力强的3D交互虚拟身体,推动了多模态对话代理的发展。

[61] 4D-RaDiff: Latent Diffusion for 4D Radar Point Cloud Generation

Jimmie Kwok,Holger Caesar,Andras Palffy

Main category: cs.CV

TL;DR: 提出4D-RaDiff框架,通过潜在空间扩散生成4D雷达点云数据,用于增强雷达目标检测训练,可减少90%标注数据需求

  • Motivation: 汽车雷达在环境感知方面有前景,但标注雷达数据有限,阻碍了雷达感知系统的发展
  • Method: 提出4D-RaDiff框架,在潜在点云表示上应用扩散模型,考虑雷达点云的稀疏性和特性,通过对象或场景级条件控制生成
  • Result: 合成雷达数据作为数据增强可提升目标检测性能;预训练可减少90%标注数据需求,同时保持可比性能
  • Conclusion: 4D-RaDiff能有效生成高质量雷达点云数据,解决标注数据稀缺问题,提升雷达目标检测性能

[62] Elastic3D: Controllable Stereo Video Conversion with Guided Latent Decoding

Nando Metzger,Prune Truong,Goutam Bhat,Konrad Schindler,Federico Tombari

Main category: cs.CV

TL;DR: Elastic3D是一种基于条件潜在扩散的端到端单目到立体视频转换方法,通过引导VAE解码器实现高质量、视差可控的立体视频生成,无需显式深度估计和扭曲操作。

  • Motivation: 随着沉浸式3D内容需求的增长,需要自动化方法将传统单目视频转换为立体视频。现有方法依赖显式深度估计和扭曲操作,容易产生伪影,且缺乏用户控制能力。
  • Method: 基于条件潜在扩散的端到端方法,避免显式深度估计和扭曲。核心创新是引导VAE解码器,确保立体视频输出的清晰度和极线一致性。通过标量调节旋钮在推理时控制立体效果强度(视差范围)。
  • Result: 在三个真实世界立体视频数据集上的实验表明,该方法优于传统的基于扭曲方法和最近的免扭曲基线,为可靠、可控的立体视频转换设立了新标准。
  • Conclusion: Elastic3D提供了一种高质量、可控的端到端单目到立体视频转换方案,通过引导VAE解码器和条件潜在扩散模型,避免了传统方法的伪影问题,实现了用户友好的立体效果控制。

[63] Enhancing Visual Programming for Visual Reasoning via Probabilistic Graphs

Wentao Wan,Kaiyu Wu,Qingyang Ma,Nan Kang,Yunjie Chen,Liang Lin,Keze Wang

Main category: cs.CV

TL;DR: EVPG通过概率图将不可微的视觉编程执行过程转化为可微的概率推理,实现端到端优化,显著提升视觉推理任务性能

  • Motivation: 现有视觉编程方法主要关注提升LLM生成程序的质量,但忽略了优化视觉编程调用的预训练模型。由于视觉编程不可微且缺乏子任务标签,无法利用最终标签进行端到端梯度优化
  • Method: 构建基于变量依赖关系的有向概率图,将不可微的视觉编程执行过程重构为可微的精确概率推理过程,从而支持基于梯度的端到端监督学习
  • Result: 在三个经典复杂视觉推理任务(GQA、NLVRv2、Open Images)上进行了广泛实验,EVPG显著提升了视觉编程的性能表现
  • Conclusion: 通过概率图将视觉编程转化为可微框架,实现了端到端优化,为视觉编程在复杂视觉推理任务中的应用提供了有效的增强方法

[64] DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Shreedhar Govil,Didier Stricker,Jason Rambach

Main category: cs.CV

TL;DR: 提出DriverGaze360数据集和DriverGaze360-Net方法,用于全景驾驶场景下的驾驶员注意力预测,解决现有方法视野受限的问题。

  • Motivation: 现有驾驶员注意力预测方法受限于狭窄的前方视野和有限的驾驶多样性,无法捕捉完整驾驶环境空间上下文,特别是在变道、转弯和涉及行人/自行车等外围物体交互时。
  • Method: 引入DriverGaze360大规模360°视野驾驶员注意力数据集(约100万帧),并提出DriverGaze360-Net全景注意力预测方法,通过辅助语义分割头联合学习注意力图和关注对象。
  • Result: DriverGaze360-Net在全景驾驶图像上实现了最先进的注意力预测性能,在多个指标上表现出色。
  • Conclusion: 该研究通过全景数据集和预测方法,显著提升了驾驶员注意力建模的全面性和准确性,有助于开发可解释的自动驾驶系统和理解混合交通场景中的驾驶员行为。

[65] Zoom-Zero: Reinforced Coarse-to-Fine Video Understanding via Temporal Zoom-in

Xiaoqian Shen,Min-Hung Chen,Yu-Chiang Frank Wang,Mohamed Elhoseiny,Ryo Hachiuma

Main category: cs.CV

TL;DR: Zoom-Zero是一个用于视频问答的粗到细框架,通过先定位相关片段再放大关键帧进行视觉验证,解决了现有方法在时间定位和幻觉方面的问题,显著提升了时间定位和答案准确性。

  • Motivation: 现有的大型视频语言模型在时间感知方面有限,基于GRPO的方法虽然尝试改进时间定位,但仍然难以忠实基于视频证据进行定位,导致时间错位和幻觉问题。
  • Method: 提出Zoom-Zero框架:1)先粗粒度定位查询相关片段;2)再时间放大到最显著帧进行细粒度视觉验证。关键创新:放大准确性奖励验证时间定位保真度;令牌选择性信用分配将奖励归因于负责时间定位或答案生成的令牌。
  • Result: 在NExT-GQA上时间定位提升5.2%,在ReXTime上提升4.6%;平均答案准确性提升2.4%;长视频理解平均提升6.4%,推理时的粗到细放大保留了关键视觉细节而不损害全局上下文。
  • Conclusion: Zoom-Zero通过粗到细框架和创新的奖励机制,显著提升了基于视频问答的时间定位能力和答案准确性,特别在长视频理解方面表现出色,为视频语言模型的时间感知问题提供了有效解决方案。

[66] TUN: Detecting Significant Points in Persistence Diagrams with Deep Learning

Yu Chen,Hongwei Lin

Main category: cs.CV

TL;DR: TUN:一种结合增强持久图描述符、自注意力机制和点云编码的多模态网络,用于自动检测一维持久图中的显著点

  • Motivation: 持久图(PDs)能有效捕捉点云的拓扑特征,但难以自动识别哪些点代表真实信号而非噪声,这阻碍了拓扑数据分析在实际应用中的采用
  • Method: 提出Topology Understanding Net (TUN),结合增强的PD描述符、自注意力机制、PointNet风格的点云编码器、学习融合和逐点分类,配合稳定预处理和不平衡感知训练
  • Result: 实验表明TUN在检测PDs显著点方面优于经典方法,展示了其在真实应用中的有效性
  • Conclusion: TUN为自动可靠地解释持久图提供了有效解决方案,有助于推动拓扑数据分析在实际决策支持应用中的采用

[67] SS4D: Native 4D Generative Model via Structured Spacetime Latents

Zhibing Li,Mengchen Zhang,Tong Wu,Jing Tan,Jiaqi Wang,Dahua Lin

Main category: cs.CV

TL;DR: SS4D是一个原生4D生成模型,直接从单目视频合成动态3D物体,通过结构化时空潜在表示实现高保真度、时间一致性和结构一致性。

  • Motivation: 现有方法通常通过优化3D或视频生成模型来构建4D表示,缺乏原生4D生成能力。4D训练数据稀缺,且需要保持时空一致性。
  • Method: 1) 基于预训练的单图像到3D模型保持空间一致性;2) 引入专用时间层确保时间一致性;3) 使用因子化4D卷积和时间下采样块压缩潜在序列;4) 精心设计的训练策略增强对遮挡的鲁棒性。
  • Result: 实现了直接从单目视频合成动态3D物体的能力,具有高保真度、时间一致性和结构一致性,支持长视频序列的高效训练和推理。
  • Conclusion: SS4D通过结构化时空潜在表示和精心设计的架构,成功实现了原生4D生成,解决了4D数据稀缺和时空一致性问题,为动态3D内容生成提供了新方法。

[68] PSMamba: Progressive Self-supervised Vision Mamba for Plant Disease Recognition

Abdullah Al Mamun,Miaohua Zhang,David Ahmedt-Aristizabal,Zeeshan Hayder,Mohammad Awrangjeb

Main category: cs.CV

TL;DR: PSMamba:一种用于植物病害图像的分层自监督学习框架,结合Vision Mamba和双学生蒸馏策略,在多尺度病变模式识别上优于现有方法。

  • Motivation: 现有自监督学习框架主要关注全局对齐,难以捕捉植物病害图像中分层、多尺度的病变模式特征,需要专门针对植物病害图像特点的表示学习方法。
  • Method: 提出PSMamba框架,整合Vision Mamba的高效序列建模能力和双学生分层蒸馏策略。采用共享全局教师和两个专门化学生:一个处理中尺度视图捕捉病变分布和叶脉结构,另一个关注局部视图捕捉纹理异常和早期病变等细粒度线索。通过一致性损失确保跨尺度对齐。
  • Result: 在三个基准数据集上的实验表明,PSMamba在领域转移和细粒度场景下均优于最先进的自监督学习方法,展现出卓越的准确性和鲁棒性。
  • Conclusion: PSMamba通过多粒度监督实现了上下文和细节表示的联合学习,为植物病害图像分析提供了有效的分层表示学习框架,在自监督学习领域具有重要价值。

[69] From YOLO to VLMs: Advancing Zero-Shot and Few-Shot Detection of Wastewater Treatment Plants Using Satellite Imagery in MENA Region

Akila Premarathna,Kanishka Hewageegana,Garcia Andarcia Mariangel

Main category: cs.CV

TL;DR: 该研究比较了多种视觉语言模型(VLMs)与传统YOLOv8在卫星图像中识别污水处理厂(WWTPs)的性能,发现零样本VLMs(特别是Gemma-3)能够超越YOLOv8,实现无需标注的高效分类。

  • Motivation: 中东和北非地区对污水处理厂有高需求,传统基于YOLOv8的方法需要大量人工标注,而视觉语言模型具有内在推理能力,可能提供更高效的替代方案。
  • Method: 采用结构化方法比较VLMs,分为零样本和少样本两个流程。使用包含83,566张高分辨率卫星图像(来自埃及、沙特、阿联酋)的政府数据集,评估LLaMA 3.2 Vision、Qwen 2.5 VL、DeepSeek-VL2、Gemma 3、Gemini、Pixtral 12B等模型,通过专家提示识别圆形/矩形池、曝气池等组件并区分干扰物。
  • Result: 零样本评估显示多个VLMs在污水处理厂图像上的真阳性率超过YOLOv8,其中Gemma-3表现最佳,证实了VLMs(特别是零样本方法)能够替代YOLOv8进行高效、无需标注的分类。
  • Conclusion: 视觉语言模型,特别是零样本方法,可以替代传统YOLOv8进行污水处理厂识别,实现可扩展的遥感监测,减少对大量人工标注的依赖。

[70] Semantic Mismatch and Perceptual Degradation: A New Perspective on Image Editing Immunity

Shuai Dong,Jie Zhang,Guoying Zhao,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: 提出SIFM方法,通过双重协同目标扰动扩散模型中间特征来免疫图像免受恶意编辑,并引入ISR新指标量化免疫成功率

  • Motivation: 现有基于扩散模型的文本引导图像编辑技术存在滥用风险,需要免疫图像防止未经授权的编辑。现有评估指标仅关注保护图像与原始图像输出的视觉差异,忽略了免疫的核心要求——破坏与攻击者意图的语义对齐
  • Method: 提出协同中间特征操纵(SIFM)方法,通过双重目标策略性扰动扩散中间特征:(1)最大化特征与原始编辑轨迹的差异以破坏语义对齐,(2)最小化特征范数以诱导感知退化
  • Result: 实验表明SIFM在保护视觉内容免受基于扩散的恶意操纵方面达到最先进性能
  • Conclusion: 重新定义了图像免疫的成功标准,提出SIFM方法和ISR指标,有效保护图像免受恶意编辑,为图像安全提供了新思路

[71] Dual Attention Guided Defense Against Malicious Edits

Jie Zhang,Shuai Dong,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: 提出DANP免疫方法,通过添加不可感知的扰动来破坏扩散模型的语义理解和生成过程,防止恶意文本编辑

  • Motivation: 文本到图像扩散模型在图像编辑方面取得了进展,但也带来了伦理挑战,可能被滥用于创建欺骗性或有害内容。现有防御方法通过嵌入不可感知的扰动来降低风险,但对恶意篡改的防御效果有限。
  • Method: 提出双注意力引导噪声扰动(DANP)免疫方法,在多个时间步上操作,操纵交叉注意力图和噪声预测过程。使用动态阈值生成掩码来识别文本相关和不相关区域,减少相关区域的注意力,增加不相关区域的注意力,从而误导编辑到错误区域并保护目标。同时最大化注入噪声与模型预测噪声之间的差异来干扰生成。
  • Result: DANP在对抗恶意编辑方面表现出强大的免疫能力,大量实验证实该方法达到了最先进的性能。
  • Conclusion: 通过同时针对注意力和噪声预测机制,DANP方法能有效防御扩散模型的恶意文本编辑,为图像安全提供了新的解决方案。

[72] Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure

Jooyeol Yun,Jaegul Choo

Main category: cs.CV

TL;DR: 该论文提出了一种通过语义结构恢复来改进SVG动画生成的框架,通过聚合多个弱部件预测来稳定推断语义,显著提升了矢量图形动画的连贯性。

  • Motivation: 当前视觉语言模型在处理SVG动画时面临挑战,因为视觉上连贯的部分通常被分割成低层次的形状,缺乏哪些元素应该一起移动的指导,导致动画生成不可靠。
  • Method: 提出一个框架,通过统计聚合多个弱部件预测来恢复SVG的语义结构,将SVG重新组织成语义组,从而为VLM提供更好的指导。
  • Result: 实验表明该方法相比现有方法有显著提升,能够生成更连贯的SVG动画,支持VLM与矢量图形之间更可解释的交互。
  • Conclusion: 语义恢复是解锁稳健SVG动画的关键步骤,为VLM与矢量图形的交互提供了更可靠的基础。

[73] Towards Transferable Defense Against Malicious Image Edits

Jie Zhang,Shuai Dong,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: 提出TDAE框架,通过图像-文本双模态优化增强图像对恶意编辑的免疫力,实现跨模型可迁移防御

  • Motivation: 现有基于不可感知扰动的防御方法在跨模型评估中可迁移性有限,需要提升对未见编辑模型的防御能力
  • Method: 提出双模态框架TDAE:1)视觉防御层:FlatGrad防御机制,通过梯度正则化引导扰动向平坦最小值;2)文本增强保护:动态提示防御,周期性优化文本嵌入使免疫图像编辑结果与原图对齐
  • Result: TDAE在内部和跨模型评估中都达到最先进性能,有效缓解恶意编辑
  • Conclusion: 通过协调的图像-文本优化,TDAE框架显著提升了图像对恶意编辑的免疫力,实现了跨模型可迁移防御

[74] HGS: Hybrid Gaussian Splatting with Static-Dynamic Decomposition for Compact Dynamic View Synthesis

Kaizhe Zhang,Yijie Zhou,Weizhan Zhang,Caixia Yan,Haipeng Du,yugui xie,Yu-Hui Wen,Yong-Jin Liu

Main category: cs.CV

TL;DR: 提出Hybrid Gaussian Splatting (HGS)框架,通过静态-动态分解策略显著减少动态场景渲染的模型大小和提升渲染速度,在保持高质量的同时实现实时渲染。

  • Motivation: 现有动态新视角合成方法使用3D高斯泼溅技术,但存在模型复杂度高、参数冗余的问题,导致模型体积大、渲染速度慢,难以在资源受限设备上实现实时应用。
  • Method: 提出Hybrid Gaussian Splatting (HGS)框架,采用静态-动态分解策略,使用径向基函数建模:动态区域用时变RBF捕捉时间变化,静态区域共享时间不变参数以减少冗余。还引入两阶段训练策略增强时间一致性。
  • Result: 模型大小减少高达98%,在RTX 3090上实现4K分辨率125FPS实时渲染,在RTX 3050上达到1352×1014分辨率160FPS,已集成到VR系统。渲染质量与SOTA方法相当,在高频细节和场景突变方面视觉保真度更好。
  • Conclusion: HGS通过高效的静态-动态分解策略,显著降低了动态场景渲染的模型复杂度和参数冗余,实现了高质量的实时渲染,特别适合资源受限设备和VR应用。

[75] Enhancing Interpretability for Vision Models via Shapley Value Optimization

Kanglong Fan,Yunqiao Yang,Chen Ma

Main category: cs.CV

TL;DR: 提出一种新颖的自解释框架,通过将Shapley值估计作为辅助任务集成到训练中,实现公平分配预测分数到图像块,在保持模型性能和兼容性的同时提升可解释性。

  • Motivation: 深度神经网络决策过程不透明,现有解释方法存在局限性:后处理解释方法难以忠实反映模型行为,而自解释神经网络因特殊架构设计牺牲性能和兼容性。
  • Method: 提出自解释框架,将Shapley值估计作为辅助任务集成到训练中,通过公平分配模型预测分数到图像块,仅需少量结构修改即可增强可解释性。
  • Result: 在多个基准测试上的广泛实验表明,该方法实现了最先进的可解释性,同时保持了模型性能和兼容性。
  • Conclusion: 该方法通过将Shapley值估计作为辅助任务,解决了现有解释方法的局限性,实现了忠实于模型决策逻辑的解释,同时保持高性能和兼容性。

[76] Mimicking Human Visual Development for Learning Robust Image Representations

Ankita Raj,Kaashika Prajaapat,Tapan Kumar Gandhi,Chetan Arora

Main category: cs.CV

TL;DR: 提出渐进模糊课程学习,模仿人类视觉发育过程,在训练初期使用高度模糊图像并逐渐减少模糊度,提升CNN的泛化性和鲁棒性。

  • Motivation: 人类视觉系统能够适应输入分布变化,而现代CNN在这方面仍有不足。受人类婴儿视觉发育过程启发(从模糊到清晰),希望通过模拟这一过程来提升CNN的泛化能力。
  • Method: 提出渐进模糊课程学习方法:训练初期使用高度模糊图像,随着训练进行逐渐减少模糊程度,使网络优先学习全局结构而非高频细节。
  • Result: 在CIFAR-10-C上平均腐蚀误差降低8.30%,在ImageNet-100-C上降低4.43%;与标准训练相比,提升了对抗分布偏移和噪声输入的鲁棒性,且与CutMix、MixUp等增强技术兼容。
  • Conclusion: 早期模糊训练不仅不会损害性能,反而能提升泛化能力;渐进模糊课程学习是有效的训练策略,能显著提升CNN的鲁棒性和泛化性。

[77] Unified Semantic Transformer for 3D Scene Understanding

Sebastian Koch,Johanna Wald,Hide Matsuki,Pedro Hermosilla,Timo Ropinski,Federico Tombari

Main category: cs.CV

TL;DR: UNITE是一个统一的3D场景理解语义Transformer,能够通过单一模型处理多种3D语义任务,仅需RGB图像输入即可预测场景分割、实例嵌入、开放词汇特征等属性,在多项任务上达到SOTA性能。

  • Motivation: 现有3D场景理解模型多为任务特定设计,受限于真实世界的复杂性。需要开发一个统一的模型来处理多样化的3D语义任务,提高效率和泛化能力。
  • Method: 提出UNITE统一语义Transformer,采用前馈神经网络架构,仅使用RGB图像作为输入。训练时结合2D蒸馏、自监督学习和新颖的多视角损失函数来确保3D视角一致性。
  • Result: UNITE在多个3D语义任务上达到最先进性能,甚至超越了许多任务特定模型,在许多情况下超过了使用真实3D几何数据的方法。
  • Conclusion: UNITE展示了统一模型在3D场景理解中的潜力,能够高效处理多种语义任务,仅需几秒钟即可推断完整的3D语义几何,为端到端的3D场景理解提供了新方向。

[78] Optimizing Rank for High-Fidelity Implicit Neural Representations

Julian McGinnis,Florian A. Hölzl,Suprosanna Shit,Florentin Bieder,Paul Friedrich,Mark Mühlau,Björn Menze,Daniel Rueckert,Benedikt Wiestler

Main category: cs.CV

TL;DR: 该论文挑战了传统观点,认为简单MLP无法表示高频内容不是架构限制,而是训练中稳定秩退化导致的。通过调节网络秩,即使简单MLP也能有效学习高频信号。

  • Motivation: 传统观点认为基于普通MLP的隐式神经表示无法表示高频内容,这导致研究集中在架构改进上。本文挑战这一观点,认为低频偏差不是MLP的固有架构限制,而是训练过程中稳定秩退化造成的症状。
  • Method: 通过调节网络在训练过程中的秩来改善学习信号的质量。使用Muon等优化器,这些优化器能产生高秩、接近正交的更新,显著增强INR架构的表达能力,甚至超越简单的ReLU MLP。
  • Result: 实验表明,秩调节显著提高了学习信号的保真度,在自然图像、医学图像和新视角合成等多个领域都取得了显著改进,PSNR提升高达9dB,超越了之前的最先进方法。
  • Conclusion: 简单MLP架构的低频偏差不是固有的架构限制,而是训练过程中稳定秩退化造成的。通过适当的秩调节,即使简单的MLP架构也能有效表示高频内容,这为INR研究提供了新的方向。

[79] EcoScapes: LLM-Powered Advice for Crafting Sustainable Cities

Martin Röhn,Nora Gourmelon,Vincent Christlein

Main category: cs.CV

TL;DR: 提出一个结合专业LLM、卫星影像分析和知识库的多层系统,帮助小型城市克服人员资源有限和数据整合困难,制定有效的气候适应策略

  • Motivation: 小型城市在气候适应方面面临人员资源有限和数据整合困难的挑战,需要系统化的解决方案来支持全面的气候适应策略制定
  • Method: 设计一个多层系统,结合专业大型语言模型、卫星影像分析和知识库技术,帮助城市整合多源数据并进行综合分析
  • Result: 开发了EcoScapes系统,代码已在GitHub开源,为小型城市提供气候适应策略制定的技术支持
  • Conclusion: 提出的多层系统能够有效帮助资源有限的小型城市整合多源数据,制定科学的气候适应策略,促进城市可持续发展

[80] Broadening View Synthesis of Dynamic Scenes from Constrained Monocular Videos

Le Jiang,Shaotong Zhu,Yedi Luo,Shayda Moezzi,Sarah Ostadabbas

Main category: cs.CV

TL;DR: ExpanDyNeRF:一种利用高斯泼溅先验和伪真值生成策略的单目动态NeRF框架,可在极端视角变化下实现高质量新视角合成

  • Motivation: 现有动态NeRF方法在显著视角偏差下表现不佳,渲染结果不稳定且不真实,需要解决大角度旋转下的新视角合成问题
  • Method: 1. 引入高斯泼溅先验;2. 采用伪真值生成策略;3. 优化密度和颜色特征;4. 创建SynDM合成数据集提供侧视图监督
  • Result: 在SynDM和真实数据集上,ExpanDyNeRF在极端视角偏移下的渲染保真度显著优于现有动态NeRF方法
  • Conclusion: ExpanDyNeRF通过结合高斯泼溅先验和伪真值生成,有效解决了动态NeRF在大角度旋转下的渲染质量问题,为动态场景新视角合成提供了新方案

[81] DISCODE: Distribution-Aware Score Decoder for Robust Automatic Evaluation of Image Captioning

Nakamasa Inoue,Kanoko Goto,Masanari Oi,Martyna Gruszka,Mahiro Ukai,Takumi Hirose,Yusuke Sekikawa

Main category: cs.CV

TL;DR: DISCODE提出了一种无需微调的分布感知分数解码器,通过自适应测试时损失提升跨域图像描述评估的鲁棒性,并在新构建的MCEval基准上取得SOTA性能。

  • Motivation: 大型视觉语言模型在多模态任务中表现出色,但在域偏移场景下的图像描述评估仍面临挑战,需要更鲁棒且与人类判断更一致的评估方法。
  • Method: 提出分布感知分数解码器(DISCODE),采用测试时自适应评估方法,引入自适应测试时(ATT)损失,利用高斯先验分布提升评估分数估计的鲁棒性,并推导出高效的解析解进行最小化。
  • Result: DISCODE在新建的MCEval基准(涵盖6个不同领域)和4个现有代表性基准上,作为无参考评估指标取得了最先进的性能。
  • Conclusion: DISCODE通过测试时自适应方法有效提升了跨域图像描述评估的鲁棒性,为多模态评估提供了更可靠的解决方案。

[82] LCMem: A Universal Model for Robust Image Memorization Detection

Mischa Dombrowski,Felix Nützel,Bernhard Kainz

Main category: cs.CV

TL;DR: LCMem是一个用于跨域隐私审计的潜在对比记忆网络,通过将记忆检测统一为重新识别和复制检测的交叉问题,显著提高了记忆检测的可靠性和可扩展性。

  • Motivation: 生成图像模型虽然能欺骗人类专家,但其在隐私保护数据共享方面的潜力尚未被充分理解。主要障碍包括缺乏可靠的记忆检测机制、有限的定量评估以及现有隐私审计方法在跨域场景下的泛化能力差。
  • Method: 将记忆检测视为重新识别和复制检测的统一问题,提出LCMem模型,采用两阶段训练策略:先学习身份一致性,再结合增强鲁棒的复制检测。
  • Result: 在六个基准数据集上,LCMem在重新识别任务上提升高达16个百分点,在复制检测任务上提升高达30个百分点,实现了更可靠的大规模记忆检测。
  • Conclusion: 现有隐私过滤器性能有限且鲁棒性不足,需要更强的保护机制。LCMem为跨域隐私审计设定了新标准,提供了可靠且可扩展的记忆检测方案。

[83] The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy

Zhuo Chen,Fanyue Wei,Runze Xu,Jingjing Li,Lixin Duan,Angela Yao,Wen Li

Main category: cs.CV

TL;DR: SynPS:一种利用位置嵌入和语义信息协同进行非刚性图像编辑的方法,通过动态调制位置嵌入影响来平衡语义修改和保真度,避免过编辑和欠编辑问题。

  • Motivation: 现有基于大型扩散模型的免训练图像编辑方法在处理复杂非刚性编辑(如姿态或形状变化)时存在困难,主要原因是注意力共享机制中的注意力崩溃问题,即位置嵌入或语义特征主导视觉内容检索,导致过编辑或欠编辑。
  • Method: 提出SynPS方法,协同利用位置嵌入和语义信息进行忠实非刚性图像编辑。首先提出编辑测量指标量化每个去噪步骤所需的编辑幅度,然后设计注意力协同流程,动态调制位置嵌入的影响,平衡语义修改和保真度保留。
  • Result: 在公共基准和新构建的基准上进行广泛实验,证明了该方法在性能和忠实度方面的优越表现。
  • Conclusion: SynPS通过自适应整合位置和语义线索,有效避免了过编辑和欠编辑问题,为复杂非刚性图像编辑提供了更忠实可靠的解决方案。

[84] Score-Based Turbo Message Passing for Plug-and-Play Compressive Imaging

Chang Cai,Hao Jiang,Xiaojun Yuan,Ying-Jun Angela Zhang

Main category: cs.CV

TL;DR: 提出了一种结合分数生成模型和消息传递的压缩图像恢复算法STMP,在性能和复杂度之间取得更好平衡,并在量化测量下提出Q-STMP变体。

  • Motivation: 传统PnP方法使用的去噪器依赖通用或手工先验,难以准确捕捉自然图像的复杂统计结构,导致次优重建。分数生成模型能准确表征复杂图像分布,但直接用于后验采样计算复杂度太高。
  • Method: 利用分数生成模型与经验贝叶斯去噪的紧密联系,设计了一个结合分数MMSE去噪器的消息传递框架STMP。对于量化测量系统,进一步提出Q-STMP,增加了分量级MMSE去量化模块。
  • Result: STMP在性能-复杂度权衡上显著优于基线方法,Q-STMP在1比特量化下仍保持鲁棒性。两种算法通常10次迭代内收敛,且其渐近性能可通过状态演化方程准确预测。
  • Conclusion: STMP结合了消息传递的快速收敛和分数生成先验的表达能力,为压缩图像恢复提供了高效解决方案,特别是在高度欠定和量化测量场景下表现优异。

[85] S2D: Sparse-To-Dense Keymask Distillation for Unsupervised Video Instance Segmentation

Leon Sick,Lukas Hoyer,Dominik Engel,Pedro Hermosilla,Timo Ropinski

Main category: cs.CV

TL;DR: 提出首个完全在真实视频数据上训练的无监督视频实例分割模型,通过关键掩码识别和稀疏到密集蒸馏方法,显著提升分割质量并超越现有方法。

  • Motivation: 现有无监督视频实例分割方法主要依赖从图像数据集合成的视频数据,但这种方法无法准确建模真实视频中的复杂运动(如视角变化、部件运动、相机运动等),导致分割质量受限。
  • Method: 1. 从单帧无监督实例分割开始;2. 利用深度运动先验识别高质量关键掩码建立时序一致性;3. 提出稀疏到密集蒸馏方法,结合时序DropLoss训练分割模型进行隐式掩码传播;4. 在生成的密集标签集上训练最终模型。
  • Result: 该方法在多个基准测试中超越了当前最先进的无监督视频实例分割方法,证明了完全在真实视频数据上训练的可行性和优越性。
  • Conclusion: 通过利用真实视频数据和深度运动先验,结合关键掩码识别和稀疏到密集蒸馏策略,能够有效解决无监督视频实例分割中的时序一致性问题,显著提升分割性能。

[86] A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning

Zixin Zhang,Kanghao Chen,Hanqing Wang,Hongfei Zhang,Harold Haodong Chen,Chenfei Liao,Litao Guo,Ying-Cong Chen

Main category: cs.CV

TL;DR: 提出A4-Agent训练免费代理框架,通过解耦affordance预测为Dreamer、Thinker、Spotter三阶段,利用预训练基础模型实现零样本优越性能

  • Motivation: 现有端到端模型将高层推理和低层grounding耦合在单一流程中,依赖标注数据训练,导致对新物体和未见环境的泛化能力差
  • Method: 提出A4-Agent训练免费代理框架,将affordance预测解耦为三阶段:Dreamer用生成模型可视化交互过程,Thinker用大视觉语言模型决定交互对象部位,Spotter用视觉基础模型精确定位交互区域
  • Result: 零样本框架在多个基准测试中显著优于最先进的监督方法,并在真实世界环境中展现出强大的泛化能力
  • Conclusion: 通过解耦affordance预测并协调专门的基础模型,无需任务特定微调即可实现优越性能,为embodied AI提供了新的范式

[87] TACK Tunnel Data (TTD): A Benchmark Dataset for Deep Learning-Based Defect Detection in Tunnels

Andreas Sjölander,Valeria Belloni,Robel Fekadu,Andrea Nascetti

Main category: cs.CV

TL;DR: 作者提出了一个新的公开隧道缺陷数据集,包含三种不同隧道衬砌的标注图像,涵盖裂缝、渗漏和渗水等典型缺陷,旨在支持深度学习方法的自动化隧道检测。

  • Motivation: 隧道作为重要交通基础设施,面临老化和劣化问题,传统人工检测方法耗时、主观且昂贵。现有自动化检测方法受限于隧道数据集的稀缺性,需要领域特定的数据集来推动技术进步。
  • Method: 创建并公开一个包含三种不同隧道衬砌的标注图像数据集,涵盖裂缝、渗漏和渗水等典型缺陷。数据集设计支持监督、半监督和无监督的深度学习方法,并考虑不同纹理和施工技术的多样性。
  • Result: 提出了一个公开可用的隧道缺陷数据集,解决了领域特定数据缺乏的问题。该数据集支持多种深度学习方法,并可用于研究模型在不同隧道类型间的泛化和迁移能力。
  • Conclusion: 通过提供领域特定的公开数据集,该研究有助于推进自动化隧道检测技术的发展,促进更安全、更高效的基础设施维护策略。

[88] SuperCLIP: CLIP with Simple Classification Supervision

Weiheng Zhao,Zilong Huang,Jiashi Feng,Xinggang Wang

Main category: cs.CV

TL;DR: SuperCLIP通过添加轻量级分类层增强CLIP的细粒度语义对齐能力,在几乎不增加计算成本的情况下提升多任务性能

  • Motivation: CLIP模型在训练时只优化全局图像-文本相似度,忽视了token级别的监督信号,导致无法充分利用文本中的细粒度语义信息,特别是在处理长而详细的描述时问题更加明显
  • Method: 提出SuperCLIP框架,在对比学习基础上增加基于分类的监督。仅需在视觉编码器上添加一个轻量级线性层,利用token级别的线索增强视觉-文本对齐,总FLOPs仅增加0.077%,无需额外标注数据
  • Result: SuperCLIP在零样本分类、图像-文本检索和纯视觉任务上均取得一致提升。无论使用原始网络数据还是重新标注的丰富数据,都能有效恢复文本监督信号。同时缓解了CLIP在小批量训练时的性能下降问题
  • Conclusion: SuperCLIP通过简单的分类监督增强,有效解决了CLIP在细粒度语义对齐上的不足,在几乎不增加计算成本的情况下显著提升了多任务性能,具有很好的通用性和实用性

[89] SignIT: A Comprehensive Dataset and Multimodal Analysis for Italian Sign Language Recognition

Alessia Micieli,Giovanni Maria Farinella,Francesco Ragusa

Main category: cs.CV

TL;DR: SignIT是一个新的意大利手语识别数据集,包含644个视频(3.33小时),涵盖94个手语类别,分为5个宏观类别,并提供了2D关键点标注和基准测试。

  • Motivation: 缺乏专门针对意大利手语(LIS)的公开数据集,需要为手语识别研究提供标准化的基准测试资源。
  • Method: 创建了包含644个视频的SignIT数据集,手动标注了94个手语类别,提取了手、脸和身体的2D关键点,并采用多种最先进模型进行基准测试。
  • Result: 结果显示现有模型在这个具有挑战性的LIS数据集上表现有限,时间信息、2D关键点和RGB帧对模型性能有不同影响。
  • Conclusion: SignIT数据集为意大利手语识别研究提供了重要资源,揭示了当前模型的局限性,并公开了数据和标注供社区使用。

[90] Native Intelligence Emerges from Large-Scale Clinical Practice: A Retinal Foundation Model with Deployment Efficiency

Jia Guo,Jiawei Du,Shengzhu Yang,Shuai Lu,Wenquan Cheng,Kaiwen Zhang,Yihua Sun,Chuhong Yang,Weihang Zhang,Fang Chen,Yilan Wu,Lie Ju,Guochen Ning,Longfei Ma,Huiping Yao,Jinyuan Wang,Peilun Shi,Yukun Zhou,Jie Xu,Pearse A. Keane,Hanruo Liu,Hongen Liao,Ningli Wang,Huiqi Li

Main category: cs.CV

TL;DR: ReVision是一个从大规模远程医疗项目中学习的视网膜基础模型,无需任务特定训练即可实现零样本疾病检测,在低资源环境中具有高效部署能力。

  • Motivation: 当前视网膜基础模型受限于缺乏真实临床背景的研究数据集,且需要针对每个应用进行大量任务特定优化,限制了在低资源环境中的部署效率。
  • Method: 从中国162家医疗机构十年远程医疗项目中收集的485,980张彩色眼底照片及其对应诊断报告的自然对齐中学习,构建临床原生智能模型。
  • Result: 在27个眼科基准测试中,零样本疾病检测平均AUROC达0.946(12个公共基准)和0.952(3个独立临床队列);仅需极少参数和标注样本即可匹配精细调优模型;前瞻性读者研究中将眼科医生诊断准确率提升14.8%。
  • Conclusion: 临床原生智能可直接从临床档案中提取,无需额外标注即可构建适用于各种低资源环境的医疗AI系统。

[91] DASP: Self-supervised Nighttime Monocular Depth Estimation with Domain Adaptation of Spatiotemporal Priors

Yiheng Huang,Junhong Chen,Anqi Ning,Zhanhong Liang,Nick Michiels,Luc Claesen,Wenyin Liu

Main category: cs.CV

TL;DR: DASP:利用时空先验进行夜间深度估计的自监督框架,通过对抗分支提取白天先验,自监督分支学习,在夜间场景下实现SOTA性能。

  • Motivation: 自监督单目深度估计在白天表现良好,但在夜间由于低可见度和变化光照(如光线不足导致纹理缺失区域、运动物体带来模糊区域)性能显著下降。
  • Method: DASP框架包含对抗分支和自监督分支。对抗分支通过设计的时空先验学习块(SPLB)提取白天先验,SPLB包含基于空间的时序学习模块(STLM)和轴向空间学习模块(ASLM)。自监督分支提出3D一致性投影损失,将目标帧和源帧双向投影到共享3D空间,计算3D差异作为损失。
  • Result: 在Oxford RobotCar和nuScenes数据集上的广泛实验表明,该方法在夜间深度估计方面达到了最先进的性能。消融研究进一步验证了每个组件的有效性。
  • Conclusion: 提出的DASP框架通过有效利用时空先验,成功解决了夜间深度估计的挑战,为低光照条件下的深度感知提供了有效解决方案。

[92] CAPRMIL: Context-Aware Patch Representations for Multiple Instance Learning

Andreas Lolos,Theofilos Christodoulou,Aris L. Moustakas,Stergios Christodoulidis,Maria Vakalopoulou

Main category: cs.CV

TL;DR: CAPRMIL提出了一种新的多实例学习框架,通过全局上下文感知的patch嵌入和简单的均值聚合器,在计算病理学中实现了与SOTA相当的性能,同时大幅减少了参数数量和计算开销。

  • Motivation: 在计算病理学中,全切片图像(WSI)的千兆像素尺度和像素级标注稀缺使得弱监督成为标准。传统MIL方法依赖复杂的注意力聚合机制,计算开销大。本文旨在简化MIL框架,通过改进patch表示学习来降低聚合器的复杂度。
  • Method: CAPRMIL采用聚合器无关的框架:1)使用冻结的patch编码器提取特征;2)将patch特征投影到少量全局上下文/形态感知的token中;3)利用多头自注意力注入全局上下文,计算复杂度与bag大小呈线性关系;4)配合简单的均值MIL聚合器进行下游任务。
  • Result: 在多个公共病理学基准测试中,CAPRMIL达到了与SOTA相当的切片级性能,同时将可训练参数减少48%-92.8%,推理时的FLOPs降低52%-99%,在GPU内存效率和训练时间方面表现最佳。
  • Conclusion: 在聚合之前学习丰富的上下文感知实例表示是复杂池化方法的有效且可扩展的替代方案,为全切片分析提供了高效且参数效率高的MIL框架。

[93] HiFi-Portrait: Zero-shot Identity-preserved Portrait Generation with High-fidelity Multi-face Fusion

Yifang Xu,Benxiang Zhai,Yunzhuo Sun,Ming Li,Yang Li,Sidan Du

Main category: cs.CV

TL;DR: HiFi-Portrait:一种基于扩散模型的高保真零样本肖像生成方法,通过多面部特征融合和3D感知地标对齐,显著提升身份保真度和面部属性控制能力。

  • Motivation: 现有基于多参考图像的肖像生成方法存在保真度低、面部属性控制不精确的问题,需要一种能够同时保持高身份保真度和精确面部属性控制的方法。
  • Method: 1. 引入面部细化器和地标生成器获取细粒度多面部特征和3D感知面部地标;2. 设计HiFi-Net融合多面部特征并与地标对齐;3. 构建自动化ID数据集训练管道。
  • Result: 实验表明,该方法在面部相似性和可控性方面超越现有SOTA方法,且与基于SDXL的工作兼容。
  • Conclusion: HiFi-Portrait通过创新的多面部特征融合和地标对齐机制,成功解决了身份保真肖像生成中的保真度和控制精度问题,为高质量肖像生成提供了有效解决方案。

[94] TAT: Task-Adaptive Transformer for All-in-One Medical Image Restoration

Zhiwen Yang,Jiaju Zhang,Yang Yi,Jian Liang,Bingzheng Wei,Yan Xu

Main category: cs.CV

TL;DR: 提出任务自适应Transformer(TAT)框架,通过任务自适应权重生成和损失平衡策略,解决多任务医学图像恢复中的任务干扰和任务不平衡问题。

  • Motivation: 医学图像恢复(MedIR)中,All-in-One模型需要同时处理多种不同模态和退化类型的任务。由于任务间的显著差异,共享模型面临两个关键挑战:任务干扰(不同任务在同一参数上产生冲突的梯度更新方向)和任务不平衡(不同任务的学习难度不同导致优化不均衡)。
  • Method: 提出任务自适应Transformer(TAT)框架,包含两个核心创新:1)任务自适应权重生成策略:为每个任务生成特定的权重参数,避免共享权重上的梯度冲突;2)任务自适应损失平衡策略:根据任务特定学习难度动态调整损失权重,防止某些任务主导训练或训练不足。
  • Result: 在PET合成、CT去噪和MRI超分辨率三个MedIR任务上进行了广泛实验,TAT在任务特定和All-in-One设置下均取得了最先进的性能。
  • Conclusion: TAT框架通过任务自适应机制有效解决了多任务医学图像恢复中的任务干扰和任务不平衡问题,在多个MedIR任务上表现出优越性能,为All-in-One医学图像恢复模型提供了有效的解决方案。

[95] CLNet: Cross-View Correspondence Makes a Stronger Geo-Localizationer

Xianwei Cao,Dou Quan,Shuang Wang,Ning Huyan,Wei Wang,Yunan Li,Licheng Jiao

Main category: cs.CV

TL;DR: CLNet提出了一种新颖的对应感知特征细化框架,通过三个可学习模块显式建模跨视图的空间对应关系,在多个基准数据集上实现了最先进的性能。

  • Motivation: 现有的基于图像检索的跨视角地理定位方法主要依赖学习鲁棒的全局表示或隐式特征对齐,往往无法建模对精确定位至关重要的显式空间对应关系。
  • Method: 提出了CLNet框架,包含三个互补模块:神经对应图(NCM)通过潜在对应场进行空间对齐;非线性嵌入转换器(NEC)使用MLP进行跨视角特征重映射;全局特征重校准(GFR)基于学习到的空间线索重新加权信息丰富的特征通道。
  • Result: 在CVUSA、CVACT、VIGOR和University-1652四个公开基准数据集上的广泛实验表明,CLNet实现了最先进的性能,同时提供了更好的可解释性和泛化能力。
  • Conclusion: CLNet能够联合捕获高级语义和细粒度对齐,显式地弥合不同视角之间的语义和几何差距,为跨视角地理定位提供了一种有效的解决方案。

[96] FoodLogAthl-218: Constructing a Real-World Food Image Dataset Using Dietary Management Applications

Mitsuki Watanabe,Sosuke Amano,Kiyoharu Aizawa,Yoko Yamakata

Main category: cs.CV

TL;DR: FoodLogAthl-218是一个从真实膳食管理应用收集的食品图像数据集,包含6,925张图像、218个食品类别和14,349个边界框,具有丰富的元数据,并提出了增量微调和上下文感知分类等新任务。

  • Motivation: 现有食品图像分类模型大多基于网络爬取的图像,这些图像与用户真实膳食照片存在差异,无法满足实际膳食管理应用的需求。
  • Method: 从膳食管理应用FoodLog Athl收集真实用户的膳食记录图像,采用"先收集后标注"的方式构建数据集,包含218个食品类别和丰富的元数据,并设计了标准分类、增量微调和上下文感知分类三个任务。
  • Result: 创建了FoodLogAthl-218数据集,包含6,925张图像、218个食品类别、14,349个边界框,具有更大的类内多样性、自然的食品类型频率分布,以及更真实的用户拍摄图像。
  • Conclusion: FoodLogAthl-218数据集填补了真实世界食品图像数据的空白,为膳食管理应用提供了更实用的训练资源,并通过引入新任务推动了食品图像分析领域的发展。

[97] LLM-driven Knowledge Enhancement for Multimodal Cancer Survival Prediction

Chenyu Zhao,Yingxue Xu,Fengtao Zhou,Yihui Wang,Hao Chen

Main category: cs.CV

TL;DR: KEMM:基于LLM的知识增强多模态癌症生存预测模型,通过专家报告和预后背景知识提升病理图像和基因组数据的特征提取与对齐能力

  • Motivation: 当前多模态生存预测方法依赖高维冗余的病理图像和基因组数据,难以提取判别性特征并实现模态对齐;简单的生存随访标签不足以监督如此复杂的任务
  • Method: 提出KEMM模型:1)整合专家报告(由病理学家提供并经LLM提炼)提供简洁临床诊断;2)引入预后背景知识(由LLM生成);3)设计知识增强跨模态注意力模块(KECM)引导网络关注判别性和生存相关特征
  • Result: 在五个数据集上的实验表明,KEMM实现了最先进的性能
  • Conclusion: 通过整合专家报告和预后背景知识,KEMM能够有效处理高维冗余数据,提升多模态癌症生存预测的准确性和可解释性

[98] TUMTraf EMOT: Event-Based Multi-Object Tracking Dataset and Baseline for Traffic Scenarios

Mengyu Li,Xingcheng Zhou,Guang Chen,Alois Knoll,Hu Cao

Main category: cs.CV

TL;DR: 本文提出了首个面向智能交通系统的事件相机数据集,用于车辆和行人检测与跟踪,并建立了基于检测的跟踪基准,取得了优异性能。

  • Motivation: 智能交通系统中传统帧式相机在弱光和高速度条件下表现不佳,而事件相机具有低延迟、高动态范围和高时间分辨率的优势,但相关研究较少,需要专门的数据集来推动该领域发展。
  • Method: 创建了首个针对事件相机智能交通系统的数据集,包含车辆和行人检测与跟踪任务,并基于该数据集建立了跟踪-检测基准,设计了专门的特征提取器。
  • Result: 在该数据集上建立的基准系统取得了优异的性能表现,验证了事件相机在智能交通系统中的潜力。
  • Conclusion: 事件相机在智能交通系统中具有显著优势,本文提出的数据集和基准为相关研究提供了重要基础,有助于推动事件视觉在交通领域的应用发展。

[99] FakeRadar: Probing Forgery Outliers to Detect Unknown Deepfake Videos

Zhaolun Li,Jichang Li,Yinqi Cai,Junye Chen,Xiaonan Luo,Guanbin Li,Rushi Lan

Main category: cs.CV

TL;DR: FakeRadar:基于异常探测的深度伪造视频检测框架,通过主动探测特征空间中的分布差异,提升对未知伪造技术的跨域泛化能力。

  • Motivation: 现有深度伪造检测方法依赖特定伪造线索,对已知伪造类型表现良好,但对新兴伪造技术泛化能力差。这是因为它们无法有效适应未见过的伪造模式。
  • Method: 1. 伪造异常探测:利用大规模预训练模型主动探测特征空间,显式突出真实视频、已知伪造和未知伪造之间的分布差异。2. 动态子簇建模和簇条件异常生成:合成子簇边界附近的异常样本,模拟超出已知伪造类型的新伪造伪影。3. 异常引导三训练:通过异常驱动对比学习和异常条件交叉熵损失,优化检测器区分真实、伪造和异常样本。
  • Result: 实验表明,FakeRadar在各种深度伪造视频检测基准数据集上优于现有方法,特别是在跨域评估中,能够有效处理各种新兴伪造技术。
  • Conclusion: FakeRadar通过主动探测特征空间中的分布差异并合成异常样本,显著提升了深度伪造检测的跨域泛化能力,为应对不断演变的伪造技术提供了有效解决方案。

[100] WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Wenqiang Sun,Haiyu Zhang,Haoyuan Wang,Junta Wu,Zehan Wang,Zhenwei Wang,Yunhong Wang,Jun Zhang,Tengfei Wang,Chunchao Guo

Main category: cs.CV

TL;DR: WorldPlay是一个流式视频扩散模型,通过三项关键技术实现实时交互式世界建模,在720p分辨率下以24FPS生成具有长期几何一致性的长序列视频。

  • Motivation: 现有方法在速度和内存之间存在权衡限制,难以同时实现实时交互和长期几何一致性。WorldPlay旨在解决这一核心矛盾,实现既能快速响应又保持长期一致性的流式视频生成。
  • Method: 1) 双重动作表示:支持对键盘鼠标输入的鲁棒动作控制;2) 重构上下文记忆:动态重建过去帧的上下文,使用时间重帧技术保持几何重要但久远帧的可访问性;3) 上下文强制:针对内存感知模型设计的蒸馏方法,保持师生模型间内存上下文对齐。
  • Result: WorldPlay能够以24FPS实时生成长序列720p视频,相比现有技术具有更优的一致性,并在多样化场景中展现出强大的泛化能力。
  • Conclusion: WorldPlay通过创新的内存管理和蒸馏技术,成功解决了流式视频生成中速度与内存的权衡问题,实现了实时交互式世界建模,为高质量长序列视频生成提供了有效解决方案。

[101] Distill Video Datasets into Images

Zhenghao Zhao,Haoxuan Wang,Kai Wang,Yuzhang Shang,Yuan Hong,Yan Yan

Main category: cs.CV

TL;DR: SFVD提出单帧视频集蒸馏方法,通过将视频蒸馏为单帧并利用可微分插值重建视频序列,显著提升视频数据集蒸馏性能

  • Motivation: 现有数据集蒸馏方法在图像数据上表现良好,但扩展到视频数据时面临挑战,主要原因是时间维度引入大量可学习参数导致优化困难和收敛问题
  • Method: 提出单帧视频集蒸馏(SFVD):1) 将视频蒸馏为每类的高信息量单帧;2) 使用可微分插值将单帧转换为视频序列并与原始数据集匹配;3) 更新仅限于单帧以提高优化效率;4) 通过通道重塑层将蒸馏帧与真实视频采样结合以融入时间信息
  • Result: 在多个基准测试中显著优于先前方法,在MiniUCF上提升高达5.3%,提供了更有效的视频数据集蒸馏解决方案
  • Conclusion: 单帧足以捕捉视频的判别性语义,SFVD通过将视频蒸馏为单帧并巧妙处理时间信息,成功解决了视频数据集蒸馏的优化挑战,实现了更好的性能

[102] AMD-HookNet++: Evolution of AMD-HookNet with Hybrid CNN-Transformer Feature Enhancement for Glacier Calving Front Segmentation

Fei Wu,Marcel Dreier,Nora Gourmelon,Sebastian Wind,Jianlin Zhang,Thorsten Seehaus,Matthias Braun,Andreas Maier,Vincent Christlein

Main category: cs.CV

TL;DR: AMD-HookNet++提出了一种混合CNN-Transformer架构,用于SAR图像中的冰川分割和崩解前缘检测,通过增强的空间通道注意力模块和像素级对比深度监督,在CaFFe数据集上实现了SOTA性能。

  • Motivation: 现有纯CNN方法(如AMD-HookNet)在捕捉长距离依赖关系方面存在局限,而纯Transformer方法会产生锯齿状边缘。需要一种能同时保持局部细节和全局上下文的方法来精确分割冰川并平滑描绘崩解前缘。
  • Method: 提出混合CNN-Transformer架构:1) Transformer分支捕获长距离依赖和全局上下文;2) CNN分支保留局部细节;3) 增强的空间通道注意力模块动态调整空间和通道维度的token关系;4) 像素到像素对比深度监督集成像素级度量学习。
  • Result: 在CaFFe基准数据集上实现新SOTA:IoU 78.2,HD95 1,318米,MDE 367米。更重要的是,混合模型产生了更平滑的崩解前缘描绘,解决了纯Transformer方法常见的锯齿边缘问题。
  • Conclusion: AMD-HookNet++通过有效结合CNN的局部细节捕捉能力和Transformer的全局上下文建模能力,在冰川分割和崩解前缘检测任务上取得了显著改进,为冰川监测提供了更精确的工具。

[103] A Multicenter Benchmark of Multiple Instance Learning Models for Lymphoma Subtyping from HE-stained Whole Slide Images

Rao Muhammad Umer,Daniel Sens,Jonathan Noll,Christian Matek,Lukas Wolfseher,Rainer Spang,Ralf Huss,Johannes Raffler,Sarah Reinke,Wolfram Klapper,Katja Steiger,Kristina Schwamborn,Carsten Marr

Main category: cs.CV

TL;DR: 该研究首次建立了多中心淋巴瘤亚型分类基准数据集,系统评估了5种病理学基础模型在3种放大倍数下的性能,发现模型在分布内测试集表现良好(>80%),但在分布外测试集性能显著下降(~60%),揭示了泛化挑战。

  • Motivation: 淋巴瘤的及时准确诊断对癌症治疗至关重要,但标准诊断流程需要多种昂贵设备和专业人员,导致治疗延迟。深度学习可以从常规HE染色切片中提取诊断信息,但目前缺乏多中心淋巴瘤亚型分类的全面基准研究。
  • Method: 创建首个多中心淋巴瘤基准数据集,涵盖4种常见淋巴瘤亚型和健康对照组织。系统评估5种公开的病理学基础模型(H-optimus-1, H0-mini, Virchow2, UNI2, Titan),结合基于注意力的AB-MIL和基于Transformer的TransMIL聚合器,在3种放大倍数(10x, 20x, 40x)下进行测试。
  • Result: 在分布内测试集上,所有模型在所有放大倍数下均达到超过80%的多类平衡准确率,各基础模型表现相似,两种聚合方法结果相当。放大倍数研究表明40x分辨率已足够,更高分辨率或跨放大倍数聚合未带来性能提升。但在分布外测试集上,性能显著下降至约60%。
  • Conclusion: 该研究揭示了淋巴瘤亚型分类模型在分布外数据上的显著泛化挑战。为推进该领域发展,需要更大规模的多中心研究覆盖更多罕见淋巴瘤亚型。研究提供了自动化基准测试流程以促进未来研究。

[104] Adaptable Segmentation Pipeline for Diverse Brain Tumors with Radiomic-guided Subtyping and Lesion-Wise Model Ensemble

Daniel Capellán-Martín,Abhijeet Parida,Zhifan Jiang,Nishad Kulkarni,Krithika Iyer,Austin Tapp,Syed Muhammad Anwar,María J. Ledesma-Carbayo,Marius George Linguraru

Main category: cs.CV

TL;DR: 提出一个灵活、模块化的脑肿瘤分割流程,通过选择组合先进模型、应用肿瘤特异性处理,在BraTS 2025多个挑战中取得与顶级算法相当的性能。

  • Motivation: 由于脑肿瘤类型差异大,在多参数MRI上实现鲁棒且可泛化的分割仍然困难。BraTS 2025挑战包含成人/儿童肿瘤、脑膜瘤、脑转移瘤等多种数据集,需要适应不同肿瘤特性的解决方案。
  • Method: 开发灵活模块化流程:1) 选择和组合先进分割模型;2) 训练前后应用肿瘤和病灶特异性处理;3) 使用MRI放射组学特征检测肿瘤亚型以平衡训练;4) 自定义病灶级性能指标确定集成中各模型权重;5) 优化后处理细化预测。
  • Result: 在BraTS测试集上,该流程在多个挑战中取得了与顶级排名算法相当的性能表现。
  • Conclusion: 自定义病灶感知处理和模型选择能产生鲁棒的分割结果,且不锁定于特定网络架构。该方法有潜力用于临床实践的定量肿瘤测量,支持诊断和预后评估。

[105] ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Lihong Wang,Liangqi Li,Weiwei Feng,Jiamin Wu,Changtao Miao,Tieru Wu,Rui Ma,Bo Zhang,Zhe Li

Main category: cs.CV

TL;DR: ViRC框架通过引入Reason Chunking机制,将多模态数学推理分解为关键推理单元,模拟人类专家解题模式,在多个数学基准上平均提升18.8%

  • Motivation: 现有MLLMs在数学任务中通常仅从静态数学图像进行文本推理,忽略了推理过程中的动态视觉获取。而人类会反复检查视觉图像并采用逐步推理来证明中间命题,这种分解问题解决过程的方式符合认知科学中的米勒定律。
  • Method: 提出ViRC框架,引入Reason Chunking机制将多模态数学CoT结构化为一连串关键推理单元(CRUs)。CRUs确保单元内文本连贯性以验证中间命题,同时跨单元整合视觉信息生成后续命题。创建CRUX数据集,使用三种视觉工具和四种推理模式为每个数学问题提供明确标注的CRUs。采用渐进式训练策略:指导性SFT、实践性SFT和策略性RL。
  • Result: ViRC-7B模型在多个数学基准上相比基线平均提升18.8%。
  • Conclusion: ViRC框架通过模拟人类专家的问题解决模式,将多模态数学推理分解为关键推理单元,显著提升了MLLMs在数学任务中的推理能力,为多模态推理提供了新的结构化方法。

[106] Enhancing Visual Sentiment Analysis via Semiotic Isotopy-Guided Dataset Construction

Marco Blanchini,Giovanna Maria Dimitri,Benedetta Tondi,Tarcisio Lancioni,Mauro Barni

Main category: cs.CV

TL;DR: 该论文提出了一种基于符号学同位素概念的视觉情感分析数据集构建方法,能够创建更大规模、更具多样性的数据集,从而训练出具有更好泛化能力的模型。

  • Motivation: 视觉情感分析面临两大挑战:1)构建大规模数据集困难,因为情感显著性图像多样性极大且数据获取困难;2)现有方法难以识别图像中的情感显著性元素。这导致VSA算法在不同数据集间的泛化性能有限。
  • Method: 从现有数据集合出发,通过整合符号学同位素概念来创建新的更大规模数据集。该方法不仅包含比原始数据更广泛的图像多样性,还能训练模型专注于图像元素的情感相关组合。
  • Result: 使用该方法生成的数据集训练的模型,在主要VSA基准测试中始终优于在原始数据集上训练的模型,实现了更优越的跨数据集泛化性能。
  • Conclusion: 通过整合符号学同位素概念的数据集构建方法,能够有效解决VSA领域的数据稀缺和模型泛化问题,为视觉情感分析提供了更可靠的数据基础。

[107] ART: Articulated Reconstruction Transformer

Zizhang Li,Cheng Zhang,Zhengqin Li,Henry Howard-Jenkins,Zhaoyang Lv,Chen Geng,Jiajun Wu,Richard Newcombe,Jakob Engel,Zhao Dong

Main category: cs.CV

TL;DR: ART是一个类别无关的前馈模型,能从稀疏多状态RGB图像重建完整的3D关节物体,通过部件化预测实现物理可解释的重建。

  • Motivation: 现有关节物体重建方法要么依赖缓慢优化和脆弱的跨状态对应关系,要么局限于特定物体类别的前馈模型,需要一种更高效、通用的解决方案。
  • Method: 将关节物体视为刚性部件组装体,使用新设计的transformer架构将稀疏图像输入映射到可学习部件槽,联合解码部件的3D几何、纹理和显式关节参数。
  • Result: 在大规模多样化数据集上训练,在多个基准测试中显著超越现有基线,建立了图像输入关节物体重建的新SOTA。
  • Conclusion: ART实现了类别无关、前馈式的关节物体重建,生成物理可解释且可直接用于仿真的结果,为关节物体重建提供了新方法。

[108] VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image

Sicheng Xu,Guojun Chen,Jiaolong Yang,Yizhong Zhang,Yu Deng,Steve Lin,Baining Guo

Main category: cs.CV

TL;DR: VASA-3D:基于音频驱动的单次3D头部化身生成器,通过VASA-1运动潜变量实现高真实感3D头部重建,支持512x512自由视角视频在线生成

  • Motivation: 解决两个主要挑战:捕捉真实人脸中的细微表情细节,以及从单张肖像图像重建复杂的3D头部化身
  • Method: 利用VASA-1的运动潜变量建模表情细节,设计基于运动潜变量条件的3D头部模型,通过优化框架使用从输入图像合成的参考头部视频帧进行个性化定制
  • Result: VASA-3D生成比现有技术更真实的3D说话头部,支持在线生成512x512自由视角视频,最高达75 FPS,实现更沉浸式的逼真3D化身交互
  • Conclusion: VASA-3D成功解决了单图像3D头部化身生成的挑战,通过运动潜变量转换和优化框架实现了高真实感的3D说话头部生成,为沉浸式交互提供了技术基础

[109] Native and Compact Structured Latents for 3D Generation

Jianfeng Xiang,Xiaoxue Chen,Sicheng Xu,Ruicheng Wang,Zelong Lv,Yu Deng,Hongyuan Zhu,Yue Dong,Hao Zhao,Nicholas Jing Yuan,Jiaolong Yang

Main category: cs.CV

TL;DR: 提出O-Voxel稀疏体素表示和Sparse Compression VAE,结合4B参数流匹配模型,显著提升3D生成质量

  • Motivation: 现有3D表示方法难以处理复杂拓扑结构和详细外观,限制了3D生成模型的真实感
  • Method: 1. 提出O-Voxel稀疏体素表示,编码几何和外观信息;2. 设计Sparse Compression VAE实现高空间压缩率;3. 训练4B参数的大规模流匹配模型
  • Result: 生成的3D资产在几何和材质质量上远超现有模型,推理效率高,能处理任意拓扑结构
  • Conclusion: 该方法为3D生成建模提供了重要进展,解决了复杂拓扑和详细外观的表示问题

[110] CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

Zihan Wang,Jiashun Wang,Jeff Tan,Yiwen Zhao,Jessica Hodgins,Shubham Tulsiani,Deva Ramanan

Main category: cs.CV

TL;DR: CRISP是一种从单目视频中恢复可模拟人体运动和场景几何的方法,通过平面基元拟合、接触建模和物理验证,显著提升运动跟踪成功率。

  • Motivation: 现有的人体-场景联合重建方法要么依赖数据先验而无物理约束,要么产生有噪声的几何导致运动跟踪策略失败。需要一种能生成干净、凸面、可模拟的几何的方法。
  • Method: 1) 通过深度、法线和光流聚类,用平面基元拟合点云重建场景几何;2) 利用人体-场景接触建模重建被遮挡的几何;3) 通过强化学习驱动人形控制器验证物理合理性。
  • Result: 在EMDB和PROX基准上,运动跟踪失败率从55.2%降至6.9%,RL模拟吞吐量提升43%。在真实世界视频、网络视频甚至Sora生成视频上均验证有效。
  • Conclusion: CRISP能够大规模生成物理有效的人体运动和交互环境,显著推进机器人学和AR/VR领域的真实到模拟应用。

[111] Spherical Leech Quantization for Visual Tokenization and Generation

Yue Zhao,Hanwen Jiang,Zhenlin Xu,Chutong Yang,Ehsan Adeli,Philipp Krähenbühl

Main category: cs.CV

TL;DR: 本文提出了一种基于Leech晶格的非参数量化方法Λ₂₄-SQ,通过晶格编码统一了不同的非参数量化方法,在图像标记化和压缩任务中取得了优于现有方法BSQ的重建质量

  • Motivation: 非参数量化因其参数效率和可扩展性受到关注,但现有方法如BSQ在训练自编码器时需要辅助损失项。本文旨在通过晶格编码理论统一不同非参数量化方法,并寻找更好的量化方案来简化训练并改善重建-压缩权衡。
  • Method: 1. 通过晶格编码理论统一不同非参数量化方法;2. 探索随机晶格、广义斐波那契晶格和最密球堆积晶格等候选方案;3. 提出基于Leech晶格的量化方法Λ₂₄-SQ,利用其高对称性和超球面上的均匀分布特性。
  • Result: Λ₂₄-SQ在所有指标上都优于现有最佳方法BSQ,同时消耗更少的比特数。在图像标记化和压缩任务中实现了更好的重建质量,改进也扩展到最先进的自回归图像生成框架。
  • Conclusion: 基于Leech晶格的量化方法Λ₂₄-SQ通过其高对称性和均匀分布特性,简化了训练过程并改善了重建-压缩权衡,为非参数量化提供了有效的解决方案。

[112] TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

Jun Zhang,Teng Wang,Yuying Ge,Yixiao Ge,Xinhao Li,Ying Shan,Limin Wang

Main category: cs.CV

TL;DR: TimeLens系统研究多模态大语言模型的视频时序定位能力,通过高质量数据重建和算法设计优化,在开源模型中达到SOTA性能。

  • Motivation: 虽然多模态大语言模型在各种视频理解任务上表现出色,但针对视频时序定位的优化方法仍未被充分探索。现有基准存在严重的质量问题,导致评估不可靠。
  • Method: 1) 创建TimeLens-Bench:重新标注三个流行基准,建立严格质量标准;2) 构建TimeLens-100K:通过自动重标注流程创建大规模高质量训练数据;3) 算法设计:包括交错文本编码时间表示、免思考的RLVR训练范式等有效实践。
  • Result: TimeLens模型在开源模型中达到SOTA的视频时序定位性能,甚至超越了GPT-5和Gemini-2.5-Flash等专有模型。数据质量分析显示模型排名与旧基准相比发生显著变化。
  • Conclusion: 通过系统研究数据质量和算法设计,TimeLens为视频时序定位建立了可靠基准,提供了高质量数据集和有效训练方法,推动了该领域的发展。

[113] MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives

Sihui Ji,Xi Chen,Shuai Yang,Xin Tao,Pengfei Wan,Hengshuang Zhao

Main category: cs.CV

TL;DR: MemFlow提出了一种动态记忆管理方法,用于提升流式视频生成的长上下文一致性,通过基于文本提示检索相关历史帧并选择性激活记忆令牌,在保持高效性的同时确保叙事连贯性。

  • Motivation: 现有流式视频生成方法通常使用预定义策略压缩历史帧来维护记忆,但不同视频块需要参考不同的历史线索,固定策略难以满足这一需求。核心挑战是在长上下文中保持内容一致性,这对记忆设计提出了高要求。
  • Method: 提出MemFlow方法:1)在生成新视频块前,根据该块的文本提示动态检索最相关的历史帧来更新记忆库;2)生成过程中,在注意力层中仅为每个查询激活记忆库中最相关的令牌。这种方法兼容任何带有KV缓存的流式视频生成模型。
  • Result: MemFlow实现了出色的长上下文一致性,同时计算负担可忽略不计(与无记忆基线相比仅降低7.9%的速度)。即使未来帧中出现新事件或场景切换,也能保持叙事连贯性。
  • Conclusion: MemFlow通过动态记忆检索和选择性激活机制,有效解决了流式视频生成中的长上下文一致性问题,在保持高效性的同时显著提升了生成质量,为流式视频生成提供了灵活且高效的记忆管理方案。

cs.GR

[114] Establishing Stochastic Object Models from Noisy Data via Ambient Measurement-Integrated Diffusion

Jianwei Sun,Xiaoning Lei,Wenhao Cai,Xichen Xu,Yanshu Wang,Hu Gao

Main category: cs.GR

TL;DR: AMID是一种无监督的环境测量集成扩散方法,直接从噪声测量中建立干净的随机对象模型,用于医学图像质量评估

  • Motivation: 医学成像系统评估需要基于任务的图像质量测量,必须考虑解剖变异性等随机因素。传统数学随机对象模型无法捕捉真实解剖结构,而数据驱动方法通常需要临床任务中难以获得的干净数据。
  • Method: 提出AMID(无监督环境测量集成扩散),通过噪声解耦直接从噪声测量中建立干净随机对象模型。采用测量集成策略将测量噪声与扩散轨迹对齐,明确建模测量噪声和扩散噪声在步骤间的耦合,并基于此设计环境损失函数来学习干净随机对象模型。
  • Result: 在真实CT和乳腺X光数据集上的实验表明,AMID在生成保真度方面优于现有方法,并产生更可靠的基于任务的图像质量评估。
  • Conclusion: AMID展示了在无监督医学成像分析中的潜力,能够直接从噪声测量中学习干净随机对象模型,为医学图像质量评估提供更可靠的工具。

cs.CL

[115] JMMMU-Pro: Image-based Japanese Multi-discipline Multimodal Understanding Benchmark via Vibe Benchmark Construction

Atsuyuki Miyai,Shota Onohara,Jeonghun Baek,Kiyoharu Aizawa

Main category: cs.CL

TL;DR: JMMMU-Pro是一个基于图像的日语多学科多模态理解基准,通过将问题图像和文本合成为单张图像,创建需要视觉感知的集成视觉-文本理解任务。采用Vibe Benchmark Construction方法,利用图像生成模型生成候选视觉问题,人工验证和调整,低成本构建高质量基准。

  • Motivation: 现有日语多模态基准需要改进,需要更严格的评估工具来评估LMM的日语能力。从MMMU到MMMU-Pro的演进表明,需要创建集成视觉-文本理解的基准,以更好地评估模型的多模态理解能力。
  • Method: 提出Vibe Benchmark Construction方法:1) 使用图像生成模型(如Nano Banana Pro)生成候选视觉问题;2) 人工验证输出质量;3) 必要时调整提示重新生成。利用Nano Banana Pro的高真实感图像生成能力和干净日语文本嵌入能力,覆盖广泛背景和布局设计。
  • Result: 构建了高质量的JMMMU-Pro基准,所有开源LMM在该基准上都表现不佳,表明JMMMU-Pro是一个具有挑战性的基准,能够有效评估模型的日语多模态理解能力。
  • Conclusion: JMMMU-Pro为评估LMM的日语能力提供了更严格的评估工具,Vibe Benchmark Construction方法为未来基于图像的VQA基准开发提供了高效指导,有助于推动开源社区在多模态理解方面的研究进展。

[116] MMGR: Multi-Modal Generative Reasoning

Zefan Cai,Haoyi Qiu,Tianyi Ma,Haozhe Zhao,Gengze Zhou,Kung-Hsiang Huang,Parisa Kordjamshidi,Minjia Zhang,Xiao Wen,Jiuxiang Gu,Nanyun Peng,Junjie Hu

Main category: cs.CL

TL;DR: MMGR是一个评估生成模型推理能力的新框架,包含物理、逻辑、空间等5种推理维度,在抽象推理、具身导航等3个领域测试,发现当前模型在抽象推理上表现很差(<10%准确率),过度依赖感知数据而非因果正确性。

  • Motivation: 现有视频生成模型(如FVD)主要关注感知质量,但忽略了因果、物理和全局一致性等推理失败问题。需要评估模型是否真正理解世界约束,而不仅仅是生成视觉上逼真的内容。
  • Method: 提出MMGR评估框架,基于5种推理能力(物理、逻辑、3D空间、2D空间、时间),在3个领域(抽象推理、具身导航、物理常识)进行测试,使用细粒度指标要求视频和图像生成的全面正确性。
  • Result: 评估了领先的视频模型(Veo-3, Sora-2, Wan-2.2)和图像模型(Nano-banana系列等),发现模型在物理常识任务上表现尚可,但在抽象推理(ARC-AGI准确率低于10%)和具身导航的长时空间规划上表现很差。
  • Conclusion: 当前模型存在过度依赖感知数据、全局状态一致性弱、目标函数奖励视觉合理性而非因果正确性等关键局限。MMGR提供了统一的诊断基准,为开发具有推理能力的生成世界模型指明了方向。

cs.MM

[117] Generative AI for Video Translation: A Scalable Architecture for Multilingual Video Conferencing

Amirkia Rafiei Oskooei,Eren Caglar,Ibrahim Sahin,Ayse Kayabay,Mehmet S. Aktas

Main category: cs.MM

TL;DR: 提出一个系统级框架来解决级联生成式AI管道在视频翻译等应用中的实时部署瓶颈,通过轮转机制和分段处理协议将计算复杂度从二次降为线性,并在多层级硬件上验证了实时性能。

  • Motivation: 级联生成式AI管道(如视频翻译)在实时部署时面临严重系统级挑战:序列模型推理的累积延迟和二次计算复杂度,这使得多用户视频会议应用无法扩展。
  • Method: 提出一个系统级框架,包含:1) 轮转机制降低多用户场景计算复杂度从二次到线性;2) 分段处理协议管理推理延迟以实现感知实时体验;3) 在多层级硬件(RTX 4060、T4、A100)上实现概念验证管道并进行性能分析。
  • Result: 客观评估显示系统在现代硬件上实现实时吞吐量(τ<1.0);主观用户研究表明可预测的初始处理延迟对用户高度可接受,以换取流畅不间断的播放体验。
  • Conclusion: 提出了一个经过验证的端到端系统设计,为在多语言通信平台中部署可扩展的实时生成式AI应用提供了实用路线图。

cs.AI

[118] Incentivizing Tool-augmented Thinking with Images for Medical Image Analysis

Yankai Jiang,Yujie Zhang,Peng Zhang,Yichen Li,Jintai Chen,Xiaoming Shi,Shihui Zhen

Main category: cs.AI

TL;DR: Ophiuchus是一个工具增强的医疗MLLM框架,通过动态聚焦细粒度视觉区域实现精确定位和诊断,超越现有方法性能上限

  • Motivation: 现有基于推理的医疗MLLM在生成文本推理链方面有进展,但在需要动态迭代聚焦细粒度视觉区域的复杂任务中仍有困难,无法实现精确的定位和诊断
  • Method: 三阶段训练策略:1) 冷启动训练,使用工具集成推理数据实现基本工具选择和关键区域检查;2) 自反思微调,加强反思推理并鼓励重新审视工具输出;3) 智能工具强化学习,直接优化任务特定奖励并模拟专家诊断行为
  • Result: 在多种医疗基准测试(包括VQA、检测和基于推理的分割)中,Ophiuchus始终优于闭源和开源的最先进方法
  • Conclusion: 该方法为医疗AI代理开辟了一条通过工具集成推理真正"用图像思考"的路径,展示了将模型内在定位感知能力与外部工具结合促进高级推理的潜力

physics.ao-ph

[119] WaveSim: A Wavelet-based Multi-scale Similarity Metric for Weather and Climate Fields

Gabriele Accarino,Viviana Acquaviva,Sara Shamekh,Duncan Watson-Parris,David Lawrence

Main category: physics.ao-ph

TL;DR: WaveSim是一种基于小波变换的多尺度相似性度量方法,用于评估天气和气候应用中的空间场,通过分解为幅度、位移和结构三个正交分量,提供可解释的尺度特定相似性评分。

  • Motivation: 传统逐点度量方法缺乏将误差归因于物理尺度或差异模式的能力,无法提供丰富的诊断信息来评估复杂场中的相似性。
  • Method: 利用小波变换将输入场分解为尺度特定的小波系数,然后从这些系数中导出三个正交分量:幅度(量化系数能量分布相似性)、位移(通过比较归一化能量分布的质量中心捕捉空间偏移)和结构(评估独立于位置和振幅的模式组织)。
  • Result: 通过合成测试案例和地球系统模型中关键气候变率模式的物理相关案例研究验证了WaveSim的敏感性和适用性,提供了可解释且诊断丰富的相似性评估框架。
  • Conclusion: WaveSim通过在小波域操作并沿独立轴分解信号,克服了传统度量的限制,为模型比较、评估以及预报系统的校准和训练提供了灵活且可解释的框架。

cs.CR

Quan Yuan,Zhikun Zhang,Linkang Du,Min Chen,Mingyang Sun,Yunjun Gao,Shibo He,Jiming Chen

Main category: cs.CR

TL;DR: VICTOR是首个针对视频识别系统的数据集版权审计方法,通过修改少量样本(如1%)来放大目标模型输出差异,从而检测未经授权的数据集使用。

  • Motivation: 视频识别系统广泛应用,但高质量公开数据集容易被滥用侵权。现有版权审计方法主要针对图像领域,视频数据的时序维度复杂性使得视频领域的版权审计尚未探索。
  • Method: 提出通用且隐蔽的样本修改策略,仅修改少量样本(如1%)来增强目标模型的输出差异。通过比较模型对已发布修改样本和未发布原始样本的行为差异,作为数据集审计的关键依据。
  • Result: 在多个模型和数据集上的广泛实验证明了VICTOR的优越性。该方法对训练视频或目标模型的多种扰动机制具有鲁棒性。
  • Conclusion: VICTOR是视频识别系统数据集版权审计的首个有效方法,能够检测未经授权的数据集使用,为视频领域的数据集版权保护提供了解决方案。

cs.LG

[121] Physics-Guided Deep Learning for Heat Pump Stress Detection: A Comprehensive Analysis on When2Heat Dataset

Md Shahabub Alam,Md Asifuzzaman Jishan,Ayan Kumar Ghosh

Main category: cs.LG

TL;DR: 本文提出了一种物理引导的深度神经网络方法,用于热泵系统应力分类,在When2Heat数据集上实现了78.1%的测试准确率,相比基线方法有显著提升。

  • Motivation: 热泵系统在现代节能建筑中至关重要,但由于复杂的热力学相互作用和有限的真实世界数据,其运行应力检测仍然具有挑战性。
  • Method: 采用物理引导的深度神经网络方法,结合物理引导的特征选择和类别定义,使用5个隐藏层的深度神经网络架构,并采用双重正则化策略。
  • Result: 模型在测试集上达到78.1%的准确率,验证集上达到78.5%的准确率,相比浅层网络提升5.0%,相比有限特征集提升4.0%,相比单一正则化策略提升2.0%。
  • Conclusion: 提出的系统为热泵应力检测提供了生产就绪的解决方案,包含181,348个参数,在AMD Ryzen 9 7950X和RTX 4080硬件上训练时间为720秒。

[122] Composite Classifier-Free Guidance for Multi-Modal Conditioning in Wind Dynamics Super-Resolution

Jacob Schnell,Aditya Makkar,Gunadi Gani,Aniket Srinivasan Ashok,Darren Lo,Mike Optis,Alexander Wong,Yuhao Chen

Main category: cs.LG

TL;DR: 本文提出了一种用于风数据超分辨率的扩散模型WindDM,通过新颖的复合分类器自由引导(CCFG)方法处理多通道输入,在保持高精度的同时大幅降低成本。

  • Motivation: 高分辨率风数据对天气建模和风力发电等应用至关重要,但获取成本高昂且困难。传统方法无法同时实现成本效益和准确性,而现有深度学习方法在处理风数据多通道特性时存在局限。
  • Method: 提出复合分类器自由引导(CCFG)方法,扩展标准CFG以处理多个条件输入;开发WindDM扩散模型,利用CCFG进行工业级风动力学重建。
  • Result: CCFG在风超分辨率任务中比标准CFG产生更高保真度的输出;WindDM在深度学习模型中达到最先进的重建质量,成本比传统方法降低高达1000倍。
  • Conclusion: CCFG能有效处理多条件输入,WindDM为风数据重建提供了高精度、低成本的解决方案,解决了传统方法成本与精度之间的权衡问题。

[123] Enhancing Semi-Supervised Multi-View Graph Convolutional Networks via Supervised Contrastive Learning and Self-Training

Huaiyuan Xiao,Fadi Dornaika,Jingjun Bi

Main category: cs.LG

TL;DR: MV-SupGCN:一种结合交叉熵损失与监督对比损失、融合KNN与半监督图构建、集成对比学习与伪标签的半监督GCN多视图学习框架

  • Motivation: 现有GCN多视图学习方法未能充分利用视图间的互补信息,导致特征表示次优、性能受限。需要更好地整合多视图结构信息,提高模型泛化能力。
  • Method: 1) 设计联合损失函数:交叉熵损失+监督对比损失,减少类内方差、增大类间可分性;2) 融合图构建方法:KNN+半监督图构建,增强数据结构表示的鲁棒性;3) 统一框架:集成对比学习(增强多视图嵌入一致性)与伪标签(为损失函数提供额外监督)
  • Result: 在多个基准测试中,MV-SupGCN持续超越最先进方法,验证了集成方法的有效性
  • Conclusion: MV-SupGCN通过整合互补组件(联合损失、鲁棒图构建、对比学习与伪标签),有效提升了多视图学习的性能,实现了更好的特征表示和泛化能力

[124] EEG-D3: A Solution to the Hidden Overfitting Problem of Deep Learning Models

Siegfried Ludwig,Stylianos Bakas,Konstantinos Barmpas,Georgios Zoumpourlis,Dimitrios A. Adamos,Nikolaos Laskaris,Yannis Panagakis,Stefanos Zafeiriou

Main category: cs.LG

TL;DR: 提出D3方法,通过弱监督训练从EEG数据中分离大脑活动的潜在成分,解决深度学习模型在脑电信号解码中的隐藏过拟合问题,提高模型泛化能力。

  • Motivation: 尽管深度学习在EEG信号解码中取得了高精度,但在实际应用中泛化能力有限。现有模型在受控基准测试中表现良好,但在实际场景中表现不佳,表明存在隐藏的过拟合问题,特别是任务相关伪迹的影响。
  • Method: 提出解耦解码分解(D3)方法,通过预测输入窗口在试验序列中的位置来分离大脑活动的潜在成分,类似于非线性ICA。使用具有完全独立子网络的新型架构确保严格可解释性,并建立特征解释范式来对比不同数据集上的成分激活模式。
  • Result: D3方法能可靠地分离运动想象数据中的大脑活动潜在成分。在下游分类器训练中使用适当成分子集可防止任务相关伪迹引起的隐藏过拟合。该方法在线性可分离的潜在空间中实现了有效的少样本学习,在睡眠阶段分类中表现良好。
  • Conclusion: D3方法能够区分真正的大脑活动成分和虚假特征,避免隐藏过拟合问题,在仅需少量标记数据的情况下实现良好的实际应用泛化能力。该方法为神经科学研究提供了分离个体大脑过程并可能发现未知动态的工具。

cs.RO

[125] WAM-Flow: Parallel Coarse-to-Fine Motion Planning via Discrete Flow Matching for Autonomous Driving

Yifang Xu,Jiahao Cui,Feipeng Cai,Zhihao Zhu,Hanlin Shang,Shan Luan,Mingwang Xu,Neng Zhang,Yaoyi Li,Jia Cai,Siyu Zhu

Main category: cs.RO

TL;DR: WAM-Flow是一个视觉-语言-动作模型,将轨迹规划转化为结构化token空间上的离散流匹配,通过并行双向去噪实现可调节的计算精度权衡,在自动驾驶任务上超越了自回归和扩散基线。

  • Motivation: 当前自回归解码器在轨迹规划任务中存在序列生成效率低、无法并行计算的问题,需要一种能够实现并行生成且保持高质量规划性能的新范式。
  • Method: 1) 使用度量对齐的数值tokenizer通过三元组边界学习保留几何信息;2) 几何感知的流匹配目标;3) 模拟器引导的GRPO对齐,集成安全、进度和舒适度奖励;4) 多阶段适配将预训练自回归主干转换为非因果流模型;5) 通过持续多模态预训练增强道路场景能力。
  • Result: 在NAVSIM v1基准测试中,1步推理达到89.1 PDMS,5步推理达到90.3 PDMS,超越了自回归和基于扩散的VLA基线,展示了离散流匹配在端到端自动驾驶中的优势。
  • Conclusion: 离散流匹配是端到端自动驾驶的一个有前景的新范式,通过并行双向去噪实现了计算效率和规划质量的良好平衡,为自动驾驶规划任务提供了新的解决方案。

[126] WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving

Mingwang Xu,Jiahao Cui,Feipeng Cai,Hanlin Shang,Zhihao Zhu,Shan Luan,Yifang Xu,Neng Zhang,Yaoyi Li,Jia Cai,Siyu Zhu

Main category: cs.RO

TL;DR: WAM-Diff是一个基于掩码扩散的视觉-语言-动作自动驾驶框架,通过离散序列迭代优化未来轨迹,在NAVSIM基准上取得优异表现。

  • Motivation: 当前自动驾驶系统主要采用自回归大语言模型和连续扩散策略,而离散掩码扩散在轨迹生成方面的潜力尚未充分探索。本文旨在探索掩码扩散作为自回归和扩散策略的替代方案。
  • Method: 提出WAM-Diff框架:1)系统性地将掩码扩散适配到自动驾驶,支持灵活的非因果解码顺序;2)通过稀疏MoE架构联合训练运动预测和驾驶导向的视觉问答任务;3)使用组序列策略优化进行在线强化学习,优化序列级驾驶奖励。
  • Result: 在NAVSIM-v1上获得91.0 PDMS,在NAVSIM-v2上获得89.7 EPDMS,证明了掩码扩散在自动驾驶中的有效性。
  • Conclusion: 掩码扩散为自动驾驶轨迹生成提供了有前景的替代方案,支持场景感知的解码策略,为自回归和扩散策略提供了新的选择。

[127] CLAIM: Camera-LiDAR Alignment with Intensity and Monodepth

Zhuo Zhang,Yonghui Liu,Meijie Zhang,Feiyang Tan,Yikang Ding

Main category: cs.RO

TL;DR: CLAIM是一种新颖的相机-LiDAR标定方法,利用单目深度模型的潜力,通过粗到细搜索优化变换参数,无需复杂的数据处理或特征匹配。

  • Motivation: 现有相机-LiDAR标定方法通常需要复杂的数据处理、特征提取和特征匹配步骤,限制了方法的简单性和场景适应性。作者希望开发一种更简单、适应性更强的方法。
  • Method: CLAIM采用粗到细搜索策略,通过最小化基于块状皮尔逊相关的结构损失和基于互信息的纹理损失来优化相机与LiDAR之间的变换参数。这两种损失函数作为对齐质量的度量,避免了传统方法中的复杂处理步骤。
  • Result: 在KITTI、Waymo和MIAS-LCEC公开数据集上的实验表明,CLAIM相比最先进方法具有优越性能,验证了其有效性。
  • Conclusion: CLAIM是一种简单、适应性强的相机-LiDAR标定方法,利用单目深度模型的潜力,通过创新的损失函数和优化策略实现了优异的标定性能。

[128] Expert Switching for Robust AAV Landing: A Dual-Detector Framework in Simulation

Humaira Tasnim,Ashik E Rasul,Bruce Jo,Hyung-Jin Yoon

Main category: cs.RO

TL;DR: 提出一个尺度自适应的双专家感知框架,通过两个专门处理不同尺度的YOLOv8模型来提升无人机在降落过程中对停机坪的检测鲁棒性。

  • Motivation: 无人机在GPS拒止或视觉退化条件下需要可靠的停机坪检测。单模型检测器在降落过程中面临极端尺度变化挑战——高空时停机坪小,接近地面时大,导致性能下降。
  • Method: 提出尺度自适应双专家感知框架:训练两个YOLOv8专家模型,分别专门处理远距离(小尺度)和近距离(大尺度)停机坪检测。推理时并行运行,通过几何门控机制选择与无人机视角最一致的预测结果。
  • Result: 在集成了CARLA真实感渲染和NASA GUAM飞行动力学引擎的闭环降落环境中评估,相比单检测器基线,在对齐稳定性、降落精度和整体鲁棒性方面都有显著提升。
  • Conclusion: 通过针对降落问题设计的尺度感知专家路由策略,这项工作推进了自主下降的弹性视觉感知,为未来多专家无人机框架奠定了基础。

[129] A Comprehensive Safety Metric to Evaluate Perception in Autonomous Systems

Georg Volk,Jörg Gamerdinger,Alexander von Bernuth,Oliver Bringmann

Main category: cs.RO

TL;DR: 提出一种新的安全评估指标,综合考虑物体速度、方向、距离、大小和潜在碰撞伤害等因素,为自动驾驶物体感知提供单一可解释的安全评分。

  • Motivation: 现有物体感知评估指标未能充分考虑不同物体对安全的重要性差异。物体因速度、方向、距离、大小和潜在碰撞伤害等因素而异,这些因素对安全评估至关重要,需要纳入考虑。
  • Method: 提出一种新的安全指标,整合多个安全相关参数(速度、方向、距离、大小、潜在碰撞伤害),生成单一可解释的安全评估分数。使用真实世界和虚拟数据集进行评估,并与现有最先进指标进行比较。
  • Result: 新指标在真实世界和虚拟数据集上进行了评估,并与现有最先进指标进行了比较,证明其有效性。
  • Conclusion: 提出的新安全指标能够综合考虑多种安全相关因素,为自动驾驶物体感知提供更全面、更准确的安全评估,有助于提升自动驾驶系统的安全性。

[130] EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

Zechen Bai,Chen Gao,Mike Zheng Shou

Main category: cs.RO

TL;DR: EVOLVE-VLA是一个测试时训练框架,使视觉-语言-动作模型能够通过环境交互持续自适应,无需大量任务特定演示,显著提升长时程任务和少样本学习性能。

  • Motivation: 现有视觉-语言-动作模型依赖监督微调,需要大量演示、死记硬背轨迹、无法适应部署条件变化,无法实现真正自适应的具身智能。需要让模型能够像人类一样通过实践持续改进。
  • Method: 通过学习的进度估计器提供密集反馈,采用两种机制驯服噪声信号:1)累积进度估计机制平滑点估计噪声;2)渐进式视野扩展策略实现逐步策略演化。框架在测试时训练,无需任务特定奖励信号。
  • Result: 长时程任务提升8.6%,单样本学习提升22.0%,跨任务泛化能力:在未见任务上达到20.8%成功率(纯监督微调为0%)。定性分析显示出现错误恢复和新策略等涌现能力。
  • Conclusion: EVOLVE-VLA是实现真正学习和适应的视觉-语言-动作模型的关键一步,超越了静态模仿,迈向持续自我改进的具身智能。

eess.IV

[131] Improving the Plausibility of Pressure Distributions Synthesized from Depth through Generative Modeling

Neevkumar Manavar,Hanno Gerd Meyer,Joachim Waßmuth,Barbara Hammer,Axel Schneider

Main category: eess.IV

TL;DR: 提出一个通过生成建模增强物理合理性的医院床位压力监测框架,使用Informed Latent Space和Weight Optimization Loss,并应用BBDM及其潜在版本LBBDM进行压力合成

  • Motivation: 当前医院床位压力监测方法预测的压力图缺乏物理合理性,限制了临床可靠性,需要开发能够产生高保真、物理一致压力估计的方法
  • Method: 提出增强物理合理性的框架,使用Informed Latent Space和Weight Optimization Loss,应用条件Brownian Bridge Diffusion Model及其潜在版本Latent Brownian Bridge Diffusion Model进行压力合成
  • Result: BBDM结合ILS能生成高度详细的地图但计算成本高、推理时间长,LBBDM提供更快的推理速度且性能具有竞争力,整体方法提高了物理合理性和性能
  • Conclusion: 该方法支持临床环境中非侵入性、基于视觉的实时患者监测,为预防压疮和实时患者评估提供了可靠解决方案

[132] Test Time Optimized Generalized AI-based Medical Image Registration Method

Sneha Sree C.,Dattesh Shanbhag,Sudhanya Chatterjee

Main category: eess.IV

TL;DR: 提出一种新型AI驱动的3D非刚性配准框架,能够跨多种成像模态和解剖区域通用化,无需针对特定应用进行定制。

  • Motivation: 医学图像配准对于跨CT、MRI和超声等成像模态对齐解剖结构至关重要。非刚性配准尤其具有挑战性,需要捕捉呼吸或对比剂引起的信号变化等生理过程导致的复杂解剖变形。传统方法需要大量参数调整和计算成本高,限制了实时临床应用。基于深度学习的方法虽然前景良好,但对任务特定重新训练的依赖限制了实际中的可扩展性和适应性。
  • Method: 引入一种新颖的AI驱动框架,用于3D非刚性配准,能够跨多种成像模态和解剖区域通用化。与传统依赖应用特定模型的方法不同,该方法消除了解剖或模态特定的定制需求。
  • Result: 该方法能够实现跨模态和解剖区域的通用化配准,简化了在不同临床环境中的集成。
  • Conclusion: 该框架解决了现有非刚性配准方法的局限性,提供了一种高效、可泛化的解决方案,能够处理异构成像环境,有望改善临床工作流程。