Skip to content
每日arXiv - 2025年11月24日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] The persistence of painting styles

Reetikaa Reddy Munnangi,Barbara Giunti

Main category: cs.CV

TL;DR: 使用持续同调(PH)方法从拓扑数据分析角度客观区分艺术风格,能够统计显著地区分不同艺术家、同一流派内的艺术家,以及真实艺术家作品与AI生成模仿作品。

  • Motivation: 传统艺术风格识别依赖艺术史学家或评论家的视觉直觉和经验,缺乏客观量化方法。数学工具的发展为通过结构化视角探索艺术提供了可能。
  • Method: 采用拓扑数据分析中的持续同调(PH)方法,该方法能够捕捉图像中的拓扑特征和结构模式。
  • Result: PH方法能够以统计显著性区分不同艺术家的风格,包括不同艺术流派之间和同一流派内部的差异,并能有效识别真实艺术家作品与AI生成模仿作品的区别。
  • Conclusion: 持续同调为艺术风格分析提供了客观、可解释的数学工具,能够补充传统主观评价方法,在艺术鉴定和AI生成内容检测方面具有应用价值。

[2] Motion Transfer-Enhanced StyleGAN for Generating Diverse Macaque Facial Expressions

Takuya Igaue,Catia Correia-Caeiro,Akito Yoshida,Takako Miyabe-Nishiwaki,Ryusuke Hayashi

Main category: cs.CV

TL;DR: 提出了一种使用StyleGAN2生成猕猴面部表情的方法,通过数据增强、样本选择和损失函数优化来解决训练数据不足的问题。

  • Motivation: 生成动物面部表情具有挑战性,因为训练图像在数量和变化上都有限,特别是在不同个体的面部表情方面。本研究聚焦于在系统神经科学和进化研究中广泛研究的猕猴。
  • Method: 1) 使用运动转移技术通过计算机图形学为静态图像添加动画来进行数据增强;2) 基于初始训练的StyleGAN2模型的潜在表示进行样本选择,确保训练数据集的多样性和均匀采样;3) 损失函数优化以确保准确再现细微运动(如眼球运动)。
  • Result: 该方法能够为多个猕猴个体生成多样的面部表情,优于仅使用原始静态图像训练的模型。此外,该模型在基于风格的图像编辑方面也很有效,特定风格参数对应不同的面部运动。
  • Conclusion: 该模型具有将运动成分解耦为风格参数的潜力,为猕猴面部表情研究提供了有价值的工具。

[3] PairHuman: A High-Fidelity Photographic Dataset for Customized Dual-Person Generation

Ting Pan,Ye Wang,Peiguang Jing,Rui Ma,Zili Yi,Yu Liu

Main category: cs.CV

TL;DR: 提出了首个大规模双人肖像生成基准数据集PairHuman和基线方法DHumanDiff,能够生成高质量、个性化的双人肖像照片。

  • Motivation: 个性化双人肖像定制在情感记忆保存和婚纱摄影规划等方面有重要应用价值,但缺乏专门的基准数据集阻碍了高质量定制化双人肖像生成的发展。
  • Method: 构建了包含10万+图像的大规模PairHuman数据集,涵盖多样化场景、服装和双人互动;提出了DHumanDiff基线方法,增强面部一致性,平衡个性化人物生成和语义驱动场景创建。
  • Result: 实验结果表明,所提出的数据集和方法能够生成高度定制化、视觉质量优越且符合人类偏好的双人肖像。
  • Conclusion: PairHuman数据集和DHumanDiff方法为双人肖像生成提供了有效的基准和解决方案,推动了该领域的发展。

[4] A Machine Learning-Driven Solution for Denoising Inertial Confinement Fusion Images

Asya Y. Akkus,Bradley T. Wolfe,Pinghan Chu,Chengkun Huang,Chris S. Campbell,Mariana Alvarado Alvarez,Petr Volegov,David Fittinghoff,Robert Reinovsky,Zhehui Wang

Main category: cs.CV

TL;DR: 本文提出了一种使用无监督自动编码器和CDF 97小波变换的混合高斯-泊松去噪方法,用于中子成像数据的噪声去除,相比传统方法具有更低的重建误差和更好的边缘保持能力。

  • Motivation: 中子成像在惯性约束聚变(ICF)事件分析中至关重要,但图像常被高斯和泊松噪声共同污染,传统滤波和阈值方法难以有效去除这些重叠噪声,需要开发能保持图像保真度的去噪技术。
  • Method: 采用无监督自动编码器,在潜在空间中集成Cohen-Daubechies-Feauveau (CDF 97)小波变换,专门针对混合高斯-泊松噪声进行去噪处理。
  • Result: 该方法成功去除了中子成像数据的噪声,与BM3D等非机器学习滤波方法相比,显示出更低的重建误差和更优的边缘保持指标。
  • Conclusion: 这种基于机器学习的去噪方法为中子图像噪声减少和ICF实验的三维重建分析提供了有前景的进展。

[5] SAM 3: Segment Anything with Concepts

Nicolas Carion,Laura Gustafson,Yuan-Ting Hu,Shoubhik Debnath,Ronghang Hu,Didac Suris,Chaitanya Ryali,Kalyan Vasudev Alwala,Haitham Khedr,Andrew Huang,Jie Lei,Tengyu Ma,Baishan Guo,Arpit Kalla,Markus Marks,Joseph Greer,Meng Wang,Peize Sun,Roman Rädle,Triantafyllos Afouras,Effrosyni Mavroudi,Katherine Xu,Tsung-Han Wu,Yu Zhou,Liliane Momeni,Rishi Hazra,Shuangrui Ding,Sagar Vaze,Francois Porcher,Feng Li,Siyuan Li,Aishwarya Kamath,Ho Kei Cheng,Piotr Dollár,Nikhila Ravi,Kate Saenko,Pengchuan Zhang,Christoph Feichtenhofer

Main category: cs.CV

TL;DR: SAM 3是一个统一的模型,能够基于概念提示(名词短语、图像示例或两者结合)在图像和视频中检测、分割和跟踪对象。它通过解耦识别和定位提升了检测精度,在图像和视频提示概念分割任务中准确率翻倍。

  • Motivation: 现有的视觉分割系统在处理基于概念提示的对象检测、分割和跟踪方面存在局限性,需要开发一个能够统一处理图像和视频中概念提示分割任务的模型。
  • Method: 构建了可扩展的数据引擎生成包含400万个独特概念标签的高质量数据集;模型包含图像级检测器和基于记忆的视频跟踪器,共享单一骨干网络;通过存在头解耦识别和定位。
  • Result: SAM 3在图像和视频提示概念分割任务中的准确率比现有系统翻倍;改进了先前SAM在视觉分割任务上的能力。
  • Conclusion: SAM 3在提示概念分割方面取得了显著进展,通过解耦识别和定位的方法有效提升了检测精度,为视觉分割任务提供了强大的统一解决方案。

[6] SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge

Adeel Yousaf,Joseph Fioresi,James Beetham,Amrit Singh Bedi,Mubarak Shah

Main category: cs.CV

TL;DR: 提出了SaFeR-CLIP框架,通过将不安全概念重定向到语义上最接近的安全替代概念,在保持模型安全性的同时显著提升了零样本准确率。

  • Motivation: 传统方法通过微调提升视觉语言模型安全性时,往往导致泛化性能显著下降,这是因为刚性对齐策略破坏了模型学习的语义结构。
  • Method: 采用邻近感知方法,将不安全概念重定向到语义上最接近的安全替代概念,最小化表示变化。开发了SaFeR-CLIP微调框架,应用最小干预原则。
  • Result: SaFeR-CLIP成功平衡了安全性和性能,相比先前方法恢复了高达8.0%的零样本准确率,同时保持强大的安全性。还贡献了NSFW-Caps基准数据集。
  • Conclusion: 尊重预训练表示的几何结构是实现安全性而不牺牲性能的关键。

[7] SVG360: Multi-View SVG Generation with Geometric and Color Consistency from a Single SVG

Mengnan Jiang,Zhaolin Sun,Christian Franke,Michele Franco Adesso,Antonio Haas,Grace Li Zhang

Main category: cs.CV

TL;DR: 提出三阶段框架从单视角SVG输入生成多视角一致的SVG,通过3D重建、空间记忆机制和路径优化实现几何和颜色一致性。

  • Motivation: 单对象SVG的多视角一致性生成研究不足,现有方法难以保持几何和颜色的一致性,需要解决跨视图的对应关系和冗余路径问题。
  • Method: 三阶段方法:1) 将SVG栅格化并提升到3D表示,渲染多视角图像;2) 扩展SAM2的时间记忆到空间域,建立跨视图部件级对应;3) 路径整合和结构优化减少冗余。
  • Result: 生成的SVG在多个视角下具有强几何和颜色一致性,显著减少冗余路径,保留精细结构细节。
  • Conclusion: 该工作连接了生成建模和结构化向量表示,为单输入对象级多视角SVG生成提供了可扩展路径,支持资产创建和语义向量编辑应用。

[8] Mesh RAG: Retrieval Augmentation for Autoregressive Mesh Generation

Xiatao Sun,Chen Liang,Qian Wang,Daniel Rakita

Main category: cs.CV

TL;DR: Mesh RAG是一个无需训练、即插即用的框架,通过检索增强生成来改进自回归3D网格生成模型,解决序列依赖带来的质量-速度权衡问题。

  • Motivation: 传统3D网格手动创建耗时且难以扩展,现有自回归方法存在严格的序列依赖,导致生成质量与速度之间的权衡困难,且难以进行增量编辑。
  • Method: 借鉴语言模型的RAG思想,通过点云分割、空间变换和点云配准技术来检索、生成和集成网格组件,解耦生成过程的序列依赖。
  • Result: Mesh RAG显著提升了网格质量,相比序列部件预测加速了生成速度,并实现了增量编辑功能,且无需模型重新训练。
  • Conclusion: Mesh RAG框架有效解决了自回归网格生成的序列依赖问题,在保持质量的同时提升了生成效率,并支持增量编辑,具有广泛适用性。

[9] WorldGen: From Text to Traversable and Interactive 3D Worlds

Dilin Wang,Hyunyoung Jung,Tom Monnier,Kihyuk Sohn,Chuhang Zou,Xiaoyu Xiang,Yu-Ying Yeh,Di Liu,Zixuan Huang,Thu Nguyen-Phuoc,Yuchen Fan,Sergiu Oprea,Ziyan Wang,Roman Shapovalov,Nikolaos Sarafianos,Thibault Groueix,Antoine Toisoul,Prithviraj Dhar,Xiao Chu,Minghao Chen,Geon Yeong Park,Mahima Gupta,Yassir Azziz,Rakesh Ranjan,Andrea Vedaldi

Main category: cs.CV

TL;DR: WorldGen是一个从文本提示自动创建大规模交互式3D世界的系统,结合了LLM场景布局推理、程序生成、扩散式3D生成和对象感知场景分解。

  • Motivation: 弥合创意意图与功能性虚拟空间之间的差距,让创作者无需手动建模或专业3D技能就能设计连贯、可导航的世界。
  • Method: 结合LLM驱动的场景布局推理、程序生成、基于扩散的3D生成和对象感知场景分解,将自然语言描述转换为可遍历的完全纹理化环境。
  • Result: 系统能够生成几何一致、视觉丰富且在实时渲染中高效的世界,支持在标准游戏引擎中立即探索或编辑。
  • Conclusion: 这项工作代表了向可访问的大规模生成式世界构建迈出的一步,推进了3D生成AI在游戏、模拟和沉浸式社交环境中的应用前沿。

[10] Towards Unified Vision Language Models for Forest Ecological Analysis in Earth Observation

Xizhe Xue,Xiao Xiang Zhu

Main category: cs.CV

TL;DR: REO-Instruct是首个面向地球观测的统一基准,结合描述性和回归任务,在森林生态场景中建立认知可解释的逻辑链,连接定性理解和定量预测。

  • Motivation: 现有地球观测数据集主要关注语义理解任务(如描述或分类),缺乏将多模态感知与可测量生物物理变量对齐的基准。
  • Method: 通过混合人机协作流程生成和验证结构化文本注释,整合配准的Sentinel-2和ALOS-2影像数据,建立包含人类活动、土地覆盖分类、生态斑块计数和地上生物量回归的逻辑链。
  • Result: 对通用视觉语言模型的综合评估显示,当前模型在数值推理方面存在困难,突显了科学视觉语言模型的关键挑战。
  • Conclusion: REO-Instruct为开发能够同时进行描述和科学推理的下一代地理空间模型提供了标准化基础。

[11] BOP-ASK: Object-Interaction Reasoning for Vision-Language Models

Vineet Bhat,Sungsu Kim,Valts Blukis,Greg Heinrich,Prashanth Krishnamurthy,Ramesh Karri,Stan Birchfield,Farshad Khorrami,Jonathan Tremblay

Main category: cs.CV

TL;DR: BOP-ASK是一个用于物体交互推理的大规模数据集,包含超过15万张图像和3300万个问答对,涵盖6个任务,旨在评估VLMs在精细空间理解、物体交互和物理兼容性方面的能力。

  • Motivation: 当前视觉语言模型在空间推理基准测试中表现优异,但忽略了真实世界应用所需的精细空间理解能力,包括精确3D定位、物体物理兼容性、物体可供性和多步空间规划。
  • Method: 利用BOP数据集中的6D物体位姿,生成精细标注包括抓取位姿、参考物体位姿、路径规划轨迹、相对空间和深度关系以及物体间关系,构建大规模数据集BOP-ASK。
  • Result: 在BOP-ASK上训练的模型优于基线,展现出精确物体和抓取位姿估计、轨迹规划以及在杂乱环境中进行精细物体中心空间推理的新兴能力。
  • Conclusion: BOP-ASK为训练和评估VLMs提供了丰富资源,揭示了当前模型在精细空间理解方面的局限性,并推动了物体交互推理能力的发展。

[12] Parts-Mamba: Augmenting Joint Context with Part-Level Scanning for Occluded Human Skeleton

Tianyi Shen,Huijuan Xu,Nilesh Ahuja,Omesh Tickoo,Philip Shin,Vijaykrishnan Narayanan

Main category: cs.CV

TL;DR: 提出了Parts-Mamba,一种混合GCN-Mamba模型,用于在骨架不完整或存在遮挡的情况下增强骨架动作识别能力,通过捕捉远距离关节的上下文信息,在遮挡设置下准确率提升高达12.9%。

  • Motivation: 现实场景中捕获的骨架由于人体部位遮挡或通信质量差而不完美或不完整,导致骨架缺失部分或视频帧丢失。现有的GCN模型在这种非理想情况下表现不佳,因为缺乏局部上下文信息。
  • Method: 提出Parts-Mamba混合GCN-Mamba模型,通过其部件特定扫描特征有效捕捉部件特定信息,并通过部件-身体融合模块保留非邻近关节的上下文。
  • Result: 在NTU RGB+D 60和NTU RGB+D 120数据集的不同遮挡设置下进行评估,准确率提升高达12.9%。
  • Conclusion: Parts-Mamba模型能够有效增强捕捉和保持远距离关节上下文信息的能力,在骨架不完整的情况下显著提升动作识别性能。

[13] The Joint Gromov Wasserstein Objective for Multiple Object Matching

Aryan Tajmir Riahi,Khanh Dao Duc

Main category: cs.CV

TL;DR: 提出了联合Gromov-Wasserstein (JGW)目标,将传统的成对GW距离扩展到支持多对一和多对多对象匹配,提供了一种非负的相异度度量,能够识别部分同构的度量空间分布。

  • Motivation: 传统的Gromov-Wasserstein距离仅限于单对象之间的成对匹配,无法满足需要多对一或多对多对象匹配的场景和应用需求。
  • Method: 通过引入JGW目标扩展GW框架,使其能够同时匹配对象集合。该方法可以适应最优传输中的传统算法,包括熵正则化,并适用于点云对象表示。
  • Result: 在部分匹配的基准测试中,相比其他GW变体,该方法在准确性和计算效率方面表现更优。在合成和真实数据集上的实验表明,该方法在多种形状匹配(包括几何形状和生物分子复合物)中有效。
  • Conclusion: JGW方法为解决计算机图形学和结构生物学等不同领域的复杂匹配问题提供了有前景的应用。

[14] Align & Invert: Solving Inverse Problems with Diffusion and Flow-based Models via Representational Alignment

Loukas Sfountouris,Giannis Daras,Paris Giampouras

Main category: cs.CV

TL;DR: 提出REPA方法,在逆问题求解中将扩散模型与预训练自监督编码器(如DINOv2)的表征对齐,显著提升重建质量和感知真实性,同时减少计算步骤。

  • Motivation: 现有研究表明,扩散模型与自监督编码器的表征对齐能改善生成质量和收敛性。本文将此思想扩展到逆问题领域,利用预训练生成模型作为先验,通过表征对齐指导重建过程。
  • Method: 提出REPA方法,在推理时对齐扩散模型与DINOv2等自监督视觉编码器的内部表征。即使缺乏真实信号,通过近似目标特征的对齐也能提升重建效果。
  • Result: 理论分析显示REPA正则化与DINOv2嵌入空间的散度度量相关,且能引导模型表征朝向干净图像。实验在超分辨率、修复、去模糊等任务中验证了方法的有效性和通用性。
  • Conclusion: REPA方法能一致提升多种逆问题求解器的重建质量,同时通过减少离散化步骤显著提高效率,且不损害基础求解器性能。

[15] Glass Surface Detection: Leveraging Reflection Dynamics in Flash/No-flash Imagery

Tao Yan,Hao Huang,Yiwei Lu,Zeyu Wang,Ke Xu,Yinghui Wang,Xiaojun Chang,Rynson W. H. Lau

Main category: cs.CV

TL;DR: 提出NFGlassNet方法,利用闪光/无闪光图像中的反射动态特性进行玻璃表面检测,通过反射对比挖掘模块和反射引导注意力模块实现更准确的检测。

  • Motivation: 现有玻璃表面检测方法依赖边界线索或反射线索,但未能充分利用玻璃本身的固有特性。观察到玻璃两侧光照强度差异会导致反射变化的现象,利用这一特性改进检测精度。
  • Method: 提出NFGlassNet,包含反射对比挖掘模块(RCMM)提取反射特征,反射引导注意力模块(RGAM)融合反射和玻璃表面特征。构建包含3.3K闪光/无闪光图像对的数据集进行训练。
  • Result: 大量实验表明该方法优于现有最先进方法。
  • Conclusion: 利用闪光/无闪光图像中的反射动态特性能够有效提升玻璃表面检测性能,所提方法在多个场景下表现优异。

[16] R-AVST: Empowering Video-LLMs with Fine-Grained Spatio-Temporal Reasoning in Complex Audio-Visual Scenarios

Lu Zhu,Tiantian Geng,Yangye Chen,Teng Wang,Ping Lu,Feng Zheng

Main category: cs.CV

TL;DR: 提出了R-AVST数据集和AVST-Zero模型,用于解决真实世界音频-视频时空推理任务,填补了现有研究在复杂多模态场景理解上的空白。

  • Motivation: 当前多模态大语言模型在视频理解任务中进展迅速,但主要关注简单视频场景,无法反映真实世界中复杂多样的音频-视频事件。
  • Method: 构建了包含5K未剪辑视频、27K对象的R-AVST数据集,设计了基于LLM的关键对象提取、自动空间标注和人工质量检查的流水线。提出了AVST-Zero模型,使用强化学习避免中间监督,通过多维奖励直接优化行为。
  • Result: 生成了超过8K高质量、均匀分布的问题-答案对来评估模型性能。实验验证了R-AVST在推进音频-视频时空推理方面的有效性,AVST-Zero相比现有模型表现出竞争力。
  • Conclusion: R-AVST是首个为真实世界音频-视频时空推理设计的数据集,AVST-Zero为该领域未来挑战提供了新的解决视角。

[17] Warm Diffusion: Recipe for Blur-Noise Mixture Diffusion Models

Hao-Chien Hsueh,Chi-En Yen,Wen-Hsiao Peng,Ching-Chun Huang

Main category: cs.CV

TL;DR: 提出了Warm Diffusion,一种统一的模糊-噪声混合扩散模型,通过联合控制模糊和噪声来结合热扩散和冷扩散的优势,解决热扩散早期生成随机性和冷扩散数据流形外问题。

  • Motivation: 热扩散完全依赖噪声,未能利用图像高频细节与低频结构之间的强相关性,导致早期生成步骤的随机行为;冷扩散仅使用模糊而忽略噪声在塑造数据流形中的作用,导致流形外问题和性能下降。
  • Method: 提出Warm Diffusion(BNMD模型),采用分治策略利用图像中的频谱依赖性,通过解耦去噪和去模糊过程简化分数模型估计,并使用频谱分析研究模糊-噪声比(BNR)的权衡。
  • Result: 在多个基准测试上的广泛实验验证了该方法在图像生成中的有效性。
  • Conclusion: Warm Diffusion成功整合了热扩散和冷扩散的优势,通过联合控制模糊和噪声,在图像生成任务中取得了显著效果。

[18] Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content

Shushi Wang,Zicheng Zhang,Chunyi Li,Wei Wang,Liya Ma,Fengjiao Chen,Xiaoyu Li,Xuezhi Cao,Guangtao Zhai,Xiaohong Liu

Main category: cs.CV

TL;DR: Q-Real是一个用于AI生成图像细粒度评估的数据集,专注于真实性和合理性两个关键维度,包含3,088张图像,提供实体位置标注和判断问题,并构建了Q-Real Bench基准来评估多模态大语言模型。

  • Motivation: 现有的质量评估数据集和模型仅提供单一质量分数,过于粗糙,无法为改进生成模型提供针对性指导。真实性和合理性是AI生成图像的两个关键维度,需要细粒度评估。
  • Method: 构建Q-Real数据集,包含3,088张由流行文本到图像模型生成的图像,标注主要实体位置并提供真实性和合理性维度的判断问题与归因描述。设计Q-Real Bench基准评估多模态大语言模型在判断和推理定位任务上的表现。
  • Result: 实验结果表明数据集质量高且具有重要意义,基准评估全面。通过设计的微调框架在多个多模态大语言模型上进行实验验证。
  • Conclusion: Q-Real数据集和基准为AI生成图像的细粒度质量评估提供了有效工具,能够指导生成模型的优化改进,数据集和代码将在发表后发布。

[19] UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation

Chi Zhang,Jiepeng Wang,Youming Wang,Yuanzhi Liang,Xiaoyan Yang,Zuoxin Li,Haibin Huang,Xuelong Li

Main category: cs.CV

TL;DR: UniModel是一个统一的生成模型,在单一像素到像素扩散框架中同时支持视觉理解和视觉生成。通过将文本和图像映射到共享视觉空间,消除模态差异,实现模型、任务和表示的统一。

  • Motivation: 解决多模态学习中模型、任务和表示之间的割裂问题,探索在单一视觉空间中实现通用多模态智能的范式。
  • Method: 使用统一的扩散变换器,在像素空间中训练整流流。将文本渲染为绘制的文本图像,所有输入输出都视为RGB像素,通过轻量级任务嵌入指定映射方向。
  • Result: 在文本到图像合成和图像到文本理解任务上表现出强大的跨模态对齐能力,并涌现出循环一致的图像-描述-图像控制能力。
  • Conclusion: 在单一视觉空间中统一模型、任务和表示是实现通用多模态智能的有前景范式。

[20] DeltaDeno: Zero-Shot Anomaly Generation via Delta-Denoising Attribution

Chaoran Xu,Chengkan Lv,Qiyu Chen,Yunkang Cao,Feng Zhang,Zhengtao Zhang

Main category: cs.CV

TL;DR: DeltaDeno是一种无需训练、零样本的异常生成方法,通过对比两个扩散分支的差异来定位和编辑缺陷,无需真实异常样本或训练过程。

  • Motivation: 现有的异常生成方法通常需要少量异常样本进行微调,这与异常稀缺的现实相矛盾,且容易过拟合类别先验。本文旨在解决完全没有真实异常样本或训练数据的情况。
  • Method: 提出Delta-Denoising方法:1)通过最小提示对驱动两个扩散分支对比;2)累积每步去噪差异生成图像特定定位图;3)使用定位图指导潜在修复,在保留上下文的同时生成局部缺陷;4)进行token级提示优化和空间注意力偏置。
  • Result: 在公共数据集上的实验表明,DeltaDeno实现了优异的生成质量、真实性和下游检测性能的持续提升。
  • Conclusion: DeltaDeno是一种有效的零样本异常生成方法,能够在没有真实异常样本的情况下生成逼真的局部缺陷,并显著提升下游检测性能。

[21] Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features

Jingyi Xu,Meisong Zheng,Ying Chen,Minglang Qiao,Xin Deng,Mai Xu

Main category: cs.CV

TL;DR: 提出了DGAF-VSR方法,通过特征域对齐和密集引导解决基于扩散模型的视频超分辨率中的误差累积和空间伪影问题。

  • Motivation: 基于扩散模型的视频超分辨率方法存在误差累积、空间伪影以及感知质量与保真度之间的权衡问题,主要原因是帧间对齐不准确和补偿不足。
  • Method: 提出DGAF-VSR方法,包含光学引导变形模块(OGWM)保持对齐特征中的高频细节,以及特征域时序条件模块(FTCM)在特征域提供密集引导。
  • Result: 在合成和真实数据集上的实验表明,DGAF-VSR在感知质量(DISTS降低35.82%)、保真度(PSNR提升0.20dB)和时间一致性(tLPIPS降低30.37%)方面超越现有方法。
  • Conclusion: 特征域对齐和密集引导能有效提升基于扩散模型的视频超分辨率性能,解决了传统方法中的关键问题。

[22] Shape-preserving Tooth Segmentation from CBCT Images Using Deep Learning with Semantic and Shape Awareness

Zongrui Ji,Zhiming Cui,Na Li,Qianhan Zheng,Miaojing Shi,Ke Deng,Jingyang Zhang,Chaoyuan Li,Xuepeng Chen,Yi Dong,Lei Ma

Main category: cs.CV

TL;DR: 提出了一种集成语义和形状感知的深度学习框架,用于CBCT图像中的牙齿分割,特别针对邻牙粘连导致的形状失真问题。

  • Motivation: CBCT图像中的牙齿分割在邻牙粘连情况下具有挑战性,会导致严重的解剖形状失真,影响数字牙科应用。
  • Method: 采用目标牙齿质心提示的多标签学习策略建模牙齿间语义关系,结合牙齿形状感知学习机制强制执行形态约束,通过多任务学习统一优化分割和形状保持。
  • Result: 在内部和外部数据集上的广泛评估表明,该方法显著优于现有方法。
  • Conclusion: 该方法有效减轻了形状失真,提供了解剖学上忠实的牙齿边界。

[23] OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios

Hong Gao,Jingyu Wu,Xiangkai Xu,Kangni Xie,Yunchen Zhang,Bin Zhong,Xurui Gao,Min-Ling Zhang

Main category: cs.CV

TL;DR: 提出了OmniGround基准数据集和PG-TAF方法,解决了视频时空定位中现有基准范围有限、模型存在类别偏见和推理简化的问题。

  • Motivation: 现有多模态大语言模型在视频时空定位任务中与现实需求存在差距,主要原因是基准数据集范围有限,导致模型存在类别偏见、推理过于简化和语言鲁棒性差的问题。
  • Method: 提出了OmniGround基准数据集(3,475个视频,81个类别)和Forward-Backward-Refinement标注流程;开发了DeepSTG评估框架;提出了PG-TAF训练免费的两阶段框架,将STVG分解为高层时间定位和细粒度时空传播。
  • Result: 在复杂真实场景中性能平均下降10.4%,特别是在小/遮挡物体和复杂空间关系上表现不佳;PG-TAF在OmniGround上m_tIoU和m_vIoU分别提升25.6%和35.6%,在四个基准上均取得一致增益。
  • Conclusion: OmniGround基准和PG-TAF框架有效解决了STVG任务中的关键挑战,为复杂真实世界场景的视频时空定位提供了更全面的评估和改进方案。

[24] MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models

Xiongtao Sun,Hui Li,Jiaming Zhang,Yujie Yang,Kaili Liu,Ruxin Feng,Wen Jun Tan,Wei Yang Bryan Lim

Main category: cs.CV

TL;DR: MultiPriv是首个系统评估视觉语言模型中个体级隐私推理风险的基准,揭示了当前模型在隐私推理方面存在严重但未被测量的风险。

  • Motivation: 现代视觉语言模型展现出复杂推理能力,带来了超越简单属性感知的个体级链接隐私风险。现有隐私基准主要评估隐私感知,无法应对更关键的隐私推理风险。
  • Method: 提出隐私感知与推理(PPR)框架,构建包含合成个体档案的双语多模态数据集,设计9个挑战性任务来评估从属性检测到跨图像重识别和链式推理的完整PPR谱系。
  • Result: 对50多个基础模型和商业VLM的大规模评估显示:(1)许多VLM存在显著但未被测量的推理隐私风险;(2)感知级指标无法预测推理风险;(3)现有安全对齐措施对此类推理攻击不一致且无效。
  • Conclusion: MultiPriv揭示了系统性漏洞,为开发鲁棒的隐私保护VLM提供了必要框架。

[25] Flow-Guided Implicit Neural Representation for Motion-Aware Dynamic MRI Reconstruction

Baoqing Li,Yuanyuan Liu,Congcong Liu,Qingyong Zhu,Jing Cheng,Yihang Zhou,Hao Chen,Zhuo-Xu Cui,Dong Liang

Main category: cs.CV

TL;DR: 提出了一种联合建模动态图像序列和运动场的隐式神经表示框架,通过光流方程作为物理启发的正则化,无需预先估计运动场即可同时恢复时间相干图像和运动场。

  • Motivation: 传统运动补偿重建方法依赖预先估计的光流,但在欠采样情况下不准确且会降低重建质量。需要一种能够同时恢复图像和运动场的方法。
  • Method: 使用两个隐式神经表示(INR):一个参数化时空图像内容,另一个表示光流场。两者通过光流方程耦合,并结合数据一致性损失进行联合优化。
  • Result: 在动态心脏MRI数据集上的实验表明,该方法优于最先进的运动补偿和深度学习方法,实现了更好的重建质量、准确的运动估计和改善的时间保真度。
  • Conclusion: 基于流正则化约束的隐式联合建模在动态MRI重建中具有巨大潜力,能够同时获得高质量图像重建和准确运动估计。

[26] FingerCap: Fine-grained Finger-level Hand Motion Captioning

Xin Shen,Rui Zhu,Lei Shen,Xinyu Wang,Kaihao Zhang,Tianqing Zhu,Shuchen Wu,Chenxi Miao,Weikang Li,Yang Li,Deguo Xia,Jizhou Huang,Xin Yu

Main category: cs.CV

TL;DR: 提出了FingerCap任务和FiGOP方法,用于生成细粒度手指级手部运动描述,通过结合RGB帧和手部关键点来克服视频MLLMs在捕捉细微手指运动时的时序稀疏性问题。

  • Motivation: 理解细粒度人类手部运动对视觉感知、具身智能和多模态通信至关重要,但现有视频MLLMs因时序稀疏性难以捕捉细微的手指级动态。
  • Method: 构建FingerCap-40K数据集,引入FiGOP方法将RGB关键帧与后续手部关键点配对,通过轻量级时序编码器将关键点转换为运动嵌入并与RGB特征集成。
  • Result: 在FingerCap-40K上的实验表明,现有强视频MLLMs在手指级推理上仍有困难,而FiGOP增强模型在HandJudge和人工评估中均取得一致提升。
  • Conclusion: FiGOP方法有效恢复了精细时序线索,无需增加RGB密度,为细粒度手指运动理解提供了计算友好的解决方案。

[27] Point-Supervised Facial Expression Spotting with Gaussian-Based Instance-Adaptive Intensity Modeling

Yicheng Deng,Hideaki Hayashi,Hajime Nagahara

Main category: cs.CV

TL;DR: 提出了一种基于点监督的面部表情检测方法,通过双分支框架解决单时间戳标注下的表情检测问题,包括实例自适应强度建模和类别感知顶点分类。

  • Motivation: 现有方法主要依赖成本高昂的时间边界标注,本文研究点监督面部表情检测,只需每个实例的单个时间戳标注,以降低标注成本。
  • Method: 提出双分支框架:1)实例自适应强度建模模块,通过高斯分布建模实例级表情强度分布进行软伪标签;2)类别感知顶点分类分支,基于伪顶点帧区分宏表情和微表情。
  • Result: 在SAMM-LV、CAS(ME)^2和CAS(ME)^3数据集上的广泛实验证明了所提框架的有效性。
  • Conclusion: 该方法通过点监督实现了有效的面部表情检测,降低了标注成本,同时通过强度感知对比损失提升了特征学习的判别性。

[28] Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models

Dailan He,Guanlin Feng,Xingtong Ge,Yazhe Niu,Yi Zhang,Bingqi Ma,Guanglu Song,Yu Liu,Hongsheng Li

Main category: cs.CV

TL;DR: 提出了Neighbor GRPO方法,通过扰动ODE初始噪声条件生成多样候选轨迹,使用基于距离的代理策略进行优化,避免了SDE转换的问题,在训练成本、收敛速度和生成质量上显著优于SDE-based方法。

  • Motivation: 现有的SDE-based GRPO方法存在信用分配效率低和与高阶求解器不兼容的问题,限制了其在流匹配模型中的应用效果。
  • Method: 通过扰动ODE初始噪声生成多样轨迹,使用基于softmax距离的代理跳跃策略进行优化,引入对称锚点采样和组内准范数重加权技术。
  • Result: 实验表明Neighbor GRPO在训练成本、收敛速度和生成质量方面显著优于SDE-based方法。
  • Conclusion: Neighbor GRPO成功解决了SDE-based GRPO的问题,完全保留了确定性ODE采样的优势,为流匹配模型的对齐提供了更有效的解决方案。

[29] MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

Di Luo,Shuhui Yang,Mingxin Yang,Jiawei Lu,Yixuan Tang,Xintong Han,Zhuo Chen,Beibei Wang,Chunchao Guo

Main category: cs.CV

TL;DR: MatPedia是一个基于联合RGB-PBR表示的基础模型,通过将材料编码为RGB外观和PBR属性两个潜在空间,使用视频扩散架构统一处理多种材料任务。

  • Motivation: 现有材料生成方法缺乏统一的表示来桥接自然图像外观和PBR属性,导致任务特定的碎片化流程,无法利用大规模RGB图像数据。
  • Method: 提出联合RGB-PBR表示,将材料编码为两个相互依赖的潜在空间;将RGB和四个PBR图表示为5帧序列,使用视频扩散架构;在MatHybrid-410K混合数据集上训练。
  • Result: MatPedia实现了原生1024×1024合成,在质量和多样性上都显著超越现有方法,能够统一处理文本到材料生成、图像到材料生成和本征分解等任务。
  • Conclusion: MatPedia通过统一的联合表示成功桥接了RGB外观和PBR属性,为材料生成提供了一个强大的基础模型框架。

[30] Two Heads Better than One: Dual Degradation Representation for Blind Super-Resolution

Hsuan Yuan,Shao-Yu Weng,I-Hsuan Lo,Wei-Chen Chiu,Yu-Syuan Xu,Hao-Chien Hsueh,Jen-Hui Chuang,Ching-Chun Huang

Main category: cs.CV

TL;DR: 提出双分支退化提取网络解决盲超分辨率问题,通过预测无监督的模糊和噪声嵌入,使SR网络能够分别适应不同类型的退化。

  • Motivation: 现有方法在已知固定退化(如双三次下采样)的SISR任务中表现良好,但当实际退化偏离假设时性能显著下降。盲SR问题需要处理未知和变化的退化类型。
  • Method: 使用双分支退化提取器网络预测无监督的模糊和噪声嵌入,将退化提取器作为正则化器利用SR和HR图像之间的差异。
  • Result: 在多个基准测试上的广泛实验表明,该方法在盲SR问题上达到了最先进的性能。
  • Conclusion: 所提出的双分支退化提取网络能够有效处理盲超分辨率问题,通过分别适应模糊和噪声退化来实现优越性能。

[31] Real-Time Cooked Food Image Synthesis and Visual Cooking Progress Monitoring on Edge Devices

Jigyasa Gupta,Soumya Goyal,Anil Kumar,Ishan Jindal

Main category: cs.CV

TL;DR: 提出一种边缘设备上基于食谱和烹饪状态的生成模型,能够从生食图像合成逼真的熟食图像,并引入烹饪图像相似度指标来确保时间一致性和烹饪合理性。

  • Motivation: 在边缘设备上从生食图像合成逼真的熟食图像具有挑战性,现有方法要么生成不真实的结果,要么资源消耗过大不适合边缘部署。
  • Method: 构建首个基于烤箱的烹饪进展数据集,提出边缘高效的食谱和烹饪状态引导生成器,引入领域特定的烹饪图像相似度指标作为训练损失和进展监测信号。
  • Result: 模型在多个数据集上显著优于现有基线方法,FID分数分别提升30%(自建数据集)和60%(公共数据集)。
  • Conclusion: 该方法能够根据用户偏好的视觉目标而非固定预设生成逼真的熟食图像,在边缘设备上实现了高效的烹饪图像合成。

[32] The Finer the Better: Towards Granular-aware Open-set Domain Generalization

Yunyun Wang,Zheng Duan,Xinyue Liao,Ke-Jia Chen,Songcan Chen

Main category: cs.CV

TL;DR: SeeCLIP框架通过细粒度语义增强解决开放集域泛化中的已知类结构风险和未知类开放空间风险的权衡问题,在五个基准测试中比现有方法提升3%准确率和5% H-score。

  • Motivation: 现有方法在处理开放集域泛化时面临已知类结构风险与未知类开放空间风险的权衡困境,特别是在区分与已知类具有细粒度视觉相似性的'困难未知类'时容易过度自信。
  • Method: 提出语义增强的CLIP框架,包括语义感知提示增强模块分解图像为判别性语义标记,双工对比学习保持与已知类的分离性和语义邻近性,以及语义引导扩散模块通过扰动语义标记合成伪未知类样本。
  • Result: 在五个基准测试中,相比最先进方法实现了3%准确率和5% H-score的一致提升。
  • Conclusion: 通过细粒度语义增强和双工对比学习,SeeCLIP有效解决了开放集域泛化中的风险权衡问题,显著提升了模型性能。

[33] Gradient-Driven Natural Selection for Compact 3D Gaussian Splatting

Xiaobin Deng,Qiuli Yu,Changyu Diao,Min Li,Duanqing Xu

Main category: cs.CV

TL;DR: 提出了一种受自然选择启发的3D高斯泼溅(3DGS)剪枝框架,通过将生存压力建模为作用于不透明度的正则化梯度场,让优化梯度自主决定保留或剪除哪些高斯原语,无需人工干预。

  • Motivation: 3DGS使用大量高斯原语拟合场景,导致存储和计算开销巨大。现有剪枝方法依赖手动设计标准或引入额外可学习参数,效果不佳。
  • Method: 提出自然选择启发的剪枝框架,将生存压力建模为作用于不透明度的正则化梯度场;引入具有有限不透明度先验的不透明度衰减技术,加速选择过程。
  • Result: 与3DGS相比,在15%预算下实现超过0.6 dB PSNR增益,为紧凑3DGS建立了最先进的性能。
  • Conclusion: 该方法完全可学习且无需人工干预,有效解决了3DGS的存储和计算开销问题。

[34] A Diversity-optimized Deep Ensemble Approach for Accurate Plant Leaf Disease Detection

Sai Nath Chowdary Medikonduru,Hongpeng Jin,Yanzhao Wu

Main category: cs.CV

TL;DR: 提出Synergistic Diversity (SQ)框架来提升植物病害检测精度,通过新的SQ指标衡量集成成员间的协同作用,改进集成模型选择并提高检测准确率。

  • Motivation: 植物病害每年造成超过2200亿美元经济损失,威胁全球粮食安全。深度集成方法能提高预测精度,但现有集成多样性指标难以识别最优集成团队。
  • Method: 1) 分析现有集成多样性指标的局限性;2) 提出新的SQ指标来捕捉集成成员间的协同作用;3) 在植物叶片图像数据集上进行广泛实验验证。
  • Result: SQ指标显著改进了集成选择,提高了植物病害检测的准确率。
  • Conclusion: SQ框架为更可靠高效的图像植物病害检测铺平了道路。

[35] RadioKMoE: Knowledge-Guided Radiomap Estimation with Kolmogorov-Arnold Networks and Mixture-of-Experts

Fupei Guo,Kerry Pan,Songyang Zhang,Yue Wang,Zhi Ding

Main category: cs.CV

TL;DR: 提出RadioKMoE框架,结合KAN和MoE进行无线电地图估计,通过KAN预测粗略覆盖图,MoE网络细化局部细节,在单频和多频场景下均表现出更高精度和鲁棒性。

  • Motivation: 复杂无线电传播行为和周围环境对无线电地图估计(RME)带来挑战,需要更有效的建模方法来处理空间信号传播和覆盖知识。
  • Method: 设计KAN模块预测粗略覆盖图,利用KAN在近似物理模型和全局传播模式的优势;结合环境信息驱动MoE网络进行精确RME,MoE包含专门处理不同无线电地图模式的专家网络。
  • Result: 在单频和多频RME实验中,RadioKMoE在无线电地图估计中展现出更高的准确性和鲁棒性。
  • Conclusion: RadioKMoE框架成功整合KAN和MoE的优势,能够有效处理复杂无线电传播环境,提供更精确的无线电地图估计。

[36] DReX: Pure Vision Fusion of Self-Supervised and Convolutional Representations for Image Complexity Prediction

Jonathan Skaza,Parsa Madinei,Ziqi Wen,Miguel Eckstein

Main category: cs.CV

TL;DR: DReX是一个仅使用视觉特征的图像复杂度预测模型,融合了自监督和卷积表示,在IC9600基准测试上达到最先进性能,超越了多模态方法。

  • Motivation: 探索视觉复杂度预测中语言信息是否必要,以及如何通过纯视觉模型实现人类对齐的复杂度预测。
  • Method: 提出DReX模型,通过可学习的注意力机制融合ResNet-50的多尺度层次特征和DINOv3 ViT-S/16的语义丰富表示,结合自监督变换器和监督深度卷积神经网络的优势。
  • Result: 在IC9600基准测试上达到Pearson r = 0.9581,超越之前方法(包括多模态方法),参数量减少约21.5倍,并在多个数据集和指标上表现出强大的泛化能力。
  • Conclusion: 视觉特征本身足以实现人类对齐的复杂度预测,当适当融合时,自监督变换器和监督深度卷积神经网络对此任务具有互补和协同效益。

[37] DepthFocus: Controllable Depth Estimation for See-Through Scenes

Junhong Min,Jimin Kim,Cheol-Hui Min,Minwook Kim,Youngpil Jeon,Minyong Choi

Main category: cs.CV

TL;DR: DepthFocus是一个可操控的视觉Transformer,将立体深度估计重新定义为意图驱动的控制,能够根据深度偏好动态调整计算以聚焦到目标深度,实现复杂场景中的选择性感知。

  • Motivation: 现实世界中的深度很少是单一的,透射材料会产生分层模糊,混淆传统感知系统。现有模型是被动的,试图估计锚定到最近表面的静态深度图,而人类会主动转移焦点来感知所需深度。
  • Method: 引入DepthFocus,一个可操控的视觉Transformer,通过标量深度偏好进行条件化,动态调整计算以聚焦到目标深度。训练主要使用新构建的50万多层合成数据集,捕捉各种透视效果。
  • Result: 在BOOSTER等传统单深度基准测试中达到最先进性能,并在新提出的真实和合成多深度数据集上定量展示意图对齐的估计。在未见过的透视场景上表现出强大的泛化能力。
  • Conclusion: DepthFocus是实现主动和类人3D感知的重要一步,展现了在复杂场景中实现选择性深度感知的鲁棒性。

[38] VLM-Augmented Degradation Modeling for Image Restoration Under Adverse Weather Conditions

Qianyi Shao,Yuanfan Zhang,Renxiang Xiao,Liang Hu

Main category: cs.CV

TL;DR: 提出了一种统一的内存增强视觉语言恢复模型,用于在各种恶劣天气条件下恢复不同退化程度的图像。

  • Motivation: 在恶劣天气条件下实现可靠的视觉感知对于自动驾驶和户外机器人至关重要但具有挑战性。
  • Method: 结合轻量级编码器-解码器主干网络、视觉语言模型和隐式记忆库,通过链式推理编码天气退化先验,并检索细粒度退化原型与多尺度视觉特征自适应融合。
  • Result: 在四个恶劣天气基准测试中,MVLR在PSNR和SSIM指标上超越了单分支和专家混合基线方法。
  • Conclusion: MVLR在模型紧凑性和表达能力之间提供了实用平衡,适合在多样化户外条件下进行实时部署。

[39] Vision Language Models are Confused Tourists

Patrick Amadeus Irawan,Ikhlasul Akmal Hanif,Muhammad Dehan Al Kautsar,Genta Indra Winata,Fajri Koto,Alham Fikri Aji

Main category: cs.CV

TL;DR: ConfusedTourist是一个评估视觉语言模型文化对抗鲁棒性的新测试套件,发现模型在面对混合文化线索时准确率大幅下降,存在系统性注意力偏移问题。

  • Motivation: 现有评估通常只关注单一文化概念,忽略了多个文化线索共存的情况,而模型在不同文化输入中的稳定性对于支持多元文化社会至关重要。
  • Method: 引入ConfusedTourist测试套件,通过图像堆叠和基于图像生成的扰动来评估VLMs对地理文化线索的稳定性。
  • Result: 实验显示模型在简单图像堆叠扰动下准确率大幅下降,基于图像生成的扰动效果更差,归因于注意力系统性地转向干扰线索。
  • Conclusion: 视觉文化概念混合会严重损害最先进的VLMs,迫切需要更具文化鲁棒性的多模态理解方法。

[40] FLUID: Training-Free Face De-identification via Latent Identity Substitution

Jinhyeong Park,Shaheryar Muhammad,Seangmin Lee,Jong Taek Lee,Soon Ki Jung

Main category: cs.CV

TL;DR: FLUID是一个无需训练的框架,通过在预训练扩散模型的潜在空间中直接替换身份来实现人脸去识别,使用新颖的试剂损失函数指导身份编辑方向优化。

  • Motivation: 现有的人脸去识别方法在身份抑制和属性保留之间难以达到良好平衡,需要开发更有效的去识别技术。
  • Method: 将身份编辑重新解释为预训练无条件扩散模型潜在h空间中的语义位移,通过优化发现身份编辑方向,并提出线性和测地线(基于切线)的编辑方案来导航潜在流形。
  • Result: 在CelebA-HQ和FFHQ数据集上的实验表明,FLUID在身份抑制和属性保留之间实现了优越的平衡,在定性和定量指标上均优于最先进的去识别方法。
  • Conclusion: FLUID框架通过直接在扩散模型潜在空间中进行身份替换,为人脸去识别提供了有效的解决方案,在保护隐私的同时保持了图像质量。

[41] Parameter-Free Neural Lens Blur Rendering for High-Fidelity Composites

Lingyan Ruan,Bin Chen,Taehyun Rhee

Main category: cs.CV

TL;DR: 提出一种直接从RGB图像估计弥散圆(CoC)图的新方法,无需场景深度或相机参数,用于混合现实中虚拟物体的逼真镜头模糊渲染。

  • Motivation: 现有方法依赖相机参数和场景深度来计算弥散圆,但这些信息普通用户往往无法获取,限制了方法的可访问性和通用性。
  • Method: 通过线性关系从虚拟物体的有符号CoC图推断深度,使用神经重模糊网络渲染逼真的镜头模糊效果。
  • Result: 实验结果显示该方法在定性和定量评估中都优于现有技术,实现了具有逼真散焦效果的高保真合成。
  • Conclusion: 该方法为实际应用提供了灵活实用的解决方案,能够实现高质量的混合现实合成效果。

[42] RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis

Linfeng Dong,Yuchen Yang,Hao Wu,Wei Wang,Yuenan HouZhihang Zhong,Xiao Sun

Main category: cs.CV

TL;DR: RacketVision是一个用于体育分析的新型计算机视觉数据集和基准,涵盖乒乓球、网球和羽毛球,提供大规模细粒度球拍姿态标注和传统球位置标注,支持复杂人-物交互研究。

  • Motivation: 推动体育分析中的计算机视觉研究,特别是针对球拍运动的复杂人-物交互分析,填补现有数据集在球拍姿态细粒度标注方面的空白。
  • Method: 构建包含乒乓球、网球和羽毛球的大规模数据集,提供球拍姿态和球位置的细粒度标注,设计三个相互关联的任务:细粒度球追踪、关节式球拍姿态估计和预测性球轨迹预测。
  • Result: 评估发现多模态融合的关键洞察:简单拼接球拍姿态特征会降低性能,而使用CrossAttention机制能有效利用这些特征,使轨迹预测结果超越强单模态基线。
  • Conclusion: RacketVision为动态物体追踪、条件运动预测和体育多模态分析提供了多功能资源和强起点,推动了相关领域的研究发展。

[43] RoomPlanner: Explicit Layout Planner for Easier LLM-Driven 3D Room Generation

Wenzhuo Sun,Mingjian Liang,Wenxuan Song,Xuelian Cheng,Zongyuan Ge

Main category: cs.CV

TL;DR: RoomPlanner是一个全自动3D房间生成框架,仅需短文本输入即可创建逼真的室内场景,无需手动布局设计或全景图像指导,生成时间少于30分钟。

  • Motivation: 解决传统3D室内场景生成需要大量手动布局设计和专业知识的痛点,实现仅通过简单文本描述就能自动生成合理3D场景的目标。
  • Method: 使用分层语言驱动代理规划器解析文本提示,生成详细场景描述;通过两种排列约束迭代优化空间布局;采用AnyReach采样和ITFS策略优化3D高斯场景表示。
  • Result: 能够生成几何合理的3D室内场景,在渲染速度和视觉质量上超越现有方法,同时保持可编辑性。
  • Conclusion: RoomPlanner首次实现了完全自动化的3D房间生成,为快速创建逼真室内场景提供了高效解决方案。

[44] PathAgent: Toward Interpretable Analysis of Whole-slide Pathology Images via Large Language Model-based Agentic Reasoning

Jingyun Chen,Linghan Cai,Zhikang Wang,Yi Huang,Songhan Jiang,Shenjin Huang,Hongpeng Wang,Yongbing Zhang

Main category: cs.CV

TL;DR: PathAgent是一个基于大语言模型的训练免费代理框架,模拟病理学家的逐步分析过程,通过导航器定位关键微区域、感知器提取形态学特征、执行器整合推理轨迹,实现全切片图像的透明可解释分析。

  • Motivation: 现有计算流程缺乏明确的推理轨迹,导致预测不透明且不可解释。需要模拟病理学家动态缩放、重新聚焦和自我纠正的迭代证据驱动推理过程。
  • Method: 使用训练免费的LLM代理框架,包含三个模块:导航器迭代定位关键微区域、感知器提取形态学视觉线索、执行器将发现整合到自然语言推理轨迹中。
  • Result: 在五个挑战性数据集上评估,PathAgent展现出强大的零样本泛化能力,在开放性和约束性视觉问答任务中超越任务特定基线。与人类病理学家协作评估证实其作为透明临床诊断助手的潜力。
  • Conclusion: PathAgent通过显式思维链实现完全可解释的预测,为全切片图像分析提供了透明且临床基础的诊断辅助框架。

[45] OmniPT: Unleashing the Potential of Large Vision Language Models for Pedestrian Tracking and Understanding

Teng Fu,Mengyang Zhao,Ke Niu,Kaixin Peng,Bin Li

Main category: cs.CV

TL;DR: 提出了一个统一的行人跟踪框架OmniPT,能够进行跟踪、基于参考的跟踪,并交互式生成对跟踪对象的语义理解。通过RL-Mid Training-SFT-RL训练阶段解决基础模型执行跟踪任务和格式化输出的问题。

  • Motivation: LVLMs在图像级任务表现出色,但在实例级任务如视觉定位和目标检测中仍存在性能差距。行人跟踪任务需要模型在高级语义层面理解跟踪对象,这正是LVLMs的优势所在。
  • Method: 实现RL-Mid Training-SFT-RL训练阶段:基于预训练的LVLM权重,先进行RL阶段使模型输出固定可监督的边界框格式,然后使用大量行人相关数据集进行中期训练,最后在几个行人跟踪数据集上进行监督微调,再进行RL阶段提升跟踪性能和指令跟随能力。
  • Result: 在跟踪基准测试上的实验结果表明,所提方法能够比之前的方法表现更好。
  • Conclusion: OmniPT框架成功地将行人跟踪任务建模为基础模型可执行的任务,并通过多阶段训练策略实现了优于先前方法的性能。

[46] RL-AD-Net: Reinforcement Learning Guided Adaptive Displacement in Latent Space for Refined Point Cloud Completion

Bhanu Pratap Paregi,Vaibhav Kumar

Main category: cs.CV

TL;DR: RL-AD-Net是一个基于强化学习的点云补全优化框架,通过在预训练点云自编码器的潜在空间中操作,提升局部几何一致性。

  • Motivation: 现有点云补全模型虽然能生成全局合理的形状,但往往存在局部几何不一致的问题,需要一种轻量级、模块化的优化方法。
  • Method: 使用强化学习代理在潜在空间调整全局特征向量,结合PointNN选择器评估几何一致性,保留更好的重建结果。
  • Result: 在ShapeNetCore-2048上的实验表明,该方法在随机裁剪场景下表现优于基线模型,能持续提供改进。
  • Conclusion: 该框架轻量、模块化且模型无关,可广泛应用于各种补全网络而无需重新训练。

[47] REArtGS++: Generalizable Articulation Reconstruction with Temporal Geometry Constraint via Planar Gaussian Splatting

Di Wu,Liu Liu,Anran Huang,Yuyan Liu,Qiaoyu Jun,Shaofan Liu,Liangtu Song,Cewu Lu

Main category: cs.CV

TL;DR: REArtGS++ 提出了一种基于平面高斯抛光和时序几何约束的可泛化铰接物体重建方法,解决了现有方法在螺旋关节和多部件物体上的局限性。

  • Motivation: 现有方法REArtGS在处理螺旋关节或多部件物体时存在困难,且缺乏对未见状态的几何约束,需要改进以实现更通用的铰接物体重建。
  • Method: 1) 为每个关节建模解耦的螺旋运动(无需类型先验);2) 通过部件运动混合联合优化部件感知高斯和关节参数;3) 引入时序几何约束,鼓励高斯平面化并通过泰勒一阶展开实现平面法向与深度的时序一致性正则化。
  • Result: 在合成和真实铰接物体上的大量实验表明,该方法在可泛化的部件级表面重建和关节参数估计方面优于现有方法。
  • Conclusion: REArtGS++ 通过引入时序几何约束和平面高斯抛光,显著提升了铰接物体重建的通用性和准确性。

[48] ReBrain: Brain MRI Reconstruction from Sparse CT Slice via Retrieval-Augmented Diffusion

Junming Liu,Yifei Sun,Weihua Cheng,Yujin Kang,Yirong Chen,Ding Wang,Guosun Zeng

Main category: cs.CV

TL;DR: ReBrain是一个基于检索增强扩散的框架,用于从稀疏CT扫描重建完整脑部MRI体积,通过检索相似CT切片作为参考并结合扩散模型生成中间MRI切片。

  • Motivation: 解决低剂量CT协议导致的稀疏CT体积和差平面分辨率问题,使无法进行MRI检查的患者能够通过CT获得准确的脑部MRI重建。
  • Method: 使用Brownian Bridge扩散模型合成2D MRI切片,同时通过微调检索模型从先验数据库中检索结构和病理相似的CT切片,通过ControlNet分支引导中间MRI切片生成,确保结构连续性。
  • Result: 在SynthRAD2023和BraTS数据集上的实验表明,ReBrain在稀疏条件下的跨模态重建中达到了最先进的性能。
  • Conclusion: ReBrain框架通过检索增强扩散方法有效解决了稀疏CT到MRI的重建挑战,为无法进行MRI检查的患者提供了可行的替代方案。

[49] Diversity Has Always Been There in Your Visual Autoregressive Models

Tong Wang,Guanyu Yang,Nian Liu,Kai Wang,Yaxing Wang,Abdelrahman M Shaker,Salman Khan,Fahad Shahbaz Khan,Senmao Li

Main category: cs.CV

TL;DR: DiverseVAR是一种无需额外训练即可恢复VAR模型生成多样性的方法,通过抑制输入中的关键组件并放大输出中的关键组件来提升多样性,同时保持高质量合成。

  • Motivation: VAR模型虽然效率高,但存在多样性崩溃问题,类似于少步蒸馏扩散模型中的多样性减少现象,需要在不增加训练成本的情况下解决这个问题。
  • Method: 分析发现特征图中的关键组件是早期尺度多样性形成的关键因素,通过抑制输入中的关键组件并放大输出中的关键组件来恢复生成多样性。
  • Result: 实证结果表明,该方法显著增强了生成多样性,同时对性能影响可忽略不计。
  • Conclusion: DiverseVAR有效解锁了VAR模型的固有生成潜力,在保持高保真合成的同时解决了多样性崩溃问题。

[50] Spanning Tree Autoregressive Visual Generation

Sangkyu Lee,Changho Lee,Janghoon Han,Hosung Song,Tackgeun You,Hwasup Lim,Stanley Jungkyu Choi,Honglak Lee,Youngjae Yu

Main category: cs.CV

TL;DR: STAR建模通过使用图像补丁位置定义的网格中均匀生成树的遍历顺序,在保持采样性能的同时提供灵活的序列顺序,以支持图像编辑。

  • Motivation: 传统自回归模型在视觉生成中暴露随机排列的序列顺序时,要么性能下降,要么在推理时序列顺序选择的灵活性受损。
  • Method: STAR利用图像补丁位置网格中均匀生成树的遍历顺序,通过广度优先搜索获得遍历顺序,并通过拒绝采样确保连接的图像部分观测作为序列前缀出现。
  • Result: STAR在保持采样性能的同时,提供了足够灵活的序列顺序来适应推理时的图像编辑。
  • Conclusion: STAR通过定制但结构化的随机化策略,在不需要显著改变语言AR建模广泛采用的模型架构的情况下,保持了后缀完成能力并维持了采样性能。

[51] SPAGS: Sparse-View Articulated Object Reconstruction from Single State via Planar Gaussian Splatting

Di Wu,Liu Liu,Xueyu Yuan,Qiaoyu Jun,Wenxiao Chen,Ruilong Yan,Yiming Tang,Liangtu Song

Main category: cs.CV

TL;DR: 提出了一种基于平面高斯溅射的类别无关铰接物体重建框架,仅需单状态稀疏视角RGB图像即可实现高保真部件级表面重建。

  • Motivation: 现有铰接物体重建方法通常需要多阶段、多视角观测等昂贵输入,存在局限性。
  • Method: 引入高斯信息场感知最优稀疏视角,将3D高斯压缩为平面高斯以准确估计法线和深度,通过深度平滑正则化和少样本扩散进行粗到细优化,并为每个高斯基元引入部件分割概率。
  • Result: 在合成和真实数据上均比现有方法实现了更高保真度的部件级表面重建。
  • Conclusion: 该方法仅需稀疏视角RGB图像即可实现高质量的铰接物体重建,优于现有方法。

[52] Sparse Reasoning is Enough: Biological-Inspired Framework for Video Anomaly Detection with Large Pre-trained Models

He Huang,Zixuan Hu,Dongxiao Li,Yao Xiao,Ling-Yu Duan

Main category: cs.CV

TL;DR: ReCoVAD提出了一种基于人类神经系统双通路启发的视频异常检测框架,通过选择性帧处理减少冗余计算,在保持最先进性能的同时仅处理28.55%和16.04%的帧。

  • Motivation: 现有基于大型预训练模型的视频异常检测方法通常依赖密集帧级推理,计算成本高且延迟大。本文探讨在使用强大预训练模型时,密集推理是否真正必要。
  • Method: 提出ReCoVAD框架,包含两个核心通路:反射通路使用轻量级CLIP模块融合视觉特征与原型提示,查询动态记忆进行快速响应;意识通路使用中规模视觉语言模型生成文本事件描述和精炼异常分数,并集成大语言模型定期审查描述以识别未见异常。
  • Result: 在UCF-Crime和XD-Violence数据集上,ReCoVAD实现了最先进的免训练性能,同时仅处理先前方法所用帧数的28.55%和16.04%。
  • Conclusion: 研究表明,对于基于大型模型的视频异常检测,稀疏推理已足够有效,无需密集推理。

[53] Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs

Daiqing Wu,Dongbao Yang,Yu Zhou,Can Ma

Main category: cs.CV

TL;DR: 提出PACL方法,通过从预训练文本模型借用知识来增强视觉模型的情感感知能力,解决视觉情感识别中的"情感鸿沟"问题。

  • Motivation: 视觉情感识别中预训练视觉模型的事实级特征与情感类别缺乏直接关联(情感鸿沟),而文本模态具有明确的情感表达和高信息密度,可以弥补这一缺陷。
  • Method: 提出分区自适应对比学习(PACL),通过分离不同类型的样本并为每种类型设计不同的对比学习策略,动态构建正负样本对,充分利用噪声样本的潜力。
  • Result: 实验表明,弥合"情感鸿沟"显著提高了各种预训练视觉模型在下游情感相关任务中的性能。
  • Conclusion: 通过从文本模型借用知识可以有效增强视觉模型的情感感知能力,PACL方法在视觉情感识别任务中取得了显著改进。

[54] ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better

Yuan Zhang,Ming Lu,Junwen Pan,Tao Huang,Kuan Cheng,Qi She,Shanghang Zhang

Main category: cs.CV

TL;DR: ChainV是一个动态整合视觉提示的多模态推理框架,通过选择代表性视觉补丁和基于一致性的评估机制,使多模态推理更短更准确。

  • Motivation: 现有多模态推理模型在生成长推理链时存在冗余自反思,而基于静态视觉参考的CoT压缩方法对多模态推理增益有限。
  • Method: ChainV首先基于前一步推理进行粗略视觉补丁选择,然后根据平均注意力强度识别最具代表性的原子视觉提示,并引入基于一致性的评估机制来调整自反思程度。
  • Result: 在MathVista基准测试中准确率提升2.3%,推理延迟降低51.4%,输出token长度缩短24.5%。
  • Conclusion: ChainV通过动态整合视觉提示显著提高了多模态推理的准确性和效率,特别是在数学密集型任务中效果显著。

[55] PEGS: Physics-Event Enhanced Large Spatiotemporal Motion Reconstruction via 3D Gaussian Splatting

Yijun Xu,Jingrui Zhang,Hongyi Liu,Yuhan Chen,Yuanyang Wang,Qingyao Guo,Dingwen Wang,Lei Yu,Chu He

Main category: cs.CV

TL;DR: PEGS是一个结合物理先验和事件流增强的3D高斯溅射框架,用于解决大时空尺度下的刚体运动重建问题,通过多级监督和运动感知训练策略实现去模糊和运动恢复。

  • Motivation: 大时空尺度下的刚体运动重建面临建模范式限制、严重运动模糊和物理一致性不足等挑战,需要新的方法来提升重建质量。
  • Method: 提出PEGS框架,将物理先验与事件流增强集成到3D高斯溅射流程中,采用三重监督方案(加速度约束、事件流高时间分辨率指导、卡尔曼正则化)和运动感知模拟退火训练策略。
  • Result: 实验表明PEGS在大时空尺度运动重建方面优于主流动态方法,并贡献了首个针对自然快速刚体运动的RGB-Event配对数据集。
  • Conclusion: PEGS通过整合物理先验和事件流增强,有效解决了大时空尺度刚体运动重建的挑战,在去模糊和运动恢复方面表现出色。

[56] Off the Planckian Locus: Using 2D Chromaticity to Improve In-Camera Color

SaiKiran Tedla,Joshua E. Little,Hakki Can Karaimer,Michael S. Brown

Main category: cs.CV

TL;DR: 该论文提出了一种从1D CCT空间转向2D色度空间的颜色映射方法,使用轻量级MLP替代传统CCT插值,显著提高了非普朗克光源(如LED)下的色彩还原精度。

  • Motivation: 现代LED照明技术常常偏离普朗克轨迹,传统基于CCT的一维插值方法在非普朗克光源下存在局限性,需要更准确的色彩映射方法。
  • Method: 使用2D色度空间特征训练轻量级多层感知机(MLP),通过包含代表性LED光源的光箱校准程序进行训练,替代传统的CCT插值方法。
  • Result: 在多种LED照明下验证,该方法平均减少22%的角度再现误差,保持与传统光源的向后兼容性,支持多光源场景,且实时部署计算成本可忽略。
  • Conclusion: 从1D CCT到2D色度空间的转换结合MLP方法,显著提升了非普朗克光源下的色彩还原精度,同时保持实用性和兼容性。

[57] A Multi-Stage Optimization Framework for Deploying Learned Image Compression on FPGAs

Jiaxun Fang,Li Chen

Main category: cs.CV

TL;DR: 提出了一个完整的多阶段优化框架,将高性能的浮点图像压缩模型转换为高效的8位整数FPGA实现,通过动态范围感知量化、混合精度搜索和通道剪枝等方法,在保持性能的同时显著降低计算复杂度。

  • Motivation: 深度学习图像压缩模型在资源受限的FPGA上部署面临挑战,需要解决量化导致的性能下降和硬件效率问题。
  • Method: 1. 动态范围感知量化(DRAQ):使用统计校准的激活裁剪和权重正则化处理数据异常值和大动态范围;2. 渐进混合精度搜索:为FPGA分配最优非均匀位宽;3. 通道剪枝:针对GDN层消除非活跃通道。
  • Result: DRAQ方法将GDN模型的BD-rate开销从30%降至6.3%,硬件感知优化进一步降低20%以上计算复杂度,对RD性能影响可忽略,最终模型在效率和性能上均优于现有FPGA实现。
  • Conclusion: 该框架成功实现了高性能浮点模型到高效整数FPGA实现的转换,在保持图像压缩质量的同时显著提升了硬件效率。

[58] One-Step Diffusion Transformer for Controllable Real-World Image Super-Resolution

Yushun Fang,Yuxiang Chen,Shibo Yin,Qiang Hu,Jiangchao Yao,Ya Zhang,Xiaoyun Zhang,Yanfeng Wang

Main category: cs.CV

TL;DR: ODTSR是一种基于Qwen-Image的一步扩散变换器,通过噪声混合视觉流设计和保真度感知对抗训练,在真实世界图像超分辨率任务中同时实现高保真度和可控性。

  • Motivation: 现有扩散基真实世界图像超分辨率方法存在保真度与可控性之间的平衡问题:多步方法因生成多样性导致保真度低,而一步方法因保真度特定微调失去控制灵活性。
  • Method: 提出噪声混合视觉流设计:新视觉流接收带可调噪声的低质量图像,原视觉流接收带一致噪声的低质量图像;采用保真度感知对抗训练实现一步推理。
  • Result: 在通用真实世界图像超分辨率任务中达到最先进性能,并在中文场景文本图像超分辨率等挑战性场景中实现提示可控性,无需特定数据集训练。
  • Conclusion: ODTSR成功解决了真实世界图像超分辨率中保真度与可控性的平衡问题,为扩散基方法提供了新的设计思路。

[59] Learning to Look Closer: A New Instance-Wise Loss for Small Cerebral Lesion Segmentation

Luc Bouteille,Alexander Jaus,Jens Kleesiek,Rainer Stiefelhagen,Lukas Heine

Main category: cs.CV

TL;DR: 提出CC-DiceCE损失函数解决医学图像分割中传统Dice损失对小病灶分割不足的问题,在nnU-Net框架下相比blob loss和DiceCE基线有更好表现。

  • Motivation: 传统Dice损失函数在医学图像分割中容易忽略小病灶,因为小病灶的相对体积对整体损失贡献很小,导致分割不足。
  • Method: 基于CC-Metrics框架提出CC-DiceCE损失函数,在nnU-Net标准化框架下与blob loss和DiceCE基线进行对比。
  • Result: CC-DiceCE损失提高了病灶检测率(召回率),分割性能仅有轻微下降,但会产生稍多的假阳性;在多数据集研究中普遍优于blob loss。
  • Conclusion: CC-DiceCE损失函数能有效改善小病灶分割问题,在检测性能上优于现有方法,是医学图像分割中处理小病灶的有效解决方案。

[60] A lightweight detector for real-time detection of remote sensing images

Qianyi Wang,Guoqiang Ren

Main category: cs.CV

TL;DR: DMG-YOLO是一个轻量级实时检测器,专门用于遥感图像中的小目标检测,通过双分支特征提取、多尺度特征融合和全局局部聚合特征金字塔网络来平衡准确性和效率。

  • Motivation: 遥感图像中普遍存在小目标,实时检测面临准确性要求高但计算效率需要平衡的挑战。
  • Method: 设计了双分支特征提取模块(DFE),将特征图分为两个并行分支:一个使用深度可分离卷积提取局部特征,另一个使用带门控机制的视觉变换器捕获全局上下文;还包含多尺度特征融合模块(MFF)和全局局部聚合特征金字塔网络(GLAFPN)。
  • Result: 在VisDrone2019和NWPU VHR-10数据集上的实验表明,DMG-YOLO在mAP、模型大小等关键指标上取得了有竞争力的性能。
  • Conclusion: DMG-YOLO通过创新的模块设计有效解决了遥感图像小目标检测的准确性与效率平衡问题。

[61] DiffRefiner: Coarse to Fine Trajectory Planning via Diffusion Refinement with Semantic Interaction for End to End Autonomous Driving

Liuhan Yin,Runkun Ju,Guodong Guo,Erkang Cheng

Main category: cs.CV

TL;DR: 提出DiffRefiner,一种两阶段轨迹预测框架,结合判别式轨迹提议和生成式扩散精炼,在自动驾驶轨迹预测中实现最先进性能。

  • Motivation: 现有生成式方法依赖人工轨迹锚点或随机噪声,有较大改进空间,需要更有效的轨迹预测方法。
  • Method: 第一阶段使用Transformer提案解码器生成粗粒度轨迹预测,第二阶段应用扩散精炼器迭代去噪和精炼初始预测,并设计细粒度去噪解码器增强场景合规性。
  • Result: 在NAVSIM v2上达到87.4 EPDMS,在Bench2Drive上达到87.1 DS和71.4 SR,在两个公开基准测试中创下新记录。
  • Conclusion: DiffRefiner通过结合判别式轨迹提议和生成式精炼,显著提升了扩散基规划的轨迹预测性能,各组件有效性通过消融研究得到验证。

[62] UI-Styler: Ultrasound Image Style Transfer with Class-Aware Prompts for Cross-Device Diagnosis Using a Frozen Black-Box Inference Network

Nhat-Tuong Do-Tran,Ngoc-Hoang-Lam Le,Ching-Chun Huang

Main category: cs.CV

TL;DR: UI-Styler是一种针对超声图像的类感知风格迁移框架,通过模式匹配机制和类感知提示策略,在保持源图像结构内容的同时实现跨设备的语义对齐,显著提升下游任务的性能。

  • Motivation: 超声图像在不同采集设备间存在外观差异,导致域偏移问题,影响固定黑盒下游推理模型的性能。现有无配对图像翻译方法往往忽略类特定语义对齐,造成内容-类别映射错误,损害诊断准确性。
  • Method: 提出UI-Styler框架:1)使用模式匹配机制将目标图像的纹理模式迁移到源图像,同时保留源图像结构内容;2)引入基于目标域伪标签的类感知提示策略,确保与诊断类别的准确语义对齐。
  • Result: 在超声跨设备任务上的广泛实验表明,UI-Styler在分布距离和下游任务(如分类和分割)中始终优于现有无配对图像翻译方法,达到最先进的性能。
  • Conclusion: UI-Styler通过有效的类感知风格迁移和语义对齐,成功解决了超声图像跨设备域适应问题,为医学图像分析提供了可靠的解决方案。

[63] FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Mario Markov,Stefan Maria Ailuro,Luc Van Gool,Konrad Schindler,Danda Pani Paudel

Main category: cs.CV

TL;DR: FireScope是一个基于视觉语言模型的推理生成框架,通过结合强化学习和视觉监督来预测野火风险图,并生成互补的推理轨迹,实现了跨大陆的泛化能力提升。

  • Motivation: 现有的野火风险预测方法缺乏因果推理和多模态理解能力,无法实现可靠的泛化。需要开发能够整合视觉、气候和地理因素的推理密集型空间模型。
  • Method: 提出了FireScope-Bench数据集和基准,结合Sentinel-2影像和气候数据;开发了FireScope框架,基于VLM的推理到生成方法,通过强化学习和视觉监督学习预测风险图。
  • Result: 在美国训练并在欧洲测试时,FireScope实现了显著的性能提升;专家反馈和自动分析确认其推理轨迹是忠实且语义有意义的。
  • Conclusion: 基于语言的推理可以提升视觉生成模型的泛化能力;提出了首个可跨大陆应用的高分辨率野火风险模型;推动了多模态火灾风险模型的鲁棒跨大陆泛化研究。

[64] Investigating self-supervised representations for audio-visual deepfake detection

Dragos-Alexandru Boldisor,Stefan Smeu,Dan Oneata,Elisabeta Oneata

Main category: cs.CV

TL;DR: 本文系统评估了自监督表征在音频-视觉深度伪造检测中的应用潜力,发现这些特征能捕获相关且互补的信息,但存在跨数据集泛化困难的问题。

  • Motivation: 自监督表征在视觉和语音任务中表现出色,但在音频-视觉深度伪造检测中的应用潜力尚未充分探索。现有研究要么孤立使用这些特征,要么将其嵌入复杂架构中,缺乏系统性评估。
  • Method: 系统评估自监督表征在多种模态(音频、视频、多模态)和领域(唇部运动、通用视觉内容)中的表现,从检测效果、编码信息可解释性和跨模态互补性三个维度进行分析。
  • Result: 大多数自监督特征能捕获深度伪造相关信息且信息互补,模型主要关注语义相关区域而非虚假伪影。但所有模型都无法在跨数据集上可靠泛化,这种泛化失败源于数据集特性而非特征本身对表面模式的依赖。
  • Conclusion: 自监督表征在深度伪造检测中展现出潜力,能学习有意义的模式,但实现稳健的跨域性能仍然面临根本性挑战。

[65] Navigating in the Dark: A Multimodal Framework and Dataset for Nighttime Traffic Sign Recognition

Aditya Mishra,Akshay Agarwal,Haroon Lone

Main category: cs.CV

TL;DR: 提出了INTSD夜间交通标志数据集和LENS-Net框架,通过自适应图像增强检测器和多模态分类器解决夜间交通标志识别问题

  • Motivation: 夜间交通标志识别面临视觉噪声和数据集稀缺的挑战,现有方法在低光照条件下鲁棒性不足且未能有效利用多模态线索
  • Method: 1) 引入INTSD大规模夜间交通标志数据集;2) 提出LENS-Net框架,包含自适应图像增强检测器和基于CLIP-GCNN的多模态分类器
  • Result: 该方法超越了现有框架,消融研究证实了关键组件的有效性
  • Conclusion: 提出的数据集和LENS-Net框架为夜间交通标志识别提供了有效的解决方案,代码和数据集已公开

[66] PostCam: Camera-Controllable Novel-View Video Generation with Query-Shared Cross-Attention

Yipeng Chen,Zhichao Ye,Zhenzhou Fang,Xinyu Chen,Xiaoyu Zhang,Jialing Liu,Nan Wang,Haomin Liu,Guofeng Zhang

Main category: cs.CV

TL;DR: PostCam是一个用于动态场景中相机轨迹后处理编辑的新视角视频生成框架,通过查询共享交叉注意力模块融合6-DoF相机位姿和2D渲染视频帧,实现精确的相机运动控制和高保真视频生成。

  • Motivation: 现有视频重捕获方法的相机运动注入策略不理想,限制了相机控制精度并导致生成视频无法保留源视频的精细视觉细节。
  • Method: 提出查询共享交叉注意力模块,将6-DoF相机位姿和2D渲染视频帧融合到共享特征空间中;采用两阶段训练策略:先学习粗略相机控制,再结合视觉信息优化运动精度和视觉保真度。
  • Result: 在真实世界和合成数据集上的实验表明,PostCam在相机控制精度和视角一致性上比最先进方法提升超过20%,同时达到最高的视频生成质量。
  • Conclusion: PostCam通过统一的运动表示和两阶段训练策略,实现了更准确灵活的相机运动操控,显著提升了新视角视频生成的性能。

[67] Real Noise Decoupling for Hyperspectral Image Denoising

Yingkai Zhang,Tao Zhang,Jing Nie,Ying Fu

Main category: cs.CV

TL;DR: 提出多阶段噪声解耦框架,将复杂噪声分解为显式和隐式建模分量,通过预训练和联合微调策略有效去除真实高光谱图像中的复杂噪声。

  • Motivation: 现有噪声建模方法难以准确拟合真实高光谱图像中的复杂噪声分布,限制了去噪网络在真实数据上的有效性。
  • Method: 多阶段噪声解耦框架:1)将噪声分解为显式和隐式建模分量;2)使用现有噪声模型预训练去噪网络处理显式噪声;3)引入高频小波引导网络处理隐式噪声;4)采用分离预训练和联合微调的多阶段学习策略。
  • Result: 在公开数据集和自采集数据集上的大量实验表明,该框架优于现有最先进方法,能有效处理复杂真实噪声并显著提升高光谱图像质量。
  • Conclusion: 所提出的多阶段噪声解耦框架通过分解复杂噪声并采用多阶段学习策略,能够有效去除真实高光谱图像中的复杂噪声,显著提升图像质量。

[68] VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

Hanyu Zhou,Chuanhao Ma,Gim Hee Lee

Main category: cs.CV

TL;DR: 提出了VLA-4D模型,通过4D感知的视觉表示和时空动作表示,实现机器人的时空一致性操作控制。

  • Motivation: 现有的视觉-语言-动作模型在时空一致性操作方面存在挑战,难以实现动作执行的时间连贯控制。
  • Method: 使用4D感知视觉表示(将1D时间嵌入3D位置形成4D嵌入)和时空动作表示(扩展空间动作表示包含时间信息),通过跨注意力机制融合多模态表示。
  • Result: 在多个机器人操作任务中验证了方法的优越性,实现了空间平滑和时间连贯的操作。
  • Conclusion: VLA-4D模型通过统一的4D感知框架,有效解决了机器人操作中的时空一致性问题。

[69] Continual Alignment for SAM: Rethinking Foundation Models for Medical Image Segmentation in Continual Learning

Jiayi Wang,Wei Dai,Haoyu Wang,Sihan Yang,Haixia Bi,Jian Sun

Main category: cs.CV

TL;DR: 提出CA-SAM方法,通过轻量级对齐层适配SAM模型到医学图像分割,在持续学习中避免灾难性遗忘,在九个医学数据集上达到SOTA性能

  • Motivation: 医学图像分割中,机构间的隐私政策差异使得联合训练不可行,需要持续学习;SAM模型参数大、计算开销高,需要平衡效率与性能
  • Method: 提出对齐层模块适配SAM特征分布,基于此构建CA-SAM持续学习策略,自动适配对齐层来缓解灾难性遗忘,同时利用SAM的零样本先验
  • Result: 在九个医学分割数据集的持续学习场景中,CA-SAM达到了最先进的性能
  • Conclusion: SAM范式在平衡计算效率和性能后很有前景,CA-SAM通过轻量级对齐层和持续学习策略有效解决了医学图像分割中的实际问题

[70] SING3R-SLAM: Submap-based Indoor Monocular Gaussian SLAM with 3D Reconstruction Priors

Kunyi Li,Michael Niemeyer,Sen Wang,Stefano Gasperini,Nassir Navab,Federico Tombari

Main category: cs.CV

TL;DR: SING3R-SLAM是一个基于高斯表示的全局一致且紧凑的稠密RGB SLAM框架,通过结合局部一致3D重建与统一全局高斯表示,联合优化场景几何和相机位姿,实现高效多用途3D建图。

  • Motivation: 解决现有稠密3D重建方法在SLAM中的漂移和冗余点云问题,这些限制了效率和下游任务(如新视角合成)的性能。
  • Method: 首先通过轻量级跟踪和重建模块构建局部一致子图,然后逐步对齐并融合到全局高斯地图中,强制执行跨视角几何一致性,全局地图反馈纠正局部漂移。
  • Result: 在真实世界数据集上实现了最先进的跟踪、3D重建和新视角渲染性能,跟踪精度提升超过12%,产生更精细详细的几何,同时保持紧凑的内存高效全局表示。
  • Conclusion: SING3R-SLAM成功解决了稠密SLAM中的漂移和冗余问题,提供了一种高效、紧凑且多功能的3D建图解决方案,适用于多种下游应用。

[71] Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers

Cris Claessens,Christiaan Viviers,Giacomo D'Amicantonio,Egor Bondarev,Fons van der Sommen

Main category: cs.CV

TL;DR: SPECTRE是一个基于Transformer的3D CT基础模型,通过自监督和跨模态预训练学习通用CT表示,在多个CT基准测试中表现优异。

  • Motivation: 解决3D CT成像面临的独特挑战:极端token扩展、几何各向异性、弱或噪声临床监督,使标准Transformer和对比学习方法难以直接应用。
  • Method: 联合优化局部Transformer进行高分辨率体积特征提取和全局Transformer进行全扫描上下文建模,结合DINO风格自蒸馏和基于SigLIP的视觉-语言对齐预训练。
  • Result: 在多个CT基准测试中,SPECTRE在零样本和微调设置下均优于现有CT基础模型,证明无需私有数据即可获得高性能通用表示。
  • Conclusion: SPECTRE是一个可扩展、开放且完全基于Transformer的3D医学成像基础模型,能够学习几何一致且临床有意义的特征。

[72] FisheyeGaussianLift: BEV Feature Lifting for Surround-View Fisheye Camera Perception

Shubham Sonarghare,Prasad Deshpande,Ciaran Hogan,Deepika-Rani Kaliappan-Mahalingam,Ganesh Sistu

Main category: cs.CV

TL;DR: 提出了一种针对鱼眼图像的BEV语义分割框架,通过几何反投影和像素级深度分布估计处理非线性畸变,使用高斯参数化建模几何不确定性,无需去畸变即可生成连续的不确定性感知语义地图。

  • Motivation: 解决鱼眼图像因极端非线性畸变、遮挡和深度模糊导致的BEV语义分割挑战,特别是在停车和城市驾驶场景中。
  • Method: 使用多相机高分辨率鱼眼图像,通过校准的几何反投影和像素级深度分布估计,将每个像素通过高斯参数化提升到3D空间,预测空间均值和各向异性协方差来显式建模几何不确定性,通过可微分splatting将投影的3D高斯融合到BEV表示中。
  • Result: 在复杂停车和城市驾驶场景中表现出强大的分割性能,在严重鱼眼畸变和多样化环境条件下,可行驶区域的IoU达到87.75%,车辆的IoU达到57.26%。
  • Conclusion: 该框架能够有效处理鱼眼图像的几何畸变,生成高质量的BEV语义分割结果,无需去畸变或透视校正,在挑战性场景中表现出色。

[73] Dual-domain Adaptation Networks for Realistic Image Super-resolution

Chaowei Fang,Bolin Fu,De Cheng,Lechao Cheng,Guanbin Li

Main category: cs.CV

TL;DR: 提出双域自适应网络,通过空间域和频域自适应策略,将预训练超分辨率模型从合成数据有效迁移到真实世界数据,在多个真实超分基准上表现优异。

  • Motivation: 真实世界图像超分辨率面临复杂退化模式,但缺乏足够的真实LR-HR数据。预训练模型提供有价值的先验知识,但需要有效适应真实世界场景。
  • Method: 双域自适应网络:空间域自适应通过选择性更新参数和低秩适应技术;频域自适应分支结合输入频谱和空间域中间特征推断HR频域图。
  • Result: 在RealSR、D2CRealSR、DRealSR等真实超分基准上优于现有最先进方法。
  • Conclusion: 提出的双域自适应方法能有效利用预训练模型知识,提升真实世界图像超分辨率性能,减少对大量真实数据的需求。

[74] QueryOcc: Query-based Self-Supervision for 3D Semantic Occupancy

Adam Lilja,Ji Lan,Junsheng Fu,Lars Hammarstrand

Main category: cs.CV

TL;DR: QueryOcc是一个基于查询的自监督框架,通过4D时空查询直接学习连续3D语义占用,在自监督Occ3D-nuScenes基准上比之前方法提升26%的语义RayIoU,运行速度达11.6 FPS。

  • Motivation: 大规模3D标注成本过高,现有方法要么依赖2D渲染一致性导致3D结构仅隐式出现,要么使用离散体素网格限制空间精度和可扩展性。
  • Method: 使用独立的4D时空查询在相邻帧间采样,支持从视觉基础模型生成的伪点云或原始激光雷达数据进行监督,引入收缩场景表示以在恒定内存下实现长距离监督和推理。
  • Result: 在自监督Occ3D-nuScenes基准上,语义RayIoU比之前相机方法提升26%,运行速度达11.6 FPS。
  • Conclusion: 直接的4D查询监督能够实现强大的自监督占用学习。

[75] Equivariant-Aware Structured Pruning for Efficient Edge Deployment: A Comprehensive Framework with Adaptive Fine-Tuning

Mohammed Alnemari

Main category: cs.CV

TL;DR: 提出结合群等变卷积网络与等变感知结构化剪枝的框架,在保持几何变换不变性的同时实现模型压缩,特别适用于资源受限环境和卫星图像分析。

  • Motivation: 解决等变网络在资源受限环境中的部署问题,平衡几何鲁棒性与计算效率,为卫星图像分析等几何视觉任务提供实用化解决方案。
  • Method: 使用e2cnn库实现C4循环群等变性,通过分析e2cnn层结构进行结构化剪枝,采用自适应微调、动态INT8量化和知识蒸馏等技术。
  • Result: 在EuroSAT、CIFAR-10和Rotated MNIST等数据集上实现29.3%参数削减,同时保持几何鲁棒性和显著精度恢复。
  • Conclusion: 该框架成功弥合群论网络设计与实际部署需求之间的差距,为等变模型优化提供了可复现的解决方案。

[76] Blind Deconvolution for Color Images Using Normalized Quaternion Kernels

Yuming Yang,Michael K. Ng,Zhigang Jia,Wei Wang

Main category: cs.CV

TL;DR: 提出了一种基于四元数保真项的颜色图像盲去卷积方法,通过四元数卷积核建模颜色通道间的关系,有效提升去模糊效果。

  • Motivation: 现有方法通常将彩色图像转为灰度图或分别处理各颜色通道,忽略了颜色通道间的相互关系,导致去模糊效果不佳。
  • Method: 设计了专门用于彩色图像盲去卷积的四元数保真项,使用包含四个核的四元数卷积核:一个捕获整体模糊的非负核和三个无约束的RGB通道核来建模通道间未知的相互依赖关系,并采用归一化四元数核来保持图像强度。
  • Result: 在真实模糊彩色图像数据集上的大量实验表明,该方法能有效去除伪影并显著改善去模糊效果。
  • Conclusion: 该方法作为彩色图像去卷积的强大工具具有很大潜力,能够有效处理颜色通道间的关系问题。

[77] Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats

Jiaye Qian,Ge Zheng,Yuchen Zhu,Sibei Yang

Main category: cs.CV

TL;DR: 该研究提出了一个针对大型视觉语言模型幻觉问题的综合干预框架,发现幻觉源于图像-输入文本、图像-输出文本和文本-文本三种路径的相互作用,并提出了针对不同问答对齐格式的干预方法。

  • Motivation: 尽管大型视觉语言模型在各种任务中表现出色,但它们仍然容易产生幻觉。本研究旨在理解幻觉产生的因果路径并提出有效的干预方法。
  • Method: 提出了与transformer因果架构对齐的综合干预框架,分析不同干预路径对幻觉的影响。通过识别和干预每个路径中的关键幻觉头,针对判别式和生成式格式设计相应方法。
  • Result: 实验表明,该方法在多个基准测试中能够持续减少各种对齐类型的幻觉。
  • Conclusion: LVLMs的幻觉并非来自单一因果路径,而是多种路径相互作用的结果。提出的干预方法能够有效减少幻觉,且发现模型根据问答对齐格式依赖不同的路径。

[78] A Little More Like This: Text-to-Image Retrieval with Vision-Language Models Using Relevance Feedback

Bulat Khaertdinov,Mirela Popa,Nava Tintarev

Main category: cs.CV

TL;DR: 本文提出了一种基于相关性反馈的视觉语言模型检索增强机制,包括四种策略:伪相关性反馈、生成式相关性反馈、注意力反馈总结器和显式反馈,能提升检索性能3-5%。

  • Motivation: 大型视觉语言模型虽然支持自然语言视觉搜索,但提升性能通常需要微调或使用更大模型。本文受传统文本搜索启发,提出在推理时使用相关性反馈来改善检索效果。
  • Method: 提出了四种相关性反馈策略:1) 伪相关性反馈(PRF):基于排名靠前结果优化查询嵌入;2) 生成式相关性反馈(GRF):使用合成标题进行查询优化;3) 注意力反馈总结器(AFS):基于Transformer整合相关项目的多模态细粒度特征;4) 显式反馈:使用真实标题作为上限基准。
  • Result: 在Flickr30k和COCO数据集上的实验显示,GRF、AFS和显式反馈相比无反馈检索,在小型VLM上提升MRR@5指标3-5%,在大型VLM上提升1-3%。AFS与显式反馈类似,能缓解查询漂移,在多轮迭代检索中比GRF更稳健。
  • Conclusion: 相关性反馈能持续增强不同视觉语言模型的检索性能,为交互式和自适应视觉搜索开辟了新机会。

[79] Range-Edit: Semantic Mask Guided Outdoor LiDAR Scene Editing

Suchetan G. Uppur,Hemant Kumar,Vaibhav Kumar

Main category: cs.CV

TL;DR: 提出了一种基于语义掩码引导的LiDAR点云编辑方法,通过扩散模型生成合成LiDAR点云,用于增强自动驾驶系统的训练数据。

  • Motivation: 获取真实世界中复杂边缘案例的多样化点云数据具有挑战性,限制了自动驾驶系统的泛化能力和鲁棒性。现有模拟方法耗时且难以完全捕捉真实场景复杂性。
  • Method: 将点云转换为2D距离图像,使用基于凸包的语义掩码进行条件引导,实现基于扩散模型的语义编辑生成。
  • Result: 在KITTI-360数据集上验证了高质量的LiDAR点云生成能力,能够产生复杂边缘案例和动态场景。
  • Conclusion: 该方法为生成多样化LiDAR数据提供了成本效益高且可扩展的解决方案,有助于提升自动驾驶系统的鲁棒性。

[80] Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

Chuancheng Shi,Shangze Li,Shiming Guo,Simiao Xie,Wenhua Wu,Jingtong Dou,Chao Wu,Canran Xiao,Cong Wang,Zifeng Cheng,Fei Shen,Tat-Seng Chua

Main category: cs.CV

TL;DR: 论文分析了多语言文本到图像模型在文化一致性方面的不足,提出了定位文化敏感神经元的方法和两种对齐策略来改善跨语言文化一致性。

  • Motivation: 当前多语言T2I模型在跨语言提示下往往产生文化中立或英语偏向的结果,缺乏文化一致性,需要解决这一文化表征激活不足的问题。
  • Method: 1. 提出探测方法定位文化敏感信号到少量固定层的神经元;2. 推理时文化激活策略放大已识别神经元;3. 层定向文化增强策略仅更新文化相关层。
  • Result: 在CultureBench上的实验显示,相比强基线方法,在保持保真度和多样性的同时,文化一致性得到持续改善。
  • Conclusion: 通过定位文化敏感神经元并采用两种互补的对齐策略,能够有效提升多语言T2I模型的文化一致性表现。

[81] MolSight: Optical Chemical Structure Recognition with SMILES Pretraining, Multi-Granularity Learning and Reinforcement Learning

Wenrui Zhang,Xinggang Wang,Bin Feng,Wenyu Liu

Main category: cs.CV

TL;DR: MolSight是一个用于光学化学结构识别(OCSR)的三阶段学习框架,通过预训练、多粒度微调和强化学习优化,在立体化学信息识别方面达到最先进性能。

  • Motivation: 现有OCSR系统在准确识别立体化学信息方面面临挑战,因为区分立体异构体的视觉线索(如楔形键、虚线键等)非常细微。
  • Method: 采用三阶段训练范式:1) 在大规模噪声数据集上进行预训练;2) 使用具有丰富监督信号的数据集进行多粒度微调,探索化学键分类和原子定位等辅助任务;3) 使用强化学习进行后训练优化,并引入新的立体化学结构数据集。
  • Result: MolSight在多样化数据集上的实验结果表明,即使在参数规模相对紧凑的情况下,通过GRPO算法也能进一步提升模型在立体分子识别方面的性能。
  • Conclusion: MolSight框架在(立体)化学光学结构识别方面实现了最先进的性能,为化学信息学中的大规模数据挖掘和药物发现提供了有效工具。

[82] BiFingerPose: Bimodal Finger Pose Estimation for Touch Devices

Xiongjun Guan,Zhiyu Pan,Jianjiang Feng,Jie Zhou

Main category: cs.CV

TL;DR: BiFingerPose是一种基于双模态的指尖姿态估计算法,通过结合电容图像和指纹补丁,能够同时准确预测全面的指尖姿态信息,显著提升了姿态参数预测性能。

  • Motivation: 现有基于电容图像的指尖姿态估计算法在便携设备上实现时,主要局限于俯仰角和偏航角的估计,且在处理大角度输入时精度下降,无法估计滚转角。
  • Method: 提出双模态输入方法,包括来自触摸屏的电容图像和屏下指纹传感器获取的指纹补丁,通过融合这两种模态信息实现可靠的指尖姿态估计。
  • Result: BiFingerPose相比现有SOTA方法在预测性能上提升超过21%,任务完成效率提高2.5倍,用户操作准确率提升23%,并能可靠估计滚转角。
  • Conclusion: 该方法在增强认证安全性和改善交互体验方面具有应用潜力,开发的相应原型展示了其交互潜力。

[83] SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion

Jiajie Guo,Qingpeng Zhu,Jin Zeng,Xiaolong Wu,Changyong He,Weida Wang

Main category: cs.CV

TL;DR: 提出了SpatialGeo方法,通过融合几何和语义特征的层次化视觉编码器,增强多模态大语言模型的空间推理能力。

  • Motivation: 大多数多模态大语言模型在三维空间的空间推理能力有限,主要因为现有视觉编码器(如CLIP)只关注实例级语义特征,导致空间信息丢失。
  • Method: 提出层次化适配器,将自监督学习获得的几何特征与CLIP的语义特征融合,生成空间感知的视觉嵌入。采用随机特征丢弃训练策略避免对CLIP编码器的过度依赖。
  • Result: 在SpatialRGPT-Bench基准测试中,空间推理任务准确率提升至少8.0%,推理时内存消耗减少约50%。
  • Conclusion: SpatialGeo通过几何-语义特征融合有效提升了多模态大语言模型的空间推理能力,同时降低了计算成本。

[84] MuM: Multi-View Masked Image Modeling for 3D Vision

David Nordström,Johan Edstedt,Fredrik Kahl,Georg Bökman

Main category: cs.CV

TL;DR: MuM通过将MAE扩展到任意多视角图像,使用统一掩码和轻量解码器,在3D视觉任务中超越了DINOv3和CroCo v2。

  • Motivation: 现有自监督学习方法主要优化语义理解而非几何推理,CroCo是面向3D理解的MAE变体,但仍有改进空间。
  • Method: 将MAE扩展到任意多视角,对所有视图统一掩码,使用轻量解码器和帧间注意力机制。
  • Result: 在重建、密集图像匹配和相对位姿估计等下游任务中超越了DINOv3和CroCo v2。
  • Conclusion: MuM方法比CroCo更简单、可扩展性更强,在3D视觉任务中表现优异。

[85] NoPe-NeRF++: Local-to-Global Optimization of NeRF with No Pose Prior

Dongbo Shi,Shen Cao,Bojian Wu,Jinhui Guo,Lubin Fan,Renjie Chen,Ligang Liu,Jieping Ye

Main category: cs.CV

TL;DR: NoPe-NeRF++是一种无需姿态先验的NeRF训练方法,通过局部到全局优化策略,结合特征匹配和几何一致性约束,显著提升了相机姿态估计精度和新视角合成质量。

  • Motivation: 现有方法如NoPe-NeRF仅关注图像局部关系,在复杂场景中难以恢复准确的相机姿态,需要更鲁棒的姿态估计方法来提升NeRF性能。
  • Method: 采用相对姿态初始化与显式特征匹配,随后进行局部联合优化,最后引入包含特征轨迹的全局束调整来整合几何一致性约束。
  • Result: 在基准数据集上的广泛评估表明,该方法在姿态估计精度和新视角合成质量上均优于现有最先进方法,在挑战性场景中表现出优异的鲁棒性。
  • Conclusion: NoPe-NeRF++是首个将局部和全局线索与NeRF无缝结合的方法,验证了所提出设计选择的有效性。

[86] Refracting Reality: Generating Images with Realistic Transparent Objects

Yue Yin,Enze Tao,Dylan Campbell

Main category: cs.CV

TL;DR: 本文提出了一种改进生成图像中透明物体折射效果的方法,通过同步像素和使用斯涅尔折射定律来生成更符合光学物理约束的图像。

  • Motivation: 当前生成式图像模型在合成透明物体时表现不佳,特别是折射效果,因为它们未能充分学习光学定律来准确渲染折射物体。
  • Method: 在生成过程的每一步中,使用斯涅尔折射定律对物体边界内外的像素进行扭曲和合并同步;对于通过折射或反射可见但未直接观察到的表面,通过将图像与以物体为中心的全景图同步来恢复其外观。
  • Result: 该方法生成了更符合光学物理约束的图像,折射效果更加逼真可信。
  • Conclusion: 通过物理约束的同步方法能够显著改善生成图像中透明物体的折射渲染质量。

[87] Loomis Painter: Reconstructing the Painting Process

Markus Pobitzer,Chang Liu,Chenyi Zhuang,Teng Long,Bin Ren,Nicu Sebe

Main category: cs.CV

TL;DR: 提出了一个统一的框架,用于生成多媒介绘画过程,通过语义驱动的风格控制机制实现跨媒介的一致纹理演化和过程转移。

  • Motivation: 现有的绘画教程视频缺乏交互性和个性化,而生成模型在跨媒介泛化和保持时间一致性方面存在困难,无法忠实再现人类创作流程。
  • Method: 将多种媒介嵌入扩散模型的条件空间,使用跨媒介风格增强,采用反向绘画训练策略确保生成过程平滑且符合人类创作习惯。
  • Result: 在LPIPS、DINO和CLIP指标上取得良好结果,构建了大规模真实绘画过程数据集,并提出了感知距离剖面曲线量化建模创作序列。
  • Conclusion: 该框架能够生成连贯的跨媒介绘画过程,有效模拟人类艺术创作流程中的构图、色彩铺陈和细节精炼阶段。

[88] Label-Efficient Skeleton-based Recognition with Stable-Invertible Graph Convolutional Networks

Hichem Sahbi

Main category: cs.CV

TL;DR: 提出一种基于图卷积网络的骨架动作识别方法,通过新颖的采集函数选择最具信息量的子集进行标注,实现标签高效学习。

  • Motivation: 解决骨架动作识别对大规模人工标注数据集的依赖问题,降低标注成本和时间消耗。
  • Method: 学习一个新颖的采集函数,通过优化目标函数(结合数据代表性、多样性和不确定性)来评分最具信息量的子集;扩展方法使用可逆GCN将数据从环境空间映射到潜在空间以更好地捕获数据分布。
  • Result: 在两个具有挑战性的骨架识别数据集上的广泛实验表明,该方法在标签效率方面优于相关工作。
  • Conclusion: 提出的标签节约型GCN方法在骨架动作识别中表现出有效性和优越性能,显著减少了标注需求。

[89] DSeq-JEPA: Discriminative Sequential Joint-Embedding Predictive Architecture

Xiangteng He,Shunsuke Sakai,Kun Yuan,Nicolas Padoy,Tatsuhito Hasegawa,Leonid Sigal

Main category: cs.CV

TL;DR: DSeq-JEPA是一种改进的视觉表示学习方法,通过识别主要判别区域并按重要性顺序预测,结合了JEPA的潜在预测和GPT风格的序列推理。

  • Motivation: 受人类视觉感知启发,传统I-JEPA方法对所有区域进行统一独立处理,缺乏对预测顺序和重要性的考虑。
  • Method: 首先基于transformer显著性图识别主要判别区域,然后按判别顺序预测后续区域,形成从主要到次要线索的语义递进。
  • Result: 在图像分类、细粒度视觉分类、检测分割和低级推理任务中,DSeq-JEPA比I-JEPA变体获得更判别和泛化的表示。
  • Conclusion: DSeq-JEPA通过整合预测性和自回归自监督学习,实现了更有效的视觉表示学习。

[90] UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Taixi Chen,Jingyun Chen,Nancy Guo

Main category: cs.CV

TL;DR: 提出了一种统一的注意力-Mamba(UAM)骨干网络,用于细胞级放射组学特征的分类,并进一步扩展到多模态框架,在细胞分类和图像分割任务上均取得了最先进的性能。

  • Motivation: 细胞级放射组学特征能提供更精细的肿瘤表型洞察,但现有研究多关注切片级或斑块级分类,缺乏专门针对放射组学数据的骨干网络设计。
  • Method: 引入统一的注意力-Mamba(UAM)骨干网络,灵活结合注意力和Mamba模块,无需手动调整比例。开发了两种UAM变体,并进一步提出多模态UAM框架,联合执行细胞级分类和图像分割。
  • Result: UAM在公共基准测试中实现了最先进的性能:细胞分类准确率从74%提升到78%(n=349,882个细胞),肿瘤分割精度从75%提升到80%(n=406个斑块)。
  • Conclusion: UAM作为一种统一且可扩展的多模态基础架构,在放射组学驱动的癌症诊断中展现出有效性和前景。

[91] SuperQuadricOcc: Multi-Layer Gaussian Approximation of Superquadrics for Real-Time Self-Supervised Occupancy Estimation

Seamie Hayes,Reenu Mohandas,Tim Brophy,Alexandre Boulch,Ganesh Sistu,Ciaran Eising

Main category: cs.CV

TL;DR: SuperQuadricOcc使用超二次曲面表示替代高斯表示,实现自动驾驶场景的语义占据估计,在保持竞争力的同时显著降低内存占用和提升推理速度。

  • Motivation: 高斯表示在自监督占据估计中广泛使用,但大量高斯基元导致内存需求高且不适合实时推理。超二次曲面能减少基元数量和内存需求,但缺乏超二次曲面光栅化器阻碍了模型监督。
  • Method: 提出SuperQuadricOcc方法,使用超二次曲面场景表示,通过多层二十面体细分的高斯近似超二次曲面,在训练期间启用高斯光栅化进行监督。
  • Result: 在Occ3D数据集上,相比之前的高斯方法,内存占用减少75%,推理速度提升124%,mIoU提高5.9%,无需时间标签。基元数量减少84%。
  • Conclusion: 这是第一个实现实时推理同时保持竞争力的占据估计模型,超二次曲面的使用显著减少了场景建模所需的基元数量。

[92] ATAC: Augmentation-Based Test-Time Adversarial Correction for CLIP

Linxiang Su,András Balogh

Main category: cs.CV

TL;DR: 提出了ATAC方法,通过在CLIP嵌入空间中计算增强诱导的漂移向量来推断语义恢复方向,有效提升对抗攻击下的鲁棒性,平均比现有方法提高近50%的鲁棒性。

  • Motivation: CLIP在零样本图像-文本匹配方面表现出色,但对图像对抗扰动高度脆弱。由于对抗微调成本过高,现有测试时防御策略的鲁棒性仍然有限。
  • Method: 在CLIP嵌入空间中操作,计算增强诱导的漂移向量来推断语义恢复方向,基于这些潜在漂移的角度一致性来校正嵌入。
  • Result: 在广泛基准测试中,ATAC始终实现显著高的鲁棒性,平均比先前最先进方法提高近50%,同时计算开销最小。在非常规和极端设置下保持最先进的鲁棒性,甚至对自适应攻击也实现非平凡鲁棒性。
  • Conclusion: ATAC是在CLIP嵌入空间中测试时对抗防御新范式的有效方法。

[93] SVRecon: Sparse Voxel Rasterization for Surface Reconstruction

Seunghun Oh,Jaesung Choe,Dongjae Lee,Daeun Lee,Seunghoon Jeong,Yu-Chiang Frank Wang,Jaesik Park

Main category: cs.CV

TL;DR: SVRecon将稀疏体素栅格化与SDF结合进行高保真表面重建,通过几何初始化和空间平滑损失解决稀疏体素优化中的局部最小值问题

  • Motivation: 稀疏体素具有空间解耦和锐利边界特性,在优化时容易陷入局部最小值,需要保持SDF在独立参数化稀疏体素间的平滑连续性
  • Method: 使用视觉几何模型进行鲁棒几何初始化,并通过空间平滑损失在父子体素和兄弟体素组间强制保持一致性关系
  • Result: 在多个基准测试中展现出强大的重建精度,同时具有一致的快速收敛速度
  • Conclusion: SVRecon方法在保持稀疏体素优势的同时,通过几何初始化和平滑约束实现了高质量的表面重建

[94] Non-Parametric Probabilistic Robustness: A Conservative Metric with Optimized Perturbation Distributions

Zheng Wang,Yi Zhang,Siddartha Khastgir,Carsten Maple,Xingyu Zhao

Main category: cs.CV

TL;DR: 提出了非参数概率鲁棒性(NPPR),一种不依赖预定义扰动分布的更实用的概率鲁棒性度量方法,通过学习优化的扰动分布实现保守的鲁棒性评估。

  • Motivation: 现有的概率鲁棒性(PR)方法假设固定已知的扰动分布,这在实践中不现实,需要更实用的鲁棒性度量方法。
  • Method: 基于高斯混合模型(GMM)和多层感知机(MLP)头以及双三次上采样开发NPPR估计器,覆盖输入相关和输入无关的扰动场景。
  • Result: 在CIFAR-10、CIFAR-100和Tiny ImageNet数据集上的实验验证NPPR作为更实用的鲁棒性度量,相比现有方法提供高达40%更保守的PR估计。
  • Conclusion: NPPR是一个更实用的鲁棒性度量,能够处理分布不确定性,为深度学习模型的鲁棒性评估提供了更现实的框架。

[95] MorphSeek: Fine-grained Latent Representation-Level Policy Optimization for Deformable Image Registration

Runxun Zhang,Yizhou Liu,Li Dongrui,Bo XU,Jingwei Wei

Main category: cs.CV

TL;DR: MorphSeek是一种用于可变形图像配准的细粒度表示级策略优化方法,通过在高维特征空间中建模连续优化过程,实现了空间一致且数据高效的变形优化。

  • Motivation: 解决医学图像配准中高维变形空间和体素级监督稀缺的挑战,现有强化学习方法在低维表示中限制了捕捉空间变化变形的能力。
  • Method: 在编码器上引入随机高斯策略头来建模潜在特征分布,结合无监督预热和弱监督微调,通过多轨迹采样稳定训练并提高标签效率。
  • Result: 在三个3D配准基准测试中,相比竞争基线方法实现了持续的Dice改进,同时保持高标签效率和低参数成本。
  • Conclusion: MorphSeek推进了表示级策略学习范式,为高维环境中的可扩展视觉对齐提供了原理性、骨干无关和优化器无关的解决方案。

[96] Designing and Generating Diverse, Equitable Face Image Datasets for Face Verification Tasks

Georgia Baltsou,Ioannis Sarridis,Christos Koutlis,Symeon Papadopoulos

Main category: cs.CV

TL;DR: 提出了DIF-V数据集和综合方法,使用生成模型创建多样化合成人脸图像,以解决现有数据集中的偏见问题,提升人脸验证系统的公平性和可靠性。

  • Motivation: 现有的人脸图像数据集存在种族、性别等人口统计特征的显著偏见,限制了人脸验证系统的有效性和公平性。
  • Method: 整合先进生成模型创建多样化高质量合成人脸图像,强调各种面部特征的多样性表达,确保符合身份证照片特征要求。
  • Result: 构建了包含27,780张图像、926个独特身份的DIF-V数据集;发现现有验证模型对某些性别和种族存在偏见,身份样式修改会负面影响模型性能。
  • Conclusion: 通过解决现有数据集中的固有不平等问题,不仅丰富了AI多样性和伦理讨论,还为开发更具包容性和可靠的人脸验证技术奠定了基础。

[97] MCMoE: Completing Missing Modalities with Mixture of Experts for Incomplete Multimodal Action Quality Assessment

Huangbiao Xu,Huanqi Wu,Xiao Ke,Junyi Wu,Rui Xu,Jinglin Xu

Main category: cs.CV

TL;DR: 提出了MCMoE框架,通过专家混合模型统一单模态和联合表示学习,解决多模态动作质量评估中模态缺失问题

  • Motivation: 现实应用中部分模态经常在推理阶段不可用,现有多模态模型无法处理模态缺失情况,且会导致性能严重下降
  • Method: 使用自适应门控模态生成器动态融合可用信息重建缺失模态,设计模态专家学习单模态知识,动态混合所有专家知识提取跨模态联合表示
  • Result: 在三个公共AQA基准测试中,在完整和不完整多模态学习上都达到了最先进的结果
  • Conclusion: MCMoE框架有效解决了多模态动作质量评估中的模态缺失问题,实现了鲁棒的性能表现

[98] Sparse Mixture-of-Experts for Multi-Channel Imaging: Are All Channel Interactions Required?

Sukwon Yun,Heming Yao,Burkhard Hoeckendorf,David Richmond,Aviv Regev,Russell Littman

Main category: cs.CV

TL;DR: MoE-ViT是一种针对多通道图像的Vision Transformer架构,通过将每个通道视为专家,使用轻量级路由器选择相关专家进行注意力计算,显著提升了效率而不损失性能。

  • Motivation: 多通道领域(如细胞染色或卫星图像)中,现有方法在tokenization时将每个通道独立处理,导致注意力计算中通道间比较产生二次方增长的FLOPs和高训练成本。需要解决跨通道注意力的效率问题。
  • Method: 提出MoE-ViT架构,受稀疏混合专家(MoE)思想启发,将每个通道视为专家,使用轻量级路由器为每个patch选择最相关的专家进行注意力计算。
  • Result: 在JUMP-CP和So2Sat真实数据集上的实验表明,MoE-ViT实现了显著的效率提升,且在某些情况下性能还有所增强。
  • Conclusion: MoE-ViT是多通道成像领域实用且有吸引力的骨干网络,在保持甚至提升性能的同时大幅提高了效率。

[99] Preventing Shortcut Learning in Medical Image Analysis through Intermediate Layer Knowledge Distillation from Specialist Teachers

Christopher Boland,Sotirios Tsaftaris,Sonia Dahdouh

Main category: cs.CV

TL;DR: 提出一种新的知识蒸馏框架,利用在任务相关数据子集上微调的教师网络来缓解学生网络中的捷径学习问题,在医学图像分析中取得显著效果。

  • Motivation: 深度学习模型容易学习训练数据中虚假相关的捷径特征,在医学图像分析等高风险应用中,这可能导致模型不使用临床相关特征,影响鲁棒性和患者安全。
  • Method: 使用在无偏数据子集上微调的教师网络,通过知识蒸馏指导学生网络,避免学习虚假相关的捷径特征。在CheXpert、ISIC 2017和SimBA数据集上使用多种架构进行验证。
  • Result: 相比传统经验风险最小化、基于增强和基于组的偏置缓解方法,该方法在多个数据集上取得一致改进,在多数情况下能达到与在无偏数据上训练基线模型相当的性能,包括分布外测试数据。
  • Conclusion: 该方法在医学图像分析中具有实际应用价值,特别是在偏置标注有限且捷径特征难以预先识别的情况下。

[100] REMSA: An LLM Agent for Foundation Model Selection in Remote Sensing

Binger Chen,Tacettin Emre Bök,Behnood Rasti,Volker Markl,Begüm Demir

Main category: cs.CV

TL;DR: 本文介绍了RSFM数据库(RS-FMD)和REMSA智能体,用于解决遥感领域基础模型选择困难的问题。RS-FMD包含150多个遥感基础模型,REMSA是基于LLM的智能体,能通过自然语言查询自动选择最适合的模型。

  • Motivation: 遥感领域基础模型越来越多,但选择合适的模型很困难,因为文档分散、格式异构、部署约束多样。需要系统化的方法来帮助用户选择最适合的遥感基础模型。
  • Method: 构建了RSFM数据库(RS-FMD),包含150多个模型的多模态数据。开发了REMSA智能体,使用LLM解释用户需求、解决约束缺失问题、通过上下文学习对候选模型排序,并提供透明解释。
  • Result: 提出了包含75个专家验证查询场景的基准测试,产生900个配置。REMSA在专家中心评估协议中优于多个基线方法,包括朴素智能体、密集检索和非结构化RAG的LLM。
  • Conclusion: REMSA能够有效解决遥感基础模型选择问题,完全基于公开元数据运行,不访问私有或敏感数据,为遥感领域提供了实用的模型选择工具。

[101] MMT-ARD: Multimodal Multi-Teacher Adversarial Distillation for Robust Vision-Language Models

Yuqi Li,Junhao Dong,Chuanguang Yang,Shiping Wen,Piotr Koniusz,Tingwen Huang,Yingli Tian,Yew-Soon Ong

Main category: cs.CV

TL;DR: 提出了MMT-ARD多模态多教师对抗鲁棒蒸馏框架,通过双教师知识融合架构提升视觉语言模型的对抗鲁棒性,在ImageNet上提高鲁棒准确率4.32%,零样本准确率3.5%,训练效率提升2.3倍。

  • Motivation: 视觉语言模型在安全关键应用中部署日益增多,其对抗鲁棒性至关重要。传统单教师对抗蒸馏方法存在知识多样性有限、收敛慢、鲁棒性与准确性难以平衡等问题。
  • Method: 采用双教师知识融合架构,协同优化干净特征保持和鲁棒特征增强;引入基于教师置信度的动态权重分配策略;设计自适应sigmoid加权函数平衡跨模态知识传递强度。
  • Result: 在ImageNet和零样本基准测试中,ViT-B-32模型的鲁棒准确率提升4.32%,零样本准确率提升3.5%,训练效率比传统单教师方法提高2.3倍。
  • Conclusion: MMT-ARD在增强多模态大模型对抗鲁棒性方面具有有效性和可扩展性,为安全关键应用提供了更可靠的视觉语言模型。

[102] Planning with Sketch-Guided Verification for Physics-Aware Video Generation

Yidong Huang,Zun Wang,Han Lin,Dong-Ki Kim,Shayegan Omidshafiei,Jaehong Yoon,Yue Zhang,Mohit Bansal

Main category: cs.CV

TL;DR: SketchVerify是一个无需训练的草图验证规划框架,通过测试时采样和验证循环来改进运动规划质量,生成更动态连贯的轨迹,然后进行完整视频生成。

  • Motivation: 现有视频生成方法大多使用单次规划,限于简单运动,或需要多次调用视频生成器,计算成本高。需要一种既能提高运动质量又高效的规划方法。
  • Method: 提出草图验证框架:预测多个候选运动计划,使用视觉语言验证器评估语义对齐和物理合理性,通过将轨迹渲染为轻量级视频草图来高效评分,迭代优化直到找到满意方案。
  • Result: 在WorldModelBench和PhyWorldBench上的实验表明,该方法显著提高了运动质量、物理真实性和长期一致性,同时效率更高。
  • Conclusion: SketchVerify框架通过测试时采样和验证循环有效提升了运动规划质量,验证了增加轨迹候选数量能持续提升整体性能。

[103] Illustrator's Depth: Monocular Layer Index Prediction for Image Decomposition

Nissim Maruani,Peiying Zhang,Siddhartha Chaudhuri,Matthew Fisher,Nanxuan Zhao,Vladimir G. Kim,Pierre Alliez,Mathieu Desbrun,Wang Yifan

Main category: cs.CV

TL;DR: 提出Illustrator's Depth新深度定义,将平面图像分解为可编辑的有序图层,支持图像矢量化、文本到矢量图形生成、3D浮雕生成和深度感知编辑等应用

  • Motivation: 解决数字内容创作中的关键挑战:将平面图像分解为可编辑的有序图层,受艺术家构图过程启发
  • Method: 提出Illustrator's Depth深度定义,为每个像素推断图层索引,通过离散全局一致的元素排序形成可解释图像分解;训练神经网络从栅格输入直接预测分层
  • Result: 在图像矢量化方面显著优于最先进基线,支持高保真文本到矢量图形生成、从2D图像自动生成3D浮雕、直观深度感知编辑
  • Conclusion: 通过将深度从物理量重新定义为创作抽象,Illustrator's Depth预测为可编辑图像分解提供了新基础

[104] Improving Multimodal Distillation for 3D Semantic Segmentation under Domain Shift

Björn Michele,Alexandre Boulch,Gilles Puy,Tuan-Hung Vu,Renaud Marlet,Nicolas Courty

Main category: cs.CV

TL;DR: 该论文研究了如何利用视觉基础模型进行激光雷达点云语义分割的无监督域自适应,发现骨干网络架构对泛化性能至关重要,可以预训练单一骨干网络并冻结,仅训练MLP头部来实现最佳性能。

  • Motivation: 解决激光雷达语义分割网络在不同类型激光雷达之间泛化能力差的问题,利用视觉基础模型的跨域鲁棒性特征来缩小域偏移带来的性能差距。
  • Method: 基于无监督图像到激光雷达知识蒸馏,研究骨干网络架构选择、单一骨干网络预训练策略,以及冻结预训练骨干网络仅训练MLP头部的方案。
  • Result: 在四个公认的挑战性设置中实现了最先进的性能,证明了所提方法的有效性。
  • Conclusion: 通过精心设计的骨干网络架构和训练策略,可以显著提升激光雷达语义分割在跨域场景下的泛化能力,为实际应用提供了可行的解决方案。

[105] GPR-OdomNet: Difference and Similarity-Driven Odometry Estimation Network for Ground Penetrating Radar-Based Localization

Huaichao Wang,Xuanxin Fan,Ji Liu,Haifeng Li,Dezhen Song

Main category: cs.CV

TL;DR: 提出一种基于神经网络的地面穿透雷达B扫描图像里程计方法,通过分析连续B扫描图像的相似性和差异特征来精确估计欧几里得距离。

  • Motivation: 现有技术在处理具有微小差异的B扫描图像时难以准确估计距离,特别是在恶劣天气和环境条件下进行机器人/车辆定位时存在困难。
  • Method: 设计了一个新的定制神经网络,从连续时刻采集的B扫描图像中提取多尺度特征,然后通过分析这些特征之间的相似性和差异来确定行驶的欧几里得距离。
  • Result: 在CMU-GPR数据集上的实验表明,该方法在所有测试中都优于最先进的对比方法,整体加权RMSE为0.449米,比最佳现有方法降低了10.2%的RMSE。
  • Conclusion: 该方法能够有效利用GPR B扫描图像的相似性和差异特征,在恶劣环境条件下实现更精确的距离估计,为机器人/车辆定位提供了可靠解决方案。

[106] Counterfactual World Models via Digital Twin-conditioned Video Diffusion

Yiqing Shen,Aiza Maksutova,Chenjia Li,Mathias Unberath

Main category: cs.CV

TL;DR: CWMDT是一个将标准视频扩散模型转化为反事实世界模型的框架,通过构建场景的数字孪生表示,使用大语言模型推理干预效果,并生成反事实视觉序列。

  • Motivation: 当前世界模型主要关注基于事实观察的前向模拟,但对于评估AI在不同条件下的物理行为等应用,需要能够回答反事实查询的能力,比如"如果移除这个物体会发生什么?"
  • Method: 1) 构建观察场景的数字孪生,以结构化文本形式编码对象及其关系;2) 使用大语言模型推理反事实干预如何随时间传播改变观察场景;3) 用修改后的表示条件化视频扩散模型来生成反事实视觉序列
  • Result: 在两个基准测试上的评估表明,CWMDT方法实现了最先进的性能,表明视频的替代表示(如数字孪生)为基于视频前向模拟的世界模型提供了强大的控制信号
  • Conclusion: CWMDT框架成功地将标准视频扩散模型转化为有效的反事实世界模型,通过数字孪生表示实现了对特定场景属性的针对性干预,为世界模型的反事实推理能力提供了新思路

[107] Radar2Shape: 3D Shape Reconstruction from High-Frequency Radar using Multiresolution Signed Distance Functions

Neel Sortur,Justin Goodwin,Purvik Patel,Luis Enrique Martinez,Tzofi Klinghoffer,Rajmonda S. Caceres,Robin Walters

Main category: cs.CV

TL;DR: Radar2Shape:一种去噪扩散模型,通过将雷达信号频率与多分辨率形状特征相关联,从部分可观测的雷达信号进行3D重建

  • Motivation: 高频雷达信号的3D形状重建在商业和航空航天应用中至关重要,但现有深度学习方法难以表示任意形状或处理有限视角的真实雷达信号,而光学3D重建方法将雷达信号简单视为相机视图时效果不佳
  • Method: 两阶段方法:首先学习具有层次分辨率形状特征的规范化潜在空间,然后通过以类似从粗到细的方式调节雷达信号频率,扩散到该潜在空间中
  • Result: Radar2Shape能够成功从部分观测的雷达信号重建任意3D形状,并在两种不同仿真方法和真实数据上展现出鲁棒的泛化能力
  • Conclusion: 该方法为高频雷达领域的3D重建提供了有效解决方案,并发布了两个合成基准数据集以促进未来研究

[108] An Artificial Intelligence Framework for Measuring Human Spine Aging Using MRI

Roozbeh Bazargani,Saqib Abdullah Basar,Daniel Daly-Grafstein,Rodrigo Solis Pompa,Soojin Lee,Saurabh Garg,Yuntong Ma,John A. Carrino,Siavash Khallaghi,Sam Hashemi

Main category: cs.CV

TL;DR: 提出一种基于计算机视觉的深度学习方法,使用超过18,000个MRI系列图像来估计脊柱年龄,并发现脊柱年龄差距与退行性脊柱疾病和生活方式因素相关。

  • Motivation: 脊柱是复杂的结构,容易发生与年龄相关的退行性变化,这些变化可通过MRI识别。需要开发一种方法来量化脊柱健康状态。
  • Method: 使用UMAP和HDBSCAN识别年龄相关的脊柱退行性病变集群,建立深度学习模型进行脊柱年龄预测,通过消融研究确定最佳模型配置。
  • Result: 发现脊柱年龄差距(SAG)与椎间盘突出、骨赘、椎管狭窄、骨折等疾病相关,也与吸烟和体力劳动等生活方式因素相关。
  • Conclusion: 脊柱年龄差距可作为衡量整体脊柱健康的有用生物标志物,具有临床实用价值。

[109] Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models

Mark Endo,Serena Yeung-Levy

Main category: cs.CV

TL;DR: 本文分析了多模态模型中LLM规模缩减对视觉能力的影响,发现视觉能力比推理能力下降更严重,并提出Extract+Think方法通过视觉提取调优和逐步推理来解决这一瓶颈。

  • Motivation: 多模态模型规模扩大带来了显著的视觉理解和推理能力提升,但实际应用需要更小、更高效的系统。本文旨在系统分析LLM规模缩减如何影响多模态能力,特别是视觉能力。
  • Method: 提出Extract+Think方法:1)视觉提取调优,训练模型提取与指令相关的视觉细节;2)基于提取的视觉细节进行逐步推理生成答案。
  • Result: 研究发现LLM规模缩减对视觉能力的影响比对推理能力的影响更严重,视觉提取调优方法显著提升了效率和在规模缩减情况下的性能表现。
  • Conclusion: Extract+Think方法为多模态模型的高效化设定了新标准,通过分离视觉提取和推理过程有效缓解了LLM规模缩减带来的视觉能力下降问题。

[110] Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

Yolo Yunlong Tang,Daiki Shimada,Hang Hua,Chao Huang,Jing Bi,Rogerio Feris,Chenliang Xu

Main category: cs.CV

TL;DR: Video-R4是一个视频推理LMM,通过视觉反刍机制迭代选择帧、放大关键区域、重新编码像素来增强文本丰富视频的理解能力。

  • Motivation: 现有视频QA模型依赖单次感知固定帧,导致在细粒度证据上出现幻觉和失败,而人类会暂停、放大和重读关键区域。
  • Method: 提出视觉反刍机制:迭代选择帧、放大信息区域、重新编码检索像素、更新推理状态;构建两个数据集用于监督学习和强化学习;采用多阶段反刍学习框架,通过SFT和GRPO-based RL训练7B LMM。
  • Result: Video-R4-7B在M4-ViteVQA上达到最先进结果,并能泛化到多页文档QA、幻灯片QA和通用视频QA。
  • Conclusion: 迭代反刍是像素基础多模态推理的有效范式。

[111] EvDiff: High Quality Video with an Event Camera

Weilun Li,Lei Sun,Ruixi Gao,Qi Jiang,Yuqin Ma,Kaiwei Wang,Ming-Hsuan Yang,Luc Van Gool,Danda Pani Paudel

Main category: cs.CV

TL;DR: EvDiff是一种基于事件的扩散模型,通过替代训练框架从单色事件流生成高质量彩色视频,在保真度和真实感之间取得平衡。

  • Motivation: 传统的事件到图像重建方法采用端到端回归范式,通常产生感知质量较差的结果,且难以扩展模型容量和训练数据。
  • Method: 设计了基于事件的扩散模型,仅执行单次前向扩散步骤,配备时间一致的EvEncoder,并采用新颖的替代训练框架消除对配对事件-图像数据集的依赖。
  • Result: 在真实世界数据集上的实验表明,该方法在像素级和感知指标上均优于现有方法,能够从单色事件流生成高质量彩色视频。
  • Conclusion: EvDiff在事件到图像重建任务中实现了保真度和真实感的最佳平衡,展示了扩散模型在该领域的潜力。

[112] Native 3D Editing with Full Attention

Weiwei Cai,Shuangkang Fang,Weicai Ye,Xin Dong,Yunhan Yang,Xuanyang Zhang,Wei Cheng,Yanpei Cao,Gang Yu,Tao Chen

Main category: cs.CV

TL;DR: 提出了一种新颖的原生3D编辑框架,通过单次前向传播直接操作3D表示,解决了现有方法在几何一致性和视觉质量方面的问题。

  • Motivation: 现有指令引导的3D编辑方法存在关键限制:基于优化的方法速度过慢,而基于多视图2D编辑的前馈方法常出现几何不一致和视觉质量下降的问题。
  • Method: 创建大规模多模态数据集用于指令引导的3D编辑,涵盖添加、删除和修改任务。探索两种条件策略:传统交叉注意力机制和新型3D标记拼接方法。
  • Result: 标记拼接方法在参数效率和性能方面表现更优。广泛评估显示该方法在生成质量、3D一致性和指令保真度方面优于现有2D提升方法。
  • Conclusion: 提出的原生3D编辑框架在生成质量、3D一致性和指令保真度方面设定了新的基准,为3D内容创作提供了更高效的解决方案。

eess.IV

[113] MRI Super-Resolution with Deep Learning: A Comprehensive Survey

Mohammad Khateri,Serge Vasylechko,Morteza Ghahremani,Liam Timms,Deniz Kocanaogullari,Simon K. Warfield,Camilo Jaimes,Davood Karimi,Alejandra Sierra,Jussi Tohka,Sila Kurugol,Onur Afacan

Main category: eess.IV

TL;DR: 这篇论文综述了磁共振成像超分辨率技术的最新进展,特别关注深度学习方法,提出了系统分类法,并讨论了临床和研究环境中的独特挑战。

  • Motivation: 高分辨率磁共振成像在临床和研究中至关重要,但成本高昂且受技术限制。超分辨率技术通过计算方式从低分辨率扫描生成高分辨率图像,有望在不增加硬件的情况下提高诊断准确性和效率。
  • Method: 从计算机视觉、计算成像、逆问题和MR物理学的角度审视基于深度学习的MRI超分辨率方法,涵盖理论基础、架构设计、学习策略、基准数据集和性能指标,提出系统分类法。
  • Result: 对已建立和新兴的超分辨率技术进行了深入研究,提供了开放获取资源、工具和教程的集合。
  • Conclusion: 强调了社区需要解决的开放挑战和方向,为MRI超分辨率领域提供了全面的技术概览和发展路线图。

[114] MedImageInsight for Thoracic Cavity Health Classification from Chest X-rays

Rama Krishna Boya,Mohan Kireeti Magalanadu,Azaruddin Palavalli,Rupa Ganesh Tekuri,Amrit Pattanayak,Prasanthi Enuga,Vignesh Esakki Muthu,Vivek Aditya Boya

Main category: eess.IV

TL;DR: 使用MedImageInsight基础模型对胸部X光片进行正常/异常二分类,通过微调方法在ChestX-ray14和真实临床数据上取得了0.888 ROC-AUC的优异性能,可与CheXNet等成熟架构相媲美。

  • Motivation: 胸部X光检查是最常用的胸部诊断成像方式,但日益增长的影像量和放射科医生工作量对及时解读构成挑战,需要自动化分类系统来支持分诊并减轻医生负担。
  • Method: 评估了两种方法:(1) 对MedImageInsight进行端到端微调分类;(2) 使用该模型作为特征提取器,结合传统机器学习分类器构建迁移学习流程。实验使用了ChestX-ray14数据集和真实临床数据。
  • Result: 微调分类器取得了最佳性能,ROC-AUC为0.888,且比迁移学习模型具有更好的校准性能,表现与CheXNet等成熟架构相当。
  • Conclusion: 医学影像基础模型在减少任务特定训练需求的同时保持了诊断可靠性,系统设计用于集成到基于网络和医院PACS工作流中,未来将扩展到多标签病理分类以提供初步诊断解读。

[115] OmniLens++: Blind Lens Aberration Correction via Large LensLib Pre-Training and Latent PSF Representation

Qi Jiang,Xiaolong Qian,Yao Gao,Lei Sun,Kailun Yang,Zhonghua Yi,Wenyong Li,Ming-Hsuan Yang,Luc Van Gool,Kaiwei Wang

Main category: eess.IV

TL;DR: OmniLens++框架通过扩展镜头设计规格和引入潜在PSF表示,解决了现有镜头库预训练管道在数据扩展性和先验指导方面的局限性,在盲像差校正中展现出最先进的泛化能力。

  • Motivation: 现有基于深度学习的镜头库预训练管道在泛化能力方面面临两个主要挑战:数据扩展困难和缺乏光学退化先验指导,这限制了其在处理未知光学退化时的表现。
  • Method: 1. 扩展镜头设计规格以增加退化多样性,并通过量化空间变化模式和退化严重程度进行更均匀的采样;2. 提出潜在PSF表示(LPR),使用VQVAE框架学习镜头库PSFs的潜在特征,并通过建模光学退化过程来约束退化先验的学习。
  • Result: 在真实世界镜头和合成镜头库的多样化像差实验中,OmniLens++在盲像差校正中展现出最先进的泛化能力。AODLibpro被验证为可扩展的基础,能在多样化像差中实现更有效的训练,LPR能进一步挖掘大规模镜头库的潜力。
  • Conclusion: OmniLens++通过解决数据扩展性和先验指导问题,显著提升了盲像差校正的泛化能力,为光学图像处理提供了有效的解决方案。

[116] Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Xiaolong Qian,Qi Jiang,Lei Sun,Zongxi Yu,Kailun Yang,Peixuan Wu,Jiacheng Zhou,Yao Gao,Yaoguang Ma,Ming-Hsuan Yang,Kaiwei Wang

Main category: eess.IV

TL;DR: VeilGen是一个生成模型,能够无监督地从目标图像中学习模拟面纱眩光,通过估计光学透射和眩光图来生成包含光学像差和面纱眩光的配对数据集。DeVeiler是一个基于可逆性约束的恢复网络,利用预测的潜在图来指导散射模型的逆过程。

  • Motivation: 紧凑光学系统(包括单透镜和超透镜设计)的成像性能常因非理想光学表面和涂层的杂散光散射导致的面纱眩光而进一步降低,这种复合退化破坏了传统透镜像差校正,但研究不足。传统散射模型无法拟合面纱眩光,且难以通过仿真准备高质量配对数据。
  • Method: 提出VeilGen生成模型,通过无监督方式从目标图像中估计光学透射和眩光图来模拟面纱眩光,并利用Stable Diffusion先验进行正则化。同时开发DeVeiler恢复网络,采用可逆性约束,利用预测的潜在图指导散射模型的逆过程。
  • Result: 在挑战性紧凑光学系统上的广泛实验表明,该方法相比现有方法提供了更优的恢复质量和物理保真度。VeilGen能够可靠地合成真实的面纱眩光,其学习的潜在图能有效指导DeVeiler的恢复过程。
  • Conclusion: 该方法能够有效解决紧凑光学系统中面纱眩光导致的成像退化问题,为光学系统恢复提供了新的解决方案,所有代码和数据集将公开发布。

cs.LG

[117] Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Yaoxin Yang,Peng Ye,Xudong Tan,Chongjun Tu,Maosen Zhao,Jia Hao,Tao Chen

Main category: cs.LG

TL;DR: FlashCache是一个基于频域分析和异常KV感知的多模态KV缓存压缩框架,通过保留偏离主成分的异常KV对,在保持任务性能的同时显著降低KV内存使用并加速解码

  • Motivation: 多模态大语言模型存在显著的推理开销,因为多模态KV缓存随视觉输入长度增长而增加。现有压缩方法主要依赖注意力分数,与高效注意力内核不兼容且忽略了值向量对注意力输出的贡献
  • Method: 从KV矩阵分布角度重新审视压缩问题:1)在频域识别主能量成分;2)提出异常KV识别模块,优先保留偏离主成分的KV对;3)设计动态预算分配模块自适应确定每层KV缓存大小
  • Result: 在多个MLLM和基准测试中,FlashCache优于最先进的多模态KV压缩方法,实现高达1.69倍的解码加速和80%的KV内存使用降低,同时保持任务性能
  • Conclusion: 基于频域分析和异常KV感知的KV缓存压缩方法能有效平衡压缩效率和模型性能,为多模态大语言模型的高效推理提供了新思路

[118] Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation

Aniketh Iyengar,Jiaqi Han,Boris Ruf,Vincent Grari,Marcin Detyniecki,Stefano Ermon

Main category: cs.LG

TL;DR: 提出基于计算复杂度的扩散模型GPU能耗预测方法,通过Kaplan缩放定律在多种模型和硬件配置下实现高精度能耗预测。

  • Motivation: 扩散模型图像生成的计算需求快速增长,带来严重的能耗和环境问题,但缺乏跨模型配置和硬件设置的能耗预测方法。
  • Method: 将扩散模型推理分解为文本编码、迭代去噪和解码组件,基于计算复杂度(FLOPs)应用Kaplan缩放定律预测GPU能耗,假设去噪操作因多次执行而主导能耗。
  • Result: 在四种先进扩散模型和三种GPU架构上的实验显示,该方法在单一架构内预测精度高(R平方>0.9),跨架构泛化能力强,能可靠估计未见过的模型-硬件组合能耗。
  • Conclusion: 验证了扩散推理的计算受限特性,为可持续AI部署规划和碳足迹估算提供了基础。

[119] Self-Supervised Learning by Curvature Alignment

Benyamin Ghojogh,M. Hadi Sepanj,Paul Fieguth

Main category: cs.LG

TL;DR: 提出CurvSSL框架,通过曲率正则化增强自监督学习,在标准双视图编码器架构上添加基于局部流形弯曲的曲率正则化器。

  • Motivation: 现有非对比自监督学习方法主要关注表示的一阶和二阶统计特性,但忽略了底层数据流形的局部几何结构。
  • Method: 保留标准双视图编码器-投影器架构,在投影特征上使用Barlow Twins风格冗余减少损失,但增加了基于曲率的正则化器。通过k近邻计算离散曲率得分,在核变体中使用RKHS中的归一化局部Gram矩阵计算曲率。
  • Result: 在MNIST和CIFAR-10数据集上的实验表明,曲率正则化自监督学习相比Barlow Twins和VICReg具有竞争性或改进的线性评估性能。
  • Conclusion: 显式塑造局部几何结构是纯统计自监督学习正则化器的简单有效补充。

cs.AI

[120] Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism

Kaiyu Li,Jiayu Wang,Zhi Wang,Hui Qiao,Weizhan Zhang,Deyu Meng,Xiangyong Cao

Main category: cs.AI

TL;DR: 提出了基于层次任务抽象机制(HTAM)的多智能体框架EarthAgent,专门用于解决遥感等专业领域中的复杂多步骤任务规划问题,显著优于现有单智能体和多智能体系统。

  • Motivation: 通用LLM驱动智能体在需要严格结构化工作流程的专业领域表现不佳,特别是在遥感等需要专业工具和多步骤程序的领域,现有方法面临显著挑战。
  • Method: 引入HTAM框架,将多智能体系统构建为逻辑层次结构,反映领域内在的任务依赖图,通过任务中心架构确保程序正确性,将复杂问题分解为顺序层次。
  • Result: 在GeoPlan-bench基准测试中,EarthAgent在工具选择、路径相似性和逻辑完整性等指标上显著优于现有单智能体和多智能体系统。
  • Conclusion: 将智能体架构与领域内在任务结构对齐是构建鲁棒可靠专业自主系统的关键步骤。

cs.RO

[121] MobileOcc: A Human-Aware Semantic Occupancy Dataset for Mobile Robots

Junseo Kim,Guido Dumont,Xinyu Gao,Gang Chen,Holger Caesar,Javier Alonso-Mora

Main category: cs.RO

TL;DR: 提出了MobileOcc数据集,用于移动机器人在拥挤人类环境中的语义占用感知,包含静态物体占用标注和专门为人体占用建模设计的网格优化框架。

  • Motivation: 密集3D语义占用感知在移动机器人领域研究不足,特别是在行人密集环境中,相比自动驾驶应用存在差距。
  • Method: 构建了包含静态物体占用标注的数据集,并开发了新颖的网格优化框架,从2D图像重建可变形人体几何,然后使用LiDAR点云数据进行优化。
  • Result: 建立了占用预测和行人速度预测两个任务的基准,评估了单目、立体和全景占用方法,并在3D人体姿态估计数据集上验证了标注方法的鲁棒性。
  • Conclusion: MobileOcc数据集填补了移动机器人语义占用感知的空白,提出的网格优化方法在不同数据集上表现出鲁棒性能。

[122] TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making

Shanshan Li,Da Huang,Yu He,Yanwei Fu,Yu-Gang Jiang,Xiangyang Xue

Main category: cs.RO

TL;DR: 提出了TP-MDDN新基准和AWMSystem系统,用于解决多需求驱动的长程导航任务,通过模块化设计和双节奏动作生成框架实现高效导航。

  • Motivation: 传统单需求导航无法反映现实世界中多需求和个性化选择的复杂性,需要开发能够处理多子需求且有明确任务偏好的导航系统。
  • Method: AWMSystem包含BreakLLM(指令分解)、LocateLLM(目标选择)和StatusMLLM(任务监控)三个模块,结合MASMap空间记忆系统(3D点云+2D语义地图)和双节奏动作生成框架(零样本规划+策略微控),并配备自适应错误校正器。
  • Result: 实验表明该方法在感知精度和导航鲁棒性方面优于现有最先进基线方法。
  • Conclusion: 所提出的TP-MDDN基准和AWMSystem系统能够有效解决多需求驱动的长程导航问题,为具身AI提供了更贴近现实应用的解决方案。

[123] Leveraging CVAE for Joint Configuration Estimation of Multifingered Grippers from Point Cloud Data

Julien Merand,Boris Meden,Mathieu Grossard

Main category: cs.RO

TL;DR: 提出一种基于点云数据的多指抓取器关节配置确定方法,使用条件变分自编码器从点云数据重建关节配置,在MultiDex数据集上验证,运行时间0.05毫秒,精度达到先进水平。

  • Motivation: 传统逆运动学方法需要基于指尖位姿进行后处理决策或数值近似,难以高效处理复杂运动学问题。本文旨在通过机器学习方法隐式解决这些挑战。
  • Method: 使用条件变分自编码器(CVAE),以关键结构元素的点云数据作为输入,重建对应的关节配置。
  • Result: 在Allegro Hand上使用MultiDex抓取数据集验证,方法运行时间仅0.05毫秒,精度与最先进方法相当。
  • Conclusion: 该方法在AI驱动的抓取规划技术中展现了关节配置估计的有效性,为基于视觉传感器、仿真或生成神经网络的多指抓取器控制提供了高效解决方案。

[124] Robot Confirmation Generation and Action Planning Using Long-context Q-Former Integrated with Multimodal LLM

Chiori Hori,Yoshiki Masuyama,Siddarth Jain,Radu Corcodel,Devesh Jha,Diego Romeres,Jonathan Le Roux

Main category: cs.RO

TL;DR: 提出长上下文Q-former和文本条件方法,通过整合视频全过程的左右上下文依赖关系,提升人机交互中的动作确认和动作规划性能。

  • Motivation: 当前基于多模态变换器的方法主要关注片段级处理,未能利用长上下文信息,而长时程任务中的动作在整个视频中是相互依赖的。
  • Method: 提出长上下文Q-former整合视频全过程的左右上下文依赖关系,并采用文本条件方法直接将文本嵌入输入LLM解码器以缓解Q-former中信息的高度抽象问题。
  • Result: 在YouCook2语料库上的实验表明,确认生成的准确性是动作规划性能的主要因素,长上下文Q-former通过整合VideoLLaMA3提升了确认和动作规划性能。
  • Conclusion: 长上下文Q-former和文本条件方法有效提升了人机交互中基于多模态场景理解的动作确认和动作步骤生成性能。

[125] METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model

Yankai Fu,Ning Chen,Junkai Zhao,Shaozhe Shan,Guocai Yao,Pengwei Wang,Zhongyuan Wang,Shanghang Zhang

Main category: cs.RO

TL;DR: METIS是一个基于多源第一人称视角数据的视觉-语言-动作模型,用于灵巧操作。它通过整合大规模人类和机器人数据,使用运动感知动态表示,在六个真实世界任务中取得了最高平均成功率。

  • Motivation: 构建能够感知、推理和行动的通用机器人面临挑战,特别是灵巧操作领域。主要瓶颈在于缺乏大规模的动作标注数据,而人类数据提供了丰富的先验知识。现有方法受限于有限场景和人类与机器人之间的视觉差异。
  • Method: 构建EgoAtlas数据集,整合多源人类和机器人数据到统一动作空间;提取运动感知动态作为紧凑离散化的运动表示;开发METIS模型,将推理和行动集成到统一框架中。
  • Result: 在六个真实世界任务中达到最高平均成功率;在分布外场景中表现出优异的泛化能力和鲁棒性。
  • Conclusion: METIS是迈向灵巧操作通用模型的有前景的一步,证明了基于多源第一人称数据的方法在灵巧操作任务中的有效性。

[126] IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation

Yifan Li,Lichi Li,Anh Dao,Xinyu Zhou,Yicheng Qiao,Zheda Mai,Daeun Lee,Zichen Chen,Zhen Tan,Mohit Bansal,Yu Kong

Main category: cs.RO

TL;DR: IndustryNav是首个动态工业导航基准,用于评估视觉大语言模型在动态仓库环境中的主动空间推理能力,发现现有模型在路径规划、碰撞避免和主动探索方面存在显著缺陷。

  • Motivation: 现有具身基准主要关注静态家庭环境,评估孤立能力,无法捕捉动态真实世界复杂环境中的整体性能。需要填补动态工业环境中主动空间推理的评估空白。
  • Method: 使用12个手动创建的高保真Unity仓库场景,包含动态物体和人员移动。采用PointGoal导航管道,结合自我中心视觉和全局里程计来评估局部-全局规划。引入碰撞率和警告率指标衡量安全行为和距离估计。
  • Result: 对9个最先进VLLM的全面研究表明,闭源模型保持持续优势,但所有智能体在鲁棒路径规划、碰撞避免和主动探索方面都表现出显著不足。
  • Conclusion: 具身研究需要超越被动感知,转向需要稳定规划、主动探索和动态真实环境中安全行为的任务。

cs.CL

[127] Do Vision-Language Models Understand Visual Persuasiveness?

Gyuwon Park

Main category: cs.CL

TL;DR: 该研究构建了视觉说服力判断数据集,发现视觉语言模型在识别说服性对象方面表现良好,但在将这些对象与传播意图联系起来方面存在局限。

  • Motivation: 探索视觉语言模型是否真正理解视觉说服力——即视觉线索如何影响人类态度和决策。
  • Method: 构建二元说服力判断数据集,引入视觉说服因素分类法(包括低层感知、中层构图和高层语义线索),并探索认知引导和知识注入策略。
  • Result: 发现VLMs存在召回导向偏差,过度预测高说服力;对低/中层特征判别能力弱;高层语义对齐是最强预测因子;基于对象的简明理由能显著提升性能。
  • Conclusion: VLMs的核心局限不在于识别说服性对象,而在于将这些对象与传播意图联系起来。

[128] Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Real-World Tables

Anshul Singh,Rohan Chaudhary,Gagneet Singh,Abhay Kumary

Main category: cs.CL

TL;DR: 提出了MirageTVQA基准测试,评估视觉语言模型在多语言和视觉噪声条件下的表格推理能力,发现现有模型在视觉噪声下性能下降超过35%,且存在英语优先偏见。

  • Motivation: 现有表格问答数据集主要是英语且表格格式完美,与现实场景存在差距,需要评估模型在多语言和视觉噪声条件下的表现。
  • Method: 构建包含近6万个问答对、覆盖24种语言的MirageTVQA基准测试,其中表格包含模拟扫描文档的视觉噪声。
  • Result: 领先的视觉语言模型在视觉噪声下性能下降超过35%,且推理能力无法有效迁移到其他语言,存在英语优先偏见。
  • Conclusion: MirageTVQA为评估和推动更鲁棒的表格推理视觉语言模型提供了基准测试,揭示了当前模型在现实场景中的局限性。

[129] SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation

Shrikant Kendre,Austin Xu,Honglu Zhou,Michael Ryoo,Shafiq Joty,Juan Carlos Niebles

Main category: cs.CL

TL;DR: SMILE是一个新的评估指标,结合了句子级语义理解、关键词级语义理解和简单关键词匹配,平衡了词汇精确性和语义相关性。

  • Motivation: 传统评估指标如ROUGE、METEOR和EM过度依赖n-gram词汇相似性,缺乏深层语义理解;BERTScore和MoverScore虽然使用上下文嵌入但缺乏灵活性;LLM评估器成本高且有偏见、不一致等问题。
  • Method: 提出SMILE方法,整合句子级语义理解、关键词级语义理解和关键词匹配,形成综合评估框架。
  • Result: 在文本、图像和视频QA任务上的广泛基准测试显示,SMILE与人类判断高度相关且计算轻量。
  • Conclusion: SMILE在词汇和语义评估之间架起桥梁,提供了全面且高效的评估解决方案。

physics.med-ph

[130] Exploring the added value of pretherapeutic MR descriptors in predicting breast cancer pathologic complete response to neoadjuvant chemotherapy

Caroline Malhaire,Fatine Selhane,Marie-Judith Saint-Martin,Vincent Cockenpot,Pia Akl,Enora Laas,Audrey Bellesoeur,Catherine Ala Eddine,Melodie Bereby-Kahane,Julie Manceau,Delphine Sebbag-Sfez,Jean-Yves Pierga,Fabien Reyal,Anne Vincent-Salomon,Herve Brisse,Frederique Frouin

Main category: physics.med-ph

TL;DR: 本研究评估了乳腺癌新辅助化疗前MRI特征与病理完全缓解的关系,发现非毛刺边缘和单灶性是pCR的独立预测因素,结合临床生物学特征可提高预测模型性能。

  • Motivation: 开发能够预测乳腺癌对新辅助化疗反应的模型,通过整合MRI特征和临床生物学指标来识别可能无反应的患者,从而优化治疗策略。
  • Method: 回顾性单中心研究,纳入2016-2020年接受NAC治疗的乳腺癌患者,使用标准化BI-RADS和乳腺水肿评分描述MRI特征,进行单变量和多变量逻辑回归分析,并训练随机森林分类器预测pCR。
  • Result: 129例乳腺癌中46%达到pCR,单变量分析显示椭圆形或圆形、单灶性、非毛刺边缘、无相关非肿块强化和较小MRI大小与pCR显著相关,多变量分析确认单灶性和非毛刺边缘是独立预测因素,加入MRI特征显著提高了随机森林模型的预测性能。
  • Conclusion: 非毛刺边缘和单灶性是乳腺癌新辅助化疗病理完全缓解的独立预测因素,结合临床生物学特征可显著提高预测模型的性能,有助于识别无反应患者并优化治疗策略。

cs.HC

[131] Generative Augmented Reality: Paradigms, Technologies, and Future Applications

Chen Liang,Jiawen Zheng,Yufeng Zeng,Yi Tan,Hengye Lyu,Yuhui Zheng,Zisu Li,Yueting Weng,Jiaxin Shi,Hanwang Zhang

Main category: cs.HC

TL;DR: 本文提出生成式增强现实(GAR)作为下一代AR范式,将增强重新定义为世界重合成而非传统AR引擎的世界组合过程。GAR用统一的生成式骨干网络替代传统AR引擎的多阶段模块,将环境感知、虚拟内容和交互信号联合编码为连续视频生成的调节输入。

  • Motivation: 传统AR引擎采用多阶段模块进行世界组合,存在局限性。GAR旨在通过统一的生成式方法提供更高保真度的体验,在真实性、交互性和沉浸感方面实现突破。
  • Method: 用统一的生成式骨干网络替代传统AR引擎的多阶段模块,将环境感知、虚拟内容和交互信号联合编码为连续视频生成的调节输入。
  • Result: GAR被形式化为AR与GAR之间的计算对应关系,调查了使实时生成式增强可行的技术基础,并概述了利用其统一推理模型的潜在应用。
  • Conclusion: GAR被视为未来的AR范式,能够提供高保真度的体验,同时在技术、内容生态系统以及伦理和社会影响方面引发新的研究挑战。