每日arXiv - 2026年2月13日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] DD-MDN: Human Trajectory Forecasting with Diffusion-Based Dual Mixture Density Networks and Uncertainty Self-Calibration

Manuel Hetzel,Kerim Turacan,Hannes Reichert,Konrad Doll,Bernhard Sick

Main category: cs.CV

TL;DR: DD-MDN：一种端到端概率轨迹预测模型，结合高位置精度、校准不确定性和短观察鲁棒性，通过扩散模型和混合密度网络实现自校准预测。

Motivation: 现有轨迹预测研究主要关注准确性、社交交互建模和多样性，但忽略了不确定性建模、校准和短观察期预测，而这些对于下游任务（如路径规划和碰撞避免）至关重要。
Method: 使用少样本去噪扩散主干网络和双混合密度网络，学习自校准驻留区域和概率排序的锚点路径，从中推导多样轨迹假设，无需预定义锚点或端点。
Result: 在ETH/UCY、SDD、inD和IMPTC数据集上展示了最先进的准确性、短观察间隔的鲁棒性和可靠的不确定性建模。
Conclusion: DD-MDN为轨迹预测提供了高精度、校准不确定性和短观察鲁棒性的综合解决方案，对自动驾驶等下游任务具有重要意义。

[2] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

Yandan Yang,Shuang Zeng,Tong Lin,Xinyuan Chang,Dekang Qi,Junjin Xiao,Haoyun Liu,Ronghan Chen,Yuzhi Chen,Dongjie Huo,Feng Xiong,Xing Wei,Zhiheng Ma,Mu Xu

Main category: cs.CV

TL;DR: ABot-M0框架通过系统数据管道和联合优化架构/训练策略，将异构机器人数据转换为统一表示，提出动作流形假设和AML方法提升动作预测效率，支持模块化感知增强3D理解。

Motivation: 解决"一个大脑，多种形态"的通用具身智能挑战，克服数据碎片化、表示不一致和训练目标不匹配的问题，实现跨硬件平台的通用机器人智能。
Method: 1) 构建系统数据管道，从6个公共数据集清理、标准化、平衡样本，创建UniACT-dataset；2) 提出动作流形假设，使用DiT骨干网络通过AML直接预测连续动作序列；3) 采用双流机制集成VLM语义与几何先验，支持即插即用3D模块。
Result: 创建了包含600万轨迹、9500小时数据的UniACT-dataset；统一预训练提升了跨平台和跨任务的知识迁移与泛化能力；AML方法提高了解码速度和策略稳定性；模块化感知组件独立运行且具有累加效益。
Conclusion: ABot-M0框架通过系统数据管理、动作流形学习和模块化感知设计，为跨硬件平台的通用具身智能提供了有效解决方案，将发布所有代码和管道以促进可重复性和未来研究。

[3] Toward Reliable Tea Leaf Disease Diagnosis Using Deep Learning Model: Enhancing Robustness With Explainable AI and Adversarial Training

Samanta Ghosh,Jannatul Adan Mahi,Shayan Abrar,Md Parvez Mia,Asaduzzaman Rayhan,Abdul Awal Yasir,Asaduzzaman Hridoy

Main category: cs.CV

TL;DR: 基于TeaLeafBD数据集开发深度学习模型自动分类茶叶病害，EfficientNetB3达到93%准确率，DenseNet201达到91%，通过对抗训练增强鲁棒性，使用Grad-CAM进行可解释性分析。

Motivation: 茶叶是孟加拉国的重要经济作物，但茶叶病害会影响产量和质量。人工检测病害耗时且易出错，因此需要开发自动化检测系统来提高效率和准确性。
Method: 使用TeaLeafBD数据集（5,278张高分辨率图像，7个类别），采用数据预处理、数据分割、对抗训练、数据增强等流程。使用DenseNet201和EfficientNetB3进行病害分类，应用对抗训练增强模型鲁棒性，并使用Grad-CAM进行可解释性分析。
Result: EfficientNetB3达到最高分类准确率93%，DenseNet201达到91%。对抗训练使模型在噪声或干扰输入下仍能有效工作，Grad-CAM可视化帮助理解模型决策依据。
Conclusion: 提出的深度学习方法能准确检测茶叶病害，为现代农业管理提供实用解决方案。模型的高准确率和可解释性使其适合实际应用。

[4] Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration

Jinghan He,Junfeng Fang,Feng Xiong,Zijun Yao,Fei Shen,Haiyun Guo,Jinqiao Wang,Tat-Seng Chua

Main category: cs.CV

TL;DR: Active-Zero框架通过主动探索视觉环境，让视觉语言模型能够自主构建学习轨迹，相比被动交互方法显著提升性能

Motivation: 现有视觉语言模型的自对弈方法依赖静态图像集的被动交互，导致对初始数据集的强依赖和学习效率低下。模型无法主动寻找适合其当前能力水平的视觉数据，浪费计算资源在过于简单或过于困难的任务上。
Method: 提出Active-Zero框架，包含三个协同进化的智能体：Searcher从开放世界存储库中检索适合模型能力边界的图像；Questioner合成校准的推理任务；Solver通过准确性奖励进行精炼。形成闭环的自脚手架自动课程学习系统。
Result: 在Qwen2.5-VL-7B-Instruct模型上，在12个基准测试中，推理任务平均准确率达到53.97%（提升5.7%），通用理解任务达到59.77%（提升3.9%），一致优于现有自对弈基线方法。
Conclusion: 主动探索是构建可扩展和自适应自进化视觉语言系统的关键要素，Active-Zero框架通过主动环境探索实现了更高效的自对弈学习。

[5] ReTracing: An Archaeological Approach Through Body, Machine, and Generative Systems

Yitong Wang,Yue Yao

Main category: cs.CV

TL;DR: ReTracing是一个多智能体具身表演艺术项目，采用考古学方法研究AI如何塑造、约束和产生身体运动。通过LLM生成提示，扩散模型创建舞蹈指导，人类表演者和四足机器人共同表演，形成数字运动档案。

Motivation: 该项目旨在揭示生成系统如何通过编排的运动编码社会文化偏见，并探讨在AI也能移动、思考和留下痕迹的时代，作为人类意味着什么这一关键问题。
Method: 从科幻小说中提取人机交互描述，使用LLM生成"做什么"和"不做什么"的配对提示，通过扩散文本到视频模型转化为舞蹈指导，人类表演者和机器人在地板上表演，通过多摄像头运动追踪重建为3D点云和运动轨迹。
Result: 创建了一个数字运动痕迹档案，展示了AI系统如何通过编排的运动编码社会文化偏见，实现了人类、机器人和AI之间的沉浸式互动表演。
Conclusion: ReTracing提供了一种新颖的方法来揭示生成系统如何通过编排的运动编码社会文化偏见，并促使我们思考在AI时代作为人类的意义。

[6] Stress Tests REVEAL Fragile Temporal and Visual Grounding in Video-Language Models

Sethuraman T,Savya Khosla,Aditi Tiwari,Vidya Ganesh,Rakshana Jayaprakash,Aditya Jain,Vignesh Srinivasakumar,Onkar Kishor Susladkar,Srinidhi Sunkara,Aditya Shanmugham,Rakesh Vaideeswaran,Abbaas Alif Mohamed Nishar,Simon Jenni,Derek Hoiem

Main category: cs.CV

TL;DR: REVEAL是一个诊断基准，通过五个压力测试揭示视频语言模型在理解视频内容、时序和运动方面的基本弱点，发现现有模型在这些方面表现不佳，而人类却能轻松应对。

Motivation: 研究视频语言模型是否能够稳健地处理视频内容、时间序列和运动信息。作者发现现有模型在这方面存在严重缺陷，需要系统性的诊断工具来评估和改进。
Method: 开发REVEAL诊断基准，包含五个控制性压力测试：时序期望偏差、语言捷径依赖、视频谄媚、相机运动敏感性、时空遮挡鲁棒性。提供自动生成诊断示例的数据管道。
Result: 测试主流开源和闭源视频语言模型发现：模型会自信地将反向场景描述为正向、回答问题忽略视频内容、同意虚假声明、难以处理基本相机运动、无法在简单时空遮挡下聚合时间信息。人类在这些任务上表现优异。
Conclusion: 当前视频语言模型在理解视频内容、时序和运动方面存在基本缺陷，需要改进。REVEAL基准和数据管道为未来研究提供了可扩展的评估工具。

[7] Advancing Digital Twin Generation Through a Novel Simulation Framework and Quantitative Benchmarking

Jacob Rubinstein,Avi Donaty,Don Engel

Main category: cs.CV

TL;DR: 提出一种从高质量3D模型生成合成图像的新流程，用于量化评估不同摄影测量方法在数字孪生生成中的性能差异

Motivation: 当前基于摄影测量的3D模型生成方法存在多种设计选择，但这些方法之间的差异主要依赖定性评估，缺乏可重复、可量化的比较标准
Method: 开发了一个新颖的流水线：从高质量3D模型出发，通过程序化生成的相机位姿来合成图像，从而创建可重复的实验环境
Result: 该方法能够进行多种可重复、可量化的实验，可以比较虚拟相机参数和虚拟物体的真实值与重建估计值之间的差异
Conclusion: 提出的合成图像生成流程为摄影测量方法的性能评估提供了可靠的量化基准，有助于更客观地比较不同数字孪生生成方法

[8] Selective Prior Synchronization via SYNC Loss

Ishan Mishra,Jiajie Li,Deepak Mishra,Jinjun Xiong

Main category: cs.CV

TL;DR: 提出SYNC损失函数，将后验选择方法（softmax响应）的选择先验整合到SelectiveNet的训练过程中，提升选择性预测性能

Motivation: 当前选择性预测方法分为两类：ad-hoc方法（如SelectiveNet）需要修改网络架构或目标函数，post-hoc方法（如softmax响应）通过分析模型概率输出来实现选择性预测。作者发现后验方法隐含生成的选择先验信息仅在推理阶段使用，认为这些信息在训练阶段同样重要。
Method: 提出SYNC损失函数，将ad-hoc方法（SelectiveNet）和post-hoc方法（softmax响应）相结合。具体将softmax响应引入SelectiveNet的训练过程，通过利用选择先验来增强选择性预测能力。
Result: 在CIFAR-100、ImageNet-100和Stanford Cars等多个数据集上评估，该方法不仅提升了模型的泛化能力，而且在选择性预测性能上超越了先前工作，创造了新的最先进性能基准。
Conclusion: 通过将后验方法的选择先验整合到ad-hoc方法的训练过程中，SYNC损失函数实现了两种方法的优势互补，显著提升了深度神经网络的选择性预测性能。

[9] MDE-VIO: Enhancing Visual-Inertial Odometry Using Learned Depth Priors

Arda Alniak,Sinan Kalkan,Mustafa Mert Ankarali,Afsar Saranli,Abdullah Aydin Alatan

Main category: cs.CV

TL;DR: 提出一种将学习深度先验集成到VINS-Mono优化后端的新框架，通过仿射不变深度一致性和成对序数约束，在边缘设备上实现实时、鲁棒的视觉惯性里程计

Motivation: 传统单目VIO系统在低纹理环境中表现不佳，稀疏视觉特征不足以进行准确位姿估计。虽然基于ViT的复杂基础模型能提供密集、几何一致的深度，但其计算需求无法满足边缘设备的实时部署要求
Method: 提出将学习深度先验直接集成到VINS-Mono优化后端的新框架，强制实施仿射不变深度一致性和成对序数约束，通过基于方差的门控机制显式过滤不稳定伪影
Result: 在TartanGround和M3ED数据集上的实验表明，该方法能防止在挑战性场景中发散，显著提高精度，将绝对轨迹误差(ATE)降低高达28.3%
Conclusion: 该方法在严格遵循边缘设备计算限制的同时，能够鲁棒地恢复度量尺度，为低纹理环境下的实时VIO系统提供了有效的解决方案

[10] Exploring Real-Time Super-Resolution: Benchmarking and Fine-Tuning for Streaming Content

Evgeney Bogatyrev,Khaled Abud,Ivan Molodetskikh,Nikita Alutis,Dmitry Vatolin

Main category: cs.CV

TL;DR: 论文提出了StreamSR数据集和EfRLFN模型，针对压缩视频实时超分辨率的挑战，通过YouTube来源的数据集和优化架构提升流媒体场景下的性能。

Motivation: 现有实时超分辨率方法在处理压缩视频内容时存在困难，常用数据集不能准确反映流媒体特征，限制了当前基准测试的相关性。
Method: 1) 引入StreamSR数据集，从YouTube收集覆盖多种视频类型和分辨率的真实流媒体场景数据；2) 提出EfRLFN模型，集成高效通道注意力和双曲正切激活函数，优化架构效率并设计复合损失函数；3) 对11种最先进模型进行基准测试。
Result: EfRLFN在视觉质量和运行时性能上均有提升，在其他模型上使用该数据集进行微调也能带来显著性能增益，且能很好地泛化到各种标准基准测试。
Conclusion: StreamSR数据集填补了流媒体超分辨率评估的空白，EfRLFN模型在效率和视觉质量上取得平衡，为实时视频流超分辨率提供了有效的解决方案。

[11] ArtContext: Contextualizing Artworks with Open-Access Art History Articles and Wikidata Knowledge through a LoRA-Tuned CLIP Model

Samuel Waugh,Stuart James

Main category: cs.CV

TL;DR: ArtContext：一个从开放获取艺术史文章和Wikidata知识中提取信息，为艺术品添加上下文注释的流水线系统

Motivation: 艺术史文章通常讨论艺术品整体及其具体方面（如布局、图像学、物质文化），但观看艺术品时难以快速了解不同文章对它的具体论述
Method: 1）构建新颖的语料库收集流水线；2）使用LoRA（低秩适应）技术训练专门的CLIP模型（PaintingCLIP），通过弱监督方式使其适应艺术领域
Result: 新模型PaintingCLIP在性能上超越了原始CLIP模型，能够为给定艺术品提供有效的上下文信息
Conclusion: 该流水线具有通用性，可轻松应用于其他人文领域，为艺术品理解提供了有效的上下文注释工具

[12] Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation

Alan Baade,Eric Ryan Chan,Kyle Sargent,Changan Chen,Justin Johnson,Ehsan Adeli,Li Fei-Fei

Main category: cs.CV

TL;DR: Latent Forcing是一种改进扩散模型的方法，通过在潜空间和像素空间联合处理，使用不同噪声调度，实现高效的高质量图像生成，同时保持端到端建模优势。

Motivation: 传统潜扩散模型虽然能生成高质量图像，但失去了端到端建模的优势：在图像编码过程中丢弃信息、需要单独训练解码器、以及对原始数据的辅助分布建模。作者希望找到一种既能保持潜扩散效率，又能直接在原始自然图像上操作的方法。
Method: 提出Latent Forcing方法，通过联合处理潜变量和像素，使用分别调优的噪声调度来排序去噪轨迹。潜变量作为中间计算的"草稿纸"，在高频像素特征生成之前发挥作用。研究发现条件信号的顺序至关重要，并分析了REPA蒸馏、条件与非条件生成、以及分词器重建质量与可扩散性之间的关系。
Result: 在ImageNet数据集上，Latent Forcing在扩散变换器基像素生成方面达到了作者计算规模下的最新技术水平。
Conclusion: Latent Forcing通过简单修改现有架构，实现了潜扩散的效率同时直接在原始图像上操作，为扩散模型提供了一种更优的端到端解决方案。

[13] Fighting MRI Anisotropy: Learning Multiple Cardiac Shapes From a Single Implicit Neural Representation

Carolina Brás,Soufiane Ben Haddou,Thijs P. Kuipers,Laura Alvarez-Florez,R. Nils Planken,Fleur V. Y. Tjong,Connie Bezzina,Ivana Išgum

Main category: cs.CV

TL;DR: 利用高分辨率CTA数据训练神经隐式函数，联合表示不同分辨率的CMRI心脏形状，改善各向异性SAX-CMRI的心脏形状分析

Motivation: 短轴心血管磁共振成像的各向异性特性限制了心脏形状分析，需要解决这一问题以提高分析准确性
Method: 利用近各向同性的高分辨率CTA心脏数据训练单个神经隐式函数，联合表示不同分辨率的CMRI心脏形状，重建右心室和心肌形状
Result: 与参考4CH分割掩模相比，右心室Dice系数0.91±0.07，Hausdorff距离6.21±3.97mm；心肌Dice系数0.75±0.13，Hausdorff距离7.53±5.13mm
Conclusion: 该方法能够重建准确、平滑且解剖学上合理的心脏形状，支持改善心脏形状分析，定量和定性评估均显示良好性能

[14] Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation

Penghui Ruan,Bojia Zi,Xianbiao Qi,Youze Huang,Rong Xiao,Pichao Wang,Jiannong Cao,Yuhui Shi

Main category: cs.CV

TL;DR: Ctrl&Shift：无需显式3D重建的几何一致物体操纵扩散框架，通过两阶段分解（物体移除+参考引导修复）实现背景保持、几何一致性和用户可控变换的统一

Motivation: 现有方法难以同时实现背景保持、视角变换下的几何一致性以及用户可控变换三大目标。基于几何的方法需要显式3D重建且泛化性差，基于扩散的方法泛化性好但缺乏细粒度几何控制。
Method: 将物体操纵分解为物体移除和参考引导修复两阶段，统一在扩散过程中。设计了多任务多阶段训练策略，分离背景、身份和姿态信号。构建了包含相对相机姿态估计的可扩展真实世界数据集。
Result: 在保真度、视角一致性和可控性方面达到最先进水平，首次实现了无需显式3D建模的细粒度几何控制与真实世界泛化的统一。
Conclusion: Ctrl&Shift是首个无需依赖任何显式3D建模，就能统一细粒度几何控制和真实世界泛化的物体操纵框架，为图像/视频编辑提供了新的解决方案。

[15] Enhanced Portable Ultra Low-Field Diffusion Tensor Imaging with Bayesian Artifact Correction and Deep Learning-Based Super-Resolution

Mark D. Olchanyi,Annabel Sorby-Adams,John Kirsch,Brian L. Edlow,Ava Farnan,Renfei Liu,Matthew S. Rosen,Emery N. Brown,W. Taylor Kimberly,Juan Eugenio Iglesias

Main category: cs.CV

TL;DR: 本文提出了一种用于超低场磁共振扩散张量成像的贝叶斯偏场校正算法和卷积神经网络超分辨率算法（DiffSR），以改善图像质量和白质信息恢复。

Motivation: 超低场磁共振成像虽然便携但分辨率低、信噪比差，扩散张量成像尤其容易受成像质量下降影响，且存在空间和角度域伪影，需要专门校正算法。
Method: 开发了九方向单壳层超低场DTI序列，配套提出具有角度依赖性的贝叶斯偏场校正算法和基于卷积神经网络的超分辨率算法DiffSR，后者无需重新训练即可跨数据集通用。
Result: 通过合成降采样实验和真实匹配扫描验证，算法能恢复超低场DTI的微结构和体积白质信息，DiffSR还能改善阿尔茨海默病分类中DTI指标的一致性。
Conclusion: 提出的算法能有效提升超低场DTI成像质量，促进超低场重建方法和DTI序列协调化进展，相关代码已开源供公众使用。

[16] A Dual-Branch Framework for Semantic Change Detection with Boundary and Temporal Awareness

Yun-Cheng Li,Sen Lei,Heng-Chao Li,Ke Li

Main category: cs.CV

TL;DR: DBTANet：一种用于语义变化检测的双分支网络，结合SAM的全局语义边界先验和ResNet的局部空间细节，通过双向时序感知模块和边界增强模块提升变化检测精度。

Motivation: 现有语义变化检测方法存在边界模糊和时序建模不足的问题，限制了分割精度。需要同时处理全局语义、局部细节、时序依赖和边界信息。
Method: 1. 双分支孪生编码器：冻结SAM分支捕获全局语义上下文和边界先验，ResNet34分支提供局部空间细节；2. 双向时序感知模块(BTAM)：对称聚合多尺度特征并捕获时序依赖；3. 高斯平滑投影模块(GSPM)：细化浅层SAM特征，抑制噪声并增强边缘信息。
Result: 在两个公开基准测试上进行了广泛实验，DBTANet有效整合了全局语义、局部细节、时序推理和边界感知，达到了最先进的性能。
Conclusion: DBTANet通过双分支架构、时序感知和边界增强模块，解决了语义变化检测中的边界模糊和时序建模不足问题，实现了更精确的变化检测。

[17] Arbitrary Ratio Feature Compression via Next Token Prediction

Yufan Liu,Daoyuan Ren,Zhipeng Zhang,Wenyang Luo,Bing Li,Weiming Hu,Stephen Maybank

Main category: cs.CV

TL;DR: 提出ARFC框架，通过单一模型支持任意压缩比的特征压缩，无需为不同压缩比训练专门模型，在多个任务上优于现有方法。

Motivation: 现有特征压缩方法通常需要为特定压缩比训练专门模型，缺乏灵活性，当需要新压缩比时必须重新训练。这限制了实际应用中的效率和适应性。
Method: 提出ARFC框架，核心是自回归的任意比例压缩器(ARC)，通过下一令牌预测进行压缩，只需调整生成令牌数量即可控制压缩比。引入混合解决方案(MoS)模块利用多个压缩结果提高质量，以及实体关系图约束(ERGC)在训练中保持语义和结构关系。
Result: 在跨模态检索、图像分类和图像检索等多个任务和数据集上的实验表明，该方法在各种压缩比下始终优于现有方法，在某些情况下甚至超过原始未压缩特征的性能。
Conclusion: ARFC框架为资源受限的实际场景提供了一种有效且通用的特征压缩解决方案，通过单一模型支持任意压缩比，显著提高了压缩的灵活性和性能。

[18] What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation

Zhenlong Yuan,Xiangyan Qu,Jing Tang,Rui Chen,Lei Sun,Ruidong Chen,Hongwei Yu,Chengxuan Qian,Xiangxiang Chu,Shuo Li,Yuyin Zhou

Main category: cs.CV

TL;DR: ImagineAgent：一个结合认知推理与生成想象力的智能体框架，通过构建认知地图、动态调用工具（检索增强、图像裁剪、扩散模型）来解决开放词汇人-物交互中的跨模态幻觉和遮挡模糊问题，在少量训练数据下实现SOTA性能。

Motivation: 多模态大语言模型在视觉-文本推理方面展现出潜力，但在开放词汇人-物交互任务中存在跨模态幻觉和遮挡引起的模糊性问题，限制了其推理能力。
Method: 提出ImagineAgent框架：1）构建认知地图，显式建模检测实体与候选动作之间的合理关系；2）动态调用工具（检索增强、图像裁剪、扩散模型）获取领域知识和丰富视觉证据；3）设计复合奖励函数平衡预测准确性和工具效率。
Result: 在SWIG-HOI和HICO-DET数据集上达到SOTA性能，仅需约20%的训练数据，验证了方法的鲁棒性和效率。
Conclusion: ImagineAgent通过协调认知推理与生成想象力，实现了对模糊场景的跨模态对齐，为开放词汇人-物交互任务提供了鲁棒的视觉理解解决方案。

[19] Vascular anatomy-aware self-supervised pre-training for X-ray angiogram analysis

De-Xing Huang,Chaohui Yu,Xiao-Hu Zhou,Tian-Yu Xiang,Qin-Yi Zhang,Mei-Jiang Gui,Rui-Ze Ma,Chen-Yu Wang,Nu-Fang Xiao,Fan Wang,Zeng-Guang Hou

Main category: cs.CV

TL;DR: 提出VasoMIM框架，结合血管解剖知识的掩码图像建模方法，配合XA-170K大规模数据集，显著提升X射线血管造影分析性能

Motivation: X射线血管造影是心血管疾病诊断的金标准，但当前深度学习方法受限于标注数据稀缺。大规模自监督学习在该领域潜力未充分挖掘，缺乏有效框架和大规模数据集
Method: 提出VasoMIM框架，包含两个关键设计：1) 解剖引导的掩码策略，选择性掩码包含血管的补丁；2) 解剖一致性损失，保持原始与重建图像间血管结构一致性
Result: 在4个下游任务、6个数据集上验证，VasoMIM表现出优越的迁移能力，达到最先进性能，显著优于现有方法
Conclusion: VasoMIM作为基础模型具有显著潜力，可推动X射线血管造影分析任务发展。框架和XA-170K数据集将开源

[20] Supervise-assisted Multi-modality Fusion Diffusion Model for PET Restoration

Yingkai Zhang,Shuang Chen,Ye Tian,Yunyi Gao,Jianyong Jiang,Ying Fu

Main category: cs.CV

TL;DR: 提出MFdiff模型，利用多模态融合扩散模型从低剂量PET和MR图像恢复标准剂量PET，解决模态不一致和分布外数据问题

Motivation: PET成像存在辐射暴露问题，降低剂量或扫描时间会损害图像质量。虽然利用MR图像辅助恢复标准剂量PET是可行方案，但面临多模态融合的结构纹理不一致以及分布外数据不匹配的挑战
Method: 1) 设计多模态特征融合模块学习优化融合特征，充分利用MR图像但不引入额外细节；2) 以融合特征为条件，基于扩散模型迭代生成高质量SPET；3) 引入两阶段监督辅助学习策略，结合模拟分布内数据的广义先验和体内分布外数据的特定先验
Result: 实验表明MFdiff能有效从多模态输入恢复高质量SPET图像，在定性和定量评估上均优于现有最先进方法
Conclusion: MFdiff模型成功解决了多模态PET恢复中的融合不一致和分布外数据问题，为低剂量PET成像提供了有效的解决方案

[21] Perception-based Image Denoising via Generative Compression

Nam Nguyen,Thinh Nguyen,Bella Bose

Main category: cs.CV

TL;DR: 提出生成压缩框架用于感知去噪，通过熵编码潜在表示强制低复杂度结构，生成解码器通过感知度量恢复真实纹理，引入条件WGAN和扩散两种实现，建立理论保证，实验显示感知质量提升同时保持竞争性失真性能。

Motivation: 传统失真驱动的去噪方法在强噪声和分布偏移下容易产生过度平滑的重建结果，无法保持结构细节和感知真实性，需要一种能够更好平衡失真与感知质量的去噪方法。
Method: 提出生成压缩框架：1) 通过熵编码潜在表示强制低复杂度结构；2) 使用生成解码器通过LPIPS损失和Wasserstein距离等感知度量恢复真实纹理；3) 引入两种实现：条件WGAN压缩去噪器（显式控制率-失真-感知权衡）和条件扩散重建策略（基于压缩潜在进行迭代去噪）。
Result: 建立了加性高斯噪声下压缩最大似然去噪器的非渐近理论保证，包括重建误差和解码错误概率的界限。在合成和真实噪声基准测试中，该方法在保持竞争性失真性能的同时，实现了持续的感知质量改进。
Conclusion: 生成压缩框架为感知去噪提供了有效解决方案，通过结合压缩和生成建模，在失真和感知质量之间取得了更好的平衡，为图像去噪领域提供了新的理论保证和实践方法。

[22] LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts

Chen Zhao,Jiawei Chen,Hongyu Li,Zhuoliang Kang,Shilin Lu,Xiaoming Wei,Kai Zhang,Jian Yang,Ying Tai

Main category: cs.CV

TL;DR: LUVE是一个用于超高分辨率视频生成的三阶段潜在级联框架，通过双频专家系统解决运动建模、语义规划和细节合成的挑战。

Motivation: 尽管视频扩散模型在视觉质量上取得了显著进展，但超高分辨率视频生成仍然面临运动建模、语义规划和细节合成的复合困难，需要新的解决方案。
Method: LUVE采用三阶段架构：1) 低分辨率运动生成用于运动一致的潜在合成；2) 视频潜在上采样直接在潜在空间进行分辨率提升以减少内存和计算开销；3) 高分辨率内容细化通过集成低频和高频专家共同增强语义连贯性和细粒度细节生成。
Result: 大量实验表明LUVE在超高分辨率视频生成中实现了卓越的逼真度和内容保真度，全面的消融研究进一步验证了每个组件的有效性。
Conclusion: LUVE通过潜在级联框架和双频专家系统有效解决了超高分辨率视频生成的挑战，为高质量视频生成提供了新的解决方案。

[23] Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

Zesheng Jia,Jin Wang,Siao Liu,Lingzhi Li,Ziyao Huang,Yunjiang Xu,Jianping Wang

Main category: cs.CV

TL;DR: FlowAdapt：基于最优传输理论的参数高效领域自适应框架，用于V2X协同感知，仅需1%可训练参数即可实现SOTA性能

Motivation: 多智能体系统在V2X协同感知中面临快速领域自适应的挑战。传统PEFT方法直接应用于多智能体设置会导致性能显著下降和训练不稳定，主要原因是异构传感器流中的帧间冗余和PEFT适应下深层表示中细粒度语义的侵蚀。
Method: 提出FlowAdapt框架：1）Wasserstein贪婪采样策略，通过有界覆盖半径选择性过滤冗余样本；2）渐进知识传递模块，通过可学习路径将压缩的早期表示逐步注入后期阶段，缓解后期适应中的语义退化。
Result: 在三个基准测试上的广泛实验表明，FlowAdapt仅使用1%的可训练参数就实现了最先进的性能，以优异的样本效率和泛化能力有效弥合领域差距。
Conclusion: FlowAdapt通过最优传输理论解决了多智能体领域自适应的关键挑战，在参数效率和性能之间取得了良好平衡，为V2X协同感知的实际部署提供了有效解决方案。

[24] A Large Language Model for Disaster Structural Reconnaissance Summarization

Yuqing Gao,Guanren Zhou,Khalid M. Mosalam

Main category: cs.CV

TL;DR: 提出基于大语言模型的灾害勘察总结框架(LLM-DRS)，将计算机视觉与大语言模型结合，自动生成结构损伤评估报告，提升灾后快速勘察效率。

Motivation: 传统AI视觉结构健康监测仅输出离散结果（如损伤类别、坐标），需要工程师进一步整理分析。大语言模型的兴起为AI辅助视觉SHM提供了新思路，能够自动生成总结报告，提高灾后勘察效率。
Method: 提出LLM-DRS框架：1)设计标准勘察计划，规范视觉数据和元数据采集流程；2)将文本元数据和图像数据统一处理格式；3)使用训练好的深度卷积神经网络提取关键属性（损伤状态、材料类型、损伤等级）；4)将所有数据输入大语言模型，通过精心设计的提示词生成结构或区域的总结报告。
Result: 结果表明，将大语言模型集成到视觉结构健康监测中，特别是在快速灾后勘察方面，显示出通过有效勘察提高建筑环境韧性的良好潜力。
Conclusion: LLM-DRS框架成功将大语言模型与视觉SHM结合，能够自动生成结构损伤评估报告，为灾后快速勘察和决策提供了有效工具，有助于提升建筑环境的韧性。

[25] PLOT-CT: Pre-log Voronoi Decomposition Assisted Generation for Low-dose CT Reconstruction

Bin Huang,Xun Yu,Yikun Zhang,Yi Zhang,Yang Chen,Qiegen Liu

Main category: cs.CV

TL;DR: PLOT-CT：一种基于预对数Voronoi分解的CT重建新框架，通过在预对数域分解投影数据来抑制噪声并提升重建精度

Motivation: 低剂量CT重建面临严重噪声和数据保真度问题。现有方法主要在图像域或后对数投影域操作，未能充分利用预对数测量中的丰富结构信息，且对数变换会放大噪声，对重建精度要求极高。
Method: 提出PLOT-CT框架，在预对数正弦图上应用Voronoi分解，将数据解耦为不同基础分量并嵌入独立的潜在空间。这种显式分解增强了模型学习判别特征的能力，直接在预对数域抑制噪声并保留信息。
Result: 实验表明PLOT-CT达到最先进性能，在预对数域1e4入射光子水平下，相比传统方法获得2.36dB的PSNR提升。
Conclusion: 通过预对数域的Voronoi分解，PLOT-CT能有效利用预对数测量中的结构信息，显著提升低剂量CT重建质量，为CT重建提供了新思路。

[26] PLESS: Pseudo-Label Enhancement with Spreading Scribbles for Weakly Supervised Segmentation

Yeva Gabrielyan,Varduhi Yeghiazaryan,Irina Voiculescu

Main category: cs.CV

TL;DR: PLESS是一种通用的伪标签增强策略，通过分层分区和空间一致性改进弱监督学习中的伪标签质量

Motivation: 涂鸦标注虽然降低了标注成本，但存在噪声和不完整监督的问题。现有基于伪标签的方法受限于伪标签质量，需要改进伪标签的可靠性和空间一致性
Method: 提出PLESS框架，基于图像分层分区构建空间一致区域层次结构，在语义一致区域内传播涂鸦信息以细化伪标签。该框架与模型无关，可轻松集成到现有伪标签方法中
Result: 在两个公开心脏MRI数据集（ACDC和MSCMRseg）上，对四种涂鸦监督算法进行实验，均显示出分割准确性的持续改进
Conclusion: PLESS是一种有效的伪标签增强策略，能显著提升涂鸦监督医学图像分割的性能，具有通用性和易集成性

[27] ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

Changti Wu,Jiahuai Mao,Yuzhuo Miao,Shijie Lian,Bin Yu,Xiaopeng Lin,Cong Huang,Lei Zhang,Kai Chen

Main category: cs.CV

TL;DR: ScalSelect是一种可扩展的无训练多模态数据选择方法，通过线性时间复杂度从大规模视觉指令调优数据集中高效选择关键样本，仅需16%数据即可达到全数据集97.5%的性能。

Motivation: 大规模视觉指令调优(VIT)训练计算成本高且效率低，现有数据选择方法要么需要昂贵的训练或梯度计算，要么依赖代理模型/数据集、指令无关表示或二次复杂度成对相似性计算，限制了可扩展性和表示保真度。
Method: ScalSelect首先通过提取目标VLM中指令令牌最关注的视觉特征构建样本表示，捕获指令相关信息；然后识别那些表示最能近似完整数据集表示主导子空间的样本，实现无需成对比较的可扩展重要性评分。
Result: 在多个VLM、数据集和选择预算下的广泛实验表明，ScalSelect仅使用16%的数据就能达到全数据集训练的97.5%以上性能，在某些设置下甚至优于全数据训练。
Conclusion: ScalSelect是一种高效、可扩展的无训练多模态数据选择方法，无需外部模型或辅助数据集，通过线性时间复杂度显著提升视觉指令调优的训练效率。

[28] Electrostatics-Inspired Surface Reconstruction (EISR): Recovering 3D Shapes as a Superposition of Poisson's PDE Solutions

Diego Patiño,Knut Peterson,Kostas Daniilidis,David K. Han

Main category: cs.CV

TL;DR: 提出基于泊松方程的表面重建新方法，通过格林函数获得闭式解，利用线性叠加特性提升高频细节重建效果

Motivation: 现有基于SDF的隐式形状表示方法通常利用Eikonal偏微分方程，但本文提出使用泊松方程作为代理PDE来改进表面重建，特别是高频细节的近似
Method: 将表面重建编码为泊松方程的解，利用泊松方程与物理（如静电势）的关联，采用格林函数获得闭式参数表达式，利用泊松方程的线性特性通过解叠加得到目标形状的隐式场
Result: 该方法在近似高频细节方面表现出改进效果，即使使用少量形状先验也能获得良好结果
Conclusion: 通过泊松方程作为代理PDE进行表面重建是有效的，特别是利用其线性叠加特性和格林函数闭式解，能够更好地捕捉形状的高频细节

[29] Brain Tumor Classifiers Under Attack: Robustness of ResNet Variants Against Transferable FGSM and PGD Attacks

Ryan Deem,Garrett Goodman,Waqas Majeed,Md Abdullah Al Hafiz Khan,Michail S. Alexiou

Main category: cs.CV

TL;DR: 该论文研究了基于ResNet的脑肿瘤分类模型在对抗攻击下的鲁棒性，发现BrainNeXt模型对黑盒攻击最鲁棒，而缩小分辨率和非增强数据会显著降低模型对抗攻击的抵抗力。

Motivation: 脑肿瘤MRI分类模型的对抗鲁棒性在临床部署中至关重要，但目前研究不足。需要评估不同ResNet变体模型在对抗攻击下的脆弱性和恢复能力。
Method: 使用三种基于ResNet的架构（BrainNet、BrainNeXt、DilationNet），在三种预处理配置（全尺寸增强、缩小增强、缩小非增强MRI数据集）上，评估其对FGSM和PGD梯度攻击的鲁棒性。
Result: BrainNeXt模型对黑盒攻击最鲁棒，但产生的可转移对抗样本较弱；BrainNet和Dilation模型更容易受到相互攻击；缩小和非增强数据显著降低模型鲁棒性，即使原始测试准确率仍很高。
Conclusion: 脑MRI分类模型的临床部署需要同时评估分类性能和对抗鲁棒性，输入分辨率和数据增强对对抗脆弱性有重要影响，BrainNeXt的更高基数可能提供更好的黑盒攻击鲁棒性。

[30] GR-Diffusion: 3D Gaussian Representation Meets Diffusion in Whole-Body PET Reconstruction

Mengxiao Geng,Zijie Chen,Ran Hong,Bingxuan Li,Qiegen Liu

Main category: cs.CV

TL;DR: 提出GR-Diffusion框架，结合离散高斯表示（GR）的几何先验和扩散模型的生成能力，用于3D低剂量全身PET重建，在图像质量和生理细节保留方面优于现有方法。

Motivation: PET重建面临噪声放大、结构模糊和细节丢失等挑战，传统基于点或体素的方法存在低通限制。需要结合几何先验和生成能力来提升重建质量。
Method: 提出GR-Diffusion框架：1）使用GR从投影数据生成参考3D PET图像作为物理基础和结构基准；2）采用分层引导机制：细粒度引导利用差异优化局部细节，粗粒度引导使用多尺度差异图校正偏差；3）扩散模型顺序整合GR的几何先验并恢复亚体素信息。
Result: 在UDPET和Clinical数据集的不同剂量水平实验中，GR-Diffusion在增强3D全身PET图像质量和保留生理细节方面优于最先进方法。
Conclusion: GR-Diffusion成功整合了GR的几何先验和扩散模型的生成能力，为3D低剂量全身PET重建提供了有效解决方案，克服了传统方法的局限性。

Seo Hyun Kim,Jin Bok Park,Do Yeon Koo,Ho Gun Park,Il Yong Chun

Main category: cs.CV

TL;DR: SToRM：首个用于多模态大语言模型的监督式令牌缩减框架，通过轻量级重要性预测器、监督训练和锚点-上下文合并模块，在保持全令牌性能的同时将计算成本降低30倍。

Motivation: 自动驾驶中的端到端驾驶系统依赖多模态大语言模型处理传感器数据，但需要大量计算资源。现有令牌缩减方法往往导致性能下降，需要一种既能减少计算成本又能保持性能的解决方案。
Method: 提出SToRM框架：1）轻量级重要性预测器通过短期滑动窗口估计令牌重要性分数；2）监督训练方法使用辅助路径从全令牌LLM传递获取伪监督信号；3）锚点-上下文合并模块将令牌分为锚点和上下文令牌，并将上下文令牌合并到相关锚点以减少冗余。
Result: 在LangAuto基准测试中，SToRM在相同缩减令牌预算下优于最先进的端到端驾驶MLLMs，保持全令牌性能的同时将计算成本降低高达30倍。
Conclusion: SToRM框架首次实现了多模态大语言模型的高效令牌缩减，在自动驾驶场景中平衡了计算效率与性能，为资源受限的自动驾驶系统提供了可行的解决方案。

[32] EmoSpace: Fine-Grained Emotion Prototype Learning for Immersive Affective Content Generation

Bingyuan Wang,Xingbei Chen,Zongyang Qiu,Linping Yuan,Zeyu Wang

Main category: cs.CV

TL;DR: EmoSpace是一个用于VR内容生成的情感感知框架，通过视觉语言对齐学习动态可解释的情感原型，实现细粒度情感控制，支持多种应用场景。

Motivation: 现有生成方法在捕捉细微情感语义和实现沉浸式体验所需的细粒度控制方面存在不足，需要开发能够更好地理解情感并控制内容生成的方法。
Method: 采用分层情感表示和可学习原型，通过视觉语言对齐学习动态情感原型；开发包含多原型引导、时间混合和注意力重加权的可控生成流程。
Result: 在定性和定量评估中均优于现有方法；用户研究表明VR环境相比桌面设置能更好地影响情感感知。
Conclusion: EmoSpace实现了具有细粒度情感控制的沉浸式视觉内容生成，支持治疗、教育、故事讲述、艺术创作和文化保护等应用。

[33] Clutt3R-Seg: Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes

Jeongho Noh,Tai Hyoung Rhee,Eunho Lee,Jeongyun Kim,Sunwoo Lee,Ayoung Kim

Main category: cs.CV

TL;DR: Clutt3R-Seg：用于语言引导机器人抓取的零样本3D实例分割方法，通过层次化实例树和语义线索处理杂乱场景中的遮挡和噪声掩码问题

Motivation: 在杂乱环境中，遮挡、有限视角和噪声掩码会严重降低3D实例分割的可靠性，而可靠的3D实例分割是语言引导机器人操作的基础
Method: 提出层次化实例树结构，利用噪声掩码作为信息线索，通过跨视图分组和条件替换来抑制过分割和欠分割，生成视图一致的掩码和鲁棒的3D实例。每个实例都包含开放词汇语义嵌入，支持自然语言指令的目标选择
Result: 在合成和真实数据集上评估，在杂乱和稀疏视角场景中始终优于现有方法。在最挑战的重度杂乱序列中，AP@25达到61.66，比基线高2.2倍以上；仅用4个输入视图就超过MaskClustering使用8个视图的性能2倍以上
Conclusion: Clutt3R-Seg通过层次化实例树有效处理杂乱场景中的分割挑战，实现了鲁棒的3D实例分割，支持语言引导的机器人抓取，并在多阶段任务中通过一致性感知更新保持实例对应关系

[34] Egocentric Gaze Estimation via Neck-Mounted Camera

Haoyu Huang,Yoichi Sato

Main category: cs.CV

TL;DR: 提出颈戴视角视线估计新任务，收集首个数据集，评估GLC模型并扩展辅助任务和多视角协同学习，发现视线越界分类有效但协同学习无增益

Motivation: 现有自我中心视线估计主要关注头戴相机视角，而颈戴相机等替代视角尚未充分探索，需要填补这一研究空白
Method: 收集首个颈戴视角数据集（8名参与者约4小时日常活动视频），评估基于Transformer的GLC模型，提出两个扩展：辅助视线越界分类任务和多视角协同学习方法（使用几何感知辅助损失联合训练头戴和颈戴模型）
Result: 实验结果显示，加入视线越界分类任务相比标准微调能提升性能，但多视角协同学习方法未带来增益
Conclusion: 颈戴视角视线估计是可行的新任务，视线越界分类是有效的辅助任务，但多视角协同学习在当前设置下效果有限，为颈戴视线估计提供了重要见解

[35] U-Net with Hadamard Transform and DCT Latent Spaces for Next-day Wildfire Spread Prediction

Yingyi Luo,Shuaiang Rong,Adam Watts,Ahmet Enis Cetin

Main category: cs.CV

TL;DR: 提出TD-FusionUNet模型，结合可训练的Hadamard变换和DCT层进行频域特征融合，用于轻量级次日野火蔓延预测，在参数较少情况下超越UNet基线。

Motivation: 开发轻量级、计算高效的次日野火蔓延预测工具，适用于资源受限环境中的实时应用。现有方法通常参数较多，需要平衡准确性和效率。
Method: 提出TD-FusionUNet模型，包含可训练的Hadamard变换和离散余弦变换层，在正交化潜在空间捕捉频率成分。采用随机边缘裁剪和高斯混合模型等预处理技术增强稀疏预火掩码表示。
Result: 在Google Research的Next-Day Wildfire Spread数据集和WildfireSpreadTS数据集上评估，TD-FusionUNet以37万参数获得0.591的F1分数，优于使用ResNet18编码器的UNet基线，且参数显著减少。
Conclusion: 提出的潜在空间融合模型在轻量级设置下平衡了准确性和效率，适合资源受限环境中的实时野火预测应用。

[36] RI-Mamba: Rotation-Invariant Mamba for Robust Text-to-Shape Retrieval

Khanh Nguyen,Dasith de Silva Edirimuni,Ghulam Mubashar Hassan,Ajmal Mian

Main category: cs.CV

TL;DR: RI-Mamba：首个旋转不变的状态空间模型，用于点云数据的文本到形状检索，支持任意方向下的200多个物体类别

Motivation: 现有文本到形状检索方法需要规范姿态且支持类别有限，难以处理现实世界中随机方向、类别多样的物体。需要开发旋转不变的方法来提升实际应用性。
Method: 1) 定义全局和局部参考系分离姿态与几何；2) 使用希尔伯特排序构建具有几何结构的token序列；3) 计算方向嵌入并通过特征线性调制恢复空间上下文；4) 采用跨模态对比学习与自动三元组生成进行训练
Result: 在OmniObject3D基准测试中取得最先进性能，支持200多个物体类别在任意方向下的检索，表现出卓越的表征能力和鲁棒性
Conclusion: RI-Mamba是首个旋转不变的状态空间模型，通过创新的参考系设计、序列构建和方向嵌入策略，有效解决了点云检索中的旋转不变性问题，具有线性时间复杂度和良好的扩展性

[37] Semantically Conditioned Diffusion Models for Cerebral DSA Synthesis

Qiwen Xu,David Rügamer,Holger Wenz,Johann Fontana,Nora Meggyeshazi,Andreas Bender,Máté E. Maros

Main category: cs.CV

TL;DR: 使用语义条件潜在扩散模型生成可控的脑血管DSA图像，通过专家评估验证临床真实性

Motivation: 数字减影血管造影（DSA）在脑血管疾病诊疗中至关重要，但其侵入性和高成本限制了大规模数据收集和公开共享，因此需要开发合成DSA图像的方法
Method: 开发语义条件潜在扩散模型（LDM），利用文本嵌入编码解剖结构和采集几何信息，在99,349帧单中心DSA数据集上训练，可控制解剖循环（前/后）和C臂位置生成动脉期脑DSA图像
Result: 生成图像获得3.1-3.3的Likert评分（5分制），评估者间可靠性高（ICC=0.80-0.87），Fréchet起始距离低至15.27，表明与真实DSA分布相似
Conclusion: 语义控制LDM能生成适用于算法开发、研究和训练的逼真合成DSA图像，为解决DSA数据稀缺问题提供了可行方案

[38] TG-Field: Geometry-Aware Radiative Gaussian Fields for Tomographic Reconstruction

Yuxiang Zhong,Jun Wei,Chaoqi Chen,Senyou An,Hui Huang

Main category: cs.CV

TL;DR: TG-Field：针对稀疏投影和动态运动的CT重建，提出几何感知的高斯变形框架，通过多分辨率哈希编码和时间条件表示提升重建精度

Motivation: 3D高斯溅射在CT重建中面临严重伪影问题，特别是在高度稀疏投影和动态运动场景下。现有方法难以处理这些挑战，需要新的几何感知框架来改善重建质量。
Method: 提出Tomographic Geometry Field (TG-Field)：1) 使用多分辨率哈希编码捕获局部空间先验，正则化超稀疏条件下的基元参数；2) 引入时间条件表示和时空注意力块，自适应聚合特征解决时空模糊性；3) 运动流网络建模细粒度呼吸运动，跟踪局部解剖变形。
Result: 在合成和真实数据集上的实验表明，TG-Field在高度稀疏视图条件下始终优于现有方法，实现了最先进的重建精度。
Conclusion: TG-Field为静态和动态CT重建提供了一个有效的几何感知高斯变形框架，特别适用于高度稀疏投影场景，显著提升了重建质量。

[39] LLM-Driven 3D Scene Generation of Agricultural Simulation Environments

Arafa Yoncalik,Wouter Jansen,Nico Huebel,Mohammad Hasan Rahmani,Jan Steckel

Main category: cs.CV

TL;DR: 本文开发了一个模块化多LLM管道，用于从自然语言提示生成农业合成仿真环境，解决了现有方法缺乏领域特定推理、验证机制和模块化设计的问题。

Motivation: 现有使用LLM进行3D场景生成的方法通常缺乏领域特定推理、验证机制和模块化设计，导致控制性差和可扩展性不足。本文旨在解决这些问题，专注于农业合成仿真环境的生成。
Method: 开发了模块化多LLM管道，集成3D资产检索、领域知识注入和使用Unreal引擎API的代码生成。采用混合策略结合few-shot提示、RAG、微调和验证等LLM优化技术。
Result: 系统能够基于输入提示和领域知识生成具有逼真种植布局和环境背景的3D环境。用户研究评估了真实感和熟悉度，专家比较显示相比手动场景设计显著节省时间。
Conclusion: 多LLM管道在自动化领域特定3D场景生成方面有效，提高了可靠性和精度。未来工作将扩展资产层次结构、纳入实时生成，并将管道适配到农业以外的其他仿真领域。

[40] GSO-SLAM: Bidirectionally Coupled Gaussian Splatting and Direct Visual Odometry

Jiung Yeon,Seongbo Ha,Hyeonwoo Yu

Main category: cs.CV

TL;DR: GSO-SLAM：基于高斯场景表示的实时单目稠密SLAM系统，通过双向耦合视觉里程计与高斯泼溅实现联合优化，无需额外计算开销即可同时优化深度估计与场景表示。

Motivation: 现有方法要么将跟踪与建图耦合在统一场景中导致计算成本高，要么在结构化跟踪框架中松散集成引入冗余。需要一种既能实时运行又能保持高精度的方法。
Method: 1. 在期望最大化框架内制定联合优化，同时细化VO生成的半稠密深度估计和高斯表示；2. 提出高斯泼溅初始化，利用VO的图像信息、关键帧位姿和像素关联生成接近最终高斯场景的近似，无需启发式方法。
Result: 方法在实时运行的同时，在重建场景的几何/光度保真度和跟踪精度方面达到最先进水平。
Conclusion: GSO-SLAM通过双向耦合VO与GS的联合优化框架，实现了实时、高精度的单目稠密SLAM，避免了现有方法的计算冗余和启发式初始化问题。

[41] STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning

Xiaowen Zhang,Zhi Gao,Licheng Jiao,Lingling Li,Qing Li

Main category: cs.CV

TL;DR: 提出STVG-R1框架，通过视觉提示和强化学习解决时空视频定位中的幻觉问题，将坐标预测转化为实例级识别任务，在多个基准上取得SOTA性能。

Motivation: 视觉语言模型在密集预测任务（如时空视频定位）中，文本描述与视觉坐标之间的错位会导致严重的幻觉问题。现有方法通常需要额外的可训练模块，带来显著的标注成本和计算开销。
Method: 提出新的视觉提示范式，将逐帧坐标预测转化为紧凑的实例级识别问题，为每个对象分配唯一的时间一致ID作为视觉提示。同时引入首个STVG强化学习框架STVG-R1，使用任务驱动奖励联合优化时间准确性、空间一致性和结构格式正则化。
Result: 在六个基准测试中验证了方法的有效性。STVG-R1在HCSTVG-v2基准上比基线Qwen2.5-VL-7B提升了20.9%的m_IoU，达到新的SOTA。在零样本多目标参考视频对象分割任务上也表现出色，在MeViS上达到47.3% J&F的SOTA性能。
Conclusion: 提出的视觉提示范式和强化学习框架有效解决了时空视频定位中的幻觉问题，避免了跨模态坐标对齐的困难，在保持高性能的同时减少了计算开销，并展现出良好的零样本泛化能力。

[42] Adapting Vision-Language Models for E-commerce Understanding at Scale

Matteo Nulli,Vladimir Orshulevich,Tala Bazazo,Christian Herold,Michael Kozielski,Marcin Mazur,Szymon Tuzel,Cees G. M. Snoek,Seyyed Hadi Hashemi,Omar Javed,Yannick Versley,Shahram Khadivi

Main category: cs.CV

TL;DR: 本文提出了一种针对电子商务场景的视觉语言模型适配方法，通过大规模实验证明该方法能显著提升电商性能同时保持通用多模态能力，并设计了全面的评估套件。

Motivation: 电子商务产品理解需要强大的多模态理解能力，但现有通用视觉语言模型缺乏针对电商数据特点（属性中心、多图像、噪声）的适配策略，且担心牺牲通用性能。
Method: 提出针对性的通用VLM适配方法，通过大规模实验研究探索适配策略，并设计了包含深度产品理解、严格指令遵循和动态属性提取的全面评估套件。
Result: 研究表明，针对性的VLM适配能显著提升电子商务性能，同时保持广泛的通用多模态能力。
Conclusion: 通过针对性适配策略，可以在不牺牲通用性能的前提下，显著提升视觉语言模型在电子商务场景中的表现，并需要专门的评估方法来验证这种适配效果。

[43] Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding

Boqi Chen,Xudong Liu,Jianing Qiu

Main category: cs.CV

TL;DR: 提出一种改进视觉对比解码的方法，通过构建物体对齐的辅助视图来减少多模态大语言模型中的物体幻觉问题

Motivation: 多模态大语言模型存在物体幻觉问题，即模型会生成文本中未在图像中出现的物体描述。现有的视觉对比解码方法需要改进，以更有效地减少这种幻觉现象。
Method: 利用自监督视觉Transformer中的物体中心注意力机制，移除最显著的视觉证据来构建辅助视图，破坏未受支持的token并产生更强的对比信号。该方法与提示、模型无关，可无缝集成到现有VCD流程中，计算开销小（仅需一次可缓存的forward pass）。
Result: 在两个流行的物体幻觉基准测试和两个MLLM模型上均表现出一致的性能提升，有效减少了物体幻觉问题。
Conclusion: 提出的物体对齐辅助视图方法能够有效改进视觉对比解码，减少多模态大语言模型中的物体幻觉，且具有通用性和高效性。

[44] Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

Xiangyu Wu,Dongming Jiang,Feng Yu,Yueying Tian,Jiaqi Tang,Qing-Guo Chen,Yang Yang,Jianfeng Lu

Main category: cs.CV

TL;DR: 提出ADTE方法，使用自适应去偏Tsallis熵替代传统Shannon熵，解决CLIP模型在测试时适应中的偏差问题，在多个基准测试中取得SOTA性能。

Motivation: 主流测试时适应方法使用Shannon熵衡量预测不确定性，但CLIP模型在预训练时使用了高度不平衡的网络爬取数据，存在内置偏差，导致Shannon熵产生有偏的不确定性估计。
Method: 提出自适应去偏Tsallis熵方法，利用Tsallis熵（Shannon熵的广义形式）通过非广延参数q表征有偏分布，并自适应地为每个类别定制类特定参数q^l，通过归一化持续传入测试实例的估计标签偏差得到。该方法无需分布特定的超参数调优，可准确选择高置信度视图并与标签调整策略无缝集成。
Result: ADTE在ImageNet及其五个变体上优于最先进方法，在10个跨域基准测试中达到最高平均性能，且不受模型架构或文本提示的影响。
Conclusion: Tsallis熵和ADTE可作为Shannon熵的直接高级替代方案用于测试时适应，无需其他修改。ADTE通过自适应去偏机制有效解决了CLIP模型的预训练偏差问题，提升了测试时适应性能。

[45] Code2Worlds: Empowering Coding LLMs for 4D World Generation

Yi Zhang,Yunshuang Wang,Zeyu Zhang,Hao Tang

Main category: cs.CV

TL;DR: Code2Worlds：一个将4D动态场景生成转化为语言到仿真代码生成的框架，通过双流架构和物理感知闭环机制解决多尺度上下文纠缠和语义-物理执行差距问题。

Motivation: 现有方法主要关注静态3D场景生成，但实现空间智能需要构建基于物理定律的世界仿真器。4D动态生成面临两个核心挑战：1）多尺度上下文纠缠，单一生成方法难以平衡局部物体结构和全局环境布局；2）语义-物理执行差距，开环代码生成导致物理幻觉，缺乏动态保真度。
Method: 1）提出双流架构，将检索增强的物体生成与分层环境编排解耦；2）建立物理感知闭环机制，包括PostProcess Agent编写动力学脚本，以及VLM-Motion Critic进行自我反思以迭代优化仿真代码。
Result: 在Code4D基准测试中，Code2Worlds优于基线方法，获得41%的SGS增益和49%更高的丰富度，并且能够生成先前静态方法所缺乏的物理感知动态效果。
Conclusion: Code2Worlds成功将4D生成转化为语言到仿真代码生成问题，通过解耦架构和物理感知闭环机制有效解决了多尺度上下文纠缠和语义-物理执行差距，为构建物理基础的世界仿真器提供了新途径。

[46] Light4D: Training-Free Extreme Viewpoint 4D Video Relighting

Zhenghuang Wu,Kang Chen,Zeyu Zhang,Hao Tang

Main category: cs.CV

TL;DR: Light4D是一个无需训练的4D视频重光照框架，能够在极端视角变化下合成具有时间一致性的重光照视频。

Motivation: 基于扩散模型的图像和视频重光照技术取得了进展，但扩展到4D重光照面临挑战：缺乏配对的4D重光照训练数据，以及在极端视角变化下难以保持时间一致性。
Method: 提出两种关键技术：1）解耦流引导，一种时间感知策略，在潜在空间中注入光照控制同时保持几何完整性；2）时间一致性注意力，在IC-Light架构中实现，并结合确定性正则化消除外观闪烁。
Result: 实验表明该方法在时间一致性和光照保真度方面具有竞争力，能够稳健处理-90°到90°的相机旋转。
Conclusion: Light4D是一个无需训练的高效4D重光照框架，解决了数据稀缺和时间一致性问题，在极端视角变化下表现优异。

[47] Efficient Segment Anything with Depth-Aware Fusion and Limited Training Data

Yiming Zhou,Xuenjie Xie,Panfeng Li,Albrecht Kunz,Ahmad Osman,Xavier Maldague

Main category: cs.CV

TL;DR: 提出轻量级RGB-D融合框架，在少量数据（11.2k样本）上训练，通过深度先验增强EfficientViT-SAM的分割性能

Motivation: SAM模型需要海量数据（1100万图像）且仅依赖RGB输入，现有高效变体仍需大规模训练。希望利用深度线索作为几何先验来提升分割性能并减少数据需求
Method: 提出轻量级RGB-D融合框架：1) 使用预训练深度估计器生成深度图；2) 通过专用深度编码器在中间层将深度特征与RGB特征融合；3) 基于EfficientViT-SAM架构增强
Result: 仅用11.2k样本（少于SA-1B的0.1%）训练，达到比EfficientViT-SAM更高的准确率，证明深度线索为分割提供强几何先验
Conclusion: 深度先验能显著提升分割性能并大幅减少数据需求，为轻量级高效分割模型提供新方向

[48] How to Sample High Quality 3D Fractals for Action Recognition Pre-Training?

Marko Putak,Thomas B. Moeslund,Joakim Bruslund Haurum

Main category: cs.CV

TL;DR: 提出使用3D分形视频进行动作识别预训练，开发了Targeted Smart Filtering方法解决生成速度和多样性问题，获得100倍加速和更好的下游性能。

Motivation: 合成数据集在深度学习中作为真实标注数据的替代方案受到关注。FDSL方法通过公式驱动生成无限完美标注数据，避免了人工标注、隐私和伦理问题。本研究探索使用3D分形视频进行动作识别预训练。
Method: 使用3D迭代函数系统生成分形，通过时间变换形成视频作为预训练数据集。发现标准方法生成速度慢且产生退化分形，因此提出Targeted Smart Filtering方法，解决生成速度和多样性问题。
Result: Targeted Smart Filtering方法实现了约100倍的采样速度提升，并且在动作识别下游任务中，相比其他3D分形过滤方法获得了更优的性能表现。
Conclusion: 通过Targeted Smart Filtering方法，能够高效生成多样化的3D分形视频，有效提升动作识别模型的预训练效果，为合成数据在计算机视觉任务中的应用提供了新思路。

[49] JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

Shangchen Miao,Ningya Feng,Jialong Wu,Ye Lin,Xu He,Dong Li,Mingsheng Long

Main category: cs.CV

TL;DR: JEPA-VLA：通过集成预测性视频嵌入（V-JEPA 2）来增强视觉-语言-动作模型，解决现有视觉表示在环境理解和策略先验方面的不足，显著提升机器人操作性能。

Motivation: 当前视觉-语言-动作（VLA）模型存在样本效率低和泛化能力有限的问题，这源于预训练视觉表示在环境理解和策略先验（预测成功任务执行下环境演变的知识）方面的不足。现有视觉表示（无论是语言-图像对比学习还是图像自监督学习预训练）都无法充分捕捉任务相关的环境信息和诱导有效的策略先验。
Method: 提出JEPA-VLA方法，自适应地将预测性嵌入（特别是V-JEPA 2）集成到现有VLA模型中。V-JEPA 2通过在视频上预训练，能够灵活丢弃不可预测的环境因素并编码任务相关的时序动态，从而弥补现有视觉表示的关键缺陷。
Result: 实验表明JEPA-VLA在多个基准测试中带来显著的性能提升，包括LIBERO、LIBERO-plus、RoboTwin2.0和真实机器人任务。
Conclusion: 预测性视频嵌入（如V-JEPA 2）能够有效增强VLA模型的视觉表示能力，通过编码任务相关的时序动态和提供更好的策略先验，显著改善机器人操作的样本效率和泛化能力。

[50] WorldTree: Towards 4D Dynamic Worlds from Monocular Video using Tree-Chains

Qisen Wang,Yifan Zhao,Jia Li

Main category: cs.CV

TL;DR: WorldTree提出统一时空分解框架，通过时间分割树和空间祖先链实现从粗到细的优化，在动态重建任务中取得显著性能提升

Motivation: 现有动态重建方法在单目输入应用中存在挑战，缺乏统一的时空分解框架，要么采用整体时间优化，要么采用耦合的层次空间组合，限制了性能
Method: 提出WorldTree框架：1) 时间分割树(TPT)：基于继承的分割树结构实现从粗到细的层次时间分解；2) 空间祖先链(SAC)：递归查询祖先层次结构，提供互补的空间动态，并在祖先节点间专门化运动表示
Result: 在不同数据集上实验表明，该方法在NVIDIA-LS数据集上LPIPS指标提升8.26%，在DyCheck数据集上mLPIPS指标提升9.09%，优于现有最佳方法
Conclusion: WorldTree通过统一的时空分解框架有效解决了动态重建中的时空表示问题，为单目动态重建提供了更实用的解决方案

[51] Free Lunch for Stabilizing Rectified Flow Inversion

Chenru Wang,Beier Zhu,Chi Zhang

Main category: cs.CV

TL;DR: 提出Proximal-Mean Inversion (PMI)方法解决Rectified-Flow模型反转中的累积误差问题，通过梯度修正稳定速度场，并引入mimic-CFG进行编辑任务，在PIE-Bench上实现SOTA性能。

Motivation: 现有Rectified-Flow模型的反转方法（如vanilla RF-based inversion）存在跨时间步的累积近似误差，导致速度场不稳定，重建和编辑质量下降。
Method: 提出Proximal-Mean Inversion (PMI)：无需训练，通过引导速度场向历史速度的移动平均值靠近（约束在理论推导的球形高斯内）来稳定速度场。同时提出mimic-CFG：轻量级速度修正方案，在当前速度与其历史平均投影之间插值，平衡编辑效果和结构一致性。
Result: 在PIE-Bench上的大量实验表明，该方法显著提高了反转稳定性、图像重建质量和编辑保真度，同时减少了所需的神经网络评估次数，实现了SOTA性能。
Conclusion: 提出的PMI和mimic-CFG方法有效解决了RF模型反转中的累积误差问题，在保持理论严谨性的同时提升了效率和性能，为下游任务提供了更可靠的反转能力。

[52] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Lai Wei,Liangbo He,Jun Lan,Lingzhong Dong,Yutong Cai,Siyuan Li,Huijia Zhu,Weiqiang Wang,Linghe Kong,Yue Wang,Zhuosheng Zhang,Weiran Huang

Main category: cs.CV

TL;DR: 提出Region-to-Image Distillation方法，将推理时的缩放操作转化为训练时原语，让MLLM在单次前向传播中内化缩放优势，提升细粒度感知能力。

Motivation: 多模态大语言模型在细粒度感知方面表现不佳，现有"Thinking-with-Images"方法通过迭代缩放区域来改善，但会导致高延迟和重复视觉编码。
Method: 提出区域到图像蒸馏：1）先对微裁剪区域进行缩放，让强教师模型生成高质量VQA数据；2）将这些区域基础监督蒸馏回完整图像；3）训练后学生模型无需工具即可提升单次细粒度感知。
Result: 模型在多个细粒度感知基准上取得领先性能，同时提升视觉推理和GUI代理等一般多模态认知能力。还提出了ZoomBench基准和双视图协议量化缩放差距。
Conclusion: 将缩放从推理时工具转化为训练时原语是有效的，能够内化代理缩放优势到单次前向传播中，同时讨论了何时需要"Thinking-with-Images"方法。

[53] DiffPlace: Street View Generation via Place-Controllable Diffusion Model Enhancing Place Recognition

Ji Li,Zhiwei Li,Shihao Li,Zhenjiang Yu,Boyang Wang,Haiou Liu

Main category: cs.CV

TL;DR: DiffPlace是一个用于地点可控多视角图像生成的新框架，通过引入place-ID控制器，能够在保持背景建筑一致的同时灵活修改前景物体和天气条件，显著提升了城市场景生成质量和对地点识别任务的训练支持。

Motivation: 当前的多视角扩散模型在从文本、BEV地图和物体边界框生成地点感知和背景一致的城市场景方面存在困难，这限制了它们在为地点识别任务生成真实样本方面的有效性。
Method: 提出DiffPlace框架，引入place-ID控制器，采用线性投影、感知器变换器和对比学习将place-ID嵌入映射到固定的CLIP空间，从而实现背景建筑一致的同时灵活修改前景物体和天气条件的图像合成。
Result: 大量实验（包括定量比较和增强训练评估）表明，DiffPlace在生成质量和视觉地点识别训练支持方面均优于现有方法。
Conclusion: DiffPlace展示了生成模型在增强场景级和地点感知合成方面的潜力，为改进自动驾驶中的地点识别提供了有价值的方法。

[54] SynthRAR: Ring Artifacts Reduction in CT with Unrolled Network and Synthetic Data Training

Hongxu Yang,Levente Lippenszky,Edina Timko,Gopal Avinash

Main category: cs.CV

TL;DR: 提出一种基于展开网络的CT环状伪影去除方法，利用合成数据训练，无需真实临床数据，在多种扫描几何和部位上优于现有方法。

Motivation: CT探测器缺陷导致的环状和条纹伪影影响临床使用。现有深度学习方法需要专用训练数据集，成本高，且只关注图像域或正弦图域单一空间，忽略了CT几何前向操作的内在关联。
Method: 基于非理想CT探测器响应的理论分析，将环状伪影问题重构为逆问题，使用展开网络同时考虑非理想响应和CT几何的线性前向投影。利用自然图像生成的合成数据，挖掘正弦图和图像域之间的内在关联，使模型无需真实临床数据即可校正伪影。
Result: 在多种扫描几何和解剖区域的广泛评估表明，基于合成数据训练的模型始终优于现有最先进方法。
Conclusion: 该方法通过展开网络和合成数据训练，有效解决了CT环状伪影问题，无需昂贵真实数据，在多个场景下表现出优越性能。

[55] DynaHOI: Benchmarking Hand-Object Interaction for Dynamic Target

BoCheng Hu,Zhonghan Zhao,Kaiyue Zhou,Hongwei Wang,Gaoang Wang

Main category: cs.CV

TL;DR: 该论文提出了DynaHOI-Gym平台和DynaHOI-10M基准，用于评估动态手-物交互任务，并提出了ObAct基线方法。

Motivation: 现有手部运动生成基准主要关注静态物体交互，缺乏对动态场景（移动目标和时间关键协调）的测试，需要填补这一空白。
Method: 1. 构建DynaHOI-Gym统一在线闭环平台，包含参数化运动生成器和基于rollout的评估指标；2. 创建DynaHOI-10M大规模基准数据集（1000万帧，18万条手部捕捉轨迹）；3. 提出ObAct基线方法，通过时空注意力将短期观察与当前帧整合来预测动作。
Result: 1. 建立了包含8个主要类别和22个细分子类别的动态目标运动分类体系；2. ObAct基线方法在位置成功率上实现了8.1%的提升。
Conclusion: 该工作填补了动态手-物交互评估的空白，为未来研究提供了标准化平台、大规模数据集和有效的基线方法。

[56] Synthesis of Late Gadolinium Enhancement Images via Implicit Neural Representations for Cardiac Scar Segmentation

Soufiane Ben Haddou,Laura Alvarez-Florez,Erik J. Bekkers,Fleur V. Y. Tjong,Ahmad S. Amin,Connie R. Bezzina,Ivana Išgum

Main category: cs.CV

TL;DR: 提出基于隐式神经表示和去噪扩散模型的LGE图像与分割掩码合成框架，通过生成合成数据缓解标注数据稀缺问题，提升心肌纤维化分割性能。

Motivation: LGE成像是心肌瘢痕评估的临床标准，但标注数据有限阻碍了自动分割方法的发展，需要解决数据稀缺问题。
Method: 使用隐式神经表示捕获LGE数据和分割掩码的连续空间表示，压缩为紧凑潜在嵌入，然后通过扩散模型在潜在空间生成新表示，解码为合成LGE图像和分割掩码。
Result: 在133个心脏MRI扫描上的实验表明，用200个合成体积增强训练数据可将纤维化分割的Dice分数从0.509提升到0.524。
Conclusion: 该方法提供了一种无需标注的数据增强方案，有助于缓解数据稀缺问题，代码已公开。

[57] Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion

Bruno Rigal,Victor Dupriez,Alexis Mignon,Ronan Le Hy,Nicolas Mery

Main category: cs.CV

TL;DR: 该研究评估了视觉语言模型在法语PDF转Markdown任务上的表现，通过构建法语困难文档基准，发现专有模型在手写体和表单处理上更鲁棒，而开源模型在标准印刷布局上仍有竞争力。

Motivation: 文档解析是RAG管道的关键步骤，现有基准多关注英语或中文，且过度惩罚格式和线性化选择，而法语文档特别是困难案例（手写、复杂布局、密集表格等）缺乏专门评估。
Method: 从60,000份文档中通过模型分歧采样选择困难页面构建法语基准，使用单元测试式检查（文本存在、阅读顺序、局部表格约束）结合类别特定归一化来评估15个模型。
Result: 专有模型在手写体和表单处理上表现出显著更高的鲁棒性，而多个开源权重系统在标准印刷布局上仍保持竞争力，评估方法能有效区分实质性错误与格式差异。
Conclusion: 需要针对特定语言和文档类型的专门评估基准，专有模型在处理困难法语文档方面领先，但开源模型在标准任务上仍有价值，评估方法应关注实质性错误而非格式差异。

[58] Calibrated Bayesian Deep Learning for Explainable Decision Support Systems Based on Medical Imaging

Hua Xu,Julián D. Arias-Londoño,Juan I. Godino-Llorente

Main category: cs.CV

TL;DR: 提出一个基于贝叶斯深度学习的概率优化框架，通过CUB-Loss和DTS策略改善医学影像AI的校准性，使不确定性估计与预测正确性对齐。

Motivation: 在基于医学影像的关键决策支持系统中，AI模型的可靠性与其预测准确性同等重要。当前深度学习模型虽然准确性高，但经常存在校准问题，表现为对错误预测过度自信。为了促进临床接受度，需要模型能够量化不确定性，使不确定性估计与预测正确性相关，让临床医生能够识别不可靠的输出进行进一步审查。
Method: 提出一个通用的概率优化框架：1）引入置信度-不确定性边界损失（CUB-Loss），对高置信度错误和低置信度正确预测施加惩罚，明确强制预测正确性与不确定性估计对齐；2）设计双温度缩放（DTS）策略进行后处理校准，进一步细化后验分布以提高直观可解释性。
Result: 在三个不同的医学影像任务上验证：肺炎自动筛查、糖尿病视网膜病变检测和皮肤病变识别。实证结果表明，该方法在不同模态下实现了一致的校准改进，在数据稀缺场景下保持稳健性能，在严重不平衡数据集上仍然有效。
Conclusion: 该框架通过改善不确定性校准，增强了AI辅助决策的可靠性，展示了其在真实临床部署中的潜力，有助于提高临床医生对AI输出的信任度。

[59] Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Wei Chen,Yancheng Long,Mingqiao Liu,Haojie Ding,Yankai Yang,Hongyang Wei,Yi-Fan Zhang,Bin Wen,Fan Yang,Tingting Gao,Han Li,Long Chen

Main category: cs.CV

TL;DR: 提出Spatial Chain-of-Thought (SCoT)框架，通过训练扩散模型理解文本-坐标指令格式，并利用MLLMs生成布局规划，有效提升扩散模型的空间推理能力。

Motivation: 扩散模型在美学图像合成方面表现出色，但在复杂空间理解和推理方面存在不足。现有方法要么计算成本高（联合训练），要么空间信息丢失（仅依赖文本提示），需要更好的解决方案。
Method: 提出SCoT框架：1) 训练扩散模型理解交错的文本-坐标指令格式以增强布局感知；2) 利用最先进的MLLMs作为规划器生成全面布局计划，将其空间规划能力直接转移到生成过程。
Result: 在图像生成基准测试中达到最先进性能，在复杂推理任务上显著优于基线方法，同时在图像编辑场景中也表现出强大效果。
Conclusion: SCoT框架有效桥接了MLLMs的推理能力和扩散模型的生成能力，解决了现有方法在空间理解方面的局限性，是一种即插即用的有效解决方案。

[60] Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation

Enrico Guerriero,Kjersti Engan,Øyvind Meinich-Bache

Main category: cs.CV

TL;DR: 使用生成式AI方法改进新生儿复苏视频中的活动识别，通过本地视觉语言模型结合大语言模型，在模拟数据集上达到F1分数0.91，优于传统监督方法

Motivation: 新生儿复苏的准确记录对质量改进和临床指南遵循至关重要，但实践中仍未被充分利用。现有3D-CNN和Vision Transformer方法在识别细粒度活动方面存在挑战，需要探索生成式AI的潜力
Method: 探索本地视觉语言模型(VLMs)结合大语言模型(LLMs)，与监督式TimeSFormer基线比较。使用包含13.26小时新生儿复苏视频的模拟数据集，评估多种零样本VLM策略和带分类头的微调VLM（包括LoRA低秩适应）
Result: 小型本地VLMs存在幻觉问题，但使用LoRA微调后达到F1分数0.91，显著优于TimeSFormer的0.70。表明生成式AI方法在新生儿复苏活动识别方面具有优势
Conclusion: 生成式AI方法特别是经过LoRA微调的视觉语言模型，能够有效改进新生儿复苏视频中的细粒度活动识别，为临床质量改进提供了有前景的技术方案

[61] Projected Representation Conditioning for High-fidelity Novel View Synthesis

Min-Seop Kwak,Minkyung Kwon,Jinhyeok Choi,Jiho Park,Seungryong Kim

Main category: cs.CV

TL;DR: 提出ReNoV框架，利用外部表征的几何和语义对应特性，通过扩散模型增强新视角合成的几何一致性

Motivation: 现有基于扩散的新视角合成方法在几何一致性方面存在不足，需要利用外部表征的几何和语义对应特性来提升生成质量
Method: 首先分析外部视觉表征在空间注意力中的对应能力，然后设计专门的表征投影模块将外部表征注入扩散过程（ReNoV框架）
Result: 在标准基准测试中优于现有基于扩散的新视角合成方法，显著提升了重建保真度和修复质量，并能从稀疏、无姿态的图像集合中进行鲁棒合成
Conclusion: ReNoV框架通过利用外部表征的对应特性，有效提升了扩散模型在新视角合成中的几何一致性，为从稀疏图像集合生成高质量新视角提供了有效解决方案

[62] A DMD-Based Adaptive Modulation Method for High Dynamic Range Imaging in High-Glare Environments

Banglei Guan,Jing Tao,Liang Xu,Dongcai Tan,Pengju Sun,Jianbing Liu,Yang Shang,Qifeng Yu

Main category: cs.CV

TL;DR: 本文提出了一种基于数字微镜器件(DMD)的高动态范围成像系统，通过空间调制和自适应曝光控制，在强光环境下实现127dB的动态范围，显著改善了数字图像相关测量的精度。

Motivation: 在焊接电弧监测和抛光金属表面分析等极端光照条件下，传统CCD/CMOS传感器动态范围有限（通常低于70dB），容易因强光饱和导致细节丢失和数字图像相关测量误差。
Method: 开发了基于数字微镜器件(DMD)的HDR成像系统，包含两个协同子系统：DMD光学调制单元和自适应计算成像管道，实现自主区域分割和自适应曝光控制。
Result: 系统实现了127dB的可测量动态范围，有效消除了强光下的饱和伪影，实验结果显示应变误差减少78%，DIC定位精度提高，在极端强度变化下表现可靠。
Conclusion: DMD系统提供了高保真自适应HDR成像，克服了传统传感器的关键限制，在传统方法不足的高光环境中具有强大的光学计量和应力分析潜力。

[63] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

GigaBrain Team,Boyuan Wang,Chaojun Ni,Guan Huang,Guosheng Zhao,Hao Li,Jie Li,Jindi Lv,Jingyu Liu,Lv Feng,Mingming Yu,Peng Li,Qiuping Deng,Tianze Liu,Xinyu Zhou,Xinze Chen,Xiaofeng Wang,Yang Wang,Yifan Li,Yifei Nie,Yilong Li,Yukun Zhou,Yun Ye,Zhichao Liu,Zheng Zhu

Main category: cs.CV

TL;DR: GigaBrain-0.5M* 是一个通过世界模型强化学习训练的视觉-语言-动作模型，在复杂机器人操作任务上比基线方法提升约30%，并能可靠执行长时程任务。

Motivation: 传统的视觉-语言-动作模型在场景理解和未来预测方面存在局限，而基于网络规模视频数据预训练的视频世界模型具有强大的时空推理和未来预测能力，因此将其整合到VLA学习中可提升性能。
Method: 基于GigaBrain-0.5（在超过10,000小时机器人操作数据上预训练）构建，通过RAMP（基于世界模型条件策略的强化学习）整合世界模型强化学习，实现鲁棒的跨任务适应。
Result: RAMP在RECAP基线上获得显著性能提升，在Laundry Folding、Box Packing和Espresso Preparation等挑战性任务上提升约30%。GigaBrain-0.5M*展现出可靠的长时程执行能力，能一致完成复杂操作任务而无需失败。
Conclusion: 通过整合视频世界模型的强化学习，GigaBrain-0.5M*显著提升了视觉-语言-动作模型的性能，在复杂机器人操作任务上实现了鲁棒的跨任务适应和可靠的长时程执行。

[64] AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

Lingting Zhu,Shengju Qian,Haidi Fan,Jiayu Dong,Zhenchao Jin,Siwei Zhou,Gen Dong,Xin Wang,Lequan Yu

Main category: cs.CV

TL;DR: AssetFormer：基于自回归Transformer的模型，从文本描述生成模块化3D资产，适用于UGC和专业开发场景。

Motivation: 数字产业对高质量、多样化的模块化3D资产需求增长，特别是在用户生成内容(UGC)领域。现有方法难以生成符合约束设计参数的模块化资产。
Method: 采用自回归Transformer架构，创新性地借鉴语言模型的模块序列化和解码技术，从文本描述生成由基本体组成的模块化3D资产。
Result: 初步结果表明AssetFormer能有效简化资产创建流程，提高生成质量，适用于专业开发和UGC场景。
Conclusion: AssetFormer提供了一个可扩展到多种模块化3D资产的灵活框架，为3D内容生成领域做出贡献。代码已开源。

[65] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

Sixiang Chen,Jianyu Lai,Jialin Gao,Hengyu Shi,Zhongying Liu,Tian Ye,Junfeng Luo,Xiaoming Wei,Lei Zhu

Main category: cs.CV

TL;DR: PosterOmni是一个统一的图像到海报生成框架，通过数据蒸馏奖励管道整合局部编辑和全局创建，在多个任务上超越开源和专有系统。

Motivation: 图像到海报生成需要同时处理局部调整和高级设计理解，包括文本、布局、风格和视觉元素的生成，同时保持语义保真度和美学连贯性。现有方法难以同时满足实体保留编辑和概念驱动创建的需求。
Method: 提出PosterOmni框架，通过三个步骤：1)构建覆盖六种任务类型的多场景数据集；2)在局部和全局专家之间进行知识蒸馏用于监督微调；3)应用统一的PosterOmni奖励反馈来联合对齐视觉实体保留和美学偏好。
Result: PosterOmni显著提高了参考依从性、全局构图质量和美学和谐度，超越了所有开源基线，甚至超过了一些专有系统。同时建立了PosterOmni-Bench统一评估基准。
Conclusion: PosterOmni成功解决了图像到海报生成中局部编辑和全局创建的耦合需求，提供了一个统一的框架来处理实体保留编辑和概念驱动创建，在多个维度上实现了卓越性能。

[66] FAIL: Flow Matching Adversarial Imitation Learning for Image Generation

Yeyao Ma,Chen Li,Xiaosong Zhang,Han Hu,Weidi Xie

Main category: cs.CV

TL;DR: FAIL提出了一种基于对抗训练的流匹配模型后训练方法，无需显式奖励或成对比较，通过最小化策略与专家分布差异来对齐输出分布。

Motivation: 现有方法存在局限性：监督微调无法纠正未见状态的策略漂移，而偏好优化方法需要昂贵的偏好对或奖励建模。需要一种无需显式奖励或成对比较就能对齐输出分布的方法。
Method: 提出流匹配对抗模仿学习（FAIL），通过对抗训练最小化策略与专家分布差异。开发两种算法：FAIL-PD利用可微ODE求解器获得低方差路径梯度；FAIL-PG为离散或计算受限场景提供黑盒替代方案。
Result: 仅使用13,000个Nano Banana pro演示微调FLUX模型，在提示跟随和美学基准上取得竞争性性能。框架有效泛化到离散图像和视频生成，并可作为鲁棒正则化器缓解奖励黑客问题。
Conclusion: FAIL提供了一种无需显式奖励或成对比较的流匹配模型后训练框架，在多种生成任务上表现优异，并能有效缓解奖励黑客问题，具有广泛适用性。

[67] TexSpot: 3D Texture Enhancement with Spatially-uniform Point Latent Representation

Ziteng Lu,Yushuang Wu,Chongjie Ye,Yuda Qiu,Jing Shao,Xiaoyang Guo,Jiaqing Zhou,Tianlei Hu,Kun Zhou,Xiaoguang Han

Main category: cs.CV

TL;DR: TexSpot是一个基于扩散的3D纹理增强框架，通过新的Texlet表示方法解决多视角扩散管道中的视角不一致问题，显著提升纹理质量和几何一致性。

Motivation: 当前3D纹理生成面临两大挑战：1）主流多视角扩散管道存在视角不一致问题；2）现有表示方法各有缺陷：UV贴图在展开时会产生扭曲，而基于点的方法将纹理保真度与几何密度紧密耦合，限制了高分辨率纹理生成。
Method: 提出TexSpot框架，核心是Texlet表示法：结合了点基3D纹理的几何表达能力和UV表示的紧凑性。每个Texlet潜在向量通过2D编码器编码局部纹理块，再通过3D编码器聚合全局形状上下文。使用级联的3D到2D解码器重建高质量纹理块。基于此表示训练扩散变换器，以Texlet为条件来增强多视角扩散方法生成的纹理。
Result: 大量实验表明，TexSpot在视觉保真度、几何一致性和鲁棒性方面显著优于现有的最先进3D纹理生成和增强方法。
Conclusion: TexSpot通过创新的Texlet表示和扩散变换器框架，有效解决了3D纹理生成中的视角不一致问题，为高质量3D纹理生成提供了新的解决方案。

[68] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Xu Guo,Fulong Ye,Qichao Sun,Liyang Chen,Bingchuan Li,Pengze Zhang,Jiawei Liu,Songtao Zhao,Qian He,Xiangwang Hou

Main category: cs.CV

TL;DR: DreamID-Omni：统一可控人本音视频生成框架，通过对称条件扩散Transformer和双级解耦策略解决多人物身份-音色绑定问题，在多任务中实现SOTA性能。

Motivation: 现有方法将参考音视频生成、视频编辑和音频驱动视频动画等任务视为孤立目标，且在多人物场景中难以实现精确的身份和音色解耦控制。
Method: 提出对称条件扩散Transformer整合异质条件信号；采用双级解耦策略（信号级的同步RoPE和语义级的结构化描述）；设计多任务渐进训练方案。
Result: 在视频、音频和音视频一致性方面全面达到SOTA性能，甚至超越领先的专有商业模型。
Conclusion: DreamID-Omni为可控人本音视频生成提供了统一框架，解决了多人物身份-音色绑定问题，将开源代码以弥合学术研究与商业应用之间的差距。

[69] EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

Nils Lehmann,Yi Wang,Zhitong Xiong,Xiaoxiang Zhu

Main category: cs.CV

TL;DR: EO-VAE：面向地球观测数据的多传感器变分自编码器，作为EO领域的统一tokenizer，通过动态超网络处理不同传感器和光谱通道组合。

Motivation: 当前生成模型依赖tokenizer压缩高维输入，但地球观测数据面临独特挑战：多样化的传感器规格和可变光谱通道。现有方法为每种模态训练单独的tokenizer，效率低下且难以统一处理。
Method: 提出EO-VAE，一个多传感器变分自编码器，使用单一模型通过动态超网络编码和重建灵活的光谱通道组合，能够适应不同传感器配置。
Result: 在TerraMesh数据集上的实验表明，EO-VAE相比TerraMind tokenizers实现了更优的重建保真度，为遥感领域的潜在生成建模建立了稳健基线。
Conclusion: EO-VAE为地球观测领域提供了一个高效统一的tokenizer基础架构，能够处理多传感器数据的多样性，为后续生成模型在遥感领域的应用奠定了基础。

[70] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Dianyi Wang,Ruihang Li,Feng Han,Chaofan Ma,Wei Song,Siyuan Wang,Yibin Wang,Yi Xin,Hongjian Liu,Zhixiong Zhang,Shengyuan Ding,Tianhang Wang,Zhenglin Cheng,Tao Lin,Cheng Jin,Kaicheng Yu,Jingjing Chen,Wenjie Wang,Zhongyu Wei,Jiaqi Wang

Main category: cs.CV

TL;DR: DeepGen 1.0是一个轻量级的5B参数统一多模态模型，通过创新的堆叠通道桥接技术和三阶段训练策略，在图像生成和编辑任务上超越了更大规模的模型。

Motivation: 当前统一多模态模型通常需要巨大参数量（>10B），导致训练成本和部署开销过高。需要开发轻量级但性能强大的模型来降低门槛。
Method: 1. 提出堆叠通道桥接（SCB）框架，从多个VLM层提取层次特征并与可学习的"思考令牌"融合，为生成主干提供结构化、富含推理的指导。2. 设计三阶段数据中心训练策略：对齐预训练、联合监督微调、基于MR-GRPO的强化学习。
Result: 仅使用约5000万样本训练，DeepGen 1.0在多个基准测试中取得领先性能：在WISE上超越80B HunyuanImage 28%，在UniREditBench上超越27B Qwen-Image-Edit 37%。
Conclusion: DeepGen 1.0提供了一个高效、高性能的轻量级统一多模态模型，通过开源训练代码、权重和数据集，为多模态研究民主化提供了可行方案。

[71] Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Onkar Susladkar,Tushar Prakash,Gayatri Deshmukh,Kiet A. Nguyen,Jiaxun Zhang,Adheesh Juvekar,Tianshu Bao,Lin Chai,Sparsh Mittal,Inderjit S Dhillon,Ismini Lourentzou

Main category: cs.CV

TL;DR: UniDFlow是一个统一的多模态离散流匹配框架，通过任务特定低秩适配器分离理解和生成任务，避免目标干扰和表示纠缠，并通过基于参考的多模态偏好对齐优化相对结果。

Motivation: 现有方法在处理多模态理解和生成任务时存在目标干扰和表示纠缠问题，需要统一的框架来同时支持多模态理解、生成和编辑任务。
Method: 1. 使用任务特定的低秩适配器（LoRA）分离理解和生成任务；2. 提出基于参考的多模态偏好对齐方法，在相同条件下优化相对结果；3. 构建统一的离散流匹配框架。
Result: 在八个基准测试中达到最先进性能，展现出强大的零样本泛化能力，包括修复、上下文图像生成、基于参考的编辑和组合生成等任务，无需特定任务训练。
Conclusion: UniDFlow通过统一的离散流匹配框架有效解决了多模态任务中的目标干扰问题，实现了理解、生成和编辑的统一处理，具有优秀的泛化能力和性能表现。

[72] MonarchRT: Efficient Attention for Real-Time Video Generation

Krish Agarwal,Zhuoming Chen,Cheng Luo,Yongqi Chen,Haizhong Zheng,Xun Huang,Atri Rudra,Beidi Chen

Main category: cs.CV

TL;DR: Monarch-RT：用于实时视频生成的稀疏注意力参数化方法，通过Monarch矩阵分解注意力，在保持高质量的同时实现高效计算，首次在单张RTX 5090上达到16FPS的实时视频生成。

Motivation: 实时视频生成中的扩散变换器受限于3D自注意力的二次计算成本。在少步和自回归的实时场景下，现有稀疏注意力近似方法失效，因为视频注意力同时包含周期性结构、动态稀疏语义对应和密集混合，超出了传统稀疏注意力的表示能力。
Method: 提出Monarch-RT，一种基于Monarch矩阵的结构化注意力参数化方法。通过适当对齐的块结构和扩展的平铺Monarch参数化，在保持计算效率的同时实现高表达能力。使用定制Triton内核和微调来克服参数化开销。
Result: Monarch-RT在双向模型中优于现有稀疏基线，在SOTA模型Self-Forcing上达到95%注意力稀疏度且无质量损失。优化实现比FlashAttention-2/3/4快1.4-11.8倍，首次在单张RTX 5090上实现16FPS的实时视频生成。
Conclusion: Monarch-RT是首个用于实时视频生成的高效稀疏注意力参数化方法，成功解决了实时场景下注意力计算瓶颈，为实时视频生成提供了可行的技术方案。

[73] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Leon Liangyu Chen,Haoyu Ma,Zhipeng Fan,Ziqi Huang,Animesh Sinha,Xiaoliang Dai,Jialiang Wang,Zecheng He,Jianwei Yang,Chunyuan Li,Junzhe Sun,Chu Wang,Serena Yeung-Levy,Felix Juefei-Xu

Main category: cs.CV

TL;DR: UniT框架通过多模态思维链测试时扩展，使统一模型能够进行迭代推理、验证和精炼，提升复杂空间组合和多物体交互任务的性能。

Motivation: 现有统一多模态模型通常单次处理任务，缺乏迭代精炼能力。复杂多模态任务（如空间组合、多物体交互、动态指令）需要分解指令、验证中间结果并进行迭代修正。测试时扩展在语言模型中已证明有效，但扩展到多模态统一模型仍是挑战。
Method: 提出UniT框架，结合智能数据合成、统一模型训练和灵活测试时推理。通过多模态思维链测试时扩展，使统一模型能够进行多轮推理、验证和精炼，支持验证、子目标分解和内容记忆等认知行为。
Result: 1) 在短推理轨迹上训练的统一模型能泛化到测试时的长推理链；2) 顺序思维链推理比并行采样更具可扩展性和计算效率；3) 在生成和编辑轨迹上训练能改善分布外视觉推理性能。
Conclusion: 多模态测试时扩展是推进统一模型生成和理解能力的有效范式，UniT框架为复杂多模态任务提供了迭代推理和精炼的解决方案。

[74] Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

Huai-Hsun Cheng,Siang-Ling Zhang,Yu-Lun Liu

Main category: cs.CV

TL;DR: 提出渐进式语义错觉任务，通过Stroke of Surprise框架优化矢量笔画，使同一草图在不同绘制阶段呈现截然不同的语义解释

Motivation: 传统视觉错觉依赖空间操作，本文旨在将视觉字谜从空间维度扩展到时间维度，通过单幅草图的渐进绘制实现语义转换
Method: 提出序列感知联合优化框架，采用双分支SDS机制，动态调整前缀笔画以发现"共同结构子空间"，并引入覆盖损失确保空间互补性
Result: 在可识别性和错觉强度方面显著优于现有基线方法，成功实现从空间到时间维度的视觉字谜扩展
Conclusion: 提出的渐进式语义错觉任务和Stroke of Surprise框架有效解决了双重约束问题，为时间维度上的视觉错觉开辟了新方向

cs.RO

Yin Tang,Jiawei Ma,Jinrui Zhang,Alex Jinpeng Wang,Deyu Zhang

Main category: cs.RO

TL;DR: 提出NeuroKalman框架，通过贝叶斯状态估计解决无人机视觉语言导航中的状态漂移问题，将导航解耦为先验预测和似然校正两个互补过程。

Motivation: 现有视觉语言导航模型采用航位推算方式，通过迭代更新位置预测下一个航点，这种方式会导致位置误差随时间累积，产生状态漂移问题，使内部信念与客观坐标不对齐，最终影响完整轨迹预测。
Method: 提出NeuroKalman框架，将顺序预测建模为递归贝叶斯状态估计问题。框架将导航解耦为两个互补过程：基于运动动力学的先验预测和基于历史观测的似然校正。通过数学上将核密度估计的测量似然与基于注意力的检索机制关联，使系统能够在不更新梯度的情况下使用检索到的历史锚点修正潜在表示。
Result: 在TravelUAV基准测试上的综合实验表明，仅使用10%的训练数据进行微调，该方法明显优于强基线，并能有效调节漂移累积。
Conclusion: 受经典控制理论启发，将序列预测建模为递归贝叶斯状态估计问题，通过NeuroKalman框架有效解决了无人机视觉语言导航中的状态漂移问题，显著提升了导航性能。

Yejin Kim,Wilbert Pumacay,Omar Rayyan,Max Argus,Winson Han,Eli VanderBilt,Jordi Salvador,Abhay Deshpande,Rose Hendrix,Snehal Jauhri,Shuo Liu,Nur Muhammad Mahi Shafiullah,Maya Guru,Ainaz Eftekhar,Karen Farley,Donovan Clay,Jiafei Duan,Arjun Guru,Piper Wolters,Alvaro Herrasti,Ying-Chun Lee,Georgia Chalvatzaki,Yuchen Cui,Ali Farhadi,Dieter Fox,Ranjay Krishna

Main category: cs.RO

TL;DR: MolmoSpaces是一个开放生态系统，包含23万多个多样化室内环境和13万个带丰富标注的物体资产，支持大规模机器人策略基准测试，具有强大的模拟到现实相关性。

Motivation: 现实环境中场景布局、物体几何和任务规格的变化巨大，现有机器人基准测试无法充分覆盖这些长尾情况，需要大规模多样化的基础设施来评估泛化能力。
Method: 创建包含23万+多样化室内环境（从手工制作到程序生成的多房间房屋）和13万+带丰富标注物体资产（包括4.8万个可操作物体和4200万个稳定抓取）的开放生态系统。环境与模拟器无关，支持MuJoCo、Isaac、ManiSkill等。设计了包含8个任务的MolmoSpaces-Bench基准测试套件。
Result: MolmoSpaces-Bench显示出强大的模拟到现实相关性（R=0.96，ρ=0.98），确认新的零样本策略在基准测试中优于早期版本，并识别出对提示措辞、初始关节位置和相机遮挡的关键敏感性。
Conclusion: MolmoSpaces通过开源资产和工具，为机器人学习研究提供了可扩展的数据生成、策略训练和基准创建的基础，支持大规模机器人策略评估和开发。

[77] HyperDet: 3D Object Detection with Hyper 4D Radar Point Clouds

Yichun Xiao,Runwei Guan,Fangqiang Ding

Main category: cs.RO

TL;DR: HyperDet是一个检测器无关的雷达3D检测框架，通过构建任务感知的超4D雷达点云，让标准LiDAR检测器也能处理雷达数据，部分缩小了雷达与LiDAR的性能差距。

Motivation: 4D毫米波雷达具有天气鲁棒性、速度感知和成本效益，但雷达点云稀疏、不规则且受多径噪声影响，导致3D检测性能落后于LiDAR系统。
Method: 1) 多帧多雷达聚合提高覆盖和密度；2) 几何感知跨传感器一致性验证；3) 前景聚焦扩散模块与雷达-LiDAR混合监督；4) 蒸馏为一致性模型实现单步推理。
Result: 在MAN TruckScenes数据集上，HyperDet显著优于原始雷达输入，使用VoxelNeXt和CenterPoint检测器时部分缩小了雷达与LiDAR的性能差距。
Conclusion: 输入级细化使雷达能够更好地利用LiDAR导向的检测器而无需架构修改，展示了雷达3D检测的潜力。

Seungyeon Yoo,Youngseok Jang,Dabin Kim,Youngsoo Han,Seungwoo Jung,H. Jin Kim

Main category: cs.RO

TL;DR: ReaDy-Go提出了一种新的真实到模拟仿真管道，通过结合静态3D高斯泼溅场景与动态人体障碍物，生成逼真的动态环境导航数据集，训练出对模拟到真实差距和移动障碍物都具有鲁棒性的导航策略。

Motivation: 现有视觉导航模型在真实动态环境中表现不佳，主要受限于模拟到真实的差距，以及难以针对特定部署环境（如家庭、餐厅、工厂）训练策略。虽然基于3D高斯泼溅的真实到模拟导航可以缓解这一问题，但先前工作只考虑静态场景或不切实际的动态障碍物，而动态环境中的安全导航至关重要。
Method: ReaDy-Go包含三个组件：1）动态高斯泼溅模拟器，将场景高斯泼溅与人体动画模块结合，插入可动画化的人体高斯泼溅化身，并从2D轨迹合成合理的人体运动；2）动态环境导航数据集生成，利用模拟器、为动态高斯泼溅表示设计的机器人专家规划器和人体规划器；3）使用生成数据集进行策略学习。
Result: ReaDy-Go在模拟和真实世界实验中均优于基线方法，在目标环境中表现出改进的导航性能，即使在模拟到真实迁移后和存在移动障碍物的情况下也是如此。此外，在未见环境中的零样本模拟到真实部署显示了其泛化潜力。
Conclusion: ReaDy-Go通过生成逼真的动态场景导航数据集，成功训练出对模拟到真实差距和移动障碍物都具有鲁棒性的导航策略，为真实世界动态环境中的安全导航提供了有效解决方案。

Zedong Chu,Shichao Xie,Xiaolong Wu,Yanfen Shen,Minghua Luo,Zhengbo Wang,Fei Liu,Xiaoxu Leng,Junjun Hu,Mingyang Yin,Jia Lu,Yingnan Guo,Kai Yang,Jiawei Han,Xu Chen,Yanqing Zhu,Yuxiang Zhao,Xin Liu,Yirong Yang,Ye He,Jiahang Wang,Yang Cai,Tianlin Zhang,Li Gao,Liu Liu,Mingchao Sun,Fan Jiang,Chiyu Wang,Zhicheng Liu,Hongyu Pan,Honglin Han,Zhining Gu,Kuan Yang,Jianfang Zhang,Di Jing,Zihao Guan,Wei Guo,Guoqing Liu,Di Yang,Xiangpo Yang,Menglin Yang,Hongguang Xing,Weiguo Li,Mu Xu

Main category: cs.RO

TL;DR: ABot-N0是一个统一的视觉-语言-动作基础模型，实现了5个核心导航任务的"大一统"，通过分层"大脑-动作"架构和16.9M专家轨迹数据，在7个基准测试中达到新SOTA。

Motivation: 解决具身导航领域长期存在的任务特定架构碎片化问题，实现跨多种导航任务的统一模型，提升导航系统的通用性和性能。
Method: 采用分层"大脑-动作"架构：LLM基础的认知大脑进行语义推理，流匹配基础的动作专家生成精确连续轨迹。开发ABot-N0数据引擎，收集16.9M专家轨迹和5.0M推理样本。构建智能导航系统，集成规划器和分层拓扑记忆。
Result: 在7个基准测试中达到新的SOTA性能，显著优于专用模型。智能导航系统能够在动态真实世界环境中执行鲁棒的长时程任务。
Conclusion: ABot-N0成功实现了具身导航的"大一统"，通过统一的基础模型架构和大规模数据训练，为通用导航系统的发展提供了重要进展。

[80] ViTaS: Visual Tactile Soft Fusion Contrastive Learning for Visuomotor Learning

Yufeng Tian,Shuiqi Cheng,Tianming Wei,Tianxing Zhou,Yuanhang Zhang,Zixian Liu,Qianwei Han,Zhecheng Yuan,Huazhe Xu

Main category: cs.RO

TL;DR: ViTaS是一个结合视觉和触觉信息的机器人操作框架，通过软融合对比学习和CVAE模块利用两种模态的对齐性和互补性，在遮挡场景中表现优异。

Motivation: 现有方法主要关注视觉和触觉特征的对齐，集成机制通常是直接拼接，忽略了两种模态的互补性，对齐利用不足，导致在遮挡场景中表现不佳，限制了实际部署潜力。
Method: 提出ViTaS框架，引入软融合对比学习（传统对比学习方法的进阶版）和CVAE模块，充分利用视觉-触觉表示的对齐性和互补性来指导智能体行为。
Result: 在12个模拟环境和3个真实世界环境中验证了方法的有效性，ViTaS显著优于现有基线方法。
Conclusion: ViTaS通过有效整合视觉和触觉信息，解决了遮挡场景下的机器人操作问题，展示了在实际部署中的潜力。

cs.AI

[81] Beyond Pixels: Vector-to-Graph Transformation for Reliable Schematic Auditing

Chengwei Ma,Zhen Tian,Zhou Zhou,Zhixian Xu,Xiaowei Zhu,Xia Hua,Si Shi,F. Richard Yu

Main category: cs.AI

TL;DR: 论文提出V2G管道，将CAD图转换为属性图以解决MLLMs的结构盲问题，在电气合规检查中显著提升准确性

Motivation: 多模态大语言模型在视觉理解方面取得显著进展，但存在关键限制：结构盲。即使最先进的模型也无法捕捉工程示意图中的拓扑和符号逻辑，因为其像素驱动范式丢弃了推理所需的显式向量定义关系。
Method: 提出Vector-to-Graph（V2G）管道，将CAD图转换为属性图，其中节点表示组件，边编码连接性，使结构依赖关系显式化且可机器审计。
Result: 在电气合规检查的诊断基准测试中，V2G在所有错误类别中都取得了大幅准确性提升，而领先的MLLMs仍接近随机水平。
Conclusion: 结果突显了基于像素方法的系统性不足，并证明结构感知表示为多模态AI在工程领域的实际部署提供了可靠路径。

cs.GR

[82] OMEGA-Avatar: One-shot Modeling of 360° Gaussian Avatars

Zehao Xia,Yiqun Wang,Zhengda Lu,Kai Liu,Jun Xiao,Peter Wonka

Main category: cs.GR

TL;DR: OMEGA-Avatar：首个前馈式单图像生成360°完整可动画3D高斯头像框架，通过语义感知网格变形和多视图特征投射实现全头建模。

Motivation: 当前单图像3D头像生成方法无法同时满足三个理想属性：前馈式、360°完整头部建模、可动画化。现有工作只能同时解决其中两点，需要一种能同时满足所有三个要求的框架。
Method: 1) 语义感知网格变形模块：集成多视角法线优化FLAME头部网格（含头发），保持拓扑结构；2) 多视图特征投射模块：通过可微分双线性投射、分层UV映射和可见性感知融合，从多视图特征构建共享规范UV表示。
Result: OMEGA-Avatar在360°全头完整性方面显著优于现有基线方法，在不同视角下稳健保持身份特征，实现了最先进的性能。
Conclusion: 该框架首次实现了前馈式单图像生成360°完整可动画3D高斯头像，解决了全头建模中的头发建模挑战和特征一致性保持问题，为高质量头像生成提供了有效解决方案。

[83] Iskra: A System for Inverse Geometry Processing

Ana Dodik,Ahmed H. Mahmoud,Justin Solomon

Main category: cs.GR

TL;DR: 提出一个用于几何处理问题求解的微分系统，能够对广泛的几何算法进行微分，兼容机器学习框架，为逆几何处理应用开辟新途径。

Motivation: 几何处理算法通常难以直接微分，现有方法需要重新实现算法或使用通用优化工具，导致实现复杂、运行慢、内存消耗大。需要一种能够直接微分现有几何处理算法的方法。
Method: 结合网格处理的scatter-gather方法与基于张量的工作流，利用伴随方法应用于用户指定的命令式代码，在后台生成高效的反向传播过程。支持局部-全局和ADMM等几何处理常用求解器。
Result: 系统能够微分平均曲率流、谱共形参数化、测地距离计算、尽可能刚性变形等几何处理算法，实现低实现成本、快速运行时间和较低内存需求。
Conclusion: 该系统允许从业者直接微分现有几何处理算法而无需重新实现，相比非专门针对几何处理的微分优化工具，具有更低的实现成本、更快的运行时间和更少的内存需求。

eess.IV

[84] U-DAVI: Uncertainty-Aware Diffusion-Prior-Based Amortized Variational Inference for Image Reconstruction

Ayush Varshney,Katherine L. Bouman,Berthy T. Feng

Main category: eess.IV

TL;DR: 提出一种基于摊销变分推理的改进方法，通过空间自适应扰动测量值来增强细节重建能力，在去模糊和超分辨率任务上取得优异性能

Motivation: 现有的扩散模型先验方法依赖计算密集的迭代采样或逐实例优化，而摊销变分推理框架虽然提高了效率，但在重建精细细节和复杂纹理方面仍有不足
Method: 扩展摊销框架，在训练过程中根据不确定性估计对测量值注入空间自适应扰动，重点学习最不确定区域，从而增强细节重建能力
Result: 在去模糊和超分辨率任务上，该方法取得了优于或与之前扩散方法相当的性能，能够生成更真实的重建结果，且无需迭代细化的计算成本
Conclusion: 通过空间自适应扰动测量值的摊销变分推理方法，能够在保持计算效率的同时显著改善图像重建的细节质量，为病态逆问题提供了有效的解决方案

[85] Learning Perceptual Representations for Gaming NR-VQA with Multi-Task FR Signals

Yu-Chih Chen,Michael Wang,Chieh-Dun Wen,Kai-Siang Ma,Avinab Saha,Li-Heng Chen,Alan Bovik

Main category: eess.IV

TL;DR: MTL-VQA：一种用于游戏视频无参考质量评估的多任务学习框架，利用全参考指标作为监督信号进行预训练，无需人工标注

Motivation: 游戏视频的无参考质量评估面临挑战：人工标注数据集有限，且游戏视频具有快速运动、风格化图形和压缩伪影等独特特征
Method: 提出多任务学习框架MTL-VQA，使用全参考指标作为监督信号学习感知上有意义的特征，通过自适应任务权重联合优化多个全参考目标，学习可有效迁移到无参考质量评估的共享表示
Result: 在游戏视频数据集上的实验表明，MTL-VQA在MOS监督和标签高效/自监督设置下，性能均与最先进的无参考质量评估方法相当
Conclusion: 多任务学习框架通过利用全参考指标作为监督信号，能够有效学习感知特征，为游戏视频的无参考质量评估提供了一种有效的解决方案

[86] UPDA: Unsupervised Progressive Domain Adaptation for No-Reference Point Cloud Quality Assessment

Bingxu Xie,Fang Zhou,Jincan Wu,Yonghui Liu,Weiqing Li,Zhiyong Su

Main category: eess.IV

TL;DR: 本文提出了首个无监督渐进式域适应（UPDA）框架，用于解决无参考点云质量评估（NR-PCQA）中的跨域性能下降问题，通过粗粒度到细粒度的两阶段对齐来应对域偏移。

Motivation: 现有的NR-PCQA方法在训练域和测试域存在分布差异时性能显著下降，但跨域迁移的NR-PCQA模型研究有限，需要解决这一挑战。
Method: 提出两阶段粗粒度到细粒度对齐框架：1）粗粒度阶段使用差异感知的粗粒度对齐方法，通过质量差异感知混合损失捕捉跨域样本的相对质量关系；2）细粒度阶段使用感知融合细粒度对齐方法，通过对称特征融合识别域不变特征，条件判别器选择性增强质量相关特征的迁移。
Result: 大量实验表明，UPDA有效提升了NR-PCQA方法在跨域场景下的性能，验证了其实际应用价值。
Conclusion: 该研究提出了首个无监督渐进式域适应框架，成功解决了NR-PCQA中的跨域性能下降问题，为实际应用提供了有效解决方案。

cs.SE

[87] How Smart Is Your GUI Agent? A Framework for the Future of Software Interaction

Sidong Feng,Chunyang Chen

Main category: cs.SE

TL;DR: 提出GUI Agent Autonomy Levels (GAL)框架，将GUI代理的自主性分为六个等级，以明确自主程度、评估进展并促进可信软件交互

Motivation: 当前GUI代理（用于网页、桌面和移动应用交互）的"自主性"概念模糊不清，不同描述中自主程度差异巨大，这导致能力、责任和风险评估不明确，需要概念上的清晰化
Method: 提出GUI Agent Autonomy Levels (GAL)框架，这是一个六层级的自主性分类体系，通过明确界定不同自主等级来使代理的自主性变得清晰可衡量
Result: 建立了系统化的自主性评估框架，使GUI代理的能力、责任边界和风险能够被明确界定，为可信软件交互提供了基准
Conclusion: GAL框架为GUI代理的自主性提供了概念清晰度，有助于准确描述代理能力、明确责任分配、评估风险，并推动可信软件交互的发展

cs.IT

Nathan Buskulic,Luca Calatroni

Main category: cs.IT

TL;DR: 在盲反卷积问题中，LMMSE估计器比MAP方法更稳定可靠，且可作为MAP的良好初始化

Motivation: MAP方法在已知前向算子的逆问题中有效，但在盲设置中由于非凸性和解的非可识别性变得不稳定，需要寻找更可靠的替代方案
Method: 在完全控制条件下研究二维盲反卷积问题，比较定制MAP算法与简单LMMSE估计器，后者与最优Tikhonov估计器形式相关
Result: 即使在高度控制设置下，MAP方法仍不稳定且需要大量参数调优，而LMMSE估计器提供稳健可靠的基线，且可作为MAP的有效初始化
Conclusion: LMMSE估计器在盲反卷积中优于MAP方法，既能作为独立解决方案，又能改善MAP的性能和参数敏感性，为未来理论和实践发展提供基础

cs.LG

[89] GAC-KAN: An Ultra-Lightweight GNSS Interference Classifier for GenAI-Powered Consumer Edge Devices

Zhihan Zeng,Kaihe Wang,Zhongpei Zhang,Yue Xiu

Main category: cs.LG

TL;DR: 提出GAC-KAN框架，通过物理模拟生成干扰数据集，结合多尺度Ghost-ACB坐标主干和KAN网络，在极低参数量下实现高精度GNSS干扰检测，解决GenAI时代边缘设备的安全与效率矛盾。

Motivation: GenAI在消费电子中的集成带来了巨大计算负担，导致边缘设备资源紧张，难以执行GNSS信号保护等基本安全任务。同时，真实干扰数据稀缺阻碍了鲁棒分类器的训练。
Method: 1) 采用物理引导模拟方法合成大规模高保真干扰数据集；2) 设计多尺度Ghost-ACB坐标(MS-GAC)主干，结合非对称卷积块和Ghost模块提取频谱-时间特征；3) 用Kolmogorov-Arnold网络(KAN)替换传统MLP决策头，使用可学习样条激活函数。
Result: GAC-KAN达到98.0%的整体准确率，优于现有基线。模型仅含0.13百万参数，比Vision Transformer基线少约660倍，具有极轻量特性。
Conclusion: GAC-KAN是理想的"常开"安全伴侣，能在不争夺主要GenAI任务计算资源的情况下确保GNSS可靠性，解决了GenAI时代边缘设备的数据稀缺和效率需求双重挑战。

[90] UltraLIF: Fully Differentiable Spiking Neural Networks via Ultradiscretization and Max-Plus Algebra

Jose Marie Antonio Miñoza

Main category: cs.LG

TL;DR: UltraLIF：基于热带几何中极离散化理论的SNN训练框架，用数学形式化的连续松弛替代启发式代理梯度，通过可学习温度参数实现硬阈值逼近，在单时间步设置中表现优异。

Motivation: 传统SNN依赖启发式代理梯度解决脉冲生成不可微问题，存在前向-反向不匹配问题，需要更数学形式化的训练框架。
Method: 采用热带几何中的极离散化理论，用max-plus半环建模神经阈值动态，log-sum-exp函数作为可微软最大值，通过温度参数ε→0收敛到硬阈值。从LIF ODE推导出UltraLIF（时间动态），从扩散方程推导出UltraDLIF（空间动态）。
Result: 在6个基准测试（静态图像、神经形态视觉、音频）上优于代理梯度基线，单时间步(T=1)设置在神经形态和时间数据集上提升最显著。理论分析证明点态收敛到经典LIF动态，具有定量误差界和有界非消失梯度。
Conclusion: UltraLIF为SNN训练提供了数学形式化的替代方案，消除了前向-反向不匹配，在单时间步设置中特别有效，通过稀疏惩罚可实现显著能耗降低。

[91] Hierarchical Concept Embedding & Pursuit for Interpretable Image Classification

Nghia Nguyen,Tianjiao Ding,René Vidal

Main category: cs.LG

TL;DR: HCEP：一种分层概念嵌入与追踪框架，通过分层稀疏编码从图像中恢复分层概念，提升可解释图像分类的可靠性和一致性。

Motivation: 现有稀疏概念恢复方法忽略了概念的分层结构，可能导致预测正确但解释与概念层次不一致的问题。需要一种能够保持概念层次结构的可解释图像分类方法。
Method: 提出分层概念嵌入与追踪（HCEP）框架：1）在潜在空间中构建分层概念嵌入；2）假设图像的正确概念构成层次结构中的根路径；3）使用分层稀疏编码恢复图像中的概念；4）推导嵌入空间中识别概念的条件。
Result: 在真实数据集上的实验表明：1）HCEP在概念精确率和召回率上优于基线方法；2）保持竞争力的分类准确率；3）在样本有限时，HCEP在分类准确率和概念恢复方面表现更优；4）分层稀疏编码比普通稀疏编码更可靠地恢复分层概念。
Conclusion: 将分层结构融入稀疏编码可以产生更可靠和可解释的图像分类模型。HCEP通过保持概念层次结构，提供了更一致和可靠的可解释性。

[92] Where Bits Matter in World Model Planning: A Paired Mixed-Bit Study for Efficient Spatial Reasoning

Suraj Ranganath,Anish Patnaik,Vaishak Menon

Main category: cs.LG

TL;DR: 研究低比特规划中比特分配对性能的影响，发现4比特是敏感过渡区，编码器精度保持对规划性能至关重要。

Motivation: 高效空间推理需要能在有限精度预算下保持可靠的世界模型。研究低比特规划行为主要受总比特宽度影响还是受比特在不同模块间分配方式的影响。
Method: 使用DINO-WM在Wall规划任务上进行配对目标混合比特评估，测试均匀、混合、非对称和分层量化变体，在两种规划器预算下进行实验。
Result: 观察到一致的三阶段模式：8比特和6比特接近FP16性能，3比特崩溃，4比特对分配敏感。在过渡区，保持编码器精度相对于均匀量化能改善规划性能，近尺寸非对称变体显示相同趋势。在更严格的22单元复制实验中，混合与均匀INT4的差异受预算条件影响。
Conclusion: 这些发现表明需要模块感知、预算感知的量化策略作为高效空间推理的广泛研究方向。

[93] Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training

Miaosen Zhang,Yishan Liu,Shuxia Lin,Xu Yang,Qi Dai,Chong Luo,Weihao Jiang,Peng Hou,Anxiang Zeng,Xin Geng,Baining Guo

Main category: cs.LG

TL;DR: 提出On-Policy SFT框架，通过分布判别理论(DDT)和两种技术(IDFT和Hinted Decoding)，使监督微调达到与强化学习相当的泛化性能，同时保持SFT的计算效率。

Motivation: 监督微调(SFT)计算效率高但泛化能力通常不如强化学习(RL)，这种差距主要源于RL使用在线策略数据。作者希望弥合这一差距，使SFT能达到RL的泛化水平。
Method: 提出分布判别理论(DDT)来量化和解释数据与模型诱导分布之间的对齐。基于DDT开发两种互补技术：1) 分布内微调(IDFT)-损失层面的方法，增强SFT的泛化能力；2) 提示解码(Hinted Decoding)-数据层面的技术，重新对齐训练语料到模型分布。
Result: 大量实验表明，该框架在泛化性能上达到与DPO、SimPO等主流离线RL算法相当的水平，同时保持了SFT流程的计算效率。
Conclusion: 该框架为RL不可行的领域提供了实用的替代方案，实现了在线策略SFT，弥合了SFT与RL之间的泛化差距。

cs.NE

[94] Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Anika Tabassum Meem,Muntasir Hossain Nadid,Md Zesun Ahmed Mia

Main category: cs.NE

TL;DR: 提出一种用于持续SNN学习的能量感知脉冲预算框架，通过经验回放、可学习神经元参数和自适应脉冲调度器，在训练中强制执行数据集特定的能量约束，在帧式和事件式数据集上均实现性能提升和能耗降低。

Motivation: 脉冲神经网络（SNN）为事件式和帧式相机提供超低功耗感知，但在持续演化环境中部署时，灾难性遗忘是关键障碍。现有的持续学习方法主要为人工神经网络设计，很少同时优化准确性和能量效率，且在事件式数据集上的探索有限。
Method: 提出能量感知脉冲预算框架，整合经验回放、可学习的泄漏积分发放神经元参数和自适应脉冲调度器，在训练期间强制执行数据集特定的能量约束。该方法表现出模态依赖行为：在帧式数据集上，脉冲预算作为稀疏性诱导正则化器；在事件式数据集上，通过受控预算松弛实现性能提升。
Result: 在帧式数据集（MNIST、CIFAR-10）上，脉冲预算作为稀疏性诱导正则化器，在提高准确性的同时将脉冲率降低高达47%；在事件式数据集（DVS-Gesture、N-MNIST、CIFAR-10-DVS）上，受控预算松弛使准确性提升高达17.45个百分点，且计算开销最小。在涵盖两种模态的五个基准测试中，该方法展示了持续的性能改进，同时最小化动态功耗。
Conclusion: 该能量感知脉冲预算框架通过联合优化准确性和能量效率，推进了神经形态视觉系统中持续学习的实际可行性，为在持续演化环境中部署SNN系统提供了有效的解决方案。

cs.CL

[95] Multimodal Fact-Level Attribution for Verifiable Reasoning

David Wan,Han Wang,Ziyang Wang,Elias Stengel-Eskin,Hyunji Lee,Mohit Bansal

Main category: cs.CL

TL;DR: MuRGAt是一个评估多模态大语言模型事实级归因能力的基准，要求模型在跨视频、音频等多模态输入中进行推理，并为每个事实提供精确的模态和时间段引用。

Motivation: 现有多模态归因基准主要关注简化的观察型场景或有限模态，无法评估复杂多模态推理中的归因能力，而实际应用需要模型输出基于异构输入源且有可验证的事实依据。
Method: 提出MuRGAt基准，要求模型在跨视频、音频等多模态输入中生成带有显式推理和精确引用的答案，每个引用需指定模态和时间段；同时开发了与人类判断强相关的自动评估框架。
Result: 实验发现即使强大的MLLM也经常产生幻觉引用，尽管推理正确；同时观察到关键权衡：增加推理深度或强制结构化归因往往会降低准确性，揭示了内部推理与可验证归因之间的显著差距。
Conclusion: MuRGAt填补了复杂多模态推理中事实级归因评估的空白，揭示了当前MLLM在可验证归因方面的局限性，为改进多模态模型的可靠性和可解释性提供了重要基准。

[96] DeepSight: An All-in-One LM Safety Toolkit

Bo Zhang,Jiaxuan Guo,Lijun Li,Dongrui Liu,Sujin Chen,Guanxu Chen,Zhijie Zheng,Qihao Lin,Lewen Yan,Chen Qian,Yijin Zhou,Yuyao Wu,Shaoxiong Guo,Tianyi Du,Jingyi Yang,Xuhao Hu,Ziqi Miao,Xiaoya Lu,Jing Shao,Xia Hu

Main category: cs.CL

TL;DR: DeepSight是一个开源项目，通过统一的评估工具DeepSafe和诊断工具DeepScan，将大模型安全评估从黑盒转向白盒洞察，实现评估与诊断的集成范式。

Motivation: 当前大语言模型和多模态大语言模型的安全工作流程中，评估、诊断和对齐通常由独立工具处理。安全评估只能定位外部行为风险而无法找出内部根本原因，安全诊断往往脱离具体风险场景停留在可解释层面，安全对齐缺乏内部机制变化的专门解释，可能降低通用能力。
Method: 提出DeepSight开源项目，包含评估工具包DeepSafe和诊断工具包DeepScan。通过统一任务和数据协议，在两个阶段之间建立连接，将安全评估从黑盒转向白盒洞察。这是首个支持前沿AI风险评估以及联合安全评估与诊断的开源工具包。
Result: DeepSight是一个低成本、可复现、高效且高度可扩展的大规模模型安全评估项目，实现了评估-诊断集成的新范式。
Conclusion: DeepSight通过集成评估与诊断，系统性地解决了当前大模型安全工作中评估、诊断、对齐分离的问题，为模型安全提供了从黑盒到白盒的完整解决方案。

eess.SP

[97] Hybrid operator learning of wave scattering maps in high-contrast media

Advait Balaji,Trevor Teolis,S. David Mis,Jose Antonio Lara Benitez,Chao Wang,Maarten V. de Hoop

Main category: eess.SP

TL;DR: 提出混合架构分解散射算子：FNO学习平滑背景传播，视觉transformer处理高对比度散射校正，显著提升高频Helmholtz问题的相位和振幅精度

Motivation: 异构介质中的波传播和散射建模在如地震成像等应用中潜力巨大，但高对比度场景（如含盐体地下模型）的强散射和相位敏感性挑战现有神经算子
Method: 混合架构将散射算子分解为平滑背景传播和高对比度散射校正两部分：FNO学习平滑分量并生成全局耦合特征标记，这些标记传递给视觉transformer，通过注意力机制建模由强空间相互作用主导的高对比度散射校正
Result: 在高频Helmholtz强对比度问题上，混合模型相比单独FNO或transformer，相位和振幅精度显著提升，具有有利的精度-参数缩放特性
Conclusion: 通过分解散射算子为平滑背景和高对比度校正，混合FNO-transformer架构能有效处理强散射问题，为复杂波传播建模提供有前景的解决方案

cs.CV ​

[1] DD-MDN: Human Trajectory Forecasting with Diffusion-Based Dual Mixture Density Networks and Uncertainty Self-Calibration ​

[2] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning ​

[3] Toward Reliable Tea Leaf Disease Diagnosis Using Deep Learning Model: Enhancing Robustness With Explainable AI and Adversarial Training ​

[4] Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration ​

[5] ReTracing: An Archaeological Approach Through Body, Machine, and Generative Systems ​

[6] Stress Tests REVEAL Fragile Temporal and Visual Grounding in Video-Language Models ​

[7] Advancing Digital Twin Generation Through a Novel Simulation Framework and Quantitative Benchmarking ​

[8] Selective Prior Synchronization via SYNC Loss ​

[9] MDE-VIO: Enhancing Visual-Inertial Odometry Using Learned Depth Priors ​

[10] Exploring Real-Time Super-Resolution: Benchmarking and Fine-Tuning for Streaming Content ​

[11] ArtContext: Contextualizing Artworks with Open-Access Art History Articles and Wikidata Knowledge through a LoRA-Tuned CLIP Model ​

[12] Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation ​

[13] Fighting MRI Anisotropy: Learning Multiple Cardiac Shapes From a Single Implicit Neural Representation ​

[14] Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation ​

[15] Enhanced Portable Ultra Low-Field Diffusion Tensor Imaging with Bayesian Artifact Correction and Deep Learning-Based Super-Resolution ​

[16] A Dual-Branch Framework for Semantic Change Detection with Boundary and Temporal Awareness ​

[17] Arbitrary Ratio Feature Compression via Next Token Prediction ​

[18] What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation ​

[19] Vascular anatomy-aware self-supervised pre-training for X-ray angiogram analysis ​

[20] Supervise-assisted Multi-modality Fusion Diffusion Model for PET Restoration ​

[21] Perception-based Image Denoising via Generative Compression ​

[22] LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts ​

[23] Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception ​

[24] A Large Language Model for Disaster Structural Reconnaissance Summarization ​

[25] PLOT-CT: Pre-log Voronoi Decomposition Assisted Generation for Low-dose CT Reconstruction ​

[26] PLESS: Pseudo-Label Enhancement with Spreading Scribbles for Weakly Supervised Segmentation ​

[27] ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning ​

[28] Electrostatics-Inspired Surface Reconstruction (EISR): Recovering 3D Shapes as a Superposition of Poisson's PDE Solutions ​

[29] Brain Tumor Classifiers Under Attack: Robustness of ResNet Variants Against Transferable FGSM and PGD Attacks ​

[30] GR-Diffusion: 3D Gaussian Representation Meets Diffusion in Whole-Body PET Reconstruction ​

[31] SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving ​

[32] EmoSpace: Fine-Grained Emotion Prototype Learning for Immersive Affective Content Generation ​

[33] Clutt3R-Seg: Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes ​

[34] Egocentric Gaze Estimation via Neck-Mounted Camera ​

[35] U-Net with Hadamard Transform and DCT Latent Spaces for Next-day Wildfire Spread Prediction ​

[36] RI-Mamba: Rotation-Invariant Mamba for Robust Text-to-Shape Retrieval ​

[37] Semantically Conditioned Diffusion Models for Cerebral DSA Synthesis ​

[38] TG-Field: Geometry-Aware Radiative Gaussian Fields for Tomographic Reconstruction ​

[39] LLM-Driven 3D Scene Generation of Agricultural Simulation Environments ​

[40] GSO-SLAM: Bidirectionally Coupled Gaussian Splatting and Direct Visual Odometry ​

[41] STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning ​

[42] Adapting Vision-Language Models for E-commerce Understanding at Scale ​

[43] Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding ​

[44] Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation ​

[45] Code2Worlds: Empowering Coding LLMs for 4D World Generation ​

[46] Light4D: Training-Free Extreme Viewpoint 4D Video Relighting ​

[47] Efficient Segment Anything with Depth-Aware Fusion and Limited Training Data ​

[48] How to Sample High Quality 3D Fractals for Action Recognition Pre-Training? ​

[49] JEPA-VLA: Video Predictive Embedding is Needed for VLA Models ​

[50] WorldTree: Towards 4D Dynamic Worlds from Monocular Video using Tree-Chains ​

[51] Free Lunch for Stabilizing Rectified Flow Inversion ​

[52] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception ​

[53] DiffPlace: Street View Generation via Place-Controllable Diffusion Model Enhancing Place Recognition ​

[54] SynthRAR: Ring Artifacts Reduction in CT with Unrolled Network and Synthetic Data Training ​

[55] DynaHOI: Benchmarking Hand-Object Interaction for Dynamic Target ​

[56] Synthesis of Late Gadolinium Enhancement Images via Implicit Neural Representations for Cardiac Scar Segmentation ​

[57] Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion ​

[58] Calibrated Bayesian Deep Learning for Explainable Decision Support Systems Based on Medical Imaging ​

[59] Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation ​

[60] Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation ​

[61] Projected Representation Conditioning for High-fidelity Novel View Synthesis ​

[62] A DMD-Based Adaptive Modulation Method for High Dynamic Range Imaging in High-Glare Environments ​

[63] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning ​

[64] AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer ​

[65] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback ​

[66] FAIL: Flow Matching Adversarial Imitation Learning for Image Generation ​

[67] TexSpot: 3D Texture Enhancement with Spatially-uniform Point Latent Representation ​

[68] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation ​

[69] EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data ​

[70] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing ​

[71] Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching ​

[72] MonarchRT: Efficient Attention for Real-Time Video Generation ​

[73] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling ​

[74] Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching ​

cs.RO ​

[75] Mitigating Error Accumulation in Continuous Navigation via Memory-Augmented Kalman Filtering ​

[76] MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation ​

[77] HyperDet: 3D Object Detection with Hyper 4D Radar Point Clouds ​

[78] ReaDy-Go: Real-to-Sim Dynamic 3D Gaussian Splatting Simulation for Environment-Specific Visual Navigation with Moving Obstacles ​

cs.CV

[1] DD-MDN: Human Trajectory Forecasting with Diffusion-Based Dual Mixture Density Networks and Uncertainty Self-Calibration

[2] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

[3] Toward Reliable Tea Leaf Disease Diagnosis Using Deep Learning Model: Enhancing Robustness With Explainable AI and Adversarial Training

[4] Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration

[5] ReTracing: An Archaeological Approach Through Body, Machine, and Generative Systems

[6] Stress Tests REVEAL Fragile Temporal and Visual Grounding in Video-Language Models

[7] Advancing Digital Twin Generation Through a Novel Simulation Framework and Quantitative Benchmarking

[8] Selective Prior Synchronization via SYNC Loss

[9] MDE-VIO: Enhancing Visual-Inertial Odometry Using Learned Depth Priors

[10] Exploring Real-Time Super-Resolution: Benchmarking and Fine-Tuning for Streaming Content

[11] ArtContext: Contextualizing Artworks with Open-Access Art History Articles and Wikidata Knowledge through a LoRA-Tuned CLIP Model

[12] Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation

[13] Fighting MRI Anisotropy: Learning Multiple Cardiac Shapes From a Single Implicit Neural Representation

[14] Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation

[15] Enhanced Portable Ultra Low-Field Diffusion Tensor Imaging with Bayesian Artifact Correction and Deep Learning-Based Super-Resolution

[16] A Dual-Branch Framework for Semantic Change Detection with Boundary and Temporal Awareness

[17] Arbitrary Ratio Feature Compression via Next Token Prediction

[18] What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation

[19] Vascular anatomy-aware self-supervised pre-training for X-ray angiogram analysis

[20] Supervise-assisted Multi-modality Fusion Diffusion Model for PET Restoration

[21] Perception-based Image Denoising via Generative Compression

[22] LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts

[23] Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

[24] A Large Language Model for Disaster Structural Reconnaissance Summarization

[25] PLOT-CT: Pre-log Voronoi Decomposition Assisted Generation for Low-dose CT Reconstruction

[26] PLESS: Pseudo-Label Enhancement with Spreading Scribbles for Weakly Supervised Segmentation

[27] ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

[28] Electrostatics-Inspired Surface Reconstruction (EISR): Recovering 3D Shapes as a Superposition of Poisson's PDE Solutions

[29] Brain Tumor Classifiers Under Attack: Robustness of ResNet Variants Against Transferable FGSM and PGD Attacks

[30] GR-Diffusion: 3D Gaussian Representation Meets Diffusion in Whole-Body PET Reconstruction

[31] SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

[32] EmoSpace: Fine-Grained Emotion Prototype Learning for Immersive Affective Content Generation

[33] Clutt3R-Seg: Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes

[34] Egocentric Gaze Estimation via Neck-Mounted Camera

[35] U-Net with Hadamard Transform and DCT Latent Spaces for Next-day Wildfire Spread Prediction

[36] RI-Mamba: Rotation-Invariant Mamba for Robust Text-to-Shape Retrieval

[37] Semantically Conditioned Diffusion Models for Cerebral DSA Synthesis

[38] TG-Field: Geometry-Aware Radiative Gaussian Fields for Tomographic Reconstruction

[39] LLM-Driven 3D Scene Generation of Agricultural Simulation Environments

[40] GSO-SLAM: Bidirectionally Coupled Gaussian Splatting and Direct Visual Odometry

[41] STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning

[42] Adapting Vision-Language Models for E-commerce Understanding at Scale

[43] Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding

[44] Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

[45] Code2Worlds: Empowering Coding LLMs for 4D World Generation

[46] Light4D: Training-Free Extreme Viewpoint 4D Video Relighting

[47] Efficient Segment Anything with Depth-Aware Fusion and Limited Training Data

[48] How to Sample High Quality 3D Fractals for Action Recognition Pre-Training?

[49] JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

[50] WorldTree: Towards 4D Dynamic Worlds from Monocular Video using Tree-Chains

[51] Free Lunch for Stabilizing Rectified Flow Inversion

[52] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

[53] DiffPlace: Street View Generation via Place-Controllable Diffusion Model Enhancing Place Recognition

[54] SynthRAR: Ring Artifacts Reduction in CT with Unrolled Network and Synthetic Data Training

[55] DynaHOI: Benchmarking Hand-Object Interaction for Dynamic Target

[56] Synthesis of Late Gadolinium Enhancement Images via Implicit Neural Representations for Cardiac Scar Segmentation

[57] Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion

[58] Calibrated Bayesian Deep Learning for Explainable Decision Support Systems Based on Medical Imaging

[59] Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

[60] Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation

[61] Projected Representation Conditioning for High-fidelity Novel View Synthesis

[62] A DMD-Based Adaptive Modulation Method for High Dynamic Range Imaging in High-Glare Environments

[63] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

[64] AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer

[65] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

[66] FAIL: Flow Matching Adversarial Imitation Learning for Image Generation

[67] TexSpot: 3D Texture Enhancement with Spatially-uniform Point Latent Representation

[68] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

[69] EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

[70] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

[71] Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

[72] MonarchRT: Efficient Attention for Real-Time Video Generation

[73] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

[74] Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

cs.RO

[75] Mitigating Error Accumulation in Continuous Navigation via Memory-Augmented Kalman Filtering

[76] MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

[77] HyperDet: 3D Object Detection with Hyper 4D Radar Point Clouds

[78] ReaDy-Go: Real-to-Sim Dynamic 3D Gaussian Splatting Simulation for Environment-Specific Visual Navigation with Moving Obstacles