每日arXiv - 2026年2月9日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors

Ding-Jiun Huang,Yuanhao Wang,Shao-Ji Yuan,Albert Mosella-Montoro,Francisco Vicente Carrasco,Cheng Zhang,Fernando De la Torre

Main category: cs.CV

TL;DR: SuperHead：一种从低质量输入创建高质量可动画3D头部化身的新框架，通过动态感知3D反演利用预训练3D生成模型的先验知识。

Motivation: 当前从低质量图像或视频源创建高保真可动画3D头部化身面临挑战，现有超分辨率技术无法处理动态3D输入，导致重建质量差。
Method: 提出动态感知3D反演方案，利用预训练3D生成模型的先验知识，优化生成模型的潜在表示以产生超分辨率的3D高斯溅射头部模型，然后绑定到参数化头部模型（如FLAME）进行动画。
Result: SuperHead在动态面部运动下生成具有精细面部细节的化身，在视觉质量上显著优于基线方法。
Conclusion: SuperHead框架成功解决了从低质量源创建高质量可动画3D头部化身的挑战，通过创新的动态感知3D反演方法实现了3D和时间一致性。

[2] EgoAVU: Egocentric Audio-Visual Understanding

Ashish Seth,Xinhao Mei,Changsheng Zhao,Varun Nagaraja,Ernie Chang,Gregory P. Meyer,Gael Le Lan,Yunyang Xiong,Vikas Chandra,Yangyang Shi,Dinesh Manocha,Zhipeng Cai

Main category: cs.CV

TL;DR: 提出EgoAVU数据引擎，自动生成具身智能视频的音频-视觉叙述、问答数据，解决多模态大语言模型在自我中心视频中联合理解视听信息的挑战。

Motivation: 现有MLLMs虽然能接受视觉和音频输入，但由于缺乏包含连贯联合模态信息的文本标签，其在自我中心视频中能否真正联合理解两种模态仍未被充分探索。
Method: 开发EgoAVU数据引擎，通过跨模态关联建模丰富人类叙述，生成音频-视觉叙述；采用基于token的视频过滤和模块化、基于图的策展确保数据多样性和质量；构建EgoAVU-Instruct训练数据集和EgoAVU-Bench评估基准。
Result: EgoAVU-Bench揭示现有MLLMs严重偏向视觉信号，常忽略音频线索或无法对应音频与视觉源；在EgoAVU-Instruct上微调MLLMs能有效解决此问题，在EgoAVU-Bench上实现高达113%的性能提升，并在EgoTempo和EgoIllusion等其他基准上获得最高28%的相对性能增益。
Conclusion: EgoAVU数据引擎能自动生成高质量的音频-视觉叙述数据，显著提升MLLMs在自我中心视频中的跨模态理解能力，为具身智能的多模态学习提供了有效解决方案。

[3] MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes

Luoxi Zhang,Chun Xie,Itaru Kitahara

Main category: cs.CV

TL;DR: MGP-KAD是一个用于单视图3D重建的多模态特征融合框架，结合RGB和几何先验，通过KAN混合解码器提升复杂场景下的重建精度。

Motivation: 解决复杂真实场景中单视图3D重建的挑战，包括噪声、物体多样性和数据集有限等问题，需要更准确的重建方法。
Method: 提出MGP-KAD框架：1) 集成RGB和几何先验特征；2) 通过对真实物体数据采样聚类生成类级几何特征，并在训练中动态调整；3) 使用基于Kolmogorov-Arnold Networks的混合解码器处理复杂多模态输入。
Result: 在Pix3D数据集上的实验表明，MGP-KAD达到SOTA性能，显著提升了几何完整性、平滑度和细节保留能力。
Conclusion: 该工作为复杂场景中的单视图3D重建提供了鲁棒有效的解决方案，推动了该领域的发展。

[4] Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving

Xuyang Chen,Conglang Zhang,Chuanheng Fu,Zihao Yang,Kaixuan Zhou,Yizhi Zhang,Jianan He,Yanfeng Zhang,Mingwei Sun,Zengmao Wang,Zhen Dong,Xiaoxiao Long,Liqiu Meng

Main category: cs.CV

TL;DR: DwD提出使用DINOv3视觉基础模型特征作为仿真与真实驾驶视频生成的统一桥梁，通过特征处理、空间对齐和时序聚合解决现有方法的"一致性-真实感困境"。

Motivation: 现有Sim2Real方法面临"一致性-真实感困境"：低层特征能确保控制精度但会保留合成伪影，高层先验能实现照片级真实感但缺乏结构细节。需要一种能同时保证控制一致性和真实感的中间表示。
Method: 1) 利用DINOv3特征作为统一桥梁，通过主成分投影去除高频纹理伪影，引入随机通道尾部丢弃缓解结构损失；2) 可学习空间对齐模块适配高分辨率特征到扩散模型；3) 因果时序聚合器使用因果卷积保留历史运动上下文。
Result: DwD框架在控制精度和真实感方面优于现有方法，能生成高质量、时序稳定的自动驾驶视频，有效缓解运动模糊问题，在仿真到真实域转换中表现出色。
Conclusion: DINOv3特征作为统一桥梁能有效解决Sim2Real视频生成的一致性-真实感困境，通过特征处理、空间对齐和时序聚合的协同设计，实现了控制精度与照片级真实感的平衡。

[5] MetaSSP: Enhancing Semi-supervised Implicit 3D Reconstruction through Meta-adaptive EMA and SDF-aware Pseudo-label Evaluation

Luoxi Zhang,Chun Xie,Itaru Kitahara

Main category: cs.CV

TL;DR: MetaSSP：一种用于单视图3D重建的半监督框架，通过梯度参数重要性估计和SDF感知伪标签加权机制，利用大量未标注图像提升重建质量

Motivation: 基于隐式SDF的单视图3D重建方法需要大量标注数据，限制了可扩展性。为了解决这个问题，作者提出利用丰富的未标注图像来提升重建性能
Method: 1. 梯度参数重要性估计用于正则化自适应EMA更新；2. SDF感知伪标签加权机制结合增强一致性和SDF方差；3. 从10%监督预热开始，统一管道联合优化标注和未标注数据
Result: 在Pix3D基准测试中，相比现有半监督基线方法，Chamfer距离减少约20.61%，IoU提高约24.09%，达到新的最先进水平
Conclusion: MetaSSP通过有效利用未标注数据，显著提升了单视图3D重建的性能，为半监督3D重建提供了有效的解决方案

Bangji Yang,Ruihan Guo,Jiajun Fan,Chaoran Cheng,Ge Liu

Main category: cs.CV

TL;DR: M3是一个无需训练的多智能体框架，通过迭代推理时优化解决文本到图像生成中的复杂组合提示问题，使开源模型性能超越商业旗舰系统。

Motivation: 生成模型在文本到图像合成中取得了令人印象深刻的保真度，但在涉及多个约束的复杂组合提示方面仍然存在困难。现有模型难以同时满足多个约束条件，导致合成失败。
Method: M3采用多模态、多智能体、多轮次的训练免费框架，通过编排现成的基础模型形成鲁棒的多智能体循环：规划器将提示分解为可验证的检查清单，专门的检查器、优化器和编辑器智能体逐个修正约束条件，验证器确保单调改进。
Result: 在具有挑战性的OneIG-EN基准测试中，Qwen-Image+M3超越了包括Imagen4(0.515)和Seedream 3.0(0.530)在内的商业旗舰系统，达到最先进的性能(0.532)。在GenEval组合指标上也有显著提升，在强化测试集上空间推理性能几乎翻倍。
Conclusion: 智能多智能体推理可以将开源模型提升到超越专有替代品的水平。M3作为一个即插即用模块，与任何预训练的T2I模型兼容，为无需昂贵重新训练的组合生成建立了新范式。

[7] Unsupervised Anomaly Detection of Diseases in the Female Pelvis for Real-Time MR Imaging

Anika Knupfer,Johanna P. Müller,Jordina A. Verdera,Martin Fenske,Claudius S. Mathy,Smiti Tripathy,Sebastian Arndt,Matthias May,Michael Uder,Matthias W. Beckmann,Stefanie Burghaus,Jana Hutter

Main category: cs.CV

TL;DR: 提出一个用于女性盆腔MRI的无监督异常检测基准框架，使用残差变分自编码器在健康T2加权扫描上训练，无需异常标签即可检测病理区域，实现实时兼容的疾病和参数无关检测。

Motivation: 女性盆腔疾病诊断常因解剖结构变异大而延迟，现有AI方法多为疾病特异性且缺乏实时兼容性，限制了泛化能力和临床整合。
Method: 使用残差变分自编码器在294个健康矢状位T2加权MRI扫描上训练，通过扩散生成合成数据增强鲁棒性。仅学习正常盆腔解剖，推理时通过重建误差热图检测病理区域。
Result: 在公开子宫肌瘤MRI数据集上平均AUC为0.736，灵敏度0.828，特异性0.692。临床评估扩展到子宫内膜癌、子宫内膜异位症和子宫腺肌症。重建速度约92.6帧/秒，支持实时MRI集成。
Conclusion: 该框架为女性盆腔无监督异常检测建立了基准，支持未来实时MRI集成，代码已开源，前瞻性数据集可用于学术合作。

[8] PhenoLIP: Integrating Phenotype Ontology Knowledge into Medical Vision-Language Pretraining

Cheng Liang,Chaoyi Wu,Weike Zhao,Ya Zhang,Yanfeng Wang,Weidi Xie

Main category: cs.CV

TL;DR: 提出PhenoLIP框架，通过构建大规模表型知识图谱PhenoKG，将结构化医学表型知识融入视觉语言模型，显著提升医学图像分析性能。

Motivation: 现有医学视觉语言模型主要依赖粗粒度的图像-文本对比学习，未能充分利用医学表型本体中编码的系统性视觉知识，限制了模型对结构化医学图像的理解能力。
Method: 1) 构建PhenoKG知识图谱（52万高质量图像-文本对，关联3000+表型）；2) 提出PhenoLIP两阶段预训练框架：先学习知识增强的表型嵌入空间，再通过教师引导的知识蒸馏将结构化知识融入多模态预训练；3) 创建专家验证的PhenoBench基准（7800+图像-标题对，覆盖1000+表型）。
Result: PhenoLIP显著超越现有最佳基线：在表型分类准确率上比BiomedCLIP提升8.85%，在跨模态检索上比BIOMEDICA提升15.03%，验证了融入表型中心先验知识对结构化医学图像理解的价值。
Conclusion: 通过显式整合结构化表型知识，PhenoLIP框架有效提升了医学视觉语言模型的性能，为结构化、可解释的医学图像理解提供了新途径，证明了表型中心先验知识在医学多模态学习中的重要性。

[9] DeDPO: Debiased Direct Preference Optimization for Diffusion Models

Khiem Pham,Quang Nguyen,Tung Nguyen,Jingsen Zhu,Michele Santacatterina,Dimitris Metaxas,Ramin Zabih

Main category: cs.CV

TL;DR: DeDPO通过因果推断的去偏估计技术改进DPO，利用合成AI反馈扩增有限人类数据，在降低标注成本的同时达到甚至超越全人类标注的性能上限。

Motivation: DPO方法依赖大规模高质量人类偏好标注，成本高昂且难以扩展。需要一种能够利用廉价合成监督进行对齐的解决方案。
Method: 提出DeDPO框架，将因果推断中的去偏估计技术集成到DPO目标中，识别并校正合成标注器的系统偏差和噪声，支持自训练和视觉语言模型等多种反馈源。
Result: DeDPO对合成标注方法的变化具有鲁棒性，性能达到甚至偶尔超越全人类标注数据的理论上限。
Conclusion: DeDPO为使用廉价合成监督进行人机对齐提供了可扩展的解决方案，突破了传统DPO的成本和可扩展性瓶颈。

[10] AnyThermal: Towards Learning Universal Representations for Thermal Perception

Parv Maheshwari,Jay Karhade,Yogesh Chawla,Isaiah Adu,Florian Heisen,Andrew Porco,Andrew Jong,Yifei Liu,Santosh Pitla,Sebastian Scherer,Wenshan Wang

Main category: cs.CV

TL;DR: AnyThermal是一个通用的热成像骨干网络，通过从视觉基础模型（如DINOv2）中蒸馏特征表示到热成像编码器，支持多种环境和任务，无需任务特定训练。

Motivation: 现有热成像骨干网络通常基于小规模数据进行任务特定训练，导致其适用性局限于特定环境和任务。需要一种能够跨多种环境（室内、空中、越野、城市）和任务通用的热成像特征提取方法。
Method: 1. 从视觉基础模型（DINOv2）蒸馏特征表示到热成像编码器；2. 开发TartanRGBT平台，首个开源同步RGB-热成像数据采集平台；3. 收集TartanRGBT数据集，包含4种环境的多样化平衡数据。
Result: 在现有数据集上，AnyThermal在多种环境和下游任务中实现了最先进的结果，改进幅度高达36%。
Conclusion: AnyThermal通过特征蒸馏和多样化数据集，实现了任务无关的热成像特征提取，显著提升了跨环境和任务的性能，为热成像计算机视觉提供了通用解决方案。

[11] DroneKey++: A Size Prior-free Method and New Benchmark for Drone 3D Pose Estimation from Sequential Images

Seo-Bin Hwang,Yeong-Jun Cho

Main category: cs.CV

TL;DR: DroneKey++：无需先验信息的无人机3D姿态估计框架，结合关键点检测、分类和姿态估计，使用大规模合成数据集6DroneSyn进行训练和评估。

Motivation: 现有无人机3D姿态估计方法依赖物理尺寸或3D网格等先验信息，且数据集规模小、模型单一、环境受限，难以验证泛化能力。
Method: 提出DroneKey++框架，包含关键点编码器（同时检测关键点和分类）和姿态解码器（使用基于射线的几何推理和类别嵌入估计3D姿态）。构建6DroneSyn大规模合成数据集，包含7种无人机模型和88种户外背景的5万多张图像。
Result: DroneKey++在旋转估计上达到MAE 17.34度、MedAE 17.1度，平移估计MAE 0.135米、MedAE 0.242米，推理速度CPU 19.25 FPS、GPU 414.07 FPS，表现出跨模型的强泛化能力和实时应用潜力。
Conclusion: DroneKey++无需先验信息即可实现准确的无人机3D姿态估计，配合大规模合成数据集解决了现有方法的局限性，在泛化性和实时性方面表现优异，数据集已公开。

[12] Addressing the Waypoint-Action Gap in End-to-End Autonomous Driving via Vehicle Motion Models

Jorge Daniel Rodríguez-Vidal,Gabriel Villalonga,Diego Porres,Antonio M. López Peña

Main category: cs.CV

TL;DR: 提出可微分车辆模型框架，将动作序列转换为轨迹点，使基于动作的端到端自动驾驶模型能在轨迹点基准中训练和评估。

Motivation: 当前端到端自动驾驶系统主要分为基于轨迹点和基于动作两类。现有基准协议和训练流程多为轨迹点导向，导致基于动作的策略难以训练和比较，阻碍了其发展。
Method: 提出可微分车辆模型框架，将预测的动作序列（油门、转向、刹车）通过车辆动力学模型展开为对应的自车坐标系轨迹点，在轨迹点空间进行监督训练。
Result: 在多个挑战性基准测试中表现优于基线方法，特别是在NAVSIM navhard基准上达到了最先进的性能。
Conclusion: 该框架成功弥合了轨迹点与动作之间的差距，首次使基于动作的架构能在不修改评估协议的情况下在轨迹点基准中进行训练和评估。

Grégoire Dhimoïla,Thomas Fel,Victor Boutin,Agustin Picard

Main category: cs.CV

TL;DR: 该论文提出了一种对齐稀疏自编码器（SAE）方法，通过能量一致性假设来探索视觉语言模型共享嵌入空间的几何结构，发现稀疏双模态原子携带跨模态对齐信号，而单模态原子解释了模态差距。

Motivation: 尽管视觉语言模型（VLMs）在图像和文本对齐方面取得了显著成功，但其共享嵌入空间的几何结构仍然缺乏深入理解。研究者希望探索这种几何结构，以更好地理解跨模态表示的本质。
Method: 基于等能量假设（Iso-Energy Assumption），提出对齐稀疏自编码器（SAE）方法。该方法在训练过程中鼓励能量一致性，同时保持重建能力。通过这种归纳偏置，获得可用于几何分析的表征。
Result: 研究发现：1）稀疏双模态原子携带全部跨模态对齐信号；2）单模态原子作为模态特定偏置，完全解释了模态差距；3）移除单模态原子可以消除模态差距而不损害性能；4）将向量算术限制在双模态子空间可实现分布内编辑和改进检索。
Conclusion: 正确的归纳偏置既能保持模型保真度，又能使潜在几何结构变得可解释和可操作。该框架揭示了VLMs共享嵌入空间的清晰结构，具有实际应用价值。

[14] ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos

Yuantao Chen,Jiahao Chang,Chongjie Ye,Chaoran Zhang,Zhaojie Fang,Chenghong Li,Xiaoguang Han

Main category: cs.CV

TL;DR: ForeHOI：首个前馈模型，直接从单目手物交互视频中重建3D物体几何，无需预处理，1分钟内完成推理，比优化方法快100倍

Motivation: 日常手物交互的单目视频普遍存在，但严重遮挡和相机、手、物体的复杂耦合运动使得物体重建极具挑战。现有方法需要预处理且速度慢。
Method: 提出前馈模型，联合预测2D掩码修复和3D形状补全，通过2D与3D形状补全之间的信息交换提升重建质量。创建首个大规模高保真手物交互合成数据集用于训练。
Result: 在物体重建方面达到最先进性能，显著优于先前方法，速度提升约100倍。能有效处理严重的手物遮挡问题。
Conclusion: ForeHOI通过联合2D-3D形状补全的前馈框架，实现了从单目手物交互视频中快速准确的3D物体重建，为具身智能提供了实用工具。

[15] ASMa: Asymmetric Spatio-temporal Masking for Skeleton Action Representation Learning

Aman Anand,Amir Eskandari,Elyas Rahsno,Farhana Zulkernine

Main category: cs.CV

TL;DR: 提出ASMa方法，通过非对称时空掩码学习骨架动作的全面时空动态特征，结合知识蒸馏实现轻量化部署

Motivation: 现有自监督学习方法主要关注高运动帧和高度数关节的掩码，导致特征表示存在偏差且不完整，难以泛化到不同的运动模式
Method: 提出非对称时空掩码(ASMa)：1)选择性掩码高度数关节和低运动帧，2)掩码低度数关节和高运动帧；引入可学习特征对齐模块；使用知识蒸馏压缩模型
Result: 在NTU RGB+D 60/120和PKU-MMD数据集上，微调性能平均提升2.7-4.4%，迁移到噪声数据集提升达5.9%；蒸馏模型参数量减少91.4%，推理速度提升3倍
Conclusion: ASMa方法通过平衡的掩码策略学习更全面的骨架表示，结合知识蒸馏实现了高效轻量化，适合资源受限场景部署

[16] An Interpretable Vision Transformer as a Fingerprint-Based Diagnostic Aid for Kabuki and Wiedemann-Steiner Syndromes

Marilyn Lionts,Arnhildur Tomasdottir,Viktor I. Agustsson,Yuankai Huo,Hans T. Bjornsson,Lotta M. Ellingsen

Main category: cs.CV

TL;DR: 基于指纹图像的视觉Transformer模型，用于区分Kabuki综合征和Wiedemann-Steiner综合征，为罕见遗传病提供非侵入性AI诊断辅助工具

Motivation: Kabuki综合征和Wiedemann-Steiner综合征是临床特征重叠的罕见发育障碍，许多患者因基因检测和专业知识获取障碍而无法确诊。尽管皮纹异常是多种遗传综合征的已知特征，但在分子检测时代仍未被充分利用。
Method: 开发基于视觉Transformer的深度学习模型，利用指纹图像区分Kabuki综合征、Wiedemann-Steiner综合征患者和健康对照。评估三个二元分类任务：对照vs.KS、对照vs.WSS、KS vs.WSS。应用注意力可视化技术识别对模型预测最重要的指纹区域。
Result: 模型在三个分类任务中分别获得AUC分数：0.80（对照vs.KS）、0.73（对照vs.WSS）、0.85（KS vs.WSS），相应的F1分数分别为0.71、0.72、0.83。注意力可视化成功识别出对预测最重要的指纹区域。
Conclusion: 研究证实了综合征特异性指纹特征的存在，展示了基于指纹的AI工具作为非侵入性、可解释且易于获取的诊断辅助手段的可行性，有助于早期诊断未确诊的遗传综合征。

[17] MMEarth-Bench: Global Model Adaptation via Multimodal Test-Time Training

Lucia Gordon,Serge Belongie,Christian Igel,Nico Lang

Main category: cs.CV

TL;DR: 提出了MMEarth-Bench多模态环境基准数据集，包含5个任务、12种模态，评估发现多模态预训练在有限数据下提升鲁棒性，但地理泛化能力仍差，提出测试时多模态重建方法改善性能。

Motivation: 现有地理空间基准数据集模态少、全球代表性不足，无法充分评估多模态预训练模型在全球尺度上的表现，需要更全面的评估框架。
Method: 1) 构建MMEarth-Bench数据集：5个多模态环境任务、12种模态、全球分布数据、包含域内和域外测试分割；2) 提出TTT-MMR方法：测试时多模态重建，利用所有可用模态作为辅助任务，无论预训练模型是否接受这些输入。
Result: 多模态预训练在有限数据设置下提升模型鲁棒性，但地理泛化能力仍然较差；TTT-MMR方法在随机和地理测试分割上均改善性能；地理批处理在正则化和专业化之间取得良好平衡。
Conclusion: MMEarth-Bench填补了多模态地理空间模型评估的空白，提出的TTT-MMR方法能有效提升模型对新任务和地理域的适应能力，为地理空间机器学习提供重要基准和工具。

[18] Unsupervised MRI-US Multimodal Image Registration with Multilevel Correlation Pyramidal Optimization

Jiazheng Wang,Zeyu Liu,Min Liu,Xiang Chen,Hang Zhang

Main category: cs.CV

TL;DR: 提出基于多级相关金字塔优化的无监督多模态医学图像配准方法MCPO，在Learn2Reg 2025的ReMIND2Reg任务中取得第一名，并在Resect数据集上验证了其有效性。

Motivation: 多模态图像配准在手术导航中至关重要，但由于多模态图像间的差异以及术中组织位移和切除导致的图像变形，术前与术中多模态图像的有效配准面临重大挑战。
Method: 基于多级相关金字塔优化的无监督配准方法：1) 使用模态独立邻域描述符提取特征，将多模态图像映射到特征空间；2) 设计多级金字塔融合优化机制，通过密集相关分析和权重平衡耦合凸优化，在不同尺度上实现位移场的全局优化和局部细节补充。
Result: 在Learn2Reg 2025的ReMIND2Reg任务中，验证阶段和测试阶段均获得第一名；在Resect数据集上达到平均TRE 1.798mm，证明了方法在术前到术中图像配准中的广泛适用性。
Conclusion: 提出的MCPO方法能有效解决多模态医学图像配准的挑战，在手术导航应用中表现出色，具有广泛的临床应用前景。

[19] Accelerating Vision Transformers on Brain Processing Unit

Jinchi Tang,Yan Guo

Main category: cs.CV

TL;DR: 提出一种将Vision Transformer线性层转换为卷积层的方法，使ViT能在CNN优化的BPU硬件上高效部署，实现3.8倍加速，精度损失仅1.4%

Motivation: 随着深度学习发展，BPU等CNN专用硬件提供INT8卷积加速，但Vision Transformer的线性层与BPU的四维卷积架构不匹配，导致ViT无法利用BPU的加速优势
Method: 将Vision Transformer中的线性层和层归一化操作替换为精心设计的卷积算子，使模型结构适配BPU硬件，同时继承原始权重参数，无需重新训练或微调
Result: 量化DeiT-Base模型在ImageNet上达到80.4%准确率（原81.8%），实现3.8倍推理加速；在花卉分类数据集上微调后，DeiT-Base仅损失0.5%准确率
Conclusion: 首次成功实现Vision Transformer在BPU硬件上的完整部署，通过结构转换使ViT能充分利用CNN优化硬件的加速能力，为Transformer模型在专用硬件上的部署提供了有效解决方案

[20] Adaptive and Balanced Re-initialization for Long-timescale Continual Test-time Domain Adaptation

Yanshuo Wang,Jinguang Tong,Jun Lan,Weiqiang Wang,Huijia Zhu,Haoxing Chen,Xuesong Li,Jie Hong

Main category: cs.CV

TL;DR: 提出一种基于重置的持续测试时域自适应方法ABR，通过自适应间隔重置模型权重来保持长期性能

Motivation: 现有持续测试时域自适应方法主要优化适应过程，但缺乏对模型能否在长期变化环境中持续适应的研究。本文探索通过重置方法实现更好的长期CTTA性能。
Method: 提出自适应平衡重置策略ABR：1) 观察到长期性能与标签翻转轨迹模式相关；2) 基于标签翻转变化确定自适应间隔；3) 在自适应间隔执行权重重置以保持模型长期性能
Result: 在广泛的CTTA基准测试中验证了ABR方法的有效性，取得了优越的性能表现
Conclusion: 通过自适应重置策略可以有效保持模型在持续变化环境中的长期适应能力，为CTTA问题提供了新的解决方案

[21] Halt the Hallucination: Decoupling Signal and Semantic OOD Detection Based on Cascaded Early Rejection

Ningkang Peng,Chuanjie Cheng,Jingyang Mao,Xiaoqian Peng,Feng Xing,Bo Zhang,Chao Tan,Zhichao Zheng,Peiheng Li,Yanhui Gu

Main category: cs.CV

TL;DR: 提出CER框架，通过级联早期拒绝实现分层异常检测，显著降低计算开销并提升OOD检测性能

Motivation: 现有OOD检测方法存在计算资源浪费和语义幻觉问题，即深度网络会将物理异常强行解释为高置信度的语义特征，这在安全关键应用中不可接受
Method: 提出级联早期拒绝(CER)框架，包含两个核心模块：1) 结构能量筛(SES)，在网络入口使用拉普拉斯算子建立非参数屏障拦截物理信号异常；2) 语义感知超球面能量(SHE)检测器，在中间层解耦特征幅度和方向以识别细粒度语义偏差
Result: CER将计算开销降低32%，在CIFAR-100基准上FPR95从33.58%降至22.84%，AUROC提升至93.97%。在模拟传感器故障的真实场景中性能远超SOTA方法
Conclusion: CER作为一个通用插件，可以无缝集成到各种SOTA模型中提供性能增益，实现了高效且鲁棒的OOD检测

[22] Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation

Gensheng Pei,Xiruo Jiang,Yazhou Yao,Xiangbo Shu,Fumin Shen,Byeungwoo Jeon

Main category: cs.CV

TL;DR: ConceptBank是一个参数免费的校准框架，用于修复SAM3在开放词汇分割中因数据漂移和概念漂移导致的视觉证据与提示对齐失效问题。

Motivation: SAM3通过可提示概念分割实现了开放词汇分割，但其依赖预定义概念使其在目标域出现数据漂移或概念漂移时，视觉证据与提示的对齐会失效。
Method: 构建数据集特定的概念库：1) 通过类级视觉原型锚定目标域证据；2) 挖掘代表性支持以抑制数据漂移下的异常值；3) 融合候选概念以纠正概念漂移。
Result: ConceptBank能有效适应SAM3到分布漂移，包括具有挑战性的自然场景和遥感场景，为开放词汇分割的鲁棒性和效率建立了新基准。
Conclusion: ConceptBank提供了一个无需参数的校准框架，能够动态恢复视觉证据与提示的对齐，增强SAM3在分布漂移下的适应能力。

[23] SPDA-SAM: A Self-prompted Depth-Aware Segment Anything Model for Instance Segmentation

Yihan Shang,Wei Wang,Chao Huang,Xinghui Dong

Main category: cs.CV

TL;DR: 提出SPDA-SAM，通过语义-空间自提示模块和粗到细RGB-D融合模块，解决SAM依赖人工提示和缺乏深度信息的问题，在12个数据集上取得SOTA性能。

Motivation: SAM在实例分割中表现出色，但严重依赖人工提示质量，且RGB图像缺乏深度信息，限制了模型对空间结构和物体边界的感知能力。
Method: 提出SPDA-SAM，包含语义-空间自提示模块（从SAM图像编码器和掩码解码器提取语义和空间提示）和粗到细RGB-D融合模块（融合RGB图像特征和深度图特征，深度图提供粗粒度结构指导，局部深度变化编码细粒度特征）。
Result: 在12个不同数据集上超越了最先进的对比方法，证明了自提示指导和粗到细RGB-D融合操作对空间信息损失补偿的有效性。
Conclusion: SPDA-SAM通过自提示机制和深度感知融合，有效解决了SAM对人工提示的依赖和RGB图像缺乏深度信息的问题，在实例分割任务中取得了显著改进。

[24] Uncertainty-Aware 4D Gaussian Splatting for Monocular Occluded Human Rendering

Weiquan Wang,Feifei Shao,Lin Li,Zhen Wang,Jun Xiao,Long Chen

Main category: cs.CV

TL;DR: U-4DGS：一种用于单目视频中动态人体渲染的新框架，通过概率变形网络和双重光栅化管道处理遮挡问题，利用不确定性映射自适应调节梯度，在遮挡场景下实现高保真渲染。

Motivation: 现有方法在遮挡场景下存在严重问题：基于生成模型的方法会导致时间闪烁，而基于刚性几何启发式的方法无法捕捉多样外观。需要一种能处理遮挡并保持时间一致性的新方法。
Method: 将任务重新表述为异方差观测噪声下的最大后验估计问题。提出U-4DGS框架，包含概率变形网络和双重光栅化管道，生成像素对齐的不确定性映射作为自适应梯度调节器。同时引入置信感知正则化，防止在缺乏可靠视觉线索的区域出现几何漂移。
Result: 在ZJU-MoCap和OcMotion数据集上的大量实验表明，U-4DGS在渲染保真度和鲁棒性方面达到了最先进水平。
Conclusion: U-4DGS通过概率建模和不确定性引导的优化，有效解决了动态人体渲染中的遮挡问题，实现了高保真且时间一致的渲染结果。

[25] FlowConsist: Make Your Flow Consistent with Real Trajectory

Tianyi Zhang,Chengcheng Liu,Jinwei Chen,Chun-Le Guo,Chongyi Li,Ming-Ming Cheng,Bo Li,Peng-Tao Jiang

Main category: cs.CV

TL;DR: FlowConsist：通过使用模型自身预测的边际速度替代条件速度，并引入轨迹校正策略，解决快速流模型中的轨迹漂移和误差累积问题，在ImageNet 256×256上仅用1步采样达到1.52 FID。

Motivation: 当前快速流模型训练存在两个根本问题：1）随机配对噪声-数据样本构建的条件速度引入系统性轨迹漂移，阻碍模型遵循一致的ODE路径；2）模型近似误差随时间步累积，导致长时间间隔下的严重偏差。
Method: 提出FlowConsist训练框架：1）用模型自身预测的边际速度替代条件速度，使优化与真实轨迹对齐；2）引入轨迹校正策略，在轨迹的每个时间步对齐生成样本和真实样本的边际分布。
Result: 在ImageNet 256×256上达到最先进水平，仅用1步采样获得1.52 FID。
Conclusion: FlowConsist通过解决轨迹一致性问题，显著提升了快速流模型的性能，实现了高效的一步生成。

[26] Di3PO -- Diptych Diffusion DPO for Targeted Improvements in Image

Sanjana Reddy,Ishaan Malhi,Sally Ma,Praneet Dutta

Main category: cs.CV

TL;DR: Di3PO是一种新的文本到图像扩散模型偏好调优方法，通过隔离特定改进区域构建正负训练对，提高训练效率

Motivation: 现有偏好调优方法依赖计算昂贵的图像生成步骤来创建正负图像对，这些方法要么缺乏有意义的差异，要么采样和过滤成本高，或者在无关像素区域存在显著方差，从而降低训练效率
Method: 提出Di3PO方法，通过隔离需要改进的特定区域来构建正负训练对，同时保持图像周围环境的稳定性
Result: 在扩散模型的文本渲染这一挑战性任务上展示了方法的有效性，相比SFT和DPO基线方法有改进
Conclusion: Di3PO通过构建更有效的训练对，解决了现有偏好调优方法的效率问题，在文本渲染任务上表现优异

[27] Robust Pedestrian Detection with Uncertain Modality

Qian Bie,Xiao Wang,Bin Yang,Zhixi Yu,Jun Chen,Xin Xu

Main category: cs.CV

TL;DR: 提出AUNet网络处理RGB-NIR-TIR三模态行人检测中的模态不确定性，通过UMVR验证模态可用性和MAI模块自适应融合可用模态信息

Motivation: 现有跨模态行人检测方法在RGB和热红外模态下工作，但热红外缺乏纹理细节，近红外在低光条件下能捕捉纹理。然而实际场景中设备可能无法同时捕获所有三种模态，导致输入模态组合不确定，现有方法无法处理这种不确定性
Method: 提出自适应不确定性感知网络(AUNet)，包含统一模态验证细化(UMVR)模块和模态感知交互(MAI)模块。UMVR通过不确定性感知路由器验证模态可用性并进行语义细化，MAI根据UMVR输出自适应激活或停用内部交互机制
Result: 构建了包含8,281个像素对齐图像三元组的TRNT数据集，为算法研究提供全面基础。提出的AUNet能够准确判别模态可用性并在不确定输入下充分利用可用信息
Conclusion: 通过AUNet有效解决了三模态行人检测中的模态不确定性问题，实现了在任意模态组合输入下的鲁棒行人信息提取和性能提升

[28] Revisiting Salient Object Detection from an Observer-Centric Perspective

Fuxi Zhang,Yifan Wang,Hengrun Zhao,Zhuohan Sun,Changxing Xia,Lijun Wang,Huchuan Lu,Yangrui Shao,Chen Yang,Long Teng

Main category: cs.CV

TL;DR: 提出观察者中心显著目标检测(OC-SOD)，将显著目标检测从客观预测任务转变为考虑观察者偏好和意图的主观任务，构建首个OC-SOD数据集OC-SODBench，并设计基于"感知-反思-调整"过程的智能体基线OC-SODAgent。

Motivation: 显著目标检测本质上是主观问题，不同观察者可能认为不同物体显著。现有方法将其视为客观预测任务，使用单一真值分割图，导致问题欠定且根本不适定。需要引入观察者特定因素来捕捉人类感知的模糊性和多样性。
Method: 1) 提出观察者中心显著目标检测(OC-SOD)框架，同时考虑视觉线索和观察者特定因素；2) 利用多模态大语言模型构建高效数据标注流程，创建首个OC-SOD数据集OC-SODBench（33k图像，152k文本提示-物体对）；3) 设计OC-SODAgent智能体基线，采用类人的"感知-反思-调整"过程进行OC-SOD。
Result: 在提出的OC-SODBench数据集上进行广泛实验，验证了所提方法的有效性。通过观察者中心视角，弥合了人类感知与计算建模之间的差距，提供了对"显著"的更现实和灵活的理解。
Conclusion: OC-SOD将显著目标检测从客观预测转变为考虑观察者偏好的主观任务，更好地捕捉人类感知的多样性。构建的数据集和智能体基线为个性化、上下文感知的显著性预测提供了新方向，代码和数据集已公开。

[29] POINTS-GUI-G: GUI-Grounding Journey

Zhongyin Zhao,Yuan Liu,Yikun Liu,Haicheng Wang,Le Tian,Xiao Zhou,Yangxiu You,Zilin Yu,Yang Yu,Jie Zhou

Main category: cs.CV

TL;DR: POINTS-GUI-G-8B模型在GUI定位任务上取得SOTA性能，通过数据工程、训练策略改进和强化学习三大创新实现

Motivation: GUI代理在自动化数字工作流程中具有巨大潜力，而GUI定位作为基础能力需要从基础模型开始掌握完整技术流程，而非依赖已有空间感知能力的模型
Method: 1) 精细数据工程：统一开源数据集格式，采用增强、过滤和难度分级策略；2) 改进训练策略：持续微调视觉编码器提升感知精度，保持训练推理分辨率一致；3) 强化学习：利用可验证奖励机制提升感知密集型任务的精度
Result: 在多个基准测试中取得SOTA：ScreenSpot-Pro 59.9分，OSWorld-G 66.0分，ScreenSpot-v2 95.7分，UI-Vision 49.9分
Conclusion: 从基础模型出发掌握完整GUI定位技术流程是可行的，强化学习不仅适用于推理任务，在感知密集型任务中也能显著提升精度，且GUI定位为强化学习提供了天然优势

[30] TFusionOcc: Student's t-Distribution Based Object-Centric Multi-Sensor Fusion Framework for 3D Occupancy Prediction

Zhenxing Ming,Julie Stephany Berrio,Mao Shan,Stewart Worrall

Main category: cs.CV

TL;DR: TFusionOcc：一种基于对象中心的多传感器融合框架，使用变形超二次曲面和T混合模型实现3D语义占据预测，在nuScenes基准测试中达到SOTA性能

Motivation: 现有3D语义占据预测方法依赖3D体素或高斯分布，难以高效捕捉驾驶环境中细粒度的几何细节，需要更灵活的几何基元和更好的融合方法
Method: 提出TFusionOcc框架，采用对象中心的多阶段多传感器融合，结合学生t分布和T混合模型，使用变形超二次曲面等更灵活的几何基元
Result: 在nuScenes基准测试中达到最先进性能，在nuScenes-C数据集的不同相机和激光雷达损坏场景中表现出良好的鲁棒性
Conclusion: TFusionOcc通过创新的多传感器融合策略和灵活的几何表示，有效提升了3D语义占据预测的精度和鲁棒性，为自动驾驶感知提供了更好的解决方案

[31] MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing

Wenjie Wang,Wei Wu,Ying Liu,Yuan Zhao,Xiaole Lv,Liang Diao,Zengjian Fan,Wenfeng Xie,Ziling Lin,De Shi,Lin Huang,Kaihe Xu,Hong Li

Main category: cs.CV

TL;DR: MeDocVL：一种用于医疗文档解析的后训练视觉语言模型，通过训练驱动的标签精炼和噪声感知混合后训练策略，在噪声监督下实现最先进的性能

Motivation: 医疗文档OCR面临复杂布局、领域特定术语和噪声标注的挑战，需要严格的字段级精确匹配。现有OCR系统和通用视觉语言模型往往无法可靠解析此类文档。
Method: 提出MeDocVL框架：1) 训练驱动的标签精炼，从噪声标注构建高质量监督；2) 噪声感知混合后训练策略，结合强化学习和监督微调，实现鲁棒精确提取。
Result: 在医疗发票基准测试中，MeDocVL持续优于传统OCR系统和强大的VLM基线，在噪声监督下实现了最先进的性能。
Conclusion: MeDocVL通过创新的标签精炼和混合训练策略，有效解决了医疗文档解析中的噪声标注问题，为医疗文档OCR提供了可靠的解决方案。

[32] A neuromorphic model of the insect visual system for natural image processing

Adam D. Hines,Karin Nordström,Andrew B. Barron

Main category: cs.CV

TL;DR: 提出一种受昆虫视觉启发的生物启发视觉模型，通过完全自监督对比学习生成稀疏、可区分的编码，在花朵识别和自然图像基准测试中表现良好，并实现了人工神经网络和脉冲神经网络两种实现。

Motivation: 当前许多视觉模型过于注重任务性能而忽视了生物真实的处理通路。昆虫视觉支持复杂行为但现有模型缺乏生物基础。需要开发既保持生物合理性又能生成稀疏、可区分编码的视觉模型。
Method: 提出生物启发视觉模型，捕捉昆虫视觉系统原理，将密集视觉输入转换为稀疏、可区分的编码。使用完全自监督对比目标进行训练，无需标记数据，支持跨任务重用而不依赖领域特定分类器。实现了人工神经网络和脉冲神经网络两种版本。
Result: 模型在花朵识别任务和自然图像基准测试中产生可靠的稀疏编码，能区分视觉相似的输入。在模拟定位设置中，优于简单的图像下采样基线，展示了神经形态视觉处理通路的功能优势。
Conclusion: 该研究通过提供通用的生物启发视觉模型推进了昆虫计算建模，该模型能够在多样化任务中执行稀疏计算，为理解生物视觉处理提供了新的计算框架。

[33] Point Virtual Transformer

Veerain Sood,Bnalin,Gaurav Pandey

Main category: cs.CV

TL;DR: PointViT：基于Transformer的3D目标检测框架，通过选择性采样虚拟点增强远距离物体检测，在KITTI基准上取得优异性能

Motivation: LiDAR点云在远距离区域稀疏，导致远场物体检测困难。现有方法通过RGB图像生成深度补全虚拟点，但直接融合所有虚拟点会增加计算成本且难以有效融合真实与虚拟信息。
Method: 提出PointViT框架：1）联合处理原始LiDAR点和选择性采样的虚拟点；2）探索多种融合策略（从早期点级融合到BEV门控融合）；3）使用稀疏卷积将融合点云体素化为BEV表示；4）初始化高置信度物体查询并通过Transformer上下文聚合模块进行精炼。
Result: 在KITTI基准测试中，Car类别的3D AP达到91.16%，BEV AP达到95.94%，2D检测AP达到99.36%，表现优异。
Conclusion: PointViT通过选择性融合虚拟点有效解决了远距离物体检测问题，在保持计算效率的同时显著提升了检测性能，为LiDAR点云稀疏性问题提供了有效解决方案。

[34] Learning Human Visual Attention on 3D Surfaces through Geometry-Queried Semantic Priors

Soham Pahari,Sandeep C. Kumain

Main category: cs.CV

TL;DR: 提出SemGeo-AttentionNet，一种双流架构，通过不对称跨模态融合结合几何特征与语义先验，首次实现考虑3D网格拓扑的时序扫描路径生成，显著提升3D视觉注意力预测性能。

Motivation: 现有3D显著性方法依赖手工几何特征或缺乏语义感知的学习方法，无法解释人类为何注视语义重要但几何不显著的区域。需要建模人类视觉注意力中几何处理与语义识别的相互作用。
Method: 提出SemGeo-AttentionNet双流架构：1) 几何流使用点云transformer处理几何特征；2) 语义流通过几何条件多视角渲染获取扩散模型语义先验；3) 采用不对称跨模态融合，几何特征通过交叉注意力查询语义内容；4) 扩展至时序扫描路径生成，通过强化学习考虑3D网格拓扑和抑制返回动态。
Result: 在SAL3D、NUS3D和3DVA数据集上评估显示显著改进，验证了认知驱动架构能有效建模人类在三维表面上的视觉注意力。
Conclusion: 通过显式建模几何与语义的二分性，提出的双流架构能更好地解释和预测人类在3D物体上的视觉注意力，首次实现了考虑3D网格拓扑的时序扫描路径生成。

[35] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

Yunze Tong,Mushui Liu,Canyu Zhao,Wanggui He,Shiyi Zhang,Hongwei Zhang,Peng Zhang,Jinlong Liu,Ju Huang,Jiamang Wang,Hao Jiang,Pipei Huang

Main category: cs.CV

TL;DR: TP-GRPO改进GRPO框架，通过增量奖励和转折点检测解决去噪步骤奖励稀疏问题，提升文本到图像生成效果

Motivation: 现有GRPO方法在文本到图像生成中存在两个问题：1）基于结果的奖励传播到所有去噪步骤，无法区分每个步骤的局部效果；2）组间排名主要比较匹配时间步的轨迹，忽略了轨迹内依赖关系，早期去噪动作可能通过延迟的隐式交互影响后续状态
Method: TP-GRPO提出两个关键创新：1）用步骤级增量奖励替代基于结果的奖励，提供密集的步骤感知学习信号，更好隔离每个去噪动作的"纯"效果；2）识别转折点（改变局部奖励趋势并使后续奖励演化与整体轨迹趋势一致的步骤），为这些动作分配聚合的长期奖励以捕捉其延迟影响。转折点仅通过增量奖励的符号变化检测，使TP-GRPO高效且无需超参数
Result: 大量实验表明TP-GRPO能更有效地利用奖励信号，并持续改进生成质量
Conclusion: TP-GRPO通过解决奖励稀疏性和建模去噪轨迹中的长期效应，改进了GRPO框架，为文本到图像生成提供了更有效的强化学习优化方法

[36] POPL-KF: A Pose-Only Geometric Representation-Based Kalman Filter for Point-Line-Based Visual-Inertial Odometry

Aiping Wang,Zhaolong Yang,Shuwen Chen,Hai Zhang

Main category: cs.CV

TL;DR: 提出POPL-KF，一种基于卡尔曼滤波的VIO系统，采用仅姿态几何表示处理点和线特征，消除特征坐标线性化误差，提升在挑战性场景中的性能。

Motivation: 传统VIO系统依赖点特征，在挑战性场景中性能下降；MSCKF-based VIO系统存在特征3D坐标线性化误差和延迟测量更新问题，影响定位精度。
Method: 1) 提出线特征的仅姿态几何表示；2) 开发POPL-KF系统，对点和线特征都采用仅姿态几何表示；3) 设计统一的基帧选择算法；4) 提出基于图像网格分割和双向光流一致性的线特征滤波器。
Result: 在公开数据集和真实世界实验中，POPL-KF优于最先进的基于滤波方法（OpenVINS, PO-KF）和基于优化方法（PL-VINS, EPLF-VINS），同时保持实时性能。
Conclusion: POPL-KF通过消除特征坐标线性化误差、实现即时视觉测量更新，显著提升了VIO在挑战性场景中的性能，超越了现有方法。

Yuxiang Zhao,Yirong Yang,Yanqing Zhu,Yanfen Shen,Chiyu Wang,Zhining Gu,Pei Shi,Wei Guo,Mu Xu

Main category: cs.CV

TL;DR: 提出面向室外到室内无先验知识指令驱动的具身导航新任务，开发视觉中心框架和首个开源数据集，在成功率和路径效率上超越现有方法。

Motivation: 现有导航方法局限于室内或室外单一环境，依赖精确坐标系统，无法实现从室外到室内的无缝过渡，限制了实际应用价值。
Method: 提出视觉中心的具身导航框架，利用基于图像的提示驱动决策；创建首个开源数据集，通过轨迹条件视频合成流程生成数据。
Result: 实验表明该方法在成功率和路径效率等关键指标上一致优于现有最先进基线方法。
Conclusion: 该研究填补了室外到室内无缝导航的空白，为实际部署场景提供了更实用的解决方案。

[38] ChatUMM: Robust Context Tracking for Conversational Interleaved Generation

Wenxun Dai,Zhiyuan Zhao,Yule Zhong,Yiji Cheng,Jianwei Zhang,Linqing Wang,Shiyi Zhang,Yunlong Lin,Runze He,Fellix Song,Wayne Zhuang,Yong Liu,Haoji Zhang,Yansong Tang,Qinglin Lu,Chunyu Wang

Main category: cs.CV

TL;DR: ChatUMM：首个对话式统一多模态模型，通过交错多轮训练策略和系统化对话数据合成，实现跨模态连续对话能力

Motivation: 现有统一多模态模型局限于单轮交互范式，只能处理独立请求而非连续对话，缺乏上下文跟踪能力，无法作为真正的对话助手
Method: 1. 交错多轮训练策略：将序列化文本-图像流建模为连续对话流；2. 系统化对话数据合成管道：将单轮数据集转化为流畅对话，包括构建基础状态对话、通过"干扰"轮次和依赖历史的查询重写强制长程依赖解析、合成自然交错的多模态响应
Result: 在开源统一模型中实现视觉理解和指令引导编辑的SOTA性能，在文本到图像生成中保持竞争性保真度，在复杂多轮场景中表现出卓越的鲁棒性，确保流畅、上下文感知的对话
Conclusion: ChatUMM成功将统一多模态模型从单轮求解器转变为真正的对话助手，通过创新的训练策略和数据合成方法实现了跨模态的连续对话能力

[39] What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution

Xingsong Ye,Yongkun Du,JiaXin Zhang,Chen Li,Jing LYU,Zhineng Chen

Main category: cs.CV

TL;DR: UnionST是一个强大的文本数据引擎，通过合成涵盖挑战性样本的文本并更好地对齐现实世界的复杂性，显著提升了场景文本识别模型的性能。

Motivation: 大规模且类别平衡的文本数据对于训练有效的场景文本识别模型至关重要，但真实数据收集困难。现有合成数据存在性能差距，主要原因是语料库、字体和布局多样性不足，限制了在复杂场景中的真实性。
Method: 1. 系统分析主流基于渲染的合成数据集，识别其关键限制；2. 引入UnionST数据引擎，合成涵盖挑战性样本的文本并更好地对齐现实世界的复杂性；3. 构建UnionST-S大规模合成数据集，改进挑战性场景的模拟；4. 开发自进化学习框架用于有效的真实数据标注。
Result: 在UnionST-S上训练的模型相比现有合成数据集有显著改进，在某些场景下甚至超越了真实数据的性能。使用自进化学习框架时，仅使用9%的真实数据标签就能达到竞争性性能。
Conclusion: UnionST通过解决现有合成数据的多样性限制，显著缩小了合成数据与真实数据之间的领域差距，为场景文本识别提供了更有效的训练数据解决方案。

[40] Exploring Specular Reflection Inconsistency for Generalizable Face Forgery Detection

Hongyan Fei,Zexi Jia,Chuanwei Huang,Jinchao Zhang,Jie Zhou

Main category: cs.CV

TL;DR: 提出基于镜面反射不一致性的深度伪造检测方法，通过Retinex理论快速估计人脸纹理，分离镜面反射，并设计SRI-Net网络捕获镜面反射与纹理、光源的关系，在传统和生成式深度伪造数据集上表现优异。

Motivation: 随着AI生成方法（特别是扩散模型）合成的伪造人脸质量越来越高，现有基于空间和频率特征的检测方法对高质量完全合成伪造效果有限。作者观察到受复杂物理定律和多参数控制的面部属性难以复制，尤其是镜面反射成分。
Method: 1. 基于Retinex理论的快速准确人脸纹理估计方法，实现精确镜面反射分离；2. 设计Specular-Reflection-Inconsistency-Network (SRI-Net)，采用两阶段交叉注意力机制捕获镜面反射与对应人脸纹理、直接光照的关系，并将镜面反射相关特征与图像特征整合。
Result: 实验结果表明，该方法在传统深度伪造数据集和生成式深度伪造数据集上都取得了优越性能，特别是在包含扩散模型生成的伪造人脸的数据集上表现突出。
Conclusion: 通过关注难以复制的物理属性（特别是镜面反射）及其与纹理、光照的关系，可以更有效地检测高质量AI生成的伪造人脸，为深度伪造检测提供了新的视角和方法。

[41] LAB-Det: Language as a Domain-Invariant Bridge for Training-Free One-Shot Domain Generalization in Object Detection

Xu Zhang,Zhe Chen,Jing Zhang,Dacheng Tao

Main category: cs.CV

TL;DR: LAB-Det：一种无需训练的单样本领域泛化目标检测方法，通过语言作为领域不变桥梁，仅需每类一个示例即可适应专业领域，无需权重更新。

Motivation: 基础目标检测器（如GLIP、Grounding DINO）在通用领域表现良好，但在水下图像、工业缺陷等专业数据稀缺领域性能下降。传统跨领域少样本方法需要微调稀缺目标数据，成本高且容易过拟合。本文探索能否仅用每类一个示例且无需训练来适应专业领域。
Method: 提出LAB-Det方法，利用语言作为领域不变桥梁。不调整视觉特征，而是将每个示例投影到描述性文本中，用这些文本条件来指导冻结的检测器。这种语言条件化替代了基于梯度的适应，实现了数据稀缺领域的鲁棒泛化。
Result: 在UODD（水下）和NEU-DET（工业缺陷）两个数据稀缺检测基准上评估，LAB-Det在无需更新任何参数的情况下，比最先进的微调基线提高了5.4 mAP。对象边界模糊时表现尤其出色。
Conclusion: 语言适应是专业检测场景中微调的高效、可解释替代方案。通过语言作为桥梁，实现了无需训练的单样本领域泛化，为数据稀缺领域的检测提供了新思路。

Xiaosong Jia,Yihang Sun,Junqi You,Songbur Wong,Zichen Zou,Junchi Yan,Zuxuan Wu,Yu-Gang Jiang

Main category: cs.CV

TL;DR: 提出Efficient-LVSM，一种用于新视角合成的双流架构，通过解耦的协同精炼机制解决LVSM中全自注意力设计的计算效率问题，在保持性能的同时显著提升训练和推理速度。

Motivation: 现有基于transformer的新视角合成方法如LVSM采用全自注意力设计，存在两个主要问题：1) 输入视图数量的二次复杂度计算开销；2) 异构token间的刚性参数共享。这些限制了方法的效率和可扩展性。
Method: 提出Efficient-LVSM双流架构，采用解耦的协同精炼机制：对输入视图使用视图内自注意力，对目标视图使用自注意力后交叉注意力，消除了不必要的计算。支持增量推理和KV缓存。
Result: 在RealEstate10K数据集上，使用2个输入视图达到29.86 dB PSNR，比LVSM提升0.2 dB。训练收敛速度快2倍，推理速度快4.4倍。在多个基准测试中达到SOTA，对未见视图数量具有强零样本泛化能力。
Conclusion: Efficient-LVSM通过解耦的注意力设计有效解决了全自注意力方法的计算效率问题，在保持高性能的同时显著提升了训练和推理速度，展现了良好的可扩展性和泛化能力。

[43] Instance-Free Domain Adaptive Object Detection

Hengfu Yu,Jinhong Deng,Lixin Duan,Wen Li

Main category: cs.CV

TL;DR: 提出实例无关域自适应目标检测新问题，通过关系与结构一致性网络利用背景特征原型进行对齐，在三个新基准上显著优于现有方法

Motivation: 传统域自适应目标检测方法依赖包含足够前景实例的无标注目标数据，但在实际场景（如野生动物监测、病变检测）中，收集包含目标对象的标注数据成本高昂，而仅包含背景的数据却很丰富。这种实际约束带来了技术挑战：当目标实例不可用时难以实现域对齐，迫使自适应只能依赖目标背景信息。
Method: 提出关系与结构一致性网络（RSCN），开创性地基于背景特征原型进行对齐策略，同时鼓励源域前景特征与背景特征之间关系的一致性，实现无需目标实例的鲁棒自适应。
Result: 构建了三个专门基准（模拟自动驾驶检测、野生动物检测、肺结节检测），广泛实验表明RSCN在实例无关场景下显著优于现有DAOD方法。
Conclusion: 提出了实例无关域自适应目标检测新问题，通过RSCN方法有效解决了仅依赖目标背景信息时的域自适应挑战，为实际应用场景提供了有效解决方案。

[44] Rebenchmarking Unsupervised Monocular 3D Occupancy Prediction

Zizhan Guo,Yi Feng,Mengtan Zhang,Haoran Zhang,Wei Ye,Rui Fan

Main category: cs.CV

TL;DR: 本文提出了一种改进的无监督单目3D占据预测基准，通过重新定义占据概率的物理一致性表示，并引入遮挡感知极化机制，在遮挡区域实现与监督方法相当的性能。

Motivation: 现有无监督方法在训练和评估协议上存在不一致性，且使用2D真值无法解决遮挡区域固有的几何约束不足问题，需要更物理一致的评估基准和遮挡区域约束方法。
Method: 1) 重新解释体渲染过程中的变量，识别最物理一致的占据概率表示；2) 改进评估协议，将新识别表示与体素级3D占据真值对齐；3) 引入遮挡感知极化机制，利用多视角视觉线索增强遮挡区域占据与自由空间的区分。
Result: 实验表明，该方法不仅显著优于现有无监督方法，而且达到了与监督方法相当的性能水平。
Conclusion: 通过重新制定评估基准和引入遮挡感知机制，解决了无监督单目3D占据预测中的训练-评估不一致性和遮挡区域约束不足问题，为自动驾驶视觉感知提供了更可靠的解决方案。

[45] DreamHome-Pano: Design-Aware and Conflict-Free Panoramic Interior Generation

Lulu Chen,Yijiang Hu,Yuanqing Liu,Yulong Li,Yue Yang

Main category: cs.CV

TL;DR: DreamHome-Pano是一个可控的全景室内生成框架，通过Prompt-LLM和冲突无控制架构解决风格与结构约束的冲突问题，实现高质量室内设计生成。

Motivation: 现代室内设计中，个性化空间生成需要在刚性建筑结构约束和特定风格偏好之间取得平衡。现有多条件生成框架往往难以协调这些输入，导致"条件冲突"——风格属性无意中损害布局的几何精度。
Method: 1. 引入Prompt-LLM作为语义桥梁，将布局约束和风格参考转换为专业描述提示，实现精确跨模态对齐；2. 开发冲突无控制架构，包含结构感知几何先验和多条件解耦策略，抑制风格干扰对空间布局的侵蚀；3. 建立全景室内基准和多阶段训练管道，包括渐进式监督微调和强化学习。
Result: 实验结果表明，DreamHome-Pano在美学质量和结构一致性之间实现了优越的平衡，为全景室内可视化提供了稳健且专业级的解决方案。
Conclusion: DreamHome-Pano通过创新的Prompt-LLM和冲突无控制架构，有效解决了室内设计生成中的条件冲突问题，实现了高质量、可控的全景室内合成，为专业级室内可视化提供了可靠工具。

[46] Forest canopy height estimation from satellite RGB imagery using large-scale airborne LiDAR-derived training data and monocular depth estimation

Yongkang Lai,Xihan Mu,Tim R. McVicar,Dasheng Fan,Donghui Xie,Shanxin Guo,Wenli Huang,Tianjie Zhao,Guangjian Yan

Main category: cs.CV

TL;DR: 利用Depth Anything V2深度学习模型，通过大规模机载LiDAR数据训练，从PlanetScope卫星RGB图像直接估计森林冠层高度，精度优于现有全球产品。

Motivation: 现有星载LiDAR（如ICESat-2和GEDI）虽然提供全球森林结构观测，但空间稀疏且存在不确定性。机载和无人机LiDAR能提供更精细的冠层结构测量，但覆盖有限。需要一种能从广泛可得的卫星RGB图像中准确估计连续冠层高度的方法。
Method: 使用约16,000 km²的公开机载LiDAR点云生成的冠层高度模型（CHMs）以及3米分辨率的PlanetScope和机载RGB图像，训练先进的单目深度估计模型Depth Anything V2。训练后的模型称为Depth2CHM，可直接从PlanetScope RGB图像估计空间连续的CHMs。
Result: 在中国（约1 km²）和美国（约116 km²）的独立验证显示，Depth2CHM能准确估计冠层高度：中国站点偏差0.59 m、RMSE 2.54 m；美国站点偏差0.41 m、RMSE 5.75 m。与现有全球米分辨率CHM产品相比，平均绝对误差降低约1.5 m，RMSE降低约2 m。
Conclusion: 使用大规模机载LiDAR衍生的冠层高度数据训练的单目深度估计网络，为从卫星RGB图像进行高分辨率、空间连续的森林冠层高度估计提供了一条有前景且可扩展的途径。

[47] FloorplanVLM: A Vision-Language Model for Floorplan Vectorization

Yuanqing Liu,Ziming Yang,Yulong Li,Yue Yang

Main category: cs.CV

TL;DR: FloorplanVLM：将栅格平面图转换为工程级矢量图形的统一框架，通过图像条件序列建模直接输出结构化JSON序列，实现复杂几何的精确约束满足。

Motivation: 将栅格平面图转换为工程级矢量图形具有挑战性，因为复杂的拓扑结构和严格的几何约束。现有方法（基于像素的启发式方法或基于查询的transformer）存在脆弱性、产生碎片化房间等问题。
Method: 1. 将平面图矢量化重新定义为图像条件序列建模任务；2. 构建大规模数据集Floorplan-2M和高保真子集Floorplan-HQ-300K；3. 采用渐进训练策略：监督微调（SFT）用于结构基础和质量退火，然后使用组相对策略优化（GRPO）进行严格几何对齐。
Result: 在FPBench-2K基准测试中，FloorplanVLM表现出卓越的结构有效性，达到92.52%的外墙IoU，并在非曼哈顿架构上展现出强大的泛化能力。
Conclusion: FloorplanVLM通过"像素到序列"范式成功解决了复杂平面图的矢量化挑战，实现了精确的几何约束满足，并为该领域提供了标准化评估基准。

[48] DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

Feiyang jia,Lin Liu,Ziying Song,Caiyan Jia,Hangjun Ye,Xiaoshuai Hao,Long Chen

Main category: cs.CV

TL;DR: DriveWorld-VLA提出了一种统一世界建模与规划的端到端自动驾驶框架，通过在潜在空间中紧密集成视觉语言动作模型与世界模型，实现可控的动作条件想象。

Motivation: 现有方法无法在单一架构中有效统一未来场景演化与动作规划，主要原因是潜在状态共享不足，限制了视觉想象对动作决策的影响。
Method: 提出DriveWorld-VLA框架，在表示层面紧密集成VLA与世界模型，将世界模型的潜在状态作为VLA规划器的核心决策状态，支持特征级的可控动作条件想象。
Result: 在NAVSIMv1上达到91.3 PDMS，NAVSIMv2上达到86.8 EPDMS，nuScenes上达到0.16的3秒平均碰撞率，均达到最先进性能。
Conclusion: DriveWorld-VLA通过统一世界建模与规划，使VLA规划器能够直接从整体场景演化建模中受益，减少对密集标注监督的依赖，提升自动驾驶决策能力。

[49] MicroBi-ConvLSTM: An Ultra-Lightweight Efficient Model for Human Activity Recognition on Resource Constrained Devices

Mridankan Mandal

Main category: cs.CV

TL;DR: 提出MicroBi-ConvLSTM，一种超轻量级卷积循环架构，仅需11.4K参数，比现有最佳轻量模型减少2.9-11.9倍参数，在保持线性复杂度同时，在八个HAR基准测试中保持竞争力，量化后仅23KB部署占用。

Motivation: 资源受限可穿戴设备上的人体活动识别需要在准确性和严格的内存/计算预算之间取得平衡。现有最先进的轻量架构（如TinierHAR和TinyHAR）虽然精度高，但在考虑操作系统开销后仍超出微控制器的SRAM限制。
Method: 提出MicroBi-ConvLSTM超轻量级卷积循环架构：采用两阶段卷积特征提取，4倍时间池化，单层双向LSTM。平均仅需11.4K参数，保持线性O(N)复杂度。
Result: 在八个HAR基准测试中表现优异：UCI-HAR上93.41%宏F1，SKODA装配手势94.46%，Daphnet步态冻结检测88.98%。INT8量化后仅损失0.21%平均F1分数，部署占用仅23.0KB。
Conclusion: MicroBi-ConvLSTM在超轻量级范围内保持竞争力，显著减少参数数量，适合内存受限的边缘设备部署。系统消融研究表明双向性对事件检测有益，但对周期性运动增益有限。

[50] AdaptOVCD: Training-Free Open-Vocabulary Remote Sensing Change Detection via Adaptive Information Fusion

Mingyu Dou,Shi Qiu,Ming Hu,Yifan Chen,Huping Ye,Xiaohan Liao,Zhe Sun

Main category: cs.CV

TL;DR: 提出AdaptOVCD，一种基于双维度多层次信息融合的无训练开放词汇变化检测架构，能够在零样本情况下检测任意类别变化。

Motivation: 现有变化检测方法依赖预定义类别和大规模像素级标注，限制了在开放世界场景中的泛化能力和适用性。
Method: 基于双维度多层次信息融合：垂直维度整合数据、特征和决策层信息；水平维度采用针对性自适应设计。具体包括自适应辐射对齐(ARA)、自适应变化阈值(ACT)和自适应置信度过滤(ACF)。
Result: 在9个场景评估中显著优于现有无训练方法，在跨数据集评估中达到全监督性能上限的84.89%，展现优越泛化能力。
Conclusion: AdaptOVCD通过异构预训练模型的深度协同有效缓解误差传播，实现了零样本下的任意类别变化检测。

Haipeng Li,Rongxuan Peng,Anwei Luo,Shunquan Tan,Changsheng Chen,Anastasia Antsiferova

Main category: cs.CV

TL;DR: ForgeryEraser是一个无需访问目标AIGC检测器的通用反取证攻击框架，通过多模态引导损失在VLM特征空间中擦除伪造痕迹，显著降低先进检测器性能。

Motivation: 现有AIGC检测评估协议忽视反取证攻击，无法确保检测器在现实应用中的全面鲁棒性。当前检测器依赖公开可访问的视觉语言模型作为共享骨干网络，存在对抗性漏洞。
Method: 设计多模态引导损失，在VLM特征空间中驱动伪造图像嵌入向文本衍生的真实锚点靠近以擦除伪造痕迹，同时远离伪造锚点，无需访问目标检测器。
Result: 在全局合成和局部编辑基准测试中，ForgeryEraser显著降低了先进AIGC检测器的性能，并使可解释取证模型为伪造图像生成与真实图像一致的解释。
Conclusion: 该研究揭示了AIGC检测器在反取证攻击下的脆弱性，提出的通用攻击框架强调了评估协议需要纳入对抗性测试以确保检测器在现实世界中的鲁棒性。

[52] NECromancer: Breathing Life into Skeletons via BVH Animation

Mingxi Xu,Qi Wang,Zhengyu Wen,Phong Dao Thien,Zhengyu Li,Ning Zhang,Xiaoyu He,Wei Zhao,Kehong Gong,Mingyuan Zhang

Main category: cs.CV

TL;DR: NECromancer是一个通用的运动标记化框架，可直接处理任意BVH骨架，实现跨物种运动分析和合成。

Motivation: 现有运动标记化方法大多局限于特定物种的骨架，无法适应多样化的形态结构，限制了跨形态运动模型的通用性。
Method: 包含三个组件：1) 本体感知骨架图编码器(OwO)，从BVH文件编码结构先验；2) 拓扑无关标记器(TAT)，将运动序列压缩为通用离散表示；3) 统一BVH数据集(UvU)，聚合异构骨架的运动数据。
Result: NEC实现了高保真重建和有效压缩，成功解耦运动与骨架结构，支持跨物种运动转移、组合、去噪、生成和文本-运动检索等任务。
Conclusion: NEC建立了一个统一的运动分析和合成框架，能够处理多样化形态，为通用运动模型提供了基础。

[53] LIBERO-X: Robustness Litmus for Vision-Language-Action Models

Guodong Wang,Chenkai Zhang,Qingjie Liu,Jinjin Zhang,Jiancheng Cai,Junjie Liu,Xinmin Liu

Main category: cs.CV

TL;DR: LIBERO-X是一个新的VLA基准测试，通过分层评估协议和高多样性训练数据集，更可靠地评估视觉-语言-动作模型的泛化能力和鲁棒性。

Motivation: 现有VLA基准测试存在评估协议不足的问题，无法充分捕捉真实世界的分布变化，导致对模型能力的评估有限或误导性。
Method: 1) 设计分层评估协议，包含渐进难度级别，针对空间泛化、物体识别和任务指令理解三个核心能力；2) 通过人类遥操作收集高多样性训练数据集，每个场景支持多个细粒度操作目标。
Result: 实验显示代表性VLA模型在累积扰动下性能显著下降，暴露出在场景理解和指令基础方面的持续局限性。
Conclusion: LIBERO-X通过整合分层评估与多样化训练数据，为评估和推进VLA发展提供了更可靠的基础。

[54] SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

Niccolo Avogaro,Nayanika Debnath,Li Mi,Thomas Frick,Junling Wang,Zexue He,Hang Hua,Konrad Schindler,Mattia Rigotti

Main category: cs.CV

TL;DR: SPARC是一个模块化视觉语言框架，通过分离感知与推理电路，实现两阶段处理：先视觉搜索定位相关区域，再基于这些区域进行推理，从而提高效率与性能。

Motivation: 当前视觉语言模型在测试时扩展存在脆弱性，感知与推理在非结构化思维链中纠缠，导致小错误会级联成完全错误的答案，且需要昂贵的强化学习来获得良好性能。
Method: SPARC采用两阶段管道：第一阶段进行显式视觉搜索以定位问题相关区域，第二阶段基于这些区域进行推理生成最终答案。支持非对称计算分配、选择性优化和压缩上下文处理。
Result: 在视觉推理基准测试中，SPARC优于单体基线和强视觉接地方法。例如，在V* VQA基准上将Qwen3VL-4B的准确率提高了6.7个百分点，在OOD任务上比"thinking with images"高出4.6分，同时所需token预算降低200倍。
Conclusion: SPARC通过明确分离感知与推理，提供了更稳健、高效且可扩展的视觉语言处理框架，支持独立测试时扩展和选择性优化，显著提升了视觉推理性能。

[55] An Integer Linear Programming Approach to Geometrically Consistent Partial-Partial Shape Matching

Viktoria Ehm,Paul Roetzer,Florian Bernard,Daniel Cremers

Main category: cs.CV

TL;DR: 首个针对部分-部分3D形状匹配的整数线性规划方法，利用几何一致性先验同时估计重叠区域和计算对应关系。

Motivation: 现实世界中3D形状通常只能部分观测（如3D扫描），但现有研究主要关注完整-完整和部分-完整匹配，部分-部分匹配因需同时计算对应关系和未知重叠区域而更具挑战性。
Method: 提出首个专门针对部分-部分3D形状匹配的整数线性规划方法，利用几何一致性作为强先验，同时实现重叠区域的鲁棒估计和邻域保持的对应关系计算。
Result: 实验证明该方法在匹配误差和平滑度方面均获得高质量结果，且比先前方法更具可扩展性。
Conclusion: 该方法有效解决了部分-部分3D形状匹配的核心挑战，为现实世界应用提供了实用解决方案。

[56] ProtoQuant: Quantization of Prototypical Parts For General and Fine-Grained Image Classification

Mikołaj Janusz,Adam Wróbel,Bartosz Zieliński,Dawid Rymarczyk

Main category: cs.CV

TL;DR: ProtoQuant是一种基于原型部件的可解释模型，通过潜在向量量化实现原型稳定性和可解释性，无需微调主干网络即可在ImageNet等大规模数据集上工作。

Motivation: 现有基于原型的模型在ImageNet规模上泛化能力差，需要计算昂贵的骨干网络微调，且存在"原型漂移"问题——学习的原型缺乏训练分布的实际基础，在小扰动下激活会变化。
Method: 通过潜在向量量化将原型约束在潜在空间的离散学习码本中，确保原型忠实表示训练数据，无需更新骨干网络，作为高效可解释的头部模块工作。
Result: 在ImageNet和多个细粒度基准测试（CUB-200、Cars-196）上评估，ProtoQuant实现了有竞争力的分类准确性，能够泛化到ImageNet，并且与其他基于原型部件的方法具有相当的可解释性指标。
Conclusion: ProtoQuant通过潜在向量量化解决了原型漂移问题，实现了原型稳定性和可解释性，同时在大规模数据集上保持高效性和竞争力。

[57] DAVE: Distribution-aware Attribution via ViT Gradient Decomposition

Adam Wróbel,Siddhartha Gairola,Jacek Tabor,Bernt Schiele,Bartosz Zieliński,Dawid Rymarczyk

Main category: cs.CV

TL;DR: 提出DAVE方法，通过ViT梯度分解实现分布感知的归因，解决Vision Transformer归因图中的结构化伪影问题

Motivation: Vision Transformers在计算机视觉中已成为主导架构，但为其生成稳定且高分辨率的归因图仍然具有挑战性。架构组件如补丁嵌入和注意力路由会在像素级解释中引入结构化伪影，导致现有方法依赖粗糙的补丁级归因。
Method: 提出DAVE方法，基于输入梯度的结构化分解，利用ViT的架构特性，分离出输入-输出映射的局部等变和稳定组件，将其与架构诱导的伪影和其他不稳定性源隔离开来。
Result: 该方法能够生成更稳定、更高分辨率的归因图，减少结构化伪影，提供更准确的像素级解释。
Conclusion: DAVE为Vision Transformers提供了一种数学基础扎实的归因方法，通过梯度分解有效解决了现有归因方法中的伪影和不稳定性问题。

[58] CauCLIP: Bridging the Sim-to-Real Gap in Surgical Video Understanding via Causality-Inspired Vision-Language Modeling

Yuxin He,An Li,Cheng Xue

Main category: cs.CV

TL;DR: CauCLIP：基于因果关系的视觉语言框架，利用CLIP学习领域不变表示，用于无需目标领域数据的外科阶段识别

Motivation: 外科阶段识别是智能手术室中情境感知决策支持的关键组件，但训练鲁棒模型受到标注临床视频有限以及合成与真实手术数据之间大领域差距的阻碍
Method: 提出CauCLIP框架：1）基于频率的数据增强策略，扰动领域特定属性同时保留语义结构；2）因果抑制损失，减轻非因果偏见并强化因果手术特征；3）统一训练框架使模型专注于手术工作流的稳定因果因素
Result: 在SurgVisDom硬适应基准测试中，该方法显著优于所有竞争方法，展示了因果引导的视觉语言模型在领域泛化外科视频理解中的有效性
Conclusion: CauCLIP通过因果推理和视觉语言建模，实现了无需目标领域数据的领域泛化外科阶段识别，为智能手术室提供了有效的决策支持解决方案

[59] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

Junxian Li,Kai Liu,Leyang Chen,Weida Wang,Zhixin Wang,Jiaqi Xu,Fan Li,Renjing Pei,Linghe Kong,Yulun Zhang

Main category: cs.CV

TL;DR: PlanViz是一个评估统一多模态模型在计算机使用任务中图像生成和编辑能力的新基准，包含路线规划、工作流程图和网页UI展示三个子任务，并提出PlanScore进行综合评估。

Motivation: 统一多模态模型在图像生成和多模态推理方面表现出色，但其在计算机使用规划任务（如空间推理和过程理解）中的能力尚未充分探索，这些任务与日常生活密切相关。
Method: 提出PlanViz基准，包含三个需要规划步骤的日常子任务：路线规划、工作流程图和网页UI展示。通过人工标注问题和参考图像确保数据质量，并提出任务自适应评分PlanScore来评估生成图像的正确性、视觉质量和效率。
Result: 通过实验揭示了统一多模态模型在该领域的局限性，为未来研究指明了关键机会。
Conclusion: PlanViz基准填补了评估统一多模态模型在计算机使用任务中图像生成和编辑能力的空白，通过系统评估揭示了现有模型的不足，为相关研究提供了重要参考。

[60] CytoCrowd: A Multi-Annotator Benchmark Dataset for Cytology Image Analysis

Yonghao Si,Xingyuan Zeng,Zhao Chen,Libin Zheng,Caleb Chen Cao,Lei Chen,Jian Yin

Main category: cs.CV

TL;DR: CytoCrowd是一个新的细胞学分析公共基准数据集，包含446张高分辨率图像，每张图像都有来自四位独立病理学家的原始冲突标注以及由高级专家建立的独立高质量金标准真值。

Motivation: 当前医学图像分析数据集存在关键缺陷：大多数数据集要么提供单一干净的真值（掩盖了真实世界中专家之间的分歧），要么提供多个标注但没有独立的金标准进行客观评估。需要弥合这一差距。
Method: 构建CytoCrowd数据集，包含446张高分辨率细胞学图像，每张图像都有两个关键组成部分：1）来自四位独立病理学家的原始冲突标注；2）由高级专家建立的独立高质量金标准真值。
Result: 该数据集可作为标准计算机视觉任务（如目标检测和分类）的基准，同时为评估必须解决专家分歧的标注聚合算法提供了真实的测试平台。提供了两种任务的全面基线结果。
Conclusion: CytoCrowd展示了其挑战性，并确立了其作为开发下一代医学图像分析模型资源的价值，为处理专家分歧和客观评估提供了新的研究机会。

[61] Can We Build a Monolithic Model for Fake Image Detection? SICA: Semantic-Induced Constrained Adaptation for Unified-Yet-Discriminative Artifact Feature Space Reconstruction

Bo Du,Xiaochen Ma,Xuekang Zhu,Zhe Yang,Chaogun Niu,Jian Liu,Ji-Zhe Zhou

Main category: cs.CV

TL;DR: 本文提出SICA方法，通过语义引导的约束适应解决跨四个图像取证子领域的统一检测问题，首次诊断了现有单模型性能不佳的原因是伪影特征空间的崩溃，并成功重建了统一而可区分的特征空间。

Motivation: 在真实取证场景中，跨多个图像取证子领域的统一检测（FID）至关重要。虽然理论上单模型方法比集成方法更有前景，但实践中其性能一直较差。本文首次诊断出性能不佳的原因是跨子领域伪影的"异质性现象"导致的伪影特征空间崩溃。
Method: 提出语义引导的约束适应（SICA）方法，这是首个单模型FID范式。假设高级语义可以作为特征空间重建的结构先验，通过语义引导来重建"统一而可区分"的伪影特征空间。
Result: 在OpenMMSec数据集上的大量实验表明，SICA优于15种最先进方法，并以近乎正交的方式重建了目标统一而可区分的伪影特征空间，有力验证了假设。
Conclusion: SICA成功解决了单模型FID的核心挑战，通过语义引导重建伪影特征空间，实现了跨多个图像取证子领域的统一检测，为实际取证应用提供了有效的解决方案。

Dong Chen,Zizhuang Wei,Jialei Xu,Xinyang Sun,Zonglin He,Meiru An,Huili Peng,Yong Hu,Kenneth MC Cheung

Main category: cs.CV

TL;DR: 提出了ScoliGait数据集和多模态框架，用于青少年特发性脊柱侧弯的早期检测，解决了现有方法的数据泄露和可解释性不足问题。

Motivation: 青少年特发性脊柱侧弯（AIS）的早期检测很重要，但传统筛查方法主观、难以规模化且依赖专家经验。基于视频的步态分析虽有前景，但现有数据集存在数据泄露问题（同一受试者的重复片段），模型过于简化且缺乏临床可解释性。
Method: 1) 引入ScoliGait数据集：包含1,572个训练视频片段和300个完全独立的测试片段，每个片段标注了放射学Cobb角度和基于临床运动学先验的描述文本。2) 提出多模态框架：整合临床先验引导的运动学知识图谱用于可解释特征表示，以及潜在注意力池化机制来融合视频、文本和知识图谱模态。
Result: 该方法在真实、非重复受试者基准测试中建立了新的最先进水平，显示出显著的性能提升，为可扩展、非侵入性的AIS评估提供了稳健、可解释且临床基础扎实的解决方案。
Conclusion: 这项工作为青少年特发性脊柱侧弯的可扩展、非侵入性评估提供了稳健、可解释且临床基础扎实的基础，解决了现有方法的数据泄露和可解释性不足问题。

[63] Gold Exploration using Representations from a Multispectral Autoencoder

Argyro Tsandalidou,Konstantinos Dogeas,Eleftheria Tetoula Tsonga,Elisavet Parselia,Georgios Tsimiklis,George Arvanitakis

Main category: cs.CV

TL;DR: 利用Sentinel-2卫星影像和预训练的Isometric自编码器基础模型，通过生成式表示学习识别含金区域，相比原始光谱输入显著提升了分类准确率。

Motivation: 传统矿产勘探成本高、现场数据有限，需要开发基于卫星影像的大规模成矿预测方法。利用生成式表示学习可以从有限标注数据中提取可迁移的矿物学模式。
Method: 使用在FalconSpace-S2 v1.0数据集上预训练的Isometric自编码器基础模型，从Sentinel-2多光谱影像中提取信息密集的光谱-空间表示，然后输入轻量级XGBoost分类器进行含金区域识别。
Result: 在63个已知金矿和非金矿位置的Sentinel-2影像数据集上，相比原始光谱输入基线，该方法将patch级准确率从0.51提升到0.68，图像级准确率从0.55提升到0.73。
Conclusion: 生成式嵌入能够从有限标注数据中捕获可迁移的矿物学模式，基础模型表示有望使矿产勘探更加高效、可扩展和全球适用。

[64] Revisiting Emotions Representation for Recognition in the Wild

Joao Baptista Cardia Neto,Claudio Ferrari,Stefano Berretti

Main category: cs.CV

TL;DR: 提出一种将复杂情绪状态描述为情绪类别概率分布的新方法，通过将VAD空间映射到基本和复合情绪分布来自动重新标注现有数据集。

Motivation: 传统面部情绪识别将情绪简化为六种基本情绪的单标签分类，这过于简化，无法表示自发情绪状态的多面性谱系，因为真实情绪通常是多种情绪以不同强度组合的结果。
Method: 利用VAD（效价-唤醒-支配）空间中基本和复合情绪的概率分布映射研究，自动重新标注现有数据集。给定带有VAD标注的面部图像，可以估计其属于每个情绪分布的可能性，从而将情绪状态描述为情绪混合。
Result: 在初步实验中展示了该方法的优势，提供了新的研究方向，并在GitHub上公开了数据标注。
Conclusion: 该方法能够更丰富地描述情绪状态，同时考虑情绪感知的模糊性，为复杂情绪识别提供了新的概率分布框架。

[65] Machine Learning for Detection and Severity Estimation of Sweetpotato Weevil Damage in Field and Lab Conditions

Doreen M. Chelangat,Sudi Murindanyi,Bruce Mugizi,Paul Musana,Benard Yada,Milton A. Otema,Florence Osaru,Andrew Katumba,Joyce Nakatumba-Nabende

Main category: cs.CV

TL;DR: 本研究开发了基于计算机视觉的自动化方法，用于评估甘薯象鼻虫损害，在田间和实验室环境下分别实现了71.43%的准确率和77.7%的平均精度。

Motivation: 甘薯象鼻虫是甘薯生产中最具破坏性的害虫之一，特别是在撒哈拉以南非洲地区。传统的损害评估方法主要依赖人工评分，劳动密集、主观性强且结果不一致，严重阻碍了培育抗虫甘薯品种的育种计划。
Method: 研究引入了基于计算机视觉的自动化评估方法：1）在田间环境中收集数据训练分类模型预测根部损害严重程度；2）建立实验室数据集并设计对象检测流程，采用YOLO12实时检测模型，结合根部分割和切片策略的两阶段实验室流程，以提高小对象的可检测性。
Result: 田间分类模型测试准确率达到71.43%；实验室对象检测模型在识别微小象鼻虫取食孔方面，平均精度达到77.7%。
Conclusion: 计算机视觉技术能够提供高效、客观且可扩展的评估工具，与当代育种工作流程无缝衔接。这些进展显著提高了甘薯育种计划中的表型分析效率，在减轻象鼻虫对粮食安全的不利影响方面发挥关键作用。

[66] A Unified Formula for Affine Transformations between Calibrated Cameras

Levente Hajder

Main category: cs.CV

TL;DR: 本文推导了校准视图间局部图像块仿射变换的闭式解，该变换是相对相机位姿、图像坐标和局部表面法向的函数。

Motivation: 在计算机视觉中，理解不同视角下图像局部区域的几何变换关系对于特征匹配、三维重建等任务至关重要。现有方法可能缺乏对仿射变换的精确闭式表达。
Method: 通过几何推导，建立了从相对相机位姿、图像坐标和局部表面法向到仿射变换的数学关系，得到了闭式表达式。
Result: 成功推导出仿射变换的闭式表达式，该表达式明确展示了变换如何依赖于相对相机位姿、图像坐标和局部表面法向。
Conclusion: 该闭式表达式为校准视图间的局部图像变换提供了精确的数学描述，可用于改进特征匹配、三维重建等计算机视觉任务。

[67] RAIGen: Rare Attribute Identification in Text-to-Image Generative Models

Silpa Vadakkeeveetil Sreelatha,Dan Wang,Serge Belongie,Muhammad Awais,Anjan Dutta

Main category: cs.CV

TL;DR: RAIGen是首个用于无监督发现扩散模型中稀有属性的框架，通过稀疏自编码器和新颖的少数属性度量来识别被低估的社会、文化或风格特征。

Motivation: 现有方法要么关注预定义的公平类别（如性别、种族），要么识别主导输出的多数属性，但都忽略了发现数据分布中代表性不足但仍编码在模型表示中的稀有或少数特征（社会、文化或风格属性）。
Method: RAIGen利用Matryoshka稀疏自编码器和一种新颖的少数属性度量方法，结合神经元激活频率和语义独特性，来识别可解释的神经元，这些神经元的最高激活图像能揭示代表性不足的属性。
Result: 实验表明RAIGen能在Stable Diffusion中发现超越固定公平类别的属性，可扩展到SDXL等更大模型，支持跨架构的系统性审计，并能在生成过程中有针对性地放大稀有属性。
Conclusion: RAIGen为无监督发现扩散模型中的稀有属性提供了首个框架，填补了现有方法在识别数据分布中代表性不足但仍编码的特征方面的空白，具有实际应用价值。

[68] GaussianPOP: Principled Simplification Framework for Compact 3D Gaussian Splatting via Error Quantification

Soonbin Lee,Yeong-Gyu Kim,Simon Sasse,Tomas M. Borges,Yago Sanchez,Eun-Seok Ryu,Thomas Schierl,Cornelius Hellge

Main category: cs.CV

TL;DR: GaussianPOP：基于分析性高斯误差量化的3D高斯泼溅简化框架，通过精确测量每个高斯对渲染图像的贡献来实现更好的紧凑性与渲染质量平衡

Motivation: 现有3D高斯泼溅简化方法通常使用重要性评分（如混合权重或灵敏度）来识别冗余高斯，但这些评分并非基于视觉误差指标，导致在紧凑性和渲染保真度之间的权衡不够理想
Method: 提出基于分析性高斯误差量化的简化框架，核心贡献是从3DGS渲染方程直接推导出的新型误差准则，能精确测量每个高斯对渲染图像的贡献。引入高效算法，可在单次前向传播中实现实际误差计算
Result: 实验结果表明，该方法在训练中剪枝和训练后简化两种应用场景中都优于现有最先进的剪枝方法，实现了模型紧凑性和高渲染质量之间的优越权衡
Conclusion: GaussianPOP提供了一个准确且灵活的简化框架，支持训练中剪枝和训练后简化，通过迭代误差重新量化提高稳定性，在紧凑性和渲染质量之间实现了更好的平衡

[69] Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping

Chao Zhou,Tianyi Wei,Yiling Chen,Wenbo Zhou,Nenghai Yu

Main category: cs.CV

TL;DR: 提出PKA框架，通过位置对齐注意力(PAA)和关键词范围注意力(KSA)消除多条件控制中的冗余，结合条件敏感采样(CSAS)加速训练，实现10倍推理加速和5.1倍显存节省。

Motivation: 现有文本到图像模型在细粒度控制方面不足，而多条件控制集成到DiT中时，传统的"拼接-注意力"策略存在二次计算和内存开销问题，且跨模态交互存在空间和语义冗余。
Method: 提出PKA框架：1) PAA通过局部补丁对齐线性化空间控制；2) KSA通过语义感知掩码修剪无关的主题驱动交互；3) CSAS策略重新加权训练目标，聚焦关键去噪阶段加速收敛。
Result: PKA实现10.0倍推理加速和5.1倍VRAM节省，提供可扩展且资源友好的高保真多条件生成解决方案。
Conclusion: PKA框架通过消除多条件控制中的冗余交互，显著提升了DiT的效率，为资源受限环境下的高保真多条件图像生成提供了实用解决方案。

[70] Parameters as Experts: Adapting Vision Models with Dynamic Parameter Routing

Meng Lou,Stanley Yu,Yizhou Yu

Main category: cs.CV

TL;DR: AdaRoute是一种新的适配器式参数高效微调方法，采用混合专家架构，通过动态参数路由机制为不同输入生成定制化的权重矩阵，在密集预测任务中表现优异。

Motivation: 现有参数高效微调方法在复杂密集预测任务中存在局限性，包括输入无关建模和跨层表示冗余。需要一种能够生成输入相关、跨层特征交互的适配器方法。
Method: 提出AdaRoute方法，采用混合专家架构，包含共享专家中心。每个AdaRoute模块通过动态参数路由机制，根据当前输入选择性地聚合专家中心的参数矩阵，生成定制化的权重矩阵。
Result: 在语义分割、目标检测与实例分割、全景分割等多种视觉任务上进行了广泛实验，证明了AdaRoute的优越性能。
Conclusion: AdaRoute通过动态参数路由机制实现了输入相关的低秩适应，促进了跨层特征交互，在参数高效微调方面取得了显著改进。

[71] RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

Mohammadreza Salehi,Mehdi Noroozi,Luca Morreale,Ruchika Chavhan,Malcolm Chadwick,Alberto Gil Ramos,Abhinav Mehrotra

Main category: cs.CV

TL;DR: RFDM是一种高效的视频编辑模型，通过残差流扩散方法实现可变长度视频的逐帧编辑，计算效率接近图像模型，不依赖输入视频长度。

Motivation: 现有视频编辑方法需要固定长度输入且计算量大，而自回归视频生成方法在视频编辑领域尚未充分探索。需要一种既能处理可变长度视频又计算高效的编辑方法。
Method: 基于2D图像扩散模型，提出残差流扩散模型(RFDM)：1) 将时间步t的编辑条件建立在t-1的预测上；2) 通过新的前向过程公式鼓励模型预测目标输出与先前预测之间的残差，专注于连续帧之间的变化。
Result: 在全局/局部风格迁移和物体移除任务上，RFDM超越了基于图像的方法，与完全时空3D视频模型竞争，同时计算效率接近图像模型，且不依赖输入视频长度。
Conclusion: RFDM提供了一种高效、可扩展的视频编辑解决方案，通过残差流扩散方法实现了可变长度视频的逐帧编辑，在保持计算效率的同时达到了与更复杂模型相当的性能。

[72] NanoFLUX: Distillation-Driven Compression of Large Text-to-Image Generation Models for Mobile Devices

Ruchika Chavhan,Malcolm Chadwick,Alberto Gil Couto Pimentel Ramos,Luca Morreale,Mehdi Noroozi,Abhinav Mehrotra

Main category: cs.CV

TL;DR: NanoFLUX是一个2.4B参数的文本到图像流匹配模型，通过渐进式压缩从17B FLUX.1-Schnell蒸馏而来，能在移动设备上2.5秒内生成512×512图像

Motivation: 解决大规模文本到图像扩散模型与移动设备解决方案之间日益扩大的差距，实现高质量的设备端图像生成
Method: 采用渐进式压缩管道：1) 通过剪枝扩散变换器中的冗余组件将模型从12B压缩到2B；2) 使用基于ResNet的令牌下采样机制降低延迟；3) 提出新颖的文本编码器蒸馏方法，利用去噪器早期层的视觉信号
Result: NanoFLUX能在移动设备上约2.5秒内生成512×512图像，证明了高质量设备端文本到图像生成的可行性
Conclusion: 通过创新的压缩和蒸馏技术，成功缩小了最先进模型与设备端解决方案之间的差距，为移动设备上的高质量文本到图像生成提供了可行方案

[73] Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

Yuxuan Yao,Yuxuan Chen,Hui Li,Kaihui Cheng,Qipeng Guo,Yuwei Sun,Zilong Dong,Jingdong Wang,Siyu Zhu

Main category: cs.CV

TL;DR: 论文发现多模态扩散变换器(MMDiTs)存在"提示遗忘"现象，并提出无需训练的"提示再注入"方法来解决这个问题，显著提升了文本到图像生成的指令跟随能力。

Motivation: 在多模态扩散变换器中，文本分支的提示语义会随着网络深度增加而逐渐被遗忘，这影响了文本到图像生成的指令跟随能力。作者在SD3、SD3.5和FLUX.1三个代表性模型中都观察到了这一现象。
Method: 提出无需训练的"提示再注入"方法：将早期层的提示表示重新注入到深层网络中，以缓解提示遗忘问题。该方法不需要额外的训练，可以直接应用于现有模型。
Result: 在GenEval、DPG和T2I-CompBench++等基准测试中，该方法在指令跟随能力上取得了一致性提升，同时在偏好、美学和整体文本-图像生成质量等指标上也有改善。
Conclusion: 提示遗忘是多模态扩散变换器中的一个重要问题，通过简单的提示再注入方法可以有效缓解这一问题，提升文本到图像生成的指令跟随能力和整体质量。

[74] PANC: Prior-Aware Normalized Cut for Object Segmentation

Juan Gutiérrez,Victor Gutiérrez-Garcia,José Luis Blanco-Murillo

Main category: cs.CV

TL;DR: PANC：一种弱监督光谱分割框架，使用少量标注视觉标记来生成稳定、可控、可复现的对象掩码，通过操纵图拓扑结构实现高质量分割。

Motivation: 完全无监督分割方法通常只寻找最显著的对象，导致分割结果对初始化、种子顺序和阈值启发式敏感，缺乏稳定性和可控性。
Method: 基于TokenCut方法，在token-token亲和力图中加入少量与锚节点耦合的先验信息，通过操纵图拓扑结构使光谱特征空间偏向与标注一致的分割。
Result: 每个数据集仅需5-30个标注，在DUTS-TE、ECSSD、MS COCO等基准测试中达到SotA性能；在CrackForest上达到96.8% mIoU（比SotA提升14.43%），在CUB-200-2011和HAM10000上分别达到78.0%和78.8% mIoU。
Conclusion: PANC框架通过少量标注实现了稳定、可控、可复现的分割，在密集标注成本高或类内差异细微的领域表现优异，支持用户可控的语义分割。

[75] Seeing Beyond Redundancy: Task Complexity's Role in Vision Token Specialization in VLLMs

Darryl Hannan,John Cooper,Dylan White,Yijing Watkins

Main category: cs.CV

TL;DR: 该研究通过构建合成基准数据集探索VLLMs视觉冗余问题，发现任务复杂度与视觉压缩相关，高复杂度视觉数据对改善VLLMs视觉表示分布至关重要。

Motivation: 视觉大语言模型（VLLMs）的视觉能力一直落后于语言能力，尤其在需要细粒度视觉信息或空间推理的任务中表现不佳。现有研究认为视觉冗余是原因之一，但具体机制尚不明确，需要深入理解VLLMs如何处理不同类型视觉信息以及丢弃哪些信息。
Method: 1. 构建专门设计的合成基准数据集，用于探测各种视觉特征；2. 开发测量视觉冗余的指标；3. 在多个复杂视觉任务上微调VLLMs，研究冗余和压缩如何随训练数据复杂度变化。
Result: 发现任务复杂度与视觉压缩之间存在关联，表明足够比例的高复杂度视觉数据对于改变VLLMs视觉表示分布方式至关重要，从而提升其在复杂视觉任务上的性能。
Conclusion: 该研究为理解VLLMs视觉处理机制提供了新见解，揭示了视觉冗余与任务复杂度的关系，为训练下一代VLLMs提供了有价值的指导。

[76] Reliable Mislabel Detection for Video Capsule Endoscopy Data

Julia Werner,Julius Oexle,Oliver Bause,Maxime Le Floch,Franz Brinkmann,Hannah Tolle,Jochen Hampe,Oliver Bringmann

Main category: cs.CV

TL;DR: 提出一个医疗数据集中误标检测框架，在胶囊内镜数据集上验证，能有效识别错误标注并提升异常检测性能。

Motivation: 医疗影像标注困难：需要专科医生标注，标注者有限；类别边界模糊，影响深度学习分类性能。
Method: 开发医疗数据集误标检测框架，在两大公开胶囊内镜数据集上验证，并由三位胃肠病专家重新标注可疑样本。
Result: 框架成功检测错误标注数据，清洗后数据集相比现有基线在异常检测性能上有所提升。
Conclusion: 提出的误标检测框架能有效改善医疗数据集质量，提升机器学习模型性能。

[77] CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation

Kaiyi Huang,Yukun Huang,Yu Li,Jianhong Bai,Xintao Wang,Zinan Lin,Xuefei Ning,Jiwen Yu,Pengfei Wan,Yu Wang,Xihui Liu

Main category: cs.CV

TL;DR: CineScene：基于解耦场景上下文的三维感知电影视频生成框架，通过隐式三维特征注入实现场景一致、相机可控的动态主体视频合成

Motivation: 传统电影视频制作需要物理布景，成本高昂。为解决这一问题，研究者提出解耦场景上下文的电影视频生成任务：给定静态环境的多张图像，合成高质量视频，保持场景一致性并遵循用户指定的相机轨迹。
Method: 提出CineScene框架，利用隐式三维感知场景表示。核心创新是隐式上下文条件机制：通过VGGT将场景图像编码为视觉表示，通过额外上下文拼接将空间先验注入预训练文本到视频生成模型。引入随机打乱策略增强鲁棒性，并使用Unreal Engine 5构建场景解耦数据集。
Result: CineScene在场景一致电影视频生成方面达到最先进性能，能够处理大幅相机运动，并在多样化环境中展现良好的泛化能力。
Conclusion: CineScene通过隐式三维感知特征注入实现了高质量、场景一致、相机可控的电影视频生成，为降低电影制作成本提供了有效解决方案。

[78] MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

Ankan Deria,Komal Kumar,Adinath Madhavrao Dukre,Eran Segal,Salman Khan,Imran Razzak

Main category: cs.CV

TL;DR: MedMO是一个专门针对医学领域构建的多模态大语言模型，通过跨模态预训练、指令微调和强化学习三阶段训练，在医学视觉问答、报告生成和疾病定位等任务上显著优于现有开源模型。

Motivation: 当前多模态大语言模型在医学领域的应用受到领域覆盖不足、模态对齐不充分和推理能力有限的制约，需要专门针对医学领域构建的模型来解决这些挑战。
Method: 采用三阶段训练方案：1) 跨模态预训练对齐异构视觉编码器与医学语言骨干；2) 指令微调覆盖多任务监督（图像描述、视觉问答、报告生成、检索和带边界框的疾病定位）；3) 强化学习结合事实性检查和边界框GIoU奖励，增强空间定位和逐步推理能力。
Result: 在视觉问答基准上平均准确率比基线提升13.7%，接近SOTA模型Fleming-VL（差距仅1.9%）；文本问答比基线提升6.9%，比Fleming-VL提升14.5%；报告生成在语义和临床准确性上均有显著提升；疾病定位IoU比基线提升40.4%，比Fleming-VL提升37.0%；在放射学、眼科学和病理学-显微镜等多个模态上表现出良好的泛化能力。
Conclusion: MedMO通过专门针对医学领域的设计和训练，在多模态医学任务上取得了显著性能提升，特别是在空间定位和推理能力方面表现出色，为医学AI应用提供了强大的基础模型。

cs.CL

[79] Relevance-aware Multi-context Contrastive Decoding for Retrieval-augmented Visual Question Answering

Jongha Kim,Byungoh Ko,Jeehye Na,Jinsung Yoon,Hyunwoo J. Kim

Main category: cs.CL

TL;DR: RMCD是一种新颖的解码方法，通过基于相关性的多上下文对比解码，有效聚合多个相关上下文信息并抑制不相关上下文的负面影响，无需额外训练即可提升大视觉语言模型的知识密集型视觉问答性能。

Motivation: 尽管大视觉语言模型（LVLMs）能力显著，但仍缺乏对特定实体的详细知识。检索增强生成（RAG）通过外部知识库提供额外上下文来增强LVLMs，但现有的解码方法未能充分利用多个相关上下文，也无法有效抑制不相关上下文的负面影响。
Method: 提出相关性感知的多上下文对比解码（RMCD）方法。该方法通过结合基于每个上下文预测的输出生成最终预测，其中每个输出的权重基于其与问题的相关性。这样既能有效聚合多个相关上下文的有用信息，又能抵消不相关上下文的负面影响。
Result: 实验表明，RMCD在多个LVLMs上始终优于其他解码方法，在三个知识密集型视觉问答基准测试中取得最佳性能。RMCD无需额外训练，只需替换解码方法即可应用。分析还显示RMCD对检索结果具有鲁棒性，从最弱到最强的检索结果都表现最佳。
Conclusion: RMCD是一种简单有效的解码方法，能够显著提升检索增强生成在大视觉语言模型中的性能，特别是在处理多个上下文时能更好地利用相关信息并抑制噪声，为知识密集型视觉问答任务提供了实用的解决方案。

cs.RO

[80] MultiGraspNet: A Multitask 3D Vision Model for Multi-gripper Robotic Grasping

Stephany Ortuno-Chanelo,Paolo Rabino,Enrico Civitelli,Tatiana Tommasi,Raffaello Camoriano

Main category: cs.RO

TL;DR: MultiGraspNet：一个统一的多任务3D深度学习框架，可同时预测平行夹爪和真空吸盘的可行抓取姿态，使单机器人能处理多种末端执行器。

Motivation: 现有机器人抓取方法存在两个主要限制：要么针对单一夹爪设计（在昂贵的双臂设置中应用），要么依赖需要特定学习程序的定制混合夹爪，这些方法缺乏跨任务的可迁移性，限制了通用性。
Method: 提出MultiGraspNet多任务3D深度学习模型，在统一框架中同时预测平行夹爪和真空吸盘的可行抓取姿态。模型在GraspNet-1Billion和SuctionNet-1Billion数据集上训练，生成抓取性掩码量化每个场景点的抓取适宜度。通过共享早期特征同时保持夹爪特定细化器，有效利用不同抓取模式的互补信息。
Result: 在相关基准测试中表现出与单任务模型相当的竞争力。真实世界实验中，在单臂多夹爪机器人设置上，真空抓取任务比基线多抓取16%的已知物体和32%的新物体，平行夹爪任务也获得有竞争力的结果。
Conclusion: MultiGraspNet提供了一个统一的多任务框架，能够同时处理多种末端执行器的抓取预测，增强了在杂乱场景中的鲁棒性和适应性，为机器人抓取提供了更通用的解决方案。

[81] Think Proprioceptively: Embodied Visual Reasoning for VLA Manipulation

Fangyuan Wang,Peng Zhou,Jiaming Qi,Shipeng Lyu,David Navarro-Alarcon,Guodong Guo

Main category: cs.RO

TL;DR: ThinkProprio：将本体感觉转换为文本标记并与任务指令早期融合的VLA模型，通过视觉推理中的状态参与提升性能并减少计算开销

Motivation: 现有VLA模型通常将本体感觉作为后期条件信号注入，这限制了机器人状态对指令理解和视觉注意力分布的影响。需要让本体状态更早地参与视觉推理过程。
Method: 将本体感觉转换为VLM嵌入空间中的文本标记序列，在输入层与任务指令进行早期融合。这种方法允许机器人状态参与后续的视觉推理和标记选择，偏向于动作关键证据同时抑制冗余视觉标记。
Result: 文本标记化比学习投影器更有效；保留约15%的视觉标记即可达到使用完整标记集的性能；在CALVIN、LIBERO和真实世界操作任务中，ThinkProprio匹配或优于强基线，同时将端到端推理延迟降低50%以上。
Conclusion: 通过将本体感觉转换为文本标记并与指令早期融合，ThinkProprio实现了更有效的状态感知视觉推理，在保持性能的同时显著降低了计算延迟。

[82] DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Shenyuan Gao,William Liang,Kaiyuan Zheng,Ayaan Malik,Seonghyeon Ye,Sihyun Yu,Wei-Cheng Tseng,Yuzhu Dong,Kaichun Mo,Chen-Hsuan Lin,Qianli Ma,Seungjun Nah,Loic Magne,Jiannan Xiang,Yuqi Xie,Ruijie Zheng,Dantong Niu,You Liang Tan,K. R. Zentner,George Kurian,Suneel Indupuru,Pooya Jannaty,Jinwei Gu,Jun Zhang,Jitendra Malik,Pieter Abbeel,Ming-Yu Liu,Yuke Zhu,Joel Jang,Linxi "Jim" Fan

Main category: cs.RO

TL;DR: DreamDojo是一个从44k小时人类第一视角视频中学习的世界模型，通过连续潜在动作解决动作标签稀缺问题，实现了对物理理解和精确动作控制，并能加速到实时10.81 FPS，支持遥操作、策略评估和基于模型的规划等应用。

Motivation: 模拟不同环境中的动作结果对通用智能体开发至关重要，但灵巧机器人任务的世界动力学建模面临数据覆盖有限和动作标签稀缺的挑战。需要从大规模无标签视频中学习交互知识和灵巧控制。
Method: 提出DreamDojo基础世界模型，使用44k小时第一视角人类视频进行预训练，引入连续潜在动作作为统一代理动作来增强无标签视频中的交互知识迁移，并通过蒸馏管道加速到实时速度。
Result: DreamDojo在小规模目标机器人数据上微调后展现出强大的物理理解和精确动作可控性，加速到10.81 FPS实时速度并提升上下文一致性，在多个OOD基准测试中验证了对开放世界、接触丰富任务的模拟能力。
Conclusion: DreamDojo通过大规模视频预训练和连续潜在动作设计，成功构建了能够模拟开放世界接触丰富任务的世界模型，为通用机器人世界模型的发展铺平了道路，支持遥操作、策略评估和规划等重要应用。

eess.IV

[83] COSMOS: Coherent Supergaussian Modeling with Spatial Priors for Sparse-View 3D Splatting

Chaeyoung Jeong,Kwangsu Kim

Main category: eess.IV

TL;DR: COSMOS通过引入超高斯分组和空间先验，解决了3DGS在稀疏视图下的过拟合和结构退化问题，实现了更好的3D重建效果。

Motivation: 3D高斯泼溅(3DGS)在稀疏输入视图下训练时会出现过拟合和结构退化问题，导致新视角泛化能力差。这是因为3DGS仅依赖光度损失优化，缺乏3D结构先验。
Method: 提出COSMOS方法，引入超高斯分组概念，基于局部几何线索和外观特征对高斯进行分组。使用组间全局自注意力和组内稀疏局部注意力整合全局与局部空间信息，并通过组内位置正则化保持结构一致性。
Result: 在Blender和DTU数据集上的实验表明，COSMOS在稀疏视图设置下超越了现有方法，无需外部深度监督。
Conclusion: 通过引入结构先验和超高斯分组，COSMOS有效解决了3DGS在稀疏视图下的局限性，实现了更一致和稳定的3D重建。

[84] ALIEN: Analytic Latent Watermarking for Controllable Generation

Liangqi Lei,Keke Gai,Jing Yu,Qi Wu

Main category: eess.IV

TL;DR: ALIEN提出首个可分析推导的时间相关调制系数，实现可控水印嵌入，显著提升生成质量和鲁棒性

Motivation: 现有方法依赖计算密集的启发式优化进行迭代信号优化，导致高训练开销和局部最优陷阱，需要更高效可控的水印框架
Method: 提出ALIEN框架，首次推导时间相关调制系数，指导水印残差扩散以实现可控水印嵌入模式
Result: ALIEN-Q在5个质量指标上超越SOTA 33.1%，ALIEN-R在15种条件下对生成变体和稳定性威胁的鲁棒性提升14.0%
Conclusion: ALIEN通过分析推导的调制系数解决了现有方法的计算效率和局部最优问题，实现了高质量和强鲁棒性的可控水印嵌入

[85] Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Hengjie Liu,Yimeng Dou,Di Xu,Xinyi Fu,Dan Ruan,Ke Sheng

Main category: eess.IV

TL;DR: 该论文总结了在Learn2Reg 2025 LUMIR25挑战赛中取得第一名的零样本医学图像配准方法，通过MIND损失、强度随机化和轻量级实例优化，实现了仅用T1加权MRI训练就能泛化到多种MRI对比度的跨域配准。

Motivation: LUMIR25挑战赛要求解决医学图像配准中的零样本跨域问题：训练数据仅包含T1加权脑部MRI，但需要泛化到高场MRI、病理脑组织和多种MRI对比度等域偏移场景。这需要开发能够处理未见域数据的鲁棒配准方法。
Method: 方法包括三个核心策略：1) 基于模态无关邻域描述符(MIND)的多模态损失函数；2) 强度随机化进行外观增强；3) 推理时在特征编码器上进行轻量级实例特定优化(ISO)。首先分析了LUMIR24优胜方法以确定单模态配准性能的关键因素。
Result: 在验证集上，该方法在T1-T2配准中取得了合理的精度，同时保持了良好的变形规律性。在LUMIR25挑战赛测试集上获得了总体第一名。
Conclusion: 通过结合MIND损失、强度增强和实例优化这三种简单而有效的策略，成功实现了仅用T1加权MRI训练就能泛化到多种MRI对比度的零样本跨域配准，为解决医学图像配准中的域偏移问题提供了有效方案。

[86] AS-Mamba: Asymmetric Self-Guided Mamba Decoupled Iterative Network for Metal Artifact Reduction

Bowen Ning,Zekun Zhou,Xinyi Zhong,Zhongzhen Wang,HongXin Wu,HaiTao Wang,Liu Shi,Qiegen Liu

Main category: eess.IV

TL;DR: AS-Mamba：基于状态空间模型的自引导Mamba网络，用于CT金属伪影抑制，通过捕获方向性几何特征和频域校正来提升图像质量

Motivation: 现有深度学习方法（如CNN和Transformer）难以显式捕获金属伪影的方向性几何特征，导致结构恢复不完整，影响临床诊断准确性
Method: 提出非对称自引导Mamba网络（AS-Mamba）：1）利用状态空间模型（SSMs）的序列建模能力捕获和抑制方向性条纹伪影；2）引入频域校正机制修正全局幅度谱，缓解束硬化引起的强度不均匀性；3）采用自引导对比正则化策略弥合不同临床场景的分布差异
Result: 在公共和临床牙科CBCT数据集上的大量实验表明，AS-Mamba在抑制方向性条纹伪影和保留结构细节方面优于现有方法
Conclusion: AS-Mamba通过将物理几何先验整合到深度网络设计中，有效解决了CT金属伪影问题，验证了方向性特征建模与频域校正相结合的有效性

[87] Orientation-Robust Latent Motion Trajectory Learning for Annotation-free Cardiac Phase Detection in Fetal Echocardiography

Yingyu Yang,Qianye Yang,Can Peng,Elena D'Alberti,Olga Patey,Aris T. Papageorghiou,J. Alison Noble

Main category: eess.IV

TL;DR: ORBIT：一种自监督框架，通过心脏变形轨迹的转折点自动检测胎儿超声心动图中的舒张末期和收缩末期帧，无需人工标注且对胎儿心脏方向具有鲁棒性。

Motivation: 胎儿超声心动图对先天性心脏病检测至关重要，但缺乏胎儿心电图时，手动识别舒张末期和收缩末期帧非常耗时。现有无标注方法受限于固定方向假设，需要一种方向鲁棒的自适应方法。
Method: 提出ORBIT自监督框架，使用配准作为自监督任务，学习心脏变形的潜在运动轨迹，通过轨迹转折点捕捉心脏舒张与收缩的转换，实现无需标注且方向鲁棒的心脏相位检测。
Result: 在正常胎儿超声心动图视频上训练后，ORBIT在正常病例（ED MAE=1.9帧，ES MAE=1.6帧）和先天性心脏病病例（ED MAE=2.4帧，ES MAE=2.1帧）上均表现一致，优于现有受方向约束的无标注方法。
Conclusion: ORBIT展示了直接从四腔心胎儿超声心动图中实现鲁棒心脏相位检测的潜力，为完全自动化的先天性心脏病分析提供了关键组件。

cs.AI

[88] OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Zhangquan Chen,Jiale Tao,Ruihuang Li,Yihao Hu,Ruitao Chen,Zhantao Yang,Xinlei Yu,Haodong Jing,Manyuan Zhang,Shuai Shao,Biao Wang,Qinglin Lu,Ruqi Huang

Main category: cs.AI

TL;DR: OmniVideo-R1是一个增强的多模态推理框架，通过查询密集型定位和模态注意力融合技术，提升视频音频-视觉理解任务的性能。

Motivation: 人类通过多种模态协同感知世界，但现有的全视频模型在音频-视觉理解任务上仍面临挑战。需要开发能够利用多模态线索进行推理的模型。
Method: 提出OmniVideo-R1框架，包含两个关键技术：1) 基于自监督学习的查询密集型定位；2) 基于对比学习的模态注意力融合。
Result: 在多个基准测试上的广泛实验表明，OmniVideo-R1始终优于强基线模型，证明了其有效性和强大的泛化能力。
Conclusion: OmniVideo-R1通过强化多模态推理能力，显著提升了全视频模型的音频-视觉理解性能，为多模态AI研究提供了有效解决方案。

[89] Trifuse: Enhancing Attention-Based GUI Grounding via Multimodal Fusion

Longhui Ma,Di Zhao,Siwei Wang,Zhao Lv,Miao Wang

Main category: cs.AI

TL;DR: Trifuse是一个基于注意力的GUI grounding框架，通过整合OCR文本线索和图标级语义，无需任务特定微调即可实现强大的界面元素定位性能。

Motivation: 现有GUI grounding方法主要依赖大规模数据集微调MLLMs来预测坐标，这种方法数据密集且对未见界面的泛化能力差。而基于注意力的替代方法虽然无需微调，但由于缺乏明确的空间锚点而可靠性低。
Method: Trifuse框架通过Consensus-SinglePeak融合策略，整合了三种模态：注意力机制、OCR提取的文本线索和图标级语义描述。该策略强制跨模态一致性同时保持尖锐的定位峰值。
Result: 在四个grounding基准测试上的评估显示，Trifuse无需任务特定微调就能实现强大性能，显著减少对昂贵标注数据的依赖。消融研究表明，整合OCR和语义线索能持续提升不同骨干网络的性能。
Conclusion: Trifuse通过显式整合互补的空间锚点，解决了现有注意力方法可靠性低的问题，为GUI grounding提供了一个有效的通用框架，减少了对大规模标注数据的依赖。

[90] Same Answer, Different Representations: Hidden instability in VLMs

Farooq Ahmad Wani,Alessandro Suglia,Rohit Saxena,Aryo Pradipta Gema,Wai-Chung Kwan,Fazl Barez,Maria Sofia Bucarelli,Fabrizio Silvestri,Pasquale Minervini

Main category: cs.AI

TL;DR: 本文提出一个表示感知和频率感知的评估框架，发现VLMs在保持预测不变时内部表示会大幅漂移，模型规模增大不提升鲁棒性，扰动对不同任务有不同影响。

Motivation: 当前视觉语言模型的鲁棒性评估主要关注输出层面的不变性，隐含假设稳定的预测反映稳定的多模态处理过程。作者认为这一假设不足，需要更深入评估内部表示的变化。
Method: 提出表示感知和频率感知的评估框架，测量内部嵌入漂移、频谱敏感性和结构平滑性（视觉token的空间一致性），同时结合标准基于标签的指标。在SEEDBench、MMMU和POPE数据集上对现代VLMs进行评估。
Result: 发现三种不同的失效模式：1）模型经常在保持预测答案的同时经历显著的内部表示漂移；2）鲁棒性不随模型规模提升而改善；3）扰动对不同任务有不同影响：破坏推理任务但减少幻觉任务的误报。
Conclusion: 仅依赖输出层面的鲁棒性评估是不够的，需要更全面的表示层面评估。模型在保持预测不变时内部表示可能大幅变化，且规模增大不带来鲁棒性提升，这对VLMs的实际部署有重要启示。

cs.MM

[91] Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space

Zihang Wang,Siyue Zhang,Yilun Zhao,Jingyi Yang,Tingyu Song,Anh Tuan Luu,Chen Zhao

Main category: cs.MM

TL;DR: 本文首次系统研究将多模态扩散大语言模型转换为嵌入模型，发现其在分类、视觉问答和信息检索任务中普遍表现不如自回归视觉语言模型，主要原因是扩散模型中的图像-文本对齐不足。

Motivation: 随着大型扩散语言模型和多模态扩散大语言模型作为自回归模型的竞争替代方案出现，具有双向注意力和并行生成等优势，自然引发了一个关键但尚未探索的问题：多模态扩散大语言模型能否成为有效的多模态嵌入模型？
Method: 首次系统研究将多模态扩散大语言模型转换为嵌入模型的方法，评估了最先进的多模态扩散大语言模型和自回归视觉语言模型在三个类别的嵌入任务上：分类、视觉问答和信息检索。
Result: 多模态扩散大语言模型嵌入普遍表现不如自回归视觉语言模型。较强的扩散模型LaViDa在分类任务上落后3.5分，视觉问答任务上落后2.5分，检索任务上落后4.4分；而另一扩散模型MMaDA在所有任务上的性能差距超过20分。
Conclusion: 进一步分析揭示扩散模型中的图像-文本对齐不足，这解释了它们在嵌入性能上的局限性。虽然多模态扩散大语言模型在生成任务上有优势，但作为嵌入模型仍需改进对齐能力。

cs.SE

[92] SVRepair: Structured Visual Reasoning for Automated Program Repair

Xiaoxuan Tang,Jincheng Wang,Liwei Luo,Jingxuan Xu,Sheng Zhou,Dajun Chen,Wei Jiang,Yong Li

Main category: cs.SE

TL;DR: SVRepair是一个多模态程序修复框架，通过结构化视觉表示将视觉工件转换为语义场景图，提升LLM在程序修复中的表现。

Motivation: 现有LLM程序修复方法多为单模态，无法有效利用bug报告中包含的视觉信息（如截图、控制流图）。直接使用密集视觉输入会导致上下文丢失和噪声，难以将视觉观察转化为精确的故障定位和可执行补丁。
Method: 1. 微调视觉语言模型SVR，将异构视觉工件统一转换为语义场景图，捕获GUI元素及其结构关系；2. 基于该图驱动编码代理进行故障定位和补丁合成；3. 引入迭代视觉工件分割策略，逐步缩小输入到bug相关区域，抑制无关上下文和减少幻觉。
Result: 在多个基准测试中达到最先进性能：SWE-Bench M上36.47%准确率，MMCode上38.02%，CodeVision上95.12%，验证了SVRepair在多模态程序修复中的有效性。
Conclusion: SVRepair通过结构化视觉表示有效桥接了视觉信息与代码修复之间的语义鸿沟，显著提升了多模态程序修复的性能，为利用视觉信息进行软件工程任务提供了新思路。

cs.LG

[93] CORP: Closed-Form One-shot Representation-Preserving Structured Pruning for Vision Transformers

Boxiang Zhang,Baijian Yang

Main category: cs.LG

TL;DR: CORP：一种用于Vision Transformers的闭式单次结构化剪枝框架，无需标签、梯度或微调，仅使用少量未标记校准集即可在训练后约束下移除MLP隐藏维度和注意力子结构。

Motivation: Vision Transformers虽然精度高但计算和内存成本高。现有结构化剪枝方法通常需要重新训练或多阶段优化，限制了训练后部署。需要一种在严格训练后约束下工作的剪枝方法。
Method: 将结构化剪枝建模为表示恢复问题，将被移除的激活和注意力logits建模为保留组件的仿射函数，推导闭式岭回归解，将补偿折叠到模型权重中，最小化校准分布下的期望表示误差。
Result: 在ImageNet上使用DeiT模型实验显示，MLP和注意力表示存在强冗余性。无补偿时单次结构化剪枝导致严重精度下降，使用CORP可在激进稀疏度下保持精度。DeiT-Huge剪枝50% MLP和注意力结构后保持82.8% Top-1精度。
Conclusion: CORP提供了一种高效的单次结构化剪枝方法，在严格训练后约束下工作，无需标签、梯度或微调，能在20分钟内完成剪枝，实现实际效率提升。

[94] Tempora: Characterising the Time-Contingent Utility of Online Test-Time Adaptation

Sudarshan Sreeram,Young D. Kwon,Cecilia Mascolo

Main category: cs.LG

TL;DR: Tempora框架首次系统评估测试时自适应(TTA)在时间压力下的表现，揭示了传统评估忽略的准确率-延迟权衡问题，发现方法排名会因时间约束而反转。

Motivation: 现有TTA评估假设无限处理时间，忽略了实际部署中的时间压力。在延迟敏感的应用中，预测到达太晚就失去价值，需要评估准确率与延迟的权衡。
Method: 提出Tempora框架：包含建模部署约束的时间场景、操作化测量的评估协议、量化准确率-延迟权衡的时间相关效用指标。具体定义了三种效用指标：离散效用（硬截止时间）、连续效用（延迟衰减价值）、摊销效用（预算约束）。
Result: 在ImageNet-C上对7种TTA方法进行240次时间评估，发现排名不稳定：传统排名无法预测时间压力下的排名；SOTA方法ETA在41.2%的评估中表现不佳；最佳方法随损坏类型和时间压力变化，没有明确赢家。
Conclusion: Tempora首次实现了跨不同时间约束的系统评估，揭示了排名反转的条件和原因，为从业者提供方法选择视角，为研究者提供可部署自适应方法的研究目标。

[95] Diffeomorphism-Equivariant Neural Networks

Josephine Elisabeth Oettinger,Zakhar Shumaylov,Johannes Bostelmann,Jan Lellmann,Carola-Bibiane Schönlieb

Main category: cs.LG

TL;DR: 提出一种通过能量基规范化方法，在预训练神经网络中实现微分同胚等变性的策略，适用于无限维群，无需大量数据增强或重新训练

Motivation: 现有等变性方法主要针对紧凑、有限或低维群，本文探索如何将等变性扩展到无限维群，特别是微分同胚群
Method: 将等变性表述为优化问题，利用已建立的微分图像配准方法工具箱，通过能量基规范化在预训练网络中诱导微分同胚等变性
Result: 在分割和分类任务上的实验结果表明，该方法实现了近似等变性，并能泛化到未见过的变换，无需依赖大量数据增强或重新训练
Conclusion: 提出的能量基规范化方法成功地将等变性扩展到无限维群，为预训练网络提供了有效的微分同胚等变性机制

[96] AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Yuming Li,Qingyu Li,Chengyu Bai,Xiangyang Luo,Zeyue Xue,Wenyu Qin,Meng Wang,Yikai Wang,Shanghang Zhang

Main category: cs.LG

TL;DR: AEGPO提出基于注意力熵的双信号自适应优化策略，通过全局ΔEntropy分配计算资源，局部熵峰值指导关键时间步探索，显著提升扩散模型对齐效率

Motivation: 现有RLHF方法（如GRPO）在扩散模型对齐中存在效率问题，对所有提示词和去噪步骤采用统一采样策略，忽略了样本学习价值和关键探索时刻的动态变化
Method: 提出AEGPO（自适应熵引导策略优化）：1）全局层面使用ΔEntropy（注意力熵相对变化）动态分配计算预算，优先学习价值高的提示词；2）局部层面利用熵峰值识别关键高分散时间步，进行选择性探索而非均匀探索
Result: 在文本到图像生成任务中，AEGPO相比标准GRPO变体显著加速收敛并取得更优的对齐性能
Conclusion: 注意力熵可作为有效的双信号代理，AEGPO通过聚焦于最有信息量的样本和最关键的时刻，实现了更高效、更有效的策略优化

[97] Vision Transformer Finetuning Benefits from Non-Smooth Components

Ambroise Odonnat,Laetitia Chapel,Romain Tavenard,Ievgen Redko

Main category: cs.LG

TL;DR: 研究发现视觉Transformer的注意力模块和前馈层具有高塑性（低平滑性），这种特性在微调中比平滑性更重要，能带来更好的迁移学习性能。

Motivation: 虽然Transformer架构的平滑性在泛化、训练稳定性和对抗鲁棒性方面已有广泛研究，但其在迁移学习中的作用仍不清楚。本文旨在分析视觉Transformer组件适应输入变化的能力（即塑性）。
Method: 通过理论分析和综合实验，研究视觉Transformer组件的塑性（定义为平均变化率，捕捉对输入扰动的敏感性）。高塑性意味着低平滑性，作者用这一视角指导迁移学习中应优先适应的组件选择。
Result: 研究发现注意力模块和前馈层的高塑性在微调中能带来更好的性能。这与普遍认为平滑性更优的假设相反，为Transformer的功能特性提供了新视角。
Conclusion: 高塑性（而非平滑性）是视觉Transformer组件在迁移学习中取得更好微调性能的关键因素。这一发现挑战了平滑性更优的传统观念，为Transformer的功能特性提供了新理解。

cs.CV ​

[1] From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors ​

[2] EgoAVU: Egocentric Audio-Visual Understanding ​

[3] MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes ​

[4] Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving ​

[5] MetaSSP: Enhancing Semi-supervised Implicit 3D Reconstruction through Meta-adaptive EMA and SDF-aware Pseudo-label Evaluation ​

[6] M3: High-fidelity Text-to-Image Generation via Multi-Modal, Multi-Agent and Multi-Round Visual Reasoning ​

[7] Unsupervised Anomaly Detection of Diseases in the Female Pelvis for Real-Time MR Imaging ​

[8] PhenoLIP: Integrating Phenotype Ontology Knowledge into Medical Vision-Language Pretraining ​

[9] DeDPO: Debiased Direct Preference Optimization for Diffusion Models ​

[10] AnyThermal: Towards Learning Universal Representations for Thermal Perception ​

[11] DroneKey++: A Size Prior-free Method and New Benchmark for Drone 3D Pose Estimation from Sequential Images ​

[12] Addressing the Waypoint-Action Gap in End-to-End Autonomous Driving via Vehicle Motion Models ​

[13] Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings ​

[14] ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos ​

[15] ASMa: Asymmetric Spatio-temporal Masking for Skeleton Action Representation Learning ​

[16] An Interpretable Vision Transformer as a Fingerprint-Based Diagnostic Aid for Kabuki and Wiedemann-Steiner Syndromes ​

[17] MMEarth-Bench: Global Model Adaptation via Multimodal Test-Time Training ​

[18] Unsupervised MRI-US Multimodal Image Registration with Multilevel Correlation Pyramidal Optimization ​

[19] Accelerating Vision Transformers on Brain Processing Unit ​

[20] Adaptive and Balanced Re-initialization for Long-timescale Continual Test-time Domain Adaptation ​

[21] Halt the Hallucination: Decoupling Signal and Semantic OOD Detection Based on Cascaded Early Rejection ​

[22] Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation ​

[23] SPDA-SAM: A Self-prompted Depth-Aware Segment Anything Model for Instance Segmentation ​

[24] Uncertainty-Aware 4D Gaussian Splatting for Monocular Occluded Human Rendering ​

[25] FlowConsist: Make Your Flow Consistent with Real Trajectory ​

[26] Di3PO -- Diptych Diffusion DPO for Targeted Improvements in Image ​

[27] Robust Pedestrian Detection with Uncertain Modality ​

[28] Revisiting Salient Object Detection from an Observer-Centric Perspective ​

[29] POINTS-GUI-G: GUI-Grounding Journey ​

[30] TFusionOcc: Student's t-Distribution Based Object-Centric Multi-Sensor Fusion Framework for 3D Occupancy Prediction ​

[31] MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing ​

[32] A neuromorphic model of the insect visual system for natural image processing ​

[33] Point Virtual Transformer ​

[34] Learning Human Visual Attention on 3D Surfaces through Geometry-Queried Semantic Priors ​

[35] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO ​

[36] POPL-KF: A Pose-Only Geometric Representation-Based Kalman Filter for Point-Line-Based Visual-Inertial Odometry ​

[37] Bridging the Indoor-Outdoor Gap: Vision-Centric Instruction-Guided Embodied Navigation for the Last Meters ​

[38] ChatUMM: Robust Context Tracking for Conversational Interleaved Generation ​

[39] What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution ​

[40] Exploring Specular Reflection Inconsistency for Generalizable Face Forgery Detection ​

[41] LAB-Det: Language as a Domain-Invariant Bridge for Training-Free One-Shot Domain Generalization in Object Detection ​

[42] Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention ​

[43] Instance-Free Domain Adaptive Object Detection ​

[44] Rebenchmarking Unsupervised Monocular 3D Occupancy Prediction ​

[45] DreamHome-Pano: Design-Aware and Conflict-Free Panoramic Interior Generation ​

[46] Forest canopy height estimation from satellite RGB imagery using large-scale airborne LiDAR-derived training data and monocular depth estimation ​

[47] FloorplanVLM: A Vision-Language Model for Floorplan Vectorization ​

[48] DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving ​

[49] MicroBi-ConvLSTM: An Ultra-Lightweight Efficient Model for Human Activity Recognition on Resource Constrained Devices ​

[50] AdaptOVCD: Training-Free Open-Vocabulary Remote Sensing Change Detection via Adaptive Information Fusion ​

[51] Universal Anti-forensics Attack against Image Forgery Detection via Multi-modal Guidance ​

[52] NECromancer: Breathing Life into Skeletons via BVH Animation ​

[53] LIBERO-X: Robustness Litmus for Vision-Language-Action Models ​

[54] SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs ​

[55] An Integer Linear Programming Approach to Geometrically Consistent Partial-Partial Shape Matching ​

[56] ProtoQuant: Quantization of Prototypical Parts For General and Fine-Grained Image Classification ​

[57] DAVE: Distribution-aware Attribution via ViT Gradient Decomposition ​

[58] CauCLIP: Bridging the Sim-to-Real Gap in Surgical Video Understanding via Causality-Inspired Vision-Language Modeling ​

[59] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks ​

[60] CytoCrowd: A Multi-Annotator Benchmark Dataset for Cytology Image Analysis ​

[61] Can We Build a Monolithic Model for Fake Image Detection? SICA: Semantic-Induced Constrained Adaptation for Unified-Yet-Discriminative Artifact Feature Space Reconstruction ​

[62] Clinical-Prior Guided Multi-Modal Learning with Latent Attention Pooling for Gait-Based Scoliosis Screening ​

[63] Gold Exploration using Representations from a Multispectral Autoencoder ​

[64] Revisiting Emotions Representation for Recognition in the Wild ​

[65] Machine Learning for Detection and Severity Estimation of Sweetpotato Weevil Damage in Field and Lab Conditions ​

[66] A Unified Formula for Affine Transformations between Calibrated Cameras ​

[67] RAIGen: Rare Attribute Identification in Text-to-Image Generative Models ​

[68] GaussianPOP: Principled Simplification Framework for Compact 3D Gaussian Splatting via Error Quantification ​

[69] Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping ​

[70] Parameters as Experts: Adapting Vision Models with Dynamic Parameter Routing ​

[71] RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing ​

[72] NanoFLUX: Distillation-Driven Compression of Large Text-to-Image Generation Models for Mobile Devices ​

[73] Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers ​

[74] PANC: Prior-Aware Normalized Cut for Object Segmentation ​

[75] Seeing Beyond Redundancy: Task Complexity's Role in Vision Token Specialization in VLLMs ​

[76] Reliable Mislabel Detection for Video Capsule Endoscopy Data ​

[77] CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation ​

[78] MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images ​

cs.CL ​

cs.CV

[1] From Blurry to Believable: Enhancing Low-quality Talking Heads with 3D Generative Priors

[2] EgoAVU: Egocentric Audio-Visual Understanding

[3] MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes

[4] Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving

[5] MetaSSP: Enhancing Semi-supervised Implicit 3D Reconstruction through Meta-adaptive EMA and SDF-aware Pseudo-label Evaluation

[6] M3: High-fidelity Text-to-Image Generation via Multi-Modal, Multi-Agent and Multi-Round Visual Reasoning

[7] Unsupervised Anomaly Detection of Diseases in the Female Pelvis for Real-Time MR Imaging

[8] PhenoLIP: Integrating Phenotype Ontology Knowledge into Medical Vision-Language Pretraining

[9] DeDPO: Debiased Direct Preference Optimization for Diffusion Models

[10] AnyThermal: Towards Learning Universal Representations for Thermal Perception

[11] DroneKey++: A Size Prior-free Method and New Benchmark for Drone 3D Pose Estimation from Sequential Images

[12] Addressing the Waypoint-Action Gap in End-to-End Autonomous Driving via Vehicle Motion Models

[13] Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings

[14] ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos

[15] ASMa: Asymmetric Spatio-temporal Masking for Skeleton Action Representation Learning

[16] An Interpretable Vision Transformer as a Fingerprint-Based Diagnostic Aid for Kabuki and Wiedemann-Steiner Syndromes

[17] MMEarth-Bench: Global Model Adaptation via Multimodal Test-Time Training

[18] Unsupervised MRI-US Multimodal Image Registration with Multilevel Correlation Pyramidal Optimization

[19] Accelerating Vision Transformers on Brain Processing Unit

[20] Adaptive and Balanced Re-initialization for Long-timescale Continual Test-time Domain Adaptation

[21] Halt the Hallucination: Decoupling Signal and Semantic OOD Detection Based on Cascaded Early Rejection

[22] Taming SAM3 in the Wild: A Concept Bank for Open-Vocabulary Segmentation

[23] SPDA-SAM: A Self-prompted Depth-Aware Segment Anything Model for Instance Segmentation

[24] Uncertainty-Aware 4D Gaussian Splatting for Monocular Occluded Human Rendering

[25] FlowConsist: Make Your Flow Consistent with Real Trajectory

[26] Di3PO -- Diptych Diffusion DPO for Targeted Improvements in Image

[27] Robust Pedestrian Detection with Uncertain Modality

[28] Revisiting Salient Object Detection from an Observer-Centric Perspective

[29] POINTS-GUI-G: GUI-Grounding Journey

[30] TFusionOcc: Student's t-Distribution Based Object-Centric Multi-Sensor Fusion Framework for 3D Occupancy Prediction

[31] MeDocVL: A Visual Language Model for Medical Document Understanding and Parsing

[32] A neuromorphic model of the insect visual system for natural image processing

[33] Point Virtual Transformer

[34] Learning Human Visual Attention on 3D Surfaces through Geometry-Queried Semantic Priors

[35] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

[36] POPL-KF: A Pose-Only Geometric Representation-Based Kalman Filter for Point-Line-Based Visual-Inertial Odometry

[37] Bridging the Indoor-Outdoor Gap: Vision-Centric Instruction-Guided Embodied Navigation for the Last Meters

[38] ChatUMM: Robust Context Tracking for Conversational Interleaved Generation

[39] What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution

[40] Exploring Specular Reflection Inconsistency for Generalizable Face Forgery Detection

[41] LAB-Det: Language as a Domain-Invariant Bridge for Training-Free One-Shot Domain Generalization in Object Detection

[42] Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention

[43] Instance-Free Domain Adaptive Object Detection

[44] Rebenchmarking Unsupervised Monocular 3D Occupancy Prediction

[45] DreamHome-Pano: Design-Aware and Conflict-Free Panoramic Interior Generation

[46] Forest canopy height estimation from satellite RGB imagery using large-scale airborne LiDAR-derived training data and monocular depth estimation

[47] FloorplanVLM: A Vision-Language Model for Floorplan Vectorization

[48] DriveWorld-VLA: Unified Latent-Space World Modeling with Vision-Language-Action for Autonomous Driving

[49] MicroBi-ConvLSTM: An Ultra-Lightweight Efficient Model for Human Activity Recognition on Resource Constrained Devices

[50] AdaptOVCD: Training-Free Open-Vocabulary Remote Sensing Change Detection via Adaptive Information Fusion

[51] Universal Anti-forensics Attack against Image Forgery Detection via Multi-modal Guidance

[52] NECromancer: Breathing Life into Skeletons via BVH Animation

[53] LIBERO-X: Robustness Litmus for Vision-Language-Action Models

[54] SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

[55] An Integer Linear Programming Approach to Geometrically Consistent Partial-Partial Shape Matching

[56] ProtoQuant: Quantization of Prototypical Parts For General and Fine-Grained Image Classification

[57] DAVE: Distribution-aware Attribution via ViT Gradient Decomposition

[58] CauCLIP: Bridging the Sim-to-Real Gap in Surgical Video Understanding via Causality-Inspired Vision-Language Modeling

[59] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

[60] CytoCrowd: A Multi-Annotator Benchmark Dataset for Cytology Image Analysis

[61] Can We Build a Monolithic Model for Fake Image Detection? SICA: Semantic-Induced Constrained Adaptation for Unified-Yet-Discriminative Artifact Feature Space Reconstruction

[62] Clinical-Prior Guided Multi-Modal Learning with Latent Attention Pooling for Gait-Based Scoliosis Screening

[63] Gold Exploration using Representations from a Multispectral Autoencoder

[64] Revisiting Emotions Representation for Recognition in the Wild

[65] Machine Learning for Detection and Severity Estimation of Sweetpotato Weevil Damage in Field and Lab Conditions

[66] A Unified Formula for Affine Transformations between Calibrated Cameras

[67] RAIGen: Rare Attribute Identification in Text-to-Image Generative Models

[68] GaussianPOP: Principled Simplification Framework for Compact 3D Gaussian Splatting via Error Quantification

[69] Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping

[70] Parameters as Experts: Adapting Vision Models with Dynamic Parameter Routing

[71] RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

[72] NanoFLUX: Distillation-Driven Compression of Large Text-to-Image Generation Models for Mobile Devices

[73] Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

[74] PANC: Prior-Aware Normalized Cut for Object Segmentation

[75] Seeing Beyond Redundancy: Task Complexity's Role in Vision Token Specialization in VLLMs

[76] Reliable Mislabel Detection for Video Capsule Endoscopy Data

[77] CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation

[78] MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images

cs.CL