每日arXiv - 2026年2月11日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] UI-Venus-1.5 Technical Report

Veuns-Team,:,Changlong Gao,Zhangxuan Gu,Yulin Liu,Xinyu Qiu,Shuheng Shen,Yue Wen,Tianyu Xia,Zhenyu Xu,Zhengwen Zeng,Beitong Zhou,Xingran Zhou,Weizhi Chen,Sunhao Dai,Jingya Dou,Yichen Gong,Yuan Guo,Zhenlin Guo,Feng Li,Qian Li,Jinzhen Lin,Yuqi Zhou,Linchao Zhu,Liang Chen,Zhenyu Guo,Changhua Meng,Weiqiang Wang

Main category: cs.CV

TL;DR: UI-Venus-1.5是一个统一的端到端GUI代理，通过三种关键技术改进实现了在数字界面自动化任务中的最先进性能。

Motivation: GUI代理在数字环境自动化中具有重要作用，但现有方法难以同时实现广泛通用性和强大任务性能。需要开发一个能够稳健处理现实世界应用的统一GUI代理。
Method: 提出三个关键技术：1) 使用100亿token、30+数据集的中期训练建立GUI语义基础；2) 全轨迹在线强化学习，对齐长视野动态导航目标；3) 通过模型融合将领域特定模型（定位、网页、移动）整合为单一统一代理。
Result: 在多个基准测试中取得最先进性能：ScreenSpot-Pro (69.6%)、VenusBench-GD (75.0%)、AndroidWorld (77.6%)，显著超越先前基线。在中文移动应用中展现出强大的导航能力。
Conclusion: UI-Venus-1.5通过统一架构和关键技术改进，实现了在GUI自动化任务中的卓越性能，为现实世界应用提供了强大的GUI代理解决方案。

[2] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Ruijie Ye,Jiayi Zhang,Zhuoxin Liu,Zihao Zhu,Siyuan Yang,Li Li,Tianfu Fu,Franck Dernoncourt,Yue Zhao,Jiacheng Zhu,Ryan Rossi,Wenhao Chai,Zhengzhong Tu

Main category: cs.CV

TL;DR: 提出了Agent Banana框架，通过分层代理规划-执行机制解决专业图像编辑中的过度编辑、多轮编辑失真和高分辨率对齐问题，并在4K基准测试中表现优异。

Motivation: 专业图像编辑工作流中存在三个持续挑战：1）编辑者常过度编辑，超出用户意图；2）现有模型多为单轮编辑，多轮编辑会改变对象保真度；3）现有评估通常在1K分辨率，与真实工作流（如4K超高清）不匹配。
Method: 提出Agent Banana分层代理规划-执行框架，包含两个关键机制：1）上下文折叠（Context Folding）将长交互历史压缩为结构化记忆，实现稳定长时程控制；2）图像层分解（Image Layer Decomposition）执行基于层的局部化编辑，保留非目标区域同时实现原生分辨率输出。
Result: 在HDD-Bench（包含原生4K图像的高清对话基准）上，Agent Banana在多轮一致性和背景保真度方面表现最佳（IC 0.871，SSIM-OM 0.84，LPIPS-OM 0.12），在指令跟随方面保持竞争力，同时在标准单轮编辑基准上也表现强劲。
Conclusion: 该工作推进了可靠、专业级的代理图像编辑及其在真实工作流中的集成，通过分层代理框架解决了专业编辑中的关键挑战。

[3] SemanticMoments: Training-Free Motion Similarity via Third Moment Features

Saar Huberman,Kfir Goldberg,Or Patashnik,Sagie Benaim,Ron Mokady

Main category: cs.CV

TL;DR: 提出SemanticMoments方法，通过预训练语义模型提取特征的高阶时序统计量，解决视频检索中语义运动理解的问题，在SimMotion基准上优于现有方法。

Motivation: 现有视频表示方法过度依赖静态外观和场景上下文而非运动动态，这种偏见源于训练数据和目标；而传统运动中心输入（如光流）缺乏理解高级语义运动的基础。
Method: 提出SemanticMoments方法：一种简单、无需训练的方法，在预训练语义模型提取的特征上计算时序统计量（特别是高阶矩）。
Result: 在SimMotion基准（合成数据+人工标注真实数据集）上，SemanticMoments在视频语义运动检索任务上一致优于现有RGB、光流和文本监督方法。
Conclusion: 语义特征空间中的时序统计量为运动中心的视频理解提供了可扩展且感知基础的方法，能有效解耦运动与外观。

[4] A Hybrid Deterministic Framework for Named Entity Extraction in Broadcast News Video

Andrea Filiberto Lucas,Dylan Seychell

Main category: cs.CV

TL;DR: 该研究提出了一个从新闻视频中自动检测和提取人名的框架，通过可解释的模块化流程在确定性和可审计条件下运行，相比生成式方法在准确性和透明度之间取得平衡。

Motivation: 视频新闻内容快速增长，需要透明可靠的方法提取屏幕信息。图形布局、排版惯例和平台特定设计模式的多样性使得手动索引不切实际，需要自动化解决方案。
Method: 提出了一个全面的框架，包括：1）创建包含当代新闻图形多样性的标注帧语料库；2）设计可解释的模块化提取流程，在确定性和可审计条件下运行；3）与生成式多模态方法进行对比评估。
Result: 检测器达到95.8% mAP@0.5，图形元素定位性能稳健。相比生成式方法（F1: 84.18% vs 77.08%），虽然准确率略低，但避免了幻觉问题，提供完整可追溯性。用户研究发现59%受访者在快节奏广播中难以阅读屏幕姓名。
Conclusion: 该研究为现代新闻媒体中的混合多模态信息提取建立了方法严谨且可解释的基线，在确定性可审计性和随机推理之间找到了平衡，满足新闻和分析场景的透明度需求。

[5] Decoding Future Risk: Deep Learning Analysis of Tubular Adenoma Whole-Slide Images

Ahmed Rahu,Brian Shula,Brandon Combs,Aqsa Sultana,Surendra P. Singh,Vijayan K. Asari,Derrick Forchetti

Main category: cs.CV

TL;DR: 该研究探索使用卷积神经网络分析低级别管状腺瘤的病理切片图像，以识别预测患者未来结直肠癌风险的细微组织学特征。

Motivation: 尽管结直肠癌筛查已广泛实施，但仍有相当一部分最初诊断为低级别腺瘤性息肉的患者最终会发展为结直肠癌，即使没有已知的高风险综合征。识别哪些低风险患者具有更高的进展风险，对于制定个体化监测和预防性治疗策略是关键的未满足需求。
Method: 研究利用数字病理学和机器学习技术，特别是卷积神经网络（CNNs），对低级别管状腺瘤的全切片图像（WSIs）进行全面客观分析，以检测预测患者长期结直肠癌风险的细微组织学特征。
Result: 论文摘要未提供具体结果，但研究旨在验证机器学习算法能否从低级别腺瘤的病理图像中识别出预测未来癌症风险的细微特征。
Conclusion: 该研究探索了人工智能在结直肠癌风险分层中的潜在应用，通过分析传统组织学评估可能遗漏的细微特征，为个体化监测和预防策略提供新方法。

[6] All-in-One Conditioning for Text-to-Image Synthesis

Hirunima Jayasekara,Chuong Huynh,Yixuan Ren,Christabel Acquaye,Abhinav Shrivastava

Main category: cs.CV

TL;DR: 提出基于场景图的文本到图像合成方法，通过ASQL条件器生成软视觉指导，提升多对象、属性和空间关系的组合能力

Motivation: 当前文本到图像模型在处理复杂提示（涉及多个对象、属性和空间关系）时，往往难以保持语义保真度和结构连贯性。虽然已有方法尝试使用预定义布局图，但这种刚性约束限制了组合灵活性和多样性。
Method: 提出基于场景图结构的文本到图像合成框架，引入零样本的场景图条件机制，在推理时生成软视觉指导。核心是ASQL（属性-大小-数量-位置）条件器，通过轻量级语言模型生成视觉条件，并通过推理时优化指导基于扩散的生成。
Result: 该方法能够在保持文本-图像对齐的同时，支持轻量级、连贯且多样化的图像合成，提升了复杂提示下的组合能力。
Conclusion: 通过场景图框架和ASQL条件器，实现了对复杂文本提示更准确、更灵活的视觉表示，克服了传统刚性布局约束的限制。

[7] Wearable environmental sensing to forecast how legged systems will interact with upcoming terrain

Michael D. Murray,James Tung,Richard W. Nuckols

Main category: cs.CV

TL;DR: 使用穿戴式RGB-D相机和CNN-RNN模型，在步态中预测足部压力中心位置和触地时间，模型轻量且实时性良好。

Motivation: 计算机视觉在步态环境分类中已有应用，但预测足部如何接触变化环境的能力尚未充分探索，这对于辅助系统的预测控制具有重要意义。
Method: 8名受试者佩戴右小腿RGB-D相机和仪器鞋垫，在平地到上楼梯过渡时采集数据。使用CNN-RNN模型在足部触地前250ms窗口内连续预测压力中心位置和触地时间。
Result: 在150、100、50ms预测窗口下，压力中心预测误差分别为29.42mm、26.82mm、23.72mm；触地时间预测误差分别为21.14ms、20.08ms、17.73ms。模型轻量，可在消费级笔记本或边缘设备上以60FPS运行。
Conclusion: 从视觉数据预测足部压力中心和触地时间是可行的，使用轻量模型实现，这对辅助系统的预测控制具有重要应用价值。

[8] VLM-UQBench: A Benchmark for Modality-Specific and Cross-Modality Uncertainties in Vision Language Models

Chenyu Wang,Tianle Chen,H. M. Sabbir Ahmad,Kayhan Batmanghelich,Wenchao Li

Main category: cs.CV

TL;DR: VLM-UQBench：首个针对视觉语言模型模态特定和跨模态数据不确定性的基准，包含600个真实样本和可扩展的扰动流程，评估发现现有UQ方法存在模态特异性、与幻觉关联弱、难以检测细微歧义等问题。

Motivation: 视觉语言模型的不确定性量化对安全可靠部署至关重要，但现有方法难以定位不确定性的来源（图像、文本或跨模态不匹配），缺乏细粒度、模态感知的评估基准。
Method: 提出VLM-UQBench基准：1）从VizWiz数据集中精选600个真实样本，分为干净、图像、文本和跨模态不确定性子集；2）设计可扩展扰动流程，包含8种视觉、5种文本和3种跨模态扰动；3）提出两个简单指标：量化UQ分数对扰动的敏感性及其与幻觉的相关性。
Result: 评估了4个VLM和3个数据集上的多种UQ方法，发现：1）现有UQ方法表现出强烈的模态特异性，且高度依赖底层VLM；2）模态特定不确定性常与幻觉共存，但当前UQ分数仅提供弱且不一致的风险信号；3）UQ方法在明显群体级歧义上可与推理基线竞争，但难以检测扰动引入的细微实例级歧义。
Conclusion: 当前UQ实践与可靠VLM部署所需的细粒度、模态感知不确定性之间存在显著差距，VLM-UQBench为未来研究提供了重要基准。

Ange Lou,Yamin Li,Qi Chang,Nan Xi,Luyuan Xie,Zichao Li,Tianyu Luan

Main category: cs.CV

TL;DR: IR-SIS：首个基于自然语言的迭代细化手术图像分割系统，支持自适应优化和临床医生交互

Motivation: 现有手术图像分割方法存在三个主要限制：1) 局限于预定义类别；2) 一次性预测缺乏自适应细化；3) 缺乏临床医生交互机制。需要更灵活、可交互的分割系统。
Method: 提出IR-SIS系统：1) 使用微调SAM3进行初始分割；2) 利用视觉语言模型检测器械并评估分割质量；3) 采用智能体工作流自适应选择细化策略；4) 支持自然语言反馈的临床医生交互；5) 构建多粒度语言标注数据集。
Result: 在EndoVis2017和EndoVis2018基准测试中，在域内和域外数据上都达到了最先进的性能。临床医生交互进一步提升了分割效果。
Conclusion: IR-SIS建立了首个基于语言的、具有自适应自细化能力的手术分割框架，为机器人辅助手术和术中导航提供了更灵活、可交互的解决方案。

[10] Rethinking Global Text Conditioning in Diffusion Transformers

Nikita Starodubcev,Daniil Pakhomov,Zongze Wu,Ilya Drobyshevskiy,Yuchen Liu,Zhonghao Wang,Yuqian Zhou,Zhe Lin,Dmitry Baranchuk

Main category: cs.CV

TL;DR: 研究发现传统扩散变换器中基于调制的文本条件作用贡献有限，注意力机制已足够传递提示信息，但通过新视角将池化嵌入用作引导可实现训练免费的性能提升。

Motivation: 探究扩散变换器中基于调制的文本条件作用是否必要，以及它是否能提供性能优势。当前方法大多放弃调制机制而仅依赖注意力，需要验证这种趋势的合理性。
Method: 分析传统调制机制的有效性，提出将池化文本嵌入从不同视角使用——作为引导信号，实现可控的属性偏移。该方法无需训练、易于实现、运行时开销可忽略，可应用于多种扩散模型。
Result: 传统使用方式下池化嵌入对整体性能贡献很小，注意力机制已足够忠实传递提示信息。但将池化嵌入用作引导时，能显著提升性能，实现向更理想属性的可控偏移。
Conclusion: 调制式文本条件作用在传统用法中非必需，但通过重新定位为引导机制，可提供显著性能优势。这种训练免费的方法简单有效，适用于文本到图像/视频生成和图像编辑等多种任务。

[11] X-Mark: Saliency-Guided Robust Dataset Ownership Verification for Medical Imaging

Pranav Kulkarni,Junfeng Guo,Heng Huang

Main category: cs.CV

TL;DR: X-Mark是一种针对胸部X光图像的样本特定清洁标签水印方法，用于医学影像版权保护，通过条件U-Net生成独特扰动，实现水印有效性、鲁棒性和诊断质量保持。

Motivation: 高质量的医学影像数据集对深度学习训练至关重要，但未经授权使用会引发严重的版权和伦理问题。现有针对自然图像的数据集所有权验证方法在医学影像上效果不佳，因为静态水印模式在动态高分辨率扫描中缩放效果差，且需要保持诊断质量。
Method: X-Mark使用条件U-Net在每张样本的显著区域生成独特扰动，设计多组件训练目标确保水印有效性、对动态缩放过程的鲁棒性，同时保持诊断质量和视觉可区分性。加入拉普拉斯正则化惩罚高频扰动，实现水印尺度不变性。所有权验证在黑盒设置下进行，检测可疑模型中的特征行为。
Result: 在CheXpert数据集上的广泛实验验证了X-Mark的有效性，实现了100%的水印成功率，在Ind-M场景中将误报概率降低了12%，同时表现出对潜在自适应攻击的抵抗能力。
Conclusion: X-Mark为医学影像版权保护提供了一种有效的样本特定清洁标签水印方法，解决了现有方法在医学影像领域的局限性，在保持诊断质量的同时实现了鲁棒的所有权验证。

Subba Reddy Oota,Vijay Rowtula,Shahid Mohammed,Jeffrey Galitz,Minghsun Liu,Manish Gupta

Main category: cs.CV

TL;DR: 提出一种基于深度多模态学习的方法，通过结合伤口变量和伤口图像来预测患者住院风险，旨在实现早期并发症检测并减少临床医生诊断时间。

Motivation: 患者住院是伤口护理成本高昂的主要因素之一。许多伤口本不需要立即住院，但由于治疗延迟、患者不配合或现有共病条件等因素，伤口可能恶化并最终导致住院。现有研究主要关注基于特定伤口类型的愈合轨迹，缺乏综合预测住院风险的方法。
Method: 提出一种深度多模态方法，结合伤口变量和伤口图像来预测患者住院风险。采用迁移学习技术开发伤口评估解决方案，能够从伤口图像预测伤口变量及其愈合轨迹。
Result: 开发了一个能够预测伤口变量和愈合轨迹的迁移学习模型，这是本文的主要贡献。该模型有助于早期检测可能影响愈合过程的伤口并发症。
Conclusion: 提出的新颖模型能够帮助早期检测伤口复杂性，这些复杂性可能影响愈合过程，同时还能减少临床医生诊断伤口所需的时间。

[13] GAFR-Net: A Graph Attention and Fuzzy-Rule Network for Interpretable Breast Cancer Image Classification

Lin-Guo Gao,Suxing Liu

Main category: cs.CV

TL;DR: GAFRNet：一种用于稀缺监督下乳腺癌组织病理学图像分类的图注意力与模糊规则网络，具有鲁棒性和可解释性

Motivation: 传统深度学习架构在有限标注下性能下降且缺乏可解释性（"黑箱"问题），阻碍临床整合。需要开发在弱监督下既准确又透明的诊断工具。
Method: 提出GAFRNet：1）构建相似性驱动的图表示建模样本间关系；2）使用多头图注意力机制捕获异质组织结构间的复杂关系特征；3）设计可微分模糊规则模块，将节点度、聚类系数、标签一致性等拓扑描述符编码为明确的"IF-THEN"诊断逻辑。
Result: 在三个基准数据集（BreakHis、Mini-DDSM、ICIAR2018）上评估，GAFRNet在多种放大倍数和分类任务中均优于多种最先进方法，验证了其优越的泛化能力。
Conclusion: GAFRNet作为一种可靠决策支持工具，通过模拟医学专家启发式推理过程，为弱监督医学图像分析提供了兼具高性能和可解释性的解决方案。

[14] Deep Modeling and Interpretation for Bladder Cancer Classification

Ahmad Chaddad,Yihang Wu,Xianrui Chen

Main category: cs.CV

TL;DR: 该研究评估了13种深度学习模型在膀胱癌分类任务上的表现，包括CNN和Transformer架构，发现ConvNext系列泛化能力有限，ViT模型校准效果更好，但没有单一模型能提供完美的可解释性解决方案。

Motivation: 在医学影像中，异常区域通常只占图像的一小部分，这使得基于ViT和CNN的深度模型在自然数据集上的优异表现可能不适用于医学影像分析。本研究旨在评估最新深度学习模型在膀胱癌分类任务中的表现。
Method: 1) 使用13个模型（4个CNN和8个Transformer模型）进行标准分类；2) 校准分析评估模型校准效果；3) 使用GradCAM++评估模型可解释性；4) 在公开的多中心膀胱癌数据集上进行约300次实验；5) 采用测试时增强提高模型可解释性。
Result: ConvNext系列在膀胱癌图像分类中表现出有限的泛化能力（约60%准确率）；ViT模型相比ConvNext和Swin Transformer系列具有更好的校准效果；测试时增强提高了模型可解释性；没有单一模型能提供完美的可解释性解决方案。
Conclusion: ConvNext系列适合处理分布内样本，而ViT及其变体更适合解释分布外样本。在医学影像分类任务中，需要根据具体需求选择合适的模型架构，没有通用的"一刀切"解决方案。

[15] Kyrtos: A methodology for automatic deep analysis of graphic charts with curves in technical documents

Michail S. Alexiou,Nikolaos G. Bourbakis

Main category: cs.CV

TL;DR: Kyrtos方法自动识别和分析技术文档中图表曲线，通过聚类识别线段，提取行为特征，转换为属性图和自然语言描述，最终生成随机Petri网表示图表功能。

Motivation: 技术文档包含大量有价值知识，但需要准确分析其多模态内容（图形、表格、图表、文本等）及其关联。图表曲线分析是理解技术文档的关键部分。
Method: 采用聚类方法识别曲线线段的中点，解析线段提取方向、趋势等行为特征，将线段关系转换为属性图，再转换为自然语言描述，最终生成随机Petri网图表示功能。
Result: 通过结构相似性度量评估，Kyrtos方法在识别和分析多函数图表曲线方面表现出高准确性，能够有效近似输入图表曲线的结构特征。
Conclusion: Kyrtos方法为技术文档中图表曲线的自动识别和分析提供了有效解决方案，通过多阶段处理将图形信息转换为结构化表示和自然语言描述，有助于技术文档的深度理解。

[16] Impact of domain adaptation in deep learning for medical image classifications

Yihang Wu,Ahmad Chaddad

Main category: cs.CV

TL;DR: 本研究评估了10种深度学习模型在四种医学图像数据集上应用领域自适应（DA）技术的效果，涵盖了多模态、噪声数据、联邦学习、可解释性分析和分类器校准等多个场景。

Motivation: 尽管领域自适应在机器学习中发展迅速，但许多DA方法的核心思想仍然局限于将不同领域的数据对齐到共享特征空间。本研究旨在探索DA在医学图像分析中的实际应用效果，特别是在面对多模态数据、噪声、联邦学习等现实挑战时的表现。
Method: 使用10种深度学习模型模拟常见的DA技术，在四种医学图像数据集上进行实验。考虑了多模态、噪声数据、联邦学习、可解释性分析（使用gradcam++技术）和分类器校准等多种情境。
Result: 1. 在脑肿瘤数据集上，使用DA的ResNet34模型性能提升4.7%；2. DA能减轻高斯噪声影响，在脑肿瘤数据集上使用ResNet34带来约3%的准确率提升；3. 在联邦学习框架中引入DA对皮肤癌分类效果有限（约0.3%提升）；4. DA能通过gradcam++技术提高模型可解释性；5. 在多模态数据集上，使用DA相比单独CNN能降低约2%的预期校准误差（ECE）。
Conclusion: 领域自适应在医学图像分析中具有实际价值，能提升模型性能、减轻噪声影响、提高可解释性并改善分类器校准。但在联邦学习等特定框架中效果有限，需要进一步优化。

[17] Fully Differentiable Bidirectional Dual-Task Synergistic Learning for Semi-Supervised 3D Medical Image Segmentation

Jun Li

Main category: cs.CV

TL;DR: 提出DBiSL框架，通过可微分的双向协同学习实现分割与回归任务间的在线双向交互，提升半监督医学图像分割性能

Motivation: 医学图像标注成本高且需要专业知识，现有半监督学习方法中双任务协作仅限于单向交互（回归到分割），无法充分利用在线双向跨任务协作的潜力
Method: 提出完全可微分的双向协同学习框架，无缝集成监督学习、一致性正则化、伪监督学习和不确定性估计四个关键SSL组件，实现分割与回归任务间的在线双向交互
Result: 在两个基准数据集上实现了最先进的性能，为统一SSL框架设计提供了新见解，并为双任务驱动的SSL建立了新的架构基础
Conclusion: DBiSL框架不仅提升了半监督医学图像分割性能，还为更广泛的计算机视觉应用提供了一个通用的多任务学习框架

[18] Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Yan Luo,Advaith Ravishankar,Serena Liu,Yutong Yang,Mengyu Wang

Main category: cs.CV

TL;DR: 研究评估了5种最先进的图像到3D基础模型在医学单切片重建中的零样本性能，发现SAM3D在拓扑相似性方面表现最佳，但所有模型都存在深度重建失败的问题。

Motivation: 虽然3D解剖理解对医疗诊断和治疗规划至关重要，但体积成像成本高且等待时间长。图像到3D基础模型可以从2D模态重建3D数据，但现有模型主要在自然图像上训练，不清楚其几何先验是否适用于医学数据。
Method: 创建了受控的零样本基准测试，评估5种最先进的图像到3D模型（SAM3D、Hunyuan3D-2.1、Direct3D、Hi3DGen、TripoSG）在6个医学数据集和2个自然数据集上的单切片重建性能，使用基于体素的重叠度量和点云距离度量。
Result: 在所有医学数据集中，基于体素的重叠度保持中等水平，表明从单切片推断体积时存在深度重建失败模式。全局距离度量显示方法间差异更大：SAM3D在拓扑相似性方面表现最强，而其他模型更容易过度简化重建。
Conclusion: 结果量化了单切片医学重建的局限性，突出了2D医学数据平面性导致的深度模糊问题，需要多视角图像到3D重建来实现可靠的医学3D推理。

[19] K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge

Zhikai Li,Jiatong Li,Xuewen Liu,Wangbo Zhao,Pan Du,Kaicheng Zhou,Qingyi Gu,Yang You,Zhen Dong,Kurt Keutzer

Main category: cs.CV

TL;DR: K-Sort Eval：一个基于视觉语言模型的可靠高效评估框架，通过后验校正和动态匹配解决VLM幻觉偏见问题，实现与人类偏好对齐的视觉生成模型评估。

Motivation: 视觉生成模型的快速发展需要更可扩展和人类对齐的评估方法。现有众包Arena平台成本高、耗时长，限制了可扩展性。使用VLM替代人工判断存在幻觉和偏见问题，且静态评估效率低下。
Method: 提出K-Sort Eval框架：1）从K-Sort Arena收集高质量人类投票数据集；2）新模型与现有模型进行(K+1)自由竞争比较，VLM提供排名；3）后验校正方法基于VLM预测与人类监督的一致性自适应校正贝叶斯更新后验概率；4）动态匹配策略平衡不确定性和多样性以最大化每次比较的预期收益。
Result: 实验表明K-Sort Eval与K-Sort Arena评估结果一致，通常需要少于90次模型运行，证明了其高效性和可靠性。
Conclusion: K-Sort Eval通过后验校正和动态匹配，实现了基于VLM的可靠高效视觉生成模型评估，解决了现有方法的可扩展性和对齐问题。

[20] LARV: Data-Free Layer-wise Adaptive Rescaling Veneer for Model Merging

Xinyu Wang,Ke Deng,Fei Dou,Jinbo Bi,Jin Lu

Main category: cs.CV

TL;DR: LARV是一种无需训练、无需数据的层自适应缩放方法，可插入任何任务向量合并器中，通过为每个任务向量分配逐层缩放因子来提升模型合并性能，特别针对视觉Transformer中浅层干扰敏感、深层任务特征稳定的特性进行优化。

Motivation: 现有任务向量合并方法（如TIES、TSV-M、Iso-C/CTS）在合并时几乎均匀处理所有层，忽视了大型视觉Transformer中存在的强烈层间异质性：浅层对干扰敏感，而深层编码稳定的任务特定特征。
Method: 提出LARV（Layer-wise Adaptive Rescaling Veneer），这是一种训练免费、数据免费的合并器无关方法。它计算简单的无数据层代理，通过轻量级规则将其转换为缩放因子，然后为每个任务向量分配逐层缩放因子后再进行聚合。研究了分层两级/三级缩放和连续映射等多种实现方式。
Result: 在FusionBench上使用Vision Transformers，LARV在8/14/20任务设置下持续改进所有任务向量基线。例如，Iso-C + LARV在ViT-B/32上达到85.9%，ViT-B/16上89.2%，ViT-L/14上92.6%。层间分析和损坏测试表明LARV能抑制浅层干扰，适度放大深层任务稳定特征。
Conclusion: LARV将模型合并转变为鲁棒的、层感知的过程而非均匀处理，与基础合并器正交且增加成本可忽略，首次实现了任务向量合并的层感知缩放。

[21] Stability and Concentration in Nonlinear Inverse Problems with Block-Structured Parameters: Lipschitz Geometry, Identifiability, and an Application to Gaussian Splatting

Joe-Mei Feng,Hsin-Hsiung Kao

Main category: cs.CV

TL;DR: 该论文提出了一个算子理论框架，用于分析具有块结构参数的非线性反问题的稳定性和统计集中性。在统一的假设下，建立了确定性稳定性不等式、最小二乘失配泛函的全局Lipschitz界以及非渐近集中估计，得到了与具体重建算法无关的高概率参数误差界。以高斯溅射渲染算子为例验证了理论，揭示了稳定性与分辨率之间的基本权衡。

Motivation: 现代成像和可微渲染中出现的高维非线性反问题通常具有块结构参数，需要建立与具体算法无关的稳定性理论。现有研究缺乏统一的算子理论框架来分析这类问题的稳定性和统计集中性，特别是在非渐近设置下。
Method: 提出了一个算子理论框架，结合块状Lipschitz几何、局部可识别性和次高斯噪声的统一假设。建立了确定性稳定性不等式、最小二乘失配泛函的全局Lipschitz界以及非渐近集中估计。以高斯溅射渲染算子作为具体实例验证了理论假设。
Result: 得到了高概率参数误差界，这些界与具体重建算法无关，仅由前向算子内在性质决定。对于高斯溅射渲染算子，推导了显式的Lipschitz连续性和分辨率相关可观测性常数，揭示了稳定性与分辨率之间的基本权衡：估计误差本质上受图像分辨率与模型复杂度之比约束。
Conclusion: 该分析为现代成像和可微渲染中出现的一大类高维非线性反问题刻画了算子层面的极限。理论框架具有普适性，能够为各种块结构参数的反问题提供统一的稳定性分析工具，揭示了分辨率与模型复杂度之间的基本权衡关系。

[22] Bridging the Modality Gap in Roadside LiDAR: A Training-Free Vision-Language Model Framework for Vehicle Classification

Yiqiao Li,Bo Shang,Jie Wei

Main category: cs.CV

TL;DR: 提出一个无需参数微调的框架，通过深度感知图像生成将稀疏LiDAR点云转换为视觉代理，利用视觉语言模型进行细粒度卡车分类，在少样本场景下达到竞争性精度

Motivation: 当前基于LiDAR的细粒度卡车分类方法依赖监督深度学习和人工标注，可扩展性差。视觉语言模型具有少样本泛化能力，但稀疏3D点云与密集2D图像之间存在模态鸿沟
Method: 提出深度感知图像生成流水线，通过噪声去除、时空配准、方向校正、形态学操作和各向异性平滑，将稀疏、遮挡的LiDAR扫描转换为深度编码的2D视觉代理，然后使用现成的视觉语言模型进行分类
Result: 在20个车辆类别的真实数据集上，仅需每类16-30个样本即可达到竞争性分类精度。特定集装箱类别（20ft、40ft、53ft）正确分类率超过75%，无需昂贵的训练或微调
Conclusion: 该框架为智能交通系统提供了一种可扩展的细粒度卡车分类方法，显著减少初始人工标注需求，可作为冷启动策略引导轻量级监督模型

[23] SceneReVis: A Self-Reflective Vision-Grounded Framework for 3D Indoor Scene Synthesis via Multi-turn RL

Yang Zhao,Shizhao Sun,Meisheng Zhang,Yingdong Shi,Xubo Yang,Jiang Bian

Main category: cs.CV

TL;DR: SceneReVis：通过视觉基础的自反思框架解决3D场景合成中的空间幻觉问题，采用"诊断-行动"循环和多模态反馈来检测和解决空间冲突

Motivation: 当前单次通过的3D场景合成方法由于缺乏深思熟虑的推理，经常出现空间幻觉问题（如碰撞）。需要一种能够显式拦截和解决空间冲突的框架
Method: 提出SceneReVis框架，采用迭代的"诊断-行动"循环，利用多模态反馈解决空间冲突。构建SceneChain-12k大规模数据集，并提出两阶段训练方法：从监督微调到智能体强化学习
Result: SceneReVis在高保真生成和目标导向优化方面达到最先进性能，并在长尾领域展现出强大的泛化能力
Conclusion: 通过视觉基础的自反思框架和迭代诊断-行动循环，SceneReVis有效解决了3D场景合成中的空间幻觉问题，实现了更可靠的场景生成

[24] Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning

Xu Ma,Yitian Zhang,Qihua Dong,Yun Fu

Main category: cs.CV

TL;DR: Fine-T2I是一个大规模、高质量、完全开放的文本到图像微调数据集，包含600万对文本-图像样本，覆盖多种任务、类别和风格，旨在解决现有公开微调数据集质量不足的问题。

Motivation: 当前公开的文本到图像微调数据集存在分辨率低、文本-图像对齐差、多样性有限等问题，导致开源研究模型与企业级模型之间存在明显的性能差距。高质量开放数据集仍然是文本到图像微调的主要瓶颈。
Method: 构建Fine-T2I数据集的方法包括：1）覆盖10种任务组合、32种提示类别、11种视觉风格和5种提示模板；2）结合现代强模型生成的合成图像和专业摄影师精心策划的真实图像；3）对文本-图像对齐、视觉保真度和提示质量进行严格筛选，移除超过95%的初始候选样本。
Result: 最终数据集包含超过600万对文本-图像样本，磁盘占用约2TB，接近预训练数据集的规模但保持微调级别的质量。在各种预训练扩散和自回归模型上进行微调后，Fine-T2I能持续提升生成质量和指令遵循能力，这通过人工评估、视觉比较和自动指标得到了验证。
Conclusion: Fine-T2I作为一个大规模、高质量、完全开放的数据集，有助于缩小开源社区在文本到图像微调方面的数据差距。该数据集在开放许可下发布，旨在促进文本到图像微调研究的进一步发展。

[25] A Scoping Review of Deep Learning for Urban Visual Pollution and Proposal of a Real-Time Monitoring Framework with a Visual Pollution Index

Mohammad Masudur Rahman,Md. Rashedur Rahman,Ashraful Islam,Saadia B Alam,M Ashraful Amin

Main category: cs.CV

TL;DR: 本文通过系统性综述，梳理了基于深度学习的城市视觉污染检测方法，提出了一个整合视觉污染指数的综合应用框架，并指出了该领域需要统一管理系统、标准化数据集和通用模型的发展方向。

Motivation: 城市视觉污染已成为重要问题，但目前自动检测和应用研究分散，缺乏系统性框架。需要全面了解现有深度学习方法，为视觉污染管理提供整合方案。
Method: 遵循PRISMA-ScR指南，系统检索7个学术数据库（Scopus、Web of Science等），筛选出26篇文献进行范围综述，分析现有深度学习检测方法并提出综合应用框架。
Result: 现有研究主要关注特定污染物类别，使用YOLO、Faster R-CNN和EfficientDet等架构变体。数据集局限于特定区域且缺乏标准化分类。少数研究整合实时应用系统但地理分布不均。提出了包含视觉污染指数的监测框架。
Conclusion: 需要建立统一的UVP管理系统，包括污染物分类法、跨城市基准数据集、通用深度学习模型和评估指数，以支持可持续城市美学并提升居民福祉。

[26] Look-Ahead and Look-Back Flows: Training-Free Image Generation with Trajectory Smoothing

Yan Luo,Henry Huang,Todd Y. Zhou,Mengyu Wang

Main category: cs.CV

TL;DR: 提出两种无需训练的潜在轨迹平滑方法（Look-Ahead和Look-Back），通过在潜在空间直接调整生成路径来减少误差累积，显著提升图像生成质量。

Motivation: 现有基于流匹配的扩散模型将生成过程表述为确定性ODE，已有无需训练的方法通过调整流速度场来改进图像生成，但速度场调整会引入误差并在整个生成路径传播。相比之下，潜在轨迹调整能被预训练速度网络自然校正，减少误差累积。
Method: 提出两种无需训练的潜在轨迹调整方法：1) Look-Ahead：使用曲率门控权重平均当前和下一步潜在表示；2) Look-Back：使用指数移动平均衰减平滑潜在表示。两种方法都基于未来和过去的流速度v和潜在轨迹z信息，直接在潜在空间细化生成路径。
Result: 在COCO17、CUB-200和Flickr30K等多个数据集上的广泛实验和综合评估指标表明，所提出的无需训练轨迹平滑模型显著优于各种最先进模型。
Conclusion: 通过直接在潜在空间调整生成路径而非修改速度场，提出的无需训练潜在轨迹平滑方法能有效减少误差累积，显著提升图像生成质量，为扩散模型提供了一种高效改进方案。

[27] ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs

James Burgess,Rameen Abdal,Dan Stoddart,Sergey Tulyakov,Serena Yeung-Levy,Kuan-Chieh Jackson Wang

Main category: cs.CV

TL;DR: ArtifactLens：一个利用少量标注数据解锁预训练VLM中已有知识来检测AI生成图像中伪影的系统，在多个基准测试中达到SOTA

Motivation: 现代图像生成器能产生极其逼真的图像，但存在扭曲的手或变形的物体等伪影。检测这些伪影对于基准测试和改进生成器至关重要。现有检测器需要大量标注数据，成本高昂且难以适应生成器演进或新伪影类型出现。
Method: ArtifactLens系统采用多组件架构，包含上下文学习和文本指令优化。通过适当的脚手架结构，仅需每个伪影类别几百个标注样本就能解锁预训练VLM中已有的伪影检测知识。
Result: 在五个人类伪影基准测试中达到最先进水平（首次跨多个数据集的评估），同时所需标注数据量减少几个数量级。方法能泛化到其他伪影类型（物体形态、动物解剖、实体交互）和AIGC检测任务。
Conclusion: 预训练VLM已经编码了检测伪影所需的知识，通过适当的脚手架结构，仅需少量标注数据就能解锁这种能力，为高效、可扩展的AI生成内容检测提供了新途径。

[28] FD-DB: Frequency-Decoupled Dual-Branch Network for Unpaired Synthetic-to-Real Domain Translation

Chuanhai Zang,Jiabao Hu,XW Song

Main category: cs.CV

TL;DR: FD-DB：一种频率解耦的双分支模型，通过分离低频可解释编辑和高频残差补偿，实现合成到真实图像的无监督域适应，在保持结构稳定性的同时提升真实感。

Motivation: 合成数据为几何敏感视觉任务提供低成本、准确标注的样本，但合成域与真实域之间的外观和成像差异导致严重的域偏移，降低下游任务性能。现有无监督域适应方法在真实感和结构稳定性之间存在权衡：无约束生成可能引入变形或虚假纹理，而过度刚性约束则限制了对真实域统计特性的适应。
Method: 提出FD-DB频率解耦双分支模型：1）可解释分支预测物理意义明确的编辑参数（白平衡、曝光、对比度、饱和度、模糊和噪点）构建稳定的低频外观基础；2）自由分支通过残差生成补充高频细节；3）门控融合机制在显式频率约束下结合两个分支以限制低频漂移；4）采用两阶段训练策略，先稳定编辑分支，再释放残差分支以提高优化稳定性。
Result: 在YCB-V数据集上的实验表明，FD-DB提高了真实域外观一致性，显著提升了下游语义分割性能，同时保持了几何和语义结构。
Conclusion: FD-DB通过频率解耦和双分支设计，有效解决了合成到真实域适应中真实感与结构稳定性之间的权衡问题，为几何敏感视觉任务提供了高质量的域适应解决方案。

[29] Weakly Supervised Contrastive Learning for Histopathology Patch Embeddings

Bodong Zhang,Xiwen Li,Hamid Manoochehri,Xiaoya Tang,Deepika Sirohi,Beatrice S. Knudsen,Tolga Tasdizen

Main category: cs.CV

TL;DR: 提出WeakSupCon框架，通过弱监督对比学习在MIL设置中改进特征表示，无需实例级伪标签即可在特征空间分离不同标签的patch，提升下游MIL性能

Motivation: 数字病理学全切片图像分析面临训练标签有限的问题，弱监督MIL方法通常使用冻结的图像patch特征，主要关注特征聚合，而忽略了MIL设置中编码器预训练的特征表示学习
Method: 提出弱监督对比学习框架WeakSupCon，在训练过程中融入bag级标签信息，不依赖实例级伪标签，但能在特征空间有效分离不同标签的patch
Result: 实验结果表明，WeakSupCon生成的特征相比自监督对比学习方法，在三个数据集上均能提升下游MIL性能
Conclusion: WeakSupCon为MIL设置中的特征表示学习提供了有效解决方案，通过弱监督对比学习改进特征质量，从而提升下游任务性能

[30] Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions

Lin Chen,Xiaoke Zhao,Kun Ding,Weiwei Feng,Changtao Miao,Zili Wang,Wenxuan Guo,Ying Wang,Kaiyuan Zheng,Bo Zhang,Zhe Li,Shiming Xiang

Main category: cs.CV

TL;DR: Align-TI是一个新颖的知识蒸馏框架，通过关注令牌交互来压缩多模态大语言模型，相比传统方法显著提升性能

Motivation: 多模态大语言模型虽然能力强大但参数量大难以部署。现有知识蒸馏方法主要依赖静态的下一个令牌对齐，忽略了动态的令牌交互，而这些交互对多模态理解和生成至关重要。
Method: Align-TI从令牌交互角度设计，包含两个组件：IVA（指令-视觉对齐）让学生模型模仿教师模型提取相关视觉信息的能力，TPA（令牌转移概率对齐）捕捉教师模型的动态生成逻辑。
Result: 实验表明Align-TI相比传统知识蒸馏方法有2.6%的相对提升，蒸馏出的2B参数模型甚至超越了7B参数的LLaVA-1.5模型7.0%，在多模态大语言模型蒸馏中达到新的SOTA。
Conclusion: Align-TI通过关注令牌交互的知识蒸馏框架，有效压缩多模态大语言模型，实现了参数高效的多模态模型训练，为实际部署提供了可行方案。

[31] OSI: One-step Inversion Excels in Extracting Diffusion Watermarks

Yuwei Chen,Zhenliang He,Jia Tang,Meina Kan,Shiguang Shan

Main category: cs.CV

TL;DR: 提出OSI（一步反演）方法，显著加速高斯阴影风格水印提取，将多步扩散反演简化为一步可学习符号分类问题，速度提升20倍，准确率更高，水印容量翻倍。

Motivation: 现有训练免费水印方法（如高斯阴影）需要多步扩散反演来提取水印，计算成本高且耗时。需要更快速准确的水印提取方法。
Method: 将水印提取重新定义为可学习的符号分类问题，避免精确回归初始噪声。从扩散主干初始化OSI模型，在合成噪声-图像对上微调，使用符号分类目标，实现一步高效水印提取。
Result: OSI比多步扩散反演方法快20倍，提取准确率更高，水印有效载荷容量翻倍。在不同调度器、扩散主干和密码方案上实验一致显示改进。
Conclusion: OSI框架提供了一种高效、准确的水印提取方法，解决了高斯阴影风格水印提取的计算瓶颈，具有广泛适用性。

[32] Equilibrium contrastive learning for imbalanced image classification

Sumin Roh,Harim Kim,Ho Yun Lee,Il Yong Chun

Main category: cs.CV

TL;DR: 提出ECL框架解决监督对比学习在类别不平衡数据集中的两个限制：类别均值/原型与分类器未对齐，以及原型贡献不平衡的问题。

Motivation: 现有监督对比学习方法在类别不平衡数据集上表现有限，存在两个主要问题：1) 未考虑类别均值/原型与分类器的对齐，导致泛化能力差；2) 原型仅作为每个类别的额外样本，其贡献受批次中类别实例数量影响，导致跨类别贡献不平衡。
Method: 提出均衡对比学习(ECL)框架，包含两个主要组件：1) 促进表示几何均衡，实现类别样本坍缩和类别均值均匀分布的正则单纯形几何；2) 建立分类器-类别中心几何均衡，对齐分类器权重和类别原型。
Result: 在三个长尾数据集(CIFAR-10(0)-LT、ImageNet-LT)和两个不平衡医学数据集(ISIC 2019、LCCT)上实验，ECL超越了现有的SOTA监督对比学习方法。
Conclusion: ECL通过促进几何均衡，在类别不平衡分类任务中实现了更好的性能，解决了现有监督对比学习方法的关键限制。

[33] Robust Depth Super-Resolution via Adaptive Diffusion Sampling

Kun Wang,Yun Zhu,Pan Zhou,Na Zhao

Main category: cs.CV

TL;DR: AdaDS是一个通用的深度图超分辨率框架，通过自适应选择扩散反演起始点并注入定制噪声，利用预训练扩散模型的生成先验，实现对任意退化低分辨率输入的鲁棒高分辨率深度恢复。

Motivation: 传统深度超分辨率方法直接回归深度值，在严重或未知退化情况下容易产生伪影。需要一种能够鲁棒处理任意退化模式、具有零样本泛化能力的深度超分辨率框架。
Method: 基于高斯平滑的收缩特性：随着前向过程中噪声积累，退化输入与高质量真值之间的分布差异减小，最终收敛到各向同性高斯先验。AdaDS根据估计的细化不确定性自适应选择扩散反演轨迹的起始时间步，并注入定制噪声将中间样本定位到目标后验分布的高概率区域。
Result: 在真实世界和合成基准测试上的广泛实验表明，AdaDS在零样本泛化能力和对多样化退化模式的鲁棒性方面优于最先进的方法。
Conclusion: AdaDS通过利用扩散模型的生成先验，即使在上游估计不完美的情况下也能主导恢复过程，实现了对任意退化低分辨率输入的鲁棒高分辨率深度图恢复，展现出卓越的泛化能力。

[34] Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

Mas Nurul Achmadiah,Afaroj Ahamad,Chi-Chia Sun,Wen-Kai Kuo

Main category: cs.CV

TL;DR: 该论文提出了一种基于帧差法的AI分类器用于物联网快速目标检测，在多种边缘设备上验证了其相比端到端方法在准确率、延迟和能效方面的优势。

Motivation: 物联网系统需要能效高且适合快速目标检测的应用，而传统端到端方法在快速移动物体检测上表现不佳，无法满足实时性和准确性要求。
Method: 采用帧差法进行快速目标检测，在AMD AlveoT M U50、Jetson Orin Nano和Hailo-8T M AI加速器等边缘设备上部署，测试了包括MobileNet和YOLOX在内的四种神经网络和Transformer模型。
Result: MobileNet模型在帧差法下表现最佳，具有高准确率、低延迟和高能效；相比端到端方法，平均准确率提升28.314%，能效提高3.6倍，延迟降低39.305%；火车和飞机等快速移动物体检测准确率相对较低。
Conclusion: 提出的轻量级检测算法特别适合物联网系统中需要快速移动目标检测和高准确率的应用，帧差法相比端到端方法在快速目标检测任务中具有显著优势。

[35] A Universal Action Space for General Behavior Analysis

Hung-Shuo Chang,Yue-Cheng Yang,Yu-Hsi Chen,Wei-Hsin Chen,Chien-Yao Wang,James C. Liao,Chien-Chang Chen,Hen-Hsen Huang,Hong-Yuan Mark Liao

Main category: cs.CV

TL;DR: 该论文提出构建一个大规模通用动作空间(UAS)，利用现有的人类动作数据集作为视觉词典，用于分析和分类哺乳动物及黑猩猩的行为。

Motivation: 传统动物和人类行为分析方法依赖手工特征和稀疏轨迹建模，存在鲁棒性和泛化性不足的问题。ImageNet的出现展示了大规模视觉词典的价值，但缺乏专门针对行为分析的大规模动作空间。
Method: 利用现有标注的人类动作数据集构建大规模通用动作空间(UAS)，然后将其作为基础来分析哺乳动物和黑猩猩的行为数据集，实现跨物种行为分类。
Result: 成功构建了通用动作空间，并将其应用于哺乳动物和黑猩猩行为分析，代码已在GitHub开源。
Conclusion: 通过构建大规模动作空间，可以更有效地分析和分类跨物种行为，为行为分析提供新的范式。

[36] Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs

Jingyi Wang,Fei Li,Rujie Liu

Main category: cs.CV

TL;DR: 提出无需训练的注意力干预算法，通过视觉-文本交叉注意力重加权来增强任务相关token的注意力，减少LVLM中的幻觉问题

Motivation: 现有大型视觉语言模型存在视觉注意力不足的问题，导致幻觉现象。现有方法增强所有视觉token的注意力会不可避免地增加对任务无关token的关注，需要更精细的注意力分配机制。
Method: 提出无需训练的注意力干预算法：1）基于视觉-文本相似性假设，提取视觉-文本交叉注意力子矩阵构建重加权矩阵重新分配注意力；2）在beam search解码中注入视觉注意力值，选择视觉注意力更高的解决方案。
Result: 大量实验表明，该方法显著减少了主流LVLM中的幻觉现象，同时保持了生成内容的准确性和连贯性。
Conclusion: 通过基于视觉-文本相似性的注意力重加权和beam search中的视觉注意力注入，可以有效减少LVLM的幻觉问题，且无需额外训练。

[37] Singpath-VL Technical Report

Zhen Qiu,Kaiwen Xiao,Zhengwei Lu,Xiangyu Liu,Lei Zhao,Hao Zhang

Main category: cs.CV

TL;DR: Singpath-VL是一个专用于宫颈细胞学的视觉-语言大模型，通过合成百万级图像描述数据集和多阶段微调策略，在细胞形态感知和诊断分类方面表现优异。

Motivation: 尽管多模态大语言模型在计算病理学领域取得了显著进展，但在细胞病理学特别是宫颈细胞学中的应用仍未被充分探索，主要原因是缺乏大规模、高质量的标注数据集。
Method: 1. 开发三阶段管道合成百万级图像描述数据集：利用通用MLLMs作为弱标注器，通过共识融合和专家知识注入优化输出，生成高质量的细胞形态描述。2. 使用该数据集通过多阶段策略微调Qwen3-VL-4B模型，创建专门的细胞病理学MLLM。
Result: Singpath-VL模型在细粒度形态感知和细胞级诊断分类方面表现出优越性能。作者将开源部分合成数据集和基准测试。
Conclusion: Singpath-VL填补了宫颈细胞学AI助手的空白，通过创新的数据集合成方法和模型微调策略，为细胞病理学领域提供了专门的视觉-语言大模型解决方案。

[38] HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

Han Zhou,Yuxuan Gao,Yinchao Du,Xuezhe Zheng

Main category: cs.CV

TL;DR: HLGFA是一种无监督工业异常检测框架，通过高-低分辨率特征对齐学习正常性，无需像素级重建，在MVTec AD数据集上达到97.9%像素级AUROC和97.5%图像级AUROC。

Motivation: 工业异常检测中缺陷样本稀缺，需要可靠的无监督检测方法。传统方法依赖像素级重建，但存在局限性，需要更有效的特征学习方式。
Method: 提出高-低分辨率引导特征对齐框架：1) 使用共享冻结骨干网络处理双分辨率输入提取多级特征；2) 将高分辨率特征分解为结构和细节先验；3) 通过条件调制和门控残差校正引导低分辨率特征细化；4) 引入噪声感知数据增强抑制环境干扰。
Result: 在MVTec AD数据集上达到97.9%像素级AUROC和97.5%图像级AUROC，优于代表性的基于重建和基于特征的方法。
Conclusion: HLGFA通过跨分辨率特征一致性建模有效学习正常性，无需像素级重建，在工业异常检测中表现出色，为无监督检测提供了新思路。

[39] SchröMind: Mitigating Hallucinations in Multimodal Large Language Models via Solving the Schrödinger Bridge Problem

Ziqiang Shi,Rujie Liu,Shanshan Yu,Satoshi Munakata,Koichi Shirahata

Main category: cs.CV

TL;DR: 提出SchröMind框架，通过求解薛定谔桥问题减少多模态大语言模型在医疗等高风险领域的幻觉问题

Motivation: 多模态大语言模型在医疗等高风险领域应用受限，主要因为存在幻觉问题——生成的文本与视觉输入矛盾或忽略视觉信息。模型能理解图像但难以生成准确的token序列，微小扰动就会导致注意力从真实状态转向虚假状态，且自回归文本生成难以纠正错误
Method: 提出SchröMind框架，通过求解薛定谔桥问题，在幻觉激活和真实激活之间建立token级别的映射，以最小传输成本实现轻量级训练，同时保持模型原有能力
Result: 在POPE和MME基准测试上的广泛实验表明，SchröMind实现了最先进的性能，同时仅引入最小的计算开销
Conclusion: SchröMind框架通过薛定谔桥问题有效减少了多模态大语言模型的幻觉问题，为高风险领域应用提供了可行解决方案

[40] SCA-Net: Spatial-Contextual Aggregation Network for Enhanced Small Building and Road Change Detection

Emad Gholibeigi,Abbas Koochari,Azadeh ZamaniFar

Main category: cs.CV

TL;DR: SCA-Net：基于Change-Agent框架的增强型建筑和道路变化检测网络，通过多尺度差异金字塔、自适应处理模块和多级注意力机制，显著提升小目标检测精度并大幅减少训练时间。

Motivation: 遥感影像的自动变化检测对于城市管理、环境监测和灾害评估至关重要。现有深度学习方法存在对小目标敏感性低、计算成本高等挑战，需要更精确高效的解决方案。
Method: 基于Change-Agent框架构建SCA-Net，引入差异金字塔块进行多尺度变化分析，自适应多尺度处理模块结合形状感知和高分辨率增强块，采用多级注意力机制（PPM和CSAGate），并设计动态复合损失函数和四阶段训练策略。
Result: 在LEVIR-CD和LEVIR-MCI数据集上评估，相比Change-Agent和其他SOTA方法，SCA-Net在LEVIR-MCI上mIoU提升2.64%，小建筑IoU提升57.9%，训练时间减少61%。
Conclusion: SCA-Net为实际变化检测应用提供了高效、准确且鲁棒的解决方案，显著提升了小目标检测性能并大幅降低了计算成本。

Bohan Fu,Guanyi Qin,Fazhan Zhang,Zihao Huang,Mingxuan Li,Runze Hu

Main category: cs.CV

TL;DR: DR.Experts：一种新颖的先验驱动盲图像质量评估框架，通过显式整合失真先验来提升质量评估的准确性，使其更符合人类主观判断。

Motivation: 现有盲图像质量评估模型往往无法有效捕捉细微的失真线索，导致与人类主观判断不一致。根本原因在于缺乏可靠的失真先验，现有方法通常学习统一的图像特征与质量分数之间的浅层关系，对失真不敏感，从而限制了性能。
Method: 提出DR.Experts框架：1）利用退化感知的视觉语言模型获取失真特定先验；2）通过失真显著性差分模块区分语义注意力，精炼和增强失真表示；3）使用动态失真加权模块（混合专家风格）融合精炼先验、语义和桥接表示，根据感知影响加权各失真特定特征。
Result: 在五个具有挑战性的盲图像质量评估基准测试上进行的广泛实验表明，DR.Experts优于当前方法，并在泛化能力和数据效率方面表现出色。
Conclusion: DR.Experts通过显式整合失真先验，有效解决了现有盲图像质量评估模型对失真不敏感的问题，实现了更符合人类感知的质量评估，在多个基准测试中表现出优越性能。

[42] RAD: Retrieval-Augmented Monocular Metric Depth Estimation for Underrepresented Classes

Michael Baltaxe,Dan Levi,Sagie Benaim

Main category: cs.CV

TL;DR: 提出RAD框架，通过检索相似场景的RGB-D样本作为几何代理，提升单目深度估计在复杂场景中代表性不足类别上的准确性。

Motivation: 单目度量深度估计在复杂场景中对代表性不足类别的准确估计存在持续挑战，需要解决这些类别深度估计精度不足的问题。
Method: 提出检索增强框架RAD：1）使用不确定性感知检索机制识别输入中的低置信区域并检索语义相似的RGB-D上下文样本；2）通过双流网络处理输入和检索样本；3）使用匹配交叉注意力模块在可靠点对应处融合几何信息。
Result: 在NYU Depth v2、KITTI和Cityscapes数据集上，RAD在代表性不足类别上显著优于现有方法：NYU Depth v2相对绝对误差降低29.2%，KITTI降低13.3%，Cityscapes降低7.2%，同时在标准域内基准上保持竞争力。
Conclusion: RAD框架通过检索增强方法有效提升了单目深度估计在复杂场景中代表性不足类别上的性能，为物理智能系统提供了更可靠的深度感知能力。

[43] AUHead: Realistic Emotional Talking Head Generation via Action Units Control

Jiayi Lyu,Leigang Qu,Wenjing Zhang,Hanyu Jiang,Kai Liu,Zhenglin Zhou,Xiaobo Xia,Jian Xue,Tat-Seng Chua

Main category: cs.CV

TL;DR: AUHead：一种两阶段方法，通过动作单元（AUs）实现细粒度情感控制的说话头视频生成，利用音频语言模型生成AUs，再通过AU驱动的扩散模型合成视频。

Motivation: 当前说话头视频生成方法在细微情感表达方面存在不足，缺乏细粒度的情感控制。为了解决这个问题，需要一种能够解耦音频中动作单元（AUs）并实现可控生成的方法。
Method: 两阶段方法：第一阶段通过时空AU标记化和"情感-然后-AU"链式思维机制，利用大型音频语言模型从原始语音中解耦AUs；第二阶段提出AU驱动的可控扩散模型，将AU序列映射到结构化2D面部表示，并在交叉注意力模块中建模AU-视觉交互，引入AU解耦引导策略实现灵活的AU-质量权衡控制。
Result: 在基准数据集上的结果显示，该方法在情感真实性、准确的唇部同步和视觉连贯性方面达到竞争性性能，显著超越现有技术。
Conclusion: AUHead通过解耦细粒度情感控制（动作单元）并实现可控生成，显著提升了说话头视频的情感表现力和身份一致性，为虚拟化身、电影制作和交互系统提供了更真实的视频生成解决方案。

[44] Scalpel: Fine-Grained Alignment of Attention Activation Manifolds via Mixture Gaussian Bridges to Mitigate Multimodal Hallucination

Ziqiang Shi,Rujie Liu,Shanshan Yu,Satoshi Munakata,Koichi Shirahata

Main category: cs.CV

TL;DR: Scalpel通过优化注意力激活分布来减少大视觉语言模型中的幻觉问题，无需额外计算，在推理时动态调整注意力方向

Motivation: 大视觉语言模型由于大语言模型的强先验和多模态注意力错位，经常产生与视觉内容不一致的输出（幻觉），需要有效解决方案
Method: 提出Scalpel方法：在推理时预测每个Transformer头的可信注意力方向并调整激活；使用高斯混合模型捕捉信任和幻觉流形的多峰分布；通过熵最优传输（等价于薛定谔桥问题）精确映射高斯分量；根据分量隶属度和映射关系动态调整干预强度和方向
Result: 在多个数据集和基准测试上的广泛实验表明，Scalpel能有效缓解幻觉，优于先前方法并达到最先进性能
Conclusion: Scalpel是一种模型和数据无关的方法，无需额外计算，仅需单次解码步骤，能有效减少大视觉语言模型的幻觉问题

[45] Delving into Spectral Clustering with Vision-Language Representations

Bo Peng,Yuanwei Hu,Bo Liu,Ling Chen,Jie Lu,Zhen Fang

Main category: cs.CV

TL;DR: 提出基于神经正切核的多模态谱聚类方法，利用预训练视觉语言模型中的跨模态对齐，通过正名词锚定增强图像间相似性度量，在16个基准数据集上大幅超越现有方法。

Motivation: 传统谱聚类大多基于单模态，未能充分利用多模态表示中的丰富信息。受视觉语言预训练成功的启发，希望将谱聚类从单模态扩展到多模态领域。
Method: 提出神经正切核谱聚类，利用预训练视觉语言模型中的跨模态对齐。通过正名词（语义上与目标图像接近）锚定神经正切核，将图像间相似性定义为视觉邻近性和语义重叠的耦合。还提出正则化相似性扩散机制，自适应地集成不同提示诱导的相似性矩阵。
Result: 在16个基准数据集（包括经典、大规模、细粒度和领域偏移数据集）上的广泛实验表明，该方法始终大幅超越最先进方法。
Conclusion: 该方法成功将谱聚类从单模态扩展到多模态领域，通过利用预训练视觉语言模型中的跨模态对齐，显著提升了聚类性能，增强了簇内连接并抑制了簇间虚假连接。

[46] MieDB-100k: A Comprehensive Dataset for Medical Image Editing

Yongfan Lai,Wen Qian,Bo Liu,Hongyan Li,Hao Luo,Fan Wang,Bohan Zhuang,Shenda Hong

Main category: cs.CV

TL;DR: 提出了MieDB-100k，一个大规模、高质量、多样化的文本引导医学图像编辑数据集，解决了现有医学图像编辑数据稀缺、多样性不足、缺乏医学理解等问题。

Motivation: 高质量数据的稀缺是多模态生成模型在医学图像编辑应用中的主要瓶颈。现有医学图像编辑数据集存在多样性有限、忽视医学图像理解、难以平衡质量与可扩展性等问题。
Method: 通过数据策划流程构建MieDB-100k，利用特定模态的专家模型和基于规则的数据合成方法，并进行严格的人工检查以确保临床保真度。将编辑任务分为感知、修改和转换三个视角。
Result: 使用MieDB-100k训练的模型在实验中持续优于开源和专有模型，并展现出强大的泛化能力。
Conclusion: MieDB-100k数据集有望成为专业医学图像编辑未来发展的基石。

[47] Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures

Yuxi Wang,Wenqi Ouyang,Tianyi Wei,Yi Dong,Zhiqi Shen,Xingang Pan

Main category: cs.CV

TL;DR: Hand2World：基于单张场景图像和自由空间手势的自我中心交互生成框架，通过遮挡不变的手部条件、相机几何注入和因果生成器实现高质量、长时间的视频合成。

Motivation: 增强现实和具身AI需要能够以低延迟、几何一致性和长期稳定性响应用户输入的自我中心交互世界模型。现有方法面临自由空间手势与接触训练数据之间的分布偏移、单目视图中手部运动与相机运动的模糊性，以及需要任意长度视频生成等挑战。
Method: 1) 基于投影3D手部网格的遮挡不变手部条件，从场景上下文中推断可见性和遮挡；2) 通过逐像素Plücker射线嵌入注入显式相机几何，解耦相机运动与手部运动；3) 开发全自动单目标注流程；4) 将双向扩散模型蒸馏为因果生成器，支持任意长度合成。
Result: 在三个自我中心交互基准测试中，Hand2World在感知质量和3D一致性方面显著优于现有方法，同时支持相机控制和长时程交互生成。
Conclusion: Hand2World通过统一的自动回归框架解决了自我中心交互生成的关键挑战，实现了高质量、几何一致且稳定的视频合成，为增强现实和具身AI应用提供了有效的解决方案。

[48] Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Jialun Liu,Yukuo Ma,Xiao Cao,Tian Li,Gonghu Shang,Haibin Huang,Chi Zhang,Xuelong Li,Cong Liu,Junqi Liu,Jiakui Hu,Robby T. Tan,Shiwen Zhang,Liying Yang,Xiaoyan Yang,Qizhen Weng,Xiangzhen Chang,Yuanzhi Liang,Yifan Xu,Zhiyong Huang,Zuoxin Li,Xuelong Li

Main category: cs.CV

TL;DR: Tele-Omni是一个统一的多模态视频生成与编辑框架，能够处理文本、图像和参考视频等多种输入，通过解耦指令解析与视频合成实现灵活的多模态控制。

Motivation: 现有扩散视频生成方法大多任务特定且主要依赖文本指令，难以处理多模态输入、上下文参考以及多样化的视频生成和编辑场景。许多视频编辑方法依赖为单个操作定制的工程化流程，限制了可扩展性和组合性。
Method: Tele-Omni利用预训练多模态大语言模型解析异构指令并推断结构化生成/编辑意图，扩散生成器基于这些结构化信号进行高质量视频合成。通过任务感知数据处理管道将多模态输入统一为结构化指令格式，同时保留任务特定约束。
Result: 实验结果表明Tele-Omni在多个任务上实现了有竞争力的性能，支持文本到视频生成、图像到视频生成、首尾帧视频生成、上下文视频生成和上下文视频编辑等多种视频中心任务。
Conclusion: 通过解耦指令解析与视频合成并结合任务感知数据设计，Tele-Omni实现了灵活的多模态控制，同时保持了强时间连贯性和视觉一致性，为统一的多模态视频生成与编辑提供了有效框架。

[49] AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

Yue Li,Xin Yi,Dongsheng Shi,Yongyi Cui,Gerard de Melo,Linlin Wang

Main category: cs.CV

TL;DR: AGMark是一种新型注意力引导动态水印框架，通过动态识别语义关键证据和自适应词汇分区，在保持视觉保真度的同时嵌入可检测信号，解决了传统视觉无关水印和静态视觉特定水印的问题。

Motivation: 现有LVLM水印方法存在两个主要问题：1) 视觉无关水印可能引入视觉无关标记并破坏视觉基础；2) 当前视觉特定水印采用静态的一次性视觉关键权重估计，忽略了权重分布密度，无法适应生成过程中的视觉依赖动态变化，可能在长尾中引入低质量标记。
Method: AGMark在每个解码步骤中：1) 基于注意力权重动态识别语义关键证据（视觉相关性）和上下文感知一致性线索，形成自适应校准的证据权重分布；2) 联合考虑不确定性感知（标记熵）和证据校准（权重密度）确定语义关键标记比例，实现自适应词汇分区以避免无关标记。
Result: AGMark显著优于传统方法，明显提高了生成质量，在生成后期阶段在视觉语义保真度方面获得特别强的增益。该框架保持高度竞争力的检测准确率（至少99.36% AUC）和强大的攻击鲁棒性（至少88.61% AUC），且不牺牲推理效率。
Conclusion: AGMark有效建立了可靠性保持的多模态水印新标准，通过动态证据识别和自适应词汇分区，在保持视觉保真度的同时实现可检测水印嵌入，解决了传统水印方法的局限性。

[50] Towards Training-free Multimodal Hate Localisation with Large Language Models

Yueming Sun,Long Yang,Jianbo Jiao,Zeyu Fu

Main category: cs.CV

TL;DR: LELA是首个无需训练、基于大语言模型的仇恨视频定位框架，通过多模态分解和多阶段提示机制实现细粒度的仇恨内容检测与时间定位。

Motivation: 在线视频中仇恨内容的泛滥对个人福祉和社会和谐构成严重威胁，现有视频仇恨检测方法要么严重依赖大规模人工标注，要么缺乏细粒度的时间精度。
Method: 将视频分解为图像、语音、OCR、音乐和视频上下文五个模态，采用多阶段提示方案计算每帧的细粒度仇恨分数，并引入组合匹配机制增强跨模态推理。
Result: 在HateMM和MultiHateClip两个基准测试中，LELA大幅优于所有现有的无需训练基线方法，并通过大量消融实验和定性可视化验证了其有效性。
Conclusion: LELA为可扩展和可解释的仇恨视频定位建立了强大的基础，展示了无需训练的大语言模型在多模态仇恨检测中的潜力。

[51] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

Hanqing Wang,Mingyu Liu,Xiaoyu Chen,Chengwei MA,Yiming Zhong,Wenti Yin,Yuhao Liu,Zhiqing Cui,Jiahao Yuan,Lu Dai,Zhiyuan Ma,Hui Xiong

Main category: cs.CV

TL;DR: 本文提出VIDA数据集和VideoAfford模型，通过视频学习3D物体可操作性区域，解决传统静态方法缺乏动态交互上下文的问题。

Motivation: 现有3D可操作性定位研究主要依赖语言和图像等静态线索，缺乏动态交互上下文，难以捕捉时间和因果关系。需要视频数据来提供更丰富的交互信息。
Method: 1) 收集VIDA数据集：包含38K人-物交互视频，涵盖16种可操作性类型、38个物体类别和22K点云；2) 提出VideoAfford模型：激活多模态大语言模型的可操作性分割能力，统一世界知识推理和细粒度可操作性定位；3) 使用潜在动作编码器从HOI视频提取动态交互先验；4) 引入空间感知损失函数获取全面的3D空间知识。
Result: 实验表明，模型显著优于现有方法，并展现出强大的开放世界泛化能力和可操作性推理能力。
Conclusion: 通过视频学习3D可操作性定位是有效的，VIDA数据集和VideoAfford模型为机器人操作提供了更好的动态交互理解，所有数据和代码将公开以推动该领域研究。

[52] Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

Siyu Chen,Ting Han,Haoling Huang,Chaolei Wang,Chengzheng Fu,Duxin Zhu,Guorong Cai,Jinhe Su

Main category: cs.CV

TL;DR: Time2General是一个用于域泛化视频语义分割的框架，通过时空记忆解码器和掩码时序一致性损失来解决域偏移和时序采样偏移问题，提高跨域准确性和时序稳定性。

Motivation: 域泛化视频语义分割面临域偏移和时序采样偏移的双重挑战，导致基于对应关系的传播和固定步长时序聚合失效，即使在标签稳定区域也会产生严重的帧间闪烁问题。
Method: 提出基于稳定性查询的Time2General框架：1）时空记忆解码器聚合多帧上下文到片段级时空记忆，无需显式对应传播即可解码时序一致的每帧掩码；2）掩码时序一致性损失通过正则化不同步长的时序预测差异来抑制闪烁；3）随机化训练步长使模型适应多样的时序间隔。
Result: 在多个驾驶基准测试中，Time2General相比之前的域泛化语义分割和视频语义分割基线，在跨域准确性和时序稳定性方面取得显著提升，同时运行速度可达18 FPS。
Conclusion: Time2General通过时空记忆聚合和时序一致性正则化，有效解决了域泛化视频语义分割中的域偏移和时序采样偏移问题，实现了高精度和时序稳定的预测。

[53] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

Deyang Jiang,Jing Huang,Xuanle Zhao,Lei Chen,Liming Zheng,Fanfan Liu,Haibo Qiu,Peng Shi,Zhixiong Zeng

Main category: cs.CV

TL;DR: TreeCUA提出了一种基于树结构的GUI自动化扩展方法，通过多智能体协作框架生成高质量轨迹，并利用树拓扑结构减少重复探索，最终提升计算机使用代理的GUI规划能力。

Motivation: 现有GUI自动化研究主要关注GUI基础功能扩展，而更关键的GUI规划需要更复杂的数据收集。实际中，计算机使用代理在应用/桌面/网页中的探索过程通常呈树状结构，早期功能入口点被更频繁探索，因此将大规模轨迹组织成树结构可以降低数据成本并简化GUI规划的数据扩展。
Method: 提出TreeCUA框架：1) 多智能体协作框架进行环境探索、动作验证、轨迹总结和质量评估；2) 树状拓扑结构存储和回放重复探索节点；3) 自适应探索算法平衡轨迹深度（难度）和广度（多样性）；4) 世界知识指导和全局记忆回溯避免低质量生成；5) 基于树节点信息扩展出TreeCUA-DPO方法，通过参考相邻轨迹分支信息提升GUI规划能力。
Result: 实验结果表明TreeCUA和TreeCUA-DPO带来显著改进，域外研究进一步展示了强大的泛化能力。所有轨迹节点信息和代码将在GitHub上公开。
Conclusion: TreeCUA通过树结构可验证演化有效扩展了GUI自动化，多智能体协作框架和树状拓扑结构提高了轨迹生成效率和质量，TreeCUA-DPO方法进一步提升了GUI规划能力，为计算机使用代理的发展提供了有力支持。

[54] Semi-supervised Liver Segmentation and Patch-based Fibrosis Staging with Registration-aided Multi-parametric MRI

Boya Wang,Ruizhe Li,Chao Chen,Xin Chen

Main category: cs.CV

TL;DR: 提出一个用于肝脏分割和肝纤维化分期的多任务深度学习框架，通过半监督学习处理多参数MRI数据，解决标注数据有限和领域偏移问题。

Motivation: 肝纤维化在临床实践中具有重要挑战，需要精确的肝脏分割和准确的疾病分期。多参数MRI数据存在标注有限、模态差异和领域偏移等困难。
Method: 采用多任务深度学习框架：1) LiSeg阶段使用结合图像分割和配准的半监督学习模型处理标注数据有限问题；2) LiFS阶段采用基于patch的方法进行肝纤维化分期可视化。框架处理三通道(T1,T2,DWI)和七通道(T1,T2,DWI,GED1-GED4)MRI数据。
Result: 方法在CARE Liver 2025 Track 4挑战赛的独立测试集上验证，包括分布内和分布外病例，代码已开源。
Conclusion: 提出的多任务框架能有效处理多模态成像数据、有限标注和领域偏移问题，为肝纤维化的精确分割和分期提供了可行解决方案。

[55] GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation

Sandesh Hegde,Jaison Saji Chacko,Debarshi Banerjee,Uma Mahesh

Main category: cs.CV

TL;DR: 提出GenSeg-R1框架，通过解耦的"推理-分割"流程实现细粒度指代图像分割，使用VLMs生成结构化空间提示，再由SAM 2生成高质量掩码，在多个基准上显著超越现有方法。

Motivation: 现有指代图像分割方法通常需要监督推理链标注或缺乏无目标检测能力，需要一种无需监督推理标注且能处理无目标情况的细粒度分割方法。
Method: 采用解耦的"推理-分割"流程：1) 使用VLMs（Qwen3-VL）接收图像和自然语言查询，生成结构化空间提示（边界框+两个内部关键点）；2) 使用冻结的SAM 2将提示转换为高质量掩码。使用GRPO进行微调，无需监督推理链标注。还提出GenSeg-R1-G变体，使用SAM 2在线奖励直接优化掩码质量。
Result: 在RefCOCOg验证集上，GenSeg-R1-8B达到0.7127 cIoU和0.7382 mIoU，显著超越基准方法；在GRefCOCO上，GenSeg-R1-G达到76.69%目标mIoU和82.40%无目标检测准确率；在ReasonSeg测试集上，GenSeg-R1-4B达到68.40% mIoU，均优于现有方法。
Conclusion: GenSeg-R1框架通过解耦的推理-分割流程实现了高效的细粒度指代图像分割，无需监督推理标注，在多个基准上取得显著性能提升，特别是在无目标检测方面表现出色。

[56] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

Ruisi Zhao,Haoren Zheng,Zongxin Yang,Hehe Fan,Yi Yang

Main category: cs.CV

TL;DR: Stroke3D：首个基于2D手绘草图和文本提示生成可动画3D绑定网格的框架，通过两阶段流程实现可控骨架生成和增强网格合成

Motivation: 现有3D生成方法难以生成可动画的几何体，而绑定技术又缺乏对骨架创建的细粒度结构控制。需要一种更直观的工作流程来创建可直接动画的3D内容。
Method: 采用两阶段流程：1）可控骨架生成：使用骨骼图VAE（Sk-VAE）编码骨架图结构，骨骼图DiT（Sk-DiT）生成骨骼嵌入，通过文本语义和2D草图控制生成；2）增强网格合成：通过TextuRig数据集增强现有骨架到网格模型，并采用基于骨架-网格对齐分数的偏好优化策略SKA-DPO提升几何保真度。
Result: 实验证明Stroke3D能够生成合理的骨架和高质量的网格，首次实现了基于用户绘制的2D草图生成绑定的3D网格。
Conclusion: Stroke3D框架为创建可直接动画的3D内容提供了更直观的工作流程，通过结合文本语义和2D草图控制，实现了可控的骨架生成和高质量的网格合成。

[57] From Lightweight CNNs to SpikeNets: Benchmarking Accuracy-Energy Tradeoffs with Pruned Spiking SqueezeNet

Radib Bin Kabir,Tawsif Tashwar Dipto,Mehedi Ahamed,Sabbir Ahmed,Md Hasanul Kabir

Main category: cs.CV

TL;DR: 该论文首次系统性地对轻量级SNN进行基准测试，通过转换紧凑CNN架构得到SNN变体，并应用结构化剪枝进一步优化，结果显示SNN相比CNN能实现高达15.7倍的能效提升，同时保持竞争力精度。

Motivation: 现有研究主要关注大规模SNN模型，而轻量级CNN到SNN转换流程的设计和评估尚未得到充分探索。随着边缘智能需求增长，需要开发能效更高的轻量级SNN作为CNN的替代方案。
Method: 1) 构建ShuffleNet、SqueezeNet、MnasNet和MixNet的脉冲神经网络变体；2) 使用LIF神经元建模激活，通过替代梯度下降训练；3) 在CIFAR-10、CIFAR-100和TinyImageNet上评估；4) 对表现最佳的SNN-SqueezeNet应用结构化剪枝策略，移除冗余模块得到SNN-SqueezeNet-P。
Result: 1) SNN相比CNN能实现高达15.7倍的能效提升；2) SNN-SqueezeNet在所有轻量级SNN中表现最佳；3) 剪枝后的SNN-SqueezeNet-P在CIFAR-10上精度提升6%，参数减少19%；4) 与CNN-SqueezeNet相比，精度仅低1%但能耗降低88.1%。
Conclusion: 轻量级SNN是边缘部署的实用、低功耗替代方案，通过结构化剪枝进一步优化后，能够在保持接近CNN精度的同时大幅降低能耗，为实现高性能、低功耗的边缘智能提供了可行路径。

[58] Allure of Craquelure: A Variational-Generative Approach to Crack Detection in Paintings

Laura Paul,Holger Rauhut,Martin Burger,Samira Kabri,Tim Roith

Main category: cs.CV

TL;DR: 提出一种混合方法，将裂纹检测建模为逆问题，通过深度生成模型和变分函数分解图像为无裂纹绘画和裂纹成分

Motivation: 自动化检测数字化绘画中的裂纹对于评估退化和指导修复至关重要，但由于复杂场景以及裂纹与类似艺术特征（如笔触或头发）的视觉相似性，这仍然具有挑战性
Method: 将裂纹检测建模为逆问题，将观测图像分解为无裂纹绘画和裂纹成分。使用深度生成模型作为底层艺术品的先验，裂纹结构则通过Mumford-Shah型变分函数和裂纹先验来捕捉。通过联合优化获得像素级裂纹定位图
Result: 该方法能够有效分离裂纹与类似艺术特征，生成精确的像素级裂纹定位图，支持艺术品的文档化和保护
Conclusion: 提出的混合方法结合了深度生成模型和变分函数，为数字化绘画中的裂纹检测提供了一种有效的解决方案，有助于艺术品的保护和修复工作

[59] Toward Fine-Grained Facial Control in 3D Talking Head Generation

Shaoyang Xie,Xiaofeng Cong,Baosheng Yu,Zhipeng Gui,Jie Gui,Yuan Yan Tang,James Tin-Yau Kwok

Main category: cs.CV

TL;DR: 提出FG-3DGS框架，通过频率感知解耦策略和细化后渲染对齐机制，解决音频驱动说话头生成中的唇同步不准确和面部抖动问题，实现高保真、时间一致的说话头生成。

Motivation: 当前基于3D高斯泼溅的说话头生成方法在精细面部运动控制方面存在挑战，特别是唇同步不准确和面部抖动问题，这些都会导致"恐怖谷"效应。需要一种能够实现时间一致性和高保真度的解决方案。
Method: 1) 频率感知解耦策略：根据运动特性显式建模面部区域，低频区域（脸颊、鼻子、额头）用标准MLP联合建模，高频区域（眼睛、嘴巴）用面部区域掩码引导的专用网络单独捕获；2) 将预测的运动动态表示为高斯增量，应用于静态高斯以生成最终头部帧；3) 高频细化后渲染对齐机制：从大规模音频-视频对中学习，通过预训练模型增强每帧生成和唇同步准确性。
Result: 在广泛使用的说话头生成数据集上进行的大量实验表明，该方法在生成高保真、唇同步的说话头视频方面优于最近的最先进方法。
Conclusion: FG-3DGS框架通过频率感知解耦和细化后渲染对齐，有效解决了音频驱动说话头生成中的精细控制问题，实现了时间一致、高保真的结果，超越了现有方法。

[60] Robust Vision Systems for Connected and Autonomous Vehicles: Security Challenges and Attack Vectors

Sandeep Gupta,Roberto Passerone

Main category: cs.CV

TL;DR: 本文分析自动驾驶汽车视觉系统的安全漏洞，提出参考架构并识别攻击向量，评估其对机密性、完整性、可用性的影响。

Motivation: 自动驾驶汽车的安全导航依赖于稳健的视觉系统，但当前视觉系统存在安全漏洞，需要系统性地分析攻击面以制定有效的安全防护措施。
Method: 首先分析CAV导航所需的关键传感器和视觉组件，推导出CAV视觉系统参考架构；基于该架构识别潜在攻击面；详细阐述针对每个攻击面的攻击向量；严格评估这些攻击对CIA三要素的影响。
Result: 建立了CAV视觉系统参考架构，识别了多个攻击面和具体攻击向量，系统评估了这些攻击对机密性、完整性、可用性的威胁程度。
Conclusion: 对视觉系统攻击向量动态的全面理解对于制定能够维护CIA三要素原则的稳健安全措施至关重要，这是实现L5级自动驾驶能力的关键。

[61] Self-Supervised Learning as Discrete Communication

Kawtar Zaher,Ilyass Moummad,Olivier Buisson,Alexis Joly

Main category: cs.CV

TL;DR: 该论文提出了一种离散通信框架下的视觉自监督学习方法，将SSL视为教师和学生网络之间通过固定容量二进制信道传输语义信息的过程，相比连续特征对齐方法能更好地控制表示结构。

Motivation: 大多数自监督学习方法通过对齐同一输入的不同视图来学习连续视觉表示，但这种方法在表示维度上对信息结构的控制有限。作者希望开发一种能够更有效控制表示结构的方法。
Method: 将视觉自监督学习框架化为教师和学生网络之间的离散通信过程，语义信息通过固定容量的二进制信道传输。学生预测教师产生的多标签二进制消息，通过元素级二元交叉熵目标强制离散一致性，同时使用编码率正则化项鼓励有效利用受限信道。定期重新初始化投影头以增强效果。
Result: 在图像分类、检索、密集视觉预测任务以及域转移下的自监督适应中，相比连续一致性基线方法取得了持续改进。学习到的二进制代码形成了紧凑且信息丰富的离散语言，能够捕获跨类别可重用的语义因子。
Conclusion: 通过离散通信框架进行自监督学习能够产生更结构化的表示，优于传统的连续特征对齐方法。二进制代码形成了有意义的离散语义语言，具有跨任务的可重用性。

[62] Where Do Images Come From? Analyzing Captions to Geographically Profile Datasets

Abhipsa Basu,Yugam Bahl,Kirti Bhagat,Preethi Seshadri,R. Venkatesh Babu,Danish Pruthi

Main category: cs.CV

TL;DR: 研究发现文本到图像模型的训练数据存在严重地理偏见，美国、英国、加拿大占48%样本，南美和非洲严重不足，数据代表性与国家GDP高度相关，且高代表性不意味着更高的视觉或语义多样性。

Motivation: 文本到图像模型经常无法生成地理代表性图像，引发对其训练数据来源地理分布的质疑，需要研究这些训练示例来自世界哪些地区。
Method: 使用LLM从图像标题中提取位置信息，将图像-标题对映射到具体国家；分析三个广泛使用的数据集（Re-LAION、DataComp1B、Conceptual Captions）中20个常见实体的英文标题；研究Re-LAION数据集中4种非英语语言子集；分析Stable Diffusion v1.3生成的国家特定图像。
Result: 美国、英国、加拿大占48.0%样本，南美和非洲分别仅占1.8%和3.8%；国家GDP与数据代表性高度相关（ρ=0.82）；非英语子集偏向该语言主要使用国家；高代表性不意味着更高的视觉或语义多样性；Stable Diffusion生成的图像虽真实但覆盖范围严重受限。
Conclusion: 当前文本到图像模型的训练数据存在严重的地理偏见，偏向富裕国家，导致模型无法充分代表全球多样性，需要更平衡的数据收集策略来改善模型的地理代表性。

[63] SciFlow-Bench: Evaluating Structure-Aware Scientific Diagram Generation via Inverse Parsing

Tong Zhang,Honglin Lin,Zhou Liu,Chong Chen,Wentao Zhang

Main category: cs.CV

TL;DR: SciFlow-Bench是一个面向科学图表生成的结构优先基准，通过将生成的像素图像逆向解析为结构化图来评估模型的结构保持能力，而非仅依赖视觉相似性。

Motivation: 现有文本到图像模型生成的科学图表在视觉上合理但结构错误，而现有基准要么使用对结构不敏感的图像中心或主观指标，要么评估中间符号表示而非最终渲染图像，导致基于像素的图表生成评估不足。
Method: 从真实科学PDF中构建基准，将源框架图与规范真实图配对，采用闭环往返协议将生成的图表图像逆向解析为结构化图进行比较，通过分层多智能体系统协调规划、感知和结构推理。
Result: 实验表明，保持结构正确性仍然是一个基本挑战，特别是对于具有复杂拓扑结构的图表，强调了结构感知评估的必要性。
Conclusion: SciFlow-Bench通过结构可恢复性而非仅视觉相似性来评估科学图表生成，揭示了当前模型在结构保持方面的不足，为结构感知评估提供了新基准。

[64] CompSplat: Compression-aware 3D Gaussian Splatting for Real-world Video

Hojun Song,Heejung Choi,Aro Kim,Chae-yeong Song,Gahyeon Kim,Soo Ye Kim,Jaehyup Lee,Sang-hyo Park

Main category: cs.CV

TL;DR: CompSplat：一种压缩感知训练框架，通过显式建模帧级压缩特性来解决长视频中压缩导致的几何不一致问题，在严重压缩条件下实现最先进的渲染质量和姿态精度。

Motivation: 现实世界视频通常包含长序列、不规则相机轨迹和未知姿态，导致姿态漂移、特征错位和几何失真。有损压缩会加剧这些问题，引入不一致性并逐渐降低几何和渲染质量。现有方法对长视频中多样化压缩模式的研究不足。
Method: 提出CompSplat压缩感知训练框架，显式建模帧级压缩特性以减轻帧间不一致性和累积几何误差。包含压缩感知帧加权和自适应剪枝策略，增强鲁棒性和几何一致性，特别是在重度压缩条件下。
Result: 在Tanks and Temples、Free和Hike等具有挑战性的基准测试中，CompSplat实现了最先进的渲染质量和姿态精度，在严重压缩条件下显著超越大多数最新的NVS方法。
Conclusion: CompSplat通过显式建模压缩特性有效解决了长视频中压缩导致的几何不一致问题，为压缩条件下的高质量新视角合成提供了有效解决方案。

[65] SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding

Zhaoxu Li,Chenqi Kong,Peijun Bao,Song Xia,Yi Tu,Yi Yu,Xinghao Jiang,Xudong Jiang

Main category: cs.CV

TL;DR: 该论文提出SAKED方法，通过量化模型内部知识稳定性来缓解大型视觉语言模型的幻觉问题，无需训练即可集成到不同架构中，在多个任务和基准上取得SOTA性能。

Motivation: 大型视觉语言模型中的幻觉问题对实际应用的安全性和可靠性构成重大风险。受人类在不确定或犹豫时更容易出错的观察启发，研究模型内部知识的不稳定性如何导致幻觉。
Method: 从注意力头、模型层和解码token三个角度进行实证分析，识别出三种关键幻觉模式。基于此提出稳定性感知知识增强解码（SAKED），引入层间知识稳定性评分（KSS）来量化模型内部知识稳定性，通过对比最稳定和最不稳定的层来抑制解码噪声并动态利用最可靠的内部知识。
Result: SAKED在各种模型、任务和基准测试中实现了最先进的幻觉缓解性能，且无需训练即可无缝集成到不同架构中。
Conclusion: 模型内部知识的不稳定性是导致LVLM幻觉的关键因素，通过量化知识稳定性并动态利用最可靠的知识可以有效缓解幻觉问题，SAKED方法具有通用性和高效性。

[66] ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge

Yijie Lin,Guofeng Ding,Haochen Zhou,Haobin Li,Mouxing Yang,Xi Peng

Main category: cs.CV

TL;DR: ARK是一个新的多模态检索基准，专注于专业知识和复杂推理，包含5个知识领域和6种推理技能，评估23种检索模型发现知识密集型和推理密集型检索存在显著差距。

Motivation: 现有多模态检索基准主要关注日常图像的语义匹配，缺乏对专业知识和复杂推理的诊断能力。为了填补这一空白，作者提出了ARK基准。
Method: ARK从两个互补角度分析多模态检索：(1) 知识领域（5个领域，17个子类型），(2) 推理技能（6个类别）。基准包含单模态和多模态查询与候选，涵盖16种异构视觉数据类型，大多数查询配有针对性困难负样本以避免捷径匹配。
Result: 评估了23种代表性文本基和多模态检索器，发现知识密集型和推理密集型检索之间存在显著差距，细粒度视觉和空间推理是持续瓶颈。简单的重排序和重写增强能带来一致改进，但仍有很大提升空间。
Conclusion: ARK基准揭示了当前多模态检索模型在专业知识和复杂推理方面的局限性，为未来研究提供了诊断工具和改进方向。

[67] Kelix Technique Report

Boyang Ding,Chenglong Chu,Dunju Zang,Han Li,Jiangxia Cao,Kun Gai,Muhao Wei,Ruiming Tang,Shiyao Wang,Siyang Mao,Xinchen Luo,Yahui Liu,Zhixin Ling,Zhuoran Yang,Ziming Li,Chengru Song,Guorui Zhou,Guowang Zhang,Hao Peng,Hao Wang,Jiaxin Deng,Jin Ouyang,Jinghao Zhang,Lejian Ren,Qianqian Wang,Qigen Hu,Tao Wang,Xingmei Wang,Yiping Yang,Zixing Zhang,Ziqi Wang

Main category: cs.CV

TL;DR: Kelix是一个完全离散的自回归统一模型，通过改进视觉离散化方法，缩小了离散视觉表示与连续特征视觉语言模型之间的理解差距。

Motivation: 当前大多数视觉语言模型采用混合接口（离散文本标记+连续ViT特征），这限制了大规模自监督学习在非文本数据上的应用。现有离散视觉标记因编码容量有限导致信息丢失，理解能力明显弱于连续特征模型。
Method: 提出Kelix模型，采用完全离散的自回归统一建模方法，改进了视觉离散化技术以提升编码容量，实现跨模态的共享离散表示。
Result: Kelix成功缩小了离散视觉表示与连续特征视觉语言模型之间的理解差距，实现了更好的统一理解和生成能力。
Conclusion: 通过改进视觉离散化技术，完全离散的自回归统一模型能够达到与连续特征模型相当的理解能力，为统一的多模态建模提供了有效路径。

[68] Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection

Peng Chen,Chao Huang,Yunkang Cao,Chengliang Liu,Wenqiang Wang,Mingbo Yang,Li Shen,Wenqi Ren,Xiaochun Cao

Main category: cs.CV

TL;DR: Reason-IAD：基于知识引导的动态潜在推理框架，用于可解释的工业异常检测，通过检索增强知识模块和熵驱动推理机制提升检测精度和可解释性

Motivation: 现有多模态大语言模型在通用数据上预训练，难以捕捉特定类别的工业异常模式，限制了检测精度和可解释性
Method: 1. 检索增强知识模块：引入类别特定的文本描述；2. 熵驱动潜在推理机制：在紧凑潜在空间中使用可优化潜在思考令牌进行迭代探索；3. 动态视觉注入策略：选择性注入信息量最大的图像块
Result: 在广泛实验中，Reason-IAD持续优于最先进方法，代码将在GitHub公开
Conclusion: 提出的知识引导动态潜在推理框架有效解决了工业异常检测中类别特定模式识别问题，提升了检测精度和可解释性

[69] Code2World: A GUI World Model via Renderable Code Generation

Yuhao Zheng,Li'an Zhong,Yi Wang,Rui Dai,Kaikui Liu,Xiangxiang Chu,Linyuan Lv,Philip Torr,Kevin Qinghong Lin

Main category: cs.CV

TL;DR: Code2World是一个通过生成可渲染代码来预测GUI下一视觉状态的视觉语言编码器，解决了现有方法在视觉保真度和结构可控性之间的权衡问题。

Motivation: 现有的基于文本和像素的GUI世界模型方法难以同时实现高视觉保真度和细粒度结构可控性，这限制了自主GUI代理的预测能力。
Method: 1) 构建AndroidCode数据集：将GUI轨迹转换为高保真HTML代码，通过视觉反馈修订机制精炼合成代码，获得8万+高质量屏幕-动作对；2) 采用SFT进行格式布局跟随的冷启动；3) 应用渲染感知强化学习，使用渲染结果作为奖励信号，确保视觉语义保真度和动作一致性。
Result: Code2World-8B在下一UI预测任务中表现最佳，可与GPT-5和Gemini-3-Pro-Image竞争。在AndroidWorld导航任务中，将Gemini-2.5-Flash的成功率提升了9.5%。
Conclusion: Code2World通过代码生成方法有效解决了GUI世界建模中视觉保真度和结构可控性的权衡问题，显著提升了自主GUI代理的导航性能。

[70] Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence

Xiaoyue Ling,Chuqin Zhou,Chunyi Li,Yunuo Chen,Yuan Tian,Guo Lu,Wenjun Zhang

Main category: cs.CV

TL;DR: Free-GVC是一种免训练的生成式视频压缩框架，通过潜在轨迹压缩和视频扩散先验，在超低码率下实现更好的感知质量和时间一致性。

Motivation: 现有生成式视频压缩方法在时间相关性利用上有限，导致超低码率下出现明显闪烁和时间一致性退化问题。
Method: 提出训练免费的生成式视频压缩框架，将视频编码重构为基于视频扩散先验的潜在轨迹压缩。采用GOP级处理，通过自适应质量控制模块构建在线码率-感知代理模型，以及组间对齐模块进行潜在融合。
Result: 相比最新神经编解码器DCVC-RT，在DISTS指标上平均减少93.29% BD-Rate，用户研究证实其在超低码率下具有优越的感知质量和时间一致性。
Conclusion: Free-GVC通过创新的潜在轨迹压缩和自适应质量控制，有效解决了生成式视频压缩中的闪烁和时间一致性问题，在超低码率下实现了显著性能提升。

[71] BabyMamba-HAR: Lightweight Selective State Space Models for Efficient Human Activity Recognition on Resource Constrained Devices

Mridankan Mandal

Main category: cs.CV

TL;DR: BabyMamba-HAR：针对资源受限可穿戴设备的人体活动识别框架，包含两种轻量级Mamba架构，在保持高准确率的同时大幅降低计算开销。

Motivation: 可穿戴设备上的人体活动识别受限于内存和计算资源，同时需要在不同传感器配置下保持竞争力。选择性状态空间模型提供线性时间序列处理能力，但在TinyML领域的应用设计空间尚未充分探索。
Method: 提出BabyMamba-HAR框架，包含两种架构：1) CI-BabyMamba-HAR使用通道独立主干，防止跨通道噪声传播；2) Crossover-BiDir-BabyMamba-HAR使用早期融合主干，实现通道数无关的计算复杂度。两者都包含权重绑定的双向扫描和轻量级时序注意力池化。
Result: Crossover-BiDir-BabyMamba-HAR在8个基准测试中达到86.52%平均宏F1分数，仅需约27K参数和2.21M MACs，与TinyHAR性能相当但计算量减少11倍。双向扫描带来最高8.42%的F1分数提升，门控时序注意力相比平均池化提升最高8.94%。
Conclusion: 该研究为在TinyML领域部署选择性状态空间模型作为高效人体活动识别骨干网络提供了实用的设计原则，证明了其在资源受限设备上的可行性和优越性。

[72] MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

Jiaxu Wang,Yicheng Jiang,Tianlun He,Jingkai Sun,Qiang Zhang,Junhao He,Jiahang Cao,Zesen Gan,Mingyuan Sun,Qiming Shao,Xiangyu Yue

Main category: cs.CV

TL;DR: 提出了一种新颖的具身4D世界模型，能够从单视角RGBD观测生成几何一致的多视角RGBD序列，并通过测试时动作优化和残差逆动力学模型实现精确的机器人操作。

Motivation: 现有的基于世界模型的想象-行动范式通常只支持纯图像预测或部分3D几何推理，无法预测完整的4D场景动态。需要一种能够生成几何一致、任意视角RGBD的模型来支持更完整的场景理解和机器人操作。
Method: 1) 设计跨视角和跨模态特征融合机制，联合促进RGB和深度之间的一致性，并强制跨视角的几何对齐；2) 提出测试时动作优化策略，通过生成模型反向传播推断与预测未来最匹配的轨迹级潜在变量；3) 使用残差逆动力学模型将轨迹先验转换为可执行动作。
Result: 在三个数据集上的实验表明，该方法在4D场景生成和下游操作任务上都表现出色，消融研究为关键设计选择提供了实用见解。
Conclusion: 提出的具身4D世界模型能够从单视角观测生成几何一致的多视角RGBD序列，结合测试时动作优化和残差逆动力学，有效解决了机器人操作中的未来预测和动作生成问题。

[73] AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization

Shaoqiu Zhang,Zizhong Ding,Kaicheng Yang,Junyi Wu,Xianglong Yan,Xi Li,Bingnan Duan,Jianping Fang,Yulun Zhang

Main category: cs.CV

TL;DR: 提出AdaTSQ框架，通过时间敏感感知的量化策略，在保持生成质量的同时显著降低Diffusion Transformers的计算和内存开销

Motivation: Diffusion Transformers在图像和视频生成方面表现出色，但其巨大的计算成本和内存占用阻碍了在边缘设备上的部署。现有的后训练量化方法直接应用于DiTs效果不佳，因为它们忽略了扩散过程独特的时间动态特性
Method: 1) Pareto感知的时间步动态位宽分配策略：将量化策略搜索建模为约束路径查找问题，使用波束搜索算法在端到端重构误差指导下动态分配不同时间步的层间位宽；2) Fisher引导的时间校准机制：利用时间Fisher信息优先从高敏感时间步选择校准数据，并与基于Hessian的权重优化无缝集成
Result: 在四种先进DiT模型（Flux-Dev、Flux-Schnell、Z-Image、Wan2.1）上的广泛实验表明，AdaTSQ显著优于SVDQuant和ViDiT-Q等最先进方法
Conclusion: AdaTSQ通过利用DiTs的时间敏感性，在效率和生成质量之间实现了更好的Pareto前沿，为边缘设备部署高保真图像和视频生成模型提供了有效解决方案

[74] SARS: A Novel Face and Body Shape and Appearance Aware 3D Reconstruction System extends Morphable Models

Gulraiz Khan,Kenneth Y. Wertheim,Kevin Pimbblet,Waqas Ahmed

Main category: cs.CV

TL;DR: 提出SARS系统，从单张图像重建包含面部语义特征（年龄、性别、地标）的完整人体3D模型，克服传统3DMM仅关注全局结构的局限。

Motivation: 传统3D可变形模型(3DMM)主要关注人脸全局结构和几何特征，忽略了年龄、性别、面部地标等语义特征，无法适应这些高层面部特征的变化。
Method: 提出SARS系统，采用模块化流水线设计，从单张图像中提取身体和面部信息，结合身份和表情混合形状与基础人脸网格，创建详细的3D模型。
Result: 开发了形状和外观感知的3D重建系统，能够从单张图像正确重建包含面部语义特征的完整人体3D模型。
Conclusion: SARS系统通过整合面部语义特征，实现了更全面的人体3D重建，超越了传统3DMM仅关注全局结构的限制。

[75] A benchmark for video-based laparoscopic skill analysis and assessment

Isabel Funke,Sebastian Bodenstedt,Felix von Bechtolsheim,Florian Oehme,Michael Maruschke,Stefanie Herrlich,Jürgen Weitz,Marius Distler,Sören Torge Mees,Stefanie Speidel

Main category: cs.CV

TL;DR: LASANA数据集包含1270个腹腔镜训练任务的立体视频记录，带有技能评分和错误标签，旨在解决手术技能评估中标注数据不足的问题。

Motivation: 腹腔镜手术需要大量训练，深度学习可以支持自动视频技能评估，但目前受限于标注数据集规模有限。
Method: 创建LASANA数据集，包含1270个立体视频记录，涵盖四个基本腹腔镜训练任务，每个视频都有结构化技能评分（三位独立评分者）和任务特定错误标签。
Result: 提供了预定义的数据分割用于基准测试，并展示了深度学习模型的基线结果作为未来比较的参考点。
Conclusion: LASANA数据集填补了腹腔镜技能评估数据集的空白，为视频技能评估和错误识别方法的发展提供了基准平台。

[76] Monocular Normal Estimation via Shading Sequence Estimation

Zongrui Li,Xinhua Ma,Minghui Hu,Yunqing Zhao,Yingchen Yu,Qian Zheng,Chang Liu,Xudong Jiang,Song Bai

Main category: cs.CV

TL;DR: RoSE提出将单目法线估计重新定义为着色序列估计，利用图像到视频生成模型预测着色序列，再通过最小二乘转换为法线图，解决了现有方法的三维错位问题。

Motivation: 现有单目法线估计方法直接预测法线图，但存在3D错位问题：估计的法线图看起来正确，但重建的表面无法对齐几何细节。这是因为模型难以区分和重建法线图中表示的几何变化，因为底层几何差异仅通过相对微妙的颜色变化反映。
Method: 提出新范式：将法线估计重新定义为着色序列估计，因为着色序列对各种几何信息更敏感。基于此提出RoSE方法，利用图像到视频生成模型预测着色序列，然后通过求解普通最小二乘问题将着色序列转换为法线图。使用包含多样化形状、材料和光照条件的合成数据集MultiShade进行训练。
Result: RoSE在真实世界基准数据集上实现了物体级单目法线估计的最先进性能。
Conclusion: 通过将法线估计重新定义为着色序列估计，RoSE解决了现有方法的3D错位问题，实现了更准确的几何重建。

[77] GeoFormer: A Swin Transformer-Based Framework for Scene-Level Building Height and Footprint Estimation from Sentinel Imagery

Han Jinzhen,JinByeong Lee,JiSung Kim,MinKyung Cho,DaHee Kim,HongSik Yun

Main category: cs.CV

TL;DR: GeoFormer是一个开源Swin Transformer框架，仅使用Sentinel-1/2影像和开放DEM数据，在100米网格上联合估计建筑高度和足迹，在54个城市上表现优于CNN基线，并实现跨大陆迁移。

Motivation: 精确的三维城市数据对气候建模、灾害风险评估和城市规划至关重要，但由于依赖专有传感器或跨城市泛化能力差，这类数据仍然稀缺。
Method: 提出GeoFormer，一个基于Swin Transformer的开源框架，使用Sentinel-1/2影像和开放DEM数据，在100米网格上联合估计建筑高度和足迹。采用地理区块划分策略确保训练集和测试集之间的严格空间独立性。
Result: 在54个多样化城市上评估，GeoFormer实现建筑高度RMSE 3.19米和建筑足迹RMSE 0.05，比最强的CNN基线分别提升7.5%和15.3%。跨大陆迁移时建筑高度RMSE保持在3.5米以下。消融研究证实DEM对高度估计不可或缺，光学反射率优于SAR，但多源融合获得最佳整体精度。
Conclusion: GeoFormer仅使用开放遥感数据就能准确估计建筑高度和足迹，优于现有方法，并具有良好的跨大陆迁移能力。所有代码、权重和全球产品均已公开发布。

[78] Unbalanced optimal transport for robust longitudinal lesion evolution with registration-aware and appearance-guided priors

Melika Qahqaie,Dominik Neumann,Tobias Heimann,Andreas Maier,Veronika A. Zimmer

Main category: cs.CV

TL;DR: 提出基于非平衡最优传输的病灶匹配方法，解决纵向CT扫描中病灶出现、消失、合并、分裂的对应关系问题

Motivation: 纵向CT扫描中评估病灶演变对癌症治疗评估至关重要，但传统基于几何邻近度的二分匹配方法难以处理病灶出现、消失、合并、分裂等复杂情况
Method: 基于非平衡最优传输的配准感知匹配器，结合尺寸归一化几何特征、变形场Jacobian的局部配准可信度，以及可选的图像块外观一致性，通过相对剪枝稀疏化传输方案
Result: 在纵向CT数据上，相比仅基于距离的基线方法，获得了更高的边缘检测精度和召回率，改善的病灶状态召回率，以及更优的病灶图组件F1分数
Conclusion: 提出的非平衡最优传输方法能够有效处理纵向CT扫描中病灶的复杂演变模式，无需重新训练或启发式规则，为治疗评估提供更可靠的病灶对应关系

[79] VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization

Yikun Liu,Yuan Liu,Shangzhe Di,Haicheng Wang,Zhongyin Zhao,Le Tian,Xiao Zhou,Jie Zhou,Jiangchao Yao,Yanfeng Wang,Weidi Xie

Main category: cs.CV

TL;DR: MLLMs视觉编码器在密集预测任务上表现不佳，作者提出VersaViT框架进行多任务协同后训练，创建了同时适合语言推理和像素级理解的通用视觉骨干网络。

Motivation: 探索MLLMs中的视觉编码器是否能作为通用视觉骨干网络，可靠地执行经典视觉中心任务。发现现有MLLMs视觉编码器在密集特征表示方面存在缺陷，在密集预测任务上表现不佳。
Method: 提出VersaViT，一个全面的视觉Transformer，通过新颖的多任务协同后训练框架实现。该框架通过轻量级任务头和多粒度监督来优化视觉骨干网络。
Result: 在各种下游任务上的广泛实验证明了该方法的有效性，产生了一个既适合语言介导推理又适合像素级理解的通用视觉骨干网络。
Conclusion: 通过VersaViT的多任务协同后训练，成功创建了一个全面的视觉骨干网络，能够同时支持高级语义对齐和密集像素级理解，解决了MLLMs视觉编码器在密集预测任务上的不足。

[80] Bladder Vessel Segmentation using a Hybrid Attention-Convolution Framework

Franziska Krauß,Matthias Ege,Zoltan Lovasz,Albrecht Bartz-Schmidt,Igor Tsaur,Oliver Sawodny,Carina Veil

Main category: cs.CV

TL;DR: 本文提出了一种用于膀胱癌内窥镜血管分割的混合注意力-卷积架构，结合Transformer捕捉全局血管拓扑先验和CNN恢复细血管细节，通过物理感知预训练解决数据稀缺问题，在BlaVeS数据集上取得优异性能。

Motivation: 膀胱癌监测需要在重复干预中跟踪肿瘤位置，但膀胱的可变形和中空特性缺乏稳定的解剖标志。虽然内窥镜下可见的血管提供了患者特定的"血管指纹"用于导航，但自动分割面临诸多挑战：稀疏标注、气泡/光照变化等伪影、连续变形、以及模拟血管的黏膜皱襞。现有血管分割方法难以处理这些领域特定复杂性。
Method: 提出混合注意力-卷积架构：1) Transformer捕捉全局血管拓扑先验；2) CNN学习残差细化图精确恢复细血管细节。为优先考虑结构连通性，Transformer在优化的真实数据上训练，排除短分支和末端分支。为应对数据稀缺，采用物理感知预训练策略，在未标注数据上使用临床基础的数据增强进行自监督学习。
Result: 在BlaVeS内窥镜视频帧数据集上评估，方法达到高准确率(0.94)和优越的精确度(0.61)及clDice(0.66)，优于最先进的医学分割模型。关键的是，该方法成功抑制了在膀胱充盈和排空过程中动态出现和消失的黏膜皱襞导致的假阳性。
Conclusion: HAC方法提供了临床导航所需的可靠结构稳定性，能够有效处理膀胱内窥镜血管分割的领域特定挑战，包括数据稀缺、伪影干扰和结构复杂性，为膀胱癌监测中的肿瘤位置跟踪提供了实用解决方案。

[81] Learning to Detect Baked Goods with Limited Supervision

Thomas H. Schmitt,Maximilian Bundscherer,Tobias Bocklet

Main category: cs.CV

TL;DR: 提出用于德国面包店剩余产品监测的弱监督目标检测方法，结合开放词汇检测器和图像级监督，在有限标注数据下实现高性能检测

Motivation: 德国面包店新鲜烘焙产品保质期短，需要优化生产以减少浪费。自动化监测可降低成本提高效率，但烘焙品种类繁多，全监督训练成本高且难以扩展
Method: 1) 结合OWLv2和Grounding DINO定位与图像级监督进行弱监督训练；2) 使用Segment Anything 2作为伪标签传播模型在视频帧上微调提升视角鲁棒性；3) 基于YOLOv11训练检测模型
Result: 仅使用图像级监督时mAP达到0.91；伪标签微调在非理想部署条件下提升性能19.3%；组合方法在非理想条件下超越全监督基线模型
Conclusion: 提出的弱监督方法在标注数据稀缺的工业场景中有效，解决了专业任务中计算机视觉部署的挑战，为烘焙产品监测提供了实用解决方案

[82] Coupled Inference in Diffusion Models for Semantic Decomposition

Calvin Yeung,Ali Zakeri,Zhuowen Zou,Mohsen Imani

Main category: cs.CV

TL;DR: 提出基于扩散模型的耦合推理框架，用于语义分解任务，性能优于谐振子网络

Motivation: 许多视觉场景可描述为潜在因子的组合，有效的识别、推理和编辑需要解决分解问题。谐振子网络被提出用于分解绑定表示，最近研究发现Hopfield网络与扩散模型有显著相似性，这启发了我们构建基于扩散模型的语义分解框架。
Method: 将语义分解构建为逆问题，使用重建驱动的引导项耦合扩散过程，鼓励因子估计的组合与绑定向量匹配。还引入了新颖的迭代采样方案提升模型性能。
Result: 实验证明，该耦合推理框架在一系列合成语义分解任务中优于谐振子网络。同时表明基于注意力的谐振子网络是本框架的特例。
Conclusion: 提出了一个基于扩散模型的语义分解框架，通过耦合推理有效解决组合表示分解问题，性能优于现有方法，并为谐振子网络提供了新的理论视角。

[83] Efficient Special Stain Classification

Oskar Thaeter,Christian Grashei,Anette Haas,Elisa Schmoeckel,Han Li,Peter J. Schüffler

Main category: cs.CV

TL;DR: 该研究比较了两种自动分类病理染色类型的方法：多实例学习（MIL）管道和轻量级缩略图方法，用于16种常见染色类型的分类，结果显示缩略图方法在泛化性和效率方面表现更优。

Motivation: 在数字病理学中，准确记录染色类型对于临床档案质量控制和计算病理学数据集完整性至关重要。传统方法依赖人工标注，效率低下且易出错，需要自动化解决方案。
Method: 研究比较了两种方法：1）基于多实例学习（MIL）的管道，处理整个切片图像；2）提出的轻量级缩略图方法，仅使用低分辨率缩略图进行分类。评估了14种常用特殊染色以及标准和冰冻切片H&E染色。
Result: 在内部测试数据上，MIL方法表现最佳（16类宏F1：0.941；14类合并：0.969），缩略图方法也具竞争力（0.897和0.953）。在外部TCGA数据上，缩略图模型泛化能力更强（加权F1：0.843 vs. MIL的0.807）。缩略图方法吞吐量比MIL高两个数量级（5.635 vs. 0.018 slides/s）。
Conclusion: 缩略图分类方法为数字病理工作流程中的常规视觉质量控制提供了可扩展且稳健的解决方案，在保持良好性能的同时显著提高了处理效率。

[84] Faster-GS: Analyzing and Improving Gaussian Splatting Optimization

Florian Hahlbohm,Linus Franke,Martin Eisemann,Marcus Magnor

Main category: cs.CV

TL;DR: Faster-GS：通过整合现有3DGS优化策略并引入新优化，实现5倍训练加速且保持视觉质量，为3DGS优化建立新的高效基线

Motivation: 当前3DGS研究存在实现改进与算法修改混淆、性能与保真度权衡等问题，导致研究碎片化且难以公平比较。需要整合最有效的优化策略并探索框架中被忽视的方面。
Method: 整合现有3DGS研究中最有效且广泛适用的策略，加入多项新优化，并深入探索数值稳定性、高斯截断和梯度近似等未充分研究的框架方面。
Result: Faster-GS在综合基准测试中实现高达5倍的训练加速，同时保持视觉质量。优化还可应用于4D高斯重建，实现高效的非刚性场景优化。
Conclusion: Faster-GS为3DGS优化建立了新的成本效益高且资源高效的基线，解决了当前研究碎片化问题，并为4D高斯重建提供了优化方案。

[85] Perception with Guarantees: Certified Pose Estimation via Reachability Analysis

Tobias Ladner,Yasser Shoukry,Matthias Althoff

Main category: cs.CV

TL;DR: 提出一种仅使用相机图像和已知目标几何形状的3D姿态认证估计方法，通过可达性分析和形式化神经网络验证来保证安全关键应用中的姿态边界

Motivation: 在安全关键的网络物理系统中，智能体需要精确的姿态估计来确保安全。传统方法如GPS可能不可靠，粗略估计无法满足形式化安全保证的要求
Method: 结合可达性分析和形式化神经网络验证技术，仅使用相机图像和已知目标几何形状来形式化边界3D姿态估计
Result: 方法在合成和真实世界实验中都能高效准确地定位智能体，实现了认证的姿态估计
Conclusion: 该方法为安全关键应用提供了一种可靠且可验证的姿态估计解决方案，不依赖外部不可信服务

[86] Fake-HR1: Rethinking reasoning of vision language model for synthetic image detection

Changjiang Jiang,Xinkuan Sha,Fengchang Yu,Jingjing Liu,Jian Liu,Mingqi Fang,Chenfeng Zhang,Wei Lu

Main category: cs.CV

TL;DR: Fake-HR1是一个混合推理模型，通过自适应判断是否需要推理来提升合成图像检测效率，减少不必要的计算开销。

Motivation: 现有方法中，CoT推理虽然能提升合成图像检测能力，但过长的推理过程会带来大量资源开销（token消耗和延迟），特别是在处理明显伪造图像时显得冗余。
Method: 提出Fake-HR1混合推理模型，采用两阶段训练框架：1）混合微调（HFT）进行冷启动初始化；2）在线强化学习（HGRPO）隐式学习何时选择适当的推理模式。
Result: 实验表明Fake-HR1能自适应地对不同类型查询进行推理，在推理能力和生成检测性能上都超越了现有LLMs，同时显著提升了响应效率。
Conclusion: 该研究首次在生成检测任务中实现了基于图像特征的自适应推理决策，有效平衡了检测性能与计算效率。

[87] Simple Image Processing and Similarity Measures Can Link Data Samples across Databases through Brain MRI

Gaurang Sharma,Harri Polonen,Juha Pajula,Jutta Suksi,Jussi Tohka

Main category: cs.CV

TL;DR: 即使经过颅骨剥离的脑部MRI图像仍包含独特的生物特征，可以通过简单的图像相似度计算在不同数据库间匹配同一参与者的扫描数据，存在隐私泄露风险。

Motivation: 当前医疗数据共享框架要求在共享前移除潜在标识符，但即使经过颅骨剥离的脑部MRI仍包含独特的生物特征签名，可能在不同数据库间匹配同一参与者的数据，存在隐私风险。现有研究主要依赖训练或计算密集型方法，需要探索更简单有效的匹配方法。
Method: 使用标准预处理流程后，通过图像相似度计算方法来匹配个体在不同时间、不同扫描仪、不同空间分辨率和采集协议下获取的颅骨剥离T1加权MRI图像。
Result: 在跨时间间隔、扫描仪类型、空间分辨率和采集协议的各种条件下，实现了近乎完美的匹配准确率，即使存在潜在的认知衰退也能成功匹配，模拟了跨数据库的MRI匹配场景。
Conclusion: 简单的图像相似度计算方法就能有效匹配同一参与者的颅骨剥离MRI数据，这表明当前的数据共享隐私保护措施存在不足，需要制定更前瞻性的医疗数据共享政策来应对这一隐私风险。

[88] Conformal Prediction Sets for Instance Segmentation

Kerri Lu,Dan M. Kluger,Stephen Bates,Sherrie Wang

Main category: cs.CV

TL;DR: 提出一种用于实例分割的保形预测算法，为像素查询生成自适应置信集，提供至少一个预测与真实实例掩码具有高IoU的概率保证。

Motivation: 当前实例分割模型虽然平均预测性能高，但缺乏原则性的不确定性量化：输出未校准，且无法保证预测掩码接近真实值。需要解决这一限制。
Method: 引入保形预测算法，为实例分割生成自适应置信集。给定图像和像素坐标查询，算法为该像素生成实例预测的置信集，提供至少一个预测与真实实例掩码具有高IoU的概率保证。
Result: 在农业地块划分、细胞分割和车辆检测等实例分割任务中，预测集大小根据查询难度自适应变化，达到目标覆盖率，优于Learn Then Test、Conformal Risk Control和形态学膨胀等基线方法。
Conclusion: 该算法为实例分割提供了具有理论保证的不确定性量化方法，能够生成自适应置信集，在多个应用领域验证了有效性，并提供了渐近和有限样本保证版本。

[89] Spatio-Temporal Attention for Consistent Video Semantic Segmentation in Automated Driving

Serin Varghese,Kevin Ross,Fabian Hueger,Kira Maag

Main category: cs.CV

TL;DR: 提出时空注意力机制（STA），将Transformer自注意力扩展到多帧上下文，提升视频语义分割的准确性和时间一致性。

Motivation: 现有深度神经网络（特别是基于Transformer的架构）在处理视频语义分割时独立处理每一帧，未能利用时间一致性，这限制了在动态场景中的准确性和稳定性。
Method: 提出时空注意力机制（STA），修改标准自注意力以处理时空特征序列，在保持计算效率的同时，对现有架构改动最小，适用于各种Transformer架构。
Result: 在Cityscapes和BDD100k数据集上评估，时间一致性指标提升9.20个百分点，平均交并比（mIoU）提升最高达1.76个百分点。
Conclusion: STA是视频语义分割应用中有效的架构增强方法，能显著提升时间一致性和分割准确性。

[90] Can Image Splicing and Copy-Move Forgery Be Detected by the Same Model? Forensim: An Attention-Based State-Space Approach

Soumyaroop Nandi,Prem Natarajan

Main category: cs.CV

TL;DR: Forensim是一个基于注意力机制的图像伪造检测框架，能同时定位被篡改区域（目标）和源区域，支持拼接和复制-移动伪造检测，并在标准基准测试中达到最先进性能。

Motivation: 传统方法仅依赖伪影线索检测拼接或伪造区域，但无法捕获理解上下文所需的复制模式。在抗议图像等场景中，仅检测伪造区域（如将暴力行为插入和平人群）可能导致误解，因此需要联合源-目标定位。
Method: 提出视觉状态空间模型，利用归一化注意力图识别内部相似性，结合基于区域的块注意力模块区分篡改区域。该设计支持端到端训练和精确定位，输出三类掩码（原始、源、目标）。
Result: 在标准基准测试中达到最先进性能。同时发布了CMFD-Anything新数据集，解决了现有复制-移动伪造数据集的局限性。
Conclusion: Forensim框架通过联合源-目标定位，能更全面地理解图像伪造上下文，在检测拼接和复制-移动伪造方面表现出色，为图像取证提供了更有效的解决方案。

[91] 4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Yihang Luo,Shangchen Zhou,Yushi Lan,Xingang Pan,Chen Change Loy

Main category: cs.CV

TL;DR: 4RC是一个用于单目视频4D重建的统一前馈框架，通过编码一次、任意查询的范式，联合捕获密集场景几何和运动动态。

Motivation: 现有方法通常将运动与几何解耦，或只能产生有限的4D属性（如稀疏轨迹或两视图场景流）。需要一种能够学习整体4D表示的方法，同时捕获密集场景几何和运动动态。
Method: 提出编码一次、任意查询的范式：使用Transformer骨干网络将整个视频编码到紧凑的时空潜在空间，然后条件解码器可以高效查询任意查询帧在任意目标时间戳的3D几何和运动。采用最小分解形式表示每视图4D属性，将其分解为基础几何和时间相关的相对运动。
Result: 4RC在广泛的4D重建任务中优于先前和同期方法。
Conclusion: 4RC提供了一个统一的4D重建框架，能够从单目视频中联合学习几何和运动表示，通过创新的编码-查询范式实现了高效的4D重建。

[92] Causality in Video Diffusers is Separable from Denoising

Xingjian Bai,Guande He,Zhengqi Li,Eli Shechtman,Xun Huang,Zongze Wu

Main category: cs.CV

TL;DR: 提出可分离因果扩散模型（SCD），将因果推理与多步去噪过程解耦，显著提升视频生成效率

Motivation: 现有因果扩散模型将时间推理与迭代去噪过程纠缠在一起，导致计算冗余和效率低下。研究发现早期层在不同去噪步骤产生高度相似特征，深层注意力稀疏且主要进行帧内渲染。
Method: 提出可分离因果扩散模型（SCD）：1）使用因果Transformer编码器进行每帧一次的时间推理；2）使用轻量级扩散解码器进行多步帧内渲染
Result: 在合成和真实基准测试中，SCD显著提升吞吐量和每帧延迟，同时匹配或超越强因果扩散基线的生成质量
Conclusion: 因果推理可以与多步去噪过程有效分离，SCD架构通过解耦时间推理和帧渲染实现了高效高质量的视频生成

[93] VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

Zhongwei Ren,Yunchao Wei,Xiao Yu,Guixun Luo,Yao Zhao,Bingyi Kang,Jiashi Feng,Xiaojie Jin

Main category: cs.CV

TL;DR: VideoWorld 2扩展了VideoWorld，首次直接从原始真实世界视频中学习可迁移知识，通过动态增强的潜在动态模型(dLDM)解耦动作动态和视觉外观，在手工制作任务和机器人操作中取得显著性能提升。

Motivation: 从无标签视频数据中学习可迁移知识并将其应用于新环境是智能体的基本能力。现有方法在真实世界视频中难以可靠地学习和迁移知识。
Method: 提出动态增强的潜在动态模型(dLDM)，将动作动态与视觉外观解耦：使用预训练的视频扩散模型处理视觉外观建模，让dLDM学习专注于紧凑且有意义的任务相关动态的潜在编码，然后自回归建模这些潜在编码以学习任务策略和支持长时程推理。
Result: 在真实世界手工制作任务中，相比现有视频生成和潜在动态模型，任务成功率提升高达70%，并能生成连贯的长执行视频。在机器人领域，从Open-X数据集获取的有效操作知识显著提升了CALVIN上的任务性能。
Conclusion: 这项研究揭示了直接从原始视频中学习可迁移世界知识的潜力，所有代码、数据和模型将开源以促进进一步研究。

[94] Olaf-World: Orienting Latent Actions for Video World Modeling

Yuxin Jiang,Yuchao Gu,Ivor W. Tsang,Mike Zheng Shou

Main category: cs.CV

TL;DR: 提出SeqΔ-REPA方法，通过序列级控制效果对齐目标，从未标记视频中学习可迁移的潜在动作表示，实现更好的零样本动作迁移

Motivation: 现有动作可控世界模型的扩展受到动作标签稀缺的限制。虽然潜在动作学习可以从无标签视频中提取控制接口，但学习到的潜在表示往往无法跨上下文迁移：它们会纠缠场景特定线索，缺乏共享坐标系
Method: 提出SeqΔ-REPA序列级控制效果对齐目标，将集成潜在动作锚定到冻结的自监督视频编码器的时间特征差异上。基于此构建Olaf-World流程，从大规模被动视频中预训练动作条件视频世界模型
Result: 实验表明，该方法学习到更结构化的潜在动作空间，相比现有基线方法，在零样本动作迁移和新控制接口的数据高效适应方面表现更优
Conclusion: 通过利用动作语义效果作为共享参考，SeqΔ-REPA方法解决了潜在动作学习的跨上下文对齐问题，为从无标签视频中学习可迁移控制接口提供了有效解决方案

[95] ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation

Mingyang Wu,Ashirbad Mishra,Soumik Dey,Shuo Xing,Naveen Ravipati,Hansi Wu,Binbin Li,Zhengzhong Tu

Main category: cs.CV

TL;DR: ConsID-Gen：一个基于视图辅助的图像到视频生成框架，通过多视图增强和双流编码解决现有I2V模型中的外观漂移和几何失真问题，在ConsIDVid-Bench基准上超越现有方法。

Motivation: 现有图像到视频生成模型存在外观漂移和几何失真问题，这源于单视图2D观测的稀疏性和跨模态对齐的薄弱。需要从数据和模型两个角度解决多视角一致性的挑战。
Method: 1) 构建ConsIDVid大规模物体中心数据集和ConsIDVid-Bench评估基准；2) 提出ConsID-Gen框架：使用未姿态辅助视图增强第一帧，通过双流视觉-几何编码器和文本-视觉连接器融合语义和结构线索，为Diffusion Transformer骨干提供统一条件。
Result: 在ConsIDVid-Bench上的实验表明，ConsID-Gen在多个指标上持续优于现有方法，整体性能超越Wan2.1和HunyuanVideo等领先视频生成模型，在挑战性现实场景中提供更好的身份保真度和时间一致性。
Conclusion: ConsID-Gen通过视图辅助生成和双流编码有效解决了I2V中的外观漂移和几何失真问题，为高质量、多视角一致的视频生成提供了新解决方案，数据集和模型将开源。

[96] Quantum Multiple Rotation Averaging

Shuteng Wang,Natacha Kuete Meli,Michael Möller,Vladislav Golyanik

Main category: cs.CV

TL;DR: IQARS是首个将多旋转平均问题转化为可在量子退火器上执行的局部二次非凸子问题序列的算法，在D-Wave量子退火器上比最佳经典方法Shonan精度提高约12%。

Motivation: 传统方法如L1-IRLS和Shonan存在局部极小值敏感性和依赖凸松弛的问题，这些凸松弛无法保持精确的流形几何，导致在高噪声场景下精度降低。
Method: IQARS将多旋转平均问题重新表述为一系列局部二次非凸子问题，经过二值化后可在量子退火器上执行，利用量子隧穿和并行性进行高效解空间探索，同时保持非欧旋转流形几何。
Result: 在合成和真实数据集上的评估显示，尽管当前量子退火器仍处于初级阶段且仅支持有限规模问题，但IQARS在D-Wave退火器上已能比最佳经典方法Shonan实现约12%的精度提升。
Conclusion: IQARS通过消除对凸松弛的依赖并更好地保持旋转流形几何，结合量子退火器的硬件优势，为多旋转平均问题提供了有前景的量子计算方法，尽管当前硬件限制仍存在。

[97] SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

Hongchi Xia,Xuan Li,Zhaoshuo Li,Qianli Ma,Jiashu Xu,Ming-Yu Liu,Yin Cui,Tsung-Yi Lin,Wei-Chiu Ma,Shenlong Wang,Shuran Song,Fangyin Wei

Main category: cs.CV

TL;DR: SAGE是一个智能体框架，能够根据用户指定的具身任务自动生成仿真就绪的3D环境，通过多生成器与评估器耦合实现语义合理性、视觉真实性和物理稳定性，支持大规模场景生成。

Motivation: 现实世界数据收集成本高且不安全，需要可扩展、真实且仿真就绪的3D环境。现有场景生成系统依赖规则或任务特定流程，常产生伪影和物理无效场景。
Method: 采用智能体框架，结合布局和物体组合的多个生成器，以及评估语义合理性、视觉真实性和物理稳定性的批评器。通过迭代推理和自适应工具选择，自我优化场景直至满足用户意图和物理有效性。
Result: 生成的环境真实、多样，可直接在现代仿真器中部署用于策略训练。仅使用该数据训练的智能体策略显示出清晰的扩展趋势，并能泛化到未见过的物体和布局。
Conclusion: SAGE框架展示了仿真驱动扩展对具身AI的潜力，能够大规模生成高质量、仿真就绪的3D环境，支持策略训练和泛化。

cs.HC

[98] Towards Human-AI Accessibility Mapping in India: VLM-Guided Annotations and POI-Centric Analysis in Chandigarh

Varchita Lalwani,Utkarsh Agarwal,Michael Saugstad,Manish Kumar,Jon E. Froehlich,Anupam Sobti

Main category: cs.HC

TL;DR: Project Sidewalk平台通过Google街景众包评估人行道可达性，本文描述其在印度昌迪加尔的适配部署，包括修改标注类型、整合VLM任务指导，并对三个不同功能区进行POI中心可达性分析。

Motivation: 将已在全球40个城市应用的Project Sidewalk平台适配到印度昌迪加尔，以评估该城市人行道可达性，识别需要改进的基础设施位置。
Method: 1. 修改标注类型和示例以适应印度环境；2. 整合基于视觉语言模型的任务指导，根据街景和元数据动态调整指令；3. 在昌迪加尔三个不同功能区（住宅、商业、机构）进行POI中心可达性分析，覆盖约40公里人行道和230个兴趣点。
Result: 1. AI任务指导获得平均4.66分（满分5分），证明其有效性；2. 在三个区域40公里道路和230个POI中，识别出2,913个位置中的1,644个需要基础设施改进以提升可达性。
Conclusion: 成功将Project Sidewalk平台适配到印度昌迪加尔，证明AI增强的任务指导有效，并识别出大量需要改进的人行道基础设施位置，为城市可达性规划提供数据支持。

cs.CR

[99] Understanding and Enhancing Encoder-based Adversarial Transferability against Large Vision-Language Models

Xinwei Zhang,Li Bai,Tianwei Zhang,Youqian Zhang,Qingqing Ye,Yingnan Zhao,Ruochen Du,Haibo Hu

Main category: cs.CR

TL;DR: 本文首次系统研究了LVLM中基于编码器的对抗迁移性，发现现有攻击方法迁移性有限，提出SGMA框架通过语义引导增强攻击迁移性。

Motivation: 大型视觉语言模型在多模态任务上取得显著成功，但其对视觉输入的依赖使其面临对抗攻击威胁。现有基于编码器的攻击方法仅针对视觉编码器进行优化，而非整个LVLM，计算效率较高，但其在不同LVLM架构间的迁移性在现实黑盒场景中尚未得到充分理解。
Method: 提出语义引导多模态攻击（SGMA）框架，通过深入分析发现两个阻碍迁移性的根本原因：1）模型间不一致的视觉定位；2）模型内冗余的语义对齐。SGMA将扰动引导至语义关键区域，并在全局和局部层面破坏跨模态定位。
Result: 在8个不同的LVLM上进行大规模基准测试，发现现有攻击方法迁移性严重受限。SGMA在不同受害模型和任务上的实验表明，其比现有攻击方法具有更高的迁移性。
Conclusion: 研究结果揭示了LVLM部署中的关键安全风险，强调了开发鲁棒多模态防御的紧迫需求。SGMA框架通过解决视觉定位不一致和语义对齐冗余问题，显著提升了对抗攻击的迁移性。

cs.RO

[100] LLM-Grounded Dynamic Task Planning with Hierarchical Temporal Logic for Human-Aware Multi-Robot Collaboration

Shuyuan Hu,Tao Lin,Kai Ye,Yang Yang,Tianwei Zhang

Main category: cs.RO

TL;DR: 提出神经符号框架，将LLM推理落地为分层LTL规范，解决动态环境下的多机器人任务分配与规划问题

Motivation: LLM生成的机器人任务规划缺乏运动学可行性且效率低下，而形式化方法（如LTL）虽能保证正确性但局限于静态离线场景且计算可扩展性差
Method: 神经符号框架：将LLM推理落地为分层LTL规范，通过后退时域规划循环处理随机环境变化，在分层状态空间中动态优化规划
Result: 真实世界实验表明，该方法在成功率、交互流畅性方面显著优于基线方法，同时最小化规划延迟
Conclusion: 提出的框架成功结合了LLM的开放世界任务指定能力和LTL的形式化保证，实现了动态环境下的高效多机器人规划

[101] AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception

Ruoxuan Feng,Yuxuan Zhou,Siyu Mei,Dongzhan Zhou,Pengwei Wang,Shaowei Cui,Bin Fang,Guocai Yao,Di Hu

Main category: cs.RO

TL;DR: ToucHD大规模触觉数据集与AnyTouch 2统一触觉表征学习框架，通过分层动态感知能力提升光学触觉传感器的物理交互理解

Motivation: 现实接触式操作需要机器人感知时序触觉反馈、捕捉细微表面形变并推理物体属性和力动力学。现有触觉数据集和模型主要关注物体级属性，忽略了物理交互中的细粒度触觉时序动态信息。
Method: 提出ToucHD大规模分层触觉数据集，涵盖触觉原子动作、真实世界操作和触觉-力配对数据；构建AnyTouch 2统一触觉表征学习框架，通过像素级和动作特定形变跨帧建模，显式建模物理力动力学。
Result: 实验在涵盖静态物体属性和动态物理属性的基准测试以及真实世界操作任务中，模型在不同传感器和任务上表现出一致且强大的性能。
Conclusion: 通过建立分层触觉动态数据生态系统和统一表征学习框架，实现了从基础物体级理解到力感知灵巧操作的多层次动态感知能力，显著推进了动态触觉感知技术。

[102] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Jingwen Sun,Wenyao Zhang,Zekun Qi,Shaojie Ren,Zezhi Liu,Hanxin Zhu,Guangzhong Sun,Xin Jin,Zhibo Chen

Main category: cs.RO

TL;DR: VLA-JEPA：一种基于JEPA框架的视觉-语言-动作预训练方法，通过泄漏无关的状态预测学习鲁棒的动态抽象，避免外观偏差和运动干扰，在多个任务上优于现有方法。

Motivation: 当前VLA策略在互联网规模视频上的预训练存在问题：潜在动作目标往往学习错误的内容，容易受到外观偏差、无关运动和信息泄漏的影响，导致模型关注像素变化而非动作相关的状态转移。
Method: 提出VLA-JEPA框架，核心是泄漏无关的状态预测：目标编码器从未来帧生成潜在表示，学生路径只看到当前观测，未来信息仅作为监督目标而非输入。通过在潜在空间而非像素空间进行预测，学习对相机运动和背景变化鲁棒的动态抽象。
Result: 在LIBERO、LIBERO-Plus、SimplerEnv和真实世界操作任务上的实验表明，VLA-JEPA在泛化性和鲁棒性方面相比现有方法取得了一致的提升。
Conclusion: VLA-JEPA通过简单的两阶段流程（JEPA预训练+动作头微调）解决了现有潜在动作流水线的多阶段复杂性，能够学习更鲁棒的动态表示，为VLA策略预训练提供了有效解决方案。

eess.IV

[103] Mamba-FCS: Joint Spatio- Frequency Feature Fusion, Change-Guided Attention, and SeK Loss for Enhanced Semantic Change Detection in Remote Sensing

Buddhi Wijenayake,Athulya Ratnayake,Praveen Sumanasekara,Roshan Godaliyadda,Parakrama Ekanayake,Vijitha Herath,Nichula Wasalathilaka

Main category: eess.IV

TL;DR: Mamba-FCS：基于视觉状态空间模型的语义变化检测框架，通过联合时空频域融合、变化引导注意力和分离Kappa损失，在遥感图像变化检测中实现SOTA性能。

Motivation: 遥感语义变化检测需要平衡空间上下文、计算效率和类别不平衡的挑战。CNN缺乏全局上下文，Transformer计算成本高，而Mamba架构提供线性复杂度的长程建模能力，为解决这些问题提供了新思路。
Method: 提出Mamba-FCS框架：1) 基于视觉状态空间模型的主干网络；2) 联合时空频域融合模块，利用对数振幅频域特征增强边缘清晰度；3) 变化引导注意力模块，显式连接BCD和SCD任务；4) 分离Kappa损失，针对类别不平衡优化性能。
Result: 在SECOND数据集上达到88.62%总体准确率、65.78% F_scd和25.50% SeK；在Landsat-SCD数据集上达到96.25%总体准确率、89.27% F_scd和60.26% SeK，均实现SOTA性能。消融实验验证了各模块的有效性。
Conclusion: Mamba架构结合提出的创新技术，为遥感语义变化检测设定了新的基准，展示了在有效性和可扩展性方面的巨大潜力。代码和模型将公开发布。

[104] SAS-Net: Scene-Appearance Separation Network for Robust Spatiotemporal Registration in Bidirectional Photoacoustic Microscopy

Jiahao Qin

Main category: eess.IV

TL;DR: 提出统一场景-外观分离框架，解决双向扫描光学分辨率光声显微镜中的域偏移和几何失真问题，实现实时高精度图像配准

Motivation: 高速双向扫描光学分辨率光声显微镜（OR-PAM）在快速功能脑成像中存在严重的时空错位问题，传统配准方法依赖亮度恒定性假设，在双向扫描下失效
Method: 提出场景-外观分离框架，将域不变场景内容与域特定外观特征分离，通过场景一致性损失促进潜在空间几何对应，将域偏移校正与空间配准统一在一个框架中
Result: 在活体小鼠脑血管成像中，NCC达到0.961，SSIM达到0.894，显著优于传统方法；推理时间每帧11.2毫秒（86fps），远超典型OR-PAM采集速率
Conclusion: 该框架为高速双向OR-PAM提供了鲁棒的解决方案，支持可靠的定量和纵向功能成像，代码将公开提供

cs.LG

[105] Distributed Hybrid Parallelism for Large Language Models: Comparative Study and System Design Guide

Hossam Amer,Rezaul Karim,Ali Pourranjbar,Weiwei Zhang,Walid Ahmed,Boxing Chen

Main category: cs.LG

TL;DR: 该论文对大型语言模型分布式训练与推理的并行化策略进行了系统性综述，涵盖集体操作、混合并行化设计、自动化搜索方法，并通过案例研究提供实践指导。

Motivation: 随着大型语言模型的快速发展，已有大量分布式计算方法用于跨硬件设备的计算和内存分配。然而，现有综述多停留在技术描述层面，缺乏对技术利弊的系统性分析，以及如何基于这些洞察指导设计最优分布式系统的原理性方法论。
Method: 1. 全面回顾集体操作和分布式并行策略，辅以数学公式深化理论理解；2. 研究混合并行化设计，重点关注训练和推理不同阶段的通信计算重叠；3. 讨论基于成本模型的自动化搜索最优混合并行化策略的最新进展；4. 通过主流架构类别的案例研究揭示实证洞察。
Result: 论文提供了对LLM分布式并行化策略的系统性分析框架，通过数学公式和案例研究为研究者和从业者提供了选择并行化策略的实证指导，同时总结了当前自动搜索方法的最新进展。
Conclusion: 论文指出了当前LLM训练范式的开放挑战和局限性，并概述了下一代大规模模型发展的有前景方向，为分布式系统设计提供了原理性方法论指导。

[106] ECG-IMN: Interpretable Mesomorphic Neural Networks for 12-Lead Electrocardiogram Interpretation

Vajira Thambawita,Jonas L. Isaksen,Jørgen K. Kanters,Hugo L. Hammer,Pål Halvorsen

Main category: cs.LG

TL;DR: 提出ECG-IMN，一种用于12导联心电图分类的可解释性网络，通过超网络架构生成样本特定的线性模型权重，实现数学透明的决策解释。

Motivation: 深度学习在心电图诊断中已达到专家级性能，但其"黑盒"特性阻碍了临床部署。医疗AI需要高准确性和对驱动预测的生理特征的透明度。现有的心电图可解释性方法通常依赖事后近似，可能不稳定、计算成本高且不忠实于模型的实际决策过程。
Method: 提出ECG-IMN（Interpretable Mesomorphic Neural Network），作为超网络运行：深度卷积主干为每个输入样本生成严格线性模型的参数。该架构强制执行内在可解释性，决策逻辑在数学上是透明的，生成的权重(W)作为精确的高分辨率特征归因图。引入过渡解码器，将潜在特征映射到样本特定权重，实现病理证据（如ST段抬高、T波倒置）在时间和导联维度上的精确定位。
Result: 在PTB-XL数据集上评估，ECG-IMN实现了有竞争力的预测性能（AUROC与黑盒基线相当），同时提供忠实、实例特定的解释。
Conclusion: 通过明确分离参数生成和预测执行，该框架弥合了深度学习能力和临床可信度之间的差距，为"白盒"心脏诊断提供了原则性路径。

[107] Physics-informed diffusion models in spectral space

Davide Gallon,Philippe von Wurstemberger,Patrick Cheridito,Arnulf Jentzen

Main category: cs.LG

TL;DR: 结合生成式潜在扩散模型与物理信息机器学习，通过谱表示降维处理参数化偏微分方程的正反问题，在扩散过程中施加物理约束，相比现有方法在稀疏观测下精度和效率更高。

Motivation: 现有基于扩散的PDE求解器在处理参数化偏微分方程时，特别是在部分观测条件下的正反问题中，存在维度高、计算效率低的问题，需要一种既能保持物理约束又能高效处理谱表示的方法。
Method: 提出谱潜在扩散模型，在缩放谱表示的潜在空间中学习PDE参数与解的联合分布，利用扩散后验采样在推理过程中施加物理信息约束和测量条件，通过Adam优化在每个扩散步骤进行更新。
Result: 在Poisson、Helmholtz和不可压缩Navier-Stokes方程上验证，相比现有最先进的基于扩散的PDE求解器，在稀疏观测条件下表现出更高的精度和计算效率。
Conclusion: 谱潜在扩散模型为参数化偏微分方程的正反问题提供了一种高效解决方案，通过谱表示降维和物理约束的结合，在保持函数空间正则性的同时显著提升了计算性能。

[108] Online Monitoring Framework for Automotive Time Series Data using JEPA Embeddings

Alexander Fertig,Karthikeyan Chandra Sekaran,Lakshman Balasubramanian,Michael Botsch

Main category: cs.LG

TL;DR: 提出一种基于自监督嵌入的在线监控框架，用于检测自动驾驶中物体状态表示的异常，无需异常标签即可识别未知异常。

Motivation: 自动驾驶系统需要持续监控以确保安全运行，但现实环境中可能出现未知异常且缺乏标签数据，因此需要无需异常标签的监控框架。
Method: 使用基于JEPA的自监督预测任务将物体数据转换为潜在表示空间，生成丰富的物体嵌入，然后将这些嵌入作为输入应用于现有的异常检测方法。
Result: 在公开的真实世界nuScenes数据集上进行实验，验证了该框架检测物体状态表示异常的能力。
Conclusion: 该自监督嵌入框架能够有效检测自动驾驶中的未知异常，特别适用于现实环境中缺乏标签数据的场景。

[109] Vendi Novelty Scores for Out-of-Distribution Detection

Amey P. Pasarkar,Adji Bousso Dieng

Main category: cs.LG

TL;DR: 提出Vendi Novelty Score (VNS)，一种基于多样性度量的OOD检测新方法，无需密度建模，在多个基准测试中达到SOTA性能

Motivation: 现有OOD检测方法主要依赖模型置信度或特征空间似然估计，通常需要严格的分布假设。需要一种新的检测范式，从多样性角度出发，提供更灵活、无需密度建模的OOD检测方法。
Method: 基于Vendi Scores (VS)相似性多样性度量，提出Vendi Novelty Score (VNS)。VNS量化测试样本如何增加ID特征集的VS，提供一种原则性的新颖性度量。方法具有线性时间复杂度、非参数特性，并能自然结合类别条件（局部）和数据集级别（全局）的新颖性信号。
Result: 在多个图像分类基准测试和网络架构上，VNS实现了最先进的OOD检测性能。值得注意的是，即使仅使用1%的训练数据计算，VNS仍能保持高性能，适用于内存或访问受限的环境。
Conclusion: VNS从多样性角度为OOD检测提供了第三种范式，无需密度建模，性能优越且计算高效，特别适合资源受限的实际部署场景。

[110] Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders

Amandeep Kumar,Vishal M. Patel

Main category: cs.LG

TL;DR: 论文提出RJF方法，通过黎曼流匹配和雅可比正则化解决表示编码器特征空间中的几何干扰问题，使标准扩散变换器能在不增加宽度的情况下有效收敛。

Motivation: 现有扩散变换器无法直接在表示编码器的特征空间上收敛。传统方法认为是容量瓶颈问题，但本文发现根本原因是几何干扰：欧几里得流匹配迫使概率路径通过特征空间的低密度内部，而非沿着流形表面。
Method: 提出黎曼流匹配与雅可比正则化(RJF)：1) 将生成过程约束到流形测地线上；2) 修正曲率引起的误差传播。这使得标准扩散变换器架构无需宽度扩展就能收敛。
Result: RJF方法使标准DiT-B架构(1.31亿参数)有效收敛，达到FID 3.37，而先前方法无法收敛。相比需要计算昂贵的宽度扩展方法，RJF更高效。
Conclusion: 表示编码器特征空间中的生成建模失败本质上是几何问题而非容量问题。RJF通过黎曼流匹配和曲率校正解决了几何干扰，为高效高保真合成提供了新途径。

cs.CV ​

[1] UI-Venus-1.5 Technical Report ​

[2] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling ​

[3] SemanticMoments: Training-Free Motion Similarity via Third Moment Features ​

[4] A Hybrid Deterministic Framework for Named Entity Extraction in Broadcast News Video ​

[5] Decoding Future Risk: Deep Learning Analysis of Tubular Adenoma Whole-Slide Images ​

[6] All-in-One Conditioning for Text-to-Image Synthesis ​

[7] Wearable environmental sensing to forecast how legged systems will interact with upcoming terrain ​

[8] VLM-UQBench: A Benchmark for Modality-Specific and Cross-Modality Uncertainties in Vision Language Models ​

[9] VLM-Guided Iterative Refinement for Surgical Image Segmentation with Foundation Models ​

[10] Rethinking Global Text Conditioning in Diffusion Transformers ​

[11] X-Mark: Saliency-Guided Robust Dataset Ownership Verification for Medical Imaging ​

[12] A Deep Multi-Modal Method for Patient Wound Healing Assessment ​

[13] GAFR-Net: A Graph Attention and Fuzzy-Rule Network for Interpretable Breast Cancer Image Classification ​

[14] Deep Modeling and Interpretation for Bladder Cancer Classification ​

[15] Kyrtos: A methodology for automatic deep analysis of graphic charts with curves in technical documents ​

[16] Impact of domain adaptation in deep learning for medical image classifications ​

[17] Fully Differentiable Bidirectional Dual-Task Synergistic Learning for Semi-Supervised 3D Medical Image Segmentation ​

[18] Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D ​

[19] K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge ​

[20] LARV: Data-Free Layer-wise Adaptive Rescaling Veneer for Model Merging ​

[21] Stability and Concentration in Nonlinear Inverse Problems with Block-Structured Parameters: Lipschitz Geometry, Identifiability, and an Application to Gaussian Splatting ​

[22] Bridging the Modality Gap in Roadside LiDAR: A Training-Free Vision-Language Model Framework for Vehicle Classification ​

[23] SceneReVis: A Self-Reflective Vision-Grounded Framework for 3D Indoor Scene Synthesis via Multi-turn RL ​

[24] Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning ​

[25] A Scoping Review of Deep Learning for Urban Visual Pollution and Proposal of a Real-Time Monitoring Framework with a Visual Pollution Index ​

[26] Look-Ahead and Look-Back Flows: Training-Free Image Generation with Trajectory Smoothing ​

[27] ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs ​

[28] FD-DB: Frequency-Decoupled Dual-Branch Network for Unpaired Synthetic-to-Real Domain Translation ​

[29] Weakly Supervised Contrastive Learning for Histopathology Patch Embeddings ​

[30] Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions ​

[31] OSI: One-step Inversion Excels in Extracting Diffusion Watermarks ​

[32] Equilibrium contrastive learning for imbalanced image classification ​

[33] Robust Depth Super-Resolution via Adaptive Diffusion Sampling ​

[34] Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems ​

[35] A Universal Action Space for General Behavior Analysis ​

[36] Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs ​

[37] Singpath-VL Technical Report ​

[38] HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection ​

[39] SchröMind: Mitigating Hallucinations in Multimodal Large Language Models via Solving the Schrödinger Bridge Problem ​

[40] SCA-Net: Spatial-Contextual Aggregation Network for Enhanced Small Building and Road Change Detection ​

[41] DR.Experts: Differential Refinement of Distortion-Aware Experts for Blind Image Quality Assessment ​

[42] RAD: Retrieval-Augmented Monocular Metric Depth Estimation for Underrepresented Classes ​

[43] AUHead: Realistic Emotional Talking Head Generation via Action Units Control ​

[44] Scalpel: Fine-Grained Alignment of Attention Activation Manifolds via Mixture Gaussian Bridges to Mitigate Multimodal Hallucination ​

[45] Delving into Spectral Clustering with Vision-Language Representations ​

[46] MieDB-100k: A Comprehensive Dataset for Medical Image Editing ​

[47] Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures ​

[48] Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing ​

[49] AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models ​

[50] Towards Training-free Multimodal Hate Localisation with Large Language Models ​

[51] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model ​

[52] Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation ​

[53] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution ​

[54] Semi-supervised Liver Segmentation and Patch-based Fibrosis Staging with Registration-aided Multi-parametric MRI ​

[55] GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation ​

[56] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models ​

[57] From Lightweight CNNs to SpikeNets: Benchmarking Accuracy-Energy Tradeoffs with Pruned Spiking SqueezeNet ​

[58] Allure of Craquelure: A Variational-Generative Approach to Crack Detection in Paintings ​

[59] Toward Fine-Grained Facial Control in 3D Talking Head Generation ​

[60] Robust Vision Systems for Connected and Autonomous Vehicles: Security Challenges and Attack Vectors ​

[61] Self-Supervised Learning as Discrete Communication ​

[62] Where Do Images Come From? Analyzing Captions to Geographically Profile Datasets ​

[63] SciFlow-Bench: Evaluating Structure-Aware Scientific Diagram Generation via Inverse Parsing ​

[64] CompSplat: Compression-aware 3D Gaussian Splatting for Real-world Video ​

[65] SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding ​

[66] ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge ​

[67] Kelix Technique Report ​

[68] Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection ​

[69] Code2World: A GUI World Model via Renderable Code Generation ​

[70] Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence ​

[71] BabyMamba-HAR: Lightweight Selective State Space Models for Efficient Human Activity Recognition on Resource Constrained Devices ​

[72] MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation ​

[73] AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization ​

[74] SARS: A Novel Face and Body Shape and Appearance Aware 3D Reconstruction System extends Morphable Models ​

[75] A benchmark for video-based laparoscopic skill analysis and assessment ​

[76] Monocular Normal Estimation via Shading Sequence Estimation ​

[77] GeoFormer: A Swin Transformer-Based Framework for Scene-Level Building Height and Footprint Estimation from Sentinel Imagery ​

[78] Unbalanced optimal transport for robust longitudinal lesion evolution with registration-aware and appearance-guided priors ​

[79] VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization ​

cs.CV

[1] UI-Venus-1.5 Technical Report

[2] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

[3] SemanticMoments: Training-Free Motion Similarity via Third Moment Features

[4] A Hybrid Deterministic Framework for Named Entity Extraction in Broadcast News Video

[5] Decoding Future Risk: Deep Learning Analysis of Tubular Adenoma Whole-Slide Images

[6] All-in-One Conditioning for Text-to-Image Synthesis

[7] Wearable environmental sensing to forecast how legged systems will interact with upcoming terrain

[8] VLM-UQBench: A Benchmark for Modality-Specific and Cross-Modality Uncertainties in Vision Language Models

[9] VLM-Guided Iterative Refinement for Surgical Image Segmentation with Foundation Models

[10] Rethinking Global Text Conditioning in Diffusion Transformers

[11] X-Mark: Saliency-Guided Robust Dataset Ownership Verification for Medical Imaging

[12] A Deep Multi-Modal Method for Patient Wound Healing Assessment

[13] GAFR-Net: A Graph Attention and Fuzzy-Rule Network for Interpretable Breast Cancer Image Classification

[14] Deep Modeling and Interpretation for Bladder Cancer Classification

[15] Kyrtos: A methodology for automatic deep analysis of graphic charts with curves in technical documents

[16] Impact of domain adaptation in deep learning for medical image classifications

[17] Fully Differentiable Bidirectional Dual-Task Synergistic Learning for Semi-Supervised 3D Medical Image Segmentation

[18] Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

[19] K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge

[20] LARV: Data-Free Layer-wise Adaptive Rescaling Veneer for Model Merging

[21] Stability and Concentration in Nonlinear Inverse Problems with Block-Structured Parameters: Lipschitz Geometry, Identifiability, and an Application to Gaussian Splatting

[22] Bridging the Modality Gap in Roadside LiDAR: A Training-Free Vision-Language Model Framework for Vehicle Classification

[23] SceneReVis: A Self-Reflective Vision-Grounded Framework for 3D Indoor Scene Synthesis via Multi-turn RL

[24] Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning

[25] A Scoping Review of Deep Learning for Urban Visual Pollution and Proposal of a Real-Time Monitoring Framework with a Visual Pollution Index

[26] Look-Ahead and Look-Back Flows: Training-Free Image Generation with Trajectory Smoothing

[27] ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs

[28] FD-DB: Frequency-Decoupled Dual-Branch Network for Unpaired Synthetic-to-Real Domain Translation

[29] Weakly Supervised Contrastive Learning for Histopathology Patch Embeddings

[30] Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions

[31] OSI: One-step Inversion Excels in Extracting Diffusion Watermarks

[32] Equilibrium contrastive learning for imbalanced image classification

[33] Robust Depth Super-Resolution via Adaptive Diffusion Sampling

[34] Energy-Efficient Fast Object Detection on Edge Devices for IoT Systems

[35] A Universal Action Space for General Behavior Analysis

[36] Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs

[37] Singpath-VL Technical Report

[38] HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

[39] SchröMind: Mitigating Hallucinations in Multimodal Large Language Models via Solving the Schrödinger Bridge Problem

[40] SCA-Net: Spatial-Contextual Aggregation Network for Enhanced Small Building and Road Change Detection

[41] DR.Experts: Differential Refinement of Distortion-Aware Experts for Blind Image Quality Assessment

[42] RAD: Retrieval-Augmented Monocular Metric Depth Estimation for Underrepresented Classes

[43] AUHead: Realistic Emotional Talking Head Generation via Action Units Control

[44] Scalpel: Fine-Grained Alignment of Attention Activation Manifolds via Mixture Gaussian Bridges to Mitigate Multimodal Hallucination

[45] Delving into Spectral Clustering with Vision-Language Representations

[46] MieDB-100k: A Comprehensive Dataset for Medical Image Editing

[47] Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures

[48] Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

[49] AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

[50] Towards Training-free Multimodal Hate Localisation with Large Language Models

[51] VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

[52] Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

[53] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

[54] Semi-supervised Liver Segmentation and Patch-based Fibrosis Staging with Registration-aided Multi-parametric MRI

[55] GenSeg-R1: RL-Driven Vision-Language Grounding for Fine-Grained Referring Segmentation

[56] Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models

[57] From Lightweight CNNs to SpikeNets: Benchmarking Accuracy-Energy Tradeoffs with Pruned Spiking SqueezeNet

[58] Allure of Craquelure: A Variational-Generative Approach to Crack Detection in Paintings

[59] Toward Fine-Grained Facial Control in 3D Talking Head Generation

[60] Robust Vision Systems for Connected and Autonomous Vehicles: Security Challenges and Attack Vectors

[61] Self-Supervised Learning as Discrete Communication

[62] Where Do Images Come From? Analyzing Captions to Geographically Profile Datasets

[63] SciFlow-Bench: Evaluating Structure-Aware Scientific Diagram Generation via Inverse Parsing

[64] CompSplat: Compression-aware 3D Gaussian Splatting for Real-world Video

[65] SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding

[66] ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge

[67] Kelix Technique Report

[68] Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection

[69] Code2World: A GUI World Model via Renderable Code Generation

[70] Free-GVC: Towards Training-Free Extreme Generative Video Compression with Temporal Coherence

[71] BabyMamba-HAR: Lightweight Selective State Space Models for Efficient Human Activity Recognition on Resource Constrained Devices

[72] MVISTA-4D: View-Consistent 4D World Model with Test-Time Action Inference for Robotic Manipulation

[73] AdaTSQ: Pushing the Pareto Frontier of Diffusion Transformers via Temporal-Sensitivity Quantization

[74] SARS: A Novel Face and Body Shape and Appearance Aware 3D Reconstruction System extends Morphable Models

[75] A benchmark for video-based laparoscopic skill analysis and assessment

[76] Monocular Normal Estimation via Shading Sequence Estimation

[77] GeoFormer: A Swin Transformer-Based Framework for Scene-Level Building Height and Footprint Estimation from Sentinel Imagery

[78] Unbalanced optimal transport for robust longitudinal lesion evolution with registration-aware and appearance-guided priors

[79] VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization