每日arXiv - 2026年2月16日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Thermal Imaging for Contactless Cardiorespiratory and Sudomotor Response Monitoring

Constantino Álvarez Casado,Mohammad Rahman,Sasan Sharifipour,Nhi Nguyen,Manuel Lage Cañellas,Xiaoting Wu,Miguel Bordallo López

Main category: cs.CV

TL;DR: 热红外成像通过面部热视频无接触估计皮肤电活动、心率和呼吸率，在SIM1驾驶监测数据集上验证性能

Motivation: 热红外成像能捕捉自主神经调节引起的皮肤温度变化，可无接触估计EDA、HR和BR。可见光方法无法测量EDA（交感神经激活的标准标志物），而热成像可同时获取这三种生物信号
Method: 使用信号处理流程：追踪面部解剖区域，空间聚合，分离慢速出汗趋势和快速心肺成分。HR采用正交矩阵图像变换分解多个ROI，BR平均鼻部和脸颊信号后进行频谱峰值检测。评估288种EDA配置和HR/BR流程
Result: 最佳EDA配置（鼻部区域，指数移动平均）与手掌EDA的平均绝对相关性为0.40±0.23，个别会话达0.89。BR估计平均绝对误差3.1±1.1 bpm，HR估计13.8±7.5 bpm MAE（受7.5 Hz低帧率限制）。发现信号极性交替、热力学延迟短等特征
Conclusion: 研究为热红外无接触生物信号估计提供了基线性能界限和设计指导，展示了热成像同时测量EDA、HR和BR的潜力，特别是在驾驶监测等应用场景

[2] LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens

Zekun Li,Sizhe An,Chengcheng Tang,Chuan Guo,Ivan Shugurov,Linguang Zhang,Amy Zhao,Srinath Sridhar,Lingling Tao,Abhay Mittal

Main category: cs.CV

TL;DR: LLaMo是一个统一运动-语言生成与理解的大模型框架，通过Mixture-of-Transformers架构扩展预训练LLM，实现高质量文本到运动生成和运动到文本描述，支持实时流式生成。

Motivation: 现有方法通常通过量化将运动转换为离散表示，导致抖动伪影；同时微调LLM在有限的运动-文本数据上会导致灾难性遗忘语言能力。需要开发能统一运动-语言生成与理解且保持语言能力的模型。
Method: 提出LLaMo框架：1) 使用模态特定的Mixture-of-Transformers架构扩展预训练LLM，保持基础模型的语言理解能力；2) 将人体运动编码到因果连续潜在空间；3) 通过轻量级流匹配头在仅解码器骨干中保持下一个标记预测范式，实现实时流式运动生成。
Result: LLaMo实现了高保真度的文本到运动生成和运动到文本描述，在通用设置下表现优异，特别是在零样本运动生成方面。能够以超过30FPS的速度进行实时流式运动生成。
Conclusion: LLaMo通过创新的架构设计解决了现有方法的局限性，在保持语言能力的同时实现了高质量的运动-语言统一生成与理解，是迈向通用统一运动-语言大模型的重要一步。

[3] Synthetic Image Detection with CLIP: Understanding and Assessing Predictive Cues

Marco Willi,Melanie Mathys,Michael Graber

Main category: cs.CV

TL;DR: 本文分析了基于CLIP的合成图像检测方法，发现其主要依赖高级摄影属性而非生成器特定伪影，在高质量扩散模型上性能下降且跨生成器泛化能力有限。

Motivation: 随着生成模型能产生近乎逼真的图像，合成图像检测变得至关重要。现有方法难以泛化到新生成模型，且在实际场景中表现不佳。CLIP模型在合成图像检测中表现出色，但其底层检测机制不明确，需要探究CLIP特征是否仅检测视觉伪影或利用语义偏差。
Method: 引入SynthCLIC数据集（真实照片与高质量扩散模型合成图像的配对数据集），使用可解释的线性头与去相关激活，结合文本基础的概念模型，分析CLIP检测器学习的内容。
Result: CLIP线性检测器在GAN基准上达到0.96 mAP，但在高质量扩散数据集SynthCLIC上仅0.92 mAP，跨生成器泛化性能最低降至0.37 mAP。检测器主要依赖高级摄影属性（如极简风格、镜头光晕、深度分层），而非明显的生成器特定伪影。
Conclusion: CLIP检测器整体表现良好但跨不同生成架构泛化不均，强调了持续模型更新和更广泛训练的必要性，同时确认CLIP方法为更通用、鲁棒的合成图像检测提供了坚实基础。

[4] Reproducing DragDiffusion: Interactive Point-Based Editing with Diffusion Models

Ali Subhan,Ashir Raza

Main category: cs.CV

TL;DR: 这篇论文对DragDiffusion方法进行了可复现性研究，验证了其通过优化单个扩散潜在变量实现精确空间控制的核心主张，同时发现性能对少数超参数敏感。

Motivation: 验证DragDiffusion方法的可复现性，该方法声称通过优化单个扩散潜在变量和身份保持微调等技术，能够实现基于点的交互式图像编辑。
Method: 使用作者发布的实现和DragBench基准，复现了主要消融研究，包括扩散时间步选择、LoRA微调、掩码正则化强度和UNet特征监督等实验。
Result: 研究结果与原始工作的定性和定量趋势基本一致，但发现性能对优化时间步和运动监督特征层等少数超参数敏感，而多时间步潜在优化变体并未提高空间精度反而增加计算成本。
Conclusion: 研究支持DragDiffusion的核心主张，同时明确了这些主张可可靠复现的条件，为方法的实际应用提供了重要指导。

[5] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

Xirui Li,Ming Li,Tianyi Zhou

Main category: cs.CV

TL;DR: 该论文提出一个分析框架来理解RL在视觉推理中的具体作用，发现RL主要优化transformer中后期层的计算，改善视觉到推理的对齐，而非均匀增强视觉感知。

Motivation: 尽管RL已成为提升视觉语言模型视觉推理能力的标准后训练阶段，但尚不清楚RL相比监督微调具体改进了哪些能力。基准测试的端到端增益混淆了多个因素，难以将改进归因于特定技能。
Method: 提出弗兰肯斯坦式分析框架：1) 通过因果探测进行功能定位；2) 通过参数比较进行更新表征；3) 通过模型合并进行可转移性测试。
Result: RL主要在transformer的中后期层引起一致的推理时偏移，这些中后期改进既可通过合并转移，又可通过冻结证明对RL增益的必要性。
Conclusion: RL在视觉推理中的可靠贡献不是对视觉感知的均匀增强，而是对transformer中后期计算的系统性优化，改善了视觉到推理的对齐和推理性能，凸显了仅依赖基准评估来理解多模态推理改进的局限性。

[6] ZeroDiff++: Substantial Unseen Visual-semantic Correlation in Zero-shot Learning

Zihan Ye,Shreyank N Gowda,Kaile Du,Weijian Luo,Ling Shao

Main category: cs.CV

TL;DR: ZeroDiff++：基于扩散模型的零样本学习框架，通过扩散增强、监督对比表示、多视图判别器以及测试时适应与生成，解决现有生成式ZSL中的虚假视觉-语义关联和数据稀缺问题。

Motivation: 现有生成式零样本学习方法存在两个关键问题：1）由于可见类样本稀缺导致的虚假视觉-语义关联；2）现有生成器产生的特征与真实测试样本脱节，进一步加剧了虚假关联。这些问题限制了ZSL的性能。
Method: 提出ZeroDiff++框架：训练阶段使用扩散增强生成多样噪声样本、监督对比表示学习实例级语义、多视图判别器与Wasserstein互学习评估生成特征；生成阶段引入扩散测试时适应（DiffTTA）通过伪标签重构适应生成器，以及扩散测试时生成（DiffGen）追踪扩散去噪路径产生部分合成特征，连接真实与生成数据。
Result: 在三个ZSL基准测试上的广泛实验表明，ZeroDiff++不仅显著优于现有ZSL方法，而且在训练数据稀缺时仍能保持鲁棒性能。
Conclusion: ZeroDiff++通过创新的扩散框架有效解决了生成式ZSL中的虚假关联和数据稀缺问题，显著提升了零样本学习的性能，特别是在数据稀缺场景下表现出色。

[7] MonoLoss: A Training Objective for Interpretable Monosemantic Representations

Ali Nasiri-Sarvi,Anh Tien Nguyen,Hassan Rivaz,Dimitris Samaras,Mahdi S. Hosseini

Main category: cs.CV

TL;DR: 提出MonoLoss训练目标，通过单次计算MonoScore来高效提升稀疏自编码器的单义性，在多个模型上显著改善特征可解释性和分类纯度。

Motivation: 现有稀疏自编码器训练目标对单义性分解的激励较弱，而现有单义性评估指标需要成对比较所有数据集样本，计算成本高，难以在训练中实时使用。
Method: 1) 推导出单次计算MonoScore的线性复杂度算法；2) 提出MonoLoss作为训练目标，直接奖励语义一致的激活；3) 将MonoLoss作为辅助正则化器用于模型微调。
Result: 1) 在OpenImagesV7上实现1200倍评估加速和159倍训练加速；2) MonoLoss提升大多数潜在特征的MonoScore；3) 分类纯度从0.152提升到0.723；4) ImageNet-1K准确率提升0.6%。
Conclusion: MonoLoss通过高效的单义性度量，有效提升稀疏自编码器的特征可解释性，可作为通用正则化器改善模型性能和可解释性。

[8] Prototype-driven fusion of pathology and spatial transcriptomics for interpretable survival prediction

Lihe Liu,Xiaoxi Pan,Yinyin Yuan,Lulu Shang

Main category: cs.CV

TL;DR: PathoSpatial是一个可解释的端到端框架，通过整合配对的WSI和空间转录组数据，学习空间感知的预后表征，在乳腺癌预后预测中表现优异。

Motivation: 随着配对的WSI-ST队列扩展到群体水平，利用它们互补的空间信号进行预后预测变得至关重要，但目前缺乏原则性的跨模态融合策略。
Method: PathoSpatial采用任务引导的原型学习和多级专家架构，自适应地协调无监督的模态内发现和有监督的跨模态聚合。
Result: 在三阴性乳腺癌队列中，PathoSpatial在五个生存终点上表现强劲且一致，优于或可比于领先的单模态和多模态方法。
Conclusion: PathoSpatial为空间组学-病理融合提供了可扩展且可解释的多模态学习概念验证，能够提供定量、生物学基础的解释。

[9] Semantic-aware Adversarial Fine-tuning for CLIP

Jiacheng Zhang,Jinhao Li,Hanxun Huang,Sarah M. Erfani,Benjamin I. P. Rubinstein,Feng Liu

Main category: cs.CV

TL;DR: SAFT通过语义集成攻击生成语义感知对抗样本，增强CLIP在零样本分类任务中的对抗鲁棒性

Motivation: 现有方法使用余弦相似度和手工模板生成的对抗样本存在局限性，当使用更丰富的语义相似度度量时可能失效，需要更语义感知的对抗样本生成方法
Method: 提出语义集成攻击：通过最小化原始图像与一组精炼文本描述的平均相似度来生成语义感知对抗样本；这些描述由基础模型生成以捕捉核心语义特征，并通过精炼减少幻觉；然后提出SAFT方法，用语义感知对抗样本微调CLIP图像编码器
Result: SAFT在16个数据集上显著优于现有方法，在零样本对抗鲁棒性方面取得实质性改进
Conclusion: 语义感知对抗样本比基于余弦相似度和手工模板的方法更有效，SAFT方法能显著提升CLIP的对抗鲁棒性

[10] A Lightweight and Explainable DenseNet-121 Framework for Grape Leaf Disease Classification

Md. Ehsanul Haque,Md. Saymon Hosen Polash,Rakib Hasan Ovi,Aminul Kader Bulbul,Md Kamrul Siam,Tamim Hasan Saykat

Main category: cs.CV

TL;DR: 提出基于优化DenseNet121的葡萄叶病害分类方法，在准确率、F1分数等指标上优于基线模型，并利用Grad-CAM提高可解释性。

Motivation: 葡萄是全球重要的经济作物，但病害如细菌性腐烂、霜霉病和白粉病严重影响产量和质量。现有基于YOLO的自动化方法计算成本高且缺乏可解释性，难以在实际场景中应用。
Method: 使用优化的DenseNet121模型进行葡萄叶病害分类，结合领域特定的预处理和密集连接提取病害相关特征（叶脉、边缘、病斑）。采用迁移学习处理小样本和不平衡数据，使用Grad-CAM进行可解释性分析。
Result: 模型达到99.27%准确率、99.28% F1分数、99.71%特异性和98.86% Kappa系数，推理时间9秒。交叉验证平均准确率99.12%，优于ResNet18、VGG16、AlexNet和SqueezeNet等基线模型。
Conclusion: 提出的框架通过有效架构、领域特定预处理和可解释输出，实现了可扩展、精确且计算成本低的葡萄叶病害检测，适合实时部署。

[11] Human-Like Coarse Object Representations in Vision Models

Andrey Gizdov,Andrea Procopio,Yichen Li,Daniel Harari,Tomer Ullman

Main category: cs.CV

TL;DR: 研究发现人类直觉物理表征采用粗糙的体素化"身体"结构，而分割模型通过资源约束（而非专门偏置）可达到类似人类的最佳粒度

Motivation: 探索人类直觉物理表征与计算机视觉分割模型之间的差异：人类使用粗糙的体素化"身体"进行物理预测，而分割模型追求像素级精度，两者是否及何时能对齐
Method: 使用时间到碰撞(TTC)行为范式，建立比较流程和对齐指标，通过调整模型训练时间、规模和剪枝来改变有效容量
Result: 所有实验都显示倒U型曲线：小/短训练/剪枝模型欠分割成团块；大/充分训练模型过分割有边界抖动；中间"理想身体粒度"最匹配人类行为
Conclusion: 人类式粗糙身体表征源于资源约束而非专门偏置，可通过早期检查点、适度架构、轻度剪枝等简单调节获得物理高效表征，符合资源理性平衡识别细节与物理可用性的理论

[12] Insertion Network for Image Sequence Correspondence

Dingjie Su,Weixiang Hong,Benoit M. Dawant,Bennett A. Landman

Main category: cs.CV

TL;DR: 提出一种基于序列插入学习的新方法，用于建立2D图像序列间的对应关系，特别适用于3D医学影像中的切片定位和导航任务。

Motivation: 在医学影像分析中，需要在3D体积中定位特定2D切片或确定3D扫描的解剖覆盖范围，这是诊断任务、自动配准和分割流程的重要预处理步骤。现有方法（如身体部位回归）将每个切片独立处理，忽略了序列上下文信息。
Method: 通过训练网络学习如何将一个序列中的切片插入到另一个序列的适当位置。使用切片编码器提取上下文表示，并通过切片到切片的注意力机制建模插入过程，充分利用整个序列的上下文信息。
Result: 在监督设置下，插入网络将切片定位误差从8.4毫米降低到5.4毫米，相比当前最先进的身体部位回归方法有显著改进。
Conclusion: 提出的序列插入学习方法通过利用序列上下文信息，显著提高了2D切片在3D体积中的定位精度，为医学影像分析提供了更有效的预处理工具。

[13] Layer-Specific Fine-Tuning for Improved Negation Handling in Medical Vision-Language Models

Ali Abbasi,Mehdi Taghipour,Rahmatollah Beheshti

Main category: cs.CV

TL;DR: 提出NAST方法，通过因果追踪指导分层梯度更新，解决医学视觉语言模型对否定语句的识别问题

Motivation: 临床报告中否定是基本语言操作，但现有视觉语言模型难以区分肯定和否定的医学陈述，这在安全关键的医疗环境中存在风险
Method: 1) 创建放射学特异性诊断基准评估极性敏感性；2) 构建上下文临床否定数据集；3) 提出NAST方法，使用因果追踪效应指导分层梯度更新
Result: 实验表明NAST能改善对肯定和否定临床陈述的区分能力，同时不损害一般的视觉语言对齐
Conclusion: 因果可解释性对于安全关键医疗环境中的针对性模型适应具有重要价值，NAST方法有效解决了医学VLMs的否定识别问题

[14] Matching of SAR and optical images based on transformation to shared modality

Alexey Borisov,Evgeny Myasnikov,Vladislav Myasnikov

Main category: cs.CV

TL;DR: 提出一种新的光学与SAR图像匹配方法，通过将两种图像转换到共享模态，然后使用RoMa模型进行匹配，在MultiSenGE数据集上优于现有方法。

Motivation: 光学图像和SAR图像由于物理原理不同，存在显著差异，导致精确配准困难。现有方法难以有效处理这两种不同模态图像的匹配问题。
Method: 将光学和SAR图像转换到新的共享模态，该模态需满足：1) 具有预定义数量的通道；2) 转换后的配准图像尽可能相似；3) 保持原始图像的重要特征。然后使用RoMa图像匹配模型（原本用于普通照片）进行匹配。
Result: 在MultiSenGE公开数据集上评估，该方法优于基于原始模态间图像翻译和各种特征匹配算法的替代方法。不仅匹配质量更好，而且更通用。
Conclusion: 该方法能够直接使用预训练的RoMa和DeDoDe模型（针对普通图像训练），无需为新模态重新训练，同时保持光学和SAR图像的高质量匹配，具有更好的匹配质量和通用性。

[15] LiDAR-Anchored Collaborative Distillation for Robust 2D Representations

Wonjun Jo,Hyunwoo Ha,Kim Ji-Yeon,Hawook Jeong,Tae-Hyun Oh

Main category: cs.CV

TL;DR: 提出Collaborative Distillation方法，利用3D LiDAR作为自监督信号，增强2D图像编码器在噪声和恶劣天气条件下的鲁棒性，同时保持原有能力。

Motivation: 现有预训练的2D图像编码器在清晰白天场景下表现良好，但在噪声和恶劣天气条件下（如雨、雾、雪等）鲁棒性不足，而现实世界的视觉感知系统需要在这些条件下也能稳定工作。
Method: 提出Collaborative Distillation方法，利用3D LiDAR作为自监督信号来指导2D图像编码器的训练。通过协同蒸馏的方式，让2D编码器从LiDAR数据中学习鲁棒的特征表示，同时保留原有的图像理解能力。
Result: 方法在各种下游任务和多样化条件下优于竞争方法，展现出强大的泛化能力。同时，由于LiDAR的特性，该方法还提高了2D编码器的3D感知能力。
Conclusion: 该方法通过利用3D LiDAR作为自监督信号，有效提升了2D图像编码器在恶劣天气条件下的鲁棒性，同时增强了3D感知能力，具有实际应用价值和适应性。

[16] Geometric Stratification for Singular Configurations of the P3P Problem via Local Dual Space

Xueying Sun,Zijia Li,Nan Li

Main category: cs.CV

TL;DR: 本文系统研究了P3P问题的奇异配置，基于局部对偶空间提出了代数-计算框架，给出了关于相机中心O重数μ的完整几何分层：μ≥2时O位于危险圆柱上，μ≥3时O位于与第一Morley三角形或外接圆相关的危险圆柱的三条母线之一上，μ≥4时O位于外接圆上对应无限P3P解。同时研究了奇异配置O的互补配置O'的几何分层。

Motivation: P3P（三点透视）问题是计算机视觉中的基本问题，用于从三个已知的3D点及其对应的2D图像点估计相机姿态。奇异配置会导致解的不稳定性或无穷多解，因此需要系统研究这些奇异配置的几何特性，以提高姿态估计的鲁棒性和精度。
Method: 采用局部对偶空间方法，构建了系统的代数-计算框架。通过几何分层分析，将奇异配置按照相机中心O的重数μ进行分类：μ=2,3,4分别对应不同的几何结构。同时研究了奇异配置O对应的互补配置O'的几何特性。
Result: 1. μ≥2时，相机中心O位于危险圆柱上；2. μ≥3时，O位于危险圆柱的三条特定母线上，这些母线与第一Morley三角形或外接圆相关；3. μ≥4时，O位于外接圆上，此时对应无穷多P3P解；4. 互补配置O'的几何分层：μ≥2时O'位于与危险圆柱相关的三角曲面，μ≥3时O'位于该三角曲面的三条尖点曲线上。
Conclusion: 本文建立了P3P问题奇异配置的完整几何分层理论，揭示了不同重数μ对应的具体几何结构。这一系统框架不仅深化了对P3P奇异性的理解，也为实际应用中避免奇异配置提供了理论指导，同时互补配置的研究为相关几何分析提供了新视角。

[17] Self-Supervised JEPA-based World Models for LiDAR Occupancy Completion and Forecasting

Haoran Zhu,Anna Choromanska

Main category: cs.CV

TL;DR: 提出AD-LiST-JEPA，一种基于JEPA框架的自监督世界模型，用于从LiDAR数据预测自动驾驶环境的时空演化

Motivation: 自动驾驶需要在物理世界中构建能够捕捉环境时空演化的世界模型来支持长期规划，同时需要以自监督方式学习以实现可扩展性
Method: 采用联合嵌入预测架构(JEPA)框架，从LiDAR数据中学习自监督世界模型，预测未来的时空演化
Result: 通过下游LiDAR占用补全与预测任务评估，证明JEPA预训练编码器能获得更好的性能
Conclusion: AD-LiST-JEPA展示了自监督世界模型在自动驾驶中的潜力，能够有效学习环境表示并提升下游任务性能

[18] PLLM: Pseudo-Labeling Large Language Models for CAD Program Synthesis

Yuanbo Li,Dule Shu,Yanying Chen,Matt Klenk,Daniel Ritchie

Main category: cs.CV

TL;DR: PLLM：一个用于从无标签3D形状合成CAD程序的自训练框架，通过迭代采样候选程序、选择高保真执行结果和增强程序来构建合成数据对进行微调。

Motivation: 现有CAD程序合成方法依赖于有监督的配对形状-程序数据进行训练，但这种配对数据通常难以获取。需要一种能够从无标签3D形状中学习CAD程序的方法。
Method: 提出PLLM自训练框架：1）给定预训练的CAD能力LLM和无标签形状数据集；2）迭代采样候选程序；3）选择高保真执行结果；4）增强程序以构建合成的程序-形状配对数据；5）使用这些合成数据对模型进行微调。
Result: 在将DeepCAD的CAD-Recode模型适配到无标签ABC数据集上的实验中，PLLM在几何保真度和程序多样性方面都显示出持续的改进。
Conclusion: PLLM框架能够有效地从无标签3D形状中学习CAD程序合成，减少对有监督配对数据的依赖，并在几何保真度和程序多样性方面取得改进。

[19] The Constant Eye: Benchmarking and Bridging Appearance Robustness in Autonomous Driving

Jiabao Wang,Hongyu Zhou,Yuanbo Yang,Jiahao Shao,Yiyi Liao

Main category: cs.CV

TL;DR: 提出navdream基准测试，通过像素对齐的风格转移隔离外观变化对自动驾驶规划的影响，并利用DINOv3提取外观不变特征作为通用感知接口，实现零样本泛化。

Motivation: 当前自动驾驶算法在分布外（OOD）条件下脆弱，且研究缺乏对外观变化（如天气、光照）和结构场景变化的区分，无法确定规划失败的根本原因。
Method: 建立navdream高保真鲁棒性基准，使用生成式像素对齐风格转移创建视觉压力测试；提出基于冻结视觉基础模型DINOv3的通用感知接口，提取外观不变特征作为规划器的稳定接口。
Result: 现有规划算法在OOD外观条件下性能显著下降，即使底层场景结构一致；提出的通用感知接口能在极端外观变化下保持一致的零样本泛化性能，无需微调。
Conclusion: 通过区分外观和结构变化，navdream基准揭示了规划算法对外观变化的敏感性；基于DINOv3的通用感知接口为解决这一问题提供了有效的即插即用解决方案。

[20] Unbiased Gradient Estimation for Event Binning via Functional Backpropagation

Jinze Chen,Wei Zhai,Han Han,Tiankai Ma,Yang Cao,Bin Li,Zheng-Jun Zha

Main category: cs.CV

TL;DR: 提出一种用于事件相机数据处理的框架，通过合成弱导数实现任意分箱函数的无偏梯度估计，解决传统方法因分箱操作不连续性导致的梯度截断和偏差问题。

Motivation: 事件相机将动态场景编码为异步时空脉冲（事件）。传统方法通常将事件分箱成帧以利用图像处理流程，但分箱函数不连续，导致帧级梯度截断，迫使算法依赖帧级特征。直接从未处理事件学习的方法则因分箱操作不连续性导致梯度估计偏差，限制了学习效率。
Method: 提出无偏梯度估计框架：在前向传播保持输出不变的同时，通过分部积分在反向传播中合成弱导数。核心思想是利用分部积分：将目标函数提升为泛函，在反向传播中获得分箱函数导数的积分形式，其中余切函数自然出现。通过从采样的余切向量重构余切函数，计算弱导数，可证明匹配平滑和非平滑目标的长程有限差分。
Result: 实验表明，该方法在简单优化式自运动估计中降低3.2%的RMS误差，收敛速度提升1.57倍。在复杂下游任务中，自监督光流估计的EPE降低9.4%，SLAM的RMS误差降低5.1%，展示了在事件视觉感知中的广泛优势。
Conclusion: 该框架通过合成弱导数解决了事件数据处理中分箱函数的梯度估计问题，为事件相机算法提供了更有效的学习机制，在多个视觉任务中表现出显著性能提升。

[21] QuEPT: Quantized Elastic Precision Transformers with One-Shot Calibration for Multi-Bit Switching

Ke Xu,Yixin Wang,Zhongcheng Li,Hao Cui,Jinshui Hu,Xingyi Zhang

Main category: cs.CV

TL;DR: QuEPT是一种高效的训练后量化方案，通过一次性校准实现多比特部署，支持实时切换均匀量化和混合精度量化，无需重复优化。

Motivation: Transformer架构的高存储和优化成本限制了弹性量化研究，特别是对于大语言模型。现有方法难以在多种比特宽度场景下高效部署。
Method: 提出QuEPT方案：1) 在小数据切片上进行一次性校准重构块级多比特误差；2) 通过级联不同低秩适配器动态适应预定义比特宽度；3) 引入MB-ToMe动态融合不同比特宽度的token特征；4) 提出MB-CLoRA增强比特宽度组间相关性。
Result: 广泛实验表明，QuEPT在性能上达到或优于现有最先进的训练后量化方法。
Conclusion: QuEPT提供了一种高效灵活的量化方案，能够适应多种部署场景，显著降低存储和优化成本，为大语言模型的量化部署提供了实用解决方案。

[22] Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

Omer Faruk Deniz,Ruiyu Mao,Ruochen Li,Yapeng Tian,Latifur Khan

Main category: cs.CV

TL;DR: ADSC通过LLM自身的注意力机制逐步压缩视觉token，无需额外计算或修改注意力，兼容FlashAttention，显著降低计算和内存开销同时保持性能。

Motivation: 现有多模态大语言模型处理大量视觉token计算成本高，现有剪枝方法要么在LLM前操作限制通用性，要么在LLM内使用与FlashAttention不兼容的启发式方法。
Method: 提出注意力驱动的自压缩（ADSC），利用LLM自身作为压缩指导，在选定层对视觉token进行均匀下采样，形成瓶颈促使模型重组和压缩信息到剩余token中。
Result: 在LLaVA-1.5上，ADSC减少FLOPs 53.7%，峰值KV缓存内存56.7%，同时保持原始模型性能的98.2%。在多个基准测试中，效率和准确性均优于现有剪枝方法。
Conclusion: ADSC提供了一种简单、通用且高效的多模态大语言模型压缩方法，在高压缩比下仍保持鲁棒性，而启发式方法性能急剧下降。

[23] ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models

Peijie Qiu,Hariharan Ramshankar,Arnau Ramisa,René Vidal,Amit Kumar K C,Vamsi Salaka,Rahul Bhagat

Main category: cs.CV

TL;DR: ImageRAGTurbo：通过检索增强高效微调少步扩散模型，在保持低延迟的同时提升图像质量和提示对齐

Motivation: 现有少步扩散模型（1-4步）在减少采样步骤时往往牺牲图像质量和提示对齐，且训练计算成本高。需要一种方法在保持低延迟的同时提升生成质量。
Method: 提出ImageRAGTurbo：1）基于文本提示从数据库中检索相关文本-图像对；2）利用检索内容编辑UNet去噪器的潜在空间（H-space）以提升提示保真度；3）在H-space中增加可训练适配器，通过交叉注意力机制融合检索内容与目标提示。
Result: 实验表明，该方法在快速文本到图像生成任务中，相比现有方法能生成高质量图像且不增加延迟，检索内容直接编辑潜在空间即可改善提示对齐。
Conclusion: ImageRAGTurbo通过检索增强有效解决了少步扩散模型的质量-延迟权衡问题，为高效文本到图像生成提供了新思路。

[24] Multi-Task Learning with Additive U-Net for Image Denoising and Classification

Vikram Lakkavalli,Neelam Sinha

Main category: cs.CV

TL;DR: Additive U-Net (AddUNet) 使用门控加法融合替代传统拼接跳跃连接，在图像去噪和多任务学习中实现更好的训练稳定性和任务感知特征分配。

Motivation: 传统U-Net的拼接跳跃连接可能导致特征维度变化和容量过大，影响训练稳定性和多任务学习效果。需要一种更受约束的跳跃连接机制来改善信息流控制。
Method: 提出Additive U-Net，用门控加法融合替代拼接跳跃连接，保持固定特征维度，通过结构正则化控制编码器-解码器信息流，使用可学习的门控权重实现任务感知特征分配。
Result: 在单任务去噪和联合去噪-分类任务中，AddUNet实现了竞争性的重建性能并显著提升训练稳定性。在多任务学习中，浅层跳跃连接偏向重建任务，深层特征支持判别任务，表现出任务感知特征重分配。
Conclusion: 简单的跳跃连接约束可作为有效的架构正则化器，在不增加模型复杂度的情况下实现稳定且可扩展的多任务学习，通过加法融合实现隐式任务解耦。

[25] CBEN -- A Multimodal Machine Learning Dataset for Cloud Robust Remote Sensing Image Understanding

Marco Stricker,Masakazu Iwamura,Koichi Kise

Main category: cs.CV

TL;DR: 论文提出CloudyBigEarthNet数据集，研究云层遮挡下光学与雷达数据融合的多模态学习方法，发现现有方法在云层场景下性能显著下降，通过适应云层训练可大幅提升性能。

Motivation: 云层遮挡是卫星遥感中的常见问题，现有机器学习方法通常排除云层图像，这在时间敏感应用（如自然灾害监测）中不可行。云去除方法存在视觉伪影问题，需要开发对云层鲁棒的方法。
Method: 构建CloudyBigEarthNet数据集，包含云层遮挡的光学与雷达配对图像。评估现有多模态方法在云层场景下的性能，并调整这些方法使其在训练时适应云层光学数据。
Result: 现有方法在云层测试图像上性能下降23-33个百分点。通过适应云层训练，相比原始方法在云层测试案例上获得17.2-28.7个百分点的相对改进。
Conclusion: 排除云层图像会限制机器学习方法在真实云层场景中的适用性。通过专门的数据集和适应云层的训练，可以显著提升多模态方法在云层遮挡下的性能。

[26] IndicFairFace: Balanced Indian Face Dataset for Auditing and Mitigating Geographical Bias in Vision-Language Models

Aarish Shah Mohsin,Mohammed Tayyab Ilyas Khan,Mohammad Nadeem,Shahab Saquib Sohail,Erik Cambria,Jiechao Gao

Main category: cs.CV

TL;DR: 本文提出了IndicFairFace数据集，这是首个针对印度地理多样性的平衡人脸数据集，用于量化并减少视觉语言模型中的地理偏见。

Motivation: 现有公平感知数据集虽然改善了全球种族和性别的平衡，但仍将印度视为单一类别，忽略了印度28个邦和8个联邦属地的巨大内部多样性，导致表征和地理偏见。
Method: 1. 从Wikimedia Commons和开放许可网络资源中伦理收集14,400张图像，均匀平衡各邦和性别；2. 使用迭代零空间投影去偏方法减少CLIP基视觉语言模型中的地理偏见。
Result: 1. 建立了首个研究印度背景下视觉语言模型地理偏见的基准；2. 去偏方法对现有嵌入空间影响小，基准数据集检索准确率平均下降小于1.5%。
Conclusion: IndicFairFace填补了现有公平数据集的空白，能够有效量化和减少视觉语言模型中的印度地理偏见，为更公平的AI系统提供了重要工具。

[27] Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening

Wooseok Jeon,Seunghyun Shin,Dongmin Shin,Hae-Gon Jeon

Main category: cs.CV

TL;DR: 提出Motion Prior Distillation (MPD)方法，通过将前向路径的运动残差蒸馏到后向路径，解决I2V扩散模型中双向路径不匹配导致的时序不连续和视觉伪影问题。

Motivation: 现有的推理时采样方法（并行或交替融合前向和后向路径）由于两条路径分别遵循各自条件帧诱导的运动先验，导致时序不连续和视觉伪影。双向路径之间的不对齐是主要问题。
Method: 提出Motion Prior Distillation (MPD)，一种简单有效的推理时蒸馏技术，通过将前向路径的运动残差蒸馏到后向路径来抑制双向不匹配。该方法避免对导致路径模糊的末端条件路径进行去噪，利用前向运动先验生成更时序一致的中间帧。
Result: 在标准基准测试上进行定量评估，并开展广泛的用户研究，证明该方法在实际场景中的有效性，能够生成更时序一致的中间帧结果。
Conclusion: MPD方法通过蒸馏前向路径的运动残差到后向路径，有效解决了双向路径不匹配问题，提高了图像到视频扩散模型在中间帧生成任务中的时序一致性和视觉质量。

[28] Channel-Aware Probing for Multi-Channel Imaging

Umar Marikkar,Syed Sameed Husain,Muhammad Awais,Sara Atito

Main category: cs.CV

TL;DR: 提出Channel-Aware Probing (CAP)方法，通过独立特征编码和分离池化来利用多通道成像数据的通道间多样性，显著提升冻结预训练编码器的下游任务性能。

Motivation: 多通道成像数据中通道配置在不同数据集间差异很大，导致固定通道训练困难，预训练编码器在新通道设置下重用受限。现有研究主要关注全微调，而冻结预训练编码器的探测方法研究不足，且直接迁移其他领域的策略效果不佳。
Method: 提出Channel-Aware Probing (CAP)方法，包含两个核心组件：1) Independent Feature Encoding (IFE) - 对每个通道单独编码；2) Decoupled Pooling (DCP) - 先在通道内池化，再跨通道聚合。该方法在编码器和探测层都控制特征流。
Result: 在三个多通道成像基准测试中，CAP一致优于默认探测协议，匹配从零开始训练的性能，并大幅缩小了与全微调之间的性能差距。
Conclusion: CAP方法通过利用多通道成像数据的内在通道间多样性，有效提升了冻结预训练编码器在下游任务中的性能，为多通道成像数据的表示学习提供了有效的探测策略。

[29] ART3mis: Ray-Based Textual Annotation on 3D Cultural Objects

Vasileios Arampatzakis,Vasileios Sevetlidis,Fotis Arnaoutoglou,Athanasios Kalogeras,Christos Koulamas,Aris Lalos,Chairi Kiourt,George Ioannakis,Anestis Koutsoudis,George Pavlidis

Main category: cs.CV

TL;DR: ART3mis是一个面向文化遗产领域的通用、用户友好的3D对象文本标注工具，允许非技术人员对3D数字文物进行分割和注释。

Motivation: 考古学家和文化遗产专家需要超越简单3D可视化的高级功能应用，特别是能够在3D数字对象的特定区域进行注释和附加元数据。现有方法大多局限于特定领域和问题，缺乏通用性。
Method: ART3mis采用用户驱动的直接表面标注方法，能够实时处理详细的3D文化遗产对象，并将多个复杂区域的文本注释以JSON数据格式存储。
Result: 开发了一个主要面向文化遗产保护者、修复者和策展人的工具，这些用户通常不具备3D成像和图形技术技能，但能够轻松处理、分割和注释3D数字文物复制品。
Conclusion: ART3mis提供了一个通用、用户友好的解决方案，填补了文化遗产领域3D对象注释工具的空白，特别适合非技术用户进行3D数字文物的标注工作。

[30] VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph

Qiuchen Wang,Shihang Wang,Yu Zeng,Qiang Zhang,Fanrui Zhang,Zhuoning Guo,Bosi Zhang,Wenxuan Huang,Lin Chen,Zehui Chen,Pengjun Xie,Ruixue Ding

Main category: cs.CV

TL;DR: VimRAG：一种针对多模态检索增强推理的框架，将推理过程建模为动态有向无环图，通过图调制视觉记忆编码机制动态分配注意力资源，实现更高效的多模态信息处理。

Motivation: 传统RAG方法依赖线性交互历史，难以处理长上下文任务，特别是在涉及信息稀疏但token密集的视觉数据的迭代推理场景中。需要一种能够有效检索、推理和理解多模态信息的智能体系统。
Method: 1. 将推理过程建模为动态有向无环图，结构化智能体状态和检索到的多模态证据；2. 引入图调制视觉记忆编码机制，根据节点拓扑位置评估重要性，动态分配高分辨率token给关键证据，压缩或丢弃次要线索；3. 提出图引导策略优化策略，通过剪枝冗余动作相关的记忆节点，分离步骤有效性和轨迹级奖励，实现细粒度信用分配。
Result: 在多个多模态RAG基准测试中，VimRAG始终达到最先进的性能表现。
Conclusion: VimRAG通过图结构化的记忆表示和动态资源分配机制，有效解决了多模态检索增强推理中的长上下文处理问题，为智能体系统提供了更高效的多模态信息处理能力。

[31] SPRig: Self-Supervised Pose-Invariant Rigging from Mesh Sequences

Ruipeng Wang,Langkun Zhong,Miaowei Wang

Main category: cs.CV

TL;DR: SPRig是一个通用微调框架，通过跨帧一致性损失学习姿态不变的绑定，解决了序列数据中缺乏标准T-pose时现有方法产生的拓扑不一致问题。

Motivation: 现有绑定方法假设存在标准休息姿势（如T-pose），但在序列数据（如动物动作捕捉或AIGC/视频生成的网格序列）中缺乏这种姿势时，逐帧应用这些方法会产生姿态依赖性和跨帧拓扑不一致问题。
Method: 提出SPRig框架，在现有模型基础上通过强制跨帧一致性损失来学习姿态不变的绑定。采用新的排列不变稳定性协议进行验证。
Result: 实验表明该方法在时间稳定性方面达到SOTA水平，能够从具有挑战性的序列中生成一致的绑定，并显著减少基线方法中常见的伪影。
Conclusion: SPRig通过跨帧一致性损失有效解决了序列数据中姿态不变绑定的问题，提高了时间稳定性，代码将在接受后公开。

[32] Synthetic Craquelure Generation for Unsupervised Painting Restoration

Jana Cuch-Guillén,Antonio Agudo,Raül Pérez-Gonzalo

Main category: cs.CV

TL;DR: 提出无需标注的绘画裂纹修复框架，结合形态学检测与学习式精修，通过合成裂纹生成器和各向异性扩散修复，在零样本设置下超越现有方法。

Motivation: 文化遗产保护需要非侵入式数字修复方法，但细密裂纹图案的识别与修复面临像素级标注稀缺的挑战，现有方法难以从复杂笔触中准确分离裂纹。
Method: 1) 使用基于贝塞尔轨迹的领域特定合成裂纹生成器模拟真实裂纹；2) 结合经典形态学检测器与基于SegFormer+LoRA的学习精修模块；3) 采用检测器引导策略，将形态学图作为空间先验输入；4) 使用掩码混合损失和逻辑调整聚焦裂纹区域；5) 精修掩码指导各向异性扩散修复缺失内容。
Result: 实验结果表明，该流水线在零样本设置下显著优于最先进的摄影修复模型，同时能忠实保留原始绘画笔触。
Conclusion: 提出的无标注框架通过合成数据生成和检测器引导学习，有效解决了绘画裂纹修复中的标注稀缺问题，实现了高质量的裂纹识别与内容修复。

[33] ReBA-Pred-Net: Weakly-Supervised Regional Brain Age Prediction on MRI

Shuai Shao,Yan Wang,Shu Jiang,Shiyuan Zhao,Xinzhe Luo,Di Yang,Jiangtao Wang,Yutong Bai,Jianguo Zhang

Main category: cs.CV

TL;DR: 提出ReBA-Pred-Net框架，通过师生架构进行细粒度脑区年龄预测，引入临床先验一致性约束，并设计了HCS和NDC两个间接评估指标验证方法的统计和事实有效性。

Motivation: 现有全脑年龄预测方法过于粗糙，难以支持疾病表征和发育老化模式研究，因为相关变化通常是区域选择性的而非全脑性的。因此需要建立鲁棒的区域脑年龄估计方法。
Method: 提出ReBA-Pred-Net师生框架：教师网络生成软区域脑年龄指导学生网络，学生网络通过临床先验一致性约束（同一功能区域应相似变化）产生可靠估计。引入HCS（健康对照相似性）和NDC（神经疾病相关性）两个间接评估指标。
Result: 在多个骨干网络上的实验表明，该方法在统计一致性和事实一致性方面均表现出有效性，能够可靠地估计区域脑年龄。
Conclusion: ReBA-Pred-Net框架为细粒度脑年龄估计提供了有效解决方案，其设计的评估指标为区域脑年龄预测方法的验证提供了新思路，有助于疾病表征和发育老化模式研究。

[34] Towards reconstructing experimental sparse-view X-ray CT data with diffusion models

Nelas J. Thomsen,Xinyuan Wang,Felix Lucka,Ezgi Demircan-Tureyen

Main category: cs.CV

TL;DR: 扩散模型在稀疏视图CT重建中面临领域偏移和正向模型不匹配问题，需要针对真实数据验证

Motivation: 研究扩散模型在真实实验数据上的应用，探究领域偏移和正向模型不匹配对稀疏视图CT重建性能的影响
Method: 使用物理体模测量CT数据，在不同领域偏移程度的合成数据集上训练扩散先验，采用分解扩散采样方案处理不同难度的稀疏视图CT数据
Result: 领域偏移影响微妙：严重不匹配导致模型崩溃和幻觉，但多样化的先验优于匹配但狭窄的先验；正向模型不匹配会导致伪影，但可通过退火似然调度缓解
Conclusion: 合成数据上的性能增益不能直接迁移到实验数据，未来开发必须在真实世界基准上进行验证

[35] Towards complete digital twins in cultural heritage with ART3mis 3D artifacts annotator

Dimitrios Karamatskos,Vasileios Arampatzakis,Vasileios Sevetlidis,Stavros Nousias,Athanasios Kalogeras,Christos Koulamas,Aris Lalos,George Pavlidis

Main category: cs.CV

TL;DR: ART3mis是一个基于Web的通用3D对象文本标注工具，专为文化遗产专业人士设计，支持W3C Web注释数据模型，实现信息的交流、分发和重用。

Motivation: 考古学家和文化遗产专家需要超越简单的3D可视化功能，能够对3D数字文物特定区域进行注释和附加元数据的应用程序。现有解决方案大多针对特定应用领域设计，缺乏通用性和互操作性。
Method: 开发了ART3mis——一个通用、用户友好、功能丰富的交互式基于Web的3D对象文本标注工具。该工具符合W3C Web注释数据模型标准，主要面向缺乏3D成像和图形技术专长的文化遗产保护者、修复者和策展人。
Result: ART3mis使文化遗产专业人员能够轻松处理、分割和注释3D数字文物复制品，支持信息的交流、分发和重用，解决了现有工具缺乏通用性和互操作性的问题。
Conclusion: ART3mis作为一个通用、用户友好的Web工具，成功满足了文化遗产专业人士对3D数字文物进行注释和元数据附加的需求，填补了现有解决方案在通用性和互操作性方面的空白。

[36] PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

Hong-Phuc Lai,Phong Nguyen,Anh Tran

Main category: cs.CV

TL;DR: PixelRush：首个免调优的高分辨率文本到图像生成框架，通过改进的patch推理和噪声注入机制，在20秒内生成4K图像，比现有方法快10-35倍。

Motivation: 预训练扩散模型受限于原生训练分辨率，现有免训练方法计算开销大（生成4K图像需5分钟以上），需要更高效实用的高分辨率生成方案。
Method: 基于patch推理范式，消除多轮反转和再生循环，在低步数机制下实现高效patch去噪；提出无缝混合策略解决少步生成中的伪影问题；通过噪声注入机制缓解过度平滑效应。
Result: PixelRush在约20秒内生成4K图像，比最先进方法快10-35倍，同时保持卓越的视觉保真度；大量实验验证了性能提升和输出质量。
Conclusion: PixelRush首次实现了实用的免调优高分辨率文本到图像生成，在效率和视觉质量方面均显著优于现有方法，为高分辨率图像生成提供了可行的解决方案。

[37] Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting

Xiaowen Zhang,Zijie Yue,Yong Luo,Cairong Zhao,Qijun Chen,Miaojing Shi

Main category: cs.CV

TL;DR: WS-COC：首个基于MLLM的弱监督类别无关物体计数框架，通过三种策略实现仅使用图像级计数标注即可达到或超越全监督方法的性能

Motivation: 全监督计数方法需要昂贵的点级标注，现有弱监督方法通常只能计数单一类别。需要开发一种类别无关的弱监督计数框架，利用MLLM的能力减少标注成本
Method: 提出三种策略：1）分而辨之对话调优策略，通过多轮对话逐步缩小计数范围；2）比较排序计数优化策略，训练MLLM优化图像间的计数相对排序；3）全局局部计数增强策略，融合局部和全局预测提升密集场景性能
Result: 在FSC-147、CARPK、PUCPR+和ShanghaiTech数据集上的实验表明，WS-COC匹配甚至超越了许多最先进的全监督方法，同时显著降低了标注成本
Conclusion: WS-COC是首个MLLM驱动的弱监督类别无关物体计数框架，通过创新的训练和测试策略，在减少标注成本的同时实现了优异的计数性能

[38] GSM-GS: Geometry-Constrained Single and Multi-view Gaussian Splatting for Surface Reconstruction

Xiao Ren,Yu Liu,Ning An,Jian Cheng,Xin Qiao,He Kong

Main category: cs.CV

TL;DR: 提出GSM-GS框架，通过单视图自适应子区域加权约束和多视图空间结构细化，提升3D高斯泼溅在复杂表面微结构重建中的精度

Motivation: 3D高斯泼溅技术虽然训练速度快、渲染质量高，但高斯点云的无结构和不规则特性限制了重建精度，特别是在复杂表面微结构上容易丢失高频细节
Method: 提出协同优化框架：1) 单视图优化：利用图像梯度特征分割纹理丰富/贫乏区域，通过深度差异特征指导的自适应滤波机制，采用双分支约束策略；2) 多视图优化：引入几何引导的跨视图点云关联方法结合动态权重采样策略，构建3D结构法向约束
Result: 在公开数据集上的大量实验表明，该方法在渲染质量和几何重建方面都取得了有竞争力的结果
Conclusion: GSM-GS框架通过单视图和多视图的协同优化，有效解决了3D高斯泼溅在复杂表面微结构重建中的精度问题，提升了高频细节的保留能力

[39] Thinking Like a Radiologist: A Dataset for Anatomy-Guided Interleaved Vision Language Reasoning in Chest X-ray Interpretation

Yichen Zhao,Zelin Peng,Piao Yang,Xiaokang Yang,Wei Shen

Main category: cs.CV

TL;DR: 提出了首个用于胸部X光解读的大规模原生交错视觉语言推理数据集MMRad-IVL-22K，通过模拟放射科医生的视觉检查与语言推理交替工作流程，显著提升医疗大视觉语言模型的诊断准确性和报告质量。

Motivation: 现有医疗大视觉语言模型通常只进行一次视觉检查，然后依赖纯文本的思维链推理，这种纯语言空间的推理容易产生幻觉。虽然近期方法尝试引入视觉相关坐标（如边界框），但这些仍是伪视觉解决方案，无法保留丰富的视觉细节（如纹理和密度）。放射学诊断本质上是视觉检查与语言推理反复交错的过程。
Method: 创建了MMRad-IVL-22K数据集，包含21,994个诊断轨迹，覆盖35个解剖区域的系统扫描。该数据集反映了放射科医生的重复推理和视觉检查工作流程，其中视觉依据补充文本描述并支撑推理过程的每一步。通过该数据集对模型进行微调，实现真正的交错视觉语言推理。
Result: 实验结果显示：1）基于多模态思维链的报告生成在临床准确性和报告质量上显著优于纯文本思维链（如RadGraph指标提升6%）；2）在MMRad-IVL-22K上微调的模型相比通用和医疗专用大视觉语言模型，在推理一致性和报告质量上表现更优；3）证实高保真的交错视觉语言证据是可靠医疗AI不可替代的组成部分。
Conclusion: MMRad-IVL-22K数据集通过模拟放射科医生的交错视觉语言推理工作流程，为医疗AI提供了更可靠的诊断支持。研究证明，真正的多模态交错推理对于提升医疗大视觉语言模型的临床准确性和报告质量至关重要，为未来医疗AI发展提供了重要方向。

[40] RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads

Vijayasri Iyer,Maahin Rathinagiriswaran,Jyothikamalesh S

Main category: cs.CV

TL;DR: Roadscapes是一个包含9000张印度驾驶环境图像的多任务多模态数据集，用于自动驾驶场景理解研究

Motivation: 自动驾驶需要理解道路场景以进行有效决策，特别是在非结构化环境中。目前缺乏针对印度多样化驾驶环境的数据集，需要促进视觉场景理解研究
Method: 收集印度城乡多样环境图像，手动验证边界框标注，使用基于规则的启发式方法推断场景属性，生成问答对用于物体定位、推理和场景理解任务
Result: 创建了包含9000张图像的数据集，涵盖高速公路、服务道路、乡村小路和拥挤城市街道等场景，包含白天和夜间设置，提供了视觉语言模型的初始基准
Conclusion: Roadscapes数据集旨在推进非结构化环境中的视觉场景理解研究，为自动驾驶系统提供更好的场景理解能力

[41] RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training

Yunshuang Nie,Bingqian Lin,Minzhe Niu,Kun Xiang,Jianhua Han,Guowei Huang,Xingyue Quan,Hang Xu,Bokui Chen,Xiaodan Liang

Main category: cs.CV

TL;DR: RADAR是一个用于评估多模态大语言模型预训练能力的框架，包含Soft Discrimination Score指标和Multi-Modal Mixture Benchmark基准，无需微调即可诊断模型感知与推理能力的不对称发展。

Motivation: 当前缺乏高效的评估框架来诊断MLLMs的性能瓶颈。现有方法要么需要额外的微调训练和自回归解码成本，要么无法解耦量化模型的感知和推理能力，且基准数据集规模有限或与预训练目标不对齐。
Method: RADAR包含两个关键组件：1) Soft Discrimination Score - 基于模型对正确答案相对于干扰项的偏好程度进行量化，无需微调即可稳健跟踪能力发展；2) Multi-Modal Mixture Benchmark - 包含15K+样本的0-shot评估基准，整合权威数据集并收集新数据集，扩展评估范围。
Result: 使用RADAR全面揭示了预训练MLLMs在不同因素（数据量、模型大小、预训练策略）下感知和推理能力的不对称发展模式，为针对性干预提供了依据。
Conclusion: RADAR强调了从分解视角分析预训练能力瓶颈的必要性，为高效推进MLLMs发展提供了诊断工具和基准，代码已开源。

[42] Robustness of Object Detection of Autonomous Vehicles in Adverse Weather Conditions

Fox Pettersen,Hong Zhu

Main category: cs.CV

TL;DR: 提出一种评估自动驾驶车辆目标检测模型在恶劣天气条件下鲁棒性的方法，通过数据增强生成不同强度的合成数据来找到模型失效的最低条件强度，使用平均首次失效系数(AFFC)衡量鲁棒性。

Motivation: 随着自动驾驶技术向广泛应用发展，确定不同环境条件下的安全操作阈值对公共安全至关重要。需要评估目标检测模型在恶劣天气条件下的鲁棒性。
Method: 使用数据增强算子生成模拟雾、雨、雪等天气条件以及暗、亮、眩光、阴影等光照条件的合成数据，通过渐进强度水平找到模型失效的最低条件强度。使用平均首次失效系数(AFFC)衡量鲁棒性。
Result: 实验评估了YOLOv5s、YOLOv11s、Faster R-CNN和Detectron2四种模型。Faster R-CNN在七种恶劣条件下总体平均AFFC为71.9%，鲁棒性最高；YOLO变体AFFC值为43%。方法有效可行，能评估和比较模型鲁棒性。
Conclusion: 该方法能有效评估目标检测模型在恶劣操作条件下的鲁棒性。针对恶劣条件的训练可以提高鲁棒性，但过度训练可能导致收益递减和遗忘现象（鲁棒性下降）。

[43] Adaptive Scaling with Geometric and Visual Continuity of completed 3D objects

Jelle Vermandere,Maarten Bassier,Maarten Vergauwen

Main category: cs.CV

TL;DR: 提出一个部件感知的缩放框架，将静态的SDF转换为可编辑、结构连贯的对象，支持比例缩放和变形而不引入结构失真。

Motivation: 现有的对象补全网络生成的静态SDF无法在不引入结构失真的情况下进行缩放或变形，这限制了它们在需要灵活对象操作的应用中的使用，如室内重新设计、模拟和数字内容创作。
Method: 从最先进的补全模型生成的SDF和纹理场出发，进行自动部件分割，定义用户控制的缩放区域，并应用SDF、颜色和部件索引的平滑插值，以实现比例缩放和无伪影变形。还采用基于重复的策略来处理大规模变形，同时保留重复的几何模式。
Result: 在Matterport3D和ShapeNet对象上的实验表明，该方法克服了已完成SDF的固有刚性，在视觉上比全局和朴素选择性缩放更具吸引力，特别是对于复杂形状和重复结构。
Conclusion: 该方法成功地将静态SDF转换为可编辑对象，支持灵活的对象操作，为室内重新设计、模拟和数字内容创作等应用提供了更好的工具。

[44] Reliable Thinking with Images

Haobin Li,Yutong Yang,Yijie Lin,Dai Xiang,Mouxing Yang,Xi Peng

Main category: cs.CV

TL;DR: 本文提出RTWI方法解决多模态思维链中的噪声思维问题，通过可靠性评估和过滤投票机制提升多模态大语言模型的推理鲁棒性。

Motivation: 现有的"Thinking with Images"方法假设图像-文本交织的思维链是完美的，但实际中由于多模态理解的复杂性，视觉线索挖掘和答案推理过程可能存在错误，导致错误累积，显著降低MLLMs性能。
Method: 提出RTWI方法，以文本为中心统一评估视觉线索和文本思维链的可靠性，并采用鲁棒的过滤和投票模块来防止噪声思维污染最终答案。
Result: 在七个基准测试上的广泛实验验证了RTWI在应对噪声思维问题上的有效性。
Conclusion: RTWI通过可靠性评估和过滤投票机制有效解决了多模态思维链中的噪声思维问题，提升了多模态大语言模型的推理鲁棒性。

[45] EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition

Xiao Wang,Xingxing Xiong,Jinfeng Gao,Xufeng Lou,Bo Jiang,Si-bao Chen,Yaowei Wang,Yonghong Tian

Main category: cs.CV

TL;DR: 提出了EPRBench，一个用于事件流视觉地点识别的高质量基准数据集，包含10K事件序列和65K事件帧，并提出了基于LLM的多模态融合新范式。

Motivation: 传统可见光相机在低光照、过曝、高速运动等挑战条件下不稳定，而事件流VPR是新兴研究方向，但缺乏专用数据集。
Method: 1) 构建EPRBench数据集，包含手持和车载采集的多样化场景；2) 提供LLM生成+人工标注的场景描述；3) 提出基于LLM的多模态融合范式：从事件流生成文本描述，指导空间注意力token选择、跨模态特征融合和多尺度表示学习。
Result: 1) 建立了高质量事件流VPR基准数据集；2) 在EPRBench上评估了15种SOTA VPR算法；3) 提出的多模态融合框架实现了高精度地点识别，并产生可解释的推理过程。
Conclusion: EPRBench填补了事件流VPR领域的数据集空白，提出的LLM引导多模态融合范式不仅提高了识别精度，还增强了模型透明度和可解释性，为未来研究提供了坚实基础。

[46] Beyond Benchmarks of IUGC: Rethinking Requirements of Deep Learning Methods for Intrapartum Ultrasound Biometry from Fetal Ultrasound Videos

Jieyun Bai,Zihao Zhou,Yitong Tang,Jie Gan,Zhuonan Liang,Jianan Fan,Lisa B. Mcguire,Jillian L. Clarke,Weidong Cai,Jacaueline Spurway,Yubo Tang,Shiye Wang,Wenda Shen,Wangwang Yu,Yihao Li,Philippe Zhang,Weili Jiang,Yongjie Li,Salem Muhsin Ali Binqahal Al Nasim,Arsen Abzhanov,Numan Saeed,Mohammad Yaqub,Zunhui Xian,Hongxing Lin,Libin Lan,Jayroop Ramesh,Valentin Bacher,Mark Eid,Hoda Kalabizadeh,Christian Rupprecht,Ana I. L. Namburete,Pak-Hei Yeung,Madeleine K. Wyburd,Nicola K. Dinsdale,Assanali Serikbey,Jiankai Li,Sung-Liang Chen,Zicheng Hu,Nana Liu,Yian Deng,Wei Hu,Cong Tan,Wenfeng Zhang,Mai Tuyet Nhi,Gregor Koehler,Rapheal Stock,Klaus Maier-Hein,Marawan Elbatel,Xiaomeng Li,Saad Slimani,Victor M. Campello,Benard Ohene-Botwe,Isaac Khobo,Yuxin Huang,Zhenyan Han,Hongying Hou,Di Qiu,Zheng Zheng,Gongning Luo,Dong Ni,Yaosheng Lu,Karim Lekadir,Shuo Li

Main category: cs.CV

TL;DR: IUGC挑战赛提出多任务自动测量框架，发布最大产时超声视频数据集，分析8个团队方法，发现领域仍处早期，需进一步研究才能临床部署。

Motivation: 45%的孕产妇死亡、新生儿死亡和死产发生在产时阶段，中低收入国家负担尤其重。产时生物测量对监测产程进展至关重要，但资源有限地区缺乏训练有素的超声医师，限制了超声的常规使用。
Method: IUGC挑战赛引入临床导向的多任务自动测量框架，整合标准平面分类、胎头-耻骨联合分割和生物测量。发布迄今最大的多中心产时超声视频数据集（774个视频，68,106帧），从五个角度分析参赛团队方法：预处理、数据增强、学习策略、模型架构和后处理。
Result: 挑战赛取得了令人鼓舞的性能，但分析表明该领域仍处于早期阶段。系统分析了基准结果，确定了关键瓶颈，探索了潜在解决方案，并强调了未来研究的开放挑战。
Conclusion: 产时超声生物测量自动化领域需要进一步深入研究才能实现大规模临床部署。所有基准解决方案和完整数据集已公开发布，以促进可重复研究和持续进展。

[47] Deep-Learning Atlas Registration for Melanoma Brain Metastases: Preserving Pathology While Enabling Cohort-Level Analyses

Nanna E. Wielenberg,Ilinca Popp,Oliver Blanck,Lucas Zander,Jan C. Peeken,Stephanie E. Combs,Anca-Ligia Grosu,Dimos Baltas,Tobias Fechter

Main category: cs.CV

TL;DR: 提出一种完全可微的深度学习变形配准框架，用于将带有脑转移瘤的病理大脑对齐到公共图谱，无需病灶掩码或预处理，保留转移组织并实现多中心标准化分析。

Motivation: 黑色素瘤脑转移（MBM）常见且空间异质性高，由于解剖变异和不同MRI协议，队列级分析复杂。需要一种能够处理病理大脑（含转移瘤）的配准方法，无需病灶掩码即可实现标准化图谱映射。
Method: 完全可微的深度学习变形配准框架，使用基于距离变换解剖标签的前向模型相似性度量处理转移瘤导致的解剖对应缺失，结合体积保持正则化项确保变形合理性。应用于209名MBM患者的三中心数据。
Result: 配准精度高（DSC 0.89-0.92，HD 6.79-7.60 mm，ASSD 0.63-0.77 mm），同时保留转移体积。空间分析显示MBM在脑皮层和壳核显著过表达，在白质中低表达，且一致定位在灰白质交界处附近。体积校正后无动脉区域显示转移频率增加。
Conclusion: 该方法实现了无需病灶掩码的病理脑MRI鲁棒图谱配准，支持可重复的多中心分析。应用于MBM确认并细化了已知的空间偏好，特别是灰白质交界处和皮质区域的优先播种。公开实现促进可重复研究和扩展到其他脑肿瘤及神经病理。

Hongbo Jiang,Jie Li,Xinqi Cai,Tianyu Xie,Yunhang Shen,Pingyang Dai,Liujuan Cao

Main category: cs.CV

TL;DR: 提出MLLMEmbed-ReID框架，通过多模态大语言模型统一跨模态重识别，采用云-边架构和知识蒸馏实现高效部署

Motivation: 解决跨模态重识别在实际云边部署中的挑战：现有云模型生态系统碎片化，多模态大语言模型虽具统一潜力但缺乏端到端适配和有效知识蒸馏策略
Method: 1) 基于指令提示将基础MLLM适配为云端模型，使用分层低秩适应微调；2) 提出基于低秩特性的知识蒸馏策略，包含主成分映射损失和特征关系损失
Result: 轻量级边缘模型在多个视觉CM-ReID基准上达到SOTA性能，云端模型在所有CM-ReID基准上表现优异
Conclusion: MLLMEmbed-ReID为在资源受限设备上部署统一MLLM级智能提供了完整有效的解决方案

[49] Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding

Wenhui Liao,Hongliang Li,Pengyu Xie,Xinyu Cai,Yufan Shen,Yi Xin,Qi Qin,Shenglong Ye,Tianbin Li,Ming Hu,Junjun He,Yihao Liu,Wenhai Wang,Min Dou,Bin Fu,Botian Shi,Yu Qiao,Lianwen Jin

Main category: cs.CV

TL;DR: 提出一种无需训练的高效文档解析加速方法，利用轻量级草案模型预测批量未来token，由更准确的VLM并行验证，并通过区域划分实现并行解码，在OmniDocBench上实现2.42倍无损加速。

Motivation: 当前基于VLM的端到端文档解析方法在处理长文档时存在显著推理延迟，因为需要自回归生成长token序列。文档解析通常输出极长且布局结构复杂，需要更高效的加速方案。
Method: 采用推测解码思想，使用轻量级文档解析流程作为草案模型预测批量未来token，由更准确的VLM并行验证这些预测。进一步利用文档的布局结构特性，将每页划分为独立区域，使用相同的草案-验证策略并行解码每个区域，最后按自然阅读顺序组装预测结果。
Result: 在通用基准OmniDocBench上，该方法为dots.ocr模型提供2.42倍无损加速，在长文档解析任务上实现高达4.89倍加速。
Conclusion: 提出了一种无需训练的高效文档解析加速方法，通过草案-验证策略和区域并行解码显著提升推理速度，同时保持准确性，为文档解析任务提供了实用的加速解决方案。

[50] Detecting Object Tracking Failure via Sequential Hypothesis Testing

Alejandro Monroy Muñoz,Rajeev Verma,Alexander Timans

Main category: cs.CV

TL;DR: 提出基于序列假设检验的物体跟踪安全保证方法，通过e-process逐步累积证据检测跟踪失败，同时控制误报率

Motivation: 现有实时物体跟踪系统缺乏形式化的安全保证，只能依赖启发式的置信度指标，需要提供统计上可靠的失败检测机制
Method: 将物体跟踪建模为序列假设检验，使用e-process逐步累积跟踪失败的证据，提出有监督和无监督两种变体，分别利用真实标签或仅内部跟踪信息
Result: 方法计算轻量、无需额外训练，在两个跟踪模型和四个视频基准测试中有效，能快速检测跟踪失败同时控制误报率
Conclusion: 序列测试为实时跟踪系统提供了统计基础且高效的安全保证机制，可减少不必要的重新校准或干预步骤

Mohammed Amine Bencheikh Lehocine,Julian Schmidt,Frank Moosmann,Dikshant Gupta,Fabian Flohr

Main category: cs.CV

TL;DR: MASAR是一个用于联合3D检测和轨迹预测的端到端可微分框架，通过"回顾过去预测未来"的理念，利用外观和运动特征的协同作用提升自动驾驶系统的性能。

Motivation: 传统自动驾驶系统通过手工设计的边界框接口连接感知和预测模块，限制了信息流动并将误差传播到下游任务。现有端到端模型未能充分利用外观和运动线索的协同作用，主要依赖短期视觉特征。
Method: 提出MASAR框架，采用对象中心的时空机制联合编码外观和运动特征。通过预测过去轨迹并利用外观线索进行精炼，捕捉长期时间依赖性来增强未来轨迹预测。兼容任何基于transformer的3D检测器。
Result: 在nuScenes数据集上的实验表明，MASAR在minADE和minFDE指标上提升了超过20%，同时保持了稳健的检测性能。
Conclusion: MASAR通过联合编码外观和运动特征，有效解决了传统自动驾驶系统中感知与预测模块分离的问题，实现了更准确的3D检测和轨迹预测，为端到端自动驾驶系统提供了有效解决方案。

[52] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

Yunheng Li,Hengrui Zhang,Meng-Hao Guo,Wenzhao Gao,Shaoyong Jia,Shaohui Jiao,Qibin Hou,Ming-Ming Cheng

Main category: cs.CV

TL;DR: 提出了ASID-1M数据集、ASID-Verify数据标注流程和ASID-Captioner视频理解模型，用于解决现有视频理解模型中细粒度视听信息建模不足的问题。

Motivation: 现有视频理解模型的性能受限于视频指令数据，这些数据将复杂的视听内容表示为单一、不完整的描述，缺乏细粒度组织和可靠标注，无法满足通用视频理解的需求。
Method: 1) 构建ASID-1M数据集：包含100万个结构化、细粒度的视听指令标注，支持单属性和多属性监督；2) 开发ASID-Verify：可扩展的数据标注流程，通过自动验证和精炼确保描述与对应视听内容的语义和时间一致性；3) 训练ASID-Captioner：在ASID-1M上进行监督微调的视频理解模型。
Result: 在7个基准测试中（包括视听字幕生成、属性级字幕生成、基于字幕的问答和基于字幕的时间定位），ASID-Captioner显著提升了细粒度字幕质量，减少了幻觉，改进了指令跟随能力。在开源模型中达到最先进水平，与Gemini-3-Pro竞争。
Conclusion: 通过结构化细粒度标注数据、可扩展的标注流程和专门训练的模型，有效提升了视频理解中细粒度视听信息的建模能力，为通用视频理解提供了新的解决方案。

[53] Multimodal Classification via Total Correlation Maximization

Feng Yu,Xiangyu Wu,Yang Yang,Jianfeng Lu

Main category: cs.CV

TL;DR: 提出TCMax方法，通过最大化多模态特征与标签的总相关性来缓解模态竞争问题，在信息论框架下改善多模态学习性能。

Motivation: 现有研究发现多模态联合学习常会过度拟合某些模态而忽视其他模态，导致性能不如单模态学习。虽然已有研究尝试平衡模态贡献或结合联合与单模态学习，但很少从信息论角度分析联合学习与单模态学习的关系。
Method: 从理论上分析模态竞争，提出通过最大化多模态特征与标签的总相关性来缓解模态竞争。基于互信息神经估计(MINE)提出总相关神经估计(TCNE)来推导总相关的下界，进而提出TCMax这一无需超参数优化的损失函数，通过变分界优化最大化总相关性。
Result: 大量实验表明TCMax在性能上超越了最先进的联合学习和单模态学习方法。
Conclusion: 从信息论角度提出的TCMax方法能有效缓解多模态学习中的模态竞争问题，通过最大化总相关性来改善多模态分类性能。

[54] DynaGuide: A Generalizable Dynamic Guidance Framework for Unsupervised Semantic Segmentation

Boujemaa Guermazi,Riadh Ksantini,Naimul Khan

Main category: cs.CV

TL;DR: DynaGuide是一种无监督图像分割框架，通过双引导策略和动态损失优化，结合零射模型的全局伪标签与局部边界细化，实现高精度分割。

Motivation: 现有无监督分割方法难以平衡全局语义结构与细粒度边界精度，特别是在标注数据稀缺的领域。需要一种既能利用全局语义信息又能精确捕捉边界细节的解决方案。
Method: 基于DynaSeg改进，采用双引导策略：结合DiffSeg或SegFormer等零射模型的全局伪标签，以及轻量级CNN的局部边界细化。核心是多组件动态损失函数，平衡特征相似性、Huber平滑的空间连续性（包括对角线关系）和与全局伪标签的语义对齐。
Result: 在BSD500、PASCAL VOC2012和COCO数据集上达到最先进性能：BSD500的mIoU提升17.5%，PASCAL VOC2012提升3.1%，COCO提升11.66%。完全无需目标域的真实标签，支持即插即用的多种引导源。
Conclusion: DynaGuide通过模块化设计、强大泛化能力和最小计算开销，为现实世界无监督分割提供了可扩展的实用解决方案。代码已开源。

[55] Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels

Julius Pesonen,Stefan Rua,Josef Taher,Niko Koivumäki,Xiaowei Yu,Eija Honkavaara

Main category: cs.CV

TL;DR: 使用ALS数据生成伪标签，结合SAM 2增强，训练深度学习模型实现航空影像中单木树冠分割，无需人工标注

Motivation: 单木树冠制图对城市树木清单维护和森林健康监测至关重要，但航空影像中自动分离树冠因纹理和重叠而具有挑战性
Method: 利用航空激光扫描(ALS)数据生成伪标签，通过零样本实例分割模型SAM 2增强伪标签，训练RGB和多光谱图像的深度学习分割模型
Result: 该方法无需人工标注成本即可获得领域特定的训练标注，训练的分割模型在相同任务上优于通用领域部署的现有模型
Conclusion: ALS衍生的伪标签结合SAM 2增强提供了一种无人工标注成本的领域特定训练标注方法，实现了优于通用模型的单木树冠分割性能

[56] FedHENet: A Frugal Federated Learning Framework for Heterogeneous Environments

Alejandro Dopico-Castro,Oscar Fontenla-Romero,Bertha Guijarro-Berdiñas,Amparo Alonso-Betanzos,Iván Pérez Digón

Main category: cs.CV

TL;DR: FedHENet：基于同态加密的单轮通信联邦学习框架，使用预训练特征提取器和单层输出，无需本地微调，在保护隐私的同时实现高效图像分类。

Motivation: 传统联邦学习需要昂贵的迭代深度网络优化，仍存在梯度泄露隐私风险，且能耗高。需要一种更高效、更隐私保护的方法。
Method: 扩展FedHEONN框架到图像分类，使用固定的预训练特征提取器，仅学习单个输出层。通过同态加密在单轮通信中分析聚合客户端知识，避免本地微调。
Result: 与迭代联邦学习基线相比，FedHENet达到竞争性准确率，同时表现出更好的稳定性，能耗降低高达70%，且无需超参数调优。
Conclusion: FedHENet提供了一种高效、隐私保护、稳定的联邦学习解决方案，显著降低能耗和碳足迹，特别适合敏感视觉数据的实际应用。

[57] Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Runzhou Liu,Hailey Weingord,Sejal Mittal,Prakhar Dungarwal,Anusha Nandula,Bo Ni,Samyadeep Basu,Hongjie Chen,Nesreen K. Ahmed,Li Li,Jiayi Zhang,Koustava Goswami,Subhojyoti Mukherjee,Branislav Kveton,Puneet Mathur,Franck Dernoncourt,Yue Zhao,Yu Wang,Ryan A. Rossi,Zhengzhong Tu,Hongru Du

Main category: cs.CV

TL;DR: 提出基于多模态大语言模型的细粒度图像编辑评估框架，将评估分解为12个可解释因素，并创建包含人类标注、MLLM评估和传统指标的基准数据集。

Motivation: 传统图像编辑评估指标粒度粗、可解释性差，无法捕捉人类感知和意图的重要方面，经常忽略可控性、编辑定位和用户指令忠实度等关键因素。
Method: 提出MLLM-as-a-Judge框架，将图像编辑评估分解为12个细粒度可解释因素（涵盖图像保持、编辑质量和指令忠实度），创建包含人类判断、MLLM评估、模型输出和传统指标的新基准。
Result: 通过大量人类研究证明，提出的MLLM评估器在细粒度上与人类评估高度一致，可作为可靠且可扩展的评估工具。传统指标往往是这些因素的较差代理，无法区分过度编辑或语义不精确的输出。
Conclusion: 该工作提出了基准、原则性分解和实证证据，将细粒度MLLM评估器定位为研究、比较和改进图像编辑方法的实用基础。

[58] Implicit-Scale 3D Reconstruction for Multi-Food Volume Estimation from Monocular Images

Yuhao Chen,Gautham Vinod,Siddeshwar Raghavan,Talha Ibn Mahmud,Bruce Coburn,Jinge Ma,Fengqing Zhu,Jiangpeng He

Main category: cs.CV

TL;DR: 提出一个用于食物体积估计的隐式尺度3D重建基准数据集，将食物分量估计重构为单目多食物图像的隐式尺度3D重建问题。

Motivation: 现有饮食评估方法主要依赖单图像分析或基于外观的推理（包括视觉语言模型），缺乏显式几何推理且对尺度模糊敏感，需要更几何化的方法来解决真实用餐场景中的食物分量估计问题。
Method: 创建了一个隐式尺度3D重建基准数据集，移除显式物理参考和度量标注，仅提供盘子和餐具等上下文对象，要求算法从隐式线索和先验知识推断尺度。数据集强调多食物场景，包含多样几何形状、频繁遮挡和复杂空间排列。
Result: 在MetaFood 2025研讨会上作为挑战赛采用，多个团队提出基于重建的解决方案。实验结果显示，虽然强大的视觉语言基线达到竞争性性能，但基于几何的重建方法提供更高的准确性和鲁棒性，最佳方法在体积估计上达到0.21 MAPE，几何精度上达到5.7 L1 Chamfer距离。
Conclusion: 几何基重建方法在食物体积估计中优于基于外观的方法，隐式尺度3D重建为解决真实用餐场景中的食物分量估计提供了有效框架。

[59] Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation

Florinel-Alin Croitoru,Vlad Hondru,Radu Tudor Ionescu,Nicu Sebe,Mubarak Shah

Main category: cs.CV

TL;DR: Curriculum-DPO++ 在原有数据级课程学习基础上，增加了模型级课程学习，通过逐步解冻层和动态增加LoRA秩来提升学习能力，在文本到图像生成中超越了现有偏好优化方法。

Motivation: 现有RLHF和DPO方法没有考虑学习不同偏好的难度差异，导致优化过程不够理想。为了解决文本到图像生成中的这一问题，作者在之前提出的Curriculum-DPO基础上进一步改进。
Method: 提出Curriculum-DPO++，结合数据级和模型级课程学习：1）从部分可训练层开始，逐步解冻层直到完整架构；2）动态增加LoRA低秩矩阵的维度；3）改进图像对排序策略。
Result: 在9个基准测试中，Curriculum-DPO++在文本对齐、美学质量和人类偏好方面均超越了Curriculum-DPO和其他最先进的偏好优化方法。
Conclusion: 通过结合数据级和模型级课程学习，Curriculum-DPO++能够更有效地学习人类偏好，在文本到图像生成任务中取得了显著改进。

[60] A Calibrated Memorization Index (MI) for Detecting Training Data Leakage in Generative MRI Models

Yash Deo,Yan Jia,Toni Lassila,Victoria J Hodge,Alejandro F Frang,Chenghao Qian,Siyuan Kang,Ibrahim Habli

Main category: cs.CV

TL;DR: 提出一种基于MRI基础模型的校准单样本指标，用于检测生成模型中的训练数据记忆和复制问题，在MRI数据集上实现近乎完美的重复检测。

Motivation: 图像生成模型在输出时会复制训练数据中的图像，这在医学图像生成中引发隐私担忧。需要一种可靠的指标来检测这种记忆和复制现象。
Method: 使用MRI基础模型提取图像特征，聚合多层白化最近邻相似度，映射到有界的过拟合/新颖性指数(ONI)和记忆指数(MI)分数。
Result: 在三个MRI数据集上，该指标能稳健检测复制，提供跨数据集一致的度量值。在样本级别实现近乎完美的重复检测。
Conclusion: 提出的校准单样本指标能有效检测医学图像生成中的记忆和复制问题，为隐私保护提供可靠工具。

[61] SIEFormer: Spectral-Interpretable and -Enhanced Transformer for Generalized Category Discovery

Chunming Li,Shidong Wang,Tong Xin,Haofeng Zhang

Main category: cs.CV

TL;DR: SIEFormer通过谱分析重新解释ViT注意力机制，提出包含隐式和显式谱视角的双分支架构，在广义类别发现任务中实现SOTA性能。

Motivation: 现有Vision Transformer在广义类别发现任务中面临特征适应性不足的问题，需要更有效的注意力机制来建模token间的结构相关性。
Method: 提出SIEFormer双分支架构：隐式分支使用图拉普拉斯建模token局部结构相关性，并引入带自适应滤波层；显式分支通过傅里叶变换学习token全局依赖，在频域进行可学习参数调制。
Result: 在多个图像识别数据集上取得最先进性能，消融研究和可视化验证了方法的优越性。
Conclusion: SIEFormer通过谱分析视角有效增强了ViT的特征适应性，为广义类别发现等挑战性任务提供了新的解决方案。

[62] Universal Transformation of One-Class Classifiers for Unsupervised Anomaly Detection

Declan McIntosh,Alexandra Branzan Albu

Main category: cs.CV

TL;DR: 提出一种数据集折叠方法，将任意基于单类分类器的异常检测器转换为完全无监督方法，无需修改检测器本身，仅通过算法选择训练数据子集。

Motivation: 现实世界异常检测通常被表述为单类分类问题，但训练数据仅包含正常样本的假设使方法容易受到训练标签噪声的影响。需要一种方法将单类分类器转换为无监督方法，以处理训练数据中可能存在的异常。
Method: 提出数据集折叠方法，基于两个关键弱假设：异常在训练数据集中不常见且通常具有异质性。利用多个独立训练的单类分类器实例来过滤训练数据集中的异常，仅通过算法选择数据子集进行训练，无需修改底层异常检测器。
Result: 方法能够将多种图像和视频的单类分类器异常检测器转换为无监督方法，创建了首个无监督逻辑异常检测器。在MVTec AD、ViSA和MVTec Loco AD数据集上实现了最先进的无监督异常检测性能。
Conclusion: 该方法建立了单类分类和无监督异常检测领域之间的桥梁，当单类分类器改进时，该方法能直接将改进转移到无监督领域，为异常检测提供了一种灵活有效的转换框架。

[63] Realistic Face Reconstruction from Facial Embeddings via Diffusion Models

Dong Han,Yong Li,Joachim Denzler

Main category: cs.CV

TL;DR: 提出FEM框架，利用KAN网络和预训练扩散模型，从FR/PPFR系统的嵌入中重构高分辨率人脸图像，验证隐私风险

Motivation: 随着人脸识别系统发展，隐私保护人脸识别系统越来越流行，但缺乏研究验证从这些系统的嵌入中重构真实高分辨率人脸图像的隐私风险
Method: 提出人脸嵌入映射框架，利用Kolmogorov-Arnold网络和预训练的身份保持扩散模型，对最先进的FR和PPFR系统进行嵌入到人脸的攻击
Result: 重构的人脸可用于访问其他真实世界FR系统；方法对部分和保护的人脸嵌入具有鲁棒性；FEM可作为评估FR/PPFR系统隐私泄露安全性的工具
Conclusion: FEM框架有效揭示了FR和PPFR系统的隐私风险，重构的人脸具有实际威胁，可作为系统安全性评估工具

[64] LongStream: Long-Sequence Streaming Autoregressive Visual Geometry

Chong Cheng,Xianda Chen,Tao Xie,Wei Yin,Weiqiang Ren,Qian Zhang,Xiaoyuang Guo,Hao Wang

Main category: cs.CV

TL;DR: LongStream提出了一种新的度量尺度流式3D重建方法，通过解耦姿态锚定、正交尺度学习和缓存一致性训练，解决了长序列重建中的注意力衰减、尺度漂移和外推误差问题。

Motivation: 现有自回归模型在处理长序列时存在显著问题：它们通常将姿态锚定在第一帧，导致注意力衰减、尺度漂移和外推误差，难以实现数千帧的稳定度量尺度重建。
Method: 1. 丢弃第一帧锚定，预测关键帧相对姿态，将长距离外推转化为恒定难度的局部任务；2. 引入正交尺度学习，完全解耦几何与尺度估计以抑制漂移；3. 提出缓存一致性训练结合周期性缓存刷新，解决Transformer缓存问题。
Result: LongStream在实验中达到最先进性能，能够以18 FPS的速度在千米尺度序列上实现稳定的度量尺度重建，显著优于现有方法。
Conclusion: LongStream通过创新的姿态解耦、尺度学习和缓存优化策略，成功解决了长序列流式3D重建的关键挑战，为大规模场景重建提供了高效稳定的解决方案。

[65] Monocular Markerless Motion Capture Enables Quantitative Assessment of Upper Extremity Reachable Workspace

Seth Donahue,J. D. Peiffer,R. Tyler Richardson,Yishan Zhong,Shaun Q. Y. Tan,Benoit Marteau,Stephanie R. Russo,May D. Wang,R. James Cotton,Ross Chafetz

Main category: cs.CV

TL;DR: 验证使用单目相机和AI驱动的无标记运动捕捉技术量化上肢可达工作空间(UERW)的临床可行性，发现正面相机配置与标记式运动捕捉系统有良好一致性。

Motivation: 验证单目相机和AI驱动的无标记运动捕捉(MMC)在临床运动分析中的可行性，降低技术门槛，促进上肢功能评估在临床中的广泛应用。
Method: 9名健康成人执行标准UERW任务，同时使用标记式运动捕捉系统和8台FLIR相机记录。对其中两个视频视角（正面和偏移配置）进行单目视频分析，比较与标记式参考系统的一致性。
Result: 正面相机配置与标记式参考系统表现出强一致性，平均偏差仅0.61±0.12%每八分体；偏移视角低估了可达工作空间百分比(-5.66±0.45%)。
Conclusion: 正面单目相机配置可用于UERW评估，特别是在前部工作空间评估中与标记式运动捕捉一致性最高。该方法降低了技术复杂性，有望促进上肢活动能力定量评估的广泛应用。

[66] FlexAM: Flexible Appearance-Motion Decomposition for Versatile Video Generation Control

Mingzhi Sheng,Zekai Gu,Peng Li,Cheng Lin,Hao-Xiang Guo,Ying-Cong Chen,Yuan Liu

Main category: cs.CV

TL;DR: FlexAM提出基于3D点云表示的统一视频生成框架，通过多频位置编码、深度感知编码和灵活控制信号实现外观与运动的解耦，支持多种视频编辑任务。

Motivation: 当前视频生成方法存在控制信号模糊或任务特定性强的问题，缺乏通用且鲁棒的解决方案。作者认为通过解耦"外观"和"运动"这一基本思路，可以提供更稳健和可扩展的途径。
Method: 提出FlexAM框架，基于新颖的3D控制信号，将视频动态表示为点云。引入三个关键技术：多频位置编码区分细粒度运动、深度感知位置编码、灵活控制信号平衡精度和生成质量。
Result: 大量实验表明，FlexAM在所有评估任务中均取得优越性能，包括图像到视频编辑、视频到视频编辑、相机控制和空间对象编辑等任务。
Conclusion: 通过3D点云表示实现外观与运动的有效解耦，FlexAM提供了一个统一且强大的视频生成框架，能够支持广泛的视频编辑任务，并在各项任务中表现出色。

[67] CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Sayan Deb Sarkar,Rémi Pautrat,Ondrej Miksik,Marc Pollefeys,Iro Armeni,Mahdi Rad,Mihai Dusmanu

Main category: cs.CV

TL;DR: 提出利用视频编解码原语（运动向量和残差）来改进视频语言模型，减少计算开销并提升性能

Motivation: 现有视频语言模型使用关键帧采样会遗漏宏观事件和微观细节，且处理完整图像带来巨大计算开销
Method: 利用视频编解码原语（运动向量和残差）编码视频冗余和稀疏性，设计轻量级Transformer编码器聚合这些原语，并通过预训练策略对齐图像编码器表示
Result: 相比标准VideoLMs，首令牌时间减少86%，令牌使用减少93%，在14个视频理解基准上保持或超越性能
Conclusion: 利用视频编解码原语能有效解决视频语言模型的计算效率和覆盖范围问题，在多个视频理解任务上取得优异表现

[68] Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision

Aadarsh Sahoo,Georgia Gkioxari

Main category: cs.CV

TL;DR: 提出对话式图像分割任务和ConverSeg基准，解决现有指称图像定位忽略功能物理推理的问题，并开发了ConverSeg-Net模型和无监督数据生成引擎。

Motivation: 现有指称图像定位主要关注类别和空间查询（如"最左边的苹果"），忽略了功能和物理推理（如"我可以安全地存放刀的地方在哪里？"），需要填补这一研究空白。
Method: 提出对话式图像分割任务，构建ConverSeg基准涵盖实体、空间关系、意图、可供性、功能、安全和物理推理；开发ConverSeg-Net融合分割先验与语言理解；设计AI驱动的数据引擎无需人工监督生成提示-掩码对。
Result: 当前语言引导的分割模型在对话式图像分割上表现不足，而基于数据引擎训练的ConverSeg-Net在ConverSeg基准上取得显著提升，同时在现有语言引导分割基准上保持强性能。
Conclusion: 对话式图像分割填补了功能物理推理的研究空白，ConverSeg基准和ConverSeg-Net为这一新任务提供了有效解决方案，无监督数据生成方法展示了良好的扩展性。

cs.IR

[69] Visual RAG Toolkit: Scaling Multi-Vector Visual Retrieval with Training-Free Pooling and Multi-Stage Search

Ara Yeroyan

Main category: cs.IR

TL;DR: Visual RAG Toolkit通过训练无关的模型感知池化和多阶段检索，显著降低视觉多向量检索的计算开销，在保持检索质量的同时提升4倍吞吐量

Motivation: 多向量视觉检索器（如ColPali风格的延迟交互模型）虽然准确率高，但可扩展性差，每页产生数千个向量导致索引和搜索成本高昂
Method: 采用静态空间池化（包括轻量级滑动窗口平均变体）对补丁嵌入进行压缩，生成紧凑的瓦片级和全局表示用于快速候选生成，然后使用完整多向量嵌入进行精确MaxSim重排序
Result: 在ViDoRe v2基准测试中，两阶段检索在NDCG和Recall@5/10指标上基本保持原有性能，同时显著提升吞吐量（约4倍QPS），主要敏感度出现在非常大的k值时
Conclusion: 该工具包通过强调常见截断点（k≤10）的效率，降低了硬件门槛，使最先进的视觉检索在实际应用中更加可访问

[70] WISE: A Multimodal Search Engine for Visual Scenes, Audio, Objects, Faces, Speech, and Metadata

Prasanna Sridhar,Horace Lee,David M. S. Pinto,Andrew Zisserman,Abhishek Dutta

Main category: cs.IR

TL;DR: WISE是一个开源的多模态音视频搜索引擎，支持自然语言、图像、人脸、音频等多种查询方式，可扩展到百万级图像和千小时视频检索。

Motivation: 开发一个集成多种多模态检索功能的实用工具，让没有机器学习专业知识的用户也能方便地进行音视频内容搜索。
Method: 采用向量搜索技术实现高效检索，支持场景级和对象级图像/视频查询、人脸搜索、音频事件检索、语音转录搜索和元数据过滤，具有模块化架构便于集成新模型。
Result: WISE能够扩展到支持数百万图像或数千小时视频的高效检索，已应用于多个实际用例，支持本地部署保护隐私数据。
Conclusion: WISE提供了一个功能全面、易于使用的开源多模态搜索引擎，通过集成多种检索能力并支持跨模态查询组合，为音视频内容分析提供了强大工具。

cs.LG

[71] TFT-ACB-XML: Decision-Level Integration of Customized Temporal Fusion Transformer and Attention-BiLSTM with XGBoost Meta-Learner for BTC Price Forecasting

Raiz Ud Din,Saddam Hussain Khan

Main category: cs.LG

TL;DR: 提出TFT-ACB-XML混合堆叠泛化框架，结合TFT和ACB-LSTM并行基学习器，通过XGBoost元学习器预测比特币收盘价，在测试集上取得优异性能。

Motivation: 比特币预测面临非线性、高波动性和时间不规则性挑战，现有深度学习模型在可解释性和跨市场条件泛化能力方面存在不足。
Method: 采用混合堆叠泛化框架：1) 定制TFT处理长期依赖和全局时间动态；2) ACB模块（注意力定制BiLSTM）捕捉短期序列依赖；3) 基于验证性能的误差倒数加权策略；4) XGBoost元学习器处理非线性残差生成最终预测。
Result: 在2014年10月1日至2026年1月5日BTC数据上，相比现有深度学习和Transformer基线模型表现更优：单步外样本预测MAPE 0.65%，MAE 198.15，RMSE 258.30，涵盖2024年减半和现货ETF时期。
Conclusion: TFT-ACB-XML框架有效解决了比特币预测的挑战，在波动性变化时期仍保持稳健性能，为加密货币预测提供了可解释且泛化能力强的解决方案。

[72] Flow-Factory: A Unified Framework for Reinforcement Learning in Flow-Matching Models

Bowen Ping,Chengyou Jia,Minnan Luo,Hangwei Qian,Ivor Tsang

Main category: cs.LG

TL;DR: Flow-Factory是一个统一的强化学习框架，用于对齐扩散和流匹配模型与人类偏好，通过模块化架构解耦算法、模型和奖励，简化实现复杂度。

Motivation: 当前强化学习在扩散和流匹配模型对齐中存在代码库碎片化、模型特定实现和工程复杂度高的问题，阻碍了研究和应用。
Method: 采用模块化、基于注册表的架构设计，将算法、模型和奖励解耦，支持GRPO、DiffusionNFT、AWM等算法和Flux、Qwen-Image、WAN视频等模型。
Result: 实现了生产级内存优化、灵活的多奖励训练和无缝分布式训练支持，显著降低了实现开销，使研究人员能够快速原型设计和扩展创新。
Conclusion: Flow-Factory通过统一的框架解决了强化学习在扩散模型对齐中的碎片化问题，为未来创新提供了快速原型设计和扩展的基础设施。

[73] Formalizing the Sampling Design Space of Diffusion-Based Generative Models via Adaptive Solvers and Wasserstein-Bounded Timesteps

Sangwoo Jo,Sungjoon Choi

Main category: cs.LG

TL;DR: SDM提出了一种基于几何视角的扩散模型采样框架，通过分析ODE动态特性，在早期高噪声阶段使用低阶求解器，后期非线性增强时逐步部署高阶求解器，并通过Wasserstein有界优化框架自适应调整时间步长，在减少函数评估次数的同时达到SOTA性能。

Motivation: 扩散生成模型在实际部署中受到高采样成本的限制。现有工作主要关注训练目标或单个求解器，而采样过程的整体设计（求解器选择和时间调度）仍由静态启发式方法主导。本文从几何视角重新审视这一挑战，提出一个原则性框架来对齐数值求解器与扩散轨迹的内在特性。
Method: 通过分析ODE动态特性，发现早期高噪声阶段使用高效低阶求解器足够，后期非线性增强时逐步部署高阶求解器。引入Wasserstein有界优化框架，系统推导自适应时间步长，明确限制局部离散化误差，确保采样过程忠实于底层连续动态。
Result: 在不需额外训练或架构修改的情况下，SDM在标准基准测试中达到最先进性能：CIFAR-10上FID为1.93，FFHQ上2.41，AFHQv2上1.98，同时相比现有采样器减少了函数评估次数。
Conclusion: SDM提供了一个原则性的采样框架，通过几何视角对齐求解器与扩散轨迹特性，结合自适应时间调度，在保持采样质量的同时显著降低计算成本，为扩散模型的实际部署提供了有效解决方案。

[74] SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Jintao Zhang,Haoxu Wang,Kai Jiang,Kaiwen Zheng,Youhe Jiang,Ion Stoica,Jianfei Chen,Jun Zhu,Joseph E. Gonzalez

Main category: cs.LG

TL;DR: SLA2改进稀疏线性注意力机制，通过可学习路由器和更直接的稀疏-线性注意力分解，在视频扩散模型中实现97%注意力稀疏度和18.6倍加速。

Motivation: 现有稀疏线性注意力(SLA)存在两个问题：1) 基于注意力权重大小的启发式分割可能不是最优的；2) 存在SLA与直接稀疏-线性注意力分解之间的不匹配。
Method: 提出SLA2方法：1) 可学习路由器动态选择稀疏或线性注意力；2) 更忠实直接的稀疏-线性注意力公式，使用可学习比例组合两个分支；3) 稀疏+低比特注意力设计，通过量化感知微调减少量化误差。
Result: 在视频扩散模型中，SLA2能实现97%的注意力稀疏度，提供18.6倍的注意力加速，同时保持生成质量。
Conclusion: SLA2通过改进的稀疏线性注意力机制，在保持生成质量的同时显著加速视频扩散模型的注意力计算。

[75] X-VORTEX: Spatio-Temporal Contrastive Learning for Wake Vortex Trajectory Forecasting

Zhan Qu,Michael Färber

Main category: cs.LG

TL;DR: X-VORTEX：基于增强重叠理论的时空对比学习框架，从无标签LiDAR点云序列中学习物理感知表示，仅需1%标注数据即可实现优于监督基线的涡旋中心定位

Motivation: 飞机尾涡是强烈的空气湍流，对空中交通管理构成安全和容量挑战。现有方法将每次扫描视为独立的监督分割问题，忽略了时间结构，且无法扩展到实际收集的大量无标签数据。需要一种能够处理传感器稀疏性和时变涡旋动力学的方法。
Method: 提出X-VORTEX时空对比学习框架，基于增强重叠理论。通过结合弱扰动序列和强增强对应序列（通过时间子采样和空间掩码生成）构建配对输入，鼓励模型在缺失帧和部分观测中对齐表示。架构包括时间分布几何编码器和序列聚合器。
Result: 在超过100万次LiDAR扫描的真实数据集上评估，X-VORTEX实现了优越的涡旋中心定位，仅需监督基线1%的标注数据，学习到的表示支持准确的轨迹预测。
Conclusion: X-VORTEX通过时空对比学习有效解决了尾涡跟踪中的传感器稀疏性和时变动力学挑战，显著减少了对昂贵标注数据的依赖，为大规模无标签LiDAR数据提供了实用的解决方案。

[76] Transporting Task Vectors across Different Architectures without Training

Filippo Rinaldi,Aniello Panariello,Giacomo Salici,Angelo Porrello,Simone Calderara

Main category: cs.LG

TL;DR: Theseus：无需训练的跨模型任务更新传输方法，通过功能匹配而非参数匹配实现异构模型间的任务向量传输

Motivation: 大型预训练模型在下游任务适配时会产生昂贵的任务特定参数更新，现有方法只能在相同架构模型间传输，无法在不同宽度的异构模型间传输
Method: 通过正交Procrustes分析对齐表示空间，将任务向量传输形式化为观测激活的功能匹配问题，获得稳定的闭式解以保持更新几何结构
Result: 在视觉和语言模型的不同宽度变体上评估，无需额外训练或反向传播即能持续超越强基线方法
Conclusion: 当任务身份从功能而非参数角度定义时，任务更新可以在不同架构间有意义地传输

[77] Resource-Efficient Gesture Recognition through Convexified Attention

Daniel Schwartz,Dario Salvucci,Yusuf Osmanlioglu,Richard Vallett,Genevieve Dion,Ali Shokoufandeh

Main category: cs.LG

TL;DR: 提出一种用于可穿戴电子织物的凸化注意力机制，通过非扩张单纯形投影和凸损失函数实现动态特征加权，仅需120-360个参数即可实现100%手势识别准确率，推理时间低于300微秒。

Motivation: 可穿戴电子织物界面需要手势识别功能，但面临功耗、计算能力和尺寸的严格限制，传统深度学习方法不实用。现有轻量级架构仍需数千参数，难以在织物集成平台上部署。
Method: 引入凸化注意力机制：使用欧几里得投影到概率单纯形代替非凸softmax操作，结合多类铰链损失函数，确保全局收敛保证。在四连接点纺织电容传感器上实现。
Result: 在点击和滑动手势上均达到100%准确率（10折交叉验证和保留测试），仅需120-360个参数（比传统方法减少97%），推理时间290-296微秒，存储需求小于7KB。
Conclusion: 凸优化方法能够为纺织界面实现高效的设备端机器学习，在实验室条件下验证了基本手势交互的可行性，但实际部署需要多用户、多环境和更复杂手势的验证。

stat.AP

[78] Statistical Opportunities in Neuroimaging

Jian Kang,Thomas Nichols,Lexin Li,Martin A. Lindquist,Hongtu Zhu

Main category: stat.AP

TL;DR: 本文综述了神经影像学中的统计机遇与挑战，涵盖大脑发育、成人/衰老、神经退行性疾病、脑编码/解码四大领域，强调统计学家与神经科学家合作的重要性。

Motivation: 神经影像技术（MRI、fMRI、EEG、PET）虽已显著推进对大脑的理解，但大脑作为复杂的多尺度系统，其高维测量数据带来噪声、运动伪影、个体/设备差异等统计挑战，需要统计方法学支持。
Method: 首先简要介绍主要成像技术，然后系统回顾四大关键领域的前沿研究：1) 0-20岁大脑发育；2) 成人及衰老大脑；3) 神经退行性与神经精神疾病；4) 脑编码与解码。分析各领域的数据与建模挑战，并指出统计学家的研究机遇。
Result: 识别了神经影像学中存在的核心统计问题：测量噪声、运动伪影、个体/设备变异性、大数据规模等挑战，同时明确了统计学家在开发新方法、优化数据分析、提升研究可重复性等方面的关键作用。
Conclusion: 统计学家、神经科学家和临床医生之间的紧密合作至关重要，只有通过跨学科协作才能将神经影像学进展转化为更好的诊断工具、更深入的机制理解和更个性化的治疗方案。

cs.CL

[79] Grandes Modelos de Linguagem Multimodais (MLLMs): Da Teoria à Prática

Neemias da Silva,Júlio C. W. Scholz,John Harrison,Marina Borges,Paulo Ávila,Frances A Santos,Myriam Delgado,Rodrigo Minetto,Thiago H Silva

Main category: cs.CL

TL;DR: 本章介绍多模态大语言模型(MLLMs)的基础知识、代表性模型、实践技术以及未来挑战与趋势

Motivation: MLLMs结合了LLMs的自然语言理解生成能力与图像、音频等模态的感知能力，代表了当代AI的重要进展，需要系统性地介绍其基础知识和实践应用
Method: 通过介绍MLLMs的基本原理、代表性模型，以及使用LangChain和LangGraph构建多模态管道的预处理、提示工程等实践技术
Result: 提供了公开的补充材料(https://github.com/neemiasbsilva/MLLMs-Teoria-e-Pratica)，包含进一步实践学习资源
Conclusion: 讨论了MLLMs面临的挑战，并强调了有前景的发展趋势，为读者提供了全面的理论知识和实践指导

[80] MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Baorong Shi,Bo Cui,Boyuan Jiang,Deli Yu,Fang Qian,Haihua Yang,Huichao Wang,Jiale Chen,Jianfei Pan,Jieqiong Cao,Jinghao Lin,Kai Wu,Lin Yang,Shengsheng Yao,Tao Chen,Xiaojun Xiao,Xiaozhong Ji,Xu Wang,Yijun He,Zhixiong Yang

Main category: cs.CL

TL;DR: MedXIAOHE是一个医疗视觉语言基础模型，通过实体感知持续预训练、强化学习和工具增强代理训练，在多个医疗基准测试中达到最先进性能，超越闭源多模态系统。

Motivation: 开发一个通用的医疗视觉语言基础模型，用于真实世界临床应用中的医疗理解和推理，解决异构医疗数据、长尾问题（如罕见疾病）以及医疗专家级推理的需求。
Method: 1. 实体感知持续预训练框架：组织异构医疗语料库以扩大知识覆盖并减少长尾差距；2. 通过强化学习和工具增强代理训练整合多样医疗推理模式；3. 集成用户偏好标准、证据基础推理和低幻觉长格式报告生成以提高可靠性。
Result: 在多样化医疗基准测试中达到最先进性能，超越领先的闭源多模态系统在多个能力上，实现了多步诊断推理和可验证的决策轨迹。
Conclusion: MedXIAOHE通过创新的训练框架和可靠性增强技术，为真实世界临床应用提供了强大的医疗视觉语言基础模型，其设计选择、扩展见解和评估框架有望启发进一步研究。

eess.IV

[81] Quantum walk inspired JPEG compression of images

Abhishek Verma,Sahil Tomar,Sandeep Kumar

Main category: eess.IV

TL;DR: 提出量子启发自适应量化框架，通过量子行走优化搜索策略学习优化量化表，提升经典JPEG压缩性能，保持解码器兼容性。

Motivation: 传统JPEG压缩使用固定量化表，无法适应不同图像内容。需要一种自适应量化方法，在保持JPEG兼容性的同时提升压缩性能。
Method: 采用量子行走启发优化(QWIO)搜索策略，在连续参数空间中搜索频率带缩放因子，通过统一的率失真目标函数联合考虑重建保真度和压缩效率。
Result: 在MNIST、CIFAR10和ImageNet子集上测试，PSNR平均提升3-6 dB，边缘、轮廓和亮度过渡的结构保持更好，比特率降低，且保持解码器兼容性。
Conclusion: 提出的量子启发自适应量化框架显著提升JPEG压缩性能，保持向后兼容性，易于部署和实际研究使用。

[82] Conference Proceedings of the Inaugural Conference of the International Society for Tractography (IST 2025 Bordeaux)

Flavio Dell Acqua,Maxime Descoteaux,Graham Little,Laurent Petit,Dogu Baran Aydogan,Stephanie Forkel,Alexander Leemans,Simona Schiavi,Michel Thiebaut de Schotten

Main category: eess.IV

TL;DR: IST Conference 2025论文集摘要，涵盖神经解剖学、纤维束成像方法及其科学/临床应用的最新进展

Motivation: 促进不同领域之间的交流与合作，推动纤维束成像领域的研究、创新和社区建设
Method: 通过海报展示、快速演讲和口头报告等形式收集会议摘要，涵盖神经解剖学、纤维束成像方法和临床应用三大主题
Result: 汇集了纤维束成像、扩散MRI及相关领域的最新进展，包括神经精神疾病、深部脑刺激靶向和大脑发育等新研究
Conclusion: 这次里程碑式会议汇聚了世界领先专家，讨论了关键挑战并规划了该领域的未来发展方向

[83] Lung nodule classification on CT scan patches using 3D convolutional neural networks

Volodymyr Sydorskyi

Main category: eess.IV

TL;DR: 提出三种改进方法用于肺结节分类：先进的CT扫描裁剪策略、目标过滤技术和新颖的数据增强方法，在LIDC-IDRI数据集上达到SOTA性能。

Motivation: 肺癌是全球最常见和最致命的癌症之一，成功治疗的可能性很大程度上取决于诊断阶段。早期检测是关键的医学挑战，但由于需要审查的研究数量庞大、肺内存在多个结节以及许多结节尺寸小导致视觉评估困难，这对胸科放射科医生构成了重大挑战。因此，开发包含高精度且计算效率高的肺结节检测和分类模块的自动化系统至关重要。
Method: 本研究引入了三种肺结节分类的方法改进：(1) 先进的CT扫描裁剪策略，使模型专注于目标结节同时降低计算成本；(2) 目标过滤技术用于去除噪声标签；(3) 新颖的数据增强方法以提高模型鲁棒性。这些技术集成后可在全面的肺癌检测临床决策支持系统中开发出鲁棒的分类子系统。
Result: 在LIDC-IDRI数据集上，多类模型实现了Macro ROC AUC为0.9176和Macro F1-score为0.7658，而二分类模型达到了Binary ROC AUC为0.9383和Binary F1-score为0.8668。这些结果优于先前报告的几种方法，并展示了该任务的最先进性能。
Conclusion: 通过集成先进的裁剪策略、目标过滤技术和数据增强方法，成功开发了在多样化采集协议、扫描仪类型和上游模型下都能运行的鲁棒肺结节分类系统，为肺癌早期检测提供了有效的临床决策支持工具。

[84] VineetVC: Adaptive Video Conferencing Under Severe Bandwidth Constraints Using Audio-Driven Talking-Head Reconstruction

Vineet Kumar Rakesh,Soumya Mazumdar,Tapas Samanta,Hemendra Kumar Pandey,Amitabha Das,Sarbajit Pal

Main category: eess.IV

TL;DR: 提出自适应视频会议系统，在带宽受限时用AI合成头像替代真实视频流，大幅降低带宽需求

Motivation: 消费级和受限网络中带宽耗尽会破坏实时视频会议稳定性：编码器速率管理饱和、丢包增加、帧率下降、端到端延迟显著增加
Method: 集成WebRTC媒体传输与音频驱动的说话头像重建路径和遥测驱动模式调节。系统包括WebSocket信令服务、可选SFU、支持实时WebRTC统计提取的浏览器客户端、AI REST服务（处理参考人脸图像和音频生成合成MP4），浏览器可用合成流替代摄像头轨道
Result: 系统可将带宽降至中位数32.80 kbps，并实现带宽模式切换策略和客户端模式状态记录
Conclusion: 提出的自适应会议系统通过AI合成头像替代真实视频流，在带宽受限时能维持视频会议稳定性，显著降低带宽需求

[85] 3DLAND: 3D Lesion Abdominal Anomaly Localization Dataset

Mehran Advand,Zahra Dehghanian,Navid Faraji,Reza Barati,Seyed Amir Ahmad Safavi-Naini,Hamid R. Rabiee

Main category: eess.IV

TL;DR: 3DLAND是一个大规模腹部CT数据集，包含6000多个增强CT扫描和20000多个高质量3D病灶标注，覆盖7个腹部器官，为医学AI提供器官感知的3D分割基准。

Motivation: 现有腹部CT数据集通常缺乏三维标注、多器官覆盖或精确的病灶-器官关联，这限制了鲁棒表示学习和临床应用的发展。
Method: 采用三阶段流水线：自动化空间推理、提示优化的2D分割和记忆引导的3D传播，并由放射科专家验证（表面Dice分数超过0.75）。
Result: 创建了包含6000多个增强CT扫描和20000多个3D病灶标注的大规模数据集，覆盖肝脏、肾脏、胰腺、脾脏、胃和胆囊等7个腹部器官。
Conclusion: 3DLAND为异常检测、定位和跨器官迁移学习提供了可扩展的评估基准，推动了医疗AI的发展，数据集和代码已公开。

Laura Alvarez-Florez,Angel Bujalance-Gomez,Femke Raijmakers,Samuel Ruiperez-Campillo,Maarten Z. H. Kolk,Jesse Wiers,Julia Vogt,Erik J. Bekkers,Ivana Išgum,Fleur V. Y. Tjong

Main category: eess.IV

TL;DR: 提出对比学习框架，通过配对ECG-CMR数据从心电图提取临床相关心脏表型，将ECG表征与3D CMR体积对齐，在共享潜在空间中联合锚定舒张末期和收缩末期双相位。

Motivation: 心脏磁共振成像（CMR）能详细评估心脏结构和功能，但可及性有限；而心电图（ECG）普及且廉价，提供丰富电活动信息，但对心脏结构和机械功能洞察有限。需要从ECG中提取更多临床相关心脏表型。
Method: 提出对比学习框架，将ECG表征与3D CMR体积在舒张末期（ED）和收缩末期（ES）对齐，采用双相位对比损失，在共享潜在空间中联合锚定每个ECG与两个心脏相位。与之前限于2D CMR表征的方法不同，本框架将两个相位的3D解剖结构建模为不同潜在表征。
Result: 使用UK Biobank中超过34,000个ECG-CMR配对数据，证明从ECG提取图像衍生表型的能力显著提升，特别是功能参数（↑9.2%），但临床结果预测改进有限（↑0.7%）。
Conclusion: 该策略可实现从ECG中可扩展且经济高效地提取图像衍生特征，为利用普及的ECG获取更多心脏结构和功能信息提供了新途径。

cs.RO

[87] LatentAM: Real-Time, Large-Scale Latent Gaussian Attention Mapping via Online Dictionary Learning

Junwoon Lee,Yulun Tian

Main category: cs.RO

TL;DR: LatentAM是一个在线3D高斯泼溅建图框架，通过流式RGB-D观测构建可扩展的潜在特征地图，用于开放词汇机器人感知，无需特定模型解码器即可实现不同视觉语言模型的即插即用集成。

Motivation: 现有方法通常需要针对特定视觉语言模型（VLM）使用模型特定的解码器来提取高维嵌入，这限制了灵活性和可扩展性。需要一种模型无关且无需预训练的在线建图框架，能够适应不同VLM并处理长轨迹和大规模环境。
Method: 提出在线字典学习方法：1）为每个高斯基元关联紧凑查询向量；2）通过注意力机制与可学习字典将查询向量转换为近似VLM嵌入；3）字典从流式观测高效初始化并在线优化以适应场景语义变化；4）基于体素哈希的高效地图管理策略，GPU上优化局部活动地图，CPU上存储全局地图以控制内存使用。
Result: 在公共基准测试和大型自定义数据集上，LatentAM相比最先进方法显著提升了特征重建保真度，同时在评估数据集上达到接近实时的速度（12-35 FPS）。
Conclusion: LatentAM实现了模型无关、无需预训练的在线3D建图框架，能够高效处理大规模环境并适应不同视觉语言模型，为开放词汇机器人感知提供了灵活且可扩展的解决方案。

Yue Hu,Avery Xi,Qixin Xiao,Seth Isaacson,Henry X. Liu,Ram Vasudevan,Maani Ghaffari

Main category: cs.RO

TL;DR: LongNav-R1：一个端到端多轮强化学习框架，通过将导航决策过程重新定义为VLA策略与环境之间的连续多轮对话，优化视觉-语言-动作模型的长视野导航能力。

Motivation: 现有单轮范式在长视野导航任务中存在局限性，无法有效推理历史交互的因果效应和序列未来结果，且依赖人类演示导致行为僵化。
Method: 1. 多轮RL框架：将导航决策重构为VLA策略与环境之间的连续对话；2. 视野自适应策略优化：在优势估计中显式考虑不同视野长度，实现长序列的准确时间信用分配。
Result: 在物体导航基准测试中，仅用4000条轨迹就将Qwen3-VL-2B的成功率从64.3%提升到73.0%，表现出卓越的样本效率和优于现有方法的效果，并在零样本真实世界导航中验证了泛化性和鲁棒性。
Conclusion: LongNav-R1通过多轮RL框架和视野自适应策略优化，有效解决了长视野导航中的挑战，实现了更高效、更鲁棒的导航性能，代码将开源。

[89] MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Keshara Weerasinghe,Seyed Hamid Reza Roodabeh,Andrew Hawkins,Zhaomeng Zhang,Zachary Schrader,Homa Alemzadeh

Main category: cs.RO

TL;DR: MiDAS是一个开源、平台无关的多模态数据采集系统，无需专有机器人接口即可实现手术机器人平台的时间同步多模态数据采集，包括手部跟踪、脚踏板感应和手术视频捕获。

Motivation: 机器人辅助微创手术研究越来越依赖多模态数据，但获取专有机器人遥测数据仍然是一个主要障碍，需要一种非侵入式的解决方案来收集同步的多模态数据。
Method: MiDAS整合了电磁和RGB-D手部跟踪、脚踏板感应和手术视频捕获，无需专有机器人接口。在开源Raven-II和临床da Vinci Xi机器人上验证，收集了手术住院医师执行peg transfer和疝气修复缝合任务的多模态数据集，并进行相关性分析和手势识别实验。
Result: 外部手部和脚踏感应与内部机器人运动学高度相关，非侵入式运动信号在手势识别性能上与专有遥测数据相当。
Conclusion: MiDAS实现了可重复的多模态RMIS数据采集，并发布了带注释的数据集，包括首个在高保真模拟模型上捕获疝气修复缝合的多模态数据集。

[90] Monocular Reconstruction of Neural Tactile Fields

Pavan Mantripragada,Siddhanth Deshmukh,Eadom Dessalene,Manas Desai,Yiannis Aloimonos

Main category: cs.RO

TL;DR: 提出神经触觉场，从单目RGB图像预测3D触觉响应，用于机器人路径规划

Motivation: 现实世界中机器人需要在可变形、可重构的环境中规划路径，需要超越静态几何占用的交互感知3D表示
Method: 引入神经触觉场，从单目RGB图像预测空间位置在接触时的预期触觉响应，并与现成路径规划器集成
Result: 相比最先进的单目3D重建方法，体积重建提升85.8%，表面重建提升26.7%；能够规划避开高阻力物体、通过低阻力区域的路径
Conclusion: 神经触觉场为机器人提供了交互感知的3D表示，显著改善了3D重建质量，实现了更智能的路径规划

[91] Imitating What Works: Simulation-Filtered Modular Policy Learning from Human Videos

Albert J. Zhai,Kuo-Hao Zeng,Jiasen Lu,Ali Farhadi,Shenlong Wang,Wei-Chiu Ma

Main category: cs.RO

TL;DR: PSI框架利用人类视频数据，通过模拟中的抓取-轨迹配对过滤，训练模块化机器人操作策略，实现无需机器人数据的精确操作技能学习

Motivation: 人类视频数据为机器人学习提供了可扩展的数据源，但存在两个关键问题：1) 人类视频对抓取行为的信号较弱，特别是对于非人形手的机器人；2) 现有的模块化策略中，任意稳定抓取往往与任务不兼容，阻碍后续动作执行
Method: 提出Perceive-Simulate-Imitate (PSI)框架：1) 使用人类视频运动数据；2) 通过模拟中的抓取-轨迹配对过滤处理数据；3) 为轨迹数据添加抓取适宜性标签；4) 通过监督学习训练任务导向的抓取能力
Result: 真实世界实验表明，该框架能够高效学习精确操作技能，无需任何机器人数据，相比简单使用抓取生成器，性能显著更鲁棒
Conclusion: PSI框架通过模拟扩展人类视频数据，有效解决了任务兼容抓取的学习问题，为基于人类视频的机器人操作学习提供了可行的解决方案

eess.SP

[92] Represent Micro-Doppler Signature in Orders

Weicheng Gao

Main category: eess.SP

TL;DR: 提出Chebyshev-time map方法，通过多项式阶数表征微多普勒特征，有效区分室内持枪与正常行走等相似人类活动，在保持识别精度的同时压缩时频谱数据规模。

Motivation: 穿墙雷达能实现复杂环境中非视距人类活动感知，但相似活动（如持枪与正常行走）的微多普勒特征差异极小，而使用时频谱进行识别需要大规模输入图像，导致模型训练和推理效率低下。
Method: 首先建立人体运动参数化运动模型和穿墙雷达回波模型，然后提出基于正交切比雪夫多项式分解的时频特征表示方法，提取躯干和四肢的运动包络，将时频谱切片映射到鲁棒的Chebyshev-time系数空间，保留时频谱的多阶形态细节信息。
Result: 数值仿真和实验验证了方法的有效性，能够表征武装和非武装室内人类活动，同时有效压缩时频谱规模，在识别精度和输入数据维度之间取得平衡。
Conclusion: Chebyshev-time map方法通过多项式阶数表征微多普勒特征，解决了相似室内人类活动识别中特征差异小和数据规模大的问题，实现了高效准确的穿墙雷达人类活动识别。

cs.CV ​

[1] Thermal Imaging for Contactless Cardiorespiratory and Sudomotor Response Monitoring ​

[2] LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens ​

[3] Synthetic Image Detection with CLIP: Understanding and Assessing Predictive Cues ​

[4] Reproducing DragDiffusion: Interactive Point-Based Editing with Diffusion Models ​

[5] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis ​

[6] ZeroDiff++: Substantial Unseen Visual-semantic Correlation in Zero-shot Learning ​

[7] MonoLoss: A Training Objective for Interpretable Monosemantic Representations ​

[8] Prototype-driven fusion of pathology and spatial transcriptomics for interpretable survival prediction ​

[9] Semantic-aware Adversarial Fine-tuning for CLIP ​

[10] A Lightweight and Explainable DenseNet-121 Framework for Grape Leaf Disease Classification ​

[11] Human-Like Coarse Object Representations in Vision Models ​

[12] Insertion Network for Image Sequence Correspondence ​

[13] Layer-Specific Fine-Tuning for Improved Negation Handling in Medical Vision-Language Models ​

[14] Matching of SAR and optical images based on transformation to shared modality ​

[15] LiDAR-Anchored Collaborative Distillation for Robust 2D Representations ​

[16] Geometric Stratification for Singular Configurations of the P3P Problem via Local Dual Space ​

[17] Self-Supervised JEPA-based World Models for LiDAR Occupancy Completion and Forecasting ​

[18] PLLM: Pseudo-Labeling Large Language Models for CAD Program Synthesis ​

[19] The Constant Eye: Benchmarking and Bridging Appearance Robustness in Autonomous Driving ​

[20] Unbiased Gradient Estimation for Event Binning via Functional Backpropagation ​

[21] QuEPT: Quantized Elastic Precision Transformers with One-Shot Calibration for Multi-Bit Switching ​

[22] Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models ​

[23] ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models ​

[24] Multi-Task Learning with Additive U-Net for Image Denoising and Classification ​

[25] CBEN -- A Multimodal Machine Learning Dataset for Cloud Robust Remote Sensing Image Understanding ​

[26] IndicFairFace: Balanced Indian Face Dataset for Auditing and Mitigating Geographical Bias in Vision-Language Models ​

[27] Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening ​

[28] Channel-Aware Probing for Multi-Channel Imaging ​

[29] ART3mis: Ray-Based Textual Annotation on 3D Cultural Objects ​

[30] VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph ​

[31] SPRig: Self-Supervised Pose-Invariant Rigging from Mesh Sequences ​

[32] Synthetic Craquelure Generation for Unsupervised Painting Restoration ​

[33] ReBA-Pred-Net: Weakly-Supervised Regional Brain Age Prediction on MRI ​

[34] Towards reconstructing experimental sparse-view X-ray CT data with diffusion models ​

[35] Towards complete digital twins in cultural heritage with ART3mis 3D artifacts annotator ​

[36] PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion ​

[37] Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting ​

[38] GSM-GS: Geometry-Constrained Single and Multi-view Gaussian Splatting for Surface Reconstruction ​

[39] Thinking Like a Radiologist: A Dataset for Anatomy-Guided Interleaved Vision Language Reasoning in Chest X-ray Interpretation ​

[40] RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads ​

[41] RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training ​

[42] Robustness of Object Detection of Autonomous Vehicles in Adverse Weather Conditions ​

[43] Adaptive Scaling with Geometric and Visual Continuity of completed 3D objects ​

[44] Reliable Thinking with Images ​

[45] EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition ​

[46] Beyond Benchmarks of IUGC: Rethinking Requirements of Deep Learning Methods for Intrapartum Ultrasound Biometry from Fetal Ultrasound Videos ​

[47] Deep-Learning Atlas Registration for Melanoma Brain Metastases: Preserving Pathology While Enabling Cohort-Level Analyses ​

[48] Unleashing MLLMs on the Edge: A Unified Framework for Cross-Modal ReID via Adaptive SVD Distillation ​

[49] Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding ​

[50] Detecting Object Tracking Failure via Sequential Hypothesis Testing ​

[51] MASAR: Motion-Appearance Synergy Refinement for Joint Detection and Trajectory Forecasting ​

[52] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions ​

[53] Multimodal Classification via Total Correlation Maximization ​

[54] DynaGuide: A Generalizable Dynamic Guidance Framework for Unsupervised Semantic Segmentation ​

[55] Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels ​

[56] FedHENet: A Frugal Federated Learning Framework for Heterogeneous Environments ​

[57] Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis ​

[58] Implicit-Scale 3D Reconstruction for Multi-Food Volume Estimation from Monocular Images ​

[59] Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation ​

[60] A Calibrated Memorization Index (MI) for Detecting Training Data Leakage in Generative MRI Models ​

[61] SIEFormer: Spectral-Interpretable and -Enhanced Transformer for Generalized Category Discovery ​

[62] Universal Transformation of One-Class Classifiers for Unsupervised Anomaly Detection ​

[63] Realistic Face Reconstruction from Facial Embeddings via Diffusion Models ​

[64] LongStream: Long-Sequence Streaming Autoregressive Visual Geometry ​

[65] Monocular Markerless Motion Capture Enables Quantitative Assessment of Upper Extremity Reachable Workspace ​

[66] FlexAM: Flexible Appearance-Motion Decomposition for Versatile Video Generation Control ​

[67] CoPE-VideoLM: Codec Primitives For Efficient Video Language Models ​

[68] Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision ​

cs.IR ​

[69] Visual RAG Toolkit: Scaling Multi-Vector Visual Retrieval with Training-Free Pooling and Multi-Stage Search ​

[70] WISE: A Multimodal Search Engine for Visual Scenes, Audio, Objects, Faces, Speech, and Metadata ​

cs.LG ​

[71] TFT-ACB-XML: Decision-Level Integration of Customized Temporal Fusion Transformer and Attention-BiLSTM with XGBoost Meta-Learner for BTC Price Forecasting ​

[72] Flow-Factory: A Unified Framework for Reinforcement Learning in Flow-Matching Models ​

[73] Formalizing the Sampling Design Space of Diffusion-Based Generative Models via Adaptive Solvers and Wasserstein-Bounded Timesteps ​

[74] SLA2: Sparse-Linear Attention with Learnable Routing and QAT ​

[75] X-VORTEX: Spatio-Temporal Contrastive Learning for Wake Vortex Trajectory Forecasting ​

[76] Transporting Task Vectors across Different Architectures without Training ​

[77] Resource-Efficient Gesture Recognition through Convexified Attention ​

cs.CV

[1] Thermal Imaging for Contactless Cardiorespiratory and Sudomotor Response Monitoring

[2] LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens

[3] Synthetic Image Detection with CLIP: Understanding and Assessing Predictive Cues

[4] Reproducing DragDiffusion: Interactive Point-Based Editing with Diffusion Models

[5] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

[6] ZeroDiff++: Substantial Unseen Visual-semantic Correlation in Zero-shot Learning

[7] MonoLoss: A Training Objective for Interpretable Monosemantic Representations

[8] Prototype-driven fusion of pathology and spatial transcriptomics for interpretable survival prediction

[9] Semantic-aware Adversarial Fine-tuning for CLIP

[10] A Lightweight and Explainable DenseNet-121 Framework for Grape Leaf Disease Classification

[11] Human-Like Coarse Object Representations in Vision Models

[12] Insertion Network for Image Sequence Correspondence

[13] Layer-Specific Fine-Tuning for Improved Negation Handling in Medical Vision-Language Models

[14] Matching of SAR and optical images based on transformation to shared modality

[15] LiDAR-Anchored Collaborative Distillation for Robust 2D Representations

[16] Geometric Stratification for Singular Configurations of the P3P Problem via Local Dual Space

[17] Self-Supervised JEPA-based World Models for LiDAR Occupancy Completion and Forecasting

[18] PLLM: Pseudo-Labeling Large Language Models for CAD Program Synthesis

[19] The Constant Eye: Benchmarking and Bridging Appearance Robustness in Autonomous Driving

[20] Unbiased Gradient Estimation for Event Binning via Functional Backpropagation

[21] QuEPT: Quantized Elastic Precision Transformers with One-Shot Calibration for Multi-Bit Switching

[22] Vision Token Reduction via Attention-Driven Self-Compression for Efficient Multimodal Large Language Models

[23] ImageRAGTurbo: Towards One-step Text-to-Image Generation with Retrieval-Augmented Diffusion Models

[24] Multi-Task Learning with Additive U-Net for Image Denoising and Classification

[25] CBEN -- A Multimodal Machine Learning Dataset for Cloud Robust Remote Sensing Image Understanding

[26] IndicFairFace: Balanced Indian Face Dataset for Auditing and Mitigating Geographical Bias in Vision-Language Models

[27] Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening

[28] Channel-Aware Probing for Multi-Channel Imaging

[29] ART3mis: Ray-Based Textual Annotation on 3D Cultural Objects

[30] VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph

[31] SPRig: Self-Supervised Pose-Invariant Rigging from Mesh Sequences

[32] Synthetic Craquelure Generation for Unsupervised Painting Restoration

[33] ReBA-Pred-Net: Weakly-Supervised Regional Brain Age Prediction on MRI

[34] Towards reconstructing experimental sparse-view X-ray CT data with diffusion models

[35] Towards complete digital twins in cultural heritage with ART3mis 3D artifacts annotator

[36] PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

[37] Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting

[38] GSM-GS: Geometry-Constrained Single and Multi-view Gaussian Splatting for Surface Reconstruction

[39] Thinking Like a Radiologist: A Dataset for Anatomy-Guided Interleaved Vision Language Reasoning in Chest X-ray Interpretation

[40] RoadscapesQA: A Multitask, Multimodal Dataset for Visual Question Answering on Indian Roads

[41] RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training

[42] Robustness of Object Detection of Autonomous Vehicles in Adverse Weather Conditions

[43] Adaptive Scaling with Geometric and Visual Continuity of completed 3D objects

[44] Reliable Thinking with Images

[45] EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition

[46] Beyond Benchmarks of IUGC: Rethinking Requirements of Deep Learning Methods for Intrapartum Ultrasound Biometry from Fetal Ultrasound Videos

[47] Deep-Learning Atlas Registration for Melanoma Brain Metastases: Preserving Pathology While Enabling Cohort-Level Analyses

[48] Unleashing MLLMs on the Edge: A Unified Framework for Cross-Modal ReID via Adaptive SVD Distillation

[49] Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding

[50] Detecting Object Tracking Failure via Sequential Hypothesis Testing

[51] MASAR: Motion-Appearance Synergy Refinement for Joint Detection and Trajectory Forecasting

[52] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

[53] Multimodal Classification via Total Correlation Maximization

[54] DynaGuide: A Generalizable Dynamic Guidance Framework for Unsupervised Semantic Segmentation

[55] Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels

[56] FedHENet: A Frugal Federated Learning Framework for Heterogeneous Environments

[57] Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

[58] Implicit-Scale 3D Reconstruction for Multi-Food Volume Estimation from Monocular Images

[59] Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation

[60] A Calibrated Memorization Index (MI) for Detecting Training Data Leakage in Generative MRI Models

[61] SIEFormer: Spectral-Interpretable and -Enhanced Transformer for Generalized Category Discovery

[62] Universal Transformation of One-Class Classifiers for Unsupervised Anomaly Detection

[63] Realistic Face Reconstruction from Facial Embeddings via Diffusion Models

[64] LongStream: Long-Sequence Streaming Autoregressive Visual Geometry

[65] Monocular Markerless Motion Capture Enables Quantitative Assessment of Upper Extremity Reachable Workspace

[66] FlexAM: Flexible Appearance-Motion Decomposition for Versatile Video Generation Control

[67] CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

[68] Conversational Image Segmentation: Grounding Abstract Concepts with Scalable Supervision

cs.IR

[69] Visual RAG Toolkit: Scaling Multi-Vector Visual Retrieval with Training-Free Pooling and Multi-Stage Search

[70] WISE: A Multimodal Search Engine for Visual Scenes, Audio, Objects, Faces, Speech, and Metadata

cs.LG

[71] TFT-ACB-XML: Decision-Level Integration of Customized Temporal Fusion Transformer and Attention-BiLSTM with XGBoost Meta-Learner for BTC Price Forecasting

[72] Flow-Factory: A Unified Framework for Reinforcement Learning in Flow-Matching Models

[73] Formalizing the Sampling Design Space of Diffusion-Based Generative Models via Adaptive Solvers and Wasserstein-Bounded Timesteps

[74] SLA2: Sparse-Linear Attention with Learnable Routing and QAT

[75] X-VORTEX: Spatio-Temporal Contrastive Learning for Wake Vortex Trajectory Forecasting

[76] Transporting Task Vectors across Different Architectures without Training

[77] Resource-Efficient Gesture Recognition through Convexified Attention