每日arXiv - 2026年2月12日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Multi-encoder ConvNeXt Network with Smooth Attentional Feature Fusion for Multispectral Semantic Segmentation

Leo Thomas Ramos,Angel D. Sappa

Main category: cs.CV

TL;DR: MeCSAFNet是一种用于多光谱图像土地覆盖分割的多分支编码器-解码器架构，通过双ConvNeXt编码器分别处理可见光和不可见光通道，采用融合解码器和注意力机制，在多个数据集上显著超越现有方法。

Motivation: 针对多光谱图像土地覆盖分割任务，现有方法在处理不同光谱配置（如RGB+NIR或包含NDVI/NDWI指数）时存在局限性，需要设计能够有效融合多光谱信息并保持高效性的架构。
Method: 提出多分支编码器-解码器架构MeCSAFNet：1）使用双ConvNeXt编码器分别处理可见光和不可见光通道；2）独立解码器重建空间信息；3）专用融合解码器在多尺度上集成中间特征；4）结合CBAM注意力机制增强特征融合；5）采用ASAU激活函数优化训练稳定性；6）支持4通道（RGB+NIR）和6通道（含NDVI/NDWI）输入配置。
Result: 在FBP数据集上，MeCSAFNet-base（6c）相比U-Net（4c）提升19.21% mIoU，相比SegFormer（4c）提升19.62% mIoU；在Potsdam数据集上，MeCSAFNet-large（4c）相比DeepLabV3+（4c）提升6.48% mIoU，相比SegFormer（4c）提升9.11% mIoU。紧凑变体在保持性能的同时显著降低训练时间和推理成本。
Conclusion: MeCSAFNet通过多分支架构和有效的特征融合机制，在多光谱土地覆盖分割任务中取得了显著性能提升，其紧凑变体适合资源受限环境部署，为多光谱图像分析提供了有效的解决方案。

[2] Multimodal Information Fusion for Chart Understanding: A Survey of MLLMs -- Evolution, Limitations, and Cognitive Enhancement

Zhihang Yi,Jian Zhao,Jiancheng Lv,Tao Wang

Main category: cs.CV

TL;DR: 这篇综述系统梳理了基于多模态大语言模型（MLLMs）的图表理解领域，分析了视觉与语言信息融合的挑战，分类了任务与数据集，总结了方法演进，并指出了未来方向。

Motivation: 图表理解是典型的信息融合任务，需要整合图形和文本数据。虽然MLLMs已革新该领域，但相关研究仍分散且缺乏系统性组织。本综述旨在为这一新兴领域提供结构化路线图。
Method: 1. 分析图表中视觉与语言信息融合的基本挑战；2. 分类下游任务和数据集，提出规范与非规范基准的新分类法；3. 全面梳理方法演进，从经典深度学习到最先进的MLLM范式；4. 批判性评估当前模型的局限性。
Result: 建立了图表理解领域的系统框架，揭示了MLLMs在该领域的变革作用，识别了当前模型在感知和推理方面的缺陷，为领域发展提供了结构化理解。
Conclusion: 该综述为研究人员和从业者提供了MLLMs如何变革图表信息融合的结构化理解，旨在推动更鲁棒可靠系统的发展，未来方向包括先进对齐技术和强化学习认知增强。

[3] MPA: Multimodal Prototype Augmentation for Few-Shot Learning

Liwen Wu,Wei Wang,Lei Zhao,Zhan Gao,Qika Lin,Shaowen Yao,Zuozhu Liu,Bin Pu

Main category: cs.CV

TL;DR: MPA是一个新颖的多模态原型增强少样本学习框架，通过语言模型增强语义、多视图增强特征多样性、以及自适应不确定类吸收器来处理少样本学习中的不确定性，在单域和跨域基准测试中显著优于现有方法。

Motivation: 现有少样本学习方法主要关注视觉模态，直接从原始支持图像计算原型，缺乏全面丰富的多模态信息。为了解决这些限制，需要开发能够利用多模态信息并处理不确定性的框架。
Method: 提出MPA框架，包含三个核心组件：1) LLM-based Multi-Variant Semantic Enhancement (LMSE)：利用大语言模型生成多样化的类别描述，丰富支持集的语义信息；2) Hierarchical Multi-View Augmentation (HMA)：利用自然和多视图增强增强特征多样性；3) Adaptive Uncertain Class Absorber (AUCA)：通过插值和高斯采样引入不确定类，有效吸收不确定样本。
Result: 在4个单域和6个跨域少样本学习基准测试中，MPA在大多数设置下都优于现有最先进方法。特别是在5-way 1-shot设置中，MPA在单域和跨域设置中分别比第二好的方法高出12.29%和24.56%。
Conclusion: MPA框架通过有效整合多模态信息和处理不确定性，显著提升了少样本学习的性能，特别是在具有挑战性的跨域场景中，为少样本学习提供了新的研究方向。

[4] VERA: Identifying and Leveraging Visual Evidence Retrieval Heads in Long-Context Understanding

Rongcan Pei,Huan Li,Fang Guo,Qi Zhu

Main category: cs.CV

TL;DR: 论文提出VERA框架，通过识别视觉证据检索头（VER Heads）并利用模型不确定性触发视觉证据显式表达，显著提升视觉语言模型的长上下文理解能力。

Motivation: 视觉语言模型在处理长上下文和复杂推理任务时面临显著挑战，需要深入理解其内部机制和性能瓶颈。
Method: 通过注意力分析识别关键的视觉证据检索头（VER Heads），提出VERA框架：检测模型不确定性（熵）来触发VER头关注的视觉证据的显式表达。
Result: VERA显著提升开源VLM的长上下文理解能力：在Qwen3-VL-8B-Instruct上平均相对提升21.3%，在GLM-4.1V-Thinking上平均提升20.1%（基于五个基准测试）。
Conclusion: VERA框架通过利用视觉证据检索头的发现，无需训练即可有效提升视觉语言模型的长上下文处理能力，为模型理解提供了新视角。

[5] Beyond Closed-Pool Video Retrieval: A Benchmark and Agent Framework for Real-World Video Search and Moment Localization

Tao Yu,Yujia Yang,Haopeng Jin,Junhao Gong,Xinlong Chen,Yuxuan Zhou,Shanbin Zhang,Jiabing Yang,Xinming Wang,Hongzhu Yi,Ping Nie,Kai Zou,Zhang Zhang,Yan Huang,Liang Wang,Yeshani,Ruiwen Tao,Jin Ma,Haijin Liang,Jinwen Luo

Main category: cs.CV

TL;DR: RVMS-Bench是一个评估真实世界视频记忆搜索的基准，包含1440个真实开放网络视频样本，采用分层描述框架模拟多维搜索线索，并提出RACLO框架模拟人类"回忆-搜索-验证"认知过程。

Motivation: 传统视频检索基准专注于精确描述与封闭视频池的匹配，无法反映真实世界中基于模糊、多维记忆的开放网络搜索场景。需要建立更贴近实际应用的评估系统。
Method: 1) 构建RVMS-Bench基准：包含1440个样本，涵盖20个类别和四个时长组，来自真实开放网络视频；采用分层描述框架（全局印象、关键时刻、时间上下文、听觉记忆）；2) 提出RACLO框架：基于溯因推理的智能体框架，模拟人类"回忆-搜索-验证"认知过程。
Result: 实验显示现有多模态大语言模型在基于模糊记忆的真实世界视频检索和时刻定位方面能力不足。RACLO框架能有效应对真实世界中基于模糊记忆的视频搜索挑战。
Conclusion: 这项工作将促进视频检索在真实世界非结构化场景中的鲁棒性发展，为评估和改进视频记忆搜索系统提供了重要基准和方法框架。

[6] AD $^{2}$ : Analysis and Detection of Adversarial Threats in Visual Perception for End-to-End Autonomous Driving Systems

Ishan Sahu,Somnath Hazra,Somak Aditya,Soumyajit Dey

Main category: cs.CV

TL;DR: 该论文对自动驾驶系统在对抗性攻击下的鲁棒性进行了闭环评估，发现现有系统存在严重安全漏洞，并提出了一种基于注意力机制的轻量级攻击检测模型。

Motivation: 端到端自动驾驶系统虽然取得了显著进展，但其对抗鲁棒性尚未得到充分探索。论文旨在评估先进自动驾驶代理在对抗性威胁下的脆弱性，并提出相应的安全防护方案。
Method: 在CARLA仿真环境中对Transfuser和Interfuser两种先进代理进行闭环评估，考虑三种视觉感知攻击向量：基于物理的声波模糊攻击、电磁干扰攻击和数字幽灵对象攻击。同时提出基于注意力机制的AD²攻击检测模型，利用时空一致性特征进行攻击检测。
Result: 实验显示现有自动驾驶代理对对抗性攻击极其脆弱，驾驶评分在最坏情况下下降高达99%。提出的AD²检测器在多摄像头输入的CARLA环境中表现出优异的检测能力和计算效率，优于现有方法。
Conclusion: 自动驾驶系统面临严重的对抗性攻击威胁，现有系统存在重大安全漏洞。提出的AD²检测器为缓解此类威胁提供了有效的轻量级解决方案，强调了自动驾驶安全研究的重要性。

[7] ArtisanGS: Interactive Tools for Gaussian Splat Selection with AI and Human in the Loop

Clement Fuji Tsang,Anita Hu,Or Perel,Carsten Kolve,Maria Shugrina

Main category: cs.CV

TL;DR: 提出一套用于3D高斯溅射场景的交互式选择和分割工具，支持用户引导的2D到3D选择传播，结合AI驱动和手动工具实现灵活分割，并应用于局部编辑任务。

Motivation: 虽然3D高斯溅射表示在物理模拟和动画等应用中越来越受欢迎，但从野外捕获中提取可用对象仍然具有挑战性，且该表示的可控编辑技术有限。现有技术大多专注于自动解决方案或高级编辑，缺乏灵活的用户交互工具。
Method: 开发了一套交互式工具集，包括：1）快速AI驱动方法，将用户引导的2D选择掩码传播到3D高斯溅射选择；2）灵活的手动选择和分割工具；3）用户引导的局部编辑方法，利用定制视频扩散模型。工具支持用户干预错误，无需额外优化即可用于任何野外捕获。
Result: 在3D高斯溅射选择方面与最先进技术进行了评估比较，展示了工具在下游应用中的实用性。通过灵活的选择工具，用户可以精确控制AI修改的区域，实现对非结构化3D高斯溅射场景的几乎任何二进制分割。
Conclusion: 提出的交互式工具集填补了3D高斯溅射表示在用户可控选择和分割方面的空白，为野外捕获提供了无需额外优化的灵活编辑能力，将AI驱动方法与用户控制相结合，实现了更精确的场景操作。

[8] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

Jiacheng Hou,Yining Sun,Ruochong Jin,Haochen Han,Fangming Liu,Wai Kin Victor Chan,Alex Jinpeng Wang

Main category: cs.CV

TL;DR: 论文提出首个视觉到视觉的越狱攻击VJA，通过纯视觉输入传达恶意指令，并创建了安全基准IESBench，同时提出了基于内省多模态推理的无训练防御方法。

Motivation: 大型图像编辑模型从文本驱动转向视觉提示编辑，虽然提升了可用性，但也引入了新的安全风险：攻击面本身变为视觉。当前对这一新兴威胁的研究不足，需要系统性地探索视觉中心越狱攻击及其防御方法。
Method: 提出Vision-Centric Jailbreak Attack (VJA) - 首个视觉到视觉的越狱攻击方法，通过视觉输入传达恶意指令；创建IESBench安全基准用于评估图像编辑模型；提出基于内省多模态推理的无训练防御方法，无需辅助防护模型且计算开销极小。
Result: VJA成功攻击了最先进的商业模型，在Nano Banana Pro上攻击成功率高达80.9%，在GPT-Image-1.5上达到70.1%；提出的防御方法显著提升了未对齐模型的安全性，使其达到与商业系统相当的水平。
Conclusion: 研究揭示了图像编辑模型的新漏洞，提供了基准和实用防御方法，推动安全可信的现代图像编辑系统发展。论文包含大型图像编辑模型生成的冒犯性图像警告。

[9] DEGMC: Denoising Diffusion Models Based on Riemannian Equivariant Group Morphological Convolutions

El Hadji S. Diop,Thierno Fall,Mohamed Daoudi

Main category: cs.CV

TL;DR: 该论文提出了一种结合几何特征提取和网络等变性的改进DDPM方法，通过黎曼流形上的群形态卷积和Hamilton-Jacobi型PDE来增强模型对几何特征和对称性的捕捉能力。

Motivation: 解决当前DDPM模型的两个主要问题：1) 几何关键特征提取不足；2) 网络等变性有限（U-net架构理论上仅具有平移等变性）。需要引入更一般的欧几里得群等变性，包括旋转、反射和置换等对称性。
Method: 引入黎曼流形上的群形态卷积概念，这些卷积来源于一阶Hamilton-Jacobi型偏微分方程的粘性解，作为形态学多尺度膨胀和腐蚀操作。添加对流项并使用特征线法求解，以更好地捕捉非线性、表示薄几何结构，并将对称性融入学习过程。
Result: 在MNIST、RotoMNIST和CIFAR-10数据集上的实验结果显示，相比基线DDPM模型有显著改进。
Conclusion: 通过结合几何方法和欧几里得群等变性，提出的方法有效解决了DDPM在几何特征提取和网络等变性方面的限制，在多个基准数据集上取得了更好的性能。

[10] XSPLAIN: XAI-enabling Splat-based Prototype Learning for Attribute-aware INterpretability

Dominik Galus,Julia Farganus,Tymoteusz Zapala,Mikołaj Czachorowski,Piotr Borycki,Przemysław Spurek,Piotr Syga

Main category: cs.CV

TL;DR: XSPLAIN是首个为3D高斯泼溅分类设计的原型解释框架，通过可逆正交变换保持决策边界，提供基于训练样本的直观解释，显著提升用户信任度。

Motivation: 3D高斯泼溅(3DGS)已成为高保真3D重建的标准，但在多个关键领域应用受限，因为缺乏生成模型的可解释性和泼溅分类的透明度。现有的3D解释方法（如点云）通常依赖模糊的显著性图，无法捕捉高斯基元的体积连贯性。
Method: 采用基于体素聚合的PointNet骨干网络和新型可逆正交变换，该变换在保持原始决策边界的同时解耦特征通道以实现可解释性。解释基于代表性训练样本，实现直观的"这看起来像那"推理。
Result: 严格的用户研究(N=51)显示参与者48.4%的时间选择XSPLAIN作为最佳解释方法，显著优于基线(p<0.001)。该方法在保持分类性能的同时提供了透明度和用户信任。
Conclusion: XSPLAIN是首个专门为3DGS分类设计的原型解释框架，通过可逆正交变换和基于样本的解释，在保持分类性能的同时显著提升了模型透明度和用户信任度。

[11] PMMA: The Polytechnique Montreal Mobility Aids Dataset

Qingwu Liu,Nicolas Saunier,Guillaume-Alexandre Bilodeau

Main category: cs.CV

TL;DR: 提出了一个新的行人辅助工具检测数据集PMMA，包含9类使用轮椅、拐杖、助行器的行人，在户外环境收集，并评估了7种检测模型和3种跟踪算法的性能。

Motivation: 现有行人检测数据集主要关注普通行人，缺乏对使用辅助工具（如轮椅、拐杖、助行器）的行人的专门数据集。这些特殊人群在智能交通系统、无障碍环境监测等应用中具有重要意义，需要专门的数据集来提升检测性能。
Method: 在户外环境中收集志愿者使用轮椅、拐杖、助行器的视频数据，构建包含9个类别的PMMA数据集。使用MMDetection框架实现了7种目标检测模型（Faster R-CNN、CenterNet、YOLOX、DETR、Deformable DETR、DINO、RT-DETR）和3种跟踪算法（ByteTrack、BOT-SORT、OC-SORT）进行基准测试。
Result: 实验结果显示，YOLOX、Deformable DETR和Faster R-CNN取得了最佳的检测性能，而三种跟踪算法之间的差异相对较小。数据集和代码已公开可用。
Conclusion: PMMA数据集填补了行人辅助工具检测领域的空白，为相关研究提供了有价值的基准。公开的数据集和代码将促进该领域的发展，特别是在智能交通和无障碍环境应用方面。

[12] Colorimeter-Supervised Skin Tone Estimation from Dermatoscopic Images for Fairness Auditing

Marin Benčević,Krešimir Romić,Ivana Hartmann Tolić,Irena Galić

Main category: cs.CV

TL;DR: 开发了用于皮肤镜图像的神经网络皮肤类型估计器，填补了皮肤镜数据集中缺乏可靠肤色标注的空白，支持公平性审计。

Motivation: 基于神经网络的皮肤镜图像诊断在临床决策支持中应用日益广泛，但研究表明不同肤色间存在性能差异。由于公共皮肤镜数据集中缺乏可靠的肤色标注，限制了这些模型的公平性审计。
Method: 开发了两种神经网络：通过序数回归预测Fitzpatrick皮肤类型，通过颜色回归预测个体类型角(ITA)。使用现场Fitzpatrick标签和色度计测量作为目标，并在合成和真实的皮肤镜及临床图像上进行广泛的预训练。
Result: Fitzpatrick模型达到与人类众包标注相当的协议水平，ITA预测与色度计测量的ITA高度一致，显著优于像素平均方法。应用于ISIC 2020和MILK10k数据集，发现少于1%的受试者属于Fitzpatrick类型V和VI。
Conclusion: 发布了代码和预训练模型作为开源工具，用于快速肤色标注和偏差审计。这是首个针对色度计测量验证的皮肤镜肤色估计神经网络，支持了跨肤色组存在临床相关性能差距的证据。

[13] ERGO: Excess-Risk-Guided Optimization for High-Fidelity Monocular 3D Gaussian Splatting

Zehua Ma,Hanhui Li,Zhenyu Xie,Xiaonan Luo,Michael Kampffmeyer,Feng Gao,Xiaodan Liang

Main category: cs.CV

TL;DR: ERGO提出了一种基于超额风险分解的自适应优化框架，用于从单张图像生成3D内容，通过动态估计视图特定风险并自适应调整损失权重，有效处理合成视图中的几何不一致和纹理错位问题。

Motivation: 从单张图像生成3D内容是一个病态问题，因为遮挡区域缺乏几何和纹理信息。现有方法通过合成辅助视图提供监督，但这些视图包含几何不一致和纹理错位，会在3D重建过程中传播和放大伪影。
Method: 提出ERGO框架，将3D高斯泼溅的优化损失分解为超额风险（量化当前参数与最优参数之间的次优差距）和贝叶斯误差（建模合成视图中固有的不可约噪声）。通过动态估计视图特定的超额风险来自适应调整损失权重，并引入几何感知和纹理感知目标，建立协同的全局-局部优化范式。
Result: 在Google Scanned Objects和OmniObject3D数据集上的广泛实验表明，ERGO在监督噪声下表现出鲁棒性，同时持续提升重建3D内容的几何保真度和纹理质量，优于现有最先进方法。
Conclusion: ERGO通过超额风险分解的自适应优化框架，有效处理合成视图中的噪声监督信号，显著提升了从单张图像生成3D内容的质量和鲁棒性。

[14] A Low-Rank Defense Method for Adversarial Attack on Diffusion Models

Jiaxuan Zhu,Siyu Huang

Main category: cs.CV

TL;DR: 提出LoRD防御策略，通过低秩适应模块和平衡参数来检测和防御潜在扩散模型中的对抗攻击，确保模型在对抗样本和干净样本上都能生成高质量图像。

Motivation: 随着扩散模型及其微调过程中对抗攻击算法的快速发展，需要开发相应的防御策略来防止这些攻击算法被滥用，影响扩散模型的实际应用。
Method: 提出LoRD防御策略，结合合并思想和平衡参数，利用低秩适应模块来检测和防御对抗样本。基于LoRD构建防御流程，将学习到的LoRD模块应用于帮助扩散模型防御攻击算法。
Result: 在面部和风景图像上进行了大量实验，相比基线方法显示出显著更好的防御性能。LoRD确保在对抗样本和干净样本上微调的LDM仍能生成高质量图像。
Conclusion: LoRD是一种有效的防御策略，能够成功防御潜在扩散模型的对抗攻击，为扩散模型的实际应用提供了安全保障。

[15] Flow Matching with Uncertainty Quantification and Guidance

Juyeop Han,Lukas Lao Beyer,Sertac Karaman

Main category: cs.CV

TL;DR: 提出UA-Flow方法，在流匹配基础上预测速度场和异方差不确定性，通过不确定性评估样本可靠性并指导生成，提升图像生成质量

Motivation: 尽管基于采样的生成模型（如流匹配）取得了显著成功，但它们仍可能产生不一致或质量下降的样本。需要评估样本可靠性并生成更高质量的输出
Method: 提出不确定性感知流匹配（UA-Flow），这是流匹配的轻量级扩展，同时预测速度场和异方差不确定性。通过流动力学传播速度不确定性来估计每个样本的不确定性，并利用不确定性感知分类器引导和无分类器引导来指导生成
Result: 图像生成实验表明，UA-Flow产生的不确定性信号与样本保真度的相关性高于基线方法，且不确定性引导采样进一步提高了生成质量
Conclusion: UA-Flow通过集成不确定性估计，不仅提供了样本可靠性评估，还能主动指导生成过程，实现了更高质量的样本生成

[16] Conditional Uncertainty-Aware Political Deepfake Detection with Stochastic Convolutional Neural Networks

Rafael-Petruţ Gardoş

Main category: cs.CV

TL;DR: 该研究探讨了在政治深度伪造检测中引入不确定性感知的方法，通过随机卷积神经网络和多种不确定性量化技术，为高风险政治环境提供更可靠的检测系统。

Motivation: 生成式图像模型的进步使得政治深度伪造更加逼真，威胁信息完整性、公众信任和民主进程。现有深度伪造检测系统大多只提供点预测，无法指示输出何时不可靠，这在高风险政治环境中是关键的局限性。
Method: 1. 通过确定性元数据过滤从大型公共真实-合成语料库构建政治焦点二元图像数据集；2. 使用两个预训练CNN骨干网络（ResNet-18和EfficientNet-B4）进行完全微调；3. 比较确定性推理与单次随机预测、蒙特卡洛dropout多次前向传播、温度缩放和集成不确定性代理；4. 在经验性、决策导向的可靠性框架内评估不确定性。
Result: 结果显示校准的概率输出和不确定性估计能够实现风险感知的审核策略。系统性的置信带分析进一步阐明了不确定性何时提供超越预测置信度的操作价值，界定了政治环境中不确定性感知深度伪造检测的益处和局限性。
Conclusion: 在政治深度伪造检测中引入不确定性感知和校准的概率输出能够提高系统的可靠性，使高风险决策更加稳健。该方法为政治环境中的深度伪造检测提供了更实用的解决方案，但同时也揭示了不确定性感知方法的局限性。

[17] Monte Carlo Maximum Likelihood Reconstruction for Digital Holography with Speckle

Xi Chen,Arian Maleki,Shirin Jalali

Main category: cs.CV

TL;DR: 提出PGD-MC方法，通过随机线性代数技术实现可扩展的最大似然估计，解决相干成像中斑点噪声问题，无需显式矩阵求逆，支持精确孔径建模。

Motivation: 相干成像中斑点噪声被建模为乘性噪声，给图像重建带来根本性挑战。传统最大似然估计在数字全息等有限孔径系统中面临高维矩阵求逆的计算瓶颈，阻碍了物理精确孔径模型的应用。
Method: 提出投影梯度下降与蒙特卡洛估计(PGD-MC)框架，利用随机线性代数方法避免显式矩阵求逆，通过共轭梯度进行似然梯度评估，利用传感矩阵的结构特性，支持精确孔径建模。
Result: PGD-MC方法：(1)对多样且物理精确的孔径模型具有鲁棒性；(2)在重建质量和计算效率上取得显著提升；(3)能有效扩展到高分辨率数字全息；在准确性和速度上均优于现有Plug-and-Play模型迭代重建方法。
Conclusion: PGD-MC为有限孔径数字全息提供了一个灵活有效的基于最大似然估计的重建框架，克服了传统方法的高计算成本限制，支持精确物理建模，在重建质量和计算效率上均有显著优势。

[18] Comp2Comp: Open-Source Software with FDA-Cleared Artificial Intelligence Algorithms for Computed Tomography Image Analysis

Adrit Rao,Malte Jensen,Andrea T. Fisher,Louis Blankemeier,Pauline Berens,Arash Fereydooni,Seth Lirette,Eren Alkan,Felipe C. Kitamura,Juan M. Zambrano Chaves,Eduardo Reis,Arjun Desai,Marc H. Willis,Jason Hom,Andrew Johnston,Leon Lenchik,Robert D. Boutin,Eduardo M. J. M. Farina,Augusto S. Serpa,Marcelo S. Takahashi,Jordan Perchik,Steven A. Rothenberg,Jamie L. Schroeder,Ross Filice,Leonardo K. Bittencourt,Hari Trivedi,Marly van Assen,John Mongan,Kimberly Kallianos,Oliver Aalami,Akshay S. Chaudhari

Main category: cs.CV

TL;DR: 开发并验证了两个首个完全开源、FDA-510(k)批准的深度学习管道（AAQ和BMD），用于CT扫描的机会性分析，展示了临床可用的准确性。

Motivation: 现有开源影像分析解决方案缺乏严格验证，而商业解决方案缺乏透明度，导致部署时出现意外失败。需要开发既开源又经过FDA批准的透明解决方案。
Method: 开发了Comp2Comp包中的两个深度学习管道：AAQ用于腹主动脉分割评估动脉瘤大小，BMD用于椎体分割评估骨密度和骨质疏松风险。在两个独立数据集上进行了外部验证。
Result: AAQ在258例患者扫描中的平均绝对误差为1.57mm（95% CI 1.38-1.80mm）。BMD在371例患者扫描中的敏感性为81.0%（95% CI 74.0-86.8%），特异性为78.4%（95% CI 72.3-83.7%）。
Conclusion: Comp2Comp AAQ和BMD展示了临床使用的足够准确性。开源这些算法提高了FDA审批过程的透明度，允许医院在繁琐的临床试点前测试算法，并为研究人员提供了最佳方法。

[19] HII-DPO: Eliminate Hallucination via Accurate Hallucination-Inducing Counterfactual Images

Yilin Yang,Zhenghui Guo,Yuke Wang,Omprakash Gnawali,Sheng Di,Chengming Zhang

Main category: cs.CV

TL;DR: 该论文提出了一种通过合成幻觉诱导图像来揭示视觉语言模型中基于语言偏置的幻觉模式，并利用这些图像构建高质量偏好数据集来缓解幻觉问题的方法。

Motivation: 大型视觉语言模型虽然取得了显著成功，但仍然容易受到基于语言偏置的幻觉影响。现有缓解方法往往忽视了由语言偏置驱动的底层幻觉模式，需要更深入的研究来解决这一问题。
Method: 1. 设计新颖的流水线来准确合成幻觉诱导图像；2. 利用合成图像揭示场景条件幻觉模式；3. 建立掩码对象幻觉基准来量化模型易感性；4. 利用幻觉诱导图像构建高质量偏好数据集进行细粒度对齐。
Result: 实验结果表明，该方法能有效缓解幻觉同时保持模型通用能力。在标准幻觉基准上，相比当前最先进方法实现了高达38%的改进。
Conclusion: 通过合成幻觉诱导图像来揭示和量化视觉语言模型的幻觉模式，并利用这些图像进行细粒度对齐，是缓解模型幻觉问题的有效途径，同时能保持模型的通用能力。

[20] Towards Remote Sensing Change Detection with Neural Memory

Zhenyu Yang,Gensheng Pei,Yazhou Yao,Tianfei Zhou,Lizhong Ding,Fumin Shen

Main category: cs.CV

TL;DR: ChangeTitans：首个基于Titans架构的遥感变化检测框架，通过VTitans视觉骨干网络、分层适配器和双流融合模块，在保持计算效率的同时捕获长距离依赖关系，在多个基准数据集上达到SOTA性能。

Motivation: 当前遥感变化检测方法难以同时捕获长距离依赖关系和保持计算效率。Transformer虽然能建模全局上下文，但二次复杂度带来可扩展性挑战，而现有线性注意力方法又经常无法捕捉复杂的时空关系。
Method: 提出ChangeTitans框架：1) VTitans - 首个基于Titans的视觉骨干网络，集成神经记忆和分段局部注意力；2) 分层VTitans-Adapter - 精炼不同网络层的多尺度特征；3) TS-CBAM - 双流融合模块，利用跨时间注意力抑制伪变化。
Result: 在四个基准数据集（LEVIR-CD, WHU-CD, LEVIR-CD+, SYSU-CD）上实现最先进结果，在LEVIR-CD上达到84.36% IoU和91.52% F1分数，同时保持计算竞争力。
Conclusion: ChangeTitans通过结合Titans架构的优势，有效解决了遥感变化检测中长距离依赖建模与计算效率的平衡问题，为相关应用提供了高效准确的解决方案。

[21] End-to-End LiDAR optimization for 3D point cloud registration

Siddhant Katyan,Marc-André Gardner,Jean-François Lalonde

Main category: cs.CV

TL;DR: 提出自适应LiDAR感知框架，动态调整传感器参数，联合优化采集与配准超参数，提高配准精度与效率

Motivation: 传统LiDAR传感器设计与下游任务（如点云配准）独立，固定配置导致数据采集次优、计算开销大，需要采样、噪声过滤和参数调优
Method: 提出自适应LiDAR感知框架，将配准反馈集成到感知循环中，动态调整传感器参数，联合优化LiDAR采集和配准超参数，平衡点密度、噪声和稀疏性
Result: 在CARLA仿真中评估，方法优于固定参数基线，同时保持泛化能力
Conclusion: 自适应LiDAR在自主感知和机器人应用中具有潜力，通过联合优化采集与配准可提高系统性能

[22] Characterizing and Optimizing the Spatial Kernel of Multi Resolution Hash Encodings

Tianxiang Dai,Jonathan Fan

Main category: cs.CV

TL;DR: 该论文从物理系统角度分析多分辨率哈希编码(MHE)，通过点扩散函数(PSF)量化其空间分辨率，发现模型有效分辨率由平均分辨率而非最高分辨率决定，并提出旋转MHE(R-MHE)来减轻各向异性。

Motivation: MHE作为Instant Neural Graphics Primitives的基础技术，虽然功能强大，但其空间行为缺乏从物理系统角度的严谨理解，导致超参数选择依赖启发式方法。需要建立理论框架来理解和优化MHE。
Method: 引入基于点扩散函数(PSF)的分析方法，将PSF视为系统的格林函数。推导碰撞自由PSF的闭式近似，揭示网格诱导的各向异性和对数空间分布。分析有限哈希容量对信噪比的影响，并提出旋转MHE(R-MHE)架构。
Result: 发现理想化空间带宽(半高全宽)由平均分辨率决定，而非最高分辨率；有效分辨率受优化动态导致的展宽效应影响；有限哈希容量会引入散斑噪声并降低信噪比；R-MHE能减轻各向异性同时保持原MHE的效率。
Conclusion: 本研究建立了基于物理原理的方法论，超越了启发式方法，能够表征和优化MHE。提出的R-MHE架构在保持效率和参数数量的同时减轻了各向异性，为神经场参数化提供了理论指导。

[23] The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Suman Kunwar

Main category: cs.CV

TL;DR: 本文介绍了Garbage Dataset (GD)——一个用于自动化垃圾分类的公开图像数据集，包含10类常见生活垃圾的13,348张标注图像，通过多种深度学习方法进行基准测试，EfficientNetV2S模型达到96.19%准确率。

Motivation: 当前缺乏高质量、多样化的公开垃圾图像数据集来支持基于机器学习和计算机视觉的自动化垃圾分类研究，这阻碍了环境可持续发展应用的进展。
Method: 通过DWaste移动应用和网络收集构建包含10类生活垃圾的13,348张图像数据集；采用校验和与异常检测进行数据验证；使用PCA/t-SNE分析视觉可分性；通过熵和显著性测量评估背景复杂度；使用EfficientNetV2M、EfficientNetV2S、MobileNet、ResNet50、ResNet101等深度学习模型进行基准测试，并评估性能指标和碳排放。
Result: EfficientNetV2S模型表现最佳，达到96.19%准确率和0.96 F1分数，但碳排放适中；数据集存在类别不平衡（塑料、纸板、纸张类别占主导）、亮度变化等特征；分析揭示了背景复杂度对分类性能的影响。
Conclusion: GD数据集为垃圾分类研究提供了有价值的真实世界基准，同时突出了类别不平衡、背景复杂性和模型选择中的环境权衡等重要挑战，这些因素在实际部署中必须加以考虑。数据集已公开发布以支持环境可持续发展应用研究。

[24] Med-SegLens: Latent-Level Model Diffing for Interpretable Medical Image Segmentation

Salma J. Ahmed,Emad A. Mohammed,Azam Asilian Bidgoli

Main category: cs.CV

TL;DR: Med-SegLens：一个模型差异分析框架，通过稀疏自编码器将分割模型激活分解为可解释的潜在特征，用于诊断失败、理解数据集偏移并进行干预。

Motivation: 现代分割模型虽然预测性能强，但缺乏可解释性，限制了诊断失败、理解数据集偏移或进行原则性干预的能力。
Method: 使用稀疏自编码器在SegFormer和U-Net上训练，将分割模型激活分解为可解释的潜在特征；通过跨架构和跨数据集的潜在对齐（健康、成人、儿科、撒哈拉以南非洲胶质瘤队列）分析。
Result: 识别出共享表示的稳定骨干，数据集偏移由对特定人群潜在特征的依赖差异驱动；这些潜在特征作为分割失败的因果瓶颈，针对性干预可纠正错误并改善跨数据集适应，无需重新训练，在70%的失败案例中恢复性能，Dice分数从39.4%提高到74.2%。
Conclusion: 潜在级别的模型差异分析为诊断分割模型失败和缓解数据集偏移提供了实用且机制性的工具。

[25] 1%>100%: High-Efficiency Visual Adapter with Complex Linear Projection Optimization

Dongshuo Yin,Xue Yang,Deng-Ping Fan,Shi-Min Hu

Main category: cs.CV

TL;DR: CoLin提出了一种用于视觉基础模型高效适配的复杂线性投影优化适配器，仅需约1%参数即可超越全微调和传统delta-tuning方法。

Motivation: 视觉基础模型部署需要高效适配策略，传统全微调成本过高且效率低下，而delta-tuning在LLMs中的优势无法直接迁移到视觉模型适配中。
Method: 设计了一种新颖的低秩复杂适配器，引入仅约1%参数；理论上证明了低秩复合矩阵在训练中存在严重收敛问题，并通过定制损失函数解决这一挑战。
Result: 在目标检测、分割、图像分类和旋转目标检测（遥感场景）等任务上的大量实验表明，CoLin首次仅用1%参数就超越了全微调和经典delta-tuning方法。
Conclusion: CoLin为视觉基础模型部署提供了一种新颖且高效的解决方案，显著提升了适配效率。

[26] 3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars

Zhongju Wang,Zhenhong Sun,Beier Wang,Yifu Wang,Daoyi Dong,Huadong Mo,Hongdong Li

Main category: cs.CV

TL;DR: 3DXTalker：通过数据增强身份建模、音频丰富表示和空间动态可控性，实现表达性3D说话头像生成

Motivation: 音频驱动的3D说话头像生成在虚拟通信、数字人和交互媒体中越来越重要，但现有方法面临训练数据不足（身份有限）、音频表示狭窄和可控性受限等挑战，难以同时实现身份保持、唇部同步、情感表达和空间动态等表达性目标。
Method: 1) 通过2D到3D数据整理流程和分离表示实现可扩展身份建模；2) 引入帧级振幅和情感线索增强音频表示；3) 使用基于流匹配的transformer统一处理面部动态；4) 支持基于提示的条件控制实现风格化头部姿态运动生成。
Result: 3DXTalker在统一框架中集成了唇部同步、情感表达和头部姿态动态，在3D说话头像生成方面实现了优越性能。
Conclusion: 3DXTalker通过数据增强的身份建模、丰富的音频表示和空间动态可控性，成功解决了表达性3D说话头像生成的关键挑战，为虚拟通信和交互媒体提供了有效的解决方案。

[27] MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps

Sharat Bhat,Harshita Khandelwal,Tushar Kataria,Vivek Gupta

Main category: cs.CV

TL;DR: MapVerse是一个基于真实世界地图的大规模基准测试，包含11,837个人工编写的问题-答案对，涵盖1,025张地图和十个地图类别，用于评估视觉语言模型的地图阅读、解释和多模态推理能力。

Motivation: 当前用于评估视觉语言模型地图推理能力的数据集范围狭窄、局限于特定领域、严重依赖人工生成内容，缺乏对真实地理空间推理的深度评估。现有大型语言模型和视觉语言模型在整合空间关系、视觉线索、现实世界背景和领域专业知识方面仍存在困难。
Method: 构建MapVerse基准测试，基于真实世界地图，包含11,837个人工编写的问题-答案对，涵盖1,025张地图、十个地图类别和多个问题类别。评估十个最先进的模型，进行细粒度分类分析，并研究影响推理结果的视觉因素。
Result: 当前视觉语言模型在分类式任务上表现有竞争力，但开源和闭源模型在需要复杂空间推理的高级任务上都表现不足。基准测试揭示了模型在地图推理方面的具体差距。
Conclusion: MapVerse填补了地图推理评估的空白，为评估模型的地图阅读、解释和多模态推理能力提供了丰富设置。研究揭示了当前模型在复杂空间推理方面的局限性，为未来改进提供了方向。

[28] RealHD: A High-Quality Dataset for Robust Detection of State-of-the-Art AI-Generated Images

Hanzhe Yu,Yun Ye,Jintao Rong,Qi Xuan,Chen Ma

Main category: cs.CV

TL;DR: 提出高质量大规模数据集Real-HD，包含73万张图像，涵盖多种生成方法，用于提升AI生成图像检测模型的泛化能力，并提出基于图像噪声熵的轻量级检测方法。

Motivation: 生成式AI快速发展导致伪造图像风险增加，现有检测数据集存在泛化能力有限、图像质量低、提示词过于简单、图像多样性不足等问题，需要构建更高质量的数据集来提升检测模型的性能。
Method: 1) 构建包含73万张图像的大规模数据集，涵盖真实图像和AI生成图像；2) 生成图像采用多种先进方法：文本到图像生成（使用1万+精心设计的提示词）、图像修复、图像精修、人脸替换；3) 提出基于图像噪声熵的轻量级检测方法，将原始图像转换为非局部均值噪声的熵张量进行分类。
Result: 1) 相比现有数据集，基于Real-HD训练的检测模型展现出更优的泛化能力；2) 提出的噪声熵检测方法具有竞争力；3) 数据集为检测方法评估提供了强基准，推动了AI生成图像检测技术的鲁棒性发展。
Conclusion: Real-HD数据集解决了现有数据集的局限性，显著提升了检测模型的泛化性能，提出的轻量级检测方法为未来研究奠定了坚实基础，公开的数据集和源代码将促进该领域的发展。

[29] Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance

Shengyang Sun,Jiashen Hua,Junyi Feng,Xiaojin Gong

Main category: cs.CV

TL;DR: 提出文本引导的多模态视频异常检测框架，通过上下文学习文本增强和多尺度瓶颈Transformer融合，在UCF-Crime和XD-Violence数据集上取得SOTA性能

Motivation: 弱监督多模态视频异常检测中文本模态潜力未充分挖掘。文本提供显式语义信息，能增强异常表征并减少误报，但现有通用语言模型难以捕捉异常特定细节，且相关描述稀缺。此外，多模态融合存在冗余和失衡问题。
Method: 1) 基于上下文学习的多阶段文本增强机制，生成高质量异常文本样本用于微调文本特征提取器；2) 多尺度瓶颈Transformer融合模块，使用压缩瓶颈token逐步整合跨模态信息，缓解冗余和失衡问题。
Result: 在UCF-Crime和XD-Violence数据集上实现了最先进的性能表现。
Conclusion: 提出的文本引导框架有效解决了文本特征提取和多模态融合的挑战，验证了文本模态在视频异常检测中的重要作用。

[30] C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning

Guanting Ye,Qiyan Zhao,Wenhao Yu,Xiaofeng Zhang,Jianmin Ji,Yanyong Zhang,Ka-Veng Yuen

Main category: cs.CV

TL;DR: C²RoPE：一种改进的旋转位置编码，通过建模局部空间连续性和空间因果关系来解决3D大语言模型中RoPE的局限性

Motivation: 现有3D大语言模型使用RoPE时存在两个问题：1）1D时间位置索引破坏了视觉特征在列维度上的连续性，导致空间局部性损失；2）RoPE基于时间上更接近的图像token在因果上更相关的先验，导致注意力分配的长程衰减，随着序列长度增加，模型逐渐忽略早期视觉token
Method: 提出C²RoPE：1）构建三元组混合位置索引，将1D时间位置与基于笛卡尔坐标的空间坐标结合；2）采用频率分配策略在三个索引组件上编码时空位置信息；3）引入切比雪夫因果掩码，通过计算2D空间中图像token的切比雪夫距离来确定因果依赖关系
Result: 在多个基准测试（包括3D场景推理和3D视觉问答）上的评估结果表明C²RoPE的有效性
Conclusion: C²RoPE通过显式建模局部空间连续性和空间因果关系，解决了传统RoPE在视觉处理中的局限性，为3D大语言模型提供了更好的位置编码方案

[31] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Chenhao Zhang,Yazhe Niu,Hongsheng Li

Main category: cs.CV

TL;DR: MetaphorStar：首个端到端视觉强化学习框架，用于解决图像隐喻理解任务，在图像暗示基准上平均提升82.6%性能，超越主流MLLMs

Motivation: 当前多模态大语言模型在基础视觉问答表现出色，但难以理解图像中蕴含的文化、情感和上下文暗示，需要多跳推理、文化背景和心理理论能力
Method: 提出MetaphorStar框架，包含三个核心组件：细粒度数据集TFQ-Data、视觉强化学习方法TFQ-GRPO、结构化基准TFQ-Bench，采用端到端视觉强化学习
Result: MetaphorStar-32B在多项选择和开放问题中达到SOTA，在判断题上显著超越顶级闭源模型Gemini-3.0-pro，平均性能提升82.6%，且学习图像暗示任务能提升通用理解能力
Conclusion: MetaphorStar有效解决了图像隐喻理解难题，通过系统分析展示了方法的广泛适用性，所有模型权重、数据集和方法代码均已开源

[32] Enhancing Underwater Images via Adaptive Semantic-aware Codebook Learning

Bosen Lin,Feng Gao,Yanwei Yu,Junyu Dong,Qian Du

Main category: cs.CV

TL;DR: SUCode提出了一种基于语义感知离散码本网络的水下图像增强方法，通过语义感知的像素级码本表示来处理水下场景中不同区域的异质退化问题，实现了自适应增强。

Motivation: 水下图像增强是一个不适定问题，缺乏自然干净参考图像，且不同语义区域的退化程度差异显著。现有方法通常使用单一全局模型，忽略了不同场景组件的不一致退化，导致异质水下场景中出现显著颜色失真和细节丢失。
Method: SUCode采用语义感知的离散码本网络，通过三阶段训练范式避免伪地面真值污染。使用门控通道注意力模块（GCAM）和频率感知特征融合（FAFF）联合整合通道和频率线索，实现准确的颜色恢复和纹理重建。
Result: 在多个基准测试上的广泛实验表明，SUCode在参考和无参考指标上都优于最近的水下图像增强方法，达到了最先进的性能。
Conclusion: SUCode通过语义感知的像素级码本表示有效解决了水下图像中异质退化问题，实现了自适应增强，在颜色恢复和细节保留方面表现出色。

[33] Enhancing YOLOv11n for Reliable Child Detection in Noisy Surveillance Footage

Khanh Linh Tran,Minh Nguyen Dang,Thien Nguyen Trong,Hung Nguyen Quoc,Linh Nguyen Kieu

Main category: cs.CV

TL;DR: 基于YOLOv11n架构，提出轻量级儿童检测方案，通过领域特定数据增强和SAHI推理技术，在低质量监控视频中提升儿童检测性能，适合边缘设备部署。

Motivation: 解决现实世界失踪儿童警报和托儿所监控系统中，现有CCTV基础设施因遮挡、小目标、低分辨率、运动模糊和光照不足等挑战导致的儿童检测困难问题。
Method: 基于YOLOv11n架构，引入领域特定数据增强策略（空间扰动和光度退化），并在推理时集成SAHI技术，使用Roboflow Daycare数据集的儿童子集进行训练和评估。
Result: 相比基线YOLOv11n，mAP@0.5达到0.967（提升0.7%），mAP@0.5:0.95达到0.783（提升2.3%），保持实时性能且兼容低功耗边缘设备。
Conclusion: 提出了一种实用轻量的儿童检测方案，在保持边缘设备兼容性的同时显著提升低质量监控视频中的检测性能，适合资源受限的工业监控部署。

[34] Fast Person Detection Using YOLOX With AI Accelerator For Train Station Safety

Mas Nurul Achmadiah,Novendra Setyawan,Achmad Arif Bryantono,Chi-Chia Sun,Wen-Kai Kuo

Main category: cs.CV

TL;DR: 该论文比较了YOLOX目标检测模型在Hailo-8 AI加速器和Jetson Orin Nano上的性能，用于火车站乘客检测应用，结果显示Hailo-8在准确性和延迟方面均优于Jetson Orin Nano。

Motivation: 火车站区域（如黄色警戒线附近）经常发生乘客安全事故，需要开发更先进的安全技术来减少事故。图像处理和目标检测技术在交通领域有广泛应用，特别是在提升安全方面。
Method: 使用YOLOX目标检测模型，在两种边缘AI加速硬件（Hailo-8 AI硬件加速器和Jetson Orin Nano）上实现火车站乘客检测应用，并比较两者的性能。
Result: Hailo-8 AI硬件加速器相比Jetson Orin Nano具有更高的准确性（提升超过12%）和更低的延迟（减少20毫秒）。
Conclusion: Hailo-8 AI加速器在火车站乘客检测应用中表现出更好的性能，为提升交通安全性提供了有效的技术解决方案。

[35] Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Guangjing Yang,ZhangYuan Yu,Ziyuan Qin,Xinyuan Song,Huahui Yi,Qingbo Kang,Jun Gao,Yiyue Li,Chenlin Du,Qicheng Lao

Main category: cs.CV

TL;DR: VRFT-Aug：针对医疗影像的视觉强化微调框架，通过感知增强和推理优化策略提升模型性能

Motivation: 当前基于规则的强化微调方法在跨模态视觉领域，特别是医疗影像领域的应用不足。医疗影像分析需要强大的视觉感知和结构化推理能力，现有方法难以满足这一需求。
Method: 提出VRFT-Aug框架，包含：1）先验知识注入；2）感知驱动的策略优化；3）医学信息奖励塑造；4）行为模仿。这些策略旨在稳定和改善强化微调过程。
Result: 在多个医疗数据集上的实验表明，该方法持续优于标准监督微调和强化微调基线，并为其他医疗图像任务提供了可推广的训练启发式方法。
Conclusion: 该工作为开发可靠、具备推理能力的医疗应用模型提供了实用指导和新的思路，有助于推动高风险医疗应用领域的发展。

[36] A Vision-Language Foundation Model for Zero-shot Clinical Collaboration and Automated Concept Discovery in Dermatology

Siyuan Yan,Xieji Li,Dan Mo,Philipp Tschandl,Yiwen Jiang,Zhonghua Wang,Ming Hu,Lie Ju,Cristina Vico-Alonso,Yizhen Zheng,Jiahe Liu,Juexiao Zhou,Camilla Chello,Jen G. Cheung,Julien Anriot,Luc Thomas,Clare Primiero,Gin Tan,Aik Beng Ng,Simon See,Xiaoying Tang,Albert Ip,Xiaoyang Liao,Adrian Bowling,Martin Haskett,Shuang Zhao,Monika Janda,H. Peter Soyer,Victoria Mar,Harald Kittler,Zongyuan Ge

Main category: cs.CV

TL;DR: DermFM-Zero是一个皮肤科视觉语言基础模型，通过零样本学习在20个基准测试中达到最先进性能，并在涉及1100多名临床医生的多国研究中显著提升诊断准确性。

Motivation: 当前医疗基础模型在受控基准测试中表现良好，但广泛部署受到任务特定微调需求的阻碍。需要开发能够零样本工作、无需任务特定适应的模型来推动临床应用。
Method: 使用掩码潜在建模和对比学习在超过400万个多模态数据点上训练皮肤科视觉语言基础模型DermFM-Zero。通过稀疏自编码器无监督地解缠临床有意义的概念。
Result: 在20个零样本诊断和多模态检索基准测试中达到最先进性能。在三个多国读者研究中：1) 全科医生诊断准确率几乎翻倍；2) 在皮肤癌评估中显著优于认证皮肤科医生；3) 非专家在AI协助下超越未协助的专家。模型表示具有可解释性，能够抑制伪影引起的偏倚。
Conclusion: DermFM-Zero证明基础模型能够提供有效、安全且透明的零样本临床决策支持，无需任务特定适应即可部署，推动了医疗AI的实际应用。

[37] Eliminating VAE for Fast and High-Resolution Generative Detail Restoration

Yan Wang,Shijie Zhao,Junlin Li,Li Zhang

Main category: cs.CV

TL;DR: GenDR-Pix通过消除VAE瓶颈，使用像素重排操作和多阶段对抗蒸馏，实现了2.8倍加速和60%内存节省，能在1秒内恢复4K图像

Motivation: 扩散模型在真实世界超分辨率任务中表现出色，但推理速度慢且设备需求高。现有方法如GenDR通过步数蒸馏减少推理步骤，但VAE仍然是延迟和内存的瓶颈，限制了处理高分辨率图像的能力。
Method: 1) 使用像素重排操作消除VAE，将潜在空间的GenDR转换为像素空间的GenDR-Pix；2) 提出多阶段对抗蒸馏逐步移除编码器和解码器，利用前一阶段模型的生成特征指导对抗判别；3) 引入随机填充增强生成特征，避免判别器崩溃；4) 提出掩码傅里叶空间损失惩罚幅度异常值；5) 集成基于填充的自集成和分类器无关引导改进推理缩放。
Result: GenDR-Pix相比GenDR实现了2.8倍加速和60%内存节省，视觉质量下降可忽略。能在仅1秒和6GB内存内恢复4K图像，性能优于其他一步扩散超分辨率方法。
Conclusion: 通过消除VAE瓶颈并采用像素空间方法，GenDR-Pix显著提升了扩散模型在超分辨率任务中的推理效率和内存使用，实现了快速高质量的高分辨率图像恢复。

[38] VideoSTF: Stress-Testing Output Repetition in Video Large Language Models

Yuxin Cao,Wei Song,Shangzhi Xu,Jingling Xue,Jin Song Dong

Main category: cs.CV

TL;DR: VideoSTF：首个系统测量视频大语言模型输出重复问题的框架，发现现有VideoLLMs普遍存在严重输出重复问题，且对视频时间扰动高度敏感

Motivation: 现有VideoLLMs在视频理解任务中表现良好，但存在未充分探索的生成失败模式：严重输出重复，模型会陷入自我强化的重复短语或句子循环。现有基准主要关注任务准确性和事实正确性，无法捕捉这种重复问题
Method: 提出VideoSTF框架，使用三种互补的n-gram指标形式化重复问题，提供包含10,000个多样化视频的标准测试平台和受控时间变换库。对10个先进VideoLLMs进行普遍测试、时间压力测试和对抗性利用
Result: 发现输出重复问题普遍存在，且对视频输入的时间扰动高度敏感。简单的时间变换就能在黑盒设置中有效诱导重复退化，暴露输出重复作为可利用的安全漏洞
Conclusion: 输出重复是现代VideoLLMs的基本稳定性问题，需要稳定性感知的视频语言系统评估。VideoSTF为系统测量和压力测试VideoLLMs输出重复提供了首个框架

[39] Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation

Yin Wang,Ziyao Zhang,Zhiying Leng,Haitian Liu,Frederick W. B. Li,Mu Li,Xiaohui Liang

Main category: cs.CV

TL;DR: MP-HOI：基于多模态先验和级联扩散的文本驱动3D人-物交互运动生成框架，解决现有方法在人体运动、物体运动和交互质量方面的局限性。

Motivation: 现有文本驱动3D人-物交互运动生成方法主要依赖直接的文本到HOI映射，由于显著的跨模态差距存在三个关键问题：次优的人体运动、不自然的物体运动、以及人与物体之间较弱的交互。需要解决这些跨模态挑战。
Method: 提出MP-HOI框架，包含四个核心设计：(1) 利用大型多模态模型的多模态数据（文本、图像、姿态/物体）作为先验指导HOI生成；(2) 改进物体表示，加入几何关键点、接触特征和动态属性；(3) 提出模态感知的混合专家模型进行多模态特征融合；(4) 设计级联扩散框架，在专门监督下逐步细化人-物交互特征。
Result: 综合实验表明，MP-HOI在生成高保真度和细粒度的人-物交互运动方面优于现有方法。
Conclusion: MP-HOI通过多模态数据先验、增强的物体表示、模态感知的混合专家模型和级联扩散框架，有效解决了文本驱动3D人-物交互运动生成中的关键挑战，实现了更优的生成质量。

[40] AurigaNet: A Real-Time Multi-Task Network for Enhanced Urban Driving Perception

Kiarash Ghasemzadeh,Sedigheh Dehghani

Main category: cs.CV

TL;DR: AurigaNet是一个用于自动驾驶感知的多任务网络，在BDD100K数据集上实现了物体检测、车道检测和可行驶区域实例分割，各项指标均优于现有模型。

Motivation: 自动驾驶汽车有潜力减少交通事故和缓解拥堵，但开发可靠的AI系统仍面临挑战。多任务学习能提高计算效率、实时处理能力和泛化性能，因此需要设计先进的多任务网络来提升自动驾驶感知能力。
Method: 提出AurigaNet多任务网络架构，集成物体检测、车道检测和可行驶区域实例分割三个关键任务。采用端到端的实例分割能力，在BDD100K数据集上进行训练和评估，并在Jetson Orin NX等嵌入式设备上部署验证实时性能。
Result: AurigaNet在可行驶区域分割达到85.2% IoU（优于最接近的竞争者0.7%），车道检测达到60.8% IoU（优于其他模型30%以上），交通物体检测达到47.6% mAP@0.5:0.95（优于领先模型2.9%）。在嵌入式设备上展示了具有竞争力的实时性能。
Conclusion: AurigaNet证明了作为自动驾驶感知系统强大而高效解决方案的潜力，其多任务架构在精度和效率方面均表现出色，为实际部署提供了可行性验证。

[41] Dynamic Frequency Modulation for Controllable Text-driven Image Generation

Tiandong Shi,Ling Zhao,Ji Qi,Jiayi Ma,Chengli Peng

Main category: cs.CV

TL;DR: 提出基于频率视角的训练免费方法，通过动态衰减的频率相关加权函数调节噪声潜在变量，在保持结构框架一致的同时实现目标语义修改，避免特征图经验选择问题。

Motivation: 现有文本引导扩散模型在修改原始文本提示以实现预期语义调整时，往往导致意外的全局结构变化，破坏用户意图。现有方法依赖经验性的特征图选择进行干预，其性能严重依赖于适当选择，导致稳定性不佳。
Method: 从频率视角分析噪声潜在变量的频谱对生成过程中层次化结构框架和细粒度纹理的影响，发现低频分量在早期生成阶段主要负责建立结构框架。提出训练免费的频率调制方法，使用具有动态衰减的频率相关加权函数，直接操作噪声潜在变量，避免内部特征图的经验选择。
Result: 大量实验表明，该方法显著优于当前最先进方法，在保持结构和实现语义更新之间实现了有效平衡。
Conclusion: 通过频率视角分析生成过程中的层次化结构形成机制，提出的训练免费频率调制方法能够有效解决文本引导扩散模型中语义修改与结构保持的平衡问题，避免了对特征图选择的经验依赖。

[42] AMAP-APP: Efficient Segmentation and Morphometry Quantification of Fluorescent Microscopy Images of Podocytes

Arash Fatehi,David Unnersjö-Jess,Linus Butt,Noémie Moreau,Thomas Benzing,Katarzyna Bozek

Main category: cs.CV

TL;DR: AMAP-APP是一个跨平台桌面应用，通过优化算法将足细胞形态分析速度提升147倍，同时保持与原方法高度相关性和统计等效性，解决了原AMAP方法计算需求高、缺乏用户界面和Linux依赖的问题。

Motivation: 原AMAP方法存在三大障碍：计算需求高、缺乏用户界面、仅支持Linux系统，限制了其在肾脏研究中的广泛应用。需要开发一个更易用、高效且跨平台的解决方案。
Method: 1) 用经典图像处理替代计算密集的实例分割，保留原始语义分割模型；2) 引入改进的感兴趣区域(ROI)算法提高精度；3) 使用365张小鼠和人类图像（STED和共聚焦）进行验证，通过皮尔逊相关性和双侧单样本t检验(TOST)与原AMAP方法进行性能对比。
Result: 1) 处理速度提升147倍；2) 形态测量输出（面积、周长、圆形度、裂孔隔膜密度）与原方法高度相关(r>0.90)且统计等效(TOST P<0.05)；3) 新ROI算法比原方法更准确，与手动描绘的偏差更小。
Conclusion: AMAP-APP通过消除对高性能计算集群的需求，为Windows、macOS和Linux提供用户友好界面，实现了深度学习足细胞形态测量的普及化，有望在肾脏病学研究和潜在临床诊断中得到广泛应用。

[43] TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning

Junhua Liu,Zhangcheng Wang,Zhike Han,Ningli Wang,Guotao Liang,Kun Kuang

Main category: cs.CV

TL;DR: 提出了首个大规模时序视觉思维链数据集TwiFF-2.7M和评估基准TwiFF-Bench，并开发了TwiFF模型，在动态视觉推理任务上显著优于现有方法。

Motivation: 现有视觉思维链方法主要局限于静态场景，难以捕捉时序动态信息，而动态视觉推理对于指令理解、预测和相机运动等任务至关重要。
Method: 1) 构建TwiFF-2.7M数据集：从270万视频片段提取的大规模时序视觉思维链数据集；2) 创建TwiFF-Bench评估基准：1078个样本评估推理轨迹合理性和答案正确性；3) 提出TwiFF模型：结合预训练视频生成和图像理解能力，迭代生成未来动作帧和文本推理。
Result: TwiFF在动态推理任务上显著优于现有视觉思维链方法和文本思维链基线，验证了在动态场景中视觉问答的有效性。
Conclusion: 该研究填补了时序视觉思维链的空白，通过大规模数据集、评估基准和统一模型，为动态视觉推理提供了有效解决方案，推动了多模态推理在动态场景中的应用。

[44] OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL

Jinjie Shen,Jing Wu,Yaxiong Wang,Lechao Cheng,Shengeng Tang,Tianrui Hui,Nan Pu,Zhun Zhong

Main category: cs.CV

TL;DR: 提出OmniVL-Guard框架，通过平衡强化学习解决多模态伪造检测与定位中的"难度偏差"问题，实现跨模态伪造内容检测与定位的统一方法。

Motivation: 现有伪造检测方法局限于单模态或双模态设置，无法处理真实世界虚假信息中交织的文本、图像和视频。多模态交互以及同时进行检测和定位的双重需求导致了"难度偏差"问题：较简单的真实性分类任务倾向于主导梯度，导致多任务优化中细粒度定位性能不佳。
Method: 提出OmniVL-Guard框架，包含两个核心设计：1) 自演化思维链生成：合成高质量推理路径，有效克服冷启动挑战；2) 自适应奖励缩放策略优化：动态调整奖励尺度和任务权重，确保平衡的联合优化。
Result: 大量实验表明，OmniVL-Guard显著优于最先进的方法，并在跨域场景中展现出零样本鲁棒泛化能力。
Conclusion: 该研究提出了一个统一的框架来解决多模态伪造检测与定位中的关键挑战，通过平衡强化学习方法有效解决了"难度偏差"问题，为处理真实世界中的多模态虚假信息提供了有效解决方案。

[45] AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models

Zhifeng Rao,Wenlong Chen,Lei Xie,Xia Hua,Dongfu Yin,Zhen Tian,F. Richard Yu

Main category: cs.CV

TL;DR: 提出一个整合深度估计的VLA框架，通过VGGT从RGB图像提取3D几何特征，并引入动作助手模块用动作先验约束3D表示，提升机器人感知和控制性能。

Motivation: 现有VLA模型主要基于2D图像训练，限制了在复杂3D环境中的空间理解和动作定位能力，需要增强3D特征表示。
Method: 1) 使用VGGT深度估计基线从RGB输入提取几何感知的3D线索；2) 引入动作助手模块，用动作先验约束学习到的3D表示；3) 将增强的3D特征与传统2D视觉token融合。
Result: 实验表明该方法不仅增强了在几何模糊场景中的感知能力，还提高了动作预测准确性，显著提升了VLA模型的泛化能力和鲁棒性。
Conclusion: 深度驱动的数据增强和辅助专家监督有潜力弥合机器人系统中2D观测与3D感知决策之间的差距，为VLA模型提供更丰富的3D特征表示。

[46] (MGS) $^{2}$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

Minglei Li,Mengfan He,Chao Chen,Ziyang Meng

Main category: cs.CV

TL;DR: 提出(MGS)²框架，通过几何基础方法解决跨视角地理定位中几何不对齐问题，在University-1652和SUES-200数据集上达到SOTA性能。

Motivation: 现有跨视角地理定位方法主要在2D流形上操作，忽略了3D几何结构，导致倾斜航拍视图与正射卫星参考之间的几何不对齐问题，特别是垂直立面（宏观结构）和尺度变化（微观尺度）会严重破坏特征对齐。
Method: 提出(MGS)²框架，包含三个核心模块：1) 宏观几何结构过滤(MGSF)模块，利用扩张几何梯度物理过滤高频立面伪影；2) 微观几何尺度适应(MGSA)模块，利用深度先验动态校正尺度差异；3) 几何-外观对比蒸馏(GACD)损失，严格区分倾斜遮挡。
Result: 在University-1652数据集上Recall@1达到97.5%，在SUES-200数据集上达到97.02%，表现出最先进的性能，并在跨数据集泛化方面优于现有方法。
Conclusion: (MGS)²框架通过几何基础方法有效解决了跨视角地理定位中的几何不对齐问题，在多个数据集上实现了SOTA性能，并展现出良好的泛化能力。

[47] FGAA-FPN: Foreground-Guided Angle-Aware Feature Pyramid Network for Oriented Object Detection

Jialin Ma

Main category: cs.CV

TL;DR: FGAA-FPN是一种用于定向目标检测的前景引导角度感知特征金字塔网络，通过前景引导特征调制和角度感知多头注意力模块，在DOTA数据集上取得了最先进的性能。

Motivation: 随着高分辨率遥感影像的普及，定向目标检测在GIS更新、海洋监视和灾害响应中变得至关重要。然而，现有方法存在背景杂乱、尺度变化大、方向变化显著等问题，且缺乏明确的前景建模和几何方向先验利用，限制了特征判别能力。
Method: 提出FGAA-FPN，基于层次功能分解构建特征金字塔网络。包含两个核心模块：1) 前景引导特征调制模块，在弱监督下学习前景显著性，增强低层特征中的目标区域并抑制背景干扰；2) 角度感知多头注意力模块，编码相对方向关系以指导高层语义特征的全局交互。
Result: 在DOTA v1.0和DOTA v1.5数据集上的实验表明，FGAA-FPN分别达到了75.5%和68.3%的mAP，取得了最先进的性能。
Conclusion: FGAA-FPN通过前景引导和角度感知机制有效解决了定向目标检测中的挑战，显著提升了检测性能，为遥感影像分析提供了有效的解决方案。

[48] Ecological mapping with geospatial foundation models

Craig Mahlasi,Gciniwe S. Baloyi,Zaheed Gaffoor,Levente Klein,Anne Jones,Etienne Vos,Michal Muszynski,Geoffrey Dawson,Campbell Watson

Main category: cs.CV

TL;DR: 该研究探索了地理空间基础模型在生态应用中的效用，通过微调Prithvi-E0-2.0和TerraMind模型，在三个用例中表现均优于基线ResNet-101模型，其中TerraMind在加入额外模态时表现最佳。

Motivation: 地理空间基础模型在生态应用中的潜力尚未充分探索，本研究旨在评估这些模型在生态用途中的实际效用、挑战和机遇。
Method: 微调预训练AI模型（Prithvi-E0-2.0和TerraMind），在三个生态用例中与基线ResNet-101模型进行比较，包括土地利用/土地覆盖生成、森林功能性状制图和泥炭地检测。
Result: 在所有实验中，地理空间基础模型都优于基线ResNet模型；TerraMind整体略优于Prithvi，但在加入额外模态时显著优于所有对比模型；模型性能受输入数据与预训练模态差异的影响。
Conclusion: 地理空间基础模型在生态应用中具有显著优势，但需要考虑输入数据与预训练模态的差异；更高分辨率和更准确的标签将进一步提升模型性能，特别是在需要像素级动态制图的应用中。

[49] A Diffusion-Based Generative Prior Approach to Sparse-view Computed Tomography

Davide Evangelista,Pasquale Cascarano,Elena Loli Piccolomini

Main category: cs.CV

TL;DR: 该论文提出了一种基于深度生成先验（DGP）框架的CT图像重建方法，将扩散生成模型与迭代优化算法相结合，用于从稀疏几何采集的正弦图中重建CT图像，在保持模型可解释性的同时引入神经网络的生成能力。

Motivation: 稀疏或有限角度几何的X射线CT图像重建是一个极具挑战性的任务，数据缺失通常会导致重建图像中出现伪影甚至物体变形。因此，在此背景下使用深度生成模型具有重要价值和潜在成功。
Method: 采用深度生成先验（DGP）框架，将基于扩散的生成模型与迭代优化算法相结合，用于从稀疏几何采集的正弦图中重建CT图像。论文对现有方法进行了改进，包括图像生成、模型和求解最小化问题的迭代算法等方面。
Result: 即使在高度稀疏的几何条件下，获得的结果也非常有前景，重建质量得到改善，但该方向仍需要进一步研究。
Conclusion: 深度生成先验框架结合扩散生成模型和迭代优化算法，为稀疏几何CT图像重建提供了有前景的解决方案，在保持模型可解释性的同时提升了生成能力，但需要进一步研究来改进重建质量。

[50] OccFace: Unified Occlusion-Aware Facial Landmark Detection with Per-Point Visibility

Xinhao Xiang,Zhengxin Li,Saurav Dhakad,Theo Bancroft,Jiawei Zhang,Weiyang Li

Main category: cs.CV

TL;DR: OccFace是一个遮挡感知的人脸关键点检测框架，采用统一的100点布局和热图骨干网络，联合预测关键点坐标和每点可见性，在遮挡和头部大旋转情况下表现更鲁棒。

Motivation: 现有的人脸关键点检测器通常在处理遮挡时是隐式的，不预测每个点的可见性，而下游应用可以从可见性信息中受益。特别是在具有大外观变化和旋转驱动自遮挡的人脸中，遮挡下的准确检测仍然具有挑战性。
Method: OccFace采用统一的密集100点布局和基于热图的骨干网络，添加遮挡模块联合预测关键点坐标和每点可见性，通过结合局部证据和跨关键点上下文。可见性监督混合了手动标签和关键点感知掩码，从掩码-热图重叠中推导伪可见性。
Result: 实验显示在外部遮挡和大头部旋转下具有改进的鲁棒性，特别是在遮挡区域，同时在可见关键点上保持准确性。还创建了遮挡感知评估套件和带有100点关键点及每点可见性标注的数据集。
Conclusion: OccFace提供了一个有效的遮挡感知框架，能够联合预测关键点坐标和可见性，在遮挡情况下表现更鲁棒，为下游应用提供有价值的可见性信息。

[51] Self-Supervised Image Super-Resolution Quality Assessment based on Content-Free Multi-Model Oriented Representation Learning

Kian Majlessi,Amir Masoud Soltani,Mohammad Ebrahim Mahdavi,Aurelien Gourrier,Peyman Adibi

Main category: cs.CV

TL;DR: 提出S3 RIQA方法，针对真实世界低分辨率图像超分辨率后的质量评估问题，通过自监督对比学习SR模型导向表示，结合预处理和辅助任务，在真实SR-IQA基准上优于现有方法。

Motivation: 真实世界低分辨率图像的超分辨率会产生复杂、不规则的退化，与合成LR图像的SR伪影不同，这些失真高度不可预测且随场景变化。评估真实LR图像超分辨率后的质量（SR-IQA）是一个具有挑战性且未充分探索的问题。
Method: 提出S3 RIQA方法：1）自监督对比学习框架，以相同SR模型生成的图像为正对，不同方法生成的图像为负对；2）针对性预处理提取补充质量信息；3）辅助任务处理不同SR缩放因子的退化特征；4）构建SRMORSS数据集支持无监督预训练。
Result: 在真实SR-IQA基准测试中，S3 RIQA方法一致优于大多数最相关的现有指标。
Conclusion: 该方法为高度不适定的真实世界SR应用提供了领域自适应的无参考IQA解决方案，特别适用于数据稀缺领域，通过SR模型导向表示有效处理真实SR图像的复杂退化。

[52] Spectral-Spatial Contrastive Learning Framework for Regression on Hyperspectral Data

Mohamad Dhaini,Paul Honeine,Maxime Berar,Antonin Van Exem

Main category: cs.CV

TL;DR: 提出用于高光谱数据回归任务的谱-空间对比学习框架，可增强3D卷积和Transformer等骨干网络性能

Motivation: 对比学习在图像分类任务中表现出色，但在回归任务特别是高光谱数据应用方面研究不足，需要专门针对高光谱回归任务的对比学习方法
Method: 提出模型无关的谱-空间对比学习框架，包含专门针对高光谱数据的增强变换集合，可增强3D卷积和Transformer等骨干网络
Result: 在合成和真实数据集上的实验表明，所提框架和变换显著提升了所有研究的骨干模型性能
Conclusion: 该研究填补了对比学习在高光谱回归任务中的空白，提出的框架和变换方法有效提升了模型性能，具有实际应用价值

[53] Text-to-Vector Conversion for Residential Plan Design

Egor Bazhenov,Stepan Kasai,Viacheslav Shalamov,Valeria Efimova

Main category: cs.CV

TL;DR: 本文提出了一种从文本描述生成矢量住宅平面图的新方法，以及将栅格平面图矢量化成结构化矢量图像的新算法，在视觉质量上分别比现有方案提升约5%和4%。

Motivation: 矢量图形具有可缩放不失真的优势，在设计和建筑领域至关重要，但制作复杂。现有方法在生成高质量矢量住宅平面图方面存在不足，需要更有效的文本到矢量生成和栅格到矢量转换方法。
Method: 1. 提出从文本描述生成矢量住宅平面图的新方法，利用对直角和灵活设置的固有处理能力；2. 提出将栅格平面图矢量化成结构化矢量图像的新算法。
Result: 1. 文本到矢量生成方法在CLIPScore视觉质量上比现有方案提升约5%；2. 矢量化算法生成的图像在CLIPScore上比其他方法提升约4%。
Conclusion: 该方法在矢量住宅平面图生成和矢量化方面取得了显著改进，为设计和建筑领域提供了更高质量的矢量图形生成工具。

[54] Dual-End Consistency Model

Linwei Dong,Ruoyu Guo,Ge Bai,Zehuan Yuan,Yawei Luo,Changqing Zou

Main category: cs.CV

TL;DR: 提出Dual-End Consistency Model (DE-CM)，通过选择关键子轨迹簇解决一致性模型训练不稳定和采样不灵活问题，在ImageNet 256×256上实现1.70 FID的单步生成SOTA性能。

Motivation: 扩散和流基生成模型的迭代采样速度慢是实际部署的主要瓶颈。一致性模型(CMs)作为高效的蒸馏方法，仍受限于训练不稳定和采样不灵活两大问题。现有方法通过架构调整或正则化目标缓解问题，但忽略了轨迹选择的关键作用。
Method: 提出Dual-End Consistency Model (DE-CM)：1) 分解PF-ODE轨迹，选择三个关键子轨迹作为优化目标；2) 利用连续时间CMs目标实现少步蒸馏，使用流匹配作为边界正则器稳定训练；3) 提出噪声到噪声(N2N)映射，可将噪声映射到任意点，缓解第一步误差累积。
Result: 在ImageNet 256×256数据集上实现单步生成的SOTA FID分数1.70，优于现有的基于CM的单步方法。
Conclusion: DE-CM通过选择关键子轨迹簇解决了CMs的训练不稳定和采样不灵活问题，实现了稳定有效的训练和高质量的快速生成，为高效生成模型的部署提供了新思路。

[55] From Steering to Pedalling: Do Autonomous Driving VLMs Generalize to Cyclist-Assistive Spatial Perception and Planning?

Krishna Kanth Nakka,Vedasri Nakka

Main category: cs.CV

TL;DR: 提出了CyclingVQA基准，用于评估视觉语言模型从骑行者视角的感知和推理能力，发现当前模型在骑行者中心理解方面仍有改进空间

Motivation: 骑行者常面临城市交通中的安全关键情况，需要辅助系统支持安全决策。现有视觉语言模型评估主要关注车辆中心视角，缺乏对骑行者视角的评估
Method: 引入CyclingVQA诊断基准，评估31+个近期视觉语言模型（包括通用、空间增强和自动驾驶专用模型）在骑行者视角下的感知、时空理解和交通规则推理能力
Result: 当前模型显示出有希望的能力，但在骑行者中心感知和推理方面仍有明显改进空间，特别是在解释骑行者特定交通信号和将标志与正确导航车道关联方面。一些驾驶专用模型表现不如通用模型，表明车辆中心训练向骑行者辅助场景的迁移有限
Conclusion: 通过系统错误分析识别了常见失败模式，为开发更有效的骑行者辅助智能系统提供了指导方向

[56] RSHallu: Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation

Zihui Zhou,Yong Feng,Yanying Chen,Guofan Duan,Zhenxi Song,Mingliang Zhou,Weijia Jia

Main category: cs.CV

TL;DR: 该论文提出了RSHallu，一个针对遥感多模态大语言模型幻觉问题的系统性研究，包括定义遥感幻觉分类、构建评估基准和提出缓解策略。

Motivation: 遥感多模态大语言模型在遥感视觉定位、视觉问答等任务中表现出色，但幻觉问题（响应与输入遥感图像不一致）严重阻碍了其在应急管理、农业监测等高风险场景的部署，且该问题在遥感领域尚未得到充分研究。
Method: 1) 形式化遥感幻觉并建立遥感导向的分类法，引入图像级幻觉来捕捉遥感特有的不一致性；2) 构建幻觉基准RSHalluEval（2,023个QA对）并支持双模式检查；3) 创建领域定制数据集RSHalluShield（30k QA对）用于训练友好型缓解，并提出无需训练的即插即用策略，包括解码时对数校正和遥感感知提示。
Result: 在代表性遥感MLLMs上，提出的缓解策略在统一协议下将无幻觉率提高了高达21.63个百分点，同时在遥感视觉问答和视觉定位等下游任务上保持了有竞争力的性能。
Conclusion: RSHallu为遥感多模态大语言模型的幻觉问题提供了系统性解决方案，包括定义、评估和缓解策略，有助于推动遥感MLLMs在高风险场景中的可靠部署。

[57] DMP-3DAD: Cross-Category 3D Anomaly Detection via Realistic Depth Map Projection with Few Normal Samples

Zi Wang,Katsuya Hotta,Koichiro Kamide,Yawen Zou,Jianjian Qin,Chao Zhang,Jun Yu

Main category: cs.CV

TL;DR: 提出DMP-3DAD：基于多视角真实深度图投影的无训练跨类别3D点云异常检测框架，无需微调即可实现少样本场景下的异常检测

Motivation: 现有3D点云异常检测方法大多依赖类别特定训练，在少样本场景下灵活性受限，需要一种无需训练即可适应新类别的跨类别检测方法
Method: 将点云转换为固定数量的真实深度图像，利用冻结的CLIP视觉编码器提取多视角特征表示，通过加权特征相似度进行异常检测，无需微调或类别适应
Result: 在ShapeNetPart数据集上的实验表明，DMP-3DAD在少样本设置下达到了最先进的性能
Conclusion: 该方法为实际跨类别3D异常检测提供了一个简单而有效的解决方案

[58] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Chenlong Deng,Mengjie Deng,Junjie Wu,Dun Zeng,Teng Wang,Qingsong Xie,Jiadeng Huang,Shengjie Ma,Changwang Zhang,Zhaoxiang Wang,Jun Wang,Yutao Zhu,Zhicheng Dou

Main category: cs.CV

TL;DR: DeepImageSearch提出了一种新的代理范式，将图像检索重新定义为自主探索任务，要求模型在原始视觉历史中进行多步推理，并构建了DISBench基准测试来评估这种能力。

Motivation: 现有多模态检索系统擅长语义匹配，但假设查询-图像相关性可以孤立测量。这种范式忽略了现实视觉流中丰富的依赖关系，其中信息分布在时间序列中而非局限于单个快照。
Method: 1) 引入DeepImageSearch代理范式，将图像检索重新定义为自主探索任务；2) 构建DISBench基准测试，基于互连视觉数据；3) 提出人-模型协作流程，使用视觉语言模型挖掘潜在时空关联；4) 构建模块化代理框架，配备细粒度工具和双记忆系统。
Result: DISBench对最先进模型构成了显著挑战，实验表明现有模型难以处理这种上下文依赖的检索任务，突显了在下一代检索系统中融入代理推理的必要性。
Conclusion: 该工作通过引入代理范式重新定义了图像检索，强调了在现实视觉流中进行多步推理的重要性，为下一代检索系统的发展提供了新方向。

[59] Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training

Aojun Lu,Tao Feng,Hangjie Yuan,Wei Li,Yanan Sun

Main category: cs.CV

TL;DR: 论文提出数据难度是影响视觉语言模型OOD泛化的关键因素，通过难度筛选的SFT方法（DC-SFT）能超越RL训练的性能，同时更稳定高效。

Motivation: 研究发现RL训练的视觉语言模型在OOD泛化上优于SFT模型，作者认为这是因为RL隐含地筛选了中等难度的训练样本，而非RL算法本身的优势。
Method: 提出Difficulty-Curated SFT（DC-SFT）方法，通过显式筛选训练数据难度来优化SFT训练。首先评估样本难度，然后基于难度筛选训练集，避免使用过难样本。
Result: 实验证实数据难度是关键因素：使用困难样本训练会显著降低OOD性能。DC-SFT不仅大幅提升SFT的OOD泛化能力，甚至超越RL训练的性能，同时更稳定、计算效率更高。
Conclusion: 从数据角度解释了VLMs的OOD泛化差距，提出了一种更高效的实现稳健泛化的途径。DC-SFT通过显式数据难度筛选，在保持SFT稳定性和效率的同时，达到了优于RL的泛化性能。

[60] Resource-Efficient RGB-Only Action Recognition for Edge Deployment

Dongsik Yoon,Jongeun Kim,Dayeon Lee

Main category: cs.CV

TL;DR: 提出一个紧凑的RGB-only网络，用于边缘设备上的高效动作识别，在NTU RGB+D基准上实现了精度与效率的良好平衡，并在Jetson Orin Nano上验证了较小的设备占用空间。

Motivation: 边缘设备上的动作识别对延迟、内存、存储和功耗有严格要求。虽然骨架和深度等辅助模态能提升性能，但需要额外传感器或计算昂贵的姿态估计流程，限制了边缘应用的实用性。
Method: 基于X3D风格的主干网络，增强时间移位机制，并引入选择性时间适应和参数自由注意力机制，构建紧凑的RGB-only网络。
Result: 在NTU RGB+D 60和120基准测试中表现出强大的精度-效率平衡，在Jetson Orin Nano上的部署级分析显示比现有RGB动作识别技术更小的设备占用空间和更实用的资源利用率。
Conclusion: 提出的紧凑RGB-only网络为边缘设备上的高效动作识别提供了实用解决方案，无需额外传感器或昂贵计算流程，实现了良好的精度与效率平衡。

[61] Flow caching for autoregressive video generation

Yuexiao Ma,Xuzhe Zheng,Jing Xu,Xiwei Xu,Feng Ling,Xiawu Zheng,Huafeng Kuang,Huixia Li,Xing Wang,Xuefeng Xiao,Fei Chao,Rongrong Ji

Main category: cs.CV

TL;DR: FlowCache：首个专为自回归视频生成设计的缓存框架，通过分块缓存策略和联合重要性-冗余优化的KV缓存压缩，显著加速超长视频生成，在MAGI-1和SkyReels-V2上分别实现2.38倍和6.7倍加速。

Motivation: 自回归模型生成超长视频时速度缓慢。现有缓存方法假设所有帧在相同时间步具有均匀的去噪特性，但这在自回归模型中不成立，因为不同视频块在相同时间步表现出不同的相似性模式。
Method: 提出FlowCache框架：1）分块缓存策略，允许每个视频块维护独立的缓存策略，根据每个块的独特去噪特性动态调整；2）联合重要性-冗余优化的KV缓存压缩机制，在固定内存限制下保持生成质量。
Result: 在MAGI-1上实现2.38倍加速，在SkyReels-V2上实现6.7倍加速，质量退化可忽略（VBench分别增加0.87和减少0.79）。
Conclusion: FlowCache成功释放了自回归模型在实时超长视频生成方面的潜力，为大规模高效视频合成设立了新基准。

[62] Hyperspectral Smoke Segmentation via Mixture of Prototypes

Lujian Yao,Haitao Zhao,Xianghai Kong,Yuhan Xu

Main category: cs.CV

TL;DR: 提出首个高光谱烟雾分割数据集和混合原型网络，通过自适应波段加权解决烟雾分割中的光谱信息利用问题

Motivation: 传统可见光烟雾分割方法因光谱信息不足而受限，特别是在云干扰和半透明烟雾区域表现不佳，需要利用高光谱成像技术解决这些问题
Method: 提出混合原型网络，包含三个关键技术：波段分割实现光谱隔离、基于原型的多样化光谱模式表示、双层级路由器实现自适应空间感知的波段加权
Result: 在构建的高光谱和RGB-红外多光谱数据集上进行了广泛实验，验证了该方法在两种光谱模态下的优越性能
Conclusion: 建立了光谱基烟雾分割的新范式，为野火管理和工业安全应用提供了更有效的解决方案

[63] Stride-Net: Fairness-Aware Disentangled Representation Learning for Chest X-Ray Diagnosis

Darakshan Rashid,Raza Imam,Dwarikanath Mahapatra,Brejesh Lall

Main category: cs.CV

TL;DR: 提出Stride-Net框架，通过可学习的步长掩码和对抗混淆损失，学习疾病判别性但人口统计学不变的胸片表征，改善公平性同时保持诊断准确性。

Motivation: 现有胸片分类的深度神经网络在平均性能上表现良好，但在特定人口亚组中表现不佳，存在临床安全和公平性问题。现有去偏方法要么在不同数据集上改进不一致，要么以牺牲整体诊断效用为代价实现公平性，将公平性视为后处理约束而非学习表征的属性。
Method: 提出Stride-Net框架：1) 在patch级别操作，使用可学习的步长掩码选择标签对齐的图像区域；2) 通过对抗混淆损失抑制敏感属性信息；3) 通过基于Group Optimal Transport的语义对齐，将图像特征与BioBERT疾病标签嵌入对齐，防止捷径学习。
Result: 在MIMIC-CXR和CheXpert基准测试中，针对种族和交叉种族-性别亚组进行评估。Stride-Net在包括ResNet和Vision Transformers在内的各种架构上，一致改善公平性指标，同时匹配或超过基线准确性，相比先前去偏方法实现了更优的准确性-公平性权衡。
Conclusion: Stride-Net通过学习疾病判别性但人口统计学不变的胸片表征，有效解决了胸片分析中的公平性问题，在保持诊断准确性的同时显著改善了对不同人口亚组的公平性表现。

[64] Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation

Minggui He,Mingchen Dai,Jian Zhang,Yilun Liu,Shimin Tao,Pufan Zeng,Osamu Yoshie,Yuya Ieiri

Main category: cs.CV

TL;DR: 提出Chart Specification结构化中间表示，通过语义监督而非文本模仿来提升图表图像到代码生成的结构保真度，在少量数据下显著超越现有方法。

Motivation: 现有视觉语言模型在从图表图像生成绘图代码时，主要依赖监督微调，鼓励表面标记模仿而非底层结构建模，导致输出存在幻觉或语义不一致问题。
Method: 提出Chart Specification结构化中间表示，过滤语法噪声构建结构平衡训练集，支持Spec-Align Reward提供细粒度可验证的结构正确性反馈，通过强化学习强制执行一致的绘图逻辑。
Result: 在三个公共基准测试中一致优于先前方法，仅用3K训练样本即实现强数据效率，在复杂基准上超越领先基线达61.7%，4K样本时在所有评估指标上建立新的SOTA结果。
Conclusion: 精确的结构监督为高保真图表到代码生成提供了高效途径，结构化中间表示能有效提升模型对底层图表结构的建模能力。

[65] ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving

Jinqing Zhang,Zehua Fu,Zelin Xu,Wenying Dai,Qingjie Liu,Yunhong Wang

Main category: cs.CV

TL;DR: TR-World通过时间残差专注于动态物体建模，结合FGTR模块实现轨迹与未来场景的交互，在nuScenes和NAVSIM数据集上达到SOTA规划性能。

Motivation: 现有世界模型在驾驶场景中存在静态区域冗余建模和与轨迹缺乏深度交互的问题，限制了其规划效果。
Method: 提出TR-World模型，通过计算场景表示的时间残差提取动态物体信息；结合FGTR模块，利用未来BEV特征优化轨迹并提供时空监督。
Result: 在nuScenes和NAVSIM数据集上的实验表明，ResWorld方法实现了最先进的规划性能。
Conclusion: 专注于动态物体建模的时间残差世界模型结合轨迹细化模块，能有效提升自动驾驶规划精度。

[66] FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference

Guandong Li

Main category: cs.CV

TL;DR: FastUSP：针对大规模扩散模型分布式推理的多级优化框架，通过编译级、通信级和算子级优化，相比基线USP实现1.09-1.16倍加速

Motivation: 现有Unified Sequence Parallelism (USP)实现存在显著低效问题，包括过多的内核启动开销和次优的计算-通信调度，这在大规模扩散模型（如FLUX 12B和SD3 8B）的多GPU推理中成为瓶颈
Method: 提出FastUSP多级优化框架：1) 编译级优化（使用CUDA Graphs进行图编译和计算-通信重排序）；2) 通信级优化（FP8量化集体通信）；3) 算子级优化（带双缓冲的流水线Ring attention）
Result: 在FLUX 12B模型上，FastUSP相比基线USP实现1.12-1.16倍端到端加速，编译级优化贡献主要改进；在Qwen-Image上，2GPU实现1.09倍加速；分析发现内核启动开销（而非通信延迟）是现代高带宽GPU互连的主要瓶颈
Conclusion: FastUSP通过多级优化有效解决了USP实现中的效率问题，显著提升大规模扩散模型的分布式推理性能，并揭示了内核启动开销是当前主要瓶颈而非通信延迟

[67] Towards Learning a Generalizable 3D Scene Representation from 2D Observations

Martin Gromniak,Jan-Gerrit Habekost,Sebastian Kamp,Sven Magg,Stefan Wermter

Main category: cs.CV

TL;DR: 提出一种可泛化的神经辐射场方法，从机器人第一人称视角预测3D工作空间占用情况，在全局坐标系中构建占用表示，无需场景特定微调即可泛化到未见过的物体布局。

Motivation: 现有方法通常在相机坐标系中操作，限制了在机器人操作中的直接应用。需要一种能够在全局工作空间框架中预测3D占用的方法，特别是能够处理遮挡区域并泛化到新场景。
Method: 采用可泛化的神经辐射场方法，在全局工作空间坐标系中构建占用表示，而非相机坐标系。模型整合灵活的源视图，无需场景特定微调即可处理未见过的物体布局。
Result: 在40个真实场景上训练，模型达到26毫米的重建误差，包括遮挡区域。验证了模型能够推断完整的3D占用，超越了传统立体视觉方法。
Conclusion: 该方法成功实现了从机器人第一人称视角到全局工作空间坐标系的3D占用预测，具有良好泛化能力，为机器人操作提供了实用的几何感知工具。

[68] Healthy Harvests: A Comparative Look at Guava Disease Classification Using InceptionV3

Samanta Ghosh,Shaila Afroz Anika,Umma Habiba Ahmed,B. M. Shahria Alam,Mohammad Tahmid Noor,Nishat Tasnim Niloy

Main category: cs.CV

TL;DR: 该研究使用深度学习模型（InceptionV3和ResNet50）对番石榴的三种状态（炭疽病、果蝇感染、健康果实）进行分类，InceptionV3达到98.15%的准确率，并通过数据增强和可解释性分析提升模型性能。

Motivation: 番石榴果实常受多种病害影响，这会损害果实质量和产量。早期识别对于减少损害和确保果实健康至关重要。本研究旨在开发有效的病害分类方法。
Method: 使用Mendeley Data的473张原始番石榴图像，预处理为256x256像素RGB格式，通过数据增强扩展到3784张图像。采用InceptionV3和ResNet50两种深度学习模型进行分类，应用CutMix和MixUp数据混合方法增强模型鲁棒性，使用混淆矩阵评估性能，并通过SHAP分析提高模型可解释性。
Result: InceptionV3模型达到98.15%的准确率，ResNet50达到94.46%的准确率。数据增强和混合方法有效提升了模型性能，SHAP分析帮助识别了图像中对模型预测重要的区域。
Conclusion: 研究表明先进的深度学习模型能够有效分类番石榴病害，InceptionV3表现最佳。数据增强和可解释性分析是提升农业病害识别系统性能的关键技术。

[69] VFGS-Net: Frequency-Guided State-Space Learning for Topology-Preserving Retinal Vessel Segmentation

Ruiqi Song,Lei Liu,Ya-Nan Zhang,Chao Wang,Xiaoning Li,Nan Mu

Main category: cs.CV

TL;DR: VFGS-Net：一种用于视网膜血管分割的端到端网络，结合频率感知特征增强、双路径卷积学习和双向非对称空间状态空间建模，在多个数据集上取得SOTA性能。

Motivation: 视网膜血管分割对于定量分析和血管疾病诊断至关重要，但现有方法难以同时保留细毛细血管和维持全局拓扑连续性，主要挑战包括细长形态、尺度变化大和低对比度。
Method: 提出VFGS-Net网络，包含：1）双路径特征卷积模块捕获局部纹理和多尺度上下文语义；2）血管感知频域通道注意力机制自适应重加权频谱分量；3）双向非对称Mamba2空间建模块捕获长距离空间依赖并增强血管结构全局连续性。
Result: 在四个公开视网膜血管数据集上的实验表明，VFGS-Net达到竞争性或优于SOTA方法的性能，特别是在细血管、复杂分支模式和低对比度区域的准确分割方面表现突出。
Conclusion: VFGS-Net通过整合频率感知、双路径卷积和全局空间建模，有效解决了视网膜血管分割的关键挑战，展示了强大的鲁棒性和临床潜力。

[70] DFIC: Towards a balanced facial image dataset for automatic ICAO compliance verification

Nuno Gonçalves,Diogo Nunes,Carla Guerra,João Marcos

Main category: cs.CV

TL;DR: 本文提出了DFIC数据集，这是一个包含约58,000张标注图像和2,706个视频的全面面部图像数据集，用于自动验证ICAO合规性，相比现有方法取得了改进结果。

Motivation: 当前手动检查方法在验证机器可读旅行证件(MRTDs)中面部图像是否符合ISO/IEC和ICAO标准时效率低下，特别是在高需求环境中。需要更有效的自动化解决方案。
Method: 作者创建了DFIC数据集，包含约58,000张标注图像和2,706个视频，涵盖1,000多个受试者，包含合规和非合规条件。基于此数据集，他们微调了一种主要依赖空间注意力机制的新方法来自动验证ICAO合规要求。
Result: 使用DFIC数据集训练的方法在ICAO合规验证方面相比现有最先进方法取得了改进结果。数据集提供了比现有公共数据集更平衡的人口统计分布，其中一个分区几乎均匀分布。
Conclusion: DFIC数据集公开可用，为训练和验证新模型提供了前所未有的面部多样性，能够提高自动ICAO合规验证方法的鲁棒性和适应性，同时也可用于改善面部识别系统的安全性、隐私性和公平性。

[71] Interpretable Vision Transformers in Image Classification via SVDA

Vasileios Arampatzakis,George Pavlidis,Nikolaos Mitianoudis,Nikos Papamarkos

Main category: cs.CV

TL;DR: 将SVD启发的注意力机制(SVDA)应用于Vision Transformer，提升注意力模式的可解释性、稀疏性和谱结构，在多个基准数据集上保持分类精度的同时获得更可解释的注意力模式。

Motivation: Vision Transformer在图像分类中表现出色，但其注意力机制往往不透明且呈现密集、非结构化的行为，缺乏可解释性和结构化特征。
Method: 将先前提出的SVD启发注意力机制(SVDA)适配到ViT架构中，引入几何基础的公式化方法，使用可解释性指标监控训练过程中的注意力动态，并评估学习表示的结构特性。
Result: 在CIFAR-10、FashionMNIST、CIFAR-100和ImageNet-100四个基准数据集上的实验表明，SVDA能够在不牺牲分类准确率的情况下，持续产生更可解释的注意力模式。
Conclusion: SVDA为分析和开发结构化注意力模型提供了全面且信息丰富的工具，为可解释AI、谱诊断和基于注意力的模型压缩的未来发展奠定了基础。

[72] Enhancing Predictability of Multi-Tenant DNN Inference for Autonomous Vehicles' Perception

Liangkai Liu,Kang G. Shin,Jinkyu Lee,Chengmo Yang,Weisong Shi

Main category: cs.CV

TL;DR: PP-DNN系统通过动态选择关键帧和感兴趣区域来减少自动驾驶感知系统的数据处理量，同时保持多租户DNN的准确性，显著提升感知可预测性。

Motivation: 自动驾驶车辆需要在有限资源下实现实时DNN推理，现有研究主要通过模型压缩优化推理时间，但忽略了动态环境下的数据冗余问题。
Method: PP-DNN包含四个核心组件：ROI生成器识别关键帧和ROI；FLOPs预测器预测计算量；ROI调度器协调多DNN模型处理；检测预测器处理非关键帧。
Result: 在BDD100K和nuScenes数据集上评估，PP-DNN显著提升感知可预测性：融合帧数增加7.3倍，融合延迟减少2.6倍，延迟变化减少2.3倍，检测完整性提升75.4%，成本效益提升98%。
Conclusion: PP-DNN通过动态选择关键帧和ROI，在保持准确性的同时减少数据处理量，为自动驾驶感知系统提供了可预测且高效的解决方案。

[73] Interpretable Vision Transformers in Monocular Depth Estimation via SVDA

Vasileios Arampatzakis,George Pavlidis,Nikolaos Mitianoudis,Nikos Papamarkos

Main category: cs.CV

TL;DR: 该论文提出了一种SVD启发的注意力机制(SVDA)，用于单目深度估计任务，通过谱结构化的注意力公式提高可解释性，同时保持预测精度。

Motivation: 现代Transformer架构中的自注意力机制在密集预测任务（如单目深度估计）中仍然不透明，缺乏可解释性。需要一种能够量化分析注意力机制的方法，而不仅仅是事后近似解释。
Method: 提出SVD启发注意力(SVDA)，将方向对齐与谱调制解耦，通过在学习查询-键交互中嵌入可学习的对角矩阵，实现内在可解释的注意力图。该方法应用于密集预测Transformer(DPT)架构。
Result: 在KITTI和NYU-v2数据集上的实验表明，SVDA保持或略微提高了预测精度，仅增加少量计算开销。更重要的是，SVDA解锁了六个谱指标（熵、秩、稀疏性、对齐性、选择性和鲁棒性），揭示了注意力在训练过程中组织的一致跨数据集和深度模式。
Conclusion: SVDA将注意力的角色从不透明机制转变为可量化描述符，重新定义了单目深度估计中的可解释性，为透明密集预测模型开辟了原则性途径。

[74] LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation

Lei Yao,Yi Wang,Yawen Cui,Moyun Liu,Lap-Pui Chau

Main category: cs.CV

TL;DR: LaSSM是一个用于点云3D场景实例分割的高效方法，通过分层语义-空间查询初始化器和坐标引导的状态空间模型解码器，在保持竞争力的同时显著降低计算成本。

Motivation: 现有基于查询的3D点云实例分割方法存在两个主要问题：1）由于点云的稀疏性导致查询初始化困难；2）依赖计算密集的注意力机制。需要一种既简单高效又能保持竞争力的解决方案。
Method: 提出分层语义-空间查询初始化器，从超点中生成查询集，同时考虑语义线索和空间分布；设计坐标引导的状态空间模型解码器，包含局部聚合方案和空间双路径SSM块，逐步细化查询。
Result: 在ScanNet++ V2排行榜上排名第一，比之前最佳方法提升2.5% mAP，同时仅需1/3 FLOPs；在ScanNet、ScanNet200、S3DIS和ScanNet++ V1基准测试中也取得有竞争力的性能，计算成本更低。
Conclusion: LaSSM通过创新的查询初始化策略和高效的状态空间模型解码器设计，在3D点云实例分割任务中实现了性能与效率的良好平衡，为大规模场景实例分割提供了实用解决方案。

[75] Chain-of-Look Spatial Reasoning for Dense Surgical Instrument Counting

Rishikesh Bhyri,Brian R Quaranto,Philip J Seger,Kaity Tung,Brendan Fox,Gene Yang,Steven D. Schwaitzberg,Junsong Yuan,Nan Xi,Peter C W Kim

Main category: cs.CV

TL;DR: 提出Chain-of-Look视觉推理框架，通过结构化视觉链模仿人类顺序计数过程，解决手术室密集场景下器械计数的挑战，并在新数据集SurgCount-HD上取得优于现有方法的表现。

Motivation: 手术室中准确计数手术器械对患者安全至关重要，但现有方法在器械密集排列的复杂场景中表现不佳，特别是当器械紧密聚集时，传统无序的目标检测方法难以准确计数。
Method: 提出Chain-of-Look视觉推理框架，模仿人类顺序计数过程，通过结构化视觉链引导模型沿着连贯的空间轨迹计数；引入相邻损失函数来建模密集器械的空间约束；创建包含1,464张高密度手术器械图像的新数据集SurgCount-HD。
Result: 在密集手术器械计数任务中，该方法优于最先进的计数方法（如CountGD、REC）以及多模态大语言模型（如Qwen、ChatGPT）。
Conclusion: Chain-of-Look框架通过结构化视觉链和空间约束建模，有效解决了密集场景下手术器械计数的挑战，为手术室安全提供了更可靠的解决方案。

[76] PuriLight: A Lightweight Shuffle and Purification Framework for Monocular Depth Estimation

Yujie Chen,Li Zhang,Xiaomeng Chu,Tian Zhang

Main category: cs.CV

TL;DR: PuriLight是一个轻量级自监督单目深度估计框架，通过三个新模块实现高效计算与细节保留的平衡。

Motivation: 现有自监督深度估计方法面临双重挑战：要么架构庞大影响实用性，要么轻量级模型牺牲结构精度。需要开发既轻量又结构精确的架构。
Method: 采用三阶段架构，包含三个新模块：Shuffle-Dilation Convolution（SDC）用于局部特征提取，Rotation-Adaptive Kernel Attention（RAKA）用于分层特征增强，Deep Frequency Signal Purification（DFSP）用于全局特征净化。
Result: PuriLight在保持卓越计算效率的同时，以最少的训练参数实现了最先进的性能。
Conclusion: PuriLight通过创新的三模块架构有效解决了轻量级与精度之间的权衡问题，为自监督深度估计提供了实用高效的解决方案。

[77] Chatting with Images for Introspective Visual Thinking

Junfei Wu,Jian Guan,Qiang Liu,Shu Wu,Liang Wang,Wei Wu,Tienie Tan

Main category: cs.CV

TL;DR: ViLaVT提出"chatting with images"框架，通过语言引导的特征调制实现视觉与语言的紧密耦合，在复杂多图像和视频空间推理任务上表现优异

Motivation: 当前大型视觉语言模型通常基于单次视觉编码进行文本推理，导致细粒度视觉信息丢失。现有的"thinking with images"方法通过外部工具操作图像，但生成的视觉状态与语言语义关联不足，特别是在需要跨远距离区域或多图像进行视觉语义或几何关系推理时
Method: 提出"chatting with images"框架，将视觉操作重构为语言引导的特征调制。在表达性语言提示指导下，模型动态地对多个图像区域进行联合重新编码，实现语言推理与视觉状态更新的紧密耦合。具体实现为ViLaVT模型，配备专门为交互式视觉推理设计的动态视觉编码器，采用两阶段课程训练（监督微调+强化学习）
Result: 在八个基准测试上的广泛实验表明，ViLaVT实现了强大且一致的改进，在复杂多图像和视频空间推理任务上表现尤为突出
Conclusion: 通过语言引导的特征调制框架，ViLaVT成功解决了视觉与语言对齐不足的问题，特别是在需要跨区域和多图像推理的复杂任务中表现出色

[78] First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Robyn Larracy,Eve MacDonald,Angkoon Phinyomark,Saeid Rezaei,Mahdi Laghaei,Ali Hajighasem,Aaron Tabor,Erik Scheme

Main category: cs.CV

TL;DR: UNB StepUP-P150数据集发布后举办了首届国际步态识别竞赛，最佳团队使用生成奖励机优化策略达到10.77%的等错误率，但新鞋具的泛化仍是挑战。

Motivation: 生物特征步态识别在安全领域有应用前景，但缺乏大规模多样化数据集限制了其发展。UNB StepUP-P150数据集的发布为解决泛化性和鲁棒性挑战提供了机会。
Method: 举办首届国际步态识别竞赛，使用StepUP-P150数据集开发鲁棒识别模型，在专门测试集上评估验证性能。最佳团队采用生成奖励机（GRM）优化策略。
Result: 竞赛吸引了23个全球团队参与，最佳团队Saeid_UCC达到10.77%的等错误率（EER）。竞赛展示了强大解决方案，但新鞋具的泛化仍是持续挑战。
Conclusion: 竞赛标志着步态识别领域的重要进展，但未来工作需要重点解决对陌生鞋具的泛化问题，这是该领域的关键挑战。

[79] FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Divya Jyoti Bajpai,Dhruv Bhardwaj,Soumya Roy,Tejas Duseja,Harsh Agarwal,Aashay Sandansing,Manjesh Kumar Hanawal

Main category: cs.CV

TL;DR: FastFlow是一个即插即用的自适应推理框架，通过识别并跳过对去噪路径影响较小的步骤来加速流匹配模型生成，实现2.6倍加速同时保持高质量输出。

Motivation: 流匹配模型在图像和视频生成方面具有最先进的保真度，但固有的顺序去噪过程使其速度较慢。现有的加速方法（如蒸馏、轨迹截断和一致性方法）是静态的，需要重新训练，并且通常无法跨任务泛化。
Method: FastFlow识别对去噪路径只有微小调整的步骤，并使用先前预测的有限差分速度估计来近似这些步骤，从而跳过中间计算。将决定跳过多少步的问题建模为多臂老虎机问题，学习在速度与性能之间平衡的最优跳过策略。
Result: 实验表明，FastFlow实现了超过2.6倍的加速，同时保持高质量输出。该框架可无缝集成到现有流程中，并在图像生成、视频生成和编辑任务中具有良好泛化能力。
Conclusion: FastFlow提供了一种有效的自适应推理框架，能够显著加速流匹配模型的生成过程，无需重新训练，具有良好的泛化能力和即插即用特性。

[80] HairWeaver: Few-Shot Photorealistic Hair Motion Synthesis with Sim-to-Real Guided Video Diffusion

Di Chang,Ji Hou,Aljaz Bozic,Assaf Neuberger,Felix Juefei-Xu,Olivier Maury,Gene Wei-Chin Lin,Tuur Stuyck,Doug Roble,Mohammad Soleymani,Stephane Grabli

Main category: cs.CV

TL;DR: HairWeaver是一个基于扩散模型的单张人像动画化系统，专门解决头发动态模拟问题，通过两个轻量级LoRA模块实现精细的头发运动控制和真实感保持。

Motivation: 现有方法虽然能控制身体姿态，但缺乏对头发的专门控制，导致头发动画僵硬不自然，无法捕捉复杂的头发运动细节。
Method: 使用两个专用模块：Motion-Context-LoRA集成运动条件，Sim2Real-Domain-LoRA保持主体在不同数据域中的真实外观。这些轻量组件引导视频扩散主干网络，同时在CG模拟器生成的专业动态人体运动数据集上训练。
Result: 综合评估表明该方法达到了新的最先进水平，能够生成逼真的人体头发动画，具有丰富的动态细节，头发能自然地响应运动。
Conclusion: HairWeaver通过专门设计的模块解决了头发动画的挑战，实现了对头发运动的精细控制，并能保持主体的真实外观，为单张人像动画化提供了高质量的头发动态模拟解决方案。

[81] PhyCritic: Multimodal Critic Models for Physical AI

Tianyi Xiong,Shihao Wang,Guilin Liu,Yi Dong,Ming Li,Heng Huang,Jan Kautz,Zhiding Yu

Main category: cs.CV

TL;DR: PhyCritic是一个针对物理AI任务优化的多模态评判模型，通过两阶段RLVR流程提升物理感知和推理能力，在物理和通用多模态评判基准上表现优异。

Motivation: 现有评判模型主要在通用视觉领域训练，缺乏对涉及感知、因果推理和规划的物理AI任务的专门优化，需要开发针对物理AI的可靠评判模型。
Method: 采用两阶段RLVR流程：1) 物理技能预热阶段增强物理导向的感知和推理；2) 自参考评判微调阶段，模型在评判候选回答前先生成自己的预测作为内部参考，提高评判稳定性和物理正确性。
Result: 在物理和通用多模态评判基准上，PhyCritic显著优于开源基线模型；当作为策略模型应用时，能进一步改善物理基础任务中的感知和推理能力。
Conclusion: PhyCritic通过专门针对物理AI优化的两阶段训练方法，成功提升了多模态评判模型在物理任务中的表现，为物理AI的可靠评估提供了有效工具。

[82] Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

Gongye Liu,Bo Yang,Yida Zhi,Zhizhou Zhong,Lei Ke,Didan Deng,Han Gao,Yongxiang Huang,Kaihao Zhang,Hongbo Fu,Wenhan Luo

Main category: cs.CV

TL;DR: 提出DiNa-LRM，一种扩散原生的潜在奖励模型，直接在噪声扩散状态上进行偏好学习，解决了VLM奖励计算成本高和像素空间奖励与潜在扩散生成器之间的领域不匹配问题。

Motivation: 当前扩散和流匹配模型的偏好优化依赖VLM作为奖励提供者，但VLM计算和内存成本高，且像素空间奖励与潜在扩散生成器之间存在领域不匹配问题，使对齐复杂化。
Method: 提出DiNa-LRM扩散原生潜在奖励模型，采用噪声校准的Thurstone似然函数和扩散噪声依赖的不确定性，利用预训练潜在扩散骨干网络和时间步条件奖励头，支持推理时噪声集成。
Result: 在图像对齐基准测试中，DiNa-LRM显著优于现有扩散奖励基线，性能与最先进VLM相当但计算成本低得多；在偏好优化中改善了优化动态，实现更快更高效的模型对齐。
Conclusion: DiNa-LRM为扩散模型提供了一种高效、原生的奖励建模方法，解决了VLM奖励的计算成本和领域不匹配问题，在偏好优化中表现出优越性能。

[83] SurfPhase: 3D Interfacial Dynamics in Two-Phase Flows from Sparse Videos

Yue Gao,Hong-Xing Yu,Sanghyeon Chang,Qianxi Fu,Bo Zhu,Yoonjin Won,Juan Carlos Niebles,Jiajun Wu

Main category: cs.CV

TL;DR: SurfPhase：一种从稀疏相机视角重建两相流三维界面动力学的新方法，结合动态高斯面元、符号距离函数和视频扩散模型，在池沸腾数据集上实现了高质量视图合成和速度估计。

Motivation: 两相流中的界面动力学对动量、热量和质量传递至关重要，但实验测量困难。传统技术在移动界面附近存在固有局限，现有神经渲染方法仅适用于单相流，无法处理尖锐可变的液-汽界面。
Method: 提出SurfPhase模型，整合动态高斯面元与符号距离函数保证几何一致性，利用视频扩散模型合成新视角视频以优化稀疏观测下的重建。
Result: 在高速池沸腾视频新数据集上评估，仅用两个相机视角即可实现高质量视图合成和速度估计。
Conclusion: SurfPhase为两相流界面动力学测量提供了有效解决方案，克服了传统方法和现有神经渲染的局限。

q-bio.NC

[84] ENIGMA: EEG-to-Image in 15 Minutes Using Less Than 1% of the Parameters

Reese Kneeland,Wangshu Jiang,Ugo Bruzadin Nunes,Paul Steven Scotti,Arnaud Delorme,Jonathan Xu

Main category: q-bio.NC

TL;DR: ENIGMA是一个多被试EEG到图像解码模型，在THINGS-EEG2和AllJoined-1.6M基准上达到SOTA性能，仅需15分钟数据即可在新被试上微调，参数不到先前方法的1%。

Motivation: 开发实用的脑机接口需要模型能够快速部署到新被试、在廉价硬件上有效运行、且足够轻量以在本地计算资源上运行，以解决当前方法的局限性。
Method: 集成被试统一的时空骨干网络、多被试潜在对齐层和MLP投影器，将原始EEG信号映射到丰富的视觉潜在空间，采用更简单的架构。
Result: 在研究级和消费级EEG硬件上均实现显著性能提升，微调效率和推理成本大幅改善，首次进行人类评分者行为评估，在多个基准数据集上表现优异。
Conclusion: ENIGMA通过简单鲁棒的架构显著推进了实用脑机接口应用的发展，在多被试EEG到图像解码领域迈出重要一步。

cs.RO

[85] SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes

Nicholas Pfaff,Thomas Cohn,Sergey Zakharov,Rick Cory,Russ Tedrake

Main category: cs.RO

TL;DR: SceneSmith是一个分层智能体框架，通过VLM代理交互从自然语言提示生成仿真就绪的室内环境，相比现有方法生成3-6倍更多物体，具有高物理稳定性和真实性。

Motivation: 现有仿真环境无法捕捉真实室内空间的多样性和物理复杂性，当前场景合成方法产生的稀疏家具房间缺乏密集杂物、可动家具和机器人操作所需的物理属性。
Method: 分层智能体框架，通过设计师、评论家和协调者三个VLM代理的交互，分阶段构建场景：从建筑布局到家具布置再到小物体填充，集成文本到3D合成、数据集检索和物理属性估计。
Result: 生成3-6倍于现有方法的物体数量，物体间碰撞率<2%，96%物体在物理仿真中保持稳定；用户研究中获得92%平均真实性和91%平均提示忠实度胜率；可用于机器人策略自动评估。
Conclusion: SceneSmith能够生成高质量、物理可信的仿真就绪室内环境，显著优于现有方法，为机器人训练和评估提供了更真实的仿真环境。

[86] From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving

Sining Ang,Yuguang Yang,Chenxu Dang,Canyu Chen,Cheng Chi,Haiyan Liu,Xuanyao Mao,Jason Bao,Xuliang,Bingchuan Sun,Yan Wang

Main category: cs.RO

TL;DR: 本文通过3-RQ分析比较VLA与纯视觉驾驶系统，发现VLM在特定长尾场景中表现更激进，提出混合系统HybridDriveVLA和双系统DualDriveVLA来结合两者优势。

Motivation: 研究VLA驾驶系统相比纯视觉系统除了准确率-成本权衡之外的实际差异，探索如何充分利用VLM和ViT各自的行为特性来提升自动驾驶性能。
Method: 使用RecogDrive系统，在相同的扩散Transformer规划器下实例化完整VLM和纯视觉主干网络。通过3-RQ分析：1)比较主干网络特性；2)分析行为差异；3)提出HybridDriveVLA（运行两个分支并选择最佳轨迹）和DualDriveVLA（默认运行ViT，仅在置信度低时调用VLM）。
Result: VLM在长尾场景中更激进，ViT更保守，各有约2-3%场景优势。通过oracle选择最佳轨迹可达93.58 PDMS上限。HybridDriveVLA达到92.10 PDMS。DualDriveVLA在15%场景调用VLM时达到91.00 PDMS，同时提升吞吐量3.2倍。
Conclusion: VLA系统确实带来超越准确率-成本权衡的行为差异，通过混合架构可以充分利用VLM和ViT的互补特性，实现性能与效率的平衡。

[87] ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Meizhong Wang,Wanxin Jin,Kun Cao,Lihua Xie,Yiguang Hong

Main category: cs.RO

TL;DR: 提出ContactGaussian-WM，一种基于可微分物理的刚体世界模型，能从稀疏接触丰富的视频序列中学习复杂物理规律

Motivation: 现有方法在数据稀缺和接触丰富的复杂动态运动条件下难以准确建模环境，需要开发能理解复杂物理交互的世界模型来推进机器人规划和仿真
Method: 包含两个核心组件：(1) 视觉外观和碰撞几何的统一高斯表示；(2) 通过闭式物理引擎进行端到端可微分学习的框架，从稀疏视觉观察中推断物理属性
Result: 在模拟和真实世界评估中优于现有方法，在复杂场景学习中表现优异，展现出强大的泛化能力
Conclusion: 框架在下游应用中具有实际效用，包括数据合成和实时模型预测控制，为机器人规划和仿真提供了有效的世界建模方法

cs.CR

[88] SecureScan: An AI-Driven Multi-Layer Framework for Malware and Phishing Detection Using Logistic Regression and Threat Intelligence Integration

Rumman Firdos,Aman Dangi

Main category: cs.CR

TL;DR: SecureScan是一个AI驱动的三层检测框架，结合逻辑回归分类、启发式分析和外部威胁情报，用于URL、文件哈希和二进制文件的综合检测，在基准数据集上达到93.1%准确率。

Motivation: 现代恶意软件和钓鱼攻击日益复杂，传统基于签名的入侵检测系统效果下降，需要更智能的检测方案。
Method: 提出三层检测框架：1) 启发式分析过滤已知威胁；2) 机器学习（逻辑回归）分类不确定样本；3) 通过VirusTotal API验证边界案例。引入阈值校准和灰区逻辑(0.45-0.55)减少误报。
Result: 在基准数据集上达到93.1%准确率，精度0.87，召回率0.92，表现出良好的泛化能力和减少过拟合。轻量级统计模型结合校准验证和外部情报，性能可与复杂深度学习系统媲美。
Conclusion: 轻量级统计模型通过适当的校准验证和外部威胁情报增强，能够实现与复杂深度学习系统相当的可靠性和性能，为实际部署提供了高效解决方案。

cs.LG

[89] Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks

Enrico Ahlers,Daniel Passon,Yannic Noller,Lars Grunske

Main category: cs.LG

TL;DR: FIRE：一种推理时后门缓解方法，通过反向操作触发器的潜在空间方向来修复被后门攻击的模型

Motivation: 现有后门缓解方法要么需要过滤训练数据、修改模型，要么需要昂贵的输入处理。当易受攻击的模型已经部署后，这些策略要么无效要么效率低下。需要一种推理时的解决方案来应对已部署模型的后门威胁。
Method: FIRE（特征空间推理时修复）假设触发器在模型内部表示中引起结构化、可重复的变化。将触发器视为层间潜在空间中的方向，可以反向应用这些方向来纠正推理机制。通过操纵潜在表示，沿着后门方向移动被污染样本的特征来中和触发器。
Result: FIRE具有低计算开销，在图像基准测试中，在各种攻击、数据集和网络架构上优于当前的运行时缓解方法。
Conclusion: FIRE提供了一种有效的推理时后门缓解方案，能够在不修改已部署模型的情况下，通过特征空间操作来中和后门触发器的影响。

[90] From Circuits to Dynamics: Understanding and Stabilizing Failure in 3D Diffusion Transformers

Maximilian Plattner,Fabian Paischer,Johannes Brandstetter,Arturs Berzins

Main category: cs.LG

TL;DR: 研究发现3D扩散变换器在稀疏点云补全中存在灾难性失败模式：输入点云的微小扰动会导致输出分裂成多个不连接片段，称为"Meltdown"。通过机制解释性分析定位到早期去噪交叉注意力激活，并提出PowerRemap测试时控制方法进行稳定。

Motivation: 稀疏点云的可靠表面补全对内容创建和机器人应用至关重要。虽然3D扩散变换器在该任务上达到最先进水平，但发现它们存在灾难性失败模式：输入点云的任意微小扰动会导致输出分裂成多个不连接片段，这种现象被称为"Meltdown"。
Method: 使用机制解释性中的激活修补技术，将Meltdown定位到单个早期去噪交叉注意力激活。发现该激活的奇异值谱提供了标量代理：其谱熵在分裂发生时上升，修补后返回基线。通过扩散动力学解释，显示该代理跟踪反向过程的对称破缺分岔。基于此见解，引入PowerRemap测试时控制方法来稳定稀疏点云条件。
Result: Meltdown现象在最先进的架构（WaLa、Make-a-Shape）、数据集（GSO、SimJEB）和去噪策略（DDPM、DDIM）中持续存在。PowerRemap能有效对抗这种失败，稳定率高达98.3%。
Conclusion: 这项工作是通过机制分析理解和指导扩散模型行为的案例研究，将电路级交叉注意力机制与轨迹分岔的扩散动力学解释联系起来。展示了如何基于机制分析理解扩散模型行为并指导改进。

[91] GENIUS: Generative Fluid Intelligence Evaluation Suite

Ruichuan An,Sihan Yang,Ziyu Guo,Wei Dai,Zijun Shen,Haodong Li,Renrui Zhang,Xinyu Wei,Guopeng Li,Wenshan Wu,Wentao Zhang

Main category: cs.LG

TL;DR: 论文提出了GENIUS评估套件，用于评估多模态模型的生成性流体智能(GFI)，即模型在即时情境中归纳模式、执行约束和适应新场景的能力，发现现有模型在此方面存在显著缺陷。

Motivation: 现有基准主要评估模型的结晶智能（基于积累知识和学习模式），而忽视了生成性流体智能(GFI)——即模型在即时情境中归纳模式、推理约束和适应新场景的能力。需要建立专门评估GFI的基准。
Method: 提出GENIUS评估套件，将GFI形式化为三个基本能力：归纳隐含模式、执行临时约束、适应情境知识。系统评估了12个代表性模型，并进行诊断分析，提出无需训练的注意力干预策略。
Result: 对12个模型的评估显示，在GFI任务上存在显著性能缺陷。诊断分析表明，这些失败主要源于有限的情境理解能力，而非内在生成能力不足。提出的注意力干预策略有助于改善性能。
Conclusion: GENIUS为评估生成性流体智能建立了严格标准，推动领域从知识利用转向动态、通用推理。模型在即时情境理解和适应方面仍有改进空间，注意力干预是有效的改进方向。

cs.HC

[92] Viewpoint Recommendation for Point Cloud Labeling through Interaction Cost Modeling

Yu Zhang,Xinyi Zhao,Chongke Bi,Siming Chen

Main category: cs.HC

TL;DR: 提出一种用于3D点云语义分割标注的视点推荐方法，通过建模套索选择时间成本来减少标注时间

Motivation: 3D点云语义分割需要大量标注数据，但点云标注非常耗时，特别是需要调整相机视角和套索选择点。现有标注过程效率低下，需要减少标注时间成本。
Method: 将Fitts定律应用于点云中的套索选择时间建模，基于建模的时间成本推荐最小化套索选择时间的视点。构建了集成视点推荐功能的点云语义分割数据标注系统。
Result: 消融实验表明该方法有效减少了数据标注时间成本。在不同数据集上与先前视点选择方法进行了定性比较。
Conclusion: 提出的视点推荐方法能够显著减少3D点云语义分割的标注时间，提高标注效率，为点云标注提供了实用的工具支持。

eess.IV

[93] A Systematic Review on Data-Driven Brain Deformation Modeling for Image-Guided Neurosurgery

Tiago Assis,Colin P. Galvin,Joshua P. Castillo,Nazim Haouchine,Marta Kersten-Oertel,Zeyu Gao,Mireia Crispin-Ortuzar,Stephen J. Price,Thomas Santarius,Yangming Ou,Sarah Frisken,Nuno C. Garcia,Alexandra J. Golby,Reuben Dorent,Ines P. Machado

Main category: eess.IV

TL;DR: 这篇系统综述总结了2020-2025年AI驱动的脑变形补偿方法，分析了41项研究，探讨了深度学习配准、变形场回归、多模态对齐等技术，指出了当前方法的局限性和未来研究方向。

Motivation: 脑外科手术中组织变形导致术前计划图像与术中解剖结构不对齐，影响图像引导手术的可靠性，需要准确补偿脑变形以提高手术精度。
Method: 对PubMed、IEEE Xplore、Scopus和Web of Science数据库进行系统文献检索，筛选出41项符合标准的研究，统一分析方法学策略、数据集使用、评估指标和验证协议。
Result: AI驱动的脑变形模型表现出良好的性能和计算效率，但在分布外鲁棒性、标准化基准测试、可解释性和临床部署准备方面存在局限。
Conclusion: 需要进一步研究以实现更鲁棒、可泛化和临床可转化的脑变形补偿解决方案，为神经外科导航提供更可靠的技术支持。

[94] Uncertainty-Aware Ordinal Deep Learning for cross-Dataset Diabetic Retinopathy Grading

Ali El Bellaj,Aya Benradi,Salman El Youssoufi,Taha El Marzouki,Mohammed-Amine Cheddadi

Main category: eess.IV

TL;DR: 提出一个不确定性感知的深度学习框架，用于糖尿病视网膜病变的严重程度分级，结合卷积网络、病变查询注意力池化和证据狄利克雷序数回归头，实现准确预测和不确定性估计。

Motivation: 糖尿病视网膜病变是糖尿病最严重的并发症之一，早期可靠检测对于预防不可逆失明至关重要。需要自动化系统进行准确分级，同时提供预测不确定性以增强临床可靠性。
Method: 提出不确定性感知深度学习框架，结合卷积骨干网络、病变查询注意力池化和证据狄利克雷序数回归头。使用序数证据损失和退火正则化训练，鼓励在域偏移下的校准置信度。
Result: 在多域训练设置（APTOS、Messidor-2、EyePACS子集）上评估，表现出强大的跨数据集泛化能力，在测试集上获得竞争性分类准确率和高二次加权kappa，同时为低置信度病例提供有意义的不确定性估计。
Conclusion: 序数证据学习是构建稳健且临床可靠的糖尿病视网膜病变分级系统的有前景方向，能够同时实现准确预测和不确定性估计，增强临床应用的可靠性。

[95] Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Jineel H Raythatha,Shuchang Ye,Jeremy Hsu,Jinman Kim

Main category: eess.IV

TL;DR: 基础模型在创伤性肠损伤CT诊断中与任务特定模型表现相当，但对阴性类别异质性更敏感，特异性下降明显

Motivation: 将基础模型应用于临床实践时，需要评估其在复合分布偏移下的性能，特别是严重类别不平衡与异质性成像表现共存的情况。创伤性肠损伤作为罕见但高死亡率诊断，是研究这一挑战的理想场景。
Method: 使用多机构RSNA腹部创伤损伤CT数据集（2019-2023），比较两种基础模型（MedCLIP零样本、RadDINO线性探针）与三种任务特定方法（CNN、Transformer、集成模型）。在3,147名患者（2.3%肠损伤患病率）上训练，在100名患者测试集上评估。通过分析无肠损伤但伴有其他器官损伤的患者与无腹部病理患者的特异性差异，分离阴性类别效应。
Result: 基础模型与任务特定模型在区分能力上相当（AUC 0.64-0.68 vs 0.58-0.64），但敏感性更高（79-91% vs 41-74%），特异性更低（33-50% vs 50-88%）。所有模型在无腹部病理患者中特异性都很高（84-100%），但当存在其他器官损伤时，基础模型特异性下降显著（50-51个百分点），而任务特定模型下降较小（12-41个百分点）。
Conclusion: 基础模型无需任务特定训练即可达到与任务特定模型相当的区分能力，但其特异性缺陷主要由阴性类别异质性而非患病率单独驱动。对阴性类别异质性的敏感性随标注训练逐渐降低，表明临床实施前需要适应性调整。

physics.soc-ph

[96] URBAN-SPIN: A street-level bikeability index to inform design implementations in historical city centres

Haining Ding,Chenxi Wang,Michal Gath-Morad

Main category: physics.soc-ph

TL;DR: 开发感知主导、类型学为基础的数据整合框架，通过计算机视觉提取街景指标，结合建成环境数据和主观评分，构建类型学敏感的自行车友好性指数，用于历史城市自行车体验评估。

Motivation: 尽管自行车使用广泛，但塑造骑行体验的街道层面特征研究不足，特别是在历史城市中，空间限制排除了大规模基础设施改造，且类型学背景常被忽视。
Method: 开发感知主导、类型学为基础的数据整合框架，使用剑桥骑行体验视频数据集(CCEVD)，通过计算机视觉提取细粒度街景指标，结合建成环境变量和平衡不完全区组设计(BIBD)调查的主观评分，构建类型学敏感的自行车友好性指数。
Result: 统计分析显示感知自行车友好性源于特征的累积、特定情境的交互作用。绿化和开放性持续增强舒适和愉悦感，而围合度、意象性和建筑连续性则根据街道类型和子类型呈现阈值效应或分歧效应。AI辅助视觉重新设计表明，细微、有针对性的改变可在无需大规模结构干预的情况下产生有意义的感知改善。
Conclusion: 该框架为评估和改善历史城市骑行条件提供了一个可转移的模型，通过感知调整、类型学意识的设计策略来实现。

cs.CV ​

[1] Multi-encoder ConvNeXt Network with Smooth Attentional Feature Fusion for Multispectral Semantic Segmentation ​

[2] Multimodal Information Fusion for Chart Understanding: A Survey of MLLMs -- Evolution, Limitations, and Cognitive Enhancement ​

[3] MPA: Multimodal Prototype Augmentation for Few-Shot Learning ​

[4] VERA: Identifying and Leveraging Visual Evidence Retrieval Heads in Long-Context Understanding ​

[5] Beyond Closed-Pool Video Retrieval: A Benchmark and Agent Framework for Real-World Video Search and Moment Localization ​

[6] AD2: Analysis and Detection of Adversarial Threats in Visual Perception for End-to-End Autonomous Driving Systems ​

[7] ArtisanGS: Interactive Tools for Gaussian Splat Selection with AI and Human in the Loop ​

[8] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models ​

[9] DEGMC: Denoising Diffusion Models Based on Riemannian Equivariant Group Morphological Convolutions ​

[10] XSPLAIN: XAI-enabling Splat-based Prototype Learning for Attribute-aware INterpretability ​

[11] PMMA: The Polytechnique Montreal Mobility Aids Dataset ​

[12] Colorimeter-Supervised Skin Tone Estimation from Dermatoscopic Images for Fairness Auditing ​

[13] ERGO: Excess-Risk-Guided Optimization for High-Fidelity Monocular 3D Gaussian Splatting ​

[14] A Low-Rank Defense Method for Adversarial Attack on Diffusion Models ​

[15] Flow Matching with Uncertainty Quantification and Guidance ​

[16] Conditional Uncertainty-Aware Political Deepfake Detection with Stochastic Convolutional Neural Networks ​

[17] Monte Carlo Maximum Likelihood Reconstruction for Digital Holography with Speckle ​

[18] Comp2Comp: Open-Source Software with FDA-Cleared Artificial Intelligence Algorithms for Computed Tomography Image Analysis ​

[19] HII-DPO: Eliminate Hallucination via Accurate Hallucination-Inducing Counterfactual Images ​

[20] Towards Remote Sensing Change Detection with Neural Memory ​

[21] End-to-End LiDAR optimization for 3D point cloud registration ​

[22] Characterizing and Optimizing the Spatial Kernel of Multi Resolution Hash Encodings ​

[23] The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation ​

[24] Med-SegLens: Latent-Level Model Diffing for Interpretable Medical Image Segmentation ​

[25] 1%>100%: High-Efficiency Visual Adapter with Complex Linear Projection Optimization ​

[26] 3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars ​

[27] MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps ​

[28] RealHD: A High-Quality Dataset for Robust Detection of State-of-the-Art AI-Generated Images ​

[29] Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance ​

[30] C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning ​

[31] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning ​

[32] Enhancing Underwater Images via Adaptive Semantic-aware Codebook Learning ​

[33] Enhancing YOLOv11n for Reliable Child Detection in Noisy Surveillance Footage ​

[34] Fast Person Detection Using YOLOX With AI Accelerator For Train Station Safety ​

[35] Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation ​

[36] A Vision-Language Foundation Model for Zero-shot Clinical Collaboration and Automated Concept Discovery in Dermatology ​

[37] Eliminating VAE for Fast and High-Resolution Generative Detail Restoration ​

[38] VideoSTF: Stress-Testing Output Repetition in Video Large Language Models ​

[39] Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation ​

[40] AurigaNet: A Real-Time Multi-Task Network for Enhanced Urban Driving Perception ​

[41] Dynamic Frequency Modulation for Controllable Text-driven Image Generation ​

[42] AMAP-APP: Efficient Segmentation and Morphometry Quantification of Fluorescent Microscopy Images of Podocytes ​

[43] TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning ​

[44] OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL ​

[45] AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models ​

[46] (MGS)2-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization ​

[47] FGAA-FPN: Foreground-Guided Angle-Aware Feature Pyramid Network for Oriented Object Detection ​

[48] Ecological mapping with geospatial foundation models ​

[49] A Diffusion-Based Generative Prior Approach to Sparse-view Computed Tomography ​

[50] OccFace: Unified Occlusion-Aware Facial Landmark Detection with Per-Point Visibility ​

[51] Self-Supervised Image Super-Resolution Quality Assessment based on Content-Free Multi-Model Oriented Representation Learning ​

[52] Spectral-Spatial Contrastive Learning Framework for Regression on Hyperspectral Data ​

[53] Text-to-Vector Conversion for Residential Plan Design ​

[54] Dual-End Consistency Model ​

[55] From Steering to Pedalling: Do Autonomous Driving VLMs Generalize to Cyclist-Assistive Spatial Perception and Planning? ​

[56] RSHallu: Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation ​

[57] DMP-3DAD: Cross-Category 3D Anomaly Detection via Realistic Depth Map Projection with Few Normal Samples ​

[58] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories ​

[59] Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training ​

[60] Resource-Efficient RGB-Only Action Recognition for Edge Deployment ​

[61] Flow caching for autoregressive video generation ​

[62] Hyperspectral Smoke Segmentation via Mixture of Prototypes ​

[63] Stride-Net: Fairness-Aware Disentangled Representation Learning for Chest X-Ray Diagnosis ​

[64] Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation ​

[65] ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving ​

[66] FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference ​

[67] Towards Learning a Generalizable 3D Scene Representation from 2D Observations ​

[68] Healthy Harvests: A Comparative Look at Guava Disease Classification Using InceptionV3 ​

[69] VFGS-Net: Frequency-Guided State-Space Learning for Topology-Preserving Retinal Vessel Segmentation ​

[70] DFIC: Towards a balanced facial image dataset for automatic ICAO compliance verification ​

[71] Interpretable Vision Transformers in Image Classification via SVDA ​

[72] Enhancing Predictability of Multi-Tenant DNN Inference for Autonomous Vehicles' Perception ​

[73] Interpretable Vision Transformers in Monocular Depth Estimation via SVDA ​

[74] LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation ​

[75] Chain-of-Look Spatial Reasoning for Dense Surgical Instrument Counting ​

[76] PuriLight: A Lightweight Shuffle and Purification Framework for Monocular Depth Estimation ​

[77] Chatting with Images for Introspective Visual Thinking ​

[78] First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges ​

[79] FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference ​

cs.CV

[1] Multi-encoder ConvNeXt Network with Smooth Attentional Feature Fusion for Multispectral Semantic Segmentation

[2] Multimodal Information Fusion for Chart Understanding: A Survey of MLLMs -- Evolution, Limitations, and Cognitive Enhancement

[3] MPA: Multimodal Prototype Augmentation for Few-Shot Learning

[4] VERA: Identifying and Leveraging Visual Evidence Retrieval Heads in Long-Context Understanding

[5] Beyond Closed-Pool Video Retrieval: A Benchmark and Agent Framework for Real-World Video Search and Moment Localization

[6] AD $^{2}$ : Analysis and Detection of Adversarial Threats in Visual Perception for End-to-End Autonomous Driving Systems

[7] ArtisanGS: Interactive Tools for Gaussian Splat Selection with AI and Human in the Loop

[8] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

[9] DEGMC: Denoising Diffusion Models Based on Riemannian Equivariant Group Morphological Convolutions

[10] XSPLAIN: XAI-enabling Splat-based Prototype Learning for Attribute-aware INterpretability

[11] PMMA: The Polytechnique Montreal Mobility Aids Dataset

[12] Colorimeter-Supervised Skin Tone Estimation from Dermatoscopic Images for Fairness Auditing

[13] ERGO: Excess-Risk-Guided Optimization for High-Fidelity Monocular 3D Gaussian Splatting

[14] A Low-Rank Defense Method for Adversarial Attack on Diffusion Models

[15] Flow Matching with Uncertainty Quantification and Guidance

[16] Conditional Uncertainty-Aware Political Deepfake Detection with Stochastic Convolutional Neural Networks

[17] Monte Carlo Maximum Likelihood Reconstruction for Digital Holography with Speckle

[18] Comp2Comp: Open-Source Software with FDA-Cleared Artificial Intelligence Algorithms for Computed Tomography Image Analysis

[19] HII-DPO: Eliminate Hallucination via Accurate Hallucination-Inducing Counterfactual Images

[20] Towards Remote Sensing Change Detection with Neural Memory

[21] End-to-End LiDAR optimization for 3D point cloud registration

[22] Characterizing and Optimizing the Spatial Kernel of Multi Resolution Hash Encodings

[23] The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

[24] Med-SegLens: Latent-Level Model Diffing for Interpretable Medical Image Segmentation

[25] 1%>100%: High-Efficiency Visual Adapter with Complex Linear Projection Optimization

[26] 3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars

[27] MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real-World Maps

[28] RealHD: A High-Quality Dataset for Robust Detection of State-of-the-Art AI-Generated Images

[29] Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance

[30] C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning

[31] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

[32] Enhancing Underwater Images via Adaptive Semantic-aware Codebook Learning

[33] Enhancing YOLOv11n for Reliable Child Detection in Noisy Surveillance Footage

[34] Fast Person Detection Using YOLOX With AI Accelerator For Train Station Safety

[35] Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

[36] A Vision-Language Foundation Model for Zero-shot Clinical Collaboration and Automated Concept Discovery in Dermatology

[37] Eliminating VAE for Fast and High-Resolution Generative Detail Restoration

[38] VideoSTF: Stress-Testing Output Repetition in Video Large Language Models

[39] Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation

[40] AurigaNet: A Real-Time Multi-Task Network for Enhanced Urban Driving Perception

[41] Dynamic Frequency Modulation for Controllable Text-driven Image Generation

[42] AMAP-APP: Efficient Segmentation and Morphometry Quantification of Fluorescent Microscopy Images of Podocytes

[43] TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning

[44] OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL

[45] AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models

[46] (MGS) $^{2}$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

[47] FGAA-FPN: Foreground-Guided Angle-Aware Feature Pyramid Network for Oriented Object Detection

[48] Ecological mapping with geospatial foundation models

[49] A Diffusion-Based Generative Prior Approach to Sparse-view Computed Tomography

[50] OccFace: Unified Occlusion-Aware Facial Landmark Detection with Per-Point Visibility

[51] Self-Supervised Image Super-Resolution Quality Assessment based on Content-Free Multi-Model Oriented Representation Learning

[52] Spectral-Spatial Contrastive Learning Framework for Regression on Hyperspectral Data

[53] Text-to-Vector Conversion for Residential Plan Design

[54] Dual-End Consistency Model

[55] From Steering to Pedalling: Do Autonomous Driving VLMs Generalize to Cyclist-Assistive Spatial Perception and Planning?

[56] RSHallu: Dual-Mode Hallucination Evaluation for Remote-Sensing Multimodal Large Language Models with Domain-Tailored Mitigation

[57] DMP-3DAD: Cross-Category 3D Anomaly Detection via Realistic Depth Map Projection with Few Normal Samples

[58] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

[59] Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training

[60] Resource-Efficient RGB-Only Action Recognition for Edge Deployment

[61] Flow caching for autoregressive video generation

[62] Hyperspectral Smoke Segmentation via Mixture of Prototypes

[63] Stride-Net: Fairness-Aware Disentangled Representation Learning for Chest X-Ray Diagnosis

[64] Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation

[65] ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving

[66] FastUSP: A Multi-Level Collaborative Acceleration Framework for Distributed Diffusion Model Inference

[67] Towards Learning a Generalizable 3D Scene Representation from 2D Observations

[68] Healthy Harvests: A Comparative Look at Guava Disease Classification Using InceptionV3

[69] VFGS-Net: Frequency-Guided State-Space Learning for Topology-Preserving Retinal Vessel Segmentation

[70] DFIC: Towards a balanced facial image dataset for automatic ICAO compliance verification

[71] Interpretable Vision Transformers in Image Classification via SVDA

[72] Enhancing Predictability of Multi-Tenant DNN Inference for Autonomous Vehicles' Perception

[73] Interpretable Vision Transformers in Monocular Depth Estimation via SVDA

[74] LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation

[75] Chain-of-Look Spatial Reasoning for Dense Surgical Instrument Counting

[76] PuriLight: A Lightweight Shuffle and Purification Framework for Monocular Depth Estimation

[77] Chatting with Images for Introspective Visual Thinking

[78] First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

[79] FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference