每日arXiv - 2026年2月24日 | Egg Targaryen的个人博客

以下论文的arXiv类型标签包含：cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

Suraj Prasad,Anubha Pant

Main category: cs.CV

TL;DR: FedTPG复现研究：在6个视觉数据集上验证了文本驱动提示生成网络在联邦学习中的有效性，实现了74.58%的基础类准确率和76.00%的新类准确率，比原论文结果仅差0.2%。

Motivation: 尽管CLIP等视觉语言模型在零样本学习上表现出色，但在联邦学习场景中适应未见类别时面临泛化挑战。原FedTPG论文通过文本驱动提示生成网络解决了这一问题，本研究旨在验证其方法的可复现性和有效性。
Method: 对FedTPG进行忠实复现研究，在6个多样化视觉数据集（Caltech101、Oxford Flowers、FGVC Aircraft、Oxford Pets、Food-101、DTD）上评估预训练模型，使用文本驱动提示生成网络动态创建基于类别名称的提示。
Result: 复现结果与原论文报告准确率相差仅0.2%，平均准确率在基础类上达到74.58%，在新类上达到76.00%，泛化性能提升1.43个百分点，验证了方法的有效性。
Conclusion: 成功复现验证了FedTPG方法的稳健性和可复现性，证实了文本驱动提示生成在联邦学习中能够实现更好的未见类别泛化，同时保持跨视觉领域的高性能而不共享私有数据。

[2] A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer

Anvi Sud,Jialu Huang,Gregory R. Hart,Keshav Saxena,John Kim,Lauren Tressel,Jun Deng

Main category: cs.CV

TL;DR: 开发了COMPASS系统，利用AI时间序列建模预测放疗毒性，在小型NSCLC患者队列中展示了早期预警能力

Motivation: 当前放疗决策主要依赖静态的群体NTCP模型，忽略了患者个体在治疗过程中的动态生物学轨迹。现代放疗产生的高频影像和剂量数据适合AI时间建模，但尚未充分利用。
Method: 开发COMPASS系统作为时间数字孪生架构，整合每次分次治疗的PET、CT、剂量组学、影像组学和累积生物等效剂量动力学数据。使用GRU自编码器学习器官特异性潜在轨迹，通过逻辑回归分类预测最终毒性。
Result: 在8名NSCLC患者的99个器官分次观察数据中，系统成功识别出毒性发生前的早期预警窗口。密集的BED驱动表征揭示了传统体积剂量学平均掉的生物学相关空间剂量纹理特征。
Conclusion: COMPASS为AI驱动的自适应放疗提供了概念验证，通过持续更新的数字孪生跟踪患者生物学响应，可实现治疗方案的个体化调整。

[3] Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality

Kian Wei Ng,Yujia Gao,Deborah Khoo,Ying Zhen Tan,Chengzheng Mao,Haojie Cheng,Andrew Makmur,Kee Yuan Ngiam,Serene Goh,Eng Tat Khoo

Main category: cs.CV

TL;DR: MARVUS系统利用增强现实和基础模型，通过常规2D超声设备实现准确、可重复的3D病灶体积测量，减少用户间变异性和硬件需求。

Motivation: 2D超声是乳腺和甲状腺成像的首选一线模态，但基于2D超声的体积估计存在高用户间变异性。现有3D超声解决方案需要专用探头或外部跟踪硬件，增加了成本和便携性限制，制约了临床广泛应用。
Method: 开发了移动增强现实体积超声（MARVUS）系统，与常规超声系统互操作，使用基础模型增强跨专业泛化能力，同时最小化硬件需求。系统通过AR可视化辅助体积测量。
Result: 在乳腺体模的用户研究中，MARVUS显著提高了体积估计准确性（平均差异：0.469 cm³），减少了用户间变异性（平均差异：0.417 cm³）。AR可视化提升了客观性能指标和临床医生报告的使用性。
Conclusion: MARVUS能够以可扩展、成本意识和资源高效的方式增强基于超声的癌症筛查、诊断工作流程和治疗规划，提高体积评估的可及性和可重复性。

[4] Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study

Sarah Müller,Philipp Berens

Main category: cs.CV

TL;DR: 系统评估医学影像中特征解耦方法缓解捷径学习的效果，发现结合数据重平衡和模型解耦的方法表现最佳，在强虚假相关下提升分类性能并保持计算效率。

Motivation: 医学影像深度学习模型容易依赖捷径学习（利用虚假相关性或混杂因素），这在临床环境中存在风险，因为模型需要在不同机构、人群和采集条件下泛化。特征解耦是缓解这一问题的有前景方法。
Method: 系统评估特征解耦方法，包括对抗学习和基于依赖最小化的潜在空间分割。使用一个人工数据集和两个医学数据集（含自然和合成混杂因素），评估分类性能、解耦质量、鲁棒性和计算效率。
Result: 捷径缓解方法在训练数据存在强虚假相关时提升了分类性能。潜在空间分析揭示了分类指标未捕捉到的表示质量差异。模型对捷径的依赖程度取决于训练数据中的混杂程度。最佳模型结合数据重平衡和模型解耦，比单独重平衡实现更强更鲁棒的捷径缓解，同时保持相似计算效率。
Conclusion: 特征解耦方法能有效缓解医学影像中的捷径学习问题。综合方法（数据重平衡+模型解耦）在保持计算效率的同时提供最鲁棒的捷径缓解，潜在空间分析对于评估解耦质量至关重要。

[5] A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage

Daniel Tshiani

Main category: cs.CV

TL;DR: 开发基于单摄像头广播视频的计算机视觉系统，用于足球比赛中的球员、裁判和球体检测跟踪，为预算有限的球队提供专业级数据分析能力。

Motivation: 专业球队通过昂贵的多摄像头或GPS系统获得数据优势，而低预算球队无法获取类似信息，这造成了竞争不公平。需要开发从标准广播视频中提取数据的替代方案。
Method: 结合YOLO目标检测器和ByteTrack跟踪算法，构建端到端系统，从单摄像头广播视频中识别和跟踪球员、裁判、守门员和球体。
Result: 系统在检测和跟踪球员和裁判方面表现出色，具有较高的精确度、召回率和mAP50分数。球体检测仍然是主要挑战，但整体证明AI可以从单摄像头提取有意义的球员级空间信息。
Conclusion: 该方法通过减少对专业硬件的依赖，使大学、学院和业余俱乐部能够采用以前只有专业球队才能获得的可扩展数据驱动分析方法，展示了基于计算机视觉的足球分析的可负担潜力。

[6] Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

Yurim Jang,Jaeung Lee,Dohyun Kim,Jaemin Jo,Simon S. Woo

Main category: cs.CV

TL;DR: 提出基于稀疏自编码器的恢复分析框架，发现多数遗忘方法仅抑制而非真正删除信息，揭示表示层保留风险

Motivation: 随着预训练模型广泛共享，需要确保模型能按要求遗忘敏感信息。当前遗忘方法评估依赖输出指标，无法验证信息是否真正删除还是仅被抑制
Method: 提出恢复分析框架：使用稀疏自编码器识别中间层的类别特定专家特征，应用推理时引导定量区分抑制与删除，评估12种主要遗忘方法
Result: 大多数方法实现高恢复率，表明仅决策边界抑制而保留中间表示语义特征；即使从预训练检查点重新训练也显示高恢复，揭示预训练继承的鲁棒语义特征未被移除
Conclusion: 表示层保留风险被输出指标忽视，需要新的遗忘评估标准，提出优先表示层验证的评估指南，尤其针对隐私关键应用

[7] Depth from Defocus via Direct Optimization

Holly Jackson,Caleb Adams,Ignacio Lopez-Francos,Benjamin Recht

Main category: cs.CV

TL;DR: 本文提出了一种基于交替最小化的全局优化方法，用于从散焦图像恢复深度，通过凸优化和并行网格搜索实现高分辨率深度估计，性能优于当前深度学习方法。

Motivation: 尽管基于光学物理的散焦模糊前向模型已经存在，但从散焦图像集合中恢复深度仍然是一个计算上具有挑战性的优化问题。作者希望证明在现代优化方法和合理计算资源下，全局优化方法对于散焦深度恢复是可行的。
Method: 采用交替最小化方法：1) 固定深度图时，前向模型相对于全聚焦图像是线性的，使用凸优化；2) 固定全聚焦图像时，每个像素的深度可以独立计算，实现高度并行化的网格搜索。交替进行这两个步骤来解决问题。
Result: 该方法能够在比当前深度学习方法更高的分辨率下有效解决散焦深度恢复问题，在合成和真实散焦模糊的基准数据集上展示了有希望的结果，优于先前方法。
Conclusion: 通过交替凸优化和并行网格搜索的全局优化方法，证明了散焦深度恢复在现代计算资源下是可行的，并且能够达到比深度学习方法更高的分辨率，为深度从散焦问题提供了有效的解决方案。

[8] Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

Aayam Bansal

Main category: cs.CV

TL;DR: Sketch2Feedback是一个语法循环框架，通过四阶段流程（混合感知、符号图构建、约束检查、受限VLM反馈）来减少幻觉，为STEM教育中的学生绘图提供可靠的反馈。

Motivation: 在STEM教育中，及时提供符合评分标准的学生绘图反馈是一个持续挑战。虽然大型多模态模型（LMMs）能够同时解析图像和生成解释，但其幻觉倾向会损害课堂部署的信任度。
Method: 提出Sketch2Feedback框架，将问题分解为四个阶段：1) 混合感知，2) 符号图构建，3) 约束检查，4) 受限VLM反馈。语言模型仅对上游规则引擎验证的违规进行语言化描述。
Result: 在FBD-10和Circuit-10两个合成微基准测试中，Qwen2-VL-7B在F1分数上表现最佳（FBD: 0.570，电路: 0.528），但幻觉率极高（0.78，0.98）。语法管道在电路反馈可操作性上得分更高（4.85/5 vs 3.11/5）。置信度阈值在τ=0.7时能将电路幻觉从0.970降至0.880且无F1损失。
Conclusion: 语法循环方法能够显著减少幻觉并提高反馈质量，特别是在电路分析等结构化领域。端到端LMMs和语法方法之间存在可开发的互补性，混合方法可能提供最佳平衡。

[9] Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Vasile Marian,Yong-Bin Kang,Alexander Buddery

Main category: cs.CV

TL;DR: 该研究系统评估了合成图像增强对目标检测性能的影响，发现在不同检测场景下效果差异显著，且传统生成质量指标与下游检测性能关联有限。

Motivation: 合成图像越来越多地用于增强目标检测训练集，但如何在训练前可靠评估合成数据集仍很困难：标准的全局生成指标（如FID）通常无法预测下游检测mAP。
Method: 在三个单类检测场景下进行控制实验：交通标志（稀疏/接近饱和）、Cityscapes行人（密集/遮挡严重）和COCO盆栽植物（多实例/高变异性）。使用六种基于GAN、扩散和混合的生成器，在10%到150%的增强比例下训练YOLOv11，计算预训练数据集指标包括全局特征空间指标和对象中心分布距离。
Result: 合成增强在更具挑战性的场景中带来显著增益（行人和盆栽植物分别相对提升7.6%和30.6%），但在交通标志场景和预训练微调下效果有限。指标与性能的对齐强烈依赖于场景，许多原始关联在控制增强水平后减弱。
Conclusion: 合成增强的效果高度依赖于检测场景，传统生成质量指标与下游检测性能的关联有限且场景依赖，需要更精细的评估方法来预测合成数据对检测性能的实际影响。

[10] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Zhan Liu,Changli Tang,Yuxin Wang,Zhiyuan Zhu,Youjun Chen,Yiwen Shao,Tianzi Wang,Lei Ke,Zengrui Jin,Chao Zhang

Main category: cs.CV

TL;DR: JAEGER框架将音频-视觉大语言模型扩展到3D空间，通过RGB-D和多声道一阶Ambisonics实现联合空间定位与推理，提出Neural IV音频表示，并在SpatialSceneQA基准上验证了3D建模的必要性。

Motivation: 当前音频-视觉大语言模型局限于2D感知（RGB视频和单声道音频），存在维度不匹配问题，无法在复杂3D环境中进行可靠源定位和空间推理。需要解决这一限制以推进AI在物理环境中的应用。
Method: 提出JAEGER框架，集成RGB-D观测和多声道一阶Ambisonics；核心贡献是Neural IV（神经强度向量），一种学习型空间音频表示，可编码鲁棒方向线索以增强到达方向估计；创建SpatialSceneQA基准（61k指令调优样本）用于大规模训练和系统评估。
Result: 实验表明，该方法在多样化空间感知和推理任务上持续超越2D中心基线，验证了显式3D建模对物理环境中AI进步的必要性。
Conclusion: 通过将AV-LLMs扩展到3D空间，JAEGER框架实现了联合空间定位与推理，Neural IV表示增强了方向感知能力，证明了3D建模对物理环境AI系统的重要性。

[11] Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

Hatice Karatas,Irfan Atabas

Main category: cs.CV

TL;DR: 本研究比较了10种深度学习架构对土耳其5种本地黑食用橄榄品种的图像分类性能，发现EfficientNetV2-S准确率最高(95.8%)，EfficientNetB0在准确率和计算复杂度间取得最佳平衡。

Motivation: 土耳其本地种植的黑食用橄榄品种（Gemlik、Ayvalik、Uslu、Erkence、Celebi）需要自动化分类方法。传统人工分类方法耗时且主观，需要开发基于图像的自动化分类系统来提升效率和准确性。
Method: 使用2500张图像数据集，采用迁移学习方法训练10种深度学习架构：MobileNetV2、EfficientNetB0、EfficientNetV2-S、ResNet50、ResNet101、DenseNet121、InceptionV3、ConvNeXt-Tiny、ViT-B16和Swin-T。评估指标包括准确率、精确率、召回率、F1分数、MCC、Cohen's Kappa、ROC-AUC、参数量、FLOPs、推理时间和泛化差距。
Result: EfficientNetV2-S获得最高分类准确率95.8%，EfficientNetB0在准确率和计算复杂度之间达到最佳平衡。在有限数据条件下，参数效率比模型深度更重要。
Conclusion: 深度学习模型可以有效分类土耳其本地黑食用橄榄品种。在数据有限的情况下，应优先考虑参数效率高的模型而非单纯追求模型深度。EfficientNet系列模型在准确率和计算效率方面表现优异。

[12] VLANeXt: Recipes for Building Strong VLA Models

Xiao-Ming Wu,Bin Fan,Kang Liao,Jian-Jian Jiang,Runze Yang,Yihang Luo,Zhonghua Wu,Wei-Shi Zheng,Chen Change Loy

Main category: cs.CV

TL;DR: 该论文系统分析了视觉-语言-动作模型的设计空间，提出了统一的评估框架，并基于研究发现构建了VLANeXt模型，在多个基准测试中表现优异。

Motivation: 当前VLA模型领域存在碎片化和探索性问题，不同研究团队提出的模型在训练协议和评估设置上不一致，难以确定哪些设计选择真正重要。需要建立一个统一框架来系统分析VLA设计空间。
Method: 从类似RT-2和OpenVLA的简单VLA基线出发，系统分析三个维度的设计选择：基础组件、感知要素和动作建模视角。通过统一框架和评估设置进行研究，最终构建了VLANeXt模型。
Result: 研究提炼出12个关键发现，形成了构建强大VLA模型的实用配方。VLANeXt在LIBERO和LIBERO-plus基准测试中超越了先前的最先进方法，并在真实世界实验中表现出强大的泛化能力。
Conclusion: 该研究为VLA设计空间带来了结构化分析，提出了有效的VLANeXt模型，并承诺发布统一易用的代码库作为社区共享平台，促进VLA研究的可复现性和进一步发展。

[13] Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Andrew Fraser

Main category: cs.CV

TL;DR: 本文证明形态压力在文本到图像生成管道的多个层面创建了可导航梯度：通过形态描述符导航身份盆地，以及通过语音象征性词素生成视觉一致的新概念。

Motivation: 探索文本到图像生成模型中形态结构如何创建系统性的导航梯度，研究形态描述符和语音象征性词素在塑造视觉概念中的作用。
Method: 研究1：使用形态描述符（如"铂金发"、"美人痣"）导航Stable Diffusion 1.5中的身份盆地，通过自蒸馏循环训练LoRA。研究2：基于语音象征性理论生成200个无意义词汇，评估其视觉一致性。
Result: 研究1：LoRA训练实现向特定身份的一致收敛（ArcFace相似度），产生局部坐标系和"恐怖谷"效应。研究2：语音象征性词汇比随机对照产生显著更一致的视觉输出（Purity@1 = 0.371 vs. 0.209），三个词汇实现完美视觉一致性。
Conclusion: 形态结构（特征描述符和语音象征形式）在扩散模型潜在空间中创建了系统性的导航梯度，揭示了身份盆地的相变、CFG不变的身份稳定性，以及从亚词汇声音模式中涌现的新视觉概念。

[14] Rodent-Bench

Thomas Heap,Laurence Aitchison,Emma Cahill,Adriana Casado Rodriguez

Main category: cs.CV

TL;DR: Rodent-Bench是一个评估多模态大语言模型标注啮齿动物行为视频能力的新基准，测试发现当前最先进的MLLMs在该任务上表现不足，无法作为有效助手。

Motivation: 开发一个标准化的基准来评估MLLMs在神经科学研究中自动标注啮齿动物行为视频的能力，以推动该领域的技术进步。
Method: 创建包含多种行为范式（社交互动、梳理、抓挠、冻结行为）的数据集，视频长度10-35分钟，提供两个基准版本以适应不同模型能力，使用秒级准确率、宏F1、平均精度均值、互信息和马修斯相关系数等标准化评估指标。
Result: 测试了Gemini-2.5-Pro、Gemini-2.5-Flash和Qwen-VL-Max等最先进的MLLMs，发现没有一个模型表现足够好，可以作为该任务的助手。虽然某些模型在特定数据集（如梳理检测）上表现尚可，但整体结果揭示了在时间分割、处理长视频序列和区分细微行为状态方面的重大挑战。
Conclusion: Rodent-Bench揭示了当前MLLMs在科学视频标注方面的关键局限性，为未来模型开发提供了见解，并作为跟踪神经科学研究中可靠自动行为标注进展的基础。

[15] BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Safwat Nusrat,Prithwiraj Bhattacharjee

Main category: cs.CV

TL;DR: 该论文评估了多种YOLO架构在花卉检测中的性能，比较了单图像单边界框和单图像多边界框两种标注方式，并引入了包含6种花卉物种的FloralSix数据集。YOLOv8m在稀疏场景表现最佳，YOLOv12n在密集场景表现最优。

Motivation: 精确的花卉定位和识别对于自动化农业至关重要，特别是在植物表型分析、作物估算和产量监测方面。需要评估不同检测模型在不同标注密度下的性能，为实际应用提供指导。
Method: 使用多种YOLO架构（YOLOv5s、YOLOv8n/s/m、YOLOv12n）在FloralSix数据集上进行评估，该数据集包含2,816张高分辨率花卉照片，涵盖密集和稀疏两种场景。采用两种标注方式：单图像单边界框和单图像多边界框。使用精确率、召回率和mAP@0.5及mAP@0.5:0.95作为评估指标。
Result: 在单图像单边界框场景中，YOLOv8m（SGD）表现最佳：精确率0.956，召回率0.951，mAP@0.5 0.978，mAP@0.5:0.95 0.865。在单图像多边界框场景中，YOLOv12n（SGD）表现最优：mAP@0.5 0.934，mAP@0.5:0.95 0.752。SGD优化器在所有情况下都优于其他优化器。
Conclusion: 标注密度、IoU阈值和模型大小之间存在交互作用：召回率优化的模型在拥挤环境中表现更好，而精确率导向的模型在稀疏场景中表现最佳。这些密度敏感检测器可用于非破坏性作物分析、生长跟踪、机器人授粉和胁迫评估等农业应用。

[16] Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Massoud Dehghan,Ramona Woitek,Amirreza Mahbod

Main category: cs.CV

TL;DR: 在医学影像领域，Vision Transformers (ViTs) 的补丁大小对分类性能有显著影响，较小的补丁尺寸（1、2、4）在2D和3D数据集上都能带来性能提升，但会增加计算成本。

Motivation: 虽然ViTs及其变体在计算机视觉任务中表现出色，但补丁大小这一关键初始设计选择在医学领域的影响尚未得到充分探索，特别是在同时存在2D和3D成像模态的情况下。
Method: 使用12个医学影像数据集（7个2D和5个3D），在单个GPU上使用不同补丁大小（1、2、4、7、14、28）微调ViT模型，并采用简单集成策略融合补丁大小为1、2、4的模型预测。
Result: 较小的补丁尺寸（1、2、4）在几乎所有数据集上都取得了最佳分类性能：2D数据集平衡准确率提升高达12.78%（补丁大小2 vs. 28），3D数据集提升高达23.78%（补丁大小1 vs. 14）。集成策略在大多数情况下进一步提升了性能，特别是对2D数据集。
Conclusion: 在医学影像ViT模型中，较小的补丁尺寸能显著提升分类性能，尽管会增加计算成本。采用补丁大小为1、2、4的模型集成可以进一步改善结果，这为医学影像分析中的ViT设计提供了重要指导。

[17] Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

Aashish Chandra,Aashutosh A,Abhijit Das

Main category: cs.CV

TL;DR: 提出一种从静态图像、语音配置和目标文本生成逼真说话人脸的新方法，通过多纠缠潜在空间实现音频和视频模态的联合生成。

Motivation: 现有方法在生成逼真说话人脸时往往需要大量数据或难以实现多模态的协调生成。本文旨在从简单的输入（静态图像、语音配置和文本）生成高质量、同步的音频和视频输出。
Method: 模型编码驱动文本、驱动图像和个体语音配置，通过多纠缠潜在空间建立模态间的时空人物特定特征，生成键值对和查询，分别输入音频和视频解码器生成输出。
Result: 该方法能够从简单输入生成逼真的说话人脸，实现音频和视频模态的协调生成，多纠缠潜在空间有效建立了跨模态的人物特定特征关联。
Conclusion: 提出的多纠缠潜在空间方法为从简单输入生成逼真说话人脸提供了一种有效解决方案，实现了音频和视频模态的协调生成，具有实际应用价值。

[18] Deep LoRA-Unfolding Networks for Image Restoration

Xiangming Wang,Haijin Zeng,Benteng Sun,Jiezhang Cao,Kai Zhang,Qiangqiang Shen,Yongyong Chen

Main category: cs.CV

TL;DR: LoRun提出了一种基于LoRA适配器的深度展开网络，通过共享基础去噪器并注入轻量级适配器来动态调整各阶段去噪强度，显著减少参数冗余，提升图像恢复效率。

Motivation: 现有深度展开网络存在两个关键问题：1）各阶段使用相同的去噪模块架构和目标，忽略了不同阶段噪声水平变化的适应性需求；2）结构重复的块导致严重的参数冗余和高内存消耗，限制了在资源受限场景中的部署。
Method: 提出LoRun方法，采用广义深度低秩适应（LoRA）展开网络。共享一个预训练的基础去噪器，同时在每个阶段的近端映射模块中注入轻量级的、阶段特定的LoRA适配器，根据每个展开步骤的噪声水平动态调整去噪行为。
Result: 在三个图像恢复任务上的广泛实验验证了方法的有效性。对于N阶段的深度展开网络，实现了高达N倍的参数减少，同时保持相当或更好的性能。
Conclusion: LoRun通过将核心恢复能力与任务特定适应解耦，实现了对去噪强度的精确控制，无需复制完整网络参数，显著提高了深度展开网络的效率和部署可行性。

[19] Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Houlun Chen,Xin Wang,Guangyao Li,Yuwei Zhou,Yihan Chen,Jia Jia,Wenwu Zhu

Main category: cs.CV

TL;DR: Video-TwG：一种课程强化框架，采用"思考与接地"范式，让视频LLM在交错文本-视频推理中主动决定何时进行按需接地，仅在必要时放大到问题相关片段。

Motivation: 当前长视频理解方法仅依赖文本形式推理，在固定视频上下文下可能加剧幻觉问题，因为长视频的时间冗余导致关键细节被忽略。
Method: 提出Video-TwG框架，采用Think-with-Grounding范式；设计两阶段强化课程策略：先在带接地标签的短视频GQA数据集上学习，再扩展到多样化的通用QA数据；提出TwG-GRPO算法，包含细粒度接地奖励、自确认伪奖励和准确度门控机制；构建TwG-51K数据集。
Result: 在Video-MME、LongVideoBench和MLVU基准测试中，Video-TwG持续优于强LVU基线；消融实验验证了两阶段强化课程策略的必要性，显示TwG-GRPO能更好利用未标记数据提高接地质量并减少冗余接地，同时不牺牲QA性能。
Conclusion: Video-TwG通过主动的按需接地机制，有效解决了长视频理解中因时间冗余导致的幻觉问题，提供了一种端到端可训练的解决方案，显著提升了长视频理解性能。

[20] IRIS-SLAM: Unified Geo-Instance Representations for Robust Semantic Localization and Mapping

Tingyang Xiao,Liu Liu,Wei Feng,Zhengyu Zou,Xiaolin Zhou,Wei Sui,Hao Li,Dingwen Zhang,Zhizhong Su

Main category: cs.CV

TL;DR: IRIS-SLAM：基于实例扩展基础模型的RGB语义SLAM系统，通过统一的几何-实例表示实现语义协同关联和实例引导的闭环检测，显著提升地图一致性和宽基线闭环可靠性。

Motivation: 现有几何基础模型在密集几何SLAM中取得进展，但缺乏深度语义理解和鲁棒闭环能力；同时当前语义建图方法常受解耦架构和脆弱数据关联的限制。需要弥合几何重建与开放词汇建图之间的鸿沟。
Method: 扩展几何基础模型，使其同时预测密集几何和跨视图一致的实例嵌入，创建统一的几何-实例表示。利用该表示实现语义协同关联机制和实例引导的闭环检测，通过视点无关的语义锚点连接几何重建与开放词汇建图。
Result: 实验结果表明IRIS-SLAM显著优于现有最先进方法，特别是在地图一致性和宽基线闭环可靠性方面表现突出。
Conclusion: IRIS-SLAM通过统一的几何-实例表示成功弥合了几何重建与语义理解之间的差距，为语义SLAM提供了更鲁棒和一致的解决方案。

[21] HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

Ahmed Akl,Abdelwahed Khamis,Ali Cheraghian,Zhe Wang,Sara Khalifa,Kewen Wang

Main category: cs.CV

TL;DR: 提出HIME方法，通过层自适应权重编辑减少大视觉语言模型中的物体幻觉，无需额外参数或计算开销

Motivation: 大视觉语言模型存在物体幻觉问题，微调方法计算成本高，需要无训练替代方案。模型编辑是可行方向，但需要平衡幻觉抑制与预训练知识保护
Method: 提出幻觉不敏感分数(HIS)量化各层对幻觉的敏感性，基于此设计HIME方法进行层自适应权重编辑，选择性修改潜在特征
Result: HIME在开放生成基准测试中平均减少61.8%的幻觉，包括CHAIR、MME和GPT-4V辅助评估，不增加参数、推理延迟或计算开销
Conclusion: HIME提供了一种简单有效的训练自由方法，通过层特异性干预平衡幻觉抑制与知识保留，为大视觉语言模型的可靠部署提供解决方案

[22] NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

Yufan Wang,Sokratis Makrogiannis,Chandra Kambhamettu

Main category: cs.CV

TL;DR: NeXt2Former-CD：结合ConvNeXt编码器、可变形注意力时间融合模块和Mask2Former解码器的端到端变化检测框架，在多个数据集上超越Mamba等SSM方法，性能更优且推理延迟相当。

Motivation: 虽然状态空间模型（SSMs）近期在遥感变化检测中因良好的扩展性而受到关注，但本文探索卷积和注意力架构作为竞争替代方案的潜力，旨在更好地处理配准噪声、小物体空间偏移和语义模糊等问题。
Method: 提出NeXt2Former-CD框架：1）使用DINOv3权重初始化的孪生ConvNeXt编码器；2）基于可变形注意力的时间融合模块；3）Mask2Former解码器。该设计能更好地容忍配准误差和语义模糊。
Result: 在LEVIR-CD、WHU-CD和CDD数据集上的实验表明，该方法在F1分数和IoU指标上均优于评估的所有方法，包括最近的Mamba基线。尽管参数量更大，但推理延迟与SSM方法相当。
Conclusion: NeXt2Former-CD证明了现代卷积和注意力架构在遥感变化检测中的竞争力，能够有效处理实际应用中的配准噪声和语义模糊问题，同时保持实用的推理效率。

[23] Subtle Motion Blur Detection and Segmentation from Static Image Artworks

Ganesh Samarth,Sibendu Paul,Solale Tabarestani,Caren Chen

Main category: cs.CV

TL;DR: SMBlurDetect：一个用于检测静态图像中细微运动模糊的统一框架，包含高质量数据集生成和端到端检测器，支持多粒度零样本检测。

Motivation: 流媒体服务中视觉资产（缩略图、封面等）的质量对用户参与度至关重要。细微运动模糊是普遍存在的质量问题，会降低视觉清晰度并影响用户信任和点击率。现有方法和数据集主要关注严重模糊，缺乏像素级细粒度标注，无法满足质量关键应用的需求。
Method: 1. 提出高质量运动模糊数据集生成管道：使用可控相机和物体运动模拟在SAM分割区域上合成真实运动模糊，结合alpha感知合成和平衡采样生成具有精确地面实况掩码的细微空间局部模糊。2. 训练U-Net检测器：使用ImageNet预训练编码器，采用混合掩码和图像中心策略，结合课程学习、困难负样本、焦点损失、模糊频率通道和分辨率感知增强。
Result: 在GoPro上达到89.68%准确率（基线66.50%），在CUHK上达到59.77%平均IoU（基线9.00%），分割性能提升6.6倍。能够准确定位细微模糊伪影，支持自动过滤低质量帧和智能裁剪的感兴趣区域提取。
Conclusion: SMBlurDetect框架通过高质量数据集生成和先进检测方法，显著提升了细微运动模糊检测性能，为零样本多粒度模糊检测提供了有效解决方案，适用于流媒体服务中的视觉质量控制和智能处理。

[24] WiCompass: Oracle-driven Data Scaling for mmWave Human Pose Estimation

Bo Liang,Chen Gong,Haobo Wang,Qirui Liu,Rungui Zhou,Fengzhi Shao,Yubo Wang,Wei Gao,Kaichen Zhou,Guolong Cui,Chenren Xu

Main category: cs.CV

TL;DR: WiCompass是一个覆盖感知的数据收集框架，通过利用大规模动作捕捉语料库构建通用姿态空间"预言机"，识别未被充分代表的动作，并优先收集信息丰富的缺失样本，以解决毫米波人体姿态估计在分布偏移下的泛化问题。

Motivation: 毫米波人体姿态估计虽然保护隐私，但在分布偏移下泛化能力差。传统的数据扩展方法对分布外鲁棒性无效，效率和覆盖范围是真正的瓶颈。
Method: WiCompass框架：1）利用大规模动作捕捉语料库构建通用姿态空间"预言机"，量化数据集冗余并识别未被充分代表的动作；2）采用闭环策略优先收集信息丰富的缺失样本。
Result: 实验表明，WiCompass在相同预算下持续提高分布外准确性，相比传统收集策略展现出优越的扩展行为。
Conclusion: 通过将重点从暴力扩展转向覆盖感知的数据获取，这项工作为鲁棒的毫米波感知提供了实用路径。

[25] MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

Sagarika Banerjee,Tangatar Madi,Advait Swaminathan,Nguyen Dao Minh Anh,Shivank Garg,Kevin Zhu,Vasu Sharma

Main category: cs.CV

TL;DR: MiSCHiEF：基于对比对设计的安全与文化领域基准数据集，评估视觉语言模型在细粒度图像-文本对齐上的能力，发现现有模型在模态对齐方面仍面临挑战。

Motivation: 在安全和文化等社会关键领域，视觉语言模型需要精确的细粒度图像-文本对齐能力，因为微小的误解可能导致严重的现实后果。现有模型在细微视觉或语言线索的区分上存在不足。
Method: 提出MiSCHiEF基准数据集，包含安全(MiS)和文化(MiC)两个领域。每个样本包含两个最小差异的文本描述和对应的最小差异图像。在MiS中，图像-文本对描述安全与不安全场景；在MiC中，描述两个不同文化背景的文化代理。评估了四个视觉语言模型在细粒度区分任务上的表现。
Result: 模型在确认正确图像-文本对方面表现优于拒绝错误对；在给定图像时从两个高度相似的文本中选择正确文本的准确率高于相反任务。整体结果显示当前视觉语言模型在模态对齐方面存在持续挑战。
Conclusion: 当前视觉语言模型在需要精确跨模态基础的细粒度语义和视觉区分任务中仍面临困难，突显了模态对齐问题的持续性，这对社会关键应用具有重要意义。

[26] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency

Weilong Yan,Haipeng Li,Hao Xu,Nianjin Ye,Yihao Ai,Shuaicheng Liu,Jingyu Hu

Main category: cs.CV

TL;DR: LaS-Comp是一种零样本、类别无关的3D形状补全方法，利用3D基础模型的几何先验，通过两阶段设计实现高质量补全，无需训练且兼容不同基础模型。

Motivation: 现有3D形状补全方法通常需要特定类别训练或难以处理多样化的部分观测模式。本文旨在开发一种无需训练、能处理各种类型部分观测的通用3D形状补全方法。
Method: 采用两阶段设计：1）显式替换阶段保持部分观测几何以确保忠实补全；2）隐式细化阶段确保观测区域与合成区域之间的无缝边界。该方法训练免费且兼容不同3D基础模型。
Result: 在包含真实世界和合成数据的综合基准Omni-Comp上，LaS-Comp在定量和定性实验中都优于先前的最先进方法。
Conclusion: LaS-Comp成功利用3D基础模型的几何先验实现了高质量的零样本3D形状补全，为处理多样化部分观测模式提供了有效的解决方案。

[27] Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Haobo Lin,Tianyi Bai,Chen Chen,Jiajun Zhang,Bohan Zeng,Wentao Zhang,Binhang Yuan

Main category: cs.CV

TL;DR: GeoCode是一个通过代码合成生成复杂多模态几何问题的数据集，通过代码预测作为对齐目标提升模型几何推理能力

Motivation: 当前视觉语言模型在处理复杂几何构造时存在困难，主要原因是训练数据有限且视觉-符号对齐较弱
Method: 提出从零合成多模态几何问题的流程：符号种子构造、基于验证的实例化、代码渲染；引入代码预测作为显式对齐目标
Result: GeoCode数据集比现有基准具有更高的结构复杂性和推理难度；在多个几何基准测试中，使用GeoCode训练的模型获得一致改进
Conclusion: GeoCode数据集和代码预测对齐策略能有效提升多模态几何推理能力，通过结构化合成和验证确保数学正确性

[28] MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

Haoyu Zhang,Yuwei Wu,Pengxiang Li,Xintong Zhang,Zhi Gao,Rui Gao,Mingyang Gao,Che Sun,Yunde Jia

Main category: cs.CV

TL;DR: MIRROR框架通过视觉区域反射增强多模态推理，减少幻觉和逻辑错误

Motivation: 现有视觉语言模型在处理模糊或复杂视觉输入时容易产生幻觉或逻辑错误，即使进行"反思"也往往脱离图像证据，需要更有效的视觉基础推理机制
Method: 提出MIRROR框架，采用包含草稿、批判、区域验证和修订的闭环过程，并构建ReflectV数据集进行多轮监督训练
Result: 在通用视觉语言基准和代表性视觉语言推理基准上，MIRROR提高了正确性并减少了视觉幻觉
Conclusion: 将反思训练为证据寻求、区域感知的验证过程而非纯文本修订步骤具有重要价值，能显著提升多模态推理的视觉基础性

[29] Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

Lavish Ramchandani,Aashay Tinaikar,Dev Kumar Das,Rohit Garg,Tijo Thomas

Main category: cs.CV

TL;DR: 该研究系统评估了10个基础模型在组织病理学像素级语义分割任务上的表现，发现视觉语言模型CONCH表现最佳，特征融合能显著提升性能。

Motivation: 虽然CLIP、DINO、CONCH等基础模型在各种图像任务中展现出优秀的领域泛化和无监督特征提取能力，但针对组织病理学像素级语义分割的系统性独立评估仍然缺乏。
Method: 提出稳健的基准测试方法，利用基础模型的注意力图作为像素级特征，使用XGBoost进行分类，实现快速、可解释、无需微调的模型无关评估。
Result: 视觉语言模型CONCH在四个组织病理学数据集上表现最佳，PathDino次之。不同组织病理学队列训练的特征具有互补性，CONCH、PathDino和CellViT特征融合后性能平均提升7.95%。
Conclusion: 基础模型集成能更好地泛化到多样化的组织病理学分割任务，特征融合策略可显著提升分割性能，为组织病理学分析提供了有效的模型选择指南。

[30] Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

Yuran Dong,Hang Dai,Mang Ye

Main category: cs.CV

TL;DR: EditedID提出了一种用于人脸编辑中身份保持的Alignment-Disentanglement-Entanglement框架，通过自适应混合、混合求解器和注意力门控机制解决跨源分布偏差和特征污染问题，在保持原始人脸身份和编辑元素一致性方面达到SOTA性能。

Motivation: 当前多模态编辑大模型在人脸编辑中存在面部身份一致性下降的问题，由于人眼对脸部特征高度敏感，这种不一致性严重阻碍了模型的实际部署。现有方法难以同时保持面部身份和编辑元素的一致性，主要面临跨源分布偏差和跨源特征污染的挑战。
Method: 提出EditedID框架，包含三个关键组件：1）自适应混合策略：在整个扩散过程中对齐跨源潜在表示；2）混合求解器：解耦源特定身份属性和细节；3）注意力门控机制：选择性纠缠视觉元素。该框架通过系统分析扩散轨迹、采样器行为和注意力特性来实现。
Result: 大量实验表明，EditedID在保持原始面部身份和编辑元素一致性方面达到了最先进的性能。作为一个无需训练、即插即用的解决方案，它为开放世界设置中的单/多人面部身份恢复建立了新的基准。
Conclusion: EditedID解决了人脸编辑中的身份一致性问题，为多模态编辑大模型在真人编辑场景中的部署铺平了道路，是一个实用可靠的解决方案。

[31] Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

Xiaoru Dong,Ruiqin Li,Xiao Han,Zhenxuan Wu,Jiamin Wang,Jian Chen,Qi Jiang,SM Yiu,Xinge Zhu,Yuexin Ma

Main category: cs.CV

TL;DR: Person2Drive：一个全面的个性化端到端自动驾驶平台和基准，解决个性化驾驶风格的数据、评估和算法三大挑战

Motivation: 人类驾驶行为具有天然多样性，但现有端到端自动驾驶系统通常学习单一平均驾驶风格，忽略了个人差异。个性化端到端自动驾驶面临三大挑战：缺乏个体级标注的真实世界数据集、缺少量化评估个人驾驶风格的指标、以及缺乏从用户轨迹学习风格化表示的算法。
Method: 提出Person2Drive平台，包含：1）开源灵活的数据收集系统，模拟真实场景生成可扩展的个性化驾驶数据集；2）基于风格向量的评估指标（最大均值差异和KL散度）全面量化个体驾驶行为；3）个性化端到端自动驾驶框架，配备风格奖励模型，高效适配端到端模型以实现安全个性化驾驶。
Result: 大量实验表明，Person2Drive能够实现细粒度分析、可重复评估和端到端自动驾驶中的有效个性化。数据集和代码将在论文接受后发布。
Conclusion: Person2Drive解决了个性化端到端自动驾驶的关键挑战，为研究社区提供了一个全面的平台和基准，推动个性化自动驾驶技术的发展。

[32] TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Haobo Lin,Tianyi Bai,Jiajun Zhang,Xuanhao Chang,Sheng Lu,Fangming Gu,Zengjie Hu,Wentao Zhang

Main category: cs.CV

TL;DR: TAG是一个用于面部表情识别的视觉-语言框架，通过将推理过程显式地锚定在面部动作单元(AUs)上来提高预测的可验证性和鲁棒性，减少幻觉问题。

Motivation: 当前视觉-语言模型在面部表情识别中产生的自然语言解释往往是未锚定的，产生流畅但不可验证的推理，与视觉证据联系薄弱，容易产生幻觉，导致在不同数据集上鲁棒性差。
Method: 提出TAG框架，要求中间推理步骤必须基于面部动作单元相关的面部区域进行锚定。通过监督微调在AU锚定的推理轨迹上训练，然后使用强化学习配合AU感知奖励，使预测区域与外部AU检测器对齐。
Result: 在RAF-DB、FERPlus和AffectNet数据集上评估，TAG持续优于强大的开源和闭源VLM基线，同时提高了视觉忠实度。消融和偏好研究表明AU锚定的奖励稳定了推理过程并减轻了幻觉。
Conclusion: 结构化锚定的中间表示对于面部表情识别中可信赖的多模态推理至关重要，AU锚定的方法提高了预测的可验证性和鲁棒性。

[33] A high-resolution nationwide urban village mapping product for 342 Chinese cities based on foundation models

Lubin Bai,Sheng Xiao,Ziyu Yin,Haoyu Wang,Siyang Wu,Xiuyuan Zhang,Shihong Du

Main category: cs.CV

TL;DR: 该研究创建了GeoLink-UV数据集，这是中国342个城市的高分辨率城中村全国地图产品，解决了城中村识别缺乏全国统一数据集的问题。

Motivation: 城中村是中国快速城市化中独特的高密度非正规住区，准确识别对城市治理、更新和可持续发展至关重要。但由于城中村在全国范围内存在显著的异质性和多样性，一直缺乏一致可靠的全国数据集。
Method: 使用多源地理空间数据（光学遥感影像和地理矢量数据），通过基础模型驱动的制图框架生成数据集，该框架旨在解决泛化问题并提高产品质量。基于28个城市独立样本进行地理分层精度评估。
Result: 创建了覆盖342个中国城市的GeoLink-UV数据集，验证了其在不同城市环境中的可靠性。分析显示城中村平均占建成区面积的8%，集中在中部和南部地区。建筑级分析确认了全国一致的"低层高密度"开发模式，同时揭示了区域差异的形态特征。
Conclusion: GeoLink-UV数据集为城市研究、非正规住区监测和基于证据的城市更新规划提供了开放且系统验证的地理空间基础，直接支持与可持续发展目标11相关的大规模评估。数据集已公开免费提供。

[34] Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

Pablo Meseguer,Rocío del Amor,Valery Naranjo

Main category: cs.CV

TL;DR: 提出ZS-MIL方法，使用VLM文本编码器的类别嵌入作为分类层初始化，解决MIL问题中随机初始化性能低于零样本预测的问题

Motivation: 在组织病理学WSI分类中，传统MIL框架使用随机初始化线性分类器，在少样本学习场景下性能不佳，甚至可能低于零样本预测性能
Method: 提出ZS-MIL方法，利用预训练VLM文本编码器的类别嵌入作为MIL分类层的初始化权重，而不是随机初始化
Result: 在少样本学习场景下，ZS-MIL相比传统权重初始化方法在性能和稳定性方面都表现更好
Conclusion: ZS-MIL通过利用VLM文本编码器的先验知识初始化分类层，有效提升了MIL框架在少样本学习中的性能

[35] MaskDiME: Adaptive Masked Diffusion for Precise and Efficient Visual Counterfactual Explanations

Changlu Guo,Anders Nymark Christensen,Anders Bjorholm Dahl,Morten Rieger Hannemose

Main category: cs.CV

TL;DR: 提出MaskDiME，一种快速、高效的扩散框架，用于生成视觉反事实解释，通过局部化采样实现语义一致性和空间精确性，比基线方法快30倍以上。

Motivation: 现有基于扩散的反事实生成方法存在计算成本高、采样速度慢、修改区域定位不精确的问题，需要一种更高效、更精确的解决方案。
Method: 提出MaskDiME框架，通过局部化采样统一语义一致性和空间精确性，自适应聚焦于决策相关区域，实现局部化和语义一致的反事实生成，同时保持高图像保真度。
Result: MaskDiME在五个基准数据集上达到可比或最先进的性能，推理速度比基线方法快30倍以上，为高效反事实解释提供了实用且可泛化的解决方案。
Conclusion: MaskDiME是一个简单、快速、有效的扩散框架，解决了现有方法的计算效率和定位精度问题，为视觉反事实解释提供了高效实用的解决方案。

[36] Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

Zhou Jiang,Yandong Wen,Zhen Liu

Main category: cs.CV

TL;DR: 提出一种基于分类器自由引导的偏好对齐方法，通过对比引导向量增强扩散模型与人类偏好的对齐，无需重新训练基础模型。

Motivation: 大规模文生图扩散模型与复杂人类偏好的对齐仍然具有挑战性。直接偏好优化（DPO）虽然简单有效，但大规模微调常出现泛化差距。
Method: 受测试时引导启发，将偏好对齐视为分类器自由引导（CFG）：微调的偏好模型在采样时作为外部控制信号。进一步将偏好学习解耦为分别训练于正负数据的两个模块，在推理时通过减去它们的预测形成对比引导向量，按用户选择强度缩放后添加到基础预测中。
Result: 在Stable Diffusion 1.5和Stable Diffusion XL上使用Pick-a-Pic v2和HPDv3进行评估，显示出一致的数量和质量提升。
Conclusion: 提出的方法通过对比引导实现了更清晰可控的对齐信号，改善了扩散模型与人类偏好的对齐，无需重新训练基础模型。

Wanqi Wang,Jingcai Guo,Yuxiang Cai,Zhi Chen

Main category: cs.CV

TL;DR: 提出LMP方法，通过结合文本提示和视觉示例构建多模态原型，提升跨域少样本目标检测性能

Motivation: 现有基于视觉语言模型的开放词汇检测器主要依赖文本提示，虽然能传递领域不变语义，但缺乏领域特定的视觉信息，在少样本监督下难以实现精确定位
Method: 提出双分支检测器LMP：视觉原型构建模块从支持区域聚合类级原型，并通过抖动框在查询图像中动态生成硬负样本原型；视觉引导分支将原型注入检测流程，文本引导分支保留开放词汇语义；两分支联合训练，推理时集成
Result: 在六个跨域基准数据集和标准1/5/10-shot设置下，达到最先进或极具竞争力的mAP性能
Conclusion: 通过结合文本语义抽象和领域自适应视觉细节，LMP方法有效提升了跨域少样本目标检测的性能

[38] HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

Chongyang Xu,Shen Cheng,Haipeng Li,Haoqiang Fan,Ziliang Feng,Shuaicheng Liu

Main category: cs.CV

TL;DR: HeRO是一种基于扩散的分层语义场策略，通过融合几何和语义信息实现姿态感知的机器人操作，在多个任务上达到SOTA性能。

Motivation: 现有几何策略缺乏部件级语义信息，而姿态感知操作（如区分鞋头和鞋跟）需要明确的语义理解，因此需要结合几何和语义的表示方法。
Method: 使用密集语义提升技术融合DINOv2的几何敏感特征和Stable Diffusion的全局一致对应关系，构建全局场和局部场，通过分层条件模块和置换不变网络架构生成控制策略。
Result: 在Place Dual Shoes任务上提升12.3%成功率，在六个姿态感知任务上平均提升6.5%，建立了新的SOTA。
Conclusion: HeRO通过分层语义场有效结合几何和语义信息，显著提升了姿态感知机器人操作的性能，代码已开源。

Xiaoyu Dong,Jiahuan Li,Ziteng Cui,Naoto Yokoya

Main category: cs.CV

TL;DR: RobSelf是一个完全自监督的跨模态超分辨率模型，无需训练数据、真值监督或预对齐，通过错位感知特征翻译器和内容感知参考滤波器处理真实世界错位数据。

Motivation: 解决真实世界中跨模态超分辨率面临的挑战：只有有限数量的低分辨率源图像和高分辨率引导图像对，且存在复杂的空间错位，传统方法需要大量对齐数据或监督信息。
Method: 提出RobSelf模型，包含两个关键技术：1) 错位感知特征翻译器，将无监督跨模态跨分辨率对齐重新表述为弱监督的错位感知翻译子任务；2) 内容感知参考滤波器，在引导特征指导下对源图像进行基于参考的判别性自增强。
Result: 在各种任务中，RobSelf实现了最先进的性能和卓越的效率。作者还引入了真实世界数据集RealMisSR来推进该领域研究。
Conclusion: RobSelf为处理真实世界错位数据的跨模态超分辨率提供了一种有效的完全自监督解决方案，无需训练数据或预对齐，具有实际应用价值。

[40] Spatial-Temporal State Propagation Autoregressive Model for 4D Object Generation

Liying Yang,Jialun Liu,Jiakui Hu,Chenhao Guan,Haibin Huang,Fangqiu Yi,Chi Zhang,Yanyan Liang

Main category: cs.CV

TL;DR: 4DSTAR：一种时空状态传播自回归模型，通过分组预测和状态传播机制生成时空一致的4D对象，优于现有扩散方法。

Motivation: 现有基于扩散的方法在生成4D对象时存在时空不一致问题，因为它们无法利用所有先前时间步的输出指导当前时间步的生成。
Method: 提出4DSTAR模型，包含两个关键组件：(1) 动态时空状态传播自回归模型(STAR)，将预测token按时间步分组，通过传播时空状态建模长期依赖关系；(2) 4D VQ-VAE，将4D结构隐式编码到离散空间，并将STAR预测的token解码为时间一致的动态3D高斯。
Result: 实验表明4DSTAR能够生成时空一致的4D对象，性能与扩散模型相当。
Conclusion: 4DSTAR通过状态传播机制有效解决了4D对象生成的时空一致性问题，为高质量4D内容生成提供了新方法。

[41] IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbation

Fadi Boutros,Eduarda Caldeira,Tahar Chettaoui,Naser Damer

Main category: cs.CV

TL;DR: IDPERTURB：一种几何驱动的采样策略，通过在单位超球面的约束角度区域内扰动身份嵌入，增强合成人脸图像的多样性，用于训练更鲁棒的人脸识别系统。

Motivation: 随着隐私和法律问题限制真实生物特征数据的使用，合成数据成为人脸识别系统训练的实用替代方案。然而，现有的身份条件扩散模型存在类内变异有限的问题，而类内多样性对于训练鲁棒和可泛化的人脸识别模型至关重要。
Method: 提出IDPERTURB方法：一种简单有效的几何驱动采样策略。该方法在单位超球面的约束角度区域内扰动身份嵌入，生成多样化的嵌入向量，而不修改底层生成模型。每个扰动后的嵌入作为预训练扩散模型的条件向量，合成视觉多样但身份一致的人脸图像。
Result: 实证结果表明，使用IDPERTURB生成的合成数据集训练人脸识别系统，在多个基准测试中相比现有合成数据生成方法取得了更好的性能。
Conclusion: IDPERTURB通过增强合成人脸图像的多样性，有效解决了现有身份条件扩散模型类内变异有限的问题，为训练鲁棒和可泛化的人脸识别系统提供了高质量的合成数据解决方案。

[42] CLAP Convolutional Lightweight Autoencoder for Plant Disease Classification

Asish Bera,Subhajit Roy,Sudiptendu Banerjee

Main category: cs.CV

TL;DR: 提出轻量级卷积自编码器CLAP用于植物病害分类，在三个公开数据集上取得竞争性精度，仅需500万参数，训练时间20毫秒，推理时间1毫秒/图像。

Motivation: 传统机器学习模型在真实田间条件下难以捕捉植物健康、生长和病害的细微差异特征，现有深度学习方法要么需要额外预处理，要么计算成本高。
Method: 提出轻量级自编码器CLAP，在编码器-解码器块中使用可分离卷积层，应用Sigmoid门控机制增强编码器特征判别能力，最后结合编码器-解码器特征图进行丰富特征表示。
Result: 在Integrated Plant Disease、Groundnut和CCMT三个公开植物数据集上获得改进或竞争性准确率，仅需500万参数，训练时间20毫秒，推理时间1毫秒/图像。
Conclusion: CLAP在植物病害分类任务中实现了性能与计算成本的良好平衡，为田间条件下的植物健康监测提供了高效解决方案。

[43] Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

Jiangling Zhang,Shuxuan Gao,Bofan Liu,Siqiang Feng,Jirui Huang,Yaxiong Chen,Ziyu Chen

Main category: cs.CV

TL;DR: IFA-Net 是一种用于像素级伪造区域定位的新方法，通过利用预训练的MAE作为真实性先验，从学习"什么是假的"转向建模"什么是真的"，在扩散修复基准上显著优于现有方法。

Motivation: 高度逼真的AI生成图像对数字取证提出了严峻挑战，需要精确的像素级伪造区域定位。现有方法主要学习特定伪造的判别模式，随着编辑技术的不断演进，往往难以应对新型篡改。
Method: 提出迭代伪造放大器网络(IFA-Net)，采用两阶段闭环流程：1) 双流分割网络(DSSN)融合原始图像和MAE重建残差进行粗定位；2) 任务自适应先验注入(TAPI)模块将粗预测转换为引导提示，引导MAE解码器并放大可疑区域的重建失败，实现精确细化。
Result: 在四个基于扩散的修复基准测试中，IFA-Net在IoU上平均提升6.5%，在F1分数上平均提升8.1%，优于第二名方法，同时对传统篡改类型表现出强大的泛化能力。
Conclusion: IFA-Net通过利用预训练的MAE作为通用真实性先验，成功地从学习伪造模式转向建模真实图像流形，为应对不断演进的AI生成图像篡改提供了有效的解决方案。

[44] Echoes of Ownership: Adversarial-Guided Dual Injection for Copyright Protection in MLLMs

Chengwei Xia,Fan Ma,Ruijie Quan,Yunqiu Xu,Kun Zhan,Yi Yang

Main category: cs.CV

TL;DR: 提出一个为多模态大语言模型生成版权触发器的框架，通过双注入所有权相关语义信息构建触发图像，用于追踪模型衍生版本的所有权归属。

Motivation: 随着多模态大语言模型的快速部署和广泛应用，关于模型版本归属和所有权的争议日益频繁，引发了知识产权保护的重要关切。需要一种方法让模型发布者能够在模型中嵌入可验证的所有权信息。
Method: 将图像作为可学习张量，通过双注入所有权相关语义信息进行对抗优化。第一注入通过强制辅助MLLM输出与预定义所有权目标文本一致，将所有权信息反向传播到图像中；第二注入在语义层面最小化图像CLIP特征与目标文本CLIP特征的距离。还引入对抗训练阶段，训练辅助模型抵抗生成所有权目标文本，增强鲁棒性。
Result: 大量实验证明，该双注入方法在各种微调和领域迁移场景下都能有效追踪模型谱系，在衍生模型中引发所有权相关文本响应，而在非衍生模型中保持惰性。
Conclusion: 提出的框架能够为多模态大语言模型生成有效的版权触发器，通过嵌入可验证的所有权信息解决模型版本归属争议，为MLLM的知识产权保护提供实用解决方案。

[45] DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

Aditya Kumar Singh,Hitesh Kandala,Pratik Prabhanjan Brahma,Zicheng Liu,Emad Barsoum

Main category: cs.CV

TL;DR: DUET-VLM：一种双阶段视觉令牌压缩框架，通过视觉冗余感知压缩和文本引导的层间令牌丢弃，在保持准确性的同时大幅减少视觉令牌数量。

Motivation: 当前视觉语言模型（VLMs）由于密集的视觉令牌化而计算成本高昂。现有方法要么合并冗余视觉令牌，要么在语言主干中逐步丢弃它们，通常以牺牲准确性为代价换取速度。
Method: 提出DUET-VLM双压缩框架：1）视觉冗余感知压缩：将视觉编码器输出压缩为信息保留令牌；2）层间文本引导丢弃：在语言主干中根据文本显著性逐步剪枝信息较少的视觉令牌。
Result: 在LLaVA-1.5-7B上，保持99%基线准确性的同时减少67%令牌，89%减少时仍保持>97%准确性。训练中双阶段压缩在67%减少时达到99.7%准确性，89%减少时达到97.6%。在Video-LLaVA-7B中甚至超越基线，53.1%令牌减少时准确性>100%，93.4%极端设置下保持97.6%准确性。
Conclusion: DUET-VLM通过端到端训练实现了对减少视觉输入的鲁棒适应，在不牺牲准确性的情况下，在相同计算预算内产生紧凑而语义丰富的表示，超越了现有视觉令牌减少方法。

[46] Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Dong Zhao,Qi Zang,Nan Pu,Wenjing Li,Nicu Sebe,Zhun Zhong

Main category: cs.CV

TL;DR: 提出开放词汇语义分割领域泛化新设定(OVDG-SS)，解决自动驾驶场景中同时面对未见域和未见类别的挑战，并提出S2-Corr方法优化文本-图像相关性

Motivation: 传统领域泛化方法局限于固定类别，而开放词汇分割模型对领域偏移敏感，特别是在自动驾驶场景中。需要同时解决未见域和未见类别的挑战
Method: 提出S2-Corr方法，基于状态空间的文本-图像相关性精炼机制，缓解领域偏移导致的文本-图像相关性扭曲，在分布变化下产生更一致的相关性
Result: 在构建的自动驾驶基准测试中，该方法相比现有开放词汇分割方法，在跨域性能和效率方面都表现出优越性
Conclusion: OVDG-SS是一个重要且未被充分探索的问题，提出的S2-Corr方法能有效应对领域偏移对文本-图像相关性的影响，为开放世界场景提供了更鲁棒的解决方案

[47] Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

Shile Li,Markus Karmann,Onay Urfalioglu

Main category: cs.CV

TL;DR: 提出一个端到端的视觉Transformer联合量化框架，无需标注数据，在单GPU上1小时完成ViT-small量化，实现SOTA的W4A4/W3A3精度，并在极低比特设置(W1.58A8)下首次获得强精度结果

Motivation: 现有后训练量化或块级重建方法无法有效处理Vision Transformers中的层间依赖关系，需要开发能够联合优化所有层和块间依赖的端到端量化方法，以实现高效的边缘部署
Method: 提出端到端联合量化框架，无需标注数据，联合优化所有层和块间依赖；引入数据自由校准策略，使用Stable Diffusion Turbo生成多样化的无标签样本，通过学习的多模式提示增强生成图像特征的多样性
Result: 在ImageNet上实现SOTA的W4A4和W3A3精度；首次在ViT、DeiT和Swin-T模型上获得极低比特(W1.58A8)下的强精度结果；数据自由校准方法性能与真实ImageNet校准相当，优于简单文本提示基线
Conclusion: 该框架为Vision Transformers提供了高效、可扩展的端到端量化解决方案，在保持精度的同时显著降低计算需求，展示了在边缘设备部署的潜力，特别是数据自由校准策略为无真实数据场景提供了有效替代方案

[48] Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

Zhuofan Xie,Zishan Lin,Jinliang Lin,Jie Qi,Shaohua Hong,Shuo Li

Main category: cs.CV

TL;DR: SaE框架通过将文本-图像相似度重新解释为证据，参数化狄利克雷分布来校准不确定性，解决主动学习中冷启动和过度自信问题，在医学图像分类上达到SOTA性能。

Motivation: 主动学习在医学图像标注中面临冷启动问题，而视觉语言模型的零样本预测将相似度作为确定性分数，忽略了内在不确定性，导致过度自信，误导样本选择浪费标注预算。
Method: 提出相似度即证据(SaE)框架，引入相似度证据头(SEH)，将相似度向量重新解释为证据并参数化狄利克雷分布。采用双因素获取策略：早期优先选择高空缺度样本（罕见疾病），后期优先选择高冲突度样本（模糊诊断）。
Result: 在10个公共医学图像数据集上，使用20%标注预算，SaE达到82.57%的宏平均准确率（SOTA）。在BTMRI数据集上实现0.425的负对数似然，表现出优越的校准性能。
Conclusion: SaE通过校准文本-图像相似度中的不确定性，有效解决主动学习的冷启动和过度自信问题，提供临床可解释的选择依据，在医学图像分类中实现高效标注。

[49] Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions

Xiaoyu Dong,Tiankui Xian,Wanshui Gan,Naoto Yokoya

Main category: cs.CV

TL;DR: 提出MM2D3D多模态分割模型，通过相机图像辅助增强稀疏LiDAR点云的2D语义预测密度和准确性，从而提升3D分割性能

Motivation: LiDAR点云投影到2D时存在稀疏性问题，导致中间2D语义预测稀疏且不准确，限制了最终3D分割精度。需要解决投影稀疏性对分割性能的限制。
Method: 提出MM2D3D多模态分割模型：1) 跨模态引导滤波：利用相机图像提取的密集语义关系约束中间2D预测，克服标签图稀疏性；2) 动态跨伪监督：鼓励2D预测模拟相机图像语义预测的密集分布，克服LiDAR图稀疏性
Result: 实验表明，该方法能够获得分布更密集、准确性更高的中间2D语义预测，有效提升了最终3D精度。在2D和3D空间均优于先前方法。
Conclusion: 通过相机图像辅助增强2D预测的密度和准确性，可以有效解决LiDAR投影稀疏性问题，提升3D语义分割性能。多模态融合是提升稀疏数据分割效果的有效途径。

[50] BiMotion: B-spline Motion for Text-guided Dynamic 3D Character Generation

Miaowei Wang,Qingxuan Yan,Zhi Cao,Yayuan Li,Oisin Mac Aodha,Jason J. Corso,Amir Vaxman

Main category: cs.CV

TL;DR: 提出BiMotion框架，使用连续可微B样条曲线表示运动，解决现有方法生成运动有限或不连贯的问题，实现更高质量、更符合文本描述的运动生成。

Motivation: 现有文本引导的3D角色生成方法由于固定长度时间输入和离散帧表示，难以生成高质量、连贯且忠实反映丰富文本描述的运动，通常只能生成有限子动作或不连贯运动。
Method: 1) 使用连续可微B样条曲线表示运动；2) 提出封闭形式的拉普拉斯正则化B样条求解器，将变长运动序列压缩为固定数量控制点的紧凑表示；3) 引入法线融合策略保持输入形状，以及对应感知和局部刚性损失保证运动恢复质量；4) 构建BIMO数据集用于训练。
Result: BiMotion框架相比现有SOTA方法能生成更具表现力、更高质量、更符合提示的运动，同时生成速度更快。通过广泛评估验证了其优越性。
Conclusion: 通过连续B样条运动表示和提出的优化策略，BiMotion成功解决了现有方法的局限性，实现了更高质量、更符合文本描述的3D角色运动生成。

[51] Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

Jie Li,Suorong Yang,Jian Zhao,Furao Shen

Main category: cs.CV

TL;DR: SLD-Font是一个结构级解耦扩散模型，通过双通道输入实现内容和风格的彻底分离，显著提升中文字体生成的风格保真度。

Motivation: 现有少样本中文字体生成方法仅在特征层面解耦内容和风格，导致生成器重新纠缠这些特征，造成内容扭曲和风格保真度下降。需要更有效的解耦机制。
Method: 提出结构级解耦扩散模型(SLD-Font)：1) 双通道输入 - 宋体图像作为内容模板，目标风格图像通过CLIP提取风格特征；2) 背景噪声去除模块处理复杂笔画区域；3) 参数高效微调策略，仅更新风格相关模块。
Result: 实验结果表明，SLD-Font在保持与现有SOTA方法相当的内容准确性的同时，实现了显著更高的风格保真度。引入的Grey和OCR指标有效评估生成字符的内容质量。
Conclusion: 通过结构级解耦机制，SLD-Font成功解决了少样本中文字体生成中的内容-风格纠缠问题，实现了更好的风格适应性和内容保真度。

Zhou Liu,Tonghua Su,Hongshi Zhang,Fuxiang Yang,Donglin Di,Yang Song,Lei Fan

Main category: cs.CV

TL;DR: FOCA：基于多模态大语言模型的图像伪造检测与定位框架，通过RGB空间域和频域特征融合，提供可解释的跨域分析，在检测性能和可解释性方面优于现有方法。

Motivation: 现有图像伪造检测与定位方法存在两个关键局限：过度依赖语义内容而忽视纹理线索，以及对细微低级篡改痕迹的可解释性有限。生成模型等图像篡改技术的进步给媒体验证、数字取证和公众信任带来重大挑战。
Method: 提出FOCA框架，基于多模态大语言模型，通过交叉注意力融合模块整合RGB空间域和频域的判别特征。同时构建FSE-Set大规模数据集，包含多样化的真实和篡改图像、像素级掩码和双域标注。
Result: 大量实验表明，FOCA在空间域和频域的检测性能和可解释性方面均优于最先进的方法。
Conclusion: FOCA通过双域特征融合有效解决了现有方法的局限性，在图像伪造检测与定位任务中实现了更准确的结果和更好的可解释性，为数字取证提供了有力工具。

[53] SceneTok: A Compressed, Diffusable Token Space for 3D Scenes

Mohammad Asim,Christopher Wewer,Jan Eric Lenssen

Main category: cs.CV

TL;DR: SceneTok：首个将场景信息编码为无序、可扩散的小型令牌集的方法，实现强压缩和高效生成

Motivation: 现有3D场景表示和生成方法通常使用3D数据结构或视图对齐场，需要更紧凑、可扩散的场景表示
Method: 使用多视图令牌化器将场景信息编码为小型无序令牌集，通过轻量级整流流解码器渲染新视图
Result: 压缩比比其他表示高1-3个数量级，达到SOTA重建质量，支持新轨迹渲染，5秒内完成场景生成
Conclusion: SceneTok提供了一种紧凑、可扩散的场景表示，在质量-速度权衡上优于现有范式

[54] PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and Simulation

Dan Wang,Xinrui Cui,Serge Belongie,Ravi Ramamoorthi

Main category: cs.CV

TL;DR: PhysConvex：一种物理信息化的3D动态凸体辐射场，统一视觉渲染与物理模拟，通过凸体基元表示可变形辐射场，实现高保真重建。

Motivation: 现有神经表示（如NeRFs和3DGS）在视觉重建方面表现优异，但难以捕捉复杂材料变形和动力学特性，缺乏物理一致性。
Method: 1. 使用物理基础的凸体基元表示可变形辐射场；2. 提出边界驱动的动态凸体表示，通过顶点和表面动力学建模变形；3. 开发降阶凸体模拟，使用神经蒙皮本征模态作为形状和材料感知的变形基；4. 凸体动力学提供紧凑无间隙的体积覆盖。
Result: PhysConvex能够从视频中高保真重建几何、外观和物理属性，在实验中优于现有方法。
Conclusion: PhysConvex成功统一了视觉渲染和物理模拟，通过物理信息化的凸体表示实现了动态3D场景的高质量重建，在几何效率和模拟保真度方面均有提升。

[55] SafeDrive: Fine-Grained Safety Reasoning for End-to-End Driving in a Sparse World

Jungho Kim,Jiyong Oh,Seunghoon Yu,Hongjae Shin,Donghyuk Kwak,Jun Won Choi

Main category: cs.CV

TL;DR: SafeDrive是一个端到端自动驾驶规划框架，通过轨迹条件稀疏世界模型进行显式可解释的安全推理，在多个基准测试中达到最先进性能。

Motivation: 端到端自动驾驶范式虽然具有统一建模能力和可扩展性，但确保其安全性仍是最关键挑战之一。现有方法缺乏显式可解释的安全推理机制。
Method: 提出SafeDrive框架，包含两个互补网络：稀疏世界网络（SWNet）构建轨迹条件稀疏世界，模拟关键动态智能体和道路实体的未来行为；细粒度推理网络（FRNet）评估特定智能体碰撞风险和可行驶区域的时间依从性。
Result: 在NAVSIM上获得PDMS 91.6和EPDMS 87.5，12,146个场景中仅发生61次碰撞（0.5%）；在Bench2Drive上达到66.8%的驾驶分数，均达到最先进性能。
Conclusion: SafeDrive通过轨迹条件稀疏世界模型实现了显式可解释的安全推理，在端到端自动驾驶规划中提供了有效的安全保障，在多个基准测试中表现出色。

[56] Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization

Hao Lu,Onur C. Koyun,Yongxin Guo,Zhengjie Zhu,Abbas Alili,Metin Nafi Gurcan

Main category: cs.CV

TL;DR: 论文提出两种新方法解决VQ中的码本崩溃问题：NSVQ通过核规则传播编码器漂移，TransVQ使用轻量映射自适应变换码本，两者都能实现接近完全的码本利用率和更好的重建质量。

Motivation: 向量量化(VQ)是现代生成框架的基础，但存在码本崩溃问题——大量码向量在训练中未被使用。作者发现编码器更新的非平稳性是这一现象的根本原因。
Method: 提出两种方法：1) NSVQ：通过核规则将编码器漂移传播到未选择的码向量；2) TransVQ：使用轻量映射自适应变换整个码本，同时保持收敛到k-means解。
Result: 在CelebA-HQ数据集上的实验表明，两种方法都实现了接近完全的码本利用率，并且相比基线VQ变体具有更好的重建质量。
Conclusion: 该工作为VQ中的码本崩溃问题提供了新的理论解释和有效的解决方案，为未来基于VQ的生成模型提供了原则性和可扩展的基础。

[57] SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

Luca Cazzaniga

Main category: cs.CV

TL;DR: SCHEMA是一个专门为Google Gemini 3 Pro Image设计的结构化提示工程方法，包含三层渐进系统、模块化标签架构和决策树，在专业领域验证中表现出高合规率和一致性。

Motivation: 现有的通用提示指南或模型无关建议不够专业，需要为特定模型(Gemini 3 Pro Image)开发基于系统专业实践的工程化框架，以提升生成图像的质量和控制精度。
Method: 基于850个已验证的API预测和约4800张生成图像，开发了三层渐进系统(BASE, MEDIO, AVANZATO)、7个核心和5个可选结构化组件的模块化标签架构、决策树以及模型限制文档和工作区方案。
Result: 在621个结构化提示中，强制合规率达到91%，禁止合规率达到94%；批量一致性测试显示结构化提示的生成间一致性显著更高；40名从业者独立验证；信息设计验证显示空间和排版控制的首代合规率超过95%。
Conclusion: SCHEMA为Gemini 3 Pro Image提供了一个有效的结构化提示工程框架，显著提高了生成图像的控制精度、一致性和专业质量，已在多个专业领域得到验证。

[58] Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates

Shengjie Zhu,Ahmed Abdelkader,Mark J. Matthews,Xiaoming Liu,Wen-Sheng Chu

Main category: cs.CV

TL;DR: 提出Marginalized Bundle Adjustment (MBA)方法，将单目深度估计的密集深度图整合到SfM中，通过边缘化处理深度误差方差，在多视图3D重建和相机重定位任务中达到SOTA或竞争性结果。

Motivation: 虽然深度学习在单目深度估计(MDE)方面取得了进展，能够从单张图像准确估计深度，但将MDE整合到传统的Structure-from-Motion(SfM)流程中仍然具有挑战性。MDE产生的密集深度图相比传统三角化稀疏点云具有更高的误差方差，需要新的方法来处理这种不确定性。
Method: 提出Marginalized Bundle Adjustment (MBA)方法，受到现代RANSAC估计器的启发，通过边缘化处理来缓解MDE深度图的误差方差，同时利用其密集性的优势。该方法将MDE深度图作为先验信息整合到SfM优化框架中。
Result: 实验表明，MBA方法能够有效利用MDE深度图的准确性，在SfM和相机重定位任务中达到SOTA或竞争性结果。方法在不同规模的数据集上表现稳健，从少量帧到包含数千张图像的大规模多视图系统都能保持一致性。
Conclusion: MBA方法成功地将单目深度估计整合到多视图3D视觉任务中，展示了MDE在多视图3D视觉中的巨大潜力，为结合深度学习和传统几何方法提供了有效途径。

[59] CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Yu Li,Yujun Cai,Chi Zhang

Main category: cs.CV

TL;DR: CRAFT-LoRA提出了一种改进的个性化图像生成方法，通过解耦内容和风格表示、精确控制LoRA模块组合、以及无需训练的稳定融合技术，解决了现有LoRA组合方法中的纠缠、控制不足和不稳定问题。

Motivation: 现有基于LoRA的个性化图像生成方法在组合不同概念的LoRA权重时面临三个主要挑战：内容和风格表示的纠缠、缺乏对元素影响的精确控制指导、以及需要额外训练的不稳定权重融合。这些问题限制了LoRA在个性化生成中的精确控制和高效应用。
Method: CRAFT-LoRA包含三个互补组件：1) 秩约束的主干微调，通过注入低秩投影残差鼓励学习解耦的内容和风格子空间；2) 提示引导方法，配备具有专门分支的专家编码器，通过选择性适配器聚合实现语义扩展和精确控制；3) 无需训练的、时间步相关的无分类器引导方案，通过策略性地调整扩散步骤中的噪声预测来增强生成稳定性。
Result: 该方法显著改善了内容-风格解耦，实现了对LoRA模块组合的灵活语义控制，并实现了高保真度的生成，无需额外的重新训练开销。
Conclusion: CRAFT-LoRA通过创新的解耦、控制和稳定化技术，有效解决了现有LoRA组合方法的局限性，为个性化图像生成提供了更精确、高效和稳定的解决方案。

Kaiming Jin,Yuefan Wu,Shengqiong Wu,Bobo Li,Shuicheng Yan,Tat-Seng Chua

Main category: cs.CV

TL;DR: DACo提出了一种规划-执行解耦架构，通过分离全局规划和局部执行来解决视觉语言场景导航中的长视野任务挑战，显著提升了零样本性能。

Motivation: 现有方法要么依赖多智能体（协调成本高），要么采用单智能体（全局规划和局部感知负担过重），在长视野场景中容易导致推理能力下降和指令漂移。
Method: 提出DACo架构，包含全局指挥官（负责高层战略规划）和局部操作员（负责自我中心观察和细粒度执行），通过动态子目标规划和自适应重规划实现结构化导航。
Result: 在R2R、REVERIE和R4R数据集上，DACo在零样本设置下相比最佳基线分别获得4.9%、6.5%、5.4%的绝对提升，且能有效泛化到闭源和开源骨干模型。
Conclusion: DACo为鲁棒的长视野导航提供了一个原则性且可扩展的范式，通过解耦全局推理和局部动作减轻了认知负担，提高了导航稳定性。

[61] YOLOv10-Based Multi-Task Framework for Hand Localization and Laterality Classification in Surgical Videos

Kedi Sun,Le Zhang

Main category: cs.CV

TL;DR: 基于YOLOv10的手部实时检测与左右手分类框架，用于创伤外科手术场景，在复杂条件下实现实时手部定位与分类

Motivation: 创伤外科手术中实时手部追踪对于支持快速精确的术中决策至关重要，需要能够在复杂手术场景中同时定位手部并分类左右手
Method: 使用YOLOv10框架，在Trauma THOMPSON Challenge 2025 Task 2数据集上训练，采用广泛的数据增强和多任务检测设计，提高对运动模糊、光照变化和不同手部外观的鲁棒性
Result: 模型达到左手分类准确率67%，右手分类准确率71%，mAP_{[0.5:0.95]}为0.33，保持实时推理能力，但区分手部与背景仍具挑战
Conclusion: 该工作为紧急外科手术中高级手部-器械交互分析奠定了基础，展示了术中部署的潜力，尽管背景区分仍需改进

[62] Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification

Shiyu Liu,Dylan Lester,Husnu Narman,Ammar Alzarrad,Pingping Zhu

Main category: cs.CV

TL;DR: 提出深度增强的YOLO-SAM2框架，利用RGB-D数据检测铁路道床不足，通过深度校正和几何分析显著提升检测性能

Motivation: 传统RGB-only的YOLOv8模型在检测道床不足时存在局限性，虽然精度高(0.99)但召回率低(0.49)，容易将不足的道床误判为充足，存在安全隐患
Method: 结合YOLOv8定位、SAM2分割和深度校正管道：1) 使用多项式建模、RANSAC和时间平滑校正RealSense深度传感器空间畸变；2) SAM2分割细化感兴趣区域掩码；3) 提取轨枕和道床剖面进行几何分类
Result: 深度增强配置显著改善道床不足检测：召回率从0.49提升至最高0.80，F1分数从0.66提升至超过0.80，具体性能取决于边界框采样方法(AABB或RBB)和几何标准
Conclusion: 深度校正与YOLO-SAM2的结合为铁路道床自动化检测提供了更鲁棒可靠的方法，特别适用于视觉模糊或安全关键场景

[63] Face Presentation Attack Detection via Content-Adaptive Spatial Operators

Shujaat Khan

Main category: cs.CV

TL;DR: CASO-PAD：基于内容自适应空间算子的轻量级单帧人脸活体检测模型，在MobileNetV3中引入involution算子提升局部欺骗特征捕捉能力，在多个数据集上取得优异性能。

Motivation: 人脸活体检测对保障人脸认证安全至关重要，现有方法常依赖多帧时序信息或额外传感器。需要开发轻量级、仅使用RGB单帧的模型，以适应移动设备部署需求。
Method: 提出CASO-PAD模型，在MobileNetV3基础上引入内容自适应空间算子（involution）。该算子根据输入生成位置特定、通道共享的卷积核，相比传统卷积具有更好的空间选择性，且计算开销小。模型仅3.6M参数，使用标准二元交叉熵损失端到端训练。
Result: 在Replay-Attack、Replay-Mobile、ROSE-Youtu和OULU-NPU数据集上分别达到100/100/98.9/99.7%准确率，AUC为1.00/1.00/0.9995/0.9999，HTER为0.00/0.00/0.82/0.44%。在SiW-Mv2 Protocol-1基准上达到95.45%准确率，HTER 3.11%，EER 3.13%。消融实验表明自适应算子放置在网络头部附近、适度分组共享效果最佳。
Conclusion: CASO-PAD为移动设备上的人脸活体检测提供了实用解决方案，仅需RGB单帧输入，无需额外传感器或时序信息，在保持轻量化的同时实现了优异的检测性能。

[64] Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

Thinesh Thiyakesan Ponbagavathi,Constantin Seibold,Alina Roitberg

Main category: cs.CV

TL;DR: Frame2Freq是一种频率感知适配器，通过FFT时域分析和学习频带特定嵌入来改进图像预训练模型到视频的迁移，在细粒度动作识别任务上表现优异。

Motivation: 现有时间域适配器主要捕捉静态图像线索和快速闪烁变化，但忽略了中等速度的运动，而多时间尺度的动态捕捉对于细粒度时间分析（如打开vs关闭瓶子）至关重要。
Method: 提出Frame2Freq频率感知适配器家族，使用时域快速傅里叶变换（FFT）进行频谱编码，学习频带特定嵌入，自适应地突出最具区分性的频率范围。
Result: 在五个细粒度活动识别数据集上，Frame2Freq优于先前的参数高效微调方法，并在四个数据集上甚至超越了完全微调模型。
Conclusion: 频率分析方法在图像到视频迁移中建模时间动态方面是一个强大工具，Frame2Freq为预训练视觉基础模型的视频适应提供了有效解决方案。

Yuyang Ji,Yixuan Shen,Kien Nguyen,Lifeng Zhou,Feng Liu

Main category: cs.CV

TL;DR: IDSelect：基于强化学习的成本感知选择器，为视频行人识别动态选择预训练模型，在保持高精度的同时大幅降低计算成本。

Motivation: 当前视频行人识别系统采用固定的多模态集成模型，无论输入复杂度如何都使用重型计算资源，导致计算资源浪费。需要一种能根据输入条件动态选择最优模型的方法来平衡精度和效率。
Method: 提出IDSelect框架，使用基于actor-critic的强化学习训练轻量级智能体，通过预算感知优化平衡识别精度和计算成本。智能体为每个模态（人脸、身体、步态）选择最适合的预训练模型，最后融合模态特定相似度得分。
Result: 在CCVID数据集上达到95.9% Rank-1准确率，计算量减少92.4%，同时准确率提升1.8%；在MEVID数据集上计算量减少41.3%，同时保持竞争力性能。
Conclusion: IDSelect通过输入条件化的模型选择策略，能够发现超越固定集成模型的互补模型组合，在显著减少计算资源的同时实现更好的精度-效率权衡。

[66] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

Jiwoo Chung,Sangeek Hyun,MinKyu Lee,Byeongju Han,Geonho Cha,Dongyoon Wee,Youngjun Hong,Jae-Pil Heo

Main category: cs.CV

TL;DR: SeaCache是一种无需训练的缓存调度方法，通过频谱演化感知的表示来决定特征重用，显著加速扩散模型推理

Motivation: 扩散模型虽然生成质量高，但顺序去噪过程导致推理速度慢。现有缓存方法基于原始特征差异，忽略了频谱演化特性（低频结构先出现，高频细节后细化），无法有效分离内容和噪声
Method: 提出Spectral-Evolution-Aware Cache (SeaCache)，使用频谱演化感知(SEA)滤波器处理输入特征，保留内容相关成分并抑制噪声，基于此表示动态决定特征重用时机
Result: 在多种视觉生成模型和基准测试中，SeaCache实现了最先进的延迟-质量权衡
Conclusion: 通过考虑扩散模型的频谱演化先验，SeaCache能够更智能地决定特征重用，显著加速推理而不损失生成质量

[67] Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Shannan Yan,Leqi Zheng,Keyu Lv,Jingchen Ni,Hongyang Wei,Jiajun Zhang,Guangting Wang,Jing Lyu,Chun Yuan,Fengyun Rao

Main category: cs.CV

TL;DR: 提出基于条件二值分割的跨视角物体对应框架，通过循环一致性训练实现无监督学习，并在推理时使用测试时训练提升性能

Motivation: 解决视频中不同视角（特别是自我中心视角与外部视角之间）的物体级视觉对应问题，这是一个具有挑战性的跨视角对应任务
Method: 采用条件二值分割框架，将物体查询掩码编码为潜在表示来指导目标视频中的物体定位；引入循环一致性训练目标，将预测的掩码投影回源视角重建原始查询掩码；支持推理时的测试时训练
Result: 在Ego-Exo4D和HANDAL-X基准测试中取得了最先进的性能，证明了优化目标和测试时训练策略的有效性
Conclusion: 提出的方法通过循环一致性约束实现了鲁棒的视角不变表示学习，无需真实标注，在跨视角物体对应任务上表现优异

[68] A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

Xia Hu,Honglei Zhuang,Brian Potetz,Alireza Fathi,Bo Hu,Babak Samari,Howard Zhou

Main category: cs.CV

TL;DR: Life-Bench是一个基于模拟用户数字足迹构建的综合性多模态基准测试，用于评估视觉语言模型在个性化任务上的能力，同时提出了LifeGraph知识图谱框架来改善结构化检索和推理。

Motivation: 现代视觉语言模型具有强大的推理能力，为个性化研究开辟了新前沿，但该领域进展受到缺乏合适基准测试的严重阻碍。
Method: 提出了Life-Bench基准测试（基于模拟用户数字足迹的合成多模态基准）和LifeGraph框架（将个人上下文组织成知识图谱以促进结构化检索和推理的端到端框架）。
Result: 现有方法在复杂的个性化任务上表现显著不足，尤其在关系、时间和聚合推理方面存在较大性能差距；LifeGraph通过利用结构化知识缩小了这一差距，展示了有前景的方向。
Conclusion: 先进的个性化任务仍然是一个关键开放挑战，需要该领域的新研究；Life-Bench基准和LifeGraph框架为这一研究方向提供了重要工具和方向。

[69] MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

Duc Duy Nguyen,Tat-Jun Chin,Minh Hoai

Main category: cs.CV

TL;DR: MoBind是一个分层对比学习框架，用于学习IMU信号与视频中提取的2D姿态序列的联合表示，支持跨模态检索、时间同步、主体和身体部位定位以及动作识别。

Motivation: 需要解决三个挑战：过滤不相关的视觉背景、建模结构化的多传感器IMU配置、实现细粒度的亚秒级时间对齐，以建立IMU信号与视频姿态序列之间的有效跨模态表示。
Method: MoBind采用分层对比学习框架：1) 将IMU信号与骨骼运动序列而非原始像素对齐以隔离运动相关线索；2) 将全身运动分解为局部身体部位轨迹，与对应IMU配对实现语义基础的多传感器对齐；3) 使用分层对比策略，先对齐令牌级时间片段，再将局部（身体部位）对齐与全局（全身）运动聚合融合。
Result: 在mRi、TotalCapture和EgoHumans数据集上评估，MoBind在所有四个任务（跨模态检索、时间同步、主体和身体部位定位、动作识别）上均优于强基线，展示了强大的细粒度时间对齐能力，同时保持了跨模态的粗粒度语义一致性。
Conclusion: MoBind通过分层对比学习有效解决了IMU与视频姿态序列对齐的三个关键挑战，实现了准确的跨模态表示学习，为多模态运动分析提供了有力工具。

[70] GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

Emma Willis,Tarek Elghareb,Paul F. R. Wilson,Minh Nguyen Nhat To,Mohammad Mahdi Abootorabi,Amoon Jamzad,Brian Wodlinger,Parvin Mousavi,Purang Abolmaesumi

Main category: cs.CV

TL;DR: 该研究提出了一种无配对的组织病理学知识蒸馏策略，用于从微超声图像中无创分级前列腺癌，无需患者级配对或图像配准，提高了临床显著前列腺癌的检测敏感性。

Motivation: 当前模型在粗分辨率下难以推断组织微结构，需要一种方法能够从微超声图像中无创分级前列腺癌，以加快分诊并指导活检定位到最侵袭性区域。
Method: 引入无配对的组织病理学知识蒸馏策略，训练微超声编码器模拟预训练的组织病理学基础模型的嵌入分布，条件基于国际泌尿病理学会分级。训练无需患者级配对或图像配准，推理时不使用组织病理学输入。
Result: 相比当前最先进方法，在60%特异性下对临床显著前列腺癌的敏感性提高了3.5%，总体敏感性提高了1.2%。
Conclusion: 通过仅从成像中实现更早、更可靠的癌症风险分层，该方法提高了临床可行性。源代码将在发表后公开。

[71] TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

Li Zhang,Shruti Agarwal,John Collomosse,Pengtao Xie,Vishal Asnani

Main category: cs.CV

TL;DR: TokenTrace是一个用于生成式AI模型的多概念主动水印框架，通过在语义域嵌入秘密签名实现鲁棒的多概念溯源，支持从单张生成图像中分离和验证多个概念。

Motivation: 生成式AI模型能够复制独特的艺术风格和概念而不注明出处，对知识产权构成重大挑战。现有水印方法在处理包含多个概念（如对象和艺术风格）的复杂场景时表现不佳，难以分离和溯源每个概念。
Method: TokenTrace通过同时扰动文本提示嵌入和初始潜在噪声，在语义域嵌入秘密签名。提出基于查询的TokenTrace模块，接收生成图像和指定需要检索概念的文本查询作为输入，能够从单张图像中分离并独立验证多个概念的存在。
Result: 在单概念（对象和风格）和多概念溯源任务上均达到最先进性能，显著优于现有基线方法，同时保持高视觉质量和对常见变换的鲁棒性。
Conclusion: TokenTrace提供了一个有效的多概念主动水印框架，能够解决生成式AI模型中的知识产权溯源问题，特别是在复杂多概念场景下表现出色。

[72] An interpretable framework using foundation models for fish sex identification

Zheng Miao,Tien-Chieh Hung

Main category: cs.CV

TL;DR: FishProtoNet：基于计算机视觉的非侵入式鱼类性别识别框架，针对濒危三角洲胡瓜鱼，通过原型网络提供可解释性，在产卵期识别准确率达74-81%

Motivation: 传统鱼类性别识别方法具有侵入性和应激性，可能增加濒危物种的死亡率。需要开发非侵入性、稳健的性别识别方法，特别是针对濒危鱼类如三角洲胡瓜鱼
Method: FishProtoNet框架包含三个关键组件：1) 使用视觉基础模型提取鱼类感兴趣区域(ROI)；2) 从鱼类ROI中提取特征；3) 基于可解释原型网络进行鱼类性别识别。利用基础模型减少背景噪声影响
Result: 在三角洲胡瓜鱼早期产卵期和产后期性别识别中表现良好，准确率分别为74.40%和81.16%，F1分数分别为74.27%和79.43%。但在亚成体阶段识别仍具挑战性
Conclusion: FishProtoNet为非侵入性鱼类性别识别提供了稳健且可解释的解决方案，特别适用于濒危物种。虽然亚成体阶段识别仍有困难，但该方法在成熟阶段表现优异，有助于优化水产养殖和濒危物种管理策略

[73] Towards Calibrating Prompt Tuning of Vision-Language Models

Ashshak Sharifdeen,Fahad Shamshad,Muhammad Akhtar Munir,Abhishek Basu,Mohamed Insaf Ismithdeen,Jeyapriyan Jeyamohan,Chathurika Sewwandi Silva,Karthik Nandakumar,Muhammad Haris Khan

Main category: cs.CV

TL;DR: 提出一个校准框架，通过两种正则化器增强CLIP提示调优的预测可靠性，同时保持预训练嵌入空间的几何结构

Motivation: 大规模视觉语言模型（如CLIP）的提示调优虽然能高效适应任务，但往往导致置信度校准不佳和预测不确定性不可靠，需要解决这一问题
Method: 在标准交叉熵损失基础上添加两种互补正则化器：1）均值-方差边际惩罚，通过最大化类间logit边际的平均值同时最小化其离散度来稳定边际；2）文本矩匹配损失，对齐调优后文本嵌入与冻结CLIP对应项的一阶和二阶矩
Result: 在7种提示调优方法和11个多样化数据集上的广泛实验表明，该方法相比竞争性校准技术，在基础类和新类上都显著降低了期望校准误差（ECE）
Conclusion: 提出的校准框架在保持预训练CLIP嵌入空间几何结构（对鲁棒泛化至关重要）的同时，有效增强了预测可靠性

[74] OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

Phuc D. A. Nguyen,Anh N. Nhu,Ming C. Lin

Main category: cs.CV

TL;DR: OpenVO是一个新颖的开放世界视觉里程计框架，能够在有限输入条件下（单目行车记录仪、变化观测频率、未标定相机）估计真实世界尺度的自我运动，显著提升了在自动驾驶基准测试中的性能。

Motivation: 现有VO方法存在两个主要局限：1) 训练时使用固定观测频率（如10Hz或12Hz），忽略了时间动态信息；2) 需要已知内参的标定相机。这导致它们在面对未知观测频率或未标定相机时性能下降，限制了从行车记录仪等实际应用中提取轨迹的泛化能力。
Method: OpenVO采用两个关键技术：1) 在两帧姿态回归框架中显式编码时间动态信息；2) 利用从基础模型推导的3D几何先验知识。该方法能够处理单目行车记录仪视频、变化观测频率和未标定相机。
Result: 在KITTI、nuScenes和Argoverse 2三个主要自动驾驶基准测试中，OpenVO相比最先进方法取得了超过20%的性能提升。在变化观测率设置下，该方法显著更鲁棒，在所有指标上实现了46%-92%的误差降低。
Conclusion: OpenVO展示了在实际世界3D重建和多样化下游应用中的强大泛化能力，特别是在从罕见驾驶事件的行车记录仪中构建鲁棒轨迹数据集方面具有重要价值。

[75] TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow Estimation

Qingwen Zhang,Chenhan Jiang,Xiaomeng Zhu,Yunqi Miao,Yushan Zhang,Olov Andersson,Patric Jensfelt

Main category: cs.CV

TL;DR: TeFlow提出了一种通过挖掘时间一致监督来实现多帧监督的前馈场景流估计方法，在保持实时效率的同时显著提升性能。

Motivation: 现有的自监督前馈场景流方法依赖于两帧点对应关系进行监督，但这种监督在遮挡情况下不可靠且容易失效。多帧监督有潜力通过整合过去帧的运动线索提供更稳定的指导，但简单的两帧目标扩展无效，因为点对应关系在帧间变化剧烈，产生不一致的信号。
Method: TeFlow引入时间集成策略，通过从多帧构建的候选池中聚合最时间一致的运动线索来形成可靠的监督信号。该方法使前馈模型能够利用多帧监督，同时保持实时效率。
Result: 在Argoverse 2和nuScenes数据集上实现了自监督前馈方法的新SOTA，性能提升高达33%。与领先的基于优化的方法性能相当，但速度快150倍。
Conclusion: TeFlow成功实现了多帧监督的前馈场景流估计，在保持实时效率的同时显著提升了性能，为自监督场景流估计提供了有效解决方案。

[76] Direction-aware 3D Large Multimodal Models

Quan Liu,Weihao Xuan,Junjue Wang,Naoto Yokoya,Ling Shao,Shijian Lu

Main category: cs.CV

TL;DR: 提出PoseRecover和PoseAlign方法，通过自动恢复姿态和对齐点云数据，解决3D大模型缺乏方向感知能力的问题

Motivation: 现有3D大模型依赖自我姿态进行方向问答和空间推理，但大多数点云基准数据集缺乏对应的自我姿态信息，导致方向感知能力受限
Method: 1. PoseRecover：全自动姿态恢复流水线，通过物体-视锥体交点和Z-buffer可见性检查，从RGB-D视频外参中匹配问题与自我姿态

PoseAlign：将点云数据转换以对齐识别出的自我姿态，而不是将姿态注入文本提示或投影层中引入姿态编码特征

Result: 在多个3D LMM骨干网络（LL3DA、LL3DA-SONATA、Chat-Scene、3D-LLAVA）上取得一致改进，ScanRefer mIoU提升30.0%，Scan2Cap LLM-as-judge准确率提升11.7%
Conclusion: 该方法简单、通用且训练高效，仅需指令调优，为方向感知3D大模型建立了强大基线，解决了点云基准数据集缺乏姿态信息的问题

[77] L3DR: 3D-aware LiDAR Diffusion and Rectification

Quan Liu,Xiaoqin Zhang,Ling Shao,Shijian Lu

Main category: cs.CV

TL;DR: L3DR是一个3D感知的LiDAR扩散与校正框架，通过3D残差回归网络在3D空间中校正范围视图（RV）伪影，显著提升几何真实感。

Motivation: 现有的基于范围视图（RV）的LiDAR扩散方法虽然实现了2D照片级真实感，但忽视了3D几何真实感，经常产生深度渗漏和波浪表面等RV伪影，需要解决这些问题以生成更真实的3D几何。
Method: 1）理论分析表明3D模型在生成锐利真实边界方面优于2D模型；2）设计3D残差回归网络，通过在3D空间中预测点级偏移来校正RV伪影；3）引入Welsch Loss，专注于局部几何并有效忽略异常区域。
Result: 在KITTI、KITTI360、nuScenes和Waymo等多个基准测试中，L3DR实现了最先进的生成质量和卓越的几何真实感，且计算开销小，可广泛应用于不同的LiDAR扩散模型。
Conclusion: L3DR通过3D感知的扩散和校正框架，有效解决了RV伪影问题，显著提升了LiDAR生成的几何真实感，为3D感知生成提供了新的解决方案。

[78] ChordEdit: One-Step Low-Energy Transport for Image Editing

Liangsi Lu,Xuhang Chen,Minzhe Guo,Shichu Li,Jingchao Wang,Yang Shi

Main category: cs.CV

TL;DR: ChordEdit：一种无需训练、无需反演的模型无关方法，通过动态最优传输理论实现一步式文本引导图像编辑，解决现有方法在一步推理中出现的物体扭曲和一致性丢失问题。

Motivation: 一步式文本到图像模型虽然合成速度快，但在文本引导图像编辑方面存在严重问题。现有无需训练的编辑方法在单步推理中失败，表现为严重的物体扭曲和非编辑区域的一致性丢失，这是由于在模型结构化场上的朴素向量算术产生的高能量、不稳定轨迹所致。
Method: 将编辑问题重新定义为源文本提示和目标文本提示定义的源分布与目标分布之间的传输问题。利用动态最优传输理论，推导出原则性的低能量控制策略，产生平滑、方差减少的编辑场，该场本质稳定，可在单个大积分步长中遍历。
Result: ChordEdit能够实现快速、轻量级且精确的编辑，最终在这些具有挑战性的模型上实现真正的实时编辑。该方法在理论上具有坚实基础，并通过实验验证。
Conclusion: ChordEdit通过动态最优传输理论解决了现有一步式文本到图像模型在编辑中的关键问题，实现了无需训练、无需反演的高保真一步编辑，为实时文本引导图像编辑提供了有效解决方案。

[79] Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference

Rui-Yang Ju,Kohei Yamashita,Hirotaka Kameko,Shinsuke Mori

Main category: cs.CV

TL;DR: 提出RG-KCR三阶段框架，通过修复印章干扰来提升草书体字符识别精度

Motivation: 草书体是日本前近代流行书写体，但现代读者难以解读。现有识别方法在印章干扰下性能下降，而前近代文献中印章频繁出现
Method: 提出三阶段修复引导的草书体字符识别框架：1) 字符检测，2) 印章修复，3) 字符分类。构建数据集评估检测和分类性能
Result: YOLOv12-medium检测精度98.0%，召回率93.3%；修复阶段提升ViT分类器Top-1准确率从93.45%到95.33%
Conclusion: RG-KCR框架有效缓解印章干扰问题，提升草书体字符识别性能，代码已开源

[80] Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Qi Sun,Can Wang,Jiaxiang Shang,Yingchun Liu,Jing Liao

Main category: cs.CV

TL;DR: Ani3DHuman结合运动学动画与视频扩散先验，通过分层运动表示和自引导随机采样，生成具有非刚性动力学的逼真3D人体动画。

Motivation: 现有3D人体动画方法存在局限性：基于运动学的方法缺乏非刚性动力学（如衣物动态），而利用视频扩散先验的方法能合成非刚性运动但存在质量伪影和身份丢失问题。
Method: 提出分层运动表示，将刚性运动与非刚性残余运动解耦。刚性运动由运动学方法生成，产生粗糙渲染来引导视频扩散模型生成恢复残余非刚性运动的视频序列。针对初始渲染分布外的问题，提出自引导随机采样方法，结合随机采样（保证逼真质量）和自引导（保持身份保真度）。
Result: 实验表明Ani3DHuman能够生成逼真的3D人体动画，在质量上优于现有方法。恢复的视频提供高质量监督，优化了残余非刚性运动场。
Conclusion: Ani3DHuman成功结合运动学动画与视频扩散先验，通过创新的分层表示和采样方法，解决了现有方法的局限性，实现了高质量的逼真3D人体动画生成。

[81] CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

Lihao Liu,Yan Wang,Biao Yang,Da Li,Jiangxia Cao,Yuxiao Luo,Xiang Chen,Xiangyu Wu,Wei Yuan,Fan Yang,Guiguang Ding,Tingting Gao,Guorui Zhou

Main category: cs.CV

TL;DR: CREM提出统一框架，通过压缩驱动的方法增强多模态表示用于检索，同时保持生成能力，在检索和生成任务上都取得SOTA性能。

Motivation: 多模态大语言模型在理解任务上表现优异，但直接应用于检索任务存在输出格式和优化目标不匹配的问题。现有方法通过对比微调适应检索，但会失去生成能力。作者认为生成和嵌入任务都依赖于共享的认知机制（跨模态表示对齐和上下文理解）。
Method: 提出CREM（压缩驱动表示增强模型）：1）基于压缩的提示设计，使用可学习的chorus tokens聚合多模态语义；2）压缩驱动的训练策略，通过压缩感知注意力整合对比和生成目标。
Result: 在MMEB上实现最先进的检索性能，同时在多个理解基准上保持强大的生成性能。生成监督在压缩驱动范式下能进一步提高表示质量。
Conclusion: CREM展示了统一框架在增强多模态表示用于检索的同时保持生成能力的可行性，生成监督能进一步提升表示质量，为多模态模型的多任务应用提供了新思路。

[82] Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Qinfeng Xiao,Guofeng Mei,Bo Yang,Liying Zhang,Jian Zhang,Kit-lun Yick

Main category: cs.CV

TL;DR: UniMatch：一个语义感知的从粗到细框架，用于在强非等距形状之间建立密集语义对应，不限制对象类别，通过语言引导和对比学习实现跨类别匹配。

Motivation: 现有方法依赖近等距假设和同质对象类型（如仅适用于人体形状），而跨类别对象的语义对应建立具有挑战性且关注较少。需要一种能够处理强非等距形状且不限制对象类别的通用方法。
Method: 采用两阶段从粗到细框架：1）粗阶段：进行类别无关的3D分割获得非重叠语义部分，使用多模态大语言模型识别部件名称，利用预训练视觉语言模型提取文本嵌入构建匹配的语义部分；2）细阶段：利用粗对应指导密集对应学习，通过专门的基于排名的对比方案。
Result: 大量实验表明，UniMatch在各种挑战性场景中始终优于竞争方法，能够实现跨类别和非等距形状的通用匹配。
Conclusion: UniMatch通过类别无关分割、语言引导和基于排名的对比学习，实现了对跨类别和强非等距形状的通用密集语义对应，突破了传统方法的限制。

[83] Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models

Jaeyun Jang,Seunghui Shin,Taeho Park,Hyoseok Hwang

Main category: cs.CV

TL;DR: SymPL框架通过将异中心空间推理转化为符号-布局表示，显著提升了视觉语言模型在异中心视角下的空间推理能力

Motivation: 视觉语言模型在自我中心视角下表现良好，但在异中心视角（从场景中物体角度推理）下性能下降，这是一个未被充分探索的挑战
Method: 提出Symbolic Projective Layout (SymPL)框架，通过投影、抽象、二分和定位四个关键因素，将异中心推理问题转化为结构化的符号-布局表示
Result: SymPL显著提升了模型在异中心和自我中心任务中的性能，增强了在视觉错觉和多视角场景下的鲁棒性，且每个组件都对性能提升有重要贡献
Conclusion: SymPL为解决复杂视角感知空间推理问题提供了有效且原则性的方法

[84] StreetTree: A Large-Scale Global Benchmark for Fine-Grained Tree Species Classification

Jiapeng Li,Yingjing Huang,Fan Zhang,Yu liu

Main category: cs.CV

TL;DR: 提出了StreetTree数据集，这是首个专门用于细粒度街道树木分类的大规模基准数据集，包含超过1200万张图像，涵盖8300多种常见街道树种，覆盖133个国家。

Motivation: 街道树木的细粒度分类对城市规划、街道景观管理和城市生态系统服务评估至关重要，但该领域进展受到缺乏大规模、地理多样且公开可用的专门基准数据集的严重阻碍。
Method: 创建了StreetTree数据集，包含来自五大洲133个国家城市街道景观的超过1200万张图像，涵盖8300多种常见街道树种，并补充了专家验证的观测数据。提供了分层分类学（目-科-属-种）以支持分层分类和表示学习研究。
Result: 通过多种视觉模型的广泛实验，建立了强大的基线，并揭示了现有方法在处理复杂城市环境挑战时的局限性，包括高种间视觉相似性、长尾自然分布、季节变化引起的显著类内变异以及多样成像条件。
Conclusion: StreetTree将成为城市街道树木精细化管理和研究的关键资源，同时推动计算机视觉与城市科学交叉领域的新进展。

[85] Mapping Networks

Lord Sen,Shyamapada Mukherjee

Main category: cs.CV

TL;DR: Mapping Networks通过可训练的紧凑潜向量替代高维权重空间，基于大网络参数位于平滑低维流形的假设，实现约500倍的参数减少，在复杂视觉和序列任务中取得可比或更好的性能。

Motivation: 现代深度学习模型参数数量不断增长，导致训练效率低下和过拟合问题严重。作者认为大型网络的训练参数实际上位于平滑的低维流形上，因此可以用紧凑的潜向量来替代高维权重空间。
Method: 提出Mapping Networks，用可训练的紧凑潜向量替代高维权重空间。基于映射定理（Mapping Theorem），通过专门的映射损失（Mapping Loss）强制实现从潜空间到目标权重空间的映射。
Result: Mapping Networks显著减少了过拟合，在图像分类、深度伪造检测等复杂视觉和序列任务中，取得了与目标网络相当或更好的性能，同时减少了99.5%的可训练参数（约500倍减少）。
Conclusion: 通过将高维权重空间映射到紧凑的潜向量空间，Mapping Networks有效解决了大规模深度学习模型的参数效率和过拟合问题，为高效训练提供了新途径。

[86] CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

Sijie Mai,Shiqin Han

Main category: cs.CV

TL;DR: 提出基于修正流的多模态分布映射方法，通过一对多映射、自适应松弛对齐和循环修正流来减少模态间隙，在情感计算任务中取得优异效果

Motivation: 模态间隙显著限制了多模态融合的效果。现有方法通常采用扩散模型和对抗学习等技术，但大多关注一对一对齐，未能让源模态数据点暴露于目标模态的全局分布信息中
Method: 1) 利用修正流将一种分布映射到另一种分布的特性，扩展用于模态分布映射；2) 采用一对多映射策略，让每个源模态数据点观察整个目标分布；3) 设计自适应松弛对齐，对同一样本的模态对实施严格对齐，对非同一样本或类别的模态对应用松弛映射；4) 引入循环修正流，确保转换后的特征能够映射回原始特征，防止信息损失
Result: 在多个多模态情感计算任务中，即使使用简单的融合方法，也取得了非常有竞争力的结果。可视化验证表明该方法能有效减少模态间隙
Conclusion: 提出的基于修正流的多模态分布映射方法通过一对多映射、自适应松弛对齐和循环修正流，能够有效减少模态间隙，在多模态情感计算任务中表现出色

[87] VIGiA: Instructional Video Guidance via Dialogue Reasoning and Retrieval

Diogo Glória-Silva,David Semedo,João Maglhães

Main category: cs.CV

TL;DR: VIGiA是一个新颖的多模态对话模型，专门用于理解和推理复杂的多步骤教学视频动作计划，在对话式计划指导任务上超越现有SOTA模型。

Motivation: 现有研究主要关注纯文本指导，或将视觉和语言分开处理，缺乏能够同时处理视觉输入、教学计划和用户交互的接地、计划感知的对话模型。
Method: VIGiA具备两个关键能力：(1) 多模态计划推理，使模型能将单模态和多模态查询与当前任务计划对齐并准确响应；(2) 基于计划的检索，能够检索文本或视觉表示的相关计划步骤。
Result: 在包含丰富教学视频对话的新数据集上评估，VIGiA在对话式计划指导设置的所有任务中均优于现有最先进模型，在计划感知VQA任务上达到超过90%的准确率。
Conclusion: VIGiA通过整合多模态计划推理和基于计划的检索，成功实现了对复杂教学视频动作计划的接地、计划感知对话能力，为多模态对话系统提供了新的解决方案。

[88] Artefact-Aware Fungal Detection in Dermatophytosis: A Real-Time Transformer-Based Approach for KOH Microscopy

Rana Gursoy,Abdurrahim Yilmaz,Baris Kizilyaprak,Esmahan Caglar,Burak Temelkuran,Huseyin Uvet,Ayse Esra Koku Aksu,Gulsum Gencoglan

Main category: cs.CV

TL;DR: 使用RT-DETR transformer模型在KOH显微镜图像中自动检测真菌菌丝，达到高精度定位和诊断性能

Motivation: 传统KOH显微镜检测真菌菌丝存在诸多问题：伪影干扰、角质清除不均、观察者间变异大，需要更准确可靠的自动化检测方法
Method: 采用RT-DETR transformer架构，使用2,540张KOH图像的多类别标注数据集，通过形态保持的数据增强训练模型，明确区分真菌结构与伪影
Result: 在独立测试集上表现优异：召回率0.9737，精确率0.8043，AP@0.50达93.56%；图像级诊断灵敏度100%，准确率98.8%，所有阳性病例均正确识别
Conclusion: AI系统可作为高度可靠的自动化筛查工具，有效弥合图像分析与临床决策之间的差距，在伪影丰富的视野中也能稳健定位低对比度菌丝

[89] Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation

Lunjie Zhu,Yushi Huang,Xingtong Ge,Yufei Xue,Zhening Liu,Yumeng Zhang,Zehong Lin,Jun Zhang

Main category: cs.CV

TL;DR: 提出Flash-VAED框架，通过通道剪枝和算子优化加速VAE解码器，实现6倍加速且保持96.9%重建性能，端到端生成加速36%

Motivation: 随着扩散变换器效率提升，VAE解码器成为视频生成流水线的延迟瓶颈，需要在不损失质量的前提下加速VAE解码器
Method: 提出通用VAE解码器加速框架：1) 独立性感知通道剪枝减少通道冗余；2) 分阶段主导算子优化处理因果3D卷积的高推理成本；3) 三阶段动态蒸馏框架将原始VAE能力迁移到Flash-VAED
Result: 在Wan和LTX-Video VAE解码器上实验，相比基线在质量和速度上均表现更好，实现约6倍加速，保持96.9%重建性能，端到端生成加速36%，VBench-2.0上质量下降可忽略
Conclusion: Flash-VAED框架有效解决了VAE解码器延迟瓶颈，在保持原始潜在分布对齐的同时显著加速推理，为高质量视频生成提供了高效解决方案

[90] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Kai Liu,Yanhao Zheng,Kai Wang,Shengqiong Wu,Rongjunchen Zhang,Jiebo Luo,Dimitrios Hatzinakos,Ziwei Liu,Hao Fei,Tat-Seng Chua

Main category: cs.CV

TL;DR: JavisDiT++：一个简洁而强大的联合音频-视频生成框架，通过MS-MoE、TA-RoPE和AV-DPO技术，在仅使用约100万公开训练数据的情况下实现了最先进的性能。

Motivation: 当前开源联合音频-视频生成方法在生成质量、时间同步性和人类偏好对齐方面仍存在局限，无法与Veo3等先进商业模型相比。需要开发一个能够有效缩小这一差距的框架。
Method: 1. 模态特定混合专家（MS-MoE）设计：增强跨模态交互效果同时提升单模态生成质量；2. 时间对齐RoPE（TA-RoPE）策略：实现音频和视频token的显式帧级同步；3. 音频-视频直接偏好优化（AV-DPO）：在质量、一致性和同步性维度上对齐模型输出与人类偏好。
Result: 基于Wan2.1-1.3B-T2V构建的模型在仅使用约100万公开训练数据的情况下实现了最先进的性能，在定性和定量评估中显著优于先前方法。全面的消融研究验证了所提模块的有效性。
Conclusion: JavisDiT++是一个简洁而强大的联合音频-视频生成框架，通过创新的MS-MoE、TA-RoPE和AV-DPO技术，有效解决了现有开源方法在生成质量、时间同步和人类偏好对齐方面的局限，为多模态合成领域提供了有竞争力的解决方案。

Kanglei Zhou,Chang Li,Qingyi Pan,Liyuan Wang

Main category: cs.CV

TL;DR: BriMA：一种针对模态缺失条件下的多模态持续动作质量评估方法，通过桥接插补和模态感知回放机制，在模态不完整情况下提升性能。

Motivation: 现实世界中的多模态AQA部署常面临模态不平衡问题（某些模态缺失或间歇可用），而现有持续AQA方法假设所有模态始终完整稳定，限制了实际应用。
Method: 提出Bridged Modality Adaptation (BriMA)，包含：1）记忆引导的桥接插补模块，利用任务无关和任务特定表示重建缺失模态；2）模态感知回放机制，基于模态失真和分布漂移优先选择信息丰富的样本。
Result: 在三个多模态AQA数据集（RG、Fis-V、FS1000）上，BriMA在不同模态缺失条件下均表现优异，平均相关性提高6-8%，误差降低12-15%。
Conclusion: BriMA为解决现实世界部署中模态缺失问题提供了有效方案，推动了多模态AQA系统在真实约束条件下的鲁棒性发展。

[92] EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

Qiuhui Chen,Xuancheng Yao,Zhenglei Zhou,Xinyue Hu,Yi Hong

Main category: cs.CV

TL;DR: EMAD是一个视觉语言框架，用于生成结构化阿尔茨海默病诊断报告，每个诊断声明都明确基于多模态证据，通过分层句子-证据-解剖结构机制实现透明诊断。

Motivation: 当前深度学习模型在医学图像分析中通常作为黑箱运行，很少与临床指南对齐或明确将决策与支持证据联系起来。这在阿尔茨海默病诊断中尤为关键，预测应基于解剖和临床发现。
Method: 提出EMAD框架，采用分层句子-证据-解剖结构（SEA）机制：句子到证据关联将生成的句子与临床证据短语链接，证据到解剖结构关联在3D脑MRI上定位相应结构。使用GTX-Distill减少密集标注需求，通过Executable-Rule GRPO强化微调方案确保临床一致性。
Result: 在AD-MultiSense数据集上，EMAD实现了最先进的诊断准确性，并产生比现有方法更透明、解剖学上更忠实的报告。
Conclusion: EMAD通过结构化报告生成和显式证据关联，为可信赖的医学视觉语言模型提供了新方向，提高了阿尔茨海默病诊断的透明度和可解释性。

[93] VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery

Wenhao Shen,Hao Wang,Wanqi Yin,Fayao Liu,Xulei Yang,Chao Liang,Zhongang Cai,Guosheng Lin

Main category: cs.CV

TL;DR: 提出一种基于双记忆增强和自我反思的HMR批判代理，生成预测网格的质量评分，构建群体偏好数据集，并通过偏好对齐微调扩散模型，提升人体网格恢复的物理合理性和图像一致性。

Motivation: 单目RGB图像的人体网格恢复存在固有歧义性，现有扩散方法生成多种假设但常牺牲准确性，导致预测结果物理上不合理或与输入图像不一致，特别是在遮挡和复杂场景中。
Method: 1) 设计双记忆增强的HMR批判代理，通过自我反思生成上下文感知的质量评分；2) 利用评分构建群体偏好数据集；3) 提出群体偏好对齐框架，微调扩散基HMR模型，注入偏好信号。
Result: 实验表明该方法在物理合理性、图像一致性和整体性能上优于现有最先进方法，特别是在遮挡和复杂场景中表现更优。
Conclusion: 通过批判代理生成的质量评分和群体偏好对齐，能有效提升扩散基HMR模型生成结果的物理合理性和图像一致性，解决了现有方法在复杂场景中的局限性。

Chen Duan,Zhentao Guo,Pei Fu,Zining Wang,Kai Zhou,Pengfei Yan

Main category: cs.CV

TL;DR: PositionOCR：一种参数高效的混合架构，将文本检测模型的定位能力与LLM的上下文推理相结合，在OCR视觉问答任务中实现精准定位

Motivation: 当前多模态大语言模型（MLLMs）虽然在处理异构数据和适应不同上下文方面表现良好，但存在两个主要问题：1）基于LLM的解码器缺乏视觉任务所需的精确位置推理能力；2）参数庞大需要大量计算资源和数据。而专业的文本检测模型虽然定位准确但缺乏语义推理能力。因此需要结合两者的优势。
Method: 提出PositionOCR混合架构，将文本检测模型的定位优势与LLM的上下文推理能力无缝集成。该框架仅包含1.31亿可训练参数，具有参数高效的特点。
Result: 在文本定位和文本检测等任务中表现出色，持续超越传统的MLLMs，展示了卓越的多模态处理能力。
Conclusion: 成功证明了可以协同专家模型的效率与LLM的上下文能力，创建出具有位置准确性的多模态大语言模型，为OCR相关的视觉任务提供了更优解决方案。

[95] FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Xiaokun Zhang,Yi Yang,Ziqi Ye,Baiyun,Xiaorong Guo,Qingchen Fang,Ruyi Zhang,Xinpeng Zhou,Haipeng Wang

Main category: cs.CV

TL;DR: FUSAR-GPT：首个专门针对SAR图像的视觉语言模型，通过构建SAR图像-文本特征三元组数据集，引入地理空间基线模型作为先验知识，嵌入多源遥感时空特征，采用两阶段微调策略，在多个遥感视觉语言基准测试中取得SOTA性能。

Motivation: 虽然视觉语言模型在RGB图像上表现出强大的开放世界理解能力，但由于SAR成像机制复杂、对散射特征敏感、高质量文本语料稀缺，直接应用于SAR领域时性能严重受限。需要专门针对SAR特点的视觉语言模型。
Method: 1. 构建首个SAR图像-文本-AlphaEarth特征三元组数据集；2. 引入地理空间基线模型作为"世界知识"先验；3. 通过"时空锚点"将多源遥感时空特征嵌入视觉主干网络，动态补偿SAR图像中目标的稀疏表示；4. 设计两阶段SFT策略，解耦大模型的知识注入和任务执行。
Result: FUSAR-GPT在多个典型遥感视觉语言基准测试中取得最先进的性能，显著超越主流基线模型超过12%。
Conclusion: 该研究通过构建专门的数据集、引入地理空间先验知识、嵌入时空特征以及两阶段微调策略，成功开发了专门针对SAR图像的视觉语言模型FUSAR-GPT，有效解决了传统VLM在SAR领域性能受限的问题。

[96] Prompt Tuning for CLIP on the Pretrained Manifold

Xi Yang,Yuanrong Xu,Weigang Zhang,Guangming Lu,David Zhang,Jie Wen

Main category: cs.CV

TL;DR: ManiPT提出在预训练流形上进行提示调优，通过余弦一致性约束和结构偏置来防止表征漂移，提升有限监督下的泛化能力。

Motivation: 在有限监督下，传统的提示调优会改变预训练表征，使下游特征偏离预训练流形，导致泛化能力下降。需要一种方法在保持参数效率的同时，将学习限制在预训练几何邻域内。
Method: ManiPT框架：1) 在文本和图像模态引入余弦一致性约束，将学习表征限制在预训练几何邻域内；2) 引入结构偏置，强制增量修正，引导适应沿着可迁移方向进行，减少对捷径学习的依赖。
Result: 在四个下游设置中（未见类泛化、少样本分类、跨数据集迁移、领域泛化），ManiPT平均性能优于基线方法。从理论角度解释了提示调优在有限监督下的过拟合倾向。
Conclusion: ManiPT通过在预训练流形上进行提示调优，有效缓解了有限数据下的过拟合问题，提升了泛化能力，并为理解提示调优在有限监督下的行为提供了明确视角。

[97] UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models

Gang Xu,Zhiyu Zhu,Junhui Hou

Main category: cs.CV

TL;DR: 利用预训练视频扩散模型的生成先验，从稀疏事件数据重建高保真视频帧，并扩展到视频插值和预测的统一框架

Motivation: 事件相机虽然擅长高速、低功耗和高动态范围感知，但只能记录相对强度变化而非绝对强度，导致空间信息和静态纹理细节严重丢失
Method: 1) 建立基线模型：直接将事件数据作为条件合成视频；2) 引入基于事件的帧间残差指导，增强视频帧重建精度；3) 通过调制反向扩散采样过程，以零样本方式扩展到视频帧插值和预测
Result: 在真实世界和合成数据集上的实验结果表明，该方法在定量和定性评估上都显著优于先前方法
Conclusion: 提出了一个统一的事件到帧重建框架，利用视频扩散模型的生成先验有效解决了事件相机数据中空间信息和纹理细节丢失的问题

[98] GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

Zehao Deng,An Liu,Yan Wang

Main category: cs.CV

TL;DR: GS-CLIP：一种用于零样本3D异常检测的几何感知提示与协同视图表示学习框架，通过两阶段学习解决现有方法因投影损失几何细节和单一模态限制的问题。

Motivation: 当前基于CLIP的3D异常检测方法通过将点云投影到2D表示面临两个主要问题：1）投影过程会损失几何细节；2）依赖单一2D模态导致视觉理解不完整，限制了检测多样化异常类型的能力。需要一种能更好处理几何异常的方法。
Method: 提出GS-CLIP框架，包含两阶段学习：第一阶段通过几何缺陷蒸馏模块（GDDM）动态生成嵌入3D几何先验的文本提示；第二阶段采用协同视图表示学习架构，并行处理渲染图像和深度图像，并通过协同细化模块（SRM）融合两种流的特征。
Result: 在四个大规模公共数据集上的综合实验结果表明，GS-CLIP在检测性能上达到了优越的表现。
Conclusion: GS-CLIP通过几何感知提示和协同视图表示学习，有效解决了现有零样本3D异常检测方法的局限性，能够更好地检测几何异常，在多个数据集上表现出色。

[99] SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

Yujie Lu,Jingwen Li,Sibo Ju,Yanzhou Su,he yao,Yisong Liu,Min Zhu,Junlong Cheng

Main category: cs.CV

TL;DR: SegMoTE：一个高效的自适应医学图像分割框架，通过少量可学习参数和渐进式提示标记化机制，在极低标注成本下实现跨模态和任务的动态适应，在MedSeg-HQ数据集上达到SOTA性能。

Motivation: 医学图像分割面临两大瓶颈：1）现有通用分割模型（如SAM）缺乏针对医学图像模态和解剖结构的自适应机制，限制了在分布外医学场景的泛化能力；2）当前医学适应方法在大规模异构数据集上微调，导致噪声监督、高成本和负迁移问题。
Method: 提出SegMoTE框架：1）保留SAM的原始提示接口、高效推理和零样本泛化能力；2）引入少量可学习参数实现跨模态和任务的动态适应；3）设计渐进式提示标记化机制，实现全自动分割，显著减少标注依赖；4）在精心筛选的MedSeg-HQ数据集（不到现有大规模数据集的1%）上训练。
Result: 在MedSeg-HQ数据集上训练后，SegMoTE在多种成像模态和解剖任务上实现了最先进的性能，是首个在极低标注成本下实现通用分割模型高效、鲁棒且可扩展的医学领域适应的框架。
Conclusion: SegMoTE代表了在极低标注成本下，将通用分割模型高效、鲁棒且可扩展地适应到医学领域的首次成功，推动了基础视觉模型在临床应用中的实际部署。

[100] Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Siran Li,Li Mi,Javiera Castillo-Navarro,Devis Tuia

Main category: cs.CV

TL;DR: 提出KRSVQG模型，结合外部知识三元组和图像描述，生成丰富多样的遥感图像问题，超越传统模板化方法

Motivation: 当前自动生成的问题过于简单和模板化，限制了问答系统在实际应用中的部署。需要结合图像内容和常识知识来丰富和多样化问题生成
Method: 提出知识感知的遥感视觉问题生成模型(KRSVQG)，整合外部知识源的三元组知识，使用图像描述作为中间表示来将问题锚定到对应图像，采用视觉语言预训练和微调策略适应低数据场景
Result: 构建了两个知识感知遥感视觉问题生成数据集(NWPU-300和TextRS-300)，评估显示KRSVQG优于现有方法，能生成基于图像和领域知识的丰富问题
Conclusion: 知识感知视觉问题生成推动了超越像素的图像内容理解，促进了具有视觉锚定人类常识的知识丰富视觉语言系统的发展

[101] Controlled Face Manipulation and Synthesis for Data Augmentation

Joris Kirchner,Amogh Gudi,Marian Bittner,Chirag Raman

Main category: cs.CV

TL;DR: 提出一种基于预训练人脸生成器的面部表情编辑方法，通过依赖感知条件化和正交投影减少特征纠缠，用于数据增强以改善AU检测器性能。

Motivation: 深度学习视觉模型需要大量标注数据，但许多应用面临标签稀缺和类别不平衡问题。面部表情分析中，AU标注成本高且AU共激活导致特征纠缠，可控图像编辑可以增强稀缺标注数据，但现有方法常引入伪影并纠缠非目标属性。
Method: 在预训练人脸生成器（Diffusion Autoencoder）的语义潜在空间中操作，使用轻量级线性模型：1）依赖感知条件化考虑AU共激活；2）正交投影移除干扰属性方向（如眼镜）；3）表情中性化步骤实现绝对AU编辑。通过这些编辑平衡AU出现频率并多样化身份/人口统计特征。
Result: 使用生成数据增强AU检测器训练，提高了准确性并产生更解耦的预测，减少了共激活捷径。性能优于其他数据高效训练策略，学习曲线分析显示效果相当于需要更多标注数据才能达到的水平。相比先前方法，编辑效果更强、伪影更少、身份保持更好。
Conclusion: 提出的面部操纵方法能够有效减少特征纠缠，通过可控数据增强改善AU检测器性能，在标签稀缺和类别不平衡场景下提供了一种有效的解决方案，效果优于现有方法。

[102] Knowledge-aware Visual Question Generation for Remote Sensing Images

Siran Li,Li Mi,Javiera Castillo-Navarro,Devis Tuia

Main category: cs.CV

TL;DR: 提出KRSVQG模型，通过融入外部知识来生成更丰富、多样化的遥感图像问题，提升问答和视觉对话系统的实用性。

Motivation: 现有遥感图像自动生成的问题过于简单和模板化，限制了问答系统和视觉对话系统的实际部署。需要生成更丰富、多样化且具有上下文理解的问题。
Method: 提出知识感知的遥感视觉问题生成模型KRSVQG，以图像和相关知识三元组为输入，利用图像描述作为中间表示来增强生成问题的图像基础。
Result: 在手动标注的NWPU-300和TextRS-300数据集上测试，KRSVQG优于现有方法，能生成基于图像和领域知识的知识丰富问题。
Conclusion: KRSVQG通过融入外部知识有效提升了遥感图像问题生成的质量和多样性，为问答和视觉对话系统提供了更好的基础。

[103] No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

Zunkai Dai,Ke Li,Jiajia Liu,Jie Yang,Yuanyuan Qiao

Main category: cs.CV

TL;DR: LAVIDA是一个零样本视频异常检测框架，通过异常暴露采样器生成伪异常训练，结合多模态大语言模型增强语义理解，使用基于反向注意力的token压缩处理时空稀疏性，在四个基准数据集上实现了SOTA性能。

Motivation: 视频异常检测面临开放世界场景性能不足的问题，主要原因是数据集多样性有限以及对上下文相关异常语义理解不足。现有方法在零样本设置下表现不佳。
Method: 1) 提出LAVIDA端到端零样本视频异常检测框架；2) 使用异常暴露采样器将分割对象转换为伪异常，增强模型对未见异常类别的适应性；3) 集成多模态大语言模型增强语义理解能力；4) 设计基于反向注意力的token压缩方法处理异常模式的时空稀疏性并降低计算成本。
Result: 在四个基准视频异常检测数据集上的评估表明，LAVIDA在零样本设置下，在帧级和像素级异常检测方面均实现了最先进的性能。
Conclusion: LAVIDA通过伪异常训练和多模态语义理解，有效解决了视频异常检测在开放世界场景中的挑战，无需真实异常数据即可实现优秀的零样本检测性能。

[104] RegionRoute: Regional Style Transfer with Diffusion Model

Bowen Chen,Jake Zuena,Alan C. Bovik,Divya Kothandaraman

Main category: cs.CV

TL;DR: 提出注意力监督扩散框架，通过训练时对齐风格token注意力分数与物体掩码，实现无掩码的单物体风格迁移，解决扩散模型中风格空间控制不足的问题。

Motivation: 扩散模型在风格迁移中缺乏精确的空间控制能力，将风格视为全局特征，无法将风格限制在特定物体或区域。现有方法依赖手工掩码或多阶段后处理，导致边界伪影且泛化能力有限。
Method: 注意力监督扩散框架：训练时对齐风格token注意力分数与物体掩码；使用基于KL散度的Focus损失和基于二元交叉熵的Cover损失实现精确定位和密集覆盖；采用模块化LoRA-MoE设计支持高效多风格适应。
Result: 方法在推理时实现无掩码的单物体风格迁移，产生区域准确且视觉连贯的结果，优于现有基于扩散的编辑方法。提出区域风格编辑评分（Regional Style Editing Score）进行评估。
Conclusion: 通过注意力监督机制，成功解决了扩散模型中风格空间控制的挑战，实现了精确的局部风格迁移，为扩散模型的区域感知编辑提供了新思路。

[105] DD-CAM: Minimal Sufficient Explanations for Vision Models Using Delta Debugging

Krishna Khadka,Yu Lei,Raghu N. Kacker,D. Richard Kuhn

Main category: cs.CV

TL;DR: DD-CAM：一种基于delta调试的梯度无关框架，通过识别最小、充分且保持决策的表征单元子集来生成更精确的视觉模型解释性热图

Motivation: 现有CAM方法聚合所有单元导致热图杂乱，无法识别真正对预测决策至关重要的最小特征子集
Method: 采用delta调试策略，根据分类头中单元交互情况配置搜索策略：对非交互单元测试单个单元，对交互单元测试组合，识别1-最小子集（移除任何单元都会改变预测）
Result: 相比现有CAM方法，DD-CAM能生成更忠实、定位更准确的最小化预测保持热图
Conclusion: DD-CAM框架通过系统性地识别最小充分特征子集，为视觉模型提供了更精确、更可解释的决策解释

[106] A Two-Stage Detection-Tracking Framework for Stable Apple Quality Inspection in Dense Conveyor-Belt Environments

Keonvin Park,Aditya Pal,Jin Hong Mok

Main category: cs.CV

TL;DR: 提出两阶段检测跟踪框架，用于传送带环境下苹果质量检测的稳定性提升，通过跟踪级聚合确保时间一致性

Motivation: 现有水果检测系统多在图像级别评估，缺乏视频流中的时间稳定性，而工业水果检测需要在密集多目标交互和连续运动下可靠运行
Method: 两阶段框架：1) 果园训练的YOLOv8进行苹果定位；2) ByteTrack多目标跟踪保持身份一致性；3) ResNet18缺陷分类器在裁剪的苹果区域上进行微调；4) 引入跟踪级聚合确保时间一致性
Result: 相比逐帧推理，系统稳定性显著提升，表明集成跟踪对于实际自动化水果分级系统至关重要
Conclusion: 集成跟踪的检测框架能有效提高工业水果检测系统的时间稳定性，定义了视频级工业指标来评估系统鲁棒性

[107] MRI Contrast Enhancement Kinetics World Model

Jindi Kong,Yuting He,Cong Xia,Rongjun Ge,Shuo Li

Main category: cs.CV

TL;DR: 提出MRI对比增强动力学世界模型MRI CEKWorld，通过时空一致性学习解决MRI低时间分辨率导致的动力学模拟问题，实现连续无对比剂动态增强模拟。

Motivation: 临床MRI对比增强采集存在信息获取效率低的问题，采集协议与固定稀疏的采集序列不匹配。现有世界模型在MRI低时间分辨率下训练受限，直接训练生成模型会导致内容失真和时间不连续。
Method: 提出MRI CEKWorld模型，包含时空一致性学习(STCL)：1) 潜在对齐学习(LAL)：基于患者结构在增强过程中保持一致的规律，构建患者特定模板约束内容对齐；2) 潜在差异学习(LDL)：基于动力学遵循平滑趋势的规律，通过插值扩展未观测区间，约束潜在空间中插值序列的平滑变化。
Result: 在两个数据集上的广泛实验表明，MRI CEKWorld能够生成更真实的内容和动力学表现。
Conclusion: 提出的MRI CEKWorld模型通过时空一致性学习，有效解决了MRI对比增强动力学模拟中的内容失真和时间不连续问题，为临床提供连续无对比剂的动态增强模拟。

[108] IPv2: An Improved Image Purification Strategy for Real-World Ultra-Low-Dose Lung CT Denoising

Guoliang Gong,Man Yu

Main category: cs.CV

TL;DR: IPv2改进图像净化策略，通过三个核心模块（移除背景、添加噪声、移除噪声）解决原策略在背景和肺实质区域去噪不足的问题，显著提升超低剂量CT图像去噪效果。

Motivation: 原始图像净化策略存在两个固有局限：1）仅在胸壁和骨骼区域抑制噪声，背景未处理；2）缺乏专门的肺实质去噪机制。这限制了超低剂量CT图像去噪模型的结构保留能力。
Method: 提出IPv2改进策略，包含三个核心模块：移除背景（Remove Background）、添加噪声（Add noise）、移除噪声（Remove noise）。这些模块在训练数据构建时赋予模型背景和肺组织区域的去噪能力，并在测试阶段通过精细化标签构建提供更合理的评估协议。
Result: 在2%辐射剂量的真实患者肺部CT数据集上的大量实验表明，IPv2在多个主流去噪模型中一致改善了背景抑制和肺实质恢复效果。
Conclusion: IPv2通过系统性地重新设计图像净化策略，有效解决了原始策略在背景和肺实质区域去噪不足的问题，显著提升了超低剂量CT图像去噪的结构保留能力。

[109] Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

Alexandros Haliassos,Rodrigo Mira,Stavros Petridis

Main category: cs.CV

TL;DR: USR 2.0提出CTC驱动的教师强制方法，通过单次前向传递生成注意力目标，减少训练时间并提升分布外鲁棒性，在多个数据集上超越USR和模态特定自监督基线。

Motivation: USR框架虽然在半监督语音识别上取得先进结果，但存在两个主要问题：1）自回归伪标注导致训练成本高昂；2）CTC和注意力分支的解耦监督在分布偏移（如长序列、噪声、未见域）下容易产生自增强错误。
Method: 提出CTC驱动的教师强制方法：贪婪解码的CTC伪标签直接输入解码器生成注意力目标，单次前向传递完成。CTC和注意力伪标签长度相同，解码器可同时预测两者，结合CTC的鲁棒性和注意力的表达能力。进一步提出混合采样缓解解码器仅依赖CTC输入的暴露偏差。
Result: USR 2.0将训练时间减半，提升对分布外输入的鲁棒性，在LRS3、LRS2和WildVSR数据集上取得最先进结果，超越原始USR和模态特定的自监督基线方法。
Conclusion: CTC驱动的教师强制方法有效解决了USR框架的训练效率和鲁棒性问题，实现了更高效、更鲁棒的半监督统一语音识别框架。

[110] US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

Ashwath Radhachandran,Vedrana Ivezić,Shreeram Athreya,Ronit Anilkumar,Corey W. Arnold,William Speier

Main category: cs.CV

TL;DR: US-JEPA：针对超声成像噪声特点的自监督学习框架，采用静态教师非对称潜在训练，在超声基准测试中表现优于现有方法

Motivation: 超声成像具有固有的噪声采集过程，低信噪比和随机斑点模式阻碍了依赖像素级重建目标的标准自监督学习方法。现有JEPA方法依赖超参数敏感且计算昂贵的在线教师更新机制。
Method: 提出US-JEPA框架，采用静态教师非对称潜在训练目标，使用冻结的领域特定教师提供稳定的潜在目标，解耦学生-教师优化，让学生扩展教师的语义先验。在UltraBench基准上首次系统比较所有公开可用的超声基础模型。
Result: 在多样分类任务的线性探测中，US-JEPA达到与领域特定和通用视觉基础模型基线竞争或更优的性能。掩码潜在预测为稳健超声表示提供了稳定高效路径。
Conclusion: US-JEPA通过静态教师架构和掩码潜在预测，有效解决了超声成像自监督学习的挑战，为医学超声表示学习提供了新方向。

[111] DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware Filtering

Yiran Qiao,Yiren Lu,Yunlai Zhou,Rui Yang,Linlin Hou,Yu Yin,Jing Ma

Main category: cs.CV

TL;DR: 本文提出了一种针对3D高斯泼溅（3DGS）对抗性攻击的频率感知防御策略，通过小波变换分析输入图像高低频分量，过滤高频噪声同时保留低频内容，有效提升3DGS的鲁棒性。

Motivation: 3D高斯泼溅虽然能实现实时高保真3D重建，但研究发现其对输入视图中的对抗性扰动非常脆弱，微小但一致的扰动会严重降低渲染质量、增加训练渲染时间、膨胀内存使用，甚至导致服务器拒绝服务。现有研究忽视了3DGS的这一安全漏洞。
Method: 首先使用小波变换分析对抗性扰动在输入图像低频和高频分量中的不同行为。基于此观察，设计了一种简单有效的频率感知防御策略：通过过滤高频噪声同时保留低频内容来重建训练视图，有效抑制对抗性伪影同时保持原始场景的真实性。
Result: 在多个基准测试和广泛攻击强度下的实验表明，该方法显著增强了3DGS的鲁棒性，且无需干净的ground-truth监督。更重要的是，该方法不会显著影响在干净数据上的训练性能，实现了鲁棒性和干净输入性能之间的理想平衡。
Conclusion: 通过揭示并解决3D高斯泼溅被忽视的安全漏洞，本文为更鲁棒和安全的3D重建铺平了道路。提出的频率感知防御策略简单有效，在保持原始场景真实性的同时有效抵御对抗性攻击。

[112] RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

Mohammad Tahmid Noor,Shayan Abrar,Jannatul Adan Mahi,Md Parvez Mia,Asaduzzaman Hridoy,Samanta Ghosh

Main category: cs.CV

TL;DR: 提出基于深度学习的视网膜疾病分类方法，使用OCT图像，在C8数据集上测试Xception和InceptionV3架构，Xception达到95.25%准确率，并开发了RetinaVision网络应用。

Motivation: 视网膜疾病的早期准确分类对防止视力丧失和指导临床管理至关重要，需要有效的自动化诊断工具。
Method: 使用Retinal OCT Image Classification - C8数据集（24,000张标记图像，8种疾病），图像调整为224x224像素，测试Xception和InceptionV3卷积神经网络架构，采用CutMix和MixUp数据增强技术，使用GradCAM和LIME进行可解释性评估，并开发RetinaVision网络应用。
Result: Xception网络表现最佳，准确率达到95.25%，InceptionV3紧随其后为94.82%，证明深度学习方法能有效分类OCT视网膜疾病。
Conclusion: 深度学习方法可实现有效的OCT视网膜疾病分类，强调在临床应用中同时实现准确性和可解释性的重要性，开发的RetinaVision应用展示了实际应用潜力。

Sirine Bhouri,Lan Wei,Jian-Qing Zheng,Dandan Zhang

Main category: cs.CV

TL;DR: MultiDiffSense：统一扩散模型，通过CAD深度图和结构化提示合成多种视觉触觉传感器图像，解决多模态数据集获取难题

Motivation: 获取对齐的视觉-触觉数据集成本高且耗时，需要专用硬件和大规模数据收集。现有合成方法通常是单模态的，限制了跨模态学习。
Method: 使用统一扩散模型，通过双条件控制：CAD导出的姿态对齐深度图和编码传感器类型及4-DoF接触姿态的结构化提示，实现可控、物理一致的多模态合成。
Result: 在8个物体（5个已知，3个新物体）和未见姿态上评估，相比Pix2Pix cGAN基线，SSIM提升：ViTac +36.3%，ViTacTip +134.6%，TacTip +64.7%。下游3-DoF姿态估计中，混合50%合成数据和50%真实数据可将所需真实数据减半，同时保持竞争力。
Conclusion: MultiDiffSense缓解了触觉感知中的数据收集瓶颈，为机器人应用实现了可扩展、可控的多模态数据集生成。

[114] UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation

Rohit Mohan,Florian Drews,Yakov Miron,Daniele Cattaneo,Abhinav Valada

Main category: cs.CV

TL;DR: UP-Fuse是一种不确定性感知的LiDAR-相机融合框架，用于3D全景分割，在相机传感器退化、校准漂移和故障时仍保持鲁棒性。

Motivation: LiDAR-相机融合虽然能增强3D全景分割，但在恶劣条件下相机传感器退化或故障会严重影响感知系统的可靠性，需要解决这一关键失效模式。
Method: 在2D距离视图中，将原始LiDAR数据投影并编码，同时提取相机特征并投影到同一共享空间。核心是不确定性引导的融合模块，使用预测的不确定性图动态调节跨模态交互。融合后的特征通过新颖的混合2D-3D变换器解码，直接预测3D全景分割掩码。
Result: 在Panoptic nuScenes、SemanticKITTI和作者引入的Panoptic Waymo基准测试中，UP-Fuse表现出高效性和鲁棒性，即使在严重视觉退化或错位情况下仍保持强大性能。
Conclusion: UP-Fuse通过不确定性感知融合机制，在相机传感器退化、校准漂移和故障时仍能保持鲁棒性能，适用于安全关键场景的机器人感知系统。

[115] PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

Zhilin Guo,Jing Yang,Kyle Fogarty,Jingyi Wan,Boqiao Zhang,Tianhao Wu,Weihao Xia,Chenliang Zhou,Sakar Khattar,Fangcheng Zhong,Cristina Nader Vasconcelos,Cengiz Oztireli

Main category: cs.CV

TL;DR: PoseCraft：基于扩散模型和3D标记化接口的真人数字化框架，通过3D地标和相机外参作为条件标记，实现大姿态和视角变化下的逼真头像合成

Motivation: 现有方法存在局限性：基于蒙皮的工作流程需要繁琐的手动绑定或基于模板的拟合，而神经体积方法依赖于规范模板且需要为每个未见姿态重新优化。需要一种能保持3D语义、避免2D重投影模糊性，并能处理大姿态和视角变化的真人数字化方法。
Method: 提出PoseCraft扩散框架，采用标记化3D接口：将稀疏3D地标和相机外参编码为离散条件标记，通过交叉注意力注入到扩散模型中。同时开发GenHumanRF数据生成工作流程，从体积重建中渲染多样化的监督数据。
Result: 实验表明，PoseCraft在感知质量上显著优于基于扩散的方法，在指标上与最新的体积渲染SOTA相当或更好，同时能更好地保留织物和头发细节。
Conclusion: PoseCraft通过创新的3D标记化接口设计，有效解决了现有方法在3D语义保持和2D重投影模糊性方面的问题，实现了高质量、逼真的人类数字化和头像合成。

[116] MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

Nilay Yilmaz,Maitreya Patel,Naga Sai Abhiram Kusumba,Yixuan He,Yezhou Yang

Main category: cs.CV

TL;DR: 论文开发了MentalBlackboard基准测试，评估视觉语言模型在空间可视化能力（折纸和打孔测试）上的表现，发现模型在对称变换、旋转和规划任务上存在显著困难。

Motivation: 探索最先进的视觉语言模型是否具备空间可视化能力，即想象、变换和操作物体空间特征的心理能力，这是人类认知中连接行动和感知的重要部分。
Method: 开发MentalBlackboard开放空间可视化基准测试，包含折纸和打孔测试，分为预测和规划两个核心任务。预测任务评估模型应用对称变换和旋转的能力，规划任务评估模型分析对称关系和实施多阶段对称过程的能力。
Result: 模型在对称变换上表现不佳，即使能正确预测展开步骤序列；旋转对模型的物理情境感知构成重大挑战。规划任务中模型分析对称关系和实施多阶段对称过程的能力有限，Claude Opus 4.1规划准确率仅10%。最佳模型o3在不需要空间可视化但转移空间数据的泛化任务上达到71.6%准确率，但在基于文本的预测任务上仅25%。
Conclusion: 当前最先进的视觉语言模型在空间可视化能力上存在显著局限，特别是在对称变换、旋转理解和多阶段规划方面，表明这些模型尚未完全掌握人类的空间认知能力。

[117] Referring Layer Decomposition

Fangyi Chen,Yaojie Shen,Lu Xu,Ye Yuan,Shu Zhang,Yulei Niu,Longyin Wen

Main category: cs.CV

TL;DR: 提出Referring Layer Decomposition (RLD)任务，通过用户提示（空间输入、自然语言等）从单张RGB图像预测完整的RGBA图层，并构建RefLade数据集和RefLayer基线模型。

Motivation: 现有图像编辑方法通常对整个图像进行整体操作，缺乏对单个场景元素的精确控制和隔离编辑能力。分层表示（将场景分离为对象、环境背景和视觉效果）能提供更直观的结构化编辑框架。
Method: 引入RLD任务，构建RefLade数据集（包含111万图像-图层-提示三元组和10万手工标注的高质量图层），提出RefLayer基线模型用于提示条件图层分解，并建立基于人类偏好的自动评估协议。
Result: RefLayer基线模型实现了高视觉保真度和语义对齐，在RLD任务上表现出有效的训练、可靠的评估和高质量的图像分解能力，同时展示了强大的零样本泛化能力。
Conclusion: RLD任务通过分层表示实现了对视觉内容的精确、对象感知控制，为组合式理解和可控编辑提供了结构化框架，RefLade数据集和评估协议为这一研究方向建立了可基准化的基础。

[118] Detector-in-the-Loop Tracking: Active Memory Rectification for Stable Glottic Opening Localization

Huayu Wang,Bahaa Alattar,Cheng-Yen Yang,Hsiang-Wei Huang,Jung Heon Kim,Linda Shapiro,Nathan White,Jenq-Neng Hwang

Main category: cs.CV

TL;DR: 提出CL-MC框架，通过检测器监督SAM2进行置信度对齐的状态决策和主动记忆校正，解决喉镜视频中声门开口定位的时序稳定性问题。

Motivation: 喉镜视频中声门开口定位的时序稳定性面临挑战：单帧检测器缺乏时序上下文，而基础模型跟踪器存在记忆漂移问题。特别是在紧急情况下，快速的组织变形、遮挡和视觉模糊需要一种鲁棒的、具有时序感知能力的解决方案来防止渐进式跟踪错误。
Method: 提出闭环记忆校正（CL-MC）框架，这是一个检测器在环的系统，通过置信度对齐的状态决策和主动记忆校正来监督Segment Anything Model 2（SAM2）。高置信度检测会触发语义重置，覆盖被污染的跟踪器记忆，从而有效缓解复杂内窥镜场景中的漂移累积。
Result: 在紧急插管视频上，CL-MC实现了最先进的性能，与SAM2变体和基于开环的方法相比，显著减少了漂移和漏检率。
Conclusion: 记忆校正是可靠临床视频跟踪的关键组件，CL-MC框架为喉镜视频中的声门开口定位提供了有效的时序稳定性解决方案。

[119] Adaptive Data Augmentation with Multi-armed Bandit: Sample-Efficient Embedding Calibration for Implicit Pattern Recognition

Minxue Tang,Yangyang Yu,Aolin Ding,Maziyar Baran Pouyan,Taha Belkhouja Yujia Bao

Main category: cs.CV

TL;DR: ADAMAB是一个用于少样本模式识别的高效嵌入校准框架，通过嵌入无关的轻量级校准器和基于多臂老虎机的自适应数据增强策略，在少量训练数据下显著提升性能。

Motivation: 当前预训练基础模型（如LLMs和VLMs）在处理长尾模式识别任务时面临挑战，而微调通常不可行，因为缺乏训练数据且计算开销大。
Method: 提出ADAMAB框架：1）训练嵌入无关的轻量级校准器，不访问底层嵌入模型参数以降低计算成本；2）引入基于多臂老虎机的自适应数据增强策略，使用改进的上置信界算法减少梯度偏移并保证收敛。
Result: 多模态实验证明ADAMAB具有优越性能，在每类少于5个初始数据样本训练时，准确率提升高达40%。
Conclusion: ADAMAB为少样本模式识别提供了一种高效解决方案，通过轻量级校准和自适应数据增强，在计算成本和数据需求方面都取得了显著改进。

[120] Redefining the Down-Sampling Scheme of U-Net for Precision Biomedical Image Segmentation

Mingjie Li,Yizheng Chen,Md Tauhidul Islam,Lei Xing

Main category: cs.CV

TL;DR: 提出Stair Pooling方法，通过串联不同方向的小型窄池化操作来减缓下采样速度，减少信息损失，提升U-Net在生物医学图像分割中的长距离信息捕获能力

Motivation: 传统U-Net架构在生物医学图像分割中难以捕获长距离信息，主要原因是常规下采样技术为了计算效率而牺牲了信息保留
Method: 提出Stair Pooling策略，将每个2D池化步骤中的维度缩减从1/4改为1/2，通过串联不同方向的小型窄池化操作来减缓下采样速度，也可适应3D池化以保留更多信息
Result: 在三个BIS基准测试上的实验表明，Stair Pooling能将2D和3D U-Net的Dice分数平均提高3.8%，并通过转移熵选择最优下采样路径，定量展示了该方法如何减少信息损失
Conclusion: Stair Pooling是一种简单有效的策略，通过减缓下采样速度来减少信息损失，帮助U-Net在上采样阶段更有效地重建空间细节，从而提升长距离信息捕获能力和分割精度

[121] PA-Attack: Guiding Gray-Box Attacks on LVLM Vision Encoders with Prototypes and Attention

Hefei Mei,Zirui Wang,Chang Xu,Jianyuan Guo,Minjing Dong

Main category: cs.CV

TL;DR: PA-Attack是一种针对大型视觉语言模型（LVLMs）的灰盒对抗攻击方法，通过原型锚定引导和两阶段注意力增强机制，在多种下游任务中实现了高效攻击和强泛化能力。

Motivation: 现有白盒攻击方法跨任务泛化能力差，黑盒方法依赖昂贵的迁移攻击效率低。视觉编码器作为LVLMs中标准化且常共享的组件，为攻击提供了稳定的灰盒支点，具有跨模型迁移潜力。
Method: 1. 原型锚定引导：提供稳定的攻击方向，指向通用且不同的原型，解决属性限制问题和传统攻击的有限任务泛化能力。

两阶段注意力增强机制：利用token级注意力分数集中扰动关键视觉token；自适应重新校准注意力权重以跟踪对抗过程中的注意力变化。

Result: 在多种下游任务和LVLM架构上的广泛实验表明，PA-Attack实现了平均75.1%的得分降低率（SRR），展示了强大的攻击效果、效率和任务泛化能力。
Conclusion: PA-Attack通过利用视觉编码器的灰盒特性，结合原型锚定引导和注意力增强机制，为LVLMs提供了一种高效、泛化能力强的对抗攻击方法，揭示了LVLMs的安全脆弱性。

[122] Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Jiabao Chen,Shan Xiong,Jialin Peng

Main category: cs.CV

TL;DR: Prefer-DAS：一种基于稀疏提示学习和局部偏好对齐的域自适应分割方法，支持弱监督和无监督设置，在电子显微镜图像分割任务中表现优异。

Motivation: 当前无监督域自适应（UDA）方法在电子显微镜图像分割中存在性能有限和偏差问题，需要更现实且标注高效的解决方案。作者探索使用稀疏点和局部人类偏好作为弱标签，提出更实用的域自适应分割框架。
Method: 提出Prefer-DAS框架，包含：1）稀疏可提示学习，支持全点、部分点或无点提示的交互式分割；2）局部偏好对齐，引入LPO和SLPO处理空间变化的人类反馈；3）无监督偏好优化（UPO）处理缺失反馈；4）结合自训练和提示引导对比学习的多任务模型。
Result: 在四个挑战性域自适应分割任务上，Prefer-DAS在自动和交互式分割模式中均优于SAM-like方法以及无监督和弱监督DAS方法，表现出强大的泛化性和灵活性，性能接近甚至超过监督模型。
Conclusion: Prefer-DAS通过稀疏提示学习和局部偏好对齐，为电子显微镜图像分割提供了一种高效且灵活的域自适应解决方案，在弱监督和无监督设置下均能取得优异性能，具有实际应用价值。

[123] Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Yuxuan Yang,Zhonghao Yan,Yi Zhang,Bo Yun,Muxi Diao,Guowei Zhao,Kongming Liang,Wenbin Li,Zhanyu Ma

Main category: cs.CV

TL;DR: 提出Hepato-LLaVA，一个专门用于肝细胞癌病理分析的多模态大语言模型，通过稀疏拓扑注意力机制和新的临床数据集，在肝癌诊断和图像描述任务上达到最优性能。

Motivation: 当前肝癌诊断依赖全切片图像分析，但现有计算方法受限于固定分辨率处理和低效特征聚合，导致信息丢失或特征冗余问题。
Method: 提出Hepato-LLaVA模型，引入稀疏拓扑注意力机制显式建模2D组织拓扑结构，有效聚合局部诊断证据到语义摘要令牌，同时保持全局上下文。创建HepatoPathoVQA临床数据集，包含33K层次化问答对。
Result: Hepato-LLaVA在肝癌诊断和图像描述任务上达到最先进性能，显著优于现有方法。
Conclusion: 提出的模型和数据集有效解决了肝癌病理分析中的多尺度处理和特征聚合问题，为临床诊断提供了有力工具。

[124] TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

Dong-Guw Lee,Tai Hyoung Rhee,Hyunsoo Jang,Young-Sik Shin,Ukcheol Shin,Ayoung Kim

Main category: cs.CV

TL;DR: TherA是一个可控的RGB到热红外图像转换框架，通过结合视觉语言模型和潜在扩散模型，生成多样且热物理合理的伪热红外数据。

Motivation: 热红外成像具有固有优势，但大规模数据收集和标注是主要瓶颈。现有的RGB到热红外转换方法过度依赖RGB先验，忽略了热物理学原理，导致生成的热分布不真实。
Method: 提出TherA框架，结合TherA-VLM（热感知视觉语言模型）和潜在扩散模型。给定单张RGB图像和用户提示的条件对，TherA-VLM生成热感知嵌入，编码场景、物体、材料和热辐射上下文。扩散模型基于此嵌入进行条件生成，实现真实的热红外合成和细粒度控制。
Result: TherA在翻译性能上达到最先进水平，相比其他基线方法，零样本翻译性能平均提升达33%（所有指标平均）。
Conclusion: TherA框架能够生成多样且热物理合理的热红外图像，解决了现有方法忽略热物理学的问题，为热红外感知任务提供了实用的数据增强方案。

[125] CountEx: Fine-Grained Counting via Exemplars and Exclusion

Yifeng Huang,Gia Khanh Nguyen,Minh Hoai

Main category: cs.CV

TL;DR: CountEx是一个能够同时指定包含和排除对象的视觉计数框架，通过多模态提示和判别性查询优化模块，在复杂场景中实现更精确的计数。

Motivation: 现有基于提示的计数方法无法明确排除视觉上相似的干扰物，在杂乱场景中容易产生歧义和过度计数。需要一种能够同时表达包含和排除意图的计数框架。
Method: CountEx使用多模态提示（自然语言描述和可选视觉示例）表达包含和排除意图。核心是判别性查询优化模块，通过识别共享视觉特征、隔离排除特定模式、应用选择性抑制来优化计数查询。
Result: CountEx在已知和新类别对象计数上都显著优于现有最先进方法。作者还创建了CoCount基准数据集，包含1,780个视频和10,086个标注帧，涵盖97个类别对。
Conclusion: CountEx通过支持包含和排除提示，解决了现有计数方法的局限性，在复杂场景中实现了更精确和鲁棒的视觉计数。提出的CoCount基准为细粒度计数方法评估提供了系统支持。

[126] FinSight-Net:A Physics-Aware Decoupled Network with Frequency-Domain Compensation for Underwater Fish Detection in Smart Aquaculture

Jinsong Yang,Zeyuan Hu,Yichen Li,Hong Yu

Main category: cs.CV

TL;DR: FinSight-Net：针对水下鱼类检测的轻量级物理感知检测框架，通过多尺度解耦双流处理和高效路径聚合FPN，在模糊和浑浊条件下实现高效准确检测。

Motivation: 现有水下鱼类检测方法通常堆叠特征提取器或引入复杂注意力模块，导致计算开销大，且忽视了水下物理限制（波长相关吸收和浑浊散射），这些物理因素会降低对比度、模糊细节并引入背向散射噪声，导致定位和识别不可靠。
Method: 提出FinSight-Net框架：1）多尺度解耦双流处理瓶颈（MS-DDSP），通过异构卷积分支针对频率特定信息损失，抑制背向散射伪影并补偿失真的生物线索；2）高效路径聚合FPN（EPA-FPN），通过长距离跳跃连接和剪枝冗余融合路径恢复高频空间信息。
Result: 在DeepFish、AquaFishSet和自建的UW-BlurredFish基准测试中达到最先进性能。在UW-BlurredFish上达到92.8% mAP，比YOLOv11s高出4.8%，同时参数减少29.0%。
Conclusion: FinSight-Net为智能水产养殖中的实时自动监测提供了一个强大且轻量级的解决方案，通过显式处理水下物理限制，在模糊和浑浊条件下实现了高效准确的非刚性鱼类目标检测。

[127] UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Yecheng Zhang,Rong Zhao,Zhizhou Sha,Yong Li,Lei Wang,Ce Hou,Wen Ji,Hao Huang,Yunshan Wan,Jian Yu,Junhao Xia,Yuru Zhang,Chunlei Shi

Main category: cs.CV

TL;DR: 无需训练即可对齐视觉语言模型与人类偏好：通过概念瓶颈管道实现领域特定任务的后处理校准

Motivation: 传统方法需要微调或强化学习来对齐视觉语言模型与人类偏好，这需要标注数据和GPU计算。作者发现对于主观感知任务，无需模型训练即可实现对齐，因为VLM已经是强大的概念提取器，只是决策校准能力差。
Method: 提出无需训练的后处理概念瓶颈管道，包含三个紧密耦合阶段：1) 概念挖掘：从少量人工标注中提取可解释的评估维度；2) 多智能体结构化评分：使用Observer-Debater-Judge链从冻结VLM中提取稳健的连续概念分数；3) 几何校准：在混合视觉语义流形上使用局部加权岭回归校准分数与人类评分。整个过程由端到端的维度优化循环统一。
Result: 在UrbanAlign框架中应用于城市感知，在Place Pulse 2.0的六个类别上达到72.2%准确率（κ=0.45），比最佳监督基线提升15.1个百分点，比未校准VLM评分提升16.3个百分点，同时保持完整的维度级可解释性且无需修改模型权重。
Conclusion: 对于主观感知任务，无需模型训练即可有效对齐VLM输出与人类偏好。VLM作为强大的概念提取器，通过外部校准机制可以弥补其决策校准能力的不足，实现高性能、可解释的领域特定对齐。

[128] Decoupling Vision and Language: Codebook Anchored Visual Adaptation

Jason Wu,Tianchen Zhao,Chang Liu,Jiarui Cai,Zheng Zhang,Zhuowei Li,Aaditya Singh,Xiang Xu,Mani Srivastava,Jonathan Wu

Main category: cs.CV

TL;DR: CRAFT是一种轻量级方法，通过离散码本将视觉表示锚定到稳定标记空间，实现视觉编码器的领域自适应，无需修改模型其他部分，提升LVLMs在特定领域任务上的性能。

Motivation: 现有大型视觉语言模型（LVLMs）的视觉编码器在医学图像诊断或细粒度分类等特定领域任务中表现不佳，表示错误会通过语言模型级联传播导致错误回答。现有自适应方法通过投影器调优等参数高效更新修改连续特征接口，仍然耦合两个组件，且编码器变化时需要重新对齐。
Method: CRAFT（Codebook RegulAted Fine-Tuning）使用离散码本将视觉表示锚定到稳定标记空间，对编码器进行轻量级微调。这种解耦设计允许适配后的编码器无缝提升不同语言架构LVLMs的性能，只要它们共享相同码本。
Result: 在VQARAD和PlantVillage等10个领域特定基准测试中平均提升13.51%，同时保持LLM的语言能力，优于在连续标记上操作的同类方法。
Conclusion: CRAFT通过离散码本实现视觉编码器的领域自适应，提供解耦、轻量级的解决方案，能显著提升LVLMs在特定领域任务上的性能，同时保持语言能力，且适配后的编码器可跨不同语言架构使用。

[129] HD-TTA: Hypothesis-Driven Test-Time Adaptation for Safer Brain Tumor Segmentation

Kartik Jhawar,Lipo Wang

Main category: cs.CV

TL;DR: 本文提出假设驱动的测试时适应框架，通过生成竞争性几何假设（压缩与膨胀）和表示引导选择器，在医学分割中实现更安全的域适应，减少肿瘤预测溢出到健康组织的问题。

Motivation: 传统测试时适应方法在安全关键的医学分割中存在局限性，它们通常对所有测试样本应用通用优化目标，导致肿瘤掩码可能溢出到健康脑组织，或破坏原本正确的预测。需要一种更安全的选择性适应方法。
Method: 提出假设驱动的测试时适应框架：1）生成竞争性几何假设：压缩（去除噪声伪影）与膨胀（恢复欠分割的有效肿瘤）；2）使用表示引导选择器基于内在纹理一致性自主选择最安全结果；3）预筛选门控机制跳过对置信案例的适应以避免负迁移。
Result: 在跨域脑肿瘤分割任务中，HD-TTA在安全导向指标上显著优于现有方法：Hausdorff距离减少约6.4毫米，精确度提高超过4%，同时保持相当的Dice分数。证明通过显式假设选择解决安全-适应权衡是可行的。
Conclusion: 假设驱动的测试时适应为安全临床模型部署提供了一条可行且稳健的路径，通过将适应重新定义为动态决策过程，生成竞争性假设并基于表示一致性选择最安全结果，有效解决了医学分割中的安全-适应权衡问题。

[130] Laplacian Multi-scale Flow Matching for Generative Modeling

Zelin Zhao,Petr Molodyk,Haotian Xue,Yongxin Chen

Main category: cs.CV

TL;DR: LapFlow是一种利用多尺度表示增强流匹配的图像生成框架，通过拉普拉斯金字塔残差分解和并行多尺度处理，无需级联方法中的重噪声化过程，在提高生成质量的同时加速采样并降低计算开销。

Motivation: 现有流匹配方法在图像生成中存在效率和质量限制，特别是处理高分辨率图像时计算开销大。级联方法需要显式的重噪声化过程，增加了复杂性。需要一种能够并行处理多尺度表示、提高生成效率并降低计算成本的新框架。
Method: 提出Laplacian多尺度流匹配框架：1) 将图像分解为拉普拉斯金字塔残差；2) 使用具有因果注意力机制的混合变换器架构并行处理不同尺度；3) 消除级联方法中需要的显式重噪声化过程；4) 支持高分辨率图像生成（最高1024×1024）。
Result: 在CelebA-HQ和ImageNet数据集上的实验表明：1) 相比单尺度和多尺度流匹配基线，获得更优的样本质量；2) 使用更少的GFLOPs和更快的推理速度；3) 有效扩展到高分辨率生成（1024×1024）同时保持较低计算开销。
Conclusion: LapFlow通过并行多尺度处理显著提升了流匹配方法的效率和可扩展性，为高分辨率图像生成提供了一种计算高效且质量优越的解决方案，推动了流匹配方法的规模化应用。

[131] Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces

Jiazhang Wang,Hyelim Yang,Tianyi Wang,Florian Willomitzer

Main category: cs.CV

TL;DR: 提出一种基于物理信息深度学习的单次拍摄复杂镜面3D成像方法，结合偏振线索和结构光照明的互补信息，通过双编码器架构实现快速准确的表面法线估计。

Motivation: 现实场景中（如在线检测或手持扫描）的镜面3D成像面临挑战，需要快速准确测量复杂几何形状。现有方法存在局限：偏折法需要多次拍摄，不适合动态环境；傅里叶单次方法对高空间频率或大曲率表面性能下降；偏振3D成像受正交成像假设限制精度。
Method: 提出物理信息深度学习框架，结合偏振线索（提供方向先验）和结构光照明（编码几何信息）。采用双编码器架构，通过特征互调制处理非线性耦合，直接从单次拍摄中推断表面法线。
Result: 该方法实现了单次拍摄下的准确鲁棒法线估计，具有快速推理能力，能够对复杂镜面表面进行实用的3D成像。
Conclusion: 通过融合偏振和结构光互补线索的深度学习框架，解决了复杂镜面表面单次3D成像的挑战，在动态环境中实现了快速准确的测量。

[132] Forgetting-Resistant and Lesion-Aware Source-Free Domain Adaptive Fundus Image Analysis with Vision-Language Model

Zheang Huai,Hui Tang,Hualiang Wang,Xiaomeng Li

Main category: cs.CV

TL;DR: 提出FRLA方法用于源域自由域自适应，解决现有方法在利用视觉语言模型时的遗忘问题和忽视细粒度知识的问题

Motivation: 传统源域自由域自适应方法在域偏移下容易出错，现有利用视觉语言模型的方法存在两个问题：1）会遗忘目标模型的优势预测；2）忽视了视觉语言模型中丰富的细粒度知识
Method: 提出遗忘抵抗和病变感知的FRLA方法，包含两个模块：遗忘抵抗自适应模块显式保留目标模型的置信预测，病变感知自适应模块从视觉语言模型获取补丁级预测，帮助目标模型感知病变区域并利用细粒度知识
Result: 实验表明该方法不仅显著优于视觉语言模型，而且在多个基准测试中一致优于最先进方法
Conclusion: FRLA方法有效解决了源域自由域自适应中的遗忘问题和细粒度知识利用不足的问题，在眼底图像诊断任务中表现出色

[133] Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

Weiyi Wu,Xinwen Xu,Chongyang Gao,Xingjian Diao,Siting Li,Jiang Gui

Main category: cs.CV

TL;DR: 提出空间正则化多实例学习框架，利用补丁特征间的空间关系作为标签无关的正则化信号，解决全切片图像分析中监督稀疏问题

Motivation: 全切片图像分析面临数据规模巨大和标注稀缺的挑战，现有MIL方法因单个袋级标签需指导大量补丁级特征学习，导致监督稀疏、难以可靠识别判别性补丁，造成优化不稳定和次优解
Method: 提出空间正则化MIL框架，利用补丁特征间的空间关系作为标签无关的正则化信号，通过联合优化特征诱导的空间重建和标签指导的分类目标，学习共享表示空间，强制内在结构模式与监督信号的一致性
Result: 在多个公共数据集上的实验结果表明，相比现有最先进方法有显著改进
Conclusion: 该方法为解决全切片图像分析中的监督稀疏问题提供了有前景的方向

[134] MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Mingrui Wu,Hang Liu,Jiayi Ji,Xiaoshuai Sun,Rongrong Ji

Main category: cs.CV

TL;DR: MICON-Bench是一个评估多图像上下文生成能力的基准测试，包含6个任务，并提出了动态注意力重平衡（DAR）机制来提升生成质量

Motivation: 现有的统一多模态模型（UMMs）在多图像上下文生成方面缺乏专门的评估基准，现有基准主要关注文本到图像或单图像编辑任务，无法充分评估模型在多图像推理方面的能力
Method: 1. 提出MICON-Bench基准测试，涵盖6个评估跨图像组合、上下文推理和身份保持的任务；2. 采用MLLM驱动的检查点评估框架进行自动语义和视觉一致性验证；3. 提出动态注意力重平衡（DAR）机制，在推理过程中动态调整注意力以增强连贯性并减少幻觉
Result: 实验表明MICON-Bench能够有效暴露多图像推理的挑战，同时DAR机制能够显著提升生成质量和跨图像连贯性
Conclusion: 该工作填补了多图像上下文生成评估的空白，提出的DAR机制为提升多模态模型的生成质量提供了有效的训练免费解决方案

[135] A Text-Guided Vision Model for Enhanced Recognition of Small Instances

Hyun-Ki Jung

Main category: cs.CV

TL;DR: 提出改进的YOLO-World模型，通过C3k2层替换C2f层提升小目标检测精度，并行处理优化提高效率，在VisDrone数据集上各项指标均有提升，模型更轻量化。

Motivation: 随着无人机目标检测技术的发展，需求从单纯检测转向精确识别特定目标。用户需要能够输入文本提示来精确检测所需对象，特别是针对小目标检测的挑战。
Method: 改进YOLO-World模型：1) 将YOLOv8主干网络中的C2f层替换为C3k2层，以更精确表示局部特征；2) 通过并行处理优化提高处理速度和效率；3) 实现更轻量化的模型设计。
Result: 在VisDrone数据集上：精度从40.6%提升至41.6%，召回率从30.8%提升至31%，F1分数从35%提升至35.5%，mAP@0.5从30.4%提升至30.7%。参数从400万减少到380万，FLOPs从157亿减少到152亿。
Conclusion: 提出的方法为无人机应用中的精确目标检测提供了实用有效的解决方案，在保持轻量化的同时提升了检测精度，特别是对小目标的检测能力。

[136] Test-Time Computing for Referring Multimodal Large Language Models

Mingrui Wu,Hao Chen,Jiayi Ji,Xiaoshuai Sun,Zhiyuan Liu,Liujuan Cao,Ming-Ming Cheng,Rongrong Ji

Main category: cs.CV

TL;DR: ControlMLLM++ 是一个无需重新训练或微调的测试时自适应框架，通过注入可学习的视觉提示到冻结的多模态大语言模型中，实现细粒度的区域视觉推理。

Motivation: 现有MLLMs在细粒度区域视觉推理方面存在局限，需要在不重新训练或微调模型的情况下，实现对用户指定区域的精确注意力引导。
Method: 利用跨模态注意力图编码文本标记与视觉区域语义对应关系的洞察，通过任务特定的能量函数在推理时优化潜在视觉标记修改器，引导模型注意力到指定区域。包含改进的优化策略(Optim++)和提示去偏机制(PromptDebias)。
Result: 方法支持多种视觉提示类型（边界框、掩码、涂鸦、点），展现出强大的跨域泛化能力和可解释性。
Conclusion: ControlMLLM++ 提供了一种高效、无需训练的区域视觉推理解决方案，通过测试时自适应实现了对冻结MLLMs的细粒度控制。

[137] Relational Feature Caching for Accelerating Diffusion Transformers

Byunggwan Son,Jeimin Jeon,Jeongwoo Choi,Bumsub Ham

Main category: cs.CV

TL;DR: 提出关系特征缓存(RFC)框架，通过输入-输出关系增强特征预测精度，减少扩散变换器中的冗余计算

Motivation: 现有基于预测的缓存方法仅依赖时间外推技术，存在显著预测误差，导致性能下降。研究发现这些误差源于输出特征变化的不规则幅度，且模块的输入特征与相应输出强相关。
Method: 提出关系特征缓存(RFC)框架：1) 关系特征估计(RFE)：利用输入-输出关系从输入估计输出特征变化幅度，实现更准确的特征预测；2) 关系缓存调度(RCS)：使用输入特征估计预测误差，仅在误差较大时执行完整计算。
Result: 在各种DiT模型上的广泛实验表明，RFC始终显著优于先前方法。
Conclusion: RFC通过利用输入-输出关系有效提高了特征预测精度，为扩散变换器的加速提供了更有效的缓存框架。

[138] OSInsert: Towards High-authenticity and High-fidelity Image Composition

Jingyuan Wang,Li Niu

Main category: cs.CV

TL;DR: 提出两阶段图像合成方法，首阶段用高真实性方法生成合理前景形状，第二阶段用高保真方法保留细节，同时实现真实性和保真度

Motivation: 现有图像合成方法难以同时实现高真实性（调整前景姿态以适应背景）和高保真度（准确保留前景细节），需要一种能兼顾两者的方法
Method: 两阶段策略：第一阶段使用高真实性方法生成合理的前景形状作为条件；第二阶段使用高保真方法基于该条件生成最终合成图像
Result: 在MureCOM数据集上的实验验证了两阶段策略的有效性，能够同时实现高真实性和高保真度
Conclusion: 提出的两阶段方法成功解决了现有方法难以兼顾真实性和保真度的问题，代码和模型已开源

[139] ORION: ORthonormal Text Encoding for Universal VLM AdaptatION

Omprakash Chakraborty,Jose Dolz,Ismail Ben Ayed

Main category: cs.CV

TL;DR: ORION：通过低秩适应和正交化损失微调文本编码器，提升视觉语言模型的分类性能

Motivation: 现有视觉语言模型（VLM）的零样本分类性能受限于文本原型的质量和几何结构。标准方法使用冻结文本编码器和手工提示，可能产生相关性高或分离度低的嵌入表示，限制了任务特定的判别能力。
Method: 提出ORION框架，仅使用类别名称微调预训练VLM。通过低秩适应优化新颖的损失函数，包含两个项：1）促进类别文本表示之间的成对正交性；2）惩罚与初始类别原型的偏差。该方法还提供了正交惩罚的概率解释，通过惠更斯定理将其与最大似然估计原则联系起来。
Result: 在11个基准测试和3个大型VLM骨干网络上进行广泛实验，表明优化后的文本嵌入可以替代标准CLIP原型。作为即插即用模块添加到各种最先进方法中，在零样本、少样本和测试时适应等不同预测设置下，ORION都能一致且显著地提升性能。
Conclusion: ORION通过优化文本编码器的正交性和保持性，有效提升了视觉语言模型的分类性能，为改进VLM的文本表示提供了一种有效且通用的方法。

[140] Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

Zhiwei Ning,Xuanang Gao,Jiaxi Cao,Runze Yang,Huiying Xu,Xinzhong Zhu,Jie Yang,Wei Liu

Main category: cs.CV

TL;DR: Fore-Mamba3D：针对3D目标检测的Mamba骨干网络改进，通过前景增强编码解决传统方法中背景噪声和前景序列响应衰减问题

Motivation: 现有Mamba方法对整个非空体素序列进行双向编码，包含大量无用背景信息；直接编码前景体素会导致检测性能下降，原因是线性建模中前景序列存在响应衰减和上下文表示受限问题
Method: 1) 基于预测得分采样前景体素；2) 设计区域到全局滑动窗口(RGSW)传播不同实例间信息；3) 提出语义辅助状态空间融合模块(SASFMamba)增强语义和几何感知
Result: 在多个基准测试中表现出优越性能，证明了Fore-Mamba3D在3D目标检测任务中的有效性
Conclusion: 通过前景增强编码和缓解线性自回归模型中的距离依赖和因果依赖问题，Fore-Mamba3D显著提升了3D目标检测性能

[141] Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

Xingyu Shen,Tommy Duong,Xiaodong An,Zengqi Zhao,Zebang Hu,Haoyu Hu,Ziyou Wang,Finn Guo,Simiao Ren

Main category: cs.CV

TL;DR: 研究发现AI年龄估计系统对简单的家庭可实现的化妆攻击（如胡须、白发、化妆、模拟皱纹）非常脆弱，这些攻击能使未成年人被误判为成年人，攻击转换率最高达83%。

Motivation: 年龄估计系统被广泛用于限制未成年人访问在线内容，但其对化妆修改的鲁棒性尚未得到系统评估。研究旨在探究简单的家庭可实现的化妆攻击是否能欺骗AI年龄估计器，将未成年人误判为成年人。
Method: 使用VLM图像编辑器（Gemini 2.5 Flash Image）在329张10-21岁个体面部图像上模拟物理攻击（胡须、白发、化妆、模拟皱纹）。评估8个模型：5个专用架构和3个视觉语言模型。引入攻击转换率（ACR）作为评估指标。
Result: 合成胡须单独攻击在所有8个模型上达到28-69%的ACR；四种攻击组合使预测年龄平均增加7.7岁，ACR最高达83%；视觉语言模型的ACR（59-71%）低于专用模型（63-83%），但差异未统计检验。
Conclusion: 研究揭示了已部署年龄验证流程的关键漏洞，呼吁将对抗鲁棒性评估作为模型选择的强制性标准。

[142] A Green Learning Approach to LDCT Image Restoration

Wei Wang,Yixing Wu,C. -C. Jay Kuo

Main category: cs.CV

TL;DR: 本文提出了一种基于绿色学习（GL）的医学图像恢复方法，以低剂量CT图像为例，该方法在模型大小和推理复杂度更低的情况下实现了先进的恢复性能。

Motivation: 低剂量CT图像易受噪声和伪影影响，影响后续医学分析。现有深度学习方法虽然有效，但缺乏数学透明度、计算和内存效率。本文旨在探索一种替代的绿色学习方法来解决这些问题。
Method: 采用绿色学习（GL）方法进行医学图像恢复，该方法具有数学透明度、计算和内存效率高的特点。以低剂量CT图像恢复为例，构建了一个模型尺寸小、推理复杂度低的恢复系统。
Result: 实验结果表明，GL方法在更小的模型尺寸和更低的推理复杂度下，提供了最先进的图像恢复性能。
Conclusion: 绿色学习方法为医学图像恢复提供了一种数学透明、计算高效且性能优越的替代方案，特别适用于资源受限的医疗环境。

[143] Vinedresser3D: Agentic Text-guided 3D Editing

Yankuan Chi,Xiang Li,Zixuan Huang,James M. Rehg

Main category: cs.CV

TL;DR: Vinedresser3D：基于多模态大语言模型的智能3D编辑框架，通过分解文本指导、视觉引导和潜在空间修复流程，实现高质量、无需掩码的文本引导3D编辑

Motivation: 现有文本引导3D编辑方法难以同时处理复杂提示、自动定位3D编辑区域并保持未编辑内容。需要一种能够理解复杂指令、精确定位编辑区域并保持3D一致性的解决方案
Method: 1. 使用多模态大语言模型分析原始3D资产，推断详细描述，识别编辑区域和类型（添加、修改、删除），生成分解的结构和外观文本指导

选择信息丰富的视角，应用图像编辑模型获取视觉指导
采用基于反转的整流流修复流程，结合交错采样模块在3D潜在空间执行编辑，确保提示对齐同时保持3D一致性和未编辑区域

Result: 在多样化的3D编辑任务上，Vinedresser3D在自动评估指标和人工偏好研究中均优于现有基线方法，能够实现精确、一致且无需掩码的3D编辑
Conclusion: Vinedresser3D通过智能框架在原生3D生成模型的潜在空间中直接操作，成功解决了文本引导3D编辑中的关键挑战，实现了高质量、可控的3D内容修改

[144] DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

Li Zhang,Mingyu Mei,Ailing Wang,Xianhui Meng,Yan Zhong,Xinyuan Song,Liu Liu,Rujing Wang,Zaixing He,Cewu Lu

Main category: cs.CV

TL;DR: DICArt：一种基于条件离散扩散过程的铰接物体姿态估计新框架，通过离散生成建模和结构先验实现可靠的类别级6D姿态估计

Motivation: 现有铰接物体姿态估计方法通常在连续空间中回归姿态，但面临两大挑战：1）难以处理大而复杂的搜索空间；2）未能有效融入内在运动学约束。需要一种新方法来克服这些限制。
Method: 提出DICArt框架，将姿态估计建模为条件离散扩散过程。通过学习的反向扩散过程逐步去噪姿态表示。引入灵活流决策器动态决定每个token是去噪还是重置，平衡真实与噪声分布。采用分层运动学耦合策略，分层估计每个刚性部件的姿态以尊重物体运动学结构。
Result: 在合成和真实世界数据集上的实验验证表明，DICArt展现出优越的性能和鲁棒性，在复杂环境中实现了可靠的类别级6D姿态估计。
Conclusion: 通过将离散生成建模与结构先验相结合，DICArt为复杂环境中的可靠类别级6D姿态估计提供了新范式，有效解决了现有方法在搜索空间和运动学约束方面的挑战。

[145] VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense

Nadav Kadvil,Ayellet Tal

Main category: cs.CV

TL;DR: 提出一种针对大型视觉语言模型对抗攻击的防御方法，通过图像变换和智能数据整合来恢复正确模型行为，具有高效、无需训练的特点

Motivation: 大型视觉语言模型容易受到对抗图像攻击，这些攻击会微妙地偏置模型输出，使其产生看似合理但错误的响应，需要有效的防御机制
Method: 采用两阶段检测机制：首先通过内容保持的图像变换快速过滤干净输入；对于复杂情况，在文本嵌入空间中检查差异；必要时调用强大的LLM来解析攻击引起的分歧，并通过整合多个响应的相似性和差异性来恢复正确行为
Result: 该方法达到了最先进的准确率，同时保持显著效率：大多数干净图像跳过昂贵处理，即使存在大量对抗样本，开销也保持最小
Conclusion: 提出了一种通用、高效且无需训练的防御方法，通过结合图像变换和智能数据整合，有效防御大型视觉语言模型的对抗攻击，在准确性和效率之间取得了良好平衡

[146] HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

Chang Liu,Yunfan Ye,Qingyang Zhou,Xichen Tan,Mengxuan Luo,Zhenyu Qiu,Wei Peng,Zhiping Cai

Main category: cs.CV

TL;DR: HOCA-Bench是一个基于黑格尔哲学视角的物理异常基准测试，将异常分为本体异常和因果异常，使用生成视频模型创建1439个视频，评估17个Video-LLMs发现它们在因果推理方面存在显著缺陷。

Motivation: 当前Video-LLMs在语义感知方面有所改进，但在预测性世界建模方面仍然不足，而这是物理基础智能的核心。需要建立一个能够系统评估模型物理推理能力的基准测试。
Method: 采用黑格尔哲学框架，将物理异常分为两类：本体异常（实体违反自身定义或持续性）和因果异常（交互违反物理关系）。使用最先进的生成视频模型作为对抗模拟器，构建包含1439个视频（3470个QA对）的测试集。
Result: 评估17个Video-LLMs显示明显的认知滞后：模型通常能识别静态的本体异常（如形状突变），但在因果机制（如重力或摩擦力）方面表现不佳，因果任务性能下降超过20%。System-2"思考"模式能改善推理，但无法弥补差距。
Conclusion: 当前Video-LLM架构更擅长识别视觉模式而非应用基本物理定律，表明在物理世界建模方面存在根本性限制，需要新的架构设计来提升因果推理能力。

[147] ConceptPrism: Concept Disentanglement in Personalized Diffusion Models via Residual Token Optimization

Minseo Kim,Minchan Kwon,Dongyeun Lee,Yunho Jeon,Junmo Kim

Main category: cs.CV

TL;DR: ConceptPrism：通过对比图像集合自动解耦共享视觉概念与图像特定残差，无需人工指导，改善个性化文本到图像生成中的概念纠缠问题

Motivation: 个性化文本到图像生成存在概念纠缠问题，参考图像中的无关残差信息被捕获，导致概念保真度与文本对齐之间的权衡。现有解耦方法依赖人工指导（如语言提示或分割掩码），限制了适用性且无法完全表达目标概念。
Method: 提出ConceptPrism框架，通过比较图像集合自动解耦共享视觉概念与图像特定残差。联合优化目标token和图像特定残差token，使用两个互补目标：重建损失确保保真度，新颖的排除损失迫使残差token丢弃共享概念。整个过程无需直接监督。
Result: 大量实验表明，ConceptPrism有效解决了概念纠缠问题，在保真度和对齐性之间实现了显著改善的权衡。
Conclusion: ConceptPrism通过自动解耦共享概念与图像特定残差，无需人工指导，成功解决了个性化文本到图像生成中的概念纠缠问题，实现了更好的保真度与文本对齐平衡。

[148] Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception

Yihang Tao,Senkang Hu,Haonan An,Zhengru Fang,Hangcheng Cao,Yuguang Fang

Main category: cs.CV

TL;DR: MVIG攻击是一种针对协作感知系统的自适应对抗攻击框架，通过互视图信息表示学习防御系统的漏洞知识，能够显著降低现有防御系统的成功率。

Motivation: 当前协作感知系统的防御机制存在两个关键弱点：1) 缺乏对具有系统化时序和目标区域优化的攻击的鲁棒性；2) 通过共享协作数据中的隐式置信度信息无意中泄露了漏洞知识。需要开发更强大的攻击方法来暴露这些安全漏洞。
Method: 提出MVIG攻击框架：1) 使用统一的互视图信息图表示来捕获不同防御系统的漏洞知识；2) 结合时序图学习生成演化的伪造风险图；3) 采用熵感知漏洞搜索优化攻击位置、时机和持续性，实现跨不同防御配置的自适应攻击。
Result: 在OPV2V和Adv-OPV2V数据集上的广泛评估显示：MVIG攻击将最先进防御系统的成功率降低了高达62%；在29.9 FPS下实现持续性攻击的检测率降低47%，暴露了协作感知系统的关键安全漏洞。
Conclusion: MVIG攻击框架成功暴露了当前协作感知防御系统的严重安全漏洞，证明了现有基于阈值的共识验证防御在面对自适应、时序优化的攻击时仍然脆弱，需要开发更鲁棒的防御机制。

[149] CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

Chunlei Meng,Guanhong Huang,Rong Fu,Runmin Jian,Zhongxue Gan,Chun Ouyang

Main category: cs.CV

TL;DR: CLCR提出了一种跨层级协同表示方法，通过三层语义层次结构和层级约束来解决多模态学习中语义不对齐和错误传播问题，在多个任务上取得优异性能。

Motivation: 现有多模态学习方法将所有模态投影到单一潜在空间进行融合，忽略了多模态数据的异步、多层次语义结构，导致语义不对齐和错误传播，降低了表示质量。
Method: CLCR将每个模态特征组织为三层语义层次（浅层、中层、深层），通过语义层次编码器对齐跨模态特征。每层使用IntraCED将特征分解为共享和私有子空间，并通过可学习token预算限制跨模态注意力到共享子空间。InterCAD同步语义尺度，选择性融合共享表示，门控私有线索形成紧凑任务表示，并引入正则化项分离共享/私有特征。
Result: 在情感识别、事件定位、情感分析和动作识别等六个基准测试中，CLCR实现了强大的性能，并展现出良好的跨任务泛化能力。
Conclusion: CLCR通过显式建模多模态数据的多层次语义结构，有效解决了语义不对齐问题，提高了多模态表示的质量和泛化能力。

[150] Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Girmaw Abebe Tadesse,Titien Bartette,Andrew Hassanali,Allen Kim,Jonathan Chemla,Andrew Zolli,Yves Ubelmann,Caleb Robinson,Inbal Becker-Reshef,Juan Lavista Ferres

Main category: cs.CV

TL;DR: 提出基于卫星影像的自动化管道，使用深度学习与传统机器学习方法检测阿富汗考古遗址的盗掘活动，CNN方法在F1分数上显著优于传统方法。

Motivation: 考古遗址盗掘对文化遗产构成严重威胁，但监测数千个偏远地点在操作上非常困难，需要可扩展的自动化解决方案。
Method: 使用PlanetScope月度镶嵌影像（4.7米/像素）和1,943个阿富汗考古遗址的标注数据集（898个被盗掘，1,045个保存完好），比较两种方法：(i) 基于原始RGB图像块的端到端CNN分类器，(ii) 基于手工特征和遥感基础模型嵌入的传统机器学习方法。
Result: ImageNet预训练的CNN结合空间掩码达到F1分数0.926，明显优于最强的传统机器学习设置（SatCLIP-V+RF+Mean达到0.710）。消融研究表明ImageNet预训练和空间掩码能提升性能，而地理空间基础模型嵌入与手工特征表现相当。
Conclusion: 卫星影像结合深度学习能有效检测考古遗址盗掘活动，CNN方法优于传统方法，且盗掘特征高度局部化，为文化遗产保护提供了可扩展的监测工具。

[151] RAID: Retrieval-Augmented Anomaly Detection

Mingxiu Cai,Zhe Zhang,Gaochang Wu,Tianyou Chai,Xiatian Zhu

Main category: cs.CV

TL;DR: RAID是一个基于检索增强的异常检测框架，通过分层检索正常样本并利用MoE网络抑制匹配噪声，实现噪声鲁棒的异常检测和定位。

Motivation: 现有无监督异常检测方法（图像重建或模板检索）面临匹配噪声问题，因为测试图像与正常模板之间的匹配会因类内变化、不完美对应和有限模板而引入噪声。
Method: 提出RAID框架：1）从分层向量数据库中检索类级、语义级和实例级表示；2）构建匹配成本体积关联输入与检索样本；3）使用引导的Mixture-of-Experts网络自适应抑制匹配噪声并生成细粒度异常图。
Result: 在MVTec、VisA、MPDD和BTAD基准测试中，RAID在全样本、少样本和多数据集设置下均达到最先进性能。
Conclusion: RAID通过检索增强方法有效解决了无监督异常检测中的匹配噪声问题，实现了噪声鲁棒的异常检测和定位，在各种设置下均表现出优越性能。

[152] Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

Xin Hu,Haomiao Ni,Yunbei Zhang,Jihun Hamm,Zechen Li,Zhengming Ding

Main category: cs.CV

TL;DR: 提出一种无需微调VLM的即插即用模块，通过多模态类别嵌入增强罕见物体识别与推理能力

Motivation: 现有视觉语言模型在罕见物体推理上表现不佳，因为预训练数据中罕见物体实例稀缺。传统方法需要检索额外数据或引入更强视觉编码器，计算成本高且未充分利用原始训练数据。
Method: 1) 利用视觉基础模型和同义词增强文本描述学习多模态类别嵌入；2) 通过轻量级注意力增强模块优化视觉token；3) 将学习到的嵌入作为物体感知检测器生成提示信息，注入文本提示引导VLM关注相关图像区域。
Result: 在两个基准测试中，预训练VLM在罕见物体识别和推理方面获得一致且显著的性能提升。进一步分析显示该方法增强了VLM对罕见物体的关注和推理能力。
Conclusion: 提出了一种高效即插即用模块，无需微调VLM即可显著提升其对罕见物体的推理能力，通过多模态类别嵌入和注意力引导机制有效解决了罕见物体数据稀缺问题。

[153] PedaCo-Gen: Scaffolding Pedagogical Agency in Human-AI Collaborative Video Authoring

Injun Baek,Yearim Kim,Nojun Kwak

Main category: cs.CV

TL;DR: PedaCo-Gen是一个基于多媒体学习认知理论的教学视频生成系统，通过中间表示阶段实现人机协作，显著提升教学视频质量。

Motivation: 当前文本到视频生成模型主要关注视觉保真度而非教学效果，需要开发能够结合教学理论、增强教师教学代理权的人机协作系统。
Method: 引入中间表示阶段，让教育工作者能够与AI评审互动审查和优化视频蓝图（脚本和视觉描述），基于Mayer的多媒体学习认知理论指导生成过程。
Result: 23位教育专家的研究表明，PedaCo-Gen在不同主题和CTML原则下显著优于基线方法，参与者报告高生产效率（M=4.26）和指导有效性（M=4.04），AI指导被视为增强教学设计专业知识的元认知支架。
Conclusion: 通过原则性共创重新获得教学代理权的重要性，为未来AI创作工具提供了基础，使生成能力与人类专业专长相协调。

[154] Accurate Planar Tracking With Robust Re-Detection

Jonas Serych,Jiri Matas

Main category: cs.CV

TL;DR: SAM-H和WOFTSAM是两种新型平面跟踪器，结合了SAM 2的长期分割跟踪能力和8自由度单应性姿态估计，在POT-210和PlanarTrack基准测试中达到最先进性能。

Motivation: 现有平面跟踪器在目标外观变化时鲁棒性不足，需要结合长期分割跟踪能力来提升跟踪性能，特别是在目标丢失后重新检测方面。
Method: SAM-H从分割掩码轮廓估计单应性变换，对目标外观变化具有强鲁棒性；WOFTSAM在WOFT跟踪器基础上，利用SAM-H提供的丢失目标重新检测能力进行改进。
Result: 在POT-210和PlanarTrack基准测试中均达到最先进性能，在PlanarTrack上p@15指标分别比第二名高出12.4和15.2个百分点。同时改进了PlanarTrack的初始姿态标注，提高了高精度p@5指标的评估准确性。
Conclusion: 结合分割掩码的单应性估计和丢失目标重新检测机制能显著提升平面跟踪性能，为高精度平面跟踪提供了有效解决方案。

[155] Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

Uichan Lee,Jeonghyeon Kim,Sangheum Hwang

Main category: cs.CV

TL;DR: 提出HiRM方法，通过误导文本编码器中目标概念的高层语义表示来实现精确概念擦除，同时最小化对非目标概念的影响

Motivation: 文本到图像扩散模型的强大生成能力引发了合成有害、隐私或版权内容的担忧。现有概念擦除方法主要微调去噪组件，但因果追踪研究表明视觉属性信息定位在文本编码器的早期自注意力层中，这为概念擦除提供了新途径。
Method: 提出高层表示误导（HiRM）方法，将文本编码器中目标概念的高层语义表示误导到指定向量（如随机方向或语义定义的方向），同时仅更新包含视觉属性因果状态的早期层。这种解耦策略实现了精确概念移除。
Result: 在UnlearnCanvas和NSFW基准测试中，针对多种目标（如对象、风格、裸露内容）取得了强大结果。HiRM以低训练成本保持生成效用，无需额外训练即可迁移到Flux等最先进架构，并与基于去噪器的概念擦除方法产生协同效应。
Conclusion: HiRM通过针对文本编码器早期层进行高层语义表示误导，实现了精确的概念擦除，同时最小化对非目标概念的影响，为扩散模型的安全部署提供了有效解决方案。

[156] Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation

He Zhu,Ren Togo,Takahiro Ogawa,Kenji Hirata,Minghui Tang,Takaaki Yoshimura,Hiroyuki Sugimori,Noriko Nishioka,Yukie Shimizu,Kohsuke Kudo,Miki Haseyama

Main category: cs.CV

TL;DR: FedTAR：一种联邦学习框架，通过人口统计驱动的个性化与时序感知全局聚合，解决纵向医疗报告生成中的时序动态建模问题

Motivation: 纵向医疗报告生成面临隐私约束和疾病进展的演化特性挑战。现有联邦学习方法假设客户端分布静态，忽略了纵向动态变化，无法建模跨就诊的时序偏移和患者特异性异质性，导致优化不稳定和报告生成效果不佳。
Method: 提出联邦时序适应（FTA）设置，明确考虑客户端数据的时序演化。基于此提出FedTAR框架，集成人口统计驱动的个性化与时序感知全局聚合：1）从人口统计嵌入生成轻量级LoRA适配器；2）执行时序残差聚合，通过一阶MAML优化的元学习时序策略对不同就诊的更新进行加权。
Result: 在J-MID（100万次检查）和MIMIC-CXR数据集上的实验表明，FedTAR在语言准确性、时序一致性和跨站点泛化方面均取得一致改进。
Conclusion: FedTAR为联邦纵向建模提供了一个鲁棒且保护隐私的范式，有效解决了医疗报告生成中的时序动态建模问题。

[157] TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

Hyeongjin Nam,Daniel Sungho Jung,Kyoung Mu Lee

Main category: cs.CV

TL;DR: TeHOR框架通过文本描述和外观线索改进单图像中3D人与物体的联合重建，解决现有方法依赖物理接触和忽略全局上下文的问题。

Motivation: 现有3D人与物体联合重建方法存在两个根本限制：1) 过度依赖物理接触信息，无法捕捉非接触交互（如注视或指向）；2) 主要基于局部几何接近性，忽略提供全局上下文的人与物体外观。
Method: TeHOR框架采用两个核心设计：1) 利用人类-物体交互的文本描述来强制3D重建与文本线索的语义对齐，支持更广泛的交互类型；2) 将3D人与物体的外观线索纳入对齐过程，捕捉整体上下文信息。
Result: 该框架产生准确且语义一致的3D重建结果，在单图像3D人与物体联合重建任务上实现了最先进的性能。
Conclusion: 通过结合文本语义对齐和外观线索，TeHOR能够处理包括非接触交互在内的更广泛交互类型，并产生视觉上合理的3D重建，超越了现有方法的局限性。

[158] BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPU

Soumya Mazumdar,Vineet Kumar Rakesh,Tapas Samanta

Main category: cs.CV

TL;DR: BayesFusion-SDF：一种基于CPU的稀疏高斯随机场概率符号距离融合框架，用于3D重建，相比传统TSDF方法提供几何不确定性估计，比神经隐式方法更高效可解释。

Motivation: 传统TSDF方法依赖启发式权重且无法系统表达不确定性，而神经隐式方法需要大量GPU计算且可解释性差。需要一种既能提供不确定性估计又高效可解释的3D重建方法。
Method: 1）使用粗略TSDF重建创建自适应窄带域；2）采用异方差贝叶斯公式融合深度观测，通过稀疏线性代数和预条件共轭梯度求解；3）使用随机对角线估计器快速获取后验不确定性。
Result: 在控制消融场景和CO3D物体序列上的测试显示，该方法几何精度优于TSDF基线，并提供有用的不确定性估计用于主动感知。相比GPU密集型神经方法，提供清晰可理解的替代方案。
Conclusion: BayesFusion-SDF提供了一种概率可解释、计算高效（CPU中心）的3D重建框架，在保持几何精度的同时提供不确定性估计，适用于机器人、增强现实等需要决策支持的场景。

[159] HDR Reconstruction Boosting with Training-Free and Exposure-Consistent Diffusion

Yo-Tin Lin,Su-Kai Chen,Hou-Ning Hu,Yen-Yu Lin,Yu-Lun Liu

Main category: cs.CV

TL;DR: 提出一种无需训练的方法，通过扩散模型修复过曝区域，提升现有HDR重建技术

Motivation: 传统单LDR到HDR重建在过曝区域因信息完全丢失而失败，需要一种能恢复自然细节的解决方案
Method: 结合文本引导扩散模型与SDEdit细化，通过迭代补偿机制与现有HDR重建方法集成，确保多曝光图像间的亮度一致性
Result: 在标准HDR数据集和实际拍摄中，感知质量和定量指标均有显著提升，能有效恢复挑战性场景的自然细节
Conclusion: 该方法无需训练即可增强现有HDR重建技术，在过曝区域生成合理内容并保持多曝光一致性，保留了现有管道的优势

[160] ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

Hoyoung Kim,Minwoo Jang,Jabin Koo,Sangdoo Yun,Jungseul Ok

Main category: cs.CV

TL;DR: 提出一种结合类别共享LoRA和逐图像LoRA的扩散模型微调方法，在数据稀缺场景下生成既多样又细节丰富的图像，提升下游分类性能。

Motivation: 在隐私受限的医疗应用和细粒度设置等专业领域，数据稀缺问题严重，尤其是尾部类别。现有方法要么生成多样性有限，要么忽略细节特征，需要一种能兼顾多样性和细节的方法。
Method: 将适配器分离为类别共享LoRA A（编码类别先验）和逐图像LoRAs B（编码图像特定特征）。通过语义增强在训练中保留类别边界框，使共享LoRA暴露连贯的类别语义。生成时使用狄利克雷分布采样的系数将A与B的混合组合。
Result: 在多个数据集上，生成的图像既多样又细节丰富，与少样本真实分布紧密对齐，在下游分类任务中获得了稳健的性能提升。
Conclusion: 提出的方法有效解决了数据稀缺场景下扩散模型生成图像时多样性与细节保留的权衡问题，为少样本学习提供了高质量的合成数据增强方案。

[161] Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Haitao Lin,Hanyang Yu,Jingshun Huang,He Zhang,Yonggen Ling,Ping Tan,Xiangyang Xue,Yanwei Fu

Main category: cs.CV

TL;DR: Pose-VLA提出解耦的视觉-语言-动作模型训练范式，通过分离3D空间先验学习和机器人动作对齐，解决现有VLA模型特征坍塌和训练效率低的问题。

Motivation: 现有VLA模型通常存在特征坍塌和训练效率低的问题，因为它们将高级感知与稀疏的、特定于具体机器人的动作监督纠缠在一起。这些模型基于VQA优化的VLM骨干，擅长语义识别但往往忽略决定不同动作模式的细微3D状态变化。
Method: 提出Pose-VLA解耦范式：1）预训练阶段在统一相机中心空间中提取通用3D空间先验；2）后训练阶段在机器人特定动作空间中进行高效对齐。引入离散姿态标记作为通用表示，将不同3D数据集的空间基础与机器人演示的几何级轨迹无缝集成。采用两阶段预训练流程：首先通过姿态建立基本空间基础，然后通过轨迹监督进行运动对齐。
Result: 在RoboTwin 2.0上达到79.5%的平均成功率（SOTA），在LIBERO上达到96.0%的竞争性性能。真实世界实验显示仅需每个任务100个演示就能在不同物体上实现鲁棒泛化，验证了预训练范式的效率。
Conclusion: Pose-VLA通过解耦3D空间先验学习和机器人动作对齐，有效解决了VLA模型的特征坍塌和训练效率问题，实现了在多个基准测试上的优异性能和高效泛化能力。

[162] Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

Kartik Kuckreja,Parul Gupta,Muhammad Haris Khan,Abhinav Dhall

Main category: cs.CV

TL;DR: DeepfakeJudge框架通过引导式生成-评估过程实现可扩展的推理监督与评估，在96.2%的准确率下超越30倍大的基线模型，建立了深度伪造检测中推理可信度的量化维度。

Motivation: 现有深度伪造检测模型生成的解释往往缺乏视觉证据支持，限制了可靠性。当前评估主要关注分类准确率，忽视了推理的忠实性。
Method: 提出DeepfakeJudge框架：包含OOD基准数据集（涵盖最新生成和编辑伪造）、人工标注的视觉推理标签子集、以及无需真实推理标签即可评估推理逻辑的评估模型套件。通过引导式生成-评估过程将人类反馈扩展为结构化推理监督，支持点对点和成对评估。
Result: 推理引导模型在元评估基准上达到96.2%准确率，超越30倍大的基线模型。推理评估器与人类评分高度相关（98.9%成对一致性）。用户研究显示70%参与者更偏好本框架生成的推理（在忠实性、证据基础和实用性方面）。
Conclusion: 建立了深度伪造检测中推理可信度的可量化维度，展示了可扩展的监督方法用于可解释的深度伪造推理。所有数据集、模型和代码均已开源。

[163] Generative 6D Pose Estimation via Conditional Flow Matching

Amir Hamza,Davide Boscaini,Weihang Li,Benjamin Busam,Fabio Poiesi

Main category: cs.CV

TL;DR: Flose将6D姿态估计重新定义为R³中的条件流匹配问题，通过结合几何引导和外观语义特征的去噪过程来推断物体姿态，在BOP基准测试中平均提升4.5%召回率。

Motivation: 现有6D姿态估计方法存在局限性：直接回归方法难以处理物体对称性，基于局部特征匹配的方法在缺乏显著局部特征时失效。需要一种能同时解决对称性歧义和特征不足问题的新方法。
Method: 提出Flose方法，将6D姿态估计重新定义为R³中的条件流匹配问题。通过去噪过程推断物体姿态，结合几何引导和外观语义特征来缓解对称性歧义，并集成RANSAC配准处理异常值。
Result: 在BOP基准测试的五个数据集上验证，Flose优于现有方法，平均召回率提升+4.5%。
Conclusion: Flose通过将6D姿态估计重新定义为条件流匹配问题，有效解决了对称性歧义和特征不足的挑战，在多个数据集上取得了显著性能提升。

Yue Zhang,Zhizheng Zhuo,Siyao Xu,Shan Lv,Zhaoxi Liu,Jun Qiu,Qiuli Wang,Yaou Liu,S. Kevin Zhou

Main category: cs.CV

TL;DR: PMM-Synth：一种个性化MRI合成框架，通过多数据集联合训练实现跨数据集泛化，支持灵活的多模态MRI合成任务

Motivation: 现有统一合成模型通常只在单一数据集上训练和评估，限制了在多样化临床数据集上的泛化能力，阻碍了实际部署。需要解决多模态MRI合成中的跨数据集泛化问题。
Method: 提出PMM-Synth框架，包含三个核心创新：1）个性化特征调制模块，基于数据集标识动态调整特征表示；2）模态一致批量调度器，在不一致的模态条件下实现稳定高效的批量训练；3）选择性监督损失，在部分缺失真实模态时确保有效学习。
Result: 在四个临床多模态MRI数据集上评估，PMM-Synth在一对一和多对一合成任务中均优于最先进方法，获得更高的PSNR和SSIM分数。定性结果显示更好的解剖结构和病理细节保留。
Conclusion: PMM-Synth通过多数据集联合训练和创新的跨数据集泛化机制，实现了在真实世界模态缺失场景下的可靠MRI合成，具有支持可靠诊断的潜力。

[165] VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

Jingyi Xu,Zhangshuo Qi,Zhongmiao Yan,Xuyu Gao,Qianyun Jiao,Songpengcheng Xia,Xieyuanli Chen,Ling Pei

Main category: cs.CV

TL;DR: VGGT-MPR：基于视觉几何基础Transformer的多模态地点识别框架，通过统一的几何引擎实现全局检索和重排序，无需额外训练参数

Motivation: 现有多模态地点识别方法依赖手工设计的融合策略和参数繁多的骨干网络，需要昂贵的重新训练成本。需要一种更高效、鲁棒的方法来克服单模态方法的局限性
Method: 1. 使用视觉几何基础Transformer作为统一几何引擎；2. 全局检索阶段：通过深度感知和点图监督提取几何丰富的视觉嵌入，用预测深度图增强稀疏LiDAR点云；3. 设计无需训练的重排序机制：利用VGGT的跨视图关键点跟踪能力，结合掩码引导的关键点提取和置信度感知的对应关系评分
Result: 在大规模自动驾驶基准测试和自收集数据上的实验表明，VGGT-MPR达到了最先进的性能，对严重环境变化、视角偏移和遮挡表现出强大的鲁棒性
Conclusion: VGGT-MPR通过统一的几何引擎和无需训练的重排序机制，为多模态地点识别提供了一种高效且鲁棒的解决方案，显著提升了自动驾驶中的全局定位和闭环检测能力

[166] InfScene-SR: Spatially Continuous Inference for Arbitrary-Size Image Super-Resolution

Shoukun Sun,Zhe Wang,Xiang Que,Jiyin Zhang,Xiaogang Ma

Main category: cs.CV

TL;DR: InfScene-SR：一种基于扩散模型的大规模任意场景图像超分辨率框架，通过引导和方差校正融合机制实现无边界伪影的高质量重建

Motivation: 现有基于扩散模型的超分辨率方法（如SR3）通常在固定尺寸的patch上训练，难以扩展到任意尺寸的大图像，因为内存限制。通过独立patch处理会导致可见的接缝和纹理不一致问题，需要一种能够处理大规模任意场景的超分辨率方法。
Method: 提出InfScene-SR框架，通过新颖的引导和方差校正融合机制来适应扩散模型的迭代细化过程，实现无需重新训练即可无缝生成大规模高分辨率图像。该方法能够处理任意尺寸的场景图像。
Result: 在遥感数据集上验证表明，InfScene-SR不仅能够重建具有高感知质量的精细细节，还能消除边界伪影，对下游任务（如语义分割）有益。
Conclusion: InfScene-SR成功解决了扩散模型在大规模图像超分辨率中的内存限制和边界伪影问题，为处理任意尺寸场景图像提供了有效的解决方案，在遥感等实际应用中表现出色。

[167] RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

Kaifa Yang,Qi Yang,Yiling Xu,Zhu Li

Main category: cs.CV

TL;DR: 提出RAP方法，一种快速前馈、无需渲染的属性引导方法，用于高效预测3D高斯泼溅中基元的重要性分数，避免传统渲染分析的局限性。

Motivation: 3D高斯泼溅在迭代优化过程中会产生大量基元，但各基元对重建的贡献差异很大。现有基于渲染分析的方法存在视图选择敏感、依赖专用光栅化器、计算时间长等问题，难以作为即插即用模块集成。
Method: RAP直接从高斯属性（位置、协方差、不透明度、颜色）和局部邻域统计推断基元重要性，避免渲染计算。使用紧凑MLP预测重要性分数，结合渲染损失、剪枝感知损失和重要性分布正则化进行训练。
Result: 方法在少量场景上训练后能有效泛化到未见数据，可无缝集成到重建、压缩和传输流程中。相比传统渲染分析方法，计算更快且不依赖视图选择。
Conclusion: RAP提供了一种高效、可泛化的基元重要性预测方法，解决了现有渲染分析方法的局限性，为3D高斯泼溅的冗余去除和高效压缩传输提供了有效工具。

[168] Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

Junhyeok Choi,Sangwoo Mo,Minwoo Chae

Main category: cs.CV

TL;DR: 提出无需训练的跨架构多模态数据集蒸馏框架，利用CLIP提取对齐嵌入和unCLIP解码器合成图像，显著提升跨架构泛化性能

Motivation: 当前多模态学习依赖大规模图像-文本数据集，训练成本高昂。现有数据集过滤和剪枝方法仍需较大子集，而数据集蒸馏方法需要全数据集训练和联合优化，导致架构依赖性强且跨架构泛化能力有限
Method: 使用CLIP提取对齐的图像-文本嵌入，获取原型，然后利用unCLIP解码器合成图像，实现无需训练和优化的多模态数据集蒸馏
Result: 该方法在跨架构泛化方面始终优于基于优化的数据集蒸馏和子集选择方法，达到了最先进的跨架构泛化性能
Conclusion: 提出的学习免费数据集蒸馏框架消除了大规模训练和优化的需求，同时增强了跨架构的泛化能力，为高效可扩展的多模态数据集蒸馏提供了新途径

[169] Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications

Yida Lin,Bing Xue,Mengjie Zhang,Sam Schofield,Richard Green

Main category: cs.CV

TL;DR: 研究比较了十种深度立体匹配网络在真实树木枝干图像上的表现，发现BANet-3D在质量上最优，AnyNet在实时性上最佳，为林业无人机系统提供了分辨率选择的指导。

Motivation: 自主无人机树木修剪需要从立体相机获得准确、实时的深度估计。由于深度通过视差图计算（Z = fB/d），即使小的视差误差也会在工作距离上造成明显的深度错误。基于之前发现DEFOM-Stereo是植被场景最佳参考视差生成器的工作，本研究首次在真实树木枝干图像上训练和测试十种深度立体匹配网络。
Method: 使用Canterbury Tree Branches数据集（5,313对来自ZED Mini相机的立体图像，分辨率1080P和720P），以DEFOM生成的视差图作为训练目标。评估十种方法，涵盖逐步细化、3D卷积、边缘感知注意力和轻量级设计。使用感知指标（SSIM、LPIPS、ViTScore）和结构指标（SIFT/ORB特征匹配），并在NVIDIA Jetson Orin Super上测试实时性能。
Result: BANet-3D产生最佳整体质量（SSIM = 0.883, LPIPS = 0.157），RAFT-Stereo在场景级理解上得分最高（ViTScore = 0.799）。在无人机硬件测试中，AnyNet达到6.99 FPS（1080P）——唯一接近实时选项，而BANet-2D在1.21 FPS下提供最佳质量-速度平衡。研究还比较了720P和1080P的处理时间。
Conclusion: 本研究首次系统评估了深度立体匹配网络在真实树木枝干图像上的性能，为林业无人机系统提供了实用的网络选择和分辨率指导。BANet-3D在质量上表现最佳，AnyNet在实时性上最优，为自主无人机树木修剪应用提供了重要参考。

[170] One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

Pengfei Wang,Liyi Chen,Zhiyuan Ma,Yanjun Guo,Guowen Zhang,Lei Zhang

Main category: cs.CV

TL;DR: One2Scene：从单张图像生成可探索3D场景的新框架，通过分解为三个子任务（全景图生成、3D几何支架构建、新视角生成）解决现有方法在自由探索时的几何失真问题。

Motivation: 现有从单张图像生成3D场景的方法在自由探索时存在严重几何失真和噪声伪影，特别是当视角远离原始视角时。需要一种支持沉浸式探索的稳定方法。
Method: 1. 使用全景图生成器从单张输入图像生成锚点视图作为初始化；2. 通过可泛化的前馈高斯泼溅网络将2D锚点提升为显式3D几何支架；3. 将全景图投影为多个稀疏锚点视图，重构为多视角立体匹配任务；4. 使用双向特征融合模块确保跨视角一致性；5. 以3D一致的支架为先验，通过新视角生成器生成任意相机视角的逼真图像。
Result: 在大量实验中，One2Scene在全景深度估计、前馈360°重建和可探索3D场景生成方面显著优于现有最先进方法，支持大相机运动下的稳定沉浸式场景探索。
Conclusion: One2Scene通过将单图像3D场景生成分解为三个可处理的子任务，有效解决了自由探索时的几何失真问题，实现了稳定、沉浸式的可探索3D场景生成。

[171] TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Fan Yang,Shurong Zheng,Hongyin Zhao,Yufei Zhan,Xin Li,Yousong Zhu,Chaoyang Zhao Ming Tang,Jinqiao Wang

Main category: cs.CV

TL;DR: TraceVision是一个统一视觉语言模型，通过轨迹感知空间理解实现端到端框架，在轨迹引导描述、文本引导轨迹预测、理解和分割等任务上达到SOTA性能。

Motivation: 当前大型视觉语言模型主要关注全局图像理解，难以模拟人类视觉注意轨迹，也无法解释描述与特定区域之间的关联。需要开发能够理解空间关系和视觉注意轨迹的模型。
Method: 提出TraceVision模型，包含轨迹感知视觉感知模块(TVP)，通过几何简化从原始轨迹提取语义关键点，采用三阶段训练流程，轨迹引导描述生成和区域定位，并扩展到轨迹引导分割和视频场景理解。
Result: 在轨迹引导描述、文本引导轨迹预测、理解和分割等任务上达到最先进性能，建立了直观空间交互和可解释视觉理解的基础。
Conclusion: TraceVision通过整合轨迹感知空间理解，实现了更直观的空间交互和可解释的视觉理解，为视觉语言模型提供了新的研究方向。

Dongjing Shan,Yamei Luo,Jiqing Xuan,Lu Huang,Jin Li,Mengchu Yang,Zeyu Chen,Fajin Lv,Yong Tang,Chunxiang Zhang

Main category: cs.CV

TL;DR: 提出两阶段深度学习框架，通过跨模态生成解决数据稀缺问题，结合轻量级网络实现高效子宫内膜癌肌层浸润筛查，在资源有限基层医疗中达到专家级诊断精度。

Motivation: 子宫内膜癌肌层浸润早期检测对分期和救治至关重要，但经阴道超声作为基层主要筛查手段存在组织对比度低、操作者依赖性强、阳性样本稀缺等问题，现有AI方法难以在计算资源有限的基层医疗中解决严重类别不平衡和细微影像特征识别挑战。
Method: 1) 结构引导跨模态生成网络：从未配对的MRI数据合成多样化、高保真超声图像，严格保留临床关键解剖连接；2) 轻量级筛查网络：采用梯度蒸馏技术，从高容量教师模型转移判别知识，动态引导稀疏注意力聚焦任务关键区域。
Result: 在7,951名参与者的多中心队列评估中，模型达到99.5%灵敏度、97.2%特异性和0.987的AUC，计算成本极低（0.289 GFLOPs），显著优于超声专家平均诊断准确率。
Conclusion: 跨模态合成增强与知识驱动高效建模相结合，可为资源有限的基层医疗环境实现专家级、实时的癌症筛查民主化，解决数据稀缺和计算瓶颈双重挑战。

[173] Open-vocabulary 3D scene perception in industrial environments

Keno Moenck,Adrian Philip Florea,Julian Koch,Thorsten Schüppstuhl

Main category: cs.CV

TL;DR: 提出无需训练的开集3D感知流水线，通过合并超点生成掩码，结合工业领域适配的VLFM实现工业场景物体分割

Motivation: 现有基于2D视觉语言基础模型的开集方法依赖在非工业数据集上预训练的类无关分割模型，这些模型在工业物体上泛化能力差
Method: 提出无需训练的开集3D感知流水线：1）通过合并预计算的超点基于语义特征生成掩码，而非使用预训练模型生成实例建议；2）使用领域适配的IndustrialCLIP模型在3D工业场景中进行开集查询
Result: 定性结果显示该方法成功分割工业物体，克服了现有方法在工业场景中的泛化问题
Conclusion: 提出的无需训练开集3D感知方法有效解决了工业场景中现有开集分割模型的泛化问题，展示了在工业应用中的潜力

[174] TextShield-R1: Reinforced Reasoning for Tampered Text Detection

Chenfan Qu,Yiwu Zhong,Jian Liu,Xuekang Zhu,Bohan Yu,Lianwen Jin

Main category: cs.CV

TL;DR: TextShield-R1：首个基于强化学习的MLLM方案，用于篡改文本检测与推理，通过法医持续预训练、分组相对策略优化和OCR校正提升性能，并引入TFR基准进行全面评估。

Motivation: 篡改图像日益普遍带来安全威胁，现有多模态大语言模型在检测微观伪影、定位篡改文本区域方面存在困难，且严重依赖昂贵的标注数据。
Method: 1. 法医持续预训练：利用自然图像取证和OCR任务的大规模廉价数据进行由易到难的课程学习；2. 分组相对策略优化：通过新颖奖励函数减少标注依赖并提升推理能力；3. OCR校正：利用MLLM的文本识别能力在推理时精确定位。
Result: TextShield-R1在可解释篡改文本检测方面显著推进了技术前沿，同时引入了包含16种语言、10种篡改技术、超过45k真实与篡改图像的TFR基准，解决了现有基准的7个主要限制。
Conclusion: 该方法通过创新的训练策略和推理增强技术，有效解决了MLLM在篡改文本检测中的关键挑战，为安全可靠的篡改检测提供了新方案。

[175] M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

Penghui Niu,Taotao Cai,Suqi Zhang,Junhua Gu,Ping Zhang,Qiqi Liu,Jianxin Li

Main category: cs.CV

TL;DR: M3S-Net：基于多尺度数据的多模态特征融合网络，用于超短期光伏功率预测，通过创新的跨模态Mamba交互模块实现深度结构耦合，相比现有方法在10分钟预测中MAE降低6.2%

Motivation: 太阳能辐照度的间歇性和高频变异性（特别是在快速云层平流期间）给高渗透光伏电网带来稳定性挑战。现有多模态预测架构主要依赖浅层特征拼接和二元云分割，无法捕捉云的细粒度光学特征以及视觉与气象模态间的复杂时空耦合。
Method: 提出M3S-Net多模态特征融合网络：1）多尺度部分通道选择网络使用部分卷积显式分离光学薄云的边界特征；2）多尺度序列到图像分析网络采用基于FFT的时频表示解耦气象数据的复杂周期性；3）跨模态Mamba交互模块采用动态C矩阵交换机制，通过交换视觉和时序流之间的状态空间参数实现深度结构耦合。
Result: 在新构建的细粒度光伏功率数据集上进行实验验证，M3S-Net在10分钟预测中相比最先进基线方法实现了6.2%的平均绝对误差降低。
Conclusion: M3S-Net通过创新的多尺度特征提取和跨模态交互机制，有效解决了光伏功率预测中的模态耦合问题，为高渗透光伏电网的稳定性提供了更准确的超短期预测解决方案。

[176] DerMAE: Improving skin lesion classification through conditioned latent diffusion and MAE distillation

Francisco Filho,Kelvin Cunha,Fábio Papais,Emanoel dos Santos,Rodrigo Mota,Thales Bezerra,Erico Medeiros,Paulo Borba,Tsang Ing Ren

Main category: cs.CV

TL;DR: 使用类别条件扩散模型生成合成皮肤病变图像，结合MAE自监督预训练和知识蒸馏，解决数据集类别不平衡问题，实现轻量级模型在临床移动设备上的部署。

Motivation: 皮肤病变分类数据集通常存在严重的类别不平衡问题，恶性病例显著不足，导致深度学习训练时决策边界出现偏差。这限制了模型在临床实践中的实用性和部署能力。
Method: 1. 使用类别条件扩散模型生成合成皮肤病变图像以解决数据不平衡问题；2. 采用自监督MAE预训练让大型ViT模型学习鲁棒的领域相关特征；3. 应用知识蒸馏将学习到的表示迁移到适合移动设备的轻量级ViT学生模型。
Result: 在合成数据上进行MAE预训练，结合知识蒸馏，显著提升了分类性能，同时实现了高效的设备端推理，满足临床实际应用需求。
Conclusion: 该方法有效解决了皮肤病变分类中的类别不平衡问题，通过合成数据生成、自监督预训练和知识蒸馏的组合策略，既提升了模型性能，又实现了轻量级模型在临床移动设备上的实用部署。

[177] Contrastive meta-domain adaptation for robust skin lesion classification across clinical and acquisition conditions

Rodrigo Mota,Kelvin Cunha,Emanoel dos Santos,Fábio Papais,Francisco Filho,Thales Bezerra,Erico Medeiros,Paulo Borba,Tsang Ing Ren

Main category: cs.CV

TL;DR: 该论文提出一种基于视觉元域的适应策略，将较大皮肤镜数据集的视觉表征迁移到临床图像领域，以改善皮肤病变分类的泛化鲁棒性。

Motivation: 皮肤科图像分析的深度学习模型对采集变异性和领域特定视觉特征敏感，在临床部署时性能下降。需要解决视觉伪影和领域偏移对皮肤病变分类的影响。
Method: 提出基于视觉元域的适应策略，将大规模皮肤镜数据集的视觉表征迁移到临床图像领域，实现领域感知训练。
Result: 在多个皮肤科数据集上的实验显示分类性能持续提升，并减少了皮肤镜图像与临床图像之间的性能差距。
Conclusion: 领域感知训练对于可部署系统至关重要，提出的视觉元域适应策略能有效改善皮肤病变分类的泛化鲁棒性。

[178] Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

Filip Wolf,Blaž Rolih,Luka Čehovin Zajc

Main category: cs.CV

TL;DR: 提出双教师对比蒸馏框架，将多光谱影像与光学视觉基础模型对齐，实现跨模态表示学习，在多个任务上取得SOTA性能。

Motivation: 地球观测领域存在多种传感器和模态，单一通用模型不现实，需要多个专业化的EO基础模型共存。现有EO预训练主要依赖掩码图像建模，强调局部重建但对全局语义结构控制有限，需要更有效的跨模态知识迁移方法。
Method: 提出双教师对比蒸馏框架：结合多光谱教师和光学视觉基础模型教师，通过对比自蒸馏范式对齐学生的预训练目标，实现连贯的跨模态表示学习。
Result: 在多种光学和多光谱基准测试中，模型既能适应多光谱数据又不损害光学输入性能，在语义分割任务平均提升3.64个百分点，变化检测提升1.2，分类任务提升1.31，均达到SOTA水平。
Conclusion: 对比蒸馏为异构EO数据源的可扩展表示学习提供了原则性和高效的方法，证明了跨模态知识迁移的有效性。

[179] ApET: Approximation-Error Guided Token Compression for Efficient VLMs

Qiankun Ma,Ziyao Zhang,Haofei Wang,Jie Chen,Zhen Song,Hairong Zheng

Main category: cs.CV

TL;DR: ApET：一种基于近似误差引导的视觉token压缩框架，通过线性近似重构视觉token并利用近似误差识别最不重要的token，实现高效压缩且兼容FlashAttention

Motivation: 现有视觉语言模型存在视觉token冗余问题，导致计算开销大、推理效率低。现有方法依赖注意力机制，存在位置偏差且不兼容高效注意力内核如FlashAttention，限制了实际部署
Method: 提出ApET框架：1）通过少量基token线性近似重构原始视觉token；2）利用近似误差识别并丢弃信息量最小的token；3）完全避免注意力依赖，实现与FlashAttention的无缝集成
Result: 在多个VLM和基准测试中，ApET在图像理解任务上保留95.2%原始性能，视频理解任务达到100.4%性能，同时分别压缩88.9%和87.5%的token预算。兼容FlashAttention实现进一步加速
Conclusion: ApET从信息论角度重新审视视觉token压缩，通过注意力无关设计实现高效压缩，解决了现有方法的位置偏差和兼容性问题，使VLM部署更加实用

[180] GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery

Jizhou Han,Chenhao Ding,SongLin Dong,Yuhang He,Shaokun Wang,Qiang Wang,Yihong Gong

Main category: cs.CV

TL;DR: GOAL提出使用固定等角紧框架分类器来解决持续广义类别发现中的遗忘问题，通过监督对齐和置信度引导对齐实现稳定学习

Motivation: 现有持续广义类别发现方法通过动态更新分类器权重会导致遗忘和特征对齐不一致的问题，需要一种更稳定的学习框架
Method: 引入固定的等角紧框架分类器保持几何结构一致性，对标记样本进行监督对齐，对新颖样本进行置信度引导对齐
Result: 在四个基准测试中超越现有方法Happy，遗忘减少16.1%，新颖类别发现提升3.2%
Conclusion: GOAL为长期持续发现提供了强大解决方案，通过固定分类器和双重对齐机制实现了稳定学习

[181] BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations

Lucas Martini,Alexander Lappe,Anna Bognár,Rufin Vogels,Martin A. Giese

Main category: cs.CV

TL;DR: 提出了BigMaQ数据集，包含750多个猕猴互动场景的3D姿态和形状数据，首次将动态3D姿态-形状表示整合到动物行为识别任务中。

Motivation: 当前动物行为识别主要基于视频的深度学习，但缺乏准确的3D姿态和形状重建。特别是对于非人灵长类动物，现有的网格追踪方法落后于其他物种，姿态描述仅限于稀疏关键点，无法完全捕捉动作动态的丰富性。
Method: 通过适应高质量猕猴模板网格构建个体特异性纹理化虚拟化身，提供比现有表面追踪方法更准确的姿态描述。从原始数据集衍生出BigMaQ500行为识别基准，将基于表面的姿态向量与多个个体猴子的单帧图像关联。
Result: 当包含姿态信息时，与仅使用图像和视频编码器特征相比，平均精度均值(mAP)有显著提升。BigMaQ数据集提供了比现有表面追踪方法更准确的姿态描述。
Conclusion: BigMaQ是首个将动态3D姿态-形状表示整合到动物行为识别学习任务中的数据集，为研究非人灵长类的视觉外观、姿态和社会互动提供了丰富资源。

[182] Make Some Noise: Unsupervised Remote Sensing Change Detection Using Latent Space Perturbations

Blaž Rolih,Matic Fučka,Filip Wolf,Luka Čehovin Zajc

Main category: cs.CV

TL;DR: MaSoN是一个无监督变化检测框架，通过在潜在特征空间合成多样化变化，无需预定义变化类型假设，显著提升了跨多种变化类型的泛化能力。

Motivation: 现有无监督变化检测方法要么依赖冻结的基础模型，要么依赖像素空间生成的合成变化，都需要预定义变化类型假设，限制了在真实复杂场景中的泛化能力。
Method: 提出MaSoN框架，在训练期间直接在潜在特征空间合成多样化变化，利用目标数据的特征统计动态估计变化，实现数据驱动的多样化变化生成。
Result: 在五个基准测试上达到最先进性能，平均F1分数提升14.1个百分点，能泛化到多种变化类型，并扩展到SAR等新模态。
Conclusion: MaSoN通过特征空间数据驱动变化合成，克服了现有方法对预定义变化类型假设的依赖，显著提升了无监督变化检测的泛化能力和实用性。

[183] Monocular Mesh Recovery and Body Measurement of Female Saanen Goats

Bo Jin,Shichao Zhao,Jin Lyu,Bin Zhang,Tao Yu,Liang An,Yebin Liu,Meili Wang

Main category: cs.CV

TL;DR: 提出首个针对萨能奶山羊的3D参数化形状模型SaanenGoat，基于多视角RGBD视频构建高质量3D扫描数据集，实现单视角RGBD输入的高精度3D重建和自动体尺测量。

Motivation: 萨能奶山羊的泌乳性能与其体型密切相关，但现有重建方法缺乏山羊专用的真实3D数据，无法准确评估产奶潜力。
Method: 建立包含55只雌性萨能山羊的八视角RGBD视频数据集；使用多视角DynamicFusion融合点云序列为高质量3D扫描；构建具有41个骨骼关节和改良乳房表示的参数化3D形状模型；基于48只山羊构建综合形状空间。
Result: 实现了单视角RGBD输入的高精度3D重建，自动测量体长、体高、胸宽、胸围、臀宽和臀高等六个关键体尺参数，在3D重建和体尺测量方面均表现出优越准确性。
Conclusion: 为精准畜牧业的大规模3D视觉应用提供了新范式，通过山羊专用参数化模型实现了高效准确的体型评估。

[184] ExpPortrait: Expressive Portrait Generation via Personalized Representation

Junyi Wang,Yudong Guo,Boyang Guo,Shengming Yang,Juyong Zhang

Main category: cs.CV

TL;DR: 提出一种高保真个性化头部表示方法，结合扩散变换器生成富有表现力的肖像视频，在身份保持、表情准确性和时间稳定性方面优于现有方法。

Motivation: 现有肖像生成方法使用2D关键点或参数模型等中间信号，其解耦能力有限且无法表达个性化细节，导致难以准确保持主体身份和表情，阻碍了高表现力肖像视频的生成。
Method: 1) 提出高保真个性化头部表示，有效解耦表情和身份，捕捉静态主体特定全局几何和动态表情相关细节；2) 引入表情迁移模块实现不同身份间头部姿态和表情细节的个性化迁移；3) 使用该头部表示作为条件信号训练基于扩散变换器(DiT)的生成器合成细节丰富的肖像视频。
Result: 在自重演和交叉重演任务上的大量实验表明，该方法在身份保持、表情准确性和时间稳定性方面优于先前模型，特别是在捕捉复杂运动的细粒度细节方面表现突出。
Conclusion: 提出的高保真个性化头部表示结合扩散变换器的方法能够生成富有表现力、连贯且可控的电影级肖像视频，解决了现有方法在身份保持和表情准确性方面的局限性。

[185] Gradient based Severity Labeling for Biomarker Classification in OCT

Kiran Kokilepersaud,Mohit Prabhushankar,Ghassan AlRegib,Stephanie Trejo Corona,Charles Wykoff

Main category: cs.CV

TL;DR: 提出一种针对医学图像的对比学习选择策略，使用疾病严重程度标签而非传统增强方法，在糖尿病视网膜病变OCT扫描中提升生物标志物分类准确率6%

Motivation: 传统对比学习在自然图像中使用增强技术选择正负样本对，但在医学图像中，任意增强可能扭曲包含关键生物标志物的小局部区域。需要更直观的方法选择具有相似疾病严重程度的样本。
Method: 1. 使用异常检测算法的梯度响应为未标记的OCT扫描生成疾病严重程度标签；2. 利用这些标签训练监督对比学习模型；3. 通过疾病严重程度相似性选择正负样本对。
Result: 相比自监督基线方法，在糖尿病视网膜病变关键指标的分类准确率上提升了6%。
Conclusion: 基于疾病严重程度的选择策略比传统增强方法更适合医学图像对比学习，能有效提升生物标志物检测性能。

Wei He,Xianghan Meng,Zhiyuan Huang,Xianbiao Qi,Rong Xiao,Chun-Guang Li

Main category: cs.CV

TL;DR: 提出SSR²-GCD框架，通过半监督率缩减方法改进广义类别发现任务，强调模态内对齐以学习具有理想结构特性的跨模态表示

Motivation: 现有GCD方法主要依赖模态间对齐，但缺乏对模态内关系的适当对齐，导致表示分布的基础结构不理想
Method: 提出SSR²-GCD框架：1) 使用半监督率缩减方法学习具有理想结构特性的跨模态表示；2) 利用视觉语言模型的模态间对齐能力集成提示候选以促进知识迁移
Result: 在通用和细粒度基准数据集上进行广泛实验，证明该方法具有优越性能
Conclusion: 通过强调模态内对齐并利用视觉语言模型的模态间对齐，SSR²-GCD能够有效学习具有理想结构特性的跨模态表示，在GCD任务中表现优异

[187] Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting

Yixin Yang,Bojian Wu,Yang Zhou,Hui Huang

Main category: cs.CV

TL;DR: 提出增强高斯核方法，通过视点相关透明度显式建模镜面反射，并引入误差驱动补偿策略提升3D高斯泼溅的渲染质量

Motivation: 3D高斯泼溅（3DGS）依赖球谐函数进行颜色编码，难以分离漫反射和镜面反射分量，限制了复杂反射的准确表示
Method: 1）提出增强高斯核，通过视点相关透明度显式建模镜面效果；2）引入误差驱动补偿策略提升现有3DGS场景渲染质量；3）从2D高斯初始化开始，自适应插入和优化增强高斯核
Result: 方法不仅超越了最先进的NeRF方法在渲染性能上的表现，还实现了更高的参数效率
Conclusion: 通过增强高斯核和误差驱动补偿策略，有效解决了3DGS在镜面反射建模方面的局限性，提升了渲染质量和参数效率

[188] Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation

Yifei Shi,Boyan Wan,Xin Xu,Kai Xu

Main category: cs.CV

TL;DR: 提出结合SO(3)-等变卷积隐式网络和正激励点采样策略的方法，提升3D物体姿态估计性能，特别是在遮挡、新形状等挑战场景下。

Motivation: 神经隐式场在3D姿态估计中面临挑战：对于相机空间中未观察区域预测规范坐标时缺乏直接观测信号，依赖模型泛化能力导致高不确定性，密集采样可能产生不准确估计影响学习过程和性能。
Method: 1. SO(3)-等变卷积隐式网络：在任意查询位置估计具有SO(3)-等变性的点级属性；2. 正激励点采样策略：基于输入动态确定采样位置，提升网络准确性和训练效率。
Result: 在三个姿态估计数据集上超越现有最佳方法，在未见姿态、高遮挡、新几何形状和严重噪声等挑战场景下表现显著提升。
Conclusion: 提出的SO(3)-等变卷积隐式网络与正激励点采样策略相结合的方法，有效解决了神经隐式场在未观察区域预测的挑战，显著提升了3D物体姿态估计性能。

[189] Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation

Yilong Yang,Jianxin Tian,Shengchuan Zhang,Liujuan Cao

Main category: cs.CV

TL;DR: 提出DSS机制（发现-分割-选择），通过渐进式框架改进零样本伪装目标分割，无需训练即可在多个基准上达到SOTA性能。

Motivation: 当前零样本伪装目标分割方法采用两阶段流程（发现然后分割），依赖MLLMs获取视觉提示，但MLLMs在伪装目标发现中存在定位不准确、误报和漏检问题。
Method: 提出DSS渐进框架：1) 特征一致目标发现(FOD)模块利用视觉特征生成多样目标提案；2) 分割模块通过SAM细化提案；3) 语义驱动掩码选择(SMS)模块使用MLLMs评估并选择最佳分割掩码。
Result: 无需任何训练或监督，DSS在多个COS基准测试中达到最先进性能，尤其在多实例场景中表现优异。
Conclusion: DSS机制通过渐进式发现-分割-选择框架有效解决了MLLMs在伪装目标发现中的局限性，实现了零样本下的高性能伪装目标分割。

[190] When Pretty Isn't Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators

Krzysztof Adamkiewicz,Brian Moser,Stanislav Frolov,Tobias Christian Nauen,Federico Raue,Andreas Dengel

Main category: cs.CV

TL;DR: 最新文本到图像扩散模型生成的合成数据作为训练集时，分类性能反而随模型进步而下降，揭示了生成真实感与数据真实感之间的差距。

Motivation: 研究文本到图像（T2I）扩散模型作为合成视觉数据生成器的实际效果，验证合成数据能否替代真实训练集的承诺，并探究生成模型进步是否意味着数据真实感的提升。
Method: 使用2022-2025年间发布的最先进T2I模型生成大规模合成数据集，仅用这些合成数据训练标准分类器，然后在真实测试数据上评估性能。
Result: 尽管新模型在视觉保真度和提示遵循方面有可观察的进步，但作为训练数据生成器时，在真实测试数据上的分类准确率持续下降。分析显示这些模型坍缩到狭窄的审美中心分布，损害了多样性和标签-图像对齐。
Conclusion: 生成真实感的进步并不等同于数据真实感的进步，挑战了视觉研究中日益增长的假设。需要重新思考现代T2I模型作为可靠训练数据生成器的能力。

[191] RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

Tianyu Wang,Zhiyuan Ma,Qian Wang,Xinyi Zhang,Xinwei Long,Bowen Zhou

Main category: cs.CV

TL;DR: RL-RIG：基于强化学习的反射式图像生成框架，通过生成-反思-编辑范式提升图像生成的空间推理能力

Motivation: 现有图像生成模型在空间推理方面存在困境，难以准确捕捉提示中的细粒度空间关系并生成具有结构完整性的场景
Method: 提出RL-RIG强化学习框架，包含Diffuser、Checker、Actor和Inverse Diffuser四个组件，采用生成-反思-编辑范式，并开发Reflection-GRPO训练VLM Actor和Image Editor
Result: 在LAION-SG数据集上，RL-RIG在可控和精确的空间推理方面比现有最先进开源模型提升高达11%
Conclusion: RL-RIG通过强化学习和反思机制有效解决了图像生成中的空间推理困境，提高了生成图像的空间一致性

[192] RADE-Net: Robust Attention Network for Radar-Only Object Detection in Adverse Weather

Christof Leitgeb,Thomas Puchleitner,Max Peter Ronecker,Daniel Watzenig

Main category: cs.CV

TL;DR: 提出RADE-Net，一种轻量级3D雷达感知模型，通过3D投影方法压缩4D雷达张量数据91.9%，在恶劣天气条件下超越激光雷达方法

Motivation: 传统光学传感器（相机、激光雷达）在恶劣天气条件下性能受限，而雷达具有更好的穿透性。现有雷达方法多使用稀疏点云或2D投影导致信息损失，深度学习有潜力从原始雷达数据中提取更丰富的特征
Method: 提出3D投影方法压缩4D RADE（距离-方位-多普勒-高程）张量；设计RADE-Net轻量级模型，包含空间和通道注意力机制的主干网络，以及解耦的检测头：一个在距离-方位域预测物体中心点，另一个在笛卡尔空间回归旋转3D边界框
Result: 在K-Radar数据集上相比基线提升16.7%，相比当前雷达方法提升6.5%；在恶劣天气条件下超越多个激光雷达方法；数据压缩率达91.9%，提升训练推理速度并降低模型复杂度
Conclusion: RADE-Net通过3D投影有效压缩雷达数据并保留丰富特征，在恶劣天气条件下提供鲁棒的3D感知性能，优于传统雷达和激光雷达方法

[193] Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging Segmentation

Louis Fabrice Tshimanga,Andrea Zanola,Federico Del Pup,Manfredo Atzori

Main category: cs.CV

TL;DR: Token-UNet是一种用于3D医学图像分割的高效模型，通过TokenLearner和TokenFuser模块将Transformer封装到UNet架构中，显著降低了计算资源需求，同时保持了更好的分割性能。

Motivation: 当前基于Transformer的3D医学图像分割模型（如SwinUNETR）存在计算复杂度高的问题，注意力机制随token数量呈二次方增长，而3D输入分辨率呈三次方增长，导致在普通硬件上部署困难。
Method: 提出Token-UNet模型家族，保留UNet的卷积编码器，使用TokenLearner模块从3D特征图中池化预设数量的token来捕获局部和全局结构信息，通过TokenFuser模块将处理后的token重新融合回特征图。
Result: 最重模型的显存占用降至SwinUNETR的33%，推理时间降至10%，参数数量降至35%，同时获得更好的平均性能（Dice分数87.21% ± 0.35% vs 86.75% ± 0.19%），注意力图具有自然可解释性。
Conclusion: Token-UNet为计算资源受限环境下的3D医学图像分割提供了高效解决方案，能够简化模型优化、微调和迁移学习，加速研究社区的方法开发。

[194] Descriptor: Dataset of Parasitoid Wasps and Associated Hymenoptera (DAPWH)

Joao Manoel Herrera Pinheiro,Gabriela Do Nascimento Herrera,Luciana Bueno Dos Reis Fernandes,Alvaro Doria Dos Santos,Ricardo V. Godoy,Eduardo A. B. Almeida,Helena Carolina Onody,Marcelo Andrade Da Costa Vieira,Angelica Maria Penteado-Dias,Marcelo Becker

Main category: cs.CV

TL;DR: 构建了一个包含3,556张高清图像的寄生蜂图像数据集，其中1,739张带有COCO格式的多类别标注，用于推进计算机视觉在姬蜂总科分类识别中的应用。

Motivation: 姬蜂总科（包括姬蜂科和茧蜂科）是生物多样性监测和农业管理的关键类群，但由于其形态隐秘、未描述物种众多，分类识别极具挑战性。目前缺乏可靠的数字资源来支持这些关键类群的自动化识别系统。
Method: 创建了一个精心策划的图像数据集，包含3,556张高清图像，主要聚焦于新热带区的姬蜂科和茧蜂科，同时补充了其他9个蜂类科以提高模型鲁棒性。其中1,739张图像采用COCO格式进行多类别标注，包括完整虫体、翅脉和比例尺的边界框。
Result: 提供了一个包含3,556张图像的数据集，其中1,739张带有详细标注，为开发能够识别这些蜂类家族的计算机视觉模型奠定了基础资源。
Conclusion: 该数据集填补了姬蜂总科数字资源的空白，为推进自动化分类识别系统提供了重要基础，有助于生物多样性监测和农业害虫管理。

[195] Closing the gap in multimodal medical representation alignment

Eleonora Grassucci,Giordano Cicchetti,Danilo Comminiello

Main category: cs.CV

TL;DR: 提出一种模态无关框架来解决医学多模态学习中的模态鸿沟问题，提升放射影像与临床文本的对齐效果

Motivation: CLIP在多模态学习中存在模态鸿沟问题，导致潜在空间稀疏和碎片化，这在医学领域（放射影像与临床文本）尤为严重且尚未解决
Method: 提出模态无关框架，确保语义相关表示无论来自何种模态都能更好对齐，专门针对医学领域的放射影像与临床文本对齐
Result: 方法有效缩小了医学领域的模态鸿沟，提升了跨模态检索和图像描述生成性能
Conclusion: 模态鸿沟问题在医学多模态对齐中同样存在，提出的模态无关框架能有效解决这一问题，改善医学影像与文本的对齐效果

[196] SEAL-pose: Enhancing 3D Human Pose Estimation via a Learned Loss for Structural Consistency

Yeonsung Kim,Junggeun Do,Seunguk Do,Sangmin Kim,Jaesik Park,Jay-Yoon Lee

Main category: cs.CV

TL;DR: SEAL-pose：一个数据驱动的3D人体姿态估计框架，通过可学习的损失网络来评估结构合理性，无需手工设计先验约束

Motivation: 传统监督损失将每个关节独立处理，难以捕捉复杂的局部和全局依赖关系；现有基于手工先验或规则约束的方法需要手动指定且通常不可微分，无法作为端到端训练目标
Method: 提出SEAL-pose框架，包含可学习的损失网络（loss-net）来训练姿态网络（pose-net）。基于关节图的设计使loss-net能够直接从数据中学习复杂的结构依赖关系，无需手工先验
Result: 在三个3D HPE基准测试和八个骨干网络上，SEAL-pose降低了每个关节的误差并提高了姿态合理性；不仅改善了各个骨干网络，还优于使用显式结构约束的模型
Conclusion: SEAL-pose通过数据驱动的方式学习结构一致性，无需手工设计约束，在3D人体姿态估计中实现了更好的性能和结构合理性

[197] Decoupling Defense Strategies for Robust Image Watermarking

Jiahui Chen,Zehang Deng,Zeyu Zhang,Chaoyang Li,Lianchen Jia,Lifeng Sun

Main category: cs.CV

TL;DR: AdvMark：两阶段微调框架，通过解耦防御策略解决深度学习水印对抗攻击问题，第一阶段专注对抗训练保护编码器，第二阶段处理失真和再生攻击，同时保持图像质量。

Motivation: 深度学习水印技术虽然对常规失真具有鲁棒性，但对高级对抗攻击和再生攻击仍然脆弱。传统方法通过噪声层联合优化编码器和解码器面临两个挑战：1) 解码器对抗训练会降低干净准确率；2) 同时训练所有三种高级攻击导致鲁棒性有限。
Method: 提出AdvMark两阶段微调框架：第一阶段针对对抗脆弱性，采用定制化对抗训练范式，主要微调编码器，仅在条件允许时更新解码器，将图像移动到不可攻击区域而非修改决策边界；第二阶段通过直接图像优化处理失真和再生攻击，采用有理论保证的约束图像损失函数，平衡与原始图像和先前编码图像的偏差，并提出质量感知早停机制保证视觉质量下限。
Result: 实验表明AdvMark在图像质量和综合鲁棒性方面表现最佳，对失真、再生和对抗攻击的准确率分别提升高达29%、33%和46%。
Conclusion: AdvMark通过解耦防御策略的两阶段框架，有效解决了深度学习水印技术的对抗脆弱性问题，在保持图像质量的同时显著提升了对抗多种攻击的鲁棒性。

Junli Wang,Xueyi Liu,Yinan Zheng,Zebing Xing,Pengfei Li,Guang Li,Kun Ma,Guang Chen,Hangjun Ye,Zhongpu Xia,Long Chen,Qichao Zhang

Main category: cs.CV

TL;DR: MeanFuser提出了一种端到端自动驾驶方法，通过高斯混合噪声引导生成采样、MeanFlow Identity建模和自适应重建模块，解决了传统基于离散锚点词汇的生成模型在覆盖度和性能之间的权衡问题，实现了高效鲁棒的轨迹规划。

Motivation: 现有基于锚点引导的生成模型在轨迹规划中依赖离散的锚点词汇，需要在词汇表大小和模型性能之间进行权衡：词汇表需要足够大以覆盖测试时的轨迹分布来保证鲁棒性，但大词汇表会影响性能。需要克服这一限制。
Method: 1. 引入高斯混合噪声(GMN)引导生成采样，实现轨迹空间的连续表示，消除对离散锚点词汇的依赖。2. 将"MeanFlow Identity"适配到端到端规划，建模GMN和轨迹分布之间的平均速度场而非瞬时速度场，消除ODE求解器的数值误差并加速推理。3. 设计轻量级自适应重建模块(ARM)，通过注意力权重让模型隐式选择采样提议或在都不满意时重建新轨迹。
Result: 在NAVSIM闭环基准测试中，MeanFuser在没有PDM Score监督的情况下实现了出色的性能，并具有卓越的推理效率，为端到端自动驾驶提供了鲁棒高效的解决方案。
Conclusion: MeanFuser通过连续轨迹表示、改进的流匹配方法和自适应重建机制，解决了传统锚点引导生成模型的局限性，在保持高性能的同时显著提升了推理效率，为自动驾驶轨迹规划提供了更优的解决方案。

[199] HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images

Kundan Thota,Xuanhao Mu,Thorsten Schlachter,Veit Hagenmeyer

Main category: cs.CV

TL;DR: HeatPrompt：零样本视觉语言框架，利用卫星图像和GIS数据估计年度热需求，无需详细建筑数据

Motivation: 大多数城市缺乏详细的建筑级数据来计算准确的热需求地图，这阻碍了空间供暖脱碳进程
Method: 使用预训练大型视觉语言模型（VLM）作为能源规划器，从RGB卫星图像中提取视觉属性（屋顶年龄、建筑密度等），结合GIS和建筑级特征，通过MLP回归器进行热需求估计
Result: 相比基线模型，R²提升93.7%，平均绝对误差（MAE）降低30%；定性分析显示高影响力标记与高需求区域一致
Conclusion: HeatPrompt为数据稀缺地区的热规划提供了轻量级支持，能够有效估计热需求而无需详细建筑数据

[200] The Invisible Gorilla Effect in Out-of-distribution Detection

Harry Anthony,Ziyun Liang,Hermione Warr,Konstantinos Kamnitsas

Main category: cs.CV

TL;DR: 研究发现OOD检测存在"隐形大猩猩效应"：当异常与模型感兴趣区域视觉相似时检测性能更好，反之则下降，揭示了OOD检测中一个被忽视的失效模式。

Motivation: 深度神经网络在视觉任务中表现优异，但在分布外数据上性能下降。现有OOD检测方法在不同异常类型上表现不一，但根本原因尚未充分探索。本文旨在揭示OOD检测中的潜在偏差。
Method: 1) 识别OOD检测中的新偏差现象；2) 在三个公开数据集（如ISIC）的11,355张图像中按颜色标注异常；3) 生成颜色交换反事实以排除数据集偏差；4) 在7个基准测试中评估40种OOD方法。
Result: 发现"隐形大猩猩效应"：对于难以检测的异常（近OOD），当异常与模型ROI视觉相似（如颜色）时检测性能提升，反之下降。例如，在皮肤病变分类器中，检测红色墨水异常比黑色墨水异常的AUROC高31.5%。大多数方法在异常与ROI不同时性能显著下降。
Conclusion: 研究揭示了OOD检测中一个被忽视的失效模式，为开发更鲁棒的检测器提供了指导。代码和标注数据已公开。

[201] SemanticNVS: Improving Semantic Scene Understanding in Generative Novel View Synthesis

Xinya Chen,Christopher Wewer,Jiahao Xie,Xinting Hu,Jan Eric Lenssen

Main category: cs.CV

TL;DR: SemanticNVS：通过集成预训练语义特征提取器改进新视角合成的多视角扩散模型，提升生成质量和一致性

Motivation: 现有新视角合成方法在输入视角附近表现良好，但在长距离相机运动下容易生成语义不合理和扭曲的图像，存在严重退化问题。作者推测这种退化是由于当前模型未能充分理解其条件或中间生成的场景内容。
Method: 提出SemanticNVS，集成预训练语义特征提取器，将更强的场景语义作为条件。研究了两种策略：(1) 变形语义特征，(2) 在每个去噪步骤中交替进行理解和生成。
Result: 在多个数据集上的实验结果表明，相比现有最先进方法，在定性和定量指标（FID提升4.69%-15.26%）上都有明显改进。
Conclusion: 通过集成语义特征提取器增强场景理解，能够显著提升新视角合成的质量，特别是在远距离视角下，解决了现有方法在长距离相机运动下的退化问题。

[202] Do Large Language Models Understand Data Visualization Principles?

Martin Sinnona,Valentin Bonas,Viviana Siless,Emmanuel Iarussi

Main category: cs.CV

TL;DR: 论文首次系统评估LLMs和VLMs在可视化原则推理能力，发现前沿模型修复违规比检测更有效，但仍与符号求解器存在差距。

Motivation: 虽然约束系统可将可视化原则编码为逻辑规则进行精确检查，但需要专家知识转化为形式规范。这促使利用LLMs和VLMs作为原则检查器，直接推理视觉设计，绕过符号规则规范的需求。
Method: 使用ASP生成的硬验证真值，编译可视化原则为自然语言陈述，构建约2000个标注原则违规的Vega-Lite规范数据集，加上300多个真实Vega-Lite图表。评估检查和修复任务，评估模型检测原则违规和修正缺陷图表规范的能力。
Result: 前沿模型在修正违规方面比可靠检测更有效，显示出有趣的不对称性。大语言模型和视觉语言模型作为可视化设计的灵活验证器和编辑器具有前景，但在视觉感知更细微方面与符号求解器存在持续差距。
Conclusion: LLMs和VLMs可作为可视化原则的灵活检查器，但检测可靠性仍需改进，与符号方法结合可能是未来方向。

[203] StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues

Zanxi Ruan,Qiuyu Kong,Songqun Gao,Yiming Wang,Marco Cristani

Main category: cs.CV

TL;DR: StructXLIP通过提取图像边缘图作为视觉结构代理，并过滤文本强调结构线索，在标准对齐损失基础上增加三个结构中心损失，提升跨模态检索性能。

Motivation: 边缘表示是视觉理解的基础线索，但现有视觉-语言对齐方法未充分利用结构线索。本文旨在通过跨模态结构对齐来提升长、细节丰富描述下的细调效果，特别是跨模态检索任务。
Method: 提出StructXLIP细调对齐范式：1) 提取图像边缘图作为视觉结构代理；2) 过滤对应描述强调结构线索；3) 在标准对齐损失基础上增加三个结构中心损失：边缘图与结构文本对齐、局部边缘区域与文本块匹配、边缘图与彩色图像连接防止表示漂移。
Result: 在通用和专门领域的跨模态检索任务中超越现有方法，同时可作为通用增强方法以即插即用方式集成到未来方法中。
Conclusion: 通过最大化多模态结构表示间的互信息，StructXLIP引导模型达到更鲁棒和语义稳定的最小值，增强视觉-语言对齐，为未来方法提供通用增强方案。

[204] Transcending the Annotation Bottleneck: AI-Powered Discovery in Biology and Medicine

Soumick Chatterjee

Main category: cs.CV

TL;DR: 无监督和自监督学习正在改变生物医学AI，通过直接从数据内在结构学习，减少对专家标注的依赖，实现新表型发现、形态-基因关联和异常检测。

Motivation: 专家标注长期以来是生物医学AI应用的主要瓶颈。监督学习驱动了临床算法的第一波发展，但需要转向无监督和自监督学习来释放生物样本库规模数据集的潜力。
Method: 采用无监督和自监督学习方法，直接从数据的内在结构学习，包括MRI中的像素、体积扫描中的体素或基因组序列中的标记。这些方法无需人工标注。
Result: 这些方法能够发现新的表型、将形态学与遗传学联系起来、无偏检测异常，在推导可遗传心脏特征、预测组织学中的空间基因表达以及检测病理方面表现优异，性能可与监督方法媲美甚至超越。
Conclusion: 无监督和自监督学习范式正在生物医学AI领域引发范式转变，通过"无标签学习"减少对专家标注的依赖，为生物样本库规模数据的利用开辟了新途径。

[205] Benchmarking Unlearning for Vision Transformers

Kairan Zhao,Iurie Luca,Peter Triantafillou

Main category: cs.CV

TL;DR: 首个针对视觉Transformer的机器遗忘基准研究，评估不同VT架构、容量、数据集和遗忘算法在单次和持续遗忘协议下的表现

Motivation: 机器遗忘研究主要集中于CNN，而视觉Transformer已成为计算机视觉的重要替代架构，但缺乏针对VT的遗忘基准研究。需要了解现有遗忘算法在VT上的表现，并建立可复现的评估框架。
Method: 使用不同VT家族（ViT和Swin-T）和不同容量；采用不同数据集评估规模和复杂度影响；选择代表不同遗忘方法的算法；实施单次和持续遗忘协议；特别关注利用训练数据记忆化的算法；使用统一评估指标衡量遗忘质量和准确率
Result: 建立了首个VT机器遗忘基准，提供了可复现、公平、全面的比较基础；首次揭示了现有算法在VT设置下的表现，建立了有前景的性能基线；分析了VT相对于CNN的记忆化特性
Conclusion: 这项工作填补了视觉Transformer机器遗忘基准研究的空白，为未来算法开发提供了评估框架，并首次系统评估了现有遗忘方法在VT架构上的有效性

[206] Do Large Language Models Understand Data Visualization Rules?

Martin Sinnona,Valentin Bonas,Emmanuel Iarussi,Viviana Siless

Main category: cs.CV

TL;DR: 评估大型语言模型(LLM)在数据可视化规则验证方面的能力，发现前沿模型在常见违规检测上表现良好，但对细微感知规则和技术ASP表述的验证能力有限。

Motivation: 可视化规则对于可信的图表通信至关重要，但现有的约束系统(如Draco)需要专家维护符号编码。本研究探索LLM作为灵活规则验证器的潜力，以弥补符号系统的维护成本问题。
Method: 将Draco约束子集翻译为自然语言陈述，创建包含2000个Vega-Lite规范的受控数据集，并使用答案集编程(ASP)生成硬验证基准。评估LLM在违规检测准确性和提示遵循度方面的表现。
Result: 前沿模型在提示遵循度上表现优异(Gemma 3 4B/27B: 100%，GPT-oss 20B: 98%)，能可靠检测常见违规(F1最高达0.82)。但对细微感知规则(F1<0.15)和技术ASP表述的验证性能下降。自然语言翻译使小模型性能提升达150%。
Conclusion: LLM作为灵活的语言驱动验证器具有潜力，但在某些复杂场景下仍无法完全替代符号求解器，需要结合两者优势。

[207] Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning

Zhongxiao Cong,Qitao Zhao,Minsik Jeon,Shubham Tulsiani

Main category: cs.CV

TL;DR: Flow3r：通过分解式光流预测，利用未标注单目视频进行3D/4D重建，无需密集几何和姿态监督

Motivation: 当前前馈式3D/4D重建系统依赖密集几何和姿态监督，这些数据获取成本高且稀缺，特别是在动态真实场景中。需要一种能够利用大量未标注视频进行可扩展训练的方法。
Method: 提出Flow3r框架，使用密集2D对应关系（光流）作为监督信号。核心创新是将光流预测模块分解：使用一个图像的几何潜在表示和另一个图像的姿态潜在表示来预测两幅图像之间的光流。这种分解直接指导场景几何和相机运动的学习，并自然扩展到动态场景。
Result: 在控制实验中，分解式光流预测优于替代设计，性能随未标注数据规模一致提升。将分解式光流集成到现有视觉几何架构中，使用约80万个未标注视频训练，Flow3r在8个涵盖静态和动态场景的基准测试中达到最先进水平，在野外动态视频上提升最大（这些场景标注数据最稀缺）。
Conclusion: Flow3r通过分解式光流预测，实现了从大量未标注视频中学习3D/4D重建，解决了标注数据稀缺问题，特别是在动态真实场景中表现出色，为可扩展的视觉几何学习提供了新途径。

[208] A Very Big Video Reasoning Suite

Maijunxian Wang,Ruisi Wang,Juyi Lin,Ran Ji,Thaddäus Wiedemer,Qingying Gao,Dezhi Luo,Yaoyao Qian,Lianyu Huang,Zelong Hong,Jiahui Ge,Qianli Ma,Hang He,Yifan Zhou,Lingzi Guo,Lantao Mei,Jiachen Li,Hanwen Xing,Tianqi Zhao,Fengyuan Yu,Weihang Xiao,Yizheng Jiao,Jianheng Hou,Danyang Zhang,Pengcheng Xu,Boyang Zhong,Zehong Zhao,Gaoyun Fang,John Kitaoka,Yile Xu,Hua Xu,Kenton Blacutt,Tin Nguyen,Siyuan Song,Haoran Sun,Shaoyue Wen,Linyang He,Runming Wang,Yanzhi Wang,Mengyue Yang,Ziqiao Ma,Raphaël Millière,Freda Shi,Nuno Vasconcelos,Daniel Khashabi,Alan Yuille,Yilun Du,Ziming Liu,Bo Li,Dahua Lin,Ziwei Liu,Vikash Kumar,Yijiang Li,Lei Yang,Zhongang Cai,Hokin Deng

Main category: cs.CV

TL;DR: 本文提出了VBVR数据集和评测框架，用于大规模视频推理研究，填补了该领域缺乏大规模训练数据的空白，并观察到模型在未见推理任务上的泛化能力。

Motivation: 视频模型在视觉质量方面进展迅速，但其推理能力尚未得到充分探索。视频推理能够基于时空一致的视觉环境进行直观推理，但缺乏大规模训练数据阻碍了系统性研究。
Method: 1) 构建VBVR数据集：包含200个精心设计的推理任务，超过100万个视频片段，比现有数据集大三个数量级；2) 开发VBVR-Bench评测框架：采用基于规则、与人类对齐的评分器，而非基于模型的评判，实现可复现和可解释的诊断。
Result: 利用VBVR套件进行了大规模扩展研究，观察到模型在未见推理任务上出现了早期涌现的泛化迹象。数据集、评测工具和模型已公开。
Conclusion: VBVR为通用视频推理研究的下一阶段奠定了基础，提供了大规模数据和可验证的评测框架，有助于推动视频推理能力的发展。

[209] tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction

Chen Wang,Hao Tan,Wang Yifan,Zhiqin Chen,Yuheng Liu,Kalyan Sunkavalli,Sai Bi,Lingjie Liu,Yiwei Hu

Main category: cs.CV

TL;DR: tttLRM是一种新型大型3D重建模型，利用测试时训练层实现线性计算复杂度的长上下文自回归3D重建，支持从图像观测到高斯溅射等多种显式格式的解码。

Motivation: 现有3D重建方法在处理长上下文序列时面临计算复杂度高的问题，需要一种能够高效压缩多图像观测、支持渐进式重建和细化的解决方案。
Method: 采用测试时训练层将多图像观测压缩为快速权重，在潜在空间中形成隐式3D表示，可解码为高斯溅射等显式格式；支持在线学习变体进行渐进式重建。
Result: 在物体和场景的3D高斯重建任务中，该方法在馈送式重建方面优于现有最先进方法，表现出更好的重建质量和更快的收敛速度。
Conclusion: tttLRM通过测试时训练层实现了高效的3D重建，支持长上下文处理和渐进式细化，在新视角合成任务上的预训练有效迁移到显式3D建模任务中。

[210] Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Abdelrahman Shaker,Ahmed Heakl,Jaseel Muhammad,Ritesh Thawkar,Omkar Thawakar,Senmao Li,Hisham Cholakkal,Ian Reid,Eric P. Xing,Salman Khan,Fahad Shahbaz Khan

Main category: cs.CV

TL;DR: Mobile-O是一个紧凑的视觉-语言-扩散模型，首次在移动设备上实现统一的多模态理解和生成，通过高效架构设计在有限数据和计算资源下达到竞争性性能。

Motivation: 现有统一多模态模型通常数据需求大、计算负担重，难以部署在边缘设备上。需要开发一个既能在移动设备上实时运行，又能同时处理视觉理解和生成任务的紧凑模型。
Method: 提出Mobile Conditioning Projector（MCP）核心模块，使用深度可分离卷积和层级对齐融合视觉-语言特征与扩散生成器；采用四元组格式（生成提示、图像、问题、答案）进行后训练，联合增强视觉理解和生成能力。
Result: 在iPhone上仅需约3秒生成512x512图像；在GenEval上达到74%，比Show-O和JanusFlow分别高出5%和11%，运行速度快6倍和11倍；在视觉理解任务上平均超越15.3%和5.1%；成为首个在边缘设备上实用的实时统一多模态框架。
Conclusion: Mobile-O建立了首个在边缘设备上实时统一多模态理解和生成的实用框架，无需云端依赖，为完全在设备上运行的实时多模态智能研究铺平道路。

cs.CY

[211] Can Multimodal LLMs See Science Instruction? Benchmarking Pedagogical Reasoning in K-12 Classroom Videos

Yixuan Shen,Peng He,Honglu Liu,Yuyang Ji,Tingting Li,Tianlong Chen,Kaidi Xu,Feng Liu

Main category: cs.CY

TL;DR: SciIBI是首个用于分析科学课堂话语的视频基准测试，包含113个NGSS对齐的视频片段，评估发现当前多模态模型在区分教学实践方面存在局限，主要依赖表面模式匹配而非真正的教学理解。

Motivation: K-12科学课堂是丰富的探究场所，但多模态交互的复杂性使得自动分析难以实现。现有课堂话语基准主要关注数学且仅依赖文字转录，忽视了NGSS强调的视觉工具和基于模型的推理。
Method: 开发SciIBI基准测试，包含113个NGSS对齐的视频片段，标注了核心教学实践(CIP)和复杂度等级。评估了8个最先进的LLM和多模态LLM，分析模型在区分教学实践方面的能力。
Result: 当前模型难以区分教学上相似的实践，表明CIP编码需要超越表面模式匹配的教学推理能力。添加视频输入在不同架构中带来不一致的改进。模型往往通过表面捷径而非真正的教学理解获得成功。
Conclusion: 科学课堂话语是多模态AI的挑战性前沿，应转向人机协作模式，让模型检索证据以加速专家评审而非替代专家。

cs.GR

[212] Compact Hadamard Latent Codes for Efficient Spectral Rendering

Jiaqi Yu,Dar'ya Guarnera,Giuseppe Claudio Guarnera

Main category: cs.GR

TL;DR: 提出Hadamard光谱编码，一种紧凑的潜在表示方法，使光谱渲染可以使用标准RGB渲染操作，显著降低计算成本。

Motivation: 传统光谱渲染虽然能准确再现波长相关外观，但计算成本高（需要评估多个波长样本），且需要整个渲染管线支持光谱纹理和光源。
Method: 使用学习的非负线性编码器-解码器架构，保持缩放和加法精确性，同时鼓励Hadamard积下的近似可乘性。通过少量RGB渲染通道（如k=6时2个RGB图像）和后续解码步骤实现光谱渲染。
Result: k=6时显著减少颜色误差（相比RGB基线），同时比原始n样本光谱渲染快得多。k=9提供更高质量的参考结果。还引入轻量级神经上采样网络，将RGB资产直接映射到潜在编码。
Conclusion: Hadamard光谱编码实现了高效的光谱渲染，兼容标准RGB渲染器，支持传统RGB内容集成，在计算效率和颜色准确性之间取得良好平衡。

quant-ph

[213] Auto Quantum Machine Learning for Multisource Classification

Tomasz Rybotycki,Sebastian Dziura,Piotr Gawron

Main category: quant-ph

TL;DR: 本文提出自动化量子机器学习(AQML)方法用于数据融合任务，在ONERA多光谱数据集上实现了比现有QML方法更好的变化检测精度。

Motivation: 随着容错量子计算的发展，量子计算方法在遥感等数据密集型科学领域的应用日益受到关注。量子机器学习在处理复杂数据融合问题方面已显示出潜力，但需要更有效的自动化方法来设计量子电路。
Method: 提出自动化量子机器学习(AQML)方法，自动生成量子电路来处理多源输入数据。该方法与经典多层感知器(MLP)和手动设计的QML模型进行比较评估。
Result: 在ONERA多光谱数据集的变化检测任务中，AQML方法实现了比先前报道的QML基变化检测结果更高的准确率，展示了自动化量子电路设计的优势。
Conclusion: 自动化量子机器学习方法为复杂数据融合问题提供了有效的解决方案，在遥感等数据密集型应用中展现出优于传统QML方法的性能，为量子计算在科学数据分析中的应用开辟了新途径。

cs.DL

[214] Iconographic Classification and Content-Based Recommendation for Digitized Artworks

Krzysztof Kutt,Maciej Baczyński

Main category: cs.DL

TL;DR: 开发了一个结合Iconclass词汇和AI方法的艺术品图标分类与内容推荐系统原型，通过四阶段工作流实现自动化分类和推荐

Motivation: 自动化艺术品图标分类和内容推荐，加速大型文化遗产库的编目和导航，解决人工处理效率低的问题
Method: 四阶段工作流：1) YOLOv8目标检测识别可见元素；2) 算法映射到Iconclass代码；3) 基于规则的抽象意义推理；4) 三种互补推荐器（层次接近度、IDF加权重叠、Jaccard相似度）
Result: 概念验证系统展示了该解决方案的潜力：Iconclass感知的计算机视觉和推荐方法可以加速编目并增强大型遗产库的导航
Conclusion: 关键洞见是让计算机视觉提出可见元素，并使用符号结构（Iconclass层次结构）来达到意义理解，虽然还需要更多工程工作，但该方法具有实际应用前景

cs.AI

[215] Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Pratham Yashwante,Rose Yu

Main category: cs.AI

TL;DR: 时间序列、视觉和语言模态的预训练编码器在没有显式耦合时呈现近正交几何结构，通过对比学习进行后验对齐后，时间序列与视觉的对齐强于与文本的对齐，图像可作为时间序列和语言的有效中介。

Motivation: 验证柏拉图表示假说是否适用于时间序列模态，该假说认为不同模态学习到的表示会收敛到世界的共享潜在结构，但此前主要在视觉和语言模态中研究，时间序列是否参与这种收敛尚不清楚。
Method: 首先在三模态设置中检查独立预训练的时间序列、视觉和语言编码器的几何结构；然后通过对比学习在冻结编码器上训练投影头进行后验对齐；分析对齐后表示的几何结构、缩放行为、信息密度和输入模态特性的依赖性。
Result: 对比表示空间中的整体对齐随模型规模增大而改善，但这种对齐是不对称的：时间序列与视觉表示的对齐强于与文本的对齐，图像可作为时间序列和语言的有效中介；更丰富的文本描述仅在一定阈值内改善对齐；视觉表示也有类似效应。
Conclusion: 研究结果为构建超越视觉和语言的非传统数据模态的多模态系统提供了重要考虑因素，揭示了时间序列在跨模态对齐中的特殊行为模式。

[216] Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Chongyang Gao,Diji Yang,Shuyan Zhou,Xichen Yan,Luchuan Song,Shuo Li,Kezhen Chen

Main category: cs.AI

TL;DR: CFE是一个多模态基准测试，用于评估大语言模型在20多个STEM领域的推理能力，基于真实大学作业和考试题目，前沿模型表现仍有很大提升空间。

Motivation: 当前需要评估大语言模型在复杂STEM领域的真实推理能力，现有基准测试可能不足以反映模型在实际学术环境中的表现。
Method: 从大学课程中收集重复使用的真实作业和考试题目，由课程教师提供参考答案，构建多模态基准测试，并进行诊断分析将参考答案分解为推理流程。
Result: 前沿模型表现有限：Gemini-3.1-pro-preview准确率59.69%，Gemini-3-flash-preview准确率55.46%。诊断分析发现模型虽然能正确回答中间子问题，但在多步解决方案中难以可靠地推导和维护正确的中间状态。
Conclusion: CFE基准测试揭示了当前大语言模型在复杂STEM推理任务中的局限性，模型生成的解决方案通常比教师提供的步骤更多，表明推理效率低下且错误积累风险更高。

[217] A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Joseph Bingham

Main category: cs.AI

TL;DR: 提出一个计算框架，通过整合语言表达和基于众包图像的感知表征，模拟人类指称解释的核心方面，在斯坦福重复指称游戏语料库上表现优于人类。

Motivation: 建立自然语言表达与视觉感知之间的稳定映射是认知科学和人工智能的基础问题。人类能在嘈杂、模糊的感知环境中理解语言指称，但其跨模态对齐机制尚不清楚。
Method: 结合尺度不变特征变换(SIFT)对齐和通用质量指数(UQI)量化认知合理特征空间中的相似性，同时使用语言预处理和查询转换操作捕捉指称表达的语用变异性。
Result: 在斯坦福重复指称游戏语料库(15,000个话语配对七巧板刺激)上，模型达到稳健的指称基础。比人类对话者少用65%的话语达到稳定映射，单次指称表达正确识别目标物体的准确率达41.66%(人类为20%)。
Conclusion: 相对简单的感知-语言对齐机制能在经典认知基准测试中产生与人类竞争的行为，为基于基础的交流、感知推理和跨模态概念形成模型提供见解。

cs.CR

[218] PrivacyBench: Privacy Isn't Free in Hybrid Privacy-Preserving Vision Systems

Nnaemeka Obiefuna,Samuel Oyeneye,Similoluwa Odunaiya,Iremide Oyelaja,Steven Kolawole

Main category: cs.CR

TL;DR: PrivacyBench框架揭示隐私技术组合存在严重协同失败，特别是FL+DP组合导致准确率从98%暴跌至13%，而FL+SMPC保持接近基线性能

Motivation: 医疗影像和自动驾驶等敏感深度学习应用中，隐私保护机器学习部署需要组合多种技术，但缺乏系统指导来评估这些混合配置的协同和非加性交互，现有孤立技术分析会错过关键系统级交互
Method: 提出PrivacyBench基准测试框架，通过自动化YAML配置、资源监控和可重复实验协议，系统评估ResNet18和ViT模型在医疗数据集上的隐私技术组合
Result: 发现FL+DP组合存在严重收敛失败，准确率从98%降至13%，计算成本和能耗大幅增加；而FL+SMPC保持接近基线性能，仅有适度开销
Conclusion: 隐私技术不能任意组合，PrivacyBench为资源受限环境中的稳健部署提供关键指导，推动隐私保护计算机视觉从临时评估转向原则性系统设计

cs.AR

[219] CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Sonu Kumar,Mohd Faisal Khan,Mukul Lokhande,Santosh Kumar Vishvakarma

Main category: cs.AR

TL;DR: 提出一种运行时自适应、性能增强的向量引擎，采用低资源迭代CORDIC-based MAC单元，支持动态近似/精确模式切换，通过向量化时分复用实现4倍吞吐提升，在256-PE配置下达到4.83 TOPS/mm²计算密度和11.67 TOPS/W能效。

Motivation: 针对边缘AI加速需求，需要在有限硬件资源下实现高性能和能效，同时支持不同精度和计算模式以适应多样化工作负载。
Method: 采用低资源迭代CORDIC-based MAC单元，支持动态近似/精确模式重配置；通过向量化时分复用执行和灵活精度缩放；包含时分复用多AF块和轻量级池化归一化单元；支持4/8/16位灵活精度。
Result: 每个MAC阶段节省33%时间和21%功耗；256-PE配置达到4.83 TOPS/mm²计算密度和11.67 TOPS/W能效；相比现有技术实现更高计算密度和能效；在Pynq-Z2上验证了对象检测和分类任务。
Conclusion: 该向量引擎为边缘AI应用提供了可扩展、高能效的解决方案，通过动态精度模式切换和资源优化设计，在性能和能效方面优于现有技术。

astro-ph.GA

[220] Characterization of Residual Morphological Substructure Using Supervised and Unsupervised Deep Learning

Kameswara Bharadwaj Mantha,Daniel H. McIntosh,Cody Ciaschi,Rubyet Evan,Luther Landry,Henry C. Ferguson,Camilla Pacifici,Joel Primack,Nimish Hathi,Anton Koekemoer,Yicheng Guo,The CANDELS Collaboration

Main category: astro-ph.GA

TL;DR: 使用监督CNN和无监督CvAE深度学习框架分析CANDELS星系调查中的星系子结构特征，通过残差图像识别星系演化中的物理过程。

Motivation: 星系子结构的自动表征是理解驱动星系演化的物理过程的关键步骤。传统方法依赖人工分类，需要开发更高效、客观的自动化方法来分析大量星系数据中的子结构特征。
Method: 1) 使用CANDELS调查中10,046个明亮大质量星系的单Sérsic轮廓拟合残差图像；2) 开发监督卷积神经网络(CNN)和无监督卷积变分自编码器(CvAE)；3) 采用独特的数据预处理方法，确保输入仅包含"感兴趣星系"；4) 使用PCA分析潜在空间，结合SPF、Bumpiness、RFF等量化指标；5) 应用GMM聚类和SVC分类识别相似子结构分组。
Result: 监督CNN的潜在特征在PCA空间中与SPF值相关，能够区分定性强弱不同的残差子结构。无监督CvAE的潜在空间也与视觉和定量残差特征相关，但在表征不同残差子结构时缺乏清晰的区分能力。
Conclusion: 监督CNN在表征星系残差子结构方面表现优于无监督CvAE，能够有效识别和区分不同强度的子结构特征。该方法为大规模星系调查中的自动化子结构分析提供了有效工具。

cs.CL

[221] Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Yibo Yan,Mingdong Ou,Yi Cao,Xin Zou,Jiahao Huo,Shuliang Liu,James Kwok,Xuming Hu

Main category: cs.CL

TL;DR: 提出Prune-then-Merge两阶段框架，通过自适应剪枝和分层合并优化视觉文档检索中的多向量范式，在保持特征保真度的同时显著提升压缩效率。

Motivation: 当前视觉文档检索(VDR)中，最先进的多向量范式虽然性能优异，但存在计算开销过大的问题。现有的效率优化方法（如剪枝和合并）在压缩率和特征保真度之间存在难以平衡的trade-off。
Method: 提出Prune-then-Merge两阶段框架：1) 自适应剪枝阶段：过滤掉低信息量的图像块，保留高信号嵌入集合；2) 分层合并阶段：对预过滤的嵌入集合进行压缩，有效总结语义内容，避免单阶段方法中噪声导致的特征稀释。
Result: 在29个VDR数据集上的广泛实验表明，该框架始终优于现有方法，显著扩展了近无损压缩范围，并在高压缩比下提供稳健性能。
Conclusion: Prune-then-Merge框架通过协同互补的剪枝和合并方法，有效解决了多向量范式在视觉文档检索中的效率与性能平衡问题，为实际应用提供了更优的解决方案。

cs.CG

[222] Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Wei Feng,Haiyong Zheng

Main category: cs.CG

TL;DR: 提出基于模板驱动的三角化框架，将图像边界嵌入规则三角网格，用于稳定PDE离散化，相比CDT更高效且支持并行

Motivation: 传统约束Delaunay三角化(CDT)在处理图像衍生边界时可能触发全局连接更新，效率较低，需要一种更稳定、高效且支持并行的网格生成方法
Method: 提出模板驱动三角化框架：1) 将边界嵌入规则三角网格；2) 仅重三角化被边界相交的三角形；3) 通过分类所有局部边界相交配置，构建有限符号查找表，将每个情况映射到无冲突重三角化模板
Result: 生成的网格封闭、有界角度，兼容余切基离散化和标准有限元方法。实验显示更少薄片单元、更规则三角形，在复杂边界附近有更好的几何保真度
Conclusion: 该框架适用于实时几何分析和基于物理的图像衍生域模拟，提供了稳定、高效且可并行的PDE离散化解决方案

cs.LG

[223] Wide Open Gazes: Quantifying Visual Exploratory Behavior in Soccer with Pose Enhanced Positional Data

Joris Bekkers

Main category: cs.LG

TL;DR: 提出一种基于概率视野和遮挡模型的连续随机视觉层方法，用于量化足球运动员的视觉感知，解决传统视觉探索行为测量的局限性。

Motivation: 传统足球视觉探索行为测量方法存在多个问题：球员位置偏见（主要关注中场球员）、标注困难、二元测量限制（只能判断是否在观察）、缺乏预测短期比赛成功的能力，以及与基本足球分析模型（如场地控制）不兼容。
Method: 使用姿态增强的时空追踪数据，结合概率视野和遮挡模型，考虑头部和肩部旋转角度，创建速度依赖的二维俯视平面视觉地图。将这些视觉地图与场地控制和场地价值表面结合，分析等待阶段（球员等待队友传球）和随后的持球阶段。
Result: 使用2024年美洲杯32场比赛的同步姿态增强追踪数据和持球事件数据，证明聚合视觉指标（如等待传球时观察到的防守区域百分比）能够预测带球动作结束时获得的控制场地价值。
Conclusion: 该方法不受球员位置限制，无需人工标注，提供连续测量，并能无缝集成到现有足球分析框架中。作者开源了相关计算工具以支持集成。

[224] GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

Guanghui Min,Tianhao Huang,Ke Wan,Chen Chen

Main category: cs.LG

TL;DR: GIST是一种用于参数高效微调的数据选择方法，通过子空间对齐代替轴对齐缩放，显著降低了存储和计算成本。

Motivation: 现有数据选择方法通常使用优化器统计量作为参数更新的代理，假设参数坐标独立。但在LoRA等参数高效微调方法中，优化几何呈现强跨参数耦合和非对角相互作用，而任务相关更新方向被限制在低维子空间中，这种假设不成立。
Method: GIST通过谱滤波（SVD）从验证梯度中恢复任务特定子空间，将训练梯度投影到这个耦合子空间中，并根据与目标方向的对齐程度对示例进行评分。
Result: 大量实验表明，GIST在相同选择预算下，仅使用0.29%的存储和25%的计算时间，就能匹配或超越最先进的基线方法。
Conclusion: GIST提供了一种简单而原则性的替代方案，通过鲁棒的子空间对齐来处理参数高效微调中的跨参数耦合问题，显著提高了数据选择的效率和效果。

[225] Information-Guided Noise Allocation for Efficient Diffusion Training

Gabriel Raya,Bac Nguyen,Georgios Batzolis,Yuhta Takida,Dejan Stancevic,Naoki Murata,Chieh-Hsin Lai,Yuki Mitsufuji,Luca Ambrogioni

Main category: cs.LG

TL;DR: InfoNoise：一种基于信息论的扩散模型噪声调度方法，通过条件熵率分析噪声分配，实现数据自适应的训练加速

Motivation: 传统扩散模型依赖手动调优的噪声调度，计算效率低且难以跨数据集、分辨率和表示迁移。需要一种理论指导的数据自适应噪声调度方法。
Method: 提出InfoNoise方法：1）用前向过程的条件熵率作为理论诊断工具分析噪声分配；2）基于熵减少率构建信息引导的噪声采样分布；3）利用训练中已有的去噪损失估计熵减少率。
Result: 在自然图像基准测试中匹配或超越调优的EDM风格调度，CIFAR-10上实现约1.4倍训练加速。在离散数据集上，相比标准图像调度，以最多3倍更少训练步数达到更高质量。
Conclusion: InfoNoise实现了数据自适应的噪声调度，减少了跨领域扩散模型对每数据集调度设计的需求，为扩散模型扩展提供更通用的训练框架。

[226] Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Mingdong Lu,Zhikui Chen,Meng Liu,Shubin Ma,Liang Zhao

Main category: cs.LG

TL;DR: 提出Phase-Consistent Magnetic Spectral Learning方法，通过相位一致性建模跨视图方向一致性，结合非负幅度构建复值磁亲和力，提取稳定共享谱信号指导无监督多视图聚类。

Motivation: 现有多视图聚类方法通常依赖幅度亲和力或早期伪目标，当不同视图产生强度相当但方向矛盾的关系时不稳定，这会扭曲全局谱几何并降低聚类性能。
Method: 1) 将跨视图方向一致性建模为相位项，结合非负幅度构建复值磁亲和力；2) 通过Hermitian磁拉普拉斯提取稳定共享谱信号；3) 使用谱信号作为结构化自监督指导表示学习和聚类；4) 采用基于锚点的高阶共识建模构建紧凑共享结构，并进行轻量级细化抑制噪声关系。
Result: 在多个公开多视图基准数据集上的广泛实验表明，该方法持续优于强基线方法。
Conclusion: 通过相位一致性建模跨视图方向一致性，结合谱学习框架，能够有效处理视图差异和噪声，提升无监督多视图聚类性能。

[227] Bayesian Lottery Ticket Hypothesis

Nicholas Kuhn,Arvid Weyrauch,Lars Heyen,Achim Streit,Markus Götz,Charlotte Debus

Main category: cs.LG

TL;DR: 贝叶斯神经网络中存在彩票假设，稀疏子网络能达到甚至超越原始密集网络的精度，但需要基于权重幅度和标准差进行剪枝

Motivation: 贝叶斯神经网络（BNNs）虽然能进行不确定性量化，但计算资源需求远高于传统神经网络。彩票假设（LTH）在非贝叶斯网络中已被证实存在稀疏子网络能达到同等或更高精度，如果BNNs中也存在类似现象，将能降低计算需求并促进稀疏训练算法的发展
Method: 将彩票假设实验扩展到贝叶斯设置，使用常见计算机视觉模型进行研究。探索贝叶斯彩票票的特征，并扩展到连接BNNs与确定性彩票票的移植方法。主要基于权重幅度和标准差进行剪枝策略
Result: 彩票假设在贝叶斯神经网络中成立，存在匹配甚至超越原始网络精度的"中奖彩票"，且与模型大小无关，仅在极高稀疏度时性能下降。剪枝策略应主要依赖权重幅度，其次依赖标准差。模型对掩码结构和权重初始化的依赖程度各不相同
Conclusion: 贝叶斯神经网络中存在彩票假设，稀疏子网络能保持甚至提升性能，这为开发稀疏训练算法提供了理论基础，并揭示了BNNs训练过程的深层机制

[228] Hyperbolic Busemann Neural Networks

Ziheng Chen,Bernhard Schölkopf,Nicu Sebe

Main category: cs.LG

TL;DR: 提出基于Busemann函数的双曲空间多层逻辑回归和全连接层，在保持欧几里得极限的同时提升分层数据学习效果

Motivation: 双曲空间因其指数级体积增长特性，天然适合表示层次化和树状结构数据。为了充分利用这一优势，需要开发直接在双曲空间中操作的高效神经网络组件。
Method: 通过Busemann函数将多层逻辑回归和全连接层提升到双曲空间，构建Busemann MLR和Busemann FC层，提供统一的数学解释。BMLR具有紧凑参数、点到超球面距离解释、批量高效计算和欧几里得极限特性，BFC则以相似复杂度泛化了FC和激活层。
Result: 在图像分类、基因组序列学习、节点分类和链接预测等任务上的实验表明，相比现有双曲层，该方法在效果和效率上都有提升。
Conclusion: 基于Busemann函数的双曲神经网络层为处理层次化数据提供了有效的数学框架，在多个任务上展现出优越性能，代码已开源。

[229] PCA-VAE: Differentiable Subspace Quantization without Codebook Collapse

Hao Lu,Onur C. Koyun,Yongxin Guo,Zhengjie Zhu,Abbas Alili,Metin Nafi Gurcan

Main category: cs.LG

TL;DR: PCA-VAE用在线PCA瓶颈替代VQ，解决了VQ的非可微、梯度直通和坍缩问题，在更少比特下实现更高重建质量，并自然产生可解释维度。

Motivation: 向量量化自编码器存在固有缺陷：量化器不可微、需要梯度直通技巧、容易坍缩。需要从根本上解决这些问题。
Method: 用在线PCA瓶颈替代VQ，通过Oja规则训练，学习正交、方差排序的潜在基，无需码本、承诺损失或查找噪声。
Result: PCA-VAE在CelebAHQ上重建质量超过VQ-GAN和SimVQ，同时使用10-100倍更少的潜在比特。自然产生可解释维度（如姿态、光照、性别线索）。
Conclusion: PCA是VQ的可行替代方案：数学基础扎实、稳定、比特高效、语义结构化，为生成模型提供了超越向量量化的新方向。

Yangchen Zeng

Main category: cs.LG

TL;DR: DeepInterestGR通过多LLM挖掘深层兴趣、奖励标签监督和兴趣增强离散化，解决现有生成推荐框架仅依赖浅层行为信号导致的"浅层兴趣"问题，显著提升推荐性能。

Motivation: 现有生成推荐框架主要依赖标题、描述等浅层文本特征，导致"浅层兴趣"问题：无法捕捉用户交互背后的潜在丰富语义兴趣，限制了推荐个性化和可解释性。
Method: 1) 多LLM兴趣挖掘：利用前沿LLM通过思维链提示提取深层文本和视觉兴趣表示；2) 奖励标签深度兴趣：使用轻量级二分类器为挖掘的兴趣分配奖励标签，为强化学习提供监督信号；3) 兴趣增强项目离散化：将深度兴趣编码为语义嵌入并通过RQ-VAE量化为SID标记。采用两阶段训练：监督微调对齐深度兴趣信号和协同过滤模式，然后使用兴趣感知奖励优化的GRPO进行强化学习。
Result: 在三个Amazon Review基准测试中，DeepInterestGR在HR@K和NDCG@K指标上持续优于最先进的基线方法。
Conclusion: DeepInterestGR通过挖掘深层语义兴趣有效解决了生成推荐中的浅层兴趣问题，显著提升了推荐性能，为个性化推荐提供了更丰富的语义理解和可解释性。

[231] A Markovian View of Iterative-Feedback Loops in Image Generative Models: Neural Resonance and Model Collapse

Vibhas Kumar Vats,David J. Crandall,Samuel Goree

Main category: cs.LG

TL;DR: 论文提出"神经共振"概念，解释AI训练中反馈循环导致模型崩溃的机制，通过马尔可夫链建模发现收敛到低维不变结构，并建立八种崩溃行为的分类法。

Motivation: AI训练数据中不可避免地包含AI生成的内容，形成反馈循环，已知这种迭代反馈会导致模型崩溃，但其退化机制尚不明确，需要深入理解。
Method: 将迭代反馈建模为马尔可夫链，证明神经共振需要两个条件：反馈过程的遍历性和潜在表示的方向收缩性。在MNIST和ImageNet的扩散模型、CycleGAN和音频反馈实验中研究流形几何演化。
Result: 发现反馈过程收敛到潜在空间的低维不变结构（神经共振），建立了八种崩溃行为的分类法，揭示了局部和全局流形几何的演化模式。
Conclusion: 神经共振为生成模型中长期退化行为提供了统一解释，并为识别、表征和最终缓解模型崩溃提供了实用的诊断工具。

[232] Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Pengxi Liu,Zeyu Michael Li,Xiang Cheng

Main category: cs.LG

TL;DR: 提出一个基于各向异性噪声调度的变分扩散模型框架，通过矩阵值路径分配子空间噪声，联合训练分数网络和学习噪声调度，在多个数据集上优于基线EDM模型。

Motivation: 现有扩散模型通常使用各向同性噪声调度，限制了在不同子空间上分配噪声的灵活性。本文旨在开发一个更通用的各向异性噪声调度框架，以更有效地控制不同维度的噪声分配。
Method: 提出变分框架，使用矩阵值路径M_t(θ)参数化各向异性噪声调度；设计轨迹级目标函数联合训练分数网络和学习M_t(θ)；推导关于θ的分数导数估计器以高效优化噪声调度；开发各向异性二阶Heun离散化算法的反向ODE求解器。
Result: 在CIFAR-10、AFHQv2、FFHQ和ImageNet-64等数据集上，该方法在所有NFE（神经函数评估）机制下均一致优于基线EDM模型，证明了各向异性噪声调度的有效性。
Conclusion: 各向异性噪声调度为扩散模型提供了更灵活的噪声分配机制，通过联合优化分数网络和噪声调度参数，显著提升了生成质量和效率，为扩散模型设计开辟了新方向。

[233] Expanding the Role of Diffusion Models for Robust Classifier Training

Pin-Han Huang,Shang-Tse Chen,Hsuan-Tien Lin

Main category: cs.LG

TL;DR: 该研究探讨了将扩散模型的内部表征（而非仅其生成的合成数据）作为辅助学习信号融入对抗训练，以提升图像分类器的鲁棒性。

Motivation: 现有研究已表明扩散模型生成的合成数据能有效提升对抗训练效果，但扩散模型内部表征（编码了数据的语义特征）是否也能提供额外益处尚不清楚。本研究旨在探索扩散模型表征在鲁棒分类器训练中的潜在价值。
Method: 通过系统实验，将扩散模型的内部表征作为辅助学习信号融入对抗训练。分析这些表征的特性（多样性、部分鲁棒性），并研究其如何影响特征解耦。在CIFAR-10、CIFAR-100和ImageNet数据集上进行验证。
Result: 实验表明：1）扩散模型提供多样且部分鲁棒的表征；2）在对抗训练中显式融入扩散表征能持续提升鲁棒性；3）扩散表征鼓励更解耦的特征学习；4）扩散表征与扩散生成合成数据在塑造表征方面起互补作用。
Conclusion: 扩散模型的内部表征是提升对抗训练鲁棒性的宝贵资源。将扩散表征与合成数据联合利用能更有效地训练鲁棒图像分类器，为利用生成模型内部知识增强模型鲁棒性提供了新方向。

eess.IV

[234] Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Suna Buğday,Yvan Saeys,Jonathan Peck

Main category: eess.IV

TL;DR: 生成模型在医学影像重建中容易产生幻觉特征，通过对抗性扰动可诱导幻觉，传统质量指标无法可靠检测

Motivation: 生成模型在医学影像重建中广泛应用，但已知存在幻觉问题（插入原始图像中不存在的特征），这在医疗环境中可能危及患者健康，导致误诊。本研究旨在量化最先进的生成模型在MRI重建中的幻觉程度。
Method: 在fastMRI数据集的脑部和膝盖图像上，针对UNet和端到端VarNet架构，设计类似随机噪声的对抗性扰动，这些扰动在重建时会诱导幻觉产生。
Result: 实验结果表明，这些模型对微小扰动高度敏感，容易被诱导产生幻觉。这种脆弱性可能部分解释了幻觉产生的原因，并表明精心设计的对抗性训练可能减少幻觉发生。此外，传统图像质量指标无法可靠检测这些幻觉。
Conclusion: 需要开发新的方法来检测幻觉的发生，对抗性训练可能是减少医学影像生成模型中幻觉的有效途径。

[235] 4D-UNet improves clutter rejection in human transcranial contrast enhanced ultrasound

Tristan Beruard,Armand Delbos,Arthur Chavignon,Maxence Reberol,Vincent Hingot

Main category: eess.IV

TL;DR: 提出一种用于经颅3D对比增强超声的4D U-Net方法，利用时空信息增强微泡检测，改善传统杂波滤波器在低信噪比数据中的性能

Motivation: 经颅超声成像受限于高颅骨吸收，传统杂波滤波器在低信噪比超声数据中难以分离血液和组织信号，即使使用对比剂增强血液回声性
Method: 采用4D U-Net方法处理经颅3D对比增强超声数据，利用空间和时间信息通过4D-UNet实现增强微泡检测
Result: 4D-UNet改善了传统时间杂波滤波器性能，提高了杂波抑制和可视化效果
Conclusion: 将深度学习整合到对比增强超声中推进了神经血管成像，展示了AI驱动方法增强超声医学成像的潜力，为更准确诊断和更广泛临床应用铺平道路

[236] DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Jiayang Shi,Daniel M. Pelt,K. Joost Batenburg

Main category: eess.IV

TL;DR: DM4CT是一个用于CT重建的全面基准测试，评估扩散模型在CT逆问题中的表现，并与传统方法比较，包含医学和工业数据集及真实实验数据。

Motivation: 扩散模型在逆问题中表现出强大潜力，但CT重建面临相关噪声、伪影结构、系统几何依赖和数值范围不对齐等实际挑战，需要系统评估扩散模型在此领域的表现。
Method: 引入DM4CT基准测试，包含医学和工业领域的稀疏视图和噪声配置数据集，并采集高分辨率同步辐射CT数据进行真实实验评估。对比10种扩散方法和7种基线方法。
Result: 提供了对扩散模型在CT重建中行为、优势和局限性的详细洞察，公开了真实世界数据集和代码库。
Conclusion: DM4CT为CT重建中的扩散模型提供了系统评估框架，揭示了其在真实CT重建挑战中的表现，促进了该领域的研究发展。

[237] TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

Abdullah All Tanvir,Agnibh Dasgupta,Xin Zhong

Main category: eess.IV

TL;DR: TIACam：基于文本锚定不变特征学习的相机鲁棒零水印框架，通过可学习自动增强器、跨模态对抗对齐和零水印头实现相机重拍场景下的稳定水印提取。

Motivation: 相机重拍会引入复杂的光学退化（如透视扭曲、光照变化、莫尔干涉），这对深度水印系统构成挑战，需要开发能够抵抗这些物理变形的鲁棒水印方法。
Method: 1. 可学习自动增强器：通过可微分的几何、光度和莫尔算子发现相机类失真；2. 文本锚定不变特征学习器：通过图像与文本的跨模态对抗对齐强制语义一致性；3. 零水印头：在不修改图像像素的情况下，在不变特征空间中绑定二进制消息。
Result: 在合成和真实世界相机捕获数据上的广泛实验表明，TIACam实现了最先进的特征稳定性和水印提取精度，在特征不变性学习和物理鲁棒零水印之间建立了原理性桥梁。
Conclusion: TIACam通过统一框架联合优化不变性、语义对齐和水印可恢复性，为相机重拍场景下的鲁棒水印提供了有效的解决方案，建立了多模态不变性学习与物理鲁棒零水印之间的原理性连接。

[238] Automated Disentangling Analysis of Skin Colour for Lesion Images

Wenbo Yang,Eman Rezk,Walaa M. Moursi,Zhou Wang

Main category: eess.IV

TL;DR: 提出皮肤颜色解耦框架，通过压缩解耦学习可操纵的皮肤颜色表示空间，解决训练与部署中皮肤颜色不匹配问题，支持反事实编辑和颜色转移。

Motivation: 皮肤图像机器学习模型在训练和部署时因皮肤颜色差异（SCCI）导致性能下降。这种差异来自环境因素（光照、相机设置）和内在因素（肤色）的纠缠，无法用单一"肤色"标量准确描述。
Method: 1. 提出皮肤颜色解耦框架，基于压缩解耦学习结构化、可操纵的SCCI潜在空间；2. 引入随机化、基本单调的去色映射，防止信息泄漏影响深色特征学习；3. 提出几何对齐后处理步骤，抑制局部模式（如墨迹、疤痕）在颜色操作中的意外颜色偏移。
Result: 框架能够：1. 实现忠实的反事实编辑，回答"该皮肤状况在不同SCCI下会是什么样子？"；2. 支持图像间直接颜色转移；3. 沿物理意义方向（如血液灌注、相机白平衡）进行可控遍历，实现皮肤状况在不同SCCI下的教育可视化；4. 基于该框架的数据集级增强和颜色归一化在病变分类任务中达到竞争性性能。
Conclusion: 提出的皮肤颜色解耦框架有效解决了皮肤图像机器学习中的颜色不匹配问题，通过解耦学习可操纵的SCCI表示，支持多种应用场景，并在病变分类任务中验证了其有效性。

[239] Using Unsupervised Domain Adaptation Semantic Segmentation for Pulmonary Embolism Detection in Computed Tomography Pulmonary Angiogram (CTPA) Images

Wen-Liang Lin,Yun-Chien Cheng

Main category: eess.IV

TL;DR: 提出基于Transformer和Mean-Teacher的无监督域自适应框架，通过原型对齐、全局局部对比学习和注意力辅助局部预测三个模块提升伪标签可靠性，显著改善肺栓塞CTPA分割的跨中心性能。

Motivation: 肺栓塞计算机辅助诊断中，深度学习面临"域偏移"问题和专家标注成本高昂的挑战，需要开发无需目标域标注的跨中心自适应方法。
Method: 采用Transformer骨干网络和Mean-Teacher架构，集成三个模块：1)原型对齐机制减少类别级分布差异；2)全局局部对比学习捕捉像素级拓扑关系和全局语义表示；3)注意力辅助局部预测模块从注意力图自动提取高信息切片增强小病灶敏感性。
Result: 在FUMPE和CAD-PE跨中心数据集上取得显著性能提升：FUMPE→CAD-PE任务IoU从0.1152提高到0.4153，CAD-PE→FUMPE任务从0.1705提高到0.4302。在CT→MRI跨模态任务上获得69.9% Dice分数，无需目标域标签进行模型选择。
Conclusion: 提出的无监督域自适应框架通过增强伪标签可靠性和学习深层结构信息，有效解决了肺栓塞分割中的域偏移问题，展示了在多样化临床环境中的鲁棒性和泛化能力。

cs.RO

[240] OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Rwik Rana,Jesse Quattrociocchi,Dongmyeong Lee,Christian Ellis,Amanda Adkins,Adam Uccello,Garrett Warnell,Joydeep Biswas

Main category: cs.RO

TL;DR: OVerSeeC：零样本模块化框架，通过自然语言指令从卫星图像生成全局代价地图，支持开放词汇实体识别和组合式偏好表达

Motivation: 自主导航需要从卫星图像生成全局代价地图进行长距离规划，但现有方法无法处理测试时通过自然语言表达的动态任务需求和未知地形实体，缺乏处理组合式遍历逻辑的灵活性
Method: 提出OVerSeeC框架，采用Interpret-Locate-Synthesize三步法：1) LLM解析自然语言指令，提取实体和偏好排序；2) 开放词汇分割管道从高分辨率图像识别这些实体；3) LLM结合用户偏好和分割掩码生成可执行的代价地图代码
Result: 实验表明OVerSeeC能处理新实体、尊重排序和组合偏好，在不同区域产生与人工绘制轨迹一致的路径，对分布偏移具有鲁棒性
Conclusion: 基础模型的模块化组合能够实现开放词汇、偏好对齐的代价地图生成，为可扩展、任务自适应的全局规划提供支持

[241] Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Niloufar Amiri,Shayan Sepahvand,Iraj Mantegh,Farrokh Janabi-Sharifi

Main category: cs.RO

TL;DR: 该论文比较了空中连续体机械臂（ACM）动态建模的两种方法：解耦模型和耦合模型。研究发现，在闭环控制中，解耦模型能达到与耦合模型相当的跟踪精度（亚像素误差），同时计算成本更低。

Motivation: 研究空中连续体机械臂动态建模的两种方法（解耦与耦合），旨在确定在何种条件下解耦模型能在保持与耦合模型相当精度的同时，降低计算成本。
Method: 1. 使用欧拉-拉格朗日方法在分段常曲率（PCC）假设下推导系统动力学，并显式处理近零曲率奇点；2. 通过忽略ACM动力学中的耦合项获得解耦模型；3. 开发基于动态的比例-微分滑模图像视觉伺服（DPD-SM-IBVS）控制器进行闭环控制；4. 在相同数值条件下比较两种模型的性能和计算成本。
Result: 开环仿真显示两种建模方法存在显著差异，特别是在变化的扭矩输入和连续体臂参数下。然而，闭环实验表明，解耦模型能达到与耦合模型相当的跟踪精度（亚像素误差），同时计算成本更低。
Conclusion: 对于空中连续体机械臂的动态建模，解耦模型在闭环控制中能够提供与耦合模型相当的精度，同时具有更低的计算成本，这使其在实际应用中更具优势。

[242] RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Seungku Kim,Suhyeok Jang,Byungjun Yoon,Dongyoung Kim,John Won,Jinwoo Shin

Main category: cs.RO

TL;DR: RoboCurate：通过仿真回放评估动作质量，提升合成机器人数据质量的框架

Motivation: 现有视频生成模型生成的合成数据存在动作质量不一致的问题，而视觉语言模型在验证视频质量时无法准确评估物理准确性和动作本身的质量
Method: 通过仿真回放预测动作，比较仿真轨迹与生成视频的运动一致性来评估动作质量；结合图像到图像编辑和动作保持的视频到视频转换来增强数据多样性
Result: 相比仅使用真实数据，在多个任务上取得显著提升：GR-1 Tabletop (+70.1%)、DexMimicGen预训练 (+16.1%)、ALLEX人形灵巧操作 (+179.9%)
Conclusion: RoboCurate通过仿真回放验证动作质量，有效解决了合成机器人数据质量不一致的问题，显著提升了机器人学习性能

[243] WildOS: Open-Vocabulary Object Search in the Wild

Hardik Shah,Erica Tevere,Deegan Atha,Marcel Kaufmann,Shehryar Khattak,Manthan Patel,Marco Hutter,Jonas Frey,Patrick Spieler

Main category: cs.RO

TL;DR: WildOS是一个用于长距离开放词汇目标搜索的统一系统，结合了安全几何探索与语义视觉推理，在复杂非结构化户外环境中实现鲁棒导航。

Motivation: 在复杂、非结构化的户外环境中，机器人需要在没有先验地图和有限深度感知的情况下进行长距离操作。仅依赖几何前沿进行探索通常不足，需要语义推理能力来确定安全可通行区域和导航方向。
Method: WildOS构建稀疏导航图来维护空间记忆，同时使用基于基础模型的视觉模块ExploRFM对图的边界节点进行评分。ExploRFM同时预测可通行性、视觉前沿和图像空间中的对象相似性。此外，引入基于粒子滤波的方法对开放词汇目标查询进行粗略定位。
Result: 在各种越野和城市地形中的闭环现场实验表明，WildOS实现了鲁棒导航，在效率和自主性方面显著优于纯几何和纯视觉基线方法。
Conclusion: 视觉基础模型有潜力驱动开放世界的机器人行为，这些行为既具有语义信息又基于几何基础。WildOS展示了语义推理与几何安全探索相结合的有效性。

[244] Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization

Yanting Yang,Shenyuan Gao,Qingwen Bu,Li Chen,Dimitris N. Metaxas

Main category: cs.RO

TL;DR: 提出新的测试时计算框架，将状态评估与动作生成解耦，通过显式建模动作计划的优势值，使用波束搜索探索多个未来路径，并引入轻量级置信度触发机制，在机器人操作任务中实现24.6%成功率提升和56.5%推理时间减少。

Motivation: 现有使用反射规划指导视觉语言模型的方法存在三个主要问题：1) 依赖从噪声预测中隐式学习状态值，效率低且不准确；2) 仅评估单个贪婪未来；3) 推理延迟大。需要更鲁棒的决策框架来解决复杂长时程机器人操作任务。
Method: 1) 解耦状态评估与动作生成，提供更直接细粒度的监督信号；2) 显式建模动作计划的优势值（减少到目标的距离），使用可扩展的评论家网络估计；3) 采用波束搜索探索多个未来路径，在解码时聚合以建模期望长期回报；4) 引入轻量级置信度触发机制，仅在必要时调用反射。
Result: 在多样未见的多阶段机器人操作任务上，相比最先进基线方法，成功率提升24.6%，同时推理时间显著减少56.5%。
Conclusion: 提出的测试时计算框架通过解耦状态评估与动作生成、显式建模优势值、多路径探索和自适应触发机制，显著提升了机器人操作任务的性能和效率，为复杂长时程任务提供了更鲁棒的解决方案。

[245] EEG-Driven Intention Decoding: Offline Deep Learning Benchmarking on a Robotic Rover

Ghadah Alosaimi,Maha Alsayyari,Yixin Sun,Stamos Katsigiannis,Amir Atapour-Abarghouei,Toby P. Breckon

Main category: cs.RO

TL;DR: 该研究开发了一个脑机接口框架，用于在机器人漫游车操作期间离线解码驾驶命令，使用深度学习模型预测用户意图，ShallowConvNet模型表现最佳。

Motivation: 脑机接口为移动机器人提供了免手控制方式，但在真实世界导航中解码用户意图仍然具有挑战性。本研究旨在解决在机器人漫游车操作期间实时解码驾驶命令的难题。
Method: 使用4WD Rover Pro平台，12名参与者通过操纵杆远程操作漫游车沿预定路线导航，执行前进、后退、左转、右转和停止命令。使用16通道OpenBCI帽记录EEG信号，并与Delta=0ms和Delta>0ms的未来预测时间点的运动动作对齐。预处理后，对多种深度学习模型进行基准测试，包括卷积神经网络、循环神经网络和Transformer架构。
Result: ShallowConvNet在动作预测和意图预测方面均获得最高性能。研究通过结合真实世界机器人控制与多时间尺度EEG意图解码，建立了一个可重复的基准，并揭示了预测性深度学习脑机接口系统的关键设计见解。
Conclusion: 该研究成功开发了一个脑机接口框架，能够有效解码机器人漫游车操作期间的驾驶命令，为预测性深度学习脑机接口系统提供了重要基准和设计指导。

Apoorva Vashisth,Manav Kulshrestha,Pranav Bakshi,Damon Conover,Guillaume Sartoretti,Aniket Bera

Main category: cs.RO

TL;DR: 机器人通过移动障碍物自主开辟路径，完成连续物体放置任务的终身交互导航问题

Motivation: 现实场景中（如家庭、仓库）杂物可能阻塞所有路径，需要机器人具备移动障碍物能力来完成任务
Method: 基于LLM的约束规划框架，结合主动感知，通过结构化场景图推理决定移动哪个物体、放置位置及下一步探索区域
Result: 在物理模拟器ProcTHOR-10k中优于非学习和学习基线方法，并在真实硬件上进行了定性验证
Conclusion: 提出的终身交互导航框架能有效处理环境变化累积效应，通过推理与主动感知结合实现高效任务完成

[247] NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

Jiahui Fu,Junyu Nan,Lingfeng Sun,Hongyu Li,Jianing Qian,Jennifer L. Barry,Kris Kitani,George Konidaris

Main category: cs.RO

TL;DR: NovaPlan是一个分层框架，结合VLM规划、视频生成和几何基础执行，实现零样本长时程机器人操作

Motivation: 解决长时程任务需要将高层语义推理与低层物理交互结合。现有VLM和视频生成模型缺乏物理基础，难以在实际世界执行
Method: 分层框架：高层VLM规划器分解任务并监控执行，支持闭环重规划；低层从生成视频提取物体关键点和人手姿态作为运动学先验，通过切换机制选择更好的参考
Result: 在三个长时程任务和功能操作基准测试中有效，能执行复杂装配任务并展现灵巧的错误恢复行为，无需演示或训练
Conclusion: NovaPlan统一了闭环VLM/视频规划与几何基础执行，实现了零样本长时程操作，即使在严重遮挡或深度不准确情况下也能稳定执行

[248] Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization

Wei-Cheng Huang,Jiaheng Han,Xiaohan Ye,Zherong Pan,Kris Hauser

Main category: cs.RO

TL;DR: 提出基于优化的统一框架，从真实世界观测中联合恢复多个刚性物体的形状和位姿，生成物理有效的仿真就绪场景

Motivation: 现有方法在杂乱环境中存在计算成本高、鲁棒性差、扩展到多交互物体时泛化性受限的问题，需要从真实观测中估计仿真就绪场景以支持下游规划和策略学习任务
Method: 基于优化的统一框架，利用形状可微接触模型实现物体几何和位姿的联合优化，开发高效线性系统求解器处理增广拉格朗日海森矩阵的结构稀疏性，构建端到端管道包括学习式物体初始化、物理约束的形状-位姿联合优化和可微纹理细化
Result: 在最多包含5个物体和22个凸包的杂乱场景中，方法能够鲁棒地重建物理有效的仿真就绪物体形状和位姿
Conclusion: 提出的统一优化框架通过形状可微接触模型和高效求解器，成功解决了杂乱环境中多物体场景的仿真就绪重建问题，为下游任务提供了可靠基础

q-bio.NC

[249] Neural Fields as World Models

Joshua Nunley

Main category: q-bio.NC

TL;DR: 提出同构世界模型，通过保持感觉拓扑结构将物理预测转化为几何传播而非抽象状态转换，使用神经场和运动门控通道实现，实验证明该方法能学习弹道物理、提高策略迁移效率并自发发展身体选择性编码。

Motivation: 传统机器学习世界模型将视觉输入压缩到潜在空间时丢弃了空间结构，而大脑的感觉皮层具有空间拓扑特征。研究者希望开发能保持感觉拓扑的世界模型，使物理预测更接近大脑的几何传播方式。
Method: 提出同构世界模型架构，使用神经场和运动门控通道，其中活动通过局部横向连接演化，运动命令乘法调制特定群体。该方法保持感觉拓扑，使物理预测成为几何传播而非抽象状态转换。
Result: 三个实验结果支持该方法：1）局部连接足以学习弹道物理，预测能穿越中间位置而非"瞬移"；2）完全在想象中训练的策略迁移到真实物理的速度比潜在空间替代方案快近两倍；3）运动门控通道仅通过视觉运动预测就能自发发展身体选择性编码。
Conclusion: 直观物理和身体图式可能源于空间结构化的神经动力学的共同起源，同构世界模型为理解大脑如何预测物理结果提供了新视角，并展示了保持感觉拓扑在物理预测中的优势。

cs.CV ​

[1] Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models ​

[2] A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer ​

[3] Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality ​

[4] Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study ​

[5] A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage ​

[6] Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning ​

[7] Depth from Defocus via Direct Optimization ​

[8] Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams ​

[9] Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity ​

[10] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments ​

[11] Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization ​

[12] VLANeXt: Recipes for Building Strong VLA Models ​

[13] Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models ​

[14] Rodent-Bench ​

[15] BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants ​

[16] Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification ​

[17] Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space ​

[18] Deep LoRA-Unfolding Networks for Image Restoration ​

[19] Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding ​

[20] IRIS-SLAM: Unified Geo-Instance Representations for Robust Semantic Localization and Mapping ​

[21] HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing ​

[22] NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures ​

[23] Subtle Motion Blur Detection and Segmentation from Static Image Artworks ​

[24] WiCompass: Oracle-driven Data Scaling for mmWave Human Pose Estimation ​

[25] MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment ​

[26] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency ​

[27] Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code ​

[28] MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions ​

[29] Benchmarking Computational Pathology Foundation Models For Semantic Segmentation ​

[30] Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement ​

[31] Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving ​

[32] TAG: Thinking with Action Unit Grounding for Facial Expression Recognition ​

[33] A high-resolution nationwide urban village mapping product for 342 Chinese cities based on foundation models ​

[34] Initialization matters in few-shot adaptation of vision-language models for histopathological image classification ​

[35] MaskDiME: Adaptive Masked Diffusion for Precise and Efficient Visual Counterfactual Explanations ​

[36] Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance ​

[37] Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection ​

[38] HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation ​

[39] Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations ​

[40] Spatial-Temporal State Propagation Autoregressive Model for 4D Object Generation ​

[41] IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbation ​

[42] CLAP Convolutional Lightweight Autoencoder for Plant Disease Classification ​

[43] Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification ​

[44] Echoes of Ownership: Adversarial-Guided Dual Injection for Copyright Protection in MLLMs ​

[45] DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference ​

[46] Open-Vocabulary Domain Generalization in Urban-Scene Segmentation ​

[47] Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation ​

[48] Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning ​

[49] Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions ​

[50] BiMotion: B-spline Motion for Text-guided Dynamic 3D Character Generation ​

[51] Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation ​

[52] FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model ​

[53] SceneTok: A Compressed, Diffusable Token Space for 3D Scenes ​

[54] PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and Simulation ​

[55] SafeDrive: Fine-Grained Safety Reasoning for End-to-End Driving in a Sparse World ​

[56] Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization ​

[57] SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model ​

[58] Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates ​

[59] CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion ​

[60] Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation ​

[61] YOLOv10-Based Multi-Task Framework for Hand Localization and Laterality Classification in Surgical Videos ​

[62] Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification ​

[63] Face Presentation Attack Detection via Content-Adaptive Spatial Operators ​

[64] Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding ​

[65] IDSelect: A RL-Based Cost-Aware Selection Agent for Video-based Multi-Modal Person Recognition ​

[66] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models ​

[67] Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction ​

[68] A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study ​

[69] MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment ​

[70] GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound ​

[71] TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery ​

[72] An interpretable framework using foundation models for fish sex identification ​

[73] Towards Calibrating Prompt Tuning of Vision-Language Models ​

[74] OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness ​

[75] TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow Estimation ​

[76] Direction-aware 3D Large Multimodal Models ​

[77] L3DR: 3D-aware LiDAR Diffusion and Rectification ​

[78] ChordEdit: One-Step Low-Energy Transport for Image Editing ​

[79] Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference ​

cs.CV

[1] Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

[2] A Patient-Specific Digital Twin for Adaptive Radiotherapy of Non-Small Cell Lung Cancer

[3] Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality

[4] Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study

[5] A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage

[6] Suppression or Deletion: A Restoration-Based Representation-Level Analysis of Machine Unlearning

[7] Depth from Defocus via Direct Optimization

[8] Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

[9] Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

[10] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

[11] Image-Based Classification of Olive Varieties Native to Turkiye Using Multiple Deep Learning Architectures: Analysis of Performance, Complexity, and Generalization

[12] VLANeXt: Recipes for Building Strong VLA Models

[13] Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

[14] Rodent-Bench

[15] BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

[16] Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

[17] Narrating For You: Prompt-guided Audio-visual Narrating Face Generation Employing Multi-entangled Latent Space

[18] Deep LoRA-Unfolding Networks for Image Restoration

[19] Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

[20] IRIS-SLAM: Unified Geo-Instance Representations for Robust Semantic Localization and Mapping

[21] HIME: Mitigating Object Hallucinations in LVLMs via Hallucination Insensitivity Model Editing

[22] NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

[23] Subtle Motion Blur Detection and Segmentation from Static Image Artworks

[24] WiCompass: Oracle-driven Data Scaling for mmWave Human Pose Estimation

[25] MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

[26] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency

[27] Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

[28] MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

[29] Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

[30] Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

[31] Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

[32] TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

[33] A high-resolution nationwide urban village mapping product for 342 Chinese cities based on foundation models

[34] Initialization matters in few-shot adaptation of vision-language models for histopathological image classification

[35] MaskDiME: Adaptive Masked Diffusion for Precise and Efficient Visual Counterfactual Explanations

[36] Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance

[37] Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection

[38] HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

[39] Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

[40] Spatial-Temporal State Propagation Autoregressive Model for 4D Object Generation

[41] IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbation

[42] CLAP Convolutional Lightweight Autoencoder for Plant Disease Classification

[43] Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification

[44] Echoes of Ownership: Adversarial-Guided Dual Injection for Copyright Protection in MLLMs

[45] DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

[46] Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

[47] Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

[48] Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

[49] Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions

[50] BiMotion: B-spline Motion for Text-guided Dynamic 3D Character Generation

[51] Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

[52] FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model

[53] SceneTok: A Compressed, Diffusable Token Space for 3D Scenes

[54] PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and Simulation

[55] SafeDrive: Fine-Grained Safety Reasoning for End-to-End Driving in a Sparse World

[56] Beyond Stationarity: Rethinking Codebook Collapse in Vector Quantization

[57] SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

[58] Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates

[59] CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

[60] Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation

[61] YOLOv10-Based Multi-Task Framework for Hand Localization and Laterality Classification in Surgical Videos

[62] Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification

[63] Face Presentation Attack Detection via Content-Adaptive Spatial Operators

[64] Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

[65] IDSelect: A RL-Based Cost-Aware Selection Agent for Video-based Multi-Modal Person Recognition

[66] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

[67] Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

[68] A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

[69] MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

[70] GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

[71] TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

[72] An interpretable framework using foundation models for fish sex identification

[73] Towards Calibrating Prompt Tuning of Vision-Language Models

[74] OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

[75] TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow Estimation

[76] Direction-aware 3D Large Multimodal Models

[77] L3DR: 3D-aware LiDAR Diffusion and Rectification

[78] ChordEdit: One-Step Low-Energy Transport for Image Editing

[79] Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference