Skip to content
每日arXiv - 2025年9月18日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Proximity-Based Evidence Retrieval for Uncertainty-Aware Neural Networks

Hassan Gharoun,Mohammad Sadegh Khorshidi,Kasra Ranjbarigderi,Fang Chen,Amir H. Gandomi

Main category: cs.CV

TL;DR: 提出基于证据检索的不确定性感知决策机制,用实例自适应的证据条件阈值替代全局固定阈值,通过Dempster-Shafer理论融合近邻样本的预测分布,实现更可靠和可解释的决策。

  • Motivation: 传统基于预测熵的全局阈值方法在不确定性感知决策中存在置信错误率高和缺乏可解释性的问题,需要一种能够提供透明、可审计决策的实例自适应机制。
  • Method: 为每个测试实例在嵌入空间中检索近邻样本,使用Dempster-Shafer理论融合这些证据样本的预测分布,生成每个实例特定的置信阈值进行决策。
  • Result: 在CIFAR-10/100数据集上,使用BiT和ViT骨干网络,相比预测熵阈值方法,取得了相当或更好的不确定性感知性能,显著减少了置信错误预测,同时保持了可持续的审查负载。
  • Conclusion: 证据条件标记机制为操作不确定性感知决策提供了比固定预测熵阈值更可靠和可解释的替代方案,仅需少量证据即可实现显著性能提升。

[2] Hybrid Quantum-Classical Model for Image Classification

Muhammad Adnan Shahzad

Main category: cs.CV

TL;DR: 混合量子-经典神经网络在准确率、训练效率和参数可扩展性方面优于纯经典模型,特别是在复杂视觉任务中表现突出

  • Motivation: 系统比较混合量子-经典神经网络与纯经典模型在性能、效率和鲁棒性方面的差异,评估量子计算在深度学习中的实际价值
  • Method: 在三个基准数据集(MNIST、CIFAR100、STL10)上对比混合模型(参数化量子电路+经典深度学习架构)和经典CNN模型,进行50个训练周期的实验,评估验证准确率、测试准确率、训练时间、计算资源使用和对抗鲁棒性
  • Result: 混合模型在所有数据集上都优于经典模型:MNIST(99.38% vs 98.21%)、CIFAR100(41.69% vs 32.25%)、STL10(74.05% vs 63.76%);训练速度快5-12倍;参数减少6-32%;内存使用更少(4-5GB vs 5-6GB);CPU利用率更低(9.5% vs 23.2%);在简单数据集上对抗鲁棒性显著更好
  • Conclusion: 混合量子-经典架构在准确率、训练效率和参数可扩展性方面具有显著优势,特别适合复杂视觉任务,为量子计算在深度学习中的应用提供了有力证据

[3] Research on Expressway Congestion Warning Technology Based on YOLOv11-DIoU and GRU-Attention

Tong Yulin,Liang Xuechen

Main category: cs.CV

TL;DR: 本研究提出一个集成技术框架来解决高速公路交通拥堵问题,通过优化YOLOv11和DeepSort算法提升车辆感知精度,并构建GRU-Attention模型进行拥堵预警,在准确性和实时性方面都取得了显著提升。

  • Motivation: 高速公路交通拥堵严重降低出行效率并阻碍区域连通性。现有的'检测-预测'系统存在关键缺陷:遮挡条件下车辆感知精度低,以及拥堵预测中长序列依赖关系的丢失。
  • Method: 1) 交通流感知:将YOLOv11升级为YOLOv11-DIoU(用DIoU Loss替换GIoU Loss),改进DeepSort(融合马氏距离和余弦距离)
  1. 拥堵预警:构建GRU-Attention模型捕捉拥堵前兆,使用流量、密度和速度数据进行训练
  • Result: YOLOv11-DIoU达到95.7% mAP(比基线高6.5个百分点),遮挡漏检率5.3%;DeepSort达到93.8% MOTA(比SORT高11.3个百分点);GRU-Attention模型测试准确率99.7%(比传统GRU高7-9个百分点),10分钟提前预警时间误差≤1分钟,独立视频验证显示95%预警准确率
  • Conclusion: 该框架为高速公路拥堵控制提供了量化支持,在智能交通应用中具有广阔前景,特别是在高流量场景下表现稳定。

[4] Parking Space Ground Truth Test Automation by Artificial Intelligence Using Convolutional Neural Networks

Tony Rohe,Martin Margreiter,Markus Moertl

Main category: cs.CV

TL;DR: 利用卷积神经网络自动化路边停车服务的测试分析过程,将人工资源时间减少99.58%

  • Motivation: 优化基于众包车辆数据的实时路边停车服务质量,通过自动化现有地面真值测试流程来替代人工工程工作
  • Method: 应用机器学习特别是图像模式识别方法,采用卷积神经网络实现分析过程的高度自动化
  • Result: 实现了99.58%的人工资源时间减少,显著提高了分析效率
  • Conclusion: 自动化分析工具成功实现了测试过程的高度自动化,为未来发展和潜在应用提供了良好基础

[5] An Empirical Analysis of VLM-based OOD Detection: Mechanisms, Advantages, and Sensitivity

Yuxiao Lee,Xiaofeng Cao,Wei Ye,Jiangchao Yao,Jingkuan Song,Heng Tao Shen

Main category: cs.CV

TL;DR: 本文系统分析了基于视觉语言模型(VLM)的零样本分布外检测机制,揭示了VLM相比单模态方法的优势在于利用丰富的语义新颖性,同时发现其对提示词措辞高度敏感的关键脆弱性。

  • Motivation: 尽管CLIP等视觉语言模型在零样本分布外检测方面表现出色,但研究界对其工作机制、相对于单模态方法的优势以及行为鲁棒性缺乏系统理解。
  • Method: 通过使用分布内和分布外提示词,对VLM嵌入空间的关键操作特性进行系统表征和形式化,并实证量化VLM与单模态方法的性能差异。
  • Result: VLM在分布外检测方面显著优于单模态方法,主要优势在于能够利用丰富的语义新颖性;同时发现VLM对图像噪声具有鲁棒性,但对提示词措辞高度敏感。
  • Conclusion: 研究提供了对VLM基于分布外检测优势和关键脆弱性的结构化理解,为开发更鲁棒可靠的未来设计提供了实证指导。

[6] Curvature as a tool for evaluating dimensionality reduction and estimating intrinsic dimension

Charlotte Beylier,Parvaneh Joharinad,Jürgen Jost,Nahid Torbati

Main category: cs.CV

TL;DR: 本文提出了一种基于截面曲率的几何分析方法,用于构建离散度量空间的曲率特征,并以此评估数据表示效果和估计数据集的内在维度。

  • Motivation: 利用新发展的截面曲率抽象概念,旨在为离散度量空间建立基于曲率的几何特征描述,以更好地理解和分析数据集的几何结构。
  • Method: 基于捕获三点与其他点之间度量关系的曲率概念,构建曲率特征剖面,并开发定量测量方法来评估数据表示效果。
  • Result: 实验表明,这种基于曲率的分析可用于估计数据集的内在维度,探索经验网络的大规模几何特性,并评估降维技术的有效性。
  • Conclusion: 提出的曲率特征方法为离散度量空间的几何分析提供了有效工具,在数据表示评估和内在维度估计方面具有实用价值。

[7] Landcover classification and change detection using remote sensing and machine learning: a case study of Western Fiji

Yadvendra Gurjar,Ruoni Wan,Ehsan Farahbakhsh,Rohitash Chandra

Main category: cs.CV

TL;DR: 本研究使用机器学习和遥感技术分析斐济纳迪地区2013-2024年的土地利用变化,通过Google Earth Engine和卷积神经网络进行土地覆盖分类和变化检测。

  • Motivation: 斐济作为发展中国家正经历快速城市化,需要技术支持来监测土地利用变化,为城市规划和发展项目提供科学依据。
  • Method: 使用Landsat-8卫星影像,结合Google Earth Engine平台,采用k-means聚类无监督学习和卷积神经网络有监督学习进行土地覆盖分类。
  • Result: 生成了土地覆盖变化可视化图,突出显示了城市区域随时间的变化情况,实现了有效的土地利用变化监测。
  • Conclusion: 该研究为斐济的土地利用建模和变化检测提供了有效的技术框架,有助于监测城市化进程和指导可持续发展。

[8] Real-Time Detection and Tracking of Foreign Object Intrusions in Power Systems via Feature-Based Edge Intelligence

Xinan Wang,Di Shi,Fengyu Wang

Main category: cs.CV

TL;DR: 提出了一种用于电力传输系统实时异物入侵检测与跟踪的三阶段框架,结合YOLOv7分割、ConvNeXt特征提取和特征辅助IoU跟踪,支持边缘设备部署和增量更新。

  • Motivation: 电力传输系统中异物入侵检测对保障电网安全至关重要,需要实时、准确且能在边缘设备上运行的解决方案。
  • Method: 三阶段框架:1) YOLOv7分割模型进行目标定位;2) ConvNeXt特征提取器生成判别性嵌入;3) 特征辅助IoU跟踪器处理遮挡和运动。采用混合精度推理优化边缘部署。
  • Result: 在真实监控和无人机视频数据集上表现出高准确性和鲁棒性,在NVIDIA Jetson设备上验证了实际应用的可行性和可扩展性。
  • Conclusion: 该框架为电力系统异物入侵检测提供了有效的实时解决方案,支持边缘部署和增量学习,具有实际应用价值。

[9] EdiVal-Agent: An Object-Centric Framework for Automated, Scalable, Fine-Grained Evaluation of Multi-Turn Editing

Tianyu Chen,Yasi Zhang,Zhi Zhang,Peiyu Yu,Shu Wang,Zhendong Wang,Kevin Lin,Xiaofei Wang,Zhengyuan Yang,Linjie Li,Chung-Ching Lin,Jianwen Xie,Oscar Leong,Lijuan Wang,Ying Nian Wu,Mingyuan Zhou

Main category: cs.CV

TL;DR: EdiVal-Agent是一个自动化、可扩展的细粒度评估框架,用于多轮指令式图像编辑,通过对象中心视角和专家工具套件提供更可靠和可解释的评估。

  • Motivation: 当前指令式图像编辑的评估方法存在局限性:要么依赖配对的参考图像导致覆盖范围有限,要么仅使用零样本视觉语言模型(VLMs)评估不够精确。需要更可靠、可解释的自动化评估框架。
  • Method: 首先将图像分解为语义对象,然后合成多样化的上下文感知编辑指令。评估时结合VLMs和开放词汇对象检测器评估指令遵循,使用语义级特征提取器评估内容一致性,利用人类偏好模型判断视觉质量。
  • Result: 实验表明,将VLMs与对象检测器结合比单独使用VLMs和CLIP指标在指令遵循评估中与人类判断有更强的一致性。模块化设计允许未来工具无缝集成。
  • Conclusion: EdiVal-Agent能够识别现有编辑模型的失败模式,为下一代编辑模型的开发提供信息。该框架建立了EdiVal-Bench基准,涵盖9种指令类型和11种最先进的编辑模型。

[10] MapAnything: Universal Feed-Forward Metric 3D Reconstruction

Nikhil Keetha,Norman Müller,Johannes Schönberger,Lorenzo Porzi,Yuchen Zhang,Tobias Fischer,Arno Knapitsch,Duncan Zauss,Ethan Weber,Nelson Antunes,Jonathon Luiten,Manuel Lopez-Antequera,Samuel Rota Bulò,Christian Richardt,Deva Ramanan,Sebastian Scherer,Peter Kontschieder

Main category: cs.CV

TL;DR: MapAnything是一个统一的基于transformer的前馈模型,能够通过单次前向传播处理多种3D视觉任务,包括未标定运动恢复结构、多视图立体视觉、单目深度估计等,性能优于或匹配专用模型。

  • Motivation: 为了解决3D视觉领域中不同任务需要专门模型的问题,研究者希望开发一个统一的模型架构,能够处理多种3D重建任务,提高训练效率和模型通用性。
  • Method: 采用基于transformer的前馈架构,输入单张或多张图像以及可选的几何输入(相机内参、位姿、深度等),通过分解的多视图场景几何表示(深度图、局部射线图、相机位姿和尺度因子)来回归度量3D场景几何和相机参数。
  • Result: 实验表明MapAnything在多个3D视觉任务上表现优于或与专用前馈模型相当,同时展现出更高效的联合训练特性。
  • Conclusion: MapAnything为实现通用3D重建主干网络奠定了基础,展示了统一模型架构在多种3D视觉任务上的潜力和优势。

[11] Semantic-Enhanced Cross-Modal Place Recognition for Robust Robot Localization

Yujia Lin,Nicholas Evans

Main category: cs.CV

TL;DR: 提出SCM-PR框架,通过融合RGB图像的语义信息与LiDAR地图的几何特征,解决跨模态地点识别中的光照、天气和视角变化问题,在KITTI数据集上达到SOTA性能。

  • Motivation: 现有RGB-based方法对光照、天气等环境变化敏感,而现有的跨模态定位方法在复杂场景、细粒度匹配和视角变化情况下表现不佳,需要更鲁棒的定位解决方案。
  • Method: 使用VMamba骨干网络提取RGB图像特征;提出语义感知特征融合(SAFF)模块结合地点描述符和分割掩码;设计包含语义和几何信息的LiDAR描述符;在NetVLAD中引入跨模态语义注意力机制;设计多视角语义-几何匹配和语义一致性损失函数。
  • Result: 在KITTI和KITTI-360数据集上的实验表明,SCM-PR相比其他跨模态地点识别方法取得了最先进的性能。
  • Conclusion: 通过有效融合语义信息,SCM-PR框架显著提升了在复杂环境下的跨模态地点识别能力,为解决无GPS环境下的机器人定位问题提供了有效方案。

[12] Improving 3D Gaussian Splatting Compression by Scene-Adaptive Lattice Vector Quantization

Hao Xu,Xiaolin Wu,Xi Zhang

Main category: cs.CV

TL;DR: 本文提出了一种基于场景自适应格点向量量化(SALVQ)的3D高斯泼溅压缩方法,替代传统的均匀标量量化,在保持低复杂度的同时显著提升率失真性能。

  • Motivation: 现有的3DGS压缩方法都依赖简单的均匀标量量化(USQ),但更先进的量化器可能以极小的额外开销显著改善压缩性能。
  • Method: 使用格点向量量化(LVQ)替代USQ,并为每个场景优化格点基,实现场景自适应LVQ(SALVQ),通过缩放格点基向量动态调整量化密度。
  • Result: SALVQ在向量量化的率失真效率和USQ的低复杂度之间取得平衡,可无缝集成到现有3DGS压缩架构中,显著提升性能且计算开销极小。
  • Conclusion: SALVQ方法能够用单一模型支持多比特率目标,无需为不同压缩级别训练单独模型,大幅减少训练时间和内存消耗。

[13] MINGLE: VLMs for Semantically Complex Region Detection in Urban Scenes

Liu Liu,Alexandra Kudaeva,Marco Cipriano,Fatimeh Al Ghannam,Freya Tan,Gerard de Melo,Andres Sevtsuk

Main category: cs.CV

TL;DR: 提出了MINGLE框架,通过三阶段管道检测图像中的社交群体区域,包括人员检测、VLM社交关系分类和空间聚合算法,并发布了包含10万张街景图像的新数据集。

  • Motivation: 理解公共场所的群体社交互动对城市规划至关重要,需要从图像中解读超越传统物体检测的复杂语义信号,如关系、接近度和共同运动等视觉线索。
  • Method: 提出MINGLE三阶段模块化管道:1)使用现成的人员检测和深度估计;2)基于VLM的成对社交关系分类推理;3)轻量级空间聚合算法定位社交连接群体。
  • Result: 创建了包含10万张城市街景图像的新数据集,标注了个人和社交互动群体的边界框和标签,结合人工标注和MINGLE输出,确保语义丰富性和现实场景覆盖。
  • Conclusion: MINGLE框架有效解决了社交群体区域检测任务,为理解群体社交互动提供了系统方法,相关数据集将促进该领域的未来研究。

[14] BiasMap: Leveraging Cross-Attentions to Discover and Mitigate Hidden Social Biases in Text-to-Image Generation

Rajatsubhra Chakraborty,Xujun Che,Depeng Xu,Cori Faklaris,Xi Niu,Shuhan Yuan

Main category: cs.CV

TL;DR: BiasMap是一个模型无关的框架,用于发现稳定扩散模型中的潜在概念级表征偏见,通过交叉注意力归因图揭示人口统计特征与语义概念的结构性纠缠,并提出基于能量引导扩散采样的偏见缓解方法。

  • Motivation: 现有偏见发现方法主要关注输出层面的人口统计分布,无法保证偏见缓解后概念表征的解耦。需要更深入地探索生成过程中的表征偏见,特别是概念层面的结构性纠缠问题。
  • Method: 利用交叉注意力归因图分析人口统计特征(如性别、种族)与语义概念(如职业)的空间纠缠,通过IoU量化概念纠缠程度。提出基于能量引导扩散采样的缓解方法,直接在潜在噪声空间进行修改,最小化去噪过程中的SoftIoU期望值。
  • Result: 研究发现现有公平性干预措施可能减少输出分布差距,但往往无法解耦概念级耦合。而BiasMap的缓解方法能够在图像生成中减轻概念纠缠,同时补充分布偏见的缓解。
  • Conclusion: BiasMap提供了一个新的视角来发现和缓解TTI模型中的概念级表征偏见,超越了传统的输出分布分析方法,为生成模型的公平性评估和改善提供了更深入的工具。

[15] LivePyxel: Accelerating image annotations with a Python-integrated webcam live streaming

Uriel Garcilazo-Cruz,Joseph O. Okeme,Rodrigo A. Vargas--Hernández

Main category: cs.CV

TL;DR: LivePyxel是一个基于Python的实时图像标注工具,可直接连接成像设备(如显微镜、摄像头)进行实时标注,支持贝塞尔曲线、二值掩码等专业标注功能,旨在解决科学领域AI模型部署中标注工具不灵活的问题。

  • Motivation: 现有图像标注软件大多需要用户先上传预收集的数据集,这限制了按需流水线的支持,并为图像获取增加了不必要的步骤。在实验室环境中,这种限制尤其成问题,因为从显微镜等仪器实时获取数据变得越来越普遍。
  • Method: 开发了一个基于Python的图形用户界面,与成像系统(如网络摄像头、显微镜等)集成,实现实时图像标注。软件提供简单界面,支持贝塞尔样条和二值掩码等商业图形编辑软件常用工具,使用非破坏性图层实现高性能编辑,并通过OpenCV和Numpy库优化目标检测操作。
  • Result: LivePyxel实现了与各种视频设备的广泛兼容性,能够无缝进行数据收集和标注,加速实验工作流程中AI模型的开发。
  • Conclusion: LivePyxel解决了科学领域AI模型部署中缺乏灵活标注工具的问题,通过实时图像标注功能显著提高了数据标注效率,为实验室环境中的实时数据采集和AI模型开发提供了有效解决方案。

[16] DEFT-VTON: Efficient Virtual Try-On with Consistent Generalised H-Transform

Xingzi Xu,Qi Li,Shuwen Qiu,Julien Han,Karim Bouyarmane

Main category: cs.CV

TL;DR: 本文提出了DEFT-VTON方法,通过Doob's h-transform高效微调技术,仅训练1.42%的冻结参数实现虚拟试穿,结合自适应一致性损失将推理步骤减少到15步,在保持性能的同时显著降低计算成本。

  • Motivation: 现实世界虚拟试穿应用需要有限的训练和推理预算,而现有方法依赖大型预训练模型的端到端训练,计算成本过高。
  • Method: 使用Doob's h-transform高效微调技术冻结预训练模型参数,训练小型h-transform网络学习条件变换;提出自适应一致性损失,将一致性损失和去噪分数匹配损失以数据自适应方式结合。
  • Result: DEFT-VTON在虚拟试穿任务上达到最先进性能,仅需15个去噪步骤,参数量仅为传统参数高效微调的1.42%(对比基准5.52%)。
  • Conclusion: 该方法在保持竞争性结果的同时,显著降低了训练和推理成本,为实际应用提供了高效的虚拟试穿解决方案。

[17] Adversarial Appearance Learning in Augmented Cityscapes for Pedestrian Recognition in Autonomous Driving

Artem Savkin,Thomas Lapotre,Kevin Strauss,Uzair Akbar,Federico Tombari

Main category: cs.CV

TL;DR: 使用数据增强技术生成包含VRU的自定义交通场景,通过对抗学习光照条件的新颖生成网络架构提升合成数据的真实性,在Cityscapes数据集上评估语义和实例分割任务。

  • Motivation: 自动驾驶领域需要合成数据来覆盖特定交通场景,但合成数据与真实数据之间存在领域差距。本文旨在通过数据增强生成包含弱势道路使用者(VRU)的自定义交通场景,以提高行人识别性能。
  • Method: 提出了一个数据增强流程,在Cityscapes数据集中添加虚拟行人。开发了一种新颖的生成对抗网络架构,用于对抗学习数据集的光照条件,以提高增强数据的真实性。
  • Result: 在语义分割和实例分割任务上评估了所提出的方法,验证了增强数据对行人识别性能的提升效果。
  • Conclusion: 通过对抗学习光照条件的数据增强方法能够有效减少合成数据与真实数据之间的领域差距,提高自动驾驶系统中行人识别的准确性和鲁棒性。

[18] FunKAN: Functional Kolmogorov-Arnold Network for Medical Image Enhancement and Segmentation

Maksim Penkin,Andrey Krylov

Main category: cs.CV

TL;DR: 提出了FunKAN网络,一种专门为图像处理设计的可解释神经网络框架,在医学图像增强和分割任务中表现优异

  • Motivation: 传统深度学习方法架构复杂且可解释性有限,而Kolmogorov-Arnold网络虽然可解释但会破坏图像的空间结构特征
  • Method: 基于函数空间推广Kolmogorov-Arnold表示定理,使用傅里叶分解和Hermite函数基学习内部函数
  • Result: 在IXI数据集上抑制MRI吉布斯伪影,在BUSI、GlaS、CVC-ClinicDB三个医学数据集上实现最先进的二值分割,各项指标均优于其他KAN方法
  • Conclusion: 该工作填补了理论函数逼近与医学图像分析之间的空白,为临床应用提供了鲁棒且可解释的解决方案

[19] Multimodal Hate Detection Using Dual-Stream Graph Neural Networks

Jiangbei Yue,Shuonan Yang,Tailin Chen,Jianbo Jiao,Zeyu Fu

Main category: cs.CV

TL;DR: 提出了一种新颖的多模态双流图神经网络模型,通过构建实例图和互补权重图来突出仇恨内容,在仇恨视频分类任务上达到最先进性能。

  • Motivation: 现有多模态方法通常忽视仇恨内容的决定性作用,对所有内容一视同仁而非强调仇恨成分,且无法系统捕捉视频中的结构化信息,限制了多模态融合效果。
  • Method: 构建实例图将视频分割为多个实例提取特征,通过互补权重图为这些特征分配重要性权重以突出仇恨实例,结合权重和特征生成视频标签,使用图框架系统建模模态内和跨模态的结构化关系。
  • Result: 在公共数据集上的大量实验表明,该模型在仇恨视频分类方面达到最先进水平,并具有很强的可解释性。
  • Conclusion: 提出的多模态双流图神经网络模型有效解决了现有方法的局限性,通过强调仇恨内容和系统建模结构化关系,显著提升了仇恨视频检测的性能和可解释性。

[20] ColonCrafter: A Depth Estimation Model for Colonoscopy Videos Using Diffusion Priors

Romain Hardy,Tyler Berzin,Pranav Rajpurkar

Main category: cs.CV

TL;DR: ColonCrafter是一个基于扩散模型的深度估计方法,专门用于结肠镜检查视频,能够生成时间一致的深度图,在C3VD数据集上实现了零样本最先进性能。

  • Motivation: 结肠镜三维场景理解面临重大挑战,现有深度估计模型在视频序列中缺乏时间一致性,限制了其在3D重建中的应用。
  • Method: 使用基于扩散的深度估计模型,从合成结肠镜序列学习几何先验来生成时间一致的深度图,并引入风格迁移技术将真实临床视频适配到合成训练域。
  • Result: 在C3VD数据集上实现了零样本最先进的性能,优于通用和结肠镜专用方法,展示了3D点云生成和表面覆盖评估等临床应用。
  • Conclusion: 虽然完整的轨迹3D重建仍然具有挑战性,但ColonCrafter在临床相关应用方面表现出色,为结肠镜3D场景理解提供了有效的解决方案。

[21] MemGS: Memory-Efficient Gaussian Splatting for Real-Time SLAM

Yinlong Bai,Hongxin Zhang,Sheng Zhong,Junkai Niu,Hai Li,Yijia He,Yi Zhou

Main category: cs.CV

TL;DR: 本文针对嵌入式平台的计算和内存限制,提出了两种改进3D高斯泼溅的方法:基于几何相似性的体素空间合并减少GPU内存使用,以及通过Patch-Grid点采样提高渲染质量。

  • Motivation: 当前3DGS研究主要关注高性能桌面GPU,忽视了嵌入式平台如微型飞行器的应用需求。这些设备在计算资源和内存有限的情况下,需要在系统性能和重建质量之间进行权衡。
  • Method: 1. 在SLAM中基于几何相似性在体素空间合并冗余的3D高斯基元,减少GPU内存使用而不影响系统运行时性能;2. 通过Patch-Grid点采样初始化3D高斯基元,实现更精确的场景建模。
  • Result: 在公开数据集上的定量和定性评估证明了改进的有效性,在减少GPU内存使用的同时提升了渲染质量。
  • Conclusion: 该方法成功解决了嵌入式平台在3D高斯泼溅应用中面临的内存限制问题,同时提高了渲染质量,为资源受限设备的3D重建和渲染应用提供了可行解决方案。

[22] Dynamic Aware: Adaptive Multi-Mode Out-of-Distribution Detection for Trajectory Prediction in Autonomous Vehicles

Tongfei Guo,Lili Su

Main category: cs.CV

TL;DR: 提出了一种用于自动驾驶车辆轨迹预测的自适应快速变化检测框架,通过显式建模预测误差模式,在复杂驾驶环境中实现鲁棒的OOD检测。

  • Motivation: 自动驾驶车辆在部署时面临训练数据与真实世界条件之间的分布偏移问题,现有研究主要集中在计算机视觉任务的OOD检测,轨迹级别的OOD检测研究相对不足。
  • Method: 基于快速变化检测(QCD)任务,引入自适应机制,显式建模预测误差的模式依赖性分布及其随时间演化的特性。
  • Result: 在多个真实世界数据集上的实验表明,该方法在检测延迟和误报率方面均有显著提升,在准确性和计算效率上均优于现有的UQ和基于视觉的OOD方法。
  • Conclusion: 该框架为可靠、驾驶感知的自主性提供了一条实用路径,在复杂驾驶环境中实现了鲁棒的轨迹级OOD检测。

[23] Annotating Satellite Images of Forests with Keywords from a Specialized Corpus in the Context of Change Detection

Nathalie Neptune,Josiane Mothe

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的方法,利用地球观测卫星图像对检测亚马逊雨林砍伐,并通过视觉语义模型自动生成相关标注

  • Motivation: 亚马逊雨林作为重要生态系统,砍伐对全球碳排放和生物多样性有重大影响,需要有效的监测方法
  • Method: 使用深度学习技术比较不同时间点的卫星图像对,检测森林覆盖变化,并从科学文献中提取关键词自动标注检测到的变化
  • Result: 在亚马逊图像对数据集上验证了方法的有效性,能够准确检测砍伐并生成相关标注
  • Conclusion: 该方法为监测和研究亚马逊砍伐影响提供了有用工具,虽然专注于环境应用,但具有通用性可应用于其他领域

[24] Intelligent Healthcare Imaging Platform An VLM-Based Framework for Automated Medical Image Analysis and Clinical Report Generation

Samer Al-Hamadani

Main category: cs.CV

TL;DR: 提出基于Vision-Language Models的多模态医疗影像分析框架,集成Google Gemini 2.5 Flash进行肿瘤检测和临床报告生成,支持CT、MRI、X-ray和超声等多种影像模态。

  • Motivation: 利用AI技术提升医疗影像诊断效率和准确性,解决传统诊断方法对专业医生的依赖和人工解读的主观性问题。
  • Method: 结合视觉特征提取和自然语言处理,采用坐标验证机制和概率高斯建模进行异常分布分析,使用多层可视化技术和精确提示工程。
  • Result: 在多模态异常检测中表现优异,位置测量平均偏差80像素,具备零样本学习能力,减少对大数据集的依赖。
  • Conclusion: 该框架显著提升了自动化诊断支持和放射工作流程效率,但需要进行临床验证和多中心评估才能广泛应用。

[25] A Generalization of CLAP from 3D Localization to Image Processing, A Connection With RANSAC & Hough Transforms

Ruochen Hou,Gabriel I. Fernandez,Alex Xu,Dennis W. Hong

Main category: cs.CV

TL;DR: CLAP算法从2D定位扩展到3D定位和图像拼接的通用框架,通过聚类方法处理噪声和异常值,比传统RANSAC方法更鲁棒

  • Motivation: 扩展CLAP算法的应用范围,从专门的2D定位问题推广到更广泛的3D定位和图像拼接等领域,提供处理噪声和不确定性的通用工具
  • Method: 采用聚类方法来抑制噪声和错误特征匹配,通过聚类策略替代传统的重投影误差验证方法
  • Result: 成功将CLAP算法扩展到3D定位和图像拼接应用,并建立了CLAP、RANSAC和Hough变换之间的关系
  • Conclusion: CLAP的泛化框架具有广泛适用性,能够有效处理各种领域中的噪声和不确定性问题,是一个实用的工具

[26] SAMIR, an efficient registration framework via robust feature learning from SAM

Yue He,Min Liu,Qinghao Liu,Jiazheng Wang,Yaonan Wang,Hang Zhang,Xiang Chen

Main category: cs.CV

TL;DR: SAMIR是一个利用Segment Anything Model (SAM)增强特征提取的医学图像配准框架,通过SAM的预训练编码器提取结构感知特征嵌入,结合轻量级3D头部和分层特征一致性损失,在心脏和腹部CT图像配准任务上显著优于现有方法。

  • Motivation: 医学图像配准中变形与组织形态特征密切相关,但现有的弱监督方法需要分割掩码或地标等解剖先验,这些标签往往难以获取,限制了实际应用。受视觉基础模型强大表示学习能力的启发,利用SAM的预训练特征来提升配准性能。
  • Method: 设计任务特定的适应管道,使用SAM的图像编码器提取结构感知特征嵌入;设计轻量级3D头部在嵌入空间内细化特征以适应局部变形;引入分层特征一致性损失指导从粗到细的特征匹配。
  • Result: 在心脏图像配准(ACDC)上性能提升2.68%,在腹部CT图像配准上提升6.44%,显著优于最先进方法。
  • Conclusion: SAMIR框架有效利用SAM的预训练特征表示能力,无需额外解剖标签即可实现优异的医学图像配准性能,具有很好的实用价值。

[27] Federated Learning for Deforestation Detection: A Distributed Approach with Satellite Imagery

Yuvraj Dutta,Aaditya Sikder,Basabdatta Palit

Main category: cs.CV

TL;DR: 本文提出了一种基于联邦学习的分布式方法,用于从卫星图像中识别和定位森林砍伐,保护数据隐私的同时实现多客户端协作训练。

  • Motivation: 传统集中式训练方法需要合并数据,会损害客户端数据安全。卫星图像处理需要保护各边缘中心的数据隐私,同时实现准确的森林砍伐识别。
  • Method: 使用FLOWER和RAY框架构建联邦学习系统,采用YOLOS-small、Faster R-CNN(ResNet50骨干)和Faster R-CNN(MobileNetV3骨干)三种模型,在公开数据集上进行训练和测试。
  • Result: 该方法能够有效识别和定位森林砍伐,同时保护各客户端的数据隐私和安全。
  • Conclusion: 联邦学习为卫星图像分割任务提供了新的视角,既能保持数据隐私又能实现分布式协作训练,在森林监测领域具有重要应用价值。

[28] Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction

Yumin Li,Dylan Campbell

Main category: cs.CV

TL;DR: GARPS是一个无需训练的双视图相机位姿估计框架,通过直接对齐两个独立重建的3D高斯混合模型来实现度量相对位姿估计,在Real-Estate10K数据集上优于现有方法。

  • Motivation: 传统双视图位姿估计方法无法提供度量尺度信息(相机平移只有尺度未知),且在宽基线和纹理贫乏区域表现不佳。需要一种能够提供度量尺度且对纹理贫乏区域鲁棒的方法。
  • Method: 使用度量单目深度估计器和高斯场景重建器为每张图像构建度量3D高斯混合模型(GMM),然后通过优化可微分的GMM对齐目标来细化初始位姿估计,该目标综合考虑几何结构、视角无关颜色、各向异性协方差和语义特征一致性。
  • Result: 在Real-Estate10K数据集上的大量实验表明,GARPS超越了经典方法和最先进的学习方法(包括MASt3R),实现了更好的性能。
  • Conclusion: 该方法展示了将单视图感知与多视图几何相结合来实现鲁棒度量相对位姿估计的潜力,无需显式2D对应关系即可处理遮挡和纹理贫乏区域。

[29] Deep Lookup Network

Yulan Guo,Longguang Wang,Wendong Mao,Xiaoyu Dong,Yingqian Wang,Li Liu,Wei An

Main category: cs.CV

TL;DR: 提出一种通用的查找表操作替代神经网络中的乘法运算,降低计算复杂度和能耗,在保持性能的同时提升移动设备部署效率

  • Motivation: 卷积神经网络中的乘法运算计算复杂度高、能耗大、推理时间长,阻碍了在移动设备上的部署。受资源受限边缘设备使用查找表简化计算的启发
  • Method: 引入可微分查找表操作替代权重和激活值的乘法运算,提出多种训练策略实现端到端优化,构建查找网络应用于图像分类、超分辨率和点云分类任务
  • Result: 查找网络在能耗和推理速度方面效率更高,同时保持与原始卷积网络相当的性能,在不同任务和数据类型上达到最先进水平
  • Conclusion: 查找表操作是构建高效神经网络的有效基础操作,能够在资源受限设备上实现高性能部署

[30] Re-purposing SAM into Efficient Visual Projectors for MLLM-Based Referring Image Segmentation

Xiaobo Yang,Xiaojin Gong

Main category: cs.CV

TL;DR: 提出了一种基于语义超像素的视觉投影器,通过SAM生成语义超像素作为'视觉词汇',将视觉token减少93%而不损失性能,显著加速MLLM训练和推理。

  • Motivation: 传统基于patch的视觉投影器在减少视觉token数量和保持语义清晰度之间难以平衡,往往保留过长的token序列以避免性能下降,导致计算密集。
  • Method: 利用SAM生成语义超像素作为视觉词汇,通过压缩和投影语义超像素作为视觉token;提出语义超像素位置嵌入增强MLLM对超像素几何和位置的感知;使用语义超像素聚合器保留超像素内部细节和全局上下文。
  • Result: 实验表明该方法将视觉token减少93%而不影响性能,显著加速MLLM训练和推理,在Referring Image Segmentation任务上优于现有压缩视觉投影器。
  • Conclusion: 基于语义超像素的视觉投影方法有效解决了视觉token冗余问题,在保持性能的同时大幅提升效率,为MLLM在分割任务中的应用提供了高效解决方案。

[31] FishBEV: Distortion-Resilient Bird's Eye View Segmentation with Surround-View Fisheye Cameras

Hang Li,Dianmo Sheng,Qiankun Dong,Zichun Wang,Zhiwei Xu,Tao Li

Main category: cs.CV

TL;DR: FishBEV是一个专门针对鱼眼相机设计的BEV分割框架,通过三个创新模块解决鱼眼相机的几何畸变、多视角对应模糊和时间动态不稳定问题,在Synwoodscapes数据集上超越现有最佳方法。

  • Motivation: 现有BEV分割方法主要针对针孔相机设计,难以直接应用于存在严重几何畸变、多视角对应模糊和时间动态不稳定的鱼眼相机,导致BEV性能显著下降。
  • Method: 提出FishBEV框架,包含三个核心模块:1) 抗畸变多尺度提取(DRME)主干网络,在畸变下学习鲁棒特征并保持尺度一致性;2) 不确定性感知空间交叉注意力(U-SCA)机制,利用不确定性估计实现可靠的跨视角对齐;3) 距离感知时间自注意力(D-TSA)模块,自适应平衡近场细节和远场上下文以确保时间一致性。
  • Result: 在Synwoodscapes数据集上的大量实验表明,FishBEV在环视鱼眼BEV分割任务上持续优于最先进的基线方法。
  • Conclusion: FishBEV通过专门针对鱼眼相机特性设计的三个互补创新模块,有效解决了鱼眼相机BEV分割中的关键挑战,为自动驾驶领域的鱼眼相机应用提供了强有力的技术解决方案。

[32] Taylor-Series Expanded Kolmogorov-Arnold Network for Medical Imaging Classification

Kaniz Fatema,Emad A. Mohammed,Sukhjit Singh Sehra

Main category: cs.CV

TL;DR: 该研究提出了基于样条的Kolmogorov-Arnold网络(KANs)用于医学图像分类,包括SBTAYLOR-KAN、SBRBF-KAN和SBWAVELET-KAN三种变体,在有限数据集上实现了高精度分类,且参数量远少于传统CNN模型。

  • Motivation: 解决在资源有限的临床环境中,医学图像分类的准确性和可解释性问题,特别是在数据集有限且多样的情况下。
  • Method: 开发了三种基于样条的KAN模型:SBTAYLOR-KAN(B样条与泰勒级数结合)、SBRBF-KAN(B样条与径向基函数结合)、SBWAVELET-KAN(B样条与Morlet小波变换结合),利用样条基函数逼近来捕捉局部和全局非线性特征。
  • Result: SBTAYLOR-KAN在多个医学图像数据集上达到98.93%的准确率,仅使用30%训练数据仍保持86%以上准确率,参数量仅2872个(相比ResNet50的2418万参数),在类别不平衡的皮肤癌数据集上达到68.22%准确率。
  • Conclusion: 该框架为医学图像分类提供了轻量级、可解释且泛化能力强的解决方案,特别适合数据稀缺的临床AI应用场景。

[33] StyleProtect: Safeguarding Artistic Identity in Fine-tuned Diffusion Models

Qiuyu Tang,Joshua Krinsky,Aparna Bharati

Main category: cs.CV

TL;DR: 论文提出StyleProtect方法,通过选择性更新交叉注意力层来保护艺术作品风格免受恶意扩散模型模仿,在保持不可感知性的同时有效防御风格复制。

  • Motivation: 生成模型特别是扩散模型的快速发展使得恶意使用者能够廉价复制艺术家的独特风格,这损害了艺术家的创作劳动和个人视野,因此需要探索保护艺术作品免受风格模仿的方法。
  • Method: 研究发现某些交叉注意力层对艺术风格特别敏感,基于此提出StyleProtect方法,通过仅更新选定的交叉注意力层来实现轻量级风格保护,使用WikiArt和Anita数据集进行实验验证。
  • Result: 实验证明该方法在保护艺术作品和动漫独特风格方面表现优异,能有效防御经过微调的扩散模型定制攻击,同时保持竞争力的不可感知性。
  • Conclusion: StyleProtect提供了一种高效轻量的解决方案,能够有效保护艺术作品的独特风格免受恶意扩散模型的模仿,为解决生成模型滥用问题提供了实用方法。

[34] UM-Depth : Uncertainty Masked Self-Supervised Monocular Depth Estimation with Visual Odometry

Tae-Wook Um,Ki-Hyeon Kim,Hyun-Duck Choi,Hyo-Sung Ahn

Main category: cs.CV

TL;DR: UM-Depth是一个自监督单目深度估计框架,通过运动感知和不确定性感知的细化来提高动态物体边界和无纹理区域的深度估计精度,无需额外标注和推理时开销。

  • Motivation: 现有的自监督单目深度估计方法在处理低纹理区域和动态区域时存在不确定性挑战,导致深度精度下降,需要一种能够有效处理这些不确定性并提高精度的解决方案。
  • Method: 提出UM-Depth框架,采用师生训练策略,将不确定性估计嵌入训练流程和网络架构中,仅在教师网络训练时使用光流,无需额外标注和运行时开销。
  • Result: 在KITTI和Cityscapes数据集上的广泛实验表明,该方法在不确定性感知细化方面有效,在KITTI数据集上实现了自监督深度和姿态估计的最先进结果。
  • Conclusion: UM-Depth通过结合运动感知和不确定性感知的细化,成功提高了自监督单目深度估计在挑战性区域的精度,同时避免了推理时的额外计算开销。

[35] Mitigating Query Selection Bias in Referring Video Object Segmentation

Dingwei Zhang,Dong Zhang,Jinhui Tang

Main category: cs.CV

TL;DR: 本文提出Triple Query Former (TQF)方法,通过将查询分解为外观、帧内交互和帧间运动三个专门组件,解决基于查询的Referring Video Object Segmentation中查询选择偏差问题。

  • Motivation: 现有的基于查询的RVOS方法使用静态文本查询进行跨模态对齐,但容易被外观或运动相似的干扰物误导,导致查询选择偏差问题。
  • Method: TQF将参考查询分解为三个专门组件:外观查询(静态属性)、帧内交互查询(空间关系)和帧间运动查询(时间关联)。查询动态构建,结合语言线索和视觉指导。引入两个运动感知聚合模块:帧内交互聚合和帧间运动聚合。
  • Result: 在多个RVOS基准测试上的广泛实验证明了TQF的优势,以及结构化查询设计和运动感知聚合模块的有效性。
  • Conclusion: 通过将查询分解为专门组件并引入运动感知聚合,TQF有效解决了查询选择偏差问题,在Referring Video Object Segmentation任务中取得了优异性能。

[36] Improving Generalized Visual Grounding with Instance-aware Joint Learning

Ming Dai,Wenxuan Cheng,Jiang-Jiang Liu,Lingfeng Yang,Zhenhua Feng,Wankou Yang,Jingdong Wang

Main category: cs.CV

TL;DR: InstanceVG是一个多任务通用视觉定位框架,首次同时处理GREC和GRES任务,通过实例查询统一实例级边界框和掩码的联合一致性预测,在多个数据集上达到最先进性能。

  • Motivation: 现有方法通常将GREC和GRES任务独立处理,忽视了联合训练的优势,且当前GRES方法缺乏实例感知能力,无法保证实例级边界框和掩码预测的一致性。
  • Method: 提出InstanceVG框架,使用实例查询统一实例级边界框和掩码的联合一致性预测,为每个实例查询分配先验参考点,作为目标匹配的额外基础,实现同一实例的点、框、掩码一致性预测。
  • Result: 在10个数据集上的4个任务的广泛实验表明,InstanceVG实现了最先进的性能,在各种评估指标上显著超越现有方法。
  • Conclusion: InstanceVG是第一个同时处理GREC和GRES任务并融入实例感知能力的通用视觉定位框架,通过实例查询机制有效解决了多粒度预测一致性问题,取得了优异性能。

[37] Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval

Hao Yin,Xin Man,Feiyu Chen,Jie Shao,Heng Tao Shen

Main category: cs.CV

TL;DR: FMFA是一个跨模态全模式细粒度对齐框架,通过显式细粒度对齐和隐式关系推理增强文本-图像人员检索的全局匹配性能,无需额外监督。

  • Motivation: 解决文本-图像人员检索中跨模态对齐的挑战,现有方法缺乏验证局部特征是否正确对齐的能力,且主要关注困难负样本而忽略错误匹配的正样本对。
  • Method: 提出自适应相似度分布匹配模块(A-SDM)来修正未匹配的正样本对,以及显式细粒度对齐模块(EFA)通过稀疏化相似度矩阵和硬编码方法增强显式跨模态细粒度交互。
  • Result: 在三个公开数据集上实现了最先进的性能,在所有全局匹配方法中表现最佳。
  • Conclusion: FMFA框架通过全模式对齐策略有效解决了跨模态匹配中的对齐验证问题,显著提升了文本-图像人员检索的准确性。

[38] Controllable-Continuous Color Editing in Diffusion Model via Color Mapping

Yuqi Yang,Dongliang Chang,Yuanchen Fang,Yi-Zhe SonG,Zhanyu Ma,Jun Guo

Main category: cs.CV

TL;DR: 提出颜色映射模块解决文本驱动图像编辑中颜色控制不精确的问题,通过建立文本嵌入空间与RGB值的对应关系,实现精确连续的颜色编辑控制。

  • Motivation: 自然语言的模糊性和离散性导致文本驱动的图像颜色编辑存在精度不足和难以连续控制的问题,现有方法缺乏对颜色变化范围的精确控制。
  • Method: 引入颜色映射模块,显式建模文本嵌入空间与图像RGB值的对应关系,基于给定RGB值预测对应的嵌入向量,实现精确的颜色控制和语义一致性保持。
  • Result: 实验结果表明,该方法在颜色连续性和可控性方面表现良好,用户可指定目标RGB范围生成连续颜色变化的图像。
  • Conclusion: 该方法实现了更细粒度、连续且可控的颜色编辑,解决了文本驱动图像颜色编辑中的关键挑战。

[39] Iterative Prompt Refinement for Safer Text-to-Image Generation

Jinwoo Jeon,JunHyeok Oh,Hayeong Lee,Byung-Jun Lee

Main category: cs.CV

TL;DR: 提出基于视觉反馈的迭代提示词优化算法,使用视觉语言模型分析文本提示和生成图像,在保持用户意图的同时提高文本到图像生成的安全性

  • Motivation: 现有基于LLM的安全方法只关注文本提示而忽略生成图像,可能导致不安全输出或对安全提示的不必要修改
  • Method: 迭代提示词优化算法,利用视觉语言模型分析输入提示和生成图像,通过视觉反馈更有效地优化提示词
  • Result: 实验结果表明该方法在不损害用户意图对齐的情况下产生更安全的输出,安全性可与现有LLM方法相媲美
  • Conclusion: 该方法为生成更安全的文本到图像内容提供了实用解决方案,并引入了包含文本和视觉安全信号的新数据集

[40] Task-Aware Image Signal Processor for Advanced Visual Perception

Kai Chen,Jin Xiao,Leheng Zhang,Kexuan Shi,Shuhang Gu

Main category: cs.CV

TL;DR: 提出了Task-Aware Image Signal Processing (TA-ISP)框架,通过轻量级的多尺度调制算子替代传统密集卷积网络,为预训练视觉模型生成面向任务的表示,在减少计算开销的同时提升RAW数据的感知任务性能。

  • Motivation: 现有RAW数据处理方法面临两大限制:大规模ISP网络计算开销大,基于传统ISP流水线调优的方法表示能力有限。需要一种既能保持高性能又适合资源受限设备的解决方案。
  • Method: 提出TA-ISP框架,预测一组轻量级的多尺度调制算子(全局、区域、像素尺度),通过因子化控制重塑不同空间范围的图像统计信息,替代传统的密集卷积流水线。
  • Result: 在多个RAW域检测和分割基准测试中(白天和夜间条件),TA-ISP持续提升下游任务精度,同时显著减少参数数量和推理时间。
  • Conclusion: TA-ISP框架通过轻量级多尺度调制实现了高效的任务导向RAW数据处理,适合在资源受限设备上部署,为RAW数据在视觉感知任务中的应用提供了实用解决方案。

[41] NDLPNet: A Location-Aware Nighttime Deraining Network and a Real-World Benchmark Dataset

Huichun Liu,Xiaosong Li,Yang Liu,Xiaoqi Cheng,Haishu Tan

Main category: cs.CV

TL;DR: 提出NDLPNet网络解决夜间图像去雨问题,通过位置感知模块捕获雨纹空间信息,在低光照条件下有效去除雨纹并保留背景信息,构建了真实夜间雨景数据集NSR,实验表明优于现有方法。

  • Motivation: 现有图像去雨技术主要针对白天条件,在夜间光照条件下性能不佳,因为雨纹分布的空间异质性和光照依赖的条纹可见性影响夜间监控和自动驾驶导航的性能。
  • Method: 提出夜间去雨位置增强感知网络(NDLPNet),包含位置感知模块(PPM)来捕获空间上下文信息,增强模型识别和重新校准不同特征通道重要性的能力。
  • Result: 在现有数据集和新建的NSR数据集上进行广泛实验,定性和定量评估均表明该方法在夜间去雨任务中优于最先进方法。
  • Conclusion: NDLPNet能有效去除夜间雨纹同时保留关键背景信息,构建的NSR数据集为夜间去雨研究提供了新基准,该方法在低光照条件下表现出色。

[42] VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Daiqi Liu,Tomás Arias-Vergara,Johannes Enk,Fangxu Xing,Maureen Stone,Jerry L. Prince,Jana Hutter,Andreas Maier,Jonghye Woo,Paula Andrea Pérez-Toro

Main category: cs.CV

TL;DR: VocSegMRI是一个多模态框架,通过跨注意力融合视频、音频和语音学输入来提升实时MRI中发音结构分割的准确性,即使推理时缺少音频模态也能保持良好性能。

  • Motivation: 现有方法主要依赖视觉线索,但同步的声学和语音学信号能提供互补上下文信息,丰富视觉信息并提高分割精度。
  • Method: 引入跨注意力融合机制整合视频、音频和语音学输入,并采用对比学习目标来增强跨模态表示,即使在推理时音频不可用也能保持性能。
  • Result: 在USC-75 rtMRI数据集子集上达到最先进性能:Dice分数0.95,95百分位Hausdorff距离4.20mm,优于单模态和多模态基线。
  • Conclusion: 消融研究证实了跨注意力和对比学习对分割精度和鲁棒性的贡献,凸显了集成多模态建模在准确声道分析中的价值。

[43] Generative Image Coding with Diffusion Prior

Jianhui Chang

Main category: cs.CV

TL;DR: 提出基于扩散先验的生成式编码框架,在低码率下通过预训练扩散模型提升压缩性能,在视觉保真度和压缩效率方面显著优于传统方法

  • Motivation: 随着生成技术的发展,视觉内容变得复杂多样,传统编解码器和学习方法难以在高压缩比下保持主观质量,现有生成方法在视觉保真度和泛化性方面存在挑战
  • Method: 使用预优化编码器生成广义压缩域表示,通过轻量级适配器和注意力融合模块与预训练模型内部特征集成,引入分布重归一化方法提升重建保真度
  • Result: 方法在低码率下视觉保真度优于现有方法,压缩性能比H.266/VVC提升高达79%,为AI生成内容提供高效解决方案且可适应更广泛内容类型
  • Conclusion: 该框架有效利用现有预训练扩散模型,能以最小重训练成本适应不同预训练模型,为低码率下的高质量视觉压缩提供了有效解决方案

[44] AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving

Yuechen Luo,Fang Li,Shaoqing Xu,Zhiyi Lai,Lei Yang,Qimao Chen,Ziang Luo,Zixun Xie,Shengyin Jiang,Jiaxin Liu,Long Chen,Bing Wang,Zhi-xin Yang

Main category: cs.CV

TL;DR: AdaThinkDrive是一个新颖的视觉语言动作框架,采用双模式推理机制(快速回答和慢速思考),通过自适应选择推理模式来平衡自动驾驶决策的准确性和效率。

  • Motivation: 现有的CoT推理技术在简单场景中表现不佳,引入不必要的计算开销而未能提升决策质量,需要一种能够自适应选择推理模式的解决方案。
  • Method: 提出双模式推理机制,预训练阶段使用问答和轨迹数据集获取世界知识和驾驶常识,监督微调阶段引入快速回答(无CoT)和慢速思考(有CoT)两种模式的数据集,结合自适应思考奖励策略和GRPO算法。
  • Result: 在Navsim基准测试中达到90.3的PDMS分数,比最佳纯视觉基线提升1.7分,比始终思考基线减少14%推理时间,在准确性和效率之间取得良好平衡。
  • Conclusion: AdaThinkDrive通过自适应推理机制有效解决了CoT在简单场景中的效率问题,在保持决策质量的同时显著提升了推理效率,为自动驾驶VLA模型提供了新的解决方案。

[45] Morphology-optimized Multi-Scale Fusion: Combining Local Artifacts and Mesoscopic Semantics for Deepfake Detection and Localization

Chao Shuai,Gaojian Wang,Kun Pan,Tong Wu,Fanli Jin,Haohan Tan,Mengxiang Li,Zhenguang Liu,Feng Lin,Kui Ren

Main category: cs.CV

TL;DR: 提出了一种新的深度伪造区域定位方法,通过独立使用局部和全局视角预测篡改区域,并采用形态学操作融合输出,有效抑制噪声并增强空间一致性。

  • Motivation: 虽然深度伪造检测追求更高准确率,但精确定位篡改区域的需求日益增长。现有方法往往忽视局部细节和全局语义上下文的互补性,且融合策略不完善,导致定位性能不佳。
  • Method: 独立使用局部和全局视角预测篡改区域,采用形态学操作融合两个分支的输出,抑制噪声并增强空间连贯性。
  • Result: 大量实验证明每个模块都能有效提高伪造定位的准确性和鲁棒性。
  • Conclusion: 该方法通过有效的局部-全局融合策略,显著提升了深度伪造区域定位的性能。

[46] CETUS: Causal Event-Driven Temporal Modeling With Unified Variable-Rate Scheduling

Hanfang Liang,Bing Wang,Shizhen Zhang,Wen Jiang,Yizhuo Yang,Weixiang Guo,Shenghai Yuan

Main category: cs.CV

TL;DR: 提出Variable-Rate Spatial Event Mamba架构,直接处理原始事件流,无需中间表示,通过自适应速率控制实现低延迟和高效率

  • Motivation: 现有事件相机处理方法需要预定义时间窗口引入窗口延迟,点检测方法计算成本高无法实时,需要克服这些限制
  • Method: 使用轻量级因果空间邻域编码器捕获局部几何关系,Mamba状态空间模型进行线性复杂度的时序建模,推理时控制器根据事件率自适应调整处理速度
  • Result: 实现了窗口延迟和推理延迟之间的最优平衡,能够直接处理原始事件流
  • Conclusion: 该方法有效解决了事件处理中的延迟和计算效率问题,为高速视觉任务提供了新的解决方案

[47] BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Hanshuai Cui,Zhiqing Tang,Zhifei Xu,Zhi Yao,Wenyi Zeng,Weijia Jia

Main category: cs.CV

TL;DR: BWCache是一种无需训练的方法,通过动态缓存和重用DiT块特征来加速基于扩散变换器的视频生成,在保持视觉质量的同时实现最高2.24倍加速。

  • Motivation: 现有的扩散变换器(DiT)视频生成方法存在不可避免的延迟问题,限制了实际应用。现有加速方法要么因架构修改而牺牲视觉质量,要么无法在适当粒度上重用中间特征。
  • Method: 提出Block-Wise Caching (BWCache)方法,分析发现DiT块是推理延迟的主要贡献者,特征变化呈现U形模式。通过相似性指示器动态触发特征重用,仅在相邻时间步块特征差异低于阈值时重用特征。
  • Result: 在多个视频扩散模型上的广泛实验表明,BWCache实现了最高2.24倍的加速,同时保持可比的视觉质量。
  • Conclusion: BWCache是一种有效的训练免费加速方法,通过智能特征重用显著减少计算冗余,为实时视频生成应用提供了实用解决方案。

[48] Bridging the Synthetic-Real Gap: Supervised Domain Adaptation for Robust Spacecraft 6-DoF Pose Estimation

Inder Pal Singh,Nidhal Eddine Chenni,Abd El Rahman Shabayek,Arunkumar Rathinam,Djamila Aouada

Main category: cs.CV

TL;DR: 提出了首个针对航天器姿态估计关键点回归的监督域适应框架,通过联合优化域不变表示和任务特定风险,显著减少域偏移下的泛化误差。

  • Motivation: 解决航天器姿态估计中合成数据到真实数据的域适应问题,现有无监督方法在少量标注目标数据可用时表现不佳。
  • Method: 基于学习不变表示和风险(LIRR)范式,联合使用标注的合成数据和有限的标注真实数据,优化域不变表示和任务特定风险。
  • Result: 在SPEED+基准测试中一致优于源域训练、微调和oracle基线,仅用5%标注目标数据即可达到或超过使用更多标注数据的oracle性能。
  • Conclusion: 该框架轻量级、主干网络无关且计算高效,为现实空间环境中稳健可部署的航天器姿态估计提供了实用途径。

[49] SWA-PF: Semantic-Weighted Adaptive Particle Filter for Memory-Efficient 4-DoF UAV Localization in GNSS-Denied Environments

Jiayu Yuan,Ming Dai,Enhui Zheng,Chao Su,Nanxing Chen,Qiming Hu,Shibo Zhu,Yibin Cao

Main category: cs.CV

TL;DR: 提出了一种基于语义加权自适应粒子滤波的无人机视觉定位方法,在GNSS拒止环境下实现了高效准确的定位,定位误差低于10米,计算效率提升10倍。

  • Motivation: 解决现有检索式无人机定位方法在数据集可用性、实时性能、环境敏感性和泛化能力方面的局限性,特别是在动态或时变环境中的挑战。
  • Method: 提出了大规模多高度飞行段数据集(MAFS)和语义加权自适应粒子滤波(SWA-PF)方法,通过语义加权机制和优化的粒子滤波架构,整合无人机图像和卫星图像的鲁棒语义特征。
  • Result: 在提出的数据集上评估,方法实现了10倍的计算效率提升,全局定位误差保持在10米以下,能够在几秒内使用低分辨率卫星地图快速完成4自由度位姿估计。
  • Conclusion: 该方法为GNSS拒止环境下的无人机定位提供了有效的解决方案,具有高计算效率和准确性的优势,代码和数据集将开源。

[50] Masked Feature Modeling Enhances Adaptive Segmentation

Wenlve Zhou,Zhiheng Zhou,Tiantao Xian,Yikui Zhai,Weibin Wu,Biyun Ma

Main category: cs.CV

TL;DR: 提出Masked Feature Modeling (MFM)作为无监督域自适应语义分割的辅助任务,通过在特征空间进行掩码和重建,与主分割任务对齐,无需修改推理架构。

  • Motivation: 现有掩码建模方法在无监督域自适应语义分割中存在架构不兼容和优化目标不一致的问题,需要一种与主分割任务对齐的辅助学习方法。
  • Method: MFM在特征空间进行掩码和重建,引入轻量级Rebuilder模块进行联合训练但推理时丢弃,利用分割解码器对重建特征进行分类,确保辅助目标与像素级预测任务紧密耦合。
  • Result: 在多种架构和UDA基准测试中,MFM一致提升了分割性能,证明了其有效性。
  • Conclusion: MFM为无监督域自适应语义分割提供了一种简单、高效且通用的策略,通过特征级掩码建模有效提升模型性能。

[51] Data-Efficient Spectral Classification of Hyperspectral Data Using MiniROCKET and HDC-MiniROCKET

Nick Theisen,Kenny Schlegel,Dietrich Paulus,Peer Neubert

Main category: cs.CV

TL;DR: 本文探讨了在训练数据有限的情况下,使用MiniROCKET和HDC-MiniROCKET进行高光谱图像光谱分类,相比当前最先进的1D-Justo-LiuNet模型具有更好的性能表现。

  • Motivation: 虽然1D-Justo-LiuNet是目前光谱分类的最先进模型,但在训练数据有限时性能会下降。需要寻找对有限数据更具鲁棒性的替代方法。
  • Method: 研究使用MiniROCKET和HDC-MiniROCKET模型进行光谱分类,这些模型在特征提取部分没有可训练参数,通过精心设计的特征提取来应对有限训练数据的问题。
  • Result: MiniROCKET在有限数据场景下优于1D-Justo-LiuNet,在一般情况下性能相当,尽管参数更多但对有限数据更具鲁棒性。
  • Conclusion: MiniROCKET系列模型是光谱分类的有效替代方案,特别是在训练数据有限的情况下,能够提供更稳定的性能表现。

[52] Semi-MoE: Mixture-of-Experts meets Semi-Supervised Histopathology Segmentation

Nguyen Lan Vi Vu,Thanh-Huy Nguyen,Thien Nguyen,Daisuke Kihara,Tianyang Wang,Xingjian Li,Min Xu

Main category: cs.CV

TL;DR: Semi-MOE是首个用于半监督组织病理学图像分割的多任务Mixture-of-Experts框架,通过三个专家网络和动态伪标签机制,在低标签设置下优于现有方法。

  • Motivation: 现有的半监督学习方法在处理组织病理学图像分割时,由于腺体边界模糊和形态学误分类问题,难以处理噪声伪标签,需要更鲁棒的解决方案。
  • Method: 采用多任务Mixture-of-Experts框架,包含三个专家网络:主要分割专家、符号距离场回归专家和边界预测专家,通过多门控伪标签模块动态聚合专家特征,并提出自适应多目标损失函数。
  • Result: 在GlaS和CRAG基准测试上的广泛实验表明,该方法在低标签设置下优于最先进的方法。
  • Conclusion: 该方法展示了基于MoE的架构在推进半监督分割方面的潜力,为处理组织病理学图像中的噪声伪标签问题提供了有效解决方案。

[53] Diving into Mitigating Hallucinations from a Vision Perspective for Large Vision-Language Models

Weihang Wang,Xinhao Li,Ziyue Wang,Yan Pang,Jielei Zhang,Peiyi Li,Qiang Zhang,Longwen Gao

Main category: cs.CV

TL;DR: 该论文提出了VHBench-10基准测试来评估大型视觉语言模型在不同视觉编码器下的幻觉表现,并提出了VisionWeaver上下文感知路由网络来减少幻觉问题。

  • Motivation: 大型视觉语言模型中的物体幻觉问题严重阻碍了其实际应用,不同视觉编码器由于训练范式的差异会产生不同的归纳偏差,从而导致不同的幻觉表现。现有基准测试无法捕捉这种细粒度的幻觉差异。
  • Method: 1) 构建VHBench-10基准测试,包含约10,000个样本,覆盖10个细粒度幻觉类别;2) 提出VisionWeaver上下文感知路由网络,使用全局视觉特征生成路由信号,动态聚合多个专家模型的视觉特征。
  • Result: 评估证实不同编码器确实表现出独特的幻觉特征。VisionWeaver在显著减少幻觉和提高整体模型性能方面表现出有效性。
  • Conclusion: 视觉编码器的选择对LVLMs的幻觉表现有重要影响,提出的VisionWeaver方法通过动态特征聚合有效缓解了幻觉问题,为改进大型视觉语言模型的可靠性提供了新思路。

[54] Consistent View Alignment Improves Foundation Models for 3D Medical Image Segmentation

Puru Vaish,Felix Meister,Tobias Heimann,Christoph Brune,Jelmer M. Wolterink

Main category: cs.CV

TL;DR: 本文挑战了表示学习中视图间不相关性假设,提出显式对齐不同视图表示的方法来学习有意义的潜在空间结构,在自监督学习中取得了优异性能

  • Motivation: 现有表示学习方法隐含假设数据点的不相关视图足以学习有意义的表示,但作者发现潜在空间的有意义结构不会自然出现,需要显式诱导
  • Method: 提出Consistent View Alignment方法,对齐数据不同视图的表示来整合互补信息,同时避免产生假阳性
  • Result: 方法在MICCAI 2025 SSL3D挑战赛中获得第一名和第二名,使用Primus vision transformer和ResEnc CNN分别取得优异性能
  • Conclusion: 结构化视图对齐在学习有效表示中起着关键作用,显式对齐不同视图的表示能显著提升下游任务性能

[55] SpecDiff: Accelerating Diffusion Model Inference with Self-Speculation

Jiayi Pan,Jiaming Xu,Yongkang Zhou,Guohao Dai

Main category: cs.CV

TL;DR: SpecDiff是一种基于自推测信息的训练免费多级特征缓存策略,通过引入未来信息来克服现有特征缓存方法仅依赖历史信息的局限性,在扩散模型推理中实现了显著的加速效果和准确度提升。

  • Motivation: 现有特征缓存方法仅依赖历史信息,导致准确性和速度性能受限。本文从信息利用角度分析,提出需要引入未来信息来突破速度-准确度权衡的瓶颈。
  • Method: 提出自推测范式,基于不同迭代次数下相同时步的信息相似性引入未来信息。包括:(1)基于自推测信息和历史信息的动态重要性评分特征选择算法;(2)基于特征重要性评分差异的多级特征分类算法。
  • Result: 在Stable Diffusion 3、3.5和FLUX上分别实现平均2.80×、2.74×和3.17×的加速,质量损失可忽略,相比RFlow在NVIDIA A800-80GB GPU上有显著提升。
  • Conclusion: 通过融合推测信息和历史信息,SpecDiff突破了速度-准确度权衡的瓶颈,推动了高效扩散模型推理中速度与准确度的帕累托前沿。

[56] EDITS: Enhancing Dataset Distillation with Implicit Textual Semantics

Qianxin Xia,Jiawei Du,Guoming Lu,Zhiyong Shu,Jielei Wang

Main category: cs.CV

TL;DR: EDITS是一个新的数据集蒸馏框架,利用视觉语言模型提取图像中的文本语义信息,通过全局语义查询和局部语义感知构建图像和文本原型,最终使用扩散模型生成合成数据集。

  • Motivation: 传统数据集蒸馏方法主要关注低层视觉特征,忽略了图像中的高层语义和结构信息,导致蒸馏效果受限。
  • Method: 使用VLM生成外部文本并与图像特征融合,构建先验聚类缓冲区;通过局部语义感知选择代表性样本构建图像和文本原型;利用精心设计的提示词指导LLM生成文本原型;最后通过扩散模型生成最终合成数据集。
  • Result: 大量实验证实了该方法的有效性,在保持竞争力的模型性能的同时实现了高效学习。
  • Conclusion: EDITS通过利用图像中的隐式文本语义信息,显著提升了数据集蒸馏的效果,为高效学习提供了新的解决方案。

[57] LamiGauss: Pitching Radiative Gaussian for Sparse-View X-ray Laminography Reconstruction

Chu Chen,Ander Biguri,Jean-Michel Morel,Raymond H. Chan,Carola-Bibiane Schönlieb,Jizhou Li

Main category: cs.CV

TL;DR: LamiGauss是一种基于高斯溅射辐射光栅化的X射线计算机层析成像重建算法,专门针对稀疏视图条件下的板状结构检测,通过创新的初始化策略和专用变换模型有效去除伪影,仅需3%的完整视图即可实现高质量重建。

  • Motivation: 传统CT在板状结构(如微芯片和复合电池材料)的非破坏性检测中存在几何限制,而稀疏视图条件下的层析成像重建质量仍然具有挑战性,需要开发更有效的重建算法。
  • Method: 结合高斯溅射辐射光栅化与包含层析倾斜角的专用探测器到世界变换模型,采用初始化策略显式过滤初步重建中的常见层析伪影,防止冗余高斯分布分配到虚假结构,直接从稀疏投影优化。
  • Result: 在合成和真实数据集上的大量实验表明,该方法仅使用3%的完整视图就能达到优于在完整数据集上优化的迭代方法的性能,实现了准确高效的重建。
  • Conclusion: LamiGauss算法通过创新的高斯溅射方法和专用变换模型,有效解决了稀疏视图层析成像重建的挑战,在有限数据条件下实现了高质量的重建效果,优于现有技术。

[58] Distractor-Aware Memory-Based Visual Object Tracking

Jovana Videnovic,Matej Kristan,Alan Lukezic

Main category: cs.CV

TL;DR: DAM4SAM是一个针对SAM2的干扰物感知内存模块,通过改进内存管理和自省机制,有效减少跟踪漂移并提升遮挡后重检测能力,在多个基准测试中达到SOTA性能。

  • Motivation: 现有的基于内存的视频分割方法(如SAM2)在分割任务中表现优异,但在视觉目标跟踪中面对视觉相似干扰物时存在挑战,需要专门针对干扰物问题的解决方案。
  • Method: 提出了干扰物感知的即插即用内存模块和基于自省的内存管理方法,构建了DiDi干扰物蒸馏数据集用于分析,并将该模块集成到不同跟踪器架构中。
  • Result: 在13个基准测试中超越SAM2.1,在10个测试中达到新的SOTA;集成到实时跟踪器EfficientTAM中提升11%性能,与EdgeTAM集成提升4%,展现出良好的架构泛化能力。
  • Conclusion: DAM4SAM通过专门的干扰物感知内存设计,显著提升了目标跟踪在干扰物环境下的性能,证明了该方法在不同跟踪架构中的有效性和通用性。

[59] Invisible Yet Detected: PelFANet with Attention-Guided Anatomical Fusion for Pelvic Fracture Diagnosis

Siam Tahsin Bhuiyan,Rashedur Rahman,Sefatul Wasi,Naomi Yagi,Syoji Kobashi,Ashraful Islam,Saadia Binte Alam

Main category: cs.CV

TL;DR: PelFANet是一种双流注意力网络,通过融合原始骨盆X光片和分割骨图像来改善骨折分类,在可见和不可见骨折检测中均表现出优异性能

  • Motivation: 骨盆骨折在标准X光片上往往难以诊断,特别是当骨折迹象细微或不可见时,需要开发更准确的检测方法
  • Method: 采用双流注意力网络结构,使用融合注意力块(FABlocks)迭代交换和精炼来自原始X光和分割骨图像的特征,采用两阶段分割引导的训练流程
  • Result: 在AMERI数据集上,可见骨折检测准确率达88.68%,AUC为0.9334;不可见骨折检测准确率达82.29%,AUC为0.8688,尽管未在不可见骨折数据上训练
  • Conclusion: 解剖结构感知的双输入架构在骨折检测方面具有重要临床潜力,特别是在放射学表现细微的情况下表现出鲁棒性

[60] EvHand-FPV: Efficient Event-Based 3D Hand Tracking from First-Person View

Zhen Xu,Guorui Lu,Chang Gao,Qinyu Chen

Main category: cs.CV

TL;DR: EvHand-FPV是一个轻量级单事件相机第一人称视角3D手部追踪框架,通过手腕ROI定位、端到端映射和多任务学习策略,在保持高精度的同时大幅降低了计算开销和参数数量。

  • Motivation: 传统帧式方法在精度、延迟和能效方面难以满足XR设备的需求,事件相机具有微秒级时间分辨率和毫瓦级功耗优势,但缺乏第一人称视角的基准数据集。
  • Method: 构建事件相机FPV数据集(合成3D标签+真实2D标签),引入手腕ROI几何定位、端到端映射嵌入ROI偏移减少计算,多任务学习辅助几何特征头提升表征能力。
  • Result: 在真实FPV测试集上,2D-AUCp从0.77提升到0.85,参数减少89%(11.2M→1.2M),计算量减少89%(1.648G→0.185G FLOPs),合成数据上保持0.84的3D-AUCp。
  • Conclusion: EvHand-FPV实现了准确高效的基于事件相机的第一人称手部追踪,适合XR设备的端侧部署,数据集和代码已开源。

[61] White Aggregation and Restoration for Few-shot 3D Point Cloud Semantic Segmentation

Jiyun Im,SuBeen Lee,Miso Lee,Jae-Pil Heo

Main category: cs.CV

TL;DR: 本文提出WARM模块,通过白化和染色变换改进注意力机制,解决少样本3D点云分割中可学习原型标记与支持特征之间的分布差异问题,在多个基准测试中取得显著性能提升。

  • Motivation: 现有少样本3D点云分割方法使用传统算法(如最远点采样)构建原型,其初始随机性严重影响性能,且原型生成过程研究不足。注意力机制虽具潜力,但存在可学习原型标记与支持特征之间的分布差异问题。
  • Method: 提出White Aggregation and Restoration Module (WARM),在交叉注意力前后分别进行白化和染色变换:白化将支持特征与原型标记对齐,染色将注意力后的标记恢复原始分布,从而实现鲁棒的注意力并生成代表性原型。
  • Result: 在多个少样本3D点云分割基准测试中取得了最先进的性能,且优势显著,通过大量实验证明了方法的有效性。
  • Conclusion: WARM模块通过简单的白化-注意力-染色设计有效解决了分布差异问题,能够捕获支持特征间的语义关系,生成更具代表性的原型,显著提升了少样本3D点云分割的性能。

[62] Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration

Yuanchen Wu,Ke Yan,Shouhong Ding,Ziyin Zhou,Xiaoqiang Li

Main category: cs.CV

TL;DR: SRC框架通过迭代校准理性与答案的对齐,显著提升大型视觉语言模型的感知、推理和泛化能力

  • Motivation: 大型视觉语言模型在视觉问答中存在理性与生成答案不一致的问题,导致推理不一致和错误响应
  • Method: 采用轻量级"理性微调"方法修改模型响应格式,使用R-Scorer评分模型评估候选响应,通过置信度加权的偏好选择过程进行对齐校准
  • Result: 在多个基准测试中显著提升了模型的感知、推理和泛化能力
  • Conclusion: 理性导向的对齐方法对于挖掘大型视觉语言模型的潜力至关重要

[63] Towards Robust Defense against Customization via Protective Perturbation Resistant to Diffusion-based Purification

Wenkui Yang,Jie Cao,Junxian Duan,Ran He

Main category: cs.CV

TL;DR: 提出了AntiPure方法,通过在扩散模型中引入两种引导机制来对抗净化攻击,保护图像不被恶意伪造

  • Motivation: 扩散模型如Stable Diffusion的强大定制能力带来了安全风险,现有的保护性扰动方法容易被净化技术移除,需要开发抗净化的保护方法
  • Method: 提出AntiPure方法,包含两种引导机制:1) 补丁级频率引导,减少模型对高频分量的影响;2) 错误时间步引导,扰乱不同时间步的去噪策略
  • Result: 实验表明AntiPure在净化-定制工作流中实现了最小的感知差异和最大的失真效果,优于其他保护性扰动方法
  • Conclusion: AntiPure作为净化方法的压力测试,能够有效嵌入不可感知的扰动并在代表性净化设置下持续存在,实现有效的后定制失真

[64] Noise-Level Diffusion Guidance: Well Begun is Half Done

Harvey Mannering,Zhiwu Huang,Adam Prugel-Bennett

Main category: cs.CV

TL;DR: 提出了Noise Level Guidance (NLG)方法,通过优化初始噪声来提高扩散模型生成图像的质量和提示词遵循度,无需额外训练数据、辅助网络或反向传播

  • Motivation: 扩散模型使用随机高斯噪声启动生成过程,这会导致最终输出在图像质量和提示词遵循度方面存在差异。现有噪声优化方法通常需要额外数据集、附加网络或基于反向传播的优化,限制了实用性
  • Method: 提出NLG方法,通过增加初始噪声与通用指导对齐的可能性来优化初始噪声,形成一个统一框架,适用于条件和非条件扩散模型,兼容各种扩散级指导形式
  • Result: 在五个标准基准测试上的广泛实验表明,该方法提高了输出生成质量和输入条件遵循度
  • Conclusion: NLG方法在保持计算效率的同时与现有指导方法无缝集成,为扩散模型提供了实用且可扩展的增强方案

[65] Can Current AI Models Count What We Mean, Not What They See? A Benchmark and Systematic Evaluation

Gia Khanh Nguyen,Yifeng Huang,Minh Hoai

Main category: cs.CV

TL;DR: PairTally是一个专门用于评估细粒度视觉计数能力的基准数据集,包含681张高分辨率图像,每张图像包含两个需要区分的物体类别,测试模型在形状、大小、颜色或语义细微差异下的计数能力。

  • Motivation: 现有视觉计数模型在复杂场景中对特定类型物体的细粒度、意图驱动的计数能力尚不明确,需要专门的评估基准来诊断和改进这类系统的性能。
  • Method: 构建PairTally数据集,包含681张高分辨率图像,每张图像有两个物体类别(包括类别间和类别内设置),对多种最先进模型进行基准测试,包括基于示例的方法、语言提示模型和大规模视觉语言模型。
  • Result: 尽管近期有进展,但当前模型在可靠地计数用户意图方面仍然困难,特别是在细粒度和视觉模糊的情况下表现不佳。
  • Conclusion: PairTally为诊断和改进细粒度视觉计数系统提供了新的基础,揭示了当前模型在意图驱动计数任务中的局限性。

[66] MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment

Elena Camuffo,Francesco Barbato,Mete Ozay,Simone Milani,Umberto Michieli

Main category: cs.CV

TL;DR: MOCHA是一种知识蒸馏方法,通过对象级别的跨架构对齐,将大型视觉语言教师模型的多模态语义知识转移到轻量级视觉目标检测学生模型中,在少样本个性化检测任务上实现显著性能提升。

  • Motivation: 现有的知识蒸馏方法主要关注密集或全局对齐,缺乏对对象级别多模态语义的有效传递。需要一种无需修改教师模型、推理时无需文本输入的高效方法,将大型多模态模型的语义理解能力迁移到轻量级视觉检测器中。
  • Method: 使用翻译模块将学生特征映射到联合空间,通过双目标损失函数(局部对齐和全局关系一致性)指导学生和翻译模块的训练,在对象级别进行跨架构对齐。
  • Result: 在四个个性化检测基准测试的少样本场景下,平均得分提升+10.1,性能达到与大型多模态模型相当的水平,同时保持紧凑架构。
  • Conclusion: MOCHA证明了通过对象级别的知识蒸馏,可以高效地将多模态语义知识转移到纯视觉检测器中,适用于实际部署场景,在保持轻量化的同时获得强大的语义理解能力。

[67] Performance Optimization of YOLO-FEDER FusionNet for Robust Drone Detection in Visually Complex Environments

Tamara R. Lenhard,Andreas Weinmann,Tobias Koch

Main category: cs.CV

TL;DR: 提出增强版YOLO-FEDER FusionNet无人机检测框架,通过融合通用目标检测和伪装目标检测技术,在复杂视觉环境中显著提升检测性能。

  • Motivation: 解决无人机在复杂视觉环境中检测困难的问题,包括背景杂乱、目标尺度小和伪装效应等挑战,传统检测器在低目标-背景可分离性场景中性能下降。
  • Method: 在原始架构基础上改进训练数据组成、特征融合策略和骨干网络设计。使用大规模逼真合成数据配合少量真实样本训练,系统评估多尺度FEDER特征贡献,并在多种YOLO骨干网络上进行基准测试。
  • Result: 最佳配置(YOLOv8l骨干网络+DWD模块FEDER特征)相比初始基线,FNR降低达39.1个百分点,mAP@0.5提升达62.8个百分点。
  • Conclusion: 融合中间FEDER特征结合骨干网络升级能显著提升检测性能,为复杂环境中的无人机检测提供了有效解决方案。

[68] SAIL-VL2 Technical Report

Weijie Yin,Yongjie Ye,Fangxun Shu,Yue Liao,Zijian Kang,Hongyuan Dong,Haiyang Yu,Dingkang Yang,Jiacong Wang,Han Wang,Wenzhuo Liu,Xiao Liang,Shuicheng Yan,Chao Feng

Main category: cs.CV

TL;DR: SAIL-VL2是一个开源的2B和8B参数规模视觉语言基础模型,在106个数据集上表现优异,在MMMU和MathVista等推理基准测试中达到SOTA,OpenCompass排行榜上2B版本在4B参数以下开源模型中排名第一。

  • Motivation: 作为SAIL-VL的继任者,旨在开发一个全面的多模态理解和推理基础模型,通过核心创新提升训练效率和模型能力。
  • Method: 采用大规模数据筛选管道、渐进式训练框架(从预训练视觉编码器到多模态预训练,再到思维融合SFT-RL混合范式)和稀疏MoE架构设计。
  • Result: 在多样化图像和视频基准测试中达到最先进性能,在复杂推理任务上表现强劲,为开源多模态社区提供高效可扩展的基础。
  • Conclusion: SAIL-VL2通过三项核心创新实现了卓越的多模态理解能力,成为开源视觉语言模型的重要进展,为社区提供了强大的基础模型。

[69] PROFUSEme: PROstate Cancer Biochemical Recurrence Prediction via FUSEd Multi-modal Embeddings

Suhang You,Carla Pitarch-Abaigar,Sanket Kachole,Sumedh Sonawane,Juhyung Ha,Anish Sudarshan Gada,David Crandall,Rakesh Shiradkar,Spyridon Bakas

Main category: cs.CV

TL;DR: 提出PROFUSEme方法,通过融合临床、影像和病理多模态数据来早期预测前列腺癌根治术后生化复发,性能优于传统方法

  • Motivation: 约30%前列腺癌患者在根治性前列腺切除术后经历生化复发,准确早期预测有助于临床决策和改善患者预后
  • Method: 采用中间融合配置结合Cox比例风险回归器,学习临床、影像和病理数据的跨模态交互
  • Result: 在内部5折嵌套交叉验证中平均C-index为0.861,在CHIMERA 2025挑战验证排行榜上C-index为0.7103
  • Conclusion: PROFUSEme方法在多模态数据融合预测前列腺癌生化复发方面表现出优越性能

[70] Wan-Animate: Unified Character Animation and Replacement with Holistic Replication

Gang Cheng,Xin Gao,Li Hu,Siqi Hu,Mingyang Huang,Chaonan Ji,Ju Li,Dechao Meng,Jinwei Qi,Penchong Qiao,Zhen Shen,Yafei Song,Ke Sun,Linrui Tian,Feng Wang,Guangyuan Wang,Qi Wang,Zhongjian Wang,Jiayu Xiao,Sheng Xu,Bang Zhang,Peng Zhang,Xindi Zhang,Zhe Zhang,Jingren Zhou,Lian Zhuo

Main category: cs.CV

TL;DR: Wan-Animate是一个统一的角色动画与替换框架,能够基于角色图像和参考视频生成高质量动画,或将动画角色无缝集成到参考视频中替换原角色。

  • Motivation: 为了解决角色动画和替换任务中需要保持高保真度、精确复制表情动作以及实现环境光照无缝集成的问题。
  • Method: 基于Wan模型构建,采用改进的输入范式区分参考条件和生成区域,使用空间对齐的骨架信号复制身体运动,从源图像提取隐式面部特征重现表情,并开发辅助的Relighting LoRA模块增强环境集成。
  • Result: 实验结果表明Wan-Animate达到了最先进的性能水平。
  • Conclusion: 该框架成功统一了多个任务,实现了高可控性和表现力的角色视频生成,并承诺开源模型权重和源代码。

[71] VSE-MOT: Multi-Object Tracking in Low-Quality Video Scenes Guided by Visual Semantic Enhancement

Jun Du,Weiwei Xing,Ming Li,Fei Richard Yu

Main category: cs.CV

TL;DR: 本文提出VSE-MOT框架,通过视觉语义增强技术解决低质量视频中的多目标跟踪问题,在真实低质量场景中性能提升8%-20%

  • Motivation: 当前多目标跟踪算法在低质量视频中性能显著下降,需要提升在真实世界低质量视频场景中的应用能力
  • Method: 设计三分支架构,利用视觉语言模型提取全局视觉语义信息并与查询向量融合;引入MOT-Adapter适配多目标跟踪任务,以及VSFM模块提升特征融合效果
  • Result: 在真实低质量视频场景中验证了方法的有效性和优越性,跟踪性能指标比现有方法提升约8%到20%,同时在常规场景中保持稳健性能
  • Conclusion: VSE-MOT框架成功解决了低质量视频中的多目标跟踪挑战,为真实世界应用提供了有效的解决方案

[72] AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration

Jingyi Yuan,Jianxiong Ye,Wenkang Chen,Chenqiang Gao

Main category: cs.CV

TL;DR: 本文提出了AD-DINOv3,一种基于DINOv3的零样本异常检测框架,通过多模态对比学习和异常感知校准模块解决特征对齐和语义偏见问题,在工业和医学基准测试中达到或超越最先进方法。

  • Motivation: 传统零样本异常检测主要基于CLIP模型,而DINOv3等视觉基础模型展现出强大的可迁移表示能力。但直接将DINOv3应用于异常检测面临两个关键挑战:大规模预训练数据与异常检测任务之间的领域偏差导致特征错位,以及预训练表示对全局语义的固有偏见容易将细微异常误判为正常前景对象。
  • Method: 提出AD-DINOv3多模态框架,将异常检测构建为多模态对比学习问题:使用DINOv3作为视觉骨干提取patch tokens和CLS token,CLIP文本编码器提供正常和异常提示的嵌入。引入轻量级适配器桥接领域差距,并设计异常感知校准模块(AACM)显式引导CLS token关注异常区域而非通用前景语义。
  • Result: 在八个工业和医学基准测试上的广泛实验表明,AD-DINOv3始终匹配或超越最先进的零样本异常检测方法,验证了其作为通用框架的优越性。
  • Conclusion: AD-DINOv3成功将DINOv3适配到零样本异常检测任务,通过多模态对比学习和异常感知校准有效解决了特征对齐和语义偏见问题,为异常检测提供了强大且可扩展的解决方案。

[73] Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing

Yaru Chen,Ruohao Guo,Liting Gao,Yang Xiang,Qingyu Luo,Zhenbo Li,Wenwu Wang

Main category: cs.CV

TL;DR: 提出EMA引导的伪监督框架和类感知跨模态一致性损失,在弱监督音频-视觉视频解析任务上实现SOTA性能

  • Motivation: 解决现有方法忽视稳定片段级监督和类感知跨模态对齐的问题
  • Method: 1) EMA引导的伪监督框架通过自适应阈值或top-k选择生成可靠片段级掩码;2) 类感知跨模态一致性损失在可靠片段-类别对上对齐音频和视觉嵌入
  • Result: 在LLP和UnAV-100数据集上实现最先进的性能
  • Conclusion: 所提出的方法通过可靠的片段级监督和跨模态对齐有效提升了弱监督音频-视觉视频解析的性能

[74] CSMoE: An Efficient Remote Sensing Foundation Model with Soft Mixture-of-Experts

Leonard Hackel,Tom Burgert,Begüm Demir

Main category: cs.CV

TL;DR: 提出了一种集成软混合专家机制(Soft MoE)的遥感基础模型CSMoE,在保持或提升表征性能的同时显著降低计算需求,平均计算效率提升2倍以上。

  • Motivation: 现有遥感基础模型要么计算复杂度高,要么表征能力有限,限制了实际应用。需要开发计算高效且表征能力强的模型。
  • Method: 将软混合专家机制集成到Cross-Sensor Masked Autoencoder中,形成CSMoE模型,并采用主题-气候描述符驱动的采样策略构建训练集。
  • Result: 在场景分类、语义分割和基于内容的图像检索任务上,CSMoE在保持竞争力的同时实现了超过现有模型2倍的计算效率。
  • Conclusion: 所提出的软混合专家机制集成方法有效解决了遥感基础模型的计算效率问题,实现了表征能力、准确性和计算效率之间的优越平衡。

[75] Generative AI for Misalignment-Resistant Virtual Staining to Accelerate Histopathology Workflows

Jiabo MA,Wenqiang Li,Jinbang Li,Ziyi Liu,Linshan Wu,Fengtao Zhou,Li Liang,Ronald Cheong Kin Chan,Terence T. W. Wong,Hao Chen

Main category: cs.CV

TL;DR: 提出了一种带有级联配准机制的鲁棒虚拟染色框架,解决了组织切片空间错位问题,在多个数据集上显著优于现有方法

  • Motivation: 传统组织病理学诊断需要多种化学染色,过程耗时且对环境不友好。现有虚拟染色方法依赖严格对齐的配对数据,但实际中获取这种数据困难,因为化学染色过程会导致组织变形,且单个组织切片无法进行多次染色
  • Method: 采用级联配准机制来解决生成输出与真实标注之间的空间不匹配问题,提高了虚拟染色的准确性
  • Result: 在五个数据集上显著优于最先进模型,内部数据集平均提升3.2%,外部数据集提升10.1%。在严重错位数据集上,PSNR比基线模型提升23.8%
  • Conclusion: 该方法具有出色的跨数据集鲁棒性,简化了虚拟染色的数据采集过程,为其发展提供了新思路

[76] Deceptive Beauty: Evaluating the Impact of Beauty Filters on Deepfake and Morphing Attack Detection

Sara Concas,Simone Maurizio La Cava,Andrea Panzino,Ester Masala,Giulia Orrù,Gian Luca Marcialis

Main category: cs.CV

TL;DR: 美颜滤镜会降低深度伪造和变形攻击检测器的性能,导致检测准确率下降,凸显了需要开发对这些面部增强处理具有鲁棒性的检测模型。

  • Motivation: 社交媒体美颜滤镜的普及引发了对面部图像视频可靠性和自动化人脸分析有效性的担忧,特别是在需要区分真实与伪造数据的数字操纵检测领域,研究美颜滤镜是否影响深度伪造和变形攻击检测器的性能。
  • Method: 对多个最先进的检测器在基准数据集上进行全面分析,评估应用各种平滑滤镜前后的性能表现。
  • Result: 研究发现美颜滤镜会导致检测器性能下降,揭示了面部增强处理引入的脆弱性。
  • Conclusion: 需要开发能够抵抗美颜滤镜等面部修饰处理的鲁棒检测模型,以应对数字美化技术带来的挑战。

[77] MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

Peng Xu,Shengwu Xiong,Jiajun Zhang,Yaxiong Chen,Bowen Zhou,Chen Change Loy,David A. Clifton,Kyoung Mu Lee,Luc Van Gool,Ruiming He,Ruilin Yao,Xinwei Long,Jirui Huang,Kai Tian,Sa Yang,Yihua Shao,Jin Feng,Yue Zhong,Jiakai Zhou,Cheng Tang,Tianyu Zou,Yifang Zhang,Junming Liang,Guoyou Li,Zhaoxiang Wang,Qiang Zhou,Yichen Zhao,Shili Xiong,Hyeongjin Nam,Jaerin Lee,Jaeyoung Chung,JoonKyu Park,Junghun Oh,Kanggeon Lee,Wooseok Lee,Juneyoung Ro,Turghun Osman,Can Hu,Chaoyang Liao,Cheng Chen,Chengcheng Han,Chenhao Qiu,Chong Peng,Cong Xu,Dailin Li,Feiyu Wang,Feng Gao,Guibo Zhu,Guopeng Tang,Haibo Lu,Han Fang,Han Qi,Hanxiao Wu,Haobo Cheng,Hongbo Sun,Hongyao Chen,Huayong Hu,Hui Li,Jiaheng Ma,Jiang Yu,Jianing Wang,Jie Yang,Jing He,Jinglin Zhou,Jingxuan Li,Josef Kittler,Lihao Zheng,Linnan Zhao,Mengxi Jia,Muyang Yan,Nguyen Thanh Thien,Pu Luo,Qi Li,Shien Song,Shijie Dong,Shuai Shao,Shutao Li,Taofeng Xue,Tianyang Xu,Tianyi Gao,Tingting Li,Wei Zhang,Weiyang Su,Xiaodong Dong,Xiao-Jun Wu,Xiaopeng Zhou,Xin Chen,Xin Wei,Xinyi You,Xudong Kang,Xujie Zhou,Xusheng Liu,Yanan Wang,Yanbin Huang,Yang Liu,Yang Yang,Yanglin Deng,Yashu Kang,Ye Yuan,Yi Wen,Yicen Tian,Yilin Tao,Yin Tang,Yipeng Lin,Yiqing Wang,Yiting Xi,Yongkang Yu,Yumei Li,Yuxin Qin,Yuying Chen,Yuzhe Cen,Zhaofan Zou,Zhaohong Liu,Zhehao Shen,Zhenglin Du,Zhengyang Li,Zhenni Huang,Zhenwei Shao,Zhilong Song,Zhiyong Feng,Zhiyu Wang,Zhou Yu,Ziang Li,Zihan Zhai,Zijian Zhang,Ziyang Peng,Ziyun Xiao,Zongshu Li

Main category: cs.CV

TL;DR: MARS2 2025挑战赛综述:聚焦多模态推理,发布Lens和AdsQA数据集,评估40+基线模型,设立三个竞赛赛道,吸引76个团队参与

  • Motivation: 整合多模态机器学习和LLM方法,通过大规模基准测试跟踪该快速发展领域的最新进展,并扩展多模态推理在现实世界和专业化场景中的应用
  • Method: 发布两个定制数据集(Lens支持12个日常场景的通用推理,AdsQA支持广告视频的领域特定推理),评估40+基线模型,设立三个竞赛赛道:VG-RS、VQA-SA、VR-Ads
  • Result: 76个知名学术和工业机构团队注册,1200+提交中40+有效提交进入排名,数据集、代码集和排名公开可用
  • Conclusion: MARS2挑战赛成功推动了多模态推理研究,提供了丰富的资源和基准,为未来研究奠定了基础

[78] An Exploratory Study on Abstract Images and Visual Representations Learned from Them

Haotian Li,Jianbo Jiao

Main category: cs.CV

TL;DR: 该论文研究了抽象图像(由基本几何形状构成)与传统光栅图像在视觉语义信息传递方面的性能差距,通过构建分层抽象图像数据集HAID,在不同抽象层次上评估视觉系统的表现。

  • Motivation: 探索抽象图像能否有效传递视觉语义信息,以及为什么基于基本形状的抽象图像表示性能不如传统光栅图像,研究不同抽象层次对高层语义内容捕获能力的影响。
  • Method: 构建分层抽象图像数据集HAID,包含从正常光栅图像在不同抽象层次生成的抽象图像。在分类、分割和目标检测等多个任务上训练和评估传统视觉系统,系统比较光栅图像和抽象图像表示。
  • Result: 研究发现抽象图像确实能够传递视觉语义信息,但性能表现不如传统光栅图像。通过HAID数据集提供了不同抽象层次下视觉系统表现的全面研究。
  • Conclusion: 抽象图像可以作为传递视觉语义信息的潜在有效格式,对视觉任务有贡献价值,但需要进一步研究如何优化抽象表示以缩小与传统图像的性能差距。

[79] BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection

Rongyu Zhang,Jiaming Liu,Xiaoqi Li,Xiaowei Chi,Dan Wang,Li Du,Yuan Du,Shanghang Zhang

Main category: cs.CV

TL;DR: BEVUDA++是一个几何感知的师生框架,通过可靠的深度教师和几何一致性学生模型,解决了鸟瞰图感知中的多视图3D目标检测领域适应问题,在跨域场景中实现了最先进的性能。

  • Motivation: 鸟瞰图感知在自动驾驶中具有重要价值,但现有研究忽视了领域偏移问题,导致跨域迁移时性能显著下降。研究发现多几何空间中的领域偏移累积是主要挑战。
  • Method: 提出了BEVUDA++框架,包含可靠深度教师(RDT)和几何一致性学生(GCS)模型。RDT通过不确定性估计融合目标LiDAR和深度预测生成深度感知信息;GCS将多空间特征映射到统一的几何嵌入空间;还引入了不确定性引导的指数移动平均(UEMA)来减少误差累积。
  • Result: 在四个跨域场景中进行了全面实验,在BEV 3D目标检测任务中实现了最先进的性能,特别是在昼夜适应场景中取得了12.9% NDS和9.5% mAP的提升。
  • Conclusion: 该方法有效解决了BEV感知中的领域适应挑战,通过几何感知的师生框架和不确定性引导机制显著提升了跨域性能,为自动驾驶系统的实际部署提供了重要支撑。

[80] Where Do Tokens Go? Understanding Pruning Behaviors in STEP at High Resolutions

Michal Szczepanski,Martyna Poreba,Karim Haroun

Main category: cs.CV

TL;DR: STEP是一个结合动态补丁合并和令牌剪枝的混合令牌缩减框架,通过轻量级CNN策略网络dCTS和早期退出机制,显著降低Vision Transformers的计算和内存成本,同时保持高精度。

  • Motivation: Vision Transformers在语义分割中性能优异但计算和内存成本高昂,需要一种高效的方法来减少令牌数量而不显著影响准确性。
  • Method: 提出STEP框架,包含:1) dCTS轻量级CNN策略网络实现灵活的超补丁合并;2) 编码器块集成早期退出机制移除高置信度超令牌;3) 结合动态补丁合并和令牌剪枝技术。
  • Result: 在1024x1024高分辨率图像上测试:单独使用dCTS可减少2.5倍令牌数量,降低2.6倍计算成本,提升3.4倍吞吐量;完整STEP框架可达4倍计算复杂度降低和1.7倍推理速度提升,精度下降不超过2.0%。
  • Conclusion: STEP框架有效解决了ViTs在语义分割中的效率问题,通过混合令牌缩减策略实现了计算效率与精度的良好平衡,40%的令牌可在到达最终编码层前被自信预测并停止处理。

[81] Dense Video Understanding with Gated Residual Tokenization

Haichao Zhang,Wenhao Chai,Shwai He,Ang Li,Yun Fu

Main category: cs.CV

TL;DR: 提出了Dense Video Understanding (DVU)框架和Gated Residual Tokenization (GRT)方法,通过运动补偿和语义场景融合技术,实现高效的高帧率视频理解,解决了传统方法在密集时间信息处理上的不足。

  • Motivation: 当前视频大语言模型(VLLMs)和基准测试主要依赖低帧率采样,丢弃了密集的时间信息,无法处理需要精确时间对齐的任务(如讲座理解)。高帧率处理面临tokenization时间和token数量线性增长的问题。
  • Method: 提出了Gated Residual Tokenization (GRT)两阶段框架:1) 运动补偿门控tokenization,利用像素级运动估计跳过静态区域;2) 语义场景内部tokenization合并,融合静态区域内的token,在保留动态语义的同时减少冗余。
  • Result: 在DIVE基准测试上的实验表明,GRT超越了更大的VLLM基线模型,并且随着帧率的增加性能呈正向扩展,证明了密集时间信息的重要性。
  • Conclusion: GRT方法能够实现高效、可扩展的高帧率视频理解,为密集时间推理任务提供了有效的解决方案,填补了现有视频理解技术的空白。

[82] Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark

Nisarg A. Shah,Amir Ziai,Chaitanya Ekanadham,Vishal M. Patel

Main category: cs.CV

TL;DR: 该论文提出了Cinéaste基准测试,用于评估视觉语言模型在长视频电影理解中的细粒度推理能力,包含3119个多选题,涵盖5个推理类别,现有模型表现不佳(最高63.15%准确率)。

  • Motivation: 现有的视频理解基准测试主要关注短片段识别或模板化问题,缺乏对长叙事内容的细粒度推理能力评估,需要更全面的长视频电影理解评估工具。
  • Method: 使用GPT-4o生成多样化、上下文丰富的问题,结合视觉描述、字幕、场景标题和摘要;采用两阶段过滤流程(上下文独立性过滤和上下文真实性过滤)确保问题质量。
  • Result: 现有MLLM在Cinéaste上表现困难,最佳开源模型准确率仅63.15%,长时序推理是主要瓶颈。
  • Conclusion: 长视频电影理解面临重大挑战,需要在细粒度上下文理解和长时序推理方面取得进展。

[83] GenExam: A Multidisciplinary Text-to-Image Exam

Zhaokai Wang,Penghao Yin,Xiangyu Zhao,Changyao Tian,Yu Qiao,Wenhai Wang,Jifeng Dai,Gen Luo

Main category: cs.CV

TL;DR: GenExam是首个多学科文本到图像考试基准,包含10个学科的1000个样本,采用四级分类法组织考试式提示,用于严格评估图像生成模型的知识整合、推理和生成能力。

  • Motivation: 现有考试式基准主要关注理解和推理任务,而当前生成基准强调世界知识和视觉概念的展示,忽略了严格绘图考试的评估。需要一个新的基准来全面评估模型在知识整合、推理和生成方面的综合能力。
  • Method: 构建包含1000个样本的多学科文本到图像考试基准,涵盖10个学科,采用四级分类法组织考试式提示。每个问题配备真实图像和细粒度评分点,用于精确评估语义正确性和视觉合理性。
  • Result: 实验表明,即使是GPT-Image-1和Gemini-2.5-Flash-Image等最先进模型,严格得分也低于15%,大多数模型得分接近0%,表明该基准具有巨大挑战性。
  • Conclusion: 通过将图像生成构建为考试形式,GenExam提供了对模型知识整合、推理和生成能力的严格评估,为通向通用AGI的道路提供了重要见解。

cs.LG

[84] LLM-I: LLMs are Naturally Interleaved Multimodal Creators

Zirun Guo,Feng Zhang,Kai Jia,Tao Jin

Main category: cs.LG

TL;DR: LLM-Interleaved是一个将交错图像-文本生成重构为工具使用问题的框架,通过强化学习训练LLM智能调度多种视觉工具,在多个基准测试中大幅超越现有方法。

  • Motivation: 当前统一模型存在"单工具"瓶颈,仅限于合成图像生成,难以处理需要事实基础或程序化精度的任务,需要更灵活的框架来整合多种专业视觉工具。
  • Method: 提出LLM-I框架,让中心LLM/MLLM代理智能调度专业视觉工具(在线图像搜索、扩散生成、代码执行、图像编辑),通过结合规则逻辑和LLM评估的混合奖励系统进行强化学习训练。
  • Result: 在四个基准测试中大幅超越现有方法,达到最先进性能,并引入了新颖的测试时缩放策略进一步提升性能。
  • Conclusion: LLM-I框架成功解决了当前模型的局限性,通过工具使用范式实现了更灵活、动态的交错图像-文本生成能力。

cs.AI

[85] The Art of Saying "Maybe": A Conformal Lens for Uncertainty Benchmarking in VLMs

Asif Azad,Mohammad Sadat Hossain,MD Sadik Hossain Shanto,M Saifur Rahman,Md Rizwan Pervez

Main category: cs.AI

TL;DR: 本文对16个最先进的视觉语言模型在6个多模态数据集上进行全面的不确定性基准测试,发现更大模型具有更好的不确定性量化能力,数学和推理任务的不确定性表现较差。

  • Motivation: 虽然视觉语言模型在复杂视觉理解方面取得了显著进展,但不确定性量化这一关键维度尚未得到足够关注,现有研究仅限于有限设置。
  • Method: 评估16个最先进的VLMs(开源和闭源),在6个多模态数据集上使用3种不同的评分函数进行全面的不确定性基准测试。
  • Result: 发现更大模型始终表现出更好的不确定性量化;更确定的模型获得更高准确率;数学和推理任务在所有模型中表现出比其他领域更差的不确定性性能。
  • Conclusion: 这项工作为多模态系统中可靠的不确定性评估奠定了基础。

eess.IV

[86] 3D Reconstruction of Coronary Vessel Trees from Biplanar X-Ray Images Using a Geometric Approach

Ethan Koland,Lin Xi,Nadeev Wijesuriya,YingLiang Ma

Main category: eess.IV

TL;DR: 提出从双平面X射线图像重建3D血管树的框架,包含图像分割、运动相位匹配和3D重建三个主要组件,通过语义分割和几何重建算法提高准确性。

  • Motivation: X射线血管造影在心脏介入中广泛使用,但传统方法存在重建工作流程复杂和精度不足的问题,需要一种更准确和简化的3D血管树重建方法。
  • Method: 框架包括三个步骤:1)自动视频分割进行语义分割;2)通过跟踪静止物体匹配运动相位;3)使用启发式方法匹配解剖标志点,并通过几何重建算法计算3D血管中心线。
  • Result: 在62个X射线血管造影视频序列上验证,分割准确率达到0.703,3D重建的重投影误差为0.62mm +/- 0.38mm。
  • Conclusion: 相比基于极线约束的传统方法,该框架简化了重建工作流程并提高了整体准确性,为心脏介入手术提供了更可靠的3D血管树重建解决方案。

[87] PREDICT-GBM: Platform for Robust Evaluation and Development of Individualized Computational Tumor Models in Glioblastoma

L. Zimmer,J. Weidner,M. Balcerak,F. Kofler,I. Ezhov,B. Menze,B. Wiestler

Main category: eess.IV

TL;DR: PREDICT-GBM是一个用于胶质母细胞瘤生长建模和评估的综合平台,包含255名患者的临床数据集,能够系统评估先进肿瘤生长模型,并证明个性化放疗计划比传统均匀边界方法更有效。

  • Motivation: 胶质母细胞瘤具有高度侵袭性和高复发率,传统放疗采用均匀治疗边界,无法考虑患者特异性解剖和生物学因素。现有计算模型虽能生成超出影像可见范围的肿瘤细胞分布图,但临床采用有限,需要搭建转化桥梁。
  • Method: 开发PREDICT-GBM综合集成管道和数据集,包含专家整理的255名患者完整肿瘤分割和组织特征图谱,用于系统评估最先进的肿瘤生长模型。
  • Result: 分析表明,基于肿瘤生长预测的个性化放疗计划在两个评估模型中相比传统均匀边界方法实现了更好的复发覆盖。
  • Conclusion: 该工作建立了推进和系统评估尖端肿瘤生长建模方法的强大平台,最终目标是促进临床转化和改善患者预后。

[88] Generative AI Pipeline for Interactive Prompt-driven 2D-to-3D Vascular Reconstruction for Fontan Geometries from Contrast-Enhanced X-Ray Fluoroscopy Imaging

Prahlad G Menon

Main category: eess.IV

TL;DR: 开发了一个多步骤AI管道,利用Google Gemini 2.5 Flash和腾讯Hunyuan3D-2mini模型,从单视角血管造影生成几何优化的2D投影,用于Fontan手术的3D几何重建和血流可视化分析。

  • Motivation: Fontan姑息治疗的单心室先天性心脏病进展为血流动力学衰竭,传统2D成像难以表征复杂血流模式。当前评估依赖荧光血管造影,但提供的3D几何信息有限,不利于计算流体动力学分析和手术规划。
  • Method: 采用多步骤AI管道,使用Google Gemini 2.5 Flash进行医学图像预处理、血管分割、对比度增强、伪影去除和虚拟血流可视化。最终通过腾讯Hunyuan3D-2mini生成立体光刻文件。经过16个处理步骤的迭代优化。
  • Result: 管道成功从单视角血管造影生成几何优化的2D投影,准确保留了复杂的Fontan几何结构,增强了对比度。AI生成的虚拟血流可视化识别了中心连接处的停滞区和分支动脉的血流模式。完整处理时间在15分钟内。
  • Conclusion: 该方法展示了从常规血管造影数据生成CFD适用几何的临床可行性,为使用现成成像数据进行高级几何和血流动力学分析的民主化奠定了基础,尽管需要迭代优化来提高准确性。

[89] Cross-Distribution Diffusion Priors-Driven Iterative Reconstruction for Sparse-View CT

Haodong Li,Shuo Han,Haiyang Mao,Yu Shi,Changsheng Fang,Jianjia Zhang,Weiwen Wu,Hengyong Yu

Main category: eess.IV

TL;DR: 提出CDPIR框架解决稀疏视图CT重建中的分布外问题,通过跨分布扩散先验和基于模型的迭代重建方法,在OOD场景下实现最先进性能

  • Motivation: 稀疏视图CT重建虽然能提高时间分辨率和降低辐射剂量,但由于视图减少和扫描仪、协议或解剖变异导致的域偏移,在分布外场景中会产生伪影和性能下降
  • Method: 结合可扩展插值变换器(SiT)的跨分布扩散先验与基于模型的迭代重建方法,使用无分类器引导在多个数据集上训练,通过随机丢弃条件学习域特定和域不变先验
  • Result: 在稀疏视图CT重建中实现了最先进的性能,特别是在分布外条件下显著优于现有方法,具有优异的细节保持能力
  • Conclusion: CDPIR框架通过跨分布扩散先验有效解决了稀疏视图CT重建中的OOD问题,展现了强大的鲁棒性和临床潜力

q-bio.PE

[90] Autonomous Reporting of Normal Chest X-rays by Artificial Intelligence in the United Kingdom. Can We Take the Human Out of the Loop?

Katrina Nash,James Vaz,Ahmed Maiter,Christopher Johns,Nicholas Woznitza,Aditya Kale,Abdala Espinosa Morgado,Rhidian Bramley,Mark Hall,David Lowe,Alex Novak,Sarim Ather

Main category: q-bio.PE

TL;DR: 本文探讨AI自主报告正常胸部X光片的可行性,分析技术、法律和监管挑战,建议谨慎采用

  • Motivation: 解决放射科医生短缺导致的报告延迟问题,通过AI识别正常X光片来减轻放射科工作负担
  • Method: 分析AI工具区分正常与异常胸部X光片的技术可行性,探讨定义正常标准、泛化能力、敏感度-特异度权衡等问题
  • Result: AI自主报告正常胸部X光片具有明显益处,但面临技术挑战、法律合规问题和责任框架缺失等障碍
  • Conclusion: 虽然AI自主报告正常胸部X光片的前景明确,但需要谨慎采用,解决技术、法律和监管等多方面挑战

cs.SD

[91] A Domain Knowledge Informed Approach for Anomaly Detection of Electric Vehicle Interior Sounds

Deepti Kunte,Bram Cornelis,Claudio Colangeli,Karl Janssens,Brecht Van Baelen,Konstantinos Gryllias

Main category: cs.SD

TL;DR: 提出了一种基于领域知识的模型选择方法,通过工程化代理异常来改进无监督异常检测中的模型选择问题

  • Motivation: 汽车座舱声音异常检测通常缺乏标记的故障数据,需要无监督学习。但传统验证重建误差等指标不可靠,模型选择面临重大挑战
  • Method: 使用健康样本的频谱图进行结构化扰动来创建代理异常,在验证集中使用这些代理异常来支持模型选择
  • Result: 在包含五种典型故障类型的高保真电动汽车数据集上实验表明,使用代理异常选择的模型显著优于传统模型选择策略
  • Conclusion: 提出的领域知识驱动的代理异常方法有效解决了无监督异常检测中的模型选择问题,为汽车声音质量检测提供了可靠解决方案

q-bio.NC

[92] Rest2Visual: Predicting Visually Evoked fMRI from Resting-State Scans

Chuyang Zhou,Ziao Ji,Daochang Liu,Dongang Wang,Chenyu Wang,Chang Xu

Main category: q-bio.NC

TL;DR: Rest2Visual是一个条件生成模型,可以从静息态fMRI和视觉刺激预测视觉诱发fMRI激活,实现了个性化的功能脑建模。

  • Motivation: 解决任务态fMRI采集成本高、耗时长,而静息态fMRI丰富但缺乏直接可解释性的问题,探索如何将自发脑活动转化为刺激对齐的神经表征。
  • Method: 采用体积编码器-解码器设计,通过自适应归一化将多尺度3D静息态特征与图像嵌入进行调制,构建大规模三元组数据集进行模型训练。
  • Result: 预测的激活图在相似性和表征指标上与真实数据高度匹配,支持下游图像重建,并保留了个体特异性结构。
  • Conclusion: 证明了个体化自发神经活动可以转化为刺激对齐的表征,为可扩展的、无任务功能脑建模开辟了新途径。

cs.RO

[93] Semantic 3D Reconstructions with SLAM for Central Airway Obstruction

Ayberk Acar,Fangjie Li,Hao Li,Lidia Al-Zogbi,Kanyifeechukwu Jane Oguine,Susheela Sharma Stern,Jesse F. d'Almeida,Robert J. Webster III,Ipek Oguz,Jie Ying Wu

Main category: cs.RO

TL;DR: 提出了一种结合语义分割和实时单目SLAM的新颖管道,用于中央气道阻塞的内窥镜3D重建,实现了0.62mm的高精度重建和实时临床相关区域标注。

  • Motivation: 中央气道阻塞(CAO)是一种危及生命的疾病,传统治疗方法并发症风险高。机器人干预结合场景理解为自动化提供了可能,需要实时、语义感知的3D重建技术。
  • Method: 结合DROID-SLAM和训练用于识别阻塞组织的分割模型。SLAM模块实时重建气道3D几何结构,分割掩码指导在重建点云中标注阻塞区域。
  • Result: 离体模型评估显示重建质量高,与真实CT扫描的倒角距离为0.62mm。系统能够实时产生标注的3D地图,突出临床相关区域,重建速度比先前工作更快。
  • Conclusion: 这是首个将语义分割与实时单目SLAM集成用于内窥镜CAO场景的工作,框架模块化且可推广到其他解剖结构或程序,为自主机器人干预迈出了有希望的一步。

[94] Object Pose Estimation through Dexterous Touch

Amir-Hossein Shahidzadeh,Jiyue Zhu,Kezhou Chen,Sha Yi,Cornelia Fermüller,Yiannis Aloimonos,Xiaolong Wang

Main category: cs.RO

TL;DR: 提出了一种使用双手机器人通过触觉传感器主动探索物体表面,利用强化学习收集触觉数据并迭代优化物体形状和姿态的方法,无需先验几何知识。

  • Motivation: 解决在视觉数据有限或受光照、遮挡、外观影响时,机器人操作和交互任务中鲁棒的物体姿态估计问题。触觉传感器通常只能提供有限的局部接触信息,从部分数据重建姿态具有挑战性。
  • Method: 使用传感器运动探索主动控制机器人手与物体交互,通过强化学习训练来探索和收集触觉数据。收集的3D点云用于迭代优化物体形状和姿态。采用双手设置:一只手固定物体,另一只手进行主动探索。
  • Result: 该方法能够主动探索物体表面以识别关键姿态特征,无需物体几何形状的先验知识。
  • Conclusion: 提出的双手机器人触觉姿态估计方法通过主动探索和强化学习,能够在没有先验几何信息的情况下有效估计物体姿态,为视觉受限场景下的机器人操作提供了解决方案。

[95] InterKey: Cross-modal Intersection Keypoints for Global Localization on OpenStreetMap

Nguyen Hoang Khoi Tran,Julie Stephany Berrio,Mao Shan,Stewart Worrall

Main category: cs.RO

TL;DR: InterKey是一个利用道路交叉口作为显著地标的跨模态全局定位框架,通过联合编码点云和OSM中的道路与建筑印记来构建紧凑的二进制描述符,在KITTI数据集上实现了最先进的精度。

  • Motivation: 解决在GNSS信号退化环境(如城市峡谷和隧道)中可靠的全局定位问题,同时克服高精地图成本高和OpenStreetMap粗糙抽象带来的匹配挑战。
  • Method: 提出跨模态框架,利用道路交叉口作为地标,构建紧凑二进制描述符,引入差异缓解、方向确定和面积均衡采样策略来弥合模态差距。
  • Result: 在KITTI数据集上的实验表明,InterKey实现了最先进的精度,大幅优于现有基线方法。
  • Conclusion: 该框架可推广到能够产生密集结构点云的传感器,为稳健的车辆定位提供了可扩展且经济高效的解决方案。

[96] MAP: End-to-End Autonomous Driving with Map-Assisted Planning

Huilin Yin,Yiming Kan,Daniel Watzenig

Main category: cs.RO

TL;DR: MAP是一个新颖的地图辅助端到端轨迹规划框架,通过显式整合语义地图特征和当前自车状态,显著提升了自动驾驶轨迹规划性能。

  • Motivation: 现有端到端自动驾驶方法未能充分利用在线地图模块的潜力,地图特征对轨迹规划的增强作用尚未充分挖掘。
  • Method: 提出MAP框架,包含三个核心模块:规划增强在线地图模块、自车状态引导规划模块和基于当前自车状态的权重适配器,显式整合分割式地图特征和自车状态。
  • Result: 在DAIR-V2X-seq-SPD数据集上,相比UniV2X基线,L2位移误差降低16.6%,脱轨率降低56.2%,综合得分提升44.5%;在CVPR2025 MEIS Workshop挑战赛中排名第一,综合得分比第二名高39.5%。
  • Conclusion: 显式利用语义地图特征能有效提升规划性能,为端到端自动驾驶系统的结构设计提供了新方向。

[97] MetricNet: Recovering Metric Scale in Generative Navigation Policies

Abhijeet Nayak,Débora N. P. Oliveira,Samiran Gode,Cordelia Schmid,Wolfram Burgard

Main category: cs.RO

TL;DR: MetricNet是一个用于生成式导航的附加模块,通过预测路径点之间的度量距离,将策略输出锚定到真实世界坐标中,解决了生成导航策略的两个结构性问题:无度量基础和短视控制策略。

  • Motivation: 生成式导航策略存在两个结构性问题:1)采样的轨迹存在于抽象的无尺度空间中,缺乏度量基础;2)控制策略丢弃完整路径,只朝向单个路径点移动,导致短视和不安全的动作。
  • Method: 提出MetricNet作为生成式导航的附加模块,预测路径点之间的度量距离,将策略输出锚定到真实世界坐标。进一步提出MetricNav,将MetricNet集成到导航策略中,引导机器人避开障碍物同时朝向目标移动。
  • Result: 在仿真环境中使用新的基准框架进行评估,执行MetricNet缩放的路径点显著提高了导航和探索性能。在真实世界实验中进一步验证了方法的有效性。
  • Conclusion: MetricNet通过提供度量基础解决了生成式导航的关键限制,MetricNav集成方案能够同时实现避障和目标导向的导航,提高了导航的安全性和性能。

[98] MCGS-SLAM: A Multi-Camera SLAM Framework Using Gaussian Splatting for High-Fidelity Mapping

Zhihao Cao,Hanyu Wu,Li Wa Tang,Zizhou Luo,Zihan Zhu,Wei Zhang,Marc Pollefeys,Martin R. Oswald

Main category: cs.RO

TL;DR: MCGS-SLAM是首个基于纯RGB输入的多相机3D高斯泼溅SLAM系统,通过多视角融合实现实时高精度建图和轨迹估计

  • Motivation: 现有密集SLAM方法主要针对单目设置,牺牲了鲁棒性和几何覆盖范围。多相机系统能够提供更宽的视野和更完整的场景重建,对自动驾驶等应用至关重要
  • Method: 使用多相机束调整(MCBA)通过密集光度学和几何残差联合优化位姿和深度,采用尺度一致性模块通过低秩先验实现跨视图的度量对齐,基于3D高斯泼溅技术构建统一连续优化的高斯地图
  • Result: 在合成和真实数据集上的实验表明,MCGS-SLAM能够产生准确的轨迹和照片级真实感重建,通常优于单目基线方法,多相机输入能够重建单目系统遗漏的侧视区域
  • Conclusion: 多相机高斯泼溅SLAM在机器人和自动驾驶的高保真建图中具有巨大潜力,能够提供更完整和安全的场景重建