Skip to content
每日arXiv - 2025年10月31日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Enhancing Underwater Object Detection through Spatio-Temporal Analysis and Spatial Attention Networks

Sai Likhith Karri,Ansh Saxena

Main category: cs.CV

TL;DR: 该研究评估了时空建模和空间注意力机制在深度学习模型中对水下目标检测的有效性,比较了YOLOv5、T-YOLOv5和带CBAM的T-YOLOv5的性能。

  • Motivation: 研究旨在提升动态海洋环境中水下目标检测的准确性,特别是在存在突然运动、部分遮挡和渐变运动等挑战性条件下。
  • Method: 首先评估了时间增强的T-YOLOv5变体与标准YOLOv5的性能,然后开发了集成卷积块注意力模块(CBAM)的T-YOLOv5增强版本。
  • Result: 测试结果显示,YOLOv5的mAP@50-95为0.563,而T-YOLOv5和带CBAM的T-YOLOv5分别达到0.813和0.811,表现出更高的准确性和泛化能力。
  • Conclusion: T-YOLOv5相比标准模型显著提升了检测可靠性,带CBAM的T-YOLOv5在挑战性场景中进一步改善性能,但在简单场景中准确率有所损失。

[2] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency

Nicolas Dufour,Lucas Degeorge,Arijit Ghosh,Vicky Kalogeiton,David Picard

Main category: cs.CV

TL;DR: MIRO方法通过在训练过程中直接使用多个奖励模型来学习用户偏好,而不是在生成后进行后处理选择,从而显著提高了生成图像的质量和训练效率。

  • Motivation: 当前文本到图像生成模型在大规模未筛选数据集上训练以实现多样化生成能力,但这与用户偏好不一致。现有的奖励模型通过后处理选择图像来对齐奖励,但会损害多样性、语义保真度和效率。
  • Method: 提出MIRO方法,在训练过程中直接使用多个奖励模型来条件化模型,让模型直接学习用户偏好。
  • Result: MIRO在GenEval组合基准测试和用户偏好评分(PickAScore、ImageReward、HPSv2)上实现了最先进的性能,显著提高了生成图像的视觉质量和训练速度。
  • Conclusion: 通过在训练过程中直接条件化多个奖励模型,MIRO能够更好地学习用户偏好,同时保持多样性和语义保真度,比后处理选择方法更有效。

[3] BikeScenes: Online LiDAR Semantic Segmentation for Bicycles

Denniz Goren,Holger Caesar

Main category: cs.CV

TL;DR: 该论文开发了针对自行车的3D LiDAR分割方法,创建了BikeScenes-lidarseg数据集,通过领域特定训练显著提升了分割性能。

  • Motivation: 随着电动自行车日益普及,骑行者面临的安全风险增加,需要将汽车感知技术适配到自行车安全应用中。
  • Method: 使用多传感器'SenseBike'研究平台,开发自行车专用的3D LiDAR分割方法,并创建包含3021个连续LiDAR扫描的BikeScenes数据集,包含29个动态和静态类别的语义标注。
  • Result: 在BikeScenes数据集上微调后,模型达到63.6%的平均交并比(mIoU),显著优于仅使用SemanticKITTI预训练的13.8%结果。
  • Conclusion: 领域特定训练对于自行车感知系统至关重要,BikeScenes数据集为以骑行者为中心的LiDAR分割研究提供了重要资源。

[4] Generative Image Restoration and Super-Resolution using Physics-Informed Synthetic Data for Scanning Tunneling Microscopy

Nikola L. Kolev,Tommaso Rodani,Neil J. Curson,Taylor J. Z. Stock,Alberto Cazzaniga

Main category: cs.CV

TL;DR: 提出一种基于机器学习的STM图像修复和超分辨率方法,使用仅36张原始实验图像,通过物理信息合成数据生成训练模型,能有效修复图像并实现2-4倍图像采集时间减少。

  • Motivation: 解决STM技术中针尖退化和缓慢串行数据采集的限制,减少针尖调节频率并提高现有高速STM系统的帧率。
  • Method: 使用物理信息合成数据生成管道训练最先进的流匹配和扩散模型,仅需36张原始Si(001):H实验图像。
  • Result: 模型能有效修复图像,通过稀疏采样数据准确重建图像,实现2-4倍的图像采集时间减少。
  • Conclusion: 该框架有潜力显著提高STM实验通量,减少针尖调节程序频率并增强现有高速STM系统的帧率。

[5] SplitFlow: Flow Decomposition for Inversion-Free Text-to-Image Editing

Sung-Hoon Yoon,Minghan Li,Gaspard Beaudouin,Congcong Wen,Muhammad Rafay Azhar,Mengyu Wang

Main category: cs.CV

TL;DR: 提出了一种基于流分解和聚合的免反演图像编辑框架,通过语义分解目标提示词、独立计算子流并自适应聚合,解决了现有流模型在图像编辑中的反演不准确和梯度纠缠问题。

  • Motivation: 现有整流流模型在图像生成方面表现出色,但在图像编辑任务中存在关键限制:反演过程不准确导致真实图像无法正确映射到潜在空间,编辑过程中的梯度纠缠问题使输出无法忠实反映目标提示。
  • Method: 提出流分解与聚合框架:1)将目标提示词语义分解为多个子提示词;2)为每个子提示词计算独立流;3)设计投影和软聚合机制,自适应加权子目标速度场,抑制语义冗余同时强调不同方向。
  • Result: 实验结果表明,该方法在语义保真度和属性解缠方面优于现有的零样本编辑方法。
  • Conclusion: 通过流分解和自适应聚合机制,该方法能够同时保持编辑输出的多样性和一致性,有效解决了现有流模型在图像编辑中的局限性。

[6] Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Roman Beliy,Amit Zalcher,Jonathan Kogman,Navve Wasserman,Michal Irani

Main category: cs.CV

TL;DR: Brain-IT:一种基于大脑功能聚类的fMRI图像重建方法,通过Brain Interaction Transformer实现脑区与图像特征的直接交互,显著提升重建图像的忠实度。

  • Motivation: 现有基于扩散模型的fMRI图像重建方法在忠实度方面存在不足,需要更有效的大脑信息整合机制。
  • Method: 使用Brain Interaction Transformer(BIT)实现功能相似脑区簇之间的交互,预测语义和结构两种互补的图像特征来指导扩散模型重建。
  • Result: 方法在视觉和客观指标上均超越现有技术,仅用1小时fMRI数据即可达到与40小时数据训练方法相当的效果。
  • Conclusion: Brain-IT通过大脑功能聚类和直接信息流机制,实现了更忠实的fMRI图像重建,显著降低了数据需求。

[7] Fine-tuning Segment Anything for Real-Time Tumor Tracking in Cine-MRI

Valentin Boussot,Cédric Hémon,Jean-Claude Nunes,Jean-Louis Dillenseger

Main category: cs.CV

TL;DR: 该论文针对TrackRAD2025挑战赛中的实时肿瘤跟踪问题,在数据稀缺条件下,探索了两种策略并最终选择基于SAM 2.1基础模型的分割方法,在隐藏测试集上获得0.8794的Dice分数,排名第6。

  • Motivation: 解决在胸腹部cine-MRI序列中实时肿瘤跟踪的挑战,特别是在强数据稀缺约束下,为MRI引导的放射治疗提供准确、实时的肿瘤定位方案。
  • Method: 采用SAM 2.1基础模型进行分割,使用第一张标注切片的掩码作为提示,仅在TrackRAD2025的小标注子集上进行微调,采用1024x1024补丁、标准数据增强和平衡的Dice+IoU损失函数。
  • Result: 在隐藏测试集上达到0.8794的Dice相似系数,在TrackRAD2025挑战赛中排名第6位,证明了基础模型在实时MRI肿瘤跟踪中的有效性。
  • Conclusion: 基础模型在MRI引导的放射治疗中具有强大的实时肿瘤跟踪潜力,能够在数据稀缺条件下实现准确的肿瘤定位。

[8] Larger Hausdorff Dimension in Scanning Pattern Facilitates Mamba-Based Methods in Low-Light Image Enhancement

Xinhua Wang,Caibo Feng,Xiangjun Fu,Chunxiao Liu

Main category: cs.CV

TL;DR: 提出了一种增强Mamba框架的方法,通过Hilbert选择性扫描机制增加扫描模式的Hausdorff维度,从而更有效地探索特征空间,捕获精细细节,改善信息一致性,同时保持处理长距离依赖的能力。

  • Motivation: 现有Mamba框架在低光图像增强中可能无法充分捕获精细尺度的细节信息,存在信息不一致性问题,需要改进扫描模式以更好地处理空间局部性和长距离依赖。
  • Method: 采用Hilbert选择性扫描机制,通过增加扫描模式的Hausdorff维度来更有效地探索特征空间,改善空间局部性,同时保持处理长距离依赖的能力。
  • Result: 在公开基准测试上的大量实验表明,该方法显著提高了现有基于Mamba的低光图像增强方法的定量指标和定性视觉保真度,同时减少了计算资源消耗和缩短了推理时间。
  • Conclusion: 这种改进策略不仅推进了低光图像增强的最新技术水平,而且在利用Mamba技术的更广泛应用领域具有前景。

[9] CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments

Rishika Bhagwatkar,Syrielle Montariol,Angelika Romanou,Beatriz Borges,Irina Rish,Antoine Bosselut

Main category: cs.CV

TL;DR: CAVE是首个真实世界视觉异常基准,支持异常描述、解释和验证三个开放任务,包含细粒度标注,用于评估视觉语言模型在异常检测和理解方面的能力。

  • Motivation: 现有计算机视觉中的异常检测仅限于工业缺陷或合成异常,无法捕捉真实世界异常的丰富性和不可预测性,人类却能自然地识别、推理和解释环境中的异常。
  • Method: 构建CAVE基准数据集,包含基于认知科学的细粒度标注,涵盖异常的可视化表现、复杂性、严重性和常见性,为评估视觉语言模型提供全面框架。
  • Result: 实验表明,即使采用先进的提示策略,最先进的视觉语言模型在视觉异常感知和常识推理方面仍存在困难。
  • Conclusion: CAVE作为一个现实且认知基础扎实的基准,为推进异常检测和视觉语言模型中的常识推理研究提供了宝贵资源。

[10] Climate Adaptation-Aware Flood Prediction for Coastal Cities Using Deep Learning

Bilal Hassan,Areg Karapetyan,Aaron Chung Hin Chow,Samer Madanat

Main category: cs.CV

TL;DR: 提出了一种轻量级CNN模型,用于预测不同海平面上升情景下的沿海洪水淹没,在阿布扎比和旧金山两个地区验证了模型的泛化能力,平均减少洪水深度预测误差近20%。

  • Motivation: 气候变化和海平面上升对沿海城市构成日益严重的威胁,传统物理模拟器计算成本高昂,深度学习技术面临数据稀缺和高维输出等挑战。
  • Method: 利用基于视觉的低资源深度学习框架,开发了轻量级卷积神经网络模型,可预测不同海平面上升和海岸线适应情景下的沿海洪水。
  • Result: 模型在两个不同地理区域(阿布扎比和旧金山)的数据集上表现出良好的泛化能力,平均减少了洪水深度图的平均绝对误差近20%,优于现有最先进方法。
  • Conclusion: 该方法可作为沿海洪水管理的可扩展实用工具,帮助决策者制定有效的缓解策略以应对气候变化影响。

[11] Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders

Ali Rasekh,Erfan Bagheri Soula,Omid Daliran,Simon Gottschalk,Mohsen Fayyaz

Main category: cs.CV

TL;DR: 提出了一种在视觉编码器中引入堆叠时间注意力模块的Video-LLM架构,显著提升了视频时序理解能力,在多个基准测试中性能提升达5.5%

  • Motivation: 当前多模态大语言模型在理解视频复杂时序动态方面存在严重局限性,难以处理需要详细理解动作序列和时序进展的任务
  • Method: 在视觉编码器中直接引入堆叠时间注意力模块,通过时间注意力机制使模型能够更好地捕捉动作进展和帧间关系,然后再将视觉标记传递给LLM
  • Result: 该方法显著改善了时序推理能力,在视频问答任务特别是动作识别方面优于现有模型,在VITATECS、MVBench和Video-MME等基准测试上性能提升最高达5.5%
  • Conclusion: 通过在视觉编码器中增强时间结构,解决了Video-LLMs在视频理解方面的关键差距

[12] FlexICL: A Flexible Visual In-context Learning Framework for Elbow and Wrist Ultrasound Segmentation

Yuyue Zhou,Jessica Knight,Shrimanti Ghosh,Banafshe Felfeliyan,Jacob L. Jaremko,Abhilash R. Hareendranathan

Main category: cs.CV

TL;DR: 提出FlexICL框架,用于超声图像中骨骼区域的少样本分割,仅需5%标注数据即可在4个手腕和肘部超声数据集上实现鲁棒分割性能。

  • Motivation: 解决儿科肘部和手腕骨折超声诊断中像素级专家标注耗时且成本高的问题,为轻训练用户提供实时反馈和关键结构突出显示。
  • Method: 提出灵活的上下文学习(ICL)框架FlexICL,系统研究图像拼接技术和训练策略,引入新颖的拼接方法,整合多种增强策略进行视频内分割。
  • Result: 在1,252个超声扫描上,Dice系数比Painter、MAE-VQGAN等最先进视觉ICL模型以及U-Net、TransUNet等传统分割模型高出1-27%。
  • Conclusion: FlexICL为标注数据稀缺的医学成像用例提供了高效且可扩展的超声图像分割解决方案。

[13] Dynamic VLM-Guided Negative Prompting for Diffusion Models

Hoyeon Chang,Seungjin Kim,Yoonseok Choi

Main category: cs.CV

TL;DR: 提出了一种基于视觉语言模型的动态负提示方法,在去噪过程中自适应生成负提示,相比传统固定负提示方法能更好地平衡负引导强度与文本-图像对齐。

  • Motivation: 传统负提示方法使用固定的负提示,缺乏对生成过程中上下文的自适应能力,限制了负引导的效果和灵活性。
  • Method: 在特定去噪步骤生成中间图像预测,然后查询视觉语言模型来生成上下文相关的负提示,实现动态负提示生成。
  • Result: 在多个基准数据集上的评估表明,该方法在负引导强度和文本-图像对齐之间取得了更好的平衡。
  • Conclusion: 动态负提示方法通过视觉语言模型的自适应能力,显著提升了扩散模型中负提示的有效性和灵活性。

[14] Security Risk of Misalignment between Text and Image in Multi-modal Model

Xiaosen Wang,Zhijin Ge,Shaokang Wang

Main category: cs.CV

TL;DR: 提出了一种名为PReMA的新型多模态攻击方法,通过仅修改输入图像而不改变提示词来操纵多模态扩散模型的输出内容,特别是在图像编辑应用中产生不当内容。

  • Motivation: 现有多模态扩散模型(如文本到图像模型)中文本和图像模态之间的对齐不足,存在生成不当内容的风险,但相关对抗性攻击研究较少。
  • Method: 提出Prompt-Restricted Multi-modal Attack (PReMA)方法,通过创建对抗性图像来操纵模型输出,而不需要修改提示词本身。
  • Result: 在图像修复和风格迁移任务上的综合评估证实了PReMA的有效性,能够成功操纵模型生成不当内容。
  • Conclusion: PReMA对多模态扩散模型的完整性构成了新的威胁,特别是在使用固定提示词的图像编辑应用中。

[15] EgoExo-Con: Exploring View-Invariant Video Temporal Understanding

Minjoon Jung,Junbin Xiao,Junghyun Kim,Byoung-Tak Zhang,Angela Yao

Main category: cs.CV

TL;DR: 提出了EgoExo-Con基准,用于评估视频-LLM在不同视角下对同一事件的时间理解一致性,并开发了View-GRPO方法来提升跨视角一致性。

  • Motivation: 研究视频-LLM在不同视角下对同一事件的时间理解是否一致,现有模型在跨视角一致性方面存在明显不足。
  • Method: 引入EgoExo-Con基准,包含同步的自我视角和外部视角视频对,提出View-GRPO强化学习框架来增强视角特定的时间推理和跨视角一致性理解。
  • Result: 现有模型在跨视角一致性方面表现较差,View-GRPO方法相比朴素SFT和GRPO在提升跨视角一致性方面表现更优。
  • Conclusion: 跨视角时间理解一致性是视频-LLM的重要挑战,View-GRPO方法能有效提升模型在这方面的性能。

[16] OracleAgent: A Multimodal Reasoning Agent for Oracle Bone Script Research

Caoshuo Li,Zengmao Ding,Xiaobin Hu,Bang Li,Donghao Luo,Xu Peng,Taisong Jin,Yongge Liu,Shengwei Han,Jing Yang,Xiaoping He,Feng Gao,AndyPian Wu,SevenShu,Chaoyang Wang,Chengjie Wang

Main category: cs.CV

TL;DR: OracleAgent是首个专为甲骨文结构化管理和检索设计的智能体系统,通过集成多模态知识库和LLM技术,显著提升甲骨文研究的效率和准确性。

  • Motivation: 甲骨文研究面临两大挑战:复杂的多任务解读流程,以及信息组织和检索效率低下的瓶颈。学者需要花费大量时间搜索、整理和管理相关资源。
  • Method: 构建包含140万单字拓片图像和8万解读文本的多模态知识库,开发OracleAgent智能体系统,集成多种甲骨文分析工具并利用大语言模型灵活编排这些组件。
  • Result: 实验表明OracleAgent在多模态推理和生成任务上表现优异,超越主流MLLMs(如GPT-4o)。案例研究证实能有效协助领域专家,显著降低甲骨文研究的时间成本。
  • Conclusion: OracleAgent是甲骨文辅助研究和自动解读系统实用化部署的重要进展,为文化遗产保护提供了有效的技术解决方案。

[17] JOGS: Joint Optimization of Pose Estimation and 3D Gaussian Splatting

Yuxuan Li,Tao Wang,Xianben Yang

Main category: cs.CV

TL;DR: 提出了一种联合优化3D高斯点和相机位姿的统一框架,无需预标定输入,通过解耦的交替优化策略同时提升场景重建保真度和位姿精度。

  • Motivation: 传统新视角合成方法依赖外部相机位姿估计工具如COLMAP,存在计算瓶颈和误差传播问题,需要解决这些挑战。
  • Method: 采用联合优化框架,将优化解耦为两个交替阶段:固定位姿时通过可微分渲染更新3D高斯参数,然后使用结合几何和光度约束的自定义3D光流算法优化相机位姿。
  • Result: 在多个数据集上的广泛评估表明,该方法在重建质量上显著优于现有无COLMAP技术,总体上甚至超越了基于COLMAP的标准基线方法。
  • Conclusion: 该联合优化框架能够有效处理大视角变化和稀疏特征分布等挑战性场景,逐步减少投影误差,实现高质量的新视角合成。

[18] WOD-E2E: Waymo Open Dataset for End-to-End Driving in Challenging Long-tail Scenarios

Runsheng Xu,Hubert Lin,Wonseok Jeon,Hao Feng,Yuliang Zou,Liting Sun,John Gorman,Kate Tolstaya,Sarah Tang,Brandyn White,Ben Sapp,Mingxing Tan,Jyh-Jing Hwang,Drago Anguelov

Main category: cs.CV

TL;DR: 提出了WOD-E2E数据集,专门针对罕见的长尾驾驶场景(发生频率<0.03%),包含4,021个驾驶片段,并引入了基于评分者偏好的新评估指标RFS。

  • Motivation: 当前端到端驾驶基准主要关注常规场景,无法充分测试系统在复杂长尾情况下的真实潜力,且现有评估指标难以有效评估多模态驾驶性能。
  • Method: 构建了包含12小时驾驶数据的WOD-E2E数据集,专门筛选罕见长尾场景,并设计了Rater Feedback Score评估指标,通过评分者标注的轨迹偏好标签来评估预测轨迹质量。
  • Result: 发布了包含评分者偏好标签的验证集,测试集标签用于2025 WOD-E2E挑战赛,数据集包含高级路由信息、自车状态和8个环视摄像头数据。
  • Conclusion: 该工作旨在推动可泛化、鲁棒且安全的端到端自动驾驶研究,使其能够处理复杂的真实世界情况。

[19] Exploring Object-Aware Attention Guided Frame Association for RGB-D SLAM

Ali Caglayan,Nevrez Imamoglu,Oguzhan Guclu,Ali Osman Serhatoglu,Ahmet Burak Can,Ryosuke Nakamura

Main category: cs.CV

TL;DR: 提出了一种将基于梯度的网络注意力信息与CNN特征表示相结合的方法,用于改进RGB-D室内SLAM中的帧关联性能

  • Motivation: 现有方法虽然能通过梯度识别网络在图像识别中的关注区域,但将这些注意力信息直接集成到CNN表示中以进行语义对象理解的研究仍然有限,特别是在SLAM等视觉任务中
  • Method: 利用任务特定的网络注意力,将基于网络梯度的分层注意力信息与CNN特征表示相集成
  • Result: 实验结果表明,与基线方法相比性能有所提升,特别是在大型环境中表现更好
  • Conclusion: 将网络注意力信息集成到CNN表示中可以有效提升SLAM系统的性能

[20] FullPart: Generating each 3D Part at Full Resolution

Lihe Ding,Shaocong Dong,Yaokun Li,Chenjian Gao,Xiao Chen,Rui Han,Yihao Kuang,Hong Zhang,Bo Huang,Zhanpeng Huang,Zibin Wang,Dan Xu,Tianfan Xue

Main category: cs.CV

TL;DR: FullPart是一个结合隐式和显式表示的3D部件生成框架,通过隐式扩散生成边界框布局,然后在各自的全分辨率体素网格中生成详细部件,解决了小部件细节不足的问题。

  • Motivation: 现有的3D部件生成方法存在两个问题:隐式向量集表示缺乏几何细节,而显式体素表示共享全局网格导致小部件体素过少、质量下降。
  • Method: 首先通过隐式边界框向量集扩散过程生成边界框布局,然后在每个部件的固定全分辨率体素网格中生成详细几何。引入中心点编码策略解决不同尺寸部件间的信息交换对齐问题。
  • Result: FullPart在3D部件生成方面达到了最先进的性能,能够合成复杂细节,即使对小部件也能保持高质量。
  • Conclusion: FullPart成功结合了隐式和显式范式的优势,解决了3D部件生成中的细节保留问题,并通过PartVerse-XL数据集为未来研究提供了重要资源。

[21] BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation

Wei Shang,Wanying Zhang,Shuhang Gu,Pengfei Zhu,Qinghua Hu,Dongwei Ren

Main category: cs.CV

TL;DR: 提出了BasicAVSR作为任意尺度视频超分辨率的强基线方法,集成了自适应多尺度频率先验、流引导传播单元、二阶运动补偿和超上采样单元四个关键组件,并提供了三种传播变体以适应不同应用场景。

  • Motivation: 任意尺度视频超分辨率在空间细节再现、时间一致性和计算复杂度方面面临挑战,需要一种能够适应不同缩放因子和应用场景的通用解决方案。
  • Method: 1) 基于图像拉普拉斯金字塔的自适应多尺度频率先验;2) 流引导传播单元聚合相邻帧的时空信息;3) 二阶运动补偿单元实现更准确的空间对齐;4) 超上采样单元生成尺度感知且内容无关的上采样核。提供三种传播变体:单向RNN(在线推理)、带有限前瞻的单向RNN(容忍小延迟)和双向RNN(离线任务)。
  • Result: 实验结果表明BasicAVSR在超分辨率质量、泛化能力和推理速度方面显著优于现有方法,在不同场景下都表现出有效性和适应性。
  • Conclusion: BasicAVSR不仅推进了任意尺度视频超分辨率的技术水平,还将核心组件扩展到多个框架以适应多样化场景,为相关研究提供了强基线。

[22] MV-MLM: Bridging Multi-View Mammography and Language for Breast Cancer Diagnosis and Risk Prediction

Shunjie-Fabian Zheng,Hyeonjun Lee,Thijs Kooi,Ali Diba

Main category: cs.CV

TL;DR: 提出了一种新颖的多视角乳腺X光与语言模型(MV-MLM),通过跨模态自监督学习从乳腺X光图像和合成放射学报告中学习丰富表示,在乳腺癌分类和风险预测任务中达到最先进性能。

  • Motivation: 获取带有精细标注的大型医学影像数据集成本高昂且耗时,而预训练的视觉语言模型(如CLIP)能够提高医学影像任务的鲁棒性和数据效率。
  • Method: 利用多视角监督和跨模态自监督学习,结合乳腺X光图像的多个视角和对应的伪放射学报告,提出联合视觉-文本学习策略来区分乳腺组织或癌症特征(钙化、肿块)。
  • Result: 在私人和公开数据集上的评估显示,该模型在三个分类任务中达到最先进性能:恶性分类、亚型分类和基于图像的癌症风险预测,同时表现出强大的数据效率。
  • Conclusion: 该模型仅使用合成文本报告训练,无需真实放射学报告,就能超越现有的全监督或VLM基线方法,证明了其在医学影像分析中的有效性。

[23] Detecting Unauthorized Vehicles using Deep Learning for Smart Cities: A Case Study on Bangladesh

Sudipto Das Sukanto,Diponker Roy,Fahim Shakil,Nirjhar Singha,Abdullah Asik,Aniket Joarder,Mridha Md Nafis Fuad,Muhammad Ibrahim

Main category: cs.CV

TL;DR: 本文提出了一种基于YOLOv8模型的自动检测孟加拉国机动三轮车的方法,解决了现有监控系统难以区分机动与非机动三轮车的问题。

  • Motivation: 在南亚国家,三轮车是常见的交通工具,但机动三轮车在某些路段受限。现有监控系统难以区分机动与非机动三轮车,人工视频分析又耗时。
  • Method: 使用YOLOv8模型进行实时目标检测,准备了1,730张在不同交通条件下拍摄的标注图像进行训练。
  • Result: 模型在实时检测中表现良好,mAP50达到83.447%,二元精确率和召回率均超过78%,能有效处理密集和稀疏交通场景。
  • Conclusion: 该方法能有效自动检测机动三轮车,数据集已公开供进一步研究。

[24] CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

Jiaqi Wang,Xiao Yang,Kai Sun,Parth Suresh,Sanat Sharma,Adam Czyzewski,Derek Andersen,Surya Appini,Arkav Banerjee,Sajal Choudhary,Shervin Ghasemlou,Ziqiang Guan,Akil Iyer,Haidar Khan,Lingkun Kong,Roy Luo,Tiffany Ma,Zhen Qiao,David Tran,Wenfang Xu,Skyler Yeatman,Chen Zhou,Gunveer Gujral,Yinglong Xia,Shane Moon,Nicolas Scheffer,Nirav Shah,Eun Chang,Yue Liu,Florian Metze,Tammy Stark,Zhaleh Feizollahi,Andrea Jessee,Mangesh Pujari,Ahmed Aly,Babak Damavandi,Rakesh Wanga,Anuj Kumar,Rohit Patel,Wen-tau Yih,Xin Luna Dong

Main category: cs.CV

TL;DR: 提出了CRAG-MM基准测试,包含6.5K个图像-问题-答案三元组和2K个多轮对话,涵盖13个领域,特别关注可穿戴设备场景,评估多模态检索增强生成系统的性能。

  • Motivation: 填补多模态检索增强生成在可穿戴设备场景下缺乏全面基准测试的空白,为智能眼镜等设备提供更好的信息检索支持。
  • Method: 构建包含6.5K个图像-问题-答案三元组和2K个多轮对话的数据集,涵盖13个领域,包含6.2K个模仿可穿戴设备拍摄的自我中心图像,设计了五种图像质量问题、六种问题类型等真实场景挑战。
  • Result: 现有RAG方法在单轮和多轮问答中的真实性分别仅为32%和43%,业界最优解决方案也仅有32%/45%,显示仍有很大改进空间。
  • Conclusion: CRAG-MM基准测试已成功应用于KDD Cup 2025竞赛,吸引了约1K参与者和5K提交,获胜方案将基线性能提升了28%,对推动该领域发展具有重要影响。

[25] MoTDiff: High-resolution Motion Trajectory estimation from a single blurred image using Diffusion models

Wontae Choi,Jaelin Lee,Hyung Sup Yun,Byeungwoo Jeon,Il Yong Chun

Main category: cs.CV

TL;DR: 提出了首个基于扩散模型的高分辨率运动轨迹估计框架MoTDiff,能够从单张运动模糊图像中提取高质量的运动轨迹信息

  • Motivation: 现有从单张模糊图像提取运动信息的方法(如模糊核和光流)通常质量较低,存在粗粒度和不准确的问题,需要更高质量的运动表示
  • Method: MoTDiff包含两个关键组件:1)使用从模糊图像提取的多尺度特征图作为条件的条件扩散框架;2)促进精确识别细粒度运动轨迹、一致估计运动路径整体形状位置以及沿轨迹像素连通性的新训练方法
  • Result: 实验表明MoTDiff在盲图像去模糊和编码曝光摄影应用中优于现有最先进方法
  • Conclusion: 提出的MoTDiff框架能够从单张运动模糊图像中估计出高质量的高分辨率运动轨迹,为计算成像和计算机视觉应用提供了更精确的运动信息

[26] ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts

Jinho Choi,Hyesu Lim,Steffen Schneider,Jaegul Choo

Main category: cs.CV

TL;DR: ConceptScope是一个可扩展的自动化框架,用于通过稀疏自编码器分析视觉数据集中的概念偏差,无需精细属性标注即可识别目标、上下文和偏差概念。

  • Motivation: 机器学习数据集中普遍存在数据集偏差问题,但系统识别这些偏差需要成本高昂的精细属性标注,因此需要开发无需标注的自动化偏差检测方法。
  • Method: 使用在视觉基础模型表示上训练的稀疏自编码器来发现和量化人类可解释的概念,根据语义相关性和统计相关性将概念分类为目标、上下文和偏差类型。
  • Result: ConceptScope能够捕获广泛的视觉概念,产生与语义相关图像区域对齐的空间归因,可靠检测已知偏差并发现未标注的偏差,如Waterbirds中的背景偏差和ImageNet中的共现对象偏差。
  • Conclusion: ConceptScope为数据集审计和模型诊断提供了一个实用的工具,能够自动识别和量化数据集中的概念偏差,提高机器学习系统的鲁棒性。

[27] Sketch2PoseNet: Efficient and Generalized Sketch to 3D Human Pose Prediction

Li Wang,Yiyu Zhuang,Yanwen Wang,Xun Cao,Chuan Guo,Xinxin Zuo,Hao Zhu

Main category: cs.CV

TL;DR: 提出了一种基于"从合成中学习"策略的新方法,通过扩散模型生成素描图像创建合成数据集SKEP-120K,并开发端到端框架从多样化素描风格中估计人体姿态和形状。

  • Motivation: 解决传统素描到3D姿态估计方法因缺乏大规模素描-3D姿态标注数据而依赖耗时优化和启发式规则的问题,提高方法的泛化能力和效率。
  • Method: 1) 训练扩散模型从2D姿态合成素描图像,创建SKEP-120K合成数据集;2) 结合现有2D姿态检测器和生成扩散先验进行素描特征提取;3) 使用前馈神经网络进行2D姿态估计;4) 引入多种启发式损失函数保证几何一致性。
  • Result: 定性和定量评估表明,该方法在素描到姿态任务的估计精度和速度上都显著超越了先前方法。
  • Conclusion: 提出的"从合成中学习"策略和端到端框架有效解决了素描到3D人体姿态估计的挑战,在精度和效率方面实现了显著提升。

[28] Developing a Multi-task Ensemble Geometric Deep Network for Supply Chain Sustainability and Risk Management

Mehdi Khaleghi,Nastaran Khaleghi,Sobhan Sheykhivand,Sebelan Danishvar

Main category: cs.CV

TL;DR: 提出了一种名为Ch-EGN的集成几何深度网络,结合卷积和几何深度学习,用于供应链风险管理和可持续性分析。在DataCo数据集上实现98.95%的风险管理准确率,在SupplyGraph数据集上实现100%的产品分类准确率。

  • Motivation: 供应链可持续性对优化供应链性能至关重要,风险管理是提升供应链网络可持续性和效率的关键问题。产品正确分类也是可持续供应链的重要元素。
  • Method: 提出Chebyshev集成几何网络(Ch-EGN),这是一种混合卷积和几何深度学习的方法,利用供应链中的信息依赖关系来推导数据库中样本的不可见状态。
  • Result: 在DataCo数据集上实现98.95%的风险管理准确率;在SupplyGraph数据集上实现100%的5类产品分类准确率、98.07%的4类产品关系分类准确率、92.37%的25类公司关系分类准确率。
  • Conclusion: 所提出的方法相比现有最先进方法具有平均改进和效率提升,结果证实了该方法在供应链风险管理和可持续性分析中的有效性。

[29] OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

Hengrui Kang,Zhuangcheng Gu,Zhiyuan Zhao,Zichen Wen,Bin Wang,Weijia Li,Conghui He

Main category: cs.CV

TL;DR: 提出了OmniLayout-1M数据集和OmniLayout-LLM模型,解决文档布局生成领域数据稀缺和现有方法在复杂领域表现不佳的问题。

  • Motivation: 文档布局生成领域缺乏多样性数据,现有研究主要关注学术论文的曼哈顿式结构,而报纸、杂志等开放世界文档类型严重不足。
  • Method: 构建百万级多样化文档布局数据集OmniLayout-1M,并提出0.5B参数的OmniLayout-LLM模型,采用两阶段粗到细学习范式:先在粗粒度类别上学习通用布局原则,再迁移到特定领域进行细粒度学习。
  • Result: 在M6Doc数据集上,该方法在多个领域表现出色,显著超越现有布局生成专家和最新通用大语言模型。
  • Conclusion: OmniLayout-1M数据集和OmniLayout-LLM模型有效解决了文档布局生成的数据稀缺和复杂领域挑战,为多样化文档布局生成提供了有力支持。

[30] Which Way Does Time Flow? A Psychophysics-Grounded Evaluation for Vision-Language Models

Shiho Matta,Lis Kanashiro Pereira,Peitao Han,Fei Cheng,Shigeru Kitazawa

Main category: cs.CV

TL;DR: 该论文提出了AoT-PsyPhyBENCH基准,用于评估视觉语言模型在判断视频时间方向(正向或反向播放)方面的能力,发现现有模型表现接近随机猜测,远低于人类水平。

  • Motivation: 现代视觉语言模型在多模态任务中表现出色,但对视频中时间信息的理解能力较弱且缺乏充分评估,需要专门测试其时间方向判断能力。
  • Method: 引入AoT-PsyPhyBENCH基准,使用与人类行为研究相同的刺激物和基线,全面评估开放权重和专有、推理和非推理的视觉语言模型。
  • Result: 大多数模型在物理不可逆过程(如自由落体、扩散/爆炸)和因果手动动作(分割/加法)上的表现接近随机水平,即使最佳模型也远低于人类准确率。
  • Conclusion: 当前多模态系统虽然能捕捉丰富的视觉语义关联,但缺乏时间连续性和因果理解所需的归纳偏差,存在根本性能力差距。

[31] Revisiting Generative Infrared and Visible Image Fusion Based on Human Cognitive Laws

Lin Guo,Xiaoqing Luo,Wei Xie,Zhancheng Zhang,Hui Li,Rui Wang,Zhenhua Feng,Xiaoning Song

Main category: cs.CV

TL;DR: 提出HCLFuse方法,基于人类认知规律改进红外与可见光图像融合,通过多尺度掩码调节变分瓶颈编码器和时变物理引导机制,提升融合质量和结构一致性。

  • Motivation: 现有融合方法在模态信息平衡方面存在困境,生成式方法生成能力有限且缺乏可解释性,影响复杂场景下的可靠性和一致性。
  • Method: 设计多尺度掩码调节变分瓶颈编码器进行后验概率建模和信息分解,结合扩散模型的概率生成能力与时变物理引导机制。
  • Result: 在多个数据集上实现最先进的融合性能,显著提升语义分割指标,验证了结构一致性和细节质量的提升。
  • Conclusion: 基于人类认知启发的生成式图像融合方法在增强结构一致性和细节质量方面具有显著优势。

[32] Exploring Complementarity and Explainability in CNNs for Periocular Verification Across Acquisition Distances

Fernando Alonso-Fernandez,Kevin Hernandez Diaz,Jose M. Buades,Kiran Raja,Josef Bigun

Main category: cs.CV

TL;DR: 该论文研究了不同CNN架构在远距离虹膜验证中的互补性,通过融合SqueezeNet、MobileNetv2和ResNet50三种网络,在UBIPr数据库上实现了新的最优性能。

  • Motivation: 探索不同复杂度的CNN架构在远距离虹膜验证任务中的互补性,以提升识别性能。
  • Method: 在VGGFace2的大规模眼部图像上训练三种CNN架构,使用余弦和chi2距离度量,进行分数级融合,并利用LIME热图和Jensen-Shannon散度分析注意力模式。
  • Result: ResNet50单独性能最佳,但三种网络融合带来显著提升,热图显示不同网络关注不同图像区域,验证了互补性。在UBIPr数据库上超越了先前工作。
  • Conclusion: 不同CNN架构在虹膜验证中具有互补性,网络融合策略能显著提升性能,为远距离生物识别提供了有效方法。

[33] Beyond Imitation: Constraint-Aware Trajectory Generation with Flow Matching For End-to-End Autonomous Driving

Lin Liu,Guanyi Yu,Ziying Song,Junqiao Li,Caiyan Jia,Feiyang Jia,Peiliang Wu,Yandan Luo

Main category: cs.CV

TL;DR: CATG是一个基于约束流匹配的新型自动驾驶规划框架,通过显式约束直接整合安全性和运动学规则,避免模式崩溃并支持多样化轨迹生成。

  • Motivation: 现有模仿学习方法存在模式崩溃问题,无法生成多样化轨迹假设;而生成方法难以在生成过程中直接整合安全约束,需要额外优化阶段。
  • Method: 采用约束流匹配方法,在流匹配过程中显式施加安全性和运动学约束,并将驾驶激进程度参数化为控制信号来操纵轨迹风格。
  • Result: 在NavSim v2挑战赛中获得第二名,EPDMS得分为51.31,并获得创新奖。
  • Conclusion: CATG通过约束流匹配有效解决了自动驾驶规划中的模式崩溃和约束整合问题,能够生成既安全又多样化的轨迹。

[34] Leveraging Large-Scale Face Datasets for Deep Periocular Recognition via Ocular Cropping

Fernando Alonso-Fernandez,Kevin Hernandez-Diaz,Jose Maria Buades Rubio,Josef Bigun

Main category: cs.CV

TL;DR: 该论文评估了三种不同深度和复杂度的卷积神经网络在眼周生物识别中的效果,使用大规模VGGFace2数据库进行训练,在UFPR-Periocular数据集上取得了1-2%的等错误率,这是该数据集上迄今最低的报告结果。

  • Motivation: 研究眼周生物识别技术,该区域具有高区分度和最小采集约束,旨在评估深度神经网络在眼周识别中的有效性,特别是使用大规模训练数据与现有小规模数据集方法的对比。
  • Method: 使用三种不同深度和复杂度的卷积神经网络架构,在从VGGFace2数据库中提取的1,907,572个眼部区域图像上进行训练,并在VGGFace2-Pose和UFPR-Periocular两个数据集上进行实验评估。
  • Result: 在非受控条件下的VGGFace2数据集上,眼部区域图像的等错误率为9-15%,而完整面部图像的等错误率为3-6%。在UFPR-Periocular数据集上获得了1-2%的等错误率,这是该数据集上迄今最低的报告结果。
  • Conclusion: 眼周生物识别在高质量图像和一致采集协议下表现优异,使用大规模训练数据可以显著提升性能,在UFPR-Periocular数据集上取得了最先进的识别效果。

[35] Towards Realistic Earth-Observation Constellation Scheduling: Benchmark and Methodology

Luting Wang,Yinghao Xiang,Hongliang Huang,Dongjun Li,Chen Gao,Si Liu

Main category: cs.CV

TL;DR: 提出了AEOS-Bench基准套件和AEOS-Former调度模型,用于解决敏捷地球观测卫星星座在大规模、动态环境下的调度挑战。

  • Motivation: 现有方法简化了卫星调度的复杂性,限制了实际性能。需要在大规模场景、动态环境和严格约束下提供更现实的解决方案。
  • Method: 开发了包含3,907个卫星资源和16,410个场景的AEOS-Bench基准套件,并提出了基于Transformer的AEOS-Former调度模型,采用约束感知注意力机制和内部约束模块。
  • Result: AEOS-Former在任务完成率和能源效率方面优于基线模型,消融研究验证了各组件的重要性。
  • Conclusion: 该框架为AEOS星座调度提供了首个大规模基准和有效的深度学习方法,代码和数据已开源。

[36] Exploring the correlation between the type of music and the emotions evoked: A study using subjective questionnaires and EEG

Jelizaveta Jankowska,Bożena Kostek,Fernando Alonso-Fernandez,Prayag Tiwari

Main category: cs.CV

TL;DR: 研究不同音乐类型对人类情绪的影响,通过EEG脑电波测量和主观问卷调查分析音乐与情绪的关系。

  • Motivation: 探索不同类型音乐如何影响人类情绪,通过客观的脑电波测量和主观情绪报告相结合的方法来验证音乐的情绪影响。
  • Method: 使用EEG头盔测量脑电活动,同时进行主观问卷调查,研究对象包括不同性别和音乐偏好的多样化参与者群体。
  • Result: 分析显示情绪与观察到的脑电活动之间存在关联,不同音乐类型引发了不同的情绪反应和相应的脑电模式。
  • Conclusion: 研究证实了不同类型音乐对人类情绪有显著影响,并且这种影响可以通过脑电活动客观测量,主观情绪报告与脑电信号存在相关性。

[37] A Hybrid Framework Bridging CNN and ViT based on Theory of Evidence for Diabetic Retinopathy Grading

Junlai Qiu,Yunzhu Chen,Hao Zheng,Yawen Huang,Yuexiang Li

Main category: cs.CV

TL;DR: 提出一种基于证据理论融合CNN和ViT特征的新范式,用于糖尿病视网膜病变分级,提高诊断准确性和可解释性

  • Motivation: 现有基于单一CNN或ViT的糖尿病视网膜病变诊断方法性能已达瓶颈,需要整合不同骨干网络的各自优势(CNN的局部特征提取能力和ViT的全局特征捕获能力)
  • Method: 通过深度证据网络将不同骨干网络提取的特征转换为支持证据,形成聚合意见,自适应调整融合模式,提升混合模型性能
  • Result: 在两个公开糖尿病视网膜病变分级数据集上的实验表明,该方法不仅提高了分级准确性,还提供了优秀的特征融合和决策可解释性
  • Conclusion: 基于证据理论的融合范式能有效整合CNN和ViT的优势,在糖尿病视网膜病变诊断中实现性能提升和可解释性增强

[38] GLYPH-SR: Can We Achieve Both High-Quality Image Super-Resolution and High-Fidelity Text Recovery via VLM-guided Latent Diffusion Model?

Mingyu Sung,Seungjae Ham,Kangwoo Kim,Yeokyoung Yoon,Sangseok Yun,Il-Min Kim,Jae-Mo Kang

Main category: cs.CV

TL;DR: GLYPH-SR是一个视觉语言引导的扩散框架,专门针对场景文本超分辨率,同时优化文本可读性和感知质量,在多个基准测试中显著提升OCR性能。

  • Motivation: 现有超分辨率研究主要关注失真或感知指标,但对字符级错误不敏感。场景文本(如标志、产品标签)通常包含最关键的信息,当字符模糊或被幻觉时,即使图像其他部分清晰,OCR和后续决策也会失败。
  • Method: 提出GLYPH-SR框架,使用基于OCR数据的文本超分辨率融合控制网络(TS-ControlNet)和乒乓调度器,在文本中心和场景中心引导之间交替。在合成语料库上训练这些组件,同时保持主要超分辨率分支冻结。
  • Result: 在SVT、SCUT-CTW1500和CUTE80数据集上的4倍和8倍超分辨率测试中,GLYPH-SR相比扩散/GAN基线将OCR F1分数提高了高达15.18个百分点,同时保持竞争力的MANIQA、CLIP-IQA和MUSIQ分数。
  • Conclusion: GLYPH-SR能够同时满足高可读性和高视觉真实性的双重目标,提供既看起来正确又能正确读取的超分辨率结果。

[39] EEG-Driven Image Reconstruction with Saliency-Guided Diffusion Models

Igor Abramov,Ilya Makarov

Main category: cs.CV

TL;DR: 提出了一种结合EEG嵌入和空间显著图的双条件框架,通过ATM提取EEG特征,使用LoRA微调Stable Diffusion 2.1,并利用ControlNet分支进行空间控制,显著提升了EEG驱动图像重建的质量和语义一致性。

  • Motivation: 现有EEG驱动图像重建方法往往忽视空间注意力机制,导致重建图像的保真度和语义连贯性受限。
  • Method: 使用自适应思维映射器(ATM)提取EEG特征,通过低秩适应(LoRA)微调Stable Diffusion 2.1,结合ControlNet分支利用显著图进行空间控制。
  • Result: 在THINGS-EEG数据集上评估,该方法在低层和高层图像特征质量上显著优于现有方法,同时与人类视觉注意力高度一致。
  • Conclusion: 注意力先验能够解决EEG信号的模糊性,实现高保真重建,在医学诊断和神经自适应接口中有应用前景,通过预训练扩散模型的高效适应推进了神经解码技术。

[40] LoCoT2V-Bench: A Benchmark for Long-Form and Complex Text-to-Video Generation

Xiangqing Zheng,Chengyue Wu,Kehai Chen,Min Zhang

Main category: cs.CV

TL;DR: 提出了LoCoT2V-Bench基准,专门用于评估复杂输入条件下的长视频生成,包含多维度评估框架和新指标,发现现有方法在事件间一致性、细粒度对齐和高级主题遵循方面存在不足。

  • Motivation: 现有文本到视频生成评估基准大多依赖简化提示,关注低层次指标,忽视了与提示的细粒度对齐以及叙事连贯性、主题表达等抽象维度。
  • Method: 基于真实世界视频构建包含场景转换和事件动态的现实复杂提示,建立多维度评估框架,包括事件级对齐、细粒度时间一致性、内容清晰度和人类期望实现度等新指标。
  • Result: 对9个代表性长视频生成模型的评估显示,现有方法在基本视觉和时间方面表现良好,但在事件间一致性、细粒度对齐和高级主题遵循等方面存在困难。
  • Conclusion: LoCoT2V-Bench为长格式复杂文本到视频生成提供了全面可靠的评估平台,并指出了未来方法改进的关键方向。

[41] A-TPT: Angular Diversity Calibration Properties for Test-Time Prompt Tuning of Vision-Language Models

Shihab Aaqil Ahamed,Udaya S. K. P. Miriya Thanthrige,Ranga Rodrigo,Muhammad Haris Khan

Main category: cs.CV

TL;DR: 提出了A-TPT框架,通过引入角度多样性来改善视觉语言模型在测试时提示调优中的校准性能

  • Motivation: 现有测试时提示调优方法缺乏文本特征间的角度多样性,导致校准性能不佳,影响模型的可靠性、可信度和安全性
  • Method: 通过最大化归一化文本特征在单位超球面上的最小成对角度距离,实现特征分布的均匀性
  • Result: 在多个数据集和骨干网络上,A-TPT在降低聚合平均校准误差方面持续优于最先进方法,同时保持相当的准确率
  • Conclusion: 促进角度多样性是实现良好分散文本特征的有效方法,显著改善了视觉语言模型在测试时适应过程中的校准性能

[42] PointSt3R: Point Tracking through 3D Grounded Correspondence

Rhodri Guerrier,Adam W. Harley,Dima Damen

Main category: cs.CV

TL;DR: 将基础3D重建模型DUSt3R和MASt3R适配用于点跟踪任务,通过在3D空间建立对应关系,在多个数据集上实现竞争性或更优的点跟踪性能。

  • Motivation: 利用基础3D重建模型在静态场景中的2D和3D对应能力,将其扩展到动态点跟踪任务,解决现有方法在动态点跟踪上的局限性。
  • Method: 结合重建损失与动态对应训练,添加可见性头部,使用少量合成数据对MASt3R进行微调,仅在包含查询点的帧对上进行训练和评估。
  • Result: 在四个数据集上取得竞争性或更优结果:TAP-Vid-DAVIS上73.8 δ_avg/85.8%遮挡准确率;EgoPoints上61.3 vs 54.2;RGB-S上87.0 vs 82.8。
  • Conclusion: 通过3D基础对应和动态训练,基础3D重建模型可以成功适配到点跟踪任务,在静态和动态点跟踪上都表现出色。

[43] Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection

Yuanting Fan,Jun Liu,Xiaochen Chen,Bin-Bin Gao,Jian Li,Yong Liu,Jinlong Peng,Chengjie Wang

Main category: cs.CV

TL;DR: 提出了FineGrainedAD框架,通过多级细粒度语义描述和语义对齐机制,解决了小样本异常检测中图像描述与补丁级视觉异常语义不对齐的问题。

  • Motivation: 现有方法因缺乏详细文本描述,只能预定义图像级描述来匹配视觉补丁,导致图像描述与补丁级视觉异常语义不对齐,定位性能不佳。
  • Method: 提出多级细粒度语义描述(MFSC)自动构建多级细粒度文本描述,并设计FineGrainedAD框架,包含多级可学习提示(MLLP)和多级语义对齐(MLSA)两个组件。
  • Result: 在MVTec-AD和VisA数据集的小样本设置下,FineGrainedAD实现了优越的整体性能。
  • Conclusion: 通过多级细粒度语义描述和对齐机制,显著提升了小样本异常检测的定位性能。

[44] Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition

Pei Peng,MingKun Xie,Hang Hao,Tong Jin,ShengJun Huang

Main category: cs.CV

TL;DR: 提出了一种基于因果推理的零样本视觉语言模型去偏方法,通过合成反事实嵌入来缓解对象-上下文关联偏差问题。

  • Motivation: 解决视觉语言模型中对象-上下文关联偏差问题,该问题导致模型在测试场景与训练共现模式不同时可靠性下降。
  • Method: 在CLIP表示空间中估计对象和背景期望,通过将对象特征与来自外部数据集、批次邻居或文本描述的不同上下文重新组合来合成反事实嵌入,使用总直接效应估计和干预模拟来减去仅背景激活。
  • Result: 无需重新训练或提示设计,在上下文敏感基准测试中显著提高了最差组和平均准确率,建立了新的零样本最先进水平。
  • Conclusion: 该框架提供了一种轻量级的表示级反事实方法,为去偏和可靠的多模态推理提供了实用的因果途径。

[45] Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

Xin Guo,Zhiheng Xi,Yiwen Ding,Yitao Zhai,Xiaowei Shi,Xunliang Cai,Tao Gui,Qi Zhang,Xuanjing Huang

Main category: cs.CV

TL;DR: 论文发现LVLM自改进过程中存在"马太效应":模型在简单问题上表现更好,但在复杂问题上改进有限,导致性能瓶颈。作者提出四种策略从分布重塑和轨迹重采样两个角度实现头尾数据再平衡。

  • Motivation: 当前LVLM自改进方法存在不平衡优化问题,模型在简单查询上生成高质量轨迹,但在复杂查询上表现不佳,导致模型偏向简单推理技能,阻碍复杂推理能力提升。
  • Method: 提出四种策略:从分布重塑和轨迹重采样两个角度实现头尾数据再平衡,包括调整数据分布和重新采样训练轨迹。
  • Result: 在Qwen2-VL-7B-Instruct和InternVL2.5-4B模型上的实验表明,该方法在视觉推理任务上平均比原始自改进方法提升3.86分。
  • Conclusion: 通过头尾数据再平衡策略有效缓解了自改进过程中的马太效应,显著提升了LVLM的视觉推理能力。

[46] Analysis of the Robustness of an Edge Detector Based on Cellular Automata Optimized by Particle Swarm

Vinícius Ferraria,Eurico Ruivo

Main category: cs.CV

TL;DR: 提出了一种基于元启发式算法和迁移学习的二维细胞自动机边缘检测器,研究扩展搜索空间和模型适应性对自然图像边缘检测的影响。

  • Motivation: 解决传统边缘检测器在检测松散边缘和缺乏上下文信息方面的弱点,开发能够适应图像特性的自适应检测器。
  • Method: 使用二维细胞自动机描述检测器,通过元启发式算法优化,并结合迁移学习技术,分析搜索空间扩展和模型适应性。
  • Result: 扩展优化阶段的搜索空间对所选图像集无效,模型能够适应输入但迁移学习技术未带来显著改进。
  • Conclusion: 搜索空间扩展策略不适用于该图像集,模型具有良好的适应性但迁移学习效果有限。

[47] SA2Net: Scale-Adaptive Structure-Affinity Transformation for Spine Segmentation from Ultrasound Volume Projection Imaging

Hao Xie,Zixun Huang,Yushen Zuo,Yakun Ju,Frank H. F. Leung,N. F. Law,Kin-Man Lam,Yong-Ping Zheng,Sai Ho Ling

Main category: cs.CV

TL;DR: 提出SA²Net网络用于脊柱超声VPI图像分割,通过尺度自适应互补策略和结构亲和变换解决脊柱分割中的全局上下文和结构知识学习问题。

  • Motivation: 脊柱分割在智能脊柱侧弯诊断中至关重要,但面临两个主要挑战:1)不同骨骼特征的高空间相关性导致全局上下文知识学习不足;2)脊柱骨骼包含丰富的形状和位置结构知识需要编码到分割过程中。
  • Method: 1)尺度自适应互补策略学习跨维度的长距离相关性特征;2)基于Transformer多头自注意力与语义级别亲和度的一致性,提出结构亲和变换,结合Transformer解码器进行结构感知推理;3)采用特征混合损失聚合方法增强模型训练。
  • Result: 实验结果表明SA²Net相比其他最先进方法取得了优越的分割性能,且对不同骨干网络具有良好的适应性。
  • Conclusion: SA²Net作为一种有前景的工具,在智能脊柱图像分析中具有推进脊柱侧弯诊断的潜力。

[48] AdSum: Two-stream Audio-visual Summarization for Automated Video Advertisement Clipping

Wen Xie,Yanjun Zhu,Gijs Overgoor,Yakov Bart,Agata Lapedriza Garcia,Sarah Ostadabbas

Main category: cs.CV

TL;DR: 提出了一种基于视频摘要技术的自动视频广告剪辑框架,将视频剪辑定义为针对广告定制的镜头选择问题,强调音频在广告中的关键作用。

  • Motivation: 传统广告剪辑需要手动从长视频中选择和重新编辑镜头来制作不同时长的版本,这种方法劳动密集且耗时。
  • Method: 开发了一个双流音视频融合模型来预测视频帧的重要性,其中重要性定义为帧被选入公司制作的短广告中的可能性。构建了AdSum204数据集,包含102对30秒和15秒的真实广告。
  • Result: 大量实验表明,该模型在平均精度、曲线下面积、Spearman和Kendall等多种指标上优于最先进的方法。
  • Conclusion: 该框架成功地将视频剪辑作为广告特定的镜头选择问题,并通过音视频融合模型实现了优于现有方法的性能。

[49] Dynamic Context-Aware Scene Reasoning Using Vision-Language Alignment in Zero-Shot Real-World Scenarios

Manjunath Prasad Holenarasipura Rajiv,B. M. Vidyavathi

Main category: cs.CV

TL;DR: 提出动态上下文感知场景推理框架,利用视觉-语言对齐处理零样本真实场景,在未见环境中实现场景理解,无需任务特定训练

  • Motivation: 现实环境中AI系统常面临无标签数据的陌生场景,传统场景理解模型难以泛化到未见上下文,限制了视觉应用在动态非结构化环境中的部署
  • Method: 集成预训练视觉transformer和大型语言模型,将视觉语义与自然语言描述对齐,通过动态推理模块结合全局场景线索和对象级交互,利用语言先验指导
  • Result: 在COCO、Visual Genome和Open Images等零样本基准测试中,场景理解准确率比基线模型提升高达18%,在模糊或杂乱场景中表现稳健
  • Conclusion: 该框架为上下文感知推理提供了可扩展且可解释的方法,推进了动态真实世界环境中的零样本泛化能力

[50] CATCH: A Modular Cross-domain Adaptive Template with Hook

Xinjin Li,Yulie Lu,Jinghan Cao,Yu Ma,Zhenglin Li,Yeyang Zhou

Main category: cs.CV

TL;DR: CATCH是一个即插即用的跨域适应框架,通过解耦视觉和语言适应,使用轻量级域分类器和双适配器机制,在不重新训练主干模型的情况下提升VQA模型在遥感、医疗、数学图表等领域的泛化能力。

  • Motivation: 现有VQA模型在自然图像领域表现优异,但在遥感、医疗、数学图表等跨域场景中泛化能力显著下降。传统方法依赖针对每个领域的微调或定制化流程,成本高、不灵活且难以扩展到多样化任务。
  • Method: 提出CATCH框架,引入两个轻量级模块:域分类器识别输入图像类型,双适配器机制包括用于语言调制的提示适配器和用于视觉特征调整的视觉适配器。通过统一的钩子接口动态注入,无需重新训练主干模型。
  • Result: 在四个领域特定的VQA基准测试中,CATCH框架在不重新训练主干模型的情况下实现了持续的性能提升:MathVQA上BLEU提升2.3,MedVQA-RAD上VQA得分提升2.6,ChartQA上ROUGE提升3.1。
  • Conclusion: CATCH提供了一个可扩展和可扩展的多域VQA方法,能够在各种应用领域中实现实际部署,显著提升了跨域适应能力。

[51] Emu3.5: Native Multimodal Models are World Learners

Yufeng Cui,Honghao Chen,Haoge Deng,Xu Huang,Xinghang Li,Jirong Liu,Yang Liu,Zhuoyan Luo,Jinsheng Wang,Wenxuan Wang,Yueze Wang,Chengyuan Wang,Fan Zhang,Yingli Zhao,Ting Pan,Xianduo Li,Zecheng Hao,Wenxuan Ma,Zhuo Chen,Yulong Ao,Tiejun Huang,Zhongyuan Wang,Xinlong Wang

Main category: cs.CV

TL;DR: Emu3.5是一个大规模多模态世界模型,通过统一的下一token预测目标在超过10万亿token的视觉-语言交织数据上进行端到端预训练,能够处理交织的视觉-语言输入并生成交织输出。

  • Motivation: 开发一个能够原生预测视觉和语言下一状态的多模态世界模型,实现长程视觉-语言生成、任意到图像生成等复杂任务。
  • Method: 采用统一的下一token预测目标进行端到端预训练,使用大规模强化学习进行后训练,并提出离散扩散适应(DiDA)技术将逐token解码转换为双向并行预测,提升推理效率。
  • Result: Emu3.5在图像生成和编辑任务上达到与Gemini 2.5 Flash Image相当的性能,在交织生成任务上表现更优,推理速度提升约20倍。
  • Conclusion: Emu3.5展示了强大的原生多模态能力,包括时空一致的世界探索和开放世界具身操作,为社区研究提供了开源支持。

[52] ResMatching: Noise-Resilient Computational Super-Resolution via Guided Conditional Flow Matching

Anirban Ray,Vera Galinova,Florian Jug

Main category: cs.CV

TL;DR: 提出ResMatching方法,使用引导条件流匹配学习数据先验,在计算超分辨率任务中实现数据保真度和感知真实性的最佳平衡,并能提供像素级不确定性估计。

  • Motivation: 计算超分辨率是一个不适定问题,需要找到能够外推显微镜图像中未成像频率的先验。随着数据驱动机器学习技术的发展,可以学习更强的先验来获得更好的结果。
  • Method: 使用引导条件流匹配来学习改进的数据先验,能够从隐式学习的后验分布中采样,并提供像素级数据不确定性估计。
  • Result: 在BioSR数据集的4个不同生物结构上评估,与7个基线方法比较,ResMatching始终获得竞争性结果,在所有情况下都表现出数据保真度和感知真实性的最佳平衡。在噪声较多的低分辨率图像中表现尤为有效。
  • Conclusion: ResMatching在计算超分辨率任务中表现出色,特别是在先验难以学习的情况下,能够提供校准的后验分布和不确定性估计,有助于用户拒绝不确定的预测。

[53] CYPRESS: Crop Yield Prediction via Regression on Prithvi's Encoder for Satellite Sensing

Shayan Nejadshamsi,Yuanyuan Zhang,Shadi Zaki,Brock Porth,Lysa Porth,Vahab Khoshdel

Main category: cs.CV

TL;DR: CYPRESS是一个基于预训练地理空间基础模型的深度学习系统,用于高分辨率、像素级的油菜产量预测,在加拿大草原地区数据集上表现出色。

  • Motivation: 传统作物产量预测方法缺乏可扩展性和精细度,无法满足精准农业的需求。需要开发能够提供高分辨率、连续产量预测的工具来支持现代农业管理。
  • Method: 利用预训练的大规模地理空间基础模型Prithvi-EO-2.0-600M,通过微调将其适应于连续回归任务,将多时相卫星图像转换为密集的像素级产量图。
  • Result: 在加拿大草原地区综合数据集上的评估显示,CYPRESS优于现有的基于深度学习的产量预测模型,证明了基础模型微调在专业农业应用中的有效性。
  • Conclusion: CYPRESS通过提供连续高分辨率输出,为精准农业提供了比传统分类或县级聚合方法更具操作性的工具,弥合了大规模地球观测与农场决策之间的差距。

[54] Spiking Patches: Asynchronous, Sparse, and Efficient Tokens for Event Cameras

Christoffer Koo Øhrstrøm,Ronja Güldenring,Lazaros Nalpantidis

Main category: cs.CV

TL;DR: 提出了一种专门为事件相机设计的标记化方法Spiking Patches,能够保持事件的异步性和空间稀疏性,在保持精度的同时显著提升推理速度。

  • Motivation: 现有方法将事件表示为帧或体素,虽然精度高但破坏了事件相机的异步性和空间稀疏性特性,需要一种能保持这些独特属性的表示方法。
  • Method: 使用Spiking Patches标记化方法,将异步稀疏事件流转换为标记表示,并在手势识别和物体检测任务中使用GNN、PCN和Transformer进行评估。
  • Result: Spiking Patches标记的推理速度比体素标记快3.4倍,比帧快10.4倍,同时保持相同精度,在某些情况下精度提升达3.8%(手势识别)和1.4%(物体检测)。
  • Conclusion: 标记化为事件视觉提供了新方向,是朝着保持事件相机特性方法的重要一步。

[55] PT-DETR: Small Target Detection Based on Partially-Aware Detail Focus

Bingcong Huo,Zhiming Wang

Main category: cs.CV

TL;DR: PT-DETR是基于RT-DETR改进的无人机图像小目标检测算法,通过引入PADF模块、MFFF模块和Focaler-SIoU损失函数,显著提升了小目标检测性能。

  • Motivation: 解决无人机目标检测中面临的复杂背景、严重遮挡、密集小目标和光照变化等挑战。
  • Method: 1. 在骨干网络中引入PADF模块增强小目标特征提取;2. 设计MFFF模块提升小目标细节和上下文信息捕获能力;3. 采用Focaler-SIoU增强边界框匹配能力和对小目标特征的敏感性。
  • Result: 在VisDrone2019数据集上,相比RT-DETR,mAP分别提升1.6%和1.7%,且计算复杂度和参数量更低。
  • Conclusion: PT-DETR在小目标检测任务中表现出良好的鲁棒性和可行性,为无人机图像分析提供了有效解决方案。

[56] All You Need for Object Detection: From Pixels, Points, and Prompts to Next-Gen Fusion and Multimodal LLMs/VLMs in Autonomous Vehicles

Sayed Pedram Haeri Boroujeni,Niloufar Mehrabi,Hazim Alzorgan,Ahmad Sarlak,Mahlagha Fazeli,Abolfazl Razi

Main category: cs.CV

TL;DR: 这篇综述论文对自动驾驶车辆中的目标检测技术进行了前瞻性分析,重点关注视觉语言模型、大语言模型和生成式AI等新兴范式,系统回顾了传感器融合、数据集分类和先进检测方法。

  • Motivation: 自动驾驶车辆的成功依赖于在复杂多模态环境中可靠的目标检测能力,但当前知识在跨模态感知、上下文推理和协作智能方面仍然分散,需要弥合这一差距。
  • Method: 系统回顾了自动驾驶传感器及其融合策略,引入了结构化的数据集分类(自车、基础设施、协作数据集),分析了从2D/3D检测到混合传感器融合的先进方法,特别关注基于Transformer的方法。
  • Result: 提供了对当前能力、开放挑战和未来机会的清晰路线图,强调了新兴AI技术在自动驾驶感知中的整合潜力。
  • Conclusion: 通过综合多角度分析,该调查为自动驾驶目标检测领域提供了全面的技术概览和发展方向,突出了新兴AI范式在提升检测可靠性方面的重要作用。

[57] Towards Reliable Sea Ice Drift Estimation in the Arctic Deep Learning Optical Flow on RADARSAT-2

Daniela Martin,Joseph Gallego

Main category: cs.CV

TL;DR: 该研究首次大规模评估了48种深度学习光流模型在RADARSAT 2 ScanSAR海冰影像上的表现,多个模型实现了亚公里级精度,证明深度学习光流方法可有效应用于极地遥感。

  • Motivation: 准确估计海冰漂移对北极航行、气候研究和业务预报至关重要。虽然光流技术在计算机视觉领域快速发展,但其在地球物理问题和卫星SAR影像中的应用仍待探索。
  • Method: 使用48种深度学习光流模型处理RADARSAT 2 ScanSAR海冰影像,通过端点误差(EPE)和Fl指标与GNSS跟踪浮标数据进行评估。
  • Result: 多个模型达到亚公里级精度(EPE 6-8像素,300-400米),相对于海冰运动空间尺度和北极典型导航需求而言误差较小。模型能够捕捉一致的区域漂移模式。
  • Conclusion: 深度学习光流方法相比传统方法显著提高了运动估计精度,可有效迁移到极地遥感中,提供空间连续的漂移场,为导航和气候建模提供新机会。

[58] Improving Classification of Occluded Objects through Scene Context

Courtney M. King,Daniel D. Leeds,Damian Lyons,George Kalaitzis

Main category: cs.CV

TL;DR: 提出两种基于场景信息的融合技术来增强RPN-DCNN目标检测网络对遮挡的鲁棒性:一种在预测前根据背景场景选择定制网络,另一种在检测后将场景知识融合到初始目标得分中。

  • Motivation: 遮挡对目标识别算法构成重大挑战,场景上下文信息在生物视觉中已被证明有助于目标识别,因此希望通过融合场景信息来减少遮挡导致的错误。
  • Method: 提出两种场景信息融合方法:1)预测前根据识别出的背景场景选择定制目标网络;2)检测后将场景知识融合到RPN输出的初始目标得分中。同时对比了在遮挡和未遮挡图像组合上训练的不同方法。
  • Result: 在具有部分遮挡的挑战性数据集上,相比基线方法在召回率和精确率方面都有整体提升。实验发现,在遮挡和未遮挡图像组合上训练的效果优于其他训练方法。
  • Conclusion: 该方法具有可解释性,易于适应其他数据集,为未来研究和实际应用提供了多个方向。

[59] Process Integrated Computer Vision for Real-Time Failure Prediction in Steel Rolling Mill

Vaibhav Kurrey,Sivakalyan Pujari,Gagan Raj Gupta

Main category: cs.CV

TL;DR: 基于机器视觉的异常检测系统在钢铁轧钢厂进行长期部署,通过工业摄像头实时监控设备运行、对齐和热轧棒材运动,使用深度学习模型预测设备故障和工艺中断,减少非计划停机成本。

  • Motivation: 在工业制造环境中,设备故障和工艺中断会导致高昂的非计划停机成本。传统方法难以实时监测和预测故障,需要一种能够整合视觉和传感器数据的智能系统来提升运营可靠性。
  • Method: 系统集成工业摄像头实时监控生产线,在集中式视频服务器上处理视频流,使用深度学习模型进行推理。结合数据采集系统的传感器数据和视觉输入,联合分析故障位置和根本原因。
  • Result: 实现了设备故障的早期预测和工艺中断预警,减少了非计划停机成本。服务器端推理减轻了工业过程控制系统(PLC)的计算负担,支持在生产线上进行可扩展部署。
  • Conclusion: 这种集成方法通过结合视觉监控和传感器数据分析,显著提升了工业制造环境的运营可靠性、生产效率和盈利能力,为主动维护提供了可行的解决方案。

[60] The Impact and Outlook of 3D Gaussian Splatting

Bernhard Kerbl

Main category: cs.CV

TL;DR: 3D高斯泼溅(3DGS)已成为3D场景表示的重要工具,催生了效率提升、动态表示、数学基础探索、移动平台适配和大规模环境扩展等多个研究方向。

  • Motivation: 3DGS的引入迅速改变了3D场景表示的格局,激发了大量相关研究,旨在提升其效率、可扩展性和实际应用性。
  • Method: 通过资源高效训练与渲染、动态4D表示、数学基础深化、移动与VR平台适配、大规模环境扩展以及快速辐射场重建等多种技术路径进行演进。
  • Result: 3DGS已从突破性表示方法发展为3D视觉和图形领域的多功能基础工具,支持更广泛的应用场景。
  • Conclusion: 这些发展展示了3DGS如何从一个突破性的表示方法演变为3D视觉和图形领域的多功能基础工具,为未来的研究和应用奠定了坚实基础。

[61] SteerVLM: Robust Model Control through Lightweight Activation Steering for Vision Language Models

Anushka Sivakumar,Andrew Zhang,Zaber Hakim,Chris Thomas

Main category: cs.CV

TL;DR: SteerVLM是一个轻量级的引导模块,通过动态调整视觉语言模型中语言模态与图像上下文之间的激活连接,实现推理时对复杂输出语义的细粒度控制,无需修改模型权重。

  • Motivation: 现有视觉语言模型在遵循特定指令方面存在不足,需要一种轻量级方法来实现对模型输出的精确控制,同时保持非目标任务的性能。
  • Method: 从编码目标行为和相反行为的配对提示的潜在嵌入中学习,通过维度激活调制和跨层自适应引导来动态调整激活连接,仅需学习原模型0.14%的参数。
  • Result: 在VLM引导和幻觉缓解基准测试中优于现有干预技术,同时提出了VNIA多模态数据集用于开发和评估VLM引导技术。
  • Conclusion: SteerVLM通过激活工程为多模态模型控制提供了稳健解决方案,实现了无需权重修改的推理时精确控制。

[62] Surpassing state of the art on AMD area estimation from RGB fundus images through careful selection of U-Net architectures and loss functions for class imbalance

Valentyna Starodub,Mantas Lukoševičius

Main category: cs.CV

TL;DR: 该研究开发了一个基于U-Net的AMD病变检测框架,在RGB眼底图像上进行多类别语义分割,在ADAM挑战赛中超越了所有先前提交结果。

  • Motivation: 年龄相关性黄斑变性(AMD)是60岁以上人群不可逆视力损害的主要原因之一,研究旨在通过非侵入性、成本效益高的RGB眼底图像实现AMD病变的精确检测。
  • Method: 以U-Net连接为基础框架,评估了多种改进方法:预处理技术、不同复杂度的编码器网络、专门设计的损失函数来解决图像和像素级别的类别不平衡问题。
  • Result: 最终配置的AMD检测框架在非侵入性RGB眼底图像中对不同AMD病变类型的多类别分割任务中,超越了所有先前的ADAM挑战赛提交结果。
  • Conclusion: 研究成功开发了高性能的AMD病变检测框架,源代码已公开提供,为AMD的早期诊断和治疗提供了有效的工具。

[63] ChartAB: A Benchmark for Chart Grounding & Dense Alignment

Aniruddh Bansal,Davit Soselia,Dang Nguyen,Tianyi Zhou

Main category: cs.CV

TL;DR: 提出了ChartAlign Benchmark (ChartAB)来评估视觉语言模型在图表理解任务中的表现,包括数据提取、元素定位和属性识别等细粒度任务。

  • Motivation: 现有视觉语言模型在图表理解中缺乏对细节的准确感知,难以提取细粒度结构,这限制了它们进行多图表比较和推理的能力。
  • Method: 设计了一个JSON模板来支持针对每个基础任务的评估指标计算,并引入了两阶段推理工作流来评估模型在跨图表对齐和比较元素/属性的能力。
  • Result: 通过对多个最新VLMs的评估分析,揭示了它们在图表理解中的感知偏差、弱点、鲁棒性和幻觉问题。
  • Conclusion: 研究结果突出了VLMs在图表理解任务中的细粒度差异,并指出了当前模型需要加强的具体技能。

[64] HEIR: Learning Graph-Based Motion Hierarchies

Cheng Zheng,William Koch,Baiang Li,Felix Heide

Main category: cs.CV

TL;DR: 提出了一种通用的分层运动建模方法,通过图神经网络学习数据中的结构化运动关系,将全局绝对运动分解为父继承模式和局部运动残差。

  • Motivation: 现有方法依赖手动定义或启发式的分层结构,限制了在不同任务间的泛化能力,需要一种能够直接从数据中学习结构化、可解释运动关系的通用方法。
  • Method: 将层次推断建模为可微分图学习问题,使用顶点表示基本运动,有向边通过图神经网络捕获学习的父子依赖关系,构建基于图的分层结构。
  • Result: 在1D平移运动、2D旋转运动和动态3D场景变形三个示例上验证,成功重建了1D和2D案例的内在运动层次,在动态3D高斯泼溅场景上相比基线产生更真实和可解释的变形。
  • Conclusion: 该方法提供了一个适应性强、数据驱动的分层建模范式,适用于广泛的运动中心任务。

[65] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

Jing Lin,Ruisi Wang,Junzhe Lu,Ziqi Huang,Guorui Song,Ailing Zeng,Xian Liu,Chen Wei,Wanqi Yin,Qingping Sun,Zhongang Cai,Lei Yang,Ziwei Liu

Main category: cs.CV

TL;DR: 提出了一个从视频生成迁移知识到3D人体运动生成的综合框架,包括大规模数据集ViMoGen-228K、基于流匹配的扩散变换器模型ViMoGen及其轻量版ViMoGen-light,以及分层评估基准MBench。

  • Motivation: 现有3D人体运动生成模型在泛化能力上存在瓶颈,而视频生成领域在建模人类行为方面表现出卓越的泛化能力,这为运动生成提供了可转移的见解。
  • Method: 1) 构建ViMoGen-228K数据集,整合高质量光学MoCap数据、网络视频语义标注动作和视频生成模型合成样本;2) 提出基于流匹配的扩散变换器ViMoGen,通过门控多模态条件统一MoCap数据和视频生成模型的先验;3) 开发轻量版ViMoGen-light,消除视频生成依赖;4) 建立分层评估基准MBench。
  • Result: 大量实验表明,该框架在自动评估和人工评估中显著优于现有方法。
  • Conclusion: 通过系统地从视频生成迁移知识到运动生成,在数据、建模和评估三个关键支柱上构建的综合框架有效提升了3D人体运动生成的泛化能力和性能。

[66] Scaling Image Geo-Localization to Continent Level

Philipp Lindenberger,Paul-Edouard Sarlin,Jan Hosang,Matteo Balice,Marc Pollefeys,Simon Lynen,Eduard Trulls

Main category: cs.CV

TL;DR: 提出一种混合方法,实现大洲尺度上的细粒度地理定位,通过代理分类任务学习丰富特征表示,结合航空影像嵌入提高对地面数据稀疏性的鲁棒性。

  • Motivation: 解决全球尺度图像地理定位的挑战:标准图像检索方法在大规模数据下效率低下,现有可扩展方案存在粗粒度分类或跨视图检索的领域差距问题。
  • Method: 使用代理分类任务训练学习丰富特征表示,结合航空影像嵌入,提高对地面数据稀疏性的鲁棒性,实现跨多国区域的直接细粒度检索。
  • Result: 在覆盖欧洲大部分地区的数据集上,该方法能够在200米范围内定位超过68%的查询。
  • Conclusion: 该方法在大地理范围内实现了细粒度地理定位,解决了现有方法的局限性,代码已公开。

[67] SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting

Dongyue Lu,Ao Liang,Tianxin Huang,Xiao Fu,Yuyang Zhao,Baorui Ma,Liang Pan,Wei Yin,Lingdong Kong,Wei Tsang Ooi,Ziwei Liu

Main category: cs.CV

TL;DR: SEE4D是一个无需姿态标注的4D内容生成框架,通过虚拟相机渲染和视频修复模型,从随意视频中合成时空4D内容,避免了传统方法对相机轨迹预测的依赖。

  • Motivation: 现有视频到4D方法需要手动标注相机姿态,成本高且对野外视频不鲁棒。虽然最近的方法通过扭曲-修复方式减少了对姿态标签的需求,但轨迹到轨迹的表述方式容易混淆相机运动和场景动态。
  • Method: 提出轨迹到相机框架,用固定虚拟相机库替代显式轨迹预测;训练视图条件视频修复模型学习几何先验;设计时空自回归推理管道,在虚拟相机样条上遍历生成。
  • Result: 在跨视图视频生成和稀疏重建基准测试中,SEE4D在定量指标和定性评估上都优于基于姿态或轨迹条件的基线方法。
  • Conclusion: SEE4D通过分离相机控制与场景建模,实现了从随意视频中进行实用的4D世界建模,具有更好的泛化能力和性能。

[68] Masked Diffusion Captioning for Visual Feature Learning

Chao Feng,Zihao Wei,Andrew Owens

Main category: cs.CV

TL;DR: 提出了一种名为掩码扩散字幕(MDC)的方法,通过图像条件掩码扩散语言模型学习视觉特征,在多种学术规模模型和数据集上表现出与自回归和对比方法相当的竞争力。

  • Motivation: 减少对辅助目标的依赖,使视觉学习信号的强度不依赖于标记在序列中的位置,从而更有效地学习视觉特征。
  • Method: 在训练过程中,随机掩码图像-字幕对中的文本标记,然后训练一个基于视觉特征的解码器来重建原始文本。
  • Result: 线性探测实验表明,学习到的视觉特征在多种学术规模模型和数据集上与自回归和对比方法产生的特征具有竞争力。
  • Conclusion: 掩码扩散字幕(MDC)是一种有效的视觉特征学习方法,能够在不依赖辅助目标的情况下生成高质量的视觉表示。

[69] OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes

Yukun Huang,Jiwen Yu,Yanning Zhou,Jianan Wang,Xintao Wang,Pengfei Wan,Xihui Liu

Main category: cs.CV

TL;DR: OmniX是一个多功能统一框架,通过轻量级跨模态适配器结构,重用2D生成先验来完成全景视觉任务,包括全景感知、生成和补全,实现适合物理渲染的图形就绪3D场景生成。

  • Motivation: 现有基于全景的2D提升方法主要关注外观生成而忽略内在属性感知,无法生成适合物理渲染的图形就绪3D场景。
  • Method: 提出OmniX框架,基于轻量高效的跨模态适配器结构,重用2D生成先验进行全景几何、纹理和PBR材质感知,并构建大规模合成全景数据集。
  • Result: 实验证明该模型在全景视觉感知和图形就绪3D场景生成方面有效,为沉浸式和物理真实的虚拟世界生成开辟新可能。
  • Conclusion: OmniX通过重用2D生成先验实现了多功能全景视觉任务处理,推动了图形就绪3D场景生成技术的发展。

[70] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

Ziyu Guo,Xinyan Chen,Renrui Zhang,Ruichuan An,Yu Qi,Dongzhi Jiang,Xiangtai Li,Manyuan Zhang,Hongsheng Li,Pheng-Ann Heng

Main category: cs.CV

TL;DR: 本文对视频生成模型Veo-3进行了全面的零样本推理能力评估,发现其在短时空间一致性、细粒度定位等方面表现良好,但在长时因果推理、几何约束等方面仍有局限。

  • Motivation: 研究视频生成模型是否能够作为零样本推理器在具有挑战性的视觉推理场景中使用,因为现有模型已能生成高保真、时间连贯的视频,表明其可能编码了丰富的世界知识。
  • Method: 通过构建MME-CoF基准测试,在12个维度上系统评估Veo-3的推理行为,包括空间、几何、物理、时间和具身逻辑等方面。
  • Result: 当前视频模型在短时空间一致性、细粒度定位和局部一致动态方面展现出有前景的推理模式,但在长时因果推理、严格几何约束和抽象逻辑方面仍有局限。
  • Conclusion: 视频模型尚未成为可靠的独立零样本推理器,但作为专用推理模型的补充视觉引擎展现出令人鼓舞的潜力。

cs.GR

[71] StructLayoutFormer:Conditional Structured Layout Generation via Structure Serialization and Disentanglement

Xin Hu,Pengfei Xu,Jin Zhou,Hongbo Fu,Hui Huang

Main category: cs.GR

TL;DR: 提出StructLayoutFormer,一种基于Transformer的条件结构化布局生成方法,能够生成明确的布局结构

  • Motivation: 现有数据驱动方法只能生成固定布局而无法产生布局结构,结构化布局在2D视觉内容中具有编辑优势
  • Method: 使用结构序列化方案将结构化布局表示为序列,将结构信息与元素位置解耦,基于Transformer架构
  • Result: 在条件结构化布局生成任务中超越现有基线方法,能够有效提取和传输布局结构
  • Conclusion: 这是首个实现条件结构化布局生成的数据驱动方法,能够生成现实且明确的结构化布局

eess.IV

[72] Groupwise Registration with Physics-Informed Test-Time Adaptation on Multi-parametric Cardiac MRI

Xinqi Li,Yi Zhang,Li-Ting Huang,Hsiao-Huang Chang,Thoralf Niendorf,Min-Chi Ku,Qian Tao,Hsin-Jung Yang

Main category: eess.IV

TL;DR: 开发了一种基于物理知识的深度学习模型,通过测试时自适应实现多参数MRI图像的对齐,解决了不同对比度加权图像之间的错位问题。

  • Motivation: 多参数映射MRI已成为心肌组织表征的重要工具,但不同参数图之间的错位使得像素级分析变得困难。
  • Method: 使用基于物理知识的深度学习模型,通过测试时自适应技术,利用特定物理模型生成的合成图像作为配准参考,实现跨对比度加权图像的组图像配准。
  • Result: 在健康志愿者中使用多种MRI序列验证了该模型,证明其在处理广泛图像对比度变化时的多模态配准性能得到改善。
  • Conclusion: 该物理知识驱动的自适应深度学习模型能够有效解决多参数MRI图像配准问题,适用于各种组织对比度情况。

[73] SPG-CDENet: Spatial Prior-Guided Cross Dual Encoder Network for Multi-Organ Segmentation

Xizhi Tian,Changjun Zhou,Yulin. Yang

Main category: eess.IV

TL;DR: 提出SPG-CDENet,一种两阶段分割范式,通过空间先验网络和交叉双编码器网络提高多器官分割精度。

  • Motivation: 多器官分割在计算机辅助诊断中至关重要,但器官大小和形状的巨大变化挑战了现有深度学习方法的效果。
  • Method: SPG-CDENet包含空间先验网络和交叉双编码器网络。先验网络生成粗略定位图作为空间指导,双编码器网络包含全局编码器、局部编码器、对称交叉注意力模块和基于流的解码器。
  • Result: 在两个公共数据集上的实验表明,SPG-CDENet相比现有分割方法具有优越性能。消融研究验证了所提模块的有效性。
  • Conclusion: SPG-CDENet通过空间先验指导和交叉双编码器结构,有效提高了多器官分割的准确性。

[74] Comparative Analysis of Deep Learning Models for Olive Tree Crown and Shadow Segmentation Towards Biovolume Estimation

Wondimagegn Abebe Demissie,Stefano Roccella,Rudy Rossetto,Antonio Minnocci,Andrea Vannini,Luca Sebastiani

Main category: eess.IV

TL;DR: 比较三种深度学习模型(U-Net、YOLOv11m-seg、Mask RCNN)在无人机高分辨率图像中分割橄榄树冠及其阴影的性能,用于估算树木生物体积。

  • Motivation: 橄榄树生物体积估算是精准农业的关键任务,支持产量预测和资源管理,特别是在受气候压力严重影响的地区。
  • Method: 使用U-Net、YOLOv11m-seg和Mask RCNN模型分割树冠和阴影,结合冠层投影面积和阴影推导的高度,利用太阳几何学估算单株生物体积。
  • Result: Mask R-CNN获得最佳整体精度(F1=0.86;mIoU=0.72),YOLOv11m-seg提供最快处理速度(每图0.12秒),估算生物体积范围为4-24立方米。
  • Conclusion: Mask R-CNN在精度要求高时更优,YOLOv11m-seg适合大范围快速部署,U-Net是轻量级高灵敏度选项。该框架可实现准确、可扩展的果园监测。

[75] SAMRI: Segment Anything Model for MRI

Zhao Wang,Wei Dai,Thuy Thanh Dao,Steffen Bollmann,Hongfu Sun,Craig Engstrom,Shekhar S. Chandra

Main category: eess.IV

TL;DR: SAMRI是一个专门针对MRI的Segment Anything Model,通过在110万标记MR切片上微调掩码解码器,显著提升了MRI分割性能,在多种任务中达到0.87的平均Dice分数。

  • Motivation: 传统MRI分割方法劳动密集,CNN方法泛化能力差,而现有的SAM适配往往忽视MRI特有的对比度变化、强度不均匀性和协议差异等模态特定挑战。
  • Method: 采用两阶段策略仅微调SAM的掩码解码器,相比全模型重训练减少94%训练时间和96%可训练参数。
  • Result: 在多样化MRI分割任务中达到0.87的平均Dice分数,在解剖区域上实现最先进精度,对未见结构特别是小型和临床重要结构具有鲁棒泛化能力。
  • Conclusion: SAM可以通过简单的掩码解码器微调有效适配MRI,SAMRI展示了在MRI分割中的卓越性能和泛化能力。

[76] BRIQA: Balanced Reweighting in Image Quality Assessment of Pediatric Brain MRI

Alya Almsouti,Ainur Khamitova,Darya Taratynova,Mohammad Yaqub

Main category: eess.IV

TL;DR: 提出了BRIQA方法,通过梯度损失重加权和旋转批处理方案解决儿科脑MRI图像质量评估中的类别不平衡问题,显著提升了多种伪影严重程度的分类性能。

  • Motivation: 儿科脑MRI图像伪影严重程度评估对诊断准确性至关重要,特别是在低场系统中信噪比降低的情况下。手动质量评估耗时且主观,需要稳健的自动化解决方案。
  • Method: BRIQA采用基于梯度的损失重加权动态调整各类别贡献,并使用旋转批处理方案确保对欠表示类别的一致暴露。
  • Result: BRIQA将平均宏观F1分数从0.659提升至0.706,在噪声、拉链伪影、定位、对比度、运动和带状伪影等严重程度分类上均有显著提升。
  • Conclusion: 没有单一架构在所有伪影类型上表现最佳,强调了架构多样性的重要性。旋转批处理配置与交叉熵损失结合时通过促进平衡学习来提升性能。

[77] ProstNFound+: A Prospective Study using Medical Foundation Models for Prostate Cancer Detection

Paul F. R. Wilson,Mohamed Harmanani,Minh Nguyen Nhat To,Amoon Jamzad,Tarek Elghareb,Zhuoxin Guo,Adam Kinnaird,Brian Wodlinger,Purang Abolmaesumi,Parvin Mousavi

Main category: eess.IV

TL;DR: ProstNFound+是基于医学基础模型的前列腺癌微超声检测系统,通过适配器调优和临床生物标志物提示编码,在回顾性训练后成功通过前瞻性验证,性能与临床评分协议相当。

  • Motivation: 医学基础模型在医学诊断中具有潜力,但尚未在前列腺癌微超声检测中进行临床验证。本研究旨在开发并验证适用于前列腺癌检测的医学基础模型。
  • Method: ProstNFound+结合医学基础模型、适配器调优和定制提示编码器,嵌入前列腺癌特异性临床生物标志物,生成癌症热图和临床显著前列腺癌风险评分。
  • Result: 模型在前瞻性数据上表现出强大的泛化能力,性能无退化,与临床评分协议(PRI-MUS和PI-RADS)高度一致,并产生与活检确认病灶一致的可解释热图。
  • Conclusion: 该模型具有临床部署潜力,为专家驱动协议提供了可扩展且可解释的替代方案。

[78] MORE: Multi-Organ Medical Image REconstruction Dataset

Shaokai Wu,Yapan Guo,Yanbiao Ji,Jing Tong,Yuxiang Lu,Mei Li,Suizhi Huang,Yue Ding,Hongtao Lu

Main category: eess.IV

TL;DR: 提出了MORE数据集,包含9种不同解剖结构的CT扫描和15种病变类型,用于训练和评估CT重建模型的泛化能力。

  • Motivation: 当前深度学习CT重建方法通常局限于特定解剖结构和数据集,难以泛化到未见过的解剖结构和病变。
  • Method: 构建了MORE数据集,并建立了强基线解决方案,在挑战性条件下优于先前方法。
  • Result: 综合数据集有助于提高模型的泛化能力,基于优化的方法对未见解剖结构具有更强的鲁棒性。
  • Conclusion: MORE数据集可免费获取,为CT重建模型的泛化能力研究提供了重要资源。

cs.LG

[79] Metis-SPECS: Decoupling Multimodal Learning via Self-distilled Preference-based Cold Start

Kun Chen,Peng Shi,Haibo Qiu,Zhixiong Zeng,Siqi Yang,Wenji Mao,Lin Ma

Main category: cs.LG

TL;DR: 提出SPECS框架,通过自蒸馏生成偏好数据对,使用偏好训练而非监督微调进行冷启动,提升多模态模型的泛化能力和强化学习效果。

  • Motivation: 传统基于监督微调的冷启动方法存在指令风格过拟合问题,削弱了分布外泛化能力,影响下游强化学习效果。
  • Method: SPECS框架:1) 通过自蒸馏生成内省偏好数据对;2) 进行偏好训练学习表面形式标准;3) 移交到可验证奖励的强化学习进行深度推理。
  • Result: 在多个多模态基准测试中表现优于强基线,MEGA-Bench提升4.1%,MathVista提升12.2%,减少分布内"卡顿",改善探索性,稳定训练。
  • Conclusion: 解耦学习框架通过偏好训练进行冷启动,能有效提升模型泛化能力和强化学习性能。

[80] Do Students Debias Like Teachers? On the Distillability of Bias Mitigation Methods

Jiali Cheng,Chirag Agarwal,Hadi Amiri

Main category: cs.LG

TL;DR: 知识蒸馏会削弱模型的去偏能力,但通过高质量数据增强、迭代蒸馏和教师权重初始化可以改善去偏方法的可蒸馏性

  • Motivation: 研究知识蒸馏对模型去偏能力迁移的影响,探索知识蒸馏如何影响模型对伪相关性的鲁棒性
  • Method: 在自然语言推理和图像分类任务上进行广泛实验,分析知识蒸馏后模型的去偏能力变化和内部注意力模式
  • Result: 知识蒸馏会削弱模型的去偏能力,去偏模型从教师知识注入中获益有限,不同偏见的鲁棒性变化显著
  • Conclusion: 这是首个大规模研究知识蒸馏对去偏影响及其内部机制的工作,为设计更好的去偏方法提供了理解

[81] CorVS: Person Identification via Video Trajectory-Sensor Correspondence in a Real-World Warehouse

Kazuma Kano,Yuki Mori,Shin Katayama,Kenta Urano,Takuro Yonezawa,Nobuo Kawaguchi

Main category: cs.LG

TL;DR: 提出CorVS方法,通过视觉跟踪轨迹与传感器测量之间的对应关系进行人员识别,解决了工业环境中仅依赖视觉数据识别个体的局限性。

  • Motivation: 在物流仓库等工业场所,工人定位数据对提高生产力至关重要。虽然摄像头能提供有价值的环境信息,但仅靠视觉数据识别个体往往不切实际。现有方法通过比较轨迹和可穿戴传感器测量来识别人员,但在真实条件下可能失效。
  • Method: 提出CorVS方法:1)深度学习模型预测每个轨迹与传感器测量对的对应概率和可靠性;2)算法使用预测的概率和可靠性随时间匹配轨迹和传感器测量。
  • Result: 开发了包含实际仓库操作的数据集,并证明了该方法在真实应用中的有效性。
  • Conclusion: CorVS方法通过结合视觉跟踪和传感器数据,为工业环境中的人员识别提供了有效的解决方案,克服了现有方法的局限性。

[82] Clone Deterministic 3D Worlds with Geometrically-Regularized World Models

Zaishuo Xia,Yukuan Lu,Xinyi Li,Yifan Xu,Yubei Chen

Main category: cs.LG

TL;DR: 提出几何正则化世界模型(GRWM),通过在潜在表示空间中强制相邻观测点的几何连续性,显著改善世界模型的长期预测能力。

  • Motivation: 当前世界模型在长期预测中表现脆弱,主要原因是表示质量不足——高维外部输入和损失/纠缠的潜在表示使动态学习变得困难。
  • Method: GRWM在潜在表示空间中实施几何正则化,确保自然感知轨迹上的连续点在潜在空间中保持接近,从而学习与环境真实拓扑对齐的表示。
  • Result: 在确定性3D环境和长期预测任务中,GRWM显著提高了rollout保真度和稳定性,学习到具有优越几何结构的潜在流形。
  • Conclusion: 改进表示学习是构建鲁棒世界模型的直接有效途径,无需扩大动态模块即可实现可靠的长期预测。

cs.RO

[83] DARTS: A Drone-Based AI-Powered Real-Time Traffic Incident Detection System

Bai Li,Achilleas Kourtellis,Rong Cao,Joseph Post,Brian Porter,Yu Zhang

Main category: cs.RO

TL;DR: DARTS是一个基于无人机和AI的实时交通事故检测系统,通过集成无人机的高机动性、热成像技术和轻量级深度学习框架,实现高精度事故检测和交通拥堵监测。

  • Motivation: 传统交通事故检测方法存在检测与验证分离、灵活性有限、需要密集基础设施等问题,限制了系统的适应性和可扩展性。
  • Method: DARTS结合无人机的高机动性和空中视角进行自适应监控,使用热成像技术提升低能见度性能和隐私保护,采用轻量级深度学习框架实时提取车辆轨迹和检测事故。
  • Result: 在自收集数据集上达到99%的检测准确率,在佛罗里达州75号州际公路实地测试中,比当地交通管理中心提前12分钟检测到追尾事故,并能监控事故引发的拥堵传播。
  • Conclusion: DARTS展示了更灵活、集成的实时交通事故检测系统的潜力,对提高现代交通管理的运营效率和响应能力具有重要意义。

[84] Self-localization on a 3D map by fusing global and local features from a monocular camera

Satoshi Kikuch,Masaya Kato,Tsuyoshi Tasaki

Main category: cs.RO

TL;DR: 提出结合CNN和Vision Transformer的新方法,用于在动态障碍物存在时的3D地图自定位,相比现有方法精度提升20.1%,平均定位误差7.51cm。

  • Motivation: 使用廉价单目相机在3D地图上实现自定位是自动驾驶的关键需求。现有基于CNN的方法在动态障碍物(如行人)存在时效果不佳,因为CNN主要提取局部特征。
  • Method: 将CNN与Vision Transformer相结合,CNN擅长提取局部特征,而Vision Transformer擅长提取全局特征,能捕捉图像中各个patch之间的关系。
  • Result: 在包含动态障碍物的CG数据集上,精度提升率比无动态障碍物时高1.5倍;在公共数据集上,自定位误差比现有最佳方法小20.1%;机器人平均定位误差为7.51cm。
  • Conclusion: 提出的CNN与Vision Transformer结合方法能有效应对动态障碍物,显著提高自定位精度,优于现有最佳方法。

[85] AgriGS-SLAM: Orchard Mapping Across Seasons via Multi-View Gaussian Splatting SLAM

Mirko Usuelli,David Rapado-Rincon,Gert Kootstra,Matteo Matteucci

Main category: cs.RO

TL;DR: AgriGS-SLAM是一个视觉-LiDAR SLAM框架,结合直接LiDAR里程计和闭环检测与多相机3D高斯泼溅渲染,用于果园环境下的实时3D场景理解。

  • Motivation: 果园环境中的自主机器人需要实时3D场景理解,但面临重复行几何、季节性外观变化和风驱动叶片运动等挑战。
  • Method: 通过批量栅格化互补视角恢复被遮挡的果园结构,使用统一梯度驱动的地图生命周期管理,并通过概率LiDAR深度一致性项指导位姿优化。
  • Result: 在苹果和梨园多个季节的测试中,AgriGS-SLAM比现有3DGS-SLAM基线提供更清晰、更稳定的重建和更平滑的轨迹,同时保持实时性能。
  • Conclusion: 该方法不仅适用于果园监测,还可应用于其他需要鲁棒多模态感知的户外领域。