Skip to content
每日arXiv - 2025年12月24日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] PHANTOM: PHysical ANamorphic Threats Obstructing Connected Vehicle Mobility

Md Nahid Hasan Shuvo,Moinul Hossain

Main category: cs.CV

TL;DR: PHANTOM框架利用变形艺术生成视角依赖的对抗样本,在无需模型访问的黑盒设置下攻击自动驾驶视觉系统,同时通过V2X通信触发网络级干扰。

  • Motivation: 尽管自动驾驶车辆依赖视觉DNN和V2X通信,但这些系统仍易受物理对抗攻击。现有攻击方法存在局限性,需要探索更隐蔽、可转移的攻击方式。
  • Method: 利用变形艺术原理创建视角依赖的对抗样本,在特定视角下呈现自然几何变形但对目标检测器产生误导。采用黑盒攻击策略,无需访问目标模型内部信息。
  • Result: 在CARLA仿真中,PHANTOM在理想条件下攻击成功率超过90%,恶劣环境下保持60-80%。攻击在6-10米内激活,SUMO-OMNeT++仿真显示虚假紧急信息通过V2X传播,使信息峰值年龄增加68-89%。
  • Conclusion: PHANTOM暴露了CAV生态系统在感知和通信层的严重漏洞,需要加强对抗性鲁棒性研究以保障自动驾驶安全。

[2] Generating the Past, Present and Future from a Motion-Blurred Image

SaiKiran Tedla,Kelly Zhu,Trevor Canham,Felix Taubner,Michael S. Brown,Kiriakos N. Kutulakos,David B. Lindell

Main category: cs.CV

TL;DR: 利用预训练视频扩散模型从单张运动模糊图像恢复视频序列,揭示拍摄时刻及前后场景动态

  • Motivation: 运动模糊图像虽然损失细节,但编码了曝光期间场景和相机运动信息。现有方法依赖手工先验或特定网络架构,难以恢复复杂场景动态,且无法推断拍摄前后发生的事件
  • Method: 提出新方法,重新利用在互联网规模数据集上预训练的视频扩散模型,从单张运动模糊图像恢复视频序列,揭示拍摄时刻及前后的场景动态
  • Result: 方法优于现有技术,能泛化到具有挑战性的真实图像,支持恢复相机轨迹、物体运动和动态3D场景结构等下游任务
  • Conclusion: 通过重新利用大规模预训练视频扩散模型,能够从单张运动模糊图像有效恢复复杂场景动态,并推断拍摄前后的事件,为运动模糊图像分析开辟新方向

[3] Learning to Refocus with Video Diffusion Models

SaiKiran Tedla,Zhoutong Zhang,Xuaner Zhang,Shumian Xin

Main category: cs.CV

TL;DR: 提出一种基于视频扩散模型的后处理重对焦方法,可从单张失焦图像生成感知准确的对焦堆栈视频序列,实现交互式重对焦

  • Motivation: 自动对焦系统常无法准确捕捉目标主体,用户希望在拍摄后调整对焦,但现有方法难以实现逼真的后处理重对焦
  • Method: 使用视频扩散模型从单张失焦图像生成对焦堆栈视频序列,并发布大规模真实智能手机拍摄的对焦堆栈数据集
  • Result: 在感知质量和鲁棒性方面均优于现有方法,支持交互式重对焦和多种下游应用
  • Conclusion: 该方法为日常摄影中的高级对焦编辑功能铺平了道路,代码和数据已开源

[4] RANSAC Scoring Functions: Analysis and Reality Check

A. Shekhovtsov

Main category: cs.CV

TL;DR: 该论文重新审视了几何模型拟合中的评分函数问题,分析了MAGSAC++方法,发现其推导存在问题,并提出新的实验评估方法,发现现有评分函数性能相似。

  • Motivation: 重新审视RANSAC中几何模型拟合的评分函数问题,特别是分析当前表现最佳的MAGSAC++方法,探究其理论基础是否可靠,并提出更系统的评估方法。
  • Method: 1. 扩展几何误差到球形噪声;2. 分析混合分布(均匀分布离群值)和阈值参数化;3. 深入分析MAGSAC++的推导和假设;4. 提出两种实验评估方法:大验证集和小随机验证集;5. 比较多种评分函数性能。
  • Result: 1. MAGSAC++的推导不符合合理原则,其评分函数在数值上等价于简单的高斯-均匀似然;2. 所有评分函数(包括使用学习的内点分布)性能相同;3. MAGSAC++既不优于简单竞争者,也不对阈值超参数选择更不敏感。
  • Conclusion: 该研究全面重新审视了当前最先进的方法,发现MAGSAC++的理论基础存在问题,且所有评分函数性能相似,这对未来改进方法或应用于其他鲁棒拟合问题具有重要意义。

[5] HyGE-Occ: Hybrid View-Transformation with 3D Gaussian and Edge Priors for 3D Panoptic Occupancy Prediction

Jong Wook Kim,Wonseok Roh,Ha Dam Baek,Pilhyeon Lee,Jonghyun Choi,Sangpil Kim

Main category: cs.CV

TL;DR: HyGE-Occ是一个用于3D全景占据预测的新框架,通过混合视图变换分支结合3D高斯和边缘先验,提升几何一致性和边界感知能力。

  • Motivation: 现有方法在保持精确几何结构和捕捉3D实例空间范围方面存在困难,这影响了全景分割的鲁棒性。需要更精确的几何推理和空间一致的场景表示。
  • Method: 采用混合视图变换分支,融合连续高斯深度表示和离散深度仓表示,生成具有更好几何一致性的BEV特征。同时从BEV特征提取边缘图作为辅助信息学习边缘线索。
  • Result: 在Occ3D-nuScenes数据集上的实验表明,HyGE-Occ优于现有方法,展示了卓越的3D几何推理能力。
  • Conclusion: HyGE-Occ通过混合视图变换和边缘先验,有效提升了3D全景占据预测的几何一致性和边界感知,为密集3D场景理解提供了更好的解决方案。

[6] Widget2Code: From Visual Widgets to UI Code via Multimodal LLMs

Houston H. Zhang,Tao Zhang,Baoze Lin,Yuanqi Xue,Yincheng Zhu,Huan Liu,Li Gu,Linfeng Ye,Ziqiang Wang,Xinxin Zuo,Yang Wang,Yuanhao Yu,Zhixiang Chi

Main category: cs.CV

TL;DR: 提出Widget2Code任务,针对紧凑、无上下文的小部件UI生成代码,建立首个图像基准测试,开发WidgetFactory系统提升视觉保真度

  • Motivation: 现有UI2Code研究主要关注网页和移动界面,而小部件(widgets)作为紧凑、无上下文的微界面,具有密集布局和图标化特点,缺乏公开标注数据,需要专门研究
  • Method: 1) 建立首个图像小部件基准测试;2) 开发WidgetFactory系统,包含感知理解(原子组件组装、图标检索)和结构化代码生成(WidgetDSL领域特定语言、多前端编译器、自适应渲染模块)
  • Result: 多模态大语言模型在Widget2Code上优于专用UI2Code方法但仍不可靠,提出的WidgetFactory系统显著提升视觉保真度,为未来研究建立强基线
  • Conclusion: Widget2Code是UI2Code的重要子任务,需要专门方法处理小部件的紧凑性和无上下文特性,提出的基准测试和WidgetFactory系统为未来研究提供统一基础设施

[7] Unified Brain Surface and Volume Registration

S. Mazdak Abulnaga,Andrew Hoopes,Malte Hoffmann,Robin Magnet,Maks Ovsjanikov,Lilla Zöllei,John Guttag,Bruce Fischl,Adrian Dalca

Main category: cs.CV

TL;DR: NeurAlign是一个深度学习框架,通过统一的体积-表面表示联合配准大脑MRI的皮层和皮层下区域,在准确性和速度上优于现有方法。

  • Motivation: 传统方法将体积配准和表面配准分开处理,导致不一致性,限制了后续分析。需要一种能够同时对齐皮层和皮层下区域的一致方法。
  • Method: 提出NeurAlign框架,利用中间球面坐标空间桥接解剖表面拓扑和体积解剖结构,通过集成球面配准到学习中确保体积和表面域的几何一致性。
  • Result: 在域内和域外数据集上均优于传统和基于机器学习的配准方法,Dice分数提高最多7个点,同时保持规则变形场,速度比标准方法快几个数量级。
  • Conclusion: NeurAlign凭借其卓越的准确性、快速推理和易用性,为联合皮层和皮层下配准设定了新标准。

[8] Vehicle-centric Perception via Multimodal Structured Pre-training

Wentao Wu,Xiao Wang,Chenglong Li,Jin Tang,Bin Luo

Main category: cs.CV

TL;DR: VehicleMAE-V2是一个面向车辆感知的预训练大模型,通过引入车辆对称性、轮廓和语义三种结构化先验知识来指导掩码标记重建,显著提升了车辆感知的表征学习能力。

  • Motivation: 现有方法在预训练阶段缺乏对车辆相关知识的有效学习,导致车辆感知表征建模能力不足。为了解决这个问题,需要开发能够学习通用车辆感知表征的预训练模型。
  • Method: 设计了三个模块:1)对称性引导掩码模块(SMM)利用车辆对称约束选择高质量掩码图像块;2)轮廓引导表征模块(CRM)通过最小化轮廓特征与重建特征的分布差异来保持整体车辆结构信息;3)语义引导表征模块(SRM)通过对比学习和跨模态蒸馏对齐图像-文本特征。构建了包含400万车辆图像和12,693个文本描述的大规模数据集Autobot4M。
  • Result: 在五个下游任务上的大量实验表明,VehicleMAE-V2表现出优越的性能,证明了其在车辆感知任务中的有效性。
  • Conclusion: VehicleMAE-V2通过整合车辆相关的结构化先验知识,显著提升了车辆感知表征的学习能力,为大规模监控系统、智能交通和自动驾驶等智能系统提供了有效的车辆中心感知解决方案。

[9] Block-Recurrent Dynamics in Vision Transformers

Mozes Jacobs,Thomas Fel,Richard Hakim,Alessandra Brondetta,Demba Ba,T. Andy Keller

Main category: cs.CV

TL;DR: Vision Transformers (ViTs) 展现出块循环深度结构,仅需少量不同块即可近似原始模型,支持通过动力学系统分析进行可解释性研究。

  • Motivation: 尽管ViT已成为标准视觉骨干网络,但其计算机制尚不明确。需要建立框架将Transformer深度解释为特征良好的动力学流,以理解其内部工作机制。
  • Method: 提出块循环假设(BRH),认为训练好的ViT具有块循环深度结构。开发Raptor模型(循环近似相位结构Transformer),用k≪L个不同块循环应用来近似原始L个块的计算。通过层间表示相似性矩阵分析相位结构,并训练块循环替代模型验证假设。
  • Result: 1) 小规模实验显示随机深度和训练促进循环结构;2) Raptor模型仅用2个块即可恢复DINOv2 ImageNet-1k线性探测96%准确率;3) 动力学可解释性分析发现:类依赖角向盆地收敛、token特定动态、后期低秩更新等特征。
  • Conclusion: ViT深度中出现了紧凑的循环程序,指向低复杂度规范解,使这些模型能够通过原则性动力学系统分析进行研究,为Transformer机制理解提供了新框架。

[10] SE360: Semantic Edit in 360 Panoramas via Hierarchical Data Construction

Haoyi Zhong,Fang-Lue Zhang,Andrew Chalmers,Taehyun Rhee

Main category: cs.CV

TL;DR: SE360是一个用于360°全景图多条件引导对象编辑的新框架,通过自主数据生成管道和两阶段数据精炼策略,训练基于Transformer的扩散模型,实现文本、掩码或参考图像引导的灵活编辑。

  • Motivation: 现有的基于指令的图像编辑方法扩展到360°全景图时面临挑战,在等距柱状投影和透视视图中常产生不合理结果,需要解决全景图编辑中的语义和几何一致性问题。
  • Method: 提出SE360框架,包含:1)无需人工干预的粗到细自主数据生成管道,利用视觉语言模型和自适应投影调整进行分层分析;2)经济高效的两阶段数据精炼策略提升数据真实感;3)基于构建的数据集训练Transformer扩散模型。
  • Result: 实验表明该方法在视觉质量和语义准确性方面优于现有方法,能够生成语义有意义且几何一致的结果,即使使用未标记的全景图作为数据源。
  • Conclusion: SE360为360°全景图的多条件对象编辑提供了有效解决方案,通过创新的数据生成和精炼策略,实现了高质量的全景图编辑效果。

[11] How Much 3D Do Video Foundation Models Encode?

Zixuan Huang,Xiang Li,Zhaoyang Lv,James M. Rehg

Main category: cs.CV

TL;DR: 该研究提出首个模型无关框架,通过浅层读出器从视频基础模型特征中估计3D属性,评估其3D理解能力,发现最先进的视频生成模型在未接受3D数据训练的情况下展现出强大的3D场景理解能力。

  • Motivation: 研究动机是探索视频基础模型在大量视频数据预训练后,是否自然涌现出全局3D理解能力。视频是3D世界的连续2D投影,研究者希望量化现有视频基础模型的3D理解水平。
  • Method: 提出首个模型无关框架,通过浅层读出器从各种视频基础模型的特征中估计多个3D属性,从而测量其3D感知能力。该方法不依赖特定模型架构,可广泛评估不同视频基础模型。
  • Result: 研究发现最先进的视频生成模型展现出对3D物体和场景的深刻理解,尽管未接受任何3D数据训练。这种理解能力甚至超过专门为3D任务训练的大型专家模型。研究还对主要视频基础模型进行了3D基准测试。
  • Conclusion: 该研究提供了评估视频基础模型3D理解能力的系统方法,发现视频生成模型具有强大的3D感知能力,为构建可扩展的3D模型提供了有价值的观察和基准。

[12] HistoWAS: A Pathomics Framework for Large-Scale Feature-Wide Association Studies of Tissue Topology and Patient Outcomes

Yuechen Yang,Junlin Guo,Yanfan Zhu,Jialin Yue,Junchao Zhu,Yu Wang,Shilin Zhao,Haichun Yang,Xingyi Guo,Jovan Tanevski,Laura Barisoni,Avi Z. Rosenberg,Yuankai Huo

Main category: cs.CV

TL;DR: HistoWAS是一个计算框架,通过整合30个拓扑和空间特征来量化组织微结构,并将组织空间组织与临床结果关联起来。

  • Motivation: 目前缺乏能够测量个体结构特征空间相互作用及其与临床参数关联的工具,限制了组织微环境和宏观环境特征的临床相关性研究。
  • Method: 开发了HistoWAS框架,包含:(1) 特征空间:在传统指标基础上增加30个来自地理信息系统点模式分析的拓扑和空间特征;(2) 关联研究引擎:采用大规模单变量回归进行特征-临床关联分析并进行统计校正。
  • Result: 在KPMP项目的385张PAS染色全切片图像上应用,分析了102个特征(72个传统对象级特征+30个空间特征),代码和数据已开源。
  • Conclusion: HistoWAS为连接组织空间组织与临床结果提供了有效框架,有助于组织特征分析和生物标志物发现。

[13] WSD-MIL: Window Scale Decay Multiple Instance Learning for Whole Slide Image Classification

Le Feng,Li Xiao

Main category: cs.CV

TL;DR: 提出WSD-MIL方法,通过窗口尺度衰减注意力模块和区域门控模块,在计算病理学中高效建模多尺度肿瘤区域,降低62%计算内存并达到SOTA性能。

  • Motivation: 现有MIL方法主要关注特征提取和聚合策略,忽略了全切片图像中实例间的复杂语义关系。Transformer方法虽然能建模实例依赖,但二次计算复杂度限制了大规模WSI的可扩展性,且固定尺度注意力机制难以精确捕捉不同尺度肿瘤区域的局部相关性。
  • Method: 提出WSD-MIL方法,包含:1)窗口尺度衰减注意力模块,采用聚类采样策略降低计算成本,通过渐进衰减注意力窗口尺度来捕捉多尺度局部实例关系;2)基于挤压-激励的区域门控模块,动态调整窗口权重以增强全局信息建模。
  • Result: 在CAMELYON16和TCGA-BRCA数据集上达到最先进性能,同时减少62%的计算内存消耗。
  • Conclusion: WSD-MIL通过多尺度注意力机制和高效计算策略,有效解决了现有Transformer方法在计算病理学中的计算复杂度和多尺度建模问题,为大规模WSI分析提供了实用解决方案。

[14] A Novel CNN Gradient Boosting Ensemble for Guava Disease Detection

Tamim Ahasan Rijon,Yeasin Arafath

Main category: cs.CV

TL;DR: 该研究提出了一种结合CNN与机器学习(特别是梯度提升机)的集成模型,用于检测孟加拉国本地种植番石榴的病害(健康、果蝇感染、炭疽病),在GFDD24数据集上达到了约99.99%的分类准确率。

  • Motivation: 孟加拉国作为重要农业国,番石榴是其重要经济作物。炭疽病和果蝇感染会降低番石榴品质和产量,早期病害检测系统可以减少损失、保护收成,对经济发展至关重要。
  • Method: 使用CNN与传统机器学习技术结合的方法,提出CNN-ML级联框架,特别是CNN与梯度提升机(Gradient Boosting Machine)的集成模型,在GFDD24数据集上进行病害分类。
  • Result: 提出的集成模型在番石榴病害检测中达到了约99.99%的最高分类准确率,CNN-ML级联框架表现出强大的高精度病害检测能力。
  • Conclusion: 该CNN-ML集成模型适合实时农业监测系统,能够有效识别孟加拉国本地种植番石榴的病害,有助于提高番石榴产量和农业实践。

[15] A Dual-Branch Local-Global Framework for Cross-Resolution Land Cover Mapping

Peng Gao,Ke Li,Di Wang,Yongshan Zhu,Yiming Zhang,Xuemei Luo,Yifeng Wang

Main category: cs.CV

TL;DR: DDTM:一种双分支弱监督框架,通过扩散模型细化局部语义,Transformer确保全局上下文一致性,解决跨分辨率土地覆盖映射中的分辨率不匹配问题

  • Motivation: 跨分辨率土地覆盖映射需要从粗分辨率监督中生成高分辨率语义预测,但严重的分辨率不匹配导致现有弱监督方法难以对齐细粒度空间结构与粗标签,产生噪声监督和精度下降
  • Method: 提出DDTM双分支弱监督框架:1)基于扩散的分支在粗监督下逐步细化细尺度局部语义;2)基于Transformer的分支强制大空间范围内的长距离上下文一致性;3)设计伪标签置信度评估模块,缓解跨分辨率不一致性引起的噪声,选择性利用可靠监督信号
  • Result: 在Chesapeake Bay基准测试中达到66.52% mIoU,显著优于现有弱监督方法,建立了新的最先进水平
  • Conclusion: DDTM通过解耦局部语义细化和全局上下文推理,有效解决了跨分辨率土地覆盖映射中的分辨率不匹配问题,为弱监督遥感图像分析提供了新思路

[16] Few-Shot-Based Modular Image-to-Video Adapter for Diffusion Models

Zhenhao Li,Shaohan Yi,Zheng Liu,Leonartinus Gao,Minh Ngoc Le,Ambrose Ling,Zhuoran Wang,Md Amirul Islam,Zhixiang Chi,Yuanhao Yu

Main category: cs.CV

TL;DR: MIVA是一个轻量级模块化图像到视频适配器,可附加到预训练扩散模型上,每个模块学习单一运动模式,只需约10个样本即可训练,实现精确运动控制而无需提示工程。

  • Motivation: 扩散模型在图像动画应用受限,主要因为视频数据维度高导致训练数据稀缺,模型倾向于记忆而非遵循提示生成运动,且难以泛化到未见过的运动模式,使用有限数据微调扩散模型学习新运动模式的研究不足。
  • Method: 提出模块化图像到视频适配器(MIVA),作为预训练扩散模型的轻量子网络附件,每个MIVA模块设计用于捕获单一运动模式,可通过并行化扩展,仅需约10个样本即可在消费级GPU上高效训练。
  • Result: 实验表明MIVA能够实现更精确的运动控制,同时保持甚至超越在大规模数据集上训练模型的生成质量,用户可通过选择单个或多个MIVA模块指定运动而无需提示工程。
  • Conclusion: MIVA解决了扩散模型在图像动画中的关键限制,提供了一种高效、可扩展且精确的运动控制方法,仅需少量训练数据即可学习新运动模式,显著提升了扩散模型在图像动画任务中的实用性和灵活性。

[17] PaveSync: A Unified and Comprehensive Dataset for Pavement Distress Analysis and Classification

Blessing Agyei Kyem,Joshua Kofi Asamoah,Anthony Dontoh,Andrews Danyo,Eugene Denteh,Armstrong Aboah

Main category: cs.CV

TL;DR: 该研究创建了一个标准化的路面缺陷检测基准数据集,整合了来自7个国家的52747张图像和135277个标注框,覆盖13种缺陷类型,用于统一训练和评估检测模型。

  • Motivation: 现有路面缺陷检测数据集在标注风格、缺陷类型定义和格式上存在差异,缺乏标准化,导致模型难以在多样化真实场景中泛化,限制了数据集整合和统一训练。
  • Method: 整合多个公开数据集,统一标注格式和类别定义,创建包含52747张图像(来自7个国家)、135277个边界框标注、覆盖13种缺陷类型的标准化基准数据集。
  • Result: 使用YOLOv8-YOLOv12、Faster R-CNN和DETR等先进目标检测模型进行基准测试,在不同场景下均取得了有竞争力的性能,并展示了向新环境的零样本迁移能力。
  • Conclusion: 该标准化数据集为路面缺陷检测提供了首个全球代表性基准,实现了模型的公平比较,解决了现有数据集不一致的问题,促进了该领域的发展。

[18] SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images

Zepeng Xin,Kaiyu Li,Luodi Chen,Wanchen Li,Yuchen Xiao,Hui Qiao,Weizhan Zhang,Deyu Meng,Xiangyong Cao

Main category: cs.CV

TL;DR: LaSeRS数据集和SegEarth-R2模型解决了遥感图像中复杂语言引导分割的挑战,包括层次粒度、多目标、推理需求和语言变异性,超越了现有简单指令的局限。

  • Motivation: 当前模型只能处理简单的单目标指令,但在复杂的对地观测场景中(如灾害响应、环境监测)表现不佳,无法处理多层次粒度、多目标指令和隐含用户意图。现有数据集过于简化,导致模型在真实场景中敏感易错。
  • Method: 提出了LaSeRS数据集,覆盖语言引导分割的四个关键维度:层次粒度、目标多样性、推理需求和语言变异性。同时设计了SegEarth-R2模型架构,包含空间注意力监督机制(处理小目标定位)和灵活高效的分割查询机制(处理单目标和多目标场景)。
  • Result: SegEarth-R2在LaSeRS和其他基准测试中表现出色,为新一代对地观测分割建立了强大的基线。模型能有效处理复杂的地理空间推理任务。
  • Conclusion: LaSeRS数据集填补了复杂语言引导分割的空白,SegEarth-R2模型通过创新的空间注意力监督和分割查询机制,显著提升了遥感图像中复杂语言指令的理解和执行能力。

[19] A Contextual Analysis of Driver-Facing and Dual-View Video Inputs for Distraction Detection in Naturalistic Driving Environments

Anthony Dontoh,Stephanie Ivey,Armstrong Aboah

Main category: cs.CV

TL;DR: 双视角(驾驶员+道路)输入在某些模型上能提升分心驾驶检测准确率,但效果取决于架构设计,并非简单添加视觉上下文就能改善性能。

  • Motivation: 现有分心驾驶检测模型主要依赖驾驶员视角,忽略了影响驾驶行为的关键环境上下文。本研究旨在探究结合道路视角是否能提升自然驾驶条件下的分心检测准确率。
  • Method: 使用真实世界驾驶中的同步双摄像头记录,对三种时空动作识别架构(SlowFast-R50、X3D-M、SlowOnly-R50)进行基准测试,比较单视角(驾驶员)和堆叠双视角两种输入配置。
  • Result: 单路径SlowOnly模型在双视角输入下准确率提升9.8%,而双路径SlowFast模型准确率下降7.2%,表明上下文输入的效果强烈依赖于底层架构。
  • Conclusion: 简单地添加视觉上下文并不足够,甚至可能导致干扰,除非架构专门设计用于支持多视角集成。未来多模态驾驶员监控系统需要融合感知设计。

[20] MAPI-GNN: Multi-Activation Plane Interaction Graph Neural Network for Multimodal Medical Diagnosis

Ziwei Qin,Xuhui Song,Deqing Huang,Na Qin,Jun Li

Main category: cs.CV

TL;DR: MAPI-GNN通过从语义解缠的特征子空间学习多面图配置文件,动态构建激活图堆栈,显著提升多模态医疗诊断性能

  • Motivation: 现有图神经网络在多模态医疗诊断中通常依赖单一静态图,使用不加区分的特征构建,限制了建模患者特异性病理关系的能力
  • Method: 提出多激活平面交互图神经网络(MAPI-GNN):1) 通过多维判别器发现潜在图感知模式;2) 基于这些模式动态构建激活图堆栈;3) 通过关系融合引擎聚合和上下文化多面配置文件进行诊断
  • Result: 在两个不同任务(超过1300个患者样本)的广泛实验中,MAPI-GNN显著优于最先进方法
  • Conclusion: MAPI-GNN通过重构单一图范式,学习多面图配置文件,能够更好地建模患者特异性病理关系,在多模态医疗诊断中取得优越性能

[21] H2em: Learning Hierarchical Hyperbolic Embeddings for Compositional Zero-Shot Learning

Lin Li,Jiahui Li,Jiaming Lei,Jun Xiao,Feifei Shao,Long Chen

Main category: cs.CV

TL;DR: 提出H2em框架,利用双曲几何嵌入层次结构解决组合零样本学习问题,通过双层次蕴含损失和判别对齐损失优化,在闭世界和开世界场景均达到SOTA。

  • Motivation: 现有CZSL方法在欧几里得空间中建模层次结构,但无法扩展到现实世界所需的大规模分类体系,因为欧氏空间的体积增长与层次结构的指数增长不匹配,限制了泛化能力。
  • Method: 提出H2em框架:1)利用双曲几何嵌入层次结构;2)设计双层次蕴含损失,使用双曲蕴含锥强制执行预定义层次结构;3)判别对齐损失,通过困难负样本挖掘在语义相似组合间建立大测地距离;4)双曲跨模态注意力实现实例感知的跨模态融合。
  • Result: 在三个基准测试上的广泛消融实验表明,H2em在闭世界和开世界场景中都建立了新的最先进性能。
  • Conclusion: 双曲几何为组合零样本学习中的层次结构建模提供了更合适的空间,H2em框架通过精心设计的损失函数和注意力机制有效解决了层次崩溃和细粒度判别问题,显著提升了CZSL性能。

[22] VALLR-Pin: Dual-Decoding Visual Speech Recognition for Mandarin with Pinyin-Guided LLM Refinement

Chang Sun,Dongliang Xie,Bo Qin,Hong Yang

Main category: cs.CV

TL;DR: VALLR-Pin:一个两阶段框架,通过结合视觉特征、拼音表示和大语言模型来提升中文唇语识别性能,解决同音字和视觉单元模糊问题。

  • Motivation: 中文唇语识别面临两个主要挑战:1)视觉单元(visemes)高度模糊,不同发音的嘴唇动作相似;2)中文存在大量同音字,仅凭视觉信息难以区分。需要结合语音和语义上下文来提升识别准确性。
  • Method: 1)两阶段框架:第一阶段使用共享视频编码器和双解码器,同时预测中文字符序列和标准拼音;2)多任务学习:联合学习字符和拼音输出,增强视觉-语义表示;3)推理时生成多个候选转录,将拼音输出与候选中文序列拼接作为提示,输入大语言模型进行消歧和精炼;4)使用合成噪声数据微调LLM:从中间检查点生成不完美的拼音-文本对,创建指令-响应对用于错误纠正。
  • Result: VALLR-Pin通过结合视觉特征、拼音表示和语言模型,有效解决了中文唇语识别中的同音字和视觉模糊问题,提升了识别性能。多任务学习和LLM纠错机制显著提高了转录准确性。
  • Conclusion: VALLR-Pin成功将VALLR架构从英文扩展到中文,通过视觉特征、语音表示和语言上下文的协同作用,显著提升了中文唇语识别性能,为处理高度模糊的视觉单元和同音字问题提供了有效解决方案。

[23] FlashLips: 100-FPS Mask-Free Latent Lip-Sync using Reconstruction Instead of Diffusion or GANs

Andreas Zinonos,Michał Stypułkowski,Antoni Bigata,Stavros Petridis,Maja Pantic,Nikita Drobyshev

Main category: cs.CV

TL;DR: FlashLips是一个两阶段、无需掩码的唇形同步系统,通过解耦唇部控制和渲染,在单GPU上实现超过100FPS的实时性能,同时匹配最先进大模型的视觉质量。

  • Motivation: 现有唇形同步系统通常需要复杂的掩码处理或依赖GANs/扩散模型,导致计算开销大、推理速度慢。需要一种既能保持高质量视觉效果,又能实现实时性能的简化方法。
  • Method: 采用两阶段架构:第一阶段是紧凑的一步潜在空间编辑器,使用参考身份、掩码目标帧和低维唇部姿态向量重建图像,仅用重建损失训练;通过自监督生成嘴部变体作为伪真值进行微调,消除推理时的显式掩码需求。第二阶段是基于流匹配目标的音频到姿态变换器,从语音预测唇部姿态向量。
  • Result: 系统在单GPU上实现超过100FPS的实时性能,视觉质量与最先进大模型相当。结合确定性重建和鲁棒的音频控制,提供高感知质量和超实时速度。
  • Conclusion: FlashLips通过解耦唇部控制和渲染,结合自监督学习和流匹配技术,实现了简单稳定、高质量且超实时的唇形同步系统,无需复杂掩码处理或GANs/扩散模型。

[24] Beyond Vision: Contextually Enriched Image Captioning with Multi-Modal Retrieva

Nguyen Lam Phu Quy,Pham Phu Hoa,Tran Chi Nguyen,Dao Sy Duy Minh,Nguyen Hoang Minh Ngoc,Huynh Trung Kiet

Main category: cs.CV

TL;DR: 提出多模态管道,通过外部文本知识增强图像描述,生成事件丰富、上下文感知的标题

  • Motivation: 现实世界图像标题通常缺乏上下文深度,省略了事件背景、时间线索、结果和命名实体等关键细节,限制了图像理解在新闻、教育和数字档案等领域的有效性
  • Method: 使用BEIT-3和SigLIP检索语义相似图像,通过ORB和SIFT进行几何对齐重排序,从相关文章中提取上下文信息,最后用QLoRA微调的Qwen3模型整合上下文与Instruct BLIP生成的基础标题
  • Result: 在OpenEvents v1数据集上评估,相比传统方法能生成显著更信息丰富的标题,在需要深度视觉-文本理解的实际应用中显示出强大潜力
  • Conclusion: 提出的多模态管道通过整合外部文本知识,有效增强了图像描述的上下文深度,为需要丰富信息描述的实际应用提供了有前景的解决方案

[25] Progressive Learned Image Compression for Machine Perception

Jungwoo Kim,Jun-Hyuk Kim,Jong-Seok Lee

Main category: cs.CV

TL;DR: 提出PICM-Net,一种基于三态平面编码的渐进式学习图像压缩方法,专门针对机器感知任务,支持细粒度可扩展性,并包含自适应解码控制器。

  • Motivation: 现有学习图像编码器已从人类感知扩展到机器感知,但针对机器感知的渐进式图像压缩(具有细粒度可扩展性)尚未探索。需要开发能够支持机器感知任务的渐进式压缩方法。
  • Method: 基于三态平面编码(trit-plane coding)构建PICM-Net,系统分析人类和机器感知在率失真优先级上的差异,设计自适应解码控制器,在推理时动态确定必要的解码级别以维持下游机器预测的置信度。
  • Result: 实验表明,该方法能够实现高效且自适应的渐进传输,同时在下游分类任务中保持高性能,为机器感知的渐进式图像压缩建立了新范式。
  • Conclusion: PICM-Net成功实现了针对机器感知的渐进式图像压缩,通过分析率失真优先级差异和自适应解码控制,为机器感知压缩提供了有效的渐进传输解决方案。

[26] Item Region-based Style Classification Network (IRSN): A Fashion Style Classifier Based on Domain Knowledge of Fashion Experts

Jinyoung Choi,Youngchae Kwon,Injung Kim

Main category: cs.CV

TL;DR: 提出IRSN网络,通过分析单品区域特征及其组合来改进时尚风格分类,在多个数据集上显著提升分类准确率

  • Motivation: 时尚风格分类具有挑战性,因为同一风格内视觉差异大,且不同风格间视觉相似度高。风格不仅由整体外观表达,还由单品属性及其组合方式决定。
  • Method: 提出IRSN网络:1) 使用IRP提取每个单品区域特征;2) 分别分析这些特征;3) 通过GFF融合特征;4) 采用双主干架构,结合领域特定特征提取器和预训练通用特征提取器。
  • Result: 在6个主流骨干网络上应用IRSN,在FashionStyle14数据集上平均提升6.9%(最高14.5%),在ShowniqV3数据集上平均提升7.6%(最高15.1%)。可视化分析显示IRSN能更好区分相似风格。
  • Conclusion: IRSN通过分析单品区域特征及其组合,有效提升了时尚风格分类性能,证明了细粒度特征分析对风格分类的重要性。

[27] Effect of Activation Function and Model Optimizer on the Performance of Human Activity Recognition System Using Various Deep Learning Models

Subrata Kumer Paula,Dewan Nafiul Islam Noora,Rakhi Rani Paula,Md. Ekramul Hamidb,Fahmid Al Faridc,Hezerul Abdul Karimd,Md. Maruf Al Hossain Princee,Abu Saleh Musa Miahb

Main category: cs.CV

TL;DR: 研究分析了激活函数和优化器组合对基于深度学习的HAR系统性能影响,发现ConvLSTM结合Adam或RMSprop在医疗活动识别中表现最佳,准确率可达99%

  • Motivation: 尽管深度学习在HAR中广泛应用,但激活函数和优化器的组合对性能影响尚未充分研究,特别是在实际医疗场景中,这对系统优化和实际部署至关重要
  • Method: 使用三种激活函数(ReLU、Sigmoid、Tanh)和四种优化算法(SGD、Adam、RMSprop、Adagrad)的组合,在两个循环神经网络架构(BiLSTM和ConvLSTM)上进行实验,数据集采用HMDB51和UCF101中的六个医疗相关活动类别
  • Result: ConvLSTM在所有配置中表现优于BiLSTM,结合Adam或RMSprop时准确率最高达99%;BiLSTM在UCF101上表现尚可(约98%),但在HMDB51上大幅下降至约60%,表明其对数据集和AF-MO组合变化更敏感
  • Conclusion: 研究为优化HAR系统提供了实用指导,特别是在需要快速精确活动检测的医疗环境中,ConvLSTM结合Adam或RMSprop是最佳选择,而BiLSTM的鲁棒性较差

[28] LiDARDraft: Generating LiDAR Point Cloud from Versatile Inputs

Haiyun Wei,Fan Lu,Yunwei Zhu,Zehan Zheng,Weiyi Xue,Lin Shao,Xudong Zhang,Ya Wu,Rong Fu,Guang Chen

Main category: cs.CV

TL;DR: LiDARDraft:利用3D布局作为桥梁,通过语义和深度控制信号,实现从文本、图像到高质量LiDAR点云的可控生成

  • Motivation: 现有方法在生成高质量LiDAR点云时难以同时实现多样化控制,主要原因是复杂的点云分布与简单控制信号之间的不平衡
  • Method: 将文本、图像和点云统一表示为3D布局,转换为语义和深度控制信号,使用基于rangemap的ControlNet指导LiDAR点云生成
  • Result: 实现了像素级对齐的可控LiDAR点云生成,支持从任意文本描述、图像和草图创建自动驾驶环境
  • Conclusion: LiDARDraft通过3D布局桥接多种控制信号与LiDAR点云,实现了高质量、可控的"从零开始仿真"能力

[29] UMAMI: Unifying Masked Autoregressive Models and Deterministic Rendering for View Synthesis

Thanh-Tung Le,Tuan Pham,Tung Nguyen,Deying Kong,Xiaohui Xie,Stephan Mandt

Main category: cs.CV

TL;DR: 提出了一种混合框架,结合了确定性网络和随机扩散方法的优势,用于新颖视角合成,在保持高质量图像的同时大幅减少渲染时间。

  • Motivation: 现有方法存在局限性:确定性网络渲染速度快但未观察区域模糊,而随机扩散方法能生成合理内容但计算成本高。需要结合两者优势。
  • Method: 使用双向Transformer编码多视角图像token和Plucker射线嵌入,生成共享潜在表示。然后通过两个轻量级头:前馈回归头处理几何约束良好的区域,掩码自回归扩散头补全遮挡或未观察区域。端到端训练,结合光度损失和扩散损失。
  • Result: 实验表明该方法达到最先进的图像质量,同时相比完全生成基线将渲染时间减少了一个数量级。
  • Conclusion: 提出的混合框架成功统一了确定性和随机方法的优势,实现了高质量的新颖视角合成,同时显著提高了渲染效率。

[30] Multi Modal Attention Networks with Uncertainty Quantification for Automated Concrete Bridge Deck Delamination Detection

Alireza Moayedikia,Sattar Dorafshan

Main category: cs.CV

TL;DR: 提出一种多模态注意力网络,融合雷达时间模式和热成像空间特征,用于桥梁桥面板分层检测,引入不确定性量化并验证其有效性。

  • Motivation: 现有基础设施自动化检测技术存在局限性:探地雷达对湿度和浅层缺陷敏感,热成像受天气影响且探测深度有限。单模态方法存在互补约束,需要融合多模态数据以克服各自限制。
  • Method: 提出多模态注意力网络,包含:1) 雷达处理的时间注意力机制;2) 热成像特征的空间注意力机制;3) 跨模态融合与可学习嵌入,发现单传感器无法检测的互补缺陷模式;4) 通过蒙特卡洛dropout和学习方差估计进行不确定性量化,分解为认知和偶然不确定性。
  • Result: 在五个桥梁数据集上,从平衡到中度不平衡数据中,该方法在准确率和AUC上显著优于基线方法,超越了单模态和基于拼接的融合。跨模态注意力比模态内注意力提供关键增益,多头机制改善了校准。不确定性量化减少了校准误差,支持通过拒绝不确定案例进行选择性预测。
  • Conclusion: 注意力架构在典型场景下表现良好,但极端类别不平衡时容易发生多数类崩溃,需要专门技术。系统保持部署效率,支持实时检测,并明确了能力边界和局限性。

[31] DDAVS: Disentangled Audio Semantics and Delayed Bidirectional Alignment for Audio-Visual Segmentation

Jingqi Tian,Yiheng Du,Haoji Zhang,Yuji Wang,Isaac Ning Lee,Xulong Bai,Tianrui Zhu,Jingxuan Niu,Yansong Tang

Main category: cs.CV

TL;DR: DDAVS提出解耦音频语义和延迟双向对齐框架,解决音频-视觉分割中的多源纠缠和视听错位问题,在多个基准测试中表现优异。

  • Motivation: 现有音频-视觉分割方法存在多源纠缠和视听错位问题,导致偏向更响亮或更大的物体,而忽略较弱、较小或共现的声源。
  • Method: 使用可学习查询提取音频语义并锚定在音频原型记忆库构建的结构化语义空间中,通过对比学习优化;引入延迟模态交互的双重交叉注意力机制改善多模态对齐。
  • Result: 在AVS-Objects和VPO基准测试中,DDAVS在单源、多源和多实例场景下均优于现有方法,验证了框架的有效性和泛化能力。
  • Conclusion: DDAVS通过解耦音频语义和延迟双向对齐,有效解决了音频-视觉分割中的关键挑战,在复杂真实场景中表现出强大的性能。

[32] HEART-VIT: Hessian-Guided Efficient Dynamic Attention and Token Pruning in Vision Transformer

Mohammad Helal Uddin,Liam Seymour,Sabur Baidya

Main category: cs.CV

TL;DR: HEART-ViT:首个基于Hessian二阶信息的统一动态注意力与token剪枝框架,在保持精度的同时显著降低ViT计算开销,实现边缘设备高效部署

  • Motivation: Vision Transformers在精度上表现出色,但其二次注意力计算成本和冗余计算严重阻碍了在延迟和资源受限平台上的部署。现有剪枝方法孤立处理token或注意力头,依赖启发式或一阶信号,往往牺牲精度或无法跨输入泛化。
  • Method: 提出HEART-ViT框架,使用高效的Hessian-vector乘积估计token和注意力头的曲率加权敏感度,在显式损失预算下实现原则性剪枝决策。该方法统一处理token剪枝和注意力头剪枝,token剪枝主导计算节省,注意力头剪枝提供细粒度冗余消除。
  • Result: 在ImageNet-100和ImageNet-1K上,HEART-ViT实现高达49.4%的FLOPs减少、36%延迟降低和46%吞吐量提升,同时微调后保持或超越基线精度(如40% token剪枝时恢复4.7%精度)。在AGX Orin等边缘设备上验证了实际推理速度和能效提升。
  • Conclusion: HEART-ViT填补了理论与实践的差距,提供了首个统一、曲率驱动的剪枝框架,既保持精度又实现边缘高效,为ViT在资源受限平台上的部署提供了有效解决方案。

[33] milliMamba: Specular-Aware Human Pose Estimation via Dual mmWave Radar with Multi-Frame Mamba Fusion

Niraj Prakash Kini,Shiau-Rung Tsai,Guan-Hsun Lin,Wen-Hsiao Peng,Ching-Wen Ma,Jenq-Neng Hwang

Main category: cs.CV

TL;DR: milliMamba:基于毫米波雷达的2D人体姿态估计框架,通过时空建模解决雷达信号稀疏性问题,在TransHuPR和HuPR数据集上显著超越基线方法

  • Motivation: 毫米波雷达作为隐私保护且光照不变的RGB传感器替代方案,但由于镜面反射导致信号稀疏,从雷达信号中提取鲁棒特征极具挑战性
  • Method: 提出milliMamba框架,包含Cross-View Fusion Mamba编码器(线性复杂度处理长序列)和Spatio-Temporal-Cross Attention解码器,联合建模时空依赖关系,并引入速度损失增强运动平滑性
  • Result: 在TransHuPR和HuPR数据集上分别超越基线11.0 AP和14.6 AP,同时保持合理的计算复杂度
  • Conclusion: milliMamba通过有效的时空建模能够利用相邻帧和关节的上下文信息推断因镜面反射缺失的关节,显著提升了雷达基人体姿态估计的性能

[34] Enhancing annotations for 5D apple pose estimation through 3D Gaussian Splatting (3DGS)

Robert van de Ven,Trim Bresilla,Bram Nelissen,Ard Nieuwenhuizen,Eldert J. van Henten,Gert Kootstra

Main category: cs.CV

TL;DR: 提出基于3D高斯泼溅重建果园场景的新流程,通过简化标注和自动投影,将手动标注需求减少99.6%,显著提升苹果姿态估计效率。

  • Motivation: 果园自动化任务面临环境变化大、遮挡严重等挑战。苹果姿态估计中关键点(如花萼)常被遮挡,现有方法虽不依赖这些关键点但仍需标注,标注过程耗时且困难,不同图像间存在冲突和缺失标注。
  • Method: 提出新流程:1) 使用3D高斯泼溅重建果园场景;2) 简化标注;3) 自动将标注投影到图像;4) 训练和评估姿态估计方法。通过3D重建简化标注过程并扩大数据集。
  • Result: 仅需105个手动标注即可获得28,191个训练标签,减少99.6%。使用遮挡≤95%的果实标签训练效果最佳,原始图像F1分数0.927,渲染图像0.970。训练集大小对性能影响小。遮挡最少的果实位置估计最好,但测试方法未能正确学习苹果方向估计。
  • Conclusion: 提出的3D重建流程能显著减少标注工作量并扩大数据集,在果园自动化任务中具有实用价值。虽然位置估计效果良好,但方向估计仍需改进。

[35] CoDi -- an exemplar-conditioned diffusion model for low-shot counting

Grega Šuštar,Jer Pelhan,Alan Lukežič,Matej Kristan

Main category: cs.CV

TL;DR: CoDi是首个基于潜在扩散模型的低样本目标计数方法,通过生成高质量密度图来精确定位目标位置,在FSC和MCAC基准测试中显著优于现有方法。

  • Motivation: 现有低样本计数方法存在局限性:基于密度的方法定位能力差,而基于点检测的方法在处理大量目标时性能不足,需要采用上采样和分块等临时技术。需要一种既能准确计数又能精确定位的方法。
  • Method: 提出CoDi,首个基于潜在扩散模型的低样本计数器,通过新的基于示例的条件模块提取并调整目标原型到去噪网络的中间层,生成高质量密度图,然后通过非极大值抑制确定目标位置。
  • Result: 在FSC基准测试中,CoDi在少样本、单样本和无参考场景下分别比SOTA方法提升15%、13%和10%的MAE;在MCAC基准测试中,比最佳方法提升44%的MAE,创下新纪录。
  • Conclusion: CoDi通过扩散模型和创新的条件模块,实现了高质量密度图生成和精确定位,在低样本目标计数任务中显著优于现有方法,特别是在密集小目标场景下表现优异。

[36] AMoE: Agglomerative Mixture-of-Experts Vision Foundation Model

Sofian Chaybouti,Sanath Narayan,Yasser Dahou,Phúc H. Lê Khac,Ankit Singh,Ngoc Dung Huynh,Wamiq Reyaz Para,Hilde Kuehne,Hakim Hacid

Main category: cs.CV

TL;DR: AMoE:通过多教师蒸馏构建视觉基础模型,提出非对称关系知识蒸馏、令牌平衡批处理和分层聚类采样,在OpenLVD200M数据集上实现高效训练

  • Motivation: 多教师蒸馏方法为统一视觉表示提供了有前景的路径,但其学习动态和数据效率尚未得到充分探索。本文旨在系统研究多教师蒸馏,寻找降低计算成本的关键因素。
  • Method: 提出AMoE(聚集混合专家视觉基础模型),同时从SigLIP2和DINOv3蒸馏知识到混合专家学生模型。关键方法包括:1)非对称关系知识蒸馏损失,保持各教师几何特性;2)令牌平衡批处理,统一令牌预算稳定多分辨率学习;3)分层聚类采样,提高样本效率。
  • Result: 结合上述发现构建了OpenLVD200M(2亿图像语料库),在多教师蒸馏中表现出优越效率。实现了混合专家模型的实例化,并发布了数据集和蒸馏模型。
  • Conclusion: 通过系统研究多教师蒸馏,识别了降低计算成本的关键因素,提出的AMoE方法在保持教师模型几何特性的同时实现了高效知识转移,为视觉基础模型训练提供了更高效的数据和计算策略。

[37] Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark

Hao Guo,Xugong Qin,Jun Jie Ou Yang,Peng Zhang,Gangyan Zeng,Yubo Li,Hailun Lin

Main category: cs.CV

TL;DR: 本文提出了一个基于自然语言的文档图像检索新基准NL-DIR,使用细粒度语义的自然语言描述作为查询,包含41K真实文档图像,评估现有视觉语言模型和OCR-free文档理解模型。

  • Motivation: 现有文档图像检索方法主要基于图像查询,只能检索粗粒度语义类别(如报纸或收据),无法有效处理现实场景中通常提供的具有细粒度语义的文本查询。
  • Method: 1. 构建NL-DIR基准数据集:41K真实文档图像,每张图像配5个高质量细粒度语义查询(通过大语言模型生成并人工验证);2. 评估现有主流对比视觉语言模型和OCR-free视觉文档理解模型的零样本和微调性能;3. 研究两阶段检索方法以提高性能同时保持时空效率。
  • Result: 提出了新的NL-DIR基准数据集,包含41K文档图像和细粒度语义查询,评估了现有模型的性能,并探索了两阶段检索方法的改进效果。
  • Conclusion: NL-DIR基准为视觉文档理解社区带来了新的研究机会,能够促进基于自然语言的细粒度文档图像检索技术的发展,数据集和代码将公开可用。

[38] Generative Latent Coding for Ultra-Low Bitrate Image Compression

Zhaoyang Jia,Jiahao Li,Bin Li,Houqiang Li,Yan Lu

Main category: cs.CV

TL;DR: GLC是一种在生成式VQ-VAE的潜在空间进行变换编码的图像压缩方法,相比像素空间编码,能在极低比特率下保持高真实感和高保真度。

  • Motivation: 现有图像压缩方法在像素空间进行变换编码以减少空间冗余,但在低比特率下难以同时实现高真实感和高保真度,因为像素空间失真可能与人类感知不一致。
  • Method: 提出生成式潜在编码(GLC)架构,在VQ-VAE的潜在空间而非像素空间进行变换编码;引入分类超模块减少超信息比特成本;使用基于代码预测的监督增强语义一致性。
  • Result: 在自然图像上小于0.04 bpp,人脸图像上小于0.01 bpp时仍保持高视觉质量;在CLIC2020测试集上,以比MS-ILLM少45%的比特数达到相同FID;支持图像修复和风格迁移等应用。
  • Conclusion: 生成式潜在空间具有更好的稀疏性、语义丰富性和人类感知对齐性,为低比特率图像压缩提供了有效解决方案,并能支持多种下游应用。

[39] JDPNet: A Network Based on Joint Degradation Processing for Underwater Image Enhancement

Tao Ye,Hongbin Ren,Chongbing Zhang,Haoran Chen,Xiaosong Li

Main category: cs.CV

TL;DR: JDPNet:一种用于水下图像增强的联合退化处理网络,通过挖掘耦合退化中的潜在信息,在统一框架中处理非线性耦合的多种退化类型。

  • Motivation: 水下图像存在多种非线性耦合的退化类型,现有方法通常针对特定退化设计专门分支或模块,难以有效捕捉和处理多种退化之间的非线性交互作用。
  • Method: 提出JDPNet网络,包含联合特征挖掘模块和概率引导分布策略,用于挖掘和统一调整耦合退化特征;设计AquaBalanceLoss损失函数平衡颜色、清晰度和对比度的学习。
  • Result: 在6个公开水下数据集和2个新构建数据集上验证,JDPNet在性能、参数规模和计算成本之间取得更好平衡,展现最先进的性能。
  • Conclusion: JDPNet通过挖掘耦合退化中的潜在信息,在统一框架中有效处理水下图像的多重非线性退化问题,为水下图像增强提供了更优的解决方案。

[40] LiteFusion: Taming 3D Object Detectors from Vision-Based to Multi-Modal with Minimal Adaptation

Xiangxuan Ren,Zhongdao Wang,Pin Tang,Guoqing Wang,Jilai Zheng,Chao Ma

Main category: cs.CV

TL;DR: LiteFusion:一种新型多模态3D检测器,将LiDAR作为几何信息补充源而非独立模态,消除对3D稀疏卷积的依赖,提升部署友好性和鲁棒性

  • Motivation: 当前多模态3D检测器过度依赖LiDAR传感器,在LiDAR缺失时性能大幅下降,且依赖GPU优化的3D稀疏卷积算子,难以部署到NPU、FPGA等多样化硬件平台
  • Method: 将LiDAR点云作为几何信息补充源而非独立模态,在四元数空间中集成LiDAR点到图像特征,保持正交约束以建模跨模态领域特定关系,完全消除对3D骨干网络的依赖
  • Result: 在nuScenes数据集上,相比基线视觉检测器提升+20.4% mAP和+19.7% NDS,参数仅增加1.1%;即使LiDAR输入缺失,仍能保持良好性能
  • Conclusion: LiteFusion通过重新思考LiDAR在相机-LiDAR融合中的作用,提供了一种部署友好、鲁棒性强的多模态3D检测方案,适用于多样化融合范式和部署场景

[41] IndicDLP: A Foundational Dataset for Multi-Lingual and Multi-Domain Document Layout Parsing

Oikantik Nath,Sahithi Kukkala,Mitesh Khapra,Ravi Kiran Sarvadevabhatla

Main category: cs.CV

TL;DR: IndicDLP是一个大规模多语言文档布局数据集,涵盖11种印度语言和英语,解决现有数据集在细粒度标注、多语言多样性和印度文档代表性不足的问题。

  • Motivation: 现有大规模文档布局数据集(如PubLayNet、DocBank)缺乏细粒度区域标签和多语言多样性,而人工标注数据集(如M6Doc、D4LA)规模太小且多语言覆盖不足。印度文档包含多种文字但代表性不足,限制了文档布局分析的发展。
  • Method: 引入IndicDLP数据集,涵盖11种代表性印度语言和英语,覆盖12个常见文档领域。同时创建UED-mini数据集(基于DocLayNet和M6Doc)用于预训练,为印度布局模型提供基础。
  • Result: 在IndicDLP上微调现有英语模型显著提升性能,验证了数据集的有效性。在IndicDLP上训练的模型能够很好地泛化到非印度文档布局,表明该数据集对文档数字化具有广泛价值。
  • Conclusion: IndicDLP填补了文档布局数据集在规模、多样性和标注粒度方面的空白,推动了包容性和高效的文档理解,为多语言文档数字化提供了宝贵资源。

[42] Degradation-Aware Metric Prompting for Hyperspectral Image Restoration

Binfeng Wang,Di Wang,Haonan Guo,Ying Fu,Jing Zhang

Main category: cs.CV

TL;DR: 提出DAMP框架,通过设计空间-光谱退化度量作为退化提示,无需预定义退化先验,实现统一高光谱图像恢复

  • Motivation: 现有统一高光谱图像恢复方法依赖显式退化先验(如退化标签)作为提示,但在真实场景中复杂混合退化难以获取这些先验信息
  • Method: 设计空间-光谱退化度量来连续量化多维度退化作为退化提示;引入空间-光谱自适应模块(SSAM)动态调制特征提取;将SSAM作为专家集成到混合专家架构,用退化提示作为门控路由器
  • Result: 在自然和遥感高光谱数据集上的实验表明,DAMP实现了最先进的性能,并展示了出色的泛化能力
  • Conclusion: DAMP框架通过退化感知度量提示,无需依赖预定义退化先验,实现了对各种退化(包括混合和未见退化)的自适应、高效和鲁棒恢复

[43] BiCoR-Seg: Bidirectional Co-Refinement Framework for High-Resolution Remote Sensing Image Segmentation

Jinghao Shi,Jianing Song

Main category: cs.CV

TL;DR: 提出BiCoR-Seg框架,通过热图驱动的双向信息协同模块和分层监督策略,解决高分辨率遥感图像语义分割中类间相似度高、类内变化大的问题,提升边界清晰度和类别区分能力。

  • Motivation: 高分辨率遥感图像语义分割面临类间相似度高、类内变化大的挑战,现有方法难以将抽象且强区分性的语义知识有效注入像素级特征学习,导致复杂场景中边界模糊和类别混淆。
  • Method: 提出BiCoR-Seg框架:1) 热图驱动的双向信息协同模块(HBIS),通过生成类别热图建立特征图与类别嵌入之间的双向信息流;2) 分层监督策略,将每个HBIS模块生成的可解释热图直接作为低分辨率分割预测进行监督;3) 跨层类别嵌入Fisher判别损失,增强类内紧凑性和类间分离性。
  • Result: 在LoveDA、Vaihingen和Potsdam数据集上的大量实验表明,BiCoR-Seg实现了出色的分割性能,同时提供了更强的可解释性。
  • Conclusion: BiCoR-Seg通过双向协同精炼框架有效解决了高分辨率遥感图像语义分割的挑战,在提升分割性能的同时增强了模型的可解释性。

[44] LADLE-MM: Limited Annotation based Detector with Learned Ensembles for Multimodal Misinformation

Daniele Cardullo,Simone Teglia,Irene Amerini

Main category: cs.CV

TL;DR: LADLE-MM是一个基于模型汤初始化的多模态虚假信息检测器,在有限标注数据和训练资源下,通过结合单模态分支和多模态分支,使用BLIP提取的固定多模态嵌入作为参考空间,以较少的可训练参数实现了竞争性性能。

  • Motivation: 随着多媒体生成和编辑工具的普及,跨多模态的合成内容操纵已成为广泛威胁,常被用于扭曲重要事件叙事和传播虚假信息。现有检测方法通常依赖计算密集型架构或需要大量标注数据,难以在资源受限环境下应用。
  • Method: 提出LADLE-MM模型:包含两个单模态分支(图像和文本)和一个多模态分支,使用BLIP提取的固定多模态嵌入作为参考空间来增强表示。采用模型汤初始化策略,在有限标注设置下训练,可训练参数比现有SOTA模型减少60.3%。
  • Result: 在DGM4基准测试中,LADLE-MM在二进制和多标签分类任务上均取得竞争性性能,在无基础标注训练时优于现有方法。在VERITE数据集上,超越使用更复杂大型视觉语言模型的当前SOTA方法,展示了在开放集设置下的有效泛化能力和对单模态偏见的强鲁棒性。
  • Conclusion: LADLE-MM证明了在有限标注和计算资源下,通过结合固定多模态嵌入参考空间和模型汤初始化策略,可以构建高效的多模态虚假信息检测器,具有良好泛化能力和鲁棒性,为实际应用提供了可行解决方案。

[45] D3{ETOR}: Debate-Enhanced Pseudo Labeling and Frequency-Aware Progressive Debiasing for Weakly-Supervised Camouflaged Object Detection with Scribble Annotations

Jiawei Ge,Jiuxin Cao,Xinyi Li,Xuelin Zhu,Chang Liu,Bo Liu,Chen Feng,Ioannis Patras

Main category: cs.CV

TL;DR: 提出D³ETOR框架,通过两阶段方法解决弱监督伪装目标检测问题:第一阶段使用辩论增强伪标签生成,第二阶段通过频率感知渐进去偏网络缓解标注偏差。

  • Motivation: 现有弱监督伪装目标检测方法存在两个主要限制:1)通用分割模型生成的伪标签不可靠,缺乏任务特定的语义理解;2)忽视标注偏差,阻碍模型捕捉伪装目标的全局结构。
  • Method: 提出两阶段框架:1)辩论增强伪标签生成,采用自适应熵驱动点采样和多智能体辩论机制增强SAM模型;2)频率感知渐进去偏网络(FADeNet),融合多级频率感知特征,动态重加权监督强度。
  • Result: 在多个基准测试中达到最先进性能,显著缩小了弱监督与全监督伪装目标检测之间的差距。
  • Conclusion: D³ETOR通过联合利用伪标签和涂鸦语义的监督信号,有效解决了弱监督伪装目标检测中的关键挑战,为这一领域提供了有前景的解决方案。

[46] UbiQVision: Quantifying Uncertainty in XAI for Image Recognition

Akshat Dubey,Aleksandar Anžel,Bahar İlgen,Georges Hattab

Main category: cs.CV

TL;DR: 提出一个结合Dirichlet后验采样和Dempster-Shafer理论的新框架,用于量化医学影像中SHAP解释的不确定性,并在三个不同医学影像数据集上验证。

  • Motivation: 深度学习模型在医学影像中应用广泛,但复杂模型(如ResNets、Vision Transformers)的可解释性差。SHAP是主流解释方法,但在存在认知和随机不确定性时,其解释不稳定且不可靠,这在医学影像应用中尤为关键。
  • Method: 使用Dirichlet后验采样和Dempster-Shafer理论来量化SHAP解释的不确定性。框架采用信念图、似然图和融合图方法,结合统计定量分析,对医学影像中的SHAP不确定性进行量化。
  • Result: 在三个具有不同类别分布、图像质量和模态类型的医学影像数据集(病理学、眼科学、放射学)上评估了该框架,这些数据集引入了显著的认知不确定性。
  • Conclusion: 提出的框架能够有效量化医学影像应用中SHAP解释的不确定性,提高了模型解释的可靠性和稳定性,有助于领域专家更好地理解模型预测。

[47] TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation

Ji-Hoon Kim,Junseok Ahn,Doyeop Kwak,Joon Son Chung,Shinji Watanabe

Main category: cs.CV

TL;DR: TAVID是一个统一框架,能够从文本和参考图像同步生成交互式视频和对话语音,实现音频和视觉模态的双向信息交换。

  • Motivation: 现有研究通常孤立地研究说话头或倾听头生成以及对话语音生成,忽略了人类对话的多模态本质和紧密耦合的音频-视觉交互。需要构建更接近真实人类对话的系统。
  • Method: TAVID通过两个跨模态映射器(运动映射器和说话者映射器)集成面部和语音生成管道,实现音频和视觉模态之间互补信息的双向交换。
  • Result: 在四个维度上评估:说话面部真实感、倾听头响应性、二元交互流畅性和语音质量。大量实验证明该方法在所有方面都有效。
  • Conclusion: TAVID能够同步生成交互式面部和对话语音,通过跨模态映射器实现音频-视觉信息的双向交换,为构建更逼真的人类对话系统提供了有效解决方案。

[48] The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Qingdong He,Xueqin Chen,Yanjie Pan,Peng Tang,Pengcheng Xu,Zhenye Gan,Chengjie Wang,Xiaobin Hu,Jiangning Zhang,Yabiao Wang

Main category: cs.CV

TL;DR: KeyTailor:基于关键帧细节注入的视频虚拟试穿框架,配合高质量数据集ViT-HD,提升服装动态细节和背景完整性,同时保持计算效率。

  • Motivation: 现有基于扩散变换器的视频虚拟试穿方法存在三个主要问题:1) 难以捕捉细粒度服装动态;2) 无法保持视频帧间背景完整性;3) 因引入额外交互模块导致计算成本高。此外,现有公开数据集规模小、质量低,限制了模型泛化能力和训练效果。
  • Method: 提出关键帧驱动的细节注入策略,包括:1) 指令引导的关键帧采样策略,从输入视频中筛选信息丰富的关键帧;2) 服装细节增强模块,从关键帧中提取服装动态信息到服装相关潜在空间;3) 协作背景优化模块,优化背景潜在空间的完整性。这些增强的细节与姿态、掩码和噪声潜在空间一起注入标准扩散变换器块中。
  • Result: KeyTailor在动态和静态场景下,在服装保真度和背景完整性方面均优于现有最先进基线方法。同时避免了扩散变换器架构的显式修改,减少了额外复杂度。
  • Conclusion: KeyTailor通过关键帧驱动的细节注入策略,有效解决了视频虚拟试穿中的服装动态捕捉和背景一致性问题,同时保持了计算效率。配合高质量数据集ViT-HD,为视频虚拟试穿领域提供了更优的解决方案。

[49] CRAFT: Continuous Reasoning and Agentic Feedback Tuning for Multimodal Text-to-Image Generation

V. Kovalev,A. Kuvshinov,A. Buzovkin,D. Pokidov,D. Timonin

Main category: cs.CV

TL;DR: CRAFT是一个无需训练、模型无关的框架,通过结构化推理和多轮验证来提升文本到图像生成的质量和可靠性。

  • Motivation: 现有推理时优化方法依赖隐式、整体的评估或无约束的提示重写,导致行为难以解释、控制和可靠停止。相比之下,大语言模型受益于基于验证、针对性修正和提前停止的结构化思考方式。
  • Method: CRAFT将提示分解为依赖结构化的视觉问题,使用视觉语言模型验证生成的图像,通过LLM代理仅在约束失败时应用针对性提示编辑,并在所有约束满足后使用明确停止标准进行迭代。
  • Result: 在多个模型系列和挑战性基准测试中,CRAFT持续提升了组合准确性、文本渲染和基于偏好的评估,特别是对轻量级生成器有显著改进,且仅带来可忽略的推理时间开销。
  • Conclusion: 明确结构化、约束驱动的推理时推理是提高多模态生成模型可靠性的关键要素,使较小或更便宜的模型能够接近更昂贵系统的质量。

[50] Linking Faces and Voices Across Languages: Insights from the FAME 2026 Challenge

Marta Moscati,Ahmed Abdullah,Muhammad Saad Saeed,Shah Nawaz,Rohan Kumar Das,Muhammad Zaigham Zaheer,Junaid Mir,Muhammad Haroon Yousaf,Khalid Mahmood Malik,Markus Schedl

Main category: cs.CV

TL;DR: FAME 2026挑战赛专注于开发在测试语言与训练语言不同情况下的跨模态人脸-语音关联方法,旨在解决多语言环境中的实际应用问题。

  • Motivation: 全球超过一半人口是双语者,人们经常在多语言场景下交流。然而,现有的人脸-语音关联方法通常在训练和测试语言相同的情况下表现良好,但在实际多语言环境中,测试语言往往与训练语言不同,这限制了现有方法的实际应用效果。
  • Method: 该挑战赛通过组织竞赛形式,邀请研究团队开发能够在训练语言和测试语言不同的情况下有效进行人脸-语音关联的方法。挑战赛设置了特定的评估框架来测试模型在多语言环境下的泛化能力。
  • Result: 本文是一份挑战赛总结报告,介绍了FAME 2026挑战赛的背景、目标和组织形式,但没有提供具体的竞赛结果数据。
  • Conclusion: FAME 2026挑战赛旨在推动多语言环境下跨模态人脸-语音关联技术的发展,为解决现实世界中的多语言交流场景提供技术基础,促进该领域的研究进展。

[51] SmartSplat: Feature-Smart Gaussians for Scalable Compression of Ultra-High-Resolution Images

Linfei Li,Lin Zhang,Zhong Wang,Ying Shen

Main category: cs.CV

TL;DR: SmartSplat是一种基于高斯泼溅的图像压缩框架,通过梯度-颜色引导的变分采样和尺度自适应高斯颜色采样,在超高分辨率图像压缩中实现高质量重建和强压缩比。

  • Motivation: 生成式AI快速发展产生了大量超高分辨率视觉内容,现有压缩方法难以在压缩比和重建质量之间取得平衡,特别是在超高分辨率场景下。
  • Method: 提出SmartSplat框架,包含:1) 梯度-颜色引导变分采样策略;2) 基于排除的均匀采样方案;3) 尺度自适应高斯颜色采样方法;通过联合优化空间布局、尺度和颜色初始化来高效捕获局部结构和全局纹理。
  • Result: 在DIV8K和新构建的16K数据集上,SmartSplat在相同压缩比下优于现有方法,并能超越其压缩极限,展现出强大的可扩展性和实际应用性。
  • Conclusion: SmartSplat通过自适应特征感知的高斯泼溅压缩框架,成功解决了超高分辨率图像压缩中压缩比与重建质量的平衡问题,为高效压缩和实时解码提供了有效解决方案。

[52] DETACH : Decomposed Spatio-Temporal Alignment for Exocentric Video and Ambient Sensors with Staged Learning

Junho Yoon,Jaemo Jung,Hyunju Kim,Dongman Lee

Main category: cs.CV

TL;DR: DETACH:一种分解的时空框架,用于解决外中心视角视频与环境传感器对齐中的局部细节丢失和时空模式误对齐问题,通过分解特征表示和两阶段对齐策略提升动作识别性能。

  • Motivation: 现有基于可穿戴传感器的自我中心视角视频对齐方法存在用户不适、隐私问题和可扩展性限制。外中心视角视频与环境传感器提供了一种非侵入式替代方案,但全局对齐方法在该场景下存在两个问题:1) 无法捕捉局部细节(如细微动作);2) 过度依赖模态不变的时序模式,导致具有相似时序模式但不同空间语义上下文的动作被误对齐。
  • Method: 提出DETACH框架:1) 分解的时空表示,将特征分解为空间和时序组件以保留局部细节;2) 通过在线聚类发现传感器-空间特征,为上下文感知对齐提供语义基础;3) 两阶段对齐策略:首先通过相互监督建立空间对应关系,然后通过空间-时序加权对比损失进行时序对齐,自适应处理简单负样本、困难负样本和假负样本。
  • Result: 在Opportunity++和HWU-USP数据集的下游任务实验中,相比适应的自我中心-可穿戴基线方法,DETACH取得了显著改进。
  • Conclusion: DETACH通过分解的时空框架有效解决了外中心视角视频与环境传感器对齐中的关键问题,为可扩展、非侵入式的人类动作识别提供了有前景的解决方案。

[53] Chain-of-Anomaly Thoughts with Large Vision-Language Models

Pedro Domingos,João Pereira,Vasco Lopes,João Neves,David Semedo

Main category: cs.CV

TL;DR: 提出Chain-of-Anomaly-Thoughts (CoAT)框架,通过引入异常偏差来改进大视觉语言模型在视频监控中的犯罪检测能力

  • Motivation: 现有大视觉语言模型在视频监控中存在对正常情况的固有偏见,难以有效检测犯罪。虽然思维链推理策略在语言任务中表现良好,但其缺乏异常归纳偏差,导致模型倾向于正常解释。
  • Method: 提出Chain-of-Anomaly-Thoughts (CoAT)多智能体推理框架,通过在推理过程中引入归纳犯罪偏差,特别是通过最终的异常聚焦分类层来实现。
  • Result: 在低分辨率视频中,异常检测F1分数提升11.8个百分点;在高分辨率视频中,异常分类提升3.78个百分点。
  • Conclusion: CoAT框架通过引入异常偏差显著改进了大视觉语言模型在视频监控中的犯罪检测性能,特别是在具有挑战性的低分辨率场景中效果显著。

[54] Skin Lesion Classification Using a Soft Voting Ensemble of Convolutional Neural Networks

Abdullah Al Shafi,Abdul Muntakim,Pintu Chandra Shill,Rowzatul Zannat,Abdullah Al-Amin

Main category: cs.CV

TL;DR: 提出一种基于CNN软投票集成和混合双编码器分割的皮肤癌早期分类方法,在三个基准数据集上取得高准确率

  • Motivation: 皮肤癌早期检测能显著提高生存率,但传统诊断方法存在局限性。人工智能技术,特别是基于标注皮肤图像和卷积神经网络的AI系统,能够提高诊断准确性,需要开发更准确高效的自动分类方法。
  • Method: 采用软投票集成CNN方法,结合三个基准数据集(HAM10000、ISIC 2016、ISIC 2019)。流程包括数据重平衡、图像增强、过滤技术,然后使用混合双编码器进行分割(通过迁移学习)。准确的分割使分类模型聚焦于临床重要特征,减少背景干扰。分类采用MobileNetV2、VGG19和InceptionV3的集成,平衡准确性和速度。
  • Result: 在三个数据集上分别获得96.32%、90.86%和93.92%的病灶识别准确率。系统性能使用已建立的皮肤病灶检测指标进行评估,取得了令人印象深刻的结果。
  • Conclusion: 提出的软投票集成CNN方法结合混合双编码器分割技术,能够有效提高皮肤癌早期分类的准确性,平衡了准确性和速度,适合实际部署应用。

[55] High Dimensional Data Decomposition for Anomaly Detection of Textured Images

Ji Song,Xing Wang,Jianguo Wu,Xiaowei Yue

Main category: cs.CV

TL;DR: 提出TBSD方法用于纹理图像异常检测,通过纹理基函数学习和分解,在平滑背景上实现高效异常识别,减少误判并降低数据需求。

  • Motivation: 传统异常检测方法在处理纹理缺陷图像时存在误识别率高、鲁棒性差、过度依赖大规模结构化数据集等问题,需要更高效的纹理图像异常检测方法。
  • Method: 提出纹理基集成平滑分解(TBSD)方法:1) 学习纹理基函数提取准周期纹理模式;2) 利用纹理基作为先验知识进行异常检测,防止纹理误识别。
  • Result: 在仿真和真实数据集上超越基准方法,具有更少的误识别、更小的训练数据集需求、更优的异常检测性能。
  • Conclusion: TBSD方法能有效处理平滑背景上的纹理图像异常检测问题,通过数学建模准周期性纹理,实现高效准确的异常识别。

[56] Beyond Motion Pattern: An Empirical Study of Physical Forces for Human Motion Understanding

Anh Dao,Manh Tran,Yufei Zhang,Xiaoming Liu,Zijun Cui

Main category: cs.CV

TL;DR: 论文研究表明,在人体运动理解任务中引入物理推断的关节驱动力可以显著提升性能,特别是在动态、遮挡或外观变化等挑战性条件下。

  • Motivation: 当前基于视觉的运动理解方法大多忽略了生物力学中的物理线索(如关节驱动力),这些线索对理解运动本质至关重要。研究旨在探索物理推断的力是否以及何时能增强运动理解能力。
  • Method: 将物理推断的力整合到现有的运动理解流程中,系统评估其在三个主要任务上的影响:步态识别、动作识别和细粒度视频描述。在8个基准数据集上进行实验。
  • Result: 在所有基准测试中,引入力信息都带来了性能提升:CASIA-B步态识别准确率从89.52%提升至90.39%(+0.87%),在穿外套和侧视等挑战条件下提升更大(+2.7%和+3.0%);动作识别中CTR-GCN在Penn Action上提升+2.00%,高耗能动作如拳击/拍打提升+6.96%;视频描述中Qwen2.5-VL的ROUGE-L分数从0.310提升至0.339(+0.029)。
  • Conclusion: 物理推断的力线索能够显著补充视觉和运动学特征,特别是在动态、遮挡或外观变化的条件下,为运动理解提供了有价值的物理基础信息。

[57] UTDesign: A Unified Framework for Stylized Text Editing and Generation in Graphic Design Images

Yiming Zhao,Yuanpeng Gao,Yuxuan Luo,Jiwei Duan,Shisong Lin,Longfei Xiong,Zhouhui Lian

Main category: cs.CV

TL;DR: UTDesign是一个统一的AI辅助图形设计框架,专门用于高精度风格化文本编辑和条件文本生成,支持英文和中文,通过DiT模型生成透明RGBA文本前景,并集成到全自动文本到设计流程中。

  • Motivation: 当前基于扩散的文本到图像模型在视觉内容生成方面表现出色,但在小规模排版和非拉丁文字(如中文)的文本渲染性能有限,特别是在图形设计应用中需要精确文本编辑和生成的场景。
  • Method: 提出UTDesign统一框架:1)基于DiT的文本风格迁移模型,在合成数据集上从头训练,生成保留参考字形风格的透明RGBA文本前景;2)通过多模态条件编码器扩展为条件文本生成框架;3)集成预训练文本到图像模型和基于MLLM的布局规划器,形成全自动文本到设计流程。
  • Result: UTDesign在开源方法中实现了最先进的性能,在风格一致性和文本准确性方面表现优异,与专有商业方法相比也展现出独特优势。
  • Conclusion: UTDesign为AI辅助图形设计提供了一个有效的统一框架,特别在支持中英文的高精度风格化文本编辑和生成方面具有显著优势,推动了文本到设计自动化的发展。

[58] Multi-temporal Adaptive Red-Green-Blue and Long-Wave Infrared Fusion for You Only Look Once-Based Landmine Detection from Unmanned Aerial Systems

James E. Gallagher,Edward J. Oughton,Jana Kosecka

Main category: cs.CV

TL;DR: 研究评估了自适应RGB和LWIR融合技术用于无人机探测地表地雷,YOLOv11在86.8% mAP下表现最佳,10-30%热融合在5-10米高度为最优参数,揭示了精度与效率的权衡。

  • Motivation: 地雷仍是严重的人道主义威胁,全球有1.1亿枚活跃地雷分布在60个国家,每年造成2.6万人伤亡。需要开发有效的探测技术来减少这一威胁。
  • Method: 使用自适应RGB和长波红外融合技术,利用地雷与周围土壤的热对比度增强特征提取。采用YOLO架构(v8,v10,v11)在114张测试图像上进行评估,生成35,640个模型条件评估,并比较了RF-DETR、Faster R-CNN、RetinaNet等架构。
  • Result: YOLOv11达到最佳性能(86.8% mAP),10-30%热融合在5-10米高度为最优参数。RF-DETR精度最高(69.2% mAP)但训练慢17.7倍。聚合多时相训练数据集比季节特定方法高1.8-9.6%。反坦克地雷检测准确率61.9%,反人员地雷仅19.2%。
  • Conclusion: 自适应RGB-LWIR融合能有效探测地表地雷,YOLOv11在精度和效率间提供最佳平衡。未来需研究不同埋藏深度和土壤类型下的热对比度效应。

[59] Bridging Modalities and Transferring Knowledge: Enhanced Multimodal Understanding and Recognition

Gorjan Radevski

Main category: cs.CV

TL;DR: 该论文探索多模态对齐、翻译、融合和转移技术,通过五个章节分别解决空间关系理解、医学文本定位、知识图谱链接、动作识别融合和知识转移等挑战,提升机器对复杂多模态输入的理解能力。

  • Motivation: 提升机器对复杂多模态输入的理解能力,解决空间语言理解、医学文本解释、知识图谱丰富和动作识别等实际应用中的挑战。
  • Method: 采用多章节结构:第三章提出Spatial-Reasoning Bert将文本空间关系转换为2D布局;第四章利用空间共现损失函数将医学文本映射到3D解剖图谱;第五章建立基准将结构化文本链接到知识图谱;第六章融合视频帧和物体检测表示进行动作识别;第七章通过多模态知识蒸馏实现RGB模型的性能提升。
  • Result: 实现了文本到视觉空间关系的有效解码、医学文本在解剖图谱中的精确定位、自然语言到知识图谱的清晰链接、动作识别的鲁棒性提升,以及通过知识转移减少计算需求同时保持性能。
  • Conclusion: 该研究在多模态对齐、翻译、融合和转移方面取得了重要进展,显著提升了计算系统处理复杂多模态输入的能力,为空间语言理解、医学文本解释、知识图谱丰富和动作识别等应用提供了有效方法。

[60] SirenPose: Dynamic Scene Reconstruction via Geometric Supervision

Kaitong Cai,Jensen Zhang,Jing Yang,Keze Wang

Main category: cs.CV

TL;DR: SirenPose是一种结合周期激活网络与关键点几何监督的几何感知损失函数,用于从单目视频中准确且时序一致地重建动态3D场景,在快速运动、遮挡等挑战性场景中表现优异。

  • Motivation: 现有方法在处理快速运动、多物体交互、遮挡和快速场景变化等挑战性场景时,往往在运动保真度和时空一致性方面存在困难,需要更有效的几何感知和监督机制。
  • Method: 1. 结合正弦表示网络的周期激活特性与基于关键点的几何监督;2. 引入物理启发的约束来增强空间和时间维度上的关键点预测一致性;3. 利用高频信号建模捕捉细粒度几何细节;4. 扩展UniKPT数据集至60万标注实例;5. 集成图神经网络建模关键点关系和结构相关性。
  • Result: 在Sintel、Bonn和DAVIS基准测试中一致优于现有方法:在DAVIS上实现FVD降低17.8%、FID降低28.7%、LPIPS提升6.0%;在姿态估计中优于Monst3R,具有更低的绝对轨迹误差以及平移和旋转相对姿态误差;在时序一致性、几何精度、用户评分和运动平滑度方面均有改善。
  • Conclusion: SirenPose通过几何感知的损失公式,有效解决了动态3D场景重建中的运动保真度和时空一致性问题,特别擅长处理快速运动、复杂动力学和物理合理重建,在多个基准测试中展现了优越性能。

[61] AlignPose: Generalizable 6D Pose Estimation via Multi-view Feature-metric Alignment

Anna Šárová Mikeštíková,Médéric Fourmy,Martin Cífka,Josef Sivic,Vladimir Petrik

Main category: cs.CV

TL;DR: AlignPose:一种无需物体特定训练的多视角6D位姿估计方法,通过特征度量优化实现多视角信息融合,在工业数据集上表现优异。

  • Motivation: 单视角RGB方法存在深度模糊、遮挡和杂乱问题,而现有多视角方法要么依赖精确的单视角估计,要么缺乏对未见物体的泛化能力。需要一种既能利用多视角优势又具有良好泛化性的方法。
  • Method: 提出AlignPose方法:1)无需物体特定训练或对称标注;2)核心是多视角特征度量细化,优化单个一致的世界坐标系物体位姿,最小化所有视角中实时渲染物体特征与观测图像特征之间的差异。
  • Result: 在四个数据集(YCB-V、T-LESS、ITODD-MV、HouseCat6D)上使用BOP基准评估,AlignPose优于其他已发表方法,特别是在多视角易得的工业数据集上表现突出。
  • Conclusion: AlignPose通过多视角特征融合有效解决了单视角方法的局限性,在保持泛化能力的同时显著提升了位姿估计精度,特别适用于工业应用场景。

[62] Multi-Grained Text-Guided Image Fusion for Multi-Exposure and Multi-Focus Scenarios

Mingwei Tang,Jiahao Nie,Guang Yang,Ziqing Cui,Jie Li

Main category: cs.CV

TL;DR: MTIF提出了一种多粒度文本引导的图像融合方法,通过分层跨模态调制模块,利用细粒度文本描述提升多曝光和多焦点图像融合质量。

  • Motivation: 现有基于视觉语言模型的图像融合方法通常使用粗粒度文本描述作为辅助指导,但这限制了细粒度细节的理解和精确的跨模态对齐,影响融合质量。
  • Method: MTIF采用三个关键设计:1) 多粒度文本描述(细节、结构、语义);2) 分层跨模态调制模块;3) 各粒度监督信号;4) 显著性驱动的数据增强模块。
  • Result: 实验表明MTIF在多曝光和多焦点图像融合任务上均优于现有方法,证明了多粒度文本引导的有效性。
  • Conclusion: MTIF通过多粒度文本描述和分层跨模态调制,有效解决了图像融合中的细粒度细节理解和跨模态对齐问题,显著提升了融合质量。

[63] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

Shengchao Zhou,Yuxin Chen,Yuying Ge,Wei Huang,Jiehong Lin,Ying Shan,Xiaojuan Qi

Main category: cs.CV

TL;DR: DSR Suite:一个用于提升视觉语言模型动态空间推理能力的综合解决方案,包括自动化数据集生成管道、评估基准和轻量级几何选择模块

  • Motivation: 视觉语言模型在通用理解方面表现出色,但在动态空间推理(DSR)方面仍然薄弱,即推理3D空间中物体几何和关系随时间演变的能力。这主要是由于缺乏可扩展的4D感知训练资源
  • Method: 1. 提出自动化管道从野外视频生成DSR的多选题对;2. 利用现代视觉基础模型提取丰富的几何和运动信息;3. 构建DSR-Train训练集和DSR-Bench评估集;4. 提出轻量级几何选择模块(GSM)将几何先验集成到VLMs中
  • Result: 将DSR-Train和GSM集成到Qwen2.5-VL-7B中,显著增强了其动态空间推理能力,同时在通用视频理解基准上保持准确性
  • Conclusion: DSR Suite通过数据集、基准和模型的综合方法,有效解决了VLMs在动态空间推理方面的局限性,为4D感知推理提供了完整的解决方案

[64] FlashVLM: Text-Guided Visual Token Selection for Large Multimodal Models

Kaitong Cai,Jusheng Zhang,Jing Yang,Yijia Fan,Pengtao Xie,Jian Wang,Keze Wang

Main category: cs.CV

TL;DR: FlashVLM是一个文本引导的视觉token选择框架,通过计算图像token与文本嵌入的跨模态相似度,结合视觉显著性,动态减少视觉token数量,实现高效压缩而不损失性能。

  • Motivation: 现有的大视觉语言模型处理大量视觉token时存在二次注意力成本和冗余问题。现有的token减少方法要么忽略文本查询,要么依赖不稳定的深度注意力图,导致语义对齐退化。
  • Method: 提出FlashVLM框架:1)计算投影图像token与标准化文本嵌入在语言模型空间中的显式跨模态相似度;2)使用对数域加权和温度控制锐化融合外在相关性与内在视觉显著性;3)通过多样性保留分区保留最小但具有代表性的背景token以维持全局上下文。
  • Result: 在相同token预算下,FlashVLM在LLaVA 1.5上实现了超越无损压缩的效果,在减少77.8%视觉token的同时略微超过未剪枝基线,即使在94.4%压缩率下仍保持92.8%准确率。在14个图像和视频基准测试中实现了最先进的效率-性能权衡。
  • Conclusion: FlashVLM通过文本引导的视觉token选择,实现了高效的视觉语言模型压缩,在保持强鲁棒性和泛化能力的同时,显著减少了计算成本,为主流VLM提供了实用的效率提升方案。

[65] LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving

Long Nguyen,Micha Fauth,Bernhard Jaeger,Daniel Dauner,Maximilian Igl,Andreas Geiger,Kashyap Chitta

Main category: cs.CV

TL;DR: 论文研究了模拟器中专家演示与学生观察之间的不对齐问题,通过缩小两者差距,TransFuser v6在CARLA基准测试中达到新SOTA

  • Motivation: 模拟器能生成无限驾驶数据,但模仿学习策略在模拟中仍难以实现鲁棒的闭环性能。专家演示(特权信息)与学生观察(传感器数据)之间存在显著不对齐,包括专家具有更高可见性(忽略遮挡)、更低不确定性(知道其他车辆动作),以及导航意图在测试时仅通过单个目标点指定,这些不对称限制了模仿学习效果。
  • Method: 通过实际干预措施缩小专家与学生之间的差距,包括改进TransFuser架构(v6版本),并在共享的模拟到真实管道中集成感知监督。具体修改包括处理可见性差异、不确定性差异和导航意图规范问题。
  • Result: TransFuser v6在CARLA所有主要公开闭环基准测试中达到新SOTA:Bench2Drive达到95 DS,Longest6~v2和Town13性能提升超过两倍。在NAVSIM和Waymo视觉端到端驾驶基准测试中也显示出一致增益。
  • Conclusion: 专家与学生之间的不对齐显著限制了模仿学习性能,通过仔细修改缩小这些差距可以大幅提升驾驶性能。提出的TransFuser v6在多个基准测试中达到最先进水平,证明了方法的有效性。

[66] Repurposing Video Diffusion Transformers for Robust Point Tracking

Soowon Son,Honggyu An,Chaehyun Kim,Hyunah Ko,Jisu Nam,Dahyun Chung,Siyoon Jin,Jung Yi,Jaewon Min,Junhwa Hur,Seungryong Kim

Main category: cs.CV

TL;DR: DiTracker:基于视频扩散Transformer的点追踪方法,通过查询-键注意力匹配、轻量级LoRA调优和与ResNet主干网络成本融合,在ITTO和TAP-Vid基准测试中达到最先进性能。

  • Motivation: 现有点追踪方法通常依赖浅层卷积主干网络(如ResNet),这些方法独立处理视频帧,缺乏时间一致性,在挑战性条件下产生不可靠的匹配成本。研究发现视频扩散Transformer(DiT)在大规模真实世界视频上预训练,具有时空注意力机制,天生具备强大的点追踪能力。
  • Method: 提出DiTracker方法,通过三种方式适配视频DiT:1)查询-键注意力匹配;2)轻量级LoRA调优;3)与ResNet主干网络的成本融合。该方法使用比现有方法小8倍的批量大小进行训练。
  • Result: 在挑战性的ITTO基准测试中达到最先进性能,在TAP-Vid基准测试中匹配或超越最先进模型,验证了视频DiT特征作为点追踪有效且高效的基础。
  • Conclusion: 视频扩散Transformer预训练特征具有强大的点追踪能力,能够鲁棒处理动态运动和频繁遮挡。DiTracker方法展示了视频DiT作为点追踪基础的有效性和效率。

[67] FedPOD: the deployable units of training for federated learning

Daewoon Kim,Si Young Yie,Jae Sung Lee

Main category: cs.CV

TL;DR: FedPOD是一种用于优化联邦学习效率和通信成本的新方法,通过包含被排除的异常值参与者、消除对先前轮次学习信息的依赖,并在每轮计算验证损失,实现了与FedPIDAvg相当的性能。

  • Motivation: 现有FedPIDAvg方法虽然通过PID控制器和泊松分布建模提高了性能并减少了通信成本,但存在两个主要问题:1)基于泊松分布排除异常值参与者限制了数据利用;2)PID控制器需要在整个联邦学习过程中保持相同的参与者,因为它使用先前轮次的学习信息。
  • Method: FedPOD通过三个关键改进解决上述问题:1)包含被排除为异常值的参与者;2)消除对先前轮次学习信息的依赖;3)在每轮应用验证损失计算方法。此外,FedPOD从Kubernetes的最小计算单元POD获得灵感,设计为与Kubernetes自动扩展兼容,通过将轮次任务扩展到POD单元,可以应用类似Kubernetes自动扩展的横向扩展实现灵活设计。
  • Result: FedPOD在Dice分数指标上表现出与FedPIDAvg相当的性能:WT为0.78,ET为0.71,TC为0.72(平均值)。投影收敛分数平均为0.74。这表明FedPOD在保持性能的同时解决了FedPIDAvg的局限性。
  • Conclusion: FedPOD展示了通过提高效率、灵活性和性能指标来增强联邦学习的潜力。它解决了现有方法的局限性,同时保持了可比较的性能,并且其设计灵感来自Kubernetes的POD概念,为联邦学习系统提供了更好的可扩展性和灵活性。

[68] Active Intelligence in Video Avatars via Closed-loop World Modeling

Xuanhua He,Tianyu Yang,Ke Cao,Ruiqi Wu,Cheng Meng,Yong Zhang,Zhuoliang Kang,Xiaoming Wei,Qifeng Chen

Main category: cs.CV

TL;DR: ORCA框架通过内部世界模型和OTAR闭环循环,使视频化身具备主动智能和长期目标规划能力,超越传统被动动画方法。

  • Motivation: 当前视频化身生成方法虽然能保持身份一致性和运动对齐,但缺乏真正的自主性,无法通过自适应环境交互来追求长期目标。需要从被动动画向主动智能转变。
  • Method: 提出ORCA框架,包含:1)OTAR闭环循环(观察-思考-行动-反思),在生成不确定性下保持稳健状态跟踪;2)分层双系统架构,系统2进行战略推理和状态预测,系统1将抽象计划转化为具体的动作描述;将化身控制建模为POMDP并实施连续信念更新和结果验证。
  • Result: ORCA在任务成功率和行为一致性方面显著优于开环和非反思基线方法,验证了内部世界模型设计在提升视频化身智能方面的有效性。
  • Conclusion: ORCA框架成功将视频化身从被动动画转变为具备主动、目标导向行为的智能体,通过内部世界模型和闭环推理机制实现了长期目标规划能力。

[69] SpatialTree: How Spatial Abilities Branch Out in MLLMs

Yuxi Xiao,Longfei Li,Shen Yan,Xinhang Liu,Sida Peng,Yunchao Wei,Xiaowei Zhou,Bingyi Kang

Main category: cs.CV

TL;DR: 论文提出SpatialTree框架,将多模态大语言模型的空间能力分为四个认知层次,构建首个能力中心化分层基准,发现低层能力正交而高层能力相关,揭示了负向转移和跨层正向转移的动态,并提出自动思考策略优化所有层次性能。

  • Motivation: 认知科学表明空间能力从感知到推理再到交互逐步发展,但在多模态大语言模型中这种层次结构尚未得到充分理解。现有研究多集中于狭窄的任务集,缺乏对空间能力层次结构的系统性分析。
  • Method: 提出SpatialTree框架,将空间能力分为四个层次:低层感知(L1)、心理映射(L2)、模拟(L3)和智能体能力(L4)。基于此分类构建首个能力中心化分层基准,全面评估主流MLLMs在27个子能力上的表现。通过有针对性的监督微调探索能力转移动态,并提出自动思考策略优化强化学习效果。
  • Result: 评估结果显示清晰的结构:L1技能基本正交,而高层技能强相关,表明依赖性递增。监督微调揭示L1内存在负向转移,但从低层到高层存在强跨层转移和显著协同效应。研究发现朴素强化学习不可靠,而提出的自动思考策略能抑制不必要的深思熟虑,使强化学习在所有层次上一致提升性能。
  • Conclusion: SpatialTree为理解和系统扩展MLLMs的空间能力提供了概念验证框架,揭示了空间能力的层次结构和转移动态,并提出有效的优化策略,为未来MLLMs空间能力的发展提供了理论基础和方法指导。

[70] SemanticGen: Video Generation in Semantic Space

Jianhong Bai,Xiaoshi Wu,Xintao Wang,Fu Xiao,Yuanxing Zhang,Qinghe Wang,Xiaoyu Shi,Menghan Xia,Zuozhu Liu,Haoji Hu,Pengfei Wan,Kun Gai

Main category: cs.CV

TL;DR: SemanticGen提出了一种在语义空间生成视频的新方法,通过两阶段扩散模型(先语义规划后细节生成)来替代直接在VAE潜在空间生成,实现了更快的收敛速度和更高的计算效率。

  • Motivation: 现有视频生成模型通常在VAE潜在空间学习分布,然后通过VAE解码器映射到像素。这种方法虽然能生成高质量视频,但收敛速度慢,且在生成长视频时计算成本高。
  • Method: 采用两阶段生成过程:第一阶段使用扩散模型生成紧凑的语义视频特征,定义视频的全局布局;第二阶段使用另一个扩散模型基于这些语义特征生成VAE潜在表示,最终产生输出。
  • Result: 在语义空间生成相比VAE潜在空间收敛更快,扩展到长视频生成时既有效又计算高效。大量实验表明SemanticGen能生成高质量视频,优于最先进方法和强基线。
  • Conclusion: SemanticGen通过在语义空间进行视频生成,解决了现有方法收敛慢和计算成本高的问题,为高质量视频生成提供了一种更高效的两阶段方法。

cs.RO

[71] KnowVal: A Knowledge-Augmented and Value-Guided Autonomous Driving System

Zhongyu Xia,Wenhao Chen,Yongtao Wang,Ming-Hsuan Yang

Main category: cs.RO

TL;DR: KnowVal:通过开放世界感知与知识检索协同整合实现视觉语言推理的自动驾驶系统,显著提升规划性能并保持与现有架构兼容

  • Motivation: 现有自动驾驶方法主要依赖数据驱动学习,难以通过模仿或有限的强化奖励捕捉决策背后的复杂逻辑,需要解决视觉语言推理、驾驶知识和价值对齐问题
  • Method: 构建包含交通法规、防御性驾驶原则和道德规范的全面驾驶知识图谱,开发基于LLM的驾驶场景检索机制,创建人类偏好数据集并训练价值模型进行可解释的价值对齐轨迹评估
  • Result: 在nuScenes数据集上实现最低碰撞率,在Bench2Drive基准测试中获得最先进结果,显著提升规划性能同时保持与现有架构兼容
  • Conclusion: KnowVal通过整合开放世界感知与知识检索,实现了视觉语言推理能力,为自动驾驶系统提供了更好的逻辑理解和价值对齐决策框架

cs.HC

[72] Dreamcrafter: Immersive Editing of 3D Radiance Fields Through Flexible, Generative Inputs and Outputs

Cyrus Vachha,Yixiao Kang,Zach Dive,Ashwat Chidambaram,Anik Gupta,Eunice Jun,Bjoern Hartmann

Main category: cs.HC

TL;DR: Dreamcrafter是一个VR 3D场景编辑系统,将生成式AI与实时沉浸式3D辐射场编辑相结合,提供模块化架构、多级控制(自然语言和直接操作)和代理表示来支持高延迟操作期间的交互。

  • Motivation: 当前3D场景创作存在两种竞争方案:沉浸式直接操作(实时但低抽象)和AI驱动的辐射场编辑(高抽象但高延迟)。本文旨在统一这两种方法的优势,将生成式AI集成到实时沉浸式3D辐射场编辑中。
  • Method: 提出Dreamcrafter系统:1) 模块化架构集成生成式AI算法;2) 结合自然语言和直接操作的多级控制;3) 引入代理表示支持高延迟操作期间的交互。
  • Result: 系统实现了生成式AI与实时3D编辑的集成,提供了关于控制偏好的实证发现,并展示了超越文本输入的生成式AI界面如何增强场景编辑和世界构建的创造力。
  • Conclusion: Dreamcrafter成功统一了沉浸式直接操作和AI驱动编辑的优势,通过模块化架构和多级控制实现了实时沉浸式3D辐射场编辑,为空间计算应用提供了创新的场景创作解决方案。

cs.LG

[73] Exploring Deep-to-Shallow Transformable Neural Networks for Intelligent Embedded Systems

Xiangzhong Luo,Weichen Liu

Main category: cs.LG

TL;DR: 提出Double-Win NAS,一种深度到浅层可转换的神经网络架构搜索范式,旨在为资源受限的嵌入式系统同时实现高精度和高硬件效率。

  • Motivation: 深度卷积神经网络在嵌入式场景中取得了显著成功,但网络深度增加导致硬件效率下降。浅层网络虽然硬件效率高,但精度往往不足。需要解决这一矛盾。
  • Method: 提出Double-Win NAS范式:首先自动搜索深度网络以获得高精度,然后将其等价转换为浅层网络以获得高硬件效率。还提出两种增强训练技术:混合可转换训练和任意分辨率弹性训练。
  • Result: 在两个流行的智能嵌入式系统(NVIDIA Jetson AGX Xavier和NVIDIA Jetson Nano)和两个代表性大规模数据集(ImageNet和ImageNet-100)上的实验结果表明,Double-Win NAS优于之前最先进的NAS方法。
  • Conclusion: Double-Win NAS通过深度到浅层的可转换设计,成功解决了嵌入式系统中精度与硬件效率的矛盾,为资源受限的智能嵌入式系统提供了一种有效的解决方案。

[74] How I Met Your Bias: Investigating Bias Amplification in Diffusion Models

Nathan Roos,Ekaterina Iakovleva,Ani Gjergji,Vito Paolo Pastore,Enzo Tartaglione

Main category: cs.LG

TL;DR: 扩散模型采样算法及其超参数对偏见放大有显著影响,可通过调整采样参数控制偏见放大或减少

  • Motivation: 扩散模型在图像合成任务中表现出色,但会复制和放大数据集偏见。现有研究认为偏见放大是扩散模型的固有特性,但本文首次分析采样算法及其超参数如何影响偏见放大
  • Method: 通过控制实验,使用Biased MNIST、Multi-Color MNIST、BFFHQ数据集训练的模型以及Stable Diffusion,研究不同采样算法和超参数对偏见放大的影响
  • Result: 实证表明扩散模型采样器(通常针对样本质量和速度优化)对偏见放大有显著且可测量的影响。采样超参数可以诱导偏见减少或放大,即使训练模型固定不变
  • Conclusion: 偏见放大并非扩散模型的固有特性,而是受采样算法和超参数影响的可控因素,这为减少扩散模型偏见提供了新途径

[75] Unified Multimodal Brain Decoding via Cross-Subject Soft-ROI Fusion

Xuanyu Hu

Main category: cs.LG

TL;DR: 本文提出BrainROI模型,通过软功能分区编码、可解释提示优化和参数化解码约束,在多模态脑解码任务中实现了跨被试泛化性能提升。

  • Motivation: 多模态脑解码面临跨被试泛化性和可解释性两大挑战。现有方法在处理不同被试的功能脑拓扑异质性时效果有限,同时提示设计方法存在稳定性差、透明度低的问题。
  • Method: 1. 设计新的fMRI编码器:使用多图谱软功能分区作为共享空间,将离散ROI拼接策略扩展为体素门控融合机制,通过全局标签对齐确保ROI映射一致性;2. 引入可解释提示优化:在小样本闭环中使用本地部署的Qwen模型迭代生成和选择人类可读提示;3. 推理时施加参数化解码约束。
  • Result: 在NSD数据集上的脑-字幕评估中达到领先水平。在跨被试设置下,相比最新SOTA方法和代表性基线,BLEU-4和CIDEr等指标有明显提升。
  • Conclusion: BrainROI模型通过创新的编码器设计、可解释提示优化和解码约束,有效解决了多模态脑解码中的跨被试泛化和可解释性问题,为脑活动信号到语义信息的重建提供了更稳定、透明的解决方案。

[76] Field-Space Attention for Structure-Preserving Earth System Transformers

Maximilian Witte,Johannes Meuer,Étienne Plésiat,Christopher Kadow

Main category: cs.LG

TL;DR: 提出Field-Space Attention机制,在物理域而非潜在空间计算注意力,保持连续地球物理场的几何结构,用于地球系统Transformer

  • Motivation: 需要机器学习架构能够直接处理连续地球物理场并保持其底层几何结构,以实现准确且物理一致的地球系统动力学建模
  • Method: 引入Field-Space Attention机制,在物理域计算注意力;使用固定的非学习多尺度分解;学习输入场的结构保持变形;在HEALPix网格上进行全球温度超分辨率应用
  • Result: Field-Space Transformer比传统Vision Transformer和U-Net基线收敛更快更稳定,参数更少;保持场结构可实现物理和统计先验嵌入,提高数据驱动地球系统建模的保真度和可靠性
  • Conclusion: Field-Space Attention作为紧凑、可解释且物理基础的构建块,为下一代地球系统预测和生成建模框架提供了新方向

[77] Simplifying Multi-Task Architectures Through Task-Specific Normalization

Mihai Suteu,Ovidiu Serban

Main category: cs.LG

TL;DR: 论文提出TSσBN,一种轻量级任务特定归一化方法,仅通过归一化层就能在多任务学习中实现竞争性性能,无需复杂架构设计。

  • Motivation: 多任务学习(MTL)旨在通过任务间共享知识提升泛化能力和参数效率,但资源平衡和任务干扰仍是挑战。现有架构方案通常引入复杂的任务特定模块或路由机制,增加了复杂性和开销。
  • Method: 提出Task-Specific Sigmoid Batch Normalization (TSσBN),一种轻量级机制,通过任务特定的sigmoid门控实现网络容量的软分配,同时完全共享特征提取器。
  • Result: TSσBN在CNN和Transformer中均表现出良好的稳定性,在NYUv2、Cityscapes、CelebA和PascalContext等数据集上达到或超越现有性能,同时保持高参数效率。学习到的门控为分析MTL动态提供了可解释的框架。
  • Conclusion: 复杂MTL架构可能是不必要的,任务特定归一化提供了一种简单、可解释且高效的替代方案,仅通过归一化层就能解决多任务学习中的许多挑战。

cs.AI

[78] Towards Generative Location Awareness for Disaster Response: A Probabilistic Cross-view Geolocalization Approach

Hao Li,Fabian Deuser,Wenping Yin,Steffen Knoblauch,Wufan Zhao,Filip Biljecki,Yong Xue,Wei Huang

Main category: cs.AI

TL;DR: 提出ProbGLC概率跨视角地理定位方法,结合概率和确定性模型,提升灾害响应中的位置识别准确性和可解释性。

  • Motivation: 随着气候变化加剧,灾害事件频发且强度增加,快速准确的灾害位置识别对应急响应和资源分配至关重要。现有方法在可解释性和定位性能方面存在局限。
  • Method: 提出ProbGLC概率跨视角地理定位框架,将概率模型和确定性模型统一整合,通过不确定性量化和局部化评分增强模型可解释性,支持多种灾害类型的跨视角图像匹配。
  • Result: 在两个跨视角灾害数据集(MultiIAN和SAGAINDisaster)上验证,在1公里范围内准确率达0.86,25公里范围内达0.97,同时提供概率分布和局部化评分等可解释性特征。
  • Conclusion: ProbGLC方法在灾害地理定位中表现出优越的准确性和可解释性,展示了生成式跨视角方法在提升灾害响应位置感知能力方面的巨大潜力。

[79] Generative Digital Twins: Vision-Language Simulation Models for Executable Industrial Systems

YuChe Hsu,AnJui Wang,TsaiChing Ni,YuanFu Yang

Main category: cs.AI

TL;DR: 提出VLSM模型,通过视觉-语言统一理解从布局草图和自然语言提示生成可执行的FlexScript,用于工业仿真系统

  • Motivation: 为工业仿真系统开发能够跨模态推理的生成式数字孪生技术,整合视觉推理和语言理解到可执行仿真系统中
  • Method: 提出Vision-Language Simulation Model (VLSM),构建首个大规模生成式数字孪生数据集(12万+ prompt-sketch-code三元组),设计三个新评估指标(SVR、PMR、ESR)
  • Result: 模型在结构准确性上接近完美,执行鲁棒性高,通过视觉编码器、连接器和代码预训练语言骨干的系统消融实验验证了有效性
  • Conclusion: 为整合视觉推理和语言理解到可执行工业仿真系统的生成式数字孪生奠定了基础

[80] LongVideoAgent: Multi-Agent Reasoning with Long Videos

Runtao Liu,Ziyi Liu,Jiaqi Tang,Yue Ma,Renjie Pi,Jipeng Zhang,Qifeng Chen

Main category: cs.AI

TL;DR: 提出多智能体框架,通过主LLM协调定位智能体和视觉智能体,在长视频QA任务中实现更好的时间定位和细粒度推理

  • Motivation: 现有多模态LLM和工具系统在处理长视频QA时,通常通过有损摘要压缩内容或依赖有限工具集,导致时间定位能力弱和细粒度线索丢失
  • Method: 多智能体框架:主LLM协调定位智能体(定位问题相关片段)和视觉智能体(提取目标文本观察),主智能体有步骤限制,通过强化学习训练以实现简洁、正确、高效的多智能体协作
  • Result: 在提出的LongTVQA和LongTVQA+数据集上,多智能体系统显著优于强非智能体基线;强化学习进一步增强了训练智能体的推理和规划能力
  • Conclusion: 多智能体框架通过定位智能体帮助主智能体关注相关片段,通过视觉智能体补充字幕的视觉细节,产生可解释的轨迹,在长视频QA任务中表现出色

cs.CL

[81] Retrieval-augmented Prompt Learning for Pre-trained Foundation Models

Xiang Chen,Yixin Ou,Quan Feng,Lei Li,Piji Li,Haibo Ye,Sheng-Jun Huang,Shuofei Qiao,Shumin Deng,Huajun Chen,Ningyu Zhang

Main category: cs.CL

TL;DR: RetroPrompt是一种新的提示学习方法,通过检索机制从知识库中获取上下文信息,在记忆与泛化之间取得平衡,提升PFM在零样本和少样本场景下的性能。

  • Motivation: 传统提示学习方法仍遵循参数化学习范式,在记忆和死记硬背的泛化稳定性方面存在不足,难以充分利用非典型实例,且容易在有限数据下过度拟合浅层模式。
  • Method: 提出RetroPrompt方法,通过从训练数据生成的公开知识库中检索相关上下文信息,在输入、训练和推理阶段都融入检索机制,将知识从单纯记忆中解耦出来。
  • Result: 在NLP和CV多个数据集上的实验表明,RetroPrompt在零样本和少样本场景下表现优异,能有效减少对死记硬背的依赖,增强模型的泛化能力。
  • Conclusion: RetroPrompt通过检索机制平衡记忆与泛化,为PFM的提示学习提供了新思路,在保持记忆能力的同时显著提升了模型的泛化性能。

[82] Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs

Dhruv Anand,Ehsan Shareghi

Main category: cs.CL

TL;DR: Cube Bench是一个基于魔方的多模态大语言模型基准测试,用于评估空间和序列推理能力,包含五项技能测试,结果显示模型性能随魔方复杂度增加而急剧下降,闭源模型优于开源模型。

  • Motivation: 需要评估多模态大语言模型在空间和序列推理方面的能力,魔方问题提供了一个紧凑、可复现的测试平台,能够系统性地分解和测量模型的不同认知技能。
  • Method: 创建Cube Bench基准测试,将魔方解谜过程分解为五项技能:1)从图像和文本重建魔方面;2)选择最优下一步;3)预测候选移动结果;4)执行多步计划并从中断恢复;5)检测和修正自身错误。使用共享的混乱魔方状态、相同提示和解析器,以及单一"距解决距离"指标,比较不同MLLM在不同混乱深度下的表现。
  • Result: 在测试的7个MLLM中,准确率随混乱深度急剧下降;一旦轨迹停滞或发散,模型很少能恢复;高面重建准确率不能保证良好的动作选择或多步执行能力。闭源与开源模型存在显著差距:最强闭源模型在单步感知任务和多步控制任务中都领先,而开源模型在最难设置下接近随机水平;即使最好的MLLM在更高魔方复杂度下也会退化。简单的自我修正通过反思思维带来适度提升,但也可能引入过度思考。
  • Conclusion: Cube Bench提供了一个紧凑、可复现的MLLM序列空间推理能力探测工具,揭示了当前MLLM在复杂空间序列推理任务上的局限性,特别是随着问题复杂度增加,模型性能显著下降,且闭源模型明显优于开源模型。

eess.AS

[83] SAM Audio: Segment Anything in Audio

Bowen Shi,Andros Tjandra,John Hoffman,Helin Wang,Yi-Chiao Wu,Luya Gao,Julius Richter,Matt Le,Apoorv Vyas,Sanyuan Chen,Christoph Feichtenhofer,Piotr Dollár,Wei-Ning Hsu,Ann Lee

Main category: eess.AS

TL;DR: SAM Audio是一个通用音频分离基础模型,统一了文本、视觉和时间跨度提示,在多种音频分离任务上达到SOTA性能。

  • Motivation: 现有音频分离模型要么是领域特定的(如语音或音乐),要么可控性有限(仅支持单一提示模态如文本),缺乏能够统一多种提示方式的通用音频分离基础模型。
  • Method: 基于扩散transformer架构,使用流匹配在大规模音频数据(包括语音、音乐和一般声音)上进行训练,能够灵活地通过语言描述、视觉掩码或时间跨度来分离目标声源。
  • Result: 在多种基准测试(包括一般声音、语音、音乐和乐器分离)中达到最先进性能,显著优于先前通用和专用系统,并引入了新的真实世界分离基准和与人类判断强相关的无参考评估模型。
  • Conclusion: SAM Audio为多模态AI系统提供了一个强大的通用音频分离基础模型,统一了多种提示方式,在广泛的任务上表现出色,推动了音频感知和理解的发展。

eess.IV

[84] CLIP Based Region-Aware Feature Fusion for Automated BBPS Scoring in Colonoscopy Images

Yujia Fu,Zhiyu Dong,Tianwen Qian,Chenye Zheng,Danian Ji,Linhai Zhuo

Main category: eess.IV

TL;DR: 提出基于CLIP模型的自動化BBPS評分框架,結合適配器遷移學習和糞便特徵提取分支,無需顯式分割即可準確評估腸道清潔度

  • Motivation: 傳統波士頓腸道準備量表(BBPS)評分存在主觀性和觀察者間變異性,需要自動化、客觀的評估方法來提高結腸鏡檢查的準確性
  • Method: 構建高質量結腸鏡數據集(2,240張圖像),提出基於CLIP的框架,結合適配器遷移學習和糞便特徵提取分支,融合全局視覺特徵與糞便相關文本先驗
  • Result: 在自建數據集和公開NERTHU數據集上的實驗顯示,該方法優於現有基線方法,具有臨床部署潛力
  • Conclusion: 提出的自動化BBPS評分框架能有效減少主觀性,提高腸道清潔度評估的準確性,為計算機輔助結腸鏡分析提供了有前景的解決方案

[85] Dual-Encoder Transformer-Based Multimodal Learning for Ischemic Stroke Lesion Segmentation Using Diffusion MRI

Muhammad Usman,Azka Rehman,Muhammad Mutti Ur Rehman,Abd Ur Rehman,Muhammad Umar Farooq

Main category: eess.IV

TL;DR: 本文提出了一种基于双编码器TransUNet的缺血性卒中病灶分割方法,在ISLES 2022数据集上达到85.4%的Dice分数,优于传统卷积和单编码器Transformer模型。

  • Motivation: 缺血性卒中病灶的准确分割对临床决策和预后评估至关重要。DWI和ADC扫描提供了急性和亚急性缺血变化的互补信息,但由于病灶外观的变异性,自动病灶分割仍然具有挑战性。
  • Method: 1. 在ISLES 2022数据集上评估了多种最先进的卷积和Transformer架构,包括U-Net变体、Swin-UNet和TransUNet;2. 基于性能分析,提出了双编码器TransUNet架构,从DWI和ADC输入中学习模态特定表示;3. 通过三切片输入配置整合相邻切片信息以纳入空间上下文。
  • Result: Transformer模型优于卷积基线,提出的双编码器TransUNet在测试集上达到最佳性能,Dice相似系数为85.4%。
  • Conclusion: 提出的双编码器TransUNet框架为扩散MRI的自动缺血性卒中病灶分割提供了稳健的解决方案,证明了Transformer架构在医学图像分割任务中的优势。

physics.optics

[86] Snapshot 3D image projection using a diffractive decoder

Cagatay Isil,Alexander Chen,Yuhang Li,F. Onuralp Ardic,Shiqi Chen,Che-Yung Shen,Aydogan Ozcan

Main category: physics.optics

TL;DR: 提出一种基于数字编码器和衍射光学解码器的3D显示系统,通过深度学习端到端优化实现高轴向分辨率的多平面图像投影,轴向分离可达波长量级。

  • Motivation: 下一代体成像需要3D图像显示,但密集深度复用面临挑战:随着轴向平面间距减小,衍射引起的串扰会迅速增加。现有方法难以实现高轴向分辨率的多平面投影。
  • Method: 系统由数字编码器和衍射光学解码器组成。数字编码器使用傅里叶编码网络捕获多尺度空间和频域特征,集成轴向位置编码,生成统一相位表示。通过多层衍射波前解码和深度学习端到端优化,实现单次快照中的高保真深度分辨3D图像投影。
  • Result: 实现了28个轴向切片的体图像显示,轴向平面间距可达波长量级。实验验证显示测量结果与目标图像高度一致。系统支持动态重新配置图像平面轴向位置。
  • Conclusion: 该衍射3D显示系统为深度分辨快照3D图像投影提供了一个紧凑且可扩展的框架,在全息显示、AR/VR界面和体光学计算中具有应用潜力。