Skip to content
每日arXiv - 2025年10月16日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] SimULi: Real-Time LiDAR and Camera Simulation with Unscented Transforms

Haithem Turki,Qi Wu,Xin Kang,Janick Martinez Esturo,Shengyu Huang,Ruilong Li,Zan Gojcic,Riccardo de Lutio

Main category: cs.CV

TL;DR: SimULi是一种实时渲染任意相机模型和LiDAR数据的方法,通过扩展3DGUT支持复杂相机模型,结合LiDAR支持和因子化3D高斯表示,解决了多传感器模拟中的跨传感器不一致问题。

  • Motivation: 现有神经渲染方法渲染速度慢或仅支持针孔相机模型,无法满足自动驾驶等应用中需要高畸变镜头和LiDAR数据的需求。多传感器模拟存在跨传感器不一致问题,现有方法往往以牺牲一种模态质量为代价。
  • Method: 扩展3DGUT支持复杂相机模型,通过自动分块策略支持任意旋转LiDAR模型和基于射线的剔除。设计因子化3D高斯表示和锚定策略来减少跨传感器不一致。
  • Result: 相比现有方法,相机和深度误差平均减少40%,渲染速度比光线追踪方法快10-20倍,比现有基于光栅化方法快1.5-10倍,且支持更广泛的相机模型。在两个自动驾驶数据集上,在各种相机和LiDAR指标上达到或超过现有最先进方法的保真度。
  • Conclusion: SimULi是首个能够实时渲染任意相机模型和LiDAR数据的方法,解决了多传感器模拟中的关键挑战,为自动驾驶等应用的严格测试提供了高效解决方案。

[2] State-Change Learning for Prediction of Future Events in Endoscopic Videos

Saurav Sharma,Chinedu Innocent Nwoye,Didier Mutter,Nicolas Padoy

Main category: cs.CV

TL;DR: 本文提出SurgFUTR框架,将手术未来预测重新定义为状态变化学习,通过教师-学生架构和Action Dynamics模块实现跨手术程序的通用预测能力。

  • Motivation: 当前手术AI研究主要关注理解正在发生的事件,而非预测未来事件。现有方法针对孤立任务,缺乏统一方法覆盖短期和长期预测,且基于未来特征预测的方法难以跨不同手术上下文和程序泛化。
  • Method: 将手术未来预测重构为状态变化学习,通过教师-学生架构实现:视频片段通过Sinkhorn-Knopp聚类压缩为状态表示;教师网络从当前和未来片段学习,学生网络仅从当前视频预测未来状态,由Action Dynamics模块指导。
  • Result: 在四个数据集和三个手术程序上的实验显示一致改进。跨程序转移验证了泛化能力。建立了SFPBench基准,包含五个预测任务,涵盖短期和长期预测。
  • Conclusion: SurgFUTR通过状态变化学习框架在手术未来预测任务上取得显著改进,展示了跨手术程序的通用预测能力,为手术室安全和效率提供了新的AI解决方案。

[3] Robust Plant Disease Diagnosis with Few Target-Domain Samples

Takafumi Nogami,Satoshi Kagiwada,Hitoshi Iyatomi

Main category: cs.CV

TL;DR: 提出TMPS框架,通过目标感知度量学习和优先采样,在仅使用少量目标域样本的情况下显著提升植物病害诊断模型在未知环境下的鲁棒性。

  • Motivation: 现有深度学习植物病害诊断系统在不同环境条件下性能显著下降,主要原因是训练数据多样性不足和领域差异问题。
  • Method: TMPS框架基于度量学习,利用少量目标域标记样本,通过目标感知的度量学习和优先采样策略来改善模型泛化能力。
  • Result: 在包含223,073张叶片图像的大规模数据集上,仅使用每病害10个目标域样本,TMPS相比基线模型在宏F1分数上分别提升7.3和3.6个百分点,相比传统度量学习提升18.7和17.1个百分点。
  • Conclusion: TMPS是一种简单但高度自适应的学习框架,能够有效利用少量目标域样本显著提升植物病害诊断模型在未知环境下的鲁棒性能。

[4] Unifying Vision-Language Latents for Zero-label Image Caption Enhancement

Sanghyun Byun,Jung Ick Guack,Mohanad Odema,Baisub Lee,Jacob Song,Woo Seong Chung

Main category: cs.CV

TL;DR: ViZer是一个无需标签的视觉语言对齐增强框架,通过在训练中主动对齐视觉和语言表示特征,使现有视觉语言模型无需文本标签或完全重训练即可生成改进的图像描述。

  • Motivation: 解决视觉语言模型依赖标注图像数据集的问题,充分利用未标注图像数据,实现零标签学习,为更广泛的视觉语言任务提供实用起点。
  • Method: 提出统一视觉语言对齐的零标签增强框架,在训练过程中主动对齐视觉和语言表示特征,无需人类或合成标注数据集。
  • Result: 在SmolVLM-Base和Qwen2-VL上应用ViZer,观察到一致的定性改进,生成的描述比基线更加接地气和详细。自动评估指标如CIDEr和BERTScore往往会惩罚参考描述中缺失的细节。
  • Conclusion: ViZer框架成功实现了零标签的图像描述增强,为视觉语言任务的零标签适应提供了实用解决方案,能够生成更准确和详细的图像描述。

[5] Epistemic-aware Vision-Language Foundation Model for Fetal Ultrasound Interpretation

Xiao He,Huangxuan Zhao,Guojia Wan,Wei Zhou,Yanxing Liu,Juhua Liu,Yongchao Xu,Yong Luo,Dacheng Tao,Bo Du

Main category: cs.CV

TL;DR: FetalMind是针对胎儿超声的医疗AI系统,通过引入显性认知解耦方法,解决了多视图图像推理、疾病多样性和图像异质性等挑战,在报告生成和诊断任务上表现优异。

  • Motivation: 现有医疗视觉语言模型主要针对结构化成人影像,在胎儿超声领域表现不佳,面临多视图图像推理、疾病种类繁多和图像多样性等独特挑战。
  • Method: 提出显性认知解耦(SED)方法,将专家构建的二部图注入模型,解耦视图-疾病关联,并通过强化学习引导模型沿临床步骤进行偏好选择。
  • Result: FetalMind在所有孕周阶段均优于开源和闭源基线模型,平均提升14%,在关键病症上的准确率提高61.2%,同时保持高效、稳定和可扩展性。
  • Conclusion: FetalMind成功解决了胎儿超声领域的特定挑战,通过临床工作流程引导的方法设计,在报告生成和诊断任务上取得了显著性能提升。

[6] CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models

Denis Rychkovskiy,GPT-5

Main category: cs.CV

TL;DR: CADE 2.5是一个用于SD/SDXL潜在扩散模型的采样器级引导堆栈,包含ZeResFDG核心模块和QSilk微颗粒稳定器,无需重新训练即可提升图像清晰度、提示遵循度和伪影控制。

  • Motivation: 解决现有扩散模型在采样过程中细节增强不足、伪影控制不佳的问题,通过频率解耦引导和能量重缩放等技术提升图像质量。
  • Method: 使用ZeResFDG模块统一频率解耦引导、能量重缩放和零投影技术,结合轻量级频谱EMA在采样过程中切换保守和细节寻求模式,并采用QSilk微颗粒稳定器进行推理时稳定化。
  • Result: 在SD/SDXL采样器中显著改善了图像锐度、提示遵循度和伪影控制,在高分辨率下产生自然的高频微纹理,计算开销可忽略。
  • Conclusion: CADE 2.5提供了一种无需重新训练的有效方法,通过采样器级引导显著提升扩散模型的图像生成质量,特别是在细节增强和稳定性方面。

[7] Scope: Selective Cross-modal Orchestration of Visual Perception Experts

Tianyu Zhang,Suyuchen Wang,Chao Wang,Juan Rodriguez,Ahmed Masry,Xiangru Jian,Yoshua Bengio,Perouz Taslakian

Main category: cs.CV

TL;DR: SCOPE是一个混合编码器框架,通过实例级路由动态选择专用编码器,在减少24-49%计算量的同时,性能优于同时使用所有编码器的模型。

  • Motivation: 多视觉编码器为视觉语言模型带来好处,但简单堆叠编码器会导致收益递减且推理成本倍增。
  • Method: 提出SCOPE框架,包含共享编码器和路由编码器池,通过轻量级路由器基于文本提示和共享视觉特征的交叉注意力选择最优编码器,使用双熵正则化和辅助损失训练路由器。
  • Result: 仅使用1个共享编码器和1个路由编码器的SCOPE模型,性能优于同时使用所有4个额外编码器的模型,同时减少24-49%的计算量。
  • Conclusion: 智能编码器选择优于暴力聚合方法,挑战了多编码器视觉语言模型的现有范式。

[8] SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding

Tanveer Hannan,Shuaicong Wu,Mark Weber,Suprosanna Shit,Jindong Gu,Rajat Koner,Aljoša Ošep,Laura Leal-Taixé,Thomas Seidl

Main category: cs.CV

TL;DR: 提出了时空视频动作定位(SVAG)新任务,要求模型基于自然语言描述同时检测、跟踪和时间定位视频中的所有相关对象。构建了SVAG-Bench基准数据集,并提出SVAGFormer基线框架和SVAGEval评估工具包。

  • Motivation: 现有视频理解方法主要解决粗粒度动作识别或通用目标跟踪,忽视了基于动作联合检测和跟踪多个对象并对其进行时间定位的挑战。
  • Method: 提出SVAGFormer基线框架,适配最先进的视觉语言模型进行联合空间和时间定位,并构建SVAG-Bench数据集和SVAGEval评估工具包。
  • Result: 实证结果显示现有模型在SVAG任务上表现不佳,特别是在密集或复杂场景中,突显了在长视频中对细粒度对象-动作交互进行更高级推理的需求。
  • Conclusion: SVAG任务对下一代AI系统至关重要,现有方法的不足表明需要开发更先进的模型来处理细粒度对象-动作交互的时空推理。

[9] SeqBench: Benchmarking Sequential Narrative Generation in Text-to-Video Models

Zhengxu Tang,Zizheng Wang,Luning Wang,Zitao Shuai,Chenhao Zhang,Siyu Qian,Yirui Wu,Bohao Wang,Haosong Rao,Zhenyu Yang,Chenwei Wu

Main category: cs.CV

TL;DR: SeqBench是一个用于评估文本到视频生成中序列叙事连贯性的综合基准,包含320个提示和2560个人工标注视频,并提出了基于动态时序图的自动评估指标。

  • Motivation: 现有的文本到视频生成模型在创建视觉吸引力视频方面取得进展,但在生成需要多个事件逻辑推进的连贯序列叙事方面存在困难,现有基准主要关注视觉质量指标,无法评估长序列的叙事连贯性。
  • Method: 设计SeqBench基准,包含精心设计的320个提示数据集,涵盖各种叙事复杂性,使用8个最先进的T2V模型生成2560个人工标注视频,并开发基于动态时序图的自动评估指标来捕捉长程依赖和时间顺序。
  • Result: 基于DTG的指标与人工标注显示出强相关性。系统评估揭示了当前T2V模型的关键局限:在多动作序列中无法保持一致的物体状态、多物体场景中产生物理上不合理的结果、难以保持顺序动作之间的现实时间关系和排序关系。
  • Conclusion: SeqBench为评估T2V生成中的叙事连贯性提供了首个系统框架,并为改进未来模型的序列推理能力提供了具体见解。

[10] SceneAdapt: Scene-aware Adaptation of Human Motion Diffusion

Jungbin Cho,Minsu Kim,Jisoo Kim,Ce Zheng,Laszlo A. Jeni,Ming-Hsuan Yang,Youngjae Yu,Seonjoo Kim

Main category: cs.CV

TL;DR: SceneAdapt框架通过两个适应阶段(中间帧生成和场景感知中间帧生成)将场景感知注入文本条件运动模型,利用不相交的场景-运动和文本-运动数据集。

  • Motivation: 现有运动生成方法要么关注运动语义,要么关注场景感知,但缺乏同时具备丰富文本-运动覆盖和精确场景交互的大规模数据集。
  • Method: 使用运动中间帧生成作为代理任务,通过关键帧层调制运动潜在空间,并添加场景条件层通过交叉注意力自适应查询局部上下文来注入场景几何。
  • Result: 实验结果表明SceneAdapt有效将场景感知注入文本到运动模型,并分析了这种感知出现的机制。
  • Conclusion: SceneAdapt通过创新的两阶段适应方法成功解决了同时处理运动语义和场景感知的挑战。

[11] One Dimensional CNN ECG Mamba for Multilabel Abnormality Classification in 12 Lead ECG

Huawei Jiang,Husna Mutahira,Gan Huang,Mannan Saeed Muhammad

Main category: cs.CV

TL;DR: 提出了一种结合卷积神经网络和Mamba状态空间模型的混合框架(1D-CNN-ECG-Mamba),用于心电图异常检测,在PhysioNet挑战赛上取得了优于现有方法的性能。

  • Motivation: 传统深度学习模型(如残差网络和Transformer)在处理长序列心电图信号时性能有限,需要更有效的序列建模方法。
  • Method: 使用卷积特征提取与Mamba选择性状态空间模型相结合的混合框架,基于Vision Mamba双向变体增强心电图数据中时间依赖关系的表示。
  • Result: 在PhysioNet 2020和2021挑战赛上,该模型在12导联心电图上的AUPRC和AUROC得分显著高于之前发表的最佳算法。
  • Conclusion: Mamba架构有潜力推进可靠的心电图分类,支持早期诊断和个性化治疗,同时提高远程医疗和资源受限医疗系统的可及性。

[12] True Self-Supervised Novel View Synthesis is Transferable

Thomas W. Mitchel,Hyunwoo Ryu,Vincent Sitzmann

Main category: cs.CV

TL;DR: XFactor是首个无需几何先验的自监督新视角合成模型,通过成对姿态估计和输入输出增强方案,实现了真正的姿态可迁移性,无需3D归纳偏置或显式姿态参数化。

  • Motivation: 现有自监督新视角合成模型的预测姿态缺乏可迁移性,同一组姿态在不同3D场景中会产生不同的相机轨迹,无法实现真正的新视角合成。
  • Method: 结合成对姿态估计与输入输出增强方案,从场景内容中解耦相机姿态,促进几何推理,使用无约束潜在姿态变量而不需要SE(3)显式参数化。
  • Result: XFactor显著优于先前的无姿态新视角合成变换器,实现了真正的姿态可迁移性,潜在姿态与现实世界姿态高度相关。
  • Conclusion: XFactor证明了无需3D归纳偏置或多视图几何概念即可实现真正的新视角合成,为自监督3D理解开辟了新途径。

[13] Direction-aware multi-scale gradient loss for infrared and visible image fusion

Kaixuan Yang,Wei Xiang,Zhenshuai Chen,Tong Jin,Yunpeng Liu

Main category: cs.CV

TL;DR: 提出了一种方向感知的多尺度梯度损失函数,用于红外与可见光图像融合,通过分别监督水平和垂直梯度分量并保留其符号信息,提升边缘清晰度和纹理保持效果。

  • Motivation: 现有学习方法在训练时使用梯度幅值损失,但幅值计算会丢失方向信息,导致监督模糊和边缘保真度不佳。
  • Method: 引入方向感知的多尺度梯度损失,分别监督水平和垂直梯度分量,并在多尺度上保持其符号信息,提供清晰的方向指导。
  • Result: 在开源模型和多个公共基准测试上的实验表明,该方法能产生更清晰、对齐更好的边缘和更丰富的纹理保持。
  • Conclusion: 该方法在不改变模型架构或训练协议的情况下,通过方向感知的梯度监督有效提升了图像融合质量。

[14] Unsupervised Domain Adaptation via Content Alignment for Hippocampus Segmentation

Hoda Kalabizadeh,Ludovica Griffanti,Pak-Hei Yeung,Ana I. L. Namburete,Nicola K. Dinsdale,Konstantinos Kamnitsas

Main category: cs.CV

TL;DR: 提出了一种新颖的无监督域自适应框架,专门针对MRI海马体分割中的域偏移问题,通过结合z-归一化风格协调和双向可变形图像配准,在跨域分割任务中显著优于现有基线方法。

  • Motivation: 医学图像分割模型在不同数据集间部署时,由于域偏移(包括图像外观的风格变化和人群依赖的解剖特征内容变化)而表现不佳,特别是在海马体分割任务中。
  • Method: 结合高效的z-归一化风格协调和双向可变形图像配准策略,配准网络与分割网络和判别器网络联合训练,生成解剖学上合理的变换以对齐源图像到目标域。
  • Result: 在从年轻健康人群到临床痴呆患者的海马体分割任务中,相比标准增强方法实现了高达15%的相对Dice分数提升,在内容偏移较大的场景中效果最显著。
  • Conclusion: 该方法在跨域海马体分割中表现出高效性,能够准确处理不同人群间的解剖特征变化,为医学图像分析提供了有效的域自适应解决方案。

[15] Counting Hallucinations in Diffusion Models

Shuai Fu,Jian Zhou,Qi Chen,Huang Jing,Huy Anh Nguyen,Xiaohan Liu,Zhixiong Zeng,Lin Ma,Quanshi Zhang,Qi Wu

Main category: cs.CV

TL;DR: 本文提出了一种系统量化扩散概率模型中计数幻觉的方法,构建了CountHalluSet数据集套件,并分析了不同采样条件对计数幻觉的影响。

  • Motivation: 扩散概率模型在生成任务中表现出色,但经常产生与现实世界知识冲突的幻觉样本,如生成不合理的重复物体。目前缺乏系统量化这些幻觉的方法,阻碍了解决这一挑战的进展。
  • Method: 构建CountHalluSet数据集套件(包括ToyShape、SimObject和RealHand),建立标准化评估协议来量化计数幻觉,并系统分析不同采样条件(求解器类型、ODE求解器阶数、采样步数、初始噪声)对计数幻觉水平的影响。
  • Result: 研究发现常用的图像质量指标FID无法一致地捕捉计数幻觉,不同采样条件显著影响计数幻觉水平。
  • Conclusion: 这项工作为系统量化扩散模型中的幻觉现象迈出了第一步,为研究图像生成中的幻觉现象提供了新的见解。

[16] Edit-Your-Interest: Efficient Video Editing via Feature Most-Similar Propagation

Yi Zuo,Zitao Wang,Lingling Li,Xu Liu,Fang Liu,Licheng Jiao

Main category: cs.CV

TL;DR: Edit-Your-Interest是一个轻量级、文本驱动的零样本视频编辑方法,通过时空特征内存和特征传播机制显著降低计算开销,同时保持时间一致性和视觉保真度。

  • Motivation: 现有视频编辑方法存在高计算开销、内存消耗大以及视觉保真度不足的问题,导致时间不一致性和伪影(如模糊和马赛克模式)。
  • Method: 1. 引入时空特征内存库(SFM)缓存空间注意力处理的关键图像标记;2. 提出特征最相似传播(FMP)方法从前帧传播最相关标记到后续帧;3. 设计SFM更新算法持续刷新缓存特征;4. 利用交叉注意力图自动提取感兴趣实例的掩码。
  • Result: 大量实验表明,Edit-Your-Interest在效率和视觉保真度方面均优于最先进方法,验证了其优越的有效性和实用性。
  • Conclusion: 该方法通过轻量级设计和有效的特征管理机制,成功解决了视频编辑中的计算效率和视觉质量平衡问题,为文本驱动的零样本视频编辑提供了实用解决方案。

[17] EgoSocial: Benchmarking Proactive Intervention Ability of Omnimodal LLMs via Egocentric Social Interaction Perception

Xijun Wang,Tanay Sharma,Achin Kulshrestha,Abhimitra Meka,Aveek Purohit,Dinesh Manocha

Main category: cs.CV

TL;DR: 提出了EgoSocial数据集和EgoSoD方法,用于解决AR/VR环境中AI助手缺乏社交感知能力的问题,显著提升了干预时机检测和社交交互理解的性能。

  • Motivation: 当前LLMs缺乏从自我中心视角理解人类社交动态的能力,导致AI助手在社交互动中频繁且不恰当地干预,破坏了自然对话和用户专注度。
  • Method: 构建了包含13,500个社交视频-问题对的EgoSocial数据集,并提出EgoSoD方法,该方法整合多模态上下文线索到社交思维图中,动态建模参与者和互动。
  • Result: 实验显示现有OLLMs在干预时机检测上表现不佳(Gemini 2.5 Pro仅14.4%),而EgoSoD方法将Phi-4的干预时机性能提升45.6%,Gemini 2.5 Pro提升9.9%。
  • Conclusion: EgoSoD方法能有效检测社交动态和干预时机,为AR/VR环境中的AI助手提供了更好的社交感知能力。

[18] DriveCritic: Towards Context-Aware, Human-Aligned Evaluation for Autonomous Driving with Vision-Language Models

Jingyu Song,Zhenxin Li,Shiyi Lan,Xinglong Sun,Nadine Chang,Maying Shen,Joshua Chen,Katherine A. Skinner,Jose M. Alvarez

Main category: cs.CV

TL;DR: 提出了DriveCritic框架,包含带有人类偏好标注的挑战性场景数据集和基于视觉语言模型的评估器,用于更准确地评估自动驾驶规划器与人类判断的一致性。

  • Motivation: 现有自动驾驶规划器评估指标(如EPDMS)在复杂场景中缺乏上下文感知能力,难以与人类判断对齐。
  • Method: 构建DriveCritic数据集(包含需要上下文判断的挑战性场景和成对人类偏好标注),开发基于VLM的DriveCritic模型,采用两阶段监督学习和强化学习进行微调,整合视觉和符号上下文来评估轨迹对。
  • Result: DriveCritic在匹配人类偏好方面显著优于现有指标和基线方法,展现出强大的上下文感知能力。
  • Conclusion: 该工作为评估自动驾驶系统提供了更可靠、与人类判断对齐的基础框架。

[19] VPREG: An Optimal Control Formulation for Diffeomorphic Image Registration Based on the Variational Principle Grid Generation Method

Zicong Zhou,Baihan Zhao,Andreas Mang,Guojun Liao

Main category: cs.CV

TL;DR: VPreg是一种新颖的微分同胚图像配准方法,通过变分原理生成无折叠网格,确保空间变换的正雅可比行列式,并在微分同胚群中提供精确的逆变换,在脑部扫描配准中优于现有方法。

  • Motivation: 改进现有的网格生成和微分同胚图像配准方法,旨在实现优异的配准精度同时控制变换质量,确保空间变换的正雅可比行列式,为神经影像工作流提供精确的逆变换。
  • Method: 基于变分原理(VP)的网格生成方法,构建具有指定雅可比行列度和旋度的无折叠网格,在微分同胚群中生成逆变换而非图像空间操作。
  • Result: 在OASIS-1数据集的150个脑部扫描配准中,基于35个感兴趣区域的Dice分数评估,VPreg在Dice分数、计算变换的规则性、逆映射的准确性和一致性方面均优于ANTs-SyN、Freesurfer-Easyreg和FSL-Fnirt等最先进方法。
  • Conclusion: VPreg通过变分原理方法在微分同胚图像配准中表现出色,提供了高质量的配准变换和精确的逆映射,优于现有最先进方法。

[20] OS-HGAdapter: Open Semantic Hypergraph Adapter for Large Language Models Assisted Entropy-Enhanced Image-Text Alignment

Rongjun Chen,Chengsi Yao,Jinchang Ren,Xianxian Zeng,Peixian Wang,Jun Yuan,Jiawen Li,Huimin Zhao,Xu Lu

Main category: cs.CV

TL;DR: 提出OS-HGAdapter方法,利用LLM的开放语义知识填补文本和图像间的信息熵差距,通过超图适配器构建多边连接,在Flickr30K和MS-COCO基准上取得显著性能提升。

  • Motivation: 解决文本和图像模态间信息熵差异导致的跨模态检索不平衡问题,利用人类的对齐能力启发,通过LLM填补熵差距。
  • Method: 1) 设计不依赖任务域显式知识的提示模板,用LLM增强文本多义性描述;2) 使用超图适配器构建文本和图像间的多边连接,修正同义语义的正负匹配错误。
  • Result: 在Flickr30K和MS-COCO基准上,文本到图像检索提升16.8%,图像到文本检索提升40.1%,在语义对齐任务中达到新的最优性能。
  • Conclusion: OS-HGAdapter通过LLM增强文本信息熵和超图适配器优化跨模态连接,有效解决了文本-图像对齐中的熵不平衡问题,显著提升了跨模态检索性能。

[21] Real-Time Sign Language to text Translation using Deep Learning: A Comparative study of LSTM and 3D CNN

Madhumati Pol,Anvay Anturkar,Anushka Khot,Ayush Andure,Aniruddha Ghosh,Anvit Magadum,Anvay Bahadur

Main category: cs.CV

TL;DR: 比较3D CNN和LSTM在实时美国手语识别中的性能,3D CNN准确率更高但处理时间更长,LSTM资源消耗更低,混合模型表现良好。

  • Motivation: 研究3D CNN和LSTM在实时ASL识别中的性能差异,为开发辅助技术提供专业基准,强调在边缘计算环境中识别精度与实时操作需求之间的权衡。
  • Method: 在包含50个类别、1200个ASL手势的数据集上,在相似训练条件下评估3D CNN和LSTM架构,比较它们的准确性、计算效率和延迟。
  • Result: 3D CNN达到92.4%的识别准确率,但每帧处理时间比LSTM多3.2%;LSTM保持86.7%的准确率,资源消耗显著更低;混合3D CNN-LSTM模型表现良好。
  • Conclusion: 上下文相关的架构选择对于实际实现至关重要,3D CNN适合高精度需求,LSTM适合资源受限环境,混合模型提供平衡方案。

[22] Foveation Improves Payload Capacity in Steganography

Lifeng Qiu Lin,Henry Kam,Qi Sun,Kaan Akşit

Main category: cs.CV

TL;DR: 该论文提出了一种新的隐写方法,将容量从100比特提升到500比特,同时保持高准确率和良好的视觉质量。

  • Motivation: 隐写术在视觉媒体中用于提供元数据和水印,但现有方法容量有限且准确率有待提升。
  • Method: 利用高效的潜在表示和注视点渲染技术,训练模型创建多模态潜在表示,并采用新颖的感知设计。
  • Result: 将容量从100比特提升到500比特,准确率达到2000比特中仅1比特错误,视觉质量达到31.47 dB PSNR和0.13 LPIPS。
  • Conclusion: 新型感知设计在隐写术中创建多模态潜在表示具有显著效果,实现了容量和准确率的双重提升。

[23] DP-TTA: Test-time Adaptation for Transient Electromagnetic Signal Denoising via Dictionary-driven Prior Regularization

Meng Yang,Kecheng Chen,Wei Luo,Xianjie Chen,Yong Jia,Mingyue Wang,Fanqiang Lin

Main category: cs.CV

TL;DR: 提出了一种基于字典驱动先验正则化的测试时自适应方法(DP-TTA),用于解决瞬变电磁法信号在不同地理区域噪声特性差异导致的去噪性能下降问题。

  • Motivation: 现有深度学习去噪模型大多在模拟或单一真实场景数据上训练,忽略了不同地理区域噪声特性的显著差异,导致模型在新环境中性能下降。
  • Method: 使用字典学习将TEM信号的内在物理特性(如指数衰减和平滑性)编码为字典驱动先验,在训练时集成到DTEMDNet网络中,在测试时通过最小化字典驱动一致性和信号一阶变化的自监督损失来动态适应新环境。
  • Result: 大量实验结果表明,该方法在TEM去噪性能上显著优于现有TEM去噪方法和TTA方法。
  • Conclusion: 提出的DP-TTA方法有效利用TEM信号的内在物理特性作为先验知识,通过测试时自适应策略显著提升了模型在新地理环境中的去噪性能。

[24] STT-GS: Sample-Then-Transmit Edge Gaussian Splatting with Joint Client Selection and Power Control

Zhen Li,Xibin Jin,Guoliang Li,Shuai Wang,Miaowen Wen,Huseyin Arslan,Derrick Wing Kwan Ng,Chengzhong Xu

Main category: cs.CV

TL;DR: 提出了一种面向边缘高斯泼溅(EGS)的样本后传输策略(STT-GS),通过特征域聚类和试点传输时间最小化来高效采样客户端图像,并基于惩罚交替主化最小化算法联合优化客户端选择和功率控制,显著提升了场景重建质量。

  • Motivation: 传统边缘资源管理方法强调通信吞吐量或通用学习性能,不适用于专门优化高斯泼溅质量的需求。EGS需要最大化GS质量,但评估GS导向目标函数又需要客户端图像,形成因果困境。
  • Method: 提出STT-GS策略:1) 使用特征域聚类(FDC)从每个客户端采样最具代表性的图像作为试点数据;2) 采用试点传输时间最小化(PTTM)减少试点开销;3) 基于第一阶段评估,开发联合客户端选择和功率控制(JCSPC)框架;4) 使用惩罚交替主化最小化(PAMM)算法解决非凸优化问题。
  • Result: 在真实数据集上的实验表明,该方法显著优于现有基准。GS导向目标函数可以通过低采样率(如10%)准确预测,在视图贡献和通信成本之间实现了良好平衡。
  • Conclusion: 所提出的STT-GS策略有效解决了EGS中的因果困境,通过两阶段采样和资源分配机制,在有限通信资源下最大化高斯泼溅质量,为边缘场景重建提供了高效解决方案。

[25] Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion

Rongtao Xu,Jinzhou Lin,Jialei Zhou,Jiahua Dong,Changwei Wang,Ruisheng Wang,Li Guo,Shibiao Xu,Xiaodan Liang

Main category: cs.CV

TL;DR: CIGOcc是一个基于多级表示融合的两阶段占用预测框架,通过融合分割、图形和深度特征,结合SAM知识蒸馏,在SemanticKITTI基准上实现了最先进的性能。

  • Motivation: 现有方法主要通过结构改进提升性能,但很少从表示融合角度探索,导致2D图像中丰富的特征多样性未被充分利用。
  • Method: 提出两阶段占用预测框架CIGOcc,从输入图像中提取分割、图形和深度特征,引入可变形多级融合机制融合这三种多级特征,并融入SAM知识蒸馏。
  • Result: 在不增加训练成本的情况下,在SemanticKITTI基准上实现了最先进的性能。
  • Conclusion: CIGOcc通过多级表示融合有效提升了相机占用预测性能,证明了特征融合策略在该领域的重要性。

[26] Paper Copilot: Tracking the Evolution of Peer Review in AI Conferences

Jing Yang,Qiyao Wei,Jiaxin Pei

Main category: cs.CV

TL;DR: Paper Copilot是一个创建计算机科学会议同行评审数字档案的系统,提供开放数据集支持大规模同行评审研究,并对ICLR多年评审进行实证分析。

  • Motivation: AI会议快速增长导致同行评审系统压力增大,出现评审工作量大、专业知识不匹配、评价标准不一致、评审浅显模板化等问题,而会议组织者的临时干预措施往往带来更多困惑。
  • Method: 开发Paper Copilot系统,创建跨多个计算机科学会议的持久性数字评审档案,构建开放数据集,并对ICLR多年评审数据进行大规模实证分析。
  • Result: 提供了支持同行评审可重复研究的基础设施和数据集,能够追踪评审实践变化、诊断失败模式。
  • Conclusion: 这些资源有助于社区追踪变化、诊断问题,并为建立更稳健、透明和可靠的同行评审系统提供基于证据的改进建议。

[27] MimicParts: Part-aware Style Injection for Speech-Driven 3D Motion Generation

Lianlian Liu,YongKang He,Zhaojie Chu,Xiaofen Xing,Xiangmin Xu

Main category: cs.CV

TL;DR: 提出了MimicParts框架,通过分区感知风格注入和去噪网络,从语音生成更具表现力的3D人体动作,解决了现有方法在风格多样性和区域差异方面的不足。

  • Motivation: 当前方法在从语音生成风格化3D人体动作时存在两个主要问题:一是风格编码过于简化或忽略区域差异,二是未能动态适应语音节奏和情感变化,限制了动作的真实性。
  • Method: 将人体划分为不同区域进行局部运动风格编码,使用分区感知注意力块让节奏和情感线索精确指导每个身体区域,确保生成的动作与语音节奏和情感状态的变化一致。
  • Result: 实验结果表明,该方法在自然度和表现力方面优于现有方法,能够生成更逼真的3D人体动作序列。
  • Conclusion: MimicParts框架通过分区感知的方法有效提升了从语音生成风格化3D人体动作的质量,能够捕捉细粒度的区域差异并动态适应语音变化。

[28] Prompt-based Adaptation in Large-scale Vision Models: A Survey

Xi Xiao,Yunbei Zhang,Lin Zhao,Yiyang Liu,Xiaoying Liao,Zheda Mai,Xingjian Li,Xiao Wang,Hao Xu,Jihun Hamm,Xue Lin,Min Xu,Qifan Wang,Tianyang Wang,Cheng Han

Main category: cs.CV

TL;DR: 本文对视觉提示(VP)和视觉提示调优(VPT)进行了系统综述,提出了统一的提示式适应(PA)框架,并对现有方法进行了分类和整理。

  • Motivation: 当前研究中VP和VPT概念边界模糊,经常被互换使用,缺乏对这两种技术及其应用的系统区分。
  • Method: 从第一原理重新审视VP和VPT设计,将其概念化为统一的提示式适应(PA)框架,提供基于可学习性(可学习、生成、不可学习)和注入粒度(像素级和标记级)的分类法。
  • Result: 构建了PA方法论的综合分类体系,并考察了PA在医学影像、3D点云、视觉语言任务等领域的应用,以及在测试时适应和可信AI中的作用。
  • Conclusion: 这是首个专门针对PA方法论和应用的全面综述,旨在为研究人员提供清晰的路线图,帮助理解PA相关研究的发展格局。

[29] Sample-Centric Multi-Task Learning for Detection and Segmentation of Industrial Surface Defects

Hang-Cheng Dong,Yibo Jiao,Fupeng Wei,Guodong Liu,Dong Ye,Bingguo Liu

Main category: cs.CV

TL;DR: 提出了一种面向工业表面缺陷检测的样本中心多任务学习框架,通过联合学习样本级缺陷分类和像素级掩码定位,解决传统像素中心方法在样本级决策稳定性不足的问题。

  • Motivation: 工业表面缺陷检测面临极端的前景-背景不平衡、缺陷稀疏性、长尾尺度分布和低对比度等挑战,传统像素中心训练容易被大块均匀区域主导,难以关注小尺寸或低对比度缺陷。
  • Method: 基于共享编码器架构的多任务学习框架,同时学习样本级缺陷分类和像素级掩码定位,样本级监督调节特征分布并持续提升小缺陷的召回率,分割分支保留边界细节。
  • Result: 在两个基准数据集上的实验表明,该方法显著提高了样本级决策的可靠性和缺陷定位的完整性。
  • Conclusion: 样本中心的多任务学习框架能有效解决工业缺陷检测中样本级决策稳定性问题,提出的决策关联评估指标更贴合实际质量控制需求。

[30] What "Not" to Detect: Negation-Aware VLMs via Structured Reasoning and Token Merging

Inha Kang,Youngsun Lim,Seonho Lee,Jiho Choi,Junsuk Choe,Hyunjung Shim

Main category: cs.CV

TL;DR: 该论文提出CoVAND数据集和NegToMe模块来解决视觉语言模型中的否定理解问题,显著提升了描述性目标检测任务的性能。

  • Motivation: 当前最先进的视觉语言模型在理解否定时存在严重的肯定性偏见问题,特别是在描述性目标检测任务中表现尤为明显。
  • Method: 提出两个主要贡献:1) CoVAND数据集,使用思维链和VQA管道生成高质量实例接地否定数据;2) NegToMe文本标记合并模块,通过将否定词与属性绑定成语义短语来解决标记化中的否定线索丢失问题,并结合LoRA微调方法。
  • Result: 在挑战性否定基准测试中显著提升性能,将NMS-AP在OVDEval上提升高达+10.8分,降低了误报率,并证明了对最先进视觉语言模型的泛化能力。
  • Conclusion: 这项工作在解决现实世界检测应用中的否定理解问题方面迈出了关键一步。

[31] UniVector: Unified Vector Extraction via Instance-Geometry Interaction

Yinglong Yan,Jun Yue,Shaobo Xia,Hanmeng Sun,Tianxu Ying,Chengcheng Wu,Sifan Lan,Min He,Pedram Ghamisi,Leyuan Fang

Main category: cs.CV

TL;DR: UniVector是一个统一的向量提取框架,通过实例-几何交互在单一模型中提取多种向量类型(多边形、折线、线段),在单结构和多结构任务上都达到了最先进水平。

  • Motivation: 现有方法通常针对单一向量类型设计,需要为不同结构使用单独模型,这限制了捕捉复杂结构的能力。
  • Method: 将向量编码为包含实例和几何信息的结构化查询,通过交互模块进行跨层级上下文交换,并使用动态形状约束来优化全局结构和关键点。
  • Result: 实验表明UniVector在单结构和多结构向量提取任务上都达到了新的最先进水平。
  • Conclusion: UniVector通过实例-几何交互的统一框架,成功解决了多类型向量提取问题,并引入了Multi-Vector数据集用于多结构场景的基准测试。

[32] EPIPTrack: Rethinking Prompt Modeling with Explicit and Implicit Prompts for Multi-Object Tracking

Yukuan Zhang,Jiarui Zhao,Shangqing Nie,Jin Kuang,Shengsheng Wang

Main category: cs.CV

TL;DR: EPIPTrack是一个统一的多模态视觉语言跟踪框架,通过显式和隐式提示实现动态目标建模和语义对齐,在多个数据集上优于现有跟踪器。

  • Motivation: 现有方法依赖静态文本描述,缺乏对实时目标状态变化的适应性且容易产生幻觉,需要更动态的多模态跟踪方法。
  • Method: 使用显式提示将空间运动信息转换为自然语言描述,隐式提示结合伪词和可学习描述符构建个性化知识表示,并通过CLIP文本编码器动态调整。设计了判别性特征增强器来增强视觉和跨模态表示。
  • Result: 在MOT17、MOT20和DanceTrack数据集上的广泛实验表明,EPIPTrack在多样化场景中优于现有跟踪器。
  • Conclusion: EPIPTrack展现了强大的适应性和优越性能,为多模态目标跟踪提供了有效的动态建模方法。

[33] Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models

Haochuan Xu,Yun Sing Koh,Shuhuai Huang,Zirun Zhou,Di Wang,Jun Sakuma,Jingfeng Zhang

Main category: cs.CV

TL;DR: 本文提出了针对视觉-语言-动作(VLA)模型的对抗性补丁攻击(EDPA)和相应的防御策略。EDPA是一种模型无关的攻击方法,通过在相机视野中放置对抗补丁来干扰VLA模型的语义对齐,导致机器人任务失败。同时提出了对抗性微调防御方案来缓解这种攻击。

  • Motivation: 尽管VLA模型在机器人学习领域取得了革命性进展,但其对抗鲁棒性仍未得到充分探索。本文旨在研究VLA模型的对抗脆弱性并提出相应的防御方法。
  • Method: 提出了嵌入破坏补丁攻击(EDPA),通过(i)破坏视觉和文本潜在表示的语义对齐,以及(ii)最大化对抗样本和干净样本潜在表示之间的差异来生成对抗补丁。同时提出了对抗性微调防御方案,优化视觉编码器使其对干净和对抗样本产生相似的潜在表示。
  • Result: 在LIBERO机器人仿真基准上的广泛评估表明,EDPA显著提高了最先进VLA模型的任务失败率,而提出的防御方法有效缓解了这种性能下降。
  • Conclusion: 本文揭示了VLA模型的对抗脆弱性,提出的EDPA攻击和防御策略为增强VLA模型在实际机器人应用中的安全性提供了重要见解。

[34] FlyAwareV2: A Multimodal Cross-Domain UAV Dataset for Urban Scene Understanding

Francesco Barbato,Matteo Caligiuri,Pietro Zanuttigh

Main category: cs.CV

TL;DR: FlyAwareV2是一个用于无人机城市场景理解的多模态数据集,包含真实和合成图像,提供RGB、深度和语义标签数据,支持跨天气和时间的多样化环境条件研究。

  • Motivation: 由于收集和标注真实无人机数据成本高昂且困难,需要大规模标注数据集来开发计算机视觉算法。
  • Method: 基于SynDrone和FlyAware数据集扩展,引入多模态数据、使用最先进的单目深度估计生成真实样本的深度图,并提供合成到真实域适应的基准研究。
  • Result: 创建了一个包含丰富标注和环境多样性的数据集,支持RGB和多模态语义分割基准测试。
  • Conclusion: FlyAwareV2为基于无人机的3D城市场景理解研究提供了宝贵的资源,特别是在合成到真实域适应方面具有重要价值。

[35] CymbaDiff: Structured Spatial Diffusion for Sketch-based 3D Semantic Urban Scene Generation

Li Liang,Bo Miao,Xinyu Wang,Naveed Akhtar,Jordan Vice,Ajmal Mian

Main category: cs.CV

TL;DR: 提出了SketchSem3D,首个基于抽象手绘草图和卫星图像伪标注的大规模室外3D语义场景生成基准,并开发了Cylinder Mamba Diffusion (CymbaDiff)方法来增强空间一致性。

  • Motivation: 室外3D语义场景生成在城市场景模拟和自动驾驶等应用中很重要,但缺乏公开的、标注良好的数据集限制了该领域的发展。
  • Method: 提出了Cylinder Mamba Diffusion (CymbaDiff)方法,通过施加结构化空间排序、显式捕捉圆柱连续性和垂直层次结构,保持生成场景中的物理邻域关系和全局上下文。
  • Result: 在SketchSem3D上的广泛实验表明,CymbaDiff在语义一致性、空间真实性和跨数据集泛化方面实现了优越性能。
  • Conclusion: SketchSem3D基准和CymbaDiff方法为室外3D语义场景生成提供了标准化的评估框架,显著提升了空间一致性和生成质量。

[36] Real-Time Crowd Counting for Embedded Systems with Lightweight Architecture

Zhiyuan Zhao,Yubin Wen,Siyu Yang,Lichen Ning,Yuandong Liu,Junyu Gao

Main category: cs.CV

TL;DR: 提出了一种具有stem-encoder-decoder结构的超实时人群计数模型,在嵌入式系统上实现了最快的推理速度,同时保持竞争力精度。

  • Motivation: 现有的人群计数方法在嵌入式系统应用中存在模型参数过多、计算复杂等问题,而嵌入式系统的实际应用需要模型具有实时性。
  • Method: 使用stem网络中的大卷积核扩大感受野提取头部细节;在编码器部分使用条件通道加权和多分支局部融合块以低计算成本融合多尺度特征;在编码器顶部添加特征金字塔网络缓解不完全融合问题。
  • Result: 在三个基准测试上的实验表明,该网络在NVIDIA GTX 1080Ti上达到381.7 FPS,在NVIDIA Jetson TX1上达到71.9 FPS,推理速度最快,同时保持竞争力精度。
  • Conclusion: 所提出的网络适用于嵌入式系统上的超实时人群计数,实现了最快的推理速度并确保了竞争力精度。

[37] Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Minji Kim,Taekyung Kim,Bohyung Han

Main category: cs.CV

TL;DR: 该研究使用机制可解释性技术分析视频大语言模型的内部信息流,发现时间推理的一致模式:早期层跨帧交互、中层视频-语言集成、中后层生成答案,并证明可以通过选择有效信息路径来保持性能。

  • Motivation: 尽管视频大语言模型在视频问答任务上取得进展,但其内部如何提取和传播视频与文本信息的机制仍未被充分探索。
  • Method: 使用机制可解释性技术分析VideoLLMs的内部信息流,识别关键的信息传播路径。
  • Result: 发现时间推理的四个阶段模式:早期跨帧交互、中层视频-语言集成、中后层答案生成,且可以通过选择58%的有效注意力边来保持性能。
  • Conclusion: 这些发现揭示了VideoLLMs执行时间推理的机制,为改进模型可解释性和下游泛化提供了实用见解。

[38] End-to-End Multi-Modal Diffusion Mamba

Chunhao Lu,Qiang Lu,Meichen Dong,Jake Luo

Main category: cs.CV

TL;DR: MDM提出了一种基于Mamba的多模态扩散模型,通过统一的变分自编码器实现多模态处理的统一,在图像生成、图像描述、视觉问答等任务中表现出色。

  • Motivation: 当前端到端多模态模型使用不同的编码器和解码器处理输入输出信息,这种分离阻碍了多模态的联合表示学习。
  • Method: 使用基于Mamba的多步选择扩散模型,通过统一的变分自编码器逐步生成和精炼模态特定信息,实现编码和解码的统一。
  • Result: 在图像生成、图像描述、视觉问答、文本理解和推理任务中,MDM显著优于现有端到端模型,并能与GPT-4V、Gemini Pro等SOTA模型竞争。
  • Conclusion: MDM有效统一了多模态处理过程,同时保持计算效率,为端到端多模态架构开辟了新方向。

[39] MMLongCite: A Benchmark for Evaluating Fidelity of Long-Context Vision-Language Models

Keyan Zhou,Zecheng Tang,Lingfeng Ming,Guanghao Zhou,Qiguang Chen,Dan Qiao,Zheming Yang,Libo Qin,Minghui Qiu,Juntao Li,Min Zhang

Main category: cs.CV

TL;DR: 提出了MMLongCite基准来评估大型视觉语言模型在长上下文场景中的忠实度,发现现有模型在处理长多模态上下文时忠实度有限。

  • Motivation: 大型视觉语言模型的上下文窗口不断扩大,但扩展的上下文窗口并不能保证有效利用上下文,这对实际应用构成关键挑战。当前评估主要关注纯文本领域,多模态评估仅限于短上下文。
  • Method: 引入MMLongCite基准,包含8个不同任务,涵盖6个上下文长度区间,整合文本、图像和视频等多种模态。
  • Result: 对最先进的大型视觉语言模型评估显示,它们在处理长多模态上下文时的忠实度有限。深入分析了上下文长度和关键内容位置对模型忠实度的影响。
  • Conclusion: 现有大型视觉语言模型在长多模态上下文处理上存在忠实度不足的问题,需要进一步改进。

[40] Universal Image Restoration Pre-training via Masked Degradation Classification

JiaKui Hu,Zhengjian Yao,Lujia Jin,Yinghao Chen,Yanye Lu

Main category: cs.CV

TL;DR: 提出MaskDCPT预训练方法,通过退化类型分类和图像重建联合训练,实现通用图像恢复任务的高性能表现。

  • Motivation: 传统预训练方法在图像恢复任务中存在局限性,需要一种能够同时利用退化类型信息和图像重建能力的方法来提升恢复性能。
  • Method: 使用编码器-双解码器架构:编码器提取掩码低质量图像特征,分类解码器识别退化类型,重建解码器生成高质量图像。结合掩码图像建模和对比学习。
  • Result: 在5D全合一恢复任务中PSNR至少提升3.77dB,真实场景中PIQE降低34.8%,对未见过的退化类型和级别表现出强泛化能力。
  • Conclusion: MaskDCPT为图像恢复任务提供了一种有效的预训练方法,显著提升了CNN和Transformer的性能,并发布了包含250万样本的UIR-2.5M数据集。

[41] Automated document processing system for government agencies using DBNET++ and BART models

Aya Kaysan Bahjat

Main category: cs.CV

TL;DR: 提出了一种自动文档分类系统,能够检测图像中的文本内容并将文档分类为四种预定义类别(发票、报告、信件和表格),支持离线图像和实时摄像头捕获。

  • Motivation: 解决实际应用中的挑战,包括可变光照、任意方向、弯曲或部分遮挡文本、低分辨率和远距离文本等问题,实现无约束成像场景下的混合来源文档分类。
  • Method: 采用四阶段流水线:图像捕获与预处理、使用DBNet++进行文本检测、使用BART进行文本分类,所有模块集成在基于Python和PyQt5的用户界面中。
  • Result: 在Total-Text数据集上经过10小时测试,文本检测准确率达到约92.88%,该数据集包含高分辨率图像并模拟各种困难挑战。
  • Conclusion: 所提出的方法在无约束成像场景下对于实际混合来源文档分类是有效的。

[42] Novel Class Discovery for Point Cloud Segmentation via Joint Learning of Causal Representation and Reasoning

Yang Li,Aming Wu,Zihao Zhang,Yahong Han

Main category: cs.CV

TL;DR: 提出了一种基于结构因果模型(SCM)的3D点云新类发现分割方法,通过因果表示原型消除混杂因子,并构建图结构进行从基类到新类的因果推理。

  • Motivation: 解决3D点云新类发现分割问题,旨在利用已标注基类的监督来分割未标注的新类。关键在于建立点表示与基类标签的确切相关性,以及基类和新类点表示之间的相关性。
  • Method: 引入结构因果模型(SCM)重新形式化3D-NCD问题,提出联合学习因果表示和推理的方法。首先分析基类表示中的隐藏混杂因子和基类与新类之间的因果关系,设计因果表示原型消除混杂因子,然后使用图结构建模基类因果表示原型与新类原型之间的因果关系。
  • Result: 在3D和2D NCD语义分割上的大量实验和可视化结果证明了该方法的优越性。
  • Conclusion: 通过引入因果推理机制,能够更准确地发现和分割3D点云中的新类,解决了传统统计相关性学习可能导致的混淆问题。

[43] InstantSfM: Fully Sparse and Parallel Structure-from-Motion

Jiankun Zhong,Zitong Zhan,Quankai Gao,Ziyu Chen,Haozhe Lou,Jiageng Mao,Ulrich Neumann,Yue Wang

Main category: cs.CV

TL;DR: 本文提出了一种基于GPU并行计算的SfM加速方法,在保持重建精度的同时实现比COLMAP快约40倍的速度,并能处理大规模场景(如5000张图像)。

  • Motivation: 传统SfM方法(如COLMAP、GLOMAP)在大规模场景下计算开销大,且缺乏灵活性;深度学习SfM方法(如VGGSfM、VGGT)无法处理大量输入视图。
  • Method: 利用GPU并行计算加速标准SfM管线的每个关键阶段,基于稀疏感知的束调整优化技术,在统一的全局SfM框架中同时加速BA和GP。
  • Result: 在不同规模数据集上的实验表明,该方法相比COLMAP实现约40倍加速,同时保持相当甚至更好的重建精度,能处理5000张图像的大规模场景。
  • Conclusion: 通过GPU并行计算充分释放了SfM管线的潜力,在大规模场景下实现了显著的速度提升和高质量重建。

[44] Self-Augmented Visual Contrastive Decoding

Eun Woo Im,Muhammad Kashif Ali,Vivek Gupta

Main category: cs.CV

TL;DR: 提出了一种新的训练自由解码策略,通过自增强提示和自适应阈值算法来减少大型视觉语言模型的幻觉问题,显著提高了事实一致性。

  • Motivation: 现有视觉对比解码方法使用通用的视觉增强,忽略了文本查询的具体上下文,限制了其有效性。
  • Method: 1. 自增强提示策略:利用模型内在知识动态对齐查询和视觉增强的语义;2. 自适应阈值算法:基于输出稀疏性自适应调整下一个token候选大小,充分利用logit分布信息。
  • Result: 在4个LVLM和7个基准测试上的广泛实验表明,所提出的解码方法相比最先进的解码方法显著提高了事实一致性。
  • Conclusion: 这项工作强调了集成查询依赖增强和熵感知解码对于提高LVLM有效生成的重要性。

[45] Visual Interestingness Decoded: How GPT-4o Mirrors Human Interests

Fitim Abdullahu,Helmut Grabner

Main category: cs.CV

TL;DR: 本文探索大型多模态模型(特别是GPT-4o)对人类视觉兴趣度的理解能力,通过比较分析发现模型与人类评估存在部分对齐,并利用这种对齐来训练学习排序模型。

  • Motivation: 研究大型多模态模型是否能够捕捉视觉兴趣度的概念,以及模型预测与人类评估之间的对齐程度,这对于理解人类兴趣具有重要意义。
  • Method: 通过比较分析人类评估与GPT-4o预测的对齐情况,利用模型对图像对进行兴趣度标注,然后使用这些标注数据训练学习排序模型。
  • Result: 研究发现GPT-4o与人类在视觉兴趣度评估上存在部分对齐,且其表现优于现有最先进方法,能够有效标注图像对的兴趣度。
  • Conclusion: 大型多模态模型能够部分捕捉视觉兴趣度概念,这为深入理解人类兴趣提供了新途径,并可用于训练有效的学习排序模型。

[46] Removing Cost Volumes from Optical Flow Estimators

Simon Kiefhaber,Stefan Roth,Simone Schaub-Meyer

Main category: cs.CV

TL;DR: 提出一种训练策略,允许在训练过程中移除光流估计器中的代价体积,显著提升推理速度并降低内存需求。

  • Motivation: 经验观察发现,当RAFT等光流估计网络的其他部分充分训练后,代价体积的重要性会降低,但其计算和空间复杂度限制了处理速度和输入分辨率。
  • Method: 引入一种训练策略,在训练过程中逐步移除代价体积,创建了三种不同计算预算的模型。
  • Result: 最准确的模型达到最先进精度,速度提升1.2倍,内存占用降低6倍;最快模型能在500MB GPU内存下以20FPS处理全高清帧。
  • Conclusion: 通过移除代价体积的训练策略,可以在保持精度的同时显著提升光流估计的效率和实用性。

[47] DEF-YOLO: Leveraging YOLO for Concealed Weapon Detection in Thermal Imagin

Divya Bhardwaj,Arnav Ramamoorthy,Poonam Goyal

Main category: cs.CV

TL;DR: 提出了一种基于热成像的隐蔽武器检测方法DEF-YOLO,通过改进YOLOv8架构,在SPPF层使用可变形卷积提取多尺度特征,并结合焦点损失解决类别不平衡问题。同时发布了首个大规模热成像隐蔽武器检测数据集TICW。

  • Motivation: 现有隐蔽武器检测技术存在分辨率低、隐私问题等局限性,需要一种实时、低成本且保护隐私的解决方案。热成像技术具有这些优势,但缺乏基准数据集。
  • Method: 基于YOLOv8架构改进,在SPPF层引入可变形卷积来提取多尺度特征;在骨干网络和颈部网络提取低、中、高级特征;使用焦点损失解决类别不平衡问题;创建了大规模TICW数据集。
  • Result: 提出的DEF-YOLO方法在热成像隐蔽武器检测任务中表现出色,能够自适应地关注热均匀区域中的目标定位,同时保持较高的速度和吞吐量。
  • Conclusion: 该工作为热成像隐蔽武器检测建立了新的基准,通过广泛的实验验证了所提方法的有效性,为实时监控提供了可行的解决方案。

[48] Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Hong-Kai Zheng,Piji Li

Main category: cs.CV

TL;DR: 提出Group-VQ方法,通过分组优化码本解决VQ-VAE中的码本塌陷问题,提高码本利用率和重建性能,并引入训练后码本重采样方法灵活调整码本大小。

  • Motivation: VQ-VAE在自监督学习中存在码本塌陷问题,现有方法使用隐式静态码本或联合优化整个码本,限制了码本学习能力并降低重建质量。
  • Method: 提出Group-VQ方法,对码本进行分组优化,组内独立优化,组间联合优化;同时引入训练后码本重采样方法。
  • Result: 在各种图像重建实验设置下,Group-VQ在重建指标上表现更好,训练后码本采样方法实现了码本大小调整的灵活性。
  • Conclusion: Group-VQ改善了码本利用率和重建性能之间的权衡,训练后码本重采样提供了码本大小调整的灵活性。

[49] No-Reference Rendered Video Quality Assessment: Dataset and Metrics

Sipeng Yang,Jiayu Ji,Qingchuan Zhu,Zhiyao Yang,Xiaogang Jin

Main category: cs.CV

TL;DR: 提出了一个专门针对渲染视频的无参考视频质量评估方法和数据集,解决了现有方法对渲染视频评估偏差的问题。

  • Motivation: 现有无参考视频质量评估方法和数据集主要针对相机拍摄视频,直接应用于渲染视频会产生偏差预测,因为渲染视频更容易出现时间伪影。
  • Method: 构建了一个大规模渲染视频数据集,包含各种3D场景和渲染设置,并设计了专门针对渲染视频的NR-VQA指标,同时考虑图像质量和时间稳定性。
  • Result: 与现有NR-VQA指标相比,该方法在渲染视频上表现出更优越的性能,能够有效评估超采样方法和实时渲染中的帧生成策略。
  • Conclusion: 提出的渲染导向视频数据集和专用NR-VQA指标为渲染视频质量评估提供了有效解决方案,在计算机图形应用中具有重要价值。

[50] Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity

MingZe Tang,Jubal Chandy Jacob

Main category: cs.CV

TL;DR: 研究发现,在视觉语言模型进行零样本分类时,对于高性能模型,最简单的提示词效果最好,增加描述性细节反而会显著降低性能,这种现象被称为"提示过拟合"。

  • Motivation: 研究视觉语言模型在零样本分类中提示词设计对识别视觉相似类别(如人体姿势)的影响,特别是在数据稀缺条件下的表现。
  • Method: 使用285张COCO数据集图像,评估OpenCLIP、MetaCLIP 2和SigLip等现代视觉语言模型,采用三层次提示词设计系统性地增加语言细节。
  • Result: 对于性能最高的模型(MetaCLIP 2和OpenCLIP),最简单的基本提示词始终获得最佳结果,而增加描述性细节会显著降低性能(如MetaCLIP 2的多类准确率从68.8%降至55.1%)。相反,性能较低的SigLip模型在给出更具描述性的基于身体线索的提示词时,对模糊类别的分类有所改善。
  • Conclusion: 提示词设计对视觉语言模型的零样本分类性能有显著影响,高性能模型倾向于在简单提示词下表现更好,而性能较低的模型可能需要更详细的提示词来改善模糊类别的识别。

[51] DepthVLA: Enhancing Vision-Language-Action Models with Depth-Aware Spatial Reasoning

Tianyuan Yuan,Yicheng Liu,Chenhao Lu,Zhuoguang Chen,Tao Jiang,Hang Zhao

Main category: cs.CV

TL;DR: DepthVLA是一个增强空间推理能力的视觉-语言-动作模型,通过集成预训练的深度预测模块来提升空间感知能力。

  • Motivation: 现有的VLA模型在需要精确空间推理的任务上表现不佳,因为它们从VLM继承的空间推理能力有限,且需要大量动作数据预训练来在3D空间中接地。
  • Method: 采用混合变换器设计,统一了VLM、深度变换器和动作专家,通过完全共享注意力形成端到端模型,显式融入空间感知。
  • Result: 在真实世界和模拟环境中均优于最先进方法:真实世界任务78.5% vs 65.0%,LIBERO模拟器94.9% vs 93.6%,Simpler模拟器74.8% vs 58.8%。
  • Conclusion: DepthVLA通过显式融入深度预测模块有效提升了VLA模型的空间推理能力,在多种环境中都取得了显著性能提升。

[52] Leveraging 2D Priors and SDF Guidance for Dynamic Urban Scene Rendering

Siddharth Tourani,Jayaram Reddy,Akash Kumbar,Satyajit Tourani,Nishant Goyal,Madhava Krishna,N. Dinesh Reddy,Muhammad Haris Khan

Main category: cs.CV

TL;DR: 提出了一种结合SDF和3DGS的新方法,用于动态场景渲染和重建,无需LiDAR数据和3D运动标注即可在城市场景中实现最先进的性能。

  • Motivation: 现有的基于3DGS的动态城市场景方法需要相机和LiDAR数据、地面真实3D分割以及运动数据,限制了其应用范围。
  • Method: 将2D对象无关先验(深度和点跟踪)与SDF表示相结合,构建统一的优化框架,提升3DGS的几何精度和SDF的变形建模能力。
  • Result: 在无LiDAR数据的情况下,在城市场景渲染指标上达到最先进性能;加入LiDAR后进一步改进重建和新视角生成能力,支持场景编辑任务。
  • Conclusion: 该方法成功放松了对LiDAR数据和3D运动标注的依赖,实现了更灵活的动态场景表示和编辑能力。

[53] Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment

Feng-Qi Cui,Yu-Tong Guo,Tianyue Zheng,Jinyang Huang

Main category: cs.CV

TL;DR: 提出了GLSDA框架,利用预训练大模型的语义先验增强WiFi手势识别的泛化能力和语义表达能力,通过双路径CSI编码、多尺度语义编码器和语义感知软监督等机制,在保持轻量化的同时提升跨域识别性能。

  • Motivation: 现有WiFi手势识别方法存在泛化能力有限和语义表达能力不足的问题,主要由于信道状态信息的域敏感性和缺乏高级手势抽象。
  • Method: 设计双路径CSI编码管道捕获几何和动态手势模式,使用多尺度语义编码器学习鲁棒时序嵌入并通过跨模态注意力对齐语义,引入语义感知软监督增强类别区分,采用鲁棒双蒸馏策略压缩模型。
  • Result: 在Widar3.0基准测试中,GLSDA在域内和跨域手势识别任务中均优于现有方法,同时显著减小模型尺寸和推理延迟。
  • Conclusion: GLSDA为现实AIoT应用中的通用RF手势接口提供了可扩展和可部署的解决方案。

[54] Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models

Xinmiao Huang,Qisong He,Zhenglin Huang,Boxuan Wang,Zhuoyun Li,Guangliang Cheng,Yi Dong,Xiaowei Huang

Main category: cs.CV

TL;DR: 提出了一个基于认知分类学的空间推理基准Spatial-DISE,包含四个基本象限:内在-静态、内在-动态、外在-静态和外在-动态空间推理。开发了自动化流水线生成多样化空间推理问题,评估发现当前视觉语言模型与人类能力存在显著差距。

  • Motivation: 现有基准在评估空间推理能力方面不足,特别是内在-动态空间推理这一人类空间认知的基本方面。需要更全面的基准来评估视觉语言模型的空间推理能力。
  • Method: 基于认知分类学构建统一基准,开发可扩展的自动化流水线生成多样化且可验证的空间推理问题,创建包含评估集和训练集的数据集。
  • Result: 对28个最先进的视觉语言模型进行全面评估,发现当前模型在多步骤多视图空间推理方面与人类能力存在显著且一致的差距。
  • Conclusion: Spatial-DISE为未来研究提供了稳健框架、有价值的数据集和明确方向,推动实现类人空间智能。

[55] Reinforcement Learning Meets Masked Generative Models: Mask-GRPO for Text-to-Image Generation

Yifu Luo,Xinhao Hu,Keyu Fan,Haoyuan Sun,Zeyu Chen,Bo Xia,Tiantian Zhang,Yongzhe Chang,Xueqian Wang

Main category: cs.CV

TL;DR: 提出了Mask-GRPO方法,首次将基于GRPO的强化学习引入到掩码生成模型中,通过重新定义转移概率并将去掩码过程建模为多步决策问题,在文本到图像生成任务上取得了显著提升。

  • Motivation: 现有强化学习方法主要针对扩散模型或自回归模型,忽略了掩码生成模型这一重要替代方案,因此需要开发专门适用于掩码生成模型的RL方法。
  • Method: 提出Mask-GRPO方法,重新定义转移概率,将去掩码过程建模为多步决策问题,并采用了移除KL约束、应用缩减策略和过滤低质量样本等增强策略。
  • Result: 在标准文本到图像基准测试和偏好对齐方面显著提升了基础模型Show-o的性能,超越了现有的最先进方法。
  • Conclusion: Mask-GRPO成功将强化学习引入掩码生成模型,为该范式提供了有效的训练方法,在文本到图像生成任务上表现出色。

[56] Ultra High-Resolution Image Inpainting with Patch-Based Content Consistency Adapter

Jianhui Zhang,Sheng Cheng,Qirui Sun,Jia Liu,Wang Luyang,Chaoyu Feng,Chen Fang,Lei Lei,Jue Wang,Shuaicheng Liu

Main category: cs.CV

TL;DR: Patch-Adapter是一个用于高分辨率文本引导图像修复的有效框架,能够实现4K+分辨率,同时保持内容一致性和提示对齐。

  • Motivation: 现有方法局限于较低分辨率,无法在4K+高分辨率下保持精确的内容一致性和提示对齐,这在图像修复中随着分辨率和纹理复杂度的增加而变得更加困难。
  • Method: 采用两阶段适配器架构:1)双上下文适配器在降低分辨率下学习掩码和非掩码区域的一致性以建立全局结构一致性;2)参考补丁适配器实现补丁级注意力机制进行全分辨率修复,通过自适应特征融合保持局部细节保真度。
  • Result: 实验表明Patch-Adapter不仅解决了大规模修复中常见的伪影问题,还在OpenImages和Photo-Concept-Bucket数据集上实现了最先进的性能,在感知质量和文本提示遵循方面均优于现有方法。
  • Conclusion: 该双阶段架构通过解耦全局语义和局部细化,独特地解决了高分辨率修复中的可扩展性差距问题。

[57] CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Yushan Han,Hui Zhang,Honglei Zhang,Chuntao Ding,Yuanzhouhan Cao,Yidong Li

Main category: cs.CV

TL;DR: 提出CoDS方法解决自动驾驶中异构场景下的协作感知问题,通过轻量级空间通道调整器和域分离分布对齐来有效处理特征差异,同时保证推理效率。

  • Motivation: 现有协作感知方法假设所有智能体使用相同编码器,不适用于实际异构场景。现有方法对邻域特征对齐容易受域差距噪声影响,且基于transformer的域适应方法在移动设备上推理效率低。
  • Method: CoDS采用两个特征对齐模块:轻量级空间通道调整器(LSCR)和基于域分离的分布对齐(DADS),并使用域对齐互信息(DAMI)损失。LSCR通过轻量卷积层对齐空间和通道维度特征,DADS通过编码器特定和编码器无关的域分离模块分别去除域依赖信息和捕获任务相关信息。
  • Result: 大量实验表明CoDS能有效缓解异构场景下的特征差异,在检测精度和推理效率之间取得良好平衡。
  • Conclusion: CoDS通过域分离方法有效解决了异构协作感知中的特征差异问题,采用全卷积架构确保了高效的推理性能,为实际部署提供了可行方案。

[58] Beyond Pixels: A Differentiable Pipeline for Probing Neuronal Selectivity in 3D

Pavithra Elumalai,Mohammad Bashiri,Goirik Chakrabarty,Suhas Shrinivasan,Fabian H. Sinz

Main category: cs.CV

TL;DR: 提出了一种可微分渲染管道,通过优化可变形网格直接在3D空间中获取MEIs,用于分析神经元对可解释3D因素的选择性。

  • Motivation: 当前方法主要在2D像素上操作,难以分离神经元对物理场景属性的选择性。需要开发能够直接分析神经元对3D场景属性选择性的方法。
  • Method: 使用可微分渲染管道优化可变形网格,参数化网格变形为径向基函数,学习最大化神经元响应的偏移和尺度,同时强制几何规律性。
  • Result: 应用于猴子V4区域模型,能够探测神经元对可解释3D因素(如姿态和光照)的选择性。
  • Conclusion: 该方法将逆向图形学与系统神经科学连接起来,提供了一种超越传统像素方法、基于物理基础的3D刺激来探测神经选择性的途径。

[59] Near-Infrared Hyperspectral Imaging Applications in Food Analysis -- Improving Algorithms and Methodologies

Ole-Christian Galbo Engstrøm

Main category: cs.CV

TL;DR: 该论文研究了近红外高光谱成像在食品质量分析中的应用,比较了CNN和PLS模型,发现CNN在联合空间-光谱分析中表现更优,而PLS在分析化学参数平均含量时表现相当且更推荐使用。

  • Motivation: 探索近红外高光谱成像技术在食品质量分析中的有效应用,特别是比较深度学习方法和传统方法在食品质量参数建模中的性能差异。
  • Method: 通过四项研究,使用卷积神经网络(CNN)和偏最小二乘法(PLS)进行建模比较,包括2D CNN增强光谱卷积层的方法,以及处理空间分布化学参数的挑战。
  • Result: CNN在联合空间-光谱分析中优于PLS,特别是在化学和物理视觉信息相关的参数建模中。PLS在分析化学参数平均含量时表现良好。2D CNN增强光谱卷积层能改善化学图谱生成问题。
  • Conclusion: 近红外高光谱成像在食品质量分析中具有潜力,CNN在复杂建模任务中表现优异,而PLS在简单任务中仍具价值。同时开发了两个开源Python包以支持相关研究。

[60] VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

Hyojun Go,Dominik Narnhofer,Goutam Bhat,Prune Truong,Federico Tombari,Konrad Schindler

Main category: cs.CV

TL;DR: VIST3A是一个文本到3D生成框架,通过将文本到视频生成器与3D重建解码器结合,解决了模型拼接和对齐的挑战,显著提升了文本到3D生成的质量。

  • Motivation: 结合现代潜在文本到视频模型和3D重建系统的优势,创建一个强大的3D场景生成器。
  • Method: 使用模型拼接技术将文本到视频生成器与3D解码器连接,并通过直接奖励微调确保生成的潜在表示可解码为一致的3D几何。
  • Result: 所有测试的配对都显著优于之前输出高斯泼溅的文本到3D模型,并且通过选择合适的3D基础模型,VIST3A还能实现高质量的文本到点云生成。
  • Conclusion: VIST3A框架成功地将文本到视频生成和3D重建能力结合,为文本到3D生成提供了有效解决方案。

[61] Through the Lens of Doubt: Robust and Efficient Uncertainty Estimation for Visual Place Recognition

Emily Miller,Michael Milford,Muhammad Burhan Hafez,SD Ramchurn,Shoaib Ehsan

Main category: cs.CV

TL;DR: 提出了三种无需训练的不确定性度量方法,通过分析VPR相似度得分的统计模式来估计预测置信度,提高视觉地点识别的鲁棒性。

  • Motivation: 视觉地点识别在变化环境中面临挑战,关键应用需要鲁棒的不确定性估计,但现有方法需要额外训练或验证数据。
  • Method: 提出三种训练免费的不确定性度量:相似度分布(SD)量化候选者间的得分分离度,比率扩展(RS)评估顶级得分位置的竞争模糊性,统计不确定性(SU)结合前两者提供统一度量。
  • Result: 在9种先进VPR方法和6个基准数据集上的评估表明,这些度量能有效区分正确和错误匹配,优于现有方法且计算开销可忽略。
  • Conclusion: 该方法无需额外训练或架构修改,适用于实时机器人应用,在各种环境条件下提高了精确率-召回率性能。

[62] ExpressNet-MoE: A Hybrid Deep Neural Network for Emotion Recognition

Deeptimaan Banerjee,Prateek Gothwal,Ashis Kumer Biswas

Main category: cs.CV

TL;DR: 提出ExpressNet-MoE混合深度学习模型,结合CNN和MoE框架,通过动态选择专家网络和多尺度特征提取来提升面部情绪识别的准确性和泛化能力。

  • Motivation: 现实世界中的面部情绪识别面临头部姿态变化、遮挡、光照变化和人口多样性等挑战,现有模型在参与度检测等应用中存在局限性。
  • Method: 使用CNN基础特征提取器、MoE模块进行自适应特征选择,以及残差网络骨干进行深度特征学习,通过多尺度特征提取捕获全局和局部面部特征。
  • Result: 在多个数据集上取得优异性能:AffectNet(v7) 74.77%、AffectNet(v8) 72.55%、RAF-DB 84.29%、FER-2013 64.66%。
  • Conclusion: 模型具有高度自适应性,可用于开发实际场景中的端到端情绪识别系统。

[63] UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

Tiancheng Gu,Kaicheng Yang,Kaichen Zhang,Xiang An,Ziyong Feng,Yueyi Zhang,Weidong Cai,Jiankang Deng,Lidong Bing

Main category: cs.CV

TL;DR: 提出UniME-V2模型,利用MLLM作为评判机制来增强多模态嵌入表示学习,通过语义匹配分数进行硬负样本挖掘和软标签训练,显著提升模型判别能力。

  • Motivation: 现有方法在捕捉候选样本间细微语义差异和负样本多样性方面存在不足,嵌入表示在区分假负样本和硬负样本方面能力有限。
  • Method: 首先通过全局检索构建潜在硬负样本集,然后引入MLLM-as-a-Judge机制评估查询-候选对的语义对齐并生成软语义匹配分数,用于硬负样本挖掘和软标签训练。
  • Result: 在MMEB基准测试和多个检索任务上的综合实验表明,该方法在所有任务上平均达到最先进的性能。
  • Conclusion: UniME-V2通过MLLM增强的表示学习方法有效提升了多模态嵌入模型的判别能力,在多个任务上实现了最优性能。

[64] High Semantic Features for the Continual Learning of Complex Emotions: a Lightweight Solution

Thibault Geoffroy,gauthier Gerspacher,Lionel Prevost

Main category: cs.CV

TL;DR: 该论文提出了一种基于面部动作单元(Action Units)的增量学习方法,用于复杂情绪识别,能够有效避免灾难性遗忘问题。

  • Motivation: 解决增量学习中的灾难性遗忘问题,特别是在复杂情绪识别任务中,当学习新任务时容易忘记旧任务的知识。
  • Method: 使用面部动作单元作为非瞬态、高语义特征,这些特征在任务间具有良好适应性,优于浅层和深层卷积神经网络提取的特征。
  • Result: 在CFEE数据集上,增量学习复杂复合情绪时达到0.75的准确率,与最先进方法相比具有竞争力,且模型轻量、内存占用小。
  • Conclusion: 面部动作单元是有效的非瞬态特征,能够支持高效的增量学习,在复杂情绪识别任务中表现出色。

[65] Learning Neural Parametric 3D Breast Shape Models for Metrical Surface Reconstruction From Monocular RGB Videos

Maximilian Weiherer,Antonia von Riedheim,Vanessa Brébant,Bernhard Egger,Christoph Palm

Main category: cs.CV

TL;DR: 提出了一种神经参数化3D乳房形状模型和基于该模型的低成本单目RGB视频3D表面重建流程,能够在2毫米误差范围内恢复准确的乳房几何形状。

  • Motivation: 现有商业3D乳房扫描解决方案成本高昂,而低成本替代方案效果不佳。本文旨在开发无需专用硬件或专有软件、仅使用普通RGB视频即可实现高质量乳房3D重建的解决方案。
  • Method: 结合最先进的结构从运动流程和参数化乳房模型。提出局部化隐式乳房形状模型(liRBSM),将隐式乳房域分解为多个小区域,每个区域由锚定在解剖标志位置的局部神经SDF表示。
  • Result: 提出的liRBSM模型在重建质量上显著优于全局iRBSM,能够恢复更详细的表面细节。整个流程重建误差小于2毫米,处理时间少于6分钟。
  • Conclusion: 该方法能够从单目RGB视频中高质量重建3D乳房几何形状,具有低成本、易访问、开源透明的特点,为乳房3D建模提供了实用的解决方案。

[66] Accelerated Feature Detectors for Visual SLAM: A Comparative Study of FPGA vs GPU

Ruiqi Ye,Mikel Luján

Main category: cs.CV

TL;DR: 该论文比较了GPU和FPGA在视觉SLAM特征检测中的性能差异,发现对于传统特征检测器(FAST、Harris),GPU表现更好;而对于学习型检测器(SuperPoint),FPGA在运行时间和能效方面更优。

  • Motivation: 特征检测是SLAM系统中耗时的模块,而GPU和FPGA都是常用的硬件加速器。研究旨在比较这两种硬件在视觉SLAM特征检测中的性能差异,为资源受限平台(如无人机)提供硬件选择指导。
  • Method: 在Nvidia Jetson Orin和AMD Versal等现代SoC上,比较GPU加速的FAST、Harris、SuperPoint特征检测器与FPGA加速对应版本的性能,并评估它们在完整视觉SLAM流水线中的表现。
  • Result: 对于传统特征检测器,GPU实现比FPGA在运行时间和能效上表现更好;对于学习型检测器SuperPoint,FPGA实现能达到3.1倍运行时间提升和1.4倍能效提升。FPGA加速的V-SLAM在5个数据集序列中的2个能达到更高FPS,但GPU加速的V-SLAM总体上更准确。
  • Conclusion: 硬件加速特征检测可以提升V-SLAM流水线性能,减少全局束调整调用频率而不牺牲精度。硬件选择取决于特征检测器类型:传统检测器适合GPU,学习型检测器适合FPGA。

[67] Modeling Cultural Bias in Facial Expression Recognition with Adaptive Agents

David Freire-Obregón,José Salas-Cáceres,Javier Lorenzo-Navarro,Oliverio J. Santana,Daniel Hernández-Sosa,Modesto Castrillón-Santana

Main category: cs.CV

TL;DR: 该研究通过基于代理的流式基准测试,揭示了跨文化组成和渐进模糊如何影响面部表情识别的鲁棒性,发现不同文化群体在模糊条件下的性能退化曲线存在不对称性。

  • Motivation: 现有面部表情识别评估通常假设同质数据和高质量图像,但实际应用中需要应对文化差异和视觉条件退化。研究旨在探索文化组成和感知退化如何共同影响面部识别的鲁棒性。
  • Method: 采用基于代理的流式基准测试,在冻结的CLIP特征空间中训练轻量级残差适配器,代理在5x5网格上移动交互,环境提供按sigma调度的Gaussian模糊输入。比较了单文化群体和混合群体的不同组成比例。
  • Result: JAFFE(亚洲)群体在低模糊时性能更高但中间阶段下降更陡,KDEF(西方)群体退化更均匀。混合群体呈现中间模式,平衡混合缓解早期退化但不平衡设置会放大多数群体在高模糊下的弱点。
  • Conclusion: 文化组成和交互结构显著影响面部表情识别在感知条件恶化时的鲁棒性,量化了这些因素对性能退化的具体影响。

[68] XD-RCDepth: Lightweight Radar-Camera Depth Estimation with Explainability-Aligned and Distribution-Aware Distillation

Huawei Sun,Zixu Wang,Xiangyuan Peng,Julius Ott,Georg Stettinger,Lorenzo Servadei,Robert Wille

Main category: cs.CV

TL;DR: XD-RCDepth是一个轻量化的雷达-相机融合深度估计架构,参数减少29.7%,通过两种知识蒸馏策略保持精度并提升可解释性。

  • Motivation: 深度估计对自动驾驶至关重要,雷达-相机融合在恶劣条件下提供互补的几何线索,增强鲁棒性。
  • Method: 提出两种知识蒸馏策略:可解释性对齐蒸馏(转移教师模型的显著性结构)和深度分布蒸馏(将深度回归重构为离散区间的软分类)。
  • Result: 相比直接训练,MAE降低7.97%,在nuScenes和ZJU-4DRadarCam数据集上实现竞争性精度和实时效率。
  • Conclusion: XD-RCDepth在保持精度的同时显著减少参数,通过知识蒸馏策略有效提升性能,适合自动驾驶应用。

[69] Fusion Meets Diverse Conditions: A High-diversity Benchmark and Baseline for UAV-based Multimodal Object Detection with Condition Cues

Chen Chen,Kangcheng Bin,Ting Hu,Jiahao Qi,Xingyue Liu,Tianpeng Liu,Zhen Liu,Yongxiang Liu,Ping Zhong

Main category: cs.CV

TL;DR: 提出了ATR-UMOD数据集和PCDF方法,用于无人机RGB-IR图像的自适应融合目标检测,解决现有数据集在复杂成像条件下的不足。

  • Motivation: 现有无人机RGB-IR目标检测数据集无法充分捕捉真实世界的复杂性,特别是在不同成像条件下。
  • Method: 提出PCDF方法,通过文本提示编码成像条件,使用任务特定的软门控变换自适应重新分配多模态贡献,并包含条件解耦模块。
  • Result: 在ATR-UMOD数据集上的实验验证了PCDF方法的有效性。
  • Conclusion: PCDF方法能够有效处理多样化的成像条件,提升无人机RGB-IR目标检测的鲁棒性。

[70] AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset

Amjid Ali,Zulfiqar Ahmad Khan,Altaf Hussain,Muhammad Munsif,Adnan Hussain,Sung Wook Baik

Main category: cs.CV

TL;DR: 提出AVAR-Net音频-视觉异常识别框架,使用Wav2Vec2和MobileViT提取特征,通过早期融合和MTCN建模跨模态时序依赖,在自建VAAR数据集上达到89.29%准确率。

  • Motivation: 现有异常识别方法仅依赖视觉数据,在遮挡、低光照等挑战条件下不可靠,且缺乏大规模同步音频-视觉数据集阻碍了多模态异常识别的发展。
  • Method: AVAR-Net包含四个模块:音频特征提取器(Wav2Vec2)、视频特征提取器(MobileViT)、早期融合策略和时序模式学习网络(MTCN),同时构建了包含3000个真实视频的VAAR数据集。
  • Result: 在VAAR数据集上达到89.29%准确率,在XD-Violence数据集上达到88.56%平均精度,比现有最优方法提升2.8%。
  • Conclusion: AVAR-Net框架具有高效性、有效性和泛化能力,VAAR数据集为多模态异常识别研究提供了有价值的基准。

[71] Challenges, Advances, and Evaluation Metrics in Medical Image Enhancement: A Systematic Literature Review

Chun Wai Chin,Haniza Yazid,Hoi Leong Lee

Main category: cs.CV

TL;DR: 这篇系统综述分析了医学图像增强的关键挑战、最新进展和评估指标,发现低对比度和噪声是最常见问题,MRI和多模态成像研究最多,而组织病理学等专业模态研究不足。传统数学方法占主导,深度学习应用较少。

  • Motivation: 医学图像常受噪声、伪影和低对比度等问题影响,限制了诊断潜力。需要强大的预处理、去噪算法和先进的增强方法来提高图像质量和可解释性。
  • Method: 采用PRISMA方法的系统文献综述,分析了39篇同行评审研究,涵盖不同成像模态和增强方法。
  • Result: 39项研究中,29项使用传统数学方法,9项专注于深度学习技术,1项探索混合方法。图像质量评估方面,18项研究同时使用参考和非参考指标,9项仅用参考指标,12项仅用非参考指标,共引入65个IQA指标。
  • Conclusion: 综述强调了当前局限性、研究空白以及推进医学图像增强的潜在未来方向,指出需要更多关注专业成像模态和深度学习技术的应用。

[72] Towards Adversarial Robustness and Uncertainty Quantification in DINOv2-based Few-Shot Anomaly Detection

Akib Mohammed Khan,Bartosz Krawczyk

Main category: cs.CV

TL;DR: 该论文系统研究了基于DINOv2的少样本异常检测器的对抗攻击脆弱性和不确定性校准问题,提出了攻击检测机制和不确定性量化方法。

  • Motivation: 现有基于DINOv2的异常检测器在对抗攻击鲁棒性和不确定性校准方面缺乏系统研究,这限制了其在安全关键应用中的可信部署。
  • Method: 在AnomalyDINO基础上,通过添加轻量级线性头来生成对抗样本,并使用Platt缩放对异常分数进行后处理校准,实现不确定性估计。
  • Result: 对抗攻击导致F1、AUROC等指标显著下降,校准后的后验概率在对抗样本上具有更高的预测熵,能够有效检测攻击并降低校准误差。
  • Conclusion: 对抗鲁棒性和不确定性量化是异常检测系统可信部署的必要能力,本研究为此建立了评估协议和基准方法。

[73] Local-Global Context-Aware and Structure-Preserving Image Super-Resolution

Sanchar Palit,Subhasis Chaudhuri,Biplab Banerjee

Main category: cs.CV

TL;DR: 提出了一种基于扩散模型的上下文精确图像超分辨率框架,通过局部-全局上下文感知注意力和像素空间分布感知调节机制,在保持结构一致性的同时生成高质量图像。

  • Motivation: 现有基于预训练文本到图像模型的超分辨率方法在处理多样化且严重退化的图像时,往往会产生噪声放大或错误内容生成的问题,需要改进以保持局部和全局像素关系。
  • Method: 使用局部-全局上下文感知注意力机制保持像素关系,并提出像素空间的分布和感知对齐调节机制,从局部细节到全局结构逐步保留和细化结构信息。
  • Result: 在多个超分辨率基准测试上的广泛实验表明,该方法能生成高保真、感知准确的图像重建结果,有效减轻伪影并确保真实细节恢复。
  • Conclusion: 所提出的框架能够生成与原始内容结构一致的高质量图像,在保持感知保真度的同时有效解决了现有方法在处理退化图像时的局限性。

[74] EditCast3D: Single-Frame-Guided 3D Editing with Video Propagation and View Selection

Huaizhi Qu,Ruichen Zhang,Shuqing Luo,Luchao Qi,Zhihao Zhang,Xiaoming Liu,Roni Sengupta,Tianlong Chen

Main category: cs.CV

TL;DR: EditCast3D是一个利用视频生成基础模型将单帧编辑传播到整个数据集,然后进行3D重建的高效3D编辑流水线。

  • Motivation: 现有方法将图像编辑基础模型直接应用于3D编辑工作流存在计算成本高、闭源API限制等问题,需要一种更实用的3D编辑解决方案。
  • Method: 使用视频生成基础模型从单个第一帧传播编辑到整个数据集,采用视图选择策略识别一致且重建友好的视图,并进行前馈重建而无需昂贵细化。
  • Result: 在常用3D编辑数据集上评估,EditCast3D相比最先进的3D编辑基线方法展现出更优的编辑质量和更高的效率。
  • Conclusion: EditCast3D为将基础模型集成到3D编辑流水线提供了一个可扩展且通用的范例。

[75] OmniGaze: Reward-inspired Generalizable Gaze Estimation In The Wild

Hongyu Qu,Jianan Wei,Xiangbo Shu,Yazhou Yao,Wenguan Wang,Jinhui Tang

Main category: cs.CV

TL;DR: OmniGaze是一个半监督3D视线估计框架,利用大规模无标注数据解决领域偏差问题,通过伪标签策略和奖励模型选择高质量数据,在多个数据集上达到最先进性能。

  • Motivation: 当前3D视线估计方法难以泛化到不同数据域,主要因为标注数据稀缺和标注数据多样性不足。
  • Method: 构建多样化的无标注面部图像集,采用伪标签策略,设计奖励模型评估伪标签可靠性,结合视觉嵌入和语义线索计算置信度分数,选择高质量伪标签进行损失计算。
  • Result: 在五个数据集上实现最先进性能,在领域内和跨域设置下均表现优异,在四个未见数据集上展示出强大的零样本泛化能力。
  • Conclusion: OmniGaze通过半监督学习有效解决了3D视线估计的领域偏差问题,可作为可扩展的数据引擎,具有强大的泛化能力。

[76] CanvasMAR: Improving Masked Autoregressive Video Generation With Canvas

Zian Li,Muhan Zhang

Main category: cs.CV

TL;DR: CanvasMAR是一种新颖的视频掩码自回归模型,通过引入画布机制解决慢启动问题和误差累积问题,能够在更少自回归步骤下生成高质量视频。

  • Motivation: 现有视频掩码自回归模型存在两个主要限制:慢启动问题(早期采样阶段缺乏结构化全局先验)以及空间和时间维度上的误差累积问题。
  • Method: 提出画布机制——对下一帧的模糊全局预测,作为掩码生成的起点;引入组合式无分类器引导,联合扩大空间(画布)和时间条件;采用基于噪声的画布增强来提高鲁棒性。
  • Result: 在BAIR和Kinetics-600基准测试中,CanvasMAR以更少的自回归步骤生成高质量视频,在Kinetics-600数据集上表现出色,可与基于扩散的方法相媲美。
  • Conclusion: CanvasMAR通过画布机制有效解决了视频掩码自回归模型的慢启动和误差累积问题,显著提升了视频生成质量和效率。

[77] NTIRE 2025 Challenge on Low Light Image Enhancement: Methods and Results

Xiaoning Liu,Zongwei Wu,Florin-Alexandru Vasluianu,Hailong Yan,Bin Ren,Yulun Zhang,Shuhang Gu,Le Zhang,Ce Zhu,Radu Timofte,Kangbiao Shi,Yixu Feng,Tao Hu,Yu Cao,Peng Wu,Yijin Liang,Yanning Zhang,Qingsen Yan,Han Zhou,Wei Dong,Yan Min,Mohab Kishawy,Jun Chen,Pengpeng Yu,Anjin Park,Seung-Soo Lee,Young-Joon Park,Zixiao Hu,Junyv Liu,Huilin Zhang,Jun Zhang,Fei Wan,Bingxin Xu,Hongzhe Liu,Cheng Xu,Weiguo Pan,Songyin Dai,Xunpeng Yi,Qinglong Yan,Yibing Zhang,Jiayi Ma,Changhui Hu,Kerui Hu,Donghang Jing,Tiesheng Chen,Zhi Jin,Hongjun Wu,Biao Huang,Haitao Ling,Jiahao Wu,Dandan Zhan,G Gyaneshwar Rao,Vijayalaxmi Ashok Aralikatti,Nikhil Akalwadi,Ramesh Ashok Tabib,Uma Mudenagudi,Ruirui Lin,Guoxi Huang,Nantheera Anantrasirichai,Qirui Yang,Alexandru Brateanu,Ciprian Orhei,Cosmin Ancuti,Daniel Feijoo,Juan C. Benito,Álvaro García,Marcos V. Conde,Yang Qin,Raul Balmez,Anas M. Ali,Bilel Benjdira,Wadii Boulila,Tianyi Mao,Huan Zheng,Yanyan Wei,Shengeng Tang,Dan Guo,Zhao Zhang,Sabari Nathan,K Uma,A Sasithradevi,B Sathya Bama,S. Mohamed Mansoor Roomi,Ao Li,Xiangtao Zhang,Zhe Liu,Yijie Tang,Jialong Tang,Zhicheng Fu,Gong Chen,Joe Nasti,John Nicholson,Zeyu Xiao,Zhuoyuan Li,Ashutosh Kulkarni,Prashant W. Patil,Santosh Kumar Vipparthi,Subrahmanyam Murala,Duan Liu,Weile Li,Hangyuan Lu,Rixian Liu,Tengfeng Wang,Jinxing Liang,Chenxin Yu

Main category: cs.CV

TL;DR: NTIRE 2025低光照图像增强挑战赛综述,展示了该领域的最新进展和有效解决方案

  • Motivation: 识别能够在各种挑战性条件下产生更亮、更清晰且视觉吸引力强的图像的有效网络
  • Method: 通过竞赛形式,收集并评估28支团队提交的有效解决方案
  • Result: 共有762名参赛者注册,28支团队提交了有效作品,展示了低光照图像增强领域的显著进展
  • Conclusion: 挑战赛成功推动了低光照图像增强技术的发展,展示了该领域的重要进步

[78] Seeing and Knowing in the Wild: Open-domain Visual Entity Recognition with Large-scale Knowledge Graphs via Contrastive Learning

Hongkuan Zhou,Lavdim Halilaj,Sebastian Monka,Stefan Schmid,Yuqicheng Zhu,Jingcheng Wu,Nadeem Nazer,Steffen Staab

Main category: cs.CV

TL;DR: 提出KnowCoL框架,通过结合图像、文本描述和Wikidata结构化知识,在共享语义空间中实现开放域视觉实体识别,显著提升对未见实体的识别准确率。

  • Motivation: 开放域视觉实体识别面临固定标签集、训练中未见实体、长尾分布等挑战,需要解决有限监督、视觉模糊性和语义消歧等问题。
  • Method: 使用知识引导的对比学习框架,将视觉和文本输入抽象到概念层面,利用实体描述、类型层次和关系上下文来支持零样本实体识别。
  • Result: 在OVEN基准测试中,最小模型相比最先进方法在未见实体上的准确率提升10.5%,且模型尺寸小35倍。
  • Conclusion: 结合视觉、文本和结构化知识能显著提高开放域视觉实体识别性能,特别是对稀有和未见实体的识别效果。

[79] FlashWorld: High-quality 3D Scene Generation within Seconds

Xinyang Li,Tengfei Wang,Zixiao Gu,Shengchuan Zhang,Chunchao Guo,Liujuan Cao

Main category: cs.CV

TL;DR: FlashWorld是一个从单张图像或文本提示快速生成3D场景的生成模型,速度比现有方法快10-100倍,同时具有更优的渲染质量。

  • Motivation: 传统的多视图导向方法生成多视图图像再进行3D重建,而3D导向方法直接生成3D表示但视觉质量较差。需要结合两种方法的优势。
  • Method: 采用双模式预训练和跨模式后训练:首先预训练支持多视图导向和3D导向的双模式多视图扩散模型,然后通过跨模式蒸馏将3D导向模式的分布匹配到高质量的多视图导向模式。
  • Result: 实验证明该方法在保持3D一致性的同时显著提升视觉质量,并减少推理所需的去噪步骤,实现高效高质量的3D场景生成。
  • Conclusion: FlashWorld通过创新的双模式训练框架,成功结合了3D一致性和高质量渲染的优势,实现了快速且高质量的3D场景生成。

[80] Generating healthy counterfactuals with denoising diffusion bridge models

Ana Lawry Aguila,Peirong Liu,Marina Crespo Aguirre,Juan Eugenio Iglesias

Main category: cs.CV

TL;DR: 提出了一种基于去噪扩散桥模型(DDBMs)的新方法,用于从病理图像生成健康的反事实图像,该方法在保持个体解剖特征的同时选择性去除病理区域。

  • Motivation: 从病理图像生成健康反事实图像在医学成像中具有重要意义,可用于异常检测或为健康扫描设计的分析工具。现有方法难以平衡异常去除与个体特征保留。
  • Method: 使用去噪扩散桥模型(DDBMs),不仅以健康图像为初始点,还以对应的合成病理图像为最终点,将病理图像作为结构信息先验来指导生成过程。
  • Result: DDBM在分割和异常检测任务中优于先前提出的扩散模型和全监督方法。
  • Conclusion: DDBM方法能够生成更准确匹配患者解剖结构同时选择性去除病理的健康反事实图像。

[81] Risk-adaptive Activation Steering for Safe Multimodal Large Language Models

Jonghyun Park,Minhyuk Seo,Jonghyun Choi

Main category: cs.CV

TL;DR: 提出Risk-adaptive Activation Steering (RAS)方法,通过强化跨模态注意力到安全关键图像区域来评估查询风险,并自适应引导激活生成安全且有用的响应,无需迭代输出调整。

  • Motivation: 现代AI模型面临的关键挑战是在提供良性查询有用响应的同时拒绝恶意查询。多模态查询中嵌入有害意图使模型易受攻击,传统安全对齐方法成本高,推理时对齐方法存在过度拒绝良性查询和推理速度慢的问题。
  • Method: 重新构建查询以强化跨模态注意力到安全关键图像区域,在查询级别进行准确风险评估,根据评估风险自适应引导激活生成响应,避免迭代输出调整的开销。
  • Result: 在多个多模态安全和效用基准测试中,RAS显著降低了攻击成功率,保持了通用任务性能,并提高了推理速度优于先前的推理时防御方法。
  • Conclusion: RAS方法有效解决了多模态安全对齐问题,在保证安全性的同时维持了模型效用和推理效率,为AI模型安全提供了实用解决方案。

[82] MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Minjung Shin,Hyunin Cho,Sooyeon Go,Jin-Hwa Kim,Youngjung Uh

Main category: cs.CV

TL;DR: 提出了MVCustom框架,解决多视角生成与个性化定制的统一问题,通过特征场表示和深度感知特征渲染等技术实现几何一致性和定制保真度。

  • Motivation: 现有多视角生成模型不支持几何一致的个性化定制,而定制模型缺乏显式视角控制,难以统一这两种能力。
  • Method: 使用特征场表示学习主体身份和几何,结合增强的文本到视频扩散骨干网络,引入深度感知特征渲染和一致性感知潜在补全技术。
  • Result: MVCustom是唯一能同时实现忠实多视角生成和个性化定制的框架。
  • Conclusion: MVCustom成功解决了多视角定制任务,在保持几何一致性的同时实现了高质量的个性化生成。

[83] Circle of Willis Centerline Graphs: A Dataset and Baseline Algorithm

Fabio Musio,Norman Juchler,Kaiyuan Yang,Suprosanna Shit,Chinmay Prabhakar,Bjoern Menze,Sven Hirsch

Main category: cs.CV

TL;DR: 该研究开发了一种基于U-Net骨架化和A*图连接的基础算法,用于从脑部血管图像中提取Willis环中心线和形态特征,在测试集上取得了高精度的拓扑重建和稳健的特征提取结果。

  • Motivation: Willis环是脑部重要的动脉网络,传统骨架化技术难以可靠提取其复杂几何结构的中心线,且公开的中心线数据集稀缺,需要开发更可靠的自动化分析方法。
  • Method: 使用细化骨架化算法从TopCoW数据集提取中心线图,结合U-Net骨架化和A*图连接开发基础算法,评估解剖准确性和特征稳健性。
  • Result: 算法在测试集上拓扑重建精度高(F1=1),节点平均欧氏距离小于一个体素,半径、长度和分叉比等特征相对误差中位数低于5%,皮尔逊相关性高于0.95。
  • Conclusion: 基于学习的骨架化结合图连接能实现解剖学上合理的中心线提取,强调了超越简单体素测量、评估解剖准确性和特征稳健性的重要性,已发布数据集和算法支持进一步研究。

[84] LiFMCR: Dataset and Benchmark for Light Field Multi-Camera Registration

Aymeric Fleith,Julian Zirbel,Daniel Cremers,Niclas Zeller

Main category: cs.CV

TL;DR: 提出了LiFMCR数据集,用于多微透镜阵列光场相机的配准,包含两个高分辨率Raytrix R32光场相机的同步图像序列和Vicon运动捕捉系统记录的高精度6自由度位姿。

  • Motivation: 现有光场数据集局限于单相机设置且缺乏外部真实值,无法满足多相机光场配准方法的严格评估需求。
  • Method: 提供了两种互补的配准方法:基于RANSAC的跨视图点云3D变换估计,以及从单光场图像估计外参6自由度位姿的光场PnP算法,均明确集成了光场相机模型。
  • Result: 实验显示与真实值有很强的对齐效果,支持可靠的多视角光场处理。
  • Conclusion: LiFMCR数据集和配准方法为多相机光场配准提供了可靠的评估基准,实现了准确且可扩展的多相机配准。

[85] Cyclic Self-Supervised Diffusion for Ultra Low-field to High-field MRI Synthesis

Zhenxuan Zhang,Peiyuan Jing,Zi Wang,Ula Briski,Coraline Beitone,Yue Yang,Yinzhe Wu,Fanwen Wang,Liutao Yang,Jiahao Huang,Zhifan Gao,Zhaolin Chen,Kh Tohidul Islam,Guang Yang,Peter J. Lally

Main category: cs.CV

TL;DR: 提出CSS-Diff框架,通过循环自监督扩散模型从低场MRI合成高质量高场MRI图像,在保持解剖结构一致性的同时提升图像质量。

  • Motivation: 低场MRI虽然成本低、安全性高且更易获取,但存在分辨率低和信噪比差的问题。合成高场MRI可以减少对昂贵采集设备的依赖,但现有方法存在临床保真度差距,需要保持解剖保真度并增强细粒度结构细节。
  • Method: 提出循环自监督扩散(CSS-Diff)框架,在循环一致性约束下重新制定基于扩散的合成方法。包含切片间差距感知网络通过对比学习对齐切片间不一致性,以及局部结构校正网络通过掩码和扰动补丁的自重建增强局部特征恢复。
  • Result: 在跨场合成任务中实现最先进性能:PSNR 31.80±2.70 dB,SSIM 0.943±0.102,LPIPS 0.0864±0.0689。相比原始低场MRI,左脑白质误差从12.1%降至2.1%,皮层误差从4.2%降至3.7%。
  • Conclusion: CSS-Diff能够合成在定量上可靠且解剖结构一致的图像,有效解决了低场到高场MRI合成的临床保真度问题。

[86] Multi-Scale High-Resolution Logarithmic Grapher Module for Efficient Vision GNNs

Mustafa Munir,Alex Zhang,Radu Marculescu

Main category: cs.CV

TL;DR: 提出LogViG模型,通过新的对数可扩展图构建方法(LSGC)来改进视觉图神经网络,在图像分类和语义分割任务中超越了现有ViG、CNN和ViT架构的性能。

  • Motivation: 现有的视觉图神经网络(ViG)在图构建方法上存在局限性,如KNN方法在大图像上计算昂贵,SVGA方法的固定步长尺度可能导致过度压缩和长距离连接缺失。
  • Method: 提出对数可扩展图构建(LSGC)方法限制长距离连接数量,构建LogViG混合CNN-GNN模型,并引入高分辨率分支实现多尺度高分辨率视觉GNN网络。
  • Result: LogViG在准确率、GMACs和参数数量方面均优于现有架构。最小的Ti-LogViG模型在ImageNet-1K上达到79.9%的平均top-1准确率,比Vision GNN高1.7%,同时参数减少24.3%,GMACs减少35.3%。
  • Conclusion: 通过LSGC方法在ViG图构建中利用长距离连接可以超越当前最先进ViG的性能。

[87] UniCalli: A Unified Diffusion Framework for Column-Level Generation and Recognition of Chinese Calligraphy

Tianshuo Xu,Kai Wang,Zhifei Chen,Leyi Wu,Tianshui Wen,Fei Chao,Ying-Cong Chen

Main category: cs.CV

TL;DR: UniCalli是一个统一的扩散框架,用于中文书法的列级识别和生成,通过联合训练实现字符结构保持与风格布局先验的协同提升。

  • Motivation: 现有方法要么生成高质量单字但忽略页面级美学(如连笔和间距),要么尝试页面合成但牺牲书法正确性,计算复制中文书法仍具挑战性。
  • Method: 采用非对称加噪和栅格化框图提供空间先验,在合成、标注和未标注数据的混合数据集上训练,联合训练识别和生成任务以相互促进。
  • Result: 模型在生成质量上达到最先进水平,具有优越的连笔连续性和布局保真度,同时识别能力更强,成功扩展到甲骨文和埃及象形文字等其他古文字。
  • Conclusion: UniCalli框架通过识别与生成的协同训练,在有限数据情况下实现了概念级抽象,显著提升了书法计算复制的性能。

[88] InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue

Wenwen Tong,Hewei Guo,Dongchuan Ran,Jiangnan Chen,Jiefan Lu,Kaibin Wang,Keqiang Li,Xiaoxu Zhu,Jiakui Li,Kehan Li,Xueheng Li,Lumin Li,Chenxu Guo,Jiasheng Zhou,Jiandong Chen,Xianye Wu,Jiahao Wang,Silei Wu,Lei Chen,Hanming Deng,Yuxuan Song,Dinghao Zhou,Guiping Zhong,Ken Zheng,Shiyin Kang,Lewei Lu

Main category: cs.CV

TL;DR: InteractiveOmni是一个开源的多模态大语言模型,参数规模4B-8B,集成了视觉编码器、音频编码器、大语言模型和语音解码器,支持多轮音视频交互和语音生成。

  • Motivation: 开发轻量级但功能全面的多模态模型,提供完整的音视频理解和语音生成能力,推动下一代智能交互系统的发展。
  • Method: 采用多阶段训练策略:预训练进行多模态理解,后训练加入语音对话和音视频交互;精心构建多轮训练数据集以增强长期对话能力;建立多模态多轮记忆基准和语音交互基准进行评估。
  • Result: 在图像、音频、视频理解和语音生成任务上达到同类模型的最先进水平;InteractiveOmni-4B在通用基准上与Qwen2.5-Omni-7B相当,仅用50%模型大小就能保留InteractiveOmni-8B 97%的性能。
  • Conclusion: InteractiveOmni为下一代智能交互系统提供了一个可访问的开源基础,在长期记忆能力方面表现突出,显著优于领先的开源模型。

[89] RECODE: Reasoning Through Code Generation for Visual Question Answering

Junhong Shen,Mu Cai,Bo Hu,Ameet Talwalkar,David A Ross,Cordelia Schmid,Alireza Fathi

Main category: cs.CV

TL;DR: RECODE是一个基于代码反渲染的视觉推理框架,通过将图像转换为可执行代码来实现可验证的多模态推理,显著提升了在图表和几何图形等结构化视觉任务上的性能。

  • Motivation: 多模态大语言模型在结构化视觉推理(如图表、图表)方面存在精度问题,因为基于像素的感知缺乏验证机制。
  • Method: 提出RECODE框架:首先生成多个候选程序来重现输入图像,然后使用批评器选择最忠实的重建,并迭代优化代码,将模糊的感知任务转化为可验证的符号问题。
  • Result: 在CharXiv、ChartQA和Geometry3K等多个视觉推理基准测试中,RECODE显著优于不使用代码或仅使用代码进行辅助线绘制或裁剪的方法。
  • Conclusion: 将视觉感知基于可执行代码为更准确和可验证的多模态推理提供了新途径。

[90] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

Kai Zou,Ziqi Huang,Yuhao Dong,Shulin Tian,Dian Zheng,Hongbo Liu,Jingwen He,Bin Liu,Yu Qiao,Ziwei Liu

Main category: cs.CV

TL;DR: Uni-MMMU是一个多模态基准测试,系统性地评估视觉理解和生成能力的双向协同作用,涵盖科学、编程、数学等八个推理领域。

  • Motivation: 现有基准测试要么孤立地评估视觉理解和生成能力,要么忽略了这两种能力内在耦合的任务,无法真正检验统一多模态模型的集成能力。
  • Method: 设计了包含可验证中间推理步骤、独特真实值和可重复评分协议的基准测试,每个任务都是双向耦合的,要求模型利用概念理解指导视觉合成,或利用生成作为分析推理的认知支架。
  • Result: 通过对最先进的统一模型、仅生成模型和仅理解模型的广泛评估,揭示了显著的性能差异和跨模态依赖性。
  • Conclusion: Uni-MMMU为推进统一多模态模型提供了可靠基础,揭示了这些能力何时以及如何相互增强的新见解。

[91] Scaling Vision Transformers for Functional MRI with Flat Maps

Connor Lane,Daniel Z. Kaplan,Tanishq Mathew Abraham,Paul S. Scotti

Main category: cs.CV

TL;DR: 将4D fMRI数据转换为2D活动平面图视频,使用时空掩码自编码器训练Vision Transformers,发现性能随数据量增长遵循幂律缩放,在下游分类任务中表现出色。

  • Motivation: 解决如何将现代深度学习架构适配到fMRI数据的问题,弥合fMRI与自然图像之间的模态差距。
  • Method: 将4D体积fMRI数据转换为2D fMRI活动平面图视频,使用时空掩码自编码器框架在Human Connectome Project的2.3K小时fMRI数据上训练Vision Transformers。
  • Result: 掩码fMRI建模性能随数据集大小按严格幂律缩放规律提升,下游分类基准显示模型学习到丰富表征,支持跨被试的细粒度状态解码和跨脑状态变化的被试特异性特征解码。
  • Conclusion: 这项工作是为fMRI数据构建基础模型的开放科学项目的一部分,代码和数据集已开源。

[92] Adaptive Visual Conditioning for Semantic Consistency in Diffusion-Based Story Continuation

Seyed Mohammad Mousavi,Morteza Analoui

Main category: cs.CV

TL;DR: 提出了AVC框架,用于基于扩散模型的故事续写,通过自适应视觉条件调节来平衡历史图像信息与当前文本输入的关系。

  • Motivation: 解决故事续写中如何有效利用先前视觉上下文,同时确保与当前文本输入的语义对齐这一核心挑战。
  • Method: 使用CLIP模型检索最相关的历史图像,当没有足够相关图像时,自适应限制先前视觉信息在扩散过程中的影响,并利用大语言模型重新标注数据集以提升数据质量。
  • Result: 定量结果和人工评估显示,AVC在连贯性、语义一致性和视觉保真度方面优于强基线方法,特别是在先前视觉与当前输入冲突的挑战性场景中表现优异。
  • Conclusion: AVC框架能够有效利用视觉上下文,同时在避免误导信息注入方面表现出色,为故事续写任务提供了有效的解决方案。

[93] NoisePrints: Distortion-Free Watermarks for Authorship in Private Diffusion Models

Nir Goren,Oren Katzir,Abhinav Nakarmi,Eyal Ronen,Mahmood Sharif,Or Patashnik

Main category: cs.CV

TL;DR: NoisePrints是一种轻量级水印方案,利用扩散过程的随机种子作为作者证明,无需修改生成过程或访问模型权重

  • Motivation: 随着扩散模型在视觉内容生成中的广泛应用,证明作者身份和保护版权变得至关重要,特别是当模型所有者保持模型私有时,需要第三方验证方案
  • Method: 通过将哈希函数集成到噪声采样过程中,利用初始噪声与生成视觉内容的高度相关性,使用随机种子作为水印,并通过密码学零知识证明保护种子隐私
  • Result: 实验验证了NoisePrints在多个最先进的图像和视频扩散模型上的有效性,仅需种子和输出即可进行高效验证,无需模型权重
  • Conclusion: 该方法提供了一种实用且可扩展的版权保护方案,能够抵抗各种操作攻击,同时保持验证的轻量级特性

[94] Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

Yi Zhang,Bolin Ni,Xin-Sheng Chen,Heng-Rui Zhang,Yongming Rao,Houwen Peng,Qinglin Lu,Han Hu,Meng-Hao Guo,Shi-Min Hu

Main category: cs.CV

TL;DR: 提出了Honey-Data-15M数据集、HoneyPipe数据整理流水线和DataStudio框架,通过提升数据质量和增加复杂推理数据,训练出的Bee-8B模型在完全开放MLLMs中达到SOTA水平。

  • Motivation: 当前完全开放的多模态大语言模型落后于专有模型,主要原因是监督微调数据质量存在显著差距,现有开源数据集存在广泛噪声且缺乏复杂推理数据。
  • Method: 1) 引入Honey-Data-15M数据集,包含约1500万QA对,采用多重清洗技术并应用新颖的双层CoT增强策略;2) 开发HoneyPipe数据整理流水线和DataStudio框架;3) 在数据集上训练Bee-8B模型。
  • Result: Bee-8B在完全开放MLLMs中建立了新的SOTA,性能与半开放模型如InternVL3.5-8B相当甚至在某些方面超越。
  • Conclusion: 专注于数据质量的原则性方法是开发具有竞争力的完全开放MLLMs的关键途径,为社区提供了包括数据集、工具链、训练配方和模型权重在内的完整资源套件。

[95] Reasoning in Space via Grounding in the World

Yiming Chen,Zekun Qi,Wenyao Zhang,Xin Jin,Li Zhang,Peidong Liu

Main category: cs.CV

TL;DR: 提出了GS-Reasoner模型,通过双路径池化机制构建统一的3D表示,首次实现了无需外部模块的自回归3D视觉定位,并显著提升了空间推理能力。

  • Motivation: 现有3D LLM缺乏能够同时捕获语义和几何信息的统一3D表示,导致定位性能差或过度依赖外部模块,阻碍了定位与空间推理的无缝集成。
  • Method: 提出双路径池化机制,将几何特征与语义和位置线索紧密对齐,构建基于图像块的统一3D表示,不增加输入token数量。
  • Result: GS-Reasoner在3D视觉定位上取得显著成果,无需外部模块即可实现自回归定位,性能与最先进模型相当,并显著提升了空间推理能力。
  • Conclusion: GS-Reasoner建立了统一且自包含的3D空间推理框架,通过GCoT数据集进一步桥接定位与空间推理,实现了最先进的性能。

[96] Trace Anything: Representing Any Video in 4D via Trajectory Fields

Xinhang Liu,Yuxi Xiao,Donny Y. Chen,Jiashi Feng,Yu-Wing Tai,Chi-Keung Tang,Bingyi Kang

Main category: cs.CV

TL;DR: 提出Trajectory Field表示方法,将视频表示为每个像素的连续3D轨迹,并开发Trace Anything神经网络一次性预测整个轨迹场,在轨迹估计和点跟踪任务中表现优异。

  • Motivation: 视频中的像素随时间形成连续3D轨迹,是动态的基本单元。基于此原理,需要开发能够有效表示和预测时空动态的方法。
  • Method: 提出Trajectory Field表示法,将视频映射为每个像素的连续3D轨迹函数。开发Trace Anything神经网络,通过单次前向传播预测整个轨迹场,为每个像素预测参数化轨迹的控制点。
  • Result: 在轨迹场估计新基准上达到最先进性能,在点跟踪基准上表现竞争力;效率显著提升,无需迭代优化;展现出目标条件操作、运动预测和时空融合等涌现能力。
  • Conclusion: Trajectory Field是有效的视频表示方法,Trace Anything模型能够高效准确地预测轨迹场,并具备多种应用潜力。

[97] Generative Universal Verifier as Multimodal Meta-Reasoner

Xinchen Zhang,Xiaoying Zhang,Youbin Wu,Yanbin Cao,Renrui Zhang,Ruihang Chu,Ling Yang,Yujiu Yang

Main category: cs.CV

TL;DR: 提出了Generative Universal Verifier概念,构建了ViVerBench基准,训练了OmniVerifier-7B通用视觉验证器,并开发了OmniVerifier-TTS测试时扩展范式,显著提升了多模态推理的视觉验证能力。

  • Motivation: 现有视觉语言模型在可靠视觉验证方面存在显著差距,无法达到人类水平的视觉结果验证能力,需要开发能够进行反思和细化的通用验证器。
  • Method: 构建ViVerBench基准评估16类视觉任务;设计自动化流水线构建大规模视觉验证数据并训练OmniVerifier-7B;提出OmniVerifier-TTS序列测试时扩展范式进行迭代优化。
  • Result: OmniVerifier-7B在ViVerBench上提升8.3分;OmniVerifier-TTS在T2I-ReasonBench和GenEval++上分别提升3.7和4.3分,优于现有并行测试时扩展方法。
  • Conclusion: 通过赋予多模态推理可靠的视觉验证能力,OmniVerifier推动了生成过程中的可靠反思和可扩展测试时细化,向更可信可控的下一代推理系统迈进。

[98] VisCoP: Visual Probing for Video Domain Adaptation of Vision Language Models

Dominick Reilly,Manish Kumar Govind,Le Xue,Srijan Das

Main category: cs.CV

TL;DR: VisCoP通过向视觉编码器添加可学习的视觉探针,实现大视觉语言模型的高效领域自适应,在保持源域知识的同时提升目标域性能。

  • Motivation: 现有领域自适应方法在微调VLM不同组件时,往往导致有限的领域特定特征学习或灾难性遗忘先前能力。
  • Method: 引入视觉上下文探测(VisCoP),在VLM视觉编码器中添加一组紧凑的可学习视觉探针,以最小化对预训练参数的修改。
  • Result: 在跨视角、跨模态和跨任务三个挑战性领域自适应设置中,VisCoP始终优于现有适应策略。
  • Conclusion: VisCoP能够实现高效的领域特定适应,在目标域获得优越性能的同时有效保留源域知识。

[99] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning

Sihui Ji,Xi Chen,Xin Tao,Pengfei Wan,Hengshuang Zhao

Main category: cs.CV

TL;DR: PhysMaster通过物理表征学习和强化学习增强视频生成模型的物理感知能力,使其生成符合物理定律的视频

  • Motivation: 当前视频生成模型虽然能生成视觉逼真的视频,但往往违反物理定律,限制了其作为'世界模型'的能力
  • Method: 基于图像到视频任务,设计PhysEncoder从输入图像编码物理信息作为额外条件,并应用基于人类反馈的强化学习来优化物理表征
  • Result: PhysMaster在简单代理任务上证明了其物理感知能力,并能泛化到广泛的物理场景
  • Conclusion: PhysMaster通过强化学习范式中的表征学习统一了各种物理过程的解决方案,可作为物理感知视频生成的通用插件方案

physics.med-ph

[100] Steerable Conditional Diffusion for Domain Adaptation in PET Image Reconstruction

George Webber,Alexander Hammers,Andrew P. King,Andrew J. Reader

Main category: physics.med-ph

TL;DR: 提出了一种结合可导向条件扩散与似然调度扩散框架的方法,通过低秩适应技术实时调整扩散模型先验,以解决PET图像重建中的域偏移问题。

  • Motivation: 扩散模型在PET图像重建中表现出色,但域偏移问题限制了其临床应用。当模型在特定解剖结构、采集协议或病理条件下训练时,在分布外数据上可能产生伪影。
  • Method: 将可导向条件扩散与PET-LiSch框架结合,在重建过程中使用低秩适应技术实时对齐扩散模型先验与目标域数据。
  • Result: 在真实合成2D脑部模型上的实验表明,该方法能有效抑制域偏移下的幻觉伪影,在定性和定量评估上都优于OSEM和基线扩散模型。
  • Conclusion: 该方法证明了可导向先验能够缓解基于扩散的PET重建中的域偏移问题,为在真实数据上的进一步评估提供了概念验证。

[101] An efficient approach with theoretical guarantees to simultaneously reconstruct activity and attenuation sinogram for TOF-PET

Liyang Hu,Chong Chen

Main category: physics.med-ph

TL;DR: 提出了一种仅从飞行时间PET发射数据同时重建活性和衰减正弦图的新数学模型,无需额外CT或MRI扫描,解决了传统方法中的辐射剂量、扫描时间和运动伪影问题。

  • Motivation: 传统PET成像需要基于CT或MRI的衰减校正,这会带来额外辐射剂量、延长扫描时间,并因运动导致配准误差。本文旨在仅从TOF-PET发射数据实现自主衰减校正。
  • Method: 基于最大似然估计,利用衰减校正因子的指数形式特性,结合掩膜区域内总活度约束,构建同时重建活性和衰减正弦图的数学模型,并设计交替更新算法求解。
  • Result: 数值实验表明该方法具有数值收敛性、对噪声鲁棒,在精度和效率上优于现有先进方法,能够实现自主衰减校正。
  • Conclusion: 提出的数学模型和算法能够仅从TOF-PET发射数据同时准确重建活性和衰减信息,证明了方法的适定性、收敛性和实际应用价值。

cs.LG

[102] UrbanFusion: Stochastic Multimodal Fusion for Contrastive Learning of Robust Spatial Representations

Dominik J. Mühlematter,Lin Che,Ye Hong,Martin Raubal,Nina Wiedemann

Main category: cs.LG

TL;DR: UrbanFusion是一个地理基础模型,通过随机多模态融合技术整合街景图像、遥感数据、地图和POI等多种地理空间数据,在41个任务的全球评估中表现出优异的泛化能力和预测性能。

  • Motivation: 当前方法主要使用任务特定模型,而现有的空间表示基础模型仅支持有限模态且缺乏多模态融合能力,需要开发能有效整合多种地理空间数据的通用模型。
  • Method: 使用模态特定编码器处理不同输入类型,通过基于Transformer的融合模块学习统一表示,支持在预训练和推理期间灵活使用任何可用模态子集。
  • Result: 在56个城市的41个任务评估中,UrbanFusion在位置编码上优于现有基础模型,支持推理时的多模态输入,并能良好泛化到训练未见区域。
  • Conclusion: UrbanFusion通过随机多模态融合框架实现了地理空间数据的有效整合,具有广泛的适用性和优异的泛化性能。

cs.IR

[103] Improving Visual Recommendation on E-commerce Platforms Using Vision-Language Models

Yuki Yada,Sho Akiyama,Ryo Watanabe,Yuta Ueno,Yusuke Shido,Andre Rusli

Main category: cs.IR

TL;DR: 本研究在Mercari电商平台应用视觉语言模型进行商品推荐,通过微调SigLIP模型生成商品嵌入,在离线评估中nDCG@5提升9.1%,在线A/B测试中点击率提升50%、转化率提升14%。

  • Motivation: 在拥有数千万月活用户的大型电商平台上,推荐视觉相似商品对于帮助用户高效发现符合偏好的商品至关重要。
  • Method: 使用Mercari三个月内收集的100万商品图片-标题对微调SigLIP视觉语言模型,开发用于推荐系统的图像编码器生成商品嵌入。
  • Result: 离线分析:nDCG@5相比基线提升9.1%;在线A/B测试:点击率提升50%,转化率提升14%。
  • Conclusion: 基于视觉语言模型的编码器在电商商品推荐中具有显著效果,为开发基于视觉相似性的推荐系统提供了实用见解。

cs.RO

[104] Learning to Grasp Anything by Playing with Random Toys

Dantong Niu,Yuvan Sharma,Baifeng Shi,Rachel Ding,Matteo Gioia,Haoru Xue,Henry Tsai,Konstantinos Kallidromitis,Anirudh Pai,Shankar Shastry,Trevor Darrell,Jitendra Malik,Roei Herzig

Main category: cs.RO

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[105] UNCAP: Uncertainty-Guided Planning Using Natural Language Communication for Cooperative Autonomous Vehicles

Neel P. Bhatt,Po-han Li,Kushagra Gupta,Rohan Siva,Daniel Milan,Alexander T. Hogue,Sandeep P. Chinchali,David Fridovich-Keil,Zhangyang Wang,Ufuk Topcu

Main category: cs.RO

TL;DR: UNCAP是一个基于视觉语言模型的协同自动驾驶规划方法,通过轻量级自然语言消息进行车辆间通信,并显式考虑感知不确定性,实现高效安全的协同规划。

  • Motivation: 现有方法要么依赖传输高带宽原始传感器数据,要么忽略共享数据中的感知和规划不确定性,导致系统既不可扩展也不安全。需要一种既能高效通信又能处理不确定性的方法。
  • Method: 采用两阶段通信协议:首先识别最相关的车辆子集进行信息交换,然后选中的车辆传输量化表达感知不确定性的自然语言消息。通过选择性融合最大化互信息的消息,只集成最相关信号到决策中。
  • Result: 实验显示通信带宽减少63%,驾驶安全评分提高31%,决策不确定性降低61%,在接近碰撞事件中碰撞距离裕度增加四倍。
  • Conclusion: UNCAP通过不确定性引导的自然语言通信策略,显著提高了协同自动驾驶的可扩展性和可靠性,在减少通信开销的同时提升了安全性。

[106] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

Senyu Fei,Siyin Wang,Junhao Shi,Zihao Dai,Jikun Cai,Pengfang Qian,Li Ji,Xinzhe He,Shiduo Zhang,Zhaoye Fei,Jinlan Fu,Jingjing Gong,Xipeng Qiu

Main category: cs.RO

TL;DR: 该论文对视觉-语言-动作(VLA)模型进行了系统性脆弱性分析,发现在七个维度(物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理和传感器噪声)的轻微扰动下,模型性能从95%大幅下降到30%以下,暴露出模型在基准测试高分下的实际脆弱性。

  • Motivation: 尽管VLA模型在机器人操作基准测试中报告了令人印象深刻的成功率,但这些结果可能掩盖了鲁棒性方面的根本弱点。作者旨在通过系统性扰动分析揭示模型在真实环境变化下的实际可靠性。
  • Method: 在七个维度上引入受控扰动:物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理和传感器噪声,对多个最先进的模型进行全面分析。
  • Result: 模型表现出对扰动因素的极端敏感性,特别是相机视角和机器人初始状态,性能从95%下降到30%以下。令人惊讶的是,模型对语言变化不敏感,进一步实验显示模型倾向于完全忽略语言指令。
  • Conclusion: 研究结果挑战了高基准分数等同于真实能力的假设,强调需要评估在真实变化下的可靠性,而不仅仅是基准测试性能。

[107] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

Xinyi Chen,Yilun Chen,Yanwei Fu,Ning Gao,Jiaya Jia,Weiyang Jin,Hao Li,Yao Mu,Jiangmiao Pang,Yu Qiao,Yang Tian,Bin Wang,Bolun Wang,Fangjing Wang,Hanqing Wang,Tai Wang,Ziqin Wang,Xueyuan Wei,Chao Wu,Shuai Yang,Jinhui Ye,Junqiu Yu,Jia Zeng,Jingjing Zhang,Jinyu Zhang,Shi Zhang,Feng Zheng,Bowen Zhou,Yangkun Zhu

Main category: cs.RO

TL;DR: InternVLA-M1是一个统一的空间定位和机器人控制框架,通过空间引导的视觉-语言-动作训练,将空间定位作为指令和机器人动作之间的关键桥梁,显著提升了机器人的指令跟随能力。

  • Motivation: 推动指令跟随机器人向可扩展、通用智能方向发展,解决当前机器人在空间推理和动作执行之间的脱节问题。
  • Method: 采用两阶段流水线:1)空间定位预训练,在230万空间推理数据上确定"在哪里行动";2)空间引导动作后训练,通过即插即用的空间提示决定"如何行动"。
  • Result: 在多个基准测试中显著优于无空间引导的变体:SimplerEnv Google Robot +14.6%,WidowX +17%,LIBERO Franka +4.3%;在真实世界聚类拾取任务中提升7.3%;在未见物体和新型配置上达到+20.6%提升。
  • Conclusion: 空间引导训练是构建可扩展和鲁棒的通用机器人的统一原则,在长时程推理密集型场景中超越现有工作超过10%。

cs.CL

[108] VLURes: Benchmarking VLM Visual and Linguistic Understanding in Low-Resource Languages

Jesse Atuhurra,Iqra Ali,Tomoya Iwakura,Hidetaka Kamigaito,Tatsuya Hiraoka

Main category: cs.CL

TL;DR: 提出了一个多语言基准VLURes,用于评估视觉语言模型在四种语言(英语、日语、斯瓦希里语、乌尔都语)下的细粒度视觉和语言理解能力,包含8个任务和1个无关性任务。

  • Motivation: 当前视觉语言模型的评估主要局限于英语为中心的基准测试,且多为短文本,需要开发多语言、长文本的评估基准来测试模型的细粒度能力。
  • Method: 从目标语言的网络资源中收集数据集,涵盖10个不同的图像类别和丰富的文本上下文,通过自动评估和母语者评估来测试模型生成响应和推理的能力。
  • Result: 评估了10个视觉语言模型,表现最佳的GPT-4o总体准确率达到90.8%,但仍比人类表现低6.7%,开源模型的差距更大。
  • Conclusion: VLURes基准在开发能够处理多模态视觉推理的智能代理方面发挥着关键作用,揭示了模型在不同语言和任务上的性能差异。

[109] NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

Run Luo,Xiaobo Xia,Lu Wang,Longze Chen,Renke Shan,Jing Luo,Min Yang,Tat-Seng Chua

Main category: cs.CL

TL;DR: NExT-OMNI是一个开源的全模态基础模型,通过离散流范式实现统一建模,支持任意模态间的理解和生成,在多轮多模态交互和跨模态检索方面优于现有统一模型。

  • Motivation: 现有多模态模型受限于自回归架构,无法平衡理解和生成能力,且混合和解耦策略的设计冗余,限制了在更广泛场景中的应用。
  • Method: 利用度量诱导概率路径和动力学最优速度的离散流范式,通过简洁的统一表示而非任务解耦设计,在大规模交错文本、图像、视频和音频数据上进行训练。
  • Result: 在多模态生成和理解基准测试中表现优异,在多轮多模态交互和跨模态检索方面优于先前的统一模型。
  • Conclusion: NExT-OMNI作为下一代多模态基础模型具有架构优势,作者发布了训练细节、数据协议以及代码和模型检查点以推动进一步研究。

[110] The Mechanistic Emergence of Symbol Grounding in Language Models

Shuyu Wu,Ziqiao Ma,Xiaoxi Luo,Yidong Huang,Josue Torres-Fonseca,Freda Shi,Joyce Chai

Main category: cs.CL

TL;DR: 本文通过机制和因果分析,系统追踪了符号接地在语言模型内部计算中的出现位置和机制,发现接地现象集中在中间层计算,通过注意力头聚合环境基础来支持语言形式预测。

  • Motivation: 探索大规模训练的语言模型中符号接地的具体出现位置和驱动机制,这一问题目前尚未得到充分研究。
  • Method: 引入受控评估框架,通过机制和因果分析系统追踪符号接地在内部计算中的出现,并在多模态对话和不同架构中进行验证。
  • Result: 接地现象集中在中间层计算,通过注意力头聚合环境基础实现,在Transformer和状态空间模型中可复现,但在单向LSTM中未出现。
  • Conclusion: 提供了行为和机制证据表明符号接地可以在语言模型中自发出现,对预测和控制生成可靠性具有实际意义。

eess.IV

[111] Dedelayed: Deleting remote inference delay via on-device correction

Dan Jacobellis,Mateen Ulhaq,Fabien Racapé,Hyomin Choi,Neeraja J. Yadwadkar

Main category: eess.IV

TL;DR: Dedelayed是一种延迟校正方法,通过轻量级本地模型处理当前帧并融合远程模型从过去帧计算的特征,来解决远程推理中的网络延迟问题,实现实时低延迟输出。

  • Motivation: 远程推理允许轻量设备利用强大云模型,但网络延迟导致预测过时,不适合实时任务。需要解决延迟问题以保持与当前世界状态的同步。
  • Method: 使用轻量级本地模型处理当前帧,并融合远程重型模型从过去帧计算的特征,实现延迟校正的分离推理。
  • Result: 在BDD100K驾驶数据集上,Dedelayed在超过33ms的所有实际网络延迟下,都比本地或远程基线提高了语义分割精度。在100ms往返延迟下,相比纯本地推理提高6.4 mIoU,相比远程推理提高9.8 mIoU。
  • Conclusion: 该方法在较长延迟和高运动场景下优势更明显,延迟校正的分离推理能更有效地维持精度,为必须与当前世界状态保持一致的实时任务提供明显优势。