Skip to content
每日arXiv - 2025年10月23日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Dimensionality Reduction for Remote Sensing Data Analysis: A Systematic Review of Methods and Applications

Nathan Mankovich,Kai-Hendrik Cohrs,Homer Durand,Vasileios Sitokonstantinou,Tristan Williams,Gustau Camps-Valls

Main category: cs.CV

TL;DR: 本文综述了高维遥感数据中降维技术的应用,重点介绍了特征提取方法如何解决数据稀疏性、效率低下和维度灾难等问题,并为遥感数据价值链中的降维应用提供指导手册。

  • Motivation: 遥感数据量快速增长,但高维度数据存在稀疏性、效率低下和维度灾难等问题,限制了机器学习模型的有效性。需要自动信息提取技术来解决社会、经济和环境挑战。
  • Method: 采用降维技术,特别是特征提取方法,在保持数据关键属性的同时降低复杂度,支持数据压缩、清洗、融合、可视化、异常检测和预测等任务。
  • Result: 提供了在遥感数据价值链中应用降维技术的指导手册,识别了未充分探索的降维算法及其在未来研究中的应用机会。
  • Conclusion: 降维技术对于处理高维遥感数据至关重要,能够有效解决数据复杂度问题并提升各种遥感应用任务的性能,未来研究应关注更多降维算法的探索和应用。

[2] Ninja Codes: Neurally Generated Fiducial Markers for Stealthy 6-DoF Tracking

Yuichiro Takeuchi,Yusuke Imoto,Shunya Kato

Main category: cs.CV

TL;DR: Ninja Codes是一种神经生成的基准标记,能够自然地融入真实环境,通过视觉上微小的修改将任意图像转换为隐蔽的6自由度位置跟踪标记。

  • Motivation: 传统基准标记在外观上过于显眼,在美学和其他原因下不适用,需要一种能够隐蔽地融入环境的跟踪解决方案。
  • Method: 使用受深度隐写术启发的端到端流程,联合训练一系列网络模块来创建和检测Ninja Codes,通过编码器网络对图像进行视觉上微小的修改。
  • Result: 实验表明Ninja Codes在常见室内光照条件下能够提供可靠的位置跟踪,同时成功隐藏在多样环境纹理中,可使用普通彩色打印机和RGB相机检测。
  • Conclusion: Ninja Codes在传统基准标记因外观显眼而不适用的场景中具有特殊价值,为增强现实、机器人技术等应用提供隐蔽的位置跟踪解决方案。

[3] Robust Driving QA through Metadata-Grounded Context and Task-Specific Prompts

Seungjun Yu,Junsung Park,Youngsun Lim,Hyunjung Shim

Main category: cs.CV

TL;DR: 提出两阶段视觉语言问答系统,通过精心设计的提示和上下文增强,显著提升自动驾驶场景下的感知、预测和规划问答性能

  • Motivation: 解决自动驾驶中高层级感知、预测和规划问题的视觉语言问答需求,利用预训练视觉语言模型但需要更好的提示工程和上下文信息
  • Method: 两阶段方法:第一阶段使用大型多模态LLM,结合六摄像头输入、历史时间窗口和思维链提示;第二阶段增强场景元数据和任务特定指令,采用自一致性集成提升可靠性
  • Result: 在驾驶QA基准测试中显著超越基线模型,第一阶段准确率65.1%,自一致性提升至66.85%,第二阶段达到67.37%,在严重视觉损坏下仍保持96%准确率
  • Conclusion: 精心设计的提示和上下文基础可以大幅增强预训练视觉语言模型在高层级驾驶问答中的表现

[4] Δt-Mamba3D: A Time-Aware Spatio-Temporal State-Space Model for Breast Cancer Risk Prediction

Zhengbo Zhou,Dooman Arefan,Margarita Zuley,Shandong Wu

Main category: cs.CV

TL;DR: 提出了Time-Aware Δt-Mamba3D模型,用于处理不规则时间间隔的序列医学图像分析,在乳腺癌风险预测任务中表现出色。

  • Motivation: 当前方法无法充分利用序列医学图像中的空间和时间信息,要么压缩空间信息,要么使用计算效率低且不兼容非均匀时间步长的时空模型。
  • Method: 采用状态空间架构,通过连续时间选择性扫描机制显式整合检查之间的真实时间差,并配备多尺度3D邻域融合模块来捕获时空关系。
  • Result: 在乳腺癌风险预测基准测试中,验证c-index提高2-5个百分点,1-5年AUC得分均优于现有的循环、transformer和状态空间模型变体。
  • Conclusion: 该模型能够高效处理长而复杂的患者筛查历史,为纵向图像分析提供了新框架。

[5] MoAlign: Motion-Centric Representation Alignment for Video Diffusion Models

Aritra Bhowmik,Denis Korzhenkov,Cees G. M. Snoek,Amirhossein Habibian,Mohsen Ghafoorian

Main category: cs.CV

TL;DR: 提出了一种运动中心对齐框架,通过从预训练视频编码器中学习解耦的运动子空间,并将其与文本到视频扩散模型的特征对齐,以生成更连贯和物理合理的视频运动。

  • Motivation: 现有的文本到视频扩散模型在生成时间连贯和物理合理的运动方面存在不足,主要原因是模型对复杂运动的理解不够。现有的视频编码器特征将视频外观和动态混合在一起,限制了特征对齐的效果。
  • Method: 提出运动中心对齐框架:1)从预训练视频编码器中学习解耦的运动子空间;2)优化该子空间以预测真实光流,确保其捕捉真实运动动态;3)将文本到视频扩散模型的潜在特征与该新子空间对齐。
  • Result: 在VideoPhy、VideoPhy2、VBench和VBench-2.0等基准测试以及用户研究中,该方法提升了最先进视频扩散模型的物理常识,同时保持了对文本提示的遵循。
  • Conclusion: 该方法通过解耦运动子空间和对齐策略,有效提升了视频生成模型的运动连贯性和物理合理性,是解决文本到视频生成中运动质量问题的一个有效方案。

[6] PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Amith Ananthram,Elias Stengel-Eskin,Lorena A. Bradford,Julia Demarest,Adam Purvis,Keith Krut,Robert Stein,Rina Elster Pantalony,Mohit Bansal,Kathleen McKeown

Main category: cs.CV

TL;DR: PoSh是一个用于详细图像描述评估的新指标,使用场景图作为结构化评分标准来指导LLMs作为评判者,在DOCENT新数据集上比现有指标更好地匹配人类评分。

  • Motivation: 现有的图像描述评估指标(如CIDEr、SPICE)是为短文本设计的,无法有效评估长文本描述中的属性和关系错误,需要更细粒度的错误定位能力。
  • Method: PoSh使用场景图作为结构化评分标准,指导大型语言模型作为评判者,生成基于细粒度错误的聚合分数。同时引入了DOCENT数据集,包含艺术作品和专家参考描述。
  • Result: PoSh在DOCENT数据集上与人类评分的相关性比最佳开源替代指标高0.05 Spearman ρ,对图像类型具有鲁棒性,并能作为有效的奖励函数。
  • Conclusion: PoSh和DOCENT为详细图像描述评估提供了更好的工具,发现基础模型在描述具有丰富场景动态的图像时仍存在困难,这为VLM进展设立了新的挑战任务。

[7] UniHPR: Unified Human Pose Representation via Singular Value Contrastive Learning

Zhongyu Jiang,Wenhao Chai,Lei Li,Zhuoran Zhou,Cheng-Yen Yang,Jenq-Neng Hwang

Main category: cs.CV

TL;DR: UniHPR是一个统一的人体姿态表示学习框架,通过对比学习对齐图像、2D和3D人体姿态嵌入,在人体姿态估计任务中取得了优异性能。

  • Motivation: 当前缺乏对不同模态人体姿态表示之间相关性的系统研究,特别是在对比学习范式下。人体姿态表示在人体中心应用中至关重要,需要统一的表示框架。
  • Method: 提出UniHPR统一人体姿态表示学习管道,使用基于奇异值的对比学习损失来同时对齐多个数据表示,包括图像、2D和3D人体姿态。
  • Result: 在Human3.6M数据集上MPJPE达到49.9mm,在3DPW数据集上PA-MPJPE达到51.6mm(跨域评估),同时在Human3.6M数据集上实现2D和3D姿态检索,检索误差为9.24mm MPJPE。
  • Conclusion: UniHPR通过新颖的对比学习损失有效对齐多模态人体姿态表示,在人体姿态估计和姿态检索任务中表现出色,证明了统一表示学习的有效性。

[8] Advancing Brain Tumor Segmentation via Attention-based 3D U-Net Architecture and Digital Image Processing

Eyad Gad,Seif Soliman,M. Saeed Darweesh

Main category: cs.CV

TL;DR: 该研究提出将注意力机制集成到3D U-Net模型中,以改进脑肿瘤分割性能,同时使用基于数字图像处理的肿瘤检测算法解决训练数据不平衡问题。

  • Motivation: 标准U-Net模型在脑肿瘤分割中面临挑战,特别是在处理不规则形状和模糊边界时准确性不足,且高分辨率MRI数据训练需要大量计算资源并存在类别不平衡问题。
  • Method: 将注意力机制集成到3D U-Net架构中,使模型能够捕捉复杂细节并优先处理信息丰富区域;同时采用基于数字图像处理的肿瘤检测算法来解决训练数据不平衡问题。
  • Result: 在BraTS 2020数据集上的评估显示,模型表现优于相关研究,获得Dice系数0.975、特异性0.988和敏感性0.995的优异结果。
  • Conclusion: 所提出的模型有效提高了脑肿瘤分割性能,为临床环境中的可靠诊断提供了有价值的见解。

[9] A Novel Approach to Breast Cancer Segmentation using U-Net Model with Attention Mechanisms and FedProx

Eyad Gad,Mustafa Abou Khatwa,Mustafa A. Elattar,Sahar Selim

Main category: cs.CV

TL;DR: 该研究应用联邦近端(FedProx)方法处理非独立同分布的超声乳腺癌图像数据集,结合改进的U-Net模型和注意力机制,在保护患者隐私的同时实现了96%的肿瘤分割准确率。

  • Motivation: 乳腺癌是女性主要死因,需要早期检测和准确诊断。医疗数据的敏感性使得开发准确且保护隐私的AI模型具有挑战性。联邦学习虽然能保护隐私,但在非独立同分布数据集上训练会影响模型准确性和泛化能力。
  • Method: 应用联邦近端(FedProx)方法处理非独立同分布的超声乳腺癌图像数据,并采用改进的U-Net模型结合注意力机制来增强肿瘤分割准确性。
  • Result: 最终得到的全局模型达到了96%的准确率,证明了该方法在保护患者隐私的同时有效提升了肿瘤分割精度。
  • Conclusion: FedProx方法在非独立同分布的本地医疗数据集上训练精确机器学习模型具有巨大潜力。

[10] X-Ego: Acquiring Team-Level Tactical Situational Awareness via Cross-Egocentric Contrastive Video Representation Learning

Yunzhe Wang,Soham Hans,Volkan Ustun

Main category: cs.CV

TL;DR: 提出了X-Ego-CS数据集和CECL方法,用于研究复杂3D环境中的多智能体决策,通过同步的第一人称视角视频流促进团队战术意识的学习。

  • Motivation: 现有视频理解研究主要依赖第三人称视角,忽略了同步的、自我中心的多智能体学习特性,需要从个体视角研究团队战术的涌现。
  • Method: 构建X-Ego-CS数据集包含124小时专业级CS2游戏录像,提供同步的第一人称视角视频流和状态-动作轨迹;提出CECL方法,通过对比学习对齐队友的自我中心视觉流。
  • Result: 在队友-对手位置预测任务中评估CECL,证明其能有效增强智能体从单一第一人称视角推断队友和对手位置的能力。
  • Conclusion: X-Ego-CS和CECL为电子竞技中的跨自我中心多智能体基准测试奠定了基础,将游戏理解定位为多智能体建模和战术学习的测试平台。

[11] FootFormer: Estimating Stability from Visual Input

Keaton Kraiger,Jingjing Li,Skanda Bharadwaj,Jesse Scott,Robert T. Collins,Yanxi Liu

Main category: cs.CV

TL;DR: FootFormer是一个跨模态方法,直接从视觉输入联合预测人体运动动力学,在多个数据集上显著优于或等同于现有方法,在足部压力分布、足部接触图和质心估计方面表现优异。

  • Motivation: 现有方法通常只能生成一两种人体运动动力学测量指标,缺乏能够从视觉输入联合预测多种关键运动参数的统一方法。
  • Method: 提出跨模态方法FootFormer,直接从视觉输入联合预测足部压力分布、足部接触图和质心等运动动力学参数。
  • Result: 在多个数据集上,FootFormer在足部压力分布、足部接触图和质心估计方面显著优于或等同于现有方法,并在经典运动学指标的稳定性预测组件(压力中心、质心、支撑面)估计上达到最先进性能。
  • Conclusion: FootFormer提供了一个有效的跨模态框架,能够从视觉输入准确预测多种人体运动动力学参数,为运动分析和稳定性评估提供了新的解决方案。

[12] Malaria Detection from Blood Cell Images Using XceptionNet

Warisa Nusrat,Mostafijur Rahman,Ayatullah Faruk Mollah

Main category: cs.CV

TL;DR: 本文应用六种深度卷积网络对疟疾细胞图像进行分类,其中Residual Attention Network和XceptionNet表现最佳,分别达到97.28%和97.55%的准确率,证明了深度学习在疟疾自动检测中的可行性。

  • Motivation: 疟疾主要通过雌性按蚊传播,常导致0-5岁儿童死亡。传统显微镜观察血涂片图像的方法依赖专家经验,存在误诊风险,因此需要计算机辅助的自动诊断系统。
  • Method: 使用六种深度卷积网络(AlexNet、XceptionNet、VGG-19、Residual Attention Network、DenseNet-121和Custom-CNN)从血细胞图像中提取深层特征,并分类为疟疾感染细胞或健康细胞。
  • Result: 在公开的疟疾细胞图像数据集上,Residual Attention Network和XceptionNet表现最佳,平均准确率分别为97.28%和97.55%,优于其他相关方法。
  • Conclusion: 这些发现高度支持深度学习驱动的方法在疟疾自动可靠检测中的现实应用,同时最大限度地减少了直接人工参与。

[13] PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning

Fengyuan Sun,Hui Chen,Xinhao Xu,Dandan Zheng,Jingdong Chen,Jun Zhou,Jungong Han,Guiguang Ding

Main category: cs.CV

TL;DR: PruneHal是一种无需训练的方法,通过自适应KV缓存修剪来增强MLLMs对关键视觉信息的关注,从而缓解幻觉问题。

  • Motivation: 现有方法要么引入额外数据进行训练,要么在推理时整合外部或内部信息,这些方法都会带来额外计算成本。研究发现MLLMs中的幻觉与视觉token注意力不足密切相关。
  • Method: 提出PruneHal方法,利用自适应KV缓存修剪来增强模型对关键视觉信息的关注,无需额外训练且几乎不增加推理成本。
  • Result: 在多个主流MLLMs和广泛使用的幻觉评估基准上测试,取得了稳健且出色的结果。
  • Conclusion: PruneHal是首个将token修剪应用于MLLMs幻觉缓解的方法,具有模型无关性,可无缝集成到不同解码策略中。

[14] Video Consistency Distance: Enhancing Temporal Consistency for Image-to-Video Generation via Reward-Based Fine-Tuning

Takehiro Aoshima,Yusuke Shinohara,Park Byeongseon

Main category: cs.CV

TL;DR: 提出Video Consistency Distance (VCD)指标,通过基于奖励的微调框架增强视频扩散模型的时序一致性,特别针对图像到视频生成任务中的时序不一致问题。

  • Motivation: 传统的奖励函数主要关注整个生成视频序列的质量提升,但在图像到视频生成任务中,时序一致性往往受到影响,需要专门针对时序一致性的优化方法。
  • Method: 在视频帧特征的频域空间中定义VCD指标,通过频域分析有效捕捉帧间信息,并基于此指标进行奖励微调。
  • Result: 在多个I2V数据集上的实验结果表明,使用VCD微调的视频生成模型显著提升了时序一致性,且不降低其他性能指标。
  • Conclusion: VCD是一种有效的时序一致性增强指标,能够在不牺牲其他性能的前提下显著改善图像到视频生成任务的时序连贯性。

[15] Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Kai Zeng,Zhanqian Wu,Kaixin Xiong,Xiaobao Wei,Xiangyu Guo,Zhenxin Zhu,Kalok Ho,Lijun Zhou,Bohan Zeng,Ming Lu,Haiyang Sun,Bing Wang,Guang Chen,Hangjun Ye,Wentao Zhang

Main category: cs.CV

TL;DR: Dream4Drive是一个用于增强下游感知任务的合成数据生成框架,通过3D感知引导图和3D资产渲染生成多视角逼真视频,显著提升自动驾驶中的异常情况感知能力。

  • Motivation: 现有方法主要关注生成质量和可控性指标,但忽视了对于自动驾驶性能至关重要的下游感知任务评估。现有训练策略需要在合成数据上预训练再在真实数据上微调,导致训练周期翻倍,当基线方法也使用双倍周期时,合成数据的优势变得不明显。
  • Method: 首先将输入视频分解为多个3D感知引导图,然后将3D资产渲染到这些引导图上,最后微调驾驶世界模型以生成编辑后的多视角逼真视频,用于训练下游感知模型。
  • Result: Dream4Drive能够大规模生成多视角异常情况,显著提升自动驾驶中的异常情况感知能力。实验表明该框架能有效提升下游感知模型在各种训练周期下的性能。
  • Conclusion: 该框架为大规模生成多视角异常情况提供了前所未有的灵活性,并贡献了名为DriveObj3D的大规模3D资产数据集,涵盖驾驶场景中的典型类别,支持多样化的3D感知视频编辑。

[16] MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

In-Hwan Jin,Hyeongju Mun,Joonsoo Kim,Kugjin Yun,Kyeongbo Kong

Main category: cs.CV

TL;DR: 提出MoE-GS框架,通过专家混合和体积感知像素路由器提升动态高斯溅射的重建质量,同时探索效率优化和蒸馏策略。

  • Motivation: 现有动态场景重建方法在不同场景下表现不一致,缺乏能有效处理所有动态挑战的统一方法。
  • Method: 集成多个专业专家,使用体积感知像素路由器通过可微分权重溅射将高斯级权重投影到像素空间,实现空间和时间一致性。
  • Result: 在N3V和Technicolor数据集上持续优于最先进方法,并提高了效率。
  • Conclusion: MoE-GS是首个将专家混合技术引入动态高斯溅射的方法,在保持高质量的同时实现了效率优化。

[17] SFGFusion: Surface Fitting Guided 3D Object Detection with 4D Radar and Camera Fusion

Xiaozhi Li,Huijun Di,Jian Li,Feng Liu,Wei Liang

Main category: cs.CV

TL;DR: SFGFusion是一种基于表面拟合的相机-4D成像雷达检测网络,通过估计物体二次表面参数来增强空间表示和跨模态交互,生成密集伪点云缓解雷达点稀疏问题,在BEV空间实现多模态融合。

  • Motivation: 4D成像雷达具有低成本、长距离检测和精确速度测量等优势,但其稀疏点云和低分辨率限制了物体几何表示和多模态融合效果。
  • Method: 通过图像和雷达数据估计物体二次表面参数,生成密集伪点云;使用预测深度将图像特征从透视视图转换到BEV空间;采用基于pillar的方法处理雷达点云;在BEV空间进行多模态融合和检测。
  • Result: 在TJ4DRadSet和view-of-delft(VoD)目标检测基准上实现了优越性能,有效融合了相机和4D雷达特征。
  • Conclusion: SFGFusion通过表面拟合引导的方法成功解决了4D雷达点云稀疏性问题,实现了相机和雷达的有效融合,提升了3D目标检测性能。

[18] Space Object Detection using Multi-frame Temporal Trajectory Completion Method

Xiaoqing Lan,Biqiao Xin,Bingshu Wang,Han Zhang,Laixian Zhang

Main category: cs.CV

TL;DR: 提出了一种基于小波变换和多帧轨迹补全的GEO空间目标检测方法,在SpotGEO数据集上达到90.14%的F1分数

  • Motivation: GEO空间目标在光学成像中面临信号弱、恒星背景复杂和环境干扰等检测挑战
  • Method: 使用小波变换增强高频特征并抑制背景噪声,结合匈牙利算法进行多帧轨迹补全,包括时间匹配插值、时间一致性噪声过滤和渐进轨迹优化
  • Result: 在公开SpotGEO数据集上验证了方法的有效性,F1分数达到90.14%
  • Conclusion: 该方法能有效解决GEO目标检测中的弱信号和复杂背景问题,提升检测性能

[19] Background Fades, Foreground Leads: Curriculum-Guided Background Pruning for Efficient Foreground-Centric Collaborative Perception

Yuheng Wu,Xiangbo Gao,Quang Tau,Zhengzhong Tu,Dongman Lee

Main category: cs.CV

TL;DR: FadeLead是一个前景感知协作感知框架,通过课程学习策略将背景上下文信息压缩到前景特征中,在不传输背景的情况下提升感知性能。

  • Motivation: 解决协作感知中带宽限制问题,传统方法只传输前景特征但丢弃了重要的背景上下文信息,影响感知性能。
  • Method: 采用课程学习策略,早期利用背景线索但逐步剪除,迫使模型将上下文信息内化到前景表示中,无需传输背景本身。
  • Result: 在模拟和真实世界基准测试中,FadeLead在不同带宽设置下均优于现有方法,证明了上下文丰富的前景共享的有效性。
  • Conclusion: FadeLead通过将背景上下文压缩到前景特征中,实现了高效的协作感知,为带宽受限的车辆网络提供了可行的解决方案。

[20] Advances in 4D Representation: Geometry, Motion, and Interaction

Mingrui Zhao,Sauradip Nag,Kai Wang,Aditya Vora,Guangda Ji,Peter Chun,Ali Mahdavi-Amiri,Hao Zhang

Main category: cs.CV

TL;DR: 本文对4D生成与重建领域进行了系统性调查,从几何、运动和交互三个核心维度分析4D表示方法,重点关注如何选择适合任务的4D表示,并讨论了神经辐射场、3D高斯溅射等流行方法以及结构化模型、长程运动等相对未被充分探索的表示。

  • Motivation: 随着神经场、几何与运动深度学习以及3D生成AI的快速发展,4D生成与重建领域迅速演进。本文旨在从4D表示的独特视角,为研究者提供如何选择和定制适合任务的4D表示方法的指导。
  • Method: 采用选择性而非穷举的方法,基于几何、运动和交互三个关键支柱对4D表示进行分类分析,重点关注代表性工作在不同计算、应用和数据场景下的优缺点。
  • Result: 系统梳理了当前主流的4D表示方法(如NeRF、3DGS)和相对未被充分探索的方法(如结构化模型、长程运动),分析了LLM和视频基础模型在4D应用中的作用与局限,并提供了现有4D数据集的评估。
  • Conclusion: 本文为4D生成与重建领域提供了系统的表示方法分析框架,强调根据具体任务需求选择和定制4D表示的重要性,并指出了该领域当前的数据集不足和未来发展方向。

[21] SCEESR: Semantic-Control Edge Enhancement for Diffusion-Based Super-Resolution

Yun Kai Zhuang

Main category: cs.CV

TL;DR: 提出了一种结合ControlNet语义边缘引导的单步扩散模型,用于真实图像超分辨率,在保持高效推理的同时提升结构准确性和感知质量。

  • Motivation: 解决真实图像超分辨率中复杂退化与重建模糊性问题,平衡生成模型感知质量与计算成本之间的权衡,改进单步扩散模型的结构失真问题。
  • Method: 使用ControlNet机制进行语义边缘引导,在单步推理中提供动态结构控制;结合L2、LPIPS和边缘感知AME损失的混合损失函数。
  • Result: 实验表明该方法有效提升结构完整性和真实感,同时保持单步生成的高效性,在输出质量和推理速度之间达到优越平衡。
  • Conclusion: 提出的框架通过语义边缘引导和混合损失优化,成功解决了单步扩散模型的结构失真问题,实现了高效高质量的真实图像超分辨率。

[22] MobiAct: Efficient MAV Action Recognition Using MobileNetV4 with Contrastive Learning and Knowledge Distillation

Zhang Nengbo,Ho Hann Woei

Main category: cs.CV

TL;DR: 提出轻量级MAV动作识别框架MobiAct,使用MobileNetV4作为骨干网络,结合知识蒸馏和参数自由注意力机制,在保持高精度的同时显著降低计算成本和能耗。

  • Motivation: 现有MAV动作识别方法通常依赖计算密集型大模型,不适用于资源受限的MAV平台,需要在识别精度和推理速度之间进行权衡。
  • Method: 采用MobileNetV4作为骨干网络,提出阶段式正交知识蒸馏策略(SOKD)从教师网络(ResNet18)向学生网络传递知识,集成参数自由注意力机制,并开发混合损失训练策略。
  • Result: 在三个自收集数据集上平均识别精度达92.12%,仅消耗136.16 pJ能量,处理速度为8.84动作/秒,动作解码速度比领先方法快2倍。
  • Conclusion: MobiAct实现了低能耗、低计算的MAV动作识别,在保持高精度的同时具有显著的速度优势,适合资源受限的MAV平台。

[23] D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

Nobline Yoo,Olga Russakovsky,Ye Zhu

Main category: cs.CV

TL;DR: 提出了D2D框架,将不可微的检测器模型转化为可微的评论器,利用其优越的计数能力来指导文本到图像生成模型生成正确数量的对象。

  • Motivation: 现有的文本到图像扩散模型在语义对齐方面表现良好,但在生成提示中指定数量的对象时仍存在困难。现有方法只能使用可微的回归模型作为评论器,无法利用具有更好计数能力的检测器模型。
  • Method: 设计了自定义激活函数,将检测器logits转换为软二进制指示器,在推理时使用预训练的T2I模型优化噪声先验。
  • Result: 在SDXL-Turbo、SD-Turbo和Pixart-DMD等多个模型和不同复杂度的基准测试中,对象计数准确性得到一致且显著提升(例如在D2D-Small基准上提升高达13.7%),且图像质量和计算开销几乎没有下降。
  • Conclusion: D2D框架成功地将不可微检测器的计数能力引入文本到图像生成过程,显著提高了对象计数的准确性。

[24] Enhancing Early Alzheimer Disease Detection through Big Data and Ensemble Few-Shot Learning

Safa Ben Atitallah,Maha Driss,Wadii Boulila,Anis Koubaa

Main category: cs.CV

TL;DR: 提出基于原型网络和预训练CNN的集成学习方法,用于小样本阿尔茨海默病检测,在两个数据集上分别达到99.72%和99.86%的准确率。

  • Motivation: 解决医学图像标注数据稀缺、疾病复杂性高以及数据隐私限制等挑战,提高阿尔茨海默病检测的准确性。
  • Method: 使用原型网络框架,集成多种预训练CNN作为编码器,结合类别感知损失和熵损失进行精确分类。
  • Result: 在Kaggle阿尔茨海默数据集和ADNI数据集上分别获得99.72%和99.86%的准确率,优于现有最先进方法。
  • Conclusion: 该方法在早期阿尔茨海默病检测中表现出优越性能,具有实际应用的潜力。

[25] Vision-Based Mistake Analysis in Procedural Activities: A Review of Advances and Challenges

Konstantinos Bacharidis,Antonis A. Argyros

Main category: cs.CV

TL;DR: 本文综述了基于视觉的程序性活动中错误检测与预测方法,涵盖工业自动化、康复训练、教育和人机协作等领域,重点分析了程序性和执行性错误。

  • Motivation: 程序性活动中的错误分析在多个领域具有重要应用价值,但面临类内变异性、视角差异和组合活动结构等挑战,需要建立统一的视觉分析方法框架。
  • Method: 利用计算机视觉技术(包括动作识别、预测和活动理解),通过程序结构建模、监督学习和学习策略等方法检测任务执行中的偏差。
  • Result: 提供了现有数据集、评估指标和最先进方法的全面概述,按程序结构使用、监督级别和学习策略对方法进行分类。
  • Conclusion: 建立了基于视觉的程序性活动错误分析的统一视角,讨论了开放挑战和未来方向,包括神经符号推理和反事实状态建模,以提升各领域的安全性、效率和任务性能。

[26] Unified Reinforcement and Imitation Learning for Vision-Language Models

Byung-Kwan Lee,Ryo Hachiuma,Yong Man Ro,Yu-Chiang Frank Wang,Yueh-Hua Wu

Main category: cs.CV

TL;DR: 提出统一强化与模仿学习(RIL)算法,通过结合强化学习和对抗模仿学习,训练轻量级视觉语言模型,使其性能接近甚至超越大型模型。

  • Motivation: 视觉语言模型(VLMs)规模庞大,在资源受限环境中不实用,需要开发高效的训练方法创建轻量级但功能强大的VLMs。
  • Method: RIL算法结合强化学习和对抗模仿学习,使用基于LLM的判别器区分学生和教师模型输出,并利用多个大型教师VLMs提供多样化学习指导。
  • Result: 在多个视觉语言基准测试中,RIL显著缩小了与最先进开源和闭源VLMs的性能差距,并在多个实例中超越了它们。
  • Conclusion: RIL的统一学习策略使轻量级学生模型能够实现显著的性能提升,使其与领先的闭源VLMs具有竞争力。

[27] Online Handwritten Signature Verification Based on Temporal-Spatial Graph Attention Transformer

Hai-jie Yuan,Heng Zhang,Fei Yin

Main category: cs.CV

TL;DR: 提出了一种用于动态签名验证的新方法TS-GATR,结合图注意力网络和门控循环单元来建模签名数据的时空依赖关系,在多个基准数据集上超越了现有最先进方法。

  • Motivation: 手写签名验证在身份认证中至关重要,但由于用户内部变异性和伪造风险,实现高精度验证仍然具有挑战性。
  • Method: TS-GATR将签名表示为图结构,节点捕获动态特征,使用注意力机制建模复杂关系。采用双图注意力变换器模块分别建模局部和全局空间特征,并集成GRU捕获长期时间依赖。
  • Result: 在MSDS和DeepSignDB等基准数据集上的综合实验表明,TS-GATR超越了当前最先进方法,在各种场景下持续实现更低的等错误率。
  • Conclusion: TS-GATR通过有效建模签名数据的时空依赖关系,显著提升了动态签名验证的性能,为身份认证提供了更可靠的解决方案。

[28] Seabed-Net: A multi-task network for joint bathymetry estimation and seabed classification from remote sensing imagery in shallow waters

Panagiotis Agrafiotis,Begüm Demir

Main category: cs.CV

TL;DR: Seabed-Net是一个统一的多任务框架,可同时从遥感图像预测水深测量和基于像素的海底分类,通过跨任务特征融合和动态任务不确定性加权,显著提升性能。

  • Motivation: 现有的从遥感图像推导水深或海底类别的方法将这些任务孤立处理,丧失了它们相互作用的共同益处,阻碍了深度学习方法的广泛应用。
  • Method: 采用双分支编码器进行水深估计和海底分类,通过注意力特征融合模块和窗口化Swin-Transformer融合块整合跨任务特征,并使用动态任务不确定性加权平衡目标。
  • Result: 在两个异质海岸站点的广泛评估中,比传统经验模型和机器学习回归方法降低高达75%的RMSE,与最先进的单任务和多任务基线相比,水深RMSE降低10-30%,海底分类准确率提高达8%。
  • Conclusion: 联合建模深度与海底底质和栖息地可产生协同增益,为集成浅水测绘提供了稳健的开放解决方案。

[29] Exploring Scale Shift in Crowd Localization under the Context of Domain Generalization

Juncheng Wang,Lei Shang,Ziqi Liu,Wang Lu,Xixu Hu,Zhe Hu,Jindong Wang,Shujun Wang

Main category: cs.CV

TL;DR: 本文研究了人群定位中的尺度偏移问题,提出了ScaleBench基准测试和Catto算法来解决领域泛化中的尺度分布差异问题。

  • Motivation: 现有的人群定位方法在训练和测试数据之间存在头部尺度分布差异(尺度偏移)时性能显著下降,这限制了模型在真实场景中的泛化能力。
  • Method: 通过系统实验分析尺度偏移影响,建立ScaleBench基准测试,复现20种先进DG算法,并提出Causal Feature Decomposition and Anisotropic Processing (Catto)算法来缓解尺度偏移影响。
  • Result: 实验表明现有算法在尺度偏移问题上存在局限性,Catto算法能有效缓解尺度偏移的影响,并揭示了四个重要研究洞察。
  • Conclusion: 尺度偏移领域泛化是一个重要且新颖的研究方向,本文提出的方法和分析为未来研究提供了重要基础。

[30] BrainMCLIP: Brain Image Decoding with Multi-Layer feature Fusion of CLIP

Tian Xia,Zihan Ma,Xinlong Wang,Qing Liu,Xiaowei He,Tianming Liu,Yudan Ren

Main category: cs.CV

TL;DR: BrainMCLIP提出了一种参数高效的fMRI图像解码方法,通过多层级融合CLIP中间特征,避免使用参数密集的VAE管道,在减少71.7%参数的同时实现了竞争性性能。

  • Motivation: 现有方法通常将fMRI映射到CLIP的最终语义层,忽略了中间层的丰富物体信息,且与大脑功能层次结构不符。需要一种更符合视觉系统功能层次的方法来捕获更精细的视觉细节。
  • Method: 基于人类视觉系统的功能层次,将来自不同视觉区域(低/高级)的fMRI信号对齐到对应的CLIP中间层和最终层,引入跨重建策略和多粒度损失函数。
  • Result: 在高级语义指标上达到或超越SOTA方法,包括使用VAE管道的方法,同时参数减少71.7%,有效捕获了CLIP-only方法常遗漏的视觉细节。
  • Conclusion: BrainMCLIP通过利用CLIP中间特征,在语义准确性和细节保真度之间取得了良好平衡,无需单独的VAE管道即可实现高效解码。

[31] A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP

Ying Dai,Wei Yu Chen

Main category: cs.CV

TL;DR: 提出了一种无需训练的开集图像分割与识别框架,结合EfficientNetB0进行无监督分割和CLIP进行开集识别,在多个基准测试中达到最先进性能。

  • Motivation: 解决传统方法需要大量标注数据和固定类别限制的问题,实现无需训练的开集图像分割与识别。
  • Method: 采用两阶段流程:1) 使用EfficientNetB0提取特征,通过SVD分解和层次聚类进行无监督分割;2) 利用CLIP的视觉-语言对齐能力,将分割区域与文本提示进行跨模态匹配识别。
  • Result: 在COCO、ADE20K和PASCAL VOC等标准基准测试中,在Hungarian mIoU、精确率、召回率和F1分数等指标上达到最先进性能。
  • Conclusion: 该框架展示了在无需训练的情况下实现高效、灵活和可泛化的开集图像分割与识别的有效性。

[32] DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

Kai Shi,Jun Yang,Ni Yang,Binqiang Pan,Qingsong Xie,Chao Zhang,Zhenyu Yang,Tianhuang Su,Haonan Lu

Main category: cs.CV

TL;DR: 提出了DaMo(数据混合优化器),通过可训练网络预测最优数据混合比例来优化移动手机代理的多任务学习性能,在PhoneAgentBench基准上比其他方法提升3.38%性能。

  • Motivation: 多模态大语言模型作为移动手机代理的基础,在处理多个手机任务时性能有限,现有方法难以确定最优训练数据组合以实现最佳性能。
  • Method: 使用可训练网络预测下游任务性能,通过预测任何给定数据集比例的性能来优化数据混合配置。
  • Result: DaMo在PhoneAgentBench上实现3.38%性能提升,在其他基准测试中平均提升2.57%,在BFCL-v3任务上比其他方法提升12.47%。
  • Conclusion: DaMo能够有效优化多任务学习的数据混合配置,具有良好的泛化能力和可扩展性,可应用于其他模型架构。

[33] DARE: A Deformable Adaptive Regularization Estimator for Learning-Based Medical Image Registration

Ahsan Raza Siyal,Markus Haltmeier,Ruth Steiger,Malik Galijasevic,Elke Ruth Gizewski,Astrid Ellen Grams

Main category: cs.CV

TL;DR: DARE是一个可变形医学图像配准框架,通过动态调整弹性正则化来平衡配准的稳定性和灵活性,同时防止变形场折叠。

  • Motivation: 现有的深度学习方法在医学图像配准中往往忽视正则化的重要性,导致配准结果缺乏鲁棒性和解剖学合理性。
  • Method: 提出DARE框架,基于变形场梯度范数动态调整弹性正则化,整合应变和剪切能量项,并包含防止折叠的机制来惩罚负变形雅可比区域。
  • Result: 该方法减轻了非物理伪影如折叠,避免了过度平滑,提高了配准精度和解剖学合理性。
  • Conclusion: DARE通过自适应正则化策略在医学图像配准中实现了更好的稳定性和解剖学合理性。

[34] AegisRF: Adversarial Perturbations Guided with Sensitivity for Protecting Intellectual Property of Neural Radiance Fields

Woo Jae Kim,Kyu Beom Han,Yoonki Cho,Youngju Na,Junsik Jung,Sooel Son,Sung-eui Yoon

Main category: cs.CV

TL;DR: AegisRF是一个保护NeRF模型知识产权的框架,通过注入对抗性扰动来破坏未经授权的下游应用,同时使用敏感性场来保持渲染质量。

  • Motivation: 随着NeRF成为3D场景表示和视图合成的强大工具,保护其知识产权免受未经授权使用变得至关重要。
  • Method: 提出AegisRF框架,包含扰动场和敏感性场:扰动场在NeRF预渲染输出中注入对抗性扰动来欺骗下游模型;敏感性场学习空间变化的几何扰动敏感性,自适应约束扰动以保持渲染质量。
  • Result: 实验评估表明AegisRF在多种下游任务和模态中具有通用适用性,包括多视图图像分类和基于体素的3D定位,同时保持高视觉保真度。
  • Conclusion: AegisRF能够有效保护NeRF模型的知识产权,在破坏未经授权使用的同时维持高质量的渲染效果。

[35] Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes

Zhiyuan Feng,Zhaolu Kang,Qijie Wang,Zhiying Du,Jiongrui Yan,Shubin Shi,Chengbo Yuan,Huizhi Liang,Yu Deng,Qixiu Li,Rushuai Yang,Arctanx An,Leqi Zheng,Weijie Wang,Shawn Chen,Sicheng Xu,Yaobo Liang,Jiaolong Yang,Baining Guo

Main category: cs.CV

TL;DR: MV-RoboBench是一个专门评估视觉语言模型在多视角机器人操作中空间推理能力的基准测试,包含1.7k个手动策划的QA项目,涵盖空间理解和机器人执行两个主要类别。

  • Motivation: 现有的VLM评估主要关注单视角设置,而多摄像头设置已成为机器人平台的标准配置,但VLM是否能有效利用多视角输入进行机器人推理仍是一个未解决的问题。
  • Method: 创建MV-RoboBench基准测试,包含8个子任务的1.7k个QA项目,评估开源和闭源VLM模型,包括采用CoT技术的增强版本。
  • Result: 最先进的模型性能远低于人类水平,多视角机器人感知面临重大挑战;空间智能与机器人任务执行呈正相关;单视角空间理解基准的强性能不能可靠转化为机器人空间任务的成功。
  • Conclusion: MV-RoboBench作为开放资源发布,旨在促进空间基础VLM和VLA的发展,提供数据和标准化评估协议。

[36] Multi-Camera Worker Tracking in Logistics Warehouse Considering Wide-Angle Distortion

Yuki Mori,Kazuma Kano,Yusuke Asai,Shin Katayama,Kenta Urano,Takuro Yonezawa,Nobuo Kawaguchi

Main category: cs.CV

TL;DR: 提出了一种使用19个广角摄像头追踪物流仓库工人的方法,通过基于脚部位置对齐来减少图像畸变影响,提高了20%以上的追踪精度。

  • Motivation: 随着电子商务发展,提高仓库运营效率至关重要。数字孪生技术需要准确收集工人位置,但单摄像头视野有限,需要多摄像头协同感知。
  • Method: 在仓库天花板安装19个广角摄像头俯视地面,基于地面进行坐标对齐。通过检测工人脚部位置来对齐各摄像头数据,减少广角镜头边缘畸变的影响。
  • Result: 追踪精度提高了20%以上,并通过多种外观特征利用方法的比较验证了所提方法的有效性。
  • Conclusion: 基于脚部位置对齐的方法能有效减少广角摄像头畸变影响,显著提高多摄像头工人追踪系统的精度。

[37] Reasoning Like Experts: Leveraging Multimodal Large Language Models for Drawing-based Psychoanalysis

Xueqi Ma,Yanbei Jiang,Sarah Erfani,James Bailey,Weifeng Liu,Krista A. Ehinger,Jey Han Lau

Main category: cs.CV

TL;DR: PICK是一个用于心理图像理解的多步骤框架,专门针对房树人测试,通过分层分析和知识注入来增强多模态大语言模型在心理分析中的能力。

  • Motivation: 多模态大语言模型在客观多模态感知任务中表现出色,但在主观、情感细腻的领域(如心理分析)应用较少。本文旨在填补这一空白。
  • Method: 将包含多个实例的绘图分解为语义子绘图,构建层次表示;分析各层次的子绘图提取心理洞察;引入HTP知识库和特征提取模块生成心理档案;整合多方面信息进行综合评估。
  • Result: 实验结果表明,PICK显著提升了多模态大语言模型在心理分析中的能力,并在情感理解任务中得到验证。
  • Conclusion: PICK弥合了多模态大语言模型与专业领域之间的差距,为通过视觉表达理解人类心理状态提供了结构化且可解释的框架。

[38] Exploring "Many in Few" and "Few in Many" Properties in Long-Tailed, Highly-Imbalanced IC Defect Classification

Hao-Chiang Shao,Chun-Hao Chang,Yu-Hsien Lin,Chia-Wen Lin,Shao-Yun Fang,Yan-Hsiu Liu

Main category: cs.CV

TL;DR: 该论文提出了ReCAME-Net模型来解决IC缺陷分类中的高度不平衡数据问题,并发布了IC-Defect-14数据集,该数据集具有独特的"类内聚类"特性,包含大类内多样性和高类间相似性两大挑战。

  • Motivation: 现有深度分类技术和实验室自动光学检测模型在处理真实世界IC缺陷分类任务时面临挑战,主要由于IC行业的高良率要求导致数据分布极度偏斜,以及真实样本同时包含类特定属性和类无关的领域相关特征。
  • Method: 提出ReCAME-Net模型,采用多专家分类器框架,集成了区域通道注意力模块、度量学习损失、困难类别挖掘策略和知识蒸馏过程。
  • Result: 在IC-Defect-14数据集上,ReCAME-Net显著优于现有最先进模型,同时在通用公共数据集上保持可比性能和竞争力。
  • Conclusion: ReCAME-Net有效解决了IC缺陷分类中的高度不平衡数据问题,特别是针对具有"类内聚类"特性的数据集,为真实世界IC生产线的缺陷检测提供了有效解决方案。

[39] PCP-GAN: Property-Constrained Pore-scale image reconstruction via conditional Generative Adversarial Networks

Ali Sadeghkhani,Brandon Bennett,Masoud Babaei,Arash Rabbani

Main category: cs.CV

TL;DR: 提出了一种多条件生成对抗网络框架,能够生成具有精确控制属性的代表性孔隙尺度图像,解决了孔隙图像代表性和数据稀缺的挑战。

  • Motivation: 获取真正代表地层特性的孔隙尺度图像存在根本性挑战,因为自然空间异质性导致提取的子图像与岩心测量值显著偏离,且数据稀缺问题严重。
  • Method: 使用多条件生成对抗网络,在单一统一模型中同时基于孔隙度值和深度参数生成孔隙图像,捕捉通用孔隙网络原理和特定深度的地质特征。
  • Result: 模型在所有地层中实现了优异的孔隙度控制(R^2=0.95),平均绝对误差为0.0099-0.0197,生成图像的代表性误差为1.9-11.3%,远优于随机提取真实子图像的36.4-578%。
  • Conclusion: 该能力为地下表征提供了变革性工具,特别适用于碳封存、地热能源和地下水管理应用,其中了解孔隙空间的代表性形态对于实施数字岩石物理至关重要。

[40] Predicting before Reconstruction: A generative prior framework for MRI acceleration

Juhyung Park,Rokgi Hong,Roh-Eul Yoo,Jaehyeon Koo,Se Young Chun,Seung Hong Choi,Jongho Lee

Main category: cs.CV

TL;DR: 提出了一种基于生成式AI的MRI加速新范式,从图像重建转向预测性成像,通过生成模型预测目标对比度图像作为数据驱动先验,显著提升高倍加速下的重建质量。

  • Motivation: MRI采集时间过长限制了临床效率,传统图像重建方法在高倍加速下面临挑战,需要新的解决方案来缩短扫描时间。
  • Method: 使用生成模型预测目标对比度图像作为数据驱动先验,然后用于重建高度欠采样的k空间数据。模型可基于多种数据源进行条件预测,包括其他对比度图像、历史扫描图像、采集参数和患者信息。
  • Result: 在内部和多个公共数据集(共14,921次扫描;1,051,904个切片)上评估,包括多通道k空间数据,在x4、x8和x12高加速因子下,预测先验重建方法显著优于其他方法。
  • Conclusion: 该框架实现了从图像重建到预测性成像的根本性转变,为MRI加速提供了新的有效途径。

[41] PRGCN: A Graph Memory Network for Cross-Sequence Pattern Reuse in 3D Human Pose Estimation

Zhuoyang Xie,Yibo Zhao,Hui Huang,Riwei Wang,Zan Gao

Main category: cs.CV

TL;DR: 提出PRGCN框架,通过跨序列模式重用解决单目3D人体姿态估计问题,使用图记忆库存储姿态原型,结合Mamba和自注意力的双流架构,在Human3.6M和MPI-INF-3DHP上达到SOTA性能。

  • Motivation: 现有视频方法仅处理单个序列,未能利用跨序列的结构规律性和重复运动模式,导致深度模糊问题未得到充分利用。
  • Method: PRGCN框架包含图记忆库存储姿态原型,通过注意力机制动态检索,结合记忆驱动的图卷积融合解剖约束,采用Mamba和自注意力的双流混合架构。
  • Result: 在Human3.6M上MPJPE为37.1mm,在MPI-INF-3DHP上为13.4mm,均达到新的SOTA,并展现出增强的跨域泛化能力。
  • Conclusion: 跨序列模式重用机制对推动领域发展至关重要,将范式从单序列优化转向累积知识学习。

[42] Mitigating representation bias caused by missing pixels in methane plume detection

Julia Wąsala,Joannes D. Maasakkers,Ilse Aben,Rochelle Schneider,Holger Hoos,Mitra Baratchi

Main category: cs.CV

TL;DR: 该论文研究了卫星图像中系统性缺失像素(如云层遮挡)导致的表示偏差问题,特别是在甲烷羽流检测中。作者发现模型会将图像覆盖率与标签关联,导致在低覆盖率图像中检测性能下降。

  • Motivation: 卫星图像普遍存在系统性缺失像素(非随机缺失),如果不处理这些缺失像素,会导致自动特征提取模型出现表示偏差。在甲烷羽流检测中,标签与缺失值数量之间的虚假关联会使模型将图像覆盖率与标签关联,从而在低覆盖率图像中检测性能下降。
  • Method: 评估了多种插补方法以减少覆盖率与标签之间的依赖性,并提出了一种加权重采样方案,通过在每个覆盖率区间内强制执行类别平衡来消除标签与覆盖率之间的关联。
  • Result: 结果显示重采样和插补都能显著减少表示偏差,同时不会损害平衡准确率、精确率或召回率。在操作场景中评估表明,经过去偏处理的模型在低覆盖率图像中检测羽流的几率更高。
  • Conclusion: 重采样和插补方法能有效减少卫星图像中系统性缺失像素导致的表示偏差,提高在低覆盖率图像中的检测性能,而不影响整体模型性能。

[43] Towards Single-Source Domain Generalized Object Detection via Causal Visual Prompts

Chen Li,Huiying Xu,Changxin Gao,Zeyu Wang,Yun Liu,Xinzhong Zhu

Main category: cs.CV

TL;DR: 提出了Cauvis方法,通过因果视觉提示解决单源域泛化目标检测中的伪相关性问题,在SDGOD数据集上比现有方法提升15.9-31.4%

  • Motivation: 现有方法通过数据增强缓解域差异,但由于域偏移和有限域知识,模型容易陷入伪相关陷阱,过度依赖简单分类特征而非本质的域不变表示
  • Method: 提出Cauvis方法:1)交叉注意力提示模块,通过视觉提示与交叉注意力结合减轻伪特征偏差;2)双分支适配器,通过高频特征提取解缠因果-伪特征并实现域适应
  • Result: 在SDGOD数据集上达到最先进性能,比现有域泛化方法提升15.9-31.4%,在复杂干扰环境中表现出显著鲁棒性优势
  • Conclusion: Cauvis方法有效解决了单源域泛化目标检测中的伪相关性问题,通过因果视觉提示机制提升了模型的泛化能力和鲁棒性

[44] CARES: Context-Aware Resolution Selector for VLMs

Moshe Kimhi,Nimrod Shabtay,Raja Giryes,Chaim Baskin,Eli Schwartz

Main category: cs.CV

TL;DR: CARES是一个轻量级预处理模块,通过预测图像-查询对的最小足够输入分辨率,在保持任务性能的同时显著降低视觉语言模型的计算开销。

  • Motivation: 现有视觉语言模型通常以原生或高分辨率处理图像,导致视觉令牌占总令牌的97-99%,造成高计算成本和延迟,即使低分辨率图像已足够完成任务。
  • Method: 使用紧凑的VLM(350M)提取特征并预测目标预训练VLM的响应何时收敛到其峰值能力,通过离散分类器在可选分辨率集合上进行训练,在推理时插值连续分辨率以实现细粒度控制。
  • Result: 在五个涵盖文档和自然图像的多模态基准测试中,以及多样化的目标VLM上,CARES在保持任务性能的同时将计算量减少了高达80%。
  • Conclusion: CARES通过智能选择最小足够分辨率,有效解决了VLM中视觉令牌过多导致的高计算成本问题,实现了计算效率与任务性能的良好平衡。

[45] PoseCrafter: Extreme Pose Estimation with Hybrid Video Synthesis

Qing Mao,Tianxin Huang,Yu Zhu,Jinqiu Sun,Yanning Zhang,Gim Hee Lee

Main category: cs.CV

TL;DR: 提出PoseCrafter方法,通过混合视频生成和特征匹配选择器解决稀疏重叠图像对的相机姿态估计问题

  • Motivation: 现有方法在处理重叠度小或无重叠的图像对时表现不佳,视频插值生成的中间帧模糊且选择策略效率低
  • Method: 使用混合视频生成(HVG)结合视频插值和姿态条件新视角合成模型生成清晰中间帧,并设计基于特征匹配的选择器(FMS)选择适合姿态估计的帧
  • Result: 在多个数据集上的实验表明,相比现有SOTA方法,PoseCrafter显著提升了姿态估计性能,特别是在小重叠或无重叠情况下
  • Conclusion: 提出的混合视频生成和特征匹配选择器有效解决了稀疏重叠图像对的姿态估计挑战

[46] [De|Re]constructing VLMs' Reasoning in Counting

Simone Alghisi,Gabriel Roccabruna,Massimo Rizzoli,Seyed Mahed Mousavi,Giuseppe Riccardi

Main category: cs.CV

TL;DR: 该论文分析了视觉语言模型在计数任务中的局限性,发现模型对物体数量、类型、空间排列和干扰物高度敏感,通过仅微调输出层可将准确率提升高达21%。

  • Motivation: 视觉语言模型在下游任务中表现良好,但在视觉推理方面仍存在限制,特别是在识别关系、理解时间序列和计数对象方面。本研究旨在深入分析模型失败的根本原因并针对性提升其推理能力。
  • Method: 在受控实验条件下研究7个最先进视觉语言模型的计数能力,进行分层分析,发现错误源于最后一层表示到输出空间的错误映射,通过仅微调输出层进行针对性训练。
  • Result: 实验显示视觉语言模型对物体数量、类型、空间排列和干扰物高度敏感。仅微调输出层可将准确率提升高达21%,在真实数据集上也获得了一致的改进。
  • Conclusion: 视觉语言模型的计数错误主要源于输出层的映射问题,通过针对性微调输出层可显著改善模型性能,这为提升视觉推理能力提供了有效途径。

[47] The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Xiaofeng Zhang,Aaron Courville,Michal Drozdzal,Adriana Romero-Soriano

Main category: cs.CV

TL;DR: 本文研究了文本到图像(T2I)模型中提示复杂度对合成数据质量、多样性和一致性的影响,发现增加提示复杂度会降低条件多样性和提示一致性,但减少合成-真实数据分布偏移。

  • Motivation: 虽然提示工程是控制T2I模型的主要方式,但提示复杂度对合成数据效用关键维度的影响尚未得到系统研究。
  • Method: 首先进行合成实验验证泛化难度,然后提出新的评估框架比较真实数据和合成数据的效用,并在多个数据集上分析提示复杂度的影响。
  • Result: 增加提示复杂度导致条件多样性和提示一致性降低,但减少分布偏移。提示扩展方法在图像多样性和美学方面表现最佳。
  • Conclusion: 提示复杂度对合成数据效用有显著影响,当前推理时干预方法可以在牺牲真实数据支持的情况下增加多样性,其中提示扩展方法表现最优。

[48] A Matter of Time: Revealing the Structure of Time in Vision-Language Models

Nidham Tekaya,Manuela Waldner,Matthias Zeppelzauer

Main category: cs.CV

TL;DR: 该论文研究了大规模视觉语言模型的时间感知能力,提出了TIME10k基准数据集,发现时间信息在VLM嵌入空间中沿着低维非线性流形结构化,并提出了从嵌入空间提取显式时间线表示的方法。

  • Motivation: 评估视觉语言模型对视觉内容时间定位的能力,探索VLM是否能够理解图像的时间背景信息。
  • Method: 引入TIME10k数据集(包含10,000多张带时间标签的图像),评估37个VLM的时间感知能力,提出从VLM嵌入空间提取显式时间线表示的新方法。
  • Result: 发现时间信息在VLM嵌入空间中沿着低维非线性流形结构化,提出的时间线方法在准确率上优于基于提示的基线方法,且计算效率更高。
  • Conclusion: 视觉语言模型具有内在的时间感知能力,可以通过嵌入空间分析提取有效的时间表示,为时间推理任务提供支持。

[49] HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking

Yao Deng,Xian Zhong,Wenxuan Liu,Zhaofei Yu,Jingling Yuan,Tiejun Huang

Main category: cs.CV

TL;DR: 提出HAD框架,通过分层对齐策略解决RGB相机和事件相机之间的时空不对称问题,实现多模态知识蒸馏,在高速运动、HDR环境和动态背景干扰等挑战性条件下显著提升目标跟踪性能。

  • Motivation: RGB相机和事件相机具有互补优势:RGB相机提供高空间分辨率的纹理细节,事件相机提供高时间分辨率和动态范围。但两者成像机制不同导致显著的时空不对称,阻碍了有效的多模态融合。
  • Method: 提出分层不对称蒸馏(HAD)框架,采用分层对齐策略,在保持学生网络计算效率和参数紧凑性的同时最小化信息损失,显式建模和缓解时空不对称。
  • Result: 大量实验表明HAD持续优于最先进方法,全面的消融研究验证了每个设计组件的有效性和必要性。
  • Conclusion: HAD框架成功解决了RGB和事件相机之间的时空不对称问题,为多模态目标跟踪提供了有效的解决方案,代码即将发布。

[50] Can You Trust What You See? Alpha Channel No-Box Attacks on Video Object Detection

Ariana Yi,Ce Zhou,Liyang Xiao,Qiben Yan

Main category: cs.CV

TL;DR: α-Cloak是首个针对物体检测器的无盒对抗攻击,通过RGBA视频的alpha通道将恶意视频与良性视频融合,生成看似无害但能欺骗检测器的视频。

  • Motivation: 随着物体检测模型在自动驾驶等系统中的部署,确保其安全性至关重要。现有研究主要关注图像域攻击,视频域特别是无盒设置下的攻击研究不足。
  • Method: 利用alpha通道融合恶意和良性视频,设计融合算法确保视觉隐蔽性和兼容性,无需访问模型架构、参数或输出。
  • Result: 在5个先进物体检测器、视觉语言模型和多模态大语言模型上测试,攻击成功率100%,且不引入可感知伪影。
  • Conclusion: 揭示了视频感知系统中先前未被探索的漏洞,强调了在对抗环境中考虑alpha通道防御的紧迫性。

[51] VGD: Visual Geometry Gaussian Splatting for Feed-Forward Surround-view Driving Reconstruction

Junhong Lin,Kangli Wang,Shunzhou Wang,Songlin Fan,Ge Li,Wei Gao

Main category: cs.CV

TL;DR: 提出VGD框架,通过显式学习几何信息并利用几何特征指导语义质量提升,解决环视自动驾驶场景重建中几何一致性和新视角质量的问题。

  • Motivation: 解决环视自动驾驶场景重建中,由于视角重叠区域少导致现有方法难以保证几何一致性和新视角重建质量的核心挑战。
  • Method: 设计轻量级VGGT变体从预训练模型中提取几何先验;构建高斯头融合多尺度几何标记预测高斯参数;集成多尺度特征进行语义细化优化渲染质量。
  • Result: 在nuScenes数据集上,VGD在客观指标和主观质量上均显著优于现有最优方法,验证了其可扩展性和高保真环视重建能力。
  • Conclusion: VGD框架通过显式几何学习和特征一致性学习,有效解决了环视自动驾驶场景重建中的几何一致性和新视角质量问题,具有优越性能。

[52] Multi-modal Co-learning for Earth Observation: Enhancing single-modality models via modality collaboration

Francisco Mena,Dino Ienco,Cassio F. Dantas,Roberto Interdonato,Andreas Dengel

Main category: cs.CV

TL;DR: 提出了一种新颖的多模态协同学习框架,能够在训练阶段利用多种传感器数据,但在推理阶段仅使用单一模态进行预测,并在四个地球观测基准测试中取得了优于现有方法的性能。

  • Motivation: 地球观测领域产生大量多模态数据,但在实际应用中,训练和推理阶段可能无法获得相同的传感器模态。现有方法多为特定任务或模态定制,缺乏通用性。
  • Method: 结合对比学习和模态判别学习,引导单模态模型将内部模型流形结构化为模态共享和模态特定信息,实现跨任务和模态的泛化能力。
  • Result: 在四个涵盖分类和回归任务的地球观测基准测试中,相比现有机器学习和计算机视觉方法以及EO专用方法,都取得了持续的性能提升。
  • Conclusion: 该框架在单一模态推理场景下,能够有效利用训练阶段的多模态数据提升单模态模型的预测性能,适用于广泛的地球观测应用。

[53] Addressing the Depth-of-Field Constraint: A New Paradigm for High Resolution Multi-Focus Image Fusion

Luca Piano,Peng Huanwen,Radu Ciprian Bilcu

Main category: cs.CV

TL;DR: 提出了VAEEDOF方法,使用蒸馏变分自编码器进行多焦点图像融合,能同时处理7张图像,并创建了MattingMFIF合成数据集解决数据稀缺问题。

  • Motivation: 解决光学镜头景深限制导致只有特定范围内物体清晰的问题,以及传统和深度学习方法面临的训练数据有限、合成数据集域差距和缺乏信息区域处理困难等挑战。
  • Method: 使用蒸馏变分自编码器进行高保真、高效的图像重建,融合模块能同时处理最多7张图像,并创建了MattingMFIF合成4K数据集模拟真实景深效果。
  • Result: 实现了最先进的融合效果,生成无缝无伪影的融合图像,在合成和真实世界场景之间架起桥梁。
  • Conclusion: 该方法为解决复杂多焦点图像融合挑战提供了重要进展,代码和权重已公开。

[54] Uncertainty evaluation of segmentation models for Earth observation

Melanie Rey,Andriy Mnih,Maxim Neumann,Matt Overlan,Drew Purves

Main category: cs.CV

TL;DR: 本文研究卫星图像语义分割预测中的不确定性估计方法,针对遥感应用场景对现有方法进行基准测试,重点关注不确定性度量在识别预测错误和噪声区域方面的实际效用。

  • Motivation: 语义分割中的不确定性估计相比标准图像分类面临独特挑战,需要可扩展的逐像素估计方法。现有研究主要集中在场景理解或医学影像领域,缺乏专门针对遥感地球观测应用的系统评估。
  • Method: 在两个遥感数据集PASTIS和ForTy上进行实验,评估包括随机分割网络和集成方法在内的多种模型,结合不同神经网络架构和不确定性度量指标进行广泛测试。
  • Result: 通过实验发现不同方法在识别预测错误和噪声区域方面的表现差异,为实际应用提供了有价值的见解。
  • Conclusion: 基于研究结果提出了若干实用建议,为遥感语义分割中的不确定性估计提供了指导。

[55] Digitizing Paper ECGs at Scale: An Open-Source Algorithm for Clinical Research

Elias Stenhede,Agnar Martin Bjørnstad,Arian Ranjbar

Main category: cs.CV

TL;DR: 提出一个全自动模块化框架,将扫描或拍摄的ECG图像转换为数字信号,在多个数据集上验证优于现有技术,并开源软件以促进ECG档案的数字化利用。

  • Motivation: 数百万临床ECG仅以纸质扫描形式存在,无法用于现代自动化诊断,需要将其转换为可用的数字信号。
  • Method: 开发全自动模块化框架,处理扫描或拍摄的ECG图像,包括处理常见伪影、透视畸变、褶皱和污渍等问题。
  • Result: 在37,191张ECG图像上验证,在Akershus大学医院数据集上获得19.65 dB的信噪比,在Emory数据集上所有子类别均优于现有技术。
  • Conclusion: 该框架成功将纸质ECG转换为数字信号,开源软件将有助于解锁回顾性ECG档案并促进AI诊断的普及。

[56] Decomposed Attention Fusion in MLLMs for Training-Free Video Reasoning Segmentation

Su Ho Han,Jeongseok Hyun,Pilhyeon Lee,Minho Shim,Dongyoon Wee,Seon Joo Kim

Main category: cs.CV

TL;DR: 提出DecAF方法,通过分解注意力融合机制将MLLM的注意力图直接转换为分割掩码,无需训练即可实现视频推理分割。

  • Motivation: MLLM在视频理解方面表现出色,但其原始注意力图噪声大且与物体区域对齐差,需要一种无需训练的方法来精炼这些注意力图以实现视频分割。
  • Method: 提出分解注意力融合(DecAF),包含对比性物体-背景融合和互补视频帧融合两种机制,结合注意力引导的SAM2提示来获得细粒度掩码。
  • Result: DecAF在无需训练的方法中表现最佳,性能与基于训练的方法相当,在参考和推理VOS基准测试中均有良好表现。
  • Conclusion: 该方法证明了无需重新训练MLLM,仅通过注意力图精炼就能实现高质量的视频分割,为训练自由的视频理解任务提供了有效解决方案。

[57] CBDiff:Conditional Bernoulli Diffusion Models for Image Forgery Localization

Zhou Lei,Pan Gang,Wang Jiahao,Sun Di

Main category: cs.CV

TL;DR: 提出CBDiff模型,通过生成多个不同的伪造定位图来处理图像伪造定位中的不确定性,显著优于现有方法。

  • Motivation: 现有方法生成单一确定性定位图,缺乏高精度和可靠性,无法满足法医分析和安全监控等高要求应用。
  • Method: 使用条件伯努利扩散模型(CBDiff),在扩散过程中引入伯努利噪声以反映伪造掩码的二元稀疏特性,并设计时间步交叉注意力机制(TSCAttention)来利用语义特征指导。
  • Result: 在8个公开基准数据集上的广泛实验表明,CBDiff显著优于现有最先进方法。
  • Conclusion: CBDiff通过生成多个多样化定位图来增强预测可信度,在图像伪造定位任务中表现出强大潜力,适合实际部署。

[58] XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography

Haozhe Luo,Shelley Zixin Shu,Ziyu Zhou,Sebastian Otalora,Mauricio Reyes

Main category: cs.CV

TL;DR: 该论文提出了首个系统性基准XBench,用于评估胸片X光中视觉语言模型的跨模态可解释性,发现当前模型在临床可靠定位方面仍有不足。

  • Motivation: 视觉语言模型在医学图像理解中表现出色,但其定位能力(文本概念与视觉证据的对齐程度)尚未充分探索,而可靠的定位对于医学领域的可解释性和临床采用至关重要。
  • Method: 使用交叉注意力和相似性定位图生成视觉解释,并定量评估其与放射科医生标注区域在多种病理上的对齐程度,评估了7种CLIP风格的VLM变体。
  • Result: 研究发现:(1)所有VLM变体对大型明确病理定位良好,但对小型或弥散病变性能显著下降;(2)在胸片特定数据集预训练的模型比通用域数据训练的模型对齐更好;(3)模型识别能力与定位能力强相关。
  • Conclusion: 当前VLM尽管识别能力强,但在临床可靠定位方面仍有不足,强调在医学实践中部署前需要有针对性的可解释性基准测试。

[59] Beyond sparse denoising in frames: minimax estimation with a scattering transform

Nathanaël Cuvelle--Magar,Stéphane Mallat

Main category: cs.CV

TL;DR: 该论文提出了一种基于散射系数的去噪估计器,通过联合最小化和最大化不同散射系数子集的ℓ¹范数来抑制高斯噪声,在卡通图像去噪中达到了极小极大渐近界。

  • Motivation: 传统的基于帧的稀疏估计器(如小波、曲波等)无法充分适应复杂信号规律性,特别是对于边缘为分段C^α曲线的卡通图像,当Lipschitz指数α≤2为未知参数时,这些方法不是最优的。深度卷积神经网络虽然取得了更好的数值结果,但需要更简化的模型。
  • Method: 引入散射系数作为简化的卷积神经网络模型,通过第二次小波变换计算小波系数模数。提出去噪估计器,通过联合最小化和最大化不同散射系数子集的ℓ¹范数来实现去噪。
  • Result: 数值实验表明,该去噪估计器对于所有Lipschitz指数α≤2的卡通图像都达到了极小极大渐近界。证明了这些ℓ¹范数能够捕捉不同类型的几何图像规律性。
  • Conclusion: 该方法提供了一种不同的调和分析方法来抑制信号噪声并指定函数的几何规律性,在调和分析与深度卷积网络去噪估计器之间建立了数学桥梁,并将数值结果表述为数学猜想。

[60] Pragmatic Heterogeneous Collaborative Perception via Generative Communication Mechanism

Junfei Zhou,Penglin Dai,Quanmin Wei,Bingyi Liu,Xiao Wu,Jianping Wang

Main category: cs.CV

TL;DR: GenComm提出了一种生成式通信机制,通过特征生成实现异构多智能体系统的无缝感知,无需修改原始网络,并能以最小成本高效集成新智能体。

  • Motivation: 现实应用中异构智能体在传感器和模型上的差异会导致协作时的领域差距,现有方法因需要侵入式重训练和计算成本高而无法支持实用的异构协作。
  • Method: 设计可变形消息提取器提取空间消息,使用条件扩散模型生成与自我智能体语义空间对齐的特征,并通过通道增强器进行特征融合。
  • Result: 在OPV2V-H、DAIR-V2X和V2X-Real数据集上的实验表明,GenComm优于现有最先进方法,在集成新智能体时计算成本和参数数量减少81%。
  • Conclusion: GenComm通过生成式通信机制有效解决了异构多智能体协作中的领域差距问题,实现了高效且可扩展的感知增强。

[61] Augmenting Moment Retrieval: Zero-Dependency Two-Stage Learning

Zhengxuan Wei,Jiajin Tang,Sibei Yang

Main category: cs.CV

TL;DR: 提出了AMR框架,通过零外部依赖的数据增强解决时刻检索中的三个关键瓶颈:数据稀缺、边界模糊和细粒度语义区分不足,采用两阶段训练框架提升性能。

  • Motivation: 解决现有时刻检索方法的三个瓶颈:(1) 数据稀缺导致模型陷入浅层关键词特征关联;(2) 相邻事件间边界模糊;(3) 细粒度语义区分能力不足。
  • Method: 提出AMR框架,采用两阶段训练:冷启动阶段使用课程学习在增强数据上建立基础边界/语义感知;蒸馏阶段引入双查询集(原始查询和主动查询),通过跨阶段蒸馏损失保持知识一致性。
  • Result: 在多个基准测试中,AMR相比先前最先进方法实现了性能提升。
  • Conclusion: AMR框架有效克服了数据标注不足导致的局部最优问题,增强了边界和语义区分能力,显著提升了时刻检索性能。

[62] MedReason-R1: Learning to Reason for CT Diagnosis with Reinforcement Learning and Local Zoom

Yifan Li,Fenghe Tang,Yingtai Li,Shaohua Kevin Zhou

Main category: cs.CV

TL;DR: 提出了MedReason-R1医学视觉语言模型,通过嵌入放大病灶区域和GRPO强化学习框架,在CT疾病诊断中实现最先进性能

  • Motivation: 通用视觉语言模型在医学领域表现不佳,主要由于缺乏大规模高质量医学影像数据集和忽略了从粗到细的诊断过程
  • Method: 构建CT-RATE-VQA数据集(84K QA对),提出MedReason-R1模型,嵌入放大病灶区域,采用GRPO强化学习框架
  • Result: MedReason-R1在CT疾病诊断中达到最先进性能,同时保持泛化能力
  • Conclusion: 该方法通过强调全局定位和疾病特定细节,有效提升了医学诊断性能

[63] Re-Activating Frozen Primitives for 3D Gaussian Splatting

Yuxin Cheng,Binxiao Huang,Wenyong Zhou,Taiqiang Wu,Zhengwu Liu,Graziano Chesi,Ngai Wong

Main category: cs.CV

TL;DR: ReAct-GS通过重要性感知的致密化准则和参数扰动机制,解决了3D高斯泼溅中的过重建问题,在保持几何细节的同时提升了新视角合成性能。

  • Motivation: 3D高斯泼溅在复杂场景中会出现过重建伪影(局部模糊和针状扭曲),现有方法归因于大规模高斯分布分裂不足,但本文发现了两个根本限制:致密化过程中的梯度幅度稀释和原始冻结现象。
  • Method: 提出ReAct-GS方法,包含:(1) 重要性感知致密化准则,整合多视角的α混合权重来重新激活复杂区域的停滞原始生长;(2) 重新激活机制,通过自适应参数扰动来激活冻结的原始分布。
  • Result: 在多个真实世界数据集上的综合实验表明,ReAct-GS有效消除了过重建伪影,在标准新视角合成指标上达到最先进性能,同时保持了精细的几何细节。
  • Conclusion: ReAct-GS的重新激活机制在与其他3D-GS变体(如Pixel-GS)集成时也带来了一致的改进,证明了其广泛的适用性。

[64] From Forecasting to Planning: Policy World Model for Collaborative State-Action Prediction

Zhida Zhao,Talas Fu,Yifan Wang,Lijun Wang,Huchuan Lu

Main category: cs.CV

TL;DR: 提出了Policy World Model (PWM)新范式,将世界建模和轨迹规划统一在一个架构中,通过无动作的未来状态预测方案利用世界知识辅助规划,实现类人的前瞻性感知。

  • Motivation: 现有驾驶世界模型大多仅用于世界模拟,与轨迹规划分离,世界建模对规划的协同促进作用需要进一步探索。
  • Method: 提出PWM框架,通过协作状态-动作预测实现类人前瞻感知,引入动态增强并行token生成机制,配备上下文引导tokenizer和自适应动态焦点损失。
  • Result: 仅使用前视摄像头输入,性能匹配或超过依赖多视角和多模态输入的最先进方法。
  • Conclusion: PWM成功统一了世界建模和规划,通过世界知识有效提升了规划可靠性,展示了世界建模对自主系统的巨大潜力。

[65] I Spy With My Model's Eye: Visual Search as a Behavioural Test for MLLMs

John Burden,Jonathan Prunty,Ben Slater,Matthieu Tehenan,Greg Davis,Lucy Cheke

Main category: cs.CV

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[66] Curvilinear Structure-preserving Unpaired Cross-domain Medical Image Translation

Zihao Chen,Yi Zhou,Xudong Jiang,Li Chen,Leopold Schmetterer,Bingyao Tan,Jun Cheng

Main category: cs.CV

TL;DR: 提出CST框架,在无配对图像翻译中保持细长曲线结构,通过结构提取模块提供拓扑监督,可集成到现有方法中提升翻译保真度。

  • Motivation: 现有无配对图像翻译方法在医学成像中会扭曲细长曲线结构(如微血管),影响诊断可靠性和定量分析,这在眼科和血管成像中尤为重要。
  • Method: CST框架通过集成结构一致性到训练中,添加曲线结构提取模块进行拓扑监督,可无缝集成到CycleGAN和UNSB等现有方法中。
  • Result: 在OCT血管造影、彩色眼底和X射线冠脉造影三种成像模态上的评估显示,CST提高了翻译保真度并达到最先进性能。
  • Conclusion: CST通过增强学习映射中的几何完整性,为医学成像中的曲线结构感知跨域翻译建立了原则性途径。

[67] Explainable Face Presentation Attack Detection via Ensemble-CAM

Rashik Shadman,M G Sarwar Murshed,Faraz Hussain

Main category: cs.CV

TL;DR: 提出了一种名为Ensemble-CAM的新技术,用于为基于深度学习的活体检测系统提供视觉解释,提高系统的透明度和可信度。

  • Motivation: 现有的深度学习活体检测系统虽然有效,但大多作为黑盒运行,决策过程不透明。需要解释性技术来理解系统判断生物特征图像真伪的依据。
  • Method: 提出了Ensemble-CAM技术,通过视觉解释方法展示深度学习模型在判断人脸图像真伪时关注的关键区域。
  • Result: 该方法能够为基于深度学习的活体检测系统提供详细的视觉解释,帮助用户理解系统决策的依据。
  • Conclusion: Ensemble-CAM技术能够增强深度学习活体检测系统的透明度和可信度,为理解系统行为提供了有效工具。

[68] LyTimeT: Towards Robust and Interpretable State-Variable Discovery

Kuai Yu,Crystal Su,Xiang Liu,Judah Goldfeder,Mingyuan Shao,Hod Lipson

Main category: cs.CV

TL;DR: LyTimeT是一个两阶段框架,通过时空注意力机制和稳定性约束从高维视频中提取可解释的动态系统变量,有效抑制视觉干扰因素,实现鲁棒的潜在表示学习。

  • Motivation: 从高维视频中提取系统真实动态变量具有挑战性,因为存在背景运动、遮挡和纹理变化等干扰视觉因素。
  • Method: 第一阶段使用时序变换器自编码器,通过全局注意力关注动态相关区域;第二阶段通过线性相关性分析选择物理意义维度,并使用李雅普诺夫稳定性正则化器优化转移动态。
  • Result: 在五个合成基准和四个真实世界动态系统上的实验表明,LyTimeT在互信息和内在维度估计上最接近真实值,对背景扰动保持不变性,在CNN和纯变换器基线中具有最低的分析均方误差。
  • Conclusion: 结合时空注意力与稳定性约束可以产生既准确又物理可解释的预测模型。

[69] Adaptive Distribution-aware Quantization for Mixed-Precision Neural Networks

Shaohang Jia,Zhiyong Huang,Zhi Yu,Mingyang Hou,Shuai Miao,Han Yang

Main category: cs.CV

TL;DR: 提出ADQ自适应分布感知量化框架,通过自适应权重量化方案解决激活值分布不均和权重量化码本不匹配问题,在低比特量化下实现优异性能。

  • Motivation: 现有量化感知训练方法面临两个主要挑战:激活值的高度非均匀分布和权重量化中使用的静态、不匹配码本。
  • Method: 提出自适应分布感知量化(ADQ)框架,包含三个关键创新:分位数初始化方法、基于指数移动平均的在线码本自适应机制、以及敏感度指导的混合精度分配策略。对于激活值,集成硬件友好的非均匀到均匀映射方案。
  • Result: 在ImageNet上,ADQ使ResNet-18在平均位宽仅2.81比特时达到71.512%的Top-1准确率,在可比条件下优于最先进方法。在CIFAR-10上的消融研究验证了各创新组件的贡献。
  • Conclusion: ADQ框架通过自适应权重量化方案有效解决了量化中的分布不均和码本不匹配问题,在低比特量化下实现了优异的性能表现。

[70] OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation

Guowei Xu,Yuxuan Bian,Ailing Zeng,Mingyi Shi,Shaoli Huang,Wen Li,Lixin Duan,Qiang Xu

Main category: cs.CV

TL;DR: OmniMotion-X是一个多模态人体运动生成框架,使用自回归扩散变换器统一处理文本到运动、音乐到舞蹈、语音到手势等多种任务,支持空间-时间控制,并构建了最大的多模态运动数据集OmniMoCap-X。

  • Motivation: 现有方法难以统一处理多样化的多模态运动生成任务,且缺乏大规模标准化数据集。需要开发一个能够处理多种输入模态并生成一致、可控运动序列的通用框架。
  • Method: 提出使用参考运动作为条件信号增强一致性,采用渐进弱到强混合条件训练策略处理多模态冲突,构建OmniMoCap-X数据集(整合28个MoCap源),使用GPT-4o自动生成结构化标注。
  • Result: 实验证明OmniMotion-X在多个多模态任务上显著超越现有方法,实现最先进性能,能够交互式生成真实、连贯、可控的长时运动序列。
  • Conclusion: OmniMotion-X提供了一个统一的多模态运动生成解决方案,通过创新的条件信号和训练策略,结合大规模标准化数据集,实现了高质量、多样化的运动生成能力。

[71] Class-Aware Prototype Learning with Negative Contrast for Test-Time Adaptation of Vision-Language Models

Xiaozhen Qiao,Jingkai Zhao,Yuqiu Jiang,Xianda Guo,Zhe Sun,Hongyuan Zhang,Xuelong Li

Main category: cs.CV

TL;DR: 提出了CPL-NC框架,通过类别感知原型缓存和负对比学习机制,解决视觉语言模型在分布偏移下的测试时适应问题。

  • Motivation: 视觉语言模型在训练分布与部署分布不一致时性能下降,现有测试时适应方法忽略了长尾分布中的原型退化和语义相似类之间的混淆问题。
  • Method: CPL-NC包含类别感知原型缓存模块(动态调整每类容量并保留稀有类别知识)和负对比学习机制(约束困难视觉-文本负样本),采用非对称优化仅更新文本原型。
  • Result: 在15个基准测试中,CPL-NC在ResNet-50和ViT-B/16骨干网络上均优于现有测试时适应方法。
  • Conclusion: CPL-NC是一个轻量级测试时适应框架,能有效提升视觉语言模型在分布偏移下的泛化能力。

[72] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

Yusu Qian,Eli Bocek-Rivele,Liangchen Song,Jialing Tong,Yinfei Yang,Jiasen Lu,Wenze Hu,Zhe Gan

Main category: cs.CV

TL;DR: 提出了Pico-Banana-400K数据集,这是一个包含40万张图像的大规模、高质量指令图像编辑数据集,基于真实图像构建,支持多轮编辑、偏好学习和指令重写等复杂场景研究。

  • Motivation: 当前多模态模型在文本引导图像编辑方面取得显著进展,但研究社区缺乏基于真实图像的大规模、高质量、开放可访问数据集,限制了进一步研究。
  • Method: 利用Nano-Banana从OpenImages的真实照片生成多样化编辑对,采用细粒度图像编辑分类法确保编辑类型覆盖,通过MLLM质量评分和精心策划保证内容保留和指令忠实度。
  • Result: 构建了包含40万图像的数据集,包含三个专门子集:7.2万例多轮编辑、5.6万例偏好学习、以及长短指令配对数据,为下一代文本引导图像编辑模型提供训练和基准测试基础。
  • Conclusion: Pico-Banana-400K为训练和评估下一代文本引导图像编辑模型提供了大规模、高质量、任务丰富的资源基础。

[73] How to Evaluate Monocular Depth Estimation?

Siyang Wu,Jack Nugent,Willow Yang,Jia Deng

Main category: cs.CV

TL;DR: 本文对单目深度估计的评估指标进行了定量分析,发现现有指标对曲率扰动严重不敏感,并提出了基于相对表面法线的新指标、可视化工具和构建复合指标的原理方法。

  • Motivation: 单目深度估计研究进展迅速,但评估方法缺乏标准化,现有评估指标的选择多样且其权衡和行为未被充分理解,需要系统分析指标性能并与人类判断进行比较。
  • Method: 对现有评估指标进行定量分析,测试它们对地面真值各种扰动的敏感性,特别关注与人类判断的一致性;引入基于相对表面法线的新指标,开发新的深度可视化工具,并提出构建更好对齐人类判断的复合指标的原理方法。
  • Result: 分析显示现有指标对曲率扰动(如使平坦表面波浪化)严重不敏感;提出的新指标和复合指标方法能更好地与人类判断对齐。
  • Conclusion: 现有深度估计评估指标存在显著缺陷,特别是对曲率变化的敏感性不足;提出的新指标和复合指标构建方法能改善评估质量,促进更标准化的评估实践。

[74] olmOCR 2: Unit Test Rewards for Document OCR

Jake Poznanski,Luca Soldaini,Kyle Lo

Main category: cs.CV

TL;DR: olmOCR 2是一个基于7B视觉语言模型的OCR系统,使用强化学习和可验证奖励进行训练,在复杂布局文档转换方面达到最先进性能。

  • Motivation: 开发能够将数字化打印文档(如PDF)转换为干净、自然排序纯文本的强大OCR系统,特别是在处理数学公式、表格和多列布局等复杂结构时。
  • Method: 使用强化学习与可验证奖励(RLVR)训练专门的7B视觉语言模型,通过生成具有多样化布局的合成文档来扩展单元测试创建,奖励基于多样化的二进制单元测试。
  • Result: 在olmOCR-Bench英文OCR基准测试中达到最先进性能,在数学公式转换、表格解析和多列布局方面相比之前版本有最大改进。
  • Conclusion: olmOCR 2在复杂文档OCR任务中表现出色,模型、数据和代码已按开放许可发布。

[75] Is This Tracker On? A Benchmark Protocol for Dynamic Tracking

Ilona Demler,Saumya Chauhan,Georgia Gkioxari

Main category: cs.CV

TL;DR: ITTO是一个新的点跟踪基准测试套件,包含真实世界视频和高质量人工标注,用于评估点跟踪方法在复杂运动、遮挡和物体多样性方面的表现。

  • Motivation: 现有基准测试缺乏真实世界场景中的运动复杂性、遮挡模式和物体多样性,需要一个新的测试平台来评估和诊断点跟踪方法的局限性。
  • Method: 从现有数据集和自我中心真实世界录制中收集视频,通过多阶段流程收集高质量人工标注,构建包含真实世界场景特征的基准测试套件。
  • Result: 对最先进的跟踪方法在ITTO上进行严格分析,发现现有跟踪器在处理这些挑战时表现不佳,特别是在遮挡后重新识别点方面存在严重问题。
  • Conclusion: ITTO可作为推进点跟踪技术的基础测试平台,指导开发更鲁棒的跟踪算法,需要针对真实世界动态的新建模方法。

cs.RO

[76] -SDF: Learning Euclidean Signed Distance Functions Online with Gradient-Augmented Octree Interpolation and Neural Residual

Zhirui Dai,Qihao Qian,Tianxing Fan,Nikolay Atanasov

Main category: cs.RO

TL;DR: 提出了一种结合显式梯度增强八叉树插值和隐式神经残差的混合方法∇-SDF,用于从点云数据重建非截断的欧几里得SDF,在计算效率、内存使用和精度方面均优于现有方法。

  • Motivation: 现有方法存在局限性:基于离散体素的方法影响SDF估计的连续性和可微性,而神经网络方法虽然精度高但效率较低、存在灾难性遗忘和内存限制问题,且通常仅限于截断SDF。
  • Method: 提出∇-SDF混合方法,结合梯度增强八叉树插值提供的显式先验和隐式神经残差,实现非截断欧几里得SDF重建。
  • Result: 该方法在计算效率和内存使用方面与体素方法相当,在可微性和精度方面与神经网络方法相当,在精度和效率方面均优于现有最先进方法。
  • Conclusion: ∇-SDF为机器人和计算机视觉中的下游任务提供了可扩展的解决方案,在保持高精度的同时实现了计算和内存效率。

[77] GRASPLAT: Enabling dexterous grasping through novel view synthesis

Matteo Bortolon,Nuno Ferreira Duarte,Plinio Moreno,Fabio Poiesi,José Santos-Victor,Alessio Del Bue

Main category: cs.RO

TL;DR: GRASPLAT是一个新颖的抓取框架,仅使用RGB图像训练,通过3D高斯泼溅生成手-物体交互的高保真新视角,提高多指手抓取成功率。

  • Motivation: 现有方法依赖完整3D扫描来预测抓取姿态,但在真实场景中获取高质量3D数据困难,需要仅使用RGB图像就能实现灵巧抓取的解决方案。
  • Method: 利用3D高斯泼溅合成手抓取物体的物理合理图像,回归对应的手部关节;引入光度损失函数,通过最小化渲染图像与真实图像之间的差异来优化抓取预测。
  • Result: 在合成和真实世界抓取数据集上的广泛实验表明,GRASPLAT相比现有基于图像的方法将抓取成功率提高了36.9%。
  • Conclusion: GRASPLAT证明了仅使用RGB图像训练就能实现有效的多指手抓取,为真实世界场景中的灵巧抓取提供了可行的解决方案。

[78] GigaBrain-0: A World Model-Powered Vision-Language-Action Model

GigaBrain Team,Angen Ye,Boyuan Wang,Chaojun Ni,Guan Huang,Guosheng Zhao,Haoyun Li,Jie Li,Jiagang Zhu,Lv Feng,Peng Li,Qiuping Deng,Runqi Ouyang,Wenkang Qin,Xinze Chen,Xiaofeng Wang,Yang Wang,Yifan Li,Yilong Li,Yiran Ding,Yuan Xu,Yun Ye,Yukun Zhou,Zhehao Dong,Zhenan Wang,Zhichao Liu,Zheng Zhu

Main category: cs.RO

TL;DR: GigaBrain-0是一个利用世界模型生成数据来训练视觉-语言-动作模型的新方法,显著减少对真实机器人数据的依赖,同时提高跨任务泛化能力和策略鲁棒性。

  • Motivation: 传统视觉-语言-动作模型训练需要大规模真实机器人数据,收集成本高且效率低,限制了系统的可扩展性和泛化能力。
  • Method: 通过世界模型生成多样化数据(视频生成、真实到真实转换、人类转换、视角转换、仿真到真实转换),结合RGBD输入建模和具身思维链监督来提升策略鲁棒性。
  • Result: 在灵巧操作、长时程和移动操作任务中实现显著性能提升,在外观、物体放置和相机视角变化方面表现出优越的泛化能力。
  • Conclusion: GigaBrain-0通过世界模型生成数据有效解决了真实机器人数据收集的瓶颈问题,为通用机器人VLA模型提供了可扩展的解决方案。

cs.HC

[79] Learning To Defer To A Population With Limited Demonstrations

Nilesh Ramgolam,Gustavo Carneiro,Hsiang-Ting,Chen

Main category: cs.HC

TL;DR: 提出了一种上下文感知的半监督框架,使用元学习从少量演示中生成专家特定嵌入,解决学习延迟系统部署中的数据稀缺问题。

  • Motivation: 解决学习延迟系统在实际部署中面临的关键数据稀缺问题,使自适应L2D系统更加实用和可扩展。
  • Method: 采用元学习方法生成专家特定嵌入,使用双重机制:首先生成大量伪标签用于训练,然后在测试时实现对新专家的即时适应。
  • Result: 在三个不同数据集上的实验结果表明,使用合成标签训练的模型能快速达到接近oracle级别的性能,验证了方法的数据效率。
  • Conclusion: 通过解决关键训练瓶颈,这项工作使自适应L2D系统更加实用和可扩展,为现实环境中的人机协作铺平了道路。

cs.CR

[80] From See to Shield: ML-Assisted Fine-Grained Access Control for Visual Data

Mete Harun Akcay,Buse Gul Atli,Siddharth Prakash Rao,Alexandros Bakas

Main category: cs.CR

TL;DR: 提出了一种可信数据共享系统架构,通过策略驱动的访问控制实现敏感区域的选择性保护,结合自动检测、后校正、密钥管理和访问控制四个核心模块,在视觉数据集上验证了系统的有效性。

  • Motivation: 随着存储数据量的增长,在大规模存储库中识别和保护敏感信息变得越来越困难,特别是在与具有不同角色和权限的多个用户共享数据时。
  • Method: 集成四个核心模块:自动敏感区域检测、后校正、密钥管理和访问控制。采用混合加密方案,使用对称加密保证效率,基于属性的加密实现策略执行。支持高效密钥分发和隔离密钥存储。
  • Result: 系统在视觉数据集上有效检测隐私敏感对象,宏观平均F1分数提高5%,平均精度均值提高10%,平均策略执行解密时间每张图像小于1秒。
  • Conclusion: 所提出的解决方案在细粒度访问控制方面表现出有效性、高效性和可扩展性。

cs.LG

[81] MetaCluster: Enabling Deep Compression of Kolmogorov-Arnold Network

Matthew Raffel,Adwaith Renjith,Lizhong Chen

Main category: cs.LG

TL;DR: MetaCluster框架通过元学习器和聚类技术显著压缩Kolmogorov-Arnold Networks的参数存储,最高可达80倍压缩率且不损失精度。

  • Motivation: KANs用向量权重替代标量权重提高了表达能力,但导致参数和内存呈乘性增长,需要高效的压缩方法。
  • Method: 使用轻量级元学习器将低维嵌入映射到系数向量,使其位于低维流形上,然后进行K-means聚类,用共享质心替代每边向量,最后微调质心码本。
  • Result: 在MNIST、CIFAR-10和CIFAR-100数据集上,对标准KANs和ConvKANs实现最高80倍的参数存储减少,且精度无损失。
  • Conclusion: MetaCluster成功解决了KANs的参数存储问题,通过利用参数向量性质实现高效压缩,为KANs的实际应用铺平道路。

[82] FrogDeepSDM: Improving Frog Counting and Occurrence Prediction Using Multimodal Data and Pseudo-Absence Imputation

Chirag Padubidri,Pranesh Velmurugan,Andreas Lanitis,Andreas Kamilaris

Main category: cs.LG

TL;DR: 本研究通过应用深度学习和数据插补技术,结合"EY-2022生物多样性挑战"数据,提高了青蛙物种分布模型的准确性。数据平衡显著改善了模型性能,多模态集成模型在青蛙计数和栖息地分类任务中表现优异。

  • Motivation: 传统物种分布监测方法覆盖范围有限且不完整,需要更准确的方法来评估环境影响和制定保护策略。物种分布建模(SDM)有助于填补这些空白,但数据稀疏或不完整时预测精度受限。
  • Method: 应用深度学习和数据插补技术,使用数据平衡和特征选择方法,构建多模态集成模型整合土地覆盖、NDVI和其他环境输入数据。
  • Result: 数据平衡使青蛙计数任务的MAE从189降低到29;多模态集成模型优于单个模型,在未见区域表现出稳健泛化能力;图像和表格数据融合实现了84.9%的分类准确率和0.90的AUC。
  • Conclusion: 多模态学习和数据预处理技术(如平衡和插补)在数据稀疏或不完整时能显著提高生态预测建模精度,为更精确和可扩展的生物多样性监测做出贡献。

[83] A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation

Jiacheng Liu,Xinyu Wang,Yuqi Lin,Zhikai Wang,Peiru Wang,Peiliang Cai,Qinming Zhou,Zhengan Yan,Zexuan Yan,Zhengyi Shi,Chang Zou,Yue Ma,Linfeng Zhang

Main category: cs.LG

TL;DR: Diffusion Caching是一种无需训练、架构无关的高效推理范式,通过识别和重用扩散过程中的计算冗余来减少计算量,实现从静态重用到动态预测的演进。

  • Motivation: 扩散模型的多步迭代和复杂网络结构导致计算开销大、生成延迟高,限制了实时应用。现有加速技术存在适用性有限、训练成本高或质量下降等问题。
  • Method: 通过特征级跨步重用和层间调度,在不修改模型参数的情况下减少计算。该方法从静态重用到动态预测演进,增强缓存灵活性。
  • Result: Diffusion Caching能够有效减少计算量,可与采样优化和模型蒸馏等其他加速技术集成,为未来多模态和交互应用提供统一高效推理框架。
  • Conclusion: 该范式将成为实时高效生成AI的关键推动者,为高效生成智能的理论和实践注入新活力。

cs.AI

[84] Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning

Gunshi Gupta,Karmesh Yadav,Zsolt Kira,Yarin Gal,Rahaf Aljundi

Main category: cs.AI

TL;DR: Memo是一个基于transformer的架构和训练方法,用于强化学习中的记忆密集型长时程任务,通过插入周期性总结标记来创建和检索记忆,在计算和存储效率上优于传统长上下文transformer。

  • Motivation: 当前基于transformer的具身智能体策略训练中,视觉输入常常超出transformer的上下文限制,而人类能够将终身经验压缩为记忆使用。现有方法要么使用固定大小的循环记忆,要么依赖完整上下文,缺乏有效的记忆压缩机制。
  • Method: Memo在训练过程中通过周期性插入总结标记来创建和检索记忆,形成transformer-based的强化学习架构。
  • Result: 在网格世界元强化学习基准和照片级真实室内多目标导航任务中,Memo优于朴素的长上下文transformer基线,同时计算和存储效率更高。在推理时对更长上下文有更好的泛化能力,在流式设置中保持鲁棒性。
  • Conclusion: Memo通过记忆创建和检索机制,为具身智能体在长时程任务中提供了有效的记忆管理方案,解决了transformer上下文限制的问题。

cs.CL

[85] Spatio-temporal Sign Language Representation and Translation

Yasser Hamidullah,Josef van Genabith,Cristina España-Bonet

Main category: cs.CL

TL;DR: DFKI-MLT团队提交的WMT-SLT 2022手语翻译系统,从瑞士德语手语视频直接翻译为德语文本,采用端到端架构学习时空特征表示。

  • Motivation: 传统手语翻译系统使用通用seq2seq架构但缺乏对时间特征的充分利用,需要开发能同时学习时空特征和翻译的端到端模型以提升泛化能力。
  • Method: 提出单一模型同时学习时空特征表示和翻译的端到端架构,替代传统使用视频帧特征提取的方法。
  • Result: 在开发集上达到5±1 BLEU分,但在测试集上性能显著下降至0.11±0.06 BLEU分。
  • Conclusion: 端到端架构在开发集上表现良好,但在测试集上泛化能力不足,表明模型对新数据集的适应性仍需改进。

[86] Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark

Yu Wu,Ke Shu,Jonas Fischer,Lidia Pivovarova,David Rosson,Eetu Mäkelä,Mikko Tolonen

Main category: cs.CL

TL;DR: 提出从多语言历史文档中提取拉丁语片段的新任务,评估大模型在724页标注数据集上的性能,证明当代模型可实现可靠的拉丁语检测

  • Motivation: 解决混合语言历史文档中拉丁语片段的自动提取问题,填补该领域的研究空白
  • Method: 使用724页多模态标注数据集,对大型基础模型进行基准测试和性能评估
  • Result: 结果表明当代模型能够实现可靠的拉丁语检测
  • Conclusion: 本研究首次全面分析了这些模型在此任务上的能力和局限性

eess.IV

[87] Automated Morphological Analysis of Neurons in Fluorescence Microscopy Using YOLOv8

Banan Alnemri,Arwa Basbrain

Main category: eess.IV

TL;DR: 提出基于YOLOv8的神经元实例分割和形态测量管道,在荧光显微镜图像中实现高精度自动化分析,减少人工标注需求。

  • Motivation: 荧光显微镜图像中神经元细胞的准确分割和形态分析对神经科学和生物医学成像至关重要,但传统方法劳动密集且耗时。
  • Method: 使用YOLOv8模型在手动标注的显微镜图像上进行训练,实现神经元实例分割,并利用真实和预测掩码提取生物特征。
  • Result: 分割准确率超过97%,形态测量总体准确率达到75.32%,证明方法的有效性。
  • Conclusion: 该集成框架为细胞成像和神经科学研究提供了有价值的自动化分析工具,能够实现可扩展的精确神经元形态量化。