Skip to content
每日arXiv - 2025年12月30日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Characterizing Motion Encoding in Video Diffusion Timesteps

Vatsal Baherwani,Yixuan Ren,Abhinav Shrivastava

Main category: cs.CV

TL;DR: 该研究系统分析了视频扩散模型中时间步长对运动与外观编码的影响,发现早期时间步主导运动,后期时间步主导外观,并基于此简化了运动定制方法。

  • Motivation: 尽管实践中常用"早期时间步控制运动、后期时间步控制外观"的经验法则,但这种行为从未被系统研究过。研究者希望理解视频扩散模型中运动编码的时间动态特性。
  • Method: 通过在不同时间步范围内注入新条件,研究运动保持与外观编辑之间的权衡,以此作为运动编码的代理指标。进行大规模定量研究,分析不同架构下的时间步动态。
  • Result: 发现一致的早期运动主导阶段和后期外观主导阶段,确定了时间步空间中的运动-外观边界。基于此,通过将训练和推理限制在运动主导阶段,简化了运动定制方法。
  • Conclusion: 将经验法则转化为时空解耦原理,提出的时间步约束方法可直接集成到现有运动传递和编辑方法中,无需额外去偏模块或专门目标函数。

[2] Real-Time American Sign Language Recognition Using 3D Convolutional Neural Networks and LSTM: Architecture, Training, and Deployment

Dawnena Key

Main category: cs.CV

TL;DR: 基于3D CNN与LSTM混合架构的实时美式手语识别系统,通过摄像头视频流识别单词级手语,在WLASL等数据集上取得0.71-0.99的F1分数,支持AWS云部署和OAK-D相机边缘计算。

  • Motivation: 为全球超过7000万聋哑及听力障碍人士解决沟通障碍问题,开发实时手语识别系统以促进无障碍交流。
  • Method: 采用3D CNN提取视频帧的时空特征,结合LSTM层建模手语手势的序列依赖关系,在WLASL数据集(2000个常用词)、ASL-LEX词汇数据库(约2700个手势)和100个专家标注的手语数据集上进行训练。
  • Result: 系统在不同手语类别上获得0.71到0.99的F1分数,实现了实时识别性能,并成功部署在AWS基础设施和OAK-D相机上进行边缘计算。
  • Conclusion: 提出的混合深度学习架构能有效识别美式手语,系统具备实际应用价值,为无障碍通信提供了可行的技术解决方案。

[3] Enhancing Medical Data Analysis through AI-Enhanced Locally Linear Embedding: Applications in Medical Point Location and Imagery

Hassan Khalid,Muhammad Mahad Khaliq,Muhammad Jawad Bashir

Main category: cs.CV

TL;DR: 本文提出了一种将AI与局部线性嵌入(LLE)相结合的新方法,用于处理高维医疗数据,旨在提高医疗账单系统和转录服务的准确性和效率。

  • Motivation: 人工智能在医疗领域的快速发展为改进医疗流程(如账单和转录)创造了机会。当前医疗数据处理存在高维度、准确性不足和效率低下的问题,需要创新的AI解决方案来优化这些关键流程。
  • Method: 开发了一种AI增强的局部线性嵌入(LLE)模型,专门用于处理高维医疗数据。该方法通过自动化医疗账单和转录流程,减少人为错误,提高操作效率。论文提供了完整的数学模型,并通过一系列实验验证其在真实医疗场景中的应用。
  • Result: 实验结果显示,该AI增强LLE模型在数据处理准确性和操作效率方面都有显著提升。模型能够有效处理复杂的医疗数据,改善患者护理文档记录和财务交易的准确性和速度。
  • Conclusion: AI增强的LLE模型在医疗数据分析中展现出巨大潜力,不仅提高了医疗账单和转录服务的性能,还为未来更广泛的医疗应用研究奠定了基础。该研究为医疗数据处理的自动化提供了有前景的技术路径。

[4] Unbiased Visual Reasoning with Controlled Visual Inputs

Zhaonan Li,Shijie Lu,Fei Wang,Jacob Dineen,Xiao Ye,Zhikun Xu,Siyi Liu,Young Min Cho,Bangzheng Li,Daniel Chang,Kenny Nguyen,Qizheng Yang,Muhao Chen,Ben Zhou

Main category: cs.CV

TL;DR: VISTA是一个模块化视觉语言框架,通过信息瓶颈将感知与推理解耦,使用冻结的VLM传感器进行客观感知查询,文本LLM进行推理,通过强化学习训练无偏视觉推理,显著提高了对虚假相关性的鲁棒性。

  • Motivation: 现有的端到端视觉语言模型(VLMs)在回答视觉问题时容易利用虚假相关性而非因果视觉证据,微调后更容易走捷径,需要一种方法来提高视觉推理的鲁棒性和可解释性。
  • Method: 提出VISTA框架:1)冻结的VLM传感器仅处理简短、客观的感知查询;2)纯文本LLM推理器分解问题、规划查询、聚合视觉事实;3)通过强化学习(GRPO)在仅641个多步问题数据集上训练无偏视觉推理。
  • Result: 在SpuriVerse数据集上显著提升鲁棒性(Qwen-2.5-VL-7B提升16.29%,Llama-3.2-Vision-11B提升6.77%),在MMVP和SeedBench子集上保持竞争力,能跨VLM传感器迁移,并能识别和恢复感知失败。
  • Conclusion: VISTA通过模块化设计和信息瓶颈有效减少了视觉推理中的虚假相关性依赖,提高了鲁棒性和可解释性,为构建更可靠的视觉语言系统提供了新思路。

[5] SAMM2D: Scale-Aware Multi-Modal 2D Dual-Encoder for High-Sensitivity Intracrania Aneurysm Screening

Antara Titikhsha,Divyanshu Tak

Main category: cs.CV

TL;DR: SAMM2D是一个用于颅内动脉瘤检测的双编码器框架,在RSNA数据集上达到0.686 AUC,比临床基线提高32%。研究发现,在强预训练骨干网络下,数据增强反而会降低性能,推翻了"更多增强总是更好"的假设。

  • Motivation: 动脉瘤检测对预防致命性出血至关重要,但面临动脉瘤形态细微、类别极度不平衡和标注数据稀缺的挑战。现有方法通常依赖数据增强来缓解数据不足问题,但增强策略的有效性在强预训练模型下尚未得到充分验证。
  • Method: 提出SAMM2D双编码器框架,使用ImageNet预训练骨干网络。通过六种不同增强策略的消融实验,对比有无数据增强的性能差异。使用决策阈值校准达到95%灵敏度,并通过Grad-CAM可视化验证模型关注区域。
  • Result: 1. SAMM2D在RSNA数据集上达到0.686 AUC,比临床基线提高32%;2. 无增强基线模型优于所有增强变体1.75-2.23个百分点(p<0.01);3. 校准后达到95%灵敏度,超过平均放射科医生水平;4. 在筛查应用中每1000名患者可节省1390万美元;5. Grad-CAM显示85%真阳性关注相关血管区域(与专家标注IoU达62%)。
  • Conclusion: 在强预训练骨干网络下,数据增强反而会损害性能,因为ImageNet预训练特征已经捕获了鲁棒的不变性。未来医学影像工作流程可能从强预训练中获益更多,而非复杂的增强流水线。SAMM2D展示了临床实用性,能显著提高筛查效率并降低成本。

[6] HookMIL: Revisiting Context Modeling in Multiple Instance Learning for Computational Pathology

Xitong Ling,Minxi Ouyang,Xiaoxiao Li,Jiawen Li,Ying Chen,Yuxuan Sun,Xinrui Chen,Tian Guan,Xiaoping Liu,Yonghong He

Main category: cs.CV

TL;DR: HookMIL:一种用于计算病理学的上下文感知、计算高效的多实例学习框架,使用可学习的hook tokens进行结构化上下文聚合,支持多模态初始化,具有线性复杂度

  • Motivation: 传统MIL方法在分析全切片图像时丢失关键上下文信息,而基于transformer的变体虽然表达能力更强,但存在二次复杂度和冗余计算的问题
  • Method: 提出HookMIL框架,使用紧凑的可学习hook tokens进行结构化上下文聚合;支持三种初始化方式:关键补丁视觉特征、视觉语言病理模型的文本嵌入、空间转录组-视觉模型的空间基础特征;引入Hook多样性损失促进专业化;采用hook-to-hook通信机制优化上下文交互
  • Result: 在四个公共病理数据集上的实验表明,HookMIL实现了最先进的性能,同时提高了计算效率和可解释性
  • Conclusion: HookMIL通过创新的hook tokens机制,有效解决了传统MIL方法上下文信息丢失和transformer变体计算复杂的问题,为计算病理学中的弱监督分析提供了高效且可解释的解决方案

[7] Tiny-YOLOSAM: Fast Hybrid Image Segmentation

Kenneth Xu,Songhan Wu

Main category: cs.CV

TL;DR: Tiny-YOLOSAM:结合YOLO检测器和TinySAM的混合系统,通过检测器引导的框提示和稀疏点提示替代密集的"分割一切"模式,实现快速全场景分割

  • Motivation: SAM模型计算成本高,不适合延迟敏感场景;TinySAM虽然轻量,但其"分割一切"模式仍需要数百个提示且速度较慢,需要更高效的解决方案
  • Method: 提出Tiny-YOLOSAM混合管道:1) 使用YOLOv12检测器生成前景对象的框提示;2) 在YOLO引导的掩码未覆盖区域补充稀疏点提示;3) 结合两种提示输入TinySAM进行分割
  • Result: 在COCO val2017上:类别无关覆盖率显著提升(AR从16.4%到77.1%,mIoU从19.2%到67.8%);端到端运行时间从49.20秒/图像减少到10.39秒/图像(4.7倍加速)
  • Conclusion: 检测器引导提示结合目标稀疏采样是实际全场景分割中替代密集"分割一切"提示的有效方法,在保持分割质量的同时大幅提升速度

[8] Quadrant Segmentation VLM with Few-Shot Adaptation and OCT Learning-based Explainability Methods for Diabetic Retinopathy

Shivum Telang

Main category: cs.CV

TL;DR: 提出一种多模态可解释性模型,利用视觉语言模型和少样本学习,通过分析视网膜象限中的病变分布来模拟眼科医生的推理过程,为糖尿病视网膜病变诊断提供定量检测系统。

  • Motivation: 糖尿病视网膜病变是全球视力丧失的主要原因,需要早期检测。医生缺乏时间进行病变标注,现有AI模型仅突出病变位置而无法解释分类推理,且依赖单一成像模态,可解释性有限。
  • Method: 提出新颖的多模态可解释性模型,使用视觉语言模型和少样本学习,分析视网膜象限中的病变分布。模型生成配对的Grad-CAM热图,展示OCT和眼底图像中单个神经元的权重,可视化突出对DR严重程度分类有贡献的区域。
  • Result: 使用包含3,000张眼底图像和1,000张OCT图像的数据集,该方法解决了当前DR诊断的关键限制,为改善患者预后提供了实用且全面的工具。
  • Conclusion: 该创新方法通过多模态可解释性模型,克服了当前DR诊断模型的局限性,能够用自然语言识别单个DR病变,在筛查、治疗和研究环境中具有广泛应用潜力。

[9] TCFormer: A 5M-Parameter Transformer with Density-Guided Aggregation for Weakly-Supervised Crowd Counting

Qiang Guo,Rubo Zhang,Bingbing Zhang,Junjie Liu,Jianqing Liu

Main category: cs.CV

TL;DR: TCFormer:一个仅500万参数的轻量级弱监督Transformer人群计数框架,在资源受限环境中实现高效准确的人群计数

  • Motivation: 传统人群计数方法依赖劳动密集的点级标注和计算密集的骨干网络,限制了其在资源受限环境中的可扩展性和部署能力
  • Method: 1. 采用高效视觉Transformer作为特征提取器;2. 设计可学习密度加权平均模块动态重加权局部token;3. 引入密度级别分类损失将人群密度离散化为不同等级
  • Result: 在ShanghaiTech A/B、UCF-QNRF和NWPU四个基准数据集上表现出色,在参数效率和计数精度之间取得了优越的平衡
  • Conclusion: TCFormer为边缘设备上的人群计数任务提供了一个良好的解决方案,仅使用图像级全局计数进行弱监督训练即可实现高估计精度

[10] A CNN-Based Malaria Diagnosis from Blood Cell Images with SHAP and LIME Explainability

Md. Ismiel Hossen Abir,Awolad Hossain

Main category: cs.CV

TL;DR: 提出基于自定义CNN的深度学习模型,用于自动分类疟疾感染的血细胞图像,准确率达96%,并比较多种经典架构,应用可解释AI技术增强模型透明度。

  • Motivation: 疟疾在热带和亚热带地区仍是严重健康问题。传统诊断方法(如显微镜血涂片分析)灵敏度低、依赖专家判断、在偏远地区资源不足,需要更高效准确的自动化诊断方案。
  • Method: 采用自定义卷积神经网络(CNN)对血细胞图像进行自动分类(感染/未感染),并与ResNet50、VGG16、MobileNetV2、DenseNet121等经典架构进行比较。应用SHAP、LIME和显著性图等可解释AI技术增强模型透明度。
  • Result: 自定义CNN模型达到96%的准确率,两个类别的精确率和召回率均超过0.95。模型在疟疾诊断中展现出快速、准确的性能,特别适合资源有限地区。
  • Conclusion: 深度学习可为疟疾诊断提供快速、准确且可解释的解决方案,特别是在资源有限地区,有助于改善传统诊断方法的局限性。

[11] Signal-SGN++: Topology-Enhanced Time-Frequency Spiking Graph Network for Skeleton-Based Action Recognition

Naichuan Zheng,Xiahai Lun,Weiyi Li,Yuchen Du

Main category: cs.CV

TL;DR: 提出Signal-SGN++框架,结合SNN的能效优势与GCN的拓扑建模能力,通过1D-SGC和FSC提取时空-频谱特征,嵌入TSSA机制自适应学习骨骼拓扑,并利用MWTF分支进行多尺度时频融合,在保持高能效的同时提升动作识别性能。

  • Motivation: 传统GCN在骨骼动作识别中计算密集、能耗高,而SNN虽然能效高但难以捕捉人体运动的时空-频率耦合依赖和拓扑关系。需要结合两者优势,开发既能效又高性能的拓扑感知脉冲图神经网络框架。
  • Method: 1. 使用1D-SGC和FSC作为主干网络,联合提取时空和频谱特征;2. 嵌入TSSA机制,自适应地在学习到的骨骼拓扑上路由注意力;3. 引入MWTF辅助分支,将脉冲特征分解为多分辨率时频表示;4. 使用TATF单元融合拓扑结构先验,保持拓扑一致的频谱融合。
  • Result: 在大规模基准测试中,Signal-SGN++实现了优越的精度-效率权衡,超越了现有的SNN方法,并在显著降低能耗的情况下达到了与最先进GCN竞争的结果。
  • Conclusion: Signal-SGN++成功地将SNN的能效优势与GCN的拓扑建模能力相结合,通过创新的拓扑感知脉冲图框架,在动作识别任务中实现了高性能与低能耗的平衡,为能效型动作识别系统提供了有前景的解决方案。

[12] VLM-PAR: A Vision Language Model for Pedestrian Attribute Recognition

Abdellah Zakaria Sellam,Salah Eddine Bekhouche,Fadi Dornaika,Cosimo Distante,Abdenour Hadid

Main category: cs.CV

TL;DR: VLM-PAR是一个基于冻结SigLIP 2多语言编码器的视觉语言框架,通过跨注意力融合精炼视觉特征,在行人属性识别任务中实现了最先进的性能,特别是在高度不平衡的PA100K基准上。

  • Motivation: 行人属性识别面临严重类别不平衡、复杂属性依赖关系和领域偏移等挑战,需要更有效的解决方案来处理这些问题。
  • Method: 基于冻结的SigLIP 2多语言编码器构建模块化视觉语言框架,通过紧凑的跨注意力融合来对齐图像和提示嵌入,精炼视觉特征。
  • Result: 在高度不平衡的PA100K基准上实现了最先进的性能,同时在PETA和Market-1501基准上获得了显著的准确率提升。
  • Conclusion: 大规模视觉语言预训练与针对性跨模态精炼的结合能有效克服行人属性识别中的不平衡和泛化挑战。

[13] Towards Signboard-Oriented Visual Question Answering: ViSignVQA Dataset, Method and Benchmark

Hieu Minh Nguyen,Tam Le-Thanh Dang,Kiet Van Nguyen

Main category: cs.CV

TL;DR: ViSignVQA是首个大规模越南语招牌视觉问答数据集,包含10,762张图片和25,573个问答对,通过集成OCR和语言模型提升越南语招牌文本理解能力。

  • Motivation: 自然场景中招牌文本理解对VQA实际应用至关重要,但在低资源语言(如越南语)中尚未充分探索。现有VQA数据集缺乏针对越南语招牌的领域特定资源,无法捕捉其语言、文化和视觉特性。
  • Method: 1) 创建ViSignVQA数据集,包含越南招牌图像及问答对;2) 集成越南语OCR模型(SwinTextSpotter)和预训练语言模型(ViT5)到SOTA VQA模型;3) 提出多智能体VQA框架,结合感知和推理智能体与GPT-4,采用多数投票决策。
  • Result: OCR增强上下文显著提升性能,将OCR文本附加到问题中时F1分数提升高达209%。多智能体框架通过多数投票达到75.98%准确率。实验表明领域特定资源对低资源语言文本VQA至关重要。
  • Conclusion: ViSignVQA是首个针对越南语招牌理解的大规模多模态数据集,为低资源语言VQA提供了重要基准。研究强调了领域特定资源在提升文本VQA性能中的关键作用,支持OCR集成VQA模型的开发与评估。

[14] On Extending Semantic Abstraction for Efficient Search of Hidden Objects

Tasha Pais,Nikhilesh Belulkar

Main category: cs.CV

TL;DR: 提出Semantic Abstraction框架,利用2D视觉语言模型的激活图作为"抽象物体"表示,学习被遮挡物体的3D定位与补全,显著提高家庭机器人寻找丢失物品的效率。

  • Motivation: 解决家庭机器人寻找被遮挡/隐藏物体的问题。传统方法需要随机搜索,效率低下。需要让机器人能够利用历史放置数据,更高效地定位无法直接被视觉语言模型识别的物体。
  • Method: 基于Semantic Abstraction框架:1) 利用2D视觉语言模型的激活图作为"抽象物体"表示;2) 学习被遮挡物体的3D定位与补全;3) 结合历史放置数据进行非结构化搜索优化。
  • Result: 模型能够准确识别被遮挡物体的完整3D位置,首次尝试成功率显著高于随机搜索,搜索速度大幅提升。
  • Conclusion: Semantic Abstraction框架扩展了机器人寻找隐藏物体的能力,为家庭机器人提供了节省时间和精力的技能,有望在实际应用中提高寻找丢失物品的效率。

[15] VideoScaffold: Elastic-Scale Visual Hierarchies for Streaming Video Understanding in MLLMs

Naishan Zheng,Jie Huang,Qingpei Guo,Feng Zhao

Main category: cs.CV

TL;DR: VideoScaffold是一个动态视频表示框架,通过弹性尺度事件分割和分层事件整合,自适应调整事件粒度,实现从细粒度帧理解到抽象事件推理的平滑过渡,在流式视频理解任务中达到SOTA性能。

  • Motivation: 现有多模态大语言模型处理长视频存在挑战:帧间冗余严重,需要时序连贯表示。现有静态策略(稀疏采样、帧压缩、聚类)针对离线场景优化,应用于连续视频流时会产生碎片化或过度压缩的输出。
  • Method: 提出VideoScaffold动态表示框架,包含两个核心组件:1) 弹性尺度事件分割(EES):基于预测引导的分割,动态细化事件边界;2) 分层事件整合(HEC):渐进聚合语义相关片段为多层次抽象。两者协同工作,随着视频流展开,从细粒度帧理解平滑过渡到抽象事件推理。
  • Result: 在离线和流式视频理解基准测试中,VideoScaffold实现了最先进的性能。框架是模块化和即插即用的,能够无缝扩展现有的基于图像的MLLMs到连续视频理解任务。
  • Conclusion: VideoScaffold通过动态调整事件粒度和保留细粒度视觉语义,有效解决了长视频理解中的冗余和时序连贯性问题,为流式视频理解提供了高效灵活的解决方案。

[16] KAN-FPN-Stem:A KAN-Enhanced Feature Pyramid Stem for Boosting ViT-based Pose Estimation

HaoNan Tang

Main category: cs.CV

TL;DR: 提出KAN增强的FPN-Stem架构,通过用KAN卷积层替换传统FPN的线性平滑卷积,显著提升ViT在姿态估计任务上的性能,在COCO数据集上获得+2.0 AP提升。

  • Motivation: 现有Vision Transformers(如ViTPose)的前端设计过于简单,朴素的patchification机制难以有效处理多尺度变化,并在初始特征提取阶段造成不可逆的信息损失,限制了性能提升。
  • Method: 提出KAN增强的FPN-Stem架构:保留经典FPN的"上采样-相加"融合流程,但将其末端的标准线性3x3平滑卷积替换为基于KAN的卷积层。该KAN层利用其优越的非线性建模能力,自适应地学习和校正多尺度融合过程中产生的"伪影"。
  • Result: 在COCO数据集上的大量实验表明,KAN-FPN-Stem相比轻量级ViTPose-S基线实现了高达+2.0 AP的显著性能提升。
  • Conclusion: 该工作不仅提供了一个即插即用的高性能模块,更重要的是揭示了:ViT前端的性能瓶颈通常不在于"特征精炼"(注意力机制),而在于"特征融合"的质量。通过引入KAN算子为解决这一瓶颈提供了有效路径。

[17] Meta-information Guided Cross-domain Synergistic Diffusion Model for Low-dose PET Reconstruction

Mengxiao Geng,Ran Hong,Xiaoling Xu,Bingxuan Li,Qiegen Liu

Main category: cs.CV

TL;DR: 该研究提出了一种元信息引导的跨域协同扩散模型(MiG-DM),用于提升低剂量PET成像质量,通过整合患者特异性元信息和投影域物理知识来改善图像重建。

  • Motivation: 低剂量PET成像在减少患者辐射暴露方面至关重要,但面临噪声干扰、对比度降低和生理细节难以保留等挑战。现有方法往往忽视了投影域物理知识和患者特异性元信息,而这些对于功能-语义关联挖掘至关重要。
  • Method: 提出MiG-DM模型:1)元信息编码模块将临床参数转化为语义提示,考虑患者特征、剂量相关信息和半定量参数,实现文本元信息与图像重建的跨模态对齐;2)跨域架构结合投影域和图像域处理,在投影域使用专门的sinogram适配器通过卷积操作捕获全局物理结构。
  • Result: 在UDPET公共数据集和不同剂量水平的临床数据集上的实验表明,MiG-DM在提升PET图像质量和保留生理细节方面优于现有最先进方法。
  • Conclusion: MiG-DM通过整合跨模态先验知识和跨域处理,有效解决了低剂量PET成像的关键挑战,为高质量PET图像重建提供了新方法。

[18] Multi-objective hybrid knowledge distillation for efficient deep learning in smart agriculture

Phi-Hung Hoang,Nam-Thuan Trinh,Van-Manh Tran,Thi-Thu-Hong Phan

Main category: cs.CV

TL;DR: 提出混合知识蒸馏框架,为智能农业开发轻量高效CNN,在保持高精度同时大幅降低计算成本和模型大小

  • Motivation: 解决智能农业中边缘设备部署深度学习模型时计算效率与识别精度之间的权衡挑战
  • Method: 设计结合倒残差块和密集连接的自定义学生模型,使用ResNet18作为教师网络,采用多目标策略集成硬标签监督、特征级蒸馏、响应级蒸馏和自蒸馏
  • Result: 在9种水稻种子品种识别任务上达到98.56%准确率,仅比教师模型低0.09%,计算成本减少约2.7倍,模型大小减少10倍以上;在4种植物叶片病害数据集上表现一致
  • Conclusion: 提出的混合知识蒸馏框架在保持高分类精度的同时显著降低了计算和存储需求,展示了在硬件受限的智能农业系统中强大的部署潜力和泛化能力

[19] Evaluating an Adaptive Multispectral Turret System for Autonomous Tracking Across Variable Illumination Conditions

Aahan Sachdeva,Dhanvinkumar Ganeshkumar,James E. Gallagher,Tyler Treat,Edward J. Oughton

Main category: cs.CV

TL;DR: 提出自适应RGB-LWIR融合框架,通过动态选择最佳融合比例和检测模型,提升机器人在不同光照条件下的目标检测性能

  • Motivation: 传统RGB检测在低光环境下表现不佳,而热成像系统缺乏颜色和纹理信息。为了克服这些限制,需要一种能够适应不同光照条件的融合方法,以增强自主机器人在应急服务任务中的视觉性能。
  • Method: 训练33个YOLO模型,使用超过22,000张标注图像,涵盖三种光照水平:无光、微光和全光。通过11种融合比例(从100/0到0/100,以10%递增)对齐并融合RGB和LWIR帧。动态选择每个光照条件下的最优检测模型。
  • Result: 最佳全光模型(80/20 RGB-LWIR)和微光模型(90/10融合)分别达到92.8%和92.0%的平均置信度,显著优于YOLOv5n和YOLOv11n基线。无光条件下,最佳40/60融合达到71.0%,超过基线但统计不显著。自适应RGB-LWIR融合在所有光照条件下都提高了检测置信度和可靠性。
  • Conclusion: 自适应RGB-LWIR融合框架通过动态选择最佳融合比例和检测模型,显著提升了自主机器人在不同光照条件下的视觉性能,为应急服务任务提供了更可靠的检测解决方案。

[20] Human-Aligned Generative Perception: Bridging Psychophysics and Generative Models

Antara Titikhsha,Om Kulkarni,Dharun Muthaiah

Main category: cs.CV

TL;DR: 使用轻量级判别器作为外部引导信号,通过人类感知嵌入教师模型将几何理解引入文本到图像扩散模型,实现几何与风格的分离控制。

  • Motivation: 当前文本到图像扩散模型虽然能生成高度详细的纹理,但主要依赖表面外观,难以遵循严格的几何约束,特别是在几何约束与文本提示暗示的风格相冲突时。这反映了人类感知与当前生成模型之间的语义鸿沟。
  • Method: 提出人类感知嵌入(HPE)教师模型,在THINGS三元组数据集上训练以捕捉人类对物体形状的敏感性。将该教师模型的梯度注入潜在扩散过程,实现几何与风格的可控分离。在三种架构上评估:Stable Diffusion v1.5(U-Net)、流匹配模型SiT-XL/2和扩散变换器PixArt-Σ。
  • Result: 实验显示流模型倾向于在没有持续引导的情况下漂移回默认轨迹。实现了复杂三维形状(如Eames椅子)到冲突材料(如粉色金属)的零样本迁移。引导生成相比无引导基线将语义对齐提高了约80%。
  • Conclusion: 小型教师模型能够可靠地引导大型生成系统,增强几何控制能力,拓宽文本到图像合成的创意范围,展示了无需专门训练即可引入几何理解的可能性。

[21] GeCo: A Differentiable Geometric Consistency Metric for Video Generation

Leslie Gu,Junhwa Hur,Charles Herrmann,Fangneng Zhan,Todd Zickler,Deqing Sun,Hanspeter Pfister

Main category: cs.CV

TL;DR: GeCo是一个几何基础的一致性度量方法,用于检测静态场景中的几何变形和遮挡不一致伪影,通过融合残差运动和深度先验生成可解释的密集一致性图,用于评估视频生成模型并作为无训练指导损失减少变形伪影。

  • Motivation: 当前视频生成模型在静态场景中经常产生几何变形和遮挡不一致的伪影,需要一种系统性的方法来检测和量化这些缺陷,以便更好地评估模型性能并改进生成质量。
  • Method: GeCo通过融合残差运动信息和深度先验,生成密集的一致性图来检测几何变形和遮挡不一致。该方法不依赖训练,可直接应用于视频生成模型的输出分析。
  • Result: GeCo能够系统地评估近期视频生成模型,揭示常见的失败模式,并且作为无训练指导损失能有效减少视频生成过程中的变形伪影。
  • Conclusion: GeCo提供了一个有效的几何基础一致性度量框架,不仅能评估视频生成模型的几何一致性缺陷,还能作为指导损失来改进生成质量,为视频生成研究提供了有价值的工具。

[22] The Illusion of Clinical Reasoning: A Benchmark Reveals the Pervasive Gap in Vision-Language Models for Clinical Competency

Dingyu Wang,Zimu Yuan,Jiajun Liu,Shanggui Liu,Nan Zhou,Tianxing Xu,Di Huang,Dong Jiang

Main category: cs.CV

TL;DR: 该研究开发了B&J基准测试,评估AI模型在骨科临床推理中的表现,发现模型在结构化选择题上表现良好(>90%),但在需要多模态整合的开放式任务中表现显著下降(~60%),表明当前AI模型尚不具备复杂的临床推理能力。

  • Motivation: 当前基于医学执照考试或精选案例的基准测试无法捕捉真实世界患者护理所需的整合多模态推理能力。随着基础模型在临床实践中的快速应用,需要更严格的评估来检验其真正的临床推理能力。
  • Method: 开发了Bones and Joints (B&J)基准测试框架,包含1,245个来自真实骨科病例的问题。评估了11个视觉语言模型和6个大语言模型在7个临床推理任务上的表现,包括知识回忆、文本和图像解释、诊断生成、治疗计划和理由提供。
  • Result: 模型在不同任务类型间存在显著性能差距:在结构化多选题上准确率超过90%,但在需要多模态整合的开放式任务中准确率仅约60%。VLM在医学图像解释方面存在严重限制,经常出现文本驱动的幻觉,忽视矛盾的视觉证据。医学专用微调模型相比通用模型没有明显优势。
  • Conclusion: 当前AI模型尚不具备复杂多模态临床推理能力,其安全部署应限于支持性、基于文本的角色。未来在核心临床任务上的进展需要多模态整合和视觉理解方面的根本性突破。

[23] FETAL-GAUGE: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound

Hussain Alasmawi,Numan Saeed,Mohammad Yaqub

Main category: cs.CV

TL;DR: 提出了首个专门评估视觉语言模型在胎儿超声成像中性能的基准Fetal-Gauge,包含42,000多张图像和93,000个问答对,发现当前最佳模型准确率仅55%,远低于临床要求。

  • Motivation: 全球缺乏训练有素的超声医师,阻碍了胎儿健康监测。深度学习可提高超声医师效率并支持培训新从业者,但缺乏评估视觉语言模型在胎儿超声成像性能的标准基准。
  • Method: 创建Fetal-Gauge基准,包含42,000多张图像和93,000个问答对,涵盖解剖平面识别、解剖结构视觉定位、胎儿方向评估、临床视图符合性和临床诊断等任务。系统评估多个最先进的视觉语言模型。
  • Result: 最佳模型准确率仅55%,远低于临床要求。分析揭示了当前视觉语言模型在胎儿超声解释中的关键局限性,凸显了领域适应架构和专门训练方法的迫切需求。
  • Conclusion: Fetal-Gauge为推进产前护理中的多模态深度学习建立了严格基础,为解决全球医疗可及性挑战提供了途径。基准将在论文被接受后公开可用。

[24] A Three-Level Alignment Framework for Large-Scale 3D Retrieval and Controlled 4D Generation

Philip Xu,David Elizondo,Raouf Hamzaoui

Main category: cs.CV

TL;DR: Uni4D是一个统一框架,用于大规模开放词汇3D检索和可控4D生成,通过文本、3D模型和图像模态的三级对齐实现。

  • Motivation: 当前3D检索和4D生成任务存在模态对齐不足的问题,需要统一的框架来同时处理大规模开放词汇3D检索和可控4D生成,以提升动态多模态理解和实际应用能力。
  • Method: 基于Align3D 130数据集,采用3D文本多头注意力搜索模型优化文本到3D检索;通过三个组件增强跨模态对齐:精确文本到3D检索、多视角3D到图像对齐、图像到文本对齐,用于生成时间一致的4D资产。
  • Result: 实验结果表明,Uni4D实现了高质量的3D检索和可控4D生成,在动态多模态理解和实际应用方面取得了进展。
  • Conclusion: Uni4D通过结构化三级对齐框架,成功统一了大规模开放词汇3D检索和可控4D生成,为动态多模态理解和实际应用提供了有效解决方案。

[25] Learning Dynamic Scene Reconstruction with Sinusoidal Geometric Priors

Tian Guo,Hui Yuan,Philip Xu,David Elizondo

Main category: cs.CV

TL;DR: SirenPose:一种结合正弦表示网络周期激活特性和关键点结构几何先验的新型损失函数,用于提升动态3D场景重建的时空一致性

  • Motivation: 现有方法在快速运动和多个目标的场景中难以保持运动建模精度和时空一致性,需要一种能够增强时空连贯性的新方法
  • Method: 结合正弦表示网络的周期激活特性和关键点结构的几何先验,引入物理启发的约束机制,强制空间和时间维度上的关键点预测一致性,并使用60万标注实例的数据集进行训练
  • Result: 实验结果表明,使用SirenPose训练的模型在时空一致性指标上相比先前方法有显著提升,在处理快速运动和复杂场景变化方面表现优异
  • Conclusion: SirenPose通过结合周期性激活和几何先验,有效提升了动态3D场景重建的时空一致性,特别是在快速运动和复杂场景中表现出色

[26] Real-Time In-Cabin Driver Behavior Recognition on Low-Cost Edge Hardware

Vesal Ahsani,Babak Hossein Khalaj

Main category: cs.CV

TL;DR: 提出一个用于低成本边缘设备的单摄像头驾驶员行为识别系统,能在Raspberry Pi 5和Google Coral Edge TPU上实时运行,覆盖17种行为类别,实现低延迟监控。

  • Motivation: 车载驾驶员监控系统需要在计算、功耗和成本严格限制下,低延迟识别分心和困倦相关行为。现有系统往往需要昂贵硬件,难以在低成本边缘设备上部署。
  • Method: 结合三个关键技术:(1)紧凑的逐帧视觉模型;(2)混淆感知标签设计减少视觉相似误报;(3)时序决策头,仅在预测既自信又持续时才触发警报。系统覆盖17种行为类别。
  • Result: 在Raspberry Pi 5上实现约16 FPS(INT8推理,每帧延迟低于60ms),在Coral Edge TPU上约25 FPS,能在廉价硬件上实现实时监控和稳定警报生成。
  • Conclusion: 可靠的车内人员状态感知可作为上游输入,支持以人为中心的车辆智能,包括新兴的自主车辆概念,展示了在低成本边缘设备上实现实时驾驶员行为监控的可行性。

[27] Attack-Aware Deepfake Detection under Counter-Forensic Manipulations

Noor Fatima,Hasan Faraz Khan,Muzammil Behzad

Main category: cs.CV

TL;DR: 提出一种攻击感知的深度伪造和图像取证检测器,具有鲁棒性、良好校准概率和透明证据,采用双流架构结合红队训练和随机化测试时防御

  • Motivation: 在现实部署条件下,需要能够抵抗对抗攻击、提供可靠概率估计和透明证据的深度伪造检测系统,以应对日益复杂的伪造技术和对抗性操作
  • Method: 双流架构:语义内容流使用预训练骨干网络,取证残差流提取取证特征,通过轻量残差适配器融合;红队训练采用最差K个反取证操作,测试时防御注入低成本抖动;使用浅层FPN风格头部生成篡改热图
  • Result: 在现有基准测试中表现优异,包括标准深度伪造数据集和监控风格分割,实现近乎完美的攻击排名、低校准误差、最小弃权风险,在regrain攻击下保持可控性能下降
  • Conclusion: 该方法建立了模块化、数据高效且实际可部署的基线,提供攻击感知检测、校准概率和可操作热图,为现实世界深度伪造检测提供实用解决方案

[28] PortionNet: Distilling 3D Geometric Knowledge for Food Nutrition Estimation

Darrin Bright,Rakshith Raj,Kanchan Keisham

Main category: cs.CV

TL;DR: PortionNet:通过跨模态知识蒸馏从单张RGB图像估计食物营养,无需深度传感器,在训练时学习点云几何特征,推理时仅需RGB图像

  • Motivation: 从单张图像准确估计食物营养具有挑战性,因为丢失了3D信息。基于深度的方法虽然提供可靠几何信息,但需要深度传感器,这在大多数智能手机上不可用
  • Method: 提出PortionNet跨模态知识蒸馏框架,采用双模式训练策略,通过轻量级适配器网络模仿点云表示,实现伪3D推理而无需专用硬件
  • Result: 在MetaFood3D数据集上达到最先进性能,在体积和能量估计方面超越所有先前方法。在SimpleFood45上的跨数据集评估显示在能量估计方面具有强泛化能力
  • Conclusion: PortionNet通过知识蒸馏实现了无需深度传感器的食物营养估计,在保持高性能的同时具有更好的可访问性

[29] MoFu: Scale-Aware Modulation and Fourier Fusion for Multi-Subject Video Generation

Run Ling,Ke Cao,Jian Lu,Ao Ma,Haowei Liu,Runze He,Changwei Wang,Rongtao Xu,Yihua Shao,Zhanjie Zhang,Peng Wu,Guibing Guo,Wei Feng,Zheng Zhang,Jingjing Lv,Junjie Shen,Ching Law,Xingwei Wang

Main category: cs.CV

TL;DR: MoFu是一个多主体视频生成框架,通过尺度感知调制和傅里叶融合解决尺度不一致和排列敏感性问题,在保持自然尺度和主体保真度方面优于现有方法。

  • Motivation: 当前多主体视频生成方法面临两个主要挑战:1)尺度不一致性 - 主体尺寸变化导致生成不自然;2)排列敏感性 - 参考图像输入顺序变化导致主体变形。这些问题影响了生成视频的质量和实用性。
  • Method: 提出MoFu统一框架:1)尺度感知调制(SMO)- 使用LLM从文本提示中提取隐含尺度线索并调制特征;2)傅里叶融合策略 - 通过快速傅里叶变换处理参考特征的频率信息,生成统一表示;3)尺度-排列稳定性损失 - 联合促进尺度一致和排列不变的生成。
  • Result: MoFu在保持自然尺度、主体保真度和整体视觉质量方面显著优于现有方法。作者还建立了专门的基准测试来评估尺度变化和参考排列的影响。
  • Conclusion: MoFu有效解决了多主体视频生成中的尺度不一致和排列敏感性问题,通过统一的框架实现了更自然、更稳定的视频生成效果。

[30] VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning

Yang Ding,Yizhen Zhang,Xin Lai,Ruihang Chu,Yujiu Yang

Main category: cs.CV

TL;DR: VideoZoomer:一种新型代理框架,让多模态大语言模型能够在推理过程中动态控制视觉焦点,通过多轮交互逐步收集细粒度证据,提升长视频理解能力。

  • Motivation: 当前多模态大语言模型在长视频理解方面存在局限,主要受限于上下文窗口。现有方法依赖均匀帧采样或静态预选,可能忽略关键证据且无法在推理过程中纠正初始选择错误。
  • Method: 提出VideoZoomer代理框架:从低帧率概览开始,调用时间缩放工具在自主选择的时刻获取高帧率片段,以多轮交互方式逐步收集细粒度证据。采用两阶段训练策略:先在精选数据集上进行监督微调,然后通过强化学习进一步优化代理策略。
  • Result: 7B模型展现出多样复杂的推理模式,在广泛的长期视频理解和推理基准测试中表现优异。能够持续超越现有开源模型,甚至在挑战性任务上与专有系统相媲美,同时在减少帧预算下实现更高效能。
  • Conclusion: VideoZoomer通过动态视觉焦点控制和多轮交互推理,有效解决了长视频理解中的关键证据遗漏问题,为多模态大语言模型的长视频理解提供了新的有效框架。

[31] SpotEdit: Selective Region Editing in Diffusion Transformers

Zhibin Qin,Zhenxiong Tan,Zeqing Wang,Songhua Liu,Xinchao Wang

Main category: cs.CV

TL;DR: SpotEdit:一种无需训练的选择性区域更新扩散编辑框架,只更新修改区域而非全图,提高效率并保持未修改区域质量

  • Motivation: 当前扩散Transformer模型在图像编辑时均匀处理所有token,即使只修改小区域也进行全图去噪,导致计算冗余并可能降低未修改区域质量。需要解决是否真的需要在编辑时重新生成每个区域的问题。
  • Method: SpotEdit包含两个核心组件:1) SpotSelector通过感知相似性识别稳定区域,跳过计算并重用条件图像特征;2) SpotFusion通过动态融合机制自适应混合这些特征与编辑token,保持上下文连贯性和编辑质量。
  • Result: 通过减少不必要的计算并保持未修改区域的高保真度,SpotEdit实现了高效且精确的图像编辑。
  • Conclusion: SpotEdit提出了一种训练免费的选择性区域更新扩散编辑框架,解决了当前方法全图处理的冗余问题,在保持编辑质量的同时显著提高了效率。

[32] DeMoGen: Towards Decompositional Human Motion Generation with Energy-Based Diffusion Models

Jianrong Zhang,Hehe Fan,Yi Yang

Main category: cs.CV

TL;DR: DeMoGen是一个基于能量扩散模型的运动分解训练范式,能够将复杂运动分解为语义上有意义的子组件,并支持运动原语的重组生成新运动。

  • Motivation: 现有方法主要关注前向建模(如从文本到运动的整体映射),而本文考虑逆视角:将整体运动分解为语义上有意义的子组件。人类运动具有组合性,复杂行为可以描述为简单原语的组合。
  • Method: 提出DeMoGen,一种基于能量扩散模型的组合训练范式,直接捕获多个运动概念的组合分布。包含三种训练变体:1) DeMoGen-Exp:在分解的文本提示上显式训练;2) DeMoGen-OSS:正交自监督分解;3) DeMoGen-SC:强制原始和分解文本嵌入之间的语义一致性。
  • Result: 该方法能够从复杂运动序列中解耦可重用的运动原语,分解后的运动概念可以灵活重组生成多样新颖的运动,实现超出训练分布的泛化。同时构建了文本分解数据集支持组合训练。
  • Conclusion: DeMoGen提供了一种有效的运动分解学习范式,能够发现语义上有意义的运动子组件,支持运动原语的解耦和重组,为文本到运动生成和运动组合提供了扩展资源。

[33] The Multi-View Paradigm Shift in MRI Radiomics: Predicting MGMT Methylation in Glioblastoma

Mariya Miteva,Maria Nisheva-Pavlova

Main category: cs.CV

TL;DR: 提出基于变分自编码器的多视图潜在表示学习框架,用于从MRI影像中推断胶质母细胞瘤的MGMT启动子甲基化状态

  • Motivation: 传统单模态和早期融合方法在放射基因组学中存在特征冗余高、模态特异性信息建模不完整的问题,特别是在胶质母细胞瘤MGMT启动子甲基化预测这一重要临床任务中
  • Method: 基于变分自编码器构建多视图潜在表示学习框架,通过独立的概率编码器分别编码T1Gd和FLAIR MRI的放射组学特征,在紧凑的潜在空间中进行融合,保留模态特异性结构
  • Result: 提出的方法能够有效整合多模态信息,生成的潜在嵌入用于MGMT启动子甲基化分类,相比传统方法有改进
  • Conclusion: 多视图潜在表示学习框架为从医学影像中非侵入性推断分子肿瘤特征提供了更有效的解决方案,特别是在胶质母细胞瘤的MGMT甲基化状态预测方面

[34] Feature Learning with Multi-Stage Vision Transformers on Inter-Modality HER2 Status Scoring and Tumor Classification on Whole Slides

Olaide N. Oyelade,Oliver Hoxey,Yulia Humrye

Main category: cs.CV

TL;DR: 提出基于视觉变换器的端到端管道,联合分析H&E和IHC染色图像,实现像素级HER2评分定位

  • Motivation: 现有方法难以同时预测HER2高低表达水平,且无法提供像素级HER2状态定位,需要更准确的HER2蛋白表达评估来指导癌症治疗
  • Method: 使用视觉变换器系统,通过分块处理H&E全切片图像定位肿瘤,提出新颖映射函数关联IHC与H&E恶性区域,嵌入临床启发的4级HER2评分机制
  • Result: 肿瘤定位分类准确率高,HER2状态预测准确率达0.94,特异性0.933,在4级评分方法中表现良好,与人类病理学家相当
  • Conclusion: 基于ViT的端到端模型能有效联合评估H&E和IHC图像进行HER2评分,具有临床应用潜力

[35] Human-like visual computing advances explainability and few-shot learning in deep neural networks for complex physiological data

Alaa Alahmadi,Mohamed Hasan

Main category: cs.CV

TL;DR: 人类感知启发的伪着色技术能提升深度神经网络在ECG分析中的数据效率、可解释性和因果推理能力,在极少样本下实现良好性能。

  • Motivation: 当前机器视觉模型(特别是深度神经网络)在生理信号解释(如心电图)中需要大量训练数据,且缺乏对预测背后因果特征的洞察,这限制了其临床可靠性和与人类推理的一致性。
  • Method: 采用感知启发的伪着色技术,将临床显著的时间特征(如QT间期持续时间)编码为结构化颜色表示,使用原型网络和ResNet-18架构,在单心动周期和完整10秒节律的ECG图像上评估单样本和少样本学习。
  • Result: 伪着色技术使模型能从少至1个或5个训练样本中学习判别性和可解释的特征,引导注意力朝向临床有意义的ECG特征,同时抑制无关信号成分;聚合多个心动周期能进一步提升性能,模拟人类跨心跳的感知平均。
  • Conclusion: 人类感知编码能够弥合医学机器智能中的数据效率、可解释性和因果推理之间的差距,为在数据稀缺条件下开发更可靠、可解释的临床AI系统提供了新途径。

[36] VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement

Zhengfei Kuang,Rui Lin,Long Zhao,Gordon Wetzstein,Saining Xie,Sanghyun Woo

Main category: cs.CV

TL;DR: 该论文提出了一种基于多模态大语言模型(MLLMs)的3D场景物体摆放系统,通过引入MCP-based API、专用视觉工具套件和多智能体协作框架,解决了MLLMs在复杂3D场景操作中的三大挑战。

  • Motivation: 尽管多模态大语言模型(MLLMs)在2D视觉语言任务上取得了显著进展,但在复杂3D场景操作方面的应用仍未被充分探索。现有MLLMs在3D物体摆放任务中存在三个关键挑战:1)视觉基础薄弱,难以将程序化编辑与精确的3D结果关联;2)缺乏对3D场景的深度理解;3)迭代更新过程容易出错且难以管理。
  • Method: 1)引入MCP-based API,将交互从脆弱的原始代码操作转向更鲁棒的函数级更新;2)增强MLLMs的3D场景理解能力,通过专用视觉工具套件分析场景状态、收集空间信息并验证动作结果;3)提出协作式多智能体框架,分配规划、执行和验证角色,以管理迭代更新过程并处理多步指令。
  • Result: 在25个多样化的复杂物体摆放任务上,该方法显著优于现有基线方法,证明了其在3D场景操作中的有效性。
  • Conclusion: 该研究成功地将MLLMs应用于复杂3D场景操作,通过创新的API设计、视觉工具增强和多智能体协作框架,解决了3D物体摆放任务中的关键挑战,为MLLMs在3D领域的应用开辟了新方向。

[37] Self-Evaluation Unlocks Any-Step Text-to-Image Generation

Xin Yu,Xiaojuan Qi,Zhengqi Li,Kai Zhang,Richard Zhang,Zhe Lin,Eli Shechtman,Tianyu Wang,Yotam Nitzan

Main category: cs.CV

TL;DR: Self-E是一种从零开始训练的文生图模型,支持任意步数推理,通过自评估机制实现少步高质量生成,无需预训练教师模型。

  • Motivation: 传统扩散模型或流匹配模型依赖局部监督需要多步推理,蒸馏方法需要预训练教师模型。Self-E旨在填补这两种范式之间的空白,实现从零开始训练且支持任意步数推理的统一模型。
  • Method: 结合流匹配模型的数据学习方式,引入新颖的自评估机制:模型使用当前分数估计评估自身生成的样本,作为动态自教师。同时进行瞬时局部学习和自驱动的全局匹配。
  • Result: 在大规模文生图基准测试中,Self-E在少步生成方面表现出色,在50步时与最先进的流匹配模型竞争。性能随推理步数增加单调提升,支持超快少步生成和高质量长轨迹采样。
  • Conclusion: Self-E是首个从零开始、支持任意步数的文生图模型,为高效可扩展生成提供了统一框架,无需预训练教师模型即可实现少步高质量生成。

[38] iOSPointMapper: RealTime Pedestrian and Accessibility Mapping with Mobile AI

Himanshu Naidu,Yuxiang Zhang,Sachin Mehta,Anat Caspi

Main category: cs.CV

TL;DR: iOSPointMapper是一款移动应用,利用iPhone/iPad的语义分割、LiDAR深度估计和GPS/IMU融合数据,实现实时、隐私保护的实地人行道测绘,检测交通标志、信号灯等特征,数据匿名传输至TDEI交通数据交换平台。

  • Motivation: 当前人行道数据收集方法成本高、分散且难以扩展,缺乏准确、最新的数据来建设无障碍和包容性的行人基础设施。
  • Method: 开发iOSPointMapper移动应用,利用设备端语义分割、LiDAR深度估计、GPS/IMU数据融合检测人行道相关特征,包含用户引导的标注界面验证系统输出,数据匿名化后传输至TDEI平台。
  • Result: 系统特征检测和空间测绘性能的详细评估显示,该应用在行人测绘方面具有增强潜力,能够提供可扩展、以用户为中心的方法来填补关键数据空白。
  • Conclusion: iOSPointMapper提供了一种可扩展、以用户为中心的方法,能够有效填补行人基础设施中的关键数据空白,通过实时、隐私保护的实地测绘改善人行道数据收集。

[39] DeFloMat: Detection with Flow Matching for Stable and Efficient Generative Object Localization

Hansang Lee,Chaelin Lee,Nieun Seo,Joon Seok Lim,Helen Hong

Main category: cs.CV

TL;DR: DeFloMat 提出了一种基于条件流匹配的生成式目标检测框架,通过确定性流场替换扩散模型的随机去噪过程,在仅需3步推理的情况下实现SOTA精度,解决了扩散检测器在临床应用中延迟过高的问题。

  • Motivation: 扩散模型检测器(如DiffusionDet)虽然精度高,但需要大量采样步骤(T>60),在时间敏感的临床应用(如克罗恩病的磁共振肠造影检测)中延迟过高,不实用。
  • Method: 使用条件流匹配(CFM)和条件最优传输(OT)理论,构建确定性流场近似Rectified Flow,替代扩散模型的随机去噪过程,通过简单的ODE求解器实现快速推理。
  • Result: 在MRE临床数据集上,DeFloMat仅用3步推理就达到43.32% AP10:50的SOTA精度,比DiffusionDet在4步时的最佳性能(31.03% AP10:50)提升1.4倍,同时显著改善了定位特性和召回率。
  • Conclusion: DeFloMat成功解决了生成式检测精度与临床效率之间的权衡,为稳定快速的目标定位设定了新标准,特别适合时间敏感的医疗应用。

[40] Bright 4B: Scaling Hyperspherical Learning for Segmentation in 3D Brightfield Microscopy

Amil Khan,Matheus Palhares Viana,Suraj Mishra,B. S. Manjunath

Main category: cs.CV

TL;DR: Bright-4B:一个40亿参数的基础模型,直接从3D明场体积图像中分割亚细胞结构,无需荧光标记或后处理

  • Motivation: 无标记3D明场显微镜能快速无创地可视化细胞形态,但现有的稳健体积分割通常依赖荧光标记或复杂的后处理,需要填补这一技术空白
  • Method: 结合硬件对齐的Native Sparse Attention机制(捕获局部、粗粒度和选择的全局上下文)、深度-宽度残差HyperConnections稳定表示流、软混合专家机制实现自适应容量,以及即插即用的各向异性补丁嵌入尊重共聚焦点扩散和轴向变薄特性
  • Result: 在多个共聚焦数据集上,Bright-4B仅从明场堆栈就能产生形态准确的细胞核、线粒体和其他细胞器分割,在深度和细胞类型上保持精细结构细节,优于当代CNN和Transformer基线
  • Conclusion: Bright-4B为大规模、无标记3D细胞映射提供了先进的解决方案,所有代码、预训练权重和下游微调模型都将发布以推动该领域发展

[41] FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Ujunwa Mgboh,Rafi Ibn Sultan,Joshua Kim,Kundan Thind,Dongxiao Zhu

Main category: cs.CV

TL;DR: FluenceFormer:基于Transformer的放疗通量图预测框架,通过两阶段设计和物理感知回归损失,显著提升通量图预测的准确性和物理一致性。

  • Motivation: 放疗通量图预测是一个病态逆问题,现有卷积方法难以捕捉长距离依赖关系,导致预测结果结构不一致或物理不可实现。
  • Method: 提出FluenceFormer框架:1)第一阶段从解剖输入预测全局剂量先验;2)第二阶段将先验与显式射束几何条件结合,回归物理校准的通量图;3)提出Fluence-Aware Regression损失函数,整合体素级保真度、梯度平滑性、结构一致性和射束级能量守恒。
  • Result: 在多个Transformer骨干网络(Swin UNETR、UNETR、nnFormer、MedFormer)上评估,FluenceFormer with Swin UNETR表现最佳:能量误差降至4.5%,结构保真度有统计学显著提升(p<0.05),优于现有CNN和单阶段方法。
  • Conclusion: FluenceFormer通过两阶段Transformer框架和物理感知损失函数,有效解决了放疗通量图预测中的长距离依赖和物理一致性问题,为自动化放疗规划提供了更可靠的解决方案。

[42] EmoCtrl: Controllable Emotional Image Content Generation

Jingyuan Yang,Weibin Luo,Hui Huang

Main category: cs.CV

TL;DR: 提出EmoCtrl模型,实现可控情感图像内容生成,在保持内容一致性的同时表达目标情感,超越现有方法。

  • Motivation: 现有文本到图像模型能确保内容一致性但缺乏情感感知,而情感驱动模型生成情感结果却以内容失真为代价,需要解决这一差距。
  • Method: 提出EmoCtrl模型,使用内容、情感和情感提示标注的数据集,包含文本和视觉情感增强模块,通过描述性语义和感知线索丰富情感表达。
  • Result: EmoCtrl在定量和定性实验中均优于现有方法,实现忠实内容和表达性情感控制,用户研究证实与人类偏好高度一致,学习到的情感标记具有互补效应。
  • Conclusion: EmoCtrl成功解决了可控情感图像内容生成问题,学习到的情感标记具有鲁棒性和适应性,可推广到创意应用中。

[43] SuperiorGAT: Graph Attention Networks for Sparse LiDAR Point Cloud Reconstruction in Autonomous Systems

Khalfalla Awedat,Mohamed Abidalrekab,Gurcan Comert,Mustafa Ayad

Main category: cs.CV

TL;DR: SuperiorGAT是一个基于图注意力的框架,用于重建稀疏LiDAR点云中缺失的高程信息,通过光束感知图建模和门控残差融合实现准确重建,无需增加网络深度。

  • Motivation: 自动驾驶系统中的LiDAR感知受到固定垂直光束分辨率的限制,并且由于环境遮挡导致的光束丢失问题进一步恶化,需要在不增加传感器硬件的情况下提高分辨率。
  • Method: 将LiDAR扫描建模为光束感知图,采用基于图注意力的框架,结合门控残差融合和前馈细化,在不增加网络深度的情况下重建缺失的高程信息。
  • Result: 在KITTI数据集的各种环境(Person、Road、Campus、City序列)中,通过模拟移除每四个垂直扫描光束的结构化光束丢失,SuperiorGAT相比PointNet模型和更深的GAT基线,始终实现更低的重建误差和更好的几何一致性。
  • Conclusion: 架构细化提供了一种计算高效的方法来改善LiDAR分辨率,无需额外的传感器硬件,SuperiorGAT能够以最小的垂直失真保持结构完整性。

[44] LECalib: Line-Based Event Camera Calibration

Zibin Liu,Banglei Guana,Yang Shanga,Zhenbao Yu,Yifei Bian,Qifeng Yu

Main category: cs.CV

TL;DR: 提出基于几何直线的线基事件相机标定框架,利用人造环境中常见物体的直线特征,直接从事件流检测直线并进行标定,适用于单目和双目事件相机。

  • Motivation: 现有事件相机标定方法通常需要闪烁图案、重建强度图像或从事件中提取特征,这些方法耗时且需要手动放置标定物,无法满足快速变化场景的需求。
  • Method: 1) 直接从事件流中检测直线;2) 利用事件-直线标定模型生成相机参数初始估计,适用于平面和非平面直线;3) 采用非线性优化细化相机参数。
  • Result: 通过仿真和真实世界实验验证了方法的可行性和准确性,在单目和双目事件相机上进行了验证,代码已开源。
  • Conclusion: 提出的线基事件相机标定框架能够利用环境中常见的几何直线特征,实现快速准确的事件相机标定,无需专门标定物,适用于动态场景。

[45] Towards Robust Optical-SAR Object Detection under Missing Modalities: A Dynamic Quality-Aware Fusion Framework

Zhicheng Zhao,Yuancheng Xu,Andong Lu,Chenglong Li,Jin Tang

Main category: cs.CV

TL;DR: 提出QDFNet用于光学与SAR图像融合的目标检测,通过动态质量评估和正交约束融合解决模态缺失问题

  • Motivation: 光学与SAR融合检测面临模态对齐困难、数据缺失等问题,现有方法对随机缺失模态鲁棒性有限,缺乏确保融合性能一致提升的有效机制
  • Method: 提出质量感知动态融合网络(QDFNet),包含动态模态质量评估(DMQA)模块使用可学习参考令牌迭代评估特征可靠性,以及正交约束归一化融合(OCNF)模块通过正交约束保持模态独立性并基于可靠性分数动态调整融合权重
  • Result: 在SpaceNet6-OTD和OGSOD-2.0数据集上的实验表明,QDFNet优于现有方法,特别是在部分模态损坏或数据缺失场景下表现优异
  • Conclusion: QDFNet通过动态质量评估和正交约束融合有效解决了光学-SAR融合检测中的模态缺失问题,提高了检测的鲁棒性和性能

[46] SonoVision: A Computer Vision Approach for Helping Visually Challenged Individuals Locate Objects with the Help of Sound Cues

Md Abu Obaida Zishan,Annajiat Alim Rasel

Main category: cs.CV

TL;DR: SonoVision是一款帮助视障人士通过声音提示定位日常物品的智能手机应用,使用左右耳声音差异指示物体方位,完全离线工作。

  • Motivation: 视障人士定位物体是重大挑战,影响他们的独立性并可能导致危险情况。为了增强视障人士的自给自足能力,需要开发辅助工具。
  • Method: 使用Flutter开发平台构建应用,后端采用Efficientdet-D2模型进行物体检测。通过耳机提供声音提示:物体在右侧时右耳发出正弦声,左侧时左耳发声,正前方时双耳同时发声。
  • Result: 开发了完全离线的智能手机应用SonoVision,能够通过声音提示帮助视障人士定位物体,减少对他人的依赖,提高独立性。
  • Conclusion: SonoVision应用将以安全、用户友好的方式显著帮助视障人士,通过声音提示系统增强他们的空间感知和独立性。

[47] SAM 3D for 3D Object Reconstruction from Remote Sensing Images

Junsheng Yao,Lichao Mou,Qingyu Li

Main category: cs.CV

TL;DR: SAM 3D在单目遥感建筑重建中表现优于TRELLIS,能生成更连贯的屋顶几何和更清晰的边界,并可通过分段-重建-组合流程扩展到城市场景重建。

  • Motivation: 现有的单目3D建筑重建方法通常需要特定任务架构和密集监督,限制了可扩展性。本文旨在评估通用图像到3D基础模型SAM 3D在遥感建筑重建中的性能。
  • Method: 在NYC Urban Dataset上对SAM 3D与TRELLIS进行基准测试,使用FID和CMMD作为评估指标,并通过分段-重建-组合流程将SAM 3D扩展到城市场景重建。
  • Result: 实验结果显示,SAM 3D相比TRELLIS能生成更连贯的屋顶几何和更清晰的边界,在单目遥感建筑重建中表现更优。
  • Conclusion: SAM 3D在城市场景建模中具有潜力,研究结果为部署基础模型进行城市3D重建提供了实用指导,并激励未来整合场景级结构先验。

[48] Comparing Object Detection Models for Electrical Substation Component Mapping

Haley Mody,Namish Bansal,Dennies Kiprono Bor,Edward J. Oughton

Main category: cs.CV

TL;DR: 该研究训练并比较了YOLOv8、YOLOv11和RF-DETR三种计算机视觉模型,用于自动检测和映射美国变电站的关键组件,以评估电网基础设施的脆弱性。

  • Motivation: 变电站是电网的重要组成部分,其资产(如变压器)容易受到飓风、洪水、地震和地磁感应电流等多种灾害的破坏。电网作为关键国家基础设施,任何故障都可能带来重大的经济和公共安全影响。传统的手动映射变电站基础设施耗时耗力,因此需要自主的计算机视觉解决方案来提高效率和便利性。
  • Method: 研究使用手动标记的美国变电站图像数据集,训练并比较了三种计算机视觉模型:YOLOv8、YOLOv11和RF-DETR。每个模型都根据检测准确性、精确度和效率进行评估。
  • Result: 研究展示了每种模型的关键优势和局限性,确定了哪种模型能够提供可靠且大规模的变电站组件映射。此外,研究还利用这些模型有效地映射了美国各地的各种变电站组件,展示了机器学习在变电站映射中的应用案例。
  • Conclusion: 该研究证明了计算机视觉模型在变电站基础设施自动映射中的可行性,为电网脆弱性评估提供了高效的技术解决方案,有助于预防和减轻电网故障。

[49] Pose-Guided Residual Refinement for Interpretable Text-to-Motion Generation and Editing

Sukhyun Jeong,Yong-Hoon Choi

Main category: cs.CV

TL;DR: PGR²M提出了一种结合姿态码和残差码的混合表示方法,通过残差向量量化来增强运动生成和编辑的细节保真度

  • Motivation: 现有基于姿态码的框架(如CoMo)虽然支持可解释的运动控制,但其逐帧表示难以捕捉细微的时间动态和高频细节,导致重建保真度和局部可控性下降
  • Method: 提出PGR²M混合表示:1)姿态引导的RVQ分词器将运动分解为编码粗粒度全局结构的姿态潜在码和建模细粒度时间变化的残差潜在码;2)残差丢弃防止对残差的过度依赖;3)基础Transformer自回归预测姿态码,精炼Transformer在文本、姿态码和量化阶段条件下预测残差码
  • Result: 在HumanML3D和KIT-ML数据集上,PGR²M在Fréchet inception距离和重建指标上优于CoMo及最近的扩散和分词基线方法,用户研究证实其能实现直观、结构保持的运动编辑
  • Conclusion: PGR²M通过混合表示有效解决了姿态码框架在时间动态和高频细节捕捉上的局限性,显著提升了文本驱动的3D运动生成和编辑的质量与可控性

[50] Event-based high temporal resolution measurement of shock wave motion field

Taihang Lei,Banglei Guan,Minzu Liang,Pengju Sun,Jing Tao,Yang Shang,Qifeng Yu

Main category: cs.CV

TL;DR: 提出基于多事件相机的高时空分辨率冲击波运动参数测量框架,通过极坐标编码、自适应ROI提取和迭代斜率分析实现冲击波前事件提取,结合几何模型实现3D重建和爆炸当量反演。

  • Motivation: 冲击波运动参数的高时空分辨率精确测量对功率场测试和损伤评估等应用至关重要,但冲击波快速不均匀传播和不稳定测试条件带来重大挑战。
  • Method: 1) 建立极坐标系编码事件以揭示冲击波传播模式,通过事件偏移计算进行自适应ROI提取;2) 利用速度变化的连续性,通过迭代斜率分析提取冲击波前事件;3) 基于事件光学成像模型推导事件几何模型和冲击波运动参数,结合3D重建模型。
  • Result: 与压力传感器和经验公式的速度测量结果对比,最大误差5.20%,最小误差0.06%。实验结果表明该方法实现了高时空分辨率的高精度冲击波运动场测量。
  • Conclusion: 该方法利用多事件相机的高速高动态范围能力,实现了冲击波不对称性估计、多角度测量、运动场重建和爆炸当量反演,代表了该领域的显著进展。

[51] Scalpel-SAM: A Semi-Supervised Paradigm for Adapting SAM to Infrared Small Object Detection

Zihan Liu,Xiangning Ren,Dezhang Kong,Yipeng Zhang,Meng Han

Main category: cs.CV

TL;DR: 提出一种用于红外小目标检测的半监督范式,通过分层MoE适配器和两阶段知识蒸馏,在少量标注下实现接近全监督的性能

  • Motivation: 红外小目标检测标注成本高,现有方法(如SAM)存在领域差距、无法编码物理先验和架构复杂的问题,需要有效的半监督解决方案
  • Method: 设计分层MoE适配器(包含四个白盒神经算子),采用两阶段范式:1)先验引导知识蒸馏,用10%标注数据将SAM蒸馏为专家教师模型Scalpel-SAM;2)部署导向知识转移,用Scalpel-SAM生成伪标签训练轻量下游模型
  • Result: 实验表明,在最小标注下,下游模型性能可达到甚至超过全监督对应模型,是首个系统解决IR-SOT数据稀缺问题并使用SAM作为教师模型的半监督范式
  • Conclusion: 提出的分层MoE适配器和两阶段知识蒸馏范式有效解决了红外小目标检测中的标注成本问题,为数据稀缺场景提供了实用解决方案

[52] Tracking by Predicting 3-D Gaussians Over Time

Tanish Baranwal,Himanshu Gaurav Singh,Jathushan Rajasegaran,Jitendra Malik

Main category: cs.CV

TL;DR: Video-GMAE是一种自监督视频表示学习方法,将视频表示为随时间移动的高斯分布集合,通过这种3D场景的合理归纳偏置实现零样本跟踪性能。

  • Motivation: 视频通常是动态3D场景的2D投影,因此将视频表示为随时间移动的高斯分布集合能够提供合理的归纳偏置,有助于学习更好的视频表示。
  • Method: 提出Video Gaussian Masked Autoencoders (Video-GMAE),将图像序列编码为随时间移动的高斯分布集合,通过自监督预训练学习视频表示,跟踪能力自然涌现。
  • Result: 学习到的高斯分布轨迹映射到图像平面可实现零样本跟踪,性能与最先进方法相当。微调后在Kinetics数据集上提升34.6%,在Kubric数据集上提升13.1%,超越现有自监督视频方法。
  • Conclusion: Video-GMAE通过将视频表示为移动高斯分布集合,有效学习视频表示并自然涌现跟踪能力,在多个数据集上取得显著性能提升,为自监督视频学习提供了新思路。

[53] SCAFusion: A Multimodal 3D Detection Framework for Small Object Detection in Lunar Surface Exploration

Xin Chen,Kang Luo,Yangyi Xiao,Hesheng Wang

Main category: cs.CV

TL;DR: SCAFusion是一种针对月球机器人任务的多模态3D目标检测模型,通过认知适配器、对比对齐模块、相机辅助训练分支和分段感知坐标注意力机制,显著提升了小型不规则目标(如陨石碎片)的检测性能。

  • Motivation: 现有面向地面自动驾驶的多模态3D感知方法在月球等外星环境中表现不佳,主要原因是特征对齐差、多模态协同有限、小目标检测能力弱。月球表面探索需要可靠精确地检测小型不规则物体(如陨石碎片和岩石),这对自主导航和操作至关重要。
  • Method: 基于BEVFusion框架,SCAFusion集成了四个关键组件:1) 认知适配器用于高效调整相机骨干网络;2) 对比对齐模块增强相机与激光雷达特征一致性;3) 相机辅助训练分支强化视觉表示;4) 分段感知坐标注意力机制专门提升小型不规则目标的检测性能。
  • Result: 在nuScenes验证集上达到69.7% mAP和72.1% NDS,比基线分别提升5.0%和2.7%。在Isaac Sim构建的模拟月球环境中达到90.93% mAP,比基线提升11.5%,在检测小型陨石状障碍物方面表现尤为突出。
  • Conclusion: SCAFusion通过创新的多模态融合架构,在参数和计算量几乎不增加的情况下,显著提升了月球环境中小型不规则目标的检测性能,为月球机器人任务提供了有效的3D感知解决方案。

[54] DreamOmni3: Scribble-based Editing and Generation

Bin Xia,Bohao Peng,Jiyang Liu,Sitong Wu,Jingyao Li,Junjia Huang,Xu Zhao,Yitong Wang,Ruihang Chu,Bei Yu,Jiaya Jia

Main category: cs.CV

TL;DR: DreamOmni3提出基于涂鸦的编辑和生成任务,通过结合文本、图像和手绘草图实现更灵活的GUI创作,解决了数据创建和框架设计两大挑战。

  • Motivation: 现有统一生成和编辑模型主要依赖文本提示,但语言难以准确捕捉用户意图的编辑位置和细粒度视觉细节,需要更直观的交互方式。
  • Method: 1) 数据合成管道:涂鸦编辑(4个任务)和涂鸦生成(3个任务),基于DreamOmni2数据集构建训练数据;2) 框架设计:提出联合输入方案,将原始图像和涂鸦源图像同时输入模型,使用不同颜色区分区域,应用相同索引和位置编码实现精确定位。
  • Result: 实验结果表明DreamOmni3取得了出色的性能,为相关任务建立了综合基准,模型和代码将公开发布。
  • Conclusion: DreamOmni3通过涂鸦交互解决了语言提示的局限性,实现了更灵活直观的图像编辑和生成,为GUI创作提供了新范式。

[55] CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation

Qinglin Zeng,Kaitong Cai,Ruiqi Chen,Qinhan Lv,Keze Wang

Main category: cs.CV

TL;DR: CoAgent是一个用于开放域视频生成的协作闭环框架,通过计划-合成-验证流程解决叙事连贯性和视觉一致性问题,显著提升了长视频生成质量。

  • Motivation: 现有文本到视频模型通常独立处理每个镜头,导致身份漂移、场景不一致和时间结构不稳定,这是开放域视频生成中的核心挑战。
  • Method: 采用计划-合成-验证流程:故事板规划器将输入分解为结构化镜头计划;全局上下文管理器维护实体级记忆;合成模块在视觉一致性控制器指导下生成镜头;验证代理评估中间结果并触发选择性重新生成;节奏感知编辑器优化时间节奏和过渡。
  • Result: 大量实验表明,CoAgent在长视频生成中显著提高了连贯性、视觉一致性和叙事质量。
  • Conclusion: CoAgent通过协作闭环框架有效解决了开放域视频生成中的叙事连贯性和视觉一致性挑战,为长视频生成提供了系统化解决方案。

[56] Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains

Jesen Zhang,Ningyuan Liu,Kaitong Cai,Sidi Liu,Jing Yang,Ziliang Chen,Xiaofei Sun,Keze Wang

Main category: cs.CV

TL;DR: SR-MCR是一个轻量级、无需标注的框架,通过利用模型输出的内在过程信号来对齐多模态LLM的推理过程,提高推理可靠性和视觉基础性。

  • Motivation: 现有多模态LLM经常产生流畅但不可靠的推理,表现出弱的步骤间一致性和不足的视觉基础性,因为现有对齐方法只监督最终答案而忽略了中间推理过程的可靠性。
  • Method: 提出SR-MCR框架,整合五个自参考线索(语义对齐、词汇保真度、非冗余性、视觉基础性、步骤一致性)形成归一化的可靠性加权奖励,提供细粒度的过程级指导。采用无批评者的GRPO目标,配合置信度感知冷却机制来稳定训练。
  • Result: 在Qwen2.5-VL基础上,SR-MCR提高了答案准确性和推理一致性,在多个视觉基准测试中表现优异。SR-MCR-7B在同类开源模型中达到最先进性能,平均准确率为81.4%。消融研究证实了每个奖励项和冷却模块的独立贡献。
  • Conclusion: SR-MCR通过利用模型内在过程信号对齐推理过程,有效提高了多模态LLM的推理可靠性和视觉基础性,为过程级对齐提供了一种轻量级、无需标注的解决方案。

[57] ReFRM3D: A Radiomics-enhanced Fused Residual Multiparametric 3D Network with Multi-Scale Feature Fusion for Glioma Characterization

Md. Abdur Rahman,Mohaimenul Azam Khan Raiaan,Arefin Ittesafun Abian,Yan Zhang,Mirjam Jonkman,Sami Azam

Main category: cs.CV

TL;DR: 提出ReFRM3D网络和基于多特征肿瘤标记物的分类器,显著提升胶质瘤分割和分类性能

  • Motivation: 胶质瘤具有高死亡率和复杂诊断流程,现有方法存在影像数据变异大、计算资源优化不足、分割分类效率低等问题
  • Method: 提出ReFRM3D网络(基于3D U-Net,含多尺度特征融合、混合上采样和扩展残差跳跃机制),以及基于放射组学特征的多特征肿瘤标记物分类器
  • Result: 在BraTS2019/2020/2021数据集上取得优异分割性能:WT/ET/TC的DSC分别达94.04%/92.68%/93.64%(2019)、94.09%/92.91%/93.84%(2020)、93.70%/90.36%/92.13%(2021)
  • Conclusion: 所提方法有效解决了胶质瘤诊断中的关键挑战,显著提升了分割精度和分类效率

[58] KV-Tracker: Real-Time Pose Tracking with Transformers

Marwan Taher,Ignacio Alzugaray,Kirill Mazur,Xin Kong,Andrew J. Davison

Main category: cs.CV

TL;DR: KV-Tracker:通过缓存全局自注意力块的键值对,将多视图3D几何网络适配为实时6-DoF姿态跟踪和在线重建系统,实现15倍加速且无需重新训练。

  • Motivation: 多视图3D几何网络虽然提供强大的先验知识,但推理速度过慢,无法满足实时应用需求。需要一种方法将其适配到在线使用场景,实现实时姿态跟踪和重建。
  • Method: 1. 快速选择和管理关键帧集合,通过π³网络进行场景/物体映射;2. 缓存全局自注意力块的键值对作为唯一场景表示;3. 使用缓存的KV对进行在线跟踪,无需重新计算整个网络。
  • Result: 在TUM RGB-D、7-Scenes、Arctic和OnePose数据集上表现出色,推理速度提升高达15倍,帧率可达~27 FPS,同时避免了漂移和灾难性遗忘问题。
  • Conclusion: KV-Tracker提供了一种模型无关的缓存策略,可将现有多视图网络适配到实时应用,在保持高性能的同时显著提升速度,适用于无深度测量或物体先验的在线跟踪和重建任务。

[59] PTalker: Personalized Speech-Driven 3D Talking Head Animation via Style Disentanglement and Modality Alignment

Bin Wang,Yang Xu,Huan Zhao,Hao Zhang,Zixing Zhang

Main category: cs.CV

TL;DR: PTalker是一个个性化3D说话头生成框架,通过风格解耦和三层次对齐机制,在保持说话风格的同时提升唇部同步精度。

  • Motivation: 现有语音驱动的3D说话头生成方法虽然取得了较高的唇部同步精度,但大多忽略了个人说话风格的细微差异,这限制了生成结果的个性化和真实感。
  • Method: 1) 通过风格解耦约束将音频和面部运动序列编码到独立的风格和内容空间;2) 采用三层次对齐机制:空间对齐(图注意力网络捕捉顶点连接)、时间对齐(交叉注意力捕捉时序依赖)、特征对齐(top-k双向对比损失和KL散度约束)。
  • Result: 在公开数据集上的大量定性和定量实验表明,PTalker能够有效生成逼真、风格化的3D说话头,准确匹配特定身份的说话风格,性能优于现有最先进方法。
  • Conclusion: PTalker通过风格解耦和三层次对齐机制,在保持个性化说话风格的同时实现了高精度的唇部同步,为个性化3D说话头生成提供了有效解决方案。

[60] Enhancing Noise Resilience in Face Clustering via Sparse Differential Transformer

Dafeng Zhang,Yongqi Song,Shizhuo Liu

Main category: cs.CV

TL;DR: 提出SDT稀疏差分Transformer,通过预测驱动的Top-K Jaccard相似度系数提升人脸聚类性能,在MS-Celeb-1M等数据集上达到SOTA

  • Motivation: 现有方法使用Jaccard相似度系数替代余弦距离来提升人脸嵌入关系测量精度,但引入了过多无关节点,导致Jaccard系数区分度有限,反而影响聚类性能
  • Method: 1. 提出预测驱动的Top-K Jaccard相似度系数,提升邻居节点纯度;2. 开发Transformer预测模型,分析中心节点与Top-K附近邻居的关系;3. 提出稀疏差分Transformer(SDT)替代原始Transformer,消除噪声并增强抗噪能力
  • Result: 在MS-Celeb-1M等多个数据集上的大量实验表明,该方法达到了最先进的性能,优于现有方法,为人脸聚类提供了更鲁棒的解决方案
  • Conclusion: 提出的SDT稀疏差分Transformer结合预测驱动的Top-K Jaccard相似度系数,有效解决了现有方法中无关节点过多和噪声问题,显著提升了人脸聚类的准确性和鲁棒性

[61] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

Jiacheng Ye,Shansan Gong,Jiahui Gao,Junming Fan,Shuang Wu,Wei Bi,Haoli Bai,Lifeng Shang,Lingpeng Kong

Main category: cs.CV

TL;DR: Dream-VL是基于扩散大语言模型(dLLM)构建的视觉语言模型,在视觉规划任务中表现优于自回归模型;Dream-VLA是基于dLLM的视觉语言动作模型,在机器人任务中实现了最先进的性能。

  • Motivation: 自回归大视觉语言模型(AR-VLM)的序列生成特性限制了其在复杂视觉规划和动态机器人控制中的效果,需要探索基于扩散模型的新架构来克服这些限制。
  • Method: 提出Dream-VL,基于扩散大语言模型(dLLM)构建的开放扩散视觉语言模型(dVLM);进一步开发Dream-VLA,通过在开放机器人数据集上持续预训练得到的dLLM视觉语言动作模型(dVLA)。
  • Result: Dream-VL在多个基准测试中与顶级AR-VLM相当,在视觉规划任务中表现更优;Dream-VLA在LIBERO上达到97.2%平均成功率,在SimplerEnv-Bridge和Fractal上分别达到71.4%和60.5%,超越π₀和GR00T-N1等领先模型。
  • Conclusion: 扩散模型的双向特性使其成为视觉语言动作任务的优越基础,更适合动作分块和并行生成,在下游微调中收敛更快,在视觉规划和机器人控制任务中超越自回归基线。

[62] Rethinking Memory Design in SAM-Based Visual Object Tracking

Mohamad Alansari,Muzammal Naseer,Hasan Al Marzouqi,Naoufel Werghi,Sajid Javed

Main category: cs.CV

TL;DR: 该论文系统研究了基于SAM的视觉目标跟踪中的内存机制,提出了统一的混合内存框架,将内存分解为短期外观内存和长期干扰物解决内存,在SAM2和SAM3骨干网络上均提升了跟踪鲁棒性。

  • Motivation: 当前基于SAM2的跟踪方法虽然性能强大,但内存机制设计缺乏系统性研究,且不清楚这些机制如何迁移到更强的SAM3等下一代基础模型。需要理解内存设计原则并建立统一框架。
  • Method: 首先分析代表性SAM2跟踪器,发现它们主要在短期内存帧选择上不同,但共享对象中心表示。然后在SAM3框架中忠实重新实现这些内存机制,进行大规模评估。基于实证发现,提出统一的混合内存框架,将内存明确分解为短期外观内存和长期干扰物解决内存。
  • Result: 在10个多样化基准上进行大规模评估,证明所提框架在SAM2和SAM3骨干网络上均能一致提升跟踪鲁棒性,特别是在长期遮挡、复杂运动和干扰物密集场景下表现更好。
  • Conclusion: 通过系统研究揭示了SAM跟踪中内存设计的关键原则,提出的统一混合内存框架能够模块化整合现有内存策略,为未来基于基础模型的跟踪系统提供了可扩展的内存架构。

[63] Envision: Embodied Visual Planning via Goal-Imagery Video Diffusion

Yuming Gu,Yizhi Wang,Yining Hong,Yipeng Gao,Hao Jiang,Angtian Wang,Bo Liu,Nathaniel S. Dennler,Zhengfei Kuang,Hao Li,Gordon Wetzstein,Chongyang Ma

Main category: cs.CV

TL;DR: Envision是一个基于扩散模型的视觉规划框架,通过目标图像约束生成物理合理、目标一致的视频轨迹,支持具身智能体操作任务。

  • Motivation: 现有视频扩散模型主要进行前向预测,缺乏明确的目标建模,导致空间漂移和目标不对齐问题。需要一种能够生成物理合理、目标一致轨迹的方法来支持具身智能体的操作任务。
  • Method: 采用两阶段框架:1) 目标图像模型识别任务相关区域,通过区域感知交叉注意力合成连贯的目标图像;2) 环境-目标视频模型基于首尾帧条件视频扩散模型(FL2V),在初始观察和目标图像之间插值,生成平滑物理合理的视频轨迹。
  • Result: 在物体操作和图像编辑基准测试中,Envision相比基线方法实现了更好的目标对齐、空间一致性和物体保持。生成的视觉规划可直接支持下游机器人规划和控制。
  • Conclusion: Envision通过明确的目标约束和两阶段生成框架,解决了现有视觉规划中的空间漂移和目标不对齐问题,为具身智能体提供了可靠的视觉规划指导。

[64] FinPercep-RM: A Fine-grained Reward Model and Co-evolutionary Curriculum for RL-based Real-world Super-Resolution

Yidi Liu,Zihao Fan,Jie Huang,Jie Xiao,Dong Li,Wenlong Zhang,Lei Bai,Xueyang Fu,Zheng-Jun Zha

Main category: cs.CV

TL;DR: 本文提出FinPercep-RM细粒度感知奖励模型和协同进化课程学习机制,解决超分辨率RLHF中传统IQA模型对局部失真不敏感导致的奖励黑客问题。

  • Motivation: 传统IQA模型通常输出单一全局分数,对局部和细粒度失真极不敏感,导致ISR模型可能产生感知上不希望的伪影却获得虚假高分,造成奖励黑客问题,使优化目标与感知质量不一致。
  • Method: 1) 提出基于编码器-解码器架构的FinPercep-RM细粒度感知奖励模型,不仅提供全局质量分数,还生成感知退化图来空间定位和量化局部缺陷;2) 构建FGR-30k数据集训练该模型;3) 提出协同进化课程学习机制,奖励模型和ISR模型同步进行课程学习,奖励模型复杂度逐步增加,ISR模型从简单全局奖励开始逐步过渡到复杂模型输出。
  • Result: 实验验证了该方法在RLHF方法中,对ISR模型的全局质量和局部真实感方面都有效。
  • Conclusion: 通过细粒度感知奖励模型和协同进化课程学习机制,成功解决了超分辨率RLHF中的奖励黑客问题,实现了稳定训练并提升了感知质量。

[65] Visual Autoregressive Modelling for Monocular Depth Estimation

Amir El-Ghoussani,André Kaup,Nassir Navab,Gustavo Carneiro,Vasileios Belagiannis

Main category: cs.CV

TL;DR: 提出基于视觉自回归先验的单目深度估计方法,作为扩散模型的替代方案,在有限训练数据下实现竞争性结果

  • Motivation: 为深度估计提供扩散模型之外的替代方案,利用自回归先验作为几何感知生成模型,强调数据可扩展性和对3D视觉任务的适应性
  • Method: 采用大规模文本到图像VAR模型,引入尺度条件上采样机制和分类器自由引导,通过10个固定自回归阶段进行推理,仅需74K合成样本微调
  • Result: 在室内基准测试中达到最先进性能(训练条件受限时),在室外数据集上表现强劲,验证了自回归先验作为深度估计补充方法的有效性
  • Conclusion: 自回归先验是深度估计中几何感知生成模型的重要补充,在数据可扩展性和3D视觉任务适应性方面具有优势

[66] Investigating Deep Learning Models for Ejection Fraction Estimation from Echocardiography Videos

Shravan Saranyan,Pramit Saha

Main category: cs.CV

TL;DR: 该研究评估了多种深度学习架构(3D Inception、双流、CNN-RNN)用于超声心动图视频的LVEF估计,发现改进的3D Inception架构在EchoNet-Dynamic数据集上表现最佳(RMSE 6.79%),同时观察到过拟合趋势和超参数敏感性。

  • Motivation: 超声心动图是评估左心室射血分数(LVEF)的常用非侵入性方法,但手动评估耗时且存在观察者间差异。深度学习有望提供与经验丰富专家相当的性能,从而改善心脏功能评估的效率和一致性。
  • Method: 研究比较了多种深度学习架构:3D Inception、双流模型和CNN-RNN模型。在EchoNet-Dynamic数据集(10,030个超声心动图视频)上系统评估了架构修改和融合策略,以最大化预测准确性。
  • Result: 改进的3D Inception架构表现最佳,RMSE为6.79%。观察到过拟合趋势,较小较简单的模型通常有更好的泛化能力。模型性能对超参数选择(特别是卷积核大小和归一化策略)高度敏感。
  • Conclusion: 深度学习架构在超声心动图LVEF估计中表现良好,改进的3D Inception架构最优。研究发现的架构设计和训练策略见解可能适用于更广泛的医学和非医学视频分析任务。

[67] Unleashing Foundation Vision Models: Adaptive Transfer for Diverse Data-Limited Scientific Domains

Qiankun Li,Feng He,Huabao Chen,Xin Ning,Kun Wang,Zengfu Wang

Main category: cs.CV

TL;DR: 提出CLAdapter(聚类注意力适配器),通过注意力机制和聚类中心将大规模预训练模型的知识适配到数据有限的下游科学领域任务。

  • Motivation: 虽然大规模数据集(如LAION-2B、ImageNet-21K)上的预训练模型获得了丰富知识,但许多数据有限的专业科学领域下游任务仍面临挑战,需要有效的方法将预训练知识适配到这些领域。
  • Method: CLAdapter引入注意力机制和聚类中心,通过分布相关性和变换矩阵个性化增强转换特征。统一接口设计支持CNN和Transformer架构,适用于2D和3D场景。
  • Result: 在10个数据集(涵盖通用、多媒体、生物、医疗、工业、农业、环境、地理、材料科学、OOD和3D分析)上实现最先进性能,在数据有限的科学领域表现优异。
  • Conclusion: CLAdapter能有效释放基础视觉模型的潜力,通过自适应迁移将大规模预训练知识适配到各种数据有限的下游科学领域任务。

[68] INTERACT-CMIL: Multi-Task Shared Learning and Inter-Task Consistency for Conjunctival Melanocytic Intraepithelial Lesion Grading

Mert Ikinci,Luna Toma,Karin U. Loeffler,Leticia Ussem,Daniela Süsskind,Julia M. Weller,Yousef Yeganeh,Martina C. Herwig-Carl,Shadi Albarqouni

Main category: cs.CV

TL;DR: INTERACT-CMIL是一个多头部深度学习框架,通过共享特征学习和组合部分监督,联合预测结膜黑色素细胞上皮内病变的五个组织病理学轴,在486个专家标注的结膜活检样本上优于CNN和基础模型基线。

  • Motivation: 结膜黑色素细胞上皮内病变(CMIL)的准确分级对治疗和黑色素瘤预测至关重要,但由于细微的形态学线索和相互关联的诊断标准,分级仍然困难。
  • Method: 提出INTERACT-CMIL框架,采用共享特征学习与组合部分监督,通过互依赖损失强制跨任务一致性,联合预测WHO4、WHO5、水平扩散、垂直扩散和细胞异型性五个组织病理学轴。
  • Result: 在三个大学医院新策划的486个专家标注结膜活检样本数据集上,INTERACT-CMIL相比CNN和基础模型基线取得一致改进,相对宏观F1分数提升最高达55.1%(WHO4)和25.0%(垂直扩散)。
  • Conclusion: 该框架提供与专家分级一致的可解释多标准预测,为CMIL诊断提供了可重复的计算基准,向标准化数字眼病理学迈进一步。

[69] CritiFusion: Semantic Critique and Spectral Alignment for Faithful Text-to-Image Generation

ZhenQi Chen,TsaiChing Ni,YuanFu Yang

Main category: cs.CV

TL;DR: CritiFusion:无需额外训练,通过多模态语义批判和频域融合提升文本到图像生成的语义对齐和细节质量

  • Motivation: 当前文本到图像扩散模型在视觉保真度上表现优异,但在处理复杂提示时语义对齐不足,需要改进文本与生成内容的一致性
  • Method: 提出CritiFusion框架,包含CritiCore模块(利用视觉语言模型和多个大语言模型进行语义批判和上下文丰富)和SpecFusion(在频域融合中间生成状态,注入粗粒度结构信息同时保留高频细节)
  • Result: 在标准基准测试中显著提升文本到图像对应的人类对齐指标和视觉质量,在人类偏好评分和美学评估上达到与最先进奖励优化方法相当的水平
  • Conclusion: CritiFusion作为即插即用的精炼阶段,兼容现有扩散模型骨干,通过语义批判和频谱对齐策略有效提升生成细节、真实性和提示保真度

[70] Autoregressive Flow Matching for Motion Prediction

Johnathan Xie,Stefan Stojanov,Cristobal Eyzaguirre,Daniel L. K. Yamins,Jiajun Wu

Main category: cs.CV

TL;DR: 提出ARFM方法,通过大规模视频数据训练进行长时程运动预测,并在人机运动预测任务中验证其有效性

  • Motivation: 现有运动预测模型通常针对特定分布训练,而大规模视频预测模型虽然视觉真实感强,但难以准确建模复杂运动。需要一种能结合两者优势的方法
  • Method: 提出自回归流匹配(ARFM)方法,这是一种用于序列连续数据概率建模的新方法,在大规模多样化视频数据集上训练,用于生成长时程的未来点轨迹位置
  • Result: ARFM能够预测复杂运动,实验表明基于预测的未来轨迹来条件化机器人动作预测和人体运动预测,能显著提升下游任务性能
  • Conclusion: ARFM方法通过大规模视频数据训练实现了有效的长时程运动预测,为人机和人体运动预测任务提供了新的解决方案,代码和模型已开源

[71] Multimodal Diffeomorphic Registration with Neural ODEs and Structural Descriptors

Salvador Rodriguez-Sanz,Monica Hernandez

Main category: cs.CV

TL;DR: 提出一种基于神经ODE的多模态微分同胚配准方法,通过连续深度网络和结构描述符实现模态无关的配准,无需大量训练数据,在未见模态上表现稳定。

  • Motivation: 传统非刚性配准方法在精度、计算复杂度和正则化之间存在权衡,且通常假设图像对在解剖同源区域存在强度相关性,限制了其在多模态场景的应用。学习型方法需要大量训练数据且对未见模态性能下降。
  • Method: 采用神经ODE框架的连续深度网络,结合结构描述符作为模态无关的度量模型。提出三种变体:整合基于图像或特征的结构描述符,以及通过局部互信息计算的非结构图像相似性。
  • Result: 在不同扫描数据集组合的实验中,相比适用于大/小变形和多模态配准的最新基线方法,获得了优越的定性和定量结果。框架对显式正则化水平变化具有鲁棒性,保持低误差,适合不同尺度的配准,且在大变形配准中效率较高。
  • Conclusion: 提出的多模态微分同胚配准方法利用神经ODE和结构描述符,实现了无需大量训练数据、对未见模态鲁棒的实例特定配准,在精度、效率和适用性方面优于现有方法。

[72] SCPainter: A Unified Framework for Realistic 3D Asset Insertion and Novel View Synthesis

Paul Dobre,Jackson Cooper,Xin Wang,Hongzhou Yang

Main category: cs.CV

TL;DR: SCPainter是一个统一框架,结合3D高斯溅射资产表示和扩散模型生成,实现自动驾驶场景中的真实3D资产插入和新视角合成。

  • Motivation: 自动驾驶仿真需要多样化的训练数据,特别是长尾驾驶场景。现有方法将3D资产插入和新视角合成分开处理,缺乏统一的仿真框架来联合处理这两项任务,以实现更真实的场景交互和多样化训练数据生成。
  • Method: 提出SCPainter框架,集成3D高斯溅射(GS)汽车资产表示和3D场景点云,通过扩散模型生成高质量图像。将3D GS资产和场景点云一起投影到新视角,用这些投影作为扩散模型的条件输入。
  • Result: 在Waymo Open Dataset上的评估表明,该框架能够实现3D资产插入和新视角合成,促进多样化和真实的驾驶数据创建。
  • Conclusion: SCPainter提供了一个统一的仿真框架,能够联合处理3D资产插入和新视角合成,为自动驾驶训练生成更多样化和真实的场景数据。

[73] Improved cystic hygroma detection from prenatal imaging using ultrasound-specific self-supervised representation learning

Youssef Megahed,Robin Ducharme,Inok Lee,Inbal Willner,Olivier X. Miguel,Kevin Dick,Adrian D. C. Chan,Mark Walker,Steven Hawken

Main category: cs.CV

TL;DR: 本研究评估了超声特异性自监督预训练模型USF-MAE在检测早孕期超声图像中囊性水瘤的性能,结果显示其显著优于传统DenseNet-169基线模型。

  • Motivation: 囊性水瘤是高风险产前超声发现,与染色体异常、结构畸形和不良妊娠结局密切相关。自动化检测可提高可重复性并支持规模化早期筛查,但监督式深度学习方法受限于小规模标注数据集。
  • Method: 使用基于掩码自编码器(MAE)的超声自监督基础模型(USF-MAE),该模型在超过37万张未标注超声图像上进行预训练,然后针对本研究中的正常对照和囊性水瘤病例进行二元分类微调。采用与DenseNet-169基线相同的超声数据集、预处理流程和4折交叉验证协议进行评估。
  • Result: USF-MAE在所有评估指标上均优于DenseNet-169基线:平均准确率0.96 vs 0.93,敏感性0.94 vs 0.92,特异性0.98 vs 0.94,ROC-AUC 0.98 vs 0.94。Score-CAM可视化显示模型关注胎儿颈部相关区域,具有临床相关性。Wilcoxon符号秩检验证实性能提升具有统计学显著性(p=0.0057)。
  • Conclusion: 超声特异性自监督预训练能够实现准确、稳健的囊性水瘤深度学习检测,为早期产前筛查提供了有前景的解决方案,特别是在标注数据有限的情况下。

[74] Split4D: Decomposed 4D Scene Reconstruction Without Video Segmentation

Yongzhen Hu,Yihui Yang,Haotong Lin,Yifan Wang,Junting Dong,Yifu Deng,Xinyu Zhu,Fan Jia,Hujun Bao,Xiaowei Zhou,Sida Peng

Main category: cs.CV

TL;DR: 提出Freetime FeatureGS方法,通过可学习特征的高斯基元表示动态场景,无需视频分割即可实现4D场景分解重建

  • Motivation: 现有方法依赖视频分割质量,但视频分割结果不稳定,导致4D重建不可靠。需要一种不依赖视频分割的4D场景分解重建方法
  • Method: 使用Freetime FeatureGS表示动态场景:高斯基元具有可学习特征和线性运动能力;应用对比损失使基元特征根据2D分割图实例关系接近或远离;采用时序有序采样训练,实现特征在时间维度上的流式传播
  • Result: 在多个数据集上的实验结果表明,该方法的重建质量大幅优于现有方法
  • Conclusion: 提出的Freetime FeatureGS方法通过流式特征学习策略,无需视频分割即可实现高质量的4D场景分解重建,解决了现有方法对视频分割质量的依赖问题

[75] TrimTokenator-LC: Towards Adaptive Visual Token Pruning for Large Multimodal Models with Long Contexts

Hao Zhang,Mengsi Lyu,Bo Huang,Yulong Ao,Yonghua Lin

Main category: cs.CV

TL;DR: 提出一种针对长上下文多图像场景的自适应视觉token剪枝方法,通过分解冗余为图像内和图像间两部分,动态分配token预算,在保持性能的同时显著减少视觉token数量。

  • Motivation: 大型多模态模型在处理视觉输入时,将图像编码为token序列并与文本token拼接处理,但视觉token数量增加会显著提高推理成本。现有视觉token剪枝方法往往忽略了长上下文多图像场景的挑战。
  • Method: 将冗余分解为图像内冗余和图像间冗余,通过图像内多样性和图像间变化性量化,分两阶段处理:1) 图像内阶段为每张图像分配内容感知的token预算并贪婪选择最具代表性的token;2) 图像间阶段进行全局多样性过滤形成候选池,然后应用帕累托选择平衡多样性与文本对齐。
  • Result: 大量实验表明,该方法在长上下文设置下保持强大性能的同时,显著减少了视觉token数量。
  • Conclusion: 针对长上下文多图像场景的自适应视觉token剪枝方法有效解决了现有方法的局限性,在保持模型性能的同时大幅降低了推理成本。

[76] Neighbor-Aware Token Reduction via Hilbert Curve for Vision Transformers

Yunge Li,Lanyu Xu

Main category: cs.CV

TL;DR: 基于希尔伯特曲线重排序的邻居感知令牌缩减方法,通过保留空间连续性和邻居关系来优化视觉Transformer的计算效率

  • Motivation: 现有视觉Transformer的令牌合并和剪枝方法往往忽视空间连续性和邻居关系,导致局部上下文信息丢失,限制了计算效率的优化
  • Method: 提出基于希尔伯特曲线重排序的邻居感知令牌缩减方法:1) 邻居感知剪枝(NAP)用于选择性保留令牌;2) 基于相邻令牌相似性的合并(MAT)用于局部令牌聚合
  • Result: 实验表明该方法在准确率-效率权衡方面达到了最先进水平,优于现有方法
  • Conclusion: 该工作强调了空间连续性和邻居结构的重要性,为视觉Transformer的架构优化提供了新思路

[77] Next Best View Selections for Semantic and Dynamic 3D Gaussian Splatting

Yiqian Li,Wen Jiang,Kostas Daniilidis

Main category: cs.CV

TL;DR: 提出基于Fisher信息的主动学习算法,用于多相机设置中选择信息量最大的视角,以提升动态场景建模和语义推理的性能。

  • Motivation: 在具身智能任务中,语义理解和动态建模都包含大量数据冗余。传统方法采用启发式或随机策略选择视角,缺乏理论依据,无法有效筛选对模型训练最有信息增益的帧。
  • Method: 将视角选择问题形式化为主动学习问题,提出基于Fisher信息的算法,量化候选视角对语义高斯参数和变形网络的信息量。该方法能联合处理语义推理和动态场景建模。
  • Result: 在大规模静态图像和动态视频数据集上评估,从多相机设置中选择信息帧。实验结果表明,该方法能持续提升渲染质量和语义分割性能,优于基于随机选择和不确定性启发式方法的基线。
  • Conclusion: 提出的基于Fisher信息的主动学习算法为视角选择提供了理论依据,能有效提升动态场景建模和语义推理的性能,优于传统启发式或随机策略。

[78] Plug In, Grade Right: Psychology-Inspired AGIQA

Zhicheng Liao,Baoliang Chen,Hanwei Zhu,Lingyu Zhu,Shiqi Wang,Weisi Lin

Main category: cs.CV

TL;DR: 本文提出AGQG模块,通过改进的等级反应模型解决AGIQA中的语义漂移问题,提升图像质量评估性能

  • Motivation: 现有AGIQA模型通过测量图像嵌入与多等级质量描述文本嵌入的相似度来评估图像质量,但发现相似度分布常呈现多模态模式(语义漂移现象),即图像嵌入可能同时与"优秀"和"差"等级描述高度相似,而与"良好"等级偏离,这种文本嵌入与其预期描述之间的语义不一致性影响了文本-图像共享空间学习的可靠性。
  • Method: 受心理测量学启发,提出改进的等级反应模型(GRM)用于AGIQA。GRM是一种经典评估模型,通过不同难度水平的测试项目对受试者能力进行分级。基于此设计双分支质量分级模块:一个分支估计图像能力,另一个分支构建多个难度水平。为确保难度水平的单调性,以算术方式建模难度生成,从而强制产生单峰且可解释的质量分布。
  • Result: 提出的算术GRM质量分级(AGQG)模块具有即插即用优势,当集成到各种最先进的AGIQA框架中时,能持续提升性能。此外,该模块在自然图像和屏幕内容图像质量评估中都能有效泛化。
  • Conclusion: AGQG模块通过解决语义漂移问题,提供了一种更可靠、可解释的图像质量评估方法,展示了作为未来IQA模型关键组件的潜力。

[79] Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Ruoyu Wang,Ziyu Li,Beier Zhu,Liangyu Yuan,Hanwang Zhang,Xun Yang,Xiaojun Chang,Chi Zhang

Main category: cs.CV

TL;DR: 提出EPD-Solver,一种新型ODE求解器,通过并行梯度评估减少截断误差,保持低延迟采样,并引入两阶段优化框架提升文本到图像生成质量。

  • Motivation: 扩散模型虽然生成质量优秀,但存在高采样延迟问题。现有加速方法在低延迟预算下常导致图像质量显著下降,主要原因是无法捕捉高曲率轨迹段而积累截断误差。
  • Method: 提出EPD-Solver,利用向量值函数的中值定理更准确近似积分解,通过并行梯度评估减少误差。采用两阶段优化:首先通过蒸馏方法优化可学习参数,然后提出参数高效的强化学习微调方案,将求解器重新表述为随机Dirichlet策略。
  • Result: EPD-Solver能够有效减少截断误差,在保持低延迟采样的同时提升图像质量。该方法还可作为插件(EPD-Plugin)改进现有ODE采样器。
  • Conclusion: EPD-Solver通过并行梯度评估和两阶段优化框架,有效解决了扩散模型加速中的截断误差问题,在复杂文本到图像生成任务中表现出色,且具有灵活性和可扩展性。

[80] VPTracker: Global Vision-Language Tracking via Visual Prompt and MLLM

Jingchao Wang,Kaiwen Zhou,Zhijian Wu,Kunhua Ji,Dingjiang Huang,Yefeng Zheng

Main category: cs.CV

TL;DR: 基于多模态大语言模型的全局视觉语言跟踪框架VPTracker,通过位置感知视觉提示机制提高跟踪稳定性

  • Motivation: 现有视觉语言跟踪方法局限于局部搜索,在视角变化、遮挡和快速目标移动时容易失败,需要更鲁棒的全局跟踪方案
  • Method: 提出VPTracker框架,利用多模态大语言模型的语义推理能力进行全局跟踪;设计位置感知视觉提示机制,基于目标先前位置构建区域级提示,优先进行区域级识别,必要时才进行全局推理
  • Result: 实验表明该方法显著提高了跟踪稳定性,在挑战性场景下有效区分目标与干扰物,为MLLM在视觉跟踪中的应用开辟了新途径
  • Conclusion: VPTracker是首个基于多模态大语言模型的全局跟踪框架,通过位置感知视觉提示机制平衡全局搜索与干扰抑制,提高了视觉语言跟踪的鲁棒性

[81] Medical Scene Reconstruction and Segmentation based on 3D Gaussian Representation

Bin Liu,Wenyan Tian,Huangxin Fu,Zizheng Li,Zhifen He,Bo Li

Main category: cs.CV

TL;DR: 提出基于3D高斯和tri-plane表示的高效医学图像3D重建方法,在稀疏切片条件下提升结构连续性和语义一致性

  • Motivation: 传统医学图像3D重建方法计算成本高,在稀疏切片条件下容易出现结构不连续和细节丢失,难以满足临床精度要求
  • Method: 结合3D高斯表示和tri-plane表示,利用高斯表示的高效渲染和几何表示优势,增强稀疏切片条件下的结构连续性和语义一致性
  • Result: 在超声和MRI等多模态医学数据集上,该方法能在稀疏数据条件下生成高质量、解剖一致且语义稳定的医学图像,同时显著提升重建效率
  • Conclusion: 为医学图像3D可视化和临床分析提供了一种高效可靠的新方法

[82] Evaluating the Performance of Open-Vocabulary Object Detection in Low-quality Image

Po-Chih Wu

Main category: cs.CV

TL;DR: 提出新数据集评估开放词汇目标检测模型在低质量图像下的性能,发现模型在高程度图像退化时性能显著下降,OWLv2表现相对稳定

  • Motivation: 开放词汇目标检测旨在实现接近人类水平的识别能力,但现有模型在真实世界低质量图像条件下的性能尚未得到充分评估
  • Method: 创建模拟真实世界低质量图像的新数据集,并在该数据集上评估多种开放词汇目标检测模型(OWLv2、OWL-ViT、GroundingDINO、Detic)的性能
  • Result: 低程度图像退化时mAP无明显下降,但高程度退化时所有模型性能急剧下降;OWLv2在不同退化类型中表现最稳定,其他模型性能显著下降
  • Conclusion: 开放词汇目标检测模型对高质量图像退化敏感,需要改进在低质量图像条件下的鲁棒性;将发布数据集和代码促进未来研究

[83] EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation

Libo Zhang,Zekun Li,Tianyu Li,Zeyu Cao,Rui Xu,Xiaoxiao Long,Wenjia Wang,Jingbo Wang,Yuan Liu,Wenping Wang,Daquan Zhou,Taku Komura,Zhiyang Dou

Main category: cs.CV

TL;DR: 提出了EgoReAct框架,首个自回归生成与3D空间对齐的自我中心视频反应动作的实时系统,使用HRD数据集解决现有数据空间不一致问题。

  • Motivation: 人类对自我中心视觉输入具有适应性和上下文敏感的反应,但现有方法难以同时满足严格因果生成和精确3D空间对齐的双重要求,现有数据集存在空间不一致问题。
  • Method: 首先构建HRD数据集解决数据稀缺和错位问题,然后提出EgoReAct自回归框架:1) 使用VQ-VAE将反应动作压缩到紧凑潜空间;2) 训练GPT模型从视觉输入生成反应;3) 整合3D动态特征(度量深度和头部动态)增强空间基础。
  • Result: EgoReAct在真实性、空间一致性和生成效率方面显著优于现有方法,同时保持严格的因果生成,能够实时生成3D对齐的人类反应动作。
  • Conclusion: EgoReAct是首个能够从自我中心视频流实时生成3D对齐人类反应动作的自回归框架,通过整合3D动态特征有效解决了空间一致性问题,为自我中心视觉反应建模提供了新方向。

[84] Depth Anything in 360: Towards Scale Invariance in the Wild

Hualie Jiang,Ziyang Song,Zhiqiang Lou,Rui Xu,Minglang Tan

Main category: cs.CV

TL;DR: DA360将Depth Anything V2适配到全景深度估计,通过ViT学习shift参数和DPT解码器圆形填充,在室内外基准测试中显著提升零样本泛化性能。

  • Motivation: 全景深度估计在室内场景已有广泛研究,但在开放世界的零样本泛化能力远落后于透视图像,主要原因是训练数据不足。需要将透视域的能力迁移到全景域。
  • Method: 1. 从ViT主干网络学习shift参数,将模型的尺度和平移不变输出转换为尺度不变估计,直接生成格式良好的3D点云;2. 在DPT解码器中集成圆形填充,消除接缝伪影,确保空间连贯的深度图并保持球面连续性。
  • Result: 在标准室内基准和新构建的室外数据集Metropolis上,DA360相比基础模型在室内外基准分别实现超过50%和10%的相对深度误差降低。相比现有全景深度估计方法,DA360在三个测试数据集上实现约30%的相对误差改进,建立了零样本全景深度估计的新SOTA。
  • Conclusion: DA360通过创新的shift参数学习和圆形填充技术,成功将透视域深度估计能力迁移到全景域,显著提升了零样本全景深度估计的性能,为机器人和AR/VR应用提供了更强大的环境结构感知能力。

[85] KANO: Kolmogorov-Arnold Neural Operator for Image Super-Resolution

Chenyu Li,Danfeng Hong,Bing Zhang,Zhaojie Pan,Jocelyn Chanussot

Main category: cs.CV

TL;DR: 提出基于Kolmogorov-Arnold定理的新型可解释算子KANO用于图像超分辨率,通过B样条函数逼近光谱曲线,实现透明可控的退化过程建模。

  • Motivation: 现有可解释超分辨率方法依赖黑盒深度网络建模潜在变量,导致退化过程不透明且不可控。需要开发更透明、结构化的表示方法来理解复杂的非线性退化过程。
  • Method: 提出Kolmogorov-Arnold神经算子(KANO),采用有限个B样条函数的加性结构分段逼近连续光谱曲线。通过学习优化样条函数的形状参数,捕捉局部线性趋势和非线性拐点的峰谷结构。
  • Result: KANO能够准确捕捉关键光谱特征,赋予超分辨率结果物理可解释性。通过理论建模和实验评估,系统比较了MLP和KAN在处理复杂序列拟合任务中的表现。
  • Conclusion: KANO为图像超分辨率提供了透明结构化的潜在退化拟合表示,阐明了不同模型在表征复杂退化机制中的优缺点,为可解释超分辨率技术发展提供了有价值见解。

[86] 3D Scene Change Modeling With Consistent Multi-View Aggregation

Zirui Zhou,Junfeng Ni,Shujie Zhang,Yixin Chen,Siyuan Huang

Main category: cs.CV

TL;DR: SCaR-3D:基于3D高斯溅射的3D场景变化检测框架,通过有符号距离2D差分和多视图聚合,实现物体级变化检测和前后状态分离,支持持续场景重建。

  • Motivation: 现有3D变化检测方法存在空间不一致问题,无法明确分离变化前后的状态,需要更鲁棒的变化检测和持续重建方法。
  • Method: 1) 基于有符号距离的2D差分模块;2) 带投票和剪枝的多视图聚合;3) 利用3DGS一致性分离前后状态;4) 选择性更新动态区域的持续重建策略。
  • Result: 方法在准确性和效率上都优于现有方法,并贡献了CCS3D合成数据集支持可控评估。
  • Conclusion: SCaR-3D能有效检测物体级3D变化,明确分离前后状态,支持持续场景重建,为场景监控和探索提供实用工具。

[87] A Minimal Solver for Relative Pose Estimation with Unknown Focal Length from Two Affine Correspondences

Zhenbao Yu,Shirong Ye,Ronghe Jin,Shunkun Liang,Zibin Liu,Huiyun Zhang,Banglei Guan

Main category: cs.CV

TL;DR: 提出一种基于两个仿射对应和已知垂直方向(来自IMU)来估计相对位姿和焦距的新方法,将问题从5自由度简化为3自由度,使用多项式特征值方法求解。

  • Motivation: 在自动驾驶汽车、智能手机和无人机等应用中,相机常与惯性测量单元(IMU)结合使用。IMU可以提供相机视图的垂直方向,从而将相对位姿从5自由度减少到3自由度。现有方法需要更多对应点或无法充分利用IMU信息,因此需要更高效准确的求解器。
  • Method: 首先,在已知垂直方向的情况下,从两个仿射对应建立约束方程。然后,基于具有非平凡解方程组的性质,推导出仅涉及焦距和相对旋转角度的四个方程。最后,利用多项式特征值方法求解焦距和相对旋转角度。
  • Result: 在合成和真实数据集上的评估表明,所提出的求解器性能优于现有的最先进求解器。
  • Conclusion: 该方法通过结合IMU提供的垂直方向信息,仅需两个仿射对应就能有效估计相对位姿和焦距,在精度和效率上优于现有方法,适用于实际应用场景。

[88] ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning

Bangya Liu,Xinyu Gong,Zelin Zhao,Ziyang Song,Yulei Lu,Suhui Wu,Jun Zhang,Suman Banerjee,Hao Zhang

Main category: cs.CV

TL;DR: ByteLoom是一个基于扩散Transformer的框架,用于生成具有几何一致对象插图的真实人-物交互视频,解决了现有方法在多视角信息注入和手部网格标注依赖方面的局限性。

  • Motivation: 现有的人-物交互视频生成方法存在两个关键限制:1) 缺乏有效的多视角信息注入机制,导致跨视角一致性差;2) 严重依赖细粒度的手部网格标注来建模交互遮挡。这些问题限制了方法在实际应用中的效果。
  • Method: 提出了ByteLoom框架,采用扩散Transformer架构,使用简化的人类条件和3D对象输入。核心创新包括:1) RCM-cache机制,利用相对坐标图作为通用表示来保持对象几何一致性并精确控制6自由度对象变换;2) 渐进式训练课程,增强模型能力并减少对手部网格的需求。
  • Result: 实验表明,该方法能够忠实保持人类身份和对象的多视角几何特性,同时保持平滑的运动和对象操作效果。
  • Conclusion: ByteLoom通过创新的RCM-cache机制和渐进式训练策略,成功解决了人-物交互视频生成中的几何一致性和标注依赖问题,为数字人类、电子商务、广告和机器人模仿学习等应用提供了更有效的解决方案。

[89] MUSON: A Reasoning-oriented Multimodal Dataset for Socially Compliant Navigation in Urban Environments

Zhuonan Liu,Xinyu Zhang,Zishuo Wang,Tomohito Kawabata,Xuesu Xiao,Ling Xiao

Main category: cs.CV

TL;DR: MUSON是一个用于短时域社交导航的多模态数据集,通过五步思维链标注(感知、预测、推理、行动、解释)提供结构化推理监督,解决了现有数据集缺乏显式推理监督和动作分布长尾的问题。

  • Motivation: 现有社交导航数据集缺乏显式推理监督,且动作分布呈现高度长尾,限制了模型学习安全关键行为的能力。需要一个新的数据集来提供结构化推理监督和平衡的动作空间。
  • Method: 构建MUSON多模态数据集,包含多样化的室内外校园场景,采用五步思维链标注:感知、预测、推理、行动、解释,并显式建模静态物理约束和理性平衡的离散动作空间。
  • Result: 在MUSON上对多个最先进的小型视觉语言模型进行基准测试,Qwen2.5-VL-3B取得了最高的决策准确率0.8625,证明MUSON是社交合规导航的有效且可复用的基准。
  • Conclusion: MUSON通过结构化思维链标注和平衡的动作空间,为社交导航提供了有效的推理监督和评估基准,解决了现有数据集的局限性,有助于提升模型的安全关键行为学习能力。

[90] Learning Anatomy from Multiple Perspectives via Self-supervision in Chest Radiographs

Ziyu Zhou,Haozhe Luo,Mohammad Reza Hosseinzadeh Taher,Jiaxuan Pang,Xiaowei Ding,Michael B. Gotway,Jianming Liang

Main category: cs.CV

TL;DR: Lamps是一种从胸部X光片中学习解剖学基础的自监督学习方法,通过利用人体解剖学的一致性、连贯性和层次性作为监督信号,相比现有方法表现出更好的鲁棒性和可迁移性。

  • Motivation: 医学影像的关键基础在于人体解剖学,但现有的自监督学习方法往往忽视解剖学视角,限制了学习解剖特征的能力。需要一种能有效捕捉人体解剖结构一致性和层次性的方法。
  • Method: Lamps通过自监督学习在大规模胸部X光片上进行预训练,和谐地利用人体解剖学的一致性、连贯性和层次性作为监督信号,从多个视角学习解剖结构。
  • Result: 在10个数据集上的实验表明,与10个基线模型相比,Lamps在微调和涌现特性分析中表现出卓越的鲁棒性、可迁移性和临床潜力。
  • Conclusion: 通过从多个视角学习,Lamps为基础模型提供了发展有意义、鲁棒且与人体解剖结构对齐的表征的独特机会,推动了医学影像基础模型的发展。

[91] Let Samples Speak: Mitigating Spurious Correlation by Exploiting the Clusterness of Samples

Weiwei Li,Junzhuo Liu,Yuanyuan Ren,Yuchen Zheng,Yahao Liu,Wen Li

Main category: cs.CV

TL;DR: 提出一种数据导向的方法来缓解深度学习模型中的虚假相关性,通过识别、中和、消除和更新四个步骤构建有效管道,在图像和NLP去偏基准上相比标准ERM将最差组准确率提升超过20%

  • Motivation: 深度学习模型在训练时经常学习到与类别标签虚假相关但与预测任务无关的特征。现有方法通常需要标注潜在的虚假属性,或基于一些经验假设(如偏差的简单性)过滤虚假特征,但由于现实数据中虚假相关性的复杂性和难以捉摸性,这些方法可能表现不佳。
  • Method: 提出一个四步管道:1) 识别:观察到受虚假特征影响的样本在学习的特征空间中呈现分散分布,从而识别虚假特征的存在;2) 中和:基于简单的分组策略中和虚假特征,获得偏差不变表示;3) 消除:学习特征变换,通过与偏差不变表示对齐来消除虚假特征;4) 更新:结合学习到的特征变换更新分类器,获得无偏模型。
  • Result: 在图像和NLP去偏基准测试中,相比标准经验风险最小化(ERM),最差组准确率提升了超过20%。
  • Conclusion: 提出的数据导向方法通过识别、中和、消除和更新四个步骤构建了一个有效的虚假相关性缓解管道,无需标注虚假属性或依赖经验假设,在多个基准测试中显著提升了模型在最差组上的性能。

[92] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

Ju-Hsuan Weng,Jia-Wei Liao,Cheng-Fu Chou,Jun-Cheng Chen

Main category: cs.CV

TL;DR: 本文提出了M-ErasureBench多模态评估框架,用于系统评估概念擦除方法在文本提示、学习嵌入和反转潜在空间三种输入模态下的性能,并发现现有方法在非文本模态下存在严重漏洞。作者还提出了IRECE插件模块来增强推理时鲁棒性。

  • Motivation: 现有概念擦除方法主要针对文本提示,忽视了图像编辑和个性化生成等实际应用中日益重要的其他输入模态(如学习嵌入和反转潜在空间),这些模态可能成为攻击面,使已擦除的概念重新出现。
  • Method: 1. 提出M-ErasureBench多模态评估框架,系统评估三种输入模态(文本提示、学习嵌入、反转潜在空间)和两种访问方式(白盒、黑盒),共五种评估场景;2. 提出IRECE插件模块,通过交叉注意力定位目标概念并在去噪过程中扰动相关潜在空间来增强鲁棒性。
  • Result: 现有方法在文本提示下表现良好,但在学习嵌入和反转潜在空间下基本失效,白盒设置下概念再现率超过90%。IRECE能显著恢复鲁棒性,在最具挑战性的白盒潜在反转场景下将CRR降低达40%,同时保持视觉质量。
  • Conclusion: M-ErasureBench是首个超越文本提示的全面概念擦除基准,结合IRECE为构建更可靠的保护性生成模型提供了实用保障,揭示了多模态输入下的安全漏洞并提出了有效解决方案。

[93] SwinTF3D: A Lightweight Multimodal Fusion Approach for Text-Guided 3D Medical Image Segmentation

Hasan Faraz Khan,Noor Fatima,Muzammil Behzad

Main category: cs.CV

TL;DR: SwinTF3D是一个轻量级多模态融合方法,通过统一视觉和语言表示实现文本引导的3D医学图像分割,相比传统视觉学习方法具有更好的语义理解和适应性。

  • Motivation: 现有3D分割框架主要依赖大规模标注数据的视觉学习,缺乏语义理解能力,难以适应新领域和临床任务,无法处理灵活的用户定义分割目标。
  • Method: 采用基于Transformer的视觉编码器提取体素特征,通过紧凑的文本编码器和高效融合机制将视觉特征与语言表示对齐,实现自然语言提示与医学体数据空间结构的语义对应。
  • Result: 在BTCV数据集上获得有竞争力的Dice和IoU分数,在多个器官分割中表现良好,对未见数据泛化能力强,相比传统Transformer分割网络具有显著效率优势。
  • Conclusion: SwinTF3D通过桥接视觉感知与语言理解,为交互式、文本驱动的3D医学图像分割建立了实用且可解释的范式,为临床影像提供了更适应性强、资源高效的解决方案。

[94] Guided Path Sampling: Steering Diffusion Models Back on Track with Principled Path Guidance

Haosen Li,Wenshuo Chen,Shaofeng Liang,Lei Wang,Haozhe Jia,Yutao Yue

Main category: cs.CV

TL;DR: GPS(引导路径采样)通过用流形约束插值替代不稳定的外推,解决了扩散模型迭代细化中CFG导致采样路径偏离数据流形的问题,实现了稳定、高质量的图像生成。

  • Motivation: 基于去噪-反转循环的迭代细化方法在与标准无分类器引导(CFG)结合时存在根本性限制:CFG的外推性质会系统性地将采样路径推离数据流形,导致近似误差发散并破坏细化过程。
  • Method: 提出引导路径采样(GPS)新范式,用原则性的流形约束插值替代不稳定的外推,确保采样路径保持在数据流形上。理论证明该方法能将误差序列从无界放大转变为严格有界。同时设计了动态调整引导强度的最优调度策略,使语义注入与模型从粗到细的生成过程对齐。
  • Result: 在SDXL和Hunyuan-DiT等现代骨干模型上的实验表明,GPS在感知质量和复杂提示遵循方面优于现有方法。例如,在SDXL上获得0.79的ImageReward和0.2995的HPS v2分数,在GenEval上将整体语义对齐准确率提高到57.45%。
  • Conclusion: 路径稳定性是有效迭代细化的先决条件,GPS为实现这一目标提供了一个稳健的框架,通过流形约束插值确保采样路径稳定,显著提升了扩散模型的生成质量和控制能力。

[95] Hash Grid Feature Pruning

Yangzhi Ma,Bojun Liu,Jie Li,Li Li,Dong Liu

Main category: cs.CV

TL;DR: 提出一种基于高斯泼溅坐标的哈希网格特征剪枝方法,通过识别和剪枝无效特征来减少存储和传输开销,在保持模型性能的同时提升率失真性能

  • Motivation: 传统哈希网格在3D高斯泼溅中存在大量稀疏区域,导致许多特征无效,造成冗余存储和传输开销
  • Method: 基于输入高斯泼溅坐标识别并剪枝哈希网格中的无效特征,仅编码有效特征,减少哈希网格存储大小
  • Result: 在标准化委员会定义的CTC测试条件下,相比基线方法平均比特率降低8%,存储大小减少且不损害模型性能
  • Conclusion: 哈希网格特征剪枝方法能有效减少冗余存储和传输开销,提升率失真性能,为3D高斯泼溅表示提供更高效的压缩方案

[96] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Kai Liu,Jungang Li,Yuchong Sun,Shengqiong Wu,Jianzhang Gao,Daoan Zhang,Wei Zhang,Sheng Jin,Sicheng Yu,Geng Zhan,Jiayi Ji,Fan Zhou,Liang Zheng,Shuicheng Yan,Hao Fei,Tat-Seng Chua

Main category: cs.CV

TL;DR: JavisGPT是首个统一的音频-视频多模态大语言模型,采用编码器-LLM-解码器架构,通过三阶段训练实现音频-视频的理解和生成,在复杂时序同步任务上表现优异。

  • Motivation: 现有多模态大语言模型主要关注视觉-语言或音频-语言任务,缺乏对音频-视频联合理解和生成的能力,特别是在需要时序同步的复杂场景中。
  • Method: 采用编码器-LLM-解码器架构,包含SyncFusion模块进行时空音频-视频融合,使用同步感知可学习查询连接预训练的JAV-DiT生成器。通过三阶段训练流程:多模态预训练、音频-视频微调、大规模指令调优。
  • Result: 在音频-视频理解和生成基准测试中,JavisGPT优于现有MLLMs,特别是在复杂和时序同步设置中表现突出。
  • Conclusion: JavisGPT成功实现了音频-视频的联合理解和生成,通过创新的架构设计和高质量数据集构建,为多模态AI在时序敏感任务中的应用提供了新方向。

[97] ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Qihang Peng,Xuesong Chen,Chenye Yang,Shaoshuai Shi,Hongsheng Li

Main category: cs.CV

TL;DR: ColaVLA是一个统一的视觉-语言-动作框架,通过将推理从文本转移到统一潜在空间,结合分层并行轨迹解码器,解决了VLM规划器在连续控制、延迟和非因果规划方面的挑战,实现了高效准确的轨迹生成。

  • Motivation: 当前基于视觉语言模型(VLM)的自动驾驶规划器面临三个关键挑战:1)离散文本推理与连续控制之间的不匹配;2)自回归思维链解码导致的高延迟;3)低效或非因果规划器限制实时部署。需要一种既能保持VLM泛化能力和可解释性,又能实现高效准确轨迹生成的解决方案。
  • Method: 提出ColaVLA框架,包含两个核心组件:1)认知潜在推理器(Cognitive Latent Reasoner):通过自适应的自我选择,将场景理解压缩为紧凑的决策导向元动作嵌入,仅需两次VLM前向传递;2)分层并行规划器(Hierarchical Parallel Planner):在单次前向传递中生成多尺度、因果一致的轨迹。
  • Result: 在nuScenes基准测试中,ColaVLA在开环和闭环设置下均实现了最先进的性能,同时具备良好的效率和鲁棒性。
  • Conclusion: ColaVLA成功地将VLM的泛化能力和可解释性与高效准确的轨迹生成相结合,通过统一的潜在空间表示和分层并行解码,解决了当前VLM规划器的关键挑战,为自动驾驶的实时部署提供了可行方案。

[98] Learning Where to Focus: Density-Driven Guidance for Detecting Dense Tiny Objects

Zhicheng Zhao,Xuanang Fan,Lingma Sun,Chenglong Li,Jin Tang

Main category: cs.CV

TL;DR: DRMNet利用密度图作为空间先验,通过密度生成、密集区域聚焦和双滤波器融合三个模块,有效提升高分辨率遥感图像中密集小目标的检测性能。

  • Motivation: 高分辨率遥感图像中的密集小目标检测面临严重遮挡和像素足迹有限的挑战,现有方法无法自适应聚焦于密度集中区域,导致特征学习效果不佳。
  • Method: 提出DRMNet网络:1) 密度生成分支(DGB)建模目标分布模式;2) 密集区域聚焦模块(DAFM)利用密度图识别密集区域,实现高效局部-全局特征交互;3) 双滤波器融合模块(DFFM)通过离散余弦变换分离多尺度特征,进行密度引导的交叉注意力增强互补性。
  • Result: 在AI-TOD和DTOD数据集上的实验表明,DRMNet超越了现有最先进方法,特别是在高目标密度和严重遮挡的复杂场景中表现优异。
  • Conclusion: DRMNet通过密度引导的自适应特征学习机制,有效解决了遥感图像中密集小目标检测的挑战,为高密度目标检测提供了新的解决方案。

[99] CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision

Behnam Raoufi,Hossein Sharify,Mohamad Mahdee Ramezanee,Khosrow Hajsadeghi,Saeed Bagheri Shouraki

Main category: cs.CV

TL;DR: CLIP-Joint-Detect是一个简单且与检测器无关的框架,通过端到端联合训练集成CLIP风格的对比视觉-语言监督,提升目标检测性能。

  • Motivation: 传统目标检测器依赖交叉熵分类,容易受到类别不平衡和标签噪声的影响。需要一种更鲁棒的方法来提升检测性能。
  • Method: 提出轻量级并行头,将区域或网格特征投影到CLIP嵌入空间,通过InfoNCE对比损失和辅助交叉熵项与可学习的类别特定文本嵌入对齐,同时优化所有标准检测损失。
  • Result: 在Pascal VOC 2007+2012上使用Faster R-CNN,在MS COCO 2017上使用YOLOv11,均实现了显著且一致的性能提升,同时保持实时推理速度。
  • Conclusion: 通过可学习文本嵌入的联合优化显著提升了不同架构和数据集上的闭集检测性能,框架简单且适用于两阶段和一阶段检测器。

[100] Wavelet-based Multi-View Fusion of 4D Radar Tensor and Camera for Robust 3D Object Detection

Runwei Guan,Jianan Liu,Shaofeng Liang,Fangqiang Ding,Shanliang Yao,Xiaokai Bai,Daizong Liu,Tao Huang,Guoqiang Mao,Hui Xiong

Main category: cs.CV

TL;DR: WRCFormer是一个融合原始4D毫米波雷达立方体与相机数据的3D目标检测框架,通过多视图表示和渐进融合机制,在恶劣天气条件下实现最先进的性能。

  • Motivation: 4D毫米波雷达在自动驾驶中应用广泛,但其固有的稀疏性和语义信息有限限制了感知能力。现有的雷达-相机融合方法存在信息损失或计算成本过高的问题,需要一种更有效的融合方案。
  • Method: 提出WRCFormer框架:1) 使用解耦雷达立方体的多视图表示;2) 设计小波注意力模块作为小波特征金字塔网络的基础模块,增强稀疏雷达信号和图像数据的表示;3) 引入两阶段查询式、模态无关的几何引导渐进融合机制,高效集成多模态多视图特征。
  • Result: 在K-Radar基准测试中达到最先进性能:在所有场景下超越最佳模型约2.4%,在雨雪场景下超越1.6%,展示了在恶劣天气条件下的鲁棒性。
  • Conclusion: WRCFormer通过有效融合原始雷达立方体和相机数据,解决了现有融合方法的信息损失和计算成本问题,在恶劣天气条件下表现出优越的感知性能,为自动驾驶提供了可靠的解决方案。

[101] YOLO-IOD: Towards Real Time Incremental Object Detection

Shizhou Zhang,Xueqiang Lv,Yinghui Xing,Qirui Wu,Di Xu,Chen Zhao,Yanning Zhang

Main category: cs.CV

TL;DR: YOLO-IOD:首个基于YOLO的实时增量目标检测框架,解决YOLO在增量学习中的灾难性遗忘问题,通过冲突感知伪标签细化、重要性核选择、跨阶段非对称知识蒸馏三个组件实现高效增量学习。

  • Motivation: 现有增量目标检测方法主要基于Faster R-CNN或DETR系列,无法适配实时YOLO检测框架。YOLO在增量学习中面临三种主要知识冲突:前景-背景混淆、参数干扰、知识蒸馏错位,导致灾难性遗忘。
  • Method: 基于预训练YOLO-World模型构建YOLO-IOD框架,采用分阶段参数高效微调。包含三个核心组件:1)冲突感知伪标签细化(CPR)缓解前景-背景混淆;2)重要性核选择(IKS)识别并更新当前任务关键卷积核;3)跨阶段非对称知识蒸馏(CAKD)解决知识蒸馏错位。
  • Result: 在传统和新的LoCo COCO基准测试中,YOLO-IOD表现出优越性能且遗忘最小。LoCo COCO是更现实的基准,消除了阶段间数据泄漏问题。
  • Conclusion: YOLO-IOD是首个基于YOLO的实时增量目标检测框架,有效解决了YOLO在增量学习中的知识冲突问题,实现了高性能的增量学习,填补了实时检测框架在增量学习领域的空白。

[102] RealCamo: Boosting Real Camouflage Synthesis with Layout Controls and Textual-Visual Guidance

Chunyuan Chen,Yunuo Cai,Shujuan Li,Weiyun Liang,Bin Wang,Jing Xu

Main category: cs.CV

TL;DR: ReamCamo:基于统一外绘框架的逼真伪装图像生成方法,通过布局控制和多模态条件提升语义一致性与视觉逼真度

  • Motivation: 现有伪装图像生成方法存在明显缺陷:要么视觉相似度不足导致伪装效果差,要么背景杂乱与前景目标语义不一致。这导致生成的训练数据与真实伪装图像存在显著差距,影响了伪装目标检测模型的性能。
  • Method: 提出ReamCamo统一外绘框架:1)引入布局控制来调节全局图像结构,改善前景与生成背景的语义一致性;2)构建多模态文本-视觉条件,结合统一细粒度文本任务描述和纹理导向的背景检索,共同指导生成过程;3)提出背景-前景分布差异度量来定量评估伪装质量。
  • Result: 大量实验和可视化结果表明,ReamCamo框架在生成逼真伪装图像方面表现出色,能够有效提升伪装目标检测的训练数据质量。
  • Conclusion: ReamCamo通过布局控制和多模态条件引导,显著改善了伪装图像生成的语义一致性和视觉逼真度,为伪装目标检测提供了高质量的训练数据生成方案。

[103] PoseStreamer: A Multi-modal Framework for 6DoF Pose Estimation of Unseen Moving Objects

Huiming Yang,Linglin Liao,Fei Ding,Sibo Wang,Zijian Zeng

Main category: cs.CV

TL;DR: PoseStreamer:一个针对高速运动场景设计的鲁棒多模态6DoF姿态估计框架,通过自适应姿态记忆队列、物体中心2D跟踪器和光线姿态滤波器提升性能,并在新数据集MoCapCube6D上验证效果。

  • Motivation: 在高速和低光场景中,传统RGB相机存在运动模糊问题,而事件相机虽然具有高时间分辨率,但现有6DoF姿态估计方法在高速物体运动场景中表现不佳,需要专门针对高速运动场景设计的解决方案。
  • Method: 提出PoseStreamer框架,包含三个核心组件:1) 自适应姿态记忆队列,利用历史方向线索保持时间一致性;2) 物体中心2D跟踪器,提供强2D先验以提升3D中心召回率;3) 光线姿态滤波器,沿相机光线进行几何细化。同时构建了MoCapCube6D多模态数据集用于基准测试。
  • Result: 大量实验表明,PoseStreamer在高速运动场景中不仅实现了更高的精度,而且作为无模板框架对未见过的运动物体表现出强大的泛化能力。
  • Conclusion: PoseStreamer为解决高速运动场景中的6DoF姿态估计问题提供了一个有效的多模态框架,通过时间一致性、2D先验和几何细化等创新组件显著提升了性能,并为该领域提供了新的基准数据集。

[104] Spatial-aware Symmetric Alignment for Text-guided Medical Image Segmentation

Linglin Liao,Qichuan Geng,Yu Liu

Main category: cs.CV

TL;DR: SSA框架通过对称最优传输对齐和复合方向引导策略,增强医学图像分割中混合文本(位置、描述、诊断信息)的处理能力,解决现有方法无法同时处理诊断和描述文本、缺乏空间约束的问题。

  • Motivation: 当前基于文本引导的医学图像分割方法存在两个关键瓶颈:1)难以同时处理诊断性和描述性文本,导致难以识别病变并建立与图像区域的关联;2)现有方法主要关注病变描述,未能捕捉位置约束,导致关键偏差(如"左下肺"可能错误覆盖双侧肺)。
  • Method: 提出空间感知对称对齐(SSA)框架:1)对称最优传输对齐机制,加强图像区域与多个相关表达之间的关联,建立双向细粒度多模态对应;2)复合方向引导策略,通过构建区域级引导掩码,在文本中显式引入空间约束。
  • Result: 在公开基准测试上的大量实验表明,SSA实现了最先进的性能,特别是在准确分割具有空间关系约束特征的病变方面表现优异。
  • Conclusion: SSA框架通过增强混合医学文本(位置、描述、诊断信息)的处理能力,有效解决了现有方法在同时处理多种文本类型和空间约束方面的局限性,为文本引导的医学图像分割提供了更准确和可靠的解决方案。

[105] Reverse Personalization

Han-Wei Kung,Tuomas Varanka,Nicu Sebe

Main category: cs.CV

TL;DR: 提出一种基于条件扩散反演的反向个性化框架,用于人脸匿名化,无需文本提示或模型微调,支持属性可控的匿名化

  • Motivation: 现有基于提示的方法移除或修改身份特征时,要么依赖预训练模型已包含该身份,要么需要针对特定身份进行模型微调,缺乏对未见身份的处理能力和属性控制
  • Method: 采用条件扩散反演框架,直接操作图像而无需文本提示;引入身份引导的条件分支以泛化到训练数据之外的未见身份;支持属性可控的匿名化
  • Result: 在身份移除、属性保留和图像质量之间实现了最先进的平衡,优于现有匿名化方法
  • Conclusion: 提出的反向个性化框架为面部匿名化提供了一种有效且可控的解决方案,能够处理未见身份并保持面部属性

[106] A Low-Cost UAV Deep Learning Pipeline for Integrated Apple Disease Diagnosis,Freshness Assessment, and Fruit Detection

Soham Dutta,Soham Banerjee,Sneha Mahata,Anindya Sen,Sayantani Datta

Main category: cs.CV

TL;DR: 提出一个基于RGB摄像头的低成本无人机果园智能系统,集成病害检测、新鲜度评估和苹果检测定位功能,实现完全离线推理

  • Motivation: 现有无人机系统通常单独处理果园任务且依赖昂贵的多光谱传感器,需要统一、低成本的解决方案
  • Method: 使用ResNet50进行叶片病害检测,VGG16进行苹果新鲜度评估,YOLOv8进行实时苹果检测定位,系统在ESP32-CAM和树莓派上运行
  • Result: 叶片病害分类准确率98.9%,新鲜度分类准确率97.4%,苹果检测F1分数0.857
  • Conclusion: 该框架为多光谱无人机解决方案提供了经济实惠的替代方案,支持在低成本硬件上实现精准农业

[107] OpenGround: Active Cognition-based Reasoning for Open-World 3D Visual Grounding

Wenyuan Huang,Zhao Wang,Zhou Wei,Ting Huang,Fang Zhao,Jian Yang,Zhenyu Zhang

Main category: cs.CV

TL;DR: OpenGround是一个用于开放世界3D视觉定位的零样本框架,通过主动认知推理模块动态扩展视觉语言模型的认知范围,无需预定义对象查找表,在开放世界场景中表现优异。

  • Motivation: 现有3D视觉定位方法依赖预定义的对象查找表来查询视觉语言模型,这限制了在未定义或未预见目标场景中的应用。需要解决开放世界场景下的3D视觉定位问题。
  • Method: 提出OpenGround框架,核心是主动认知推理模块。该模块通过认知任务链模拟人类感知目标的过程,主动推理上下文相关对象,通过动态更新的对象查找表扩展视觉语言模型的认知范围。
  • Result: 在Nr3D数据集上取得竞争性性能,在ScanRefer数据集上达到最先进水平,在提出的OpenTarget数据集上实现17.6%的显著提升。OpenTarget数据集包含7000多个对象-描述对用于评估开放世界场景。
  • Conclusion: OpenGround通过主动认知推理模块克服了预定义对象查找表的限制,能够在预定义和开放世界类别下工作,为开放世界3D视觉定位提供了有效的解决方案。

[108] With Great Context Comes Great Prediction Power: Classifying Objects via Geo-Semantic Scene Graphs

Ciprian Constantinescu,Marius Leordeanu

Main category: cs.CV

TL;DR: 提出Geo-Semantic Contextual Graph (GSCG)框架,通过构建结构化场景图整合几何、语义和材料信息,显著提升物体分类准确率至73.4%,远超传统方法。

  • Motivation: 人类识别物体时能充分利用丰富的场景上下文信息(空间关系、材料属性、物体共现),而现有计算系统通常在孤立图像区域上操作,忽略了这些关键上下文信息。
  • Method: 1. 从单目图像构建Geo-Semantic Contextual Graph (GSCG):整合度量深度估计与统一的全景和材料分割模型;2. 物体作为节点包含几何、颜色和材料属性,空间关系作为边;3. 设计专门的图分类器,聚合目标物体、邻近物体和全局场景特征进行分类。
  • Result: 在COCO 2017数据集上达到73.4%的分类准确率,远超无上下文版本(最低38.4%)、微调ResNet模型(最高53.5%)和最先进的多模态LLM(最高42.3%)。
  • Conclusion: 显式结构化和可解释的上下文表示对于物体识别任务具有显著优势,GSCG框架通过整合几何、语义和材料信息实现了更接近人类认知的物体识别能力。

[109] An Architecture-Led Hybrid Report on Body Language Detection Project

Thomson Tong,Diba Darooneh

Main category: cs.CV

TL;DR: 该报告分析了两个视觉语言模型(Qwen2.5-VL-7B-Instruct和Llama-4-Scout-17B-16E-Instruct)的架构特性,并将其映射到视频到人工制品的实际管道中,用于人体语言检测。

  • Motivation: 研究现代视觉语言模型的架构特性如何在实际的视频处理系统中应用,理解模型行为与系统约束之间的关系,为编写可靠声明、设计健壮接口和规划评估提供基础。
  • Method: 采用架构导向的分析方法,首先总结共享的多模态基础(视觉标记化、Transformer注意力、指令跟随),然后详细描述每个模型的架构,最后将模型行为连接到系统约束:结构化输出验证、模式验证、人员标识符处理等。
  • Result: 分析揭示了结构化输出可能在语法上有效但语义上错误,模式验证仅关注结构而非几何正确性,人员标识符在当前提示约定中是帧本地的,交互式单帧分析返回自由格式文本而非模式强制JSON等重要区别。
  • Conclusion: 这些架构与系统约束之间的区别对于编写可靠声明、设计健壮接口和规划评估至关重要,为实际视频处理系统的开发提供了重要的工程指导。

[110] Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion

Yi Zhou,Xuechao Zou,Shun Zhang,Kai Li,Shiying Wang,Jingming Chen,Congyan Lang,Tengfei Cao,Pin Tao,Yuanchun Shi

Main category: cs.CV

TL;DR: Co2S是一个稳定的半监督遥感图像语义分割框架,通过融合视觉语言模型和自监督模型的先验知识,解决伪标签漂移问题。

  • Motivation: 半监督遥感图像语义分割虽然能减轻标注负担,但存在伪标签漂移问题,即确认偏差导致训练过程中错误累积。
  • Method: 提出异构双学生架构,包含基于CLIP和DINOv3预训练的ViT模型;引入显式-隐式语义协同引导机制,利用文本嵌入和可学习查询提供类别级指导;开发全局-局部特征协同融合策略,融合CLIP的全局上下文信息和DINOv3的局部细节。
  • Result: 在六个流行数据集上的广泛实验表明,该方法在各种划分协议和多样化场景中始终取得领先性能。
  • Conclusion: Co2S通过协同融合视觉语言模型和自监督模型的先验知识,有效缓解了伪标签漂移问题,实现了稳定且高性能的半监督遥感图像语义分割。

[111] 3D sans 3D Scans: Scalable Pre-training from Video-Generated Point Clouds

Ryousuke Yamada,Kohsuke Ide,Yoshihiro Fukuhara,Hirokatsu Kataoka,Gilles Puy,Andrei Bursuc,Yuki M. Asano

Main category: cs.CV

TL;DR: LAM3C:从无标签视频中学习3D表示的自监督框架,无需真实3D传感器,在室内语义和实例分割上超越现有方法

  • Motivation: 大规模3D场景扫描成本高且劳动密集,而网络上有大量无标签视频可用。研究是否可以从无真实3D传感器的视频中学习3D表示。
  • Method: 提出LAM3C框架:1) 构建RoomTours数据集,从网络收集房间漫游视频,使用现成重建模型生成49,219个场景;2) 提出噪声正则化损失,通过强制局部几何平滑性和特征稳定性来稳定表示学习;3) 使用拉普拉斯感知多级3D聚类与Sinkhorn-Knopp算法。
  • Result: LAM3C在室内语义和实例分割任务上取得了比之前自监督方法更高的性能,且完全未使用真实3D扫描数据。
  • Conclusion: 无标签视频是3D自监督学习的丰富数据源,可以从视频生成的点云中有效学习3D表示,无需昂贵的3D传感器数据收集。

[112] Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

Zhengyang Liang,Yan Shu,Xiangrui Liu,Minghao Qin,Kaixin Liang,Paolo Rota,Nicu Sebe,Zheng Liu,Lizi Liao

Main category: cs.CV

TL;DR: Video-BrowseComp:首个面向开放网络的智能视频研究基准,包含210个强制依赖时序视觉证据的问题,推动视频理解从被动感知转向主动推理

  • Motivation: 现有视频基准主要关注被动感知,无法评估智能视频研究能力。随着自主代理的发展,信息获取正从被动检索转向主动、开放式的网络研究,但视频这一最动态的模态存在显著差距,需要能够主动探索视频时间线、交叉引用分散证据并在开放网络上验证声明的基准
  • Method: 提出Video-BrowseComp基准,包含210个专门为开放网络智能视频推理设计的问题。该基准强制要求依赖时序视觉证据,确保答案不能仅通过文本搜索获得,而必须通过导航视频时间线来验证外部声明
  • Result: 评估最先进模型发现关键瓶颈:即使是GPT-5.1(带搜索)等先进搜索增强模型也仅达到15.24%准确率。分析显示这些模型主要依赖文本代理,在元数据丰富的领域表现良好,但在元数据稀疏的动态环境中崩溃,这些环境需要视觉基础
  • Conclusion: Video-BrowseComp作为首个开放网络视频研究基准,将领域从被动感知推进到主动视频推理,揭示了当前模型在需要视觉基础的动态视频环境中的局限性

[113] MedSAM-based lung masking for multi-label chest X-ray classification

Brayden Miao,Zain Rehman,Xin Miao,Siming Liu,Jianjie Wang

Main category: cs.CV

TL;DR: 提出基于MedSAM的肺部分割引导的胸部X光分类流程,通过解剖学先验提升异常检测的鲁棒性和可解释性,发现掩码效果与任务和架构相关,需根据临床目标选择合适空间先验。

  • Motivation: 胸部X光自动解读面临疾病信号弱、数据集偏差和空间监督有限等挑战。医学图像分割基础模型(MedSAM)提供了引入解剖学先验的机会,可能提升CXR分析的鲁棒性和可解释性。
  • Method: 提出分割引导的CXR分类流程:1)使用Airlangga大学医院公开数据集微调MedSAM作为肺区域提取模块;2)应用于NIH CXR数据集子集,训练和评估用于5种异常(肿块、结节、肺炎、水肿、纤维化)多标签预测的深度卷积神经网络;3)通过衍生评分评估正常病例;4)比较原始图像、宽松肺掩码和紧密肺掩码三种条件下的性能。
  • Result: 1)MedSAM在不同成像条件下产生解剖学合理的肺掩码;2)掩码效果具有任务和架构依赖性:ResNet50在原始图像上实现最强异常判别,宽松肺掩码获得可比宏观AUROC但显著改善正常病例筛查;3)紧密掩码降低异常水平性能但提高训练效率;4)宽松掩码通过保留肺门和周围上下文部分缓解性能下降。
  • Conclusion: 肺掩码应被视为可控的空间先验,需根据骨干网络和临床目标进行选择,而非统一应用。解剖学先验的引入为CXR分析提供了鲁棒性和可解释性改进的途径。

[114] PathoSyn: Imaging-Pathology MRI Synthesis via Disentangled Deviation Diffusion

Jian Wang,Sixing Rong,Jiarui Xing,Yuling Xu,Weide Liu

Main category: cs.CV

TL;DR: PathoSyn是一个统一的MRI图像生成框架,通过将成像-病理学重新表述为稳定解剖流形上的解耦加性偏差,实现高质量病理图像合成。

  • Motivation: 当前生成模型通常在全局像素域操作或依赖二进制掩码,这些方法存在特征纠缠问题,导致解剖基质损坏或结构不连续。需要一种能够保持解剖完整性同时生成高质量病理变化的合成方法。
  • Method: 将合成任务分解为确定性解剖重建和随机偏差建模。核心是偏差空间扩散模型,学习病理残差的条件分布,捕捉局部强度变化同时保持全局结构完整性。结合接缝感知融合策略和推理时稳定模块确保空间一致性。
  • Result: 在肿瘤成像基准测试中,PathoSyn在感知真实性和解剖保真度方面显著优于整体扩散和掩码条件基线方法。能够生成高保真度的患者特异性合成数据集。
  • Conclusion: PathoSyn提供了一个数学原理化的管道,用于生成高保真合成数据,支持可解释的反事实疾病进展建模,促进低数据环境下稳健诊断算法的开发,并为临床决策支持系统提供基准测试环境。

[115] Domain-Shift Immunity in Deep Deformable Registration via Local Feature Representations

Mingzhen Shao,Sarang Joshi

Main category: cs.CV

TL;DR: 深度学习变形图像配准模型具有内在的域偏移免疫性,源于其依赖局部特征而非全局外观进行变形估计

  • Motivation: 传统观点认为基于学习的配准模型对域偏移敏感,需要大量多样化训练数据,但缺乏对其内在机制的解释。本研究旨在揭示深度学习变形配准模型的域偏移免疫性机制
  • Method: 提出UniReg通用配准框架,将特征提取与变形估计解耦:使用固定的预训练特征提取器和UNet变形网络。在单一数据集上训练,测试跨域和多模态性能
  • Result: UniReg在跨域和多模态配准中表现出与优化方法相当的鲁棒性。分析发现传统CNN模型在模态偏移下的失败源于早期卷积层的数据集诱导偏差
  • Conclusion: 局部特征一致性是基于学习变形配准鲁棒性的关键驱动因素,这启发了应保留域不变局部特征的骨干网络设计

[116] GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

Jingyu Li,Xiaolong Zhao,Zhe Liu,Wenxiao Wu,Li Zhang

Main category: cs.CV

TL;DR: GeoTeacher:通过几何关系监督和体素数据增强提升半监督3D目标检测性能的新方法

  • Motivation: 现有半监督3D目标检测方法主要关注伪标签质量和特征一致性,但忽略了模型在有限标注数据下对物体几何信息捕捉能力不足的问题,而几何信息对于目标感知和定位至关重要。
  • Method: 1. 基于关键点的几何关系监督模块:将教师模型对物体几何的知识传递给学生模型;2. 体素级数据增强策略:增加物体几何多样性,提升学生对几何结构的理解能力;3. 距离衰减机制:在增强过程中保护远距离物体的完整性。
  • Result: 在ONCE和Waymo数据集上的大量实验表明方法有效且具有良好泛化性,达到了新的state-of-the-art结果,并能与不同的SS3D方法结合进一步提升性能。
  • Conclusion: GeoTeacher通过几何关系监督和增强策略有效提升了半监督3D目标检测中模型对几何信息的捕捉能力,为解决有限标注数据下的几何感知问题提供了有效方案。

[117] REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Fulin Shi,Wenyi Xiao,Bin Chen,Liang Din,Leilei Gan

Main category: cs.CV

TL;DR: REVEALER是一个基于强化学习引导视觉推理的文本-图像对齐评估框架,通过结构化"定位-推理-结论"范式实现细粒度元素级对齐评估,在多个基准测试中达到SOTA性能。

  • Motivation: 现有文本-图像对齐评估方法大多依赖粗粒度指标或静态QA流程,缺乏细粒度可解释性且难以反映人类偏好,需要更精细、可解释的评估框架。
  • Method: 采用结构化"定位-推理-结论"范式,让多模态大语言模型显式定位语义元素并得出可解释的对齐判断;使用Group Relative Policy Optimization(GRPO)优化模型,结合结构格式、定位准确性和对齐保真度的复合奖励函数。
  • Result: 在四个基准测试(EvalMuse-40K, RichHF, MHaluBench, GenAI-Bench)上达到最先进性能,优于强大的专有模型和监督基线,同时比现有迭代视觉推理方法具有更优的推理效率。
  • Conclusion: REVEALER提供了一个统一、可解释的文本-图像对齐评估框架,通过强化学习引导的视觉推理实现了细粒度元素级评估,在性能和效率方面均表现出色。

[118] GVSynergy-Det: Synergistic Gaussian-Voxel Representations for Multi-View 3D Object Detection

Yi Zhang,Yi Wang,Lei Yao,Lap-Pui Chau

Main category: cs.CV

TL;DR: GVSynergy-Det:一种新颖的基于图像的3D物体检测框架,通过高斯-体素协同表示学习,无需深度或密集3D几何监督,在室内基准测试中达到最先进性能。

  • Motivation: 现有基于图像的3D检测方法面临两难:高精度方法需要密集3D监督,而无监督方法难以从图像中提取准确几何信息。需要一种既能保持高精度又无需密集3D监督的解决方案。
  • Method: 提出双表示架构:1) 采用可泛化的高斯溅射提取互补几何特征;2) 开发跨表示增强机制,用高斯场的几何细节丰富体素特征。通过可学习的集成直接利用两种表示的特征。
  • Result: 在ScanNetV2和ARKitScenes等具有挑战性的室内基准测试中取得了最先进的结果,显著优于现有方法,且无需任何深度或密集3D几何监督。
  • Conclusion: GVSynergy-Det通过高斯和体素表示的协同学习,成功解决了基于图像的3D检测中精度与监督需求之间的矛盾,为无密集3D监督的准确3D检测提供了有效解决方案。

[119] GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation

Tianchen Deng,Xuefeng Chen,Yi Chen,Qu Chen,Yuyao Xu,Lijin Yang,Le Xu,Yu Zhang,Bo Zhang,Wuxiong Huang,Hesheng Wang

Main category: cs.CV

TL;DR: 提出基于3D高斯场景表示的统一驾驶世界模型框架,实现3D场景理解和多模态场景生成,通过语言特征嵌入实现早期模态对齐,在nuScenes和NuInteract数据集上取得SOTA性能。

  • Motivation: 现有驾驶世界模型缺乏3D场景理解能力,只能基于输入数据生成内容,无法解释或推理驾驶环境。当前方法使用点云或BEV特征表示3D空间信息,无法准确将文本信息与底层3D场景对齐。
  • Method: 1) 基于3D高斯场景表示的统一框架;2) 将丰富语言特征嵌入到每个高斯基元中,实现早期模态对齐;3) 任务感知的语言引导采样策略,去除冗余3D高斯并注入准确紧凑的3D令牌到LLM;4) 双条件多模态生成模型,结合高级语言条件和低级图像条件共同指导生成过程。
  • Result: 在nuScenes和NuInteract数据集上进行全面研究验证框架有效性,方法实现了最先进的性能。
  • Conclusion: 提出的基于3D高斯场景表示的驾驶世界模型框架能够同时实现3D场景理解和多模态场景生成,通过语言特征嵌入实现早期模态对齐,在多个数据集上表现出色,代码将在GitHub上公开。

[120] ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Maisha Haque,Israt Jahan Ayshi,Sadaf M. Anis,Nahian Tasnim,Mithila Moontaha,Md. Sabbir Ahmed,Muhammad Iqbal Hossain,Mohammad Zavid Parvez,Subrata Chakraborty,Biswajeet Pradhan,Biswajit Banik

Main category: cs.CV

TL;DR: 提出ForCM方法,结合对象图像分析和深度学习,使用Sentinel-2影像进行森林覆盖制图,相比传统方法精度提升至95.64%

  • Motivation: 传统森林覆盖制图方法精度有限,需要结合新兴的深度学习技术提升准确性,同时探索免费工具在环境监测中的潜力
  • Method: 结合对象图像分析和深度学习,评估UNet、UNet++、ResUNet、AttentionUNet、ResNet50-Segnet等模型,使用Sentinel-2 Level 2A影像,在亚马逊雨林区域进行测试
  • Result: ResUNet-OBIA达到94.54%总体精度,AttentionUNet-OBIA达到95.64%总体精度,显著优于传统OBIA的92.91%
  • Conclusion: ForCM方法有效提升森林覆盖制图精度,证明了深度学习与OBIA结合的优势,展示了免费工具在环境监测中的实用价值

[121] Exploring Syn-to-Real Domain Adaptation for Military Target Detection

Jongoh Jeong,Youngjin Oh,Gyeongrae Nam,Jeongeun Lee,Kuk-Jin Yoon

Main category: cs.CV

TL;DR: 该论文提出使用虚幻引擎生成RGB合成数据来解决军事目标检测中的跨域适应问题,通过合成到真实的迁移实验评估了不同监督程度的域适应方法。

  • Motivation: 军事目标检测在民用和军事应用中至关重要,但现有域适应算法主要针对自然或自动驾驶场景,而军事领域环境复杂多变。SAR数据成本高,RGB相机成本低但缺乏军事目标检测数据集,因此需要解决跨域军事目标检测问题。
  • Method: 使用虚幻引擎生成RGB合成数据,创建合成军事目标检测数据集。通过合成到真实的迁移实验,在合成的训练集和网络收集的真实验证集上评估不同监督程度的域适应方法。
  • Result: 使用图像级最小提示(如目标类别)的域适应方法在无监督或半监督方法上取得了显著改进。研究揭示了当前跨域军事目标检测仍需克服的挑战。
  • Conclusion: 通过合成数据生成和跨域适应实验,论文展示了低成本RGB方法在军事目标检测中的潜力,同时指出了当前域适应方法在军事场景中的局限性,为未来研究提供了方向。

[122] Task-oriented Learnable Diffusion Timesteps for Universal Few-shot Learning of Dense Tasks

Changgyoon Oh,Jongoh Jeong,Jegyeong Cho,Kuk-Jin Yoon

Main category: cs.CV

TL;DR: 本文提出了一种自适应选择扩散模型时间步特征的方法,通过任务感知时间步选择(TTS)和时间步特征整合(TFC)模块,优化少样本密集预测任务的性能。

  • Motivation: 当前基于扩散模型的应用通常依赖经验直觉选择扩散时间步特征,这可能导致次优性能并偏向特定任务。为了克服这一限制,需要研究如何自适应选择最适合少样本密集预测任务的时间步特征。
  • Method: 提出了两个核心模块:1)任务感知时间步选择(TTS):基于时间步损失和相似度分数选择理想扩散时间步;2)时间步特征整合(TFC):整合选定时间步特征以提升少样本密集预测性能。同时使用参数高效微调适配器。
  • Result: 在具有挑战性的大规模Taskonomy数据集上进行实证验证,特别是在通用和少样本学习场景下,该方法在密集预测性能上取得了优越性。
  • Conclusion: 提出的可学习时间步整合方法能够有效提升少样本密集预测任务的性能,通过自适应选择扩散时间步特征,克服了传统经验选择的局限性。

[123] AVOID: The Adverse Visual Conditions Dataset with Obstacles for Driving Scene Understanding

Jongoh Jeong,Taek-Jin Song,Jong-Hwan Kim,Kuk-Jin Yoon

Main category: cs.CV

TL;DR: 作者提出了AVOID数据集,这是一个在模拟环境中收集的用于实时障碍物检测的新数据集,包含各种天气和时间条件下的意外道路障碍物,并提供了多种感知任务的标注数据。

  • Motivation: 现有道路驾驶数据集要么只包含正常场景,要么只包含恶劣场景,且往往缺乏与其他类别在同一视觉域中捕获的道路障碍物。为了可靠地实时检测变化恶劣条件下的意外小道路危险,需要更好的数据集。
  • Method: 在模拟环境中收集大规模意外道路障碍物数据,涵盖各种天气和时间条件。每个图像都配有相应的语义和深度图、原始和语义LiDAR数据以及路径点,支持多种视觉感知任务。
  • Result: 提出了AVOID数据集,并在高性能实时网络上对障碍物检测任务进行了基准测试。还提出并进行了使用综合多任务网络进行语义分割、深度和路径点预测任务的消融研究。
  • Conclusion: AVOID数据集填补了现有数据集的空白,为在变化恶劣条件下实时检测意外道路障碍物提供了有价值的资源,支持多种视觉感知任务的研究和开发。

[124] MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

Shiqi Dai,Zizhi Ma,Zhicong Luo,Xuesong Yang,Yibin Huang,Wanyue Zhang,Chi Chen,Zonghao Guo,Wang Xu,Yufei Sun,Maosong Sun

Main category: cs.CV

TL;DR: MM-UAVBench:一个针对低空无人机场景的多模态大语言模型综合基准测试,包含感知、认知和规划三个核心能力维度,包含19个子任务和5700多个手动标注问题,揭示了当前模型在低空场景中的局限性。

  • Motivation: 当前多模态大语言模型在低空无人机应用中的潜力尚未充分探索,现有基准测试很少涵盖低空场景的独特挑战,而无人机相关评估主要关注特定任务,缺乏对MLLMs通用智能的统一评估。
  • Method: 提出了MM-UAVBench基准测试,系统评估MLLMs在低空无人机场景中的三个核心能力维度:感知、认知和规划。基准包含19个子任务,超过5.7K个手动标注问题,所有数据均来自公共数据集的真实无人机数据。
  • Result: 对16个开源和专有MLLMs的广泛实验表明,当前模型难以适应低空场景的复杂视觉和认知需求。分析进一步揭示了阻碍MLLMs在无人机场景中有效部署的关键瓶颈,如空间偏差和多视角理解问题。
  • Conclusion: MM-UAVBench基准测试将促进未来针对真实世界无人机智能的鲁棒可靠MLLMs研究,填补了低空场景MLLMs评估的空白,为模型改进提供了重要方向。

[125] Holi-DETR: Holistic Fashion Item Detection Leveraging Contextual Information

Youngchae Kwon,Jinyoung Choi,Injung Kim

Main category: cs.CV

TL;DR: Holi-DETR:一种利用三种上下文信息(共现关系、物品空间关系、物品-人体关键点关系)来整体检测时尚物品的检测器,相比传统独立检测方法能减少歧义,提升检测性能。

  • Motivation: 时尚物品检测面临挑战,因为时尚物品外观高度多样化,同时子类别之间又存在相似性,导致检测歧义。传统检测器独立检测每个物品,忽略了时尚物品之间存在的有意义关系(如搭配风格)。
  • Method: 提出Holi-DETR,在DETR框架中整合三种异构上下文信息:1)时尚物品间的共现概率关系;2)基于物品间空间排列的相对位置和大小关系;3)物品与人体关键点之间的空间关系。通过整体检测多个物品来减少歧义。
  • Result: 实验表明,该方法相比原始DETR提升了3.6个百分点(pp)的平均精度(AP),相比近期发展的Co-DETR提升了1.1 pp。
  • Conclusion: 通过利用多种上下文信息进行整体检测,Holi-DETR能有效减少时尚物品检测中的歧义,显著提升检测性能,证明了上下文信息在时尚检测中的重要性。

[126] Bridging Your Imagination with Audio-Video Generation via a Unified Director

Jiaxu Zhang,Tianshu Hu,Yuan Zhang,Zenan Li,Linjie Luo,Guosheng Lin,Xin Chen

Main category: cs.CV

TL;DR: UniMAGE是一个统一的导演模型,将剧本创作和关键镜头设计整合到单一框架中,使非专业人士能够利用现有音视频生成模型制作长上下文、多镜头的电影。

  • Motivation: 现有AI视频创作系统通常将剧本草拟和关键镜头设计视为两个独立任务,分别依赖大语言模型和图像生成模型。作者认为这两个任务应该统一在一个框架中,因为逻辑推理和想象力思维都是电影导演的基本素质。
  • Method: 采用Mixture-of-Transformers架构统一文本和图像生成。引入"先交错,后解耦"的训练范式:1) 交错概念学习:使用交错文本-图像数据促进模型对剧本的深入理解和想象力解释;2) 解耦专家学习:将剧本写作与关键帧生成解耦,提高故事叙述的灵活性和创造力。
  • Result: 大量实验表明,UniMAGE在开源模型中实现了最先进的性能,能够生成逻辑连贯的视频剧本和视觉一致的关键帧图像。
  • Conclusion: UniMAGE成功地将剧本创作和关键镜头设计统一到单一框架中,为非专业人士提供了制作高质量多镜头电影的能力,同时保持了叙事逻辑和关键帧一致性。

[127] Anomaly Detection by Effectively Leveraging Synthetic Images

Sungho Kang,Hyunkyu Park,Yeonho Lee,Hanbyul Lee,Mijoo Jeong,YeongHyeon Park,Injae Lee,Juneho Yi

Main category: cs.CV

TL;DR: 提出一种利用预训练文本引导图像翻译模型和图像检索模型高效生成合成缺陷图像的新框架,通过两阶段训练策略提升异常检测性能

  • Motivation: 工业制造中异常检测至关重要,但真实缺陷图像稀缺。现有合成方法存在明显权衡:基于规则的合成成本低但缺陷图像不真实,基于生成模型的合成质量高但成本昂贵。需要一种既能高效生成高质量合成缺陷图像又能降低成本的解决方案。
  • Method: 提出一个新颖框架:1)利用预训练文本引导图像到图像翻译模型生成合成缺陷图像;2)使用图像检索模型评估生成图像与真实正常图像的相似性,过滤不相关输出以提升质量;3)引入两阶段训练策略:先在大量基于规则合成的图像上进行预训练,然后在较小的高质量图像集上进行微调。
  • Result: 在MVTec AD数据集上的实验证明了该方法的有效性,显著降低了数据收集成本的同时提高了异常检测性能。
  • Conclusion: 提出的框架通过结合预训练翻译模型和图像检索模型,以及两阶段训练策略,有效解决了合成缺陷图像生成中质量与成本的权衡问题,为工业异常检测提供了一种高效实用的解决方案。

[128] SURE Guided Posterior Sampling: Trajectory Correction for Diffusion-Based Inverse Problems

Minwoo Kim,Hongki Lim

Main category: cs.CV

TL;DR: 提出SURE引导后验采样(SGPS)方法,通过SURE梯度更新和PCA噪声估计校正扩散采样轨迹偏差,在少于100次神经网络评估下实现高质量逆问题求解

  • Motivation: 当前基于扩散模型的逆问题求解方法需要数百或数千步迭代才能达到高质量重建,存在误差累积问题,需要更高效的采样方法
  • Method: SURE引导后验采样(SGPS):使用Stein无偏风险估计(SURE)梯度更新和主成分分析(PCA)噪声估计来校正采样轨迹偏差,减少噪声引起的误差
  • Result: SGPS在少于100次神经网络评估(NFEs)下保持高质量重建,在多种逆问题上优于现有方法,特别是在低NFE计数时表现更优
  • Conclusion: SGPS通过有效校正采样轨迹偏差,显著减少了扩散模型在逆问题求解中的误差累积,实现了更高效的采样过程

[129] Physics-Inspired Modeling and Content Adaptive Routing in an Infrared Gas Leak Detection Network

Dongsheng Li,Chaobo Chen,Siling Wang,Song Gao

Main category: cs.CV

TL;DR: PEG-DRNet:一种用于红外气体泄漏检测的物理边缘混合网络,通过气体传输建模、自适应边缘提取和内容自适应稀疏路由,在保持计算效率的同时显著提升了检测精度。

  • Motivation: 红外气体泄漏检测面临挑战:气体羽流微弱、尺寸小、半透明且边界模糊。现有方法难以有效检测这些弱对比度目标,需要同时兼顾局部细节和全局上下文信息。
  • Method: 1. Gas Block:扩散-对流单元建模气体传输,包含局部分支和大核分支,通过边缘门控可学习融合模块平衡局部细节和全局上下文。2. AGPEO:自适应梯度和相位边缘算子,从多方向梯度和相位一致响应计算可靠边缘先验。3. MSEPM:多尺度边缘感知模块,将边缘先验转换为分层边缘特征。4. CASR-PAN:内容自适应稀疏路由路径聚合网络,基于边缘和内容线索选择性传播跨尺度信息。
  • Result: 在IIG数据集上:整体AP 29.8%,AP50 84.3%,小目标AP 25.3%,相比RT-DETR-R18基线分别提升3.0%、6.5%和5.3%。计算成本仅43.7 Gflops和14.9 M参数。在IIG和LangGas数据集上均超越现有CNN和Transformer检测器。
  • Conclusion: PEG-DRNet通过物理引导的边缘混合架构,在红外气体泄漏检测任务中实现了精度和计算效率的最佳平衡,为弱对比度、小尺寸目标的检测提供了有效解决方案。

[130] RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models

Fan Wei,Runmin Dong,Yushan Lai,Yixiang Yang,Zhaoyang Luo,Jinxiao Zhang,Miao Yang,Shuai Yuan,Jiyao Zhao,Bin Luo,Haohuan Fu

Main category: cs.CV

TL;DR: 提出一种针对遥感扩散基础模型的无训练两阶段数据剪枝方法,通过熵值筛选和场景感知聚类,在高剪枝率下选择高质量数据子集,显著提升模型收敛和生成质量。

  • Motivation: 现有遥感扩散基础模型依赖大量全局代表性数据,但这些数据通常包含冗余、噪声和类别不平衡问题,降低了训练效率并阻碍收敛。现有方法通常简单聚合多个分类数据集或应用简单去重,忽视了生成建模的分布需求和遥感图像的异质性。
  • Method: 提出无训练的两阶段数据剪枝方法:1)基于熵的准则高效移除低信息样本;2)利用遥感场景分类数据集作为参考基准,进行场景感知聚类与分层采样,平衡聚类级均匀性和样本代表性,在高剪枝率下实现细粒度选择。
  • Result: 即使剪枝85%的训练数据,该方法仍能显著改善收敛和生成质量。使用该方法训练的扩散基础模型在下游任务(如超分辨率和语义图像合成)中持续达到最先进的性能。
  • Conclusion: 该数据剪枝范式为开发遥感生成基础模型提供了实用指导,通过高效选择高质量数据子集,使基础模型能够快速收敛并作为生成、下游微调和其他应用的多功能骨干。

[131] Multimodal Interpretation of Remote Sensing Images: Dynamic Resolution Input Strategy and Multi-scale Vision-Language Alignment Mechanism

Siyu Zhang,Ying Chen,Lianlei Shan,Runhe Qiu

Main category: cs.CV

TL;DR: 提出动态分辨率输入策略和多尺度视觉语言对齐机制,提升遥感图像多模态融合的准确性和效率

  • Motivation: 现有方法存在固定分辨率无法平衡效率与细节、单尺度对齐缺乏语义层次的问题,需要改进遥感图像多模态融合技术
  • Method: 提出集成动态分辨率输入策略(DRIS)和多尺度视觉语言对齐机制(MS-VLAM)的视觉语言模型框架
  • Result: 在RS-GPT4V数据集上显著提升图像描述和跨模态检索任务的语义理解准确性和计算效率,在BLEU-4、CIDEr和R@10等指标上优于传统方法
  • Conclusion: 该技术框架为构建高效鲁棒的遥感多模态系统提供了新方法,为智能遥感解译工程应用奠定理论基础和技术指导

[132] ViLaCD-R1: A Vision-Language Framework for Semantic Change Detection in Remote Sensing

Xingwei Ma,Shiyang Feng,Bo Zhang,Bin Wang

Main category: cs.CV

TL;DR: ViLaCD-R1是一个两阶段遥感变化检测框架,结合多图像推理器和掩码引导解码器,通过视觉语言模型进行块级双时相推理,实现精确的语义变化识别和定位。

  • Motivation: 传统遥感变化检测方法(像素级操作或编码器-解码器网络)难以捕捉高级语义信息,且对非语义扰动敏感。现有的多模态和视觉语言模型方法虽然增强了语义理解,但仍存在空间定位不准确、像素级边界划分不精确和可解释性有限等问题。
  • Method: 提出ViLaCD-R1两阶段框架:1)多图像推理器(MIR)通过监督微调和强化学习训练视觉语言模型,输入双时相图像块,输出粗略变化掩码;2)掩码引导解码器(MGD)整合双时相图像特征和粗略掩码,预测精确的二进制变化图。
  • Result: 在多个遥感变化检测基准测试中,ViLaCD-R1显著提高了真实语义变化的识别和定位能力,有效抑制了非语义变化,在复杂真实场景中达到了最先进的准确率。
  • Conclusion: ViLaCD-R1通过结合视觉语言模型的语义理解能力和掩码引导的解码机制,解决了遥感变化检测中的语义理解、空间定位和边界精度问题,为复杂多图像推理任务提供了有效解决方案。

[133] ASemConsist: Adaptive Semantic Feature Control for Training-Free Identity-Consistent Generation

Shin seong Kim,Minjung Shin,Hyunin Cho,Youngjung Uh

Main category: cs.CV

TL;DR: ASemconsist 是一个用于文本到图像生成的框架,通过选择性文本嵌入修改、语义控制策略和自适应特征共享,解决了在多样化场景描述中保持角色身份一致性的挑战,同时不牺牲单张图像的提示对齐。

  • Motivation: 现有的文本到图像扩散模型在生成图像序列时,难以在保持角色身份一致性和确保每张图像与提示对齐之间取得平衡。当前方法往往在这两个目标之间存在权衡问题。
  • Method: 1. 选择性文本嵌入修改,实现对角色身份的显式语义控制;2. 基于FLUX中填充嵌入的分析,将填充嵌入重新用作语义容器;3. 自适应特征共享策略,自动评估文本歧义并仅对模糊的身份提示应用约束;4. 提出统一的评估协议CQS,将身份保持和单图像文本对齐整合为单一综合指标。
  • Result: 该框架实现了最先进的性能,有效克服了先前方法在身份一致性和提示对齐之间的权衡问题。
  • Conclusion: ASemconsist 通过创新的语义控制策略和自适应特征共享,成功解决了文本到图像生成中角色身份一致性的挑战,同时保持了高质量的单图像提示对齐。

[134] Contour Information Aware 2D Gaussian Splatting for Image Representation

Masaya Takabe,Hiroshi Watanabe,Sujun Hong,Tomohiro Ikai,Zheming Fan,Ryo Ishimoto,Kakeru Sugimoto,Ruri Imichi

Main category: cs.CV

TL;DR: 提出一种轮廓信息感知的2D高斯泼溅框架,通过引入物体分割先验来改善图像表示中的边界清晰度问题

  • Motivation: 现有的2D高斯泼溅方法在Gaussian数量较少时会产生模糊或不清晰的边界,缺乏轮廓感知能力,需要改进边缘结构保持
  • Method: 将物体分割先验整合到基于高斯的图像表示中,通过约束每个Gaussian在特定分割区域内进行光栅化,防止跨边界混合;引入预热方案稳定训练
  • Result: 在合成色卡和DAVIS数据集上验证,相比现有2DGS方法在物体边缘获得更高的重建质量,特别是在Gaussian数量很少时效果更明显,同时保持快速渲染和低内存使用
  • Conclusion: 提出的轮廓信息感知2D高斯泼溅框架有效解决了边界模糊问题,在高压缩下仍能保持边缘结构,为紧凑的图像表示提供了改进方案

[135] Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Tong Shao,Yusen Fu,Guoying Sun,Jingde Kong,Zhuotao Tian,Jingyong Su

Main category: cs.CV

TL;DR: 提出CEM插件,通过累积误差最小化优化现有去噪加速方法的缓存策略,提升生成保真度

  • Motivation: 扩散变换器(DiT)迭代去噪过程导致推理速度慢,现有缓存加速方法存在计算误差且固定策略无法适应去噪过程中的复杂误差变化
  • Method: 提出CEM插件,预定义误差表征模型对加速的敏感性,设计基于累积误差近似的动态规划算法优化缓存策略,实现误差最小化
  • Result: 在9个生成模型和量化方法上验证,CEM显著提升现有加速模型的生成保真度,在多个模型上超越原始生成性能
  • Conclusion: CEM是模型无关的通用插件,可无缝集成到现有误差校正框架和量化模型中,无需额外计算开销,具有强泛化能力

[136] YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

Xu Lin,Jinlong Peng,Zhenye Gan,Jiawen Zhu,Jun Liu

Main category: cs.CV

TL;DR: YOLO-Master提出了一种基于实例条件自适应计算的实时目标检测框架,通过ES-MoE块动态分配计算资源,在保持实时速度的同时提升检测性能,特别是在复杂密集场景中表现优异。

  • Motivation: 现有实时目标检测方法(如YOLO系列)采用静态密集计算,对所有输入进行统一处理,导致计算资源分配不当:简单场景过度计算,复杂场景计算不足。这种不匹配既造成计算冗余,又导致检测性能次优。
  • Method: 提出YOLO-Master框架,引入实例条件自适应计算,核心是高效稀疏混合专家(ES-MoE)块。该块包含轻量级动态路由网络,通过多样性增强目标在训练中引导专家专业化,并在推理时自适应激活最相关的专家,动态分配计算资源。
  • Result: 在五个大规模基准测试中表现优异。在MS COCO上达到42.4% AP和1.62ms延迟,比YOLOv13-N提升+0.8% mAP且推理速度快17.8%。在挑战性密集场景中增益最明显,同时在典型输入上保持效率并维持实时推理速度。
  • Conclusion: YOLO-Master通过实例条件自适应计算解决了现有实时目标检测方法的静态计算限制,在保持实时性能的同时显著提升检测精度,特别是在复杂场景中,实现了计算资源与场景复杂度的更好匹配。

[137] Multi-Track Multimodal Learning on iMiGUE: Micro-Gesture and Emotion Recognition

Arman Martirosyan,Shahane Tigranyan,Maria Razzhivina,Artak Aslanyan,Nazgul Salikhova,Ilya Makarov,Andrey Savchenko,Aram Avetisyan

Main category: cs.CV

TL;DR: 本文提出了两个多模态框架,分别用于微手势识别和行为情感预测,在iMiGUE数据集上验证了方法的有效性,并在MiGA 2025挑战赛的情感预测任务中获得第二名。

  • Motivation: 微手势识别和行为情感预测都是极具挑战性的任务,需要建模细微的人类行为模式。现有方法需要更好地利用多模态数据(视频和骨骼姿态)来捕捉这些细粒度的时空模式。
  • Method: 1. 微手势分类:结合RGB视频(MViTv2-S)和3D姿态(2s-AGCN)表示,通过跨模态令牌融合模块整合空间和姿态信息。
  1. 情感识别:提取面部(SwinFace)和上下文(MViTv2-S)嵌入,通过InterFusion模块融合情感表达和身体姿态信息。
  • Result: 在iMiGUE数据集和MiGA 2025挑战赛中,该方法在行为情感预测任务中表现出强大的性能和准确性,获得了第二名。
  • Conclusion: 提出的多模态框架能够有效处理微手势识别和行为情感预测任务,通过融合不同模态的信息来捕捉细微的人类行为模式,在挑战赛中取得了优异成绩。

[138] MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images

Md. Sazzadul Islam Prottasha,Nabil Walid Rafi

Main category: cs.CV

TL;DR: MedGemma-4b-it(经LoRA微调)在六种疾病诊断中表现优于GPT-4,平均测试准确率达80.37% vs 69.58%,在癌症和肺炎等高风险临床任务中敏感性更高。

  • Motivation: 多模态大语言模型为医学影像分析提供了新范式,但不同AI架构在临床诊断中的性能差异需要系统比较,以确定最适合医疗应用的模型。
  • Method: 比较两种AI架构:开源专业代理MedGemma和专有多模态大模型GPT-4。使用Low-Rank Adaptation (LoRA)对MedGemma-4b-it进行微调,评估六种不同疾病的诊断性能,通过混淆矩阵和分类报告进行定量分析。
  • Result: 微调后的MedGemma-4b-it平均测试准确率达80.37%,显著优于未调优GPT-4的69.58%。MedGemma在癌症和肺炎检测等高风险临床任务中表现出更高的敏感性。
  • Conclusion: 领域特定的微调对于最小化临床实施中的幻觉至关重要,MedGemma凭借其优越的诊断能力和高敏感性,成为复杂、循证医学推理的先进工具。

[139] CME-CAD: Heterogeneous Collaborative Multi-Expert Reinforcement Learning for CAD Code Generation

Ke Niu,Haiyang Yu,Zhuofan Chen,Zhengtao Yao,Weitao Jia,Xiaodong Ge,Jingqun Tang,Benlei Cui,Bin Li,Xiangyang Xue

Main category: cs.CV

TL;DR: 提出CME-CAD训练范式,通过多专家协同强化学习生成高精度、可编辑的CAD模型,并发布CADExpert开源基准数据集

  • Motivation: 传统CAD建模复杂,现有方法从草图重建的3D模型通常不可编辑且精度不足,依赖文本/图像输入需要大量人工标注,难以满足工业设计对精度和可编辑性的严格要求
  • Method: 提出异构协同多专家强化学习(CME-CAD)范式,包含两阶段训练:多专家微调(MEFT)和多专家强化学习(MERL),利用不同模型的互补优势进行协同学习
  • Result: 开发了CADExpert开源基准,包含17,299个实例,包含正交投影图、精确尺寸标注、专家生成的思维链过程、可执行CADQuery代码和渲染的3D模型
  • Conclusion: CME-CAD范式能够生成准确、约束兼容且完全可编辑的CAD模型,解决了工业设计中自动化生成高质量CAD模型的挑战

[140] Visual Language Hypothesis

Xiu Li

Main category: cs.CV

TL;DR: 论文从拓扑视角研究视觉表示学习,提出视觉观察空间具有纤维丛结构,语义对应商空间,需要非同胚的判别性目标来实现语义不变性,模型架构需支持拓扑变化。

  • Motivation: 从结构和拓扑角度理解视觉表示学习,提出核心假设:视觉理解需要语义语言,许多感知观察对应少量离散语义状态。结合表示学习的可迁移性和抽象性假设,探索视觉空间的拓扑结构。
  • Method: 采用拓扑学框架分析视觉表示学习。提出纤维丛结构模型:视觉观察空间X中,干扰变化填充纤维,语义对应商空间X/G。理论推导两个结果:1) 语义商空间不是X的子流形,需要非同胚的判别性目标;2) 近似商空间对模型架构有结构要求,需要支持拓扑变化的"扩展-捕捉"过程。
  • Result: 理论分析表明:1) 语义不变性不能仅通过平滑变形实现,需要标签监督、跨实例识别或多模态对齐等外部语义等价关系;2) 语义抽象需要模型支持拓扑变化机制,即先几何扩展分离结构,再坍缩形成离散语义区域。
  • Conclusion: 该框架提供了与大规模判别性和多模态模型经验规律一致的拓扑视角,强调结果是解释性而非规范性,为理解视觉表示学习提供了新的理论透镜。

[141] CountGD++: Generalized Prompting for Open-World Counting

Niki Amini-Naieni,Andrew Zisserman

Main category: cs.CV

TL;DR: CountGD++ 是一个多模态开放世界计数模型,通过扩展提示方式(支持文本/视觉示例指定不计数对象、引入伪示例自动标注、接受自然/合成图像示例)显著提升了计数的灵活性、准确性和泛化能力。

  • Motivation: 现有计数方法在指定目标对象方面存在限制:视觉示例需要手动标注,无法指定不计数对象,且只能使用自然图像示例。这些限制影响了计数的灵活性和准确性。
  • Method: 1) 扩展提示方式:支持用文本和/或视觉示例描述不计数对象;2) 引入"伪示例"概念:在推理时自动标注视觉示例;3) 扩展模型输入:接受来自自然和合成外部图像的视觉示例;4) 将CountGD++作为LLM的视觉专家代理。
  • Result: 在多个数据集上实现了准确性、效率和泛化能力的显著提升。代码已开源。
  • Conclusion: 通过扩展目标对象的指定方式,CountGD++显著提升了多模态开放世界计数的提示灵活性,为更准确、高效的物体计数提供了新方法。

[142] SpatialMosaic: A Multiview VLM Dataset for Partial Visibility

Kanghee Lee,Injae Lee,Minseok Kwak,Kwonyoung Ryu,Jungi Hong,Jaesik Park

Main category: cs.CV

TL;DR: 提出SpatialMosaic数据集和基准,用于增强多模态大语言模型在真实挑战性多视角条件下的空间推理能力

  • Motivation: 现有方法依赖预构建的3D表示或现成重建流程,限制了可扩展性和实际应用。真实环境中常见的部分可见性、遮挡和低重叠条件等挑战尚未充分探索
  • Method: 提出可扩展的多视角数据生成和标注流程,构建真实空间推理问答对;提出SpatialMosaicVLM混合框架,将3D重建模型作为几何编码器集成到视觉语言模型中
  • Result: 创建了包含200万问答对的SpatialMosaic指令调优数据集和包含100万问答对的SpatialMosaic-Bench基准测试;实验证明数据集和VQA任务能有效增强挑战性多视角条件下的空间推理
  • Conclusion: 提出的数据生成流程能构建真实多样的问答对,有效提升多模态大语言模型在真实挑战性环境中的空间推理能力

[143] MGCA-Net: Multi-Graph Contextual Attention Network for Two-View Correspondence Learning

Shuyuan Lin,Mengtin Lo,Haosheng Chen,Yanjie Liang,Qiangqiang Wu

Main category: cs.CV

TL;DR: MGCA-Net通过上下文几何注意力模块和跨阶段多图共识模块,提升两视图对应关系学习的几何建模能力,在异常点剔除和相机姿态估计任务上优于现有方法。

  • Motivation: 现有两视图对应关系学习方法在局部几何建模和跨阶段信息优化方面存在局限,难以准确捕捉匹配对的几何约束,从而降低了模型的鲁棒性。
  • Method: 提出多图上下文注意力网络(MGCA-Net),包含上下文几何注意力(CGA)模块和跨阶段多图共识(CSMGC)模块。CGA通过自适应注意力机制动态整合空间位置和特征信息,增强局部和全局几何关系捕捉能力;CSMGC通过跨阶段稀疏图网络建立几何共识,确保不同阶段几何信息的一致性。
  • Result: 在YFCC100M和SUN3D两个代表性数据集上的实验表明,MGCA-Net在异常点剔除和相机姿态估计任务上显著优于现有的SOTA方法。
  • Conclusion: MGCA-Net通过创新的几何建模和跨阶段优化机制,有效提升了两视图对应关系学习的性能,为相机姿态估计和3D重建等应用提供了更可靠的匹配关系。

[144] NeXT-IMDL: Build Benchmark for NeXT-Generation Image Manipulation Detection & Localization

Yifei Li,Haoyuan He,Yu Zheng,Bingyao Yu,Wenzhao Zheng,Lei Chen,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: NeXT-IMDL是一个大规模诊断基准,旨在系统性地探测当前图像篡改检测模型的泛化边界,揭示现有方法在处理多样化AI生成内容时的系统性失败。

  • Motivation: 用户友好的图像编辑模型普及和滥用风险增加,迫切需要通用且最新的图像篡改检测与定位方法。当前研究使用跨数据集评估,但这种简化方法掩盖了现有方法处理多样化AI生成内容时的脆弱性,导致对进展的误导性印象。
  • Method: 提出NeXT-IMDL基准,从四个基本维度对AIGC篡改进行分类:编辑模型、篡改类型、内容语义和伪造粒度。基于此实现五个严格的跨维度评估协议,对11个代表性模型进行广泛实验。
  • Result: 实验揭示关键发现:虽然这些模型在原始设置下表现良好,但在模拟真实世界各种泛化场景的设计协议下,它们表现出系统性失败和显著的性能下降。
  • Conclusion: 通过提供这个诊断工具包和新发现,旨在推动开发真正鲁棒的下一代IMDL模型,挑战当前跨数据集评估带来的进展幻觉。

[145] SoulX-LiveTalk Technical Report

Le Shen,Qiao Qian,Tan Yu,Ke Zhou,Tianhang Yu,Yu Zhan,Zhenjie Wang,Ming Tao,Shunshun Yin,Siyuan Liu

Main category: cs.CV

TL;DR: SoulX-LiveTalk是一个14B参数的实时音频驱动虚拟人生成框架,通过双向注意力蒸馏和自校正机制,在保持高视觉质量的同时实现亚秒级启动延迟和32FPS实时吞吐

  • Motivation: 现有的大规模扩散模型在实时、无限时长、音频驱动的虚拟人生成中存在计算负载与延迟约束的冲突,通常需要牺牲视觉质量或模型容量来满足实时性要求
  • Method: 采用自校正双向蒸馏策略保留视频块内的双向注意力,维持时空相关性;引入多步回顾自校正机制防止无限生成中的错误累积;开发包含混合序列并行、并行VAE和内核级优化的全栈推理加速套件
  • Result: 首次在14B规模系统中实现亚秒级启动延迟(0.87秒)和32FPS实时吞吐,为高保真交互式数字人合成设定了新标准
  • Conclusion: SoulX-LiveTalk通过创新的双向注意力保留和自校正机制,成功解决了大规模扩散模型在实时虚拟人生成中的计算-延迟权衡问题,实现了高质量实时生成

[146] SOFTooth: Semantics-Enhanced Order-Aware Fusion for Tooth Instance Segmentation

Xiaolan Li,Wanquan Liu,Pengcheng Li,Pengyu Jie,Chenqiang Gao

Main category: cs.CV

TL;DR: SOFTooth:一种语义增强、顺序感知的2D-3D融合框架,利用冻结的2D语义提升3D牙齿实例分割性能,无需2D掩码监督

  • Motivation: 3D牙齿实例分割面临拥挤牙弓、模糊的牙齿-牙龈边界、缺失牙齿和临床重要的第三磨牙等挑战。现有3D方法存在边界泄漏、中心漂移和牙齿身份不一致问题,而2D基础模型(如SAM)虽然提供强边界感知语义,但直接应用于3D临床工作流不实用。
  • Method: 提出SOFTooth框架:1)点级残差门控模块将咬合视图SAM嵌入注入3D点特征以细化边界;2)中心引导掩码细化正则化实例掩码与几何质心一致性;3)顺序感知匈牙利匹配策略整合解剖牙齿顺序和中心距离,确保连贯标注。
  • Result: 在3DTeethSeg'22数据集上达到最先进的整体准确率和平均IoU,在涉及第三磨牙的案例上表现明显提升,证明无需2D微调即可将丰富2D语义有效迁移到3D牙齿实例分割。
  • Conclusion: SOFTooth通过语义增强的2D-3D融合有效解决了3D牙齿分割的关键挑战,特别是对于复杂解剖结构和少数类别,展示了冻结2D语义在3D医学图像分析中的潜力。

[147] Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment

Henglin Liu,Nisha Huang,Chang Liu,Jiangpeng Yan,Huijuan Huang,Jixuan Ying,Tong-Yee Lee,Pengfei Wan,Xiangyang Ji

Main category: cs.CV

TL;DR: 本文提出RAD数据集和ArtQuant框架,通过大规模结构化美学描述数据集和结合LLM解码器的评估模型,解决AIGC美学质量评估中的数据稀缺、不平衡和模型碎片化问题。

  • Motivation: 美学质量评估对AIGC的人对齐定量评估系统至关重要,但其复杂性涉及视觉感知、认知和情感多个维度。现有方法面临两大挑战:1)数据稀缺和不平衡,现有数据集过度关注视觉感知而忽略更深维度;2)模型碎片化,视觉网络孤立美学属性,而多模态方法难以有效处理长文本描述。
  • Method: 1)提出RAD数据集:大规模(70k)、多维度结构化数据集,通过迭代流程生成,无需昂贵人工标注且易于扩展;2)提出ArtQuant框架:通过联合描述生成耦合孤立美学维度,并利用LLM解码器更好建模长文本语义;3)理论分析证明数据语义充分性和生成范式的协同作用最小化预测熵。
  • Result: 在多个数据集上达到最先进性能,仅需传统训练轮次的33%,缩小了艺术图像与美学判断之间的认知差距。
  • Conclusion: RAD数据集和ArtQuant框架有效解决了美学评估中的数据稀缺和模型碎片化问题,通过数据语义充分性和生成范式的协同作用,为AIGC美学质量评估提供了数学基础和实用解决方案。

[148] DriveLaW:Unifying Planning and Video Generation in a Latent Driving World

Tianze Xia,Yongkang Li,Lijun Zhou,Jingfeng Yao,Kaixin Xiong,Haiyang Sun,Bing Wang,Kun Ma,Hangjun Ye,Wenyu Liu,Xinggang Wang

Main category: cs.CV

TL;DR: DriveLaW提出了一种统一视频生成与运动规划的新范式,通过将视频生成器的潜在表示直接注入规划器,确保高保真未来预测与可靠轨迹规划的内在一致性。

  • Motivation: 当前自动驾驶中的世界模型方法存在局限性:虽然采用统一架构,但仍将世界预测和运动规划作为解耦过程处理。需要弥合这一差距,实现真正的统一。
  • Method: DriveLaW包含两个核心组件:DriveLaW-Video(生成高保真预测的强世界模型)和DriveLaW-Act(从视频潜在表示生成一致轨迹的扩散规划器),采用三阶段渐进训练策略优化。
  • Result: 在视频预测任务上显著超越最佳工作:FID提升33.3%,FVD提升1.8%;在NAVSIM规划基准上创下新记录,在两个任务上都达到最先进水平。
  • Conclusion: DriveLaW通过统一视频生成与运动规划,实现了高保真未来预测与可靠轨迹规划的内在一致性,为自动驾驶世界模型提供了新的有效范式。

[149] Direct Diffusion Score Preference Optimization via Stepwise Contrastive Policy-Pair Supervision

Dohyun Kim,Seungwoo Lyu,Seung Wook Kim,Paul Hongsuck Seo

Main category: cs.CV

TL;DR: DDSPO是一种新的扩散模型偏好优化方法,直接从获胜和失败策略中获取时间步级监督信号,无需人工标注数据,通过预训练参考模型自动生成偏好信号,提升文本-图像对齐和视觉质量。

  • Motivation: 扩散模型在文本到图像生成中取得了显著成果,但常常难以完全对齐用户意图并保持一致的审美质量。现有的偏好训练方法(如Diffusion DPO)依赖昂贵且可能有噪声的人工标注数据集。
  • Method: 提出DDSPO方法,直接从可用的获胜和失败策略中获取每个时间步的监督信号。不同于仅基于最终样本的方法,DDSPO在去噪轨迹上提供密集的转移级信号。通过预训练参考模型自动生成偏好信号:对比原始提示与语义降级变体条件下的输出。
  • Result: DDSPO在文本-图像对齐和视觉质量方面均有提升,优于或匹配现有的基于偏好的方法,同时需要显著更少的监督。
  • Conclusion: DDSPO提供了一种有效的分数空间偏好监督方法,无需显式的奖励建模或人工标注,为扩散模型的偏好优化提供了更实用的解决方案。

[150] Towards Integrating Uncertainty for Domain-Agnostic Segmentation

Jesse Brouwers,Xiaoyan Xing,Alexander Timans

Main category: cs.CV

TL;DR: 该研究评估了不确定性量化是否能提升SAM在挑战性分割场景下的泛化能力,创建了UncertSAM基准测试,发现拉普拉斯近似方法能有效关联不确定性估计与分割误差。

  • Motivation: 虽然SAM等基础分割模型在零样本任务中表现良好,但在领域偏移或知识有限的情况下仍然脆弱。研究者希望探索不确定性量化是否能以领域无关的方式缓解这些挑战并增强模型泛化能力。
  • Method: 1) 创建UncertSAM基准测试,包含8个数据集,涵盖阴影、透明、伪装等挑战性分割条件;2) 评估一系列轻量级、后处理的不确定性估计方法;3) 评估初步的不确定性指导的预测细化步骤。
  • Result: 最后一层拉普拉斯近似方法产生的不确定性估计与分割误差有良好相关性,表明存在有意义的信号。细化步骤的益处尚属初步,但结果强调了将不确定性纳入分割模型以支持鲁棒、领域无关性能的潜力。
  • Conclusion: 不确定性量化有潜力提升分割模型在挑战性条件下的鲁棒性和泛化能力。研究提供了公开的基准测试和代码,为未来研究奠定了基础。

[151] Fuzzy-Logic and Deep Learning for Environmental Condition-Aware Road Surface Classification

Mustafa Demetgul,Sanja Lazarova Molnar

Main category: cs.CV

TL;DR: 提出基于天气条件和道路表面数据的实时道路监测系统,使用手机摄像头采集数据,结合图像和加速度数据,通过深度学习算法实现道路分类,准确率超过95%。

  • Motivation: 传统道路监测方法成本高且不系统,需要大量测量时间。需要一种实时、经济的道路状态监测系统,为车辆规划和主动控制系统提供有价值信息。
  • Method: 1. 使用手机摄像头在卡尔斯鲁厄理工学院校园周围道路采集数据;2. 测试多种基于图像的深度学习算法进行道路分类;3. 将道路加速度数据与图像数据结合训练;4. 比较加速度基和摄像头图像基方法的性能;5. 使用AlexNet、LeNet、VGG、ResNet等算法;6. 提出使用模糊逻辑根据天气和时间对道路表面进行分类。
  • Result: 实现了超过95%的准确率,对5类道路条件进行分类:沥青路、损坏沥青路、碎石路、损坏碎石路、铺砌路。比较了不同深度学习算法的性能。
  • Conclusion: 提出的实时系统能够有效监测道路表面状态,结合图像和加速度数据以及深度学习算法,实现了高精度的道路分类,为车辆控制系统提供了实用的解决方案。

[152] RealX3D: A Physically-Degraded 3D Benchmark for Multi-view Visual Restoration and Reconstruction

Shuhong Liu,Chenyu Bao,Ziteng Cui,Yun Liu,Xuangeng Chu,Lin Gu,Marcos V. Conde,Ryo Umagami,Tomohiro Hashimoto,Zijian Hu,Tianhan Xu,Yuan Gan,Yusuke Kurose,Tatsuya Harada

Main category: cs.CV

TL;DR: RealX3D是一个真实捕获的多视角视觉恢复和3D重建基准数据集,包含多种物理退化情况,分为四类退化家族,并评估了现有方法在这些真实退化下的性能表现。

  • Motivation: 当前多视角视觉恢复和3D重建方法在理想条件下表现良好,但在真实世界的物理退化(如光照变化、散射、遮挡、模糊等)下性能显著下降,缺乏系统评估这些物理退化影响的基准数据集。
  • Method: 构建RealX3D基准数据集,将物理退化分为四类(光照、散射、遮挡、模糊),采用统一的采集协议捕获多个严重程度级别的退化图像,每个场景包含高分辨率图像、RAW格式图像和密集激光扫描数据,从中生成世界尺度网格和度量深度。
  • Result: 对基于优化的和前馈方法进行广泛基准测试显示,在物理退化条件下重建质量显著下降,突显了当前多视角流程在真实世界挑战性环境中的脆弱性。
  • Conclusion: RealX3D基准数据集揭示了当前多视角视觉恢复和3D重建方法在真实世界物理退化下的局限性,为开发更鲁棒的算法提供了重要的评估工具和挑战。

[153] CoFi-Dec: Hallucination-Resistant Decoding via Coarse-to-Fine Generative Feedback in Large Vision-Language Models

Zongsheng Cao,Yangfan He,Anran Liu,Jun Xie,Feng Chen,Zepeng Wang

Main category: cs.CV

TL;DR: CoFi-Dec是一种无需训练的推理框架,通过粗粒度到细粒度的视觉条件化与生成式自反馈,减少大型视觉语言模型的幻觉问题。

  • Motivation: 大型视觉语言模型在多模态理解和生成方面取得了显著进展,但倾向于产生与视觉输入不一致的幻觉内容,这限制了其在现实应用中的可靠性。
  • Method: CoFi-Dec采用训练自由的解码框架,首先基于原始图像的粗粒度和细粒度视图生成两个中间文本响应,然后使用文生图模型将这些响应转换为合成图像,形成多级视觉假设。通过基于Wasserstein距离的融合机制,将这些多视觉条件的预测分布对齐到几何一致的解码轨迹中。
  • Result: 在六个专注于幻觉的基准测试上的广泛实验表明,CoFi-Dec显著减少了实体级和语义级的幻觉,优于现有的解码策略。
  • Conclusion: CoFi-Dec是一个模型无关的框架,无需额外训练,可以无缝应用于广泛的LVLMs,通过融合高层语义一致性和细粒度视觉基础,产生更稳健和忠实的输出。

[154] Automated river gauge plate reading using a hybrid object detection and generative AI framework in the Limpopo River Basin

Kayathri Vigneswaran,Hugo Retief,Jai Clifford Holmes,Mariangel Garcia Andarcia,Hansaka Tennakoon

Main category: cs.CV

TL;DR: 提出结合视觉水线检测、YOLOv8姿态尺度提取和大规模多模态语言模型的混合框架,用于自动化河流水位计读数,在最佳图像条件下达到5.43厘米的平均绝对误差。

  • Motivation: 传统水文观测方法受限于人工测量误差和环境约束,需要准确连续的水位监测来支持洪水预报、水资源管理和生态保护。
  • Method: 采用混合框架,包括图像预处理、标注、水线检测、尺度间隙估计和数值读数提取等顺序阶段,结合YOLOv8姿态尺度提取和GPT-4o、Gemini 2.0 Flash等多模态语言模型。
  • Result: 水线检测精度达94.24%,F1分数83.64%;尺度间隙检测为后续读数提取提供准确几何校准;结合尺度间隙元数据显著提升LLM性能,Gemini Stage 2在最佳图像条件下达到MAE 5.43cm、RMSE 8.58cm、R² 0.84。
  • Conclusion: 该方法为自动化水文监测提供了可扩展、高效可靠的解决方案,展示了实时河流水位计数字化的潜力,并强调了结合几何元数据与多模态AI对稳健水位估计的重要性。

[155] Deterministic Image-to-Image Translation via Denoising Brownian Bridge Models with Dual Approximators

Bohan Xiao,Peiyong Wang,Qisheng He,Ming Dong

Main category: cs.CV

TL;DR: 提出一种基于布朗桥动力学的去噪双近似器模型(Dual-approx Bridge),用于确定性图像到图像转换,实现高保真、低方差的输出

  • Motivation: 确定性图像到图像转换(如超分辨率)需要保证输入到输出的映射一致性,且输出应高度接近真实图像。现有方法在保持高保真度和低方差方面仍有改进空间。
  • Method: 采用布朗桥动力学,设计两个神经网络近似器(前向和反向过程),构建去噪布朗桥模型,实现确定性图像转换。
  • Result: 在图像生成和超分辨率等基准数据集上,Dual-approx Bridge在图像质量和保真度方面优于随机性和确定性基线方法。
  • Conclusion: Dual-approx Bridge是一种有效的确定性图像转换方法,能够生成高质量、高保真且方差可忽略的输出,在图像生成和超分辨率任务中表现优异。

[156] HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation

Yuxin Wen,Qing Shuai,Di Kang,Jing Li,Cheng Wen,Yue Qian,Ningxin Jiao,Changhai Chen,Weijie Chen,Yiran Wang,Jinkun Guo,Dongyue An,Han Liu,Yanyu Tong,Chao Zhang,Qing Guo,Juan Chen,Qiao Zhang,Youyi Zhang,Zihao Yao,Cheng Zhang,Hong Duan,Xiaoping Wu,Qi Chen,Fei Cheng,Liang Dong,Peng He,Hao Zhang,Jiaxin Lin,Chao Zhang,Zhongyi Fan,Yifan Li,Zhichao Hu,Yuhong Liu,Linus,Jie Jiang,Xiaolong Li,Linchao Bao

Main category: cs.CV

TL;DR: HY-Motion 1.0是首个达到十亿参数规模的基于扩散变换器的运动生成模型,能够从文本描述生成3D人体运动,在指令跟随能力上显著超越现有开源基准。

  • Motivation: 当前运动生成模型在规模、质量和指令跟随能力方面存在局限,需要开发更大规模、更高质量的模型来推动3D人体运动生成向商业化成熟过渡。
  • Method: 采用全阶段训练范式:1) 在3000多小时运动数据上进行大规模预训练;2) 在400小时精选数据上进行高质量微调;3) 结合人类反馈和奖励模型进行强化学习。同时建立了严格的数据处理流程进行运动清洗和标注。
  • Result: 模型在指令跟随能力上显著超越现有开源基准,覆盖6大类超过200种运动类别,实现了最广泛的运动覆盖范围。
  • Conclusion: HY-Motion 1.0成功将扩散变换器模型扩展到十亿参数规模,通过全阶段训练范式实现了高质量的文本到运动生成,为开源社区提供了强大的基础模型,加速了3D人体运动生成技术的商业化进程。

[157] MCI-Net: A Robust Multi-Domain Context Integration Network for Point Cloud Registration

Shuyuan Lin,Wenwu Peng,Junjie Huang,Qiang Qi,Miaohui Wang,Jian Weng

Main category: cs.CV

TL;DR: MCI-Net:通过多领域上下文集成提升点云配准性能的深度学习网络

  • Motivation: 现有基于深度学习的点云配准方法通常依赖欧几里得邻域策略进行特征提取,难以有效捕捉点云中的隐式语义和结构一致性,需要更鲁棒和判别性的特征学习方法。
  • Method: 提出多领域上下文集成网络(MCI-Net),包含三个核心模块:1)图邻域聚合模块,构建全局图捕捉点云整体结构关系;2)渐进上下文交互模块,通过域内特征解耦和域间上下文交互增强特征判别性;3)动态内点选择方法,利用多轮位姿估计的残差信息优化内点权重。
  • Result: 在室内RGB-D和室外LiDAR数据集上的大量实验表明,MCI-Net显著优于现有最先进方法,在3DMatch数据集上达到96.4%的最高配准召回率。
  • Conclusion: MCI-Net通过多领域上下文集成有效提升了点云特征表示和配准性能,为点云配准任务提供了鲁棒且判别性强的特征学习方法。

[158] SC-Net: Robust Correspondence Learning via Spatial and Cross-Channel Context

Shuyuan Lin,Hailiang Liao,Qiang Qi,Junjie Huang,Taotao Lai,Jian Weng

Main category: cs.CV

TL;DR: SC-Net:一种新颖的双视角对应学习网络,通过空间和通道双重视角整合双边上下文,提升大视差场景下的运动场估计精度

  • Motivation: 现有CNN骨干网络在双视角对应学习中虽优于MLP方法,但未针对特定任务优化,存在全局上下文聚合不足、大视差场景下运动场过度平滑的问题
  • Method: 提出SC-Net网络,包含三个核心模块:1)自适应聚焦正则化模块(AFR)增强位置感知和抗伪运动样本鲁棒性;2)双边场调整模块(BFA)通过建模长程关系和跨空间-通道交互细化运动场;3)位置感知恢复模块(PAR)从细化场中恢复运动向量
  • Result: 在YFCC100M和SUN3D数据集上的相对姿态估计和异常值去除任务中,SC-Net均优于现有最先进方法
  • Conclusion: SC-Net通过空间和通道双重视角有效整合双边上下文,解决了传统CNN骨干在大视差场景中的局限性,为双视角对应学习提供了更精确的运动场估计方案

[159] TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding

Zongsheng Cao,Yangfan He,Anran Liu,Feng Chen,Zepeng Wang,Jun Xie

Main category: cs.CV

TL;DR: TV-RAG是一个无需训练的架构,通过时间对齐和熵引导语义改进长视频推理,包含时间衰减检索和熵加权关键帧采样机制,可无缝集成到现有LVLM中。

  • Motivation: 现有大型视频语言模型在处理长视频时存在两个主要问题:1)时间窗口狭窄,无法捕捉长时间跨度的语义变化;2)主流基于文本的检索流程主要依赖表层词汇重叠,忽略了视觉、音频和字幕通道之间的丰富时间相互依赖关系。
  • Method: TV-RAG提出两个核心机制:1)时间衰减检索模块,将显式时间偏移注入相似度计算,根据真实多媒体上下文对文本查询进行排序;2)熵加权关键帧采样器,选择均匀间隔、信息密集的帧,减少冗余同时保持代表性。
  • Result: TV-RAG在Video-MME、MLVU和LongVideoBench等长视频基准测试中持续超越大多数领先基线,证明了其有效性。该框架无需重新训练或微调,为现有LVLM提供了轻量级、经济高效的升级路径。
  • Conclusion: TV-RAG通过结合时间对齐和熵引导语义,实现了双级推理机制,有效解决了长视频理解中的时间窗口限制和语义变化捕捉问题,为视频语言模型的长视频处理能力提供了实用解决方案。

[160] Multi-label Classification with Panoptic Context Aggregation Networks

Mingyuan Jiu,Hailong Zhu,Wenchuan Wei,Hichem Sahbi,Rongrong Ji,Mingliang Xu

Main category: cs.CV

TL;DR: PanCAN网络通过在高维希尔伯特空间中跨尺度特征聚合,分层整合多阶几何上下文,显著提升多标签图像分类性能。

  • Motivation: 现有上下文建模方法主要关注基本几何关系或局部特征,往往忽略了物体间的跨尺度上下文交互,限制了复杂场景理解能力。
  • Method: 提出深度全景上下文聚合网络(PanCAN),通过随机游走与注意力机制结合学习各尺度的多阶邻域关系,跨尺度级联模块动态融合细粒度锚点的邻域特征。
  • Result: 在NUS-WIDE、PASCAL VOC2007和MS-COCO基准测试中,PanCAN在多标签分类任务上取得竞争性结果,定量和定性评估均优于现有最先进技术。
  • Conclusion: PanCAN通过有效建模多阶和跨尺度上下文感知特征,显著提升了复杂场景理解能力,在多标签图像分类任务中表现出优越性能。

[161] IdentityStory: Taming Your Identity-Preserving Generator for Human-Centric Story Generation

Donghao Zhou,Jingyu Lin,Guibao Shen,Quande Liu,Jialin Gao,Lihao Liu,Lan Du,Cunjian Chen,Chi-Wing Fu,Xiaowei Hu,Pheng-Ann Heng

Main category: cs.CV

TL;DR: IdentityStory是一个用于人类中心故事生成的框架,通过迭代身份发现和重去噪身份注入技术,在多张序列图像中保持角色身份一致性,在ConsiStory-Human基准测试中表现优于现有方法。

  • Motivation: 当前视觉生成模型虽然能从文本生成故事,但在人类中心故事生成中面临额外挑战:需要保持详细且多样化的人脸一致性,以及协调不同图像中的多个角色。现有方法在保持角色身份一致性方面存在不足。
  • Method: 框架包含两个关键组件:1) 迭代身份发现:提取连贯的角色身份特征;2) 重去噪身份注入:通过重去噪过程将身份特征注入图像,同时保留所需上下文。该方法驯服了身份保持生成器。
  • Result: 在ConsiStory-Human基准测试中,IdentityStory在面部一致性方面优于现有方法,支持多角色组合,并展示了在无限长度故事生成和动态角色组合等应用中的强大潜力。
  • Conclusion: IdentityStory通过创新的身份保持技术,有效解决了人类中心故事生成中的角色一致性挑战,为多角色、长序列故事生成提供了可行的解决方案,具有广泛的应用前景。

[162] Iterative Inference-time Scaling with Adaptive Frequency Steering for Image Super-Resolution

Hexin Zhang,Dong Li,Jie Huang,Bingzhou Wang,Xueyang Fu,Zhengjun Zha

Main category: cs.CV

TL;DR: 提出IAFS框架,通过迭代细化和频率感知粒子融合解决扩散模型在图像超分辨率中感知质量与结构保真度的平衡问题。

  • Motivation: 现有扩散模型在图像超分辨率中难以同时保证高频感知质量和低频结构保真度,推理时缩放策略存在感知过度平滑或结构一致性丢失的问题。
  • Method: 提出IAFS训练免费框架,结合迭代细化和频率感知粒子融合,通过迭代校正结构偏差逐步优化生成图像,自适应融合高频感知线索和低频结构信息。
  • Result: 在多个基于扩散的超分辨率模型上的实验表明,IAFS有效解决了感知-保真度冲突,在感知细节和结构准确性方面均优于现有推理时缩放方法。
  • Conclusion: IAFS通过迭代扩散推理时缩放与自适应频率引导,实现了图像超分辨率中感知质量与结构保真度的更好平衡。

[163] AnyMS: Bottom-up Attention Decoupling for Layout-guided and Training-free Multi-subject Customization

Binhe Yu,Zhen Wang,Kexin Li,Yuqian Yuan,Wenqiao Zhang,Long Chen,Juncheng Li,Jun Xiao,Yueting Zhuang

Main category: cs.CV

TL;DR: AnyMS是一个无需训练的多主体定制框架,通过双级注意力解耦机制实现文本对齐、主体身份保持和布局控制的平衡

  • Motivation: 现有多主体定制方法在平衡文本对齐、主体身份保持和布局控制三个目标方面存在困难,且依赖额外训练限制了可扩展性和效率
  • Method: 提出AnyMS框架,采用无需训练的方法,引入自底向上的双级注意力解耦机制:全局解耦分离文本和视觉条件的交叉注意力,局部解耦将每个主体的注意力限制在指定区域
  • Result: 实验表明AnyMS达到最先进性能,支持复杂构图并扩展到更多主体,无需主体学习或适配器调优
  • Conclusion: AnyMS通过创新的注意力解耦机制有效解决了多主体定制中的关键挑战,实现了无需训练的高效可扩展解决方案

[164] PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis

Shengyi Hua,Jianfeng Wu,Tianle Shen,Kangzhe Hu,Zhongzhen Huang,Shujuan Ni,Zhihong Zhang,Yuan Li,Zhe Wang,Xiaofan Zhang

Main category: cs.CV

TL;DR: PathFound:一种用于病理诊断的智能多模态模型,采用证据寻求推理机制,通过主动信息获取和诊断细化来提升诊断准确性。

  • Motivation: 当前病理基础模型大多采用静态推理范式,一次性处理全切片图像生成预测,缺乏在模糊诊断情况下的重新评估和针对性证据获取。这与临床诊断工作流程形成对比,后者通过重复观察切片和进一步检查请求来完善假设。
  • Method: PathFound整合病理视觉基础模型、视觉语言模型和强化学习训练推理模型,通过初始诊断、证据寻求和最终决策三个阶段进行主动信息获取和诊断细化。
  • Result: 采用证据寻求策略在所有测试的多模态模型中均能持续提升诊断准确性。PathFound在多种临床场景中达到最先进的诊断性能,并展现出发现细微特征(如核特征和局部浸润)的强大潜力。
  • Conclusion: 证据寻求工作流程在计算病理学中具有有效性,PathFound通过模拟临床诊断的动态推理过程,显著提升了病理诊断的准确性和可靠性。

[165] PurifyGen: A Risk-Discrimination and Semantic-Purification Model for Safe Text-to-Image Generation

Zongsheng Cao,Yangfan He,Anran Liu,Jun Xie,Feng Chen,Zepeng Wang

Main category: cs.CV

TL;DR: PurifyGen是一种无需训练的双阶段文本净化方法,通过计算语义距离识别风险token,并在双空间变换中去除有害语义、增强安全语义,实现安全文本到图像生成。

  • Motivation: 现有扩散模型在提升文本到图像生成质量的同时,也增加了生成不安全内容的风险。传统安全方法如文本黑名单或有害内容分类存在明显缺陷:容易被绕过,或需要大量数据集和额外训练。
  • Method: 提出PurifyGen双阶段策略:1) 通过计算互补语义距离评估每个token的安全性,无需关键词匹配或重新训练;2) 对风险提示应用双空间变换:将有毒对齐嵌入投影到有毒概念矩阵的零空间去除有害成分,同时对齐到干净概念的范围空间增强安全语义,并采用token级策略选择性替换风险token嵌入。
  • Result: 在五个数据集上的广泛测试表明,PurifyGen在减少不安全内容方面超越了现有方法,并且与依赖训练的方法相比具有竞争力,同时保持了模型的原始权重和意图连贯性。
  • Conclusion: PurifyGen提供了一种即插即用的解决方案,具有理论依据和对未见提示和模型的强泛化能力,为安全文本到图像生成提供了有效的训练免费方法。

[166] RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature

Hanzheng Li,Xi Fang,Yixuan Li,Chaozheng Huang,Junjie Wang,Xi Wang,Hongzhe Bai,Bojun Hao,Shenyu Lin,Huiqi Liang,Linfeng Zhang,Guolin Ke

Main category: cs.CV

TL;DR: RxnBench是一个评估多模态大语言模型理解化学文献中反应图示能力的基准,包含单图问答和全文问答两个任务,发现现有模型在深层化学逻辑和结构识别方面存在显著不足。

  • Motivation: 多模态大语言模型在化学领域的应用前景广阔,但它们在理解真实科学文献中密集、图形化的反应语言方面的能力尚未得到充分探索,需要建立专门的评估基准。
  • Method: 构建RxnBench基准,包含两个任务:1) 单图问答:从305个精选反应方案中提取1,525个问题,测试细粒度视觉感知和机理推理;2) 全文问答:基于108篇文章,要求模型整合文本、反应方案和表格等多模态信息。
  • Result: 评估发现MLLMs存在关键能力差距:模型擅长提取显式文本,但在深层化学逻辑和精确结构识别方面表现不佳。具有推理时推理能力的模型显著优于标准架构,但所有模型在全文问答任务上的准确率均未超过50%。
  • Conclusion: 研究强调了开发领域专用视觉编码器和更强推理引擎的紧迫性,以推进自主AI化学家的发展。现有MLLMs在化学文献理解方面仍有很大提升空间。

[167] ThinkGen: Generalized Thinking for Visual Generation

Siyu Jiao,Yiheng Lin,Yujie Zhong,Qi She,Wei Zhou,Xiaohan Lan,Zilong Huang,Fei Yu,Yingchen Yu,Yunqing Zhao,Yao Zhao,Yunchao Wei

Main category: cs.CV

TL;DR: ThinkGen:首个基于思维链推理的可视化生成框架,通过解耦的MLLM+DiT架构和可分离GRPO训练范式,在各种生成场景中实现高质量图像生成。

  • Motivation: 当前多模态大语言模型的思维链推理在复杂理解任务中表现良好,但在生成任务中的扩展仍处于初级阶段,受限于特定场景机制,缺乏泛化性和适应性。
  • Method: 提出ThinkGen框架,采用预训练MLLM和扩散变换器的解耦架构:MLLM根据用户意图生成定制化指令,DiT基于这些指令生成高质量图像。同时提出可分离GRPO训练范式,在MLLM和DiT模块之间交替进行强化学习。
  • Result: 大量实验表明,ThinkGen在多个生成基准测试中实现了稳健、最先进的性能。
  • Conclusion: ThinkGen首次将MLLM的思维链推理明确应用于各种生成场景,其灵活设计支持跨数据集的联合训练,为广泛的生成场景提供了有效的思维链推理解决方案。

[168] Image Denoising Using Global and Local Circulant Representation

Zhaoming Kong,Xiaowei Yang,Jiahuan Zhang

Main category: cs.CV

TL;DR: 提出Haar-tSVD方法,结合Haar变换与张量奇异值分解进行图像去噪,无需学习局部基函数,实现快速并行去噪,并通过自适应噪声估计和深度学习集成提升性能。

  • Motivation: 随着成像设备普及和每日产生海量图像数据,对高效有效的图像去噪需求日益增长。现有方法需要在去噪速度与性能之间权衡,需要开发更平衡的解决方案。
  • Method: 建立PCA与循环表示下Haar变换的理论联系,提出Haar-tSVD方法:统一张量奇异值分解投影结合Haar变换,捕捉全局和局部块相关性;引入自适应噪声估计方案;基于Haar-PCA关系集成深度神经网络增强严重噪声下的性能。
  • Result: 在多个去噪数据集上的实验结果表明,该方法在噪声去除方面具有高效性和有效性,代码已公开。
  • Conclusion: Haar-tSVD作为一种一步式、可并行化的即插即用去噪器,在去噪速度与性能之间取得了良好平衡,无需学习局部基函数,并通过理论分析和实验验证了其优越性。

[169] ProGuard: Towards Proactive Multimodal Safeguard

Shaohan Yu,Lijun Li,Chenyang Si,Lu Sheng,Jing Shao

Main category: cs.CV

TL;DR: ProGuard是一个视觉语言主动防护系统,通过强化学习训练,能够识别和描述分布外安全风险,无需传统反应式方法所需的模型调整。

  • Motivation: 生成模型的快速发展带来了持续出现的多模态安全风险,现有防御方法存在局限性,特别是传统反应式方法需要模型调整,无法有效应对新兴风险。
  • Method: 1) 构建包含87K样本的模态平衡数据集,采用分层多模态安全分类法进行标注;2) 通过强化学习训练视觉语言基础模型;3) 引入分布外安全类别推理任务,并添加基于同义词库的相似性奖励,鼓励模型为未见不安全类别生成简洁描述。
  • Result: ProGuard在二元安全分类上达到与闭源大模型相当的性能,在不安全内容分类上显著优于现有开源防护模型。最重要的是,在分布外风险检测上提升52.6%,在分布外风险描述上提升64.8%。
  • Conclusion: ProGuard通过主动防护方法有效解决了多模态安全风险问题,特别是在分布外风险识别和描述方面表现出色,为生成模型的安全防护提供了新思路。

[170] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

Ethan Chern,Zhulin Hu,Bohao Tang,Jiadi Su,Steffi Chern,Zhijie Deng,Pengfei Liu

Main category: cs.CV

TL;DR: 提出LiveTalk系统,通过改进蒸馏方法实现实时多模态交互视频生成,将推理延迟从1-2分钟降低到实时,同时保持视觉质量。

  • Motivation: 现有扩散模型通过双向注意力的迭代去噪过程无法实现实时交互,而现有蒸馏方法主要针对文本到视频生成,在多模态条件下存在视觉伪影和质量下降问题。
  • Method: 改进蒸馏配方,重点关注条件输入质量、初始化策略和在线策略优化调度,解决Self Forcing方法在多模态条件下的视觉伪影问题。
  • Result: 蒸馏模型在HDTF、AVSpeech和CelebV-HQ基准测试中,以20倍更低的推理成本和延迟匹配或超越全步双向基线的视觉质量,并构建了实时多模态交互系统LiveTalk。
  • Conclusion: LiveTalk系统在多轮交互基准测试中优于Sora2、Veo3等最先进模型,在视频连贯性和内容质量方面表现更好,同时将响应延迟降低到实时生成水平,实现了无缝的人机多模态交互。

[171] Same or Not? Enhancing Visual Perception in Vision-Language Models

Damiano Marsili,Aditya Mehta,Ryan Y. Lin,Georgia Gkioxari

Main category: cs.CV

TL;DR: TWIN是一个包含56.1万图像对的数据集,旨在提升视觉语言模型对细微视觉差异的感知能力,通过判断两幅相似图像是否描绘同一物体的任务来增强模型的细粒度识别能力。

  • Motivation: 现有视觉语言模型在粗粒度视觉理解上表现良好,但缺乏对细微视觉细节的感知能力,现有训练数据也偏向于一般性识别而非细粒度感知。
  • Method: 提出了TWIN数据集,包含56.1万对视觉相似的图像,要求模型判断两幅图像是否描绘同一物体;同时引入FGVQA基准测试套件,包含1.2万个查询,用于评估细粒度识别能力。
  • Result: 在TWIN上微调的视觉语言模型在FGVQA基准上提升了高达19.3%,在艺术、动物、植物、地标等未见领域也表现出色,且不影响通用VQA基准的性能。
  • Conclusion: TWIN数据集能有效提升视觉语言模型的细粒度感知能力,数据规模对性能至关重要,可作为开源VLM训练语料库的补充,推动未来模型的感知精度发展。

[172] Detection Fire in Camera RGB-NIR

Nguyen Truong Khai,Luong Duc Vinh

Main category: cs.CV

TL;DR: 该论文提出三种改进红外夜视摄像头火灾检测的方法:额外的近红外数据集、两阶段检测模型和Patched-YOLO,旨在解决夜间火灾检测中人工光源误报和小目标检测困难的问题。

  • Motivation: 现有火灾检测模型在红外夜视摄像头应用中面临两大挑战:1)数据集不足导致模型性能受限;2)夜间场景中人工光源(如路灯、车灯)经常被误判为火灾,造成高误报率;3)RGB图像中小型和远距离火灾目标检测困难。
  • Method: 论文提出三种方法:1)构建额外的近红外数据集并应用多种数据增强策略;2)设计两阶段检测管道,结合YOLOv11进行初步检测和EfficientNetV2-B0进行精细分类;3)提出Patched-YOLO,通过基于补丁的处理增强模型对小目标的检测能力。
  • Result: 提出的两阶段方法在夜间火灾检测准确率上优于现有方法(YOLOv7 mAP50-95 0.51,RT-DETR 0.65,YOLOv9 0.598),显著降低了人工光源的误报率。Patched-YOLO有效提升了RGB图像中小型和远距离火灾目标的检测性能。
  • Conclusion: 通过综合应用数据增强、两阶段检测框架和补丁处理技术,该研究显著提升了红外夜视摄像头火灾检测的准确性和鲁棒性,特别是在夜间场景和小目标检测方面取得了重要进展。

[173] Scalable Residual Feature Aggregation Framework with Hybrid Metaheuristic Optimization for Robust Early Pancreatic Neoplasm Detection in Multimodal CT Imaging

Janani Annur Thiruvengadam,Kiran Mayee Nabigaru,Anusha Kovi

Main category: cs.CV

TL;DR: 提出SRFA框架用于胰腺肿瘤早期检测,结合MAGRes-UNet分割、DenseNet-121特征提取、HHO-BA特征选择、ViT+EfficientNet-B3混合分类,以及SSA+GWO超参数优化,达到96.23%准确率。

  • Motivation: 胰腺肿瘤早期检测面临临床困境,CT扫描中肿瘤对比度低、解剖变异大,需要能增强细微视觉线索并具有良好泛化能力的可扩展系统。
  • Method: 提出SRFA框架:1) 预处理和MAGRes-UNet分割;2) DenseNet-121残差特征存储提取特征;3) HHO-BA混合元启发式特征选择;4) ViT+EfficientNet-B3混合模型分类;5) SSA+GWO双优化机制调参。
  • Result: 模型达到96.23%准确率、95.58% F1分数和94.83%特异性,显著优于传统CNN和当前基于Transformer的模型。
  • Conclusion: SRFA框架在胰腺肿瘤早期检测中表现出优异性能,可作为临床辅助工具,证明了该方法的有效性。

[174] Memorization in 3D Shape Generation: An Empirical Study

Shu Pu,Boya Zeng,Kaichen Zhou,Mengyu Wang,Zhuang Liu

Main category: cs.CV

TL;DR: 该研究提出了一个评估框架来量化3D生成模型的记忆化程度,并通过实验发现数据模态、多样性、条件细化以及模型设计(如引导尺度、向量集长度和旋转增强)都会影响记忆化水平。

  • Motivation: 随着生成模型在3D视觉中用于合成新形状,需要了解这些模型是否依赖于记忆训练数据。理解记忆化有助于防止训练数据泄露并提高生成结果的多样性。
  • Method: 设计了一个评估框架来量化3D生成模型的记忆化,首先应用于现有方法,然后通过使用潜在向量集扩散模型进行受控实验,研究数据和建模设计对记忆化的影响。
  • Result: 发现记忆化程度取决于数据模态,随数据多样性和更细粒度条件而增加;在建模方面,记忆化在中等引导尺度达到峰值,可通过更长的向量集和简单旋转增强来缓解。
  • Conclusion: 该框架和分析提供了对3D生成模型记忆化的实证理解,并提出了简单有效的策略来减少记忆化而不降低生成质量。

[175] Rethinking the Spatio-Temporal Alignment of End-to-End 3D Perception

Xiaoyu Li,Peidong Li,Xian Wu,Long Shi,Dedong Liu,Yitao Wu,Jiajia Fu,Dixiao Cui,Lijun Zhao,Lining Sun

Main category: cs.CV

TL;DR: HAT是一个时空对齐模块,通过多假设解码为自动驾驶中的端到端感知提供最优对齐方案,无需直接监督,显著提升3D检测和跟踪性能。

  • Motivation: 现有方法通常依赖注意力机制跨帧对齐物体,使用统一的显式物理模型(如恒定速度),偏好语义特征进行隐式对齐,忽视了不同类别和帧间运动状态与物体特征的差异,导致对齐效果不理想。
  • Method: HAT首先利用多个显式运动模型为历史实例生成空间锚点和运动感知特征提案,然后通过结合缓存物体查询中嵌入的语义和运动线索进行多假设解码,最终为目标帧提供最优对齐方案。
  • Result: 在nuScenes数据集上,HAT持续改进各种基线的3D时序检测器和跟踪器。与DETR3D检测器配对时,在测试集上达到46.0% AMOTA的SOTA跟踪结果。在物体中心的端到端自动驾驶方法中,HAT提升感知精度(+1.3% mAP, +3.1% AMOTA)并降低32%碰撞率。在语义受损情况下(nuScenes-C),HAT的运动建模增强使端到端自动驾驶的感知和规划更加鲁棒。
  • Conclusion: HAT通过自适应多假设解码提供最优时空对齐,显著提升自动驾驶感知系统的性能,特别是在语义信息受损时,运动建模的增强使系统更加鲁棒。

[176] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

Keda Tao,Wenjie Du,Bohan Yu,Weiqiang Wang,Jian Liu,Huan Wang

Main category: cs.CV

TL;DR: OmniAgent:基于音频引导的主动感知代理,通过动态规划工具调用实现细粒度音视频推理,在多个基准测试中超越现有模型10-20%准确率。

  • Motivation: 现有多模态大语言模型在音视频融合方面取得进展,但缺乏细粒度跨模态理解能力,难以实现精确的多模态对齐。传统方法依赖静态工作流程和密集帧标注,存在局限性。
  • Method: 提出OmniAgent:1)从被动响应生成转向主动多模态查询;2)采用动态规划自主编排工具调用;3)引入粗到细的音频引导感知范式,利用音频线索定位时间事件并指导后续推理;4)战略性地集中感知注意力于任务相关线索。
  • Result: 在三个音视频理解基准测试上进行广泛评估,OmniAgent实现了最先进的性能,超越领先的开源和专有模型10-20%的准确率优势。
  • Conclusion: OmniAgent通过动态工具编排和音频引导的主动感知,实现了更细粒度的音视频推理,代表了从被动响应到主动多模态查询的范式转变。

[177] IDT: A Physically Grounded Transformer for Feed-Forward Multi-View Intrinsic Decomposition

Kang Du,Yirui Guan,Zeyu Wang

Main category: cs.CV

TL;DR: IDT是一个前馈Transformer框架,用于多视角本征图像分解,通过注意力机制联合处理多张输入图像,实现视角一致的本征因子分解,无需迭代生成采样。

  • Motivation: RGB图像将材质属性、光照和视角相关效应纠缠在一起,而现有扩散方法在单视角本征分解上表现良好,但扩展到多视角时面临严重的视角不一致问题。
  • Method: 提出基于Transformer的IDT框架,利用注意力机制联合推理多张输入图像,采用物理基础的图像形成模型,将图像分解为漫反射率、漫反射阴影和镜面反射阴影三个本征因子。
  • Result: 在合成和真实数据集上,IDT实现了更干净的漫反射率、更一致的漫反射阴影、更好分离的镜面反射分量,相比先前方法显著提高了多视角一致性。
  • Conclusion: IDT通过Transformer架构和物理基础的分解模型,有效解决了多视角本征图像分解中的视角一致性问题,实现了可解释和可控的材质与光照效应分解。

[178] Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

Shaocong Xu,Songlin Wei,Qizhe Wei,Zheng Geng,Hong Li,Licheng Shen,Qianpu Sun,Shu Han,Bin Ma,Bohan Li,Chongjie Ye,Yuhang Zheng,Nan Wang,Saining Zhang,Hao Zhao

Main category: cs.CV

TL;DR: TransPhy3D:利用视频扩散模型学习透明物体深度估计,通过合成数据集和LoRA适配器实现零样本SOTA性能

  • Motivation: 透明物体对传统感知系统构成挑战,因为折射、反射和透射破坏了立体视觉、ToF和单目深度估计的基本假设,导致深度估计存在空洞和时间不稳定问题。作者观察到现代视频扩散模型已经能够合成逼真的透明现象,表明它们已经内化了光学规则。
  • Method: 构建TransPhy3D合成视频数据集(11k序列),包含RGB+深度+法线数据。从大型视频扩散模型出发,通过轻量级LoRA适配器学习视频到视频的深度(和法线)转换器。在训练时将RGB和(带噪声的)深度潜在表示在DiT主干中拼接,并在TransPhy3D和现有帧级合成数据集上共同训练,实现对任意长度输入视频的时间一致预测。
  • Result: DKT模型在涉及透明度的真实和合成视频基准测试中实现了零样本SOTA:ClearPose、DREDS(CatKnown/CatNovel)和TransPhy3D-Test。在准确性和时间一致性方面优于强图像/视频基线,法线变体在ClearPose上创下最佳视频法线估计结果。紧凑的1.3B版本运行速度约0.17秒/帧。集成到抓取系统中,DKT的深度估计提高了在透明、反射和漫反射表面上的成功率。
  • Conclusion: 研究结果支持更广泛的主张:"扩散模型理解透明度"。生成式视频先验可以高效、无需标注地重新用于实现鲁棒、时间一致的真实世界挑战性操作感知。

[179] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

Hau-Shiang Shiu,Chin-Yang Lin,Zhixiang Wang,Chi-Wei Hsiao,Po-Fan Yu,Yu-Chih Chen,Yu-Lun Liu

Main category: cs.CV

TL;DR: Stream-DiffVSR:首个适用于低延迟在线部署的因果条件扩散视频超分辨率框架,结合四步蒸馏去噪器、自回归时间引导模块和轻量级时间感知解码器,在RTX4090上处理720p帧仅需0.328秒。

  • Motivation: 现有基于扩散的视频超分辨率方法虽然感知质量好,但依赖未来帧和昂贵的多步去噪,不适用于延迟敏感场景。需要开发能够在线实时处理的高效扩散VSR方法。
  • Method: 提出Stream-DiffVSR框架:1)四步蒸馏去噪器实现快速推理;2)自回归时间引导模块在潜在去噪时注入运动对齐线索;3)轻量级时间感知解码器配合时间处理器模块增强细节和时间一致性。严格基于过去帧进行因果处理。
  • Result: 在RTX4090上处理720p帧仅需0.328秒,相比在线SOTA TMP方法提升感知质量(LPIPS +0.095)同时降低延迟130倍以上。将初始延迟从4600多秒降至0.328秒,成为首个适合低延迟在线部署的扩散VSR方法。
  • Conclusion: Stream-DiffVSR成功解决了扩散VSR方法在延迟敏感场景中的实用性限制,实现了高效在线视频超分辨率,为扩散模型在实时视频处理中的应用开辟了新途径。

cs.MM

[180] Mesquite MoCap: Democratizing Real-Time Motion Capture with Affordable, Bodyworn IoT Sensors and WebXR SLAM

Poojan Vanani,Darsh Patel,Danyal Khorami,Siva Munaganuru,Pavan Reddy,Varun Reddy,Bhargav Raghunath,Ishrat Lallmamode,Romir Patel,Assegid Kidané,Tejaswi Gowda

Main category: cs.MM

TL;DR: Mesquite是一个开源、低成本的惯性动作捕捉系统,使用15个IMU传感器节点和Android手机进行位置追踪,在浏览器中实现实时可视化,成本仅为商业系统的5%,精度达到2-5度误差。

  • Motivation: 传统动作捕捉系统成本高、部署复杂,限制了在专业实验室外的应用。需要开发低成本、易部署的解决方案来降低动作捕捉的门槛。
  • Method: 结合15个IMU传感器节点和髋部佩戴的Android智能手机进行位置追踪,通过低功耗无线链路将四元数方向数据流传输到USB接收器,使用基于浏览器的应用(WebGL、WebXR、WebSerial、WebSockets、PWA)进行实时可视化和记录。
  • Result: 与商业光学系统相比,平均关节角度误差为2-5度,成本仅为5%;系统支持30fps,端到端延迟低于15ms,标准室内环境下数据包传输率至少99.7%。
  • Conclusion: Mesquite通过物联网原理、边缘处理和Web原生技术栈,显著降低了动作捕捉的门槛,适用于娱乐、生物力学、医疗监测、人机交互和虚拟现实等领域,所有硬件设计和软件均以开源许可证发布。

cs.SE

[181] Interpretable Gallbladder Ultrasound Diagnosis: A Lightweight Web-Mobile Software Platform with Real-Time XAI

Fuyad Hasan Bhoyan,Prashanta Sarker,Parsia Noor Ethila,Md. Emon Hossain,Md Kaviul Hossain,Md Humaion Kabir Mehedi

Main category: cs.SE

TL;DR: 开发基于AI的超声诊断软件,使用MobResTaNet混合深度学习模型对10种胆囊疾病类型进行分类,实现高精度、可解释的实时诊断

  • Motivation: 胆囊疾病的早期准确检测至关重要,但超声图像解读具有挑战性,需要开发AI辅助诊断工具来改善临床决策
  • Method: 采用混合深度学习模型MobResTaNet,结合可解释AI(XAI)可视化技术,开发基于Web和移动端的应用程序(使用HTML、CSS、JavaScript、Bootstrap和Flutter)
  • Result: 系统达到99.85%的准确率,仅需2.24M参数,能够实时提供可解释的诊断预测,支持透明临床决策
  • Conclusion: 该AI驱动诊断软件为胆囊疾病提供了高效、可访问且可信的诊断支持,可在护理点实现实时、可解释的超声图像分类

q-fin.GN

[182] Deep Learning for Art Market Valuation

Jianping Mei,Michael Moses,Jan Waelty,Yucheng Yang

Main category: q-fin.GN

TL;DR: 深度学习通过融合艺术品视觉内容与交易数据,能显著提升首次上拍艺术品的估值准确性,尤其在缺乏历史交易记录时视觉特征提供重要补充价值。

  • Motivation: 艺术市场估值传统上依赖艺术家身份和历史交易记录,但对于首次上拍的作品缺乏历史锚点,估值困难。研究探索如何利用深度学习结合艺术品视觉内容来改进估值模型。
  • Method: 使用大型重复销售数据集,对比经典特征回归、树模型与现代深度学习架构,包括融合表格数据和图像数据的多模态模型。采用Grad-CAM和嵌入可视化进行可解释性分析。
  • Result: 艺术家身份和历史交易记录仍是主要预测因素,但视觉嵌入为首次上拍作品提供了独特且经济意义显著的贡献。模型关注作品的构图和风格特征。
  • Conclusion: 多模态深度学习在估值最困难的首次销售场景中提供显著价值,为艺术市场估值研究和实践提供了新见解。

cs.CL

[183] Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA

Pu Zhao,Xuan Shen,Zhenglun Kong,Yixin Shen,Sung-En Chang,Arash Akbari,Timothy Rupprecht,Lei Lu,Enfu Nan,Changdi Yang,Yumei He,Weiyan Shi,Xingchen Xu,Yu Huang,Wei Jiang,Wei Wang,Yue Chen,Yong He,Yanzhi Wang

Main category: cs.CL

TL;DR: Moxin 7B是一个完全开源的LLM,遵循模型开放框架,提供完整的训练、数据集和实现细节透明度,并开发了针对视觉语言、视觉语言动作和中文能力的变体。

  • Motivation: 当前LLM领域由GPT-4等专有模型主导,虽然开源模型如LLaMA和Mistral促进了LLM的普及,但通常只分享模型权重。需要更完整的开源透明度来促进包容性协作研究和健康的开源生态系统。
  • Method: 开发Moxin 7B作为完全开源的LLM,遵循模型开放框架,超越简单的权重分享,提供完整的训练、数据集和实现细节透明度。基于Moxin开发三个变体:Moxin-VLM(视觉语言)、Moxin-VLA(视觉语言动作)和Moxin-Chinese(中文能力),使用开源框架和开源数据进行训练。
  • Result: 实验表明,Moxin模型在各种评估中取得了优越的性能。模型、可用数据以及推导这些模型的代码都已公开发布。
  • Conclusion: Moxin 7B通过完全开源的方法,包括训练、数据集和实现细节的完整透明度,促进了更包容和协作的研究环境,有助于维持健康的开源生态系统,并通过变体扩展了不同任务的能力。

[184] SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

Shaofei Cai,Yulei Qin,Haojia Lin,Zihan Xu,Gang Li,Yuchen Shi,Zongyi Li,Yong Mao,Siqi Cai,Xiaoyu Tan,Yitao Liang,Ke Li,Xing Sun

Main category: cs.CL

TL;DR: SmartSnap提出了一种从被动事后验证转向主动实时自验证的新范式,通过让智能体在执行任务时主动收集简洁的关键证据快照,显著提升了GUI任务中强化学习的可扩展性和验证可靠性。

  • Motivation: 当前基于GUI的自主智能体强化学习面临验证任务完成的瓶颈。现有验证方法(如规则脚本、奖励模型、LLM-as-a-Judge)都是被动的事后处理,需要分析包含大量无关噪声的完整交互轨迹,导致成本高昂且可靠性低。
  • Method: 提出SmartSnap范式和自验证智能体,让智能体在执行任务的同时主动收集证明任务完成的证据快照。基于3C原则(完整性、简洁性、创造性),智能体利用在线环境访问能力收集最小但决定性的快照证据集,供通用的LLM-as-a-Judge验证器使用。
  • Result: 在移动设备任务上的实验表明,SmartSnap能够以可扩展的方式训练LLM驱动的智能体,为8B和30B模型分别带来26.08%和16.66%的性能提升。自验证智能体展现出与DeepSeek V3.1和Qwen3-235B-A22B相竞争的性能。
  • Conclusion: SmartSnap通过将解决方案寻找与证据寻求相结合,实现了从被动事后验证到主动实时自验证的范式转变,显著提升了智能体强化学习的可扩展性和验证效率,为开发复杂GUI任务下的自主智能体提供了新思路。

[185] LLM-Guided Exemplar Selection for Few-Shot Wearable-Sensor Human Activity Recognition

Elsen Ronando,Sozo Inoue

Main category: cs.CL

TL;DR: LLM引导的范例选择框架,通过语义推理提升可穿戴传感器活动识别的少样本学习性能

  • Motivation: 解决当前最先进的人类活动识别方法依赖大量标注数据和纯几何范例选择的局限性,特别是难以区分相似活动(如行走、上楼梯、下楼梯)的问题
  • Method: 提出LLM引导的范例选择框架:1) 利用LLM生成知识先验(特征重要性、类间混淆度、范例预算乘数);2) 结合边缘验证线索、PageRank中心性、枢纽惩罚和设施选址优化;3) 选择紧凑且信息丰富的范例集
  • Result: 在UCI-HAR数据集上,在严格少样本条件下实现了88.78%的宏F1分数,优于随机采样、herding和k-center等经典方法
  • Conclusion: LLM衍生的语义先验与结构和几何线索结合,为少样本可穿戴传感器HAR中选择代表性传感器范例提供了更强的基础

[186] AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

Jiafeng Liang,Hao Li,Chang Li,Jiaqi Zhou,Shixin Jiang,Zekun Wang,Changkai Ji,Zhihao Zhu,Runxuan Liu,Tao Ren,Jinlan Fu,See-Kiong Ng,Xia Liang,Ming Liu,Bing Qin

Main category: cs.CL

TL;DR: 该论文系统性地整合了认知神经科学和LLM驱动的智能体在记忆机制方面的跨学科知识,旨在弥合人类记忆与AI记忆系统之间的差距。

  • Motivation: 现有自主智能体研究受限于跨学科障碍,难以吸收人类记忆机制的精髓。记忆作为连接过去与未来的关键枢纽,对人类和AI系统处理复杂任务至关重要,因此需要系统性地整合认知神经科学与LLM智能体的记忆知识。
  • Method: 采用跨学科综合分析方法:1) 从认知神经科学到LLM再到智能体的渐进轨迹阐明记忆的定义和功能;2) 从生物和人工角度对比分析记忆分类、存储机制和完整管理生命周期;3) 回顾智能体记忆的主流评估基准;4) 从攻击和防御双重角度探讨记忆安全。
  • Result: 论文提供了记忆机制的全面跨学科框架,建立了认知神经科学与LLM智能体之间的连接,为理解、评估和保护智能体记忆系统提供了系统性的知识基础。
  • Conclusion: 该研究为未来研究方向提供了框架,特别关注多模态记忆系统和技能获取,旨在推动更高效、安全的自主智能体记忆系统发展。

[187] Instruction-Following Evaluation of Large Vision-Language Models

Daiki Shiono,Shumpei Miyawaki,Ryota Tanaka,Jun Suzuki

Main category: cs.CL

TL;DR: 研究发现大型视觉语言模型在视觉指令微调后,指令跟随能力会下降,通过在训练数据中包含输出格式说明可以缓解这一问题。

  • Motivation: 大型视觉语言模型在集成视觉能力并进行视觉指令微调后,常常失去原本语言模型具备的指令跟随能力,导致无法按照任务指令预期执行。需要研究这种能力下降的原因和解决方案。
  • Method: 构建新的训练数据集,特别关注是否明确指定输出格式。研究在微调过程中明确指示输出格式如何影响LVLMs的指令跟随能力。通过定量评估验证假设。
  • Result: 定量评估确认LVLMs在使用常用数据集微调后指令跟随能力确实下降。同时发现,使用包含输出格式说明的数据集训练的模型比不包含的模型更能准确跟随指令。
  • Conclusion: 在视觉指令微调过程中包含带有输出格式说明的样本,有助于缓解指令跟随能力的下降,提升模型的任务执行准确性。

cs.RO

[188] VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models

Borong Zhang,Jiahao Li,Jiachen Shen,Yishuai Cai,Yuhao Zhang,Yuanpei Chen,Juntao Dai,Jiaming Ji,Yaodong Yang

Main category: cs.RO

TL;DR: VLA-Arena:一个用于系统评估视觉-语言-动作模型能力的综合基准,通过结构化任务设计量化模型在任务结构、语言指令和视觉观察三个正交维度上的表现,揭示了当前VLAs的关键局限性。

  • Motivation: 当前视觉-语言-动作模型(VLAs)快速发展,但缺乏系统方法来定量理解其能力边界和失败模式。需要建立综合基准来评估模型在不同难度任务上的表现,识别其局限性。
  • Method: 提出VLA-Arena基准,包含170个任务,按四个维度分组:安全性、干扰物、外推和长视野。每个任务有三个难度级别(L0-L2),仅用L0进行微调以评估泛化能力。正交地,可对任何任务应用语言(W0-W4)和视觉(V0-V4)扰动,实现解耦的鲁棒性分析。
  • Result: 对最先进VLAs的评估揭示了几个关键局限性:强烈的记忆化倾向而非泛化能力、不对称的鲁棒性、缺乏对安全约束的考虑、以及无法组合学习技能完成长视野任务。
  • Conclusion: VLA-Arena提供了一个系统框架来量化评估VLAs的能力边界,揭示了当前模型的重大局限性,并为未来研究提供了完整的工具链和数据集,促进可复现的研究。

[189] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

Yufan He,Pengfei Guo,Mengya Xu,Zhaoshuo Li,Andriy Myronenko,Dillan Imans,Bingjie Liu,Dongren Yang,Mingxue Gu,Yongnan Ji,Yueming Jin,Ren Zhao,Baiyong Shen,Daguang Xu

Main category: cs.RO

TL;DR: 提出SurgeWorld世界模型,通过生成合成手术视频和推断伪运动学数据,解决手术机器人数据稀缺问题,显著提升VLA策略性能

  • Motivation: 手术机器人面临数据稀缺问题,虽然有大量手术视频但缺乏对应的动作标签,无法直接应用模仿学习或VLA训练,限制了自主手术机器人的发展
  • Method: 1) 构建SATA数据集包含详细手术机器人动作描述;2) 基于先进物理AI世界模型和SATA构建SurgeWorld,生成多样化、可泛化的真实手术视频;3) 首次使用逆动力学模型从合成视频推断伪运动学数据;4) 用增强数据训练手术VLA策略
  • Result: 使用增强数据训练的手术VLA策略在真实手术机器人平台上显著优于仅使用真实演示数据训练的模型
  • Conclusion: 该方法通过利用未标记手术视频和生成式世界建模,为自主手术技能获取提供了可扩展路径,开启了通用且数据高效的手术机器人策略之门

[190] PCR-ORB: Enhanced ORB-SLAM3 with Point Cloud Refinement Using Deep Learning-Based Dynamic Object Filtering

Sheng-Kai Chen,Jie-Yu Chao,Jr-Yu Chang,Po-Lien Wu,Po-Chiang Lin

Main category: cs.RO

TL;DR: PCR-ORB通过集成深度学习点云精炼和YOLOv8语义分割来增强ORB-SLAM3,在动态环境中减少移动物体干扰,实现实时性能。

  • Motivation: 传统vSLAM系统在动态环境中面临重大挑战,移动物体会降低跟踪精度和地图一致性,需要新的方法来减少动态物体干扰。
  • Method: 基于ORB-SLAM3框架,集成深度学习点云精炼,使用YOLOv8进行语义分割,结合CUDA加速实现实时处理,采用多阶段过滤策略(地面平面估计、天空区域移除、边缘过滤、时间一致性验证)。
  • Result: 在KITTI数据集(序列00-09)上评估,性能表现因场景而异,序列04的ATE RMSE改善25.9%,ATE中值改善30.4%,但在不同序列中表现不一,显示效果具有场景依赖性。
  • Conclusion: PCR-ORB为动态环境中的SLAM提供了改进方案,展示了深度学习与点云处理结合在复杂环境中导航的潜力,但效果受场景类型影响,需要进一步优化。

[191] RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion

Zhe Li,Cheng Chi,Yangyang Wei,Boan Zhu,Tao Huang,Zhenguo Sun,Yibo Peng,Pengwei Wang,Zhongyuan Wang,Fangzhou Liu,Chang Xu,Shanghang Zhang

Main category: cs.RO

TL;DR: RoboMirror是首个无需重定向的视频到运动框架,通过视觉语言模型从原始视频中提取视觉运动意图,直接指导扩散策略生成物理合理、语义对齐的运动控制。

  • Motivation: 当前人形机器人运动系统依赖运动捕捉轨迹或稀疏文本指令,存在视觉理解与控制之间的鸿沟。文本到运动方法存在语义稀疏性和流水线错误,视频方法仅进行机械姿态模仿而缺乏真正的视觉理解。
  • Method: 利用视觉语言模型从原始第一人称/第三人称视频中提取视觉运动意图,直接指导扩散策略生成物理合理的运动控制,无需显式姿态重建或重定向。
  • Result: 实验验证RoboMirror有效性:通过第一人称视频实现远程呈现,将第三人称控制延迟降低80%,任务成功率比基线高3.7%。
  • Conclusion: 通过围绕视频理解重构人形机器人控制,弥合了视觉理解与行动之间的鸿沟,实现了"先理解后模仿"的范式。

cs.AI

[192] Learning Multi-Modal Mobility Dynamics for Generalized Next Location Recommendation

Junshu Dai,Yu Wang,Tongya Zheng,Wei Ji,Qinghong Guo,Ji Cao,Jie Song,Canghong Jin,Mingli Song

Main category: cs.AI

TL;DR: M³ob:利用多模态时空知识增强位置推荐,通过LLM增强的时空知识图谱构建统一时空关系图,解决现有方法泛化能力不足的问题

  • Motivation: 现有人类移动预测方法泛化能力有限:单模态方法受数据稀疏性和固有偏差限制,多模态方法难以有效捕捉静态多模态表示与时空动态之间的语义鸿沟
  • Method: 1. 利用LLM增强的时空知识图谱构建统一时空关系图;2. 设计门控机制融合不同模态的时空图表示;3. 提出STKG引导的跨模态对齐,将时空动态知识注入静态图像模态
  • Result: 在六个公共数据集上的实验表明,该方法不仅在正常场景中取得一致改进,在异常场景中也展现出显著泛化能力
  • Conclusion: M³ob通过有效整合多模态时空知识,成功提升了位置推荐的准确性和泛化能力,特别是在异常场景中表现突出

[193] Memento-II: Learning by Stateful Reflective Memory

Jun Wang

Main category: cs.AI

TL;DR: 提出一个理论框架,将情景记忆与强化学习结合,使大语言模型智能体能够通过反思机制进行持续体验式学习,无需反向传播或模型微调。

  • Motivation: 传统方法在训练和部署之间存在严格分离,需要参数更新(如反向传播或微调)。本文旨在打破这种分离,使智能体能够在交互中持续学习,无需修改模型参数。
  • Method: 提出状态化反思决策过程,将反思学习建模为与情景记忆的两阶段读写交互:写入存储交互结果(策略评估),读取检索相关过去案例(策略改进)。该过程诱导出增强状态记忆表示上的等价马尔可夫决策过程。
  • Result: 框架通过熵正则化策略迭代实例化,并建立了收敛保证。当情景记忆增长并充分覆盖状态空间时,所得策略收敛到最优解。
  • Conclusion: 为基于记忆增强和检索的语言模型智能体提供了理论基础,使其能够在不更新参数的情况下实现持续适应,为实际应用中的持续学习提供了新方向。

[194] HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery

Yaping Zhang,Qixuan Zhang,Xingquan Zhang,Zhiyuan Chen,Wenwen Zhuang,Yupu Liang,Lu Xiang,Yang Zhao,Jiajun Zhang,Yu Zhou,Chengqing Zong

Main category: cs.AI

TL;DR: HiSciBench是一个分层科学智能基准测试,涵盖从科学素养到科学发现的五个层次,包含8,735个多学科实例,支持多模态输入和跨语言评估,用于全面评估大模型在科学研究中的能力。

  • Motivation: 现有科学智能基准测试存在碎片化问题,大多关注狭窄任务,无法反映真实科学探究的层次性和多学科性。需要建立一个能评估从基础知识理解到创造性发现完整科学工作流程的综合性基准。
  • Method: 设计了一个包含五个层次的分层基准:科学素养(L1)、文献解析(L2)、基于文献的问答(L3)、文献综述生成(L4)和科学发现(L5)。包含8,735个实例,涵盖数学、物理、化学、生物、地理和天文六大学科,支持文本、方程、图表等多模态输入和跨语言评估。
  • Result: 对GPT-5、DeepSeek-R1等领先模型的评估显示显著性能差距:在基础素养任务上准确率可达69%,但在发现级挑战上急剧下降至25%。揭示了模型在不同科学推理阶段的能力差异。
  • Conclusion: HiSciBench为评估科学智能建立了新标准,提供了开发更强大、更可靠模型的可操作见解。该基准将公开发布以促进未来研究。

[195] CubeBench: Diagnosing Interactive, Long-Horizon Spatial Reasoning Under Partial Observations

Huan-ang Gao,Zikang Zhang,Tianwei Luo,Kaisen Yang,Xinzhe Juan,Jiahao Qiu,Tianxing Chen,Bingxiang He,Hao Zhao,Hao Zhou,Shilong Liu,Mengdi Wang

Main category: cs.AI

TL;DR: 论文提出CubeBench基准测试,通过魔方任务评估LLM智能体在物理世界部署中的空间认知能力,发现现有模型在长时程规划上存在根本性缺陷。

  • Motivation: LLM智能体在数字领域表现出色,但在物理世界部署中存在显著差距,主要挑战在于形成和维护稳健的空间心理模型。论文识别了三个核心认知挑战:空间推理、通过心理模拟进行长时程状态跟踪,以及在部分观察下的主动探索。
  • Method: 引入CubeBench基准测试,这是一个以魔方为中心的新颖生成基准。采用三层诊断框架:1)具有完整符号信息的基础状态跟踪;2)逐步评估智能体能力;3)仅使用部分视觉数据的主动探索。通过为领先LLM提供外部求解器工具来隔离认知瓶颈。
  • Result: 实验显示领先LLM存在严重限制,在所有长时程任务中通过率均为0.00%,暴露了长期规划的根本性失败。通过分析失败模式,为开发更物理基础的智能体提供了关键见解。
  • Conclusion: CubeBench基准测试有效评估了LLM智能体的空间认知能力,揭示了现有模型在物理世界部署中的关键限制。提出的诊断框架有助于识别认知瓶颈,为开发更物理基础的智能体提供指导。

[196] Web World Models

Jichen Feng,Yifan Zhang,Chenggong Zhang,Yifu Lu,Shilong Liu,Mengdi Wang

Main category: cs.AI

TL;DR: Web World Model (WWM) 是一种结合传统Web框架可靠性和生成式世界模型灵活性的中间方案,在Web代码中实现世界状态和"物理规则",同时利用大语言模型生成上下文、叙事和高级决策。

  • Motivation: 现有语言代理的世界构建方法存在两极分化:传统Web框架提供可靠但固定的数据库支持环境,而完全生成式世界模型追求无限环境但牺牲了可控性和工程实用性。需要找到一种既能保证逻辑一致性又能支持开放探索的中间方案。
  • Method: 提出Web World Model (WWM),在真实Web技术栈上构建:1) 用普通Web代码实现世界状态和"物理规则"确保逻辑一致性;2) 大语言模型在结构化潜在状态基础上生成上下文、叙事和高级决策;3) 分离代码定义规则与模型驱动想象;4) 将潜在状态表示为类型化Web接口;5) 使用确定性生成实现无限但结构化的探索。
  • Result: 构建了多个WWM系统:基于真实地理的无限旅行地图、虚构星系探索者、Web规模的百科全书和叙事世界、模拟和游戏环境。验证了Web技术栈本身可以作为世界模型的可扩展基础,实现可控且开放的环境。
  • Conclusion: Web World Model为语言代理提供了可靠性与灵活性之间的平衡方案,Web技术栈可以作为世界模型的可扩展基础,实现可控且开放的环境,为语言代理的行动、记忆和学习提供了更好的持久世界支持。

cs.DC

[197] SlimEdge: Lightweight Distributed DNN Deployment on Constrained Hardware

Mahadev Sunil Kumar,Arnab Raha,Debayan Das,Gopakumar G,Amitava Mukherjee

Main category: cs.DC

TL;DR: 提出一种面向分布式边缘部署的DNN压缩方法,通过结构化剪枝和多目标优化,在保持任务性能的同时满足硬件约束,在MVCNN上实现1.2-5.0倍推理加速。

  • Motivation: 深度神经网络在资源受限的边缘设备上部署面临参数多、计算需求大的挑战,需要一种既能满足硬件限制又能保持任务性能的解决方案。
  • Method: 结合结构化模型剪枝和多目标优化,量化MVCNN中各个视角对分类准确率的贡献,并相应分配剪枝预算,根据异构设备约束定制网络容量。
  • Result: 实验表明,生成的模型在满足用户指定的准确率和内存占用边界的同时,在不同硬件平台上实现了1.2-5.0倍的推理延迟降低。
  • Conclusion: 性能感知、视角自适应的压缩方法为在分布式边缘环境中部署复杂视觉模型提供了可行路径。

cs.LG

[198] SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models

Jiesong Lian,Ruizhe Zhong,Zixiang Zhou,Xiaoyue Mi,Yixue Hao,Yuan Zhou,Qinglin Lu,Long Hu,Junchi Yan

Main category: cs.LG

TL;DR: SoliReward是一个用于视频生成模型奖励模型训练的系统框架,通过单项目二元标注收集高质量数据,采用分层渐进查询注意力架构,改进BT损失函数处理平局情况,在物理合理性、主体变形和语义对齐等基准测试中表现优异。

  • Motivation: 视频生成模型的后训练对齐需要有效的奖励模型,但当前方法面临数据标注噪声、架构设计不足和奖励攻击等挑战。现有基于提示的成对标注存在噪声,VLM-based奖励模型的输出机制研究不足,且奖励模型容易在后期训练中被攻击。
  • Method: 1) 通过单项目二元标注收集高质量低成本数据,采用跨提示配对策略构建偏好对;2) 使用分层渐进查询注意力机制增强特征聚合;3) 引入改进的BT损失函数,显式处理赢-平局场景,正则化奖励模型对正样本的分数分布。
  • Result: 在评估物理合理性、主体变形和语义对齐的基准测试中,该方法在直接奖励模型评估指标和视频生成模型后训练效果方面均显示出改进。代码和基准将公开可用。
  • Conclusion: SoliReward通过系统化的数据收集、架构设计和损失函数改进,有效解决了视频奖励模型训练中的关键挑战,为视频生成模型的后训练对齐提供了更可靠的偏好信号。

[199] Masking Teacher and Reinforcing Student for Distilling Vision-Language Models

Byung-Kwan Lee,Yu-Chiang Frank Wang,Ryo Hachiuma

Main category: cs.LG

TL;DR: 提出Masters框架,通过渐进式掩码强化学习蒸馏,解决大模型与小模型间知识迁移的尺寸差距问题

  • Motivation: 大规模视觉语言模型(VLMs)虽然性能强大但体积过大,难以部署到移动或边缘设备。需要紧凑但能力强的VLMs,但大教师模型与小学生模型之间的尺寸差距导致知识蒸馏困难,学生模型难以复现教师复杂的高维表示,造成学习不稳定和性能下降。
  • Method: 提出Masters框架:1) 掩码教师非主导权重以减少不必要复杂度;2) 渐进式恢复教师容量,让学生平滑稳定地学习丰富表示;3) 集成离线强化学习阶段,包含两个互补奖励:准确性奖励(衡量生成响应的正确性)和蒸馏奖励(量化从教师到学生响应的迁移难度);4) 利用掩码教师预生成响应提供高效指导,避免昂贵的在线思考-回答过程。
  • Result: 该方法使学生模型能够在不进行昂贵在线思考-回答过程的情况下实现强大性能,通过渐进式掩码和强化学习蒸馏,有效解决了尺寸差距导致的知识迁移问题。
  • Conclusion: Masters框架通过掩码渐进式强化学习蒸馏,实现了从大教师模型到小学生模型的高效知识迁移,解决了尺寸差距带来的学习不稳定问题,为部署紧凑但能力强的视觉语言模型提供了有效解决方案。

[200] Fairness Evaluation of Risk Estimation Models for Lung Cancer Screening

Shaurya Gaur,Michel Vitale,Alessa Hering,Johan Kwisthout,Colin Jacobs,Lena Philipp,Fennie van der Graaf

Main category: cs.LG

TL;DR: 该研究使用JustEFAB框架评估了两种深度学习肺癌风险预测模型(Sybil和Venkadesh21)在不同人口亚组中的性能差异和公平性问题,发现存在统计学显著的性别和种族间性能差异,这些差异无法用临床混杂因素解释,可能构成不公平偏倚。

  • Motivation: 肺癌是全球癌症相关死亡的主要原因,低剂量CT筛查可早期发现肺癌但可能加重放射科医生负担。AI模型在肺癌风险评估中显示出潜力,但高危人群具有多样性,这些模型在不同人口亚组中的性能差异仍不明确,需要评估其公平性和潜在偏倚。
  • Method: 研究采用JustEFAB框架评估两种深度学习肺癌风险预测模型(Sybil和Venkadesh21)以及PanCan2b逻辑回归模型。模型基于美国国家肺癌筛查试验(NLST)数据训练,并在NLST验证集上评估。评估指标包括AUROC、敏感性和特异性,分析不同人口亚组(性别、种族)的性能差异,并探索临床混杂因素的影响。
  • Result: Sybil模型在女性(AUROC 0.88)和男性(AUROC 0.81)间存在统计学显著差异(p < .001)。Venkadesh21模型在90%特异性下,黑人参与者敏感性(0.39)显著低于白人参与者(0.69)。这些差异无法用可用的临床混杂因素解释,根据JustEFAB框架可能构成不公平偏倚。
  • Conclusion: 研究强调了在肺癌筛查中改进和监测模型在不同亚组中性能的重要性,以及进一步研究算法公平性的必要性。AI模型在不同人口亚组中可能存在不公平的性能差异,需要在临床应用中加以关注和解决。

[201] Temporal Visual Semantics-Induced Human Motion Understanding with Large Language Models

Zheng Xing,Weibing Zhao

Main category: cs.LG

TL;DR: 该论文提出了一种结合时间视觉语义的无监督人体运动分割方法,通过大语言模型提取运动序列的文本语义信息,并融入子空间聚类框架,显著提升了分割性能。

  • Motivation: 传统的人体运动分割方法忽视了时间语义探索的重要性。本文旨在利用大语言模型的图像到文本能力,从人体运动序列中提取时间视觉语义,以增强子空间聚类的性能。
  • Method: 1. 使用LLM从连续帧中提取文本运动信息,判断相邻帧是否描述相同运动;2. 基于LLM响应学习时间相邻信息;3. 开发TVS集成的子空间聚类方法,包含时间正则化的子空间嵌入;4. 引入反馈机制,基于分割输出持续优化子空间嵌入。
  • Result: 在四个基准人体运动数据集上的实验结果表明,该方法优于现有的最先进方法。
  • Conclusion: 通过将大语言模型提取的时间视觉语义融入子空间聚类框架,能够有效提升无监督人体运动分割的性能,证明了时间语义信息在该任务中的重要性。

[202] Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model

Renping Zhou,Zanlin Ni,Tianyi Chen,Zeyu Liu,Yang Yue,Yulin Wang,Yuxuan Wang,Jingshu Liu,Gao Huang

Main category: cs.LG

TL;DR: Co-GRPO通过将掩码扩散模型重新表述为统一的马尔可夫决策过程,联合优化模型参数和推理调度参数,解决了训练与推理之间的不匹配问题。

  • Motivation: 掩码扩散模型在训练和推理之间存在显著差异:推理是多步迭代过程,涉及复杂的调度策略,而训练使用简化的单步BERT式目标,导致推理调度从未在训练中得到优化。
  • Method: 将MDM生成重新表述为统一的马尔可夫决策过程,应用轨迹级别的组相对策略优化,在共享奖励下协同优化模型参数和调度参数,无需通过多步生成过程进行昂贵的反向传播。
  • Result: 在ImageReward、HPS、GenEval和DPG-Bench四个基准测试中,该方法显著提高了生成质量,证明了其有效性。
  • Conclusion: Co-GRPO通过整体优化方法更彻底地对齐训练与推理,解决了MDM中训练-推理不匹配的根本问题,为扩散模型提供了更统一的优化框架。

[203] LangPrecip: Language-Aware Multimodal Precipitation Nowcasting

Xudong Ling,Tianxi Huang,Qian Dong,Tao He,Chaorong Li,Guiduo Duan

Main category: cs.LG

TL;DR: LangPrecip:一个语言感知的多模态降水临近预报框架,通过将气象文本作为降水演化的语义运动约束,在Rectified Flow范式下实现文本和雷达信息的有效融合,显著提升强降水预报性能。

  • Motivation: 短期降水临近预报具有高度不确定性和约束不足的特点,特别是对于快速演变的极端天气事件。现有生成方法主要依赖视觉条件,导致未来运动约束弱且模糊,需要更强的语义约束来提升预报准确性。
  • Method: 提出语言感知多模态临近预报框架,将气象文本作为降水演化的语义运动约束,在Rectified Flow范式下将临近预报建模为语义约束的轨迹生成问题,在潜在空间中高效融合文本和雷达信息。同时构建了包含16万对雷达序列和运动描述的大规模多模态数据集LangPrecip-160k。
  • Result: 在瑞典和MRMS数据集上的实验表明,该方法相比最先进方法取得一致改进,在80分钟预报时效上,强降水CSI分别获得超过60%和19%的提升。
  • Conclusion: 语言感知的多模态框架通过引入文本语义约束,显著改善了降水临近预报的准确性和物理一致性,特别是在强降水预报方面表现突出,为气象预报提供了新的有效途径。

[204] Toward Real-World IoT Security: Concept Drift-Resilient IoT Botnet Detection via Latent Space Representation Learning and Alignment

Hassan Wasswa,Timothy Lynar

Main category: cs.LG

TL;DR: 提出一个无需持续重训练的自适应物联网威胁检测框架,通过潜在空间对齐和GNN分类来应对概念漂移问题

  • Motivation: 现有AI模型依赖静态数据集,无法反映真实物联网NetFlow流量的动态特性,且周期性重训练计算开销大并存在灾难性遗忘风险
  • Method: 训练一次分类器学习历史流量的潜在空间表示,使用对齐模型将新流量映射到该空间,然后将低维表示转换为图结构,用图神经网络进行分类
  • Result: 在真实异构物联网流量数据集上的实验表明,该框架在概念漂移下保持稳健的检测性能
  • Conclusion: 该框架具有在动态大规模物联网环境中实际部署的潜力,解决了传统方法的高计算开销和灾难性遗忘问题

[205] Schrodinger AI: A Unified Spectral-Dynamical Framework for Classification, Reasoning, and Operator-Based Generalization

Truong Son Nguyen

Main category: cs.LG

TL;DR: Schrödinger AI是一个受量子力学启发的统一机器学习框架,通过波能量求解器、动态求解器和低秩算子微积分三个组件,提供了一种基于物理学的替代方案,具有鲁棒泛化、可解释语义和涌现拓扑特性。

  • Motivation: 提出一种受量子力学启发的机器学习框架,旨在替代传统的交叉熵训练和Transformer注意力机制,实现更鲁棒的泛化能力、可解释的语义表示以及涌现的拓扑结构。
  • Method: 框架包含三个紧密耦合的组件:1) 时间无关波能量求解器,将感知和分类视为学习哈密顿量下的谱分解;2) 时间相关动态求解器,控制语义波函数随时间演化,支持上下文感知的决策修订和重路由;3) 低秩算子微积分,通过学习量子类转换算子实现符号变换。
  • Result: 实验表明:a) 涌现出反映人类概念类别关系的语义流形;b) 动态推理能适应变化环境,包括实时势场扰动的迷宫导航;c) 在模算术任务上实现精确算子泛化,系统学习群操作并在远超训练长度的序列上组合它们。
  • Conclusion: 该研究为机器学习提供了新的基础方向,将学习视为发现和导航底层语义能量景观的过程,展示了物理驱动方法的潜力。

[206] ReDiF: Reinforced Distillation for Few Step Diffusion

Amirhossein Tighkhorshid,Zahra Dehghanian,Gholamali Aminian,Chengchun Shi,Hamid R. Rabiee

Main category: cs.LG

TL;DR: 提出基于强化学习的扩散模型蒸馏框架,将蒸馏过程视为策略优化问题,通过奖励信号动态指导学生模型,实现更少推理步骤的高效生成。

  • Motivation: 传统扩散模型采样速度慢,现有蒸馏方法依赖固定的重建或一致性损失,限制了学生模型的学习效率和性能提升。
  • Method: 将扩散模型蒸馏视为强化学习策略优化问题,使用教师模型输出作为奖励信号,动态指导学生探索多个去噪路径,允许采取更长、优化的步骤。
  • Result: 实验结果表明,该方法在显著减少推理步骤和计算资源的情况下,性能优于现有蒸馏技术,且框架与模型无关,适用于各类扩散模型。
  • Conclusion: 提出的强化学习蒸馏框架为扩散模型提供了一种通用的优化范式,能够有效提升采样效率,同时保持生成质量。

[207] Rethinking Fine-Tuning: Unlocking Hidden Capabilities in Vision-Language Models

Mingyuan Zhang,Yue Bai,Yifan Wang,Yiyang Huang,Yun Fu

Main category: cs.LG

TL;DR: 该论文提出将掩码微调(MFT)应用于视觉语言模型(VLM),通过为预训练权重分配可学习的门控分数来重组内部子网络,而非更新权重,实现了比LoRA变体和全微调更好的性能。

  • Motivation: 当前VLM微调方法大多依赖显式的权重更新,忽略了预训练模型中已编码的丰富表征结构。这些结构未被充分利用,而MFT已被证明是语言模型的高效后训练范式,因此作者希望探索MFT在VLM中的应用潜力。
  • Method: 从结构重参数化的角度重新思考VLM微调,将MFT应用于VLM的语言和投影器组件。MFT不更新权重,而是为每个权重分配可学习的门控分数,让模型重组其内部子网络以适应下游任务。该方法在不同语言骨干的VLM上进行了测试。
  • Result: 实验表明,MFT在VLM上持续超越LoRA变体,甚至优于全微调,在保持冻结骨干不变的情况下实现了高性能。这表明有效适应不仅可以通过更新权重实现,还可以通过重新建立模型现有知识之间的连接来实现。
  • Conclusion: MFT为VLM微调提供了一种高效且性能优异的替代方案,证明了通过重组预训练模型的内部子网络而非更新权重,可以实现有效的任务适应。这为利用预训练模型已有知识提供了新思路。

[208] Machine Learning-Assisted Vocal Cord Ultrasound Examination: Project VIPR

Will Sebelik-Lassiter,Evan Schubert,Muhammad Alliyu,Quentin Robbins,Excel Olatunji,Mustafa Barry

Main category: cs.LG

TL;DR: 开发机器学习算法自动识别声带并区分正常声带与声带麻痹的超声图像

  • Motivation: 声带超声检查虽然创伤小、耐受性好,但其准确性高度依赖操作者经验,需要开发自动化分析工具提高诊断准确性
  • Method: 从30名志愿者获取声带超声视频,分割为静态帧并统一裁剪尺寸;使用健康和模拟声带麻痹图像训练声带分割和分类模型
  • Result: 声带分割模型验证准确率达96%,最佳分类模型(VIPRnet)验证准确率达99%
  • Conclusion: 机器学习辅助的声带超声分析在提高诊断准确性方面具有巨大潜力,优于依赖操作者经验的人工判读

[209] A unified framework for detecting point and collective anomalies in operating system logs via collaborative transformers

Mohammad Nasirzadeh,Jafar Tahmoresnezhad,Parviz Rashidi-Khazaee

Main category: cs.LG

TL;DR: CoLog是一个用于日志异常检测的多模态框架,通过协同编码不同日志模态,使用协同transformer和多头注意力机制学习模态间交互,在多个基准数据集上达到99.6%以上的F1分数。

  • Motivation: 现有单模态方法忽略了日志数据的多模态特性,而多模态方法未能有效处理不同模态间的交互作用,导致日志异常检测效果受限。
  • Method: 提出CoLog框架:1)使用协同transformer和多头注意力机制学习多个日志模态间的交互;2)引入模态适配层处理由交互引起的异构性;3)通过统一框架同时检测点异常和集体异常。
  • Result: 在7个基准数据集上,CoLog在点异常和集体异常检测中平均精确率达到99.63%,平均召回率99.59%,平均F1分数99.61%,优于现有最先进方法。
  • Conclusion: CoLog通过协同编码多模态日志数据,有效解决了日志异常检测中的模态交互问题,为网络安全、系统监控和运营效率提供了先进的解决方案。

[210] Stochastic Siamese MAE Pretraining for Longitudinal Medical Images

Taha Emre,Arunava Chakravarty,Thomas Pinetz,Dmitrii Lachinov,Martin J. Menten,Hendrik Scholl,Sobha Sivaprasad,Daniel Rueckert,Andrew Lotery,Stefan Sacu,Ursula Schmidt-Erfurth,Hrvoje Bogunović

Main category: cs.LG

TL;DR: STAMP是一种基于Siamese MAE的随机时间自编码器,通过条件变分推断学习医学影像中的不确定性疾病进展动态,在AMD和AD进展预测上优于现有方法。

  • Motivation: 现有自监督学习方法(如MAE)缺乏时间感知能力,而确定性Siamese方法无法处理疾病进展中的固有不确定性,需要能够学习非确定性时间动态的表示学习方法。
  • Method: 提出STAMP框架:基于Siamese MAE,通过随机过程编码时间信息,以两个输入体积的时间差为条件,将MAE重建损失重构为条件变分推断目标,学习疾病演化的随机动态。
  • Result: 在OCT和MRI数据集上评估,STAMP预训练的ViT模型在AMD和AD进展预测任务上优于现有时间MAE方法和基础模型,特别是在需要学习非确定性时间动态的任务上表现更好。
  • Conclusion: STAMP通过随机时间建模有效捕捉了医学影像中的疾病进展动态,为纵向医学数据分析提供了更强大的时间感知表示学习方法。

q-bio.NC

[211] JParc: Joint cortical surface parcellation with registration

Jian Li,Karthik Gopinath,Brian L. Edlow,Adrian V. Dalca,Bruce Fischl

Main category: q-bio.NC

TL;DR: JParc是一个联合皮层配准与分区框架,通过浅层子网络微调传播的图谱标签,在Mindboggle数据集上实现超过90%的Dice分数,仅使用描述皮层折叠模式的基本几何特征。

  • Motivation: 皮层表面分区是基础神经科学研究和临床应用的基本任务,但现有的基于学习的方法偏离了配准和图谱传播,没有探索与传统方法相比改进的原因。需要研究配准精度对分区性能的影响。
  • Method: 提出JParc框架,联合进行皮层配准和分区。使用浅层子网络微调传播的图谱标签,仅利用皮层折叠模式的基本几何特征(沟深、曲率)。通过准确的皮层配准和学习的分区图谱来提升性能。
  • Result: JParc在Mindboggle数据集上实现了超过90%的Dice分数,优于现有的最先进分区方法。实验证明性能提升主要归因于准确的皮层配准和学习的分区图谱。
  • Conclusion: JParc的优越准确性可以显著提高脑映射研究的统计功效,并支持手术规划和许多其他下游神经科学和临床任务的应用。联合配准和分区的方法比单独的分区方法更有效。

eess.IV

[212] Field strength-dependent performance variability in deep learning-based analysis of magnetic resonance imaging

Muhammad Ibtsaam Qadir,Duane Schonlau,Ulrike Dydak,Fiona R. Kolbinger

Main category: eess.IV

TL;DR: 研究评估MRI磁场强度对深度学习分割算法性能的影响,发现磁场强度差异显著影响模型性能,特别是软组织分割,建议将磁场强度作为AI性能评估的混杂因素考虑

  • Motivation: 评估MRI扫描仪磁场强度对深度学习分割算法性能和泛化能力的影响,探究磁场强度是否应被视为影响AI性能评估的混杂因素
  • Method: 使用三个公开MRI数据集(乳腺肿瘤、胰腺、颈椎),按磁场强度(1.5T vs 3.0T)分层。为每个分割任务开发三个nnU-Net模型:仅1.5T训练、仅3.0T训练、混合训练。通过UMAP聚类和23个放射组学特征分析磁场强度相关性能差异
  • Result: 乳腺肿瘤分割中,3.0T模型在两个验证集上均显著优于其他模型;胰腺分割显示相似趋势;颈椎分割中所有模型表现良好且跨场性能下降最小。放射组学分析显示软组织存在中度磁场强度相关聚类,骨结构分离最小
  • Conclusion: 训练数据中的磁场强度显著影响深度学习分割模型性能,特别是软组织结构。建议将磁场强度作为评估MRI上AI性能研究的混杂因素考虑

[213] AI-Enhanced Virtual Biopsies for Brain Tumor Diagnosis in Low Resource Settings

Areeb Ehsan

Main category: eess.IV

TL;DR: 提出一个轻量级虚拟活检系统,结合MobileNetV2 CNN和手工放射组学特征进行脑肿瘤四分类,通过后期融合提升性能,适用于资源有限环境。

  • Motivation: 在资源有限的临床环境中,脑肿瘤及时诊断面临挑战,包括缺乏专家神经放射学解读、高端MRI设备和侵入性活检。现有深度学习模型存在计算需求高、跨扫描仪数据集偏移和可解释性有限等问题。
  • Method: 使用MobileNetV2 CNN进行四分类,同时提取8个手工放射组学特征(包括病灶形状、强度统计和GLCM纹理描述符)。采用后期融合策略将CNN嵌入与放射组学特征拼接,训练随机森林分类器。提供Grad-CAM可视化和放射组学特征重要性分析。
  • Result: 在Kaggle脑肿瘤MRI数据集上,融合方法相比单分支基线在验证性能上有提升。在降低分辨率和添加噪声的鲁棒性测试中,系统显示出对低资源成像条件的敏感性。
  • Conclusion: 该系统作为决策支持工具而非临床诊断或组织病理学替代品,为资源有限环境提供轻量级、可解释的脑肿瘤分类解决方案,融合方法优于单一方法。

[214] Complex Swin Transformer for Accelerating Enhanced SMWI Reconstruction

Muhammad Usman,Sung-Min Gho

Main category: eess.IV

TL;DR: 提出基于复数Swin Transformer网络的超分辨率重建方法,从低分辨率k空间数据重建高质量SMWI图像,减少扫描时间同时保持诊断特征。

  • Motivation: SMWI是检测帕金森病黑质高信号的重要MRI技术,但全分辨率采集需要长时间扫描。需要高效重建方法从减少的k空间数据生成高质量SMWI图像,同时保持诊断相关性。
  • Method: 提出基于复数Swin Transformer的网络,用于多回波MRI数据的超分辨率重建。该方法从低分辨率k空间输入重建高质量SMWI图像。
  • Result: 实验结果显示,从256×256 k空间数据重建SMWI时,结构相似性指数达到0.9116,均方误差为0.076,同时保持了关键的诊断特征。
  • Conclusion: 该方法能够从减少的k空间采样重建高质量SMWI,缩短扫描时间而不损害诊断细节,有潜力提高SMWI在帕金森病中的临床应用性,支持更快更高效的神经影像工作流程。

[215] Super-Resolution Enhancement of Medical Images Based on Diffusion Model: An Optimization Scheme for Low-Resolution Gastric Images

Haozhe Jia

Main category: eess.IV

TL;DR: 提出基于扩散模型的胶囊内窥镜图像超分辨率方法,显著提升图像质量,优于传统插值和GAN方法

  • Motivation: 胶囊内窥镜因硬件、功耗和传输限制导致图像分辨率低,影响细微黏膜纹理和病理特征的识别,限制了早期诊断能力
  • Method: 采用SR3框架,基于去噪扩散概率模型,学习从低分辨率到高分辨率图像的概率映射,使用HyperKvasir数据集进行训练和评估
  • Result: PSNR达29.3 dB,SSIM达0.71,优于双三次插值和ESRGAN等GAN方法,能更好地保留解剖边界、血管模式和病变结构
  • Conclusion: 扩散模型超分辨率是增强胶囊内窥镜等非侵入性医学成像的有前景方法,特别适用于图像分辨率受根本限制的场景

[216] MEGA-PCC: A Mamba-based Efficient Approach for Joint Geometry and Attribute Point Cloud Compression

Kai-Hsiang Hsieh,Monyneath Yim,Wen-Hsiao Peng,Jui-Chiu Chiang

Main category: eess.IV

TL;DR: MEGA-PCC:基于Mamba架构的端到端点云几何与属性联合压缩框架,通过共享编码器和双解码器实现统一潜在表示,无需后处理着色和手动比特率分配。

  • Motivation: 现有方法依赖后处理着色过程和手动调整几何与属性比特流分配,阻碍端到端优化并增加系统复杂度,需要更高效的联合压缩方案。
  • Method: 提出MEGA-PCC框架:1)主压缩模型使用共享编码器将几何和属性编码为统一潜在表示,然后通过双解码器顺序重建几何和属性;2)基于Mamba的熵模型(MEM)通过捕捉空间和通道相关性改进概率估计;两者均基于Mamba架构建模长程依赖。
  • Result: 实验表明MEGA-PCC在率失真性能和运行时效率上优于传统和基于学习的基线方法,实现了数据驱动的比特率分配并简化了处理流程。
  • Conclusion: MEGA-PCC通过端到端学习框架消除了后处理着色和启发式比特率调整的需求,为AI驱动的点云压缩提供了强大解决方案。

[217] Semantic contrastive learning for orthogonal X-ray computed tomography reconstruction

Jiashu Dong,Jiabing Xiang,Lisheng Geng,Suqing Tian,Wei Zhao

Main category: eess.IV

TL;DR: 提出基于语义特征对比学习的三阶段U-Net架构,用于稀疏视角CT重建,在保持低计算复杂度的同时显著提升图像质量

  • Motivation: 稀疏视角CT重建可降低辐射剂量,但存在病态条件导致严重条纹伪影问题。现有深度学习方法虽有改进,但仍面临挑战,需要更有效的重建方法。
  • Method: 提出语义特征对比学习损失函数,在高维潜在空间评估语义相似性,在浅层潜在空间评估解剖相似性。采用三阶段U-Net架构:粗重建、细节精炼和语义相似性测量。
  • Result: 在胸部正交投影数据集测试中,该方法相比其他算法获得更优的重建质量和更快的处理速度,图像质量显著提升且保持低计算复杂度。
  • Conclusion: 该方法为正交CT重建提供了实用解决方案,通过语义特征对比学习有效解决了稀疏视角重建中的条纹伪影问题,在质量和效率上均表现出色。

[218] SwinCCIR: An end-to-end deep network for Compton camera imaging reconstruction

Minghao Dong,Xinyang Luo,Xujian Ouyang,Yongshun Xiao

Main category: eess.IV

TL;DR: 提出SwinCCIR,一种基于Swin Transformer和转置卷积的端到端深度学习框架,用于康普顿相机成像,直接建立列表模式事件与放射源分布的关系,克服传统重建方法中的伪影和变形问题。

  • Motivation: 康普顿相机传统重建方法基于康普顿锥的反投影,存在严重的伪影和变形问题。此外,设备性能导致的系统误差难以通过校准完全消除,影响成像质量。现有迭代算法和深度学习方法大多基于反投影结果进行优化,仍有局限性。
  • Method: 提出SwinCCIR端到端深度学习框架,采用Swin Transformer块和基于转置卷积的图像生成模块,直接建立列表模式事件与放射源分布之间的映射关系,避免了传统反投影步骤。
  • Result: 在模拟和实际数据集上的实验结果表明,SwinCCIR有效克服了传统康普顿相机成像的问题,成像质量显著提升,有望在实际应用中部署。
  • Conclusion: SwinCCIR通过端到端深度学习框架直接处理列表模式事件,避免了传统反投影方法的缺陷,为康普顿相机成像提供了更有效的解决方案,具有实际应用潜力。

[219] EIR: Enhanced Image Representations for Medical Report Generation

Qiang Sun,Zongcheng Ji,Yinlong Xiao,Peng Chang,Jun Yu

Main category: eess.IV

TL;DR: 本文提出EIR方法,通过跨模态Transformer融合医学元数据与图像表示,并使用医学领域预训练模型编码图像,有效解决信息不对称和领域差距问题,提升胸部X光报告生成准确性。

  • Motivation: 胸部X光报告生成是放射科医生关键且耗时的任务。现有方法虽然使用医学元数据(如患者临床文档历史、相似患者报告构建的医学图),但仅通过简单的"Add and LayerNorm"操作融合元数据与视觉表示,存在信息不对称问题。此外,现有方法使用自然图像预训练模型表示医学图像,存在明显的领域差距。
  • Method: 提出Enhanced Image Representations (EIR)方法:1)使用跨模态Transformer融合元数据表示与图像表示,解决信息不对称问题;2)利用医学领域预训练模型编码医学图像,弥合领域差距。
  • Result: 在广泛使用的MIMIC和Open-I数据集上的实验结果表明,所提方法有效提升了胸部X光报告生成的准确性。
  • Conclusion: EIR方法通过跨模态Transformer融合和医学领域预训练,有效解决了医学报告生成中的信息不对称和领域差距问题,为自动医疗报告生成提供了更准确的解决方案。

physics.geo-ph

[220] A Rapid GeoSAM-Based Workflow for Multi-Temporal Glacier Delineation: Case Study from Svalbard

Alexandru Hegyi

Main category: physics.geo-ph

TL;DR: 基于GeoSAM的半自动冰川边界提取工作流,利用Sentinel-2影像实现快速冰川制图,在斯瓦尔巴地区验证了时空一致性

  • Motivation: 现有冰川边界提取方法难以扩展到长时间序列和异质环境,需要一种快速、可扩展的半自动工作流来支持冰川变化监测
  • Method: 结合晚夏影像合成、光谱指数识别候选冰区、GeoSAM提示引导分割和基于物理的后处理,从Sentinel-2表面反射率影像提取年度冰川轮廓
  • Result: 在斯瓦尔巴西部Ny-Alesund和Kongsfjorden地区验证,方法能为主冰川体生成空间连贯和时间一致的轮廓,主要误差来自受水体、地形阴影或高表面变异性影响的小特征
  • Conclusion: 该方法为多时相冰川制图和冰损失评估提供了快速实用的替代方案,依赖RGB影像使其灵活可迁移到其他光学数据集,用户检查仍是必要的