Skip to content
每日arXiv - 2026年1月19日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Future Optical Flow Prediction Improves Robot Control & Video Generation

Kanchana Ranasinghe,Honglu Zhou,Yu Fang,Luyu Yang,Le Xue,Ran Xu,Caiming Xiong,Silvio Savarese,Michael S Ryoo,Juan Carlos Niebles

Main category: cs.CV

TL;DR: FOFPred是一个语言条件化的光流预测模型,结合了视觉语言模型和扩散架构,从网络规模的人类活动数据中学习,用于机器人操控和视频生成任务。

  • Motivation: 光流等未来运动表示对控制和生成任务很有价值,但预测可泛化的空间密集运动表示仍是一个关键挑战,且从噪声真实世界数据中学习这种预测相对未被探索。
  • Method: 提出FOFPred模型,结合视觉语言模型和扩散架构的统一框架,利用网络规模的人类活动数据训练,采用关键的数据预处理技术和强图像预训练来从噪声视频-字幕数据中提取有意义的信号。
  • Result: 训练后的模型可扩展到控制和生成两个不同的下游任务,在语言驱动的机器人操控和视频生成评估中展示了跨领域适应性。
  • Conclusion: FOFPred证实了统一VLM-扩散架构的价值,以及从多样化网络数据中进行可扩展学习对未来光流预测的重要性。

[2] ICONIC-444: A 3.1-Million-Image Dataset for OOD Detection Research

Gerhard Krumpl,Henning Avenhaus,Horst Possegger

Main category: cs.CV

TL;DR: 提出了ICONIC-444数据集,包含310万张工业图像、444个类别,专门用于OOD检测研究,填补了现有数据集在规模、质量和难度分级上的空白。

  • Motivation: 当前OOD检测研究受限于缺乏大规模、高质量的数据集,这些数据集需要明确定义的OOD类别、覆盖从近到远的不同难度级别,并支持细粒度和粗粒度的计算机视觉任务。
  • Method: 使用原型工业分拣机采集图像,构建了包含310万张RGB图像、444个类别的ICONIC-444数据集。该数据集模拟真实世界任务,提供结构化、多样化的数据,支持严格的OOD评估。定义了四个参考任务来基准测试OOD检测方法。
  • Result: 提供了22种最先进的后处理OOD检测方法的基线结果,为OOD检测研究建立了新的基准评估平台。
  • Conclusion: ICONIC-444填补了OOD检测研究的数据集空白,提供了大规模、高质量的工业图像数据集,支持不同难度级别的OOD检测评估,将推动该领域的研究进展。

[3] A Unified 3D Object Perception Framework for Real-Time Outside-In Multi-Camera Systems

Yizhou Wang,Sameer Pusegaonkar,Yuxing Wang,Anqi Li,Vishal Kumar,Chetan Sethi,Ganapathy Aiyer,Yun He,Kartikay Thakkar,Swapnil Rathi,Bhushan Rupde,Zheng Tang,Sujit Biswas

Main category: cs.CV

TL;DR: 该论文提出了一个针对大规模基础设施环境的优化Sparse4D框架,通过几何先验和遮挡感知ReID模块提升多摄像头跟踪性能,使用生成式数据增强解决Sim2Real问题,在AI City Challenge 2025上达到SOTA的45.22 HOTA,并通过TensorRT优化实现2.15倍加速。

  • Motivation: 将自动驾驶的"inside-out"模型迁移到静态摄像头网络的"outside-in"场景面临重大挑战,包括异构摄像头布置和极端遮挡问题。基础设施环境需要准确的三维物体感知和多目标多摄像头跟踪能力。
  • Method: 1. 基于Sparse4D框架进行优化,利用绝对世界坐标几何先验;2. 引入遮挡感知的ReID嵌入模块以保持身份稳定性;3. 使用NVIDIA COSMOS框架进行生成式数据增强,创建多样化环境风格以增强模型外观不变性;4. 开发优化的TensorRT插件用于多尺度可变形聚合(MSDA)的硬件加速。
  • Result: 1. 在AI City Challenge 2025基准测试中达到最先进的45.22 HOTA;2. 硬件加速实现2.15倍速度提升;3. 单个Blackwell级GPU可支持超过64个并发摄像头流。
  • Conclusion: 该研究成功地将自动驾驶模型适应到基础设施监控场景,通过几何先验、遮挡感知ReID和生成式数据增强解决了关键挑战,同时通过硬件优化实现了实时部署能力,为大规模工业基础设施的数字化转型提供了有效解决方案。

[4] Can Vision-Language Models Understand Construction Workers? An Exploratory Study

Hieu Bui,Nathaniel E. Chodosh,Arash Tavakoli

Main category: cs.CV

TL;DR: 评估三种主流视觉语言模型(GPT-4o、Florence 2、LLaVa-1.5)在建筑工地图像中识别工人行为和情绪的表现,发现GPT-4o表现最佳,但所有模型在语义相近类别上仍有困难。

  • Motivation: 随着机器人技术在建筑工作流程中的集成,理解人类行为对安全协作至关重要。视觉语言模型(VLMs)无需大量领域特定训练即可识别人类行为,在标注数据稀缺的建筑领域具有应用潜力,特别是监控工人行为和情绪状态对安全和生产力至关重要。
  • Method: 使用包含1,000张图像的数据集,标注了10个行为类别和10个情绪类别。通过标准化推理流程和多种评估指标(F1分数、准确率、混淆矩阵分析)评估三种VLMs(GPT-4o、Florence 2、LLaVa-1.5)的表现。
  • Result: GPT-4o在两个任务中表现最佳:行为识别平均F1分数0.756,准确率0.799;情绪识别F1分数0.712,准确率0.773。Florence 2表现中等(行为F1 0.497,情绪F1 0.414),LLaVa-1.5表现最差(行为F1 0.466,情绪F1 0.461)。所有模型在区分语义相近类别(如团队协作vs与主管沟通)时都存在困难。
  • Conclusion: 通用视觉语言模型可为建筑环境中的人类行为识别提供基础能力,但要实现实际应用的可靠性,还需要领域适应、时序建模或多模态感知等进一步改进。

[5] One Model, Many Behaviors: Training-Induced Effects on Out-of-Distribution Detection

Gerhard Krumpl,Henning Avenhaus,Horst Possegger

Main category: cs.CV

TL;DR: 研究发现ID准确率与OOD检测性能并非单调正相关,而是呈现先升后降的非单调关系,且训练策略、检测器选择和OOD性能之间存在强相互依赖

  • Motivation: 尽管OOD检测方法不断进步,但其与现代训练流程(旨在最大化ID准确率和泛化能力)之间的相互作用尚未得到充分探索。研究者希望通过实证研究揭示这种联系。
  • Method: 采用ResNet-50架构,对56个通过不同训练策略获得的ImageNet训练模型,使用21种最先进的后处理OOD检测方法进行基准测试,并在8个OOD测试集上进行评估。
  • Result: 发现ID准确率与OOD检测性能之间存在非单调关系:OOD性能最初随准确率提高而改善,但当高级训练方法将准确率推至基线以上时反而下降。同时发现训练策略、检测器选择和OOD性能之间存在强相互依赖,没有单一方法在所有情况下都是最优的。
  • Conclusion: ID准确率与OOD检测性能并非简单的正相关关系,需要综合考虑训练策略和检测器选择。没有通用的最优OOD检测方法,实际应用中需要根据具体训练策略进行选择。

[6] Effects of Different Attention Mechanisms Applied on 3D Models in Video Classification

Mohammad Rasras,Iuliana Marin,Serban Radu,Irina Mocanu

Main category: cs.CV

TL;DR: 研究探讨在动作识别中减少时间维度信息但增加帧分辨率的影响,通过修改3D ResNet架构并加入多种注意力机制,在UCF101数据集上达到88.98%准确率

  • Motivation: 人类动作识别在计算机视觉中有广泛应用,但现有3D ResNet模型(如MC3、R3D、R(2+1)D)主要关注时空特征提取。本研究旨在探索减少时间维度信息捕获、同时增加帧分辨率对模型性能的影响,并研究不同注意力机制在受限时间模型中的作用。
  • Method: 1. 基于三种原始3D ResNet架构(MC3、R3D、R(2+1)D)创建类似设计,在最终分类器前添加dropout层;2. 为每种设计开发10个新变体,在架构中集成不同注意力模块:卷积块注意力模块(CBAM)、时间卷积网络(TCN)、多头注意力和通道注意力机制;3. 在UCF101数据集上测试所有模型,分析性能变化。
  • Result: 在UCF101数据集上的测试结果显示:1. 修改后的R(2+1)D模型添加多头注意力机制后达到最高准确率88.98%;2. 不同注意力变体在类别级准确率上表现出不同行为,尽管整体性能提升相似;3. 时间特征缺失对新增的高分辨率模型性能有显著影响。
  • Conclusion: 研究表明,在减少时间维度信息的情况下增加帧分辨率会影响动作识别性能,但通过集成适当的注意力机制(特别是多头注意力)可以部分补偿时间信息的缺失。不同注意力模块对模型性能的影响存在差异,需要根据具体应用场景选择合适的设计。

[7] Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation

Chongcong Jiang,Tianxingjian Ding,Chuhan Song,Jiachen Tu,Ziyang Yan,Yihua Shao,Zhenyi Wang,Yuzhang Shang,Tianyu Han,Yu Tian

Main category: cs.CV

TL;DR: Medical SAM3:通过在大规模医学影像数据上微调SAM3,构建了适用于医学图像分割的通用提示驱动基础模型,显著提升了在医学领域的性能表现。

  • Motivation: 现有提示分割基础模型(如SAM3)在医学图像分割中应用受限,主要问题包括:严重的领域偏移、缺乏特权空间提示、需要处理复杂的解剖和体积结构。原始SAM3在医学数据上性能显著下降,其竞争力主要依赖于强几何先验(如真实边界框)。
  • Method: 通过完全微调SAM3模型参数,在33个数据集(涵盖10种医学成像模态)上进行训练,使用配对的2D和3D医学图像分割掩码和文本提示。这种方法使模型获得领域特定表示,同时保持提示驱动的灵活性。
  • Result: 在器官、成像模态和维度方面的广泛实验表明,Medical SAM3在具有语义模糊性、复杂形态和长距离3D上下文等挑战性场景中,取得了持续且显著的性能提升。
  • Conclusion: Medical SAM3成为医学成像的通用文本引导分割基础模型,研究强调了在严重领域偏移下,整体模型适应对于实现鲁棒提示驱动分割的重要性。

[8] FrankenMotion: Part-level Human Motion Generation and Composition

Chuqiao Li,Xianghui Xie,Yong Cao,Andreas Geiger,Gerard Pons-Moll

Main category: cs.CV

TL;DR: 提出首个具有原子级、时序感知的部分级文本标注的运动数据集,并基于此开发了部分感知的运动生成框架FrankenMotion,实现空间(身体部位)和时间(原子动作)的双重控制。

  • Motivation: 现有文本到运动生成方法主要依赖序列级或动作级描述,缺乏细粒度的部分级运动标注,限制了其对单个身体部位的可控性。
  • Method: 1. 利用大语言模型的推理能力构建高质量、具有原子级、时序感知的部分级文本标注的运动数据集;2. 提出基于扩散的部分感知运动生成框架FrankenMotion,每个身体部位由其自身的时序结构化文本提示引导。
  • Result: FrankenMotion在实验设置中优于所有先前调整和重新训练的基线模型,并且能够组合训练中未见过的运动。
  • Conclusion: 这是首个提供原子级、时序感知的部分级运动标注的工作,实现了空间(身体部位)和时间(原子动作)双重控制的运动生成,代码和数据集将在发表后公开。

[9] Classification of Chest XRay Diseases through image processing and analysis techniques

Santiago Martínez Novoa,María Catalina Ibáñez,Lina Gómez Mesa,Jeremias Kramer

Main category: cs.CV

TL;DR: 该研究综述了多分类胸部X光图像诊断方法,包括DenseNet121等模型,并开发了开源Web应用进行方法比较和性能评估。

  • Motivation: 胸部X光图像是诊断胸部疾病最常用的放射学检查方法之一,需要有效的多分类方法来自动化诊断过程,提高诊断效率和准确性。
  • Method: 研究采用多种方法(包括DenseNet121)处理多分类胸部X光图像任务,开发了开源Web应用程序,并对不同方法进行了比较测试。
  • Result: 通过测试比较了不同方法的性能表现,分析了所提出方法的局限性,并提出了未来改进的方向。
  • Conclusion: 研究提供了多分类胸部X光图像诊断方法的综述和比较,开源Web应用为实际部署提供了工具,未来需要进一步改进方法性能。

[10] Self-learned representation-guided latent diffusion model for breast cancer classification in deep ultraviolet whole surface images

Pouya Afshin,David Helminiak,Tianling Niu,Julie M. Jorns,Tina Yen,Bing Yu,Dong Hye Ye

Main category: cs.CV

TL;DR: 提出基于自监督学习的潜在扩散模型生成高质量合成DUV图像,结合真实数据微调ViT用于乳腺癌手术边缘评估,显著提升分类性能。

  • Motivation: 乳腺癌保乳手术需要精确的术中边缘评估,但深度紫外荧光扫描显微镜数据标注稀缺,限制了深度学习模型的训练效果。
  • Method: 使用自监督学习引导的潜在扩散模型生成合成训练补丁,通过微调的DINO教师模型嵌入注入细胞结构语义细节,结合真实和合成数据微调Vision Transformer,采用补丁预测聚合进行全切片图像分类。
  • Result: 5折交叉验证显示,该方法达到96.47%的准确率,FID分数降至45.72,显著优于类别条件基线方法。
  • Conclusion: 提出的SSL引导LDM方法能有效生成高质量的合成DUV数据,显著提升乳腺癌手术边缘评估的深度学习模型性能,解决了数据稀缺问题。

[11] RobuMTL: Enhancing Multi-Task Learning Robustness Against Weather Conditions

Tasneem Shaffee,Sherief Reda

Main category: cs.CV

TL;DR: 提出RobuMTL架构,通过动态选择任务特定的分层LoRA模块和LoRA专家小组来应对恶劣天气条件下的视觉退化,在多任务学习中实现自适应专业化。

  • Motivation: 现实世界环境中,恶劣天气条件会严重降低自主系统模型的性能和可靠性,需要鲁棒的多任务学习方法来应对视觉退化问题。
  • Method: 设计RobuMTL架构,采用混合专家模式,根据输入扰动动态选择任务特定的分层LoRA模块和LoRA专家小组,实现基于输入特征的自适应专业化。
  • Result: 在PASCAL数据集上,相比MTL基线,单扰动下平均相对提升+2.8%,混合天气条件下最高提升+44.4%;在NYUD-v2数据集上,跨任务平均相对提升+9.7%。
  • Conclusion: RobuMTL通过自适应选择LoRA模块和专家小组,有效提升了多任务学习在恶劣天气条件下的鲁棒性和性能,为自主系统在现实环境中的可靠运行提供了解决方案。

[12] Sparse Data Tree Canopy Segmentation: Fine-Tuning Leading Pretrained Models on Only 150 Images

David Szczecina,Hudson Sun,Anthony Bertnyk,Niloofar Azad,Kyle Gao,Lincoln Linlin Xu

Main category: cs.CV

TL;DR: 在数据稀缺的树冠检测任务中,CNN架构(YOLOv11、Mask R-CNN)比Transformer架构(Swin-UNet、DINOv2)表现更好,证实了Transformer在低数据量下需要大量预训练或增强,而轻量级CNN方法在有限图像数据上更可靠。

  • Motivation: 树冠检测对环境监测、城市规划和生态系统分析很重要,但实际应用中常面临数据标注稀缺问题。Solafune树冠检测竞赛仅提供150张标注图像的小型不平衡数据集,这对训练深度模型而不严重过拟合提出了重大挑战。
  • Method: 评估了五种代表性架构:YOLOv11、Mask R-CNN、DeepLabv3、Swin-UNET和DINOv2,在极端数据稀缺条件下评估它们对树冠分割的适用性。分析了训练策略、增强策略和模型在小数据约束下的行为。
  • Result: 实验表明,预训练的基于卷积的模型(特别是YOLOv11和Mask R-CNN)比预训练的基于Transformer的模型泛化能力显著更好。DeepLabv3、Swin-UNet和DINOv2表现不佳,可能是因为语义分割和实例分割任务之间的差异、Vision Transformers的高数据需求以及缺乏强归纳偏置。
  • Conclusion: Transformer架构在低数据量下需要大量预训练或增强才能表现良好,语义分割和实例分割任务之间的差异进一步影响模型性能。轻量级CNN方法在有限图像数据的树冠检测中仍然是最可靠的。

[13] PatientVLM Meets DocVLM: Pre-Consultation Dialogue Between Vision-Language Models for Efficient Diagnosis

K Lokesh,Abhirama Subramanyam Penamakuri,Uday Agarwal,Apoorva Challa,Shreya K Gowda,Somesh Gupta,Anand Mishra

Main category: cs.CV

TL;DR: 提出Pre-Consultation Dialogue Framework (PCDF),通过两个视觉语言模型模拟医患对话来提升医学诊断准确性,相比仅依赖图像的方法有显著改进。

  • Motivation: 传统AI医学诊断主要依赖图像分析,但缺乏患者自述症状信息限制了诊断准确性。需要模拟真实世界医生通过询问患者症状进行诊断的过程。
  • Method: 提出PCDF框架,使用两个VLM模型:DocVLM基于图像和对话历史生成后续问题,PatientVLM基于真实诊断的症状档案进行回答。通过模拟诊断对话生成训练数据,并对DocVLM进行微调。
  • Result: 生成的症状经过小规模临床验证,医生确认其临床相关性、症状覆盖度和真实性。基于对话监督的训练相比仅使用图像训练有显著提升。
  • Conclusion: PCDF框架通过模拟真实医患对话生成高质量训练数据,证明症状询问对医学诊断的重要性,为AI医疗诊断提供了新方向。

[14] MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement

Meidan Ding,Jipeng Zhang,Wenxuan Wang,Haiqin Zhong,Xiaoling Luo,Wenting Chen,Linlin Shen

Main category: cs.CV

TL;DR: MMedExpert-R1 是一个创新的医学视觉语言模型,通过领域特定适应和临床指南强化来解决现有 MedVLMs 在复杂临床推理方面的不足,在多项基准测试中达到最先进性能。

  • Motivation: 现有医学视觉语言模型擅长感知任务,但在真实临床场景所需的复杂推理方面表现不佳。现有强化学习方法面临三个关键问题:深度推理数据稀缺、冷启动限制多专科对齐、标准 RL 算法无法建模临床推理的多样性。
  • Method: 1) 构建 MMedExpert 数据集:包含 10K 样本,覆盖四个专科,提供逐步推理轨迹;2) 领域特定适应:创建专科特定的 LoRA 模块提供多样化初始化;3) 基于指南的优势:显式建模不同临床推理视角以对齐真实诊断策略;4) 冲突感知能力集成:将专科专家合并为统一智能体,确保稳健的多专科对齐。
  • Result: 在综合实验中表现出最先进的性能:7B 模型在 MedXpert-MM 上达到 27.50 分,在 OmniMedVQA 上达到 83.03 分,为可靠的医学多模态推理系统奠定了坚实基础。
  • Conclusion: MMedExpert-R1 通过领域特定适应和临床指南强化,成功解决了现有 MedVLMs 在临床推理方面的局限性,为构建可靠的多模态医学推理系统提供了有效方案。

[15] IDDR-NGP: Incorporating Detectors for Distractor Removal with Instant Neural Radiance Field

Xianliang Huang,Jiajie Gou,Shuhang Chen,Zhizhou Zhong,Jihong Guan,Shuigeng Zhou

Main category: cs.CV

TL;DR: IDDR-NGP是首个统一的干扰物去除方法,可直接在Instant-NGP上操作,能去除多种3D场景干扰物(雪花、彩纸、落叶等),而现有方法通常只针对特定类型干扰物。

  • Motivation: 现有3D场景干扰物去除方法通常只针对特定类型的干扰物,缺乏统一的解决方案。需要一种能够处理多种干扰物的通用方法,同时需要建立相关基准数据集来支持该领域研究。
  • Method: 结合隐式3D表示与2D检测器,设计LPIPS损失和多视角补偿损失(MVCL)联合优化渲染结果,能够从多视角受损图像中聚合信息,实现端到端训练以合成高质量3D场景。
  • Result: IDDR-NGP在去除多种类型干扰物方面表现出有效性和鲁棒性,与现有最先进的去雪方法结果相当,能够准确去除真实和合成的干扰物。建立了包含合成和真实世界干扰物的新基准数据集。
  • Conclusion: IDDR-NGP是首个统一的3D场景干扰物去除方法,能够有效处理多种干扰物类型,通过结合隐式3D表示和2D检测器,以及设计的损失函数,实现了高质量3D场景恢复,为该领域研究提供了新的基准。

[16] Your One-Stop Solution for AI-Generated Video Detection

Long Ma,Zihao Xue,Yan Wang,Zhiyuan Yan,Jin Xu,Xiaorui Jiang,Haiyang Yu,Yong Liao,Zhen Bi

Main category: cs.CV

TL;DR: AIGVDBench是一个全面的AI生成视频检测基准,覆盖31个最先进生成模型和44万+视频,对33个检测器进行1500+次评估,提出8个深度分析和4个新发现。

  • Motivation: 当前AI生成视频检测领域面临两个主要限制:数据集方面,现有数据集规模有限,使用过时或范围狭窄的生成模型,难以捕捉现代生成技术的多样性和快速演变;基准方面,当前基准主要停留在数据集创建阶段,缺乏系统性的深入分析。
  • Method: 提出AIGVDBench基准,覆盖31个最先进的生成模型和超过44万个视频,对33个现有检测器(属于四个不同类别)执行超过1500次评估,从多个角度进行8个深入分析。
  • Result: 该工作提出了8个深度分析并识别出4个新发现,为未来研究提供了有价值的见解。基准涵盖了广泛的生成技术和检测方法,为AI生成视频检测领域提供了坚实的基础。
  • Conclusion: AIGVDBench为推进AI生成视频检测领域提供了全面的基准,通过大规模数据集和系统性评估揭示了该领域的关键问题和未来研究方向。

[17] M3DDM+: An improved video outpainting by a modified masking strategy

Takuya Murakawa,Takumi Fukuzawa,Ning Ding,Toru Tamaki

Main category: cs.CV

TL;DR: M3DDM+改进了M3DDM视频外绘框架,通过统一训练时的掩码方向和宽度来解决训练-推理不匹配问题,显著提升了信息有限场景下的视觉质量和时间一致性。

  • Motivation: M3DDM在相机运动有限或外绘区域较大的挑战性场景中,由于帧间信息有限,会出现空间模糊和时间不一致的质量退化问题。研究发现这是由于训练时使用随机掩码方向/宽度,而推理时需要一致方向外绘导致的训练-推理不匹配。
  • Method: 提出M3DDM+,在训练时对所有帧应用统一的掩码方向和宽度,然后对预训练的M3DDM模型进行微调。这种方法保持了计算效率,同时解决了训练-推理不匹配问题。
  • Result: 实验表明,M3DDM+在信息有限场景下显著提高了视觉保真度和时间一致性,同时保持了计算效率。代码已开源。
  • Conclusion: 通过统一训练时的掩码策略来解决训练-推理不匹配,M3DDM+有效改进了M3DDM在挑战性场景下的性能,为视频外绘提供了更可靠的解决方案。

[18] PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models

Qiyuan Zhang,Biao Gong,Shuai Tan,Zheng Zhang,Yujun Shen,Xing Zhu,Yuyuan Li,Kelu Yao,Chunhua Shen,Changqing Zou

Main category: cs.CV

TL;DR: 提出首个物理感知强化学习范式用于视频生成,通过MDcycle框架在保持模型能力的同时强制执行物理碰撞规则,构建PhysRVGBench基准验证有效性。

  • Motivation: 当前基于Transformer的视频生成模型忽视了物理原理,特别是在刚体运动渲染方面存在严重局限。虽然计算机图形学和物理模拟器能轻松建模碰撞,但现代预训练-微调范式在像素级全局去噪过程中丢弃了物体刚性的概念,将正确的数学约束仅视为优化条件而非严格规则,限制了生成视频的物理真实性。
  • Method: 1. 引入首个物理感知强化学习范式,在高维空间中直接强制执行物理碰撞规则,确保物理知识被严格应用而非仅作为条件;2. 扩展为统一框架Mimicry-Discovery Cycle (MDcycle),支持大规模微调同时完全保留模型利用物理基础反馈的能力。
  • Result: 构建了新的基准测试PhysRVGBench,并通过广泛的定性和定量实验全面评估了方法的有效性。实验验证了该方法在提升视频生成物理真实性方面的显著效果。
  • Conclusion: 通过将物理规则直接融入视频生成过程,而非仅作为优化条件,该方法显著提升了生成视频的物理真实性,为物理感知的视频生成开辟了新方向。

[19] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

Shuai Tan,Biao Gong,Ke Ma,Yutong Feng,Qiyuan Zhang,Yan Wang,Yujun Shen,Hengshuang Zhao

Main category: cs.CV

TL;DR: CoDance提出Unbind-Rebind框架,解决多角色动画中任意数量、类型角色和空间错位问题,通过解绑刚性空间绑定和重新绑定运动到目标角色实现SOTA性能。

  • Motivation: 现有方法在单角色动画上表现良好,但难以处理任意数量角色、多样角色类型以及参考图像与驱动姿态之间的空间错位问题。这些限制源于过于刚性的空间绑定和无法将运动准确重新绑定到目标角色。
  • Method: 提出CoDance框架,包含Unbind模块和Rebind模块。Unbind模块使用姿态偏移编码器打破姿态与参考之间的刚性空间绑定,通过随机扰动姿态及其潜在特征学习位置无关的运动表示。Rebind模块利用文本提示的语义指导和主体掩码的空间指导,将学习到的运动引导到目标角色。
  • Result: 在新建的多角色CoDanceBench和现有数据集上的广泛实验表明,CoDance实现了SOTA性能,在多样角色和空间布局上表现出卓越的泛化能力。
  • Conclusion: CoDance通过Unbind-Rebind框架有效解决了多角色动画中的关键挑战,能够处理任意数量、类型角色和空间错位问题,为角色图像动画提供了更灵活强大的解决方案。

[20] Graph Smoothing for Enhanced Local Geometry Learning in Point Cloud Analysis

Shangbo Yuan,Jie Xu,Ping Hu,Xiaofeng Zhu,Na Zhao

Main category: cs.CV

TL;DR: 提出结合图平滑模块与增强局部几何学习模块的方法,解决3D点云分析中边界点稀疏连接和交界区域噪声连接的问题,在分类、部件分割和语义分割任务中表现优异。

  • Motivation: 现有基于图的方法在3D点云分析中能有效捕捉点间关系,但存在图结构不理想的问题,特别是在边界点处连接稀疏,在交界区域存在噪声连接,影响了分析性能。
  • Method: 1. 提出图平滑模块优化图结构,减少不可靠稀疏连接和噪声连接的负面影响;2. 基于优化后的图结构,结合局部几何信息改进特征提取函数,包括基于特征向量的自适应几何描述符提取形状特征,以及通过圆柱坐标变换获取分布特征。
  • Result: 在真实世界数据集上的实验验证了该方法在多种点云学习任务中的有效性,包括分类、部件分割和语义分割任务。
  • Conclusion: 通过集成图平滑模块与增强局部几何学习模块,能够有效解决传统图结构在边界点和交界区域的局限性,提升3D点云分析的性能。

[21] Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

Shaofeng Yin,Jiaxin Ge,Zora Zhiruo Wang,Xiuyu Li,Michael J. Black,Trevor Darrell,Angjoo Kanazawa,Haiwen Feng

Main category: cs.CV

TL;DR: VIGA通过写-运行-渲染-比较-修订的闭环流程,将视觉逆图形化任务转化为可编辑的图形程序,显著提升了一击基线性能。

  • Motivation: 当前强大的视觉语言模型缺乏细粒度的空间和物理基础能力,无法一次性实现视觉逆图形化(将图像重建为可编辑图形程序)。需要交错的多模态推理和迭代验证来弥补这一差距。
  • Method: VIGA采用闭环的写-运行-渲染-比较-修订流程,从空世界开始重建或编辑场景。结合技能库(生成器和验证器角色交替)和演化上下文记忆(包含计划、代码差异和渲染历史)。
  • Result: 在BlenderGym上提升35.32%,SlideBench上提升117.17%,BlenderBench上提升124.70%。VIGA是任务无关的,支持3D重建、多步场景编辑、4D物理交互和2D文档编辑等任务。
  • Conclusion: VIGA通过交错多模态推理和迭代执行验证,实现了视觉逆图形化,为评估异构基础视觉语言模型提供了统一协议,并在多个基准上显著超越一击基线。

[22] SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention

Ruibang Li,Guan Luo,Yiwei Zhang,Jin Gao,Bing Li,Weiming Hu

Main category: cs.CV

TL;DR: 提出SoLA-Vision,一种细粒度层间混合注意力架构,通过策略性插入少量全局softmax层,在保持线性注意力计算效率的同时提升视觉表示能力。

  • Motivation: 标准softmax注意力在视觉任务中表现出色但计算复杂度为O(N²),限制高分辨率应用;线性注意力降低到O(N)但压缩状态表示会损害建模能力和准确性。需要找到平衡计算效率和表示能力的解决方案。
  • Method: 1) 从层堆叠角度对比分析线性和softmax注意力;2) 系统实验研究层间混合模式;3) 提出SoLA-Vision,灵活层间混合注意力骨干网络,允许细粒度控制线性和softmax注意力的集成。
  • Result: 1) 细粒度层间混合比刚性块内混合设计性能更好,且需要更少softmax层;2) SoLA-Vision在ImageNet-1K上优于纯线性和其他混合注意力模型;3) 在密集预测任务中显著超越强基线模型。
  • Conclusion: 通过策略性插入少量全局softmax层,SoLA-Vision实现了准确性和计算成本之间的良好权衡,为高效高分辨率视觉模型提供了灵活可扩展的解决方案。

[23] Democratizing planetary-scale analysis: An ultra-lightweight Earth embedding database for accurate and flexible global land monitoring

Shuang Chen,Jie Wang,Shuai Yuan,Jiayang Li,Yu Xia,Yuanhong Liao,Junbo Wei,Jincheng Yuan,Xiaoqing Xu,Xiaolin Zhu,Peng Zhu,Hongsheng Zhang,Yuyu Zhou,Haohuan Fu,Huabing Huang,Bin Chen,Fan Dai,Peng Gong

Main category: cs.CV

TL;DR: ESD是一个超轻量级的30米全球地球嵌入数据库,将2000-2024年多传感器卫星观测压缩为信息密集的量化潜向量,实现340倍数据压缩,使全球陆地表面单年数据仅需2.4TB,可在标准工作站上进行十年尺度分析。

  • Motivation: 卫星地球观测系统产生了PB级数据,但巨大的计算和存储需求阻碍了全球尺度分析的广泛应用,限制了行星尺度研究。需要解决这些障碍来促进更广泛的使用。
  • Method: 使用ESDNet架构和有限标量量化(FSQ),将Landsat系列(5,7,8,9)和MODIS Terra的高维多传感器观测转换为信息密集的量化潜向量,将年度物候周期压缩为12个时间步长。
  • Result: 实现约340倍数据压缩,单年全球陆地表面数据仅需2.4TB;重建保真度高(MAE:0.0130; RMSE:0.0179; CC:0.8543);土地覆盖分类准确率达79.74%,优于原始反射率融合的76.92%;具有强大的少样本学习能力和纵向一致性。
  • Conclusion: ESD为民主化行星尺度研究和推进下一代地理空间人工智能提供了多功能基础,使全球尺度分析能够在标准本地工作站上进行,解决了大规模地球观测数据访问和分析的障碍。

[24] ATATA: One Algorithm to Align Them All

Boyi Pang,Savva Ignatyev,Vladimir Ippolitov,Ramil Khafizov,Yurii Melnik,Oleg Voynov,Maksim Nakhodnov,Aibek Alanov,Xiaopeng Fan,Peter Wonka,Evgeny Burnaev

Main category: cs.CV

TL;DR: 提出基于Rectified Flow的多模态联合推理算法,通过结构对齐视角实现配对样本的联合生成,相比现有方法更快、质量更高

  • Motivation: 现有方法要么没有从结构对齐角度考虑联合生成问题,要么使用耗时且容易模式崩溃的Score Distillation Sampling方法,需要更高效、高质量的联合生成方案
  • Method: 提出基于Rectified Flow的多模态算法,在结构化潜在空间中进行联合传输,可在任意Rectified Flow模型基础上构建,支持图像、视频和3D形状生成
  • Result: 在图像和视频生成方面达到最先进水平,在3D生成方面质量相当但速度快几个数量级,生成的配对样本具有高度结构对齐和视觉质量
  • Conclusion: 该方法为多模态联合生成提供了高效解决方案,在保持高质量的同时显著提升推理速度,特别在3D生成领域具有明显优势

[25] Bio-inspired fine-tuning for selective transfer learning in image classification

Ana Davila,Jacinto Colan,Yasuhisa Hasegawa

Main category: cs.CV

TL;DR: BioTune是一种利用进化优化的自适应微调技术,通过优化选择冻结层和调整未冻结层学习率来提升迁移学习效果,在多个图像分类数据集上优于现有方法。

  • Motivation: 深度学习需要大量标注数据,迁移学习可以解决标注数据有限的问题,但源域和目标域之间的差异会影响迁移学习效果,需要更好的自适应微调方法。
  • Method: 提出BioTune技术,利用进化优化来自适应选择哪些层应该冻结,并为未冻结层调整学习率,实现更有效的迁移学习微调。
  • Result: 在9个图像分类数据集(包括自然图像和医学影像)上评估,BioTune在准确率和效率上都优于AutoRGN和LoRA等最先进的微调方法,在4种不同CNN架构上均表现优异。
  • Conclusion: BioTune是一种灵活有效的自适应微调技术,能够适应不同的数据特性和分布变化,为迁移学习中的微调策略提供了新的解决方案。

[26] Image-Text Knowledge Modeling for Unsupervised Multi-Scenario Person Re-Identification

Zhiqi Pang,Lingling Zhao,Yang Liu,Chunyu Wang,Gaurav Sharma

Main category: cs.CV

TL;DR: 提出无监督多场景行人重识别新任务,通过图像-文本知识建模三阶段框架,利用视觉语言模型跨场景学习,在多个场景上超越现有方法。

  • Motivation: 现有行人重识别方法通常针对单一场景(如跨分辨率、换装等),缺乏统一框架处理多场景问题。需要开发能同时处理多种场景的无监督方法,提高模型泛化能力。
  • Method: 提出ITKM三阶段框架:1) 在CLIP图像编码器中引入场景嵌入,微调适应多场景;2) 优化文本嵌入与伪标签关联,使用多场景分离损失增加场景间差异;3) 引入异构匹配模块获取可靠正样本对,动态更新文本表示保持一致性。
  • Result: 在多个场景实验中,ITKM不仅超越现有场景特定方法,还能通过整合多场景知识提升整体性能,展示了优越性和泛化能力。
  • Conclusion: 提出的无监督多场景行人重识别任务和ITKM框架有效解决了跨场景学习问题,通过图像-文本知识建模实现了多场景知识的协同利用,为行人重识别领域提供了新思路。

[27] Language-Agnostic Visual Embeddings for Cross-Script Handwriting Retrieval

Fangke Chen,Tianhao Dong,Sirry Chen,Guobin Zhang,Yishu Zhang,Yining Chen

Main category: cs.CV

TL;DR: 提出轻量级非对称双编码器框架,用于跨语言手写词检索,通过联合优化实例级对齐和类级语义一致性,学习风格不变的视觉嵌入,在参数大幅减少的情况下实现SOTA性能。

  • Motivation: 手写词检索对数字档案至关重要,但由于手写变化大和跨语言语义鸿沟而具有挑战性。现有大型视觉语言模型计算成本过高,难以在实际边缘设备部署。
  • Method: 提出轻量级非对称双编码器框架,学习统一的风格不变视觉嵌入。通过联合优化实例级对齐和类级语义一致性,将视觉嵌入锚定到语言无关的语义原型,强制跨文字和书写风格的不变性。
  • Result: 在28个基线方法中表现最佳,在语言内检索基准上达到最先进准确率。在查询语言与目标语言不同的显式跨语言检索中验证了学习到的跨语言表示的有效性。仅需现有模型一小部分参数即可实现强大性能。
  • Conclusion: 该框架实现了准确且资源高效的跨文字手写检索,为实际边缘部署提供了可行的解决方案。

[28] FTDMamba: Frequency-Assisted Temporal Dilation Mamba for Unmanned Aerial Vehicle Video Anomaly Detection

Cheng-Zhuang Liu,Si-Bao Chen,Qing-Ling Shu,Chris Ding,Jin Tang,Bin Luo

Main category: cs.CV

TL;DR: 提出FTDMamba网络用于动态背景的无人机视频异常检测,包含频率解耦时空相关模块和时间扩张Mamba模块,并构建了首个大规模动态背景无人机异常检测数据集MUVAD。

  • Motivation: 现有视频异常检测方法主要针对静态背景,而动态背景的无人机视频存在多源运动耦合问题(物体运动与无人机全局运动交织),导致现有方法可能误判正常无人机运动为异常,或无法检测动态背景中隐藏的真实异常。
  • Method: 提出FTDMamba网络:1) 频率解耦时空相关模块,通过频率分析解耦耦合运动模式并建模全局时空依赖;2) 时间扩张Mamba模块,利用Mamba的序列建模能力联合学习多时间感受野下的细粒度时间动态和局部空间结构。
  • Result: 在两个公开静态基准测试和新构建的MUVAD数据集上均达到最先进性能。MUVAD数据集包含222,736帧、240个异常事件、12种异常类型,是首个大规模动态背景无人机异常检测数据集。
  • Conclusion: FTDMamba能有效处理动态背景无人机视频中的多源运动耦合问题,在静态和动态场景下均表现出色。新构建的MUVAD数据集填补了动态背景无人机异常检测研究的空白。

[29] X-Distill: Cross-Architecture Vision Distillation for Visuomotor Learning

Maanping Shao,Feihong Zhang,Gu Zhang,Baiye Cheng,Zhengrong Xue,Huazhe Xu

Main category: cs.CV

TL;DR: X-Distill通过跨架构知识蒸馏,将大型DINOv2 ViT的视觉表示转移到小型ResNet-18上,再结合扩散策略头进行微调,在数据稀缺的机器人操作任务中实现SOTA性能。

  • Motivation: 大型ViT在机器人学习中需要大量数据,而紧凑CNN在数据稀缺场景下更容易优化但泛化能力有限。需要结合两者的优势来解决机器人学习中的数据效率问题。
  • Method: 1) 在ImageNet数据集上进行离线跨架构知识蒸馏,将冻结的大型DINOv2教师模型的视觉表示转移到紧凑的ResNet-18学生模型;2) 将蒸馏后的编码器与扩散策略头在目标操作任务上联合微调。
  • Result: 在34个模拟基准和5个具有挑战性的真实世界任务上,X-Distill始终优于使用从头训练ResNet或微调DINOv2编码器的策略,甚至超越了使用特权点云观测或更大视觉语言模型的3D编码器。
  • Conclusion: 简单的跨架构知识蒸馏策略能有效实现数据高效的机器人操作,为结合大型预训练模型和紧凑架构提供了有效途径。

[30] Efficient On-Board Processing of Oblique UAV Video for Rapid Flood Extent Mapping

Vishisht Sharma,Sam Leroux,Lisa Landuyt,Nick Witvrouwen,Pieter Simoens

Main category: cs.CV

TL;DR: TTR框架通过利用无人机倾斜视频的时空冗余性,在嵌入式设备上加速视频分割,减少30%推理延迟且精度损失可忽略

  • Motivation: 无人机倾斜视频是灾害响应的主要侦察方式,但高分辨率视频流处理受到无人机SWaP(尺寸、重量、功耗)限制,标准边缘硬件无法实现低延迟推理
  • Method: 提出Temporal Token Reuse (TTR)自适应推理框架,将图像块视为token,使用轻量级相似度度量动态识别静态区域并传播预计算的深度特征,绕过冗余的骨干网络计算
  • Result: 在边缘级硬件上,TTR实现30%推理延迟降低,分割精度损失可忽略(<0.5% mIoU);在标准基准和新构建的Oblique Floodwater Dataset上验证有效
  • Conclusion: TTR有效改变了操作Pareto边界,为时间关键的遥感任务实现了高保真、实时的倾斜视频理解能力

[31] SAMannot: A Memory-Efficient, Local, Open-source Framework for Interactive Video Instance Segmentation based on SAM2

Gergely Dinya,András Gelencsér,Krisztina Kupán,Clemens Küpper,Kristóf Karacs,Anna Gelencsér-Horváth

Main category: cs.CV

TL;DR: SAMannot是一个开源本地框架,集成SAM2模型实现人机协同视频实例分割,解决手动标注耗时、云服务隐私问题,提供高效、私密、低成本的视频标注方案。

  • Motivation: 当前视频分割研究面临手动标注耗时、商业平台昂贵、云服务隐私泄露的困境,需要一种既能保证高精度又能保护隐私的本地化解决方案。
  • Method: 集成Segment Anything Model 2 (SAM2)到人机协同工作流,优化模型依赖降低计算开销,实现实例身份持久管理、"锁定-精修"工作流、基于掩码骨架化的自动提示机制。
  • Result: 工具能生成YOLO和PNG格式的研究就绪数据集及结构化交互日志,在动物行为追踪和LVOS、DAVIS基准数据集子集上验证有效,提供可扩展、私密、经济高效的视频标注方案。
  • Conclusion: SAMannot为复杂视频标注任务提供了商业平台的可行替代方案,平衡了标注精度、计算效率和隐私保护,推动了视频实例分割研究的可及性。

[32] Context-Aware Semantic Segmentation via Stage-Wise Attention

Antoine Carreaud,Elias Naha,Arthur Chansel,Nina Lahellec,Jan Skaloud,Adrien Gressin

Main category: cs.CV

TL;DR: CASWiT是一种用于超高分辨率遥感图像分割的双分支Transformer架构,通过上下文编码器和高分辨率编码器结合跨尺度融合模块,解决了传统Transformer内存消耗大的问题,并在IGN FLAIR-HUB和URUR数据集上取得了SOTA性能。

  • Motivation: 超高分辨率遥感图像分割在航空测绘和环境监测中至关重要,但传统Transformer模型面临内存消耗随token数量二次增长的问题,限制了上下文范围或空间分辨率。
  • Method: 提出CASWiT双分支Swin-based架构:1) 上下文编码器处理下采样邻域捕获长距离依赖;2) 高分辨率编码器提取UHR补丁的细节特征;3) 跨尺度融合模块结合交叉注意力和门控特征注入,用上下文丰富高分辨率token。此外提出SimMIM风格预训练,掩码75%高分辨率图像token和对应低分辨率中心区域。
  • Result: 在IGN FLAIR-HUB数据集上达到65.83% mIoU,比RGB基线提升1.78个百分点;在URUR数据集上达到49.1% mIoU,比当前SOTA提升0.9%。
  • Conclusion: CASWiT通过双分支架构和跨尺度融合有效解决了UHR图像分割中的内存限制问题,结合SimMIM预训练策略,在多个遥感数据集上实现了最先进的性能。

[33] Enhancing Vision Language Models with Logic Reasoning for Situational Awareness

Pavana Pradeep,Krishna Kant,Suya Yu

Main category: cs.CV

TL;DR: 提出结合视觉语言模型与传统计算机视觉方法,通过显式逻辑推理增强情境感知能力

  • Motivation: 视觉语言模型能生成图像视频的高级可解释描述,但在情境感知应用中需要高可靠性识别罕见重要事件,同时提取细粒度细节并评估识别质量
  • Method: 集成视觉语言模型与传统计算机视觉方法,通过显式逻辑推理实现:(a)提取细粒度事件细节,(b)采用智能微调策略(比无信息选择准确率更高),(c)在推理过程中为VLM输出生成合理性解释
  • Result: 智能微调机制提高了准确性,并在推理过程中提供了确认VLM输出有效性或指出其问题的方法
  • Conclusion: 提出的方法通过逻辑推理增强视觉语言模型,显著提升了情境感知应用中的事件识别准确性和可靠性

[34] Beer-Lambert Autoencoder for Unsupervised Stain Representation Learning and Deconvolution in Multi-immunohistochemical Brightfield Histology Images

Mark Eastwood,Thomas McKee,Zedong Hu,Sabine Tejpar,Fayyaz Minhas

Main category: cs.CV

TL;DR: 提出一种用于多路免疫组化RGB全玻片图像的染色分离方法,通过数据驱动的编码器-解码器架构学习队列特异性染色特征,生成清晰的单染色浓度图。

  • Motivation: 传统Beer-Lambert颜色反卷积方法在2-3种染色时有效,但在K>3的多路免疫组化中变得欠定且不稳定,需要新的解决方案来准确分离单个染色贡献。
  • Method: 采用无监督的编码器-解码器架构:编码器是紧凑的U-Net,预测K个非负浓度通道;解码器是可微分的Beer-Lambert前向模型,具有可学习的染色矩阵,初始化为典型色素色调。使用感知重建目标训练,并添加防止不必要染色混合的损失项。
  • Result: 在包含5种染色(H, CDX2, MUC2, MUC5, CD8)的结直肠癌多路免疫组化面板上,展示了优秀的RGB重建效果,与基于矩阵的反卷积相比显著减少了通道间渗漏。
  • Conclusion: 该方法能够有效分离多路免疫组化中的染色贡献,为染色标准化、标记物表达定量评估和细胞水平读数提供了可靠工具,代码和模型已开源。

[35] Assessing Building Heat Resilience Using UAV and Street-View Imagery with Coupled Global Context Vision Transformer

Steffen Knoblauch,Ram Kumar Muthusamy,Hao Li,Iddy Chazua,Benedcto Adamu,Innocent Maholi,Alexander Zipf

Main category: cs.CV

TL;DR: 提出一个融合无人机和街景图像的机器学习框架,通过耦合全局上下文视觉变换器学习与热相关的建筑表征,用于评估城市热暴露风险

  • Motivation: 气候变化加剧了全球南方城市中心的热暴露风险,但评估建筑热相关属性的可扩展方法仍然缺乏。需要开发能够识别建筑属性与热相关健康风险关系的工具。
  • Method: 提出双模态跨视图学习框架,融合无人机和街景图像,使用耦合全局上下文视觉变换器学习热相关表征。利用HotSat-1热红外数据量化建筑属性与热风险关系。
  • Result: 双模态方法比最佳单模态模型性能提升9.3%。植被环绕、浅色屋顶、混凝土/粘土/木材屋顶材料与较低热红外值显著相关。在坦桑尼亚达累斯萨拉姆成功部署,识别了家庭层面的热暴露不平等。
  • Conclusion: 无人机和街景图像提供互补视角,机器学习框架能有效识别建筑属性与热暴露关系,为制定公平的气候适应策略提供数据驱动的风险评估工具。

[36] Think-Clip-Sample: Slow-Fast Frame Selection for Video Understanding

Wenhui Tan,Ruihua Song,Jiaze Li,Jianzhong Ju,Zhenbo Luo

Main category: cs.CV

TL;DR: TCS是一个无需训练的长视频理解框架,通过多查询推理和片段级慢快采样提升性能,在多个基准上显著提升准确率并减少推理时间。

  • Motivation: 当前多模态大语言模型在长视频理解上受限于计算约束和次优的帧选择策略,需要更高效的框架来提升长视频理解能力。
  • Method: TCS包含两个核心组件:1) 多查询推理 - 生成多个查询以捕捉问题和视频的互补方面;2) 片段级慢快采样 - 自适应平衡密集局部细节和稀疏全局上下文。
  • Result: 在MLVU、LongVideoBench和VideoMME上的实验表明,TCS能持续提升不同MLLM的性能,最高提升6.9%准确率,并能以50%更少的推理时间达到可比准确率。
  • Conclusion: TCS在长视频理解上展示了高效性和有效性,无需额外训练即可显著提升现有MLLM的性能和效率。

[37] Heterogeneous Uncertainty-Guided Composed Image Retrieval with Fine-Grained Probabilistic Learning

Haomiao Tang,Jinpeng Wang,Minyi Zhao,Guanghao Meng,Ruisheng Luo,Long Chen,Shu-Tao Xia

Main category: cs.CV

TL;DR: 本文提出HUG(异质不确定性引导)范式,通过细粒度概率学习框架处理组合图像检索中的内在噪声和不确定性问题,显著超越现有基线方法。

  • Motivation: 组合图像检索(CIR)中的三元组存在内在噪声,导致内在不确定性并威胁模型鲁棒性。现有概率学习方法因实例级整体建模和对查询与目标的同质处理而无法有效解决CIR问题。
  • Method: 提出HUG范式:1)使用高斯嵌入表示查询和目标以捕获详细概念和不确定性;2)为多模态查询和单模态目标定制异质不确定性估计;3)设计不确定性引导目标函数,包括查询-目标整体对比和细粒度对比,配合全面的负采样策略。
  • Result: 在基准测试中,HUG超越了最先进的基线方法,实验证明了其有效性,技术贡献得到验证。
  • Conclusion: HUG通过异质不确定性引导的细粒度概率学习框架,有效解决了CIR中的内在噪声和不确定性问题,提升了模型的鲁棒性和检索性能。

[38] SUG-Occ: An Explicit Semantics and Uncertainty Guided Sparse Learning Framework for Real-Time 3D Occupancy Prediction

Hanlin Wu,Pengfei Lin,Ehsan Javanmardi,Nanren Bao,Bo Qian,Hao Si,Manabu Tsukada

Main category: cs.CV

TL;DR: SUG-Occ:一种利用语义和不确定性引导稀疏学习的3D占用预测框架,通过利用3D场景的固有稀疏性减少冗余计算,同时保持几何和语义完整性,在精度和效率上均优于基线方法。

  • Motivation: 3D语义占用预测作为自动驾驶全场景理解的关键任务,提供了体素级语义信息,但现有方法存在计算和内存开销过大的问题,阻碍了实际实时部署。需要一种既能保持几何和语义完整性又能高效计算的方法。
  • Method: 1. 利用语义和不确定性先验抑制自由空间投影,采用显式无符号距离编码增强几何一致性,生成结构一致的稀疏3D表示;2. 设计级联稀疏补全模块,通过超交叉稀疏卷积和生成上采样实现高效粗到细推理;3. 提出基于对象上下文表示(OCR)的掩码解码器,聚合稀疏特征的全局语义上下文,通过轻量级查询-上下文交互细化体素预测,避免对体积特征的昂贵注意力操作。
  • Result: 在SemanticKITTI基准测试上的广泛实验表明,该方法在精度上提升了7.34%,在效率上提升了57.8%,优于基线方法。
  • Conclusion: SUG-Occ框架通过利用3D场景的固有稀疏性,在保持几何和语义完整性的同时显著减少了计算开销,为实时3D语义占用预测提供了一种有效的解决方案。

[39] Wetland mapping from sparse annotations with satellite image time series and temporal-aware segment anything model

Shuai Yuan,Tianwu Lin,Shuang Chen,Yu Xia,Peng Qin,Xiangyu Liu,Xiaoqing Xu,Nan Xu,Hongsheng Zhang,Jie Wang,Peng Gong

Main category: cs.CV

TL;DR: WetSAM:基于SAM的框架,通过集成卫星图像时间序列和稀疏点监督进行湿地制图,采用双分支设计和双向一致性正则化,显著优于现有方法

  • Motivation: 湿地制图对生态系统监测至关重要,但密集像素级标注成本高昂,实际应用通常依赖稀疏点标签。现有深度学习模型在稀疏标签下表现不佳,且湿地强烈的季节性和年际动态变化使单日期图像不足,导致显著制图误差。虽然SAM等基础模型从点提示中显示出良好的泛化能力,但它们本质上是为静态图像设计的,无法建模时间信息,导致在异质湿地中产生碎片化掩码。
  • Method: 提出WetSAM框架:1)时间提示分支:通过分层适配器和动态时间聚合扩展SAM,从物候变异性中解耦湿地特征;2)空间分支:采用时间约束的区域生长策略生成可靠的密集伪标签;3)双向一致性正则化:联合优化两个分支
  • Result: 在八个全球区域(每个约5000平方公里)的广泛实验中,WetSAM显著优于最先进方法,平均F1分数达到85.58%,能够以最小标注工作量提供准确且结构一致的湿地分割
  • Conclusion: WetSAM展示了强大的泛化能力和可扩展、低成本、高分辨率湿地制图的潜力,通过集成时间序列信息和稀疏点监督,有效解决了湿地动态变化和标注成本高的挑战

[40] SME-YOLO: A Real-Time Detector for Tiny Defect Detection on PCB Surfaces

Meng Han

Main category: cs.CV

TL;DR: 提出SME-YOLO框架改进YOLOv11n,通过NWDLoss、EUCB上采样和MSFA注意力模块,解决PCB微小缺陷检测难题,在PKU-PCB数据集上实现SOTA性能。

  • Motivation: PCB表面缺陷直接影响产品可靠性和安全性,但检测面临三大挑战:缺陷尺寸微小、纹理相似度高、尺度分布不均匀,需要高精度检测方法。
  • Method: 基于YOLOv11n提出SME-YOLO框架:1) 使用NWDLoss缓解IoU对小目标位置偏差的敏感性;2) 用EUCB模块替换原上采样,通过多尺度卷积恢复空间分辨率;3) 提出MSFA模块,针对PCB缺陷空间分布自适应增强关键尺度感知。
  • Result: 在PKU-PCB数据集上,SME-YOLO相比基线YOLOv11n,mAP提升2.2%,Precision提升4%,达到state-of-the-art性能。
  • Conclusion: SME-YOLO通过NWDLoss、EUCB和MSFA模块有效解决了PCB微小缺陷检测的挑战,验证了所提方法的有效性,为PCB缺陷检测提供了高性能解决方案。

[41] Topology-Guaranteed Image Segmentation: Enforcing Connectivity, Genus, and Width Constraints

Wenxiao Li,Xue-Cheng Tai,Jun Liu

Main category: cs.CV

TL;DR: 提出新数学框架,将宽度信息融入拓扑结构表征,改进图像分割中的拓扑保持能力

  • Motivation: 现有拓扑先验在图像分割中缺乏宽度信息(如厚度、长度),传统数学定义和持续同调方法无法满足实际分割需求
  • Method: 结合持续同调和PDE平滑概念,修改上层集的局部极值,使拓扑结构能捕获宽度属性;将增强的拓扑描述融入变分图像分割模型,并通过损失函数设计神经网络
  • Result: 成功保持连通性和亏格数等拓扑不变量,同时确保分割结构保留线厚度和长度等关键宽度属性
  • Conclusion: 提出的框架能有效保持拓扑保真度,并将宽度特征明确嵌入分割图像结构中,数值实验验证了方法的有效性

[42] PubMed-OCR: PMC Open Access OCR Annotations

Hunter Heidenreich,Yosheb Getachew,Olivia Dinica,Ben Elliott

Main category: cs.CV

TL;DR: PubMed-OCR是一个从PubMed Central开放获取PDF中提取的科学文献OCR语料库,包含209.5K篇文章(150万页,约13亿词),提供单词、行和段落级别的边界框标注,支持布局感知建模和OCR相关研究。

  • Motivation: 构建一个专门针对科学文献的OCR语料库,以支持布局感知建模、坐标基础问答和OCR相关流程的评估,填补现有研究资源的空白。
  • Method: 从PubMed Central开放获取PDF中提取页面图像,使用Google Cloud Vision进行OCR处理,采用紧凑的JSON格式存储单词、行和段落级别的边界框标注。
  • Result: 创建了包含209.5K篇文章(150万页,约13亿词)的大规模语料库,分析了期刊覆盖范围和检测到的布局特征,并讨论了依赖单一OCR引擎和启发式行重建等局限性。
  • Conclusion: PubMed-OCR为下游研究提供了有价值的资源,支持布局感知建模和OCR相关研究,同时公开数据和模式以促进扩展和改进。

[43] Map2Thought: Explicit 3D Spatial Reasoning via Metric Cognitive Maps

Xiangjun Gao,Zhensong Zhang,Dave Zhenyu Chen,Songcen Xu,Long Quan,Eduardo Pérez-Pellitero,Youngkyoon Jang

Main category: cs.CV

TL;DR: Map2Thought是一个用于3D视觉语言模型的可解释空间推理框架,通过Metric-CogMap和Cog-CoT实现显式几何推理,在减少监督数据的情况下仍能保持高性能。

  • Motivation: 当前3D视觉语言模型缺乏显式和可解释的空间推理能力,难以理解复杂的3D几何关系和结构。需要一种能够提供明确推理过程的方法来增强3D理解的可解释性。
  • Method: 提出Map2Thought框架,包含两个核心组件:Metric-CogMap(结合离散网格和连续度量尺度表示的统一空间表示)和Cog-CoT(通过向量操作、边界框距离和遮挡感知外观顺序等确定性操作进行显式几何推理)。
  • Result: 在仅使用一半监督数据的情况下达到59.9%的准确率,接近使用完整数据集的基线(60.9%)。在VSI-Bench上,在10%、25%和50%训练子集下分别比最先进方法高出5.3%、4.8%和4.0%。
  • Conclusion: Map2Thought通过显式和可解释的空间推理框架,显著提升了3D视觉语言模型的理解能力,特别是在数据有限的情况下表现出色,为3D理解提供了新的可解释推理方法。

[44] PRISM-CAFO: Prior-conditioned Remote-sensing Infrastructure Segmentation and Mapping for CAFOs

Oishee Bintey Hoque,Nibir Chandra Mandal,Kyle Luong,Amanda Wilson,Samarth Swarup,Madhav Marathe,Abhijin Adiga

Main category: cs.CV

TL;DR: 提出一个基于基础设施优先、可解释的管道,用于从航拍和卫星图像中识别和表征集中动物饲养场(CAFOs),通过检测基础设施组件、提取结构化描述符与视觉特征融合,实现高精度分类和可解释性。

  • Motivation: 大规模畜牧业对人类健康和环境构成重大风险,且易受传染病和极端天气威胁。随着此类设施数量增长,准确且可扩展的映射变得至关重要。
  • Method: 1) 使用领域调优的YOLOv8检测器检测候选基础设施(畜舍、饲养场、粪池、筒仓),通过SAM2生成掩码并过滤组件特定标准;2) 提取结构化描述符(数量、面积、方向、空间关系)并与深度视觉特征通过轻量级空间交叉注意力分类器融合;3) 输出CAFO类型预测和掩码级归因,将决策与可见基础设施关联。
  • Result: 该方法在综合评估中达到最先进性能,Swin-B+PRISM-CAFO比最佳基线性能提升高达15%。在多样化美国区域展现出强大的预测性能,并通过系统梯度激活分析量化了领域先验的影响。
  • Conclusion: 提出的基础设施优先、可解释管道能够有效识别和表征CAFOs,为大规模畜牧业监测提供了准确、可扩展且可解释的解决方案。

[45] MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models

Xiaoran Fan,Zhichao Sun,Tao Ji,Lixing Shen,Tao Gui

Main category: cs.CV

TL;DR: MHA2MLA-VLM:一个参数高效的多模态感知框架,可将现成的视觉语言模型转换为多头部潜在注意力架构,显著减少KV缓存占用并加速推理。

  • Motivation: 随着视觉语言模型处理日益复杂的多模态任务,KV缓存的快速增长在推理过程中带来了显著的内存和计算瓶颈。虽然多头部潜在注意力(MLA)提供了压缩KV缓存和加速推理的有效手段,但如何在不进行昂贵预训练的情况下将现有VLM适配到MLA架构仍未被充分探索。
  • Method: 提出MHA2MLA-VLM框架,包含两个核心技术:1)模态自适应部分RoPE策略,通过选择性屏蔽非必要维度支持传统和多模态设置;2)模态解耦低秩近似方法,独立压缩视觉和文本KV空间。此外,引入参数高效微调以最小化适配成本,并证明最小化输出激活误差而非参数距离可显著减少性能损失。
  • Result: 在三个代表性VLM上的广泛实验表明,MHA2MLA-VLM能够以最少的监督数据恢复原始模型性能,显著减少KV缓存占用,并能与KV量化无缝集成。
  • Conclusion: MHA2MLA-VLM提供了一个参数高效且多模态感知的框架,成功将现成VLM转换为MLA架构,解决了KV缓存瓶颈问题,为实际部署提供了可行的解决方案。

[46] Generative Scenario Rollouts for End-to-End Autonomous Driving

Rajeev Yasarla,Deepti Hegde,Shizhong Han,Hsin-Pai Cheng,Yunxiao Shi,Meysam Sadeghigooghari,Shweta Mahajan,Apratim Bhattacharyya,Litian Liu,Risheek Garrepalli,Thomas Svantesson,Fatih Porikli,Hong Cai

Main category: cs.CV

TL;DR: GeRo是一个用于自动驾驶的生成式场景推演框架,通过语言条件自回归生成实现长期规划和多智能体场景推演,显著提升驾驶性能。

  • Motivation: 当前VLA模型主要依赖稀疏轨迹标注的模仿学习,未能充分发挥其作为生成模型的潜力,需要更好的方法来支持长期推理和多智能体规划。
  • Method: GeRo采用两阶段方法:1) 训练VLA模型将车辆动态编码为潜在token;2) 通过语言条件自回归生成进行场景推演,使用推演一致性损失稳定预测。
  • Result: 在Bench2Drive上,GeRo将驾驶分数和成功率分别提升+15.7和+26.2,实现了最先进的闭环和开环性能,展示了强大的零样本鲁棒性。
  • Conclusion: 生成式、语言条件推理为更安全、可解释的端到端自动驾驶提供了有前景的基础,GeRo框架展示了这一方向的潜力。

[47] ReScene4D: Temporally Consistent Semantic Instance Segmentation of Evolving Indoor 3D Scenes

Emily Steiner,Jianhao Zheng,Henry Howard-Jenkins,Chris Xie,Iro Armeni

Main category: cs.CV

TL;DR: ReScene4D:首个针对稀疏时间采样的4D室内语义实例分割方法,通过跨观测共享信息实现一致实例跟踪,在3RScan数据集上达到SOTA。

  • Motivation: 室内环境会随时间变化(物体移动、出现、消失),现有方法无法有效处理稀疏时间采样的3D扫描数据。3DSIS方法缺乏时间推理需要离散匹配,4D LiDAR方法依赖高频时间测量不适用于长期室内环境演化。
  • Method: 提出ReScene4D方法,将3DSIS架构适配到4DSIS任务,无需密集观测。通过跨观测共享信息策略,使共享上下文不仅能实现一致实例跟踪,还能提升标准3DSIS质量。
  • Result: 在3RScan数据集上达到最先进性能,定义了新指标t-mAP(扩展mAP以奖励时间身份一致性),为理解演化室内场景建立了新基准。
  • Conclusion: ReScene4D成功解决了稀疏时间4D室内语义实例分割任务,通过跨观测信息共享实现了更好的时间一致性跟踪,并为该领域建立了新的评估标准。

[48] ShapeR: Robust Conditional 3D Shape Generation from Casual Captures

Yawar Siddiqui,Duncan Frost,Samir Aroudj,Armen Avetisyan,Henry Howard-Jenkins,Daniel DeTone,Pierre Moulon,Qirui Wu,Zhengqin Li,Julian Straub,Richard Newcombe,Jakob Engel

Main category: cs.CV

TL;DR: ShapeR:从随意拍摄的图像序列生成3D物体形状的新方法,通过结合SLAM、3D检测和视觉语言模型提取多模态信息,使用整流流变换器生成高质量3D形状

  • Motivation: 现有3D形状生成方法依赖干净、无遮挡、分割良好的输入,这在现实场景中很少见。需要一种能从随意拍摄序列中生成3D形状的鲁棒方法
  • Method: 使用现成的视觉惯性SLAM、3D检测算法和视觉语言模型提取稀疏SLAM点、多视角图像和机器生成描述。训练整流流变换器以这些模态为条件生成3D形状,采用组合增强、课程训练和处理背景杂波等技术
  • Result: 在包含7个真实场景178个物体的新评估基准上,ShapeR显著优于现有方法,Chamfer距离比最先进方法提升2.7倍
  • Conclusion: ShapeR是从随意拍摄序列生成高质量3D形状的有效方法,解决了现实场景中数据不完美的挑战

[49] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

Ruiheng Zhang,Jingfeng Yao,Huangxuan Zhao,Hao Yan,Xiao He,Lei Chen,Zhou Wei,Yong Luo,Zengmao Wang,Lefei Zhang,Dacheng Tao,Bo Du

Main category: cs.CV

TL;DR: UniX是一个统一的医学基础模型,通过解耦理解和生成任务,使用自回归分支进行理解、扩散分支进行生成,并引入跨模态自注意力机制,在胸部X光图像上实现了理解和生成的协同提升。

  • Motivation: 现有的医学基础模型难以同时统一视觉理解和生成任务,因为这两个任务目标存在冲突:语义抽象与像素级重建。基于参数共享的自回归架构通常导致其中一个或两个任务性能受损。
  • Method: 1. 将理解和生成任务解耦:自回归分支用于理解,扩散分支用于高保真生成;2. 引入跨模态自注意力机制,用理解特征动态引导生成过程;3. 采用严格的数据清洗流程和多阶段训练策略。
  • Result: 在两个代表性基准测试中,UniX实现了理解性能(Micro-F1)46.1%的提升和生成质量(FD-RadDino)24.2%的增益,仅使用LLM-CXR四分之一参数的情况下,性能达到与任务特定模型相当的水平。
  • Conclusion: UniX通过解耦架构和跨模态引导机制,实现了医学图像理解和生成的协同合作,为协同医学图像理解和生成建立了可扩展的范式。

cs.RO

[50] H-AIM: Orchestrating LLMs, PDDL, and Behavior Trees for Hierarchical Multi-Robot Planning

Haishan Zeng,Peng Li

Main category: cs.RO

TL;DR: H-AIM:一种用于异构机器人团队执行长时程任务的三层级联规划框架,结合LLM语义推理与经典规划器,通过PDDL和行为树实现,在MACE-THOR基准上将任务成功率从12%提升至55%。

  • Motivation: 在具身人工智能中,异构机器人团队执行高级指令的长时程任务仍具挑战性。虽然大语言模型在指令解析和初步规划方面有潜力,但在长期推理和动态多机器人协调方面存在局限。
  • Method: 提出H-AIM三层级联架构:1) 利用LLM解析指令并生成PDDL问题描述;2) 结合LLM语义推理与经典规划器搜索能力生成优化动作序列;3) 将规划结果编译为行为树进行反应式控制。通过共享黑板机制支持动态规模异构机器人团队的通信和状态同步。
  • Result: 在MACE-THOR基准数据集(8种家庭布局的42个复杂任务)上,H-AIM将任务成功率从12%提升至55%,目标条件召回率从32%提升至72%,显著优于最强基线LaMMA-P。
  • Conclusion: H-AIM通过结合LLM的语义理解能力和经典规划器的搜索能力,有效解决了异构机器人团队的长时程任务规划问题,显著提升了任务执行的成功率和可靠性。

cs.AI

[51] Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration

Sen Wang,Bangwei Liu,Zhenkun Gao,Lizhuang Ma,Xuhong Wang,Yuan Xie,Xin Tan

Main category: cs.AI

TL;DR: 提出LMEE框架和MemoryExplorer方法,通过强化学习微调多模态大语言模型,实现主动记忆查询和探索,在长期具身任务中取得显著优势。

  • Motivation: 现有具身智能体主要关注任务完成结果,忽视了探索过程和记忆利用。理想的具身智能体应具备终身学习能力,利用长期情景记忆优化决策,处理长期复杂任务。
  • Method: 提出LMEE框架统一探索认知和决策行为,构建LMEE-Bench数据集和基准。提出MemoryExplorer方法,通过强化学习微调多模态大语言模型,采用包含动作预测、边界选择和问答的多任务奖励函数,鼓励主动记忆查询。
  • Result: 与最先进的具身探索模型相比,该方法在长期具身任务中取得了显著优势,实现了主动探索能力。
  • Conclusion: LMEE框架和MemoryExplorer方法有效解决了具身智能体在长期任务中探索和记忆利用的不足,为终身学习具身智能体发展提供了新方向。

cs.LG

[52] Matching High-Dimensional Geometric Quantiles for Test-Time Adaptation of Transformers and Convolutional Networks Alike

Sravan Danda,Aditya Challa,Shlok Mehendale,Snehanshu Saha

Main category: cs.LG

TL;DR: 提出一种与架构无关的测试时自适应方法,通过添加适配器网络预处理输入图像,使用分位数损失进行训练,匹配高维几何分位数来纠正分布偏移。

  • Motivation: 现有测试时自适应方法大多依赖修改分类器权重,与架构紧密相关,难以扩展到通用架构。需要一种架构无关的TTA方法。
  • Method: 提出架构无关的TTA方法:添加适配器网络预处理输入图像,使用分位数损失训练适配器,通过匹配高维几何分位数来纠正分布偏移。
  • Result: 在CIFAR10-C、CIFAR100-C和TinyImageNet-C数据集上验证了方法有效性,训练了经典卷积网络和Transformer网络。
  • Conclusion: 提出的架构无关TTA方法通过分位数损失学习最优适配器,能有效处理测试数据分布偏移问题,具有理论保证和实际验证。

[53] GMM-COMET: Continual Source-Free Universal Domain Adaptation via a Mean Teacher and Gaussian Mixture Model-Based Pseudo-Labeling

Pascal Schlachter,Bin Yang

Main category: cs.LG

TL;DR: 提出首个持续源自由通用域适应(continual SF-UniDA)方法GMM-COMET,通过高斯混合模型伪标签和均值教师框架处理多个未标记目标域的序列适应问题。

  • Motivation: 现实场景中,训练数据可能在适应时不可用,且源域和目标域标签空间可能不同。现有SF-UniDA方法只考虑单一域偏移,而实际应用中模型需要连续适应多个不同未标记目标域。
  • Method: 结合高斯混合模型伪标签和均值教师框架,引入一致性损失增强鲁棒性,构建GMM-COMET方法处理持续SF-UniDA问题。
  • Result: GMM-COMET在所有评估场景中持续改进源模型性能,为持续SF-UniDA提供了首个强基线方法。
  • Conclusion: 本文首次研究了持续SF-UniDA问题,提出的GMM-COMET方法在多个未标记目标域的序列适应中表现稳定,为这一新领域建立了基准。

[54] When Are Two Scores Better Than One? Investigating Ensembles of Diffusion Models

Raphaël Razafindralambo,Rémy Sun,Frédéric Precioso,Damien Garreau,Pierre-Alexandre Mattei

Main category: cs.LG

TL;DR: 扩散模型集成通常能改善分数匹配损失和模型似然,但未能一致提升图像感知质量指标如FID

  • Motivation: 尽管集成是改进监督模型的常用方法,但在无条件分数扩散模型中的应用仍未被充分探索,本研究旨在探究集成是否能为生成建模带来实际益处
  • Method: 使用深度集成、蒙特卡洛Dropout等多种聚合规则,在CIFAR-10和FFHQ数据集上测试,同时通过随机森林研究表格数据,并提供分数模型求和的理论分析
  • Result: 分数集成通常能改善分数匹配损失和模型似然,但未能一致提升FID等感知质量指标;在表格数据中发现一种聚合策略优于其他方法
  • Conclusion: 扩散模型集成在理论指标上有益,但实际感知质量提升有限,研究为模型集成和组合技术提供了理论见解

cs.CL

[55] CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation

Vanshali Sharma,Andrea Mia Bejar,Gorkem Durak,Ulas Bagci

Main category: cs.CL

TL;DR: 提出了首个统一的CT放射学报告生成(RRG)度量评估框架CTest-Metric,包含三个模块评估度量指标的临床可行性,发现现有度量指标在风格泛化、错误注入敏感性和专家相关性方面存在显著差异。

  • Motivation: 在生成式AI时代,放射学报告生成(RRG)仍依赖次优的度量指标进行质量评估。开发领域特定度量指标一直是研究热点,但由于缺乏统一的、定义良好的框架来评估其在临床环境中的稳健性和适用性,这仍然具有挑战性。
  • Method: 提出了CTest-Metric框架,包含三个模块:1)写作风格泛化性(WSG)通过LLM重写测试;2)合成错误注入(SEI)按严重程度分级;3)度量指标与专家相关性(MvE)使用临床医生对175个"分歧"病例的评分。评估了8个常用度量指标在7个基于CT-CLIP编码器的LLM上的表现。
  • Result: 研究发现:词汇NLG度量指标对风格变化高度敏感;GREEN Score与专家判断最一致(Spearman~0.70),而CRG显示负相关;BERTScore-F1对事实错误注入最不敏感。
  • Conclusion: CTest-Metric为评估CT RRG度量指标的临床可行性提供了首个统一框架,揭示了现有度量指标的局限性,并发布了框架、代码和匿名评估数据,以促进可复现的基准测试和未来度量指标开发。

q-bio.NC

[56] KOCOBrain: Kuramoto-Guided Graph Network for Uncovering Structure-Function Coupling in Adolescent Prenatal Drug Exposure

Badhan Mazumder,Lei Wu,Sir-Lord Wiafe,Vince D. Calhoun,Dong Hye Ye

Main category: q-bio.NC

TL;DR: KOCOBrain:基于Kuramoto耦合的图神经网络框架,整合结构和功能连接组,通过相位动力学和认知感知注意力提升产前药物暴露预测,揭示大脑网络协调紊乱模式。

  • Motivation: 产前接触精神活性物质(如大麻)会干扰神经发育并改变大规模脑网络,但识别其神经特征仍然具有挑战性。需要开发能够整合结构和功能连接信息的方法来更好地预测和解释这些影响。
  • Method: 提出KOCOBrain框架:1)Kuramoto层基于解剖连接模拟神经同步,生成相位感知嵌入以捕捉结构-功能耦合;2)认知评分以受试者特异性方式调节信息路由;3)采用联合目标函数增强类别不平衡情况下的鲁棒性。应用于ABCD队列数据。
  • Result: 在ABCD队列中,KOCOBrain相比相关基线方法显著提升了产前药物暴露预测性能,并揭示了可解释的结构-功能模式,这些模式反映了与早期暴露相关的大脑网络协调紊乱。
  • Conclusion: KOCOBrain提供了一个统一的图神经网络框架,能够有效整合结构和功能连接信息,不仅提高了产前药物暴露预测的准确性,还提供了对相关神经机制的可解释性洞察,有助于理解早期暴露如何影响大脑网络协调。

[57] Simple Models, Rich Representations: Visual Decoding from Primate Intracortical Neural Signals

Matteo Ciferri,Matteo Ferrante,Nicola Toschi

Main category: q-bio.NC

TL;DR: 该研究系统评估了从灵长类动物皮层记录中解码视觉信息的各种方法,发现建模神经信号的时间动态比架构复杂性更重要,并开发了一个结合潜在重建和条件扩散的生成解码框架。

  • Motivation: 理解神经活动如何产生感知是神经科学的核心挑战。研究旨在解决从灵长类动物高密度皮层记录中解码视觉信息的问题,为脑机接口和语义神经解码提供原则。
  • Method: 使用THINGS腹侧流尖峰数据集,系统评估模型架构、训练目标和数据缩放对解码性能的影响。开发了结合时间注意力和浅层MLP的简单模型,并构建了模块化生成解码管道,结合低分辨率潜在重建和语义条件扩散。
  • Result: 解码准确率主要受神经信号时间动态建模驱动而非架构复杂性。简单的时间注意力+MLP模型达到70%的top-1图像检索准确率,优于线性基线、循环和卷积方法。缩放分析显示输入维度和数据集大小增加时存在可预测的收益递减。生成解码管道能从200ms脑活动中生成合理图像。
  • Conclusion: 该研究为脑机接口和语义神经解码提供了原则性框架,表明建模时间动态是关键,而架构复杂性相对次要。生成解码方法展示了从短暂神经活动中重建视觉信息的可行性。

cs.NE

[58] Line-based Event Preprocessing: Towards Low-Energy Neuromorphic Computer Vision

Amélie Gruel,Pierre Lewden,Adrien F. Vincent,Sylvain Saïghi

Main category: cs.NE

TL;DR: 论文提出了一种基于线段的事件数据预处理方法,通过减少事件数量来降低神经形态视觉系统的能耗,同时保持或提高分类性能。

  • Motivation: 神经形态视觉系统在处理动态视觉数据时具有生物启发性、节能、低延迟和内存占用少等优势,但嵌入式应用中的能耗优化仍是挑战。事件数量与突触操作数量成正比,因此减少事件数量可以降低硬件能耗。
  • Method: 扩展了端到端的神经形态线段检测机制,引入了基于线段的事件数据预处理方法。通过线段提取来减少事件数量,从而降低后续神经形态处理的能耗。
  • Result: 在三个基准事件数据集上的实验表明,预处理能在能耗和分类性能之间取得有利的权衡。根据线段预处理策略和分类任务的复杂度,可以保持或提高分类准确率,同时显著降低理论能耗。
  • Conclusion: 该方法系统地提高了神经形态分类的效率,为通过事件预处理实现更节能的神经形态计算机视觉奠定了基础。

cs.CR

[59] VidLeaks: Membership Inference Attacks Against Text-to-Video Models

Li Wang,Wenyu Chen,Ning Yu,Zheng Li,Shanqing Guo

Main category: cs.CR

TL;DR: VidLeaks:首个针对文本到视频模型的成员推理攻击框架,通过空间重建保真度和时间生成稳定性检测稀疏-时间记忆泄露

  • Motivation: 随着强大的文本到视频模型在大型网络数据集上训练,引发了版权和隐私侵犯的紧迫担忧。现有成员推理攻击技术设计用于静态数据如图像或文本,无法捕捉视频生成的时空复杂性,忽略了关键帧中记忆信号的稀疏性和随机时间动态引入的不稳定性。
  • Method: 提出VidLeaks框架,通过两种互补信号探测稀疏-时间记忆:1) 空间重建保真度(SRF),使用Top-K相似度放大稀疏记忆关键帧的空间记忆信号;2) 时间生成稳定性(TGS),测量多个查询间的语义一致性以捕捉时间泄露。在三种渐进限制的黑盒设置下评估:监督、基于参考和仅查询。
  • Result: 在三个代表性T2V模型上的实验显示严重漏洞:VidLeaks在严格的仅查询设置下,在AnimateDiff上达到82.92% AUC,在InstructVideo上达到97.01% AUC,构成现实且可利用的隐私风险。
  • Conclusion: 这是首个提供具体证据表明T2V模型通过稀疏和时间记忆泄露大量成员信息的研究,为审计视频生成系统奠定了基础,并推动了新防御机制的发展。

eess.SP

[60] Differentiating through binarized topology changes: Second-order subpixel-smoothed projection

Giuseppe Romano,Rodrigo Arrieta,Steven G. Johnson

Main category: eess.SP

TL;DR: 提出SSP2方法,通过Hessian正则化解决拓扑优化中拓扑变化时不可微问题,保证二阶可微性,提升收敛性

  • Motivation: 拓扑优化中可制造结构本质上是二值的,与基于梯度的优化存在根本矛盾。现有SSP方法在拓扑变化(如界面合并)时无法保证可微性,违反了许多流行梯度优化算法的收敛保证。
  • Method: 提出二阶SSP(SSP2)方法,通过对滤波场的Hessian进行正则化,在拓扑变化期间实现投影密度的二阶可微性,同时保证几乎处处二值结构。
  • Result: 在热学和光子学问题上验证了SSP2的有效性,显示在连接主导(频繁拓扑变化)的情况下比SSP收敛更快,其他情况下性能相当。SSP2还能支持更广泛的优化算法。
  • Conclusion: SSP2解决了拓扑优化中拓扑变化时的可微性问题,提升了收敛保证,可作为现有拓扑优化代码的直接替代方案,支持更多具有更强理论保证的优化算法。

eess.IV

[61] Convolutions Need Registers Too: HVS-Inspired Dynamic Attention for Video Quality Assessment

Mayesha Maliha R. Mithila,Mylene C. Q. Farias

Main category: eess.IV

TL;DR: DAGR-VQA提出首个将寄存器令牌直接集成到卷积骨干网络中的NR-VQA框架,通过动态注意力机制生成时变显著性图,无需显式运动估计,在多个数据集上表现优异且计算高效。

  • Motivation: 现有NR-VQA方法虽然利用显著性或Transformer注意力,但仅通过静态图作为辅助输入处理视频信号的全局上下文,未能将上下文从根本上嵌入视频序列的特征提取中。
  • Method: 提出DAGR-VQA框架,将可学习的寄存器令牌作为全局上下文载体嵌入卷积骨干网络,实现动态的HVS启发式注意力,生成时变自适应显著性图。将动态显著性图与RGB输入结合,通过时间Transformer分析时空数据。
  • Result: 在LSVQ、KonVid-1k、LIVE-VQC和YouTube-UGC数据集上表现优异,超越大多数顶级基线。消融研究表明寄存器令牌促进了稳定且时间一致的注意力机制发展。在1080p分辨率下达到387.7 FPS,适合实时应用。
  • Conclusion: DAGR-VQA是首个将寄存器令牌直接集成到卷积骨干网络中的NR-VQA框架,通过动态注意力机制有效跟踪视频中的显著区域,实现了计算高效且感知一致的视频质量评估。

[62] Visual question answering-based image-finding generation for pulmonary nodules on chest CT from structured annotations

Maiko Nagao,Kaito Urata,Atsushi Teramoto,Kazuyoshi Imaizumi,Masashi Kondo,Hiroshi Fujita

Main category: eess.IV

TL;DR: 基于LIDC-IDRI数据集构建胸部CT图像的视觉问答数据集,开发交互式诊断支持系统,可根据医生兴趣生成影像发现描述

  • Motivation: 传统影像诊断通常提供固定的描述,无法根据医生具体关注点动态生成发现。需要开发交互式诊断支持系统,能够根据医生提出的问题生成针对性的影像发现描述
  • Method: 1. 从LIDC-IDRI数据集中提取肺结节周围的感兴趣区域;2. 基于数据库中记录的形态学特征定义影像发现和问题;3. 构建包含裁剪图像、对应问题和影像发现的数据集;4. 在该数据集上微调VQA模型;5. 使用BLEU等语言评估指标评估生成的影像发现
  • Result: 1. 构建的VQA数据集包含具有自然放射学描述的影像发现;2. 生成的影像发现获得CIDEr评分3.896的高分;3. 基于形态学特征的评估显示与参考发现高度一致
  • Conclusion: 提出的方法有效构建了胸部CT图像的VQA数据集,并开发了能够根据医生兴趣生成影像发现的交互式诊断支持系统,评估结果证明了该方法的有效性

[63] Generation of Chest CT pulmonary Nodule Images by Latent Diffusion Models using the LIDC-IDRI Dataset

Kaito Urata,Maiko Nagao,Atsushi Teramoto,Kazuyoshi Imaizumi,Masashi Kondo,Hiroshi Fujita

Main category: eess.IV

TL;DR: 提出基于潜在扩散模型(LDM)的胸部CT结节图像生成方法,通过文本提示生成具有特定医学特征的结节图像,解决了临床数据不平衡问题。

  • Motivation: 临床实践中难以收集大量特定病例的CT图像(如低发病率的小细胞癌或难以区分良恶性的肿瘤),导致数据不平衡问题。现有计算机辅助诊断系统性能严重依赖训练数据的质量和数量。
  • Method: 使用LIDC-IDRI数据集创建结节图像与基于医生评估的文本提示对。采用Stable Diffusion v1.5和v2.0两种LDM模型进行微调,在生成过程中调整指导尺度(GS)来控制文本一致性。
  • Result: 定量和主观评估显示SDv2(GS=5)在图像质量、多样性和文本一致性方面表现最佳。主观评估中生成图像与真实图像无统计学显著差异,质量与真实临床图像相当。
  • Conclusion: 提出的基于LDM的胸部CT结节图像生成方法能够生成高质量图像,成功捕捉特定医学特征,为解决临床数据不平衡问题提供了有效方案。