Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Characterizing Motion Encoding in Video Diffusion Timesteps
Vatsal Baherwani,Yixuan Ren,Abhinav Shrivastava
Main category: cs.CV
TL;DR: 本文通过大规模定量研究揭示了视频扩散模型中运动编码的时间特性,发现早期时间步主要控制运动,后期时间步主要控制外观,并基于此简化了运动定制方法。
- Motivation: 尽管文本到视频扩散模型通过迭代去噪合成时空运动,但运动如何在时间步中被编码仍不清楚。实践中常用启发式方法认为早期时间步主要塑造运动和布局,后期时间步细化外观,但这一行为缺乏系统表征。
- Method: 通过在不同时间步范围注入新条件引起的编辑效果与运动保持之间的权衡来代理运动编码,进行大规模定量研究。将运动与外观在去噪轨迹上的竞争关系进行定量映射,识别出运动主导和外观主导的时间段。
- Result: 在不同架构中一致识别出早期运动主导阶段和后期外观主导阶段,得到时间步空间中的运动-外观边界。基于此简化当前一次性运动定制范式,将训练和推理限制在运动主导阶段,无需辅助去偏模块或专门目标函数即可实现强运动迁移。
- Conclusion: 将广泛使用的启发式方法转化为时空解耦原则,时间步约束方法可作为现有运动迁移和编辑方法的即插即用集成方案。
[2] Real-Time American Sign Language Recognition Using 3D Convolutional Neural Networks and LSTM: Architecture, Training, and Deployment
Dawnena Key
Main category: cs.CV
TL;DR: 基于3D CNN与LSTM混合架构的实时美式手语识别系统,通过视频流处理实现单词级手语识别,在多个数据集上达到0.71-0.99的F1分数,支持云端和边缘部署。
- Motivation: 为全球超过7000万聋哑和听力障碍人士解决沟通障碍问题,开发实时手语识别系统以促进无障碍交流。
- Method: 采用3D CNN提取视频帧的时空特征,结合LSTM层建模手语手势的序列依赖性,在WLASL、ASL-LEX等数据集上训练,部署于AWS云平台和OAK-D边缘摄像头。
- Result: 在2,000个常用单词的WLASL数据集、约2,700个手势的ASL-LEX数据库及100个专家标注的手语数据集上,系统在不同手势类别上获得0.71-0.99的F1分数。
- Conclusion: 混合深度学习架构能有效识别美式手语,系统具备实时处理能力,为实际无障碍应用提供了可行的技术方案。
[3] Enhancing Medical Data Analysis through AI-Enhanced Locally Linear Embedding: Applications in Medical Point Location and Imagery
Hassan Khalid,Muhammad Mahad Khaliq,Muhammad Jawad Bashir
Main category: cs.CV
TL;DR: 提出一种结合AI与局部线性嵌入(LLE)的创新方法,用于处理高维医疗数据,旨在提升医疗账单和转录服务的准确性与效率。
- Motivation: 人工智能在医疗领域的快速发展为改善医疗流程(包括账单和转录)创造了机会。传统方法在处理高维医疗数据时存在准确性和效率不足的问题,需要更先进的解决方案。
- Method: 开发AI增强的LLE模型,专门针对医疗账单系统和转录服务进行优化。该方法通过自动化处理减少人为错误,简化操作流程,并提供了完整的数学模型。
- Result: 实验结果显示,该方法在数据处理准确性和操作效率方面均有显著提升,验证了AI增强LLE在医疗数据分析中的有效性。
- Conclusion: AI增强LLE模型在医疗数据分析和处理方面展现出巨大潜力,为未来更广泛的医疗应用研究奠定了基础。
[4] Unbiased Visual Reasoning with Controlled Visual Inputs
Zhaonan Li,Shijie Lu,Fei Wang,Jacob Dineen,Xiao Ye,Zhikun Xu,Siyi Liu,Young Min Cho,Bangzheng Li,Daniel Chang,Kenny Nguyen,Qizheng Yang,Muhao Chen,Ben Zhou
Main category: cs.CV
TL;DR: VISTA是一个模块化视觉语言框架,通过信息瓶颈将感知与推理解耦,使用冻结的VLM传感器进行客观感知查询,文本LLM进行推理分解,通过强化学习训练无偏视觉推理,显著提升对虚假相关性的鲁棒性。
- Motivation: 端到端视觉语言模型(VLMs)在回答视觉问题时容易利用虚假相关性而非因果视觉证据,微调后更容易走捷径,需要解决这种偏见问题。
- Method: 提出VISTA框架:1)冻结的VLM传感器仅进行简短客观的感知查询;2)纯文本LLM推理器分解问题、规划查询、聚合视觉事实;3)通过强化学习(GRPO)在仅641个多步问题上训练无偏视觉推理。
- Result: 在SpuriVerse上显著提升鲁棒性(Qwen-2.5-VL-7B提升16.29%,Llama-3.2-Vision-11B提升6.77%),在MMVP和SeedBench子集保持竞争力,能跨传感器迁移并识别感知失败,人类分析显示推理更中立、更少依赖虚假属性、更明确基于视觉证据。
- Conclusion: VISTA通过感知-推理解耦和强化学习训练,有效减少视觉语言模型对虚假相关性的依赖,提升推理的鲁棒性和可解释性,为构建更可靠的视觉推理系统提供了新方向。
[5] SAMM2D: Scale-Aware Multi-Modal 2D Dual-Encoder for High-Sensitivity Intracrania Aneurysm Screening
Antara Titikhsha,Divyanshu Tak
Main category: cs.CV
TL;DR: SAMM2D是一个用于颅内动脉瘤检测的双编码器框架,在RSNA数据集上实现了0.686的AUC,比临床基线提高了32%。研究发现,在强预训练骨干网络下,任何数据增强都会降低性能,推翻了"更多增强总是更好"的假设。
- Motivation: 动脉瘤检测面临形态细微、类别不平衡严重和标注数据稀缺的挑战,需要开发更有效的检测方法来预防致命性出血。
- Method: 提出SAMM2D双编码器框架,使用ImageNet预训练骨干网络,通过六种增强方案的消融实验发现,无增强的基线模型性能最佳。通过决策阈值校准实现95%灵敏度。
- Result: AUC达到0.686,比临床基线提高32%;无增强模型优于所有增强变体1.75-2.23个百分点;95%灵敏度超过平均放射科医生水平;在筛查应用中每1000名患者可节省1390万美元;85%真阳性关注相关血管区域。
- Conclusion: 强预训练特征已捕获鲁棒不变性,额外增强既冗余又破坏特征流形。未来医学影像工作流可能从强预训练中获益更多,而非复杂的增强流程。
[6] HookMIL: Revisiting Context Modeling in Multiple Instance Learning for Computational Pathology
Xitong Ling,Minxi Ouyang,Xiaoxiao Li,Jiawen Li,Ying Chen,Yuxuan Sun,Xinrui Chen,Tian Guan,Xiaoping Liu,Yonghong He
Main category: cs.CV
TL;DR: HookMIL提出了一种基于可学习hook tokens的多实例学习框架,用于计算病理学中的全切片图像分析,通过多模态初始化、线性复杂度注意力机制和多样性损失,在保持上下文信息的同时提高计算效率和性能。
- Motivation: 传统MIL方法在计算病理学中会丢失重要的上下文信息,而基于transformer的变体虽然表达能力更强,但存在二次复杂度和冗余计算的问题。需要一种既能保持上下文信息又计算高效的解决方案。
- Method: 1. 使用可学习的hook tokens进行结构化上下文聚合;2. 支持三种初始化方式:关键patch视觉特征、视觉语言病理模型的文本嵌入、空间转录组-视觉模型的空间特征;3. 通过双向注意力机制与实例交互,具有线性复杂度;4. 引入Hook Diversity Loss促进token专业化;5. 采用hook-to-hook通信机制优化上下文交互。
- Result: 在四个公开病理数据集上的实验表明,HookMIL实现了最先进的性能,同时提高了计算效率和可解释性。
- Conclusion: HookMIL通过创新的hook tokens设计,成功解决了传统MIL方法上下文信息丢失和transformer方法计算复杂的问题,为计算病理学提供了高效且性能优越的弱监督学习框架。
[7] Tiny-YOLOSAM: Fast Hybrid Image Segmentation
Kenneth Xu,Songhan Wu
Main category: cs.CV
TL;DR: 提出Tiny-YOLOSAM混合管道,结合YOLO检测器和TinySAM,通过检测器生成框提示和稀疏点提示,显著提升分割覆盖率和速度,替代密集的"分割一切"模式。
- Motivation: SAM模型计算开销大,不适合延迟敏感场景。TinySAM虽然轻量化,但其"分割一切"模式仍需要数百个提示且速度慢,需要更高效的解决方案。
- Method: 首先复现TinySAM建立基准,然后提出Tiny-YOLOSAM混合管道:使用YOLOv12检测器生成前景对象的框提示,对未覆盖区域仅采样稀疏点提示,避免密集提示。
- Result: 在COCO val2017上,类不可知覆盖度显著提升(AR从16.4%到77.1%,mIoU从19.2%到67.8%),端到端运行时间从49.20秒/图像减少到10.39秒/图像(4.7倍加速)。
- Conclusion: 检测器引导的提示结合目标稀疏采样是实际全场景分割中替代密集"分割一切"提示的有效方法,在保持质量的同时大幅提升效率。
[8] Quadrant Segmentation VLM with Few-Shot Adaptation and OCT Learning-based Explainability Methods for Diabetic Retinopathy
Shivum Telang
Main category: cs.CV
TL;DR: 提出一种新型多模态可解释性模型,结合VLM和少样本学习,通过分析视网膜象限内病变分布来模拟眼科医生的推理过程,为糖尿病视网膜病变诊断提供定量检测和自然语言解释。
- Motivation: 糖尿病视网膜病变是全球视力丧失的主要原因,需要早期检测。医生缺乏时间进行手动病变标注,现有模型仅突出病变位置而无法解释分类推理,且依赖单一成像模态效果有限。需要一种能够识别个体DR病变并提供自然语言解释的定量检测系统。
- Method: 采用多模态可解释性模型,结合视觉语言模型(VLM)和少样本学习,分析视网膜象限内的病变分布。模型生成配对Grad-CAM热图,展示OCT和眼底图像中单个神经元的权重,可视化显示对DR严重程度分类有贡献的区域。
- Result: 使用包含3,000张眼底图像和1,000张OCT图像的数据集,该方法解决了当前DR诊断的关键限制,为改善患者预后提供了实用且全面的工具。
- Conclusion: 该创新方法通过模拟眼科医生的推理过程,提供多模态可解释性,克服了现有模型的局限性,在筛查、治疗和研究环境中具有广泛的应用潜力。
[9] TCFormer: A 5M-Parameter Transformer with Density-Guided Aggregation for Weakly-Supervised Crowd Counting
Qiang Guo,Rubo Zhang,Bingbing Zhang,Junjie Liu,Jianqing Liu
Main category: cs.CV
TL;DR: TCFormer:一个仅有500万参数的轻量级弱监督Transformer人群计数框架,在资源受限环境中实现高效准确的人群计数
- Motivation: 传统人群计数方法依赖劳动密集的点级标注和计算密集的骨干网络,限制了其在资源受限环境中的可扩展性和部署。需要开发轻量级、弱监督的解决方案。
- Method: 1) 采用高效视觉Transformer作为特征提取器;2) 设计可学习密度加权平均模块,根据预测密度分数动态重加权局部token;3) 引入密度级别分类损失,将人群密度离散化为不同等级,增强模型对不同密度级别的分类能力。
- Result: 在ShanghaiTech A/B、UCF-QNRF和NWPU四个基准数据集上的实验表明,TCFormer在参数效率和计数准确性之间取得了优越的平衡,适合边缘设备部署。
- Conclusion: TCFormer通过弱监督训练(仅使用图像级全局计数)和联合优化计数与密度级别损失,实现了高估计精度,为边缘设备上的人群计数任务提供了良好解决方案。
[10] A CNN-Based Malaria Diagnosis from Blood Cell Images with SHAP and LIME Explainability
Md. Ismiel Hossen Abir,Awolad Hossain
Main category: cs.CV
TL;DR: 本文提出了一种基于自定义卷积神经网络(CNN)的深度学习方法来自动分类疟疾血细胞图像,达到96%的准确率,并利用可解释AI技术提高模型透明度。
- Motivation: 疟疾在热带和亚热带地区仍是严重的健康问题。传统诊断方法(如显微镜血涂片分析)灵敏度低、依赖专家判断,且在偏远地区资源有限。需要一种快速、准确且可解释的自动诊断方案。
- Method: 采用自定义卷积神经网络(CNN)对血细胞图像进行自动分类(寄生/未感染)。同时与ResNet50、VGG16、MobileNetV2、DenseNet121等经典架构进行对比。应用SHAP、LIME和显著性图等可解释AI技术增强模型透明度。
- Result: 自定义CNN模型达到96%的准确率,两个类别的精确率和召回率均超过0.95。模型在资源有限地区显示出快速、准确的诊断潜力。
- Conclusion: 深度学习可为疟疾诊断提供快速、准确且可理解的解决方案,特别适用于资源有限地区。可解释AI技术增强了模型的透明度和可信度。
[11] Signal-SGN++: Topology-Enhanced Time-Frequency Spiking Graph Network for Skeleton-Based Action Recognition
Naichuan Zheng,Xiahai Lun,Weiyi Li,Yuchen Du
Main category: cs.CV
TL;DR: Signal-SGN++:一种拓扑感知的脉冲图框架,通过结合结构自适应与时空频脉冲动力学,在保持高能效的同时提升骨骼动作识别性能。
- Motivation: 传统图卷积网络(GCNs)在骨骼动作识别中计算能耗高,而脉冲神经网络(SNNs)虽然能效高,但难以捕捉人体运动的时空频耦合依赖和拓扑关系。需要一种能兼顾能效和性能的方法。
- Method: 提出Signal-SGN++框架,包含:1)1D脉冲图卷积(1D-SGC)和频率脉冲卷积(FSC)主干网络进行时空频特征提取;2)拓扑转移自注意力(TSSA)机制自适应学习骨骼拓扑注意力;3)多尺度小波变换融合(MWTF)分支和拓扑感知时空频融合(TATF)单元进行多分辨率特征融合。
- Result: 在大规模基准测试中,Signal-SGN++实现了优越的准确率-效率权衡,超越了现有的SNN方法,并在显著降低能耗的情况下达到了与最先进GCNs竞争的结果。
- Conclusion: Signal-SGN++成功地将拓扑感知与脉冲动力学相结合,为骨骼动作识别提供了一种高效且高性能的解决方案,在保持低能耗的同时实现了与先进GCNs相当的性能。
[12] VLM-PAR: A Vision Language Model for Pedestrian Attribute Recognition
Abdellah Zakaria Sellam,Salah Eddine Bekhouche,Fadi Dornaika,Cosimo Distante,Abdenour Hadid
Main category: cs.CV
TL;DR: VLM-PAR:基于冻结SigLIP 2多语言编码器的视觉语言框架,通过跨模态精炼解决行人属性识别中的类别不平衡和领域偏移问题,在多个基准测试中达到SOTA性能。
- Motivation: 行人属性识别面临严重类别不平衡、复杂属性依赖关系和领域偏移等挑战,需要更鲁棒的解决方案来提升识别准确性和泛化能力。
- Method: 基于冻结的SigLIP 2多语言编码器构建模块化视觉语言框架,通过紧凑的交叉注意力融合精炼视觉特征,实现图像和提示嵌入的对齐。
- Result: 在高度不平衡的PA100K基准测试中取得显著精度提升,达到新的SOTA性能;在PETA和Market-1501基准测试中也获得显著的平均精度提升。
- Conclusion: 将大规模视觉语言预训练与针对性跨模态精炼相结合,能有效克服行人属性识别中的不平衡和泛化挑战,为PAR领域提供了有效的解决方案。
[13] Towards Signboard-Oriented Visual Question Answering: ViSignVQA Dataset, Method and Benchmark
Hieu Minh Nguyen,Tam Le-Thanh Dang,Kiet Van Nguyen
Main category: cs.CV
TL;DR: ViSignVQA是首个大规模越南语招牌视觉问答数据集,包含10,762张图片和25,573个问答对,通过集成越南语OCR和语言模型提升VQA性能,并提出了多智能体框架达到75.98%准确率。
- Motivation: 自然场景中的招牌文本理解对VQA实际应用至关重要,但在低资源语言(如越南语)中尚未充分探索。现有VQA数据集缺乏针对越南语招牌的多样化语言、文化和视觉特征。
- Method: 1) 创建ViSignVQA数据集,包含越南招牌图像及问答对;2) 集成越南语OCR模型(SwinTextSpotter)和预训练语言模型(ViT5)到SOTA VQA模型中;3) 提出多智能体VQA框架,结合感知和推理智能体与GPT-4。
- Result: OCR增强上下文显著提升性能,将OCR文本附加到问题后F1分数提升高达209%;多智能体框架通过多数投票达到75.98%准确率;建立了首个越南语招牌理解的大规模多模态数据集基准。
- Conclusion: 研究强调了领域特定资源对提升低资源语言文本VQA的重要性,ViSignVQA作为基准数据集支持越南语OCR集成VQA模型的开发和评估,捕捉了真实世界场景文本特征。
[14] On Extending Semantic Abstraction for Efficient Search of Hidden Objects
Tasha Pais,Nikhilesh Belulkar
Main category: cs.CV
TL;DR: 提出Semantic Abstraction框架,利用2D视觉语言模型的相关性激活作为"抽象物体"表示,学习隐藏物体的3D定位和补全,显著提高寻找隐藏物体的效率。
- Motivation: 为家庭机器人提供寻找隐藏/丢失物体的技能,减少时间和精力消耗。隐藏物体指被部分遮挡、无法被视觉语言模型直接识别的物体。
- Method: 将2D VLM的相关性激活图视为"抽象物体"表示,用于学习隐藏物体的3D定位和补全。利用历史数据(物体常放置位置)进行非结构化搜索优化。
- Result: 模型能准确识别隐藏物体的完整3D位置,首次尝试成功率显著高于随机搜索,搜索速度更快。
- Conclusion: Semantic Abstraction扩展为家庭机器人提供了高效寻找隐藏物体的能力,有望节省时间和精力。
[15] VideoScaffold: Elastic-Scale Visual Hierarchies for Streaming Video Understanding in MLLMs
Naishan Zheng,Jie Huang,Qingpei Guo,Feng Zhao
Main category: cs.CV
TL;DR: VideoScaffold:针对流式视频理解的动态表征框架,通过弹性尺度事件分割和分层事件整合,自适应调整事件粒度,实现从细粒度帧理解到抽象事件推理的平滑过渡。
- Motivation: 现有静态策略(如稀疏采样、帧压缩、聚类)针对离线场景优化,应用于连续视频流时会产生碎片化或过度压缩的输出,难以实现时间连贯的表征。
- Method: 提出VideoScaffold框架,包含两个核心组件:1)弹性尺度事件分割(EES):通过预测引导的分割动态优化事件边界;2)分层事件整合(HEC):逐步将语义相关片段聚合成多层次抽象。
- Result: 在离线和流式视频理解基准测试中达到最先进性能,框架模块化且即插即用,能无缝扩展现有基于图像的多模态大语言模型到连续视频理解。
- Conclusion: VideoScaffold通过动态调整事件粒度并保留细粒度视觉语义,有效解决了流式视频理解中的冗余性和时间连贯性问题,为连续视频流分析提供了高效解决方案。
[16] KAN-FPN-Stem:A KAN-Enhanced Feature Pyramid Stem for Boosting ViT-based Pose Estimation
HaoNan Tang
Main category: cs.CV
TL;DR: 提出KAN增强的FPN-Stem架构,通过用KAN卷积层替换传统FPN的线性平滑卷积,解决ViT前端的特征融合瓶颈,在COCO数据集上比ViTPose-S提升2.0 AP
- Motivation: Vision Transformers在密集预测任务中表现受限,主要原因是前端设计过于简单。传统的patchification机制难以有效处理多尺度变化,并在初始特征提取阶段造成不可逆的信息损失。研究发现性能瓶颈不在于注意力模块,而在于FPN中的后融合非线性平滑步骤
- Method: 保留经典的FPN"上采样-相加"融合流,但将其末端的标准线性3x3平滑卷积替换为基于KAN的卷积层。利用KAN优越的非线性建模能力,自适应学习和校正多尺度融合过程中产生的"伪影"
- Result: 在COCO数据集上的大量实验表明,KAN-FPN-Stem比轻量级ViTPose-S基线实现了高达+2.0 AP的显著性能提升
- Conclusion: 这项工作不仅提供了一个即插即用的高性能模块,更重要的是揭示了:ViT前端的性能瓶颈通常不在于"特征细化"(注意力),而在于"特征融合"的质量。此外,通过引入KAN算子为解决这一瓶颈提供了有效途径
[17] Meta-information Guided Cross-domain Synergistic Diffusion Model for Low-dose PET Reconstruction
Mengxiao Geng,Ran Hong,Xiaoling Xu,Bingxuan Li,Qiegen Liu
Main category: cs.CV
TL;DR: 提出MiG-DM模型,通过元信息引导的跨域协同扩散模型,整合多模态先验知识提升低剂量PET成像质量
- Motivation: 低剂量PET成像面临噪声干扰、对比度降低和生理细节难以保留的挑战,现有方法往往忽视投影域物理知识和患者特定元信息,而这些对于功能语义关联挖掘至关重要
- Method: 提出元信息引导的跨域协同扩散模型(MiG-DM):1) 元信息编码模块将临床参数转化为语义提示,考虑患者特征、剂量相关信息和半定量参数;2) 跨域架构结合投影域和图像域处理,投影域使用专门的sinogram适配器通过卷积操作捕获全局物理结构
- Result: 在UDPET公共数据集和不同剂量水平的临床数据集上实验表明,MiG-DM在提升PET图像质量和保留生理细节方面优于现有最先进方法
- Conclusion: MiG-DM通过整合跨模态先验知识和跨域处理,有效解决了低剂量PET成像中的质量问题,为临床提供了高质量的PET图像重建方案
[18] Multi-objective hybrid knowledge distillation for efficient deep learning in smart agriculture
Phi-Hung Hoang,Nam-Thuan Trinh,Van-Manh Tran,Thi-Thu-Hong Phan
Main category: cs.CV
TL;DR: 提出混合知识蒸馏框架,开发轻量高性能CNN用于智能农业,在保持高精度同时大幅降低计算成本和模型大小
- Motivation: 解决智能农业中资源受限边缘设备部署深度学习模型的挑战,平衡计算效率与识别精度之间的矛盾
- Method: 设计结合倒置残差块和密集连接的自定义学生模型,使用ResNet18作为教师网络,采用多目标策略整合硬标签监督、特征级蒸馏、响应级蒸馏和自蒸馏
- Result: 在9个水稻种子品种识别任务上达到98.56%准确率,仅比教师模型低0.09%,计算成本降低2.7倍,模型大小减少10倍以上;在4种植物叶片病害数据集上表现一致
- Conclusion: 提出的混合知识蒸馏框架在保持高分类精度的同时显著降低了计算和存储需求,展示了在硬件受限的智能农业系统中强大的部署潜力和鲁棒性
[19] Evaluating an Adaptive Multispectral Turret System for Autonomous Tracking Across Variable Illumination Conditions
Aahan Sachdeva,Dhanvinkumar Ganeshkumar,James E. Gallagher,Tyler Treat,Edward J. Oughton
Main category: cs.CV
TL;DR: 提出自适应RGB-LWIR融合框架,通过动态选择最佳融合比例和检测模型,提升机器人在不同光照条件下的目标检测性能
- Motivation: 传统RGB检测在低光环境下效果差,热成像系统缺乏颜色和纹理信息,需要一种能在各种光照条件下稳定工作的自主机器人视觉系统
- Method: 训练33个YOLO模型,使用超过22,000张标注图像,涵盖三种光照水平。通过11种融合比例(从100/0到0/100,10%递增)融合对齐的RGB和LWIR帧,动态选择最佳检测模型
- Result: 最佳全光模型(80/20 RGB-LWIR)和弱光模型(90/10融合)分别达到92.8%和92.0%的平均置信度,显著优于YOLOv5n和YOLOv11n基线。无光条件下最佳40/60融合达到71.0%
- Conclusion: 自适应RGB-LWIR融合提高了所有光照条件下的检测置信度和可靠性,增强了自主机器人视觉性能
[20] Human-Aligned Generative Perception: Bridging Psychophysics and Generative Models
Antara Titikhsha,Om Kulkarni,Dharun Muthaiah
Main category: cs.CV
TL;DR: 该研究提出使用轻量级判别器作为外部引导信号,通过人类感知嵌入(HPE)教师模型在文本到图像生成中引入几何理解,实现几何与风格的可控分离。
- Motivation: 当前文本到图像扩散模型虽然能生成高度详细的纹理,但主要依赖表面外观,难以遵循严格的几何约束,特别是当几何约束与文本提示的风格相冲突时。这反映了人类感知与当前生成模型之间的语义鸿沟。
- Method: 提出人类感知嵌入(HPE)教师模型,在THINGS三元组数据集上训练以捕捉人类对物体形状的敏感性。将该教师模型的梯度注入潜在扩散过程,实现几何与风格的可控分离。在三种架构上评估:Stable Diffusion v1.5(U-Net)、流匹配模型SiT-XL/2和扩散变压器PixArt-Σ。
- Result: 实验表明流模型在没有持续引导时倾向于回归默认轨迹。实现了复杂三维形状(如Eames椅子)到冲突材料(如粉色金属)的零样本迁移。与无引导基线相比,语义对齐提高了约80%。
- Conclusion: 小型教师模型能够可靠地引导大型生成系统,增强几何控制能力,拓宽文本到图像合成的创意范围,为解决几何约束与风格冲突问题提供了有效方法。
[21] GeCo: A Differentiable Geometric Consistency Metric for Video Generation
Leslie Gu,Junhwa Hur,Charles Herrmann,Fangneng Zhan,Todd Zickler,Deqing Sun,Hanspeter Pfister
Main category: cs.CV
TL;DR: GeCo是一个几何基础的一致性度量方法,用于检测静态场景中的几何变形和遮挡不一致伪影,可用于模型基准测试和作为无训练指导损失减少视频生成中的变形伪影。
- Motivation: 当前视频生成模型在静态场景中经常产生几何变形和遮挡不一致的伪影,需要一种系统性的方法来检测和量化这些缺陷,以评估模型性能和改进生成质量。
- Method: 通过融合残差运动和深度先验,GeCo生成可解释的密集一致性图来揭示几何变形和遮挡不一致伪影。该方法将几何一致性作为基础度量标准。
- Result: GeCo能够系统地评估近期视频生成模型,揭示常见失败模式,并作为无训练指导损失有效减少视频生成过程中的变形伪影。
- Conclusion: GeCo提供了一个有效的几何基础度量框架,不仅能检测和量化视频生成中的几何不一致问题,还能作为实用工具改进生成质量,对视频生成模型的评估和优化具有重要意义。
[22] The Illusion of Clinical Reasoning: A Benchmark Reveals the Pervasive Gap in Vision-Language Models for Clinical Competency
Dingyu Wang,Zimu Yuan,Jiajun Liu,Shanggui Liu,Nan Zhou,Tianxing Xu,Di Huang,Dong Jiang
Main category: cs.CV
TL;DR: 该研究开发了骨骼与关节(B&J)基准测试,评估AI模型在骨科和运动医学中的临床推理能力,发现模型在结构化选择题上表现良好(>90%),但在需要多模态整合的开放式任务上表现较差(~60%),表明当前AI模型尚不具备复杂的多模态临床推理能力。
- Motivation: 随着基础模型在临床实践中的快速应用,需要超越传统考试基准,评估其真实的临床推理能力。当前基于医学执照考试或精选病例的基准无法捕捉现实患者护理所需的整合性多模态推理。
- Method: 开发了B&J基准测试框架,包含1,245个来自骨科和运动医学真实病例的问题。评估了11个视觉语言模型(VLM)和6个大语言模型(LLM),涵盖7个反映临床推理路径的任务:知识回忆、文本和图像解释、诊断生成、治疗计划和理由提供。
- Result: 结果显示任务类型间存在显著性能差距:最先进模型在结构化多选题上准确率超过90%,但在需要多模态整合的开放式任务上准确率仅约60%。VLM在医学图像解释方面存在严重限制,经常出现严重的文本驱动幻觉,忽视矛盾的视觉证据。专门为医疗应用微调的模型并未显示出相对于通用模型的持续优势。
- Conclusion: 当前人工智能模型尚不具备复杂的多模态临床推理能力。其安全部署应限于支持性、基于文本的角色。未来在核心临床任务上的进展需要多模态整合和视觉理解方面的根本性突破。
[23] FETAL-GAUGE: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound
Hussain Alasmawi,Numan Saeed,Mohammad Yaqub
Main category: cs.CV
TL;DR: 本文提出了Fetal-Gauge,这是首个专门用于评估视觉语言模型在胎儿超声成像中表现的大规模基准测试,包含超过42,000张图像和93,000个问答对,揭示了当前模型性能远低于临床需求。
- Motivation: 全球范围内训练有素的超声技师短缺,阻碍了必要的胎儿健康监测。深度学习有潜力提高超声技师效率并支持培训新从业者,但缺乏评估视觉语言模型在胎儿超声成像中性能的标准化基准。
- Method: 开发了Fetal-Gauge基准测试,涵盖胎儿超声的多个临床任务:解剖平面识别、解剖结构视觉定位、胎儿方位评估、临床视图符合性和临床诊断。系统评估了多个最先进的视觉语言模型,包括通用模型和医疗专用模型。
- Result: 最佳表现模型仅达到55%的准确率,远低于临床要求。分析揭示了当前视觉语言模型在胎儿超声解释中的关键局限性,突显了对领域适应架构和专门训练方法的迫切需求。
- Conclusion: Fetal-Gauge为推进产前护理中的多模态深度学习建立了严格基础,为解决全球医疗可及性挑战提供了途径。该基准将在论文被接受后公开提供。
[24] A Three-Level Alignment Framework for Large-Scale 3D Retrieval and Controlled 4D Generation
Philip Xu,David Elizondo,Raouf Hamzaoui
Main category: cs.CV
TL;DR: Uni4D是一个统一框架,通过文本、3D模型和图像的三级对齐,实现大规模开放词汇3D检索和可控4D生成。
- Motivation: 现有方法在跨模态对齐方面存在不足,需要统一的框架来处理3D检索和4D生成任务,以促进动态多模态理解和实际应用。
- Method: 基于Align3D 130数据集,采用3D文本多头注意力搜索模型优化文本到3D检索,通过三个组件加强跨模态对齐:精确文本到3D检索、多视图3D到图像对齐、图像到文本对齐以生成时间一致的4D资产。
- Result: 实验结果表明Uni4D实现了高质量的3D检索和可控4D生成,在动态多模态理解和实际应用方面取得进展。
- Conclusion: Uni4D通过结构化三级对齐提供了一个有效的统一框架,能够同时处理3D检索和4D生成任务,为多模态理解和应用开辟了新途径。
[25] Learning Dynamic Scene Reconstruction with Sinusoidal Geometric Priors
Tian Guo,Hui Yuan,Philip Xu,David Elizondo
Main category: cs.CV
TL;DR: SirenPose:结合正弦表示网络周期激活特性和关键点几何先验的新型损失函数,提升动态3D场景重建精度
- Motivation: 现有方法在快速运动和多目标场景中难以保持运动建模精度和时空一致性,需要改进动态3D场景重建技术
- Method: 结合正弦表示网络的周期激活特性与关键点结构几何先验,引入物理启发的约束机制,强制空间和时间维度上的关键点预测一致性,并将训练数据集扩展到60万标注实例
- Result: 使用SirenPose训练的模型在时空一致性指标上显著优于先前方法,在处理快速运动和复杂场景变化方面表现出优越性能
- Conclusion: SirenPose通过结合周期性激活和几何先验,有效解决了动态3D场景重建中的时空一致性问题,为快速运动和多目标场景提供了更准确的解决方案
[26] Real-Time In-Cabin Driver Behavior Recognition on Low-Cost Edge Hardware
Vesal Ahsani,Babak Hossein Khalaj
Main category: cs.CV
TL;DR: 提出一个用于低成本边缘设备的单摄像头驾驶员行为识别系统,能在Raspberry Pi 5和Google Coral Edge TPU上实现实时监控,覆盖17种行为类别。
- Motivation: 车载驾驶员监控系统需要在计算、功耗和成本严格受限的条件下,低延迟地识别分心和困倦相关行为。现有系统往往需要昂贵硬件,难以在低成本边缘设备上部署。
- Method: 采用单摄像头系统,结合紧凑的逐帧视觉模型、混淆因素感知标签设计以减少视觉相似误报,以及时间决策头确保预测既自信又持续时才触发警报。
- Result: 在Raspberry Pi 5上实现约16 FPS(INT8推理,每帧延迟低于60ms),在Coral Edge TPU上实现约25 FPS,支持17种行为类别的实时监控和稳定警报生成。
- Conclusion: 该系统证明可在低成本硬件上实现可靠的驾驶员状态感知,为以人为中心的车辆智能(包括新兴的自主车辆概念)提供上游输入。
[27] Attack-Aware Deepfake Detection under Counter-Forensic Manipulations
Noor Fatima,Hasan Faraz Khan,Muzammil Behzad
Main category: cs.CV
TL;DR: 提出一种攻击感知的深度伪造与图像取证检测器,具备鲁棒性、良好校准概率和透明证据,采用双流架构结合红队训练与随机化测试时防御。
- Motivation: 在现实部署条件下,需要能够抵抗对抗攻击、提供可靠概率估计和可解释证据的深度伪造检测系统。现有方法在面对复杂的反取证攻击时性能下降,且缺乏透明度和校准能力。
- Method: 双流架构:语义流使用预训练骨干网络编码内容,取证流提取取证残差,通过轻量残差适配器融合。浅层特征金字塔网络头在弱监督下生成篡改热图。红队训练采用每批次最差K个反取证攻击,测试时防御注入低成本抖动。
- Result: 在标准深度伪造数据集和监控风格数据集上评估,显示近乎完美的攻击排名、低校准误差、最小弃权风险,在重压缩等攻击下性能下降可控,建立了模块化、数据高效且可实际部署的基线。
- Conclusion: 该方法为攻击感知检测提供了具有校准概率和可操作热图的实用解决方案,在保持鲁棒性的同时提供透明证据,适合现实部署场景。
[28] PortionNet: Distilling 3D Geometric Knowledge for Food Nutrition Estimation
Darrin Bright,Rakshith Raj,Kanchan Keisham
Main category: cs.CV
TL;DR: PortionNet:通过跨模态知识蒸馏从点云学习几何特征,仅需RGB图像即可实现准确的食物营养估计,无需深度传感器
- Motivation: 现有基于深度的方法需要深度传感器,这在大多数智能手机上不可用。单张RGB图像估计食物营养因缺乏3D信息而具有挑战性。
- Method: 提出跨模态知识蒸馏框架,训练时从点云学习几何特征,推理时仅需RGB图像。采用双模式训练策略,轻量级适配器网络模仿点云表示,实现伪3D推理。
- Result: 在MetaFood3D数据集上达到最先进性能,在体积和能量估计方面均优于先前方法。在SimpleFood45上的跨数据集评估显示在能量估计方面具有强泛化能力。
- Conclusion: PortionNet无需专用硬件即可实现准确的食物营养估计,为智能手机应用提供了实用解决方案,在几何特征学习和跨模态知识蒸馏方面具有优势。
[29] MoFu: Scale-Aware Modulation and Fourier Fusion for Multi-Subject Video Generation
Run Ling,Ke Cao,Jian Lu,Ao Ma,Haowei Liu,Runze He,Changwei Wang,Rongtao Xu,Yihua Shao,Zhanjie Zhang,Peng Wu,Guibing Guo,Wei Feng,Zheng Zhang,Jingjing Lv,Junjie Shen,Ching Law,Xingwei Wang
Main category: cs.CV
TL;DR: MoFu是一个多主体视频生成框架,通过尺度感知调制和傅里叶融合解决尺度不一致和排列敏感性问题,显著提升生成质量。
- Motivation: 当前多主体视频生成方法面临两个主要挑战:1)尺度不一致性 - 不同主体尺寸变化导致生成不自然;2)排列敏感性 - 参考图像输入顺序变化导致主体扭曲。这些问题影响了生成视频的质量和实用性。
- Method: 提出MoFu统一框架:1)尺度感知调制(SMO)- 使用LLM从文本提示中提取隐含尺度线索并调制特征;2)傅里叶融合策略 - 通过快速傅里叶变换处理参考特征的频率信息,生成统一表示;3)尺度-排列稳定性损失 - 联合促进尺度一致和排列不变的生成。
- Result: MoFu在保持自然尺度、主体保真度和整体视觉质量方面显著优于现有方法。建立了专门的基准测试来评估尺度变化和参考排列的影响。
- Conclusion: MoFu有效解决了多主体视频生成中的尺度不一致和排列敏感性问题,通过创新的尺度感知调制和傅里叶融合策略,实现了更自然、稳定的视频生成效果。
[30] VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning
Yang Ding,Yizhen Zhang,Xin Lai,Ruihang Chu,Yujiu Yang
Main category: cs.CV
TL;DR: VideoZoomer:一个让多模态大语言模型能够动态控制视觉焦点的智能体框架,通过从低帧率概览开始,自主调用时间缩放工具获取高帧率片段,实现渐进式细粒度证据收集。
- Motivation: 当前多模态大语言模型在长视频理解方面存在局限,主要受限于有限的上下文窗口。现有方法通常依赖均匀帧采样或静态预选择,可能忽略关键证据且无法在推理过程中纠正初始选择错误。
- Method: 提出VideoZoomer智能体框架,采用两阶段训练策略:1)在蒸馏示例和反思轨迹的精选数据集上进行冷启动监督微调;2)通过强化学习进一步优化智能体策略。模型从低帧率概览开始,自主调用时间缩放工具获取高帧率片段。
- Result: 7B模型展现出多样复杂的推理模式,在广泛的长视频理解和推理基准测试中表现优异。能够持续超越现有开源模型,甚至在挑战性任务上与专有系统相媲美,同时在减少帧预算下实现更高效能。
- Conclusion: VideoZoomer通过动态控制视觉焦点和渐进式证据收集,有效解决了长视频理解中的上下文窗口限制问题,为多模态大语言模型的长视频理解提供了新的智能体框架。
[31] SpotEdit: Selective Region Editing in Diffusion Transformers
Zhibin Qin,Zhenxiong Tan,Zeqing Wang,Songhua Liu,Xinchao Wang
Main category: cs.CV
TL;DR: SpotEdit是一个无需训练的图像编辑框架,通过选择性更新修改区域而非全图处理,提升扩散Transformer模型的编辑效率。
- Motivation: 当前扩散Transformer模型在图像编辑时均匀处理所有token,即使只有小区域需要修改,导致冗余计算并可能影响未修改区域的质量。
- Method: SpotEdit包含两个核心组件:SpotSelector通过感知相似性识别稳定区域并复用条件图像特征跳过计算;SpotFusion通过动态融合机制自适应混合这些特征与编辑token,保持上下文连贯性。
- Result: 通过减少不必要的计算并保持未修改区域的高保真度,SpotEdit实现了高效精确的图像编辑。
- Conclusion: SpotEdit证明了在图像编辑中不需要重新生成每个区域,通过选择性更新修改区域可以实现更高效的编辑流程。
[32] DeMoGen: Towards Decompositional Human Motion Generation with Energy-Based Diffusion Models
Jianrong Zhang,Hehe Fan,Yi Yang
Main category: cs.CV
TL;DR: DeMoGen提出了一种基于能量扩散模型的运动分解训练范式,能够将复杂运动分解为语义上有意义的子组件,并支持运动概念的灵活重组。
- Motivation: 现有方法主要关注前向建模(如从文本到运动的整体映射),而缺乏将整体运动分解为语义子组件的能力。人类运动具有组合性,复杂行为可以描述为简单基元的组合,因此需要逆视角的分解方法。
- Method: 提出DeMoGen组合训练范式,采用基于能量的扩散模型直接捕捉多个运动概念的组合分布。包含三种训练变体:1)DeMoGen-Exp:在分解的文本提示上显式训练;2)DeMoGen-OSS:正交自监督分解;3)DeMoGen-SC:强制原始文本嵌入与分解文本嵌入之间的语义一致性。
- Result: 该方法能够从复杂运动序列中解耦可重用的运动基元,分解后的运动概念可以灵活重组生成多样新颖的运动,实现超出训练分布的泛化。同时构建了文本分解数据集支持组合训练。
- Conclusion: DeMoGen提供了一种有效的运动分解学习框架,不仅能够分解复杂运动为语义子组件,还能支持运动概念的灵活重组和生成,为文本到运动生成和运动组合提供了扩展资源。
[33] The Multi-View Paradigm Shift in MRI Radiomics: Predicting MGMT Methylation in Glioblastoma
Mariya Miteva,Maria Nisheva-Pavlova
Main category: cs.CV
TL;DR: 提出基于变分自编码器的多视图潜在表示学习框架,从T1Gd和FLAIR MRI中提取互补的影像组学特征,用于MGMT启动子甲基化分类
- Motivation: 传统单模态和早期融合方法在胶质母细胞瘤MGMT启动子甲基化预测中存在特征冗余和模态特异性信息建模不完整的问题,需要更有效的多模态整合方法
- Method: 使用变分自编码器构建多视图潜在表示学习框架,通过独立的概率编码器分别编码T1Gd和FLAIR MRI模态,在紧凑的潜在空间中进行融合,保留模态特异性结构
- Result: 提出的方法能够有效整合多模态影像组学特征,生成的潜在嵌入可用于MGMT启动子甲基化分类,解决了传统方法的局限性
- Conclusion: 基于VAE的多视图潜在表示学习框架为胶质母细胞瘤MGMT启动子甲基化状态的非侵入性预测提供了有效的多模态整合方法,在影像基因组学中具有应用价值
[34] Feature Learning with Multi-Stage Vision Transformers on Inter-Modality HER2 Status Scoring and Tumor Classification on Whole Slides
Olaide N. Oyelade,Oliver Hoxey,Yulia Humrye
Main category: cs.CV
TL;DR: 提出基于视觉变换器的端到端管道,联合分析H&E和IHC染色图像,实现像素级HER2评分(0,1+,2+,3+)和阴阳性分类
- Motivation: 现有HER2评分方法难以提供像素级定位,且联合分析H&E和IHC图像具有挑战性。需要准确预测HER2蛋白表达水平以指导癌症治疗
- Method: 使用视觉变换器端到端管道:1) H&E全切片图像分块处理进行肿瘤定位;2) 提出新颖映射函数关联H&E恶性区域与对应IHC区域;3) 嵌入临床启发的HER2评分机制,实现4级像素级标注
- Result: 肿瘤定位分类准确率高,HER2状态预测准确率0.94,特异性0.933。4级评分方法表现良好,与病理学家评估可比
- Conclusion: 基于ViT的端到端模型能有效联合评估H&E和IHC图像进行HER2评分,具有临床应用潜力
[35] Human-like visual computing advances explainability and few-shot learning in deep neural networks for complex physiological data
Alaa Alahmadi,Mohamed Hasan
Main category: cs.CV
TL;DR: 感知启发的伪着色技术提升ECG深度学习的数据效率和可解释性,在极少样本下实现长QT综合征检测
- Motivation: 传统深度学习模型在ECG分析中需要大量训练数据且缺乏可解释性,限制了临床可靠性和与人类推理的一致性。特别是在药物诱导的长QT综合征检测中,信号形态异质、心率多变、阳性病例稀缺,对模型泛化能力提出严峻挑战。
- Method: 采用感知启发的伪着色技术,将QT间期等临床显著时间特征编码为结构化颜色表示。使用原型网络和ResNet-18架构,在单次心搏和完整10秒节律的ECG图像上进行单样本和少样本学习评估。
- Result: 模型仅需1-5个训练样本即可学习到区分性和可解释的特征。可解释性分析显示伪着色引导注意力指向临床有意义的ECG特征,同时抑制无关信号成分。聚合多个心搏周期可进一步提升性能,模拟人类跨心搏的感知平均过程。
- Conclusion: 人类感知编码能够桥接医学机器智能中的数据效率、可解释性和因果推理,为解决医疗AI中的数据稀缺和解释性问题提供了有效途径。
[36] VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement
Zhengfei Kuang,Rui Lin,Long Zhao,Gordon Wetzstein,Saining Xie,Sanghyun Woo
Main category: cs.CV
TL;DR: 该论文提出了一个基于多模态大语言模型(MLLMs)的3D场景操作框架,通过引入MCP-based API、专用视觉工具套件和多智能体协作框架,解决了MLLMs在复杂3D物体排列任务中的视觉定位弱、场景理解不足和迭代更新易错三大挑战。
- Motivation: 尽管多模态大语言模型(MLLMs)在2D视觉语言任务上取得了显著进展,但在复杂3D场景操作方面的应用仍未被充分探索。现有MLLMs存在三个关键挑战:1)视觉定位能力弱,难以将程序化编辑与精确的3D结果联系起来;2)3D场景理解不足;3)迭代更新过程容易出错且难以管理。
- Method: 提出了一个三部分解决方案:1)引入MCP-based API,将交互从脆弱的原始代码操作转变为更鲁棒的函数级更新;2)增强MLLMs的3D场景理解能力,通过专用视觉工具套件分析场景状态、收集空间信息并验证操作结果;3)提出协作多智能体框架,分配规划、执行和验证角色,以处理多步骤指令并从中间错误中恢复。
- Result: 在25个复杂的物体排列任务上评估了该方法,结果显示其显著优于现有基线方法。
- Conclusion: 该研究成功地将MLLMs应用于复杂3D场景操作任务,通过创新的API设计、视觉工具增强和多智能体协作框架,有效解决了MLLMs在3D操作中的关键挑战,为3D场景理解和操作开辟了新途径。
[37] Self-Evaluation Unlocks Any-Step Text-to-Image Generation
Xin Yu,Xiaojuan Qi,Zhengqi Li,Kai Zhang,Richard Zhang,Zhe Lin,Eli Shechtman,Tianyu Wang,Yotam Nitzan
Main category: cs.CV
TL;DR: Self-E是一个从零开始训练、支持任意步数推理的文本到图像生成模型,通过自评估机制实现高效少步生成,无需预训练教师模型
- Motivation: 传统扩散或流匹配模型依赖局部监督需要多步推理,蒸馏方法需要预训练教师模型,需要一种从零开始训练、支持任意步数推理的统一框架
- Method: 结合流匹配学习与新颖的自评估机制:模型使用当前分数估计评估自身生成的样本,作为动态自教师,实现瞬时局部学习和自驱动的全局匹配
- Result: 在大规模文本到图像基准测试中,Self-E在少步生成方面表现出色,在50步时与最先进的流匹配模型竞争,性能随推理步数增加单调提升
- Conclusion: Self-E是第一个从零开始、支持任意步数的文本到图像模型,为高效可扩展生成提供了统一框架,支持超快少步生成和高质量长轨迹采样
[38] iOSPointMapper: RealTime Pedestrian and Accessibility Mapping with Mobile AI
Himanshu Naidu,Yuxiang Zhang,Sachin Mehta,Anat Caspi
Main category: cs.CV
TL;DR: iOSPointMapper是一款利用iPhone/iPad进行实时、隐私保护的实时人行道测绘的移动应用,通过设备端语义分割、LiDAR深度估计和GPS/IMU融合技术检测和定位交通标志、信号灯等设施,数据上传至TDEI交通数据交换平台。
- Motivation: 当前人行道数据收集方法成本高、碎片化且难以扩展,需要准确、最新的数据来建设无障碍和包容性的行人基础设施。
- Method: 开发iOSPointMapper移动应用,利用设备端语义分割、LiDAR深度估计和GPS/IMU融合数据检测和定位人行道相关特征,包含用户引导的标注界面验证系统输出,数据匿名化后传输至TDEI平台。
- Result: 系统特征检测和空间测绘性能的详细评估显示该应用在增强行人测绘方面具有潜力,能够为行人基础设施填补关键数据缺口。
- Conclusion: iOSPointMapper提供了一种可扩展、以用户为中心的方法,能够有效填补行人基础设施的关键数据缺口,改善行人测绘质量。
[39] DeFloMat: Detection with Flow Matching for Stable and Efficient Generative Object Localization
Hansang Lee,Chaelin Lee,Nieun Seo,Joon Seok Lim,Helen Hong
Main category: cs.CV
TL;DR: DeFloMat提出了一种基于条件流匹配的生成式目标检测框架,通过确定性流场替代扩散模型的随机去噪过程,在仅需3步推理的情况下实现了43.32% AP_{10:50}的SOTA精度,解决了扩散检测器在临床应用中延迟过高的问题。
- Motivation: 扩散模型(如DiffusionDet)虽然精度高,但需要大量采样步骤(T > 60),在时间敏感的临床应用中(如克罗恩病的磁共振肠造影检测)存在严重的延迟瓶颈,限制了实际应用。
- Method: DeFloMat采用条件流匹配(CFM)框架,基于条件最优传输理论构建确定性流场,近似Rectified Flow,通过简单的常微分方程求解器实现快速推理,替代了扩散模型的多步随机去噪过程。
- Result: 在MRE临床数据集上,DeFloMat仅用3步推理就达到了43.32% AP_{10:50}的SOTA精度,比DiffusionDet在4步时的最佳性能(31.03% AP_{10:50)提升了1.4倍,同时显著改善了定位特性和召回率稳定性。
- Conclusion: DeFloMat成功解决了生成式检测精度与临床效率之间的权衡问题,为稳定快速的目标定位设定了新标准,特别适用于时间敏感的医疗影像分析应用。
[40] Bright 4B: Scaling Hyperspherical Learning for Segmentation in 3D Brightfield Microscopy
Amil Khan,Matheus Palhares Viana,Suraj Mishra,B. S. Manjunath
Main category: cs.CV
TL;DR: Bright-4B:一个40亿参数的3D亮场显微镜基础模型,可直接从3D亮场体积中分割亚细胞结构,无需荧光标记或复杂后处理
- Motivation: 无标记3D亮场显微镜能快速无创地可视化细胞形态,但现有的稳健体积分割通常依赖荧光标记或繁重的后处理,需要填补这一技术空白
- Method: 提出Bright-4B模型,采用硬件对齐的原生稀疏注意力机制(捕获局部、粗粒度和选择性全局上下文)、深度-宽度残差超连接稳定表示流、软专家混合实现自适应容量,以及各向异性补丁嵌入尊重共聚焦点扩散和轴向变薄特性
- Result: 模型仅从亮场堆栈就能产生形态准确的细胞核、线粒体和其他细胞器分割,在多个共聚焦数据集上保持跨深度和细胞类型的精细结构细节,优于当代CNN和Transformer基线
- Conclusion: Bright-4B为大规模无标记3D细胞映射提供了有效解决方案,所有代码、预训练权重和下游微调模型将开源以推动该领域发展
[41] FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning
Ujunwa Mgboh,Rafi Ibn Sultan,Joshua Kim,Kundan Thind,Dongxiao Zhu
Main category: cs.CV
TL;DR: FluenceFormer是一个基于Transformer的放疗计划系统,通过两阶段设计预测物理校准的注量图,解决了传统卷积方法难以捕捉长程依赖的问题。
- Motivation: 放疗计划中的注量图预测是一个病态逆问题,传统卷积方法难以捕捉长程依赖,导致结构不一致或物理不可行的计划。
- Method: 提出FluenceFormer框架:第一阶段从解剖输入预测全局剂量先验,第二阶段结合显式射束几何信息回归物理校准的注量图,使用Fluence-Aware Regression损失函数整合物理约束。
- Result: 在多个Transformer骨干网络(Swin UNETR、UNETR、nnFormer、MedFormer)上评估,Swin UNETR版本表现最佳,将能量误差降至4.5%,结构保真度有统计显著提升(p<0.05)。
- Conclusion: FluenceFormer提供了一个通用的Transformer框架,能够生成物理一致、结构准确的放疗计划,显著优于现有CNN和单阶段方法。
[42] EmoCtrl: Controllable Emotional Image Content Generation
Jingyuan Yang,Weibin Luo,Hui Huang
Main category: cs.CV
TL;DR: EmoCtrl:可控情感图像内容生成模型,在保持内容一致性的同时表达目标情感,通过文本和视觉情感增强模块实现
- Motivation: 现有文本到图像模型能确保内容一致性但缺乏情感意识,而情感驱动模型生成情感结果却以内容失真为代价。需要同时保持内容忠实度和情感表达
- Method: 提出EmoCtrl模型,使用包含内容、情感和情感提示的数据集,通过文本和视觉情感增强模块,利用描述性语义和感知线索丰富情感表达
- Result: EmoCtrl在忠实内容和表达情感控制方面优于现有方法,用户研究证实其与人类偏好高度一致,学习到的情感标记具有互补效应和良好泛化能力
- Conclusion: EmoCtrl成功解决了可控情感图像内容生成的挑战,实现了内容忠实度和情感表达的良好平衡,具有实际应用价值和鲁棒性
[43] SuperiorGAT: Graph Attention Networks for Sparse LiDAR Point Cloud Reconstruction in Autonomous Systems
Khalfalla Awedat,Mohamed Abidalrekab,Gurcan Comert,Mustafa Ayad
Main category: cs.CV
TL;DR: SuperiorGAT使用图注意力网络重建稀疏LiDAR点云中缺失的高程信息,通过光束感知图建模和门控残差融合,在不增加网络深度的情况下提高重建精度。
- Motivation: LiDAR感知系统受限于固定的垂直光束分辨率,且环境遮挡导致光束丢失问题,这限制了自动驾驶系统的感知能力。
- Method: 将LiDAR扫描建模为光束感知图,采用图注意力网络架构,结合门控残差融合和前馈细化模块,无需增加网络深度即可重建缺失的高程信息。
- Result: 在KITTI数据集的不同环境(行人、道路、校园、城市)中,SuperiorGAT相比PointNet模型和更深层的GAT基线,实现了更低的重建误差和更好的几何一致性,X-Z投影显示结构完整性保持良好。
- Conclusion: 架构优化提供了一种计算高效的方法来提升LiDAR分辨率,无需额外的传感器硬件,为自动驾驶感知系统提供了实用的解决方案。
[44] LECalib: Line-Based Event Camera Calibration
Zibin Liu,Banglei Guana,Yang Shanga,Zhenbao Yu,Yifei Bian,Qifeng Yu
Main category: cs.CV
TL;DR: 提出基于线特征的事件相机标定框架,利用人造环境中常见物体的几何线条(如门、窗、箱子等)进行标定,无需专用标定板
- Motivation: 现有事件相机标定方法通常需要闪烁图案、重建强度图像或从事件中提取特征,这些方法耗时且需要手动放置标定物体,无法满足快速变化场景的需求
- Method: 直接从事件流中检测线条,利用事件-线条标定模型生成相机参数初始估计,适用于平面和非平面线条,然后采用非线性优化细化相机参数
- Result: 仿真和真实世界实验验证了方法的可行性和准确性,在单目和立体事件相机上进行了验证
- Conclusion: 提出了一种无需专用标定板的事件相机标定方法,利用环境中自然存在的几何线条,实现了快速准确的标定,适用于动态场景
[45] Towards Robust Optical-SAR Object Detection under Missing Modalities: A Dynamic Quality-Aware Fusion Framework
Zhicheng Zhao,Yuancheng Xu,Andong Lu,Chenglong Li,Jin Tang
Main category: cs.CV
TL;DR: 提出QDFNet,一种用于光学-SAR目标检测的质量感知动态融合网络,通过可学习参考令牌动态评估特征可靠性,在模态缺失情况下实现鲁棒融合。
- Motivation: 光学和SAR融合目标检测面临实际部署困难,由于成像机制差异、时间异步性和配准问题,常出现模态缺失或退化数据。现有方法对随机缺失模态的鲁棒性有限,缺乏确保融合检测性能一致提升的有效机制。
- Method: 提出QDFNet,包含动态模态质量评估(DMQA)模块,使用可学习参考令牌迭代优化特征可靠性评估;正交约束归一化融合(OCNF)模块,通过正交约束保持模态独立性,同时基于可靠性分数动态调整融合权重。
- Result: 在SpaceNet6-OTD和OGSOD-2.0数据集上的大量实验表明,QDFNet相比最先进方法具有优越性和有效性,特别是在部分模态损坏或缺失数据场景下。
- Conclusion: QDFNet通过质量感知动态融合机制,有效解决了光学-SAR融合目标检测中的模态缺失问题,实现了鲁棒的跨模态目标检测性能。
[46] SonoVision: A Computer Vision Approach for Helping Visually Challenged Individuals Locate Objects with the Help of Sound Cues
Md Abu Obaida Zishan,Annajiat Alim Rasel
Main category: cs.CV
TL;DR: SonoVision是一款帮助视障人士通过声音提示定位日常物品的智能手机应用,使用左右耳声音提示指示物体方向,完全离线工作
- Motivation: 视障人士定位物体存在重大挑战,这阻碍了他们的独立性并可能导致危险情况。为了增强视障人士的自给自足能力,需要开发辅助工具
- Method: 使用Flutter开发平台构建应用,后端采用Efficientdet-D2模型进行物体检测。通过左右耳正弦声音提示指示物体方向(右侧物体在右耳发声,左侧在左耳,前方物体同时双耳发声)
- Result: 开发了完全离线的智能手机应用SonoVision,能够帮助视障人士通过声音提示定位日常物品,减少对周围人的依赖
- Conclusion: SonoVision应用能够以安全、用户友好的方式显著帮助视障人士,增强他们的独立性,应用代码已在GitHub开源
[47] SAM 3D for 3D Object Reconstruction from Remote Sensing Images
Junsheng Yao,Lichao Mou,Qingyu Li
Main category: cs.CV
TL;DR: 本文首次系统评估了通用图像到3D基础模型SAM 3D在单目遥感建筑重建中的应用,相比TRELLIS方法,SAM 3D能生成更连贯的屋顶几何和更清晰的边界,并展示了其在城市场景重建中的潜力。
- Motivation: 单目3D建筑重建对可扩展城市建模至关重要,但现有方法通常需要特定任务架构和密集监督。本文旨在评估通用基础模型SAM 3D在遥感建筑重建中的表现,探索其在城市场景建模中的应用潜力。
- Method: 使用SAM 3D基础模型进行单目遥感建筑重建,在NYC Urban Dataset上与TRELLIS方法进行基准比较,采用FID和CMMD作为评估指标。进一步通过分割-重建-组合流水线将SAM 3D扩展到城市场景重建。
- Result: 实验结果显示,相比TRELLIS,SAM 3D能生成更连贯的屋顶几何和更清晰的边界。通过扩展的流水线,SAM 3D展示了在城市场景建模中的实际应用潜力。
- Conclusion: 研究为在城市3D重建中部署基础模型提供了实用指导,并激励未来整合场景级结构先验知识。同时分析了实际限制并讨论了未来研究方向。
[48] Comparing Object Detection Models for Electrical Substation Component Mapping
Haley Mody,Namish Bansal,Dennies Kiprono Bor,Edward J. Oughton
Main category: cs.CV
TL;DR: 本文训练并比较了YOLOv8、YOLOv11和RF-DETR三种计算机视觉模型,用于自动检测和映射变电站关键组件,以替代传统的人工标注方法。
- Motivation: 变电站是电网的重要组成部分,其资产(如变压器)容易受到飓风、洪水、地震和地磁感应电流等多种灾害的影响。电网作为关键国家基础设施,任何故障都可能带来重大的经济和公共安全影响。传统的人工变电站基础设施映射方法耗时耗力,因此需要一种利用计算机视觉模型的自主解决方案,以提高便利性和效率。
- Method: 研究训练并比较了三种计算机视觉模型(YOLOv8、YOLOv11、RF-DETR)在美国变电站图像的手动标注数据集上的表现。评估了每个模型的检测准确性、精确度和效率,并利用这些模型有效映射美国各地的各种变电站组件。
- Result: 研究展示了每种模型的关键优势和局限性,确定了哪种模型能够提供可靠且大规模的变电站组件映射。展示了机器学习在变电站映射中的应用案例。
- Conclusion: 计算机视觉模型为变电站组件的自动检测和映射提供了一种高效可靠的解决方案,有助于预防和缓解电网故障,提高电网基础设施的韧性和安全性。
[49] Pose-Guided Residual Refinement for Interpretable Text-to-Motion Generation and Editing
Sukhyun Jeong,Yong-Hoon Choi
Main category: cs.CV
TL;DR: PGR²M提出了一种混合表示方法,通过残差向量量化增强可解释的姿态编码,提升文本驱动的3D运动生成和编辑质量。
- Motivation: 现有基于姿态编码的框架(如CoMo)虽然支持可解释的运动控制,但其逐帧表示难以捕捉细微的时间动态和高频细节,导致重建保真度和局部可控性下降。
- Method: 提出姿态引导的残差细化运动表示(PGR²M):1) 姿态引导的RVQ分词器将运动分解为编码粗粒度全局结构的姿态潜在变量和编码细粒度时间变化的残差潜在变量;2) 残差丢弃防止过度依赖残差;3) 基础Transformer自回归预测姿态编码,细化Transformer基于文本、姿态编码和量化阶段预测残差编码。
- Result: 在HumanML3D和KIT-ML数据集上,PGR²M在Fréchet inception距离和重建指标上优于CoMo及最近的扩散和分词基线,用户研究证实其能实现直观、结构保持的运动编辑。
- Conclusion: PGR²M通过混合表示方法有效解决了姿态编码框架在时间动态捕捉方面的局限性,在保持语义对齐和可编辑性的同时,显著提升了运动生成和编辑的质量。
[50] Event-based high temporal resolution measurement of shock wave motion field
Taihang Lei,Banglei Guan,Minzu Liang,Pengju Sun,Jing Tao,Yang Shang,Qifeng Yu
Main category: cs.CV
TL;DR: 提出基于多事件相机的高时空分辨率冲击波运动参数测量框架,通过极坐标编码、自适应ROI提取和迭代斜率分析实现冲击波前事件提取,结合事件光学成像模型进行3D重建和爆炸当量反演,测量误差最小0.06%,最大5.20%。
- Motivation: 冲击波运动参数的高时空分辨率精确测量对功率场测试和损伤评估至关重要,但冲击波的快速不均匀传播和不稳定测试条件带来重大挑战。传统方法难以满足需求,需要利用事件相机的高速高动态范围特性来解决问题。
- Method: 1) 建立极坐标系编码事件以揭示冲击波传播模式,通过事件偏移计算进行自适应ROI提取;2) 利用速度变化的连续性,采用迭代斜率分析提取冲击波前事件;3) 基于事件光学成像模型推导事件几何模型和冲击波运动参数,结合3D重建模型;4) 实现多角度冲击波测量、运动场重建和爆炸当量反演。
- Result: 与压力传感器和理论公式结果对比,速度测量最大误差5.20%,最小误差0.06%。实验结果表明该方法实现了高时空分辨率下的冲击波运动场高精度测量,代表了显著进展。
- Conclusion: 提出的多事件相机框架成功解决了冲击波快速不均匀传播的测量难题,利用事件相机的高速高动态范围特性,实现了冲击波运动参数的高精度测量,为功率场测试和损伤评估提供了有效工具。
[51] Scalpel-SAM: A Semi-Supervised Paradigm for Adapting SAM to Infrared Small Object Detection
Zihan Liu,Xiangning Ren,Dezhang Kong,Yipeng Zhang,Meng Han
Main category: cs.CV
TL;DR: 提出基于分层MoE适配器的两阶段半监督范式,用10%标注数据蒸馏SAM为专家教师模型,再用其生成伪标签训练轻量下游模型,解决红外小目标检测标注成本高的问题。
- Motivation: 红外小目标检测标注成本高,现有方法如SAM存在领域差距、无法编码物理先验、架构复杂等问题,需要有效的半监督范式。
- Method: 设计分层MoE适配器(四个白盒神经算子),提出两阶段知识蒸馏与迁移范式:1)先验引导知识蒸馏:用MoE适配器和10%全监督数据将SAM蒸馏为专家教师模型Scalpel-SAM;2)部署导向知识迁移:用Scalpel-SAM生成伪标签训练轻量高效的下游模型。
- Result: 实验表明,使用最少标注,下游模型能达到甚至超越全监督模型的性能。这是首个系统性地利用SAM作为教师模型解决IR-SOT数据稀缺问题的半监督范式。
- Conclusion: 提出的分层MoE适配器和两阶段半监督范式有效解决了红外小目标检测的标注成本问题,使轻量下游模型在极少标注下达到全监督性能。
[52] Tracking by Predicting 3-D Gaussians Over Time
Tanish Baranwal,Himanshu Gaurav Singh,Jathushan Rajasegaran,Jitendra Malik
Main category: cs.CV
TL;DR: Video-GMAE是一种自监督学习方法,将视频表示为随时间移动的高斯溅射集合,通过这种表示学习视频特征并实现零样本跟踪。
- Motivation: 视频通常是动态3D场景的2D投影,因此将视频表示为移动的高斯集合能提供合理的归纳偏置,有助于学习更好的视频表示。
- Method: 提出Video Gaussian Masked Autoencoders,将图像序列编码为随时间移动的高斯溅射集合,通过自监督预训练学习视频表示。
- Result: 学习到的高斯轨迹在图像平面上映射可实现零样本跟踪,性能媲美SOTA。微调后在Kinetics数据集上提升34.6%,在Kubric数据集上提升13.1%,超越现有自监督视频方法。
- Conclusion: Video-GMAE通过将视频表示为移动高斯集合,成功学习到视频的时空表示,并在跟踪任务上表现出色,为自监督视频学习提供了新思路。
[53] SCAFusion: A Multimodal 3D Detection Framework for Small Object Detection in Lunar Surface Exploration
Xin Chen,Kang Luo,Yangyi Xiao,Hesheng Wang
Main category: cs.CV
TL;DR: SCAFusion:针对月球机器人任务的多模态3D目标检测模型,通过认知适配器、对比对齐模块、相机辅助训练分支和分段感知坐标注意力机制,显著提升小而不规则目标的检测性能。
- Motivation: 现有为地面自动驾驶设计的3D感知方法在月球等外星球环境中表现不佳,主要原因是特征对齐差、多模态协同有限、小目标检测能力弱,而月球探索中陨石碎片和岩石等小而不规则目标的可靠检测对自主导航至关重要。
- Method: 基于BEVFusion框架,提出SCAFusion模型,包含四个关键组件:1)认知适配器用于高效调整相机骨干网络;2)对比对齐模块增强相机与激光雷达特征一致性;3)相机辅助训练分支强化视觉表示;4)分段感知坐标注意力机制专门提升小而不规则目标的检测性能。
- Result: 在nuScenes验证集上达到69.7% mAP和72.1% NDS,比基线分别提升5.0%和2.7%;在Isaac Sim构建的模拟月球环境中达到90.93% mAP,比基线提升11.5%,在检测陨石状小障碍物方面表现尤为突出。
- Conclusion: SCAFusion通过创新的多模态融合和注意力机制,以可忽略的参数和计算量增加,显著提升了月球环境中小而不规则目标的检测性能,为月球机器人任务提供了可靠的3D感知解决方案。
[54] DreamOmni3: Scribble-based Editing and Generation
Bin Xia,Bohao Peng,Jiyang Liu,Sitong Wu,Jingyao Li,Junjia Huang,Xu Zhao,Yitong Wang,Ruihang Chu,Bei Yu,Jiaya Jia
Main category: cs.CV
TL;DR: DreamOmni3是一个统一的生成和编辑模型,通过结合文本、图像和手绘涂鸦实现更灵活的GUI创作,解决了语言难以精确定位编辑区域的问题。
- Motivation: 现有生成编辑模型主要依赖文本提示,但语言难以准确捕捉用户意图的编辑位置和细粒度视觉细节,需要更灵活的创作方式。
- Method: 提出涂鸦编辑和生成两大任务,设计数据合成管道和联合输入框架。数据方面从DreamOmni2提取可编辑区域并叠加手绘元素;框架上采用双图像输入方案,使用不同颜色区分区域,简化复杂编辑处理。
- Result: 实验结果表明DreamOmni3取得了优异性能,建立了全面的基准测试以促进后续研究。
- Conclusion: DreamOmni3通过结合文本、图像和涂鸦实现了更灵活的图像编辑和生成,解决了传统文本提示的局限性,模型和代码将公开。
[55] CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation
Qinglin Zeng,Kaitong Cai,Ruiqi Chen,Qinhan Lv,Keze Wang
Main category: cs.CV
TL;DR: CoAgent:一个用于连贯视频生成的协作闭环框架,通过计划-合成-验证流程解决现有文本到视频模型中的身份漂移、场景不一致和时序结构不稳定问题。
- Motivation: 现有文本到视频模型通常独立处理每个镜头,导致身份漂移、场景不一致和时序结构不稳定,难以保持叙事连贯性和视觉一致性。
- Method: 提出CoAgent框架,包含故事板规划器(分解输入为镜头级计划)、全局上下文管理器(维护实体级记忆)、合成模块(在视觉一致性控制器指导下生成)、验证代理(评估并触发选择性重新生成)和节奏感知编辑器(优化时序节奏和过渡)。
- Result: 大量实验表明,CoAgent在长视频生成中显著提高了连贯性、视觉一致性和叙事质量。
- Conclusion: CoAgent通过协作闭环的规划-合成-验证流程,有效解决了开放域视频生成中的叙事连贯性和视觉一致性挑战。
[56] Self-Rewarded Multimodal Coherent Reasoning Across Diverse Visual Domains
Jesen Zhang,Ningyuan Liu,Kaitong Cai,Sidi Liu,Jing Yang,Ziliang Chen,Xiaofei Sun,Keze Wang
Main category: cs.CV
TL;DR: SR-MCR是一个轻量级、无需标注的多模态LLM对齐框架,通过利用模型输出的内在过程信号来提升推理的可靠性和连贯性,在7B规模上达到SOTA性能。
- Motivation: 现有多模态LLM在推理过程中存在步骤间连贯性弱、视觉基础不足的问题,因为传统对齐方法只监督最终答案而忽略了中间推理过程的可靠性。
- Method: 提出SR-MCR框架,整合五个自参考线索(语义对齐、词汇保真度、非冗余性、视觉基础、步骤一致性)构建归一化的可靠性加权奖励,采用无批评者的GRPO目标配合置信度感知冷却机制来稳定训练。
- Result: 在Qwen2.5-VL基础上,SR-MCR显著提升了答案准确性和推理连贯性,在多个视觉基准测试中表现优异,SR-MCR-7B在同类开源模型中达到SOTA,平均准确率达81.4%。
- Conclusion: SR-MCR通过利用模型自身输出的过程信号进行对齐,有效提升了多模态LLM推理的可靠性和连贯性,消融研究证实了各奖励项和冷却模块的独立贡献。
[57] ReFRM3D: A Radiomics-enhanced Fused Residual Multiparametric 3D Network with Multi-Scale Feature Fusion for Glioma Characterization
Md. Abdur Rahman,Mohaimenul Azam Khan Raiaan,Arefin Ittesafun Abian,Yan Zhang,Mirjam Jonkman,Sami Azam
Main category: cs.CV
TL;DR: 提出ReFRM3D网络和基于多特征肿瘤标记物的分类器,显著提升胶质瘤分割和分类性能
- Motivation: 胶质瘤诊断存在成像数据变异性高、计算资源优化不足、分割分类效率低等问题,需要改进多参数MRI数据的分析方法
- Method: 提出ReFRM3D网络(基于3D U-Net,含多尺度特征融合、混合上采样和扩展残差跳跃机制)和基于放射组学特征的多特征肿瘤标记物分类器
- Result: 在BraTS2019/2020/2021数据集上取得优异分割性能:BraTS2019的WT/ET/TC Dice系数分别为94.04%/92.68%/93.64%;BraTS2020为94.09%/92.91%/93.84%;BraTS2021为93.70%/90.36%/92.13%
- Conclusion: 提出的ReFRM3D网络和分类器能有效解决胶质瘤诊断中的挑战,显著提升分割和分类效率
[58] KV-Tracker: Real-Time Pose Tracking with Transformers
Marwan Taher,Ignacio Alzugaray,Kirill Mazur,Xin Kong,Andrew J. Davison
Main category: cs.CV
TL;DR: KV-Tracker:一种实时6-DoF姿态跟踪和在线重建方法,通过缓存多视图几何网络的注意力键值对,实现15倍加速,无需深度测量或物体先验。
- Motivation: 多视图3D几何网络提供了强大的先验知识,但推理速度过慢,无法满足实时应用需求。需要一种方法在保持精度的同时大幅提升推理速度。
- Method: 1)快速选择和管理关键帧图像,通过π³网络进行场景/物体映射;2)缓存全局自注意力块的键值对作为唯一场景表示;3)使用缓存的KV对进行在线跟踪,无需重新计算注意力。
- Result: 在TUM RGB-D、7-Scenes、Arctic和OnePose数据集上表现出色,推理速度提升高达15倍,帧率可达~27 FPS,无漂移或灾难性遗忘问题。
- Conclusion: KV-Tracker通过缓存注意力键值对实现了多视图几何网络的实时化,该模型无关的方法可应用于现有多视图网络,为实时6-DoF姿态跟踪和在线重建提供了高效解决方案。
[59] PTalker: Personalized Speech-Driven 3D Talking Head Animation via Style Disentanglement and Modality Alignment
Bin Wang,Yang Xu,Huan Zhao,Hao Zhang,Zixing Zhang
Main category: cs.CV
TL;DR: PTalker提出了一种个性化的3D说话头生成框架,通过风格解耦和三层次对齐机制,在保持说话风格的同时提升唇部同步精度。
- Motivation: 现有语音驱动的3D说话头生成方法虽然取得了高唇部同步精度,但大多忽略了个人说话风格的细微差别,这限制了个性化和真实感。
- Method: 1) 通过解耦约束将音频和面部运动序列编码到不同的风格和内容空间;2) 采用三层次对齐机制:使用图注意力网络的空间对齐、使用交叉注意力的时间对齐、以及使用top-k双向对比损失和KL散度约束的特征对齐。
- Result: 在公开数据集上的大量定性和定量实验表明,PTalker能够有效生成逼真、风格化的3D说话头,准确匹配特定身份的说话风格,优于现有最先进方法。
- Conclusion: PTalker框架通过风格解耦和多层次对齐机制,成功实现了既保持个性化说话风格又提升唇部同步精度的3D说话头生成。
[60] Enhancing Noise Resilience in Face Clustering via Sparse Differential Transformer
Dafeng Zhang,Yongqi Song,Shizhuo Liu
Main category: cs.CV
TL;DR: 提出SDT稀疏差分Transformer,通过预测驱动的Top-K Jaccard相似度系数和Transformer关系建模,提升人脸聚类中嵌入关系测量的准确性和鲁棒性。
- Motivation: 现有方法使用Jaccard相似度系数替代余弦距离,但引入了过多无关节点,导致相似度区分度有限,影响聚类性能。需要更可靠的关系测量方法。
- Method: 1. 提出预测驱动的Top-K Jaccard相似度系数,提高邻居节点纯度;2. 开发基于Transformer的预测模型,分析中心节点与Top-K附近邻居的关系;3. 提出稀疏差分Transformer(SDT)替代标准Transformer,消除噪声并增强抗噪能力。
- Result: 在MS-Celeb-1M等多个数据集上的实验表明,该方法达到了最先进的性能,优于现有方法,为人脸聚类提供了更鲁棒的解决方案。
- Conclusion: SDT方法通过改进相似度测量和关系建模,有效解决了人脸聚类中嵌入关系测量的挑战,实现了更好的聚类性能。
[61] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
Jiacheng Ye,Shansan Gong,Jiahui Gao,Junming Fan,Shuang Wu,Wei Bi,Haoli Bai,Lifeng Shang,Lingpeng Kong
Main category: cs.CV
TL;DR: Dream-VL是基于扩散大语言模型构建的视觉语言模型,在视觉规划任务中表现优于传统自回归模型;Dream-VLA是其扩展的视觉语言动作模型,在机器人控制任务中取得SOTA性能。
- Motivation: 传统自回归视觉语言模型在复杂视觉规划和动态机器人控制中存在局限性,需要探索基于扩散模型的新架构来克服这些限制。
- Method: 提出Dream-VL,基于扩散大语言模型构建的开放扩散视觉语言模型;进一步扩展为Dream-VLA,通过在开放机器人数据集上持续预训练构建的视觉语言动作模型。
- Result: Dream-VL在多个基准测试中与顶级自回归模型相当,在视觉规划任务中表现更优;Dream-VLA在LIBERO上达到97.2%平均成功率,在SimplerEnv-Bridge和Fractal上分别达到71.4%和60.5%,超越π₀和GR00T-N1等领先模型。
- Conclusion: 扩散模型的双向特性使其成为视觉语言动作任务的优越基础,支持动作分块和并行生成,在下游微调中收敛更快;扩散视觉语言模型在不同训练目标的下游任务中均超越自回归基线。
[62] Rethinking Memory Design in SAM-Based Visual Object Tracking
Mohamad Alansari,Muzammal Naseer,Hasan Al Marzouqi,Naoufel Werghi,Sajid Javed
Main category: cs.CV
TL;DR: 该论文系统研究了基于SAM的视觉目标跟踪中的内存机制,提出了统一的混合内存框架,在SAM2和SAM3骨干网络上均能提升跟踪鲁棒性。
- Motivation: 现有基于SAM2的跟踪方法以特定方式处理内存限制,缺乏对内存设计原则的系统理解,且不清楚这些机制如何迁移到更强的SAM3等下一代基础模型。
- Method: 首先分析代表性SAM2跟踪器,发现主要差异在于短期内存帧选择方式;然后在SAM3框架中重新实现这些内存机制;最后提出统一的混合内存框架,将内存分解为短期外观内存和长期干扰物解决内存。
- Result: 在10个多样化基准上进行大规模评估,提出的框架在SAM2和SAM3骨干网络上均能显著提升长期遮挡、复杂运动和干扰物密集场景下的跟踪鲁棒性。
- Conclusion: 系统研究揭示了基于SAM的跟踪中内存设计的关键原则,提出的统一混合内存框架为未来跟踪方法提供了模块化和原则性的内存设计基础。
[63] Envision: Embodied Visual Planning via Goal-Imagery Video Diffusion
Yuming Gu,Yizhi Wang,Yining Hong,Yipeng Gao,Hao Jiang,Angtian Wang,Bo Liu,Nathaniel S. Dennler,Zhengfei Kuang,Hao Li,Gordon Wetzstein,Chongyang Ma
Main category: cs.CV
TL;DR: Envision是一个基于扩散模型的视觉规划框架,通过两阶段方法生成目标对齐的轨迹:先合成目标图像,再插值生成视频轨迹,用于具身智能体的操作任务。
- Motivation: 现有视频扩散模型主要进行前向预测,仅基于初始观察生成轨迹,缺乏明确的目标建模,导致空间漂移和目标对齐问题。需要一种能够生成物理合理且目标一致的视觉规划方法。
- Method: 两阶段框架:1) 目标图像模型识别任务相关区域,通过区域感知交叉注意力合成连贯的目标图像;2) 环境-目标视频模型基于首尾帧条件视频扩散模型(FL2V),在初始观察和目标图像之间插值,生成平滑物理合理的视频轨迹。
- Result: 在物体操作和图像编辑基准测试中,Envision相比基线方法实现了更好的目标对齐、空间一致性和物体保持。生成的视觉规划可直接支持下游机器人规划和控制。
- Conclusion: Envision通过明确的目标约束和两阶段生成过程,解决了现有视觉规划方法的空间漂移和目标对齐问题,为具身智能体提供了可靠的视觉规划指导。
[64] FinPercep-RM: A Fine-grained Reward Model and Co-evolutionary Curriculum for RL-based Real-world Super-Resolution
Yidi Liu,Zihao Fan,Jie Huang,Jie Xiao,Dong Li,Wenlong Zhang,Lei Bai,Xueyang Fu,Zheng-Jun Zha
Main category: cs.CV
TL;DR: 提出FinPercep-RM细粒度感知奖励模型和CCL协同进化课程学习机制,解决ISR任务中传统IQA模型对局部失真不敏感导致的奖励黑客问题,提升超分辨率图像的全局质量和局部真实感。
- Motivation: 传统IQA模型通常输出单一全局分数,对局部和细粒度失真极不敏感,导致ISR模型可能产生感知上不理想的伪影却获得虚假高分,造成奖励黑客问题,使优化目标与感知质量不对齐。
- Method: 1. 提出基于编码器-解码器架构的FinPercep-RM细粒度感知奖励模型,不仅提供全局质量分数,还生成感知退化图来空间定位和量化局部缺陷;2. 构建FGR-30k数据集训练该模型;3. 提出CCL协同进化课程学习机制,让奖励模型和ISR模型同步进行课程学习,从简单到复杂逐步训练。
- Result: 实验验证了该方法在ISR模型上的有效性,在RLHF方法中同时提升了全局质量和局部真实感,有效抑制了奖励黑客问题。
- Conclusion: 通过细粒度感知奖励模型和协同进化课程学习的结合,成功解决了ISR任务中传统IQA模型的局限性,实现了更稳定、更有效的基于人类反馈的强化学习优化。
[65] Visual Autoregressive Modelling for Monocular Depth Estimation
Amir El-Ghoussani,André Kaup,Nassir Navab,Gustavo Carneiro,Vasileios Belagiannis
Main category: cs.CV
TL;DR: 提出基于视觉自回归先验的单目深度估计方法,作为扩散模型的替代方案,在有限训练数据下取得竞争性结果
- Motivation: 探索自回归先验作为几何感知生成模型的补充家族,为深度估计提供扩散模型之外的替代方案,强调在数据可扩展性和3D视觉任务适应性方面的优势
- Method: 采用大规模文本到图像自回归模型,引入尺度条件上采样机制和分类器自由引导,通过十个固定自回归阶段进行推理,仅需74K合成样本进行微调
- Result: 在室内基准测试中,在受限训练条件下达到最先进性能;在室外数据集上表现强劲;自回归先验在深度估计中展现出竞争力
- Conclusion: 自回归先验是深度估计中几何感知生成模型的重要补充家族,在数据可扩展性和3D视觉任务适应性方面具有优势,为深度估计提供了扩散模型之外的有效选择
[66] Investigating Deep Learning Models for Ejection Fraction Estimation from Echocardiography Videos
Shravan Saranyan,Pramit Saha
Main category: cs.CV
TL;DR: 该研究比较了多种深度学习架构(3D Inception、双流网络、CNN-RNN)在超声心动图视频中自动估计左心室射血分数(LVEF)的性能,发现改进的3D Inception架构表现最佳,RMSE为6.79%。
- Motivation: 超声心动图是评估LVEF的常用非侵入性方法,但人工评估耗时且存在观察者间差异。深度学习有望提供与专家相当的性能,实现自动化、标准化的心功能评估。
- Method: 研究比较了3D Inception、双流网络和CNN-RNN等多种深度学习架构,在EchoNet-Dynamic数据集(10,030个超声心动图视频)上系统评估了架构修改和融合策略,以最大化预测准确性。
- Result: 改进的3D Inception架构表现最佳,RMSE为6.79%。研究发现模型容易过拟合,较小较简单的模型泛化能力更好。模型性能对超参数选择(特别是卷积核大小和归一化策略)高度敏感。
- Conclusion: 深度学习在LVEF自动估计方面具有潜力,3D Inception架构表现最优。研究发现的架构设计和训练策略见解可推广到其他医学和非医学视频分析任务。
[67] Unleashing Foundation Vision Models: Adaptive Transfer for Diverse Data-Limited Scientific Domains
Qiankun Li,Feng He,Huabao Chen,Xin Ning,Kun Wang,Zengfu Wang
Main category: cs.CV
TL;DR: CLAdapter是一种新颖的集群注意力适配器,通过注意力机制和聚类中心来优化大规模预训练模型的特征表示,使其能够有效适应数据有限的下游科学领域任务。
- Motivation: 虽然计算机视觉领域受益于大规模数据集和预训练模型,但许多数据有限的科学领域下游任务仍然面临挑战。需要一种方法能够将大规模预训练学到的丰富表示适应到各种数据受限的下游任务中。
- Method: 提出Cluster Attention Adapter (CLAdapter),通过引入注意力机制和聚类中心,利用分布相关性和变换矩阵来个性化增强转换后的特征。该方法具有统一的接口设计,可与CNN和Transformer等多种架构无缝集成,支持2D和3D场景。
- Result: 在10个数据集上的广泛实验表明,CLAdapter在通用、多媒体、生物、医疗、工业、农业、环境、地理、材料科学、OOD和3D分析等多个数据有限的科学领域中实现了最先进的性能。
- Conclusion: CLAdapter通过自适应迁移有效释放了基础视觉模型的潜力,能够将大规模预训练学到的知识有效适应到各种数据有限的下游科学任务中,具有广泛的适用性和优异的性能表现。
[68] INTERACT-CMIL: Multi-Task Shared Learning and Inter-Task Consistency for Conjunctival Melanocytic Intraepithelial Lesion Grading
Mert Ikinci,Luna Toma,Karin U. Loeffler,Leticia Ussem,Daniela Süsskind,Julia M. Weller,Yousef Yeganeh,Martina C. Herwig-Carl,Shadi Albarqouni
Main category: cs.CV
TL;DR: INTERACT-CMIL是一个多任务深度学习框架,用于联合预测结膜黑色素细胞上皮内病变的五个组织病理学轴,通过共享特征学习和任务间一致性约束提高诊断准确性。
- Motivation: 结膜黑色素细胞上皮内病变(CMIL)的准确分级对治疗和黑色素瘤预测至关重要,但由于形态学线索细微且诊断标准相互关联,分级仍然困难。
- Method: 提出INTERACT-CMIL框架,采用多头深度学习架构,通过共享特征学习与组合部分监督以及强制执行跨任务一致性的互依赖损失,联合预测WHO4、WHO5、水平扩散、垂直扩散和细胞异型性五个组织病理学轴。
- Result: 在来自三个大学医院的486个专家标注结膜活检切片数据集上,INTERACT-CMIL相比CNN和基础模型基线取得一致改进,相对宏观F1分数提升高达55.1%(WHO4)和25.0%(垂直扩散)。
- Conclusion: 该框架提供了与专家分级一致的可解释多标准预测,为CMIL诊断提供了可重复的计算基准,是迈向标准化数字眼病理学的一步。
[69] CritiFusion: Semantic Critique and Spectral Alignment for Faithful Text-to-Image Generation
ZhenQi Chen,TsaiChing Ni,YuanFu Yang
Main category: cs.CV
TL;DR: CritiFusion:无需额外训练的推理时框架,通过多模态语义批判和频域精炼提升文本到图像生成的一致性和细节
- Motivation: 当前文本到图像扩散模型虽然视觉保真度高,但在复杂提示词的语义对齐方面存在困难,需要改进文本到图像的一致性
- Method: 提出CritiFusion框架,包含CritiCore模块(利用视觉语言模型和多个大语言模型进行语义批判和反馈)和SpecFusion(在频域合并中间生成状态以注入粗粒度结构信息并保留高频细节)
- Result: 在标准基准测试中显著提升文本到图像对应的人类对齐指标和视觉质量,在人类偏好评分和美学评估上达到与最先进奖励优化方法相当的结果
- Conclusion: CritiFusion作为插件式精炼阶段与现有扩散模型兼容,无需额外训练,通过语义批判和频谱对齐策略有效提升细节、真实性和提示词保真度
[70] Autoregressive Flow Matching for Motion Prediction
Johnathan Xie,Stefan Stojanov,Cristobal Eyzaguirre,Daniel L. K. Yamins,Jiajun Wu
Main category: cs.CV
TL;DR: 提出ARFM方法,通过大规模视频数据训练,实现长时程运动轨迹预测,并在人机运动预测任务中验证其有效性
- Motivation: 现有运动预测模型通常针对特定领域训练,泛化能力有限;而大规模视频预测模型虽然视觉真实感强,但对复杂运动的建模能力不足。需要开发能够准确预测复杂运动且具有泛化能力的方法
- Method: 提出自回归流匹配(ARFM)方法,这是一种用于序列连续数据概率建模的新方法。在大规模多样化视频数据集上训练,生成未来点轨迹位置,支持长时程预测
- Result: ARFM能够准确预测复杂运动,实验表明将机器人动作预测和人体运动预测基于预测的未来轨迹可以显著提升下游任务性能。建立了人机运动预测的评估基准
- Conclusion: ARFM方法在运动预测方面表现出色,通过大规模视频数据训练实现了对复杂运动的准确建模,为下游任务提供了有效的运动预测基础。代码和模型已开源
[71] Multimodal Diffeomorphic Registration with Neural ODEs and Structural Descriptors
Salvador Rodriguez-Sanz,Monica Hernandez
Main category: cs.CV
TL;DR: 提出基于神经ODE的多模态微分同胚配准方法,结合结构描述符和局部互信息,实现高精度、低计算复杂度的跨模态图像配准
- Motivation: 传统非刚性配准方法在精度、计算复杂度和正则化之间存在权衡,且通常假设图像对在解剖同源区域存在强度相关性,限制了其在多模态场景下的应用。学习型方法需要大量训练数据且对未见模态性能下降。
- Method: 提出基于神经ODE的实例特定框架,结合连续深度网络和结构描述符(模态无关的度量模型)。开发三种变体:整合基于图像或特征的结构描述符,以及由局部互信息计算的非结构图像相似度。
- Result: 在不同扫描数据集组合的实验中,相比适用于大/小变形的先进基准方法,在定性和定量结果上均表现优异。框架对显式正则化水平变化具有鲁棒性,保持低误差,适合不同尺度的配准,且在大变形配准中效率更高。
- Conclusion: 该方法通过神经ODE和结构描述符的结合,实现了高效、准确的多模态微分同胚配准,克服了传统方法在跨模态应用中的限制,且无需大量训练数据,对未见模态具有良好泛化能力。
[72] SCPainter: A Unified Framework for Realistic 3D Asset Insertion and Novel View Synthesis
Paul Dobre,Jackson Cooper,Xin Wang,Hongzhou Yang
Main category: cs.CV
TL;DR: SCPainter:一个统一框架,结合3D高斯泼溅资产表示、3D场景点云和扩散生成,实现自动驾驶场景中逼真的3D资产插入和新视角合成。
- Motivation: 自动驾驶仿真需要多样化的训练数据,特别是长尾驾驶场景。现有方法将3D资产插入和新视角合成(NVS)分开处理,缺乏统一的仿真框架。逼真的3D资产插入应与NVS结合,以创建更多样化的训练场景。
- Method: 提出SCPainter框架,集成3D高斯泼溅(GS)汽车资产表示和3D场景点云,通过扩散模型生成高质量图像。将3D GS资产和场景点云投影到新视角,用这些投影作为扩散模型的条件输入。
- Result: 在Waymo Open Dataset上的评估表明,该框架能够实现3D资产插入和新视角合成,促进创建多样化和逼真的驾驶数据。
- Conclusion: SCPainter提供了一个统一的仿真框架,能够联合处理逼真的3D资产插入和新视角合成,为自动驾驶训练创建更多样化和真实的场景数据。
[73] Improved cystic hygroma detection from prenatal imaging using ultrasound-specific self-supervised representation learning
Youssef Megahed,Robin Ducharme,Inok Lee,Inbal Willner,Olivier X. Miguel,Kevin Dick,Adrian D. C. Chan,Mark Walker,Steven Hawken
Main category: cs.CV
TL;DR: 该研究评估了超声特异性自监督预训练模型USF-MAE在早期妊娠超声图像中检测囊性水囊瘤的性能,相比传统DenseNet-169基线模型,在所有评估指标上均有显著提升。
- Motivation: 囊性水囊瘤是高风险产前超声发现,与染色体异常、结构畸形和不良妊娠结局相关。自动化检测可提高可重复性并支持规模化早期筛查,但有监督深度学习方法受限于小型标记数据集。因此需要探索自监督预训练方法来解决数据稀缺问题。
- Method: 研究使用基于掩码自编码器(MAE)的超声自监督基础模型(USF-MAE),该模型在超过37万张未标记超声图像上预训练。然后针对囊性水囊瘤检测任务进行微调,用于正常对照组和囊性水囊瘤病例的二元分类。采用与DenseNet-169基线相同的超声数据集、预处理流程和4折交叉验证协议进行评估,使用Score-CAM可视化分析模型可解释性。
- Result: USF-MAE在所有评估指标上均优于DenseNet-169基线:平均准确率0.96 vs 0.93,敏感性0.94 vs 0.92,特异性0.98 vs 0.94,ROC-AUC 0.98 vs 0.94。Score-CAM可视化显示模型关注胎儿颈部相关区域,具有临床相关性。Wilcoxon符号秩检验证实性能提升具有统计学显著性(p=0.0057)。
- Conclusion: 超声特异性自监督预训练能够促进准确、稳健的深度学习方法检测早期妊娠超声图像中的囊性水囊瘤。USF-MAE模型在有限标记数据下表现出优越性能,为自动化产前筛查提供了有前景的解决方案。
[74] Split4D: Decomposed 4D Scene Reconstruction Without Video Segmentation
Yongzhen Hu,Yihui Yang,Haotong Lin,Yifan Wang,Junting Dong,Yifu Deng,Xinyu Zhu,Fan Jia,Hujun Bao,Xiaowei Zhou,Sida Peng
Main category: cs.CV
TL;DR: 提出Freetime FeatureGS方法,通过可学习的特征和高斯基元线性运动能力,从单帧分割图直接重建分解的4D场景,无需视频分割,显著提升重建质量
- Motivation: 现有方法依赖视频分割结果进行4D场景重建,但视频分割质量不稳定导致重建结果不可靠。需要一种不依赖视频分割的可靠4D场景分解重建方法
- Method: 使用Freetime FeatureGS表示动态场景:高斯基元具有可学习特征和线性运动能力,通过对比损失使基元特征根据2D分割图中的实例关系接近或远离,采用时序有序采样实现特征在时间维度上的流式传播
- Result: 在多个数据集上的实验结果表明,该方法的重建质量显著优于现有方法,实现了更可靠的4D场景分解重建
- Conclusion: 提出的Freetime FeatureGS方法通过消除对视频分割的依赖,实现了更准确和稳定的分解4D场景重建,为动态场景理解提供了新思路
[75] TrimTokenator-LC: Towards Adaptive Visual Token Pruning for Large Multimodal Models with Long Contexts
Hao Zhang,Mengsi Lyu,Bo Huang,Yulong Ao,Yonghua Lin
Main category: cs.CV
TL;DR: 该论文提出了一种针对长上下文多图像场景的自适应视觉令牌剪枝方法,通过分解冗余为图像内和图像间两部分,动态分配预算,在保持性能的同时显著减少视觉令牌数量。
- Motivation: 大型多模态模型在处理视觉输入时,将图像编码为大量视觉令牌,这会显著增加推理成本。现有的视觉令牌剪枝方法往往忽略了长上下文、多图像场景的挑战,需要专门针对这类场景的优化方案。
- Method: 提出两阶段自适应剪枝方法:1)图像内阶段:基于内容感知为每个图像分配令牌预算,贪婪选择最具代表性的令牌;2)图像间阶段:进行全局多样性过滤形成候选池,然后应用帕累托选择程序平衡多样性与文本对齐。
- Result: 大量实验表明,该方法在长上下文设置下保持强大性能的同时,显著减少了视觉令牌数量,有效降低了推理成本。
- Conclusion: 该研究针对长上下文多图像场景的视觉令牌剪枝问题,提出了有效的自适应解决方案,通过分解冗余和动态预算分配,在性能和效率之间取得了良好平衡。
[76] Neighbor-Aware Token Reduction via Hilbert Curve for Vision Transformers
Yunge Li,Lanyu Xu
Main category: cs.CV
TL;DR: 提出基于希尔伯特曲线重排序的邻居感知token缩减方法,通过保留2D空间中的邻居结构来提高ViT计算效率
- Motivation: 现有ViT中的token表示存在冗余,而现有的token合并和剪枝策略往往忽视空间连续性和邻居关系,导致局部上下文信息丢失
- Method: 使用希尔伯特曲线对token进行重排序,将2D空间中的邻居结构映射到1D序列表示中,提出邻居感知剪枝(NAP)进行选择性token保留,以及基于相邻token相似性的合并(MAT)进行局部token聚合
- Result: 实验表明该方法在准确率-效率权衡方面达到了最先进的性能,优于现有方法
- Conclusion: 强调了空间连续性和邻居结构的重要性,为ViT的架构优化提供了新的思路
[77] Next Best View Selections for Semantic and Dynamic 3D Gaussian Splatting
Yiqian Li,Wen Jiang,Kostas Daniilidis
Main category: cs.CV
TL;DR: 提出基于Fisher信息的主动学习算法,通过选择信息量最大的视角帧来优化动态场景建模和语义理解,提升渲染质量和语义分割性能。
- Motivation: 在具身智能任务中,语义理解和动态建模至关重要,但相关数据存在大量冗余。传统方法依赖启发式或随机策略选择训练帧,缺乏理论依据。
- Method: 将视角选择问题形式化为主动学习问题,使用Fisher信息量化候选视角对语义高斯参数和变形网络的信息增益,实现语义推理和动态场景建模的联合处理。
- Result: 在大规模静态图像和动态视频数据集上评估,相比随机选择和基于不确定性的启发式方法,该方法能持续提升渲染质量和语义分割性能。
- Conclusion: 提出的基于Fisher信息的主动学习算法为视角选择提供了理论依据,能有效处理语义推理和动态场景建模,优于传统启发式策略。
[78] Plug In, Grade Right: Psychology-Inspired AGIQA
Zhicheng Liao,Baoliang Chen,Hanwei Zhu,Lingyu Zhu,Shiqi Wang,Weisi Lin
Main category: cs.CV
TL;DR: 提出基于心理测量学中等级反应模型(GRM)的AGIQA改进方法,通过算术方式建模难度级别,解决文本-图像语义漂移问题,提升AGI生成图像质量评估性能
- Motivation: 现有AGIQA模型通过测量图像嵌入与多等级质量描述文本嵌入的相似度来评估图像质量,但发现相似度分布常呈现多模态模式,即图像嵌入可能同时与"优秀"和"差"等级描述高度相似,而与"良好"等级偏离,这种语义漂移现象削弱了文本-图像共享空间学习的可靠性
- Method: 提出基于等级反应模型(GRM)的算术质量分级(AGQG)模块:1) 采用双分支结构,一个分支估计图像能力,另一个分支构建多个难度级别;2) 通过算术方式建模难度生成,确保难度级别的单调性;3) 产生单峰且可解释的质量分布;4) 具有即插即用优势,可集成到多种现有AGIQA框架中
- Result: AGQG模块能持续提升多种最先进AGIQA框架的性能,在自然图像和屏幕内容图像质量评估任务中均表现出良好的泛化能力,显示出作为未来IQA模型关键组件的潜力
- Conclusion: 通过心理测量学中的等级反应模型框架,提出的算术质量分级模块有效解决了AGIQA中的语义漂移问题,提供了一种更可靠、可解释的图像质量评估方法,具有广泛的适用性和改进潜力
[79] Parallel Diffusion Solver via Residual Dirichlet Policy Optimization
Ruoyu Wang,Ziyu Li,Beier Zhu,Liangyu Yuan,Hanwang Zhang,Xun Yang,Xiaojun Chang,Chi Zhang
Main category: cs.CV
TL;DR: 提出EPD-Solver,一种新型ODE求解器,通过并行梯度评估减少截断误差,保持低延迟采样,并引入两阶段优化框架
- Motivation: 扩散模型采样延迟高,现有加速方法在低延迟预算下图像质量显著下降,主要原因是无法捕捉高曲率轨迹段导致的累积截断误差
- Method: 提出EPD-Solver,利用向量值函数中值定理更准确近似积分解;采用两阶段优化:蒸馏学习可调参数,参数高效RL微调将求解器重构为随机Dirichlet策略
- Result: EPD-Solver能有效减少截断误差,保持低延迟采样特性,可作为插件提升现有ODE采样器性能,在复杂文本到图像生成任务中表现优异
- Conclusion: EPD-Solver通过并行梯度评估和两阶段优化,在保持低延迟的同时显著提升扩散模型采样质量,为解决加速方法中的截断误差问题提供了有效方案
[80] VPTracker: Global Vision-Language Tracking via Visual Prompt and MLLM
Jingchao Wang,Kaiwen Zhou,Zhijian Wu,Kunhua Ji,Dingjiang Huang,Yefeng Zheng
Main category: cs.CV
TL;DR: VPTracker:首个基于多模态大语言模型的全局视觉-语言跟踪框架,通过位置感知视觉提示机制提升跟踪稳定性
- Motivation: 现有视觉-语言跟踪方法通常局限于局部搜索,在视角变化、遮挡和快速目标移动等挑战场景下容易失败,需要更鲁棒的全局跟踪框架
- Method: 提出基于多模态大语言模型的全局跟踪框架VPTracker,引入位置感知视觉提示机制,基于目标先前位置构建区域级提示,优先进行区域级识别,仅在必要时进行全局推理
- Result: 实验表明该方法显著提升了跟踪稳定性和目标区分能力,在挑战场景下表现优异,为MLLM在视觉跟踪中的应用开辟了新途径
- Conclusion: VPTracker通过结合全局搜索和位置感知视觉提示,有效解决了视觉-语言跟踪中的干扰问题,展示了MLLM在视觉跟踪任务中的潜力
[81] Medical Scene Reconstruction and Segmentation based on 3D Gaussian Representation
Bin Liu,Wenyan Tian,Huangxin Fu,Zizheng Li,Zhifen He,Bo Li
Main category: cs.CV
TL;DR: 提出基于3D高斯和tri-plane表示的高效医学图像3D重建方法,在稀疏切片条件下提升结构连续性和语义一致性
- Motivation: 传统医学图像3D重建方法计算成本高,在稀疏切片条件下容易出现结构不连续和细节丢失问题,难以满足临床精度要求
- Method: 结合3D高斯表示和tri-plane表示的方法,既保持了高斯表示在高效渲染和几何表示方面的优势,又增强了稀疏切片条件下的结构连续性和语义一致性
- Result: 在超声(US)和磁共振(MRI)等多模态医学数据集上的实验表明,该方法能在稀疏数据条件下生成高质量、解剖结构连贯、语义稳定的医学图像,同时显著提高重建效率
- Conclusion: 该方法为医学图像3D可视化和临床分析提供了一种高效可靠的新途径
[82] Evaluating the Performance of Open-Vocabulary Object Detection in Low-quality Image
Po-Chih Wu
Main category: cs.CV
TL;DR: 评估开放词汇目标检测模型在低质量图像下的性能,发现高级图像退化会导致所有模型性能显著下降,OWLv2表现相对稳定
- Motivation: 开放词汇目标检测旨在实现接近人类水平的识别能力,但现有模型在真实世界低质量图像条件下的性能尚未得到充分评估
- Method: 创建模拟真实世界低质量图像的新数据集,评估多种开放词汇目标检测模型(OWLv2、OWL-ViT、GroundingDINO、Detic)在不同程度图像退化下的性能
- Result: 低级别图像退化下mAP分数无明显下降,但高级别图像退化导致所有模型性能急剧下降;OWLv2在不同类型退化中表现最稳定,其他模型性能显著下降
- Conclusion: 开放词汇目标检测模型对高级图像退化敏感,需要开发更鲁棒的模型来处理真实世界低质量图像;将发布数据集和代码促进未来研究
[83] EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation
Libo Zhang,Zekun Li,Tianyu Li,Zeyu Cao,Rui Xu,Xiaoxiao Long,Wenjia Wang,Jingbo Wang,Yuan Liu,Wenping Wang,Daquan Zhou,Taku Komura,Zhiyang Dou
Main category: cs.CV
TL;DR: EgoReAct:首个实时从第一人称视角视频流生成3D对齐人体反应动作的自回归框架,解决了现有方法在严格因果生成和精确3D空间对齐方面的挑战。
- Motivation: 人类对自我中心视觉输入具有自适应、上下文敏感的响应,但现有方法难以同时满足严格因果生成和精确3D空间对齐的双重要求。现有数据集(如ViMo)存在自我中心视频与反应动作之间的空间不一致问题。
- Method: 1. 构建Human Reaction Dataset (HRD)解决数据稀缺和错位问题;2. 提出EgoReAct框架:先通过VQ-VAE将反应动作压缩到紧凑潜空间,再训练GPT从视觉输入生成反应;3. 融入3D动态特征(度量深度和头部动态)增强空间基础。
- Result: 实验表明EgoReAct相比先前方法在真实性、空间一致性和生成效率方面显著提升,同时保持生成过程中的严格因果关系。
- Conclusion: EgoReAct是首个能够实时从第一人称视角视频流生成3D对齐人体反应动作的自回归框架,解决了现有方法的局限性,为更自然的人机交互奠定了基础。
[84] Depth Anything in : Towards Scale Invariance in the Wild
Hualie Jiang,Ziyang Song,Zhiqiang Lou,Rui Xu,Minglang Tan
Main category: cs.CV
TL;DR: DA360将Depth Anything V2适配到全景深度估计,通过ViT学习偏移参数和环形填充消除接缝,在室内外基准上显著提升零样本泛化性能
- Motivation: 全景深度估计在室内场景已有广泛研究,但在开放世界的零样本泛化能力远落后于透视图像,后者受益于丰富的训练数据。这种差距使得从透视域迁移能力成为有吸引力的解决方案。
- Method: 提出DA360,全景适配版的Depth Anything V2。关键创新包括:1)从ViT骨干网络学习偏移参数,将模型的尺度和偏移不变输出转换为尺度不变估计,直接生成良好结构的3D点云;2)在DPT解码器中集成环形填充以消除接缝伪影,确保空间连贯且尊重球形连续性的深度图。
- Result: 在标准室内基准和新构建的室外数据集Metropolis上评估,DA360相比基础模型在室内和室外基准上分别实现超过50%和10%的相对深度误差降低。显著优于现有全景深度估计方法,相比PanDA在所有三个测试数据集上实现约30%的相对误差改进,建立了零样本全景深度估计的新SOTA性能。
- Conclusion: DA360成功将透视域深度估计能力迁移到全景域,通过创新的偏移参数学习和环形填充技术,显著提升了全景深度估计的零样本泛化性能,为机器人和AR/VR应用提供了更全面的环境结构信息捕捉解决方案。
[85] KANO: Kolmogorov-Arnold Neural Operator for Image Super-Resolution
Chenyu Li,Danfeng Hong,Bing Zhang,Zhaojie Pan,Jocelyn Chanussot
Main category: cs.CV
TL;DR: 本文提出了一种基于Kolmogorov-Arnold定理的新型可解释算子KANO,用于解决单图像超分辨率中的非线性退化过程建模问题,通过B样条函数逼近光谱曲线,实现透明可控的退化过程表征。
- Motivation: 单图像超分辨率面临高度非线性退化过程、复杂物理相互作用和多种不确定性来源的挑战。现有的可解释SR方法通常依赖黑盒深度网络建模潜在变量,导致退化过程不透明且不可控。需要一种更透明、结构化的方法来表征退化过程。
- Method: 基于Kolmogorov-Arnold定理,提出Kolmogorov-Arnold神经算子(KANO)。采用有限个B样条函数的加性结构来分段逼近连续光谱曲线。通过学习和优化定义区间内的样条函数形状参数,准确捕捉局部线性趋势和非线性拐点处的峰谷结构等关键光谱特征。
- Result: KANO能够透明结构化地表示潜在退化拟合过程,为SR结果提供物理可解释性。通过理论建模和实验评估,系统比较了MLP和KAN在处理复杂序列拟合任务中的表现,阐明了这些模型在表征复杂退化机制方面的优势和局限性。
- Conclusion: KANO首次将Kolmogorov-Arnold定理应用于图像超分辨率,提供了一种可解释的退化过程建模方法。该方法通过B样条函数逼近实现了对光谱特征的精确捕捉,为可解释SR技术的发展提供了有价值的见解。
[86] 3D Scene Change Modeling With Consistent Multi-View Aggregation
Zirui Zhou,Junfeng Ni,Shujie Zhang,Yixin Chen,Siyuan Huang
Main category: cs.CV
TL;DR: SCaR-3D是一个新颖的3D场景变化检测框架,通过基于符号距离的2D差异模块和多视角聚合,实现对象级变化检测,并能明确分离变化前后的状态,同时支持持续场景重建。
- Motivation: 现有3D变化检测方法存在空间不一致性,无法明确分离变化前后的状态,这限制了场景监控、探索和持续重建的应用效果。
- Method: 1) 基于符号距离的2D差异模块;2) 带投票和剪枝的多视角聚合;3) 利用3DGS的一致性特性;4) 选择性更新动态区域的持续场景重建策略。
- Result: 方法在CCS3D数据集上表现出高精度和高效率,优于现有方法。CCS3D是一个支持灵活3D变化类型组合的合成数据集。
- Conclusion: SCaR-3D能够有效检测对象级3D变化,明确分离变化前后状态,并支持持续场景重建,为场景监控和重建提供了更好的解决方案。
[87] A Minimal Solver for Relative Pose Estimation with Unknown Focal Length from Two Affine Correspondences
Zhenbao Yu,Shirong Ye,Ronghe Jin,Shunkun Liang,Zibin Liu,Huiyun Zhang,Banglei Guan
Main category: cs.CV
TL;DR: 提出一种基于两个仿射对应和已知垂直方向的相对位姿与焦距估计算法,将5自由度问题简化为3自由度,使用多项式特征值方法求解。
- Motivation: 在自动驾驶、智能手机、无人机等应用中,相机常与IMU结合使用。IMU可以提供相机垂直方向信息,从而将相对位姿估计从5自由度简化为3自由度,提高估计效率和精度。
- Method: 首先利用已知垂直方向和两个仿射对应建立约束方程;然后基于方程组非平凡解的性质推导出四个方程,这些方程仅涉及焦距和相对旋转角两个参数;最后使用多项式特征值方法求解焦距和相对旋转角。
- Result: 在合成和真实数据集上的评估表明,所提出的求解器性能优于现有的最先进求解器。
- Conclusion: 该方法有效利用了IMU提供的垂直方向信息,通过两个仿射对应实现了高效的相对位姿和焦距估计,在实际应用中具有优势。
[88] ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning
Bangya Liu,Xinyu Gong,Zelin Zhao,Ziyang Song,Yulei Lu,Suhui Wu,Jun Zhang,Suman Banerjee,Hao Zhang
Main category: cs.CV
TL;DR: ByteLoom:基于DiT的HOI视频生成框架,通过RCM-cache机制保持物体几何一致性,使用渐进式训练解决数据集稀缺问题
- Motivation: 现有HOI视频生成方法存在两个关键问题:1)缺乏有效机制注入物体多视角信息,导致跨视角一致性差;2)过度依赖手部网格标注来建模交互遮挡
- Method: 提出ByteLoom框架:1)RCM-cache机制,使用相对坐标图作为通用表示来保持物体几何一致性并精确控制6自由度变换;2)渐进式训练课程,增强模型能力并减少对手部网格的需求
- Result: 实验表明该方法能忠实保持人体身份和物体多视角几何,同时维持平滑运动和物体操作
- Conclusion: ByteLoom解决了HOI视频生成中的几何一致性和标注依赖问题,为数字人、电商等应用提供了更实用的解决方案
[89] MUSON: A Reasoning-oriented Multimodal Dataset for Socially Compliant Navigation in Urban Environments
Zhuonan Liu,Xinyu Zhang,Zishuo Wang,Tomohito Kawabata,Xuesu Xiao,Ling Xiao
Main category: cs.CV
TL;DR: MUSON是一个用于短时程社交导航的多模态数据集,通过五步思维链标注提供结构化推理监督,解决了现有数据集缺乏显式推理监督和动作分布长尾的问题。
- Motivation: 现有社交导航数据集缺乏显式推理监督,且动作分布高度长尾,限制了模型学习安全关键行为的能力。
- Method: 在多样化的室内外校园场景中收集数据,采用五步思维链标注(感知、预测、推理、动作、解释),显式建模静态物理约束,并构建理性平衡的离散动作空间。
- Result: Qwen2.5-VL-3B在MUSON上达到最高决策准确率0.8625,证明MUSON可作为社交合规导航的有效可复用基准。
- Conclusion: MUSON通过结构化推理监督和平衡的动作空间,为社交导航提供了高质量的基准数据集,有助于模型学习安全关键的导航行为。
[90] Learning Anatomy from Multiple Perspectives via Self-supervision in Chest Radiographs
Ziyu Zhou,Haozhe Luo,Mohammad Reza Hosseinzadeh Taher,Jiaxuan Pang,Xiaowei Ding,Michael B. Gotway,Jianming Liang
Main category: cs.CV
TL;DR: 提出Lamps方法,通过多视角学习人体解剖结构的一致性、连贯性和层次性,构建医学影像基础模型
- Motivation: 现有自监督学习方法在医学影像中忽视了人体解剖的关键基础结构,限制了学习解剖特征的能力。医学影像直接反映人体内部结构,具有解剖学的一致性、连贯性和层次性特征。
- Method: 提出Lamps方法,在大规模胸部X光片上预训练,通过自监督学习利用人体解剖的一致性、连贯性和层次性作为监督信号,从多视角学习解剖结构。
- Result: 在10个数据集上的实验表明,Lamps相比10个基线模型具有更好的鲁棒性、可迁移性和临床潜力,通过微调和涌现特性分析验证了其优越性。
- Conclusion: Lamps为医学影像基础模型提供了独特机会,能够学习与人体解剖结构对齐的有意义、鲁棒的表征,推动了医学影像分析的发展。
[91] Let Samples Speak: Mitigating Spurious Correlation by Exploiting the Clusterness of Samples
Weiwei Li,Junzhuo Liu,Yuanyuan Ren,Yuchen Zheng,Yahao Liu,Wen Li
Main category: cs.CV
TL;DR: 提出一种数据导向的方法来缓解深度学习模型中的伪相关,通过识别、中和、消除和更新四个步骤构建有效管道,在图像和NLP去偏基准上相比标准ERM将最差组准确率提升超过20%。
- Motivation: 深度学习模型在训练过程中经常学习到与类别标签虚假相关但与预测任务无关的特征。现有方法通常通过标注潜在虚假属性或基于某些经验假设(如偏差的简单性)过滤虚假特征来解决此问题,但由于现实数据中虚假相关的复杂性和难以捉摸性,这些方法可能表现不佳。
- Method: 提出一个包含四个步骤的管道:1) 识别:观察到受虚假特征影响的样本在学习的特征空间中呈现分散分布,从而识别虚假特征的存在;2) 中和:基于简单分组策略中和虚假特征,获得偏差不变表示;3) 消除:通过学习特征变换与偏差不变表示对齐来消除虚假特征;4) 更新:通过整合学习到的特征变换更新分类器,获得无偏模型。
- Result: 在图像和NLP去偏基准测试中,相比标准经验风险最小化(ERM),最差组准确率提升超过20%。
- Conclusion: 提出的数据导向方法通过识别、中和、消除和更新四个步骤构建了一个有效的去偏管道,能够显著缓解深度学习模型中的伪相关问题,在多个基准测试中取得了显著改进。
[92] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
Ju-Hsuan Weng,Jia-Wei Liao,Cheng-Fu Chou,Jun-Cheng Chen
Main category: cs.CV
TL;DR: 本文提出M-ErasureBench多模态评估框架,系统评估概念擦除方法在文本提示、学习嵌入和反转潜在空间三种输入模态下的效果,并针对现有方法的漏洞提出IRECE增强模块。
- Motivation: 现有概念擦除方法主要关注文本提示,忽略了图像编辑和个性化生成等实际应用中日益重要的其他输入模态(如学习嵌入和反转潜在空间),这些模态可能成为攻击面,导致已擦除的概念重新出现。
- Method: 1) 提出M-ErasureBench多模态评估框架,在三种输入模态(文本提示、学习嵌入、反转潜在空间)和两种访问设置(白盒、黑盒)下评估概念擦除方法;2) 提出IRECE模块,通过交叉注意力定位目标概念并在去噪过程中扰动相关潜在向量。
- Result: 现有方法在文本提示上表现良好,但在学习嵌入和反转潜在空间上基本失效,白盒设置下的概念再现率超过90%。IRECE能显著恢复鲁棒性,在最具挑战性的白盒潜在反转场景中将CRR降低达40%,同时保持视觉质量。
- Conclusion: M-ErasureBench是首个超越文本提示的全面概念擦除基准,结合IRECE为构建更可靠的保护性生成模型提供了实用保障,揭示了多模态输入下概念擦除的脆弱性并提出了有效解决方案。
[93] SwinTF3D: A Lightweight Multimodal Fusion Approach for Text-Guided 3D Medical Image Segmentation
Hasan Faraz Khan,Noor Fatima,Muzammil Behzad
Main category: cs.CV
TL;DR: SwinTF3D是一个轻量级多模态融合方法,通过统一视觉和语言表示实现文本引导的3D医学图像分割,在保持高效计算的同时实现准确的语义感知分割。
- Motivation: 现有3D分割框架主要依赖大规模标注数据的视觉学习,缺乏语义理解能力,难以适应新领域和临床任务,无法处理灵活的用户定义分割目标。
- Method: 采用基于transformer的视觉编码器提取体积特征,通过紧凑的文本编码器和高效融合机制将视觉特征与语言表示整合,实现自然语言提示与医学体积空间结构的语义对齐。
- Result: 在BTCV数据集上实验显示,SwinTF3D在多个器官上获得有竞争力的Dice和IoU分数,对未见数据泛化良好,相比传统transformer分割网络具有显著效率优势。
- Conclusion: SwinTF3D通过桥接视觉感知与语言理解,为交互式、文本驱动的3D医学图像分割建立了实用且可解释的范式,为临床影像提供了更自适应和资源高效的解决方案。
[94] Guided Path Sampling: Steering Diffusion Models Back on Track with Principled Path Guidance
Haosen Li,Wenshuo Chen,Shaofeng Liang,Lei Wang,Haozhe Jia,Yutao Yue
Main category: cs.CV
TL;DR: 论文提出GPS方法解决CFG在迭代细化中的稳定性问题,通过流形约束插值替代外推,实现有界误差和稳定采样路径。
- Motivation: 基于去噪-反演循环的迭代细化方法能提升扩散模型质量,但结合标准CFG时效果受限。研究发现CFG的外推特性会推离采样路径离开数据流形,导致近似误差发散,破坏细化过程。
- Method: 提出Guided Path Sampling (GPS)新范式,用原则性的流形约束插值替代不稳定的外推,确保采样路径保持在数据流形上。理论证明该校正将误差序列从无界放大转变为严格有界。设计最优调度策略动态调整引导强度,使语义注入与模型从粗到细的生成过程对齐。
- Result: 在SDXL和Hunyuan-DiT等现代骨干模型上的实验表明,GPS在感知质量和复杂提示遵循方面优于现有方法。GPS在SDXL上获得0.79的ImageReward和0.2995的HPS v2分数,在GenEval上的整体语义对齐准确率达到57.45%。
- Conclusion: 路径稳定性是有效迭代细化的前提条件,GPS为实现这一目标提供了稳健框架。该方法通过流形约束插值解决了CFG的不稳定性问题,为扩散模型的质量提升和控制提供了新思路。
[95] Hash Grid Feature Pruning
Yangzhi Ma,Bojun Liu,Jie Li,Li Li,Dong Liu
Main category: cs.CV
TL;DR: 提出一种基于高斯分布坐标的哈希网格特征剪枝方法,通过识别并剪除无效特征来减少存储和传输开销,在保持模型性能的同时提升率失真性能。
- Motivation: 哈希网格在隐式神经场学习中广泛使用,但由于高斯分布在3D空间中的不规则和非均匀分布,存在大量稀疏区域,导致许多哈希网格特征无效,造成冗余存储和传输开销。
- Method: 基于输入高斯分布的坐标识别并剪除哈希网格中的无效特征,只对有效特征进行编码,从而减少哈希网格的存储大小。
- Result: 在保持模型性能的同时,该方法显著减少了存储大小,根据标准化委员会定义的通用测试条件,相比基线方法平均比特率降低了8%。
- Conclusion: 提出的哈希网格特征剪枝方法能有效减少存储和传输开销,在不影响模型性能的情况下提升率失真性能,为高斯分布表示提供了更高效的编码方案。
[96] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
Kai Liu,Jungang Li,Yuchong Sun,Shengqiong Wu,Jianzhang Gao,Daoan Zhang,Wei Zhang,Sheng Jin,Sicheng Yu,Geng Zhan,Jiayi Ji,Fan Zhou,Liang Zheng,Shuicheng Yan,Hao Fei,Tat-Seng Chua
Main category: cs.CV
TL;DR: JavisGPT是首个统一的多模态大语言模型,专门用于联合音频-视频理解和生成,采用简洁的编码器-LLM-解码器架构,通过三阶段训练流程实现卓越的音频-视频同步理解和生成能力。
- Motivation: 现有多模态大语言模型主要关注视觉-语言任务,缺乏对音频-视频联合理解和生成的支持,特别是在需要时间同步的复杂场景中。需要开发一个统一的模型来处理音频-视频的联合理解和生成任务。
- Method: 采用编码器-LLM-解码器架构,包含SyncFusion模块进行时空音频-视频融合,使用同步感知可学习查询连接预训练的JAV-DiT生成器。设计三阶段训练流程:多模态预训练、音频-视频微调和大规模指令调优。构建了包含20万+GPT-4o策划对话的JavisInst-Omni数据集。
- Result: 在音频-视频理解和生成基准测试中,JavisGPT超越了现有多模态大语言模型,特别是在复杂和时间同步设置中表现出色。
- Conclusion: JavisGPT成功实现了首个统一的音频-视频联合理解和生成模型,通过创新的架构设计和训练策略,在多模态理解和生成任务中取得了显著进展,为音频-视频AI应用开辟了新方向。
[97] ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
Qihang Peng,Xuesong Chen,Chenye Yang,Shaoshuai Shi,Hongsheng Li
Main category: cs.CV
TL;DR: ColaVLA是一个统一的视觉-语言-动作框架,通过将推理从文本转移到统一潜在空间,并结合分层并行轨迹解码器,解决了VLM规划器在连续控制、延迟和实时部署方面的挑战。
- Motivation: 当前基于视觉语言模型(VLM)的规划器面临三个关键挑战:1)离散文本推理与连续控制之间的不匹配;2)自回归链式思维解码带来的高延迟;3)低效或非因果规划器限制了实时部署。需要一种既能保持VLM泛化能力和可解释性,又能实现高效、准确、安全轨迹生成的解决方案。
- Method: 提出ColaVLA框架,包含两个核心组件:1)认知潜在推理器(Cognitive Latent Reasoner)通过自我适应选择和仅两次VLM前向传递,将场景理解压缩为紧凑的、面向决策的元动作嵌入;2)分层并行规划器(Hierarchical Parallel Planner)在单次前向传递中生成多尺度、因果一致的轨迹。
- Result: 在nuScenes基准测试中,ColaVLA在开环和闭环设置下均实现了最先进的性能,同时具有良好的效率和鲁棒性。
- Conclusion: ColaVLA成功地将VLM的泛化能力和可解释性与高效、准确、安全的轨迹生成相结合,通过统一的潜在空间推理和分层并行解码解决了当前VLM规划器的关键挑战,为自动驾驶规划提供了新的解决方案。
[98] Learning Where to Focus: Density-Driven Guidance for Detecting Dense Tiny Objects
Zhicheng Zhao,Xuanang Fan,Lingma Sun,Chenglong Li,Jin Tang
Main category: cs.CV
TL;DR: DRMNet使用密度图作为空间先验指导自适应特征学习,通过密度生成分支建模目标分布,密集区域聚焦模块实现高效局部-全局特征交互,双滤波器融合模块分离多尺度特征并增强互补性,显著提升高密度小目标检测性能。
- Motivation: 高分辨率遥感图像中密集小目标检测面临严重遮挡和像素足迹有限的挑战,现有方法计算资源分配均匀,无法自适应聚焦密度集中区域,阻碍特征学习效果。
- Method: 提出DRMNet:1) 密度生成分支建模目标分布模式,提供量化先验;2) 密集区域聚焦模块利用密度图识别密集区域,实现高效局部-全局特征交互;3) 双滤波器融合模块通过离散余弦变换将多尺度特征解耦为高低频分量,执行密度引导的交叉注意力增强互补性并抑制背景干扰。
- Result: 在AI-TOD和DTOD数据集上的大量实验表明,DRMNet超越了最先进的方法,特别是在目标密度高、遮挡严重的复杂场景中表现优异。
- Conclusion: DRMNet通过密度图引导的自适应特征学习机制,有效解决了高密度小目标检测中的遮挡和计算效率问题,为遥感图像密集小目标检测提供了新思路。
[99] CLIP-Joint-Detect: End-to-End Joint Training of Object Detectors with Contrastive Vision-Language Supervision
Behnam Raoufi,Hossein Sharify,Mohamad Mahdee Ramezanee,Khosrow Hajsadeghi,Saeed Bagheri Shouraki
Main category: cs.CV
TL;DR: CLIP-Joint-Detect:一个简单、检测器无关的框架,通过端到端联合训练集成CLIP风格的对比视觉-语言监督,提升目标检测性能
- Motivation: 传统目标检测器依赖交叉熵分类,容易受到类别不平衡和标签噪声的影响,需要更鲁棒的监督方法
- Method: 提出轻量级并行头,将区域或网格特征投影到CLIP嵌入空间,通过InfoNCE对比损失和辅助交叉熵项与可学习的类别特定文本嵌入对齐,同时优化所有标准检测损失
- Result: 在Pascal VOC 2007+2012(使用Faster R-CNN)和MS COCO 2017(使用YOLOv11)上实现了一致且显著的性能提升,同时保持了实时推理速度
- Conclusion: 联合优化与可学习文本嵌入显著增强了不同架构和数据集上的闭集检测性能,框架可无缝应用于两阶段和一阶段检测器
[100] Wavelet-based Multi-View Fusion of 4D Radar Tensor and Camera for Robust 3D Object Detection
Runwei Guan,Jianan Liu,Shaofeng Liang,Fangqiang Ding,Shanliang Yao,Xiaokai Bai,Daizong Liu,Tao Huang,Guoqiang Mao,Hui Xiong
Main category: cs.CV
TL;DR: WRCFormer:一种融合原始4D雷达立方体与相机数据的3D目标检测框架,通过多视角表示和渐进融合机制,在恶劣天气下实现最先进的性能。
- Motivation: 4D毫米波雷达在自动驾驶中广泛应用,但其固有的稀疏性和语义信息有限限制了感知能力。现有方法中,基于点云的雷达存在信息损失问题,而直接使用原始雷达数据计算成本过高。需要一种高效融合原始雷达与相机数据的方法。
- Method: 提出WRCFormer框架:1) 使用解耦雷达立方体的多视角表示;2) 设计小波注意力模块作为小波特征金字塔网络的基础模块,增强稀疏雷达信号和图像数据的表示;3) 引入两阶段查询式、模态无关的几何引导渐进融合机制,高效整合多视角特征。
- Result: 在K-Radar基准测试中达到最先进性能:在所有场景下比最佳模型提升约2.4%,在雨夹雪场景下提升1.6%,展现了在恶劣天气条件下的鲁棒性。
- Conclusion: WRCFormer通过融合原始雷达立方体与相机数据,有效解决了4D雷达稀疏性和信息损失问题,在恶劣天气条件下表现出优异的3D目标检测性能,为自动驾驶感知提供了有效的多模态融合解决方案。
[101] YOLO-IOD: Towards Real Time Incremental Object Detection
Shizhou Zhang,Xueqiang Lv,Yinghui Xing,Qirui Wu,Di Xu,Chen Zhao,Yanning Zhang
Main category: cs.CV
TL;DR: YOLO-IOD:首个基于YOLO的实时增量目标检测框架,解决YOLO在增量学习中的知识冲突问题,在传统和新的LoCo COCO基准上均表现优异
- Motivation: 现有增量目标检测方法主要基于Faster R-CNN或DETR系列,无法适应实时YOLO检测框架。YOLO在增量学习中存在三种知识冲突导致灾难性遗忘:前景-背景混淆、参数干扰和知识蒸馏不对齐
- Method: 基于预训练YOLO-World模型,采用阶段式参数高效微调。包含三个核心组件:1) 冲突感知伪标签细化(CPR)缓解前景-背景混淆;2) 基于重要性的核选择(IKS)识别并更新当前任务关键卷积核;3) 跨阶段非对称知识蒸馏(CAKD)通过新旧教师检测头传输学生特征,实现现有类别与新类别间的非对称蒸馏
- Result: 在传统基准和新提出的LoCo COCO基准(消除阶段间数据泄露)上,YOLO-IOD均实现了优越性能,遗忘最小化
- Conclusion: YOLO-IOD是首个实时YOLO增量目标检测框架,有效解决了YOLO在增量学习中的知识冲突问题,在更现实的评估基准上表现出色
[102] RealCamo: Boosting Real Camouflage Synthesis with Layout Controls and Textual-Visual Guidance
Chunyuan Chen,Yunuo Cai,Shujuan Li,Weiyun Liang,Bin Wang,Jing Xu
Main category: cs.CV
TL;DR: ReamCamo是一个基于外绘的统一框架,用于生成逼真的伪装图像,通过布局控制和多模态条件增强语义一致性和视觉逼真度
- Motivation: 现有伪装图像生成方法存在两个主要问题:1)由于视觉相似性不足导致伪装效果不够;2)背景杂乱且与前景目标语义不一致。这导致生成的图像与真实伪装图像存在显著差距
- Method: 提出ReamCamo框架:1)引入额外的布局控制来调节全局图像结构,改善前景对象与生成背景之间的语义一致性;2)构建多模态文本-视觉条件,结合统一细粒度文本任务描述和面向纹理的背景检索,共同指导生成过程;3)提出背景-前景分布差异度量来量化评估伪装质量
- Result: 广泛的实验和可视化结果表明该框架的有效性,能够生成更逼真、语义一致的伪装图像
- Conclusion: ReamCamo通过布局控制和多模态条件解决了现有伪装图像生成方法的局限性,为伪装目标检测提供了更高质量的训练数据
[103] PoseStreamer: A Multi-modal Framework for 6DoF Pose Estimation of Unseen Moving Objects
Huiming Yang,Linglin Liao,Fei Ding,Sibo Wang,Zijian Zeng
Main category: cs.CV
TL;DR: PoseStreamer:一个针对高速移动场景的鲁棒多模态6DoF姿态估计框架,通过自适应姿态记忆队列、物体中心2D跟踪器和射线姿态滤波器提升性能,并在新数据集MoCapCube6D上验证有效性。
- Motivation: 在高速和低光场景中,传统RGB相机存在运动模糊问题,而事件相机虽然具有高时间分辨率,但现有6DoF姿态估计方法在高速物体移动场景中表现不佳,需要专门针对高速移动场景的解决方案。
- Method: 提出PoseStreamer框架,包含三个核心组件:1) 自适应姿态记忆队列,利用历史方向线索保持时间一致性;2) 物体中心2D跟踪器,提供强2D先验以提升3D中心召回;3) 射线姿态滤波器,沿相机射线进行几何细化。还构建了MoCapCube6D多模态数据集用于基准测试。
- Result: 大量实验表明,PoseStreamer在高速移动场景中不仅实现了更高的精度,而且作为一个无模板框架,对未见过的移动物体表现出强大的泛化能力。
- Conclusion: PoseStreamer成功解决了高速移动场景中6DoF姿态估计的挑战,通过多模态融合和时间一致性机制,为高速物体跟踪提供了有效的解决方案,并在新构建的数据集上验证了其优越性能。
[104] Spatial-aware Symmetric Alignment for Text-guided Medical Image Segmentation
Linglin Liao,Qichuan Geng,Yu Liu
Main category: cs.CV
TL;DR: SSA框架通过对称最优传输对齐和复合方向引导策略,增强混合医疗文本(位置、描述、诊断信息)与图像区域的关联,解决现有方法难以同时处理诊断和描述文本、缺乏空间约束的问题。
- Motivation: 当前文本引导医学图像分割方法存在两个关键瓶颈:1)难以同时处理诊断和描述文本,无法有效识别病灶并建立与图像区域的关联;2)现有方法只关注病灶描述而忽略位置约束,导致关键偏差(如"左下肺"可能错误覆盖双侧肺)。
- Method: 提出空间感知对称对齐(SSA)框架:1)对称最优传输对齐机制,建立图像区域与多个相关表达之间的双向细粒度多模态对应;2)复合方向引导策略,通过构建区域级引导掩码,在文本中显式引入空间约束。
- Result: 在公共基准测试上的广泛实验表明,SSA实现了最先进的性能,特别是在准确分割具有空间关系约束特征的病灶方面表现优异。
- Conclusion: SSA框架通过增强混合医疗文本(位置、描述、诊断信息)的处理能力,有效解决了现有方法在同时处理多种文本类型和空间约束方面的局限性,显著提升了医学图像分割的准确性。
[105] Reverse Personalization
Han-Wei Kung,Tuomas Varanka,Nicu Sebe
Main category: cs.CV
TL;DR: 提出反向个性化框架用于人脸匿名化,通过条件扩散反演直接操作图像,无需文本提示或模型微调,支持属性可控的匿名化
- Motivation: 现有基于提示的方法移除或修改身份特征时,要么依赖预训练模型中已有良好表示的主体,要么需要对特定身份进行模型微调,缺乏对未见主体的泛化能力和面部属性控制
- Method: 采用反向个性化框架,利用条件扩散反演直接操作图像;引入身份引导的条件分支以泛化到训练数据之外的主体;支持属性可控的匿名化
- Result: 在身份移除、属性保留和图像质量之间实现了最先进的平衡
- Conclusion: 提出的反向个性化框架为面部匿名化提供了一种有效方法,能够处理未见主体并保持对属性的控制,优于现有方法
[106] A Low-Cost UAV Deep Learning Pipeline for Integrated Apple Disease Diagnosis,Freshness Assessment, and Fruit Detection
Soham Dutta,Soham Banerjee,Sneha Mahata,Anindya Sen,Sayantani Datta
Main category: cs.CV
TL;DR: 提出基于RGB无人机的统一果园智能管道,集成ResNet50检测叶片病害、VGG16评估苹果新鲜度、YOLOv8实时检测定位苹果,在ESP32-CAM和树莓派上实现离线推理,为精准农业提供低成本解决方案。
- Motivation: 现有无人机系统通常孤立处理果园任务且依赖昂贵的多光谱传感器,需要一种低成本、统一的解决方案来同时处理病害检测、果实质量评估和产量估算。
- Method: 构建基于RGB无人机的统一智能管道:使用ResNet50进行叶片病害分类,VGG16评估苹果新鲜度,YOLOv8实现实时苹果检测和定位。系统在ESP32-CAM和树莓派上运行,支持完全离线现场推理。
- Result: 实验结果显示:叶片病害分类准确率达98.9%,新鲜度分类准确率达97.4%,苹果检测F1分数为0.857。系统为多光谱无人机方案提供了可访问且可扩展的替代方案。
- Conclusion: 该框架在低成本硬件上实现了实用的精准农业,提供了一种统一、经济高效的果园监测解决方案,无需云支持即可实现现场实时分析。
[107] OpenGround: Active Cognition-based Reasoning for Open-World 3D Visual Grounding
Wenyuan Huang,Zhao Wang,Zhou Wei,Ting Huang,Fang Zhao,Jian Yang,Zhenyu Zhang
Main category: cs.CV
TL;DR: OpenGround:基于主动认知推理的零样本开放世界3D视觉定位框架,通过动态更新对象查找表解决预定义目标限制问题
- Motivation: 现有3D视觉定位方法依赖预定义的对象查找表来查询视觉语言模型,限制了在未定义或意外目标场景中的应用,需要解决开放世界场景下的3D视觉定位问题
- Method: 提出OpenGround框架,核心是主动认知推理模块,通过认知任务链进行类人目标感知,主动推理上下文相关对象,动态更新对象查找表来扩展VLM认知范围
- Result: 在Nr3D上取得竞争性性能,在ScanRefer上达到最先进水平,在提出的OpenTarget数据集上实现17.6%的显著提升
- Conclusion: OpenGround通过主动认知推理机制有效解决了开放世界3D视觉定位问题,能够处理预定义和开放世界类别,为实际应用提供了更灵活的解决方案
[108] With Great Context Comes Great Prediction Power: Classifying Objects via Geo-Semantic Scene Graphs
Ciprian Constantinescu,Marius Leordeanu
Main category: cs.CV
TL;DR: 提出Geo-Semantic Contextual Graph (GSCG)框架,通过构建包含几何、颜色、材料属性和空间关系的图结构,结合目标物体、邻居和全局场景上下文进行物体分类,显著提升识别准确率。
- Motivation: 人类识别物体时能利用丰富的场景上下文信息(空间关系、材料属性、物体共现),而传统计算系统通常在孤立区域操作,忽略这些关键上下文信息。本文旨在解决这一差距,强调上下文在物体识别中的关键作用。
- Method: 1. 从单目图像构建Geo-Semantic Contextual Graph (GSCG):结合度量深度估计器和统一的全景分割与材料分割模型,将物体编码为节点(包含几何、颜色、材料属性),空间关系编码为边;2. 设计专门的图分类器,聚合目标物体、直接邻居和全局场景上下文特征进行类别预测。
- Result: 在COCO 2017数据集上,上下文感知模型达到73.4%的分类准确率,远超无上下文版本(最低38.4%)。优于微调ResNet模型(最高53.5%)和最先进的多模态大语言模型Llama 4 Scout(42.3%)。
- Conclusion: 显式结构化和可解释的上下文表示对于物体识别任务具有显著优势,GSCG框架通过整合丰富的场景信息实现了性能的显著提升,证明了上下文在计算视觉系统中的重要性。
[109] An Architecture-Led Hybrid Report on Body Language Detection Project
Thomson Tong,Diba Darooneh
Main category: cs.CV
TL;DR: 该报告分析了两种现代视觉语言模型(Qwen2.5-VL-7B-Instruct和Llama-4-Scout-17B-16E-Instruct)的架构特性,并将其映射到视频到人工制品的实际管道中,用于人体语言检测。
- Motivation: 理解现代视觉语言模型的架构特性如何影响实际应用中的视频处理管道,特别是人体语言检测任务。通过架构分析来指导工程选择、设计稳健接口和规划评估。
- Method: 采用架构导向的分析方法:1) 总结共享的多模态基础(视觉标记化、Transformer注意力、指令跟随);2) 详细描述两种VLM架构以证明工程选择的合理性;3) 将模型行为映射到系统约束,包括结构化输出验证、几何正确性限制、帧本地标识符等。
- Result: 建立了VLM架构特性与视频处理管道之间的明确映射关系,识别出关键系统约束:结构化输出可能语法正确但语义错误、模式验证仅限于结构而非几何正确性、人物标识符在当前提示约定中是帧本地的、交互式单帧分析返回自由文本而非JSON。
- Conclusion: 这些架构与系统约束的区分对于撰写可靠声明、设计稳健接口和规划评估至关重要。理解模型架构如何影响实际应用中的行为是构建可靠视频分析系统的关键。
[110] Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion
Yi Zhou,Xuechao Zou,Shun Zhang,Kai Li,Shiying Wang,Jingming Chen,Congyan Lang,Tengfei Cao,Pin Tao,Yuanchun Shi
Main category: cs.CV
TL;DR: Co2S提出了一种稳定的半监督遥感图像语义分割框架,通过融合视觉语言模型和自监督模型的先验知识,解决伪标签漂移问题。
- Motivation: 半监督遥感图像语义分割虽然能减轻标注负担,但存在伪标签漂移问题,即确认偏差导致训练过程中错误累积。需要一种更稳定的方法来缓解这一问题。
- Method: 1. 构建异构双学生架构:使用预训练的CLIP和DINOv3初始化两个不同的ViT视觉基础模型;2. 显式-隐式语义协同引导机制:利用文本嵌入(显式)和可学习查询(隐式)提供类别级引导;3. 全局-局部特征协同融合策略:融合CLIP的全局上下文信息和DINOv3的局部细节。
- Result: 在六个流行数据集上的广泛实验表明,该方法在各种划分协议和多样化场景中均取得领先性能。
- Conclusion: Co2S通过协同融合视觉语言模型和自监督模型的先验知识,有效缓解了伪标签漂移问题,实现了稳定且高性能的半监督遥感图像语义分割。
[111] 3D sans 3D Scans: Scalable Pre-training from Video-Generated Point Clouds
Ryousuke Yamada,Kohsuke Ide,Yoshihiro Fukuhara,Hirokatsu Kataoka,Gilles Puy,Andrei Bursuc,Yuki M. Asano
Main category: cs.CV
TL;DR: LAM3C:从无标签视频学习3D表示的自监督框架,无需真实3D扫描,在室内分割任务上超越现有方法
- Motivation: 大规模3D场景扫描成本高昂且劳动密集,研究是否可以从无真实3D传感器的无标签视频中学习3D表示
- Method: 提出LAM3C框架:1) 构建RoomTours数据集,从网络收集房间漫游视频,使用现成重建模型生成49,219个场景;2) 引入噪声正则化损失,通过强制局部几何平滑性和特征稳定性来稳定表示学习
- Result: 不使用任何真实3D扫描,LAM3C在室内语义和实例分割任务上超越了之前的自监督方法
- Conclusion: 无标签视频是3D自监督学习的丰富数据源,可以从视频生成的点云中有效学习3D表示
[112] Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
Zhengyang Liang,Yan Shu,Xiangrui Liu,Minghao Qin,Kaixin Liang,Paolo Rota,Nicu Sebe,Zheng Liu,Lizi Liao
Main category: cs.CV
TL;DR: Video-BrowseComp是首个针对开放网络视频研究的基准测试,包含210个需要主动浏览视频时间线来验证外部声明的问题,填补了现有视频基准在代理视频推理方面的空白。
- Motivation: 当前自主代理从被动检索转向主动开放网络研究,但视频作为网络最动态的模态存在显著差距。现有视频基准主要关注被动感知,缺乏对代理视频研究的评估,无法评估主动查询视频时间线、交叉引用分散证据和在开放网络上验证声明的能力。
- Method: 提出Video-BrowseComp基准,包含210个专门为开放网络代理视频推理设计的问题。该基准强制依赖时间视觉证据,确保答案不能仅通过文本搜索获得,而需要导航视频时间线来验证外部声明。
- Result: 评估最先进模型显示严重瓶颈:即使是GPT-5.1(带搜索)等先进搜索增强模型也仅达到15.24%准确率。模型主要依赖文本代理,在元数据丰富的领域表现良好,但在元数据稀疏的动态环境中(如体育、游戏)视觉基础至关重要时表现崩溃。
- Conclusion: Video-BrowseComp作为首个开放网络视频研究基准,将领域从被动感知推向主动视频推理,揭示了当前模型在需要视觉基础的动态视频环境中的局限性。
[113] MedSAM-based lung masking for multi-label chest X-ray classification
Brayden Miao,Zain Rehman,Xin Miao,Siming Liu,Jianjie Wang
Main category: cs.CV
TL;DR: 提出基于MedSAM的肺部分割引导的胸部X光分类流程,通过肺部分割掩码作为空间先验,研究不同掩码策略对多标签异常分类性能的影响
- Motivation: 胸部X光自动分析面临疾病信号弱、数据集偏差和空间监督有限等挑战,医学图像分割基础模型MedSAM提供了引入解剖先验的机会,可能提高CXR分析的鲁棒性和可解释性
- Method: 提出分割引导的CXR分类流程:1) 使用Airlangga大学医院公开数据集微调MedSAM作为肺部分割模块;2) 在NIH CXR数据集上应用分割,训练和评估用于5种异常(肿块、结节、肺炎、水肿、纤维化)多标签预测的深度卷积神经网络;3) 比较不同掩码策略(原始图像、宽松掩码、紧密掩码)对分类性能的影响
- Result: MedSAM能在不同成像条件下产生解剖学合理的肺部分割掩码。掩码效果具有任务依赖性和架构依赖性:ResNet50在原始图像上获得最佳异常判别性能,宽松掩码在宏观AUROC上表现相当但显著改善正常病例筛查,紧密掩码降低异常分类性能但提高训练效率
- Conclusion: 肺部分割掩码应被视为可控制的空间先验,需根据网络架构和临床目标进行选择,而非统一应用。宽松掩码通过保留肺门和周围组织上下文,在异常分类和正常病例筛查间提供平衡
[114] PathoSyn: Imaging-Pathology MRI Synthesis via Disentangled Deviation Diffusion
Jian Wang,Sixing Rong,Jiarui Xing,Yuling Xu,Weide Liu
Main category: cs.CV
TL;DR: PathoSyn是一个统一的MRI图像生成框架,通过将成像-病理学重新表述为稳定解剖流形上的解耦加性偏差,实现高质量病理图像合成。
- Motivation: 当前生成模型通常在全局像素域操作或依赖二值掩码,存在特征纠缠问题,导致解剖基质损坏或结构不连续。需要一种能够生成高质量患者特异性合成数据的方法,以支持低数据环境下的诊断算法开发。
- Method: 将合成任务分解为确定性解剖重建和随机偏差建模。核心是偏差空间扩散模型,学习病理残差的条件分布,捕获局部强度变化同时保持全局结构完整性。结合缝感知融合策略和推理时稳定模块确保空间一致性。
- Result: 在肿瘤成像基准测试中,PathoSyn在感知真实性和解剖保真度方面显著优于整体扩散和掩码条件基线方法,能够生成高保真度的患者特异性合成数据集。
- Conclusion: PathoSyn提供了一个数学原理驱动的管道,用于生成高质量合成数据,支持可解释的反事实疾病进展建模,促进精准干预规划和临床决策支持系统的基准测试。
[115] Domain-Shift Immunity in Deep Deformable Registration via Local Feature Representations
Mingzhen Shao,Sarang Joshi
Main category: cs.CV
TL;DR: 深度可变形图像配准模型具有固有的域偏移免疫性,这源于其依赖局部特征而非全局外观进行变形估计。UniReg框架通过固定预训练特征提取器和UNet变形网络,实现了单数据集训练下的跨域多模态鲁棒配准。
- Motivation: 传统观点认为基于学习的配准模型对域偏移敏感,通常需要通过大规模多样化数据集来提高鲁棒性,但缺乏对其内在机制的解释。本文旨在揭示深度可变形配准模型是否具有固有的域偏移免疫性。
- Method: 提出UniReg通用配准框架,将特征提取与变形估计解耦:使用固定的预训练特征提取器获取局部特征表示,然后通过UNet变形网络进行变形估计。通过分析传统CNN模型在模态偏移下的失败原因,验证局部特征一致性的重要性。
- Result: UniReg在单数据集训练下展现出与优化方法相当的跨域和多模态鲁棒性能。分析发现传统CNN模型在模态偏移下的失败源于早期卷积层的数据集诱导偏差,而局部特征一致性是学习型配准鲁棒性的关键驱动因素。
- Conclusion: 域偏移免疫性是深度可变形配准模型的固有属性,源于其对局部特征表示的依赖。这一发现为设计保持域不变局部特征的骨干网络提供了理论基础,推动学习型配准模型的鲁棒性发展。
[116] GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection
Jingyu Li,Xiaolong Zhao,Zhe Liu,Wenxiao Wu,Li Zhang
Main category: cs.CV
TL;DR: GeoTeacher是一种半监督3D目标检测方法,通过几何关系监督和体素数据增强提升模型对物体几何结构的理解能力
- Motivation: 现有半监督3D检测方法主要关注伪标签质量和特征一致性,但忽略了在有限标注数据下模型对物体几何结构敏感性不足的问题,而几何信息对目标感知和定位至关重要
- Method: 1) 基于关键点的几何关系监督模块,将教师模型的几何知识传递给学生模型;2) 体素级数据增强策略增加物体几何多样性,并加入距离衰减机制保护远距离物体的完整性;3) 可与不同SS3D方法结合
- Result: 在ONCE和Waymo数据集上的大量实验表明方法有效且具有泛化性,取得了新的state-of-the-art结果
- Conclusion: GeoTeacher通过几何关系监督和数据增强有效提升了半监督3D检测模型对物体几何结构的理解能力,在有限标注数据下显著提高了性能
[117] REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation
Fulin Shi,Wenyi Xiao,Bin Chen,Liang Din,Leilei Gan
Main category: cs.CV
TL;DR: REVEALER:基于强化学习引导视觉推理的文本-图像对齐评估框架,通过细粒度元素级对齐判断实现更准确、可解释的评估
- Motivation: 现有文本到图像模型评估方法依赖粗粒度指标或静态QA流程,缺乏细粒度可解释性,难以反映人类偏好,需要更精细的对齐评估框架
- Method: 采用"定位-推理-结论"结构化范式,基于多模态大语言模型显式定位语义元素并推导对齐判断,通过GRPO优化,使用包含结构格式、定位准确性和对齐保真度的复合奖励函数
- Result: 在四个基准测试(EvalMuse-40K、RichHF、MHaluBench、GenAI-Bench)上达到最先进性能,优于强有竞争力的专有模型和监督基线,同时比现有迭代视觉推理方法具有更优的推理效率
- Conclusion: REVEALER提供了一个统一、可解释的文本-图像对齐评估框架,通过强化学习引导的视觉推理实现细粒度元素级评估,在准确性和效率方面均表现出色
[118] GVSynergy-Det: Synergistic Gaussian-Voxel Representations for Multi-View 3D Object Detection
Yi Zhang,Yi Wang,Lei Yao,Lap-Pui Chau
Main category: cs.CV
TL;DR: GVSynergy-Det提出了一种基于图像的无监督3D物体检测新框架,通过高斯-体素协同表示学习,无需深度传感器或密集3D监督就能实现高精度检测。
- Motivation: 现有基于图像的3D检测方法面临两难:高精度方法需要密集3D监督,而无监督方法难以从图像中提取准确几何信息。需要一种既能保持高精度又无需昂贵监督的解决方案。
- Method: 提出双表示架构:1) 使用可泛化的高斯泼溅提取几何特征;2) 开发跨表示增强机制,用高斯场的几何细节丰富体素特征。通过可学习的集成直接利用两种表示的特征。
- Result: 在ScanNetV2和ARKitScenes等室内基准测试中达到最先进水平,显著优于现有方法,且无需任何深度或密集3D几何监督。
- Conclusion: 高斯和体素表示的协同学习能够有效解决无监督3D检测的几何提取难题,为基于图像的3D感知提供了新思路。
[119] GaussianDWM: 3D Gaussian Driving World Model for Unified Scene Understanding and Multi-Modal Generation
Tianchen Deng,Xuefeng Chen,Yi Chen,Qu Chen,Yuyao Xu,Lijin Yang,Le Xu,Yu Zhang,Bo Zhang,Wuxiong Huang,Hesheng Wang
Main category: cs.CV
TL;DR: 提出基于3D高斯场景表示的驾驶世界模型框架,实现3D场景理解与多模态生成,通过语言特征嵌入和任务感知采样提升性能。
- Motivation: 现有驾驶世界模型缺乏3D场景理解能力,只能基于输入数据生成内容,且3D空间信息表示方式(点云或BEV特征)无法准确对齐文本信息与底层3D场景。
- Method: 1) 基于3D高斯场景表示的统一框架;2) 将丰富语言特征嵌入每个高斯基元,实现早期模态对齐;3) 任务感知语言引导采样策略,去除冗余3D高斯并注入精确紧凑的3D token到LLM;4) 双条件多模态生成模型,结合高层语言条件和低层图像条件。
- Result: 在nuScenes和NuInteract数据集上验证有效性,达到最先进性能。
- Conclusion: 提出的框架解决了现有驾驶世界模型的局限性,实现了3D场景理解与多模态生成的统一,通过语言特征嵌入和任务感知采样显著提升了性能。
[120] ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis
Maisha Haque,Israt Jahan Ayshi,Sadaf M. Anis,Nahian Tasnim,Mithila Moontaha,Md. Sabbir Ahmed,Muhammad Iqbal Hossain,Mohammad Zavid Parvez,Subrata Chakraborty,Biswajeet Pradhan,Biswajit Banik
Main category: cs.CV
TL;DR: ForCM方法结合对象图像分析与深度学习,使用Sentinel-2影像提升亚马逊雨林森林覆盖制图精度,最佳模型达到95.64%总体精度。
- Motivation: 传统森林覆盖制图方法精度有限,需要开发更准确的方法来支持全球环境监测和保护工作。本研究旨在探索结合对象图像分析(OBIA)与深度学习(DL)的新方法,利用免费易用的工具提高森林覆盖制图精度。
- Method: 提出ForCM方法:1)使用Sentinel-2 Level 2A高分辨率卫星影像;2)评估多种深度学习模型(UNet、UNet++、ResUNet、AttentionUNet、ResNet50-Segnet);3)将最佳DL模型与OBIA技术集成;4)使用三个数据集(两个三波段,一个四波段);5)在QGIS等免费工具中实现。
- Result: ForCM方法显著提升森林覆盖制图精度:ResUNet-OBIA达到94.54%总体精度,AttentionUNet-OBIA达到95.64%总体精度,相比传统OBIA的92.91%有明显改进。研究证明了免费工具在精度限制内实现准确制图的潜力。
- Conclusion: ForCM方法成功结合OBIA与深度学习,显著提高森林覆盖制图精度,为全球环境监测提供有效工具。该方法展示了免费软件在遥感应用中的实用价值,支持环境保护和可持续发展目标。
[121] Exploring Syn-to-Real Domain Adaptation for Military Target Detection
Jongoh Jeong,Youngjin Oh,Gyeongrae Nam,Jeongeun Lee,Kuk-Jin Yoon
Main category: cs.CV
TL;DR: 该论文提出使用虚幻引擎生成RGB合成数据来解决军事目标检测中的跨域适应问题,通过合成到真实的迁移实验评估现有域适应方法。
- Motivation: 军事目标检测在军民应用中至关重要,但现有域适应算法主要针对自然或自动驾驶场景,而军事领域环境复杂多变。SAR数据成本高且处理复杂,RGB相机成本低但缺乏军事目标检测数据集。
- Method: 使用虚幻引擎生成RGB合成数据,创建合成数据集,通过合成到真实的迁移实验,在收集的真实军事目标数据集上验证,并基准测试不同监督程度的域适应方法。
- Result: 使用图像中最小提示(如对象类别)的当前方法在无监督或半监督域适应方法上取得了显著改进,但仍存在需要克服的挑战。
- Conclusion: 通过生成合成数据可以缓解军事目标检测数据集缺乏的问题,但当前域适应方法在军事跨域场景中仍面临挑战,需要进一步研究。
[122] Task-oriented Learnable Diffusion Timesteps for Universal Few-shot Learning of Dense Tasks
Changgyoon Oh,Jongoh Jeong,Jegyeong Cho,Kuk-Jin Yoon
Main category: cs.CV
TL;DR: 提出了一种自适应选择扩散时间步特征的方法,通过任务感知时间步选择和时间步特征整合模块,在少样本密集预测任务中提升性能。
- Motivation: 当前扩散模型应用中,时间步特征的选择主要依赖经验直觉,往往导致次优性能且偏向特定任务。需要一种自适应选择时间步特征的方法来提升少样本密集预测任务的性能。
- Method: 提出了两个模块:任务感知时间步选择(TTS)基于时间步损失和相似度得分选择理想扩散时间步;时间步特征整合(TFC)整合选定时间步特征以提升少样本密集预测性能。配合参数高效微调适配器。
- Result: 在大型挑战性Taskonomy数据集上进行密集预测验证,特别是在实用通用和少样本学习场景中,该方法有效实现了性能优势。
- Conclusion: 提出的可学习时间步整合方法能够自适应选择扩散时间步特征,在少样本密集预测任务中显著提升性能,为扩散模型在密集预测任务中的应用提供了新思路。
[123] AVOID: The Adverse Visual Conditions Dataset with Obstacles for Driving Scene Understanding
Jongoh Jeong,Taek-Jin Song,Jong-Hwan Kim,Kuk-Jin Yoon
Main category: cs.CV
TL;DR: 作者提出了AVOID数据集,这是一个在模拟环境中收集的用于实时障碍物检测的对抗性视觉条件数据集,包含各种天气和时间条件下的意外道路障碍物,并附带语义、深度、LiDAR等多种标注。
- Motivation: 现有道路驾驶数据集要么只包含正常场景,要么只包含对抗场景,且往往不包含与其他类别相同视觉域中的道路障碍物。需要可靠地实时检测意外小道路危险,尤其是在变化的对抗条件下(如天气和光照)。
- Method: 引入AVOID数据集,在模拟环境中收集大量意外道路障碍物,覆盖各种天气和时间条件。每个图像都配有相应的语义和深度图、原始和语义LiDAR数据以及路径点,支持大多数视觉感知任务。
- Result: 在障碍物检测任务上对高性能实时网络进行了基准测试,并提出并进行了使用综合多任务网络进行语义分割、深度和路径点预测任务的消融研究。
- Conclusion: AVOID数据集填补了现有数据集的空白,为在对抗性视觉条件下进行实时障碍物检测提供了全面的数据支持,有助于提高自动驾驶系统在复杂环境中的感知能力。
[124] MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?
Shiqi Dai,Zizhi Ma,Zhicong Luo,Xuesong Yang,Yibin Huang,Wanyue Zhang,Chi Chen,Zonghao Guo,Wang Xu,Yufei Sun,Maosong Sun
Main category: cs.CV
TL;DR: MM-UAVBench:首个针对低空无人机场景的多模态大语言模型综合评测基准,涵盖感知、认知、规划三大能力维度,包含19个子任务和5700+人工标注问题,揭示了现有MLLM在复杂低空场景中的适应性问题。
- Motivation: 当前多模态大语言模型(MLLMs)在低空无人机应用领域的潜力尚未充分探索。现有MLLM基准很少覆盖低空场景的独特挑战,而无人机相关评估主要关注特定任务(如定位、导航),缺乏对MLLM通用智能的统一评估。
- Method: 提出MM-UAVBench基准,系统评估MLLM在低空无人机场景中的三大核心能力维度:感知、认知和规划。基准包含19个子任务,超过5700个人工标注问题,所有数据均来自公开数据集的真实无人机采集数据。
- Result: 对16个开源和专有MLLM的广泛实验表明,当前模型难以适应低空场景的复杂视觉和认知需求。分析进一步揭示了阻碍MLLM在无人机场景中有效部署的关键瓶颈,如空间偏差和多视角理解问题。
- Conclusion: MM-UAVBench填补了低空无人机场景MLLM评估的空白,揭示了现有模型的局限性,有望推动面向真实世界无人机智能的鲁棒可靠MLLM的研发。
[125] Holi-DETR: Holistic Fashion Item Detection Leveraging Contextual Information
Youngchae Kwon,Jinyoung Choi,Injung Kim
Main category: cs.CV
TL;DR: 提出Holi-DETR,一种利用三种上下文信息(共现关系、相对位置大小、与人体关键点关系)进行时尚物品检测的Transformer模型,相比传统独立检测方法显著提升性能。
- Motivation: 时尚物品检测面临两大挑战:1)时尚物品外观高度多样化带来的歧义性;2)物品子类别之间的相似性。传统检测器独立检测每个物品,忽略了时尚物品之间存在的有意义关系(如搭配风格),无法有效利用上下文信息。
- Method: 提出Holi-DETR(整体检测Transformer),在DETR及其后续模型基础上整合三种异构上下文信息:1)时尚物品间的共现关系;2)基于物品间空间布局的相对位置和大小;3)物品与人体关键点之间的空间关系。通过显式建模这些上下文关系,实现多个物品的整体检测,减少歧义。
- Result: 实验表明,Holi-DETR相比原始DETR提升了3.6个百分点(pp)的平均精度(AP),相比最近开发的Co-DETR提升了1.1个百分点的AP。
- Conclusion: 通过显式整合三种上下文信息,Holi-DETR能够更准确地检测时尚物品,验证了利用时尚物品间的整体关系(共现、空间布局、人体关系)对于减少检测歧义的有效性。
[126] Bridging Your Imagination with Audio-Video Generation via a Unified Director
Jiaxu Zhang,Tianshu Hu,Yuan Zhang,Zenan Li,Linjie Luo,Guosheng Lin,Xin Chen
Main category: cs.CV
TL;DR: UniMAGE是一个统一的导演模型,将剧本创作和关键镜头设计整合到单一框架中,使用混合Transformer架构和"先交错后解耦"的训练范式,让非专业人士也能制作长上下文、多镜头的电影。
- Motivation: 现有AI视频创作系统将剧本起草和关键镜头设计视为两个独立任务(分别依赖大语言模型和图像生成模型),而逻辑推理和想象力思维都是电影导演的基本素质,应该统一在单一框架中。
- Method: 采用混合Transformer架构统一文本和图像生成。提出"先交错后解耦"训练范式:1) 交错概念学习:使用交错文本-图像数据培养模型对剧本的深度理解和想象力解释;2) 解耦专家学习:将剧本写作与关键帧生成解耦,实现更大的故事讲述灵活性和创造力。
- Result: UniMAGE在开源模型中实现了最先进的性能,生成逻辑连贯的视频剧本和视觉一致的关键帧图像。
- Conclusion: UniMAGE成功地将剧本创作和关键镜头设计统一在单一框架中,通过创新的训练范式增强了叙事逻辑和关键帧一致性,为非专业人士制作高质量电影提供了有效工具。
[127] Anomaly Detection by Effectively Leveraging Synthetic Images
Sungho Kang,Hyunkyu Park,Yeonho Lee,Hanbyul Lee,Mijoo Jeong,YeongHyeon Park,Injae Lee,Juneho Yi
Main category: cs.CV
TL;DR: 提出基于预训练文本引导图像翻译和图像检索的合成缺陷图像生成框架,通过两阶段训练策略有效利用合成图像提升异常检测性能
- Motivation: 工业制造中异常检测至关重要,但真实缺陷图像稀缺。现有合成方法存在明显权衡:基于规则的合成成本低但真实性差,基于生成模型的合成质量高但成本昂贵。需要一种既能高效生成高质量合成缺陷图像又能有效利用这些图像的方法。
- Method: 1. 使用预训练文本引导图像到图像翻译模型生成合成缺陷图像;2. 利用图像检索模型评估生成图像与真实正常图像的相似性,过滤不相关输出;3. 提出两阶段训练策略:先用大量基于规则合成的图像进行预训练,再用少量高质量图像进行微调。
- Result: 在MVTec AD数据集上的实验证明了该方法的有效性,显著降低了数据收集成本,同时提高了异常检测性能。
- Conclusion: 提出的框架通过结合文本引导图像翻译和图像检索,能够高效生成高质量的合成缺陷图像,并通过两阶段训练策略有效利用这些图像,在降低数据收集成本的同时提升了异常检测性能。
[128] SURE Guided Posterior Sampling: Trajectory Correction for Diffusion-Based Inverse Problems
Minwoo Kim,Hongki Lim
Main category: cs.CV
TL;DR: 提出SGPS方法,通过SURE梯度更新和PCA噪声估计校正扩散采样轨迹偏差,在少于100次神经网络评估下实现高质量逆问题重建
- Motivation: 当前基于扩散模型的逆问题求解方法需要数百上千步迭代,存在误差累积问题,导致重建质量受限且计算成本高
- Method: SGPS方法结合Stein无偏风险估计(SURE)梯度更新和PCA噪声估计,在采样早期和中期阶段校正轨迹偏差,减少噪声诱导误差
- Result: 在多种逆问题上评估显示,SGPS在低NFE计数下始终优于现有方法,能在少于100次神经网络评估时保持高质量重建
- Conclusion: SGPS通过有效校正采样轨迹偏差,显著减少了误差累积,实现了在低计算成本下的高质量逆问题求解
[129] Physics-Inspired Modeling and Content Adaptive Routing in an Infrared Gas Leak Detection Network
Dongsheng Li,Chaobo Chen,Siling Wang,Song Gao
Main category: cs.CV
TL;DR: 提出PEG-DRNet用于红外气体泄漏检测,通过物理边缘混合气体动态路由网络解决微弱、半透明气体羽流检测难题,在精度和计算效率上取得最佳平衡。
- Motivation: 红外气体泄漏检测对环境和工业安全至关重要,但气体羽流微弱、小型、半透明且边界模糊,传统方法难以有效检测。
- Method: 1. Gas Block:扩散-对流单元模拟气体传输,局部分支捕捉短程变化,大核分支捕捉长程传播,边缘门控可学习融合模块平衡局部细节和全局上下文;2. AGPEO:自适应梯度和相位边缘算子从多方向梯度和相位一致响应计算可靠边缘先验;3. MSEPM:多尺度边缘感知模块将边缘先验转换为分层边缘特征;4. CASR-PAN:内容自适应稀疏路由路径聚合网络,基于边缘和内容线索选择性传播跨尺度特征。
- Result: 在IIG数据集上,PEG-DRNet达到整体AP 29.8%、AP50 84.3%、小目标AP 25.3%,相比RT-DETR-R18基线分别提升3.0%、6.5%、5.3%,仅需43.7 Gflops和14.9 M参数。在IIG和LangGas数据集上,在AP和AP50指标上超越现有CNN和Transformer检测器。
- Conclusion: PEG-DRNet通过物理边缘混合气体动态路由网络,有效解决了红外气体泄漏检测中微弱、半透明羽流的检测难题,在精度和计算效率方面实现了最佳平衡,为环境监测和工业安全提供了有效解决方案。
[130] RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models
Fan Wei,Runmin Dong,Yushan Lai,Yixiang Yang,Zhaoyang Luo,Jinxiao Zhang,Miao Yang,Shuai Yuan,Jiyao Zhao,Bin Luo,Haohuan Fu
Main category: cs.CV
TL;DR: 提出一种无需训练的两阶段数据剪枝方法,通过熵值筛选和场景感知聚类,在高剪枝率下快速选择高质量遥感图像子集,显著提升扩散基础模型的收敛速度和生成质量。
- Motivation: 现有遥感扩散基础模型依赖大量全局代表性数据,但这些数据通常包含冗余、噪声和类别不平衡问题,降低了训练效率并阻碍收敛。现有方法通常简单聚合多个分类数据集或应用简单去重,忽视了生成建模的分布需求和遥感图像的异质性。
- Method: 提出无需训练的两阶段数据剪枝方法:1)基于熵的准则高效去除低信息样本;2)利用遥感场景分类数据集作为参考基准,进行场景感知聚类与分层采样,在平衡聚类级均匀性和样本代表性的同时,实现高剪枝率下的细粒度选择。
- Result: 即使剪枝85%的训练数据,该方法仍能显著改善收敛性和生成质量。使用该方法训练的扩散基础模型在下游任务(如超分辨率和语义图像合成)中持续达到最先进性能。
- Conclusion: 该数据剪枝范式为开发遥感生成基础模型提供了实用指导,通过高效选择高质量数据子集,使基础模型能够快速收敛并作为生成、下游微调等应用的多功能骨干。
[131] Multimodal Interpretation of Remote Sensing Images: Dynamic Resolution Input Strategy and Multi-scale Vision-Language Alignment Mechanism
Siyu Zhang,Ying Chen,Lianlei Shan,Runhe Qiu
Main category: cs.CV
TL;DR: 提出动态分辨率输入策略和多尺度视觉语言对齐机制,提升遥感图像多模态融合的语义理解精度和计算效率。
- Motivation: 现有方法存在固定分辨率无法平衡效率与细节、单尺度对齐缺乏语义层次的问题,限制了遥感图像多模态融合的应用效果。
- Method: 提出集成DRIS和MS-VLAM的VLM框架:DRIS采用粗到细策略自适应分配计算资源;MS-VLAM构建对象、局部区域和全局三层次对齐机制。
- Result: 在RS-GPT4V数据集上,图像描述任务在BLEU-4、CIDEr指标上,跨模态检索任务在R@10指标上均优于传统方法,显著提升语义理解精度和计算效率。
- Conclusion: 该框架为构建高效稳健的遥感多模态系统提供了新方法,为智能遥感解译的工程应用奠定了理论基础和技术指导。
[132] ViLaCD-R1: A Vision-Language Framework for Semantic Change Detection in Remote Sensing
Xingwei Ma,Shiyang Feng,Bo Zhang,Bin Wang
Main category: cs.CV
TL;DR: ViLaCD-R1是一个两阶段遥感变化检测框架,通过多图像推理器和掩码引导解码器,结合视觉语言模型的语义理解能力,显著提升了变化区域的识别精度和定位准确性。
- Motivation: 传统遥感变化检测方法(像素级操作或编码器-解码器网络)无法充分捕捉高层语义信息,且对非语义扰动敏感。现有的多模态和视觉语言模型方法虽然增强了语义理解,但仍存在空间定位不准确、像素级边界划分不精确和可解释性有限等问题。
- Method: 提出两阶段框架ViLaCD-R1:1) 多图像推理器(MIR):通过监督微调和强化学习训练视觉语言模型,以双时相图像块为输入,输出粗粒度变化掩码;2) 掩码引导解码器(MGD):整合双时相图像特征和粗粒度掩码,预测精确的二进制变化图。
- Result: 在多个遥感变化检测基准测试中,ViLaCD-R1显著提升了真实语义变化的识别和定位能力,有效抑制了非语义变化,在复杂现实场景中达到了最先进的准确率。
- Conclusion: ViLaCD-R1通过结合视觉语言模型的语义推理能力和掩码引导的解码机制,解决了遥感变化检测中的语义理解、空间定位和边界精确划分等关键问题,为复杂场景下的变化检测提供了有效解决方案。
[133] ASemConsist: Adaptive Semantic Feature Control for Training-Free Identity-Consistent Generation
Shin seong Kim,Minjung Shin,Hyunin Cho,Youngjung Uh
Main category: cs.CV
TL;DR: ASemconsist是一个解决文本到图像生成中角色身份一致性的新框架,通过选择性文本嵌入修改、语义控制策略和自适应特征共享,在保持身份一致性的同时确保每张图像的提示对齐。
- Motivation: 现有的文本到图像扩散模型在生成图像序列时,难以在保持角色身份一致性和确保每张图像的文本对齐之间取得平衡,存在明显的权衡问题。
- Method: 1) 选择性文本嵌入修改实现显式语义控制;2) 基于FLUX中填充嵌入的分析,将填充嵌入重新用作语义容器;3) 自适应特征共享策略,自动评估文本歧义并仅对模糊身份提示应用约束;4) 提出统一的评估协议CQS。
- Result: 该框架实现了最先进的性能,有效克服了先前方法在身份一致性和提示对齐之间的权衡问题。
- Conclusion: ASemconsist通过创新的语义控制策略和自适应特征共享,成功解决了文本到图像生成中的角色身份一致性问题,同时保持了高质量的文本对齐。
[134] Contour Information Aware 2D Gaussian Splatting for Image Representation
Masaya Takabe,Hiroshi Watanabe,Sujun Hong,Tomohiro Ikai,Zheming Fan,Ryo Ishimoto,Kakeru Sugimoto,Ruri Imichi
Main category: cs.CV
TL;DR: 提出一种轮廓信息感知的2D高斯泼溅框架,通过结合物体分割先验来改善图像表示质量,特别是在高压缩下保持边缘结构清晰。
- Motivation: 现有2D高斯泼溅方法在Gaussian数量较少时会产生模糊或不清晰的边界,缺乏轮廓感知能力,影响图像表示质量。
- Method: 提出轮廓信息感知的2D高斯泼溅框架,将物体分割先验融入高斯表示中,通过约束每个Gaussian在特定分割区域内进行光栅化,防止跨边界混合;同时引入预热方案来稳定训练和提高收敛性。
- Result: 在合成色卡和DAVIS数据集上的实验表明,该方法在物体边缘区域实现了比现有2DGS方法更高的重建质量,特别是在Gaussian数量很少的情况下,同时保持了快速渲染和低内存使用。
- Conclusion: 通过结合分割先验和轮廓感知约束,提出的方法在保持2D高斯泼溅高效性的同时,显著改善了边缘结构的表示质量,为高压缩下的图像表示提供了更好的解决方案。
[135] Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization
Tong Shao,Yusen Fu,Guoying Sun,Jingde Kong,Zhuotao Tian,Jingyong Su
Main category: cs.CV
TL;DR: 提出CEM方法,通过累积误差最小化优化现有错误校正方法的缓存策略,提高扩散模型推理速度同时保持生成质量
- Motivation: 扩散变换器(DiT)的迭代去噪过程导致推理速度慢,现有缓存加速方法存在较大计算误差,且固定缓存策略无法适应去噪过程中复杂的误差变化
- Method: 提出CEM插件,预定义误差表征模型对加速的敏感性,基于动态规划算法优化缓存策略实现累积误差最小化,可无缝集成到现有错误校正框架和量化模型中
- Result: 在9个生成模型和量化方法上的实验表明,CEM显著提升现有加速模型的生成保真度,在FLUX.1-dev、PixArt-α、StableDiffusion1.5和Hunyuan上甚至超过原始生成性能
- Conclusion: CEM是一种模型无关、泛化性强的保真度优化插件,能自适应任意加速预算,无需额外计算开销即可显著提升扩散模型加速性能
[136] YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection
Xu Lin,Jinlong Peng,Zhenye Gan,Jiawen Zhu,Jun Liu
Main category: cs.CV
TL;DR: YOLO-Master:基于实例条件自适应计算的实时目标检测框架,通过ES-MoE块动态分配计算资源,在保持实时性的同时提升检测性能
- Motivation: 现有实时目标检测方法采用YOLO-like架构,但使用静态密集计算,对所有输入进行统一处理,导致计算资源分配不当:简单场景过度计算,复杂场景计算不足,造成计算冗余和性能不佳
- Method: 提出YOLO-Master框架,引入实例条件自适应计算,核心是高效稀疏专家混合(ES-MoE)块。包含轻量级动态路由网络,通过多样性增强目标指导专家专业化训练,自适应激活最相关专家
- Result: 在五个大规模基准测试中表现优异。MS COCO上达到42.4% AP,延迟1.62ms,比YOLOv13-N提升+0.8% mAP,推理速度加快17.8%。在密集场景中提升最明显,同时保持典型输入效率和实时推理速度
- Conclusion: YOLO-Master通过实例条件自适应计算解决了YOLO-like架构中静态计算资源分配的问题,在保持实时性的同时显著提升检测性能,特别是在复杂场景中表现突出
[137] Multi-Track Multimodal Learning on iMiGUE: Micro-Gesture and Emotion Recognition
Arman Martirosyan,Shahane Tigranyan,Maria Razzhivina,Artak Aslanyan,Nazgul Salikhova,Ilya Makarov,Andrey Savchenko,Aram Avetisyan
Main category: cs.CV
TL;DR: 本文提出两个多模态框架,分别用于微手势识别和行为情感预测,在iMiGUE数据集上验证了方法的有效性,在MiGA 2025挑战赛的情感预测任务中获得第二名。
- Motivation: 微手势识别和行为情感预测都是极具挑战性的任务,需要建模细微、细粒度的人类行为,主要利用视频和骨骼姿态数据。这些任务对理解人类非语言行为具有重要意义。
- Method: 提出两个多模态框架:1)微手势分类框架使用MViTv2-S提取视频特征和2s-AGCN提取骨骼姿态特征,通过跨模态令牌融合模块整合空间和姿态信息;2)情感识别框架使用SwinFace提取面部特征和MViTv2-S提取上下文特征,通过InterFusion模块融合情感表达和身体手势信息。
- Result: 在iMiGUE数据集和MiGA 2025挑战赛的实验表明,该方法在行为情感预测任务中表现出强大的性能和准确性,获得了第二名。
- Conclusion: 提出的多模态框架能够有效处理微手势识别和行为情感预测任务,通过融合不同模态的特征(视频、骨骼姿态、面部表情)来捕捉细微的人类行为模式,在挑战赛中取得了优异成绩。
[138] MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images
Md. Sazzadul Islam Prottasha,Nabil Walid Rafi
Main category: cs.CV
TL;DR: MedGemma-4b-it(经LoRA微调)在六种疾病诊断中表现优于GPT-4,准确率达80.37% vs 69.58%,在癌症和肺炎等高风险任务中敏感性更高。
- Motivation: 多模态大语言模型为医学影像分析提供了新范式,本研究旨在比较专业开源模型MedGemma与专有大模型GPT-4在疾病诊断中的性能差异,探索领域特定微调对临床实施的重要性。
- Method: 使用LoRA(低秩适应)对MedGemma-4b-it模型进行微调,与未经调优的GPT-4进行对比,评估六种不同疾病的诊断能力。通过混淆矩阵和分类报告进行定量分析。
- Result: 微调后的MedGemma-4b-it平均测试准确率达到80.37%,显著高于GPT-4的69.58%。在癌症和肺炎检测等高风险临床任务中,MedGemma表现出更高的敏感性。
- Conclusion: 领域特定微调对于减少临床实施中的幻觉至关重要,MedGemma凭借其卓越的诊断能力和证据推理能力,成为复杂医学推理的先进工具。
[139] CME-CAD: Heterogeneous Collaborative Multi-Expert Reinforcement Learning for CAD Code Generation
Ke Niu,Haiyang Yu,Zhuofan Chen,Zhengtao Yao,Weitao Jia,Xiaodong Ge,Jingqun Tang,Benlei Cui,Bin Li,Xiangyang Xue
Main category: cs.CV
TL;DR: 提出CME-CAD训练范式,通过多专家协同强化学习生成高精度、可编辑的CAD模型,并发布CADExpert开源基准数据集
- Motivation: 传统CAD建模复杂,现有方法从草图重建的3D模型通常不可编辑且精度不足,文本/图像输入需要大量人工标注,限制了工业设计的可扩展性
- Method: 提出异构协同多专家强化学习(CME-CAD)范式,包含两阶段训练:多专家微调(MEFT)和多专家强化学习(MERL),利用不同模型的互补优势进行协同学习
- Result: 开发了CADExpert开源基准,包含17,299个实例,包括正交投影图、精确尺寸标注、专家生成的思维链过程、可执行的CADQuery代码和渲染的3D模型
- Conclusion: CME-CAD范式能够生成准确、约束兼容且完全可编辑的CAD模型,解决了工业设计中CAD模型自动生成的精度和可编辑性问题
[140] Visual Language Hypothesis
Xiu Li
Main category: cs.CV
TL;DR: 论文从拓扑角度研究视觉表示学习,提出视觉理解需要语义语言,视觉空间具有纤维丛结构,语义对应商空间,需要非光滑的判别性目标才能获得语义不变性。
- Motivation: 从结构和拓扑视角理解视觉表示学习,提出核心假设:视觉理解需要语义语言,许多感知观察对应少量离散语义状态。结合表示学习中可迁移性和抽象性的普遍假设,探索视觉空间的拓扑结构。
- Method: 采用拓扑和几何分析方法,将视觉观察空间建模为纤维丛结构,其中干扰变化占据纤维,语义对应商基空间。从该结构推导两个理论结果:1)语义商空间不是子流形,需要非同胚的判别性目标;2)近似商空间对模型架构提出结构要求。
- Result: 理论推导表明:语义不变性需要非光滑的判别性目标(如监督标签、跨实例识别或多模态对齐);语义抽象需要支持拓扑变化的表示机制(先几何扩展分离结构,再坍缩形成离散语义区域的"扩展-捕捉"过程)。
- Conclusion: 该框架提供了与大规模判别性和多模态模型经验规律一致的拓扑视角,强调结果是解释性而非规范性,为理解视觉表示学习提供了新的理论透镜。
[141] CountGD++: Generalized Prompting for Open-World Counting
Niki Amini-Naieni,Andrew Zisserman
Main category: cs.CV
TL;DR: CountGD++ 是一个多模态开放世界计数模型,通过扩展提示方式(支持文本/视觉示例指定不计数对象、引入伪示例自动标注、接受自然/合成图像示例)显著提升了计数灵活性、准确性和泛化能力。
- Motivation: 现有计数方法在指定目标对象方面存在限制:视觉示例需要手动标注,无法指定不计数对象,且只能使用自然图像示例。这些限制影响了计数方法的灵活性和准确性。
- Method: 1) 扩展提示方式,支持用文本和/或视觉示例描述不计数对象;2) 引入"伪示例"概念,在推理时自动标注视觉示例;3) 扩展计数模型以接受自然和合成外部图像的视觉示例;4) 将CountGD++作为视觉专家代理集成到LLM中。
- Result: 在多个数据集上实现了计数准确性、效率和泛化能力的显著提升。代码已开源。
- Conclusion: 通过扩展目标对象指定方式,CountGD++显著提升了多模态开放世界计数的提示灵活性,为更准确、高效的视觉计数任务提供了新方法。
[142] SpatialMosaic: A Multiview VLM Dataset for Partial Visibility
Kanghee Lee,Injae Lee,Minseok Kwak,Kwonyoung Ryu,Jungi Hong,Jaesik Park
Main category: cs.CV
TL;DR: 提出SpatialMosaic数据集和基准,用于增强多模态大语言模型在真实挑战性多视角场景下的空间推理能力
- Motivation: 现有方法依赖预构建的3D表示或现成重建流程,限制了可扩展性和真实世界应用。真实环境中的部分可见性、遮挡和低重叠条件等挑战尚未充分探索。
- Method: 提出可扩展的多视角数据生成和标注流程,构建真实空间推理问答对;引入SpatialMosaic数据集(200万QA对)和SpatialMosaic-Bench基准(100万QA对,6个任务);提出SpatialMosaicVLM混合框架,将3D重建模型作为几何编码器集成到视觉语言模型中。
- Result: 实验表明,提出的数据集和VQA任务有效增强了在挑战性多视角条件下的空间推理能力,验证了数据生成流程在构建真实多样QA对方面的有效性。
- Conclusion: 通过可扩展的数据生成流程和混合框架,显著提升了多模态大语言模型在真实复杂场景下的空间推理能力,为3D场景理解提供了新方向。
[143] MGCA-Net: Multi-Graph Contextual Attention Network for Two-View Correspondence Learning
Shuyuan Lin,Mengtin Lo,Haosheng Chen,Yanjie Liang,Qiangqiang Wu
Main category: cs.CV
TL;DR: 提出MGCA-Net网络,通过上下文几何注意力模块和跨阶段多图共识模块,提升两视图对应关系学习中的几何建模能力和跨阶段信息优化,在异常值剔除和相机姿态估计任务上优于现有方法。
- Motivation: 现有两视图对应关系学习方法在局部几何建模和跨阶段信息优化方面存在局限,难以准确捕捉匹配对的几何约束,从而降低了模型的鲁棒性。
- Method: 提出多图上下文注意力网络(MGCA-Net),包含两个核心模块:1) 上下文几何注意力(CGA)模块,通过自适应注意力机制动态整合空间位置和特征信息,增强局部和全局几何关系捕捉能力;2) 跨阶段多图共识(CSMGC)模块,通过跨阶段稀疏图网络建立几何共识,确保不同阶段间几何信息的一致性。
- Result: 在YFCC100M和SUN3D两个代表性数据集上的实验结果表明,MGCA-Net在异常值剔除和相机姿态估计任务上显著优于现有的SOTA方法。
- Conclusion: MGCA-Net通过创新的几何建模和跨阶段优化机制,有效提升了两视图对应关系学习的性能,为相机姿态估计和3D重建等应用提供了更可靠的匹配关系。
[144] NeXT-IMDL: Build Benchmark for NeXT-Generation Image Manipulation Detection & Localization
Yifei Li,Haoyuan He,Yu Zheng,Bingyao Yu,Wenzhao Zheng,Lei Chen,Jie Zhou,Jiwen Lu
Main category: cs.CV
TL;DR: NeXT-IMDL是一个大规模诊断基准,通过四个基本轴(编辑模型、操作类型、内容语义、伪造粒度)和五个跨维度评估协议,系统性地探测当前图像篡改检测模型的泛化边界,揭示了现有方法在真实世界泛化场景中的系统性失败。
- Motivation: 随着用户友好的图像编辑模型普及和滥用风险增加,迫切需要通用且最新的图像篡改检测与定位方法。当前研究采用跨数据集评估,但这种方法掩盖了现有方法在处理多样化AI生成内容时的脆弱性,导致对进展的误导性印象。
- Method: 提出NeXT-IMDL基准,将AIGC篡改沿四个基本轴分类:编辑模型、操作类型、内容语义和伪造粒度。在此基础上实施五个严格的跨维度评估协议,对11个代表性模型进行广泛实验。
- Result: 实验揭示关键发现:虽然这些模型在原始设置下表现良好,但在模拟真实世界各种泛化场景的协议下,它们表现出系统性失败和显著的性能下降。
- Conclusion: 通过提供这个诊断工具包和新发现,旨在推动开发真正鲁棒的下一代IMDL模型,挑战当前跨数据集评估带来的进步幻觉。
[145] SoulX-LiveTalk Technical Report
Le Shen,Qiao Qian,Tan Yu,Ke Zhou,Tianhang Yu,Yu Zhan,Zhenjie Wang,Ming Tao,Shunshun Yin,Siyuan Liu
Main category: cs.CV
TL;DR: SoulX-LiveTalk是一个14B参数的实时音频驱动虚拟人生成框架,通过双向注意力蒸馏和多步回顾自校正机制,在保持高视觉质量的同时实现亚秒级启动延迟和32FPS实时吞吐。
- Motivation: 大规模扩散模型在实时、无限时长、音频驱动的虚拟人生成中存在计算负载与严格延迟约束的矛盾。现有方法通常通过强制单向注意力或降低模型容量来牺牲视觉保真度。
- Method: 1) 使用自我校正双向蒸馏策略,在视频块内保留双向注意力以保持时空相关性;2) 引入多步回顾自校正机制,使模型能从累积错误中自主恢复;3) 开发全栈推理加速套件,包括混合序列并行、并行VAE和内核级优化。
- Result: SoulX-LiveTalk是首个14B规模系统,实现亚秒级启动延迟(0.87秒)和32FPS实时吞吐,为高保真交互式数字人合成设定了新标准。
- Conclusion: 该框架通过创新的双向注意力保留和自校正机制,成功解决了大规模扩散模型在实时虚拟人生成中的计算-延迟权衡问题,实现了高质量实时生成。
[146] SOFTooth: Semantics-Enhanced Order-Aware Fusion for Tooth Instance Segmentation
Xiaolan Li,Wanquan Liu,Pengcheng Li,Pengyu Jie,Chenqiang Gao
Main category: cs.CV
TL;DR: SOFTooth:一种语义增强、顺序感知的2D-3D融合框架,利用冻结的2D语义提升3D牙齿实例分割性能,无需显式2D掩码监督。
- Motivation: 3D牙齿实例分割面临拥挤牙弓、模糊的牙齿-牙龈边界、缺失牙齿和临床重要的第三磨牙等挑战。现有3D方法存在边界泄漏、中心漂移和身份不一致问题,而2D基础模型(如SAM)虽提供强边界语义,但直接应用于3D临床工作流不切实际。
- Method: 提出SOFTooth框架:1)点级残差门控模块将咬合视图SAM嵌入注入3D点特征以细化边界;2)中心引导掩码细化正则化实例掩码与几何中心一致性;3)顺序感知匈牙利匹配策略整合解剖牙齿顺序和中心距离,确保标签连贯性。
- Result: 在3DTeethSeg'22数据集上达到最先进的整体准确率和平均IoU,在涉及第三磨牙的案例上表现尤其突出,证明无需2D微调即可将丰富2D语义有效迁移到3D牙齿分割。
- Conclusion: SOFTooth通过有效融合2D语义和3D几何信息,解决了3D牙齿分割的关键挑战,为临床工作流提供了实用解决方案,特别在复杂解剖结构和少数类别上表现优异。
[147] Bridging Cognitive Gap: Hierarchical Description Learning for Artistic Image Aesthetics Assessment
Henglin Liu,Nisha Huang,Chang Liu,Jiangpeng Yan,Huijuan Huang,Jixuan Ying,Tong-Yee Lee,Pengfei Wan,Xiangyang Ji
Main category: cs.CV
TL;DR: 论文提出RAD数据集和ArtQuant框架,解决AIGC美学质量评估中的数据稀缺和模型碎片化问题,通过多维度结构化数据集和LLM解码器实现更准确的美学评估。
- Motivation: 美学质量评估对AIGC的人对齐定量评估系统至关重要,但面临两大挑战:1) 数据稀缺和不平衡,现有数据集过度关注视觉感知而忽视更深维度;2) 模型碎片化,当前方法要么用多分支编码器隔离美学属性,要么难以有效处理长文本描述。
- Method: 1) 提出RAD数据集:大规模(70k)、多维度结构化数据集,通过迭代流程生成,无需昂贵人工标注;2) 提出ArtQuant框架:通过联合描述生成耦合孤立美学维度,利用LLM解码器更好建模长文本语义。
- Result: 方法在多个数据集上达到最先进性能,仅需传统训练epoch的33%,缩小了艺术图像与美学判断之间的认知差距。理论分析证实了数据语义充分性和生成范式的协同作用。
- Conclusion: RAD数据集和ArtQuant框架有效解决了美学评估中的数据稀缺和模型碎片化问题,为艺术图像的美学评估提供了数学基础,将促进未来研究。代码和数据集将开源。
[148] DriveLaW:Unifying Planning and Video Generation in a Latent Driving World
Tianze Xia,Yongkang Li,Lijun Zhou,Jingfeng Yao,Kaixin Xiong,Haiyang Sun,Bing Wang,Kun Ma,Hangjun Ye,Wenyu Liu,Xinggang Wang
Main category: cs.CV
TL;DR: DriveLaW提出了一种将视频生成与运动规划统一的新范式,通过将视频生成器的潜在表示直接注入规划器,确保高保真未来预测与可靠轨迹规划的内在一致性。
- Motivation: 当前自动驾驶中的世界模型通常将世界预测和运动规划作为解耦过程处理,缺乏内在一致性。作者希望弥合这一差距,实现真正的统一架构。
- Method: DriveLaW包含两个核心组件:DriveLaW-Video(生成高保真预测的强世界模型)和DriveLaW-Act(从视频潜在表示生成一致轨迹的扩散规划器),采用三阶段渐进训练策略优化。
- Result: 在视频预测任务上,DriveLaW超越了最佳性能工作33.3%的FID和1.8%的FVD;在NAVSIM规划基准测试中创造了新记录,实现了最先进的性能。
- Conclusion: DriveLaW通过统一视频生成和运动规划,为自动驾驶世界模型提供了新的范式,实现了预测与规划的内在一致性,在两项任务上都达到了最先进的性能。
[149] Direct Diffusion Score Preference Optimization via Stepwise Contrastive Policy-Pair Supervision
Dohyun Kim,Seungwoo Lyu,Seung Wook Kim,Paul Hongsuck Seo
Main category: cs.CV
TL;DR: DDSPO是一种新的扩散模型偏好优化方法,直接从获胜和失败策略中获取时间步级监督,无需人工标注数据,通过预训练参考模型自动生成偏好信号,提升文本-图像对齐和视觉质量。
- Motivation: 扩散模型在文本到图像生成任务中表现出色,但难以完全对齐用户意图并保持一致的审美质量。现有的偏好训练方法(如Diffusion DPO)依赖昂贵且可能有噪声的人工标注数据集。
- Method: DDSPO直接从获胜和失败策略中获取每个时间步的监督信号,在去噪轨迹上提供密集的转换级信号。通过预训练参考模型自动生成偏好信号:对比原始提示与语义降级变体条件下的输出,无需显式奖励建模或人工标注。
- Result: DDSPO在文本-图像对齐和视觉质量方面均有提升,优于或匹配现有的基于偏好的方法,同时需要显著更少的监督。
- Conclusion: DDSPO提供了一种有效的分数空间偏好监督方法,无需依赖人工标注数据,通过自动生成的偏好信号实现了更好的生成质量和对齐效果。
[150] Towards Integrating Uncertainty for Domain-Agnostic Segmentation
Jesse Brouwers,Xiaoyan Xing,Alexander Timans
Main category: cs.CV
TL;DR: 该研究评估了不确定性量化能否提升SAM在挑战性分割场景下的泛化能力,创建了UncertSAM基准测试,发现拉普拉斯近似方法能有效关联不确定性估计与分割误差。
- Motivation: 尽管SAM等基础分割模型在零样本任务中表现良好,但在领域偏移或知识有限的情况下仍然脆弱。本研究旨在探索不确定性量化能否以领域无关的方式缓解这些挑战并增强模型泛化能力。
- Method: 1) 创建UncertSAM基准测试,包含8个数据集,涵盖阴影、透明、伪装等挑战性分割条件;2) 评估一系列轻量级后验不确定性估计方法;3) 评估初步的不确定性引导预测细化步骤。
- Result: 在评估的方法中,最后一层拉普拉斯近似产生的uncertainty估计与分割误差有良好相关性,表明其提供了有意义的信号。虽然细化步骤的收益尚属初步,但结果显示了将不确定性纳入分割模型以支持鲁棒、领域无关性能的潜力。
- Conclusion: 不确定性量化有潜力增强分割模型在挑战性条件下的鲁棒性和泛化能力。研究创建了公开的基准测试和代码,为未来研究提供了基础。
[151] Fuzzy-Logic and Deep Learning for Environmental Condition-Aware Road Surface Classification
Mustafa Demetgul,Sanja Lazarova Molnar
Main category: cs.CV
TL;DR: 提出基于天气条件和路面状况数据的实时道路监测系统,结合手机摄像头图像和加速度数据,使用深度学习算法进行道路分类,达到95%以上准确率。
- Motivation: 传统道路监测方法昂贵且不系统,需要大量测量时间。需要开发实时、经济的道路状态监测系统,为车辆规划和主动控制系统提供有价值信息。
- Method: 1) 使用手机摄像头在KIT校园周围道路收集数据;2) 测试多种基于图像的深度学习算法(AlexNet、LeNet、VGG、ResNet);3) 将道路加速度数据与图像数据结合训练;4) 比较加速度和摄像头图像方法的性能;5) 提出使用模糊逻辑根据天气和时间对道路表面进行分类。
- Result: 在5类道路条件分类(沥青、损坏沥青、碎石路、损坏碎石路、铺面路)中,实现了超过95%的准确率性能。比较了不同深度学习算法的表现。
- Conclusion: 提出的实时系统能够有效监测道路表面状态,结合图像和加速度数据,使用深度学习算法实现高精度分类,并可通过模糊逻辑进一步优化天气和时间因素下的分类效果。
[152] RealX3D: A Physically-Degraded 3D Benchmark for Multi-view Visual Restoration and Reconstruction
Shuhong Liu,Chenyu Bao,Ziteng Cui,Yun Liu,Xuangeng Chu,Lin Gu,Marcos V. Conde,Ryo Umagami,Tomohiro Hashimoto,Zijian Hu,Tianhan Xu,Yuan Gan,Yusuke Kurose,Tatsuya Harada
Main category: cs.CV
TL;DR: RealX3D是一个真实捕获的多视角视觉恢复和3D重建基准数据集,包含多种物理退化类型,用于评估方法在真实世界挑战性环境下的鲁棒性。
- Motivation: 当前多视角视觉恢复和3D重建方法在理想条件下表现良好,但在真实世界中的物理退化(如光照变化、散射、遮挡、模糊等)下性能会显著下降。需要建立一个包含真实物理退化的基准数据集来评估和改进现有方法的鲁棒性。
- Method: RealX3D将退化分为四类(光照、散射、遮挡、模糊),采用统一的采集协议在多个严重级别上捕获像素对齐的低质量/高质量视图。每个场景包含高分辨率捕获、RAW图像和密集激光扫描,从中导出世界尺度网格和度量深度。
- Result: 对多种基于优化的和前馈方法进行基准测试显示,在物理退化下重建质量显著下降,突显了当前多视角流程在真实世界挑战性环境中的脆弱性。
- Conclusion: RealX3D基准数据集揭示了当前多视角视觉恢复和3D重建方法在真实物理退化下的局限性,为开发更鲁棒的算法提供了重要的评估平台。
[153] CoFi-Dec: Hallucination-Resistant Decoding via Coarse-to-Fine Generative Feedback in Large Vision-Language Models
Zongsheng Cao,Yangfan He,Anran Liu,Jun Xie,Feng Chen,Zepeng Wang
Main category: cs.CV
TL;DR: CoFi-Dec是一个无需训练的推理框架,通过粗粒度到细粒度的视觉条件生成和基于Wasserstein距离的融合机制,有效减少大视觉语言模型中的幻觉问题。
- Motivation: 大视觉语言模型在多模态理解和生成方面取得了显著进展,但仍然倾向于产生与视觉输入不一致的幻觉内容,这限制了其在现实应用中的可靠性。
- Method: 提出CoFi-Dec框架:1) 受人类视觉过程启发,基于原始图像的粗粒度和细粒度视图生成两个中间文本响应;2) 使用文生图模型将这些响应转换为合成图像,形成多级视觉假设;3) 引入基于Wasserstein距离的融合机制,将这些预测分布对齐到几何一致的解码轨迹中。
- Result: 在六个幻觉基准测试上的广泛实验表明,CoFi-Dec显著减少了实体级和语义级幻觉,优于现有的解码策略。该框架具有模型无关性,无需额外训练,可广泛应用于各种大视觉语言模型。
- Conclusion: CoFi-Dec通过生成式自我反馈和粗到细视觉条件的结合,提供了一种有效减少大视觉语言模型幻觉的解决方案,提高了输出的可靠性和忠实度。
[154] Automated river gauge plate reading using a hybrid object detection and generative AI framework in the Limpopo River Basin
Kayathri Vigneswaran,Hugo Retief,Jai Clifford Holmes,Mariangel Garcia Andarcia,Hansaka Tennakoon
Main category: cs.CV
TL;DR: 提出结合视觉水位线检测、YOLOv8尺度提取和多模态大语言模型的混合框架,用于自动读取河流水位标尺,实现高精度水文监测。
- Motivation: 传统水文观测方法受限于人工测量误差和环境限制,需要准确连续的水位监测来支持洪水预报、水资源管理和生态保护。
- Method: 采用混合框架:图像预处理→标注→水位线检测→尺度间隔估计→数值读取提取,结合YOLOv8姿态尺度提取和GPT-4o/Gemini 2.0 Flash多模态大语言模型。
- Result: 水位线检测精度达94.24%,F1分数83.64%;结合尺度间隔元数据显著提升LLM性能,Gemini Stage 2在最佳图像条件下MAE为5.43cm,RMSE为8.58cm,R²为0.84。
- Conclusion: 该方法为自动化水文监测提供了可扩展、高效可靠的解决方案,展示了实时河流标尺数字化和改善水资源管理的潜力,强调了结合几何元数据与多模态AI的重要性。
[155] Deterministic Image-to-Image Translation via Denoising Brownian Bridge Models with Dual Approximators
Bohan Xiao,Peiyong Wang,Qisheng He,Ming Dong
Main category: cs.CV
TL;DR: 提出Dual-approx Bridge模型,利用布朗桥动力学和双神经网络逼近器,在图像到图像转换中实现高保真、低方差的确定性输出
- Motivation: 确定性I2I转换(如图像超分辨率)需要保证每个输入生成一致且可预测的输出,与真实图像高度匹配。现有方法在保真度和图像质量方面仍有改进空间
- Method: 提出去噪布朗桥模型,采用双逼近器架构:一个用于前向过程,一个用于反向过程,利用布朗桥动力学实现高保真、低方差的图像转换
- Result: 在图像生成和超分辨率等基准数据集上的实验表明,Dual-approx Bridge在图像质量和保真度方面优于随机性和确定性基线方法
- Conclusion: Dual-approx Bridge通过布朗桥动力学和双逼近器架构,在确定性I2I转换中实现了卓越的性能,为高保真图像转换提供了有效解决方案
[156] HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation
Yuxin Wen,Qing Shuai,Di Kang,Jing Li,Cheng Wen,Yue Qian,Ningxin Jiao,Changhai Chen,Weijie Chen,Yiran Wang,Jinkun Guo,Dongyue An,Han Liu,Yanyu Tong,Chao Zhang,Qing Guo,Juan Chen,Qiao Zhang,Youyi Zhang,Zihao Yao,Cheng Zhang,Hong Duan,Xiaoping Wu,Qi Chen,Fei Cheng,Liang Dong,Peng He,Hao Zhang,Jiaxin Lin,Chao Zhang,Zhongyi Fan,Yifan Li,Zhichao Hu,Yuhong Liu,Linus,Jie Jiang,Xiaolong Li,Linchao Bao
Main category: cs.CV
TL;DR: HY-Motion 1.0是一个基于扩散Transformer的亿级参数运动生成模型,能够从文本描述生成3D人体运动,通过大规模预训练、高质量微调和强化学习实现指令跟随能力,在200多个运动类别上表现优异。
- Motivation: 当前运动生成领域缺乏能够从文本指令精确生成高质量3D人体运动的大规模模型,需要开发能够理解复杂指令并生成多样化运动类别的先进系统。
- Method: 采用扩散Transformer架构的流匹配模型,通过三阶段训练范式:1)在3000+小时运动数据上进行大规模预训练;2)在400小时精选数据上进行高质量微调;3)基于人类反馈和奖励模型的强化学习。配合严格的数据清洗和标注流程。
- Result: 模型在运动生成领域首次将DiT架构扩展到亿级参数规模,指令跟随能力显著超越当前开源基准,覆盖6大类超过200个运动类别,实现了最广泛的运动覆盖范围。
- Conclusion: HY-Motion 1.0代表了3D人体运动生成领域的重大进展,通过完整的训练范式和严格的数据处理,实现了高质量的文本到运动生成,开源发布将促进该领域研究并加速商业化进程。
[157] MCI-Net: A Robust Multi-Domain Context Integration Network for Point Cloud Registration
Shuyuan Lin,Wenwu Peng,Junjie Huang,Qiang Qi,Miaohui Wang,Jian Weng
Main category: cs.CV
TL;DR: MCI-Net通过多域上下文集成提升点云配准性能,采用图邻域聚合、渐进上下文交互和动态内点选择,在3DMatch上达到96.4%的召回率。
- Motivation: 现有基于深度学习的点云配准方法通常依赖欧几里得邻域特征提取策略,难以有效捕捉点云中的隐式语义和结构一致性,需要更鲁棒和判别性的特征学习方法。
- Method: 提出多域上下文集成网络(MCI-Net):1) 图邻域聚合模块构建全局图捕捉点云整体结构关系;2) 渐进上下文交互模块通过域内特征解耦和域间上下文交互增强特征判别性;3) 动态内点选择方法利用多轮位姿估计的残差信息优化内点权重。
- Result: 在室内RGB-D和室外LiDAR数据集上的大量实验表明,MCI-Net显著优于现有最先进方法,在3DMatch上达到96.4%的最高配准召回率。
- Conclusion: MCI-Net通过集成多域上下文信息有效提升了点云特征表示和配准性能,为解决点云配准中的特征学习问题提供了新思路。
[158] SC-Net: Robust Correspondence Learning via Spatial and Cross-Channel Context
Shuyuan Lin,Hailiang Liao,Qiang Qi,Junjie Huang,Taotao Lai,Jian Weng
Main category: cs.CV
TL;DR: SC-Net:一种用于两视角对应学习的网络,通过空间和通道双重视角整合双边上下文,提升运动场精度和鲁棒性。
- Motivation: 现有CNN骨干网络在特定任务中可能无法有效聚合全局上下文,并在大视差场景中过度平滑密集运动场,需要针对性设计。
- Method: 提出SC-Net网络,包含三个核心模块:自适应聚焦正则化模块(AFR)增强位置感知和鲁棒性;双边场调整模块(BFA)同时建模长程关系并促进空间和通道维度交互;位置感知恢复模块(PAR)从精炼场中恢复运动向量。
- Result: 在YFCC100M和SUN3D数据集上的相对姿态估计和异常值去除任务中,SC-Net超越了现有最先进方法。
- Conclusion: SC-Net通过空间和通道双重视角有效整合双边上下文,解决了CNN骨干网络在特定任务中的局限性,为两视角对应学习提供了更准确和鲁棒的解决方案。
[159] TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding
Zongsheng Cao,Yangfan He,Anran Liu,Feng Chen,Zepeng Wang,Jun Xie
Main category: cs.CV
TL;DR: TV-RAG是一个无需训练的架构,通过时间对齐和熵引导语义来增强大型视频语言模型对长视频的理解能力,包含时间衰减检索和熵加权关键帧采样两个核心机制。
- Motivation: 当前大型视频语言模型在处理长视频时存在两个主要问题:1) 时间窗口狭窄,难以捕捉长时间跨度的语义变化;2) 主流基于文本的检索方法主要依赖表层词汇重叠,忽略了视觉、音频和字幕通道之间的时间相互依赖性。
- Method: TV-RAG包含两个核心机制:1) 时间衰减检索模块,在相似度计算中注入显式时间偏移,根据真实的多媒体上下文对文本查询进行排序;2) 熵加权关键帧采样器,选择均匀间隔、信息密集的帧,减少冗余同时保持代表性。
- Result: TV-RAG在多个长视频基准测试(Video-MME、MLVU、LongVideoBench)上持续超越大多数领先基线模型,证明了其有效性。该系统提供轻量级、经济高效的升级路径,无需重新训练或微调。
- Conclusion: TV-RAG通过将时间和语义信号结合起来,实现了双层次推理机制,可以无缝集成到任何大型视频语言模型中,显著提升了长视频理解能力,为现有模型提供了有效的增强方案。
[160] Multi-label Classification with Panoptic Context Aggregation Networks
Mingyuan Jiu,Hailong Zhu,Wenchuan Wei,Hichem Sahbi,Rongrong Ji,Mingliang Xu
Main category: cs.CV
TL;DR: PanCAN通过在高维希尔伯特空间中跨尺度特征聚合,分层整合多阶几何上下文,显著提升多标签分类性能。
- Motivation: 现有方法主要关注基本几何关系或局部特征,忽略了物体间的跨尺度上下文交互,限制了复杂场景的理解能力。
- Method: 提出深度全景上下文聚合网络(PanCAN),通过随机游走与注意力机制结合学习多阶邻域关系,跨尺度级联模块动态融合细粒度锚点的邻域特征。
- Result: 在NUS-WIDE、PASCAL VOC2007和MS-COCO基准测试中取得竞争性结果,在定量和定性评估上均优于现有技术。
- Conclusion: PanCAN通过多阶和跨尺度上下文感知特征的有效结合,显著提升了复杂场景理解和多标签分类性能。
[161] IdentityStory: Taming Your Identity-Preserving Generator for Human-Centric Story Generation
Donghao Zhou,Jingyu Lin,Guibao Shen,Quande Liu,Jialin Gao,Lihao Liu,Lan Du,Cunjian Chen,Chi-Wing Fu,Xiaowei Hu,Pheng-Ann Heng
Main category: cs.CV
TL;DR: IdentityStory是一个用于人物中心故事生成的框架,通过迭代身份发现和重去噪身份注入技术,在多个连续图像中保持角色身份一致性,特别是在人脸一致性方面表现优异。
- Motivation: 现有视觉生成模型虽然能从文本生成故事并保持角色一致性,但人物中心的故事生成面临额外挑战:需要保持详细多样的人脸一致性,以及协调不同图像中的多个角色。
- Method: 框架包含两个关键组件:1) 迭代身份发现:提取连贯的角色身份;2) 重去噪身份注入:通过重去噪过程注入身份信息,同时保留所需上下文。
- Result: 在ConsiStory-Human基准测试中,IdentityStory超越了现有方法,特别是在人脸一致性方面表现突出,并支持多角色组合。
- Conclusion: 该框架在无限长度故事生成和动态角色组合等应用中显示出强大潜力,为人物中心的故事生成提供了有效的解决方案。
[162] Iterative Inference-time Scaling with Adaptive Frequency Steering for Image Super-Resolution
Hexin Zhang,Dong Li,Jie Huang,Bingzhou Wang,Xueyang Fu,Zhengjun Zha
Main category: cs.CV
TL;DR: 提出IAFS框架,通过迭代细化和频率感知粒子融合解决扩散模型超分辨率中感知质量与结构保真度的平衡问题
- Motivation: 现有扩散模型超分辨率方法难以同时保证高频感知质量和低频结构保真度,推理时缩放策略存在感知过度平滑或结构一致性丢失的问题
- Method: 提出IAFS框架,结合迭代细化和频率感知粒子融合,通过迭代校正结构偏差逐步优化生成图像,自适应融合高频感知线索和低频结构信息
- Result: 在多个扩散基超分辨率模型上的实验表明,IAFS有效解决了感知-保真度冲突,在感知细节和结构准确性方面持续改进,优于现有推理时缩放方法
- Conclusion: IAFS是一个无需训练的框架,通过迭代扩散推理时缩放和自适应频率引导,实现了超分辨率中感知质量与结构保真度的更好平衡
[163] AnyMS: Bottom-up Attention Decoupling for Layout-guided and Training-free Multi-subject Customization
Binhe Yu,Zhen Wang,Kexin Li,Yuqian Yuan,Wenqiao Zhang,Long Chen,Juncheng Li,Jun Xiao,Yueting Zhuang
Main category: cs.CV
TL;DR: AnyMS:无需训练的布局引导多主体定制框架,通过双级注意力解耦机制实现文本对齐、主体身份保持和布局控制的平衡
- Motivation: 现有多主体定制方法在平衡文本对齐、主体身份保持和布局控制三个关键目标方面存在困难,且依赖额外训练限制了可扩展性和效率
- Method: 提出AnyMS框架,采用自底向上的双级注意力解耦机制:全局解耦分离文本和视觉条件的交叉注意力确保文本对齐;局部解耦将每个主体的注意力限制在指定区域防止冲突;使用预训练图像适配器提取主体特征
- Result: 实验表明AnyMS达到最先进性能,支持复杂构图并扩展到更多主体,无需主体学习或适配器调优
- Conclusion: AnyMS为布局引导的多主体定制提供了一种无需训练的高效解决方案,有效平衡了文本对齐、身份保持和布局控制三个关键目标
[164] PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis
Shengyi Hua,Jianfeng Wu,Tianle Shen,Kangzhe Hu,Zhongzhen Huang,Shujuan Ni,Zhihong Zhang,Yuan Li,Zhe Wang,Xiaofan Zhang
Main category: cs.CV
TL;DR: PathFound是一个用于病理诊断的代理式多模态模型,采用主动证据寻求的工作流程,通过多阶段推理提高诊断准确性。
- Motivation: 现有病理基础模型大多采用静态推理范式,一次性处理全切片图像并产生预测,缺乏在模糊诊断情况下的重新评估和针对性证据获取。这与临床诊断工作流程形成对比,后者通过重复观察切片和进一步检查请求来完善假设。
- Method: PathFound整合了病理视觉基础模型、视觉语言模型和强化学习训练推理模型的能力,通过初始诊断、证据寻求和最终决策三个阶段执行主动信息获取和诊断完善。
- Result: 采用这种策略在各种大型多模态模型中一致提高了诊断准确性,表明证据寻求工作流程在计算病理学中的有效性。PathFound在多种临床场景中实现了最先进的诊断性能,并显示出发现细微细节(如核特征和局部侵袭)的强大潜力。
- Conclusion: PathFound通过模拟临床诊断工作流程的证据寻求推理,显著提升了病理诊断的准确性和可靠性,为计算病理学提供了更符合实际临床实践的新范式。
[165] PurifyGen: A Risk-Discrimination and Semantic-Purification Model for Safe Text-to-Image Generation
Zongsheng Cao,Yangfan He,Anran Liu,Jun Xie,Feng Chen,Zepeng Wang
Main category: cs.CV
TL;DR: PurifyGen是一种无需训练的安全文本到图像生成方法,通过双阶段提示净化策略,在保留模型原始权重的同时减少不安全内容生成。
- Motivation: 扩散模型在提升文本到图像生成质量的同时,也增加了生成不安全内容的风险。传统安全方法(如文本黑名单或有害内容分类)存在易被绕过、需要大量数据和额外训练等缺点。
- Method: 提出双阶段提示净化策略:1)通过计算互补语义距离评估每个token的安全性,识别风险token;2)对风险提示应用双空间变换:将有毒对齐嵌入投影到有毒概念矩阵的零空间以移除有害语义,同时将其对齐到清洁概念的范围空间以增强安全语义。采用token级策略选择性替换风险token嵌入。
- Result: 在五个数据集上的广泛测试表明,PurifyGen在减少不安全内容方面优于现有方法,并且与依赖训练的方法表现相当。该方法具有理论基础,对未见过的提示和模型具有良好的泛化能力。
- Conclusion: PurifyGen提供了一种即插即用的解决方案,无需重新训练模型,在保留原始意图和连贯性的同时有效净化风险提示,为安全文本到图像生成提供了新思路。
[166] RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature
Hanzheng Li,Xi Fang,Yixuan Li,Chaozheng Huang,Junjie Wang,Xi Wang,Hongzhe Bai,Bojun Hao,Shenyu Lin,Huiqi Liang,Linfeng Zhang,Guolin Ke
Main category: cs.CV
TL;DR: RxnBench是一个评估多模态大语言模型理解化学文献中反应图示能力的基准,包含单图问答和全文问答两个任务,发现现有模型在深层化学逻辑和结构识别方面存在显著能力差距。
- Motivation: 多模态大语言模型在化学领域的应用前景广阔,但它们在理解真实科学文献中密集、图形化的反应语言方面的能力尚未得到充分探索。需要建立一个专门的基准来评估模型对化学反应的视觉理解和推理能力。
- Method: 提出了RxnBench多层级基准,包含两个任务:1) 单图问答:从305个精选反应方案中提取1,525个问题,测试细粒度视觉感知和机理推理;2) 全文问答:基于108篇文章,要求模型整合文本、反应方案和表格中的跨模态信息。
- Result: 评估显示MLLMs存在关键能力差距:模型擅长提取显式文本,但在深层化学逻辑和精确结构识别方面表现不佳。具有推理时推理能力的模型显著优于标准架构,但在全文问答任务上无一达到50%准确率。
- Conclusion: 研究强调了开发领域特定视觉编码器和更强推理引擎的紧迫性,以推进自主AI化学家的发展。现有模型在化学文献的深度理解方面仍有很大提升空间。
[167] ThinkGen: Generalized Thinking for Visual Generation
Siyu Jiao,Yiheng Lin,Yujie Zhong,Qi She,Wei Zhou,Xiaohan Lan,Zilong Huang,Fei Yu,Yingchen Yu,Yunqing Zhao,Yao Zhao,Yunchao Wei
Main category: cs.CV
TL;DR: ThinkGen是一个基于思维链推理的视觉生成框架,通过解耦MLLM和DiT架构,结合SepGRPO训练范式,实现多种生成场景下的高质量图像生成。
- Motivation: 当前多模态大语言模型的思维链推理在复杂理解任务中表现出色,但在生成任务中的扩展仍处于初级阶段,受限于特定场景机制,缺乏泛化性和适应性。
- Method: 提出ThinkGen框架,采用解耦架构:预训练MLLM根据用户意图生成定制化指令,DiT根据这些指令生成高质量图像。进一步提出可分离的GRPO训练范式(SepGRPO),在MLLM和DiT模块之间交替进行强化学习。
- Result: 在多个生成基准测试中,ThinkGen实现了稳健的、最先进的性能表现。
- Conclusion: ThinkGen是首个利用MLLM思维链推理的视觉生成框架,其灵活设计支持跨数据集联合训练,为广泛的生成场景提供了有效的思维链推理解决方案。
[168] Image Denoising Using Global and Local Circulant Representation
Zhaoming Kong,Xiaowei Yang,Jiahuan Zhang
Main category: cs.CV
TL;DR: 提出Haar-tSVD图像去噪方法,结合Haar变换与张量奇异值分解,实现快速有效的去噪,无需学习局部基,并引入自适应噪声估计和深度网络增强。
- Motivation: 随着成像设备普及和图像数据激增,对高效有效的图像去噪需求日益增长。传统方法在去噪速度与性能之间难以平衡。
- Method: 建立PCA与Haar变换在循环表示下的理论联系,提出Haar-tSVD方法:结合统一的张量奇异值分解投影与Haar变换,捕捉全局和局部块相关性;作为一步可并行即插即用去噪器;引入自适应噪声估计方案;基于Haar-PCA关系集成深度神经网络。
- Result: 在多种去噪数据集上的实验结果表明,该方法在噪声去除方面具有高效性和有效性,在去噪速度与性能之间取得良好平衡。
- Conclusion: Haar-tSVD通过理论连接PCA与Haar变换,提供了一种计算简单、快速有效的图像去噪方法,无需学习局部基,并通过自适应噪声估计和深度网络集成增强了鲁棒性和性能。
[169] ProGuard: Towards Proactive Multimodal Safeguard
Shaohan Yu,Lijun Li,Chenyang Si,Lu Sheng,Jing Shao
Main category: cs.CV
TL;DR: ProGuard是一个视觉语言主动防护系统,通过强化学习训练,无需模型调整即可识别和描述分布外安全风险,显著提升多模态内容安全防护能力。
- Motivation: 生成模型的快速发展导致多模态安全风险不断涌现,现有防御方法多为被动反应式,需要模型调整,存在局限性。需要一种能够主动识别和描述未知安全风险的防护方法。
- Method: 1) 构建包含87K样本的模态平衡数据集,采用分层多模态安全分类法标注二元安全标签和风险类别;2) 通过强化学习训练视觉语言基础模型;3) 引入分布外安全类别推断任务,并在RL目标中添加基于同义词库的相似性奖励,鼓励模型为未见的不安全类别生成简洁描述。
- Result: ProGuard在二元安全分类上达到与闭源大模型相当的性能,在不安全内容分类上显著优于现有开源防护模型。最重要的是,在分布外风险检测上提升52.6%,在分布外风险描述上提升64.8%,展现出强大的主动防护能力。
- Conclusion: ProGuard通过模态平衡数据集和强化学习训练,实现了有效的主动多模态安全防护,能够识别和描述未知安全风险,为生成模型的安全防护提供了新思路。
[170] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation
Ethan Chern,Zhulin Hu,Bohao Tang,Jiadi Su,Steffi Chern,Zhijie Deng,Pengfei Liu
Main category: cs.CV
TL;DR: 本文提出了一种用于实时交互式视频生成的蒸馏方法,通过改进条件输入质量和优化策略,在保持视觉质量的同时将推理成本降低20倍,并构建了LiveTalk实时多模态交互系统。
- Motivation: 现有扩散模型通过双向注意力的迭代去噪过程无法实现实时交互,而现有的蒸馏方法主要关注文本到视频生成,在多模态条件下存在视觉伪影和质量下降问题,无法实现自然高效的人机交互。
- Method: 针对多模态条件(文本、图像、音频)下的实时交互视频生成,改进了蒸馏配方,重点关注条件输入质量以及在线策略优化的初始化和调度策略。
- Result: 在HDTF、AVSpeech和CelebV-HQ等多模态条件头像视频生成基准测试中,蒸馏模型以20倍更低的推理成本和延迟匹配了全步双向基线的视觉质量。构建的LiveTalk系统在响应延迟上从1-2分钟减少到实时生成。
- Conclusion: 通过改进的蒸馏方法实现了高质量实时多模态交互视频生成,LiveTalk系统在多轮交互视频连贯性和内容质量上优于Sora2、Veo3等最先进模型,实现了无缝的人机多模态交互。
[171] Same or Not? Enhancing Visual Perception in Vision-Language Models
Damiano Marsili,Aditya Mehta,Ryan Y. Lin,Georgia Gkioxari
Main category: cs.CV
TL;DR: TWIN是一个包含56.1万张图像对的大规模数据集,旨在提升视觉语言模型的细粒度感知能力,通过判断相似图像是否描绘同一物体来训练模型关注细微视觉线索。
- Motivation: 现有视觉语言模型在细粒度视觉理解方面存在局限,训练语料库过于强调一般性识别而忽略了细微视觉细节,导致模型存在视觉偏见且无法捕捉微妙差异。
- Method: 构建TWIN数据集,包含56.1万张图像对,要求模型判断两幅视觉上相似的图像是否描绘同一物体。引入FGVQA基准测试套件(1.2万个查询)来量化细粒度识别能力。在TWIN上微调视觉语言模型。
- Result: 在TWIN上微调的视觉语言模型在FGVQA基准上提升了高达19.3%,在艺术、动物、植物、地标等未见领域也表现出色,且不影响通用VQA基准性能。数据集规模与性能呈正相关。
- Conclusion: TWIN数据集能有效提升视觉语言模型的细粒度感知能力,可作为开源VLM训练语料库的补充,推动未来模型的感知精度发展。
[172] Detection Fire in Camera RGB-NIR
Nguyen Truong Khai,Luong Duc Vinh
Main category: cs.CV
TL;DR: 该论文提出三种改进红外夜视摄像头火灾检测的方法:额外NIR数据集、两阶段检测模型和Patched-YOLO,旨在解决夜间火灾检测中人工光源误报和小目标检测问题。
- Motivation: 现有火灾检测模型在红外夜视摄像头应用中面临两大挑战:1)数据集不足导致模型性能受限;2)夜间场景中明亮人工光源常被误判为火灾,造成高误报率;3)RGB图像中小型和远距离火灾目标检测困难。
- Method: 1)构建额外NIR数据集并应用多种数据增强策略;2)提出两阶段检测管道:第一阶段使用YOLOv11进行初步检测,第二阶段使用EfficientNetV2-B0进行误报过滤;3)提出Patched-YOLO,通过基于补丁的处理增强模型对小目标的检测能力。
- Result: 相比现有方法(YOLOv7 mAP50-95:0.51,RT-DETR:0.65,YOLOv9:0.598),提出的两阶段方法在夜间火灾检测中达到更高精度,特别是减少了人工光源造成的误报。Patched-YOLO在RGB图像中改善了小目标和远距离目标的检测性能。
- Conclusion: 通过数据增强、两阶段检测架构和补丁处理技术,该研究有效提升了红外夜视摄像头火灾检测的准确性和鲁棒性,特别是在夜间场景和小目标检测方面取得显著改进。
[173] Scalable Residual Feature Aggregation Framework with Hybrid Metaheuristic Optimization for Robust Early Pancreatic Neoplasm Detection in Multimodal CT Imaging
Janani Annur Thiruvengadam,Kiran Mayee Nabigaru,Anusha Kovi
Main category: cs.CV
TL;DR: 提出SRFA框架用于胰腺肿瘤早期检测,通过多阶段处理实现96.23%准确率
- Motivation: 胰腺肿瘤早期检测面临临床困境,CT扫描中肿瘤对比度低、解剖变异大,需要能增强细微视觉线索并具有良好泛化能力的系统
- Method: 提出可扩展残差特征聚合(SRFA)框架:1) 预处理和MAGRes-UNet分割;2) DenseNet-121提取特征;3) HHO-BA混合元启发式特征选择;4) Vision Transformer与EfficientNet-B3混合分类;5) SSA和GWO双重优化超参数调优
- Result: 模型达到96.23%准确率、95.58% F1分数和94.83%特异性,显著优于传统CNN和当代基于Transformer的模型
- Conclusion: SRFA框架在胰腺肿瘤早期检测中表现出优异性能,有望成为临床有用的工具
[174] Memorization in 3D Shape Generation: An Empirical Study
Shu Pu,Boya Zeng,Kaichen Zhou,Mengyu Wang,Zhuang Liu
Main category: cs.CV
TL;DR: 本文提出一个评估框架来量化3D生成模型的记忆化程度,并分析数据和建模设计对记忆化的影响,发现数据模态、多样性、条件细化等会增加记忆化,而适当的引导尺度、更长的向量集和简单旋转增强可缓解记忆化。
- Motivation: 生成模型在3D视觉中广泛用于合成新形状,但尚不清楚其生成是否依赖于记忆训练数据。理解记忆化有助于防止训练数据泄露并提高生成结果的多样性。
- Method: 设计一个评估框架来量化3D生成模型的记忆化程度,首先应用于现有方法,然后通过控制实验使用潜在向量集扩散模型,分析数据侧(模态、多样性、条件细化)和建模侧(引导尺度、向量集长度、旋转增强)对记忆化的影响。
- Result: 发现记忆化程度取决于数据模态,随数据多样性和条件细化而增加;在建模方面,记忆化在中等引导尺度达到峰值,可通过更长的向量集和简单旋转增强来缓解,而不降低生成质量。
- Conclusion: 该框架和分析提供了对3D生成模型记忆化的实证理解,并提出了简单有效的策略来减少记忆化,同时保持生成质量。
[175] Rethinking the Spatio-Temporal Alignment of End-to-End 3D Perception
Xiaoyu Li,Peidong Li,Xian Wu,Long Shi,Dedong Liu,Yitao Wu,Jiajia Fu,Dixiao Cui,Lijun Zhao,Lining Sun
Main category: cs.CV
TL;DR: HAT是一个时空对齐模块,通过多假设解码自适应选择最优对齐方案,提升自动驾驶端到端感知的鲁棒性
- Motivation: 现有方法依赖注意力机制和统一显式物理模型进行跨帧对象对齐,但不同类别和帧间的运动状态和对象特征变化使得这种对齐不够理想
- Method: HAT首先使用多个显式运动模型生成空间锚点和运动感知特征提议,然后结合缓存的查询中的语义和运动线索进行多假设解码,为目标帧提供最优对齐方案
- Result: 在nuScenes上,HAT持续改进3D时序检测器和跟踪器,与DETR3D检测器配对时达到46.0% AMOTA的SOTA跟踪结果;在端到端AD方法中提升感知精度(+1.3% mAP, +3.1% AMOTA)并降低32%碰撞率
- Conclusion: HAT通过自适应多假设解码机制有效解决时空对齐问题,在语义受损情况下(nuScenes-C)仍能提供更鲁棒的感知和规划能力
[176] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
Keda Tao,Wenjie Du,Bohan Yu,Weiqiang Wang,Jian Liu,Huan Wang
Main category: cs.CV
TL;DR: OmniAgent是一个完全音频引导的主动感知智能体,通过动态编排专用工具实现细粒度音视频推理,在三个基准测试中超越现有模型10-20%的准确率。
- Motivation: 当前全模态大语言模型在统一音视频模态方面取得进展,但缺乏细粒度跨模态理解和多模态对齐能力,现有方法依赖僵化的静态工作流程和密集帧标注。
- Method: 提出从被动响应生成到主动多模态查询的范式转变,采用动态规划自主编排工具调用,通过新颖的粗到细音频引导感知范式,利用音频线索定位时间事件并指导后续推理。
- Result: 在三个音视频理解基准测试中取得最先进性能,超越领先的开源和专有模型10-20%的准确率优势。
- Conclusion: OmniAgent通过动态工具编排和音频引导的主动感知,实现了更细粒度的音视频推理,为多模态理解提供了新的主动感知范式。
[177] IDT: A Physically Grounded Transformer for Feed-Forward Multi-View Intrinsic Decomposition
Kang Du,Yirui Guan,Zeyu Wang
Main category: cs.CV
TL;DR: IDT:基于Transformer的前馈框架,用于多视角本征图像分解,通过注意力机制实现视角一致性,无需迭代生成采样。
- Motivation: RGB图像将材质属性、光照和视角相关效应耦合在一起,现有扩散方法在单视角本征分解表现良好,但扩展到多视角时存在严重的视角不一致问题。
- Method: 提出Intrinsic Decomposition Transformer (IDT),利用基于Transformer的注意力机制在多个输入图像上进行联合推理,采用物理基础的图像形成模型,将图像显式分解为漫反射率、漫反射阴影和镜面反射阴影。
- Result: 在合成和真实数据集上实验表明,IDT实现了更干净的漫反射率、更一致的漫反射阴影、更好分离的镜面反射分量,相比先前方法显著提高了多视角一致性。
- Conclusion: IDT通过Transformer架构和物理基础分解模型,有效解决了多视角本征图像分解中的视角一致性问题,实现了可解释和可控的材质与光照效应分解。
[178] Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation
Shaocong Xu,Songlin Wei,Qizhe Wei,Zheng Geng,Hong Li,Licheng Shen,Qianpu Sun,Shu Han,Bin Ma,Bohan Li,Chongjie Ye,Yuhang Zheng,Nan Wang,Saining Zhang,Hao Zhao
Main category: cs.CV
TL;DR: TransPhy3D:利用视频扩散模型学习透明物体深度估计,通过合成数据集和LoRA适配器实现零样本SOTA性能
- Motivation: 透明/反射物体对传统感知系统构成挑战,因为折射、反射和透射破坏了立体视觉、ToF和单目深度估计的基本假设,导致深度估计不完整且不稳定。作者观察到现代视频扩散模型已经能够合成逼真的透明现象,表明它们内部已经掌握了光学规则。
- Method: 1) 创建TransPhy3D合成视频数据集:11k序列,使用Blender/Cycles渲染,包含RGB+深度+法线;2) 从大型视频扩散模型出发,通过轻量级LoRA适配器学习视频到视频的深度(和法线)转换器;3) 在DiT骨干网络中拼接RGB和(带噪声的)深度潜在表示,在TransPhy3D和现有帧级合成数据集上联合训练,实现对任意长度输入视频的时间一致性预测。
- Result: DKT模型在涉及透明度的真实和合成视频基准测试中实现零样本SOTA:ClearPose、DREDS(CatKnown/CatNovel)和TransPhy3D-Test。在准确性和时间一致性方面优于强图像/视频基线,法线变体在ClearPose上取得最佳视频法线估计结果。1.3B紧凑版本运行速度约0.17秒/帧。集成到抓取系统中,DKT的深度估计提高了在透明、反射和漫反射表面的成功率。
- Conclusion: 研究支持"扩散模型理解透明度"的广泛主张。生成式视频先验可以高效、无标签地重新用于实现鲁棒、时间一致性的感知,以应对具有挑战性的现实世界操作任务。
[179] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion
Hau-Shiang Shiu,Chin-Yang Lin,Zhixiang Wang,Chi-Wei Hsiao,Po-Fan Yu,Yu-Chih Chen,Yu-Lun Liu
Main category: cs.CV
TL;DR: Stream-DiffVSR:首个适用于低延迟在线部署的因果条件扩散视频超分辨率框架,通过四步蒸馏去噪器、自回归时间引导模块和轻量级时间感知解码器,在RTX4090上实现720p帧0.328秒处理,比之前方法快130倍以上。
- Motivation: 现有基于扩散的视频超分辨率方法虽然感知质量好,但依赖未来帧和昂贵的多步去噪,在延迟敏感场景中不实用。需要开发能够在线处理、低延迟的扩散VSR方法。
- Method: 提出Stream-DiffVSR:1)因果条件扩散框架,仅使用过去帧;2)四步蒸馏去噪器实现快速推理;3)自回归时间引导模块在潜在去噪时注入运动对齐线索;4)轻量级时间感知解码器带时间处理器模块增强细节和时间一致性。
- Result: 在RTX4090上处理720p帧仅需0.328秒,比之前扩散方法快130倍以上,初始延迟从4600秒降至0.328秒。感知质量显著提升(LPIPS +0.095),超越在线SOTA方法TMP,成为首个适合低延迟在线部署的扩散VSR方法。
- Conclusion: Stream-DiffVSR成功解决了扩散VSR方法的高延迟问题,通过因果架构和高效组件实现了在线处理能力,为扩散模型在实时视频增强应用中的部署开辟了新途径。
q-fin.GN
[180] Deep Learning for Art Market Valuation
Jianping Mei,Michael Moses,Jan Waelty,Yucheng Yang
Main category: q-fin.GN
TL;DR: 深度学习通过融合视觉内容提升艺术品市场估值,特别对首次交易作品有显著价值
- Motivation: 研究如何利用深度学习改进艺术品市场估值,通过将视觉内容纳入预测模型来解决传统方法在缺乏历史交易记录时的局限性
- Method: 使用大型重复销售数据集,比较经典特征回归、树模型与现代深度学习架构,包括融合表格数据和图像数据的多模态模型
- Result: 艺术家身份和交易历史主导整体预测能力,但视觉嵌入为首次上市作品提供独特且有经济意义的贡献;可解释性分析显示模型关注构图和风格线索
- Conclusion: 多模态深度学习在估值最困难的情况下(首次销售)提供显著价值,为艺术品市场估值研究和实践提供新见解
cs.MM
[181] Mesquite MoCap: Democratizing Real-Time Motion Capture with Affordable, Bodyworn IoT Sensors and WebXR SLAM
Poojan Vanani,Darsh Patel,Danyal Khorami,Siva Munaganuru,Pavan Reddy,Varun Reddy,Bhargav Raghunath,Ishrat Lallmamode,Romir Patel,Assegid Kidané,Tejaswi Gowda
Main category: cs.MM
TL;DR: Mesquite是一个开源低成本惯性动作捕捉系统,使用15个IMU传感器节点和智能手机进行位置追踪,通过浏览器实现实时可视化,成本仅为商业系统的5%,精度达到2-5度误差。
- Motivation: 传统动作捕捉系统成本高昂且部署复杂,限制了在专业实验室之外的应用。需要开发低成本、易部署的解决方案来降低动作捕捉的门槛。
- Method: 结合15个IMU传感器节点和髋部佩戴的Android智能手机进行位置追踪,通过低功耗无线链路将四元数方向数据传输到USB适配器,使用基于WebGL、WebXR、WebSerial和WebSockets等现代Web技术的浏览器应用进行实时可视化和记录。
- Result: 与商业光学系统相比,Mesquite实现了2-5度的平均关节角度误差,成本仅为商业系统的约5%。系统支持30帧/秒,端到端延迟低于15ms,标准室内环境下数据包传输率至少99.7%。
- Conclusion: 通过结合物联网原理、边缘处理和Web原生技术栈,Mesquite显著降低了动作捕捉的门槛,适用于娱乐、生物力学、医疗监测、人机交互和虚拟现实等领域。所有硬件设计、固件和软件均已开源发布。
eess.IV
[182] Field strength-dependent performance variability in deep learning-based analysis of magnetic resonance imaging
Muhammad Ibtsaam Qadir,Duane Schonlau,Ulrike Dydak,Fiona R. Kolbinger
Main category: eess.IV
TL;DR: 该研究评估了MRI磁场强度对深度学习分割算法性能的影响,发现训练数据的磁场强度显著影响模型表现,特别是软组织分割,建议将磁场强度作为AI性能评估的混杂因素考虑。
- Motivation: 研究动机是定量评估MRI扫描仪磁场强度对深度学习分割算法性能和泛化能力的影响,特别是考虑磁场强度作为AI性能评估中的潜在混杂因素。
- Method: 使用三个公开MRI数据集(乳腺肿瘤、胰腺、颈椎),按磁场强度(1.5T vs 3.0T)分层。为每个分割任务开发三个nnU-Net模型:仅1.5T训练、仅3.0T训练、混合训练。通过UMAP聚类和放射组学分析(23个特征)研究场强相关性能差异。
- Result: 乳腺肿瘤分割中,仅3.0T训练模型表现最佳;胰腺分割也显示类似趋势;颈椎分割中所有模型表现均优且跨场强性能下降最小。放射组学分析显示软组织存在中度场强相关聚类,而骨性结构分离最小。
- Conclusion: 训练数据的磁场强度显著影响深度学习分割模型的性能,特别是软组织结构(如小病灶)。建议在评估MRI AI性能时将磁场强度作为混杂因素考虑。
[183] AI-Enhanced Virtual Biopsies for Brain Tumor Diagnosis in Low Resource Settings
Areeb Ehsan
Main category: eess.IV
TL;DR: 提出轻量级CNN结合手工放射组学特征的虚拟活检系统,用于脑MRI四分类,在低资源环境下提供决策支持
- Motivation: 解决低资源临床环境中脑肿瘤诊断的挑战,包括神经放射学专家稀缺、高端MRI硬件不足、侵入性活检受限等问题,同时克服深度学习在计算需求、数据集偏移和可解释性方面的限制
- Method: 使用MobileNetV2 CNN进行特征提取,同时提取8个放射组学特征(包括病灶形状、强度统计和GLCM纹理描述符),通过后期融合策略将CNN嵌入与放射组学特征拼接,训练RandomForest分类器进行四分类
- Result: 在Kaggle脑肿瘤MRI数据集上,融合方法相对于单分支基线在验证性能上有提升,在降低分辨率和添加噪声的鲁棒性测试中显示出对低资源成像条件的敏感性
- Conclusion: 该系统作为决策支持工具而非临床诊断或组织病理学的替代品,在低资源环境中具有应用潜力,融合方法提高了性能并提供了更好的可解释性
[184] Complex Swin Transformer for Accelerating Enhanced SMWI Reconstruction
Muhammad Usman,Sung-Min Gho
Main category: eess.IV
TL;DR: 提出基于复数Swin Transformer的网络,用于从低分辨率k空间数据超分辨率重建SMWI图像,以缩短扫描时间同时保持诊断特征。
- Motivation: SMWI技术用于检测帕金森病黑质高信号,但全分辨率采集扫描时间过长。需要高效的重建方法从降采样的k空间数据生成高质量SMWI,同时保持诊断相关性。
- Method: 提出复数Swin Transformer网络,用于多回波MRI数据的超分辨率重建。该方法从低分辨率k空间输入重建高质量SMWI图像。
- Result: 实验结果显示,从256×256 k空间数据重建SMWI时,结构相似性指数达到0.9116,均方误差为0.076,同时保持了关键的诊断特征。
- Conclusion: 该方法能够从降采样的k空间数据重建高质量SMWI,缩短扫描时间而不影响诊断细节,有望提高SMWI在帕金森病中的临床应用性,支持更快更高效的神经影像工作流程。
[185] Super-Resolution Enhancement of Medical Images Based on Diffusion Model: An Optimization Scheme for Low-Resolution Gastric Images
Haozhe Jia
Main category: eess.IV
TL;DR: 提出基于扩散模型的胶囊内窥镜图像超分辨率方法,显著提升图像质量,优于传统插值和GAN方法
- Motivation: 胶囊内窥镜因硬件、功耗和传输限制导致图像分辨率低,难以识别精细黏膜纹理和细微病理特征,影响早期诊断
- Method: 采用基于DDPM的SR3框架,学习从低分辨率到高分辨率的概率映射,使用HyperKvasir数据集训练,引入注意力机制等架构改进
- Result: PSNR达29.3 dB,SSIM达0.71,优于双三次插值和ESRGAN等GAN方法,能更好保留解剖边界、血管模式和病变结构
- Conclusion: 扩散模型超分辨率是增强胶囊内窥镜等非侵入性医学成像的有前景方法,特别适用于分辨率受根本限制的场景
[186] MEGA-PCC: A Mamba-based Efficient Approach for Joint Geometry and Attribute Point Cloud Compression
Kai-Hsiang Hsieh,Monyneath Yim,Wen-Hsiao Peng,Jui-Chiu Chiang
Main category: eess.IV
TL;DR: MEGA-PCC是一个端到端的点云几何与属性联合压缩框架,采用共享编码器和双解码器架构,结合Mamba-based熵模型,无需后处理着色和手动比特率分配。
- Motivation: 现有方法依赖后处理着色和手动调整几何与属性比特率分配,阻碍端到端优化并增加系统复杂度,需要更高效的联合压缩方案。
- Method: 提出MEGA-PCC框架:1)主压缩模型使用共享编码器将几何和属性编码为统一潜在表示,双解码器顺序重建几何和属性;2)Mamba-based熵模型捕捉空间和通道相关性改进概率估计;3)基于Mamba架构建模长距离依赖和丰富上下文特征。
- Result: 实验表明MEGA-PCC在率失真性能和运行时效率上优于传统和基于学习的基线方法,提供了AI驱动的点云压缩强大解决方案。
- Conclusion: MEGA-PCC通过消除着色后处理和启发式比特率调整,实现了数据驱动的比特率分配,简化了压缩流程,为点云压缩提供了高效的端到端解决方案。
[187] Semantic contrastive learning for orthogonal X-ray computed tomography reconstruction
Jiashu Dong,Jiabing Xiang,Lisheng Geng,Suqing Tian,Wei Zhao
Main category: eess.IV
TL;DR: 提出一种用于稀疏视角CT重建的语义特征对比学习损失函数,结合三阶段U-Net架构,在胸部数据集上实现更优重建质量和更快处理速度
- Motivation: 稀疏视角CT重建可降低辐射剂量,但病态条件导致严重条纹伪影。现有深度学习方法仍有改进空间,需要解决重建质量与计算效率的平衡问题
- Method: 提出语义特征对比学习损失函数,在高维潜在空间评估语义相似性,在浅层潜在空间评估解剖相似性。采用三阶段U-Net架构:粗重建、细节精炼和语义相似性测量
- Result: 在胸部正交投影数据集上测试,相比其他算法获得更优重建质量和更快处理速度。图像质量显著提升,同时保持低计算复杂度
- Conclusion: 该方法为正交CT重建提供实用解决方案,在提升重建质量的同时保持计算效率,有望在临床应用中降低辐射剂量并改善图像质量
[188] SwinCCIR: An end-to-end deep network for Compton camera imaging reconstruction
Minghao Dong,Xinyang Luo,Xujian Ouyang,Yongshun Xiao
Main category: eess.IV
TL;DR: 提出SwinCCIR,一种基于Swin Transformer和转置卷积的端到端深度学习框架,用于康普顿相机成像,直接从列表模式事件重建放射性源分布,克服传统反投影方法的伪影和变形问题。
- Motivation: 康普顿相机传统重建方法存在严重伪影和变形问题,系统误差难以通过校准消除,现有迭代算法和深度学习方法大多基于反投影结果优化,需要更直接的端到端重建方法。
- Method: 提出SwinCCIR框架,采用Swin Transformer块和基于转置卷积的图像生成模块,直接从列表模式事件建立到放射性源分布的映射关系,实现端到端重建。
- Result: 在模拟和实际数据集上的实验表明,SwinCCIR能有效克服传统康普顿相机成像问题,重建质量显著提升,有望在实际应用中部署。
- Conclusion: SwinCCIR为康普顿相机成像提供了有效的端到端深度学习解决方案,解决了传统方法的根本限制,具有实际应用潜力。
[189] EIR: Enhanced Image Representations for Medical Report Generation
Qiang Sun,Zongcheng Ji,Yinlong Xiao,Peng Chang,Jun Yu
Main category: eess.IV
TL;DR: 本文提出EIR方法,通过跨模态Transformer融合医学元数据与图像表示,并使用医学领域预训练模型编码医学图像,以解决信息不对称和领域差距问题,提升胸部X光报告生成的准确性。
- Motivation: 胸部X光报告生成是放射科医生关键且耗时的任务。现有方法虽然使用各种医学元数据,但仅通过简单的"Add and LayerNorm"操作整合元数据与视觉表示,存在信息不对称问题。此外,现有方法通常使用自然图像预训练模型表示医学图像,存在明显的领域差距。
- Method: 提出EIR方法:1) 使用跨模态Transformer融合元数据表示与图像表示,有效解决信息不对称问题;2) 利用医学领域预训练模型编码医学图像,有效弥合图像表示的领域差距。
- Result: 在广泛使用的MIMIC和Open-I数据集上的实验结果表明,所提方法在胸部X光报告生成任务中具有有效性。
- Conclusion: EIR方法通过跨模态Transformer融合和医学领域预训练,有效解决了现有方法中的信息不对称和领域差距问题,能够生成更准确的胸部X光报告。
physics.geo-ph
[190] A Rapid GeoSAM-Based Workflow for Multi-Temporal Glacier Delineation: Case Study from Svalbard
Alexandru Hegyi
Main category: physics.geo-ph
TL;DR: 提出基于GeoSAM的半自动冰川边界提取工作流,结合晚夏影像合成、光谱指数识别、提示引导分割和物理后处理,用于Sentinel-2影像的快速冰川制图
- Motivation: 现有冰川边界提取方法难以扩展到长时间序列和异质环境,需要一种快速、一致且可扩展的冰川制图方法
- Method: 结合晚夏影像合成、光谱指数识别候选冰区、GeoSAM提示引导分割、物理后处理,生成年度冰川边界
- Result: 在斯瓦尔巴群岛西部Ny-Alesund和Kongsfjorden地区验证,方法能生成空间连贯、时间一致的冰川边界,主要误差来自受水体、地形阴影或表面变化影响的小特征
- Conclusion: 该方法为多时相冰川制图和冰损失评估提供了快速实用的替代方案,依赖RGB影像使其灵活可迁移,但用户检查仍必要以过滤错误多边形和调整局部阈值
cs.CL
[191] Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA
Pu Zhao,Xuan Shen,Zhenglun Kong,Yixin Shen,Sung-En Chang,Arash Akbari,Timothy Rupprecht,Lei Lu,Enfu Nan,Changdi Yang,Yumei He,Weiyan Shi,Xingchen Xu,Yu Huang,Wei Jiang,Wei Wang,Yue Chen,Yong He,Yanzhi Wang
Main category: cs.CL
TL;DR: Moxin 7B是一个完全开源的LLM,遵循模型开放框架,提供完整的训练、数据集和实现细节透明度,并开发了针对视觉语言、视觉语言动作和中文能力的变体。
- Motivation: 当前LLM发展迅速,但专有模型(如GPT-4)和开源模型(如LLaMA)之间存在差距。为了促进更包容和协作的研究环境,需要超越简单的权重共享,实现训练、数据集和实现细节的完全透明。
- Method: 基于模型开放框架开发完全开源的Moxin 7B LLM,并创建三个变体:Moxin-VLM(视觉语言)、Moxin-VLA(视觉语言动作)和Moxin-Chinese(中文能力)。采用开源框架和开放数据进行训练。
- Result: 实验表明,这些模型在各种评估中取得了优越的性能。作者发布了模型以及可用于推导这些模型的数据和代码。
- Conclusion: Moxin 7B通过完全透明的开源方法,促进了更健康、包容的开源生态系统,为不同任务提供了多样化的能力变体,推动了开源LLM的发展。
[192] SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
Shaofei Cai,Yulei Qin,Haojia Lin,Zihan Xu,Gang Li,Yuchen Shi,Zongyi Li,Yong Mao,Siqi Cai,Xiaoyu Tan,Yitao Liang,Ke Li,Xing Sun
Main category: cs.CL
TL;DR: SmartSnap提出从被动的事后任务验证转向主动的实时自我验证,通过智能快照证据让智能体在完成任务的同时证明自己的成功,显著提升强化学习在GUI任务中的可扩展性。
- Motivation: 现有任务验证方法(如基于规则的评分脚本、奖励模型或LLM-as-a-Judge)都是被动的事后处理,需要分析智能体冗长的交互轨迹,导致成本高昂、可靠性低,严重制约了智能体强化学习在复杂GUI任务中的可扩展性。
- Method: 提出SmartSnap范式,设计具有双重使命的自我验证智能体:不仅完成任务,还要通过精心策划的快照证据证明任务完成。基于3C原则(完整性、简洁性、创造性),智能体利用在线环境访问权限进行自我验证,生成最小但决定性的快照集作为验证证据。
- Result: 在移动任务上的实验表明,SmartSnap范式能够以可扩展的方式训练LLM驱动的智能体,为8B和30B模型分别带来26.08%和16.66%的性能提升。解决方案寻找与证据寻求的协同作用培养了高效的自我验证智能体,性能可与DeepSeek V3.1和Qwen3-235B-A22B竞争。
- Conclusion: SmartSnap通过从被动事后验证转向主动实时自我验证,解决了智能体强化学习在GUI任务中的可扩展性瓶颈。自我验证智能体范式不仅提高了任务完成率,还降低了验证成本,为开发复杂自主智能体提供了新方向。
[193] LLM-Guided Exemplar Selection for Few-Shot Wearable-Sensor Human Activity Recognition
Elsen Ronando,Sozo Inoue
Main category: cs.CL
TL;DR: 提出LLM引导的示例选择框架,通过语义推理改进可穿戴传感器活动识别中的示例选择,在少样本条件下显著优于传统方法。
- Motivation: 现有最先进的人类活动识别方法依赖大量标记数据和纯几何示例选择,难以区分相似的可穿戴传感器活动(如行走、上楼梯、下楼梯),需要更智能的示例选择方法。
- Method: 提出LLM引导的示例选择框架,利用LLM生成的知识先验(特征重要性、类间混淆度、示例预算乘数)指导示例评分和选择,结合基于边界的验证线索、PageRank中心性、枢纽惩罚和设施位置优化。
- Result: 在UCI-HAR数据集上,在严格的少样本条件下实现了88.78%的宏F1分数,显著优于随机采样、herding和k-center等经典方法。
- Conclusion: LLM衍生的语义先验与结构和几何线索结合,为少样本可穿戴传感器HAR中选择代表性传感器示例提供了更强的基础。
[194] AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents
Jiafeng Liang,Hao Li,Chang Li,Jiaqi Zhou,Shixin Jiang,Zekun Wang,Changkai Ji,Zhihao Zhu,Runxuan Liu,Tao Ren,Jinlan Fu,See-Kiong Ng,Xia Liang,Ming Liu,Bing Qin
Main category: cs.CL
TL;DR: 该论文系统性地综合了记忆的跨学科知识,连接认知神经科学和LLM驱动智能体,探讨记忆的定义、功能、分类、存储机制、管理生命周期、评估基准、安全性,并展望未来研究方向。
- Motivation: 现有自主智能体研究虽然借鉴认知神经科学设计记忆工作流,但由于学科壁垒难以吸收人类记忆机制的精髓,需要弥合这一差距,系统性地综合跨学科记忆知识。
- Method: 采用跨学科综合方法,首先从认知神经科学到LLM再到智能体的渐进轨迹阐明记忆定义和功能;然后从生物和人工角度比较分析记忆分类、存储机制和完整管理生命周期;接着回顾智能体记忆的主流评估基准;从攻防双重角度探讨记忆安全性。
- Result: 建立了认知神经科学与LLM驱动智能体之间的系统性连接,提供了记忆的跨学科综合框架,包括定义、功能、分类、存储机制、管理生命周期、评估基准和安全性分析。
- Conclusion: 论文为智能体记忆研究提供了跨学科基础,并展望了未来研究方向,重点关注多模态记忆系统和技能获取,推动更高效、安全的智能体记忆系统发展。
[195] Instruction-Following Evaluation of Large Vision-Language Models
Daiki Shiono,Shumpei Miyawaki,Ryota Tanaka,Jun Suzuki
Main category: cs.CL
TL;DR: LVLMs在视觉指令微调后指令跟随能力下降,研究发现明确指定输出格式的微调数据能缓解此问题
- Motivation: 大型视觉语言模型(LVLMs)在视觉指令微调后,常常失去原本大型语言模型(LLMs)的指令跟随能力,导致无法按照任务指令预期执行。需要定量分析这种能力下降的原因并寻找解决方案。
- Method: 构建新的训练数据集,特别关注是否指定输出格式;研究在微调过程中明确指示输出格式对LVLMs指令跟随能力的影响;进行定量评估比较不同微调策略的效果。
- Result: 定量评估证实LVLMs在使用常用数据集微调后指令跟随能力确实下降;使用包含输出格式指令的数据集训练的LVLMs比不使用此类数据的模型更能准确跟随指令。
- Conclusion: 在视觉指令微调过程中包含明确指定输出格式的样本有助于缓解指令跟随能力的下降,这为提高LVLMs性能提供了重要指导。
cs.RO
[196] VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models
Borong Zhang,Jiahao Li,Jiachen Shen,Yishuai Cai,Yuhao Zhang,Yuanpei Chen,Juntao Dai,Jiaming Ji,Yaodong Yang
Main category: cs.RO
TL;DR: VLA-Arena是一个用于系统评估视觉-语言-动作模型能力的基准测试,通过结构化任务设计框架量化三个正交维度(任务结构、语言指令、视觉观察)的难度,揭示当前模型的局限性。
- Motivation: 当前视觉-语言-动作模型快速发展,但缺乏定量理解其极限和失败模式的方法。需要系统性的基准测试来评估模型能力边界。
- Method: 提出结构化任务设计框架,从三个正交维度量化难度:任务结构(安全、干扰、外推、长视野)、语言指令、视觉观察。设计了170个任务,每个任务有3个难度级别(L0-L2),并可在任何任务上应用语言和视觉扰动进行解耦分析。
- Result: 评估当前最先进的VLA模型发现多个关键局限性:强记忆化而非泛化倾向、非对称鲁棒性、缺乏安全约束考虑、无法组合学习技能处理长视野任务。
- Conclusion: VLA-Arena提供了一个全面的基准测试框架,帮助理解VLA模型的局限性,并促进相关研究。提供了完整的工具链、数据集和评估平台。
[197] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling
Yufan He,Pengfei Guo,Mengya Xu,Zhaoshuo Li,Andriy Myronenko,Dillan Imans,Bingjie Liu,Dongren Yang,Mingxue Gu,Yongnan Ji,Yueming Jin,Ren Zhao,Baiyong Shen,Daguang Xu
Main category: cs.RO
TL;DR: 提出利用SurgWorld世界模型生成合成手术视频,通过逆动力学模型推断伪运动学数据,解决手术机器人数据稀缺问题,显著提升VLA策略性能
- Motivation: 手术机器人面临数据稀缺的根本障碍,虽然有大量手术视频但缺乏对应的动作标签,无法直接应用模仿学习或VLA训练
- Method: 1) 构建SATA数据集包含详细手术机器人动作描述;2) 基于最先进的物理AI世界模型和SATA构建SurgWorld,生成多样化、可泛化的真实手术视频;3) 首次使用逆动力学模型从合成手术视频推断伪运动学数据,生成合成的配对视频-动作数据
- Result: 使用增强数据训练的手术VLA策略在真实手术机器人平台上显著优于仅使用真实演示训练的模型
- Conclusion: 该方法通过利用未标记手术视频的丰富性和生成式世界建模,为自主手术技能获取提供了可扩展的路径,开启了通用且数据高效的手术机器人策略的大门
[198] PCR-ORB: Enhanced ORB-SLAM3 with Point Cloud Refinement Using Deep Learning-Based Dynamic Object Filtering
Sheng-Kai Chen,Jie-Yu Chao,Jr-Yu Chang,Po-Lien Wu,Po-Chiang Lin
Main category: cs.RO
TL;DR: PCR-ORB:一种增强的ORB-SLAM3框架,通过深度学习点云精炼和语义分割来减少动态物体干扰,在KITTI数据集上部分序列表现显著提升,但效果因场景而异。
- Motivation: 传统vSLAM系统在动态环境中面临重大挑战,移动物体严重影响跟踪精度和地图一致性,需要开发能够有效处理动态干扰的鲁棒SLAM系统。
- Method: 基于ORB-SLAM3框架,集成深度学习点云精炼,使用YOLOv8进行语义分割,结合CUDA加速实现实时处理,采用多阶段过滤策略(地面平面估计、天空区域移除、边缘过滤、时间一致性验证)。
- Result: 在KITTI数据集(序列00-09)上评估,不同序列表现不一,序列04的ATE RMSE提升25.9%,ATE中值提升30.4%,但整体效果具有场景依赖性。
- Conclusion: PCR-ORB展示了在动态环境中减少物体干扰的潜力,但效果受场景影响,为复杂环境中的鲁棒导航提供了重要见解和优化方向。
[199] RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion
Zhe Li,Cheng Chi,Yangyang Wei,Boan Zhu,Tao Huang,Zhenguo Sun,Yibo Peng,Pengwei Wang,Zhongyuan Wang,Fangzhou Liu,Chang Xu,Shanghang Zhang
Main category: cs.RO
TL;DR: RoboMirror:首个无需重定向的视频到运动框架,通过视觉语言模型从视频中提取运动意图,直接驱动人形机器人运动,实现视觉理解到控制的直接转换。
- Motivation: 当前人形机器人运动系统依赖运动捕捉轨迹或文本指令,存在视觉理解与控制之间的鸿沟。文本到运动方法存在语义稀疏和流水线错误问题,而视频方法只能机械模仿姿势,缺乏真正的视觉理解。
- Method: 使用视觉语言模型从第一人称/第三人称视频中提取视觉运动意图,直接作为扩散策略的条件,生成物理合理且语义对齐的运动,无需显式的姿势重建或重定向。
- Result: 实验验证了RoboMirror的有效性:通过第一人称视频实现远程呈现,将第三人称控制延迟降低80%,任务成功率比基线方法提高3.7%。
- Conclusion: 通过围绕视频理解重构人形机器人控制,RoboMirror成功弥合了视觉理解与行动之间的鸿沟,实现了"先理解后模仿"的机器人运动控制。
cs.AI
[200] Learning Multi-Modal Mobility Dynamics for Generalized Next Location Recommendation
Junshu Dai,Yu Wang,Tongya Zheng,Wei Ji,Qinghong Guo,Ji Cao,Jie Song,Canghong Jin,Mingli Song
Main category: cs.AI
TL;DR: M³ob:利用多模态时空知识进行人类移动性预测,通过LLM增强的时空知识图谱构建统一时空关系图,设计门控机制融合多模态表示,在正常和异常场景下均表现出优越性能。
- Motivation: 现有人类移动性预测方法泛化能力有限:单模态方法受数据稀疏性和固有偏差限制,多模态方法难以有效捕捉静态多模态表示与时空动态之间的语义鸿沟。
- Method: 1) 利用LLM增强的时空知识图谱构建统一时空关系图;2) 设计门控机制融合不同模态的时空图表示;3) 提出STKG引导的跨模态对齐,将时空动态知识注入静态图像模态。
- Result: 在六个公共数据集上的实验表明,该方法在正常场景下取得一致改进,在异常场景下展现出显著泛化能力。
- Conclusion: M³ob通过有效整合多模态时空知识,成功解决了人类移动性预测中的泛化问题,为位置推荐等应用提供了更强大的解决方案。
[201] Memento-II: Learning by Stateful Reflective Memory
Jun Wang
Main category: cs.AI
TL;DR: 提出一个理论框架,将情景记忆与强化学习结合,使大语言模型智能体能够通过反思机制进行持续体验式学习,无需反向传播或模型微调。
- Motivation: 传统方法在训练和部署之间存在严格分离,需要参数更新(如反向传播或微调)才能适应新环境。本文旨在建立一个理论框架,使语言模型智能体能够通过交互持续学习,无需参数更新。
- Method: 提出状态化反思决策过程,将反思学习建模为与情景记忆的两阶段读写交互:写入存储交互结果(策略评估),读取检索相关过去案例(策略改进)。该过程诱导出增强状态记忆表示的等效马尔可夫决策过程,可使用经典动态规划和强化学习工具。用熵正则化策略迭代实例化框架。
- Result: 建立了收敛保证:随着情景记忆增长并充分覆盖状态空间,所得策略收敛到最优解。该框架为基于记忆增强和检索的语言模型智能体提供了理论基础。
- Conclusion: 提出了一个理论框架,使大语言模型智能体能够通过反思机制进行持续体验式学习,无需参数更新。该工作为无需参数更新的记忆增强和基于检索的语言模型智能体提供了原则性基础。
[202] HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery
Yaping Zhang,Qixuan Zhang,Xingquan Zhang,Zhiyuan Chen,Wenwen Zhuang,Yupu Liang,Lu Xiang,Yang Zhao,Jiajun Zhang,Yu Zhou,Chengqing Zong
Main category: cs.AI
TL;DR: HiSciBench是一个分层科学智能基准测试,包含5个层次、6个学科、8735个实例,用于评估大模型在完整科学工作流程中的能力,发现模型在基础任务上表现良好但在发现级任务上表现显著下降。
- Motivation: 现有科学智能基准测试过于碎片化,专注于狭窄任务,未能反映真实科学探究的层次性和多学科性。需要一个新的基准测试来全面评估大模型在整个科学工作流程中的能力。
- Method: 设计了HiSciBench分层基准测试,包含5个层次:科学素养(L1)、文献解析(L2)、基于文献的问答(L3)、文献综述生成(L4)和科学发现(L5)。涵盖6个主要科学学科,支持多模态输入和跨语言评估,包含8735个精心策划的实例。
- Result: 对GPT-5、DeepSeek-R1等领先模型的评估显示:模型在基础素养任务上准确率可达69%,但在发现级挑战上表现急剧下降至25%,揭示了模型在不同科学推理阶段的能力差距。
- Conclusion: HiSciBench为评估科学智能设立了新标准,提供了可操作的见解来开发更强大、更可靠的模型。该基准测试将公开发布以促进未来研究。
[203] CubeBench: Diagnosing Interactive, Long-Horizon Spatial Reasoning Under Partial Observations
Huan-ang Gao,Zikang Zhang,Tianwei Luo,Kaisen Yang,Xinzhe Juan,Jiahao Qiu,Tianxing Chen,Bingxiang He,Hao Zhao,Hao Zhou,Shilong Liu,Mengdi Wang
Main category: cs.AI
TL;DR: 论文提出CubeBench基准测试,使用魔方评估LLM智能体的空间认知能力,发现现有模型在长时程任务上完全失败,揭示了物理世界部署的关键瓶颈。
- Motivation: LLM智能体在数字领域表现出色,但在物理世界部署存在显著差距,主要挑战在于形成和维护稳健的空间心理模型。论文识别了三个核心认知挑战:空间推理、通过心理模拟进行长时程状态跟踪、以及在部分观察下的主动探索。
- Method: 引入CubeBench基准测试,这是一个以魔方为中心的新生成基准。采用三层诊断框架:从具有完整符号信息的基础状态跟踪,到仅具有部分视觉数据的主动探索。通过提供外部求解器工具来隔离认知瓶颈。
- Result: 对领先LLM的实验揭示了关键限制,所有长时程任务的通过率均为0.00%,暴露了长期规划的根本性失败。通过分析失败模式,为开发更物理基础的智能体提供了关键见解。
- Conclusion: CubeBench基准测试有效暴露了LLM智能体在物理世界部署中的认知瓶颈,特别是长时程规划和状态跟踪能力。研究结果为开发更物理基础的智能体提供了重要指导方向。
[204] Web World Models
Jichen Feng,Yifan Zhang,Chenggong Zhang,Yifu Lu,Shilong Liu,Mengdi Wang
Main category: cs.AI
TL;DR: Web World Model (WWM) 是一种结合传统web框架可靠性与生成式AI想象力的世界建模方法,在结构化代码规则基础上实现可控的开放环境。
- Motivation: 现有语言智能体环境存在两极分化:传统web框架提供可靠但固定的数据库支持环境,而完全生成式世界模型追求无限环境但牺牲了可控性和工程实用性。需要找到中间方案。
- Method: 提出Web World Model (WWM),用普通web代码实现世界状态和"物理规则"确保逻辑一致性,大语言模型在结构化潜在状态基础上生成上下文、叙事和高级决策。构建了基于现实web技术栈的WWM套件。
- Result: 成功构建了多种WWM系统:基于真实地理的无限旅行地图、虚构星系探索器、网络级百科全书和叙事世界、模拟和游戏环境。提出了WWM实用设计原则。
- Conclusion: web技术栈本身可以作为可扩展的世界模型基础,实现可控且开放的环境。WWM在结构化代码规则与生成式想象力之间找到了平衡点。
cs.DC
[205] SlimEdge: Lightweight Distributed DNN Deployment on Constrained Hardware
Mahadev Sunil Kumar,Arnab Raha,Debayan Das,Gopakumar G,Amitava Mukherjee
Main category: cs.DC
TL;DR: 该论文提出了一种针对分布式深度神经网络的高效部署方法,通过结构化剪枝和多目标优化,在满足硬件限制的同时保持任务性能,特别应用于MVCNN架构的3D物体识别。
- Motivation: 深度神经网络在计算机视觉中应用广泛,但其在资源受限的边缘设备上部署面临参数多、计算需求大的挑战。需要一种方法既能满足硬件限制,又能保持任务性能。
- Method: 提出了一种集成结构化模型剪枝和多目标优化的框架,通过量化单个视图对分类准确率的贡献,并相应分配剪枝预算,来定制网络容量以适应异构设备约束。
- Result: 实验结果显示,生成的模型在满足用户指定的准确率和内存占用限制的同时,在不同硬件平台上将推理延迟降低了1.2倍到5.0倍。
- Conclusion: 性能感知、视图自适应的压缩为在分布式边缘环境中部署复杂视觉模型提供了可行的途径。
q-bio.NC
[206] JParc: Joint cortical surface parcellation with registration
Jian Li,Karthik Gopinath,Brian L. Edlow,Adrian V. Dalca,Bruce Fischl
Main category: q-bio.NC
TL;DR: JParc是一个联合皮层配准和分区框架,仅使用基本几何特征就能在Mindboggle数据集上实现超过90%的Dice分数,显著优于现有方法。
- Motivation: 虽然基于学习的分区方法性能有所提升,但它们偏离了传统的配准和图谱传播方法,且没有深入探究相比传统方法改进的原因。本研究旨在开发一个联合框架,同时解决皮层配准和分区问题,并解释性能提升的来源。
- Method: JParc是一个联合皮层配准和分区框架,它结合了准确的皮层配准和学习的分区图谱。通过浅层子网络微调传播的图谱标签,仅使用描述皮层折叠模式的基本几何特征(沟深、曲率)。
- Result: JParc在Mindboggle数据集上实现了超过90%的Dice分数,显著优于现有的最先进分区方法。实验表明,JParc性能提升主要归因于准确的皮层配准和学习的分区图谱。
- Conclusion: JParc通过联合配准和分区方法,仅使用基本几何特征就能实现高精度皮层分区。其优越的准确性可以显著提高脑图谱研究的统计效力,并支持手术规划和许多其他神经科学及临床任务的应用。
cs.SE
[207] Interpretable Gallbladder Ultrasound Diagnosis: A Lightweight Web-Mobile Software Platform with Real-Time XAI
Fuyad Hasan Bhoyan,Prashanta Sarker,Parsia Noor Ethila,Md. Emon Hossain,Md Kaviul Hossain,Md Humaion Kabir Mehedi
Main category: cs.SE
TL;DR: 开发基于AI的超声胆囊疾病诊断软件,集成MobResTaNet深度学习模型,可实时分类10种胆囊状况(9种疾病+正常),准确率达99.85%,参数量仅2.24M,提供可解释AI可视化,支持网页和移动端部署。
- Motivation: 胆囊疾病的早期准确诊断至关重要,但超声图像解读具有挑战性,需要开发AI辅助诊断工具来提高诊断效率和准确性。
- Method: 采用混合深度学习模型MobResTaNet,直接从超声图像分类10个类别(9种胆囊疾病类型+正常),集成可解释AI(XAI)可视化技术,使用HTML、CSS、JavaScript、Bootstrap和Flutter技术栈开发网页和移动应用。
- Result: 系统达到高达99.85%的准确率,模型参数仅2.24M,实现了实时预测和可解释的临床决策支持,已部署为可访问的网页和移动应用程序。
- Conclusion: 该AI驱动诊断软件为胆囊疾病提供了高效、可访问且可信赖的床旁诊断支持,通过可解释AI增强了临床决策的透明度,具有重要的临床应用价值。
cs.LG
[208] SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models
Jiesong Lian,Ruizhe Zhong,Zixiang Zhou,Xiaoyue Mi,Yixue Hao,Yuan Zhou,Qinglin Lu,Long Hu,Junchi Yan
Main category: cs.LG
TL;DR: SoliReward:一个系统性的视频奖励模型训练框架,通过单项目二元标注收集高质量数据,采用分层渐进查询注意力架构,并引入改进的BT损失来缓解奖励攻击问题。
- Motivation: 视频生成模型的后训练对齐需要有效的奖励模型,但现有方法面临数据标注噪声大、VLM架构输出机制探索不足、以及奖励攻击等挑战。
- Method: 1) 使用单项目二元标注收集高质量低成本数据,通过跨提示配对策略构建偏好对;2) 采用分层渐进查询注意力机制增强特征聚合;3) 引入改进的BT损失,显式处理赢-平局场景,正则化正样本得分分布。
- Result: 在评估物理合理性、主体变形和语义对齐的基准测试中,该方法在直接RM评估指标和视频生成模型后训练效果上均表现出改进。
- Conclusion: SoliReward框架通过系统性解决数据质量、架构设计和损失函数问题,有效提升了视频奖励模型的性能,缓解了奖励攻击问题,为视频生成模型的对齐提供了更可靠的偏好信号。
[209] Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
Byung-Kwan Lee,Yu-Chiang Frank Wang,Ryo Hachiuma
Main category: cs.LG
TL;DR: 提出Masters框架,通过掩码渐进强化学习蒸馏方法,解决大教师模型与小学生模型之间尺寸差距导致的蒸馏困难问题
- Motivation: 大规模视觉语言模型虽然能力强但体积过大,难以部署到移动或边缘设备。需要紧凑但能力强的VLM,但大教师到小学生的知识蒸馏面临尺寸差距大、学生难以复制教师复杂高维表示、学习不稳定和性能下降等挑战
- Method: 提出Masters框架:1) 掩码教师非主导权重降低复杂度;2) 渐进式恢复教师容量,让学生平稳学习;3) 离线强化学习阶段,结合准确率奖励(衡量生成响应正确性)和蒸馏奖励(量化教师到学生响应转移难易度);4) 利用掩码教师预生成响应提供高效指导
- Result: 学生模型能够在不需think-answer过程的情况下实现强大性能,获得高效且丰富的指导,避免了在线RL的计算开销和生成长响应问题
- Conclusion: Masters框架通过掩码渐进策略和离线强化学习,有效解决了大教师到小学生知识蒸馏的稳定性问题,实现了紧凑视觉语言模型的高效训练
[210] Fairness Evaluation of Risk Estimation Models for Lung Cancer Screening
Shaurya Gaur,Michel Vitale,Alessa Hering,Johan Kwisthout,Colin Jacobs,Lena Philipp,Fennie van der Graaf
Main category: cs.LG
TL;DR: 评估两种深度学习肺癌风险模型(Sybil和Venkadesh21)在不同人口亚组中的公平性表现,发现存在显著的性能差异,这些差异无法用临床混杂因素解释,可能构成不公平偏见。
- Motivation: 肺癌是全球癌症相关死亡的主要原因,低剂量CT筛查可早期发现并减少死亡,但广泛实施可能加重放射科医生负担。AI模型在肺癌风险评估中显示出潜力,但高危人群具有多样性,这些模型在不同人口群体中的性能差异仍不明确。
- Method: 采用JustEFAB框架评估两种深度学习肺癌风险模型(Sybil和Venkadesh21)以及PanCan2b逻辑回归模型的公平性。模型基于美国国家肺癌筛查试验(NLST)数据训练,在保留的NLST验证集上评估。评估指标包括AUROC、敏感性和特异性,分析人口亚组间的性能差异,并探索临床风险因素的混杂效应。
- Result: Sybil模型在女性(AUROC 0.88)和男性(AUROC 0.81)间存在统计学显著差异(p < .001)。Venkadesh21模型在90%特异性下,黑人参与者敏感性(0.39)显著低于白人参与者(0.69)。这些差异无法用可用的临床混杂因素解释,根据JustEFAB框架可能被归类为不公平偏见。
- Conclusion: 研究强调了在肺癌筛查中改进和监测模型在不同亚组中性能的重要性,以及进一步研究算法公平性的必要性。AI模型在部署前需要仔细评估其在不同人口群体中的表现,以确保公平的医疗保健服务。
[211] Temporal Visual Semantics-Induced Human Motion Understanding with Large Language Models
Zheng Xing,Weibing Zhao
Main category: cs.LG
TL;DR: 本文提出了一种结合时间视觉语义(TVS)的子空间聚类方法,用于无监督人体运动分割。通过LLM从连续帧中提取文本运动信息,并将其整合到子空间聚类框架中,利用时间正则化提升分割性能。
- Motivation: 传统无监督人体运动分割方法主要依赖子空间聚类技术,但忽视了时间语义探索的重要性。本文旨在利用从人体运动序列中提取的时间视觉语义(TVS),结合大型语言模型(LLM)的图像到文本能力,来增强子空间聚类性能。
- Method: 1. 使用LLM查询连续帧是否描述相同运动,基于响应学习时间相邻信息
- 开发TVS集成的子空间聚类方法,包含带有时间正则化的子空间嵌入
- 在时间约束下基于子空间嵌入进行分割,促使每帧与其时间邻居分组
- 引入反馈机制框架,根据分割输出持续优化子空间嵌入
- Result: 实验结果表明,该方法在四个基准人体运动数据集上优于现有的最先进方法。
- Conclusion: 通过将LLM提取的时间视觉语义整合到子空间聚类框架中,并加入时间正则化和反馈机制,显著提升了无监督人体运动分割的性能。
[212] Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model
Renping Zhou,Zanlin Ni,Tianyi Chen,Zeyu Liu,Yang Yue,Yulin Wang,Yuxuan Wang,Jingshu Liu,Gao Huang
Main category: cs.LG
TL;DR: Co-GRPO提出一种统一MDP框架,通过轨迹级优化联合训练掩码扩散模型的参数和推理调度参数,解决训练与推理过程不匹配的问题。
- Motivation: 现有掩码扩散模型存在训练与推理过程不一致的问题:训练使用单步BERT式目标,而推理是多步迭代过程,包含未优化的调度策略,导致训练范式与推理本质脱节。
- Method: 将MDM生成重新表述为统一的马尔可夫决策过程,应用轨迹级Group Relative Policy Optimization,在共享奖励下协同优化模型参数和调度参数,无需通过多步生成过程进行昂贵的反向传播。
- Result: 在ImageReward、HPS、GenEval和DPG-Bench四个基准测试中,该方法显著提高了生成质量,证明了其有效性。
- Conclusion: Co-GRPO通过轨迹级优化实现了训练与推理的更全面对齐,为掩码扩散模型提供了一种更有效的训练范式。
[213] LangPrecip: Language-Aware Multimodal Precipitation Nowcasting
Xudong Ling,Tianxi Huang,Qian Dong,Tao He,Chaorong Li,Guiduo Duan
Main category: cs.LG
TL;DR: LangPrecip:一个语言感知的多模态降水临近预报框架,通过将气象文本作为降水演化的语义运动约束,在Rectified Flow范式下实现文本和雷达信息的有效融合,显著提升强降水预报性能。
- Motivation: 短期降水临近预报本质上是一个不确定且约束不足的时空预测问题,特别是对于快速演变的极端天气事件。现有生成方法主要依赖视觉条件,导致未来运动约束弱且模糊。
- Method: 提出语言感知多模态临近预报框架(LangPrecip),将气象文本作为降水演化的语义运动约束。在Rectified Flow范式下,将临近预报建模为语义约束的轨迹生成问题,在潜在空间中实现文本和雷达信息的高效、物理一致的融合。同时构建了包含16万对雷达序列和运动描述的大规模多模态数据集LangPrecip-160k。
- Result: 在瑞典和MRMS数据集上的实验表明,该方法相比最先进方法取得了一致的改进,在80分钟预报时效上,强降水CSI分别获得了超过60%和19%的提升。
- Conclusion: 通过将语言作为语义运动约束,LangPrecip框架能够有效提升降水临近预报的准确性,特别是在强降水事件中表现优异,证明了多模态信息融合在气象预报中的重要性。
[214] Toward Real-World IoT Security: Concept Drift-Resilient IoT Botnet Detection via Latent Space Representation Learning and Alignment
Hassan Wasswa,Timothy Lynar
Main category: cs.LG
TL;DR: 提出一个无需持续重训练的自适应物联网威胁检测框架,通过潜在空间对齐和GNN分类来应对概念漂移问题
- Motivation: 现有AI模型依赖静态数据集,无法适应真实物联网NetFlow流量的动态变化和概念漂移,而定期重训练方案计算开销大且存在灾难性遗忘风险
- Method: 训练一次分类器学习历史流量的潜在空间表示,使用对齐模型将新流量映射到该潜在空间,然后将低维表示转换为图结构格式,用图神经网络进行分类
- Result: 在真实异构物联网流量数据集上的实验表明,该框架在概念漂移下保持稳健的检测性能
- Conclusion: 该框架具有在动态大规模物联网环境中实际部署的潜力,解决了持续重训练的高计算开销和灾难性遗忘问题
[215] Schrodinger AI: A Unified Spectral-Dynamical Framework for Classification, Reasoning, and Operator-Based Generalization
Truong Son Nguyen
Main category: cs.LG
TL;DR: Schrödinger AI是一个受量子力学启发的统一机器学习框架,包含三个核心组件:波能求解器、动力学求解器和低秩算子演算,提供可解释的语义和鲁棒泛化能力。
- Motivation: 传统机器学习方法(如交叉熵训练和Transformer注意力)存在局限性,需要一种更物理驱动、可解释且能适应动态环境的替代方案。受量子力学启发,作者希望构建一个能发现和导航底层语义能量景观的机器学习新范式。
- Method: 框架包含三个紧密耦合的组件:1) 时间无关波能求解器,将感知和分类视为学习哈密顿量下的谱分解;2) 时间相关动力学求解器,控制语义波函数随时间演化,支持上下文感知的决策修订和重路由;3) 低秩算子演算,通过学习量子类转移算子实现符号变换(如模运算)。
- Result: 实验表明:a) 无需显式监督即可出现反映人类概念类别关系的语义流形;b) 动态推理能适应变化环境(如实时势场扰动的迷宫导航);c) 在模运算任务上实现精确的算子泛化,系统能学习群作用并在远超训练长度的序列上组合它们。
- Conclusion: Schrödinger AI为机器学习提供了一个新的基础方向,将学习过程重新定义为发现和导航底层语义能量景观,具有鲁棒泛化、可解释语义和涌现拓扑等优势。
[216] ReDiF: Reinforced Distillation for Few Step Diffusion
Amirhossein Tighkhorshid,Zahra Dehghanian,Gholamali Aminian,Chengchun Shi,Hamid R. Rabiee
Main category: cs.LG
TL;DR: 提出基于强化学习的扩散模型蒸馏框架,将蒸馏过程视为策略优化问题,通过奖励信号动态指导学生模型,实现更少推理步骤的高效生成。
- Motivation: 传统扩散模型采样速度慢,现有蒸馏方法依赖固定的重建或一致性损失,限制了学生模型的学习效率和性能提升。
- Method: 将扩散模型蒸馏视为强化学习策略优化问题,使用教师模型输出作为奖励信号,动态指导学生探索多种去噪路径,允许学生模型采取更长的优化步骤。
- Result: 实验结果表明,该方法在显著减少推理步骤和计算资源的情况下,性能优于现有蒸馏技术,且框架模型无关,适用于各类扩散模型。
- Conclusion: 提出的强化学习蒸馏框架为扩散模型提供了一种通用的优化范式,能够有效提升采样效率,同时保持生成质量。
[217] Rethinking Fine-Tuning: Unlocking Hidden Capabilities in Vision-Language Models
Mingyuan Zhang,Yue Bai,Yifan Wang,Yiyang Huang,Yun Fu
Main category: cs.LG
TL;DR: 本文提出将掩码微调(MFT)应用于视觉语言模型(VLMs),通过为权重分配可学习的门控分数来重组内部子网络,而非更新权重,实现了比LoRA变体和全微调更好的性能。
- Motivation: 现有视觉语言模型微调方法主要依赖显式的权重更新,忽略了预训练模型中已编码的丰富表征结构。掩码微调在语言模型中已被证明是有效的后训练范式,本文探索将其应用于视觉语言模型。
- Method: 从结构重参数化角度重新思考VLMs微调,将MFT应用于VLMs的语言和投影器组件,为每个权重分配可学习的门控分数,让模型重组内部子网络以适应下游任务,而不改变冻结的主干网络权重。
- Result: 实验表明,MFT在不同语言骨干的VLMs上一致优于LoRA变体,甚至超越全微调,在不改变冻结主干的情况下实现了高性能。
- Conclusion: 有效适应不仅可以通过更新权重实现,还可以通过重新建立模型现有知识之间的连接来实现。MFT为VLMs提供了一种强大且高效的微调范式。
[218] Machine Learning-Assisted Vocal Cord Ultrasound Examination: Project VIPR
Will Sebelik-Lassiter,Evan Schubert,Muhammad Alliyu,Quentin Robbins,Excel Olatunji,Mustafa Barry
Main category: cs.LG
TL;DR: 使用机器学习算法自动识别声带并区分正常声带与声带麻痹的超声图像,验证准确率达99%
- Motivation: 声带超声检查虽然侵入性小、耐受性好,但其准确性高度依赖操作者经验,需要开发自动化分析工具来提高诊断准确性
- Method: 收集30名志愿者的声带超声视频,分割为静态帧并统一裁剪尺寸。使用健康和模拟声带麻痹图像训练声带分割和分类模型
- Result: 声带分割模型验证准确率达96%,最佳分类模型(VIPRnet)验证准确率达99%
- Conclusion: 机器学习辅助的声带超声分析在提高诊断准确性方面具有巨大潜力,优于依赖操作者经验的人工判读
[219] A unified framework for detecting point and collective anomalies in operating system logs via collaborative transformers
Mohammad Nasirzadeh,Jafar Tahmoresnezhad,Parviz Rashidi-Khazaee
Main category: cs.LG
TL;DR: CoLog是一个用于日志异常检测的多模态框架,通过协同编码不同日志模态,使用协同transformer和多头注意力机制学习模态间交互,在7个基准数据集上达到平均99.6%的F1分数。
- Motivation: 日志数据包含多种模态信息,单模态方法忽略不同模态特性,多模态方法未能有效处理模态间交互,需要更先进的框架来提升日志异常检测能力。
- Method: 提出CoLog框架:1) 使用协同transformer和多头注意力机制学习不同日志模态间的交互;2) 引入模态适应层处理模态异质性;3) 统一框架同时检测点异常和集体异常。
- Result: 在7个日志异常检测基准数据集上,CoLog达到平均精度99.63%、召回率99.59%、F1分数99.61%,优于现有最先进方法,能有效检测点异常和集体异常。
- Conclusion: CoLog通过多模态协同学习显著提升了日志异常检测性能,为网络安全、系统监控和运维效率提供了有效的解决方案,代表了日志异常检测领域的重要进展。
[220] Stochastic Siamese MAE Pretraining for Longitudinal Medical Images
Taha Emre,Arunava Chakravarty,Thomas Pinetz,Dmitrii Lachinov,Martin J. Menten,Hendrik Scholl,Sobha Sivaprasad,Daniel Rueckert,Andrew Lotery,Stefan Sacu,Ursula Schmidt-Erfurth,Hrvoje Bogunović
Main category: cs.LG
TL;DR: STAMP是一种基于Siamese MAE框架的随机时间自编码器,通过条件变分推理学习医学影像中的非确定性时间动态,在AMD和AD疾病进展预测中优于现有方法。
- Motivation: 当前最先进的自监督学习方法(如MAE)虽然具有较强的表示学习能力,但缺乏时间感知能力,无法捕捉纵向医学数据集中疾病进展的时间动态。确定性Siamese方法虽然比较不同时间点的扫描,但未能考虑疾病演变中的固有不确定性。
- Method: 提出STAMP(Stochastic Temporal Autoencoder with Masked Pretraining),这是一个Siamese MAE框架,通过条件变分推理目标重构MAE重建损失,以随机过程编码时间信息。该方法基于两个输入体积之间的时间差进行条件化,学习非确定性的时间动态。
- Result: 在两个OCT数据集和一个MRI数据集上评估STAMP,这些数据集包含每位患者的多次访问。STAMP预训练的ViT模型在晚期年龄相关性黄斑变性和阿尔茨海默病进展预测任务上,优于现有的时间MAE方法和基础模型。
- Conclusion: STAMP通过随机过程学习时间信息,能够更好地捕捉疾病进展中的非确定性时间动态,在医学影像的时间感知表示学习方面表现出优越性能。
Powered by Deepseek & arXiv Daily AI Enhanced