Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Multimodal AI for Body Fat Estimation: Computer Vision and Anthropometry with DEXA Benchmarks
Rayan Aldajani
Main category: cs.CV
TL;DR: 本研究评估了使用正面身体图像和基础人体测量数据的AI模型作为低成本体脂率估算替代方案的可行性。图像模型达到RMSE 4.44%和R² 0.807,证明AI模型可提供经济可及的体脂估算。
- Motivation: 标准体脂测量方法如DEXA扫描昂贵且不易获得,需要开发低成本替代方案来支持有效的体重管理。
- Method: 开发了两种方法:(1)基于ResNet的图像模型;(2)使用人体测量数据的回归模型。数据集包含535个样本,包括253个人体测量案例和282个网络爬取的图像。
- Result: 图像模型在体脂率估算上达到RMSE 4.44%和R² 0.807的准确度,展示了良好的预测性能。
- Conclusion: AI辅助模型能够提供经济可及的体脂估算,支持未来健康和健身领域的消费者应用。
[2] Reconstruction-Driven Multimodal Representation Learning for Automated Media Understanding
Yassir Benhammou,Suman Kalyan,Sujay Kumar
Main category: cs.CV
TL;DR: 提出了一种多模态自编码器(MMAE),通过学习文本、音频和视觉数据的统一表示,实现广播内容元数据提取和语义聚类的端到端自动化。
- Motivation: 现有AI系统通常只处理单一模态(如视频、音频或文本),限制了其对广播材料中复杂跨模态关系的理解能力。
- Method: 使用多模态自编码器(MMAE)在LUMA数据集上训练,通过最小化跨模态的联合重构损失来发现模态不变的语义结构。
- Result: 在聚类和对齐指标(Silhouette、ARI、NMI)上相比线性基线有显著提升,表明基于重构的多模态嵌入可作为可扩展元数据生成和跨模态检索的基础。
- Conclusion: 重构驱动的多模态学习有潜力增强现代广播工作流中的自动化、可搜索性和内容管理效率。
[3] BCWildfire: A Long-term Multi-factor Dataset and Deep Learning Benchmark for Boreal Wildfire Risk Prediction
Zhengsen Xu,Sibo Cheng,Hongjie He,Lanying Wang,Wentao Sun,Jonathan Li,Lincoln Linlin Xu
Main category: cs.CV
TL;DR: 提出了一个覆盖25年、每日分辨率的野火数据集,包含38个协变量,用于评估多种时间序列预测模型在野火风险预测中的表现。
- Motivation: 野火风险预测由于燃料条件、气象、地形和人类活动之间的复杂相互作用而具有挑战性,且缺乏支持长期时间建模、大规模空间覆盖和多模态驱动因素的公开基准数据集。
- Method: 构建了一个覆盖不列颠哥伦比亚省及周边地区2.4亿公顷的25年每日分辨率野火数据集,包含38个协变量,并评估了CNN、线性、Transformer和Mamba等多种时间序列预测模型。
- Result: 创建了一个包含活跃火点检测、天气变量、燃料条件、地形特征和人为因素的综合数据集,并比较了不同模型架构的性能。
- Conclusion: 该数据集填补了野火预测领域基准数据的空白,为研究不同驱动因素的重要性和评估各种时间序列模型提供了基础。
[4] Robustness of Structured Data Extraction from Perspectively Distorted Documents
Hyakka Nakada,Yoshiyasu Tanaka
Main category: cs.CV
TL;DR: 本文研究了透视失真对多模态大语言模型OCR数据提取准确性的影响,发现结构识别准确性受文档失真影响严重,但可通过简单的旋转校正改善。
- Motivation: 现实世界中的文档图像通常不仅存在平面旋转,还存在透视失真,这些扰动会影响多模态LLMs的数据提取准确性,但相关研究较少。
- Method: 通过观察典型文档失真,发现大多数近似遵循等腰梯形变换,将参数从8个减少到2个(旋转角度和失真比例),然后从合成生成的样本文档中提取特定实体。
- Result: 结构识别准确性受文档失真影响显著下降,但通过简单的旋转校正可以改善准确性。
- Conclusion: 文档失真会显著降低多模态LLMs在OCR任务中的结构识别准确性,但简单的旋转校正可以有效改善性能,这对多模态LLMs在OCR任务中的实际应用具有重要意义。
[5] 3D Ground Truth Reconstruction from Multi-Camera Annotations Using UKF
Linh Van Ma,Unse Fatima,Tepy Sokun Chriv,Haroon Imran,Moongu Jeon
Main category: cs.CV
TL;DR: 提出一种基于无迹卡尔曼滤波(UKF)的多相机单目标跟踪算法,将2D边界框或关键点标注融合为精确的3D地面真值,能输出完整3D形状而非仅地面信息。
- Motivation: 精确的3D地面真值对于自动驾驶、监控和机器人等应用至关重要,现有方法通常只能提供地面平面信息,无法输出完整3D形状。
- Method: 使用无迹卡尔曼滤波器融合来自多个标定相机的2D标注,通过单应性投影和UKF融合将2D图像坐标转换为鲁棒的3D世界坐标,处理多视角数据并有效应对遮挡问题。
- Result: 在CMC、Wildtrack和Panoptic数据集上评估,相比现有3D地面真值显示出高精度的3D定位能力,并能输出每个对象的完整3D形状。
- Conclusion: 该方法为多相机系统提供了可扩展且全自动的解决方案,仅需2D图像标注即可生成精确的3D地面真值。
[6] Unified Low-Light Traffic Image Enhancement via Multi-Stage Illumination Recovery and Adaptive Noise Suppression
Siddiqua Namrah
Main category: cs.CV
TL;DR: 提出了一种完全无监督的多阶段深度学习框架,用于增强低光照交通图像,通过分解图像为光照和反射率分量,并采用三个专门模块进行渐进式优化。
- Motivation: 低光照交通图像在自动驾驶、智能交通和城市监控系统中存在能见度差、噪声、运动模糊、光照不均和眩光等问题,影响目标检测和场景理解任务的可靠性。
- Method: 模型将图像分解为光照和反射率分量,通过三个模块进行优化:光照适应(全局和局部亮度校正)、反射率恢复(使用空间通道注意力抑制噪声和恢复结构细节)、过曝光补偿(重建饱和区域和平衡场景亮度)。网络使用自监督重建、反射率平滑度、感知一致性和领域感知正则化损失进行训练。
- Result: 在通用和交通专用数据集上的实验表明,该方法在定量指标(PSNR、SSIM、LPIPS、NIQE)和定性视觉质量方面均优于现有最先进方法。
- Conclusion: 该方法能有效增强可见度、保持结构完整性,并提高真实世界低光照交通场景中下游感知任务的可靠性。
[7] HSMix: Hard and Soft Mixing Data Augmentation for Medical Image Segmentation
Danyang Sun,Fadi Dornaika,Nagore Barrena
Main category: cs.CV
TL;DR: HSMix是一种用于医学语义分割的局部图像编辑数据增强方法,通过硬混合和软混合技术结合两个源图像的同质区域来生成增强图像,同时保留局部语义信息。
- Motivation: 医学图像分割常受数据稀缺和过拟合问题困扰,现有自监督和半监督学习方法复杂且需要手工设计,而数据增强方法在分割任务中的有效性尚未充分探索。
- Method: 提出HSMix方法:硬混合将两个源图像的同质区域(超像素)组合创建增强图像;软混合基于局部聚合的像素级显著性系数调整亮度;同时对真实分割掩码执行相同混合操作。
- Result: 大量实验证明该方法在各种医学分割任务中有效,能充分利用先验轮廓和显著性信息,在增强图像多样性的同时保留局部语义信息。
- Conclusion: HSMix是一种即插即用、模型无关的解决方案,适用于多种医学成像模式,能有效解决医学图像分割中的数据稀缺问题。
[8] Plug-and-Play Multi-Concept Adaptive Blending for High-Fidelity Text-to-Image Synthesis
Young-Beom Woo
Main category: cs.CV
TL;DR: PnP-MIX是一种无需调优的多概念个性化文本到图像生成方法,通过引导外观注意力、掩码引导噪声混合和背景稀释++策略,实现高保真度的多概念集成。
- Motivation: 现有方法在处理复杂多对象场景时表现不佳,会导致个性化区域和非个性化区域的意外改变,破坏提示结构并造成语义不一致。
- Method: 使用引导外观注意力来忠实反映每个个性化概念的外观;采用掩码引导噪声混合策略保护非个性化区域的完整性;提出背景稀释++策略减少概念泄漏。
- Result: 在单概念和多概念个性化场景中,PnP-MIX始终优于现有方法,展现了其鲁棒性和卓越性能。
- Conclusion: PnP-MIX提供了一种高效、无需额外模型调优的多概念个性化图像生成解决方案,显著提升了生成质量。
[9] Foundational Question Generation for Video Question Answering via an Embedding-Integrated Approach
Ju-Young Oh
Main category: cs.CV
TL;DR: FIQ框架通过生成描述性问答对来增强视频问答模型的推理能力,提高对视频内容的基础理解
- Motivation: 现有VQA方法主要依赖问答对学习视频时空动态,但大多数标注是事件中心的,限制了模型对场景全面上下文的理解能力,缺乏物体类别、空间配置和视觉属性等基础信息
- Method: 提出FIQ框架,直接从视频中提取描述性信息生成问答对,丰富数据集的核心场景级属性;同时提出VQ-CAlign模块,将任务特定问题嵌入与对应视觉特征对齐
- Result: 在SUTD-TrafficQA数据集上的实验结果表明,FIQ实现了最先进的性能,超越了现有基线方法
- Conclusion: FIQ通过增强对视频内容的基础理解和改进问题-视觉特征对齐,显著提升了VQA模型的泛化能力和推理性能
[10] Rethinking the Encoding and Annotating of 3D Bounding Box: Corner-Aware 3D Object Detection from Point Clouds
Qinghao Meng,Junbo Yin,Jianbing Shen,Yunde Jia
Main category: cs.CV
TL;DR: 提出了一种角点对齐回归方法,替代传统中心对齐回归,用于解决LiDAR 3D目标检测中由于点云稀疏性导致中心预测不稳定的问题。
- Motivation: 传统的中心对齐回归在LiDAR 3D检测中存在根本性不稳定问题,因为物体中心通常落在BEV视角的稀疏或空区域,导致边界框预测噪声大且不准确。
- Method: 提出角点对齐回归,将预测目标从不稳定的中心转移到几何信息丰富的角点;利用角点和图像2D框之间的几何约束,从角点标注中恢复3D边界框的部分参数;设计了一个简单有效的角点感知检测头,可插入现有检测器中。
- Result: 在KITTI数据集上,相比基于中心的方法AP提升3.5%;仅使用BEV角点点击标注即可达到全监督准确率的83%。
- Conclusion: 角点感知回归策略在LiDAR 3D目标检测中具有显著效果,能够有效解决中心预测不稳定的问题,并支持弱监督学习。
[11] BD-Net: Has Depth-Wise Convolution Ever Been Applied in Binary Neural Networks?
DoYoung Kim,Jin-Seop Lee,Noo-ri Kim,SungJoon Lee,Jee-Hyong Lee
Main category: cs.CV
TL;DR: 提出了一种1.58位卷积和预BN残差连接的方法,首次成功实现了BNN中深度卷积的二值化,在ImageNet上达到33M OPs,在多个数据集上性能优于现有方法。
- Motivation: 二值神经网络(BNNs)虽然效率极高,但极端量化限制了表示能力并导致训练不稳定,特别是在具有深度卷积的轻量级架构中。
- Method: 使用1.58位卷积增强表达能力,采用预BN残差连接通过改善Hessian条件数来稳定优化,首次成功实现了BNN中深度卷积的二值化。
- Result: 在ImageNet上使用MobileNet V1达到33M OPs,在CIFAR-10、CIFAR-100、STL-10、Tiny ImageNet和Oxford Flowers 102等多个数据集上一致优于现有方法,准确率提升高达9.3个百分点。
- Conclusion: 该方法在二值神经网络中建立了新的最先进水平,成功解决了深度卷积二值化的挑战,显著提升了轻量级架构的性能。
[12] Efficient Score Pre-computation for Diffusion Models via Cross-Matrix Krylov Projection
Kaikwan Lau,Andrew S. Na,Justin W. L. Wan
Main category: cs.CV
TL;DR: 提出了一种加速基于分数的扩散模型的新框架,通过将稳定扩散模型转换为Fokker-Planck公式,并采用跨矩阵Krylov投影方法来利用矩阵间的数学相似性,显著降低了计算成本。
- Motivation: 标准稳定扩散模型转换为Fokker-Planck公式后需要为每张图像求解大型线性系统,在处理大量图像时计算成本过高,需要更高效的求解方法。
- Method: 将稳定扩散模型转换为Fokker-Planck公式,提出跨矩阵Krylov投影方法,利用种子矩阵构建共享子空间来快速求解目标矩阵。
- Result: 相比标准稀疏求解器,时间减少15.8%到43.7%;在去噪任务中比DDPM基线快115倍;在固定计算预算下能生成高质量图像,而DDPM无法生成可识别内容。
- Conclusion: 该方法为资源受限环境下的高效生成提供了一种实用解决方案,显著提升了扩散模型的效率。
[13] Upstream Probabilistic Meta-Imputation for Multimodal Pediatric Pancreatitis Classification
Max A. Nelson,Elif Keles,Eminenur Sen Tasci,Merve Yazol,Halil Ertugrul Aktas,Ziliang Hong,Andrea Mia Bejar,Gorkem Durak,Oznur Leman Boyunaga,Ulas Bagci
Main category: cs.CV
TL;DR: 提出UPMI方法,通过在上游元特征空间进行概率插补来增强小样本儿科胰腺炎诊断,相比仅使用真实数据的基线方法获得约5%的AUC提升。
- Motivation: 儿科胰腺炎诊断面临样本量有限和多模态成像复杂性的挑战,传统机器学习方法难以有效处理。
- Method: UPMI方法在低维元特征空间进行操作,使用模态特定的逻辑回归生成概率输出,通过高斯混合模型采样合成元特征,结合真实元特征训练随机森林元分类器。
- Result: 在67名儿科患者的配对T1W/T2W MRI数据上,UPMI达到0.908±0.072的平均AUC,相比仅使用真实数据的基线方法(0.864±0.061)有约5%的相对提升。
- Conclusion: UPMI是一种有效的轻量级数据增强策略,能够在小样本多模态医学影像诊断中显著提升模型性能。
[14] TSRE: Channel-Aware Typical Set Refinement for Out-of-Distribution Detection
Weijun Gao,Rundong He,Jinyang Dong,Yongshun Gong
Main category: cs.CV
TL;DR: 提出了一种基于可区分性和活跃度的典型集优化方法,用于改进OOD检测中的激活修正,通过通道感知的典型集和偏度优化来缓解分布偏差。
- Motivation: 现有的激活修正方法往往忽略通道的内在特性和分布偏度,导致典型集估计不准确,从而不适当地包含异常激活。
- Method: 提出基于可区分性和活跃度的典型集优化方法,将激活修正为通道感知的典型集;引入基于偏度的优化来缓解典型集估计中的分布偏差;使用修正后的激活计算能量分数进行OOD检测。
- Result: 在ImageNet-1K和CIFAR-100基准测试中实现了最先进的性能,并在不同骨干网络和评分函数上有效泛化。
- Conclusion: 该方法通过通道感知的典型集优化和偏度修正,显著提升了OOD检测性能,具有良好的泛化能力。
[15] SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizon Embodied Scenarios
Jieru Lin,Zhiwei Yu,Börje F. Karlsson
Main category: cs.CV
TL;DR: SWITCH是一个具身智能基准测试,评估AI在真实世界界面交互中的能力,包括任务感知VQA、语义UI接地、动作生成、状态转换预测和结果验证。
- Motivation: 当前基准测试很少测试在具体环境中的接地、部分可观测性和事后验证能力,而真实世界交互需要常识推理、物理推理以及时空因果预测。
- Method: 通过迭代发布创建SWITCH基准测试,第一版SWITCH-Basic评估五种互补能力,使用自我中心RGB视频输入,涵盖351个任务和98种真实设备。
- Result: 商业和开源LMM在单步交互中表现不一致,过度依赖文本线索而未能充分利用视觉或视频证据,高总分可能掩盖这些失败。
- Conclusion: SWITCH提供了数据、代码和保留集,支持可复现评估和社区贡献,推动更具挑战性的基准测试迭代和训练数据集创建。
[16] Explainable Deep Learning for Brain Tumor Classification: Comprehensive Benchmarking with Dual Interpretability and Lightweight Deployment
Md. Mohaiminul Islam,Md. Mofazzal Hossen,Maher Ali Rusho,Nahiyan Nazah Ridita,Zarin Tasnia Shanta,Md. Simanto Haider,Ahmed Faizul Haque Dhrubo,Md. Khurshid Jahan,Mohammad Abdul Qayum
Main category: cs.CV
TL;DR: 开发了一个完整的深度学习系统用于脑肿瘤MRI图像自动分类,包含6种架构对比,其中轻量级CNN模型(1.31M参数)达到96.49%测试准确率,Inception-ResNet V2达到99.53%的SOTA性能。
- Motivation: 解决脑肿瘤自动分类问题,特别关注在资源受限环境下的可部署性,同时通过可解释性方法解决深度学习黑盒问题。
- Method: 使用6种架构(5个ImageNet预训练模型和1个自定义紧凑CNN),标准化预处理和训练协议,采用AdamW优化器和CosineAnnealingLR,使用Grad-CAM和GradientShap进行可解释性分析。
- Result: Inception-ResNet V2达到99.53%测试准确率,轻量CNN达到96.49%准确率且模型大小仅为Inception-ResNet V2的1/100,在边缘设备上实现375ms实时推理。
- Conclusion: 提供了一个端到端的可信AI解决方案,平衡了准确性、可解释性和可部署性,适合在先进和低资源医疗系统中进行临床筛查和分诊。
[17] MedPEFT-CL: Dual-Phase Parameter-Efficient Continual Learning with Medical Semantic Adapter and Bidirectional Memory Consolidation
Ziyuan Gao
Main category: cs.CV
TL;DR: 提出了MedPEFT-CL框架,通过双阶段架构解决医学视觉语言分割模型在持续学习中的灾难性遗忘问题,使用参数高效微调方法减少训练参数并保持跨模态学习能力。
- Motivation: 医学视觉语言分割模型在适应新解剖结构时会出现灾难性遗忘,需要完全重新训练,限制了临床部署。针对医学视觉语言任务的持续学习方法研究不足。
- Method: 基于CLIPSeg的双阶段架构:自适应学习阶段使用语义相似性适配器分配和提示相似性分析的参数高效微调;知识巩固阶段采用双向Fisher-记忆协调。
- Result: 在多个医学数据集上的实验表明,该框架在最小参数开销下实现了优越的遗忘缓解和性能保持。
- Conclusion: MedPEFT-CL框架为医学视觉语言场景的持续学习提供了有效的解决方案,能够高效学习新任务并保护先前知识。
[18] Person Recognition in Aerial Surveillance: A Decade Survey
Kien Nguyen,Feng Liu,Clinton Fookes,Sridha Sridharan,Xiaoming Liu,Arun Ross
Main category: cs.CV
TL;DR: 本文对过去10年150多篇关于以人为中心的空中监视任务的论文进行了系统性综述,重点分析了无人机等空中平台在人类检测、识别和重识别任务中的计算机视觉和机器学习方法。
- Motivation: 随着空中平台和成像传感器的快速发展,空中监视因其在规模、移动性、部署和隐蔽观察能力方面的优势而出现新的应用形式。本文旨在从计算机视觉和机器学习角度对空中监视任务进行系统性回顾和技术分析。
- Method: 对每个任务(检测、识别、重识别),首先识别空中环境相比地面环境的独特挑战,然后整理分析公开可用的空中数据集,深入分析现有方法如何应对空中挑战和改进技术。
- Result: 提供了150多篇论文的全面综述,系统分析了空中监视任务的技术现状、数据集和方法,识别了各任务的独特挑战和解决方案。
- Conclusion: 讨论了现有研究的差距和开放研究问题,为未来研究方向提供信息。
[19] Vision-Motion-Reference Alignment for Referring Multi-Object Tracking via Multi-Modal Large Language Models
Weiyi Lv,Ning Zhang,Hanyang Sun,Haoran Jiang,Kai Zhao,Jing Xiao,Dan Zeng
Main category: cs.CV
TL;DR: 提出了VMRMOT框架,通过引入运动模态和对齐视觉-运动-参考信息,解决了RMOT中静态语言描述无法捕捉动态运动变化的问题。
- Motivation: 现有的RMOT基准只描述物体的外观、相对位置和初始运动状态,这种静态调节无法捕捉物体运动的动态变化(如速度变化和运动方向变化),导致静态参考与动态视觉模态之间的时间差异,限制了多模态跟踪性能。
- Method: 提出VMRMOT框架,集成从物体动态中提取的运动模态,通过多模态大语言模型增强视觉模态和语言参考的对齐。包括:1)从物体动态行为中提取运动感知描述;2)设计视觉-运动-参考对齐模块进行层次化对齐;3)开发运动引导预测头来利用运动模态。
- Result: 在多个RMOT基准测试上的广泛实验表明,VMRMOT优于现有的最先进方法。
- Conclusion: VMRMOT是首个在RMOT任务中采用MLLMs进行视觉-参考对齐的方法,通过集成运动模态和层次化对齐机制,有效提升了多模态跟踪性能。
[20] Understanding Counting Mechanisms in Large Language and Vision-Language Models
Hosein Hasani,Amirmohammad Izadi,Fatemeh Askari,Mobin Bagherian,Sadegh Mohammadian,Mohammad Izadi,Mahdieh Soleymani Baghshah
Main category: cs.CV
TL;DR: 本文研究了LLM和LVLM在计数任务中如何表示和处理数值信息,通过因果干预和激活修补分析发现模型存在内部计数器机制,数值表示在不同层逐步形成,并受文本分隔符等结构线索影响。
- Motivation: 探索大型语言模型和视觉语言模型在计数任务中数值信息的表示机制和计算过程,理解模型内部如何处理数值内容。
- Method: 使用重复文本和视觉项目的受控实验,通过因果中介分析和激活修补技术,开发专门的CountScope工具进行机制可解释性分析。
- Result: 发现单个token或视觉特征编码潜在的计数位置信息,数值表示在不同层逐步形成,存在内部计数器机制,视觉语言模型中数值信息也出现在视觉嵌入中。
- Conclusion: 计数在LLM中是一个结构化的分层过程,在LVLM中遵循相同模式但受视觉编码器特性影响,模型依赖结构线索如分隔符来跟踪项目计数。
[21] Can Vision-Language Models Count? A Synthetic Benchmark and Analysis of Attention-Based Interventions
Saurav Sengupta,Nazanin Moradinasab,Jiebei Liu,Donald E. Brown
Main category: cs.CV
TL;DR: 开发了一个合成基准数据集和评估框架,分析视觉语言模型在计数任务中的表现如何随图像和提示属性变化,并测试注意力干预对计数性能的影响。
- Motivation: 视觉语言模型在回答图像视觉属性问题时常常依赖训练中学习的内在偏见,特别是在需要聚焦图像特定区域的计数任务中,这种偏见更加明显。
- Method: 使用开源视觉语言模型,分析注意力分配如何随输入参数变化,并实施基于注意力的干预来调节不同层的视觉标记焦点。
- Result: 实验表明,虽然视觉语言模型的计数性能仍然具有挑战性,特别是在高视觉或语言复杂度下,但某些注意力干预可以带来计数性能的适度提升。
- Conclusion: 视觉语言模型的计数性能受多种因素影响,通过注意力干预可以在一定程度上改善性能,但整体仍面临挑战。
[22] AngioDG: Interpretable Channel-informed Feature-modulated Single-source Domain Generalization for Coronary Vessel Segmentation in X-ray Angiography
Mohammad Atwany,Mojtaba Lashgari,Robin P. Choudhury,Vicente Grau,Abhirup Banerjee
Main category: cs.CV
TL;DR: 提出AngioDG方法,通过通道正则化策略解决X射线冠状动脉造影血管分割中的单源域泛化问题,在6个数据集上取得最佳域外性能
- Motivation: 心血管疾病是全球主要死因,XCA是实时心脏介入的金标准。血管分割有助于定量评估,但由于成像协议和患者人口统计差异导致域偏移,且标注数据稀缺,需要单源域泛化方法
- Method: 提出AngioDG方法,通过通道正则化策略识别早期特征通道对任务特定指标的贡献,重新加权通道以校准和放大域不变特征,同时衰减域特定特征
- Result: 在6个X射线血管造影数据集上评估,相比其他方法获得最佳域外性能,同时保持一致的域内测试性能
- Conclusion: AngioDG通过通道正则化有效解决了XCA血管分割中的域泛化问题,在保持域内性能的同时显著提升域外泛化能力
[23] The Potential and Limitations of Vision-Language Models for Human Motion Understanding: A Case Study in Data-Driven Stroke Rehabilitation
Victor Li,Naveenraj Kamalakannan,Avinash Parnandi,Heidi Schambra,Carlos Fernandez-Granda
Main category: cs.CV
TL;DR: VLMs在卒中康复视频分析中表现有限:剂量估计与视觉信息无关基线相当,损伤评分无法可靠预测,但通过优化提示和后期处理,可在无任务特定训练下实现高层活动分类和粗略剂量计数。
- Motivation: 探索视觉语言模型在数据驱动卒中康复中的潜力,特别是自动量化康复剂量和损伤程度这两个基本挑战。
- Method: 将康复剂量和损伤量化问题构建为运动识别任务,使用VLMs处理,在29名健康对照和51名卒中幸存者队列上评估,采用优化提示和后期处理策略。
- Result: 当前VLMs缺乏精细运动理解能力:剂量估计与排除视觉信息的基线相当,损伤评分预测不可靠;但通过优化可实现高层活动分类、运动检测和粗略剂量计数(轻度损伤和健康参与者误差在25%内)。
- Conclusion: VLMs在卒中康复视频分析中目前存在局限性,但显示出未来应用潜力,特别是在无需任务特定训练的情况下实现某些高层分析功能。
[24] VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning
Lingxiao Li,Yifan Wang,Xinyan Gao,Chen Tang,Xiangyu Yue,Chenyu You
Main category: cs.CV
TL;DR: 提出了VisReason数据集,这是一个大规模的多模态视觉推理数据集,包含489K标注样本,旨在提升多模态大语言模型的链式思维推理能力。
- Motivation: 现有的视觉链式思维资源通常规模小、领域特定或缺乏类似人类的逐步推理结构,阻碍了多模态大语言模型在视觉理解中的复杂推理能力开发。
- Method: 构建了VisReason数据集,涵盖四个不同领域,包含多轮次、类似人类的推理过程。还创建了VisReason-Pro子集,使用更强的GPT标注器生成详细推理轨迹和3D空间标注。
- Result: 在Qwen2.5-VL模型上微调VisReason和VisReason-Pro后,在逐步视觉推理准确性、可解释性和跨基准泛化方面取得了显著提升。
- Conclusion: VisReason为多模态大语言模型提供了更系统和可泛化的推理能力,是培养类似人类视觉推理能力的重要基础。
[25] Towards Open-Ended Visual Scientific Discovery with Sparse Autoencoders
Samuel Stevens,Jacob Beattie,Tanya Berger-Wolf,Yu Su
Main category: cs.CV
TL;DR: 本文探讨了稀疏自编码器(SAEs)能否从基础模型表示中实现开放式的特征发现,通过在受控的重新发现研究中验证该方法,并在生态图像上进行了实际科学案例研究。
- Motivation: 科学档案包含海量数据,但现有方法仅能针对预设目标提取结构,不支持未知模式的开放式发现。本文旨在探索稀疏自编码器是否能够从基础模型表示中实现开放式的特征发现。
- Method: 使用稀疏自编码器(SAEs)从基础模型表示中学习特征,在标准分割基准上评估学习到的SAE特征与语义概念的对齐情况,并与无标签替代方法在概念对齐指标上进行比较。
- Result: 在生态图像上的应用表明,该方法能够在没有分割或部件标签的情况下发现细粒度的解剖结构,并通过真实验证提供了科学案例研究。
- Conclusion: 稀疏分解为探索科学基础模型学到了什么提供了一种实用工具,这是从确认转向真正发现的重要前提条件。
[26] AEGIS: Preserving privacy of 3D Facial Avatars with Adversarial Perturbations
Dawid Wolkiewicz,Anastasiya Pechko,Przemysław Spurek,Piotr Syga
Main category: cs.CV
TL;DR: AEGIS是首个针对3D高斯化身的隐私保护身份掩蔽框架,通过在颜色系数上添加对抗性扰动来隐藏身份特征,同时保持感知真实性和功能完整性。
- Motivation: 随着逼真3D面部化身的广泛应用,特别是使用高效3D高斯溅射表示的系统,带来了在线身份盗窃的新风险。现有方法主要针对2D图像,缺乏对动态3D化身的鲁棒、视角一致的身份保护。
- Method: AEGIS对高斯颜色系数应用对抗性扰动,通过预训练的人脸验证网络进行指导,确保在多视角下的一致性保护,无需重新训练或修改化身几何结构。
- Result: AEGIS实现了完全去识别化,将人脸检索和验证准确率降至0%,同时保持高感知质量(SSIM = 0.9555, PSNR = 35.52 dB),并保留了年龄、种族、性别和情感等关键面部属性。
- Conclusion: 该方法展示了强大的隐私保护能力,同时产生最小的视觉失真,为3D高斯化身提供了有效的身份保护解决方案。
[27] SPIDER: Spatial Image CorresponDence Estimator for Robust Calibration
Zhimin Shao,Abhay Yadav,Rama Chellappa,Cheng Peng
Main category: cs.CV
TL;DR: SPIDER是一个通用的特征匹配框架,结合2D和3D对应关系估计,在无约束大基线场景下显著优于现有方法。
- Motivation: 传统2D特征匹配在跨域场景(如航拍、室内、室外)中因外观、尺度和视角变化而面临挑战,而3D基础模型的空间匹配特性在主导平面区域表现良好但对细节几何不敏感。
- Method: SPIDER框架包含共享特征提取主干和两个专用网络头,分别用于从粗到细估计2D和3D对应关系。
- Result: SPIDER在专注于大基线无约束场景的图像匹配评估基准上显著优于现有最先进方法。
- Conclusion: SPIDER展示了作为通用图像匹配方法的强大能力,通过整合2D和3D匹配优势解决了跨域特征匹配的挑战。
[28] CORA: Consistency-Guided Semi-Supervised Framework for Reasoning Segmentation
Prantik Howlader,Hoang Nguyen-Canh,Srijan Das,Jingyi Xu,Hieu Le,Dimitris Samaras
Main category: cs.CV
TL;DR: CORA是一个半监督推理分割框架,通过条件视觉指令、噪声伪标签过滤和标记级对比对齐,在有限标注数据下实现鲁棒的推理分割,在Cityscapes和PanNuke数据集上仅需少量标注即可超越基线方法。
- Motivation: 现有方法需要大量高质量像素标注和语言监督,成本高昂且泛化能力有限。为了解决在分布偏移下的脆弱性能问题,需要开发能够在有限监督下进行推理分割的方法。
- Method: 1) 条件视觉指令编码对象间的空间和上下文关系;2) 基于多模态LLM在语义等价查询中输出一致性的噪声伪标签过滤器;3) 标记级对比对齐增强特征一致性。
- Result: 在Cityscapes数据集上仅需100张标注图像,性能提升+2.3%;在PanNuke数据集上仅需180张标注图像,性能提升+2.4%,达到最先进水平。
- Conclusion: CORA框架通过半监督学习有效利用未标注数据,在有限标注设置下实现了鲁棒的推理分割性能,显著降低了标注成本。
[29] Latent Dirichlet Transformer VAE for Hyperspectral Unmixing with Bundled Endmembers
Giancarlo Giannetti,Faisal Z. Qureshi
Main category: cs.CV
TL;DR: 提出LDVAE-T模型,结合Transformer架构和狄利克雷先验,用于高光谱图像解混,在三个基准数据集上表现优于现有方法。
- Motivation: 高光谱图像中存在光谱混合问题,掩盖了纯物质特征,需要开发能够准确估计混合比例和提取端元的方法。
- Method: 使用Transformer变分自编码器,在潜在空间施加狄利克雷先验来约束丰度估计的物理条件,将材料建模为捆绑端元而非固定光谱。
- Result: 在Samson、Jasper Ridge和HYDICE Urban数据集上,LDVAE-T在丰度估计和端元提取方面均优于现有最先进模型。
- Conclusion: LDVAE-T通过结合Transformer的全局上下文建模能力和物理约束,能够有效处理高光谱解混问题,同时保持物理可解释性。
[30] Deepfake Geography: Detecting AI-Generated Satellite Images
Mansur Yerzhanuly
Main category: cs.CV
TL;DR: 本研究比较了CNN和ViT在检测AI生成卫星图像方面的性能,发现ViT在准确率和鲁棒性上显著优于CNN,主要得益于其建模长距离依赖和全局语义结构的能力。
- Motivation: 随着StyleGAN2和Stable Diffusion等生成模型的快速发展,卫星图像的真实性面临严重威胁,而现有深度伪造检测方法主要针对人脸图像,卫星图像检测面临地形不一致和结构伪影等独特挑战。
- Method: 使用包含13万张标记RGB图像的DM-AER和FSI数据集,对比CNN和ViT的性能,并采用Grad-CAM和Chefer注意力归因等可解释性方法增强模型透明度。
- Result: ViT在准确率上显著优于CNN(95.11% vs 87.02%),在检测结构不一致和重复纹理模式方面表现更优,整体鲁棒性更强。
- Conclusion: ViT在检测AI生成卫星图像方面具有明显优势,未来研究将扩展到多光谱和SAR模态,并整合频域分析以进一步提升检测能力。
[31] Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?
Dingrui Wang,Hongyuan Ye,Zhihao Liang,Zhexiao Sun,Zhaowei Lu,Yuchen Zhang,Yuyu Zhao,Yuan Gao,Marvin Seegert,Finn Schäfer,Haotong Qin,Wei Li,Luigi Palmieri,Felix Jahncke,Mattia Piccinini,Johannes Betz
Main category: cs.CV
TL;DR: 提出了首个专门评估世界模型在无地图路径规划中性能的基准Target-Bench,包含450个机器人收集的视频序列,覆盖45个语义类别。评估显示当前最先进的世界模型在机器人规划任务中表现有限,但通过微调开源模型可以显著提升性能。
- Motivation: 虽然最近的世界模型能生成高度逼真的视频,但它们在机器人路径规划方面的能力尚不明确且缺乏量化评估。
- Method: 创建Target-Bench基准,包含450个机器人收集的视频序列,使用SLAM提供真实轨迹。通过从生成视频中恢复相机运动,使用5个互补指标来量化目标到达能力、轨迹准确性和方向一致性。
- Result: 最佳现成模型(Wan2.2-Flash)仅获得0.299总分,显示当前世界模型在机器人规划任务中的显著局限性。微调开源5B参数模型后达到0.345总分,比基础版本提升400%以上,比最佳现成模型高15%。
- Conclusion: 当前世界模型在机器人路径规划方面仍有很大改进空间,但通过针对性的微调可以显著提升性能。Target-Bench为评估世界模型的规划能力提供了标准化基准。
[32] Attention Guided Alignment in Efficient Vision-Language Models
Shweta Mahajan,Hoang Le,Hyojin Park,Farzad Farhadzadeh,Munawar Hayat,Fatih Porikli
Main category: cs.CV
TL;DR: AGE-VLM通过引入交叉注意力层和SAM的空间知识蒸馏,有效减少高效视觉语言模型中的物体幻觉问题,在多模态对齐方面优于现有方法。
- Motivation: 现有基于拼接架构的高效视觉语言模型无法有效区分语义匹配/不匹配的图像-文本对,这是导致物体幻觉的关键因素。
- Method: 提出AGE-VLM框架,通过交叉注意力层增强视觉基础,利用SAM的空间知识蒸馏使预训练小语言模型具备视觉能力,强制模型关注正确的图像区域。
- Result: 在多个视觉中心基准测试中,该方法优于或与现有高效VLM方法相当,显著减少了幻觉现象。
- Conclusion: 该研究为未来实现增强的视觉和语言理解的VLM研究提供了有价值的见解。
[33] Pillar-0: A New Frontier for Radiology Foundation Models
Kumar Krishna Agrawal,Longchao Liu,Long Lian,Michael Nercessian,Natalia Harguindeguy,Yufu Wu,Peter Mikhael,Gigin Lin,Lecia V. Sequist,Florian Fintelmann,Trevor Darrell,Yutong Bai,Maggie Chung,Adam Yala
Main category: cs.CV
TL;DR: Pillar-0是一个放射学基础模型,在42,990个腹部-骨盆CT、86,411个胸部CT、14,348个头部CT和11,543个乳腺MRI上预训练,配合RATE框架实现366种放射学发现的自动标注,在多项任务中超越现有最佳模型。
- Motivation: 放射学在现代医学中至关重要,但影像量增长远超人力增长。现有医学模型处理3D影像为低质量2D切片,丢弃关键灰度对比信息,且缺乏反映真实临床实践的评估框架。
- Method: 使用Pillar-0基础模型在大量CT和MRI数据上预训练,结合RATE框架利用LLM提取366种放射学发现的结构化标签。模型处理完整3D体积数据,保留关键灰度信息。
- Result: 在内部测试集上,Pillar-0平均AUROC达86.4-90.1,比现有最佳模型高7.8-15.8 AUROC点,在87.2%任务中排名第一。在外部验证和肺癌风险预测等任务中也显著优于基线。
- Conclusion: Pillar-0和RATE为构建高性能放射学系统提供了开放、临床严谨的基础,解决了计算、数据和评估方面的限制,实现了之前不可行的应用。
[34] A Stitch in Time: Learning Procedural Workflow via Self-Supervised Plackett-Luce Ranking
Chengan Che,Chao Wang,Xinyue Chen,Sophia Tsoka,Luis C. Garcia-Peraza-Herrera
Main category: cs.CV
TL;DR: PL-Stitch是一个自监督学习框架,通过利用视频帧的固有时间顺序作为监督信号,解决了现有方法对程序性活动顺序不敏感的问题。
- Motivation: 现有自监督学习方法在静态图像和短视频上表现成功,但忽视了程序性活动(如烹饪和手术)的结构化特性,无法感知动作的时间顺序。
- Method: 提出基于Plackett-Luce模型的两个概率目标:主要PL目标训练模型按时间顺序排序采样帧,学习全局工作流程;次要目标通过时空拼图损失捕捉细粒度的跨帧对象相关性。
- Result: 在五个手术和烹饪基准测试中表现优异,手术阶段识别准确率提升11.4个百分点,烹饪动作分割准确率提升5.7个百分点。
- Conclusion: PL-Stitch有效提升了程序性视频表示学习的效果,证明了利用时间顺序作为监督信号的重要性。
[35] REXO: Indoor Multi-View Radar Object Detection via 3D Bounding Box Diffusion
Ryoma Yataka,Pu Perry Wang,Petros Boufounos,Ryuhei Takahashi
Main category: cs.CV
TL;DR: REXO提出了一种基于3D边界框扩散的多视角雷达目标检测方法,通过显式的跨视角雷达特征关联提升室内复杂场景下的检测性能。
- Motivation: 现有方法依赖隐式的跨视角雷达特征关联,在复杂室内场景中容易导致特征匹配模糊和检测性能下降。
- Method: 将DiffusionDet的2D边界框扩散过程扩展到3D雷达空间,利用噪声3D边界框指导显式的跨视角雷达特征关联,并基于人员接触地面的先验知识减少扩散参数。
- Result: 在两个公开室内雷达数据集上,HIBER数据集AP提升4.22,MMVR数据集AP提升11.02,超越了现有最优方法。
- Conclusion: REXO通过显式跨视角特征关联和3D边界框扩散,有效解决了多视角雷达感知中的特征匹配问题,显著提升了检测性能。
[36] Importance-Weighted Non-IID Sampling for Flow Matching Models
Xinshuang Liu,Runfa Blark Li,Shaoxiu Wei,Truong Nguyen
Main category: cs.CV
TL;DR: 提出了一种重要性加权的非独立同分布采样框架,通过联合抽取多个样本来覆盖流匹配模型分布的不同重要区域,同时通过估计的重要性权重保持无偏估计。
- Motivation: 流匹配模型能有效表示复杂分布,但在有限采样预算下估计其输出函数的期望仍然具有挑战性。独立采样通常会产生高方差估计,特别是当罕见但高影响的结果主导期望时。
- Method: 引入基于分数的正则化多样性机制,使用分数函数(对数概率梯度)确保样本在数据流形的高密度区域内分散,减轻离流形漂移。开发了首个非独立同分布流样本重要性加权方法,通过学习残差速度场来重现非独立同分布样本的边际分布。
- Result: 经验表明,该方法能产生多样化、高质量的样本,并能准确估计重要性权重和期望,提升了流匹配模型输出的可靠表征能力。
- Conclusion: 提出的重要性加权非独立同分布采样框架在保持无偏估计的同时,有效降低了估计方差,为流匹配模型的可靠应用提供了重要工具。
[37] QAL: A Loss for Recall Precision Balance in 3D Reconstruction
Pranay Meshram,Yash Turkar,Kartikeya Singh,Praveen Raj Masilamani,Charuvahan Adhivarahan,Karthik Dantu
Main category: cs.CV
TL;DR: 提出了Quality-Aware Loss (QAL)作为Chamfer Distance和Earth Mover's Distance的替代方案,通过解耦召回率和精确度来改善3D体积学习的训练效果。
- Motivation: 现有的3D体积学习训练目标(CD和EMD)无法平衡召回率和精确度,导致薄结构和代表性不足区域被忽略。
- Method: QAL结合了覆盖加权的最近邻项和未覆盖真实值吸引项,将召回率和精确度明确解耦为可调组件。
- Result: 在多种管道中,QAL平均比CD提升4.3个百分点,比最佳替代方案提升2.8个百分点,能可靠恢复薄结构和代表性不足区域。
- Conclusion: QAL为稳健的3D视觉和安全关键机器人管道提供了原则性、可解释且实用的目标函数。
[38] Toward explainable AI approaches for breast imaging: adapting foundation models to diverse populations
Guilherme J. Cavalcante,José Gabriel A. Moreira,Gabriel A. B. do Nascimento,Vincent Dong,Alex Nguyen,Thaís G. do Rêgo,Yuri Malheiros,Telmo M. Silva Filho,Carla R. Zeballos Torrez,James C. Gee,Anne Marie McCarthy,Andrew D. A. Maidment,Bruno Barufaldi
Main category: cs.CV
TL;DR: 本研究利用BiomedCLIP基础模型进行乳腺密度BI-RADS分类,通过多模态训练方法在96,995张图像上实现了0.74的准确率,展现出良好的泛化能力和临床可解释性。
- Motivation: 基础模型在专业医学影像任务中具有潜力,但在乳腺成像领域的有效性尚未充分探索。本研究旨在解决模型泛化挑战,探索基础模型在乳腺密度分类中的应用。
- Method: 使用BiomedCLIP基础模型,采用多模态乳腺X线数据(合成2D图像、数字乳腺X线摄影和数字乳腺断层合成),通过加权对比学习解决类别不平衡问题,比较单模态和多模态训练方法。
- Result: 多模态和单模态方法达到相似准确率(0.74 vs 0.73),多模态模型在不同成像模态中具有更广泛适用性,AUC值始终高于0.84。外部验证显示强泛化能力(AUC范围:0.80-0.93)。
- Conclusion: 该研究证实了基础模型在乳腺成像应用中的潜力,为未来扩展到诊断任务铺平了道路,模型展现出良好的可解释性和鲁棒性。
[39] Show Me: Unifying Instructional Image and Video Generation with Diffusion Models
Yujiang Pu,Zhanbo Huang,Vishnu Boddeti,Yu Kong
Main category: cs.CV
TL;DR: ShowMe是一个统一框架,通过选择性激活视频扩散模型的空间和时间组件,同时支持文本引导的图像编辑和视频预测任务,解决了现有方法在这两个任务上的分离问题。
- Motivation: 现有方法将文本引导的图像操作和视频预测视为孤立任务,图像操作方法忽略了动作随时间展开的过程,而视频预测模型往往忽略了预期结果。
- Method: 提出ShowMe框架,选择性激活视频扩散模型的空间和时间组件,引入结构和运动一致性奖励来提高结构保真度和时间连贯性。
- Result: 在多个基准测试中,该方法在指导性图像和视频生成方面都优于专家模型,展示了视频扩散模型作为统一动作-状态转换器的优势。
- Conclusion: 视频扩散模型可以作为统一的动作-状态转换器,这种统一带来了双重好处:通过视频预训练获得的空间知识增强了非刚性图像编辑的上下文一致性和真实感,而指令引导的操作阶段为视频预测提供了更强的目标导向推理能力。
[40] JigsawComm: Joint Semantic Feature Encoding and Transmission for Communication-Efficient Cooperative Perception
Chenyi Wang,Zhaowei Li,Ming F. Li,Wujie Wen
Main category: cs.CV
TL;DR: JigsawComm是一个端到端训练的语义感知多智能体协同感知框架,通过提取语义相关特征和预测特征效用,在有限带宽下实现高效通信和感知精度提升。
- Motivation: 解决多智能体协同感知中通信带宽受限的问题,现有方法未考虑语义相关性和跨智能体冗余,需要最大化每个传输比特对感知任务的贡献。
- Method: 使用正则化编码器提取语义相关稀疏特征,通过轻量级特征效用估计器预测特征贡献度,交换元效用图并计算最优传输策略,选择最高效用特征进行传输。
- Result: 在OPV2V和DAIR-V2X基准测试中,将总数据量减少超过500倍,同时达到或优于现有最优方法的精度。
- Conclusion: JigsawComm通过语义感知的特征选择和传输策略,实现了通信效率与感知精度的平衡,通信成本随智能体数量增加保持O(1)复杂度。
[41] Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation
Shihan Cheng,Nilesh Kulkarni,David Hyde,Dmitriy Smirnov
Main category: cs.CV
TL;DR: 提出一种数据高效的精调策略,使用稀疏、低质量的合成数据学习文本到视频扩散模型的物理相机参数控制,效果优于使用真实数据精调的模型。
- Motivation: 传统方法需要大量高质量数据集来精调文本到视频扩散模型以添加新的生成控制(如相机参数),但这些数据集难以获取。
- Method: 提出数据高效的精调策略,仅使用稀疏、低质量的合成数据进行训练。
- Result: 使用简单合成数据精调不仅实现了所需的控制功能,而且效果优于使用真实照片级数据精调的模型。
- Conclusion: 提供了一个理论框架来直观和定量地解释这种现象,证明了使用简单合成数据进行精调的优越性。
[42] MGA-VQA: Secure and Interpretable Graph-Augmented Visual Question Answering with Memory-Guided Protection Against Unauthorized Knowledge Use
Ahmad Mohammadshirazi,Pinaki Prasad Guha Neogi,Dheeraj Kulshrestha,Rajiv Ramnath
Main category: cs.CV
TL;DR: MGA-VQA是一个多模态文档视觉问答框架,通过集成token级编码、空间图推理、记忆增强推理和问题引导压缩,解决了现有方法在空间关系建模、高分辨率文档处理、多跳推理和可解释性方面的局限性。
- Motivation: 当前文档视觉问答方法在显式空间关系建模、高分辨率文档处理效率、多跳推理能力和模型可解释性方面存在不足,需要开发更有效和透明的解决方案。
- Method: 提出MGA-VQA框架,包含token级编码、空间图推理、记忆增强推理和问题引导压缩四个核心组件,采用可解释的基于图的决策路径和结构化内存访问机制。
- Result: 在六个基准测试(FUNSD、CORD、SROIE、DocVQA、STE-VQA和RICO)上表现出优异的准确性和效率,在答案预测和空间定位方面均取得一致改进。
- Conclusion: MGA-VQA通过多模态集成和可解释的推理机制,显著提升了文档视觉问答的性能和透明度,为复杂文档理解任务提供了有效的解决方案。
[43] ArticFlow: Generative Simulation of Articulated Mechanisms
Jiong Lin,Jinchen Ruan,Hod Lipson
Main category: cs.CV
TL;DR: ArticFlow是一个两阶段流匹配框架,用于在明确动作控制下从噪声生成目标点集的可控速度场,能够表示多样化的关节类别并在动作间泛化。
- Motivation: 生成模型在静态3D形状方面取得了显著进展,但关节3D生成由于动作依赖的变形和有限数据集而仍然具有挑战性。
- Method: ArticFlow耦合了潜在流(将噪声传输到形状先验代码)和点流(在动作和形状先验条件下传输点),使单个模型能够表示多样化的关节类别并在动作间泛化。
- Result: 在MuJoCo Menagerie上,ArticFlow既作为生成模型又作为神经模拟器:从紧凑先验预测动作条件运动学,并通过潜在插值合成新形态。与特定对象模拟器和静态点云生成器的动作条件变体相比,ArticFlow实现了更高的运动学准确性和更好的形状质量。
- Conclusion: 动作条件流匹配是实现可控和高质量关节机制生成的实用途径。
[44] FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning
Guoyang Xia,Yifeng Ding,Fengfa Li,Lei Ren,Wei Chen,Fangxiang Feng,Xiaojie Wang
Main category: cs.CV
TL;DR: FastMMoE是一个无需训练的多模态大语言模型加速框架,专门针对基于专家混合架构的MLLMs,通过减少专家激活和基于路由概率的token剪枝来降低计算开销。
- Motivation: 高分辨率视觉输入会产生大量视觉token,导致推理延迟和计算负担,需要在不牺牲性能的前提下减少冗余视觉token,以在资源受限或延迟敏感的场景中部署MLLMs。
- Method: 提出两种互补策略:1)减少视觉token的专家激活以最小化不必要的专家计算;2)基于路由概率分布相似性的token剪枝,识别并移除高度冗余的视觉token。
- Result: 在DeepSeek-VL2和InternVL3.5等大型MoE-MLLMs上的实验表明,FastMMoE可将FLOPs减少高达55.0%,同时保留约95.5%的原始性能,在多个保留率下始终优于密集模型剪枝基线。
- Conclusion: FastMMoE为基于MoE的MLLMs提供了一种有效的训练免费加速解决方案,显著降低了计算成本同时保持了模型性能。
[45] When Better Teachers Don't Make Better Students: Revisiting Knowledge Distillation for CLIP Models in VQA
Pume Tuchinda,Parinthapat Pengpun,Romrawin Chumpu,Sarana Nutanong,Peerat Limkonchotiwat
Main category: cs.CV
TL;DR: 对CLIP风格视觉语言模型进行知识蒸馏的系统性研究,发现更强的教师模型并不总是产生更好的学生模型,现有蒸馏框架在多模态任务上存在扩展性问题。
- Motivation: 视觉语言模型计算需求大,知识蒸馏是构建轻量级模型的有效方法,但在CLIP风格模型中的应用有限,且局限于小规模教师和窄范围评估任务。
- Method: 对一系列CLIP风格教师模型进行系统性知识蒸馏研究,包括标准基线模型和大规模最先进模型。
- Result: 与NLP和视觉领域的趋势相反,更强的教师模型并不总是产生更好的学生模型,现有蒸馏框架在多模态任务(如视觉问答)上表现下降。
- Conclusion: 研究结果挑战了知识蒸馏中的普遍假设,为设计参数高效的多模态模型指出了新方向。
[46] MINDiff: Mask-Integrated Negative Attention for Controlling Overfitting in Text-to-Image Personalization
Seulgi Jeong,Jaeil Kim
Main category: cs.CV
TL;DR: MINDiff提出了一种新的负注意力机制,通过在推理时修改交叉注意力来抑制主题在无关区域的影响,从而解决文本到图像模型个性化过程中的过拟合问题。
- Motivation: 现有方法如DreamBooth使用类别特定的先验保持损失来缓解过拟合,但这增加了训练计算成本并限制了用户在推理时的控制能力。
- Method: MINDiff引入负注意力概念,在推理时修改交叉注意力机制,抑制主题在掩码无关区域的影响,用户可以通过调整参数λ来平衡主题保真度和文本对齐。
- Result: 定性和定量实验表明,MINDiff比类别特定的先验保持损失更有效地缓解过拟合,且该方法完全在推理时运行,无需重新训练现有模型。
- Conclusion: MINDiff提供了一种无需重新训练的有效解决方案,能够在保持主题保真度的同时提高文本对齐质量,增强了用户对生成过程的控制。
[47] Decoupled Audio-Visual Dataset Distillation
Wenyuan Li,Guang Li,Keisuke Maeda,Takahiro Ogawa,Miki Haseyama
Main category: cs.CV
TL;DR: DAVDD是一个基于预训练的分离式音频-视觉数据集蒸馏框架,通过解耦表示学习解决跨模态对齐问题,在多个基准测试中达到最先进性能。
- Motivation: 传统分布匹配方法难以捕捉内在的跨模态对齐,现有方法存在两个主要挑战:独立随机初始化的编码器导致模态映射空间不一致,直接模态交互会损害模态特定信息。
- Method: 使用多样化预训练库获取稳定模态特征,通过轻量级解耦器将特征分解为公共和私有表示,引入公共跨模态匹配和样本-分布联合对齐策略。
- Result: 在多个基准测试的所有IPC设置下均达到最先进结果,证明了分离表示学习对高质量音频-视觉数据集蒸馏的有效性。
- Conclusion: DAVDD通过解耦表示学习成功解决了音频-视觉数据集蒸馏中的跨模态对齐挑战,为高质量数据集压缩提供了有效解决方案。
[48] CUS-GS: A Compact Unified Structured Gaussian Splatting Framework for Multimodal Scene Representation
Yuhang Ming,Chenxin Fang,Xingyuan Yu,Fan Zhang,Weichen Dai,Wanzeng Kong,Guofeng Zhang
Main category: cs.CV
TL;DR: CUS-GS是一种紧凑的统一结构化高斯泼溅表示,通过体素化锚点结构连接多模态语义特征与结构化3D几何,在仅使用6M参数的情况下达到与35M参数方法相竞争的性能。
- Motivation: 现有高斯泼溅方法存在语义导向方法缺乏显式3D几何建模,而结构导向方法语义抽象能力有限的问题,需要弥合这一差距。
- Method: 设计体素化锚点结构构建空间支架,从基础模型提取多模态语义特征;引入多模态潜在特征分配机制统一外观、几何和语义;提出特征感知重要性评估策略动态指导锚点生长和修剪。
- Result: 在仅使用6M参数的情况下,达到了与最先进方法(35M参数)相竞争的性能,展现了优异的性能与模型效率平衡。
- Conclusion: CUS-GS框架成功连接了多模态语义特征与结构化3D几何,在保持语义完整性的同时显著提升了模型效率。
[49] Rectifying Soft-Label Entangled Bias in Long-Tailed Dataset Distillation
Chenyang Jiang,Hang Zhao,Xinyu Zhang,Zhengcen Li,Qiben Shan,Shaocong Wu,Jingyong Su
Main category: cs.CV
TL;DR: 提出了ADSA(自适应软标签对齐)模块来解决长尾数据集蒸馏中的软标签偏差问题,显著提升尾类准确率
- Motivation: 现有数据集蒸馏方法主要针对平衡数据集,在真实世界长尾分布下性能下降,需要解决软标签偏差问题
- Method: 通过系统扰动数据不平衡水平识别软标签偏差来源,提出自适应软标签对齐模块来校准偏差
- Result: 在ImageNet-1k-LT上,ADSA将尾类准确率提升高达11.8%,总体准确率达到41.4%
- Conclusion: ADSA为有限标签预算下的长尾数据集蒸馏提供了鲁棒且通用的解决方案
[50] Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization
Youngsik Yun,Dongjun Gu,Youngjung Uh
Main category: cs.CV
TL;DR: 提出频率自适应锐度正则化(FASR),通过重新制定3D高斯泼溅训练目标,解决其在少样本场景下对新视角泛化能力不足的问题。
- Motivation: 3D高斯泼溅在大多数配置下表现出色,但在少样本场景中由于对稀疏观测的过拟合,缺乏对新视角的泛化能力。
- Method: 从机器学习角度重新审视3DGS优化,将新视角合成视为对未见视角的泛化问题。提出FASR方法,根据图像局部频率设置正则化权重和邻域半径来估计局部锐度。
- Result: 在各种配置的数据集上,该方法持续改进了广泛的基线模型,防止了新视角中的漂浮伪影并重建了SAM倾向于过度平滑的精细细节。
- Conclusion: FASR方法通过频率自适应锐度正则化有效提升了3D高斯泼溅在新视角合成中的泛化性能。
[51] PA-FAS: Towards Interpretable and Generalizable Multimodal Face Anti-Spoofing via Path-Augmented Reinforcement Learning
Yingjie Ma,Xun Lin,Yong Xu,Weicheng Xie,Zitong Yu
Main category: cs.CV
TL;DR: PA-FAS通过构建高质量扩展推理序列和答案重排机制,解决了多模态人脸反欺诈中监督微调+强化学习的局限性,显著提升了多模态推理准确性和跨域泛化能力。
- Motivation: 多模态人脸反欺诈面临多模态推理复杂性、高质量标注稀缺等问题,传统的监督微调+强化学习方法存在推理路径受限和推理混淆两大局限性,限制了模型性能。
- Method: 提出PA-FAS方法:1)从有限标注构建高质量扩展推理序列,丰富推理路径;2)在监督微调阶段引入答案重排机制,强制模型进行全面的多模态分析而非依赖表面线索。
- Result: PA-FAS显著提高了多模态推理准确性和跨域泛化能力,更好地统一了多模态融合、泛化性和可解释性,为可信赖的人脸反欺诈提供了解决方案。
- Conclusion: PA-FAS通过增强推理路径和缓解捷径学习,有效解决了多模态人脸反欺诈中的关键挑战,为多模态推理任务提供了新的训练范式。
[52] MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection
Hui Lu,Yi Yu,Shijian Lu,Deepu Rajan,Boon Poh Ng,Alex C. Kot,Xudong Jiang
Main category: cs.CV
TL;DR: MambaTAD是一个基于状态空间模型的时间动作检测框架,通过引入对角线掩码双向状态空间模块和全局特征融合头,解决了长跨度动作检测中的上下文衰减和全局建模问题。
- Motivation: 传统时间动作检测方法在处理长跨度动作实例时缺乏全局感知能力,而现有的结构化状态空间模型在TAD中面临时间上下文衰减和全局视觉上下文建模中的自元素冲突问题。
- Method: 提出MambaTAD框架,包含对角线掩码双向状态空间模块促进全局特征融合,以及全局特征融合头进行渐进式多粒度特征检测,采用端到端单阶段检测方式,通过状态空间时间适配器降低参数和计算成本。
- Result: 在多个公共基准测试中,MambaTAD实现了优越的时间动作检测性能。
- Conclusion: MambaTAD通过创新的状态空间建模方法,有效解决了长跨度动作检测中的关键挑战,在多个基准测试中表现出色。
[53] UniRSCD: A Unified Novel Architectural Paradigm for Remote Sensing Change Detection
Yuan Qu,Zhipeng Zhang,Chaojun Xu,Qiao Wan,Mengying Xie,Yuzeng Chen,Zhenqi Liu,Yanfei Zhong
Main category: cs.CV
TL;DR: 提出UniRSCD统一遥感变化检测框架,基于状态空间模型,通过频率变化提示生成器和统一解码器,将BCD、SCD、BDA等不同粒度变化检测任务整合到统一架构中,无需专门解码器。
- Motivation: 解决现有方法需要专家知识设计专门解码器来补偿编码过程中的信息损失,以及模型选择不确定性和架构通用性受限的问题。
- Method: 使用状态空间模型作为骨干,引入频率变化提示生成器作为统一编码器,动态扫描双时相全局上下文信息,集成高频细节和低频整体信息;统一解码器和预测头通过分层特征交互和任务自适应输出映射建立共享表示空间。
- Result: 在LEVIR-CD、SECOND、xBD等五个数据集上实现领先性能,能够适应多种变化检测任务。
- Conclusion: UniRSCD框架成功将不同输出粒度的变化检测任务整合到统一架构中,无需专门解码器,在多个任务上取得优异表现。
[54] Novel View Synthesis from A Few Glimpses via Test-Time Natural Video Completion
Yan Xu,Yixing Wang,Stella X. Yu
Main category: cs.CV
TL;DR: 提出一种零样本、生成引导的稀疏输入新视角合成方法,利用预训练视频扩散模型完成自然视频,通过不确定性感知机制合成伪视图来增强3D高斯泼溅的场景重建。
- Motivation: 解决稀疏输入新视角合成问题,不仅填补空间视图间的空白,还要完成自然视频的时空连续性。
- Method: 使用预训练视频扩散模型进行测试时自然视频补全,通过不确定性感知机制生成伪视图,用3D高斯泼溅进行场景重建,并建立迭代反馈循环。
- Result: 在LLFF、DTU、DL3DV和MipNeRF-360数据集上,在极端稀疏条件下显著优于强3D-GS基线方法。
- Conclusion: 无需场景特定训练或微调,即可从稀疏输入生成连贯、高保真的渲染结果。
[55] V2X-RECT: An Efficient V2X Trajectory Prediction Framework via Redundant Interaction Filtering and Tracking Error Correction
Xiangyan Kong,Xuecheng Wu,Xiongwei Zhao,Xiaodong Li,Yunyun Shi,Gang Wang,Dingkang Yang,Yang Liu,Hong Chen,Yulong Gao
Main category: cs.CV
TL;DR: V2X-RECT是一个针对高密度交通场景的轨迹预测框架,通过多源身份匹配、交通信号引导交互和局部时空坐标编码,解决身份切换、冗余交互和重复编码问题,提升预测准确性和推理效率。
- Motivation: 在密集交通场景中,频繁的目标身份切换阻碍了跨视角关联和融合,多源信息在编码阶段产生冗余交互,传统的车辆中心编码导致大量重复的历史轨迹特征编码,降低了实时推理性能。
- Method: 设计多源身份匹配校正模块利用多视角时空关系实现稳定目标关联;引入交通信号引导交互模块编码交通灯变化趋势并过滤关键交互车辆;采用局部时空坐标编码实现历史轨迹和地图特征的可重用性。
- Result: 在V2X-Seq和V2X-Traj数据集上的实验表明,V2X-RECT相比最先进方法有显著提升,同时增强了在不同交通密度下的鲁棒性和推理效率。
- Conclusion: V2X-RECT框架通过增强数据关联一致性、减少冗余交互和重用历史信息,实现了更高效准确的轨迹预测,特别适用于高密度交通环境。
[56] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System
Zhiyu Xu,Weilong Yan,Yufei Shi,Xin Meng,Tao He,Huiping Zhuang,Ming Li,Hehe Fan
Main category: cs.CV
TL;DR: SciEducator是一个基于戴明循环的自进化多智能体系统,专门用于科学视频理解和教育,在科学视频问答基准上显著优于现有最先进模型。
- Motivation: 现有的多模态大语言模型和视频智能体系统在需要外部专业知识和严格逐步推理的科学视频理解与教育领域表现不佳,需要专门解决方案。
- Method: 基于管理科学中的戴明循环(Plan-Do-Study-Act),设计自进化推理和反馈机制,能够生成包含文本指令、视觉指南、音频叙述和交互参考的多模态教育内容。
- Result: 在包含500个专家验证科学问答对的SciVBench基准上,SciEducator显著优于领先的闭源多模态大语言模型(如Gemini、GPT-4o)和最先进的视频智能体。
- Conclusion: SciEducator为科学视频理解和教育建立了新的范式,通过自进化多智能体系统有效解决了该领域的专业知识和推理需求。
[57] Test-Time Temporal Sampling for Efficient MLLM Video Understanding
Kaibin Wang,Mingbao Lin
Main category: cs.CV
TL;DR: 提出了T3S(测试时时间采样),一种无需训练、即插即用的推理包装器,通过生成多个短而多样的视频标记子序列,在单个前向传播中处理并聚合预测,从而高效处理长视频。
- Motivation: 处理长视频时,多模态大语言模型的自注意力机制计算复杂度随视频标记数量呈二次方增长,导致高计算需求和慢推理速度。现有解决方案在准确性、额外训练需求或推理速度方面存在权衡。
- Method: T3S利用时空冗余,在推理时生成多个短而多样的视频标记子序列,将它们打包在单个前向传播中,并聚合它们的预测。这种多子序列公式扩大了视觉覆盖范围,同时将自注意力的计算成本从O(L²)降低到O(∑α_i²L²),其中∑α_i² < 1。
- Result: 在长视频理解基准测试上的广泛实验表明,T3S将准确率提高了高达3.1%,并将首个标记延迟减少了2.04倍,且集成工作量最小。
- Conclusion: T3S将视频冗余转化为计算优势,为长视频理解提供了可扩展的解决方案。该方法完全在推理时运行,不需要模型修改或微调,并与各种预训练的MLLMs兼容。
[58] Multi-speaker Attention Alignment for Multimodal Social Interaction
Liangyang Ouyang,Yifei Huang,Mingfang Zhang,Caixin Kang,Ryosuke Furuta,Yoichi Sato
Main category: cs.CV
TL;DR: 提出了一种多模态多说话人注意力对齐方法,通过动态跨模态头选择和自适应社交感知注意力偏置,解决了MLLMs在多说话人场景中视觉和文本token缺乏说话人一致性对齐的问题。
- Motivation: 现有MLLMs在多说话人社交互动任务中表现不佳,核心问题是视觉和文本token缺乏说话人一致性对齐,跨模态注意力比以物体为中心的图像弱得多。
- Method: 动态跨模态头选择识别负责接地的注意力头,然后基于现有注意力模式和说话人位置计算自适应社交感知注意力偏置,并注入到注意力机制中,无需可训练参数或架构更改。
- Result: 在三个MLLMs(LLaVA-NeXT-Video、Qwen2.5-VL、InternVL3)和三个基准测试(TVQA+、MMSI、OnlineMMSI)上评估,在四个社交任务中取得了最先进的结果。
- Conclusion: 该方法成功使模型聚焦于说话人相关区域,实现了更鲁棒的多方社交推理,注意力可视化验证了方法的有效性。
[59] HEAL: Learning-Free Source Free Unsupervised Domain Adaptation for Cross-Modality Medical Image Segmentation
Yulong Shi,Jiapeng Li,Lin Qi
Main category: cs.CV
TL;DR: 提出HEAL框架解决SFUDA中的领域偏移问题,无需源域数据和目标域标签监督,通过分层去噪、边缘引导选择、尺寸感知融合和无学习特性实现SOTA性能
- Motivation: 解决临床数据隐私和存储限制带来的挑战,在无法访问源域数据且目标域无标签监督的情况下处理领域偏移问题
- Method: 集成分层去噪、边缘引导选择、尺寸感知融合和无学习特性的HEAL框架
- Result: 大规模跨模态实验显示该方法优于现有SFUDA方法,达到最先进性能
- Conclusion: HEAL框架在SFUDA任务中表现出色,为临床数据隐私保护提供了有效解决方案
[60] VITAL: Vision-Encoder-centered Pre-training for LMMs in Visual Quality Assessment
Ziheng Jia,Linhan Cao,Jinliang Han,Zicheng Zhang,Jiaying Qian,Jiarui Wang,Zijian Chen,Guangtao Zhai,Xiongkuo Min
Main category: cs.CV
TL;DR: 提出了VITAL-Series LMMs,通过视觉编码器中心的生成预训练流程解决现有视觉质量评估模型泛化能力不足的问题,构建了最大的VQualA训练数据集,并实现了高效的模型扩展。
- Motivation: 现有视觉质量评估大模型通常专注于单一任务且依赖全参数微调,容易在特定模态或任务类型上过拟合,限制了其泛化能力和可迁移性。
- Method: 采用机器执行的标注-审查范式构建超过450万视觉语言对;使用多任务训练工作流同时提升定量评分精度和质量解释能力;基于视觉编码器实现高效模型扩展。
- Result: 构建了迄今最大的VQualA训练数据集;模型在零样本设置下表现强劲;每个配对解码器仅需少量数据即可达到与全训练模型相当的性能。
- Conclusion: 该工作为推进视觉质量评估基础大模型的发展奠定了基石。
[61] X-ReID: Multi-granularity Information Interaction for Video-Based Visible-Infrared Person Re-Identification
Chenyang Yu,Xuehu Liu,Pingping Zhang,Huchuan Lu
Main category: cs.CV
TL;DR: 提出了X-ReID框架,通过跨模态原型协作和多粒度信息交互来解决视频可见光-红外行人重识别中的模态差异和时空信息利用问题。
- Motivation: 大规模视觉语言模型在检索任务中表现出色,但在视频可见光-红外行人重识别中的应用尚未充分探索,主要挑战是缩小模态差距和利用视频序列的时空信息。
- Method: 提出跨模态原型协作来对齐和整合不同模态特征,设计多粒度信息交互包括短时相邻帧交互、长时跨帧信息融合和跨模态特征对齐,最终整合多粒度信息获得序列级表示。
- Result: 在两个大规模VVI-ReID基准测试上的实验表明,该方法优于现有最先进方法。
- Conclusion: X-ReID框架通过有效的跨模态特征学习和时空建模,在视频可见光-红外行人重识别任务中取得了优越性能。
[62] Signal: Selective Interaction and Global-local Alignment for Multi-Modal Object Re-Identification
Yangyang Liu,Yuhao Wang,Pingping Zhang
Main category: cs.CV
TL;DR: 提出名为Signal的多模态物体重识别框架,通过选择性交互和全局-局部对齐来解决背景干扰和多模态一致性对齐问题。
- Motivation: 现有方法主要关注多模态特征融合,但忽视了背景干扰问题,且当前融合方法在模态对对齐时存在多模态一致性对齐困难。
- Method: 提出选择性交互模块(SIM)选择重要补丁令牌,全局对齐模块(GAM)在Gramian空间中最小化3D多面体体积来对齐多模态特征,局部对齐模块(LAM)以移位感知方式对齐局部特征。
- Result: 在三个多模态物体重识别基准数据集(RGBNT201、RGBNT100、MSVR310)上的广泛实验验证了方法的有效性。
- Conclusion: 所提框架能够提取更具判别性的特征用于物体重识别,解决了背景干扰和多模态一致性对齐问题。
[63] CADTrack: Learning Contextual Aggregation with Deformable Alignment for Robust RGBT Tracking
Hao Li,Yuhao Wang,Xiantao Hu,Wenning Hao,Pingping Zhang,Dong Wang,Huchuan Lu
Main category: cs.CV
TL;DR: 提出CADTrack框架用于RGB-Thermal跟踪,通过Mamba特征交互、上下文聚合和可变形对齐模块解决模态差异问题,实现复杂场景下的鲁棒跟踪
- Motivation: 现有RGB-Thermal跟踪器难以解决模态差异问题,限制了跨模态信息传播和融合,导致跟踪精度下降
- Method: 1) Mamba特征交互模块实现线性复杂度特征交互;2) 上下文聚合模块通过稀疏门控动态激活骨干网络层;3) 可变形对齐模块结合可变形采样和时间传播缓解空间不对齐
- Result: 在五个RGB-Thermal跟踪基准测试上验证了方法的有效性
- Conclusion: CADTrack框架通过有效的模态融合和对齐机制,实现了复杂场景下的鲁棒和准确跟踪
[64] Adversarial Pseudo-replay for Exemplar-free Class-incremental Learning
Hiroto Honda
Main category: cs.CV
TL;DR: 提出对抗性伪回放(APR)方法,通过对抗攻击扰动新任务图像来合成伪回放样本,无需存储历史样本,解决了无示例类增量学习中的灾难性遗忘问题。
- Motivation: 解决无示例类增量学习(EFCIL)中的可塑性-稳定性困境,即在无法访问历史图像的情况下,既要学习新任务又要避免灾难性遗忘。
- Method: 使用对抗攻击在新任务图像上生成伪回放样本,以增强的旧类均值原型为目标进行知识蒸馏;同时通过转移矩阵校准协方差矩阵来补偿语义漂移。
- Result: 在标准EFCIL基准的冷启动设置下达到了最先进的性能,成功平衡了稳定性和可塑性。
- Conclusion: APR方法有效解决了EFCIL中的关键挑战,通过在线生成伪回放样本和语义漂移补偿机制,实现了无需存储历史样本的类增量学习。
[65] FeRA: Frequency-Energy Constrained Routing for Effective Diffusion Adaptation Fine-Tuning
Bo Yin,Xiaobin Hu,Xingyu Zhou,Peng-Tao Jiang,Yue Liao,Junwei Zhu,Jiangning Zhang,Ying Tai,Chengjie Wang,Shuicheng Yan
Main category: cs.CV
TL;DR: FeRA是一个基于频率能量的扩散模型微调框架,通过分析扩散模型去噪过程中的频率能量机制,提出了包含频率能量指示器、软频率路由器和频率能量一致性正则化的综合方案,实现稳定高效的模型适配。
- Motivation: 扩散模型在生成建模方面取得了显著成功,但如何有效将大型预训练模型适配到新任务仍然具有挑战性。研究发现扩散模型在去噪过程中存在内在的频率能量机制,这为模型适配提供了新的视角。
- Method: FeRA框架包含三个协同组件:紧凑的频率能量指示器(表征潜在频带能量分布)、软频率路由器(自适应融合多个频率特定适配器专家)、频率能量一致性正则化(稳定扩散优化并确保跨频带的一致性适配)。路由在训练和推理时都运行,推理时路由由潜在频率能量动态确定。
- Result: FeRA能够与基于适配器的调优方案无缝集成,并在不同扩散主干网络和分辨率上具有良好的泛化能力。通过将适配与频率能量机制对齐,提供了简单、稳定且兼容的范式。
- Conclusion: FeRA通过揭示和利用扩散模型内在的频率能量机制,为扩散模型的有效和鲁棒适配提供了一个简单而强大的框架,解决了大型预训练模型适配新任务的挑战。
[66] Plan-X: Instruct Video Generation via Semantic Planning
Lun Huang,You Xie,Hongyi Xu,Tianpei Gu,Chenxu Zhang,Guoxian Song,Zenan Li,Xiaochen Zhao,Linjie Luo,Guillermo Sapiro
Main category: cs.CV
TL;DR: Plan-X是一个通过显式语义规划来指导视频生成的框架,通过语义规划器生成时空语义标记,减少视觉幻觉并实现细粒度的指令对齐视频生成。
- Motivation: 扩散变换器在视觉合成中表现出色,但在高级语义推理和长时程规划方面存在困难,导致视觉幻觉和用户指令不对齐的问题,特别是在复杂场景理解、人-物交互、多阶段动作和上下文运动推理等场景中。
- Method: 提出Plan-X框架,核心是语义规划器——一个可学习的多模态语言模型,从文本提示和视觉上下文中推理用户意图,并自回归生成基于文本的时空语义标记序列,作为视频扩散模型的结构化"语义草图"。
- Result: 大量实验表明,该框架显著减少了视觉幻觉,实现了与多模态上下文一致的细粒度、指令对齐的视频生成。
- Conclusion: Plan-X有效结合了语言模型在多模态上下文推理和规划方面的优势,以及扩散模型在逼真视频合成方面的优势,解决了现有方法在语义推理和规划方面的局限性。
[67] HyM-UNet: Synergizing Local Texture and Global Context via Hybrid CNN-Mamba Architecture for Medical Image Segmentation
Haodong Chen,Xianfei Han,Qwen
Main category: cs.CV
TL;DR: 提出HyM-UNet混合架构,结合CNN的局部特征提取能力和Mamba的全局建模能力,用于医学图像分割任务
- Motivation: 传统CNN受限于局部感受野,难以捕捉复杂的全局解剖结构,影响器官和病灶分割的准确性
- Method: 设计分层编码器:浅层使用卷积模块保留高频纹理细节,深层引入Visual Mamba模块以线性复杂度捕获长程语义依赖;提出Mamba引导融合跳跃连接,利用深度语义特征动态抑制浅层特征中的背景噪声
- Result: 在ISIC 2018数据集上的实验表明,HyM-UNet在Dice系数和IoU指标上显著优于现有方法,同时保持较低的参数量和推理延迟
- Conclusion: 该方法在具有复杂形状和尺度变化的医学分割任务中表现出有效性和鲁棒性
[68] SD-PSFNet: Sequential and Dynamic Point Spread Function Network for Image Deraining
Jiayu Wang,Haoyu Bian,Haoran Sun,Shaoning Zeng
Main category: cs.CV
TL;DR: 提出SD-PSFNet方法,通过多阶段图像恢复结合点扩散函数机制,有效解决复杂多尺度雨纹与场景耦合的图像去雨问题。
- Motivation: 图像去雨对视觉应用至关重要,但面临复杂多尺度雨物理特性及其与场景耦合的挑战。
- Method: 采用三阶段级联顺序恢复架构,结合学习PSF机制动态模拟雨纹光学特性,使用自适应门控融合进行跨阶段特征集成。
- Result: 在Rain100H、RealRain-1k-L和RealRain-1k-H数据集上达到最先进的PSNR/SSIM指标。
- Conclusion: SD-PSFNet在复杂场景和密集降雨条件下表现出色,为图像去雨提供了新的物理感知方法。
[69] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale
Shengyuan Wang,Zhiheng Zheng,Yu Shang,Lixuan He,Yangcheng Yu,Fan Hangyu,Jie Feng,Qingmin Liao,Yong Li
Main category: cs.CV
TL;DR: RAISECity是一个现实对齐的智能合成引擎,用于创建详细的城市规模3D世界,通过代理框架利用多模态基础工具,在质量、保真度和可扩展性方面超越现有方法。
- Motivation: 现有方法在城市规模3D生成中面临质量、保真度和可扩展性的重大挑战,需要开发能够创建详细、城市规模3D世界的新方法。
- Method: 引入代理框架,利用多样化多模态基础工具获取现实世界知识,维护鲁棒的中间表示,构建复杂3D场景,具有动态数据处理、迭代自我反思和优化以及调用高级多模态工具的特点。
- Result: 在现实对齐、形状精度、纹理保真度和美学水平方面表现出优越性能,在整体感知质量上对现有基线实现了超过90%的胜率。
- Conclusion: RAISECity在3D质量、现实对齐、可扩展性以及与计算机图形管线的无缝兼容性方面的结合,使其成为沉浸式媒体、具身智能和世界模型应用的有前景的基础。
[70] Is Complete Labeling Necessary? Understanding Active Learning in Longitudinal Medical Imaging
Siteng Ma,Honghui Du,Prateek Mathur,Brendan S. Kelly,Ronan P. Killeen,Aonghus Lawlor,Ruihai Dong
Main category: cs.CV
TL;DR: 提出了LMI-AL框架,专门用于纵向医学影像的主动学习,通过配对和差分基线及随访3D图像的2D切片,仅需标注不到8%的数据就能达到全标注数据的性能。
- Motivation: 纵向医学影像标注成本高且耗时,现有深度主动学习方法主要针对静态任务,无法直接应用于检测跨图像细微变化的检测任务。
- Method: LMI-AL框架通过配对和差分所有基线及随访3D图像的2D切片,使用深度主动学习迭代选择最有信息量的图像对进行标注,训练深度学习模型。
- Result: 实验结果表明,仅标注不到8%的数据,LMI-AL就能达到与全标注数据集训练模型相当的性能。
- Conclusion: LMI-AL为纵向医学影像提供了一种高效的主动学习解决方案,显著降低了标注成本,代码已开源。
[71] RoadBench: Benchmarking MLLMs on Fine-Grained Spatial Understanding and Reasoning under Urban Road Scenarios
Jun Zhang,Jie Feng,Long Chen,Junhui Wang,Zhicheng Liu,Depeng Jin,Yong Li
Main category: cs.CV
TL;DR: RoadBench是一个评估多模态大语言模型在城市场景中细粒度空间理解和推理能力的基准,包含6个任务、9121个测试用例,涵盖BEV和FPV图像输入,发现现有MLLMs在此领域存在显著不足。
- Motivation: 填补多模态大语言模型在复杂城市场景中细粒度空间理解和推理能力评估的空白,以道路标线为典型代表,评估其在城市交通系统中的综合能力。
- Method: 提出RoadBench基准,包含6个任务形成系统性评估框架,使用BEV和FPV图像输入,涵盖从局部空间范围到全局推理的完整评估链条。
- Result: 评估14个主流MLLMs后发现,RoadBench对现有模型具有挑战性,某些任务中模型表现甚至低于基于规则或随机选择的基线方法。
- Conclusion: RoadBench基准及评估结果将推动MLLMs空间理解能力的全面进步,揭示了现有模型在城市场景细粒度空间理解方面的重大缺陷。
[72] State and Scene Enhanced Prototypes for Weakly Supervised Open-Vocabulary Object Detection
Jiaying Zhou,Qingchao Chen
Main category: cs.CV
TL;DR: 提出两种原型增强策略来解决弱监督开放词汇目标检测中的挑战:状态增强语义原型(SESP)捕获类内视觉变化,场景增强伪原型(SAPP)解决语义不匹配问题。
- Motivation: 现有语义原型是静态的,无法捕捉由不同物体状态引起的类内视觉变化;标准伪框生成存在视觉区域建议(包含上下文)与物体中心文本嵌入之间的语义不匹配问题。
- Method: 引入SESP生成状态感知的文本描述来捕获多样化的物体外观;提出SAPP结合上下文语义并使用软对齐机制促进上下文一致的视觉-文本表示。
- Result: 通过整合SESP和SAPP,有效增强了语义原型的丰富性和视觉-文本对齐,取得了显著改进。
- Conclusion: 所提出的两种互补原型增强策略成功解决了弱监督开放词汇目标检测中的关键挑战,提升了检测性能。
[73] Modeling Retinal Ganglion Cells with Neural Differential Equations
Kacper Dobek,Daniel Jankowski,Krzysztof Krawiec
Main category: cs.CV
TL;DR: LTC和CfC网络在模拟老虎蝾螈视网膜神经节细胞活动方面优于卷积基线和LSTM,具有更低的MAE、更快的收敛速度、更小的模型尺寸和更优的查询时间,但皮尔逊相关性略低。
- Motivation: 探索LTC和CfC网络在视网膜神经节细胞活动建模中的应用,特别是在数据有限和需要频繁重新训练的场景下,如视觉假体边缘部署。
- Method: 使用Liquid Time-Constant Networks (LTCs)和Closed-form Continuous-time Networks (CfCs)对三个数据集中的老虎蝾螈视网膜神经节细胞活动进行建模,并与卷积基线和LSTM进行比较。
- Result: LTC和CfC架构相比卷积基线和LSTM实现了更低的MAE、更快的收敛速度、更小的模型尺寸和更优的查询时间,但皮尔逊相关性略低。
- Conclusion: LTC和CfC网络的高效性和适应性使其特别适合数据有限且需要频繁重新训练的场景,如视觉假体的边缘部署。
[74] MambaX: Image Super-Resolution with State Predictive Control
Chenyu Li,Danfeng Hong,Bing Zhang,Zhaojie Pan,Naoto Yokoya,Jocelyn Chanussot
Main category: cs.CV
TL;DR: 提出了MambaX模型,通过动态状态预测控制学习来近似状态空间模型的非线性微分系数,解决图像超分辨率任务中的误差传播和累积问题。
- Motivation: 现有超分辨率方法主要关注最终分辨率提升,但忽视了中间阶段的误差传播和累积控制。Mamba方法虽然能表示重建过程为状态序列,但其固定线性映射器感受野窄、灵活性受限,在细粒度图像中效果不佳。
- Method: 创建非线性状态预测控制模型MambaX,将连续光谱带映射到潜在状态空间,通过动态学习控制方程的非线性状态参数来泛化超分辨率任务。包括动态状态预测控制学习、状态交叉控制范式和渐进过渡学习。
- Result: 评估显示该动态光谱-状态表示模型在单图像超分辨率和多模态融合超分辨率任务中表现优异。
- Conclusion: MambaX模型在任意维度和模态的光谱泛化建模方面具有显著潜力。
[75] Hybrid Event Frame Sensors: Modeling, Calibration, and Simulation
Yunfan Lu,Nico Messikommer,Xiaogang Xu,Liming Chen,Yuhan Chen,Nikola Zubic,Davide Scaramuzza,Hui Xiong
Main category: cs.CV
TL;DR: 提出了首个统一的事件帧混合传感器噪声模型,联合描述APS和EVS像素的噪声行为,并开发了校准流程和统计模拟器HESIM。
- Motivation: 事件帧混合传感器结合了APS和EVS的优势,但其复杂电路架构引入了难以理解的噪声模式,目前缺乏统一的噪声模型。
- Method: 建立基于统计的成像噪声模型,包含光子散粒噪声、暗电流噪声、固定模式噪声和量化噪声,开发校准流程估计噪声参数,并构建HESIM模拟器。
- Result: 在两个混合传感器上的实验验证了模型的有效性,在视频帧插值和去模糊等任务中展示了从模拟到真实数据的强迁移能力。
- Conclusion: 该工作填补了事件帧混合传感器噪声建模的空白,为相关应用提供了可靠的噪声模拟基础。
[76] UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios
Tian Ye,Song Fei,Lei Zhu
Main category: cs.CV
TL;DR: UltraFlux是一个基于Flux的扩散变换器,通过数据-模型协同设计在原生4K分辨率下训练,解决了现有方法扩展到4K时的耦合故障模式。
- Motivation: 现有扩散变换器在扩展到原生4K分辨率和多样化宽高比时,暴露出位置编码、VAE压缩和优化之间的紧密耦合故障模式,单独解决任一因素都无法达到理想质量。
- Method: 采用数据-模型协同设计:创建MultiAspect-4K-1M数据集,结合Resonance 2D RoPE位置编码、非对抗VAE后训练、SNR感知Huber小波目标函数和分阶段美学课程学习策略。
- Result: 在4096分辨率基准测试和多宽高比4K设置中,UltraFlux在保真度、美学质量和对齐度方面持续优于开源基线,配合LLM提示优化器可匹敌或超越专有Seedream 4.0。
- Conclusion: 通过系统性解决4K生成中的耦合问题,UltraFlux实现了稳定、细节保留的4K扩散变换器,能够泛化到宽屏、方形和竖屏等多种宽高比。
[77] IE-Critic-R1: Advancing the Explanatory Measurement of Text-Driven Image Editing for Human Perception Alignment
Bowen Qu,Shangkun Sun,Xiaoyu Liang,Wei Gao
Main category: cs.CV
TL;DR: 提出了IE-Bench基准套件和IE-Critic-R1评估方法,用于改进文本驱动图像编辑的质量评估,通过人类评分数据和强化学习实现与人类感知对齐的评估。
- Motivation: 文本驱动图像编辑的评估具有挑战性,现有方法要么只关注文本-图像对齐,要么未能很好地对齐人类感知,需要更全面的评估方法。
- Method: 构建IE-Bench数据库包含多样化的源图像、编辑提示和编辑结果,收集近4000个样本的人类评分;开发IE-Critic-R1评估器,利用可验证奖励的强化学习(RLVR)进行训练。
- Result: IE-Critic-R1在文本驱动图像编辑任务上展现出优于先前指标的与人类主观感知对齐的效果。
- Conclusion: IE-Bench和IE-Critic-R1为文本驱动图像编辑提供了更全面、可解释且与人类感知对齐的质量评估方案。
[78] Hierarchical Semi-Supervised Active Learning for Remote Sensing
Wei Huang,Zhitong Xiong,Chenying Liu,Xiao Xiang Zhu
Main category: cs.CV
TL;DR: 提出了一种分层半监督主动学习框架,结合半监督学习和分层主动学习,在遥感场景分类中显著提高了标签效率。
- Motivation: 遥感领域深度学习模型依赖高质量标注数据,但大规模标注成本高昂且耗时,大量未标注图像未被充分利用。
- Method: 分层半监督主动学习框架,通过半监督学习改进特征表示和不确定性估计,然后使用分层主动学习通过渐进聚类策略选择最具信息量的样本。
- Result: 在UCM、AID和NWPU-RESISC45三个基准数据集上,仅使用8%、4%和2%的标注数据就达到了超过95%的全监督准确率。
- Conclusion: 该框架通过充分利用未标注数据的信息性,显著提高了标签效率,在遥感场景分类任务中表现出色。
[79] A Lightweight, Interpretable Deep Learning System for Automated Detection of Cervical Adenocarcinoma In Situ (AIS)
Gabriela Fernandes
Main category: cs.CV
TL;DR: 开发基于深度学习的虚拟病理助手,使用EfficientNet-B3模型在CAISHI数据集上区分宫颈腺原位癌与正常腺体组织,准确率达73.23%,并部署为可解释的AI诊断工具。
- Motivation: 宫颈腺原位癌(AIS)是重要的癌前病变,准确诊断具有挑战性。早期检测对于预防进展为浸润性宫颈腺癌至关重要。
- Method: 使用2240张专家标注的H&E图像数据集,经过Macenko染色归一化和基于patch的预处理。采用EfficientNet-B3卷积神经网络,使用类别平衡采样和focal loss解决数据不平衡问题。
- Result: 最终模型总体准确率为0.7323,异常类F1分数为0.75,正常类为0.71。Grad-CAM热图显示与AIS形态一致的核异型性和腺体拥挤激活模式。
- Conclusion: 证明了轻量级、可解释的AI系统在宫颈腺体病理学中的可行性,在筛查工作流程、教育和资源匮乏环境中具有应用潜力。
[80] VK-Det: Visual Knowledge Guided Prototype Learning for Open-Vocabulary Aerial Object Detection
Jianhang Yao,Yongbin Zheng,Siqi Lu,Wanying Xu,Peng Sun
Main category: cs.CV
TL;DR: VK-Det是一个无需额外监督的视觉知识引导开放词汇目标检测框架,通过利用视觉编码器的固有区域感知能力和原型感知伪标签策略,在航空图像上实现了最先进的开放词汇检测性能。
- Motivation: 现有的开放词汇航空目标检测方法依赖文本监督,导致语义偏见,限制了向文本未指定概念的词汇扩展。需要一种不依赖额外监督的方法来突破这一限制。
- Method: 1. 利用视觉编码器的固有信息区域感知能力实现细粒度定位和自适应蒸馏;2. 提出原型感知伪标签策略,通过特征聚类建模类间决策边界,通过原型匹配将检测区域映射到潜在类别。
- Result: 在DIOR数据集上达到30.1 mAP^N,在DOTA数据集上达到23.3 mAP^N,甚至超过了有额外监督的方法。
- Conclusion: VK-Det证明了仅利用视觉知识就能有效实现开放词汇目标检测,无需依赖文本监督,为开放词汇检测提供了新的方向。
[81] ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models
Wencheng Ye,Tianshi Wang,Lei Zhu,Fengling Li,Guoli Yang
Main category: cs.CV
TL;DR: ActDistill是一个动作引导的自蒸馏框架,将现有VLA模型的动作预测能力转移到轻量级模型中,通过图结构封装和动态路由实现高效推理。
- Motivation: 现有VLA模型在机器人操作中面临计算开销大和推理延迟高的问题,需要一种面向动作效率的模型压缩方法。
- Method: 使用训练好的VLA模型作为教师模型,引入图结构封装策略建模动作预测的层次演化,学生模型配备动态路由器根据动作需求自适应选择计算路径。
- Result: 在具身智能基准测试中,ActDistill达到或超过完整VLA模型的性能,同时减少50%以上的计算量,实现1.67倍加速。
- Conclusion: ActDistill为高效具身智能建立了一个通用范式,能够在保持性能的同时显著提升VLA模型的推理效率。
[82] Less Is More: An Explainable AI Framework for Lightweight Malaria Classification
Md Abdullah Al Kafi,Raka Moni,Sumit Kumar Banshal
Main category: cs.CV
TL;DR: 该研究提出EMFE管道,使用简单的形态学特征和轻量级机器学习模型,在疟疾细胞图像分类任务中达到与深度学习相当的准确率,但模型更小、推理更快、更透明。
- Motivation: 解决深度学习模型在医学图像分类中计算需求高、缺乏可解释性的问题,探索简单二元分类任务是否真的需要复杂神经网络。
- Method: 从疟疾细胞图像中提取两个形态学特征:非背景像素数量和细胞内部孔洞数量,使用逻辑回归和随机森林模型,并与多种深度学习模型对比。
- Result: 单变量逻辑回归模型达到94.80%准确率,模型大小仅1.2kB,推理延迟2.3ms;两阶段集成模型准确率提升至97.15%。深度学习模型需要13.6-44.7MB存储,推理时间68ms。
- Conclusion: 紧凑的特征工程方法能提供临床意义的分类性能,同时在透明度、可重复性、速度和部署可行性方面具有优势,适合计算资源有限的环境。
[83] Together, Then Apart: Revisiting Multimodal Survival Analysis via a Min-Max Perspective
Wenjing Liu,Qin Ren,Wen Zhang,Yuewei Lin,Chenyu You
Main category: cs.CV
TL;DR: 提出Together-Then-Apart (TTA)框架,通过统一的最小-最大优化同时建模共享和模态特定表示,在保持模态特异性的同时实现语义对齐,显著提升多模态生存分析性能。
- Motivation: 现有方法过度强调跨模态对齐而忽略模态特异性,导致表示崩溃和多样性降低。需要同时考虑对齐和差异性,保持模态特定结构。
- Method: TTA框架包含Together阶段(最小化语义差异,通过共享原型对齐嵌入)和Apart阶段(最大化表示多样性,通过模态锚点和对比正则化保持独特信息)。
- Result: 在五个TCGA基准测试中,TTA始终优于最先进方法,提供稳健、可解释且具有生物学意义的多模态生存分析。
- Conclusion: TTA为多模态生存分析提供了新的理论视角,证明对齐和差异性可以共同实现,推动该领域发展。
[84] Versatile Recompression-Aware Perceptual Image Super-Resolution
Mingwei He,Tongda Xu,Xingtong Ge,Ming Sun,Chao Zhou,Yan Wang
Main category: cs.CV
TL;DR: VRPSR是一种感知图像超分辨率方法,专门考虑图像在存储和传输过程中的重新压缩问题,通过构建可泛化的编解码器模拟器和专门训练技术,显著降低重压缩后的比特率。
- Motivation: 传统感知超分辨率方法忽略了图像恢复后通常会被重新压缩存储和传输的问题,导致下游编解码器可能在恢复图像上添加额外伪影,因此需要联合优化超分辨率和重压缩过程。
- Method: 1. 将压缩建模为条件文本到图像生成,利用预训练扩散模型构建通用编解码器模拟器;2. 针对感知超分辨率设计专门训练技术,包括使用感知目标优化模拟器,以及采用轻微压缩图像作为训练目标。
- Result: 基于Real-ESRGAN和S3Diff,在H.264/H.265/H.266压缩下节省超过10%的比特率,同时促进超分辨率和重压缩后处理模型的联合优化。
- Conclusion: VRPSR成功解决了感知超分辨率中忽略重压缩的问题,通过构建编解码器模拟器和专门训练策略,显著提升了压缩效率并支持联合优化。
[85] Spotlight: Identifying and Localizing Video Generation Errors Using VLMs
Aditya Chinchure,Sahithya Ravi,Pushkar Shukla,Vered Shwartz,Leonid Sigal
Main category: cs.CV
TL;DR: 提出了Spotlight任务,用于定位和解释视频生成中的错误,通过标注1600多个细粒度错误发现当前VLMs在错误识别和定位方面显著落后于人类。
- Motivation: 当前文本到视频模型虽然能生成高质量视频,但仍存在细微和局部的错误,而现有评估方法通常整体评估视频,无法识别具体错误发生的时间和性质。
- Method: 使用200个多样化文本提示和三种最先进的视频生成器生成600个视频,标注了六种类型的1600多个细粒度错误,包括运动、物理和提示遵循等。
- Result: 发现遵循性和物理错误占主导地位且持续时间较长,而外观消失和身体姿态错误出现在较短片段中;当前VLMs在错误识别和定位方面显著落后于人类,但通过推理时策略可将性能提高近2倍。
- Conclusion: Spotlight任务为构建细粒度评估工具和更复杂的视频生成器奖励模型开辟了道路。
[86] Consolidating Diffusion-Generated Video Detection with Unified Multimodal Forgery Learning
Xiaohong Liu,Xiufeng Song,Huayu Zheng,Lei Bai,Xiaoming Liu,Guangtao Zhai
Main category: cs.CV
TL;DR: 提出MM-Det++算法,通过时空分支和多模态分支结合统一多模态学习模块,专门检测扩散模型生成的视频伪造内容。
- Motivation: 扩散模型生成的视频泛滥引发信息安全担忧,现有方法主要关注图像级伪造检测,视频级检测研究不足。
- Method: 采用双分支结构:时空分支使用帧中心视觉变换器聚合时空信息;多模态分支利用多模态大语言模型获取伪造表示。通过统一多模态学习模块整合多模态表示。
- Result: 构建大规模扩散视频取证数据集,实验证明MM-Det++在检测扩散生成视频方面具有优越性。
- Conclusion: 统一多模态伪造学习在检测扩散生成视频方面具有显著效果,MM-Det++算法表现出色。
[87] AdaPerceiver: Transformers with Adaptive Width, Depth, and Tokens
Purvish Jajal,Nick John Eliopoulos,Benjamin Shiue-Hal Chou,George K. Thiruvathukal,Yung-Hsiang Lu,James C. Davis
Main category: cs.CV
TL;DR: AdaPerceiver是首个在单一模型中实现深度、宽度和token维度统一自适应性的Transformer架构,能够在不同硬件和延迟约束下动态调整计算量。
- Motivation: 现代Transformer架构在推理时计算分配方式固定,无法适应多样化的硬件和延迟约束。现有动态计算方法通常只关注单一维度(如减少token数量),缺乏统一的自适应能力。
- Method: 提出支持深度、宽度和token三个维度自适应性的架构,配合高效的联合训练机制,确保模型在各种配置下保持性能。
- Result: 在图像分类任务中,AdaPerceiver扩展了准确率-吞吐量帕累托前沿,达到85.4%准确率,吞吐量比FlexiViT-L高36%。在密集预测任务中,与ViT-H/14相比,语义分割和深度估计的编码器FLOPs减少约26倍。配备策略后,在保持ImageNet1K准确率(±0.1%)的同时,FLOPs减少24-33%。
- Conclusion: AdaPerceiver展示了在单一模型中实现多维度自适应性的可行性,为Transformer模型在不同部署场景下的灵活性和效率提供了新的解决方案。
[88] Muskie: Multi-view Masked Image Modeling for 3D Vision Pre-training
Wenyu Li,Sidun Liu,Peng Qiao,Yong Dou,Tongrui Hu
Main category: cs.CV
TL;DR: Muskie是一个原生多视图视觉骨干网络,专为3D视觉任务设计,通过同时处理多视图并引入多视图一致性预训练,在无3D监督的情况下学习视图不变特征和几何理解。
- Motivation: 现有模型是逐帧处理的,多视图一致性有限,需要设计能同时处理多视图并增强多视图一致性的模型。
- Method: 通过重建一个视图中被严重遮挡的内容,利用其他视图的几何对应关系,采用激进的遮挡策略进行预训练。
- Result: 相比DINO等逐帧骨干网络,Muskie在多视图对应精度上表现更好,在下游3D任务(相机姿态估计和点云重建)中持续提升性能。
- Conclusion: Muskie通过多视图一致性预训练成功学习了视图不变特征和几何理解,在3D视觉任务中表现出色。
[89] PromptMoE: Generalizable Zero-Shot Anomaly Detection via Visually-Guided Prompt Mixtures
Yuheng Shao,Lizhang Wang,Changhao Li,Peixian Chen,Qinyuan Liu
Main category: cs.CV
TL;DR: 提出了PromptMoE方法,通过混合专家机制动态组合多个专家提示来解决零样本异常检测中的表示瓶颈问题
- Motivation: 现有基于CLIP的方法在提示工程策略上存在表示瓶颈,容易在辅助数据上过拟合,无法泛化到复杂多样的未见异常
- Method: 学习专家提示池作为可组合语义基元,通过视觉引导的混合专家机制动态组合这些提示,生成语义丰富的文本表示
- Result: 在工业和医疗领域的15个数据集上进行了广泛实验,证明了方法的有效性和最先进性能
- Conclusion: PromptMoE通过组合式提示学习方法克服了现有方法的局限性,在零样本异常检测任务上取得了优异表现
[90] MVS-TTA: Test-Time Adaptation for Multi-View Stereo via Meta-Auxiliary Learning
Hannuo Zhang,Zhixiang Chi,Yang Wang,Xinxin Zuo
Main category: cs.CV
TL;DR: MVS-TTA是一个高效的测试时自适应框架,通过元辅助学习策略将优化方法融入学习型多视角立体匹配方法,提升模型在测试时的适应性。
- Motivation: 学习型MVS方法受限于训练数据分布,泛化能力不足;而优化型方法虽然能进行场景特定适应,但缺乏可扩展性且需要昂贵的逐场景优化。
- Method: 使用自监督的跨视角一致性损失作为辅助任务指导推理时自适应,引入元辅助学习策略训练模型从基于辅助任务的更新中获益。
- Result: 在标准数据集和跨数据集泛化设置上的实验表明,MVS-TTA能持续提升性能,即使应用于最先进的MVS模型。
- Conclusion: 这是首次使用元学习将基于优化的测试时自适应集成到学习型MVS中的尝试,该框架具有模型无关性,可广泛应用于各种MVS方法。
[91] VCU-Bridge: Hierarchical Visual Connotation Understanding via Semantic Bridging
Ming Zhong,Yuanlei Wang,Liuzhou Zhang,Arctanx An,Renrui Zhang,Hao Liang,Ming Lu,Ying Shen,Wentao Zhang
Main category: cs.CV
TL;DR: VCU-Bridge框架提出了一种类似人类的视觉内涵理解层次结构,从基础感知到语义桥接再到抽象内涵,并构建了HVCU-Bench基准。实验显示模型性能随推理层级上升而下降,通过MCTS引导的数据增强可提升低层能力并带来高层收益。
- Motivation: 现有MLLM评估协议将低层感知与高层推理解耦,忽视了它们的语义和因果依赖关系,导致非诊断性结果和性能瓶颈模糊。
- Method: 提出VCU-Bridge框架,构建视觉内涵理解的层次结构:基础感知→语义桥接→抽象内涵,并开发HVCU-Bench基准进行层级诊断。使用MCTS引导的数据生成管道进行指令调优。
- Result: 实验显示模型性能随推理层级上升而一致下降。增强低层能力可带来高层性能提升,在HVCU-Bench和通用基准上均有改善(平均+2.53%,MMStar +7.26%)。
- Conclusion: 层次化思维模式对增强MLLM能力具有重要意义,加强低层能力可有效提升高层推理性能。
[92] Bias Is a Subspace, Not a Coordinate: A Geometric Rethinking of Post-hoc Debiasing in Vision-Language Models
Dachuan Zhao,Weiyue Li,Zhenda Shen,Yushu Qiu,Bowen Xu,Haoyu Chen,Yongchao Chen
Main category: cs.CV
TL;DR: SPD是一种几何原理驱动的去偏框架,通过识别和移除线性可解码偏见的整个子空间,同时重新插入中性均值分量来保持语义保真度,相比坐标替换方法在公平性指标上平均提升18.5%。
- Motivation: 视觉语言模型(VLMs)的表征经常编码和放大人口统计偏见,导致下游任务中的偏见关联和错位预测。现有的坐标替换方法存在特征纠缠、跨数据集泛化差和不完全去偏三个关键问题。
- Method: 提出子空间投影去偏(SPD)框架,识别并移除线性可解码偏见的整个子空间,同时重新插入中性均值分量以保持语义保真度。
- Result: 在零样本分类、文本到图像检索和图像生成等任务上的广泛实验验证了SPD的有效性,在四个公平性指标上平均提升18.5%,同时任务性能损失最小。
- Conclusion: 偏见不是局限于少数坐标,而是分布在少数线性子空间中。SPD通过几何原理驱动的方法实现了更鲁棒的去偏效果,同时保持了语义保真度。
[93] SFHand: A Streaming Framework for Language-guided 3D Hand Forecasting and Embodied Manipulation
Ruicong Liu,Yifei Huang,Liangyang Ouyang,Caixin Kang,Yoichi Sato
Main category: cs.CV
TL;DR: SFHand是首个用于语言引导3D手部预测的流式框架,能够从连续的视频和语言指令流中自回归预测未来3D手部状态,在3D手部预测任务上达到新SOTA,性能提升达35.8%。
- Motivation: 现有方法不适合AR和辅助机器人等实时交互场景,因为它们通常需要离线访问累积视频序列,且无法整合传达任务意图的语言指导。
- Method: SFHand结合流式自回归架构和ROI增强记忆层,从连续的视频和语言指令流中预测手部类型、2D边界框、3D姿态和轨迹等完整手部状态。同时构建了首个大规模同步3D手部姿态和语言指令数据集EgoHaFL。
- Result: SFHand在3D手部预测任务上显著优于现有方法,性能提升最高达35.8%。学习到的表示可迁移到下游具身操作任务,在多个基准上任务成功率提升最高达13.4%。
- Conclusion: SFHand为实时人机交互提供了有效的语言引导3D手部预测解决方案,其学习表示具有良好的可迁移性。
[94] Video4Edit: Viewing Image Editing as a Degenerate Temporal Process
Xiaofan Li,Yanpeng Sun,Chenming Wu,Fan Duan,YuAn Wang,Weihao Bo,Yumeng Zhang,Dingkang Liang
Main category: cs.CV
TL;DR: 本文提出了一种基于时间建模视角的图像编辑方法,通过从视频预训练中迁移单帧演化先验,实现了仅需主流编辑模型1%监督数据的高效微调。
- Motivation: 当前多模态基础模型推动了指令驱动的图像生成和编辑,但现有编辑流程成本高昂,需要大量高质量的三元组数据(指令、源图像、编辑后图像),且编辑保真度依赖于指令对目标语义的精确引用。
- Method: 将图像编辑视为退化时间过程,从视频预训练中迁移单帧演化先验,采用数据高效微调机制。
- Result: 实验表明,该方法在性能上匹配领先的开源基线,同时仅需主流编辑模型约1%的监督数据。
- Conclusion: 通过时间建模视角,实现了高效的数据驱动图像编辑,显著降低了监督数据需求。
[95] SCALER: SAM-Enhanced Collaborative Learning for Label-Deficient Concealed Object Segmentation
Chunming He,Rihan Zhang,Longxiang Tang,Ziyun Yang,Kai Li,Deng-Ping Fan,Sina Farsiu
Main category: cs.CV
TL;DR: SCALER是一个统一的协作框架,用于标签不足的隐蔽目标分割,通过联合优化均值教师分割器和可学习的SAM模型,在交替的两个阶段中实现相互监督和性能提升。
- Motivation: 现有方法在标签不足的隐蔽目标分割中性能有限,本研究旨在探索能否将一致性约束和SAM监督联合集成,以及分割器能否反过来指导SAM实现相互改进。
- Method: 提出SCALER框架,包含两个交替阶段:阶段I在固定SAM监督下优化分割器,使用基于熵的图像级和基于不确定性的像素级权重选择可靠伪标签区域;阶段II通过增强不变性和噪声抵抗损失更新SAM。
- Result: 实验表明SCALER在八个半监督和弱监督COS任务中实现了持续的性能提升,能够作为通用训练范式增强轻量级分割器和大型基础模型。
- Conclusion: SCALER框架成功验证了分割器和SAM可以相互监督和共同改进,在标签稀缺条件下为隐蔽目标分割提供了一种有效的解决方案。
[96] Compact neural networks for astronomy with optimal transport bias correction
Shuhuan Wang,Yuzhen Xie,Jiayi Li
Main category: cs.CV
TL;DR: WaveletMamba是一个将小波分解与状态空间建模相结合的理论驱动框架,在64x64分辨率下实现81.72%的分类准确率,仅需3.54M参数,并在低分辨率输入下获得高分辨率性能,计算效率提升9.7倍。
- Motivation: 解决天文成像中效率与分辨率之间的权衡限制,该限制阻碍了大规模形态分类和红移预测。
- Method: 集成小波分解、状态空间建模、数学正则化和多级偏差校正的理论驱动框架。
- Result: 在64x64分辨率下实现81.72%的分类准确率,参数仅3.54M;在244x244分辨率下保持80.93%准确率;计算效率提升9.7倍;多级偏差校正实现22.96% Log-MSE改进和26.10%异常值减少。
- Conclusion: 数学严谨性能够在科学AI中实现前所未有的效率和全面的偏差校正,连接计算机视觉和天体物理学,彻底改变跨学科科学发现。
[97] UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors
Chunming He,Rihan Zhang,Zheng Chen,Bowen Yang,CHengyu Fang,Yunlong Lin,Fengyang Xiao,Sina Farsiu
Main category: cs.CV
TL;DR: UnfoldLDM结合深度展开网络和潜在扩散模型解决盲图像恢复问题,通过多粒度退化感知模块估计未知退化,使用退化抵抗LDM提取退化不变先验,并通过过平滑校正变换器恢复高频细节。
- Motivation: 现有深度展开网络存在退化特定依赖性和过平滑偏差问题,限制了其在盲图像恢复任务中的应用。
- Method: 提出UnfoldLDM框架,包含多粒度退化感知模块作为梯度下降步骤,退化抵抗潜在扩散模型作为近端步骤,以及过平滑校正变换器恢复高频细节。
- Result: 实验表明UnfoldLDM在各种盲图像恢复任务中取得领先性能,并能提升下游任务表现。
- Conclusion: UnfoldLDM为盲图像恢复提供了有效的解决方案,可作为即插即用框架与现有深度展开网络方法兼容。
[98] Matching-Based Few-Shot Semantic Segmentation Models Are Interpretable by Design
Pasquale De Marinis,Uzay Kaymak,Rogier Brussee,Gennaro Vessio,Giovanna Castellano
Main category: cs.CV
TL;DR: 本文提出了首个专门用于解释基于匹配的少样本语义分割模型的方法——Affinity Explainer,通过利用模型内在结构特性生成归因图,揭示支持图像中哪些像素对查询分割预测贡献最大。
- Motivation: 少样本语义分割模型在分割新类别方面表现优异,但其决策过程不透明。尽管可解释AI在标准计算机视觉任务中已有显著进展,但在FSS领域的可解释性研究几乎空白,这对于理解模型行为和在数据稀缺场景中指导支持集选择至关重要。
- Method: Affinity Explainer方法提取归因图,通过在多个特征级别计算支持图像和查询图像特征之间的匹配分数,突出显示支持图像中对查询分割预测贡献最大的像素。
- Result: 在FSS基准数据集上的综合实验表明,Affinity Explainer显著优于适应的标准归因方法。定性分析显示,该方法提供的解释具有结构化、连贯的注意力模式,与模型架构一致,并能实现有效的模型诊断。
- Conclusion: 这项工作为可解释的FSS研究奠定了基础,能够更好地理解模型并进行诊断,从而构建更可靠的少样本分割系统。
[99] Nested Unfolding Network for Real-World Concealed Object Segmentation
Chunming He,Rihan Zhang,Dingming Zhang,Fengyang Xiao,Deng-Ping Fan,Sina Farsiu
Main category: cs.CV
TL;DR: 提出嵌套展开网络(NUN),通过DUN-in-DUN设计将图像恢复与分割解耦,在真实世界隐蔽目标分割中取得领先性能。
- Motivation: 现有基于展开网络的COS方法将背景估计与图像恢复耦合,导致目标冲突且需要预定义退化类型,这在真实场景中不现实。
- Method: 采用DUN-in-DUN设计,在分割导向展开网络(SODUN)的每个阶段嵌入抗退化展开网络(DeRUN),通过视觉语言模型动态推断退化语义,实现恢复与分割的相互精炼。
- Result: 在干净和退化基准测试中都取得了领先地位。
- Conclusion: NUN为真实世界COS提供了一个统一框架,通过解耦恢复与分割实现了更好的性能。
[100] EgoControl: Controllable Egocentric Video Generation via 3D Full-Body Poses
Enrico Pallotta,Sina Mokhtarzadeh Azar,Lars Doorenbos,Serdar Ozsoy,Umar Iqbal,Juergen Gall
Main category: cs.CV
TL;DR: EgoControl是一个基于姿态控制的视频扩散模型,专门用于从自我中心视角生成可控的视频。它通过3D身体姿态序列来控制未来帧的生成,实现了精确的运动控制。
- Motivation: 实现通过身体姿态进行细粒度控制的自我中心视频生成,这是构建能够模拟、预测和规划动作的具身AI代理的关键要求。
- Method: 提出了一个新颖的姿态表示方法,捕捉全局相机动态和关节身体运动,并通过扩散过程中的专用控制机制进行集成。模型以观察帧序列和目标姿态序列为输入,生成与姿态控制对齐的未来帧。
- Result: 实验结果表明,EgoControl能够生成高质量、姿态一致的自我中心视频,在时间连贯性和视觉真实性方面表现出色。
- Conclusion: EgoControl为可控的具身视频模拟和理解开辟了新途径,展示了在自我中心视频生成中实现精确运动控制的可行性。
[101] Unified Spherical Frontend: Learning Rotation-Equivariant Representations of Spherical Images from Any Camera
Mukai Yu,Mosam Dabhi,Liuyue Xie,Sebastian Scherer,László A. Jeni
Main category: cs.CV
TL;DR: USF是一个统一的球形前端框架,可将任何校准相机的图像转换为单位球面表示,直接在空间域进行球形重采样、卷积和池化,避免昂贵的球谐变换,提供可配置的旋转等变性。
- Motivation: 现代感知系统越来越多地使用鱼眼、全景等广角相机,但现有方法仍使用为针孔图像设计的平面CNN,在2D网格上图像空间邻域不能正确表示物理邻接,且模型对全局旋转敏感。
- Method: 通过光线方向对应关系将图像转换为单位球面表示,在空间域直接进行球形重采样、卷积和池化,使用仅距离的球形核提供可配置的旋转等变性,完全避免球谐变换。
- Result: USF能高效处理高分辨率球形图像,在随机测试时旋转下性能下降小于1%,即使没有旋转增强,还能实现从一种镜头类型到未见过的广角镜头的零样本泛化,性能下降最小。
- Conclusion: USF提供了一个模块化、镜头无关的框架,能有效处理广角相机图像,具有优异的旋转鲁棒性和跨镜头泛化能力,避免了球谐变换的计算成本。
[102] Early Lung Cancer Diagnosis from Virtual Follow-up LDCT Generation via Correlational Autoencoder and Latent Flow Matching
Yutong Wu,Yifan Wang,Qining Zhang,Chuan Zhou,Lei Ying
Main category: cs.CV
TL;DR: 提出了一种名为CorrFlowNet的生成方法,通过扩散模型从早期基线CT扫描生成虚拟的一年随访CT扫描,用于早期检测恶性/良性结节,减少临床随访等待时间。
- Motivation: 肺癌早期诊断至关重要,但区分早期恶性信号与良性病变具有挑战性。患者通常需要进行多次随访检查才能确诊,可能错过最佳治疗时机。现有AI方法主要关注单次早期CT扫描的影像组学特征提取。
- Method: 使用相关性自编码器将早期基线和随访CT图像编码到潜在空间,捕捉结节进展动态和相关性,然后通过神经常微分方程在潜在空间进行流匹配,并使用辅助分类器提高诊断准确性。
- Result: 在真实临床数据集上的评估表明,该方法相比现有基线模型能显著改善下游肺结节风险评估,其诊断准确性与真实临床CT随访相当。
- Conclusion: CorrFlowNet具有改善癌症诊断的潜力,能够通过生成虚拟随访扫描实现早期检测,减少对临床随访的依赖。
[103] ARIAL: An Agentic Framework for Document VQA with Precise Answer Localization
Ahmad Mohammadshirazi,Pinaki Prasad Guha Neogi,Dheeraj Kulshrestha,Rajiv Ramnath
Main category: cs.CV
TL;DR: ARIAL是一个模块化框架,通过LLM规划代理协调专门工具,在文档视觉问答中同时实现精确答案提取和可靠空间定位,在多个基准测试中达到最先进水平。
- Motivation: 现有文档VQA系统要么文本准确但空间定位不可靠,要么为了可解释性牺牲性能。需要同时实现高精度答案提取和可靠空间定位,以满足高风险应用的可解释性需求。
- Method: 使用基于LLM的规划代理协调专门工具:TrOCR进行OCR文本提取、语义搜索进行检索增强上下文选择、微调Gemma 3-27B模型生成答案、文本到区域对齐进行边界框定位。
- Result: 在四个基准测试中均达到SOTA:DocVQA(88.7 ANLS, 50.1 mAP)、FUNSD(90.0 ANLS, 50.3 mAP)、CORD(85.5 ANLS, 60.2 mAP)、SROIE(93.1 ANLS),相比之前最佳方法DLaVA在DocVQA上提升+2.8 ANLS和+3.9 mAP。
- Conclusion: 智能编排专门工具可以同时提升性能和可解释性,为可信赖、可解释的文档AI系统提供可行路径。模块化架构支持透明推理追踪和独立组件优化。
[104] InfiniBench: Infinite Benchmarking for Visual Spatial Reasoning with Customizable Scene Complexity
Haoming Wang,Qiyao Xue,Wei Gao
Main category: cs.CV
TL;DR: InfiniBench是一个完全自动化、可定制且用户友好的基准测试生成器,能够合成理论上无限多样的3D场景,并通过参数化控制场景复杂度,用于评估视觉语言模型的空间推理能力。
- Motivation: 现有基准测试在场景复杂度定制化方面有限,无法在特定空间条件下隔离和分析视觉语言模型的失败模式,需要更灵活、可扩展的评估工具。
- Method: 采用三个关键技术:1)基于LLM的代理框架迭代优化程序化场景约束;2)灵活的基于聚类的布局优化器生成密集杂乱场景;3)任务感知的相机轨迹优化方法渲染完整覆盖对象的视频。
- Result: 实验表明InfiniBench在提示保真度和物理合理性方面优于最先进的程序化和基于LLM的3D生成方法,特别是在高复杂度场景中。
- Conclusion: InfiniBench通过生成代表性空间推理任务的基准测试,展示了其在评估视觉语言模型空间推理能力方面的实用性。
[105] Generating Synthetic Human Blastocyst Images for In-Vitro Fertilization Blastocyst Grading
Pavan Narahari,Suraj Rajendran,Lorena Bori,Jonas E. Malmsten,Qiansheng Zhan,Zev Rosenwaks,Nikica Zaninovic,Iman Hajirasouliha
Main category: cs.CV
TL;DR: 提出了DIA框架,使用潜在扩散模型生成高质量的第5天囊胚图像,通过数据增强解决胚胎数据集中的数据稀缺和类别不平衡问题。
- Motivation: 体外受精(IVF)中第5天囊胚的形态学评估存在主观性和不一致性,AI模型需要大量多样化数据集,但面临数据稀缺、类别不平衡和隐私限制等挑战。
- Method: 开发基于潜在扩散模型的DIA框架,通过Gardner形态学类别和z轴焦距进行条件控制,生成高质量囊胚图像。
- Result: DIA生成的图像在胚胎学家图灵测试中无法与真实图像区分;合成图像增强不平衡数据集显著提高分类准确率(p<0.05);在大型平衡数据集中添加合成图像也能获得显著性能提升;合成数据可替代高达40%的真实数据而不损失准确率。
- Conclusion: DIA为胚胎数据集中的数据稀缺和类别不平衡问题提供了稳健解决方案,通过生成新颖、高保真且可控的合成图像,能够提高AI胚胎评估工具的性能、公平性和标准化程度。
[106] Large-Scale Pre-training Enables Multimodal AI Differentiation of Radiation Necrosis from Brain Metastasis Progression on Routine MRI
Ahmed Gomaa,Annette Schwarz,Ludwig Singer,Arnd Dörfler,Matthias Stefan May,Pluvio Stephan,Ishita Sheth,Juliane Szkitsak,Katharina Breininger,Yixing Huang,Benjamin Frey,Oliver Schnell,Daniel Delev,Roland Coras,Daniel Höfler,Philipp Schubert,Jenny Stritzelberger,Sabine Semrau,Andreas Maier,Dieter H Heiland,Udo S. Gaipl,Andrea Wittig,Rainer Fietkau,Christoph Bert,Stefanie Corradini,Florian Putz
Main category: cs.CV
TL;DR: 提出了一种基于自监督学习的双阶段深度学习策略,用于区分脑转移瘤放疗后的放射性坏死与肿瘤进展,在常规T1CE MRI上实现了高准确率。
- Motivation: 脑转移瘤立体定向放疗后区分放射性坏死与肿瘤进展是临床关键挑战,传统有监督深度学习受限于活检确认训练数据稀缺,而自监督学习可以利用大规模未标记数据克服这一限制。
- Method: 采用双阶段深度学习策略:首先在10,167个未标记多源T1CE MRI子体积上通过自监督学习预训练Vision Transformer,然后在公开MOLAB数据集上使用双通道输入进行微调。
- Result: 自监督模型在同中心测试集上AUC达0.916,第二中心测试集AUC为0.764,显著优于全监督ViT和放射组学方法。多模态集成进一步提升了性能。
- Conclusion: 大规模未标记数据预训练显著提升AI模型性能,双阶段多模态深度学习策略仅使用常规T1CE MRI和标准临床数据即可高准确区分放射性坏死与肿瘤进展,提供了可解释的临床解决方案。
[107] Using MLIR Transform to Design Sliced Convolution Algorithm
Victor Ferrari,Marcio Pereira,Lucas Alvarenga,Gustavo Leite,Guido Araujo
Main category: cs.CV
TL;DR: SConvTransform是MLIR中的Transform方言扩展,通过声明式转换管道优化2D卷积,将Linalg卷积降级为分块和打包的通用操作,在ARM SME和Intel AVX512上分别达到峰值性能的60%和67%。
- Motivation: 为了在MLIR框架内提供可重用、可分析的卷积优化转换,结合静态形状分析与结构化分块打包策略,实现跨架构的性能优化。
- Method: 使用卷积切片分析确定分块大小和数据布局策略,通过参数化仿射方程推导所有打包和分块操作,处理边缘情况并调整仿射映射。
- Result: 在标准卷积配置下,生成的代码在ARM SME上达到峰值性能的60%,在Intel AVX512上达到67%,验证了该方法的有效性。
- Conclusion: SConvTransform的模块化设计便于与未来扩展集成,通过MLIR的可扩展编译基础设施持续优化卷积工作负载。
[108] Parallel qMRI Reconstruction from 4x Accelerated Acquisitions
Mingi Kang
Main category: cs.CV
TL;DR: 提出端到端深度学习框架,联合估计线圈灵敏度图并从4倍加速的欠采样k空间数据重建MRI图像,无需预计算线圈灵敏度图。
- Motivation: 传统并行MRI技术如SENSE需要预计算线圈灵敏度图,限制了临床应用。深度学习可以端到端学习重建过程,减少对额外信息的依赖。
- Method: 两模块架构:线圈灵敏度图估计模块和基于U-Net的MRI重建模块,直接从欠采样k空间数据重建图像。
- Result: 在10名受试者的多线圈脑MRI数据上测试,相比传统SENSE产生视觉更平滑的重建结果,尽管PSNR/SSIM指标较低但视觉质量相当。
- Conclusion: 该方法展示了端到端学习的可行性,但存在不同加速因子间的空间错位问题,需要进一步改进重建质量。
[109] EgoVITA: Learning to Plan and Verify for Egocentric Video Reasoning
Yogesh Kulkarni,Pooyan Fazli
Main category: cs.CV
TL;DR: EgoVITA是一个强化学习框架,通过第一人称规划与第三人称验证的交替阶段,提升多模态大语言模型在自我中心视角下的推理能力。
- Motivation: 解决多模态大语言模型在第一人称视角下推理的挑战,包括部分可观测性、有限视野和自参考运动等问题。
- Method: 基于GRPO强化学习,交替进行自我中心规划阶段(预测未来行动步骤)和外部中心验证阶段(检查计划的一致性和逻辑性)。
- Result: 在自我中心推理任务上显著提升,EgoBlind任务上比基线Qwen2.5-VL-7B高出7.7分,EgoOrient任务上高出4.4分,同时在外部中心视频任务上保持良好泛化能力。
- Conclusion: EgoVITA通过结构化规划和验证机制,有效提升了模型在第一人称视角下的推理能力,实现了更连贯和视觉基础化的推理过程。
[110] UniFlow: Towards Zero-Shot LiDAR Scene Flow for Autonomous Vehicles via Cross-Domain Generalization
Siyi Li,Qingwen Zhang,Ishan Khatri,Kyle Vedder,Deva Ramanan,Neehar Peri
Main category: cs.CV
TL;DR: LiDAR场景流任务中,跨数据集训练能显著提升模型性能,这与传统认知相反。作者提出的UniFlow模型通过统一训练多个大规模LiDAR数据集,在多个基准测试中达到新的SOTA性能。
- Motivation: 传统方法通常在单一传感器上训练和评估,但作者希望学习能够迁移到不同LiDAR传感器的通用运动先验。
- Method: 提出UniFlow模型系列,统一训练多个具有不同传感器布局和点云密度的大规模LiDAR场景流数据集。
- Result: 在Waymo和nuScenes上分别提升5.1%和35.2%,在未见数据集TruckScenes上比特定模型提升30.1%。
- Conclusion: 运动估计等低级任务对传感器配置不敏感,跨数据集训练能显著提升LiDAR场景流性能。
[111] Sequence-Adaptive Video Prediction in Continuous Streams using Diffusion Noise Optimization
Sina Mokhtarzadeh Azar,Emad Bahrami,Enrico Pallotta,Gianpiero Francesca,Radu Timofte,Juergen Gall
Main category: cs.CV
TL;DR: 提出了SAVi-DNO方法,通过优化扩散噪声而非模型参数,使预训练扩散模型能够自适应地适应连续视频流,提高视频预测性能。
- Motivation: 在连续视频流场景中,模型会不断观察到新的训练样本,我们希望利用这一点来改进视频预测模型的性能。
- Method: 保持预训练扩散模型参数不变,在推理过程中优化扩散噪声,让模型自适应地确定合适的采样噪声。
- Result: 在Ego4D、OpenDV-YouTube、UCF-101和SkyTimelapse数据集上,基于FVD、SSIM和PSNR指标的实验结果显示性能提升。
- Conclusion: SAVi-DNO方法能够有效适应连续视频流,提高扩散基视频预测模型的性能,且无需昂贵的模型微调。
[112] MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation
Tao Shen,Xin Wan,Taicai Chen,Rui Zhang,Junwen Pan,Dawei Lu,Fanding Lei,Zhilin Lu,Yunfei Yang,Chen Cheng,Qi She,Chang Liu,Zhenbang Sun
Main category: cs.CV
TL;DR: Mammoth2是一个统一的自回归-扩散框架,通过耦合自回归语义规划和扩散生成,实现了高保真图像生成和编辑,同时保持强大的多模态理解能力。
- Motivation: 解决统一多模态模型中离散语义推理与高保真视觉合成之间的差距,实现理解和生成在单一框架内的有效集成。
- Method: 采用串行设计:自回归路径进行全局语义建模,单流扩散Transformer解码器处理高保真图像合成,通过AR-Diffusion特征对齐模块稳定对齐表示。端到端训练结合Next-Token Prediction和Flow Matching目标,随后进行监督微调和强化学习。
- Result: 在公开基准测试中表现优异:GenEval得分0.87,DPGBench得分87.2,ImgEdit得分4.06,同时在多模态理解任务上与纯理解模型保持竞争力。
- Conclusion: 精心耦合的AR-Diffusion架构可以在单一、参数和数据高效的模型中提供高保真生成和编辑,同时保持强大的多模态理解能力。
[113] SatSAM2: Motion-Constrained Video Object Tracking in Satellite Imagery using Promptable SAM2 and Kalman Priors
Ruijie Fan,Junyan Ye,Huan Chen,Zilong Huang,Xiaolei Wang,Weijia Li
Main category: cs.CV
TL;DR: SatSAM2是一个基于SAM2的零样本卫星视频跟踪器,通过卡尔曼滤波约束运动模块和运动约束状态机解决传统方法泛化性差和遮挡下跟踪丢失的问题,在多个基准测试中表现优于现有方法。
- Motivation: 现有卫星视频跟踪方法泛化性差,需要针对特定场景训练,且在遮挡情况下容易丢失跟踪。
- Method: 基于SAM2构建SatSAM2,引入卡尔曼滤波约束运动模块(KFCMM)利用时间运动线索抑制漂移,以及运动约束状态机(MCSM)基于运动动态和可靠性调节跟踪状态。
- Result: 在OOTB数据集上比最先进方法提升5.84% AUC,在两个卫星跟踪基准和提出的MVOT数据集上均优于传统和基于基础模型的跟踪器。
- Conclusion: SatSAM2成功将基础模型适配到遥感领域,解决了卫星视频跟踪中的泛化和遮挡问题,代码和数据集将公开以促进进一步研究。
[114] Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models
Tianyang Han,Junhao Su,Junjie Hu,Peizhen Yang,Hengyu Shi,Junfeng Luo,Jialin Gao
Main category: cs.CV
TL;DR: PicWorld是首个全面评估文本到图像模型对隐式世界知识和物理因果推理理解的基准,包含1,100个提示,通过多智能体评估器PW-Agent进行分层评估,发现主流T2I模型普遍存在隐式世界知识和物理因果推理能力不足的问题。
- Motivation: 现有评估协议主要关注组合对齐或基于单轮VQA评分,对知识基础、多物理交互和可审计证据等关键维度测试不足,需要更全面的评估方法来测试T2I模型对隐式世界知识和物理因果推理的掌握。
- Method: 提出PicWorld基准,包含1,100个提示,分为三个核心类别;设计PW-Agent多智能体评估器,通过将提示分解为可验证的视觉证据来分层评估图像的物理真实性和逻辑一致性。
- Result: 对17个主流T2I模型进行彻底分析,发现它们普遍在不同程度上存在隐式世界知识和物理因果推理能力的基本限制。
- Conclusion: 研究结果强调了未来T2I系统需要具备推理感知和知识集成的架构。
[115] Vision Token Masking Alone Cannot Prevent PHI Leakage in Medical Document OCR: A Systematic Evaluation
Richard J. Young
Main category: cs.CV
TL;DR: 本研究首次系统评估了在医疗文档OCR中使用视觉token掩码作为隐私保护机制的效果,发现所有掩码策略都只能达到42.9%的PHI减少率,成功抑制长格式标识符但无法阻止短结构化标识符泄露。
- Motivation: 大型视觉语言模型在医疗环境中部署OCR时存在受保护健康信息暴露的风险,需要评估视觉token掩码作为隐私保护机制的有效性。
- Method: 使用DeepSeek-OCR,引入七种针对不同架构层的掩码策略,在100份合成医疗账单上评估HIPAA定义的PHI类别减少效果,并进行掩码扩展半径的消融研究。
- Result: 所有掩码策略都收敛到42.9%的PHI减少率,长格式空间分布标识符被100%抑制,但短结构化标识符完全无法阻止(0%效果)。增加空间覆盖范围无法突破这一上限。
- Conclusion: 纯视觉隐私干预存在边界,需要区分适合视觉级与语言级编辑的PHI类型,未来研究应转向解码器级微调和混合防御架构以实现HIPAA合规的医疗文档处理。
[116] Point-to-Point: Sparse Motion Guidance for Controllable Video Editing
Yeji Song,Jaehyun Lee,Mijin Koo,JunHoo Lee,Nojun Kwak
Main category: cs.CV
TL;DR: 提出了一种名为锚点令牌的新型运动表示方法,通过视频扩散模型的先验知识捕捉关键运动模式,实现更可控和语义对齐的视频编辑。
- Motivation: 现有视频编辑方法在编辑保真度和运动保真度之间存在权衡,因为它们依赖的运动表示要么过度拟合布局,要么只是隐式定义。
- Method: 提出锚点令牌运动表示,通过少量信息丰富的点轨迹紧凑编码视频动态,并灵活重新定位以对齐新主题。
- Result: 实验表明锚点令牌能够实现更可控和语义对齐的视频编辑,在编辑保真度和运动保真度方面表现优异。
- Conclusion: 锚点令牌作为一种新颖的运动表示方法,能够克服现有方法的局限性,在多样化场景中实现高质量的视频编辑。
[117] Uni-DAD: Unified Distillation and Adaptation of Diffusion Models for Few-step Few-shot Image Generation
Yara Bahram,Melodie Desbos,Mohammadhadi Shateri,Eric Granger
Main category: cs.CV
TL;DR: Uni-DAD是一个单阶段训练管道,统一了扩散模型的蒸馏和适应过程,能够在少于4个采样步骤的情况下实现高质量的新领域图像生成。
- Motivation: 现有的两阶段训练管道(先适应后蒸馏或先蒸馏后适应)存在设计复杂性和质量/多样性下降的问题,需要一种更高效的解决方案。
- Method: Uni-DAD结合了双重领域分布匹配蒸馏目标(引导学生模型朝向源教师和目标教师的分布)和多头生成对抗网络损失(在多个特征尺度上鼓励目标真实性)。
- Result: 在少样本图像生成和主题驱动个性化任务上,Uni-DAD在质量和多样性方面均优于最先进的适应方法和两阶段训练管道。
- Conclusion: Uni-DAD通过单阶段统一蒸馏和适应,实现了快速、高质量的新领域图像生成,同时保持了源领域的多样性知识。
[118] RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System
Runwei Guan,Rongsheng Hu,Shangshu Chen,Ningyuan Xiao,Xue Xia,Jiayang Liu,Beibei Chen,Ziren Tang,Ningwei Ouyang,Shaofeng Liang,Yuxuan Fan,Wanjie Sun,Yutao Yue
Main category: cs.CV
TL;DR: 本文提出了RoadSceneVQA数据集和RoadMind基准模型,用于路边场景的视觉问答任务,通过CogniAnchor Fusion和AD-CoT方法提升多模态大语言模型在交通感知和推理方面的性能。
- Motivation: 现有的路边感知系统主要关注实例级感知,缺乏通过自然语言交互和基于上下文进行交通行为推理的能力。
- Method: 提出了RoadSceneVQA数据集(34,736个QA对),开发了CogniAnchor Fusion视觉语言融合模块和Assisted Decoupled Chain-of-Thought方法,构建了RoadMind基准模型。
- Result: 在RoadSceneVQA和CODA-LM基准测试中,该流水线持续提升了推理准确性和计算效率,在结构化交通感知和推理任务中达到了最先进的性能。
- Conclusion: 该工作为路边场景的视觉问答任务提供了重要的数据集和基准模型,显著提升了多模态大语言模型在交通场景中的感知和推理能力。
[119] SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes
Jungho Lee,Minhyeok Lee,Sunghun Yang,Minseok Kang,Sangyoun Lee
Main category: cs.CV
TL;DR: SwiftVGGT是一种免训练方法,在大规模3D重建中显著减少推理时间同时保持高质量重建,无需外部VPR模型即可实现闭环,通过Sim(3) SVD对齐相邻块,推理时间仅为现有方法的33%。
- Motivation: 现有大规模3D重建方法在精度和计算效率之间存在固有权衡,要么速度快但质量低,要么质量高但推理慢,需要解决这一挑战。
- Method: 提出SwiftVGGT免训练方法,无需外部VPR模型实现闭环,提出基于Sim(3) SVD的简单有效点采样方法对齐相邻块,替代传统IRLS优化。
- Result: 在多个数据集上评估,SwiftVGGT达到最先进的重建质量,同时推理时间仅为最近VGGT大规模重建方法的33%。
- Conclusion: SwiftVGGT成功解决了大规模3D重建中精度与效率的权衡问题,实现了高质量重建与显著加速的平衡。
[120] DiVE-k: Differential Visual Reasoning for Fine-grained Image Recognition
Raja Kumar,Arka Sadhu,Ram Nevatia
Main category: cs.CV
TL;DR: DiVE-k是一个利用模型自身top-k预测作为训练信号的框架,通过创建多项选择题并使用强化学习训练模型选择正确答案,以提升细粒度图像识别能力。
- Motivation: 大型视觉语言模型拥有丰富的文本知识,但在细粒度图像识别中难以区分视觉相似的类别,现有基于精确匹配奖励信号的强化学习方法容易导致记忆训练类别而缺乏泛化能力。
- Method: 为每个训练图像从模型的top-k输出创建多项选择题,使用强化学习训练模型选择正确答案,促使模型在合理选项间进行细粒度差分推理。
- Result: 在五个标准细粒度数据集上的实验表明,DiVE-k显著优于现有方法,在基础到新类别泛化设置中,比QWEN2.5-VL-7B和ViRFT在调和平均值指标上分别提升10.04%和6.16%。
- Conclusion: DiVE-k通过利用模型自身top-k预测作为训练信号,提供简单可验证的奖励信号,有效缓解记忆问题并提升泛化能力,在多种场景下均表现出色。
[121] ScriptViT: Vision Transformer-Based Personalized Handwriting Generation
Sajjan Acharya,Rajendra Baskota
Main category: cs.CV
TL;DR: 提出了一种基于Vision Transformer的笔迹生成框架,通过多参考图像学习全局风格模式,结合交叉注意力机制生成更忠实于目标风格的笔迹图像,并使用显著性笔画注意力分析提高可解释性。
- Motivation: 现有笔迹生成方法难以捕捉完整的书写者特定属性,特别是跨越长距离空间依赖的全局风格模式,如一致的倾斜度、曲率和笔画压力等细微特征。
- Method: 使用Vision Transformer风格编码器从多张参考图像学习全局风格模式,通过交叉注意力机制将风格线索与目标文本集成,并采用显著性笔画注意力分析实现可解释性。
- Result: 该方法能够生成在风格上更加一致的笔迹图像,同时保持生成文本的准确性,使笔迹合成过程更易于理解和分析。
- Conclusion: 该统一框架通过全局风格编码和交叉注意力机制,有效解决了笔迹生成中风格一致性和准确性的挑战,同时提高了模型的可解释性。
[122] Stro-VIGRU: Defining the Vision Recurrent-Based Baseline Model for Brain Stroke Classification
Subhajeet Das,Pritam Paul,Rohit Bahadur,Sohan Das
Main category: cs.CV
TL;DR: 提出基于预训练Vision Transformer的迁移学习框架,用于脑卒中的早期识别,通过冻结部分编码器块和微调其余部分来学习脑卒中特异性特征,结合Bi-GRU进行分类,准确率达到94.06%。
- Motivation: 脑卒中是全球主要致死和致残原因,早期识别对成功治疗至关重要。CT扫描是常用诊断方法,但手动分析耗时且易出错,需要自动化解决方案。
- Method: 使用预训练Vision Transformer模型,冻结部分编码器块,微调其余部分学习脑卒中特征,提取的特征输入单层Bi-GRU进行分类,采用数据增强处理类别不平衡问题。
- Result: 在脑卒中数据集上实现了94.06%的分类准确率。
- Conclusion: 提出的基于Vision Transformer的迁移学习框架能够有效识别脑卒中,为临床诊断提供了自动化解决方案。
[123] Optimal Pose Guidance for Stereo Calibration in 3D Deformation Measurement
Dongcai Tan,Shunkun Liang,Bin Li,Banglei Guan,Ang Su,Yuan Lin,Dapeng Zhang,Minggang Wan,Zibin Liu,Chenglong Wang,Jiajian Zhu,Zhang Li,Yang Shang,Qifeng Yu
Main category: cs.CV
TL;DR: 提出了一种用于3D变形测量的立体标定最优姿态引导方法,通过联合优化相对和绝对外参参数,自动生成最优标定姿态,提高标定效率和精度。
- Motivation: 当前立体标定方法缺乏直观的最优姿态指导,导致变形测量效率低下且精度不理想,需要开发能够自动生成最优姿态的交互式标定框架。
- Method: 提出姿态优化方法,引入相对和绝对外参参数的联合优化,以协方差矩阵迹最小化为损失函数求解下一个最优姿态,并集成用户友好的图形界面。
- Result: 与随机姿态相比,该方法在效率(需要更少图像)和精度(测量误差更低)方面表现优越,在不同视场下保持鲁棒性,热变形测量结果与有限元分析高度一致。
- Conclusion: 该方法在3D变形测量领域具有显著应用潜力,仿真实验、真实实验和热变形测量应用均验证了其有效性。
[124] General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification
Helia Abedini,Saba Rahimi,Reza Vaziri
Main category: cs.CV
TL;DR: 比较三种预训练CNN在脑肿瘤MRI分类中的表现,发现ConvNeXt-Tiny在小数据集上表现最佳,而医学领域预训练的RadImageNet DenseNet121泛化能力较差
- Motivation: 探讨在小数据集条件下,医学领域预训练模型与通用预训练模型在脑肿瘤检测任务中的性能差异
- Method: 在相同条件下系统评估三种预训练CNN架构:RadImageNet DenseNet121(医学领域预训练)、EfficientNetV2S和ConvNeXt-Tiny(通用预训练),使用有限规模的脑MRI数据集进行训练和微调
- Result: ConvNeXt-Tiny获得最高准确率,其次是EfficientNetV2S,而RadImageNet DenseNet121尽管有医学领域预训练,但表现出较差的泛化能力,准确率较低且损失较高
- Conclusion: 在小数据条件下,医学领域预训练可能泛化不佳,而现代深度通用预训练CNN在大规模数据集上预训练后,在专业医学成像任务中能提供更优的迁移学习性能
[125] SciPostLayoutTree: A Dataset for Structural Analysis of Scientific Posters
Shohei Tanaka,Atsushi Hashimoto,Yoshitaka Ushiku
Main category: cs.CV
TL;DR: 构建了SciPostLayoutTree数据集,包含约8000张标注了阅读顺序和父子关系的学术海报,开发了Layout Tree Decoder模型来预测海报结构关系,特别改善了空间挑战性关系的预测精度。
- Motivation: 学术海报在学术交流中扮演重要角色,但相比论文,海报的结构分析研究较少。需要解决海报中阅读顺序和父子关系的分析问题,以构建结构感知的界面来促进对研究内容的清晰准确理解。
- Method: 构建SciPostLayoutTree数据集,开发Layout Tree Decoder模型,该模型结合视觉特征和边界框特征(位置和类别信息),使用beam搜索预测关系并捕获序列级合理性。
- Result: 实验结果表明,该模型提高了对空间挑战性关系(向上、水平和长距离关系)的预测准确性,为海报结构分析建立了坚实的基线。
- Conclusion: SciPostLayoutTree数据集和Layout Tree Decoder模型填补了海报结构分析的研究空白,为学术海报的结构理解提供了有效工具和基准。
[126] ConsistCompose: Unified Multimodal Layout Control for Image Composition
Xuanke Shi,Boxuan Li,Xiaoyang Han,Zhongang Cai,Lei Yang,Dahua Lin,Quan Wang
Main category: cs.CV
TL;DR: ConsistCompose是一个统一的多模态框架,通过将布局坐标嵌入语言提示中,实现从交错图像文本中进行布局控制的多实例图像生成。
- Motivation: 现有的统一多模态模型主要关注视觉接地(语言与图像区域对齐),而其生成对应部分——基于布局的语言嵌入生成(LELG)用于布局可控的多实例生成仍未被充分探索,限制了精确的组合控制能力。
- Method: 通过实例-坐标绑定提示和坐标感知的无分类器引导,将语言布局线索转化为精确的空间控制,无需特定任务分支。构建了包含340万对多实例生成数据的ConsistCompose3M数据集。
- Result: 在COCO-Position和MS-Bench上的实验表明,ConsistCompose相比布局控制基线显著提高了空间准确性,同时保持了身份保真度和竞争力的通用多模态理解能力。
- Conclusion: 为布局可控的多模态图像生成建立了一个统一范式,实现了布局坐标与语言提示的直接嵌入,提供了精确的组合控制能力。
[127] A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles
Tianyang Xu,Jinjie Gu,Xuefeng Zhu,XiaoJun Wu,Josef Kittler
Main category: cs.CV
TL;DR: 提出了MM-UAV,首个大规模多模态无人机跟踪基准数据集,包含RGB、红外和事件信号三种模态,涵盖30多个挑战性场景,提供1321个同步多模态序列和280万标注帧。
- Motivation: 单模态视觉跟踪在复杂环境下容易失败,而多模态跟踪由于缺乏专用数据集而发展受限。
- Method: 提出多模态多无人机跟踪框架,包含偏移引导自适应对齐模块解决传感器空间不匹配问题,以及自适应动态融合模块平衡不同模态的互补信息,还引入了事件增强关联机制。
- Result: 综合实验表明,所提框架在性能上持续优于现有最先进方法。
- Conclusion: MM-UAV数据集和源代码将公开,以促进多模态无人机跟踪的进一步研究。
[128] FlowPortal: Residual-Corrected Flow for Training-Free Video Relighting and Background Replacement
Wenshuo Gao,Junyi Fan,Jiangyue Zeng,Shuai Yang
Main category: cs.CV
TL;DR: FlowPortal是一个无需训练、基于光流的视频重光照框架,通过残差校正光流机制实现高质量的视频重光照和背景替换。
- Motivation: 现有方法在时间一致性、空间保真度和光照自然度之间难以平衡,需要一种能同时保证这些特性的视频重光照解决方案。
- Method: 提出残差校正光流机制将标准光流模型转化为编辑模型,结合解耦条件设计、高频传输机制和掩码策略,实现精确的光照控制和细节保留。
- Result: 实验表明FlowPortal在时间一致性、结构保留和光照真实感方面表现优异,同时保持高效率。
- Conclusion: FlowPortal通过创新的流式架构成功解决了视频重光照中的关键挑战,为电影制作和创意媒体应用提供了有效的解决方案。
[129] MagicWand: A Universal Agent for Generation and Evaluation Aligned with User Preference
Zitong Xu,Dake Shen,Yaosong Du,Kexiang Hao,Jinghan Huang,Xiande Huang
Main category: cs.CV
TL;DR: 提出了MagicWand系统,通过用户偏好增强提示词生成,利用先进生成模型创造高质量内容,并进行偏好对齐的评估与优化。基于UniPrefer-100K数据集和UniPreferBench基准测试验证了其有效性。
- Motivation: 解决用户难以通过详细提示词获得符合个人偏好的AIGC内容的问题,以及缺乏保留用户偏好机制的限制。
- Method: 构建UniPrefer-100K大规模数据集,开发MagicWand通用生成与评估代理,包含偏好增强提示、高质量内容生成、偏好对齐评估与优化三个模块。
- Result: 在UniPreferBench基准测试(包含超过12万标注)上的实验表明,MagicWand在各种场景下都能生成与用户偏好高度对齐的内容和评估结果。
- Conclusion: MagicWand系统有效解决了AIGC中用户偏好对齐的挑战,为个性化内容生成提供了实用解决方案。
[130] TRANSPORTER: Transferring Visual Semantics from VLM Manifolds
Alexandros Stergiou
Main category: cs.CV
TL;DR: 本文提出了logits-to-video(L2V)任务和TRANSPORTER方法,通过将视觉语言模型的logit分数转换为视频,来理解和解释模型内部推理过程。
- Motivation: 当前视觉语言模型能够推理复杂场景,但理解其内部决策过程仍具挑战性。受文本到视频生成模型进展启发,需要开发新方法来解释VLMs的预测机制。
- Method: TRANSPORTER方法学习最优传输耦合,将VLM的高语义嵌入空间与视频生成连接,利用logit分数定义嵌入方向进行条件视频生成。
- Result: TRANSPORTER能够生成反映不同对象属性、动作副词和场景上下文变化的视频,定量和定性评估表明L2V为模型可解释性提供了新方向。
- Conclusion: L2V任务和TRANSPORTER方法为视觉语言模型的可解释性研究开辟了保真度高、新颖的研究方向,填补了现有方法的空白。
[131] Alias-free 4D Gaussian Splatting
Zilong Chen,Huan-ang Gao,Delin Qu,Haohan Chi,Hao Tang,Kai Zhang,Hao Zhao
Main category: cs.CV
TL;DR: 提出了一种4D高斯溅射的最大采样频率公式,引入4D尺度自适应滤波器和尺度损失,以消除渲染分辨率变化时的高频伪影并减少冗余高斯。
- Motivation: 现有基于高斯溅射的动态场景重建方法在调整相机焦距或高斯基元与相机距离以修改渲染分辨率时,会因4D高斯的频率约束和2D膨胀滤波器引起的高斯尺度不匹配而产生强烈伪影。
- Method: 推导了4D高斯溅射的最大采样频率公式,引入了4D尺度自适应滤波器和尺度损失,灵活调节4D高斯溅射的采样频率。
- Result: 在增加渲染频率时消除了高频伪影,并在多视角视频重建中有效减少了冗余高斯。通过单目和多视角视频重建实验验证了所提方法。
- Conclusion: 该方法解决了动态场景重建中渲染分辨率变化引起的伪影问题,提高了重建质量并减少了计算冗余。
[132] MimiCAT: Mimic with Correspondence-Aware Cascade-Transformer for Category-Free 3D Pose Transfer
Zenghao Chai,Chen Tang,Yongkang Wong,Xulei Yang,Mohan Kankanhalli
Main category: cs.CV
TL;DR: 提出了MimiCAT模型,用于实现类别无关的3D姿态迁移,通过在百万级姿态数据集上训练级联transformer,利用语义关键点学习软对应关系,实现跨不同角色类型的姿态迁移。
- Motivation: 现有3D姿态迁移方法主要局限于相似结构的角色之间,无法泛化到类别无关设置(如从人形角色迁移姿态到四足动物)。主要挑战在于不同角色类型的结构和变换多样性导致区域不匹配和迁移质量差。
- Method: 构建百万级跨数百种角色的姿态数据集;提出MimiCAT级联transformer模型,利用语义关键点标签学习软对应关系,实现灵活的多对多匹配;将姿态迁移构建为条件生成过程,先通过软对应匹配将源变换投影到目标,再用形状条件表示进行细化。
- Result: 广泛的定性和定量实验表明,MimiCAT能够在不同角色之间迁移合理的姿态,显著优于仅限于狭窄类别迁移(如人形到人形)的先前方法。
- Conclusion: MimiCAT通过软对应学习和条件生成方法,成功解决了类别无关3D姿态迁移的挑战,实现了跨不同角色类型的有效姿态迁移。
[133] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models
Xiyang Wu,Zongxia Li,Jihui Jin,Guangyao Shi,Gouthaman KV,Vishnu Raj,Nilotpal Sinha,Jingxi Chen,Fan Du,Dinesh Manocha
Main category: cs.CV
TL;DR: 提出了MASS方法,通过将物理世界上下文线索转化为可解释表示来增强视觉语言模型在物理推理任务上的表现,包括MASS-Bench基准和MASS模型,在物理推理任务上超越现有方法。
- Motivation: 当前视觉语言模型在标准视频任务上表现良好,但在涉及运动动力学和空间交互的物理驱动推理方面存在局限,这限制了它们解释真实或AI生成视频内容以及生成物理一致内容的能力。
- Method: 提出了MASS方法:1)创建MASS-Bench基准,包含4,350个真实世界和AIGC视频及8,361个自由形式视频问答对;2)通过深度3D编码和视觉接地将时空信号注入VLM语言空间;3)使用运动跟踪器捕捉对象动态;4)应用强化微调加强跨模态对齐和推理。
- Result: 实验表明,改进后的VLM在物理推理和理解任务上比可比和更大的基线模型以及先前最先进模型分别高出8.7%和6.0%,性能接近闭源SoTA VLM如Gemini-2.5-Flash。
- Conclusion: 该方法有效解决了VLM在物理推理方面的局限性,验证了将物理世界上下文转化为可解释表示的方法在增强VLM物理理解能力方面的有效性。
[134] Synthetic Curriculum Reinforces Compositional Text-to-Image Generation
Shijian Wang,Runhao Fu,Siyi Zhao,Qingqin Zhan,Xingjian Wang,Jiarui Jin,Yuan Lu,Hanqian Wu,Cunjian Chen
Main category: cs.CV
TL;DR: 提出CompGen框架,通过场景图建立难度标准,使用自适应MCMC图采样算法生成渐进式训练课程数据,结合强化学习提升文本到图像生成模型的组合合成能力。
- Motivation: 解决文本到图像生成中组合合成这一长期挑战性问题,特别是需要准确渲染包含多个对象、多样属性和复杂空间语义关系的复杂场景。
- Method: 基于场景图建立组合能力难度标准,开发自适应MCMC图采样算法,生成难度感知的训练课程数据,结合GRPO强化学习框架,探索不同课程调度策略。
- Result: CompGen在不同课程调度策略下展现出不同的扩展曲线,简单到困难和Gaussian采样策略相比随机采样具有更优的扩展性能,显著提升了基于扩散和自回归的T2I模型的组合生成能力。
- Conclusion: CompGen框架有效改进了组合文本到图像生成系统,证明了课程学习在提升T2I模型组合能力方面的有效性。
[135] RNN as Linear Transformer: A Closer Investigation into Representational Potentials of Visual Mamba Models
Timing Yang,Guoyizhe Wei,Alan Yuille,Feng Wang
Main category: cs.CV
TL;DR: 本文系统研究了Mamba在视觉任务中的表征特性,揭示了其与Softmax Attention的关系,提出了新的激活图评估指标,并展示了Mamba在自监督预训练中的潜力。
- Motivation: Mamba作为视觉任务的有效骨干网络受到关注,但其在视觉领域的底层机制仍不明确,需要系统研究其表征特性。
- Method: 理论分析Mamba与Softmax和Linear Attention的关系;引入新的二元分割指标评估激活图;利用DINO进行自监督预训练。
- Result: 确认Mamba可视为Softmax Attention的低秩近似;新指标证明Mamba能建模长程依赖;自监督方法产生更清晰的激活图;在ImageNet上达到78.5%的线性探测准确率。
- Conclusion: 本研究为基于Mamba的视觉架构提供了有价值的见解,展示了Mamba在表征能力和可解释性方面的潜力。
[136] ViMix-14M: A Curated Multi-Source Video-Text Dataset with Long-Form, High-Quality Captions and Crawl-Free Access
Timing Yang,Sucheng Ren,Alan Yuille,Feng Wang
Main category: cs.CV
TL;DR: ViMix-14M是一个包含约1400万视频-文本对的精心策划数据集,解决了开源视频生成模型面临的数据瓶颈问题,提供无需爬取、可直接下载的高质量长文本标注。
- Motivation: 现有公开视频文本数据集通常需要手动爬取YouTube,存在链接失效、访问限制和版权不确定性等问题,导致可用数据量有限。
- Method: 通过合并多样化的开源视频源,进行统一去重和质量过滤,并采用多粒度、基于真实信息指导的重新标注流程,优化描述以更好地匹配动作、场景和时间结构。
- Result: 在多模态检索、文本到视频生成和视频问答任务上的评估显示,相比其他数据集有持续改进。
- Conclusion: 这项工作有助于消除训练和微调开源视频基础模型的关键障碍,并为构建高质量、可泛化的视频文本数据集提供见解。
[137] Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection
Chuang Peng,Renshuai Tao,Zhongwei Ren,Xianglong Liu,Yunchao Wei
Main category: cs.CV
TL;DR: 提出了DualXrayBench基准测试和GSR模型,通过将双视角X射线图像中的第二视角视为类似语言模态,实现跨视角几何和跨模态语义的联合学习,显著提升了X射线违禁品检测性能。
- Motivation: 传统X射线检测方法依赖单视角视觉模态,在复杂威胁检测上存在困难。实际安检中检查员使用双视角图像,但现有研究缺乏对双视角推理的系统性探索。
- Method: 构建DualXrayBench基准测试和GSXray数据集,提出GSR模型,将第二视角图像视为语言模态,联合学习跨视角几何对应和跨模态语义关系。
- Result: 在DualXrayBench的8个任务上,GSR模型在所有X射线检测任务中都取得了显著性能提升。
- Conclusion: 将第二视角X射线图像作为语言模态的方法为实际X射线安检提供了新视角,证明了双视角推理在违禁品检测中的重要性。
[138] SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation
Peter Siegel,Federico Tombari,Marc Pollefeys,Daniel Barath
Main category: cs.CV
TL;DR: SegSplat是一个新颖的3D重建框架,通过从多视角2D基础模型特征构建紧凑语义记忆库,并在单次前向传递中为每个3D高斯预测离散语义索引,实现了快速3D重建与开放词汇语义理解的结合。
- Motivation: 弥合快速前馈式3D重建与丰富开放词汇语义理解之间的差距,为机器人交互、增强现实等智能系统提供实用的语义感知3D环境生成。
- Method: 构建紧凑语义记忆库,从多视角2D基础模型提取特征,为每个3D高斯同时预测几何、外观属性和离散语义索引,无需逐场景优化的语义特征集成。
- Result: 在几何保真度上达到最先进的前馈3D高斯泼溅方法水平,同时实现强大的开放集语义分割,无需逐场景优化即可集成语义特征。
- Conclusion: SegSplat代表了向实用、实时生成语义感知3D环境的重要进展,对推进机器人交互、增强现实等智能系统至关重要。
[139] Exploring Weak-to-Strong Generalization for CLIP-based Classification
Jinhao Li,Sarah M. Erfani,Lei Feng,James Bailey,Feng Liu
Main category: cs.CV
TL;DR: 提出了一种名为类原型学习(CPL)的方法,通过弱监督学习更代表性的类别原型来增强CLIP模型的分类能力,在预训练有限的情况下显著提升性能。
- Motivation: 随着模型复杂度增加,依赖人工监督变得不切实际。当模型超越人类知识时,提供准确反馈变得困难且低效。需要探索使用弱模型监督强模型的新方法。
- Method: 提出类原型学习(CPL)方法,在弱监督下学习更具代表性的类别原型,使用简单的损失函数来增强CLIP模型的分类能力。
- Result: 在目标场景下,特别是在预训练有限的情况下,CPL方法表现出稳健的改进,相比强基线方法实现了3.67%的性能提升。
- Conclusion: 弱到强泛化在视觉语言模型中同样有效,CPL方法在有限预训练条件下能够显著提升CLIP模型的分类性能,证明了弱监督方法的潜力。
[140] ChineseVideoBench: Benchmarking Multi-modal Large Models for Chinese Video Question Answering
Yuxiang Nie,Han Wang,Yongjie Ye,Haiyang Yu,Weitao Jia,Tao Zeng,Hao Feng,Xiang Fei,Yang Li,Xiaohui Lv,Guozhi Tang,Jingqun Tang,Jinghui Lu,Zehui Dai,Jiacong Wang,Dingkang Yang,An-Lan Wang,Can Huang
Main category: cs.CV
TL;DR: 提出了专门用于评估中文视频问答的多模态大语言模型的基准ChineseVideoBench,包含8个主类和12个子类,测试结果显示当前模型在该基准上表现仍有挑战。
- Motivation: 随着对复杂视频分析能力需求的增长,需要全面且具有文化意识的评估框架来评估多模态大语言模型在中文视频内容上的表现。
- Method: 构建了包含8个主类和12个子类的ChineseVideoBench数据集,提供定制化的评估指标,对现有最先进的多模态大语言模型进行严格评估。
- Result: 实证评估显示ChineseVideoBench对当前模型构成显著挑战。Gemini 2.5 Pro以77.9%的总体得分表现最佳,InternVL-38B是最具竞争力的开源模型。
- Conclusion: ChineseVideoBench填补了中文视频问答评估框架的空白,为评估多模态大语言模型在复杂中文视频内容上的表现提供了重要基准。
[141] 4D-VGGT: A General Foundation Model with SpatioTemporal Awareness for Dynamic Scene Geometry Estimation
Haonan Wang,Hanyu Zhou,Haoyue Liu,Luxin Yan
Main category: cs.CV
TL;DR: 提出4D-VGGT模型,通过分治策略解决动态场景几何估计中时空特征表示不匹配的问题,支持多设置输入、多级表示和多任务预测。
- Motivation: 现有方法将时空特征对齐到统一潜在空间,但由于时空特征的异质性会导致表示不匹配问题,需要更好的表示方法。
- Method: 设计自适应视觉网格支持任意视图和时间步输入;提出跨视图全局融合的空间表示和跨时间局部融合的时间表示;添加多任务特定头实现全面几何估计。
- Result: 在多个动态场景几何基准测试中验证了方法的有效性,模型具有更好的特征判别性和应用普适性。
- Conclusion: 4D-VGGT通过分治时空表示策略成功解决了动态场景几何估计中的特征表示问题,是一个通用的基础模型。
[142] NeuroVascU-Net: A Unified Multi-Scale and Cross-Domain Adaptive Feature Fusion U-Net for Precise 3D Segmentation of Brain Vessels in Contrast-Enhanced T1 MRI
Mohammad Jafari Vayeghan,Niloufar Delfan,Mehdi Tale Masouleh,Mansour Parvaresh Rizi,Behzad Moshiri
Main category: cs.CV
TL;DR: NeuroVascU-Net是一种专为T1CE MRI脑血管分割设计的深度学习架构,在保持高精度的同时显著降低计算成本,适用于神经外科手术规划。
- Motivation: 解决T1CE MRI脑血管精确分割的临床需求,克服手动分割耗时且易变、现有自动方法在精度与计算成本间权衡的局限。
- Method: 基于扩张U-Net架构,集成多尺度上下文特征融合模块(MSC²F)和跨域自适应特征融合模块(CDA²F),分别捕获局部全局信息和动态整合领域特征。
- Result: 在137名脑肿瘤活检患者的T1CE数据集上,达到Dice分数0.8609和精度0.8841,仅需12.4M参数,优于基于Transformer的模型。
- Conclusion: NeuroVascU-Net在精度与效率间取得良好平衡,为计算机辅助神经外科规划提供了实用解决方案。
[143] CrossJEPA: Cross-Modal Joint-Embedding Predictive Architecture for Efficient 3D Representation Learning from 2D Images
Avishka Perera,Kumal Hewagamage,Saeedha Nazar,Kavishka Abeywardana,Hasitha Gallella,Ranga Rodrigo,Mohamed Afham
Main category: cs.CV
TL;DR: CrossJEPA是一个简单的跨模态联合嵌入预测架构,利用图像基础模型的知识,通过预测从3D点云生成的2D视图嵌入来实现3D表示学习,无需掩码操作,在性能和效率上达到新SOTA。
- Motivation: 解决当前利用2D数据的3D表示学习方法模型庞大、训练缓慢、计算成本高的问题,探索JEPA架构在跨模态学习中的潜力,打破JEPA必须依赖掩码的误解。
- Method: 提出CrossJEPA架构,利用冻结的图像基础模型作为教师,训练预测器从3D点云推断对应渲染2D视图的嵌入,引入跨域投影信息来纯化监督信号,采用一次性目标嵌入缓存机制提高效率。
- Result: 在ModelNet40上达到94.2%的线性探测准确率,在ScanObjectNN上达到88.3%,仅使用14.1M预训练参数(点编码器8.5M),在单GPU上约6小时完成预训练。
- Conclusion: CrossJEPA是一个性能优异、内存高效、训练快速的3D表示学习框架,通过知识蒸馏实现了跨模态学习的突破。
[144] LungX: A Hybrid EfficientNet-Vision Transformer Architecture with Multi-Scale Attention for Accurate Pneumonia Detection
Mansur Yerzhanuly
Main category: cs.CV
TL;DR: LungX是一种结合EfficientNet多尺度特征、CBAM注意力机制和Vision Transformer全局上下文建模的混合架构,在肺炎检测方面达到最先进性能(86.5%准确率,0.943 AUC),比EfficientNet-B0基线提升6.7% AUC。
- Motivation: 肺炎是全球主要死亡原因,及时诊断至关重要。需要开发更准确的AI诊断辅助工具来改善肺炎检测。
- Method: 提出LungX混合架构,整合EfficientNet的多尺度特征提取、CBAM注意力机制和Vision Transformer的全局上下文建模能力。
- Result: 在20,000张来自RSNA和CheXpert的胸部X光片上评估,达到86.5%准确率和0.943 AUC,比EfficientNet-B0基线提升6.7% AUC。可视化分析显示通过可解释注意力图实现优异的病变定位。
- Conclusion: LungX在肺炎检测方面表现优异,未来方向包括多中心验证和架构优化,目标达到88%准确率以实现临床部署。
[145] DocPTBench: Benchmarking End-to-End Photographed Document Parsing and Translation
Yongkun Du,Pinxuan Chen,Xuye Ying,Zhineng Chen
Main category: cs.CV
TL;DR: DocPTBench是一个专门针对拍摄文档解析和翻译的基准测试,包含1300多张高分辨率拍摄文档,揭示了现有模型在真实拍摄条件下性能显著下降的问题。
- Motivation: 现有基准测试主要关注扫描或数字原生文档,无法充分反映真实拍摄条件下文档的几何畸变和光度变化等复杂挑战。
- Method: 构建包含1300多张高分辨率拍摄文档的DocPTBench基准,涵盖多个领域和8种翻译场景,并提供人工验证的解析和翻译标注。
- Result: 从数字原生文档切换到拍摄文档时,主流MLLM在端到端解析中平均准确率下降18%,翻译下降12%;专业文档解析模型平均下降25%。
- Conclusion: 真实拍摄条件下的文档对现有模型构成独特挑战,揭示了模型鲁棒性不足的问题,DocPTBench填补了这一重要空白。
[146] When Generative Replay Meets Evolving Deepfakes: Domain-Aware Relative Weighting for Incremental Face Forgery Detection
Hao Shen,Jikang Cheng,Renye Yan,Zhongyuan Wang,Wei Peng,Baojin Huang
Main category: cs.CV
TL;DR: 提出了一种针对伪造检测增量学习的领域感知相对加权策略,有效利用生成回放技术解决样本重放方法多样性不足和隐私问题。
- Motivation: 当前基于样本重放的伪造检测增量学习方法存在多样性低和隐私问题,生成回放技术虽然提供潜在解决方案,但其在伪造检测中的可行性尚不明确。
- Method: 提出领域感知相对加权策略,识别两种生成回放场景:领域风险样本和领域安全样本,通过相对分离损失和领域混淆分数动态调整监督策略。
- Result: 大量实验表明,该方法在不同生成回放设置下持续提升伪造检测的增量学习性能,并减轻领域重叠的不利影响。
- Conclusion: 生成回放技术可有效用于伪造检测增量学习,提出的领域感知相对加权策略能够充分利用生成样本并处理领域边界模糊问题。
[147] Perceptual-Evidence Anchored Reinforced Learning for Multimodal Reasoning
Chi Zhang,Haibo Qiu,Qiming Zhang,Yufei Xu,Zhixiong Zeng,Siqi Yang,Peng Shi,Lin Ma,Jing Zhang
Main category: cs.CV
TL;DR: PEARL是一种双分支感知-推理协同方法,通过将多模态推理明确锚定到已验证的视觉证据来增强推理能力,解决了传统RLVR方法忽视视觉感知的问题。
- Motivation: 传统RLVR方法仅验证最终文本输出,忽视了视觉感知这一基础步骤,导致视觉幻觉和奖励攻击问题,基于错误感知的推理本质上不可靠。
- Method: PEARL为每个推理问答实例生成感知检查清单——一组可验证答案的感知导向子问题,通过辅助rollout产生感知奖励,直接增强模型感知能力并作为推理保真度门控。
- Result: 在MathVerse等基准测试上,PEARL相比基线提升9.7%,相比GRPO提升6.6%,在多模态推理任务上取得显著进步。
- Conclusion: PEARL通过感知-推理协同机制有效解决了视觉幻觉问题,可无缝集成到GRPO、DAPO等流行RL方法中,显著提升多模态推理性能。
[148] ReCoGS: Real-time ReColoring for Gaussian Splatting scenes
Lorenzo Rutayisire,Nicola Capodieci,Fabio Pellacini
Main category: cs.CV
TL;DR: 提出了一个用于高斯溅射场景实时重着色的用户友好管道,支持精确区域选择和重着色,并提供了交互式工具演示实时性能。
- Motivation: 现有基于2D扩散模型的多视图生成方法存在视图不一致、缺乏细粒度控制和高计算需求等问题,因此需要专门针对重着色任务的更高效解决方案。
- Method: 开发了一个用户友好的管道,可以在预训练的高斯溅射场景中实现精确区域选择和重着色,并提供了交互式工具来展示实时性能。
- Result: 该方法能够实现实时的高斯溅射场景重着色,提供了精确的区域控制能力,代码已开源。
- Conclusion: 提出的重着色管道在高斯溅射场景编辑中实现了实时性能和精确控制,为3D场景编辑提供了实用的解决方案。
[149] SineProject: Machine Unlearning for Stable Vision Language Alignment
Arpit Garg,Hemanth Saratchandran,Simon Lucey
Main category: cs.CV
TL;DR: 提出SineProject方法,通过正弦调制参数增强投影网络,在MLLM知识遗忘过程中保持视觉语言对齐,同时有效遗忘目标信息。
- Motivation: 现有MLLM知识遗忘方法会破坏视觉语言对齐,导致模型拒绝良性查询。问题根源在于遗忘过程中投影网络的Jacobian矩阵变得病态。
- Method: 在冻结的投影网络上添加正弦调制的可训练参数,改善Jacobian矩阵的谱条件数,稳定跨模态嵌入对齐。
- Result: 在LLaVA v1.5 7B和13B模型的安全性和隐私遗忘基准测试中,SineProject减少了良性查询拒绝,同时完全遗忘目标信息,实现了最优的遗忘-保留权衡。
- Conclusion: SineProject是一种简单有效的方法,在MLLM知识遗忘过程中保持视觉语言对齐,计算开销可忽略。
[150] EventBench: Towards Comprehensive Benchmarking of Event-based MLLMs
Shaoyu Liu,Jianing Li,Guanghui Zhao,Yunjian Zhang,Xiangyang Ji
Main category: cs.CV
TL;DR: EventBench是一个综合评估多模态大语言模型在事件视觉领域能力的基准,包含8个多样化任务指标和大规模事件流数据集,评估显示当前事件型MLLMs在事件流理解方面表现良好,但在细粒度识别和空间推理方面仍有困难。
- Motivation: 现有事件视觉基准缺乏统一评估框架,需要全面评估MLLMs在事件视觉中的多方面能力,包括理解、识别和空间推理等任务。
- Method: 开发EventBench基准,具有四个关键特点:开放可访问性(发布所有原始事件流和任务指令)、任务多样性(涵盖理解、识别和空间推理任务)、空间维度整合(首创3D空间推理任务)、数据规模大(包含超过100万事件-文本对)。
- Result: 评估了GPT-5、Gemini-2.5 Pro、Qwen2.5-VL、InternVL3和EventGPT等模型,发现当前事件型MLLMs在事件流理解方面表现强劲,但在细粒度识别和空间推理任务上仍然存在挑战。
- Conclusion: EventBench为事件视觉领域的MLLMs提供了全面的评估基准,揭示了当前模型在细粒度识别和空间推理方面的局限性,为未来研究指明了改进方向。
[151] NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering
Loick Chambon,Paul Couairon,Eloi Zablocki,Alexandre Boulch,Nicolas Thome,Matthieu Cord
Main category: cs.CV
TL;DR: NAF是一种零样本视觉基础模型特征上采样方法,通过跨尺度邻域注意力和旋转位置编码学习自适应空间-内容权重,无需重新训练即可提升任何VFM的特征分辨率,在多个下游任务中达到最先进性能。
- Motivation: 现有上采样方法面临基本权衡:经典滤波器快速通用但形式固定,现代上采样器准确但需要为每个VFM重新训练。需要一种既能保持高精度又无需重新训练的通用上采样方法。
- Method: 提出邻域注意力滤波(NAF),通过跨尺度邻域注意力和旋转位置编码,仅依赖高分辨率输入图像学习自适应空间-内容权重,实现零样本特征上采样。
- Result: NAF是首个超越VFM特定上采样器的VFM无关架构,在多个下游任务中达到最先进性能,高效支持2K特征图,以18FPS重建中间分辨率图,并在图像恢复任务中表现优异。
- Conclusion: NAF成功解决了VFM特征上采样的精度与通用性权衡问题,为零样本特征增强提供了有效解决方案,展现了在计算机视觉任务中的广泛应用潜力。
[152] RegDeepLab: A Two-Stage Decoupled Framework for Interpretable Embryo Fragmentation Grading
Ming-Jhe Lee
Main category: cs.CV
TL;DR: 提出RegDeepLab双分支多任务学习框架,结合语义分割和回归预测,解决胚胎碎片化程度评估中视觉可解释性与精确分级的问题
- Motivation: 当前IVF胚胎碎片化程度评估存在人工耗时、观察者间差异大、效率低的问题,现有深度学习方案要么缺乏临床可解释性,要么无法直接转换为精确临床分级
- Method: RegDeepLab双分支MTL框架,集成DeepLabV3+语义分割和多尺度回归头,采用两阶段解耦训练策略解决梯度冲突和负迁移问题,引入范围损失进行半监督学习
- Result: 端到端MTL训练可将分级误差降至MAE=0.046,但会损害分割边界完整性;解耦策略在保持SOTA分割精度(Dice=0.729)的同时提供稳健的高精度分级预测
- Conclusion: 研究最终提出了兼具高精度和视觉可解释性的双模块临床辅助解决方案
[153] Alternating Perception-Reasoning for Hallucination-Resistant Video Understanding
Bowei Pu,Chuanbin Liu,Yifan Ge,Peichen Zhou,Yiwei Sun,Zhiyin Lu,Jiankang Wang,Hongtao Xie
Main category: cs.CV
TL;DR: 提出了Video-PLR框架,通过感知循环推理和反幻觉奖励机制解决视频推理中的感知不足和幻觉问题。
- Motivation: 现有视频推理LLMs存在感知捷径问题,采用单步感知范式导致证据不足和幻觉风险。
- Method: 引入感知循环推理(PLR)范式,分步骤描述视频片段并分析;使用事实感知评估器(FAE)作为反幻觉奖励机制。
- Result: 在3B和7B参数规模上达到最先进性能,具有最佳数据效率。FAE性能与GPT-4o相当。
- Conclusion: Video-PLR框架通过循环推理和反幻觉奖励有效解决了视频推理中的感知不足和幻觉问题。
[154] Gaze Beyond the Frame: Forecasting Egocentric 3D Visual Span
Heeseung Yun,Joonil Na,Jaeyeon Kim,Calvin Murdock,Gunhee Kim
Main category: cs.CV
TL;DR: 提出了EgoSpanLift方法,将自我中心视觉跨度预测从2D图像平面转换到3D场景,通过SLAM关键点转换和3D U-Net结合单向变换器实现3D网格中的未来视觉跨度预测。
- Motivation: 现有自我中心用户和场景理解研究主要关注运动和接触交互,而预测人类视觉感知本身的研究较少,尽管它在指导人类行为和对AR/VR及辅助技术具有重要意义。
- Method: EgoSpanLift将SLAM衍生的关键点转换为与注视兼容的几何体,提取体积视觉跨度区域,结合3D U-Net和单向变换器进行时空融合,在3D网格中预测未来视觉跨度。
- Result: 该方法在自我中心2D注视预测和3D定位方面优于竞争基线,即使投影回2D图像平面也能获得可比结果,无需额外的2D特定训练。
- Conclusion: EgoSpanLift成功实现了从2D到3D的自我中心视觉跨度预测转换,为AR/VR和辅助技术提供了有效的3D视觉感知预测解决方案。
[155] Robust Posterior Diffusion-based Sampling via Adaptive Guidance Scale
Liav Hen,Tom Tirer,Raja Giryes,Shady Abu-Hussein
Main category: cs.CV
TL;DR: 提出AdaPS方法,通过自适应调整似然步长来平衡扩散先验和数据保真度,在图像逆问题中提升重建质量
- Motivation: 扩散模型作为生成先验在逆问题中面临挑战:过于激进的似然更新会引入伪影,而保守更新会减慢收敛或产生次优重建
- Method: 开发基于两个不同近似似然梯度之间一致性的观测依赖权重方案,自适应调整似然步长,适应扩散调度、时间重采样和注入的随机性
- Result: 在CelebA-HQ和ImageNet-256验证集上,包括超分辨率、高斯去模糊和运动去模糊等任务中,AdaPS在感知质量上始终优于现有扩散基线,失真损失最小或无损失
- Conclusion: AdaPS是一种超参数自由的方法,对各种扩散步数、观测噪声水平和不同随机性具有鲁棒性
[156] Uncertainty Quantification in HSI Reconstruction using Physics-Aware Diffusion Priors and Optics-Encoded Measurements
Juan Romero,Qiang Fu,Matteo Ravasi,Wolfgang Heidrich
Main category: cs.CV
TL;DR: HSDiff是一个基于贝叶斯推理的高光谱图像重建框架,使用无条件训练的像素级扩散先验和后验扩散采样,通过增强的metameric数据增强技术提高先验多样性,提供不确定性感知的重建结果。
- Motivation: 当前数据驱动的高光谱图像重建方法由于现有数据集中缺乏光谱多样性,在评估metamerism现象时容易产生幻觉,需要更好的不确定性校准方法。
- Method: 将高光谱图像重建建模为贝叶斯推理问题,使用无条件训练的像素级扩散先验和后验扩散采样,提出基于区域的metameric黑和分区联合光谱上采样的增强数据增强技术。
- Result: HSDiff能够生成与各种高光谱成像模型测量一致的多样化样本,通过有效光谱编码提供校准的信息不确定性,相比非编码模型表现更好。
- Conclusion: HSDiff提供了一个完整的高性能不确定性感知高光谱图像重建方法,并重申了有效光谱编码在快照高光谱成像中的重要性。
[157] Extreme Model Compression for Edge Vision-Language Models: Sparse Temporal Token Fusion and Adaptive Neural Compression
Md Tasnin Tanvir,Soumitra Das,Sk Md Abidar Rahaman,Ali Shiri Sichani
Main category: cs.CV
TL;DR: 提出两种自适应压缩技术STTF和ANC,在资源受限的边缘设备上实现实时视觉语言任务,显著减少参数和计算量同时保持高精度。
- Motivation: 边缘AI对视觉语言任务的需求日益增长,但现有模型在资源受限设备上难以实现实时性能,需要创新的压缩技术来平衡效率与精度。
- Method: STTF通过事件驱动变化检测动态重用视觉token,ANC通过学习的路由器条件激活编码器分支,实现细粒度场景复杂度适应。
- Result: TinyGPT-STTF在COCO 2017上CIDEr达131.2,超越LLaVA-1.5 7B 17.6分,参数减少2.3倍,FLOPs减少62倍;STTF在DVS128手势数据集上减少84% token数,保持95.6%精度;ANC在低运动场景中减少90% FLOPs。
- Conclusion: 这些技术使高性能视觉语言模型能够在真实边缘设备上高效部署,实现精度提升和延迟大幅降低。
[158] Multimodal Continual Learning with MLLMs from Multi-scenario Perspectives
Kai Jiang,Siqi Huang,Xiangyu Chen,Jiawei Shao,Hongyuan Zhang,Xuelong Li
Main category: cs.CV
TL;DR: 该论文提出了UNIFIER方法来解决多模态大语言模型在持续学习中的灾难性遗忘问题,特别是在不同场景视角下的视觉理解任务中。
- Motivation: MLLMs在设备部署时需要持续适应下游任务中的动态场景变化(如背景和视角变化),以有效执行复杂的视觉任务,但面临灾难性遗忘问题。
- Method: 提出UNIFIER方法,将不同场景的视觉信息解耦到视觉块中的不同分支,并投影到相同的特征空间,通过一致性约束保持跨场景视觉表示的稳定性。
- Result: 在MSVQA数据集上的广泛实验表明,UNIFIER有效缓解了跨场景任务的遗忘,并在同一场景内实现了知识积累。
- Conclusion: UNIFIER方法能够有效解决MLLMs在动态场景变化中的持续学习问题,提高模型对多场景视觉理解任务的适应能力。
[159] LRDUN: A Low-Rank Deep Unfolding Network for Efficient Spectral Compressive Imaging
He Huang,Yujun Guo,Wei He
Main category: cs.CV
TL;DR: 提出LRDUN网络,通过低秩分解和展开式近端梯度下降框架,解决光谱压缩成像重建中的计算冗余和病态性问题,在降低计算成本的同时实现SOTA重建质量。
- Motivation: 现有深度展开网络直接在高维HSI上操作,导致计算冗余,且从2D残差映射回3D HSI空间存在病态性问题。
- Method: 提出两种新型成像模型,将低秩分解与感知模型显式结合;开发LRDUN网络,在展开式PGD框架内联合求解两个子问题;引入GFUM机制解耦物理秩和特征维度。
- Result: 在模拟和真实数据集上的广泛实验表明,LRDUN以显著降低的计算成本实现了最先进的重建质量。
- Conclusion: LRDUN通过低秩分解有效缓解了病态性问题,在计算效率和重建质量方面均优于现有方法。
[160] Unified Deep Learning Platform for Dust and Fault Diagnosis in Solar Panels Using Thermal and Visual Imaging
Abishek Karthik,Sreya Mynampati,Pandiyaraju V
Main category: cs.CV
TL;DR: 开发了一个集中式平台,使用CNN、ResNet和KerNet模型检测太阳能电池板的灰尘和故障,通过分析功率输出、正弦波、电压等参数,结合图像预处理和热成像技术,实现了高效准确的检测系统。
- Motivation: 太阳能电池板输出受强度、温度、灰尘、碎片等多种因素影响,需要有效的检测系统来维护太阳能电池板的性能,特别是在不同地理环境下效率差异显著的情况下。
- Method: 使用伽马去除和高斯滤波等方法预处理图像,结合CNN、ResNet和自注意力机制的KerNet模型进行分类,通过分析功率输出、正弦波、电压等参数检测灰尘和故障。
- Result: 模型在检测灰尘和故障方面表现出更高的效率和准确性,优于现有模型,适用于从家庭小规模到大型太阳能农场的各种需求。
- Conclusion: 这个多应用模型在检测太阳能电池板灰尘和故障方面是高效和优化的,通过集中式平台实现了有效的维护和检查。
[161] Breaking Forgetting: Training-Free Few-Shot Class-Incremental Learning via Conditional Diffusion
Haidong Kang,Ketong Qian,Yi Lu
Main category: cs.CV
TL;DR: 提出了一种无需训练的少样本类增量学习框架CD-FSCIL,通过条件扩散过程替代传统的梯度优化,有效缓解灾难性遗忘并大幅降低计算开销。
- Motivation: 现有FSCIL方法主要关注梯度优化策略,但忽视了随着新类别增加带来的训练成本爆炸问题。在极少数样本条件下,梯度更新不仅会导致基础类的灾难性遗忘,还会阻碍对新类别的适应。
- Method: 基于梯度优化与条件扩散过程的内在联系,提出CD-FSCIL框架:1)用扩散生成转换替代梯度更新过程;2)引入多模态学习策略,结合视觉特征和LLM自动生成的自然语言描述。
- Result: 在主流FSCIL基准测试中达到最先进性能,同时显著降低计算和内存开销。
- Conclusion: 该方法实现了向无需训练持续适应的范式转变,为解决FSCIL中的灾难性遗忘和计算成本问题提供了新思路。
[162] DE-KAN: A Kolmogorov Arnold Network with Dual Encoder for accurate 2D Teeth Segmentation
Md Mizanur Rahman Mustakim,Jianwu Li,Sumya Bhuiyan,Mohammad Mehedi Hasan,Bing Han
Main category: cs.CV
TL;DR: 提出DE-KAN模型,通过双编码器架构和KAN瓶颈层提升全景X光片中牙齿分割的精度,在多个指标上超越现有方法。
- Motivation: 全景X光片中牙齿分割面临解剖变异、不规则形状和结构重叠等挑战,传统深度学习模型性能受限。
- Method: 使用ResNet-18编码器处理增强输入,定制CNN编码器处理原始输入,通过KAN瓶颈层融合全局和局部特征,利用Kolmogorov Arnold表示定理的非线性可学习激活函数。
- Result: 在两个基准牙科X射线数据集上,mIoU达94.5%,Dice系数97.1%,准确率98.91%,召回率97.36%,Dice系数比现有方法提升高达4.7%。
- Conclusion: DE-KAN框架通过双编码器和KAN瓶颈层有效提升了牙齿分割性能,在多个指标上达到最优表现。
[163] HiFi-MambaV2: Hierarchical Shared-Routed MoE for High-Fidelity MRI Reconstruction
Pengcheng Fang,Hongli Chen,Guangzhen Yao,Jian Shi,Fangfang Tang,Xiaohao Cai,Shanshan Shan,Feng Liu
Main category: cs.CV
TL;DR: HiFi-MambaV2是一个用于MRI重建的分层共享路由混合专家Mamba架构,通过频率分解和内容自适应计算,在保持解剖一致性的同时恢复高频细节。
- Motivation: 从欠采样的k空间数据重建高保真MRI图像需要恢复高频细节同时保持解剖一致性。
- Method: 采用可分离频率一致拉普拉斯金字塔(SF-Lap)提供抗混叠的稳定低高频流,以及分层共享路由MoE进行逐像素稀疏调度到共享专家和本地路由器。
- Result: 在多个数据集上一致优于CNN、Transformer和先前Mamba基线,在PSNR、SSIM和NMSE指标上表现更好,高频细节和整体结构保真度均有提升。
- Conclusion: HiFi-MambaV2实现了可靠且鲁棒的MRI重建。
[164] Zero-Shot Video Deraining with Video Diffusion Models
Tuomas Varanka,Juan Luis Gonzalez,Hyeongwoo Kim,Pablo Garrido,Xu Yao
Main category: cs.CV
TL;DR: 提出了首个零样本视频去雨方法,无需合成数据或模型微调,利用预训练文本到视频扩散模型,通过负提示和注意力切换机制去除动态场景中的雨滴。
- Motivation: 现有视频去雨方法依赖合成数据或静态相机数据,难以泛化到真实世界的动态场景;扩散模型微调会削弱生成先验,限制泛化能力。
- Method: 将输入视频反转到扩散模型潜在空间,通过负提示干预重建过程远离雨的概念,核心是注意力切换机制以保持动态背景和结构一致性。
- Result: 在真实世界雨数据集上的广泛实验显示,相比先前方法有显著改进,无需监督训练即可实现鲁棒泛化。
- Conclusion: 该方法成功实现了零样本视频去雨,在动态场景中表现出色,无需合成数据或模型微调。
[165] C3Po: Cross-View Cross-Modality Correspondence by Pointmap Prediction
Kuan Wei Huang,Brandon Li,Bharath Hariharan,Noah Snavely
Main category: cs.CV
TL;DR: 提出了C3数据集,用于解决地面照片与平面图之间的跨模态对应关系预测问题,显著提升了现有方法的性能。
- Motivation: 现有几何模型在处理不同视角(如航拍vs地面)或不同模态(如照片vs抽象绘图)的输入时表现不佳,特别是在地面照片与平面图对应关系预测这一挑战性任务上。
- Method: 通过从互联网照片集进行运动结构重建,然后手动将重建结果与互联网收集的平面图配准,从而创建包含图像与平面图对应关系的新数据集C3。
- Result: C3数据集包含597个场景的9万对平面图和照片,1.53亿像素级对应关系和8.5万个相机位姿。在该数据集上训练后,最佳方法的RMSE提升了34%。
- Conclusion: 该研究为跨模态几何推理提供了新的基准数据集,并识别了该领域存在的开放挑战。
[166] PhysGS: Bayesian-Inferred Gaussian Splatting for Physical Property Estimation
Samarth Chopra,Jing Liang,Gershom Seneviratne,Dinesh Manocha
Main category: cs.CV
TL;DR: PhysGS是一个基于贝叶斯推理的3D高斯泼溅扩展方法,能够从视觉线索和视觉-语言先验中估计密集的每点物理属性,如质量、硬度和摩擦系数。
- Motivation: 现有的3D重建方法主要关注几何和外观,无法推断物体的物理属性,而理解物理属性对于机器人安全有效地与环境交互至关重要。
- Method: 将属性估计建模为高斯泼溅上的贝叶斯推理,通过迭代更新材料和属性信念,同时建模偶然性和认知不确定性。
- Result: 在物体尺度、室内和室外真实数据集上,PhysGS将质量估计精度提高达22.8%,肖氏硬度误差降低达61.2%,动摩擦误差降低达18.1%。
- Conclusion: PhysGS在单一空间连续框架中统一了3D重建、不确定性建模和物理推理,实现了密集物理属性估计。
[167] Zero-Reference Joint Low-Light Enhancement and Deblurring via Visual Autoregressive Modeling with VLM-Derived Modulation
Wei Dong,Han Zhou,Junwei Lin,Jun Chen
Main category: cs.CV
TL;DR: 提出基于视觉自回归建模的生成框架,通过视觉语言模型的感知先验指导,解决暗光图像的低可见度、噪声和模糊问题,无需配对数据即可实现最先进的恢复性能。
- Motivation: 真实暗光图像存在低可见度、低对比度、复杂噪声和模糊等多重退化问题,现有方法依赖配对数据或无法建模动态光照和模糊特性,导致泛化能力差。
- Method: 采用视觉自回归建模框架,基于VLM感知先验:1)自适应曲线估计调节光照;2)动态空间频率感知旋转位置编码增强模糊结构建模;3)递归相位域调制策略缓解模糊伪影。
- Result: 在基准数据集上实现了最先进的性能,完全无监督训练。
- Conclusion: 该框架通过结合视觉自回归建模和视觉语言模型感知先验,有效解决了暗光图像的多重退化问题,具有优异的泛化能力。
[168] Stage-Specific Benchmarking of Deep Learning Models for Glioblastoma Follow-Up MRI
Wenhao Guo,Golrokh Mirzaei
Main category: cs.CV
TL;DR: 该研究首次对胶质母细胞瘤随访MRI进行了阶段特异性深度学习模型基准测试,发现在第二次随访时模型性能更好,Mamba+CNN混合模型在准确性和效率方面表现最佳。
- Motivation: 区分胶质母细胞瘤的真实进展和治疗相关假性进展在早期随访中具有挑战性,需要建立阶段感知的深度学习模型基准。
- Method: 使用Burdenko GBM进展队列(n=180),在统一的质量控制驱动流程下训练11个代表性深度学习家族(CNN、LSTM、混合模型、Transformer和选择性状态空间模型),采用患者级交叉验证。
- Result: 两个阶段的准确率相当(约0.70-0.74),但在第二次随访时判别能力改善,F1和AUC增加;Mamba+CNN混合模型提供最佳准确率-效率权衡,Transformer变体在更高计算成本下提供竞争性AUC。
- Conclusion: 结果建立了阶段感知基准,并激励未来工作整合纵向建模、多序列MRI和更大的多中心队列。
[169] NeAR: Coupled Neural Asset-Renderer Stack
Hong Li,Chongjie Ye,Houyuan Chen,Weiqing Xiao,Ziyang Yan,Lixing Xiao,Zhaoxi Chen,Jianfeng Xiang,Shaocong Xu,Xuhui Liu,Yikai Wang,Baochang Zhang,Xiaoguang Han,Jiaolong Yang,Hao Zhao
Main category: cs.CV
TL;DR: NeAR是一个耦合的神经资产-渲染器堆栈,通过联合设计资产表示和神经渲染器,实现了端到端可学习的图形管线,在保真度、一致性和效率方面具有优势。
- Motivation: 神经资产创作和神经渲染目前是分离的领域,作者认为将它们耦合设计可以解锁端到端可学习的图形堆栈,带来保真度、一致性和效率的提升。
- Method: 在资产侧使用Trellis风格的3D结构化潜在空间和光照均匀化神经资产;在渲染器侧设计了光照感知的神经渲染器,结合显式视图嵌入和HDR环境贴图实现实时可重光照渲染。
- Result: NeAR在四个任务上验证:G-buffer前向渲染、随机光照单图像重建、未知光照单图像重光照、新视角重光照,在定量指标和感知质量上都超越了现有最优方法。
- Conclusion: 耦合的资产-渲染器视角为未来图形堆栈提供了新思路,应将神经资产和渲染器视为协同设计的组件而非独立实体。
[170] RigAnyFace: Scaling Neural Facial Mesh Auto-Rigging with Unlabeled Data
Wenchao Ma,Dario Kneubuehler,Maurice Chu,Ian Sachs,Haomiao Jiang,Sharon Xiaolei Huang
Main category: cs.CV
TL;DR: RigAnyFace (RAF) 是一个可扩展的神经自动绑定框架,能够处理各种拓扑结构的面部网格,包括具有多个断开组件的网格。该框架通过2D监督策略增强泛化能力,在准确性和通用性方面优于先前工作。
- Motivation: 解决面部网格自动绑定的挑战,特别是处理多样化拓扑结构和断开组件(如眼球)的需求,同时克服手动绑定成本高、标注数据有限的问题。
- Method: 使用三角化无关的表面学习网络,结合定制架构设计处理FACS参数和断开组件。采用2D监督策略对未标记的中性网格进行训练,增加数据多样性。
- Result: RAF能够在艺术家制作的资源和野外样本上对各种拓扑结构的网格进行绑定,在准确性和泛化能力方面优于先前工作,并支持多个断开组件的详细表情动画。
- Conclusion: RAF提供了一个可扩展且通用的面部自动绑定解决方案,能够处理复杂的面部拓扑结构,为表情动画提供了更详细的控制能力。
[171] Functional Localization Enforced Deep Anomaly Detection Using Fundus Images
Jan Benedikt Ruhland,Thorsten Papenbrock,Jan-Peter Sowa,Ali Canbay,Nicole Eter,Bernd Freisleben,Dominik Heider
Main category: cs.CV
TL;DR: 基于Vision Transformer的视网膜疾病分类器在多个数据集上表现稳定,几何和颜色增强效果最佳,GANomaly异常检测器提供可解释性。
- Motivation: 解决眼底图像质量差异、早期病变细微表现和数据集间领域偏移对疾病检测可靠性的挑战。
- Method: 使用Vision Transformer分类器结合多种增强策略,并在多个异构数据集上评估,同时开发GANomaly异常检测器进行补充。
- Result: ViT分类器准确率0.789-0.843,几何增强在Papila数据集上AUC达0.91;GANomaly异常检测器AUC为0.76。
- Conclusion: Transformer架构和多数据集训练具有优势,概率校准为临床实施提供阈值无关决策支持。
[172] Health system learning achieves generalist neuroimaging models
Akhil Kondepudi,Akshay Rao,Chenhui Zhao,Yiwei Lyu,Samir Harake,Soumyanil Banerjee,Rushikesh Joshi,Anna-Katharina Meissner,Renly Hou,Cheng Jiang,Asadur Chowdury,Ashok Srinivasan,Brian Athey,Vikas Gulani,Aditya Pandey,Honglak Lee,Todd Hollon
Main category: cs.CV
TL;DR: NeuroVFM是一个基于医疗系统学习范式的视觉基础模型,通过在524万临床MRI和CT扫描上进行训练,实现了神经影像任务的先进性能,超越了前沿AI模型。
- Motivation: 前沿AI模型缺乏对私有临床数据的访问,神经影像在公共领域代表性不足,限制了在临床医学中的模型性能。
- Method: 采用医疗系统学习范式,使用可扩展的体积联合嵌入预测架构,在524万临床MRI和CT体积上进行训练。
- Result: NeuroVFM在放射诊断和报告生成等多个临床任务中达到最先进性能,表现出新兴的神经解剖理解和可解释的视觉定位能力。
- Conclusion: 医疗系统学习是构建通用医疗AI的可行范式,NeuroVFM为临床基础模型提供了可扩展框架,减少了幻觉发现和关键错误,提供更安全的临床决策支持。
[173] From Healthy Scans to Annotated Tumors: A Tumor Fabrication Framework for 3D Brain MRI Synthesis
Nayu Dong,Townim Chowdhury,Hieu Phan,Mark Jenkinson,Johan Verjans,Zhibin Liao
Main category: cs.CV
TL;DR: 提出TF框架,通过两阶段方法合成3D脑肿瘤数据,解决医学影像标注数据稀缺问题,显著提升低数据场景下的肿瘤分割性能
- Motivation: 解决MRI肿瘤数据稀缺问题,现有方法需要大量标注数据或专家知识,不适用于数据有限的临床环境
- Method: 两阶段框架:粗粒度肿瘤合成 + 生成模型精炼,仅需健康扫描图像和少量真实标注数据
- Result: 合成数据显著提升下游肿瘤分割任务性能,特别在低数据场景下效果明显
- Conclusion: TF框架为医学影像数据增强提供了可扩展且可靠的解决方案,有效应对临床AI应用中的数据稀缺挑战
[174] Robust Physical Adversarial Patches Using Dynamically Optimized Clusters
Harrison Bagley,Will Meakin,Simon Lucey,Yee Wei Law,Tat-Jun Chin
Main category: cs.CV
TL;DR: 本文提出了一种基于超像素的正则化方法,通过SLIC算法在对抗性补丁优化过程中动态聚类像素,利用隐函数定理反向传播梯度,使补丁在尺度变化时保持结构稳定性,减少插值损失。
- Motivation: 物理对抗性攻击在深度学习系统中令人担忧,但现有方法很少关注尺度变化问题。当补丁被重新缩放时,插值引起的颜色混合会平滑像素值,导致高频模式丢失和对抗信号退化。
- Method: 使用SLIC算法在对抗性补丁优化过程中动态聚类像素,应用隐函数定理反向传播梯度以更新超像素边界和颜色,生成具有尺度弹性结构的补丁。
- Result: 该方法在数字域实现了更好的性能,当物理实现时这些性能优势得以保持,提高了物理性能。通过使用屏幕和纸板剪影的系统评估协议客观评估了真实世界性能。
- Conclusion: 提出的超像素正则化方法能够有效生成对尺度变化具有弹性的对抗性补丁,在数字和物理域均表现出优越性能。
[175] Data Augmentation Strategies for Robust Lane Marking Detection
Flora Lian,Dinh Quang Huynh,Hector Penades,J. Stephany Berrio Perez,Mao Shan,Stewart Worrall
Main category: cs.CV
TL;DR: 提出基于生成式AI的数据增强方法,通过几何透视变换、AI修复和车身叠加来模拟特定视角,提升车道检测模型在侧置摄像头场景下的泛化能力。
- Motivation: 解决车道检测模型在公开数据集上训练后,无法很好地泛化到不同摄像头视角(特别是侧置摄像头)的领域偏移问题。
- Method: 构建生成式AI数据增强流水线,结合几何透视变换、AI驱动的图像修复和车辆车身叠加技术,在保持车道连续性的同时模拟部署特定的视角。
- Result: 在SCNN和UFLDv2两个先进模型上验证,使用增强数据训练后模型在不同条件下(包括阴影)表现出更强的鲁棒性,精确率、召回率和F1分数均有提升。
- Conclusion: 该方法通过弥合公开数据集与部署特定场景之间的差距,为车道检测在试点部署场景中提供了可扩展且实用的可靠性提升框架。
[176] Sphinx: Efficiently Serving Novel View Synthesis using Regression-Guided Selective Refinement
Yuchen Xia,Souvik Kundu,Mosharaf Chowdhury,Nishil Talati
Main category: cs.CV
TL;DR: Sphinx是一个无需训练的新型视图合成混合推理框架,通过回归快速初始化引导扩散模型降噪,结合选择性细化和自适应噪声调度,在保持扩散级质量的同时显著降低计算成本。
- Motivation: 解决扩散模型在新型视图合成中计算成本过高,而回归模型生成质量不足的问题,旨在实现高质量且推理高效的NVS框架。
- Method: 使用回归快速初始化来引导和减少扩散模型的降噪工作量,集成选择性细化和自适应噪声调度,将更多计算资源分配给不确定区域和帧。
- Result: 相比扩散模型推理实现平均1.8倍加速,感知退化小于5%,在质量和延迟之间建立了新的帕累托边界。
- Conclusion: Sphinx框架成功实现了扩散级保真度下的显著计算效率提升,为动态变化的推理场景提供了灵活的性能-质量权衡方案。
[177] Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers
Yiqing Shi,Yiren Song,Mike Zheng Shou
Main category: cs.CV
TL;DR: Edit2Perceive是一个统一的扩散框架,将图像编辑模型适配用于深度、法线和抠图等密集感知任务,在保持结构一致性的同时实现更快的推理速度。
- Motivation: 现有的密集感知方法大多依赖为随机生成设计的文本到图像生成器,而图像编辑扩散模型具有固有的图像到图像一致性,更适合作为密集感知任务的基础。
- Method: 基于FLUX.1 Kontext架构,采用全参数微调和像素空间一致性损失,在中间去噪状态间强制结构保持细化,并使用单步确定性推理。
- Result: 在深度、法线和抠图三个任务上均取得了全面的最先进结果,相比传统方法推理速度提升高达8倍。
- Conclusion: 面向编辑的扩散变换器在几何感知任务中展现出强大潜力,为密集感知提供了更合适的基础架构。
[178] MedVision: Dataset and Benchmark for Quantitative Medical Image Analysis
Yongcheng Yao,Yongshuo Zong,Raman Dutt,Yongxin Yang,Sotirios A Tsaftaris,Timothy Hospedales
Main category: cs.CV
TL;DR: MedVision是一个专门用于评估和改进视觉语言模型在医学图像定量分析能力的大规模数据集和基准,涵盖22个公共数据集、3080万图像-标注对,专注于检测、肿瘤/病变大小估计和角度/距离测量三个定量任务。
- Motivation: 当前医学视觉语言模型主要设计用于分类问答或定性描述任务,但临床决策往往依赖定量评估(如测量肿瘤大小、关节角度),这种定量推理能力在现有VLMs中尚未充分探索和支持。
- Method: 构建MedVision大规模数据集,涵盖22个公共数据集,包含3080万图像-标注对,专注于三个代表性定量任务:解剖结构和异常检测、肿瘤/病变大小估计、角度/距离测量。通过监督微调提升模型性能。
- Result: 现成的VLMs在这些定量任务上表现不佳,但通过在MedVision上进行监督微调,显著提高了它们在检测、肿瘤/病变估计和角度/距离测量方面的性能,降低了错误率并提高了精度。
- Conclusion: 这项工作为开发具有强大定量推理能力的医学成像视觉语言模型奠定了基础,MedVision数据集和基准为未来研究提供了重要资源。
[179] A Theory-Inspired Framework for Few-Shot Cross-Modal Sketch Person Re-Identification
Yunpeng Gong,Yongjie Hou,Jiangming Shi,Kim Long Diep,Min Jiang
Main category: cs.CV
TL;DR: KTCAA是一个基于泛化理论的少样本跨模态框架,通过对齐增强和知识转移催化剂来解决素描-图像跨模态检索中的领域差异和模态偏移问题。
- Motivation: 素描-图像跨模态重识别面临显著的模态差异和标注数据有限的问题,需要解决领域差异和模态偏移的挑战。
- Method: 提出对齐增强(AA)模块进行局部素描风格变换模拟目标分布,以及知识转移催化剂(KTC)模块引入最坏情况扰动并强制一致性,在元学习框架下联合优化。
- Result: 在多个基准测试中达到最先进性能,特别是在数据稀缺条件下表现优异。
- Conclusion: KTCAA框架通过理论指导的领域对齐和扰动不变性增强,有效解决了素描-图像跨模态检索的挑战,在少样本场景下表现出色。
[180] Neural Geometry Image-Based Representations with Optimal Transport (OT)
Xiang Gao,Yuanpeng Liu,Xinmu Wang,Jiazhi Li,Minghao Guo,Yu Guo,Xiyun Song,Heather Yu,Zhiqiang Lao,Xianfeng David Gu
Main category: cs.CV
TL;DR: 提出了一种基于几何图像的神经表示方法,通过将不规则网格转换为规则图像网格,实现高效的单次前向传递恢复高质量网格,无需复杂解码器架构。
- Motivation: 现有3D网格神经表示方法依赖神经过拟合和连续解码过程,计算成本高。图像具有规则结构便于高效处理,但难以直接应用于不规则网格。
- Method: 使用几何图像表示将不规则网格转换为规则图像网格,结合最优传输解决采样不均问题,通过几何图像mipmap实现连续细节层次。
- Result: 在压缩比、Chamfer距离和Hausdorff距离等指标上达到最先进的存储效率和恢复精度。
- Conclusion: 几何图像表示使图像处理优势可直接应用于3D网格,实现高效、存储优化的神经处理。
[181] Hierarchical GraphCut Phase Unwrapping based on Invariance of Diffeomorphisms Framework
Xiang Gao,Xinmu Wang,Zhou Zhao,Junqi Huang,Xianfeng David Gu
Main category: cs.CV
TL;DR: 提出了一种基于微分同胚和GraphCut的相位展开框架,通过像素标记问题重新表述相位展开,实现了45.5倍加速和更低的L2误差,适用于实时应用。
- Motivation: 传统相位展开方法在速度和精度之间存在权衡:快速方法精度不足,而精确算法速度过慢,无法满足实时应用需求。
- Method: 将基于GraphCut的相位展开重新表述为像素标记问题,利用微分同胚的不变性特性,通过保形映射和最优传输映射在图像空间中应用,采用分层GraphCut算法并在多个域中融合结果。
- Result: 实验结果显示实现了45.5倍的加速,在真实实验和模拟中都获得了更低的L2误差。
- Conclusion: 该框架在保持高精度的同时显著提升了计算速度,展示了在实时应用中的潜力。
[182] Now You See It, Now You Don't - Instant Concept Erasure for Safe Text-to-Image and Video Generation
Shristi Das Biswas,Arani Roy,Kaushik Roy
Main category: cs.CV
TL;DR: ICE是一种无需训练、模态无关的一次性权重修改方法,通过各向异性能量加权缩放定义擦除和保留子空间,并使用独特的闭式重叠投影器显式正则化它们的交集,实现精确、持久的遗忘。
- Motivation: 现有的文本到图像和文本到视频模型概念移除方法存在重新训练成本高、推理开销大或易受对抗攻击的问题,且很少建模目标擦除概念与周围内容之间的潜在语义重叠,导致擦除后产生附带损害。
- Method: 定义擦除和保留子空间,使用各向异性能量加权缩放,通过闭式重叠投影器正则化交集,提出凸且Lipschitz有界的谱遗忘目标,平衡擦除保真度和交集保留,获得稳定唯一的解析解。
- Result: 在艺术风格、对象、身份和显式内容的目标移除中,ICE在文本到图像和文本到视频模型中高效实现了强擦除,提高了对抗红队测试的鲁棒性,同时对原始生成能力仅造成最小退化。
- Conclusion: ICE是一种训练免费、模态无关的一次性权重修改方法,能够实现精确、持久的遗忘,且无运行时开销,在多种概念移除任务中表现优异。
[183] Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
Dayong Liu,Chao Xu,Weihong Chen,Suyu Zhang,Juncheng Wang,Jiankang Deng,Baigui Sun,Yang Liu
Main category: cs.CV
TL;DR: CFG-Bench是一个新的基准测试,用于系统评估多模态大语言模型在物理交互中的细粒度动作智能,包含1,368个视频和19,562个多模态问答对,涵盖四种认知能力。
- Motivation: 现有基准测试主要关注高层次规划或空间推理,而忽视了物理交互所需的细粒度动作智能,需要填补这一空白。
- Method: 构建CFG-Bench基准,包含四个认知维度的评估:物理交互、时间-因果关系、意图理解和评估判断,通过监督微调验证方法有效性。
- Result: 领先的MLLMs在生成详细物理交互指令方面表现不佳,在意图和评估等高阶推理方面存在显著局限,但在CFG-Bench数据上进行SFT能显著提升现有基准测试性能。
- Conclusion: CFG-Bench揭示了MLLMs在物理交互智能方面的局限性,为开发更有能力的具身智能体提供了重要见解。
[184] EVCC: Enhanced Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification
Kazi Reyazul Hasan,Md Nafiu Rahman,Wasif Jalal,Sadif Ahmed,Shahriar Raj,Mubasshira Musarrat,Muhammad Abdullah Adnan
Main category: cs.CV
TL;DR: EVCC是一种结合Vision Transformer、轻量级ConvNeXt和CoAtNet的多分支混合视觉架构,通过自适应token剪枝、门控双向交叉注意力等创新技术,在多个数据集上实现SOTA准确率,同时减少25-35%的计算量。
- Motivation: 现有的Transformer和CNN混合架构虽然提升了图像分类性能,但计算成本过高。需要开发既能保持高精度又能显著降低计算复杂度的新型混合架构。
- Method: 1) 带信息保护的自适应token剪枝;2) 用于特征细化的门控双向交叉注意力;3) 多任务学习的辅助分类头;4) 上下文感知置信度驱动的动态路由门。
- Result: 在CIFAR-100、Tobacco3482、CelebA和Brain Cancer数据集上,EVCC相比DeiT-Base、MaxViT-Base和CrossViT-Base等模型,准确率提升最高达2个百分点,同时FLOPs减少25-35%。
- Conclusion: EVCC通过动态调整计算需求,有效平衡了精度与效率的权衡,结合了全局上下文、局部细节和层次特征,适用于实际应用场景。
[185] Exploring Surround-View Fisheye Camera 3D Object Detection
Changcai Li,Wenwei Lin,Zuoxun Hou,Gang Chen,Wei Zhang,Huihui Zhou,Weishi Zheng
Main category: cs.CV
TL;DR: 本文研究了在环视鱼眼相机系统中实现端到端3D目标检测的技术可行性,开发了两种兼容鱼眼几何的检测方法,并发布了首个专用评估数据集。
- Motivation: 传统基于针孔相机模型的3D目标检测器在鱼眼图像上性能显著下降,需要专门的方法来处理鱼眼相机的独特几何特性。
- Method: 提出了两种方法:基于鸟瞰图范式的FisheyeBEVDet和基于查询范式的FisheyePETR,两者都采用球面空间表示来有效捕捉鱼眼几何。
- Result: 在发布的Fisheye3DOD数据集上实验表明,鱼眼兼容建模比基线方法准确率提高了6.2%。
- Conclusion: 通过专门处理鱼眼几何,可以有效提升环视鱼眼相机系统的3D目标检测性能,为实际应用提供了可行的技术方案。
[186] Dendritic Convolution for Noise Image Recognition
Jiarui Xue,Dongjian Yang,Ye Sun,Gang Liu
Main category: cs.CV
TL;DR: 提出了一种抗噪声神经元卷积(DDC),模拟神经元树突结构,通过邻域信息交互计算来降低噪声影响,在图像分类和目标检测任务中显著提升了抗噪声性能。
- Motivation: 现有方法主要通过调整网络结构或训练策略来解决噪声图像识别问题,抗噪声性能已达到瓶颈。需要从神经元角度探索抗干扰解决方案。
- Method: 提出抗噪声神经元卷积,模仿神经元树突结构,将树突的邻域交互计算逻辑融入卷积操作底层设计,通过输入特征间的非线性交互模拟生物树突的XOR逻辑预处理功能。
- Result: 在图像分类任务中,EfficientNet-B0模型在噪声数据集上的准确率相对提升11.23%;在目标检测任务中,YOLOv8的mAP提升19.80%。
- Conclusion: 该卷积的计算方式与生物神经元树突的一致性使其在复杂噪声环境中表现显著优于传统卷积。
[187] ObjectAlign: Neuro-Symbolic Object Consistency Verification and Correction
Mustafa Munir,Harsh Goel,Xiwen Wei,Minkyu Choi,Sahil Shah,Kartikeya Bhardwaj,Paul Whatmough,Sandeep Chinchali,Radu Marculescu
Main category: cs.CV
TL;DR: ObjectAlign是一个结合感知指标与符号推理的框架,用于检测和修正视频编辑中的对象不一致问题,通过可学习阈值和神经符号验证器确保对象一致性和时间保真度。
- Motivation: 视频编辑和合成常引入对象不一致问题(如帧闪烁、身份漂移),这会降低感知质量,需要一种系统方法来检测和修正这些不一致性。
- Method: 提出可学习的对象一致性指标阈值;引入神经符号验证器,包括基于SMT的对象身份漂移检查和基于概率模型检查器的时间保真度验证;使用神经网络插值进行自适应帧修复。
- Result: 在DAVIS和Pexels视频数据集上,相比最先进基线方法,CLIP Score提升高达1.4分,warp error提升高达6.1分。
- Conclusion: ObjectAlign框架通过结合感知指标和符号推理,有效解决了视频编辑中的对象不一致问题,在对象一致性和时间保真度方面都取得了显著改进。
[188] CoD: A Diffusion Foundation Model for Image Compression
Zhaoyang Jia,Zihan Zheng,Naifu Xue,Jiahao Li,Bin Li,Zongyu Guo,Xiaoyi Zhang,Houqiang Li,Yan Lu
Main category: cs.CV
TL;DR: CoD是首个专为压缩设计的扩散基础模型,相比基于文本到图像的基础模型,在超低码率下显著提升压缩效率,训练成本降低300倍,并提供了新的压缩洞察。
- Motivation: 现有扩散编解码器基于文本到图像的扩散基础模型(如Stable Diffusion),但文本条件在压缩角度不是最优的,限制了扩散编解码器在超低码率下的潜力。
- Method: 从零开始训练CoD压缩导向扩散基础模型,实现压缩和生成的端到端优化,支持各种基于扩散的编解码器,在纯图像数据集上进行高效训练。
- Result: 在DiffC等下游编解码器中用CoD替换Stable Diffusion,在超低码率(如0.0039 bpp)下达到SOTA结果;像素空间扩散可实现VTM级PSNR和高感知质量;用更少参数超越GAN基编解码器。
- Conclusion: CoD为未来扩散编解码器研究奠定了基础,展示了压缩导向扩散模型的巨大潜力,特别是在超低码率场景下。
[189] Modality-Collaborative Low-Rank Decomposers for Few-Shot Video Domain Adaptation
Yuyang Wanyan,Xiaoshan Yang,Weiming Dong,Changsheng Xu
Main category: cs.CV
TL;DR: 提出了MC-LRD框架,通过模态协同低秩分解器解决少样本视频域自适应问题,将模态特征分解为模态特有和模态共享特征以改善域对齐效果。
- Motivation: 视频多模态性质在少样本场景下同时面临域对齐和模态协作的挑战,现有方法忽略了这一复杂性。观察到域偏移影响下,各模态及融合特征的泛化性能受限,因为每个模态包含具有不同域偏移程度的耦合特征组件。
- Method: 引入模态协同低秩分解器(MC-LRD),包含每个模态的多个分解器和多模态分解路由器(MDR)。分解器在不同模态间渐进共享参数,MDR选择性激活分解器产生模态特有和模态共享特征。应用正交去相关约束增强多样性,并提出跨域激活一致性损失保证同类样本的分解器激活偏好一致。
- Result: 在三个公共基准测试上的广泛实验结果表明,该模型相比现有方法取得了显著改进。
- Conclusion: MC-LRD框架有效解决了少样本视频域自适应中的多模态挑战,通过特征分解和域对齐机制显著提升了性能。
[190] DriveFlow: Rectified Flow Adaptation for Robust 3D Object Detection in Autonomous Driving
Hongbin Lin,Yiming Yang,Chaoda Zheng,Yifan Zhang,Shuaicheng Niu,Zilu Guo,Yafeng Li,Gui Gui,Shuguang Cui,Zhen Li
Main category: cs.CV
TL;DR: DriveFlow是一种基于预训练文本到图像流模型的修正流适配方法,用于自动驾驶中的训练数据增强,通过频率分解策略解决OOD问题。
- Motivation: 自动驾驶中视觉中心的3D物体检测面临标注成本高和室外场景多样性的挑战,导致训练数据无法覆盖所有测试场景(OOD问题)。现有的训练免费图像编辑方法存在效果有限或难以保持准确3D几何结构的问题。
- Method: 基于频率分解,DriveFlow引入两种策略:1)高频前景保护:通过高频对齐损失保持精确的3D物体几何结构;2)双频背景优化:平衡编辑灵活性和语义一致性。
- Result: 综合实验验证了DriveFlow的有效性和效率,在OOD场景下所有类别都显示出全面的性能提升。
- Conclusion: DriveFlow通过频率分解的修正流适配方法,成功解决了自动驾驶中训练数据增强的OOD问题,在保持3D几何精度的同时实现了性能提升。
[191] Seeing What Matters: Visual Preference Policy Optimization for Visual Generation
Ziqi Ni,Yuanzhi Liang,Rui Li,Yi Zhou,Haibing Huang,Chi Zhang,Xuelong Li
Main category: cs.CV
TL;DR: ViPO是一种改进的GRPO方法,将标量奖励提升为像素级优势图,通过感知结构化模块实现空间和时间感知的优化,在图像和视频生成任务中优于传统GRPO。
- Motivation: 现有的GRPO方法使用每样本单一标量奖励,忽略了视觉内容丰富的空间和时间结构,这种粗粒度的监督阻碍了局部伪影的修正和细粒度感知线索的建模。
- Method: 引入ViPO方法,使用预训练视觉骨干构建空间和时间感知的优势图,将优化压力重新分配到感知重要区域,同时保持标准GRPO的稳定性。
- Result: 在图像和视频基准测试中,ViPO持续优于传统GRPO,提高了与人类偏好奖励的域内对齐,并增强了域外评估的泛化能力。
- Conclusion: ViPO是一种架构无关、轻量级且与现有GRPO训练管道完全兼容的方法,为视觉生成提供了更具表达性和信息性的学习信号。
[192] GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving
Lin Liu,Caiyan Jia,Guanyi Yu,Ziying Song,JunQiao Li,Feiyang Jia,Peiliang Wu,Xiaoshuai Hao,Yandan Luo
Main category: cs.CV
TL;DR: GuideFlow是一个基于约束流匹配的新型自动驾驶规划框架,解决了现有模仿式端到端规划器的多模态轨迹模式崩溃问题,以及生成式规划器难以直接融入安全约束的问题。
- Motivation: 现有端到端自动驾驶规划器存在两个主要问题:模仿式规划器容易发生多模态轨迹模式崩溃,无法生成多样化的轨迹提案;生成式规划器难以在生成过程中直接融入安全约束和物理约束,需要额外的优化阶段来精炼输出。
- Method: GuideFlow利用约束流匹配技术,显式建模流匹配过程,直接在执行流匹配生成过程中强制实施显式约束,而不是依赖隐式约束编码。同时将流匹配训练与基于能量的模型统一,增强模型自主优化能力以满足物理约束。此外,还将驾驶攻击性参数化为生成过程中的控制信号。
- Result: 在多个主要驾驶基准测试(Bench2Drive、NuScenes、NavSim和ADV-NuScenes)上的广泛评估验证了GuideFlow的有效性。在NavSim测试困难分割上,GuideFlow实现了43.0的EPDMS分数,达到最先进水平。
- Conclusion: GuideFlow通过约束流匹配框架成功解决了端到端自动驾驶规划中的多模态轨迹生成和约束融入问题,在多个基准测试中表现出色,为自动驾驶规划提供了新的有效解决方案。
[193] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
Keyang Lu,Sifan Zhou,Hongbin Xu,Gang Xu,Zhifei Yang,Yikai Wang,Zhen Xiao,Jieyi Long,Ming Li
Main category: cs.CV
TL;DR: Yo'City是一个基于大模型推理能力的智能框架,通过分层规划和迭代优化实现用户定制化、无限扩展的3D城市生成,在语义、几何、纹理和布局等方面优于现有方法。
- Motivation: 现有3D城市生成方法主要依赖单一扩散模型,无法实现个性化定制和无限扩展的城市规模场景生成。
- Method: 采用分层"城市-区域-网格"规划策略,通过全局规划器和局部设计器定义城市结构,使用"生成-优化-评估"等距图像合成循环实现网格级3D生成,并引入基于场景图的距离和语义感知布局优化机制。
- Result: 在构建的多样化基准数据集上,Yo'City在语义、几何、纹理和布局等六个多维指标上均优于现有最先进方法。
- Conclusion: Yo'City通过智能框架实现了高质量、可定制和无限扩展的3D城市生成,为虚拟现实和数字孪生应用提供了有效解决方案。
[194] Thinking Ahead: Foresight Intelligence in MLLMs and World Models
Zhantao Gong,Liaoyuan Fan,Qing Guo,Xun Xu,Xulei Yang,Shijie Li
Main category: cs.CV
TL;DR: 提出了FSU-QA数据集,用于评估和增强视觉语言模型的预见智能,即预测和解释未来事件的能力。
- Motivation: 现有研究忽视了预见智能这一对自动驾驶等应用至关重要的能力,需要专门的评估基准。
- Method: 构建FSU-QA视觉问答数据集,用于测试VLMs在预见性任务上的表现,并评估世界模型生成预测的语义连贯性。
- Result: 当前最先进的VLMs在预见性推理上仍有困难;小模型在FSU-QA上微调后能大幅超越更大模型。
- Conclusion: FSU-QA为开发真正具备预见能力的下一代模型提供了理论基础和评估标准。
[195] ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion
Zhenghan Fang,Jian Zheng,Qiaozi Gao,Xiaofeng Gao,Jeremias Sulam
Main category: cs.CV
TL;DR: 提出ProxT2I模型,使用反向离散化和条件近端算子替代传统分数函数,结合强化学习优化采样器,在人类文本到图像生成任务中实现高效采样和更好的人类偏好对齐。
- Motivation: 传统扩散模型依赖前向离散化和数据学习的分数函数,存在采样速度慢、不稳定、需要大量采样步骤的问题,需要更高效稳定的采样方法。
- Method: 开发基于反向离散化的文本到图像扩散模型ProxT2I,使用学习的条件近端算子替代分数函数,结合强化学习和策略优化优化采样器,并构建包含1500万高质量人类图像的LAION-Face-T2I-15M数据集。
- Result: 相比基于分数的基线方法,该方法显著提升采样效率和人类偏好对齐,在计算需求和模型大小更小的情况下,达到与现有最先进开源文本到图像模型相当的结果。
- Conclusion: ProxT2I为人类文本到图像生成提供了一个轻量级但高性能的解决方案,通过反向离散化和近端算子方法实现了更高效的采样过程。
[196] Any4D: Open-Prompt 4D Generation from Natural Language and Images
Hao Li,Qiao Sun
Main category: cs.CV
TL;DR: 提出PEWM框架,通过限制视频生成为较短时间跨度,实现语言与机器人动作的细粒度对齐,降低学习复杂度,提高数据效率,并减少推理延迟。
- Motivation: 基于视频生成的具身世界模型依赖大规模交互数据,但具身数据的稀缺性、收集难度和高维度限制了语言与动作的细粒度对齐,阻碍了具身领域的"GPT时刻"。
- Method: PEWM框架包含模块化视觉语言模型规划器和起始-目标热图引导机制,利用视频模型的时空视觉先验和VLM的语义感知能力,支持原始级策略的组合泛化。
- Result: 实现了语言概念与机器人动作视觉表示的细粒度对齐,降低了学习复杂度,提高了数据收集效率,减少了推理延迟,并支持灵活闭环控制和复杂任务的组合泛化。
- Conclusion: PEWM通过桥接细粒度物理交互与高层推理,为可扩展、可解释和通用具身智能铺平了道路。
[197] From Features to Reference Points: Lightweight and Adaptive Fusion for Cooperative Autonomous Driving
Yongqi Zhu,Morui Zhu,Qi Chen,Deyuan Qu,Song Fu,Qing Yang
Main category: cs.CV
TL;DR: RefPtsFusion是一个轻量级可解释的协同自动驾驶框架,通过交换紧凑的参考点(如物体位置、速度和尺寸信息)而非大型特征图,将通信带宽降低5个数量级,从数百MB/s降至几KB/s。
- Motivation: 传统协同自动驾驶方法需要共享大型特征图或查询嵌入,导致通信带宽需求巨大,难以在异构感知模型的车辆间实现实时协作。
- Method: 车辆间交换紧凑的参考点信息,并开发选择性Top-K查询融合机制,在发送方选择高置信度查询进行补充,实现精度与通信成本的平衡。
- Result: 在M3CAD数据集上,RefPtsFusion在保持稳定感知性能的同时,将通信开销从数百MB/s降至几KB/s(5FPS),减少5个数量级。
- Conclusion: 该框架具有强鲁棒性和一致的传输行为,展示了在可扩展实时协同驾驶系统中的潜力。
[198] VAOT: Vessel-Aware Optimal Transport for Retinal Fundus Enhancement
Xuanzhao Dong,Wenhui Zhu,Yujian Xiong,Xiwen Chen,Hao Wang,Xin Li,Jiajun Cheng,Zhipeng Wang,Shao Tang,Oana Dumitrascu,Yalin Wang
Main category: cs.CV
TL;DR: VAOT是一个基于最优传输的眼底图像增强框架,通过骨架损失和端点感知损失来保持血管结构完整性,在无配对数据设置下提升图像质量。
- Motivation: 传统GAN-based方法在眼底图像增强时会扭曲临床关键的血管结构,改变血管拓扑和端点完整性,这促使开发能够保持血管结构完整性的增强方法。
- Method: 提出Vessel-Aware Optimal Transport (VAOT)框架,结合最优传输目标和两个结构保持正则化器:骨架损失(维持全局血管连通性)和端点感知损失(稳定局部端点)。
- Result: 在合成退化基准和下游血管与病灶分割评估中,该方法在减少噪声的同时保持血管结构,优于多个最先进的基线方法。
- Conclusion: VAOT框架通过结构保持约束在无配对设置下有效指导学习,在保持血管结构完整性的同时提升眼底图像质量。
[199] NI-Tex: Non-isometric Image-based Garment Texture Generation
Hui Shan,Ming Li,Haitao Yang,Kai Zheng,Sizhe Zheng,Yanwei Fu,Xiangru Huang
Main category: cs.CV
TL;DR: 提出了一种非等距图像到3D服装纹理生成方法,通过物理模拟数据集和不确定性引导的烘焙技术,实现跨姿态和跨拓扑的PBR纹理生成。
- Motivation: 现有工业3D服装网格的纹理多样性有限,而现有图像条件纹理生成方法需要严格的拓扑一致性或准确的网格变形,限制了生成质量和灵活性。
- Method: 构建3D服装视频数据集,使用Nano Banana进行高质量非等距图像编辑,提出基于不确定性引导视图选择和重加权的迭代烘焙方法。
- Result: 通过广泛实验证明,该方法能生成适用于工业级3D服装设计的多样化且空间对齐的PBR材质。
- Conclusion: 该方法解决了非等距图像到3D服装纹理生成的挑战性问题,为工业3D服装设计提供了灵活且高质量的纹理生成方案。
[200] Unsupervised Multi-View Visual Anomaly Detection via Progressive Homography-Guided Alignment
Xintao Chen,Xiaohao Xu,Bozhong Zheng,Yun Liu,Yingna Wu
Main category: cs.CV
TL;DR: VSAD是一个新颖的多视角异常检测框架,通过显式建模跨视角的几何一致性来学习视角不变表示,在RealIAD和MANTA数据集上实现了最先进的性能。
- Motivation: 解决多视角图像中由于视角变化引起的良性外观变化与真实缺陷难以区分的问题,现有单视角方法将多视角视为不连接的图像集,导致特征表示不一致和误报率高。
- Method: 提出ViewSense-AD框架,包含多视角对齐模块(MVAM)利用单应性投影对齐相邻视角的特征区域,集成到视角对齐潜在扩散模型(VALDM)中实现渐进式多阶段对齐,并使用轻量级融合精炼模块(FRM)增强全局一致性。
- Result: 在RealIAD和MANTA数据集上的大量实验表明,VSAD在像素、视角和样本级别的视觉异常检测中显著优于现有方法,证明了对大视角偏移和复杂纹理的鲁棒性。
- Conclusion: VSAD通过几何一致性建模和多阶段对齐策略,能够建立对物体表面的连贯和整体理解,为多视角异常检测提供了有效的解决方案。
[201] Rethinking Garment Conditioning in Diffusion-based Virtual Try-On
Kihyun Na,Jinyoung Choi,Injung Kim
Main category: cs.CV
TL;DR: 提出Re-CatVTON,一种高效的单一UNet虚拟试穿模型,通过改进的条件特征学习和指导策略,在减少计算和内存开销的同时保持高性能。
- Motivation: 虽然基于双UNet架构的扩散模型在虚拟试穿任务中表现出色,但其计算和内存开销过大。本研究旨在开发更高效的单一UNet模型,在保持性能的同时减少资源消耗。
- Method: 通过可视化分析和理论分析提出三个关于条件特征学习的假设,开发Re-CatVTON模型,采用改进的分类器自由指导策略和直接注入真实服装潜在特征的方法。
- Result: Re-CatVTON相比前身CatVTON性能显著提升,计算和内存需求低于高性能双UNet模型Leffa,在FID、KID和LPIPS指标上表现更好,仅SSIM略有下降。
- Conclusion: Re-CatVTON为单一UNet虚拟试穿模型建立了新的效率-性能平衡点,证明了通过精心设计的条件特征学习策略可以在减少计算资源的同时保持高质量输出。
[202] ConceptGuard: Proactive Safety in Text-and-Image-to-Video Generation through Multimodal Risk Detection
Ruize Ma,Minghong Cai,Yilei Jiang,Jiaming Han,Yi Feng,Yingshui Tan,Xiaoyong Zhu,Bo Zhang,Bo Zheng,Xiangyu Yue
Main category: cs.CV
TL;DR: ConceptGuard是一个统一的安全框架,用于主动检测和缓解多模态视频生成中的不安全语义,通过对比检测和语义抑制机制,在文本-图像到视频生成中实现安全控制。
- Motivation: 多模态视频生成系统虽然增强了可控性,但也引入了新的安全风险,因为有害内容可能来自单个模态或它们的交互。现有安全方法通常是文本专用的、需要预先知道风险类别,或作为后生成审计器,难以主动缓解这种组合性多模态风险。
- Method: ConceptGuard采用两阶段方法:1)对比检测模块通过将融合的图像-文本输入投影到结构化概念空间来识别潜在安全风险;2)语义抑制机制通过干预提示的多模态条件,引导生成过程远离不安全概念。
- Result: 在两个新基准(ConceptRisk和T2VSafetyBench-TI2V)上的综合实验表明,ConceptGuard在风险检测和安全视频生成方面始终优于现有基线方法,达到了最先进的结果。
- Conclusion: ConceptGuard为多模态视频生成提供了一个有效的主动安全保障框架,能够有效检测和缓解组合性安全风险,在风险检测和安全生成方面都表现出色。
[203] A Novel Dual-Stream Framework for dMRI Tractography Streamline Classification with Joint dMRI and fMRI Data
Haotian Yan,Bocheng Guo,Jianzhong He,Nir A. Sochen,Ofer Pasternak,Lauren J O'Donnell,Fan Zhang
Main category: cs.CV
TL;DR: 提出了一种结合dMRI和fMRI数据的双流线分类框架,用于增强白质纤维束分割的功能一致性,特别是在区分具有相似路径但功能不同的纤维束方面。
- Motivation: 当前流线分类方法主要依赖流线轨迹的几何特征,无法区分路径相似但功能不同的纤维束。需要结合功能信息来提高分割的功能一致性。
- Method: 设计了一个双流网络,使用预训练主干模型处理完整流线轨迹,同时通过辅助网络处理纤维端点区域的fMRI信号,联合分析dMRI和fMRI数据。
- Result: 通过将皮质脊髓束分割为四个躯体定位亚区进行验证,消融实验和与最先进方法的比较表明该方法具有优越性能。
- Conclusion: 提出的双流框架能够有效结合结构和功能信息,显著提高流线分类的功能准确性,为白质纤维束的解剖学意义分割提供了新方法。
[204] STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution
Junyang Chen,Jiangxin Dong,Long Sun,Yixin Yang,Jinshan Pan
Main category: cs.CV
TL;DR: STCDiT是一个基于预训练视频扩散模型的视频超分辨率框架,通过运动感知VAE重建和锚帧引导方法,在复杂相机运动下恢复结构保真和时间稳定的视频。
- Motivation: 解决视频超分辨率中保持时间稳定性和结构保真度的挑战,特别是在复杂相机运动场景下。
- Method: 1. 运动感知VAE重建:基于均匀运动特性的分段重建;2. 锚帧引导:利用VAE编码器提取的首帧潜在特征(锚帧潜在)来约束生成过程,提高结构保真度。
- Result: 大量实验表明,STCDiT在结构保真度和时间一致性方面优于现有最先进方法。
- Conclusion: 结合运动感知重建和锚帧引导的视频扩散模型能够实现高质量的视频超分辨率。
[205] Understanding Task Transfer in Vision-Language Models
Bhuvan Sachdeva,Karan Uppal,Abhinav Java,Vineeth N. Balasubramanian
Main category: cs.CV
TL;DR: 本文研究了视觉语言模型在感知任务间的迁移性,提出了Perfection Gap Factor (PGF)指标来量化任务迁移效果,发现任务间存在正负迁移模式,为VLM训练提供了指导。
- Motivation: 视觉语言模型在多模态基准测试中表现良好,但在深度估计、物体计数等视觉感知任务上落后于人类和专用模型。针对单个任务的微调会对其他任务产生不可预测的影响,这使得任务特定微调具有挑战性。
- Method: 通过系统研究任务可迁移性,分析微调一个感知任务对VLM在其他任务上零样本性能的影响。引入PGF指标来捕捉迁移的广度和幅度,使用三个开源VLM在13个感知任务上进行评估,构建任务迁移图。
- Result: 揭示了感知任务间先前未观察到的关系,发现了正负迁移模式,识别了相互影响的任务组,根据迁移行为将任务组织为不同角色,并展示了PGF如何指导数据选择以实现更高效的训练。
- Conclusion: 这些发现既突出了正迁移的机会,也揭示了负干扰的风险,为推进VLM发展提供了可操作的指导。
[206] StereoDETR: Stereo-based Transformer for 3D Object Detection
Shiyi Mu,Zichong Gu,Zhiqi Ai,Anqi Liu,Yilin Gao,Shugong Xu
Main category: cs.CV
TL;DR: StereoDETR是一个基于DETR的高效立体3D目标检测框架,通过单目DETR分支和立体分支的耦合,在保持高精度的同时实现了实时推理速度,首次在速度上超越单目方法。
- Motivation: 现有的立体3D检测方法虽然精度远高于单目方法,但存在计算开销大、延迟高的问题。最先进的立体方法精度是单目方法的两倍,但推理速度只有单目方法的一半。
- Method: StereoDETR包含两个分支:单目DETR分支(基于2D DETR,增加预测物体尺度、方向和采样点的通道)和立体分支(利用低成本多尺度视差特征预测物体级深度图)。两个分支通过可微分深度采样策略耦合,并引入约束监督策略处理遮挡问题。
- Result: StereoDETR实现了实时推理,是首个在速度上超越单目方法的立体方法。在KITTI基准测试中达到竞争性精度,在行人和自行车子集上创下新的最先进结果。
- Conclusion: StereoDETR成功解决了立体3D检测的计算效率问题,在保持高精度的同时实现了实时性能,为立体视觉的实际应用提供了可行的解决方案。
[207] Scale What Counts, Mask What Matters: Evaluating Foundation Models for Zero-Shot Cross-Domain Wi-Fi Sensing
Cheng Jiang,Yihe Yan,Yanxiang Wang,Chun Tung Chou,Wen Hu
Main category: cs.CV
TL;DR: 该论文通过大规模MAE预训练方法解决Wi-Fi传感中的领域偏移问题,使用14个数据集、130万样本进行训练,发现数据规模和多样性是提升跨领域性能的关键,而模型容量目前不是主要瓶颈。
- Motivation: Wi-Fi传感虽然提供隐私保护的替代方案,但面临严重的领域偏移问题,在不同环境、硬件和用户之间缺乏鲁棒性,现有数据集规模有限且碎片化。
- Method: 采用基础模型方法,使用掩码自编码(MAE)风格预训练,在14个Wi-Fi CSI数据集上训练,包含130万样本,涵盖4种设备、2.4/5/6 GHz频段和20-160 MHz带宽。
- Result: 大规模预训练在跨领域人类活动识别、手势识别和用户识别任务中,相比监督学习基线提升了2.2%到15.7%的准确率,数据规模与性能呈对数线性关系。
- Conclusion: 数据而非模型容量是当前Wi-Fi传感泛化的瓶颈,大规模多样化数据预训练是构建鲁棒Wi-Fi传感系统的关键方向。
[208] PartDiffuser: Part-wise 3D Mesh Generation via Discrete Diffusion
Yichen Yang,Hong Li,Haodong Zhu,Linin Yang,Guojun Lei,Sheng Xu,Baochang Zhang
Main category: cs.CV
TL;DR: PartDiffuser是一个半自回归扩散框架,用于从点云生成艺术家设计的网格,通过部件级生成平衡全局结构和局部细节。
- Motivation: 现有的自回归方法在生成网格时难以平衡全局结构一致性和高保真局部细节,且容易产生误差累积。
- Method: 首先对网格进行语义分割,然后在部件间使用自回归确保全局拓扑,在每个语义部件内使用并行离散扩散过程重建高频几何特征,基于DiT架构并引入部件感知交叉注意力机制。
- Result: 实验表明该方法在生成具有丰富细节的3D网格方面显著优于现有最先进模型,表现出适合实际应用的卓越细节表示能力。
- Conclusion: PartDiffuser通过解耦全局和局部生成任务,有效解决了网格生成中的结构一致性和细节保真度平衡问题。
[209] TPG-INR: Target Prior-Guided Implicit 3D CT Reconstruction for Enhanced Sparse-view Imaging
Qinglei Cao,Ziyao Tang,Xiaoqin Tang
Main category: cs.CV
TL;DR: 提出了一种基于目标先验的3D CT重建框架,通过从投影数据中提取目标先验来增强隐式学习,显著提高了超稀疏视图下的重建精度和学习效率。
- Motivation: 现有基于NeRF的3D CT重建方法忽视了物体解剖先验的重要性,限制了重建精度和学习效率,特别是在超稀疏视图场景下。
- Method: 使用从投影数据中提取的目标先验来指导体素采样和丰富结构编码,结合位置和结构编码实现体素级隐式重建,并开发了CUDA算法快速估计高质量3D目标先验。
- Result: 在复杂腹部数据集上的实验表明,学习效率比当前领先模型NAF提高10倍,重建质量优于最准确模型NeRP,在10、20、30个投影下PSNR分别提升3.57dB、5.42dB、5.70dB。
- Conclusion: 所提出的目标先验增强隐式学习框架显著提升了3D CT重建的学习效率和重建质量,特别是在稀疏视图场景下表现优异。
[210] Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache
Yuqiu Jiang,Xiaozhen Qiao,Tianyu Mei,Haojian Huang,Yifan Chen,Ye Zheng,Zhe Sun
Main category: cs.CV
TL;DR: 提出自适应多样性缓存(ADC)模块,一种无需训练即插即用的机制,通过构建类别特定的缓存来积累高置信度和多样化的特征表示,缓解HOI检测中的长尾偏差问题。
- Motivation: 现有的VLM-based HOI检测方法严重依赖额外训练或提示调优,导致计算开销大且可扩展性有限,特别是在长尾场景中罕见交互严重不足的问题。
- Method: ADC模块构建类别特定的缓存,在推理过程中积累高置信度和多样化的特征表示,采用频率感知的缓存适应机制偏向罕见类别,无需额外训练或微调即可实现稳健的预测校准。
- Result: 在HICO-DET和V-COCO数据集上的实验表明,ADC能持续改进现有HOI检测器,在罕见类别上获得最高+8.57% mAP提升,在完整数据集上获得+4.39% mAP提升。
- Conclusion: ADC模块有效缓解了HOI检测中的长尾偏差问题,同时保持了整体性能,证明了其在无需训练的情况下改善长尾场景检测效果的能力。
[211] DetAny4D: Detect Anything 4D Temporally in a Streaming RGB Video
Jiawei Hou,Shenghao Zhang,Can Wang,Zheng Gu,Yonggen Ling,Taiping Zeng,Xiangyang Xue,Jingbo Zhang
Main category: cs.CV
TL;DR: 提出DetAny4D框架,这是一个用于4D目标检测的端到端开放集方法,直接在序列输入上预测3D边界框,解决了现有方法的时间一致性问题。
- Motivation: 现有4D目标检测方法存在时间一致性不足、复杂多阶段流程易出错传播的问题,且缺乏大规模连续3D边界框标注数据集。
- Method: 基于新构建的DA4D数据集,融合预训练基础模型的多模态特征,设计几何感知的时空解码器捕获时空动态,采用多任务学习架构和专用训练策略保持序列一致性。
- Result: 实验表明DetAny4D在检测精度上具有竞争力,显著提高了时间稳定性,有效解决了4D目标检测中长期存在的抖动和不一致问题。
- Conclusion: DetAny4D框架通过端到端设计和几何感知的时空建模,成功提升了4D目标检测的可靠性和时间一致性。
[212] SupLID: Geometrical Guidance for Out-of-Distribution Detection in Semantic Segmentation
Nimeshika Udayangani,Sarah Erfani,Christopher Leckie
Main category: cs.CV
TL;DR: SupLID是一个用于语义分割中分布外检测的新框架,通过利用语义空间的几何结构来指导基于分类器的OOD分数,在线性本征维度基础上构建几何核心集,在超像素级别计算OOD分数。
- Motivation: 传统的基于分类器置信度的像素级OOD检测方法存在过度自信等局限性,需要利用语义空间的几何结构来提供互补信号。
- Method: 构建几何核心集捕捉分布内子空间的内在结构,在超像素级别计算OOD分数,结合线性本征维度分析距离分布。
- Result: SupLID显著提升了现有基于分类器的OOD分数性能,在AUR、FPR和AUP等关键评估指标上达到最先进水平。
- Conclusion: SupLID作为后验评分方法可以无缝集成到任何语义分割分类器中,几何线索与传统分类器置信度互补,有效增强模型检测多样化OOD场景的能力。
[213] Disc3D: Automatic Curation of High-Quality 3D Dialog Data via Discriminative Object Referring
Siyuan Wei,Chunjie Wang,Xiao Liu,Xiaosheng Yan,Zhishan Zhou,Rui Huang
Main category: cs.CV
TL;DR: 提出了一种全自动管道,将原始3D扫描转换为无歧义的高质量对话数据,解决了3D多模态大语言模型数据稀缺问题,显著降低了成本。
- Motivation: 3D多模态大语言模型性能落后于2D模型,主要原因是缺乏大规模高质量的3D场景对话数据集,且现有方法依赖昂贵的人工标注,存在视角歧义和对象指代歧义问题。
- Method: 开发了四阶段自动化管道:元标注收集、场景图构建与关系校正、判别性对象指代、多任务数据生成,结合基于规则的约束与2D MLLMs和LLMs实现可控可扩展生成。
- Result: 生成了Disc3D数据集,包含超过200万个样本,涵盖25K混合3D场景,支持场景、视图和对象标注、视觉定位以及五种对象中心问答任务,在公共基准和Disc3D-QA任务上均取得显著改进。
- Conclusion: 该自动化管道能系统性地缓解源数据集的内在缺陷,以低成本生成高质量3D对话数据,有效提升3D MLLMs性能。
[214] DiP: Taming Diffusion Models in Pixel Space
Zhennan Chen,Junwei Zhu,Xu Chen,Jiangning Zhang,Xiaobin Hu,Hanzhen Zhao,Chengjie Wang,Jian Yang,Ying Tai
Main category: cs.CV
TL;DR: DiP是一个高效的像素空间扩散框架,通过将生成过程解耦为全局和局部两个阶段来解决扩散模型在生成质量和计算效率之间的权衡问题。
- Motivation: 解决扩散模型在生成质量和计算效率之间的基本权衡问题。潜在扩散模型效率高但存在信息丢失和非端到端训练问题,而现有像素空间模型绕过VAE但计算成本过高。
- Method: DiP将生成过程解耦为全局和局部两个阶段:使用Diffusion Transformer在大块上操作以高效构建全局结构,同时通过协同训练的轻量级Patch Detailer Head利用上下文特征恢复细粒度局部细节。
- Result: DiP实现了与潜在扩散模型相当的计算效率而不依赖VAE,推理速度比先前方法快10倍,仅增加0.3%的参数总量,在ImageNet 256×256上达到1.90 FID分数。
- Conclusion: DiP通过全局-局部协同设计成功解决了扩散模型的质量-效率权衡问题,在保持高质量生成的同时显著提升了计算效率。
[215] VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models
Fufangchen Zhao,Liao Zhang,Daiqi Shi,Yuanjun Gao,Chen Ye,Yang Cai,Jian Gao,Danfeng Yan
Main category: cs.CV
TL;DR: VideoPerceiver是一个新颖的视频多模态大语言模型,通过两阶段训练框架增强视频理解的细粒度感知能力,特别针对短片段中的瞬时动作和长视频中的罕见事件进行优化。
- Motivation: 解决现有视频多模态大语言模型在细粒度感知方面的局限性,特别是对短视频中瞬时动作和长视频中罕见瞬态事件的推理能力不足的问题。
- Method: 采用两阶段训练框架:1)监督微调阶段构建'关键信息缺失'视频,通过对比损失对齐中间视觉表示与关键词;2)强化学习阶段使用相对奖励机制,确保完整视频的响应优于降级输入。
- Result: 在细粒度动作理解和罕见事件描述基准测试中显著优于最先进的VMLLMs,同时在标准任务上保持强大性能。
- Conclusion: 通过优先处理任务相关的视觉特征,VideoPerceiver重新定义了视频语言模型的细粒度感知训练方法。
[216] Assessing the alignment between infants' visual and linguistic experience using multimodal language models
Alvin Wei Ming Tan,Jane Yang,Tarun Sepuri,Khai Loong Aw,Robert Z. Sparks,Zi Yin,Virginia A. Marchman,Michael C. Frank,Bria Long
Main category: cs.CV
TL;DR: 使用CLIP模型自动分析婴儿视角视频中视觉-语言对齐情况,发现理想化的学习对齐时刻在儿童日常经验中相对罕见
- Motivation: 研究儿童语言学习中视觉和语言体验的时间对齐程度,传统方法需要大量人工标注,需要更高效的自动化分析方法
- Method: 使用对比语言-图像预训练(CLIP)模型自动评估婴儿视角视频中的视觉-语言对齐,并在大规模语料库上应用该指标
- Result: 理想化的学习对齐时刻在儿童日常经验中相对罕见,比现代机器学习数据集中的对齐频率低,且不同儿童之间存在变异性
- Conclusion: 不频繁的对齐是早期词汇学习模型的约束条件,提供了一种研究儿童多模态环境的新方法
[217] Q-Save: Towards Scoring and Attribution for Generated Video Evaluation
Xiele Wu,Zicheng Zhang,Mingtao Chen,Yixian Liu,Yiming Liu,Shushi Wang,Zhichao Hu,Yuhong Liu,Guangtao Zhai,Xiaohong Liu
Main category: cs.CV
TL;DR: Q-Save是一个用于AI生成视频质量评估的新基准数据集和模型,包含近10000个视频,提供MOS评分和三个维度的细粒度标注,支持可解释的质量评估。
- Motivation: 当前缺乏能够同时进行准确质量评估和提供可解释理由的AI生成视频评估方法,需要建立更全面和透明的评估体系。
- Method: 采用SlowFast框架区分快慢帧处理,使用COT风格数据格式,采用三阶段训练策略:SFT→GRPO→SFT,实现质量评分和基于归因的解释。
- Result: 模型在视频质量预测方面达到最先进性能,同时提供与人类对齐的可解释理由。
- Conclusion: Q-Save为生成视频研究中的可解释评估建立了坚实基础,有助于多模态生成和可信AI的发展。
[218] Uncertainty-Aware Dual-Student Knowledge Distillation for Efficient Image Classification
Aakash Gore,Anoushka Dey,Aryan Mishra
Main category: cs.CV
TL;DR: 提出了一种不确定性感知的双学生知识蒸馏框架,利用教师预测不确定性来选择性指导学生学习,通过异构学生架构的协作学习提升性能。
- Motivation: 传统知识蒸馏方法对所有教师预测一视同仁,忽略了教师预测的不确定性,这可能导致学生模型学习到不可靠的知识。
- Method: 采用双学生架构(ResNet-18和MobileNetV2),引入同伴学习机制,让学生既从教师网络学习,又相互学习,并基于教师预测不确定性进行选择性指导。
- Result: 在ImageNet-100数据集上,ResNet-18达到83.84% top-1准确率,MobileNetV2达到81.46% top-1准确率,相比传统单学生蒸馏方法分别提升2.04%和0.92%。
- Conclusion: 不确定性感知的双学生知识蒸馏框架能有效提升模型压缩性能,通过选择性知识传递和异构学生协作学习实现更好的知识迁移效果。
[219] Leveraging Metaheuristic Approaches to Improve Deep Learning Systems for Anxiety Disorder Detection
Mohammadreza Amiri,Monireh Hosseini
Main category: cs.CV
TL;DR: 本研究提出了一种结合深度学习与群体智能优化的混合模型,用于通过多模态可穿戴传感器数据自动检测焦虑症,相比单纯使用深度网络显著提升了检测性能。
- Motivation: 传统焦虑症诊断主要依赖主观评估方法(临床访谈和自评问卷),存在耗时、评估者依赖性强等问题。人工智能技术为开发更一致、自动化的焦虑检测方法提供了新机遇。
- Method: 构建了深度学习架构与群体智能优化策略相结合的混合模型,使用多模态可穿戴传感器数据集分析生理、情绪和行为信号。采用遗传算法和粒子群优化等群体智能技术优化特征空间和超参数,深度学习组件从序列化多源输入中提取分层判别特征。
- Result: 评估显示,两种计算范式的融合显著提升了检测性能,相比单独使用深度网络,混合模型在准确率上有显著改善,并在不同个体间表现出更强的泛化能力。
- Conclusion: 研究结果表明,将元启发式优化与深度学习相结合,有望开发出可扩展、客观且具有临床意义的焦虑症评估解决方案。
[220] VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction
Shaobo Wang,Tianle Niu,Runkang Yang,Deshan Liu,Xu He,Zichen Wen,Conghui He,Xuming Hu,Linfeng Zhang
Main category: cs.CV
TL;DR: VideoCompressa通过动态潜在压缩框架解决视频数据合成问题,联合优化关键帧选择器和VAE压缩,实现极高的数据效率,仅需0.13%数据即可超越全数据训练性能。
- Motivation: 视频理解模型的可扩展性受到大规模视频数据集存储和计算成本的限制,现有数据合成方法难以处理视频中的时间冗余和复杂时空动态。
- Method: 提出VideoCompressa框架,包含可微分关键帧选择器(轻量级ConvNet+Gumbel-Softmax采样)和预训练冻结VAE,共同优化以识别信息量最大的帧并压缩为紧凑潜在代码。
- Result: 在UCF101上仅用0.13%数据超越全数据训练2.34%,速度提升5800倍;在HMDB51上仅用0.41%数据匹配全数据性能,比零样本基线提升10.61%。
- Conclusion: VideoCompressa通过解决帧级冗余问题,实现了视频数据合成的高效压缩,为大规模视频理解提供了可行的数据效率解决方案。
[221] FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories
Lei Ke,Hubery Yin,Gongye Liu,Zhengyao Lv,Jingcai Guo,Chen Li,Wenhan Luo,Yujiu Yang,Jing Lyu
Main category: cs.CV
TL;DR: FlowSteer方法通过在线轨迹对齐和对抗蒸馏目标,解决了ReFlow蒸馏中的分布不匹配问题,显著提升了采样效率。
- Motivation: 流匹配在视觉生成中取得成功,但采样效率仍是实际应用的关键瓶颈。ReFlow方法虽然与流匹配有理论一致性,但在实际场景中性能不如一致性蒸馏和分数蒸馏。
- Method: 提出FlowSteer方法:1)在线轨迹对齐(OTA)解决训练中的分布不匹配问题;2)在ODE轨迹上应用对抗蒸馏目标,提高学生对教师生成轨迹的遵循度;3)修复FlowMatchEulerDiscreteScheduler中的缺陷。
- Result: 在SD3上的实验结果表明该方法有效提升了性能。
- Conclusion: FlowSteer通过轨迹引导和分布对齐,释放了基于ReFlow的蒸馏潜力,显著改善了采样效率。
[222] FVAR: Visual Autoregressive Modeling via Next Focus Prediction
Xiaofan Li,Chenming Wu,Yanpeng Sun,Jiaming Zhou,Delin Qu,Yansong Qu,Weihao Bo,Haibao Yu,Dingkang Liang
Main category: cs.CV
TL;DR: FVAR提出了一种新的视觉自回归模型范式,将传统的下一尺度预测转变为下一焦点预测,通过渐进式去模糊来消除混叠伪影,提升图像生成质量。
- Motivation: 传统视觉自回归模型使用均匀下采样构建多尺度金字塔,导致混叠伪影,损害图像细节并引入锯齿和莫尔条纹。
- Method: 1) 下一焦点预测范式:通过渐进减少模糊而非简单下采样;2) 渐进重聚焦金字塔构建:使用物理一致的散焦核构建无混叠多尺度表示;3) 高频残差学习:通过专门的残差教师网络在训练中有效结合混叠信息。
- Result: 在ImageNet上的实验表明,FVAR显著减少了混叠伪影,改善了细节保留和文本可读性,性能优于现有方法。
- Conclusion: FVAR通过焦点预测的新范式有效解决了混叠问题,与现有VAR框架完美兼容,实现了更高质量的图像生成。
[223] Enhancing Multi-Label Thoracic Disease Diagnosis with Deep Ensemble-Based Uncertainty Quantification
Yasiru Laksara,Uthayasanker Thayasivam
Main category: cs.CV
TL;DR: 该研究通过集成深度集成方法来改进CheXNet模型,在NIH ChestX-ray14数据集上实现了不确定性量化,显著提升了模型校准性和可靠性。
- Motivation: 深度学习模型在临床应用中缺乏可靠的不确定性度量,限制了其在高风险医疗环境中的实用性。
- Method: 从失败的蒙特卡洛Dropout方法转向9成员深度集成架构,实现了性能稳定和不确定性分解。
- Result: 实现了SOTA性能(平均AUROC 0.8559,F1分数0.3857),校准误差显著降低(ECE 0.0728),并能可靠分解不确定性的来源。
- Conclusion: 深度集成方法将模型从概率工具转变为可靠的临床决策支持系统,提供了可信和可解释的平台。
[224] Personalized Federated Segmentation with Shared Feature Aggregation and Boundary-Focused Calibration
Ishmam Tashdeed,Md. Atiqur Rahman,Sabrina Islam,Md. Azam Hossain
Main category: cs.CV
TL;DR: FedOAP是一种新颖的个性化联邦学习方法,通过解耦交叉注意力机制和扰动边界损失,解决了多器官肿瘤分割中的特征共享和边界一致性问题。
- Motivation: 现有PFL方法大多忽视了利用不同客户端之间共享特征的潜在好处,特别是在每个客户端包含不同器官分割数据的情况下。
- Method: 使用解耦交叉注意力(DCA)让客户端保留本地查询,同时关注全局共享的键值对;引入扰动边界损失(PBL)来改善预测掩码边界的局部一致性。
- Result: 在多个器官的肿瘤分割任务上,FedOAP始终优于现有的最先进联邦和个性化分割方法。
- Conclusion: FedOAP通过有效建模跨客户端的共享特征依赖和改善边界定位精度,在个性化联邦学习框架下实现了优越的肿瘤分割性能。
[225] Robust Long-term Test-Time Adaptation for 3D Human Pose Estimation through Motion Discretization
Yilin Wen,Kechuan Dong,Yusuke Sugano
Main category: cs.CV
TL;DR: 本文提出了一种基于运动离散化的在线测试时适应方法,通过无监督聚类获得锚点运动来监督姿态估计器,并引入软重置机制来缓解误差累积问题。
- Motivation: 在线测试时适应在3D人体姿态估计中存在误差累积问题,当依赖不完美预测的自监督时会导致性能随时间下降。
- Method: 使用潜在运动表示空间的无监督聚类获得锚点运动,利用其规律性监督姿态估计器并实现高效自回放;引入软重置机制,在连续适应期间将姿态估计器恢复到其指数移动平均值。
- Result: 实验表明该方法优于之前的在线测试时适应方法,验证了设计选择的合理性。
- Conclusion: 通过缓解误差累积,该方法能够稳健地利用个人形状和运动特征来提高准确性,实现长期在线适应。
[226] Deep Hybrid Model for Region of Interest Detection in Omnidirectional Videos
Sana Alamgeer
Main category: cs.CV
TL;DR: 设计一个混合显著性模型来预测360度视频中的感兴趣区域(ROI),以优化视频流传输和提升观看体验。
- Motivation: 360度视频中的ROI检测对于视频流传输至关重要,可以用于预测视口、智能裁剪视频以减少带宽使用,降低头戴设备观看时的头部移动,提高流媒体效率和观看质量。
- Method: 预处理视频获取帧,开发混合显著性模型预测ROI,后处理模型输出得到每帧的ROI,并与360RAT数据集的主观标注进行比较。
- Result: 通过混合显著性模型成功预测了360度视频中的感兴趣区域。
- Conclusion: 提出的混合显著性模型能够有效识别360度视频中的ROI,为优化视频流传输和提升观看体验提供了技术支撑。
[227] Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework with Unbiased Recovery and Relabeling
Xiao Cui,Yulei Qin,Xinyue Li,Wengang Zhou,Hongsheng Li,Houqiang Li
Main category: cs.CV
TL;DR: 提出了一种针对长尾数据集蒸馏的新方法,通过统计对齐视角联合缓解模型偏差和恢复公平监督,显著提升了在长尾分布下的蒸馏性能。
- Motivation: 现有数据集蒸馏方法在平衡数据集上表现良好,但在长尾分布下表现不佳,因为类别不平衡会导致模型表示偏差和Batch Normalization统计估计失真。
- Method: 采用统计对齐视角,包含三个核心组件:增强专家模型用于可靠统计估计和软标签生成;通过动态调整动量的完整前向传递重新校准BN统计以减少表示偏差;通过多轮机制增量选择高置信度和多样化的增强来初始化合成图像。
- Result: 在四个长尾基准测试上相比现有方法有持续改进,在CIFAR-100-LT和Tiny-ImageNet-LT上分别提升15.6%和11.8%的top-1准确率(IPC=10,IF=10)。
- Conclusion: 该方法通过统计对齐有效解决了长尾数据集蒸馏中的模型偏差和统计估计问题,显著提升了蒸馏性能。
[228] DualGazeNet: A Biologically Inspired Dual-Gaze Query Network for Salient Object Detection
Yu Zhang,Haoan Ping,Yuchen Li,Zhenshan Bing,Fuchun Sun,Alois Knoll
Main category: cs.CV
TL;DR: DualGazeNet是一个受生物视觉启发的简单Transformer框架,通过模拟人类视觉系统的双通路处理机制,在显著目标检测任务中实现了SOTA性能,同时大幅提升了计算效率。
- Motivation: 当前显著目标检测方法变得越来越复杂,引入了特征冗余和组件间干扰,而人类视觉系统却能高效识别显著目标。这引发了一个问题:能否设计一个基于生物原理但架构简单的框架,在保持高精度的同时提升计算效率和可解释性?
- Method: 提出了DualGazeNet,一个受生物启发的纯Transformer框架,模拟人类视觉系统的稳健表示学习和双通路处理机制(大细胞-小细胞通路),结合皮层注意力调制。
- Result: 在5个RGB显著目标检测基准测试中,DualGazeNet持续超越25个SOTA方法。相比4个相似容量的Transformer基线方法,推理速度提升约60%,FLOPs减少53.4%。在伪装和水中显著目标检测任务上也表现出强大的跨域泛化能力。
- Conclusion: DualGazeNet证明了基于生物原理的简单架构可以在显著目标检测任务中实现SOTA性能,同时显著提升计算效率,为简化复杂视觉任务架构提供了新思路。
[229] HunyuanVideo 1.5 Technical Report
Bing Wu,Chang Zou,Changlin Li,Duojun Huang,Fang Yang,Hao Tan,Jack Peng,Jianbing Wu,Jiangfeng Xiong,Jie Jiang,Linus,Patrol,Peizhen Zhang,Peng Chen,Penghao Zhao,Qi Tian,Songtao Liu,Weijie Kong,Weiyan Wang,Xiao He,Xin Li,Xinchi Deng,Xuefei Zhe,Yang Li,Yanxin Long,Yuanbo Peng,Yue Wu,Yuhong Liu,Zhenyu Wang,Zuozhuo Dai,Bo Peng,Coopers Li,Gu Gong,Guojian Xiao,Jiahe Tian,Jiaxin Lin,Jie Liu,Jihong Zhang,Jiesong Lian,Kaihang Pan,Lei Wang,Lin Niu,Mingtao Chen,Mingyang Chen,Mingzhe Zheng,Miles Yang,Qiangqiang Hu,Qi Yang,Qiuyong Xiao,Runzhou Wu,Ryan Xu,Rui Yuan,Shanshan Sang,Shisheng Huang,Siruis Gong,Shuo Huang,Weiting Guo,Xiang Yuan,Xiaojia Chen,Xiawei Hu,Wenzhi Sun,Xiele Wu,Xianshun Ren,Xiaoyan Yuan,Xiaoyue Mi,Yepeng Zhang,Yifu Sun,Yiting Lu,Yitong Li,You Huang,Yu Tang,Yixuan Li,Yuhang Deng,Yuan Zhou,Zhichao Hu,Zhiguang Liu,Zhihe Yang,Zilin Yang,Zhenzhi Lu,Zixiang Zhou,Zhao Zhong
Main category: cs.CV
TL;DR: HunyuanVideo 1.5是一个轻量级但功能强大的开源视频生成模型,仅使用83亿参数就能实现最先进的视觉质量和运动连贯性,可在消费级GPU上高效推理。
- Motivation: 为社区提供一个高性能的视频生成基础模型,降低视频创作和研究的门槛,让更广泛的用户能够使用先进的视频生成技术。
- Method: 采用精心策划的数据、先进的DiT架构(包含选择性滑动瓦片注意力SSTA)、通过字形感知文本编码增强双语理解、渐进式预训练和后训练、以及高效的视频超分辨率网络。
- Result: 该紧凑而高效的模型在开源视频生成模型中建立了新的最先进水平,能够实现高质量的文本到视频和图像到视频生成,支持多种时长和分辨率。
- Conclusion: 通过发布代码和模型权重,为社区提供了一个高性能的基础模型,使先进的视频生成技术更加普及和易于使用。
[230] Neural Texture Splatting: Expressive 3D Gaussian Splatting for View Synthesis, Geometry, and Dynamic Reconstruction
Yiming Wang,Shaofei Wang,Marko Mihajlovic,Siyu Tang
Main category: cs.CV
TL;DR: 提出了Neural Texture Splatting (NTS)方法,通过全局神经场为每个基元预测局部外观和几何场,显著提升3D高斯溅射在多种重建任务中的性能。
- Motivation: 3D高斯溅射(3DGS)虽然在新视角合成方面表现出色,但其表示能力受限于使用3D高斯核建模局部变化。现有方法通过添加每个基元的纹理来增强表达能力,但在通用重建场景中效果有限。
- Method: 引入神经纹理溅射(NTS),核心是使用三平面和神经解码器的混合全局神经场,为每个基元预测局部外观和几何场,通过共享全局表示减少模型大小并促进全局信息交换。
- Result: 在多个基准测试中,神经纹理溅射持续改进模型,并在稀疏和密集输入设置下实现了最先进的结果。
- Conclusion: NTS通过神经建模局部纹理场引入了表达性的视角和时间依赖效应,在多种重建任务中实现了对现有3DGS变体的实质性性能提升。
[231] Parallel Vision Token Scheduling for Fast and Accurate Multimodal LMMs Inference
Wengyi Zhan,Mingbao Lin,Zhihang Lin,Rongrong Ji
Main category: cs.CV
TL;DR: ParVTS是一种无需训练、并行处理视觉token的调度框架,通过将视觉token分为主体和非主体组并行处理,在推理中期丢弃非主体路径来减少计算量,实现高达88.9%的视觉token剪枝和1.77倍加速。
- Motivation: 多模态大语言模型因高分辨率图像产生数千个视觉token,导致自注意力计算复杂度呈二次方增长,带来严重的推理延迟问题。简单剪枝会丢失关键上下文信息,影响准确性。
- Method: 提出ParVTS框架:1) 将视觉token划分为主体和非主体组;2) 并行处理两组token,将其语义转移到问题token中;3) 在推理中期丢弃非主体路径以减少计算。无需启发式规则或额外模块,兼容多种MLLM架构。
- Result: 在多个MLLM骨干网络上实验显示:剪枝高达88.9%的视觉token,性能下降极小,实现1.77倍加速和70%的FLOPs减少。
- Conclusion: ParVTS提供了一种有效的训练无关方法,显著降低MLLM的计算负担和推理延迟,同时保持模型性能,具有广泛的适用性。
[232] Facade Segmentation for Solar Photovoltaic Suitability
Ayca Duran,Christoph Waibel,Bernd Bickel,Iro Armeni,Arno Schlueter
Main category: cs.CV
TL;DR: 提出了一种自动化管道,利用建筑立面细节信息识别适合光伏应用的表面并估算太阳能潜力,通过SegFormer-B5模型在CMP Facades数据集上进行微调,生成立面级光伏适用性掩码和光伏板布局。
- Motivation: 建筑一体化光伏立面是实现城市脱碳的重要途径,特别是在屋顶面积不足且地面安装不可行的情况下。虽然基于机器学习的屋顶光伏规划方法已有研究,但针对立面的自动化方法仍然稀缺且过于简化。
- Method: 构建了一个管道,在CMP Facades数据集上微调SegFormer-B5模型,将语义预测转换为立面级光伏适用性掩码,并考虑模块尺寸和间距生成光伏板布局。
- Result: 在来自10个城市的373个已知尺寸的立面数据集上应用,结果显示可安装BIPV潜力显著低于理论潜力,为可靠的城市能源规划提供了有价值的见解。
- Conclusion: 随着立面图像的日益可用性,所提出的管道可以扩展到支持全球城市的BIPV规划。
[233] MagicWorld: Interactive Geometry-driven Video World Exploration
Guangyuan Li,Siming Zheng,Shuolin Xu,Jinwei Chen,Bo Li,Xiaobin Hu,Lei Zhao,Peng-Tao Jiang
Main category: cs.CV
TL;DR: MagicWorld是一个交互式视频世界模型,通过整合3D几何先验和历史检索机制,解决了现有方法在视角变化下结构不稳定和历史信息遗忘的问题。
- Motivation: 现有交互式视频世界模型存在两个关键限制:1)未能充分利用指令驱动场景运动与底层3D几何的对应关系,导致视角变化时结构不稳定;2)在多步交互中容易遗忘历史信息,导致错误累积和场景语义结构的渐进漂移。
- Method: 1)提出Action-Guided 3D Geometry Module (AG3D),从每轮交互的第一帧和对应动作构建点云,为视角转换提供显式几何约束;2)设计History Cache Retrieval (HCR)机制,在生成过程中检索相关历史帧作为条件信号,帮助模型利用过去场景信息。
- Result: 实验结果表明,MagicWorld在交互迭代过程中显著提升了场景稳定性和连续性。
- Conclusion: MagicWorld通过整合3D几何先验和历史检索机制,有效解决了交互式视频生成中的结构不稳定和历史遗忘问题,为构建更稳定连续的交互场景提供了有效解决方案。
[234] MFmamba: A Multi-function Network for Panchromatic Image Resolution Restoration Based on State-Space Model
Qian Jiang,Qianqian Wang,Xin Jin,Michal Wozniak,Shaowen Yao,Wei Zhou
Main category: cs.CV
TL;DR: 提出了一种名为MFmamba的多功能模型,能够通过三种不同输入实现超分辨率、光谱恢复以及联合超分辨率和光谱恢复任务。该模型基于UNet++架构,结合了Mamba上采样块、双池注意力机制和多尺度混合交叉块。
- Motivation: 由于单传感器限制,只能获取高空间分辨率的灰度全色图像和低空间分辨率的彩色多光谱图像。现有方法中,超分辨率技术无法提高光谱分辨率,着色技术无法提高空间分辨率,而全色锐化方法需要两个配准输入且无法实现超分辨率。因此需要一种集成方法来解决这些问题。
- Method: 1. 使用UNet++作为主干网络
- 结合Mamba上采样块(MUB)
- 设计双池注意力(DPA)替代UNet++中的跳跃连接
- 提出多尺度混合交叉块(MHCB)进行初始特征提取
- Result: 大量实验表明,MFmamba在评估指标和视觉结果方面具有竞争力,在仅使用输入全色图像的情况下,在三个任务中都表现良好。
- Conclusion: MFmamba模型能够有效解决仅使用全色图像时的超分辨率、光谱恢复以及联合任务,在遥感图像处理中具有重要应用价值。
[235] MetaDCSeg: Robust Medical Image Segmentation via Meta Dynamic Center Weighting
Chenyu Mu,Guihai Chen,Xun Yang,Erkun Yang,Cheng Deng
Main category: cs.CV
TL;DR: 提出MetaDCSeg框架,通过动态学习像素级权重来抑制噪声标注的影响,特别关注模糊边界区域,提升医学图像分割的鲁棒性。
- Motivation: 医学图像分割常受噪声标注和模糊解剖边界干扰,导致模型训练不稳定。现有方法依赖全局噪声假设或基于置信度的样本选择,无法有效应对边界区域的噪声问题。
- Method: 提出MetaDCSeg框架,采用动态中心距离(DCD)机制建模边界不确定性,使用加权特征距离关注前景、背景和边界中心,引导模型关注模糊边界附近的难分割像素。
- Result: 在四个基准数据集上的广泛实验表明,MetaDCSeg在不同噪声水平下均优于现有最先进方法。
- Conclusion: MetaDCSeg通过动态像素级权重学习和边界不确定性建模,显著提升了医学图像分割在噪声标注下的性能,特别是在处理结构边界方面表现优异。
[236] Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation
Ruiying Liu,Yuanzhi Liang,Haibin Huang,Tianshu Yu,Chi Zhang
Main category: cs.CV
TL;DR: BPGO通过引入贝叶斯先验锚点来建模奖励不确定性,在GRPO框架基础上改进视觉生成模型的后训练优化,解决了文本-视觉对应关系模糊导致奖励信号不确定的问题。
- Motivation: GRPO性能受限于文本-视觉对应关系的模糊性:单个提示可能对应多种视觉输出,单个图像/视频可能有多种正确解释。这种多对多关系导致奖励模型产生不确定和弱区分性的信号,使GRPO无法充分利用可靠反馈并过度拟合噪声。
- Method: BPGO在GRPO基础上引入语义先验锚点来显式建模奖励不确定性。通过两个层面自适应调节优化信任:组间贝叶斯信任分配强调与先验一致的组更新,降低模糊组的权重;组内先验锚定重归一化通过扩展置信偏差和压缩不确定分数来锐化样本区分。
- Result: 在图像和视频生成任务中,BPGO相比标准GRPO和近期变体,始终提供更强的语义对齐、增强的感知保真度和更快的收敛速度。
- Conclusion: BPGO通过贝叶斯先验引导的优化方法有效解决了GRPO中的奖励不确定性问题,在视觉生成任务中实现了更优的性能表现。
[237] EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models
Wenhao Xu,Xin Dong,Yue Li,Haoyuan Shi,Zhiwei Xiong
Main category: cs.CV
TL;DR: 提出EventSTU框架,利用事件相机原理实现高效视频理解,通过粗到细关键帧采样和自适应token剪枝,在保持性能的同时显著降低计算成本。
- Motivation: 现有视频大语言模型在长视频推理时计算成本过高,需要减少冗余帧和token数量来提高效率。
- Method: 结合事件相机特性,设计粗到细关键帧采样算法消除冗余帧,利用事件视觉显著性指导空间token剪枝,并整合问题相关性自适应分配剪枝预算。
- Result: 在EventBench基准测试中,EventSTU实现了3.01倍FLOPs减少和3.10倍预填充加速,同时性能仍有提升。
- Conclusion: EventSTU框架有效解决了视频大模型的高计算成本问题,为高效时空理解提供了新思路,既支持物理事件相机也适用于通用视频理解。
[238] BackdoorVLM: A Benchmark for Backdoor Attacks on Vision-Language Models
Juncheng Li,Yige Li,Hanxun Huang,Yunhao Chen,Xin Wang,Yixu Wang,Xingjun Ma,Yu-Gang Jiang
Main category: cs.CV
TL;DR: BackdoorVLM是首个针对视觉语言模型(VLMs)的全面后门攻击基准,系统评估了5类多模态后门威胁,在12种攻击方法、2个开源VLMs和3个数据集上的测试显示,VLMs对文本指令高度敏感,仅需1%的中毒率即可达到90%以上的攻击成功率。
- Motivation: 后门攻击在单模态环境中已被广泛研究,但在多模态基础模型特别是视觉语言模型中的影响仍未被充分探索,需要建立系统化的评估基准。
- Method: 采用统一视角,在图像描述和视觉问答等核心视觉语言任务中注入和分析后门,将多模态后门威胁分为5类:目标拒绝、恶意注入、越狱、概念替换和感知劫持,使用文本、图像和双模态触发器进行测试。
- Result: VLMs对文本指令表现出强烈敏感性,在双模态后门中文本触发器通常压倒图像触发器形成后门映射,涉及文本模态的后门攻击效果极强,1%的中毒率即可在大多数任务中达到90%以上的成功率。
- Conclusion: 当前VLMs存在显著且未被充分探索的漏洞,BackdoorVLM可作为分析和缓解多模态后门威胁的有用基准。
[239] One4D: Unified 4D Generation and Reconstruction via Decoupled LoRA Control
Zhenxing Mi,Yuxin Wang,Dan Xu
Main category: cs.CV
TL;DR: One4D是一个统一的4D生成和重建框架,通过统一的掩码条件机制处理不同稀疏度的输入帧,能够从单张图像生成4D内容、从完整视频重建4D内容,或在稀疏帧下混合生成和重建。
- Motivation: 现有的深度图或点云图重建的扩散微调策略在联合RGB和点云图生成时往往失败,会快速降低基础视频模型的质量。
- Method: 采用解耦LoRA控制(DLC),使用两个模态特定的LoRA适配器形成RGB帧和点云图的解耦计算分支,通过轻量级零初始化控制链接逐渐学习像素级一致性。
- Result: 在合成和真实4D数据集上训练,One4D在生成和重建任务中都能产生高质量的RGB帧和精确的点云图。
- Conclusion: 这项工作代表了使用视频扩散模型实现通用、高质量基于几何的4D世界建模的重要一步。
[240] AttenDence: Maximizing Attention Confidence for Test Time Adaptation
Yash Mali
Main category: cs.CV
TL;DR: 提出一种基于注意力熵最小化的测试时适应方法,通过最小化CLS令牌到图像补丁的注意力分布熵来增强模型在分布偏移下的鲁棒性。
- Motivation: 虽然基于输出分布熵最小化的测试时适应方法已被证明有效,但transformer的注意力机制提供了额外的无监督学习信号,可以进一步提升适应效果。
- Method: 提出最小化CLS令牌到图像补丁的注意力分布熵作为新的测试时适应目标,鼓励模型在分布偏移下更自信地关注相关图像区域。
- Result: 该方法在多种损坏类型下都提高了鲁棒性,且在干净数据上不会损害性能,即使在只有单个测试图像的情况下也有效。
- Conclusion: 注意力熵最小化是一种有效的测试时适应策略,能够利用transformer的注意力机制来提升模型在分布偏移下的性能。
[241] FineXtrol: Controllable Motion Generation via Fine-Grained Text
Keming Shen,Bizhu Wu,Junliang Chen,Xiaoqin Wang,Linlin Shen
Main category: cs.CV
TL;DR: FineXtrol是一个高效的运动生成控制框架,通过时间感知、精确、用户友好的细粒度文本控制信号来指导特定身体部位随时间的运动。
- Motivation: 现有方法存在细节错位、缺乏明确时间线索以及计算成本高的问题,需要更高效精确的运动生成控制方案。
- Method: 提出FineXtrol框架,设计分层对比学习模块,使文本编码器为新型控制信号产生更具区分度的嵌入表示。
- Result: 定量结果显示FineXtrol在可控运动生成方面表现强劲,定性分析证明其在指导特定身体部位运动方面具有灵活性。
- Conclusion: FineXtrol成功解决了现有方法的局限性,实现了高效且精确的文本驱动运动生成控制。
[242] Human-Centric Open-Future Task Discovery: Formulation, Benchmark, and Scalable Tree-Based Search
Zijian Song,Xiaoxin Lin,Tao Pu,Zhenlong Yuan,Guangrun Wang,Liang Lin
Main category: cs.CV
TL;DR: 本文提出了人类中心开放未来任务发现(HOTD)问题,旨在让大型多模态模型在开放未来场景中发现能减少人类努力的任务。作者构建了HOTD-Bench基准,并提出协作多智能体搜索树(CMAST)框架来解决该问题。
- Motivation: 当前机器人和具身AI主要依赖大型多模态模型,但在开放未来场景中如何让模型发现直接协助人类的任务仍是一个未充分探索的挑战,特别是当人类意图高度并发和动态变化时。
- Method: 提出了协作多智能体搜索树(CMAST)框架,通过多智能体系统分解复杂推理,并使用可扩展的搜索树模块结构化推理过程。同时构建了包含2000多个真实世界视频的HOTD-Bench基准。
- Result: CMAST在HOTD-Bench上取得了最佳性能,显著超越现有大型多模态模型,并且能很好地与现有模型集成,持续提升性能。
- Conclusion: 该工作为人类中心开放未来任务发现问题提供了系统性的解决方案和评估基准,CMAST框架在任务发现方面表现出色,具有很好的兼容性和扩展性。
[243] VeCoR - Velocity Contrastive Regularization for Flow Matching
Zong-Wei Hong,Jing-lun Li,Lin-Ze Li,Shen Zhang,Yao Tang
Main category: cs.CV
TL;DR: VeCoR是一种用于基于流的生成模型的对比正则化方法,通过正负监督增强标准流匹配,提高稳定性和图像质量。
- Motivation: 标准流匹配可能沿轨迹累积误差并使样本偏离数据流形,导致感知质量下降,特别是在轻量级或低步数配置中。
- Method: 提出速度对比正则化(VeCoR),在标准流匹配目标基础上增加对比性双向监督,既对齐预测速度与稳定参考方向,又将其推离不一致的离流形方向。
- Result: 在ImageNet-1K 256×256上,VeCoR在SiT-XL/2和REPA-SiT-XL/2骨干网络上分别实现22%和35%的相对FID降低,在MS-COCO文本到图像生成上获得32%的相对FID增益。
- Conclusion: VeCoR将流匹配从纯粹的单边目标转变为双边训练信号,在低步数和轻量级设置中显著提高稳定性、收敛性和图像质量。
[244] Leveraging Adversarial Learning for Pathological Fidelity in Virtual Staining
José Teixeira,Pascal Klöckner,Diana Montezuma,Melis Erdal Cesur,João Fraga,Hugo M. Horlings,Jaime S. Cardoso,Sara P. Oliveira
Main category: cs.CV
TL;DR: 本文开发了CSSP2P GAN模型用于虚拟染色,通过盲法病理专家评估证明其具有更高的病理保真度,并研究了对抗损失对虚拟染色质量的关键影响。
- Motivation: 免疫组化染色成本高且劳动密集,虚拟染色作为图像到图像转换任务提供了有前景的替代方案。现有研究大多使用复杂的条件生成对抗网络,但忽视了对抗损失对虚拟染色质量的影响,且评估指标不够稳健。
- Method: 开发CSSP2P GAN模型,通过盲法病理专家评估验证病理保真度,并迭代研究对抗损失对虚拟染色质量的影响。
- Result: CSSP2P GAN在虚拟染色任务中表现出优越性能,对抗损失被证明对虚拟染色质量至关重要。
- Conclusion: CSSP2P GAN在虚拟染色中实现了更高的病理保真度,同时揭示了当前评估指标的局限性,并证明了对抗损失在虚拟染色质量中的关键作用。
[245] Eevee: Towards Close-up High-resolution Video-based Virtual Try-on
Jianhao Zeng,Yancheng Bai,Ruidong Chen,Xuanpu Zhang,Lei Sun,Dongyang Jin,Ryan Xu,Nannan Zhang,Dan Song,Xiangxiang Chu
Main category: cs.CV
TL;DR: 提出了一个高分辨率视频虚拟试穿数据集,解决了现有方法依赖单张服装图像和缺乏特写视频的问题,并提出了VGID评估指标来量化服装细节一致性。
- Motivation: 当前视频虚拟试穿技术存在两个关键局限:依赖单张服装图像无法准确捕捉真实纹理细节,以及现有方法只关注全身试穿视频而忽略了商业对特写视频的需求。
- Method: 构建了一个高分辨率视频虚拟试穿数据集,包含高保真服装图像、文本描述以及真实模特的全身和特写试穿视频;提出了VGID(视频服装起始距离)指标来评估纹理和结构一致性。
- Result: 实验表明,利用该数据集的详细图像,现有视频生成模型能够提取并整合纹理特征,显著提升虚拟试穿的逼真度和细节保真度;基准测试有效识别了当前方法在纹理和结构保持方面的问题。
- Conclusion: 该数据集和评估指标为视频虚拟试穿技术提供了更全面的解决方案,解决了现有方法的局限性,推动了该技术在时尚电商中的实际应用。
[246] CataractCompDetect: Intraoperative Complication Detection in Cataract Surgery
Bhuvan Sachdeva,Sneha Kumari,Rudransh Agarwal,Shalaka Kumaraswamy,Niharika Singri Prasad,Simon Mueller,Raphael Lechtenboehmer,Maximilian W. M. Wintergerst,Thomas Schultz,Kaushik Murali,Mohit Jain
Main category: cs.CV
TL;DR: 提出了CataractCompDetect框架,结合相位感知定位、SAM 2跟踪、并发症风险评分和视觉语言推理,用于白内障手术中虹膜脱垂、后囊破裂和玻璃体丢失的自动检测。
- Motivation: 白内障手术是全球最常见的手术之一,但术中并发症如虹膜脱垂、后囊破裂和玻璃体丢失仍是导致不良结果的主要原因。自动检测这些事件可以实现早期预警系统和客观培训反馈。
- Method: 结合相位感知定位、SAM 2跟踪、并发症特定风险评分和视觉语言推理进行最终分类的并发症检测框架。
- Result: 在CataComp数据集上平均F1得分为70.63%,各并发症检测性能分别为:虹膜脱垂81.8%、后囊破裂60.87%、玻璃体丢失69.23%。
- Conclusion: 结果表明将结构化手术先验知识与视觉语言推理相结合对于识别罕见但影响重大的术中事件具有重要价值。
[247] Peregrine: One-Shot Fine-Tuning for FHE Inference of General Deep CNNs
Huaming Ling,Ying Wang,Si Chen,Junfeng Fan
Main category: cs.CV
TL;DR: 提出了单阶段微调策略和广义交错打包方案,使通用CNN能够在全同态加密下高效推理,支持高分辨率图像处理,并在多个数据集上验证了有效性。
- Motivation: 解决通用深度CNN在全同态加密推理中的两个核心挑战:用低次多项式近似非线性激活函数以减少精度损失,以及突破密文容量限制以支持高分辨率图像处理。
- Method: 1) 单阶段微调策略:直接将预训练CNN转换为FHE友好形式;2) 广义交错打包方案:兼容任意空间分辨率的特征图,配合专门设计的同态操作符保持GIP形式加密。
- Result: 在CIFAR-10、ImageNet和MS COCO上的实验表明,通过SFT策略获得的FHE友好CNN达到了与使用ReLU或SiLU激活的基线相当的准确率,并首次实现了基于FHE的YOLO架构目标检测。
- Conclusion: 这些进展使得能够在各种CNN架构上实现高效的端到端FHE推理,为安全隐私保护的深度学习应用提供了可行解决方案。
[248] Zero-shot segmentation of skin tumors in whole-slide images with vision-language foundation models
Santiago Moreno,Pablo Meseguer,Rocío del Amor,Valery Naranjo
Main category: cs.CV
TL;DR: ZEUS是一个零样本视觉语言分割框架,利用类别特定的文本提示集成和冻结的VLM编码器,在组织病理学全玻片图像中自动生成高分辨率肿瘤分割掩码,无需像素级标注。
- Motivation: 皮肤肿瘤活检的准确标注面临挑战,包括形态变异大、组织学模式重叠以及良恶性病变的细微差别。现有视觉语言模型在组织病理学中主要限于玻片级任务或依赖粗糙交互提示,难以在千兆像素全玻片图像上生成细粒度分割。
- Method: 通过将每个WSI分割成重叠补丁,提取视觉嵌入,并计算与文本提示的余弦相似度,生成最终分割掩码。使用类别特定的文本提示集成和冻结的VLM编码器。
- Result: 在两个内部数据集(原发性梭形细胞肿瘤和皮肤转移瘤)上展示了竞争性性能,突出了提示设计、领域偏移和机构变异对组织病理学VLM的影响。
- Conclusion: ZEUS显著减少了标注负担,同时为下游诊断工作流程提供了可扩展、可解释的肿瘤描绘。
[249] UMCL: Unimodal-generated Multimodal Contrastive Learning for Cross-compression-rate Deepfake Detection
Ching-Yi Lai,Chih-Yu Jian,Pei-Cheng Chuang,Chia-Ming Lee,Chih-Chung Hsu,Chiou-Ting Hsu,Chia-Wen Lin
Main category: cs.CV
TL;DR: 提出UMCL框架,通过单模态生成多模态特征进行对比学习,解决社交媒体压缩对深度伪造检测的挑战
- Motivation: 社交媒体平台的不同压缩程度严重影响深度伪造检测模型的泛化能力和可靠性,现有单模态方法在压缩下特征退化,多模态方法数据收集成本高且模态质量不一致
- Method: UMCL框架将单一视觉模态转换为三个互补特征:压缩鲁棒的rPPG信号、时间地标动态和预训练视觉语言模型的语义嵌入,通过亲和力驱动的语义对齐策略和跨质量相似性学习进行对比学习
- Result: 在多种压缩率和操纵类型下实现优越性能,为鲁棒深度伪造检测设立新基准,即使在单个特征退化时仍保持高检测精度
- Conclusion: 该方法通过显式特征对齐提供可解释的洞察,有效解决了跨压缩率深度伪造检测的挑战
[250] Rethinking Plant Disease Diagnosis: Bridging the Academic-Practical Gap with Vision Transformers and Zero-Shot Learning
Wassim Benabbas,Mohammed Brahimi,Samir Akhrouf,Bilal Fortas
Main category: cs.CV
TL;DR: 本研究探讨注意力架构和零样本学习能否弥合植物病害分类中学术数据集与真实农业条件之间的差距,发现CLIP模型无需特定训练即可通过自然语言描述直接分类病害,具有强适应性和可解释性。
- Motivation: 现有研究主要依赖PlantVillage数据集,该数据集图像背景统一整洁,但训练出的模型难以泛化到农民提交的真实田间图像,存在学术研究与实际应用需求之间的显著差距。
- Method: 评估三类模型:卷积神经网络(CNN)、视觉变换器(Vision Transformer)和基于对比语言-图像预训练(CLIP)的零样本模型,比较它们在领域转移下的表现。
- Result: CNN在领域转移下鲁棒性有限,视觉变换器通过捕捉全局上下文特征展现出更强的泛化能力,而CLIP模型无需任务特定训练即可直接从自然语言描述分类病害。
- Conclusion: 零样本学习作为植物健康诊断的领域适应策略具有实际应用潜力,能够在多样化田间环境中提供可扩展的解决方案。
[251] View-Consistent Diffusion Representations for 3D-Consistent Video Generation
Duolikun Danier,Ge Gao,Steven McDonagh,Changjian Li,Hakan Bilen,Oisin Mac Aodha
Main category: cs.CV
TL;DR: 提出ViCoDR方法,通过改进视频扩散模型的多视角一致性表示来提升生成视频的3D一致性,解决了现有视频生成中因3D不一致导致的视觉伪影问题。
- Motivation: 当前视频生成模型存在3D不一致问题,如物体和结构在相机姿态变化时发生变形,这会影响用户体验和仿真保真度。基于扩散模型表示对齐的最新发现,假设改进视频扩散表示的多视角一致性将产生更3D一致的视频生成。
- Method: 提出ViCoDR方法,通过分析多个相机控制视频扩散模型,发现3D一致表示与视频质量之间的强相关性,并学习多视角一致的扩散表示来改进视频模型的3D一致性。
- Result: 在相机控制的图像到视频、文本到视频和多视角生成模型上评估ViCoDR,证明生成的视频在3D一致性方面有显著改进。
- Conclusion: ViCoDR通过改进多视角一致性表示有效提升了视频生成模型的3D一致性,为视频生成质量提供了重要改进。
[252] AuViRe: Audio-visual Speech Representation Reconstruction for Deepfake Temporal Localization
Christos Koutlis,Symeon Papadopoulos
Main category: cs.CV
TL;DR: 提出了一种基于音频-视觉语音表示重建(AuViRe)的深度伪造时间定位方法,通过跨模态重建差异来精确定位被篡改的视频片段
- Motivation: 随着合成音视频内容的快速发展,确保数字媒体完整性变得至关重要,需要有效检测恶意操纵内容
- Method: 利用音频-视觉语音表示重建,从一个模态(如唇部运动)重建另一个模态(如音频波形)的表示,在篡改片段中这种跨模态重建更加困难,从而产生放大的差异
- Result: 在LAV-DF数据集上AP@0.95提升8.9,在AV-Deepfake1M数据集上AP@0.5提升9.6,在野外实验中AUC提升5.1
- Conclusion: AuViRe方法通过跨模态重建差异有效提升了深度伪造时间定位的精度,在多个数据集上显著优于现有方法
[253] A Self-Conditioned Representation Guided Diffusion Model for Realistic Text-to-LiDAR Scene Generation
Wentao Qu,Guofeng Mei,Yang Wu,Yongshun Gong,Xiaoshui Huang,Liang Xiao
Main category: cs.CV
TL;DR: 提出T2LDM模型,通过自条件表示引导(SCRG)解决文本到LiDAR生成中的平滑场景和低质量文本描述问题,支持多种条件生成任务,在场景生成方面达到SOTA性能。
- Motivation: 解决文本到LiDAR生成中训练数据稀缺导致的场景过于平滑问题,以及低质量文本描述对生成质量和可控性的负面影响。
- Method: 提出自条件表示引导(SCRG)机制,在训练时提供软监督,推理时解耦;构建T2nuScenes基准和可控性指标;设计方向位置先验缓解街道失真;通过条件编码器支持多种条件生成任务。
- Result: 在无条件和条件生成实验中,T2LDM优于现有方法,实现了最先进的场景生成性能。
- Conclusion: T2LDM通过SCRG机制有效提升了文本到LiDAR生成的细节质量和可控性,支持多种条件生成任务,为3D场景生成提供了实用解决方案。
[254] Dynamic Granularity Matters: Rethinking Vision Transformers Beyond Fixed Patch Splitting
Qiyang Yu,Yu Fang,Tianrui Li,Xuemei Cao,Yan Chen,Jianghao Li,Fan Min
Main category: cs.CV
TL;DR: 提出了Grc-ViT,一种动态粗到细的视觉Transformer框架,通过自适应调整视觉粒度来解决ViT在细粒度局部细节表示上的不足,平衡全局推理和局部感知。
- Motivation: Vision Transformers在捕捉全局依赖方面表现出色,但难以高效表示细粒度局部细节。现有的多尺度方法依赖固定补丁大小并引入冗余计算。
- Method: 包含两个关键阶段:粗粒度评估模块(使用边缘密度、熵和频域线索评估视觉复杂性)和细粒度精炼模块(根据选定粒度优化注意力计算)。通过两个可学习参数α和β端到端优化全局推理与局部感知的平衡。
- Result: 综合评估表明,Grc-ViT增强了细粒度判别能力,同时在准确性和计算效率之间实现了优越的权衡。
- Conclusion: Grc-ViT通过动态调整视觉粒度,有效解决了ViT在细粒度细节表示上的局限性,实现了高效精确的特征学习。
[255] Life-IQA: Boosting Blind Image Quality Assessment through GCN-enhanced Layer Interaction and MoE-based Feature Decoupling
Long Tang,Guoquan Zhen,Jie Hao,Jianbo Zhang,Huiyu Duan,Liang Yuan,Guangtao Zhai
Main category: cs.CV
TL;DR: 本文提出了一种名为Life-IQA的盲图像质量评估方法,通过GCN增强的层间交互和MoE特征解耦来解决现有方法中浅层和深层特征贡献不均以及质量解码架构探索不足的问题。
- Motivation: 现有BIQA方法通常融合浅层和深层特征,但忽视了它们对质量预测的不等贡献;同时,虽然广泛采用各种视觉编码器骨干网络,但有效的质量解码架构仍未充分探索。
- Method: 提出Life-IQA框架:1)GCN增强的层间交互模块,使用GCN增强的最深层特征作为查询,次深层特征作为键和值,执行交叉注意力实现特征交互;2)MoE特征解耦模块,通过专门处理特定失真类型或质量维度的专家来解耦融合表示。
- Result: 在多个BIQA基准测试中,Life-IQA在准确性和成本之间展现出比普通Transformer解码器更有利的平衡,并实现了最先进的性能。
- Conclusion: Life-IQA通过创新的层间交互和特征解耦机制,有效解决了BIQA中特征贡献不均和解码架构优化的问题,在多个基准测试中取得了优异表现。
[256] Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric
Xiangjie Sui,Songyang Li,Hanwei Zhu,Baoliang Chen,Yuming Fang,Xin Sun
Main category: cs.CV
TL;DR: 提出了Bench-C基准测试和RAS指标,用于评估大型视觉语言模型在视觉损坏下的鲁棒性,强调区分性样本和预测结构退化分析。
- Motivation: 现有评估方法存在两个主要局限:1)当前数据集中低区分性样本占主导地位,掩盖了模型间的真实鲁棒性差距;2)传统基于准确率的指标无法捕捉底层预测结构的退化。
- Method: 引入Bench-C基准测试,通过考虑损坏下预测不一致性和语义多样性的选择策略来筛选区分性样本;提出RAS统一指标,通过预测不确定性和校准对齐的变化来测量logit级预测结构的退化。
- Result: 实验发现:1)模型在损坏下表现出不同行为模式(如错误置信和犹豫);2)轻微损坏可能导致准确率略有提升,但整体预测结构仍会退化;3)通过将鲁棒性分解为破坏性和纠正性组件,可以揭示不同模型的失败和恢复模式。
- Conclusion: Bench-C和RAS为评估LVLM在视觉损坏下的鲁棒性提供了更全面的框架,揭示了传统指标无法捕捉的模型行为模式差异。
[257] ReEXplore: Improving MLLMs for Embodied Exploration with Contextualized Retrospective Experience Replay
Gengyuan Zhang,Mingcong Ding,Jingpei Wu,Ruotong Liao,Volker Tresp
Main category: cs.CV
TL;DR: ReEXplore是一个无需训练的具身探索框架,通过回顾性经验回放和分层边界选择,解决了MLLM在探索新环境时的知识过时、训练成本高和决策不可靠问题。
- Motivation: 现有的MLLM具身代理在探索新环境时存在三个主要问题:依赖过时的预训练知识、训练成本高昂、以及面对复杂视觉空间时决策不可靠。
- Method: 提出ReEXplore框架,包含两个核心组件:回顾性经验回放(在推理时注入精炼的抽象经验)和分层边界选择(将边界排序分解为从粗到细的决策)。
- Result: 在多个具身探索基准测试中,ReEXplore相比强MLLM基线取得了显著改进,在开源骨干网络下成功率和导航效率都提高了3倍。
- Conclusion: ReEXplore实现了鲁棒、可追溯且高效的探索,为MLLM在具身探索任务中的应用提供了有效的训练免费解决方案。
[258] CSD: Change Semantic Detection with only Semantic Change Masks for Damage Assessment in Conflict Zones
Kai Zhenga,Zhenkai Wu,Fupeng Wei,Miaolan Zhou,Kai Lie,Haitao Guo,Lei Ding,Wei Zhang,Hang-Cheng Dong
Main category: cs.CV
TL;DR: 提出了一种基于DINOv3预训练模型的多尺度交叉注意力差异孪生网络(MC-DiSNet),用于解决冲突地区损伤评估中的语义变化检测问题,并引入了新的CSD任务框架。
- Motivation: 冲突地区损伤评估对人道主义援助和地区稳定至关重要,但受损区域通常面积小、边界模糊,导致数据有限、标注困难,存在高类内相似性和模糊语义变化等识别挑战。
- Method: 使用DINOv3骨干网络提取双时相遥感图像的丰富特征,提出多尺度交叉注意力差异孪生网络(MC-DiSNet),并定义了新的CSD任务,仅关注变化区域的语义标注。
- Result: 在Gaza-Change和SECOND数据集上的实验表明,该方法能有效解决CSD任务,为冲突地区快速损伤评估提供了实用解决方案。
- Conclusion: 提出的CSD任务框架和MC-DiNet方法在语义变化检测方面表现出色,为冲突地区损伤评估开辟了新的应用途径。
[259] MedSAM3: Delving into Segment Anything with Medical Concepts
Anglin Liu,Rundong Xue,Xu R. Cao,Yifan Shen,Yi Lu,Xiang Li,Qianqian Chen,Jintai Chen
Main category: cs.CV
TL;DR: MedSAM-3是基于SAM 3架构的文本可提示医学分割模型,通过医学图像与语义概念标签的微调,实现开放词汇文本描述的解剖结构精确分割,并集成MLLMs进行复杂推理和迭代优化。
- Motivation: 现有医学图像分割方法缺乏泛化性,需要大量耗时的手动标注,无法适应新的临床应用需求。
- Method: 在SAM 3架构上使用医学图像和语义概念标签进行微调,实现医学可提示概念分割(PCS),并开发MedSAM-3 Agent框架集成多模态大语言模型进行复杂推理和迭代优化。
- Result: 在X射线、MRI、超声、CT和视频等多种医学成像模态上的综合实验表明,该方法显著优于现有的专业模型和基础模型。
- Conclusion: MedSAM-3为医学图像和视频分割提供了一种泛化性强、无需大量手动标注的解决方案,代码和模型将公开发布。
[260] Beyond Reward Margin: Rethinking and Resolving Likelihood Displacement in Diffusion Models via Video Generation
Ruojun Xu,Yu Kai,Xuhua Ren,Jiaxiang Cheng,Bing Ma,Tianxiang Zheng,Qinhlin Lu
Main category: cs.CV
TL;DR: PG-DPO通过自适应拒绝缩放和隐式偏好正则化解决DPO在扩散模型中的似然位移问题,显著提升视频生成任务中的偏好对齐性能
- Motivation: DPO在扩散模型中存在似然位移问题,导致选定样本概率在训练中反常下降,影响生成质量,特别是在视频生成任务中表现不佳
- Method: 在扩散框架下分析DPO损失更新策略,识别优化冲突和次优最大化两种失效模式,提出PG-DPO方法,结合自适应拒绝缩放和隐式偏好正则化
- Result: 实验表明PG-DPO在定量指标和定性评估上均优于现有方法
- Conclusion: PG-DPO为视频生成任务中的偏好对齐提供了稳健解决方案
[261] LAA3D: A Benchmark of Detecting and Tracking Low-Altitude Aircraft in 3D Space
Hai Wu,Shuai Tang,Jiale Wang,Longkun Zou,Mingyue Guo,Rongqin Liang,Ke Chen,Yaowei Wang
Main category: cs.CV
TL;DR: 提出了LAA3D数据集,包含15,000张真实图像和600,000帧合成数据,支持低空飞行器的3D检测、跟踪和姿态估计任务,并建立了统一评估基准。
- Motivation: 针对低空飞行器3D感知数据集稀缺的问题,需要构建专门的数据集来推动该领域的研究发展。
- Method: 构建大规模LAA3D数据集,包含真实和合成数据,涵盖多种飞行器类别;提出MonoLAA单目3D检测基线方法;建立统一评估基准。
- Result: 合成数据预训练的模型能够有效迁移到真实数据,表现出良好的仿真到现实泛化能力;MonoLAA方法能够从不同焦距的变焦相机实现稳健的3D定位。
- Conclusion: LAA3D为低空3D物体感知研究提供了全面基础,支持多种任务并展示了良好的仿真到现实迁移效果。
[262] Granular Computing-driven SAM: From Coarse-to-Fine Guidance for Prompt-Free Segmentation
Qiyang Yu,Yu Fang,Tianrui Li,Xuemei Cao,Yan Chen,Jianghao Li,Fan Min,Yi Zhang
Main category: cs.CV
TL;DR: 提出了Grc-SAM框架,通过粗细粒度结合的注意力机制实现无需手动提示的图像分割,解决了现有方法在区域定位和细粒度建模方面的局限性。
- Motivation: 现有基于SAM的预训练模型在单粒度级别生成提示,存在两个问题:(1)缺乏自主区域定位机制;(2)在高分辨率下细粒度建模能力有限。
- Method: 采用粒度计算驱动的粗到细框架:粗阶段自适应提取高响应区域实现前景定位;细阶段使用更细的补丁划分和稀疏局部注意力增强细节建模;将精炼掩码编码为潜在提示嵌入替代手工提示。
- Result: 大量实验结果表明Grc-SAM在准确性和可扩展性方面优于基线方法。
- Conclusion: Grc-SAM为无需提示的分割提供了独特的粒度计算视角,通过多粒度注意力机制将粒度计算与视觉变换器相结合。
[263] Understanding, Accelerating, and Improving MeanFlow Training
Jin-Young Kim,Hyojun Go,Lea Bogensperger,Julius Erbach,Nikolai Kalischek,Federico Tombari,Konrad Schindler,Dominik Narnhofer
Main category: cs.CV
TL;DR: MeanFlow通过联合学习瞬时和平均速度场实现少步高质量生成,但训练动态不清晰。研究发现:瞬时速度是学习平均速度的前提;小时间间隔时平均速度有助于瞬时速度学习,大间隔则有害;准确的一步生成需要先形成瞬时和小间隔平均速度。基于此设计了改进训练方案,显著提升少步生成性能。
- Motivation: 分析MeanFlow中瞬时速度场和平均速度场之间的相互作用和训练动态,理解其训练机制以改进性能
- Method: 通过任务亲和性分析研究两种速度场的相互作用,设计分阶段训练方案:先加速形成瞬时速度,然后从短间隔到长间隔逐步学习平均速度
- Result: 改进的MeanFlow在ImageNet 256x256上1步生成达到FID 2.87,优于基线3.43;或可用2.5倍短训练时间达到相同性能,或使用更小的DiT-L骨干网络
- Conclusion: 瞬时速度和平均速度的学习存在依赖关系,分阶段训练策略能有效提升MeanFlow的收敛速度和少步生成质量
[264] DynaMix: Generalizable Person Re-identification via Dynamic Relabeling and Mixed Data Sampling
Timur Mamedov,Anton Konushin,Vadim Konushin
Main category: cs.CV
TL;DR: DynaMix是一种新颖的可泛化行人重识别方法,通过动态结合手动标记的多摄像头数据和大规模伪标记的单摄像头数据,在三个核心组件的协同作用下实现高效训练和优越性能。
- Motivation: 现有的可泛化行人重识别方法严重依赖有限的多摄像头标记数据,这限制了模型的泛化能力。作者旨在通过有效利用大规模单摄像头伪标记数据来提升模型在未见摄像头和环境下的识别性能。
- Method: DynaMix包含三个核心组件:(1) 重标记模块,实时优化单摄像头身份的伪标签;(2) 高效质心模块,在大规模身份空间中保持稳健的身份表示;(3) 数据采样模块,精心构建混合数据小批量以平衡学习复杂性和批内多样性。
- Result: 大量实验表明,DynaMix在可泛化行人重识别任务中持续优于最先进的方法。
- Conclusion: DynaMix通过动态适应训练数据的结构和噪声,有效结合多摄像头标记数据和单摄像头伪标记数据,为可泛化行人重识别提供了高效且性能优越的解决方案。
[265] DEAP-3DSAM: Decoder Enhanced and Auto Prompt SAM for 3D Medical Image Segmentation
Fangda Chen,Jintao Tang,Pancheng Wang,Ting Wang,Shasha Li,Ting Deng
Main category: cs.CV
TL;DR: DEAP-3DSAM是一个用于3D医学图像分割的改进模型,通过特征增强解码器和双注意力提示器解决了SAM在3D分割中的空间特征丢失和手动提示依赖问题。
- Motivation: SAM在医学图像分割中显示出潜力,但应用于3D图像时存在空间特征丢失问题,且大多数基于SAM的方法仍依赖手动提示,这在真实场景中难以实现且需要大量专家知识。
- Method: 提出特征增强解码器,融合原始图像特征与丰富的空间信息来增强空间特征;设计双注意力提示器,通过空间注意力和通道注意力自动获取提示信息。
- Result: 在四个公共腹部肿瘤分割数据集上的实验表明,DEAP-3DSAM在3D图像分割中达到最先进性能,优于或匹配现有的手动提示方法。消融研究证实了所提模块的有效性。
- Conclusion: DEAP-3DSAM成功解决了SAM在3D医学图像分割中的局限性,实现了自动化的高性能分割,为实际应用提供了可行解决方案。
[266] Graph-based 3D Human Pose Estimation using WiFi Signals
Jichao Chen,YangYang Qu,Ruibo Tang,Dirk Slock
Main category: cs.CV
TL;DR: GraphPose-Fi是一个基于图神经网络的WiFi人体姿态估计框架,通过显式建模骨骼拓扑结构来提升3D姿态估计精度
- Motivation: 现有的WiFi人体姿态估计方法使用回归网络直接将CSI映射到3D关节坐标,忽略了人体关节之间的固有拓扑关系
- Method: 包含跨天线共享的CNN编码器用于子载波-时间特征提取,轻量级注意力模块自适应重加权时间和天线维度特征,以及结合GCN层和自注意力的图回归头来捕捉局部拓扑和全局依赖
- Result: 在MM-Fi数据集上的各种设置中显著优于现有方法
- Conclusion: 提出的GraphPose-Fi框架通过显式建模骨骼拓扑结构,有效提升了WiFi人体姿态估计的性能
[267] HABIT: Human Action Benchmark for Interactive Traffic in CARLA
Mohan Ramesh,Mark Azer,Fabian B. Flohr
Main category: cs.CV
TL;DR: HABIT是一个高保真自动驾驶仿真基准,通过集成真实世界人类运动数据,揭示了现有AD系统在行人交互方面的严重安全缺陷。
- Motivation: 现有自动驾驶仿真缺乏对真实多样化人类行为的充分建模,无法捕捉复杂的动态意图和响应,限制了系统的安全性和可靠性评估。
- Method: 开发模块化、可扩展的运动重定向管道,将来自动捕和视频的30,000个真实人类运动重定向到CARLA仿真器中,最终筛选出4,730个交通兼容的行人运动,采用SMPL格式确保物理一致性。
- Result: 评估三个最先进的AD代理(InterFuser、TransFuser、BEVDriver)发现,在CARLA排行榜上接近零碰撞的代理在HABIT上表现显著恶化:最高7.43次碰撞/公里,12.94%的AIS 3+伤害风险,以及高达33%的不必要制动。
- Conclusion: HABIT暴露了脚本化仿真中隐藏的规划器弱点,为可重复、行人感知的AI研究提供了重要基准,所有组件已公开发布。
[268] DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection
Hai Ci,Ziheng Peng,Pei Yang,Yingxin Xuan,Mike Zheng Shou
Main category: cs.CV
TL;DR: 提出了DiffSeg30k数据集,包含3万张扩散编辑图像,支持像素级标注,将AIGC检测从二分类扩展到语义分割,可同时定位编辑区域和识别编辑模型。
- Motivation: 现有的AIGC检测基准主要关注整图分类,忽视了扩散编辑的定位问题。扩散编辑能够对局部图像区域进行逼真修改,使得AI生成内容更难检测。
- Method: 构建DiffSeg30k数据集:1)使用COCO图像反映真实世界内容多样性;2)采用8种SOTA扩散模型进行局部编辑;3)每张图像最多进行三次顺序编辑;4)基于视觉语言模型的流程自动识别有意义区域并生成上下文感知提示。
- Result: 基准测试显示语义分割任务面临显著挑战,特别是在图像失真鲁棒性方面。分割模型在整图分类方面表现出色,优于现有伪造分类器,并在跨生成器泛化方面显示出巨大潜力。
- Conclusion: DiffSeg30k通过展示基于分割方法的潜力和局限性,将推动AI生成内容细粒度定位的研究。
[269] 3M-TI: High-Quality Mobile Thermal Imaging via Calibration-free Multi-Camera Cross-Modal Diffusion
Minchong Chen,Xiaoyun Yuan,Junzhe Wan,Jianing Zhang,Jun Zhang
Main category: cs.CV
TL;DR: 提出3M-TI,一种无需校准的多相机跨模态扩散框架,用于移动热成像超分辨率,通过跨模态自注意力模块在去噪过程中自适应对齐热成像和RGB特征。
- Motivation: 移动平台热传感器的小型化限制了空间分辨率和纹理保真度,现有热成像超分辨率方法存在单图像方法难以恢复精细结构、RGB引导方法依赖繁琐跨相机校准的问题。
- Method: 在扩散UNet中集成跨模态自注意力模块(CSM),替代原始自注意力层,在去噪过程中自适应对齐热成像和RGB特征,无需显式相机校准。
- Result: 在真实移动热相机和公共基准测试中验证了优越性能,在视觉质量和定量指标上达到最先进水平,显著提升下游任务如目标检测和分割的性能。
- Conclusion: 3M-TI为鲁棒移动热感知系统提供了实用价值,通过生成先验增强超分辨率热图像的空间分辨率、结构保真度和纹理细节。
[270] MonoSR: Open-Vocabulary Spatial Reasoning from Monocular Images
Qirui Wang,Jingyi He,Yining Pan,Si Yong Yeo,Xulei Yang,Shijie Li
Main category: cs.CV
TL;DR: 提出了MonoSR数据集,这是一个大规模的单目空间推理数据集,涵盖室内、室外和以物体为中心的场景,支持多种问题类型,旨在推动开放世界单目空间推理的发展。
- Motivation: 现有空间推理研究主要关注室内环境和多视角观察,限制了其在室外场景的泛化能力和单目图像(最常见真实世界设置)的适用性。
- Method: 构建MonoSR数据集,评估先进视觉语言模型在该任务上的表现,分析辅助信息对单目空间推理的重要性,为未来模型设计提供实践指导。
- Result: 揭示了先进视觉语言模型在这一挑战性任务上的局限性,并提供了关于辅助信息重要性的分析。
- Conclusion: 这些贡献共同为在真实世界、开放世界环境中推进单目空间推理奠定了基础。
[271] When Semantics Regulate: Rethinking Patch Shuffle and Internal Bias for Generated Image Detection with CLIP
Beilin Chu,Weike You,Mengtao Li,Tingting Zheng,Kehan Zhao,Xuan Xu,Zhigao Lu,Jia Song,Moxuan Xu,Linna Zhou
Main category: cs.CV
TL;DR: 提出SemAnti方法,通过冻结CLIP的语义子空间并仅调整对生成痕迹敏感的层,在打乱语义的情况下实现鲁棒的AI生成图像检测,在跨域泛化方面达到SOTA性能。
- Motivation: GAN和扩散模型的快速发展给AI生成图像检测带来新挑战。现有的CLIP检测器虽然表现出良好的泛化能力,但过度依赖语义线索而非生成器痕迹,导致在分布偏移下性能脆弱。
- Method: 提出SemAnti语义对抗微调范式:1)使用Patch Shuffle破坏全局语义连续性但保留局部痕迹线索;2)冻结CLIP的语义子空间;3)仅调整对生成痕迹敏感的层。
- Result: 在AIGCDetectBenchmark和GenImage基准测试中实现了最先进的跨域泛化性能,证明调节语义是释放CLIP在AI生成图像检测中全部潜力的关键。
- Conclusion: 通过抑制语义偏差和调节语义结构,可以显著提升CLIP在AI生成图像检测中的鲁棒性和泛化能力,SemAnti方法为此提供了有效的实现路径。
[272] MambaRefine-YOLO: A Dual-Modality Small Object Detector for UAV Imagery
Shuyu Cao,Minxin Chen,Yucheng Song,Zhaozhong Chen,Xinyou Zhang
Main category: cs.CV
TL;DR: 提出MambaRefine-YOLO方法,通过双门控互补Mamba融合模块和分层特征聚合颈部,在无人机图像小目标检测中实现精度和速度的平衡,在DroneVehicle数据集上达到83.2% mAP。
- Motivation: 无人机图像中的小目标检测面临低分辨率和背景杂波的挑战,现有RGB和红外数据融合方法在跨模态交互和计算效率之间存在权衡困难。
- Method: 使用双门控互补Mamba融合模块(DGC-MFM)通过光照感知和差异感知门控机制自适应平衡RGB和红外模态,以及分层特征聚合颈部(HFAN)采用"先精炼后融合"策略增强多尺度特征。
- Result: 在双模态DroneVehicle数据集上达到83.2% mAP,比基线提升7.9%;在单模态VisDrone数据集上仅使用HFAN也显示出显著增益。
- Conclusion: 该方法在精度和速度之间实现了优越的平衡,非常适合实际无人机应用。
[273] FilmSceneDesigner: Chaining Set Design for Procedural Film Scene Generation
Zhifeng Xie,Keyi Zhang,Yiye Yan,Yuling Guo,Fan Yang,Jiting Zhou,Mengtian Li
Main category: cs.CV
TL;DR: FilmSceneDesigner是一个自动化电影场景生成系统,通过基于代理的链式框架和程序化生成流程,从自然语言描述创建完整的电影场景,解决了传统手工建模的低效问题。
- Motivation: 传统电影场景设计依赖专家手工建模,过程费时费力。需要自动化系统来提升效率,同时保持专业水准和电影真实性。
- Method: 采用基于代理的链式框架将自然语言转换为结构化参数,结合程序化生成管道进行平面图生成、材质分配、门窗布置和物体布局,并使用专门的SetDepot-Pro数据集增强真实性。
- Result: 实验和人工评估显示,系统能生成结构合理且具有强电影真实性的场景,支持虚拟预演、施工图纸和情绪板创建等下游任务。
- Conclusion: FilmSceneDesigner成功实现了自动化电影场景设计,在保持专业质量的同时显著提升了效率,为电影制作提供了实用的技术解决方案。
[274] ABM-LoRA: Activation Boundary Matching for Fast Convergence in Low-Rank Adaptation
Dongha Lee,Jinhee Park,Minjun Kim,Junseok Kwon
Main category: cs.CV
TL;DR: ABM-LoRA是一种通过对齐预训练模型和适配器激活边界来加速低秩适配器收敛的初始化策略
- Motivation: LoRA虽然参数效率高,但其随机初始化导致梯度更新在错配的切空间中进行,造成显著信息损失并阻碍早期收敛
- Method: 在下游训练前将适配器的激活边界与预训练模型对齐,最大化全参数梯度在适配器子空间中的投影
- Result: 在语言理解、对话生成和视觉识别等任务上显著加速收敛,在VTAB-1K上达到所有方法中最高的准确率
- Conclusion: ABM-LoRA通过激活边界对齐有效减少信息损失,提高收敛速度,在多种架构和任务上表现出色
[275] Collaborative Learning with Multiple Foundation Models for Source-Free Domain Adaptation
Huisoo Lee,Jisu Han,Hyunsouk Cho,Wonjun Hwang
Main category: cs.CV
TL;DR: 提出了CoMA框架,利用互补的Foundation Models(如CLIP和BLIP)进行源自由域自适应,通过双向适应机制和分解互信息实现稳定优化。
- Motivation: 单一Foundation Model在源自由域自适应中语义覆盖有限,无法捕捉域偏移下的多样化上下文线索。
- Method: CoMA框架联合利用两个互补的FMs,采用双向适应机制和对齐策略,并引入分解互信息来稳定小批量训练。
- Result: 在Office-31、Office-Home、DomainNet-126和VisDA四个基准测试中均优于现有最先进的SFDA方法,在闭集、部分集和开集设置下都取得最佳结果。
- Conclusion: 多Foundation Model协作能有效提升源自由域自适应的性能,分解互信息解决了小批量训练中的稳定性问题。
[276] From Pixels to Posts: Retrieval-Augmented Fashion Captioning and Hashtag Generation
Moazzam Umer Gondal,Hamad Ul Qudous,Daniya Siddiqui,Asma Ahmad Farhan
Main category: cs.CV
TL;DR: 提出了一个检索增强的时尚图像描述和标签生成框架,结合多服装检测、属性推理和LLM提示,生成视觉基础扎实、描述性强且风格有趣的文本。
- Motivation: 解决端到端描述生成器在属性保真度和领域泛化方面的问题,为时尚图像生成更具视觉基础、描述性和风格化的文本。
- Method: 使用YOLO检测器进行多服装定位,k-means聚类提取主色调,CLIP-FAISS检索模块推断面料和性别属性,构建事实证据包来指导LLM生成描述和标签。
- Result: YOLO检测器在9类服装上获得0.71 mAP@0.5,RAG-LLM管道生成表达力强的属性对齐描述,平均属性覆盖率达0.80,在标签生成中50%阈值下实现完全覆盖。
- Conclusion: 检索增强方法展现出更好的事实基础、更少的幻觉,在多种服装领域具有可扩展部署的潜力,证明其作为自动化和视觉基础时尚内容生成的有效且可解释范式。
[277] Test-Time Preference Optimization for Image Restoration
Bingchen Li,Xin Li,Jiaqi Xu,Jiaming Guo,Wenbo Li,Renjing Pei,Zhibo Chen
Main category: cs.CV
TL;DR: 提出了首个测试时偏好优化(TTPO)范式,通过在线生成偏好数据并指导扩散去噪过程,无需重新训练模型即可提升图像恢复质量并更好地符合人类偏好。
- Motivation: 现有预训练和零样本图像恢复方法往往无法与人类偏好对齐,恢复的图像可能不受欢迎,需要在不重新训练模型且无需收集劳动密集型偏好数据的情况下提升恢复质量。
- Method: 设计了一个无需训练的三阶段流程:1)基于初始恢复图像使用扩散反演和去噪在线生成候选偏好图像;2)使用自动化偏好对齐指标或人工反馈选择偏好和非偏好图像;3)将选定的偏好图像作为奖励信号指导扩散去噪过程,优化恢复图像以更好符合人类偏好。
- Result: 在各种图像恢复任务和模型上的广泛实验证明了所提出流程的有效性和灵活性。
- Conclusion: TTPO范式能够增强感知质量,在线生成偏好数据,并且兼容任何图像恢复模型骨干,为图像恢复任务提供了一种有效的偏好对齐解决方案。
[278] MetroGS: Efficient and Stable Reconstruction of Geometrically Accurate High-Fidelity Large-Scale Scenes
Kehua Chen,Tianlu Mao,Zhuxin Ma,Hao Jiang,Zehao Li,Zihan Liu,Shuqi Gao,Honglong Zhao,Feng Dai,Yucheng Zhang,Zhaoqi Wang
Main category: cs.CV
TL;DR: MetroGS是一个用于复杂城市环境高效稳健重建的新型高斯泼溅框架,通过分布式2D高斯泼溅表示、结构化密集增强、渐进式混合几何优化和深度引导外观建模,实现了高质量的几何保真度和渲染质量。
- Motivation: 当前3D高斯泼溅及其衍生方法在大规模场景重建中取得了突破,但如何高效稳定地实现高质量几何保真度仍是一个核心挑战,特别是在复杂城市环境中。
- Method: 1) 基于分布式2D高斯泼溅表示作为核心基础;2) 结构化密集增强方案,利用SfM先验和点图模型实现更密集初始化;3) 渐进式混合几何优化策略,整合单目和多视图优化;4) 深度引导外观建模方法,学习具有3D一致性的空间特征。
- Result: 在大规模城市数据集上的实验表明,MetroGS实现了优越的几何精度和渲染质量,为高保真大规模场景重建提供了统一解决方案。
- Conclusion: MetroGS通过创新的分布式表示、密集增强、几何优化和外观建模方法,有效解决了复杂城市环境重建中的几何保真度和稳定性问题,为大规模场景重建提供了高效稳健的解决方案。
[279] Evaluating Deep Learning and Traditional Approaches Used in Source Camera Identification
Mansur Ozaman
Main category: cs.CV
TL;DR: 本文对三种源相机识别技术(PRNU、JPEG压缩伪影分析和CNN)进行了比较分析,评估了它们在设备分类准确性方面的表现,并讨论了实际应用中所需的科学进展。
- Motivation: 源相机识别是计算机视觉中的重要任务,有助于对图像进行更全面的分析。
- Method: 比较分析了三种技术:光响应非均匀性(PRNU)、JPEG压缩伪影分析和卷积神经网络(CNN)。
- Result: 评估了每种方法在设备分类准确性方面的表现。
- Conclusion: 讨论了这些方法在实际应用场景中实施所需的可能科学进展。
[280] nnActive: A Framework for Evaluation of Active Learning in 3D Biomedical Segmentation
Carsten T. Lüth,Jeremias Traub,Kim-Celine Kahl,Till J. Bungert,Lukas Klein,Lars Krämer,Paul F. Jaeger,Fabian Isensee,Klaus Maier-Hein
Main category: cs.CV
TL;DR: nnActive是一个用于3D生物医学图像语义分割的主动学习框架,通过解决四个评估陷阱,在大规模研究中发现主动学习方法虽然优于标准随机采样,但未能可靠超越改进的前景感知随机采样。
- Motivation: 生物医学图像语义分割依赖大量标注数据,但手动标注成本高且需要专业知识。主动学习旨在通过选择最有信息量的样本来减少标注工作量,但在3D生物医学成像领域缺乏共识。
- Method: 开发nnActive开源框架,通过(1)大规模研究覆盖四个数据集和三种标注机制;(2)扩展nnU-Net使用部分标注进行3D补丁查询;(3)提出前景感知随机采样策略;(4)引入前景效率指标。
- Result: 研究发现:(A)所有主动学习方法都优于标准随机采样,但未能可靠超越改进的前景感知随机采样;(B)主动学习效果取决于任务特定参数;(C)预测熵是表现最好的方法但标注成本可能最高;(D)计算密集型设计可提升主动学习性能。
- Conclusion: nnActive作为一个整体开源框架,可作为3D生物医学成像中主动学习研究和应用的催化剂。
[281] SpectraNet: FFT-assisted Deep Learning Classifier for Deepfake Face Detection
Nithira Jayarathne,Naveen Basnayake,Keshawa Jayasundara,Pasindu Dodampegama,Praveen Wijesinghe,Hirushika Pelagewatta,Kavishka Abeywardana,Sandushan Ranaweera,Chamira Edussooriya
Main category: cs.CV
TL;DR: 提出基于EfficientNet-B6的轻量级深度伪造图像检测模型,通过数据转换技术处理类别不平衡问题,实现高精度和泛化性。
- Motivation: 检测深度伪造图像对于打击虚假信息至关重要,需要开发轻量且泛化性强的检测方法。
- Method: 使用EfficientNet-B6架构进行微调,结合数据转换技术处理类别不平衡,采用鲁棒预处理、过采样和优化策略。
- Result: 模型实现了高准确率、稳定性和泛化性,但傅里叶变换的相位和振幅特征贡献有限。
- Conclusion: 该框架使非专家能够有效识别深度伪造图像,在可访问和可靠的深度伪造检测方面取得重要进展。
[282] Three-Dimensional Anatomical Data Generation Based on Artificial Neural Networks
Ann-Sophia Müller,Moonkwang Jeong,Meng Zhang,Jiyuan Tian,Arkadiusz Miernik,Stefanie Speidel,Tian Qiu
Main category: cs.CV
TL;DR: 提出了一种基于物理器官模型的自动化3D解剖数据生成工作流,用于解决手术规划和训练中3D解剖模型数据不足的问题,特别针对成像对比度差的软组织器官如前列腺。
- Motivation: 手术规划和训练需要大量从医学影像重建的3D解剖模型,但由于法律、伦理和技术挑战,从真实患者获取这些数据非常困难,特别是对于成像对比度差的软组织器官。
- Method: 使用物理器官模型获取数据,通过3D生成对抗网络(GAN)获得3D模型流形,使用仿生水凝胶制作人工前列腺模型,在定制超声扫描仪中记录手术前后数据,训练神经网络分割超声图像并重建3D网格模型。
- Result: 训练的神经网络在分割超声图像方面优于传统的非学习计算机视觉技术,在交并比(IoU)指标上表现更好,并基于分割结果重建了3D网格模型。
- Conclusion: 该工作流能够有效生成用于下游机器学习任务的3D解剖数据,为手术规划和训练提供了可行的解决方案。
[283] CLASH: A Benchmark for Cross-Modal Contradiction Detection
Teodora Popordanoska,Jiameng Li,Matthew B. Blaschko
Main category: cs.CV
TL;DR: CLASH是一个用于多模态矛盾检测的新基准,包含COCO图像与包含对象级或属性级矛盾的矛盾标题配对,评估模型识别跨模态冲突的能力。
- Motivation: 现实世界中存在大量矛盾的多模态输入,但现有基准通常假设输入一致性,无法评估跨模态矛盾检测这一防止幻觉和确保可靠性的基本能力。
- Method: 引入CLASH基准,包含COCO图像与矛盾标题配对,样本包含目标问题并以多项选择和开放式格式评估,提供经过自动质量检查过滤的广泛微调集和较小的人工验证诊断集。
- Result: 对最先进模型的分析显示在识别跨模态冲突方面存在显著局限性,暴露了系统性的模态偏见和类别特定弱点。
- Conclusion: 针对CLASH的定向微调显著增强了冲突检测能力。
[284] Can Modern Vision Models Understand the Difference Between an Object and a Look-alike?
Itay Cohen,Ethan Fetaya,Amir Rosenfeld
Main category: cs.CV
TL;DR: 该论文研究了CLIP等视觉语言模型是否能区分真实物体与其相似物(如玩具、雕像、绘画等),提出了RoLA数据集并开发了在CLIP嵌入空间中区分真实与相似物的方法。
- Motivation: 尽管计算机视觉模型在识别基准上表现良好,但与人类感知相比仍存在差距,特别是在判断图像是否看起来像某个物体而不一定是该物体的实例方面。
- Method: 构建了RoLA数据集包含真实物体和相似物样本,首先评估基于提示的基线方法,然后在CLIP嵌入空间中估计区分真实与相似物的方向向量。
- Result: 应用该方向向量到图像和文本嵌入中,改善了Conceptual12M上的跨模态检索性能,并提升了CLIP前缀字幕生成器的字幕质量。
- Conclusion: CLIP模型能够捕捉真实物体与相似物之间的细微区别,通过适当的嵌入空间操作可以增强模型的判别能力。
[285] NVGS: Neural Visibility for Occlusion Culling in 3D Gaussian Splatting
Brent Zoomers,Florian Hahlbohm,Joni Vanherck,Lode Jorissen,Marcus Magnor,Nick Michiels
Main category: cs.CV
TL;DR: 提出了一种使用小型共享MLP学习3D高斯模型中高斯体可见性函数的方法,通过遮挡剔除来加速渲染,在组合场景中在VRAM使用和图像质量方面优于现有技术。
- Motivation: 3D高斯溅射可以利用视锥体剔除和细节层次策略来加速包含大量图元的场景渲染,但高斯的半透明特性阻碍了遮挡剔除这一高效技术的应用。
- Method: 使用小型共享MLP学习训练模型中所有高斯的视点相关可见性函数,在光栅化前查询视锥体内的高斯体,在渲染过程中丢弃被遮挡的图元,并利用Tensor Core高效计算,将神经查询直接集成到新的实例化软件光栅器中。
- Result: 在组合场景中,该方法在VRAM使用和图像质量方面优于当前最先进技术,结合实例化光栅器和遮挡剔除MLP,并展现出与现有LoD技术的互补特性。
- Conclusion: 通过学习高斯体的可见性函数并应用遮挡剔除,成功克服了3D高斯溅射中半透明特性对遮挡剔除的限制,实现了更高效的渲染。
[286] ReAlign: Text-to-Motion Generation via Step-Aware Reward-Guided Alignment
Wanjiang Weng,Xiaofeng Tan,Junbo Wang,Guo-Sen Xie,Pan Zhou,Hongsong Wang
Main category: cs.CV
TL;DR: 提出ReAlign方法,通过奖励引导的采样对齐解决文本-运动生成中的语义不一致问题,显著提升运动质量和文本对齐度
- Motivation: 扩散模型在文本到运动生成中存在文本与运动分布不对齐的问题,导致语义不一致或低质量运动
- Method: 提出Reward-guided sampling Alignment (ReAlign),包含步感知奖励模型和奖励引导策略,通过文本对齐模块和运动对齐模块平衡概率密度和对齐度
- Result: 在运动生成和检索任务上的大量实验表明,该方法相比现有SOTA方法显著提升了文本-运动对齐度和运动质量
- Conclusion: ReAlign方法有效解决了文本-运动生成中的对齐问题,为扩散模型提供了更优的采样策略
[287] Are Large Vision Language Models Truly Grounded in Medical Images? Evidence from Italian Clinical Visual Question Answering
Federico Felizzi,Olivia Riccomi,Michele Ferramola,Francesco Andrea Causio,Manuel Del Medico,Vittorio De Vita,Lorenzo De Mori,Alessandra Piscitelli Pietro Eric Risuleo,Bianca Destro Castaniti,Antonio Cristiano Alessia Longo,Luigi De Angelis,Mariapia Vassalli,Marcello Di Pumpo
Main category: cs.CV
TL;DR: 研究发现前沿视觉语言模型在回答意大利医学问题时对视觉信息的依赖程度差异显著,GPT-4o表现出最强的视觉基础性,而其他模型更多依赖文本捷径。
- Motivation: 尽管大型视觉语言模型在医学视觉问答基准上表现出色,但其对视觉信息的真实依赖程度尚不明确,需要验证这些模型是否真正整合了视觉和文本信息。
- Method: 使用欧洲医学问答意大利数据集的60个明确需要图像解释的问题,将正确的医学图像替换为空白占位符,测试四个最先进模型(Claude Sonnet 4.5、GPT-4o、GPT-5-mini和Gemini 2.0 flash exp)的视觉依赖程度。
- Result: GPT-4o显示出最强的视觉基础性,准确率下降27.9个百分点(从83.2%降至55.3%),而GPT-5-mini、Gemini和Claude的准确率下降幅度较小,分别为8.5pp、2.4pp和5.6pp。所有模型都会为虚构的视觉解释生成自信的推理。
- Conclusion: 不同模型在视觉依赖程度上存在显著差异,这突显了模型鲁棒性的关键差异以及在临床部署前需要进行严格评估的必要性。
[288] Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving
Jianhua Han,Meng Tian,Jiangtong Zhu,Fan He,Huixin Zhang,Sitong Guo,Dechang Zhu,Hao Tang,Pei Xu,Yuze Guo,Minzhe Niu,Haojie Zhu,Qichao Dong,Xuechao Yan,Siyuan Dong,Lu Hou,Qingqiu Huang,Xiaosong Jia,Hang Xu
Main category: cs.CV
TL;DR: Percept-WAM是首个在单一视觉语言模型中隐式集成2D/3D场景理解能力的感知增强世界意识-动作模型,通过World-PV和World-BEV令牌统一空间感知任务,在自动驾驶感知和规划任务中表现出色。
- Motivation: 当前自动驾驶系统在空间感知方面存在不足,特别是长尾场景和复杂交互中的不准确性和不稳定性问题,现有视觉语言模型在空间定位和理解方面较弱。
- Method: 提出网格条件预测机制,包含IoU感知评分和并行自回归解码;使用World-PV和World-BEV令牌编码空间坐标和置信度;利用预训练VLM参数保持通用智能。
- Result: 在COCO 2D检测上达到51.7/58.9 mAP,在nuScenes BEV 3D检测上表现优异;与轨迹解码器集成后在NAVSIM上超越DiffusionDrive 2.1 PMDS;展现出强大的开放词汇和长尾泛化能力。
- Conclusion: Percept-WAM成功统一了2D/3D感知任务,显著提升了自动驾驶系统的空间感知能力和规划性能,特别是在长尾和复杂场景中表现出色。
[289] Learning Plug-and-play Memory for Guiding Video Diffusion Models
Selena Song,Ziming Xu,Zijun Zhang,Kun Zhou,Jiaxian Guo,Lianhui Qin,Biwei Huang
Main category: cs.CV
TL;DR: 提出了DiT-Mem方法,通过可学习的记忆编码器为扩散Transformer视频生成模型注入世界知识,改善物理规律遵循和视频保真度
- Motivation: 现有的DiT视频生成模型虽然视觉效果和时序连贯性很好,但经常违反基本物理定律和常识动态,缺乏显式的世界知识
- Method: 使用堆叠的3D CNN、低通/高通滤波器和自注意力层构建记忆编码器,将参考视频映射为紧凑的记忆token,在DiT自注意力层中作为记忆使用,训练时冻结扩散主干仅优化记忆编码器
- Result: 在少量训练参数(150M)和10K数据样本上实现高效训练,能显著改善物理规则遵循和视频保真度
- Conclusion: DiT-Mem方法成功为视频生成模型注入世界知识,实现了即插即用的使用方式,在推理时能有效提升生成质量
[290] IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes
Carl Lindström,Mahan Rafidashti,Maryam Fatemi,Lars Hammarstrand,Martin R. Oswald,Lennart Svensson
Main category: cs.CV
TL;DR: IDSplat是一个自监督的3D高斯泼溅框架,无需人工标注即可重建动态驾驶场景,实现明确的实例分解和可学习的运动轨迹。
- Motivation: 现有动态场景重建方法要么依赖昂贵的人工标注来获取物体轨迹,要么使用没有明确物体级分解的时变表示,导致静态和动态元素交织,阻碍场景分离。
- Method: 将动态物体建模为经历刚性变换的连贯实例,而非非结构化的时变基元。使用零样本、基于语言的视频跟踪与激光雷达进行3D锚定,通过特征对应估计一致姿态。引入协调转向平滑方案获得时间和物理一致的运动轨迹,联合优化物体姿态和高斯参数。
- Result: 在Waymo Open Dataset上的实验表明,该方法在保持实例级分解的同时实现了有竞争力的重建质量,能够泛化到不同序列和视图密度而无需重新训练。
- Conclusion: IDSplat为大规模自动驾驶应用提供了一种实用的动态场景重建解决方案,无需人工标注即可实现实例分解和运动轨迹学习。
[291] Adversarial Patch Attacks on Vision-Based Cargo Occupancy Estimation via Differentiable 3D Simulation
Mohamed Rissal Hedna,Sesugh Samuel Nder
Main category: cs.CV
TL;DR: 本研究通过完全模拟的3D环境,研究了针对货运占用率分类器的物理对抗性补丁攻击的可行性,发现3D优化补丁在拒绝服务攻击中成功率高达84.94%。
- Motivation: 计算机视觉系统在现代物流中广泛应用,但可能面临物理对抗性攻击的威胁,特别是可打印并放置在内部表面的对抗性补丁。
- Method: 使用Mitsuba 3进行可微分渲染,在几何、光照和视角变化下优化补丁纹理,并与2D合成基线进行比较。
- Result: 3D优化补丁在拒绝服务场景(空到满)中攻击成功率高达84.94%,隐蔽攻击(满到空)达到30.32%。
- Conclusion: 这是首个在物理真实的完全模拟3D场景中研究货运占用率估计对抗性补丁攻击的工作,揭示了自动化物流管道安全风险并指出了加强物理鲁棒性的方向。
[292] LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models
Shuai Wang,Daoan Zhang,Tianyi Bai,Shitong Shao,Jiebo Luo,Jiaheng Wei
Main category: cs.CV
TL;DR: LAST方法通过让视觉语言模型在给出最终答案前在空间和时间维度上进行视觉思考,联合提升3D空间理解和长视频理解能力,仅使用2D图像作为输入。
- Motivation: 当前最先进的视觉语言模型在3D空间理解和长视频理解方面仍然表现不佳,尽管在典型视觉语言任务上表现强大。现有方法通常依赖专门架构设计来分别改进3D任务和视频理解任务。
- Method: 提出LAST方法,让VLMs在空间和时间维度上构建视觉思考轨迹,而非仅依赖文本。支持两种场景:1)零样本直接提示专有模型;2)使用包含空间和时间思考轨迹的数据微调通用VLMs。
- Result: LAST在各种基准测试中带来显著提升,包括3个空间理解、4个视频理解和3个图像理解任务。在零样本设置下,GPT-4o在EgoSchema上提升15.8%;与Qwen2.5-VL-7B相比,在VSI-Bench上提升8.3%。
- Conclusion: LAST方法通过让视觉语言模型在空间和时间维度进行思考,有效提升了3D空间和长视频理解能力,且仅需2D图像输入,在多种任务上取得显著性能提升。
[293] BideDPO: Conditional Image Generation with Simultaneous Text and Condition Alignment
Dewei Zhou,Mingwei Li,Zongxin Yang,Yu Lu,Yunqiu Xu,Zhizhong Wang,Zeyi Huang,Yi Yang
Main category: cs.CV
TL;DR: 提出了BideDPO框架,通过双向解耦的偏好优化方法解决条件图像生成中文本与条件之间的冲突问题,显著提升了文本成功率和条件遵循度。
- Motivation: 当前条件图像生成方法在处理文本提示与条件图像之间的冲突时面临挑战,包括输入级冲突和模型偏见冲突,需要更精细的解决方案。
- Method: 提出双向解耦DPO框架,创建两个解耦的偏好对(一个针对条件,一个针对文本),采用自适应损失平衡策略进行平衡优化,并构建自动化数据管道生成冲突感知数据。
- Result: 实验显示BideDPO显著提高了文本成功率(如+35%)和条件遵循度,并在COCO数据集上验证了方法的有效性。
- Conclusion: BideDPO框架通过解耦优化策略有效解决了条件图像生成中的冲突问题,为多约束任务提供了可行的解决方案。
[294] Diffusion Reconstruction-based Data Likelihood Estimation for Core-Set Selection
Mingyang Chen,Jiawei Du,Bo Huang,Yi Wang,Xiaobo Zhang,Wei Wang
Main category: cs.CV
TL;DR: 提出基于扩散模型重建偏差的数据似然估计方法,用于核心集选择,在ImageNet上仅用50%数据即可接近全数据训练效果。
- Motivation: 现有核心集选择方法依赖启发式评分信号,缺乏对数据似然的显式建模,可能无法捕捉关键分布结构。
- Method: 利用扩散模型通过部分反向去噪诱导的重建偏差来估计数据似然,基于马尔可夫扩散过程的ELBO建立重建误差与数据似然的正式联系。
- Result: 在ImageNet上实验表明,重建偏差作为评分标准在不同选择比例下均优于现有基线,仅用50%数据即可接近全数据训练效果。
- Conclusion: 基于似然的方法揭示了数据选择中的信息洞察,阐明了数据分布特征与模型学习偏好之间的相互作用。
[295] ReMatch: Boosting Representation through Matching for Multimodal Retrieval
Qianying Liu,Xiao Liang,Zhiqiang Zhang,Yibo Chen,Xu Tang,Zhongfei Qing,Fengfan Zhou,Yao Hu,Paul Henderson
Main category: cs.CV
TL;DR: ReMatch是一个利用多模态大语言模型生成能力进行多模态检索的框架,通过端到端训练和生成式匹配阶段,在MMEB基准测试中达到新的最先进水平。
- Motivation: 现有方法将MLLM视为简单编码器,忽视了其生成特性和组合推理能力,未能充分利用其世界知识。
- Method: 使用端到端训练和聊天式生成匹配阶段,MLLM通过自回归方式从多视角输入决定相关性,结合对比损失和实例级判别监督,并使用多个可学习token增强输入生成细粒度嵌入。
- Result: 在Massive Multimodal Embedding Benchmark上达到新的SOTA,在五个数据集上表现出强大的零样本泛化能力。
- Conclusion: ReMatch通过充分利用MLLM的生成能力和组合优势,实现了鲁棒且可迁移的多模态检索性能。
[296] DensifyBeforehand: LiDAR-assisted Content-aware Densification for Efficient and Quality 3D Gaussian Splatting
Phurtivilai Patt,Leyang Huang,Yinqiang Zhang,Yang Lei
Main category: cs.CV
TL;DR: 提出了一种新的"预先密集化"方法,结合稀疏LiDAR数据和单目深度估计来增强3D高斯溅射的初始化,避免传统自适应密度控制导致的浮动伪影和资源浪费问题。
- Motivation: 现有3D高斯溅射方法依赖自适应密度控制,容易产生浮动伪影和资源使用效率低下的问题,需要改进初始化过程。
- Method: 采用ROI感知采样方案,结合稀疏LiDAR数据和RGB图像的单目深度估计,生成密集点云,绕过传统自适应密度控制流程。
- Result: 在四个新收集的数据集上验证,方法在保持视觉质量的同时显著降低资源消耗和训练时间,与最先进技术结果相当。
- Conclusion: 提出的预先密集化方法有效解决了3D高斯溅射中的初始化问题,提高了计算效率和视觉质量,特别适用于复杂场景中感兴趣区域的保留。
[297] IDEAL-M3D: Instance Diversity-Enriched Active Learning for Monocular 3D Detection
Johannes Meier,Florian Günther,Riccardo Marin,Oussema Dhaouadi,Jacques Kaiser,Daniel Cremers
Main category: cs.CV
TL;DR: IDEAL-M3D是首个用于单目3D检测的实例级主动学习框架,通过显式多样性集成解决现有方法选择整张图像和偏向深度模糊的问题,仅用60%标注就能达到全数据集训练的性能。
- Motivation: 单目3D检测标注成本高,现有主动学习方法存在两个问题:选择整张图像效率低,以及基于不确定性的选择偏向深度模糊的远距离物体而忽略近距离物体。
- Method: 提出实例级主动学习管道IDEAL-M3D,使用异构骨干网络和任务无关特征、损失权重扰动、时间相关bagging来构建显式多样性集成,改进多样性驱动的主动学习。
- Result: 在KITTI验证集和测试集上,仅用60%的标注就能达到与全数据集训练相同或更好的AP3D性能,实现了显著的资源节省。
- Conclusion: IDEAL-M3D通过实例级选择和多样性集成有效解决了单目3D检测主动学习中的关键问题,在有限标注预算下最大化性能增益。
[298] Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection
Zixuan Wang,Haoran Sun,Jiaming Lu,Wenxuan Wang,Zhongling Huang,Dingwen Zhang,Xuelin Qian,Junwei Han
Main category: cs.CV
TL;DR: 提出了DGSPNet,一种端到端的语言提示驱动框架,通过双粒度语义提示(粗粒度文本先验和细粒度个性化语义描述)来改进红外小目标检测,无需依赖人工标注。
- Motivation: 现有CLIP启发的方法受限于不准确的文本描述和对人工标注的依赖,导致红外小目标检测性能不佳。
- Method: 集成双粒度语义提示:粗粒度文本先验和通过视觉到文本映射生成的细粒度个性化语义描述;引入文本引导通道注意力和空间注意力机制。
- Result: 在三个基准数据集上显著提高了检测精度,达到了最先进的性能。
- Conclusion: DGSPNet通过语言提示驱动框架有效解决了红外小目标检测中的特征表示有限和背景干扰严重的问题。
[299] Evaluating Dataset Watermarking for Fine-tuning Traceability of Customized Diffusion Models: A Comprehensive Benchmark and Removal Approach
Xincheng Wang,Hanchi Sun,Wenjun Sun,Kejun Xue,Wangqiu Zhou,Jianbo Zhang,Wei Sun,Dandan Zhu,Xiongkuo Min,Jun Jia,Zhijun Fang
Main category: cs.CV
TL;DR: 本文提出了一个统一的评估框架来分析扩散模型数据集水印方法,发现现有方法在通用性和可传递性方面表现良好,但在实际威胁场景下仍存在不足,并提出了一种能完全移除水印而不影响微调的实用方法。
- Motivation: 当前扩散模型微调技术虽然能重现特定图像集,但也带来了版权和安全风险。数据集水印技术被提出用于确保可追溯性,但缺乏统一的评估框架来验证其有效性。
- Method: 建立通用威胁模型,引入包含通用性、可传递性和鲁棒性的综合评估框架,并通过实验验证现有方法的性能,同时提出一种实用的水印移除方法。
- Result: 实验表明现有方法在通用性和可传递性方面表现良好,对常见图像处理操作具有一定鲁棒性,但在实际威胁场景下仍存在不足。提出的水印移除方法能完全消除数据集水印而不影响微调。
- Conclusion: 现有数据集水印方法在实际应用中仍存在脆弱性,需要进一步研究来应对现实威胁场景,提出的评估框架和水印移除方法为未来研究提供了重要参考。
[300] SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis
Lingwei Dang,Zonghan Li,Juntong Li,Hongwen Zhang,Liang An,Yebin Liu,Qingyao Wu
Main category: cs.CV
TL;DR: SyncMV4D是首个联合生成同步多视角手-物交互视频和4D运动的模型,通过统一视觉先验、运动动力学和多视角几何来克服现有方法的局限性。
- Motivation: 当前基于视频的方法主要是单视角的,阻碍了全面的3D几何感知,常导致几何失真或不真实的运动模式。而3D方法依赖实验室环境的高质量3D数据,难以泛化到真实场景。
- Method: 提出两个核心创新:(1)多视角联合扩散模型共同生成HOI视频和中间运动;(2)扩散点对齐器将粗略中间运动细化为全局对齐的4D度量点轨迹。建立2D外观与4D动力学的闭环相互增强循环。
- Result: 实验表明,该方法在视觉真实性、运动合理性和多视角一致性方面优于现有最先进方法。
- Conclusion: SyncMV4D通过统一2D视觉和4D动态信息,成功解决了多视角手-物交互生成的挑战,为动画和机器人应用提供了更全面的解决方案。
[301] SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation
Jiaming Zhang,Shengming Cao,Rui Li,Xiaotong Zhao,Yutao Cui,Xinglin Hou,Gangshan Wu,Haolan Chen,Yu Xu,Limin Wang,Kai Ma
Main category: cs.CV
TL;DR: SteadyDancer是一个基于图像到视频(I2V)范式的框架,通过条件协调机制、协同姿态调制模块和分阶段解耦目标训练,解决了人类图像动画中第一帧身份保持和精确运动控制的挑战。
- Motivation: 现有参考到视频(R2V)范式中的图像到运动绑定过程忽略了现实应用中常见的时空错位问题,导致身份漂移和视觉伪影等失败情况。
- Method: 1. 条件协调机制协调两个冲突条件;2. 协同姿态调制模块生成与参考图像高度兼容的自适应姿态表示;3. 分阶段解耦目标训练管道分层优化模型。
- Result: 实验表明SteadyDancer在外观保真度和运动控制方面达到最先进性能,且所需训练资源显著少于可比方法。
- Conclusion: SteadyDancer是首个能够稳健确保第一帧保持的框架,实现了协调连贯的动画效果。
[302] MonoMSK: Monocular 3D Musculoskeletal Dynamics Estimation
Farnoosh Koleini,Hongfei Xue,Ahmed Helmy,Pu Wang
Main category: cs.CV
TL;DR: MonoMSK是一个从单目视频重建生物力学真实3D人体运动的混合框架,通过结合数据驱动学习和物理模拟,同时恢复运动学和动力学参数。
- Motivation: 现有单目方法使用解剖学不准确的简化模型(如SMPL)且忽略物理约束,限制了生物力学保真度。需要开发能同时恢复运动学和动力学的生物力学真实方法。
- Method: 使用解剖学准确的肌肉骨骼模型,结合基于transformer的逆动力学与可微分前向运动学和动力学层,通过ODE模拟建立物理调节的逆-前向循环。
- Result: 在BML-MoVi、BEDLAM和OpenCap数据集上的实验表明,MonoMSK在运动学精度上显著优于现有方法,并首次实现了精确的单目动力学估计。
- Conclusion: MonoMSK成功建立了从单目视频重建生物力学真实人体运动的框架,通过物理约束显著提升了运动重建的准确性和物理合理性。
[303] POUR: A Provably Optimal Method for Unlearning Representations via Neural Collapse
Anjie Le,Can Peng,Yuyuan Liu,J. Alison Noble
Main category: cs.CV
TL;DR: 提出了POUR方法,通过几何投影在表示层面实现可证明最优的遗忘,在分类和表示层面指标上优于现有方法。
- Motivation: 现有机器学习遗忘方法通常只修改分类器而保留内部表示,导致不完全遗忘。需要将遗忘概念扩展到表示层面。
- Method: 基于神经崩溃理论,利用单纯形等角紧框架的正交投影特性,提出POUR方法,包括闭式投影(POUR-P)和蒸馏方案下的特征级遗忘(POUR-D)。
- Result: 在CIFAR-10/100和PathMNIST数据集上的实验表明,POUR在保持保留知识的同时实现了有效遗忘,在分类和表示层面指标上优于现有方法。
- Conclusion: 表示层面的遗忘对于实现完全遗忘至关重要,POUR方法提供了可证明最优的几何解决方案,在遗忘效果和知识保留之间取得了良好平衡。
[304] Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning
Qihan Huang,Haofei Zhang,Rong Wei,Yi Wang,Rui Tang,Mingli Song,Jie Song
Main category: cs.CV
TL;DR: 提出了Syn-GRPO方法,通过在线数据生成器合成高质量、多样化的训练数据,解决MLLM强化学习中数据质量低的问题。
- Motivation: 现有强化学习方法面临数据质量低的问题,样本无法激发MLLM的多样化响应,限制了探索范围。虽然有些方法尝试通过熵约束缓解,但未从根本上解决问题。
- Method: Syn-GRPO包含数据服务器和GRPO工作流两个组件。数据服务器使用图像生成模型从现有样本合成新样本,采用解耦异步方案实现高生成效率。GRPO工作流提供新的图像描述,并利用多样性奖励监督MLLM预测图像描述以合成多样化响应的样本。
- Result: 在三个视觉感知任务上的实验结果表明,Syn-GRPO大幅提高了数据质量,性能显著优于现有MLLM感知方法,并展现出长期自演化RL的良好潜力。
- Conclusion: Syn-GRPO通过在线数据合成有效解决了MLLM强化学习中的数据质量问题,为长期自演化强化学习提供了有前景的解决方案。
[305] CellFMCount: A Fluorescence Microscopy Dataset, Benchmark, and Methods for Cell Counting
Abdurahman Ali Mohammed,Catherine Fonder,Ying Wei,Wallapak Tavanapong,Donald S Sakaguchi,Qi Li,Surya K. Mallapragada
Main category: cs.CV
TL;DR: 提出了一个包含3,023张图像、超过430,000个手动标注细胞位置的大规模细胞计数数据集,并评估了现有方法,其中基于SAM的SAM-Counter方法在MAE指标上表现最佳。
- Motivation: 准确的细胞计数在生物医学研究和临床应用中至关重要,但手动计数耗时且易出错,现有数据集通常较小(少于500张图像),限制了深度学习模型的训练效果。
- Method: 创建大规模细胞计数数据集,评估回归方法、人群计数方法和细胞计数方法,并基于Segment Anything Model(SAM)开发了SAM-Counter方法。
- Result: SAM-Counter方法在测试集上达到22.12的MAE,优于其他方法(次优MAE为27.46),测试集细胞计数范围为10-2,126个细胞/图像。
- Conclusion: 该数据集和基准框架为自动化细胞计数的进展提供了价值,并为未来研究开发奠定了坚实基础。
[306] Growing with the Generator: Self-paced GRPO for Video Generation
Rui Li,Yuanzhi Liang,Ziqi Ni,Haibing Huang,Chi Zhang,Xuelong Li
Main category: cs.CV
TL;DR: 提出了Self-Paced GRPO方法,通过动态调整奖励机制来改善视频生成模型的强化学习对齐效果。
- Motivation: 现有的GRPO方法使用静态奖励模型,存在分布偏差、奖励饱和等问题,限制了强化学习对齐的稳定性和有效性。
- Method: 引入渐进式奖励机制,根据生成质量自动从粗粒度视觉保真度转向时间一致性和细粒度文本-视频语义对齐。
- Result: 在VBench基准测试中,多个视频生成骨干网络上都实现了视觉质量和语义对齐的持续改进。
- Conclusion: Self-Paced GRPO通过奖励与生成器的协同进化,有效缓解了奖励-策略不匹配问题,提高了优化稳定性。
[307] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
Zehong Ma,Longhui Wei,Shuai Wang,Shiliang Zhang,Qi Tian
Main category: cs.CV
TL;DR: 提出频率解耦像素扩散框架DeCo,通过分离高频细节和低频语义的生成,提升像素扩散模型的效率和性能
- Motivation: 现有像素扩散模型训练和推理速度慢,因为它们在单一扩散变换器中同时建模高频信号和低频语义
- Method: 使用轻量级像素解码器生成高频细节,让DiT专注于低频语义建模,并引入频率感知流匹配损失
- Result: 在ImageNet上达到FID 1.62(256x256)和2.22(512x512),文本到图像模型在GenEval上获得0.86的领先分数
- Conclusion: DeCo在像素扩散模型中达到领先性能,缩小了与潜在扩散方法的差距
[308] An Anatomy Aware Hybrid Deep Learning Framework for Lung Cancer Tumor Stage Classification
Saniah Kayenat Chowdhury,Rusab Sarmun,Muhammad E. H. Chowdhury,Sohaib Bassam Zoghoul,Israa Al-Hashimi,Adam Mushtak,Amith Khandakar
Main category: cs.CV
TL;DR: 提出了一种基于医学规则的混合方法进行肺癌分期,通过精确分割肿瘤和周围解剖结构,测量肿瘤尺寸和距离,然后应用规则进行分期,相比传统深度学习方法具有更好的性能和可解释性。
- Motivation: 传统端到端深度学习方法在肺癌分期中往往忽略空间和解剖信息,而这些信息对TNM分期系统至关重要。肿瘤分期依赖于多个定量标准,包括肿瘤大小和与邻近解剖结构的距离,小变化可能改变分期结果。
- Method: 使用专门的编码器-解码器网络精确分割肺、肺叶、肿瘤、纵隔和膈肌等解剖结构,然后从分割掩模中量化分析肿瘤的最大尺寸和与邻近结构的距离,最后应用基于医学指南的规则进行肿瘤分期。
- Result: 在Lung-PET-CT-Dx数据集上评估,总体分类准确率达91.36%,各阶段F1分数分别为:T1 0.93、T2 0.89、T3 0.96、T4 0.90,优于传统深度学习模型。
- Conclusion: 这是首个将明确临床背景嵌入肿瘤分期分类的研究,相比标准卷积神经网络的黑盒操作,该方法既提供了最先进的性能,又提供了透明的决策支持。
[309] UISearch: Graph-Based Embeddings for Multimodal Enterprise UI Screenshots Retrieval
Maroun Ayli,Youssef Bakouny,Tushar Sharma,Nader Jalloul,Hani Seifeddine,Rima Kilany
Main category: cs.CV
TL;DR: 提出了一种基于图结构的UI表示方法,将UI截图转换为编码层次关系和空间布局的属性图,通过对比图自编码器学习多级相似性嵌入,并在UISearch框架中实现高效的多模态搜索。
- Motivation: 企业软件公司维护数千个UI界面,面临设计一致性、模式发现和合规检查的挑战,现有方法缺乏对UI组成结构属性的显式建模。
- Method: 将UI截图转换为属性图表示,使用对比图自编码器学习视觉、结构和语义多级相似性的嵌入表示。
- Result: 在20,396个金融软件UI上,UISearch达到0.92的Top-5准确率,中位延迟47.5ms,可扩展到20,000+个界面。
- Conclusion: 结构嵌入比最先进的视觉编码器具有更好的区分能力,代表了UI表示表达能力的基本进步,支持细粒度UI区分和复杂查询。
[310] BackSplit: The Importance of Sub-dividing the Background in Biomedical Lesion Segmentation
Rachit Saluja,Asli Cihangir,Ruining Deng,Johannes C. Paetzold,Fengbei Liu,Mert R. Sabuncu
Main category: cs.CV
TL;DR: BackSplit方法通过细粒度背景标签划分来提升小病灶分割性能,无需增加推理成本
- Motivation: 传统病灶分割将所有非病灶像素归为单一背景类,忽略了丰富的解剖学上下文信息。背景实际上是高度异质的,包含各种组织、器官和其他结构
- Method: 提出BackSplit方法,将背景类细分为多个子类,使用精细标签进行训练。可以从预训练分割模型自动生成辅助标签,或使用交互式分割框架
- Result: 在多个数据集和架构上的实验表明,BackSplit能持续提升小病灶分割性能,即使辅助标签是自动生成的也有效
- Conclusion: BackSplit是一种简单而强大的范式,通过背景细粒度划分显著提升分割性能,具有鲁棒性、简单性和广泛适用性
[311] In-Video Instructions: Visual Signals as Generative Control
Gongfan Fang,Xinyin Ma,Xinchao Wang
Main category: cs.CV
TL;DR: 本文提出In-Video Instruction方法,通过在视频帧中嵌入视觉信号(如文字、箭头、轨迹)作为指令,实现可控的图像到视频生成,相比文本提示能提供更明确的空间感知控制。
- Motivation: 现有大规模视频生成模型具有强大的视觉能力,但文本提示控制存在全局性和粗糙性的局限。本文旨在探索如何利用视觉信号作为指令来实现更精确的空间感知控制。
- Method: 提出In-Video Instruction范式,将用户指导直接编码到视觉域中,通过覆盖文字、箭头或轨迹等元素,为不同对象分配明确的指令,建立视觉主体与预期动作之间的空间对应关系。
- Result: 在Veo 3.1、Kling 2.5和Wan 2.2三个最先进的生成器上进行广泛实验,结果表明视频模型能够可靠地解释和执行这种视觉嵌入指令,特别是在复杂的多对象场景中表现优异。
- Conclusion: 视频生成模型能够有效解释和执行视觉嵌入指令,In-Video Instruction方法为可控图像到视频生成提供了一种空间感知、明确对应的有效解决方案。
[312] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens
Yiming Qin,Bomin Wei,Jiaxin Ge,Konstantinos Kallidromitis,Stephanie Fu,Trevor Darrell,Xudong Wang
Main category: cs.CV
TL;DR: 提出了Chain-of-Visual-Thought (COVT)框架,让视觉语言模型不仅能在语言空间推理,还能通过连续视觉标记进行视觉推理,显著提升了感知理解能力。
- Motivation: 当前视觉语言模型在语言推理方面表现出色,但在需要密集视觉感知的任务(如空间推理和几何感知)上表现不佳,因为它们缺乏捕捉空间维度密集视觉信息的机制。
- Method: COVT框架通过约20个视觉标记从轻量级视觉专家中提取知识,编码2D外观、3D几何、空间布局和边缘结构等互补属性。模型自回归预测这些视觉标记来重建密集监督信号,在推理时直接在连续视觉标记空间进行推理。
- Result: 在超过十个不同的感知基准测试中,将COVT集成到Qwen2.5-VL和LLaVA等强VLM中,性能持续提升3%到16%,证明紧凑的连续视觉思维能够实现更精确、更基础和可解释的多模态智能。
- Conclusion: COVT框架通过引入连续视觉标记推理,有效解决了VLMs在密集视觉感知方面的局限性,为多模态智能提供了更精确、基础和可解释的推理能力。
[313] SAM3-Adapter: Efficient Adaptation of Segment Anything 3 for Camouflage Object Segmentation, Shadow Detection, and Medical Image Segmentation
Tianrun Chen,Runlong Cao,Xinda Yu,Lanyun Zhu,Chaotao Ding,Deyi Ji,Cheng Chen,Qi Zhu,Chunyan Xu,Papa Mao,Ying Zang
Main category: cs.CV
TL;DR: SAM3-Adapter是针对Segment Anything 3(SAM3)的首个适配器框架,通过减少计算开销并提升分割精度,在医疗影像、伪装物体分割和阴影检测等下游任务中取得了新的最优结果。
- Motivation: 解决前代SAM模型在细粒度、低层次分割任务(如伪装物体检测、医疗影像分割等)中的局限性,充分利用SAM3改进的架构和训练流程。
- Method: 基于原始SAM-Adapter的模块化设计理念,开发了专门针对SAM3的适配器框架,提供更强的泛化能力和任务适应性。
- Result: 在多个下游任务中超越了SAM和SAM2解决方案,建立了新的最优结果,表现出更高的准确性、鲁棒性和效率。
- Conclusion: SAM3-Adapter可以作为未来研究和实际分割应用的基础,代码、预训练模型和数据处理流程均已公开。
[314] Ref-SAM3D: Bridging SAM3D with Text for Reference 3D Reconstruction
Yun Zhou,Yaoting Wang,Guangquan Jie,Jinyu Liu,Henghui Ding
Main category: cs.CV
TL;DR: Ref-SAM3D在SAM3D基础上引入文本描述作为高级先验,实现从单张RGB图像的文本引导3D重建,解决了SAM3D无法根据文本描述重建特定对象的问题。
- Motivation: SAM3D具有强大的3D重建能力,但无法根据文本描述重建特定对象,这在3D编辑、游戏开发和虚拟环境等实际应用中至关重要。
- Method: 在SAM3D基础上引入文本描述作为高级先验,通过自然语言和单张2D视图指导3D重建。
- Result: Ref-SAM3D在零样本重建中展现出竞争力和高保真度,有效弥合了2D视觉线索与3D几何理解之间的差距。
- Conclusion: Ref-SAM3D为参考引导的3D重建提供了更灵活和可访问的范式。
[315] Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
Dingkang Liang,Cheng Zhang,Xiaopeng Xu,Jianzhong Ju,Zhenbo Luo,Xiang Bai
Main category: cs.CV
TL;DR: 提出了ORS3D任务,结合语言理解、3D空间定位和效率优化,构建了60K数据集ORS3D-60K,并开发了GRANT模型进行高效任务调度和动作生成。
- Motivation: 现有数据集在任务规划中忽略了运筹学知识和3D空间定位,需要开发能够协同语言理解、3D定位和效率优化的新任务。
- Method: 构建ORS3D-60K大规模数据集,提出GRANT多模态大语言模型,采用调度令牌机制生成高效任务调度和接地动作。
- Result: 在ORS3D-60K上的广泛实验验证了GRANT在语言理解、3D定位和调度效率方面的有效性。
- Conclusion: ORS3D任务和GRANT模型为具身AI中的任务调度提供了新的解决方案,实现了语言理解、3D定位和效率优化的协同。
[316] Cloud4D
Jacob Lin,Edward Gryspeerdt,Ronald Clark
Main category: cs.CV
TL;DR: Cloud4D是一个基于学习的框架,使用同步地面相机重建物理一致的4维云状态,实现25米空间分辨率和5秒时间分辨率的3D液态水含量分布估计,并额外估算水平风矢量。
- Motivation: 现有全球数值天气预报和气候模型通常在公里尺度运行,难以模拟单个云层和极端天气现象,需要更高分辨率模型,但当前仪器难以获取高分辨率真实观测数据。
- Method: 利用同形引导的2D到3D变换器,仅使用同步地面相机重建4维云状态,通过追踪3D液态水含量反演来估计水平风矢量。
- Result: 在包含6个向上拍摄相机的两个月部署中,系统相比最先进的卫星测量实现了数量级的时空分辨率提升,同时相对于共置雷达测量保持个位数相对误差(<10%)。
- Conclusion: Cloud4D框架能够以高时空分辨率重建物理一致的4维云状态,为高分辨率天气和气候建模提供了新的观测能力。
[317] Breaking the Likelihood-Quality Trade-off in Diffusion Models by Merging Pretrained Experts
Yasin Esfandiari,Stefan Bauer,Sebastian U. Stich,Andrea Dittadi
Main category: cs.CV
TL;DR: 提出一种即插即用的采样方法,通过在高噪声水平使用图像质量专家,在低噪声水平切换为似然专家,来打破扩散模型中似然与图像质量之间的权衡。
- Motivation: 扩散模型在图像生成中存在感知样本质量与数据似然之间的权衡:强调高噪声去噪步骤的训练目标能产生真实图像但似然较差,而强调似然的训练会过度加权低噪声步骤并损害视觉保真度。
- Method: 结合两个预训练扩散专家,沿着去噪轨迹在它们之间切换:在高噪声水平应用图像质量专家来塑造全局结构,然后在低噪声水平切换到似然专家来细化像素统计。该方法无需重新训练或微调,只需要选择中间切换步骤。
- Result: 在CIFAR-10和ImageNet32上,合并模型始终匹配或优于其基础组件,相对于每个单独专家,改善或保持了似然和样本质量。
- Conclusion: 在噪声水平之间进行专家切换是打破图像扩散模型中似然-质量权衡的有效方法。
[318] Are Image-to-Video Models Good Zero-Shot Image Editors?
Zechuan Zhang,Zhenyuan Chen,Zongxin Yang,Yi Yang
Main category: cs.CV
TL;DR: IF-Edit是一个无需调优的框架,利用预训练的图像到视频扩散模型进行指令驱动的图像编辑,解决了提示不对齐、冗余时间潜在变量和模糊后期帧三个关键挑战。
- Motivation: 大规模视频扩散模型展现出强大的世界模拟和时间推理能力,但作为零样本图像编辑器的应用尚未充分探索。
- Method: 包含三个核心组件:(1)思维链提示增强模块,将静态编辑指令转换为时间基础推理提示;(2)时间潜在变量丢弃策略,在专家切换点后压缩帧潜在变量;(3)自一致后细化步骤,使用短静止视频轨迹锐化后期帧。
- Result: 在四个公共基准测试上的实验表明,IF-Edit在推理中心任务上表现强劲,同时在通用编辑任务上保持竞争力。
- Conclusion: 该研究为视频扩散模型作为图像编辑器提供了系统视角,并展示了统一视频-图像生成推理的简单方法。
[319] VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection
Qiang Wang,Xinyuan Gao,SongLin Dong,Jizhou Han,Jiangyang Li,Yuhang He,Yihong Gong
Main category: cs.CV
TL;DR: VDC-Agent是一个自演进的视频详细描述框架,无需人工标注或大型教师模型。通过生成-评分-优化的闭环过程自动构建训练数据,在VDC基准测试中达到最先进性能。
- Motivation: 解决视频详细描述任务中依赖人工标注和大型教师模型的问题,开发无需外部监督的自演进框架。
- Method: 构建闭环系统:视频描述生成→基于原则的评分(分数和文本建议)→提示优化。当质量下降时启用自反思路径修正。将轨迹转换为偏好元组,使用易到难课程直接偏好优化进行微调。
- Result: 在VDC基准测试中达到49.08%平均准确率和2.50分数,超越专用视频描述器,相比基础模型提升+5.13%准确率和+0.27分数,推理成本相近。
- Conclusion: VDC-Agent证明了自演进框架在视频详细描述任务中的有效性,能够在不依赖外部监督的情况下实现最先进性能。
[320] LumiTex: Towards High-Fidelity PBR Texture Generation with Illumination Context
Jingzhi Bao,Hongze Chen,Lingting Zhu,Chenyu Liu,Runze Zhang,Keyang Luo,Zeyu Hu,Weikai Chen,Yingda Yin,Xin Wang,Zehong Lin,Jun Zhang,Xiaoguang Han
Main category: cs.CV
TL;DR: LumiTex是一个端到端的PBR纹理生成框架,通过多分支生成方案、光照感知材料注意力机制和几何引导修复模块,解决了材料分解和纹理补全的挑战。
- Motivation: 现有PBR纹理生成方法无法解决两个基本挑战:1)在有限光照线索下从图像提示进行材料分解;2)无缝且视角一致的纹理补全。
- Method: 包含三个关键组件:多分支生成方案解耦反照率和金属粗糙度;光照感知材料注意力机制注入光照上下文;基于大视角合成模型的几何引导修复模块。
- Result: 大量实验表明LumiTex在纹理质量方面达到最先进性能,超越了现有的开源和商业方法。
- Conclusion: LumiTex通过创新的多组件框架成功解决了PBR纹理生成中的材料分解和纹理补全问题,实现了高质量的纹理生成。
cs.GR
[321] Inverse Rendering for High-Genus Surface Meshes from Multi-View Images
Xiang Gao,Xinmu Wang,Xiaolong Wu,Jiazhi Li,Jingyu Shi,Yu Guo,Yuanpeng Liu,Xiyun Song,Heather Yu,Zongfang Lin,Xianfeng David Gu
Main category: cs.GR
TL;DR: 提出了一种基于拓扑信息的逆渲染方法,用于从多视角图像重建高亏格表面网格,通过自适应V循环重网格化方案和重新参数化的Adam优化器,解决了现有方法在高亏格表面拓扑特征丢失和低亏格表面细节过度平滑的问题。
- Motivation: 现有的逆渲染方法在处理高亏格表面时经常失败,导致关键拓扑特征丢失,并且在低亏格表面过度平滑,丢失表面细节。这些问题源于对Adam优化器的过度依赖,可能导致梯度消失和爆炸。
- Method: 引入自适应V循环重网格化方案结合重新参数化的Adam优化器,通过周期性粗化和细化变形网格,在优化前告知网格顶点当前拓扑和几何信息。同时使用高斯-博内定理构建与真实拓扑一致的拓扑基元。
- Result: 实验结果表明,该方法在倒角距离和体积交并比方面优于当前最先进方法,特别是在高亏格表面有显著改进,同时增强了低亏格表面的细节。
- Conclusion: 所提出的逆渲染方法通过增强拓扑和几何感知能力,有效解决了高亏格表面重建中的挑战,在保持关键拓扑特征的同时提升了表面细节质量。
[322] ChronoGS: Disentangling Invariants and Changes in Multi-Period Scenes
Zhongtao Wang,Jiaqi Dai,Qingtian Zhu,Yilong Li,Mai Su,Fei Zhu,Meng Gai,Shaorong Wang,Chengwei Pan,Yisong Chen,Guoping Wang
Main category: cs.GR
TL;DR: ChronoGS是一个时间调制的高斯表示方法,用于重建多时期场景,在统一锚点支架内重建所有时期,并分离稳定和演化组件,实现时间一致的重建。
- Motivation: 多时期图像集合在现实应用中很常见,但现有方法无法处理长期、不连续的变化。静态方法强制单一几何,动态方法假设平滑运动,两者在长期变化场景中都失败。
- Method: 引入时间调制的高斯表示(ChronoGS),在统一锚点支架内重建所有时期,设计用于分离稳定和演化组件。
- Result: 实验表明ChronoGS在重建质量和时间一致性方面始终优于基线方法。发布了ChronoScene数据集作为基准。
- Conclusion: ChronoGS成功解决了多时期场景重建问题,提供了时间一致的重建,相关代码和数据集已公开。
[323] MatMart: Material Reconstruction of 3D Objects via Diffusion
Xiuchao Wu,Pengfei Zhu,Jiangjing Lyu,Xinguo Liu,Jie Guo,Yanwen Guo,Weiwei Xu,Chengfei Lyu
Main category: cs.GR
TL;DR: 提出了一种名为ttt的新型材料重建框架,用于3D物体的基于物理的材料估计和生成,通过两阶段重建和端到端优化实现高保真结果。
- Motivation: 将扩散模型应用于基于物理的材料估计和生成是当前的研究热点,需要解决从任意数量输入图像进行材料重建的挑战。
- Method: 采用两阶段重建:首先从输入图像进行准确的材料预测,然后通过先验引导的材料生成处理未观察视角;使用渐进推理和视图-材料交叉注意力机制;通过单一扩散模型的端到端优化实现材料预测和生成。
- Result: 在材料重建方面相比现有方法实现了优越性能,展示了强大的可扩展性和灵活性,能够在各种类型物体上保持稳定性。
- Conclusion: ttt框架在3D物体材料重建方面表现出色,无需依赖额外预训练模型,通过创新的两阶段重建和端到端优化实现了高质量的材料估计和生成。
cs.LG
[324] BOOD: Boundary-based Out-Of-Distribution Data Generation
Qilin Liao,Shuo Yang,Bo Zhao,Ping Luo,Hengshuang Zhao
Main category: cs.LG
TL;DR: 提出BOOD框架,通过扩散模型在潜在空间中合成高质量OOD特征并生成人类可理解的异常图像,显著提升OOD检测性能
- Motivation: 现有方法难以在潜在空间中提取ID边界外的有效特征,因为难以识别类间决策边界
- Method: 首先从ID数据集中学习文本条件潜在特征空间,选择最接近决策边界的ID特征,扰动使其跨越决策边界形成OOD特征,然后通过扩散模型解码为像素空间图像
- Result: 在CIFAR-100数据集上,FPR95平均降低29.64%(40.31% vs 10.67%),AUROC平均提升7.27%(90.15% vs 97.42%),显著超越现有最优方法
- Conclusion: BOOD提供了一种更训练高效的策略来合成信息丰富的OOD特征,有助于更清晰地区分ID和OOD数据
[325] Saving Foundation Flow-Matching Priors for Inverse Problems
Yuxiang Wan,Ryan Devera,Wenjie Zhang,Ju Sun
Main category: cs.LG
TL;DR: FMPlug是一个插件框架,通过实例引导的时间相关热启动策略和高斯性正则化,显著提升了基础流匹配模型在逆问题中的性能。
- Motivation: 基础流匹配模型在逆问题中表现不如领域特定或无训练先验,需要解锁其潜力。
- Method: 结合实例引导的时间相关热启动策略和锐利高斯性正则化,在保持高斯结构的同时添加问题特定指导。
- Result: 在图像恢复和科学逆问题中实现了显著的性能提升。
- Conclusion: 为将基础流匹配模型打造成实用的可重用逆问题先验提供了一条路径。
[326] Classification of Transient Astronomical Object Light Curves Using LSTM Neural Networks
Guilherme Grancho D. Fernandes,Marco A. Barroca,Mateus dos Santos,Rafael S. Oliveira
Main category: cs.LG
TL;DR: 使用双向LSTM神经网络对PLAsTiCC数据集中的瞬变天体光变曲线进行分类,将14个原始类别重组为5个广义类别以解决类别不平衡问题。模型在S-Like和Periodic类别上表现良好,但在Fast和Long类别上性能较差,且难以区分Periodic和Non-Periodic对象。
- Motivation: 解决瞬变天体光变曲线分类中的类别不平衡问题,并评估双向LSTM模型在天文时间序列分类任务中的性能。
- Method: 使用双向LSTM神经网络,通过填充、时间重缩放和通量归一化进行预处理,在重组后的5个类别(S-Like、Fast、Long、Periodic、Non-Periodic)上进行训练和评估。
- Result: 模型在S-Like和Periodic类别上表现优异(ROC AUC分别为0.95和0.99),但在Fast和Long类别上性能显著下降(Long类ROC AUC为0.68)。在部分光变曲线数据上性能大幅下降,误分类偏向S-Like类。
- Conclusion: 类别不平衡和有限的时间信息是主要限制因素,建议采用类别平衡策略和专注于检测时刻的预处理技术来提高性能。
[327] EgoCogNav: Cognition-aware Human Egocentric Navigation
Zhiwen Qiu,Ziang Liu,Wenqian Niu,Tapomayukh Bhattacharjee,Saleh Kalantari
Main category: cs.LG
TL;DR: EgoCogNav是一个多模态自我中心导航框架,通过预测感知路径不确定性作为潜在状态,融合场景特征和感官线索来联合预测轨迹和头部运动。
- Motivation: 现有方法主要关注完全观察场景中的运动预测,往往忽略人类因素,即人们如何感受和响应空间。
- Method: 提出EgoCogNav框架,预测感知路径不确定性作为潜在状态,融合场景特征与感官线索来联合预测轨迹和头部运动。同时构建了CEN数据集,包含6小时真实世界自我中心记录。
- Result: 实验表明EgoCogNav学习的感知不确定性与人类行为(如扫描、犹豫、回溯)高度相关,并能泛化到未见环境。
- Conclusion: 该工作为理解人类-环境交互和实现安全社交导航、有效辅助寻路提供了重要基础。
[328] Learning Straight Flows: Variational Flow Matching for Efficient Generation
Chenrui Ma,Xi Xiao,Tianyang Wang,Xiao Wang,Yanning Shen
Main category: cs.LG
TL;DR: 提出S-VFM方法,通过引入变分潜码来强制轨迹直线化,解决Flow Matching中一步生成能力受限的问题。
- Motivation: Flow Matching依赖学习的弯曲轨迹,难以实现一步生成。现有方法存在离散近似误差、训练不稳定和收敛困难等问题。
- Method: 在Flow Matching框架中集成变分潜码表示"生成概览",显式强制轨迹直线化,产生线性生成路径。
- Result: 在三个挑战基准测试中取得竞争性性能,在训练和推理效率上优于现有方法。
- Conclusion: S-VFM通过变分潜码成功实现了直线轨迹学习,提升了Flow Matching的效率和性能。
[329] PaSE: Prototype-aligned Calibration and Shapley-based Equilibrium for Multimodal Sentiment Analysis
Kang He,Boyu Chen,Yuzhe Ding,Fei Li,Chong Teng,Donghong Ji
Main category: cs.LG
TL;DR: PaSE框架通过原型对齐校准和Shapley优化均衡来解决多模态情感分析中的模态竞争问题,提升模态间协作性能
- Motivation: 多模态融合旨在利用跨模态互补性,但现实场景中常出现模态竞争问题,主导模态会压制较弱模态,导致性能不佳
- Method: 提出PaSE框架:1)原型引导校准学习(PCL)通过熵最优传输机制精炼单模态表示并确保语义一致性;2)双阶段优化策略:原型门控融合模块提取共享表示,Shapley梯度调制(SGM)根据模态贡献自适应调整梯度
- Result: 在IEMOCAP、MOSI和MOSEI数据集上的广泛实验证实PaSE实现了优越性能,并有效缓解了模态竞争问题
- Conclusion: PaSE框架通过原型对齐和Shapley优化有效增强了多模态协作,同时明确缓解了模态竞争,在多模态情感分析中表现出色
[330] CubeletWorld: A New Abstraction for Scalable 3D Modeling
Azlaan Mustafa Samad,Hoang H. Nguyen,Lukas Berg,Henrik Müller,Yuan Xue,Daniel Kudenko,Zahra Ahmadi
Main category: cs.LG
TL;DR: CubeletWorld是一个新颖的城市环境建模框架,通过离散化的3D网格单元(cubelets)来表示和分析城市环境,支持隐私保护的规划、导航和占用预测任务。
- Motivation: 现代城市产生大量异构数据,但将这些数据整合成连贯的空间模型用于规划和预测仍然是一个重大挑战。现有的基于智能体的方法通常依赖直接环境感知,限制了可扩展性并引发隐私问题。
- Method: 提出CubeletWorld框架,将城市环境离散化为3D网格单元(cubelets),将基础设施、移动和环境指标等多样化数据信号嵌入到局部化的cubelet状态中。
- Result: 开发了CubeletWorld状态预测任务,使用包含街道和建筑等城市元素的真实数据集进行评估。结果表明该框架为从复杂城市数据中学习提供了灵活可扩展的解决方案。
- Conclusion: CubeletWorld提供了一个灵活可扩展的框架,用于从复杂城市数据中学习,为人口统计建模、环境监测和应急响应等领域的可扩展模拟和决策支持开辟了新可能性。
[331] DeepCoT: Deep Continual Transformers for Real-Time Inference on Data Streams
Ginés Carreto Picón,Peng Yuan Zhou,Qi Zhang,Alexandros Iosifidis
Main category: cs.LG
TL;DR: 提出了DeepCoT,一种无冗余的仅编码器模型,可在现有深度编码器架构上应用,显著减少流数据推理中的计算冗余。
- Motivation: Transformer模型规模不断增大,但在资源受限设备上需要低延迟推理。流数据推理在滑动时间窗口上存在高度冗余计算,现有Continual Transformers仅适用于浅层模型,限制了其应用范围。
- Method: 提出DeepCoT模型,这是一种无冗余的仅编码器架构,可在现有深度编码器架构上以最小改动实现,消除流数据推理中的计算冗余。
- Result: 在音频、视频和文本流上的实验表明,DeepCoT在保持与非持续基线相当性能的同时,为所有Transformer层提供线性计算成本,运行时间相比先前高效模型减少高达两个数量级。
- Conclusion: DeepCoT成功解决了深度Transformer模型在流数据推理中的计算冗余问题,实现了高效的低延迟推理。
[332] pFedBBN: A Personalized Federated Test-Time Adaptation with Balanced Batch Normalization for Class-Imbalanced Data
Md Akil Raihan Iftee,Syed Md. Ahnaf Hasan,Mir Sazzat Hossain,Rakibul Hasan Rajib,Amin Ahsan Ali,AKM Mahbubur Rahman,Sajib Mistry,Monowar Bhuyan
Main category: cs.LG
TL;DR: 提出了pFedBBN,一种个性化联邦测试时适应框架,通过平衡批归一化解决联邦学习中类别不平衡问题,支持完全无监督的本地适应和基于BBN相似度的客户端协作。
- Motivation: 联邦学习中的测试时适应面临类别不平衡挑战,关键类别在单个客户端数据集中代表性严重不足。现有方法依赖标记数据或客户端协调,无法在联邦类别不平衡约束下处理动态领域或分布偏移。
- Method: 使用平衡批归一化在本地客户端适应中平等对待所有类别以减少预测偏差,通过BBN相似度引导客户端协作,采用类别感知模型聚合策略实现个性化推理。
- Result: 在多样化基线的广泛实验中,pFedBBN相比最先进的联邦学习和测试时适应方法,持续提升了鲁棒性和少数类别性能。
- Conclusion: pFedBBN通过平衡特征归一化和领域感知协作,解决了分布偏移和类别不平衡问题,无需客户端的任何标记或原始数据。
[333] Coherent Multi-Agent Trajectory Forecasting in Team Sports with CausalTraj
Wei Zhen Teoh
Main category: cs.LG
TL;DR: 提出了CausalTraj模型,用于联合预测多个交互智能体的轨迹,强调联合度量而非传统独立智能体度量,在体育分析数据集上表现优异。
- Motivation: 现有模型主要基于独立智能体精度指标进行评估,忽略了预测轨迹能否共同形成合理的多智能体未来场景,导致在联合预测和生成连贯多智能体场景方面表现不佳。
- Method: 提出了CausalTraj,一个基于时间因果关系的似然模型,专门用于生成联合概率的多智能体轨迹预测。
- Result: 在NBA SportVU、Basketball-U和Football-U数据集上,CausalTraj在独立智能体精度上具有竞争力,在联合度量上取得了最佳记录结果,并生成了定性连贯和真实的游戏演化。
- Conclusion: CausalTraj模型能够有效生成联合概率的多智能体轨迹预测,在联合度量上表现优异,为体育分析提供了更真实的模拟和战略理解。
[334] From Tables to Signals: Revealing Spectral Adaptivity in TabPFN
Jianqiao Zheng,Cameron Gordon,Yiping Ji,Hemanth Saratchandran,Simon Lucey
Main category: cs.LG
TL;DR: 本文通过信号重构的视角分析TabPFN,发现其具有比标准ReLU-MLP更宽的频率容量和光谱适应性,无需超参数调整即可实现训练自由的图像去噪。
- Motivation: 理解任务无关表格基础模型(如TabPFN)的归纳偏差来源,这些模型在表格学习任务中表现出色但其内在机制尚不清楚。
- Method: 通过信号重构和频率分析研究TabPFN的上下文学习行为,分析其光谱容量和位置编码对频率响应的影响。
- Result: 发现TabPFN具有比标准ReLU-MLP更宽的有效频率容量,其光谱容量能根据上下文样本数量自适应调整,位置编码能调节其频率响应。
- Conclusion: TabPFN具有作为任务无关隐式模型的潜力,其光谱适应性特性使其能够执行无需训练和超参数调整的图像去噪任务。
[335] TRIDENT: A Trimodal Cascade Generative Framework for Drug and RNA-Conditioned Cellular Morphology Synthesis
Rui Peng,Ziru Liu,Lingyuan Ye,Yuxing Lu,Boxin Shi,Jinzhuo Wang
Main category: cs.LG
TL;DR: TRIDENT是一个级联生成框架,通过结合扰动和相应基因表达谱来合成真实的细胞形态,显著优于现有方法,在未见化合物上表现出强大泛化能力。
- Motivation: 现有方法通常局限于建模直接关联(如扰动→RNA或扰动→形态),而忽略了RNA到形态的关键因果联系,这对于构建AI虚拟细胞至关重要。
- Method: 提出TRIDENT级联生成框架,构建MorphoGene数据集(包含98种化合物的L1000基因表达和Cell Painting图像配对),通过RNA条件化来合成细胞形态。
- Result: TRIDENT显著优于最先进方法,实现高达7倍的改进,在未见化合物上表现出强泛化能力;案例研究验证了RNA引导合成能准确产生相应表型。
- Conclusion: 通过显式建模转录组-表型组映射,TRIDENT提供了一个强大的计算机模拟工具,使我们更接近预测性虚拟细胞。
[336] Auxiliary Gene Learning: Spatial Gene Expression Estimation by Auxiliary Gene Selection
Kaito Shiku,Kazuya Nishimura,Shinnosuke Matsuo,Yasuhiro Kojima,Ryoma Bise
Main category: cs.LG
TL;DR: 提出AGL方法,通过将忽略基因的表达估计重新表述为辅助任务并与主要任务联合训练,利用被忽略基因的潜在价值。为解决辅助基因选择难题,提出DkGSB方法,利用先验知识对基因排序,将组合选择问题转化为可微分的top-k选择问题。
- Motivation: 空间转录组学(ST)技术能在病理组织中观察单个点的基因表达,但测量过程中常引入严重观测噪声。以往研究只使用高变异基因子集进行训练和评估,忽略了低表达基因。然而基因间可能存在共表达关系,低表达基因仍可能对评估目标有贡献。
- Method: 提出辅助基因学习(AGL)框架,将忽略基因的表达估计作为辅助任务与主要任务联合训练。为解决辅助基因选择难题,提出基于先验知识的可微分top-k基因选择方法(DkGSB),通过双层优化将组合选择问题转化为可微分问题。
- Result: 实验证实了整合辅助基因的有效性,表明所提方法优于传统的辅助任务学习方法。
- Conclusion: 通过AGL框架和DkGSB选择方法,能够有效利用被忽略基因的潜在价值,提升空间转录组学数据分析的性能。
[337] Categorical Equivariant Deep Learning: Category-Equivariant Neural Networks and Universal Approximation Theorems
Yoshihiro Maruyama
Main category: cs.LG
TL;DR: 本文提出了类别等变神经网络(CENNs)的统一理论,将群/群胚等变网络、偏序集/格等变网络、图和层神经网络统一起来,证明了等变通用逼近定理,并将框架实例化到群/群胚、偏序集/格、图和胞腔层等结构。
- Motivation: 扩展等变深度学习的研究范围,超越群作用,涵盖几何对称性以及上下文和组合对称性,为不同数学结构提供统一的等变神经网络理论框架。
- Method: 在具有Radon测度的拓扑类别中制定等变性作为自然性,在分类设置中制定线性和非线性层,开发类别等变神经网络(CENNs)理论。
- Result: 证明了在一般设置下的等变通用逼近定理:有限深度CENNs类在连续等变变换空间中稠密,并将框架成功实例化到多种数学结构。
- Conclusion: 分类等变深度学习使我们能够超越群作用扩展等变深度学习的视野,不仅包含几何对称性,还包含上下文和组合对称性。
[338] Radiation-Preserving Selective Imaging for Pediatric Hip Dysplasia: A Cross-Modal Ultrasound-Xray Policy with Limited Labels
Duncan Stothers,Ben Stothers,Emily Schaeffer,Kishore Mulpuri
Main category: cs.LG
TL;DR: 开发了一种超声优先的DDH诊断策略,通过自监督预训练和校准延迟规则,仅在必要时才进行X光检查,实现了有限样本覆盖保证。
- Motivation: 减少发育性髋关节发育不良(DDH)诊断中的辐射暴露,通过超声优先策略仅在需要时才进行X光检查,同时保证诊断准确性。
- Method: 使用SimSiam在大型未标记数据集上预训练模态特定编码器,冻结主干并训练小型的测量忠实头部,应用单侧保形延迟规则进行校准。
- Result: 超声测量误差适中(alpha MAE约9.7度,覆盖率MAE约14.0%),X光探头AI和CE的MAE分别为7.6度和8.9度,校准后的超声策略在不同设置下实现可调的选择性成像。
- Conclusion: 构建了一个简单可复现的流程,将有限标签转化为可解释的测量结果和可调的选择性成像曲线,适合临床应用和未来外部验证。
[339] SloMo-Fast: Slow-Momentum and Fast-Adaptive Teachers for Source-Free Continual Test-Time Adaptation
Md Akil Raihan Iftee,Mir Sazzat Hossain,Rakibul Hasan Rajib,Tariq Iqbal,Md Mofijul Islam,M Ashraful Amin,Amin Ahsan Ali,AKM Mahbubur Rahman
Main category: cs.LG
TL;DR: 提出SloMo-Fast框架,一种无需源数据的双教师持续测试时适应方法,解决长期遗忘问题,在循环域变化场景中表现优异。
- Motivation: 现有CTTA方法依赖源数据或原型,在隐私敏感和资源受限环境中适用性受限,且存在长期遗忘问题,导致在先前域上的性能下降。
- Method: 设计双教师框架:Slow-Teacher缓慢遗忘,保留长期知识;Fast-Teacher快速适应新域并整合知识。还提出Cyclic-TTA基准测试循环域变化。
- Result: 在Cyclic-TTA和其他10个CTTA设置中,SloMo-Fast始终优于最先进方法,展示了对演变和重复域的适应和泛化能力。
- Conclusion: SloMo-Fast框架有效解决了CTTA中的长期遗忘问题,在无需源数据的情况下实现了对演变和重复域的良好适应和泛化。
[340] TimePre: Bridging Accuracy, Efficiency, and Stability in Probabilistic Time-Series Forecasting
Lingyu Jiang,Lingyu Xu,Peiran Li,Qianwen Ge,Dingyi Zhuang,Shuo Xing,Wenjing Chen,Xiangbo Gao,Ting-Hsuan Chen,Xueying Zhan,Xin Zhang,Ziming Zhang,Zhengzhong Tu,Michael Zielewski,Kazunori Yamada,Fangzhou Lin
Main category: cs.LG
TL;DR: TimePre是一个新颖的概率时间序列预测框架,通过稳定实例归一化(SIN)解决MLP骨干网络与多选择学习(MCL)结合时的训练不稳定和假设崩溃问题,实现了高效准确的概率预测。
- Motivation: 现有的概率时间序列预测方法存在计算效率问题:基于扩散的方法需要昂贵的迭代采样,而非采样框架如MCL虽然高效但存在严重的训练不稳定性和假设崩溃问题,特别是在与高效的MLP骨干网络结合时问题更加严重。
- Method: 提出TimePre框架,核心是稳定实例归一化(SIN)层,通过纠正通道级统计偏移来稳定混合架构,彻底解决灾难性的假设崩溃问题,成功将MLP模型的效率与MCL范式的分布灵活性相结合。
- Result: 在六个基准数据集上的广泛实验表明,TimePre在关键概率指标上达到了新的最先进精度,推理速度比基于采样的模型快几个数量级,并且表现出稳定的性能扩展。
- Conclusion: TimePre弥合了概率预测中准确性、效率和稳定性之间的长期差距,为不确定性感知决策提供了高效可靠的解决方案。
[341] Deterministic Continuous Replacement: Fast and Stable Module Replacement in Pretrained Transformers
Rowan Bradbury,Aniket Srinivasan Ashok,Sai Ram Kasanagottu,Gunmay Jhingran,Shuai Meng
Main category: cs.LG
TL;DR: 提出确定性连续替换(DCR)方法,通过确定性退火权重混合教师和学生输出,解决预训练模型中模块替换时的优化稳定性问题。
- Motivation: 替换预训练模型中的模块(特别是用高效注意力替代二次自注意力)存在硬优化问题:冷启动重新初始化会破坏冻结骨干网络的稳定性。
- Method: 确定性连续替换(DCR)方法,使用确定性退火权重混合教师和学生输出,理论上消除了随机替换中固有的门控梯度方差。
- Result: 在单种子研究中,DCR在受控注意力替换任务上比随机门控和蒸馏基线实现更快收敛和更强对齐。
- Conclusion: DCR为异构算子交换建立了基础,解决了模块替换中的稳定性挑战。
[342] VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking
Kichang Yang,Seonjun Kim,Minjae Kim,Nairan Zhang,Chi Zhang,Youngki Lee
Main category: cs.LG
TL;DR: 提出了Neuron Chunking方法,通过将神经元重要性评估与存储访问成本相结合,优化边缘设备上大型视觉语言模型的权重卸载效率。
- Motivation: 传统的激活稀疏化方法仅基于激活幅度选择神经元,忽略了访问模式对闪存性能的影响,导致I/O效率低下。
- Method: Neuron Chunking在内存中的连续神经元组(块)上操作,通过轻量级访问连续性抽象建模I/O延迟,选择具有高效用(神经元重要性除以估计延迟)的块。
- Result: 在Jetson Orin Nano和Jetson AGX Orin上分别实现了4.65倍和5.76倍的I/O效率提升。
- Conclusion: 通过将稀疏化决策与底层存储行为对齐,Neuron Chunking显著提高了边缘设备上大型视觉语言模型的I/O效率。
[343] GRIT-LP: Graph Transformer with Long-Range Skip Connection and Partitioned Spatial Graphs for Accurate Ice Layer Thickness Prediction
Zesheng Liu,Maryam Rahnemoonfar
Main category: cs.LG
TL;DR: GRIT-LP是一种专门用于极地雷达图像冰层厚度估计的图变换器,通过分区空间图构建和长程跳跃连接机制,在RMSE上比现有方法提升24.92%。
- Motivation: 准确估计冰层厚度对于理解积雪积累、重建过去气候模式以及减少未来冰盖演化和海平面上升预测的不确定性至关重要。
- Method: 结合归纳几何图学习框架与自注意力机制,采用分区空间图构建策略形成重叠的完全连接局部邻域,并在变换器中引入长程跳跃连接机制。
- Result: 在根均方误差上比当前最先进方法提升24.92%,显著优于现有方法。
- Conclusion: 图变换器通过捕捉局部结构特征和长程依赖关系,在建模时空模式方面表现出色,有望推动数据驱动的冰冻圈过程理解。
[344] Sampling Control for Imbalanced Calibration in Semi-Supervised Learning
Senmao Tian,Xiang Wei,Shunli Zhang
Main category: cs.LG
TL;DR: SC-SSL是一个统一的半监督学习框架,通过解耦采样控制来抑制类别不平衡导致的模型偏差,在训练和推理阶段分别处理特征级和权重不平衡问题。
- Motivation: 解决半监督学习中类别不平衡问题,特别是当标记和未标记数据存在分布不匹配时,现有方法通常以粗粒度方式处理模型不平衡,混淆了数据不平衡与类别特定学习难度导致的偏差。
- Method: 提出SC-SSL框架:1)训练阶段识别关键采样控制变量,引入具有显式扩展能力的分类器,自适应调整不同数据分布的采样概率;2)推理阶段分析线性分类器的权重不平衡,应用后处理采样控制通过优化偏置向量直接校准logits。
- Result: 在多个基准数据集和不同分布设置下的广泛实验验证了SC-SSL的一致性和最先进性能。
- Conclusion: SC-SSL通过解耦采样控制有效抑制了半监督学习中的模型偏差,在类别不平衡场景下表现出优越性能。
[345] Robust and Generalizable GNN Fine-Tuning via Uncertainty-aware Adapter Learning
Bo Jiang,Weijun Zhao,Beibei Wang,Xiao Wang,Jin Tang
Main category: cs.LG
TL;DR: 提出了UAdapterGNN方法,通过将不确定性学习集成到GNN适配器中,增强预训练GNN模型对噪声图数据的鲁棒性和泛化能力。
- Motivation: 现有的AdapterGNN方法容易受到图数据中噪声(如噪声边和模糊节点属性)的影响,泛化能力有限,需要增强GNN微调的鲁棒性。
- Method: 使用高斯概率适配器来增强预训练GNN模型,当图包含各种噪声时,方法能自动吸收高斯分布方差变化的影响。
- Result: 在多个基准测试上的广泛实验证明了UAdapterGNN方法的有效性、鲁棒性和高泛化能力。
- Conclusion: 通过集成不确定性学习到GNN适配器中,可以有效解决图数据噪声问题,显著增强模型的鲁棒性和泛化能力。
[346] AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention
Lei Xiao,Jifeng Li,Juntao Gao,Feiyang Ye,Yan Jin,Jingjing Qian,Jing Zhang,Yong Wu,Xiaoyuan Yu
Main category: cs.LG
TL;DR: AVA-VLA是一个基于POMDP的视觉-语言-动作框架,通过主动视觉注意力机制动态处理视觉标记,在机器人任务中实现了最先进的性能。
- Motivation: 现有的VLA模型将任务建模为MDP,在每个时间步独立处理密集视觉输入,忽略了历史上下文信息,这在动态顺序决策中效果不佳。
- Method: 从POMDP角度重新定义问题,引入主动视觉注意力(AVA)模块,利用循环状态(信念状态的神经近似)计算软权重来动态处理任务相关的视觉标记。
- Result: 在LIBERO和CALVIN等机器人基准测试中达到最先进性能,并在双臂机器人平台上验证了实际应用性和鲁棒的模拟到现实迁移能力。
- Conclusion: AVA-VLA通过整合历史上下文信息,显著提升了VLA模型在动态顺序决策任务中的性能,具有实际应用价值。
[347] UniGame: Turning a Unified Multimodal Model Into Its Own Adversary
Zhaolong Su,Wang Lu,Hao Chen,Sharon Li,Jindong Wang
Main category: cs.LG
TL;DR: UniGame是一个自对抗后训练框架,通过轻量级扰动器在共享令牌接口处应用,使生成分支主动挑战脆弱理解,解决统一多模态模型中理解与生成之间的不一致性问题。
- Motivation: 统一多模态模型在理解和生成任务上存在根本性不一致:理解偏好紧凑嵌入,而生成偏好重建丰富的表示。这种结构权衡导致决策边界错位、跨模态连贯性下降以及对分布和对抗性变化的脆弱性增加。
- Method: 提出UniGame框架,在共享令牌接口处应用轻量级扰动器,使生成分支能够主动寻找和挑战脆弱的理解,将模型自身变成其对手。
- Result: 实验表明UniGame显著提高了一致性(+4.6%),同时在理解(+3.6%)、生成(+0.02)、分布外和对抗鲁棒性(在NaturalBench和AdVQA上分别+4.8%和+6.2%)方面也取得显著改进。
- Conclusion: 对抗性自博弈是增强未来多模态基础模型连贯性、稳定性和统一能力的通用有效原则。该框架与架构无关,仅增加不到1%的参数,且与现有后训练方法互补。
[348] Flow Map Distillation Without Data
Shangyuan Tong,Nanye Ma,Saining Xie,Tommi Jaakkola
Main category: cs.LG
TL;DR: 提出了一种无需外部数据集的流映射蒸馏方法,仅从先验分布采样,避免了传统方法中教师模型与数据不匹配的问题,在ImageNet上实现了仅需1步采样的最先进性能。
- Motivation: 传统流映射蒸馏需要从外部数据集采样,存在教师-数据不匹配风险,因为静态数据集可能无法完整代表教师模型的全部生成能力。
- Method: 开发了一个原则性框架,仅从先验分布采样,学习预测教师模型的采样路径并主动纠正自身的累积误差以确保高保真度。
- Result: 从SiT-XL/2+REPA蒸馏,在ImageNet 256x256上达到FID 1.45,在ImageNet 512x512上达到FID 1.49,均仅需1步采样,超越了所有基于数据的方法。
- Conclusion: 建立了一个更稳健的生成模型加速范式,推动了无需数据的流映射蒸馏的广泛应用。
cs.CY
[349] Animated Territorial Data Extractor (ATDE): A Computer-Vision Method for Extracting Territorial Data from Animated Historical Maps
Hamza Alshamy,Isaiah Woram,Advay Mishra,Zihan Xia,Pascal Wallisch
Main category: cs.CY
TL;DR: ATDE是一个从动画历史地图视频中提取领土数据的计算机视觉工具,使用颜色分割和滤波技术识别领土控制像素,将动画视频转换为结构化时间序列数据。
- Motivation: 开发一个无需预定义形状文件、能够从动画历史地图视频中自动提取定量领土数据的工具,用于教育演示、初步数据探索和领土动态比较分析。
- Method: 采用HSV颜色分割、RGB通道滤波和直接邻居滤波来识别和计数代表领土控制的像素,结合时间对齐和跨视频缩放的预处理流程。
- Result: 在十个中国朝代(公元前200年-公元1912年)上验证了该工具,生成的逐年像素计数与预期历史模式一致。
- Conclusion: ATDE虽然不是权威历史数据集的替代品,但适用于教育演示、初步数据探索和领土动态比较分析,可应用于任何给定种子颜色和基本配置的动画地图视频。
eess.SP
[350] SYNAPSE: Synergizing an Adapter and Finetuning for High-Fidelity EEG Synthesis from a CLIP-Aligned Encoder
Jeyoung Lee,Hochul Kang
Main category: eess.SP
TL;DR: SYNAPSE是一个两阶段框架,通过CLIP对齐的EEG自编码器学习语义结构化的潜在表示,然后与轻量化的Stable Diffusion结合,实现从脑电图信号到高质量图像的生成。
- Motivation: 将扩散模型扩展到脑信号领域可以加深对人类感知和心理表征的理解,但EEG信号存在高噪声、低空间分辨率和强主体间变异性的挑战。现有方法通常需要复杂的对齐或分类流程,导致参数量大且可解释性有限。
- Method: 两阶段框架:第一阶段使用CLIP对齐的EEG自编码器学习语义结构化的潜在表示;第二阶段冻结预训练编码器,与轻量化的Stable Diffusion集成,实现高效的EEG特征条件生成。
- Result: 在CVPR40数据集上实现了语义一致的潜在空间和最先进的感知保真度,在重建效率和图像质量方面均优于现有的EEG到图像模型,能够有效跨主体泛化。
- Conclusion: 重建大脑感知的内容而非分类的内容是忠实EEG图像生成的关键,SYNAPSE展示了从脑信号重建感知内容的可行性。
cs.RO
[351] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
Ting Huang,Dongjian Li,Rui Yang,Zeyu Zhang,Zida Yang,Hao Tang
Main category: cs.RO
TL;DR: MobileVLA-R1是一个统一的视觉-语言-动作框架,通过构建大规模思维链数据集和两阶段训练范式,实现了四足机器人的显式推理和连续控制。
- Motivation: 现有方法难以将高级语义推理与低级驱动连接,导致在真实世界中接地不稳定和泛化能力弱。
- Method: 构建MobileVLA-CoT大规模思维链数据集,采用监督CoT对齐与GRPO强化学习的两阶段训练范式。
- Result: 在VLN和VLA任务上表现优于强基线约5%,在复杂环境中验证了鲁棒性能。
- Conclusion: MobileVLA-R1通过显式推理和连续控制的统一框架,有效解决了四足机器人的自然语言指令接地问题。
[352] Switch-JustDance: Benchmarking Whole Body Motion Tracking Policies Using a Commercial Console Game
Jeonghwan Kim,Wontaek Kim,Yidan Lu,Jin Cheng,Fatemeh Zargarbashi,Zicheng Zeng,Zekun Qi,Zhiyang Dou,Nitish Sontakke,Donghoon Baek,Sehoon Ha,Tianyu Li
Main category: cs.RO
TL;DR: Switch-JustDance是一个低成本、可复现的机器人全身控制基准测试管道,利用Nintendo Switch上的Just Dance游戏来评估机器人全身控制能力。
- Motivation: 现有评估方法依赖预收集的人类运动数据集或基于仿真的实验,限制了可复现性、忽略了硬件因素,并阻碍了公平的人机比较。
- Method: 通过流式传输、运动重建和运动重定向模块将游戏中的编舞转换为机器人可执行动作,并利用游戏内置评分系统评估控制器性能。
- Result: 验证了Just Dance平台的评估特性,证明其提供一致且可解释的性能度量,适合作为具身AI基准测试工具。
- Conclusion: 该平台为机器人全身控制提供了有效的基准测试方法,并在硬件上对三种最先进的人形机器人全身控制器进行了基准测试。
[353] Observer Actor: Active Vision Imitation Learning with Sparse View Gaussian Splatting
Yilong Wang,Cheng Qian,Ruomeng Fan,Edward Johns
Main category: cs.RO
TL;DR: ObAct框架通过动态分配观察者和执行者角色,在主动视觉模仿学习中让观察者移动到最优视觉观测位置,从而提升策略的鲁棒性和性能。
- Motivation: 在机器人系统中,静态摄像头设置容易受到遮挡影响,导致观察质量下降。ObAct旨在通过主动移动观察者来获得更清晰、无遮挡的视觉观测,从而改善模仿学习的效果。
- Method: 使用双臂机器人系统,配备腕部摄像头。测试时动态分配角色:观察者臂构建3D高斯溅射表示,虚拟探索找到最优相机位姿并移动到该位置;执行者臂使用观察者的观测执行策略。
- Result: 与静态摄像头设置相比,ObAct显著提升了性能:轨迹转移方法在无遮挡和有遮挡情况下分别提升145%和233%;行为克隆方法分别提升75%和143%。
- Conclusion: ObAct框架通过主动视觉观测显著提升了模仿学习的鲁棒性和性能,特别是在存在遮挡的情况下表现更为突出。
[354] Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots from Video
Henrik Krauss,Johann Licher,Naoya Takeishi,Annika Raatz,Takehisa Yairi
Main category: cs.RO
TL;DR: 提出Attention Broadcast Decoder (ABCD)模块,用于软体连续机器人的数据驱动动力学学习,结合注意力机制和振荡器网络,实现物理可解释的动力学建模。
- Motivation: 数据驱动方法缺乏物理可解释性,而基于模型的方法需要先验知识且计算昂贵,需要在这两者之间建立桥梁。
- Method: 引入ABCD模块生成像素级注意力图定位潜在维度贡献,并将注意力图与2D振荡器网络耦合,实现学习动力学的直接可视化。
- Result: 在单段和双段软体机器人上验证,ABCD模型显著提高多步预测精度:双段机器人上Koopman算子误差减少5.7倍,振荡器网络误差减少3.5倍。
- Conclusion: 该方法完全数据驱动,产生紧凑且物理可解释的模型,适用于控制应用,并能实现训练数据之外的平滑潜在空间外推。
[355] Enhancing UAV Search under Occlusion using Next Best View Planning
Sigrid Helene Strand,Thomas Wiedemann,Bram Burczek,Dmitriy Shutin
Main category: cs.RO
TL;DR: 提出了一种用于遮挡环境中无人机搜索救援的优化规划策略和高效算法,包含几何启发式和可见性启发式两种优化方法,可见性启发式在模拟和真实环境中表现更优。
- Motivation: 在密集森林等遮挡环境中进行搜救任务时,无人机需要优化相机位置和视角来获取清晰的地面视野,提高搜索效率。
- Method: 提出了两种新颖的优化启发式方法:几何启发式和可见性启发式,用于选择最优相机视点,解决遮挡环境中的最佳视点问题。
- Result: 可见性启发式在模拟森林中识别超过90%的隐藏物体,比几何启发式检测率高10%;真实环境实验显示可见性启发式在树冠下提供更好的覆盖。
- Conclusion: 可见性启发式在遮挡环境中具有更好的搜索性能,有潜力显著改善搜救任务的效果。
[356] AutoFocus-IL: VLM-based Saliency Maps for Data-Efficient Visual Imitation Learning without Extra Human Annotations
Litian Gong,Fatemeh Bahrani,Yutai Zhou,Amin Banayeeanzade,Jiachen Li,Erdem Biyik
Main category: cs.RO
TL;DR: AutoFocus-IL是一种通过视觉语言模型自动识别关键对象并生成时序显著性图来改进视觉模仿学习数据效率和泛化能力的方法,无需昂贵的人工监督。
- Motivation: 现有显著性正则化方法需要昂贵的人工监督(如人类注视数据或手动显著性标注),限制了其实际应用。
- Method: 利用视觉语言模型自动识别和跟踪演示中的关键对象,生成时序显著性图,突出因果视觉信号并抑制干扰物,然后用这些图正则化行为克隆策略。
- Result: 在CARLA模拟器和真实机器人操作任务中,AutoFocus-IL不仅优于标准行为克隆,还超过了需要人类监督的最先进基线方法。
- Conclusion: AutoFocus-IL提供了一种无需昂贵人工监督的有效方法,通过自动显著性引导显著提升了视觉模仿学习的性能。
[357] Stable Multi-Drone GNSS Tracking System for Marine Robots
Shuo Wen,Edwin Meriaux,Mariana Sosa Guzmán,Zhizun Wang,Junming Shi,Gregory Dudek
Main category: cs.RO
TL;DR: 提出了一种基于多无人机GNSS的海洋机器人跟踪系统,通过视觉检测、多目标跟踪和GNSS三角定位,结合置信度加权的扩展卡尔曼滤波器实现实时稳定的GNSS估计。
- Motivation: 解决水下环境中GNSS信号不可靠或不可用的问题,传统方法存在误差累积、计算量大或依赖基础设施等局限性。
- Method: 结合高效视觉检测、轻量级多目标跟踪、GNSS三角定位和置信度加权EKF,并引入跨无人机跟踪ID对齐算法确保全局一致性。
- Result: 在多样化复杂环境中验证了系统的可扩展性和鲁棒性。
- Conclusion: 该系统为水面和近水面海洋机器人提供了一种可扩展的多无人机GNSS跟踪解决方案。
[358] CNN-Based Camera Pose Estimation and Localisation of Scan Images for Aircraft Visual Inspection
Xueyan Oh,Leonard Loh,Shaohui Foong,Zhong Bao Andy Koh,Kow Leong Ng,Poh Kang Tan,Pei Lin Pearlin Toh,U-Xuan Tan
Main category: cs.RO
TL;DR: 提出一种无需基础设施的飞机视觉检测方法,使用PTZ相机通过深度学习网络预测自身位姿,实现飞机表面的自动化检测和图像定位。
- Motivation: 传统飞机外观检测依赖人工,自动化需求增加但现有定位方法需要基础设施,在机场停机坪等受限环境中部署困难,且航空公司禁止接触飞机表面或使用无人机。
- Method: 使用PTZ相机进行初始化,通过深度卷积神经网络预测相机位姿,采用域随机化生成合成图像数据集进行微调,并利用飞机几何改进损失函数,提出初始化、扫描路径规划和图像精确定位的工作流程。
- Result: 在真实飞机上实验验证,所有真实场景的相机位姿估计均方根误差小于0.24米和2度。
- Conclusion: 该方法无需基础设施、易于部署,能够有效实现飞机外观自动化检测,满足机场停机坪的快速周转要求。
[359] Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation
Juntao Gao,Feiyang Ye,Jing Zhang,Wenjing Qian
Main category: cs.RO
TL;DR: Compressor-VLA是一个用于视觉-语言-动作模型的混合指令条件令牌压缩框架,通过语义任务压缩器和空间细化压缩器实现任务导向的视觉信息压缩,在保持性能的同时显著减少计算开销。
- Motivation: 传统VLA模型处理冗余视觉令牌的计算开销大,任务无关的令牌剪枝方法难以保留任务关键视觉信息,需要同时保持整体上下文和细粒度细节以实现精确动作。
- Method: 提出混合指令条件令牌压缩框架,包含语义任务压缩器(STC)提取整体任务相关上下文,空间细化压缩器(SRC)保留细粒度空间细节,压缩过程由自然语言指令动态调制。
- Result: 在LIBERO基准测试中保持竞争力的成功率,同时减少59%的FLOPs和3倍以上的视觉令牌数量,真实机器人部署验证了模型的仿真到现实迁移性和实际应用性。
- Conclusion: Compressor-VLA通过指令引导动态调整感知焦点到任务相关对象,实现了高效的任务导向视觉信息压缩,为实时机器人部署提供了可行方案。
[360] Mixture of Horizons in Action Chunking
Dong Jing,Gang Wang,Jiaqi Liu,Weiliang Tang,Zelong Sun,Yunchao Yao,Zhenyu Wei,Yunhui Liu,Zhiwu Lu,Mingyu Ding
Main category: cs.RO
TL;DR: 提出混合视野(MoH)策略来解决VLA模型中动作块长度选择的两难问题,通过并行处理不同视野长度的动作段并融合输出,同时获得长期预见性和短期精度。
- Motivation: 传统VLA模型在动作块长度选择上存在固有权衡:长视野提供全局预见性但降低细粒度精度,短视野提升局部控制但难以处理长期任务,固定单一视野选择是次优的。
- Method: MoH将动作块重新排列为多个不同视野长度的段,用共享动作变换器并行处理,通过轻量线性门融合输出,支持动态推理和跨视野共识选择稳定动作。
- Result: 在LIBERO基准测试中,π0.5+MoH在仅3万次训练迭代后达到99%平均成功率的新SOTA,推理吞吐量比基线提高2.5倍。
- Conclusion: MoH策略有效缓解了视野长度选择的权衡问题,在保持高性能的同时显著提升训练效率和推理速度,为VLA模型提供了灵活且高效的解决方案。
cs.SD
[361] Multimodal Real-Time Anomaly Detection and Industrial Applications
Aman Verma,Keshav Samdani,Mohd. Samiuddin Shafi
Main category: cs.SD
TL;DR: 本文介绍了一个多模态房间监控系统的设计与实现,该系统集成了同步视频和音频处理,用于实时活动识别和异常检测。系统经历了两个版本迭代:轻量级版本使用YOLOv8、ByteTrack和AST模型,高级版本则整合了多模型音频集成、混合目标检测、双向跨模态注意力和多方法异常检测。
- Motivation: 开发一个能够实时监控房间活动并检测异常的综合系统,通过多模态融合提高监控的准确性和鲁棒性,适用于一般监控和工业安全应用。
- Method: 初始版本使用YOLOv8进行目标检测、ByteTrack进行目标跟踪、AST处理音频;高级版本整合了三个音频模型(AST、Wav2Vec2、HuBERT)、双目标检测器(YOLO和DETR),并采用双向跨模态注意力和多方法异常检测机制。
- Result: 实验评估显示系统在一般监控场景和工业安全应用中均表现有效,在标准硬件上实现了实时性能,同时保持了高准确率。系统演进显著提升了准确性、鲁棒性和工业适用性。
- Conclusion: 该多模态房间监控系统通过迭代演进,成功整合了先进的视频和音频处理技术,实现了高效、准确的实时监控和异常检测能力,具有重要的工业应用价值。
[362] PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation
Huadai Liu,Kaicheng Luo,Wen Wang,Qian Chen,Peiwen Sun,Rongjie Huang,Xiangang Li,Jieping Ye,Wei Xue
Main category: cs.SD
TL;DR: PrismAudio是首个将强化学习集成到视频到音频生成中的框架,通过专门的思维链规划解决现有方法中目标纠缠和缺乏人类偏好对齐的问题。
- Motivation: 现有视频到音频生成方法存在目标纠缠问题,将竞争性目标混在单一损失函数中,且缺乏人类偏好对齐。
- Method: 提出PrismAudio框架,将整体推理分解为四个专门的思维链模块(语义、时序、美学、空间CoT),每个模块配有针对性的奖励函数,并使用Fast-GRPO算法通过混合ODE-SDE采样显著降低训练开销。
- Result: 在VGGSound测试集和AudioCanvas基准测试中,PrismAudio在所有四个感知维度上都达到了最先进的性能。
- Conclusion: PrismAudio通过多维强化学习优化解决了目标纠缠问题,同时保持了可解释性,在计算上也是可行的。
[363] Real-Time Object Tracking with On-Device Deep Learning for Adaptive Beamforming in Dynamic Acoustic Environments
Jorge Ortigoso-Narro,Jose A. Belloch,Adrian Amor-Martin,Sandra Roger,Maximo Cobos
Main category: cs.SD
TL;DR: 提出了一种嵌入式系统,将深度学习跟踪与波束成形相结合,实现动态环境中的精确声源定位和定向音频捕获。
- Motivation: 随着目标跟踪和声学波束成形技术的进步,推动监控、人机交互和机器人领域的新能力发展,需要实现精确的声源定位和动态音频捕获。
- Method: 结合单目相机深度估计和立体视觉实现移动物体的准确3D定位,使用MEMS麦克风构建的平面同心圆麦克风阵列支持方位角和仰角的2D波束转向,实时跟踪输出持续调整阵列焦点。
- Result: 实验评估显示在信干比方面取得显著提升,系统在存在多个或移动声源的情况下保持鲁棒性能。
- Conclusion: 该系统设计适用于视频会议、智能家居设备和辅助技术等应用场景。
cs.HC
[364] Deep Learning-based Lightweight RGB Object Tracking for Augmented Reality Devices
Alice Smith,Bob Johnson,Xiaoyu Zhu,Carol Lee
Main category: cs.HC
TL;DR: 提出了一种轻量级RGB目标跟踪算法,专为资源受限的AR平台设计,在保持高精度的同时大幅降低计算和内存需求。
- Motivation: 现有深度学习目标跟踪器虽然精度高,但计算和内存需求过大,不适合可穿戴AR设备。需要开发轻量级跟踪算法来支持AR应用的实时跟踪需求。
- Method: 采用紧凑的Siamese神经网络架构,结合模型剪枝、量化和知识蒸馏等优化技术来减小模型规模和推理成本。离线在大规模视频数据集上训练,然后部署到设备上进行实时跟踪。
- Result: 在标准跟踪基准测试中,该方法达到了与最先进跟踪器相当的精度,同时在移动AR头显上以约30FPS实时运行,比同类高性能跟踪器快一个数量级以上。
- Conclusion: 这项工作为AR用例实现了实用、鲁棒的目标跟踪,为轻量级设备上更交互式和动态的AR体验打开了大门。
cs.MM
[365] Self-Empowering VLMs: Achieving Hierarchical Consistency via Self-Elicited Knowledge Distillation
Wei Yang,Yiran Zhu,Zilin Li,Xunjia Zhang,Hongtao Wang
Main category: cs.MM
TL;DR: 论文提出了一种无需人工标注的自蒸馏方法SEKD,通过让VLM进行多步推理作为教师模型,然后让单步推理的学生模型蒸馏教师的知识,从而显著提升层次理解任务的性能。
- Motivation: 当前视觉语言模型在层次理解任务中表现不佳,主要问题在于无法维持跨层级状态,而非缺乏分类学知识。
- Method: 提出自蒸馏知识蒸馏(SEKD):让同一个VLM进行多步推理作为教师模型,暴露其硬标签、软分布和解码器隐藏状态;然后让单步推理的学生模型蒸馏这些信号。
- Result: 学生VLM在保持高效的同时接近多步教师的准确率:领域内路径一致性(HCA)提升高达+29.50个百分点;在未见分类学上的零样本HCA从4.15%提升到42.26%;在数学基准测试中也获得提升。
- Conclusion: SEKD提供了一种实用的方法,无需标注成本即可为紧凑的VLM注入依赖感知的多步推理能力,能够扩展到新的分类学和数据集。
[366] Towards Generalizable Deepfake Detection via Forgery-aware Audio-Visual Adaptation: A Variational Bayesian Approach
Fan Nie,Jiangqun Ni,Jian Zhang,Bin Zhang,Weizhe Zhang,Bin Li
Main category: cs.MM
TL;DR: 提出FoVB框架,通过变分贝叶斯估计音频-视觉相关性,用于多模态深度伪造检测,在多个基准测试中优于现有方法。
- Motivation: AIGC内容的广泛应用带来了安全风险,如音视频深度伪造。开发有效且可泛化的多模态深度伪造检测方法至关重要,音频-视觉相关性学习可以揭示跨模态不一致性。
- Method: 采用变分贝叶斯框架,将音频-视觉相关性近似为高斯分布潜变量。使用差分卷积和高通滤波器提取局部和全局伪造痕迹,通过变分贝叶斯估计相关性潜变量,并分解为模态特定和相关特定变量。
- Result: 在多个基准测试中,FoVB框架优于其他最先进方法。
- Conclusion: FoVB框架通过变分贝叶斯有效学习音频-视觉相关性,能够更好地检测多模态深度伪造内容。
cs.NE
[367] Temporal-adaptive Weight Quantization for Spiking Neural Networks
Han Zhang,Qingyan Meng,Jiaqi Wang,Baiyu Chen,Zhengyu Ma,Xiaopeng Fan
Main category: cs.NE
TL;DR: 提出Temporal-adaptive Weight Quantization (TaWQ)方法,通过结合时间动态性自适应分配超低位权重,在保持高能效的同时实现最小量化损失
- Motivation: 受生物神经系统中星形胶质细胞介导的突触调节启发,解决SNN中权重量化而不牺牲准确性的挑战
- Method: 将权重量化与时间动态性结合,沿时间维度自适应分配超低位权重
- Result: 在静态和神经形态数据集上实验表明,TaWQ保持高能效(4.12M, 0.63mJ),在ImageNet上仅产生0.22%的量化损失
- Conclusion: TaWQ方法成功实现了SNN中的高效权重量化,在保持性能的同时显著降低能耗
eess.IV
[368] Robust Detection of Retinal Neovascularization in Widefield Optical Coherence Tomography
Jinyi Hao,Jie Wang,Kotaro Tsuboi,Liqin Gao,Tristan T. Hormel,Yukun Guo,An-Lun Wu,Min Gao,Christina J. Flaxel,Steven T. Bailey,Thomas S. Hwang,Yali Jia
Main category: eess.IV
TL;DR: 提出了一种基于深度学习的新方法,用于在广角OCT/OCTA图像上进行视网膜新生血管的诊断和分期,将RNV识别重新定义为直接的二元定位任务,无需多层视网膜分割。
- Motivation: 视网膜新生血管是糖尿病视网膜病变中威胁视力的并发症,及时干预可预防视力丧失。广角OCTA技术可改善RNV早期检测,但现有算法仅适用于窄视野图像,需要开发适用于广角OCT/OCTA的RNV检测和量化方法。
- Method: 采用完全自动化的方法,将RNV识别重新定义为直接的二元定位任务,不依赖传统的多层视网膜分割。在来自多个设备和诊所的589张广角扫描图像上进行训练和验证。
- Result: RNV诊断的设备相关AUC范围为0.96-0.99,分割的平均IOU范围为0.76-0.88。方法还展示了纵向监测病变生长的能力。
- Conclusion: 基于深度学习的广角OCTA图像分析可为改善RNV筛查和管理提供有价值的手段。
[369] Spectral Super-Resolution Neural Operator with Atmospheric Radiative Transfer Prior
Ziye Zhang,Bin Pan,Zhenwei Shi
Main category: eess.IV
TL;DR: 提出SSRNO框架,将大气辐射传输先验融入数据驱动的光谱超分辨率方法中,通过上采样、重建和细化三阶段实现物理一致的光谱重建。
- Motivation: 现有数据驱动方法往往忽视物理原理,导致不真实的光谱重建结果,特别是在受大气影响的波段。需要结合物理先验来提高光谱重建的物理一致性。
- Method: 三阶段框架:上采样阶段利用先验信息扩展多光谱输入;重建阶段使用神经算子学习连续光谱映射;细化阶段通过硬约束消除色彩失真。采用引导矩阵投影方法和U形光谱感知卷积层。
- Result: 实验验证了方法的有效性和泛化能力,实现了连续光谱重建和零样本外推。
- Conclusion: SSRNO成功将物理先验融入数据驱动方法,实现了更物理一致的光谱超分辨率重建,并具备连续重建和外推能力。
[370] Linear Algebraic Approaches to Neuroimaging Data Compression: A Comparative Analysis of Matrix and Tensor Decomposition Methods for High-Dimensional Medical Images
Jaeho Kim,Daniel David,Ana Vizitiv
Main category: eess.IV
TL;DR: 评估Tucker分解和SVD在神经影像数据压缩中的表现,Tucker分解在保持多维关系和重建保真度方面更优,SVD在极端压缩场景下表现更好但牺牲保真度
- Motivation: 比较不同矩阵分解方法在神经影像数据压缩中的效果,为选择合适的数据压缩方法提供依据
- Method: 使用Tucker分解和奇异值分解(SVD)对神经影像数据进行压缩,并评估其性能
- Result: Tucker分解在保持多维关系和重建保真度方面表现更优,SVD在极端压缩场景下表现更好但牺牲了保真度
- Conclusion: Tucker分解更适合需要保持结构和时间关系的应用场景
[371] Shape-Adapting Gated Experts: Dynamic Expert Routing for Colonoscopic Lesion Segmentation
Gia Huy Thai,Hoang-Nguyen Vu,Anh-Minh Phan,Quang-Thinh Ly,Tram Dinh,Thi-Ngoc-Truc Nguyen,Nhat Ho
Main category: eess.IV
TL;DR: 提出SAGE框架,通过动态专家路由解决WSI中细胞尺度多样性问题,在三个医学基准测试中实现最先进的分割性能。
- Motivation: 细胞尺度和形态的多样性是WSI癌症检测的主要挑战,现有CNN-Transformer混合模型使用静态计算图导致计算冗余且无法适应输入变化。
- Method: SAGE将静态骨干网络重构为动态路由专家架构,采用双路径设计:骨干流保持表示,专家路径通过分层门控选择性激活,SA-Hub协调CNN和Transformer模块的结构和语义表示。
- Result: 在EBHI、DigestPath和GlaS三个医学基准测试中分别获得95.57%、95.16%和94.17%的Dice分数,实现最先进性能。
- Conclusion: SAGE为动态专家路由提供了可扩展基础,通过自适应平衡局部细化和全局上下文实现灵活的视觉推理。
[372] Neural B-Frame Coding: Tackling Domain Shift Issues with Lightweight Online Motion Resolution Adaptation
Sang NguyenQuang,Xiem HoangVan,Wen-Hsiao Peng
Main category: eess.IV
TL;DR: 该论文提出轻量级分类器来预测视频编码中的下采样因子,解决B帧编解码器在训练和测试时GOP大小不匹配导致的运动估计不准确问题。
- Motivation: 分层时间预测的B帧编解码器由于训练和测试时GOP大小不匹配导致域偏移问题,特别是对大运动估计不准确。传统方法需要昂贵的率失真优化来确定最佳下采样因子。
- Method: 提出三种轻量级分类器变体:二分类器(Bi-Class)、多分类器(Mu-Class)和协同分类器(Co-Class),利用当前帧和参考帧的简单状态信号来预测下采样因子,无需重新训练编解码器。
- Result: 实验结果表明,这些分类器方法在保持与穷举搜索方法相当的编码性能的同时,显著降低了计算复杂度。
- Conclusion: 提出的轻量级分类器能够有效解决B帧编解码器的域偏移问题,在计算效率和编码性能之间取得良好平衡,且与现有B帧编解码器无缝兼容。
cs.CR
[373] FedPoisonTTP: A Threat Model and Poisoning Attack for Federated Test-Time Personalization
Md Akil Raihan Iftee,Syed Md. Ahnaf Hasan,Amin Ahsan Ali,AKM Mahbubur Rahman,Sajib Mistry,Aneesh Krishna
Main category: cs.CR
TL;DR: FedPoisonTTP是一个针对联邦学习中测试时个性化场景的灰盒攻击框架,通过数据投毒在本地适应过程中破坏模型性能。
- Motivation: 现有联邦学习研究忽视了测试时本地适应带来的安全风险,异构域到达、多样化适应算法和有限的跨客户端可见性为恶意参与者创造了攻击漏洞。
- Method: 通过对抗查询提取代理模型,使用特征一致性合成分布内毒药,优化攻击目标生成高熵或类置信毒药以规避常见适应过滤器,并在本地适应过程中注入毒药。
- Result: 在受损视觉基准上的广泛实验表明,受威胁的参与者能够显著降低整体测试时性能。
- Conclusion: 联邦学习中的测试时个性化存在严重安全漏洞,需要开发更强大的防御机制来应对此类攻击。
cs.AI
[374] Fluid Grey 2: How Well Does Generative Adversarial Network Learn Deeper Topology Structure in Architecture That Matches Images?
Yayan Qiu,Sean Hanna
Main category: cs.AI
TL;DR: 本研究提出了一种快速检测pix2pix GAN学习拓扑关系能力的方法,通过在GAN前后添加两个基于Grasshopper的检测模块,证明了pix2pix能够自动学习空间拓扑关系并应用于建筑设计。
- Motivation: 考虑到空间内在和外在特性的区域特征在建筑设计和城市更新中的重要性,当前基于图像和图表的GAN方法存在模型嵌套和数据转换导致信息丢失的问题,需要简化工具以便建筑师和用户参与设计。
- Method: 在GAN前后添加两个基于Grasshopper的检测模块,提供定量数据并可视化学习过程,研究不同输入模式(灰度、RGB)对学习效率的影响。
- Result: 证明了pix2pix能够自动学习空间拓扑关系,填补了从拓扑角度检测基于图像的生成GAN性能的空白,检测方法耗时短、操作简单。
- Conclusion: 该方法为使用GAN保留空间拓扑特性的建筑设计和城市更新应用提供了理论基础和数据支持,检测模块可广泛用于定制具有相同拓扑结构的图像数据集和批量检测图像拓扑关系。
[375] GContextFormer: A global context-aware hybrid multi-head attention approach with scaled additive aggregation for multimodal trajectory prediction
Yuzhi Chen,Yuanchang Xie,Lei Zhao,Pan Liu,Yajie Zou,Chen Wang
Main category: cs.AI
TL;DR: GContextFormer是一个无需高清地图的插件式多模态轨迹预测模型,通过全局上下文感知的混合注意力和缩放加性聚合,在高速公路匝道场景中实现意图对齐的多模态预测。
- Motivation: 现有方法存在依赖高清地图导致成本高、更新延迟和输入损坏问题,或无地图方法缺乏全局上下文导致运动-意图不对齐的问题。
- Method: 提出Motion-Aware编码器构建场景级意图先验,通过有界缩放加性聚合模式嵌入轨迹token,在共享全局上下文中细化每模式表示;Hierarchical Interaction解码器通过双路径交叉注意力分解社交推理,标准路径确保几何覆盖,邻居上下文增强路径强调显著交互。
- Result: 在TOD-VT数据集的八个高速公路匝道场景中,GContextFormer优于现有最先进基线,在高曲率和过渡区域实现更集中的改进,具有更好的鲁棒性。
- Conclusion: 该模块化架构支持扩展到跨域多模态推理任务,通过运动模式区分和邻居上下文调制实现可解释性。
cs.DC
[376] AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems
Rajat Bhattacharjya,Sing-Yao Wu,Hyunwoo Oh,Chaewon Nam,Suyeon Koo,Mohsen Imani,Elaheh Bozorgzadeh,Nikil Dutt
Main category: cs.DC
TL;DR: AVERY是一个自适应分割计算框架,通过将视觉语言模型(VLM)分为上下文流和洞察流,实现在无人机等资源受限平台上部署VLM进行语义推理,解决了灾难响应中低带宽网络下的智能分析问题。
- Motivation: 灾难响应中的无人机需要复杂的可查询智能分析,但机载CNN无法提供语义推理能力,而VLM资源需求过高无法在设备上部署,云端卸载在低带宽灾难网络中又不可行。
- Method: 提出认知启发的双流分割方法:高频低分辨率的上下文流用于实时感知,低频高保真的洞察流用于深度分析。轻量级自感知控制器根据网络条件和操作意图动态选择预训练压缩模型。
- Result: 在边缘-云场景下使用LISA-7B VLM评估,AVERY始终优于静态配置,比原始图像压缩准确率高11.2%,比全边缘执行能耗降低93.98%。
- Conclusion: AVERY框架通过自适应分割计算,在动态环境中显著提升了任务效率,使资源受限平台能够实现实时可查询智能分析。
q-bio.QM
[377] TeamPath: Building MultiModal Pathology Experts with Reasoning AI Copilots
Tianyu Liu,Weihao Xuan,Hao Wu,Peter Humphrey,Marcello DiStasio,Heli Qi,Rui Yang,Simeng Han,Tinglin Huang,Fang Wu,Nan Liu,Irene Li,Hua Xu,Hongyu Zhao
Main category: q-bio.QM
TL;DR: TeamPath是一个基于强化学习和路由增强解决方案的AI系统,作为虚拟助手用于专家级疾病诊断、斑块级信息总结和跨模态生成,整合转录组信息用于临床。
- Motivation: 当前病理学专用视觉语言模型缺乏严格推理路径的诊断能力和处理多样化任务的能力,构建真实场景AI助手仍面临挑战。
- Method: 基于大规模组织病理学多模态数据集,采用强化学习和路由增强解决方案构建AI系统。
- Result: 与耶鲁医学院病理学家合作证明,TeamPath能通过识别和修正专家结论及推理路径来帮助提高工作效率。
- Conclusion: TeamPath能根据需求灵活选择最佳设置,作为跨不同模态和专家的信息交流创新可靠系统。
Powered by Deepseek & arXiv Daily AI Enhanced