Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] PolypSeg-GradCAM: Towards Explainable Computer-Aided Gastrointestinal Disease Detection Using U-Net Based Segmentation and Grad-CAM Visualization on the Kvasir Dataset
Akwasi Asare,Ulas Bagci
Main category: cs.CV
TL;DR: 提出PolypSeg-GradCAM框架,结合U-Net和Grad-CAM实现可解释的息肉分割,在Kvasir-SEG数据集上取得优异性能(IoU 0.9257),增强临床可信度
- Motivation: 结直肠癌是全球主要癌症死因,胃肠道息肉是关键前兆。现有深度学习方法分割准确但缺乏可解释性,阻碍临床应用
- Method: 集成U-Net架构和梯度加权类激活映射(Grad-CAM),在Kvasir-SEG数据集(1000张标注内镜图像)上训练评估
- Result: 测试集平均IoU达0.9257,训练和验证集Dice系数均高于0.96,Grad-CAM可视化证实预测基于临床相关区域
- Conclusion: PolypSeg-GradCAM将高分割精度与可解释性结合,为可靠AI辅助结肠镜检查和早期结直肠癌预防迈出重要一步
[2] PerceptronCARE: A Deep Learning-Based Intelligent Teleopthalmology Application for Diabetic Retinopathy Diagnosis
Akwasi Asare,Isaac Baffour Senkyire,Emmanuel Freeman,Simon Hilary Ayinedenaba Aluze-Ele,Kelvin Kwao
Main category: cs.CV
TL;DR: PerceptronCARE是一个基于深度学习的远程眼科应用,使用视网膜图像自动检测糖尿病视网膜病变,准确率达到85.4%,特别适用于资源有限的偏远地区。
- Motivation: 糖尿病视网膜病变是成人视力丧失的主要原因,特别是在医疗服务不足的地区,需要开发高效、可扩展的筛查解决方案。
- Method: 使用多种卷积神经网络(ResNet-18、EfficientNet-B0、SqueezeNet)开发和评估系统,寻找准确性和计算效率的最佳平衡点。
- Result: 最终模型对疾病严重程度分类的准确率达到85.4%,支持临床和远程医疗环境中的实时筛查。
- Conclusion: 这项研究展示了AI驱动的远程医疗解决方案在扩大糖尿病视网膜病变筛查可及性方面的潜力,特别是在偏远和资源受限环境中。
[3] Self Identity Mapping
Xiuding Cai,Yaoyao Zhu,Linjie Fu,Dong Miao,Yu Yao
Main category: cs.CV
TL;DR: 提出了Self Identity Mapping (SIM)正则化框架,通过逆向映射机制增强表征学习,降低前向传播中的信息损失并改善梯度流动。
- Motivation: 传统正则化技术依赖启发式方法,在不同设置下效果不稳定。需要一种数据内在的正则化方法来提高泛化能力。
- Method: SIM通过从变换后的输出重构输入来减少信息损失。ρSIM通过补丁级特征采样和基于投影的方法重构潜在特征,降低计算复杂度。
- Result: 在图像分类、少样本提示学习和领域泛化等任务中均优于基线方法,且与现有正则化方法正交,能进一步提升其效果。
- Conclusion: SIM是一种模型无关、任务无关的即插即用正则化模块,适用于各种网络架构和任务,能有效保留语义信息并提升性能。
[4] MAGIA: Sensing Per-Image Signals from Single-Round Averaged Gradients for Label-Inference-Free Gradient Inversion
Zhanting Zhou,Jinbo Wang,Zeqin Wu,Fengli Zhang
Main category: cs.CV
TL;DR: MAGIA是一种基于动量的自适应梯度反演攻击方法,能够在单轮平均梯度SAG机制下实现高保真多图像重建,特别是在大批量场景中优于现有方法。
- Motivation: 研究在具有挑战性的单轮平均梯度SAG机制下的梯度反演问题,其中每个样本的线索都纠缠在单个批次平均梯度中。
- Method: MAGIA框架包含两个核心创新:1)封闭形式的组合重缩放,创建了可证明更紧的优化边界;2)基于动量的整批次和子集损失混合,确保重建鲁棒性。该方法通过探测随机数据子集来感知潜在的每图像信号。
- Result: 大量实验表明,MAGIA显著优于先进方法,在先前方法失败的大批量场景中实现了高保真多图像重建,且计算开销与标准求解器相当,无需任何辅助信息。
- Conclusion: MAGIA在梯度反演攻击方面取得了显著进展,特别是在大批量单轮平均梯度场景下,为隐私保护机器学习提供了重要参考。
[5] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR
Khalil Hennara,Muhammad Hreden,Mohamed Motasim Hamed,Ahmad Bastati,Zeina Aldallal,Sara Chrouf,Safwan AlModhayan
Main category: cs.CV
TL;DR: Baseer是一个专门针对阿拉伯语文档OCR的视觉语言模型,通过大规模数据集和解码器微调策略,显著提升了阿拉伯语OCR性能,WER达到0.25,超越了现有开源和商业解决方案。
- Motivation: 阿拉伯语文档OCR面临挑战,包括草书字体、多样化字体、变音符号和从右到左的书写方向。现有的多模态大语言模型在高资源语言上表现良好,但在阿拉伯语上性能有限。
- Method: 开发了Baseer模型,采用解码器微调策略对预训练的MLLM进行适配,同时保留通用视觉特征。使用结合合成和真实文档的大规模数据集进行训练,并创建了Misraj-DocOCR高质量基准进行评估。
- Result: Baseer显著优于现有的开源和商业解决方案,WER达到0.25,在阿拉伯语文档OCR领域建立了新的最先进水平。
- Conclusion: 研究结果表明,对通用MLLM进行领域特定适配具有明显优势,为像阿拉伯语这样的形态丰富语言的高精度OCR建立了强大的基线。
[6] A Deep Learning Approach for Spatio-Temporal Forecasting of InSAR Ground Deformation in Eastern Ireland
Wendong Yao,Saeed Azadnejad,Binhua Huang,Shane Donohue,Soumyabrata Dev
Main category: cs.CV
TL;DR: 本文提出了一种新颖的深度学习框架,将稀疏的InSAR时间序列数据转换为密集的时空张量,首次实现了将先进计算机视觉架构直接应用于地面变形预测问题。
- Motivation: 监测地面位移对城市基础设施稳定性和减轻地质灾害至关重要,但从稀疏的InSAR时间序列数据预测未来变形仍然是一个重大挑战。
- Method: 设计并实现了一种混合卷积神经网络和长短期记忆网络(CNN-LSTM)模型,专门用于从生成的数据张量中同时学习空间模式和时间依赖性。
- Result: 与LightGBM和LASSO回归等强大机器学习基线相比,所提出的架构提供了显著更准确和空间一致的预测,为该任务建立了新的性能基准。
- Conclusion: 研究结果证实了时空深度学习在高分辨率变形预测中的有效性和潜力,可解释性分析显示基线模型往往默认使用简单的持久性模式,凸显了集成时空方法的必要性。
[7] A Framework for Generating Artificial Datasets to Validate Absolute and Relative Position Concepts
George Corrêa de Araújo,Helena de Almeida Maia,Helio Pedrini
Main category: cs.CV
TL;DR: 提出了Scrapbook框架,用于生成大规模数据集来评估AI模型对基本概念的理解能力,如物体识别、位置关系和属性识别。实验发现当前模型在物体识别方面表现良好,但在位置理解和约束性问题处理上存在挑战。
- Motivation: 为了系统性地评估AI模型对基本概念的理解能力,需要生成包含大量问题和语言变体的数据集,以验证模型在应对复杂任务前对基础元素的掌握程度。
- Method: 开发Scrapbook框架,生成针对物体识别、绝对和相对位置、属性识别等基本概念的大规模多样化数据集,通过大量问题和语言变体来测试模型。
- Result: 当代模型在物体识别和枚举方面表现熟练,但在理解位置信息和处理有额外约束的问题时遇到困难。MobileVLM-V2模型显示出显著的回答不一致和错误答案,其他模型则表现出肯定回答偏向,在几何形状和位置信息相关问题上表现不佳。
- Conclusion: Scrapbook框架为生成多样化数据集提供了有效工具,可用于系统评估和提升AI模型的性能,特别是在理解基本概念的一致性和准确性方面。
[8] The Describe-Then-Generate Bottleneck: How VLM Descriptions Alter Image Generation Outcomes
Sai Varun Kodathala,Rakesh Vunnam
Main category: cs.CV
TL;DR: 本文通过实证分析量化了视觉-语言-视觉管道中描述-生成瓶颈造成的信息损失,发现99.3%的样本存在显著感知退化,91.5%存在结构信息损失。
- Motivation: 随着多模态AI系统在创意工作流中的集成日益增多,理解视觉-语言-视觉管道中的信息损失对于评估系统局限性变得重要,但目前视觉内容通过文本中介传递时的退化程度尚未得到充分量化。
- Method: 生成了150对通过描述-生成管道的图像对,应用现有指标(LPIPS、SSIM和颜色距离)来测量感知、结构和色彩维度上的信息保存情况。
- Result: 评估显示99.3%的样本表现出显著的感知退化,91.5%的样本表现出显著的结构信息损失。
- Conclusion: 描述-生成瓶颈代表了当代多模态系统中一个可测量且一致的局限性,为系统改进提供了实证基础。
[9] AI-Derived Structural Building Intelligence for Urban Resilience: An Application in Saint Vincent and the Grenadines
Isabelle Tingzon,Yoji Toriumi,Caroline Gevaert
Main category: cs.CV
TL;DR: 本文提出了一种AI驱动的工作流程,利用高分辨率卫星影像自动推断屋顶属性,以解决小岛屿发展中国家建筑结构信息缺失的问题。
- Motivation: 许多气候脆弱地区的小岛屿发展中国家缺乏详细的建筑结构信息,这限制了灾害风险评估和城市韧性规划。加勒比海地区的圣文森特和格林纳丁斯就是一个典型案例。
- Method: 比较了地理空间基础模型结合浅层分类器与微调深度学习模型在屋顶分类中的效果,并评估了整合邻近小岛屿发展中国家额外训练数据对模型性能的影响。
- Result: 最佳模型在屋顶坡度和屋顶材料分类上分别达到了0.88和0.83的F1分数。
- Conclusion: 结合本地能力建设,该研究旨在为小岛屿发展中国家提供利用AI和地球观测数据的新能力,实现更高效、基于证据的城市治理。
[10] VLA-LPAF: Lightweight Perspective-Adaptive Fusion for Vision-Language-Action to Enable More Unconstrained Robotic Manipulation
Jinyue Bian,Zhaoxing Zhang,Zhengyu Liang,Shiwei Zheng,Shengtao Zhang,Rong Shen,Chen Yang,Anzhou Hou
Main category: cs.CV
TL;DR: 本文提出了VLA-LPAF轻量级模块,通过仅使用2D数据来增强VLA模型的视角适应性,有效解决多视角观察中的视角不一致问题。
- Motivation: VLA模型在处理来自不同环境的视觉观察时,由于摄像头数量和视角的差异导致视觉特征显著不同,这种视角异质性限制了VLA模型的泛化能力。
- Method: 提出VLA-LPAF模块,使用单视角图像进行微调,并在潜在空间中融合多视角观察,有效弥合视角不一致造成的差距。基于RoboFlamingo模型构建了RoboFlamingo-LPAF框架。
- Result: 实验显示RoboFlamingo-LPAF在CALVIN数据集上平均提升约8%的任务成功率,在LIBERO上提升15%,在定制化仿真基准上提升30%。
- Conclusion: VLA-LPAF能够有效提升VLA模型的视角适应能力,在多个基准测试中表现出显著性能提升,并展示了实际应用中的视角自适应特性。
[11] URNet: Uncertainty-aware Refinement Network for Event-based Stereo Depth Estimation
Yifeng Cheng,Alois Knoll,Hu Cao
Main category: cs.CV
TL;DR: 本文提出了一种基于事件相机的立体深度估计方法URNet,通过局部-全局精炼模块和基于KL散度的不确定性建模,在DSEC数据集上超越了现有最优方法。
- Motivation: 事件相机具有高时间分辨率、高动态范围和低延迟的优势,但现有的立体深度估计方法在精度和可靠性方面仍有提升空间。
- Method: 提出了URNet网络,包含局部-全局精炼模块来捕捉细粒度局部细节和长距离全局上下文,并引入基于KL散度的不确定性建模方法来增强预测可靠性。
- Result: 在DSEC数据集上的大量实验表明,URNet在定性和定量评估中都一致优于现有最优方法。
- Conclusion: URNet通过有效的精炼模块和不确定性建模,显著提升了事件相机立体深度估计的性能和可靠性。
[12] Visionerves: Automatic and Reproducible Hybrid AI for Peripheral Nervous System Recognition Applied to Endometriosis Cases
Giammarco La Barbera,Enzo Bonnot,Thomas Isla,Juan Pablo de la Plata,Joy-Rose Dunoyer de Segonzac,Jennifer Attali,Cécile Lozach,Alexandre Bellucci,Louis Marcellin,Laure Fournier,Sabine Sarnacki,Pietro Gori,Isabelle Bloch
Main category: cs.CV
TL;DR: Visionerves是一个用于从多梯度DWI和形态学MRI数据中识别周围神经系统的新型混合AI框架,通过模糊空间关系编码解剖知识,无需手动选择ROI,在子宫内膜异位症患者的腰骶神经丛识别中表现优于标准纤维束成像。
- Motivation: 子宫内膜异位症常导致慢性盆腔疼痛和可能的神经受累,但周围神经的成像仍然是一个挑战。
- Method: Visionerves采用两阶段流程:(A)使用深度学习模型自动分割解剖结构,(B)通过符号空间推理进行纤维束成像和神经识别,利用模糊空间关系编码解剖知识。
- Result: 在10名子宫内膜异位症患者的腰骶神经丛应用中,Visionerves相比标准纤维束成像有显著改进,Dice评分提高达25%,空间误差减少至小于5毫米。
- Conclusion: 这种自动且可重复的方法能够进行详细的神经分析,为子宫内膜异位症相关神经病变以及其他神经受累疾病的非侵入性诊断铺平了道路。
[13] V-SenseDrive: A Privacy-Preserving Road Video and In-Vehicle Sensor Fusion Framework for Road Safety & Driver Behaviour Modelling
Muhammad Naveed,Nazia Perwaiz,Sidra Sultana,Mohaira Ahmad,Muhammad Moazam Fraz
Main category: cs.CV
TL;DR: V-SenseDrive是首个在巴基斯坦驾驶环境中收集的隐私保护多模态驾驶员行为数据集,结合智能手机传感器数据和道路视频,用于检测不安全驾驶行为。
- Motivation: 现有数据集主要来自发达国家,缺乏新兴经济体的行为多样性表示,且驾驶员面部记录侵犯隐私保护。需要开发能代表巴基斯坦真实驾驶环境的数据集。
- Method: 使用定制Android应用收集高频率加速度计、陀螺仪和GPS数据,与同步的道路视频结合,记录三种目标驾驶行为(正常、攻击性和危险),并在多种道路类型上采集数据。
- Result: 成功构建了包含原始、处理和语义层的结构化数据集,支持驾驶员行为分类、交通安全分析和ADAS开发的多模态分析。
- Conclusion: V-SenseDrive填补了全球驾驶员行为数据集的关键空白,为情境感知智能交通解决方案奠定了基础。
[14] Qianfan-VL: Domain-Enhanced Universal Vision-Language Models
Daxiang Dong,Mingming Zheng,Dong Xu,Bairong Zhuang,Wenyu Zhang,Chunhua Luo,Haoran Wang,Zijian Zhao,Jie Li,Yuxuan Li,Hanjun Zhong,Mengyue Liu,Jieting Chen,Shupeng Li,Lun Tian,Yaping Feng,Xin Li,Donggang Jiang,Yong Chen,Yehua Xu,Duohao Qin,Chen Feng,Dan Wang,Henghua Zhang,Jingjing Ha,Jinhui He,Yanfeng Zhai,Chengxin Zheng,Jiayi Mao,Jiacheng Chen,Ruchang Yao,Ziye Yuan,Jianmin Wu,Guangjun Xie,Dou Shen
Main category: cs.CV
TL;DR: Qianfan-VL是一个参数规模从30亿到700亿的多模态大语言模型系列,通过创新的领域增强技术和多阶段渐进式训练,在多个基准测试中达到最先进性能
- Motivation: 开发适用于企业部署场景的领域增强多模态模型,解决OCR、文档理解等特定领域的能力需求
- Method: 采用多阶段渐进式训练和高精度数据合成流水线,在百度昆仑P800芯片上进行大规模训练,实现超过90%的扩展效率
- Result: 在CCBench、SEEDBench IMG、ScienceQA、MMStar等基准测试中达到领先水平,OCRBench得分873,DocVQA达到94.75%,MathVista达到78.6%
- Conclusion: 该工作确立了开发领域增强多模态模型的有效方法学,验证了大规模AI基础设施训练SOTA级多模态模型的能力
[15] HazeFlow: Revisit Haze Physical Model as ODE and Non-Homogeneous Haze Generation for Real-World Dehazing
Junseong Shin,Seungwoo Chung,Yunjeong Yang,Tae Hyun Kim
Main category: cs.CV
TL;DR: HazeFlow是一个基于ODE的去雾框架,将大气散射模型重新表述为常微分方程,通过单步推理实现真实世界图像去雾,并利用马尔可夫链布朗运动生成非均匀雾霾数据来解决训练数据稀缺问题。
- Motivation: 现有深度学习方法缺乏配对的真实世界训练数据,导致域间差距大,而传统基于大气散射模型的物理方法难以处理真实世界的复杂雾霾模式。
- Method: 提出HazeFlow框架,将大气散射模型重新表述为ODE,借鉴Rectified Flow思想学习从雾霾图像到清晰图像的最优ODE轨迹;引入基于马尔可夫链布朗运动的非均匀雾霾生成方法。
- Result: 在多个真实世界去雾基准数据集上实现了最先进的性能表现。
- Conclusion: HazeFlow通过ODE框架和创新的雾霾生成方法,有效解决了真实世界去雾的挑战,展现了优越的泛化能力。
[16] TinyEcoWeedNet: Edge Efficient Real-Time Aerial Agricultural Weed Detection
Omar H. Khater,Abdul Jabbar Siddiqui,Aiman El-Maleh,M. Shamim Hossain
Main category: cs.CV
TL;DR: 该论文提出了一种压缩版的EcoWeedNet模型,通过结构化通道剪枝、量化感知训练和TensorRT加速,在Jetson Orin Nano边缘设备上实现了高效的杂草检测。
- Motivation: 农业领域部署深度学习模型面临边缘设备资源有限的挑战,需要开发轻量高效的模型来满足实时检测需求。
- Method: 采用结构化通道剪枝技术处理复杂架构(残差连接、注意力机制、拼接操作和CSP块),结合量化感知训练和NVIDIA TensorRT加速。
- Result: 模型大小减少68.5%,计算量减少3.2 GFLOPs,推理速度达到184 FPS(FP16),比基线快28.7%。在CottonWeedDet12数据集上,39.5%剪枝率的模型性能优于YOLO11n和YOLO12n,达到83.7%精确率、77.5%召回率和85.9% mAP50。
- Conclusion: 该方法证明了在保持高精度的同时显著提升效率,为精准农业提供了既高效又有效的解决方案。
[17] Learning Contrastive Multimodal Fusion with Improved Modality Dropout for Disease Detection and Prediction
Yi Gu,Kuniaki Saito,Jiaxin Ma
Main category: cs.CV
TL;DR: 提出了一种新颖的多模态学习框架,通过增强模态dropout和对比学习来解决模态不平衡和缺失问题,在临床疾病检测和预测任务中实现了最先进的性能。
- Motivation: 随着医疗诊断越来越多地利用多模态数据,机器学习模型需要有效融合异构信息,同时对缺失模态保持鲁棒性。现实世界存在模态不平衡和缺失等限制。
- Method: 提出集成增强模态dropout和对比学习的多模态学习框架,引入可学习的模态token来改进缺失感知的模态融合,并将传统的单模态对比目标与融合的多模态表示相结合。
- Result: 在大规模临床数据集上的实验结果表明,该方法实现了最先进的性能,特别是在只有单一模态可用的挑战性实际场景中。成功与最近的CT基础模型集成展示了其适应性。
- Conclusion: 该方法为多模态学习提供了有效、高效和可泛化的解决方案,具有显著的实际临床应用潜力,是一个可扩展、低成本的解决方案。
[18] Rethinking Pulmonary Embolism Segmentation: A Study of Current Approaches and Challenges with an Open Weight Model
Yixin Zhang,Ryan Chamberlain,Lawrance Ngo,Kevin Kramer,Maciej A. Mazurowski
Main category: cs.CV
TL;DR: 本研究系统评估了9种分割架构在肺栓塞(PE)分割任务上的表现,发现3D U-Net with ResNet编码器效果最佳,CNN模型优于ViT模型,分类预训练反而可能损害分割性能。
- Motivation: 肺栓塞分割是重要的医学影像任务,但缺乏对不同分割架构在统一框架下的系统性评估。本研究旨在填补这一空白,为PE分割提供性能基准和指导。
- Method: 使用490个CTPA扫描构建内部数据集,在统一测试框架下评估9种CNN和ViT分割架构,比较预训练和随机初始化权重的影响。
- Result: 最佳模型达到0.7131的平均Dice分数,在60个测试扫描中检测到181个栓子,有49个假阳性和28个假阴性。3D模型和CNN架构表现优于2D和ViT模型。
- Conclusion: 3D U-Net with ResNet是PE分割的有效架构,远端栓子分割仍是挑战。分类和分割任务可能依赖不同的判别特征,预训练策略需要谨慎选择。
[19] Improving Handshape Representations for Sign Language Processing: A Graph Neural Network Approach
Alessa Carbo,Eric Nalisnick
Main category: cs.CV
TL;DR: 提出一种新颖的图神经网络,将时间动态与静态手形配置分离,用于手语手形识别,在37个手形类别上达到46%的准确率。
- Motivation: 手形在手语中具有基础音系作用,但计算方法很少显式建模手形,限制了识别准确性和语言分析。
- Method: 结合解剖学信息图结构和对比学习,分离时间动态与静态手形配置的图神经网络方法。
- Result: 在签名序列中建立了首个结构化手形识别基准,在37个手形类别上达到46%准确率(基线方法为25%)。
- Conclusion: 该方法能有效解决手形识别中的类间细微差异和时间变化等关键挑战。
[20] Influence of Classification Task and Distribution Shift Type on OOD Detection in Fetal Ultrasound
Chun Kit Wong,Anders N. Christensen,Cosmin I. Bercea,Julia A. Schnabel,Martin G. Tolsgaard,Aasa Feragen
Main category: cs.CV
TL;DR: 本文研究在胎儿超声图像中,分类任务本身对OOD检测性能的影响,发现OOD检测效果随任务变化,最佳任务取决于ID-OOD标准(图像特征偏移或解剖特征偏移),且优异的OOD检测不一定保证最优的弃权预测。
- Motivation: 可靠的外分布检测对于深度学习模型在异质性图像特征和临床环境下的胎儿超声安全部署至关重要。现有研究主要关注不确定性量化方法,而本研究探讨分类任务本身的影响。
- Method: 通过八个不确定性量化方法在四个分类任务上的实验,分析OOD检测性能与任务的关系,以及ID-OOD标准(图像特征偏移和解剖特征偏移)的影响。
- Result: OOD检测性能随任务显著变化,最佳任务取决于定义的ID-OOD标准;优异的OOD检测不一定保证最优的弃权预测。
- Conclusion: 在医学图像分析中,需要将任务选择和不确定性策略与特定下游应用对齐。
[21] OrthoLoC: UAV 6-DoF Localization and Calibration Using Orthographic Geodata
Oussema Dhaouadi,Riccardo Marin,Johannes Meier,Jacques Kaiser,Daniel Cremers
Main category: cs.CV
TL;DR: 本文提出了OrthoLoC数据集,这是第一个大规模无人机图像与正射地理数据配对的数据集,用于解决无人机视觉定位问题,并提出了AdHoP优化技术提升特征匹配性能。
- Motivation: 在无网络连接或GPS支持的限制资源场景下,需要高精度视觉定位系统,但现有方法依赖大型图像数据库或重型3D模型不实用。正射地理数据轻量且易获取,但相关研究较少。
- Method: 构建包含16,425张无人机图像的多模态数据集,解耦图像检索和特征匹配以公平评估定位性能,并提出AdHoP优化技术可集成到任何特征匹配器中。
- Result: 通过全面评估分析了领域偏移、数据分辨率和共视性对定位精度的影响。AdHoP技术将匹配性能提升高达95%,平移误差减少高达63%。
- Conclusion: OrthoLoC数据集为无人机视觉定位提供了新的基准,AdHoP技术显著提升了定位精度,为解决资源受限环境下的高精度定位问题提供了有效方案。
[22] A Single Image Is All You Need: Zero-Shot Anomaly Localization Without Training Data
Mehrdad Moradi,Shengzhe Chen,Hao Yan,Kamran Paynabar
Main category: cs.CV
TL;DR: 提出了一种名为SSDnet的单图像异常定位方法,无需训练数据,利用卷积神经网络的归纳偏置进行自重建来检测异常。
- Motivation: 解决现实场景中缺乏训练数据或参考样本的零样本异常检测问题,仅使用测试图像本身进行异常定位。
- Method: 基于Deep Image Prior思想,设计基于patch的训练框架,通过掩码、patch打乱和小高斯噪声避免恒等映射,使用基于内积相似度的感知损失。
- Result: 在MVTec-AD数据集上达到0.99 AUROC和0.60 AUPRC,在fabric数据集上达到0.98 AUROC和0.67 AUPRC,优于现有方法。
- Conclusion: SSDnet无需外部训练数据、标签或参考,在噪声或缺失像素情况下仍保持鲁棒性,为零样本异常检测提供了有效解决方案。
[23] Align Where the Words Look: Cross-Attention-Guided Patch Alignment with Contrastive and Transport Regularization for Bengali Captioning
Riad Ahmed Anonto,Sardar Md. Saffat Zabin,M. Saifur Rahman
Main category: cs.CV
TL;DR: 该论文提出了一种针对低资源孟加拉语的视觉-语言模型,通过三重损失目标(PAL+InfoNCE+OT)改善图像与文本的对齐,在Flickr30k-1k和MSCOCO-1k数据集上取得了显著性能提升。
- Motivation: 解决低资源语言(如孟加拉语)中视觉-语言模型的挑战,包括配对数据稀缺、翻译对齐问题以及英语中心预训练忽略目标语言语义的问题。
- Method: 使用计算感知的孟加拉语字幕生成流程,包括冻结的MaxViT提取视觉特征、孟加拉语原生mBART-50解码器,以及轻量级桥梁连接模态。核心创新是三重损失目标:Patch-Alignment Loss(PAL)对齐真实和合成补丁描述符,InfoNCE强制全局真实-合成分离,基于Sinkhorn的最优传输确保平衡的细粒度补丁对应。
- Result: 在Flickr30k-1k上达到BLEU-4 12.29、METEOR 27.98、BERTScore-F1 71.20;在MSCOCO-1k上达到BLEU-4 12.00、METEOR 28.14、BERTScore-F1 75.40,优于强CE基线,并将真实-合成质心差距缩小41%。
- Conclusion: PAL+InfoNCE+OT的协同作用有效改善了低资源语言的视觉-语言模型对齐,减少了虚假匹配,在孟加拉语图像描述任务上取得了显著进展。
[24] TinyBEV: Cross Modal Knowledge Distillation for Efficient Multi Task Bird's Eye View Perception and Planning
Reeshad Khan,John Gauch
Main category: cs.CV
TL;DR: TinyBEV是一个统一的纯摄像头鸟瞰图框架,通过知识蒸馏将大型规划导向教师模型的能力压缩到紧凑的实时学生模型中,支持完整的自动驾驶堆栈功能。
- Motivation: 解决现有高效纯摄像头基线模型功能不完整的问题,将大规模多模态感知规划模型的能力移植到资源受限的实时自动驾驶部署场景。
- Method: 采用模型无关的多阶段蒸馏策略,结合特征级、输出级和自适应区域感知监督,将高容量多模态知识转移到轻量级BEV表示中。
- Result: 在nuScenes数据集上,TinyBEV达到39.0 mAP检测精度、1.08 minADE运动预测精度和0.32碰撞率,运行速度提升5倍(11 FPS),参数减少78%。
- Conclusion: 研究表明完整的自动驾驶智能可以在资源受限环境中保留,弥合了大规模多模态感知规划模型与部署就绪实时自动驾驶系统之间的差距。
[25] BlurBall: Joint Ball and Motion Blur Estimation for Table Tennis Ball Tracking
Thomas Gossard,Filip Radovic,Andreas Ziegler,Andrea Zell
Main category: cs.CV
TL;DR: 本文提出了一种新的运动模糊球体标注策略,将球体标注在模糊条纹的中心而非传统的前缘位置,并发布了乒乓球检测数据集,开发了BlurBall模型联合估计球体位置和运动模糊属性。
- Motivation: 现有标注方法将球体标记在模糊的前缘,忽视了与速度相关的运动线索,导致检测性能受限。运动模糊降低了快速移动物体的清晰度,特别是在球拍运动中,球体常呈现为条纹而非清晰点。
- Method: 引入新的标注策略,将球体置于模糊条纹中心并明确标注模糊属性;开发BlurBall模型,通过多帧输入的Squeeze-and-Excitation注意力机制联合估计球体位置和运动模糊属性。
- Result: 新的标注方法在各种模型上一致提升了检测性能;BlurBall模型在球体检测方面达到了最先进的结果,同时实现了更可靠的轨迹预测。
- Conclusion: 利用运动模糊不仅提高了检测精度,还实现了更可靠的轨迹预测,有益于实时体育分析。
[26] MVP: Motion Vector Propagation for Zero-Shot Video Object Detection
Binhua Huang,Ni Wang,Wendong Yao,Soumyabrata Dev
Main category: cs.CV
TL;DR: 提出了一种无需训练的视频目标检测方法MVP,通过关键帧检测和压缩域运动向量传播,在保持开放词汇检测能力的同时大幅降低计算成本
- Motivation: 解决在视频中逐帧运行大型开放词汇检测器计算成本过高的问题,寻求一种无需训练和标注的高效检测方案
- Method: 使用固定间隔的关键帧运行OWLv2检测器,通过压缩域运动向量(MV)在中间帧间传播检测结果,采用3x3网格聚合、面积增长检查和可选类别切换
- Result: 在ILSVRC2015-VID数据集上达到mAP@0.5=0.609,在宽松IoU阈值下接近逐帧检测性能,优于基于跟踪器的传播方法
- Conclusion: 压缩域传播是一种实用的方法,可以在减少检测器调用次数的同时保持视频中的强零样本覆盖能力
[27] Improving the color accuracy of lighting estimation models
Zitian Zhang,Joshua Urban Davis,Jeanne Phuong Anh Vu,Jiangtao Kuang,Jean-François Lalonde
Main category: cs.CV
TL;DR: 本文研究了高动态范围(HDR)光照估计方法的颜色鲁棒性,提出使用预训练的白平衡网络预处理输入图像来提升现有模型的颜色准确性,无需重新训练光照估计模型。
- Motivation: 现有的单图像HDR光照估计方法在颜色准确性方面存在不足,而颜色是影响增强现实应用中视觉真实感的关键因素。大多数评估方法将颜色与其他光照属性混淆,需要专门研究颜色鲁棒性。
- Method: 使用包含多样化光照颜色的新型HDR数据集,系统评估多种适应策略。主要方法是使用预训练的白平衡网络对输入图像进行预处理,然后输入到现有的光照估计模型中。
- Result: 实验结果表明,白平衡预处理方法在所有测试场景中都优于其他策略,显著提升了颜色鲁棒性。该方法在三种最先进的光照估计方法上都验证了有效性。
- Conclusion: 简单的预处理技术可以有效提升现有光照估计模型的颜色准确性,无需复杂的模型重新训练,为增强现实应用提供了实用的颜色鲁棒性解决方案。
[28] Check Field Detection Agent (CFD-Agent) using Multimodal Large Language and Vision Language Models
Sourav Halder,Jinjun Tong,Xinyu Wu
Main category: cs.CV
TL;DR: 本文提出了一种无需训练的新型支票字段检测框架,利用视觉语言模型和多模态大语言模型实现零样本检测,解决了传统方法对大规模标注数据的依赖问题。
- Motivation: 支票在金融交易中广泛使用但易受欺诈,传统检测方法需要大量标注数据,而这些数据由于隐私和专有性问题难以获取。
- Method: 结合视觉语言模型和多模态大语言模型,开发了无需训练的零样本检测框架,能够自动识别支票中的关键字段(如签名、MICR线、金额等)。
- Result: 在包含110张不同格式支票的手工标注数据集上测试,模型表现出强大的性能和泛化能力。
- Conclusion: 该框架不仅降低了金融场景中的部署门槛,还能作为生成高质量标注数据的引导机制,为开发专门的实时目标检测模型奠定基础。
[29] Losing the Plot: How VLM responses degrade on imperfect charts
Philip Wootaek Shin,Jack Sampson,Vijaykrishnan Narayanan,Andres Marquez,Mahantesh Halappanavar
Main category: cs.CV
TL;DR: 本文评估了当前主流视觉语言模型在图表理解任务中的表现,发现在图表存在失真或遮挡时模型性能显著下降,并出现幻觉问题。作者提出了CHART NOISe数据集来测试模型在噪声和遮挡条件下的鲁棒性。
- Motivation: 现有图表理解基准假设图表清晰且查询基于事实,但现实世界图表常包含失真并需要复杂推理。需要评估模型在退化条件下的表现。
- Method: 评估ChatGPT 4o、Claude Sonnet 4和Gemini 2.5 Pro在图表理解任务中的表现,创建CHART NOISe数据集包含图表失真、遮挡和反向不一致性测试。
- Result: 模型在图表失真或遮挡时性能急剧下降,幻觉问题(如数值捏造、趋势误判、实体混淆)更频繁出现,且在退化设置下仍过度自信。
- Conclusion: 研究揭示了图表推理中的系统性脆弱性,建立了首个结合失真、遮挡和反向不一致性的测试基准,提出了质量过滤和遮挡检测等缓解策略。
[30] CPT-4DMR: Continuous sPatial-Temporal Representation for 4D-MRI Reconstruction
Xinyang Wu,Muheng Li,Xia Li,Orso Pusterla,Sairos Safai,Philippe C. Cattin,Antony J. Lomax,Ye Zhang
Main category: cs.CV
TL;DR: 提出了一种基于神经表示的4D-MRI重建方法,用连续变形模型替代传统的离散相位分箱方法,显著提高了处理效率和运动捕捉能力。
- Motivation: 传统4D-MRI重建方法依赖相位分箱或模板扫描,难以捕捉时间变异性,工作流程复杂且计算负担重。
- Method: 采用双网络架构:空间解剖网络(SAN)编码连续3D解剖表示,时序运动网络(TMN)基于Transformer生成的呼吸信号产生时间一致的变形场。
- Result: 在19名志愿者的自由呼吸数据集上验证,该方法能准确捕捉规则和不规则呼吸模式,保持血管和支气管连续性,处理时间从5小时缩短到15分钟,单次3D体积推断时间小于1秒。
- Conclusion: 该方法显著提高了4D-MRI重建效率和质量,在4D放射治疗规划和实时自适应治疗中具有强大应用潜力。
[31] An Analysis of Kalman Filter based Object Tracking Methods for Fast-Moving Tiny Objects
Prithvi Raj Singh,Raju Gottumukkala,Anthony Maida
Main category: cs.CV
TL;DR: 本文评估了五种基于卡尔曼滤波的跟踪方法在快速移动小物体(如壁球)跟踪中的性能,发现DeepOCSORT在跟踪精度上表现最佳,但所有方法都存在显著的跟踪漂移问题。
- Motivation: 快速移动小物体的精确跟踪是计算机视觉中的挑战性问题,特别是在体育机器人应用中。现有卡尔曼滤波方法在处理不规则弹跳行为的快速移动物体时性能显著下降。
- Method: 使用包含10,000个标注壁球帧的自定义数据集,评估OCSORT、DeepOCSORT、ByteTrack、BoTSORT和StrongSORT五种跟踪方法,重点分析推理速度和每图像更新频率对跟踪精度的影响。
- Result: DeepOCSORT获得最低跟踪误差(平均ADE 31.15像素),ByteTrack处理速度最快(平均推理时间26.6ms)。但所有跟踪器都表现出显著的跟踪漂移,空间误差达3-11cm。
- Conclusion: 当前跟踪方法在处理快速移动小物体时存在根本性局限,误差率比标准物体跟踪基准高3-4倍,需要开发专门的方法论。
[32] MoCrop: Training Free Motion Guided Cropping for Efficient Video Action Recognition
Binhua Huang,Wendong Yao,Shaowu Chen,Guoxin Wang,Qingyuan Wang,Soumyabrata Dev
Main category: cs.CV
TL;DR: MoCrop是一个基于运动向量的自适应裁剪模块,用于压缩域视频动作识别,无需训练即可提升准确率或降低计算量
- Motivation: 解决压缩域视频动作识别中计算效率与准确率的平衡问题,利用H.264视频中已有的运动向量信息
- Method: 使用运动向量定位运动密集区域,通过去噪合并、蒙特卡洛采样和自适应裁剪三个步骤生成裁剪区域,应用于所有I帧
- Result: 在UCF101上,MoCrop在相同FLOPs下提升Top-1准确率3.5%,或在减少26.5%计算量下提升2.4%准确率;在CoViAR上达到89.2%准确率
- Conclusion: MoCrop具有强通用性,适用于多种骨干网络,为压缩域实时部署提供了实用解决方案
[33] Codebook-Based Adaptive Feature Compression With Semantic Enhancement for Edge-Cloud Systems
Xinyu Wang,Zikun Zhou,Yingjian Li,Xin An,Hongpeng Wang
Main category: cs.CV
TL;DR: 本文提出了一种基于码本的自适应特征压缩框架CAFC-SE,通过向量量化将视觉特征映射到离散索引,在低比特率条件下保持更多信息性视觉模式,提高了边缘-云系统的分析性能。
- Motivation: 现有方法在低比特率条件下性能较差,因为它们要么保留过多冗余细节,要么学习过度集中的符号分布。需要一种能够在低比特率下保持分析性能的有效特征压缩方法。
- Method: 使用基于码本的自适应特征压缩框架CAFC-SE,通过向量量化(VQ)将连续视觉特征映射到离散索引,选择性地传输到云端。VQ操作将特征向量投影到最近的视觉基元上。
- Result: 大量实验证明该方法在比特率和准确率方面具有优越性,特别是在低比特率条件下表现更稳健。
- Conclusion: CAFC-SE框架通过向量量化技术有效解决了低比特率条件下的特征压缩问题,为边缘-云系统提供了高效的分析性能。
[34] MK-UNet: Multi-kernel Lightweight CNN for Medical Image Segmentation
Md Mostafijur Rahman,Radu Marculescu
Main category: cs.CV
TL;DR: MK-UNet是一种超轻量级多核U型CNN架构,专为医学图像分割设计,在极低计算成本下实现优于现有方法的性能
- Motivation: 解决现有医学图像分割方法计算复杂度高、参数量大,难以在资源受限环境(如床边设备)中部署的问题
- Method: 设计多核深度卷积块(MKDC)处理多尺度空间关系,结合通道、空间和分组门控注意力机制增强显著特征提取
- Result: 仅需0.316M参数和0.314G FLOPs,在六个医学图像基准测试中DICE分数优于TransUNet、UNeXt等SOTA方法,参数减少333倍,性能提升最高达6.7%
- Conclusion: MK-UNet在保持高精度的同时大幅降低计算需求,为资源受限环境下的实时高保真医学诊断提供了无与伦比的解决方案
[35] BridgeSplat: Bidirectionally Coupled CT and Non-Rigid Gaussian Splatting for Deformable Intraoperative Surgical Navigation
Maximilian Fehrentz,Alexander Winkler,Thomas Heiliger,Nazim Haouchine,Christian Heiliger,Nassir Navab
Main category: cs.CV
TL;DR: BridgeSplat是一种新颖的可变形手术导航方法,通过将术中3D重建与术前CT数据耦合,在手术视频和体积患者数据之间建立桥梁。该方法将3D高斯分布绑定到CT网格上,通过光度监督联合优化高斯参数和网格变形。
- Motivation: 解决手术导航中手术视频与术前CT数据之间的差距问题,实现术中实时变形跟踪和CT数据更新。
- Method: 将3D高斯分布参数化相对于其父网格三角形,强制高斯分布与网格对齐,并通过光度监督联合优化高斯参数和网格变形,使变形能够传播回CT进行更新。
- Result: 在猪内脏手术和人肝模拟合成数据上验证了有效性,能够在单目RGB数据上实现术前CT的合理变形。
- Conclusion: BridgeSplat提供了一种有效的方法来桥接手术视频和体积患者数据,为可变形手术导航提供了新的解决方案。
[36] Source-Free Domain Adaptive Semantic Segmentation of Remote Sensing Images with Diffusion-Guided Label Enrichment
Wenjie Liu,Hongmin Liu,Lixin Zhang,Bin Fan
Main category: cs.CV
TL;DR: 本文提出了一种名为DGLE的扩散引导标签增强框架,用于解决源域数据不可访问情况下的无源域自适应语义分割问题。该方法通过从少量高质量伪标签出发,利用扩散模型传播生成完整的高质量伪标签集。
- Motivation: 当前无源域自适应研究中,自训练方法需要高质量伪标签,但现有方法直接优化整个噪声伪标签集效果有限。需要一种能够从少量高质量种子标签出发,逐步生成完整高质量伪标签的方法。
- Method: 1) 基于置信度过滤和超分辨率增强的伪标签融合方法获取高质量初始种子标签;2) 利用扩散模型对不规则分布的种子标签进行传播,生成完整高质量伪标签。
- Result: DGLE框架有效避免了直接优化完整伪标签集的困难,显著提高了伪标签质量,从而提升了模型在目标域的性能。
- Conclusion: 提出的扩散引导标签增强方法为无源域自适应语义分割提供了一种有效的伪标签优化策略,通过从少量高质量种子出发,利用扩散模型的能力生成高质量完整标签集。
[37] Hyperbolic Coarse-to-Fine Few-Shot Class-Incremental Learning
Jiaxin Dai,Xiang Xiang
Main category: cs.CV
TL;DR: 该论文提出在双曲空间中实现粗到细的少样本类增量学习,通过双曲对比学习和最大熵分布增强来提升分层数据的表示能力。
- Motivation: 双曲空间相比欧几里得空间在表示分层数据方面具有优势,而现有的C2FSCIL方法主要基于欧几里得空间,未能充分利用双曲空间的表示能力。
- Method: 使用Poincaré球模型将特征提取器嵌入双曲空间,引入双曲对比损失和双曲全连接层,并采用双曲空间的最大熵分布进行特征增强以缓解少样本过拟合。
- Result: 在C2FSCIL基准测试中,该方法有效提高了粗类和细类分类的准确率。
- Conclusion: 双曲空间嵌入为C2FSCIL任务提供了更有效的表示学习框架,特别是在处理分层数据和少样本场景时表现出优越性能。
[38] GeoRemover: Removing Objects and Their Causal Visual Artifacts
Zixin Zhu,Haoxiang Li,Xuelu Feng,He Wu,Chunming Qiao,Junsong Yuan
Main category: cs.CV
TL;DR: 本文提出了一种几何感知的两阶段框架,用于智能图像编辑中的物体移除,能够同时消除目标物体及其因果视觉伪影(如阴影和反射)。
- Motivation: 现有基于图像外观的方法要么严格遵循掩码对齐训练而无法移除未明确掩码的因果效应,要么采用松散掩码对齐策略缺乏可控性且可能过度擦除其他物体。这些限制源于忽视了物体几何存在与其视觉效应之间的因果关系。
- Method: 提出几何感知的两阶段框架:第一阶段从几何(如深度)中直接移除物体,使用严格掩码对齐监督实现强几何约束的结构感知编辑;第二阶段基于更新后的几何条件渲染逼真的RGB图像,因果视觉效应作为修改3D几何的结果被隐式考虑。引入基于正负样本对的偏好驱动目标来指导几何移除阶段的学习。
- Result: 在两个流行基准测试上的广泛实验表明,该方法在移除物体及其相关伪影方面达到了最先进的性能。
- Conclusion: 该方法通过解耦几何移除和外观渲染,有效解决了现有方法在移除物体因果视觉效应方面的局限性,实现了更智能和可控的图像编辑。
[39] SEGA: A Transferable Signed Ensemble Gaussian Black-Box Attack against No-Reference Image Quality Assessment Models
Yujia Liu,Dingquan Li,Tiejun Huang
Main category: cs.CV
TL;DR: 本文提出了SEGA方法,通过高斯平滑和梯度集成来提高无参考图像质量评估模型的黑盒攻击迁移性
- Motivation: 现有的NR-IQA模型白盒攻击方法在更现实的黑盒场景下迁移性较差,难以攻击未知的目标模型
- Method: SEGA方法通过应用高斯平滑到源模型并集成它们的平滑梯度来近似目标模型的梯度,并使用专门的扰动过滤掩码确保对抗扰动的不可感知性
- Result: 在CLIVE数据集上的实验结果表明SEGA具有优越的迁移性,能够成功实现基于迁移的黑盒攻击
- Conclusion: SEGA是首个解决NR-IQA模型攻击迁移性低挑战的方法,为揭示模型脆弱性和指导鲁棒系统设计提供了有效工具
[40] HadaSmileNet: Hadamard fusion of handcrafted and deep-learning features for enhancing facial emotion recognition of genuine smiles
Mohammad Junayed Hasan,Nabeel Mohammed,Shafin Rahman,Philipp Koehn
Main category: cs.CV
TL;DR: HadaSmileNet是一个新颖的特征融合框架,通过参数自由的Hadamard乘法融合将基于transformer的表征与生理基础的D-Markers直接集成,在微笑情绪识别任务中实现了最先进性能。
- Motivation: 现有基于多任务学习的框架在结合深度学习架构与手工D-Marker特征时存在计算效率低下的问题,需要辅助任务监督和复杂的损失平衡。
- Method: 提出HadaSmileNet框架,系统评估15种融合策略,发现Hadamard乘法融合能够实现直接特征交互同时保持计算效率。
- Result: 在四个基准数据集上取得最先进结果:UvA-NEMO(88.7%,+0.8)、MMI(99.7%)、SPOS(98.5%,+0.7)和BBC(100%,+5.0),参数减少26%且训练简化。
- Conclusion: 该框架的高效性和有效性使其特别适合需要实时情感计算能力的多媒体数据挖掘应用的实际部署。
[41] Event-guided 3D Gaussian Splatting for Dynamic Human and Scene Reconstruction
Xiaoting Yin,Hao Shi,Kailun Yang,Jiajun Zhai,Shangwei Guo,Lin Wang,Kaiwei Wang
Main category: cs.CV
TL;DR: 提出了一种基于事件相机和3D高斯泼溅的动态人体与静态场景联合重建框架,通过事件引导的损失函数解决快速运动下的模糊问题。
- Motivation: 从单目视频中重建动态人体和静态场景存在困难,特别是在快速运动时RGB帧会出现运动模糊。事件相机具有微秒级时间分辨率的优势,更适合动态人体重建。
- Method: 使用统一的3D高斯集合,其中包含可学习的语义属性。只有被分类为人体的高斯会进行形变动画,场景高斯保持静态。提出事件引导损失函数,匹配连续渲染之间的模拟亮度变化与事件流。
- Result: 在两个基准数据集ZJU-MoCap-Blur和MMHPSD-Blur上实现了最先进的人体-场景重建效果,在PSNR/SSIM指标上显著优于强基线,LPIPS指标降低,特别是在高速运动对象上表现优异。
- Conclusion: 该方法无需外部人体掩码,简化了单独高斯集合的管理,有效解决了快速运动下的模糊问题,为动态人体与静态场景的联合重建提供了有效解决方案。
[42] Live-E2T: Real-time Threat Monitoring in Video via Deduplicated Event Reasoning and Chain-of-Thought
Yuhan Wang,Cheng Liu,Zihan Zhao,Weichao Wu
Main category: cs.CV
TL;DR: Live-E2T是一个实时威胁监控框架,通过结构化语义元组、在线事件去重和基于大语言模型的推理机制,同时实现高性能实时威胁检测和可解释性决策。
- Motivation: 现有监督学习和生成模型方法难以同时满足实时性能和决策可解释性的要求,需要开发能够统一这两个目标的解决方案。
- Method: 1. 将视频帧解构为结构化的人-物-交互-地点语义元组;2. 提出高效的在线事件去重和更新机制;3. 使用思维链策略微调大语言模型进行透明逻辑推理。
- Result: 在XD-Violence和UCF-Crime等基准数据集上的实验表明,Live-E2T在威胁检测精度、实时效率和可解释性方面显著优于现有最先进方法。
- Conclusion: Live-E2T成功解决了实时威胁监控中实时性能与可解释性之间的权衡问题,为实际应用提供了有效的解决方案。
[43] The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers
Daiqing Qi,Handong Zhao,Jing Shi,Simon Jenni,Yifei Fan,Franck Dernoncourt,Scott Cohen,Sheng Li
Main category: cs.CV
TL;DR: 本文提出了一种新的多模态大语言模型(MLLMs)美学理解方法,通过构建专业摄影数据集PhotoCritique、开发多视角视觉融合模型PhotoEye,以及建立专业美学评估基准PhotoBench,显著提升了模型对图像美学的理解能力。
- Motivation: 现有MLLMs在美学视觉理解方面存在明显不足,主要局限于基础美学常识,无法满足专业摄影场景中对摄影技术、前后处理知识等专业美学分析的需求。
- Method: 1)构建大规模专业摄影数据集PhotoCritique;2)开发语言引导的多视角视觉融合模型PhotoEye;3)建立全面专业的美学评估基准PhotoBench。
- Result: 在现有基准和PhotoBench上,PhotoEye模型相比现有模型展现出明显优势,能够提供更专业、详细的美学分析和描述。
- Conclusion: 通过专业数据集、创新模型和评估基准的结合,本文为MLLMs的美学视觉理解提供了系统性的解决方案,显著提升了模型在真实世界摄影场景中的表现。
[44] Enhancing Video Object Segmentation in TrackRAD Using XMem Memory Network
Pengchao Deng,Shengqi Chen
Main category: cs.CV
TL;DR: 本文提出了基于XMem模型的实时MRI引导放疗肿瘤分割框架,用于TrackRAD2025挑战赛,能够对长序列cine-MRI进行肿瘤分割和运动跟踪。
- Motivation: 提高MRI引导放疗中肿瘤跟踪的精度,这对于提升癌症治疗的准确性和安全性至关重要。
- Method: 利用XMem模型(记忆增强架构)构建肿瘤分割框架,通过集成记忆机制来实时跟踪肿瘤运动,即使在标注数据有限的情况下也能实现高分割精度。
- Result: 由于详细实验记录丢失,无法报告精确的定量结果,但初步开发印象显示XMem框架表现出合理的分割性能并满足临床实时要求。
- Conclusion: 该工作有助于改善MRI引导放疗中的肿瘤跟踪精度,为癌症治疗的准确性和安全性提升做出贡献。
[45] SSCM: A Spatial-Semantic Consistent Model for Multi-Contrast MRI Super-Resolution
Xiaoman Wu,Lubin Gan,Siying Wu,Jing Zhang,Yunwei Ou,Xiaoyan Sun
Main category: cs.CV
TL;DR: 提出SSCM模型解决多对比度MRI超分辨率问题,通过动态空间扭曲、语义感知令牌聚合和空间-频率融合模块,实现空间语义一致性重建
- Motivation: 传统方法在空间语义一致性建模不足,且未充分利用频域信息,导致细粒度对齐差和高频细节恢复不足
- Method: SSCM模型包含三个核心模块:动态空间扭曲模块用于跨对比度空间对齐,语义感知令牌聚合块实现长程语义一致性,空间-频率融合块用于精细结构恢复
- Result: 在公开和私有数据集上的实验表明,SSCM以更少的参数实现了最先进的性能,确保空间和语义一致的重建
- Conclusion: SSCM模型有效解决了多对比度MRI超分辨率中的空间语义一致性问题,提高了重建质量
[46] OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
Zhuoxiao Chen,Hongyang Yu,Ying Xu,Yadan Luo,Long Duong,Yuan-Fang Li
Main category: cs.CV
TL;DR: 提出Oracle-educated GRPO (OraPO)与FactScore-based奖励(FactS)方法,在有限计算资源下实现高效的放射学报告生成,显著减少训练数据需求并达到SOTA性能
- Motivation: 解决现有放射学报告生成方法对大规模数据和计算资源的过度依赖问题,在预算受限条件下实现高效训练
- Method: 结合OraPO(将失败的GRPO探索转化为直接偏好监督)和FactS(基于临床事实提取和蕴含检查的密集奖励),采用单阶段强化学习训练
- Result: 在CheXpert Plus数据集上达到0.341 F1分数的新SOTA性能,训练数据减少2-3个数量级,仅需小型基础视觉语言模型和普通硬件
- Conclusion: OraPO和FactS构建了一个紧凑而强大的框架,显著提高了临床挑战性案例的学习效率,为资源受限环境下的放射学报告生成提供了可行方案
[47] Training-Free Multi-Style Fusion Through Reference-Based Adaptive Modulation
Xu Liu,Yibo Lu,Xinxian Wang,Xinyu Wu
Main category: cs.CV
TL;DR: AMSF是一个无需训练的参考式多风格融合框架,能够在扩散模型中实现可控的多参考风格融合,解决了现有方法只能处理单一风格和缺乏平衡机制的问题。
- Motivation: 现有参考式方法存在两个主要限制:(1) 只能接受单一风格图像,无法实现混合美学和扩展到更多风格;(2) 缺乏平衡多种风格影响的机制。
- Method: 通过语义标记分解模块编码所有风格图像和文本提示,自适应注入到冻结扩散模型的交叉注意力层中,然后使用相似性感知重加权模块在每个去噪步骤重新校准对每个风格分量的注意力分配。
- Result: 定性和定量评估显示,AMSF在多风格融合结果上持续优于最先进方法,且其融合设计可无缝扩展到两种或更多风格。
- Conclusion: AMSF是扩散模型中实现表达性多风格生成的实用步骤,无需微调或外部适配器即可实现平衡且用户可控的风格融合。
[48] MLF-4DRCNet: Multi-Level Fusion with 4D Radar and Camera for 3D Object Detection in Autonomous Driving
Yuzhi Wu,Li Xiao,Jun Liu,Guangfeng Jiang,XiangGen Xia
Main category: cs.CV
TL;DR: MLF-4DRCNet是一个用于3D目标检测的两阶段框架,通过4D雷达和相机图像的多级融合来解决现有方法对雷达点云稀疏性和噪声的忽视问题。
- Motivation: 4D毫米波雷达在自动驾驶中具有成本效益和鲁棒性,但其点云存在显著稀疏性和噪声,限制了其在3D目标检测中的独立应用。现有雷达-相机融合方法大多采用为LiDAR设计的BEV融合范式,忽视了雷达的固有缺陷。
- Method: 提出MLF-4DRCNet框架,包含三个关键模块:增强雷达点编码器(ERPE)通过三重注意力体素特征编码器将雷达点云与2D图像实例密集化;分层场景融合池化(HSFP)使用可变形注意力动态整合多尺度体素特征与2D图像特征;提议级融合增强(PLFE)通过融合图像特征精炼区域提议。
- Result: 在View-of-Delft(VoD)和TJ4DRadSet数据集上的实验结果表明,MLF-4DRCNet实现了最先进的性能,在VoD数据集上达到了与基于LiDAR的模型相当的性能。
- Conclusion: 该研究通过多级融合策略有效解决了4D雷达点云的稀疏性和噪声问题,为雷达-相机融合在3D目标检测中的应用提供了新的解决方案。
[49] Prompt-Guided Dual Latent Steering for Inversion Problems
Yichen Wu,Xu Liu,Chenxuan Zhao,Xinyu Wu
Main category: cs.CV
TL;DR: PDLS提出了一种基于Rectified Flow模型的无训练框架,通过双流潜在空间引导解决扩散模型图像重建中的语义漂移问题。
- Motivation: 当前方法将图像编码为单个潜在向量时,难以平衡结构保真度和语义准确性,导致重建图像出现语义漂移(如细节模糊或属性错误)。
- Method: PDLS将反演过程分解为两个互补流:结构路径保持源图像完整性,语义路径由提示词引导。通过最优控制问题建模,使用线性二次调节器(LQR)获得闭式解,动态引导生成轨迹。
- Result: 在FFHQ-1K和ImageNet-1K上的广泛实验表明,PDLS在各种反演任务(高斯去模糊、运动去模糊、超分辨率和自由形式修复)中,比单潜在基线产生更忠实于原始图像且语义信息更一致的重建结果。
- Conclusion: PDLS框架无需昂贵的逐图像优化,能有效防止语义漂移同时保留精细细节,为扩散模型图像重建提供了新的解决方案。
[50] Learning neuroimaging models from health system-scale data
Yiwei Lyu,Samir Harake,Asadur Chowdury,Soumyanil Banerjee,Rachel Gologorsky,Shixuan Liu,Anna-Katharina Meissner,Akshay Rao,Chenhui Zhao,Akhil Kondepudi,Cheng Jiang,Xinhai Hou,Rushikesh S. Joshi,Volker Neuschmelting,Ashok Srinivasan,Dawn Kleindorfer,Brian Athey,Vikas Gulani,Aditya Pandey,Honglak Lee,Todd Hollon
Main category: cs.CV
TL;DR: 开发了Prima,首个用于神经影像的视觉语言模型,在52种神经疾病诊断中平均AUC达92.0%,优于现有AI模型,可改善医疗系统效率。
- Motivation: 全球MRI需求增长给医疗系统带来压力,特别是在资源匮乏地区。需要AI工具来缓解医生负担、缩短诊断时间。
- Method: 利用大型学术医疗系统作为数据引擎,训练基于22万例MRI研究的视觉语言模型,采用分层视觉架构提供通用可迁移的MRI特征。
- Result: 在包含3万例MRI研究的1年系统测试中,Prima在主要神经疾病诊断中表现优异,提供可解释的鉴别诊断和工作优先级排序。
- Conclusion: Prima展示了健康系统规模视觉语言模型的变革潜力,有助于推进AI驱动的医疗保健,减少医疗系统偏见。
[51] Understanding-in-Generation: Reinforcing Generative Capability of Unified Model via Infusing Understanding into Generation
Yuanhuiyi Lyu,Chi Kit Wong,Chenfei Liao,Lutao Jiang,Xu Zheng,Zexin Lu,Linfeng Zhang,Xuming Hu
Main category: cs.CV
TL;DR: 本文提出了一种新的统一模型推理框架Understanding-in-Generation (UiG),通过将理解能力融入生成过程来提升文本到图像生成性能
- Motivation: 现有的Chain-of-Thought方法将理解和生成过程分离,限制了统一模型在解决生成能力不足问题上的推理指导能力
- Method: 引入"图像编辑"作为桥梁,在推理过程中通过强大的理解能力提供生成指导,逐步将理解融入生成过程
- Result: 在TIIF基准测试的长提示设置上实现了3.92%的性能提升,显著优于现有的文本到图像推理方法
- Conclusion: UiG框架通过理解与生成的深度融合,有效缓解了生成能力的局限性,为统一模型的文本到图像生成提供了新的推理范式
[52] Zero-shot Monocular Metric Depth for Endoscopic Images
Nicolas Toussaint,Emanuele Colleoni,Ricardo Sanchez-Matilla,Joshua Sutcliffe,Vanessa Thompson,Muhammad Asad,Imanol Luengo,Danail Stoyanov
Main category: cs.CV
TL;DR: 本文提出了一个用于内窥镜图像深度估计的综合基准测试和新颖合成数据集EndoSynth,通过微调深度基础模型显著提升了在真实内窥镜图像上的性能。
- Motivation: 内窥镜图像深度估计领域缺乏稳健的基准测试和高质量数据集,限制了模型在临床场景中的泛化能力评估和应用。
- Method: 创建了包含真实内窥镜图像的基准测试,并开发了带有真实深度和分割掩码的合成数据集EndoSynth,通过微调深度基础模型来提升性能。
- Result: 使用合成数据集微调深度基础模型后,在大多数未见过的真实数据上准确率显著提升。
- Conclusion: 该工作通过提供基准测试和合成数据集,推动了内窥镜图像深度估计领域的发展,为未来研究提供了重要资源。
[53] LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection
Lanhu Wu,Zilin Gao,Hao Fei,Mong-Li Lee,Wynne Hsu
Main category: cs.CV
TL;DR: 本文提出了一种名为LEAF-Mamba的新型RGB-D显著性目标检测方法,通过局部强调状态空间模块和自适应融合模块,有效解决了现有方法在局部语义建模和跨模态融合方面的不足。
- Motivation: 现有的RGB-D显著性目标检测方法主要依赖CNN(受限于局部感受野)或Vision Transformers(存在二次复杂度问题),难以平衡性能与计算效率。状态空间模型(SSM)如Mamba在建模长距离依赖关系方面具有线性复杂度的优势,但直接应用于RGB-D SOD会导致局部语义不足和跨模态融合不充分的问题。
- Method: 提出LEAF-Mamba模型,包含两个核心组件:1)局部强调状态空间模块(LE-SSM),用于捕获两种模态的多尺度局部依赖关系;2)基于SSM的自适应融合模块(AFM),用于实现互补的跨模态交互和可靠的跨模态集成。
- Result: 在广泛的实验中,LEAF-Mamba在16种最先进的RGB-D SOD方法中,在效能和效率方面均表现出色。此外,该方法在RGB-T SOD任务上也取得了优异性能,证明了强大的泛化能力。
- Conclusion: LEAF-Mamba通过结合局部强调状态空间模块和自适应融合模块,成功解决了RGB-D显著性目标检测中的局部语义建模和跨模态融合问题,在保持线性复杂度的同时实现了卓越的性能和泛化能力。
[54] Lightweight Vision Transformer with Window and Spatial Attention for Food Image Classification
Xinle Gao,Linghui Ye,Zhiyong Xiao
Main category: cs.CV
TL;DR: 提出了一种结合窗口多头注意力机制和空间注意力机制的轻量级食品图像分类算法,在减少参数和计算量的同时保持高分类精度
- Motivation: 食品行业对生产质量和效率要求不断提高,但Vision Transformer模型参数多、计算复杂度高,需要开发轻量级解决方案
- Method: 集成窗口多头注意力机制(WMHAM)和空间注意力机制(SAM),WMHAM通过窗口划分降低计算成本,SAM自适应强调关键空间区域
- Result: 在Food-101和Vireo Food-172数据集上分别达到95.24%和94.33%的准确率,同时显著减少参数和FLOPs
- Conclusion: 该方法在计算效率和分类性能之间取得了有效平衡,适合在资源受限环境中部署
[55] OSDA: A Framework for Open-Set Discovery and Automatic Interpretation of Land-cover in Remote Sensing Imagery
Siyi Chen,Kai Wang,Weicong Pang,Ruiming Yang,Ziru Chen,Renjun Gao,Alexis Kai Hon Lau,Dasa Gu,Chenchen Zhang,Cheng Li
Main category: cs.CV
TL;DR: OSDA是一个三阶段框架,用于遥感图像中的开放集土地覆盖发现、分割和描述,无需人工标注,结合像素级精度和高级语义理解。
- Motivation: 遥感中的开放集土地覆盖分析需要实现细粒度空间定位和语义开放分类,既要检测和分割无类别监督的新对象,又要通过多模态推理为其分配可解释的语义标签。
- Method: 三阶段流程:1)使用可提示的微调分割模型(SAM)进行精确发现和掩码提取;2)通过两阶段微调的多模态大语言模型(MLLM)进行语义归因和上下文描述;3)使用LLM作为评判者并结合人工评分进行MLLM评估。
- Result: 该框架支持跨不同卫星图像的鲁棒评估,无需人工标注,为动态土地覆盖监测提供了可扩展和可解释的解决方案。
- Conclusion: OSDA在自动地图更新和大规模地球观测分析方面显示出强大潜力,解决了开放世界遥感解释中的关键挑战。
[56] Overview of PlantCLEF 2021: cross-domain plant identification
Herve Goeau,Pierre Bonnet,Alexis Joly
Main category: cs.CV
TL;DR: 该论文介绍了LifeCLEF 2021植物识别挑战赛,旨在评估如何利用植物标本馆数据改进生物多样性丰富但数据贫乏地区的植物自动识别能力。
- Motivation: 当前植物自动识别技术主要依赖北美和西欧的野外照片数据,而生物多样性最丰富的热带地区数据稀缺。但植物标本馆收藏了大量热带地区的植物标本,可作为补充数据源。
- Method: 设计跨域分类任务,训练集包含数十万份植物标本馆标本和数千张野外照片,测试集仅包含野外照片。数据集聚焦南美洲圭亚那地盾地区的约1000种植物。
- Result: 挑战赛评估了不同研究团队提出的方法,分析了利用标本馆数据改进热带地区植物识别的效果。
- Conclusion: 植物标本馆数据可以作为解决热带地区植物识别数据稀缺问题的有效补充资源,跨域学习方法有望提升数据贫乏地区的植物识别性能。
[57] AGSwap: Overcoming Category Boundaries in Object Fusion via Adaptive Group Swapping
Zedong Zhang,Ying Tai,Jianjun Qian,Jian Yang,Jun Li
Main category: cs.CV
TL;DR: 本文提出AGSwap方法解决文本到图像生成中跨类别对象融合的问题,并引入COF数据集进行评测。
- Motivation: 现有方法在跨类别对象融合时存在偏差、视觉混乱和语义不一致的问题,且缺乏全面的基准数据集。
- Method: AGSwap方法包含两个关键组件:组级嵌入交换和自适应组更新,通过特征操作和动态优化机制实现语义融合。
- Result: 实验表明AGSwap在简单和复杂提示下都优于现有最先进的组合T2I方法,包括GPT-Image-1。
- Conclusion: AGSwap是一种简单而高效的跨类别对象融合方法,配合新构建的COF数据集,显著提升了文本到图像生成的融合质量。
[58] Overview of LifeCLEF Plant Identification task 2019: diving into data deficient tropical countries
Herve Goeau,Pierre Bonnet,Alexis Joly
Main category: cs.CV
TL;DR: 该论文介绍了LifeCLEF 2019植物识别挑战赛,旨在评估在数据稀缺地区(如圭亚那地盾和亚马逊雨林)的植物自动识别性能,并与热带植物专家进行对比。
- Motivation: 虽然深度学习在植物识别方面取得了进展,但现有数据仅覆盖少数物种,而全球有近369,000种植物。该挑战赛旨在解决数据稀缺区域的植物识别问题。
- Method: 基于包含10,000种物种的数据集,主要关注圭亚那地盾和北亚马逊雨林地区,比较了参与研究组的自动化系统与热带植物专家的性能。
- Result: 论文总结了参与研究组采用的方法和系统,并对主要结果进行了分析。
- Conclusion: 该挑战赛为数据稀缺地区的植物自动识别提供了评估框架,并展示了当前技术与专家水平的对比。
[59] RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images
Ke Li,Di Wang,Ting Wang,Fuyu Dong,Yiming Zhang,Luyao Zhang,Xiangyu Wang,Shaofeng Li,Quan Wang
Main category: cs.CV
TL;DR: RSVG-ZeroOV是一个无需训练的零样本开放词汇遥感视觉定位框架,利用冻结的基础模型实现开放场景下的目标定位
- Motivation: 解决现有遥感视觉定位方法受限于封闭词汇集、依赖高质量数据集和耗时微调的问题,探索冻结通用基础模型在零样本开放词汇场景下的潜力
- Method: 三阶段框架:1)利用视觉语言模型获取文本查询与视觉区域的交叉注意力图;2)利用扩散模型的细粒度建模能力补充结构形状信息;3)通过注意力进化模块抑制无关激活,生成纯净分割掩码
- Result: 大量实验表明该框架在弱监督和零样本方法中表现一致优于现有方法
- Conclusion: RSVG-ZeroOV提供了一个无需复杂任务特定训练的高效可扩展解决方案,为开放词汇遥感视觉定位开辟了新途径
[60] What Makes You Unique? Attribute Prompt Composition for Object Re-Identification
Yingquan Wang,Pingping Zhang,Chong Sun,Dong Wang,Huchuan Lu
Main category: cs.CV
TL;DR: 本文提出了属性提示组合框架,利用文本语义增强目标重识别的判别性和泛化能力,通过属性提示生成器和快慢训练策略在多个数据集上超越现有方法。
- Motivation: 解决现有目标重识别模型在单域和跨域场景中的局限性:单域模型容易过拟合域特定特征,跨域模型可能抑制身份特定判别线索。
- Method: 提出属性提示组合框架,包括属性提示生成器和快慢训练策略。属性提示生成器包含语义属性字典和提示组合模块,快慢训练策略通过快速更新流和慢速更新流平衡重识别特定判别性和泛化表示学习。
- Result: 在传统和域泛化重识别数据集上的大量实验表明,该框架在判别性和泛化性方面均优于最先进方法。
- Conclusion: 所提出的框架通过利用文本语义有效增强了目标重识别的判别性和泛化能力,为解决单域和跨域重识别问题提供了有效解决方案。
[61] Pre-training CLIP against Data Poisoning with Optimal Transport-based Matching and Alignment
Tong Zhang,Kuofeng Gao,Jiawang Bai,Leo Yu Zhang,Xin Yin,Zonghui Wang,Shouling Ji,Wenzhi Chen
Main category: cs.CV
TL;DR: OTCCLIP是一个基于最优传输的框架,用于重建图像-文本对,通过细粒度视觉和文本特征之间的最优传输距离来重新分配新的标题,从而提高CLIP模型对数据中毒和后门攻击的防御能力。
- Motivation: 现有的防御方法仅依赖图像和标题的全局表示来纠正中毒的图像-文本对,忽略了细粒度特征,可能引入错误的配对并损害CLIP预训练。
- Method: 提出基于最优传输的距离度量来衡量细粒度视觉和文本特征集之间的距离,并基于该距离重新分配标题;同时使用最优传输目标函数促进模态间和模态内的细粒度对齐。
- Result: OTCCLIP成功降低了中毒攻击的攻击成功率,相比之前的方法显著提高了CLIP在中毒数据集上的零样本和线性探测性能。
- Conclusion: OTCCLIP通过最优传输方法有效提升了CLIP模型对数据中毒攻击的鲁棒性,同时保持了模型的性能。
[62] Knowledge Transfer from Interaction Learning
Yilin Gao,Kangyi Chen,Zhongxing Peng,Hengjie Lu,Shugong Xu
Main category: cs.CV
TL;DR: 提出LFI框架,通过建模视觉理解作为交互过程来解决视觉基础模型从视觉语言模型知识转移的局限性,在多个基准测试中取得显著提升。
- Motivation: 现有视觉基础模型主要采用结果导向范式,忽视了视觉语言模型中跨模态交互过程,导致知识转移效果和泛化能力受限。
- Method: 提出交互查询和交互监督两个技术创新,前者维持网络层间持久关系结构,后者基于视觉语言模型的跨模态注意力机制。
- Result: 在TinyImageNet分类上提升3.3mAP,COCO检测/分割提升1.6mAP/2.4AP,跨域设置下PACS和VLCS分别提升2.4和9.3零样本性能,参数开销小且收敛更快。
- Conclusion: LFI框架通过显式建模交互过程实现了更忠实高效的知识转移,在认知对齐方面优于结果导向方法2.7倍。
[63] HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection
Ruichao Hou,Xingyuan Li,Tongwei Ren,Dongming Zhou,Gangshan Wu,Jinde Cao
Main category: cs.CV
TL;DR: 提出HyPSAM方法,利用SAM的零样本泛化能力进行RGB-热成像显著目标检测,通过动态融合网络和即插即用优化网络实现高质量检测
- Motivation: 解决RGB-热成像显著目标检测中特征融合不充分和数据稀缺的问题,提升边界精度和完整目标检测能力
- Method: 1. 动态融合网络(DFNet)生成初始显著图作为视觉提示;2. 即插即用优化网络(P2RNet)使用混合提示引导SAM优化显著图
- Result: 在三个公开数据集上达到最先进性能,具有显著通用性,可与不同RGB-T SOD方法集成获得性能提升
- Conclusion: HyPSAM展示了提示工程在RGB-T SOD领域的潜力,实现了高质量的多模态显著目标检测
[64] TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing
Susmit Neogi
Main category: cs.CV
TL;DR: 提出TriFusion-AE多模态交叉注意力自编码器,融合文本先验、单目深度图和LiDAR点云,提升点云去噪和重建的鲁棒性
- Motivation: LiDAR点云易受噪声、遮挡和对抗性破坏影响,传统自编码器在真实场景下性能下降
- Method: 通过多模态交叉注意力机制对齐文本语义、图像几何特征和LiDAR空间结构,实现联合表示学习
- Result: 在强对抗攻击和重噪声条件下显著优于CNN自编码器,在nuScenes-mini数据集上验证有效性
- Conclusion: 提出的多模态融合框架具有模型无关性,可无缝集成到任何CNN点云自编码器中
[65] COLT: Enhancing Video Large Language Models with Continual Tool Usage
Yuyang Liu,Xinyuan Shi,Bang Yang,Peilin Zhou,Jiahua Dong,Long Chen,Ian Reid,Xiaondan Liang
Main category: cs.CV
TL;DR: 本文提出了一种名为COLT的方法,旨在增强开源视频大语言模型的持续工具使用能力,使其能够在不断演化的工具流中自动获取工具使用能力,而不会忘记已学习的工具。
- Motivation: 现有的视频大语言模型工具使用方法要么依赖于提示闭源模型,要么采用指令调优范式,但都假设工具库是固定的,难以适应工具数据持续演化的真实环境。
- Method: COLT方法包含一个可学习的工具代码本作为工具特定的记忆系统,根据用户指令与代码本中工具特征的相似度动态选择相关工具,并收集了视频中心化的工具使用指令调优数据集VideoToolBench。
- Result: 在现有视频大语言模型基准和工具使用特定的VideoToolBench数据集上的广泛实验表明,COLT方法达到了最先进的性能。
- Conclusion: COLT方法成功解决了视频大语言模型在持续工具流环境中的工具使用问题,避免了灾难性遗忘,展现了优异的性能。
[66] FixingGS: Enhancing 3D Gaussian Splatting via Training-Free Score Distillation
Zhaorui Wang,Yi Gu,Deming Zhou,Renjing Xu
Main category: cs.CV
TL;DR: FixingGS是一种无需训练的3D高斯溅射增强方法,利用扩散模型解决稀疏视角3D重建中的伪影和视图不一致问题
- Motivation: 稀疏视角下的3D高斯溅射重建存在视觉信息不足的问题,导致伪影和视图不一致,现有方法难以保证多视图一致性
- Method: 提出蒸馏方法提供更准确和跨视图一致的扩散先验,结合自适应渐进增强方案优化欠约束区域的重建
- Result: 实验表明FixingGS在视觉质量和重建性能上优于现有最先进方法
- Conclusion: FixingGS能有效去除伪影并填充缺失内容,实现高质量的稀疏视角3D重建
[67] Bi-VLM: Pushing Ultra-Low Precision Post-Training Quantization Boundaries in Vision-Language Models
Xijun Wang,Junyun Huang,Rayyan Abdalla,Chengyuan Zhang,Ruiqi Xian,Dinesh Manocha
Main category: cs.CV
TL;DR: Bi-VLM提出了一种基于高斯分位数的非均匀权重分离方法,通过显著性感知混合量化算法对视觉语言模型进行超低比特量化(≤2比特),在保持性能的同时显著提升效率。
- Motivation: 视觉语言模型的计算需求和内存要求过高,限制了其在硬件受限环境中的应用,需要在超低比特精度下实现更高的效率。
- Method: 基于高斯分位数非均匀分离模型权重,将权重分为异常值(显著)和多个正常值(不显著)子集,提出显著性感知混合量化算法,根据显著性度量和压缩目标对缩放器和二进制矩阵施加不同约束。
- Result: 在视觉问答任务上,Bi-VLM在语言模型部分比SOTA提升3%-47%,在整个VLM上提升4%-45%。量化模型存在90%-99%的图像令牌冗余,可进一步剪枝提升效率。
- Conclusion: Bi-VLM成功实现了视觉语言模型的超低比特量化,在保持性能的同时显著提升了计算效率,为硬件受限环境下的应用提供了可行方案。
[68] DiSSECT: Structuring Transfer-Ready Medical Image Representations through Discrete Self-Supervision
Azad Singh,Deepak Mishra
Main category: cs.CV
TL;DR: DiSSECT是一个自监督学习框架,通过引入多尺度向量量化来创建离散表示瓶颈,抑制捷径学习,提高医学图像表示的可迁移性和鲁棒性。
- Motivation: 现有自监督学习方法依赖复杂架构、解剖学先验或精心调优的数据增强,限制了可扩展性和泛化能力,且在胸片等高解剖相似性、病理细微的模态中容易发生捷径学习。
- Method: 在自监督学习流程中集成多尺度向量量化,施加离散表示瓶颈,约束模型学习可重复、结构感知的特征,同时抑制视图特定或低效模式。
- Result: DiSSECT在分类和分割任务上表现优异,需要极少或无需微调,在低标签情况下显示出高标签效率,在多个公共医学影像数据集上验证了其鲁棒性和泛化能力。
- Conclusion: DiSSECT通过离散表示瓶颈有效解决了医学图像自监督学习中的捷径学习问题,提供了可迁移性强、高效的表示学习方法。
[69] Real-time Deer Detection and Warning in Connected Vehicles via Thermal Sensing and Deep Learning
Hemanth Puppala,Wayne Sarasua,Srinivas Biyaguda,Farhad Farzinpour,Mashrur Chowdhury
Main category: cs.CV
TL;DR: 本文提出了一种结合热成像、深度学习和车联网通信的实时检测与驾驶员预警系统,用于减少鹿车碰撞事故。系统在12000张热成像鹿图像数据集上训练,达到98.84%的平均精度,并在实地测试中验证了有效性。
- Motivation: 美国每年发生约210万起鹿车碰撞事故,导致440人死亡、59000人受伤和100亿美元经济损失,同时导致鹿群数量下降。现有可见光摄像头在恶劣天气条件下检测效果不足60%,需要更可靠的解决方案。
- Method: 使用热成像技术结合深度学习算法进行实时鹿检测,当检测到高概率目标时,通过蜂窝车联网(CV2X)通信设备向周围车辆和路边单元广播预警信息。
- Result: 系统在验证集上达到98.84%平均精度、95.44%精确率和95.96%召回率。实地测试显示热成像在恶劣天气下保持88-92%检测准确率,端到端延迟始终低于100毫秒。
- Conclusion: 该研究通过热成像和车联网技术为减少鹿车碰撞事故建立了可行的技术路径,系统在各种天气条件下都能提供可靠的预警功能。
[70] Towards Application Aligned Synthetic Surgical Image Synthesis
Danush Kumar Venkatesh,Stefanie Speidel
Main category: cs.CV
TL;DR: SAADi框架通过将扩散模型与下游任务对齐,解决了手术数据稀缺问题,避免了数据记忆化导致的样本不一致问题,在分类和分割任务上取得了显著性能提升。
- Motivation: 手术数据标注稀缺限制了深度学习系统在计算机辅助干预中的发展,现有扩散模型存在数据记忆化问题,导致生成样本不一致且缺乏多样性,可能损害下游任务性能。
- Method: 提出SAADi框架,构建偏好和非偏好合成图像对,通过轻量级微调使扩散模型的图像生成过程与下游目标明确对齐。
- Result: 在三个手术数据集上的实验显示,分类任务提升7-9%,分割任务提升2-10%,对代表性不足的类别改进尤为显著。迭代细化合成样本可进一步提升性能4-10%。
- Conclusion: SAADi方法克服了样本退化问题,确立了任务感知对齐作为缓解数据稀缺和推进手术视觉应用的关键原则。
[71] A Kernel Space-based Multidimensional Sparse Model for Dynamic PET Image Denoising
Kuang Xiaodong,Li Bingxuan,Li Yuan,Rao Fan,Ma Gege,Xie Qingguo,Mok Greta S P,Liu Huafeng,Zhu Wentao
Main category: cs.CV
TL;DR: 提出了一种基于模型神经网络的动态PET图像去噪方法,通过核空间多维稀疏模型和神经网络参数优化,实现了优于基线方法的去噪性能。
- Motivation: 动态PET图像中短时间帧的图像质量受限于统计信息不足,需要有效的去噪方法来提高时空分辨率。
- Method: 建立基于核空间的多维稀疏模型,利用动态PET的帧间空间相关性和帧内结构一致性,并用神经网络替代参数估计过程,形成端到端的KMDS-Net。
- Result: 在模拟和真实数据上的实验结果表明,KMDS-Net在动态PET去噪方面表现出强大的性能,优于之前的基线方法。
- Conclusion: 该方法可有效实现动态PET的高时空分辨率,源代码已公开。
[72] Surgical Video Understanding with Label Interpolation
Garam Kim,Tae Kyeong Jeong,Juyoun Park
Main category: cs.CV
TL;DR: 提出了一种结合光流分割标签插值和多任务学习的新框架,解决机器人辅助手术中时空标注不平衡问题,提高手术场景理解的准确性和效率。
- Motivation: 机器人辅助手术需要精确理解视觉数据,但现有方法多为单任务,无法处理复杂的手术场景动态。多任务学习需要足够的像素级分割数据,但标注成本高,导致长期标注(如阶段和步骤)覆盖所有帧,而短期标注(如器械分割和动作检测)仅覆盖关键帧,存在时空不平衡问题。
- Method: 使用光流估计从标注的关键帧传播标签到相邻未标注帧,通过标签插值丰富稀疏的空间监督,平衡时空信息用于多任务学习训练。
- Result: 该框架提高了手术场景理解的准确性和效率,增强了机器人辅助手术的实用性。
- Conclusion: 结合光流标签插值和多任务学习的框架有效解决了手术场景中的时空标注不平衡问题,为机器人辅助手术提供了更全面的视觉理解能力。
[73] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation
Yanzuo Lu,Xin Xia,Manlin Zhang,Huafeng Kuang,Jianbin Zheng,Yuxi Ren,Xuefeng Xiao
Main category: cs.CV
TL;DR: Hyper-Bagel是一个统一的多模态加速框架,通过推测解码和多阶段蒸馏技术,同时加速多模态理解和生成任务,实现了2倍以上的理解加速和16-22倍的生成加速。
- Motivation: 随着多模态上下文包含越来越多的交错多模态标记,扩散去噪和自回归解码的迭代过程带来了显著的计算开销,需要高效的加速解决方案。
- Method: 采用分治策略,使用推测解码进行下一个标记预测,并通过多阶段蒸馏过程加速扩散去噪。结合对抗性蒸馏和人类反馈学习开发高效的1-NFE模型。
- Result: 在多模态理解任务上实现2倍以上加速;在生成任务中,无损6-NFE模型实现文本到图像生成16.67倍加速和图像编辑22倍加速;1-NFE模型支持近实时交互式编辑和生成。
- Conclusion: Hyper-Bagel框架通过先进的加速技术,在保持原始模型高质量输出的同时,显著提升了多模态交互的效率,使复杂的多模态交互变得无缝和即时。
[74] Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography
Gianmarco Spinaci,Lukas Klic,Giovanni Colavizza
Main category: cs.CV
TL;DR: 本研究评估了多模态大语言模型在基督教圣像单标签分类任务中的能力,发现GPT-4o和Gemini 2.5等模型在大多数情况下优于ResNet50基线,支持将LLMs作为数字人文工作流中的元数据管理工具。
- Motivation: 评估通用多模态LLMs是否能够解释通常由监督分类器处理的基督教圣像图像分类任务,并评估其性能表现。
- Method: 使用三个支持Iconclass的数据集(ArtDL、ICONCLASS、Wikidata),在三种条件下测试模型:仅使用类别标签、使用Iconclass描述、以及5样本的小样本学习,并与在相同数据集上微调的ResNet50基线进行比较。
- Result: Gemini-2.5 Pro和GPT-4o在大多数情况下优于ResNet50基线,但在Wikidata数据集上准确率显著下降。使用类别描述通常能提高零样本性能,而小样本学习效果较差。
- Conclusion: 通用多模态LLMs能够在视觉复杂的文化遗产领域进行分类,支持将其作为数字人文工作流中的元数据管理工具应用,未来需要研究提示优化和扩展到其他分类策略。
[75] ViG-LRGC: Vision Graph Neural Networks with Learnable Reparameterized Graph Construction
Ismael Elsharkawi,Hossam Sharara,Ahmed Rafea
Main category: cs.CV
TL;DR: 本文提出了可学习重参数化图构建(LRGC)方法,用于视觉图神经网络,通过可学习的注意力机制和软阈值重参数化来构建图像图表示,无需超参数搜索。
- Motivation: 传统ViG模型依赖非参数化统计方法构建图结构,无法选择最佳邻域且需要超参数调优。需要一种可学习的、无需超参数的图构建方法。
- Method: LRGC使用键-查询注意力计算节点间相似度,然后通过软阈值重参数化进行边选择,使用可学习参数自动调整每层的阈值。
- Result: 在ImageNet-1k数据集上,ViG-LRGC方法在相似模型规模下超越了最先进的ViG模型。
- Conclusion: LRGC提供了一种可学习的、无需超参数的图构建方法,能够更好地捕捉节点间关系,提升视觉图神经网络的性能。
[76] Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions
Junhao Su,Yuanliang Wan,Junwei Yang,Hengyu Shi,Tianyang Han,Junfeng Luo,Yurui Qiu
Main category: cs.CV
TL;DR: 本文提出结构化反思方法,通过将错误到修复的路径转化为明确、可控且可训练的动作,来增强大型语言模型在多轮工具调用中的可靠性和错误恢复能力。
- Motivation: 当前基于工具增强的大型语言模型通常使用监督模仿或粗粒度强化学习进行训练,这些方法只优化单次工具调用。现有的自我反思实践依赖于启发式提示或单向推理,模型被要求'多思考'而不是学习错误诊断和修复,这在多轮交互中很脆弱,失败后模型往往会重复同样的错误。
- Method: 提出结构化反思方法,让代理产生简短而精确的反思:使用前一步的证据诊断失败,然后提出正确、可执行的后续调用。训练时结合DAPO和GSPO目标,以及针对工具使用量身定制的奖励方案,优化逐步策略:反思、调用、最终。
- Result: 在BFCL v3和Tool-Reflection-Bench上的实验显示,在多轮工具调用成功率和错误恢复方面取得了显著提升,并减少了冗余调用。
- Conclusion: 使反思变得明确并直接优化它,提高了工具交互的可靠性,并为代理从失败中学习提供了可复现的路径。
[77] Attack for Defense: Adversarial Agents for Point Prompt Optimization Empowering Segment Anything Model
Xueyu Liu,Xiaoyi Zhang,Guangze Shi,Meilin Liu,Yexin Lai,Yongfei Wu,Mingqiang Wei
Main category: cs.CV
TL;DR: 提出Point Prompt Defender框架,通过对抗性强化学习自动优化SAM的点提示,采用攻击-防御范式提升分割性能
- Motivation: 现有方法依赖启发式或手动设计的提示,限制了可扩展性和泛化能力,需要自动化的提示优化方案
- Method: 构建双空间图表示图像块,使用DQN训练攻击者和防御者智能体,攻击者学习破坏SAM分割,防御者学习抑制破坏性提示
- Result: 实验表明该方法有效提升SAM的鲁棒性和泛化能力,无需重新训练即可增强不同任务的分割性能
- Conclusion: 建立了一个灵活、可解释、即插即用的提示优化框架,为基于提示的分割提供了新思路
[78] SmartWilds: Multimodal Wildlife Monitoring Dataset
Jenna Kline,Anirudh Potlapally,Bharath Pillai,Tanishka Wani,Rugved Katole,Vedant Patil,Penelope Covey,Hari Subramoni,Tanya Berger-Wolf,Christopher Stewart
Main category: cs.CV
TL;DR: SmartWilds是首个多模态野生动物监测数据集,包含无人机图像、相机陷阱照片视频和生物声学录音,支持多模态AI研究用于环境监测和物种保护。
- Motivation: 解决濒危物种研究、保护生态学和栖息地管理中对全面环境监测的关键需求,为保护计算机视觉研究提供开放数据集。
- Method: 在220英亩牧场进行为期四天的同步监测,收集三种模态数据,建立可复制的多模态野生动物监测协议。
- Result: 提供了传感器模态性能的比较分析,展示了在土地利用模式、物种检测、行为分析和栖息地监测方面的互补优势。
- Conclusion: 该工作为多模态野生动物监测建立了可复制的协议,未来版本将包括GPS追踪数据、公民科学数据和跨季节的扩展时间覆盖。
[79] RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing
Jiayu Wang,Ruizhi Wang,Jie Song,Haofei Zhang,Mingli Song,Zunlei Feng,Li Sun
Main category: cs.CV
TL;DR: 本文提出了RS3DBench基准数据集,包含54,951对遥感图像与像素级对齐的深度图,用于推动通用大规模3D视觉模型在遥感领域的发展。
- Motivation: 现有遥感数据集缺乏全面的深度信息或深度数据与遥感图像之间的精确对齐,限制了3D视觉模型在遥感领域的应用。
- Method: 构建了包含丰富地理背景的遥感图像-深度图配对数据集,并基于稳定扩散模型开发了遥感深度估计模型,利用其多模态融合能力。
- Result: 提出的深度估计模型在RS3DBench数据集上实现了最先进的性能。
- Conclusion: RS3DBench基准将为遥感领域的3D视觉感知模型发展和地理人工智能进步做出重要贡献,数据集、模型和代码已公开。
[80] DeblurSplat: SfM-free 3D Gaussian Splatting with Event Camera for Robust Deblurring
Pengteng Li,Yunfan Lu,Pinhao Song,Weiyu Guo,Huizai Yao,F. Richard Yu,Hui Xiong
Main category: cs.CV
TL;DR: DeblurSplat是首个无需Structure-from-Motion的基于事件相机的去模糊3D高斯泼溅方法,通过利用预训练的密集立体模块直接获取初始点云,并引入事件流进行精细监督,实现高效高质量的去模糊3D场景重建。
- Motivation: 解决传统方法因不准确的相机位姿导致的累积误差问题,以及利用事件相机对动态变化的高敏感性来改进运动模糊的去模糊效果。
- Method: 1) 使用预训练的DUSt3R密集立体模块直接从模糊图像获取准确初始点云,避免相机位姿计算的中间误差;2) 引入事件流,通过解码事件流和模糊图像的潜在清晰图像,为场景重建优化提供精细监督信号。
- Result: 在多个场景上的广泛实验表明,DeblurSplat不仅能够生成高保真度的新视角图像,而且在去模糊3D-GS方面相比现有技术实现了显著的渲染效率提升。
- Conclusion: 该方法成功解决了运动模糊问题,通过结合事件相机和直接点云获取技术,实现了无需SfM的高效高质量去模糊3D场景重建。
[81] MoiréNet: A Compact Dual-Domain Network for Image Demoiréing
Shuwei Guo,Simin Luan,Yan Ke,Zeyd Boukhers,John See,Cong Yang
Main category: cs.CV
TL;DR: MoiréNet是一种基于U-Net的卷积神经网络框架,通过协同整合频域和空域特征来有效去除图像中的莫尔条纹伪影。
- Motivation: 莫尔条纹是由显示像素网格和相机传感器网格之间的频谱混叠引起的各向异性、多尺度伪影,对数字图像去莫尔条纹提出了重大挑战。
- Method: MoiréNet包含两个关键组件:方向频率-空间编码器(DFSE)通过方向差分卷积识别莫尔条纹方向,以及频率-空间自适应选择器(FSAS)实现精确的特征自适应抑制。
- Result: 大量实验表明,MoiréNet在公共和实际使用数据集上实现了最先进的性能,同时具有很高的参数效率。仅需5.513M参数,比ESDNet-L减少了48%。
- Conclusion: MoiréNet将卓越的恢复质量与参数效率相结合,非常适合资源受限的应用,包括智能手机摄影、工业成像和增强现实。
[82] Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation
Yunzhe Shen,Kai Peng,Leiye Liu,Wei Ji,Jingjing Li,Miao Zhang,Yongri Piao,Huchuan Lu
Main category: cs.CV
TL;DR: 本文提出了一种新颖的频率感知音频-视觉分割(FAVS)框架,通过频率域分解和重组来解决音频-视觉分割任务中的模态间频率域矛盾问题。
- Motivation: 现有的音频-视觉分割方法忽视了音频和视觉模态在频率域上的固有矛盾——音频高频信号普遍存在干扰噪声,而视觉高频信号包含丰富的结构细节。忽略这些差异会导致性能不佳。
- Method: FAVS框架包含两个关键模块:频率域增强分解器(FDED)模块采用基于残差的迭代频率分解来区分模态特定的语义和结构特征;协同跨模态一致性(SCMC)模块利用专家混合架构通过动态专家路由增强语义一致性和模态特定特征保留。
- Result: 在三个基准数据集上的大量实验表明,FAVS框架实现了最先进的性能,丰富的定性可视化进一步验证了所提出模块的有效性。
- Conclusion: 通过将AVS任务重新表述为频率域分解和重组问题,FAVS框架有效解决了音频和视觉模态间的频率域矛盾,显著提升了分割性能。
[83] xAI-CV: An Overview of Explainable Artificial Intelligence in Computer Vision
Nguyen Van Tu,Pham Nguyen Hai Long,Vo Hoai Viet
Main category: cs.CV
TL;DR: 本文综述了可解释人工智能(xAI)在视觉感知任务中的四种代表性方法:显著图、概念瓶颈模型、原型方法和混合方法,分析了它们的机制、优缺点及评估指标。
- Motivation: 深度学习在图像分析中表现出色但缺乏可解释性,xAI旨在解决这一"黑盒"问题,让人类能够理解AI模型的决策过程。
- Method: 采用文献综述方法,系统分析四种xAI方法:显著图、概念瓶颈模型、原型方法和混合方法。
- Result: 提供了对四种xAI方法的全面比较分析,包括各自的机制、优势和局限性,以及相应的评估指标。
- Conclusion: 该综述为未来xAI研究和应用提供了指导,强调了可解释性在关键应用中的重要性。
[84] LiDAR Point Cloud Image-based Generation Using Denoising Diffusion Probabilistic Models
Amirhesam Aghanouri,Cristina Olaverri-Monreal
Main category: cs.CV
TL;DR: 本文提出了一种基于去噪扩散概率模型(DDPM)的方法,通过改进噪声调度和时间步嵌入技术来生成高质量合成LiDAR数据,用于增强自动驾驶车辆的3D视觉系统性能。
- Motivation: 自动驾驶车辆依赖LiDAR进行环境感知,但真实LiDAR数据收集耗时且易受噪声和稀疏性影响。需要生成高质量合成数据来提升感知系统的鲁棒性。
- Method: 使用改进的DDPM模型,包含新颖的噪声调度和时间步嵌入技术,能够生成更真实的点云数据。在IAMCV和KITTI-360数据集上进行评估。
- Result: 该方法在四种性能指标上优于大多数现有基线方法,能有效缓解噪声和稀疏LiDAR数据的影响,生成具有丰富空间关系和结构细节的多样化点云。
- Conclusion: 提出的DDPM改进方法在生成高质量合成LiDAR数据方面表现出色,为自动驾驶感知系统的数据增强提供了有效解决方案。
[85] Advancing Metallic Surface Defect Detection via Anomaly-Guided Pretraining on a Large Industrial Dataset
Chuni Liu,Hongjie Li,Jiaqi Du,Yangyang Hou,Qian Sun,Lei Jin,Ke Xu
Main category: cs.CV
TL;DR: 提出AGSSP方法解决金属表面缺陷检测中预训练-微调范式的困境,通过异常先验引导表示学习,在多个指标上显著优于基于ImageNet的模型
- Motivation: 解决金属表面缺陷检测中数据稀缺问题,传统预训练方法面临域差距大或无法区分细微缺陷与复杂背景噪声的困境
- Method: 两阶段框架:1)通过异常图知识蒸馏预训练骨干网络捕获缺陷显著特征;2)使用伪缺陷框预训练检测器对齐定位任务
- Result: 在mAP@0.5指标上提升10%,在mAP@0.5:0.95指标上提升11.4%,优于基于ImageNet的模型
- Conclusion: AGSSP方法有效解决了工业缺陷检测中的预训练困境,显著提升了检测性能
[86] Audio-Driven Universal Gaussian Head Avatars
Kartik Teotia,Helge Rhodin,Mohit Mendiratta,Hyeongwoo Kim,Marc Habermann,Christian Theobalt
Main category: cs.CV
TL;DR: 提出了首个音频驱动的通用逼真头像合成方法,结合了人物无关的语音模型和新的通用头部头像先验(UHAP),能够同时处理几何变形和外观变化,实现高保真的唇部同步和表情细节。
- Motivation: 现有方法主要将音频特征映射到几何变形,忽略了音频相关的外观变化。本文旨在开发一个能够同时捕捉几何和外观变化的通用音频驱动头像模型。
- Method: 使用跨身份多视角视频训练UHAP,通过中性扫描数据进行监督。构建通用语音模型将原始音频直接映射到UHAP潜在表达空间,该空间编码几何和外观变化。采用单目编码器进行个性化,通过UHAP解码生成逼真头像。
- Result: 方法在唇部同步准确性、定量图像质量和感知真实感方面优于现有(仅几何)方法,是首个能够处理详细外观建模和渲染的通用音频驱动头像模型。
- Conclusion: 提出的UHAP框架成功实现了音频驱动的逼真头像合成,在保持高保真度的同时显著提升了表情细节的丰富性和真实感。
[87] SynapFlow: A Modular Framework Towards Large-Scale Analysis of Dendritic Spines
Pamela Osuna-Vargas,Altug Kamacioglu,Dominik F. Aschauer,Petros E. Vlachos,Sercan Alipek,Jochen Triesch,Simon Rumpel,Matthias Kaschube
Main category: cs.CV
TL;DR: 本文提出了一个基于机器学习的模块化管道,用于自动检测、跟踪和提取树突棘在3D+时间显微镜数据中的特征,旨在解决大规模分析树突棘结构动力学的挑战。
- Motivation: 树突棘是大脑中兴奋性突触的关键结构组成部分,其大小可作为突触效能的代理。然而,在3D+时间显微镜数据中对树突棘结构动力学进行大规模分析仍然具有挑战性且劳动密集。
- Method: 该方法采用模块化机器学习管道,包括基于transformer的检测模块、整合空间特征的深度跟踪组件、利用空间一致性跨时间关联3D棘的时间跟踪模块,以及量化生物学相关棘特征的特征提取单元。
- Result: 该方法在开源标记的棘数据上进行了验证,并发布了两个互补的注释数据集:一个用于检测和深度跟踪,另一个用于时间跟踪(据作者所知是首个此类数据)。
- Conclusion: 作者发布了数据、代码和预训练权重,为可扩展的端到端树突棘动力学分析建立了基准,鼓励未来研究。
[88] No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning
Matheus Vinícius Todescato,Joel Luís Carbonera
Main category: cs.CV
TL;DR: 提出了一种结合视觉语言模型和预训练视觉模型的自学习零样本图像分类框架,无需标注数据,仅使用类别名称即可训练轻量级分类器
- Motivation: 深度学习通常依赖大量标注数据,但在实际场景中标注数据稀缺。视觉语言模型和预训练视觉模型为解决这一问题提供了可能
- Method: 使用置信度基础的伪标签策略,在测试数据上直接训练轻量级分类器。VLM识别高置信度样本,预训练视觉模型增强其视觉表示,通过迭代训练捕获互补的语义和视觉线索
- Result: 在十个不同数据集上的实验表明,该方法优于基线零样本方法
- Conclusion: 该方法无需VLM微调或大型语言模型,仅依赖视觉模型减少对语义表示的依赖,实现了动态适应的零样本分类
[89] Seeing Through Reflections: Advancing 3D Scene Reconstruction in Mirror-Containing Environments with Gaussian Splatting
Zijing Guo,Yunyang Zhao,Lin Wang
Main category: cs.CV
TL;DR: 提出了MirrorScene3D数据集和ReflectiveGS方法,用于解决含镜面场景的3D重建和新视角合成问题,通过利用镜面反射作为补充视角来提升重建质量。
- Motivation: 现有方法如NeRF和3DGS在含镜面场景中性能下降,主要关注镜面表面的对称映射而忽略了镜面反射所携带的丰富信息,这些反射可以提供补充视角来填补缺失细节。
- Method: 基于3D高斯泼溅(3DGS)扩展提出ReflectiveGS方法,将镜面反射视为补充视角而非简单的对称伪影,利用反射信息增强场景几何和恢复缺失细节。
- Result: 在MirrorScene3D数据集上的实验表明,ReflectiveGS在SSIM、PSNR、LPIPS指标和训练速度上均优于现有方法。
- Conclusion: 该方法为镜面丰富环境中的3D重建设立了新的基准,证明了利用镜面反射作为补充视角的有效性。
[90] Generative data augmentation for biliary tract detection on intraoperative images
Cristina Iacono,Mariarosaria Meola,Federica Conte,Laura Mecozzi,Umberto Bracale,Pietro Falco,Fanny Ficuciello
Main category: cs.CV
TL;DR: 本文提出了一种基于深度学习的胆道定位方法,利用Yolo检测算法和GAN生成合成训练数据,旨在通过术中白光图像提高胆道可视化,减少腹腔镜胆囊切除术中的胆管损伤风险。
- Motivation: 腹腔镜胆囊切除术虽然恢复快、美容效果好,但胆管损伤风险较高,严重影响患者生活质量和生存率。为避免胆管损伤,需要改进术中胆道可视化技术。
- Method: 构建并标注图像数据库训练Yolo检测算法,采用经典数据增强技术和生成对抗网络(GAN)生成部分合成训练数据集。
- Result: 实验结果表明该方法能够有效定位胆道,但具体性能指标未在摘要中详细说明。
- Conclusion: 深度学习结合GAN数据增强可提高胆道定位准确性,有助于降低腹腔镜胆囊切除术中的胆管损伤风险,同时需要考虑相关伦理问题。
[91] Prompt-DAS: Annotation-Efficient Prompt Learning for Domain Adaptive Semantic Segmentation of Electron Microscopy Images
Jiabao Chen,Shan Xiong,Jialin Peng
Main category: cs.CV
TL;DR: 提出Prompt-DAS框架,利用SAM的提示机制实现电子显微镜图像中多细胞器实例的自适应分割,支持无监督、弱监督和交互式分割
- Motivation: 解决大规模电子显微镜图像中多细胞器实例分割的标注效率问题,利用提示机制实现灵活的自适应学习
- Method: 基于SAM的提示式多任务框架,引入辅助中心点检测任务和提示引导对比学习,支持不同提示配置(全点、稀疏点、无点)
- Result: 在多个挑战性基准测试中优于现有的UDA、WDA和基于SAM的方法
- Conclusion: Prompt-DAS框架在域自适应分割任务中表现出色,为标注高效学习提供了灵活有效的解决方案
[92] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
Hao Wang,Eiki Murata,Lingfang Zhang,Ayako Sato,So Fukuda,Ziqi Yin,Wentao Hu,Keisuke Nakao,Yusuke Nakamura,Sebastian Zwirner,Yi-Chia Chen,Hiroyuki Otomo,Hiroki Ouchi,Daisuke Kawahara
Main category: cs.CV
TL;DR: 本文提出了VIR-Bench基准测试,用于评估多模态大语言模型在长距离旅行视频理解方面的能力,发现现有模型在处理扩展时空尺度的视频时表现不佳,并通过开发旅行规划代理验证了该基准的有效性。
- Motivation: 当前视频基准测试主要关注室内场景或短距离户外活动,缺乏对长距离旅行挑战的探索。掌握扩展地理时空轨迹对于下一代MLLMs至关重要,支持现实世界任务如具身AI规划和导航。
- Method: 构建包含200个旅行视频的VIR-Bench基准测试,将行程重建作为评估MLLMs地理时空智能的挑战性任务。开发原型旅行规划代理来验证基准的有效性。
- Result: 实验结果显示,包括专有模型在内的最先进MLLMs都难以获得高分,表明处理扩展时空尺度视频的困难性。旅行规划代理的行程推荐显著改善,验证了评估协议的有效性。
- Conclusion: VIR-Bench不仅有效评估模型性能,还能转化为用户面向应用中的具体性能提升,为下一代MLLMs的发展提供了重要基准。
[93] Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards
Honghao Chen,Xingzhou Lou,Xiaokun Feng,Kaiqi Huang,Xinlong Wang
Main category: cs.CV
TL;DR: 本文提出了一个针对视觉语言模型的链式逐步推理框架,通过细粒度奖励评估和强化学习提升推理能力
- Motivation: 现有的视觉语言推理方法通常在粗粒度层面进行推理链构建,难以进行细粒度结构化推理,且中间推理步骤的质量难以评估
- Method: 提出了一个简单有效的透明框架,包括步骤级推理数据、过程奖励模型和强化学习训练,实现细粒度奖励评估和推理时间扩展
- Result: 在具有挑战性的视觉语言基准测试中建立了强大的基线,并取得了持续改进
- Conclusion: 该工作为视觉语言模型提供了基准,并为更复杂的多模态推理提供了见解
[94] Weakly Supervised Food Image Segmentation using Vision Transformers and Segment Anything Model
Ioannis Sarafis,Alexandros Papadopoulos,Anastasios Delopoulos
Main category: cs.CV
TL;DR: 提出了一种基于SAM和ViT的弱监督食物图像语义分割方法,利用ViT的类激活图生成SAM的提示,无需像素级标注即可实现食物分割。
- Motivation: 为了解决食物图像语义分割需要大量像素级标注的问题,利用SAM的零样本能力和ViT的注意力机制,开发一种仅需图像级标注的弱监督分割方法。
- Method: 使用Swin Transformer生成类激活图作为SAM的提示,结合图像预处理技术和单掩码/多掩码生成策略,在FoodSeg103数据集上进行评估。
- Result: 在FoodSeg103数据集上,多掩码场景下平均每张图像生成2.4个掩码(不包括背景),达到0.54的mIoU。
- Conclusion: 该方法可作为加速食物图像标注任务的工具,或集成到食物营养追踪应用中。
[95] A DyL-Unet framework based on dynamic learning for Temporally Consistent Echocardiographic Segmentation
Jierui Qu,Jianchun Zhao
Main category: cs.CV
TL;DR: DyL-UNet是一种基于动态学习的时间一致性U-Net分割架构,旨在实现时间稳定且精确的超声心动图分割,通过构建Echo-Dynamics Graph和引入Cardiac Phase-Dynamics Attention来增强时间一致性。
- Motivation: 超声心动图容易变形和产生斑点噪声,导致帧间分割抖动,即使单帧分割精度高,时间不稳定性也会削弱功能估计并影响临床解释性。
- Method: DyL-UNet通过动态学习构建Echo-Dynamics Graph提取视频动态信息,采用多个基于Swin-Transformer的编码器-解码器分支处理单帧图像,并在跳跃连接处引入Cardiac Phase-Dynamics Attention,利用EDG编码的动态特征和心脏相位线索来强制执行时间一致性。
- Result: 在CAMUS和EchoNet-Dynamic数据集上的广泛实验表明,DyL-UNet在保持与现有方法相当的分割精度的同时,实现了更优的时间一致性。
- Conclusion: DyL-UNet为自动化临床超声心动图提供了一种可靠的解决方案,能够实现时间稳定且精确的分割。
[96] ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests?
Zijian Ling,Han Zhang,Yazhuo Zhou,Jiahao Cui
Main category: cs.CV
TL;DR: ColorBlindnessEval是一个新的基准测试,用于评估视觉语言模型在受色盲测试启发的视觉对抗场景中的鲁棒性。该数据集包含500张类似石原色盲测试的图像,测试VLMs在复杂视觉模式中识别数字信息的能力。
- Motivation: 评估VLMs在视觉对抗场景中的鲁棒性,特别是受色盲测试启发的复杂视觉环境,以识别模型在现实应用中可能存在的局限性。
- Method: 创建包含500张石原色盲测试风格图像的数据集,数字范围0-99,使用是/否和开放式提示评估9个VLMs,并与人类参与者进行性能对比。
- Result: 实验显示VLMs在对抗性环境中解释数字的能力存在局限,普遍存在幻觉问题,模型性能不如人类参与者。
- Conclusion: 该研究强调了提高VLMs在复杂视觉环境中鲁棒性的必要性,ColorBlindnessEval可作为评估和改进VLMs在关键应用场景中可靠性的重要工具。
[97] WaveletGaussian: Wavelet-domain Diffusion for Sparse-view 3D Gaussian Object Reconstruction
Hung Nguyen,Runfa Li,An Le,Truong Nguyen
Main category: cs.CV
TL;DR: WaveletGaussian是一个用于稀疏视图3D高斯对象重建的高效框架,通过在小波域应用扩散模型来减少计算开销,同时保持渲染质量。
- Motivation: 3D高斯泼溅(3DGS)在稀疏视图设置下性能显著下降,现有方法使用扩散模型修复损坏的渲染图像,但计算成本高昂。
- Method: 将扩散过程转移到小波域:仅对低分辨率LL子带应用扩散,高频子带使用轻量级网络精炼;提出高效的在线随机掩码策略来筛选训练对。
- Result: 在Mip-NeRF 360和OmniObject3D两个基准数据集上的实验表明,WaveletGaussian在保持竞争性渲染质量的同时大幅减少了训练时间。
- Conclusion: WaveletGaussian通过小波域扩散和高效训练策略,实现了稀疏视图3D高斯重建的高效优化,显著降低了计算成本。
[98] 3rd Place Report of LSVOS 2025 MeViS Track: Sa2VA-i: Improving Sa2VA Results with Consistent Training and Inference
Alexey Nekrasov,Ali Athar,Daan de Geus,Alexander Hermans,Bastian Leibe
Main category: cs.CV
TL;DR: Sa2VA-i是Sa2VA的改进版本,通过修正训练和推理过程中的不一致性,在多个视频分割基准上实现了新的最先进性能。
- Motivation: 发现Sa2VA在视频对象分割任务中未能发挥其全部潜力,主要原因是训练和推理过程存在不一致性。
- Method: 提出Sa2VA-i模型,通过修正训练和推理过程中的不一致性问题来改进原Sa2VA模型。
- Result: Sa2VA-i在多个视频基准上取得显著提升:MeViS +11.6 J&F,Ref-YT-VOS +1.4,Ref-DAVIS +3.3,ReVOS +4.1。Sa2VA-i-1B模型在MeViS基准上甚至与原始Sa2VA-26B模型性能相当。
- Conclusion: 这项工作强调了看似微不足道的实现细节的重要性,为视频分割领域提供了有价值的见解。
[99] Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications
Ganesh Mallya,Yotam Gigi,Dahun Kim,Maxim Neumann,Genady Beryozkin,Tomer Shekel,Anelia Angelova
Main category: cs.CV
TL;DR: 提出一种无需训练的方法,将多光谱数据以零样本方式输入到仅训练过RGB数据的通用多模态模型中,使这些模型能够理解专业的多光谱信号
- Motivation: 解决多光谱遥感图像分析需要专门训练模型的高成本问题,以及通用多模态模型无法处理多光谱输入的限制
- Method: 利用多模态模型对视觉空间的理解,将多光谱数据适配到该空间,并将领域特定信息作为指令注入模型,以Gemini2.5模型为例进行验证
- Result: 在土地覆盖和土地利用分类的遥感基准测试中观察到显著的零样本性能提升,展示了Gemini2.5对新输入的易适应性
- Conclusion: 该方法使地理空间专业人员能够轻松利用强大的多模态模型来处理非标准专业输入,加速工作流程并受益于其丰富的推理和上下文能力
[100] Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning
Guoxin Wang,Jun Zhao,Xinyi Liu,Yanbo Liu,Xuyang Cao,Chao Li,Zhuoyun Liu,Qintian Sun,Fangru Zhou,Haoqiang Xing,Zhenhong Yang
Main category: cs.CV
TL;DR: Citrus-V是一个多模态医学基础模型,结合图像分析和文本推理,在单一框架中实现病变定位、分割和诊断推理,超越现有开源医学模型。
- Motivation: 现有医学影像模型过于专业化,需要多个专用网络,限制了泛化能力。临床应用需要精确的视觉定位、多模态整合和链式推理能力。
- Method: 提出新颖的多模态训练方法,集成检测、分割和多模态链式推理,发布涵盖推理、检测、分割和文档理解任务的开放数据集。
- Result: 在多个基准测试中超越现有开源医学模型和专家级影像系统,实现从视觉定位到临床推理的统一流程。
- Conclusion: Citrus-V支持精确病变量化、自动报告生成和可靠第二意见,为临床诊断提供统一的多模态解决方案。
[101] Investigating Traffic Accident Detection Using Multimodal Large Language Models
Ilhan Skender,Kailin Tong,Selim Solmaz,Daniel Watzenig
Main category: cs.CV
TL;DR: 该研究评估了多模态大语言模型在交通事故检测中的零样本能力,使用基础设施摄像头图像,通过集成视觉分析技术提升模型性能。Pixtral模型表现最佳,F1分数0.71,召回率83%。
- Motivation: 交通事故检测对公共安全至关重要,基础设施视觉传感器可提供可扩展的实时监控解决方案。研究旨在探索MLLMs在无需大量标注数据的情况下检测交通事故的能力。
- Method: 使用CARLA模拟的DeepAccident数据集评估MLLMs;比较Gemini 1.5/2.0、Gemma 3和Pixtral模型的性能;集成YOLO、Deep SORT和SAM等视觉分析技术到增强提示中。
- Result: Pixtral表现最佳(F1-score 0.71,召回率83%);Gemini模型通过增强提示精度提升(如Gemini 1.5达90%),但F1和召回率下降;Gemma 3性能最平衡。
- Conclusion: MLLMs与先进视觉分析技术结合在自动交通监控系统中具有巨大应用潜力,能够有效提升交通事故检测的准确性和可解释性。
[102] Track-On2: Enhancing Online Point Tracking with Memory
Görkay Aydemir,Weidi Xie,Fatma Güney
Main category: cs.CV
TL;DR: Track-On2是一个基于Transformer的在线长期点跟踪模型,通过架构优化、内存机制改进和合成训练策略提升性能,在多个基准测试中达到最先进水平
- Motivation: 解决长期点跟踪问题,需要在显著外观变化、运动和遮挡下实现跨视频帧的一致点识别,并针对在线实时应用场景
- Method: 扩展Track-On模型为Track-On2,采用因果处理框架,通过内存机制保持时间一致性,在推理时进行粗粒度块级分类后细化
- Result: 在五个合成和真实世界基准测试中达到最先进结果,超越现有在线跟踪器甚至利用双向上下文的离线方法
- Conclusion: 基于因果内存架构和纯合成数据训练的方法为真实世界点跟踪提供了可扩展的有效解决方案
[103] KAMERA: Enhancing Aerial Surveys of Ice-associated Seals in Arctic Environments
Adam Romlein,Benjamin X. Hou,Yuval Boss,Cynthia L. Christman,Stacie Koslovsky,Erin E. Moreland,Jason Parham,Anthony Hoogs
Main category: cs.CV
TL;DR: KAMERA是一个用于多相机、多光谱同步和实时检测海豹与北极熊的综合系统,可将数据集处理时间减少80%
- Motivation: 开发一个能够高效处理航空调查中冰层相关海豹检测的系统,提高数据处理的效率和准确性
- Method: 采用严格的校准和硬件同步技术,利用多光谱进行目标检测,所有收集的数据都带有元数据注释,便于后续参考
- Result: 在阿拉斯加周边海域的航空调查中,KAMERA系统相比之前的方法将数据集处理时间减少了80%,所有图像和动物检测结果都能映射到世界平面上
- Conclusion: KAMERA系统为科学界的其他测绘和检测工作提供了启发,所有软件、模型和原理图都完全开源
[104] NeuCODEX: Edge-Cloud Co-Inference with Spike-Driven Compression and Dynamic Early-Exit
Maurf Hassan,Steven Davy,Muhammad Zawish,Owais Bin Zuber,Nouman Ashraf
Main category: cs.CV
TL;DR: NeuCODEX是一种神经形态协同推理架构,通过联合优化空间和时间冗余,显著降低边缘设备的数据传输和能耗,同时保持高精度。
- Motivation: 解决SNN在边缘设备上推理时由于固定高时间步长开销导致的延迟和能耗问题,以及边缘-云协同推理系统中高延迟和特征传输成本的问题。
- Method: 引入学习驱动的脉冲压缩模块减少数据传输,采用动态提前退出机制根据输出置信度自适应终止推理,在真实边缘-云测试平台上基于ResNet-18和VGG-16骨干网络进行原型验证。
- Result: 数据传输减少高达2048倍,边缘能耗降低超过90%,端到端延迟比纯边缘推理降低3倍,精度损失小于2%。
- Conclusion: NeuCODEX能够在资源受限环境中实现实用、高性能的SNN部署。
[105] RoSe: Robust Self-supervised Stereo Matching under Adverse Weather Conditions
Yun Wang,Junjie Hu,Junhui Hou,Chenghao Zhang,Renwei Yang,Dapeng Oliver Wu
Main category: cs.CV
TL;DR: 本文提出了一种鲁棒的自监督立体匹配方法RoSe,通过引入视觉基础模型的先验知识和场景对应先验,解决了恶劣天气条件下立体匹配性能下降的问题。
- Motivation: 现有自监督立体匹配方法在恶劣天气条件下性能显著下降,主要原因是CNN特征提取器在退化区域表现不佳,以及光度一致性假设在恶劣天气下失效。
- Method: 提出两个关键步骤:1)将视觉基础模型的鲁棒先验注入CNN特征提取器;2)利用场景对应先验构建鲁棒监督信号,通过合成具有真实天气退化的立体数据集进行训练。
- Result: 大量实验表明,该方法在恶劣天气条件下显著优于现有最先进的自监督方法,表现出良好的有效性和通用性。
- Conclusion: RoSe方法通过引入鲁棒先验和场景对应学习,有效提升了立体匹配模型在恶劣天气条件下的性能,为解决实际应用中的天气挑战提供了可行方案。
[106] YOLO-LAN: Precise Polyp Detection via Optimized Loss, Augmentations and Negatives
Siddharth Gupta,Jitin Singla
Main category: cs.CV
TL;DR: 提出YOLO-LAN息肉检测管道,基于YOLO框架,使用M2IoU损失函数和数据增强技术,在Kvasir-seg和BKAI-IGH NeoPolyp数据集上取得优异性能,为结直肠癌筛查提供AI辅助解决方案。
- Motivation: 结直肠癌是致命疾病,始于结肠内壁息肉生长。结肠镜检查是标准检测方法,但人工检测存在不一致性和遗漏风险,需要更准确、实时的AI辅助诊断方案。
- Method: 基于YOLO框架构建YOLO-LAN息肉检测管道,采用M2IoU损失函数、多样化数据增强技术和负样本数据来模拟真实临床场景。
- Result: 在Kvasir-seg数据集上,YOLOv12达到mAP50 0.9619、mAP50:95 0.8599,YOLOv8达到mAP50 0.9540、mAP50:95 0.8487,显著提升了息肉检测精度。
- Conclusion: 该方法在息肉大小和精确定位检测方面表现出鲁棒性,具有临床相关性,可为AI辅助结直肠筛查提供有效工具。
[107] The 1st Solution for MOSEv2 Challenge 2025: Long-term and Concept-aware Video Segmentation via SeC
Mingqi Gao,Jingkun Chen,Yunqi Miao,Gengshen Wu,Zhijin Qin,Jungong Han
Main category: cs.CV
TL;DR: 本文分析了MOSEv2赛道中的SeC框架,研究了其长期记忆和概念感知记忆机制,在LSVOS挑战中取得了39.89%的JF分数,排名第一。
- Motivation: 探索复杂半监督视频对象分割任务,研究如何通过记忆机制提升分割性能,特别是应对遮挡和再现等挑战。
- Method: 分析和改进SeC框架(增强版SAM-2),重点研究其长期记忆和概念感知记忆机制。长期记忆保持时间连续性,概念感知记忆提供语义先验抑制干扰物。
- Result: 在MOSEv2测试集上获得了39.89%的JF分数,在LSVOS挑战的MOSEv2赛道中排名第一。
- Conclusion: 长期记忆和概念感知记忆的结合能有效解决MOSEv2的核心挑战,证明了记忆机制在半监督视频对象分割中的重要性。
[108] Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models
Yueyan Li,Chenggong Zhao,Zeyuan Zang,Caixia Yuan,Xiaojie Wang
Main category: cs.CV
TL;DR: 本文基于人类视觉的双流假说,将VLMs的视觉处理解构为物体识别和空间感知两个独立部分进行研究,揭示了VLMs内部工作机制,并提出了提升解码效率和空间推理能力的方法。
- Motivation: 现有VLMs通过序列化图像处理视觉信息,与人类视觉的并行处理方式存在显著差异,且其不透明的内部机制阻碍了深入理解和架构创新。
- Method: 1)将图像转换为文本标记图研究物体识别的两阶段过程;2)理论推导和实证验证VLMs中位置表示的几何结构;3)基于研究结果提出指令无关的标记压缩算法和RoPE缩放技术。
- Result: 验证了VLMs视觉处理的两阶段机制和位置表示的几何结构,提出的方法有效提升了解码效率和空间推理能力。
- Conclusion: 本研究为深入理解VLM内部机制提供了新视角,并为设计更强大的未来架构提供了明确原则。
[109] Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions
Ioanna Ntinou,Alexandros Xenos,Yassine Ouali,Adrian Bulat,Georgios Tzimiropoulos
Main category: cs.CV
TL;DR: 本文提出了一种无需视觉编码器的文本到文本检索方法,通过VLLM生成结构化图像描述来替代传统文本到图像检索,显著减少了模态差距并提高了组合性。
- Motivation: 解决对比训练视觉语言模型存在的浅层语言理解、模态差距问题,以及大规模网络数据训练带来的计算成本和隐私担忧。
- Method: 采用无视觉的单编码器检索流程,将文本到图像检索迁移到文本到文本范式,利用VLLM生成结构化图像描述。
- Result: 该方法在多个检索和组合性基准测试中达到最先进的零样本性能,仅需少量GPU小时进行校准,模型参数可小至0.3B。
- Conclusion: 无视觉检索器在匹配甚至超越传统多模态模型的同时,提供了更隐私友好的替代方案,并发布了新的组合性基准测试subFlickr和subCOCO。
[110] Long Story Short: Disentangling Compositionality and Long-Caption Understanding in VLMs
Israfel Salazar,Desmond Elliott,Yova Kementchedjhieva
Main category: cs.CV
TL;DR: 该论文研究了对比视觉语言模型(VLMs)中组合性与长标题理解之间的双向关系,发现两者可以相互促进,但训练效果受数据质量和模型设计的影响。
- Motivation: 当前对比视觉语言模型在绑定视觉和文本信息方面取得了显著进展,但理解长而密集的标题仍然是一个开放挑战。作者假设组合性(推理对象-属性绑定和对象间关系的能力)是理解较长标题的关键。
- Method: 作者训练和评估了一系列针对组合性和长标题理解能力的模型,研究了不同训练策略(如冻结位置嵌入)和数据质量对模型性能的影响。
- Result: 研究结果显示组合性训练提高了长标题检索性能,而长标题训练促进了组合性。但这些增益对数据质量和模型设计敏感,低质量数据或有限参数更新会限制泛化能力。
- Conclusion: 组合性理解和长标题理解是相互交织的能力,可以通过在密集、有基础描述的标题上进行训练来共同学习。高质量的长标题数据训练可以使模型在两项任务上都取得强劲表现。
[111] Enabling Plant Phenotyping in Weedy Environments using Multi-Modal Imagery via Synthetic and Generated Training Data
Earl Ranario,Ismael Mayanja,Heesup Yun,Brian N. Bailey,J. Mason Earles
Main category: cs.CV
TL;DR: 提出一种利用合成RGB图像、少量真实标注和GAN跨模态对齐来增强热图像语义分割的框架,在复杂田间环境中显著提升植物分割性能
- Motivation: 热图像中植物分割在户外高通量表型分析中面临挑战,主要是植物与杂草对比度低和频繁遮挡影响性能
- Method: 使用1,128张合成图像训练模型生成作物和杂草分割掩码,结合少量真实标注图像,通过CycleGAN-turbo实现RGB到热图像的跨模态对齐
- Result: 结合所有合成图像和少量真实图像,相比全真实数据基线,杂草类相对改进22%,植物类相对改进17%
- Conclusion: 合成数据与有限手动标注及生成模型的跨域翻译相结合,可显著提升复杂田间环境中多模态图像的语义分割性能
[112] HyKid: An Open MRI Dataset with Expert-Annotated Multi-Structure and Choroid Plexus in Pediatric Hydrocephalus
Yunzhi Xu,Yushuang Ding,Hu Sun,Hongxi Zhang,Li Zhao
Main category: cs.CV
TL;DR: HyKid是一个开源儿科脑积水数据集,包含48名患者的3D MRI图像和专家标注的脑组织分割,特别是脉络丛分割,为脑积水评估提供了高质量基准。
- Motivation: 当前儿科脑积水评估面临挑战,缺乏公开的专家标注数据集,特别是包含脉络丛分割的数据集。
- Method: 使用48名儿科脑积水患者的3D MRI数据,通过切片到体积算法从常规低分辨率图像重建1mm各向同性分辨率图像,由经验丰富的神经学家手动校正脑组织分割,并使用检索增强生成框架从临床放射学报告中提取结构化数据。
- Result: 脉络丛体积与总脑脊液体积之间存在强相关性,预测模型表现出色(AUC = 0.87),为脑积水评估提供了潜在生物标志物。
- Conclusion: HyKid数据集为神经影像算法开发提供了高质量基准,揭示了脉络丛相关特征在脑积水评估中的重要性,数据集已公开可用。
[113] MsFIN: Multi-scale Feature Interaction Network for Traffic Accident Anticipation
Tongshuai Wu,Chao Lu,Ze Song,Yunlong Lin,Sizhe Fan,Xuemei Chen
Main category: cs.CV
TL;DR: 提出了一种多尺度特征交互网络(MsFIN)用于从行车记录仪视频中早期预测交通事故,通过多尺度特征聚合、时序特征处理和后融合来解决交通参与者特征交互建模和复杂多时序行为捕捉的挑战。
- Motivation: 随着行车记录仪的广泛部署和计算机视觉技术的发展,从行车记录仪视角开发事故预测模型对于主动安全干预变得至关重要。但存在两个关键挑战:建模交通参与者之间的特征级交互(在行车记录仪视图中经常被遮挡)和捕捉事故发生前复杂、异步的多时序行为线索。
- Method: MsFIN包含三个层次:多尺度特征聚合层使用多尺度模块提取短期、中期和长期时间尺度的场景表示,并利用Transformer架构促进全面特征交互;时序特征处理层在因果约束下捕捉场景和对象特征的序列演化;多尺度特征后融合层将多个时间尺度的场景和对象特征融合生成全面的风险表示。
- Result: 在DAD和DADA数据集上的实验表明,MsFIN在预测准确性和及时性方面显著优于采用单尺度特征提取的最先进模型。消融研究验证了MsFIN中每个模块的有效性。
- Conclusion: MsFIN通过多尺度特征融合和上下文交互建模实现了优越的性能,为行车记录仪视角的事故早期预警提供了有效解决方案。
[114] DevFD: Developmental Face Forgery Detection by Learning Shared and Orthogonal LoRA Subspaces
Tianshuo Zhang,Li Gao,Siran Peng,Xiangyu Zhu,Zhen Lei
Main category: cs.CV
TL;DR: 本文提出了一种基于持续学习的面部伪造检测方法,通过开发专家混合架构来应对不断演变的伪造技术,防止模型遗忘已学习的伪造类型。
- Motivation: 随着数字人脸生成和操纵技术的快速发展,现有的检测模型难以跟上不断变化的伪造技术。需要让模型能够快速适应新领域,同时避免遗忘已学习的伪造类型。
- Method: 采用发展性专家混合架构,使用LoRA模型作为个体专家,分为Real-LoRA学习真实人脸知识,多个Fake-LoRA捕获不同伪造类型的增量信息。通过正交梯度和正交损失防止梯度干扰和灾难性遗忘。
- Result: 在数据集和操纵类型增量协议下的实验结果表明该方法的有效性。
- Conclusion: 该方法成功地将面部伪造检测构建为持续学习问题,能够有效应对不断演变的伪造技术挑战。
[115] Lavida-O: Elastic Masked Diffusion Models for Unified Multimodal Understanding and Generation
Shufan Li,Jiuxiang Gu,Kangning Liu,Zhe Lin,Zijun Wei,Aditya Grover,Jason Kuen
Main category: cs.CV
TL;DR: Lavida-O是一个统一的多模态掩码扩散模型,支持图像理解和生成任务,具备物体定位、图像编辑和高分辨率图像合成等新能力,通过规划和迭代自反思提升生成效果。
- Motivation: 现有的多模态扩散语言模型仅支持简单的图像级理解任务和低分辨率图像生成,需要开发更强大的统一模型来支持更复杂的多模态任务。
- Method: 采用弹性混合Transformer架构、通用文本条件化和分层采样等新技术,构建统一的掩码扩散模型,利用理解能力通过规划和迭代自反思来改进图像生成和编辑。
- Result: 在RefCOCO物体定位、GenEval文本到图像生成和ImgEdit图像编辑等多个基准测试中达到最先进性能,优于Qwen2.5-VL和FluxKontext-dev等模型,并在推理时提供显著加速。
- Conclusion: Lavida-O展示了统一多模态掩码扩散模型在复杂图像理解和生成任务中的有效性,为多模态AI系统的发展提供了新方向。
[116] ConViS-Bench: Estimating Video Similarity Through Semantic Concepts
Benedetta Liberatori,Alessandro Conti,Lorenzo Vaquero,Yiming Wang,Elisa Ricci,Paolo Rota
Main category: cs.CV
TL;DR: ConViS是一个基于概念的视频相似性估计新任务,通过预定义的关键语义概念计算可解释的相似性分数,支持人类化的视频比较推理。
- Motivation: 现有视频相似性评估通常依赖全局相似度分数,无法像人类那样从多个不同维度(如动作、地点等)进行比较分析,这限制了视频理解的深度。
- Method: 提出Concept-based Video Similarity estimation (ConViS)任务,利用大型多模态模型,通过自然语言在预定义语义概念上计算视频对的相似性分数。同时构建ConViS-Bench基准数据集。
- Result: 实验结果显示不同模型在ConViS任务上存在显著性能差异,某些概念对视频相似性估计更具挑战性。
- Conclusion: ConViS-Bench将成为语言驱动视频理解研究的重要资源,支持更细粒度的视频相似性分析。
[117] Adversarially-Refined VQ-GAN with Dense Motion Tokenization for Spatio-Temporal Heatmaps
Gabriel Maldonado,Narges Rashvand,Armin Danesh Pazho,Ghazal Alinezhad Noghre,Vinit Katariya,Hamed Tabkhi
Main category: cs.CV
TL;DR: 本文提出了一种基于VQ-GAN的对抗性精炼框架,通过密集运动标记化技术压缩时空热图,在保持人体运动细节的同时消除重建伪影。
- Motivation: 连续人体运动理解在计算机视觉中具有挑战性,因为其高维度和内在冗余性。需要高效的压缩和表示方法来分析复杂运动动态。
- Method: 结合密集运动标记化和对抗性精炼的VQ-GAN框架,通过密集运动标记化压缩时空热图,对抗性精炼消除运动模糊和时间错位等重建伪影。
- Result: 在CMU Panoptic数据集上,方法比dVAE基线在SSIM指标上提升9.31%,时间不稳定性降低37.1%。2D运动可用128个标记词汇表表示,3D运动需要1024个标记代码本。
- Conclusion: 该方法为多样化运动分析应用提供了实际部署可行性,建立了运动复杂度的新分析方法。
[118] Graph-Radiomic Learning (GrRAiL) Descriptor to Characterize Imaging Heterogeneity in Confounding Tumor Pathologies
Dheerendranath Battalapalli,Apoorva Safai,Maria Jaramillo,Hyemin Um,Gustavo Adalfo Pineda Ortiz,Ulas Bagci,Manmeet Singh Ahluwalia,Marwa Ismail,Pallavi Tiwari
Main category: cs.CV
TL;DR: 本文提出了一种新的图放射组学学习(GrRAiL)描述符,用于在临床MRI扫描中表征病灶内异质性,通过图论方法量化病灶内不同子区域的空间关联,在区分肿瘤复发与放射效应方面显著优于现有方法。
- Motivation: 解决实体肿瘤成像中可靠区分恶性病变与混淆病理的挑战,传统放射组学方法常忽略复杂的空间关系,需要更有效的方法来捕捉病灶内异质性。
- Method: GrRAiL方法分两步:(1) 基于体素级放射组学测量识别子区域聚类;(2) 计算图论指标量化聚类间的空间关联,生成加权图编码高阶空间关系。
- Result: 在947名受试者的多中心评估中,GrRAiL在三个应用场景均显著优于基线方法:胶质母细胞瘤(测试准确率78%,提升>10%)、脑转移瘤(测试准确率74%,提升>13%)、胰腺IPMN风险分层(测试准确率75%,提升>10%)。
- Conclusion: GrRAiL能够可靠捕捉病灶内异质性,有效区分恶性病变与混淆病理,在临床MRI应用中展现出优越性能和临床可行性。
[119] Moving by Looking: Towards Vision-Driven Avatar Motion Generation
Markos Diomataris,Berat Mert Albaba,Giorgio Becherini,Partha Ghosh,Omid Taheri,Michael J. Black
Main category: cs.CV
TL;DR: CLOPS是首个仅使用自我中心视觉感知环境并导航的人类化身系统,通过将低级运动技能学习与高级视觉控制解耦,实现了人类化的人类运动生成。
- Motivation: 当前人类运动生成方法忽视了感知与运动的相互依赖性,使用与人类感知方式截然不同的任务特定"感知"。作者认为生成人类化化身行为需要人类化的感知方式。
- Method: 采用解耦学习策略:首先在大规模运动捕捉数据集上训练运动先验模型,然后使用Q学习训练策略,将自我中心视觉输入映射到运动先验的高级控制命令。
- Result: 实验证明自我中心视觉能够产生人类化的运动特征,例如化身会根据视觉场中的障碍物调整行走路径以避免碰撞。
- Conclusion: 为化身配备人类化传感器(特别是自我中心视觉)有望训练出行为像人类的化身,这是实现真正人类化运动生成的重要方向。
[120] OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps
Bingnan Li,Chen-Yu Wang,Haiyang Xu,Xiang Zhang,Ethan Armand,Divyansh Srivastava,Xiaojun Shan,Zeyuan Chen,Jianwen Xie,Zhuowen Tu
Main category: cs.CV
TL;DR: 该论文针对布局到图像生成中边界框重叠问题,提出了OverLayScore量化指标和OverLayBench基准,并开发了CreatiLayout-AM模型来改善重叠区域的生成质量。
- Motivation: 现有布局到图像生成方法在处理边界框显著重叠时表现不佳,特别是大重叠区域和语义区分度小的重叠实例,这限制了模型在现实复杂场景中的应用。
- Method: 提出了OverLayScore指标量化边界框重叠复杂度,构建了OverLayBench基准数据集,并开发了基于模态掩码数据集微调的CreatiLayout-AM模型。
- Result: 分析发现现有基准偏向简单重叠情况,新基准提供了更平衡的评估,模型在复杂重叠场景下生成质量得到改善。
- Conclusion: 该研究为在现实复杂场景下实现更鲁棒的布局到图像生成奠定了基础,提供了新的评估工具和解决方案。
[121] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
Sherwin Bahmani,Tianchang Shen,Jiawei Ren,Jiahui Huang,Yifeng Jiang,Haithem Turki,Andrea Tagliasacchi,David B. Lindell,Zan Gojcic,Sanja Fidler,Huan Ling,Jun Gao,Xuanchi Ren
Main category: cs.CV
TL;DR: 提出了一种自蒸馏框架,将视频扩散模型中的隐式3D知识蒸馏到显式的3D高斯溅射表示中,无需多视图训练数据即可生成3D场景
- Motivation: 当前基于学习的3D重建方法依赖真实世界多视图数据,但这些数据并不总是可用。视频扩散模型具有强大的想象力,但其2D特性限制了在机器人导航等需要3D交互的应用
- Method: 在RGB解码器基础上增加3D高斯溅射解码器,通过RGB解码器的输出进行监督训练。3DGS解码器完全使用视频扩散模型生成的合成数据进行训练
- Result: 实验结果表明,该框架在静态和动态3D场景生成方面达到了最先进的性能,能够从文本提示或单张图像实时渲染3D场景
- Conclusion: 该方法成功地将视频扩散模型的2D想象力转化为3D表示,为无需多视图数据的3D场景生成提供了有效解决方案
[122] VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction
Weijie Wang,Yeqing Chen,Zeyu Zhang,Hengyu Liu,Haoxiao Wang,Zhiyuan Feng,Wenkang Qin,Zheng Zhu,Donny Y. Chen,Bohan Zhuang
Main category: cs.CV
TL;DR: VolSplat提出了一种新的多视图前馈3D高斯重建范式,用体素对齐的高斯分布替代像素对齐方法,解决了现有方法对输入视图数量的依赖、视角偏差密度分布和对齐误差等问题。
- Motivation: 现有基于像素对齐的高斯预测方法存在三个主要问题:重建的3D模型严重依赖输入视图数量、产生视角偏差的密度分布、在源视图存在遮挡或低纹理时引入对齐误差。
- Method: VolSplat采用体素对齐的高斯分布,直接从预测的3D体素网格预测高斯分布,避免了像素对齐方法对容易出错的2D特征匹配的依赖,确保多视图一致性,并能基于3D场景复杂度自适应控制高斯密度。
- Result: 在RealEstate10K和ScanNet等基准测试中,VolSplat实现了最先进的性能,产生更合理和视图一致的高斯重建,具有更好的几何一致性和新颖视图渲染质量。
- Conclusion: VolSplat不仅取得了优越的结果,还为前馈3D重建建立了一个更可扩展的框架,提供了更密集和更鲁棒的表示,为更广泛社区的研究铺平了道路。
[123] CAR-Flow: Condition-Aware Reparameterization Aligns Source and Target for Better Flow Matching
Chen Chen,Pengsheng Guo,Liangchen Song,Jiasen Lu,Rui Qian,Xinze Wang,Tsu-Jui Fu,Wei Liu,Yinfei Yang,Alex Schwing
Main category: cs.CV
TL;DR: CAR-Flow是一种条件感知重参数化方法,通过轻量级学习偏移来调节源分布和目标分布,缩短概率路径,加速训练并提升条件生成模型性能。
- Motivation: 现有的扩散和基于流的方法需要模型同时学习质量传输和条件注入,这增加了模型负担。为了减轻模型负担,作者提出了条件感知重参数化方法。
- Method: CAR-Flow通过在源分布、目标分布或两者上应用轻量级学习偏移来重新定位这些分布,从而缩短模型需要学习的概率路径。
- Result: 在低维合成数据上可视化和量化了CAR的效果。在ImageNet-256上,将CAR-Flow应用于SiT-XL/2模型,FID从2.07降至1.68,仅增加不到0.6%的参数。
- Conclusion: CAR-Flow是一种有效的条件生成建模方法,能够显著提升模型性能,同时保持参数效率。
q-bio.NC
[124] Dynamical Modeling of Behaviorally Relevant Spatiotemporal Patterns in Neural Imaging Data
Mohammad Hosseini,Maryam M. Shanechi
Main category: q-bio.NC
TL;DR: SBIND是一个深度学习框架,用于建模神经图像中的时空依赖性,并将行为相关动态与其他神经动态分离。
- Motivation: 高维神经成像数据(如宽场钙成像和功能超声成像)包含丰富信息,但现有模型常通过预处理降维,可能丢失行为相关信息并错过时空结构。
- Method: 提出SBIND数据驱动深度学习框架,直接建模神经图像的时空依赖性,无需预处理降维,能够识别局部和长程空间依赖性。
- Result: SBIND在宽场成像数据集上验证有效,并可扩展到功能超声成像,在神经行为预测方面优于现有模型。
- Conclusion: SBIND为使用成像模态研究行为背后的神经机制提供了通用工具。
cs.RO
[125] Semantic-Aware Particle Filter for Reliable Vineyard Robot Localisation
Rajitha de Silva,Jonathan Cox,James R. Heselden,Marija Popovic,Cesar Cadena,Riccardo Polvara
Main category: cs.RO
TL;DR: 提出了一种语义粒子滤波器,通过融合稳定的物体级检测(葡萄藤树干和支撑杆)与LiDAR扫描,解决葡萄园中因重复行几何和感知混淆导致的定位问题。
- Motivation: 在结构化户外环境(如葡萄园)中,由于重复的行几何和感知混淆,基于LiDAR的定位方法经常失败,需要一种能够利用稳定语义信息的方法来提高定位精度。
- Method: 使用语义粒子滤波器,将检测到的地标(葡萄藤树干和支撑杆)投影到鸟瞰图并与LiDAR扫描融合生成语义观测。关键创新是使用语义墙连接相邻地标,形成伪结构约束以减少行混淆。在语义稀疏的头地区域,引入自适应噪声GPS先验以保持全局一致性。
- Result: 在真实葡萄园中的实验表明,该方法能够在正确的行内保持定位,从AMCL失败的位置恢复,并且优于基于视觉的SLAM方法(如RTAB-Map)。
- Conclusion: 所提出的语义粒子滤波器通过结合语义地标和自适应GPS先验,有效解决了葡萄园环境中的定位挑战,提供了鲁棒且准确的定位性能。
[126] Latent Action Pretraining Through World Modeling
Bahey Tharwat,Yara Nasser,Ali Abouzeid,Ian Reid
Main category: cs.RO
TL;DR: LAWM是一个模型无关的框架,通过世界建模从无标签视频数据中学习潜在动作表示,用于自监督预训练模仿学习模型,在效率和实用性上优于现有方法。
- Motivation: 现有的VLA模型依赖于大规模人工标注的动作数据集,模型规模大且部署困难。需要一种更高效、实用的预训练方法,能够利用无标签视频数据。
- Method: 提出LAWM框架,通过世界建模从无标签视频(机器人记录或人类日常动作视频)中学习潜在动作表示,支持跨任务、环境和具身的迁移。
- Result: 在LIBERO基准测试和真实世界设置中,LAWM优于使用真实机器人动作训练的模型和类似预训练方法,同时显著更高效实用。
- Conclusion: LAWM提供了一种有效的自监督预训练方法,能够利用丰富的无标签视频数据,在保持性能的同时大幅提升部署的实用性。
[127] VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation
Neel P. Bhatt,Yunhao Yang,Rohan Siva,Pranay Samineni,Daniel Milan,Zhangyang Wang,Ufuk Topcu
Main category: cs.RO
TL;DR: VLN-Zero是一个两阶段的视觉语言导航框架,利用视觉语言模型构建符号场景图,实现零样本神经符号导航,在未见环境中实现快速适应和高效导航。
- Motivation: 解决现有视觉语言导航方法在未见环境中适应性差、计算效率低和泛化能力不足的问题,实现可扩展的自主导航。
- Method: 采用两阶段框架:探索阶段使用结构化提示引导VLM搜索构建紧凑场景图;部署阶段使用神经符号规划器在场景图上推理生成可执行计划,并通过缓存机制加速适应。
- Result: 在多样环境中相比最先进的零样本模型成功率提高2倍,优于大多数微调基线,到达目标位置时间减半,VLM调用减少55%。
- Conclusion: VLN-Zero通过快速探索、符号推理和缓存执行相结合,克服了现有方法的局限性,实现了在未见环境中稳健且可扩展的决策。
[128] Human-Interpretable Uncertainty Explanations for Point Cloud Registration
Johannes A. Gaus,Loris Schneider,Yitian Shi,Jongseok Lee,Rania Rayyes,Rudolph Triebel
Main category: cs.RO
TL;DR: 本文提出了一种名为GP-CA的新型点云配准方法,能够量化配准不确定性并解释其来源,通过主动学习发现新的不确定性因素,在多个数据集和真实机器人实验中表现出色。
- Motivation: 传统方法如ICP在传感器噪声、位姿估计误差和部分重叠等不确定性条件下容易失败,需要一种既能量化又能解释配准不确定性的方法。
- Method: 开发了高斯过程概念归因(GP-CA)方法,利用主动学习查询信息丰富的实例来发现新的不确定性来源,并通过归因分析解释配准不确定性。
- Result: 在三个公开数据集和真实机器人实验中验证了GP-CA的有效性,相比现有方法在运行时间、样本效率和准确性方面表现更优,能够实现有效的故障恢复行为。
- Conclusion: GP-CA方法为点云配准提供了可靠的不确定性量化和解释能力,显著提升了机器人感知的鲁棒性和实用性。
[129] DexSkin: High-Coverage Conformable Robotic Skin for Learning Contact-Rich Manipulation
Suzannah Wistreich,Baiyu Shi,Stephen Tian,Samuel Clarke,Michael Nath,Chengyi Xu,Zhenan Bao,Jiajun Wu
Main category: cs.RO
TL;DR: DexSkin是一种柔软、可适应的电容式电子皮肤,能够实现灵敏、局部化和可校准的触觉感知,可定制到不同几何形状上,用于机器人灵巧操作任务的学习。
- Motivation: 人类皮肤提供丰富的触觉感知流,能够在大的曲面区域定位有意和无意的接触事件。为灵巧机器人操作系统复制这些触觉感知能力仍然是一个长期挑战。
- Method: 开发了DexSkin电子皮肤系统,将其安装在平行夹爪手指上,提供几乎整个手指表面的触觉覆盖。在从演示学习框架中评估其在需要整个手指表面传感覆盖的挑战性操作任务中的能力。
- Result: DexSkin能够成功学习需要整个手指表面接触感知的复杂操作任务,如手中重新定向物体和将弹性带缠绕在盒子上。DexSkin可以校准以实现传感器实例间的模型迁移,并适用于真实机器人的在线强化学习。
- Conclusion: DexSkin展示了其对于学习真实世界、接触丰富的机器人操作的适用性和实用性,为灵巧机器人操作系统的触觉感知提供了可行的解决方案。
[130] Towards Robust LiDAR Localization: Deep Learning-based Uncertainty Estimation
Minoo Dolatabadi,Fardin Ayar,Ehsan Javanmardi,Manabu Tsukada,Mahdi Javanmardi
Main category: cs.RO
TL;DR: 提出了一种基于深度学习的框架,用于在ICP匹配前估计注册误差协方差,无需参考地图,提高了LiDAR定位的准确性和鲁棒性。
- Motivation: ICP算法在特征缺失环境和动态场景中容易产生误差,现有方法要么依赖手工模型,要么需要预建地图,或者只能进行二值分类,无法准确建模不确定性。
- Method: 使用深度学习框架,在ICP匹配前估计6自由度误差协方差,使ICP能够无缝集成到卡尔曼滤波中。
- Result: 在KITTI数据集上的实验表明,该方法能准确预测协方差,在定位和SLAM应用中降低了定位误差并提高了鲁棒性。
- Conclusion: 该数据驱动框架有效解决了ICP不确定性估计问题,为LiDAR定位提供了更可靠的解决方案。
[131] Category-Level Object Shape and Pose Estimation in Less Than a Millisecond
Lorenzo Shaikewitz,Tim Nguyen,Luca Carlone
Main category: cs.RO
TL;DR: 本文提出了一种快速局部求解器,用于物体形状和姿态估计,只需要类别级物体先验,并能提供高效的全局最优性证明。
- Motivation: 物体形状和姿态估计是机器人学的基础问题,支持从操作到场景理解和导航等任务。需要一种快速且能保证全局最优性的方法。
- Method: 使用学习的前端检测稀疏的类别级语义关键点,采用线性主动形状模型表示未知形状,通过最大后验优化同时求解位置、方向和形状,使用自洽场迭代高效求解特征值问题。
- Result: 求解器每次迭代仅需约100微秒,能够快速剔除异常值,在合成数据和真实场景(包括两个公共数据集和无人机跟踪场景)上进行了测试。
- Conclusion: 该方法能够高效解决形状和姿态估计问题,并提供简单的全局最优性证明,代码已开源。
[132] FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation
Hongli Xu,Lei Zhang,Xiaoyue Hu,Boyang Zhong,Kaixin Bai,Zoltán-Csaba Márton,Zhenshan Bing,Zhaopeng Chen,Alois Christian Knoll,Jianwei Zhang
Main category: cs.RO
TL;DR: FunCanon框架将长时程操作任务分解为动作块序列,通过功能对象规范化实现功能对齐和自动操作轨迹迁移,提高策略的泛化能力和组合性。
- Motivation: 解决端到端演示学习导致的任务特定策略泛化能力差的问题,通过功能规范化提供更强的归纳偏置。
- Method: 将任务分解为actor-verb-object动作块,使用大视觉语言模型进行功能对象规范化,训练对象中心和动作中心的扩散策略FuncDiffuser。
- Result: 在仿真和真实世界基准测试中展示了类别级泛化、跨任务行为重用和稳健的sim2real部署能力。
- Conclusion: 功能规范化为复杂操作领域的可扩展模仿学习提供了强大的归纳偏置。
physics.med-ph
[133] Neural Network-Driven Direct CBCT-Based Dose Calculation for Head-and-Neck Proton Treatment Planning
Muheng Li,Evangelia Choulilitsa,Lisa Fankhauser,Francesca Albertini,Antony Lomax,Ye Zhang
Main category: physics.med-ph
TL;DR: 本研究开发并验证了一种基于扩展长短期记忆(xLSTM)神经网络的深度学习方法,可直接从锥形束CT(CBCT)图像进行质子剂量计算,消除了传统校正流程的需求。
- Motivation: 传统基于CBCT的剂量计算受限于图像质量问题,需要复杂的校正流程。现代质子治疗规划需要准确计算CBCT图像上的剂量,特别是在考虑分次间解剖变化的适应性治疗场景中。
- Method: 使用40个头颈癌患者的配对规划CT和治疗CBCT图像数据集,训练基于xLSTM的神经网络(CBCT-NN)。架构包含能量标记编码和射束视角序列建模,利用82,500个配对射束配置和蒙特卡罗生成的真实剂量进行训练。
- Result: CBCT-NN实现了95.1±2.7%的gamma通过率(2mm/2%标准),高剂量区域平均百分比剂量误差为2.6±1.4%,全局为5.9±1.9%。剂量体积直方图分析显示目标覆盖指标和危及器官约束得到良好保持,计算时间在3分钟内。
- Conclusion: 该研究证明了使用xLSTM神经网络直接进行CBCT质子剂量计算的可行性,方法消除了传统校正流程,同时实现了适合适应性协议的准确性和计算效率。
quant-ph
[134] Machine learning approach to single-shot multiparameter estimation for the non-linear Schrödinger equation
Louis Rossignol,Tangui Aladjidi,Myrann Baker-Rasooli,Quentin Glorieux
Main category: quant-ph
TL;DR: 该论文提出了一种基于神经网络的非线性薛定谔方程参数估计方法,通过结合快速数值求解器和ConvNeXt架构,从单次场图像中准确估计非线性系数、饱和强度和线性吸收系数三个关键参数。
- Motivation: 非线性薛定谔方程是描述非线性介质中波动力学的基本模型,但从单次测量中准确估计其强相关参数仍然是一个重大挑战。
- Method: 将参数估计视为逆问题,训练神经网络来反转NLSE映射。结合快速数值求解器和基于ConvNeXt架构的机器学习方法,使用多元高斯负对数似然损失函数。
- Result: 在10万张模拟图像上训练后,模型在12,500个未见测试样本上达到3.22%的平均绝对误差,显示出强大的泛化能力并与真实值高度一致。
- Conclusion: 该方法为表征非线性系统提供了有效途径,在加入真实噪声后有望连接理论建模和实验数据。
[135] Quantum Random Synthetic Skyrmion Texture Generation, a Qiskit Simulation
Hillol Biswas
Main category: quant-ph
TL;DR: 该论文探讨了利用量子计算合成斯格明子纹理的可能性,生成了数百种不同的纹理样本,为基于量子随机性的斯格明子研究开辟了新方向。
- Motivation: 斯格明子作为拓扑非平凡的磁自旋结构,具有拓扑保护特性,可以作为量子比特。但能否通过量子计算合成斯格明子纹理仍是一个开放问题。
- Method: 研究通过量子计算生成斯格明子纹理,产生了数百种不同类型的纹理样本,并进行比较分析。
- Result: 成功生成了多种斯格明子纹理样本,展示了量子计算在合成拓扑纹理方面的潜力。
- Conclusion: 量子计算为斯格明子研究提供了新途径,基于量子随机性的纹理生成方法具有重要应用前景。
physics.optics
[136] Reconstruction of Optical Coherence Tomography Images from Wavelength-space Using Deep-learning
Maryam Viqar,Erdem Sahin,Elena Stoykova,Violeta Madjarova
Main category: physics.optics
TL;DR: 提出了一种基于深度学习的简化方法,直接从波长域重建去散斑的OCT图像,无需传统方法中的重采样步骤,降低了计算复杂度。
- Motivation: 传统FD-OCT系统依赖重采样到波数域来提取深度剖面,这需要额外硬件资源或增加计算复杂度,且OCT图像存在散斑噪声问题。
- Method: 使用两个编码器-解码器结构的网络:SD-CNN和FD-CNN。SD-CNN从傅里叶变换后的条纹图像重建形态结构并抑制噪声,FD-CNN在傅里叶域进一步优化图像质量。
- Result: 定量和视觉上证明了该方法在获得高质量OCT图像方面的有效性,并展示了计算复杂度的降低。
- Conclusion: 这项工作为OCT图像重建领域的进一步创新奠定了基础。
cs.GR
[137] Zero-Shot Visual Deepfake Detection: Can AI Predict and Prevent Fake Content Before It's Created?
Ayan Sar,Sampurna Roy,Tanupriya Choudhury,Ajith Abraham
Main category: cs.GR
TL;DR: 该研究探讨了零样本深度伪造检测技术,结合自监督学习、Transformer分类器、生成模型指纹识别和元学习等方法,并提出AI驱动的预防策略,包括对抗性扰动、数字水印等技术,以应对不断演变的深度伪造威胁。
- Motivation: 随着GAN和扩散模型的发展,深度伪造技术对数字安全、媒体完整性和公众信任构成严重威胁,需要开发能够应对未知深度伪造变体的零样本检测方法。
- Method: 采用自监督学习、基于Transformer的零样本分类器、生成模型指纹识别和元学习技术,同时提出对抗性扰动、数字水印、实时AI监控和区块链验证等预防策略。
- Result: 研究展示了零样本检测和预防技术的有效性,但也面临对抗攻击、可扩展性限制、伦理困境和缺乏标准化评估基准等挑战。
- Conclusion: 需要结合零样本学习和预防机制的综合防御框架,并通过AI研究者、网络安全专家和政策制定者的跨学科合作,建立对抗深度伪造攻击的弹性防御体系。
[138] Differentiable Light Transport with Gaussian Surfels via Adapted Radiosity for Efficient Relighting and Geometry Reconstruction
Kaiwen Jiang,Jia-Mu Sun,Zilu Li,Dan Wang,Tzu-Mao Li,Ravi Ramamoorthi
Main category: cs.GR
TL;DR: 本文提出了一种基于高斯曲面元的高效可微分光传输框架,结合辐射度理论,在球谐系数空间中实现全局光照,支持漫反射和镜面反射材料,实现了视图无关的实时渲染。
- Motivation: 传统辐射场方法牺牲了材质反射属性和光照条件的建模,导致几何歧义和无法轻松重光照。现有方法要么过于简化全局光照效果,要么计算成本过高。
- Method: 采用高斯曲面元作为基元,在球谐系数空间中构建可微分光传输框架,扩展经典辐射度理论以支持非二元可见性和半透明基元,提出高效求解器和反向传播算法。
- Result: 实现了视图无关的渲染,在视角变化时无需重新计算光传输,达到数百FPS的全局光照效果,包括视图相关的反射。在几何重建、视图合成和重光照方面优于现有基线方法。
- Conclusion: 该方法在稀疏数据集下,无论是已知还是未知光照条件,都能实现高质量的几何重建、视图合成和重光照效果,为实时全局光照渲染提供了有效解决方案。
[139] Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters
Pin-Yen Chiu,I-Sheng Fang,Jun-Cheng Chen
Main category: cs.GR
TL;DR: Text Slider是一个轻量级、高效的即插即用框架,通过在预训练文本编码器中识别低秩方向,实现对视觉概念的连续控制,显著减少训练时间、GPU内存消耗和可训练参数数量。
- Motivation: 现有的概念控制方法需要大量训练时间和GPU内存来学习滑块或嵌入,且需要为不同的扩散主干网络重新训练,限制了其可扩展性和适应性。
- Method: 在预训练文本编码器中识别低秩方向,实现连续控制,支持多概念组合和连续控制,实现图像和视频合成中的细粒度灵活操作。
- Result: Text Slider能够平滑连续地调节特定属性,同时保持输入的空间布局和结构。训练速度比Concept Slider快5倍,比Attribute Control快47倍,GPU内存使用分别减少近2倍和4倍。
- Conclusion: Text Slider是一个高效、轻量级的解决方案,解决了现有概念控制方法的训练效率低和适应性差的问题。
[140] One-shot Embroidery Customization via Contrastive LoRA Modulation
Jun Ma,Qian He,Gaofeng He,Huang Chen,Chen Liu,Xiaogang Jin,Huamin Wang
Main category: cs.GR
TL;DR: 提出了一种基于对比学习的框架,用于从单张参考图像中解耦细粒度风格和内容特征,特别针对刺绣等复杂纹理的定制化需求。
- Motivation: 现有风格迁移方法在处理刺绣等具有复杂针迹图案和材质特性的细粒度视觉特征时面临挑战,需要探索此类精细特征的定制化方法。
- Method: 采用两阶段对比LoRA调制技术:第一阶段迭代更新整个LoRA和选定风格块以初步分离风格与内容;第二阶段通过自知识蒸馏的对比学习策略进一步解耦风格和内容。
- Result: 在刺绣定制基准测试中超越现有方法,并在艺术风格迁移、草图着色和外观迁移三个额外领域展现出强泛化能力。
- Conclusion: 该方法能够有效处理细粒度风格迁移任务,为复杂纹理特征的定制化提供了可行解决方案。
cs.LG
[141] Localized PCA-Net Neural Operators for Scalable Solution Reconstruction of Elliptic PDEs
Mrigank Dhingra,Romit Maulik,Adil Rasheed,Omer San
Main category: cs.LG
TL;DR: 提出基于分块的PCA-Net框架,通过将高维解场分解为小块并在每个块内应用PCA,显著降低了计算复杂度,同时保持高精度。
- Motivation: 传统PCA在处理高维偏微分方程解场时计算开销大,需要更高效的方法来降低计算复杂度。
- Method: 开发了两种基于分块的PCA方法:局部到全局分块PCA和局部到局部分块PCA,并探索了重叠分块和平滑滤波、CNN精炼等优化技术。
- Result: 基于分块的PCA方法将端到端流程处理时间减少了3.7到4倍,同时保持了高精度。
- Conclusion: 分块PCA是一种有前景的技术,可在PDE系统中实现高效的算子学习,平衡了计算效率和重构精度。
[142] Prompt Optimization Meets Subspace Representation Learning for Few-shot Out-of-Distribution Detection
Faizul Rakib Sayem,Shahana Ibrahim
Main category: cs.LG
TL;DR: 提出了一种基于上下文优化(CoOp)的新框架,将子空间表示学习与提示调优相结合,用于改进大规模视觉语言模型的OOD检测性能。
- Motivation: 现有基于提示学习的OOD检测方法仅依赖softmax概率,忽略了视觉语言模型在数百万样本上学习到的丰富特征嵌入的判别潜力。
- Method: 通过将ID特征投影到提示向量张成的子空间,同时将ID无关特征投影到正交零空间,提高ID-OOD可分性。设计了端到端学习准则来训练该框架。
- Result: 在真实世界数据集上的实验证明了该方法的有效性。
- Conclusion: 该方法通过整合子空间表示学习和提示调优,显著提升了OOD检测性能,同时保持了较高的ID分类准确率。
[143] KM-GPT: An Automated Pipeline for Reconstructing Individual Patient Data from Kaplan-Meier Plots
Yao Zhao,Haoyue Sun,Yantian Ding,Yanxun Xu
Main category: cs.LG
TL;DR: KM-GPT是一个全自动AI驱动的管道,用于从Kaplan-Meier图中高精度重建个体患者数据,解决了现有手动数字化方法的局限。
- Motivation: 现有的Kaplan-Meier图数字化方法依赖手动操作,容易出错且缺乏可扩展性,需要自动化解决方案来提高临床研究证据合成的效率和准确性。
- Method: KM-GPT整合了先进的图像预处理、GPT-5驱动的多模态推理和迭代重建算法,采用混合推理架构自动将非结构化信息转换为结构化数据流,并验证从复杂KM图中提取的数据。
- Result: 在合成和真实数据集上的严格评估表明,KM-GPT始终表现出卓越的准确性。应用于胃癌免疫治疗试验的荟萃分析中,成功重建IPD以促进证据合成和基于生物标志物的亚组分析。
- Conclusion: KM-GPT通过自动化传统手动流程并提供基于Web的解决方案,利用重建的IPD支持更明智的下游分析,从而改变临床研究,支持循证决策。
[144] MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe
Tianyu Yu,Zefan Wang,Chongyi Wang,Fuwei Huang,Wenshuo Ma,Zhihui He,Tianchi Cai,Weize Chen,Yuxiang Huang,Yuanqian Zhao,Bokai Xu,Junbo Cui,Yingjing Xu,Liqing Ruan,Luoyuan Zhang,Hanyu Liu,Jingkun Tang,Hongyuan Liu,Qining Guo,Wenhao Hu,Bingxiang He,Jie Zhou,Jie Cai,Ji Qi,Zonghao Guo,Chi Chen,Guoyang Zeng,Yuxuan Li,Ganqu Cui,Ning Ding,Xu Han,Yuan Yao,Zhiyuan Liu,Maosong Sun
Main category: cs.LG
TL;DR: MiniCPM-V 4.5是一个8B参数的多模态大语言模型,通过架构、数据和训练方法的创新实现了高效性和强大性能,在多项基准测试中超越了更大的专有和开源模型。
- Motivation: 解决多模态大语言模型训练和推理效率低下的核心瓶颈问题,使其更具可访问性和可扩展性。
- Method: 采用统一3D-Resampler模型架构实现图像和视频的紧凑编码;使用统一学习范式处理文档知识和文本识别;采用混合强化学习策略支持短长推理模式。
- Result: 在OpenCompass评估中超越了GPT-4o-latest和Qwen2.5-VL 72B等模型;在VideoMME基准上达到30B以下模型的最优性能,仅需Qwen2.5-VL 7B的46.7%GPU内存和8.7%推理时间。
- Conclusion: MiniCPM-V 4.5证明了通过精心设计的架构和训练策略,小规模模型也能实现超越大规模模型的性能,同时显著提升效率。
[145] Latent Danger Zone: Distilling Unified Attention for Cross-Architecture Black-box Attacks
Yang Li,Chenyu Wang,Tingrui Wang,Yongwei Wang,Haonan Li,Zhunga Liu,Quan Pan
Main category: cs.LG
TL;DR: JAD是一个基于潜在扩散模型的黑盒对抗攻击框架,通过联合注意力蒸馏策略实现跨架构攻击迁移,提高攻击泛化能力和生成效率
- Motivation: 现有黑盒对抗攻击方法存在跨架构迁移性差、查询成本高的问题,需要一种架构无关的高效攻击方法
- Method: 利用潜在扩散模型生成对抗样本,通过从CNN和ViT模型中蒸馏注意力图来指导生成过程,聚焦跨架构敏感区域
- Result: JAD在攻击泛化性、生成效率和跨架构迁移性方面优于现有方法
- Conclusion: JAD为黑盒对抗攻击提供了一个有前景的有效范式
eess.IV
[146] Efficient Breast and Ovarian Cancer Classification via ViT-Based Preprocessing and Transfer Learning
Richa Rawat,Faisal Ahmed
Main category: eess.IV
TL;DR: 本文提出了一种基于Vision Transformer (ViT)的新方法,用于乳腺癌和卵巢癌的检测和分类。该方法使用预训练的ViT-Base-Patch16-224模型,在公开的组织病理学图像数据集上进行微调,用于二元和多元分类任务。
- Motivation: 癌症是女性面临的主要健康挑战之一,特别是乳腺癌和卵巢癌。传统癌症检测方法依赖人工检查影像,过程劳动密集且需要专业病理学家,既耗时又耗费资源。早期检测可以通过及时干预提高生存率。
- Method: 使用预训练的ViT-Base-Patch16-224模型,通过预处理管道将原始组织病理学图像转换为标准化的PyTorch张量,使其与ViT架构兼容。模型在BreakHis数据集上进行二元分类,在UBC-OCEAN数据集上进行五类分类,且未使用数据增强。
- Result: 在二元分类任务中,该模型超越了现有的CNN、ViT和拓扑数据分析方法。在多元分类任务中,与最近的拓扑方法相比也表现出更优的性能。
- Conclusion: 研究表明,基于Vision Transformer的迁移学习结合高效预处理在肿瘤学诊断中具有显著效果,为癌症早期检测提供了有效的自动化解决方案。
[147] MOIS-SAM2: Exemplar-based Segment Anything Model 2 for multilesion interactive segmentation of neurobromas in whole-body MRI
Georgii Kolokolnikov,Marie-Lena Schmalhofer,Sophie Götz,Lennart Well,Said Farschtschi,Victor-Felix Mautner,Inka Ristow,Rene Werner
Main category: eess.IV
TL;DR: MOIS-SAM2是一种针对神经纤维瘤病1型患者全身MRI中多发性神经纤维瘤交互式分割的新模型,基于SAM2架构改进,在多种域偏移场景下表现出色。
- Motivation: 现有交互式分割方法无法同时实现高病灶精度和数百个病灶的可扩展性,神经纤维瘤病1型需要全身MRI监测肿瘤生长。
- Method: 提出MOIS-SAM2模型,扩展了基于transformer的SAM2架构,加入基于范例的语义传播,在119个WB-MRI扫描上训练和评估。
- Result: 在域内测试集上DSC达0.60,优于基线模型;在MRI场强变化、扫描仪供应商差异等域偏移场景下保持良好性能;模型与专家一致性接近专家间一致性。
- Conclusion: MOIS-SAM2能以最小用户输入实现高效可扩展的神经纤维瘤交互式分割,具有良好的泛化能力,支持临床工作流程集成。
cs.HC
[148] Does Embodiment Matter to Biomechanics and Function? A Comparative Analysis of Head-Mounted and Hand-Held Assistive Devices for Individuals with Blindness and Low Vision
Gaurav Seth,Hoa Pham,Giles Hamilton-Fletcher,Charles Leclercq,John-Ross Rizzo
Main category: cs.HC
TL;DR: 本研究比较了手持智能手机和头戴式AR系统两种视觉辅助技术设备对盲人或低视力人群的影响,发现头戴式系统能减少上半身运动和执行时间,而手持系统在涉及小或弯曲文本的任务中成功率更高。
- Motivation: 探索不同设备形态对盲人或低视力人群使用视觉辅助技术时的物理和功能影响,以优化用户体验。
- Method: 11名盲人或低视力参与者使用手持智能手机和头戴式AR系统执行六项日常活动,通过Xsens动作捕捉系统记录运动数据,评估功能结果和生物力学指标。
- Result: 头戴式系统减少了上半身运动和执行时间,尤其在文档扫描类任务中表现更好;手持系统在涉及小或弯曲文本的任务中成功率更高。
- Conclusion: 两种设备形态均可行,但在物理需求和易用性方面存在差异;将生物力学指标纳入辅助技术评估有助于优化设计,平衡功能效率、物理可持续性和直观交互。
Powered by Deepseek & arXiv Daily AI Enhanced