Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery
Yi-Shan Chu,Hsuan-Cheng Wei
Main category: cs.CV
TL;DR: 提出了基于视觉变换器(ViT)的深度学习框架,通过弱监督学习改进遥感图像中灾害影响区域分割,以支持台湾太空总署的紧急增值产品(EVAP)开发
- Motivation: 在缺乏准确地面真值的情况下,需要一种可扩展的方法来改进遥感图像中灾害影响区域的分割精度,以支持和增强台湾太空总署开发的紧急增值产品(EVAP)
- Method: 从少量手动标注区域开始,应用基于主成分分析(PCA)的特征空间分析并构建置信度指数(CI)来扩展标签,产生弱监督训练集。然后使用这些扩展标签训练基于ViT的编码器-解码器模型,输入来自Sentinel-2和Formosat-5的多波段图像。架构支持多种解码器变体和多阶段损失策略
- Result: 在2022年鄱阳湖干旱和2023年罗德岛野火的案例研究中,该框架提高了分割结果的平滑性和可靠性。模型预测与高分辨率EVAP输出的比较显示了良好的空间一致性和分割一致性
- Conclusion: 该框架为灾害测绘提供了一种可扩展的方法,在缺乏准确地面真值的情况下仍能有效改进分割结果的平滑性和可靠性,为灾害响应和监测提供了有价值的技术支持
[2] Toward a Real-Time Framework for Accurate Monocular 3D Human Pose Estimation with Geometric Priors
Mohamed Adjel
Main category: cs.CV
TL;DR: 提出了一个结合实时2D关键点检测和几何感知的2D-to-3D提升的框架,用于单目3D人体姿态估计,通过利用相机内参和解剖学先验知识来实现快速、个性化和准确的姿态估计。
- Motivation: 单目3D人体姿态估计仍然是一个具有挑战性的病态问题,特别是在实时设置和无约束环境中。直接的图像到3D方法需要大量标注数据集和重型模型,而2D-to-3D提升提供了一种更轻量级和灵活的替代方案。
- Method: 提出了一个结合实时2D关键点检测与几何感知2D-to-3D提升的框架,明确利用已知的相机内参和特定主体的解剖学先验。该方法基于自校准和生物力学约束逆运动学的最新进展,从动作捕捉和合成数据集生成大规模、合理的2D-3D训练对。
- Result: 该方法能够在不需要专门硬件的情况下,从单目图像实现快速、个性化和准确的3D姿态估计,适合在边缘设备上部署。
- Conclusion: 这项工作旨在促进关于桥接数据驱动学习和基于模型先验的讨论,以提高野外边缘设备上3D人体运动捕捉的准确性、可解释性和可部署性。
[3] Coarse-to-fine crack cue for robust crack detection
Zelong Liu,Yuliang Gu,Zhichao Sun,Huachao Zhu,Xin Xiao,Bo Du,Laurent Najman,Yongchao Xu
Main category: cs.CV
TL;DR: CrackCue是一种基于粗到细裂缝线索生成的鲁棒裂缝检测方法,通过利用裂缝的细结构特性生成无裂缝背景,并计算与原图的差异来获得精细裂缝线索,显著提升了现有方法的泛化能力和鲁棒性。
- Motivation: 现有深度学习裂缝检测方法在数据集内表现良好,但在未见域的泛化能力较差,且通常忽略了裂缝的细结构特性。需要一种能够处理复杂背景、阴影和不同光照条件下的鲁棒裂缝检测方法。
- Method: 提出CrackCue方法,采用粗到细的裂缝线索生成策略:首先通过最大池化和上采样操作生成粗糙的无裂缝背景,然后通过重建网络获得精细的无裂缝背景,最后计算原图与精细无裂缝背景的差异得到精细裂缝线索。该方法可作为即插即用模块集成到现有裂缝检测网络中。
- Result: 在三个先进的裂缝检测网络上进行的大量实验表明,CrackCue显著提升了基线方法的泛化能力和鲁棒性。生成的精细裂缝线索包含鲁棒的裂缝先验信息,不受复杂背景、阴影和变化光照的影响。
- Conclusion: CrackCue通过利用裂缝的细结构特性,成功解决了现有深度学习方法在跨域裂缝检测中的泛化问题。该方法作为即插即用的解决方案,能够有效提升不同基线网络的性能,为鲁棒裂缝检测提供了新的思路。
[4] CLAMP: Contrastive Learning with Adaptive Multi-loss and Progressive Fusion for Multimodal Aspect-Based Sentiment Analysis
Xiaoqiang He
Main category: cs.CV
TL;DR: 本文提出CLAMP框架,通过渐进注意力融合、多任务对比学习和自适应多损失聚合来解决多模态方面级情感分析中的跨模态对齐噪声和细粒度表示不一致问题,在标准基准测试中超越了现有最先进方法。
- Motivation: 现有多模态方面级情感分析方法面临跨模态对齐噪声和细粒度表示不一致的挑战。全局模态对齐方法往往忽略了方面词与其对应局部视觉区域之间的连接,文本和图像之间的表示差距仍然是一个挑战。
- Method: 提出端到端的CLAMP(对比学习与自适应多损失和渐进注意力融合)框架,包含三个核心模块:1)渐进注意力融合网络,通过分层多阶段跨模态交互增强文本特征与图像区域的细粒度对齐;2)多任务对比学习,结合全局模态对比和局部粒度对齐;3)自适应多损失聚合,采用基于不确定性的动态加权机制。
- Result: 在标准公共基准测试上,CLAMP框架持续超越绝大多数现有最先进方法的性能表现。
- Conclusion: CLAMP框架通过渐进注意力融合有效抑制无关视觉噪声,通过多任务对比学习增强跨模态表示一致性,通过自适应多损失聚合缓解梯度干扰,成功解决了多模态方面级情感分析中的关键技术挑战。
[5] SIA: Enhancing Safety via Intent Awareness for Vision-Language Models
Youngjin Na,Sangheon Jeong,Youngwan Lee
Main category: cs.CV
TL;DR: 提出了SIA框架,通过三阶段推理过程(视觉抽象、意图推断、基于意图的响应优化)来检测和缓解视觉-语言模型中的潜在有害意图,在多个安全基准测试中取得显著改进。
- Motivation: 随着视觉-语言模型在实际应用中的广泛部署,图像和文本的微妙交互产生了新的安全风险。看似无害的输入组合可能揭示有害意图,导致不安全的模型响应。现有的基于事后过滤或静态拒绝提示的方法难以检测这种潜在风险,特别是当有害性仅从输入组合中出现时。
- Method: 提出SIA(通过意图感知实现安全)框架,这是一个无需训练的提示工程框架,采用三阶段推理过程:(1) 通过字幕生成进行视觉抽象,(2) 通过少样本思维链提示进行意图推断,(3) 基于意图条件的响应优化。SIA不依赖预定义规则或分类器,而是动态适应从图像-文本对中推断的隐含意图。
- Result: 在SIUO、MM-SafetyBench和HoliSafe等安全关键基准测试上进行了广泛实验,SIA实现了显著的安全性改进,超越了先前的方法。虽然在MMStar上的一般推理准确性略有下降,但相应的安全性提升突出了意图感知推理在将VLMs与人类价值观对齐方面的价值。
- Conclusion: SIA框架通过主动检测和缓解多模态输入中的有害意图,有效解决了视觉-语言模型的安全问题。实验结果表明,基于意图感知的推理方法在提高模型安全性方面具有重要价值,为VLMs与人类价值观的对齐提供了新的解决方案。
[6] Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection
Xiang Li
Main category: cs.CV
TL;DR: 本文提出了一种解决自动驾驶中LiDAR和相机特征错位问题的方法,通过利用2D目标先验信息来预对齐跨模态特征,在nuScenes数据集上达到了最先进的性能表现。
- Motivation: 当前LiDAR和相机融合方法受到特征错位问题影响,这种错位导致相机分支深度监督不准确和跨模态特征聚合错误。错位的根本原因是投影误差,源于外参标定的微小不准确性和车辆运动时LiDAR的滚动快门效应。作者发现这些投影误差主要集中在目标-背景边界处,可通过2D检测器识别。
- Method: 提出三个核心组件:1) 先验引导深度校准(PGDC),利用2D先验信息纠正局部错位并保持正确的跨模态特征对;2) 不连续性感知几何融合(DAGF),处理PGDC的校准结果,抑制噪声并显式增强目标-背景边界的尖锐过渡;3) 结构引导深度调制器(SGDM),使用门控注意力机制有效融合对齐的深度和图像特征。
- Result: 在nuScenes验证数据集上达到了最先进的性能,mAP达到71.5%,NDS达到73.6%。
- Conclusion: 通过利用2D目标先验信息来预对齐跨模态特征,有效解决了LiDAR和相机特征错位问题,显著提升了3D感知能力,在标准数据集上取得了最优性能。
[7] Pixels, Patterns, but No Poetry: To See The World like Humans
Hongcheng Gao,Zihao Huang,Lin Xu,Jingyi Tang,Xinhao Li,Yue Liu,Haoyang Li,Taihang Hu,Minhua Lin,Xinlong Yang,Ge Wu,Balong Bi,Hongyu Chen,Wentao Zhang
Main category: cs.CV
TL;DR: 本文提出图灵眼测试(TET),一个专注于感知能力的基准测试,用于评估多模态大语言模型是否能像人类一样感知世界,发现当前最先进的模型在人类直觉处理的感知任务上存在灾难性失败。
- Motivation: 当前多模态大语言模型研究主要关注推理能力提升,但一个根本问题是:这些模型是否真的能像人类一样感知世界?本文将焦点从推理转向感知,探索模型与人类感知能力之间的差距。
- Method: 引入图灵眼测试(TET),这是一个具有挑战性的面向感知的基准测试,包含四个诊断任务,评估多模态大语言模型在人类直觉处理的合成图像上的表现。测试了上下文学习、语言骨干训练和视觉塔微调等不同方法。
- Result: 最先进的多模态大语言模型在对人类来说简单的感知任务上表现出灾难性失败。上下文学习和语言骨干训练无法改善性能,而视觉塔微调能够实现快速适应,表明问题主要出现在视觉塔的泛化能力上。
- Conclusion: 当前多模态大语言模型与人类感知之间存在关键差距,主要体现在视觉塔的泛化能力不足,而非语言骨干的知识和推理能力。这一发现为未来提升视觉泛化能力的研究指明了方向。
[8] HIPPO-Video: Simulating Watch Histories with Large Language Models for Personalized Video Highlighting
Jeongeun Lee,Youngjae Yu,Dongha Lee
Main category: cs.CV
TL;DR: 本文提出了HIPPO-Video数据集和HiPHer方法,用于个性化视频高亮显示,通过LLM用户模拟器生成观看历史来捕捉用户偏好,实现了比通用方法更好的个性化视频片段显著性预测
- Motivation: 现有视频数据集缺乏个性化,依赖孤立视频或简单文本查询,无法捕捉用户行为的复杂性。随着视频内容指数级增长,个性化视频高亮显示成为关键任务,但用户偏好高度可变且复杂
- Method: 引入HIPPO-Video数据集,使用基于LLM的用户模拟器生成反映多样化用户偏好的真实观看历史。提出HiPHer方法,利用个性化观看历史预测基于偏好条件的片段级显著性分数
- Result: HIPPO-Video数据集包含2,040个(观看历史,显著性分数)对,涵盖170个语义类别的20,400个视频。HiPHer方法在实验中优于现有的通用和基于查询的方法
- Conclusion: 该方法展示了在真实场景中实现高度以用户为中心的视频高亮显示的潜力,为个性化视频内容推荐提供了有效解决方案
[9] ReMeREC: Relation-aware and Multi-entity Referring Expression Comprehension
Yizhi Hu,Zezhao Tian,Xingqun Qi,Chen Su,Bingkun Yang,Junhui Yin,Muyi Sun,Man Zhang,Zhenan Sun
Main category: cs.CV
TL;DR: 本文提出了ReMeREC框架和ReMeX数据集,用于解决多实体指代表达理解中的实体定位和关系建模问题,在多个基准数据集上取得了最优性能。
- Motivation: 现有的指代表达理解方法主要处理单实体定位,忽略了多实体场景中复杂的实体间关系,导致准确性和可靠性受限。同时,缺乏高质量的细粒度图像-文本-关系标注数据集阻碍了进一步发展。
- Method: 构建了关系感知的多实体REC数据集ReMeX,提出ReMeREC框架联合利用视觉和文本线索进行多实体定位和关系建模。引入文本自适应多实体感知器(TMP)动态推断实体数量和范围,设计实体关系推理器(EIR)增强关系推理和全局场景理解,并构建辅助数据集EntityText改进语言理解能力。
- Result: 在四个基准数据集上的实验表明,ReMeREC在多实体定位和关系预测任务上达到了最先进的性能,大幅超越了现有方法。
- Conclusion: ReMeREC框架通过有效建模实体间关系和动态推断实体边界,成功解决了多实体指代表达理解中的关键挑战,为该领域提供了新的解决方案和高质量数据资源。
[10] CausalStep: A Benchmark for Explicit Stepwise Causal Reasoning in Videos
Xuchen Li,Xuzhao Li,Shiyu Hu,Kaiqi Huang,Wentao Zhang
Main category: cs.CV
TL;DR: 研究者提出了CausalStep基准测试,用于评估视频中的逐步因果推理能力,发现当前大语言模型与人类水平的推理能力存在显著差距
- Motivation: 现有的视频基准测试主要评估浅层理解和推理,允许模型利用全局上下文,无法严格评估真正的因果和逐步推理能力,而在视频领域实现鲁棒的推理仍然是一个重大挑战
- Method: 设计了CausalStep基准测试,将视频分割为因果关联的单元,执行严格的逐步问答协议,要求顺序回答并防止捷径解决方案。每个问题包含基于错误类型分类法精心构建的干扰项,包含100个视频(六个类别)和1,852个多选问答对,并引入七个诊断指标进行综合评估
- Result: 通过对领先的专有模型、开源模型以及人类基线的实验,揭示了当前模型与人类水平的逐步推理能力之间存在显著差距
- Conclusion: CausalStep提供了一个严格的基准测试来推动鲁棒且可解释的视频推理进展,能够精确诊断因果推理能力
[11] Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed
Antoni Kowalczuk,Dominik Hintersdorf,Lukas Struppek,Kristian Kersting,Adam Dziedzic,Franziska Boenisch
Main category: cs.CV
TL;DR: 研究发现文本到图像扩散模型中基于权重剪枝的记忆化缓解方法存在脆弱性,提出了一种对抗性微调方法来提高模型的鲁棒性
- Motivation: 文本到图像扩散模型可能会无意中记忆和复制训练数据,引发数据隐私和知识产权问题。现有的基于权重剪枝的缓解方法假设记忆化可以被定位,但这种方法的鲁棒性需要评估
- Method: 1) 评估现有剪枝方法的鲁棒性,通过调整文本嵌入来重新触发数据复制;2) 挑战记忆化局部性假设,展示从文本嵌入空间不同位置触发复制的可能性;3) 提出新的对抗性微调方法,迭代搜索复制触发器并更新模型以增强鲁棒性
- Result: 发现即使在剪枝后,对输入提示的文本嵌入进行微小调整就足以重新触发数据复制,证明了这些防御措施的脆弱性。同时证明复制可以从文本嵌入空间的不同位置触发,遵循模型中的不同路径,挑战了记忆化局部性的基本假设
- Conclusion: 现有的缓解策略不足以解决记忆化问题,需要真正移除记忆内容而非仅仅抑制其检索的方法。提出的对抗性微调方法为构建更可信和合规的生成式AI提供了基础,为理解文本到图像扩散模型中记忆化的本质提供了新见解
[12] Sparser2Sparse: Single-shot Sparser-to-Sparse Learning for Spatial Transcriptomics Imputation with Natural Image Co-learning
Yaoyu Fang,Jiahe Qian,Xinkun Wang,Lee A. Cooper,Bo Zhou
Main category: cs.CV
TL;DR: 提出了S2S-ST框架,通过单次稀疏采样的空间转录组数据和自然图像的联合训练,实现高精度的空间转录组插值,显著降低了对昂贵高分辨率数据的依赖
- Motivation: 高分辨率空间转录组(ST)数据成本高昂且稀缺,限制了其在生物医学研究中的广泛应用,需要开发能够从低成本稀疏数据中准确重建高质量ST数据的方法
- Method: 开发S2S-ST框架,集成三个关键创新:(1)稀疏到稀疏的自监督学习策略,利用ST数据内在空间模式;(2)与自然图像的跨域协同学习增强特征表示;(3)级联数据一致性插值网络(CDCIN),迭代优化预测同时保持采样基因数据的保真度
- Result: 在乳腺癌、肝脏和淋巴组织等多种组织类型上的广泛实验表明,该方法在插值精度上优于现有最先进的方法,能够从稀疏输入中实现稳健的ST重建
- Conclusion: S2S-ST框架显著减少了对昂贵高分辨率数据的依赖,为生物医学研究和临床应用中空间转录组技术的更广泛采用提供了可能
[13] AURA: A Multi-Modal Medical Agent for Understanding, Reasoning & Annotation
Nima Fathi,Amar Kumar,Tal Arbel
Main category: cs.CV
TL;DR: 本文介绍了AURA,这是首个专为医学图像分析设计的视觉语言可解释性智能体,通过动态交互、上下文解释和假设验证,将静态预测系统转变为交互式决策支持系统。
- Motivation: 现有的大语言模型已经从静态预测系统发展为具备推理、工具交互和复杂任务适应能力的智能体AI,但在医学图像领域的应用仍处于起步阶段。需要开发专门的可解释性智能体来提供透明、适应性强且符合临床需求的医学图像分析系统。
- Method: 基于Qwen-32B大语言模型架构,AURA集成了模块化工具箱,包括:(1)具有相位定位、病理分割和解剖分割功能的分割套件;(2)支持图像级解释推理的反事实图像生成模块;(3)包含像素级差异图分析、分类和先进评估组件的评估工具集。
- Result: AURA实现了医学图像的综合分析、解释和评估,能够进行动态交互、提供上下文解释并支持假设验证,为医学图像分析领域带来了显著的技术进步。
- Conclusion: AURA代表了智能体AI在医学图像分析领域的重要突破,展示了将静态预测转变为交互式决策支持的巨大潜力,为构建更透明、适应性更强且符合临床需求的AI系统奠定了基础。
[14] Toward Long-Tailed Online Anomaly Detection through Class-Agnostic Concepts
Chiao-An Yang,Kuan-Chuan Peng,Raymond A. Yeh
Main category: cs.CV
TL;DR: 本文提出了长尾在线异常检测(LTOAD)这一新任务,开发了一个类别无关的框架来解决在线环境中无法获得类别标签的挑战,在工业制造和医疗领域都取得了优于现有方法的性能。
- Motivation: 现有的长尾异常检测(LTAD)方法依赖类别标签,无法直接应用于在线学习环境。需要一个能够在没有类别信息的在线环境中处理长尾分布数据的异常检测框架。
- Method: 提出了一个类别无关的长尾异常检测框架,将其适配到在线学习环境中。该方法不需要类别标签或类别数量信息,能够处理长尾分布的训练数据。
- Result: 在大多数离线LTAD设置中超越了现有最先进方法,在MVTec数据集上相比有类别标签访问权限的方法提升了4.63%的图像AUROC。在最具挑战性的长尾在线设置中,相比基线方法提升了0.53%的图像AUROC。
- Conclusion: 成功解决了长尾在线异常检测这一现实且具有挑战性的任务,证明了类别无关框架在工业制造和医疗领域的有效性,并发布了LTOAD基准数据集供研究使用。
[15] Divisive Decisions: Improving Salience-Based Training for Generalization in Binary Classification Tasks
Jacob Piland,Chris Sweet,Adam Czajka
Main category: cs.CV
TL;DR: 本文提出了一种新的显著性引导训练方法,通过同时利用正确类别和错误类别的类激活图(CAM)来改进深度学习模型的泛化能力,在多个二分类任务上验证了该方法的有效性。
- Motivation: 现有的显著性引导训练方法只关注正确类别的CAM而忽略了错误类别的CAM。作者假设在二分类任务中,正确类别和错误类别的CAM应该在人类识别的重要分类特征上存在分歧,这为改进训练策略提供了新的思路。
- Method: 提出了三种新的显著性引导训练方法,将正确类别和错误类别的CAM都纳入训练策略中,同时开发了一个用于识别重要特征的后处理工具。这些方法通过比较模型的CAM与人类参考显著性图来改进模型训练。
- Result: 在多个不同的二分类任务上进行评估,包括合成人脸检测、生物特征呈现攻击检测和胸部X光异常分类等闭集和开集分类任务。结果表明,提出的方法相比传统的显著性引导训练方法能够显著改善深度学习模型的泛化能力。
- Conclusion: 通过同时考虑正确类别和错误类别的CAM,新提出的显著性引导训练方法能够更有效地改善模型的泛化性能。作者提供了源代码和模型权重以支持可重现的研究。
[16] Bringing Balance to Hand Shape Classification: Mitigating Data Imbalance Through Generative Models
Gaston Gustavo Rios,Pedro Dal Bianco,Franco Ronchetti,Facundo Quiroga,Oscar Stanchi,Santiago Ponte Ahón,Waldo Hasperué
Main category: cs.CV
TL;DR: 本文通过生成对抗网络(GAN)合成数据来增强手语手形分类器的训练数据,解决了手语数据集小且不平衡的问题,在RWTH德语手语数据集上将准确率提升了5%
- Motivation: 手语手形数据集普遍存在规模小且类别不平衡的问题,这严重阻碍了有效的模型训练。现有数据集的局限性使得手形分类器难以达到理想的性能表现
- Method: 使用两种生成对抗网络架构生成合成数据:(1)ReACGAN - 利用标签信息通过辅助分类器调节数据生成过程;(2)SPADE - 利用空间自适应归一化基于姿态信息调节生成过程。采用EfficientNet分类器在RWTH德语手语数据集上训练,并探索不同策略组合生成图像和真实图像
- Result: 在RWTH数据集上将当前最先进方法的准确率提升了5%。方法能够跨不同手语数据集泛化,通过在大规模HaGRID数据集上训练的基于姿态的生成器,在无需重新训练生成器的情况下达到与单一数据源训练分类器相当的性能
- Conclusion: 通过GAN生成合成数据能够有效解决手语手形数据集小且不平衡的问题,显著提升分类器性能。所提出的方法具有良好的泛化能力,能够在不同手语数据集间迁移应用,为手语识别领域提供了有效的数据增强解决方案
[17] Transformer Based Building Boundary Reconstruction using Attraction Field Maps
Muhammad Kamran,Mohammad Moein Sheikholeslami,Andreas Wichmann,Gunho Sohn
Main category: cs.CV
TL;DR: 本文提出了一种基于图卷积网络(GCN)的深度学习方法Decoupled-PolyGCN,用于从单张卫星图像中自动提取建筑物轮廓,通过融合几何规律性、多尺度特征和吸引力场图,在AP和AR指标上分别比现有方法提升6%和10%。
- Motivation: 随着遥感卫星数量激增,从卫星图像重建空间地图成为关键需求,但基于原始图元的物体表示在计算机视觉中仍是持续挑战,高质量空间地图往往依赖劳动密集型的手工流程,需要开发自动化的建筑物轮廓提取方法。
- Method: 提出了一种基于图卷积网络(GCN)的新型深度学习方法,通过将几何规律性融入建筑边界、整合多尺度和多分辨率特征,以及将吸引力场图嵌入网络来增强性能,实现从单张卫星图像进行自动化建筑物轮廓提取。
- Result: 所提出的Decoupled-PolyGCN模型在AP指标上比现有方法提升6%,在AR指标上提升10%,能够在多样化和具有挑战性的场景中提供准确且规范化的建筑物轮廓。
- Conclusion: 该方法为从卫星图像自动提取建筑物轮廓提供了一个可扩展且精确的解决方案,为城市规划、灾害管理和大规模空间分析等应用领域铺平了道路,展现了在建筑物轮廓重建任务中的优越性能。
[18] Controllable Hybrid Captioner for Improved Long-form Video Understanding
Kuleen Sasse,Efsun Sarioglu Kayi,Arun Reddy
Main category: cs.CV
TL;DR: 该论文提出了一种基于文本记忆的视频理解系统,通过将长视频分割成短片段并生成文本描述,结合大语言模型来回答复杂的自然语言查询。系统使用LaViLa视频描述器和LLaVA视觉语言模型,能够生成动作和场景描述,显著提高了视频内容理解的效率。
- Motivation: 长视频数据密度极高且维度复杂,直接处理计算成本巨大。现有的视频理解方法难以有效处理长视频内容,特别是在回答复杂自然语言查询时。需要一种更紧凑、高效的视频内容表示方法,能够被大语言模型轻松处理并进行推理。
- Method: 采用渐进式文本记忆构建方法:1)将长视频分割成短片段,使用LaViLa视频描述器生成动作描述;2)使用LLaVA视觉语言模型补充静态场景描述,丰富文本记忆;3)探索不同的视频分割策略以更准确反映视频内容结构;4)微调LaViLa模型生成可控的混合描述器,能够根据场景变化检测信号在不同类型的描述间切换。
- Result: 成功开发了可控混合描述器,能够同时生成动作和场景描述,相比使用分离模型显著提高了描述流水线的效率。通过结合静态场景描述,扩展了可从文本记忆中回答的问题范围,生成了更详细完整的描述日志。
- Conclusion: 该研究成功构建了基于文本记忆的视频理解系统,通过将复杂的长视频转换为结构化的文本表示,实现了高效的视频内容理解和查询回答。可控混合描述器的开发为视频理解任务提供了一种新的高效解决方案。
[19] Toward Scalable Video Narration: A Training-free Approach Using Multimodal Large Language Models
Tz-Ying Wu,Tahani Trigui,Sharath Nittur Sridhar,Anand Bodas,Subarna Tripathi
Main category: cs.CV
TL;DR: VideoNarrator是一个无需训练的管道,通过结合多个多模态大语言模型和视觉语言模型来生成带有精确时间戳的密集视频字幕,有效解决了现有模型在时间对齐和幻觉问题上的不足。
- Motivation: 现有的多模态大语言模型在视频理解方面存在时间对齐困难和容易产生幻觉的问题,特别是在不熟悉的场景中表现不佳,需要一种能够生成精确时间戳密集视频字幕的解决方案。
- Method: 提出VideoNarrator,一个灵活的无训练管道,将现成的多模态大语言模型(MLLMs)和视觉语言模型(VLMs)组合使用,分别作为字幕生成器、上下文提供者或字幕验证器,通过协同交互来提升视频叙述质量。
- Result: 实验结果表明,这些组件的协同交互显著提升了视频叙述的质量和准确性,有效减少了幻觉现象,改善了时间对齐效果。
- Conclusion: VideoNarrator不仅增强了视频理解能力,还促进了下游任务如视频摘要和视频问答的发展,并可潜在扩展到广告和营销应用领域。
[20] Few-Shot Learning in Video and 3D Object Detection: A Survey
Md Meftahul Ferdaus,Kendall N. Niles,Joe Tom,Mahdi Abdelguerfi,Elias Ioup
Main category: cs.CV
TL;DR: 这篇综述论文分析了少样本学习在视频和3D目标检测中的最新进展,探讨了如何通过少量标注样本实现新类别识别,以减少昂贵的人工数据标注成本。
- Motivation: 目标检测模型需要大量标注数据,特别是在视频和3D场景中,数据标注成本极高且耗时。少样本学习可以让模型仅通过少量标注样本就能识别新类别,从而大幅降低标注成本,使实际应用部署成为可能。
- Method: 针对视频FSL,采用管道提议和时序匹配网络等技术来利用时空结构信息;针对3D FSL,将少样本学习与专门的点云网络结合,并使用针对类别不平衡的损失函数。核心方法包括原型匹配、跨帧信息传播以及处理不同数据模态的特性。
- Result: 少样本学习在视频和3D目标检测中显示出良好前景,能够有效利用时空结构和跨模态信息,在减少标注需求的同时保持检测性能。特别是在自动驾驶等实际应用中,能够显著降低3D标注成本。
- Conclusion: 少样本学习为减少标注需求、实现视频和3D等真实世界应用的部署提供了有希望的解决方案。通过有效利用跨特征、时序和数据模态的信息,FSL能够最小化监督需求,促进实际应用的部署。
[21] SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction
Zaipeng Duan,Chenxu Dang,Xuzhong Hu,Pei An,Junfeng Ding,Jie Zhan,Yunbiao Xu,Jie Ma
Main category: cs.CV
TL;DR: 本文提出了SDG-OCC,一种新颖的多模态3D占用预测网络,通过联合语义和深度引导的视图变换以及融合到占用驱动的主动蒸馏,解决了现有单模态方法的局限性,在Occ3D-nuScenes数据集上实现了实时处理的最先进性能。
- Motivation: 现有的3D占用预测方法多为单模态:基于相机的方法缺乏深度信息,基于LiDAR的方法在遮挡方面存在困难。当前轻量级方法主要依赖LSS管道,存在深度估计不准确和未能充分利用3D LiDAR点几何和语义信息的问题。
- Method: 提出SDG-OCC网络,包含两个核心组件:1)联合语义和深度引导的视图变换,通过扩散和双线性离散化整合像素语义和共点深度来构建准确的深度分布;2)融合到占用驱动的主动蒸馏,从多模态数据中提取丰富语义信息并基于LiDAR识别区域选择性地向图像特征传递知识。此外,引入SDG-Fusion(仅使用融合)和SDG-KL(集成融合和蒸馏以实现更快推理)两个变体。
- Result: 在Occ3D-nuScenes数据集上实现了最先进性能并支持实时处理,在更具挑战性的SurroundOcc-nuScenes数据集上表现出可比较的性能,证明了方法的有效性和鲁棒性。
- Conclusion: SDG-OCC通过有效整合多模态信息和创新的视图变换与知识蒸馏技术,成功解决了现有3D占用预测方法的关键限制,在保持实时性能的同时达到了最先进的精度水平,为自动驾驶中的3D占用预测提供了一个强有力的解决方案。
[22] FedVLM: Scalable Personalized Vision-Language Models through Federated Learning
Arkajyoti Mitra,Afia Anjum,Paul Agbaje,Mert Pesé,Habeeb Olufowobi
Main category: cs.CV
TL;DR: 本文提出FedVLM框架,通过个性化LoRA(pLoRA)方法在联邦学习环境中高效微调视觉语言模型,解决了数据异构性问题,在RLAIF-V数据集上相比标准LoRA提升24.5%的客户端特定性能。
- Motivation: 视觉语言模型在联邦学习环境中的大规模微调面临挑战,特别是在数据去中心化和客户端数据非独立同分布的情况下。现有的参数高效调优方法如LoRA在处理异构客户端数据时效果不佳,导致泛化性能次优。
- Method: 提出FedVLM联邦LoRA微调框架,实现视觉语言模型的去中心化适应,同时保护模型隐私并减少对中心化训练的依赖。引入个性化LoRA(pLoRA),动态适应每个客户端独特的数据分布,在保持全局模型聚合的同时显著改善本地适应性。
- Result: 在RLAIF-V数据集上的实验表明,pLoRA相比标准LoRA在客户端特定性能上提升了24.5%,在非独立同分布设置中展现出优越的适应能力。
- Conclusion: FedVLM为联邦设置中的视觉语言模型微调提供了可扩展且高效的解决方案,推进了分布式学习场景中的个性化适应技术发展。
[23] IONext: Unlocking the Next Era of Inertial Odometry
Shanshan Zhang,Siyue Wang,Tianshui Wen,Qi Zhang,Ziheng Zhou,Lingxiang Zheng,Yu Yang
Main category: cs.CV
TL;DR: 本文提出了一种新的基于CNN的惯性里程计模型IONext,通过双翼自适应动态混合器(DADM)和时空门控单元(STGU)有效捕获全局和局部运动特征,在六个公共数据集上超越了现有的Transformer和CNN方法
- Motivation: 现有的Transformer模型虽然擅长建模长距离依赖关系,但对局部细粒度运动变化敏感性有限,缺乏内在归纳偏置,影响定位精度和泛化能力。近期研究表明,将大核卷积和Transformer启发的架构设计融入CNN可有效扩大感受野,改善全局运动感知
- Method: 提出双翼自适应动态混合器(DADM)模块,自适应捕获全局运动模式和局部细粒度运动特征;引入时空门控单元(STGU),选择性提取时域中具有代表性和任务相关的运动特征;基于DADM和STGU构建新的CNN惯性里程计骨干网络IONext
- Result: 在六个公共数据集上的广泛实验表明,IONext持续超越最先进的Transformer和CNN方法。在RNIN数据集上,相比代表性模型iMOT,IONext将平均ATE降低10%,平均RTE降低12%
- Conclusion: IONext通过有效结合CNN的局部特征提取能力和动态自适应机制,成功解决了现有方法在惯性里程计任务中的局限性,在多个数据集上取得了显著的性能提升,为惯性里程计领域提供了新的技术方案
[24] Robust Five-Class and binary Diabetic Retinopathy Classification Using Transfer Learning and Data Augmentation
Faisal Ahmed,Mohammad Alfrad Nobel Bhuiyan
Main category: cs.CV
TL;DR: 本文提出了一个基于深度学习的糖尿病视网膜病变(DR)分类框架,在APTOS 2019数据集上实现了二分类98.9%准确率和五分类84.6%准确率的优异性能,为临床DR筛查提供了可扩展的自动化解决方案。
- Motivation: 糖尿病视网膜病变是全球视力丧失的主要原因,通过自动化视网膜图像分析进行早期诊断可以显著降低失明风险。现有方法面临类别不平衡和训练数据有限的挑战,需要开发更稳健的深度学习框架来提高DR诊断的准确性和实用性。
- Method: 采用迁移学习和广泛数据增强的深度学习框架,评估多种预训练卷积神经网络架构(包括ResNet和EfficientNet变体),使用类别平衡增强技术解决数据不平衡问题,在APTOS 2019数据集上进行二分类和五分类DR严重程度分类任务。
- Result: 二分类任务:准确率98.9%,精确率98.6%,召回率99.3%,F1分数98.9%,AUC 99.4%;五分类任务:准确率84.6%,AUC 94.1%,超越了多个现有方法。研究发现EfficientNet-B0和ResNet34在两个任务中都能提供准确性和计算效率的最佳平衡。
- Conclusion: 类别平衡增强与迁移学习相结合的方法在高性能DR诊断中表现出显著效果。所提出的框架为DR筛查提供了可扩展且准确的解决方案,具有在真实临床环境中部署的潜力,能够有效支持糖尿病视网膜病变的早期诊断和预防。
[25] ScSAM: Debiasing Morphology and Distributional Variability in Subcellular Semantic Segmentation
Bo Fang,Jianan Fan,Dongnan Liu,Hang Chang,Gerald J. Shami,Filip Braet,Weidong Cai
Main category: cs.CV
TL;DR: 本文提出ScSAM方法,通过融合预训练SAM模型和MAE引导的细胞先验知识来解决亚细胞器官分割中的形态变异和分布偏差问题,在多个数据集上取得了最优性能。
- Motivation: 亚细胞成分的显著形态和分布变异性对基于学习的细胞器分割模型构成长期挑战,显著增加了偏向特征学习的风险。现有方法往往依赖单一映射关系,忽视特征多样性从而导致偏向训练。虽然SAM提供了丰富的特征表示,但其在亚细胞场景中的应用受到两个关键挑战的阻碍:标签空间存在空隙导致模型学习虚假或偏向特征,以及SAM专注于全局上下文理解而忽视细粒度空间细节。
- Method: 提出ScSAM方法,通过融合预训练SAM与MAE引导的细胞先验知识来增强特征鲁棒性,缓解数据不平衡带来的训练偏差。具体设计了特征对齐和融合模块来将预训练嵌入对齐到相同特征空间并有效组合不同表示,以及基于余弦相似性矩阵的类别提示编码器来激活类别特定特征以识别亚细胞类别。
- Result: 在多个不同的亚细胞图像数据集上进行的广泛实验表明,ScSAM方法优于现有的最先进方法。
- Conclusion: ScSAM成功解决了亚细胞器官分割中的关键挑战,通过有效融合预训练模型特征和细胞先验知识,显著提升了分割性能,为亚细胞成像分析提供了有效的解决方案。
[26] UNICE: Training A Universal Image Contrast Enhancer
Ruodai Cui,Lei Zhang
Main category: cs.CV
TL;DR: 研究者提出了UNICE方法,通过HDR图像生成多曝光序列来训练通用的图像对比度增强模型,无需人工标注即可在多种对比度增强任务中实现优异的泛化性能。
- Motivation: 现有的图像对比度增强方法通常针对特定任务设计,如欠曝/过曝校正、低光照和逆光图像增强等,但这些模型在不同任务甚至同一任务的不同数据集上泛化性能较差。因此需要探索是否能学习一个通用的、泛化的模型来处理各种对比度增强任务。
- Method: 研究者观察到这些任务的共同关键因素是需要曝光和对比度调整,如果有高动态范围(HDR)输入就能很好地解决。因此他们收集了46,928张HDR原始图像,渲染出328,496张sRGB图像来构建多曝光序列(MES)和相应的伪sRGB真值。训练一个网络从单张sRGB图像生成MES,然后训练另一个网络将生成的MES融合成增强图像。
- Result: 提出的UNICE方法无需昂贵的人工标注,但在不同任务间和任务内都表现出显著更强的泛化性能,甚至在多个无参考图像质量指标上超越了人工创建的真值标准。
- Conclusion: UNICE通过利用HDR数据和多曝光序列的策略,成功实现了通用的图像对比度增强,为解决现有方法泛化性差的问题提供了有效解决方案,并在多种对比度增强任务中取得了优异表现。
[27] DOOMGAN:High-Fidelity Dynamic Identity Obfuscation Ocular Generative Morphing
Bharath Krishnamurthy,Ajita Rattani
Main category: cs.CV
TL;DR: 本文提出了DOOMGAN,一个针对可见光谱眼部生物识别的形态攻击生成模型,通过地标驱动编码、注意力引导生成和动态损失加权来创建高质量的眼部形态攻击样本,并发布了首个综合性眼部形态攻击数据集。
- Motivation: 可见光谱眼部生物识别虽然具有高准确性和抗欺骗性,但面临形态攻击的威胁。现有研究主要集中在近红外虹膜和人脸生物识别上,而可见光谱眼部数据的形态攻击研究不足。需要开发能够处理非受控条件并保持详细眼部特征的高级生成模型。
- Method: 提出DOOMGAN模型,包含三个核心组件:1)地标驱动的可见眼部解剖结构编码;2)注意力引导的真实形态合成生成;3)多面损失的动态加权以优化收敛。该方法能够在保持虹膜边界和眼周纹理等详细特征的同时生成高质量的形态攻击样本。
- Result: DOOMGAN在严格阈值下的攻击成功率比基线方法高出20%以上,椭圆虹膜结构生成效果提升20%,凝视一致性改善30%。同时发布了首个综合性眼部形态攻击数据集。
- Conclusion: DOOMGAN成功解决了可见光谱眼部生物识别中形态攻击生成的挑战,在攻击效果和图像质量方面都取得了显著提升,为该领域的安全性研究提供了重要工具和数据资源。
[28] Multi-Scale PCB Defect Detection with YOLOv8 Network Improved via Pruning and Lightweight Network
Li Pingzhen,Xu Sheng,Chen Jing,Su Chengyue
Main category: cs.CV
TL;DR: 本文提出了一种基于YOLOv8改进的多尺度PCB缺陷检测方法,通过微小目标敏感性策略、网络轻量化和自适应剪枝的综合策略,实现了高精度和实时检测微小缺陷的要求。
- Motivation: 传统PCB缺陷检测模型在高密度PCB设计和高速生产环境下,难以兼顾检测精度和计算成本,无法满足微小缺陷高精度实时检测的需求。
- Method: 采用综合优化策略:1)在主干网络中使用参数更少的Ghost-HGNetv2结构,利用多级特征提取图像语义特征;2)在颈部网络集成参数较少的C2f-Faster增强多级特征融合能力;3)设计新的GCDetect检测头,使用GroupConv共享权重和少量分组卷积完成回归分类任务;4)设计Inner-MPDIoU边界损失函数改善微小目标检测定位;5)通过优化的自适应剪枝率对模型进行剪枝。
- Result: 在公开PCB缺陷数据集上,mAP0.5达到99.32%,mAP0.5:0.9达到75.18%,相比YOLOv8n提高了10.13%,在精度和速度方面都表现出优势。
- Conclusion: 提出的多尺度PCB缺陷检测方法成功解决了传统模型在精度和计算成本之间的平衡问题,实现了微小缺陷的高精度实时检测,为PCB质量控制提供了有效的技术解决方案。
[29] Hierarchical Fusion and Joint Aggregation: A Multi-Level Feature Representation Method for AIGC Image Quality Assessment
Linghe Meng,Jiarun Song
Main category: cs.CV
TL;DR: 本文提出了一种多级视觉表示范式来解决AI生成内容(AIGC)质量评估问题,开发了两个网络:MGLF-Net用于感知质量评估,MPEF-Net用于文本-图像对应评估,在基准测试中表现优异。
- Motivation: 现有的AIGC质量评估方法通常依赖单级视觉特征,难以捕捉AIGC图像中的复杂失真,因此需要一种能够从低级视觉感知到高级语义理解的多维度评估方法。
- Method: 提出了一个包含三个阶段的多级视觉表示范式:多级特征提取、分层融合和联合聚合。基于此范式开发了两个网络:1) MGLF-Net:通过双CNN和Transformer视觉骨干网络提取互补的局部和全局特征进行感知质量评估;2) MPEF-Net:将提示语义嵌入到各特征级别的视觉特征融合过程中,实现文本-图像对应评估。
- Result: 在基准数据集上的实验表明,两个网络在各自任务上都取得了卓越的性能表现,验证了所提出的多级视觉评估范式的有效性。
- Conclusion: 多级视觉表示范式能够有效解决AIGC质量评估中的多维度挑战,通过分层特征融合和联合聚合机制,显著提升了感知质量评估和文本-图像对应评估的性能。
[30] Asymmetric Lesion Detection with Geometric Patterns and CNN-SVM Classification
M. A. Rasel,Sameem Abdul Kareem,Zhenli Kwan,Nik Aimee Azizah Faheem,Winn Hui Han,Rebecca Kai Jan Choong,Shin Shen Yong,Unaizah Obaidellah
Main category: cs.CV
TL;DR: 本研究开发了一种基于皮肤镜图像的病变形状分析方法,结合几何模式分析和CNN特征提取技术,用于辅助黑色素瘤诊断中的不对称病变检测
- Motivation: 在皮肤镜图像中,病变形状的不对称性是诊断黑色素瘤的重要临床标准之一,但非专家难以准确理解和判断不对称病变的标准,因此需要开发自动化技术来辅助诊断
- Method: 首先基于临床评估对无标注数据集进行对称性信息标注;然后提出监督学习图像处理算法分析病变形状的几何模式;最后利用预训练CNN提取皮肤镜图像的形状、颜色和纹理特征,训练多类支持向量机分类器
- Result: 几何基础实验中皮肤科不对称病变检测率达到99.00%;CNN基础实验中病变形状分类(不对称、半对称、对称)达到94% Kappa评分、95% 宏平均F1评分和97% 加权F1评分
- Conclusion: 提出的方法在皮肤镜图像病变形状分析方面表现优异,超越了文献中的最先进方法,能够有效辅助非专家理解不对称病变标准,为黑色素瘤诊断提供有力支持
[31] Vec2Face+ for Face Dataset Generation
Haiyu Wu,Jaskirat Singh,Sicong Tian,Liang Zheng,Kevin W. Bowyer
Main category: cs.CV
TL;DR: 提出Vec2Face+生成模型,通过保持类内身份一致性同时增加类内属性变化,生成高质量人脸识别训练数据集,首次在平均准确率上超越真实数据集CASIA-WebFace
- Motivation: 现有合成人脸数据集方法在增加类内变化时忽略了保持类内身份一致性的必要性,导致生成的训练数据质量不佳,影响人脸识别模型性能
- Method: 提出Vec2Face+生成模型,采用三种策略:1)采样充分不同的向量生成分离良好的身份;2)提出AttrOP算法增加通用属性变化;3)提出基于LoRA的姿态控制生成侧脸图像,比AttrOP更高效且更好保持身份
- Result: 生成的VFace10K数据集(1万身份)使人脸识别模型在7个真实测试集上达到最先进准确率;扩展到VFace100K和VFace300K后,在5个真实测试集上的准确率超越真实训练数据集CASIA-WebFace,这是合成数据集首次在平均准确率上击败CASIA-WebFace
- Conclusion: Vec2Face+成功生成了高质量的合成人脸数据集,证明了保持身份一致性的重要性;但发现合成身份训练的模型比真实身份训练的模型更具偏见,且在孪生验证任务中表现较差,这些问题需要未来进一步研究
[32] DesignLab: Designing Slides Through Iterative Detection and Correction
Jooyeol Yun,Heng Wang,Yotaro Shimose,Jaegul Choo,Shingo Takamatsu
Main category: cs.CV
TL;DR: 本文提出DesignLab系统,通过设计审查者和设计贡献者两个角色的协作,实现演示文稿幻灯片的迭代式自动设计优化,显著提升了设计质量。
- Motivation: 现有的自动化设计工具虽然能够建议布局和配色方案,但缺乏自我优化能力,无法像真实工作流程那样进行迭代改进。非专业用户在设计高质量演示文稿时面临复杂的设计选择困难。
- Method: 将设计过程分解为两个角色:设计审查者负责识别设计问题,设计贡献者负责修正问题。通过大语言模型微调实现这两个角色,并通过引入受控扰动来模拟中间草稿,使审查者学习识别设计错误,贡献者学习如何修正错误,形成迭代优化循环。
- Result: 实验表明DesignLab在设计生成方法中表现优异,甚至超越了商业工具的效果。通过拥抱设计的迭代本质,能够生成精致、专业的幻灯片。
- Conclusion: DesignLab通过模拟真实设计工作流程中的迭代优化过程,成功解决了现有自动化设计工具缺乏自我改进能力的问题,为非专业用户提供了高质量的演示文稿设计解决方案。
[33] VBCD: A Voxel-Based Framework for Personalized Dental Crown Design
Linda Wei,Chang Liu,Wenran Zhang,Zengji Zhang,Shaoting Zhang,Hongsheng Li
Main category: cs.CV
TL;DR: 提出了一种基于体素的自动化牙冠设计框架(VBCD),通过粗糙生成和精细优化两阶段,结合曲率和边缘线惩罚损失函数以及FDI牙齿编号系统的位置提示,实现了个性化牙冠的自动化设计,在大规模数据集上表现优于现有方法。
- Motivation: 传统的修复性牙冠设计依赖牙科技师从口内扫描数据进行手工设计,过程繁琐耗时,需要开发自动化的牙冠设计方法来解决这一挑战。
- Method: 提出基于体素的牙冠设计框架(VBCD),包含两个阶段:1)从体素化口内扫描生成初始粗糙牙冠;2)使用距离感知监督的精细化优化器提升精度和质量。训练时采用曲率和边缘线惩罚损失函数(CMPL)增强生成牙冠与边缘线的对齐,并引入基于FDI牙齿编号系统的位置提示来进一步提高精度。
- Result: 在大规模口内扫描数据集上的评估显示,该方法在性能上超越了现有方法,为个性化牙冠设计提供了稳健的解决方案。
- Conclusion: VBCD框架成功实现了从口内扫描数据到牙冠设计的自动化流程,通过创新的体素表示、两阶段生成策略和专门设计的损失函数,显著提升了牙冠设计的准确性和质量,为数字化口腔修复提供了有效的技术解决方案。
[34] A Low-Cost Machine Learning Approach for Timber Diameter Estimation
Fatemeh Hasanzadeh Fard,Sanaz Hasanzadeh Fard,Mehdi Jonoobi
Main category: cs.CV
TL;DR: 本研究开发了一个基于YOLOv5的木材原木直径自动估算系统,使用标准RGB图像在真实工业环境下工作,实现了0.64的mAP@0.5精度,为木材加工行业提供了实用且成本效益高的自动化解决方案。
- Motivation: 木材加工行业(如锯木厂和MDF生产线)需要准确高效地识别木材种类和厚度,传统依赖专家人工的方法速度慢、不一致且容易出错,特别是在处理大批量木材时。因此需要开发实用且成本效益高的机器学习框架来自动化木材原木直径估算。
- Method: 采用YOLOv5目标检测算法,在公开数据集TimberSeg 1.0上进行微调,用于检测单个木材原木并通过边界框尺寸估算厚度。模型在真实工业环境(典型工业棚舍)中拍摄的标准RGB图像上进行训练,无需昂贵的传感器或受控环境。
- Result: 实验结果显示模型达到了0.64的平均精度(mAP@0.5),即使在有限的计算资源下也能实现可靠的原木检测。该轻量级、可扩展的解决方案适合实际集成到现有工作流程中。
- Conclusion: 该研究提供了一个实用的木材原木直径自动估算解决方案,特别适用于中小型操作的现场库存管理和初步分拣,展现了在真实工业环境下的应用前景。
[35] PIG-Nav: Key Insights for Pretrained Image Goal Navigation Models
Jiansong Wan,Chengming Zhou,Jinkua Liu,Xiangge Huang,Xiaoyu Chen,Xiaohan Yi,Qisen Yang,Baiting Zhu,Xin-Qiang Cai,Lixing Liu,Rushuai Yang,Chuheng Zhang,Sherif Abdelfattah,Hayong Shin,Pushi Zhang,Li Zhao,Jiang Bian
Main category: cs.CV
TL;DR: 本文提出PIG-Nav,一种预训练的图像目标导航模型,通过早期融合网络结构和辅助任务设计,结合游戏视频数据集预处理管道,在零样本和微调设置下相比现有视觉导航基础模型分别获得22.6%和37.5%的性能提升。
- Motivation: 现有的视觉机器人导航预训练模型在泛化能力和零样本性能方面仍有不足,需要进一步探索更有效的预训练策略来实现跨环境的正向迁移和更好的导航性能。
- Method: 提出PIG-Nav方法,包含两个关键设计:(1)集成早期融合网络结构,通过预训练的ViT图像编码器结合视觉观察和目标图像;(2)引入合适的辅助任务增强全局导航表示学习。同时提出新的数据预处理管道,用于高效标注大规模游戏视频数据集。
- Result: 在两个复杂仿真环境和一个真实环境中,相比现有视觉导航基础模型,零样本设置下平均提升22.6%,微调设置下提升37.5%。模型在需要显著更少微调数据的情况下仍保持竞争性性能。
- Conclusion: PIG-Nav推进了预训练图像目标导航模型的最新技术水平,通过有效的网络架构设计和数据增强策略,实现了优异的泛化性能,并在最少标注监督下展现了真实世界部署的潜力。
[36] MaskedCLIP: Bridging the Masked and CLIP Space for Semi-Supervised Medical Vision-Language Pre-training
Lei Zhu,Jun Zhou,Rick Siow Mong Goh,Yong Liu
Main category: cs.CV
TL;DR: 本文提出MaskedCLIP框架,通过结合配对和非配对图像数据进行半监督视觉-语言预训练,在医学图像分析中学习更通用的图像特征
- Motivation: 现有基础模型要么仅使用配对图像-文本数据进行视觉-语言预训练,要么仅使用非配对图像数据进行自监督预训练,这限制了模型学习更丰富和全面图像特征的能力。需要充分利用配对和非配对图像数据的潜力来学习更好的基础模型
- Method: 提出MaskedCLIP框架,结合掩码图像建模和对比语言-图像预训练。使用桥接变换器连接掩码特征空间和CLIP特征空间,解决两种数据类型产生的不兼容特征空间问题。进一步提出掩码知识蒸馏损失,将CLIP特征空间中原始图像特征的语义知识蒸馏回掩码特征空间中的预测掩码图像特征
- Result: 在视网膜图像分析上的大量实验证明了该方法的有效性和数据效率,能够有效利用配对和非配对图像数据学习更通用的图像特征用于下游任务
- Conclusion: MaskedCLIP通过相互交互的设计有效结合了配对和非配对图像数据,为医学图像分析中的基础模型学习提供了新的半监督视觉-语言预训练解决方案,在视网膜图像分析任务上展现了良好的性能和数据效率
[37] Perceptual Classifiers: Detecting Generative Images using Perceptual Features
Krishna Srikar Durbha,Asvin Kumar Venkataramanan,Rajesh Sureddi,Alan C. Bovik
Main category: cs.CV
TL;DR: 本文提出利用图像质量评估(IQA)模型的特征空间来检测AI生成图像,通过两层网络在IQA特征上训练,实现了跨生成模型的最先进假图像检测性能,同时对图像退化具有显著鲁棒性。
- Motivation: 随着生成式AI技术的快速发展,互联网上出现大量GenAI内容,需要有效的方法来区分真实图像和AI生成图像。现有的GenAI检测方法虽有进展但仍需改进泛化能力。IQA模型能够有效捕获真实图像在带通统计空间中的流形特征,为检测AI生成图像提供了新的思路。
- Method: 利用现有IQA模型的特征提取能力,这些模型能够在带通统计空间中有效捕获真实图像的流形结构。在IQA模型的特征空间上训练一个两层神经网络分类器,用于区分真实图像和AI生成图像。评估该方法在不同生成模型上的泛化能力以及对各种图像退化的鲁棒性。
- Result: 基于IQA特征空间训练的两层网络在跨不同生成模型的假图像检测任务上达到了最先进的性能水平。该方法展现出良好的泛化能力,能够检测来自未见过的生成模型产生的图像。同时,该方法对各种图像退化(如压缩、噪声等)表现出显著的鲁棒性。
- Conclusion: IQA模型的特征空间为GenAI图像检测提供了一个有效的解决方案。通过在IQA特征上训练简单的两层分类器,可以实现优异的检测性能和跨模型泛化能力,同时保持对图像质量退化的鲁棒性。这种方法为实际应用中的AI生成内容检测提供了可靠的技术路径。
[38] Unsupervised Exposure Correction
Ruodai Cui,Li Niu,Guosheng Hu
Main category: cs.CV
TL;DR: 本文提出了一种无监督曝光校正(UEC)方法,无需人工标注,使用模拟ISP管道的配对数据进行训练,在保持图像细节的同时超越了现有监督方法,并展示了曝光校正对边缘检测等低层视觉任务的积极影响。
- Motivation: 现有曝光校正方法面临三个挑战:需要大量人工标注的配对数据、泛化能力有限、在低层计算机视觉任务中性能下降。为了解决这些问题,需要开发一种无需人工标注、泛化性更强、能提升下游任务性能的曝光校正方法。
- Method: 提出无监督曝光校正(UEC)方法,使用模拟图像信号处理(ISP)管道生成的免费配对数据进行训练;构建大规模辐射校正数据集,专门强调曝光变化以促进无监督学习;开发能够保持图像细节的变换函数。
- Result: 所提方法仅使用现有监督方法0.01%的参数量就超越了最先进的监督方法性能;在边缘检测等下游任务中验证了曝光校正的有效性,证明能够减轻不良曝光对低层特征的负面影响。
- Conclusion: 无监督曝光校正方法成功解决了传统方法的三个主要挑战,通过消除人工标注需求提高了泛化能力,同时在参数效率和下游任务性能方面都取得了显著改进,为曝光校正领域提供了新的有效解决方案。
[39] VisionTrap: Unanswerable Questions On Visual Data
Asir Saadat,Syem Aziz,Shahriar Mahmud,Abdullah Ibne Masud Mahi,Sabbir Ahmed
Main category: cs.CV
TL;DR: 本研究探讨了视觉语言模型在面对无法回答的视觉问答题时的表现,引入了VisionTrap数据集来测试模型是否能够识别自身知识的局限性并选择不回答。
- Motivation: 现有的视觉问答研究主要关注基于真实图像的可回答问题,但对于模型如何处理无法回答的问题,特别是应该拒绝回答的情况,缺乏深入探索。研究者希望评估视觉语言模型是否能够识别自身知识的局限性。
- Method: 研究者构建了VisionTrap数据集,包含三类无法回答的问题:(1)融合了物体和动物的混合实体,(2)描绘在非常规或不可能场景中的物体,(3)虚构或不存在的人物。这些问题在逻辑上结构合理但本质上无法回答,用于测试模型是否能正确识别其局限性。
- Result: 研究发现突出了将此类无法回答的问题纳入视觉问答基准测试的重要性,用于评估模型是否倾向于在应该拒绝回答时仍然尝试给出答案。
- Conclusion: 该研究强调了在视觉问答基准中包含无法回答问题的重要性,以更好地评估视觉语言模型的可靠性和自我认知能力,避免模型在不确定情况下生成错误答案。
[40] PolarAnything: Diffusion-based Polarimetric Image Synthesis
Kailong Zhang,Youwei Lyu,Heng Guo,Si Li,Zhanyu Ma,Boxin Shi
Main category: cs.CV
TL;DR: 本文提出PolarAnything,一个基于扩散模型的框架,能够从单张RGB图像生成具有真实感和物理准确性的偏振图像,解决了现有偏振相机可获得性有限和传统偏振模拟器需要大量3D资产的问题。
- Motivation: 偏振图像在图像增强和3D重建任务中很有用,但偏振相机的可获得性有限阻碍了其广泛应用。现有的偏振模拟器Mitsuba依赖参数化偏振图像形成模型,需要大量覆盖形状和PBR材质的3D资产,无法生成大规模真实感图像。因此需要开发能够合成真实感偏振图像的方法。
- Method: 提出PolarAnything框架,利用预训练扩散模型的零样本性能,引入基于扩散的生成框架和有效的表示策略来保持偏振属性的保真度。该方法能从单张RGB输入生成兼具真实感和物理准确性的偏振图像,消除了对3D资产集合的依赖。
- Result: 实验表明该模型能够生成高质量的偏振图像,并支持下游任务如基于偏振的形状重建(shape from polarization)等应用。
- Conclusion: PolarAnything成功解决了偏振图像合成中的关键问题,通过基于扩散模型的方法实现了从单张RGB图像到高质量偏振图像的转换,为偏振成像技术的广泛应用提供了新的解决方案。
[41] Fully Automated SAM for Single-source Domain Generalization in Medical Image Segmentation
Huanli Zhuo,Leilei Ma,Haifeng Zhao,Shiwei Zhou,Dengdi Sun,Yanping Fu
Main category: cs.CV
TL;DR: 提出了FA-SAM框架,通过自动提示生成和图像-提示嵌入融合模块,解决了SAM在医学图像分割中依赖专家标注提示和对错误提示敏感的问题,实现了完全自动化的单源域泛化医学图像分割。
- Motivation: 现有基于SAM的单源域泛化医学图像分割模型面临两个主要挑战:1)SAM分割高度依赖领域专家标注的提示,阻碍了完全自动化的医学图像分割;2)提供不良提示会误导SAM生成错误的掩码结果。
- Method: 提出FA-SAM框架,包含两个关键创新:1)配备浅层特征不确定性建模(SUFM)模块的自动提示生成模型(AGM)分支;2)集成到SAM掩码解码器中的图像-提示嵌入融合(IPEF)模块。AGM通过SUFM模块建模浅层特征的不确定性分布来生成边界框提示,IPEF模块融合多尺度的SAM图像嵌入和提示嵌入信息。
- Result: 在公开的前列腺和眼底血管数据集上进行了大量实验,验证了FA-SAM的有效性,证明其能够解决上述挑战。
- Conclusion: FA-SAM成功实现了完全自动化的SAM医学图像分割,通过自动生成提示和融合多尺度信息,有效缓解了SAM对专家提示的依赖以及对不良提示的敏感性问题,在医学图像分割的跨域场景中具有良好的应用潜力。
[42] PointLAMA: Latent Attention meets Mamba for Efficient Point Cloud Pretraining
Xuanyu Lin,Xiaona Zeng,Xianwei Zheng,Xutao Li
Main category: cs.CV
TL;DR: PointLAMA是一个点云预训练框架,结合了任务感知的点云序列化、混合编码器(集成潜在注意力和Mamba块)以及基于Mamba骨干的条件扩散机制,在多个基准数据集上以最少的参数量和FLOPs实现了竞争性能。
- Motivation: Mamba作为点云建模的骨干模型虽然能够以线性复杂度实现高效的全局序列建模,但缺乏局部归纳偏置,限制了其捕获3D数据中细粒度几何结构的能力。
- Method: 提出PointLAMA框架,包含三个核心组件:1)任务感知的点云序列化,使用Hilbert/Trans-Hilbert空间填充曲线和轴向排序分别对分类和分割任务进行结构化点标记对齐;2)混合编码器,集成轻量级潜在注意力块和Mamba块,其中点式多头潜在注意力(PMLA)模块专门设计来与Mamba架构对齐;3)预训练期间的条件扩散机制,对扰动的特征序列进行去噪而不依赖显式的点式重建。
- Result: PointLAMA在多个基准数据集上实现了竞争性能,同时保持最少的参数量和FLOPs,验证了其在高效点云预训练方面的有效性。
- Conclusion: PointLAMA成功解决了Mamba在点云建模中缺乏局部归纳偏置的问题,通过创新的架构设计和预训练策略,实现了高效且有效的点云表示学习。
[43] Learning-based Stage Verification System in Manual Assembly Scenarios
Xingjian Zhang,Yutong Duan,Zaishu Chen
Main category: cs.CV
TL;DR: 本研究提出了一种基于多机器学习模型的工业4.0装配过程监控方法,仅使用最少的视觉传感器就能实现超过92%的准确率,并提供实时错误检测和可视化指导。
- Motivation: 在工业4.0环境下,装配过程中的多目标和多状态监控至关重要,但传统方法依赖多种传感器类型或复杂硬件设置,成本高昂且在动态工业环境中难以实施。因此需要开发一种仅使用最少视觉传感器就能实现高精度监控的方法。
- Method: 通过整合多个机器学习模型,利用相同时间戳的状态信息来检测和确认装配过程的当前阶段。该方法集成了来自最少数量视觉传感器的信息,实现精确的装配过程监控。
- Result: 该方法在装配过程阶段检测中实现了超过92%的平均准确率,并提供了增强的错误检测和可视化功能,能够为操作员提供实时、可操作的指导。
- Conclusion: 该方法不仅提高了装配监控的准确性和效率,还减少了对昂贵硬件解决方案的依赖,使其成为现代工业应用中更实用的选择。通过超越传统方法的性能表现,为工业4.0环境下的装配过程监控提供了一种经济高效的解决方案。
[44] CasP: Improving Semi-Dense Feature Matching Pipeline Leveraging Cascaded Correspondence Priors for Guidance
Peiqi Chen,Lei Yu,Yi Wan,Yingying Pei,Xinyi Liu,Yongxiang Yao,Yingying Zhang,Lixiang Ru,Liheng Zhong,Jingdong Chen,Ming Yang,Yongjun Zhang
Main category: cs.CV
TL;DR: 提出了CasP方法,通过级联对应先验指导的新管道来改进半密集特征匹配,实现了更高的准确性和效率,特别适用于SLAM和无人机系统等对延迟敏感的应用
- Motivation: 现有的半密集特征匹配方法依赖于在整个特征图上进行全局搜索来建立粗匹配,这限制了准确性和效率的进一步提升
- Method: 提出CasP管道,利用级联对应先验进行指导。匹配阶段分解为两个渐进阶段,通过基于区域的选择性交叉注意力机制连接以增强特征判别性。在第二阶段,通过将搜索范围限制在第一阶段识别的一对多先验区域来确定一对一匹配。同时融入高级特征以降低低级特征提取的计算成本
- Result: 在1152分辨率下,轻量级模型相比最高效的方法ELoFTR实现了约2.2倍的加速。在几何估计方面表现出色,特别是在跨域泛化能力方面表现突出。CasP的加速增益随着分辨率的提高而增加
- Conclusion: CasP方法在保持高准确性的同时显著提升了效率,展现了在SLAM和无人机系统等对延迟敏感和高鲁棒性要求的应用中的巨大潜力
[45] CartoonAlive: Towards Expressive Live2D Modeling from Single Portraits
Chao He,Jianqiang Ren,Jianjing Xiang,Xiejie Shen
Main category: cs.CV
TL;DR: CartoonAlive是一种从单张肖像图片快速生成高质量Live2D数字人的创新方法,能在30秒内创建具有丰富表情的2D卡通风格交互数字人物。
- Motivation: 现有数字人技术主要专注于3D模型和2D视频表示,而交互式2D卡通风格数字人关注较少。相比复杂建模和高渲染成本的3D数字人,以及缺乏灵活性和实时交互的2D视频方案,Live2D模型提供了更高效和富有表现力的替代方案。
- Method: CartoonAlive利用3D人脸建模中的形状基础概念构建适用于Live2D的面部混合形状,然后基于输入图像检测到的面部关键点推断相应的混合形状权重,通过分层分割模拟3D运动而无需传统3D建模。
- Result: 该方法能够在不到30秒的时间内快速生成与输入肖像高度相似的Live2D模型,具有高表现力和视觉准确性,实现动态实时操控。
- Conclusion: CartoonAlive为创建交互式2D卡通角色提供了实用且可扩展的解决方案,为数字内容创作和虚拟角色动画开辟了新的可能性。
[46] PARTE: Part-Guided Texturing for 3D Human Reconstruction from a Single Image
Hyeongjin Nam,Donghwan Kim,Gyeongsik Moon,Kyoung Mu Lee
Main category: cs.CV
TL;DR: PARTE是一个利用3D人体部位信息指导从单张图像重建3D人体纹理的框架,通过部位分割和部位引导纹理化两个核心模块解决现有方法中人体纹理错位问题。
- Motivation: 现有3D人体重建方法存在人体不同部位纹理错位的问题,各个人体部位(如夹克、裤子)应保持独特纹理而不相互混合。大多数现有方法没有明确利用部位分割先验知识,导致重建结果中纹理错位。
- Method: 提出PARTE框架,包含两个核心组件:1)3D部位分割模块(PartSegmenter):从单张图像推断3D人体部位信息,首先重建无纹理人体表面,然后基于该表面预测人体部位标签;2)部位引导纹理化模块(PartTexturer):将部位信息融入纹理重建,从预训练图像生成网络获取人体部位纹理对齐的先验知识。
- Result: 大量实验表明,该框架在3D人体重建质量方面达到了最先进的水平。
- Conclusion: 通过显式利用3D人体部位分割先验知识,PARTE框架成功解决了现有3D人体重建方法中的纹理错位问题,实现了最先进的重建质量。人体部位的结构一致性作为关键线索,有效指导了单张图像中不可见区域的人体纹理推断。
[47] Temporal Point-Supervised Signal Reconstruction: A Human-Annotation-Free Framework for Weak Moving Target Detection
Weihua Gao,Chunxu Ren,Wenlong Niu,Xiaodong Peng
Main category: cs.CV
TL;DR: 本文提出了一种时间点监督(TPS)框架,用于在低空监视和预警系统中检测弱运动目标,通过时间信号重建网络(TSRNet)实现无需人工标注的高性能检测,在低信噪比数据集上达到超过1000 FPS的实时性能。
- Motivation: 在低空监视和预警系统中,由于信号能量低、空间范围小、背景杂波复杂等因素,检测弱运动目标仍然是一个重大挑战。现有方法在提取鲁棒特征方面存在困难,并且缺乏可靠的标注数据。
- Method: 提出时间点监督(TPS)框架,将传统的基于帧的检测任务重新定义为像素级时间信号建模问题,其中弱目标表现为短时脉冲响应。开发了时间信号重建网络(TSRNet),采用编码器-解码器架构并集成动态多尺度注意力(DMSAttention)模块。此外,采用基于图的轨迹挖掘策略来抑制虚警并确保时间一致性。
- Result: 在专门构建的低信噪比数据集上的大量实验表明,该框架在不需要人工标注的情况下优于最先进的方法,实现了强检测性能并以超过1000 FPS的速度运行。
- Conclusion: 提出的TPS框架成功解决了弱运动目标检测中的关键挑战,在无需人工标注的前提下实现了高性能检测,具有实时部署的潜力,为低空监视和预警系统提供了有效的解决方案。
[48] TransLPRNet: Lite Vision-Language Network for Single/Dual-line Chinese License Plate Recognition
Guangzhu Xu,Zhi Ke,Pengcheng Zuo,Bangjun Lei
Main category: cs.CV
TL;DR: 本文提出了一种统一的车牌识别解决方案,结合轻量级视觉编码器和文本解码器,专门针对单双行中文车牌设计。通过合成数据集和透视矫正网络(PTN),在粗定位干扰下达到99.34%识别准确率,处理速度可达167fps。
- Motivation: 开放环境下的车牌识别面临车牌类型多样性和成像条件复杂的挑战,传统CNN和CRNN方法存在局限性。同时,双行车牌数据集稀缺问题需要解决,现有方法在透视变形情况下识别准确率有待提升。
- Method: 提出统一框架整合轻量级视觉编码器和文本解码器;构建单/双行车牌数据集,通过图像合成、纹理映射和真实图像融合来缓解数据稀缺;引入透视矫正网络(PTN),采用车牌角点坐标回归作为隐式变量,由车牌视角分类信息监督,提供更好的稳定性和可解释性。
- Result: 在粗定位干扰的CCPD测试集上达到平均识别准确率99.34%;在精细定位干扰下准确率提升至99.58%;在双行车牌测试集上达到98.70%平均识别准确率;处理速度可达167帧每秒。
- Conclusion: 提出的算法在单双行中文车牌识别任务中表现出色,通过透视矫正网络和数据增强策略有效提升了识别准确率和鲁棒性,同时保持了高处理速度,具有强实用性和广泛的应用前景。
[49] DeMo++: Motion Decoupling for Autonomous Driving
Bozhou Zhang,Nan Song,Xiatian Zhu,Li Zhang
Main category: cs.CV
TL;DR: DeMo++是一个运动预测和规划框架,通过解耦运动估计为整体运动意图和精细时空状态两个组件,结合跨场景轨迹交互机制和Attention-Mamba混合模型,在多个自动驾驶基准测试中达到了最先进的性能。
- Motivation: 现有的运动预测方法采用一查询一轨迹的范式,虽然能产生多样化的运动意图,但在建模轨迹复杂的时空演化方面存在不足,容易导致碰撞或次优结果。
- Method: 提出DeMo++框架,将运动估计解耦为两个组件:捕获多样化运动方向的整体运动意图,以及跟踪智能体场景内动态进展的精细时空状态。引入跨场景轨迹交互机制探索相邻场景间的运动关系。开发了结合Attention和Mamba的混合模型架构。
- Result: 在多个基准测试中取得最先进性能,包括运动预测(Argoverse 2和nuScenes)、运动规划(nuPlan)和端到端规划(NAVSIM)。
- Conclusion: DeMo++通过解耦运动估计和跨场景交互机制,成功解决了传统方法在建模轨迹时空演化方面的局限性,为自动驾驶系统的运动预测和规划提供了更安全高效的解决方案。
[50] Principled Multimodal Representation Learning
Xiaohao Liu,Xiaobo Xia,See-Kiong Ng,Tat-Seng Chua
Main category: cs.CV
TL;DR: 提出了一种新的多模态表示学习框架PMRL,通过优化表示矩阵的主奇异值来实现多个模态的同时对齐,无需依赖锚点模态,并使用softmax损失函数和实例级对比正则化来保持稳定性和可分性。
- Motivation: 传统多模态表示学习方法依赖成对对比学习和预定义锚点模态,限制了跨模态对齐效果;现有的多模态同时对齐方法存在固定锚点限制和奇异值乘积优化不稳定的问题,需要一种更稳定、无锚点依赖的多模态对齐框架。
- Method: 基于完全对齐对应于秩-1格拉姆矩阵的理论洞察,PMRL通过优化表示矩阵的主奇异值来沿共享主方向对齐模态;采用将奇异值作为logits的softmax损失函数来优先考虑最大奇异值;使用主特征向量上的实例级对比正则化来维持实例间可分性并防止表示崩塌。
- Result: 在多个不同任务上的广泛实验表明,PMRL相比基线方法具有优越性能,成功实现了多模态的稳定对齐且无需锚点依赖。
- Conclusion: PMRL框架成功解决了传统多模态表示学习中的锚点依赖和优化不稳定问题,通过理论指导的奇异值优化和对比正则化实现了更有效的多模态对齐,为多模态理解任务提供了新的解决方案。
[51] Swin-TUNA : A Novel PEFT Approach for Accurate Food Image Segmentation
Haotian Chen,Zhiyong Xiao
Main category: cs.CV
TL;DR: 本文提出了Swin-TUNA方法,通过在Swin Transformer中集成多尺度可训练适配器,仅更新4%的参数就实现了高性能的食物图像语义分割,参数量减少98.7%的同时性能超越了完全参数化的FoodSAM模型。
- Motivation: 现有的大规模Transformer模型(如FoodSAM)在食物图像处理中面临参数量庞大、计算资源需求高的问题,难以满足实际部署需求,因此需要开发轻量化且高效的语义分割方法。
- Method: 提出TUNable Adapter模块(Swin-TUNA),这是一种参数高效微调(PEFT)方法,将多尺度可训练适配器集成到Swin Transformer架构中。核心创新在于分层特征适应机制:设计深度可分离卷积和不同尺度的维度映射来处理浅层和深层网络特征差异,结合任务无关和任务特定特征的动态平衡策略。
- Result: 在FoodSeg103和UECFoodPix Complete数据集上分别达到50.56%和74.94%的mIoU,超越完全参数化的FoodSAM模型,同时参数量减少98.7%(仅8.13M参数)。此外,Swin-TUNA在低数据场景下表现出更快的收敛速度和更强的泛化能力。
- Conclusion: Swin-TUNA为轻量化食物图像语义分割提供了有效解决方案,通过参数高效微调实现了性能与效率的良好平衡,适合实际工业应用部署。
[52] Exploring Active Learning for Label-Efficient Training of Semantic Neural Radiance Field
Yuzhe Zhu,Lile Cai,Kangkang Lu,Fayao Liu,Xulei Yang
Main category: cs.CV
TL;DR: 本文提出了一种主动学习方法来减少语义感知神经辐射场(NeRF)训练所需的像素级标注成本,通过考虑3D几何约束的新颖选择策略,实现了相比随机采样超过2倍的标注成本降低。
- Motivation: 语义感知NeRF训练需要昂贵的像素级类别标签,标注成本过高是制约其应用的主要问题,因此需要探索主动学习方法来减轻标注负担。
- Method: 研究了语义感知NeRF主动学习的各种设计选择,包括选择粒度和选择策略,并提出了一种考虑3D几何约束的新颖主动学习策略用于样本选择。
- Result: 实验表明主动学习能够有效降低训练语义感知NeRF的标注成本,相比随机采样实现了超过2倍的标注成本减少。
- Conclusion: 主动学习是解决语义感知NeRF高标注成本问题的有效方案,特别是结合3D几何约束的选择策略能够显著提高标注效率。
[53] Exploring Active Learning for Semiconductor Defect Segmentation
Lile Cai,Ramanpreet Singh Pahwa,Xun Xu,Jie Wang,Richard Chang,Lining Zhang,Chuan-Sheng Foo
Main category: cs.CV
TL;DR: 本文提出了一种主动学习方法来减少X射线显微镜半导体结构缺陷检测中的标注负担,通过对比预训练和稀有性感知采样函数解决领域偏移和类别不平衡问题。
- Motivation: 深度学习模型在半导体X射线显微镜缺陷检测中需要大量标注数据,而获取这些标注数据既耗时又昂贵,特别是对于语义分割等密集预测任务。因此需要通过主动学习来减少标注负担。
- Method: 提出了一种主动学习方法,包括两个关键组件:1)在未标注数据上进行对比预训练来获得每个主动学习周期的初始化权重;2)设计稀有性感知的采样函数,优先选择包含稀有类别的样本进行标注。
- Result: 在由高带宽存储器结构的X射线显微镜扫描数据组成的半导体数据集上进行评估,证明了该方法达到了最先进的性能表现。
- Conclusion: 通过对比预训练和稀有性感知采样策略,成功解决了半导体X射线显微镜扫描中的大域偏移和严重类别不平衡问题,实现了在减少标注负担的同时保持优异的缺陷检测性能。
[54] Exploring Spatial Diversity for Region-based Active Learning
Lile Cai,Xun Xu,Lining Zhang,Chuan-Sheng Foo
Main category: cs.CV
TL;DR: 本文提出了一种基于区域的主动学习框架,通过结合空间多样性和传统选择标准(如不确定性)来减少语义分割任务的标注成本,仅使用5-9%的标注像素就能达到全监督方法95%的性能。
- Motivation: 语义分割任务需要大规模标注数据集,但像素级密集预测任务的标注成本极高。现有的基于区域的主动学习方法在选择信息丰富的图像区域时缺乏对局部空间多样性的考虑,导致标注效率不够理想。
- Method: 提出了一个统一的优化框架,将局部空间多样性与传统的主动选择标准(如数据样本不确定性)相结合,用于基于区域的主动学习。该方法选择信息丰富的图像区域批次进行标注,而不是整张图像。
- Result: 在Cityscapes和PASCAL VOC数据集上的实验表明,加入空间多样性显著提升了基于不确定性和特征多样性的主动学习方法性能。该框架仅使用5-9%的标注像素就达到了全监督方法95%的性能,超越了所有现有的基于区域的语义分割主动学习方法。
- Conclusion: 在基于区域的主动学习中强制执行局部空间多样性是有益的,将空间多样性与传统选择标准结合的统一优化框架能够有效减少语义分割任务的标注成本,同时保持高性能。
[55] SFUOD: Source-Free Unknown Object Detection
Keon-Hee Park,Seun-An Choe,Gyeong-Moon Park
Main category: cs.CV
TL;DR: 提出了一种无源未知物体检测(SFUOD)方法CollaPAUL,在不访问源域标注数据的情况下,既能检测已知物体又能发现未定义的未知物体,通过协作调优和主轴投影的未知标注机制实现了最先进的性能。
- Motivation: 现有的无源目标检测方法只能检测预定义的已知物体,无法发现目标域中的未定义物体。为了打破这种封闭集合的限制,需要开发能够同时识别已知物体和检测未知物体的新方法。
- Method: 提出CollaPAUL框架,包含两个核心组件:1)协作调优机制,通过跨域注意力机制整合辅助编码器的目标域相关知识和预训练检测器的源域相关知识;2)基于主轴的未知标注方法,通过主轴投影估计物体性并结合模型预测的置信度分数为未知物体分配伪标签。
- Result: 在SFUOD基准测试上取得了最先进的性能表现,广泛的实验验证了方法的有效性。
- Conclusion: CollaPAUL成功解决了无源目标检测中的未知物体检测问题,通过协作调优和主轴投影的创新组合,实现了在没有源域标注数据的情况下同时检测已知和未知物体的目标。
[56] A Conditional Probability Framework for Compositional Zero-shot Learning
Peng Wu,Qiuxia Lai,Hao Fang,Guo-Sen Xie,Yilong Yin,Xiankai Lu,Wenguan Wang
Main category: cs.CV
TL;DR: 本文提出了一个条件概率框架(CPF)来解决组合零样本学习中属性-物体依赖关系建模问题,通过分解组合概率为物体似然和条件属性似然,并使用文本描述符和交叉注意力机制来增强特征学习。
- Motivation: 传统的组合零样本学习方法将属性和物体视为独立实体,忽略了组合内部的语义约束和上下文依赖关系。例如,某些属性天然与特定物体配对,而同一属性在不同上下文中表现不同,因此捕获属性-物体相互依赖关系是CZSL中一个基本但长期被忽视的挑战。
- Method: 采用条件概率框架(CPF)显式建模属性-物体依赖关系,将组合概率分解为物体似然和条件属性似然两个组件。融入文本描述符来突出语义相关的图像区域以增强物体特征学习,然后通过交叉注意力机制指导属性学习,确保更好的上下文对齐。
- Result: 在多个CZSL基准测试上的广泛实验证明了该方法的优越性,通过联合优化物体似然和条件属性似然,方法有效捕获了组合依赖关系,并在未见组合上表现出良好的泛化能力。
- Conclusion: 通过条件概率框架显式建模属性-物体依赖关系,结合文本描述符增强和交叉注意力机制,成功解决了组合零样本学习中的核心挑战,在多个基准测试上取得了优异性能,为CZSL领域提供了新的解决思路。
[57] EndoGen: Conditional Autoregressive Endoscopic Video Generation
Xinyu Liu,Hengyu Liu,Cheng Wang,Tianming Liu,Yixuan Yuan
Main category: cs.CV
TL;DR: 本文提出了首个条件内窥镜视频生成框架EndoGen,通过时空网格帧模式和语义感知令牌掩码机制,实现高质量的条件引导内窥镜视频生成,并提升了息肉分割等下游任务性能。
- Motivation: 现有内窥镜视频生成方法要么专注于静态图像缺乏动态上下文,要么依赖无条件生成无法为临床医生提供有意义的参考,因此需要开发条件引导的内窥镜视频生成框架来推进医学成像和增强诊断能力。
- Method: 构建了具有定制时空网格帧模式(SGP)策略的自回归模型,将多帧生成学习重新表述为基于网格的图像生成模式;提出语义感知令牌掩码(SAT)机制,通过在生成过程中选择性关注语义有意义的区域来增强模型产生丰富多样内容的能力。
- Result: 通过广泛实验证明了框架在生成高质量条件引导内窥镜内容方面的有效性,并提升了息肉分割下游任务的性能。代码已在GitHub发布。
- Conclusion: EndoGen框架成功实现了首个条件内窥镜视频生成,通过SGP策略和SAT机制有效提升了生成质量和下游任务性能,为医学视频生成领域提供了新的解决方案。
[58] HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs
Zhaolin Cai,Fan Li,Ziwei Zheng,Yanjun Qin
Main category: cs.CV
TL;DR: 本文提出HiProbe-VAD框架,利用预训练多模态大语言模型的中间隐藏状态进行视频异常检测,无需微调即可实现优异性能,具有良好的跨模型泛化能力。
- Motivation: 传统视频异常检测方法存在计算需求巨大、依赖大量标注数据等问题,限制了实际应用。需要开发更实用、可扩展的解决方案来识别和定位视频序列中偏离正常模式的行为。
- Method: 提出动态层显著性探测(DLSP)机制,智能识别并提取多模态大语言模型最优中间层的信息丰富隐藏状态;结合轻量级异常评分器和时间定位模块,利用提取的隐藏状态高效检测异常并生成解释。
- Result: 在UCF-Crime和XD-Violence数据集上的实验表明,HiProbe-VAD优于现有的免训练方法和大多数传统方法,并在不同多模态大语言模型上展现出卓越的跨模型泛化能力。
- Conclusion: HiProbe-VAD成功挖掘了预训练多模态大语言模型用于视频异常检测的潜力,为开发更实用和可扩展的视频异常检测解决方案铺平了道路,证明了利用中间隐藏状态进行异常检测的有效性。
[59] HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning
Li Jun,Wang Jinpeng,Tan Chaolei,Lian Niu,Chen Long,Zhang Min,Wang Yaowei,Xia Shu-Tao,Chen Bin
Main category: cs.CV
TL;DR: 提出了首个用于部分相关视频检索的双曲建模框架HLFormer,通过双曲空间学习和混合注意力机制解决欧几里得空间中的几何失真问题,显著提升了视频-文本跨模态匹配性能。
- Motivation: 现有的部分相关视频检索方法在欧几里得空间中存在几何失真问题,无法很好地表示视频的内在层次结构和语义,导致时序建模效果不佳,影响了未修剪视频与部分内容文本查询的匹配精度。
- Method: 提出HLFormer框架,集成洛伦兹注意力块和欧几里得注意力块在混合空间中编码视频嵌入,使用均值引导自适应交互模块动态融合特征,并引入部分顺序保持损失通过洛伦兹锥约束强化"文本<视频"层次关系。
- Result: 大量实验表明,HLFormer在部分相关视频检索任务上超越了现有最先进方法,有效提升了跨模态匹配性能,验证了双曲空间建模在处理视频层次语义方面的优势。
- Conclusion: 双曲空间学习能够有效补偿欧几里得空间在层次建模方面的不足,HLFormer通过混合空间注意力机制和部分顺序约束,成功解决了部分相关视频检索中的关键挑战,为视频-文本跨模态理解提供了新的有效途径。
[60] Physics-based Human Pose Estimation from a Single Moving RGB Camera
Ayce Idil Aytekin,Chuqiao Li,Diogo Luvizon,Rishabh Dabral,Martin Oswald,Marc Habermann,Christian Theobalt
Main category: cs.CV
TL;DR: 本文提出了MoviCam数据集和PhysDynPose方法,解决了在相机运动和非平面场景下的单目人体姿态跟踪问题
- Motivation: 现有的单目和基于物理的人体姿态跟踪方法在非严格平面地面或相机运动场景下会产生伪影,且缺乏包含真实世界光传输、相机运动和姿态变化的高质量评估数据集
- Method: 提出PhysDynPose方法,结合场景几何和物理约束进行人体运动跟踪:使用运动学估计器获取人体姿态,使用鲁棒SLAM方法捕获动态相机轨迹,然后通过场景感知的物理优化器优化运动学姿态估计
- Result: 创建了MoviCam数据集,包含动态移动单目RGB相机的真实轨迹、场景几何、3D人体运动和人-场景接触标签;实验表明现有最先进方法在相机运动和非平面环境下表现困难,而所提方法能够鲁棒地估计世界坐标系下的人体和相机姿态
- Conclusion: PhysDynPose方法通过结合场景几何和物理约束,成功解决了相机运动和非平面场景下的人体姿态跟踪问题,MoviCam数据集为该领域提供了高质量的评估基准
[61] Content-based 3D Image Retrieval and a ColBERT-inspired Re-ranking for Tumor Flagging and Staging
Farnaz Khun Jush,Steffen Vogler,Matthias Lenga
Main category: cs.CV
TL;DR: 本研究提出了C-MIR,一种新颖的三维医学图像检索重排序方法,通过适配ColBERT的上下文化后期交互机制来改进基于内容的医学图像检索系统,无需预分割数据即可有效定位感兴趣区域并提升肿瘤检测性能。
- Motivation: 随着医学图像数量激增,放射科医师在检索相关病例时面临挑战。现有的基于内容的图像检索(CBIR)系统缺乏标准化评估和全面研究,且依赖于预分割数据和器官特定数据集,无法适应临床实践中大型非结构化图像存档系统(如PACS)的需求。
- Method: 研究提出了三个关键贡献:(1)建立了一个无需依赖预分割数据和器官特定数据集的框架;(2)引入C-MIR,一种适配ColBERT上下文化后期交互机制的新颖三维体积重排序方法;(3)使用三种特征提取器和三种数据库配置对四个肿瘤部位进行全面评估。
- Result: C-MIR在肿瘤标记方面表现出显著改进,特别是对结肠和肺肿瘤的检测性能提升显著(p<0.05)。该方法能够有效定位感兴趣区域,无需数据预分割,为依赖昂贵数据丰富步骤的系统提供了计算效率更高的替代方案。C-MIR在肿瘤分期方面也显示出潜力。
- Conclusion: 研究成功将后期交互原理适配到三维医学图像,实现了有效的上下文感知重排序。C-MIR为先进检索技术与医疗保健实际应用之间架起了桥梁,为改善诊断流程铺平了道路,具有重要的临床应用价值。
[62] CAPRI-CT: Causal Analysis and Predictive Reasoning for Image Quality Optimization in Computed Tomography
Sneha George Gnanakalavathy,Hairil Abdul Razak,Robert Meertens,Jonathan E. Fieldsend,Xujiong Ye,Mohammed M. Abdelsamea
Main category: cs.CV
TL;DR: CAPRI-CT是一个因果感知深度学习框架,通过整合CT图像和扫描参数来优化图像质量,能够预测信噪比并进行反事实推理,帮助设计更高效的CT扫描协议。
- Motivation: 在CT成像中,在最小化辐射暴露的同时实现高图像质量仍然是一个关键的临床挑战。现有方法缺乏对影响图像质量的因果关系的深入理解和建模能力。
- Method: 提出CAPRI-CT框架,使用变分自编码器(VAE)集成从CT图像和相关成像参数中提取有意义特征并生成因果表示。该方法融合输入特征来预测信噪比,支持反事实推理,能够进行假设情景模拟(如改变造影剂类型/浓度或扫描参数)。采用集成学习方法进行训练和验证。
- Result: CAPRI-CT在预测性能方面表现强劲,能够有效预测信噪比并支持反事实推理。该框架既提供了预测能力又具备可解释性,为放射科医生和技师提供可操作的见解。
- Conclusion: CAPRI-CT通过建模影响图像质量的潜在因果关系,能够帮助设计更高效的CT协议,无需重复进行物理扫描,在保证图像质量的同时减少辐射暴露,具有重要的临床应用价值。
[63] Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection
Yehao Lu,Minghe Weng,Zekang Xiao,Rui Jiang,Wei Su,Guangcong Zheng,Ping Lu,Xi Li
Main category: cs.CV
TL;DR: 本文提出了Dynamic-DINO,一个基于专家混合(MoE)架构的实时开放词汇目标检测器,通过高效的MoE调优策略将Grounding DINO 1.5 Edge扩展为动态推理框架,仅用156万开源数据就超越了在私有2000万数据集上预训练的基线模型。
- Motivation: 虽然专家混合(MoE)架构在大型视觉语言模型中表现出色,但其在实时开放词汇目标检测器(使用较小模型但同样利用大规模视觉语言数据集)中的潜力尚未被探索。作者希望研究MoE在这一领域的应用可能性。
- Method: 提出Dynamic-DINO方法,包括:1)通过高效的MoE调优策略将Grounding DINO 1.5 Edge从密集模型扩展为动态推理框架;2)设计粒度分解机制,将基础模型的前馈网络分解为多个更小的专家网络;3)提出预训练权重分配策略和特定的路由器初始化方法;4)推理时仅激活与输入相关的专家形成紧凑子网。
- Result: 实验表明,仅使用156万开源数据预训练的Dynamic-DINO超越了在私有Grounding20M数据集上预训练的Grounding DINO 1.5 Edge。研究还发现,在浅层专家倾向于与不同伙伴合作扩展搜索空间,而在深层则出现固定的协作结构,每个专家维持2-3个固定伙伴。
- Conclusion: MoE架构可以有效应用于实时开放词汇目标检测器中,通过动态推理框架和专家分解机制,能够在使用更少数据的情况下获得更好的性能。专家在不同层次表现出不同的协作模式,为模型优化提供了新的见解。
[64] VLM-Guided Visual Place Recognition for Planet-Scale Geo-Localization
Sania Waheed,Na Min An,Michael Milford,Sarvapali D. Ramchurn,Shoaib Ehsan
Main category: cs.CV
TL;DR: 本文提出了一种混合地理定位框架,结合视觉语言模型(VLM)和基于检索的视觉地点识别(VPR)方法,通过VLM生成地理先验约束搜索空间,再进行检索和重排序,在街道级和城市级地理定位任务上显著提升了准确性。
- Motivation: 传统的基于检索的地理定位方法存在可扩展性和感知混淆问题,基于分类的方法缺乏泛化能力且需要大量训练数据。虽然视觉语言模型在地理定位上表现出色,但容易产生幻觉且缺乏可解释性,作为独立解决方案不够可靠。因此需要一种结合VLM和VPR优势的混合方法。
- Method: 提出了一种新颖的混合地理定位框架:首先利用VLM生成地理先验来指导和约束检索搜索空间,然后执行检索步骤,最后通过重排序机制根据特征相似性和与初始估计坐标的距离选择最具地理合理性的匹配结果。
- Result: 在多个地理定位基准测试中,该方法持续优于现有最先进方法,特别是在街道级别提升了4.51%,在城市级别提升了13.52%。实验结果证明VLM生成的地理先验与VPR相结合能够构建可扩展、鲁棒且准确的地理定位系统。
- Conclusion: 研究表明,将VLM生成的地理先验与基于检索的视觉地点识别方法相结合,能够有效解决传统地理定位方法的局限性,实现更准确、更可靠的单图像行星级地理定位,为导航、自动驾驶和灾难响应等应用提供了有效解决方案。
[65] Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection
Francesco Tonini,Lorenzo Vaquero,Alessandro Conti,Cigdem Beyan,Elisa Ricci
Main category: cs.CV
TL;DR: 提出了一种名为DYSCO的无训练HOI检测框架,通过多模态注册表和创新的交互签名机制,有效利用文本和视觉交互表示,在稀有交互检测上表现优异。
- Motivation: 现有HOI检测方法严重依赖大规模手工标注数据集,这些标注成本高、容易不一致且限制了对新领域和稀有交互的扩展性。视觉-语言模型(VLMs)的进步提供了未开发的潜力,特别是在增强交互表示方面存在关键缺口。
- Method: 提出DYSCO框架,包含:1)多模态注册表,整合少量视觉线索和创新的交互签名来改善动词的语义对齐;2)独特的多头注意力机制,自适应地权衡视觉和文本特征的贡献;3)动态评分机制,实现对稀有交互的有效泛化。
- Result: DYSCO在无训练方法中超越了最先进模型,与基于训练的方法具有竞争力,特别是在稀有交互检测方面表现卓越。实验结果证明了该方法的有效性和鲁棒性。
- Conclusion: DYSCO框架成功地利用视觉-语言模型的潜力,通过无训练方式实现了高效的HOI检测,特别是在处理稀有交互方面显示出显著优势,为HOI检测领域提供了新的解决方案。
[66] ERMV: Editing 4D Robotic Multi-view images to enhance embodied agents
Chang Nie,Guangming Wang,Zhe Lie,Hesheng Wang
Main category: cs.CV
TL;DR: 本文提出ERMV框架,通过编辑4D多视角序列图像来增强机器人模仿学习数据,解决了数据稀缺问题并提升了视觉-语言-动作模型的泛化能力
- Motivation: 机器人模仿学习依赖4D多视角序列图像,但数据收集成本高昂且高质量数据稀缺,严重制约了具身智能策略(如VLA模型)的泛化和应用。虽然数据增强是克服数据稀缺的有效策略,但目前缺乏针对操作任务的4D多视角序列图像编辑方法
- Method: 提出ERMV数据增强框架,基于单帧编辑和机器人状态条件高效编辑整个多视角序列。核心创新包括:1) 引入极线运动感知注意力机制(EMA-Attn),在应用几何约束前学习运动引起的像素偏移;2) 开创稀疏时空模块(STT),通过解耦时间和空间视图并稀疏采样来降低计算需求;3) 集成反馈干预机制,使用多模态大语言模型检查编辑不一致性并在必要时请求专家指导
- Result: 大量实验表明,ERMV增强的数据显著提升了VLA模型在仿真和真实环境中的鲁棒性和泛化能力。该方法成功解决了动态视图和长时间跨度的几何与外观一致性维护、低计算成本下的工作窗口扩展,以及机器人手臂等关键对象的语义完整性保证等三大核心挑战
- Conclusion: ERMV框架有效解决了机器人学习中4D多视角序列数据稀缺的问题,通过创新的注意力机制、稀疏时空模块和反馈干预机制,实现了高质量的数据增强,为提升具身智能模型的性能和泛化能力提供了新的解决方案
[67] Probing Vision-Language Understanding through the Visual Entailment Task: promises and pitfalls
Elena Pitta,Tom Kouwenhoven,Tessa Verhoef
Main category: cs.CV
TL;DR: 本研究以LLaMA 3.2 11B Vision模型为例,探讨视觉蕴含(VE)任务作为多模态语言模型视觉-语言理解能力探测工具的可靠性,通过零样本、少样本和微调等实验设置,发现三样本推理效果最佳,但模型存在过度依赖语言先验的问题,微调后在e-SNLI-VE数据集上达到83.3%准确率。
- Motivation: 现有的视觉蕴含任务作为多模态语言模型评估工具的可靠性尚不明确,需要深入理解该任务能够揭示的模型能力边界和局限性,以及各种因素(如提示设计、样本数量和顺序、视觉信息获取等)对VE性能的影响机制。
- Method: 使用LLaMA 3.2 11B Vision模型进行系统性实验,包括:(1)零样本、少样本和微调三种设置的性能比较;(2)探索提示设计、上下文样本数量和顺序对性能的影响;(3)通过限制视觉信息访问来测试模型的视觉依赖性;(4)采用基于解释的评估方法来探测模型推理过程;(5)在e-SNLI-VE数据集上进行微调和评估。
- Result: 三样本推理优于零样本基线,但更多样本引入噪声;提示中标签顺序对预测结果有关键影响;缺乏视觉信息时模型倾向于幻觉和想象内容;微调后在e-SNLI-VE数据集上达到83.3%准确率,超越了最先进的OFA-X模型;解释评估显示微调模型能提供与人类相似的语义解释,BERTScore F1得分为89.2%;但在限制视觉条件下仍获得相似的BERTScore结果。
- Conclusion: 视觉蕴含任务作为视觉-语言理解的诊断工具既有实用性也有局限性。模型过度依赖语言先验而非视觉信息的问题质疑了该任务的视觉基础性,研究结果为改进多模态评估方法提供了方向指导。
[68] SRMambaV2: Biomimetic Attention for Sparse Point Cloud Upsampling in Autonomous Driving
Chuang Chen,Xiaolin Qin,Jing Hu,Wenyi Ge
Main category: cs.CV
TL;DR: 本文提出SRMambaV2方法,通过仿生2D选择性扫描自注意力机制和双分支网络架构,解决自动驾驶场景中LiDAR点云稀疏上采样问题,在长距离稀疏区域提升重建精度
- Motivation: 自动驾驶场景中LiDAR点云数据固有的稀疏性和复杂3D结构使得上采样任务具有挑战性。现有方法将3D空间场景转换为2D图像超分辨率任务,但由于距离图像的稀疏和模糊特征表示,难以准确重建详细复杂的空间拓扑结构
- Method: 提出SRMambaV2稀疏点云上采样方法,包含三个核心组件:1)受人类驾驶员视觉感知启发的仿生2D选择性扫描自注意力(2DSSA)机制,用于建模远距离稀疏区域的特征分布;2)双分支网络架构增强稀疏特征表示;3)渐进自适应损失(PAL)函数优化上采样过程中细粒度细节的重建
- Result: 实验结果表明SRMambaV2在定性和定量评估中都取得了优越的性能,证明了该方法在汽车稀疏点云上采样任务中的有效性和实用价值
- Conclusion: SRMambaV2成功解决了自动驾驶场景中LiDAR点云上采样的关键挑战,在保持整体几何重建质量的同时,显著提升了长距离稀疏区域的上采样精度,为汽车稀疏点云处理提供了有效解决方案
[69] Unsupervised anomaly detection using Bayesian flow networks: application to brain FDG PET in the context of Alzheimer's disease
Hugues Roy,Reuben Dorent,Ninon Burgos
Main category: cs.CV
TL;DR: 本文提出AnoBFN,一种基于贝叶斯流网络的无监督异常检测方法,用于神经影像学中的异常检测,在阿尔茨海默病FDG PET图像异常检测任务中表现优于现有的VAE、GAN和扩散模型方法。
- Motivation: 无监督异常检测在神经影像学中对识别健康受试者数据的偏差并促进神经系统疾病诊断起着关键作用。现有方法存在不足,需要开发新的生成模型来更好地检测异常并降低假阳性率。
- Method: 提出AnoBFN,这是贝叶斯流网络(BFNs)在异常检测中的扩展应用。该方法结合了扩散框架和贝叶斯推理的优势,设计用于:1)在高水平空间相关噪声下进行条件图像生成;2)通过在整个生成过程中融入输入图像的递归反馈来保持受试者特异性。
- Result: 在阿尔茨海默病相关的FDG PET图像异常检测任务中,AnoBFN方法优于其他基于VAEs(beta-VAE)、GANs(f-AnoGAN)和扩散模型(AnoDDPM)的最先进方法,在检测异常的同时降低了假阳性率。
- Conclusion: AnoBFN作为首个将贝叶斯流网络应用于医学影像异常检测的方法,证明了其在神经影像学异常检测任务中的有效性,为医学影像分析提供了新的技术路径。
[70] DFDNet: Dynamic Frequency-Guided De-Flare Network
Minglong Xue,Aoxiang Ning,Shivakumara Palaiahnakote,Mingliang Zhou
Main category: cs.CV
TL;DR: 本文提出了一种基于动态频域引导的去眩光网络(DFDNet),通过在频域解耦内容信息和眩光伪影,有效去除夜间摄影中的大规模眩光问题。
- Motivation: 夜间摄影中的强光源经常产生眩光,严重降低图像视觉质量并影响下游任务性能。现有方法在去除大规模眩光伪影和修复光源附近的结构损伤方面仍存在困难。观察到这些挑战性的眩光伪影在频域比空域表现出与参考图像更显著的差异。
- Method: 提出动态频域引导去眩光网络(DFDNet),主要包含全局动态频域引导(GDFG)模块和局部细节引导模块(LDGM)。GDFG模块通过动态优化全局频域特征来引导网络感知眩光伪影的频率特性,有效分离眩光信息和内容信息。LDGM采用对比学习策略,将光源的局部特征与参考图像对齐,减少去眩光过程中的局部细节损伤。
- Result: 实验结果表明,所提出的方法在性能上优于现有的最先进方法,能够有效去除大规模眩光伪影并改善细粒度图像恢复效果。
- Conclusion: DFDNet通过在频域解耦内容信息和眩光伪影,成功解决了夜间摄影中大规模眩光去除的挑战性问题,在去眩光任务上取得了显著的性能提升。
[71] Illicit object detection in X-ray imaging using deep learning techniques: A comparative evaluation
Jorgen Cani,Christos Diou,Spyridon Evangelatos,Vasileios Argyriou,Panagiotis Radoglou-Grammatikis,Panagiotis Sarigiannidis,Iraklis Varlamis,Georgios Th. Papadopoulos
Main category: cs.CV
TL;DR: 本文对基于深度学习的X射线物体检测方法进行了系统性的比较评估,使用六个大规模公共数据集和十种最先进的检测架构,为X射线安检领域的研究提供了全面的性能分析和基准。
- Motivation: X射线自动检测在公共安全筛查中至关重要,但面临物体遮挡、物理属性变化、扫描设备多样性和训练数据有限等挑战。现有研究的实验评估往往不完整且结果冲突,需要系统性的比较研究来明确研究现状并促进进一步发展。
- Method: 开发了一个综合评估框架,包括:1)六个大规模公共X射线违禁品检测数据集(OPIXray、CLCXray、SIXray、EDS、HiXray和PIDray);2)十种不同的最先进物体检测方案,涵盖通用CNN、定制CNN、通用transformer和CNN-transformer混合架构;3)多种检测指标(mAP50和mAP50:95)和时间/计算复杂度指标(推理时间、参数量、计算负载)。
- Result: 通过深入分析得出了关键观察和见解,重点关注:1)物体检测方案的整体表现;2)物体级别的检测性能;3)数据集特定的观察结果;4)时间效率和计算复杂度分析。为支持实验结果的可重现性,评估代码和模型权重已公开发布。
- Conclusion: 该研究为X射线物体检测领域提供了迄今为止最全面的系统性评估,揭示了不同方法在各种场景下的性能特点,为未来研究方向提供了重要指导,并通过公开代码和模型促进了该领域的可重现研究。
[72] Accelerating Parallel Diffusion Model Serving with Residual Compression
Jiajun Luo,Yicheng Xiao,Jianru Xu,Yangxiu You,Rongwei Lu,Chen Tang,Jingyan Jiang,Zhi Wang
Main category: cs.CV
TL;DR: CompactFusion是一个针对扩散模型并行推理的压缩框架,通过残差压缩技术显著减少设备间通信开销,在4xL20上实现3.0倍加速的同时大幅提升生成质量。
- Motivation: 扩散模型需要多加速器并行才能实现实时部署,但并行推理中设备间交换大量激活值产生巨大通信开销,限制了效率和可扩展性。现有方法在减少通信的同时难以保持生成质量。
- Method: 提出CompactFusion框架,核心是残差压缩(Residual Compression)技术:1) 观察到扩散激活值具有强时间冗余性-相邻步骤产生高度相似的激活值;2) 仅传输压缩的残差(步骤间激活差异)而非完整激活值;3) 集成轻量级误差反馈机制防止误差累积。
- Result: 在4xL20上实现3.0倍加速,同时大幅提升生成保真度;在慢速网络上支持序列并行等通信密集策略,相比之前的重叠方法实现6.7倍加速;广泛适用于各种扩散模型和并行设置。
- Conclusion: CompactFusion为并行扩散推理建立了新范式,通过有效去除冗余数据实现了更低延迟和更高生成质量,易于集成且无需重新设计流水线,为扩散模型的高效部署提供了实用解决方案。
[73] URPO: A Unified Reward & Policy Optimization Framework for Large Language Models
Songshuo Lu,Hua Wang,Zhi Chen,Yaohua Tang
Main category: cs.CV
TL;DR: 提出了URPO框架,将指令遵循和奖励建模统一在单一模型中,通过GRPO优化循环同时学习偏好和生成奖励,相比传统分离式训练管道更简单高效
- Motivation: 传统大规模对齐管道将策略模型与单独训练的奖励模型分离,创建了复杂且资源密集的管道,并且由于静态奖励信号而存在性能上限
- Method: 提出统一奖励与策略优化(URPO)框架,将指令遵循("玩家")和奖励建模("裁判")统一在单一模型和单一训练阶段中,使用组相对策略优化(GRPO)循环将所有对齐数据重新格式化为统一的生成格式
- Result: 在Qwen2.5-7B模型上的实验显示,URPO显著优于使用单独生成奖励模型的强基线,AlpacaEval指令遵循分数从42.24提升到44.84,复合推理平均分从32.66提升到35.66,RewardBench分数达到85.15,超过了被替代的专用奖励模型(83.55)
- Conclusion: URPO通过消除对单独奖励模型的需求并促进生成与评估之间的协同进化动态,为构建鲁棒对齐的语言模型提供了更简单、更高效、更有效的路径
[74] STQE: Spatial-Temporal Quality Enhancement for G-PCC Compressed Dynamic Point Clouds
Tian Guo,Hui Yuan,Xiaolong Mao,Shiqi Jiang,Raouf Hamzaoui,Sam Kwong
Main category: cs.CV
TL;DR: 本文提出了一种空间-时间属性质量增强(STQE)网络,通过利用空间和时间相关性来提升G-PCC压缩动态点云的视觉质量,在Luma、Cb、Cr分量上分别实现了0.855 dB、0.682 dB、0.828 dB的delta PSNR提升。
- Motivation: 现有研究对压缩动态点云的质量增强关注较少,特别是对点云帧间空间-时间相关性的有效利用仍然缺乏探索,需要解决这一研究空白。
- Method: 提出STQE网络,包含四个核心模块:1)基于重着色的运动补偿模块,实现精确的帧间几何对齐;2)通道感知时间注意力模块,动态突出双向参考帧中的相关区域;3)高斯引导的邻域特征聚合模块,高效捕获几何与颜色属性间的空间依赖关系;4)基于皮尔逊相关系数的联合损失函数,缓解逐点均方误差优化的过度平滑效应。
- Result: 在最新的G-PCC测试模型上,STQE在Luma、Cb、Cr分量上分别实现了0.855 dB、0.682 dB、0.828 dB的delta PSNR改善,以及-25.2%、-31.6%、-32.5%的BD-rate减少。
- Conclusion: STQE网络通过有效利用空间-时间相关性,显著提升了G-PCC压缩动态点云的视觉质量,在多个评价指标上都取得了substantial的性能改善,为动态点云质量增强提供了有效的解决方案。
[75] Multi-modal Multi-task Pre-training for Improved Point Cloud Understanding
Liwen Liu,Weidong Yang,Lipeng Ma,Ben Fei
Main category: cs.CV
TL;DR: 提出了MMPT框架,通过三个预训练任务(标记级重建、点级重建、多模态对比学习)增强点云理解能力,无需3D标注且可迁移到多种下游任务
- Motivation: 现有多模态预训练框架主要依赖单一预训练任务收集3D应用中的多模态数据,限制了模型获取其他相关任务提供的丰富信息,阻碍了在下游任务中的性能,特别是在复杂多样的领域中
- Method: 提出MMPT多模态多任务预训练框架,包含三个预训练任务:(1)标记级重建(TLR)恢复被掩码的点标记;(2)点级重建(PLR)直接预测被掩码的点位置;(3)多模态对比学习(MCL)结合模态内和跨模态的特征对应关系,以自监督方式从3D点云和2D图像模态中获取丰富的学习信号
- Result: 在广泛使用的基准测试中,与最先进方法相比,在各种判别和生成应用中展现了有效性能。训练好的编码器可以有效迁移到各种下游任务
- Conclusion: MMPT框架通过多任务预训练有效增强了点云理解能力,无需3D标注使其具有可扩展性,可用于大型数据集,并能成功迁移到多种下游任务
[76] An h-space Based Adversarial Attack for Protection Against Few-shot Personalization
Xide Xu,Sandesh Kamath,Muhammad Atif Butt,Bogdan Raducanu
Main category: cs.CV
TL;DR: 本文提出了HAAD方法,通过在扩散模型的语义潜在空间(h-space)中构造对抗性扰动来防止未授权的图像定制生成,并进一步开发了更高效的HAAD-KV变体。
- Motivation: 扩散模型能够从少量样本生成定制化图像的能力引发了严重的隐私问题,特别是对私人内容的未授权修改。现有的基于对抗攻击的保护机制存在不足,因此需要开发更有效的防护方法。作者观察到扩散模型在其语义潜在空间(h-space)中表现出高度抽象性,该空间编码了生成连贯和有意义内容的关键高级特征。
- Method: 提出了HAAD(基于h-space的扩散模型对抗攻击)方法,利用对抗攻击在h-space中构造扰动,有效降低图像生成过程的质量。进一步开发了更高效的HAAD-KV变体,该方法仅基于h-space的KV参数构造扰动,在提供更强保护的同时计算成本更低。
- Result: 尽管方法相对简单,但HAAD和HAAD-KV在性能上超越了现有的最先进对抗攻击方法,展现了显著的有效性。HAAD-KV变体在保持强保护效果的同时,计算效率更高。
- Conclusion: 本研究成功开发了基于h-space的新型反定制化方法,通过在扩散模型的语义潜在空间中构造对抗扰动,有效保护了私人内容免受未授权修改。HAAD-KV变体的提出进一步证明了该方法在效率和效果方面的优势,为解决扩散模型的隐私安全问题提供了有效解决方案。
[77] Boosting Ray Search Procedure of Hard-label Attacks with Transfer-based Priors
Chen Ma,Xinjie Xu,Shuyu Cheng,Qi Xuan
Main category: cs.CV
TL;DR: 本文提出了一种基于先验引导的硬标签黑盒对抗攻击方法,通过利用代理模型的迁移先验来改进射线搜索效率,在ImageNet和CIFAR-10数据集上显著优于11种最先进方法的查询效率。
- Motivation: 硬标签黑盒对抗攻击中射线搜索方法需要通过二分搜索获得目标函数值,查询成本高昂。现有方法虽然使用"符号技巧"来减少查询次数,但梯度估计质量有待提升,需要更高效的射线搜索方法。
- Method: 提出基于先验引导的方法来改进射线搜索效率。具体地,利用代理模型的迁移先验,通过近似真实梯度在先验和随机方向张成的子空间上的投影,以查询高效的方式改进梯度估计器,并理论推导了梯度估计器与真实梯度之间的期望余弦相似度。
- Result: 在ImageNet和CIFAR-10数据集上的广泛实验表明,该方法在查询效率方面显著优于11种最先进的方法。理论分析证明了融入先验信息能够改善梯度估计质量。
- Conclusion: 通过理论分析和实验验证,基于先验引导的梯度估计方法能够有效提升硬标签黑盒对抗攻击的射线搜索效率,为解决查询成本高昂的问题提供了有效解决方案。
[78] From Scan to Action: Leveraging Realistic Scans for Embodied Scene Understanding
Anna-Maria Halacheva,Jan-Nico Zaech,Sombit Dey,Luc Van Gool,Danda Pani Paudel
Main category: cs.CV
TL;DR: 本文提出了一种基于USD的统一注释集成方法,用于有效利用真实世界3D场景扫描数据,并在LLM场景编辑和机器人仿真中验证了该方法的有效性
- Motivation: 真实世界3D场景扫描数据具有真实性优势,能够提升下游应用的泛化能力,但面临数据量大、注释格式多样、工具兼容性差等挑战,限制了其实际应用
- Method: 提出基于USD(Universal Scene Description)的统一注释集成方法,设计特定应用的USD风格,并针对真实世界扫描数据集的利用挑战提出缓解策略
- Result: 在两个下游应用中验证了方法的有效性:LLM场景编辑任务达到80%的成功率,机器人仿真中的策略学习达到87%的成功率
- Conclusion: 该方法成功解决了真实世界3D扫描数据的利用难题,通过统一的USD注释集成框架,有效提升了数据在不同应用场景下的可用性和效果
[79] Dual-branch Prompting for Multimodal Machine Translation
Jie Wang,Zhendong Yang,Liansong Zong,Xiaobo Zhang,Dexian Wang,Ji Zhang
Main category: cs.CV
TL;DR: 提出了D2P-MMT,一个基于扩散模型的双分支提示框架,通过重构图像而非原始图像进行多模态机器翻译,在Multi30K数据集上取得了优于现有方法的性能。
- Motivation: 现有多模态机器翻译方法存在两个关键问题:1)推理时需要配对的图像-文本输入;2)对无关视觉噪声敏感,限制了鲁棒性和实际应用性。
- Method: 提出D2P-MMT框架,使用预训练扩散模型生成重构图像替代原始图像,采用双分支提示策略同时学习真实图像和重构图像,并引入分布对齐损失来桥接模态差距和缓解训练-推理不一致问题。
- Result: 在Multi30K数据集上的广泛实验表明,D2P-MMT相比现有最先进方法取得了更优的翻译性能。
- Conclusion: D2P-MMT通过使用扩散模型生成的重构图像有效过滤了干扰性视觉细节,同时保留语义信息,双分支训练策略和分布对齐损失进一步提升了模型的鲁棒性和翻译质量。
[80] RemixFusion: Residual-based Mixed Representation for Large-scale Online RGB-D Reconstruction
Yuqing Lan,Chenyang Zhu,Shuaifeng Zhi,Jiazhao Zhang,Zhoufeng Wang,Renjiao Yi,Yijie Wang,Kai Xu
Main category: cs.CV
TL;DR: RemixFusion提出了一种基于残差的混合表示方法,结合显式TSDF网格和隐式神经模块来实现高质量的大规模在线RGB-D重建,通过优化姿态变化而非直接优化姿态来改进相机跟踪性能。
- Motivation: 现有神经隐式表示方法在大规模在线重建中存在重建细节不足和学习时间过长的问题,纯隐式表示会产生过度平滑的结果,而传统显式表示在映射完整性和内存效率方面不足。
- Method: 提出RemixFusion框架,采用残差混合表示:粗糙显式TSDF网格+隐式神经模块生成残差细节;通过优化姿态变化而非直接优化姿态进行多帧联合姿态优化;采用自适应梯度放大技术;使用局部移动体积进行分治设计以支持高效在线学习。
- Result: 在大规模场景的映射和跟踪精度方面,该方法超越了所有基于显式或隐式表示的最先进方法,实现了有界时间和内存预算下的细节丰富重建,并获得了更好的优化收敛性和全局最优性。
- Conclusion: RemixFusion成功解决了神经隐式表示在大规模在线重建中的局限性,通过残差混合表示和姿态变化优化策略,实现了高质量、高效率的RGB-D重建,为大规模场景的实时重建应用铺平了道路。
[81] PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving
Maciej K. Wozniak,Lianhang Liu,Yixi Cai,Patric Jensfelt
Main category: cs.CV
TL;DR: 本文提出PRIX,一个仅使用摄像头数据的端到端自动驾驶模型,通过Context-aware Recalibration Transformer (CaRT)模块直接从原始像素预测安全轨迹,在保持性能的同时显著提升了效率和实用性。
- Motivation: 现有端到端自动驾驶模型面临模型体积大、依赖昂贵的LiDAR传感器、需要计算密集的BEV特征表示等问题,限制了其在仅配备摄像头的量产车辆上的可扩展性和实际部署。
- Method: 提出PRIX架构,仅使用摄像头数据,无需显式BEV表示和LiDAR。架构包含视觉特征提取器和生成式规划头,核心组件是Context-aware Recalibration Transformer (CaRT)模块,用于有效增强多级视觉特征以实现更鲁棒的路径规划。
- Result: 在NavSim和nuScenes基准测试上达到最先进性能,与更大的多模态扩散规划器性能相当,但在推理速度和模型大小方面显著更高效,使其成为实际部署的实用解决方案。
- Conclusion: PRIX成功解决了现有自动驾驶模型的效率和部署问题,证明了仅使用摄像头数据也能实现高性能的端到端自动驾驶,为量产车辆的实际应用提供了可行方案。
[82] InvRGB+L: Inverse Rendering of Complex Scenes with Unified Color and LiDAR Reflectance Modeling
Xiaoxue Chen,Bhargav Chandaka,Chih-Hao Lin,Ya-Qin Zhang,David Forsyth,Hao Zhao,Shenlong Wang
Main category: cs.CV
TL;DR: 提出了InvRGB+L模型,利用RGB+LiDAR序列重建大规模可重光照的动态场景,通过结合LiDAR强度信息和基于物理的着色模型实现更准确的材质估计
- Motivation: 传统的逆向图形学方法主要依赖RGB观测,仅将LiDAR用于几何信息,在可见光干扰下容易导致材质估计不准确。而LiDAR强度值是在不同光谱范围内通过主动照明捕获的,能为在变化光照条件下的鲁棒材质估计提供互补线索
- Method: 提出两项关键创新:(1)基于物理的LiDAR着色模型;(2)RGB-LiDAR材质一致性损失函数。通过利用LiDAR强度线索来克服以RGB为中心的逆向图形学方法的固有挑战
- Result: 该模型能够生成城市和室内场景的新视角RGB和LiDAR渲染结果,支持重光照、夜间模拟和动态物体插入。在场景级城市逆向渲染和LiDAR仿真方面均超越了当前最先进的方法
- Conclusion: InvRGB+L通过有效整合RGB和LiDAR信息,特别是利用LiDAR强度值的互补性,成功解决了传统方法在材质估计方面的局限性,实现了更准确的大规模场景重建和多样化的应用场景
[83] Vision Transformer attention alignment with human visual perception in aesthetic object evaluation
Miguel Carrasco,César González-Martín,José Aranda,Luis Oliveros
Main category: cs.CV
TL;DR: 研究对比了人类视觉注意力与Vision Transformer(ViT)注意力机制在评估手工艺品时的相关性,发现ViT的某些注意力头能够近似人类视觉行为,但整体上ViT表现出更全局的注意力模式。
- Motivation: 探索Vision Transformer在计算机视觉任务中的卓越表现与人类视觉注意力模式的一致性,特别是在美学评估语境下,这一领域尚未得到充分研究。
- Method: 对30名参与者进行眼动追踪实验,观察20件手工艺品(篮编包和姜罐),使用Pupil Labs眼动仪记录注视模式并生成热力图;同时使用预训练的ViT-DINO模型分析相同物品,提取12个注意力头的注意力图;通过Kullback-Leibler散度比较人类和ViT的注意力分布。
- Result: 在sigma=2.4±0.03时发现最优相关性,注意力头#12与人类视觉模式显示最强一致性;注意力头之间存在显著差异,头#7和#9与人类注意力差异最大;ViT表现出更全局的注意力模式,但某些注意力头能够近似人类对特定物体特征的视觉行为。
- Conclusion: 研究表明ViT注意力机制在产品设计和美学评估中具有潜在应用价值,同时揭示了人类感知与当前AI模型在注意力策略上的根本差异,为改进AI视觉模型提供了重要见解。
[84] Reusing Attention for One-stage Lane Topology Understanding
Yang Li,Zongzheng Zhang,Xuchong Qiu,Xinrun Li,Ziming Liu,Leichen Wang,Ruikai Li,Zhenxin Zhu,Huan-ang Gao,Xiaojian Lin,Zhiyong Cui,Hang Zhao,Hao Zhao
Main category: cs.CV
TL;DR: 提出了一种单阶段架构,同时预测交通元素、车道中心线和拓扑关系,通过复用transformer解码器中的注意力资源来提升自动驾驶中车道拓扑理解的准确性和推理速度
- Motivation: 现有的两阶段方法存在误差传播和计算开销增加的低效问题,需要提升车道拓扑理解的准确性和推理速度
- Method: 设计单阶段架构同时预测交通元素、车道中心线和拓扑关系;复用不同transformer解码器中的中间注意力资源;利用元素检测模块中的固有关系知识建模拓扑关系,无需额外的图网络;首次展示从使用标准定义地图的模型向不使用SD地图的模型进行知识蒸馏
- Result: 在OpenLane-V2数据集上的大量实验表明,该方法在准确性和效率方面都优于基线方法,在车道检测、交通元素识别和拓扑推理方面取得了优异结果
- Conclusion: 提出的单阶段架构通过复用注意力资源和知识蒸馏技术,有效解决了车道拓扑理解中的效率和准确性问题,为自动驾驶提供了更好的解决方案
[85] The Early Bird Identifies the Worm: You Can't Beat a Head Start in Long-Term Body Re-ID (ECHO-BID)
Thomas M. Metz,Matthew Q. Hill,Alice J. O'Toole
Main category: cs.CV
TL;DR: 本文提出了ECHO-BID模型,基于EVA-02 Large骨干网络的长期重识别模型,在换装和遮挡场景下的人员识别任务中取得了最优性能
- Motivation: 在无约束观察环境中进行人员识别面临距离、视角、成像条件和服装变化等重大挑战,现有方法在长期重识别特别是换装场景下性能不佳
- Method: 构建了基于对象预训练EVA-02 Large骨干网络的ECHO-BID模型,通过系统性比较9种不同骨干架构、模型大小、对象分类预训练规模和迁移学习协议的模型,采用掩码图像建模进行预训练
- Result: ECHO-BID在长期重识别任务上达到最优性能,显著超越其他方法;在遮挡观察场景中也大幅领先其他方法;较小但更具挑战性的迁移学习数据集在跨数据集泛化方面表现更好
- Conclusion: 模型大小的增加和预训练期间的掩码图像建模是ECHO-BID在长期重识别上强劲性能的基础;选择正确的预训练骨干架构和迁移学习协议可以在长期重识别性能上带来显著提升
[86] CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts
Olaf Dünkel,Artur Jesslen,Jiahao Xie,Christian Theobalt,Christian Rupprecht,Adam Kortylewski
Main category: cs.CV
TL;DR: 本文提出CNS-Bench,一个连续干扰偏移基准测试,用于评估图像分类器在现实世界分布外(OOD)场景下的鲁棒性,通过扩散模型生成连续且真实的干扰偏移来进行评估。
- Motivation: 现有的计算机视觉模型在真实世界应用时面临分布外场景的挑战,传统的合成损坏测试无法捕捉真实世界中的干扰偏移,而现有的扩散模型基准测试仅限于二元干扰偏移,无法提供连续的评估。
- Method: 开发CNS-Bench基准测试,使用LoRA适配器应用于扩散模型来生成连续严重程度的个体干扰偏移;提出过滤机制解决失效案例;对40多个分类器进行大规模研究评估。
- Result: 发现模型排名会随着不同的偏移类型和偏移规模而变化,这是传统二元偏移无法捕捉的;连续尺度评估能够识别模型失效点,提供更细致的模型鲁棒性理解。
- Conclusion: CNS-Bench能够提供比传统方法更全面和细致的模型鲁棒性评估,通过连续干扰偏移测试可以更好地理解模型在真实世界场景中的表现和失效模式。
[87] Attention (as Discrete-Time Markov) Chains
Yotam Erel,Olaf Dünkel,Rishabh Dabral,Vladislav Golyanik,Christian Theobalt,Amit H. Bermano
Main category: cs.CV
TL;DR: 本文将注意力矩阵重新解释为离散时间马尔可夫链,通过这种新视角统一理解注意力机制中的选择、求和和平均操作,并引入间接注意力概念。基于亚稳态分析实现了最先进的零样本分割效果,同时提出TokenRank度量全局token重要性并改进无条件图像生成。
- Motivation: 现有注意力机制研究主要关注直接的即时效应,缺乏统一框架来理解注意力操作,且忽略了通过注意力传播产生的间接效应。需要一种新的理论框架来更好地理解现代视觉Transformer中token之间的注意力关系。
- Method: 将注意力矩阵解释为离散时间马尔可夫链,通过矩阵乘法和特征分析计算亚稳态及其流行度。语义相似区域对应的token形成亚稳态集合,注意力在其中聚集。定义TokenRank作为马尔可夫链的稳态向量来衡量全局token重要性。使用这些轻量级工具进行下游任务应用。
- Result: 在零样本分割任务上达到最先进性能,证明了亚稳态分析的有效性。TokenRank在无条件图像生成任务中带来了性能提升,验证了全局token重要性度量的价值。实验结果表明该框架能有效捕捉视觉Transformer中的注意力模式。
- Conclusion: 提出的马尔可夫链解释为理解注意力机制提供了全新视角,成功统一了注意力操作并引入间接注意力概念。亚稳态分析和TokenRank为视觉任务提供了有效的分析工具,为现代视觉Transformer中token注意力机制的理解开辟了新方向。
[88] See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering
Junjie Wang,Yunhan Tang,Yijie Wang,Zhihao Yuan,Huan Wang,Yangfan He,Bin Li
Main category: cs.CV
TL;DR: 本文提出了Synergos-VQA框架,通过融合整体证据、结构证据和因果证据三种互补证据流,解决了多模态大语言模型在知识驱动视觉问答中依赖单一维度证据的局限性,在多个基准测试中取得了最先进的性能。
- Motivation: 现有的多模态大语言模型在知识驱动视觉问答任务中存在根本性瓶颈,即过度依赖单一维度的证据进行推理,这种"只见树木不见森林"的方法阻碍了模型实现鲁棒、多层面的理解能力。
- Method: 提出Synergos-VQA协同推理框架,在推理时并发生成并融合三种互补的证据流:(1)整体证据用于感知整个场景("森林"),(2)基于原型驱动模块的结构证据用于识别关键对象("树木"),(3)通过反事实探测获得的因果证据确保推理的鲁棒性基础。
- Result: 在OK-VQA和A-OKVQA等三个具有挑战性的基准测试中确立了新的最先进性能,并展现出强大的即插即用能力,能够显著提升各种开源多模态大语言模型的表现。
- Conclusion: 通过协同融合多层面证据,该框架实现了更全面可靠的推理过程,证明了优秀的方法设计可以超越单纯的模型规模扩展,为知识驱动视觉问答任务提供了新的解决方案。
[89] Monocular Semantic Scene Completion via Masked Recurrent Networks
Xuzhi Wang,Xinran Wu,Song Wang,Lingdong Kong,Ziping Zhao
Main category: cs.CV
TL;DR: 本文提出MonoMRN框架,通过两阶段方法解决单目语义场景补全问题,使用掩码递归网络和稀疏门控循环单元,在NYUv2和SemanticKITTI数据集上达到最先进性能。
- Motivation: 现有单目语义场景补全方法采用单阶段框架,试图同时完成可见区域分割和遮挡区域幻觉生成,但受到深度估计不准确的影响,在复杂场景中性能不佳。
- Method: 提出两阶段框架将MSSC分解为粗糙MSSC和掩码递归网络;设计掩码稀疏门控循环单元(MS-GRU)通过掩码更新机制专注于占用区域;提出距离注意力投影通过根据到观测表面的距离分配不同注意力分数来减少投影误差。
- Result: 在NYUv2和SemanticKITTI数据集上达到最先进性能,有效支持室内和室外场景,并在各种干扰下的鲁棒性分析中表现出色,证明了掩码递归网络在增强模型抗干扰能力方面的作用。
- Conclusion: MonoMRN框架通过两阶段设计和掩码递归网络有效解决了单目语义场景补全的挑战,在多个数据集上实现了最先进的性能,并展现出良好的鲁棒性。
[90] Talk2Event: Grounded Understanding of Dynamic Scenes from Event Cameras
Lingdong Kong,Dongyue Lu,Ao Liang,Rong Li,Yuhao Dong,Tianshuai Hu,Lai Xing Ng,Wei Tsang Ooi,Benoit R. Cottereau
Main category: cs.CV
TL;DR: 本文提出了Talk2Event,首个基于事件相机的大规模语言驱动目标定位基准数据集,包含30,000个参考表达式,并设计了EventRefer框架,通过混合事件-属性专家模型实现多属性融合,在事件相机感知中建立语言与视觉的连接。
- Motivation: 事件相机具有微秒级延迟和抗运动模糊的优势,适合理解动态环境,但将这些异步事件流与人类语言连接仍是一个开放性挑战。缺乏大规模的语言驱动事件感知数据集和有效的多模态融合方法。
- Method: 构建Talk2Event基准数据集,包含来自真实驾驶数据的30,000个验证过的参考表达式,每个表达式包含四个定位属性(外观、状态、与观察者关系、与其他对象关系)。提出EventRefer框架,采用混合事件-属性专家模型(MoEE)动态融合多属性表示,适应不同模态和场景动态。
- Result: EventRefer在仅事件、仅帧和事件-帧融合三种设置下相比最先进基线方法都取得了一致的性能提升,证明了属性感知定位框架的有效性。
- Conclusion: 本研究为基于事件的多模态感知提供了重要的数据集和方法基础,有望推进现实世界机器人和自主系统中多模态、时间感知和语言驱动感知技术的发展。
[91] Perspective-Invariant 3D Object Detection
Ao Liang,Lingdong Kong,Dongyue Lu,Youquan Liu,Jian Fang,Huaici Zhao,Wei Tsang Ooi
Main category: cs.CV
TL;DR: 本文介绍了Pi3DET,首个包含车辆、四足机器人和无人机多平台LiDAR数据的3D目标检测基准数据集,并提出了跨平台适应框架,实现从车辆平台向其他平台的知识迁移,为多样化环境下的统一3D感知系统奠定基础。
- Motivation: 现有的3D目标检测数据集和方法主要专注于车载平台,对其他自主平台(如四足机器人、无人机)的研究不足,缺乏跨平台3D检测的研究基础,需要填补这一研究空白。
- Method: 提出Pi3DET多平台基准数据集,包含车辆、四足机器人和无人机的LiDAR数据和3D边界框标注;设计跨平台适应框架,通过几何和特征层面的鲁棒对齐实现从车辆平台到其他平台的知识迁移;建立跨平台场景下3D检测器韧性和鲁棒性评估基准。
- Result: 在跨平台任务上进行了广泛实验验证,证明了所提方法的有效性,相比现有适应方法取得了显著提升;建立了跨平台基准测试套件,为开发自适应3D感知系统提供了有价值的见解。
- Conclusion: 本工作为开发可泛化的统一3D感知系统铺平了道路,能够适应多样化和复杂的环境;Pi3DET数据集、跨平台基准测试套件和标注工具包已公开发布,为相关研究提供支持。
[92] BetterCheck: Towards Safeguarding VLMs for Automotive Perception Systems
Malsha Ashani Mahawatta Dona,Beatriz Cabrero-Daniel,Yinan Yu,Christian Berger
Main category: cs.CV
TL;DR: 本文系统评估了3个最先进的视觉语言模型(VLMs)在自动驾驶感知系统中的性能,发现它们虽然具有出色的图像理解能力,但仍存在幻觉问题,因此提出了BetterCheck等幻觉检测策略来保障安全。
- Motivation: 大语言模型和视觉语言模型在理解复杂交通场景方面表现出色,有潜力用于汽车感知系统,但它们容易产生幻觉(错误地识别不存在的交通参与者或遗漏实际存在的参与者),这可能导致自动驾驶系统做出灾难性决策,因此需要建立安全防护机制来捕获这些幻觉。
- Method: 使用Waymo Open Dataset中多样化的交通场景子集,系统性评估3个最先进的视觉语言模型的性能,并提出BetterCheck等幻觉检测策略来识别VLM支持的感知系统中的幻觉现象。
- Result: 研究发现专有和开源的VLMs都展现出卓越的图像理解能力,甚至能够关注到人类难以发现的细节,但它们仍然容易在描述中编造元素,存在幻觉问题。
- Conclusion: 尽管视觉语言模型在交通场景理解方面表现出色,但由于仍存在幻觉问题,需要采用如BetterCheck等幻觉检测策略来确保在自动驾驶感知系统中的安全应用。
[93] A Comprehensive Evaluation Framework for the Study of the Effects of Facial Filters on Face Recognition Accuracy
Kagan Ozturk,Louisa Conwill,Jacob Gutierrez,Kevin Bowyer,Walter J. Scheirer
Main category: cs.CV
TL;DR: 本文提出了一个大规模研究面部滤镜对自动人脸识别影响的框架,通过对Instagram、Snapchat、美图和Pitu等应用的滤镜进行跨文化分析,发现了滤镜对人脸识别的负面影响,并提出了在人脸嵌入空间中检测和恢复滤镜效果的方法来改善识别性能。
- Motivation: 现有研究仅关注少数手工挑选的特定风格滤镜,无法有效涵盖各种社交媒体应用中存在的广泛滤镜范围。需要一个能够大规模研究面部滤镜对自动识别影响的框架。
- Method: 构建了一个包含受控面部图像数据集的框架,采用有原则的滤镜选择过程来选择具有代表性的滤镜范围进行实验,并设计了一套评估滤镜对识别影响的实验方案。通过对美国应用(Instagram和Snapchat)和中国应用(美图和Pitu)的案例研究来揭示跨文化差异。
- Result: 通过案例研究发现了面部滤镜对自动人脸识别性能的负面影响,并揭示了不同文化背景下应用滤镜的差异。成功展示了在人脸嵌入空间中检测和恢复滤镜效果的方法。
- Conclusion: 提出的框架能够有效地大规模研究面部滤镜对自动识别的影响,发现滤镜会对人脸识别性能产生负面影响,但可以通过在人脸嵌入空间中检测和恢复滤镜效果来改善识别性能。该方法为应对社交媒体滤镜对人脸识别系统的挑战提供了解决方案。
[94] Yume: An Interactive World Generation Model
Xiaofeng Mao,Shaoheng Lin,Zhen Li,Chuanhao Li,Wenshuo Peng,Tong He,Jiangmiao Pang,Mingmin Chi,Yu Qiao,Kaipeng Zhang
Main category: cs.CV
TL;DR: Yume是一个通过图像、文本或视频创建交互式、逼真动态世界的系统,用户可以通过键盘操作探索生成的视频世界。系统采用四个核心组件:相机运动量化、视频生成架构、高级采样器和模型加速,实现了高保真度的交互式视频世界生成。
- Motivation: 现有技术缺乏能够从静态输入(图像、文本、视频)生成可交互、逼真且动态的虚拟世界的能力。用户需要一个能够通过外围设备或神经信号进行探索和控制的系统,以实现沉浸式的世界体验。
- Method: 提出了包含四个主要组件的框架:1)相机运动量化,用于稳定训练和用户友好的键盘交互;2)带记忆模块的掩码视频扩散变换器(MVDT),实现自回归方式的无限视频生成;3)基于随机微分方程的无训练反伪影机制(AAM)和时间旅行采样(TTS-SDE);4)通过对抗蒸馏和缓存机制的协同优化实现模型加速。
- Result: 在高质量世界探索数据集Sekai上训练后,Yume在多样化场景和应用中取得了显著效果。系统能够从输入图像创建动态世界,并允许用户通过键盘操作进行世界探索,实现了高保真度和交互性的视频世界生成。
- Conclusion: Yume成功实现了从静态输入创建交互式动态世界的目标,通过精心设计的四组件框架,在视频世界生成的保真度和交互性方面取得了突破。项目将持续月度更新以实现最初设定的完整目标,所有数据、代码和模型权重已开源。
[95] Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention
Yiwen Chen,Zhihao Li,Yikai Wang,Hu Zhang,Qin Li,Chi Zhang,Guosheng Lin
Main category: cs.CV
TL;DR: Ultra3D是一个高效的3D生成框架,通过紧凑的VecSet表示和几何感知的Part Attention机制,在保持高质量的同时显著加速稀疏体素建模,实现了最高6.7倍的速度提升
- Motivation: 现有的稀疏体素表示框架虽然能生成高质量的3D内容,但由于两阶段扩散管道中注意力机制的二次复杂度导致严重的计算效率问题
- Method: 提出Ultra3D框架,采用紧凑的VecSet表示在第一阶段生成粗糙的物体布局,减少token数量并加速体素坐标预测;在第二阶段引入Part Attention机制,这是一种几何感知的局部化注意力机制,将注意力计算限制在语义一致的部分区域内;构建了可扩展的部分标注管道,将原始网格转换为带有部分标签的稀疏体素
- Result: Ultra3D支持1024分辨率的高分辨率3D生成,在潜在特征生成中实现了最高6.7倍的速度提升,在视觉保真度和用户偏好方面都达到了最先进的性能
- Conclusion: Ultra3D成功解决了稀疏体素3D生成中的计算效率问题,通过创新的VecSet表示和Part Attention机制,在保持高质量输出的同时显著提升了生成速度,为高分辨率3D内容生成提供了实用的解决方案
cs.SI
[96] Weak Links in LinkedIn: Enhancing Fake Profile Detection in the Age of LLMs
Apoorva Gulati,Rajesh Kumar,Vinti Agarwal,Aditya Sharma
Main category: cs.SI
TL;DR: 研究发现现有的虚假档案检测器在面对GPT生成的虚假档案时效果显著下降,提出了GPT辅助对抗训练方法来提高检测器的鲁棒性,将误接受率从42-52%降低到1-7%。
- Motivation: 大型语言模型(LLMs)使得在LinkedIn等平台上创建逼真的虚假档案变得更加容易,这对基于文本的虚假档案检测器构成了重大风险,需要评估现有检测器对LLM生成档案的鲁棒性。
- Method: 提出GPT辅助对抗训练作为对策,并通过消融研究分析了不同嵌入类型(数值和文本嵌入组合、仅数值嵌入、仅文本嵌入)对检测器鲁棒性的影响。还进行了基于提示的GPT-4Turbo和人工评估者的补充分析。
- Result: 现有检测器在检测手动创建的虚假档案方面高度有效(误接受率6-7%),但在识别GPT生成的档案时失败(误接受率42-52%)。通过GPT辅助对抗训练,将误接受率恢复到1-7%之间,且不影响误拒绝率(0.5-2%)。使用数值和文本嵌入组合训练的检测器表现出最高的鲁棒性。
- Conclusion: 研究证实了对抗LLM生成虚假档案需要鲁棒的自动化检测器,所提出的GPT辅助对抗训练方法能够有效提升检测器的性能,其中结合数值和文本特征的方法效果最佳。
eess.IV
[97] A Hybrid CNN-VSSM model for Multi-View, Multi-Task Mammography Analysis: Robust Diagnosis with Attention-Based Fusion
Yalda Zafari,Roaa Elalfy,Mohamed Mabrok,Somaya Al-Maadeed,Tamer Khattab,Essam A. Rashed
Main category: eess.IV
TL;DR: 本研究提出了一种多视图、多任务混合深度学习框架,用于乳腺X线摄影筛查中的乳腺癌检测。该框架结合CNN和视觉状态空间模型(VSSM),处理四个标准视图并同时预测诊断标签和BI-RADS评分,在多项分类任务中表现优异。
- Motivation: 现有AI方法在乳腺X线摄影解读中存在局限性,主要集中在单视图输入或单任务输出,限制了临床实用性。乳腺癌筛查需要准确解读微妙的影像学发现和处理诊断模糊性,因此需要更综合的方法来提高诊断准确性和临床适用性。
- Method: 提出多视图、多任务混合深度学习框架,包括:1)混合CNN-VSSM骨干网络,结合卷积编码器进行局部特征提取和视觉状态空间模型捕获全局上下文依赖;2)门控注意力融合模块,动态加权不同视图信息并处理缺失数据;3)同时处理四个标准乳腺X线摄影视图并联合预测诊断标签和BI-RADS评分。
- Result: 在所有任务中,混合模型均优于基线CNN架构和VSSM模型。二分类BI-RADS 1 vs. 5任务中,共享混合模型达到0.9967的AUC和0.9830的F1分数;三分类任务中F1分数为0.7790;五分类BI-RADS任务中最佳F1分数达到0.4904。实验证明了混合框架的有效性。
- Conclusion: 研究证明了所提出的混合深度学习框架在乳腺X线摄影诊断中的有效性,展现了多任务学习在提高诊断性能和实现临床意义的乳腺X线摄影分析方面的潜力。同时也揭示了多任务学习在复杂诊断任务中的局限性,为未来研究提供了方向。
[98] Harmonization in Magnetic Resonance Imaging: A Survey of Acquisition, Image-level, and Feature-level Methods
Qinqin Yang,Firoozeh Shomal-Zadeh,Ali Gholipour
Main category: eess.IV
TL;DR: 这篇综述论文系统介绍了医学图像协调化技术,特别是MRI图像中的批次效应问题,涵盖了从前瞻性采集到回顾性处理的各种方法,重点关注深度学习方法
- Motivation: 不同扫描仪、采集协议或成像地点收集的医学影像数据存在显著的异质性(批次效应或站点效应),这些非生物学变异源会掩盖真实的生物信号,降低数据的可重复性和统计功效,严重影响基于学习模型在不同数据集间的泛化能力
- Method: 系统性地分类了图像协调化方法,包括:1)前瞻性采集和重建策略;2)回顾性图像级和特征级方法;3)基于旅行受试者的技术。重点介绍了代表性方法,特别强调深度学习方法
- Result: 提供了医学图像协调化领域的全面概述,涵盖了关键概念、方法进展、公开数据集等内容,为该领域的研究现状和技术发展提供了系统性总结
- Conclusion: 总结了该领域仍然存在的主要挑战,并为未来研究勾勒出有前景的发展方向,强调了图像协调化技术在提高医学影像数据可比性和一致性方面的重要作用
[99] MyGO: Make your Goals Obvious, Avoiding Semantic Confusion in Prostate Cancer Lesion Region Segmentation
Zhengcheng Lin,Zuobin Ying,Zhenyu Li,Zhenyu Liu,Jian Lu,Weiping Ding
Main category: eess.IV
TL;DR: 本文提出了一种新的像素锚点模块来解决前列腺癌病灶分割中的语义混淆问题,通过稀疏特征锚点捕获全局上下文信息,结合自注意力Top_k选择策略和焦点损失函数,在PI-CAI数据集上达到了69.73% IoU和74.32% Dice分数的最先进性能。
- Motivation: 前列腺癌早期诊断和准确的病灶定位对制定有效治疗策略至关重要,但由于病灶区域与非病灶区域之间的高度语义同质性,现有医学图像分割方法难以准确理解病灶语义,导致语义混淆问题。
- Method: 提出了新颖的像素锚点模块(Pixel Anchor Module),引导模型发现稀疏的特征锚点集合来捕获和解释全局上下文信息;设计了基于自注意力的Top_k选择策略来进一步优化特征锚点识别;结合焦点损失函数来缓解类别不平衡问题。
- Result: 在PI-CAI数据集上实现了最先进的性能,达到69.73% IoU和74.32% Dice分数,显著改善了前列腺癌病灶检测效果。
- Conclusion: 所提出的像素锚点模块通过增强模型的非线性表示能力和改善病灶区域分割精度,有效解决了前列腺癌医学图像分割中的语义混淆问题,为临床诊断提供了更准确的病灶识别技术。
[100] A Versatile Pathology Co-pilot via Reasoning Enhanced Multimodal Large Language Model
Zhe Xu,Ziyi Liu,Junlin Hou,Jiabo Ma,Cheng Jin,Yihui Wang,Zhixuan Chen,Zhengyu Zhang,Zhengrui Guo,Fengtao Zhou,Yingxue Xu,Xi Wang,Ronald Cheong Kin Chan,Li Liang,Hao Chen
Main category: eess.IV
TL;DR: 本文提出SmartPath-R1,一个能够同时处理ROI级别和WSI级别任务的多模态大语言模型,通过尺度依赖的监督微调和任务感知的强化微调,在无需链式思维监督的情况下实现强大的病理推理能力。
- Motivation: 现有的多模态大语言模型在病理学应用中推理能力受限,主要依赖昂贵的链式思维标注,且仅局限于ROI级别的视觉问答任务,无法满足临床实践中ROI分类、检测、分割、全切片图像分类等多样化诊断需求。
- Method: 提出SmartPath-R1框架,结合尺度依赖的监督微调和任务感知的强化微调方法,利用MLLM内在知识避免链式思维监督需求;通过专家混合机制集成多尺度和多任务分析,实现不同任务的动态处理;构建包含230万ROI样本和18.8万WSI样本的大规模数据集。
- Result: 在72个任务上进行广泛实验验证,证明了所提方法的有效性和优越性,SmartPath-R1能够同时处理ROI级别和WSI级别的多种病理学任务,展现出强大的病理推理能力。
- Conclusion: SmartPath-R1代表了在开发具有推理增强能力的通用AI系统用于精准病理学方面的重要进步,为计算病理学领域提供了一个能够处理多尺度、多任务的强大工具。
[101] Mammo-Mamba: A Hybrid State-Space and Transformer Architecture with Sequential Mixture of Experts for Multi-View Mammography
Farnoush Bayatmakou,Reza Taleei,Nicole Simone,Arash Mohammadi
Main category: eess.IV
TL;DR: 该论文提出了Mammo-Mamba框架,结合选择性状态空间模型、transformer注意力机制和专家驱动特征细化,用于乳腺癌多视角乳房X光片分类,在保持计算效率的同时实现了优异的分类性能。
- Motivation: 尽管基于Transformer架构的多视角乳房X光片分类模型表现出色,但其计算复杂度随图像块数量呈二次增长,需要更高效的替代方案来解决乳腺癌早期检测中准确高效解释多视角乳房X光片的挑战。
- Method: 提出Mammo-Mamba框架,将选择性状态空间模型(SSMs)、基于transformer的注意力机制和专家驱动特征细化集成到统一架构中。通过定制的SecMamba块引入序列专家混合(SeqMoE)机制,扩展MambaVision骨干网络。SecMamba块通过动态专家门控实现内容自适应特征细化,集成到MambaVision的深层阶段。
- Result: 在CBIS-DDSM基准数据集上的评估显示,Mammo-Mamba在所有关键指标上都实现了优异的分类性能,同时保持了计算效率。
- Conclusion: Mammo-Mamba成功解决了传统Transformer模型的局限性,通过动态专家门控机制有效地进行渐进式特征强调调整,为乳腺癌多视角乳房X光片分类提供了一个高效且准确的解决方案。
[102] MCM: Mamba-based Cardiac Motion Tracking using Sequential Images in MRI
Jiahui Yin,Xinxing Cheng,Jinming Duan,Yan Pang,Declan O'Regan,Hadrien Reynaud,Qingjie Meng
Main category: eess.IV
TL;DR: 提出了一种基于Mamba的心肌运动追踪网络(MCM),通过利用心动周期的连续图像序列实现平滑且时间一致的心肌运动追踪,相比传统方法在两个公开数据集上取得了更好的定量和定性结果。
- Motivation: 现有心肌运动追踪方法主要基于单一图像对(参考帧和随机选择的目标帧)进行学习,忽略了心脏运动的连续性特征,导致运动估计不一致且不平滑,无法准确评估心脏功能和诊断心血管疾病。
- Method: 提出MCM网络,采用双向Mamba块和双向扫描机制处理心动周期的目标图像序列;设计运动解码器整合目标帧相邻帧的运动信息;利用Mamba的结构化状态空间公式从序列图像中学习心肌连续动力学,无需增加计算复杂度。
- Result: 在两个公开数据集上的实验表明,所提方法在定量和定性评估上均优于传统方法和最先进的基于学习的心肌运动追踪方法,实现了更平滑和时间一致的运动追踪效果。
- Conclusion: 基于Mamba的心肌运动追踪网络通过显式利用心动周期的连续图像序列信息,成功解决了现有方法运动估计不连续的问题,为心脏功能评估和心血管疾病诊断提供了更可靠的技术支持。
cs.IR
[103] VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings
Ramin Giahi,Kehui Yao,Sriram Kollipara,Kai Zhao,Vahid Mirjalili,Jianpeng Xu,Topojoy Biswas,Evren Korpeoglu,Kannan Achan
Main category: cs.IR
TL;DR: 本文提出VL-CLIP框架,通过视觉定位和大语言模型增强CLIP嵌入,解决电商推荐系统中的对象级对齐弱、文本表示模糊和领域不匹配问题,在大型电商平台上显著提升了推荐效果。
- Motivation: 现有视觉-语言模型(如CLIP)在电商推荐系统中面临三个关键挑战:1)对象级对齐弱,全局图像嵌入无法捕获细粒度产品属性;2)文本表示模糊,产品描述缺乏上下文清晰度;3)领域不匹配,通用视觉-语言模型在电商特定数据上泛化能力不足。
- Method: 提出VL-CLIP框架,通过集成视觉定位(Visual Grounding)和基于大语言模型的智能体来增强CLIP嵌入。视觉定位通过定位关键产品来细化图像表示,大语言模型智能体通过消除产品描述歧义来增强文本特征。
- Result: 在美国最大电商平台之一的数千万商品上测试,显著提升了检索准确性、多模态检索效果和推荐质量,CTR提升18.6%,ATC提升15.5%,GMV提升4.0%。在精度和语义对齐方面优于CLIP、FashionCLIP和GCL等视觉-语言模型。
- Conclusion: 结合对象感知视觉定位和大语言模型增强文本表示的方法展现了构建鲁棒多模态推荐系统的潜力,为电商推荐领域的多模态学习提供了有效解决方案。
cs.AI
[104] Constructing Ophthalmic MLLM for Positioning-diagnosis Collaboration Through Clinical Cognitive Chain Reasoning
Xinyao Liu,Diping Song
Main category: cs.AI
TL;DR: 本文提出了FundusExpert,一个专门用于眼科诊断的多模态大语言模型,通过FundusGen数据集和认知链对齐实现了定位-诊断推理能力的集成,在眼科问答和报告生成任务中显著超越现有模型性能。
- Motivation: 多模态大语言模型在医疗诊断领域具有巨大潜力,但在眼科等专业领域面临注释粒度碎片化和临床推理逻辑不一致的关键挑战,阻碍了精确的跨模态理解。需要开发专门针对眼科的MLLM来解决这些问题。
- Method: 提出FundusExpert眼科专用MLLM和FundusGen数据集。通过智能Fundus-Engine系统自动化定位,利用基于MLLM的语义扩展将全局疾病分类、局部目标检测和细粒度特征分析集成到单张眼底图像中。构建临床对齐的认知链来指导模型生成可解释的推理路径。
- Result: FundusExpert在眼科问答任务中达到最佳性能,平均准确率比40B MedRegA提升26.6%。在零样本报告生成任务中实现77.0%的临床一致性,显著超越GPT-4o的47.6%。发现数据质量与模型能力之间的缩放定律(L ∝ N^0.068)。
- Conclusion: 通过整合区域级定位与诊断推理链,开发了一个可扩展的、临床对齐的MLLM,探索了弥合特定领域MLLM视觉-语言鸿沟的途径。FundusGen中的认知对齐注释提高了数据利用效率,为眼科AI诊断提供了新的解决方案。
q-bio.QM
[105] A tissue and cell-level annotated H&E and PD-L1 histopathology image dataset in non-small cell lung cancer
Joey Spronck,Leander van Eekelen,Dominique van Midden,Joep Bogaerts,Leslie Tessier,Valerie Dechering,Muradije Demirel-Andishmand,Gabriel Silva de Souza,Roland Nemeth,Enrico Munari,Giuseppe Bogina,Ilaria Girolami,Albino Eccher,Balazs Acs,Ceren Boyaci,Natalie Klubickova,Monika Looijen-Salamon,Shoko Vos,Francesco Ciompi
Main category: q-bio.QM
TL;DR: 研究团队发布了IGNITE数据工具包,这是首个包含转移部位H&E染色和PD-L1免疫组化手工标注的公开非小细胞肺癌数据集,包含155名患者的887个完全标注感兴趣区域,支持组织分割、细胞核检测和PD-L1阳性肿瘤细胞检测三项任务。
- Motivation: 现有的非小细胞肺癌数字病理数据集在范围上受限,缺乏临床常见转移部位的标注,且缺少PD-L1免疫组化等分子信息。这些限制阻碍了肿瘤免疫微环境特征的计算量化分析和生物标志物开发。
- Method: 构建了多染色、多中心、多扫描仪的IGNITE数据工具包,包含155名独特患者的887个完全标注的感兴趣区域。数据集支持三个互补任务:(1)H&E染色切片中16类组织区室的多类语义分割,涵盖原发和转移性NSCLC;(2)细胞核检测;(3)PD-L1 IHC切片中PD-L1阳性肿瘤细胞检测。
- Result: 成功发布了首个包含转移部位H&E染色手工标注和PD-L1免疫组化标注的公开NSCLC数据集,为肿瘤免疫微环境的计算分析和免疫治疗反应预测的生物标志物开发提供了重要资源。
- Conclusion: IGNITE数据工具包填补了现有数字病理数据集的重要空白,为非小细胞肺癌的计算病理学研究提供了全面的标注数据资源,特别是在转移部位分析和PD-L1表达检测方面具有重要价值,将推动免疫治疗生物标志物的发展。
cs.LG
[106] SADA: Stability-guided Adaptive Diffusion Acceleration
Ting Jiang,Yixiao Wang,Hancheng Ye,Zishan Shao,Jingwei Sun,Jingyang Zhang,Zekai Chen,Jianyi Zhang,Yiran Chen,Hai Li
Main category: cs.LG
TL;DR: SADA是一种新的扩散模型加速方法,通过统一的稳定性准则同时进行步骤级和令牌级稀疏化决策,在保持生成质量的同时实现了至少1.8倍的加速效果
- Motivation: 现有的扩散模型虽然在生成任务中表现出色,但由于迭代采样过程和二次注意力成本导致计算开销高。现有的无训练加速策略虽能减少采样时间,但相比原始基线保真度较低。作者假设这种保真度差距源于:(a)不同提示对应不同的去噪轨迹,(b)现有方法未考虑底层ODE公式及其数值解
- Method: 提出稳定性引导的自适应扩散加速(SADA)方法,通过单一稳定性准则统一步骤级和令牌级稀疏化决策来加速基于ODE的生成模型。SADA根据采样轨迹自适应分配稀疏度,并引入利用数值ODE求解器精确梯度信息的原理性近似方案
- Result: 在SD-2、SDXL和Flux上使用EDM和DPM++求解器的综合评估显示,相比未修改的基线,SADA实现了一致的≥1.8倍加速,同时保持最小的保真度损失(LPIPS≤0.10,FID≤4.5),显著优于先前方法。SADA还能无缝适配其他管道和模态:无需修改即可加速ControlNet,并以约0.01频谱图LPIPS的损失实现MusicLDM的1.8倍加速
- Conclusion: SADA成功解决了扩散模型加速中的保真度与效率权衡问题,通过自适应稀疏化策略和基于ODE的原理性近似,在多个模型和应用场景中实现了显著的加速效果,同时保持高质量的生成结果
[107] Dataset Distillation as Data Compression: A Rate-Utility Perspective
Youneng Bao,Yiping Liu,Zhuo Chen,Yongsheng Liang,Mu Li,Kede Ma
Main category: cs.LG
TL;DR: 本文提出了一种联合率-效用优化的数据集蒸馏方法,通过将合成样本参数化为可优化的潜在编码并使用轻量级解码器,在保持准确性的同时实现了比标准蒸馏方法高达170倍的压缩率。
- Motivation: 现代机器学习追求"规模即一切"的范式,需要越来越大的数据集和模型,导致计算和存储需求过高。现有的数据集蒸馏方法要么在固定存储预算下最大化性能,要么追求合适的合成数据表示来消除冗余,但没有联合优化这两个目标。
- Method: 提出联合率-效用优化的数据集蒸馏方法:将合成样本参数化为可优化的潜在编码,通过极轻量级网络解码;用量化潜在变量的香农熵作为率度量,任何现有蒸馏损失作为效用度量,通过拉格朗日乘数进行权衡;引入每类比特数(bpc)作为精确的存储度量标准。
- Result: 在CIFAR-10、CIFAR-100和ImageNet-128数据集上,该方法在保持可比准确性的情况下,比标准蒸馏方法实现了高达170倍的压缩率。在不同的bpc预算、蒸馏损失和骨干架构下,该方法始终建立了更好的率-效用权衡。
- Conclusion: 通过联合优化压缩率和模型性能,本文方法在数据集蒸馏领域建立了新的最优率-效用权衡标准,为大规模机器学习的存储和计算效率问题提供了有效解决方案。
[108] DNT: a Deeply Normalized Transformer that can be trained by Momentum SGD
Xianbiao Qi,Marco Chen,Wenjie Xiao,Jiaquan Ye,Yelin He,Chun-Guang Li,Zhouchen Lin
Main category: cs.LG
TL;DR: 提出了深度归一化Transformer(DNT),通过在关键位置集成归一化技术,使得Transformer可以用简单的动量SGD训练而不需要AdamW,同时保持相当的性能。
- Motivation: 现有Transformer通常需要AdamW等自适应学习率优化器进行训练,而不能使用简单的动量SGD,主要原因是梯度分布呈重尾分布。本文旨在解决这一限制,使Transformer能够用更简单的优化器有效训练。
- Method: 设计了深度归一化Transformer(DNT),在Transformer的适当位置策略性地集成归一化技术,有效调节各层的雅可比矩阵,平衡权重、激活及其交互的影响,从而使梯度分布更加集中。
- Result: DNT在两种流行的Transformer架构(ViT和GPT)上表现优于对应的基线模型,并且可以有效地用香草动量SGD进行训练,性能与用AdamW训练的Transformer相当。
- Conclusion: 通过精心设计的归一化技术,DNT成功解决了Transformer训练中对复杂优化器的依赖问题,证明了简单的动量SGD也能有效训练Transformer,为深度学习优化提供了新的思路。
[109] Joint Asymmetric Loss for Learning with Noisy Labels
Jialiang Wang,Xianming Liu,Xiong Zhou,Gangfeng Hu,Deming Zhai,Junjun Jiang,Xiangyang Ji
Main category: cs.LG
TL;DR: 本文提出了联合非对称损失(JAL)框架来解决带噪声标签的深度学习问题。通过将新提出的非对称均方误差(AMSE)替代传统对称被动损失,JAL在主动被动损失(APL)框架基础上实现了更好的拟合能力和鲁棒性。
- Motivation: 现有的对称损失函数在处理噪声标签时存在欠拟合问题,而新兴的非对称损失函数虽然理论上更优,但无法与先进的优化框架(如APL)兼容,限制了其应用潜力。因此需要开发能够结合非对称损失优势和先进优化框架的新方法。
- Method: 提出了非对称均方误差(AMSE)作为新的非对称损失函数,并严格建立了AMSE满足非对称条件的充要条件。然后将AMSE作为被动损失替代APL框架中的传统对称被动损失,构建了联合非对称损失(JAL)框架。
- Result: 大量实验证明了该方法在缓解标签噪声方面的有效性。JAL框架成功结合了非对称损失的理论优势和APL框架的优化能力,在噪声标签学习任务中表现出色。
- Conclusion: 成功将非对称损失扩展到复杂的被动损失场景,提出的JAL框架有效解决了现有方法的局限性,为带噪声标签的深度神经网络训练提供了新的解决方案。代码已开源供研究使用。
[110] On the Interaction of Compressibility and Adversarial Robustness
Melih Barsbey,Antônio H. Ribeiro,Umut Şimşekli,Tolga Birdal
Main category: cs.LG
TL;DR: 本文研究了神经网络压缩性与对抗鲁棒性之间的根本性权衡关系,发现压缩会在表示空间中产生高敏感方向,使对抗样本更容易攻击网络。
- Motivation: 现代神经网络需要同时满足训练数据拟合、泛化能力、参数效率和对抗鲁棒性等多个要求,但压缩性和鲁棒性之间的相互作用机制仍不清楚,缺乏统一的理论理解框架。
- Method: 开发了一个原理性框架来分析不同压缩形式(如神经元级稀疏性和谱压缩性)对对抗鲁棒性的影响,推导出简洁的鲁棒性界限,揭示神经元和谱压缩性如何通过影响学习表示来影响L∞和L2鲁棒性。
- Result: 理论分析表明压缩会在表示空间中诱导少数高敏感方向,对手可以利用这些方向构造有效扰动。实验验证了理论预测,发现这些脆弱性在对抗训练和迁移学习中仍然存在,并促成通用对抗扰动的出现。
- Conclusion: 研究揭示了结构化压缩性与鲁棒性之间存在根本性张力关系,为设计既高效又安全的模型提供了新的思路和方向。
[111] Large Learning Rates Simultaneously Achieve Robustness to Spurious Correlations and Compressibility
Melih Barsbey,Lucas Prieto,Stefanos Zafeiriou,Tolga Birdal
Main category: cs.LG
TL;DR: 本文发现大学习率能够同时实现模型的鲁棒性和资源效率,通过大学习率训练的模型在抵抗虚假相关性和网络压缩方面表现出色,并具有不变特征利用、类别分离和激活稀疏等良好的表示特性。
- Motivation: 现代机器学习模型需要同时具备鲁棒性和资源效率两个重要特性,但同时实现这两个目标仍然是一个挑战。作者希望找到一种能够同时满足这两个需求的训练策略。
- Method: 将大学习率作为同时实现鲁棒性(抵抗虚假相关性)和网络可压缩性的促进因素。通过在多种虚假相关数据集、模型和优化器上进行实验,比较大学习率与其他超参数和正则化方法的效果。
- Result: 大学习率训练的模型表现出优异的表示特性,包括不变特征利用、类别分离和激活稀疏。在多种实验设置下,大学习率在同时满足鲁棒性和压缩性方面优于其他超参数和正则化方法。研究还发现大学习率在标准分类任务中的成功可能是由于其处理训练数据中隐藏或稀有虚假相关性的能力。
- Conclusion: 大学习率是一个有效的训练策略,能够同时实现机器学习模型的鲁棒性和资源效率。这一发现为理解大学习率在标准分类任务中的成功提供了新的视角,并为开发既鲁棒又高效的机器学习模型提供了实用的指导。
cs.RO
[112] InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation
Shuai Yang,Hao Li,Yilun Chen,Bin Wang,Yang Tian,Tai Wang,Hanqing Wang,Feng Zhao,Yiyi Liao,Jiangmiao Pang
Main category: cs.RO
TL;DR: InstructVLA是一个端到端的视觉-语言-动作模型,通过新颖的VLA-IT训练范式,在保持大型视觉语言模型灵活推理能力的同时,实现了领先的机器人操作性能,并在多项基准测试中显著超越现有方法。
- Motivation: 现有的视觉-语言-动作(VLA)模型往往在多模态推理和精确动作生成之间做出牺牲,将能力局限于特定任务的操作数据,并且会遭受预训练视觉语言能力的灾难性遗忘问题。
- Method: 提出了Vision-Language-Action Instruction Tuning (VLA-IT)训练范式,采用混合专家适应的多模态训练方法,在标准VLM语料库和精心策划的65万样本VLA-IT数据集上联合优化文本推理和动作生成。
- Result: 在SimplerEnv任务上比SpatialVLA提升30.5%;在新提出的SimplerEnv-Instruct 80任务基准上,比微调的OpenVLA高出92%,比GPT-4o辅助的动作专家高出29%;在多模态任务上超越基线VLM,并展现出推理时间缩放能力。
- Conclusion: InstructVLA成功弥合了直观可操控的人机交互与高效策略学习之间的差距,证明了其在保持视觉语言推理能力的同时实现优秀机器人操作性能的潜力。
[113] CA-Cut: Crop-Aligned Cutout for Data Augmentation to Learn More Robust Under-Canopy Navigation
Robel Mamo,Taeyeong Choi
Main category: cs.RO
TL;DR: 本文提出了一种名为Crop-Aligned Cutout (CA-Cut)的新型数据增强方法,通过在作物行周围的空间分布区域随机遮罩输入图像来改善视觉导航模型在复杂农田环境下的鲁棒性,实验显示该方法可将预测误差降低高达36.9%。
- Motivation: 现有的视觉农田导航方法需要大量训练数据以确保可靠性,但数据收集成本高昂。传统的数据增强技术(如颜色抖动、高斯模糊等)在复杂的农田环境中(如遮挡、碎片、作物间距不均等)可能导致次优性能,因此需要开发更有效的数据增强方法。
- Method: 提出Crop-Aligned Cutout (CA-Cut)方法,该方法在输入图像中围绕作物行两侧进行空间分布的随机区域遮罩,鼓励训练模型即使在细粒度信息被遮挡时也能捕获高级上下文特征。通过将遮罩分布偏向作物行来模拟遮挡情况并提高模型鲁棒性。
- Result: 在公开玉米田数据集上的广泛实验表明,基于遮罩的增强技术有效模拟了遮挡情况,显著提高了视觉导航语义关键点预测的鲁棒性。CA-Cut方法实现了高达36.9%的预测误差降低,同时提高了跨不同环境的预测准确性和泛化能力。
- Conclusion: CA-Cut数据增强方法通过将遮罩分布偏向作物行,有效提升了视觉导航模型在复杂农田环境下的性能。消融研究确定了遮罩数量、大小和空间分布的最优配置,证明了该方法在提高模型鲁棒性和泛化能力方面的有效性。
cs.HC
[114] Assessing Medical Training Skills via Eye and Head Movements
Kayhan Latifzadeh,Luis A. Leiva,Klen Čopič Pucihar,Matjaž Kljun,Iztok Devetak,Lili Steblovnik
Main category: cs.HC
TL;DR: 研究使用眼动和头动追踪技术来评估医护人员在模拟婴儿接生训练中的技能水平,发现该技术能有效区分有经验和无经验的从业者
- Motivation: 传统的临床技能评估方法主要依赖主观评分,缺乏客观量化指标。研究者希望通过眼动和头动追踪技术开发出更客观、有效的技能评估方法,为临床培训提供补充性评估工具
- Method: 招募24名从业者参与模拟婴儿接生训练,使用商用眼动追踪眼镜收集数据,计算关键指标包括瞳孔反应率、注视持续时间和角速度等,通过这些特征来区分有经验和无经验的从业者
- Result: 头部相关特征在区分从业者技能水平方面表现最佳,F1得分达到0.85,AUC为0.86;瞳孔相关特征的F1得分为0.77,AUC为0.85。眼动和头动追踪技术能够有效区分有培训和未培训的从业者,特别是在分娩任务期间
- Conclusion: 眼动和头动追踪技术为临床环境中的隐性技能评估和培训提供了有效的计算模型基础,可以作为传统主观评分方法的有价值补充工具,支持更客观的临床技能评估
[115] Explainable AI for Collaborative Assessment of 2D/3D Registration Quality
Sue Min Cho,Alexander Do,Russell H. Taylor,Mathias Unberath
Main category: cs.HC
TL;DR: 本研究开发了首个专门用于2D/3D配准质量验证的人工智能框架,结合可解释性功能来增强手术导航中的质量保证,通过对比AI、人类、人机协作和可解释AI四种模式的评估发现,可解释性虽能提升用户信任但在整体性能上未超越单独的AI系统。
- Motivation: 随着手术数字化转型,2D/3D配准作为图像引导手术导航的关键技术偶尔会产生错误结果,而现有的基于可视化的策略不足以让人类可靠地检测配准错误。由于即使是微小的错位也可能导致翻修手术或不可逆的手术错误,因此迫切需要强大的质量保证机制。
- Method: 提出了首个专门训练用于2D/3D配准质量验证的人工智能框架,增强了可解释性功能来阐明模型的决策过程。通过算法中心和以人为中心的评估,系统比较了四种条件:仅AI、仅人类、人机协作和人类-可解释AI的组合。
- Result: 研究发现可解释性功能能够适度提高用户信任度和推翻AI错误的意愿,但在整体性能上并未超越单独的AI系统。人机协作和可解释AI在某些方面显示出潜力,但仍需进一步改进。
- Conclusion: 虽然当前的可解释AI方法在整体性能上未能超越单独的AI系统,但未来在算法设计和人机协作元素方面的扩展工作有望实现更强大的2D/3D配准质量保证。可解释性功能在增强用户信任和决策支持方面显示出价值。
cs.GR
[116] Controllable Video Generation: A Survey
Yue Ma,Kunyu Feng,Zhongyuan Hu,Xinyu Wang,Yucheng Wang,Mingzhe Zheng,Xuanhua He,Chenyang Zhu,Hongyu Liu,Yingqing He,Zeyu Wang,Zhifeng Li,Xiu Li,Wei Liu,Dan Xu,Linfeng Zhang,Qifeng Chen
Main category: cs.GR
TL;DR: 这篇论文是关于可控视频生成的综述,系统回顾了如何通过额外的非文本条件(如相机运动、深度图、人体姿态等)来增强现有文本到视频生成模型的控制能力,使用户能够更精确地控制视频生成过程。
- Motivation: 现有的视频生成基础模型主要基于文本到视频的生成方式,但仅仅依靠文本提示往往无法充分表达复杂的、多模态的、细粒度的用户需求,这使得用户难以使用当前模型精确控制视频生成。因此需要探索集成额外非文本条件来实现更可控的视频合成。
- Method: 本文采用综述方法,系统性地回顾可控视频生成领域的理论基础和最新进展。首先介绍关键概念和常用的开源视频生成模型,然后重点分析视频扩散模型中的控制机制,研究如何将不同类型的条件融入去噪过程来指导生成,最后根据控制信号类型对现有方法进行分类。
- Result: 论文对可控视频生成方法进行了系统分类,包括单条件生成、多条件生成和通用可控生成三大类。分析了如何通过相机运动、深度图、人体姿态等非文本条件来扩展预训练视频生成模型,提升了AIGC驱动的视频生成系统的灵活性和实用性。
- Conclusion: 通过集成多种非文本控制条件,可以显著提升视频生成的可控性和用户意图表达的准确性。这些方法为AIGC驱动的视频生成系统提供了更强的灵活性和实际应用价值,推动了可控视频生成领域的发展。
[117] StreamME: Simplify 3D Gaussian Avatar within Live Stream
Luchuan Song,Yang Zhou,Zhan Xu,Yi Zhou,Deepali Aneja,Chenliang Xu
Main category: cs.GR
TL;DR: StreamME是一种基于3D高斯散点的快速头像重建方法,能够实时从视频流中重建3D头像,无需预缓存数据,支持在线训练和多种下游应用。
- Motivation: 现有的3D头像重建方法通常需要预缓存数据且训练速度慢,无法满足实时应用的需求。为了实现快速的3D头像重建并保护面部隐私,同时减少VR系统和在线会议中的通信带宽,需要开发一种能够实时同步录制和重建的方法。
- Method: 基于3D高斯散点(3DGS)构建方法,去除了可变形3DGS中对MLP的依赖,仅依靠几何信息来提高对面部表情的适应速度。引入基于主要点的简化策略,在面部表面更稀疏地分布点云,在保持渲染质量的同时优化点数量。采用"即时训练"策略,实现从实时视频流中同步录制和重建头像。
- Result: 实现了无需预缓存数据的快速3D头像重建,显著提升了对面部表情的适应速度。方法具有出色的训练效率,能够实时处理视频流。可以直接应用于动画、卡通化、重光照等下游应用,同时在VR系统和在线会议中提供隐私保护和带宽优化。
- Conclusion: StreamME通过基于3D高斯散点的即时训练策略,成功实现了快速、实时的3D头像重建,为VR系统、在线会议等应用提供了高效的解决方案,同时支持多种下游应用场景。
cs.SD
[118] Audio-Vision Contrastive Learning for Phonological Class Recognition
Daiqi Liu,Tomás Arias-Vergara,Jana Hutter,Andreas Maier,Paula Andrea Pérez-Toro
Main category: cs.SD
TL;DR: 本文提出了一个结合实时磁共振成像(rtMRI)和语音信号的多模态深度学习框架,用于分类发音特征,通过对比学习方法在USC-TIMIT数据集上实现了0.81的F1分数,比单模态基线提升了0.23。
- Motivation: 准确的发音-音韵特征分类对理解人类言语产生和开发稳健的语音技术至关重要,特别是在临床环境中,有针对性的音素分析和治疗可以提高疾病诊断准确性和个性化康复效果。
- Method: 提出了一个多模态深度学习框架,结合实时磁共振成像(rtMRI)和语音信号来分类三个关键的发音维度:发音方式、发音部位和发声。使用四种音频/视觉配置进行评估:单模态rtMRI、单模态音频信号、多模态中间融合和基于对比学习的音频-视觉融合。
- Result: 在USC-TIMIT数据集上的实验结果显示,基于对比学习的方法达到了最先进的性能,平均F1分数为0.81,比单模态基线绝对提升了0.23。结果证实了对比表示学习在多模态发音分析中的有效性。
- Conclusion: 对比学习方法在多模态发音特征分类任务中表现出色,显著优于单模态和传统多模态融合方法,为语音技术和临床应用提供了有效的解决方案。研究代码和处理后的数据集将公开发布以支持未来研究。
Powered by Deepseek & arXiv Daily AI Enhanced