Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] nuCarla: A nuScenes-Style Bird's-Eye View Perception Dataset for CARLA Simulation
Zhijie Qiao,Zhong Cao,Henry X. Liu
Main category: cs.CV
TL;DR: nuCarla是一个在CARLA模拟器中构建的大规模BEV感知数据集,采用nuScenes格式,支持端到端自动驾驶的闭环仿真和测试。
- Motivation: 现有自动驾驶数据集主要来自真实世界的非交互环境,仅支持开环学习,缺乏标准化、大规模且经过验证的数据集来促进中间表示学习,导致闭环端到端模型性能落后于简单基于规则的基线。
- Method: 在CARLA模拟器中构建nuScenes风格的大规模BEV感知数据集nuCarla,具有与nuScenes完全兼容的格式、平衡的类别分布、可直接用于闭环仿真部署的特性。
- Result: nuCarla提供了高性能的BEV骨干网络,实现了最先进的检测结果,并为闭环端到端开发提供了开放基准。
- Conclusion: nuCarla通过提供数据和模型作为开放基准,显著加速了闭环端到端自动驾驶的发展,为可靠和安全感知的研究铺平了道路。
[2] Known Meets Unknown: Mitigating Overconfidence in Open Set Recognition
Dongdong Zhao,Ranxin Fang,Changtian Song,Zhihui Liu,Jianwen Xiang
Main category: cs.CV
TL;DR: 提出一个框架来缓解开放集识别中的过度自信问题,通过扰动不确定性估计和两阶段未知检测来提升性能
- Motivation: 开放集识别中,当未知样本与已知类语义相似时,模型会过度自信地将它们分类为已知类,这模糊了已知与未知类的决策边界
- Method: 框架包含两个组件:基于扰动的不确定性估计模块(通过参数扰动生成多样化预测并量化预测不确定性)和两阶段未知检测模块(利用估计的不确定性改进已知与未知类的区分)
- Result: 在三个公共数据集上的实验结果表明,该框架优于现有的开放集识别方法
- Conclusion: 所提出的框架能有效缓解因类间重叠引起的过度自信问题,显著提升开放集识别性能
[3] Temporal Object-Aware Vision Transformer for Few-Shot Video Object Detection
Yogesh Kumar,Anand Mishra
Main category: cs.CV
TL;DR: 提出了一种新颖的对象感知时序建模方法,用于少样本视频目标检测,通过选择性传播高置信度对象特征来提升检测精度和时序一致性。
- Motivation: 解决传统检测方法需要大量训练数据的问题,应对视频中遮挡和外观变化带来的时序一致性挑战,以及避免依赖计算昂贵的区域提议机制。
- Method: 采用过滤机制选择性传播高置信度对象特征,结合少样本训练的检测和分类头,实现高效特征传播和噪声抑制,不依赖显式对象管提议。
- Result: 在5-shot设置下,AP提升分别为:FSVOD-500(3.7%)、FSYTV-40(5.3%)、VidOR(4.3%)、VidVRD(4.5%)。1-shot、3-shot和10-shot配置也显示持续改进。
- Conclusion: 该方法在少样本视频目标检测中实现了显著的性能提升,通过对象感知时序建模有效解决了时序一致性和新颖对象泛化问题。
[4] FusionFM: All-in-One Multi-Modal Image Fusion with Flow Matching
Huayi Zhu,Xiu Shu,Youqiang Xiong,Qiao Liu,Rui Chen,Di Yuan,Xiaojun Chang,Zhenyu He
Main category: cs.CV
TL;DR: 提出了一种基于流匹配的图像融合方法,通过直接概率传输从源模态到融合图像分布,提高采样效率和结构一致性,同时引入伪标签选择和融合精炼模块来提升性能。
- Motivation: 当前多模态图像融合方法依赖任务特定模型,训练成本高且可扩展性有限;生成方法虽然提供统一建模视角,但采样轨迹复杂导致推理缓慢。
- Method: 采用流匹配范式实现从源模态到融合图像的直接概率传输,收集多个SOTA模型融合结果作为先验,使用任务感知选择函数选择可靠伪标签,并引入融合精炼模块分解和增强退化组件。
- Result: 在多种融合任务上取得竞争性性能,显著提高采样效率,保持轻量级模型设计。
- Conclusion: 该方法为多模态图像融合提供了一种高效统一的解决方案,平衡了性能、效率和可扩展性。
[5] A Trajectory-free Crash Detection Framework with Generative Approach and Segment Map Diffusion
Weiying Shen,Hao Yu,Yu Dong,Pan Liu,Yu Han,Xin Wen
Main category: cs.CV
TL;DR: 提出了一种基于扩散模型的两阶段无轨迹碰撞检测框架,通过生成合理的未来路段地图来识别碰撞事故,无需依赖车辆轨迹数据。
- Motivation: 为了解决轨迹获取和车辆跟踪的局限性,直接利用记录个体级交通动态数据的路段地图进行碰撞检测。
- Method: 第一阶段使用Mapfusion扩散模型进行路段地图生成,通过噪声添加和去噪过程,结合时序嵌入组件捕获地图序列的时间动态,并利用ControlNet融入背景上下文增强生成控制;第二阶段通过比较监控路段地图与扩散模型生成结果来检测碰撞。
- Result: 在非碰撞车辆运动数据上训练的Mapfusion能够基于学习到的运动模式生成真实的路段演化地图,在不同采样间隔下保持鲁棒性,真实世界碰撞实验验证了该方法的有效性。
- Conclusion: 提出的两阶段方法能够准确检测碰撞事故,为主动安全管理策略和交通效率提升提供了有效解决方案。
[6] Synergizing Multigrid Algorithms with Vision Transformer: A Novel Approach to Enhance the Seismic Foundation Model
Huiwen Wu,Shuo Zhang,Yi Liu,Hongbin Ye
Main category: cs.CV
TL;DR: 提出了一种针对地震数据的自适应双网格基础模型训练策略(ADATG),通过希尔伯特编码和频谱分解来有效处理地震数据中的高频和低频特征。
- Motivation: 由于地震数据具有独特的特征,现有的视觉transformer无法有效捕捉地震数据中的高频和低频信息,需要专门的地震基础模型预训练方法。
- Method: 采用频谱分解分离高频和低频分量,使用分层希尔伯特编码表示数据,并提出自适应训练策略:先关注粗粒度信息,再逐步细化到细粒度特征。
- Result: 广泛的实验证明了该训练方法的有效性和效率。
- Conclusion: 这项研究强调了基于地震图像中高频和低频特征独特特性的数据编码和训练策略的重要性,有助于增强视觉地震基础模型的预训练效果。
[7] Passive Dementia Screening via Facial Temporal Micro-Dynamics Analysis of In-the-Wild Talking-Head Video
Filippo Cenacchi. Longbing Cao,Mitchell McEwan,Deborah Richards
Main category: cs.CV
TL;DR: 该论文开发了一种基于面部微动态分析的被动式痴呆筛查方法,通过分析眨眼动态、嘴部运动、注视变化和头部微调等面部时序运动特征,无需语言或文本即可进行早期神经认知变化检测。
- Motivation: 现有痴呆筛查方法主要依赖语音或脚本化访谈,限制了在临床外的应用,且预测结果与语言和转录紧密耦合。本文旨在开发一种无需语言干预、可跨设备、话题和文化的大规模被动筛查方法。
- Method: 通过稳定面部信号,将面部微运动转换为可解释的微动态时间序列,平滑处理后提取短窗口的紧凑统计特征。分析运动在多个通道中的分布而非幅度,使每个通道的效应透明化。
- Result: 在YT DemTalk数据集(300个视频片段)上,消融实验显示注视变异性和嘴部/下颌动态是最具信息量的线索,轻量级分类器实现了AUROC 0.953、AP 0.961、F1分数0.851和准确率0.857的痴呆预测性能。
- Conclusion: 面部时序微动态分析为被动式痴呆筛查提供了有效方法,无需语言干预即可实现高精度检测,具有在真实环境中大规模应用的潜力。
[8] Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark
Xinxin Liu,Zhaopan Xu,Kai Wang,Yong Jae Lee,Yuzhang Shang
Main category: cs.CV
TL;DR: 提出了Gen-ViRe基准测试框架,用于评估视频生成模型作为推理器的能力,填补了现有基准无法衡量链式帧推理的空白。
- Motivation: 现有视频生成基准主要关注保真度或对齐度,无法评估链式帧推理的核心认知能力,如多步规划、算法逻辑和抽象模式外推,这阻碍了对模型能力的系统理解和改进指导。
- Method: 基于认知科学和真实AI应用,将链式帧推理分解为六个认知维度和24个子任务,通过多源数据整理、最小提示协议和混合VLM辅助评估来量化视频模型的推理能力。
- Result: 在SOTA系统上的实验揭示了视觉质量与推理深度之间的显著差距,建立了基线和诊断工具。
- Conclusion: Gen-ViRe提供了首个对视频模型作为推理器的定量评估,为推进真正的世界模拟器提供了基准和诊断工具。
[9] RSPose: Ranking Based Losses for Human Pose Estimation
Muhammed Can Keles,Bedrettin Cetinkaya,Sinan Kalkan,Emre Akbas
Main category: cs.CV
TL;DR: 该论文提出基于排序的损失函数来解决基于热图的人体姿态估计中的三个主要问题:MSE损失无法有效提升关节定位精度、热图的空间和类别不平衡、以及评估指标与损失函数之间的差异。
- Motivation: 传统热图方法存在三个核心问题:(1) MSE损失对像素偏差的惩罚过于平均,无法专注于精确定位关节峰值;(2) 热图存在空间和类别不平衡;(3) 评估指标(mAP)与损失函数之间存在差异。
- Method: 提出基于排序的损失函数,通过理论分析和实证研究证明这些损失优于常用的热图损失(MSE、KL散度),能够显著提高置信度分数与定位质量之间的相关性。
- Result: RSPose在COCO-val数据集上达到79.9 mAP,超越之前的最优方法;同时将SimCC Resnet-50在COCO-val上的AP提升了1.5,达到73.6 AP。
- Conclusion: 这是首个提出与评估指标(mAP)对齐的损失函数的人体姿态估计方法,在多个数据集和不同热图维度上都表现出有效性。
[10] Segmenting Collision Sound Sources in Egocentric Videos
Kranti Kumar Parida,Omar Emara,Hazel Doughty,Dima Damen
Main category: cs.CV
TL;DR: 提出了碰撞声源分割(CS3)新任务,旨在根据音频在视觉输入中分割产生碰撞声的物体。针对第一人称视频中的挑战,开发了弱监督方法,利用基础模型和手部物体线索,在两个新基准上显著优于基线方法。
- Motivation: 受人类多感官感知能力启发,希望让机器能够通过碰撞声音识别产生声音的物体。第一人称视频中声音清晰但视觉场景杂乱、物体小、交互短暂,这带来了独特挑战。
- Method: 提出弱监督的音频条件分割方法,利用CLIP和SAM2基础模型,并整合第一人称线索(如手中的物体)来识别可能的碰撞声源物体。
- Result: 在两个新提出的CS3基准(EPIC-CS3和Ego4D-CS3)上,mIoU指标分别比竞争基线高出3倍和4.7倍。
- Conclusion: 该方法成功解决了碰撞声源分割任务,证明了利用基础模型和第一人称线索在复杂场景中识别声源物体的有效性。
[11] GRLoc: Geometric Representation Regression for Visual Localization
Changyang Li,Xuejian Ma,Lixiang Liu,Zhan Li,Qingan Yan,Yi Xu
Main category: cs.CV
TL;DR: 提出了一种几何基础的位置回归方法GRR,通过预测解耦的几何表示(光线方向和点云图)来估计相机姿态,而不是直接回归6-DoF姿态,在多个数据集上达到最先进性能。
- Motivation: 传统绝对位置回归方法作为黑盒直接回归6-DoF姿态,容易记忆训练视图而非理解3D场景几何。需要更几何化的替代方案。
- Method: 将位置回归重新表述为几何表示回归,预测两个解耦的几何表示:光线方向估计相机旋转,点云图估计相机平移,然后通过可微分解器恢复最终姿态。
- Result: 在7-Scenes和Cambridge Landmarks数据集上实现了最先进的性能,验证了建模逆渲染过程是更鲁棒的绝对姿态估计路径。
- Conclusion: 通过将视觉到几何的映射与最终姿态计算分离,引入强几何先验,解耦旋转和平移预测能显著提升性能,几何表示回归是更稳健的绝对姿态估计方法。
[12] H-CNN-ViT: A Hierarchical Gated Attention Multi-Branch Model for Bladder Cancer Recurrence Prediction
Xueyang Li,Zongren Wang,Yuliang Zhang,Zixuan Pan,Yu-Jen Chen,Nishchal Sapkota,Gelei Xu,Danny Z. Chen,Yiyu Shi
Main category: cs.CV
TL;DR: 提出了一个用于膀胱癌复发预测的多序列MRI数据集和H-CNN-ViT模型,该模型通过分层门控注意力机制融合全局和局部特征,在自建数据集上达到78.6%的AUC。
- Motivation: 膀胱癌复发率高达78%,术后监测至关重要。多序列增强MRI是常用检测手段,但术后组织改变使判读困难,且缺乏专门的复发评估数据集阻碍了AI辅助诊断工具的发展。
- Method: 首先构建了专门用于膀胱癌复发预测的多序列多模态MRI数据集,然后提出H-CNN-ViT模型,采用分层门控注意力多分支架构,基于上下文需求选择性加权全局(ViT)和局部(CNN)路径特征,实现平衡的目标特征融合。
- Result: 在自建数据集上评估,H-CNN-ViT模型达到78.6%的AUC,超越了现有最先进模型。
- Conclusion: 构建了膀胱癌复发预测的专用数据集,提出的H-CNN-ViT模型通过有效融合多模态MRI特征,显著提升了复发预测性能,为临床AI辅助诊断提供了有力工具。
[13] QwenCLIP: Boosting Medical Vision-Language Pretraining via LLM Embeddings and Prompt tuning
Xiaoyang Wei,Camille Kurtz,Florence Cloppet
Main category: cs.CV
TL;DR: QwenCLIP是一个视觉语言框架,用基于大语言模型的嵌入模块替换CLIP的文本编码器,通过可学习提示增强跨模态对齐,解决了CLIP在长文本处理上的限制。
- Motivation: CLIP的文本编码器仅支持77个token,限制了其在信息丰富的放射学报告中的表达能力。现有的领域特定编码器虽然有所改进,但仍受限于512个token的输入长度和相对浅层的语义理解。
- Method: 用大语言模型(如Qwen3-Embedding)替换CLIP的文本编码器,引入可学习提示来增强跨模态对齐,利用LLM的扩展上下文窗口和更丰富的表示能力。
- Result: QwenCLIP能够从长格式临床文本中捕获全面的医学语义,显著改善了医学图像-文本对齐和在放射学基准测试中的下游性能。
- Conclusion: 通过结合大语言模型的优势,QwenCLIP有效解决了CLIP在长文本医学报告处理中的限制,为医学视觉语言任务提供了更强大的解决方案。
[14] Hybrid Convolution Neural Network Integrated with Pseudo-Newton Boosting for Lumbar Spine Degeneration Detection
Pandiyaraju V,Abishek Karthik,Jaspin K,Kannan A,Jaime Lloret
Main category: cs.CV
TL;DR: 提出了一种结合EfficientNet和VGG19的混合模型架构,用于腰椎退变分类,通过伪牛顿增强层和稀疏诱导特征减少层提升性能。
- Motivation: 传统迁移学习方法在医学图像高维背景下存在局限性,无法充分利用详细的解剖特征,需要改进特征选择和表示能力。
- Method: 采用EfficientNet和VGG19混合架构,加入伪牛顿增强层进行特征权重优化,稀疏诱导层去除冗余特征,形成多层框架。
- Result: 模型性能显著提升:精度0.9,召回率0.861,F1分数0.88,损失0.18,准确率88.1%,优于基准模型EfficientNet。
- Conclusion: 该架构克服了传统迁移学习的限制,为医学图像自动诊断工具的发展做出了贡献。
[15] VLMs Guided Interpretable Decision Making for Autonomous Driving
Xin Hu,Taotao Jing,Renran Tian,Zhengming Ding
Main category: cs.CV
TL;DR: 本文提出了一种新方法,将视觉语言模型从直接决策生成器转变为语义增强器,通过融合视觉和语言特征实现更准确的自动驾驶决策和可解释的文本解释。
- Motivation: 现有基于视觉语言模型的自动驾驶方法依赖手工提示且性能不稳定,限制了在实际场景中的鲁棒性和泛化能力。
- Method: 利用视觉语言模型的场景理解能力增强视觉基准,提出多模态交互架构融合视觉和语言特征,并设计后处理精化模块提升预测可靠性。
- Result: 在两个自动驾驶基准测试上的广泛实验表明,该方法达到了最先进的性能。
- Conclusion: 该方法为将视觉语言模型集成到可靠且可解释的自动驾驶系统中提供了一个有前景的方向。
[16] Revisiting Data Scaling Law for Medical Segmentation
Yuetan Chu,Zhongyi Han,Gongning Luo,Xin Gao
Main category: cs.CV
TL;DR: 本文研究了医学解剖分割中数据规模与性能的幂律缩放关系,提出了基于图像配准的变形增强方法,显著提高了数据利用效率,超越了标准幂律缩放趋势。
- Motivation: 医学解剖分割领域的数据缩放规律尚未充分探索,而解剖结构在图像间具有拓扑同构性,这为通过变形增强策略改善数据缩放规律提供了动机。
- Method: 分析了15个语义任务和4种成像模态的缩放规律,评估了随机弹性变形和配准引导变形两种增强策略,并提出了基于图像配准生成微分同胚映射的新方法。
- Result: 实验结果表明,配准和生成的变形增强都显著提高了数据利用效率,其中生成的变形方法实现了更优的性能和更快的收敛速度。
- Conclusion: 这项工作为理解医学图像分割的可扩展性和拓扑变化影响提供了见解,有助于以更低的标注和计算成本开发更高效的模型。
[17] Uni-Hema: Unified Model for Digital Hematopathology
Abdul Rehman,Iqra Rasool,Ayesha Imran,Mohsen Ali,Waqas Sultani
Main category: cs.CV
TL;DR: Uni-Hema是一个用于数字血液病理学的多任务统一模型,整合了检测、分类、分割、形态预测和跨多种疾病的推理功能,在46个公开数据集上训练,性能优于单任务模型。
- Motivation: 现有血液病理学模型(单任务、视觉语言、WSI优化或单细胞模型)无法提供跨疾病复杂性的统一多任务多模态推理。
- Method: 基于Hema-Former多模态模块,在46个公开数据集(70万+图像和2.1万+问答对)上训练,桥接视觉和文本表示,支持不同粒度的多种任务。
- Result: Uni-Hema在多种血液学任务上达到或优于单任务单数据集模型的性能,并提供单细胞级别的可解释形态学见解。
- Conclusion: 该框架为多任务多模态数字血液病理学建立了新标准。
[18] Weakly Supervised Ephemeral Gully Detection In Remote Sensing Images Using Vision Language Models
Seyed Mohamad Ali Tousi,John A. Lory,G. N. DeSouza
Main category: cs.CV
TL;DR: 提出了首个弱监督管道用于检测短暂沟壑,利用视觉语言模型减少人工标注负担,并发布了首个半监督检测数据集。
- Motivation: 短暂沟壑是农业领域最令人担忧的土壤侵蚀现象之一,其短暂的时间周期增加了自动检测的难度,且缺乏准确的标注数据限制了机器学习方法的应用。
- Method: 使用视觉语言模型的预训练知识,采用师生模型框架,教师模型从VLM生成的噪声标签中学习,学生模型通过弱监督使用教师生成的标签和噪声感知损失函数进行学习。
- Result: 实验结果表明该方法相比VLM和标签模型本身具有更优越的性能,通过弱监督训练学生模型取得了更好的效果。
- Conclusion: 该方法有效解决了短暂沟壑检测中标注数据稀缺的问题,为土壤侵蚀监测提供了可行的弱监督解决方案。
[19] Temporal Realism Evaluation of Generated Videos Using Compressed-Domain Motion Vectors
Mert Onur Cakiroglu,Idil Bilge Altun,Zhihe Lu,Mehmet Dalkilic,Hasan Kurban
Main category: cs.CV
TL;DR: 提出基于压缩视频流中运动向量的可扩展框架,用于评估生成视频的时间真实性,并通过MV-RGB融合提升下游分类性能。
- Motivation: 当前生成视频模型在时间真实性方面存在弱点,大多数评估指标优先考虑空间外观而对运动敏感性有限。
- Method: 使用H.264和HEVC等标准从压缩视频流中提取运动向量,计算真实视频与生成视频MV统计之间的KL、JS和Wasserstein散度,并研究MV-RGB融合方法。
- Result: 实验显示生成视频与真实视频存在系统性差异:Pika和SVD在熵基散度上最接近真实视频,MV-sum统计偏好VC2和Text2Video-Zero,CogVideo偏差最大。MV-RGB融合显著提升分类准确率。
- Conclusion: 压缩域运动向量为诊断生成视频运动缺陷和增强判别模型的时间推理提供了有效的时间信号。
[20] SAE-MCVT: A Real-Time and Scalable Multi-Camera Vehicle Tracking Framework Powered by Edge Computing
Yuqiang Lin,Sam Lockyer,Florian Stanek,Markus Zarbock,Adrian Evans,Wenbin Li,Nic Zhang
Main category: cs.CV
TL;DR: SAE-MCVT是一个可扩展的实时多摄像头车辆跟踪框架,通过边缘设备处理视频流并传输轻量级元数据到中央工作站,实现城市规模部署。
- Motivation: 现有MCVT研究过于关注准确性而忽视实时性和可扩展性,这在城市规模应用中尤为重要,因为摄像头数量增加会带来挑战。
- Method: 系统包含边缘设备和中央工作站。边缘端处理RTSP视频流,进行目标检测、跟踪、地理映射和特征提取,只传输车辆位置和深度外观特征。中央端基于自监督相机链接模型计算跨摄像头关联。
- Result: 在RoundaboutHD数据集上,SAE-MCVT能在2K 15 FPS视频流上保持实时操作,IDF1得分为61.2。
- Conclusion: 这是第一个适用于城市规模部署的可扩展实时MCVT框架。
[21] Mind the Gap: Evaluating LLM Understanding of Human-Taught Road Safety Principles
Chalamalasetti Kranti
Main category: cs.CV
TL;DR: 评估多模态大语言模型对道路安全概念的理解能力,发现这些模型在安全推理方面存在困难,揭示了人类学习与模型解释之间的差距。
- Motivation: 评估AI系统(特别是自动驾驶车辆中的多模态大语言模型)对道路安全规范的理解能力,确保它们能够像人类一样遵守道路安全规范。
- Method: 从学校教科书中收集描绘交通标志和道路安全规范的图像数据集,在零样本设置下评估模型的能力。
- Result: 初步结果显示,这些模型在安全推理方面表现不佳,存在人类学习与模型解释之间的性能差距。
- Conclusion: 多模态大语言模型在理解道路安全概念方面存在显著不足,需要进一步研究来弥合这些性能差距。
[22] Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding
Qingyang Yan,Guangyao Chen,Yixiong Zou
Main category: cs.CV
TL;DR: 本文提出CuRPO方法,通过课程学习策略优化视觉定位任务中的CoT推理,解决了RL微调导致性能下降的问题,在多个数据集上显著提升性能。
- Motivation: 发现基于强化学习的CoT推理在视觉定位任务中会随着输出变长或复杂而性能下降,且数据集规模增加并不总能提升性能,需要更有效的训练策略。
- Method: 提出课程式相对策略优化(CuRPO),利用CoT长度和广义交并比(gIoU)奖励作为复杂度指标,从简单到困难逐步组织训练数据。
- Result: 在RefCOCO、RefCOCO+、RefCOCOg和LISA数据集上表现优异,相比现有方法提升显著,在RefCOCO上达到+12.52 mAP的提升,且在少样本学习中表现出色。
- Conclusion: CuRPO方法有效解决了CoT推理在视觉定位中的性能下降问题,提供了一种高效且鲁棒的训练策略,特别适用于文本描述模糊复杂的任务。
[23] Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
Noam Glazner,Noam Tsfaty,Sharon Shalev,Avishai Weizman
Main category: cs.CV
TL;DR: 提出基于聚类的帧选择策略,通过在数据集划分前对视觉相似帧进行分组,减少信息泄露,生成更具代表性、平衡和可靠的数据集划分。
- Motivation: 解决视频衍生帧数据集中存在的信息泄露问题,传统随机划分方法可能导致训练集和测试集包含高度相似的帧,影响模型评估的可靠性。
- Method: 基于聚类的帧选择策略,首先对视频帧进行视觉相似性聚类,然后在聚类级别进行数据集划分,确保训练、验证和测试集之间的视觉多样性。
- Result: 该方法能够生成更具代表性、平衡和可靠的数据集划分,有效减少信息泄露风险,提高模型评估的准确性。
- Conclusion: 基于聚类的帧选择策略是解决视频帧数据集中信息泄露问题的有效方法,能够提升数据集划分的质量和模型评估的可靠性。
[24] Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers
Zachary Shinnick,Liangze Jiang,Hemanth Saratchandran,Damien Teney,Anton van den Hengel
Main category: cs.CV
TL;DR: 使用程序生成的无视觉语义内容数据预训练视觉Transformer,可显著提高数据效率、收敛速度和下游性能
- Motivation: 探索通过无视觉语义内容的程序生成数据来为视觉Transformer注入通用归纳偏置,以提升其跨模态能力
- Method: 使用形式语法等简单算法生成无视觉语义内容的数据,在标准图像训练前进行预训练,绕过视觉patch嵌入机制
- Result: 仅用1%训练预算的程序生成数据就能提升ImageNet-1k准确率1.7%,相当于28%ImageNet-1k数据的效果
- Conclusion: 程序生成数据预训练为数据高效和领域无关的预训练策略提供了有前景的新路径
[25] Single Tensor Cell Segmentation using Scalar Field Representations
Kevin I. Ruiz Vargas,Gabriel G. Galdino,Tsang Ing Ren,Alexandre L. Cunha
Main category: cs.CV
TL;DR: 提出一种基于标量场的细胞图像分割方法,通过训练网络学习连续标量场,使用分水岭方法进行分割,无需正则化即可获得稳健的分割结果。
- Motivation: 目标是学习图像域上的连续标量场,使其分割能够为图像中的细胞产生稳健的实例分割结果,同时简化实现、降低训练和推理时间。
- Method: 使用泊松偏微分方程和热方程稳态解的扩散模型作为标量场,通过最小化场残差进行训练,无需正则化,采用分水岭方法进行分割。
- Result: 在公共数据集上取得了有竞争力的结果,能够减少训练数据中异常值的不利影响,实现清晰的细胞边界分割。
- Conclusion: 这种新颖、简单但具有几何洞察力的方法能够实现优秀的细胞分割结果,特别适合边缘计算场景。
[26] EchoAgent: Guideline-Centric Reasoning Agent for Echocardiography Measurement and Interpretation
Matin Daghyani,Lyuyang Wang,Nima Hashemi,Bassant Medhat,Baraa Abdelsamad,Eros Rojas Velez,XiaoXiao Li,Michael Y. C. Tsang,Christina Luong,Teresa S. M. Tsang,Purang Abolmaesumi
Main category: cs.CV
TL;DR: EchoAgent是一个用于心脏超声分析的框架,通过LLM协调专用视觉工具,实现结构化、可解释的自动化分析,支持视频级推理和指南测量分析。
- Motivation: 当前深度学习模型无法支持心脏超声所需的视频级推理和指南测量分析,需要开发能够提供结构化、可解释自动化的解决方案。
- Method: EchoAgent在LLM控制下协调专用视觉工具,执行时间定位、空间测量和临床解释,并引入了测量可行性预测模型来自主选择工具。
- Result: EchoAgent在时空视频分析复杂度增加的情况下仍能获得准确、可解释的结果,输出基于视觉证据和临床指南,支持透明度和可追溯性。
- Conclusion: 这项工作证明了通过任务专用工具和全视频级自动化,实现基于指南的心脏超声视频分析的可行性,为心脏超声可信AI设定了新方向。
[27] Learning Skill-Attributes for Transferable Assessment in Video
Kumar Ashutosh,Kristen Grauman
Main category: cs.CV
TL;DR: 提出CrossTrainer方法,通过发现跨运动通用的技能属性(如平衡、控制、手部位置),训练多模态语言模型为视频生成可操作的反馈和熟练度评估,在跨运动和同运动设置下显著优于现有技术。
- Motivation: 解决当前技能评估模型局限于单一运动、专家级监督成本高且稀缺的问题,探索可迁移的视频表示方法。
- Method: 发现跨运动通用的技能属性,训练多模态语言模型生成针对新视频的可操作反馈和熟练度评估。
- Result: 在多个数据集上验证,跨运动和同运动设置下相对现有技术提升高达60%,视频表示泛化能力显著优于现有技术。
- Conclusion: 通过抽象出指示人类技能的共享行为,所提出的视频表示方法比现有技术泛化能力更强,丰富了当今的多模态大语言模型。
[28] CD-DPE: Dual-Prompt Expert Network based on Convolutional Dictionary Feature Decoupling for Multi-Contrast MRI Super-Resolution
Xianming Gu,Lihui Wang,Ying Cao,Zeyu Deng,Yingfeng Ou,Guodong Hu,Yi Chen
Main category: cs.CV
TL;DR: 提出基于卷积字典特征解耦的双提示专家网络(CD-DPE),用于多对比度MRI超分辨率重建,通过特征解耦和双提示融合策略有效利用参考图像纹理信息。
- Motivation: 多对比度MRI超分辨率重建面临对比度差异导致的特征集成困难问题,现有方法难以有效利用参考图像纹理指导目标图像重建。
- Method: 采用卷积字典特征解耦模块(CD-FDM)分离跨对比度和内部对比度特征,结合双提示特征融合专家模块(DP-FFEM)通过频率提示和自适应路由提示实现特征融合。
- Result: 在公共多对比度MRI数据集上超越现有最优方法,在未见数据集上表现出强泛化能力。
- Conclusion: CD-DPE方法能有效解决多对比度MRI超分辨率中的特征集成挑战,重建出更精细的细节。
[29] RISE: Single Static Radar-based Indoor Scene Understanding
Kaichen Zhou,Laura Dodds,Sayed Saad Afzal,Fadel Adib
Main category: cs.CV
TL;DR: RISE是首个基于单静态雷达的室内场景理解基准系统,通过利用多径反射的几何线索,实现了布局重建和物体检测,在保护隐私的同时显著提升了性能。
- Motivation: 解决室内场景理解中光学传感器存在的遮挡问题和隐私风险,同时克服毫米波雷达低空间分辨率带来的几何推理困难。
- Method: 提出双角度多径增强方法,显式建模到达角和离开角来恢复二次反射;采用模拟到现实的分层扩散框架将碎片化雷达响应转换为完整场景理解。
- Result: 在布局重建方面将Chamfer距离降低60%至16厘米;首次实现基于毫米波的物体检测,达到58% IoU。
- Conclusion: RISE为使用单静态雷达进行几何感知和隐私保护的室内场景理解建立了新的基础。
[30] MRI Plane Orientation Detection using a Context-Aware 2.5D Model
SangHyuk Kim,Daniel Haehn,Sumientra Rampersad
Main category: cs.CV
TL;DR: 开发了一个2.5D上下文感知模型,用于自动识别MRI切片的解剖平面方向(轴向、冠状、矢状),准确率达99.49%,比2D模型减少60%错误。该模型还能提升脑肿瘤检测任务的准确性。
- Motivation: 自动系统难以识别MRI切片的解剖平面方向,缺失的方向元数据会复杂化分析、增加数据集合并时的领域偏移,并降低诊断分类器的准确性。
- Method: 采用2.5D上下文感知模型,利用多切片信息避免孤立切片的歧义,实现稳健特征学习。在3D切片序列和静态2D图像上训练模型。
- Result: 2.5D模型准确率达99.49%,比2D参考模型的98.74%提升显著,错误减少60%。在脑肿瘤检测任务中,基于不确定度评分的门控策略将准确率从97.0%提升至98.0%,误诊减少33.3%。
- Conclusion: 2.5D上下文对MRI平面方向识别至关重要,生成的元数据能有效提升下游诊断任务的性能。模型已集成到开源交互式Web应用中。
[31] LINGUAL: Language-INtegrated GUidance in Active Learning for Medical Image Segmentation
Md Shazid Islam,Shreyangshu Bera,Sudipta Paul,Amit K. Roy-Chowdhury
Main category: cs.CV
TL;DR: LINGUAL是一个基于自然语言指导的主动学习框架,通过将专家指令转换为可执行程序来自动执行分割任务,显著减少标注时间和认知负担。
- Motivation: 传统主动学习在医学图像分割中面临边界模糊、标注成本高和认知负担重的问题,需要更高效的方法来减少专家标注工作量。
- Method: 使用自然语言指令,通过上下文学习将其转换为可执行程序,自动执行相应的子任务序列,无需人工干预。
- Result: 在主动域适应任务中,LINGUAL达到或优于传统主动学习基线,同时将估计标注时间减少约80%。
- Conclusion: 语言指导为医学图像分割提供了一种高效的替代方案,显著降低了标注成本和认知负担。
[32] Training-free Detection of AI-generated images via Cropping Robustness
Sungik Choi,Hankook Lee,Moontae Lee
Main category: cs.CV
TL;DR: WaRPAD是一种无需训练的AI生成图像检测方法,利用自监督模型对图像裁剪增强的鲁棒性,通过分析图像嵌入对高频扰动的敏感性来检测AI生成图像。
- Motivation: 随着视觉生成模型的快速发展,AI生成图像检测变得至关重要。研究者希望开发一种无需训练、不依赖特定数据集知识的通用检测方法,利用自监督模型在训练过程中学到的对图像裁剪操作的鲁棒性。
- Method: WaRPAD首先定义基础评分函数,量化图像嵌入对通过Haar小波分解提取的高频方向扰动的敏感性。为了模拟对裁剪增强的鲁棒性,将图像缩放到模型输入尺寸的倍数,分割成小块,计算每个块的基础评分,最后对所有块的评分取平均得到最终检测分数。
- Result: 在包含不同分辨率和领域的真实数据集以及23种不同生成模型生成的图像上进行验证,WaRPAD始终实现竞争性性能,并对测试时损坏表现出强鲁棒性。
- Conclusion: 由于对RandomResizedCrop的不变性是自监督模型的常见训练方案,WaRPAD可适用于各种自监督模型,为AI生成图像检测提供了一种有效且无需训练的解决方案。
[33] FashionMAC: Deformation-Free Fashion Image Generation with Fine-Grained Model Appearance Customization
Rong Zhang,Jinxiao Li,Jingnan Wang,Zhiwen Zuo,Jianfeng Dong,Wei Li,Chi Wang,Weiwei Xu,Xun Wang
Main category: cs.CV
TL;DR: 提出FashionMAC框架,无需进行服装变形即可生成高质量、可控的时尚展示图像,通过区域自适应解耦注意力机制实现细粒度外观控制。
- Motivation: 解决现有方法在服装细节保持和模型外观细粒度控制方面的不足,避免服装纹理失真问题。
- Method: 采用基于扩散的无变形框架,直接外推从着装人物分割的服装;提出区域自适应解耦注意力机制和链式掩码注入策略。
- Result: 实验验证了该框架相比现有最先进方法的优越性能,显著提升了视觉保真度和可控性。
- Conclusion: FashionMAC框架成功实现了高质量、可控的时尚展示图像生成,有效解决了服装细节保持和细粒度控制的关键挑战。
[34] Flood-LDM: Generalizable Latent Diffusion Models for rapid and accurate zero-shot High-Resolution Flood Mapping
Sun Han Neo,Sachith Seneviratne,Herath Mudiyanselage Viraj Vidura Herath,Abhishek Saha,Sanka Rasnayaka,Lucy Amanda Marshall
Main category: cs.CV
TL;DR: 提出了一种基于潜在扩散模型的洪水地图超分辨率方法,能够在保持精度的同时显著减少计算时间,并具有更好的泛化能力。
- Motivation: 传统基于物理的水动力模型计算成本高,不适用于实时大规模应用;现有卷积神经网络方法泛化能力有限,无法适应未见区域。
- Method: 利用潜在扩散模型对粗网格洪水地图进行超分辨率处理,结合物理信息输入,通过迁移学习加速对新地理区域的适应。
- Result: 潜在扩散模型显著减少了生成高保真洪水地图的计算时间,且不损失精度,在跨物理位置泛化方面表现优异。
- Conclusion: 该方法实现了实时洪水风险管理,解决了机器学习黑盒问题,提高了可解释性,为洪水预测提供了实用解决方案。
[35] Saliency-Guided Deep Learning for Bridge Defect Detection in Drone Imagery
Loucif Hebbache,Dariush Amirkhani,Mohand Saïd Allili,Jean-François Lapointe
Main category: cs.CV
TL;DR: 提出了一种基于无人机图像自动检测、定位和分类混凝土桥梁缺陷的新方法,包含显著性缺陷区域提议和YOLOX深度学习检测器两个阶段。
- Motivation: 异常物体检测和分类是计算机视觉和模式识别中的主要挑战任务,需要开发自动化的桥梁缺陷检测系统。
- Method: 第一阶段使用显著性进行缺陷区域提议,第二阶段在显著性增强图像上应用YOLOX深度学习检测器,通过边界框级亮度增强来突出缺陷区域。
- Result: 在标准数据集上的实验结果表明,该框架在准确性和计算效率方面表现良好,具有在自供电检测系统中实施的巨大潜力。
- Conclusion: 该方法为混凝土桥梁结构的自动化缺陷检测提供了一种有效的解决方案,结合了显著性分析和深度学习技术的优势。
[36] Semantic Context Matters: Improving Conditioning for Autoregressive Models
Dongyang Jin,Ryan Xu,Jianhao Zeng,Rui Lan,Yancheng Bai,Lei Sun,Xiangxiang Chu
Main category: cs.CV
TL;DR: SCAR是一种用于自回归模型的语义上下文驱动方法,通过压缩语义预填充和语义对齐引导来解决图像编辑中的条件限制问题,在保持可控性的同时提升视觉保真度和语义对齐效果。
- Motivation: 自回归模型在图像生成方面显示出强大潜力,但在扩展到通用图像编辑时面临挑战,主要由于条件限制弱且效率低,导致指令遵循差和视觉伪影。
- Method: 提出SCAR方法,包含两个关键组件:压缩语义预填充(将高级语义编码为紧凑高效的前缀)和语义对齐引导(在自回归解码期间将最后视觉隐藏状态与目标语义对齐)。该方法基于向量量化预填充的灵活性和通用性,同时克服其语义限制和高成本。
- Result: SCAR在指令编辑和可控生成基准测试中实现了卓越的视觉保真度和语义对齐,优于先前的基于自回归的方法,同时保持可控性。
- Conclusion: SCAR方法成功解决了自回归模型在图像编辑中的条件限制问题,为自回归模型在图像编辑任务中的应用提供了有效解决方案。
[37] CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs
Jingyu Lei,Gaoang Wang,Der-Horng Lee
Main category: cs.CV
TL;DR: CORE提出了一种基于对象中心表示的视觉令牌压缩方法,通过高效分割解码器生成对象掩码作为语义先验,将视觉令牌合并为紧凑的对象中心表示,并在极端压缩下保持97.4%的基线性能。
- Motivation: 现有视觉令牌压缩方法缺乏高层语义理解,导致次优合并、信息冗余或上下文丢失,无法有效处理大视觉语言模型中视觉令牌随图像分辨率二次增长带来的计算和内存成本问题。
- Method: 使用高效分割解码器生成对象掩码作为语义先验,指导视觉令牌合并为对象中心表示;引入质心引导排序机制恢复合并令牌的空间顺序,保留关键位置信息。
- Result: 在六个权威基准测试中达到固定率压缩的最新水平,在自适应率设置下实现显著效率提升;极端压缩下仅保留2.2%视觉令牌仍维持97.4%基线性能。
- Conclusion: 对象中心表示在大视觉语言模型处理中具有优越性,能够实现高效且有效的视觉令牌压缩。
[38] Zero-Training Task-Specific Model Synthesis for Few-Shot Medical Image Classification
Yao Qin,Yangyang Yan,YuanChao Yang,Jinhua Pang,Huanyong Bi,Yuan Liu,HaiHua Wang
Main category: cs.CV
TL;DR: 提出ZS-TMS新范式,使用预训练生成引擎直接合成任务特定分类器的参数,仅需单张图像和文本描述即可在1-shot场景下工作,无需训练。
- Motivation: 解决医学图像分析中依赖大规模标注数据的瓶颈问题,特别是在罕见疾病等数据稀缺场景下。
- Method: 开发语义引导参数合成器(SGPS),利用多模态任务信息(图像+临床文本)直接生成轻量级分类器的权重参数。
- Result: 在ISIC 2018皮肤病变数据集和自定义罕见疾病数据集上,1-shot和5-shot分类性能显著优于现有少样本和零样本学习方法。
- Conclusion: 为数据稀缺场景下AI诊断工具的快速开发和部署提供了新途径,特别适用于罕见疾病的长尾分布问题。
[39] Automated glenoid bone loss measurement and segmentation in CT scans for pre-operative planning in shoulder instability
Zhonghao Liu,Hanxue Gu,Qihang Li,Michael Fox,Jay M. Levin,Maciej A. Mazurowski,Brian C. Lau
Main category: cs.CV
TL;DR: 开发了一个全自动深度学习管道,用于在三维CT扫描上测量肩关节盂骨缺损,该方法比现有方法更快速、更可靠,且超过了外科医生之间的一致性。
- Motivation: 当前测量肩关节盂骨缺损的手动和半自动方法耗时且存在读者间变异性,需要开发更高效、可靠的自动化测量工具。
- Method: 采用多阶段算法:1) 使用U-Net自动分割肩关节盂和肱骨;2) 使用第二个网络预测肩关节盂边缘点;3) 应用PCA、投影和圆拟合计算骨缺损百分比。
- Result: 自动测量与共识读数高度一致,且超过外科医生间一致性(ICC 0.84 vs 0.78),在骨缺损分类中低危和高危组的召回率分别为0.714和0.857。
- Conclusion: 该方法是一个时间效率高且临床可靠的工具,可用于肩关节不稳定的术前规划和筛选具有显著肩关节盂骨缺损的患者。
[40] Error-Driven Scene Editing for 3D Grounding in Large Language Models
Yue Zhang,Zun Wang,Han Lin,Jialu Li,Jianing Yang,Yonatan Bitton,Idan Szpektor,Mohit Bansal
Main category: cs.CV
TL;DR: 提出了DEER-3D框架,通过错误驱动的3D场景编辑生成针对性反事实数据,解决3D-LLMs在语言到视觉空间元素接地方面的局限性。
- Motivation: 现有3D-LLMs在准确将语言接地到3D环境中的视觉和空间元素方面存在限制,主要由于训练数据偏向语言推理而非空间理解,且缺乏3D资源导致固有接地偏差未解决。
- Method: 采用"分解、诊断评估、编辑、重新训练"工作流程:识别3D-LLM的接地失败后,诊断具体的谓词级错误(如属性或空间关系),然后执行最小化的谓词对齐3D场景编辑(如重新着色或重新定位),生成针对性反事实监督数据进行迭代微调。
- Result: 在多个3D接地和场景理解基准测试中评估编辑流程,通过迭代优化在所有评估数据集上一致显示出改进。
- Conclusion: DEER-3D强调了针对性、错误驱动的场景编辑在弥合3D LLMs中语言推理能力与空间接地方面的有效性。
[41] GCA-ResUNet:Image segmentation in medical images using grouped coordinate attention
Jun Ding,Shang Gao
Main category: cs.CV
TL;DR: 提出GCA-ResUNet,一种集成分组坐标注意力(GCA)的高效医学图像分割网络,在保持计算效率的同时提升全局建模能力
- Motivation: 解决U-Net风格网络难以捕获长距离依赖,以及Transformer变体计算量大、需要大量训练数据的问题
- Method: 将分组坐标注意力(GCA)集成到ResNet-50残差块中,通过分组坐标建模联合编码跨通道和空间位置的全局依赖
- Result: 在Synapse数据集上Dice分数达86.11%,在ACDC数据集上达92.64%,超越多个SOTA基线,同时保持快速推理和良好计算效率
- Conclusion: GCA为增强卷积架构的全局建模能力提供了实用方法,实现了高精度且资源高效的医学图像分割
[42] SMGeo: Cross-View Object Geo-Localization with Grid-Level Mixture-of-Experts
Fan Zhang,Haoyuan Ren,Fei Ma,Qiang Yin,Yongsheng Zhou
Main category: cs.CV
TL;DR: SMGeo是一个基于Transformer的端到端跨视角物体地理定位模型,支持点击提示和实时交互,通过网格级稀疏专家混合和锚点自由检测头实现高精度定位。
- Motivation: 解决传统多阶段检索-匹配方法在跨视角物体地理定位中因视角和尺度差异导致的累积误差问题。
- Method: 采用全Transformer架构,使用Swin-Transformer联合编码无人机和卫星图像特征,引入网格级稀疏专家混合(GMoE)捕捉跨模态和视图内依赖关系,使用锚点自由检测头进行坐标回归。
- Result: 在无人机到卫星任务中,在IoU=0.25和mIoU指标上达到领先性能(87.51%, 62.50%, 61.45%),显著优于DetGeo等方法。
- Conclusion: SMGeo通过共享编码、查询引导融合和网格级稀疏专家混合的互补增益,实现了高效的跨视角物体地理定位。
[43] BCE3S: Binary Cross-Entropy Based Tripartite Synergistic Learning for Long-tailed Recognition
Weijia Fan,Qiufu Li,Jiajun Wen,Xiaoyang Peng
Main category: cs.CV
TL;DR: 提出BCE3S方法,使用二元交叉熵进行三元协同学习,解决长尾识别中类别不平衡问题,在多个数据集上达到SOTA性能
- Motivation: 现有基于交叉熵损失的长尾识别方法难以学习具有理想特性的特征,且在Softmax分母中耦合了不平衡的分类器向量,放大了长尾识别中的不平衡效应
- Method: BCE3S包含三个组件:基于BCE的联合学习优化分类器和样本特征;基于BCE的对比学习进一步提升特征的类内紧凑性;基于BCE的均匀学习平衡分类器向量的可分性
- Result: 在CIFAR10-LT、CIFAR100-LT、ImageNet-LT和iNaturalist2018等多个长尾数据集上实现了最先进的性能
- Conclusion: BCE3S方法不仅实现了样本特征间更高的紧凑性和可分性,还平衡了分类器的可分性,有效解决了长尾识别问题
[44] FAPE-IR: Frequency-Aware Planning and Execution Framework for All-in-One Image Restoration
Jingren Liu,Shuning Xu,Qirui Yang,Yun Wang,Xiangyu Chen,Zhong Ji
Main category: cs.CV
TL;DR: FAPE-IR是一个用于图像恢复的频率感知规划执行框架,使用冻结的多模态大语言模型作为规划器生成频率感知的恢复计划,通过LoRA-MoE模块在扩散模型中动态选择高频或低频专家,实现了统一且可解释的全能图像恢复。
- Motivation: 现有的全能图像恢复方法通常依赖任务特定设计或潜在路由策略,难以适应现实世界中各种复杂退化情况,需要更统一的解决方案。
- Method: 使用冻结MLLM作为规划器分析退化图像并生成频率感知恢复计划;通过LoRA-MoE模块在扩散执行器中动态选择高频/低频专家;引入对抗训练和频率正则化损失来减少伪影。
- Result: 在七个恢复任务上达到最先进性能,并在混合退化条件下表现出强大的零样本泛化能力。
- Conclusion: 通过将语义规划与基于频率的恢复相结合,FAPE-IR为全能图像恢复提供了统一且可解释的解决方案。
[45] Text-Driven Reasoning Video Editing via Reinforcement Learning on Digital Twin Representations
Yiqing Shen,Chenjia Li,Mathias Unberath
Main category: cs.CV
TL;DR: RIVER是一个基于推理的隐式视频编辑模型,通过多跳推理解析用户隐式查询来推断编辑目标,然后执行视频修改。
- Motivation: 现有视频编辑方法需要用户提供精确的空间位置和时间边界描述,这在用户通过语义属性或对象关系的隐式查询来构思编辑时变得不切实际。
- Method: RIVER通过数字孪生表示解耦推理和生成,使用大语言模型进行多跳推理,输出结构化指令指导基于扩散的编辑器执行像素级修改,并采用强化学习训练。
- Result: RIVER在提出的RVEBenchmark上表现最佳,并在VegGIE和FiVE两个额外视频编辑基准上达到最先进性能,超越了六个基线方法。
- Conclusion: RIVER成功解决了推理视频编辑任务,能够有效处理隐式查询,为复杂视频编辑需求提供了可行的解决方案。
[46] RTS-Mono: A Real-Time Self-Supervised Monocular Depth Estimation Method for Real-World Deployment
Zeyu Cheng,Tongfei Liu,Tao Lei,Xiang Hua,Yi Zhang,Chengkai Tang
Main category: cs.CV
TL;DR: 提出了一种实时自监督单目深度估计方法RTS-Mono,采用轻量级编码器-解码器架构,在保持高性能的同时大幅减少计算资源消耗,在KITTI数据集上达到SOTA性能,并在Nvidia Jetson Orin上实现49 FPS的实时推理。
- Motivation: 解决现有自监督单目深度估计模型计算资源消耗大、轻量化方法性能下降严重的问题,推动该技术在自动驾驶和机器人导航中的实际部署。
- Method: 基于Lite-Encoder的轻量级编码器和多尺度稀疏融合框架的解码器,最小化冗余,确保性能并提高推理速度。
- Result: 在KITTI数据集上达到SOTA性能,参数仅3M;相比轻量级方法,在低分辨率下Abs Rel和Sq Rel分别提升5.6%和9.8%,高分辨率下Sq Rel和RMSE分别提升6.1%和1.9%;在Nvidia Jetson Orin上实现49 FPS实时推理。
- Conclusion: RTS-Mono成功解决了自监督单目深度估计在真实世界部署中的计算效率和性能平衡问题,为自动驾驶和机器人导航提供了实用的实时深度估计解决方案。
[47] GC: symmetric ggregation with Geometric Constraints for Locally Aggregated Descriptors
Zhenyu Li,Tianyi Shang
Main category: cs.CV
TL;DR: 提出A²GC-VPR方法,通过非对称聚合和几何约束改进视觉地点识别,在多个数据集上表现优异。
- Motivation: 现有基于最优传输的聚合方法对称处理源和目标边缘分布,当图像特征和聚类中心分布差异大时效果受限。
- Method: 采用行列归一化平均和分离边缘校准实现非对称匹配,通过可学习坐标嵌入融入几何约束,计算兼容性分数并与特征相似性融合。
- Result: 在MSLS、NordLand和Pittsburgh数据集上的实验结果表明性能优越,验证了方法在提升匹配精度和鲁棒性方面的有效性。
- Conclusion: A²GC-VPR通过非对称聚合和几何约束成功解决了视觉地点识别中特征分布差异问题,显著提升了识别性能。
[48] CascadedViT: Cascaded Chunk-FeedForward and Cascaded Group Attention Vision Transformer
Srivathsan Sivakumar,Faisal Z. Qureshi
Main category: cs.CV
TL;DR: 提出了CViT,一种轻量级视觉Transformer架构,通过CCFFN设计提高参数和FLOP效率,在保持精度的同时降低计算量和能耗
- Motivation: Vision Transformers在计算机视觉任务中表现优异,但高计算量、内存和能耗限制了在资源受限平台上的部署
- Method: 采用Cascaded-Chunk Feed Forward Network (CCFFN)分割输入特征,设计轻量级CViT架构
- Result: CViT-XL在ImageNet-1K上达到75.5% Top-1精度,FLOPs减少15%,能耗降低3.3%;CViT系列在各种模型尺寸下都表现出最低能耗
- Conclusion: CViT模型在计算效率方面表现优异,特别适合部署在电池受限设备上,如手机和无人机
[49] Coffee: Controllable Diffusion Fine-tuning
Ziyao Zeng,Jingcheng Ni,Ruyi Liu,Alex Wong
Main category: cs.CV
TL;DR: Coffee是一种通过语言描述来防止文本到图像扩散模型在微调过程中学习不良概念的方法,无需额外训练即可灵活调整不良概念。
- Motivation: 现有文本到图像扩散模型在微调时容易学习到用户数据中的不良概念,并与用户提示词产生纠缠,这在下游任务如偏见缓解、防止恶意适应等方面构成挑战。
- Method: 通过语言描述指定不良概念来正则化适应过程,核心是防止用户提示词嵌入与不良概念对齐,无需额外训练且可通过修改文本描述灵活调整不良概念。
- Result: 实验结果表明Coffee能有效防止文本到图像模型在微调过程中学习指定的不良概念,性能优于现有方法。
- Conclusion: Coffee提供了一种有效的方法来控制扩散模型的微调过程,防止不良概念的学习,具有灵活性和实用性。
[50] Multi-view Phase-aware Pedestrian-Vehicle Incident Reasoning Framework with Vision-Language Models
Hao Zhen,Yunxiang Yang,Jidong J. Yang
Main category: cs.CV
TL;DR: 该论文提出了MP-PVIR框架,通过多视角视频分析和行为阶段分割,将行人-车辆事故转化为结构化诊断报告,提升交通安全分析能力。
- Motivation: 解决现有视频系统只能检测事故而无法分析行人行为认知阶段的问题,利用视觉语言模型提升对事故演变过程的理解。
- Method: 四阶段框架:1)事件触发多视角视频采集;2)行人行为阶段分割;3)阶段特定多视角推理;4)层次化合成和诊断推理。使用TG-VLM进行行为阶段分割,PhaVR-VLM进行阶段感知多视角分析。
- Result: TG-VLM在行为阶段分割上达到mIoU=0.4881,PhaVR-VLM在字幕生成得分33.063,问答准确率最高达64.70%。在Woven Traffic Safety数据集上验证了框架有效性。
- Conclusion: MP-PVIR成功将多视角视频数据转化为可操作的洞察,推动了车辆-基础设施协同系统中AI驱动的交通安全分析。
[51] Attention Via Convolutional Nearest Neighbors
Mingi Kang,Jeová Farias Sales Rocha Neto
Main category: cs.CV
TL;DR: 提出了ConvNN统一框架,将卷积和自注意力统一在k近邻聚合框架下,通过邻居选择机制揭示两者是连续谱上的特例
- Motivation: 尽管CNN和Transformer重塑了计算机视觉,但两者通常被视为根本不同的架构。本文认为卷积和自注意力可以在k近邻聚合框架下统一
- Method: 引入ConvNN框架,将卷积视为基于空间邻近性的邻居选择,注意力视为基于特征相似性的邻居选择,作为卷积层和注意力层的即插即用替代
- Result: 在CIFAR-10和CIFAR-100上验证:VGG混合分支结合两种选择机制提升精度;ConvNN在ViT中优于标准注意力和其他变体;k值消融显示沿谱插值提供正则化效益
- Conclusion: 提供了统一框架消解卷积和注意力间的明显区别,为设计更原则化和可解释的视觉架构提供启示
[52] SMART: Shot-Aware Multimodal Video Moment Retrieval with Audio-Enhanced MLLM
An Yu,Weiheng Lu,Jian Li,Zhenfei Zhang,Yunhang Shen,Felix X. -F. Ye,Ming-Ching Chang
Main category: cs.CV
TL;DR: SMART是一个基于多模态大语言模型的视频时刻检索框架,通过整合音频线索和利用镜头级时间结构,在Charades-STA和QVHighlights数据集上显著优于现有方法。
- Motivation: 现有视频时刻检索方法主要依赖粗粒度时间理解和单一视觉模态,在复杂视频中性能受限。需要整合音频线索和精细时间结构来提升性能。
- Method: 提出SMART框架:1)整合音频和视觉特征丰富多模态表示;2)应用镜头感知令牌压缩,选择性保留高信息量令牌以减少冗余;3)优化提示设计以更好利用音视频线索。
- Result: 在Charades-STA数据集上,R1@0.5提升1.61%,R1@0.7提升2.59%;在QVHighlights数据集上也取得显著改进。
- Conclusion: SMART通过整合音频线索和镜头级时间结构,有效提升了视频时刻检索性能,证明了多模态融合和精细时间建模的重要性。
[53] iGaussian: Real-Time Camera Pose Estimation via Feed-Forward 3D Gaussian Splatting Inversion
Hao Wang,Linqing Zhao,Xiuwei Xu,Jiwen Lu,Haibin Yan
Main category: cs.CV
TL;DR: iGaussian是一个两阶段前馈框架,通过直接3D高斯反演实现实时相机姿态估计,相比基于优化的方法提速10倍,在移动机器人上达到2.87 FPS。
- Motivation: 现有方法依赖迭代的渲染-比较-优化循环,计算开销大,阻碍机器人领域的实时性能。需要一种无需可微渲染的直接姿态估计方法。
- Method: 两阶段框架:1) 使用高斯场景先验的姿态回归网络回归粗略6DoF姿态;2) 通过特征匹配和多模型融合进行细化。关键创新包括无需可微渲染的图像嵌入与3D高斯属性对齐的交叉相关模块,以及多视角特征融合的加权多视图预测器。
- Result: 在NeRF Synthetic、Mip-NeRF 360和T&T+DB数据集上表现优异,中值旋转误差降至0.2°,在移动机器人上实现2.87 FPS跟踪,相比优化方法提速10倍。
- Conclusion: iGaussian通过直接3D高斯反演实现了高效的单图像相机姿态估计,在精度和速度上均优于现有方法,特别适合机器人实时应用。
[54] Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
Laura Dodds,Maisy Lam,Waleed Akbar,Yibo Cheng,Fadel Adib
Main category: cs.CV
TL;DR: Wave-Former是一种使用毫米波信号进行3D形状重建的新方法,能够穿透遮挡物重建被完全遮挡的日常物体的高精度3D形状。
- Motivation: 开发能够穿透常见遮挡物并重建隐藏物体3D形状的技术,以支持机器人、增强现实和物流等新应用。
- Method: 采用三阶段流水线:提出候选几何表面、使用基于transformer的形状补全模型、进行熵引导的表面选择,结合毫米波信号的物理特性。
- Result: 在真实世界数据上表现出色,与最先进基线相比,召回率从54%提升到72%,同时保持85%的高精度。
- Conclusion: Wave-Former通过物理感知的形状补全模型,成功实现了对完全遮挡物体的高精度3D重建,展示了从合成数据到真实数据的良好泛化能力。
[55] Learning Representation and Synergy Invariances: A Povable Framework for Generalized Multimodal Face Anti-Spoofing
Xun Lin,Shuai Wang,Yi Yu,Zitong Yu,Jiale Zhou,Yizhong Liu,Xiaochun Cao,Alex Kot,Yefeng Zheng
Main category: cs.CV
TL;DR: 本文提出了RiSe框架来解决多模态人脸防伪(FAS)在跨域部署时的性能下降问题,通过非对称不变风险最小化和多模态协同解耦来提升泛化能力。
- Motivation: 多模态人脸防伪方法在跨域部署时比单模态方法性能下降更严重,主要由于两个被忽视的风险:模态表示不变性风险和模态协同不变性风险,这些风险影响了跨域多模态泛化能力。
- Method: 提出RiSe框架:1) 使用非对称不变风险最小化(AsyIRM)在径向空间学习不变球形决策边界;2) 采用多模态协同解耦(MMSD)通过跨样本混合和解耦增强内在、可泛化的模态特征。
- Result: 理论分析和实验验证表明,RiSe实现了最先进的跨域性能。
- Conclusion: RiSe框架通过解决多模态FAS中的表示和协同不变性风险,有效提升了跨域泛化能力,在理论和实验上都取得了优异表现。
[56] MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs
Huiyi Chen,Jiawei Peng,Dehai Min,Changchang Sun,Kaijie Chen,Yan Yan,Xu Yang,Lu Cheng
Main category: cs.CV
TL;DR: MVI-Bench是首个专门评估误导性视觉输入对大型视觉语言模型(LVLMs)鲁棒性影响的基准测试,包含1,248个标注实例,涵盖视觉概念、属性和关系三个层次,并提出了细粒度评估指标MVI-Sensitivity。
- Motivation: 现有鲁棒性基准主要关注幻觉或误导性文本输入,而忽略了误导性视觉输入对视觉理解评估的重要性,需要填补这一重要空白。
- Method: 基于基本视觉原语,设计了三个层次的误导性视觉输入分类:视觉概念、视觉属性和视觉关系,并构建了六个代表性类别的1,248个专家标注VQA实例。
- Result: 对18个最先进的LVLMs的实证研究揭示了它们对误导性视觉输入的显著脆弱性,深度分析为开发更可靠的LVLMs提供了可行见解。
- Conclusion: MVI-Bench填补了误导性视觉输入评估的空白,揭示了LVLMs的脆弱性,为开发更鲁棒的模型提供了指导方向。
[57] AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs
Xinliang Zhang,Lei Zhu,Hangzhou He,Shuang Zeng,Ourui Fu,Jiakui Hu,Zhengjian Yao,Yanye Lu
Main category: cs.CV
TL;DR: 提出了一种对象级token压缩策略,仅使用10%的token就能达到原始模型96%的性能,解决了MLLMs中patch级token化导致的二次增长问题。
- Motivation: 解决多模态大语言模型中patch级token化导致的token数量二次增长问题,该问题增加了计算和内存负担,且与人类视觉认知系统不匹配,导致幻觉和计算冗余。
- Method: 提出对象级token合并策略进行自适应token压缩,该方法与人类视觉系统保持一致。
- Result: 在多个综合基准测试中,平均仅使用10%的token就能达到原始模型96%的性能,在压缩比和性能平衡方面优于相关方法。
- Conclusion: 提出的对象级token压缩策略有效解决了MLLMs中token数量过多的问题,在保持高性能的同时显著减少了计算负担。
[58] DoGCLR: Dominance-Game Contrastive Learning Network for Skeleton-Based Action Recognition
Yanshan Li,Ke Ma,Miaomiao Wei,Linhui Dai
Main category: cs.CV
TL;DR: DoGCLR是一个基于博弈论的自监督对比学习框架,用于骨架动作识别。它通过时空双权重定位机制识别关键运动区域,并使用熵驱动优势策略管理负样本,在多个数据集上实现了最先进的性能。
- Motivation: 现有的自监督对比学习方法在处理骨架区域时采用统一处理方式,并使用FIFO队列存储负样本,导致运动信息丢失和负样本选择不理想。
- Method: DoGCLR将正负样本构建建模为动态优势博弈,使用时空双权重定位机制识别关键运动区域,并通过熵驱动优势策略管理记忆库,保留高熵(困难)负样本并替换低熵(简单)负样本。
- Result: 在NTU RGB+D 60 X-Sub/X-View上分别达到81.1%/89.4%准确率,在NTU RGB+D 120 X-Sub/X-Set上分别达到71.2%/75.5%准确率,分别超过最先进方法0.1%、2.7%、1.1%和2.3%。在PKU-MMD Part II上比最先进方法高1.9%。
- Conclusion: DoGCLR通过博弈论方法有效解决了骨架动作识别中的运动信息丢失和负样本选择问题,在多个数据集上表现出优越性能和强鲁棒性。
[59] UniSER: A Foundation Model for Unified Soft Effects Removal
Jingdong Zhang,Lingzhi Zhang,Qing Liu,Mang Tik Chiu,Connelly Barnes,Yizhou Wang,Haoran You,Xiaoyang Liu,Yuqian Zhou,Zhe Lin,Eli Shechtman,Sohrab Amirghodsi,Xin Li,Wenping Wang,Xiaohang Zhan
Main category: cs.CV
TL;DR: UniSER是一个基础性的通用模型,能够在单一框架内解决由软效应(如镜头光晕、雾霾、阴影、反射)引起的多种图像退化问题,显著优于专业模型和通用模型。
- Motivation: 现有方法要么是高度专业化的专用模型,缺乏可扩展性,无法利用这些修复问题的共享本质;要么是通用模型,需要详细提示且在这些细粒度任务上无法实现稳健去除或保持场景身份。
- Method: 构建包含380万对图像的大规模数据集,包括新颖的物理合理数据以填补公共基准的关键空白;定制训练流程,微调扩散变换器从多样化数据中学习稳健修复先验,集成细粒度掩码和强度控制。
- Result: UniSER在真实场景中实现了稳健、高保真的修复,显著优于专用模型和通用模型。
- Conclusion: 通过利用软效应的共同本质(半透明遮挡),UniSER提供了一个能够处理多种软效应退化的基础性通用解决方案,展示了在单一框架内解决多样化修复问题的潜力。
[60] GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation
Xuan Zhao,Zhongyu Zhang,Yuge Huang,Yuxi Mi,Guodong Mu,Shouhong Ding,Jun Wang,Rizen Guo,Shuigeng Zhou
Main category: cs.CV
TL;DR: GloTok是一种全局视角的图像分词器,通过利用全局关系信息建模更均匀的语义分布,提升图像重建和生成质量。
- Motivation: 现有图像分词方法采用局部监督的语义监督方式,限制了语义分布的均匀性,而更均匀的特征分布能带来更好的生成性能。
- Method: 提出代码本直方图关系学习方法将预训练模型在整个数据集上建模的语义转移到语义代码本,并设计残差学习模块恢复细粒度细节以减少量化带来的重建误差。
- Result: 在标准ImageNet-1k基准测试中,该方法实现了最先进的重建性能和生成质量。
- Conclusion: GloTok通过全局关系建模产生更均匀分布的语义潜在表示,有助于自回归模型训练生成高质量图像,且训练过程无需直接访问预训练模型。
[61] PAVE: An End-to-End Dataset for Production Autonomous Vehicle Evaluation
Xiangyu Li,Chen Wang,Yumao Liu,Dengbo He,Jiahao Zhang,Ke Ma
Main category: cs.CV
TL;DR: 首个完全由自动驾驶模式收集的真实世界端到端基准数据集,包含100+小时自然驾驶数据,用于评估自动驾驶车辆的行为安全性。
- Motivation: 现有数据集多为人工驾驶收集,无法真实评估自动驾驶车辆的黑盒控制安全性,需要完全由自动驾驶模式收集的数据来评估真实行为安全。
- Method: 收集超过100小时来自市场多个量产自动驾驶车辆的自然驾驶数据,分割成32,727个关键帧,包含同步相机图像、高精度GNSS/IMU数据、车辆轨迹以及详细的2D标注。
- Result: 数据集提供丰富的场景属性标注,端到端运动规划模型在自动驾驶帧上的平均位移误差为1.4米,数据集每周持续扩展10+小时新数据。
- Conclusion: 该数据集为自动驾驶行为分析和安全评估提供了可持续的研究基础,能够真实评估自动驾驶车辆的行为安全性。
[62] Few-Shot Precise Event Spotting via Unified Multi-Entity Graph and Distillation
Zhaoyu Liu,Kan Jiang,Murong Ma,Zhe Hou,Yun Lin,Jin Song Dong
Main category: cs.CV
TL;DR: 提出了UMEG-Net方法,通过统一的多实体图网络和知识蒸馏,在少样本条件下实现精确的事件检测
- Motivation: 精确事件检测在体育分析中很重要,但现有方法依赖大量标注数据和像素/姿态输入,在少样本条件下表现不佳,而获取大规模标注数据实际困难
- Method: UMEG-Net整合人体骨架和运动特定物体关键点到统一图中,使用GCN和多尺度时间位移进行时空特征提取,并通过多模态蒸馏将关键点图知识迁移到视觉表示
- Result: 在少样本设置下实现了鲁棒性能,显著优于基线模型
- Conclusion: 为少样本精确事件检测提供了可扩展且有效的解决方案
[63] Hierarchical Semantic Learning for Multi-Class Aorta Segmentation
Pengcheng Shi
Main category: cs.CV
TL;DR: 提出了一种用于主动脉血管分割的课程学习策略,采用分形softmax进行分层语义学习,解决了血管结构中的类别不平衡问题,显著提高了分割精度和推理速度。
- Motivation: 主动脉血管分割面临层次解剖关系被忽视和严重类别不平衡的挑战,现有方法难以处理血管结构中罕见但解剖学关键的结构。
- Method: 使用课程学习策略和分形softmax进行分层语义学习,采用两阶段推理策略,从简单到复杂逐步学习解剖约束。
- Result: 在验证集上,分层语义损失使nnU-Net ResEnc M的Dice得分提高了11.65%;在测试集上比基线方法高出5.6%的Dice得分,推理速度提升高达5倍。
- Conclusion: 该框架显著提高了主动脉血管分割的准确性和效率,适合实时临床应用,代码已公开。
[64] Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision
Zitang Sun,Masakazu Yoshimura,Junji Otsuka,Atsushi Irie,Takeshi Ohashi
Main category: cs.CV
TL;DR: DetGain是一种专门用于目标检测的在线数据筛选方法,通过估计每张图像对数据集平均精度(AP)的边际扰动来选择信息量大的训练样本。
- Motivation: 高质量数据已成为规模定律下的主要驱动力,但现有的在线采样策略很少扩展到目标检测领域,因为其结构复杂且存在领域差距。
- Method: 通过建模全局得分分布,DetGain高效估计全局AP变化,并计算师生贡献差距来选择每个迭代中的信息样本。该方法与架构无关且侵入性最小。
- Result: 在COCO数据集上的实验显示,DetGain在多个代表性检测器上都能持续提高准确性,在低质量数据下表现出强鲁棒性,并能与知识蒸馏技术有效结合进一步提升性能。
- Conclusion: DetGain有潜力成为数据高效目标检测的通用补充策略。
[65] Multi-Scale Correlation-Aware Transformer for Maritime Vessel Re-Identification
Yunhe Liu
Main category: cs.CV
TL;DR: 提出了MCFormer网络,通过建模多尺度相关性来抑制船舶重识别中异常样本的影响,包含全局和局部相关性模块,在三个基准测试中达到最先进性能。
- Motivation: 现有船舶重识别方法多从行人重识别算法直接迁移,无法有效处理船舶图像中更大的类内变化和局部部件缺失问题,导致同一身份中出现异常样本。
- Method: 提出MCFormer网络,包含全局相关性模块(GCM)构建全局相似性矩阵建模全局相关性,局部相关性模块(LCM)挖掘和对齐局部特征,并集成多尺度全局和局部特征。
- Result: 在三个基准测试上的实验表明,MCFormer达到了最先进的性能。
- Conclusion: MCFormer通过建模多尺度相关性有效抑制了船舶重识别中异常样本的负面影响,提升了重识别性能。
[66] InstantViR: Real-Time Video Inverse Problem Solver with Distilled Diffusion Prior
Weimin Bai,Suzhe Xu,Yiwei Ren,Jinhua Hao,Ming Sun,Wenzheng Chen,He Sun
Main category: cs.CV
TL;DR: InstantViR是一个基于预训练视频扩散先验的超快速视频重建框架,通过将双向视频扩散模型蒸馏为因果自回归学生模型,实现单次前向推理,在保持高质量的同时达到35+ FPS的速度。
- Motivation: 现有扩散方法存在时间伪影或迭代后验采样速度过慢的问题,无法满足实时视频处理的需求,需要开发既保持高质量又满足低延迟约束的解决方案。
- Method: 将预训练的双向视频扩散模型(教师)蒸馏为因果自回归学生模型,使用先验驱动的蒸馏方法,仅需教师模型和已知退化算子,无需外部配对数据。采用LeanVAE替换VAE骨干网,实现低延迟潜在空间处理。
- Result: 在流式随机修复、高斯去模糊和超分辨率任务中,InstantViR匹配或超越基于扩散的基线方法的重建质量,在NVIDIA A100 GPU上运行速度超过35 FPS,比迭代视频扩散求解器快达100倍。
- Conclusion: 扩散基视频重建可与实时、交互式、可编辑的流式场景兼容,使高质量视频修复成为现代视觉系统的实用组件。
[67] Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
N Dinesh Reddy,Sudeep Pillai
Main category: cs.CV
TL;DR: Orion是一个多模态视觉代理框架,通过调用多种计算机视觉工具实现复杂的多步骤视觉工作流,在多个基准测试中达到最先进性能。
- Motivation: 传统视觉语言模型主要生成描述性输出,无法执行复杂的多步骤视觉任务。Orion旨在通过工具调用能力将单一体视觉语言模型扩展到生产级视觉智能。
- Method: 采用代理框架,协调多种专用计算机视觉工具(包括目标检测、关键点定位、全景分割、OCR和几何分析),结合神经感知与符号执行实现自主视觉推理。
- Result: 在MMMU、MMBench、DocVQA和MMLongBench等基准测试中取得竞争性性能,实现了从被动视觉理解到主动工具驱动视觉智能的转变。
- Conclusion: Orion通过工具驱动的方法显著提升了视觉AI的能力,为生产级视觉智能应用提供了可行的解决方案。
[68] Measurement-Constrained Sampling for Text-Prompted Blind Face Restoration
Wenjie Li,Yulun Zhang,Guangwei Gao,Heng Guo,Zhanyu Ma
Main category: cs.CV
TL;DR: 提出了一种测量约束采样(MCS)方法,用于盲人脸恢复(BFR)任务,能够根据不同的文本提示生成多样化的高质量人脸重建结果。
- Motivation: 现有盲人脸恢复方法通常产生确定性结果,难以捕捉极端低质量输入下可能对应多个合理高质量重建的一对多特性。
- Method: 将BFR构建为测量约束生成任务,通过粗恢复的受控退化构建逆问题,在文本到图像扩散中进行后验引导采样,包括确保结果与输入结构对齐的前向测量和产生投影空间的反向测量。
- Result: 实验表明MCS能够生成与提示对齐的结果,并优于现有的BFR方法。
- Conclusion: MCS方法成功实现了基于文本提示的多样化盲人脸恢复,解决了现有方法难以处理一对多映射关系的问题。
[69] StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model
Yifan Yang,Zhi Cen,Sida Peng,Xiangwei Chen,Yifu Deng,Xinyu Zhu,Fan Jia,Xiaowei Zhou,Hujun Bao
Main category: cs.CV
TL;DR: 提出了一种自回归扩散模型用于语音驱动的3D面部动画,通过流式处理音频输入解决长序列处理和延迟问题,实现实时高质量面部运动生成。
- Motivation: 现有方法一次性处理整个音频序列,在处理超出训练范围的音频序列时性能下降,且在长音频输入时存在显著延迟问题。
- Method: 采用自回归扩散模型,选择有限数量的历史帧作为运动上下文,与音频输入结合形成动态条件,引导扩散过程迭代生成面部运动帧。
- Result: 实现了灵活处理不同长度音频的能力,达到与音频时长无关的低延迟,并开发了实时交互演示验证方法的有效性。
- Conclusion: 提出的流式处理方法成功解决了长音频序列处理和延迟问题,为实时语音驱动3D面部动画提供了高效解决方案。
[70] Breaking the Passive Learning Trap: An Active Perception Strategy for Human Motion Prediction
Juncheng Hu,Zijian Zhang,Zeyu Wang,Guoyu Wang,Yingji Li,Kedi Lyu
Main category: cs.CV
TL;DR: 提出了一种主动感知策略(APS)用于3D人体运动预测,通过商空间表示显式编码运动特性,并引入辅助学习目标来加强时空建模,在多个数据集上实现了最先进的性能。
- Motivation: 当前方法过度依赖神经网络对时空关系和运动特征的隐式建模,陷入被动学习陷阱,导致冗余和单调的3D坐标信息获取,缺乏主动引导的显式学习机制。
- Method: 设计数据感知模块将姿态投影到商空间,解耦运动几何与坐标冗余;引入网络感知模块通过修复学习主动学习时空依赖关系,通过掩码特定关节或注入噪声构建辅助监督信号。
- Result: 在H3.6M、CMU Mocap和3DPW数据集上分别实现了16.3%、13.9%和10.1%的性能提升,达到了新的最先进水平。
- Conclusion: APS方法能够有效增强主动感知能力,与不同预测模型兼容,显著提升了3D人体运动预测的性能。
[71] Enhancing Generalization of Depth Estimation Foundation Model via Weakly-Supervised Adaptation with Regularization
Yan Huang,Yongyi Su,Xin Lin,Le Zhang,Xun Xu
Main category: cs.CV
TL;DR: WeSTAR是一个参数高效的弱监督自训练适应框架,通过正则化增强单目深度估计基础模型在未见领域的鲁棒性,结合密集自训练、语义感知层次归一化、成对顺序深度弱监督和权重正则化。
- Motivation: 尽管基础模型在零样本单目深度估计方面取得了进展,但在获得下游任务数据时,如何进一步提升这些模型的性能成为一个自然的问题。
- Method: 采用密集自训练目标作为主要结构自监督源;引入语义感知层次归一化,利用实例级分割图进行更稳定的多尺度结构归一化;使用成对顺序深度注释作为成本效益高的弱监督;应用权重正则化损失来锚定LoRA更新。
- Result: 在多样化和具有挑战性场景下的真实和损坏的分布外数据集上进行广泛实验,表明WeSTAR持续改善泛化能力,并在广泛基准测试中实现最先进性能。
- Conclusion: WeSTAR框架通过弱监督自训练适应和正则化,有效增强了单目深度估计基础模型在未见和多样化领域的鲁棒性和泛化能力。
[72] V2VLoc: Robust GNSS-Free Collaborative Perception via LiDAR Localization
Wenkai Lin,Qiming Xia,Wen Li,Xun Huang,Chenglu Wen
Main category: cs.CV
TL;DR: 提出了一种基于LiDAR定位的GNSS-free协作感知框架,包含轻量级姿态生成器PGC和姿态感知时空对齐变换器PASTAT,在V2VLoc数据集上实现最先进性能。
- Motivation: 传统GNSS定位在GNSS拒绝环境中经常失效,导致协作感知中特征对齐困难,需要开发不依赖GNSS的鲁棒协作感知方法。
- Method: 1) 轻量级姿态生成器PGC估计紧凑姿态和置信度表示;2) PASTAT进行置信度感知的空间对齐并捕获时间上下文;3) 创建V2VLoc仿真数据集支持LiDAR定位和协作检测任务。
- Result: 在V2VLoc数据集上的大量实验表明,该方法在GNSS拒绝条件下达到最先进性能,在真实世界V2V4Real数据集上的扩展实验验证了PASTAT的有效性和泛化性。
- Conclusion: 提出的GNSS-free协作感知框架通过LiDAR定位和时空对齐技术,有效解决了GNSS拒绝环境下的协作感知挑战,具有实际应用价值。
[73] ManipShield: A Unified Framework for Image Manipulation Detection, Localization and Explanation
Zitong Xu,Huiyu Duan,Xiaoyu Wang,Zhaolin Cai,Kaiwei Zhang,Qiang Hu,Jing Liu,Xiongkuo Min,Guangtao Zhai
Main category: cs.CV
TL;DR: 提出了ManipBench大规模图像篡改检测基准和ManipShield统一检测模型,解决了现有基准内容多样性不足、生成模型覆盖窄和可解释性不够的问题。
- Motivation: 随着生成模型的快速发展,现有的图像篡改检测基准存在内容多样性有限、生成模型覆盖范围窄和可解释性不足的问题,阻碍了篡改检测方法的泛化和解释能力。
- Method: 构建包含45万张由25个先进图像编辑模型生成的篡改图像的ManipBench基准,并提出基于多模态大语言模型的ManipShield模型,采用对比LoRA微调和任务特定解码器实现统一的检测、定位和解释。
- Result: 在ManipBench和多个公共数据集上的广泛实验表明,ManipShield实现了最先进的性能,并对未见过的篡改模型表现出强大的泛化能力。
- Conclusion: ManipBench基准和ManipShield模型为AI编辑图像的篡改检测提供了全面解决方案,两者将在发表时公开发布。
[74] Gaussian Splatting-based Low-Rank Tensor Representation for Multi-Dimensional Image Recovery
Yiming Zeng,Xi-Le Zhao,Wei-Hao Wu,Teng-Yu Ji,Chao Wang
Main category: cs.CV
TL;DR: 提出基于高斯泼溅的低秩张量表示框架(GSLR),用于多维图像的紧凑连续表示,解决了传统t-SVD方法在捕获局部高频信息方面的局限性。
- Motivation: 传统t-SVD方法存在两个关键限制:(1)潜在张量近似粗糙,无法准确捕获空间局部高频信息;(2)变换矩阵由固定基原子组成,无法精确捕获模式3纤维的局部高频信息。
- Method: 使用定制的2D高斯泼溅生成潜在张量,1D高斯泼溅生成变换矩阵,两者在该表示框架中不可或缺且互补,具有强大的表示能力,特别适用于局部高频信息。
- Result: 在多维图像恢复的广泛实验中,GSLR始终优于最先进的方法,特别是在捕获局部高频信息方面表现突出。
- Conclusion: GSLR框架通过高斯泼溅技术有效解决了传统t-SVD方法的局限性,为多维图像提供了紧凑连续的表示方法,在局部高频信息捕获方面具有显著优势。
[75] Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation
Weimin Bai,Yubo Li,Weijian Luo,Zeqiang Lai,Yequan Wang,Wenzheng Chen,He Sun
Main category: cs.CV
TL;DR: VLM3D是一个通用框架,利用大型视觉语言模型作为可微分的语义和空间批评器,通过双查询批评信号评估语义保真度和几何一致性,显著提升文本到3D生成的质量。
- Motivation: 当前文本到3D生成模型存在两个基本限制:语义对齐粗糙,难以捕捉细粒度提示细节;缺乏稳健的3D空间理解,导致几何不一致和部件组装失败。
- Method: 提出VLM3D框架,利用视觉语言模型的Yes或No对数概率作为双查询批评信号,既可用于优化型管道的奖励目标,也可作为前馈管道的测试时指导模块。
- Result: 在标准基准测试中,VLM3D显著优于现有方法;作为测试时指导模块,能够主动纠正SOTA原生3D模型的严重空间错误。
- Conclusion: VLM3D为将视觉语言模型丰富的语言基础语义和空间理解注入多样化3D生成管道提供了原则性和可泛化的路径。
[76] Free Lunch to Meet the Gap: Intermediate Domain Reconstruction for Cross-Domain Few-Shot Learning
Tong Zhang,Yifan Zhao,Liangyu Wang,Jia Li
Main category: cs.CV
TL;DR: 本文提出了一种新的跨域小样本学习方法,通过构建中间域代理作为代码本重构目标域特征,并利用视觉风格和语义内容属性进行快速域对齐,在8个基准测试中超越了现有最优模型。
- Motivation: 跨域小样本学习面临语义分离、大域差异和数据稀缺三重挑战。现有方法主要关注广义表示,而本文尝试通过中间域代理来弥合源域和目标域之间的差距。
- Method: 构建中间域代理作为代码本,使用源域特征嵌入重构目标域特征。通过经验研究探索中间域代理的视觉风格和语义内容属性,开发快速域对齐方法,利用这些代理作为目标域特征转换的学习指导。
- Result: 在8个跨域小样本学习基准测试中,所提出的模型显著超越了现有最优模型。
- Conclusion: 通过中间域重构和目标特征转换的协同学习,该方法有效解决了跨域小样本学习中的域差异问题,取得了优异的性能表现。
[77] NeuralSSD: A Neural Solver for Signed Distance Surface Reconstruction
Zi-Chen Xi,Jiahui Huang,Hao-Xiang Chen,Francis Williams,Qun-Ce Xu,Tai-Jiang Mu,Shi-Min Hu
Main category: cs.CV
TL;DR: 提出NeuralSSD方法,基于神经Galerkin方法从点云数据重建3D隐式表面,通过新的能量方程和卷积网络实现高质量表面重建。
- Motivation: 现有隐式场参数化方法缺乏确保表面与输入数据紧密拟合的明确机制,需要解决点云信息可靠性的平衡问题。
- Method: 提出基于神经Galerkin方法的求解器,引入新的能量方程平衡点云信息可靠性,并使用新的卷积网络学习三维信息实现优化。
- Result: 在ShapeNet和Matterport等挑战性数据集上评估,在表面重建精度和泛化性方面达到最先进水平。
- Conclusion: NeuralSSD能够确保重建表面紧密贴合原始输入点,并从点云中推断有价值的归纳偏置,实现高精度和稳定的表面重建。
[78] NeuralBoneReg: A Novel Self-Supervised Method for Robust and Accurate Multi-Modal Bone Surface Registration
Luohong Wu,Matthias Seibold,Nicola A. Cavalcanti,Yunke Ao,Roman Flepp,Aidana Massalimova,Lilian Calvet,Philipp Fürnstahl
Main category: cs.CV
TL;DR: NeuralBoneReg是一个自监督、基于表面的骨表面配准框架,使用3D点云作为模态无关表示,在计算机辅助骨科手术中实现跨模态骨表面配准。
- Motivation: 在计算机辅助骨科手术中,术前和术中数据的模态异质性使得配准具有挑战性且容易出错,需要鲁棒、自动且模态无关的骨表面配准方法。
- Method: NeuralBoneReg包含两个模块:学习术前骨模型的隐式神经无符号距离场(UDF),以及执行全局初始化和局部细化的基于MLP的配准模块,通过生成变换假设将术中点云与神经UDF对齐。
- Result: 在三个多模态数据集上的评估显示,NeuralBoneReg在所有数据集上均达到或超过现有方法,在UltraBones100k上平均RRE/RTE为1.68°/1.86 mm,在UltraBones-Hip上为1.88°/1.89 mm,在SpineDepth上为3.79°/2.45 mm。
- Conclusion: NeuralBoneReg在解剖结构和模态之间表现出强大的泛化能力,为CAOS提供了鲁棒且准确的跨模态对齐。
[79] GEN3D: Generating Domain-Free 3D Scenes from a Single Image
Yuxin Zhang,Ziyu Lu,Hongbo Duan,Keyu Fan,Pengting Luo,Peiyu Zhuang,Mengyu Yang,Houde Liu
Main category: cs.CV
TL;DR: Gen3d是一种从单张图像生成高质量通用3D场景的新方法,通过RGBD图像生成初始点云,维护和扩展世界模型,并优化高斯泼溅表示来生成3D场景。
- Motivation: 神经3D重建依赖密集多视角捕获限制了应用范围,而3D场景生成对于推进具身AI和世界模型至关重要,需要多样化的高质量场景进行学习和评估。
- Method: 从RGBD图像生成初始点云,维护和扩展世界模型,通过优化高斯泼溅表示来最终生成3D场景。
- Result: 在多样化数据集上的广泛实验表明,该方法在生成世界模型和合成高保真、一致的新视角方面具有强大的泛化能力和优越性能。
- Conclusion: Gen3d方法能够从单张图像生成高质量、宽范围的通用3D场景,在3D场景生成任务中表现出色。
[80] SAM-Fed: SAM-Guided Federated Semi-Supervised Learning for Medical Image Segmentation
Sahar Nasirihaghighi,Negin Ghamsarian,Yiping Li,Marcel Breeuwer,Raphael Sznitman,Klaus Schoeffmann
Main category: cs.CV
TL;DR: SAM-Fed是一个联邦半监督学习框架,利用高容量分割基础模型指导轻量级客户端训练,通过双重知识蒸馏和自适应一致性机制提升像素级监督质量
- Motivation: 解决医疗图像分割中数据隐私和专家标注成本高的问题,同时应对联邦半监督学习中伪标签可靠性依赖本地模型强度、客户端设备计算资源有限导致的模型架构紧凑或异构的挑战
- Method: 提出SAM-Fed框架,结合双重知识蒸馏和自适应一致性机制来优化像素级监督,利用高容量分割基础模型指导轻量级客户端训练
- Result: 在皮肤病变和息肉分割任务上的实验表明,SAM-Fed在均匀和异构设置下均优于最先进的联邦半监督学习方法
- Conclusion: SAM-Fed通过利用基础模型指导轻量级客户端,有效解决了联邦半监督学习中的伪标签质量和模型异构性问题,在医疗图像分割任务中表现出色
[81] Iterative Diffusion-Refined Neural Attenuation Fields for Multi-Source Stationary CT Reconstruction: NAF Meets Diffusion Model
Jiancheng Fang,Shaoyu Wang,Junlin Wang,Weiwen Wu,Yikun Zhang,Qiegen Liu
Main category: cs.CV
TL;DR: 提出Diff-NAF框架,通过神经衰减场与条件扩散模型结合,迭代优化超稀疏视角CT重建质量
- Motivation: 多源静态CT在超稀疏视角采样下重建质量严重下降,传统方法难以处理这种极端稀疏条件
- Method: 结合神经衰减场表示和双分支条件扩散模型,采用角度先验引导投影合成策略和扩散驱动的重用投影细化模块进行迭代优化
- Result: 在多个模拟3D CT体积和真实投影数据上,Diff-NAF在超稀疏视角条件下实现了最佳性能
- Conclusion: Diff-NAF通过迭代细化有效提升了超稀疏视角条件下的投影完整性和重建保真度
[82] Dental3R: Geometry-Aware Pairing for Intraoral 3D Reconstruction from Sparse-View Photographs
Yiyi Miao,Taoyu Wu,Tong Chen,Ji Jiang,Zhe Tang,Zhengyong Jiang,Angelos Stefanidis,Limin Yu,Jionglong Su
Main category: cs.CV
TL;DR: Dental3R是一个用于稀疏口腔内照片的3D重建方法,通过几何感知配对策略和基于小波的正则化,解决了传统方法在远程正畸中的挑战。
- Motivation: 传统口腔内扫描方法无法用于远程正畸,而现有3D高斯溅射方法在处理稀疏、无姿态的口腔照片时存在稳定性差和细节丢失问题。
- Method: 提出几何感知配对策略(GAPS)选择高价值图像对,结合小波正则化目标训练3D高斯溅射模型,保持精细结构同时抑制高频伪影。
- Result: 在950个临床案例和195个视频测试集上验证,Dental3R能有效处理稀疏无姿态输入,在牙齿咬合可视化方面优于现有方法。
- Conclusion: Dental3R为远程正畸提供了稳健、高保真的3D重建解决方案,能够从稀疏口腔照片中恢复关键诊断细节。
[83] LSP-YOLO: A Lightweight Single-Stage Network for Sitting Posture Recognition on Embedded Devices
Nanjun Li,Ziyue Hao,Quanqiang Wang,Xuanyin Wang
Main category: cs.CV
TL;DR: 提出LSP-YOLO,一种用于嵌入式边缘设备的轻量级单阶段坐姿识别网络,通过集成PConv和SimAM设计Light-C3k2模块,在保持特征提取能力的同时减少计算成本,在PC上达到94.2%准确率和251FPS。
- Motivation: 随着久坐行为增加,不良坐姿引起的健康问题日益受到关注。现有方法依赖两阶段流程,导致高侵入性、密集计算和在嵌入式边缘设备上实时性差。
- Method: 基于YOLOv11-Pose,集成部分卷积(PConv)和相似性感知激活模块(SimAM)设计轻量级模块Light-C3k2;在识别头中通过逐点卷积将关键点直接映射到姿势类别,并采用中间监督实现姿态估计和分类的高效融合;构建包含6个姿势类别的5000张图像数据集。
- Result: 最小模型LSP-YOLO-n在PC上达到94.2%准确率和251FPS,模型大小仅1.9MB;在SV830C + GC030A平台上展示了在受限计算资源下的实时高精度推理能力。
- Conclusion: 该方法具有高效率、轻量级设计和可部署性,适用于智能教室、康复和人机交互应用。
[84] Step by Step Network
Dongchen Han,Tianzhu Ye,Zhuofan Xia,Kaiyi Chen,Yulin Wang,Hanting Chen,Gao Huang
Main category: cs.CV
TL;DR: StepsNet是一种广义残差架构,通过通道维度特征分离和逐步增加宽度的块堆叠来解决深度网络中的快捷连接退化和宽度限制问题,在多个任务上优于传统残差模型。
- Motivation: 随着网络深度增加,当前架构难以实现理论上的容量提升,主要面临两个障碍:快捷连接退化和有限的宽度限制,需要更先进的设计来释放更深网络的潜力。
- Method: 提出StepsNet架构,沿通道维度分离特征,通过堆叠宽度逐步增加的块让模型逐步学习,缓解快捷连接退化和深度-宽度权衡问题。
- Result: 在图像分类、目标检测、语义分割和语言建模等多样化任务上的广泛实验表明,该方法始终优于残差模型。
- Conclusion: StepsNet作为广泛采用的残差架构的优越泛化,能够更好地释放深度网络的潜力。
[85] ArchMap: Arch-Flattening and Knowledge-Guided Vision Language Model for Tooth Counting and Structured Dental Understanding
Bohan Zhang,Yiyi Miao,Taoyu Wu,Tong Chen,Ji Jiang,Zhuoxiao Li,Zhe Tang,Limin Yu,Jionglong Su
Main category: cs.CV
TL;DR: ArchMap是一个无需训练的知识引导框架,用于3D口腔扫描的结构化理解,通过几何感知的牙弓展平模块和牙科知识库实现稳健的牙齿计数、解剖分区和临床状况识别。
- Motivation: 现有深度学习方法依赖模态特定训练、大量标注数据和受控扫描条件,限制了跨设备泛化能力,且原始口腔网格存在牙弓姿态变化、几何不完整和缺乏纹理线索等问题。
- Method: 提出几何感知的牙弓展平模块将原始3D网格标准化为空间对齐的多视图投影,并构建牙科知识库编码分层牙齿本体论、牙列阶段策略和临床语义来约束符号推理空间。
- Result: 在1060个正畸前后病例上验证,在牙齿计数、解剖分区、牙列阶段分类及拥挤、缺失牙、修复体和龋齿等临床状况识别方面表现稳健,相比监督方法和VLM基线具有更高准确性和稳定性。
- Conclusion: 结合几何标准化与本体论引导的多模态推理为3D口腔扫描的结构化分析提供了实用且可扩展的解决方案。
[86] Silhouette-to-Contour Registration: Aligning Intraoral Scan Models with Cephalometric Radiographs
Yiyi Miao,Taoyu Wu,Ji Jiang,Tong Chen,Zhe Tang,Zhengyong Jiang,Angelos Stefanidis,Limin Yu,Jionglong Su
Main category: cs.CV
TL;DR: DentalSCR是一个用于口腔扫描模型与侧位头颅X光片3D-2D配准的稳定轮廓引导框架,通过构建统一解剖坐标系和表面投影方法,解决传统强度驱动配准在临床条件下的不稳定问题。
- Motivation: 传统基于强度的配准方法在真实临床条件下(如X光片投影放大、几何畸变、低对比度牙冠等)难以稳定工作,导致收敛失败或解剖学上不合理的对齐结果。
- Method: 首先构建U-Midline Dental Axis建立统一解剖坐标系,然后通过表面DRR和Gaussian splatting生成类似X光片的投影,最后使用对称双向Chamfer距离进行2D相似变换优化。
- Result: 在34个专家标注的临床病例上评估,显著减少了标志点误差(特别是后牙区域),下颌骨误差分布更集中,曲线级别的Chamfer和Hausdorff距离表现优异。
- Conclusion: DentalSCR能够稳健处理真实世界头颅X光片,提供高保真度、临床可检查的3D-2D对齐效果,优于传统基线方法。
[87] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries
Junfu Pu,Teng Wang,Yixiao Ge,Yuying Ge,Chen Li,Ying Shan
Main category: cs.CV
TL;DR: ARC-Chapter是首个基于百万级长视频章节数据训练的大规模视频章节划分模型,通过双语、时序定位和分层章节标注,在视频内容结构化方面实现了显著性能提升。
- Motivation: 随着时长视频(如讲座、播客、纪录片)的普及,对高效内容结构化的需求增加,但现有方法受限于小规模训练和粗粒度标注,难以泛化到长视频中的细微过渡。
- Method: 通过结构化流水线构建双语英中章节数据集,统一ASR转录、场景文本和视觉描述为多级标注(从短标题到长摘要),并设计了新的评估指标GRACE来反映实际章节划分的灵活性。
- Result: ARC-Chapter在F1分数和SODA分数上分别比之前最佳方法提升了14.0%和11.3%,并在YouCook2等下游任务的密集视频描述任务中表现出优秀的迁移能力。
- Conclusion: ARC-Chapter通过大规模数据训练和创新的评估方法,在视频章节划分任务上建立了新的最先进水平,并展示了良好的泛化能力。
[88] IBGS: Image-Based Gaussian Splatting
Hoang Chuong Nguyen,Wei Mao,Jose M. Alvarez,Miaomiao Liu
Main category: cs.CV
TL;DR: 提出Image-Based Gaussian Splatting方法,通过结合标准3DGS渲染的基础颜色和从相邻训练图像学习的残差,显著提升了渲染质量,特别是高频细节和视角相关效果。
- Motivation: 现有3DGS方法使用低阶球谐函数难以捕捉空间变化的颜色和视角相关效果,而现有增强方法要么使用全局纹理图(处理复杂场景困难),要么使用每个高斯的纹理图(存储开销大)。
- Method: 将每个像素颜色建模为标准3DGS渲染的基础颜色与从相邻训练图像学习的残差的组合,利用高分辨率源图像进行精细细节和视角特定颜色建模。
- Result: 在标准NVS基准测试中,该方法在渲染质量上显著优于先前的Gaussian Splatting方法,且不增加存储占用。
- Conclusion: Image-Based Gaussian Splatting是一种高效的替代方案,能够渲染高频细节和准确的视角相关效果,同时保持较低的存储需求。
[89] Clinically-Validated Innovative Mobile Application for Assessing Blinking and Eyelid Movements
Gustavo Adolpho Bonesso,Carlos Marcelo Gurjão de Godoy,Tammy Hentona Osaki,Midori Hentona Osaki,Bárbara Moreira Ribeiro Trindade dos Santos,Regina Célia Coelho
Main category: cs.CV
TL;DR: Bapp移动应用通过Google ML Kit实现实时眼睑运动分析,临床验证显示98.3%准确率,为眼睑运动监测提供便携客观工具。
- Motivation: 现有眼睑运动评估工具复杂昂贵且临床应用有限,需要开发便携易用的客观监测工具。
- Method: 使用Flutter框架开发移动应用Bapp,集成Google ML Kit进行设备端实时眼睑运动分析,通过45个真实患者视频与眼科专家手动标注进行验证。
- Result: Bapp达到98.4%精确率、96.9%召回率和98.3%总体准确率,验证了其可靠性。
- Conclusion: Bapp为正常和异常眼睑运动监测提供了便携、可访问的客观工具,是传统手动眨眼计数的有前景替代方案。
[90] O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model
Rishi Gupta,Mukilan Karuppasamy,Shyam Marjit,Aditay Tripathi,Anirban Chakraborty
Main category: cs.CV
TL;DR: 提出了O3SLM模型,通过大规模图像-草图-指令三元组数据集解决LVLMs理解手绘草图的瓶颈,在多个草图任务上达到最先进性能。
- Motivation: 现有大型视觉语言模型在理解抽象视觉输入(特别是手绘草图)方面能力有限,主要瓶颈是缺乏同时建模草图、真实图像和自然语言指令的大规模数据集。
- Method: 构建大规模图像-草图-指令三元组数据集,并基于此训练O3SLM模型,结合了预训练和指令调优。
- Result: 在对象定位、计数、图像检索(SBIR和细粒度SBIR)和视觉问答等多个草图任务上,O3SLM显著优于现有LVLMs,达到最先进性能。
- Conclusion: 通过专门的数据集和模型设计,成功提升了LVLMs对草图的理解和推理能力,为抽象视觉输入的理解开辟了新途径。
[91] Blur-Robust Detection via Feature Restoration: An End-to-End Framework for Prior-Guided Infrared UAV Target Detection
Xiaolin Wang,Houzhang Fang,Qingshan Li,Lu Wang,Yi Chang,Luxin Yan
Main category: cs.CV
TL;DR: 提出JFD3框架,联合特征域去模糊与检测,通过双分支架构和特征一致性监督,在红外无人机模糊图像上实现高效检测。
- Motivation: 红外无人机图像因快速移动产生运动模糊,降低目标与背景对比度。现有方法将去模糊作为预处理,忽视检测任务相关特征的增强。
- Method: 设计共享权重的双分支架构,清晰分支指导模糊分支;引入轻量级特征恢复网络;提出频率结构引导模块;施加特征一致性自监督损失。
- Result: 在IRBlurUAV基准测试中,JFD3实现优越检测性能并保持实时效率。
- Conclusion: JFD3框架通过联合特征域去模糊与检测,有效提升模糊红外无人机图像的目标检测能力。
[92] A Quantitative Method for Shoulder Presentation Evaluation in Biometric Identity Documents
Alfonso Pedro Ridao
Main category: cs.CV
TL;DR: 提出了一种肩部姿态评估算法,用于自动评估生物识别证件中人像的肩部姿态是否符合国际标准要求。
- Motivation: 国际生物识别证件标准要求严格的姿态合规性,特别是肩部必须正面呈现,但现有自动化质量评估方法缺乏对此特定属性的定量评估手段。
- Method: 使用常见姿态估计框架提供的两个肩部标志点的3D坐标,量化肩部偏航角和滚转角,开发肩部姿态评估算法。
- Result: 在121张人像图像数据集上评估,SPE得分与人工标注显示出强Pearson相关性(r≈0.80),错误-丢弃分析证实了该指标在识别不合规样本方面的有效性。
- Conclusion: 该算法是一种可行的轻量级工具,可用于注册系统中的自动合规性检查。
[93] Cheating Stereo Matching in Full-scale: Physical Adversarial Attack against Binocular Depth Estimation in Autonomous Driving
Kangqiao Zhao,Shuo Huai,Xurui Song,Jun Luo
Main category: cs.CV
TL;DR: 提出了首个针对自动驾驶中立体匹配模型的纹理化物理对抗攻击,使用3D全局伪装纹理而非局部2D补丁,确保立体相机不同视角下的视觉一致性和攻击效果。
- Motivation: 现有对抗攻击多采用2D补丁且主要针对单目感知,立体双目深度估计中物理对抗样本的有效性尚未充分探索。
- Method: 采用3D物理对抗样本和全局伪装纹理,提出3D立体匹配渲染模块处理相机视差效应,并开发了新颖的融合攻击方法,通过细粒度优化将目标无缝融入环境。
- Result: 广泛评估表明,该方法能成功欺骗立体模型产生错误的深度信息,相比现有隐藏攻击具有显著增强的隐蔽性和杀伤力。
- Conclusion: 该方法证明了在自动驾驶立体感知系统中物理对抗攻击的有效性,为立体视觉安全提供了新的研究视角。
[94] Enhancing LLM-based Autonomous Driving with Modular Traffic Light and Sign Recognition
Fabian Schmidt,Noushiq Mohammed Kayilan Abdul Nazar,Markus Enzweiler,Abhinav Valada
Main category: cs.CV
TL;DR: TLS-Assist是一个模块化冗余层,通过显式识别交通灯和标志来增强基于LLM的自动驾驶代理,提高驾驶性能和安全性。
- Motivation: 当前基于LLM的驾驶代理缺乏显式机制来强制执行交通规则,且难以可靠检测安全关键的小物体如交通灯和标志。
- Method: TLS-Assist将检测结果转换为结构化自然语言消息并注入LLM输入,强制关注安全关键提示,支持单视图和多视图相机设置。
- Result: 在CARLA的LangAuto基准测试中,相对LMDrive性能提升达14%,相对BEVDriver提升7%,同时持续减少交通灯和标志违规。
- Conclusion: TLS-Assist是一个即插即用、模型无关的框架,有效增强了LLM驾驶代理的安全性和可靠性。
[95] BEDLAM2.0: Synthetic Humans and Cameras in Motion
Joachim Tesch,Giorgio Becherini,Prerana Achar,Anastasios Yiannakidis,Muhammed Kocabas,Priyanka Patel,Michael J. Black
Main category: cs.CV
TL;DR: BEDLAM2.0是一个新的3D人体运动数据集,相比BEDLAM数据集增加了更多样化和真实的相机运动、人体形状、动作、服装、头发、3D环境等,并添加了鞋子。该数据集特别适用于训练在世界坐标系中估计人体运动的方法。
- Motivation: 从视频中推断3D人体运动是一个具有挑战性的问题,许多应用需要在世界坐标系中估计人体运动。现有方法在此方面的进展受到缺乏包含真实人体和相机运动的地面真实视频数据的限制。
- Method: 开发BEDLAM2.0数据集,通过增加更多样化和真实的相机和相机运动、人体形状、动作、服装、头发、3D环境,并添加鞋子来扩展BEDLAM数据集。
- Result: 与在BEDLAM上训练的方法相比,在BEDLAM2.0上训练的最先进方法显著提高了准确性,特别是在训练估计世界坐标系中人体运动的方法方面表现更好。
- Conclusion: BEDLAM2.0是一个比BEDLAM更好的数据集,为训练3D人体姿态和运动回归器提供了关键资源,特别适用于需要世界坐标系人体运动估计的应用。
[96] Stage Aware Diagnosis of Diabetic Retinopathy via Ordinal Regression
Saksham Kumar,D Sridhar Aditya,T Likhil Kumar,Thulasi Bikku,Srinivasarao Thota,Chandan Kumar
Main category: cs.CV
TL;DR: 提出了一种基于序数回归的糖尿病视网膜病变检测框架,在APTOS-2019数据集上取得了0.8992的QWK分数,创下新纪录。
- Motivation: 糖尿病视网膜病变已成为可预防性失明的主要原因,通过及时筛查和干预可以防止不可逆损伤。
- Method: 使用绿通道提取、噪声掩蔽和CLAHE等预处理方法,结合序数回归框架进行DR分类。
- Result: 序数回归方法在APTOS数据集上获得了0.8992的QWK分数,优于现有方法。
- Conclusion: 该序数回归框架在糖尿病视网膜病变检测方面表现出色,为临床筛查提供了有效的自动化解决方案。
[97] Language as an Anchor: Preserving Relative Visual Geometry for Domain Incremental Learning
Shuyi Geng,Tao Zhou,Yi Zhou
Main category: cs.CV
TL;DR: LAVA提出了一种新的领域增量学习框架,通过基于文本的参考锚点进行相对对齐,解决了现有方法在统一视觉空间和领域特定参数之间的两难困境。
- Motivation: 解决领域增量学习中统一视觉空间导致的领域间干扰和语义扭曲问题,以及隔离领域特定参数导致的知识碎片化问题。
- Method: 使用语言锚定的视觉对齐方法,通过文本参考锚点驱动相对对齐,保持一致的相对几何结构,实现跨领域的知识检索和特征聚合。
- Result: 在标准领域增量学习基准测试中取得了显著的性能提升,优于现有最先进方法。
- Conclusion: LAVA框架通过语言锚定的相对对齐方法,有效解决了领域增量学习中的知识保持和干扰问题,实现了更好的持续学习性能。
[98] Cranio-ID: Graph-Based Craniofacial Identification via Automatic Landmark Annotation in 2D Multi-View X-rays
Ravi Shankar Prasad,Nandani Sharma,Dinesh Singh
Main category: cs.CV
TL;DR: 提出Cranio-ID框架,通过YOLO-pose模型自动标注2D头骨X射线扫描图像上的关键点,并将这些关键点转换为图表示,使用交叉注意力和最优传输框架进行跨模态匹配。
- Motivation: 传统颅骨关键点定位方法耗时且需要专业知识,现有基于深度学习的自动标注方法由于缺乏大规模验证研究而不可靠。
- Method: 1. 使用训练的YOLO-pose模型在2D头骨X射线图像上自动标注关键点;2. 将关键点转换为图表示,使用交叉注意力和最优传输框架进行跨模态图语义匹配。
- Result: 在S2F和CUHK数据集上的广泛实验表明,该框架在可靠性和准确性方面均有显著提升,在法医学中的跨域头骨-面部和素描-面部匹配中有效。
- Conclusion: Cranio-ID框架为法医颅面识别提供了一种可靠且准确的自动关键点标注和跨模态匹配解决方案。
[99] Learning to See Through a Baby's Eyes: Early Visual Diets Enable Robust Visual Intelligence in Humans and Machines
Yusen Cai,Bhargava Satya Nunna,Qing Lin,Mengmi Zhang
Main category: cs.CV
TL;DR: 该研究通过模拟婴儿视觉发育的阶段性特征(灰度到彩色、模糊到清晰、保持时间连续性)训练自监督学习模型,发现这种"视觉饮食"策略能增强模型的鲁棒性,并产生与生物发育相似的模式。
- Motivation: 探索婴儿视觉发育的阶段性特征(低清晰度、颜色退化、时间连续性)如何为机器视觉系统提供生态优势,理解早期视觉经验对鲁棒视觉智能形成的作用。
- Method: 使用CATDiet方法训练自监督学习模型,模拟婴儿视觉的三个约束条件:灰度到彩色(C)、模糊到清晰(A)、保持时间连续性(T)。建立包含10个数据集的综合基准进行评估。
- Result: 所有CATDiet变体在物体识别方面表现出增强的鲁棒性,模型显示出与生物发育一致的模式,包括类似于猕猴V1区突触密度的神经可塑性变化和婴儿视觉悬崖反应的行为。
- Conclusion: 早期婴儿视觉经验的发育进程为理解机器中鲁棒视觉智能的出现提供了一个强大的逆向工程框架,这种"视觉饮食"策略能有效提升模型的泛化能力和生物对齐性。
[100] Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding
Hong Gao,Yiming Bao,Xuezhen Tu,Yutong Xu,Yue Jin,Yiyang Mu,Bin Zhong,Linan Yue,Min-Ling Zhang
Main category: cs.CV
TL;DR: AVI是一个无需训练的视频理解框架,通过类人的三阶段推理过程(检索-感知-回顾)和结构化知识库,结合开源模型集成,实现高效视频理解。
- Motivation: 现有视频理解方法要么依赖昂贵的专有模型,要么需要大量强化学习训练,缺乏证据重访和迭代优化的能力。
- Method: 提出三阶段推理过程、结构化视频知识库(实体图)和开源模型集成,无需依赖专有API或RL训练。
- Result: 在LVBench、VideoMME-Long、LongVideoBench和Charades-STA等基准测试中表现优异,同时提供更好的可解释性。
- Conclusion: AVI框架在保持竞争力的同时,提供了更灵活、可解释且无需训练的视频理解解决方案。
[101] DIR-TIR: Dialog-Iterative Refinement for Text-to-Image Retrieval
Zongwei Zhen,Biqing Zeng
Main category: cs.CV
TL;DR: DIR-TIR框架通过对话精炼模块和图像精炼模块的协同工作,实现交互式对话文本到图像检索,显著提升目标图像命中精度。
- Motivation: 解决传统单查询文本到图像检索方法在可控性和容错性方面的不足,通过多轮对话实现更精确的目标图像搜索。
- Method: 使用两个专门模块:对话精炼模块主动询问用户提取关键信息并生成精确描述;图像精炼模块识别生成图像与用户意图之间的感知差距,减少视觉语义差异。
- Result: 在多样化图像数据集上的综合实验表明,该对话式方法显著优于仅使用初始描述的基线方法,实现了更高的检索精度和更好的交互体验。
- Conclusion: DIR-TIR框架通过多轮对话和模块协同,在交互式文本到图像检索任务中提供了优越的可控性和容错性,显著提升了目标图像的检索准确性。
[102] CompEvent: Complex-valued Event-RGB Fusion for Low-light Video Enhancement and Deblurring
Mingchen Zhong,Xin Lu,Dong Li,Senyan Xu,Ruixuan Jiang,Xueyang Fu,Baocai Yin
Main category: cs.CV
TL;DR: CompEvent是一种用于低光视频去模糊的复杂神经网络框架,通过全流程融合事件数据和RGB帧来实现联合恢复,在低光条件下显著优于现有方法。
- Motivation: 解决低光视频去模糊的挑战,特别是在夜间监控和自动驾驶等应用中,现有分阶段融合方法对低光和运动模糊组合退化的效果有限。
- Method: 提出CompEvent框架,包含两个核心组件:复杂时间对齐GRU(使用复值卷积和GRU迭代处理视频和事件流)和复杂空间频率学习模块(在空间和频域进行统一复值信号处理)。
- Result: 大量实验表明CompEvent在解决这一挑战性任务方面优于最先进的方法。
- Conclusion: 通过利用复值神经网络的全流程表示能力,CompEvent实现了全流程时空融合,最大化模态间的互补学习,显著增强了低光视频去模糊能力。
[103] Learning Subglacial Bed Topography from Sparse Radar with Physics-Guided Residuals
Bayu Adhi Tama,Jianwu Wang,Vandana Janeja,Mostafa Cham
Main category: cs.CV
TL;DR: 提出了一种物理引导的残差学习框架,通过预测BedMachine先验上的床层厚度残差,从观测表面重建冰下床层地形,在格陵兰岛两个子区域实现了优于其他方法的测试精度和结构保真度。
- Motivation: 精确的冰下床层地形对冰盖建模至关重要,但雷达观测稀疏且分布不均,需要开发能够处理稀疏观测并保持物理合理性的方法。
- Method: 使用DeepLabV3+解码器和标准编码器(如ResNet-50),结合轻量级物理和数据项进行训练:多尺度质量守恒、流向对齐总变差、拉普拉斯阻尼、厚度非负性、斜坡先验一致性项,以及由置信度图调制的雷达拾取掩码Huber拟合。
- Result: 在两个格陵兰子区域上,该方法在测试核心区域实现了强大的精度和高结构保真度,优于U-Net、Attention U-Net、FPN和普通CNN。
- Conclusion: 基于先验的残差设计结合物理约束,能够产生空间连贯、物理合理的床层地形,适用于领域偏移下的操作制图。
[104] 2D Gaussians Spatial Transport for Point-supervised Density Regression
Miao Shang,Xiaopeng Hong
Main category: cs.CV
TL;DR: Gaussian Spatial Transport (GST) 是一个利用高斯泼溅将图像坐标空间中的概率测度传输到标注图的框架,通过贝叶斯概率计算传输计划,避免了训练期间迭代计算传输计划,显著提高了效率。
- Motivation: 传统最优传输方案在训练过程中需要迭代计算传输计划,效率较低。本文旨在开发一种更高效的传输框架,避免这种迭代计算。
- Method: 提出基于高斯泼溅的方法来估计像素-标注对应关系,然后使用贝叶斯概率计算传输计划,并推导出衡量传输后差异的损失函数。
- Result: 在人群计数和地标检测等计算机视觉任务上的广泛实验验证了该方法的有效性。
- Conclusion: GST 框架相比传统最优传输方案,消除了训练期间迭代计算传输计划的需求,显著提高了效率,并在多个计算机视觉任务上表现出色。
[105] Segmentation-Aware Latent Diffusion for Satellite Image Super-Resolution: Enabling Smallholder Farm Boundary Delineation
Aditi Agarwal,Anjali Jain,Nikita Saxena,Ishan Deshpande,Michal Kazmierski,Abigail Annkah,Nadav Sherman,Karthikeyan Shanmugam,Alok Talekar,Vaibhav Rajan
Main category: cs.CV
TL;DR: SEED-SR是一种新的方法,通过在分割感知的潜在空间中进行超分辨率,而不是像素空间,实现了20倍尺度因子的农场边界分割,显著提升了实例和语义分割性能。
- Motivation: 解决小农农场边界分割的挑战,特别是需要结合高分辨率(低频率)和低分辨率(高频率)卫星图像,以支持更频繁的季节性监测。现有Ref-SR方法在感知质量优化时平滑了关键特征,且无法满足大尺度因子需求。
- Method: 使用条件潜在扩散模型和大规模多光谱、多源地理空间基础模型,绕过像素空间的显式超分辨率任务,在分割感知的潜在空间中执行超分辨率。
- Result: 在两个大型真实数据集上的实验表明,相对于基于最先进Ref-SR方法的方法,实例分割指标相对提升25.5%,语义分割指标相对提升12.9%。
- Conclusion: SEED-SR通过独特的分割感知潜在空间超分辨率方法,能够以前所未有的20倍尺度因子生成分割图,显著提升了农场边界分割的性能。
[106] Enhancing End-to-End Autonomous Driving with Risk Semantic Distillaion from VLM
Jack Qin,Zhitao Wang,Yinan Zheng,Keyu Chen,Yang Zhou,Yuanxin Zhong,Siyuan Cheng
Main category: cs.CV
TL;DR: 提出了Risk Semantic Distillation (RSD)框架,利用视觉语言模型增强端到端自动驾驶系统的泛化能力,通过RiskHead模块将风险注意力蒸馏到BEV特征中。
- Motivation: 解决当前自动驾驶系统在泛化能力上的限制,特别是处理未见场景和不同传感器配置的能力,同时避免混合系统的不一致性和端到端解决方案的高计算成本。
- Method: 引入RiskHead插件模块,从视觉语言模型中蒸馏因果风险估计到鸟瞰图特征,生成可解释的风险注意力图,使BEV特征学习更丰富的风险注意力表示。
- Result: 在Bench2Drive基准测试中,RSD显著提升了感知和规划能力,能够有效处理复杂和不可预测的驾驶条件。
- Conclusion: RSD通过风险注意力蒸馏增强了BEV表示,提高了自动驾驶系统在复杂动态环境中的泛化能力和人类化驾驶行为。
[107] Parameter Aware Mamba Model for Multi-task Dense Prediction
Xinzhuo Yu,Yunzhi Zhuge,Sitong Gong,Lu Zhang,Pingping Zhang,Huchuan Lu
Main category: cs.CV
TL;DR: 提出PAMM框架,利用状态空间模型增强多任务密集预测中的任务互联性,通过双状态空间参数专家和Hilbert扫描方法提升性能。
- Motivation: 现有方法主要使用卷积层和注意力机制探索任务级交互,但需要更有效的方法来理解任务间的相互关系和交互。
- Method: 采用基于解码器的PAMM框架,利用状态空间模型的丰富参数,包含双状态空间参数专家来集成任务特定参数先验,并使用多方向Hilbert扫描构建多角度特征序列。
- Result: 在NYUD-v2和PASCAL-Context基准测试上的广泛实验证明了该方法的有效性。
- Conclusion: PAMM框架通过状态空间模型有效增强了多任务密集预测中的任务互联性,取得了优越的性能。
[108] D-PerceptCT: Deep Perceptual Enhancement for Low-Dose CT Images
Taifour Yousra Nabila,Azeddine Beghdadi,Marie Luong,Zuheng Ming,Habib Zaidi,Faouzi Alaya Cheikh
Main category: cs.CV
TL;DR: 提出D-PerceptCT模型,基于人类视觉系统原理增强低剂量CT图像质量,通过语义感知和全局-局部特征提取来保留诊断关键细节。
- Motivation: 解决现有低剂量CT增强方法过度平滑、丢失关键细节的问题,为放射科医生提供感知可见的关键解剖结构和病理细节。
- Method: 使用视觉双路径提取器整合预训练DINOv2模型的语义先验与局部空间特征,结合全局-局部状态空间块捕获长距离信息,并引入基于人类对比敏感度的深度感知相关性损失函数。
- Result: 在Mayo2016数据集上的实验表明,相比现有最优方法,D-PerceptCT能更好地保留低剂量CT图像中的结构和纹理信息。
- Conclusion: D-PerceptCT通过模拟人类视觉系统原理,有效提升了低剂量CT图像质量,为临床诊断提供了更可靠的图像支持。
[109] A Generative Data Framework with Authentic Supervision for Underwater Image Restoration and Enhancement
Yufeng Tian,Yifan Chen,Zhe Sun,Libang Chen,Mingyu Dou,Jijun Lu,Ye Zheng,Xuelong Li
Main category: cs.CV
TL;DR: 该论文提出了一种使用自然图像生成合成水下数据集的方法,通过图像到图像转换技术构建包含6种典型水下退化类型的大规模数据集,为水下图像恢复和增强提供可靠的监督信号。
- Motivation: 当前水下图像恢复方法受限于高质量配对数据集的稀缺性,现有基准数据集往往依赖算法手动选择的结果,缺乏全局一致的色彩和真实监督,限制了模型的色彩恢复、图像增强和泛化能力。
- Method: 基于非配对图像到图像转换的生成数据框架,将自然图像转换为水下退化版本,构建包含6种代表性水下退化类型的大规模合成数据集,提供精确的地面真值标签。
- Result: 在6种代表性网络架构和3个独立测试集上的实验表明,使用合成数据训练的模型在色彩恢复和泛化性能上达到或优于现有基准数据集训练的模型。
- Conclusion: 该研究为水下图像恢复和增强提供了可靠且可扩展的数据驱动解决方案,生成的合成数据集可有效促进准确的水下图像恢复映射学习。
[110] DeCo-VAE: Learning Compact Latents for Video Reconstruction via Decoupled Representation
Xiangchen Yin,Jiahui Yuan,Zhangchi Hu,Wenzhang Sun,Jie Chen,Xiaozhen Qiao,Hao Li,Xiaoyan Sun
Main category: cs.CV
TL;DR: DeCo-VAE通过将视频内容解耦为关键帧、运动和残差三个组件,为每个组件学习专门的潜在表示,从而减少冗余并实现紧凑的潜在表示。
- Motivation: 现有的视频变分自编码器通常忽略帧内容之间的相似性,导致潜在建模冗余。
- Method: 将视频内容分解为关键帧、运动和残差三个组件,为每个组件设计专用编码器,使用共享的3D解码器保持时空一致性,并采用解耦适应策略进行顺序训练。
- Result: 广泛的定量和定性实验表明,DeCo-VAE实现了卓越的视频重建性能。
- Conclusion: 通过显式解耦视频内容并学习专用潜在表示,DeCo-VAE能够实现紧凑的潜在表示和高质量的视频重建。
[111] Learning Compact Latent Space for Representing Neural Signed Distance Functions with High-fidelity Geometry Details
Qiang Bai,Bojian Wu,Xi Yang,Zhizhong Han
Main category: cs.CV
TL;DR: 提出了一种在共享空间中表示多个SDF的方法,通过结合泛化学习和过拟合学习的优势,用更紧凑的潜在表示恢复高保真几何细节。
- Motivation: 现有的神经SDF在单个形状或场景上表现良好,但在分析多个具有高保真几何细节的SDF时存在障碍,主要原因是潜在空间编码信息有限和几何细节丢失。
- Method: 结合泛化学习和过拟合学习策略的优势,提出新颖的训练查询采样策略,提高训练效率并消除其他SDF影响造成的伪影。
- Result: 在广泛使用的基准测试上进行了数值和视觉评估,验证了设计有效性,在表示能力和紧凑性方面优于最新方法。
- Conclusion: 该方法成功克服了多个SDF分析中的障碍,能够用紧凑的潜在表示恢复高保真几何细节。
[112] Interaction-Aware 4D Gaussian Splatting for Dynamic Hand-Object Interaction Reconstruction
Hao Tian,Chenyangguang Zhang,Rui Liu,Wen Shen,Xiaolin Qin
Main category: cs.CV
TL;DR: 提出了一种无需物体先验的动态手-物体交互场景建模方法,通过交互感知的高斯表示和动态场来同时重建几何和外观,采用渐进式优化策略提升重建质量。
- Motivation: 解决在无物体先验情况下,同时建模手-物体交互场景的几何和外观的挑战性问题,特别是处理复杂的相互遮挡和边缘模糊。
- Method: 使用动态3D高斯泼溅方法,引入交互感知的手-物体高斯表示和动态场,采用渐进式优化策略,并设计显式正则化来稳定表示。
- Result: 实验表明该方法超越了现有的动态3D-GS方法,在手-物体交互重建方面达到了最先进的性能。
- Conclusion: 该方法能够有效建模复杂的手-物体交互场景,无需物体先验知识,在动态重建任务中表现出色。
[113] ForensicFlow: A Tri-Modal Adaptive Network for Robust Deepfake Detection
Mohammad Romani
Main category: cs.CV
TL;DR: ForensicFlow是一个用于视频Deepfake检测的三模态取证框架,通过融合RGB、纹理和频率证据,在Celeb-DF数据集上取得了0.9752的AUC和0.9208的准确率。
- Motivation: 现有的单流CNN方法无法捕获跨空间、纹理和频率域的多尺度伪造伪影,限制了检测的鲁棒性和泛化能力。
- Method: 提出三模态取证框架:RGB分支提取全局视觉不一致性,纹理分支检测细粒度混合伪影,频率分支识别周期性频谱噪声。使用注意力机制进行时间池化和分支融合。
- Result: 在Celeb-DF数据集上,AUC达到0.9752,F1分数0.9408,准确率0.9208,优于单流基线方法。
- Conclusion: 这种全面的特征融合方法对细微伪造具有更强的鲁棒性,通过分支协同作用提供了优越的检测性能。
[114] Explaining Digital Pathology Models via Clustering Activations
Adam Bajger,Jan Obdržálek,Vojtěch Kůr,Rudolf Nenutil,Petr Holub,Vít Musil,Tomáš Brázdil
Main category: cs.CV
TL;DR: 提出一种基于聚类的数字病理模型可解释性技术,相比传统的显著性映射方法,该方法能展示模型的全局行为并提供更细粒度的信息。
- Motivation: 传统的显著性映射方法(如遮挡、GradCAM、相关性传播)只能突出显示单个切片中对预测贡献最大的区域,缺乏对模型全局行为的理解,限制了在临床实践中的采用。
- Method: 开发基于聚类的可解释性技术,通过聚类结果可视化来理解模型行为,该方法在检测前列腺癌的现有模型上进行了性能评估。
- Result: 该方法不仅能帮助理解模型,还能增加对其操作的信心,从而促进在临床实践中的更快采用。
- Conclusion: 基于聚类的可解释性技术为数字病理模型提供了更全面的解释能力,有助于推动AI模型在医疗领域的实际应用。
[115] OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models
Keda Tao,Kele Shao,Bohan Yu,Weiqiang Wang,Jian liu,Huan Wang
Main category: cs.CV
TL;DR: OmniZip是一个无需训练、音频引导的音视频token压缩框架,通过识别关键音频token并计算音频保留分数来动态指导视频token剪枝,实现3.42倍推理加速和1.4倍内存减少。
- Motivation: 全模态大语言模型在处理音视频token序列时存在显著计算瓶颈,现有token压缩方法尚未满足联合压缩多模态token的需求。
- Method: 首先识别关键音频token,计算音频保留分数捕捉信息密度,动态指导视频token剪枝并保留音频锚点线索;采用交错时空方案压缩视频token。
- Result: 相比其他顶级方法,OmniZip实现了3.42倍推理加速和1.4倍内存减少,同时保持性能不变。
- Conclusion: OmniZip是一个有效的训练免费音视频token压缩框架,能够显著加速推理并减少内存使用,同时保持模型性能。
[116] Deep Learning-Based Regional White Matter Hyperintensity Mapping as a Robust Biomarker for Alzheimer's Disease
Julia Machnio,Mads Nielsen,Mostafa Mehdipour Ghazi
Main category: cs.CV
TL;DR: 提出深度学习框架用于WMH分割和定位,区域WMH体积优于全局病灶负荷,结合脑萎缩指标可提升疾病分类性能至AUC 0.97
- Motivation: 现有WMH分割方法主要提供全局病灶负荷,忽视了不同白质区域的空间分布差异,而区域WMH量化可能对神经退行性疾病诊断有重要价值
- Method: 深度学习框架用于WMH分割和定位,在公共数据集和ADNI队列中评估,量化解剖定义区域内的WMH负荷并与脑结构体积结合
- Result: 预测病灶负荷与参考WMH估计一致,区域WMH体积在疾病分类中始终优于全局病灶负荷,结合脑萎缩指标可达AUC 0.97,前部白质束区域与AD诊断状态可重复相关
- Conclusion: 区域WMH量化具有附加价值,将局部病灶指标与萎缩标记物结合可增强神经退行性疾病的早期诊断和分层
[117] CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities
Dongqing Xie,Yonghuang Wu,Zisheng Ai,Jun Min,Zhencun Jiang,Shaojin Geng,Lei Wang
Main category: cs.CV
TL;DR: 提出CCSD框架解决多模态MRI中模态缺失问题,通过跨模态组合自蒸馏方法提升脑肿瘤分割的鲁棒性和泛化能力
- Motivation: 临床实践中多模态MRI经常存在一个或多个模态缺失,严重影响深度学习分割模型的性能和泛化能力
- Method: 采用共享-特定编码器-解码器架构,结合层次化模态自蒸馏和渐进式模态组合蒸馏两种策略
- Result: 在公共脑肿瘤分割基准测试中,CCSD在各种缺失模态场景下实现了最先进的性能,具有强大的泛化能力和稳定性
- Conclusion: CCSD框架能灵活处理任意输入模态组合,有效解决临床实践中模态缺失问题,提升脑肿瘤分割的鲁棒性
[118] MRI Embeddings Complement Clinical Predictors for Cognitive Decline Modeling in Alzheimer's Disease Cohorts
Nathaniel Putera,Daniel Vilet Rodríguez,Noah Videcrantz,Julia Machnio,Mostafa Mehdipour Ghazi
Main category: cs.CV
TL;DR: 该研究评估了表格数据和基于MRI的表示在预测阿尔茨海默病认知衰退中的预测能力,发现临床特征在识别高风险极端病例方面表现最佳,而基于transformer的MRI嵌入在区分认知稳定个体方面更有效。
- Motivation: 准确建模阿尔茨海默病的认知衰退对于早期分层和个性化管理至关重要。虽然表格预测因子提供了稳健的全局风险标记,但它们捕捉细微脑变化的能力有限。
- Method: 引入基于动态时间规整聚类的轨迹感知标记策略来捕捉认知变化的异质模式,通过无监督重建在协调和增强的MRI数据上训练3D视觉变换器,以获得保留解剖结构的嵌入。
- Result: 临床和体积特征在预测轻度和重度进展方面达到约0.70的最高AUC,而ViT模型的MRI嵌入在区分认知稳定个体方面最有效,AUC为0.71。所有方法在异质中度组中都表现不佳。
- Conclusion: 临床特征在识别高风险极端病例方面表现优异,而基于transformer的MRI嵌入对稳定性细微标记更敏感,这推动了AD进展建模的多模态融合策略。
[119] XAttn-BMD: Multimodal Deep Learning with Cross-Attention for Femoral Neck Bone Mineral Density Estimation
Yilin Zhang,Leo D. Westbury,Elaine M. Dennison,Nicholas C. Harvey,Nicholas R. Fuggle,Rahman Attar
Main category: cs.CV
TL;DR: XAttn-BMD是一个多模态深度学习框架,通过双向交叉注意力机制整合髋部X光图像和临床元数据,预测股骨颈骨密度,在回归泛化性和鲁棒性方面优于基线模型。
- Motivation: 骨健康不良是重要的公共卫生问题,低骨密度会增加骨折风险,这是骨质疏松症的关键特征。需要开发从髋部X光图像和临床数据准确预测骨密度的方法。
- Method: 使用双向交叉注意力机制动态整合图像和元数据特征,采用加权平滑L1损失函数处理骨密度不平衡并优先考虑临床显著病例。
- Result: 模型在Hertfordshire队列研究数据上表现优异,相比无交叉注意力的简单特征拼接,MSE降低16.7%,MAE降低6.03%,R2分数提高16.4%。在临床相关阈值下的二分类筛查也显示出良好性能。
- Conclusion: 交叉注意力融合和定制损失函数的有效性得到验证,该模型在股骨颈骨密度估计方面具有实际应用潜力。
[120] 3D-Guided Scalable Flow Matching for Generating Volumetric Tissue Spatial Transcriptomics from Serial Histology
Mohammad Vali Sanian,Arshia Hemmat,Amirhossein Vahidi,Jonas Maaskola,Jimmy Tsz Hang Lee,Stanislaw Makarchuk,Yeliz Demirci,Nana-Jane Chipampe,Omer Bayraktar,Lassi Paavolainen,Mohammad Lotfollahi
Main category: cs.CV
TL;DR: HoloTea是一个3D感知的流匹配框架,通过H&E组织学图像推断斑点级基因表达,利用相邻切片信息提高3D表达准确性。
- Motivation: 现有预测算法大多独立处理每个切片而忽略3D结构,而现有3D方法不具备生成性且扩展性差。需要可扩展且鲁棒的3D组织转录组学分析方法来深入理解组织结构和疾病。
- Method: 在共享特征空间中检索相邻切片上的形态对应斑点,将跨切片上下文融合到轻量级ControlNet中。引入结合学习到的零膨胀负二项分布先验和空间经验先验的3D一致先验,并使用全局注意力块实现线性扩展。
- Result: 在三个不同组织类型和分辨率的空间转录组数据集上,HoloTea相比2D和3D基线方法持续提高了3D表达准确性和泛化能力。
- Conclusion: HoloTea有望推动精确3D虚拟组织的创建,加速生物标志物发现并深化对疾病的理解。
[121] Fusing Biomechanical and Spatio-Temporal Features for Fall Prediction: Characterizing and Mitigating the Simulation-to-Reality Gap
Md Fokhrul Islam,Sajeda Al-Hammouri,Christopher J. Arellano,Kavan Hazeli,Heman Shakeri
Main category: cs.CV
TL;DR: 提出了BioST-GCN双流模型,结合姿态和生物力学信息进行跌倒预测,在模拟数据上表现优异但存在显著的模拟-现实差距,零样本泛化性能大幅下降。
- Motivation: 跌倒对老年人是主要伤害来源,基于视觉的跌倒预测系统需要解决数据稀缺问题,特别是真实跌倒数据的缺乏。
- Method: 使用双流Biomechanical Spatio-Temporal Graph Convolutional Network (BioST-GCN),通过交叉注意力机制融合姿态和生物力学信息。
- Result: 在模拟数据集上F1分数比基线提升5.32%和2.91%,但零样本泛化到未见受试者时F1分数从89.0%降至35.9%。
- Conclusion: 模拟数据存在偏差,需要个性化策略和隐私保护数据管道来弥合模拟-现实差距,为脆弱老年人群开发有效的跌倒预测系统。
[122] SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction
Meiying Gu,Jiawei Zhang,Jiahe Li,Xiaohan Yu,Haonan Luo,Jin Zheng,Xiao Bai
Main category: cs.CV
TL;DR: 提出了一种名为\net{}的方法,通过立体几何-纹理对齐和伪特征增强几何一致性,在稀疏视图场景下改善高斯溅射的表面重建质量和视图合成性能。
- Motivation: 现有方法在稀疏视图场景下容易过拟合,导致表面重建质量下降和视图合成性能退化。扁平高斯原语的各向异性加剧了这一问题。
- Method: 引入立体几何-纹理对齐来连接渲染质量和几何估计,并提出伪特征增强几何一致性,通过结合训练视图和未见视图来增强多视图几何一致性。
- Result: 在DTU、BlendedMVS和Mip-NeRF360数据集上的广泛实验表明,该方法达到了最先进的性能。
- Conclusion: 该方法能够重建更准确和详细的表面,同时保持高质量的视图渲染,有效缓解了稀疏监督导致的过拟合问题。
[123] SLAM-AGS: Slide-Label Aware Multi-Task Pretraining Using Adaptive Gradient Surgery in Computational Cytology
Marco Acerbis,Swarnadip Chatterjee,Christophe Avenel,Joakim Lindblad
Main category: cs.CV
TL;DR: SLAM-AGS是一个用于计算细胞学的多任务预训练框架,通过联合优化弱监督相似性目标和自监督对比目标,在低目击率下提高下游任务性能。
- Motivation: 计算细胞学面临两个主要挑战:实例级标签不可靠且获取成本高,目击率极低。
- Method: 提出SLAM-AGS框架,联合优化(i)基于切片负样本的弱监督相似性目标,(ii)基于切片正样本的自监督对比目标,使用自适应梯度手术解决任务梯度冲突,并将预训练编码器集成到基于注意力的多实例学习聚合器中。
- Result: 在公开骨髓细胞学数据集上,模拟目击率从10%降至0.5%,SLAM-AGS在袋级F1分数和Top 400阳性细胞检索方面优于其他预训练方法,在低目击率下增益最大。
- Conclusion: 解决梯度干扰能够实现稳定的预训练和更好的下游任务性能。
[124] RepAir: A Framework for Airway Segmentation and Discontinuity Correction in CT
John M. Oyer,Ali Namvar,Benjamin A. Hoff,Wassim W. Labaki,Ella A. Kazerooni,Charles R. Hatt,Fernando J. Martinez,MeiLan K. Han,Craig J. Galbán,Sundaresh Ram
Main category: cs.CV
TL;DR: RepAir是一个用于3D气道分割的三阶段框架,结合nnU-Net网络和解剖学拓扑校正,能生成更完整、解剖一致的气道树结构。
- Motivation: 现有基于U-Net的自动气道分割方法常产生不连通的分割结果,影响可靠生物标志物提取,而手动标注不切实际。
- Method: 三阶段框架:1) nnU-Net网络生成初始气道掩码;2) 基于骨架的算法识别潜在不连续点并提出重连接;3) 1D卷积分类器确定候选连接是否为真实解剖分支。
- Result: 在ATM'22和AeroPath两个数据集上,RepAir在体素级和拓扑指标上均优于现有3D U-Net方法,生成更完整的气道树且保持高分割精度。
- Conclusion: RepAir框架能有效解决气道分割中的不连续性问题,为定量肺分析提供更可靠的自动化工具。
[125] Improving segmentation of retinal arteries and veins using cardiac signal in doppler holograms
Marius Dubosc,Yann Fischer,Zacharie Auray,Nicolas Boutry,Edwin Carlinet,Michael Atlan,Thierry Geraud
Main category: cs.CV
TL;DR: 提出了一种简单有效的动脉-静脉分割方法,通过结合脉冲分析特征,使标准U-Net能够利用多普勒全息图的时序动态信息,达到与复杂模型相当的性能。
- Motivation: 传统视网膜血管分割方法仅关注空间信息,忽略了多普勒全息数据中丰富的时序动态特征,无法充分利用该技术的高时间分辨率优势。
- Method: 使用标准分割架构(如U-Net),结合专用脉冲分析流程提取的特征,让传统模型能够利用时序动态信息进行动脉-静脉分割。
- Result: 该方法实现了与更复杂的基于注意力或迭代的模型相当的性能,证明了时序预处理能够释放深度学习在多普勒全息中的潜力。
- Conclusion: 时间分辨预处理能够解锁深度学习在多普勒全息技术中的全部潜力,为视网膜血流动力学的定量探索开辟了新前景。
[126] Impact of Image Resolution on Age Estimation with DeepFace and InsightFace
Shiyar Jamo
Main category: cs.CV
TL;DR: 该研究评估了图像分辨率对DeepFace和InsightFace年龄估计准确性的影响,发现224x224像素为最佳分辨率,过低或过高分辨率都会降低准确性,且InsightFace在所有分辨率下都比DeepFace更快。
- Motivation: 自动年龄估计广泛应用于年龄验证,但输入图像分辨率差异很大,需要研究分辨率对年龄估计准确性的影响。
- Method: 使用IMDB-Clean数据集的1000张图像,在7种不同分辨率下处理得到7000个测试样本,通过DeepFace和InsightFace进行年龄估计,使用MAE、SD和MedAE评估性能。
- Result: 两个框架在224x224像素时性能最佳,DeepFace的MAE为10.83年,InsightFace的MAE为7.46年。低分辨率时MAE显著增加,过高分辨率也会降低准确性。InsightFace在所有分辨率下都比DeepFace更快。
- Conclusion: 输入图像分辨率对年龄估计准确性有明确且一致的影响,224x224像素是最佳分辨率选择,InsightFace在准确性和速度方面都优于DeepFace。
[127] HyMAD: A Hybrid Multi-Activity Detection Approach for Border Surveillance and Monitoring
Sriram Srinivasan,Srinivasan Aruchamy,Siva Ram Krisha Vadali
Main category: cs.CV
TL;DR: 提出HyMAD框架,通过深度神经网络融合时空特征,解决地震传感中同时发生的重叠活动检测难题,实现人类、动物和车辆入侵的鲁棒多标签分类。
- Motivation: 地震传感器在边境监控中具有隐蔽性优势,但复杂噪声环境下准确检测和区分同时发生的人类入侵、动物活动和车辆行驶等重叠活动仍面临重大挑战,错误识别会导致误分类和漏检,降低监控系统可靠性。
- Method: 基于时空特征融合的深度神经网络架构HyMAD,整合SincNet提取的频谱特征和RNN建模的时间依赖关系,使用自注意力层增强模态内表示,并通过跨模态融合模块实现鲁棒的多标签分类。
- Result: 在真实边境监控现场录音构建的数据集上评估,证明该方法能够泛化到涉及人类、动物和车辆的复杂同时活动场景,取得了有竞争力的性能。
- Conclusion: HyMAD提供了一个模块化框架,可扩展地震基活动识别在现实世界安全应用中的能力,为边境监控等场景提供了有效的解决方案。
[128] Seeing Beyond the Image: ECG and Anatomical Knowledge-Guided Myocardial Scar Segmentation from Late Gadolinium-Enhanced Images
Farheen Ramzan,Yusuf Kiberu,Nikesh Jathanna,Meryem Jabrane,Vicente Grau,Shahnaz Jamil-Copley,Richard H. Clayton,Chen,Chen
Main category: cs.CV
TL;DR: 提出了一种新颖的多模态框架,将ECG电生理信息与AHA-17图谱解剖先验相结合,用于LGE心脏MRI的瘢痕分割,通过时间感知特征融合机制处理非同步采集数据,显著提升了分割性能。
- Motivation: LGE心脏MRI的瘢痕分割因对比度变化和成像伪影而具有挑战性,ECG信号提供补充的生理信息,传导异常有助于定位瘢痕区域。
- Method: 提出多模态框架,集成ECG电生理信息和AHA-17图谱解剖先验,引入时间感知特征融合(TAFF)机制,基于采集时间差动态加权融合特征。
- Result: 在临床数据集上评估,相比最先进的仅图像基线(nnU-Net),瘢痕平均Dice分数从0.6149提升至0.8463,精确度0.9115,灵敏度0.9043。
- Conclusion: 集成生理和解剖知识使模型能够"超越图像观察",为稳健且生理基础的心肌瘢痕分割设定了新方向。
[129] FreeSwim: Revisiting Sliding-Window Attention Mechanisms for Training-Free Ultra-High-Resolution Video Generation
Yunfeng Wu,Jiayi Song,Zhenxiong Tan,Zihao He,Songhua Liu
Main category: cs.CV
TL;DR: 提出了一种无需训练的方法FreeSwim,利用预训练的视频扩散Transformer生成更高分辨率的视频,通过向内滑动窗口注意力和交叉注意力覆盖策略解决高分辨率视频生成中的计算复杂度和全局一致性问题。
- Motivation: 现代基于Transformer的视频生成器中注意力机制的二次时间和内存复杂度使得超高清视频的端到端训练成本过高,需要一种无需额外训练就能生成高分辨率视频的方法。
- Method: 采用向内滑动窗口注意力机制,并设计双路径管道,通过交叉注意力覆盖策略让局部注意力产生的语义内容受到具有完整感受野分支的指导,同时使用交叉注意力缓存策略提高效率。
- Result: 实验表明该方法能够以无需训练的方式生成具有精细视觉细节的超高分辨率视频,在VBench基准测试中表现优于基于训练的方法,且具有竞争力或更高的效率。
- Conclusion: FreeSwim方法成功解决了高分辨率视频生成中的计算瓶颈,提供了一种高效且无需训练的超高分辨率视频生成解决方案。
[130] Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model
Xiyuan Wang,Muhan Zhang
Main category: cs.CV
TL;DR: 提出DSD框架,将传统扩散模型的编码器、解码器和扩散网络统一为单一端到端可训练网络,解决了联合训练中的潜在崩溃问题,在ImageNet 256×256条件生成任务上取得了优异性能。
- Motivation: 传统潜在扩散模型采用复杂的三部分架构(编码器、解码器、扩散网络),需要多阶段训练,计算效率低下且性能次优,阻碍了扩散模型与视觉基础模型单网络架构的统一。
- Method: 提出扩散即自蒸馏(DSD)框架,通过训练目标的改进来稳定潜在空间,首次实现了单一网络的稳定端到端训练,同时学习编码、解码和扩散过程。
- Result: 在ImageNet 256×256条件生成任务上取得优异性能:FID=13.44/6.38/4.25(仅使用42M/118M/205M参数和50训练轮次),且不使用分类器自由引导。
- Conclusion: DSD框架成功解决了潜在崩溃问题,实现了扩散模型与单网络架构的统一,为更高效的扩散模型设计提供了新方向。
[131] Zero-shot Synthetic Video Realism Enhancement via Structure-aware Denoising
Yifan Wang,Liya Ji,Zhanghan Ke,Harry Yang,Ser-Nam Lim,Qifeng Chen
Main category: cs.CV
TL;DR: 提出了一种零样本框架,通过扩散视频基础模型增强合成视频的真实感,同时保持原始视频的多层次时空结构一致性。
- Motivation: 解决合成视频缺乏真实感的问题,同时需要保持与原始合成视频在结构和语义上的一致性。
- Method: 使用扩散视频基础模型,通过辅助模型提取合成视频的结构感知信息(深度图、语义图、边缘图)作为条件指导生成过程,无需微调。
- Result: 在实验中优于现有基线方法,在保持最先进真实感质量的同时,与原始视频的结构一致性更好。
- Conclusion: 该方法是一种简单而通用的合成视频真实感增强方法,能有效平衡真实感和结构一致性。
[132] A Neural Field-Based Approach for View Computation & Data Exploration in 3D Urban Environments
Stefan Cobeli,Kazi Shahrukh Omar,Rodrigo Valença,Nivan Ferreira,Fabio Miranda
Main category: cs.CV
TL;DR: 提出基于神经场的3D城市环境隐式表示方法,通过向量场编码视图,支持快速直接查询和逆向查询,解决3D城市数据探索中的遮挡问题和视角调整低效性。
- Motivation: 3D城市数据集日益丰富,但由于计算瓶颈和数据交互复杂性,提取洞察仍然困难。3D城市环境的复杂几何导致高度遮挡,需要大量手动视角调整,使得大规模探索效率低下。
- Method: 采用基于神经场的方法构建3D环境的高效隐式表示,通过向量场编码环境视图,支持直接查询(视图评估指标计算)和逆向查询(避免遮挡、匹配期望数据模式的视图搜索)。
- Result: 通过定量实验、基于真实世界城市挑战的案例研究以及领域专家反馈验证了方法的有效性,在寻找理想视角、分析建筑立面可见性和评估室外空间视野方面表现良好。
- Conclusion: 该方法成功解决了3D城市数据探索中的遮挡和视角调整问题,支持关键城市分析任务如可见性评估、日照暴露评估和新开发项目的视觉影响评估。
[133] Vision Large Language Models Are Good Noise Handlers in Engagement Analysis
Alexander Vedernikov,Puneet Kumar,Haoyu Chen,Tapio Seppänen,Xiaobai Li
Main category: cs.CV
TL;DR: 提出一个利用视觉大语言模型(VLMs)来优化视频参与度识别中主观和噪声标签的框架,通过问卷分析行为线索、数据可靠性分级,结合课程学习和软标签优化训练策略,在多个基准数据集上超越现有最佳方法。
- Motivation: 视频参与度识别面临主观标签和噪声的挑战,限制了模型性能。需要解决标签主观性和噪声问题来提升识别准确性。
- Method: 使用VLMs优化标注并指导训练过程:通过问卷提取行为线索,将数据分为高/低可靠性子集;结合课程学习和软标签优化的训练策略,逐步引入模糊样本并调整监督以反映不确定性。
- Result: 在EngageNet基准上6个特征设置中的3个表现最佳(最大提升+1.21%),在DREAMS和PAFE数据集上F1分数分别提升+0.22和+0.06,超越了现有最佳方法。
- Conclusion: 该方法证明了使用VLMs处理标签主观性的有效性,通过数据可靠性分级和课程学习策略显著提升了视频参与度识别性能。
[134] Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers
Yutian Chen,Yuheng Qiu,Ruogu Li,Ali Agha,Shayegan Omidshafiei,Jay Patrikar,Sebastian Scherer
Main category: cs.CV
TL;DR: Co-Me是一种无需重新训练或微调的视觉几何Transformer加速机制,通过轻量级置信度预测器对token进行不确定性排序,选择性地合并低置信度token,在保持空间覆盖的同时减少计算量。
- Motivation: 视觉几何Transformer在3D感知和重建中计算量大,难以实现实时应用。现有基于相似性的合并或剪枝方法可能影响性能,需要一种可靠的加速机制。
- Method: 使用轻量级置信度预测器对token进行不确定性排序,选择性地合并低置信度token。置信度信号可靠地指示Transformer关注区域,实现计算量减少而保持性能。
- Result: 在VGGT和MapAnything上分别实现11.3倍和7.2倍加速,使视觉几何Transformer适用于实时3D感知和重建。
- Conclusion: Co-Me为视觉几何Transformer提供了一种有效且通用的加速方案,无需重新训练即可实现显著性能提升,适用于多视图和流式视觉几何Transformer。
[135] UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning
Rui Tian,Mingfei Gao,Haiming Gang,Jiasen Lu,Zhe Gan,Yinfei Yang,Zuxuan Wu,Afshin Dehghan
Main category: cs.CV
TL;DR: UniGen-1.5是一个统一的多模态大语言模型,在图像理解、生成和编辑方面具有先进能力。通过改进模型架构和训练流程,特别是采用统一的强化学习策略和轻量级编辑指令对齐阶段,该模型在图像生成和编辑任务上表现出色。
- Motivation: 构建一个能够同时处理图像理解、生成和编辑的统一多模态模型,通过增强模型架构和训练策略来提升性能,特别是解锁强大的图像编辑能力。
- Method: 1. 改进模型架构和训练流程;2. 提出统一的强化学习策略,通过共享奖励模型联合优化图像生成和编辑;3. 引入轻量级编辑指令对齐阶段,提升编辑指令理解能力。
- Result: 在GenEval上获得0.89分,在ImgEdit上获得4.31分,超越了BAGEL等最先进模型,性能与GPT-Image-1等专有模型相当。
- Conclusion: UniGen-1.5在图像理解、生成和编辑方面展现出竞争力,通过统一的强化学习策略和指令对齐技术实现了优异的性能表现。
[136] ARC Is a Vision Problem!
Keya Hu,Ali Cy,Linlu Qiu,Xiaoman Delores Ding,Runqian Wang,Yeyin Eva Zhu,Jacob Andreas,Kaiming He
Main category: cs.CV
TL;DR: 本文提出了一种基于视觉范式的ARC问题解决方法,将抽象推理任务视为图像到图像转换问题,使用Vision Transformer架构,在ARC-1基准上达到60.4%的准确率。
- Motivation: ARC旨在促进抽象推理研究,但现有方法多从语言角度处理,而ARC任务本质上是视觉性的,因此需要从视觉中心视角重新审视该问题。
- Method: 将ARC问题构建为图像到图像转换问题,在"画布"上表示输入以融入视觉先验,使用标准视觉架构(如ViT)进行图像映射,通过测试时训练实现泛化。
- Result: 在ARC-1基准上达到60.4%准确率,显著优于从头训练的现有方法,与领先的LLMs竞争,接近人类平均表现水平。
- Conclusion: 视觉范式为ARC问题提供了有效的解决方案,证明了视觉方法在抽象推理任务中的潜力,缩小了与人类表现的差距。
cs.MM
[137] Can LLMs Create Legally Relevant Summaries and Analyses of Videos?
Lyra Hoeben-Kuil,Gijs van Dijck,Jaromir Savelka,Johanna Gunawan,Konrad Kollnig,Marta Kolacz,Mindy Duffourc,Shashank Chakravarthy,Hannes Westermann
Main category: cs.MM
TL;DR: 研究探索大型语言模型从视频中理解法律事件并生成法律文件的能力,在120个YouTube法律视频上的测试显示71.7%的摘要质量达到中高水平。
- Motivation: 帮助非专业人士理解法律相关事实并生成法律文件,当前AI方法依赖用户用文字描述事件,这对许多人来说存在困难。
- Method: 使用大型语言模型分析120个YouTube视频中的法律事件,生成摘要并起草法律信件。
- Result: 71.7%的生成摘要被评为高质量或中等质量,显示出LLM在理解视频内容方面的潜力。
- Conclusion: 该研究结果为在司法可及性等领域应用AI技术打开了大门,LLM能够有效理解视频中的法律事件并生成相关文件。
[138] MindCross: Fast New Subject Adaptation with Limited Data for Cross-subject Video Reconstruction from Brain Signals
Xuan-Hao Liu,Yan-Kai Liu,Tianyi Zhou,Bao-Liang Lu,Wei-Long Zheng
Main category: cs.MM
TL;DR: MindCross是一个跨被试脑信号解码框架,通过特定编码器和共享编码器分别提取被试特定和不变信息,使用Top-K协作模块实现快速新被试适应。
- Motivation: 现有脑解码框架主要依赖被试内范式,需要大量脑数据,但脑-视频数据收集成本高导致数据稀缺。跨被试方法往往过度关注被试不变信息而忽略被试特定信息,导致适应策略缓慢。
- Method: 设计N个特定编码器和一个共享编码器分别提取被试特定和不变信息,采用Top-K协作模块利用先前被试编码器的知识增强新被试解码。
- Result: 在fMRI/EEG到视频基准测试上的广泛实验证明了MindCross在跨被试解码和新被试适应方面的有效性和效率,仅使用一个模型。
- Conclusion: MindCross实现了快速且数据高效的新被试适应,解决了脑解码中的数据稀缺问题。
cs.LG
[139] MoETTA: Test-Time Adaptation Under Mixed Distribution Shifts with MoE-LayerNorm
Xiao Fan,Jingyan Jiang,Zhaoru Chen,Fanding Huang,Xiao Chen,Qinting Jiang,Bowen Zhang,Xing Tang,Zhi Wang
Main category: cs.LG
TL;DR: MoETTA是一个基于熵的测试时自适应框架,通过集成混合专家架构来处理混合分布偏移问题,在多个基准测试中表现出色。
- Motivation: 现实世界部署中常遇到混合分布偏移,现有TTA方法依赖统一的适应路径,无法处理不同域间梯度方向的差异,且现有基准主要关注合成或同质偏移,无法捕捉真实世界异构混合分布偏移的复杂性。
- Method: 提出MoETTA框架,集成混合专家架构,引入结构解耦的专家集合,使模型能够沿不同梯度方向进行适应,通过灵活和解耦的参数更新来更好地处理异构偏移。
- Result: 在三个混合分布偏移设置上的广泛实验表明,MoETTA始终优于强基线方法,建立了最先进的性能,突显了通过专家级多样性建模多个适应方向的好处。
- Conclusion: MoETTA通过混合专家架构有效解决了混合分布偏移问题,在真实世界部署条件下表现出优越的适应能力和鲁棒性。
[140] Exploring Transferability of Self-Supervised Learning by Task Conflict Calibration
Huijie Guo,Jingyao Wang,Peizheng Guo,Xingchen Shen,Changwen Zheng,Wenwen Qiang
Main category: cs.LG
TL;DR: 本文研究了自监督学习(SSL)的表示可迁移性,提出了任务冲突校准(TC²)方法来解决任务冲突问题,通过两阶段双层优化框架提升SSL模型的迁移能力。
- Motivation: 探索SSL的可迁移性,解决两个核心问题:(i)SSL的表示可迁移性是什么,(ii)如何有效建模这种可迁移性。目标是提升从一项任务学到的表示支持另一项目标任务的能力。
- Method: 提出TC²方法:1)在训练批次内构建多个SSL任务,注入任务级信息;2)使用因子提取网络生成所有任务的因果生成因子,权重提取网络为每个样本分配专用权重;3)通过数据重构、正交性和稀疏性确保有效性;4)在SSL训练期间校准样本表示,通过两阶段双层优化框架集成到流程中。
- Result: 在多个下游任务上的实验结果表明,该方法能持续提升SSL模型的可迁移性。
- Conclusion: TC²方法通过缓解任务冲突,有效提升了自监督学习表示的可迁移性,在多个下游任务中表现出稳定的改进效果。
[141] AnaCP: Toward Upper-Bound Continual Learning via Analytic Contrastive Projection
Saleh Momeni,Changnan Xiao,Bing Liu
Main category: cs.LG
TL;DR: 提出AnaCP方法解决类增量学习中的特征适应问题,在保持分析分类器效率的同时实现增量特征适应,无需梯度训练即可避免灾难性遗忘。
- Motivation: 传统CIL方法存在灾难性遗忘问题,而基于预训练模型的方法虽然高效但无法持续适应特征表示,导致性能次优。
- Method: AnaCP方法结合分析分类器的高效性和对比投影技术,实现增量特征适应而无需梯度更新。
- Result: 实验表明AnaCP不仅优于现有基线方法,而且达到了联合训练的准确率水平(CIL的上界)。
- Conclusion: AnaCP成功解决了CIL中特征适应与灾难性遗忘的平衡问题,实现了高效且性能优越的类增量学习。
[142] Certified but Fooled! Breaking Certified Defences with Ghost Certificates
Quoc Viet Vo,Tashreque M. Haq,Paul Montague,Tamas Abraham,Ehsan Abbasnejad,Damith C. Ranasinghe
Main category: cs.LG
TL;DR: 该论文研究如何通过微小、难以察觉的扰动来欺骗概率认证框架,使认证模型为对抗性输入生成虚假的大鲁棒性半径保证,从而绕过最先进的认证防御方法。
- Motivation: 研究概率认证框架的恶意利用,了解保证提供的局限性,探索是否能在误导分类器的同时操纵认证过程生成虚假的鲁棒性证书。
- Method: 采用区域聚焦对抗样本方法,制作难以察觉的扰动来欺骗证书,实现比源类幽灵证书更大的认证半径。
- Result: 在ImageNet上的广泛评估表明,该方法能有效绕过Densepure等最先进的认证防御方法。
- Conclusion: 需要更好地理解鲁棒性认证方法的局限性,当前认证框架存在被恶意利用的风险。
astro-ph.IM
[143] The CHASM-SWPC Dataset for Coronal Hole Detection & Analysis
Cutter Beck,Evan Smith,Khagendra Katuwal,Rudra Kafle,Jacob Whitehill
Main category: astro-ph.IM
TL;DR: 开发了一个半自动化的日冕洞标注工具CHASM,并创建了高质量的日冕洞分割数据集CHASM-SWPC,用于训练自动检测模型。使用该数据集训练的CHRONNOS神经网络在各项指标上优于原预训练模型。
- Motivation: 日冕洞是太阳日冕中具有开放磁力线的低活动区域,在极紫外光谱中呈现为暗斑。需要高质量的数据集来训练和测试自动日冕洞检测模型。
- Method: 开发了半自动标注工具CHASM,将SWPC的手绘地图数字化为二值分割掩码,创建了CHASM-SWPC数据集。使用该数据集训练了多个CHRONNOS架构的神经网络。
- Result: 训练后的CHRONNOS神经网络在CHASM-SWPC-1111测试集上达到:准确率0.9805、TSS 0.6807、IoU 0.5668,优于原预训练模型的准确率0.9708、TSS 0.6749、IoU 0.4805。
- Conclusion: CHASM工具能够快速准确地标注日冕洞,创建的CHASM-SWPC数据集显著提升了日冕洞自动检测模型的性能。
cs.NE
[144] Attention via Synaptic Plasticity is All You Need: A Biologically Inspired Spiking Neuromorphic Transformer
Kallol Mondal,Ankush Kumar
Main category: cs.NE
TL;DR: 提出了S²TDPT,一种基于脉冲时序依赖可塑性(STDP)的神经形态Transformer,通过STDP实现自注意力机制,显著降低能耗并支持内存计算。
- Motivation: 传统Transformer注意力机制能耗高且不符合神经形态计算原则,而大脑的注意力机制源于神经回路。当前脉冲注意力仍依赖点积相似度,存在冯诺依曼瓶颈,与类脑计算有差距。
- Method: 使用STDP机制实现自注意力,将查询-键相关性嵌入到突触权重中,支持内存计算和非冯诺依曼硬件。
- Result: 在CIFAR-10和CIFAR-100上分别达到94.35%和78.08%准确率,仅需4个时间步,CIFAR-100能耗0.49mJ,比标准ANN Transformer节能88.47%。Grad-CAM显示模型关注语义相关区域。
- Conclusion: S²TDPT展示了生物启发的注意力机制可以产生节能、硬件友好且可解释的神经形态模型。
cs.AI
[145] KANGURA: Kolmogorov-Arnold Network-Based Geometry-Aware Learning with Unified Representation Attention for 3D Modeling of Complex Structures
Mohammad Reza Shafie,Morteza Hajiabadi,Hamed Khosravi,Mobina Noori,Imtiaz Ahmed
Main category: cs.AI
TL;DR: 提出了KANGURA框架,基于Kolmogorov-Arnold网络进行几何感知学习,通过函数分解方法解决3D几何建模问题,在MFC阳极结构优化中表现出色。
- Motivation: 微生物燃料电池(MFCs)阳极结构的优化对性能至关重要,但现有预测模型难以捕捉复杂的几何依赖关系。
- Method: 采用Kolmogorov-Arnold网络进行表示学习,通过几何解耦表示学习分离结构变化,结合统一注意力机制增强关键几何区域。
- Result: 在ModelNet40基准数据集上超越15个SOTA模型,达到92.7%准确率;在真实MFC阳极结构问题上达到97%准确率。
- Conclusion: KANGURA为3D几何建模提供了稳健框架,为先进制造和质量驱动工程应用中的复杂结构优化开辟了新可能性。
[146] Scene Graph-Guided Generative AI Framework for Synthesizing and Evaluating Industrial Hazard Scenarios
Sanjay Acharjee,Abir Khan Ratul,Diego Patino,Md Nazmus Sakib
Main category: cs.AI
TL;DR: 提出了一种基于场景图的生成AI框架,通过分析OSHA事故报告生成逼真的工作场所危险场景图像,并引入VQA图分数来评估生成数据的真实性和语义保真度。
- Motivation: 由于实际捕捉事故触发场景几乎不可能,获取工作场所危险检测所需的真实图像数据集非常困难。
- Method: 使用GPT-4o分析OSHA事故报告提取结构化危险推理,转换为对象级场景图,然后用文本到图像扩散模型生成危险场景,并通过VQA框架评估生成质量。
- Result: 提出的VQA图分数在四个最先进的生成模型中优于CLIP和BLIP指标,基于熵验证确认其具有更高的判别敏感性。
- Conclusion: 该框架能够有效生成逼真的工作场所危险场景图像,为训练准确的危险检测视觉模型提供了可行解决方案。
cs.CL
[147] Enhancing Agentic Autonomous Scientific Discovery with Vision-Language Model Capabilities
Kahaan Gandhi,Boris Bolliet,Inigo Zubeldia
Main category: cs.CL
TL;DR: 多智能体系统结合视觉语言模型(VLMs)可提升端到端自主科学发现能力,通过将图表作为可验证检查点,VLM作为评判者根据动态生成的领域特定标准评估图表,使智能体能够实时纠正错误并引导探索性数据分析。
- Motivation: 提高自主科学发现系统的准确性和鲁棒性,使智能体能够自我纠正错误并适应新数据集,减少人工干预需求。
- Method: 使用VLM作为评判者评估图表,基于动态生成的领域特定标准,多智能体系统通过图表验证进行实时错误纠正和数据分析引导。
- Result: 在10个数据驱动发现任务基准测试中,VLM增强系统达到0.7-0.8的pass@1分数,显著优于仅代码(0.2-0.3)和代码加文本(0.4-0.5)的基线方法,并能提供可审计的推理轨迹。
- Conclusion: VLM引导的多智能体系统显著提升了自主科学发现的性能和可解释性,在宇宙学和天体化学案例中展示了从错误推理路径恢复和适应新数据集的能力。
cs.RO
[148] RoboTidy : A 3D Gaussian Splatting Household Tidying Benchmark for Embodied Navigation and Action
Xiaoquan Sun,Ruijian Zhang,Kang Pang,Bingchen Miao,Yuxiang Tan,Zhen Yang,Ming Li,Jiayu Chen
Main category: cs.RO
TL;DR: 提出了RoboTidy基准测试,用于评估语言引导的家庭整理任务,支持视觉-语言-动作和视觉-语言-导航训练与评估。
- Motivation: 当前基准测试缺乏用户偏好建模、移动性支持,且泛化能力差,难以全面评估语言到动作的综合能力。
- Method: 提供500个真实3D高斯散射家庭场景,包含500个物体和容器,将整理任务表述为"动作(物体,容器)"列表,并提供6400个高质量操作演示轨迹和1500个导航轨迹。
- Result: 在真实世界中部署了RoboTidy进行物体整理,建立了端到端的家庭整理基准测试平台。
- Conclusion: RoboTidy提供了一个可扩展的平台,通过实现语言引导机器人的整体和现实评估,填补了具身AI的关键空白。
[149] Going Places: Place Recognition in Artificial and Natural Systems
Michael Milford,Tobias Fischer
Main category: cs.RO
TL;DR: 这篇综述综合了机器人系统、动物研究和人类研究,探讨不同系统如何编码和回忆地点,提出了统一的概念框架来考虑和发展地点识别机制。
- Motivation: 地点识别对于生物导航和自主系统都至关重要,需要从多个领域综合理解不同系统如何编码和回忆地点,以促进人工定位系统的创新。
- Method: 通过综合机器人系统、动物研究和人类研究的发现,分析计算和表征策略,包括拓扑映射、线索整合和记忆管理等收敛解决方案。
- Result: 揭示了动物系统的多模态导航和环境适应机制,人类研究的语义地点概念、文化影响和内省能力,以及人工系统的可扩展架构和数据驱动模型。
- Conclusion: 提出了统一的概念框架来考虑和发展地点识别机制,确定了泛化性、鲁棒性和环境可变性等关键挑战,旨在通过连接动物导航研究和人类空间认知研究的见解来促进人工定位创新。
[150] Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning
Xiuxiu Qi,Yu Yang,Jiannong Cao,Luyao Bai,Chongshan Fan,Chengtai Cao,Hongpeng Wang
Main category: cs.RO
TL;DR: CCoL是一个新颖的行为克隆框架,通过视觉-语言-动作的连续协同学习实现语义-物理对齐,解决了传统方法中的物理不连续性和语义-物理错位问题。
- Motivation: 克服行为克隆中序列动作决策的复合误差,解决现有方法存在的物理不连续性和语义-物理错位问题,实现更准确的动作克隆和连续执行。
- Method: 通过视觉、语言和本体感觉输入的连续协同学习生成鲁棒平滑的动作执行轨迹;使用双向交叉注意力将语言语义锚定到视觉运动表示中,学习动作生成的上下文信息。
- Result: 在三个仿真套件中平均相对提升8.0%,在人类演示的双臂插入任务中相对增益高达19.2%;在7自由度机器人上的真实世界测试证实了在未见和噪声物体状态下的泛化能力。
- Conclusion: CCoL框架通过连续协同学习和语义-物理对齐,成功实现了时间一致执行和细粒度语义基础,显著提升了行为克隆性能。
eess.IV
[151] Self-Supervised Compression and Artifact Correction for Streaming Underwater Imaging Sonar
Rongsheng Qian,Chi Xu,Xiaoqiang Ma,Hao Fang,Yili Jin,William I. Atlas,Jiangchuan Liu
Main category: eess.IV
TL;DR: SCOPE是一个自监督框架,联合执行声纳图像压缩和伪影校正,无需干净-噪声图像对或合成假设,实现了80%以上的上行带宽减少和40%的SSIM提升。
- Motivation: 实时成像声纳在水下监测中很重要,但受到上行带宽严重限制和声纳特定伪影(斑点、运动模糊、混响、声学阴影)的制约,这些伪影影响高达98%的帧。
- Method: 结合自适应码本压缩(ACC)学习频率编码的潜在表示,以及频率感知多尺度分割(FAMS)将帧分解为低频结构和稀疏高频动态,同时抑制快速波动的伪影。使用对冲训练策略指导频率感知学习。
- Result: 在数月的现场ARIS声纳数据上评估,SCOPE实现SSIM 0.77,比先前自监督去噪基线提升40%,比特率低至0.0118 bpp。在嵌入式GPU上编码时间3.1毫秒,服务器端完整多层解码97毫秒。
- Conclusion: 学习频率结构化的潜在表示能够在实际部署条件下实现实用的低比特率声纳流传输,同时保留信号细节。
[152] PoCGM: Poisson-Conditioned Generative Model for Sparse-View CT Reconstruction
Changsheng Fang,Yongtong Liu,Bahareh Morovati,Shuo Han,Li Zhou,Hengyong Yu
Main category: eess.IV
TL;DR: 提出PoCGM模型,将PFGM++改造成条件生成框架,用于稀疏视图CT重建,能有效抑制伪影并保留结构细节。
- Motivation: 减少CT投影视图数量可降低辐射暴露和提高时间分辨率,但会导致严重的混叠伪影和结构细节丢失,影响临床应用。
- Method: 将PFGM++重新构建为条件生成模型,在训练和采样阶段都整合稀疏视图数据作为指导,建模基于稀疏观测的全视图重建后验分布。
- Result: 定性和定量评估显示PoCGM优于基线方法,在伪影抑制、细节保留方面表现更好,在剂量敏感和时间关键成像场景中性能可靠。
- Conclusion: PoCGM成功将PFGM++应用于医学成像任务,为稀疏视图CT重建提供了有效的解决方案。
[153] ELiC: Efficient LiDAR Geometry Compression via Cross-Bit-depth Feature Propagation and Bag-of-Encoders
Junsik Kim,Gun Bang,Soowoong Kim
Main category: eess.IV
TL;DR: ELiC是一个实时LiDAR几何压缩框架,通过跨比特深度特征传播、编码器池选择和Morton层次结构,在保持实时吞吐量的同时实现最先进的压缩性能。
- Motivation: 现有的分层LiDAR几何压缩方法在每个深度级别独立处理,需要重新估计局部上下文,限制了压缩效率。
- Method: 结合跨比特深度特征传播(重用密集深度特征支持稀疏深度预测)、编码器池选择(为每个深度选择最合适的编码网络)和Morton层次结构(保持全局Z顺序)。
- Result: 在Ford和SemanticKITTI数据集上实现了最先进的压缩性能,同时保持实时吞吐量。
- Conclusion: ELiC框架通过改进熵建模和计算效率,显著提升了LiDAR几何压缩的性能和效率。
cs.SD
[154] IMSE: Efficient U-Net-based Speech Enhancement using Inception Depthwise Convolution and Amplitude-Aware Linear Attention
Xinxin Tang,Bin Qin,Yufang Li
Main category: cs.SD
TL;DR: IMSE提出了一种超轻量级语音增强网络,通过振幅感知线性注意力和Inception深度卷积替换MUSE中的复杂模块,在减少16.8%参数的同时保持SOTA性能。
- Motivation: 现有轻量级语音增强方法如MUSE仍存在效率瓶颈:MET模块依赖复杂的'近似-补偿'机制,可变形嵌入的偏移计算带来额外计算负担。
- Method: 1) 用振幅感知线性注意力(MALA)替换MET模块,在注意力计算中显式保留查询向量范数信息;2) 用Inception深度卷积(IDConv)替换DE模块,将大核操作分解为并行分支。
- Result: 在VoiceBank+DEMAND数据集上,IMSE参数从0.513M减少到0.427M(减少16.8%),PESQ指标达到3.373,性能与SOTA相当。
- Conclusion: 本研究为超轻量级语音增强中模型大小与语音质量之间的权衡设立了新基准。
Powered by Deepseek & arXiv Daily AI Enhanced