Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Bi-Orthogonal Factor Decomposition for Vision Transformers
Fenil R. Doshi,Thomas Fel,Talia Konkle,George Alvarez
Main category: cs.CV
TL;DR: BFD框架揭示视觉Transformer注意力机制中位置与内容因素的交互模式,发现内容交互主导,DINOv2在内容-位置耦合上更丰富,注意力头存在功能分化。
- Motivation: 当前对视觉Transformer注意力机制的理解不足,虽然注意力图显示权重分布,但无法揭示查询和键之间交换的是位置信息、内容信息还是两者都有。需要一种原则性方法来理解注意力机制中信息交换的本质。
- Method: 提出双正交因子分解(BFD)分析框架:第一阶段使用ANOVA分解将token激活统计解耦为正交的位置和内容因子;第二阶段通过查询-键交互矩阵QK^T的SVD分解,揭示这些因子如何介导通信的双正交模式。
- Result: 1) 注意力主要通过内容运作,内容-内容交互主导注意力能量,其次是内容-位置耦合;2) DINOv2比监督模型分配更多能量给内容-位置交互,计算分布在更丰富的模式谱上;3) 注意力头分化为内容-内容、内容-位置和位置-位置操作符;4) DINOv2的优越整体形状处理源于中间层同时保持位置结构并丰富语义内容。
- Conclusion: BFD框架揭示了注意力机制中token如何通过位置和语义因子进行交互,为理解视觉Transformer机制提供了实用见解,特别是DINOv2在保持位置结构的同时丰富语义内容的能力。
[2] Coding the Visual World: From Image to Simulation Using Vision Language Models
Sagi Eppel
Main category: cs.CV
TL;DR: VLMs通过Im2Sim方法展示了对图像中复杂系统的理解能力:能够识别系统并生成模拟代码,但在细节复制方面存在局限。
- Motivation: 探索视觉语言模型是否能够像人类构建心理模型一样,理解图像中描绘的系统机制并进行模拟。
- Method: 采用Im2Sim方法:给VLM提供真实世界系统的自然图像,要求描述系统并编写生成模拟代码,执行代码生成合成图像,与原图对比分析。
- Result: 领先的VLMs(GPT、Gemini)能够理解和建模跨多个抽象层次和领域的复杂多组件系统,但在复制精细细节和低层模式排列方面能力有限。
- Conclusion: VLMs展现出有趣的不对称性:结合了高层次深度视觉理解与有限的细节感知能力,揭示了当前模型的认知特性。
[3] STResNet & STYOLO : A New Family of Compact Classification and Object Detection Models for MCUs
Sudhakar Sah,Ravish Kumar
Main category: cs.CV
TL;DR: 提出STResNet和STYOLO两个轻量级神经网络家族,分别用于图像分类和目标检测,在资源受限设备上实现精度、效率和内存占用的联合优化。
- Motivation: 现有轻量级网络通常在精度和延迟之间进行权衡,限制了在微控制器和神经处理单元等边缘硬件上的应用,需要开发更高效的模型。
- Method: 设计了STResNet系列(Nano到Tiny变体)用于图像分类,以及STYOLO系列(Micro和Milli)用于目标检测,针对资源受限平台进行联合优化。
- Result: STResNetMilli仅用300万参数达到70.0%的Top-1准确率,优于MobileNetV1和ShuffleNetV2;STYOLOMicro和STYOLOMilli在MS COCO上分别达到30.5%和33.6%的mAP,超越YOLOv5n和YOLOX Nano。
- Conclusion: 提出的STResNet和STYOLO模型在资源受限平台上实现了精度、效率和内存占用的良好平衡,为边缘设备部署深度学习模型提供了有效解决方案。
[4] MOSAIC-GS: Monocular Scene Reconstruction via Advanced Initialization for Complex Dynamic Environments
Svitlana Morkva,Maximum Wilder-Smith,Michael Oechsle,Alessio Tonioni,Marco Hutter,Vaishakh Patil
Main category: cs.CV
TL;DR: MOSAIC-GS:基于高斯泼溅的单目视频动态场景重建新方法,利用多种几何线索和刚性运动约束,通过静态-动态分解和参数化轨迹编码实现高效训练和实时渲染。
- Motivation: 单目重建由于缺乏多视角约束而具有病态性,难以准确恢复物体几何和时间一致性。现有方法主要依赖视觉外观进行运动推断,这在单目设置中往往存在歧义。
- Method: 1)利用深度、光流、动态物体分割和点跟踪等多种几何线索;2)结合刚性运动约束在初始化阶段估计初步3D场景动态;3)将场景分解为静态和动态组件;4)为动态部分的高斯分配时间相关的Poly-Fourier曲线轨迹进行参数化运动编码。
- Result: 相比现有方法,MOSAIC-GS实现了显著更快的优化和渲染速度,同时在标准单目动态场景基准测试中保持了与最先进方法相当的重建质量。
- Conclusion: MOSAIC-GS通过利用多种几何线索和刚性约束,在初始化阶段恢复场景动态,减少了对视觉外观运动推断的依赖,实现了高效、高质量的单目动态场景重建。
[5] Ensemble of radiomics and ConvNeXt for breast cancer diagnosis
Jorge Alberto Garza-Abdala,Gerardo Alejandro Fumagal-González,Beatriz A. Bosques-Palomo,Mario Alexis Monsivais Molina,Daly Avedano,Servando Cardona-Huerta,José Gerardo Tamez-Pena
Main category: cs.CV
TL;DR: 集成深度学习和影像组学的方法在乳腺X线筛查中显著提高了癌症检测性能,AUC达到0.87,优于单独使用深度学习的0.83和影像组学的0.80。
- Motivation: 乳腺癌早期诊断对提高生存率至关重要。虽然影像组学和深度学习在辅助放射科医生早期癌症检测方面显示出潜力,但需要系统评估这些技术及其组合在乳腺X线筛查中的性能。
- Method: 使用两个独立数据集:RSNA 2023乳腺癌检测挑战赛数据集(11,913名患者)和墨西哥TecSalud队列(19,400名患者)。在RSNA数据集上训练ConvNeXtV1-small深度学习模型并在TecSalud数据集上验证;在TecSalud数据集上开发影像组学模型并使用留一年交叉验证;采用相同方法对集成方法进行一致组合和校准预测。
- Result: 集成方法获得了最高的曲线下面积(AUC)0.87,优于ConvNeXtV1-small深度学习的0.83和影像组学的0.80,表明集成方法在乳腺癌检测方面性能最佳。
- Conclusion: 结合深度学习和影像组学预测的集成方法显著增强了从乳腺X线片中诊断乳腺癌的能力,为临床实践提供了更可靠的辅助诊断工具。
[6] EdgeLDR: Quaternion Low-Displacement Rank Neural Networks for Edge-Efficient Deep Learning
Vladimir Frants,Sos Agaian,Karen Panetta
Main category: cs.CV
TL;DR: EdgeLDR框架将四元数神经网络与块循环矩阵结构结合,通过FFT加速计算,在边缘设备上实现高效压缩与推理。
- Motivation: 边缘设备部署深度神经网络受限于内存带宽和密集线性算子的计算成本。四元数神经网络通过哈密顿积耦合多个通道提高参数效率,但通常保留非结构化密集权重;而结构化矩阵支持快速计算但通常应用于实数域。
- Method: 提出EdgeLDR框架,结合四元数通道混合与块循环参数结构,通过复数伴随表示实现基于FFT的评估。提供EdgeLDR层的参考实现,比较FFT计算与空间域实现的性能。
- Result: FFT评估相比朴素实现获得显著加速,延迟随块大小增加保持稳定,使更大压缩因子计算可行。在CIFAR-10/100、SVHN和遥感图像分类任务中,EdgeLDR层在紧凑CNN和Transformer骨干上实现显著压缩同时保持竞争力准确率。
- Conclusion: EdgeLDR层通过结合四元数混合与块循环结构,提供显著压缩同时保持竞争性准确率,为边缘设备部署提供实用框架。
[7] Sketch&Patch++: Efficient Structure-Aware 3D Gaussian Representation
Yuang Shi,Simone Gasparini,Géraldine Morin,Wei Tsang Ooi
Main category: cs.CV
TL;DR: 提出基于高斯分布的混合表示方法,将高斯分为描绘高频特征的Sketch Gaussians和覆盖低频区域的Patch Gaussians,实现分层渐进式流式传输,提升3D场景压缩效率。
- Motivation: 传统3D高斯分布表示在压缩和流式传输时效率不高,缺乏对场景结构语义的理解。观察到高斯分布具有类似艺术创作中"草图"和"色块"的不同角色,需要一种能区分高频边界特征和低频平滑区域的表示方法。
- Method: 提出分层自适应分类框架:1) 将高斯分为Sketch Gaussians(高频边界特征)和Patch Gaussians(低频平滑区域);2) 采用多准则密度聚类和自适应质量驱动细化;3) 实现分层渐进式流式传输,先传输紧凑的Sketch Gaussians建立结构骨架,再逐步传输Patch Gaussians细化细节。
- Result: 在多样化场景(人造和自然环境)评估中,相比均匀剪枝基线,在相同模型大小下PSNR提升1.74dB,SSIM提升6.7%,LPIPS提升41.4%。室内场景仅需原始模型大小的0.5%即可保持视觉质量。
- Conclusion: 提出的结构感知混合表示方法能有效压缩3D高斯场景,支持高效存储、自适应流式传输和渲染,适用于带宽受限网络和资源有限设备,为高质量3D内容传输提供了新解决方案。
[8] Multi-task Cross-modal Learning for Chest X-ray Image Retrieval
Zhaohui Liang,Sivaramakrishnan Rajaraman,Niccolo Marini,Zhiyun Xue,Sameer Antani
Main category: cs.CV
TL;DR: 该研究提出一个多任务学习框架来微调BiomedCLIP,提升胸部X光图像-文本检索性能,通过结合分类、对比学习和跨模态对齐损失实现更平衡的临床相关检索。
- Motivation: CLIP和BiomedCLIP虽然提供强大的跨模态嵌入,但未针对细粒度医学检索任务(如使用胸部X光图像查询检索相关放射学报告)进行优化,需要提升在医学领域的检索性能。
- Method: 以BiomedCLIP为骨干,加入轻量级MLP投影头,使用多任务复合损失函数:1)二元交叉熵损失区分正常/异常CXR研究;2)监督对比损失增强类内一致性;3)CLIP损失保持跨模态对齐。
- Result: 微调后的模型在图像到文本和文本到图像检索任务中比预训练的BiomedCLIP和通用CLIP模型表现更平衡且更具临床意义,t-SNE可视化显示正常/异常病例语义聚类更清晰。
- Conclusion: 领域自适应多任务学习对推进生物医学应用中的跨模态检索具有重要价值,能够增强模型的诊断敏感性。
[9] Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
Yuxiang Ji,Yong Wang,Ziyu Ma,Yiming Hu,Hailang Huang,Xuecai Hu,Guanhua Chen,Liaoni Wu,Xiangxiang Chu
Main category: cs.CV
TL;DR: 本文提出了一种结合地图思维的图像地理定位方法,通过代理在地图中的循环推理和两阶段优化方案,显著提升了定位精度。
- Motivation: 现有的大型视觉语言模型方法虽然利用了世界知识、思维链推理和代理能力,但忽视了人类常用的地图使用策略。本文旨在让模型具备"地图思维"能力,以更接近人类的方式进行地理定位。
- Method: 1) 提出"地图思维"能力,将其形式化为代理在地图中的循环推理;2) 开发两阶段优化方案:先进行代理强化学习以提升采样效率,再进行并行测试时扩展,让模型在最终预测前探索多个候选路径;3) 构建MAPBench基准数据集,包含真实世界图像用于训练和评估。
- Result: 该方法在大多数指标上优于现有的开源和闭源模型,特别是将Acc@500m从Gemini-3-Pro的8.0%提升到22.1%,性能提升显著。
- Conclusion: 通过引入地图思维和两阶段优化方案,本文提出的方法显著提升了图像地理定位的准确性,证明了结合地图推理策略的有效性。
[10] TAPM-Net: Trajectory-Aware Perturbation Modeling for Infrared Small Target Detection
Hongyang Xie,Hongyang He,Victor Sanchez
Main category: cs.CV
TL;DR: TAPM-Net:基于轨迹感知Mamba传播网络的红外小目标检测方法,通过建模目标引起的特征扰动空间扩散行为,在NUAA-SIRST和IRSTD-1K数据集上达到SOTA性能。
- Motivation: 红外小目标检测面临信号对比度弱、空间范围有限和背景杂波等挑战。现有CNN和ViT模型缺乏追踪小目标如何在特征空间中引发方向性、层级扰动的机制,而这种机制是区分红外场景中信号与结构化噪声的关键线索。
- Method: 提出轨迹感知Mamba传播网络(TAPM-Net),包含两个核心组件:扰动引导路径模块(PGM)和轨迹感知状态块(TASB)。PGM从多级特征构建扰动能量场,提取反映局部响应方向性的梯度跟随特征轨迹。TASB是基于Mamba的状态空间单元,沿每条轨迹建模动态传播,同时结合速度约束扩散和语义对齐的特征融合(词级和句级嵌入)。
- Result: 在NUAA-SIRST和IRSTD-1K数据集上的实验表明,TAPM-Net在红外小目标检测任务中达到了最先进的性能。
- Conclusion: TAPM-Net通过显式建模目标引起的特征扰动空间扩散行为,实现了各向异性、上下文敏感的状态转移,同时以较低计算成本保持全局一致性,为红外小目标检测提供了有效解决方案。
[11] ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction
Tingwei Xie,Jinxin He,Yonghong Song
Main category: cs.CV
TL;DR: ROAP是一个轻量级、架构无关的管道,通过自适应XY间隙树提取阅读序列,结合阅读顺序感知相对位置偏置和文本令牌子块注意力先验,优化布局变换器的注意力分布,提升视觉丰富文档理解性能。
- Motivation: 多模态变换器在视觉丰富文档理解中存在两个关键限制:缺乏对逻辑阅读顺序的显式建模,以及视觉令牌干扰会稀释对文本语义的注意力。
- Method: 提出ROAP管道:1) 使用自适应XY间隙树从复杂布局中提取分层阅读序列;2) 通过阅读顺序感知相对位置偏置将序列集成到注意力机制中;3) 引入文本令牌子块注意力先验自适应抑制视觉噪声并增强细粒度文本-文本交互。
- Result: 在FUNSD和CORD基准测试中,ROAP持续提升了包括LayoutLMv3和GeoLayoutLM在内的代表性骨干网络性能。
- Conclusion: 显式建模阅读逻辑和调节模态干扰对于鲁棒文档理解至关重要,ROAP为复杂布局分析提供了可扩展的解决方案。
[12] Multi-Image Super Resolution Framework for Detection and Analysis of Plant Roots
Shubham Agarwal,Ofek Nourian,Michael Sidorov,Sharon Chemweno,Ofer Hadar,Naftali Lazarovitch,Jhonathan E. Ephrath
Main category: cs.CV
TL;DR: 提出一个地下植物根系成像系统,结合多图像超分辨率深度学习框架,通过合成数据集训练,显著提升根系可见性和细节,实现更准确的根系性状分析。
- Motivation: 地下植物根系成像面临遮挡、土壤湿度变化和低对比度等挑战,传统视觉方法效果有限,需要新的成像技术来改善根系可见性,促进土壤-植物相互作用、养分吸收和植物健康研究。
- Method: 提出一个地下成像系统,捕获植物根系的多重叠视图,并集成基于深度学习的多图像超分辨率框架。构建合成数据集模拟真实地下成像场景,包含影响图像质量的环境因素。MISR算法利用视图间的空间冗余性重建高分辨率图像。
- Result: 定量评估显示,该方法优于最先进的超分辨率基线,BRISQUE指标降低2.3%,CLIP-IQA分数相同,表明图像质量改善。能够实现根系性状的准确估计,包括根毛数量和根毛密度。
- Conclusion: 该框架为农业和生态研究中的鲁棒自动地下植物根系成像和性状量化提供了有前景的方向,有助于改善根系表型分析。
[13] Hippocampal Atrophy Patterns Across the Alzheimer's Disease Spectrum: A Voxel-Based Morphometry Analysis
Trishna Niraula
Main category: cs.CV
TL;DR: 使用VBM分析ADNI数据发现AD患者海马萎缩显著,海马体积对MCI向AD转化有中等预测价值,APOE4状态对海马体积无显著影响
- Motivation: 研究阿尔茨海默病和轻度认知障碍中灰质萎缩的模式,特别是内侧颞叶结构的变化,探索海马体积作为生物标志物的预测价值以及APOE4基因型的影响
- Method: 使用CAT12/SPM12基于体素的形态测量学分析249名ADNI参与者的基线T1加权MRI,包括90名认知正常者、129名MCI患者和30名AD患者。使用一般线性模型分析灰质体积,以诊断组为主要预测因子,年龄和总颅内体积作为协变量。统计图在体素水平p<0.001阈值,使用FWE校正进行多重比较校正
- Result: AD患者相对于认知正常者和MCI患者海马萎缩显著(Cohen's d分别为2.03和1.61)。海马体积对MCI向AD转化有中等预测价值(AUC=0.66)。按APOE4状态分层未发现基因对海马体积的显著影响
- Conclusion: 内侧颞叶变性是AD进展的关键特征,海马体积可作为预测生物标志物,但APOE4状态对海马体积的横断面测量无显著影响
[14] MMViR: A Multi-Modal and Multi-Granularity Representation for Long-range Video Understanding
Zizhong Li,Haopeng Zhang,Jiawei Zhang
Main category: cs.CV
TL;DR: MMViR提出了一种多模态、多粒度的结构化表示方法,用于解决长视频理解中的计算复杂性和信息冗余问题,在QA、摘要和检索任务上显著优于现有方法。
- Motivation: 长视频(从几分钟到几小时)包含复杂事件、多样场景和长程依赖关系,给当前多模态大语言模型带来重大挑战。直接编码计算成本过高,而简单的视频到文本转换往往产生冗余或碎片化内容。
- Method: MMViR通过识别关键转折点来分割视频,并构建三级描述结构,将全局叙事与细粒度视觉细节相结合。这种设计支持高效的基于查询的检索,并能很好地泛化到各种场景。
- Result: 在三个任务(QA、摘要和检索)上的广泛评估表明,MMViR优于先前最强方法,在小时级视频理解上实现了19.67%的提升,同时将处理延迟降低到原始的45.4%。
- Conclusion: MMViR提供了一种有效的多模态、多粒度结构化表示方法,显著提升了长视频理解能力,同时大幅降低了计算成本和处理延迟。
[15] Prompt-Free SAM-Based Multi-Task Framework for Breast Ultrasound Lesion Segmentation and Classification
Samuel E. Johnny,Bernes L. Atabonfack,Israel Alagbe,Assane Gueye
Main category: cs.CV
TL;DR: 该研究提出了一种基于Segment Anything Model (SAM)视觉编码器的多任务深度学习框架,用于乳腺超声图像中的病灶分割和诊断分类,在PRECISE 2025数据集上取得了优异性能。
- Motivation: 乳腺超声图像由于对比度低、斑点噪声多以及病灶形态多样,导致准确的肿瘤分割和分类仍然具有挑战性。需要开发更有效的深度学习方法来同时解决这两个任务。
- Method: 提出多任务深度学习框架,使用SAM视觉编码器的嵌入特征,通过无提示的完全监督适应方式,采用轻量级卷积头或UNet风格解码器进行像素级分割,分类分支通过掩码引导注意力机制增强,聚焦病灶相关特征并抑制背景伪影。
- Result: 在PRECISE 2025乳腺超声数据集上(按类别80%训练、20%测试),该方法达到Dice相似系数0.887和准确率92.3%,在PRECISE挑战赛排行榜中名列前茅。
- Conclusion: 基于SAM的表征结合分割引导学习,能显著改善乳腺超声图像中的病灶描绘和诊断预测,为医学图像分析提供了有效的多任务解决方案。
[16] Enabling Stroke-Level Structural Analysis of Hieroglyphic Scripts without Language-Specific Priors
Fuwen Luo,Zihao Wan,Ziyue Wang,Yaluo Liu,Pau Tong Lin Xu,Xuanjia Qiao,Xiaolong Wang,Peng Li,Yang Liu
Main category: cs.CV
TL;DR: HieroSA是一个新颖的框架,使多模态大语言模型能够从字符位图中自动提取笔画级结构,无需手工标注数据,适用于现代表意文字和古代象形文字。
- Motivation: 当前的大语言模型和多模态大语言模型在处理象形文字时存在结构盲区:LLMs将字符视为文本标记,MLLMs将其视为原始像素网格,都无法建模字符笔画的内在逻辑。现有结构分析方法通常是特定于某种文字且劳动密集型的。
- Method: 提出Hieroglyphic Stroke Analyzer (HieroSA)框架,将字符图像转换为归一化坐标空间中的显式、可解释的线段表示。该框架无需手工标注数据,能够实现跨语言泛化。
- Result: 大量实验表明,HieroSA能够有效捕捉字符内部结构和语义,无需语言特定的先验知识。该工作展示了作为字形分析工具的潜力,有助于更深入地理解象形文字系统。
- Conclusion: HieroSA为多模态大语言模型提供了一种通用框架,能够自动分析字符的笔画级结构,克服了现有方法的结构盲区和语言特定限制,为象形文字研究提供了新的分析工具。
[17] GaussianSwap: Animatable Video Face Swapping with 3D Gaussian Splatting
Xuan Cheng,Jiahao Rao,Chengyang Li,Wenhao Wang,Weilin Chen,Lvqing Yang
Main category: cs.CV
TL;DR: GaussianSwap是一个基于3D高斯溅射的视频人脸交换框架,通过构建目标视频的3D人脸化身并转移源图像身份,实现高保真、可动画控制的人脸交换。
- Motivation: 传统视频人脸交换框架仅限于生成基于像素的面部表示,结果只是无结构像素集合,缺乏动画或交互操作能力。需要从传统像素生成转向创建高保真、可交互的人脸化身。
- Method: 框架首先预处理目标视频提取FLAME参数、相机姿态和分割掩码,然后将3D高斯溅射绑定到跨帧的FLAME模型上实现动态面部控制。为保持身份一致性,提出由三个最先进人脸识别模型构建的复合身份嵌入用于化身微调。最后在背景帧上渲染人脸交换后的化身得到最终视频。
- Result: 实验结果表明,GaussianSwap在身份保持、视觉清晰度和时间一致性方面表现优异,同时实现了以前无法达到的交互应用。
- Conclusion: 该工作实现了从传统像素视频生成到创建高保真可交互人脸化身的范式转变,为视频人脸交换带来了新的可能性。
[18] SAS-VPReID: A Scale-Adaptive Framework with Shape Priors for Video-based Person Re-Identification at Extreme Far Distances
Qiwei Yang,Pingping Zhang,Yuhao Wang,Zijing Gong
Main category: cs.CV
TL;DR: 提出SAS-VPReID框架,通过记忆增强视觉骨干、多粒度时序建模和先验正则化形状动态三个模块,解决远距离视频行人重识别中的分辨率退化、视角变化和外观噪声问题。
- Motivation: 远距离视频行人重识别面临严重分辨率退化、剧烈视角变化和不可避免的外观噪声等挑战,需要新的方法来提取更具判别性的特征表示。
- Method: 提出SAS-VPReID框架,包含三个互补模块:1) 基于CLIP视觉编码器和多代理记忆的记忆增强视觉骨干;2) 多粒度时序建模,构建多时间粒度序列并自适应强调跨尺度运动线索;3) 先验正则化形状动态,捕捉身体结构动态。
- Result: 在VReID-XFD基准测试中验证了各模块的有效性,最终框架在VReID-XFD挑战排行榜上排名第一。
- Conclusion: SAS-VPReID框架通过三个互补模块能够获得更具判别性的特征表示,有效解决了远距离视频行人重识别的挑战。
[19] DIFF-MF: A Difference-Driven Channel-Spatial State Space Model for Multi-Modal Image Fusion
Yiming Sun,Zifan Ye,Qinghua Hu,Pengfei Zhu
Main category: cs.CV
TL;DR: DIFF-MF:基于差异驱动的通道-空间状态空间模型的多模态图像融合方法,通过特征差异图指导特征提取,在通道和空间维度进行融合,平衡红外强度和可见光细节。
- Motivation: 现有基于状态空间模型的方法存在两个问题:要么过度优先考虑红外强度而牺牲可见光细节,要么保留可见光结构但降低热目标显著性。需要克服这些挑战,实现更好的多模态图像融合。
- Method: 提出DIFF-MF模型:1)利用模态间特征差异图指导特征提取;2)通道维度使用通道交换模块,通过交叉注意力双状态空间建模增强通道交互;3)空间维度使用空间交换模块,通过跨模态状态空间扫描实现全面空间融合;4)保持线性计算复杂度同时捕获全局依赖。
- Result: 在驾驶场景和低空无人机数据集上的实验结果表明,该方法在视觉质量和定量评估方面均优于现有方法。
- Conclusion: DIFF-MF通过差异驱动的通道-空间状态空间模型,有效整合了多模态互补特征,在保持计算效率的同时实现了更好的融合效果。
[20] MoGen: A Unified Collaborative Framework for Controllable Multi-Object Image Generation
Yanfeng Li,Yue Sun,Keren Fu,Sio-Kei Im,Xiaoming Liu,Guangtao Zhai,Xiaohong Liu,Tao Tan
Main category: cs.CV
TL;DR: MoGen提出了一种用户友好的多目标图像生成方法,通过区域语义锚定模块和自适应多模态引导模块,实现了对多对象数量和属性的精确控制,无需依赖固定的外部控制信号。
- Motivation: 现有多目标图像生成方法难以实现语言描述与图像区域的精确对齐,常导致对象数量不一致和属性混淆。主流方法依赖外部控制信号来约束空间布局和属性,但这种强依赖性使输入格式僵化,无法适应用户不同的资源条件和约束需求。
- Method: 1. 设计区域语义锚定(RSA)模块,在生成过程中将语言描述中的短语单元精确锚定到对应的图像区域,实现遵循多对象数量规格的文本到图像生成。
- 引入自适应多模态引导(AMG)模块,自适应解析和整合多源控制信号的多种组合,形成相应的结构化意图,指导对场景布局和对象属性的选择性约束。
- Result: 实验结果表明,MoGen在生成质量、数量一致性和细粒度控制方面显著优于现有方法,同时展现出优越的可访问性和控制灵活性。
- Conclusion: MoGen通过创新的RSA和AMG模块,解决了多目标图像生成中的对齐和控制问题,提供了一种更灵活、用户友好的解决方案,代码已开源。
[21] VIB-Probe: Detecting and Mitigating Hallucinations in Vision-Language Models via Variational Information Bottleneck
Feiran Zhang,Yixin Wu,Zhenghua Wang,Xiaohua Wang,Changze Lv,Xuanjing Huang,Xiaoqing Zheng
Main category: cs.CV
TL;DR: VIB-Probe:基于变分信息瓶颈的视觉语言模型幻觉检测与缓解框架,通过分析内部注意力头信号来识别和减少幻觉
- Motivation: 现有视觉语言模型存在幻觉问题,当前检测方法主要依赖输出logits或外部验证工具,忽略了模型内部机制。研究发现特定注意力头携带真实生成的主要信号,但直接探测这些高维状态存在视觉-语言语法与噪声纠缠的挑战。
- Method: 提出VIB-Probe框架,基于变分信息瓶颈理论,提取跨层和跨头的判别模式,同时通过信息瓶颈原则过滤语义噪声。利用VIB探针的梯度识别对幻觉有强因果影响的注意力头,并引入推理时干预策略缓解幻觉。
- Result: 在多个基准测试上的广泛实验表明,VIB-Probe在幻觉检测和缓解两方面都显著优于现有基线方法。
- Conclusion: VIB-Probe通过分析视觉语言模型内部注意力机制,提供了一种有效的幻觉检测和缓解方法,代码将公开可用。
[22] One Language-Free Foundation Model Is Enough for Universal Vision Anomaly Detection
Bin-Bin Gao,Chengjie Wang
Main category: cs.CV
TL;DR: UniADet提出了一种极其简单的通用视觉异常检测框架,通过解耦分类和分割任务以及跨层级特征,仅学习少量参数就能在各种基础模型上实现SOTA性能。
- Motivation: 当前基于视觉-语言基础模型的异常检测方法存在复杂提示工程、精心设计的适配模块和挑战性训练策略等问题,限制了方法的灵活性和通用性。本文重新思考视觉-语言模型在异常检测中的基本机制,旨在解决这些问题。
- Method: 首先发现语言编码器在异常分类和分割中用于生成决策权重是不必要的;然后提出极其简单的方法完全解耦分类和分割任务,并解耦跨层级特征,即为不同任务和层级特征学习独立的权重。
- Result: UniADet在14个真实世界异常检测基准测试(涵盖工业和医疗领域)中,大幅超越最先进的零样本/少样本方法,甚至首次超越了全样本方法。该方法仅需0.002M可学习参数,具有高度简单性、参数高效性和通用性。
- Conclusion: UniADet通过解耦机制提供了一个简单、通用且有效的通用视觉异常检测框架,无需复杂提示工程或适配模块,在各种基础模型上都能取得优异性能,为开放动态场景下的异常检测提供了新思路。
[23] Semi-Supervised Facial Expression Recognition based on Dynamic Threshold and Negative Learning
Zhongpeng Cai,Jun Yu,Wei Xu,Tianyu Liu,Jianqing Sun,Jiaen Liang
Main category: cs.CV
TL;DR: 提出基于动态阈值调整和选择性负学习的半监督面部表情识别算法,在RAF-DB和AffectNet数据集上达到SOTA性能
- Motivation: 面部表情识别在人机交互和情感计算中很重要,但获取大量标注数据成本高昂,因此需要设计能够充分利用标注和未标注数据的半监督算法
- Method: 1. 特征提取阶段采用局部注意力增强和特征图随机丢弃策略;2. 引入动态阈值调整方法适应半监督学习框架;3. 通过选择性负学习策略利用低置信度未标注样本,从互补标签中挖掘有用表情信息
- Result: 在RAF-DB和AffectNet数据集上取得了最先进的性能,即使不使用完整数据集也超越了全监督方法
- Conclusion: 提出的DTA和SNL半监督面部表情识别算法有效解决了标注数据不足的问题,通过动态阈值和选择性负学习策略充分利用未标注数据,证明了方法的有效性
[24] What's Left Unsaid? Detecting and Correcting Misleading Omissions in Multimodal News Previews
Fanxiao Li,Jiaying Wu,Tingchao Fu,Dayang Li,Herun Wan,Wei Zhou,Min-Yen Kan
Main category: cs.CV
TL;DR: 论文提出OMGuard系统,通过解释感知微调和理由引导的误导内容修正,解决社交媒体新闻预览因选择性省略上下文导致的"解释漂移"问题,显著提升多模态误导性检测和修正能力。
- Motivation: 社交媒体新闻预览(图片-标题对)即使事实正确,也可能因选择性省略关键上下文而导致"解释漂移",使读者形成与完整文章不同的判断。这种隐性危害比显性虚假信息更难检测,但尚未得到充分研究。
- Method: 开发多阶段流程,解耦和模拟基于预览与基于上下文的理解,构建MM-Misleading基准。提出OMGuard系统,包含:(1) 解释感知微调,提升多模态误导性检测;(2) 理由引导的误导内容修正,使用明确理由指导标题重写以减少误导印象。
- Result: OMGuard将8B模型的检测准确率提升至与235B LVLM相当,并提供显著更强的端到端修正能力。分析显示误导性通常源于局部叙事变化(如缺失背景)而非全局框架变化,并识别出纯文本修正失败的图像驱动场景。
- Conclusion: 选择性省略导致的解释漂移是社交媒体新闻预览的重要隐性危害,需要视觉干预的多模态方法来解决。OMGuard通过结合检测和修正能力,有效应对这一挑战,为多模态误导性检测提供了新方向。
[25] Towards Generalized Multi-Image Editing for Unified Multimodal Models
Pengcheng Xu,Peng Tang,Donghao Luo,Xiaobin Hu,Weichu Cui,Qingdong He,Zhennan Chen,Jiangning Zhang,Charles Ling,Boyu Wang
Main category: cs.CV
TL;DR: 提出一个可扩展的多图像编辑框架,通过可学习潜在分离器和正弦索引编码来区分图像身份,提高视觉一致性和跨图像整合能力
- Motivation: 统一多模态模型在保持视觉一致性和跨多张输入图像引用细节时存在局限性,需要解决图像身份区分和可变输入数量的问题
- Method: 1) 可学习潜在分离器:在潜在空间中显式区分每个参考图像,实现准确解耦的条件控制;2) 正弦索引编码:为同一图像的视觉标记分配连续的正弦索引嵌入,提供显式图像身份同时支持可变数量输入的泛化和外推
- Result: 实验显示在多样多图像编辑任务中,相比先前基线在语义一致性、视觉保真度和跨图像整合方面有明显改进,验证了框架在一致性和泛化能力上的优势
- Conclusion: 提出的可扩展多图像编辑框架通过显式区分图像身份和可变输入处理,有效解决了统一多模态模型在多图像编辑中的视觉一致性和细节引用问题
[26] Orient Anything V2: Unifying Orientation and Rotation Understanding
Zehan Wang,Ziang Zhang,Jiayang Xu,Jialei Wang,Tianyu Pang,Chao Du,HengShuang Zhao,Zhou Zhao
Main category: cs.CV
TL;DR: Orient Anything V2是一个增强的基础模型,用于从单张或成对图像中统一理解物体的3D方向和旋转,相比V1版本扩展了处理不同旋转对称性物体的能力,并可直接估计相对旋转。
- Motivation: V1版本仅通过单一前表面定义方向,无法处理具有不同旋转对称性的物体,且不能直接估计相对旋转。需要扩展模型能力以处理更广泛的物体类别和更复杂的旋转场景。
- Method: 1) 使用生成模型合成可扩展的3D资产确保广泛类别覆盖;2) 高效的模型在环标注系统识别0到N个有效前表面;3) 对称感知的周期性分布拟合目标捕获所有可能的前向方向;4) 多帧架构直接预测相对物体旋转。
- Result: 在11个广泛使用的基准测试中,Orient Anything V2在方向估计、6DoF姿态估计和物体对称性识别方面实现了最先进的零样本性能,展示了强大的泛化能力。
- Conclusion: 该模型显著扩展了方向估计在多样化下游任务中的适用性,为处理具有不同旋转对称性的物体提供了统一的解决方案。
[27] Generalizable and Adaptive Continual Learning Framework for AI-generated Image Detection
Hanyi Wang,Jun Lan,Yaoyu Kang,Huijia Zhu,Weiqiang Wang,Zhuosheng Zhang,Shilin Wang
Main category: cs.CV
TL;DR: 提出三阶段领域持续学习框架,用于持续适应不断演化的AI生成图像检测,在27个生成模型基准上取得优异性能。
- Motivation: AI生成图像的恶意滥用和广泛传播威胁在线信息真实性。现有检测方法难以泛化到未见过的生成模型,且生成技术快速演化使检测模型面临失效风险。
- Method: 三阶段框架:1) 参数高效微调构建可迁移离线检测模型;2) 持续学习整合未见数据流,使用渐进复杂度数据增强链和K-FAC方法缓解灾难性遗忘;3) 基于线性模式连接性的线性插值策略捕捉不同生成模型共性。
- Result: 离线检测器比领先基线平均精度提升+5.51%;持续学习策略平均准确率达92.20%,优于最先进方法。
- Conclusion: 提出的三阶段持续学习框架能有效适应不断演化的生成模型,为AI生成图像检测提供可持续解决方案。
[28] GS-DMSR: Dynamic Sensitive Multi-scale Manifold Enhancement for Accelerated High-Quality 3D Gaussian Splatting
Nengbo Lu,Minghua Pan,Shaohua Sun,Yizhou Liang
Main category: cs.CV
TL;DR: GS-DMSR方法通过自适应梯度聚焦和多尺度流形增强模块,在3D动态场景重建中平衡收敛速度与渲染质量,实现96 FPS的高帧率并减少存储和训练时间。
- Motivation: 3D动态场景重建领域长期面临模型收敛速度与渲染质量难以平衡的挑战,特别是在复杂动态运动场景的高精度建模中,这一问题尤为突出。
- Method: 提出GS-DMSR方法:1) 通过定量分析高斯属性的动态演化过程,实现自适应梯度聚焦机制,动态识别高斯模型运动状态的显著差异;2) 对重要性不同的高斯模型应用差异化优化策略;3) 集成多尺度流形增强模块,利用隐式非线性解码器和显式变形场的协同优化来增强复杂变形场景的建模效率。
- Result: 在合成数据集上达到96 FPS的帧率,同时有效减少了存储开销和训练时间。
- Conclusion: GS-DMSR方法成功解决了3D动态场景重建中收敛速度与渲染质量的平衡问题,为复杂动态运动场景的高效高精度建模提供了有效解决方案。
[29] Quantifying and Inducing Shape Bias in CNNs via Max-Pool Dilation
Takito Sawada,Akinori Iwata,Masahiro Okuda
Main category: cs.CV
TL;DR: 提出一种量化数据集形状-纹理平衡的指标,并基于此设计高效的自适应方法,通过调整最大池化操作的膨胀率来增强CNN的形状偏向,在形状主导的数据集上提升分类性能。
- Motivation: 卷积神经网络(CNN)具有强烈的纹理偏向,偏好局部模式而非全局形状信息。虽然这种偏向对纹理丰富的自然图像有益,但在形状主导的数据(如插图和草图)上会降低性能。现有方法缺乏量化指标来确定哪些数据集真正需要形状偏向的改进。
- Method: 1)提出数据驱动的指标,通过计算每个图像亮度通道与其L0平滑版本之间的结构相似性指数(SSIM)来量化数据集的形状-纹理平衡;2)引入计算高效的自适应方法,通过修改最大池化操作的膨胀率来促进形状偏向,同时保持卷积权重冻结,仅训练最后的分类层。
- Result: 实验结果表明,该方法在形状主导的数据集上持续提高分类准确率,特别是在数据量较少的情况下,此时完全微调不切实际,只需训练最后的分类层。
- Conclusion: 该研究填补了量化数据集形状-纹理平衡指标的空白,并提出了一种高效的自适应方法,能够在保持计算效率的同时提升CNN在形状主导数据上的性能,特别适用于低数据场景。
[30] SceneAlign: Aligning Multimodal Reasoning to Scene Graphs in Complex Visual Scenes
Chuhan Wang,Xintong Li,Jennifer Yuntong Zhang,Junda Wu,Chengkai Huang,Lina Yao,Julian McAuley,Jingbo Shang
Main category: cs.CV
TL;DR: SceneAlign框架利用场景图进行结构化干预,构建对比样本,通过偏好优化提升多模态大语言模型的视觉推理忠实度
- Motivation: 多模态大语言模型在复杂视觉场景中经常出现推理不忠实的问题,如幻觉实体、错误关联、跳过步骤和过度细化推理。现有基于偏好的方法依赖文本扰动或答案条件化推理,无法解决视觉基础问题,因为模型可以利用语言先验绕过视觉基础。
- Method: 提出SceneAlign框架,利用场景图作为结构化视觉信息进行可控的结构干预。通过识别推理关键节点,采用四种针对性策略进行扰动(模拟典型基础失败),构建语言合理但视觉事实不准确的硬负样本推理链。使用这些对比对进行直接偏好优化,引导模型进行细粒度、结构忠实的推理。
- Result: 在七个视觉推理基准测试中,SceneAlign持续提高了答案准确性和推理忠实度,证明了基于基础的对齐方法对多模态推理的有效性。
- Conclusion: SceneAlign通过场景图的结构化干预和对比学习,有效解决了多模态大语言模型在复杂视觉场景中的推理不忠实问题,为视觉基础对齐提供了有效方法。
[31] Learning Geometric Invariance for Gait Recognition
Zengbin Wang,Junjie Li,Saihui Hou,Xu Liu,Chunshui Cao,Yongzhen Huang,Muyi Sun,Siye Wang,Man Zhang
Main category: cs.CV
TL;DR: 论文提出RRS-Gait框架,将不同步态条件下的变化视为几何变换组合,通过反射、旋转、缩放三种几何变换的等变性学习实现身份不变性特征提取。
- Motivation: 现有步态识别研究大多通过数据驱动方式隐式学习不同步态条件下的共同特征,但较少显式探索不同步态条件之间的内在关系。本文试图建立不同步态条件之间的连接,将步态变化视为几何变换组合。
- Method: 提出RRS-Gait框架,探索反射、旋转、缩放三种几何变换。首先根据具体几何变换灵活调整卷积核以实现近似特征等变性,然后将三种等变性感知特征分别输入全局池化操作进行最终不变性学习。
- Result: 在四个主流步态数据集(Gait3D、GREW、CCPG、SUSTech1K)上的大量实验显示,在各种步态条件下都取得了优越性能。
- Conclusion: 通过将步态变化建模为几何变换组合,并实现几何不变性,可以自然地获得身份不变性。RRS-Gait框架为步态识别提供了新的视角和有效方法。
[32] LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction
Chengen Xie,Bin Sun,Tianyu Li,Junjie Wu,Zhihui Hao,XianPeng Lang,Hongyang Li
Main category: cs.CV
TL;DR: LatentVLA:无需语言标注的自监督潜在动作预测框架,解决VLA模型在自动驾驶中的数值精度、语言依赖和计算效率问题
- Motivation: 当前端到端自动驾驶模型在常见场景表现良好,但在长尾罕见场景中表现不佳;现有VLA模型虽然利用预训练视觉语言模型知识,但存在数值精度不足、过度依赖语言标注(引入语言偏见和标注负担)、以及多步推理导致计算效率低下等问题
- Method: 提出LatentVLA框架,采用自监督潜在动作预测训练VLA模型,无需语言标注;通过知识蒸馏将VLA模型的泛化能力迁移到高效的视觉网络中
- Result: 在NAVSIM基准测试中达到92.4的PDMS分数,创下新SOTA;在nuScenes基准测试中表现出强大的零样本泛化能力
- Conclusion: LatentVLA通过消除语言依赖和提升计算效率,实现了自动驾驶模型在保持鲁棒性能的同时满足实时部署需求
[33] Compressing image encoders via latent distillation
Caroline Mazini Rodrigues,Nicolas Keriven,Thomas Maugey
Main category: cs.CV
TL;DR: 提出一种通过简化知识蒸馏策略压缩图像压缩模型编码器的方法,在保持重建质量的同时减少模型大小和计算需求
- Motivation: 深度学习图像压缩模型在实际硬件受限应用中面临限制,虽然能实现高质量重建,但通常复杂、重量级,需要大量训练数据和计算资源
- Method: 使用简化的知识蒸馏策略来近似原始模型的潜在空间,用更少的数据和更短的训练时间,从重量级编码器生成轻量级编码器
- Result: 在两个不同架构上评估轻量级编码器,实验表明该方法比使用原始损失训练轻量级编码器更好地保持重建质量和统计保真度
- Conclusion: 该方法使深度学习图像压缩模型更适用于资源受限环境,为硬件约束应用提供了实用解决方案
[34] SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving
Jingyu Li,Junjie Wu,Dongnan Hu,Xiangkai Huang,Bin Sun,Zhihui Hao,Xianpeng Lang,Xiatian Zhu,Li Zhang
Main category: cs.CV
TL;DR: SGDrive是一个基于视觉语言模型的自驾框架,通过场景-智能体-目标层次结构来增强VLM在3D时空中的驾驶专用推理能力,在NAVSIM基准测试中取得了最先进的性能。
- Motivation: 现有的端到端自动驾驶方法虽然利用视觉语言模型增强规划能力,但这些通用模型缺乏对驾驶专用3D时空推理的专业理解,难以建立捕捉几何关系、场景上下文和运动模式的结构化时空表示。
- Method: SGDrive在预训练的VLM骨干网络上构建,将驾驶理解分解为场景-智能体-目标层次结构,模拟人类驾驶认知:先感知整体环境,再关注安全关键智能体及其行为,最后制定短期目标并执行动作。
- Result: 在NAVSIM基准测试中,SGDrive在仅使用摄像头的方法中,在PDMS和EPDMS指标上都达到了最先进的性能,验证了层次知识结构化在适应通用VLM到自动驾驶中的有效性。
- Conclusion: 通过将驾驶理解分解为层次结构,SGDrive为通用VLM提供了它们所缺乏的结构化时空表示,将多级信息整合到紧凑而全面的轨迹规划格式中,显著提升了自动驾驶性能。
[35] SketchVL: Policy Optimization via Fine-Grained Credit Assignment for Chart Understanding and More
Muye Huang,Lingling Zhang,Yifei Li,Yaqiang Wu,Jun Liu
Main category: cs.CV
TL;DR: SketchVL是一种新型多模态大语言模型,通过FinePO强化学习算法实现细粒度信用分配,通过在图像上绘制中间推理步骤作为标记,实现鲁棒的多步推理,在图表理解任务上取得显著性能提升。
- Motivation: 现有MLLMs在图表理解上面临挑战,因为图表是高密度视觉载体,需要精确复杂的视觉推理。许多使用强化学习的MLLMs存在信用分配问题,轨迹级别的优势估计无法区分单个响应中正确和错误的推理步骤。
- Method: 提出SketchVL模型,采用FinePO强化学习算法进行优化。方法包括:1)在图像上绘制中间推理步骤作为标记;2)将标注后的图像反馈给自身,形成多步推理过程;3)使用细粒度过程奖励模型(FinePRM)对轨迹中的每个绘制动作进行评分;4)FinePO算法根据全局轨迹成功与否,精确分配每个步骤的信用。
- Result: 实验表明SketchVL能够将其步骤级行为与FinePRM对齐,在图表数据集、自然图像数据集和数学任务上,相比基础模型平均性能提升7.23%。
- Conclusion: SketchVL通过细粒度信用分配的强化学习算法,为训练强大的推理模型提供了有前景的新方向,特别是在需要复杂视觉推理的图表理解任务上。
[36] Rotate Your Character: Revisiting Video Diffusion Models for High-Quality 3D Character Generation
Jin Wang,Jianxiang Lu,Comi Chen,Guangzheng Xu,Haoyu Yang,Peng Chen,Na Zhang,Yifan Xu,Longhuang Wu,Shuai Shao,Qinglin Lu,Ping Luo
Main category: cs.CV
TL;DR: RCM是一个先进的图像到视频扩散框架,专门用于高质量的新视角合成和3D角色生成,能够处理复杂姿势并生成高分辨率轨道视频。
- Motivation: 从单张图像生成高质量的3D角色在数字内容创作中仍然是一个重大挑战,特别是由于复杂的身体姿势和自遮挡问题。现有方法在处理这些复杂情况时存在局限性。
- Method: RCM是一个图像到视频扩散框架,具有以下关键特性:1) 将任何复杂姿势的角色转换到规范姿势;2) 生成1024x1024分辨率的高分辨率轨道视频;3) 支持给定不同初始相机姿态的可控观察位置;4) 支持最多4张输入图像的多视角条件。
- Result: 广泛的实验表明,RCM在新视角合成和3D生成质量方面都优于最先进的方法。
- Conclusion: RCM通过其先进的图像到视频扩散框架,成功解决了从单张图像生成高质量3D角色的挑战,特别是在处理复杂姿势和自遮挡方面表现出色。
[37] TAGRPO: Boosting GRPO on Image-to-Video Generation with Direct Trajectory Alignment
Jin Wang,Jianxiang Lu,Guangzheng Xu,Comi Chen,Haoyu Yang,Linqing Wang,Peng Chen,Mingtao Chen,Zhichao Hu,Longhuang Wu,Shuai Shao,Qinglin Lu,Ping Luo
Main category: cs.CV
TL;DR: TAGRPO:一种用于图像到视频(I2V)模型的鲁棒后训练框架,通过对比学习改进GRPO,在相同初始噪声生成的视频中优化中间潜在表示,显著提升I2V生成质量。
- Motivation: 现有GRPO方法在文本到图像和文本到视频生成中有效,但直接应用于图像到视频(I2V)模型时无法获得一致的奖励提升,需要专门针对I2V任务设计优化框架。
- Method: 提出TAGRPO框架:1)利用相同初始噪声生成的视频作为优化指导;2)在中间潜在表示上应用新颖的GRPO损失,使高奖励轨迹对齐并远离低奖励轨迹;3)引入视频记忆库增强多样性并降低计算开销。
- Result: TAGRPO在I2V生成任务上相比DanceGRPO取得了显著改进,证明了该框架的有效性。
- Conclusion: TAGRPO为I2V模型提供了一种简单而有效的后训练优化框架,通过对比学习和中间潜在表示的优化,解决了现有GRPO方法在I2V任务中的局限性。
[38] FeatureSLAM: Feature-enriched 3D gaussian splatting SLAM in real time
Christopher Thirgood,Oscar Mendez,Erin Ling,Jon Storey,Simon Hadfield
Main category: cs.CV
TL;DR: 提出实时跟踪SLAM系统,结合3D高斯泼溅进行特征丰富的地图构建,通过密集特征栅格化实现开放集分割,在保持实时性的同时提升跟踪稳定性和地图保真度。
- Motivation: 传统语义SLAM通常使用预定义类别标签,限制了应用范围。需要一种能够超越基本RGB-D输入、提供强语义信息,同时支持开放集分割和下游任务的实时SLAM系统。
- Method: 将密集特征栅格化集成到新视角合成中,与视觉基础模型对齐。使用3D高斯泼溅进行特征丰富的地图构建,实现实时相机跟踪和逼真地图生成。
- Result: 在标准基准测试中实现实时跟踪,相比现有固定集SLAM基线,姿态误差降低9%,地图精度提高8%。提供与离线3DGS模型相当的语义和语言掩码结果,同时保持最先进的跟踪、深度和RGB渲染性能。
- Conclusion: 实时特征嵌入SLAM不仅能够支持新的下游应用,还能提升底层跟踪和地图子系统的性能,为开放集分割和自由视点应用提供了有效解决方案。
[39] ViTNT-FIQA: Training-Free Face Image Quality Assessment with Vision Transformers
Guray Ozgur,Eduarda Caldeira,Tahar Chettaoui,Jan Niklas Kolf,Marco Huber,Naser Damer,Fadi Boutros
Main category: cs.CV
TL;DR: 提出ViTNT-FIQA,一种无需训练的面部图像质量评估方法,通过分析Vision Transformer中间块间patch嵌入的稳定性来评估图像质量,仅需单次前向传播。
- Motivation: 当前FIQA方法主要利用最终层表示,而无训练方法需要多次前向传播或反向传播。需要一种更高效、无需训练且能利用中间层信息的方法。
- Method: 通过测量Vision Transformer中间块间patch嵌入演化的稳定性来评估质量。计算连续transformer块间L2归一化patch嵌入的欧氏距离,并聚合成图像级质量分数。
- Result: 在八个基准测试(LFW、AgeDB-30、CFP-FP、CALFW、Adience、CPLFW、XQLFW、IJB-C)上取得与最先进方法竞争的性能,同时保持计算效率。
- Conclusion: ViTNT-FIQA是一种高效、无需训练的面部图像质量评估方法,仅需单次前向传播,无需反向传播或架构修改,可立即应用于任何预训练的ViT面部识别模型。
[40] FlyPose: Towards Robust Human Pose Estimation From Aerial Views
Hassaan Farooq,Marvin Brenner,Peter St\ütz
Main category: cs.CV
TL;DR: FlyPose是一个轻量级自上而下的人体姿态估计流水线,专门用于无人机视角图像,在多个数据集上提升了检测和姿态估计性能,并在Jetson Orin AGX上实现约20毫秒的推理延迟。
- Motivation: 无人机在人类密集环境中的应用(如包裹配送、交通监控等)需要从空中视角准确感知人体姿态和动作,但现有方法面临低分辨率、陡峭视角和遮挡等挑战,特别是需要实时可行模型的应用场景。
- Method: 训练和部署FlyPose,一个轻量级自上而下的人体姿态估计流水线,通过多数据集训练提升性能,并在Jetson Orin AGX开发套件上实现实时推理。
- Result: 在Manipal-UAV、VisDrone、HIT-UAV等测试集上平均提升6.8 mAP的人体检测性能;在UAV-Human数据集上提升16.3 mAP的2D人体姿态估计性能;推理延迟约20毫秒(包括预处理),并成功部署在四旋翼无人机上进行飞行实验。
- Conclusion: FlyPose能够有效解决无人机视角下人体姿态估计的挑战,实现实时性能,并发布了FlyPose-104数据集,为困难的空中视角提供手动标注数据。
[41] Adaptive Disentangled Representation Learning for Incomplete Multi-View Multi-Label Classification
Quanjiang Li,Zhiming Liu,Tianxiang Xu,Tingjin Luo,Chenping Hou
Main category: cs.CV
TL;DR: ADRL是一种自适应解耦表示学习方法,用于解决多视图多标签学习中的特征缺失和标注不完整问题,通过跨模态特征传播、标签原型建模和信息解耦实现鲁棒性能。
- Motivation: 多视图多标签学习面临特征缺失和标注不完整的问题,现有方法在特征恢复、表示解耦和标签语义建模方面存在局限,需要一种更有效的方法来处理这些挑战。
- Method: 提出自适应解耦表示学习方法(ADRL),包括:1) 基于邻域感知的跨模态特征传播实现鲁棒视图补全;2) 随机掩码策略增强重建效果;3) 跨标签分布传播类别级关联,捕捉相互依赖的标签原型;4) 基于互信息的目标函数促进共享表示一致性并抑制视图特定表示与其他模态的信息重叠;5) 原型特定特征选择,通过标签嵌入与视图表示的独立交互生成每个类别的伪标签;6) 利用伪标签空间的结构特征指导视图融合的判别性权衡。
- Result: 在公共数据集和实际应用中的大量实验表明,ADRL具有优越的性能表现。
- Conclusion: ADRL通过自适应解耦表示学习,有效解决了多视图多标签学习中的特征缺失和标注不完整问题,在特征恢复、表示解耦和标签语义建模方面表现出色。
[42] SceneFoundry: Generating Interactive Infinite 3D Worlds
ChunTeng Chen,YiChen Hsu,YiWen Liu,WeiFang Sun,TsaiChing Ni,ChunYi Lee,Min Sun,YuanFu Yang
Main category: cs.CV
TL;DR: SceneFoundry:一个语言引导的扩散框架,用于生成具有功能铰接家具的公寓规模3D世界,用于机器人训练
- Motivation: 现有生成方法难以捕捉真实室内环境的功能复杂性,特别是包含对机器人物体操作和导航至关重要的可动部件的铰接物体。需要自动生成大规模、交互式、物理真实的3D环境来推进机器人学习和具身智能。
- Method: 1. LLM模块根据自然语言提示控制楼层布局生成;2. 基于扩散的后验采样从大规模3D资源库中高效填充铰接资产;3. 使用可微分指导函数确保物理可用性:调节物体数量、防止铰接碰撞、保持足够的机器人可行走空间。
- Result: 框架能够生成结构有效、语义连贯、功能交互的环境,适用于多种场景类型和条件,支持可扩展的具身AI研究。
- Conclusion: SceneFoundry能够生成具有功能铰接家具的公寓规模3D世界,为机器人训练提供可扩展的物理真实环境生成解决方案。
[43] Boosting Latent Diffusion Models via Disentangled Representation Alignment
John Page,Xuesong Niu,Kai Wu,Kun Gai
Main category: cs.CV
TL;DR: Send-VAE是一种语义解缠的变分自编码器,通过将VAE潜在空间与预训练视觉基础模型的语义层次对齐,实现属性级信息的结构化编码,从而提升图像生成质量和训练效率。
- Motivation: 现有方法通常使用相同的对齐目标来优化VAE和LDM,但这忽略了它们根本不同的表示需求。LDM需要保留高层语义概念的潜在表示,而VAE应该擅长语义解缠,能够以结构化方式编码属性级信息。
- Method: 提出语义解缠VAE(Send-VAE),通过非线性映射网络将VAE潜在空间与预训练视觉基础模型的语义层次对齐,弥合属性级解缠与高层语义之间的差距,为VAE学习提供有效指导。
- Result: 在属性预测任务的线性探测中评估语义解缠,显示与改进的生成性能有强相关性。使用Send-VAE训练基于流的变换器SiTs,显著加速训练,在ImageNet 256×256上达到最先进的FID分数(有/无分类器自由引导分别为1.21和1.75)。
- Conclusion: Send-VAE通过明确优化语义解缠表示学习,为VAE提供了更合适的对齐目标,不仅提升了图像生成质量,还加速了训练过程,证明了语义解缠与生成性能之间的重要联系。
[44] GeoSurDepth: Spatial Geometry-Consistent Self-Supervised Depth Estimation for Surround-View Cameras
Weimin Liu,Wenjun Wang,Joshua H. Meng
Main category: cs.CV
TL;DR: GeoSurDepth:一种利用几何一致性作为主要线索的环视深度估计框架,通过基础模型提供几何先验,结合2D-3D提升和自适应运动学习,在DDAD和nuScenes数据集上达到SOTA性能。
- Motivation: 现有环视深度估计方法主要关注光度级别的跨视图约束,很少明确利用单目和环视设置中固有的丰富几何结构。需要一种更充分利用几何一致性的方法来提升深度估计的鲁棒性和准确性。
- Method: 1. 使用基础模型作为伪几何先验和特征表示增强工具,引导网络保持空间3D空间中的表面法线一致性,并在2D中正则化物体和纹理一致的深度估计。2. 提出新颖的视图合成流程,通过空间扭曲重建密集深度实现2D-3D提升,鼓励跨时间、空间和时空上下文的光度监督。3. 引入自适应联合运动学习策略,使网络能够自适应地强调信息丰富的空间几何线索以改进运动推理。
- Result: 在DDAD和nuScenes数据集上的大量实验表明,GeoSurDepth实现了最先进的性能,验证了该方法的有效性。框架强调了利用几何相干性和一致性对于鲁棒的自监督多视图深度估计的重要性。
- Conclusion: GeoSurDepth框架通过充分利用几何一致性作为主要线索,结合基础模型的几何先验、创新的视图合成流程和自适应运动学习策略,显著提升了环视深度估计的性能,为自动驾驶中的3D场景理解提供了有竞争力的替代激光传感器的方案。
[45] Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals
Nate Gillman,Yinghua Zhou,Zitian Tang,Evan Luo,Arjan Chakravarthy,Daksh Aggarwal,Michael Freeman,Charles Herrmann,Chen Sun
Main category: cs.CV
TL;DR: Goal Force:通过力向量和中间动力学定义目标的视频生成框架,在简单物理数据上训练后能零样本泛化到复杂现实场景,实现隐式神经物理模拟器。
- Motivation: 现有视频生成世界模型难以精确指定目标:文本指令过于抽象无法捕捉物理细节,目标图像对于动态任务通常不可行。需要一种更符合人类物理任务概念的方式来定义目标。
- Method: 提出Goal Force框架,允许用户通过显式力向量和中间动力学定义目标。在合成的因果原语数据集(如弹性碰撞、多米诺骨牌倒下)上训练视频生成模型,教会模型在时空中传播力。
- Result: 尽管在简单物理数据上训练,模型展现出卓越的零样本泛化能力,能处理复杂现实场景,包括工具操作和多对象因果链。模型表现出隐式神经物理模拟器的特性。
- Conclusion: 通过将视频生成建立在基本物理交互基础上,模型可以作为隐式神经物理模拟器出现,实现精确、物理感知的规划,无需依赖外部物理引擎。释放了所有数据集、代码、模型权重和交互式视频演示。
[46] Kidney Cancer Detection Using 3D-Based Latent Diffusion Models
Jen Dusseljee,Sarah de Boer,Alessa Hering
Main category: cs.CV
TL;DR: 提出基于潜在扩散的3D肾脏异常检测方法,结合DDPM、DDIM和VQ-GAN,使用病例级伪标签进行弱监督学习,在增强腹部CT上实现体积级异常检测。
- Motivation: 现有方法多为切片级分析,需要大量像素级标注。本文旨在开发直接在3D图像体积上操作的弱监督方法,减少标注需求,提高腹部CT中肾脏异常检测的效率。
- Method: 结合DDPM、DDIM和VQ-GAN构建潜在扩散管道,使用病例级伪标签进行弱监督训练,直接在3D图像体积上进行异常检测,无需像素级标注。
- Result: 方法在增强腹部CT上可行且有前景,但当前结果尚未完全达到有监督基线的性能。研究揭示了改进重建保真度和病变定位的关键方向。
- Conclusion: 该研究为复杂腹部解剖结构的标注高效生成建模迈出了重要一步,展示了3D潜在扩散在弱监督异常检测中的潜力,为未来改进提供了方向。
[47] LayerGS: Decomposition and Inpainting of Layered 3D Human Avatars via 2D Gaussian Splatting
Yinghan Xu,John Dingliana
Main category: cs.CV
TL;DR: 提出LayerGS框架,使用2D高斯表示分解人体为可动画的多层3D虚拟形象,分离身体和服装,通过三阶段训练实现高质量渲染和层分解
- Motivation: 传统单层重建方法将服装锁定在单一身份上,而现有多层方法在处理遮挡区域时存在困难。需要一种能够准确分解人体和服装,并处理遮挡区域的3D虚拟形象创建方法
- Method: 使用2D高斯表示编码每一层几何和外观,通过预训练的2D扩散模型和分数蒸馏采样修复遮挡区域。采用三阶段训练策略:首先通过单层重建恢复粗略的规范服装,然后进行多层训练联合恢复内层身体和外层服装细节
- Result: 在两个3D人体基准数据集(4D-Dress, Thuman2.0)上,该方法在渲染质量和层分解重组方面优于现有最先进方法,能够实现新颖视角和姿态下的逼真虚拟试穿
- Conclusion: LayerGS框架能够创建高质量的多层3D人体虚拟形象,支持逼真的虚拟试穿应用,为沉浸式应用的高保真3D人体资产创建提供了实用解决方案
[48] Bidirectional Channel-selective Semantic Interaction for Semi-Supervised Medical Segmentation
Kaiwen Huang,Yizhe Zhang,Yi Zhou,Tianyang Xu,Tao Zhou
Main category: cs.CV
TL;DR: 提出BCSI框架用于半监督医学图像分割,通过语义空间扰动、通道选择路由器和双向通道交互策略,解决现有方法错误累积、结构复杂和数据流交互不足的问题。
- Motivation: 现有半监督医学图像分割方法(如mean teacher、双流一致性学习)存在错误累积、模型结构复杂以及忽略标注与未标注数据流交互的问题,需要更有效的解决方案。
- Method: 1. 语义空间扰动(SSP):使用两种强增强操作扰动数据,利用弱增强的伪标签进行无监督学习,并对两种强增强预测进行一致性约束;2. 通道选择路由器(CR):动态选择最相关通道进行信息交换,减少噪声;3. 双向通道交互(BCI):补充额外语义信息,增强重要通道表示。
- Result: 在多个3D医学数据集上的实验结果表明,该方法优于现有的半监督分割方法。
- Conclusion: 提出的BCSI框架通过创新的扰动机制、通道选择交互策略,有效解决了半监督医学图像分割中的关键问题,提升了分割性能。
[49] Phase4DFD: Multi-Domain Phase-Aware Attention for Deepfake Detection
Zhen-Xin Lin,Shang-Kuan Chen
Main category: cs.CV
TL;DR: Phase4DFD:一个相位感知的频率域深度伪造检测框架,通过可学习的注意力机制显式建模相位-幅度交互,在CIFAKE和DFFD数据集上优于现有方法
- Motivation: 现有深度伪造检测方法主要依赖频谱幅度信息,隐含地忽视了相位信息的作用。相位不连续性通常由合成生成引入,可能包含重要的伪造痕迹信息
- Method: 1. 将标准RGB输入与FFT幅度和LBP表示相结合;2. 引入输入级相位感知注意力模块,利用相位不连续性引导模型关注最指示伪造的频率模式;3. 使用高效的BNext M主干网络处理注意力后的多域表示;4. 可选应用通道空间注意力进行语义特征细化
- Result: 在CIFAKE和DFFD数据集上,Phase4DFD优于最先进的空间和基于频率的检测器,同时保持较低的计算开销。消融研究证实显式相位建模提供了超越仅幅度频率表示的互补且非冗余信息
- Conclusion: 显式相位建模对于深度伪造检测至关重要,相位信息提供了幅度信息之外的补充线索,相位感知注意力机制能有效引导模型关注最相关的伪造痕迹
[50] Adapting Vision Transformers to Ultra-High Resolution Semantic Segmentation with Relay Tokens
Yohann Perron,Vladyslav Sydorov,Christophe Pottier,Loic Landrieu
Main category: cs.CV
TL;DR: 提出Relay Tokens方法,通过并行处理局部高分辨率和全局低分辨率图像,在Vision Transformer中实现多尺度推理,同时保留局部细节和全局上下文,显著提升超高清图像分割性能。
- Motivation: 当前超高清图像分割方法存在两个主要问题:滑动窗口方法会丢弃全局上下文,而下采样方法会丢失精细细节。需要一种能同时保持局部细节和全局感知的方法。
- Method: 提出Relay Tokens方法,并行处理局部尺度(高分辨率小裁剪)和全局尺度(低分辨率大裁剪),使用少量可学习的relay tokens在两条分支之间聚合和传播特征。该方法可直接插入标准Transformer骨干网络(如ViT和Swin),仅增加不到2%的参数。
- Result: 在三个超高清分割基准测试(Archaeoscape、URUR、Gleason)和传统Cityscapes数据集上进行了广泛实验,显示出一致的性能提升,相对mIoU最高提升达15%。
- Conclusion: Relay Tokens是一种简单有效的多尺度推理方法,能同时保持局部细节和全局上下文,显著提升超高清图像分割性能,且易于集成到现有Transformer架构中。
[51] Performance of a Deep Learning-Based Segmentation Model for Pancreatic Tumors on Public Endoscopic Ultrasound Datasets
Pankaj Gupta,Priya Mudgil,Niharika Dutta,Kartik Bose,Nitish Kumar,Anupam Kumar,Jimil Shah,Vaneet Jearth,Jayanta Samanta,Vishal Sharma,Harshal Mandavdhare,Surinder Rana,Saroj K Sinha,Usha Dutta
Main category: cs.CV
TL;DR: 本研究开发了一种基于Vision Transformer的深度学习分割模型,用于胰腺癌超声内镜图像分割,在外部验证中达到DSC 0.657,显示出良好性能但存在9.7%的多重预测错误。
- Motivation: 胰腺癌生存率低,超声内镜是重要诊断工具但受限于操作者主观性,需要自动化分割方法提高诊断客观性和准确性。
- Method: 使用Vision Transformer骨干网络的USFM框架分割模型,在17,367张EUS图像上进行5折交叉验证训练,并在独立数据集(350张图像)上进行外部验证,预处理包括灰度转换、裁剪和512x512像素调整。
- Result: 5折交叉验证:平均DSC 0.651±0.738,IoU 0.579±0.658,敏感性69.8%,特异性98.8%,准确率97.5%。外部验证:DSC 0.657(95%CI:0.634-0.769),IoU 0.614(95%CI:0.590-0.689),敏感性71.8%,特异性97.7%,但9.7%病例出现错误多重预测。
- Conclusion: Vision Transformer模型在EUS图像胰腺肿瘤分割中表现良好,但数据集异质性和有限的外部验证表明需要进一步优化、标准化和前瞻性研究。
[52] Context-Aware Decoding for Faithful Vision-Language Generation
Mehrdad Fazli,Bowen Wei,Ziwei Zhu
Main category: cs.CV
TL;DR: 该论文提出了一种名为上下文嵌入注入(CEI)的训练免费方法,通过分析LVLM解码层动态来缓解幻觉问题,在多个基准测试中优于现有方法。
- Motivation: 大型视觉语言模型在开放式任务(如图像描述和视觉推理)中经常产生与视觉输入不一致的幻觉响应,这是当前LVLM的一个关键限制。
- Method: 使用Logit Lens分析LVLM解码层动态,发现真实标记比幻觉标记更早积累概率质量。基于此提出上下文嵌入注入(CEI)方法,利用最后一个输入token的隐藏状态作为接地信号,在解码过程中保持视觉保真度。
- Result: 在CHAIR、AMBER和MMHal-Bench基准测试(最大token长度为512)上,CEI在三个LVLM中均优于最先进的基线方法,其动态变体实现了最低的整体幻觉率。
- Conclusion: 通过结合新颖的机制洞察和可扩展的干预措施,这项工作推进了LVLM中幻觉缓解的研究。
[53] WaveRNet: Wavelet-Guided Frequency Learning for Multi-Source Domain-Generalized Retinal Vessel Segmentation
Chanchan Wang,Yuanfang Wang,Qing Xu,Guanxin Chen
Main category: cs.CV
TL;DR: WaveRNet:基于小波引导频率学习的多源域泛化视网膜血管分割框架,通过频谱引导域调制器、频率自适应域融合和分层掩码提示细化器解决光照变化和细节丢失问题。
- Motivation: 视网膜血管分割面临域偏移挑战(光照不均、对比度变化),现有SAM方法忽略频率域信息且上采样会丢失细血管细节,需要更鲁棒的域泛化解决方案。
- Method: 1. 频谱引导域调制器(SDM):集成小波分解与可学习域令牌,分离光照鲁棒的低频结构与高频血管边界;2. 频率自适应域融合(FADF):基于小波频率相似性进行智能测试时域选择与软加权融合;3. 分层掩码提示细化器(HMPR):通过长程依赖建模实现从粗到细的细化,克服SAM上采样限制。
- Result: 在四个公共视网膜数据集上采用Leave-One-Domain-Out协议进行广泛实验,WaveRNet实现了最先进的泛化性能。
- Conclusion: WaveRNet通过小波引导的频率学习框架有效解决了视网膜血管分割中的域泛化问题,在光照和对比度变化下表现出优越的鲁棒性和细节保持能力。
[54] VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction
Longbin Ji,Xiaoxiong Liu,Junyuan Shang,Shuohuan Wang,Yu Sun,Hua Wu,Haifeng Wang
Main category: cs.CV
TL;DR: VideoAR是首个大规模视觉自回归视频生成框架,通过多尺度下一帧预测和自回归建模,在保持高质量的同时显著降低计算成本,性能接近扩散模型但效率更高。
- Motivation: 当前视频生成主要依赖扩散和流匹配模型,虽然质量高但计算密集且难以扩展。需要开发更高效、可扩展的视频生成方法,缩小自回归模型与扩散模型之间的性能差距。
- Method: 结合多尺度下一帧预测与自回归建模,使用3D多尺度分词器编码时空动态,提出多尺度时间RoPE、跨帧错误校正和随机帧掩码来增强长期一致性,采用多阶段预训练管道逐步对齐时空学习。
- Result: 在自回归模型中达到新的SOTA:UCF-101的FVD从99.5降至88.6,推理步骤减少10倍以上,VBench得分81.74,与规模大一个数量级的扩散模型相当。
- Conclusion: VideoAR缩小了自回归与扩散范式之间的性能差距,为未来视频生成研究提供了可扩展、高效且时间一致的基础框架。
[55] Adaptive Conditional Contrast-Agnostic Deformable Image Registration with Uncertainty Estimation
Yinsong Wang,Xinzhe Luo,Siyi Du,Chen Qin
Main category: cs.CV
TL;DR: 提出AC-CAR框架,通过随机卷积对比度增强和自适应特征调制,实现无需训练即可泛化到任意成像对比度的可变形图像配准。
- Motivation: 多对比度图像配准面临不同成像对比度间复杂非线性强度关系的挑战。传统方法耗时,而现有学习方法泛化性有限,只能处理训练中见过的特定对比度。
- Method: 基于随机卷积对比度增强方案,提出自适应条件对比度无关可变形图像配准框架(AC-CAR)。包含自适应条件特征调制器(ACFM)和对比度不变潜在正则化,确保特征在不同对比度下的一致性。集成方差网络提供对比度无关的配准不确定性估计。
- Result: 实验结果表明AC-CAR在配准精度上优于基线方法,并在未见过的成像对比度上表现出优越的泛化能力。
- Conclusion: AC-CAR框架能够泛化到任意成像对比度而无需在训练中观察,提供可靠的配准不确定性估计,提高了多对比度图像配准的实用性和可信度。
[56] Deepfake detectors are DUMB: A benchmark to assess adversarial training robustness under transferability constraints
Adrian Serrano,Erwan Umlil,Ronan Thomas
Main category: cs.CV
TL;DR: 该研究将DUMB/DUMBer方法应用于深度伪造检测,评估了五种先进检测器在对抗攻击下的鲁棒性,发现在同分布情况下对抗训练有效,但在跨数据集配置中可能降低鲁棒性。
- Motivation: 现实世界中的深度伪造检测系统面临对抗性攻击威胁,现有对抗训练防御在攻击者知识有限和数据分布不匹配的实际条件下的有效性尚未充分探索。
- Method: 采用DUMB/DUMBer方法框架,评估五种检测器(RECCE、SRM、XCeption、UCF、SPSL)在三种攻击(PGD、FGSM、FPBA)和两个数据集(FaceForensics++、Celeb-DF-V2)下的鲁棒性,分析迁移性约束和跨数据集配置。
- Result: 对抗训练策略在同分布情况下增强鲁棒性,但在跨数据集配置中可能降低鲁棒性,具体效果取决于采用的策略。攻击者和防御者的视角分析揭示了不同不匹配场景下的性能变化。
- Conclusion: 现实应用中需要针对具体情况的防御策略,对抗训练的有效性高度依赖于数据分布匹配程度,强调了在对抗攻击暴露环境中采用情境感知防御的必要性。
cs.LG
[57] Continual Learning of Achieving Forgetting-free and Positive Knowledge Transfer
Zhi Wang,Zhongbin Wu,Yanni Li,Bing Liu,Guangxi Li,Yuping Wang
Main category: cs.LG
TL;DR: 提出ETCL方法解决持续学习中的正向知识迁移问题,通过任务相似性检测、梯度对齐和双目标优化实现无遗忘和正向前后向知识迁移。
- Motivation: 现有持续学习研究主要关注克服灾难性遗忘,但理想的持续学习智能体还应促进正向知识迁移,包括前向迁移(用旧任务知识帮助新任务)和后向迁移(用新任务知识改进旧任务)。
- Method: ETCL方法:1)将CL建模为优化问题;2)提出在线任务相似性检测策略;3)学习任务特定二进制掩码隔离稀疏子网络;4)梯度对齐确保正向前向迁移;5)双目标优化和正交梯度投影实现正向后向迁移。
- Result: 在不相似、相似和混合任务序列上,ETCL显著优于强基线方法,实现了无遗忘和正向知识迁移。
- Conclusion: ETCL方法通过系统性地解决知识迁移问题,超越了传统仅关注灾难性遗忘的持续学习方法,为构建更智能的持续学习系统提供了有效方案。
[58] AGDC: Autoregressive Generation of Variable-Length Sequences with Joint Discrete and Continuous Spaces
Yeonsang Shin,Insoo Kim,Bongkeun Kim,Keonwoo Bae,Bohyung Han
Main category: cs.LG
TL;DR: 提出AGDC框架,结合分类预测和扩散模型,统一建模离散和连续值序列,解决Transformer自回归模型在生成高精度混合序列时的精度限制问题。
- Motivation: 基于Transformer的自回归模型依赖离散化token,难以精确表示连续值,在高精度领域(如半导体电路设计)中精度损失可能导致功能失效。现有离散化方法在生成混合离散-连续序列时存在可扩展性限制。
- Method: 提出AGDC统一框架:1)对离散值使用分类预测,对连续值使用扩散模型;2)引入EOS logit调整机制,使用MLP根据序列上下文动态调整EOS token logits;3)在损失函数中集成长度正则化项。同时提出ContLayNet大规模基准数据集。
- Result: 在半导体布局(ContLayNet)、图形布局和SVG数据集上的实验表明,AGDC相比离散化方法和固定模式基线,在生成高保真混合向量表示方面表现更优,实现了跨领域可扩展的高精度生成。
- Conclusion: AGDC框架有效解决了Transformer模型在高精度混合序列生成中的精度限制问题,通过统一建模离散和连续值,实现了可扩展的高精度生成能力,在半导体设计等高精度领域具有重要应用价值。
cs.CL
[59] Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs
Sandeep Mishra,Devichand Budagam,Anubhab Mandal,Bishal Santra,Pawan Goyal,Manish Gupta
Main category: cs.CL
TL;DR: 本文提出多模态自动补全(MAC)任务,利用文本和视觉上下文预测实时聊天中的即将输入字符,相比传统文本自动补全(TAC)能更好捕捉用户意图。
- Motivation: 数字助手、聊天机器人、设计工具和医疗咨询等场景中,用户输入依赖于共享的视觉上下文,需要实时多模态自动补全来更好地理解用户意图。
- Method: 1) 提出MAC任务定义;2) 基于MMDialog和ImageChat构建基准数据集;3) 评估领先的视觉语言模型(VLMs)与文本基线;4) 提出Router-Suggest路由框架,根据对话上下文动态选择文本模型或VLM;5) 为资源受限环境设计轻量级变体。
- Result: Router-Suggest比最佳VLM实现2.3-10倍加速;用户研究表明VLMs在用户满意度方面显著优于文本模型,能节省用户输入努力并提升多轮对话中补全质量。
- Conclusion: 多模态上下文对自动补全至关重要,能实现更智能、用户感知的助手,为实时多模态交互系统提供重要方向。
cs.AI
[60] Naiad: Novel Agentic Intelligent Autonomous System for Inland Water Monitoring
Eirini Baltzi,Tilemachos Moumouris,Athena Psalta,Vasileios Tsironis,Konstantinos Karantzalos
Main category: cs.AI
TL;DR: NAIAD是一个基于LLM的智能助手,通过集成多种外部工具和分析方法,为内陆水体监测提供端到端的解决方案,支持自然语言查询并生成定制化报告。
- Motivation: 当前内陆水体监测方法通常孤立地处理不同子问题(如蓝藻、叶绿素等),缺乏综合性解决方案。需要一种能够整合多种数据源和分析工具,同时面向专家和非专家的统一系统。
- Method: 采用基于LLM的智能体架构,结合RAG、LLM推理、外部工具编排、计算图执行和智能体反思等技术。集成天气数据、Sentinel-2影像、遥感指数计算(如NDCI)、叶绿素a估算以及CyFi等平台。
- Result: 在专门基准测试中,正确性和相关性分别达到77%和85%以上。初步结果显示系统对不同查询类型具有强适应性和鲁棒性。消融研究发现Gemma 3 (27B)和Qwen 2.5 (14B)在计算效率和推理性能之间达到最佳平衡。
- Conclusion: NAIAD成功构建了一个综合性的内陆水体监测AI助手,通过智能体架构有效整合多种数据源和分析工具,为不同专业水平的用户提供便捷的水质监测解决方案,展现了AI在地球观测领域的应用潜力。
[61] PII-VisBench: Evaluating Personally Identifiable Information Safety in Vision Language Models Along a Continuum of Visibility
G M Shahariar,Zabir Al Nazi,Md Olid Hasan Bhuiyan,Zhouxing Shi
Main category: cs.AI
TL;DR: PII-VisBench:评估视觉语言模型在个人在线可见度连续体上的隐私泄露风险,发现模型更倾向于泄露高可见度个体的PII信息
- Motivation: 现有VLM隐私评估将隐私视为静态提取任务,忽略了个人在线存在(数据可用量)对隐私对齐的影响,需要更全面的评估框架
- Method: 构建PII-VisBench基准,包含4000个独特探针,将200个受试者按在线信息程度分为高、中、低、零可见度四类,评估18个开源VLM的拒绝率和条件PII泄露率
- Result: 随着受试者可见度降低,模型拒绝率增加,PII泄露率从9.10%(高可见度)降至5.34%(低可见度);模型更倾向于泄露高可见度个体的PII,存在显著的模型家族异质性和PII类型差异
- Conclusion: 需要基于可见度的安全评估和训练干预,因为模型在隐私保护上表现出对个人在线可见度的系统性偏差,且容易受到改写和越狱式提示的攻击
cs.IR
[62] Studying Illustrations in Manuscripts: An Efficient Deep-Learning Approach
Yoav Evron,Michal Bar-Asher Siegal,Michael Fire
Main category: cs.IR
TL;DR: 提出一个快速可扩展的AI流水线,用于检测、提取和描述数字化手稿中的插图,应用于梵蒂冈图书馆等收藏,处理300万页识别20万插图,每页<0.06秒。
- Motivation: AI革命为人文学科带来变革可能,但大规模系统研究手稿插图仍具挑战。数字化档案虽提供访问,但缺乏大规模视觉内容分析工具。
- Method: 三阶段流水线:1) 微调图像分类模型过滤纯文本页;2) 高效目标检测模型识别并裁剪插图;3) 多模态图像描述模型生成简洁可读描述,存储到可搜索数据库。
- Result: 处理超过300万数字化手稿页,自动识别提取20万+独特插图,每页处理时间<0.06秒,远超传统分割技术效率,为视觉研究提供新工具。
- Conclusion: 前沿AI工具能深刻重塑学术工作流程,为数字手稿时代的多学科研究开辟新途径,赋能历史研究、艺术史和文化遗产领域的大规模视觉分析。
Powered by Deepseek & arXiv Daily AI Enhanced