Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Free Energy-Based Modeling of Emotional Dynamics in Video Advertisements
Takashi Ushio,Kazuhiro Onishi,Hideyoshi Yanagisawa
Main category: cs.CV
TL;DR: 基于自由能原理,仅从广告视频的场景级表达特征量化"愉悦度"、"惊喜"和"习惯化"三种情感,无需生理信号或主观评分等外部信息。
- Motivation: 广告观看时的情感反应对理解媒体效果至关重要,但现有方法依赖外部信息。需要建立不依赖生理信号或主观评分的可解释情感估计方法学基础。
- Method: 基于自由能原理,使用KL散度(KLD)捕捉预测误差,贝叶斯惊喜(BS)捕捉信念更新,不确定性(UN)反映先验模糊性。分析1059个15秒食品广告视频的场景级表达特征。
- Result: KLD反映与品牌呈现相关的"愉悦度",BS捕捉信息复杂性引起的"惊喜",UN反映元素类型和空间排列不确定性驱动的"惊喜"。识别了三种特征情感模式:不确定刺激、持续高情感、瞬时峰值衰减。在9种超参数设置和6类日本广告视频中验证了鲁棒性和泛化性。
- Conclusion: 该方法为不依赖外部信息的可解释情感估计提供了基础,可扩展整合更多表达元素并通过主观评分验证,最终支持开发更吸引人的广告视频创作技术。
[2] Can Generative Models Actually Forge Realistic Identity Documents?
Alexander Vinogradov
Main category: cs.CV
TL;DR: 当前开源扩散模型能生成表面逼真的身份证件,但无法达到法证级真实性,伪造风险可能被高估
- Motivation: 随着生成式图像模型在真实感方面的显著进步,公众担心其可能被滥用于证件伪造。本文旨在评估当代开源扩散模型是否能生成足以通过人工或自动验证系统的身份证件伪造品。
- Method: 使用多种公开可用的生成模型家族(包括Stable Diffusion、Qwen、Flux、Nano-Banana等),评估文本到图像和图像到图像的生成流程,分析其生成身份证件的能力。
- Result: 当前生成模型能够模拟证件表面美学特征,但无法复制结构和法证真实性。模型在细节一致性、安全特征和法证属性方面存在不足。
- Conclusion: 生成式身份证件深度伪造达到法证级真实性的风险可能被高估,强调机器学习从业者与文件法证专家合作进行现实风险评估的重要性。
[3] Pediatric Pneumonia Detection from Chest X-Rays:A Comparative Study of Transfer Learning and Custom CNNs
Agniv Roy Choudhury
Main category: cs.CV
TL;DR: 该研究比较了从头训练的CNN与迁移学习方法(ResNet50、DenseNet121、EfficientNet-B0)在儿童肺炎检测中的表现,发现微调后的ResNet50达到近乎完美的准确率(99.43%)。
- Motivation: 肺炎是五岁以下儿童的主要死因,每年导致超过70万人死亡。胸部X光片的准确诊断受到放射科医生可用性和诊断变异性的限制,需要开发自动化的辅助诊断工具。
- Method: 使用5,216张儿童胸部X光片数据集,按80/10/10比例分为训练、验证和测试集。比较了从头训练的CNN与三种迁移学习模型(ResNet50、DenseNet121、EfficientNet-B0),评估了冻结主干和微调两种策略。使用准确率、F1分数和AUC进行评估,并通过Grad-CAM提供可解释性可视化。
- Result: 微调后的ResNet50表现最佳:准确率99.43%、F1分数99.61%、AUC 99.93%,仅3例误分类。微调模型平均比冻结主干模型高出5.5个百分点。Grad-CAM确认模型关注临床相关的肺部区域进行预测。
- Conclusion: 迁移学习结合微调在儿童肺炎检测中显著优于从头训练的CNN,达到近乎完美的准确率。该系统在资源有限环境中具有强大的筛查潜力。未来工作应在多中心和成人数据集上验证这些发现。
[4] Unified Review and Benchmark of Deep Segmentation Architectures for Cardiac Ultrasound on CAMUS
Zahid Ullah,Muhammad Hilal,Eunsoo Lee,Dragan Pamucar,Jihie Kim
Main category: cs.CV
TL;DR: 比较U-Net、Attention U-Net和TransUNet在心脏超声分割任务上的性能,提出标准化预处理和评估流程,探讨自监督学习和GPT辅助标注的应用前景。
- Motivation: 现有综述多关注心脏成像和深度学习进展,但缺乏统一可复现的实验基准。本研究旨在填补这一空白,通过标准化比较为心脏超声分割提供实用指导。
- Method: 在CAMUS心脏超声数据集上,使用相同训练分割、损失函数和评估标准,对比U-Net、Attention U-Net和TransUNet三种架构。实验涵盖多种预处理路径:原生NIfTI数据、16位PNG导出、GPT辅助多边形伪标签,以及在数千个未标记帧上的自监督预训练。
- Result: 原生NIfTI训练的U-Net达到94%平均Dice分数,PNG-16位流程为91%。Attention U-Net在小区域和低对比度区域表现更好,减少边界泄漏;TransUNet在挑战性帧上泛化能力最强,特别是自监督预训练后。伪标签通过置信度过滤提高了鲁棒性。
- Conclusion: 研究提供了三种架构在标准化CAMUS预处理下的统一基准,提出了保持强度保真度和分辨率一致性的实用指南,并展望了可扩展的自监督学习和多模态GPT标注流程在快速标注和质量保证中的应用前景。
[5] Motion-Compensated Latent Semantic Canvases for Visual Situational Awareness on Edge
Igor Lodin,Sergii Filatov,Vira Filatova,Dmytro Filatov
Main category: cs.CV
TL;DR: MCLSC 是一种用于资源受限边缘设备的视觉态势感知系统,通过运动补偿的潜在语义画布和运动门控分割来大幅减少计算开销。
- Motivation: 在资源受限的边缘设备上实现实时视觉态势感知面临计算成本高的挑战,特别是全景分割(如 Mask2Former)非常耗时。需要一种方法能减少计算开销,同时保持语义信息的连贯性。
- Method: 提出运动补偿潜在语义画布(MCLSC),包含两个潜在画布:缓慢累积的静态层和快速更新的动态层。系统使用基线坐标框架稳定视频流,通过运动门控机制触发分割:只有当检测到运动表明有新信息时才运行昂贵的全景分割,同时通过稳定化/运动补偿保持潜在语义内存的坐标一致性。
- Result: 在预录制的 480p 视频片段上,原型系统将分割调用减少了超过 30 倍,平均端到端处理时间降低了超过 20 倍,同时保持了连贯的静态/动态语义覆盖。
- Conclusion: MCLSC 通过运动补偿潜在语义画布和运动门控分割,在资源受限的边缘设备上实现了高效的视觉态势感知,大幅减少了计算开销,同时保持了语义信息的连贯性。
[6] VL-OrdinalFormer: Vision Language Guided Ordinal Transformers for Interpretable Knee Osteoarthritis Grading
Zahid Ullah,Jihie Kim
Main category: cs.CV
TL;DR: VLOrdinalFormer:结合视觉语言引导的序数学习框架,用于膝关节骨关节炎自动分级,在KL1和KL2早期阶段表现优异
- Motivation: 膝关节骨关节炎是全球主要致残原因,但早期阶段(KL1和KL2)的X光片差异细微,导致放射科医生间存在观察者间变异性,需要更准确、自动化的分级方法
- Method: 提出VLOrdinalFormer框架,结合ViT L16骨干网络、CORAL序数回归和CLIP驱动的语义对齐模块,融入关节间隙狭窄、骨赘形成等临床文本概念,采用分层五折交叉验证、类别感知重加权和测试时增强
- Result: 在OAI kneeKL224数据集上达到最先进性能,在宏观F1分数和总体准确率上优于CNN和ViT基线,KL1和KL2分级有显著提升,同时保持轻度和重度病例的分类准确性
- Conclusion: 视觉语言对齐的序数变换器可作为可靠且可解释的工具,用于膝关节骨关节炎分级和疾病进展评估,在常规放射学实践中具有应用潜力
[7] VideoCuRL: Video Curriculum Reinforcement Learning with Orthogonal Difficulty Decomposition
Hongbo Jin,Kuanwei Lin,Wenhao Zhang,Yichen Jin,Ge Li
Main category: cs.CV
TL;DR: VideoCuRL:一种将视频理解难度分解为视觉时间感知负荷和认知推理深度两个正交维度的课程学习框架,通过2D课程网格和动态训练策略提升视频大模型的强化学习效果。
- Motivation: 当前强化学习范式主要依赖随机数据洗牌或基于标量难度指标的简单课程策略,但标量指标无法区分视频理解中的两个正交挑战:视觉时间感知负荷和认知推理深度。
- Method: 提出VideoCuRL框架,将难度分解为两个维度:使用光流和关键帧熵评估视觉复杂度,使用校准意外度评估认知复杂度,将数据映射到2D课程网格;采用能力感知对角线波前策略安排训练;引入动态稀疏KL和结构化重访机制稳定训练。
- Result: 在推理任务上(VSI-Bench)提升2.5分,在感知任务上(VideoMME)提升2.9分,显著超越现有强化学习方法;消除了基于生成的课程方法的高昂推理开销。
- Conclusion: VideoCuRL通过解耦视频理解的两个核心挑战并提供可扩展的解决方案,为稳健的视频后训练提供了有效框架,能够在不增加推理开销的情况下显著提升视频大模型的性能。
[8] Comparative Evaluation of CNN Architectures for Neural Style Transfer in Indonesian Batik Motif Generation: A Comprehensive Study
Happy Gery Pangestu,Andi Prademon Yunus,Siti Khomsah
Main category: cs.CV
TL;DR: 该研究系统比较了五种CNN骨干网络在印尼蜡染风格迁移中的表现,发现ResNet架构在保持相似感知质量的同时,计算效率比VGG高16倍以上,收敛速度快5-6倍。
- Motivation: 现有神经风格迁移方法主要基于VGG架构,虽然风格表达力强但计算和内存需求高,限制了在资源有限环境中的实际部署,特别是在印尼蜡染数字保存和生成应用中。
- Method: 通过245个对照实验,系统比较了VGG16、VGG19、Inception V3、ResNet50和ResNet101五种CNN骨干网络,结合定量指标(SSIM、LPIPS、FLOPs)、定性评估和统计分析(ANOVA)。
- Result: 骨干网络选择对结构相似性无显著差异(SSIM p=0.83),但ResNet架构比VGG收敛快5-6倍,FLOPs减少16倍以上(0.63 vs 10.12 GFLOPs),LPIPS感知相似性保持0.53。VGG产生更密集的绘画纹理,ResNet保持几何稳定性和蜡染笔触,Inception V3表现中等但噪声较多。
- Conclusion: 研究将NST中的架构选择从最大化风格强度转向效率感知和结构保持部署,强调ResNet骨干网络作为可扩展、面向工业的蜡染生成的实用基础。
[9] CornViT: A Multi-Stage Convolutional Vision Transformer Framework for Hierarchical Corn Kernel Analysis
Sai Teja Erukude,Jane Mascarenhas,Lior Shamir
Main category: cs.CV
TL;DR: CornViT:基于卷积视觉Transformer的三阶段玉米籽粒分级框架,模拟人类分析师的分层推理过程,在纯度、形态和胚芽朝向三个任务上达到91-94%的准确率。
- Motivation: 玉米籽粒分级对种子认证、定向播种和育种至关重要,但目前主要依赖人工检测,效率低且主观性强。需要开发自动化、准确的分级系统来替代人工。
- Method: 提出CornViT三阶段CvT框架:第一阶段区分纯净与杂质籽粒,第二阶段将纯净籽粒分为扁平与圆形形态,第三阶段确定扁平籽粒的胚芽朝向(上/下)。使用ImageNet-22k预训练的CvT-13骨干网络,仅微调头部层。
- Result: 在三个任务上分别达到93.76%(纯度)、94.11%(形态)和91.12%(胚芽朝向)的测试准确率。显著优于ResNet-50(76.56-81.02%)和DenseNet-121(86.56-89.38%)。
- Conclusion: CornViT框架、标注数据集和Web应用为玉米籽粒质量评估提供了可部署的自动化解决方案,证明了卷积增强自注意力机制在籽粒分析中的优势。
[10] Evaluating Contextual Intelligence in Recyclability: A Comprehensive Study of Image-Based Reasoning Systems
Eliot Park,Abhi Kumar,Pranav Rajpurkar
Main category: cs.CV
TL;DR: 研究评估了GPT-4o、GPT-4o-mini和Claude 3.5等视觉语言模型在预测物品可回收性方面的表现,测试了它们在匹配回收箱、考虑物理尺寸、适应地区指南、处理污染/损坏和多材料物品等复杂场景中的能力。
- Motivation: 尽管高效回收的重要性被广泛认可,但公众准确判断物品的可回收性和正确处置方式仍然很困难。本研究旨在探索先进视觉语言模型在解决这一实际问题中的应用潜力。
- Method: 使用精心策划的图像数据集,评估GPT-4o、GPT-4o-mini和Claude 3.5等模型的能力:1) 将物品匹配到合适的回收箱;2) 判断物品是否能物理放入回收箱;3) 在多种挑战性场景下测试:适应地区特定回收指南、考虑污染或结构损坏、处理多材料物品。
- Result: 研究发现这些模型在上下文理解方面相比之前版本有显著进步,能够处理复杂的回收判断任务。但同时也识别出它们在某些方面仍然存在不足,需要进一步改进。
- Conclusion: 持续改进具有上下文感知能力的模型对于提升公众回收实践和推进环境可持续发展至关重要。这些模型在回收指导方面展现出潜力,但仍需进一步优化以应对实际应用中的各种挑战。
[11] Clean-GS: Semantic Mask-Guided Pruning for 3D Gaussian Splatting
Subhankar Mishra
Main category: cs.CV
TL;DR: Clean-GS:一种基于稀疏语义掩码去除3D高斯溅射中背景杂波和漂浮物的方法,实现60-80%模型压缩,保持渲染质量
- Motivation: 3D高斯溅射会产生大量虚假高斯(漂浮物),这些伪影会遮挡感兴趣物体并增加模型大小,阻碍在带宽受限应用中的部署
- Method: 结合白名单空间过滤、颜色引导验证和离群点去除的多阶段方法:1)通过投影到掩码区域进行白名单过滤;2)深度缓冲颜色验证;3)基于邻居的离群点去除
- Result: 在Tanks and Temples数据集上,将文件大小从125MB减少到47MB,同时保持渲染质量,使3DGS模型适用于Web部署和AR/VR应用
- Conclusion: Clean-GS使用最少3个分割掩码(1%的视图)的语义信息,有效去除不属于目标物体的高斯,实现显著模型压缩,解决了3DGS部署的实际问题
[12] Four-Stage Alzheimer's Disease Classification from MRI Using Topological Feature Extraction, Feature Selection, and Ensemble Learning
Faisal Ahmed
Main category: cs.CV
TL;DR: 提出TDA-Alz框架,使用拓扑数据分析(TDA)和集成学习进行阿尔茨海默病四阶段严重程度分类,在OASIS-1数据集上达到98.19%准确率和99.75% AUC,优于深度学习方法。
- Motivation: 阿尔茨海默病严重程度从脑MRI的准确高效分类面临数据有限和模型可解释性挑战,现有深度学习方法需要大量数据和计算资源,且缺乏可解释性。
- Method: 提出TDA-Alz框架:1) 使用拓扑数据分析提取脑MRI内在结构模式的拓扑描述符;2) 特征选择保留最具区分性的拓扑特征;3) 集成学习策略进行鲁棒的多类别分类。
- Result: 在OASIS-1 MRI数据集上达到98.19%准确率和99.75% AUC,优于或匹配基于深度学习的SOTA方法,无需数据增强、预训练网络或大规模计算资源。
- Conclusion: TDA-Alz为MRI基阿尔茨海默病严重程度分类提供了强大、轻量且可解释的深度学习方法替代方案,具有临床决策支持系统的实际应用潜力。
[13] Application of deep learning techniques in non-contrast computed tomography pulmonary angiogram for pulmonary embolism diagnosis
I-Hsien Ting,Yi-Jun Tseng,Yu-Sheng Lin
Main category: cs.CV
TL;DR: 使用3D卷积神经网络在无造影剂CT图像中自动分类肺栓塞,准确率达85%,AUC为0.84
- Motivation: 传统使用造影剂的CT肺动脉造影虽然能诊断肺栓塞,但造影剂可能导致急性肾损伤,且需要等待时间,可能延误急性肺栓塞患者的黄金治疗时间。因此需要开发无需造影剂的诊断方法。
- Method: 采用3D卷积神经网络模型,在无造影剂的CT图像上自动分类肺栓塞
- Result: 模型在无造影剂CT图像上的肺栓塞分类准确率达到85%,AUC为0.84,显示出良好的诊断性能
- Conclusion: 该深度学习模型在无造影剂CT图像中诊断肺栓塞是可行的,为临床提供了一种更安全、更快速的替代诊断方案
[14] Analyzing the Shopping Journey: Computing Shelf Browsing Visits in a Physical Retail Store
Luis Yoichi Morales,Francesco Zanlungo,David M. Woollard
Main category: cs.CV
TL;DR: 该研究提出一种从3D轨迹中提取顾客"货架访问"行为的算法,用于分析零售环境中顾客的浏览意图,并在不同商店环境中验证了算法的泛化能力。
- Motivation: 随着机器人在零售业客户服务角色中的部署挑战,需要自主理解顾客购物意图,特别是通过分析实体店中的顾客活动来识别浏览行为。
- Method: 开发了从基于机器视觉的3D跟踪和头顶摄像头获取的轨迹中提取"货架访问"的算法。使用两个不同商店收集的轨迹数据集(8138条和15129条)进行独立校准,并由人工标注验证。
- Result: 算法在不同商店环境中都能有效识别顾客浏览活动,展示了良好的泛化能力。使用该模型分析了大量轨迹中的顾客浏览模式及其与实际购买行为的关系。
- Conclusion: 货架浏览信息可用于零售规划和人机交互场景,为零售环境中的自主意图理解提供了实用工具。
[15] ShadowGS: Shadow-Aware 3D Gaussian Splatting for Satellite Imagery
Feng Luo,Hongbo Pan,Xiang Yang,Baoyu Jiang,Fengqing Liu,Tao Huang
Main category: cs.CV
TL;DR: ShadowGS:基于3D高斯泼溅的卫星图像阴影建模框架,通过物理渲染方程和光线追踪技术解决多时相卫星图像中的阴影不一致问题,提升3D重建精度。
- Motivation: 多时相卫星图像中,由于光照条件变化导致阴影存在显著不一致性,影响3D重建质量。现有3DGS方法在处理这类阴影问题时存在局限性。
- Method: 1. 基于3D高斯泼溅框架;2. 结合遥感物理渲染方程和高效光线追踪技术;3. 引入阴影一致性约束提升几何精度;4. 采用阴影图先验处理稀疏视角输入。
- Result: 在阴影解耦精度、3D重建精度和新视角合成质量方面优于现有方法,仅需几分钟训练时间,在RGB、全色融合和稀疏视角卫星输入中均表现稳健。
- Conclusion: ShadowGS能有效建模几何一致的阴影,解耦不同光照分量和表观属性,显著提升多时相卫星图像的3D重建质量。
[16] Learning to Segment Liquids in Real-world Images
Jonas Li,Michelle Li,Luke Liu,Heng Fan
Main category: cs.CV
TL;DR: 该论文提出了LQDS液体分割数据集和LQDM液体检测模型,用于解决液体分割这一被忽视但重要的机器人视觉任务。
- Motivation: 液体(水、酒、药品等)在日常生活中无处不在,但液体分割任务长期被忽视,这限制了机器人安全避让或与液体交互的能力。液体分割困难在于液体外观多样、形状多变,且具有透明或反射特性,会呈现背景或周围物体的特征。
- Method: 构建了包含5000张真实世界图像、标注为14个不同类别的大规模液体数据集LQDS;设计了新颖的液体检测模型LQDM,利用专用边界分支和主分割分支之间的交叉注意力机制来增强分割预测。
- Result: 在LQDS测试集上的大量实验证明LQDM的有效性,优于现有最先进方法,为液体语义分割建立了强大的基准。
- Conclusion: 该研究通过构建大规模液体数据集和设计专门的检测模型,为解决液体分割这一具有挑战性的计算机视觉任务提供了有效方案,为机器人安全交互液体环境奠定了基础。
[17] PhyEduVideo: A Benchmark for Evaluating Text-to-Video Models for Physics Education
Megha Mariam K. M,Aditya Arun,Zakaria Laskar,C. V. Jawahar
Main category: cs.CV
TL;DR: 本文提出首个用于评估文本到视频(T2V)模型在物理教育中应用的基准测试,发现当前模型能生成视觉连贯的视频,但在概念准确性方面仍有不足。
- Motivation: 生成式AI模型特别是T2V系统有望通过自动创建直观的教学视频来改变科学教育,但需要系统评估其在物理教育中的实际潜力。
- Method: 设计专门的物理教育视频生成基准测试,将物理概念分解为细粒度教学点,并为每个点精心设计视觉解释提示,评估T2V模型生成准确视频的能力。
- Result: 当前模型能生成视觉连贯、运动平滑、闪烁较少的视频,但概念准确性不够可靠。在力学、流体、光学领域表现较好,但在电磁学和热力学等抽象概念上表现不佳。
- Conclusion: 研究揭示了教育视频生成中视觉质量与概念正确性之间的差距,希望该基准能帮助社区缩小这一差距,推动开发能大规模生成准确、课程对齐物理内容的T2V系统。
[18] Deep Clustering with Associative Memories
Bishwajit Saha,Dmitry Krotov,Mohammed J. Zaki,Parikshit Ram
Main category: cs.CV
TL;DR: 提出DCAM方法,通过基于能量的联想记忆将表示学习和聚类更紧密地结合在单一目标中,改善深度聚类效果
- Motivation: 深度聚类中表示学习可微分而聚类本质是离散优化,需要各种近似和正则化,导致表示学习和聚类相对割裂
- Method: 提出DCAM方法,利用基于能量的联想记忆动力学构建新的损失函数,在单一目标中更紧密地结合表示学习和聚类
- Result: DCAM在不同架构(卷积、残差、全连接)和数据模态(图像、文本)上均能产生更好的聚类质量
- Conclusion: DCAM通过基于能量的联想记忆将表示学习和聚类更紧密地结合,在多种架构和模态上展现出聚类质量的提升
[19] A Deep Learning Approach for Automated Skin Lesion Diagnosis with Explainable AI
Md. Maksudul Haque,Rahnuma Akter,A S M Ahsanul Sarkar Akib,Abdul Hasib
Main category: cs.CV
TL;DR: 提出一个结合数据平衡、数据增强、EfficientNetV2-L与通道注意力机制的三阶段渐进学习框架,用于HAM10000数据集上的皮肤病变多分类,达到91.15%准确率,并利用XAI技术增强模型可解释性。
- Motivation: 皮肤癌是全球最常见且危险的癌症之一,需要及时准确的诊断。现有诊断方法存在精度不足和缺乏可解释性的问题,需要开发高性能且可信赖的自动诊断系统。
- Method: 采用高质量数据平衡方法、大规模数据增强、结合通道注意力的EfficientNetV2-L混合框架,以及三阶段渐进学习策略。同时使用Grad-CAM和显著性图等XAI技术提供可视化解释。
- Result: 在HAM10000数据集上获得91.15%的总准确率、85.45%的宏观F1分数和99.33%的微观平均AUC。在七类皮肤病变中均表现优异,特别是在黑色素瘤和黑色素细胞痣分类上表现突出。
- Conclusion: 提出的深度学习框架在皮肤病变分类任务中表现出色,XAI技术不仅增强了诊断透明度,还能识别影响分类的视觉特征,提高了临床可信度。
[20] Few-Shot Video Object Segmentation in X-Ray Angiography Using Local Matching and Spatio-Temporal Consistency Loss
Lin Xi,Yingliang Ma,Xiahai Zhuang
Main category: cs.CV
TL;DR: 提出一种新的FSVOS模型,采用局部匹配策略限制搜索空间,通过方向采样实现动态采样区域,结合时空对比学习增强特征一致性,并在新的X射线血管造影数据集上验证了优越性能。
- Motivation: 现有视频分割方法存在效率问题(如标准卷积实现)或可移植性限制(如CUDA特定内核),需要一种更灵活、高效且可跨设备移植的视频分割方法,特别是在医疗影像领域。
- Method: 1. 采用局部匹配策略限制搜索空间到最相关邻域像素;2. 通过方向采样视角重新组织局部采样过程,实现非参数化动态采样机制;3. 设计监督式时空对比学习方案增强帧间特征一致性;4. 构建MOSXAV数据集用于多目标X射线血管造影视频分割。
- Result: 在CADICA、XACV和MOSXAV数据集上的实验表明,该方法在分割精度和泛化能力(包括已见和未见类别)方面优于当前最先进的视频分割方法。
- Conclusion: 该方法提供了增强的灵活性和广泛的临床应用潜力,特别是在医疗影像分析领域,通过高效、可移植的架构实现了优越的视频分割性能。
[21] UnrealPose: Leveraging Game Engine Kinematics for Large-Scale Synthetic Human Pose Data
Joshua Kawaguchi,Saad Manzur,Emily Gao Wang,Maitreyi Sinha,Bryan Vela,Yunxi Wang,Brandon Vela,Wayne B. Hayes
Main category: cs.CV
TL;DR: 提出UnrealPose-Gen合成数据生成管道和UnrealPose-1M数据集,解决3D人体姿态数据获取成本高、缺乏真实标注的问题
- Motivation: 真实3D人体姿态数据获取成本高昂且受限于工作室环境,而野外数据集缺乏准确的地面真值标注
- Method: 基于Unreal Engine 5和Movie Render Queue构建离线渲染管道,生成包含3D关节坐标、2D投影、边界框、相机参数等丰富标注的合成数据
- Result: 创建了约100万帧的UnrealPose-1M数据集,包含8个序列(5个连贯序列和3个随机序列),涵盖多个场景、动作和主体,并在4个任务上验证了合成数据的有效性
- Conclusion: 发布了UnrealPose-1M数据集和UnrealPose-Gen生成管道,支持第三方生成高质量人体姿态数据,为计算机视觉研究提供合成数据解决方案
[22] WildIng: A Wildlife Image Invariant Representation Model for Geographical Domain Shift
Julian D. Santamaria,Claudia Isaza,Jhony H. Giraldo
Main category: cs.CV
TL;DR: WildIng模型通过结合文本描述与图像特征,提升野生动物识别模型在地理域迁移中的泛化能力,解决了现有模型在新地理区域性能大幅下降的问题。
- Motivation: 现有深度学习模型在野生动物监测中表现出色,但严重依赖训练数据的地理分布,当应用于新地理区域时性能显著下降。例如,在非洲数据集训练的CLIP模型在美国数据集上准确率从84.77%骤降至16.17%,这限制了模型的实际应用价值。
- Method: WildIng(野生动物图像不变表示模型)通过整合文本描述与图像特征来创建对地理域迁移更鲁棒的表示。该方法利用文本描述捕捉物种外观的语义信息,减少对背景、光照等环境变化的敏感性,从而提高跨地理区域的泛化能力。
- Result: 实验表明,WildIng在美洲和非洲两个不同区域的数据集上,将BioCLIP等基础模型的准确率提升了30%。模型成功缓解了地理域迁移导致的性能下降问题。
- Conclusion: 通过结合文本描述的语义信息,WildIng有效提升了野生动物识别模型在地理域迁移中的泛化性能,为解决野生动物监测中的地理分布偏移问题提供了有效方案。代码和模型已开源。
[23] DVGBench: Implicit-to-Explicit Visual Grounding Benchmark in UAV Imagery with Large Vision-Language Models
Yue Zhou,Jue Chen,Zilun Zhang,Penghui Huang,Ran Ding,Zhentao Zou,PengFei Gao,Yuchen Wei,Ke Li,Xue Yang,Xue Jiang,Hongxin Yang,Jonathan Li
Main category: cs.CV
TL;DR: 提出了DVGBench无人机隐式视觉定位基准和DroneVG-R1模型,通过I2E-CoT增强推理能力
- Motivation: 现有遥感视觉语言模型主要依赖显式参照表达,在需要领域知识的隐式视觉定位任务上表现受限
- Method: 构建DVGBench隐式视觉定位基准,设计DroneVG-R1模型,集成隐式到显式思维链(I2E-CoT)和强化学习
- Result: 主流模型在显式和隐式视觉定位任务上都显示出推理能力不足,新方法提供了改进方向
- Conclusion: DVGBench基准和I2E-CoT方法为提升无人机智能体视觉语言模型的推理能力提供了可行方案
[24] Lightweight Channel Attention for Efficient CNNs
Prem Babu Kanaparthi,Tulasi Venkata Sri Varshini Padamata
Main category: cs.CV
TL;DR: 该论文对通道注意力机制进行了实证研究,比较了SE、ECA和提出的LCA模块在ResNet18和MobileNetV2上的性能,LCA通过自适应一维卷积和分组操作在保持准确性的同时减少了参数使用。
- Motivation: 注意力机制已成为现代卷积神经网络的重要组成部分,能以最小计算开销带来显著性能提升。然而,不同通道注意力设计在效率与准确性之间的权衡尚未得到充分探索。
- Method: 提出了Lite Channel Attention (LCA)模块,采用自适应一维卷积和分组操作来减少参数使用,同时保持有效的注意力行为。在ResNet18和MobileNetV2架构上对SE、ECA和LCA进行了比较研究。
- Result: LCA在ResNet18上达到94.68%准确率,在MobileNetV2上达到93.10%准确率,与ECA在参数效率上相当,并保持了良好的推理延迟。提供了包括FLOPs、参数数量和GPU延迟在内的全面基准测试。
- Conclusion: LCA模块在资源受限环境中部署注意力增强的CNN提供了实用见解,实现了竞争性准确性、参数效率和推理延迟的良好平衡。
[25] Decoupling Amplitude and Phase Attention in Frequency Domain for RGB-Event based Visual Object Tracking
Shiao Wang,Xiao Wang,Haonan Zhao,Jiarui Xu,Bo Jiang,Lin Zhu,Xin Zhao,Yonghong Tian,Jin Tang
Main category: cs.CV
TL;DR: 提出一种新颖的RGB-Event目标跟踪框架,通过在频域进行早期融合,利用事件相机的高动态范围和运动敏感特性,减少计算开销并提升跟踪性能。
- Motivation: 现有RGB-Event跟踪方法主要依赖传统特征级融合,未能充分利用事件相机的独特优势。事件相机的高动态范围和运动敏感特性常被忽视,同时低信息区域被统一处理,导致骨干网络不必要的计算开销。
- Method: 1) 通过快速傅里叶变换将RGB和事件模态从空间域转换到频域,分离振幅和相位分量;2) 通过振幅和相位注意力选择性融合高频事件信息到RGB模态;3) 运动引导的空间稀疏化模块利用事件相机的运动敏感性,过滤低信息区域;4) 稀疏的目标相关特征输入骨干网络学习,跟踪头预测最终目标位置。
- Result: 在三个广泛使用的RGB-Event跟踪基准数据集(FE108、FELT、COESOT)上的大量实验表明,该方法具有高性能和高效率。
- Conclusion: 提出的频域早期融合框架有效利用了事件相机的独特优势,通过选择性融合高频信息和空间稀疏化,在减少计算开销的同时提升了RGB-Event目标跟踪的性能。
[26] ITSELF: Attention Guided Fine-Grained Alignment for Vision-Language Retrieval
Tien-Huy Nguyen,Huu-Loc Tran,Thanh Duc Ngo
Main category: cs.CV
TL;DR: ITSELF是一个基于注意力引导的隐式局部对齐框架,用于文本人物搜索任务,通过模型自身的注意力机制学习细粒度图像-文本对应关系,无需额外监督。
- Motivation: 现有方法通过局部对齐解决文本人物搜索问题,但容易陷入捷径学习和伪相关,导致错位。注入先验知识可能扭曲模态内部结构。研究发现编码器注意力从训练早期就能提供空间精确的证据。
- Method: 提出ITSELF框架:1) GRAB模块将模型注意力转换为高显著性token的注意力库,并应用局部目标;2) MARS跨层聚合注意力并进行多样性感知的top-k选择;3) ATS调度器在训练中从粗到细调整保留预算。
- Result: 在三个广泛使用的TBPS基准测试中取得最先进性能,并展现出强大的跨数据集泛化能力,无需额外先验监督。
- Conclusion: ITSELF通过利用模型自身的注意力机制实现可靠的隐式局部对齐,有效学习细粒度对应关系,解决了现有方法的局限性,在文本人物搜索任务中表现出色。
[27] Enhanced Leukemic Cell Classification Using Attention-Based CNN and Data Augmentation
Douglas Costa Braga,Daniel Oliveira Dantas
Main category: cs.CV
TL;DR: 提出一个可重复的深度学习管道用于白血病细胞分类,结合注意力机制的卷积神经网络,在C-NMC 2019数据集上达到97.89%的F1分数和准确率,参数量比VGG16减少89%。
- Motivation: 急性淋巴细胞白血病(ALL)是最常见的儿童癌症,需要专家显微镜诊断,但存在观察者间变异性和时间限制的问题。需要自动化、可靠的分类系统来辅助临床诊断。
- Method: 集成注意力机制的卷积神经网络,结合EfficientNetV2-B3和Squeeze-and-Excitation机制。采用全面的数据增强、焦点损失处理类别不平衡、患者级数据分割确保评估鲁棒性。
- Result: 在C-NMC 2019数据集(12,528张图像,62名患者)上,测试集达到97.89%的F1分数和准确率。通过100次蒙特卡洛实验统计验证,显著优于基线方法(p < 0.001)。比现有方法提升高达4.67%,参数量比VGG16减少89%(15.2M vs. 138M)。
- Conclusion: 注意力机制提供了可解释的诊断相关细胞特征可视化,表明现代注意力架构可以改善白血病细胞分类,同时保持适合临床部署的计算效率。
[28] Mono3DV: Monocular 3D Object Detection with 3D-Aware Bipartite Matching and Variational Query DeNoising
Kiet Dang Vu,Trung Thai Tran,Kien Nguyen Do Trung,Duc Dung Nguyen
Main category: cs.CV
TL;DR: Mono3DV:一种用于单目3D目标检测的新型Transformer框架,通过3D感知二分匹配、3D去噪和变分查询去噪机制解决现有DETR类方法中3D属性被排除在匹配过程之外的问题。
- Motivation: 现有DETR类单目3D检测方法存在关键限制:由于单目图像3D估计的病态性,3D属性被排除在二分匹配过程之外,导致高质量3D预测可能被仅基于2D的匹配标准错误抑制,造成次优结果。
- Method: 提出Mono3DV框架,包含三个关键创新:1) 3D感知二分匹配策略,将3D几何信息直接纳入匹配成本;2) 3D去噪方案,稳定集成3D属性时的训练不稳定性;3) 变分查询去噪机制,解决传统去噪技术的梯度消失问题。
- Result: 在不使用任何外部数据的情况下,该方法在KITTI 3D目标检测基准上取得了最先进的结果。
- Conclusion: Mono3DV通过将3D几何信息整合到匹配过程中并解决训练不稳定性,显著提升了单目3D目标检测的性能,证明了3D感知匹配和稳定训练策略的有效性。
[29] Deepfake Detection with Multi-Artifact Subspace Fine-Tuning and Selective Layer Masking
Xiang Zhang,Wenliang Weng,Daoyong Fu,Ziqiang Li,Zhangjie Fu
Main category: cs.CV
TL;DR: 提出MASM方法,通过多伪影子空间和选择性层掩码,解耦语义与伪影表示,提升深度伪造检测的跨数据集泛化能力
- Motivation: 深度伪造检测在跨数据集和真实复杂场景下面临挑战,主要原因是不同伪造方法引入的伪影分布多样性高,而预训练模型在适应新伪影时容易破坏原有的通用语义结构
- Method: 提出基于多伪影子空间和选择性层掩码的MASM方法:1) 使用奇异值分解将预训练权重划分为稳定的语义主空间和多个可学习的伪影子空间;2) 引入选择性层掩码策略,根据各伪影子空间的学习状态自适应调节网络层更新;3) 施加正交性约束和谱一致性约束,确保伪影子空间学习互补多样的伪影表示
- Result: 该方法能够解耦语义与伪影表示,约束伪影子空间的拟合强度,在跨数据集场景中提高泛化鲁棒性
- Conclusion: MASM方法通过显式解耦语义和伪影表示,有效建模多样伪造伪影同时保持语义稳定性,解决了深度伪造检测中的泛化挑战
[30] Evaluating transfer learning strategies for improving dairy cattle body weight prediction in small farms using depth-image and point-cloud data
Jin Wang,Angelo De Castro,Yuxi Zhang,Lucas Basolli Borsatto,Yuechen Guo,Victoria Bastos Primo,Ana Beatriz Montevecchio Bernardino,Gota Morota,Ricardo C Chebel,Haipeng Yu
Main category: cs.CV
TL;DR: 该研究评估了从大型农场进行迁移学习对小型农场奶牛体重预测的效果,并比较了深度图像和点云两种模态的性能。研究发现迁移学习显著提升了小型农场的预测效果,且两种模态表现相当。
- Motivation: 计算机视觉为奶牛监测提供了自动化、非侵入性和可扩展的工具,但迁移学习在畜牧应用中的效果和优化策略尚不明确。同时,深度图像和点云数据在奶牛体重预测中的直接比较研究有限。
- Method: 从大、中、小三个农场收集了1,201、215和58头奶牛的俯视深度图像和点云数据。评估了四种深度学习模型:深度图像的ConvNeXt和MobileViT,点云的PointNet和DGCNN。比较了迁移学习、单源学习和联合学习三种实验设计。
- Result: 迁移学习在所有四种模型中都显著提升了小型农场的体重预测效果,优于单源学习,且达到或超过了联合学习的性能。深度图像和点云模型之间没有一致的性能差异。
- Conclusion: 迁移学习特别适合小型农场的预测场景,因为它只需要预训练模型权重而非原始数据,避免了因隐私、物流或政策限制导致的数据共享问题。预训练表征在不同农场条件和奶牛群体间具有良好的泛化能力。
[31] EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos
Hongming Fu,Wenjia Wang,Xiaozhen Qiao,Shuo Yang,Zheng Liu,Bo Zhao
Main category: cs.CV
TL;DR: EgoGrasp是首个从动态相机拍摄的自我中心单目视频中重建世界空间手物交互的方法,解决了现有方法在时间动态建模和全局轨迹一致性方面的不足。
- Motivation: 准确的世界空间手物交互重建对于理解人类行为、实现具身智能和虚拟现实应用至关重要。现有方法局限于单图像或相机坐标系,无法建模时间动态或一致的全局轨迹,且在剧烈相机运动和频繁遮挡的自我中心视频中性能不佳。
- Method: 提出多阶段框架:1) 基于新开发的空间智能模型的鲁棒预处理流水线;2) 基于解耦扩散模型的全身手物交互先验模型;3) 多目标测试时优化范式。该先验模型无需模板且可扩展到多个物体。
- Result: 实验证明该方法在世界空间手物交互重建方面达到了最先进的性能。
- Conclusion: EgoGrasp成功解决了从动态自我中心视频中重建世界空间手物交互的挑战,为理解人类行为和实现相关应用提供了有效工具。
[32] Enhancing Histopathological Image Classification via Integrated HOG and Deep Features with Robust Noise Performance
Ifeanyi Ezuma,Ugochukwu Ugwu
Main category: cs.CV
TL;DR: 该研究评估了机器学习和深度学习模型在LC25000组织病理学图像数据集上的分类性能,发现使用InceptionResNet-v2提取的深度特征训练的模型性能优于仅使用预训练网络,在噪声环境下表现出更强的鲁棒性。
- Motivation: 随着数字病理学时代的到来,自动化图像分析在临床实践中变得至关重要。本研究旨在评估机器学习和深度学习模型在组织病理学图像分类任务上的性能,特别是在噪声环境下的鲁棒性。
- Method: 使用LC25000数据集(包含五类组织病理学图像),采用微调的InceptionResNet-v2网络作为分类器和特征提取器。比较了仅使用预训练网络与使用深度特征训练的模型性能,并在不同信噪比条件下评估模型鲁棒性。
- Result: 微调的InceptionResNet-v2达到96.01%的分类准确率和96.8%的平均AUC。使用深度特征训练的模型表现更优,其中神经网络模型达到99.99%的AUC和99.84%的准确率。在噪声环境下,使用深度特征的模型(特别是GBM和KNN)表现出更强的鲁棒性。HOG与深度特征结合能提升性能,但在噪声环境中提升有限。
- Conclusion: 深度特征提取在组织病理学图像分类中具有显著优势,不仅能提高分类性能,还能增强模型在噪声环境下的鲁棒性。结合传统特征(如HOG)与深度特征可以进一步提升性能,但在噪声条件下需要谨慎考虑。
[33] Efficient Hyperspectral Image Reconstruction Using Lightweight Separate Spectral Transformers
Jianan Li,Wangcai Zhao,Tingfa Xu
Main category: cs.CV
TL;DR: 提出LSST架构,通过分组光谱自注意力与轻量空间卷积块,高效重建压缩感知下的高光谱图像
- Motivation: 高光谱图像重建面临效率挑战,需要利用光谱和空间特性进行高效处理
- Method: 采用分治策略,设计LSST架构:SSTB块处理光谱关系(分组光谱自注意力+光谱混洗),LSCB块处理空间信息(深度可分离卷积),并提出Focal Spectrum Loss动态调整训练权重
- Result: LSST在减少FLOPs和参数量的同时,实现了优越的重建性能
- Conclusion: LSST架构高效且有效,为高光谱图像重建提供了轻量级解决方案
[34] A UAV-Based Multispectral and RGB Dataset for Multi-Stage Paddy Crop Monitoring in Indian Agricultural Fields
Adari Rama Sukanya,Puvvula Roopesh Naga Sri Sai,Kota Moses,Rimalapudi Sarvendranath
Main category: cs.CV
TL;DR: 本文提出了一个大规模无人机采集的水稻田间RGB和多光谱图像数据集,覆盖印度安得拉邦维杰亚瓦达地区从育苗到收获的完整生长阶段,包含42,430张原始图像和丰富元数据。
- Motivation: 目前缺乏覆盖水稻完整生长阶段的高分辨率多光谱图像数据集,特别是针对印度水稻作物的数据集。现有数据集往往分辨率不足或缺乏完整的生长周期覆盖,限制了精准农业、疾病分析和产量估算等研究。
- Method: 使用配备20兆像素RGB相机和5兆像素四波段多光谱相机(红、绿、红边、近红外)的无人机系统,在5英亩稻田上采集数据。开发了标准化操作程序(SOP)和检查清单确保数据采集的可重复性,地面采样距离为1厘米/像素。使用Pix4D Fields软件验证图像并生成正射影像图和植被指数图。
- Result: 创建了包含42,430张原始图像(415GB)的大规模数据集,覆盖水稻从育苗到收获的所有生长阶段。数据集包含GPS坐标、飞行高度、环境条件等丰富元数据,并生成了NDVI和NDRE等植被指数图。数据集已在IEEE DataPort上公开。
- Conclusion: 该数据集是少数几个提供覆盖印度水稻作物所有生长阶段的高分辨率图像和丰富元数据的资源之一,能够支持精准喷洒、疾病分析和产量估算等精准农业研究。
[35] Luminark: Training-free, Probabilistically-Certified Watermarking for General Vision Generative Models
Jiayi Xu,Zhang Zhang,Yuanrui Zhang,Ruitao Chen,Yixian Xu,Tianyu He,Di He
Main category: cs.CV
TL;DR: Luminark是一种无需训练、概率认证的水印方法,利用图像块级亮度统计,通过预定义二进制模式和阈值实现可认证检测,适用于多种视觉生成模型。
- Motivation: 为视觉生成模型开发一种通用、无需训练、具有概率认证的水印方法,能够在不同生成范式(扩散、自回归、混合)中保持高质量图像生成。
- Method: 基于图像块级亮度统计定义水印,预定义二进制模式和对应阈值;检测时评估每个图像块的亮度是否超过阈值,验证生成的二进制模式是否与目标匹配;利用引导技术作为即插即用机制实现水印注入。
- Result: 在9个模型(扩散、自回归、混合框架)上评估,Luminark表现出高检测准确率、对常见图像变换的强鲁棒性以及良好的视觉质量。
- Conclusion: Luminark是一种通用、无需训练、概率认证的水印方法,能够在多种视觉生成模型中实现高质量水印注入和可靠检测,具有实际应用价值。
[36] 600k-ks-ocr: a large-scale synthetic dataset for optical character recognition in kashmiri script
Haq Nawaz Malik
Main category: cs.CV
TL;DR: 提出了一个包含约60.2万张单词级分割图像的大规模合成语料库,用于训练和评估针对克什米尔文字的OCR系统,填补了濒危语言克什米尔语的资源空白。
- Motivation: 克什米尔语是一种濒危的达尔德语系语言,使用改良的波斯-阿拉伯文字系统,约有700万人使用。目前缺乏针对该语言的OCR训练资源,这阻碍了克什米尔语文档的数字化保存和处理。
- Method: 数据集包含约60.2万张256x64像素的单词级图像,采用三种传统克什米尔字体,结合数据增强模拟真实文档退化,并添加多样化背景纹理以增强模型鲁棒性。提供与CRNN、TrOCR和通用机器学习管道兼容的多种格式标注。
- Result: 创建了600K-KS-OCR数据集,包含约60.2万张图像,分布在10个分区存档中,总计约10.6GB。数据集采用CC-BY-4.0许可证发布,便于低资源语言OCR研究。
- Conclusion: 该数据集填补了克什米尔语OCR资源的空白,为低资源语言的光学字符识别研究提供了重要支持,有助于濒危语言的数字化保存和文档处理。
[37] NarrativeTrack: Evaluating Video Language Models Beyond the Frame
Hyeonjeong Ha,Jinjin Ge,Bo Feng,Kaixin Ma,Gargi Chakraborty
Main category: cs.CV
TL;DR: NarrativeTrack:首个通过细粒度实体中心推理评估MLLMs叙事理解能力的基准,揭示MLLMs在视觉转换和时间动态中难以稳健跟踪实体,存在感知基础与时间推理之间的基本权衡。
- Motivation: 当前多模态大语言模型在视频叙事理解方面探索不足,真正的叙事理解需要在地化"谁在何时何地做什么",并在动态视觉和时间上下文中保持连贯的实体表示。
- Method: 提出NarrativeTrack基准,通过组合推理进展框架评估叙事理解:将视频分解为构成实体,通过三个维度(实体存在、实体变化、实体模糊性)逐步增加叙事复杂性。采用全自动实体中心管道提取时间接地实体表示。
- Result: 评估显示:开源通用MLLMs具有强感知基础但弱时间连贯性;视频专用MLLMs能捕捉时间上下文但会幻觉实体上下文;模型在视觉转换和时间动态中难以稳健跟踪实体,经常在上下文变化下幻觉身份。
- Conclusion: 叙事理解仅从感知基础和时间推理的整合中产生,存在两者之间的基本权衡。NarrativeTrack为诊断和推进MLLMs中时间接地的叙事理解提供了首个系统框架。
[38] Evolving CNN Architectures: From Custom Designs to Deep Residual Models for Diverse Image Classification and Detection Tasks
Mahmudul Hasan,Mabsur Fatin Bin Hossain
Main category: cs.CV
TL;DR: 比较自定义CNN架构与预训练/迁移学习模型在五种真实图像数据集上的性能,分析架构因素对分类和定位任务的影响,为不同复杂度的任务提供网络选择指导。
- Motivation: 研究不同CNN架构(自定义、预训练、迁移学习)在不同复杂度图像识别任务中的表现差异,为实际应用中选择合适的网络设计提供依据。
- Method: 使用自定义CNN架构与广泛使用的预训练/迁移学习CNN模型,在五个真实图像数据集(包括二分类、细粒度多分类和目标检测场景)上进行对比实验,分析网络深度、残差连接和特征提取策略等架构因素的影响。
- Result: 更深层的CNN架构在细粒度多分类数据集上表现显著更好,而轻量级预训练和迁移学习模型在简单的二分类任务中仍然非常有效。提出的架构在目标检测场景中也表现出良好的适应性,能够识别真实交通场景中的非法三轮车。
- Conclusion: 通过系统分析自定义CNN架构与预训练/迁移学习模型,本研究为根据任务复杂度和资源限制选择合适的网络设计提供了实用指导,强调需要根据具体应用场景权衡网络架构的选择。
[39] Histogram Assisted Quality Aware Generative Model for Resolution Invariant NIR Image Colorization
Abhinav Attri,Rajeev Ranjan Dwivedi,Samiran Das,Vinod Kumar Kurmi
Main category: cs.CV
TL;DR: HAQAGen是一个统一生成模型,用于分辨率不变的近红外到RGB着色,平衡色彩真实性和结构保真度,通过综合损失函数、局部色彩先验和纹理感知监督实现高质量转换。
- Motivation: 近红外到RGB转换需要同时保持全局色彩统计和局部色彩一致性,同时扩展到原生分辨率而不损害纹理保真度或泛化能力。现有方法在平衡色彩真实性和结构保真度方面存在挑战。
- Method: 1) 结合损失函数:通过可微分直方图匹配对齐全局色彩统计,使用感知图像质量度量和基于特征的相似性保留纹理信息;2) 局部色调饱和度先验:通过空间自适应去归一化注入以稳定色彩重建;3) 纹理感知监督:在Mamba骨干网络中实现以保留细节;4) 自适应分辨率推理引擎:实现高分辨率转换而不牺牲质量。
- Result: 在FANVID、OMSIV、VCIP2020和RGB2NIR数据集上的广泛评估显示,相比现有基线方法有持续改进。HAQAGen生成具有更锐利纹理和自然色彩的图像,在感知指标上获得显著提升。
- Conclusion: HAQAGen作为一个可扩展且有效的解决方案,适用于各种成像场景的近红外到RGB转换,在保持纹理保真度和色彩真实性的同时实现分辨率不变的转换。
[40] Cross-Layer Attentive Feature Upsampling for Low-latency Semantic Segmentation
Tianheng Cheng,Xinggang Wang,Junchao Liao,Wenyu Liu
Main category: cs.CV
TL;DR: 提出一种新的引导注意力插值(GAI)方法,用于高效语义分割,通过自适应插值细粒度高分辨率特征,解决特征不对齐和上下文信息不足问题。
- Motivation: 当前坐标引导的低分辨率特征插值方法(如双线性插值)产生粗糙的高分辨率特征,存在特征不对齐和上下文信息不足的问题,同时丰富高分辨率特征的语义需要高计算负担,难以满足低延迟推理需求。
- Method: 提出引导注意力插值(GAI)方法,通过确定不同分辨率特征中像素的空间和语义关系,利用这些关系来插值具有丰富语义的高分辨率特征。GAI可以与任何深度卷积网络集成用于高效语义分割。
- Result: 基于GAI的语义分割网络GAIN在Cityscapes上达到78.8 mIoU和22.3 FPS,在CamVid上达到80.6 mIoU和64.5 FPS(使用NVIDIA 1080Ti GPU),创造了低延迟语义分割的最新最先进结果。
- Conclusion: GAI方法能够有效解决特征不对齐和上下文信息不足的问题,同时保持低延迟推理,为高效语义分割提供了新的解决方案。
[41] CardioMOD-Net: A Modal Decomposition-Neural Network Framework for Diagnosis and Prognosis of HFpEF from Echocardiography Cine Loops
Andrés Bell-Navas,Jesús Garicano-Mena,Antonella Ausiello,Soledad Le Clainche,María Villalba-Orero,Enrique Lara-Pezzi
Main category: cs.CV
TL;DR: 开发了一个名为CardioMOD-Net的统一AI框架,能够从小鼠超声心动图视频中同时进行多类别诊断和连续预测HFpEF发病时间。
- Motivation: HFpEF具有多种合并症和漫长的亚临床阶段,现有AI模型主要关注二分类检测,无法提供合并症特异性表型分析或疾病进展的时间预测。
- Method: 使用小鼠超声心动图视频,通过高阶动态模式分解提取时间特征,构建共享潜在表示支持视觉Transformer,分别用于多类别诊断分类和HFpEF发病时间回归预测。
- Result: 整体诊断准确率65%,所有类别超过50%准确率;预后模块的HFpEF发病时间预测均方根误差为21.72周,预测分布与真实分布高度匹配。
- Conclusion: 该统一框架证明即使在小数据条件下,也能从单一超声心动图视频中获得多类别表型分析和连续HFpEF发病预测,为临床前HFpEF研究整合诊断和预后建模奠定了基础。
[42] GenCAMO: Scene-Graph Contextual Decoupling for Environment-aware and Mask-free Camouflage Image-Dense Annotation Generation
Chenglizhao Chen,Shaojiang Yuan,Xiaoxue Lu,Mengke Song,Jia Song,Zhenyu Wu,Wenfeng Song,Shuai Li
Main category: cs.CV
TL;DR: 提出GenCAMO框架,通过生成模型合成高质量伪装图像-密集标注数据,解决伪装密集预测任务中数据稀缺问题
- Motivation: 伪装密集预测任务(如RGB-D伪装目标检测和开放词汇伪装目标分割)需要大量高质量密集标注数据,但现有数据集稀缺且标注成本高昂
- Method: 1) 构建GenCAMO-DB大规模伪装数据集,包含深度图、场景图、属性描述和文本提示等多模态标注;2) 提出GenCAMO环境感知且无需掩码的生成框架,生成高保真伪装图像-密集标注数据
- Result: 在多模态实验中,GenCAMO通过提供高质量合成数据,显著提升了复杂伪装场景下的密集预测性能
- Conclusion: 生成模型能有效合成伪装图像-密集标注数据,解决数据稀缺问题,提升伪装密集预测模型的性能
[43] Crowded Video Individual Counting Informed by Social Grouping and Spatial-Temporal Displacement Priors
Hao Lu,Xuhui Zhu,Wenjing Zhang,Yanan Li,Xiang Bai
Main category: cs.CV
TL;DR: 论文提出OMAN++方法解决拥挤场景下的视频个体计数问题,通过引入社交分组先验和时空位移先验,将一对一匹配放宽为一对多匹配,显著提升了在拥挤场景下的性能。
- Motivation: 现有视频个体计数方法在拥挤场景(如地铁通勤)中表现不佳,需要专门针对拥挤动态人流的数据集和方法改进。
- Method: 构建WuhanMetroCrowd数据集,提出OMAN++方法:1) 利用社交分组先验将标准一对一匹配放宽为一对多匹配,通过隐式上下文生成器和O2M匹配器实现;2) 利用时空位移先验设计位移先验注入器,增强匹配、特征提取和模型训练。
- Result: OMAN++在标准基准测试(SenseCrowd、CroHD、MovingDroneCrowd)上优于现有方法,在WuhanMetroCrowd数据集上误差降低38.12%,在拥挤场景中表现突出。
- Conclusion: 论文通过引入两个信息先验和构建新数据集,显著提升了拥挤场景下的视频个体计数性能,为VIC任务提供了新的强基线方法。
[44] MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity
Zhang Chen,Shuai Wan,Yuezhe Zhang,Siyu Ren,Fuzheng Yang,Junhui Hou
Main category: cs.CV
TL;DR: 提出MS-ISSM方法,通过径向基函数连续表示局部特征,避免不规则点云匹配误差,结合ResGrouped-MLP网络实现多尺度质量评估
- Motivation: 点云的非结构化和不规则特性给质量评估带来挑战,特别是难以建立准确的感知特征对应关系
- Method: 使用径向基函数连续表示局部特征,将失真测量转化为隐函数系数比较;提出ResGrouped-MLP质量评估网络,采用分组编码策略结合残差块和通道注意力机制
- Result: 在多个基准测试中,MS-ISSM在可靠性和泛化能力方面优于现有最先进指标
- Conclusion: MS-ISSM方法有效解决了点云质量评估中的特征对应问题,通过隐式结构相似性测量和多尺度网络设计实现了优异的性能
[45] RefSR-Adv: Adversarial Attack on Reference-based Image Super-Resolution Models
Jiazhu Dai,Huihui Jiang
Main category: cs.CV
TL;DR: 提出RefSR-Adv对抗攻击,仅通过扰动参考图像就能显著降低基于参考的超分辨率模型性能,揭示了RefSR系统的安全漏洞
- Motivation: 现有研究主要关注RefSR的后门攻击,而针对RefSR的对抗攻击漏洞尚未充分探索,需要填补这一研究空白
- Method: 提出RefSR-Adv对抗攻击方法,通过最大化对抗输出与干净输出之间的差异,仅扰动参考图像来降低SR输出质量
- Result: RefSR-Adv在CNN、Transformer和Mamba架构上均能引起显著性能下降和严重伪影,攻击效果与LR输入和参考图像相似度呈正相关
- Conclusion: 该研究揭示了RefSR系统因过度依赖参考特征而存在的安全漏洞,呼吁研究者关注RefSR的鲁棒性问题
[46] XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
Zunhai Su,Weihao Ye,Hansen Feng,Keyu Fan,Jing Zhang,Dahai Yu,Zhengwu Liu,Ngai Wong
Main category: cs.CV
TL;DR: XStreamVGGT通过联合剪枝和量化压缩KV缓存,实现内存高效的流式3D视觉推理
- Motivation: 现有StreamVGGT模型使用帧级因果注意力进行流式重建,但KV缓存会随输入帧累积而无限增长,导致内存消耗和推理延迟不断增加
- Method: 提出无需调优的方法,通过联合剪枝和量化系统压缩KV缓存:1) 通过高效token重要性识别剪枝多视图输入产生的冗余KV,实现固定内存预算;2) 利用KV张量的独特分布特性进行量化进一步减少内存消耗
- Result: XStreamVGGT在性能损失可忽略的情况下,内存使用减少4.42倍,推理加速5.48倍,实现可扩展的实用流式3D应用
- Conclusion: XStreamVGGT通过KV缓存压缩解决了流式3D视觉中的内存效率问题,为实际应用提供了可行的解决方案
[47] Real-Time LiDAR Point Cloud Densification for Low-Latency Spatial Data Transmission
Kazuhiko Murasaki,Shunsuke Konagai,Masakatsu Aoki,Taiga Yoshida,Ryuichi Tanida
Main category: cs.CV
TL;DR: 提出一种高速LiDAR点云稠密化方法,通过结合多个LiDAR输入和高分辨率彩色图像,使用联合双边滤波策略的CNN架构,实现实时(30fps)生成密集深度图
- Motivation: 为沉浸式远程呈现系统实现低延迟空间传输,需要解决动态3D场景密集捕获和实时处理两大问题。LiDAR传感器能实时捕获3D但产生稀疏点云,因此需要高速点云稠密化方法
- Method: 结合多个LiDAR输入与高分辨率彩色图像,采用联合双边滤波策略,通过卷积神经网络架构实现实时深度补全
- Result: 方法能在30fps下生成全高清分辨率的密集深度图,比最近的基于训练的深度补全方法快15倍以上,产生的密集点云具有准确几何形状,无多视角不一致或重影伪影
- Conclusion: 提出的高速LiDAR点云稠密化方法能有效解决沉浸式远程呈现系统的实时3D场景捕获和处理需求,在保持实时性能的同时实现高质量深度补全
[48] Promptable Foundation Models for SAR Remote Sensing: Adapting the Segment Anything Model for Snow Avalanche Segmentation
Riccardo Gelato,Carlo Sgaravatti,Jakob Grahn,Giacomo Boracchi,Filippo Maria Bianchi
Main category: cs.CV
TL;DR: 利用SAM基础模型适配Sentinel-1 SAR数据,通过适配器、多编码器、提示工程等策略解决领域差异,加速雪崩标注工作
- Motivation: SAR影像用于雪崩检测需要大量高质量专家标注,耗时耗力。需要开发工具加速SAR图像的雪崩标注流程
- Method: 基于SAM分割基础模型,通过适配器缓解领域差异,多编码器处理多通道SAR输入,提示工程策略提高定位精度,优化训练算法减少编码器训练时间
- Result: 开发出集成到标注工具中的模型,实验证明能够加速SAR图像的雪崩标注
- Conclusion: 成功将SAM适配到SAR雪崩检测领域,解决了领域差异、输入适配、提示不精确和训练效率等挑战,为雪崩风险预测提供了有效的标注工具
[49] UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass
Mengfei Li,Peng Li,Zheng Zhang,Jiahao Lu,Chengfeng Zhao,Wei Xue,Qifeng Liu,Sida Peng,Wenxiao Zhang,Wenhan Luo,Yuan Liu,Yike Guo
Main category: cs.CV
TL;DR: UniSH是一个统一的、前馈的框架,用于联合进行度量尺度的3D场景和人体重建,通过创新的训练范式利用未标注的野外数据,解决了合成数据导致的领域差距问题。
- Motivation: 该领域面临的主要挑战是缺乏大规模标注的真实世界数据,导致依赖合成数据集,这引入了显著的模拟到真实领域的差距,导致泛化能力差、人体几何保真度低,以及在野外视频上的对齐效果不佳。
- Method: 提出了一个创新的训练范式,有效利用未标注的野外数据。框架结合了场景重建和人体姿态恢复(HMR)的强大先验,包含两个核心组件:(1) 从专家深度模型蒸馏高频细节的鲁棒蒸馏策略,以优化人体表面细节;(2) 两阶段监督方案,先在合成数据上学习粗定位,然后通过直接优化SMPL网格与人体点云之间的几何对应关系,在真实数据上进行微调。
- Result: 该模型在单次前向传播中能够联合恢复高保真的场景几何、人体点云、相机参数和一致的度量尺度SMPL身体。大量实验表明,该模型在以人为中心的场景重建方面达到了最先进的性能,并在全局人体运动估计方面取得了极具竞争力的结果,优于基于优化的框架和仅使用HMR的方法。
- Conclusion: UniSH通过创新的训练范式有效解决了合成数据导致的领域差距问题,实现了高质量的联合3D场景和人体重建,在多个任务上表现出色。
[50] Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment
Bac Nguyen,Yuhta Takida,Naoki Murata,Chieh-Hsin Lai,Toshimitsu Uesaka,Stefano Ermon,Yuki Mitsufuji
Main category: cs.CV
TL;DR: CODA通过引入寄存器槽和对比对齐损失,解决了Slot Attention在物体中心学习中的槽纠缠和对齐问题,提升了物体发现和表示质量。
- Motivation: Slot Attention与预训练扩散模型结合在物体中心学习中有潜力,但存在槽纠缠和槽与图像内容对齐弱的问题,需要改进。
- Method: 提出CODA:1) 使用寄存器槽吸收残差注意力,减少物体槽间的干扰;2) 应用对比对齐损失显式鼓励槽-图像对应关系。
- Result: 在合成数据集(MOVi-C/E)和真实数据集(VOC, COCO)上,CODA在物体发现、属性预测和组合图像生成方面优于基线方法,如COCO上FG-ARI提升6.1%。
- Conclusion: CODA作为一种高效可扩展的框架,在复杂真实场景中具有鲁棒物体中心学习的应用潜力。
[51] HyDRA: Hybrid Denoising Regularization for Measurement-Only DEQ Training
Markus Haltmeier,Lukas Neumann,Nadja Gruber,Johannes Schwab,Gyeongha Hwang
Main category: cs.CV
TL;DR: HyDRA:一种仅需测量数据的DEQ训练框架,结合测量一致性和自适应去噪正则化,用于解决图像重建问题
- Motivation: 解决图像重建问题面临两大挑战:病态性和缺乏大规模监督数据集。现有深度平衡模型通常需要监督对(x,y),但在许多实际场景中只有测量数据y可用。
- Method: 提出HyDRA框架,仅使用测量数据进行DEQ训练,结合测量一致性和自适应去噪正则化项,并采用数据驱动的早停准则。
- Result: 在稀疏视图CT上的实验表明,该方法能获得有竞争力的重建质量和快速推理速度。
- Conclusion: HyDRA为仅使用测量数据的图像重建问题提供了一种有效的解决方案,克服了监督数据不足的限制。
[52] RFAssigner: A Generic Label Assignment Strategy for Dense Object Detection
Ziqian Guan,Xieyi Fu,Yuting Wang,Haowen Xiao,Jiarui Zhu,Yingying Zhu,Yongtao Liu,Lin Gu
Main category: cs.CV
TL;DR: RFAssigner是一种新颖的标签分配策略,通过高斯感受野距离自适应选择补充正样本,解决密集目标检测中尺度不平衡问题。
- Motivation: 现有密集目标检测器的标签分配策略通常为小目标分配的正样本数量不足,导致训练过程中的尺度不平衡问题。
- Method: RFAssigner首先使用基于点的先验建立初始正样本集,然后利用高斯感受野距离度量未分配候选位置与真实目标之间的相似性,自适应地从未分配池中选择补充正样本。
- Result: 在三个具有不同目标尺度分布的数据集上的综合实验验证了方法的有效性和泛化性。配备RFAssigner的FCOS-ResNet-50检测器在所有目标尺度上均达到最先进性能。
- Conclusion: RFAssigner通过自适应补充正样本分配,显著提升了密集目标检测器的多尺度学习能力,无需额外模块或启发式方法即可实现跨尺度的平衡学习。
[53] MambaFormer: Token-Level Guided Routing Mixture-of-Experts for Accurate and Efficient Clinical Assistance
Hamad Khan,Saddam Hussain Khan
Main category: cs.CV
TL;DR: 提出MambaFormer混合专家框架,结合Transformer和状态空间模型,通过智能路由机制实现医疗问答的高效推理,在保持准确性的同时大幅降低延迟。
- Motivation: 解决大型语言模型在临床应用中计算成本与效率之间的基本权衡问题,为资源受限的临床部署提供可扩展解决方案。
- Method: 提出LLM-based MambaFormer混合专家框架,包含轻量级门控机制进行token级动态路由:复杂短查询路由到定制Transformer专家(ET5),长高吞吐序列路由到状态空间模型专家(EMamba)。使用新颖的效用引导多目标损失联合优化路由决策、参数和行为。
- Result: 在DentalQA和PubMedQA数据集上验证,MambaFormer取得BERTScore=0.9180的优异性能,推理延迟仅0.077秒,比T5-Large快24.4倍。
- Conclusion: MambaFormer框架通过智能路由和混合专家设计,在医疗问答任务中实现了准确性与效率的帕累托最优权衡,为资源受限的临床部署提供了可扩展解决方案。
[54] AI-Powered Deepfake Detection Using CNN and Vision Transformer Architectures
Sifatullah Sheikh Urmi,Kirtonia Nuzath Tabassum Arthi,Md Al-Imran
Main category: cs.CV
TL;DR: 评估四种AI模型(三种CNN和一种Vision Transformer)在深度伪造检测中的性能,发现VFDNET与MobileNetV3组合表现最佳,证明了AI在可靠深度伪造检测方面的能力。
- Motivation: 随着人工智能生成的深度伪造技术日益普及,维持数字真实性面临重大挑战,需要开发可靠的检测方法来应对这一问题。
- Method: 使用大型人脸图像数据集评估四种AI模型(三种卷积神经网络和一种视觉Transformer),采用数据预处理和增强技术来提升模型在不同场景下的性能。
- Result: VFDNET与MobileNetV3组合表现出最高的准确率,展示了高效的性能,验证了AI在可靠深度伪造检测方面的能力。
- Conclusion: AI模型特别是VFDNET与MobileNetV3的组合,能够有效检测深度伪造内容,为解决数字真实性挑战提供了可行的技术方案。
[55] S2M-Net: Spectral-Spatial Mixing for Medical Image Segmentation with Morphology-Aware Adaptive Loss
Md. Sanaullah Chowdhury Lameya Sabrin
Main category: cs.CV
TL;DR: S2M-Net:一种轻量级医学图像分割网络,通过谱选择令牌混合器和形态感知自适应损失,在保持全局上下文的同时实现高效计算,在16个数据集上达到SOTA性能。
- Motivation: 现有医学图像分割架构面临三难困境:局部精度、全局上下文和计算效率无法兼顾。卷积网络局部精度好但感受野有限,视觉Transformer全局上下文强但计算成本高且在小数据集上容易过拟合。
- Method: 提出S2M-Net,包含两个核心创新:1)谱选择令牌混合器(SSTM),利用医学图像的频谱集中特性,通过截断2D FFT和可学习频率滤波实现O(HW log HW)全局上下文;2)形态感知自适应分割损失(MASL),自动分析结构特征来调制五个互补损失分量。
- Result: 在16个医学影像数据集(8种模态)上评估,达到SOTA性能:息肉分割96.12% Dice,手术器械83.77%(比先前方法提升17.85%),脑肿瘤80.90%,比专用基线一致提升3-18%,参数量比Transformer方法少3.5-6倍。
- Conclusion: S2M-Net成功解决了医学图像分割的三难困境,通过谱选择和形态感知机制,在保持高效计算的同时实现了优异的全局上下文建模和分割精度。
[56] VReID-XFD: Video-based Person Re-identification at Extreme Far Distance Challenge Results
Kailash A. Hambarde,Hugo Proença,Md Rashidunnabi,Pranita Samale,Qiwei Yang,Pingping Zhang,Zijing Gong,Yuhao Wang,Xi Zhang,Ruoshui Qu,Qiaoyun He,Yuhang Zhang,Thi Ngoc Ha Nguyen,Tien-Dung Mai,Cheng-Jun Kang,Yu-Fan Lin,Jin-Hui Jiang,Chih-Chung Hsu,Tamás Endrei,György Cserey,Ashwat Rajbhandari
Main category: cs.CV
TL;DR: VReID-XFD是一个针对极端远距离(XFD)空中到地面人员重识别的视频基准测试和社区挑战,包含371个身份、11,288个轨迹和1175万帧数据,揭示了现有ReID系统在极端条件下的性能限制。
- Motivation: 现有人员重识别系统在极端远距离的空中到地面场景下面临严重挑战,包括分辨率严重退化、极端视角变化、不稳定运动线索和服装变化等问题,需要专门的研究基准来探索这一独特操作机制。
- Method: 从DetReIDX数据集构建VReID-XFD基准,包含371个身份、11,288个轨迹和1175万帧数据,覆盖5.8米到120米的高度、30度到90度的视角角度以及最大120米的水平距离。支持空中到空中、空中到地面和地面到空中的严格身份分离评估。
- Result: VReID-XFD-25挑战吸引了10个团队提交数百份方案,系统分析显示性能随高度和距离单调下降,天顶视角普遍处于劣势,存在峰值性能与鲁棒性之间的权衡。最佳方法SAS-PReID在空对地设置中仅达到43.93% mAP。
- Conclusion: VReID-XFD基准揭示了极端远距离空中到地面人员重识别的严峻挑战,为社区提供了重要的研究平台,表明现有方法在这一领域仍有巨大改进空间。
[57] LinMU: Multimodal Understanding Made Linear
Hongjie Wang,Niraj K. Jha
Main category: cs.CV
TL;DR: LinMU提出了一种线性复杂度的视觉语言模型架构,通过双分支M-MATE模块替代自注意力层,在保持性能的同时显著降低计算复杂度,适用于高分辨率图像和长视频理解。
- Motivation: 现有视觉语言模型的自注意力机制具有二次复杂度,限制了其在边缘设备上的部署,且处理高分辨率图像和长视频时计算成本过高。需要设计线性复杂度的架构来突破这些限制。
- Method: LinMU使用M-MATE双分支模块替代所有自注意力层:Flex-MA分支(双向状态空间模型)处理全局上下文,Local-Swin分支(局部窗口注意力)处理相邻相关性。采用三阶段蒸馏框架将预训练VLM转换为LinMU架构。
- Result: 在MMMU、TextVQA、LongVideoBench、Video-MME等基准测试中,LinMU性能与教师模型相当,但首词生成时间减少2.7倍,分钟级视频的token吞吐量提升9.0倍。消融实验验证了蒸馏阶段和双分支设计的必要性。
- Conclusion: 研究表明无需二次注意力也能实现最先进的多模态推理,为处理高分辨率图像和长视频的长上下文VLM开辟了新途径。
[58] Achieving Fine-grained Cross-modal Understanding through Brain-inspired Hierarchical Representation Learning
Weihang You,Hanqi Jiang,Yi Pan,Junhao Chen,Tianming Liu,Fei Dou
Main category: cs.CV
TL;DR: NeuroAlign:受人类视觉系统层级结构启发的fMRI-视频对齐框架,通过神经-时序对比学习和增强向量量化实现跨模态检索性能提升
- Motivation: 现有方法主要将神经解码简化为生成任务或简单相关性分析,无法反映大脑视觉处理的层级性和时序过程,且存在模态鸿沟问题
- Method: 采用两阶段机制模拟生物视觉通路:1)通过神经-时序对比学习实现全局语义理解;2)通过增强向量量化进行细粒度模式匹配;使用DynaSyncMM-EMA方法实现动态多模态融合和自适应加权
- Result: NeuroAlign在跨模态检索任务中显著优于现有方法,为理解视觉认知机制建立了新范式
- Conclusion: 该框架通过模拟人类视觉系统的层级组织,成功解决了fMRI与视频数据对齐的挑战,为神经科学和计算机视觉的交叉研究提供了有效工具
[59] Slot-ID: Identity-Preserving Video Generation from Reference Videos via Slot-Based Temporal Identity Encoding
Yixuan Lai,He Wang,Kun Zhou,Tianjia Shao
Main category: cs.CV
TL;DR: 提出一种基于短参考视频的身份条件扩散变换器视频生成方法,通过Sinkhorn路由编码器学习紧凑身份令牌,在保持提示忠实性和视觉真实性的同时显著提升身份保留能力
- Motivation: 现有基于单张图像的视频生成方法在身份保留方面存在局限:忽略时间特征导致姿势锁定、不自然扭曲和平均化面部,特别是在视角和表情变化时
- Method: 使用短参考视频而非单张肖像作为条件输入;通过Sinkhorn路由编码器从参考视频中学习紧凑的身份令牌,捕捉主体特定的动态模式;构建身份条件扩散变换器视频生成器
- Result: 方法在大姿势变化和丰富面部表情下显著改善身份保留,同时保持提示忠实性和视觉真实性,适用于多样主体和提示
- Conclusion: 通过引入短参考视频和Sinkhorn路由编码器,有效解决了身份保留与运动自然性之间的平衡问题,为身份条件视频生成提供了更优方案
[60] Advanced Machine Learning Approaches for Enhancing Person Re-Identification Performance
Dang H. Pham,Tu N. Nguyen,Hoa N. Nguyen
Main category: cs.CV
TL;DR: 该论文提出了三种行人重识别方法:SCM-ReID(监督对比学习)、IQAGA/DAPRH(无监督域适应)和ViTC-UReID(完全无监督),分别在监督、跨域和完全无监督场景下提升了ReID性能。
- Motivation: 行人重识别在智能监控系统中至关重要,但面临外观变化、域偏移和标注数据有限等挑战。需要开发能够在不同设置下(监督、跨域、完全无监督)提升性能的先进方法。
- Method: 1. SCM-ReID:结合监督对比学习和混合损失优化(分类、中心、三元组和质心三元组损失)
- IQAGA/DAPRH:基于GAN的图像增强、域不变映射和伪标签细化来解决域适应问题
- ViTC-UReID:使用Vision Transformer特征编码和相机感知代理学习,结合全局局部注意力和相机身份约束
- Result: 在Market-1501、CUHK03、DukeMTMC-reID和MSMT17等数据集上取得显著提升:SCM-ReID达到SOTA精度;UDA方法在跨域场景中mAP和Rank-1提升达12%;无监督方法大幅超越现有方法。
- Conclusion: 提出的三种方法有效解决了ReID中的特征学习、域适应和标签噪声处理等关键问题,为实际监控系统的鲁棒部署奠定了基础,推动了行人重识别研究的发展。
[61] Garment Inertial Denoiser (GID): Endowing Accurate Motion Capture via Loose IMU Denoiser
Jiawei Fang,Ruonan Zheng,Xiaoxia Gao,Shifan Jiang,Anjun Chen,Qi Ye,Shihui Guo
Main category: cs.CV
TL;DR: GID是一个轻量级Transformer模型,用于解决宽松服装中IMU传感器位移导致的运动捕捉噪声问题,通过位置感知专家架构实现实时去噪,并在未见过的用户、动作和服装类型上具有良好的泛化能力。
- Motivation: 可穿戴惯性运动捕捉系统需要传感器紧贴身体,这对日常使用来说既侵入又不舒适。将IMU嵌入宽松服装是理想方案,但传感器与身体的位移会引入严重、结构化且位置相关的噪声,破坏标准惯性处理流程。
- Method: 提出GID(Garment Inertial Denoiser),一个轻量级即插即用Transformer,将宽松服装运动捕捉分解为三个阶段:位置特定去噪、自适应跨服装融合和通用姿态预测。采用位置感知专家架构,共享时空骨干网络建模全局运动,每个IMU专家头专门处理局部服装动态,轻量级融合模块确保跨部位一致性。
- Result: GID能够从单用户训练中实现准确、实时的去噪,并在未见过的用户、动作和服装类型上表现出良好的泛化能力。作为即插即用模块,能持续改进最先进的惯性运动捕捉方法。
- Conclusion: GID通过创新的位置感知专家架构有效解决了宽松服装中IMU传感器的噪声问题,结合新收集的GarMoCap数据集,为日常可穿戴运动捕捉提供了实用解决方案。
[62] Unsupervised SE(3) Disentanglement for in situ Macromolecular Morphology Identification from Cryo-Electron Tomography
Mostofa Rafid Uddin,Mahek Vora,Qifeng Wu,Muyuan Chen,Min Xu
Main category: cs.CV
TL;DR: 提出一种解耦深度表示学习框架,将SE(3)变换与形态内容分离,用于cryo-ET数据中的大分子形态分析
- Motivation: 现有基于期望最大化的方法经常遗漏罕见但重要的形态,且需要大量手动超参数调优,需要更有效的解决方案
- Method: 提出解耦深度表示学习框架,包含新颖的多选择学习模块,将SE(3)变换与形态内容在表示空间分离,学习到的形态内容用于生成模板形态
- Result: 在模拟和真实cryo-ET数据集上的实验显示明显优于先前方法,包括发现先前未识别的大分子形态
- Conclusion: 该框架有效解决了cryo-ET数据中形态分析的挑战,能够发现罕见但重要的形态,减少手动调优需求
[63] ParkGaussian: Surround-view 3D Gaussian Splatting for Autonomous Parking
Xiaobao Wei,Zhangjie Ye,Yuxiang Gu,Zunjie Zhu,Yunfei Guo,Yingying Shen,Shan Zhao,Ming Lu,Haiyang Sun,Bing Wang,Guang Chen,Rongfeng Lu,Hangjun Ye
Main category: cs.CV
TL;DR: 首个专门针对停车场景3D重建的基准数据集ParkRecon3D和框架ParkGaussian,通过3D高斯泼溅技术和槽位感知重建策略,提升重建质量并保持下游感知任务的一致性。
- Motivation: 现有研究主要集中在2D停车位感知、建图和定位,而3D重建在停车场景中研究不足。单纯提高重建视觉质量并不能直接帮助自动驾驶停车,因为停车的关键入口是停车位感知模块。
- Method: 1) 创建首个停车场景重建基准数据集ParkRecon3D,包含四个环视鱼眼相机的传感器数据、标定外参和密集停车位标注;2) 提出ParkGaussian框架,首次将3D高斯泼溅技术用于停车场景重建;3) 引入槽位感知重建策略,利用现有停车感知方法增强停车位区域的合成质量。
- Result: 在ParkRecon3D数据集上的实验表明,ParkGaussian实现了最先进的重建质量,并更好地保持了与下游任务的感知一致性。
- Conclusion: ParkRecon3D是首个专门针对停车场景3D重建的基准数据集,ParkGaussian框架通过3D高斯泼溅和槽位感知重建策略,有效提升了停车场景的重建质量和对下游感知任务的支持。
[64] Evaluation of Convolutional Neural Network For Image Classification with Agricultural and Urban Datasets
Shamik Shafkat Avro,Nazira Jesmin Lina,Shahanaz Sharmin
Main category: cs.CV
TL;DR: 开发了一个自定义CNN架构,通过残差连接、SE注意力机制等设计选择来研究架构对多领域图像分类任务的影响,在智能城市和农业图像数据集上表现出色。
- Motivation: 研究卷积神经网络架构设计选择如何影响多领域图像分类任务的性能,为智能城市和农业成像应用提供高效的解决方案。
- Method: 设计自定义CNN架构,包含残差连接、Squeeze-and-Excitation注意力机制、渐进通道缩放和Kaiming初始化,在五个公开数据集上进行训练和测试。
- Result: CustomCNN在多个数据集上表现出竞争性性能,同时保持计算效率,优于流行的CNN架构。
- Conclusion: 精心设计的架构对于现实世界的智能城市和农业成像应用至关重要,CustomCNN展示了架构设计选择对多领域图像分类任务的重要影响。
[65] SwinIFS: Landmark Guided Swin Transformer For Identity Preserving Face Super Resolution
Habiba Kausar,Saeed Anwar,Omar Jamal Hammad,Abdul Bais
Main category: cs.CV
TL;DR: SwinIFS是一种基于Swin Transformer和面部关键点引导的超分辨率框架,能够在保持身份特征的同时实现高质量的人脸重建,即使在8倍放大下也能恢复精细结构。
- Motivation: 人脸超分辨率任务面临的主要挑战是从严重退化的低分辨率输入中恢复高质量面部图像,同时保持精细结构细节和身份特征。现有方法在极端放大倍数下难以恢复有意义的身份信息。
- Method: 提出SwinIFS框架,将密集高斯热图表示的面部关键点作为结构先验输入,引导网络从处理早期就关注语义重要区域。采用紧凑的Swin Transformer骨干网络捕获长距离上下文信息,同时保持局部几何结构。
- Result: 在CelebA基准测试中,SwinIFS在感知质量、重建清晰度和身份保持方面表现优异,即使在8倍放大下也能产生逼真结果。在重建精度和计算效率之间取得良好平衡。
- Conclusion: SwinIFS通过结合结构先验和分层注意力机制,实现了身份保持的人脸超分辨率,在极端放大倍数下仍能恢复有意义的身份特征,适用于人脸增强、监控和数字修复等实际应用。
[66] Mask-Guided Multi-Task Network for Face Attribute Recognition
Gong Gao,Zekai Wang,Jian Zhao,Ziqi Xie,Xianhui Liu,Weidong Zhao
Main category: cs.CV
TL;DR: 提出MGMTN网络,通过自适应掩码学习和组-全局特征融合,选择特定面部区域特征进行属性识别,避免全局特征冗余,提升识别性能。
- Motivation: 传统多任务属性识别方法依赖全局区域特征提取,会产生冗余特征,影响识别效率。需要选择特定特征区域进行高效特征学习。
- Method: 提出Mask-Guided Multi-Task Network (MGMTN),包含Adaptive Mask Learning (AML)和Group-Global Feature Fusion (G2FF)。AML利用预训练关键点模型定位关键面部部位并生成组掩码,G2FF融合组特征和全局特征。
- Result: 在两个具有挑战性的面部属性识别数据集上进行广泛实验,证明MGMTN能有效提升FAR性能。
- Conclusion: MGMTN通过选择特定特征区域和融合组-全局特征,解决了传统方法中的冗余特征问题,提高了面部属性识别的准确性和效率。
[67] AirSpatialBot: A Spatially-Aware Aerial Agent for Fine-Grained Vehicle Attribute Recognization and Retrieval
Yue Zhou,Ran Ding,Xue Yang,Xue Jiang,Xingzhao Liu
Main category: cs.CV
TL;DR: 提出AirSpatial数据集和空间感知VLM,用于无人机车辆图像的细粒度空间理解,并开发AirSpatialBot智能体进行车辆属性识别和检索。
- Motivation: 现有遥感视觉语言模型在空间理解方面存在局限,限制了实际应用。需要专门针对无人机车辆图像开发空间感知能力。
- Method: 1) 构建包含20.6万条指令的AirSpatial数据集,引入空间定位和空间问答任务,首次提供3DBB标注;2) 采用两阶段训练策略:图像理解预训练和空间理解微调;3) 开发AirSpatialBot智能体,动态集成任务规划、图像理解、空间理解和任务执行能力。
- Result: 实验验证了方法的有效性,揭示了现有VLM的空间局限性,同时提供了有价值的见解。模型能够实现细粒度车辆属性识别和检索。
- Conclusion: 通过AirSpatial数据集和空间感知VLM,显著提升了遥感视觉语言模型的空间理解能力,为无人机车辆图像分析提供了有效解决方案。
[68] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer
Xu Guo,Fulong Ye,Xinghui Li,Pengqi Tu,Pengze Zhang,Qichao Sun,Songtao Zhao,Xiangwang Hou,Qian He
Main category: cs.CV
TL;DR: DreamID-V:首个基于扩散Transformer的视频换脸框架,通过模态感知条件注入、合成到真实课程学习、身份一致性强化学习等创新方法,在保持身份相似性和时间一致性的同时实现高质量视频换脸。
- Motivation: 现有视频换脸方法难以同时保持身份相似性、属性保留和时间一致性,需要将图像换脸的优势迁移到视频领域。
- Method: 1. SyncID-Pipe数据管道预训练身份锚定视频合成器,结合IFS模型构建双向ID四元组进行显式监督;2. 首个基于扩散Transformer的DreamID-V框架,使用模态感知条件模块区分注入多模态条件;3. 合成到真实课程机制和身份一致性强化学习策略增强视觉真实性和身份一致性。
- Result: DreamID-V在IDBench-V基准测试中优于现有最先进方法,展现出卓越的通用性,可无缝适应各种换脸相关任务。
- Conclusion: 该框架成功将图像换脸的优势迁移到视频领域,解决了现有方法在身份相似性、属性保留和时间一致性方面的挑战,为视频换脸提供了全面解决方案。
[69] EdgeNeRF: Edge-Guided Regularization for Neural Radiance Fields from Sparse Views
Weiqi Yu,Yiyang Yao,Lin He,Jianming Lv
Main category: cs.CV
TL;DR: EdgeNeRF:一种边缘引导的稀疏视角3D重建算法,通过深度和法线正则化约束非边缘区域,在保持边界高频细节的同时提升几何一致性,显著改善稀疏输入下的重建质量。
- Motivation: NeRF在密集多视角场景中表现优异,但在稀疏输入下重建质量显著下降,出现几何伪影。现有方法使用全局深度正则化来缓解伪影,但会导致几何边界细节丢失。
- Method: 提出EdgeNeRF算法,利用深度和法线突变产生边缘的先验知识。首先从输入图像中提取边缘,然后在非边缘区域应用深度和法线正则化约束,增强几何一致性同时保持边界的高频细节。
- Result: 在LLFF和DTU数据集上的实验表明,EdgeNeRF在保持锐利几何边界和抑制伪影方面表现优异。边缘引导的深度正则化模块可以即插即用地集成到其他方法中,显著提升性能而不大幅增加训练时间。
- Conclusion: EdgeNeRF通过边缘引导的稀疏视角3D重建,有效解决了NeRF在稀疏输入下的几何伪影问题,在保持边界细节的同时提升重建质量,且具有良好的可扩展性。
[70] In defense of the two-stage framework for open-set domain adaptive semantic segmentation
Wenqi Ren,Weijie Wang,Meng Zheng,Ziyan Wu,Yang Tang,Zhun Zhong,Nicu Sebe
Main category: cs.CV
TL;DR: 本文提出SATS方法,通过分离训练策略解决开放集域自适应语义分割问题,先分离已知/未知类别,再进行未知感知的域自适应,显著提升性能。
- Motivation: 现有开放集域自适应语义分割方法在单一阶段同时处理已知类别域自适应和未知类别识别,但由于已知和未知类别标注不平衡,导致已知类别负迁移和未知类别欠拟合问题。
- Method: 提出SATS(Separating-then-Adapting Training Strategy)两阶段训练策略:1)已知/未知类别分离;2)未知感知的域自适应。同时提出硬未知探索数据增强方法,让模型接触更具挑战性的未知样本。
- Result: 在公开OSDA-SS基准测试中,GTA5-to-Cityscapes提升+3.85% H-Score,SYNTHIA-to-Cityscapes提升+18.64% H-Score,显著超越先前最优方法。
- Conclusion: 通过分离训练策略和硬未知探索,SATS方法能更准确地识别未知类别,平衡已知和未知类别的特征学习,在开放集域自适应语义分割任务上取得显著进步。
[71] PartImageNet++ Dataset: Enhancing Visual Models with High-Quality Part Annotations
Xiao Li,Zilong Liu,Yining Liu,Zhuhong Li,Na Dong,Sitian Qin,Xiaolin Hu
Main category: cs.CV
TL;DR: PartImageNet++ (PIN++) 是一个为 ImageNet-1K 所有类别提供详细部件标注的数据集,包含10万张图像。基于此,作者提出了多尺度部件监督识别模型(MPM),通过部件分割网络生成伪标签,结合原始标注进行监督学习,提升了目标识别的鲁棒性。
- Motivation: 现有数据集中高质量部件标注稀缺,限制了基于部件识别的模型发展。作者旨在创建一个覆盖广泛目标类别的全面部件标注数据集,以支持更鲁棒的识别模型和下游任务研究。
- Method: 1) 创建 PartImageNet++ 数据集,为 ImageNet-1K 每个类别提供100张标注图像;2) 训练部件分割网络生成剩余未标注图像的伪部件标签;3) 提出多尺度部件监督识别模型(MPM),在传统识别架构中加入辅助旁路层,同时使用伪标签和原始标注进行联合监督。
- Result: 实验表明,该方法不仅增强了基于部件的模型在目标识别中的鲁棒性,还在部件分割、目标分割和少样本学习等多个下游任务中建立了强基线,证明了部件标注在提升模型性能方面的潜力。
- Conclusion: PartImageNet++ 填补了高质量部件标注数据集的空白,提出的MPM模型有效利用了部件信息提升识别性能。该工作为基于部件的视觉理解提供了重要资源和方法基础,展示了部件标注在多种下游任务中的应用价值。
[72] Rethinking Multimodal Few-Shot 3D Point Cloud Segmentation: From Fused Refinement to Decoupled Arbitration
Wentao Bian,Fenglei Xu
Main category: cs.CV
TL;DR: DA-FSS提出解耦专家仲裁网络,解决多模态少样本3D点云分割中的"可塑性-稳定性困境"和CLIP的语义盲区问题,通过并行专家细化模块和堆叠仲裁模块实现几何与语义路径的解耦与协调。
- Motivation: 传统"先融合后细化"范式存在可塑性-稳定性困境:几何信息需要可塑性适应新类别,而语义信息需要稳定性保持已有知识。同时CLIP存在类间混淆导致语义盲区,影响少样本3D点云分割性能。
- Method: 提出DA-FSS模型:1) 并行专家细化模块生成各模态相关性,几何专家保持可塑性,语义专家确保稳定性;2) 堆叠仲裁模块进行卷积融合和模态路径仲裁;3) 解耦对齐模块协调两路径,传递知识而不传播混淆。
- Result: 在S3DIS和ScanNet数据集上优于MM-FSS基线,在几何边界、完整性和纹理区分方面均有提升,证明了模型在多模态少样本3D点云分割中的优越性。
- Conclusion: 通过解耦几何与语义路径并协调其梯度,DA-FSS有效解决了多模态少样本3D点云分割中的可塑性-稳定性困境和语义盲区问题,实现了更好的泛化性能。
[73] Language as Prior, Vision as Calibration: Metric Scale Recovery for Monocular Depth Estimation
Mingxing Zhan,Li Zhang,Beibei Wang,Yingjie Wang,Zenglin Shi
Main category: cs.CV
TL;DR: 提出一种使用语言引导的不确定性感知校准方法,从相对深度基础模型中恢复度量深度,通过冻结骨干网络仅训练轻量级校准头,在多个数据集上提升了度量深度估计的准确性和鲁棒性。
- Motivation: 单目度量深度估计存在两个主要问题:全局尺度不可识别和域偏移敏感性高。相对深度基础模型虽然迁移性好,但无法直接提供度量深度。现有方法使用语言描述提供尺度线索,但语言描述存在噪声且变化多样,需要更鲁棒的方法来恢复度量深度。
- Method: 在冻结相对深度骨干网络和CLIP文本编码器的前提下,仅训练轻量级校准头。使用语言预测不确定性感知的包络,在无约束空间中界定可行的校准参数范围,而不是直接预测点估计。然后利用多尺度冻结视觉特征从包络中选择图像特定的校准。训练时使用逆深度中的闭式最小二乘oracle为每个图像提供监督,学习包络和校准选择。
- Result: 在NYUv2和KITTI数据集上提升了域内准确率,在SUN-RGBD和DDAD数据集上的零样本迁移显示了比纯语言基线更好的鲁棒性。
- Conclusion: 通过语言引导的不确定性感知校准方法,能够有效从相对深度基础模型中恢复度量深度,解决了语言描述噪声问题,在多个数据集上实现了更准确和鲁棒的度量深度估计。
[74] Domain Adaptation of Carotid Ultrasound Images using Generative Adversarial Network
Mohd Usama,Belal Ahmad,Christer Gronlund,Faleh Menawer R Althiyabi
Main category: cs.CV
TL;DR: 提出基于GAN的域适应方法,用于解决超声图像中不同设备/参数导致的纹理和噪声差异问题,通过图像翻译实现域对齐。
- Motivation: 医学影像中,不同设备或参数设置产生的图像存在纹理和混响噪声差异,导致模型跨域性能下降。为每个设备重新训练模型成本高昂,需要一种有效的域适应方法。
- Method: 提出基于GAN的图像翻译模型,将域适应任务转化为图像到图像翻译问题。在保持图像内容不变的前提下,将源域图像的纹理模式转换为目标域样式,并去除混响噪声。
- Result: 在包含三个不同域的颈动脉超声数据集上,模型成功转换纹理模式并去除混响噪声。与CycleGAN对比,提出的模型在直方图相关性(0.960 vs 0.916)和巴氏距离(0.040 vs 0.090)等指标上表现更优。
- Conclusion: 提出的GAN-based域适应方法能有效解决超声图像中的跨域问题,无需为每个设备重新训练模型,在保持图像内容的同时实现了域对齐。
[75] Robust Ship Detection and Tracking Using Modified ViBe and Backwash Cancellation Algorithm
Mohammad Hassan Saghafi,Seyed Majid Noorhosseini,Seyed Abolfazl Seyed Javadein,Hadi Khalili
Main category: cs.CV
TL;DR: 提出一种用于海岸视频序列中船舶检测与跟踪的鲁棒实时方法,包括改进的ViBe运动物体检测算法和尾流消除技术
- Motivation: 海岸场景具有不可预测性和动态特性,需要能够适应这些条件的鲁棒检测方法。传统方法在船舶检测中容易受到海浪、光照变化等因素干扰
- Method: 1. 改进ViBe算法用于运动物体检测,降低船舶丢失概率,快速更新背景,对海浪和光照变化具有鲁棒性;2. 基于船舶几何特性和亮度失真概念,提出新的尾流消除方法
- Result: 实验结果表明,所提出的策略和方法在船舶检测和跟踪方面具有出色性能,实现了实时且精确的处理效果
- Conclusion: 该方法能够有效处理海岸视频序列中的船舶检测与跟踪任务,对动态环境条件具有良好的适应性,满足实时应用需求
[76] Unified Generation and Self-Verification for Vision-Language Models via Advantage Decoupled Preference Optimization
Xinyu Qiu,Heng Jia,Zhengwen Zeng,Shuheng Shen,Changhua Meng,Yi Yang,Linchao Zhu
Main category: cs.CV
TL;DR: ADPO提出统一的强化学习框架,在单个策略中联合学习答案生成和自我验证,通过偏好验证奖励和解耦优化机制,显著提升验证能力和推理效率。
- Motivation: 传统的并行测试时扩展方法需要分别训练生成和验证模型,导致训练和推理成本高昂。需要一种更高效的方法来统一学习生成和验证能力。
- Method: ADPO框架包含两个创新:1)偏好验证奖励,通过正负样本的平均验证分数作为决策阈值,在预测正确性与答案正确性一致时提供正反馈;2)优势解耦优化,为生成和验证分别计算优势,应用token掩码隔离梯度,结合掩码GRPO目标,在保持生成质量的同时校准验证分数。
- Result: ADPO实现了验证AUC提升高达+34.1%,推理时间降低-53.5%,在MathVista/MMMU上准确率分别提升+2.8%/+1.4%,ReasonSeg上cIoU提升+1.9,AndroidControl/GUI Odyssey上步骤成功率分别提升+1.7%/+1.0%。
- Conclusion: ADPO通过统一的强化学习框架有效解决了生成和验证模型的分离训练问题,在保持生成质量的同时显著提升了验证能力和推理效率,为多模态推理任务提供了高效的解决方案。
[77] Higher-Order Domain Generalization in Magnetic Resonance-Based Assessment of Alzheimer's Disease
Zobia Batool,Diala Lteif,Vijaya B. Kolachalama,Huseyin Ozkan,Erchan Aptoula
Main category: cs.CV
TL;DR: 本文提出Extended MixStyle (EM)框架,通过混合高阶特征矩(偏度和峰度)来模拟多样化的分布变化,以解决阿尔茨海默病sMRI诊断中的单域泛化问题,在未见数据集上平均提升2.4个百分点的macro-F1分数。
- Motivation: 阿尔茨海默病诊断中,基于结构磁共振成像的深度学习模型在不同扫描仪、协议和患者群体间存在域偏移问题,导致泛化性能下降。虽然卷积神经网络和变换器通过注意力和融合技术改进了特征提取,但单域泛化在碎片化的AD数据集中仍未得到充分探索却至关重要。
- Method: 提出Extended MixStyle (EM)框架,通过混合高阶特征矩(偏度和峰度)来模拟多样化的分布变化。使用NACC数据集(n=4,647)训练模型区分正常认知、轻度认知障碍和AD,然后在三个未见数据集(总计n=3,126)上进行测试。
- Result: EM在跨域性能上表现优异,相比最先进的单域泛化基准方法,平均提升2.4个百分点的macro-F1分数,显示出在异构真实世界环境中实现不变、可靠的AD检测的潜力。
- Conclusion: Extended MixStyle框架通过混合高阶特征矩有效解决了阿尔茨海默病sMRI诊断中的单域泛化问题,为在异构真实世界环境中实现鲁棒的AD检测提供了有前景的解决方案。
[78] DeepInv: A Novel Self-supervised Learning Approach for Fast and Accurate Diffusion Inversion
Ziyue Zhang,Luxi Lin,Xiaolin Hu,Chao Chang,HuaiXi Wang,Yiyi Zhou,Rongrong Ji
Main category: cs.CV
TL;DR: 提出DeepInv自监督扩散反演方法,通过伪噪声生成和可训练求解器实现高效准确的图像到噪声映射
- Motivation: 扩散反演任务缺乏可行的监督信号,现有方法多为近似解,在性能或效率上存在不足
- Method: 提出自监督目标函数和数据增强策略生成高质量伪噪声,采用迭代多尺度训练机制训练参数化反演求解器
- Result: 在COCO数据集上比EasyInv提升40.435% SSIM,比ReNoise快9887.5%,实现更好的性能和推理速度
- Conclusion: DeepInv是首个提出可训练求解器逐步预测反演噪声的方法,为社区提供新思路
[79] DiffKD-DCIS: Predicting Upgrade of Ductal Carcinoma In Situ with Diffusion Augmentation and Knowledge Distillation
Tao Li,Qing Li,Na Li,Hui Xie
Main category: cs.CV
TL;DR: 提出DiffKD-DCIS框架,结合条件扩散模型和知识蒸馏,用于预测DCIS升级为IDC,在超声数据有限情况下提升模型泛化能力。
- Motivation: 准确预测导管原位癌(DCIS)升级为浸润性导管癌(IDC)对手术规划至关重要,但传统深度学习方法面临超声数据有限和泛化能力差的问题。
- Method: 提出DiffKD-DCIS框架,包含三个阶段:1)条件扩散模型生成高质量超声图像用于数据增强;2)深度教师网络从原始和合成数据中提取鲁棒特征;3)紧凑学生网络通过知识蒸馏从教师网络学习,平衡泛化能力和计算效率。
- Result: 在1,435例多中心数据集上评估,合成图像质量良好。学生网络参数更少、推理更快。在外部测试集上优于部分组合方法,准确率与资深放射科医生相当,优于初级医生,显示出显著临床潜力。
- Conclusion: DiffKD-DCIS框架通过结合条件扩散模型和知识蒸馏,有效解决了超声数据有限的问题,提升了DCIS升级预测的准确性和泛化能力,具有重要临床价值。
[80] A Novel Deep Learning Method for Segmenting the Left Ventricle in Cardiac Cine MRI
Wenhui Chu,Aobo Jin,Hardik A. Gohel
Main category: cs.CV
TL;DR: GBU-Net是一种基于分组批量归一化U-Net框架的新型深度学习网络,专门用于短轴电影MRI扫描中左心室的精确语义分割,在SunnyBrook测试数据集上达到了97%的Dice分数。
- Motivation: 传统CNN分割方法在心脏MRI分割中常常无法捕捉到重要的上下文信息,需要开发一种能够更好理解医学图像上下文的新型分割网络,以提高左心室分割的精度,为手术机器人和医学分析提供更准确的支持。
- Method: 采用基于分组批量归一化的U-Net框架,包含下采样路径用于特征提取和上采样路径用于细节恢复,专门针对医学图像进行了优化。关键改进包括增强上下文理解的技术,这对于心脏MRI分割至关重要。使用45名患者的805个左心室MRI扫描数据集进行评估。
- Result: GBU-Net在电影MRI扫描的左心室分割精度上显著提高,在测试中超越了现有方法,超过了Dice系数和平均垂直距离等标准指标。GBU-Net集成模型在SunnyBrook测试数据集上达到了97%的Dice分数。
- Conclusion: GBU-Net通过其创新的设计提供了增强的精度和上下文理解能力,在左心室分割方面表现出色,特别适用于手术机器人和医学分析应用,能够捕捉传统CNN分割方法常常遗漏的上下文信息。
[81] FastV-RAG: Towards Fast and Fine-Grained Video QA with Retrieval-Augmented Generation
Gen Li,Peiyu Liu
Main category: cs.CV
TL;DR: VideoSpeculateRAG:基于推测解码的高效视觉语言模型检索增强生成框架,通过轻量级草稿模型生成候选答案,再由重量级模型验证优化,在保持准确性的同时将推理速度提升约2倍。
- Motivation: 当前视觉语言模型在整合外部知识方面仍有困难,检索增强生成方法虽然前景广阔,但现有方法效率低下且难以保持高答案质量。需要一种既能高效利用外部知识又能保持准确性的解决方案。
- Method: 提出VideoSpeculateRAG框架,包含两个核心创新:1)推测解码流水线:轻量级草稿模型快速生成多个候选答案,再由准确度更高的重量级模型验证和优化,显著降低推理延迟;2)相似性过滤策略:针对检索知识中实体识别错误的问题,通过简单的相似性过滤改善实体对齐,提升整体答案准确性。
- Result: 实验表明,VideoSpeculateRAG在达到与标准RAG方法相当或更高的准确率的同时,将推理速度提升了约2倍。该框架展示了将推测解码与检索增强推理相结合在复杂知识密集型多模态任务中的潜力。
- Conclusion: VideoSpeculateRAG通过创新的推测解码流水线和实体对齐优化策略,有效解决了视觉语言模型在检索增强生成中的效率和质量问题,为知识密集型多模态任务提供了高效可靠的解决方案。
[82] BARE: Towards Bias-Aware and Reasoning-Enhanced One-Tower Visual Grounding
Hongbing Li,Linhui Xiao,Zihan Zhao,Qi Shen,Yixiang Huang,Bo Xiao,Zhanyu Ma
Main category: cs.CV
TL;DR: BARE是一个用于单塔视觉定位的偏置感知和推理增强框架,通过保留模态特定特征和构建指称语义来解决现有方法中的模态偏置和语义推理不足问题。
- Motivation: 现有单塔视觉定位方法存在两个主要限制:(1)过度纠缠的多模态表示加剧了欺骗性模态偏置,(2)语义推理不足阻碍了指称线索的理解。
- Method: 提出BARE框架,包含三个新模块:(i)语言显著性调制器,(ii)视觉偏置校正,(iii)指称关系增强,共同减轻多模态干扰并增强指称理解。
- Result: 在五个基准测试上的广泛实验表明,BARE不仅实现了最先进的性能,而且相比现有方法具有更优的计算效率。
- Conclusion: BARE通过偏置感知和推理增强机制,有效解决了视觉定位中的模态偏置和语义推理问题,在性能和效率上都表现出色。
[83] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
Yang Zhou,Hao Shao,Letian Wang,Zhuofan Zong,Hongsheng Li,Steven L. Waslander
Main category: cs.CV
TL;DR: 提出了DrivingGen,首个用于生成式驾驶世界模型的综合基准,包含多样化数据集和评估指标,揭示了现有模型在视觉质量与物理真实性之间的权衡。
- Motivation: 当前驾驶世界模型研究缺乏严谨的基准来评估进展和指导优先事项。现有评估存在多个局限:通用视频指标忽略安全关键因素;轨迹合理性很少量化;时间和智能体一致性被忽视;基于自我条件的可控性被忽略;现有数据集未能覆盖真实部署所需的各种条件。
- Method: 提出DrivingGen基准,包含:1)从驾驶数据集和互联网规模视频源中策划的多样化评估数据集,涵盖不同天气、时间、地理区域和复杂操作;2)一套新的评估指标,联合评估视觉真实性、轨迹合理性、时间一致性和可控性。
- Result: 对14个最先进模型的基准测试揭示了明确的权衡:通用模型看起来更好但违反物理规律,而驾驶专用模型能真实捕捉运动但在视觉质量上落后。DrivingGen为可靠、可控、可部署的驾驶世界模型提供了统一评估框架。
- Conclusion: DrivingGen填补了驾驶世界模型评估的关键空白,通过提供全面的基准来促进可靠、可控、可部署的驾驶世界模型发展,支持可扩展的仿真、规划和数据驱动决策。
[84] Improving Flexible Image Tokenizers for Autoregressive Image Generation
Zixuan Fu,Lanqing Guo,Chong Wang,Binbin Song,Ding Liu,Bihan Wen
Main category: cs.CV
TL;DR: ReToK是一种灵活的图像分词器,通过冗余令牌填充和分层语义正则化,解决了传统灵活分词器中信息过度集中在早期令牌的问题,从而提升自回归图像生成效果。
- Motivation: 传统灵活图像分词器使用嵌套dropout(尾部截断)训练,导致图像信息过度集中在早期令牌中,限制了自回归图像生成在较长令牌序列时的有效性。
- Method: 提出ReToK方法:1)冗余令牌填充:更频繁地激活尾部令牌,缓解信息过度集中;2)分层语义正则化:对齐早期令牌解码特征与预训练视觉基础模型,同时向尾部逐渐减少正则化强度以保留低级细节。
- Result: 在ImageNet 256×256数据集上,ReToK相比固定长度和灵活分词器都取得了更优的生成性能。
- Conclusion: ReToK通过冗余令牌填充和分层语义正则化,有效解决了灵活分词器中的信息集中问题,显著提升了自回归图像生成的质量。
[85] FAR-AMTN: Attention Multi-Task Network for Face Attribute Recognition
Gong Gao,Zekai Wang,Xianhui Liu,Weidong Zhao
Main category: cs.CV
TL;DR: FAR-AMTN:一种用于人脸属性识别的注意力多任务网络,通过权重共享组特定注意力模块和跨组特征融合模块,在减少参数量的同时提升多任务学习性能。
- Motivation: 传统多任务网络方法存在两个主要问题:1)随着任务增加,模型参数呈指数级增长;2)高层特征交互受限,难以探索属性间的语义关系,从而影响泛化性能。需要一种既能减少参数复杂度又能促进特征交互的新方法。
- Method: 提出FAR-AMTN网络,包含三个核心组件:1)权重共享组特定注意力(WSGSA)模块,使用共享参数减少复杂度并提升组特征表示;2)跨组特征融合(CGFF)模块,促进不同属性组间的特征交互;3)动态权重策略(DWS),实现任务的同步收敛。
- Result: 在CelebA和LFWA数据集上的实验表明,FAR-AMTN相比现有模型在准确率上表现更优,同时参数量显著减少。
- Conclusion: FAR-AMTN通过创新的注意力机制和特征融合策略,有效解决了传统多任务网络在人脸属性识别中的参数爆炸和特征交互不足问题,实现了更好的泛化性能和更低的计算复杂度。
[86] EscherVerse: An Open World Benchmark and Dataset for Teleo-Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding
Tianjun Gu,Chenghua Gong,Jingyu Gong,Zhizhong Zhang,Yuan Xie,Lizhuang Ma,Xin Tan
Main category: cs.CV
TL;DR: 论文提出Teleo-Spatial Intelligence (TSI)新范式,结合物理动态推理和意图驱动推理,并推出EscherVerse基准套件来评估模型在真实世界动态场景中的空间智能能力。
- Motivation: 当前空间推理研究忽视了人类意图在空间变化中的作用,需要从被动场景描述转向更全面、目的驱动的世界理解。
- Method: 提出TSI范式,包含物理动态推理和意图驱动推理两个支柱;创建EscherVerse基准套件,包括Escher-Bench基准、Escher-35k数据集和Escher系列模型;开发新颖的数据整理流程,基于真实世界视频构建开放世界评估环境。
- Result: EscherVerse是首个系统评估意图驱动推理的基准,能够评估物体恒存性、状态转换和轨迹预测等能力,在动态、以人为中心的场景中推动空间智能研究。
- Conclusion: TSI范式将空间智能从被动描述提升到目的驱动的整体理解,EscherVerse为相关研究提供了基础资源,推动了空间智能研究的发展。
[87] Beyond Patches: Global-aware Autoregressive Model for Multimodal Few-Shot Font Generation
Haonan Cai,Yuxuan Luo,Zhouhui Lian
Main category: cs.CV
TL;DR: GAR-Font:一种用于多模态少样本字体生成的新型自回归框架,通过全局感知分词器、多模态风格编码器和后处理细化管道,在保持结构完整性和风格保真度方面优于现有方法。
- Motivation: 传统少样本字体生成方法存在两个主要问题:1)自回归模型采用补丁级分词,忽略了字体合成所需的全局依赖关系;2)现有方法局限于图像到图像范式,仅依赖视觉参考,忽略了语言在传达字体设计风格意图中的作用。
- Method: 提出GAR-Font框架,包含三个核心组件:1)全局感知分词器,同时捕捉局部结构和全局风格模式;2)多模态风格编码器,通过轻量级语言风格适配器实现灵活的风格控制,无需密集的多模态预训练;3)后处理细化管道,进一步提升结构保真度和风格一致性。
- Result: 大量实验表明,GAR-Font在少样本字体生成任务中优于现有方法,在保持全局风格忠实度方面表现突出,并能通过文本风格指导获得更高质量的生成结果。
- Conclusion: GAR-Font通过结合全局感知建模和多模态风格控制,有效解决了少样本字体生成中的结构完整性和风格保真度问题,为字体设计自动化提供了更强大的工具。
[88] Guiding Token-Sparse Diffusion Models
Felix Krause,Stefan Andreas Baumann,Johannes Schusterbauer,Olga Grebenkova,Ming Gui,Vincent Tao Hu,Björn Ommer
Main category: cs.CV
TL;DR: 提出Sparse Guidance(SG)方法,通过token-level稀疏性改进稀疏训练扩散模型的推理性能,在减少计算量的同时保持高质量输出
- Motivation: 现有稀疏训练扩散模型在推理时性能不足,特别是对Classifier-free Guidance(CFG)响应不佳,导致输出质量下降
- Method: 提出Sparse Guidance(SG)方法,使用token-level稀疏性而非条件dropout来引导扩散模型,更好地保持条件预测的高方差
- Result: 在ImageNet-256基准上达到1.58 FID,计算量减少25%;在匹配基线质量时节省高达58%的FLOPs;2.5B文本到图像模型在构图和人类偏好得分上均有提升
- Conclusion: SG方法有效解决了稀疏训练扩散模型的推理性能问题,在减少计算成本的同时保持甚至提升了生成质量
[89] CAP-IQA: Context-Aware Prompt-Guided CT Image Quality Assessment
Kazi Ramisa Rifa,Jie Zhang,Abdullah Imran
Main category: cs.CV
TL;DR: 提出CAP-IQA框架,结合文本提示与实例级上下文,通过因果去偏解决传统提示方法在CT图像质量评估中的理想化偏差问题,在LDCTIQA挑战中超越现有最佳方法4.24%。
- Motivation: 现有基于提示的CT图像质量评估方法虽然能编码医学先验知识,但往往引入理想化定义的偏差,无法适应真实世界中的噪声、运动伪影和扫描仪变异等退化情况。
- Method: 提出CAP-IQA框架,结合CNN视觉编码器和领域特定文本编码器,集成文本级先验与实例级上下文提示,应用因果去偏分离理想化知识与图像特定退化,通过放射学风格提示和上下文感知融合对齐语义与感知表示。
- Result: 在LDCTIQA挑战基准上获得2.8590的总相关分数(PLCC、SROCC、KROCC之和),超越排行榜第一名(2.7427)4.24%;在91,514张儿科CT图像内部数据集上验证了模型在不同患者群体中的泛化能力。
- Conclusion: CAP-IQA框架通过提示引导融合和简化编码器设计有效增强了特征对齐和可解释性,解决了传统提示方法的偏差问题,在CT图像质量评估中展现出优越性能和泛化能力。
[90] An Empirical Study of Monocular Human Body Measurement Under Weak Calibration
Gaurav Sekar
Main category: cs.CV
TL;DR: 该研究系统评估了三种弱标定单目RGB人体测量方法,分析不同标定假设对测量结果的影响,而非追求最高精度,为消费级设备上的轻量级人体测量系统提供设计参考。
- Motivation: 从单目RGB图像估计人体尺寸存在尺度模糊、视角敏感和缺乏深度信息等挑战,需要研究不同弱标定方法在实际应用中的表现,为消费级设备部署提供指导。
- Method: 系统实证研究三种弱标定单目策略:基于地标的几何方法、姿态驱动的回归方法、物体标定的轮廓方法,在消费级相机半约束条件下评估,分析不同标定假设对测量行为、鲁棒性和失败模式的影响。
- Result: 结果显示标定过程中的用户努力程度与所得周长测量的稳定性之间存在明确权衡关系,揭示了不同方法在不同体型上的表现差异和失败模式。
- Conclusion: 该研究为消费级设备上部署的轻量级单目人体测量系统提供了实证设计参考,强调在实际应用中需要权衡标定复杂性与测量稳定性。
[91] Animated 3DGS Avatars in Diverse Scenes with Consistent Lighting and Shadows
Aymen Mir,Riza Alp Guler,Jian Wang,Gerard Pons-Moll,Bing Zhou
Main category: cs.CV
TL;DR: 提出Deep Gaussian Shadow Maps (DGSM)方法,为3D高斯泼溅(3DGS)表示中的动态角色提供一致的光照和阴影,支持角色与场景或动态物体的交互。
- Motivation: 解决3D高斯泼溅表示中动态角色与场景交互时的光照一致性问题,特别是阴影生成和光照重定向,避免网格化处理。
- Method: 开发DGSM(深度高斯阴影映射),基于经典深度阴影映射思想,利用3DGS沿光线闭式光累积特性进行体积阴影计算;使用八面体图集存储透射率;采用球谐基表示HDRI探针进行快速每高斯辐射传输重光照。
- Result: 在AvatarX、ActorsHQ角色与ScanNet++、DL3DV、SuperSplat场景合成中,实现了单/多角色设置下的连贯阴影和重光照效果,支持与插入物体的交互。
- Conclusion: DGSM和SH重光照方法完全在体积3DGS表示中运行,无需网格化即可实现一致的阴影和光照效果,为3DGS表示中的动态角色交互提供了有效解决方案。
[92] LabelAny3D: Label Any Object 3D in the Wild
Jin Yao,Radowan Mahmud Redoy,Sebastian Elbaum,Matthew B. Dwyer,Zezhou Cheng
Main category: cs.CV
TL;DR: LabelAny3D:一个通过分析-合成框架从2D图像重建3D场景以生成高质量3D边界框标注的系统,并基于此构建了COCO3D开放词汇单目3D检测基准。
- Motivation: 现有单目3D检测模型在野外图像上表现不佳,主要原因是缺乏3D野外数据集和3D标注的挑战性。需要一种能够高效生成高质量3D标注的方法来扩展3D识别在真实开放世界场景中的应用。
- Method: 提出LabelAny3D分析-合成框架,从2D图像重建整体3D场景,从而高效生成高质量3D边界框标注。基于此流程构建了COCO3D基准,该基准源自MS-COCO数据集,涵盖了现有3D数据集中缺少的广泛对象类别。
- Result: 实验表明,LabelAny3D生成的标注在多个基准测试中提升了单目3D检测性能,在质量上优于先前的自动标注方法。COCO3D基准为开放词汇单目3D检测提供了新的评估标准。
- Conclusion: 基础模型驱动的标注方法在扩展真实开放世界设置中的3D识别方面具有巨大潜力,LabelAny3D框架和COCO3D基准为解决野外3D检测问题提供了有效解决方案。
[93] Trustworthy Data-Driven Wildfire Risk Prediction and Understanding in Western Canada
Zhengsen Xu,Lanying Wang,Sibo Cheng,Xue Rui,Kyle Gao,Yimin Zhu,Mabel Heffring,Zack Dewis,Saeid Taleghanidoozdoozan,Megan Greenwood,Motasem Alkayid,Quinn Ledingham,Hongjie He,Jonathan Li,Lincoln Linlin Xu
Main category: cs.CV
TL;DR: 提出一个可信赖的野火风险预测框架,通过长序列多尺度时间建模整合异质驱动因素,同时量化预测不确定性并支持过程级解释,在加拿大西部2023-2024火灾季表现优异。
- Motivation: 加拿大西部野火活动加剧导致重大社会经济和环境损失,但准确预测面临挑战:点火和传播的固有随机性,以及燃料条件、气象、气候变率、地形和人类活动之间的非线性相互作用,限制了纯数据驱动模型的可靠性和可解释性。
- Method: 提出基于长序列多尺度时间建模的可信赖数据驱动野火风险预测框架,整合异质驱动因素,同时显式量化预测不确定性并支持过程级解释。使用SHAP进行机制解释,分析温度相关和湿度相关驱动因素的作用。
- Result: 在加拿大西部2023和2024年创纪录火灾季的评估中,该模型优于现有时间序列方法,F1分数达0.90,PR-AUC达0.98,计算成本低。不确定性分析揭示了预测置信度的结构化空间和季节模式,SHAP解释显示温度相关驱动因素在两年中主导野火风险,而湿度相关约束在2024年对空间和土地覆盖特定对比的影响比2023年更显著。
- Conclusion: 该框架为野火风险预测提供了可靠、可解释的解决方案,通过整合多尺度驱动因素和量化不确定性,增强了预测的信任度和实用性,有助于理解野火控制机制和制定有效的风险管理策略。
[94] Evaluating Deep Learning-Based Face Recognition for Infants and Toddlers: Impact of Age Across Developmental Stages
Afzal Hossain,Mst Rumana Sumi,Stephanie Schuckers
Main category: cs.CV
TL;DR: 该研究评估了四种深度学习人脸识别模型在婴幼儿纵向数据集上的表现,发现早期年龄组识别准确率较低(0-6个月仅30.7% TAR),随年龄增长显著提升(2.5-3岁达64.7% TAR),并应用DANN方法减少时间漂移,提升识别性能。
- Motivation: 婴幼儿人脸识别面临独特挑战:面部形态快速变化、类间相似度高、数据集有限。研究旨在评估现有深度学习模型在婴幼儿纵向数据上的表现,为智慧城市中儿童医疗、安全和数字身份等应用提供可靠生物识别系统。
- Method: 使用新开发的24个月纵向数据集(7个采集时段,0-3岁儿童),评估FaceNet、ArcFace、MagFace、CosFace四种深度学习模型。分析不同发育阶段的识别准确率,评估不同时间间隔的验证性能,并应用域对抗神经网络(DANN)减少特征漂移。
- Result: 0-6个月婴儿识别准确率很低(TAR仅30.7%,FAR 0.1%),随年龄增长显著提升,2.5-3岁组达64.7% TAR。时间间隔越短识别准确率越高。DANN方法减少特征漂移,使TAR提升超过12%,获得更稳定、可泛化的特征。
- Conclusion: 婴幼儿人脸识别在早期年龄组面临重大挑战,但性能随年龄增长显著改善。DANN能有效减少时间漂移,提升识别稳定性。研究强调了开发能处理时间变化的隐私保护生物认证系统的重要性,特别是在需要儿童验证的智慧城市应用中。
[95] FALCON: Few-Shot Adversarial Learning for Cross-Domain Medical Image Segmentation
Abdur R. Fayjie,Pankhi Kashyap,Jutika Borah,Patrick Vandewalle
Main category: cs.CV
TL;DR: FALCON是一个跨域少样本分割框架,通过将3D医学体积处理为2D切片,实现高精度分割,显著减少标注数据需求和计算开销。
- Motivation: 3D医学体积的精确分割对诊断、手术规划和疾病监测至关重要,但面临3D标注稀缺、患者特异性变异、数据隐私和计算开销大等挑战。
- Method: FALCON框架先在自然图像上进行元训练学习通用分割先验,然后通过对抗微调和边界感知学习迁移到医学领域,使用任务感知推理动态适应患者特异性变异。
- Result: 在四个基准测试中,FALCON始终获得最低的Hausdorff距离分数(边界精度最优),同时保持与最先进模型相当的Dice相似系数,且使用更少的标注数据、无需数据增强、计算开销显著降低。
- Conclusion: FALCON通过跨域少样本学习方法,有效解决了医学图像分割中的标注稀缺和计算开销问题,在保持高分割精度的同时显著提升了临床可行性。
[96] Mitigating Longitudinal Performance Degradation in Child Face Recognition Using Synthetic Data
Afzal Hossain,Stephanie Schuckers
Main category: cs.CV
TL;DR: 使用合成人脸数据作为纵向稳定器,通过改进儿童人脸识别模型的时间鲁棒性来解决儿童面部快速非线性生长导致的模板漂移问题。
- Motivation: 儿童纵向人脸识别面临挑战,因为面部快速非线性生长导致模板漂移和随时间增加的验证错误。需要提高儿童人脸识别模型的时间鲁棒性。
- Method: 在YFA数据集上采用身份分离协议,评估三种设置:1) 预训练MagFace嵌入;2) 仅使用真实训练人脸微调MagFace;3) 使用真实和合成生成训练人脸组合微调MagFace。合成数据使用StyleGAN2 ADA生成,仅包含在训练身份中,并应用后生成过滤步骤减轻身份泄漏和去除伪影样本。
- Result: 实验结果显示,在6到36个月的注册验证间隔中,合成增强微调相对于预训练基线和仅使用真实数据微调显著降低了错误率。
- Conclusion: 合成增强可以显著改善儿童人脸识别中的身份持久性,为合成数据增强在儿科人脸识别中的应用提供了风险评估。
[97] Learnability-Driven Submodular Optimization for Active Roadside 3D Detection
Ruiyu Mao,Baoming Zhang,Nicholas Ruozzi,Yunhui Guo
Main category: cs.CV
TL;DR: LH3D:一种基于可学习性的主动学习框架,用于路边单目3D目标检测,通过选择既信息丰富又可可靠标注的场景,抑制固有模糊样本,在仅使用25%标注预算的情况下达到接近全数据性能。
- Motivation: 现实部署中通常只能标注路边单目数据(缺乏车辆端数据),但许多路边场景存在距离远、模糊或被遮挡的目标,其3D属性从单视角看具有固有模糊性,导致标注困难且成本高昂,需要一种能减少在固有模糊样本上浪费标注努力的方法。
- Method: 提出可学习性驱动的主动学习框架LH3D,通过评估场景的可学习性(信息丰富性和可靠标注性)来选择标注样本,抑制固有模糊样本同时确保覆盖范围,用于路边单目3D目标检测任务。
- Result: 在DAIR-V2X-I数据集上,仅使用25%标注预算,LH3D对车辆、行人和骑行者分别达到全数据性能的86.06%、67.32%和78.67%,显著优于基于不确定性的基线方法。
- Conclusion: 对于路边3D感知任务,可学习性而非不确定性才是关键因素;LH3D框架能有效减少标注成本同时获得高性能模型,为实际部署提供了实用解决方案。
[98] Real-Time Lane Detection via Efficient Feature Alignment and Covariance Optimization for Low-Power Embedded Systems
Yian Liu,Xiong Wang,Ping Xu,Lei Zhu,Ming Yan,Linyun Xue
Main category: cs.CV
TL;DR: 提出Covariance Distribution Optimization (CDO)模块,通过优化车道特征分布与真实标签的对齐,在嵌入式系统中实现高效实时车道检测,无需增加计算复杂度。
- Motivation: 嵌入式系统中的实时车道检测面临挑战:RGB图像中视觉信号稀疏且微妙,计算资源和功耗有限。现有深度学习方法(分割、锚点、曲线)缺乏针对低功耗嵌入式环境的通用优化技术。
- Method: 提出创新的Covariance Distribution Optimization (CDO)模块,专门为高效实时应用设计。该模块通过使车道特征分布与真实标签对齐来提升检测精度,不增加计算复杂度,易于集成到现有系统且无需结构修改。
- Result: 在CULane、TuSimple和LLAMAS三个主要数据集上测试了六种不同模型(包括两种实时优化模型和四种SOTA模型),准确率提升范围0.01%到1.5%。CDO模块利用现有模型参数促进持续训练。
- Conclusion: CDO模块为嵌入式系统提供了性能、能效和操作灵活性方面的显著优势,是一种通用且高效的优化方案,适用于实时车道检测任务。
[99] FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing
Xijie Huang,Chengming Xu,Donghao Luo,Xiaobin Hu,Peng Tang,Xu Peng,Jiangning Zhang,Chengjie Wang,Yanwei Fu
Main category: cs.CV
TL;DR: 提出FFP-300K大规模高质量视频编辑数据集和无需运行时引导的FFP框架,通过AST-RoPE位置编码和自蒸馏策略解决外观保持与运动保留的平衡问题。
- Motivation: 现有FFP方法依赖繁琐的运行时引导,根本原因是训练数据集质量不足(视频短、分辨率低、任务多样性不够),无法学习鲁棒的时间先验。
- Method: 1) 构建FFP-300K数据集:30万对720p、81帧的高保真视频对,通过双轨管道支持多样局部和全局编辑;2) 提出无需引导的FFP框架:采用自适应时空RoPE位置编码动态重映射以解耦外观和运动参考;3) 自蒸馏策略:使用身份传播任务作为正则化器确保长期时间稳定性。
- Result: 在EditVerseBench基准测试中显著优于现有学术和商业模型,PickScore提升约0.2分,VLM分数提升约0.3分。
- Conclusion: 通过高质量数据集和创新的架构设计,实现了真正无需引导的FFP,有效平衡了第一帧外观保持和源视频运动保留的冲突,提升了视频编辑的长期时间稳定性。
[100] Point-SRA: Self-Representation Alignment for 3D Representation Learning
Lintong Wei,Jian Lu,Haozhe Cheng,Jihua Zhu,Kaibing Zhang
Main category: cs.CV
TL;DR: Point-SRA是一种通过自蒸馏和概率建模对齐表示的3D表示学习方法,通过多掩码率MAE和MeanFlow Transformer实现多样化的概率重建,在多个3D任务上显著优于现有方法。
- Motivation: 现有MAE方法使用固定掩码率,忽略了多层次表示相关性和内在几何结构,且基于点对点重建假设与点云多样性相冲突。
- Method: 提出Point-SRA方法:1) 为MAE分配不同掩码率以捕获互补几何和语义信息;2) MeanFlow Transformer利用跨模态条件嵌入实现多样化概率重建;3) 在MAE和MFT层面提出双重自表示对齐机制;4) 设计流条件微调架构。
- Result: 在ScanObjectNN上比Point-MAE提升5.37%;颅内动脉瘤分割任务中,动脉平均IoU达96.07%,动脉瘤达86.87%;3D目标检测中AP@50达47.3%,超越MaskPoint 5.12%。
- Conclusion: Point-SRA通过多掩码率MAE和概率建模有效解决了现有方法的局限性,在多个3D任务上取得了显著性能提升,证明了其在3D表示学习中的有效性。
[101] MANGO:Natural Multi-speaker 3D Talking Head Generation via 2D-Lifted Enhancement
Lei Zhu,Lijian Lin,Ye Zhu,Jiahao Wu,Xuehan Hou,Yu Li,Yunfei Liu,Jie Chen
Main category: cs.CV
TL;DR: MANGO:一种两阶段框架,通过纯图像级监督实现高质量的双人3D对话头部生成,解决了现有方法在自然听-说交互和伪3D标签噪声方面的问题。
- Motivation: 当前音频驱动的3D头部生成方法主要关注单说话人场景,缺乏自然的双向听-说交互。现有3D对话虚拟人方法依赖误差较大的伪3D标签,无法捕捉细粒度面部动态,难以实现流畅的说话和倾听状态转换。
- Method: 提出两阶段框架MANGO:第一阶段使用基于扩散的Transformer和双音频交互模块从多说话人音频建模自然3D运动;第二阶段使用快速3D高斯渲染器生成高保真图像,通过交替训练为3D运动提供2D级光度监督。同时构建了MANGO-Dialog数据集,包含500+身份、50+小时的2D-3D对齐对话数据。
- Result: 实验表明,该方法在建模双人3D对话运动方面实现了卓越的准确性和真实感,显著提升了音频驱动说话头部的保真度和可控性。
- Conclusion: MANGO框架通过纯图像级监督有效解决了伪3D标签噪声问题,实现了更符合真实世界对话行为的3D头部生成,为自然双向听-说交互提供了有效解决方案。
[102] CTIS-QA: Clinical Template-Informed Slide-level Question Answering for Pathology
Hao Lu,Ziniu Qian,Yifu Li,Yang Zhou,Bingzheng Wei,Yan Xu
Main category: cs.CV
TL;DR: 提出基于临床诊断模板的病理信息结构化收集流程,构建CTIS-Align数据集和CTIS-Bench基准,开发CTIS-QA模型在WSI视觉问答任务中表现优异
- Motivation: 解决病理报告中信息提取不标准化、缺乏高质量视觉语言对齐数据集的问题,建立更符合临床诊断流程的WSI视觉问答基准
- Method: 设计临床病理报告模板(CPRT)标准化提取病理特征,构建CTIS-Align数据集和CTIS-Bench基准,提出双流架构CTIS-QA模型:全局上下文流和局部区域感知流
- Result: 在TCGA-BRCA上验证,CTIS-QA在WSI-VQA、CTIS-Bench和诊断任务中全面超越现有SOTA模型,代码和数据已开源
- Conclusion: 提出的临床诊断模板驱动方法能有效结构化病理信息,CTIS-QA模型通过模拟病理学家诊断流程,在WSI视觉问答任务中表现出色
[103] Subimage Overlap Prediction: Task-Aligned Self-Supervised Pretraining For Semantic Segmentation In Remote Sensing Imagery
Lakshay Sharma,Alex Marin
Main category: cs.CV
TL;DR: 提出Subimage Overlap Prediction自监督预训练任务,用于遥感图像语义分割,显著减少预训练数据需求,加速收敛并提升下游任务性能
- Motivation: 当前自监督学习方法依赖大量预训练数据,但遥感图像标注成本高、数据获取困难,需要开发能在少量数据上有效预训练的方法
- Method: 提出子图像重叠预测任务:从原图像提取子图像,训练模型预测该子图像在原图像中的位置语义掩码,通过这种自监督方式学习图像的空间结构和语义信息
- Result: 相比其他自监督方法,本方法使用更少预训练数据实现更快收敛和同等或更好的mIoU性能;在标注数据减少时优势更明显;在多种架构和下游数据集上验证有效
- Conclusion: Subimage Overlap Prediction是一种高效的自监督预训练方法,特别适合遥感图像语义分割,能显著减少数据需求并提升模型性能,为数据稀缺场景提供实用解决方案
[104] DDNet: A Dual-Stream Graph Learning and Disentanglement Framework for Temporal Forgery Localization
Boyang Zhao,Xin Liao,Jiaxin Chen,Xiaoshuai Wu,Yufeng Wu
Main category: cs.CV
TL;DR: DDNet:基于双流图学习和解缠的时序伪造定位框架,通过协调局部伪影和语义内容流,结合痕迹解缠与适应以及跨层级特征嵌入,显著提升视频伪造定位精度和跨域鲁棒性。
- Motivation: AIGC技术快速发展使得仅篡改视频小片段即可误导观众,而视频级检测不准确且缺乏说服力。现有方法受限于局部视角,难以捕捉全局异常,因此需要更精确的时序伪造定位方法。
- Method: 提出DDNet双流图学习框架:1) 时序距离流捕捉局部伪影;2) 语义内容流建立长程连接,防止全局线索被局部平滑淹没。引入痕迹解缠与适应(TDA)分离通用伪造指纹,以及跨层级特征嵌入(CLFE)通过层次特征深度融合构建鲁棒特征基础。
- Result: 在ForgeryNet和TVIL基准测试中,DDNet在AP@0.95指标上比现有最优方法提升约9%,在跨域鲁棒性方面有显著改进。
- Conclusion: DDNet通过双流图学习和解缠机制有效解决了时序伪造定位问题,在精度和跨域鲁棒性方面均优于现有方法,为视频伪造检测提供了更可靠的解决方案。
[105] VerLM: Explaining Face Verification Using Natural Language
Syed Abdul Hannan,Hazim Bukhari,Thomas Cantalapiedra,Eman Ansar,Massa Baali,Rita Singh,Bhiksha Raj
Main category: cs.CV
TL;DR: 提出一种创新的视觉语言模型用于人脸验证,不仅能准确判断两张人脸图像是否属于同一人,还能解释其决策依据。模型采用两种互补的解释风格训练,通过跨模态迁移提升准确性和可解释性。
- Motivation: 当前人脸验证系统虽然取得了显著进展,但通常缺乏决策过程的透明度。需要开发既能准确验证又能解释决策依据的系统,以提高人脸验证系统的透明性、可靠性和可解释性。
- Method: 提出创新的视觉语言模型,采用两种互补的解释风格训练:1) 简洁解释,总结影响决策的关键因素;2) 详细解释,具体描述图像间的差异。通过将原本为音频区分设计的先进建模方法适应并增强为视觉输入,实现跨模态迁移。
- Result: 模型表现出卓越性能,超越了基线方法和现有模型。跨模态迁移显著提升了模型的准确性和可解释性,展示了视觉语言模型在人脸验证中的巨大潜力。
- Conclusion: 该研究为开发更透明、可靠和可解释的人脸验证系统做出了贡献,证明了视觉语言模型在人脸验证场景中的巨大潜力,推动了可解释人工智能在人脸验证领域的发展。
[106] Causality-Aware Temporal Projection for Video Understanding in Video-LLMs
Zhengjian Kang,Qi Chen,Rui Liu,Kangtong Mo,Xingyu Zhang,Xiaoyu Deng,Ye Zhang
Main category: cs.CV
TL;DR: V-CORE:一种参数高效的视频理解框架,通过可学习的空间聚合和因果感知时间投影器,显式约束时间顺序,提升视频大语言模型在时序和因果推理上的表现。
- Motivation: 现有视频大语言模型在需要一致时间顺序和因果连贯性的视频理解任务上表现不佳,主要原因是双向投影器模糊了时间顺序,允许后帧影响前帧表示,缺乏对视频推理方向性的显式架构约束。
- Method: 提出V-CORE框架,包含两个核心组件:1)可学习空间聚合(LSA),自适应选择显著空间标记以减少冗余;2)因果感知时间投影器(CATP),通过块因果注意力和终端动态摘要标记作为因果汇,强制结构化单向信息流。
- Result: 在NExT-QA基准测试中达到61.2%准确率,在MSVD-QA、MSRVTT-QA和TGIF-QA上保持竞争力,在时序和因果推理子类别上分别提升3.5%和5.2%,验证了显式时间顺序约束的重要性。
- Conclusion: V-CORE通过引入显式时间顺序约束,有效解决了视频大语言模型中时间顺序模糊的问题,在参数高效的前提下显著提升了时序和因果推理能力,为视频理解提供了新思路。
[107] Adaptive Hybrid Optimizer based Framework for Lumpy Skin Disease Identification
Ubaidullah,Muhammad Abid Hussain,Mohsin Raza Jafri,Rozi Khan,Moid Sandhu,Abd Ullah Khan,Hyundong Shin
Main category: cs.CV
TL;DR: 提出LUMPNet混合深度学习模型,使用YOLOv11检测牛皮肤结节,EfficientNet分类,结合新型自适应混合优化器,实现99%的LSD检测准确率。
- Motivation: Lumpy Skin Disease (LSD)是一种传染性病毒性疾病,严重影响牲畜健康,威胁全球经济和粮食安全。由于其快速传播特性,早期精确识别对于预防疫情爆发和及时干预至关重要。
- Method: 提出LUMPNet混合深度学习模型:1) 使用YOLOv11检测和定位牛图像中的LSD皮肤结节和病变;2) 利用基于EfficientNet的CNN分类器对定位后的图像进行LSD感染或健康分类;3) 提出新型自适应混合优化器来稳定和加速YOLOv11与EfficientNet混合模型的训练。
- Result: 在公开数据集上评估,LUMPNet达到99%的LSD检测训练准确率和98%的验证准确率,优于现有方案。与使用AdamW优化器的优化EfficientNet-B0模型相比,LUMPNet表现更优。
- Conclusion: LUMPNet通过混合深度学习方法有效实现了LSD的早期检测,高准确率表明其在预防LSD疫情爆发方面具有实际应用价值,有助于保障畜牧业健康和粮食安全。
[108] Robust Egocentric Visual Attention Prediction Through Language-guided Scene Context-aware Learning
Sungjune Park,Hongda Mao,Qingshuang Chen,Yong Man Ro,Yelin Kim
Main category: cs.CV
TL;DR: 提出语言引导的场景上下文感知学习框架,用于预测第一人称视觉注意力,通过语言描述引导上下文感知,并设计训练目标聚焦目标区域、抑制无关区域,在Ego4D和AEA数据集上达到SOTA性能。
- Motivation: 随着第一人称视频分析需求增长,预测相机佩戴者的视觉注意力变得重要,但由于动态第一人称场景的复杂性和模糊性,这仍然具有挑战性。研究表明场景上下文信息在调节人类注意力中起关键作用。
- Method: 提出语言引导的场景上下文感知学习框架:1) 设计上下文感知器,基于语言场景描述总结第一人称视频,生成上下文感知的视频表示;2) 引入两个训练目标:聚焦目标兴趣区域,抑制不太可能吸引第一人称注意力的无关区域。
- Result: 在Ego4D和Aria Everyday Activities (AEA)数据集上进行广泛实验,证明了方法的有效性,实现了最先进的性能,并在多样化动态第一人称场景中增强了鲁棒性。
- Conclusion: 提出的语言引导场景上下文感知学习框架能够有效预测第一人称视觉注意力,通过利用语言描述引导上下文感知和设计适当的训练目标,在复杂动态场景中表现出色。
[109] RSwinV2-MD: An Enhanced Residual SwinV2 Transformer for Monkeypox Detection from Skin Images
Rashid Iqbal,Saddam Hussain Khan
Main category: cs.CV
TL;DR: 提出了一种名为RSwinV2的深度学习模型,用于Mpox(猴痘)诊断,通过定制化的残差SwinTransformerV2架构增强皮肤病变分类能力,在Kaggle数据集上达到96.21%准确率和95.62% F1分数。
- Motivation: 需要开发更有效的计算机辅助工具来诊断Mpox(猴痘),传统CNN模型和标准SwinTransformer在皮肤病变分类中存在局限性,特别是在处理Mpox、水痘、麻疹和牛痘等相似病变的区分问题上。
- Method: 提出定制化的残差SwinTransformerV2(RSwinV2)架构:1)基于输入维度、嵌入结构和输出目标定制分层Transformer结构;2)将输入图像分割为不重叠的补丁,使用移位窗口和注意力机制处理;3)引入逆残差块(IRB)处理梯度消失问题;4)结合全局和局部模式识别能力。
- Result: 在Kaggle公共数据集上,RSwinV2达到96.21%的准确率和95.62%的F1分数,优于标准CNN模型和SwinTransformer,能够有效区分Mpox、水痘、麻疹和牛痘。
- Conclusion: RSwinV2证明了作为Mpox病变观察解释的计算机辅助工具的价值,通过结合Transformer的全局链接能力和CNN的局部特征提取优势,显著提升了皮肤病变分类性能。
[110] ESGaussianFace: Emotional and Stylized Audio-Driven Facial Animation via 3D Gaussian Splatting
Chuhang Ma,Shuai Tan,Ye Pan,Jiaolong Yang,Xin Tong
Main category: cs.CV
TL;DR: ESGaussianFace:基于3D高斯溅射的情感化风格化音频驱动面部动画框架,通过情感-音频引导的空间注意力机制和3D高斯形变预测器,实现高效高质量的情感风格化面部视频生成。
- Motivation: 当前音频驱动面部动画研究主要关注中性情感的视频生成,虽然已有研究涉及情感音频驱动,但如何高效生成同时包含情感表达和风格特征的高质量说话头部视频仍然是一个重大挑战。
- Method: 1. 利用3D高斯溅射技术重建3D场景并渲染视频;2. 提出情感-音频引导的空间注意力方法,有效整合情感特征与音频内容特征;3. 引入两个3D高斯形变预测器,通过情感和风格特征实现3D高斯点的情感化和风格化形变;4. 采用多阶段训练策略,分步学习角色的唇部运动、情感变化和风格特征。
- Result: 实验结果表明,该方法在唇部运动准确性、表情变化和风格特征表现力方面优于现有最先进技术,生成结果具有高效率、高质量和3D一致性。
- Conclusion: ESGaussianFace框架成功解决了情感化风格化音频驱动面部动画的挑战,通过创新的3D高斯溅射技术、情感-音频注意力机制和多阶段训练策略,实现了高效高质量的情感风格化面部视频生成。
[111] GCR: Geometry-Consistent Routing for Task-Agnostic Continual Anomaly Detection
Joongwon Chae,Lihui Luo,Yang Liu,Runming Wang,Dongmei Yu,Zeming Liang,Xi Yuan,Dayan Zhang,Zhenglin Chen,Peiwu Qin,Ilmoon Chae
Main category: cs.CV
TL;DR: 提出GCR框架,通过几何一致性路由解决任务无关持续异常检测中的专家选择问题,避免跨头分数可比性问题
- Motivation: 工业检测中基于特征的异常检测方法在持续类别扩展的任务无关场景下,现有方法依赖跨头异常分数比较的路由规则不可靠,因为不同类别的分数分布存在尺度和尾部行为差异
- Method: GCR框架:在共享冻结的patch-embedding空间中,通过最小化到类别特定原型库的累积最近原型距离来路由测试图像,然后在路由到的专家内部使用标准的基于原型的评分规则计算异常图
- Result: 在MVTec AD和VisA数据集上的实验表明,几何一致性路由显著提高了路由稳定性,缓解了持续性能崩溃,实现了接近零遗忘,同时保持了竞争力的检测和定位性能
- Conclusion: 许多先前归因于表示遗忘的失败实际上可以解释为跨头路由中决策规则的不稳定性,GCR通过分离跨头决策和头内异常评分解决了这一问题
[112] RRNet: Configurable Real-Time Video Enhancement with Arbitrary Local Lighting Variations
Wenlong Yang,Canran Jin,Weihang Yuan,Chao Wang,Lifeng Sun
Main category: cs.CV
TL;DR: RRNet是一个轻量级可配置的实时视频增强框架,通过虚拟光源参数估计和深度感知渲染实现局部重照明,在视觉质量和效率之间达到最佳平衡
- Motivation: 现有实时视频增强方法在速度和有效曝光控制之间难以平衡,特别是在不均匀光照条件下。随着直播应用中对实时视频增强需求的增长,需要一种既能保持高质量又能高效运行的方法
- Method: 提出RRNet框架:1) 估计少量虚拟光源的参数;2) 通过深度感知渲染模块实现局部重照明,无需像素对齐的训练数据;3) 采用对象感知的公式化方法保持面部身份特征;4) 使用精简编码器和轻量级预测头实现实时高分辨率性能;5) 提出基于生成式AI的数据集创建管道,低成本合成多样化光照条件
- Result: RRNet在低光增强、局部光照调整和眩光去除方面持续优于现有方法,实现了视觉质量和效率之间的最先进平衡,支持实时高分辨率性能
- Conclusion: RRNet凭借其可解释的光照控制和高效架构,非常适合视频会议、AR肖像增强和移动摄影等实际应用,为实时视频增强提供了有效的解决方案
[113] Entity-Guided Multi-Task Learning for Infrared and Visible Image Fusion
Wenyu Shao,Hongbo Liu,Yunchuan Ma,Ruili Wang
Main category: cs.CV
TL;DR: 提出EGMT方法,通过实体引导的多任务学习进行红外与可见光图像融合,利用实体级文本信息消除语义噪声,提升融合图像质量与语义密度。
- Motivation: 现有基于文本的红外与可见光图像融合方法通常依赖句子级文本信息,存在语义噪声且未能充分利用文本的深层语义价值,需要更精细的文本引导机制。
- Method: EGMT包含三个创新组件:1) 从大视觉语言模型生成的图像描述中提取实体级文本信息;2) 构建并行多任务学习架构,将图像融合与多标签分类任务结合;3) 开发实体引导的跨模态交互模块,促进视觉与实体级文本特征的细粒度交互。
- Result: 在TNO、RoadScene、M3FD和MSRS四个公开数据集上的实验表明,EGMT在保留显著目标、纹理细节和语义一致性方面优于现有最先进方法。
- Conclusion: EGMT通过实体引导的多任务学习框架有效解决了现有文本驱动图像融合方法的局限性,显著提升了融合图像的质量和语义密度,并发布了实体标注的数据集以促进该框架的广泛应用。
[114] CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving
Shuhang Chen,Yunqiu Xu,Junjie Xie,Aojun Lu,Tao Feng,Zeying Huang,Ning Zhang,Yi Sun,Yi Yang,Hangjie Yuan
Main category: cs.CV
TL;DR: CogFlow提出认知启发的三阶段框架(感知→内化→推理)来解决视觉数学问题中视觉信息提取与推理脱节的问题,通过协同视觉奖励、知识内化奖励和视觉门控策略优化来增强视觉感知与推理的忠实整合。
- Motivation: 现有多模态大语言模型在视觉数学问题解决上仍有困难,虽然已有工作认识到视觉感知是瓶颈,但仅关注改进视觉输入提取和解释,忽略了提取的视觉线索是否被忠实整合并正确用于后续推理这一关键问题。
- Method: 提出CogFlow三阶段框架:1)感知阶段:使用协同视觉奖励在参数和语义空间中提升符号和图表的信息提取能力;2)内化阶段:引入知识内化奖励模型,桥接感知与推理;3)推理阶段:设计视觉门控策略优化算法,确保推理基于视觉知识,防止模型走捷径产生看似连贯但视觉未扎根的推理链。同时贡献了包含12万高质量感知-推理对齐标注的MathCog数据集。
- Result: 在常用视觉数学推理基准测试上的综合实验和分析验证了CogFlow的优越性。
- Conclusion: 通过模拟人类推理的层次流程(感知→内化→推理)并全面增强各阶段,CogFlow有效解决了视觉数学问题中视觉信息与推理脱节的问题,显著提升了模型性能。
[115] Agentic AI in Remote Sensing: Foundations, Taxonomy, and Emerging Systems
Niloufar Alipour Talemi,Julia Boone,Fatemeh Afghah
Main category: cs.CV
TL;DR: 该论文首次全面综述了遥感领域中的智能体AI,提出了统一的分类体系,分析了架构基础,并展望了从静态深度学习模型向自主智能体AI范式转变的未来发展方向。
- Motivation: 地球观测分析范式正在从静态深度学习模型转向自主智能体AI。尽管现有的视觉基础模型和多模态大语言模型在表示学习方面取得了进展,但它们通常缺乏复杂地理空间工作流所需的序列规划和主动工具编排能力。
- Method: 提出了遥感领域智能体AI的统一分类体系,区分单智能体协同系统和多智能体系统。分析了规划机制、检索增强生成和记忆结构等架构基础,并回顾了从像素级精度评估转向轨迹感知推理正确性的新兴基准测试。
- Result: 这是遥感领域首个全面的智能体AI综述,系统梳理了该领域的发展现状,提出了统一的分类框架,并识别了当前在基础、安全和编排方面的局限性。
- Conclusion: 通过批判性地分析基础、安全和编排方面的局限性,本文为开发稳健、自主的地理空间智能系统制定了战略路线图,推动了地球观测分析范式向自主智能体AI的转变。
[116] Forget Less by Learning from Parents Through Hierarchical Relationships
Arjun Ramesh Kaushik,Naresh Kumar Devulapally,Vishnu Suresh Lokhande,Nalini K. Ratha,Venu Govindaraju
Main category: cs.CV
TL;DR: FLLP框架通过在双曲空间引入父子概念学习机制,有效缓解定制扩散模型在连续学习中的灾难性遗忘问题。
- Motivation: 现有定制扩散模型在顺序学习新概念时容易发生灾难性遗忘,现有方法主要关注最小化概念间干扰,但忽略了概念间潜在的积极交互作用。
- Method: 提出FLLP框架,在洛伦兹流形的双曲空间中引入父子概念学习机制,将先前学习的概念作为指导来适应新概念,利用双曲空间自然适合建模树状层次结构的特性。
- Result: 在三个公共数据集和一个合成基准上验证了FLLP,在鲁棒性和泛化能力方面均显示出持续改进。
- Conclusion: FLLP通过双曲空间中的父子概念学习机制,不仅保留了先验知识,还支持新概念的持续整合,有效缓解了定制扩散模型的灾难性遗忘问题。
[117] Nodule-DETR: A Novel DETR Architecture with Frequency-Channel Attention for Ultrasound Thyroid Nodule Detection
Jingjing Wang,Qianglin Liu,Zhuo Xiao,Xinning Yao,Bo Liu,Lu Li,Lijuan Niu,Fugen Zhou
Main category: cs.CV
TL;DR: 提出Nodule-DETR,一种基于检测变换器的新型甲状腺结节检测架构,通过多光谱频域通道注意力、分层特征融合和多尺度可变形注意力模块,显著提升超声图像中甲状腺结节的检测精度。
- Motivation: 甲状腺癌是最常见的内分泌恶性肿瘤,发病率持续上升。超声是检测甲状腺结节的首选成像方式,但其诊断准确性常受图像对比度低、结节边界模糊等挑战限制。
- Method: 提出Nodule-DETR检测变换器架构,包含三个关键创新:1) 多光谱频域通道注意力模块,利用频率分析增强低对比度结节特征;2) 分层特征融合模块,实现高效多尺度特征集成;3) 多尺度可变形注意力模块,灵活捕捉小而不规则形状的结节。
- Result: 在真实世界甲状腺超声图像临床数据集上的实验表明,Nodule-DETR达到最先进性能,在mAP@0.5:0.95指标上显著优于基线模型0.149。
- Conclusion: Nodule-DETR的优越准确性突显了其作为计算机辅助甲状腺诊断有效工具的重要临床应用潜力。代码已开源。
[118] Learning Action Hierarchies via Hybrid Geometric Diffusion
Arjun Ramesh Kaushik,Nalini K. Ratha,Venu Govindaraju
Main category: cs.CV
TL;DR: 本文提出HybridTAS框架,将欧几里得和双曲几何结合到扩散模型的去噪过程中,利用双曲几何的树状结构特性实现从粗到细的动作分割,在多个基准数据集上达到SOTA性能。
- Motivation: 现有的迭代优化方法未能充分利用人类动作的层次结构特性。本文旨在通过结合双曲几何来更好地建模动作的层次关系,从而改进时间动作分割任务。
- Method: 提出HybridTAS框架,在扩散模型的去噪过程中融合欧几里得和双曲几何。利用双曲几何的树状结构特性,在较高扩散时间步使用抽象的高层动作类别(根节点),在较低时间步使用细粒度的动作类别(叶节点),实现从粗到细的引导去噪。
- Result: 在GTEA、50Salads和Breakfast三个基准数据集上的实验表明,该方法达到了最先进的性能,验证了双曲引导去噪在时间动作分割任务中的有效性。
- Conclusion: 通过将双曲几何融入扩散模型的去噪过程,能够有效利用动作的层次结构特性,显著提升时间动作分割的性能,为视频理解任务提供了新的思路。
[119] TalkPhoto: A Versatile Training-Free Conversational Assistant for Intelligent Image Editing
Yujie Hu,Zecheng Tang,Xu Jiang,Weiqi Li,Jian Zhang
Main category: cs.CV
TL;DR: TalkPhoto是一个无需训练的图像编辑框架,通过对话交互实现精确图像编辑,利用LLM分析用户需求并分层调用现有高级编辑方法
- Motivation: 现有基于指令的图像编辑方法需要构建多指令数据集进行训练,耗时耗力且效果不佳,需要一种无需训练就能灵活处理多种编辑任务的框架
- Method: 使用专门设计的提示模板指导开源LLM分析用户需求,分层调用现有高级编辑方法,实现即插即用的高效调用机制
- Result: 实验表明该方法能以更少的token消耗提供更准确的调用,在各种图像编辑任务中实现更高质量的编辑结果
- Conclusion: TalkPhoto框架无需额外训练,通过对话交互实现稳定高质量的图像编辑,能够处理复杂和未见过的编辑任务
[120] AR-MOT: Autoregressive Multi-object Tracking
Lianjie Jia,Yuhan Wu,Binghao Ran,Yifan Wang,Lijun Wang,Huchuan Lu
Main category: cs.CV
TL;DR: AR-MOT:一种基于大语言模型的自回归多目标跟踪范式,将MOT任务转化为序列生成问题,无需特定任务头,具有高度可扩展性。
- Motivation: 现有MOT方法架构僵化、任务特定,难以适应通用多模态场景和新的跟踪任务形式,限制了跨任务适用性和灵活性。
- Method: 1) 基于预训练检测器的对象分词器增强区域视觉感知;2) 区域感知对齐模块缓解全局与区域特征不对齐;3) 时序记忆融合模块缓存历史对象token支持长期跟踪;4) 在LLM框架内将MOT构建为序列生成任务。
- Result: 在MOT17和DanceTrack数据集上的实验验证了方法的可行性,性能与最先进方法相当,为更通用灵活的MOT系统奠定了基础。
- Conclusion: AR-MOT通过自回归序列生成范式解决了现有MOT方法的架构限制,展示了良好的可扩展性潜力,新模态或指令只需修改输出序列格式而无需改变模型架构。
[121] MacVQA: Adaptive Memory Allocation and Global Noise Filtering for Continual Visual Question Answering
Zhifei Li,Yiran Wang,Chenyi Xiong,Yujing Xia,Xiaoju Hou,Yue Zhao,Miao Zhang,Kui Xiao,Bing Yang
Main category: cs.CV
TL;DR: MacVQA:一种用于持续视觉问答的自适应记忆分配和全局噪声过滤框架,在知识保留、适应性和组合泛化方面表现优异
- Motivation: 当前持续学习VQA方法在平衡知识保留、适应性和鲁棒特征表示方面存在困难,需要解决多模态信息融合中的噪声问题和记忆优化挑战
- Method: 提出MacVQA框架,融合视觉和问题信息同时过滤噪声确保鲁棒表示,采用基于原型的记忆分配优化特征质量和内存使用
- Result: 在10个持续VQA任务上超越现有基线,标准任务平均准确率43.38%、平均遗忘率2.32%,新组合任务平均准确率42.53%、平均遗忘率3.60%
- Conclusion: MacVQA通过自适应记忆分配和全局噪声过滤,有效平衡了持续VQA学习中的知识获取、保留和组合泛化能力
[122] Face Normal Estimation from Rags to Riches
Meng Wang,Wenjing Dai,Jiawan Zhang,Xiaojie Guo
Main category: cs.CV
TL;DR: 提出一种从粗到细的面部法线估计方法,通过小数据集训练粗估计模型生成引导样本,再用自注意力机制细化,显著减少对大规模配对数据和计算资源的需求。
- Motivation: 现有面部法线估计方法严重依赖大规模配对数据进行训练,本文旨在缓解这一需求,开发更高效、资源友好的解决方案。
- Method: 采用从粗到细的两阶段方法:1) 用小数据集训练简洁模型生成粗法线作为引导样本;2) 使用自注意力机制捕获长程依赖关系修复局部伪影;3) 定制细化网络将输入图像与引导样本映射到高质量细粒度法线。
- Result: 实验证明该方法在训练成本和估计质量方面均优于现有最先进方法,同时显著减少了对大规模配对数据和计算资源的需求。
- Conclusion: 提出的从粗到细法线估计器通过逻辑功能拆分有效解决了大规模数据依赖问题,在保持高质量估计的同时降低了训练成本,代码和模型已开源。
[123] MotionAdapter: Video Motion Transfer via Content-Aware Attention Customization
Zhexin Zhang,Yifeng Zhu,Yangyang Xu,Long Chen,Yong Du,Shengfeng He,Jun Yu
Main category: cs.CV
TL;DR: MotionAdapter是一个基于扩散Transformer的内容感知运动迁移框架,通过解耦运动与外观并自适应定制运动到目标内容,实现鲁棒且语义对齐的视频运动迁移。
- Motivation: 尽管基于扩散的文本到视频模型在生成高质量时序连贯视频方面取得显著进展,但在视频间迁移复杂运动仍然具有挑战性。现有方法难以实现鲁棒且语义对齐的运动迁移。
- Method: MotionAdapter首先通过分析3D全注意力模块中的跨帧注意力来提取注意力驱动的运动场,实现运动与外观的显式解耦。然后引入DINO引导的运动定制模块,基于内容对应关系重新排列和细化运动场,最后使用定制的运动场指导DiT去噪过程。
- Result: 大量实验表明,MotionAdapter在定性和定量评估中都优于最先进的方法。该框架自然支持复杂运动迁移和运动编辑任务(如缩放)。
- Conclusion: MotionAdapter通过显式解耦运动与外观并自适应定制运动到目标内容,为基于DiT的T2V模型提供了鲁棒且语义对齐的运动迁移框架,在复杂运动迁移和编辑任务中表现出色。
[124] AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing
Tianbo Wang,Yuqing Ma,Kewei Liao,Zhange Zhang,Simin Li,Jinyang Guo,Xianglong Liu
Main category: cs.CV
TL;DR: AFTER方法通过事实增强激活引导和查询自适应偏移优化,自适应地将有偏激活导向事实语义,显著减少LVLMs中的物体幻觉问题
- Motivation: 大型视觉语言模型存在语言偏见导致的物体幻觉问题(类别、属性和关系幻觉),阻碍可信AI应用。现有编辑方法忽视事实文本语义的有效指导,难以显式缓解语言偏见
- Method: 提出AFTER方法,包含事实增强激活引导(FAS)和查询自适应偏移优化(QAO)。FAS为激活编辑提供事实和通用指导,显式建模精确的视觉-文本关联;QAO引入查询感知偏移估计器,从通用引导向量建立查询特定的编辑
- Result: 在三个广泛采用的LVLMs上的标准幻觉基准测试中验证了AFTER的有效性,在AMBER基准上实现了高达16.3%的幻觉减少
- Conclusion: AFTER通过自适应地将原始有偏激活导向事实语义,有效缓解了LVLMs中的物体幻觉问题,为可信AI应用提供了有前景的解决方案
[125] Forget Less by Learning Together through Concept Consolidation
Arjun Ramesh Kaushik,Naresh Kumar Devulapally,Vishnu Suresh Lokhande,Nalini Ratha,Venu Govindaraju
Main category: cs.CV
TL;DR: 提出FL2T框架解决定制扩散模型连续学习中的灾难性遗忘问题,通过概念间协同学习实现顺序无关的概念学习
- Motivation: 现有定制扩散模型在连续学习新概念时存在灾难性遗忘问题,且大多数方法只考虑顺序学习而忽略了概念间的交互作用
- Method: 提出FL2T框架,引入集合不变的概念间学习模块,使用代理指导跨概念特征选择,促进知识保留和迁移
- Result: 在三个数据集上的实验表明,该方法显著提高了概念保留能力,减轻了灾难性遗忘,在十个任务的增量概念学习中平均CLIP图像对齐分数至少提升2%
- Conclusion: 概念间催化行为在增量概念学习中具有有效性,FL2T框架能够同时进行顺序无关的概念学习并解决灾难性遗忘问题
[126] Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation
Weijian Ma,Shizhao Sun,Tianyu Yu,Ruiyu Wang,Tat-Seng Chua,Jiang Bian
Main category: cs.CV
TL;DR: 该论文提出了一种将对象中心蓝图集成到视觉语言模型中,以增强空间推理能力的方法,通过构建结构化蓝图表示并进行推理,在实验中优于现有方法。
- Motivation: 现有方法要么关注局部图像块(削弱全局空间意识),要么标记孤立坐标(忽略整体组织),需要一种更好的方法来提升视觉语言模型的空间语义理解能力。
- Method: 1) 蓝图嵌入推理轨迹进行监督微调;2) 蓝图感知奖励在强化学习中鼓励适当数量的对象和对齐;3) 抗捷径数据增强,通过针对性扰动防止依赖表面线索。
- Result: 实验表明,该方法在空间推理任务上持续优于现有的视觉语言模型和专门的空间推理模型。
- Conclusion: 通过将对象中心蓝图集成到视觉语言模型中,可以有效增强空间推理能力,推动模型从视觉感知向空间语义理解发展。
[127] VIT-Ped: Visionary Intention Transformer for Pedestrian Behavior Analysis
Aly R. Elkammar,Karim M. Gamaleldin,Catherine M. Elias
Main category: cs.CV
TL;DR: 本文提出了一种基于Transformer/Video Vision Transformer的多模态行人意图预测算法,在JAAD数据集上取得了SOTA性能
- Motivation: 行人意图预测是从L3级向L4级自动驾驶过渡的关键技术之一,需要综合考虑多种因素来理解行人过街行为,以提高道路安全性
- Method: 采用基于Transformer/Video Vision Transformer的不同规模算法,利用多种数据模态进行行人意图预测
- Result: 在JAAD数据集上达到了SOTA性能,在准确率、AUC和F1分数等指标上超越了现有方法,并通过广泛的消融研究验证了不同模型设计选择的优势
- Conclusion: 提出的多模态Transformer方法在行人意图预测任务上表现出色,为自动驾驶系统的安全性提升提供了有效解决方案
[128] API: Empowering Generalizable Real-World Image Dehazing via Adaptive Patch Importance Learning
Chen Zhu,Huiwen Zhang,Yujie Li,Mu He,Xiaotian Qiao
Main category: cs.CV
TL;DR: 提出自适应补丁重要性感知框架(API),包含自动雾霾生成模块和密度感知去雾模块,通过混合数据增强和多负样本对比损失,实现可泛化的真实世界图像去雾。
- Motivation: 现有基于学习的方法在复杂真实雾霾场景中性能显著下降,主要原因是训练数据有限和雾霾密度分布的内在复杂性。
- Method: 1. 自动雾霾生成(AHG)模块:通过混合数据增强生成真实多样的雾霾图像作为额外高质量训练数据;2. 密度感知去雾(DHR)模块:以自适应补丁重要性感知方式处理不同雾霾密度分布区域;3. 多负样本对比去雾(MNCD)损失:充分利用空间和频域多个负样本信息,缓解去雾图像细节模糊问题。
- Result: 在多个真实世界基准测试中达到最先进性能,在定量指标和定性视觉质量方面均表现出色,对不同雾霾分布具有鲁棒泛化能力。
- Conclusion: 提出的API框架通过创新的数据增强、密度感知处理和对比损失设计,有效解决了真实世界图像去雾的泛化性问题,为复杂雾霾场景提供了有效的解决方案。
[129] Nighttime Hazy Image Enhancement via Progressively and Mutually Reinforcing Night-Haze Priors
Chen Zhu,Huiwen Zhang,Mu He,Yujie Li,Xiaotian Qiao
Main category: cs.CV
TL;DR: 提出一种夜间雾霾图像增强框架,通过强化雾霾与低光先验的内在一致性,利用多层级专家在视觉和频域进行渐进式恢复。
- Motivation: 现有方法通常单独处理单一退化类型(如雾霾或低光),忽略了不同类型退化之间的相互作用,导致可见度提升有限。研究发现雾霾和低光先验之间的领域知识可以相互强化以提升可见度。
- Method: 提出新颖框架,通过渐进式强化雾霾与低光先验的内在一致性来增强夜间雾霾图像可见度。模型采用图像级、块级和像素级专家,在视觉和频域中运行,逐步恢复全局场景结构、区域模式和细粒度细节。引入频率感知路由器自适应指导每个专家的贡献。
- Result: 在夜间去雾基准测试中,模型在定量和定性评估上均表现出优越性能。同时展示了模型在白天去雾和低光增强任务中的泛化能力。
- Conclusion: 通过强化雾霾与低光先验的内在一致性,提出的多层级专家框架能有效增强夜间雾霾图像的可见度,并在多种相关任务中展现出良好的泛化性能。
[130] Enhancing Object Detection with Privileged Information: A Model-Agnostic Teacher-Student Approach
Matthias Bartolo,Dylan Seychell,Gabriel Hili,Matthew Montebello,Carl James Debono,Saviour Formosa,Konstantinos Makantasis
Main category: cs.CV
TL;DR: 该研究将LUPI范式应用于目标检测,通过教师-学生架构注入特权信息(如边界框掩码、显著性图等),在不增加推理复杂度的情况下显著提升检测精度。
- Motivation: 利用训练时可获得但推理时不可用的细粒度描述性信息(特权信息)来提升目标检测性能,特别是在资源受限和实际应用场景中。
- Method: 提出一种模型无关的教师-学生架构方法,将特权信息(边界框掩码、显著性图、深度线索等)注入深度学习目标检测器,通过中间权重平衡特权信息和标准输入的学习。
- Result: LUPI训练的学生模型在多个基准测试中始终优于基线模型,检测精度显著提升,尤其对中大型物体效果明显,且不增加推理复杂度或模型大小。
- Conclusion: LUPI框架为目标检测系统提供了一种有效实用的策略,特别适用于资源受限和实际应用场景,通过利用训练时的特权信息提升性能而不增加推理负担。
[131] Towards Any-Quality Image Segmentation via Generative and Adaptive Latent Space Enhancement
Guangqian Guo,Aixi Ren,Yong Guo,Xuehui Yu,Jiacheng Tian,Wenli Li,Yaoxing Wang,Shan Gao
Main category: cs.CV
TL;DR: GleSAM++ 通过生成式潜在空间增强提升 SAM 在低质量图像上的分割鲁棒性,引入特征分布对齐、通道复制扩展和退化感知自适应增强机制,显著改善复杂退化条件下的分割性能。
- Motivation: SAM 在零样本分割方面表现出色,但在严重退化的低质量图像上性能显著下降,限制了其在真实场景中的应用。需要提升 SAM 对不同质量图像的鲁棒性和泛化能力。
- Method: 1) 使用生成式潜在空间增强提升低质量图像的鲁棒性;2) 引入特征分布对齐(FDA)和通道复制扩展(CRE)改善预训练扩散模型与分割框架的兼容性;3) 提出退化感知自适应增强(DAE)机制,将重建过程解耦为退化程度预测和退化感知重建两个阶段。
- Result: GleSAM++ 显著提升了在复杂退化条件下的分割鲁棒性,同时保持对清晰图像的泛化能力。在未见过的退化类型上也表现良好,证明了方法的通用性和数据集的多样性。
- Conclusion: GleSAM++ 通过创新的增强机制有效解决了 SAM 在低质量图像上的性能下降问题,仅需少量可学习参数即可应用于预训练的 SAM 和 SAM2,具有高效性和实用性。
[132] Adapting Depth Anything to Adverse Imaging Conditions with Events
Shihan Peng,Yuyang Xiong,Hanyu Zhou,Zhiwei Shi,Haoyue Liu,Gang Chen,Luxin Yan,Yi Chang
Main category: cs.CV
TL;DR: ADAE:一种事件引导的时空融合框架,用于增强Depth Anything在动态和恶劣光照条件下的深度估计能力
- Motivation: 当前深度基础模型(如Depth Anything)在理想场景中表现优异,但在极端光照和运动模糊等恶劣成像条件下表现不佳。这些退化会破坏帧相机的视觉信号,削弱帧基深度在时空维度上的判别特征。虽然现有方法引入事件相机来利用其高动态范围和时间分辨率,但这些专门的融合模型通常从头开始训练,无法继承基础模型的开放世界知识和鲁棒泛化能力。
- Method: 提出了ADAE框架,包含两个核心组件:1)熵感知空间融合:使用信息熵策略自适应融合帧基和事件基特征,以指示光照引起的退化;2)运动引导时间校正:利用事件基运动线索重新校准模糊区域的模糊特征。这两个组件在统一框架下相互补充,共同增强Depth Anything在恶劣成像条件下的性能。
- Result: 大量实验验证了所提方法的优越性。ADAE能够有效提升Depth Anything在动态和恶劣光照条件下的深度估计性能。
- Conclusion: ADAE通过事件引导的时空融合框架,成功增强了Depth Anything在退化场景中的深度估计能力,同时继承了基础模型的开放世界知识和泛化能力。该方法为在恶劣成像条件下实现鲁棒深度估计提供了有效解决方案。
[133] Leveraging 2D-VLM for Label-Free 3D Segmentation in Large-Scale Outdoor Scene Understanding
Toshihiko Nishimura,Hirofumi Abe,Kazuhiko Murasaki,Taiga Yoshida,Ryuichi Tanida
Main category: cs.CV
TL;DR: 无需3D标注数据或RGB图像配对,通过虚拟相机将点云投影到2D,利用基础2D模型和自然语言提示进行语义分割,多视角加权投票实现3D分割
- Motivation: 解决大规模点云数据语义分割需要大量3D标注数据的问题,同时克服传统监督方法无法进行开放词汇识别的限制
- Method: 使用虚拟相机将3D点云投影到2D图像,通过基础2D模型结合自然语言提示进行语义分割,采用多视角加权投票聚合预测结果
- Result: 超越现有免训练方法,达到与监督方法相当的准确率,支持开放词汇识别,可通过任意文本查询检测物体
- Conclusion: 提出了一种无需3D标注的训练免费3D语义分割方法,结合2D基础模型和自然语言提示,实现了开放词汇识别能力
[134] AlignVTOFF: Texture-Spatial Feature Alignment for High-Fidelity Virtual Try-Off
Yihan Zhu,Mengying Ge
Main category: cs.CV
TL;DR: 提出AlignVTOFF框架,通过并行U-Net和纹理-空间特征对齐解决虚拟试穿中几何变形和纹理衰减问题,提升平铺服装生成的结构真实性和高频细节保真度。
- Motivation: 现有虚拟试穿方法依赖轻量级模块进行快速特征提取,难以保持结构化图案和细粒度细节,导致生成过程中纹理衰减。需要解决复杂几何变形和丰富高频纹理下的高质量平铺服装合成问题。
- Method: 提出AlignVTOFF框架,包含参考U-Net和纹理-空间特征对齐模块。参考U-Net进行多尺度特征提取并增强几何保真度;TSFA通过混合注意力设计(可训练交叉注意力+冻结自注意力)将参考服装特征注入冻结的去噪U-Net,显式对齐纹理和空间线索。
- Result: 在多种设置下的广泛实验表明,AlignVTOFF始终优于现有最先进方法,生成的平铺服装结果具有改进的结构真实性和高频细节保真度。
- Conclusion: AlignVTOFF通过并行U-Net架构和纹理-空间特征对齐有效解决了虚拟试穿中的几何变形和纹理衰减问题,显著提升了平铺服装生成的质量。
[135] Agentic Retoucher for Text-To-Image Generation
Shaocheng Shen,Jianfeng Liang. Chunlei Cai,Cong Geng,Huiyu Duan,Xiaoyun Zhang,Qiang Hu,Guangtao Zhai
Main category: cs.CV
TL;DR: Agentic Retoucher:基于分层决策的文本到图像扩散模型后处理框架,通过感知-推理-行动循环实现细粒度失真校正,无需昂贵迭代重生成或依赖弱空间定位的视觉语言模型。
- Motivation: 当前文本到图像扩散模型(如SDXL、FLUX)虽已实现高真实感,但在肢体、面部、文字等细节上仍存在普遍的小尺度失真。现有细化方法要么需要昂贵的迭代重新生成,要么依赖空间定位能力弱的视觉语言模型,导致语义漂移和不可靠的局部编辑。
- Method: 提出分层决策驱动框架,将后生成校正重构为类人的感知-推理-行动循环:1)感知代理学习上下文显著性,在文本-图像一致性线索下进行细粒度失真定位;2)推理代理通过渐进偏好对齐进行人类对齐的推断诊断;3)行动代理根据用户偏好自适应规划局部修复。该设计将感知证据、语言推理和可控校正整合到统一的自我校正决策过程中。
- Result: 构建了GenBlemish-27K数据集(包含6K T2I图像,涵盖12个类别的27K标注伪影区域),用于细粒度监督和定量评估。大量实验表明,Agentic Retoucher在感知质量、失真定位和人类偏好对齐方面始终优于最先进方法。
- Conclusion: Agentic Retoucher为自我校正和感知可靠的文本到图像生成建立了新范式,通过分层决策框架有效解决了现有方法的局限性,实现了更精确、可控的局部失真校正。
[136] PhysSFI-Net: Physics-informed Geometric Learning of Skeletal and Facial Interactions for Orthognathic Surgical Outcome Prediction
Jiahao Bao,Huazhen Liu,Yu Zhuang,Leran Tao,Xinyu Xu,Yongtao Shi,Mengjia Cheng,Yiming Wang,Congshuang Ku,Ting Zeng,Yilang Du,Siyi Chen,Shunyao Shen,Suncheng Xiang,Hongbo Yu
Main category: cs.CV
TL;DR: PhysSFI-Net:一种物理信息几何深度学习框架,用于精确预测正颌手术后的软组织变形,在预测精度上优于现有方法。
- Motivation: 正颌手术需要准确模拟术后面部形态以进行术前规划。传统生物力学模型计算成本高,而几何深度学习方法往往缺乏可解释性。
- Method: PhysSFI-Net包含三个组件:1)具有颅面特征和手术计划编码器的分层图模块,结合注意力机制提取骨骼-面部交互特征;2)基于LSTM的序列预测器用于增量软组织变形;3)生物力学启发的模块用于高分辨率面部表面重建。
- Result: 在135名患者数据上,PhysSFI-Net实现了点云形状误差1.070±0.088mm,表面偏差误差1.296±0.349mm,标志点定位误差2.445±1.326mm,优于现有方法ACMT-Net。
- Conclusion: PhysSFI-Net能够以可解释的方式高精度预测术后面部形态,在正颌手术规划和模拟中具有强大的临床应用潜力。
[137] MCD-Net: A Lightweight Deep Learning Baseline for Optical-Only Moraine Segmentation
Zhehuan Cao,Fiseha Berhanu Tesema,Ping Fu,Jianfeng Ren,Ahmed Nasr
Main category: cs.CV
TL;DR: 提出首个大规模仅使用光学图像的冰碛物分割数据集,并开发轻量级MCD-Net模型,在降低60%计算成本的同时实现62.3% mIoU的分割性能。
- Motivation: 冰川冰碛物分割对重建过去冰川动态和评估气候变化驱动的景观变化至关重要,但弱光学对比度和高分辨率DEM数据有限阻碍了自动化制图。
- Method: 创建包含3,340张手动标注的高分辨率Google Earth图像的数据集,覆盖中国四川和云南冰川区域。开发MCD-Net模型,集成MobileNetV2编码器、CBAM注意力模块和DeepLabV3+解码器。
- Result: MCD-Net在冰碛物分割任务上达到62.3% mIoU和72.8% Dice系数,相比更深层骨干网络(ResNet152、Xception)减少60%以上计算成本。尽管山脊描绘受亚像素宽度和光谱模糊性限制,但证明仅光学图像可提供可靠的冰碛体分割。
- Conclusion: 该研究建立了可复现的冰碛物分割基准,为高海拔冰川监测提供了可部署的基线模型。数据集和代码已开源,促进相关研究发展。
[138] InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting
Jinlong Fan,Shanshan Zhao,Liang Zheng,Jing Zhang,Yuxiang Yang,Mingming Gong
Main category: cs.CV
TL;DR: InpaintHuman:从遮挡的单目视频中重建完整可动画的3D人体化身,通过多尺度UV参数化表示和身份保持扩散修复模块解决遮挡问题
- Motivation: 从单目视频重建完整可动画的3D人体化身面临严重遮挡的挑战,现有基于3D高斯泼溅的方法在遮挡区域重建时存在几何损坏和时间不一致问题
- Method: 提出两种创新:1)多尺度UV参数化表示,采用分层粗到细特征插值;2)身份保持扩散修复模块,结合文本反转和语义条件引导进行主体特定、时间一致的补全
- Result: 在合成基准(PeopleSnapshot、ZJU-MoCap)和真实场景(OcMotion)上展示竞争优势,在不同姿态和视角下重建质量一致提升
- Conclusion: InpaintHuman能够从遮挡的单目视频生成高保真、完整且可动画的化身,相比SDS方法采用直接像素级监督确保身份保真度
[139] 360-GeoGS: Geometrically Consistent Feed-Forward 3D Gaussian Splatting Reconstruction for 360 Images
Jiaqi Yao,Zhongmiao Yan,Jingyi Xu,Songpengcheng Xia,Yan Xiang,Ling Pei
Main category: cs.CV
TL;DR: 提出一种基于3D高斯泼溅的feed-forward框架,通过深度-法向几何正则化提升几何一致性,在保持高质量渲染的同时改善表面重建精度
- Motivation: 传统多视角立体视觉在稀疏视角或低纹理区域效果不佳,神经渲染方法需要逐场景优化且缺乏实时性,现有3D高斯泼溅方法注重视觉质量但几何一致性不足,限制了在空间感知任务中的可靠应用
- Method: 提出新颖的feed-forward 3D高斯泼溅框架,引入深度-法向几何正则化,将渲染深度梯度与法向信息耦合,监督高斯的旋转、尺度和位置,以改善点云和表面精度
- Result: 实验结果表明,该方法在保持高质量渲染的同时显著提升了几何一致性,为空间感知任务中的3D重建提供了有效解决方案
- Conclusion: 该框架通过几何正则化实现了高质量渲染与几何一致性的平衡,为AR、机器人和数字孪生等应用提供了更可靠的3D重建方法
[140] HeadLighter: Disentangling Illumination in Generative 3D Gaussian Heads via Lightstage Captures
Yating Wang,Yuan Sun,Xuan Wang,Ran Yi,Boyao Zhou,Yipengjing Sun,Hongyu Liu,Yinuo Wang,Lizhuang Ma
Main category: cs.CV
TL;DR: HeadLighter:基于3D高斯泼溅的头部生成模型,通过物理可分解的监督学习实现可控重光照,保持高质量实时渲染的同时支持显式光照和视角编辑。
- Motivation: 现有3D感知头部生成模型虽然能实时生成逼真且视角一致的头部图像,但存在光照与内在外观深度纠缠的根本限制,导致无法实现可控重光照。现有解耦方法依赖强假设进行弱监督学习,限制了处理复杂光照的能力。
- Method: 提出HeadLighter框架:1)设计双分支架构分别建模光照不变头部属性和物理基础的渲染组件;2)采用渐进式解耦训练,在受控光照条件下用光舞台采集的多视角图像进行监督;3)引入蒸馏策略生成高质量法线以实现逼真渲染。
- Result: 实验表明,该方法在保持高质量生成和实时渲染的同时,支持显式光照和视角编辑。将公开代码和数据集。
- Conclusion: HeadLighter通过物理可分解的监督学习框架,成功解决了头部生成模型中光照与外观的纠缠问题,实现了可控重光照,为3D头部生成提供了更强大的编辑能力。
[141] MagicFight: Personalized Martial Arts Combat Video Generation
Jiancheng Huang,Mingfu Yan,Songyan Chen,Yi Huang,Shifeng Chen
Main category: cs.CV
TL;DR: 提出首个个性化双人武术格斗视频生成任务MagicFight,通过Unity生成专用数据集,解决现有单人生成模型在双人交互中的身份混淆、肢体异常和动作不匹配问题
- Motivation: 当前个性化视频生成主要集中在单人生成(如舞蹈),而双人交互特别是武术格斗领域尚未探索。现有单人生成模型无法捕捉双人战斗的细微差别和复杂性,导致身份混淆、异常肢体和动作不匹配等问题
- Method: 1. 提出首个个性化武术格斗视频生成任务;2. 使用Unity游戏物理引擎生成定制数据集,包含多样化的3D角色、武术动作和场景;3. 改进和调整现有模型和策略,生成保持个体身份和连贯动作序列的高保真双人格斗视频
- Result: 开发了MagicFight系统,能够生成高质量的双人武术格斗视频,有效解决了身份混淆、肢体异常和动作不匹配问题,为交互式视频内容创作奠定了基础
- Conclusion: 该研究开创了双人武术格斗视频生成的新领域,通过专用数据集和模型改进解决了双人交互生成的关键挑战,为未来交互式视频内容创新铺平了道路
[142] Car Drag Coefficient Prediction from 3D Point Clouds Using a Slice-Based Surrogate Model
Utkarsh Singh,Absaar Ali,Adarsh Roy
Main category: cs.CV
TL;DR: 提出一种基于序列切片处理的轻量级代理模型,用于预测3D车辆的空气阻力系数,通过将3D点云分解为沿流向轴的2D截面切片序列,结合PointNet2D和双向LSTM实现高效准确预测。
- Motivation: 汽车行业追求更高的燃油经济性和性能需要高效的气动设计,但传统的CFD和风洞测试方法资源密集,阻碍早期设计阶段的快速迭代。现有的机器学习代理模型存在计算复杂度高、可解释性有限或对详细几何输入精度不足的问题。
- Method: 受医学影像启发,将3D车辆点云沿流向轴分解为有序的2D横截面切片序列。每个切片通过轻量级PointNet2D模块编码,切片嵌入序列通过双向LSTM处理以捕捉纵向几何演变。
- Result: 在DrivAerNet++数据集上训练和评估,模型实现了高决定系数(R^2 > 0.9528)和低平均绝对误差(MAE约6.046×10^{-3})。在消费级GPU上每个样本推理时间约0.025秒。
- Conclusion: 该方法提供了快速、准确且可解释的气动反馈,促进了更敏捷和知情的汽车设计探索,为早期设计阶段的高效迭代提供了有前景的解决方案。
[143] Remote Sensing Change Detection via Weak Temporal Supervision
Xavier Bou,Elliot Vincent,Gabriele Facciolo,Rafael Grompone von Gioi,Jean-Michel Morel,Thibaud Ehret
Main category: cs.CV
TL;DR: 提出一种弱时序监督策略,利用现有单时相遥感数据集的额外时序观测,无需新标注即可训练变化检测模型
- Motivation: 遥感语义变化检测面临标注数据稀缺的挑战,像素级标注成本高、耗时长。现有方法使用合成数据或人工生成变化对,但跨域泛化能力有限
- Method: 扩展单时相数据集为多时相观测,假设真实双时相对大多无变化,而不同位置的图像配对生成变化样本。采用对象感知变化图生成和迭代优化处理弱标签噪声
- Result: 在扩展的FLAIR和IAILD航空数据集上验证,在零样本和低数据场景下在不同基准测试中表现优异,并在法国大范围区域展示方法的可扩展性
- Conclusion: 该方法通过弱时序监督有效解决了遥感变化检测的标注数据稀缺问题,具有良好的泛化能力和实际应用潜力
[144] Beyond Segmentation: An Oil Spill Change Detection Framework Using Synthetic SAR Imagery
Chenyang Lai,Shuaiyu Chen,Tianjin Huang,Siyang Song,Guangliang Cheng,Chunbo Luo,Zeyu Fu
Main category: cs.CV
TL;DR: 提出OSCD(油污变化检测)新任务,通过对比溢油前后SAR图像来提升检测精度,并开发TAHI框架生成合成溢油前图像,构建首个OSCD数据集。
- Motivation: 传统基于单幅SAR图像的深度学习分割方法难以区分真实油污与视觉相似的海面特征(如生物油膜、低风区),导致高误报率和有限泛化能力,特别是在数据稀缺条件下。
- Method: 提出OSCD(油污变化检测)任务,关注溢油前后SAR图像的变化检测。开发TAHI(时序感知混合修复)框架,包含两个关键组件:高保真混合修复用于无油重建,时序真实性增强用于辐射和海洋状态一致性。
- Result: 构建了首个OSCD数据集,并基准测试了多种最先进的变化检测模型。结果显示,与传统分割方法相比,OSCD显著降低了误报率并提高了检测精度。
- Conclusion: 时序感知方法在真实场景中为可靠、可扩展的油污监测提供了价值,OSCD任务通过变化检测显著提升了油污检测的准确性和可靠性。
[145] Efficient Unrolled Networks for Large-Scale 3D Inverse Problems
Romain Vo,Julián Tachella
Main category: cs.CV
TL;DR: 提出一种域分割策略和正规算子近似方法,使端到端重建模型能够处理任意大规模成像问题,在3D X射线锥束CT和3D多线圈加速MRI上达到SOTA性能,仅需单个GPU。
- Motivation: 深度学习在成像逆问题中表现出色,但现有方法在处理大规模3D成像问题时,由于全局前向算子需要大量内存,无法将成像算子整合到网络架构中,限制了性能提升。
- Method: 提出域分割策略将大问题分解为可管理子问题,结合正规算子近似方法,使端到端重建模型能够整合任意大规模问题的前向算子到网络架构中。
- Result: 在3D X射线锥束CT和3D多线圈加速MRI上实现了最先进的性能,同时训练和推理都只需要单个GPU,解决了大规模成像问题的内存瓶颈。
- Conclusion: 该方法成功解决了大规模成像问题中整合前向算子的内存限制问题,为3D成像等大规模逆问题提供了高效实用的深度学习解决方案。
[146] BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models
Sunny Gupta,Shounak Das,Amit Sethi
Main category: cs.CV
TL;DR: BiPrompt:一种双边提示优化框架,通过同时减少视觉和文本模态中的虚假相关性,提升CLIP等视觉语言基础模型的零样本泛化能力,无需重新训练或领域监督。
- Motivation: 现有去偏方法通常只处理单一模态(视觉或文本),导致部分鲁棒性和在分布偏移下不稳定的适应。CLIP等视觉语言基础模型在零样本泛化方面表现优异,但仍容易受到跨模态虚假相关性的影响。
- Method: 提出双边提示优化框架(BiPrompt),在测试时适应期间同时减轻两个模态中的非因果特征依赖。视觉侧:采用结构化注意力引导擦除来抑制背景激活,并强制因果区域和虚假区域之间的正交预测一致性。文本侧:引入平衡提示归一化,一种可学习的重新中心化机制,将类别嵌入对齐到各向同性的语义空间。
- Result: 在真实世界和合成偏置基准上的广泛评估显示,与先前的测试时去偏方法相比,在平均准确率和最差组准确率方面均取得一致改进。
- Conclusion: BiPrompt建立了一种轻量级但有效的路径,实现可信且基于因果的视觉语言适应,通过联合最小化虚假线索与预测之间的条件互信息,引导模型进行因果、领域不变的推理。
[147] Why Commodity WiFi Sensors Fail at Multi-Person Gait Identification: A Systematic Analysis Using ESP32
Oliver Custance,Saad Khan,Simon Parkinson
Main category: cs.CV
TL;DR: 使用商用ESP32 WiFi传感器进行多人步态识别性能有限,所有信号分离方法准确率仅45-56%,表明硬件限制而非算法问题是主要瓶颈。
- Motivation: WiFi CSI在单人步态识别中表现良好,但多人识别研究不足且现有方法依赖复杂昂贵设备。需要探究多人识别性能差是算法限制还是硬件约束。
- Method: 系统评估六种信号分离方法(FastICA、SOBI、PCA、NMF、小波、张量分解),在1-10人场景下使用商用ESP32传感器,引入新的诊断指标(主体内变异性、主体间可区分性、性能退化率)。
- Result: 所有方法准确率相似且较低(45-56%,标准差3.74%),统计差异不显著(p>0.05)。最佳方法NMF仅56%准确率。主体内变异性高、主体间可区分性低、随人数增加性能严重退化。
- Conclusion: 商用ESP32传感器无法提供足够的信号质量来实现可靠的多人分离,多人识别性能差主要是硬件限制而非算法问题。
[148] QuIC: A Quantum-Inspired Interaction Classifier for Revitalizing Shallow CNNs in Fine-Grained Recognition
Cheng Ying Wu,Yen Jui Chang
Main category: cs.CV
TL;DR: 提出量子启发的交互分类器QuIC,通过可学习观测算子捕获二阶特征协方差,显著提升浅层网络在细粒度视觉分类任务上的性能,同时保持轻量级和稳定训练。
- Motivation: 在资源受限的边缘设备上部署细粒度视觉分类模型面临挑战:深度模型计算成本高,浅层网络(如AlexNet、VGG)因标准全局平均池化仅捕获一阶统计量而无法区分视觉相似的子类别。双线性CNN虽能解决但存在特征维度高和训练不稳定的问题。
- Method: 提出量子启发的交互分类器QuIC,将特征通道建模为相互作用的量子态,通过可学习观测算子捕获二阶特征协方差。设计为轻量级即插即用模块,支持稳定、单阶段端到端训练,不会导致特征维度爆炸。
- Result: QuIC显著提升了浅层骨干网络的性能:将VGG16的Top-1准确率提升近20%,在ResNet18上优于最先进的注意力机制(SE-Block)。t-SNE可视化等定性分析证实QuIC能解决模糊案例,明确关注细粒度判别特征并强制紧凑的类内聚类。
- Conclusion: QuIC成功桥接了细粒度视觉分类中准确性和效率之间的差距,通过量子启发的二阶特征交互建模,使轻量级浅层网络能够实现接近深度模型的性能,同时保持边缘设备友好的计算特性。
[149] Mind the Gap: Continuous Magnification Sampling for Pathology Foundation Models
Alexander Möllers,Julius Hense,Florian Schulz,Timo Milbich,Maximilian Alber,Lukas Ruff
Main category: cs.CV
TL;DR: 该论文研究了组织病理学基础模型中放大倍数采样策略的影响,提出了连续采样方法以解决离散采样在中间放大倍数上的性能下降问题,并开发了优化采样分布来提升跨放大倍度的表示质量。
- Motivation: 在组织病理学中,病理学家需要在不同放大倍数下观察组织,但现有基础模型在不同放大倍数下的性能以及训练时的放大倍数采样策略影响尚不明确。需要理解放大倍数采样对模型性能的系统性影响。
- Method: 将放大倍数采样建模为多源域适应问题,开发理论框架分析采样策略的权衡。提出连续放大倍数采样方法,推导优化采样分布。引入两个新基准数据集(TCGA-MS, BRACS-MS)和相应评估指标。
- Result: 连续采样相比离散采样在中间放大倍数上显著提升性能,平衡分类准确率最高提升4个百分点。优化分布能进一步改善性能。评估发现放大倍数是当前病理基础模型性能变化的主要驱动因素。
- Conclusion: 连续放大倍数采样能消除放大倍数覆盖间隙,提升模型在中间放大倍数上的可靠性。优化采样分布可进一步改善跨放大倍度的表示质量,为未来可靠的病理基础模型发展铺平道路。
[150] Parameter-Efficient Domain Adaption for CSI Crowd-Counting via Self-Supervised Learning with Adapter Modules
Oliver Custance,Saad Khan,Simon Parkinson,Quan Z. Sheng
Main category: cs.CV
TL;DR: 提出一个两阶段框架,通过自监督对比学习预训练CSI-ResNet-A模型学习域不变表示,结合轻量级适配器微调和状态计数机,实现无设备WiFi人群计数,解决域偏移问题。
- Motivation: 基于WiFi CSI的无设备人群计数是隐私保护物联网应用的关键技术,但实际部署面临严重的域偏移问题——在一个环境训练的模型无法泛化到其他环境。
- Method: 提出两阶段框架:1) 使用CSI-ResNet-A架构,通过自监督对比学习预训练学习域不变表示;2) 利用轻量级适配器模块进行高效微调,最后通过状态计数机处理事件序列生成稳定的占用估计。
- Result: 在WiFlow数据集上,无监督方法在10-shot学习场景中达到MAE仅0.44,而监督基线失败;引入泛化指数(GI)评估鲁棒性,模型得分接近完美;在公共WiAR基准上达到98.8%准确率的新SOTA;适配器微调性能接近全微调(98.84% vs 99.67%),但仅训练2.8%的参数。
- Conclusion: 该工作为开发稳健的感知系统提供了实用且可扩展的解决方案,适用于现实世界的物联网部署,通过域不变表示学习和高效适配器微调解决了域偏移问题。
[151] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation
Huichao Zhang,Liao Qu,Yiheng Liu,Hang Chen,Yangyang Song,Yongsheng Dong,Shikun Sun,Xian Li,Xu Wang,Yi Jiang,Hu Ye,Bo Chen,Yiming Gao,Peng Liu,Akide Liu,Zhipeng Yang,Qili Deng,Linjie Xing,Jiyang Liu,Zhao Wang,Yang Zhou,Mingcong Liu,Yi Zhang,Qian He,Xiwei Hu,Zhongqi Qi,Jie Shao,Zhiye Fu,Shuai Wang,Fangmin Chen,Xuezhi Chai,Zhihua Wu,Yitong Wang,Zehuan Yuan,Daniel K. Du,Xinglong Wu
Main category: cs.CV
TL;DR: NextFlow是一个基于6万亿交错文本-图像离散标记训练的统一解码器自回归Transformer,通过统一视觉表示和架构实现多模态理解与生成,采用文本的下一标记预测和视觉的下一尺度预测,大幅提升图像生成速度。
- Motivation: 针对文本和视觉模态的不同特性:文本是严格顺序的,而图像是层次结构的。传统的光栅扫描方法效率低下,需要更高效的视觉生成方法。
- Method: 1. 统一解码器自回归Transformer架构;2. 文本使用下一标记预测,视觉使用下一尺度预测;3. 多尺度生成的鲁棒训练方法;4. 强化学习的prefix-tuning策略。
- Result: NextFlow在5秒内生成1024x1024图像,比同类AR模型快几个数量级;在统一模型中达到SOTA性能,视觉质量可与专业扩散模型相媲美。
- Conclusion: NextFlow通过统一架构和创新的下一尺度预测方法,实现了高效的多模态理解和生成,为统一模型设定了新的性能标准。
[152] Seeing the Unseen: Zooming in the Dark with Event Cameras
Dachun Kai,Zeyu Xiao,Huyue Zhu,Jiaxiao Wang,Yueyi Zhang,Xiaoyan Sun
Main category: cs.CV
TL;DR: RetinexEVSR:首个事件驱动的低光视频超分辨率框架,结合Retinex先验和双向跨模态融合,显著提升低光视频恢复质量
- Motivation: 现有低光视频超分辨率方法在恢复细节方面存在困难,主要因为低光条件下对比度有限、高频信息不足。需要利用高对比度的事件信号和Retinex理论先验来改善低光视频恢复质量。
- Method: 提出RetinexEVSR框架:1)双向跨模态融合策略,从噪声事件数据和退化RGB帧中提取整合有用信息;2)光照引导的事件增强模块,利用Retinex模型的光照图逐步精炼事件特征;3)事件引导的反射率增强模块,通过多尺度融合动态恢复反射率细节。
- Result: 在三个数据集上达到最先进性能。在SDSD基准测试中,相比之前的事件驱动方法,获得高达2.95 dB的增益,同时减少65%的运行时间。
- Conclusion: RetinexEVSR通过结合事件信号和Retinex先验,有效解决了低光视频超分辨率的挑战,在恢复细节和计算效率方面都表现出色,为低光视频增强提供了新的解决方案。
[153] Unraveling MMDiT Blocks: Training-free Analysis and Enhancement of Text-conditioned Diffusion
Binglei Li,Mengping Yang,Zhiyu Tan,Junping Zhang,Hao Li
Main category: cs.CV
TL;DR: 本文系统分析了MMDiT扩散模型的内部机制,提出基于块级文本条件操控的训练免费策略,在文本对齐、图像编辑和推理加速方面取得显著提升。
- Motivation: 尽管基于MMDiT的扩散模型(如FLUX和Qwen Image)在文本到图像生成方面取得了突破,但对其内部机制的理解仍然有限。现有方法主要分析特定组件(如位置编码和注意力层),缺乏对不同块及其与文本条件交互如何影响合成过程的全面理解。
- Method: 1. 开发系统化分析管道,通过移除、禁用和增强对应块中的文本隐藏状态来研究每个块的功能
- 基于分析发现,提出无需训练的策略:改进文本对齐、精确编辑和加速推理
- 在文本到图像生成、图像编辑和推理加速等多个任务上进行广泛实验验证
- Result: 1. 分析发现:语义信息出现在早期块,细节在后期块渲染;移除特定块通常比禁用文本条件破坏性小;在选择性块中增强文本条件可改善语义属性
- 性能提升:在SD3.5上,T2I-Combench++从56.92%提升到63.00%,GenEval从66.42%提升到71.63%,且不牺牲合成质量
- 方法优于多种基线,在文本到图像生成、图像编辑和推理加速方面保持灵活性
- Conclusion: 本文深入理解了MMDiT模型的内部工作机制,提出的训练免费策略显著提升了文本对齐、编辑精度和推理速度,为未来改进提供了有价值的见解和可能性。
[154] Prior-Guided DETR for Ultrasound Nodule Detection
Jingjing Wang,Zhuo Xiao,Xinning Yao,Bo Liu,Lijuan Niu,Xiangzhi Bai,Fugen Zhou
Main category: cs.CV
TL;DR: 提出了一种用于超声结节检测的先验引导DETR框架,通过多阶段融入几何和结构先验知识,在甲状腺和乳腺超声数据集上取得了优于18种现有方法的检测精度。
- Motivation: 超声结节检测对甲状腺和乳腺癌的早期诊断和治疗至关重要,但由于结节形状不规则、边界模糊、尺度变化大以及斑点噪声降低结构可见性等问题,该任务仍然具有挑战性。
- Method: 提出先验引导DETR框架:1)在CNN骨干网络中嵌入空间自适应可变形FFN与先验正则化(SDFPR),为不规则和模糊结节注入几何先验;2)设计多尺度空间-频率特征混合器(MSFFM)提取多尺度结构先验;3)采用密集特征交互(DFI)机制在编码器层间传播先验调制特征,使解码器能在一致的几何和结构指导下增强查询细化。
- Result: 在两个临床收集的甲状腺超声数据集(Thyroid I和Thyroid II)以及两个公开基准(TN3K和BUSI)上进行实验,结果表明该方法在检测形态复杂结节方面优于18种检测方法,取得了更高的准确性。
- Conclusion: 提出的先验引导DETR框架通过渐进式融入几何和结构先验知识,有效解决了超声结节检测中的挑战,在甲状腺和乳腺结节检测中表现出优越性能,为医学图像分析提供了新思路。
[155] FMVP: Masked Flow Matching for Adversarial Video Purification
Duoxun Tang,Xueyi Zhang,Chak Hin Wang,Xi Xiao,Dasen Dai,Xinhang Jiang,Wentao Shi,Rui Li,Qing Li
Main category: cs.CV
TL;DR: FMVP是一种基于流匹配的视频对抗净化方法,通过掩码策略破坏对抗结构,使用条件流匹配重建干净视频,并设计频率门控损失分离语义内容和对抗噪声。
- Motivation: 视频识别模型容易受到对抗攻击,现有的基于扩散的净化方法采样效率低且轨迹弯曲。直接回归干净视频往往无法恢复忠实内容,因为对抗扰动很微妙,需要物理破坏对抗结构。
- Method: 1) 通过掩码策略物理破坏全局对抗结构;2) 使用条件流匹配(CFM)和修复目标重建干净视频动态;3) 设计频率门控损失(FGL)显式抑制高频对抗残差同时保持低频保真度;4) 设计攻击感知和通用训练范式分别处理已知和未知威胁。
- Result: 在UCF-101和HMDB-51数据集上,FMVP优于现有方法(DiffPure、DP、TS、FlowPure),对PGD攻击的鲁棒准确率超过87%,对CW攻击超过89%。对自适应攻击(DiffHammer)表现出优越鲁棒性,并可作为零样本对抗检测器,对PGD检测准确率达98%,对CW达79%。
- Conclusion: FMVP通过物理破坏对抗结构和流匹配重建,有效解决了视频对抗净化问题,在多种攻击下表现出优越性能,并能作为零样本对抗检测器。
[156] VIBE: Visual Instruction Based Editor
Grigorii Alekseenko,Aleksandr Gordeev,Irina Tolstykh,Bulat Suleimanov,Vladimir Dokholyan,Georgii Fedorov,Sergey Yakubson,Aleksandra Tsybina,Mikhail Chernyshov,Maksim Kuprashevich
Main category: cs.CV
TL;DR: 提出一个紧凑高效的指令图像编辑系统,使用2B参数的Qwen3-VL模型指导编辑,结合1.6B参数的Sana1.5扩散模型生成图像,在保持高质量的同时显著降低计算成本。
- Motivation: 当前指令图像编辑领域虽然发展迅速,但开源模型质量有限,主流扩散模型参数庞大(6B-20B),计算成本高,难以在实际部署和研究环境中广泛应用。
- Method: 采用轻量级架构:使用2B参数的Qwen3-VL模型指导编辑过程,配合1.6B参数的Sana1.5扩散模型进行图像生成。在架构设计、数据处理、训练配置和评估方面都针对低成本推理和严格源一致性进行优化。
- Result: 在ImgEdit和GEdit基准测试中,该方法匹配或超越了参数多几倍、推理成本更高的基线模型。在需要保持输入图像的编辑任务(如属性调整、对象移除、背景编辑、目标替换)上表现尤为出色。模型仅需24GB GPU内存,在NVIDIA H100上约4秒生成2K分辨率图像。
- Conclusion: 成功开发了一个紧凑高效的指令图像编辑系统,在显著降低计算成本的同时保持了高质量的编辑性能,为实际部署和研究应用提供了可行的解决方案。
[157] A Comparative Study of Custom CNNs, Pre-trained Models, and Transfer Learning Across Multiple Visual Datasets
Annoor Sharara Akhand
Main category: cs.CV
TL;DR: 该研究系统比较了三种CNN应用范式:从头训练小型CNN、使用预训练CNN作为固定特征提取器、以及迁移学习微调预训练模型,在五个真实世界图像分类数据集上的表现。
- Motivation: 实践中,视觉识别任务通常面临三种CNN应用策略的选择:从头训练定制CNN、使用预训练CNN作为固定特征提取器、或进行迁移学习微调。然而缺乏对这些范式在真实世界数据集上的系统比较,特别是考虑到效率与准确性的权衡。
- Method: 在五个真实世界图像分类数据集上进行受控实验:道路表面缺陷识别、农业品种识别、水果/叶片病害识别、人行道侵占识别、未授权车辆识别。比较三种范式:(1)从头训练紧凑型定制CNN,(2)使用大型预训练CNN作为固定特征提取器,(3)通过部分或完全微调进行迁移学习。使用准确率和宏F1分数评估性能,辅以每个epoch的训练时间和参数量等效率指标。
- Result: 迁移学习始终提供最强的预测性能,而定制CNN在效率和准确性之间提供了有吸引力的权衡,特别是在计算和内存预算受限的情况下。
- Conclusion: 迁移学习是获得最佳预测性能的首选方法,但当计算资源受限时,从头训练紧凑型CNN提供了良好的效率-准确性权衡。实践者应根据具体资源约束和性能要求选择合适的范式。
[158] SLGNet: Synergizing Structural Priors and Language-Guided Modulation for Multimodal Object Detection
Xiantai Xiang,Guangyao Zhou,Zixiao Wen,Wenshuai Li,Ben Niu,Feng Wang,Lijia Huang,Qiantong Wang,Yuhan Liu,Zongxu Pan,Yuxin Hu
Main category: cs.CV
TL;DR: SLGNet:一种参数高效的RGB-IR多模态目标检测框架,结合层次结构先验和语言引导调制,在冻结的ViT基础模型上实现高性能检测。
- Motivation: 现有基于适配器的方法在将RGB预训练基础模型迁移到多模态检测时,往往牺牲跨模态结构一致性以换取模型效率,导致在域差距大的场景(如高对比度、夜间环境)中丢失关键结构线索。传统静态多模态融合机制缺乏环境感知能力,在复杂动态场景变化下适应能力有限。
- Method: 提出SLGNet框架:1)结构感知适配器从双模态提取层次结构表示并动态注入ViT,补偿ViT主干的结构退化;2)语言引导调制模块利用VLM驱动的结构化描述动态重新校准视觉特征,赋予模型环境感知能力。整个框架基于冻结的ViT基础模型构建,参数高效。
- Result: 在LLVIP、FLIR、KAIST和DroneVehicle数据集上达到SOTA性能。在LLVIP基准上实现66.1 mAP,相比传统全微调减少约87%可训练参数。
- Conclusion: SLGNet为多模态感知提供了鲁棒且高效的解决方案,通过结合层次结构先验和语言引导调制,在保持参数效率的同时显著提升检测性能。
[159] VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation
Shikun Sun,Liao Qu,Huichao Zhang,Yiheng Liu,Yangyang Song,Xian Li,Xu Wang,Yi Jiang,Daniel K. Du,Xinglong Wu,Jia Jia
Main category: cs.CV
TL;DR: 提出新框架增强GRPO,解决VAR模型中异步策略冲突问题,通过稳定奖励、动态时间步重加权和掩码传播算法提升生成质量和目标对齐。
- Motivation: VAR模型在生成步骤中存在异构输入结构,导致严重的异步策略冲突,这在强化学习场景中尤为严重,造成训练不稳定和次优对齐。
- Method: 提出包含三个协同组件的框架:1)稳定中间奖励指导早期生成;2)动态时间步重加权方案进行精确信用分配;3)基于ReFL原理的掩码传播算法,在空间和时间上隔离优化效果。
- Result: 相比原始GRPO基线,在样本质量和目标对齐方面有显著改进,实现了VAR模型的稳健有效优化。
- Conclusion: 提出的框架成功解决了VAR模型中的异步策略冲突问题,为VAR模型的强化学习优化提供了有效解决方案。
[160] DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
Renke Wang,Zhenyu Zhang,Ying Tai,Jian Yang
Main category: cs.CV
TL;DR: DiffProxy是一个从多视角图像恢复人体网格的新框架,利用扩散生成先验桥接合成训练和真实世界泛化,通过多条件机制生成多视角一致的人体代理,在合成数据上训练却在真实世界基准上达到SOTA性能。
- Motivation: 真实世界数据集包含不完美的标注会偏置模型训练,而合成数据虽然有精确监督但存在领域差距。需要一种方法既能利用合成数据的精确监督,又能实现真实世界的良好泛化。
- Method: 1) 多条件机制生成多视角一致、像素对齐的人体代理;2) 手部细化模块结合灵活视觉提示增强局部细节;3) 不确定性感知的测试时缩放方法,在优化过程中提高对挑战性案例的鲁棒性。
- Result: 完全在合成数据上训练,在五个真实世界基准测试中达到最先进性能,在遮挡和部分视角等挑战性场景下表现出强大的零样本泛化能力。
- Conclusion: DiffProxy通过扩散生成先验成功桥接了合成训练和真实世界泛化,证明了生成模型在人体网格恢复任务中的有效性,特别是在处理不完美标注和领域差距方面的优势。
[161] TopoLoRA-SAM: Topology-Aware Parameter-Efficient Adaptation of Foundation Segmenters for Thin-Structure and Cross-Domain Binary Semantic Segmentation
Salim Khazem
Main category: cs.CV
TL;DR: TopoLoRA-SAM:一种针对SAM模型进行拓扑感知、参数高效适配的框架,专门用于二进制语义分割,在多个医学和遥感数据集上表现优异
- Motivation: 基础分割模型如SAM虽然具有强大的零样本泛化能力,但在适应特定领域语义分割(特别是细长结构和噪声模态)时仍面临挑战。全微调计算成本高且容易导致灾难性遗忘。
- Method: 提出TopoLoRA-SAM框架:在冻结的ViT编码器中注入低秩适配(LoRA),增加轻量级空间卷积适配器,并可选地通过可微分clDice进行拓扑感知监督。
- Result: 在5个基准测试(视网膜血管、息肉分割、SAR海陆分割)中,TopoLoRA-SAM取得了最佳的平均Dice分数,仅训练模型参数的5.2%(约490万参数)。在CHASE_DB1数据集上显著提升了分割准确性和鲁棒性。
- Conclusion: 拓扑感知的参数高效适配方法能够匹配甚至超越完全微调的专家模型,为领域特定分割任务提供了一种计算高效且性能优异的解决方案。
[162] InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams
Shuai Yuan,Yantai Yang,Xiaotian Yang,Xupeng Zhang,Zhonghao Zhao,Lingming Zhang,Zhipeng Zhang
Main category: cs.CV
TL;DR: InfiniteVGGT提出了一种因果视觉几何Transformer,通过滚动内存机制解决了大规模3D几何理解的长期稳定性问题,同时引入了Long3D基准测试来评估超长序列性能。
- Motivation: 现有3D视觉几何理解方法面临可扩展性与长期稳定性的矛盾:离线模型无法实时处理,流式架构要么不支持无限长输入,要么在长序列中产生灾难性漂移。
- Method: 提出因果视觉几何Transformer,采用有界但自适应的KV缓存实现滚动内存机制,配合无需训练的注意力无关剪枝策略,智能丢弃过时信息,兼容FlashAttention。
- Result: InfiniteVGGT实现了无限视界的流式处理,在长期稳定性上优于现有流式方法,并通过Long3D基准测试(约10,000帧序列)首次为超长连续3D几何估计提供了严格评估平台。
- Conclusion: 该工作打破了3D几何理解中长期存在的可扩展性与稳定性困境,为未来长期3D几何理解研究提供了关键的技术突破和评估框架。
[163] Rank-based Geographical Regularization: Revisiting Contrastive Self-Supervised Learning for Multispectral Remote Sensing Imagery
Tom Burgert,Leonard Hackel,Paolo Rota,Begüm Demir
Main category: cs.CV
TL;DR: GeoRank是一种用于多光谱遥感图像对比自监督学习的新型正则化方法,通过直接优化球面距离将地理关系嵌入特征空间,超越了现有方法并系统研究了关键适应策略。
- Motivation: 自监督学习在计算机视觉中表现出色,但应用于多光谱遥感图像时面临地理和时间变化性的独特挑战。现有方法未能充分利用地理关系,需要更有效的正则化方法来提升性能。
- Method: 提出GeoRank正则化方法,通过直接优化球面距离将地理关系嵌入对比自监督学习的特征空间。同时系统研究了数据增强、数据集规模、图像大小和时间视图等关键适应策略。
- Result: GeoRank在性能上超越或匹配现有整合地理元数据的方法,并能持续改进多种对比自监督学习算法(如BYOL、DINO)。系统研究揭示了各适应策略对多光谱遥感图像的重要性。
- Conclusion: GeoRank为多光谱遥感图像的自监督学习提供了有效的正则化方法,通过嵌入地理关系显著提升性能,同时系统研究为领域提供了重要的实践指导。
[164] SortWaste: A Densely Annotated Dataset for Object Detection in Industrial Waste Sorting
Sara Inácio,Hugo Proença,João C. Neves
Main category: cs.CV
TL;DR: 作者提出了SortWaste数据集和ClutterScore指标来改进废物自动分拣,基准测试显示现有模型在复杂场景下性能显著下降。
- Motivation: 废物产量增加导致管理挑战,人工分拣效率低且有健康风险,现有自动分拣系统难以处理真实废物流的高变异性、杂乱性和视觉复杂性,缺乏真实世界数据集是主要瓶颈。
- Method: 1) 从材料回收设施收集并密集标注的SortWaste物体检测数据集;2) 提出ClutterScore指标,通过物体数量、类别和大小熵、空间重叠等代理变量客观评估场景硬度;3) 对最先进的物体检测模型进行广泛基准测试。
- Result: 塑料检测任务达到59.7% mAP的较好结果,但在高度杂乱场景中性能显著下降,表明需要更具挑战性的数据集。
- Conclusion: SortWaste数据集和ClutterScore指标为废物分拣标准化提供了基础,基准测试揭示了当前模型在复杂场景下的局限性,强调了开发更具挑战性数据集的重要性。
[165] 360DVO: Deep Visual Odometry for Monocular 360-Degree Camera
Xiaopeng Guo,Yinzhe Xu,Huajian Huang,Sai-Kit Yeung
Main category: cs.CV
TL;DR: 360DVO是首个基于深度学习的单目全景视觉里程计框架,通过失真感知球形特征提取器和全景可微分束调整模块,在挑战性场景中显著提升了鲁棒性和精度。
- Motivation: 现有全景视觉里程计方法依赖手工特征或光度目标,在剧烈运动和光照变化等挑战性场景中缺乏鲁棒性,需要更强大的深度学习解决方案。
- Method: 提出失真感知球形特征提取器(DAS-Feat)自适应学习360度图像的抗失真特征,结合全景可微分束调整(ODBA)模块进行有效位姿估计,并创建了新的真实世界基准数据集。
- Result: 在真实世界基准和公开合成数据集(TartanAir V2和360VO)上的实验表明,360DVO超越了现有最佳基线(包括360VO和OpenVSLAM),鲁棒性提升50%,精度提升37.5%。
- Conclusion: 360DVO作为首个基于深度学习的全景视觉里程计框架,通过创新的特征提取和优化模块,显著提升了在挑战性场景中的性能,为全景视觉里程计研究提供了新方向。
[166] Prithvi-Complimentary Adaptive Fusion Encoder (CAFE): unlocking full-potential for flood inundation mapping
Saurabh Kaushik,Lalit Maurya,Beth Tellman
Main category: cs.CV
TL;DR: Prithvi-CAFE通过融合Prithvi GFM预训练编码器和CNN残差分支,在洪水制图任务中显著提升性能,超越基线U-Net和其他GFMs。
- Motivation: 现有地理基础模型(GFMs)在洪水制图等下游任务中难以捕捉关键局部细节,表现不如基线U-Net,需要改进模型对局部特征和长程依赖的平衡能力。
- Method: 提出Prithvi-CAFE架构,集成Prithvi GFM预训练编码器和并行CNN残差分支,使用卷积注意力模块增强,通过适配器实现快速微调,进行多尺度多层次特征融合。
- Result: 在Sen1Flood11测试集上IoU达83.41,超越原Prithvi(82.50)和其他GFMs;在保留测试站点上IoU 81.37显著优于U-Net(70.57);在FloodPlanet数据集上IoU 64.70也优于所有对比模型。
- Conclusion: Prithvi-CAFE通过简单有效的架构设计,在多通道多模态数据提供互补信息且局部细节关键的分割任务中展现出强大潜力,代码已开源。
[167] Fusion2Print: Deep Flash-Non-Flash Fusion for Contactless Fingerprint Matching
Roja Sahoo,Anoop Namboodiri
Main category: cs.CV
TL;DR: 提出Fusion2Print框架,通过融合闪光-无闪光接触式指纹图像提升识别性能,实现与接触式指纹的跨域兼容。
- Motivation: 接触式指纹识别存在卫生和便利性问题,而接触式指纹图像常因光照变化、皮下色素沉着和镜面反射导致脊线清晰度下降。闪光拍摄保留脊线细节但引入噪声,无闪光拍摄减少噪声但降低脊线对比度。
- Method: 构建FNF配对数据集,进行手动闪光-无闪光减法分离脊线保留信号;使用轻量级注意力融合网络整合两种模态,强调信息通道并抑制噪声;U-Net增强模块生成最优加权灰度图像;深度嵌入模型在统一嵌入空间中生成判别性表示,兼容接触式和接触式指纹验证。
- Result: F2P显著提升脊线清晰度,在识别性能上优于单拍摄基线(Verifinger, DeepPrint),达到AUC=0.999,EER=1.12%的优异表现。
- Conclusion: Fusion2Print通过系统性地融合闪光-无闪光接触式指纹,有效解决了接触式指纹识别的脊线清晰度问题,实现了与接触式指纹系统的跨域兼容,为卫生便捷的指纹识别提供了有效解决方案。
[168] BEDS: Bayesian Emergent Dissipative Structures
Laurent Caraffa
Main category: cs.CV
TL;DR: BEDS框架统一非平衡热力学、贝叶斯推断、信息几何和机器学习,提出学习本质上是通过熵输出将通量转化为结构的过程,并在理论和实践上验证了这一观点。
- Motivation: 该论文旨在建立一个统一的理论框架,将物理、生物和计算系统中的学习过程联系起来。作者认为现有的学习理论缺乏对热力学和信息论之间深层联系的系统性理解,需要建立一个能够解释学习如何作为熵输出过程的通用理论。
- Method: 基于Prigogine的耗散结构理论,建立了热力学过程与贝叶斯更新之间的形式同构。推导了基本数学常数作为贝叶斯推断的固定点,并提出哥德尔不完备性定理与热力学约束之间的猜想。最后通过点对点网络架构进行实践验证。
- Result: 理论方面:证明了可持续学习系统必须遵循耗散模式,其中结晶化的后验成为后续涌现层次的先验。实践方面:实现的点对点网络架构比现有分布式共识系统的能效提高了六个数量级,同时支持持续学习。
- Conclusion: BEDS框架成功地将基础物理、数理逻辑和实际系统设计联系起来,为理解学习和计算的本质提供了理论洞见,并为可持续人工智能提供了具体路径。该工作表明学习本质上是通过熵输出将通量转化为结构的过程,这一过程在物理、生物和计算系统中具有普适性。
[169] Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding
Jingming He,Chongyi Li,Shiqi Wang,Sam Kwong
Main category: cs.CV
TL;DR: 提出一个联合增强的3D语义高斯建模框架,通过结合语义和渲染分支,使用各向异性3D高斯切比雪夫描述符和自适应高斯分配策略,提升分割精度和渲染质量。
- Motivation: 现有方法将语义和渲染分支分开处理,仅依赖2D监督而忽略3D高斯几何,自适应策略仅依赖渲染梯度,在纹理稀疏区域效果不佳。
- Method: 1. 引入各向异性3D高斯切比雪夫描述符,使用拉普拉斯-贝尔特拉米算子捕捉细粒度3D形状细节;2. 基于局部语义和形状信号自适应调整高斯分配和球谐函数;3. 跨场景知识转移模块持续更新学习到的形状模式。
- Result: 在多个数据集上实验显示,分割精度和渲染质量均有提升,同时保持高渲染帧率。
- Conclusion: 提出的联合增强框架通过结合语义和渲染分支,使用3D形状描述符和自适应策略,有效提升了3D语义高斯建模的性能。
[170] Meta-Learning Guided Pruning for Few-Shot Plant Pathology on Edge Devices
Shahnawaz Alam,Mohammed Mudassir Uddin,Mohammed Kaif Pasha
Main category: cs.CV
TL;DR: 该论文提出了一种结合神经网络剪枝和少样本学习的方法,通过DACIS评分和PMP流程,在保持92.3%准确率的同时将模型大小减少78%,使压缩模型能在树莓派4上以7FPS运行,实现实时植物病害诊断。
- Motivation: 偏远地区农民需要快速可靠的植物病害识别方法,但缺乏实验室或高性能计算资源。深度学习模型虽然准确率高,但通常太大且计算成本高,无法在低成本边缘设备上运行,同时收集大量标注图像训练数据既昂贵又耗时。
- Method: 提出Disease-Aware Channel Importance Scoring (DACIS)方法,识别神经网络中对区分不同植物病害最重要的部分,并集成到三阶段Prune-then-Meta-Learn-then-Prune (PMP)流程中,结合神经网络剪枝和少样本学习。
- Result: 在PlantVillage和PlantDoc数据集上的实验表明,该方法将模型大小减少78%,同时保持原始准确率的92.3%,压缩模型在树莓派4上以7帧/秒的速度运行,实现了实时现场诊断。
- Conclusion: 该方法成功解决了边缘设备上植物病害识别的计算资源限制和数据稀缺问题,使小农户能够进行实时现场诊断,具有实际应用价值。
[171] Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes
Jing Tan,Zhaoyang Zhang,Yantao Shen,Jiarui Cai,Shuo Yang,Jiajun Wu,Wei Xia,Zhuowen Tu,Stefano Soatto
Main category: cs.CV
TL;DR: Talk2Move是一个基于强化学习的扩散框架,用于通过自然语言指令对场景中的物体进行空间变换,包括平移、旋转和缩放等几何操作。
- Motivation: 现有基于文本的编辑方法主要调整外观或风格,难以执行物体级别的几何变换(如平移、旋转、缩放),这源于配对监督数据稀缺和像素级优化的限制。
- Method: 采用Group Relative Policy Optimization (GRPO)探索几何动作,通过输入图像和轻量级文本变体生成多样化的rollouts;设计空间奖励引导模型对齐几何变换与语言描述;使用离策略步评估和主动步采样提高学习效率;设计物体中心的空间奖励直接评估位移、旋转和缩放行为。
- Result: 在精心设计的基准测试中,Talk2Move实现了精确、一致且语义忠实的物体变换,在空间准确性和场景一致性方面优于现有的文本引导编辑方法。
- Conclusion: Talk2Move通过强化学习框架解决了文本指令下物体几何变换的挑战,无需昂贵的配对数据,实现了可解释且连贯的变换效果。
[172] VINO: A Unified Visual Generator with Interleaved OmniModal Context
Junyi Chen,Tong He,Zhoujie Fu,Pengfei Wan,Kun Gai,Weicai Ye
Main category: cs.CV
TL;DR: VINO是一个统一的视觉生成器,能够在单一框架内执行图像和视频的生成与编辑,使用共享的扩散骨干网络处理多模态输入,避免了针对特定任务的独立模型。
- Motivation: 当前视觉生成系统通常需要针对图像和视频等不同模态使用独立的任务特定模型或模块,这限制了系统的统一性和灵活性。研究者希望开发一个能够处理多种视觉创建和编辑任务的统一框架。
- Method: VINO将视觉语言模型(VLM)与多模态扩散变换器(MMDiT)耦合,将多模态输入编码为交错的条件标记来指导扩散过程。采用多阶段训练流程,逐步将视频生成基础模型扩展为统一的多任务生成器。
- Result: VINO在多样化的生成和编辑基准测试中表现出强大的视觉质量、准确的指令跟随能力、改进的参考和属性保留能力,以及更可控的多身份编辑效果。
- Conclusion: VINO展示了实现可扩展统一视觉生成的实用路径,交错上下文计算作为通用视觉创建基础的前景,为多模态视觉生成提供了统一的解决方案。
[173] ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors
Kaede Shiohara,Toshihiko Yamasaki,Vladislav Golyanik
Main category: cs.CV
TL;DR: ExposeAnyone是一种基于扩散模型的完全自监督方法,通过音频生成表情序列,利用个性化扩散重建误差进行人脸伪造检测,在多个数据集上优于现有方法,并能检测Sora2生成的视频。
- Motivation: 当前深度伪造检测方法难以泛化到未见过的伪造操作,因为它们主要依赖现有深度伪造或伪伪造的监督训练,导致对特定伪造模式的过拟合。而现有的自监督方法难以仅从自监督中学习到有区分度的表示。
- Method: 提出ExposeAnyone,一种基于扩散模型的完全自监督方法。首先使用参考集将模型个性化到特定主体,然后通过扩散重建误差计算可疑视频与个性化主体之间的身份距离,从而实现特定人员的人脸伪造检测。
- Result: 1) 在DF-TIMIT、DFDCP、KoDF和IDForge数据集上,平均AUC比之前最先进方法高出4.22个百分点;2) 能够检测Sora2生成的视频,而之前方法表现不佳;3) 对模糊和压缩等损坏具有高度鲁棒性。
- Conclusion: ExposeAnyone通过完全自监督的扩散模型方法,在未知深度伪造检测方面取得了显著改进,具有良好的泛化能力和实际应用价值。
physics.app-ph
[174] Image Synthesis Using Spintronic Deep Convolutional Generative Adversarial Network
Saumya Gupta,Abhinandan,Venkatesh vadde,Bhaskaran Muralidharan,Abhishek Sharma
Main category: physics.app-ph
TL;DR: 提出一种混合CMOS-自旋电子学的深度卷积生成对抗网络架构,用于合成图像生成,通过自旋电子硬件实现卷积、反卷积和激活层,显著降低能耗。
- Motivation: 生成对抗网络的计算需求超过传统冯·诺依曼架构的限制,需要更节能的替代方案,如神经形态自旋电子学。
- Method: 设计混合CMOS-自旋电子学的DCGAN架构,将生成器的反卷积层重构为零填充卷积,使用6位斯格明子突触交叉阵列,采用混合CMOS畴壁ReLU和Leaky ReLU激活函数。
- Result: 在Fashion MNIST和Anime Face数据集上分别获得27.5和45.4的FID分数,测试能耗为4.9 nJ/图像(训练14.97 nJ/图像)和24.72 nJ/图像(训练74.7 nJ/图像)。
- Conclusion: 提出的自旋电子DCGAN架构在保持生成质量的同时显著降低能耗,展示了自旋电子硬件在生成式视觉模型中的潜力。
cs.LG
[175] Real-Time Human Detection for Aerial Captured Video Sequences via Deep Models
Nouar AlDahoul,Aznul Qalid Md Sabri,Ali Mohammed Mansoor
Main category: cs.LG
TL;DR: 论文提出结合光流与三种深度学习模型(监督CNN、预训练CNN特征提取器、分层极限学习机)用于无人机视频中的人体检测,在UCF-ARG数据集上取得高精度。
- Motivation: 传统手工特征方法依赖专家知识,对光照变化、相机抖动等动态事件敏感。需要更自动化的特征学习方法来解决无人机视频中的人体检测问题。
- Method: 结合光流与三种深度学习模型:1) 监督卷积神经网络(S-CNN)配合softmax或SVM分类器;2) 预训练CNN特征提取器;3) 分层极限学习机(H-ELM)。在UCF-ARG无人机数据集上训练测试,涵盖挖掘、挥手、投掷、行走、奔跑五种动作。
- Result: 预训练CNN平均准确率98.09%;S-CNN配合softmax达95.6%,配合SVM达91.7%;H-ELM达95.9%。H-ELM在CPU上训练时间445秒,S-CNN在GPU上训练时间770秒。
- Conclusion: 提出的自动特征学习方法在无人机视频人体检测任务中表现成功,预训练CNN效果最佳,H-ELM在计算效率上有优势,为实际应用提供了有效解决方案。
[176] ShrimpXNet: A Transfer Learning Framework for Shrimp Disease Classification with Augmented Regularization, Adversarial Training, and Explainable AI
Israk Hasan Jone,D. M. Rafiun Bin Masud,Promit Sarker,Sayed Fuad Al Labib,Nazmul Islam,Farhad Billah
Main category: cs.LG
TL;DR: 本研究提出基于深度学习的虾病自动分类方法,使用六种预训练模型在1,149张图像数据集上进行评估,ConvNeXt-Tiny表现最佳,测试准确率达96.88%
- Motivation: 虾是全球消费最广泛的水产品之一,具有重要的营养和经济价值。虾养殖是许多地区的重要收入来源,但与其他形式的水产养殖一样,虾病爆发严重影响可持续生产。为解决这一问题,需要及时准确的自动疾病检测方法。
- Method: 研究采用六种预训练深度学习模型(ResNet50、EfficientNet、DenseNet201、MobileNet、ConvNeXt-Tiny、Xception)对包含1,149张图像的四种虾病数据集进行分类。预处理包括背景去除和Keras图像管道标准化。使用FGSM进行对抗训练增强模型鲁棒性,采用CutMix和MixUp等高级数据增强策略防止过拟合。应用Grad-CAM、Grad-CAM++和XGrad-CAM等后解释方法可视化模型注意力区域。
- Result: ConvNeXt-Tiny模型表现最佳,在测试数据集上达到96.88%的准确率。经过1000次迭代后,模型99%置信区间为[0.953,0.971]。
- Conclusion: 深度学习模型能够有效实现虾病的自动分类,ConvNeXt-Tiny模型表现出色。对抗训练和数据增强策略提高了模型鲁棒性和泛化能力,解释性方法有助于理解模型决策过程,为虾病检测提供了可行的自动化解决方案。
[177] Hierarchical topological clustering
Ana Carpio,Gema Duro
Main category: cs.LG
TL;DR: 提出一种基于拓扑方法的层次聚类算法,可处理任意形状的聚类和异常值,适用于图像、医疗和经济数据
- Motivation: 拓扑方法能够在不假设数据结构的情况下探索数据云,但需要一种能够处理任意距离选择并识别异常值和任意形状聚类的算法
- Method: 提出层次拓扑聚类算法,可使用任意距离度量,通过层次结构推断异常值和任意形状聚类的持续性
- Result: 在包含图像、医疗和经济数据的数据集上验证了算法有效性,这些数据集中异常值具有重要作用,算法能够识别其他技术无法发现的聚类
- Conclusion: 该拓扑聚类算法能够提供有意义的聚类结果,特别是在其他技术失败的情况下,对包含异常值和复杂形状聚类的数据集具有优势
[178] SPoRC-VIST: A Benchmark for Evaluating Generative Natural Narrative in Vision-Language Models
Yunlin Zeng
Main category: cs.LG
TL;DR: 该论文提出了一个端到端的视觉播客生成流程,通过微调Qwen3-VL-32B模型,使用合成到真实的训练策略,在视觉叙事任务上取得了显著改进。
- Motivation: 虽然视觉语言模型在描述性任务上表现出色,但在生成引人入胜的长篇叙事(特别是多说话者播客对话)方面仍未被充分探索且难以评估。传统指标无法捕捉对话自然性、个性和叙事流畅性等细微差别。
- Method: 提出了端到端视觉播客生成流程,在4,000个图像-对话对的数据集上微调Qwen3-VL-32B模型。采用合成到真实的训练策略:在SPoRC的高质量播客对话与合成生成图像上进行训练,在VIST的真实世界照片序列上进行评估。
- Result: 微调的32B模型在对话自然性上显著优于235B基础模型(胜率>80%),叙事深度增加50%(轮次长度),同时保持相同的视觉基础能力(CLIPScore: 20.39)。
- Conclusion: 该研究展示了通过精心设计的训练策略和评估框架,相对较小的模型可以在视觉叙事任务上超越大得多的基础模型,为视觉语言模型在创造性叙事生成方面提供了新方向。
[179] Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments
Hansen Jin Lillemark,Benhao Huang,Fangneng Zhan,Yilun Du,Thomas Anderson Keller
Main category: cs.LG
TL;DR: 提出Flow Equivariant World Models框架,将自运动和外部物体运动统一为单参数李群"流",利用群等变性实现稳定潜在世界表示,在2D/3D部分观测视频世界建模基准上显著优于现有方法。
- Motivation: 具身系统体验世界为"流动的交响曲"——多个连续感官输入流与自运动耦合,交织着外部物体动力学。这些流遵循平滑的时间参数化对称性,但大多数神经网络世界模型忽略这种结构,反复从数据中重新学习相同变换。
- Method: 引入Flow Equivariant World Models框架,将自运动和外部物体运动统一为单参数李群"流",利用这种统一实现对变换的群等变性,提供数百时间步的稳定潜在世界表示。
- Result: 在2D和3D部分观测视频世界建模基准上,Flow Equivariant World Models显著优于可比较的最先进扩散基和记忆增强世界建模架构,特别是在智能体当前视野外存在可预测世界动力学时。流等变性对长时推演特别有益,能泛化远超训练时域。
- Conclusion: 通过将世界模型表示结构与内部和外部运动对齐,流等变性为数据高效、对称性引导的具身智能开辟了可扩展路径。
[180] GDRO: Group-level Reward Post-training Suitable for Diffusion Models
Yiyang Wang,Xi Chen,Xiaogang Xu,Yu Liu,Hengshuang Zhao
Main category: cs.LG
TL;DR: GDRO提出了一种用于文本到图像整流流扩散模型的群体级直接奖励优化方法,通过离线训练解决在线RL的效率低、依赖随机采样器和奖励黑客问题。
- Motivation: 当前采用在线强化学习进行奖励对齐的方法面临效率低、依赖随机采样器和奖励黑客问题,而整流流模型与LLMs存在根本差异:图像采样耗时、确定性特性等,需要专门针对扩散模型特点的优化方法。
- Method: 提出Group-level Direct Reward Optimization (GDRO),结合整流流模型特性的群体级奖励对齐后训练范式,支持完全离线训练节省图像采样时间,且不依赖扩散采样器,无需ODE-to-SDE近似来获得随机性。
- Result: 在OCR和GenEval任务上的实验表明,GDRO通过群体级离线优化有效提升了扩散模型的奖励分数,同时展现出强大的稳定性和鲁棒性,能够缓解奖励黑客问题。
- Conclusion: GDRO为文本到图像整流流扩散模型提供了一种高效、稳定且鲁棒的群体级奖励对齐方法,解决了现有在线RL方法的局限性,并通过理论分析和实证研究验证了其有效性。
[181] CORE: Code-based Inverse Self-Training Framework with Graph Expansion for Virtual Agents
Keyu Wang,Bingchen Miao,Wendong Bu,Yu Wu,Juncheng Li,Shengyu Zhang,Wenqiao Zhang,Siliang Tang,Jun Xiao,Yueting Zhuang
Main category: cs.LG
TL;DR: CORE是一个基于代码的逆自训练框架,通过图扩展桥接模仿学习与探索学习,自动从专家演示中推断奖励函数,提升虚拟代理的行为多样性和泛化能力。
- Motivation: 当前多模态虚拟代理训练存在两大挑战:行为克隆方法简单有效但行为多样性低;强化学习能发现新策略但严重依赖人工设计的奖励函数。需要解决这两种方法之间的冲突。
- Method: 1. 语义代码抽象:自动从专家演示中推断奖励函数(标签函数),无需人工设计;2. 策略图扩展:构建多路径策略图,捕捉超越专家演示的多样化有效解决方案;3. 轨迹引导外推:利用成功和失败轨迹扩展任务空间,丰富域外行为多样性。
- Result: 在Web和Android平台上的实验表明,CORE显著提高了整体性能和泛化能力,证明了其作为构建强大虚拟代理的鲁棒且可泛化训练范式的潜力。
- Conclusion: CORE通过桥接模仿与探索,解决了行为克隆和强化学习之间的冲突,提供了一种既能提升行为多样性又无需人工奖励设计的训练框架,为构建强大的虚拟代理提供了新范式。
[182] Neuro-Channel Networks: A Multiplication-Free Architecture by Biological Signal Transmission
Emrah Mete,Emin Erkan Korkmaz
Main category: cs.LG
TL;DR: 提出Neuro-Channel Networks (NCN),一种无乘法神经网络架构,用通道宽度和神经递质参数替代权重,仅使用加法、减法和位运算,旨在降低AI对昂贵GPU硬件的依赖。
- Motivation: 深度学习严重依赖高性能GPU硬件,这些硬件昂贵、能耗高且供应稀缺,限制了AI在边缘设备的部署。生物神经系统的高效性源于其不依赖算术乘法,而是通过物理离子通道限制和化学神经递质水平调节信号传输。
- Method: 提出Neuro-Channel Networks (NCN):用通道宽度物理限制信号幅度,用神经递质参数基于符号逻辑调节信号传输。前向传播仅使用加法、减法和位运算(最小值、符号),完全消除浮点乘法。使用标准反向传播进行训练。
- Result: NCN能够以100%准确率解决非线性可分问题(如XOR和多数函数),证明其无需乘法权重即可形成复杂决策边界的能力。
- Conclusion: NCN架构为下一代神经形态硬件提供了高效替代方案,使得复杂模型能够在商用CPU或超低功耗芯片上运行,无需依赖昂贵的GPU集群。
cs.GR
[183] SketchRodGS: Sketch-based Extraction of Slender Geometries for Animating Gaussian Splatting Scenes
Haato Watanabe,Nobuyuki Umetani
Main category: cs.GR
TL;DR: 提出从高斯泼溅场景中提取细长物体折线表示的方法,通过用户草图输入和屏幕空间最短路径分析构建折线网格
- Motivation: 物理模拟细长弹性物体需要折线离散化,但高斯泼溅缺乏连接信息且高斯基元配置噪声多,难以直接构建折线
- Method: 基于用户草图输入,通过屏幕空间最短路径分析(使用动态规划高效求解)鲁棒地构建细长部分的折线网格表示
- Result: 在多个实际场景示例中证明了方法的有效性
- Conclusion: 该方法能够从高斯泼溅场景中成功提取细长物体的折线表示,解决了连接信息缺失和噪声问题
[184] Dancing Points: Synthesizing Ballroom Dancing with Three-Point Inputs
Peizhuo Li,Sebastian Starke,Yuting Ye,Olga Sorkine-Hornung
Main category: cs.GR
TL;DR: 使用VR设备的三点轨迹作为舞蹈运动描述符,通过MLP网络从领舞者的三点轨迹预测跟舞者的三点轨迹,再确定性地转换为虚拟化身,为配对舞蹈应用提供高效解决方案。
- Motivation: 探戈等交际舞具有高度多样化的动作和复杂的领舞-跟舞互动,使得理解和合成这类运动具有挑战性。传统方法需要处理高维全身运动数据,建模复杂且容易过拟合。
- Method: 使用VR设备的三点轨迹(头部和双手)作为运动描述符,通过高效的MLP网络从领舞者的三点轨迹预测跟舞者的三点轨迹。利用运动固有结构和精心规划的自回归过程,将三点轨迹确定性地转换为虚拟化身,避免了通常需要生成模型的欠约束问题。
- Result: 该方法在交际舞等结构化数据集上有效,并能推广到LaFAN等更大、更多样化的数据集。提供计算和数据高效的解决方案,为沉浸式配对舞蹈应用开辟新可能。
- Conclusion: 三点轨迹作为舞蹈运动描述符简化了领舞-跟舞互动建模,低维表示防止过拟合并提高效率。确定性神经网络方法能处理通常需要生成模型的欠约束问题,并在多样化数据集上表现稳健。
cs.DL
[185] A Global Atlas of Digital Dermatology to Map Innovation and Disparities
Fabian Gröger,Simone Lionetti,Philippe Gottfrois,Alvaro Gonzalez-Jimenez,Lea Habermacher,Labelling Consortium,Ludovic Amruthalingam,Matthew Groh,Marc Pouly,Alexander A. Navarini
Main category: cs.DL
TL;DR: SkinMap是一个多模态框架,首次对皮肤病学领域的所有公开数据集进行全面审计,创建了包含110万张皮肤病症图像的可查询语义图谱,量化了信息新颖性、数据集冗余性和代表性差距。
- Motivation: 人工智能在皮肤病学中的应用有望实现医疗保健的民主化,但模型可靠性取决于数据质量。尽管公开皮肤病图像快速增长,但缺乏量化指标来衡量新数据集是否扩展临床覆盖范围还是仅仅重复已有内容。
- Method: 开发SkinMap多模态框架,将公开皮肤病数据集统一为单一可查询语义图谱,包含110万张图像,量化:(i)随时间的信息新颖性,(ii)数据集冗余性,(iii)人口统计学和诊断的代表性差距。
- Result: 尽管数据集规模呈指数增长,但信息新颖性有所停滞:常见肿瘤在白皙皮肤上密集覆盖,而深色皮肤类型(Fitzpatrick V-VI)仅占5.8%,儿科患者仅占3.0%,许多罕见疾病和表型组合代表性不足。
- Conclusion: SkinMap提供了测量盲点的基础设施,可以指导战略数据采集向临床空间中覆盖不足的区域发展,帮助解决皮肤病AI数据中的代表性差距问题。
cs.SD
[186] MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning
Chunyu Qiang,Jun Wang,Xiaopeng Wang,Kang Yin,Yuxin Guo,Xijuan Zeng,Nan Li,Zihan Li,Yuzhe Liang,Ziyu Zhang,Teng Ma,Yushen Chen,Zhongliang Liu,Feng Deng,Chen Zhang,Pengfei Wan
Main category: cs.SD
TL;DR: MM-Sonate是一个多模态流匹配框架,统一了可控的音频-视频联合生成与零样本语音克隆能力,通过统一的指令-音素输入确保严格的语言和时间对齐,在联合生成基准上达到最先进性能。
- Motivation: 当前联合音频-视频生成模型在细粒度声学控制方面存在困难,特别是身份保持的语音生成。现有方法要么因级联生成导致时间错位,要么缺乏在联合合成框架内进行零样本语音克隆的能力。
- Method: 提出MM-Sonate多模态流匹配框架,使用统一的指令-音素输入确保语言和时间对齐;引入音色注入机制解耦说话人身份与语言内容;提出基于噪声的负条件策略,利用自然噪声先验增强声学保真度。
- Result: 在联合生成基准上建立了新的最先进性能,在唇部同步和语音可懂度方面显著优于基线方法,同时实现了与专业文本转语音系统相当的语音克隆保真度。
- Conclusion: MM-Sonate成功解决了联合音频-视频生成中的细粒度声学控制和零样本语音克隆问题,通过统一的指令-音素输入和创新的音色注入机制,为多模态内容生成提供了有效的解决方案。
cs.AI
[187] XAI-MeD: Explainable Knowledge Guided Neuro-Symbolic Framework for Domain Generalization and Rare Class Detection in Medical Imaging
Midhat Urooj,Ayan Banerjee,Sandeep Gupta
Main category: cs.AI
TL;DR: XAIMeD是一个可解释的医疗AI框架,通过神经符号架构整合临床专家知识,提升分布偏移下的鲁棒性、罕见类别敏感性和临床可解释性。
- Motivation: 医疗AI中可解释性、领域泛化和罕见类别可靠性是关键挑战,深度模型在真实世界分布偏移下经常失败,并对罕见临床条件存在偏见。
- Method: 将临床专业知识编码为原子医学命题的逻辑连接,转化为机器可检查的类别特定规则;通过加权特征满足分数量化诊断效用;符号推理分支与神经预测互补;置信度加权融合整合符号和深度输出;基于熵不平衡增益和罕见类别基尼系数的自适应路由机制。
- Result: 在四个挑战性任务上评估:癫痫发作区定位和糖尿病视网膜病变分级,跨6个多中心数据集显示显著性能提升,包括6%的跨域泛化增益和10%的罕见类别F1分数提升,远超最先进的深度学习基线。
- Conclusion: XAIMeD提供了一个原则性、临床忠实且可解释的多模态医疗AI方法,临床基础的符号组件作为有效的正则化器,确保对分布偏移的鲁棒性。
cs.RO
[188] Simulations of MRI Guided and Powered Ferric Applicators for Tetherless Delivery of Therapeutic Interventions
Wenhui Chu,Khang Tran,Nikolaos V. Tsekos
Main category: cs.RO
TL;DR: 提出一个用于MRI引导血管介入手术的计算平台,通过虚拟夹具和梯度波形生成实现机器人辅助器械的安全导航规划
- Motivation: MRI引导的血管介入手术需要安全、精确的术前规划和术中导航,现有技术缺乏有效的计算平台来建模MRI驱动的器械在血管内的运动,避免血管穿孔或碰撞风险
- Method: 开发双向数据管道连接MRI扫描仪、计算核心和操作员,从多切片MRI数据提取血管床并拟合虚拟走廊作为虚拟夹具,基于血管中心线几何特征、虚拟夹具和MRI安全限制生成梯度波形,支持不同血流剖面选择
- Result: 实现了基于Qt框架的实时操作平台,包含专用线程的软件模块(PID控制器、虚拟夹具生成、MR梯度波形生成),能够评估选定血管路径的可操作性安全性
- Conclusion: 该计算平台为MRI驱动的血管介入器械提供了有效的术前规划和建模工具,通过虚拟夹具和梯度波形生成确保手术安全,为未来实时操作实验研究奠定了基础
[189] DST-Calib: A Dual-Path, Self-Supervised, Target-Free LiDAR-Camera Extrinsic Calibration Network
Zhiwei Huang,Yanwei Fu,Yi Zhou,Xieyuanli Chen,Qijun Chen,Rui Fan
Main category: cs.RO
TL;DR: 提出首个自监督的在线LiDAR-相机外参标定网络,无需特定标定板,通过双面数据增强和差异图构建提升泛化能力和精度。
- Motivation: 现有LiDAR-相机外参标定方法依赖手工标定板或特定静态场景,限制了在真实自主机器人应用中的适应性和部署能力。
- Method: 1) 提出双面数据增强技术,利用估计深度图生成多视角相机视图;2) 设计双路径自监督标定框架,减少对高精度地面真值标签的依赖;3) 用差异图构建过程替代传统双分支特征提取,显式关联LiDAR和相机特征。
- Result: 在五个公共基准数据集和自录数据集上的实验表明,该方法在泛化能力方面显著优于现有方法。
- Conclusion: 该方法实现了无需特定标定板的在线自监督LiDAR-相机外参标定,通过创新的数据增强和特征关联策略提升了泛化性能和校准精度。
[190] AlignDrive: Aligned Lateral-Longitudinal Planning for End-to-End Autonomous Driving
Yanhao Wu,Haoyang Zhang,Fei He,Rui Wu,Congpei Qiu,Liang Gao,Wei Ke,Tong Zhang
Main category: cs.RO
TL;DR: 提出一种级联框架,将纵向规划显式地建立在驾驶路径上,实现协调的横向和纵向规划,在Bench2Drive基准测试中达到新SOTA
- Motivation: 当前端到端自动驾驶模型将规划解耦为并行的横向和纵向预测,存在两个问题:1) 规划的路径和速度之间协调失败;2) 未充分利用驾驶路径作为纵向规划的先验,导致静态信息冗余编码
- Method: 提出级联框架,将纵向规划显式地建立在驾驶路径上,引入路径条件化公式,让模型沿着驾驶路径预测纵向位移而非完整的2D轨迹点,并提出面向规划的数据增强策略,模拟车辆切入等安全关键事件
- Result: 在Bench2Drive基准测试中达到新SOTA,驾驶分数89.07,成功率73.18%,显著提升了协调性和安全性
- Conclusion: 通过将纵向规划显式地建立在驾驶路径上的级联框架,能够实现更好的横向和纵向规划协调,提高自动驾驶的安全性和性能
[191] DisCo-FLoc: Using Dual-Level Visual-Geometric Contrasts to Disambiguate Depth-Aware Visual Floorplan Localization
Shiyong Meng,Tao Zou,Bolei Chen,Chaoxu Mu,Jianxin Wang
Main category: cs.RO
TL;DR: DisCo-FLoc:通过双层次视觉-几何对比学习消除楼层平面图定位中的歧义,无需额外语义标注,在深度感知视觉特征与几何结构匹配方面优于现有方法。
- Motivation: 楼层平面图数据易于获取、持久性强且对视觉外观变化鲁棒,因此视觉楼层平面图定位(FLoc)受到关注。现有方法存在两个主要问题:1)简约楼层平面图中的重复结构导致定位歧义;2)昂贵且有限的语义标注限制了应用范围。
- Method: 提出DisCo-FLoc方法:1)为基于光线投射的FLoc设计射线回归预测器,利用深度估计专业知识预测一系列FLoc候选;2)提出新颖的对比学习方法,包含位置级和方向级约束,严格匹配深度感知视觉特征与楼层平面图中的对应几何结构。
- Result: 在两个标准视觉FLoc基准测试上的全面比较研究表明,该方法超越了最先进的基于语义的方法,在鲁棒性和准确性方面均取得显著提升。
- Conclusion: DisCo-FLoc通过双层次视觉-几何对比学习有效消除FLoc歧义,无需额外语义标签,在楼层平面图定位任务中表现出优越性能。
cs.CL
[192] T3C: Test-Time Tensor Compression with Consistency Guarantees
Ismail Lamaakal,Chaymae Yahyati,Yassine Maleh,Khalid El Makkaoui,Ibrahim Ouahbi
Main category: cs.CL
TL;DR: T3C是一个训练一次、测试时预算条件化的压缩框架,通过弹性张量分解和混合精度量化实现可控的部署调整,提供可预测的精度-延迟-大小权衡。
- Motivation: 现有模型压缩方法通常需要为不同部署场景重新训练或调整,缺乏统一的框架来提供可预测的性能-效率权衡。需要一种能够根据实时预算需求动态调整模型配置的解决方案。
- Method: 结合弹性张量分解(维持到最大秩)和秩绑定的混合精度量化,使用轻量级控制器将延迟/能耗/大小预算映射到每层秩/比特分配,策略对齐硬件配置并保持预算单调性。通过谱代理和激活统计计算快速层一致性证书来上界logit漂移并正则化训练。
- Result: 在ImageNet-1k上,T3C显著提升了视觉Pareto前沿:ResNet-50在精度下降≤0.5%时达到1.18ms p50延迟和38MB模型大小,优于PTQ-8b(1.44ms, 88MB);ViT-B/16达到2.30ms p50延迟和59MB大小,超越强PTQ/QAT基线。
- Conclusion: 单个T3C检查点能够在不同设备上提供可预测的、有证书支持的精度-延迟-大小权衡,实现了训练一次、按需部署的灵活压缩框架。
cs.CR
[193] Noise-Aware and Dynamically Adaptive Federated Defense Framework for SAR Image Target Recognition
Yuchao Hou,Zixuan Zhang,Jie Wang,Wenke Huang,Lianhui Liang,Di Wu,Zhiquan Liu,Youliang Tian,Jianming Zhu,Jisheng Dang,Junhao Dong,Zhongliang Guo
Main category: cs.CR
TL;DR: NADAFD是一个针对SAR图像目标识别的联邦学习防御框架,通过频域协作反演、噪声感知对抗训练和动态健康评估,有效抵御SAR特有的后门攻击和斑点噪声。
- Motivation: SAR图像目标识别通常采用集中式训练,存在隐私和安全问题。联邦学习虽然能保护数据隐私,但面临恶意客户端利用SAR乘性斑点噪声隐藏后门触发的安全风险,需要专门针对SAR特性的防御方案。
- Method: 提出NADAFD框架:1)频域协作反演机制,通过跨客户端频谱不一致性检测隐藏后门;2)噪声感知对抗训练策略,将Γ分布斑点噪声特征嵌入掩码引导的对抗样本生成;3)动态健康评估模块,跟踪客户端更新行为并自适应调整聚合权重。
- Result: 在MSTAR和OpenSARShip数据集上的实验表明,NADAFD在干净测试样本上获得更高准确率,在触发输入上实现更低的后门攻击成功率,优于现有的联邦后门防御方法。
- Conclusion: NADAFD有效解决了SAR图像目标识别中联邦学习的后门攻击安全问题,通过多维度分析(频域、空间域、客户端行为)和自适应机制,为SAR计算智能提供了鲁棒的隐私保护解决方案。
[194] OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs
Xin Wang,Yunhao Chen,Juncheng Li,Yixu Wang,Yang Yao,Tianle Gu,Jie Li,Yan Teng,Xingjun Ma,Yingchun Wang,Xia Hu
Main category: cs.CR
TL;DR: OpenRT是一个统一、模块化、高吞吐量的红队测试框架,用于全面评估多模态大语言模型的安全性,通过标准化攻击接口和异步运行时实现系统化扩展,在20个先进模型上暴露了严重的安全漏洞。
- Motivation: 当前多模态大语言模型在关键应用中的快速集成受到持续安全漏洞的阻碍,而现有的红队测试基准往往碎片化、仅限于单轮文本交互,缺乏系统评估所需的可扩展性。
- Method: OpenRT框架引入了对抗性内核,实现了五个关键维度的模块化分离:模型集成、数据集管理、攻击策略、判断方法和评估指标。通过标准化攻击接口,将对抗逻辑与高吞吐量异步运行时解耦,集成了37种不同的攻击方法,包括白盒梯度、多模态扰动和复杂的多智能体进化策略。
- Result: 在20个先进模型(包括GPT-5.2、Claude 4.5和Gemini 3 Pro)上的广泛实证研究暴露了关键安全漏洞:即使前沿模型也无法跨攻击范式泛化,领先模型的平均攻击成功率高达49.14%。推理模型并不固有地具有对抗复杂多轮越狱的更强鲁棒性。
- Conclusion: 通过开源OpenRT,作者提供了一个可持续、可扩展且持续维护的基础设施,加速了AI安全的发展和标准化,揭示了当前MLLM安全评估的系统性不足。
[195] Crafting Adversarial Inputs for Large Vision-Language Models Using Black-Box Optimization
Jiwei Guan,Haibo Jin,Haohan Wang
Main category: cs.CR
TL;DR: 提出基于零阶优化和同时扰动随机逼近的黑盒越狱攻击方法ZO-SPSA,在无需模型内部信息的情况下有效攻击大型视觉语言模型
- Motivation: 现有白盒攻击方法需要完全访问模型权限,计算成本高且对抗样本迁移性不足,不适用于现实世界的黑盒场景,需要开发更实用的黑盒攻击方法
- Method: 使用零阶优化和同时扰动随机逼近(ZO-SPSA)的黑盒攻击方法,通过输入输出交互进行梯度近似,无需模型知识,模型无关且资源需求低
- Result: 在InstructBLIP、LLaVA和MiniGPT-4三个模型上测试,在InstructBLIP上达到83.0%的最高越狱成功率,对抗扰动与白盒方法相当,且从MiniGPT-4生成的对抗样本对其他LVLMs有64.18%的迁移成功率
- Conclusion: ZO-SPSA方法证明了黑盒越狱的现实可行性,暴露了当前大型视觉语言模型安全机制的关键弱点,需要更强的防御措施
eess.SY
[196] An Energy-Efficient Smart Bus Transport Management System with Blind-Spot Collision Detection Ability
Md. Sadman Haque,Zobaer Ibn Razzaque,Robiul Awoul Robin,Fahim Hafiz,Riasat Azim
Main category: eess.SY
TL;DR: 提出智能公交系统,包含深度学习盲点预警、自动公交站检测、物联网太阳能智能站台、RFID乘客追踪、智能车门系统,提升安全、效率和可持续性。
- Motivation: 发展中国家公交系统缺乏实时位置更新,乘客体验差;非指定地点停车带来安全隐患和交通拥堵;盲点和交通违规增加事故风险。
- Method: 1) 深度学习盲点预警系统预防事故;2) 自动公交站检测提高停靠精度;3) 物联网太阳能智能站台显示实时乘客数量;4) RFID卡系统追踪乘客上下车;5) 智能车门系统确保有序上下车;6) 实时公交追踪;7) HTTP服务器连接所有子系统。
- Result: 盲点检测效率约99%;公交站停靠精确;服务器提供实时位置更新给用户和站台;节能站台节省12.71kWh能源。
- Conclusion: 提出的智能公交系统能显著提升公交系统的安全性、效率和可持续性,为发展中国家公交现代化提供可行方案。
q-bio.TO
[197] Quantifying Local Strain Field and Deformation in Active Contraction of Bladder Using a Pretrained Transformer Model: A Speckle-Free Approach
Alireza Asadbeygi,Anne M. Robertson,Yasutaka Tobe,Masoud Zamani,Sean D. Stocker,Paul Watton,Naoki Yoshimura,Simon C Watkins
Main category: q-bio.TO
TL;DR: 提出一种无散斑标记的膀胱收缩局部应变场量化框架,使用零样本Transformer模型CoTracker3,结合便携式等容双轴装置和多光子显微镜,成功追踪膀胱自然纹理并揭示收缩各向异性。
- Motivation: 传统数字图像相关(DIC)方法需要人工散斑标记,这会改变组织的被动和主动特性,影响生理相关测量。需要一种非侵入性方法来准确量化膀胱收缩期间的局部应变场。
- Method: 开发无散斑框架,使用先进的零样本Transformer模型CoTracker3,结合定制设计的便携式等容双轴装置和多光子显微镜(MPM),追踪膀胱自然腔道纹理而不需要人工标记。
- Result: 基准测试验证了方法的高像素精度和低应变误差。成功捕捉到异质变形模式,包括复杂折叠和屈曲。在四个大鼠标本的体外主动膀胱收缩中,发现纵向收缩显著高于周向收缩(p<0.01),显示统计显著的各向异性。
- Conclusion: 这种非侵入性方法消除了散斑诱导的伪影,实现了更生理相关的测量,具有广泛适用性,可用于其他生物和工程系统的材料测试。
eess.IV
[198] Placenta Accreta Spectrum Detection using Multimodal Deep Learning
Sumaiya Ali,Areej Alhothali,Sameera Albasri,Ohoud Alzamzami,Ahmed Abduljabbar,Muhammad Alwazzan
Main category: eess.IV
TL;DR: 开发了一个融合MRI和超声的多模态深度学习框架,用于早期准确诊断胎盘植入谱系疾病,在独立测试集上达到92.5%的准确率,优于单模态模型。
- Motivation: 胎盘植入谱系(PAS)是危及生命的产科并发症,需要早期准确诊断以降低母婴风险。目前单模态影像诊断存在局限性,需要更准确的诊断方法。
- Method: 设计了中间特征级融合的多模态深度学习模型,结合3D MRI和2D超声扫描。使用3D DenseNet121-Vision Transformer提取MRI特征,2D ResNet50提取超声特征。使用1,293个MRI和1,143个超声扫描训练单模态模型,配对的MRI-超声样本用于多模态模型开发和评估。
- Result: 多模态融合模型在独立测试集上表现最佳:准确率92.5%,AUC 0.927,优于MRI单模态模型(82.5%,AUC 0.825)和超声单模态模型(87.5%,AUC 0.879)。
- Conclusion: 融合MRI和超声特征提供了互补的诊断信息,显示出增强产前风险评估和改善患者预后的强大潜力。
[199] MetaFormer-driven Encoding Network for Robust Medical Semantic Segmentation
Le-Anh Tran,Chung Nguyen Tran,Nhan Cach Dang,Anh Le Van Quoc,Jordi Carrabina,David Castells-Rufas,Minh Son Nguyen
Main category: eess.IV
TL;DR: 提出MFEnNet,一个高效的医学图像分割框架,在U-Net编码阶段集成MetaFormer,使用池化Transformer块降低计算成本,结合Swish激活和空间金字塔池化,在保持竞争力的准确率下显著降低计算复杂度。
- Motivation: 医学图像分割对疾病诊断和治疗规划至关重要,但现有先进模型通常采用复杂架构,在资源受限的临床环境中应用受限。需要开发既高效又准确的分割方法。
- Method: 在U-Net骨干网络的编码阶段引入MetaFormer架构,将图像块转换为序列进行全局上下文建模。使用池化Transformer块替代传统Transformer模块以降低计算成本,结合Swish激活函数实现更平滑梯度和更快收敛,在瓶颈处加入空间金字塔池化增强多尺度特征提取。
- Result: 在多个医学分割基准测试中,MFEnNet达到了与最先进模型相当的准确率,同时显著降低了计算成本,证明了其高效性和有效性。
- Conclusion: MFEnNet通过集成MetaFormer架构和优化设计,实现了高效且准确的医学图像分割,为资源受限的临床环境提供了可行的解决方案,代码已开源。
[200] Uncertainty-Calibrated Explainable AI for Fetal Ultrasound Plane Classification
Olaf Yunus Laitinen Imanov
Main category: eess.IV
TL;DR: 该论文提出了一个用于胎儿超声标准切面分类的实用框架,结合不确定性估计和可解释AI方法,旨在提高模型在真实临床环境中的可靠性和可信度。
- Motivation: 胎儿超声标准切面分类对可靠的产前生物测量和异常筛查至关重要,但在实际部署中面临领域偏移、图像噪声和预测概率校准不佳等挑战,限制了其临床应用。
- Method: 综合多种不确定性估计方法(蒙特卡洛dropout、深度集成、证据学习和保形预测)与后处理和不确定性感知的解释方法(Grad-CAM变体、LIME风格局部替代模型和不确定性加权多分辨率激活图),并将这些组件映射到面向临床医生的工作流程中。
- Result: 使用FETAL_PLANES_DB作为基准,定义了一个报告协议,将准确性、校准性和选择性预测相结合,包括预期校准误差、Brier分数、覆盖风险曲线以及带有解释的结构化错误分析。
- Conclusion: 目标是提供一个可重复、与临床对齐的蓝图,用于构建在噪声采集条件下仍能保持置信度和解释可信度的胎儿超声分类器,并讨论了质量控制和人机协同审查的集成点。
[201] Scale-aware Adaptive Supervised Network with Limited Medical Annotations
Zihan Li,Dandan Shan,Yunxiang Li,Paul E. Kinahan,Qingqi Hong
Main category: eess.IV
TL;DR: SASNet提出了一种用于医学图像分割的双分支半监督学习网络,通过尺度感知自适应重加权、视图方差增强和分割回归一致性学习来解决标注稀缺、标注者差异和多尺度特征整合问题。
- Motivation: 医学图像分割在半监督学习场景下面临三大挑战:1)需要放射学专家知识的严重标注稀缺;2)不同视角和专业知识水平导致的显著标注者间差异;3)复杂解剖结构中精确边界划分的多尺度特征整合不足。现有半监督方法在小型目标分割和边界细化任务上相比全监督方法性能显著下降。
- Method: 提出SASNet(尺度感知自适应监督网络),采用双分支架构,通过三个关键创新:1)尺度感知自适应重加权策略,使用时序置信度累积动态加权像素级预测;2)视图方差增强机制,采用3D傅里叶域变换模拟标注变异性;3)通过有符号距离图算法实现分割回归一致性学习以增强边界精度。这些创新在统一优化框架中整合了空间、时序和几何一致性原则。
- Result: 在LA、Pancreas-CT和BraTS数据集上的综合评估表明,SASNet在有限标注数据下实现了优越性能,超越了最先进的半监督方法,同时接近全监督性能水平。
- Conclusion: SASNet通过创新的尺度感知自适应重加权、视图方差增强和分割回归一致性学习机制,有效解决了医学图像半监督分割中的核心挑战,在标注稀缺情况下实现了接近全监督的性能。
[202] An Explainable Agentic AI Framework for Uncertainty-Aware and Abstention-Enabled Acute Ischemic Stroke Imaging Decisions
Md Rashadul Islam
Main category: eess.IV
TL;DR: 提出一个可解释的代理AI框架,用于急性缺血性卒中成像中的不确定性感知和弃权决策支持,通过模块化代理管道实现临床安全性和透明度。
- Motivation: 现有AI模型在急性缺血性卒中成像中多为黑盒预测器,缺乏不确定性意识和在模糊条件下的结构化弃权机制,这在高风险急诊放射学环境中存在严重的安全和信任问题。
- Method: 采用模块化代理管道框架:感知代理执行病灶感知图像分析,不确定性估计代理计算切片级预测可靠性,决策代理基于预定义不确定性阈值决定是否预测或弃权,并集成视觉解释机制。
- Result: 在代表性卒中成像场景中,不确定性驱动的弃权自然出现在诊断模糊区域和低信息切片中,框架能够支持预测和弃权决策的可视化解释。
- Conclusion: 代理控制、不确定性意识和选择性弃权是开发安全可信赖的医学成像AI系统的关键设计原则,而非仅仅追求分割或分类准确性。
[203] YODA: Yet Another One-step Diffusion-based Video Compressor
Xingchen Li,Junzhe Zhang,Junqi Shi,Ming Lu,Zhan Ma
Main category: eess.IV
TL;DR: YODA是一种基于一步扩散模型的视频压缩方法,通过嵌入多尺度时间参考特征来利用时空相关性,使用线性Diffusion Transformer进行高效一步去噪,在感知指标上达到SOTA。
- Motivation: 现有的一步扩散模型在图像压缩中表现出色,但在视频压缩中应用有限。先前的方法通常使用预训练的2D自编码器独立生成每帧潜在表示,忽略了时间依赖性,无法充分利用时空相关性。
- Method: 提出YODA视频压缩器:1)嵌入多尺度时间参考特征用于潜在生成和潜在编码,以更好地利用时空相关性获得更紧凑表示;2)采用线性Diffusion Transformer进行高效的一步去噪。
- Result: 在LPIPS、DISTS、FID和KID等感知指标上达到最先进性能,一致优于传统和深度学习基线方法。
- Conclusion: YODA通过有效利用时空相关性和高效的一步扩散模型,在视频压缩的感知质量方面取得了显著改进,为视频压缩提供了新的解决方案。
[204] Seamlessly Natural: Image Stitching with Natural Appearance Preservation
Gaetane Lorna N. Tchana,Damaris Belle M. Fotso,Antonio Hendricks,Christophe Bobda
Main category: eess.IV
TL;DR: SENA提出了一种几何驱动的图像拼接方法,通过分层仿射变换、几何驱动的充足区域检测和锚点接缝切割,解决了传统基于单应性方法在视差和深度变化场景中的结构失真问题。
- Motivation: 传统图像拼接依赖单应性对齐,但刚性平面假设在具有显著视差和深度变化的双摄像头场景中经常失败,导致可见扭曲和球形膨胀等失真。需要一种能保持结构保真度的方法来处理真实世界中的挑战性场景。
- Method: 1. 分层仿射变换策略:结合全局仿射初始化、局部仿射细化和平滑自由形变,保持局部形状、平行性和纵横比;2. 几何驱动的充足区域检测:从RANSAC过滤的特征对应关系的视差一致性中识别视差最小化区域,无需语义分割;3. 基于锚点的接缝切割和分割:在充足区域上执行,通过构造强制执行图像对之间的一对一几何对应关系。
- Result: 在挑战性数据集上的广泛实验表明,SENA在配准精度上与领先的单应性方法相当,同时在形状保持、纹理完整性和整体视觉真实感等关键视觉指标上显著优于这些方法。
- Conclusion: SENA通过几何驱动的方法有效解决了传统图像拼接在视差和深度变化场景中的结构失真问题,实现了更自然的全景图像拼接,避免了鬼影、重复和涂抹伪影。
[205] Sim2Real SAR Image Restoration: Metadata-Driven Models for Joint Despeckling and Sidelobes Reduction
Antoine De Paepe,Pascal Nguyen,Michael Mabelle,Cédric Saleun,Antoine Jouadé,Jean-Christophe Louvigne
Main category: eess.IV
TL;DR: 提出一个统一的神经网络框架,同时处理SAR图像的去斑和旁瓣抑制问题,使用MOCEM生成的模拟数据集训练,并利用采集元数据提升恢复性能。
- Motivation: SAR图像存在斑点噪声和亮目标旁瓣问题,现有方法通常将去斑和旁瓣抑制作为独立任务处理,缺乏统一的解决方案。
- Method: 使用MOCEM生成逼真的SAR模拟数据集,构建神经网络框架联合处理去斑和旁瓣抑制,并将采集元数据作为辅助输入。
- Result: 框架在真实SAR图像上表现出有效的模拟到真实(Sim2Real)迁移能力,结合元数据输入进一步提升了恢复性能。
- Conclusion: 提出的统一框架能有效同时处理SAR图像的去斑和旁瓣抑制问题,利用模拟数据和元数据实现了从模拟到真实场景的有效迁移。
Powered by Deepseek & arXiv Daily AI Enhanced