Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Domain-Specific Self-Supervised Pre-training for Agricultural Disease Classification: A Hierarchical Vision Transformer Study
Arnav S. Sonavane
Main category: cs.CV
TL;DR: 在农业病害分类中,领域特定的自监督预训练(SimCLR)比层次架构设计带来更大的精度提升,且该优势是架构无关的。
- Motivation: 研究领域特定自监督预训练对农业病害分类的影响,比较预训练与架构设计对性能的相对贡献。
- Method: 使用层次视觉变换器(HierarchicalViT,HVT),在三个农业病害数据集上评估SimCLR预训练效果,并与Swin-Base、ViT-Base等架构对比。
- Result: SimCLR预训练仅用3000张无标签农业图像即可带来+4.57%的精度提升,超过层次架构设计的+3.70%增益。该预训练优势在Swin-Base(+4.08%)和ViT-Base(+4.20%)上同样存在,证明其架构无关性。HVT-Base在参数量相近时比Swin-Base高+1.68%精度。
- Conclusion: 在农业病害分类任务中,领域特定的自监督预训练比架构选择更重要,实践者应优先收集领域数据而非纠结于架构设计。
[2] Multi-modal MRI-Based Alzheimer's Disease Diagnosis with Transformer-based Image Synthesis and Transfer Learning
Jason Qiu
Main category: cs.CV
TL;DR: 提出3D TransUNet框架,从常规T1加权MRI预测扩散MRI的FA和MD图,提升阿尔茨海默病早期诊断准确率
- Motivation: 阿尔茨海默病早期检测至关重要,但常规T1加权MRI只能检测晚期宏观变化,而扩散MRI能检测早期微观异常但扫描时间长且易受运动伪影影响,限制了临床应用
- Method: 使用3D TransUNet图像合成框架,直接从T1加权MRI预测扩散MRI的分数各向异性(FA)和平均扩散率(MD)图
- Result: 模型生成高质量FA和MD图,结构相似性指数超过0.93,与真实扩散MRI的皮尔逊相关系数>0.94;合成特征使AD分类准确率提升5%(78.75%→83.75%),轻度认知障碍检测提升12.5%
- Conclusion: 从常规T1加权MRI可以推断高质量的扩散微观结构信息,将多模态成像优势扩展到无法获取扩散数据的场景,有望提高AD诊断的可及性、效率和准确性
[3] PointSLAM++: Robust Dense Neural Gaussian Point Cloud-based SLAM
Xu Wang,Boyao Han,Xiaojun Chen,Ying Liu,Ruihui Li
Main category: cs.CV
TL;DR: PointSLAM++:基于层次约束神经高斯表示的RGB-D SLAM系统,通过渐进姿态优化和动态神经表示图,在深度噪声下实现高精度三维重建和逼真渲染。
- Motivation: 当前SLAM方法在深度噪声存在时难以保持结构一致性和鲁棒的姿态估计,而实时三维重建对机器人和增强现实应用至关重要。
- Method: 1. 使用层次约束神经高斯表示保持结构关系并生成高斯基元;2. 采用渐进姿态优化减轻深度传感器噪声;3. 利用动态神经表示图根据局部几何复杂度调整高斯节点分布。
- Result: PointSLAM++在重建精度和渲染质量上优于现有的基于3DGS的SLAM方法,展示了其在大规模AR和机器人应用中的优势。
- Conclusion: PointSLAM++通过创新的神经表示和优化策略,实现了高精度的三维建图和逼真的场景渲染,为机器人和增强现实应用提供了有效的实时三维重建解决方案。
[4] Handcrafted Feature-Assisted One-Class Learning for Artist Authentication in Historical Drawings
Hassan Ugail,Jan Ritch-Frel,Irina Matuzava
Main category: cs.CV
TL;DR: 提出基于单类自编码器的历史绘画认证框架,使用手工特征在小型参考集上训练,在900次验证中达到83.3%真接受率和9.5%假接受率
- Motivation: 纸质作品的身份验证和归属鉴定在文化遗产领域面临持续挑战,特别是当参考语料库较小且风格线索主要通过线条和有限的色调变化表达时
- Method: 使用单类自编码器训练历史绘画认证验证器,基于手工特征(傅里叶域能量、香农熵、全局对比度、GLCM同质性、分形复杂度),在多个博物馆的真实素描数据集上训练10个艺术家特定验证器
- Result: 在900次验证决策中,系统在选定操作点达到83.3%真接受率和9.5%假接受率。性能因艺术家而异,部分验证器假接受率接近零,部分则存在混淆
- Conclusion: 该方法旨在补充而非取代鉴赏家判断,为历史素描归属鉴定中常见的数据稀缺场景提供可重复的定量证据,假接受分析揭示了与风格接近性和共享绘画惯例一致的结构化错误路径
[5] A one-step generation model with a Single-Layer Transformer: Layer number re-distillation of FreeFlow
Haonan Wei,Linyuan Wang,Nuolin Sun,Zhizhong Zheng,Lei Li,Bin Yan
Main category: cs.CV
TL;DR: 提出SLT(单层Transformer),通过蒸馏将FreeFlow的28层Transformer压缩为单个共享DiT块,参数量从675M降至4.3M,并利用其快速采样能力筛选高质量初始噪声点,提升一步生成的稳定性和质量。
- Motivation: 当前流匹配方法旨在将扩散模型的迭代生成过程压缩到少数甚至单步,但现有方法如FreeFlow仍使用28层Transformer架构。观察到该架构可视为ODE沿深度轴的欧拉离散化,因此希望通过蒸馏减少层数,同时利用轻量模型快速筛选高质量初始噪声点来提升生成质量。
- Method: 将FreeFlow的28层Transformer视为ODE的深度离散化,蒸馏出SLT(单层Transformer):1)使用单个共享DiT块近似28层教师模型的深度特征演化;2)训练时匹配教师中间特征在多个深度补丁的表示;3)融合补丁级表示并对齐教师的最终速度预测;4)利用SLT快速采样能力在噪声空间筛选候选点,为教师模型选择高质量初始点。
- Result: 成功将参数量从675M压缩至4.3M(减少99.4%)。在相当于教师模型两次随机采样的时间预算内,能进行超过100次噪声筛选,并通过教师模型使用选定点生成高质量样本。有效避免了有限采样次数下低质量初始噪声引起的质量波动,显著提升了一步生成的稳定性和平均质量。
- Conclusion: SLT通过蒸馏实现了极致的模型压缩,同时利用轻量模型的快速采样能力优化初始噪声选择,为一步生成提供了稳定且高质量的解决方案,在保持生成质量的同时大幅降低了计算成本。
[6] Compress to Focus: Efficient Coordinate Compression for Policy Optimization in Multi-Turn GUI Agents
Yurun Song,Jiong Yin,Rongjunchen Zhang,Ian G. Harris
Main category: cs.CV
TL;DR: CCPO是一个用于多轮GUI代理的高效策略优化框架,通过坐标感知空间压缩和基于距离的优势函数,在保持性能的同时实现高达55%的token压缩和3.8倍训练加速。
- Motivation: 多轮GUI代理在处理复杂任务时会积累大量交互历史,导致严重的上下文膨胀问题。现有方法要么通过截断牺牲长期上下文,要么通过token剪枝破坏空间结构,需要一种既能保持上下文完整性又能高效处理的方法。
- Method: 提出了坐标压缩策略优化(CCPO)框架,包含两个核心组件:1)坐标感知空间压缩(CASC),通过聚合多个rollout的坐标信息来捕获目标相关区域,并逐步缩小历史注意力范围;2)基于距离的优势函数,提供基于距离而非二元正确性的细粒度学习信号。
- Result: 在四个基准测试中达到最先进性能,实现高达55%的token压缩和3.8倍的训练加速,同时提高了接地准确性和压缩质量。
- Conclusion: CCPO通过将视觉压缩与策略优化相结合,有效解决了多轮GUI代理的上下文膨胀问题,在保持性能的同时显著提升了计算效率。
[7] KG-ViP: Bridging Knowledge Grounding and Visual Perception in Multi-modal LLMs for Visual Question Answering
Zhiyang Li,Ao Ke,Yukun Cao,Xike Xie
Main category: cs.CV
TL;DR: KG-ViP通过融合场景图和常识图来解决MLLMs在VQA中的知识幻觉和细粒度视觉感知不足问题,显著提升了VQA性能。
- Motivation: 多模态大语言模型在视觉问答中存在两个主要问题:知识幻觉(生成与视觉内容无关的知识)和细粒度视觉感知不足。研究发现场景图和常识图分别能解决这两个问题,但现有工作通常将它们孤立处理,忽略了它们的协同潜力。
- Method: 提出KG-ViP统一框架,通过检索-融合流程将场景图和常识图融合。使用查询作为语义桥梁,逐步整合两种图结构,生成统一的结构化上下文,支持可靠的多模态推理。
- Result: 在FVQA 2.0+和MVQA基准测试中,KG-ViP显著优于现有的VQA方法,证明了融合场景图和常识图的有效性。
- Conclusion: 场景图和常识图的融合能够有效解决MLLMs在VQA中的知识幻觉和细粒度视觉感知问题,KG-ViP框架展示了这种融合策略的协同优势。
[8] Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
Xuchen Li,Xuzhao Li,Renjie Pi,Shiyu Hu,Jian Zhao,Jiahui Gao
Main category: cs.CV
TL;DR: ViEBench是一个过程可验证的视觉推理基准,包含200张多场景高分辨率图像和专家标注的视觉证据,通过双轴矩阵提供细粒度评估指标,用于诊断视觉语言模型在感知和推理任务中的真实推理能力。
- Motivation: 现有视觉语言模型评估主要依赖结果导向的准确率,缺乏评估模型是否能够准确利用细粒度视觉线索进行多步推理的能力,无法验证推理过程的真实性。
- Method: 提出ViEBench基准,包含200张多场景高分辨率图像和专家标注的视觉证据,将任务按难度分为感知和推理两个维度,引入双轴矩阵提供四个诊断象限的细粒度评估指标。
- Result: 实验发现:(1) VLMs有时能基于无关区域产生正确答案;(2) 模型可能成功定位正确证据但仍无法利用它得出准确结论。ViEBench能够更全面地评估VLMs的有效性。
- Conclusion: ViEBench作为一个更可解释和实用的基准,能够全面评估视觉语言模型在视觉推理过程中的真实性,揭示了现有模型在推理过程中的局限性。
[9] When Rules Fall Short: Agent-Driven Discovery of Emerging Content Issues in Short Video Platforms
Chenghui Yu,Hongwei Wang,Junwen Chen,Zixuan Wang,Bingfeng Deng,Zhuolin Hao,Hongyu Xiong,Yang Song
Main category: cs.CV
TL;DR: 基于多模态LLM代理的自动问题发现方法,用于短视频平台新兴内容问题的快速发现和标注策略更新
- Motivation: 短视频平台内容趋势快速演变,传统人工发现问题速度太慢,导致标注策略更新延迟,影响内容治理效果
- Method: 使用多模态LLM代理自动召回潜在新问题的短视频,采用两阶段聚类策略分组,每个聚类对应一个新发现的问题,代理从聚类生成更新的标注策略
- Result: 部署到真实系统,离线和在线实验显示:新兴问题发现效果显著提升(F1分数提高超20%),后续问题治理性能增强(问题视频观看量减少约15%),大幅降低时间成本并加速标注策略迭代
- Conclusion: 基于多模态LLM代理的自动问题发现方法能有效解决短视频平台新兴内容问题的快速发现和治理问题,相比人工方法具有显著优势
[10] Now You See Me, Now You Don't: A Unified Framework for Expression Consistent Anonymization in Talking Head Videos
Anil Egin,Andrea Tangherloni,Antitza Dantcheva
Main category: cs.CV
TL;DR: 提出Anon-NET框架,通过扩散生成模型和视频驱动动画实现面部视频去身份化,同时保留年龄、性别、种族、姿态和表情等属性。
- Motivation: 在保护隐私的同时,允许视频分析用于表情识别、人员跟踪和动作识别等下游计算机视觉任务,需要一种既能去身份化又能保留重要视觉属性的方法。
- Method: 使用扩散生成模型进行面部修复,通过高级属性识别和运动感知表情转移引导,然后通过视频驱动动画对去身份化面部进行动画处理。
- Result: 在VoxCeleb2、CelebV-HQ和HDTF数据集上的实验表明,Anon-NET能有效混淆身份,同时保持视觉真实性和时间一致性。
- Conclusion: Anon-NET提供了一个统一的框架,能够在保护隐私的同时保留重要的面部属性,为视频分析任务提供了实用的解决方案。
[11] Evaluating Self-Correcting Vision Agents Through Quantitative and Qualitative Metrics
Aradhya Dixit
Main category: cs.CV
TL;DR: 本文提出了一个诊断微基准来评估视觉语言代理的自我修正能力,揭示了初始任务成功率与修正成功率之间的显著差距,并识别了语义漂移作为主要失败原因。
- Motivation: 尽管多模态基础模型使得视觉语言代理能够将复杂视觉任务分解为可执行的工具计划,但现有基准对迭代自我修正的评估有限,其定量限制和主要推理瓶颈尚未得到充分表征。
- Method: 引入诊断微基准,将任务成功率与修正成功率解耦分析,量化修正的递减回报(三次重试后饱和),并通过失败分类法识别主要失败原因。
- Result: 任务成功率为62%,但修正成功率仅为25-33%,表明初始能力无法预测修复能力。修正效果在三次重试后饱和,语义漂移(约28%的失败)是主要的推理瓶颈。
- Conclusion: 该基准通过隔离语义漂移这一推理瓶颈,为开发具有状态保持能力、可信赖的多模态代理提供了一个可复现的评估框架。
[12] Confident Learning for Object Detection under Model Constraints
Yingda Yu,Jiaqi Xuan,Shuhui Shi,Xuanyu Teng,Shuyang Xu,Guanchao Tong
Main category: cs.CV
TL;DR: 提出MDDC框架,通过数据质量诊断与修正提升边缘设备杂草检测性能,在固定轻量检测器下实现5-25%的mAP提升
- Motivation: 边缘设备上的农业杂草检测面临严格的计算资源、模型容量和实时推理延迟限制,无法通过模型缩放或集成来提升性能,需要数据层面的优化方案
- Method: 提出模型驱动数据修正(MDDC)框架,通过自动错误分析将检测失败分为四类(假阴性、假阳性、类别混淆、定位错误),采用结构化训练-修复-再训练流程和版本控制数据管理
- Result: 在多个杂草检测数据集上,使用固定轻量检测器(YOLOv8n)实现了5-25%的mAP@0.5一致提升
- Conclusion: 系统化的数据质量优化能有效缓解固定模型容量约束下的性能瓶颈,为边缘设备上的农业杂草检测提供了可行的性能提升方案
[13] Mixture of Distributions Matters: Dynamic Sparse Attention for Efficient Video Diffusion Transformers
Yuxi Liu,Yipeng Hu,Zekun Zhang,Kunze Jiang,Kun Yuan
Main category: cs.CV
TL;DR: MOD-DiT提出了一种无需采样的动态注意力框架,通过两阶段过程准确建模视频生成中的注意力模式,解决了传统稀疏注意力方法在质量和效率上的局限性。
- Motivation: 扩散变换器在视频生成中面临自注意力机制的二次复杂度问题,现有稀疏注意力方法要么依赖过于简化的静态模式,要么需要计算昂贵的采样操作来实现动态稀疏性,导致模式预测不准确和生成质量下降。
- Method: 提出MOD-DiT(混合分布DiT),采用两阶段过程:1)利用早期去噪步骤的先验信息,采用分布式混合方法建模高效的线性近似模型,预测特定去噪区间的掩码模式;2)在线块掩码策略动态应用这些预测的掩码,同时保持历史稀疏信息,无需重复采样操作。
- Result: 在多个基准测试和模型架构上实现了持续的加速和质量提升,验证了MOD-DiT在高效高质量视频生成方面的有效性,克服了传统稀疏注意力方法的计算限制。
- Conclusion: MOD-DiT通过采样自由的动态注意力框架,准确建模演化中的注意力模式,为视频生成任务提供了既高效又高质量的解决方案,突破了传统稀疏注意力方法的局限性。
[14] PSSF: Early osteoarthritis detection using physical synthetic knee X-ray scans and AI radiomics models
Abbas Alzubaidi,Ali Al-Bayaty
Main category: cs.CV
TL;DR: 提出基于物理的合成模拟框架(PSSF)生成可控的膝关节X光片,用于解决OA评估中数据隐私和获取困难的问题,通过机器学习模型进行KL分级预测。
- Motivation: 膝关节骨关节炎是全球主要致残原因,目前主要依赖主观的KL分级评估。AI和影像组学需要大量标注的X光数据,但受隐私、管理和资源限制难以获取。
- Method: 开发物理基础的合成模拟框架(PSSF),从参数化解剖模型生成膝关节前后位X光片。创建180名受试者(260个膝盖)的虚拟队列,采用三种成像协议。使用IBSI标准处理内侧关节区域,采用逻辑回归、随机森林和梯度提升三种ML模型进行KL分级预测。
- Result: 在IBSI协议内、跨协议和多协议场景下评估了模型的鲁棒性,并通过类内相关系数评估了特征在不同采集条件下的稳定性。
- Conclusion: PSSF框架能够生成可控的合成X光片,解决了数据获取的隐私和资源限制问题,为OA的定量评估提供了可行的替代方案。
[15] Predicting When to Trust Vision-Language Models for Spatial Reasoning
Muhammad Imran,Yugyung Lee
Main category: cs.CV
TL;DR: 提出视觉语言模型空间预测置信度估计框架,通过几何验证提升可靠性,在BLIP-2上AUROC提升34%,选择性预测覆盖率提升2.2倍
- Motivation: 视觉语言模型在空间推理任务中表现不佳(准确率仅49-54%),但在机器人等安全关键应用中需要可靠预测。现有基于文本的自评估方法效果有限,需要外部几何验证来评估预测可信度。
- Method: 提出基于视觉的置信度估计框架,通过目标检测进行独立几何验证。融合四个信号:VLM预测与坐标的几何对齐度、空间重叠的模糊性、检测质量、VLM内部不确定性,使用梯度提升进行融合。
- Result: 在BLIP-2上AUROC达到0.674(提升34%),CLIP上0.583(提升16.1%)。在60%目标准确率下,BLIP-2覆盖率61.9% vs 基线27.6%(2.2倍提升)。特征分析显示视觉信号贡献87.4%重要性。
- Conclusion: 外部几何验证比自评估更有效,能显著提升VLM空间预测可靠性。该框架可实现选择性预测,在场景图构建中将精度从52.1%提升至78.3%,同时保留68.2%边。
[16] IMSAHLO: Integrating Multi-Scale Attention and Hybrid Loss Optimization Framework for Robust Neuronal Brain Cell Segmentation
Ujjwal Jain,Oshin Misra,Roshni Chakraborty,Mahua Bhattacharya
Main category: cs.CV
TL;DR: 提出IMSAHLO框架,结合多尺度注意力与混合损失优化,用于荧光显微镜神经元细胞分割,解决密集/稀疏细胞共存、形态复杂重叠和类别不平衡问题。
- Motivation: 荧光显微镜神经元分割面临密集与稀疏细胞共存、复杂重叠形态和严重类别不平衡等挑战,传统深度学习方法难以保持精细拓扑细节和准确边界划分。
- Method: 提出IMSAHLO框架,包含多尺度密集块(MSDBs)捕获不同感受野特征,分层注意力(HA)机制聚焦形态特征,以及结合Tversky损失、Focal损失、中心线Dice损失和轮廓加权边界损失的混合损失函数。
- Result: 在公开FNC数据集上,IMSAHLO在密集和稀疏案例中达到81.4%精度、82.7%宏F1分数、83.3%微F1分数和99.5%平衡准确率,优于现有最先进方法。
- Conclusion: IMSAHLO框架通过多尺度注意力与混合损失优化,实现了鲁棒自适应的神经元分割,为生物医学图像分析建立了可推广的基础,推动AI辅助分析向高通量神经生物学流程发展。
[17] Aesthetics as Structural Harm: Algorithmic Lookism Across Text-to-Image Generation and Classification
Miriam Doh,Aditya Gulati,Corina Canali,Nuria Oliver
Main category: cs.CV
TL;DR: 研究发现文本到图像生成AI存在系统性"算法外貌主义"偏见,将面部吸引力与正面属性关联,并在性别分类任务中表现出显著性别偏见,女性面孔误分类率更高。
- Motivation: 研究动机是揭示生成式AI系统中存在的系统性外貌偏见(算法外貌主义),这种偏见将物理外貌与社会建构属性(如吸引力与正面特质)错误关联,并在下游任务中加剧性别不平等。
- Method: 使用Stable Diffusion 2.1和3.5 Medium生成26,400张合成人脸,分析生成AI模型如何系统地将面部吸引力与正面属性关联,并评估三个性别分类算法在不同属性输入面孔上的表现差异。
- Result: 研究发现:(1) T2I模型系统编码吸引力-正面属性关联;(2) 性别分类系统中女性面孔(特别是带有负面属性的)误分类率显著高于男性;(3) 新模型通过年龄同质化、性别化暴露模式和地理简化加剧审美约束。
- Conclusion: 算法外貌主义是跨AI视觉系统的系统性基础设施,通过表征和识别两方面加剧现有不平等。研究揭示了生成AI如何反映和强化社会建构的偏见而非经验事实。
[18] PSSI-MaxST: An Efficient Pixel-Segment Similarity Index Using Intensity and Smoothness Features for Maximum Spanning Tree Based Segmentation
Kaustubh Shivshankar Shejole,Gaurav Mishra
Main category: cs.CV
TL;DR: 提出基于像素段相似性指数(PSSI)和最大生成树(MaxST)的交互式图分割方法,在GrabCut和Images250数据集上优于现有方法
- Motivation: 现有交互式图分割方法存在计算成本高、对用户交互敏感、前景背景颜色相似时性能下降等问题,需要更鲁棒的相似性度量
- Method: 提出PSSI相似性度量(利用像素强度和空间平滑特征的通道间相似性调和平均),结合MeanShift低层分割构建像素-段图,使用MaxST进行分割
- Result: 在GrabCut和Images250数据集上,在IoU、F1分数、执行时间和平均误差等指标上优于AMOE、OneCut、SSNCut等现有方法
- Conclusion: PSSI相似性度量结合MeanShift和MaxST能有效捕捉颜色相似性、平滑性、纹理、形状和强局部连接性,显著提升交互式分割性能
[19] Zeros can be Informative: Masked Binary U-Net for Image Segmentation on Tensor Cores
Chunshu Wu,Ruibing Song,Sushant Kondguli,Tong Geng,Ang Li
Main category: cs.CV
TL;DR: MBU-Net:一种通过掩码二进制权重和二进制激活的U-Net变体,在保持接近全精度准确率的同时,在GPU上实现2.04倍加速和3.54倍能耗降低。
- Motivation: 实时图像分割在AR/VR、机器人、无人机和自动驾驶等边缘设备上需要满足严格的准确率、延迟和能耗要求。虽然U-Net相比大型Transformer模型在准确率和效率上有优势,但在高分辨率输入上实现实时性能仍面临计算、内存和功耗限制。极端量化(特别是二进制网络)因其硬件友好的操作而具有吸引力,但存在严重准确率下降和缺乏端到端GPU实现的问题。
- Method: 提出Masked Binary U-Net (MBU-Net),基于两个经验观察:1)显式零状态至关重要,通过零掩码训练二进制U-Net权重会产生显著稀疏性;2)各层量化敏感性均匀。采用成本感知掩码策略,优先在准确率-成本比最高的地方进行掩码,平衡准确率与接近二进制的效率。开发GPU执行框架,通过减法位编码方案将MBU-Net映射到Tensor Core,利用原生二进制Tensor Core BMMA指令实现高效计算。
- Result: 在3个分割基准测试中,MBU-Net达到接近全精度准确率(平均下降3%),相比16位浮点U-Net实现2.04倍加速和3.54倍能耗降低。
- Conclusion: MBU-Net通过掩码二进制权重和二进制激活,在保持高准确率的同时显著提升效率,为资源受限边缘设备上的实时图像分割提供了实用解决方案,并通过GPU框架实现了理论优势的实际转化。
[20] LTV-YOLO: A Lightweight Thermal Object Detector for Young Pedestrians in Adverse Conditions
Abdullah Jirjees,Ryan Myers,Muhammad Haris Ikram,Mohamed H. Zaki
Main category: cs.CV
TL;DR: 提出LTV-YOLO轻量级热成像检测模型,专门用于恶劣天气和低光照条件下检测儿童等易受伤害道路使用者,基于YOLO11架构优化,适用于边缘设备实时运行。
- Motivation: 在低光照和恶劣天气条件下,传统RGB摄像头难以可靠检测儿童和青少年等易受伤害道路使用者,这对计算机视觉、监控和自动驾驶系统的行人安全构成重大挑战。
- Method: 基于YOLO11架构开发LTV-YOLO模型,采用长波红外热成像技术,集成深度可分离卷积和特征金字塔网络,专门针对热成像检测进行优化,专注于小尺度、部分遮挡和热特征明显的VRU检测。
- Result: LTV-YOLO在计算效率、准确性和实时性能方面表现优异,能够在边缘设备上实现强性能检测,特别是在恶劣条件下检测小尺度、部分遮挡的易受伤害道路使用者。
- Conclusion: 该研究为智能交通系统提供了实用且可扩展的解决方案,特别适用于学校区域、自主导航和智慧城市基础设施,通过热成像技术显著提升了恶劣条件下的行人安全。
[21] UAV-Based Infrastructure Inspections: A Literature Review and Proposed Framework for AEC+FM
Amir Farzin Nikkhah,Dong Chen,Bradford Campbell,Somayeh Asadi,Arsalan Heydarian
Main category: cs.CV
TL;DR: 这篇综述论文系统分析了无人机在AEC+FM领域基础设施检测中的应用,涵盖数据采集、建模、缺陷检测和决策支持,提出了融合多模态数据和自适应路径规划的框架,并指出了未来研究方向。
- Motivation: 无人机正在改变建筑、工程、施工和设施管理领域的基础设施检测方式,但现有方法在实时处理、多模态数据融合和泛化能力方面仍面临挑战,需要系统性的框架来整合先进技术。
- Method: 通过综合分析150多项研究,提出一个集成RGB图像、LiDAR和热传感数据的工作流程框架,结合基于transformer的架构,并采用动态自适应路径规划来应对复杂环境。
- Result: 无人机已在结构健康监测、灾害响应、城市基础设施管理、能源效率评估和文化遗产保护中证明价值,提出的框架能提高结构缺陷、热异常和几何不一致检测的准确性和可靠性。
- Conclusion: 无人机基础设施检测需要进一步发展轻量级AI模型、自适应飞行规划、合成数据集和更丰富的模态融合技术,以应对实时处理、数据融合和泛化能力等挑战。
[22] MATEX: Multi-scale Attention and Text-guided Explainability of Medical Vision-Language Models
Muhammad Imran,Chi Lee,Yugyung Lee
Main category: cs.CV
TL;DR: MATEX是一个用于医学视觉-语言模型的可解释性框架,通过结合多尺度注意力、文本引导空间先验和层一致性分析,生成精确、稳定且临床相关的梯度归因图,在MS-CXR数据集上超越了现有方法。
- Motivation: 现有医学视觉-语言模型的可解释性方法存在空间不精确、缺乏解剖学基础、注意力粒度有限等问题,限制了模型在放射学AI应用中的可信度和透明度。
- Method: MATEX框架结合了多层注意力展开、文本引导空间先验和层一致性分析,通过解剖学信息增强的空间推理来生成精确的梯度归因图。
- Result: 在MS-CXR数据集上,MATEX在空间精度和与专家标注结果的对齐度方面均超越了当前最先进的M2IB方法。
- Conclusion: MATEX通过提供更忠实和可解释的模型解释,有望增强放射学AI应用中的信任和透明度,为临床决策提供更有价值的支持。
[23] Generating metamers of human scene understanding
Ritik Raina,Abe Leite,Alexandros Graikos,Seoyoung Ahn,Dimitris Samaras,Gregory J. Zelinsky
Main category: cs.CV
TL;DR: MetamerGen:基于人类视觉感知机制(中央凹高分辨率+周边低分辨率信息)的潜在扩散模型,能生成与人类场景理解对齐的图像元匹配
- Motivation: 人类视觉通过结合周边低分辨率"要点"信息和注视点高分辨率信息来理解场景,但现有模型未能充分模拟这种感知机制。需要开发能生成与人类潜在场景表征对齐的图像工具。
- Method: 提出MetamerGen——双流潜在扩散模型:使用DINOv2 tokens融合注视点的详细特征和周边降级的上下文特征,处理中央凹化场景的图像到图像合成问题。
- Result: 通过行为实验(相同/不同判断)验证生成图像与人类潜在场景表征的对齐性,发现基于观看者自身注视区域生成的场景在高层语义对齐上最能预测元匹配性。
- Conclusion: MetamerGen是理解场景理解的有力工具,揭示了多级视觉处理特征对人类判断的贡献,为研究人类视觉感知机制提供了新方法。
[24] Conformal Point and the Calibrated Conic
Richard Hartley
Main category: cs.CV
TL;DR: 该论文探讨了共形点和校准圆锥的概念及其相互关系,这些概念有助于图像几何可视化,并为计算图像中的角度和方向等几何属性提供了直观方法。
- Motivation: 论文旨在开发更直观的图像几何可视化工具,通过引入共形点和校准圆锥的概念,简化图像中几何属性(如角度和方向)的计算过程。
- Method: 提出了共形点和校准圆锥的数学框架,并建立了它们之间的相互关系,利用这些概念来可视化图像几何并计算几何属性。
- Result: 建立了共形点与校准圆锥之间的明确关系,展示了这些概念如何提供直观的图像几何可视化方法,并简化了角度和方向等几何属性的计算。
- Conclusion: 共形点和校准圆锥为图像几何分析提供了有效的数学工具,能够实现直观的可视化并简化几何计算,对计算机视觉和图像处理领域有实用价值。
[25] Telling Human and Machine Handwriting Apart
Luis A. Leiva,Moises Diaz,Nuwan T. Attygalle,Miguel A. Ferrer,Rejean Plamondon
Main category: cs.CV
TL;DR: 该研究提出使用手写运动作为行为生物特征来检测输入是否由人类生成,通过训练浅层循环神经网络在多个数据集和合成器上实现了高精度的人类/合成手写分类。
- Motivation: 手写运动可作为独特的生物特征来验证设备或应用是否由真实用户操作,这相当于一种反向图灵测试,计算机需要检测输入是由人类还是人工生成的。该研究旨在为需要验证人类存在的计算机系统提供额外的安全层。
- Method: 研究使用10个公开手写符号数据集(包括孤立字符、数字、手势、指向轨迹和签名),通过7种不同的合成器(包括运动学理论、生成对抗网络、Transformers和扩散模型)人工复制。训练一个浅层循环神经网络,使用非特征化的轨迹数据作为输入进行分类。
- Result: 模型在所有合成器和数据集上平均达到98.3%的ROC曲线下面积(AUC)和1.4%的等错误率。在少样本设置中,仅使用10%数据训练就能在剩余90%测试数据上保持优异性能。在域外设置中也表现出很强的竞争力。
- Conclusion: 该研究表明手写运动可作为有效的生物特征来区分人类和合成输入,为计算机系统验证人类存在提供了实用解决方案,能有效增强安全性以抵御攻击者。
[26] SemAlign: Language Guided Semi-supervised Domain Generalization
Muditha Fernando,Kajhanan Kailainathan,Krishnakanth Nagaratnam,Isuranga Udaravi Bandara Senavirathne,Ranga Rodrigo
Main category: cs.CV
TL;DR: 提出一种新的半监督域泛化方法,通过将模型中间特征与视觉语言模型的语义丰富特征空间对齐来提升性能,结合数据增强和正则化策略实现SOTA结果。
- Motivation: 现有SSDG方法过度关注伪标签精度而忽视训练期间的数据最大化利用,限制了性能提升潜力。需要一种既能利用有限标注数据又能有效泛化到未见域的方法。
- Method: 1) 将模型中间特征与视觉语言模型(VLM)的语义丰富且泛化的特征空间对齐,以促进域不变性;2) 结合有效的图像级增强和输出级正则化策略,提高数据利用并减少过拟合。
- Result: 在四个基准测试上与现有SSDG基线相比,该方法在定性和定量上都达到了最先进(SOTA)的结果。
- Conclusion: 通过将模型特征与VLM特征空间对齐,并结合增强和正则化策略,能够有效解决SSDG问题,实现更好的泛化性能。代码将公开。
[27] SpaRRTa: A Synthetic Benchmark for Evaluating Spatial Intelligence in Visual Foundation Models
Turhan Can Kargin,Wojciech Jasiński,Adam Pardyl,Bartosz Zieliński,Marcin Przewięźlikowski
Main category: cs.CV
TL;DR: 论文提出了SpaRRTa基准测试,用于评估视觉基础模型的空间关系识别能力,发现现有模型在空间推理方面存在显著差异。
- Motivation: 现有视觉基础模型(如DINO和CLIP)在语义理解方面表现出色,但空间推理能力有限,这限制了它们在具身系统中的应用。虽然近期研究尝试将3D任务(如深度估计)融入VFM训练,但模型在不同空间任务上的表现不一致,引发了对这些模型是否真正具备空间意识还是仅过拟合特定3D目标的疑问。
- Method: 提出了空间关系识别任务(SpaRRTa)基准测试,用于评估VFM识别图像中物体相对位置的能力。该基准生成任意数量的逼真图像,包含多样化场景和完全可控的物体排列,并提供可自由访问的空间标注。
- Result: 评估了一系列最先进的VFM,揭示了它们在空间推理能力上的显著差异。通过分析,提供了对现代VFM中支持或阻碍空间意识机制的见解。
- Conclusion: SpaRRTa基准测试可作为指导未来空间感知视觉模型开发的有用工具,帮助提升视觉基础模型的空间理解能力。
[28] From Pixels to Purchase: Building and Evaluating a Taxonomy-Decoupled Visual Search Engine for Home Goods E-commerce
Cheng Lyu,Jingyue Zhang,Ryan Maunu,Mengwei Li,Vinny DeGenova,Yuanli Pei
Main category: cs.CV
TL;DR: 提出一种解耦分类法的视觉搜索架构和基于LLM的零样本评估框架,在电商家居平台部署后提升了检索质量和用户参与度
- Motivation: 现有电商视觉搜索系统通常将目标检测与基于分类法的分类耦合,并依赖目录数据进行评估,这种方法容易受到噪声影响,限制了系统的鲁棒性和可扩展性,尤其是在风格驱动的领域中用户意图主观且开放的情况下
- Method: 1) 提出分类法解耦架构:使用免分类的区域提议和统一嵌入进行相似性检索;2) 提出LLM-as-a-Judge框架:以零样本方式评估查询-结果对的细微视觉相似性和类别相关性,无需人工标注或易噪声的目录数据
- Result: 在全球家居用品平台大规模部署后,系统提高了检索质量,带来了可衡量的客户参与度提升,离线评估指标与实际业务结果强相关
- Conclusion: 提出的解耦分类法架构和基于LLM的评估框架能够创建更灵活、可泛化的视觉搜索系统,有效解决现有工业系统的局限性,在实际应用中取得了显著效果
[29] studentSplat: Your Student Model Learns Single-view 3D Gaussian Splatting
Yimu Pan,Hongda Mao,Qingshuang Chen,Yelin Kim
Main category: cs.CV
TL;DR: studentSplat:一种用于单视图3D场景重建的3D高斯泼溅方法,通过教师-学生架构解决尺度模糊和外推问题,在单视图新视角重建方面达到SOTA性能。
- Motivation: 虽然前馈3D高斯泼溅在多视图3D场景重建和单视图3D物体重建方面取得了显著进展,但单视图3D场景重建由于单视图固有的模糊性问题仍未得到充分探索。需要解决尺度模糊和外推问题来实现高质量的单视图3D场景重建。
- Method: 提出studentSplat方法,包含两个关键技术:1)教师-学生架构,其中多视图教师模型在训练期间为单视图学生提供几何监督,解决尺度模糊并鼓励几何有效性;2)外推网络,用于补全缺失的场景上下文,实现高质量外推。
- Result: 大量实验表明,studentSplat在单视图新视角重建质量方面达到最先进水平,在场景级别上性能与多视图方法相当。此外,作为自监督单视图深度估计方法,studentSplat表现出竞争性性能,显示了其在通用单视图3D理解任务中的潜力。
- Conclusion: studentSplat成功解决了单视图3D场景重建中的尺度模糊和外推问题,通过教师-学生架构和外推网络实现了高质量的单视图3D场景重建,为单视图3D理解任务提供了有效的解决方案。
[30] Cross-Domain Object Detection Using Unsupervised Image Translation
Vinicius F. Arruda,Rodrigo F. Berriel,Thiago M. Paixão,Claudine Badue,Alberto F. De Souza,Nicu Sebe,Thiago Oliveira-Santos
Main category: cs.CV
TL;DR: 提出一种通过生成目标域人工数据集来训练目标检测器的方法,使用CycleGAN和AdaIN进行无监督图像翻译,在自动驾驶场景中显著提升性能并接近上限
- Motivation: 现有的无监督域自适应目标检测方法虽然通过中间特征对齐取得了不错效果,但实现复杂、难以解释,且与使用目标域数据训练的上限仍有差距
- Method: 使用CycleGAN和AdaIN两种无监督图像翻译模型,仅利用源域标注数据和目标域非标注数据,生成目标域的人工数据集来训练目标检测器
- Result: 在自动驾驶真实场景中取得显著改进,在大多数情况下超越了现有最先进方法,进一步缩小了与上限的差距
- Conclusion: 提出了一种更简单、更有效且可解释性更强的无监督域自适应目标检测方法,通过生成目标域人工数据集有效提升了检测性能
[31] Digital FAST: An AI-Driven Multimodal Framework for Rapid and Early Stroke Screening
Ngoc-Khai Hoang,Thi-Nhu-Mai Nguyen,Huy-Hieu Pham
Main category: cs.CV
TL;DR: 提出一个基于F.A.S.T.评估的多模态深度学习框架,通过面部表情、语音信号和上半身运动的融合实现快速、非侵入性的卒中筛查,在自收集数据集上达到95.83%准确率。
- Motivation: 卒中早期识别对及时干预和改善预后至关重要,特别是在院前环境中。需要开发快速、非侵入性的自动筛查方法来辅助F.A.S.T.评估。
- Method: 多模态深度学习框架:1) 面部动态使用基于landmark的特征和Transformer建模;2) 语音信号转换为mel频谱图并用Audio Spectrogram Transformer处理;3) 上半身姿态序列用MLP-Mixer网络分析时空运动模式;4) 通过注意力机制融合多模态特征。
- Result: 在37名受试者的222个视频数据集上,多模态模型优于单模态基线,达到95.83%准确率和96.00% F1分数,敏感性和特异性平衡良好,测试集中所有卒中病例均被检测出。
- Conclusion: 多模态学习和迁移学习在早期卒中筛查中具有潜力,但需要更大、更具临床代表性的数据集来支持可靠的现实世界部署。
[32] RemoteVAR: Autoregressive Visual Modeling for Remote Sensing Change Detection
Yilmaz Korkmaz,Vishal M. Patel
Main category: cs.CV
TL;DR: RemoteVAR:一种基于视觉自回归模型的变化检测框架,通过多分辨率融合双时相特征和专门设计的训练策略,在遥感变化检测任务上超越了基于扩散模型和Transformer的基线方法。
- Motivation: 遥感变化检测对于环境监测和灾害评估至关重要,但现有的视觉自回归模型在像素级判别任务中存在可控性弱、密集预测性能不佳和曝光偏差等问题,限制了其在变化检测中的应用。
- Method: 提出RemoteVAR框架:1)通过交叉注意力将自回归预测条件化于多分辨率融合的双时相特征;2)专门设计了针对变化图预测的自回归训练策略。
- Result: 在标准变化检测基准测试中,RemoteVAR相比基于扩散模型和Transformer的强基线方法,取得了持续且显著的性能提升,为遥感变化检测提供了一个有竞争力的自回归替代方案。
- Conclusion: RemoteVAR成功解决了视觉自回归模型在像素级判别任务中的局限性,展示了自回归模型在遥感变化检测任务中的潜力,代码将开源。
[33] Towards Airborne Object Detection: A Deep Learning Analysis
Prosenjit Chatterjee,ANK Zaman
Main category: cs.CV
TL;DR: 提出基于EfficientNetB4的双任务模型,同时进行空中物体分类和威胁等级预测,在AODTA数据集上达到96%分类准确率和90%威胁预测准确率
- Motivation: 随着空中平台(商用飞机、无人机、UAV)的快速增加,需要实时自动化的威胁评估系统。当前方法依赖人工监控,导致可扩展性有限和操作效率低下。
- Method: 构建AODTA数据集(聚合和精炼多个公开数据源),开发基于EfficientNetB4的双任务模型,同时执行空中物体分类和威胁等级预测,并与ResNet-50基线进行比较。
- Result: EfficientNetB4模型在物体分类上达到96%准确率,在威胁等级预测上达到90%准确率,优于ResNet-50基线。在AVD数据集和新开发的AODTA数据集上进行了基准测试。
- Conclusion: 该双任务模型在监视、防御和空域管理应用中具有潜力。虽然标题提到检测,但本研究专注于使用现有数据集提供的预定位空中物体图像进行分类和威胁等级推断。
[34] Effects of the retina-inspired light intensity encoding on color discrimination performance
Io Yamada,Hirotsugu Okuno
Main category: cs.CV
TL;DR: 研究比较了中心/周边Retinex模型中不同光强编码函数对颜色恒常性的影响,发现Naka-Rushton函数结合双拮抗颜色平面表示能提供最佳的颜色辨别性能。
- Motivation: 颜色是视觉功能的重要信息来源,但受光照颜色影响很大。颜色恒常性(CC)是视觉系统使用颜色信息的重要特性,本研究旨在探索光强编码函数对中心/周边Retinex模型颜色恒常性性能的影响。
- Method: 比较了两种光强编码函数:原始C/S Retinex模型使用的对数函数和视网膜光感受器响应模型Naka-Rushton函数。使用可变颜色LED以不同光照颜色照射视觉目标,通过每个模型计算的颜色信息来评估不同光照下颜色目标的辨别程度。颜色信息使用HSV颜色空间和基于经典拮抗颜色理论的颜色平面表示。
- Result: 结果显示,Naka-Rushton函数与双拮抗颜色平面表示的组合提供了最优的辨别性能。
- Conclusion: 在中心/周边Retinex模型中,使用Naka-Rushton函数作为光强编码函数并结合双拮抗颜色平面表示,能够显著提高颜色恒常性性能,为视觉系统颜色处理提供了更有效的模型。
[35] A Training-Free Guess What Vision Language Model from Snippets to Open-Vocabulary Object Detection
Guiying Zhu,Bowen Yang,Yin Zhuang,Tong Zhang,Guanqun Wang,Zhihao Che,He Chen,Lianlin Li
Main category: cs.CV
TL;DR: 提出GW-VLM,一种无需训练的开集目标检测方法,通过多尺度视觉语言搜索和上下文概念提示,让预训练的视觉语言模型和大语言模型玩"猜猜是什么"游戏来实现通用目标检测。
- Motivation: 现有开集目标检测方法通常忽视根据预训练基础模型建立通用目标认知的必要性。虽然大规模预训练已经构建了具有零样本能力的多功能基础模型,但如何利用这些模型形成对任何对象的通用理解范式尚未得到充分探索。
- Method: 提出GW-VLM框架:1) 多尺度视觉语言搜索(MS-VLS):利用多尺度视觉语言软对齐,从类别无关目标检测结果中生成片段;2) 上下文概念提示(CCP):基于MS-VLS形成概念流,让大语言模型理解片段以实现开集目标检测。整个方法无需训练,直接利用预训练的视觉语言模型和大语言模型。
- Result: 在自然图像数据集(COCO val, Pascal VOC)和遥感数据集(DIOR, NWPU-10)上的实验表明,GW-VLM无需任何训练步骤就能达到最先进的开集目标检测性能。
- Conclusion: GW-VLM通过创新的"猜猜是什么"游戏范式,成功构建了基于预训练基础模型的通用目标理解能力,为开集目标检测提供了一种无需训练的高效解决方案。
[36] Reliable Deep Learning for Small-Scale Classifications: Experiments on Real-World Image Datasets from Bangladesh
Muhammad Ibrahim,Alfe Suny,MD Sakib Ul Islam,Md. Imran Hossain
Main category: cs.CV
TL;DR: 紧凑型CNN在孟加拉国五个真实世界图像数据集上表现出色,验证了简化架构在小类别图像分类任务中的适用性
- Motivation: 传统CNN在图像识别任务中表现出色,但复杂架构容易在小数据集上过拟合。需要验证简化CNN架构在小类别图像分类任务中的有效性。
- Method: 使用紧凑型卷积神经网络,在孟加拉国五个公开的真实世界图像数据集上进行评估,包括城市侵占、车辆检测、道路损坏和农作物等场景。
- Result: 模型表现出高分类准确率、高效收敛和低计算开销。定量指标和显著性分析表明,模型能有效捕捉判别性特征,并在多样化场景中具有鲁棒泛化能力。
- Conclusion: 简化CNN架构在小类别图像分类任务中具有良好适用性,能够平衡性能与计算效率,特别适合资源受限的真实世界应用场景。
[37] From Spurious to Causal: Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection
Chi Wang,Xinjue Hu,Boyu Wang,Ziwen He,Zhangjie Fu
Main category: cs.CV
TL;DR: 提出一种通过低秩投影去除表示空间中虚假相关性的干预范式,以提升人脸伪造检测的泛化能力
- Motivation: 人脸伪造检测中的泛化问题源于虚假相关性因素(伪造无关信息)通过"后门路径"导致有偏学习。现有方法需要识别具体的虚假相关性并逐一解决,但虚假相关性源于不可观测的混杂因素,难以逐一识别和处理。
- Method: 提出表示空间干预范式:将各种实例级虚假相关性统一建模为低秩子空间,通过正交低秩投影将其分解出来,然后从原始表示中移除该子空间,训练其正交补空间来捕获伪造相关特征。
- Result: 仅使用0.43M可训练参数,在多个基准测试中达到最先进性能,表现出优秀的鲁棒性和泛化能力。
- Conclusion: 通过将虚假相关性统一建模为低秩子空间并进行干预,能够有效消除虚假相关因素,确保分类决策基于真实的伪造线索,解决了传统方法难以处理不可观测混杂因素的问题。
[38] Effects of Gabor Filters on Classification Performance of CNNs Trained on a Limited Number of Conditions
Akito Morita,Hirotsugu Okuno
Main category: cs.CV
TL;DR: 使用Gabor滤波器作为CNN预处理,提升边缘设备上机器人视觉应用的准确性和泛化性能,同时减小模型尺寸
- Motivation: 边缘设备上的CNN需要小型架构,机器人视觉应用需要在有限数据条件下高效训练。视觉神经系统(VNS)能从少量视觉经验中学习,因此研究其模型Gabor滤波器作为CNN预处理的效果
- Method: 使用Gabor滤波器(视觉神经系统特征提取器模型)作为CNN的预处理层,在不同CNN架构上比较有无Gabor预处理的效果。创建包含不同相机位置图像的测试数据集,评估在有限条件下训练的CNN的泛化能力
- Result: Gabor滤波器预处理能提高CNN的泛化性能,并有助于减小CNN的模型尺寸
- Conclusion: Gabor滤波器作为预处理能有效提升边缘设备上CNN机器人视觉应用的性能,特别是在数据有限的情况下,既能提高泛化能力又能减小模型大小
[39] SupScene: Learning Overlap-Aware Global Descriptor for Unconstrained SfM
Xulei Shi,Maoyu Wang,Yuning Peng,Guanbo Wang,Xin Wang,Qi Chen,Pengjie Tao
Main category: cs.CV
TL;DR: SupScene提出了一种用于SfM图像检索的新方法,通过子图训练策略和DiVLAD聚合器学习更适合几何重叠配对的全局描述符,在GL3D数据集上达到SOTA性能。
- Motivation: 现有基于深度学习的图像检索方法主要关注语义相似性,而SfM中的图像检索更需要关注几何匹配性。传统方法使用批量二元标签(重叠vs非重叠)无法捕捉这种细微差别,因此需要专门针对SfM重叠图像对优化的描述符学习方法。
- Method: 1. 提出子图训练策略:超越孤立图像对,利用地面真实几何重叠关系及其不同权重,通过软监督对比损失提供细粒度监督;2. 提出DiVLAD聚合器:基于DINO启发,利用ViT最后一层的多头注意力图;3. 设计可学习门控机制:自适应地结合语义显著线索与视觉特征,生成更具区分性的全局描述符。
- Result: 在GL3D数据集上的实验表明,该方法达到最先进性能,显著优于NetVLAD,同时仅引入可忽略的额外可训练参数。提出的训练策略在不同聚合技术上都带来一致的性能提升。
- Conclusion: SupScene通过创新的训练策略和聚合器设计,成功解决了SfM中图像检索对几何匹配性的特殊需求,为无约束SfM的二次复杂度问题提供了有效解决方案,代码和模型已开源。
[40] Language-Guided and Motion-Aware Gait Representation for Generalizable Recognition
Zhengxian Wu,Chuanrui Zhang,Shenao Jiang,Hangrui Xu,Zirui Liao,Luyuan Zhang,Huaqiu Li,Peng Jiao,Haoqian Wang
Main category: cs.CV
TL;DR: LMGait:一种语言引导和运动感知的步态识别框架,利用步态相关语言线索捕捉关键运动特征,解决现有方法过度拟合静态噪声的问题
- Motivation: 现有步态识别方法通常依赖复杂架构直接从图像提取特征,然后通过池化操作获得序列级表示。这种设计容易过度拟合静态噪声(如服装),同时无法有效捕捉动态运动区域
- Method: 提出LMGait框架,利用设计的步态相关语言线索来捕捉步态序列中的关键运动特征,实现语言引导和运动感知的步态识别
- Result: 从摘要中无法获取具体实验结果,但该方法旨在解决现有方法的局限性
- Conclusion: LMGait框架通过语言引导和运动感知的方法,能够更有效地捕捉步态中的动态运动特征,减少对静态噪声的过度拟合
[41] Deep learning-based neurodevelopmental assessment in preterm infants
Lexin Ren,Jiamiao Lu,Weichuan Zhang,Benqing Wu,Tuo Wang,Yi Liao,Jiapan Guo,Changming Sun,Liang Guo
Main category: cs.CV
TL;DR: 提出一种用于早产儿脑MRI白质和灰质分割的层次密集注意力网络,解决等信号强度组织区分难题,性能优于现有方法
- Motivation: 早产儿神经发育延迟风险高,需要早期识别。虽然深度学习脑MRI体积分割有潜力,但早产儿白质和灰质在MRI上信号强度相似(等信号外观),导致准确分割困难
- Method: 提出层次密集注意力网络(HDAN),结合3D空间通道注意力机制和注意力引导的密集上采样策略,增强低对比度体积数据的特征区分能力
- Result: 定量实验显示该方法在分割性能上优于最先进的基线方法,有效解决了等信号组织区分挑战。应用算法证实早产儿白质和灰质体积显著低于足月儿
- Conclusion: 提出的HDAN网络能有效分割早产儿脑MRI中的白质和灰质,为早产相关神经发育延迟提供了额外的影像学证据,代码已开源
[42] Decoder Gradient Shields: A Family of Provable and High-Fidelity Methods Against Gradient-Based Box-Free Watermark Removal
Haonan An,Guang Hua,Wei Du,Hangcheng Cao,Yihang Tao,Guowen Xu,Susanto Rahardja,Yuguang Fang
Main category: cs.CV
TL;DR: 提出Decoder Gradient Shields (DGS)防御机制,通过重定向和缩放解码器梯度来防止基于梯度泄露查询的水印移除攻击,在多种应用场景中实现100%防御成功率。
- Motivation: 现有无盒模型水印研究主要关注编码器的鲁棒性,而解码器被忽视,导致存在针对解码器的攻击。攻击者可以利用查询响应获取反向传播梯度来训练水印移除器,威胁水印安全性。
- Method: 提出DGS防御机制家族:DGS-O(输出层)、DGS-I(输入层)和DGS-L(层间),通过重定向和缩放来自水印通道梯度泄露查询的梯度,防止水印移除器达到低损失值的训练收敛。DGS-O有闭式解,所有DGS都有可证明的性能保证。
- Result: 在去雨和图像生成任务中,使用最先进的无盒水印方法进行实验,DGS在所有设置下均实现100%的防御成功率,同时保持解码器输出的图像质量。
- Conclusion: DGS机制有效解决了针对解码器的梯度泄露攻击问题,为无盒模型水印提供了全面的防御方案,在保护DNN知识产权方面具有重要价值。
[43] Real-Time Multi-Modal Embedded Vision Framework for Object Detection Facial Emotion Recognition and Biometric Identification on Low-Power Edge Platforms
S. M. Khalid Bin Zahid,Md. Rakibul Hasan Nishat,Abdul Hasib,Md. Rakibul Hasan,Md. Ashiqussalehin,Md. Sahadat Hossen Sajib,A. S. M. Ahsanul Sarkar Akib
Main category: cs.CV
TL;DR: 提出一个在树莓派5边缘平台上部署的实时多模态视觉框架,通过自适应调度机制将物体检测、人脸识别和情绪检测集成到统一流程中,相比连续处理减少65%计算负载。
- Motivation: 现有智能监控系统通常独立处理物体检测、人脸识别和情绪分析等感知任务,缺乏统一的、自适应的运行时调度器来根据上下文触发动态分配计算资源,这限制了它们在低功耗边缘设备上的整体理解和效率。
- Method: 开发了一个实时多模态视觉框架,集成了YOLOv8n物体检测、基于FaceNet的自定义人脸识别系统和DeepFace CNN情绪分类。核心是自适应调度机制,通过选择性激活模块来减少计算负载。
- Result: 物体检测模块平均精度(AP)达到0.861,人脸识别准确率为88%,情绪检测对特定情绪的AUC高达0.97,系统以5.6帧/秒的速度运行,相比连续处理减少65%计算负载。
- Conclusion: 上下文感知调度是实现低成本边缘硬件上复杂多模态人工智能的关键,使智能感知更加可访问和隐私保护。
[44] AVIR: Adaptive Visual In-Document Retrieval for Efficient Multi-Page Document Question Answering
Zongmin Li,Yachuan Li,Lei Kang,Dimosthenis Karatzas,Wenkang Ma
Main category: cs.CV
TL;DR: AVIR框架通过自适应视觉文档检索,先评分页面相关性,再聚类筛选,仅将相关页面输入冻结的大视觉语言模型,显著减少计算量并提升MP-DocVQA性能
- Motivation: 多页文档视觉问答面临计算资源紧张和注意力机制效率降低的挑战,长文档会降低大视觉语言模型的注意力效果
- Method: 提出自适应视觉文档检索框架:1) 轻量检索模型评分页面相关性;2) 根据分数分布聚类页面自适应选择相关内容;3) 对聚类页面进行Top-K筛选保持上下文紧凑;4) 短文档使用相关性概率阈值选择页面;5) 仅将选定页面输入冻结的大视觉语言模型生成答案
- Result: 在MP-DocVQA数据集上,平均所需页面数减少70%,ANLS达到84.58%,超越先前方法且计算成本显著降低;在SlideVQA和DUDE基准测试中也验证了有效性
- Conclusion: AVIR框架通过自适应页面检索和筛选,有效解决了多页文档视觉问答的计算和注意力效率问题,无需模型微调即可实现高性能
[45] Nip Rumors in the Bud: Retrieval-Guided Topic-Level Adaptation for Test-Time Fake News Video Detection
Jian Lang,Rongpei Hong,Ting Zhong,Yong Wang,Fan Zhou
Main category: cs.CV
TL;DR: RADAR是一个用于假新闻视频检测的测试时自适应框架,通过检索引导的自适应范式,利用目标域中的稳定视频来指导语义相关但不稳定实例的鲁棒适应。
- Motivation: 现有假新闻视频检测方法通常假设训练和测试阶段新闻主题分布一致,无法检测与新兴事件和未见主题相关的假新闻视频。需要能够适应未见新闻视频的测试时自适应方法。
- Method: 提出RADAR框架,包含三个核心模块:1) 基于熵选择的检索机制,为视频提供稳定、相关的参考进行适应;2) 稳定锚点引导的对齐模块,通过分布级匹配将不稳定实例表示与源域对齐;3) 目标域感知的自训练范式,生成由稳定参考增强的信息性伪标签。
- Result: 大量实验证明RADAR在测试时假新闻视频检测方面取得了优越性能,能够对未见假新闻视频主题进行强大的即时适应。
- Conclusion: RADAR是第一个能够实现测试时自适应未见新闻视频的框架,通过创新的检索引导自适应范式,有效解决了现有方法在检测新兴事件和未见主题假新闻视频方面的局限性。
[46] An AI-IoT Based Smart Wheelchair with Gesture-Controlled Mobility, Deep Learning-Based Obstacle Detection, Multi-Sensor Health Monitoring, and Emergency Alert System
Md. Asiful Islam,Abdul Hasib,Tousif Mahmud Emon,Khandaker Tabin Hasan,A. S. M. Ahsanul Sarkar Akib
Main category: cs.CV
TL;DR: 提出基于AI-IoT的智能轮椅系统,整合手势控制、物体检测和健康监测,提供低成本、多模态的辅助解决方案
- Motivation: 针对日益增长的残障人士和老年人需求,传统轮椅缺乏动态功能,现有智能轮椅成本高、功能单一且健康监测集成不足,需要先进、个性化且负担得起的辅助技术
- Method: 采用基于AI-IoT的综合系统:手套手势控制实现免手导航,YOLOv8实时物体检测配合听觉反馈避障,超声波用于即时碰撞避免,持续监测心率、血氧、心电图、体温等生命体征并上传ThingSpeak平台
- Result: 手势控制成功率95.5%,超声波障碍物检测准确率94%,YOLOv8物体检测精度91.5%、召回率90.2%、F1分数90.8%,系统提供模块化低成本架构
- Conclusion: 这种集成多模态方法提供了实用、可扩展且经济实惠的解决方案,通过弥合创新研究与实际部署之间的差距,显著增强了用户的自主性、安全性和独立性
[47] Structural Graph Neural Networks with Anatomical Priors for Explainable Chest X-ray Diagnosis
Khaled Berkani
Main category: cs.CV
TL;DR: 提出一个结合解剖先验的结构图推理框架,用于可解释的视觉诊断,通过定制化的结构传播机制建模空间关系,支持节点级病变感知和图级诊断推理。
- Motivation: 传统图神经网络依赖通用消息传递,缺乏对空间结构关系的显式建模,限制了在医学影像等需要结构化推理任务中的可解释性。
- Method: 将卷积特征图重新解释为补丁级图,节点编码外观和空间坐标,边反映局部结构邻接;引入定制化结构传播机制,显式建模相对空间关系作为推理过程的一部分。
- Result: 在胸部X光案例研究中展示了结构先验如何指导关系推理并提高可解释性,模型支持节点级病变感知预测和图级诊断推理,通过学习节点重要性分数提供内在可解释性。
- Conclusion: 该框架是领域无关的,为结构感知和可解释学习提供了基于图的计算基础,推动了图作为人工智能系统中结构化推理工具的研究。
[48] DAOS: A Multimodal In-cabin Behavior Monitoring with Driver Action-Object Synergy Dataset
Yiming Li,Chen Cai,Tianyi Liu,Dan Lin,Wenqian Wang,Wenfei Liang,Bingbing Li,Kim-Hui Yap
Main category: cs.CV
TL;DR: 提出DAOS数据集和AOR-Net模型,通过建模人-物关系来提升驾驶员动作识别精度
- Motivation: 现有驾驶员监控数据集缺乏精确的物体位置标注或未将物体与相关动作关联,导致相似的上半身动作难以区分
- Method: 1) 创建DAOS数据集:包含9,787个视频片段,标注36种细粒度驾驶员动作和15种物体类别;2) 提出AOR-Net模型:通过多级推理和动作链提示机制建模动作、物体及其关系,引入思维混合模块动态选择关键知识
- Result: AOR-Net在多个数据集上优于现有最先进方法,在物体丰富和稀缺条件下均表现出鲁棒性
- Conclusion: 通过建模驾驶员动作与物体之间的逻辑关系,能够显著提升驾驶员动作识别性能,DAOS数据集和AOR-Net为驾驶员监控提供了有效解决方案
[49] SMc2f: Robust Scenario Mining for Robotic Autonomy from Coarse to Fine
Yifei Chen,Ross Greer
Main category: cs.CV
TL;DR: 提出SMc2f框架,通过粗到细的流程改进自动驾驶场景挖掘,结合视觉语言模型和文本-轨迹对比学习,提升检索质量和效率。
- Motivation: 现有RefAV框架存在两个主要问题:1) 仅基于轨迹标签进行检索,忽略了自然语言与原始RGB图像的直接联系;2) 依赖上游3D目标检测和跟踪的质量,轨迹数据不准确会导致下游时空定位不准确。
- Method: 提出粗到细的SMc2f框架:1) 使用视觉语言模型进行粗粒度图像-文本过滤;2) 在RefAV基础上构建成功挖掘案例数据库,自动检索示例进行少样本学习;3) 引入文本-轨迹对比学习,在共享嵌入空间中拉近匹配对、推开不匹配对,获得细粒度匹配器。
- Result: 在公开数据集上的实验表明,该方法在检索质量和效率方面都有显著提升。
- Conclusion: SMc2f框架通过结合视觉语言模型和对比学习,有效解决了现有场景挖掘方法的局限性,为自动驾驶系统的安全验证提供了更鲁棒的解决方案。
[50] SAR-Based Marine Oil Spill Detection Using the DeepSegFusion Architecture
Pavan Kumar Yata,Pediredla Pradeep,Goli Himanish,Swathi M
Main category: cs.CV
TL;DR: 提出DeepSegFusion混合深度学习模型,用于SAR图像中的溢油分割,结合SegNet和DeepLabV3+并加入注意力特征融合机制,显著降低误报率,适用于近实时溢油监测。
- Motivation: 传统阈值方法在卫星图像溢油检测中因风浪条纹、船舶尾流等类似现象导致高误报率,需要更精确的检测方法。
- Method: 提出DeepSegFusion混合模型,集成SegNet和DeepLabV3+两种分割网络,并加入基于注意力的特征融合机制,提升边界精度和上下文理解能力。
- Result: 在SAR溢油数据集(包括ALOS PALSAR图像)上达到94.85%准确率、0.5685 IoU和0.9330 ROC-AUC,相比基线模型减少64.4%误检,误报率降低超过3倍。
- Conclusion: DeepSegFusion在不同海洋条件下表现稳定,能够用于近实时溢油监测,显著提升检测精度并大幅降低误报率。
[51] DIAMOND-SSS: Diffusion-Augmented Multi-View Optimization for Data-efficient SubSurface Scattering
Guillermo Figueroa-Araneda,Iris Diana Jimenez,Florian Hofherr,Manny Ko,Hector Andrade-Loarca,Daniel Cremers
Main category: cs.CV
TL;DR: DIAMOND-SSS:使用扩散模型增强稀疏数据,实现高质量半透明材质重建,仅需10张图像即可完成,减少90%真实采集需求
- Motivation: 半透明材质(如蜡、玉、大理石、皮肤)的次表面散射效果在神经渲染中建模困难,需要密集的多视角多光照数据集(通常超过100个视角和112个OLAT),数据采集成本高昂
- Method: 1. 使用扩散模型进行新视角合成和重光照,基于估计的几何信息,仅需不到7%的数据集进行训练;2. 引入光照无关的几何先验:多视角轮廓一致性损失和多视角深度一致性损失,稳定稀疏或合成监督下的重建
- Result: 在所有稀疏度条件下,DIAMOND-SSS在可重光照高斯渲染中达到最先进质量,相比SSS-3DGS减少高达90%的真实采集需求,仅需10张图像即可完成高质量重建
- Conclusion: DIAMOND-SSS通过扩散模型数据增强和几何一致性约束,实现了从极稀疏监督(仅10张图像)的高保真半透明材质重建,大幅降低了数据采集成本
[52] \textit{FocaLogic}: Logic-Based Interpretation of Visual Model Decisions
Chenchen Zhao,Muxi Chen,Qiang Xu
Main category: cs.CV
TL;DR: FocaLogic是一个模型无关的视觉模型解释框架,通过逻辑表示来量化和解释模型决策,识别关键视觉区域并转化为逻辑表达式,提供定量评估指标。
- Motivation: 现有视觉模型解释方法存在两个主要问题:要么依赖白盒模型访问权限,要么缺乏定量严谨性。在高风险应用中,模型可解释性至关重要,需要更系统、可扩展的定量解决方案。
- Method: FocaLogic框架识别影响模型预测的最小可解释视觉区域子集(称为视觉焦点),将这些视觉焦点转化为精确紧凑的逻辑表达式,并提出焦点精度、召回率和散度等定量指标来评估模型行为。
- Result: 实证分析显示FocaLogic能够揭示重要洞察:训练导致的注意力集中、通过泛化提高焦点准确性、以及在偏见和对抗攻击下的异常焦点。框架提供了系统、可扩展的视觉模型解释方案。
- Conclusion: FocaLogic为视觉模型解释提供了一个系统化、可扩展且定量的解决方案,通过逻辑表示和定量指标实现了透明、结构化的模型决策解释。
[53] A Unified Masked Jigsaw Puzzle Framework for Vision and Language Models
Weixin Ye,Wei Wang,Yahui Liu,Yue Song,Bin Ren,Wei Bi,Rita Cucchiara,Nicu Sebe
Main category: cs.CV
TL;DR: 提出MJP框架,通过随机打乱token顺序并用可学习的未知位置嵌入进行掩码,破坏Transformer中位置嵌入的局部空间信息,既能防御梯度攻击又能提升模型性能
- Motivation: 联邦学习中Transformer面临梯度攻击的严重威胁,研究发现位置嵌入的梯度包含足够信息可用于重构输入数据,需要解决这一安全问题
- Method: 提出Masked Jigsaw Puzzle框架:1) 随机打乱token顺序破坏token顺序;2) 使用可学习的未知位置嵌入掩码被打乱token的位置嵌入,破坏局部空间信息
- Result: MJP不仅能提高模型对梯度攻击的鲁棒性,还能提升在图像分类(如ImageNet-1K)和文本情感分析(如Yelp和Amazon)等任务上的性能
- Conclusion: MJP是适用于不同Transformer模型的统一框架,能同时解决联邦学习中的安全问题和性能提升需求,代码已开源
[54] Task-Driven Prompt Learning: A Joint Framework for Multi-modal Cloud Removal and Segmentation
Zaiyan Zhang,Jie Li,Shaowei Shi,Qiangqiang Yuan
Main category: cs.CV
TL;DR: TDP-CR:一个任务驱动的多模态云去除框架,通过可学习的退化提示融合SAR信息,同时进行云去除和土地覆盖分割,在保持参数效率的同时提升语义实用性。
- Motivation: 现有云去除方法过度关注低层保真度,会过度平滑纹理和边界,导致视觉上合理的修复与语义实用性不匹配,无法满足分析就绪数据的需求。
- Method: 提出任务驱动的多模态框架TDP-CR,包含提示引导融合机制(PGF),使用可学习的退化提示编码云厚度和空间不确定性,结合全局通道上下文和局部提示条件空间偏置,自适应融合SAR信息。采用参数高效的两阶段训练策略,解耦重建和语义表示学习。
- Result: 在LuojiaSET-OSFCR数据集上,TDP-CR在PSNR上超过最先进基线0.18dB,仅使用15%参数;在mIoU上比多任务竞争者提升1.4%,有效提供分析就绪数据。
- Conclusion: TDP-CR通过任务驱动的多模态设计和提示引导融合机制,成功解决了云去除中视觉保真度与语义实用性之间的不匹配问题,为地球观测提供高质量的分析就绪数据。
[55] Automating Parameter Selection in Deep Image Prior for Fluorescence Microscopy Image Denoising via Similarity-Based Parameter Transfer
Lina Meyer,Felix Wissel,Tobias Knopp,Susanne Pfefferle,Ralf Fliegert,Maximilian Sandmann,Liana Uebler,Franziska Möckl,Björn-Philipp Diercks,David Lohr,René Werner
Main category: cs.CV
TL;DR: AUTO-DIP:基于图像元数据相似性的无监督深度图像先验参数自动迁移方法,用于荧光显微镜图像去噪,无需为每张图像重新优化参数。
- Motivation: 传统无监督深度图像先验(DIP)需要为每张新图像优化网络架构和停止点,耗时且限制了在多图像处理场景中的应用。作者假设相似图像在DIP去噪中具有可比的最优参数配置,从而可实现免优化的DIP应用。
- Method: 1. 从开源数据集生成校准集(110张)和验证集(55张)语义不同的图像;2. 针对理想U-net架构和停止点进行网络架构搜索;3. 基于图像元数据相似性(显微镜类型、成像样本等)而非定量图像相似度度量进行参数迁移;4. 实现AUTO-DIP自动参数迁移管道。
- Result: 1. 基于图像元数据相似性的参数迁移效果优于基于定量图像相似度度量的方法;2. AUTO-DIP在多个复杂度不同的开源测试数据集上优于基线DIP(原始DIP参数)和变分去噪方法,尤其对高噪声输入效果显著;3. 在本地获取的荧光显微镜图像上进一步证明了AUTO-DIP的优越性。
- Conclusion: AUTO-DIP通过基于图像元数据相似性的参数自动迁移,实现了免优化的DIP去噪,显著提高了处理效率,在荧光显微镜图像去噪中表现出优越性能,特别是对高噪声图像。
[56] Learning Language-Driven Sequence-Level Modal-Invariant Representations for Video-Based Visible-Infrared Person Re-Identification
Xiaomei Yang,Xizhan Gao,Antai Liu,Kang Wei,Fa Zhu,Guang Feng,Xiaofeng Qu,Sijie Niu
Main category: cs.CV
TL;DR: 提出LSMRL方法,通过语言驱动的序列级模态不变表示学习,解决VVI-ReID中空间-时间建模、跨模态交互和显式模态级损失指导的不足。
- Motivation: 现有基于CLIP语言提示的VVI-ReID方法在空间-时间建模效率、跨模态交互充分性和显式模态级损失指导方面存在局限,需要改进。
- Method: 提出LSMRL方法,包含三个模块:STFL模块用于参数和计算高效的空间-时间建模;SD模块通过扩散模态共享语言提示建立初步模态一致性;CMI模块利用双向跨模态自注意力消除剩余模态差异。同时引入两种模态级损失。
- Result: 在大规模VVI-ReID数据集上的广泛实验表明,LSMRL方法优于所有现有方法(AOTA)。
- Conclusion: LSMRL方法通过语言驱动的序列级模态不变表示学习,有效解决了VVI-ReID中的关键挑战,实现了优越的性能。
[57] Learning Stochastic Bridges for Video Object Removal via Video-to-Video Translation
Zijie Lou,Xiangwei Feng,Jiaxin Wang,Xiaochao Qu,Luoqi Liu,Ting Liu
Main category: cs.CV
TL;DR: 提出了一种基于随机桥模型的视频对象移除方法,将任务重新定义为视频到视频的转换,利用源视频作为结构先验,通过自适应掩码调制平衡背景保真度和生成灵活性。
- Motivation: 现有基于扩散模型的视频对象移除方法从高斯噪声开始生成,丢弃了原始视频中的丰富结构和上下文先验,导致对象擦除不完整或生成与场景物理逻辑冲突的内容。
- Method: 将视频对象移除重新定义为通过随机桥模型进行的视频到视频转换任务,建立从源视频(含对象)到目标视频(对象移除)的直接随机路径。提出自适应掩码调制策略,根据掩码特征动态调制输入嵌入,平衡背景保真度和生成灵活性。
- Result: 大量实验表明,该方法在视觉质量和时间一致性方面显著优于现有方法。
- Conclusion: 通过将视频对象移除重新定义为视频到视频的桥接任务,并利用自适应掩码调制,该方法能够有效利用输入视频作为结构先验,实现精确的对象移除,同时确保填充区域与周围环境逻辑一致。
[58] ARMARecon: An ARMA Convolutional Filter based Graph Neural Network for Neurodegenerative Dementias Classification
VSS Tejaswi Abburi,Ananya Singhal,Saurabh J. Shigwan,Nitin Kumar
Main category: cs.CV
TL;DR: ARMARecon:一种结合ARMA图滤波和重构目标的统一图学习框架,用于阿尔茨海默病和额颞叶痴呆的早期检测,在ADNI和NIFD数据集上优于现有方法。
- Motivation: 阿尔茨海默病(AD)和额颞叶痴呆(FTD)等神经退行性疾病的早期检测对于降低进展为严重疾病阶段的风险至关重要。由于AD和FTD沿着白质区域以全局、图依赖的方式传播,基于图的神经网络非常适合捕捉这些模式。
- Method: 提出ARMARecon框架,整合自回归移动平均(ARMA)图滤波与重构驱动目标,增强特征表示并提高分类准确性。利用从白质区域提取的20-bin分数各向异性(FA)直方图特征,有效建模局部和全局连接性,同时缓解过平滑问题。
- Result: ARMARecon在ADNI和NIFD多站点dMRI数据集上相比最先进方法实现了更优的性能。
- Conclusion: ARMARecon是一个有效的图学习框架,能够通过整合ARMA图滤波和重构目标来增强特征表示,在神经退行性疾病早期检测任务中表现出色。
[59] CroBIM-V: Memory-Quality Controlled Remote Sensing Referring Video Object Segmentation
H. Jiang,Y. Sun,Z. Dong,T. Liu,Y. Gu
Main category: cs.CV
TL;DR: 本文针对遥感视频指代分割任务,构建了首个大规模基准数据集RS-RVOS Bench,并提出基于记忆质量控制的MQC-SAM框架,通过时序运动一致性模块和解耦注意力机制解决目标表示保持和错误传播问题。
- Motivation: 遥感视频指代分割面临目标显著性弱、视觉信息截断严重的问题,现有研究缺乏大规模专用基准,且现有模型存在初始记忆构建偏差和噪声积累导致的错误传播问题。
- Method: 1) 构建RS-RVOS Bench基准数据集,包含111个视频序列、约25,000帧和213,000个时序指代标注,采用严格的因果感知标注策略;2) 提出MQC-SAM框架,包含时序运动一致性模块用于初始记忆校准,以及解耦注意力记忆集成机制进行动态质量评估和选择性更新。
- Result: 在RS-RVOS Bench上的大量实验表明,MQC-SAM实现了最先进的性能表现。
- Conclusion: 本文通过数据集构建和方法创新推动了遥感视频指代分割领域的发展,MQC-SAM框架有效解决了目标表示保持和错误传播问题,为复杂动态场景下的指代分割提供了有效解决方案。
[60] EmoLat: Text-driven Image Sentiment Transfer via Emotion Latent Space
Jing Zhang,Bingjie Fan,Jixiang Zhu,Zhe Wang
Main category: cs.CV
TL;DR: EmoLat是一种新颖的情感潜在空间,通过建模文本语义与视觉情感特征之间的跨模态相关性,实现细粒度、文本驱动的图像情感迁移。
- Motivation: 现有图像情感迁移方法通常缺乏细粒度控制和文本引导能力,难以实现基于文本语义的精确情感编辑。需要一种能够建模跨模态情感关联并支持文本驱动情感迁移的框架。
- Method: 构建情感语义图捕捉情感、物体和视觉属性之间的关系结构;采用对抗正则化增强情感表示的可区分性和可迁移性;提出跨模态情感迁移框架,通过文本和EmoLat特征的联合嵌入来操纵图像情感;使用包含语义一致性、情感对齐和对抗正则化的多目标损失优化网络。
- Result: 在EmoSpace Set大规模基准数据集上的实验表明,该方法在定量指标和定性迁移保真度方面显著优于现有最先进方法,为文本引导的可控图像情感编辑建立了新范式。
- Conclusion: EmoLat成功实现了细粒度、文本驱动的图像情感迁移,通过建模跨模态情感关联和构建大规模标注数据集,为可控图像情感编辑提供了有效解决方案。
[61] Toward Real-World High-Precision Image Matting and Segmentation
Haipeng Zhou,Zhaohu Xing,Hongqiu Wang,Jun Ma,Ping Li,Lei Zhu
Main category: cs.CV
TL;DR: 提出FCLM模型,通过深度感知蒸馏和域不变学习解决高精度场景解析中的前景一致性问题,支持视觉和语言提示的交互预测。
- Motivation: 现有高精度场景解析方法主要关注显著单一前景对象,交互方法类别不可知限制了跨类别泛化,且高质量标注稀缺导致依赖不和谐的合成数据,泛化到真实场景效果差。
- Method: 提出前景一致学习模型FCLM:1) 深度感知蒸馏策略,转移深度相关知识以改善前景表示;2) 将合成数据处理视为域适应问题,提出域不变学习策略专注于前景学习;3) 面向对象解码器,可接收视觉和语言提示来预测参考目标。
- Result: 实验结果表明,该方法在定量和定性评估上均优于现有最先进方法。
- Conclusion: FCLM通过深度感知蒸馏和域不变学习有效解决了高精度场景解析中的前景一致性问题,支持多模态交互预测,在真实场景中表现出更好的泛化能力。
[62] Conditional Random Fields for Interactive Refinement of Histopathological Predictions
Tiffanie Godelaine,Maxime Zanella,Karim El Khoury,Saïd Mahmoudi,Benoît Macq,Christophe De Vleeschouwer
Main category: cs.CV
TL;DR: 提出HistoCRF框架,通过条件随机场优化组织病理学图像分析中视觉语言模型的零样本预测,无需额外训练即可显著提升分类准确率
- Motivation: 组织病理学图像分析对癌症检测和分期具有重要临床价值,现有的视觉语言模型虽然能提供零样本预测,但结果不完美,需要进一步优化
- Method: 提出HistoCRF框架,采用改进的条件随机场方法,设计了新的成对势函数来促进标签多样性并利用专家标注,支持无标注、有标注和迭代人机交互三种模式
- Result: 在五个不同器官和疾病的patch级分类数据集上,相比零样本预测,无标注时平均准确率提升16.0%,仅用100个标注提升27.5%,人机交互模式下进一步提升至32.6%
- Conclusion: HistoCRF能有效优化组织病理学视觉语言模型的预测,显著提升分类性能,且无需额外训练,具有实际临床应用价值
[63] Detecting 3D Line Segments for 6DoF Pose Estimation with Limited Data
Matej Mok,Lukáš Gajdošech,Michal Mesároš,Martin Madaras,Viktor Kocur
Main category: cs.CV
TL;DR: 提出了一种针对工业料箱的6DoF位姿估计方法,利用料箱的立方体几何特性,通过检测3D线段并几何处理来估计位姿,无需实例特定的CAD模型
- Motivation: 传统深度学习方法需要大量训练数据或CAD模型,限制了在数据稀缺、对象多变的工业场景中的应用
- Method: 利用料箱的立方体几何特性,首先检测对应顶部边缘的3D线段,将2D线段检测网络LeTR扩展到结构化点云数据,然后通过简单几何处理稳健确定6DoF位姿
- Result: 方法显著优于当前最先进的6DoF位姿估计方法(3cm平移误差,8.2°旋转误差),且不需要实例特定的CAD模型
- Conclusion: 该方法为工业料箱位姿估计提供了一种有效解决方案,通过利用几何特性和合成数据训练,在真实扫描中取得了高精度
[64] Energy-Aware Ensemble Learning for Coffee Leaf Disease Classification
Larissa Ferreira Rodrigues Moreira,Rodrigo Moreira,Leonardo Gabriel Ferreira Rodrigues
Main category: cs.CV
TL;DR: 通过知识蒸馏和集成学习,将高容量CNN的知识转移到紧凑CNN上,实现咖啡叶病害的可持续设备端诊断,在保持准确性的同时显著降低能耗和碳足迹。
- Motivation: 咖啡产量依赖及时准确的病害诊断,但田间叶片病害评估面临挑战。虽然AI视觉模型精度高,但受限于设备计算能力和间歇性连接,难以实际应用。需要开发适用于物联网设备的轻量级诊断方案。
- Method: 采用知识蒸馏方法:在数据中心训练的高容量CNN通过集成学习将知识转移到紧凑CNN。通过简单优化的集成方法整合密集的小型模型对,在严格的计算和能耗约束下提升准确性。
- Result: 在精心策划的咖啡叶数据集上,蒸馏后的小型集成模型达到了与先前工作相当的竞争性性能,同时显著降低了能耗和碳足迹。
- Conclusion: 轻量级模型经过适当的蒸馏和集成后,可以为物联网应用提供实用的诊断解决方案,实现可持续的设备端病害诊断。
[65] RCDN: Real-Centered Detection Network for Robust Face Forgery Identification
Wyatt McCurdy,Xin Zhang,Yuqi Song,Min Gao
Main category: cs.CV
TL;DR: RCDN是一个基于频率空间CNN的图像伪造检测框架,通过以真实图像为中心的表征空间设计,显著提升了跨域泛化能力,在多种伪造类型上实现了最先进的性能。
- Motivation: 随着AI生成工具的普及,图像伪造已成为严重威胁。现有检测方法在同域场景表现良好,但在跨域场景下性能大幅下降,而新的伪造技术不断涌现,需要检测器对未见过的伪造类型保持可靠。
- Method: 提出Real-Centered Detection Network (RCDN),采用频率空间CNN框架和Xception骨干网络,将表征空间锚定在真实图像周围。使用双分支架构和真实中心损失设计,强调真实图像的一致性而非建模多样化的伪造模式。
- Result: 在DiFF数据集上对三种代表性伪造类型(FE, I2I, T2I)的实验表明,RCDN实现了最先进的域内准确率,并显著增强了跨域泛化能力。相比领先基线,RCDN减少了泛化差距,获得了最高的跨域/域内稳定性比率。
- Conclusion: RCDN通过以真实图像为中心的方法,有效解决了图像伪造检测中的跨域泛化问题,为防御不断演化和未见过的伪造技术提供了实用解决方案。
[66] CARLA-Round: A Multi-Factor Simulation Dataset for Roundabout Trajectory Prediction
Xiaotong Zhou,Zhenhui Yuan,Yi Han,Tianhua Xu,Laurence T. Yang
Main category: cs.CV
TL;DR: 提出CARLA-Round仿真数据集,用于环岛轨迹预测研究,通过系统控制天气和交通密度条件,量化分析各因素对预测性能的影响。
- Motivation: 环岛场景的车辆轨迹预测对交通安全至关重要,但由于其环形几何结构、连续汇入和让行交互、缺乏交通信号等特点,预测极具挑战性。现有数据集稀缺,真实世界数据收集存在观测不完整、因素混杂难以分离的问题。
- Method: 构建CARLA-Round仿真数据集,系统设计5种天气条件和5个服务水平(A-E)的交通密度,形成25个受控场景。每个场景包含真实的驾驶行为混合,并提供现有数据集缺乏的显式标注。使用标准基线模型(LSTM、GCN、GRU+GCN)进行验证实验。
- Result: 验证实验显示交通密度对预测难度具有主导性的单调效应,而天气条件呈现非线性影响。最佳模型在真实世界rounD数据集上达到0.312m ADE,证明了有效的仿真到真实迁移能力。
- Conclusion: CARLA-Round通过系统化方法量化了在混杂的真实世界数据集中无法分离的因素影响,为环岛轨迹预测研究提供了可靠、多模态、现实的仿真数据集。
[67] Segment and Matte Anything in a Unified Model
Zezhong Fan,Xiaohan Li,Topojoy Biswas,Kaushiki Nag,Kannan Achan
Main category: cs.CV
TL;DR: SAMA是SAM的轻量级扩展,在保持少量额外参数的同时,实现了高质量的交互式图像分割和抠图,通过多视图定位编码器和局部适配器提升边界细节,在多个基准测试中达到SOTA性能。
- Motivation: 尽管SAM在零样本泛化和灵活提示方面表现出色,但其掩码预测精度在实际应用中仍显不足。现有细化模块难以在统一框架内实现高精度对象描绘,且SAM尚未探索交互式图像抠图任务。考虑到分割与抠图之间的强相关性,需要一个能同时处理这两项任务的统一模型。
- Method: 提出SAMA模型,作为SAM的轻量级扩展:1) 多视图定位编码器(MVLE)从局部视图捕获详细特征;2) 局部适配器(Local-Adapter)通过恢复细微边界细节来细化掩码输出;3) 为分割和抠图任务分别设计预测头,同时生成两种掩码。在公开数据集上进行训练。
- Result: SAMA在多个分割和抠图基准测试中达到了最先进的性能,展示了其在广泛下游任务中的适应性和有效性。模型仅需少量额外参数就能实现高质量的分割和抠图结果。
- Conclusion: SAMA成功地将分割和抠图任务统一到一个轻量级框架中,通过创新的MVLE和Local-Adapter设计显著提升了边界细节的恢复能力,为实际应用提供了高精度的分割和抠图解决方案。
Powered by Deepseek & arXiv Daily AI Enhanced