Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Label Smoothing++: Enhanced Label Regularization for Training Neural Networks
Sachin Chhabra,Hemanth Venkateswara,Baoxin Li
Main category: cs.CV
TL;DR: Label Smoothing++是一种改进的标签正则化方法,通过为非目标类别分配非零概率并考虑类别间关系,解决了传统标签平滑破坏类别间关系的问题。
- Motivation: 传统标签平滑虽然能改善神经网络泛化能力,但为所有非目标类别分配相同概率,破坏了类别间的内在关系。
- Method: 提出Label Smoothing++方法,保持目标类别标签固定,同时让网络学习非目标类别的标签,考虑类别间关系。
- Result: 在多个数据集上的实验表明,该方法能有效缓解过自信预测,同时促进类别间关系和泛化能力。
- Conclusion: Label Smoothing++通过更好地建模类别间关系,在保持标签平滑优势的同时解决了其局限性。
[2] VILOD: A Visual Interactive Labeling Tool for Object Detection
Isac Holm
Main category: cs.CV
TL;DR: 开发了VILOD可视化交互标注工具,通过t-SNE投影、不确定性热图和模型状态视图,使目标检测中的人机协作标注更加透明和高效,实证研究表明其能达到与自动主动学习相当的检测性能。
- Motivation: 解决目标检测中大规模标注数据获取困难的问题,传统主动学习方法缺乏透明度且限制了人类专家的策略洞察,需要开发更有效的人机协作标注工具。
- Method: 开发VILOD可视化交互标注工具,集成t-SNE特征投影、不确定性热图、模型状态视图等组件,支持用户探索数据、解释模型状态和实施多样本选择策略。
- Result: 实证研究表明VILOD通过交互可视化使模型状态和数据集特征更易解释,不同视觉引导标注策略能达到与自动化不确定性采样主动学习基线竞争的目标检测性能。
- Conclusion: VILOD工具使目标检测中的人机协作主动学习工作流程更加透明、可管理且可能更有效,为OD标注提供了新的工具和实证见解。
[3] Context-Aware Knowledge Distillation with Adaptive Weighting for Image Classification
Zhengda Li
Main category: cs.CV
TL;DR: 通过动态调整hard/soft监督权重alpha,给合话问求学生模型与老师模型的差距,提出自适应知识蓄粉框架AKD,在CIFAR-10上获得更高精度和稳定收敛。
- Motivation: 传统KD使用固定权重alpha结合hard和soft监督损失,但静态alpha在训练过程中并非最优选择,因为hard和soft监督的最佳权衡可能随训练而变化。
- Method: 1)将alpha作为可学习参数在训练中自动优化 2)提出公式根据学生-老师差距动态计算alpha 3)使用MLP+Attention的上下文感知模块(CAM)适应性重新加权类别级别老师输出
- Result: 在CIFAR-10数据集上,以ResNet-50为老师、ResNet-18为学生的实验显示,该方法比固定权重KD基线获得更高的精度,并产生更稳定的收敛。
- Conclusion: 动态调整hard/soft监督权重的自适应知识蓄粉框架能够有效提升学生模型的表现,适应性权重计算方法在实验中验证了其优勇性。
[4] A Dataset Generation Scheme Based on Video2EEG-SPGN-Diffusion for SEED-VD
Yunfei Guo,Tao Zhang,Wu Huang,Yao Song
Main category: cs.CV
TL;DR: 基于SEED-VD数据集的开源框架,通过自我对役图网络和次散模型生成个性化EEG信号,构建了视频-EEG多模态数据集
- Motivation: 为了提供视频到EEG信号的多模态数据集,支持多模态大模型的训练和对齐能力,推动情感分析、数据增帽和脑机接口应用的研究
- Method: 使用自我对役图网络(SPGN)集成次散模型来生成个性化EEG信号,并提供视频-EEG数据对齐的工程管道
- Result: 释放了包含1000个样本的新数据集,每个样本包含SEED-VD视频刺激、62通道200Hz的EEG信号以及情感标签
- Conclusion: 该框架为多模态研究提供了新工具,在情感分析、数据增帽和脑机接口领域具有重要的研究和工程价值
[5] Application of discrete Ricci curvature in pruning randomly wired neural networks: A case study with chest x-ray classification of COVID-19
Pavithra Elumalai,Sudharsan Vijayaraghavan,Madhumita Mondal,Areejit Samal
Main category: cs.CV
TL;DR: 本研究比较了三种边中心网络度量(FRC、ORC、EBC)在随机布线神经网络剪枝中的效果,发现计算效率更高的FRC能达到与ORC相当的剪枝性能,同时显著降低计算成本。
- Motivation: 探索网络拓扑结构对深度学习性能的影响,寻找高效的神经网络剪枝方法,特别是在计算复杂度较高的ORC之外寻找更实用的替代方案。
- Method: 使用三种网络生成器(ER、WS、BA模型)构建RWNN,在COVID-19胸部X光图像分类任务上训练,然后分别基于FRC、ORC和EBC三种边中心度量进行剪枝,比较压缩比和理论加速比。
- Result: FRC在保持与ORC相当剪枝效果的同时,计算效率显著更高;剪枝后的网络在准确率、特异性和敏感性方面表现良好;结构分析显示压缩网络在模块化分离和网络效率之间存在权衡。
- Conclusion: FRC是一种有效的神经网络剪枝工具,能够显著降低计算成本而不牺牲性能,为网络压缩提供了实用的解决方案。
[6] Optical Music Recognition of Jazz Lead Sheets
Juan Carlos Martinez-Sevilla,Francesco Foscarin,Patricia Garcia-Iasci,David Rizo,Jorge Calvo-Zaragoza,Gerhard Widmer
Main category: cs.CV
TL;DR: 本文研究手写经典细声乐图的光学音乐识别,提供了新的数据集和模型,解决了现有系统无法处理和弦等问题。
- Motivation: 手写经典细声乐图包含和弦等复杂成分,现有光学音乐识别系统无法处理,且手写图像存在高变异性和质量问题。
- Method: 构建包含293份手写经典细声乐图的新数据集,提供Humdrum **kern和MusicXML标注,以及合成图像。开发了专门的OMR模型,考虑了特殊的标记化选择、使用合成数据和预训练模型的优势。
- Result: 提供了包含2021个五线谱的大规模数据集,开发了能够处理手写经典细声乐图的OMR模型,解决了和弦识别等关键挑战。
- Conclusion: 该研究为手写经典细声乐图的光学识别提供了重要的数据资源和技术方案,公开了所有代码、数据和模型,推动了该领域的发展。
[7] RT-VLM: Re-Thinking Vision Language Model with 4-Clues for Real-World Object Recognition Robustness
Junghyun Park,Tuan Anh Nguyen,Dugki Min
Main category: cs.CV
TL;DR: RT-VLM框架通过合成数据集生成和两阶段推理机制,有效提升目标识别模型在域偏移场景下的鲁棒性
- Motivation: 现实世界部署中,目标识别模型面临多种域偏移(图像统计变化、姿态变化、遮挡、类别混淆)导致准确率严重下降的问题
- Method: 1) 构建合成数据集生成管道,生成包含4种线索(边界框、类别名、对象级描述、场景级描述)的图像;2) 对Llama 3.2 11B Vision Instruct进行参数高效监督调优;3) 推理时采用两阶段重思考机制:首先生成4种线索,然后作为证据进行迭代修正
- Result: 在隔离单个域偏移的鲁棒性基准测试中,RT-VLM持续超越强基线方法
- Conclusion: 结构化多模态证据与显式自批判循环的结合,是实现可靠且可迁移视觉理解的有前途路径
[8] A Real-Time, Vision-Based System for Badminton Smash Speed Estimation on Mobile Devices
Diwen Huang
Main category: cs.CV
TL;DR: 使用智能手机和视频分析技术开发了一个成本效益高的羽毛球冲击速度测量系统,通过YOLOv5检测和Kalman滤波进行轨迹跟踪,帮助普通运动员获得专业级利分析
- Motivation: 解决传统运动性能测量技术质昂、复杂且无法满足普通运动员需求的问题,推出成本效益高的方案以满足大众化的运动分析需求
- Method: 采用自定制YOLOv5模型进行羽毛球检测,结合Kalman滤波实现稳健轨迹跟踪,通过视频基于动力学的速度估算方法进行时空缩放
- Result: 开发出了一个直观易用的移动应用,能够自动计算羽毛球速度,为各级别运动员提供专业级利分析
- Conclusion: 该系统成功实现了使用普通智能手机进行高级运动性能分析的目标,为普通运动员提供了可达的技术支持
[9] A Stroke-Level Large-Scale Database of Chinese Character Handwriting and the OpenHandWrite_Toolbox for Handwriting Research
Zebo Xu,Shaoyun Yu,Mark Torrance,Guido Nottbusch,Nan Zhao,Zhenguang Cai
Main category: cs.CV
TL;DR: 这篇论文构建了中文手写数据库和开源工具包,通过大规模实验发现词汇因素(形态、音义)在字符、部首和笔画三个层次对手写准备和执行的层级衰减影响。
- Motivation: 解决中文手写研究中语言组件调控机制不清和缺乏细粒度数据批量处理工具的问题。
- Method: 构建大规模手写数据库(42人手写1200字符),升级OpenHandWrite_Toolbox工具包,采用多元回归分析字符、部首和笔画三个层次的手写数据。
- Result: 形态因素在手写准备和执行中均有影响,音义因素在执行阶段有影响,这些影响呈现层级衰减特征(字符层>部首层>笔画层)。
- Conclusion: 手写准备和执行在子字符层面与语言组件密切相关,该数据库和工具包为语言心理学和神经语言学研究提供了价值资源。
[10] Anticipatory Fall Detection in Humans with Hybrid Directed Graph Neural Networks and Long Short-Term Memory
Younggeol Cho,Gokhan Solak,Olivia Nocentini,Marta Lorenzini,Andrea Fortuna,Arash Ajoudani
Main category: cs.CV
TL;DR: 提出了一种结合动态图神经网络和LSTM的混合模型,用于预测跌倒事件,通过解耦运动预测和步态分类任务,实现了高精度的跌倒预警。
- Motivation: 现有研究主要关注跌倒检测,但跌倒发生前的预测以及稳定状态与即将跌倒之间的瞬态状态分析尚未得到充分探索。
- Method: 使用混合模型:DGNN作为分类器区分三种步态状态(稳定、瞬态、跌倒),LSTM网络预测后续时间步的人类运动。输入为从视频序列提取的实时骨骼特征。
- Result: 在OUMVLP-Pose和URFD数据集上验证,相比仅使用DGNN的模型和文献中的模型,在预测误差和识别准确率方面表现出优越性能。
- Conclusion: 解耦预测和分类任务相比统一处理方法能提升性能,同时该方法可以监测瞬态状态,为高级辅助系统提供有价值的信息。
[11] Comparative Evaluation of Hard and Soft Clustering for Precise Brain Tumor Segmentation in MR Imaging
Dibya Jyoti Bora,Mrinal Kanti Mishra
Main category: cs.CV
TL;DR: 这篇论文对比了K-Means硬聚类和FCM软聚类在脑部脱病MRI分割中的性能,K-Means运算更快但准确性低,FCM准确性更高但计算成本更高。
- Motivation: 脑部脱病MRI分割在临床诊断和治疗规划中关键但面临病变异质性挑战,需要寻找有效的分割方法。
- Method: 使用BraTS2020数据集,通过高斯滤波和CLAHE预处理,对比K-Means硬聚类和FCM软聚类算法的分割效果。
- Result: K-Means平均运行时间0.3秒,Dice系数0.43;FCM平均运行时间1.3秒,Dice系数0.67。
- Conclusion: 硬聚类和软聚类存在计算效率与边界准确性之间的特征冒险,应根据具体应用需求选择合适的算法。
[12] Handling imbalance and few-sample size in ML based Onion disease classification
Abhijeet Manoj Pal,Rajbabu Velmurugan
Main category: cs.CV
TL;DR: 基于深度学习和注意力机制的多类别葱植病虫害分类模型,达到96.90%准确率和0.96 F1分数
- Motivation: 现有方法主要关注二元分类,在需要准确识别具体病虫类型的场景中存在实践应用限制
- Method: 基于预训练CNN模型,集成注意力模块,采用综合数据增帽管道来缓解类别不平衡问题
- Result: 在真实田间图像数据集上获得96.90%总体准确率和0.96 F1分数,表现超过其他方法
- Conclusion: 该模型能够高效进行多类别葱植病虫害分类,为精准农业提供了可靠的技术支撑
[13] Delta Velocity Rectified Flow for Text-to-Image Editing
Gaspard Beaudouin,Minghan Li,Jaeyeon Kim,Sunghoon Yoon,Mengyu Wang
Main category: cs.CV
TL;DR: DVRF是一种基于蒸馏的无反演图像编辑框架,通过显式建模源和目标速度场差异来减少过平滑伪影,并引入时间相关偏移项来提升目标分布对齐。
- Motivation: 解决先前蒸馏采样方法中普遍存在的过平滑伪影问题,提升文本到图像编辑的质量和保真度。
- Method: 提出Delta Velocity Rectified Flow框架,包含速度场差异建模和时间相关偏移项,无需架构修改即可实现高效编辑。
- Result: 实验结果表明DVRF在编辑质量、保真度和可控性方面优于现有方法,且具有广泛适用性。
- Conclusion: DVRF成功连接了基于分数的扩散优化和基于速度的整流流优化,为FlowEdit等方法提供了理论解释,实现了高效高质量的图像编辑。
[14] Systematic Integration of Attention Modules into CNNs for Accurate and Generalizable Medical Image Diagnosis
Zahid Ullah,Minki Hong,Tahir Mahmood,Jihie Kim
Main category: cs.CV
TL;DR: 本研究系统地将注意力机制集成到五种主流CNN架构中,在医学图像分析任务中显著提升了分类性能和特征定位能力。
- Motivation: 传统卷积神经网络在医学图像分析中难以捕捉对准确诊断至关重要的细粒度复杂特征,需要增强模型对关键区域的关注能力。
- Method: 在VGG16、ResNet18、InceptionV3、DenseNet121和EfficientNetB5五种CNN架构中集成Squeeze and Excitation块或混合Convolutional Block Attention Module,实现通道和空间特征的自适应重新校准。
- Result: 注意力增强的CNN在所有指标上均优于基线架构,其中EfficientNetB5结合混合注意力机制表现最佳,在两个医学影像数据集上均取得显著性能提升。
- Conclusion: 注意力机制不仅提高了分类准确性,还增强了特征定位能力,为开发鲁棒、可解释且临床适用的深度学习决策支持系统提供了实用见解。
[15] Vision-Based Object Detection for UAV Solar Panel Inspection Using an Enhanced Defects Dataset
Ashen Rodrigo,Isuru Munasinghe,Asanka Perera
Main category: cs.CV
TL;DR: 这篇论文综述了五种先进目标检测模型在太阳能板缺陷和污染物检测中的性能对比,提供了在实际监控维护中选择适合模型的指南。
- Motivation: 及时准确地检测太阳能板缺陷和污染物对保持光伏系统效率和可靠性至关重要。
- Method: 使用自建的COCO格式太阳能板缺陷数据集,评估YOLOv3、Faster R-CNN、RetinaNet、EfficientDet和Swin Transformer五种目标检测模型,基于mAP、精度、召回率和推理速度指标进行分析。
- Result: 结果显示了各模型在检测准确性和计算效率之间的交换关系,展现了各自的优势和局限性。
- Conclusion: 研究结果为实际太阳能板监控维护场景中选择适当的检测方法提供了有价值的指导,数据集将公开以便进一步研究。
[16] Unsupervised Instance Segmentation with Superpixels
Cuong Manh Hoang
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[17] Augmented Structure Preserving Neural Networks for cell biomechanics
Juan Olalla-Pombo,Alberto Badías,Miguel Ángel Sanz-Gómez,José María Benítez,Francisco Javier Montáns
Main category: cs.CV
TL;DR: 提出了一种结合结构保持神经网络和人工神经网络的新方法,用于预测细胞迁移轨迹和有丝分裂事件,在模拟和真实细胞迁移案例中表现出高精度。
- Motivation: 细胞生物力学涉及从胚胎发生到肿瘤生长等重要生命过程,但细胞间的复杂相互作用及其对集体决策的影响仍不清楚,需要新的研究方法来理解这些现象。
- Method: 结合结构保持神经网络(研究细胞运动的纯力学系统)和人工神经网络(考虑环境因素),利用计算机视觉技术从实验中提取特征,采用roll-out策略预测完整细胞轨迹,并构建基于神经网络的有丝分裂事件预测模型。
- Result: 新模型在模拟和真实细胞迁移案例中能够以高精度预测完整的细胞轨迹,同时成功开发了基于相同观测特征的有丝分裂事件预测模型。
- Conclusion: 该研究提供了一种有效的综合方法,能够同时处理细胞迁移的力学特性和环境因素,为理解细胞集体行为和生物力学过程提供了新的工具和见解。
[18] Advanced Brain Tumor Segmentation Using EMCAD: Efficient Multi-scale Convolutional Attention Decoding
GodsGift Uzor,Tania-Amanda Nkoyo Fredrick Eneye,Chukwuebuka Ijezue
Main category: cs.CV
TL;DR: EMCAD是一种高效的多尺度卷积注意力解码器,用于脑肿瘤分割,在BraTs2020数据集上实现了中等性能的Dice分数,同时保持了计算效率。
- Motivation: 脑肿瘤分割是医学图像分析中的关键预处理步骤,但现有的解码机制通常计算成本高昂,特别是在计算资源有限的情况下。需要一种既能保持性能又能优化计算效率的解码器。
- Method: 提出了EMCAD(高效多尺度卷积注意力解码器),专门设计用于脑肿瘤分割,在BraTs2020数据集(包含369名脑肿瘤患者的MRI扫描)上进行优化。
- Result: 模型获得了最佳Dice分数0.31,在整个训练过程中保持稳定的平均Dice分数0.285±0.015,性能中等。在验证集上表现一致,没有出现过拟合迹象。
- Conclusion: EMCAD解码器在脑肿瘤分割任务中实现了计算效率和性能的平衡,虽然Dice分数中等,但表现出稳定的训练性能和良好的泛化能力。
[19] FAVAE-Effective Frequency Aware Latent Tokenizer
Tejaswini Medi,Hsien-Yi Wang,Arianna Rampini,Margret Keuper
Main category: cs.CV
TL;DR: 本文提出了一种基于小波的频率感知变分自编码器(FA-VAE)框架,通过显式分离低频和高频分量的优化,解决了现有潜在分词器在纹理重建中高频信息丢失的问题。
- Motivation: 现有潜在生成模型的两阶段训练过程中,图像压缩为潜在嵌入时往往优先重建低频信息,导致高频细节丢失,特别是在纹理区域和锐利过渡处产生视觉伪影,影响感知质量。
- Method: 通过对现有SOTA潜在分词器进行频率分解分析,提出基于小波的频率感知VAE框架,显式解耦低频和高频组件的优化,改善纹理细节重建同时保持全局结构。
- Result: 该方法能够显著改善纹理细节的重建质量,减少过度平滑输出和视觉伪影,提高图像重建的真实感。
- Conclusion: 频率感知优化对于实现真实图像表示至关重要,该方法在内容创作、神经渲染和医学成像等应用中具有广泛意义。
[20] Dynamic Sensitivity Filter Pruning using Multi-Agent Reinforcement Learning For DCNN's
Iftekhar Haider Chowdhury,Zaed Ikbal Syed,Ahmed Faizul Haque Dhrubo,Mohammad Abdul Qayum
Main category: cs.CV
TL;DR: 提出Differential Sensitivity Fusion Pruning方法,通过融合多种重要性评分标准来评估滤波器稳定性,实现单次前向-反向传播即可完成剪枝,在50-70%剪枝率下保持高精度同时显著降低计算复杂度。
- Motivation: 深度卷积神经网络虽然性能优异,但计算和内存开销限制了实际部署,需要高效的模型压缩方法。
- Method: 提出差分敏感度融合剪枝框架,通过融合梯度敏感度、一阶泰勒展开和KL散度等多种标准计算滤波器敏感度分数,使用指数缩放机制识别结构不稳定或不重要的滤波器。
- Result: 在50-70%剪枝率下,方法能减少80%以上的FLOPs,同时保持高达98.23%的基准精度,优于传统启发式方法。
- Conclusion: 该方法为深度卷积神经网络提供了可扩展和自适应的压缩解决方案,有助于在边缘和移动平台上的高效部署。
[21] Veriserum: A dual-plane fluoroscopic dataset with knee implant phantoms for deep learning in medical imaging
Jinhao Wang,Florian Vogl,Pascal Schütz,Saša Ćuković,William R. Taylor
Main category: cs.CV
TL;DR: Veriserum是一个开源的双平面荧光分析数据集,包含约11万张膝关节植入物X射线图像,用于深度学习配准训练,支持2D/3D图像配准、分割等医学影像应用。
- Motivation: 为深度学习配准算法提供高质量的训练和基准测试数据,推动计算机视觉和医学影像研究的发展,特别是在膝关节植入物分析领域。
- Method: 收集10种膝关节植入物组合的X射线图像,包含1600次试验,涵盖日常活动姿势。每张图像都有自动配准的真实姿态标注,200张图像包含手动配准姿态用于基准测试。
- Result: 创建了一个包含双平面图像和校准工具的开源数据集,支持多种医学影像应用开发,为算法评估提供可重复的基准。
- Conclusion: Veriserum数据集通过提供高质量的标注数据和校准工具,显著促进了深度学习在医学影像配准和分析领域的研究与应用。
[22] An Analysis of Layer-Freezing Strategies for Enhanced Transfer Learning in YOLO Architectures
Andrzej D. Dobrzycki,Ana M. Bernardos,José R. Casar
Main category: cs.CV
TL;DR: 研究分析了YOLOv8和YOLOv10在资源受限环境中的层冻结策略,发现最佳冻结策略依赖于数据特性,能节省辅28%的GPU内存使用量,某些情况下甚至超越全量微调的检测精度。
- Motivation: 实时物体检测算法YOLO在无人机等资源受限环境中部署需要高效转移学习。虽然层冻结是常用技术,但对于当代YOLOv8和YOLOv10架构中不同冻结配置的具体影响以及与数据集特征、训练动态的交互作用仍未得到充分探索。
- Method: 系统性研究了YOLOv8和YOLOv10变体在45个挑战性数据集上的多种冻结配置,集成了梯度行为分析(L2范数)和视觉解释(Grad-CAM)来提供更深入的训练动态见解。
- Result: 结果显示不存在通用的最佳冻结策略,而是依赖于数据特性。冻结背骨网络有效保留通用特征,而浅层冻结更适合处理极端类别不平衡。这些配置能节省辅28%的GPU内存使用量,某些情况下甚至超越全量微调的mAP@50分数。梯度分析证实了这些发现,显示中度冻结模型具有明显的收敛模式。
- Conclusion: 这项工作提供了实证研究结果和实践指南,为在资源有限场景中选择物体检测的冻结策略提供了实用、基于证据的平衡转移学习方法。
[23] Quaternion Approximation Networks for Enhanced Image Classification and Oriented Object Detection
Bryce Grant,Peng Wang
Main category: cs.CV
TL;DR: QUAN是一种新颖的四元数近似网络框架,通过汉密尔顿乘积分解实现旋转等变图像分类和目标检测,在保持几何特性的同时提高了计算效率。
- Motivation: 传统四元数神经网络完全在四元数域操作计算复杂,需要一种既能保持旋转等变特性又能高效实现的方法。
- Method: 通过汉密尔顿乘积分解用实数运算近似四元数卷积,引入独立四元数批量归一化(IQBN)提高训练稳定性,并将四元数操作扩展到空间注意力机制。
- Result: 在图像分类任务中准确率更高、参数更少、收敛更快;在目标检测任务中参数效率更高、旋转处理能力更强,在四元数CNN中达到SOTA水平。
- Conclusion: QUAN框架在资源受限的机器人系统中具有部署潜力,适用于需要旋转感知感知的应用领域。
[24] OpenEgo: A Large-Scale Multimodal Egocentric Dataset for Dexterous Manipulation
Ahad Jawaid,Yu Xiang
Main category: cs.CV
TL;DR: OpenEgo是一个大规模的多模态自我中心操作数据集,提供标准化的手部姿态标注和意图对齐的动作基元,总计1107小时数据,涵盖290个操作任务和600多个环境。
- Motivation: 现有的自我中心视频数据集往往缺乏细粒度的时间定位动作描述或灵巧的手部标注,限制了从视频中学习灵巧操作的能力。
- Method: 整合六个公共数据集,统一手部姿态布局,提供描述性的时间戳动作基元,并训练语言条件模仿学习策略来预测灵巧手部轨迹。
- Result: 构建了包含1107小时数据的大规模数据集,涵盖290个操作任务和600多个环境,为视觉-语言-动作学习提供标准化资源。
- Conclusion: OpenEgo旨在降低从自我中心视频学习灵巧操作的门槛,支持视觉-语言-动作学习领域的可重复研究,所有资源将在www.openegocentric.com发布。
[25] Visibility-Aware Language Aggregation for Open-Vocabulary Segmentation in 3D Gaussian Splatting
Sen Wang,Kunyi Li,Siyun Liang,Elena Alegret,Jing Ma,Nassir Navab,Stefano Gasperini
Main category: cs.CV
TL;DR: VALA方法通过可见性感知语言聚合和流式加权几何中值融合,解决了3D高斯中语言特征蒸馏的背景干扰和多视角不一致问题,显著提升了开放词汇定位和分割性能。
- Motivation: 现有方法在将2D图像的开放词汇语言特征蒸馏到3D高斯时存在两个基本问题:背景高斯与前景高斯获得相同特征贡献,以及多视角语言嵌入中的视角特定噪声导致的不一致性。
- Method: 提出可见性感知语言聚合(VALA),计算每条光线的边际贡献并应用可见性感知门控保留可见高斯;使用流式加权几何中值在余弦空间中融合多视角噪声特征。
- Result: VALA方法以快速且内存高效的方式产生了鲁棒、视角一致的语言特征嵌入,在多个参考数据集上显著提升了开放词汇定位和分割性能,一致超越现有工作。
- Conclusion: VALA是一个轻量级但有效的方法,成功解决了3D高斯语言特征蒸馏中的关键问题,为开放词汇3D场景交互提供了更可靠的解决方案。
[26] DuoCLR: Dual-Surrogate Contrastive Learning for Skeleton-based Human Action Segmentation
Haitao Tian,Pierre Payeur
Main category: cs.CV
TL;DR: 提出了基于对比学习的双代理对比学习框架(DuoCLR),通过预训练修剪后的骨架序列来提升人体动作分割性能,采用创新的数据增强策略和两个代理任务来学习多尺度特征表示。
- Motivation: 现有的表示学习方法主要针对动作识别任务,基于孤立的序列级表示,而动作分割需要利用多尺度表示和跨序列变化来更好地处理未修剪视频中的连续动作序列。
- Method: 提出'Shuffle and Warp'数据增强策略生成多样化的多动作排列,引入两个对比学习代理任务:跨排列对比(CPC)学习类内相似性,相对顺序推理(ROR)推理类间上下文关系,形成双代理对比学习框架。
- Result: 在未修剪数据集上的实验表明,DuoCLR在多类和多标签动作分割任务中均显著优于现有最先进方法,消融研究验证了各组成部分的有效性。
- Conclusion: 该框架通过创新的对比学习方法和多尺度表示学习,有效提升了动作分割性能,为基于骨架序列的动作分析提供了新的解决方案。
[27] RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentangled Representation
Yihong Leng,Siming Zheng,Jinwei Chen,Bo Li,Jiaojiao Li,Peng-Tao Jiang
Main category: cs.CV
TL;DR: 提出RED网络,通过随机掩码扰动策略和分离注意力机制,解决事件相机数据不完整性问题,提升运动去模糊的鲁棒性和准确性
- Motivation: 事件相机提供高时间分辨率运动信息,但现有方法忽略了事件流固有的不完整性(由DVS阈值机制导致),这种退化损害了运动先验的完整性并限制了事件引导去模糊的效果
- Method: 1) 鲁棒性导向扰动策略(RPS):对事件应用随机掩码,使网络接触不完整模式;2) 分离全注意力机制:显式建模运动内、运动间和跨模态相关性;3) 两个交互模块:增强模糊图像中的运动敏感区域,并向不完整事件表示注入语义上下文
- Result: 在合成和真实数据集上的大量实验表明,RED在准确性和鲁棒性方面始终达到最先进的性能
- Conclusion: 所提出的RED网络通过处理事件数据不完整性,有效提升了事件引导运动去模糊的性能和鲁棒性
[28] Sensitivity-Aware Post-Training Quantization for Deep Neural Networks
Zekang Zheng,Haokun Li,Yaofo Chen,Mingkui Tan,Qing Du
Main category: cs.CV
TL;DR: 通过参数敏感性分析指导的高效后训练量化方法,在保持准确性的同时大幅提升量化速度
- Motivation: 解决现有PTQ方法迭代参数更新导致的计算复杂度高、资源开销大问题,限制了在边缘计算和实时推理场景中的应用
- Method: 基于参数敏感性分析,优先量化高敏感性参数,利用未量化低敏感性参数补偿量化误差;通过列向参数敏感性聚类,实现行并行量化框架和全局共享逆Hessian矩阵更新机制
- Result: 在ResNet-50和YOLOv5s上实验,量化速度比Optimal Brain Quantization基准提升20-200倍,平均准确性损失低于0.3%
- Conclusion: 该方法有效地在量化效率和模型准确性之间取得了良好平衡,适用于资源受限的边缘计算环境
[29] Reconstruction and Reenactment Separated Method for Realistic Gaussian Head
Zhiling Ye,Cong Zhou,Xiubao Zhang,Haifeng Shen,Weihong Deng,Quan Lu
Main category: cs.CV
TL;DR: 提出基于3D高斯重建与驱动分离框架的单图像头像生成方法,通过大规模单样本高斯头部生成器和两阶段训练实现高质量重建,支持90FPS高帧率驱动渲染。
- Motivation: 解决传统方法需要多视角图像输入的问题,实现仅需单张肖像图像即可生成可控3D高斯头像,同时保持高帧率渲染性能。
- Method: 基于WebSSL构建大规模单样本高斯头部生成器,采用两阶段训练策略提升泛化能力和高频纹理重建,设计超轻量级高斯头像驱动模块。
- Result: 在512x512分辨率下达到90FPS渲染速度,遵循缩放定律(参数规模增加性能提升),定量和定性实验均优于当前最先进方法。
- Conclusion: 该分离框架成功实现了单图像输入的高质量3D高斯头像生成与高效驱动,在重建质量和渲染效率方面均表现出色。
[30] MFFI: Multi-Dimensional Face Forgery Image Dataset for Real-World Scenarios
Changtao Miao,Yi Zhang,Man Luo,Weiwei Feng,Kaiyuan Zheng,Qi Chu,Tao Gong,Jianshu Li,Yunfeng Diao,Wei Zhou,Joey Tianyi Zhou,Xiaoshuai Hao
Main category: cs.CV
TL;DR: 提出了MFFI数据集,针对现有Deepfake检测数据集的不足,通过四个维度增强真实性:更广泛的伪造方法、多样化的面部场景、丰富的真实数据、多级退化操作,包含50种伪造方法和1024K样本。
- Motivation: 当前Deepfake检测方法受限于现有数据集的多样性不足,缺乏真实世界场景所需的未知高级伪造技术、面部场景变化、真实数据丰富性和现实传播退化。
- Method: 构建MFFI数据集,基于四个策略维度:1)更广泛的伪造方法;2)多样化的面部场景;3)多样化的真实数据;4)多级退化操作,集成50种不同伪造方法。
- Result: MFFI包含1024K图像样本,基准评估显示在场景复杂性、跨域泛化能力和检测难度梯度方面优于现有公共数据集。
- Conclusion: MFFI在模拟真实世界条件方面具有技术先进性和实用价值,验证了其在提升Deepfake检测性能方面的有效性。
[31] Language-guided Recursive Spatiotemporal Graph Modeling for Video Summarization
Jungin Park,Jiyoung Lee,Kwanghoon Sohn
Main category: cs.CV
TL;DR: VideoGraph:一种基于语言引导的时空图建模方法,用于视频摘要任务,通过构建对象和帧的图结构并利用语言查询增强语义关系,在多个基准测试中达到最先进性能
- Motivation: 传统视频摘要方法主要关注帧间的时间建模,但忽略了细粒度视觉实体(如对象)的语义关系。语言引导的视频摘要需要更全面的语义理解,因此需要同时考虑对象间的语义关联和语言指导
- Method: 提出递归时空图网络VideoGraph,将对象和帧分别建模为空间图和时间图的节点,通过图边表示语义关系。引入语言查询来增强节点表示的语义知识,避免仅基于视觉相似性构建边。采用递归策略优化初始图并正确分类关键帧
- Result: 在多个通用和查询聚焦的视频摘要基准测试中,无论是监督还是无监督方式,VideoGraph都达到了最先进的性能
- Conclusion: 将视频摘要建模为语言引导的时空图问题,通过语义关系建模和语言查询集成,能够更有效地捕捉视频内容的核心语义,提升摘要质量
[32] Patch-level Kernel Alignment for Self-Supervised Dense Representation Learning
Juan Yeo,Ijun Jang,Taesup Kim
Main category: cs.CV
TL;DR: 通过补丁级内核对齐(PaKA)方法实现密集表征学习,在多个密集视觉指标上达到最佳性能
- Motivation: 当前自监督表征学习方法主要关注全局表征,无法满足需要空间精确和细粒度细节的密集预测任务需求
- Method: 提出Patch-level Kernel Alignment (PaKA)对齐目标,通过对齐教师和学生模型间密集特征的分布来捐换语义知识,并研究专门为密集表征学习设计的增强策略
- Result: 在多个密集视觉指标上达到了state-of-the-art的结果
- Conclusion: 证明了通过补丁级统计依赖关系对齐来转移语义知识的方法在密集表征学习中的有效性
[33] SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning
Hanzhen Wang,Jiaming Xu,Jiayi Pan,Yongkang Zhou,Guohao Dai
Main category: cs.CV
TL;DR: SpecPrune-VLA是一种无需训练的双层剪枝方法,利用局部和全局信息进行智能token选择,在VLA模型中实现显著加速且几乎不损失成功率
- Motivation: 现有VLA模型剪枝方法仅使用当前动作的局部信息,忽略历史动作的全局上下文,导致成功率下降超过20%且加速效果有限
- Method: 提出三层剪枝策略:1)动作级静态剪枝使用全局历史和局部上下文;2)层级动态剪枝基于层重要性;3)轻量级动作感知控制器根据动作粒度调整剪枝强度
- Result: 在LIBERO基准测试中,相比OpenVLA-OFT,在NVIDIA A800上实现1.46倍加速,在RTX 3090上实现1.57倍加速,成功率损失可忽略不计
- Conclusion: 结合局部和全局信息的智能剪枝策略能有效提升VLA模型推理速度,同时保持性能,为计算密集型模型的加速提供了有效解决方案
[34] SuMa: A Subspace Mapping Approach for Robust and Effective Concept Erasure in Text-to-Image Diffusion Models
Kien Nguyen,Anh Tran,Cuong Pham
Main category: cs.CV
TL;DR: 这篇论文提出了Subspace Mapping (SuMa)方法,专门用于消除文本到图像模型中的独特概念(如版权字符或名人),同时保持图像质量和消除效果的稳健性。
- Motivation: 现有的概念消除方法无法同时实现稳健性和效果性,尤其是在处理与非目标概念距离近的独特概念时,这些概念的消除对解决版权和法律问题至关重要。
- Method: 设计了Subspace Mapping (SuMa)方法:首先推导出代表要消除概念的目标子空间,然后通过将其映射到最小化距离的参考子空间来中和该概念。
- Result: 在四个任务(子类消除、名人消除、艺术风格消除和实例消除)上进行了广泛实验,结果显示SuMa在保持图像质量的同时达到了与专注完整性的方法相当的消除效果。
- Conclusion: SuMa方法有效解决了独特概念消除的挑战,能够同时实现稳健的概念消除和高质量的图像生成,为处理版权和法律问题提供了有效的技术解决方案。
[35] Self-supervised Learning for Hyperspectral Images of Trees
Moqsadur Rahman,Saurav Kumar,Santosh S. Palmate,M. Shahriar Hossain
Main category: cs.CV
TL;DR: 本文提出使用自监督学习从航空高光谱图像中创建反映树木植被特性的神经网络嵌入表示,相比直接使用高光谱植被特性,该方法在下游机器学习任务中表现更好。
- Motivation: 航空多光谱和RGB成像在精准农业中很重要,但高光谱图像标签有限或无标签的分析具有挑战性,需要开发有效的无监督表示学习方法。
- Method: 采用自监督学习方法构建神经网络嵌入空间,该空间能够反映树木的植被特性,从航空高光谱图像中提取有意义的表示。
- Result: 实验结果表明,基于植被特性相关嵌入空间构建的树木表示,在下游机器学习任务中的性能优于直接使用高光谱植被特性作为表示的方法。
- Conclusion: 自监督学习可以有效地从无标签高光谱图像中学习有意义的植被特性表示,为精准农业中的树木分析提供了更好的特征表示方法。
[36] Evaluating YOLO Architectures: Implications for Real-Time Vehicle Detection in Urban Environments of Bangladesh
Ha Meem Hossain,Pritam Nath,Mahitun Nesa Mahi,Imtiaz Uddin,Ishrat Jahan Eiste,Syed Nasibur Rahman Ratul,Md Naim Uddin Mozumdar,Asif Mohammed Saad
Main category: cs.CV
TL;DR: 这篇论文研究了YOLO模型在孜加拉地区特有车辆检测中的性能,YOLOv11x表现最佳,但通用车辆类型模型在当地环境中表现差异显著。
- Motivation: 因为基于非孜加拉数据集训练的车辆检测系统在孜加拉特有道路环境中识别本地车辆类型时表现差异,影响自动驾驶技术在发展中地区的应用。
- Method: 使用包含29种孜加拉特有车辆类型的自定义数据集,评测六种YOLO模型变体的性能,数据集包含高清图片并使用LabelImg手动标注。
- Result: YOLOv11x表现最好(mAP@0.5为63.7%),但推理时间长(45.8毫秒)。中等模型在性能和速度之间取得平衡。稀缺车辆类型检测准确度极低,视觉相似车辆容易歧误分类。
- Conclusion: 研究为开发适合孜加拉交通条件的强壁物体检测系统奠定了基础,解决了通用模型在发展中地区无法有效工作的关键问题。
[37] EditIDv2: Editable ID Customization with Data-Lubricated ID Feature Integration for Text-to-Image Generation
Guandong Li,Zhaobin Chu
Main category: cs.CV
TL;DR: EditIDv2是一个无需调优的解决方案,专门处理高复杂度叙事场景和长文本输入,通过改进ID特征集成模块和最小数据润滑下的可编辑性注入,在保持身份一致性的同时实现深度多层级语义编辑。
- Motivation: 现有角色编辑方法在简单提示下表现良好,但在面对包含多层语义、时间逻辑和复杂上下文关系的长文本叙事时,往往会出现编辑能力下降、语义理解偏差和身份一致性崩溃的问题。
- Method: 通过PerceiverAttention的精细分解、引入ID损失和与扩散模型的联合动态训练,以及集成模块的离线融合策略,在最小数据润滑条件下实现可编辑性注入。
- Result: 在复杂叙事环境中实现了深度多层级语义编辑,同时保持身份一致性,满足了长提示词和高质量图像生成的需求,在IBench评估中取得了优异结果。
- Conclusion: EditIDv2成功解决了长文本叙事场景下的角色编辑挑战,通过创新的技术方法在最小数据需求下实现了高质量的语义编辑和身份保持。
[38] OOTSM: A Decoupled Linguistic Framework for Effective Scene Graph Anticipation
Xiaomeng Zhu,Changwei Wang,Haozhe Wang,Xinyu Liu,Fangzhen Lin
Main category: cs.CV
TL;DR: 本文提出了一种基于语言模型的场景图预测方法(OOTSM),通过分解为对象出渐预测和关系生成两个阶段,显著提升了场景图预测的短期和长期性能。
- Motivation: 现有场景图预测方法主要依靠视觉线索,缺乏常识知识的积极利用,导致长期预测稳健性不足。
- Method: 提出语言场景图预测(LSGA)概念,使用大语言模型先预测对象的出现和消失,然后生成详细的人物关系,形成两阶段的对象导向方法(OOTSM)。
- Result: 在Action Genome数据集上进行实验,短期mean-Recall(@10)提升3.4%,长期mean-Recall(@50)大幅提升21.9%,达到了最先进的性能。
- Conclusion: 通过明确利用常识知识,语言模型可以有效提升场景图预测的性能,尤其在长期预测中显示出显著优势。
[39] WIPUNet: A Physics-inspired Network with Weighted Inductive Biases for Image Denoising
Wasikul Islam
Main category: cs.CV
TL;DR: 这篇论文推出了受高能物理堆积器启发的图像去噪方法,通过将物理前知嵌入神经网络结构来提高高噪声条件下的稳健性。
- Motivation: 受高能物理堆积器中的堆积噪声减除策略所使用的物理前知(如守恒性、局域性、隔离性)可以应用于图像去噪任务,提高模型在强噪声污染下的稳健性。
- Method: 提出了一系列PU启发的去噪器:带守恒约束的清副CNN、高斯噪声变体以及WIPUNet(结合物理前知的UNet结构)。
- Result: 在CIFAR-10和BSD500数据集上,物理启发的CNN与标准基线相当,而WIPUNet在高噪声水平(σ=75,100)下显示出更优异的性能差距,表明物理前知提供了更好的稳健性。
- Conclusion: 这个概念验证工作表明,将物理启发的归纳偏见嵌入神经网络可以在不依赖重型SOTA模型的情况下,为高噪声条件下的图像去噪提供稳健性改善。
[40] Context-Aware Multi-Turn Visual-Textual Reasoning in LVLMs via Dynamic Memory and Adaptive Visual Guidance
Weijie Shen,Xinrui Wang,Yuanqi Nie,Apiradee Boonmee
Main category: cs.CV
TL;DR: CAMVR框架通过视觉-文本上下文记忆单元和自适应视觉聚焦机制,显著提升多轮视觉-文本推理能力,在多个数据集上达到SOTA性能
- Motivation: 当前大语言模型和视觉-语言大模型在单轮任务表现优异,但在需要深度上下文理解和复杂视觉推理的多轮交互中存在推理碎片化、上下文丢失和幻觉问题
- Method: 提出CAMVR框架,包含:1) 视觉-文本上下文记忆单元(VCMU) - 动态读写记忆网络存储管理视觉特征和文本语义表示;2) 自适应视觉聚焦指导(AVFG) - 利用VCMU上下文动态调整视觉编码器注意力到相关图像区域;3) 多层次推理集成策略
- Result: 在VisDial、改进版A-OKVQA和新构建的MTIF数据集上的大量实验表明,CAMVR持续实现最先进的性能
- Conclusion: CAMVR框架有效解决了多轮视觉-文本推理中的关键挑战,为LVLMs提供了强大而连贯的多模态推理能力
[41] MeshMetrics: A Precise Implementation of Distance-Based Image Segmentation Metrics
Gašper Podobnik,Tomaž Vrtovec
Main category: cs.CV
TL;DR: MeshMetrics是一个基于网格的框架,用于更精确计算基于距离的分割指标,解决了传统网格方法中的实现陷阱和离散化伪影问题。
- Motivation: 图像分割研究中存在可重复性危机,性能评估中的指标实现可靠性问题被忽视,基于距离的指标实现陷阱导致不同开源工具间存在显著差异。
- Method: 提出MeshMetrics框架,采用基于网格的方法而非传统的基于网格的方法,通过理论分析和实证验证来精确计算基于距离的指标。
- Result: MeshMetrics比现有工具具有更高的准确性和精度,受离散化伪影(如距离量化)的影响显著减小,Hausdorff距离差异可超过100mm,归一化表面距离差异可达30%pt。
- Conclusion: MeshMetrics提供了一个更可靠的基于距离指标计算框架,作为开源Python包发布,有助于改善图像分割研究的可重复性和评估可靠性。
[42] Leveraging Vision-Language Large Models for Interpretable Video Action Recognition with Semantic Tokenization
Jingwei Peng,Zhixuan Qiu,Boyu Jin,Surasakdi Siripong
Main category: cs.CV
TL;DR: LVLM-VAR是一个基于预训练视觉-语言大模型的新型视频动作识别框架,通过视频到语义标记转换和LoRA微调,在NTU数据集上达到SOTA性能并提升可解释性
- Motivation: 传统方法在深度语义理解、复杂上下文信息和细粒度区分方面存在局限,需要利用大语言模型的强大能力来解决视频动作识别的挑战
- Method: 提出Video-to-Semantic-Tokens模块将原始视频转换为离散的语义动作标记,结合自然语言指令,使用LoRA微调的LVLM(如LLaVA-13B)进行分类和语义推理
- Result: 在NTU RGB+D和NTU RGB+D 120基准测试中取得优异性能(NTU RGB+D X-Sub 94.1%,NTU RGB+D 120 X-Set 90.0%),并显著提升模型可解释性
- Conclusion: LVLM-VAR框架成功将预训练视觉-语言大模型应用于视频动作识别,在准确性和可解释性方面都取得了显著进展,为复杂视频理解任务提供了新思路
[43] JRN-Geo: A Joint Perception Network based on RGB and Normal images for Cross-view Geo-localization
Hongyu Zhou,Yunzhou Zhang,Tingsong Huang,Fawei Ge,Man Qi,Xichen Zhang,Yizhong Zhang
Main category: cs.CV
TL;DR: 基于RGB和法线图像的双分支网络JRN-Geo,通过深度融合语义和空间结构信息,提升航拍图像跨视角地理定位的稳健性和准确性
- Motivation: 解决航拍图像跨视角地理定位中存在的显著视角差异和外观变化挑战,现有方法主要依赖RGB图像的语义特征而忽视了空间结构信息的重要性
- Method: 提出JRN-Geo网络,采用双分支特征提取框架,结合差异感知融合模块(DAFM)和联合约束交互聚合(JCIA)策略,并使用3D地理增广技术生成潜在视角变化样本
- Result: 在University-1652和SUES-200数据集上经验证,该方法在复杂视角变化下体现出优异的稳健性,达到了目前最先进的性能
- Conclusion: 通过融合RGB图像的语义信息和法线图像的几何结构信息,JRN-Geo网络能够有效提升航拍图像跨视角地理定位的准确性和稳健性
[44] Knowledge-Augmented Vision Language Models for Underwater Bioacoustic Spectrogram Analysis
Ragib Amin Nihal,Benjamin Yen,Takeshi Ashizawa,Kazuhiro Nakadai
Main category: cs.CV
TL;DR: 研究探索视觉语言模型(VLMs)能否从海洋哺乳动物声谱图中提取有意义的视觉模式,无需手动标注或模型重新训练
- Motivation: 海洋哺乳动物发声分析依赖于对生物声学声谱图的解释,但现有的视觉语言模型并未针对这些领域特定的可视化进行训练
- Method: 提出一个框架,将VLM的视觉解释与基于LLM的验证相结合,以构建领域知识
- Result: 该方法能够使模型适应声学数据,无需手动标注或模型重新训练
- Conclusion: 该框架展示了VLMs在专业领域视觉数据分析中的潜力,为生物声学研究提供了新的自动化分析途径
[45] LiDAR-BIND-T: Improving SLAM with Temporally Consistent Cross-Modal LiDAR Reconstruction
Niels Balemans,Ali Anwar,Jan Steckel,Siegfried Mercelis
Main category: cs.CV
TL;DR: LiDAR-BIND-T扩展了多模态融合框架,通过时间一致性机制改进雷达/声纳到LiDAR的转换,提升SLAM性能
- Motivation: 解决多传感器融合中的时间不一致性问题,提高下游SLAM任务的鲁棒性和性能
- Method: 引入三种时间一致性机制:时间嵌入相似性、运动对齐变换损失、窗口时间融合,并更新模型架构以保持空间结构
- Result: 在雷达/声纳到LiDAR转换中展示了改进的时间和空间一致性,降低了绝对轨迹误差,提高了Cartographer SLAM中的占据地图精度
- Conclusion: LiDAR-BIND-T保持了即插即用的模态融合能力,同时显著增强了时间稳定性,为下游SLAM应用提供了更好的鲁棒性和性能
[46] Multi-LVI-SAM: A Robust LiDAR-Visual-Inertial Odometry for Multiple Fisheye Cameras
Xinyu Zhang,Kai Huang,Junqiao Zhao,Zihan Yuan,Tiantian Feng
Main category: cs.CV
TL;DR: 提出了Multi-LVI-SAM多相机LiDAR-视觉-惯性里程计框架,通过全景视觉特征模型统一多鱼眼相机数据,结合外参补偿方法提高精度和鲁棒性
- Motivation: 为了解决多相机系统中视觉信息融合的效率和一致性问题,避免对单个相机的冗余处理,提高状态估计的准确性和鲁棒性
- Method: 引入全景视觉特征模型统一多相机观测,提出外参补偿方法解决帧间不对齐问题,基于因子图实现紧耦合的LiDAR-视觉-惯性系统集成
- Result: 在公开数据集上的大量实验表明,全景视觉特征模型提升了多相机约束的质量和一致性,相比现有系统具有更高的精度和鲁棒性
- Conclusion: Multi-LVI-SAM框架通过全景建模和外参补偿有效解决了多相机融合问题,为高精度鲁棒状态估计提供了有效解决方案
[47] Depth-Aware Super-Resolution via Distance-Adaptive Variational Formulation
Tianhao Guo,Bingjie Lu,Feng Wang,Zhengyang Lu
Main category: cs.CV
TL;DR: 这篇论文提出了一种基于理论基础的距离适配性超分辨框架,通过空间变化逆问题形式咄深度条件卷积内核来处理真实世界中的距离依赖性降级效应,在多个标准数据集上实现了独创性能。
- Motivation: 传统的单图超分辨方法假设空间不变的降级模型,但真实成像系统存在复杂的距离依赖效应,如大气散射、景深变化咄透视扩变等,需要空间适配性重建策略。
- Method: 提出严格的变分框架,将超分辨形式化为空间变化逆问题,通过深度条件卷积内核实现离散梯度流动力学,并结合天然散射理论的频谱约束来防止远场区域的带宽违约咄噪声放大。
- Result: 在5个标准数据集上达到独创性能,在KITTI外景场景中2倍咄4倍缩放下分别获得36.89/0.9516咄30.54/0.8721的PSNR/SSIM值,比现有方法分别提高0.44dB咄0.36dB。
- Conclusion: 这项工作建立了第一个理论基础坚实的距离适配性超分辨框架,在深度变化场景中实现了显著改进,同时在传统标准测试中保持了竞争力。
[48] InterAct: A Large-Scale Dataset of Dynamic, Expressive and Interactive Activities between Two People in Daily Scenarios
Leo Ho,Yinghao Huang,Dafei Qin,Mingyi Shi,Wangpok Tse,Wei Liu,Junichi Yamagishi,Taku Komura
Main category: cs.CV
TL;DR: 提出了InterAct数据集和基于扩散的方法,用于从语音输入同时生成两人互动时的身体动作和面部表情,解决了长期动态互动行为建模的挑战。
- Motivation: 现有工作大多只关注单人或假设身体方向位置不变的对话手势,无法准确捕捉日常场景中两人动态、目标驱动、语义一致的长时间互动行为。
- Method: 采集了241个多模态互动序列数据集InterAct,提出分层回归身体动作的扩散方法,并设计了新颖的微调机制提高嘴唇准确性。
- Result: 构建了包含多样化复杂动作和长期互动模式的数据集,展示了从语音生成两人互动动作和表情的有效方法。
- Conclusion: InterAct数据集和方法为研究动态多人互动行为提供了新基准,推动了相关领域的发展。
[49] Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation
Bingrui Zhao,Lin Yuanbo Wu,Xiangtian Fan,Deyin Liu,Lu Zhang,Ruyi He,Jialie Shen,Ximing Li
Main category: cs.CV
TL;DR: PARSE-VOS是一个基于大语言模型的免训练框架,通过分层粗到细的推理实现视频对象分割,在多个基准测试中达到最先进性能。
- Motivation: 当前方法在处理复杂组合描述时存在困难,难以对齐静态文本与动态视觉内容,特别是当对象外观相似但运动和姿态不一致时。
- Method: 1) 将自然语言查询解析为结构化语义命令;2) 时空定位模块生成所有候选轨迹;3) 分层识别模块通过粗粒度运动推理和细粒度姿态验证两阶段选择正确目标。
- Result: 在Ref-YouTube-VOS、Ref-DAVIS17和MeViS三个主要基准测试中实现了最先进的性能。
- Conclusion: PARSE-VOS通过分层推理框架有效解决了复杂语言描述下的视频对象分割问题,无需训练即可实现优异性能。
[50] PictOBI-20k: Unveiling Large Multimodal Models in Visual Decipherment for Pictographic Oracle Bone Characters
Zijian Chen,Wenjie Hua,Jinhao Li,Lirong Deng,Fan Du,Tingzhu Chen,Guangtao Zhai
Main category: cs.CV
TL;DR: 本文提出了PictOBI-20k数据集,用于评估大型多模态模型在甲骨文视觉解读任务上的表现,包含2万个甲骨文和实物图像,形成1.5万道选择题。实验表明通用LMM具备初步视觉解读能力,但主要受语言先验限制而非有效利用视觉信息。
- Motivation: 甲骨文作为最古老的汉字形式,其解读对理解人类早期生产方式至关重要。当前解读方法受限于考古发掘的零散性和铭文语料有限。大型多模态模型强大的视觉感知能力为甲骨文视觉解读提供了新可能。
- Method: 构建PictOBI-20k数据集,包含2万个精心收集的甲骨文和实物图像,形成超过1.5万道多选题。进行主观标注以研究人类与LMM在视觉推理中参考点的一致性。
- Result: 实验表明通用LMM具备初步的视觉解读技能,但LMM并未有效利用视觉信息,大多数时候受限于语言先验。
- Conclusion: 该数据集可为未来面向甲骨文的LMM的视觉注意力评估和优化提供支持,促进甲骨文解读研究的发展。
[51] Posterior shape models revisited: Improving 3D reconstructions from partial data using target specific models
Jonathan Aellen,Florian Burkhardt,Thomas Vetter,Marcel Lüthi
Main category: cs.CV
TL;DR: 医学形态重建中训练与目标形态的姿态对齐问题导致偏差,本文提出高效方法调整现有模型以适应目标姿态,在保持线性模型效率的同时提高重建准确性和方差预测。
- Motivation: 医学形态重建中,训练数据与部分目标形态的姿态对齐差异导致偏差解,尤其在观察小部分形态时影响更大。
- Method: 提出一种高效方法调整现有模型以适应特定目标形态,保持线性模型的计算效率,无需访问原始训练数据。该方法能准确恢复平移对齐模型,并对小旋转提供良好近似。
- Result: 显著提高了重建准确性咏预测方差,作为预处理步骤容易集成到现有重建流水线中,应用范围广泛。
- Conclusion: 姿态对齐对部分形态重建至关重要,本文方法能高效调整现有模型适应目标姿态,在保持计算效率的同时显著提升性能。
[52] 3DPillars: Pillar-based two-stage 3D object detection
Jongyoun Noh,Junghyup Lee,Hyekang Park,Bumsub Ham
Main category: cs.CV
TL;DR: PointPillars是最快的3D物体检测器,但性能不如最先进方法。本文提出了第一个基于伪图像表示的两阶段3D检测框架,通过3DPillars CNN网络和稀疏场景上下文特征模块,在保持效率的同时提升了性能。
- Motivation: 解决PointPillars的两大限制:1)伪图像表示无法保保精确的3D结构;2)难以采用通常性能更好的两阶段3D物体建议检测流程。
- Method: 提出两个新组件:1)3DPillars CNN网络,通过可分离汇素特征模块使用2D卷积高效学习汇素基特征;2)稀疏场景上下文特征模块的RoI头部,聚合3DPillars的多级特征获取稀疏场景特征以精炼3D物体建议。
- Result: 在KITTI和Waymo Open数据集上的实验结果显示,该方法在保持效率的同时大幅提升了检测准确性,达到了速度和准确性的良好平衡。
- Conclusion: 本文提出的两阶段3D检测框架成功克服了PointPillars的限制,通过3DPillars网络和稀疏场景特征模块,在保持高效率的同时大幅提升了检测性能,缩小了与最先进方法的性能差距。
[53] CRAB: Camera-Radar Fusion for Reducing Depth Ambiguity in Backward Projection based View Transformation
In-Jae Lee,Sihwan Hwang,Youngseok Kim,Wonjune Kim,Sanmin Kim,Dongsuk Kum
Main category: cs.CV
TL;DR: 提出CRAB模型,通过相机-雷达融合和反向投影技术解决深度模糊问题,在nuScenes数据集上达到62.4% NDS和54.0% mAP的先进性能
- Motivation: 现有的前向投影方法存在BEV特征稀疏问题,反向投影方法存在深度模糊导致误检的问题,需要结合相机和雷达的互补优势来解决这些限制
- Method: 使用反向投影技术,将透视视图图像特征聚合到BEV查询中,结合图像密集但不准确的深度分布与雷达稀疏但精确的深度信息,并引入包含雷达上下文信息的空间交叉注意力机制
- Result: 在nuScenes数据集上实现了62.4% NDS和54.0% mAP的3D目标检测性能,在基于反向投影的相机-雷达融合方法中达到最先进水平
- Conclusion: CRAB模型通过有效融合相机和雷达信息,成功解决了深度模糊问题,显著提升了3D目标检测和分割的性能
[54] Dual-Mode Deep Anomaly Detection for Medical Manufacturing: Structural Similarity and Feature Distance
Julio Zanon Diaz,Georgios Siogkas,Peter Corcoran
Main category: cs.CV
TL;DR: 提出了两种注意力引导的自编码器架构用于医疗设备制造中的深度异常检测,分别使用结构相似性异常评分和特征距离方法,在小型不平衡数据集上实现了高精度实时缺陷检测和监管合规监控
- Motivation: 医疗设备制造中的视觉检测自动化面临小样本、不平衡数据集、高分辨率图像和严格监管要求的挑战,需要开发能够满足这些约束的深度异常检测方法
- Method: 1. 使用结构相似性异常评分(4-MS-SSIM)的轻量级自编码器架构,实现实时缺陷检测;2. 使用马哈拉诺比斯评分对降维潜在特征进行特征距离分析,提供分布偏移的高灵敏度监控
- Result: 第一种方法在仅有10%缺陷样本的测试集上获得ACC 0.903(无监督阈值)和0.931(有监督阈值);第二种方法在有监督阈值下达到ACC 0.722,两种方法均优于重新实现的基线方法
- Conclusion: 两种方法提供了互补能力:第一种支持可靠的在线检测,第二种支持可扩展的生产后监控和监管合规监测,为在受监管制造环境中部署深度异常检测提供了实用途径,符合欧盟AI法案对高风险AI系统的要求
[55] A Probabilistic Segment Anything Model for Ambiguity-Aware Medical Image Segmentation
Tyler Ward,Abdullah Imran
Main category: cs.CV
TL;DR: Probabilistic SAM是SAM的概率扩展版本,通过引入潜在变量空间和变分训练目标,能够生成反映人类标注变异性的多样化分割掩码,特别适用于医学图像中存在标注不确定性的场景。
- Motivation: 现有的可提示分割模型(如SAM)是确定性的,每个提示只能生成单一分割结果,无法捕捉真实世界任务中固有的模糊性。这在医学成像中尤其成问题,因为标注不确定性或专家间差异可能导致多个合理的分割结果。
- Method: 在SAM框架中集成先验网络和后验网络,通过潜在变量空间调节提示嵌入,使用变分目标进行训练,学习生成多样化且合理的分割掩码分布。
- Result: 在LIDC-IDRI肺结节数据集上的评估表明,Probabilistic SAM能够产生与专家分歧一致的不同输出,在不确定性感知指标上优于现有概率基线方法。
- Conclusion: Probabilistic SAM成功地将概率建模引入提示分割框架,为医学图像分析等需要处理标注不确定性的领域提供了有效的解决方案,能够生成反映真实世界变异性的多样化分割结果。
[56] Near Real-Time Dust Aerosol Detection with 3D Convolutional Neural Networks on MODIS Data
Caleb Gates,Patrick Moorhead,Jayden Ferguson,Omar Darwish,Conner Stallman,Pablo Rivas,Paapa Quansah
Main category: cs.CV
TL;DR: 一种基于3D卷积网络的近实时沙尘检测系统,利用MODIS卫星的36个频段图像进行像素级沙尘识别,准确率达0.92
- Motivation: 沙尘暴对健康和能见度造成害处,需要从卫星图像中进行快速检测
- Method: 使用3D卷积网络学习MODIS卫星的36个频段图像,统计热频段,通过简单标准化和局部填充处理缺失数据
- Result: 在17个独立MODIS场景上达到0.92的准确率,均方误差为0.014,核心地区检测结果一致性高
- Conclusion: 聚合频段和空间学习能够提供全球范围的及时沙尘警报,使用更大输入窗口或注意力模型可以进一步提高边缘检测效果
[57] Challenges in Deep Learning-Based Small Organ Segmentation: A Benchmarking Perspective for Medical Research with Limited Datasets
Phongsakon Mark Konrad,Andrei-Alexandru Popa,Yaser Sabzehmeidani,Liang Zhong,Elisa A. Liehn,Serkan Ayvaz
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[58] BTCChat: Advancing Remote Sensing Bi-temporal Change Captioning with Multimodal Large Language Model
Yujie Li,Wenjia Xu,Yuanben Zhang,Zhiwei Wei,Mugen Peng
Main category: cs.CV
TL;DR: BTCChat是一个多时相MLLM模型,通过Change Extraction模块和Prompt Augmentation机制提升双时相卫星影像变化理解能力,在变化描述和视觉问答任务上达到SOTA性能。
- Motivation: 现有双时相变化分析方法通过直接拼接图像对处理,无法充分建模时间相关性和空间语义变化,限制了视觉语义对齐和整体效果。
- Method: 提出BTCChat模型,包含Change Extraction模块来捕捉时间特征和空间语义变化,以及Prompt Augmentation机制通过添加上下文线索来增强对空间细节的关注。
- Result: 实验结果表明BTCChat在变化描述和视觉问答任务上取得了最先进的性能。
- Conclusion: BTCChat通过专门设计的模块有效解决了双时相影像变化分析中的时间建模和语义对齐问题,显著提升了变化理解能力。
[59] A Fine-Grained Attention and Geometric Correspondence Model for Musculoskeletal Risk Classification in Athletes Using Multimodal Visual and Skeletal Features
Md. Abdur Rahman,Mohaimenul Azam Khan Raiaan,Tamanna Shermin,Md Rafiqul Islam,Mukhtar Hussain,Sami Azam
Main category: cs.CV
TL;DR: ViSK-GAT是一个多模态深度学习框架,结合视觉和骨骼坐标特征,用于肌肉骨骼风险分类,在复杂环境中实现了93%以上的准确率。
- Motivation: 现有方法大多设计用于受控环境,依赖单一数据类型,无法在复杂环境中可靠评估肌肉骨骼风险。运动员肌肉骨骼疾病风险早期评估对预防至关重要。
- Method: 提出ViSK-GAT多模态框架,结合残差块和轻量级Transformer块学习时空依赖关系。包含细粒度注意力模块(FGAM)进行跨模态特征精炼,以及多模态几何对应模块(MGCM)增强跨模态一致性。基于REBA系统构建八类风险标注的多模态数据集。
- Result: 验证准确率93.55%,测试准确率93.89%,精确率93.86%,F1分数93.85%,Cohen's Kappa和MCC均为93%。RMSE为0.1205,MAE为0.0156,优于九种流行的迁移学习骨干网络。
- Conclusion: ViSK-GAT推进了人工智能在肌肉骨骼风险分类中的应用,能够实现有效的早期干预,在运动医学领域具有重要价值。
[60] Compression Beyond Pixels: Semantic Compression with Multimodal Foundation Models
Ruiqi Shen,Haotian Wu,Wenjing Zhang,Jiangjing Hu,Deniz Gunduz
Main category: cs.CV
TL;DR: 基于CLIP模型的语义压缩方法,通过压缩特征嵌入而非像素重建,在极低比特率下保持语义完整性,比主流方法节省95%以上比特率
- Motivation: 新兴应用更关注语义保持而非像素级重建,需要跨数据分布和下游任务的鲁棒性能,这需要先进的语义压缩范式
- Method: 利用多模态基础模型的零样本和表示能力,提出基于CLIP模型的语义压缩方法,将CLIP特征嵌入压缩为最小比特同时保持跨任务语义信息
- Result: 在基准数据集上保持语义完整性,平均比特率约2-3×10⁻³ bpp,比主流图像压缩方法所需比特率少95%以上,在极端压缩下仍展现跨数据分布和下游任务的零样本鲁棒性
- Conclusion: 该方法为语义压缩提供了有效解决方案,在极低比特率下实现了卓越的语义保持能力和跨域鲁棒性
[61] AttriPrompt: Dynamic Prompt Composition Learning for CLIP
Qiqi Zhan,Shiwei Li,Qingjie Liu,Yunhong Wang
Main category: cs.CV
TL;DR: AttriPrompt是一个新颖的深度提示学习框架,通过利用CLIP视觉编码器的中间层特征来增强文本语义表示,解决了现有方法过度依赖对比学习和静态提示的问题,在三个基准测试中实现了最先进的性能。
- Motivation: 当前深度文本提示方法存在两个关键局限:过度依赖对比学习目标而忽视细粒度特征优化;所有输入类别使用静态提示,无法实现内容感知适配。
- Method: 提出了AttriPrompt框架,包含属性检索模块(聚类视觉特征并检索语义相似提示)、双流对比学习实现细粒度对齐,以及自正则化机制防止过拟合。
- Result: 在三个基准测试中优于最先进方法,在base-to-novel设置下实现了最高7.37%的性能提升,在跨域知识迁移方面表现出色。
- Conclusion: 该方法使视觉语言预训练模型成为现实世界应用中更可行的解决方案,通过层次化视觉信息和内容感知提示实现了显著的性能改进。
[62] Coefficients-Preserving Sampling for Reinforcement Learning with Flow Matching
Feng Wang,Zihao Yu
Main category: cs.CV
TL;DR: 本文提出Coefficients-Preserving Sampling (CPS)方法,解决Flow Matching模型中SDE采样引入噪声的问题,提高强化学习训练效果
- Motivation: 在Flow Matching模型中应用在线强化学习方法时,SDE采样会引入明显的噪声伪影,损害奖励学习过程,影响生成图像质量
- Method: 受DDIM启发,重新制定采样过程,提出Coefficients-Preserving Sampling (CPS)方法,消除噪声伪影
- Result: CPS方法消除了噪声伪影,实现了更准确的奖励建模,使Flow-GRPO和Dance-GRPO等强化学习优化器能够更快、更稳定地收敛
- Conclusion: CPS方法有效解决了SDE采样中的噪声问题,为强化学习在Flow Matching模型中的应用提供了更稳定和高效的解决方案
[63] Dual Interaction Network with Cross-Image Attention for Medical Image Segmentation
Jeonghyun Noh,Wangsu Jeon,Jinsun Park
Main category: cs.CV
TL;DR: 提出双交互融合模块(DIFM)和多尺度边界损失,通过交叉注意力和全局空间注意力机制融合原始与增强医学图像,提升分割精度
- Motivation: 医学图像分割中,噪声、模糊和低对比度等问题影响诊断准确性。传统图像增强技术可能改变关键信息,而特征拼接等融合方法难以充分利用原始和增强图像的优势
- Method: 提出DIFM模块,使用双向交叉注意力同时关注不同图像的空间信息,通过全局空间注意力细化互补特征。引入基于梯度提取的多尺度边界损失
- Result: 在ACDC和Synapse数据集上的实验结果表明,该方法在定量和定性评估中均表现出优越性
- Conclusion: DIFM能够有效利用原始和增强图像的互补信息,多尺度边界损失提高了边界分割精度,为医学图像分割提供了有效解决方案
[64] StripDet: Strip Attention-Based Lightweight 3D Object Detection from Point Cloud
Weichao Wang,Wendong Mao,Zhongfeng Wang
Main category: cs.CV
TL;DR: StripDet是一个轻量级3D目标检测框架,通过创新的Strip Attention Block和硬件友好型架构,在KITTI数据集上以仅0.65M参数实现79.97% mAP,比基准方法减少7倍参数的同时保持高精度。
- Motivation: 解决点云3D目标检测模型计算和内存需求大的问题,为边缘设备部署提供高效解决方案。
- Method: 提出Strip Attention Block(SAB)模块,通过非对称条带卷积分解标准2D卷积来捕获长距离空间依赖;设计硬件友好型分层骨干网络,结合深度可分离卷积和简单多尺度融合策略。
- Result: 在KITTI数据集上,仅用0.65M参数就达到79.97% mAP的汽车检测精度,超越PointPillars基准方法(参数减少7倍),且优于其他轻量化和知识蒸馏方法。
- Conclusion: StripDet在精度和效率之间取得了优越的平衡,是边缘设备上实际3D检测的实用解决方案。
[65] Neural Bloom: A Deep Learning Approach to Real-Time Lighting
Rafal Karp,Dawid Gruszka,Tomasz Trzcinski
Main category: cs.CV
TL;DR: 提出两种神经网络基于的晨霞光效果方法NBL和FastNBL,在保持高质量的同时速度比现有方法提高30%,解决了实时渲染中计算资源瓶颈问题。
- Motivation: 传统晨霞光效果方法依赖多次模糊和纹理采样,包含条件分支,占用大量执行时间,是实时渲染的急需解决的性能瓶颈。
- Method: 提出两种神经网络基于的晨霞光效果方法:Neural Bloom Lighting (NBL)和Fast Neural Bloom Lighting (FastNBL),分别优先考虑质量和性能。通过神经网络生成亮度面具,避免传统方法的多次模糊操作。
- Result: 在多种3D场景中进行测试,FastNBL比标准方法快28%,NBL快12%,同时保持了高质量的晨霞光效果。亮度面具生成速度提升30%。
- Conclusion: 神经网络方法能够在实时环境中更快地生成现实的晨霞光效果,节省计算资源,为高FPS环境中维持洞嵌式体验和流畅性能提供了关键技术支撑。
[66] Spatial-Aware Self-Supervision for Medical 3D Imaging with Multi-Granularity Observable Tasks
Yiqin Zhang,Meiling Chen,Zhengjie Zhang
Main category: cs.CV
TL;DR: 提出一种可解释性的3D医学形态自盛盛盛学习方法,通过三个子任务捕捉3D空间语义,在保持性能的同时提供更好的解释性
- Motivation: 现有的2D设计源自通用视觉领域,缺乏对3D空间知识学习过程的直观展示,导致医学解释性不足
- Method: 设计三个子任务来捕捉3D医学形态的空间相关语义,遵循可观察原则确保解释性,利用3D形态的增强语义深度进行多粒度空间关系建模
- Result: 实验结果显示该方法能够达到与现有方法相当的性能水平
- Conclusion: 该方法不仅能够提供竞争性能,还能促进对自盛盛盛学习过程的直观理解,为医学形态分析领域提供了更好的解释性
[67] OmniStyle2: Scalable and High Quality Artistic Style Transfer Data Generation via Destylization
Ye Wang,Zili Yi,Yibo Zhang,Peng Zheng,Xuping Xie,Jiang Lin,Yilin Wang,Rui Ma
Main category: cs.CV
TL;DR: OmniStyle2通过去风格化方法构建大规模数据集DST-100K,训练出基于FLUX.1-dev的前馈模型,在艺术风格迁移任务中超越现有最佳方法
- Motivation: 解决艺术风格迁移中缺乏真实监督数据的基本挑战,通过去风格化方法获得真实的风格-内容对齐数据
- Method: 1) 开发DST文本引导去风格化模型重建无风格内容;2) 设计DST-Filter多阶段评估模型使用思维链推理自动筛选高质量数据对;3) 利用DST-100K数据集训练基于FLUX.1-dev的前馈模型
- Result: OmniStyle2在定性和定量基准测试中持续超越最先进方法
- Conclusion: 通过去风格化的可扩展数据生成提供了可靠的监督范式,克服了艺术风格迁移中缺乏真实数据的基本挑战
[68] ConstStyle: Robust Domain Generalization with Unified Style Transformation
Nam Duong Tran,Nam Nguyen Phuong,Hieu H. Pham,Phi Le Nguyen,My T. Thai
Main category: cs.CV
TL;DR: ConstStyle是一种新的领域泛化方法,通过将训练和测试数据映射到统一域来减少领域偏移的影响,在有限训练域和大领域差距情况下显著提升性能
- Motivation: 解决深度神经网络在测试数据分布与训练数据不同时的性能下降问题,传统方法在处理有限训练域或大领域差距时效果有限
- Method: 提出ConstStyle方法,利用统一域捕获领域不变特征并弥合领域差距。训练时将样本映射到优化后的统一域,测试时类似投影后再进行预测
- Result: 在多种场景下 consistently 优于现有方法,当只有有限seen domains时,相比次优方法准确率提升高达19.82%
- Conclusion: 通过统一域对齐训练和测试数据,ConstStyle能有效减少领域偏移影响,即使在大领域差距或few seen domains情况下也能显著提升领域泛化性能
[69] Multi-Strategy Guided Diffusion via Sparse Masking Temporal Reweighting Distribution Correction
Zekun Zhou,Yanru Gong,Liu Shi,Qiegen Liu
Main category: cs.CV
TL;DR: 提出STRIDE扩散模型用于稀疏视图CT重建,通过时间变化稀疏条件重加权策略和双网络并行架构,在PSNR、SSIM和MSE指标上显著优于基线方法。
- Motivation: 扩散模型在图像处理任务中表现出强大的生成能力,但需要专门的方法来解决稀疏视图CT重建中的投影视图补全和全局信息建模问题。
- Method: 设计联合训练机制和时序变化稀疏条件重加权引导策略,采用线性回归校正分布偏移,构建双网络并行架构进行多子频段全局校正和优化。
- Result: 在公开和真实数据集上,PSNR提升2.58dB,SSIM提高2.37%,MSE降低0.236,重建图像在结构一致性、细节恢复和伪影抑制方面表现出优异的泛化性和鲁棒性。
- Conclusion: STRIDE模型通过创新的引导策略和网络架构,有效解决了稀疏视图CT重建问题,实现了高质量的图像重建效果。
[70] S-LAM3D: Segmentation-Guided Monocular 3D Object Detection via Feature Space Fusion
Diana-Alexandra Sas,Florin Oniga
Main category: cs.CV
TL;DR: 本文提出了一种解耦策略,通过注入预计算的语义分割信息先验来提升单目3D目标检测性能,特别针对小物体(行人和自行车)效果显著
- Motivation: 单目3D目标检测由于缺乏深度信息而具有挑战性,现有方法主要依赖CNN或Transformer提取特征。本文旨在评估额外分割信息对检测性能的影响,而不增加模型复杂度
- Method: 采用解耦策略,将预计算的语义分割信息作为先验知识直接融合到特征空间中,指导检测过程,不扩展检测模型或联合学习先验
- Result: 在KITTI 3D目标检测基准上表现优异,特别是在小物体(行人和自行车)检测上超越了仅使用RGB特征的等效架构
- Conclusion: 理解输入数据可以平衡对额外传感器或训练数据的需求,分割信息的有效利用能够显著提升单目3D检测性能
[71] Motion Aware ViT-based Framework for Monocular 6-DoF Spacecraft Pose Estimation
Jose Sosa,Dan Pineau,Arunkumar Rathinam,Abdelrahman Shabayek,Djamila Aouada
Main category: cs.CV
TL;DR: 提出了一种结合运动感知热图和光流的单目6自由度姿态估计方法,在航天器姿态估计任务中优于单图像基线方法
- Motivation: 现有单目姿态估计方法主要依赖静态单图像关键点定位,未能充分利用空间操作中固有的宝贵时序信息
- Method: 采用深度学习框架,结合Vision Transformer编码器的图像特征和预训练光流模型的运动线索来定位2D关键点,然后使用PnP求解器从已知2D-3D对应关系恢复6自由度姿态
- Result: 在SPADES-RGB数据集上训练和评估,并在SPARK-2024数据集的真实和合成数据上测试泛化能力,在2D关键点定位和6自由度姿态估计方面均优于单图像基线方法
- Conclusion: 该方法展示了改进的性能和良好的泛化能力,能够有效处理不同数据分布下的姿态估计任务
[72] Khana: A Comprehensive Indian Cuisine Dataset
Omkar Prabhu
Main category: cs.CV
TL;DR: Khana是一个新的印度美食图像数据集,包含13.1万张图像和80个标签,用于分类、分割和检索任务,填补了印度美食研究的空白。
- Motivation: 现有美食数据集缺乏对印度美食多样性的覆盖,印度美食具有丰富的地区多样性和复杂制作工艺,需要专门的数据集来支持相关应用开发。
- Method: 创建了包含131K张500x500像素图像的Khana数据集,建立了印度美食分类体系,并在分类、分割和检索任务上评估了最先进模型。
- Result: Khana数据集为印度美食提供了全面的基准测试,包含80个标签的丰富图像数据,为研究和应用开发提供了宝贵资源。
- Conclusion: Khana数据集填补了印度美食图像分析的空白,为研究人员提供了挑战性基准,同时为开发者创建实际应用提供了重要资源。
[73] BLaVe-CoT: Consistency-Aware Visual Question Answering for Blind and Low Vision Users
Wanyin Cheng,Zanxi Ruan
Main category: cs.CV
TL;DR: BLaVe-CoT是一个针对盲人和低视力用户的VQA框架,通过链式推理处理模糊问题中的多答案一致性
- Motivation: 盲人和低视力用户拍摄的照片质量差、问题表述模糊,导致传统VQA系统无法处理多有效答案的情况
- Method: 使用LoRA调优的BLIP-2模型生成候选答案,通过PolyFormer进行空间定位,最后用链式推理模块评估答案区域一致性
- Result: 在VQA-AnswerTherapy基准测试中优于先前方法,对辅助环境中的模糊性和视觉噪声更具鲁棒性
- Conclusion: VQA系统需要适应真实人类不确定性,为盲人和低视力用户提供包容性支持
[74] Cross-Modal Enhancement and Benchmark for UAV-based Open-Vocabulary Object Detection
Zhenhai Weng,Zhongliang Yu
Main category: cs.CV
TL;DR: 该论文针对无人机图像开放词汇目标检测中的领域差距问题,提出了新的数据集UAVDE-2M和UAVCAP-15k,以及跨注意力门控增强融合模块CAGE,有效提升了无人机图像检测性能。
- Motivation: 现有的大规模开放词汇目标检测预训练数据集主要由地面自然图像组成,与无人机图像存在显著的领域差距,导致模型在无人机图像上性能大幅下降。
- Method: 首先提出改进的UAV-Label标注引擎,构建了包含200万实例和1800个类别的UAVDE-2M数据集以及15000张图像的UAVCAP-15k数据集。然后提出了跨注意力门控增强融合(CAGE)模块,并将其集成到YOLO-World-v2架构中。
- Result: 在VisDrone和SIMD数据集上的大量实验验证了所提方法在无人机图像和遥感应用中的有效性。
- Conclusion: 通过构建专门的无人机图像数据集和设计新的融合模块,成功解决了无人机开放词汇目标检测中的领域适应问题,显著提升了检测性能。
[75] Micro-Expression Recognition via Fine-Grained Dynamic Perception
Zhiwen Shao,Yifan Cheng,Fan Zhang,Xuehuai Shi,Canlin Li,Lizhuang Ma,Dit-yan Yeung
Main category: cs.CV
TL;DR: 提出了一种新颖的细粒度动态感知(FDP)框架用于面部微表情识别,通过排序帧级特征来编码动态信息,并结合局部-全局特征感知transformer和动态图像构建任务,在多个数据集上显著优于现有方法。
- Motivation: 现有微表情识别方法存在局限性:手工特征方法需要关键帧,深度学习方法受限于小规模和低多样性的训练数据。需要一种能够有效捕捉微表情瞬时性、微妙性和动态性的新方法。
- Method: 提出FDP框架:1)使用局部-全局特征感知transformer学习帧表示;2)通过排序评分器计算帧级特征的排序分数;3)时间维度池化捕获动态表示;4)同时进行微表情分类和动态图像构建(编码器-解码器结构)。
- Result: 在CASME II、SAMM、CAS(ME)^2和CAS(ME)^3数据集上,F1分数分别比之前最佳结果提高了4.05%、2.50%、7.71%和2.11%,显著优于最先进的微表情识别方法。
- Conclusion: FDP框架通过排序机制有效编码微表情的动态信息,动态图像构建任务有助于捕捉面部微妙动作并缓解数据稀缺问题,为微表情识别提供了有效的解决方案。
[76] DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion
Mengmeng Liu,Michael Ying Yang,Jiuming Liu,Yunpeng Zhang,Jiangtao Li,Sander Oude Elberink,George Vosselman,Hao Cheng
Main category: cs.CV
TL;DR: DVLO4D是一个新颖的视觉-LiDAR里程计框架,通过稀疏时空融合技术提升精度和鲁棒性,在KITTI和Argoverse数据集上达到最先进性能,推理时间82ms适合实时部署。
- Motivation: 传统视觉-LiDAR里程计方法存在传感器不对准、未能充分利用时序信息、需要大量手动调参等问题,需要开发更准确鲁棒的解决方案。
- Method: 提出三个关键创新:1)稀疏查询融合实现多模态数据融合;2)时序交互更新模块整合时序预测位置;3)时序片段训练策略和集体平均损失机制实现全局优化。
- Result: 在KITTI和Argoverse里程计数据集上的大量实验表明,DVLO4D在姿态精度和鲁棒性方面达到最先进性能,推理时间82ms具有实时部署潜力。
- Conclusion: DVLO4D通过创新的稀疏时空融合方法有效解决了传统视觉-LiDAR里程计的局限性,实现了高精度、强鲁棒性和高效率的定位性能。
[77] Analysis of Blood Report Images Using General Purpose Vision-Language Models
Nadia Bakhsheshi,Hamid Beigy
Main category: cs.CV
TL;DR: 评估三种通用视觉语言模型(Qwen-VL-Max、Gemini 2.5 Pro、Llama 4 Maverick)在血液报告图像分析中的表现,发现这些模型有望开发面向患者的初步血液报告分析工具。
- Motivation: 血液报告解读对健康知识很重要,但个人往往难以理解,导致焦虑和问题被忽视,需要自动化的分析解决方案。
- Method: 使用100张多样化血液报告图像数据集,对三种VLM模型进行临床相关问题测试,通过Sentence-BERT比较模型回答的相似度来评估性能。
- Result: 通用视觉语言模型在血液报告分析方面表现出实用性和前景,能够直接从图像提供清晰解释,改善健康素养。
- Conclusion: 这项工作为未来开发可靠且易用的AI辅助医疗应用奠定了基础,但结果需要谨慎解读,因为数据集规模有限。
[78] TinyDef-DETR:An Enhanced DETR Detector for UAV Power Line Defect Detection
Jiaming Cui
Main category: cs.CV
TL;DR: TinyDef-DETR是一个基于DETR的小缺陷检测框架,通过无下采样损失的空间深度模块、边缘增强卷积、跨阶段双域多尺度注意力模块和Focaler-Wise-SIoU回归损失,显著提升了无人机输电线路小缺陷检测的精度和召回率。
- Motivation: 无人机输电线路自动检测面临小缺陷在复杂背景下难以识别的问题,传统检测器存在下采样细节丢失、轻量级主干网络边界敏感性弱、全局上下文与局部线索整合不足等挑战。
- Method: 提出TinyDef-DETR框架,包含:1)无下采样损失的空间深度模块;2)边缘增强卷积进行边界感知特征提取;3)跨阶段双域多尺度注意力模块联合捕获全局和局部信息;4)Focaler-Wise-SIoU回归损失改善小目标定位。
- Result: 在CSG-ADCD数据集上相比竞争基线在精度和召回率方面取得显著提升,特别是在小目标子集上表现突出,计算开销仅适度增加。在VisDrone基准测试上验证了方法的泛化能力。
- Conclusion: 整合细节保持下采样、边缘敏感表示、双域注意力和难度自适应回归,为电网无人机小缺陷检测提供了实用高效的解决方案。
[79] BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models
Yuming Li,Yikai Wang,Yuying Zhu,Zhongyu Zhao,Ming Lu,Qi She,Shanghang Zhang
Main category: cs.CV
TL;DR: BranchGRPO通过分支采样策略优化GRPO训练过程,减少50%训练时间的同时提升16%的对齐分数
- Motivation: 解决现有GRPO方法计算成本高(需在线rollout和大量SDE采样步骤)和训练不稳定(稀疏奖励)的问题
- Method: 引入分支采样策略更新SDE采样过程,通过共享公共前缀计算、剪枝低奖励路径和冗余深度,结合树形优势估计器和密集过程级奖励
- Result: 在图像和视频偏好对齐任务中,比强基线提升16%的对齐分数,同时减少50%的训练时间
- Conclusion: BranchGRPO有效解决了GRPO的计算效率和训练稳定性问题,在保持或提升探索多样性的同时显著降低了每次更新的计算成本
[80] Multi-Stage Graph Neural Networks for Data-Driven Prediction of Natural Convection in Enclosed Cavities
Mohammad Ahangarkiasari,Hassan Pouraria
Main category: cs.CV
TL;DR: 提出了一种新的多阶段图神经网络架构,通过层次池化操作来提高对高分辨率图结构中长距离依赖关系的捕捉能力,用于沿射流体动力学中的温度场预测。
- Motivation: 高保真CFD模拟需要专家物理模型、细密网格和大量计算,限制了迭代速度。传统GNN在高分辨率图结构中捕捉长距离依赖关系遇到困难。
- Method: 设计了一种新的多阶段GNN架构,利用层次池化和解池化操作,在多个空间尺度上进行全局到局部的交互建模。在新开发的CFD数据集上评估,模拟不同长宽比矩形形容器内的自然对流。
- Result: 建议的模型在预测准确性、训练效率和长期错误积累方面都超过了最先进的GNN基线模型。
- Conclusion: 该多阶段GNN方法在网格基础流体动力学模拟中展现了建模复杂传热过程的潜力。
[81] Home-made Diffusion Model from Scratch to Hatch
Shih-Ying Yeh
Main category: cs.CV
TL;DR: HDM是一个高效文本到图像扩散模型,在消费级硬件上仅用535-620美元成本就能训练,生成1024x1024高质量图像,大幅降低计算需求
- Motivation: 为个人研究者和小型组织提供高质量文本到图像生成的民主化方案,解决传统方法计算成本过高的问题
- Method: 提出Cross-U-Transformer架构(使用交叉注意力进行跳跃连接)、TREAD加速训练、移位方形裁剪策略和渐进分辨率缩放
- Result: 343M参数的小模型就能实现高质量图像生成和涌现能力(如直观相机控制),训练成本显著降低
- Conclusion: 通过精心设计的架构而非单纯扩大规模,证明了高质量文本到图像生成的可实现性和民主化路径
[82] High-Quality Tomographic Image Reconstruction Integrating Neural Networks and Mathematical Optimization
Anuraag Mishra,Andrea Gilch,Benjamin Apeleo Zubiri,Jan Rolfes,Frauke Liers
Main category: cs.CV
TL;DR: 提出了一种基于神经网络和数学优化的新型纳米/微米断层扫描图像重建技术,通过识别边缘特征来增强均匀材料样本的重建质量
- Motivation: 针对由均匀材料相组成且具有尖锐边缘的样本,传统重建方法存在模糊和伪影问题,需要开发能够保持边缘清晰度和材料均匀性的重建技术
- Method: 训练神经网络识别子图像中的边缘,然后将训练好的网络集成到数学优化模型中,通过优化方法减少先前重建中的伪影,同时保持对原始数据的敏感性
- Result: 在实验数据集上显示出相比基准算法在界面清晰度和材料均匀性方面的显著提升
- Conclusion: 该技术成功整合了样本均匀性和尖锐边缘的先验知识,能够产生高质量的重建结果,具有推进断层成像技术发展的潜力
[83] MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation
Yiwen Ye,Yicheng Wu,Xiangde Luo,He Zhang,Ziyang Chen,Ting Dang,Yanning Zhang,Yong Xia
Main category: cs.CV
TL;DR: MedSeqFT是一个用于医学图像分割的序列微调框架,通过最大数据相似性选择和知识保留微调技术,在多个3D分割任务上平均提升3.0%的Dice分数,并增强模型的可迁移性。
- Motivation: 现有的并行微调方法隔离任务且无法利用共享知识,而多任务微调需要同时访问所有数据集且难以实现增量任务集成,因此需要一种能够顺序适应新任务同时保留预训练知识的框架。
- Method: 提出MedSeqFT框架,包含两个核心组件:(1)最大数据相似性选择(MDS),选择最能代表原始预训练分布的下游样本;(2)基于LoRA的知识蒸馏方案(K&G RFT),平衡任务特定适应和预训练知识保留。
- Result: 在两个多任务数据集上的十个3D分割任务中,MedSeqFT始终优于最先进的微调策略,平均Dice提升3.0%。在COVID-19-20和肾脏两个未见任务上的评估验证了其增强的可迁移性,特别是在肿瘤分割方面。
- Conclusion: MedSeqFT建立了一种有效、知识保留的序列微调范式,用于将基础模型适应不断发展的临床任务,损失景观和参数变化的可视化分析进一步证明了其鲁棒性。
[84] PathoHR: Hierarchical Reasoning for Vision-Language Models in Pathology
Yating Huang,Ziyan Huang,Lintao Xiang,Qijun Yang,Hujun Yin
Main category: cs.CV
TL;DR: 提出了PathoHR-Bench基准测试来评估视觉语言模型在病理图像分析中的分层语义理解和组合推理能力,并开发了一种病理特异性训练方案来提升模型性能。
- Motivation: 病理图像分析对自动化肿瘤诊断至关重要,但现有视觉语言模型难以捕捉结构化病理报告所需的复杂推理,限制了临床应用。
- Method: 提出PathoHR-Bench基准测试,并开发病理特异性视觉语言训练方案,通过生成增强和扰动样本进行多模态对比学习。
- Result: 实验表明该方法在PathoHR-Bench和六个额外病理数据集上达到最先进性能,显著提升了细粒度病理表征能力。
- Conclusion: 该方法有效解决了现有视觉语言模型在病理图像分析中的局限性,为临床自动化诊断提供了更可靠的解决方案。
[85] CARDIE: clustering algorithm on relevant descriptors for image enhancement
Giulia Bonino,Luca Alberto Rizzo
Main category: cs.CV
TL;DR: CARDIE是一种无监督图像聚类算法,基于颜色和亮度内容进行聚类,能生成更适合图像增强任务的聚类结果,并可用于重采样图像增强数据集以提高性能。
- Motivation: 自动图像聚类在计算机视觉中很重要,但在图像增强应用中受限,主要因为难以定义对该任务有意义的聚类。
- Method: 提出CARDIE无监督算法,基于图像的颜色和亮度内容进行聚类;同时引入量化图像增强算法对亮度分布和局部方差影响的方法。
- Result: CARDIE生成的聚类比基于语义图像属性的聚类更适合图像增强;利用CARDIE聚类重采样数据集可提升色调映射和去噪算法的性能。
- Conclusion: CARDIE为图像增强提供了更相关的聚类方法,能有效改善增强算法性能,代码已开源以促进采用和确保可复现性。
[86] SpecSwin3D: Generating Hyperspectral Imagery from Multispectral Data via Transformer Networks
Tang Sui,Songxi Yang,Qunying Huang
Main category: cs.CV
TL;DR: SpecSwin3D是一个基于Transformer的模型,能够从5个多光谱波段生成224个高光谱波段,同时保持空间和光谱质量,在多个指标上显著优于基线方法。
- Motivation: 多光谱和高光谱图像在农业、环境监测等领域有广泛应用,但存在空间分辨率与光谱分辨率的权衡问题。现有方法难以同时保持空间细节和光谱保真度。
- Method: 提出SpecSwin3D模型,采用3D移位窗口Transformer框架,引入级联训练策略逐步扩展光谱范围,并设计优化的波段序列来更好地捕捉波段间关系。
- Result: 模型达到PSNR 35.82dB、SAM 2.40°、SSIM 0.96,比基线MHF-Net提升5.6dB PSNR,ERGAS降低一半以上。在下游任务如土地利用分类和燃烧区域分割中也表现出实用价值。
- Conclusion: SpecSwin3D成功解决了多光谱到高光谱转换中的空间-光谱权衡问题,为遥感图像处理提供了有效的解决方案。
[87] RetinaGuard: Obfuscating Retinal Age in Fundus Images for Biometric Privacy Preserving
Zhengquan Luo,Chi Liu,Dongfu Xiao,Zhen Yu,Yueye Wang,Tianqing Zhu
Main category: cs.CV
TL;DR: RetinaGuard是一个保护视网膜图像隐私的框架,通过对抗性掩蔽机制隐藏视网膜年龄信息,同时保持图像质量和疾病诊断价值。
- Motivation: AI从医学图像中提取生物标志物(如视网膜年龄)存在隐私风险,未经授权的使用可能导致生物信息泄露。
- Method: 采用特征级生成对抗掩蔽机制,结合多对一知识蒸馏策略,利用视网膜基础模型和多种替代年龄编码器来防御黑盒年龄预测模型。
- Result: RetinaGuard成功混淆视网膜年龄预测,对图像质量和病理特征表示影响最小。
- Conclusion: 该框架可有效保护视网膜图像隐私,且可扩展到其他医学图像生物标志物的隐私保护。
[88] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
Duomin Wang,Wei Zuo,Aojie Li,Ling-Hao Chen,Xinyao Liao,Deyu Zhou,Zixin Yin,Xili Dai,Daxin Jiang,Gang Yu
Main category: cs.CV
TL;DR: UniVerse-1是一个统一的音频-视频生成模型,采用专家拼接技术融合预训练模型,通过在线标注管道确保音视频对齐,在7600小时数据上微调后能生成协调的音视频内容。
- Motivation: 为了解决音频和视频同时生成时的协调性问题,避免传统基于文本标注导致的音视频不对齐问题,开发一个能够同时生成协调音频和视频的统一模型。
- Method: 采用专家拼接(SoE)技术深度融合预训练的视频和音乐生成专家模型,开发在线标注管道在训练过程中处理数据和生成标签,避免基于文本标注的性能下降。
- Result: 模型在7600小时音频-视频数据上微调后,能够生成环境声音协调良好的音视频内容,并在语音生成方面实现强对齐效果。还引入了Verse-Bench基准数据集进行系统评估。
- Conclusion: UniVerse-1通过创新的专家拼接技术和在线标注管道,成功实现了音视频的协调生成,为音频-视频生成研究提供了新的解决方案,并公开了模型和代码以促进社区发展。
[89] UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning
Huy Le,Nhat Chung,Tung Kieu,Jingkang Yang,Ngan Le
Main category: cs.CV
TL;DR: UNO是一个统一的单阶段框架,能够同时处理粗粒度框级和细粒度像素级视频场景图生成任务,通过扩展的slot attention机制和时序一致性学习实现高效的多粒度视觉内容建模。
- Motivation: 现有的视频场景图生成方法通常针对特定粒度(框级或像素级)设计,需要任务特定的架构和多阶段训练流程,缺乏统一的解决方案。
- Method: 提出UNO框架,使用扩展的slot attention机制将视觉特征分解为对象和关系slot,引入对象时序一致性学习确保跨帧表示一致性,以及动态三元组预测模块捕捉时序交互。
- Result: 在标准框级和像素级VidSGG基准测试中达到有竞争力的性能,同时通过统一的对象中心设计提高了效率。
- Conclusion: UNO证明了统一框架在视频场景图生成任务中的可行性,能够同时处理不同粒度任务并减少任务特定修改,为多粒度视觉理解提供了有效解决方案。
[90] AI-Based Applied Innovation for Fracture Detection in X-rays Using Custom CNN and Transfer Learning Models
Amna Hassan,Ilsa Afzaal,Nouman Muneeb,Aneeqa Batool,Hamail Noor
Main category: cs.CV
TL;DR: 使用自定义CNN模型实现自动X光片骨折检测,在FracAtlas数据集上达到95.96%准确度,显示了轻量级AI模型在医疗图像分析中的潜力
- Motivation: 解决低资源地区骨折诊断困难,免除传统影像方法的高成本、放射风险和专业解释依赖性
- Method: 使用自定义卷积神经网络(CNN),并与EfficientNetB0、MobileNetV2、ResNet50等迁移学习模型进行对比,训练数据为FracAtlas数据集的4,083张X光图像
- Result: 自定义CNN模型在FracAtlas数据集上达到了95.96%准确度、0.94精度、0.88召回率和0.91 F1分数,显著超越了迁移学习模型
- Conclusion: 轻量级CNN模型在X光骨折检测中具有广阔前景,强调了公平性能测诅、多样化数据集和外部验证对临床应用的重要性
[91] Exploring Light-Weight Object Recognition for Real-Time Document Detection
Lucas Wojcik,Luiz Coelho,Roger Granada,David Menotti
Main category: cs.CV
TL;DR: 通过适配IWPOD-Net网络进行文档检测,实现了更小、更高效的实时文档检测和置正方案,在保持竞争力OCR质量的同时提升了效率
- Motivation: 实时文档检测和置正是自动信息提取的关键步骤,但目前文献中缺乏高效的解决方案。需要在保持OCR识别质量的前提下提高检测效率
- Method: 适配IWPOD-Net车牌检测网络用于文档检测,在合成ID卡数据集NBID上训练,并进行数据增帽和跨数据集验证(MIDV数据集)
- Result: 模型比当前state-of-the-art方案更小、效率更高,同时保持竞争力的OCR质量指标(基于Levenshtein距离的新评估指标)
- Conclusion: 文档置正不需要完美就能达到state-of-the-art性能,通过适配现有高效模型可以在保持OCR质量的前提下实现更高效的实时文档处理
[92] Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes
Mohsen Gholami,Ahmad Rezaei,Zhou Weimin,Yong Zhang,Mohammad Akbari
Main category: cs.CV
TL;DR: 提出了Ego3D-Bench基准测试和Ego3D-VLM框架,用于评估和提升视觉语言模型在自我中心多视角户外环境中的3D空间推理能力。
- Motivation: 当前视觉语言模型在3D空间关系理解方面存在明显局限,而现实世界的具身AI智能体(如机器人和自动驾驶汽车)需要基于自我中心多视角观察进行空间推理。
- Method: 创建了包含8,600+问答对的Ego3D-Bench基准测试,并提出了Ego3D-VLM后训练框架,该框架基于估计的全局3D坐标生成认知地图来增强空间推理能力。
- Result: 基准测试显示当前SOTA VLMs与人类水平存在显著差距,Ego3D-VLM在多选题上平均提升12%,在绝对距离估计上平均提升56%。
- Conclusion: Ego3D-Bench和Ego3D-VLM为在真实世界多视角环境中实现人类水平空间理解提供了有价值的工具,当前VLMs仍无法达到人类的空间理解水平。
[93] AI-driven Remote Facial Skin Hydration and TEWL Assessment from Selfie Images: A Systematic Solution
Cecelia Soh,Rizhao Cai,Monalisha Paul,Dennis Sng,Alex Kot
Main category: cs.CV
TL;DR: 通过智能手机自拍图像远程估算皮肤保水度和经皮失水量,解决皮肤健康监测的普及性问题
- Motivation: 皮肤障碍功能对皮肤健康和疾病抵抗至关重要,但SH和TEWL测量需要专业仪器且不易普及,需要一种可访问的远程测量方法
- Method: 构建了一个系统性解决方案,包括SH/TEWL数据收集、数据预处理,以及新颖的Skin-Prior Adaptive Vision Transformer模型用于SH/TEWL回归。采用对称基对比正则化来减少数据不平衡导致的偏差
- Result: 该研究首次实现了从自拍面部图像进行无物理测量的皮肤评估,为普通用户提供了可访问的皮肤分析方案
- Conclusion: 该工作桥接了计算机视觉和护肤研究之间的差距,为AI驱动的普及化皮肤分析开启了更广泛的实际应用可能
[94] Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding
Jiangnan Xie,Xiaolong Zheng,Liang Zheng
Main category: cs.CV
TL;DR: PAML框架通过原型感知多模态学习解决视觉定位在开放词汇场景中的挑战,在标准场景表现优异,在开放词汇场景达到SOTA性能
- Motivation: 当前基于transformer的方法在标准场景定位表现良好,但在开放词汇场景(包含未见过的物体类别)存在三个主要限制:视觉-语言模态对齐不完美、跨模态特征融合不足、语义原型信息利用不充分
- Method: 提出PAML框架:1)使用ALBEF进行跨模态对齐;2)视觉判别特征编码器增强显著物体表示;3)原型发现和继承机制提取聚合多邻居语义原型;4)多阶段解码器进行综合多模态整合
- Result: 在五个基准数据集上的广泛实验验证了方法的有效性,在标准场景表现有竞争力,在开放词汇场景达到最先进性能
- Conclusion: PAML框架通过系统解决开放词汇视觉定位的三个关键挑战,显著提升了模型在包含新颖物体类别场景中的定位能力
[95] Video-based Generalized Category Discovery via Memory-Guided Consistency-Aware Contrastive Learning
Zhang Jing,Pu Nan,Xie Yu Xiang,Guo Yanming,Lu Qianqi,Zou Shiwei,Yan Jie,Chen Yan
Main category: cs.CV
TL;DR: 这篇论文提出了视频领域的广义分类发现(Video-GCD)问题,设计了一种新的内存导向一致性对比学习框架(MCCL),通过时空线索和全局上下文来提高新类别发现的准确性。
- Motivation: 现有的GCD方法主要集中于静态图像,但仅靠静态视觉内容不能可靠地发现新类别。需要将GCD扩展到视频领域,利用时间维度信息来提高发现能力。
- Method: 提出MCCL框架,包含两个核心组件:一致性对比学习(CACL)和内存导向表征增强(MGRE)。CACL利用多视角时间特征估计一致性分数来加权对比损失,MGRE通过双级内存缓冲区维护特征级和比例级表征来提供全局上下文。
- Result: 在行为识别和鸟类分类视频数据集上进行了涉广实验,结果显示该方法显著超过了来自图像基础设置的竞争方法,证明了时间信息对视频中新类别发现的重要性。
- Conclusion: 该研究成功将GCD扩展到视频领域,提出的MCCL框架通过有效整合时空线索和全局上下文,为视频新类别发现提供了有效解决方案,开放代码将促进该领域的进一步研究。
[96] Text4Seg++: Advancing Image Segmentation via Generative Language Modeling
Mengcheng Lan,Chaofeng Chen,Jiaxing Xu,Zongrui Li,Yiping Ke,Xudong Jiang,Yingchen Yu,Yunqing Zhao,Song Bai
Main category: cs.CV
TL;DR: 文本驱动的图像分割方法Text4Seg++,通过语义描述符将分割提问转换为文本生成任务,无需额外解码器,在多个数据集上超越现有SOTA模型
- Motivation: 多模态大语言模型在视觉-语言任务中表现优异,但如何有效集成图像分割仍是一个挑战。需要一种简洁的方法将分割任务融入MLLM框架
- Method: 提出文本作为遮置的新范式:1)语义描述符将图像补丁映射到文本标签 2)行向跐长编码(R-RLE)压缩重复文本 3)框向语义描述符通过边框定位和语义砖表示区域遮置
- Result: 在自然图像和遥感数据集上进行全面实验,Text4Seg++在多个标准测试集上一致超过最新的SOTA模型,无需任务特定微调,保持与现有MLLM背榜的兼容性
- Conclusion: 该工作证明了在MLLM框架内通过文本驱动方式进行图像分割的有效性、可扩展性和通用性,为简化分割流程提供了新的视角
[97] Towards scalable organ level 3D plant segmentation: Bridging the data algorithm computing gap
Ruiming Du,Guangxun Zhai,Tian Qiu,Yu Jiang
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[98] Quantitative Currency Evaluation in Low-Resource Settings through Pattern Analysis to Assist Visually Impaired Users
Md Sultanul Islam Ovi,Mainul Hossain,Md Badsha Biswas
Main category: cs.CV
TL;DR: 提出一个统一的货币评估框架,集成面额分类、损坏量化和防伪检测三个模块,适用于资源受限环境下的实时货币评估
- Motivation: 现有货币识别系统通常忽略可用性和真实性评估,特别是在低资源环境中,视觉障碍用户和离线验证很常见。现有方法主要关注面额分类,但忽略了物理损坏和伪造问题
- Method: 使用轻量级CNN模型进行面额分类,通过新颖的统一货币损坏指数(UCDI)进行损坏量化,采用基于特征的模板匹配进行假币检测。数据集包含82,000多张标注图像
- Result: Custom_CNN模型实现了高分类性能和低参数数量,UCDI指标提供了基于二进制掩码损失、色度失真和结构特征损失的连续可用性评分,假币检测模块在各种成像条件下都能可靠识别伪造纸币
- Conclusion: 该框架支持实时、设备端推理,解决了受限环境中的关键部署挑战,展示了准确、可解释且紧凑的解决方案可以在实际环境中支持包容性货币评估
[99] Multi-Modal Camera-Based Detection of Vulnerable Road Users
Penelope Brown,Julie Stephany Berrio Perez,Mao Shan,Stewart Worrall
Main category: cs.CV
TL;DR: 基于RGB和热成像多模态检测框架,使用精细调整的YOLOv8模型提高弱势参与者检测性能,在恶劣条件下显著改善检测精度和可靠性。
- Motivation: 弱势参与者(行人、自行车驾驶员、摩托车手)占全球交通死亡比例超过一半,但在光线不良、恶劣天气和数据不平衡情况下检测仍面临挑战。
- Method: 集成RGB和热红外成像,使用精细调整的YOLOv8模型。训练采用KITTI、BDD100K和Teledyne FLIR数据集,通过类别重新加权和轻度增广提高少数类性能和稳健性。实验确定640像素分辨率和部分backbone冻结优化准确性和效率。
- Result: 热成像模型实现最高精度,RGB到热成像的数据增广提高了异常检测的可能性,类别加权损失函数显著提高了少见VRU的回归率。
- Conclusion: 多模态检测框架在交叉口场景中显示出提高弱势参与者安全性的潜力,特别是通过结合RGB和热成像技术在具有挑战的条件下改善检测精度和可靠性。
[100] Harnessing Object Grounding for Time-Sensitive Video Understanding
Tz-Ying Wu,Sharath Nittur Sridhar,Subarna Tripathi
Main category: cs.CV
TL;DR: 通过基于检测对象的缩略编码方式,提出GO-Tokenizer模块来提升视频大语言模型的时间敏感理解能力,避免文本描述导致的令牌增长和噪声问题
- Motivation: 时间敏感视频理解任务可以从帧内基础对象中获益,但传统的文本对象描述方式会导致令牌长度增加和容易受噪声影响
- Method: 设计GO-Tokenizer,一个轻量级的附加模块,利用现成对象检测器在线编码紧凑的对象信息
- Result: 实验结果显示,使用GO-Tokenizer进行预训练的方法在性能上超过了原始视频-LLM和使用文本对象描述的对照组
- Conclusion: 该方法在不同模型、数据集和视频理解任务(如推理时间定位和密集描述)上都显示出良好的普遍性和推广能力
[101] Multi View Slot Attention Using Paraphrased Texts For Face Anti-Spoofing
Jeongmin Yu,Susang Kim,Kisu Lee,Taekyoung Kwon,Won-Yong Shin,Ha Young Kim
Main category: cs.CV
TL;DR: MVP-FAS是一个基于CLIP的面部反欺骗框架,通过多视图注意力机制和多文本补丁对齐技术,显著提升了跨域检测性能
- Motivation: 现有基于CLIP的面部反欺骗方法未能充分利用CLIP的补丁嵌入令牌,且依赖单一文本提示,限制了泛化能力
- Method: 提出MVP-FAS框架,包含多视图注意力模块(MVS)提取局部细节和全局上下文特征,以及多文本补丁对齐模块(MTPA)增强语义鲁棒性
- Result: 在跨域数据集上超越了现有最先进方法,表现出优异的泛化性能
- Conclusion: MVP-FAS通过多文本表示和补丁对齐机制,有效解决了面部反欺骗中的域泛化问题
[102] A Multi-Modal Deep Learning Framework for Colorectal Pathology Diagnosis: Integrating Histological and Colonoscopy Data in a Pilot Study
Krithik Ramesh,Ritvik Koneru
Main category: cs.CV
TL;DR: 这项初步研究提出了一种统一的深度学习网络,利用ResNet-50 CNN架构同时分析组织学分析图片和腺镜视频帧,以提高直肠疾病诊断的效率和准确性。
- Motivation: 传统直肠疾病诊断流程需要多个独立评估,导致变异性和效率低下,需要一种统一的诊断方法来提高诊断质量。
- Method: 使用ResNet-50 CNN架构,集成类别平衡学习、健壮的数据增帽和检验方法,对PathMNIST数据集的组织学图片和HyperKvasir数据集的腺镜视频帧进行统一分析。
- Result: 研究录得了一个可解释且可复现的诊断流程,能够统一多种诊断模态,促进直肠疾病的检测。
- Conclusion: 该统一深度学习网络为直肠疾病诊断提供了更高效、更准确的解决方案,有望在临床应用中发挥重要作用。
[103] MRD-LiNet: A Novel Lightweight Hybrid CNN with Gradient-Guided Unlearning for Improved Drought Stress Identification
Aswini Kumar Patra,Lingaraj Sahoo
Main category: cs.CV
TL;DR: 这篇论文提出了一种轻量化混合CNN框架,用于凉藤地的早期干旱压力识别,在保持高准确度的同时大幅减少可训练参数量,适用于资源受限的农业环境。
- Motivation: 传统干旱压力检测方法耗时耗力,而现有深度学习模型参数量过大,不适用于资源受限的实时农业应用。
- Method: 受ResNet、DenseNet和MobileNet启发,设计轻量化混合CNN框架,并引入基于梯度范数影响函数的机器忘却机制,支持针对性移除特定训练数据影响。
- Result: 框架实现了比传统CNN和Vision Transformer模型减少15倍的可训练参数,同时保持竞争性的准确度,在凉藤田地空中图数据集上验证了高效性。
- Conclusion: 该方法为精准农业干旱监测提供了一种实用、可扩展和适应性强的解决方案,特别适用于资源受限条件下的应用场景。
[104] Your Super Resolution Model is not Enough for Tackling Real-World Scenarios
Dongsik Yoon,Jongeun Kim
Main category: cs.CV
TL;DR: 提出了一种插入式的比例洞察模块(SAAM),能够让固定比例的超分辨率模型支持任意比例的超分辨率处理,提高模型在实际应用中的适用性。
- Motivation: 传统的单影像超分辨率(SISR)模型常常只能处理固定的比例因子,在实际应用中适用性有限。需要一种能够让现有模型支持任意比例的方案。
- Method: 设计了SAAM模块,采用轻量级的比例适配特征提取和上采样技术,结合SimAM注意力机制进行高效指导,并使用梯度方差损失来提升图像细节的锐利度。
- Result: 方法能够无缝集成到多个独立的SOTA SR模型中,在广泛的整数和非整数比例因子下都表现竞争或更优。实验结果显示该方法能够以最小的计算开销实现稳健的多比例收缩。
- Conclusion: SAAM提供了一种实用的解决方案,能够让现有固定比例的超分辨率模型轻松获得任意比例处理能力,提高了模型在实际应用场景中的适用性和灵活性。
[105] AI-based response assessment and prediction in longitudinal imaging for brain metastases treated with stereotactic radiosurgery
Lorenz Achim Kuhn,Daniel Abler,Jonas Richiardi,Andreas F. Hottinger,Luis Schiappacasse,Vincent Dunet,Adrien Depeursinge,Vincent Andrearczyk
Main category: cs.CV
TL;DR: 这篇论文开发了一个自动化流水线,用于分析脑转移瘤的纵向成像数据,通过数据驱动聚类识别典型增长轨迹,并使用机器学习方法预测12个月的病变响应。
- Motivation: 脑转移瘤是癌症患者死亡的主要原因之一,但纵向成像分析工作量极大,临床医生无法完整注释跟踪图像,需要自动化方法来进行精准评估和预测治疗响应。
- Method: 建立了一个包含896个脑转移瘤的177名患者的大规模纵向数据集,采用数据驱动聚类方法识别增长轨迹,使用梯度提升和图机器学习方法预测12个月的病变响应。
- Result: 聚类分析发现5种主要增长轨迹,分别对应不同的最终响应类别。预测模型达到了高达0.90 AUC的性能(梯度提升)和0.88 AUC的性能(图机器学习)。
- Conclusion: 该研究为脑转移瘤的纵向MRI响应评估提供了潜在的自动化和精准化方法,为临床决策支持系统奠定了基础,有助于优化个性化治疗方案。
[106] 3DOF+Quantization: 3DGS quantization for large scenes with limited Degrees of Freedom
Matthieu Gendrin,Stéphane Pateux,Théo Ladune
Main category: cs.CV
TL;DR: 本文针对3D高斯泼溅在有限视角场景下的坐标量化问题,提出基于球坐标的新量化方案,分析位置误差对投影误差的影响。
- Motivation: 3DGS在大型场景中受限于输入视角的空间范围,当相机位置仅能在中心位置附近小范围偏移时(3DoF+),需要解决坐标量化问题以减少投影误差。
- Method: 研究位置误差对像素级投影误差的影响,发现投影误差与投影点距离的平方倒数成正比,据此提出基于球坐标的量化方案。
- Result: 在著名的Garden场景上展示了所提方法的率失真性能。
- Conclusion: 基于球坐标的量化方案能有效处理3DoF+场景下的坐标量化问题,改善投影精度。
[107] VQualA 2025 Challenge on Image Super-Resolution Generated Content Quality Assessment: Methods and Results
Yixiao Li,Xin Li,Chris Wei Zhou,Shuo Xing,Hadi Amirpour,Xiaoshuai Hao,Guanghui Yue,Baoquan Zhao,Weide Liu,Xiaoyuan Yang,Zhengzhong Tu,Xinyu Li,Chuanbiao Song,Chenqi Zhang,Jun Lan,Huijia Zhu,Weiqiang Wang,Xiaoyan Sun,Shishun Tian,Dongyang Yan,Weixia Zhang,Junlin Chen,Wei Sun,Zhihua Wang,Zhuohang Shi,Zhizun Luo,Hang Ouyang,Tianxin Xiao,Fan Yang,Zhaowang Wu,Kaixin Deng
Main category: cs.CV
TL;DR: ISRGC-Q挑战赛基于ISRGen-QA数据集,专注于评估生成式超分辨率方法(GAN和扩散模型)产生的图像质量,旨在分析现代超分辨率技术引入的独特伪影并有效评估其感知质量。
- Motivation: 现有超分辨率图像质量评估数据集未能充分涵盖最新生成式方法(如GAN和扩散模型)产生的SR图像,需要专门的数据集和挑战来评估这些现代技术引入的独特伪影和感知质量。
- Method: 构建ISRGen-QA数据集,重点关注生成式超分辨率方法产生的图像,组织ICCV 2025研讨会中的视觉质量评估竞赛,吸引108名参与者注册,4支团队提交有效解决方案进行最终测试。
- Result: 提交的解决方案在ISRGen-QA数据集上展示了最先进的性能表现,验证了该数据集和挑战赛的有效性。
- Conclusion: ISRGC-Q挑战赛成功建立了针对生成式超分辨率方法的质量评估基准,为分析现代SR技术的独特伪影和感知质量提供了重要平台,项目已公开可用。
[108] Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models
Jaemin Son,Sujin Choi,Inyong Yun
Main category: cs.CV
TL;DR: 轻量级令牌剪枝框架,通过过滤文档图片中的非文本区域来降低视觉-语言模型的计算成本,保持类似的准确性。
- Motivation: 视觉-语言模型在文档理解任务中表现突出,但高计算需求成为挑战。需要找到方法降低计算成本同时保持模型性能。
- Method: 使用二进制补丁级分类器筛除非文本区域,然后通过最大池化精炼步骤恢复碎片化的文本区域以提高空间一致性。
- Result: 在真实世界文档数据集上的实验表明,该方法显著降低了计算成本,同时保持了可比的准确性。
- Conclusion: 该轻量级令牌剪枝框架有效地减少了VLM的计算负担,为高效文档理解提供了可行方案。
[109] Phantom-Insight: Adaptive Multi-cue Fusion for Video Camouflaged Object Detection with Multimodal LLM
Hua Zhang,Changjiang Luo,Ruoyu Chen
Main category: cs.CV
TL;DR: Phantom-Insight是一种基于SAM和MLLM的视频伪装目标检测新方法,通过动态前景视觉token评分模块和解耦学习策略,解决了现有方法在边缘分离和目标-背景分离方面的不足,在MoCA-Mask数据集上达到最先进性能。
- Motivation: 现有VCOD方法存在两个主要问题:(1)SAM基础方法由于模型冻结难以分离伪装目标边缘;(2)MLLM基础方法因大语言模型合并前景和背景而导致目标分离性差。
- Method: 提出Phantom-Insight方法:1)使用时序和空间线索表示视频序列,通过LLM进行特征融合;2)通过动态前景视觉token评分模块和提示网络生成多线索,自适应指导SAM模型;3)采用解耦的前景-背景学习策略,分别生成前景和背景线索进行解耦训练。
- Result: 在MoCA-Mask数据集上实现了最先进的性能,在CAD2016数据集上展现出检测未见伪装目标的强大泛化能力。
- Conclusion: Phantom-Insight通过结合SAM和MLLM的优势,有效解决了视频伪装目标检测中的边缘分离和目标-背景分离问题,具有优异的性能和泛化能力。
[110] When Language Model Guides Vision: Grounding DINO for Cattle Muzzle Detection
Rabin Dulal,Lihong Zheng,Muhammad Ashad Kabir
Main category: cs.CV
TL;DR: 本文提出了一种基于Grounding DINO视觉-语言模型的零样本牛哺棉棒检测框架,无需任何标注数据或任务特定训练,通过自然语言提示实现牛哺棉棒的自动检测。
- Motivation: 传统的监督学习方法需要大量标注数据且依赖训练数据,在新品种或未见牛群上性能受限。需要一种可扩展、灵活且无需标注的解决方案来提高牛畜监测应用中的适应性和部署易性。
- Method: 采用Grounding DINO视觉-语言模型,利用自然语言提示来指导牛哺棉棒检测,无需任何任务特定训练或标注数据。该方法通过语言提示实现零样本检测能力。
- Result: 模型在mAP@0.5指标上达到76.8%,在不需要标注数据的情况下展现出了有景的性能。这是首个提供实际应用、产业导向且无需标注的牛哺棉棒检测解决方案的研究。
- Conclusion: 该框架为牛哺棉棒检测提供了一种实用的监督学习方法替代方案,具有更好的适应性和部署易性,在畜牧监测应用中具有广阔的应用前景。
[111] Perception-oriented Bidirectional Attention Network for Image Super-resolution Quality Assessment
Yixiao Li,Xiaoyuan Yang,Guanghui Yue,Jun Fu,Qiuping Jiang,Xu Jia,Paul L. Rosin,Hantao Liu,Wei Zhou
Main category: cs.CV
TL;DR: 提出了PBAN网络用于超分辨率图像质量评估,通过双向注意力机制和多尺度可变形卷积来感知失真,在FR-IQA任务上优于现有方法
- Motivation: 现有的全参考图像质量评估方法有限,需要开发专门针对超分辨率图像的质量评估算法
- Method: 包含三个模块:图像编码器、感知导向双向注意力模块(含双向注意力、分组多尺度可变形卷积和子信息激励卷积)、质量预测模块
- Result: 大量实验表明PBAN在超分辨率图像质量评估方面优于最先进的方法
- Conclusion: PBAN通过双向注意力机制和自适应失真感知,为超分辨率图像提供了有效的质量评估解决方案
[112] Cross3DReg: Towards a Large-scale Real-world Cross-source Point Cloud Registration Benchmark
Zongyi Xu,Zhongpeng Lang,Yilong Chen,Shanshan Zhao,Xiaoshui Huang,Yifan Zuo,Yan Zhang,Qianni Zhang,Xinbo Gao
Main category: cs.CV
TL;DR: 提出了Cross3DReg数据集和基于重叠区域的跨源点云配准框架,通过图像预测重叠区域并融合视觉-几何注意力匹配,显著提升跨传感器点云配准精度
- Motivation: 跨源点云配准面临缺乏大规模真实数据集和传感器差异导致特征提取困难的挑战,需要新的解决方案
- Method: 构建Cross3DReg数据集,设计重叠区域预测框架过滤冗余点,提出视觉-几何注意力引导匹配模块融合图像和几何信息
- Result: 相对旋转误差降低63.2%,相对平移误差降低40.2%,配准召回率提升5.4%,达到最先进性能
- Conclusion: 该方法有效解决了跨源点云配准的核心挑战,通过多模态信息融合实现了准确鲁棒的配准效果
[113] IGAff: Benchmarking Adversarial Iterative and Genetic Affine Algorithms on Deep Neural Networks
Sebastian-Vasile Echim,Andrei-Alexandru Preda,Dumitru-Clementin Cercel,Florin Pop
Main category: cs.CV
TL;DR: 该论文提出了两种基于仿射变换和遗传算法的黑盒对抗攻击算法ATA和AGA,在多个网络架构和数据集上取得了比现有方法更好的攻击效果,准确率提升最高达8.82%。
- Motivation: 深度神经网络在AI领域占主导地位但难以理解且存在弱点,特别是在黑盒场景下对抗攻击更具挑战性,需要探索有效的攻击方法来揭示模型脆弱性。
- Method: 提出了两种新型黑盒迭代对抗算法:1)ATA算法使用随机仿射变换最大化攻击评分函数;2)AGA算法结合随机噪声和仿射变换的遗传算法。在ResNet-18、DenseNet-121、Swin Transformer V2和Vision Transformer等架构上,使用Tiny ImageNet、Caltech-256和Food-101数据集进行基准测试。
- Result: 实验结果表明,提出的算法在图像分类任务上优于文献中的类似方法,准确率提升最高达8.82%。在算法参数变化、数据增强以及全局和定向攻击配置下均表现出色。
- Conclusion: 研究为对抗防御和攻击提供了重要见解,展示了通过算法参数变化实现的对抗鲁棒性,为黑盒场景下的对抗攻击提供了有效解决方案。
[114] Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
Yuyao Ge,Shenghua Liu,Yiwei Wang,Lingrui Mei,Baolong Bi,Xuanshan Zhou,Jiayu Yao,Jiafeng Guo,Xueqi Cheng
Main category: cs.CV
TL;DR: CARVE是一种无需训练的视觉增强方法,通过对比注意力机制从复杂视觉场景中提取任务相关信号,显著提升视觉语言模型性能
- Motivation: 现有视觉语言模型在复杂视觉环境中性能下降,现有增强方法需要额外训练或外部工具,忽略了模型内在的注意力能力
- Method: 分析VLMs注意力模式,发现视觉复杂度与注意力熵相关;提出CARVE方法,通过一般查询和任务特定查询的注意力图对比,在像素级提取任务相关视觉信号
- Result: 实验表明CARVE能持续提升性能,在开源模型上实现高达75%的改进
- Conclusion: 研究揭示了视觉复杂度与注意力机制的相互作用,为通过对比注意力改进视觉推理提供了高效途径
[115] A Statistical 3D Stomach Shape Model for Anatomical Analysis
Erez Posner,Ore Shtalrid,Oded Erell,Daniel Noy,Moshe Bouhnik
Main category: cs.CV
TL;DR: 本文提出了首个三维胃部统计形状模型,通过结合合成数据生成和真实CT扫描的半监督对齐过程,能够捐捕胃部的自然解剖变异性。
- Motivation: 现有的人体内部器官详细三维模型受限于数据获取和方法论挑战,特别是对于胃部这种复杂结构。需要发展能够捐捕解剖变异性的参数化模型来支持医学研究、诊断和手术规划。
- Method: 提出了一个新的合成三维胃部模型生成流水线,基于已有的胃部形状变异性研究来创建解剖多样性的合成数据集。在此基础上开发了一个低维形状空间的三维统计形状模型,并通过半监督对齐过程使用公开CT数据集进行精炼。
- Result: 在真实胃部CT扫描的指定测试集上评估模型,证明了其健壮的演绎能力和拟合准确性。模型和合成数据集已公开发布在GitLab上。
- Conclusion: 这是首个胃部统计形状模型,在手术模拟、术前规划、医学教育和计算模型方面具有应用价值。通过结合合成数据生成、参数化建模和真实世界验证,该方法代表了器官建模领域的重要进展,为个性化健康解决方案开启了新可能性。
[116] Does DINOv3 Set a New Medical Vision Standard?
Che Liu,Yinda Chen,Haoyuan Shi,Jinpeng Lu,Bailiang Jian,Jiazhen Pan,Linghan Cai,Jiayi Wang,Yundi Zhang,Jun Li,Cosmin I. Bercea,Cheng Ouyang,Chen Chen,Zhiwei Xiong,Benedikt Wiestler,Christian Wachinger,Daniel Rueckert,Wenjia Bai,Rossella Arcucci
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[117] FSG-Net: Frequency-Spatial Synergistic Gated Network for High-Resolution Remote Sensing Change Detection
Zhongxiang Xie,Shuangxi Miao,Yuhan Jiang,Zhewei Zhang,Jing Yao,Xuecao Li,Jianxi Huang,Pedram Ghamisi
Main category: cs.CV
TL;DR: FSG-Net是一个频率-空间协同门控网络,通过频域分析和空间注意力机制有效分离语义变化与伪变化,在多个变化检测基准上达到最先进性能。
- Motivation: 解决高分辨率遥感图像变化检测中的两个关键挑战:1)模型容易将时间偏移(如光照、季节变化)引起的辐射变化误判为真实变化;2)深层抽象特征与浅层细节特征之间存在语义鸿沟,导致边界分割不准确。
- Method: 提出FSG-Net框架,包含三个核心模块:1)DAWIM模块在频域自适应处理不同频率分量以抑制伪变化;2)STSAM模块在空间域增强真实变化区域的显著性;3)LGFU模块利用高层语义选择性地门控和整合浅层关键细节。
- Result: 在CDD、GZ-CD和LEVIR-CD三个基准数据集上分别达到94.16%、89.51%和91.27%的F1分数,建立了新的最先进性能。
- Conclusion: FSG-Net通过频率-空间协同处理和门控融合机制,有效解决了变化检测中的伪变化问题和语义鸿沟问题,显著提升了变化检测的准确性和边界分割质量。
[118] WS : Weakly Supervised Segmentation using Before-After Supervision in Waste Sorting
Andrea Marelli,Alberto Foresti,Leonardo Pesce,Giacomo Boracchi,Mario Grosso
Main category: cs.CV
TL;DR: 基于操作员削除动作的前后差异进行弱监督分割,自动化废弃物分类识别
- Motivation: 工业质量控制中人工分类成本高,完全监督方法需要大量标签数据,而操作员的削除动作自然提供了隐式监督信息
- Method: 提出Before-After Supervision概念,利用操作前后图像差异训练分割网络,并创建WS²多视角数据集
- Result: 构建了包含11,000幅高清视频帧的数据集,并对多个狭监督分割方法进行了基准测试
- Conclusion: 削除动作提供的前后差异是一种有效的弱监督信息源,可用于废弃物分类自动化识别任务
[119] TIDE: Achieving Balanced Subject-Driven Image Generation via Target-Instructed Diffusion Enhancement
Jibai Lin,Bo Ma,Yating Yang,Rong Ma,Turghun Osman,Ahtamjan Ahmat,Rui Dong,Lei Wang,Xi Zhou
Main category: cs.CV
TL;DR: TIDE框架通过目标监督和偏好学习解决主题驱动图像生成中身份保持与指令遵循的平衡问题,无需测试时微调,在多个基准测试中表现优异。
- Motivation: 主题驱动图像生成需要在保持特定主体身份的同时遵循文本编辑指令,现有方法未能充分解决这种平衡问题。
- Method: 提出TIDE框架,采用目标监督的三元组对齐方法,使用(参考图像、指令、目标图像)三元组建模主体适应动态,通过DSD目标训练模型生成平衡的"获胜"目标和扭曲的"失败"目标。
- Result: 在标准基准测试中,TIDE在生成主体忠实输出同时保持指令遵循方面表现优异,在多个量化指标上超越基线方法,并成功应用于结构条件生成、图像到图像生成和文本图像插值等任务。
- Conclusion: TIDE框架有效解决了主题驱动图像生成中的身份保持与指令遵循平衡问题,展示了出色的性能和通用性。
[120] Predicting Brain Tumor Response to Therapy using a Hybrid Deep Learning and Radiomics Approach
Daniil Tikhonov,Matheus Scatolin,Mohor Banerjee,Qiankun Ji,Ahmed Jaheen,Mostafa Salem,Abdelrahman Elsayed,Hu Wang,Sarim Hashmi,Mohammad Yaqub
Main category: cs.CV
TL;DR: 基于深度学习和政师学特征的混合框架,自动化评估脑米绝细胞瘤疗效响应,在4类响应预测任务中获得0.81 ROC AUC和0.50宏F1分数
- Motivation: 神经礑学疗效评估对临床决策至关重要,但现有RANO标准应用复杂且存在观察者变异性,需要自动化方法提高评估准确性和可靠性
- Method: 提出新题混合框架:细调ResNet-18模型提取2D关键区域深度特征,融合4800+政师学和临床特征(包括3D脱米增长/缩小掩码、体积变化、脱米质心偏移),使用CatBoost分类器进行响应分类
- Result: 在4类疗效响应预测任务(完全响应、部分响应、病情稳定、病情进展)中,方法获得平均ROC AUC 0.81和宏F1分数0.50
- Conclusion: 深度学习图像表征与领域特定政师学特征的协同结合,为神经礑学自动化疗效响应评估提供了稳健有效的解决方案
[121] On the Reproducibility of "FairCLIP: Harnessing Fairness in Vision-Language Learning''
Hua Chang Bakker,Stan Fris,Angela Madelon Bernardy,Stan Deutekom
Main category: cs.CV
TL;DR: 这篇论文重现了FairCLIP方法的实验,发现原始方法实现与描述不一致,新实现A-FairCLIP和FairCLIP+均未能显著改善CLIP的性能和公平性。
- Motivation: 重现FairCLIP方法的实验结果,验证其是否真正能够改善CLIP模型的群体公平性。
- Method: 重现原始实验设置,开发A-FairCLIP对比原始实现,提出FairCLIP+支持多属性,分析距离最小化对公平性的影响。
- Result: 实验结果不支持FairCLIP改善性能和公平性的断言,虽然正则化目标减小了Sinkhorn距离,但无法提升零样本青光眼分类的表现。
- Conclusion: 虽然CLIP存在偏见,但FairCLIP方法在实验中未能证明其能够有效改善模型的公平性和性能。
[122] Benchmarking EfficientTAM on FMO datasets
Senem Aktas,Charles Markham,John McDonald,Rozenn Dahyot
Main category: cs.CV
TL;DR: 这篇论文提出了FMOX格式,为快速移动物体跟踪数据集提供JSON元数据和物体大小信息,并用EfficientTAM模型进行性能测试,结果显示其性能与专门方法相当。
- Motivation: 解决快速移动小物体跟踪的挑战,为FMO数据集提供更丰富的标注信息和标准化格式,以支持更好的机器学习管道处理。
- Method: 开发FMOX JSON格式包含物体大小信息,使用EfficientTAM基础跟踪模型在四个开源FMO数据集上进行测试,采用轨迹交并比(TIoU)指标评估性能。
- Result: EfficientTAM模型在FMO数据集上表现与专门设计的管道相当,证明了基础模型的适用性。FMOX格式成功为数据集提供了更完善的元数据。
- Conclusion: FMOX格式有效扩展了FMO数据集的功能,EfficientTAM作为基础模型在快速移动小物体跟踪任务上表现精彩,为该领域提供了可重用的工具和标准化解决方案。
[123] Back To The Drawing Board: Rethinking Scene-Level Sketch-Based Image Retrieval
Emil Demić,Luka Čehovin Zajc
Main category: cs.CV
TL;DR: 提出了一种针对场景级草图检索的鲁棒训练方法,通过预训练、编码器架构和损失函数的适当组合,在不增加复杂性的情况下实现了最先进的性能。
- Motivation: 关注真实世界草图中固有的模糊性和噪声问题,而非仅仅改进检索模型的架构增强。
- Method: 采用适当的预训练策略、编码器架构和损失函数设计,专门针对草图变异性进行鲁棒性训练。
- Result: 在FS-COCO和SketchyCOCO数据集上的广泛实验证实了方法的有效性,达到了最先进的性能。
- Conclusion: 强调了训练设计在跨模态检索任务中的关键作用,并指出需要改进场景级SBIR的评估场景。
[124] Evolving from Unknown to Known: Retentive Angular Representation Learning for Incremental Open Set Recognition
Runqing Yang,Yimin Fu,Changyuan Wu,Zhunga Liu
Main category: cs.CV
TL;DR: 提出RARL方法解决增量开放集识别问题,通过角度表示学习和虚拟类交互训练策略,在连续数据流中有效识别新出现的未知类别并保持决策边界判别性
- Motivation: 现有开放集识别方法主要针对静态场景,无法有效处理连续数据流中不断出现的新未知类别,且由于无法访问历史训练数据导致严重的类间混淆问题
- Method: 提出保持性角度表示学习(RARL),在等角紧框架构建的角度空间中使未知表示对齐非活跃原型;采用虚拟-内在交互(VII)训练策略通过边界邻近虚拟类压缩已知表示;设计分层校正策略精化决策边界
- Result: 在CIFAR100和TinyImageNet数据集上进行了全面评估,建立了IOSR新基准,在各种任务设置下均实现了最先进的性能
- Conclusion: RARL方法能够有效解决增量开放集识别中的表示漂移和类间混淆问题,为动态环境下的未知类别识别提供了有效解决方案
[125] Approximating Condorcet Ordering for Vector-valued Mathematical Morphology
Marcos Eduardo Valle,Santiago Velasco-Forero,Joao Batista Florindo,Gustavo Jesus Angulo
Main category: cs.CV
TL;DR: 提出基于机器学习的方法学习近似Condorcet排序的简化排序,用于构建彩色图像的向量值形态学算子
- Motivation: 数学形态学在向量值图像(如彩色和高光谱图像)处理中缺乏统一的向量排序方法,需要找到最合适的排序方式来构建形态学算子
- Method: 采用机器学习方法学习近似Condorcet排序的简化排序,Condorcet排序基于投票问题思想,通过多个不同排序的投票结果来排名元素
- Result: 初步计算实验证实了学习简化映射在定义彩色图像向量值形态学算子方面的有效性
- Conclusion: 该方法为解决向量值图像数学形态学处理中的排序问题提供了一种有效的机器学习解决方案
[126] CausNVS: Autoregressive Multi-view Diffusion for Flexible 3D Novel View Synthesis
Xin Kong,Daniel Watson,Yannick Strümpler,Michael Niemeyer,Federico Tombari
Main category: cs.CV
TL;DR: CausNVS是一个自回归多视图扩散模型,支持任意输入输出视图配置和顺序生成视图,解决了传统非自回归方法在视图数量和推理速度上的限制。
- Motivation: 现有的多视图扩散模型大多采用非自回归形式,限制了视图数量的灵活性且推理速度慢,无法满足世界建模的需求。
- Method: 使用因果掩码和逐帧噪声训练,结合成对相对相机位姿编码(CaPE)实现精确相机控制,推理时采用空间感知滑动窗口、键值缓存和噪声条件增强来减轻漂移。
- Result: 实验表明CausNVS支持广泛的相机轨迹,实现灵活的自回归新视图合成,在不同设置下保持一致的强视觉质量。
- Conclusion: CausNVS通过自回归方法有效解决了多视图扩散模型在视图配置灵活性和推理效率方面的问题,为3D新视图合成提供了更实用的解决方案。
[127] Detection of trade in products derived from threatened species using machine learning and a smartphone
Ritwik Kulkarni,WU Hanqin,Enrico Di Minin
Main category: cs.CV
TL;DR: 使用机器学习对象识别模型自动检测图片中的象牙、龙鹅和虎等野生动物制品,几种模型的综合准确率达84.2%,并开发了准确率91.3%的手机应用程序以支持相关方直接使用。
- Motivation: 野生动物不可持续贸易对生物多样性构成严重威胁,而数字市场和社交媒体中的这种贸易正在增长。因图片内容海量,需要自动化方法来检测野生动物贸易列表,尤其是象牙等野生动物制品的识别。
- Method: 开发机器学习基于对象识别模型,识别图片中的野生动物制品并标注。数据来自被诈骗出售或被权威部门没收的大象、龙鹅和虎制品图片。研究了多种训练策略和两种损失函数的组合,以确定检测这些野生动物制品的最佳模型。分别训练了单个物种模型和一个识别三种物种制品的单一模型。
- Result: 最佳模型的综合准确率为84.2%,其中识别大象、龙鹅和虎制品的准确率分别为71.1%、90.2%和93.5%。开发的手机应用程序综合准确率达91.3%,可实时拍照并识别潜在禁止的目标物种制品。
- Conclusion: 该方法不仅适用于网络贸易监测,还可用于物理市场的野生动物贸易监测。机器学习模型可通过应用程序轻松提供给相关方使用,为政府权威部门和执法机构提供了有效的自动化检测手段。
[128] Hybrid Swin Attention Networks for Simultaneously Low-Dose PET and CT Denoising
Yichao Liu,YueYang Teng
Main category: cs.CV
TL;DR: 提出HSANet网络用于LDCT/PET图像去噪,结合高效全局注意力模块和混合上采样模块,在保持轻量级的同时实现优越去噪性能
- Motivation: 低剂量CT和PET虽然减少辐射暴露,但会导致噪声和伪影增加,影响诊断准确性,需要有效的去噪方法
- Method: 提出混合Swin注意力网络(HSANet),包含高效全局注意力(EGA)模块增强空间和通道交互,以及混合上采样模块防止过拟合噪声
- Result: 在公开LDCT/PET数据集上验证,HSANet相比现有方法获得更优越的去噪性能,同时保持轻量级模型大小,适合标准GPU部署
- Conclusion: 该方法具有高度实用性,适合真实临床环境应用
[129] Improved Classification of Nitrogen Stress Severity in Plants Under Combined Stress Conditions Using Spatio-Temporal Deep Learning Framework
Aswini Kumar Patra
Main category: cs.CV
TL;DR: 使用多模态影像和CNN-LSTM深度学习框架,在复合压力环境中精确分类氮稠缺严重程度,达到98%准确率
- Motivation: 植物在自然生境中面临多种交互影响的生物和非生物逆境,氮稠缺乏在干旱和杂草竞争下更难识别,需要早期检测以保护植物健康
- Method: 采用RGB、多光谱和两种红外波长四种影像模态,构建时间序列数据。设计空间-时间深度学习流水线,结合CNN提取空间特征和LSTM捕捉时间依赖关系
- Result: CNN-LSTM模型达到98%准确率,显著超过仅使用空间特征的CNN模型(80.45%)和其他机器学习方法(76%)
- Conclusion: 该方法能够有效捕捉氮稠缺乏、水分压力和杂草压力之间的复杂交互作用,为及旹预防急急识别氮稠压力提供了强大工具
[130] Investigating Location-Regularised Self-Supervised Feature Learning for Seafloor Visual Imagery
Cailei Liang,Adrian Bodenmann,Emma J Curtis,Samuel Simmons,Kazunori Nagano,Stan Brown,Adam Riese,Blair Thornton
Main category: cs.CV
TL;DR: 本文研究了地理位置元数据在自监督特征学习(SSL)中对海底图像分析的效果,在三个不同数据集上评估了6种先进SSL框架,发现位置正则化能持续提升分类性能。
- Motivation: 高速解释机器人收集的海底视觉图像可以提高海洋监测和探索的效率。虽然最近的研究建议位置元数据可以增强自监督特征学习,但其在不同SSL策略、模型和海底图像数据集中的好处很少被深入探索。
- Method: 评估位置基于正则化对6种先进SSL框架的影响,包括卷积神经网络(CNN)和Vision Transformer(ViT)模型,测试了高(512)和低(128)维隐藏空间表示。在三个多样性海底图像数据集上进行了评估。
- Result: 位置正则化持续改善了下游分类性能,CNN模型F1分数平均提升4.9±4.0%,ViT模型提升6.3±8.9%。位置正则化SSL进一步改善了CNN模型的性能,高维表示提升2.7±2.7%,低维表示提升10.1±9.4%。
- Conclusion: 研究结果突出了位置元数据对SSL正则化的价值,尤其是在使用低维隐藏表示时。高维ViT模型在海底图像分析中显示出强大的泛化能力,能够匹配最佳性能的位置正则化SSL方法。
[131] Online Clustering of Seafloor Imagery for Interpretation during Long-Term AUV Operations
Cailei Liang,Adrian Bodenmann,Sam Fenton,Blair Thornton
Main category: cs.CV
TL;DR: 基于代表性样本取样的无监督在线聚类框架,能够在常数时间内处理连续海底图像数据流,并支持动态聚类合并与分割。
- Motivation: 解决长时间海底自主潜艇在实时图像解释方面的需求,克服传统离线分析方法对完整数据集和人工标注的依赖。
- Method: 设计了一种在线聚类框架(OCF),通过识别和维护一组代表性样本来捐捉演化的特征分布,支持动态聚类合并与分割而无需重新处理全部图像历史。
- Result: 在三个多样化海底图像数据集上,OCF达到了所有对比在线聚类方法中的最高平均F1分数(0.68),并在数据量增加时保持一致低且有界的计算时间。
- Conclusion: OCF框架具有超越的聚类能力和对调查轨迹变化的稳健性,适合用于生成调查数据摘要和支持长期持久自主海洋探索中的信息化路径规划。
[132] VIM-GS: Visual-Inertial Monocular Gaussian Splatting via Object-level Guidance in Large Scenes
Shengkai Zhang,Yuhe Liu,Guanjun Wu,Jianhua He,Xinggang Wang,Mozi Chen,Kezhong Liu
Main category: cs.CV
TL;DR: VIM-GS是一个基于高斯溅射的单目图像新视角合成框架,通过结合视觉惯性SfM的稀疏深度和大基础模型的密集深度,解决了大场景中深度估计的挑战。
- Motivation: 传统高斯溅射方法需要准确的深度信息(RGB-D/立体相机),但在大场景中深度感知范围有限。单目图像缺乏深度引导导致渲染质量差,而现有大基础模型的深度估计存在跨帧不一致、远距离不准确和纹理欺骗等问题。
- Method: 利用视觉惯性SfM的准确稀疏深度来优化大基础模型的密集但粗糙深度。提出对象分割深度传播算法处理结构化对象的深度渲染,并开发动态深度细化模块处理动态对象的SfM深度缺陷。
- Result: 在公开和定制数据集上的实验表明,VIM-GS在大场景中具有优越的渲染质量。
- Conclusion: VIM-GS成功解决了大场景单目图像新视角合成的深度估计问题,通过结合稀疏和密集深度信息的优势,实现了高质量的高斯溅射渲染。
[133] BioLite U-Net: Edge-Deployable Semantic Segmentation for In Situ Bioprinting Monitoring
Usman Haider,Lukasz Szemet,Daniel Kelly,Vasileios Sergis,Andrew C. Daly,Karl Mason
Main category: cs.CV
TL;DR: 轻量级语义分割框架BioLite U-Net,专为生物打印实时监控设计,在Raspberry Pi 4B上达到92.85% mIoU和96.17% Dice分数,模型大小减少1300倍,每帧处理时间335ms
- Motivation: 解决生物打印过程中因有限成像数据和嵌入式硬件约束导致的实时监控保真性和一致性挑战
- Method: 提出BioLite U-Net模型,利用深度分离卷积降低计算复杂度,基于787张手动标注的RGB图像数据集(噶嘴、生物墨水、背景三类别)进行训练
- Result: 在Raspberry Pi 4B上达到92.85% mIoU和96.17% Dice分数,模型大小比MobileNetV2-DeepLabV3+小1300倍,每帧处理时间335ms,性能超越MobileNet基线模型
- Conclusion: BioLite U-Net在分割准确性、效率和部署性方面完美平衡,适合集成到智能闭环生物打印系统中实现实时监控
[134] STAGE: Segmentation-oriented Industrial Anomaly Synthesis via Graded Diffusion with Explicit Mask Alignment
Xichen Xu,Yanshu Wang,Jinbao Wang,Qunyi Zhang,Xiaoning Lei,Guoyang Xie,Guannan Jiang,Zhichao Lu
Main category: cs.CV
TL;DR: STAGE是一种面向分割的工业异常合成方法,通过分级扩散和显式掩码对齐技术,解决了现有方法在纹理细节、背景对齐和细粒度异常生成方面的局限性。
- Motivation: 现有SIAS方法合成的异常缺乏精细纹理细节,难以与背景精确对齐,且无法生成像素级细粒度异常,这限制了异常分割性能的提升。
- Method: 提出STAGE方法:1)引入清洁背景信息作为先验指导去噪分布;2)采用分级扩散框架和异常专用分支记录局部异常;3)使用显式掩码对齐策略逐步对齐合成异常与背景。
- Result: 在MVTec和BTAD数据集上的广泛实验表明,STAGE在SIAS任务中达到了最先进的性能,并有效提升了下游异常分割的效果。
- Conclusion: STAGE通过创新的异常推理策略和分级扩散框架,成功解决了工业异常合成中的关键挑战,为异常分割提供了更高质量的合成数据。
[135] Cortex-Synth: Differentiable Topology-Aware 3D Skeleton Synthesis with Hierarchical Graph Attention
Mohamed Zayaan S
Main category: cs.CV
TL;DR: Cortex Synth是一个端到端可微分的框架,可从单张2D图像联合合成3D骨架几何和拓扑结构,在ShapeNet数据集上相比之前方法有显著提升。
- Motivation: 从单张2D图像合成3D骨架几何和拓扑结构是一个具有挑战性的任务,需要同时处理几何形状和拓扑连接关系,现有方法在这方面存在局限性。
- Method: 提出了三个关键创新:分层图注意力机制、可微分谱拓扑优化、对抗几何一致性训练,包含四个协同模块:伪3D点云生成器、增强PointNet编码器、骨架坐标解码器、可微分图构建网络。
- Result: 在ShapeNet数据集上实现了最先进的结果:MPJPE提升18.7%,图编辑距离提升27.3%,拓扑错误减少42%。
- Conclusion: 该框架的端到端可微性使其在机器人操作、医学成像和自动角色绑定等领域具有应用潜力。
[136] MRI-Based Brain Tumor Detection through an Explainable EfficientNetV2 and MLP-Mixer-Attention Architecture
Mustafa Yurdakul,Şakir Taşdemir
Main category: cs.CV
TL;DR: 通过结合EfficientNetV2和注意力机制的MLP-Mixer架构,提出了一种高准确度和可解释性的脑脾病变自动识别模型
- Motivation: 脑脾病变高死亡率需早期诊断,但MRI图像识别需专业知识且容易出错,需要自动化诊断系统提高诊断准确性和可靠性
- Method: 使用Figshare数据集的3064张T1加强MRI图像,首先比较五种CNN架构选择EfficientNetV2作为基础,然后集成注意力机制的MLP-Mixer架构,使用五折交叉验证评估性能,通过Grad-CAM可视化验证模型决策过程
- Result: 模型在脑脾病变分类任务中达到99.50%的准确度,99.47%的精确度,99.52%的回召率和99.49%的F1分数,性能超过现有文献方法,Grad-CAM显示模型能够准确关注MRI图像中的相关区域
- Conclusion: 通过EfficientNetV2与注意力基础的MLP-Mixer的结合,开发出了一种高准确度和高可解释性的脑脾病变分类模型,为临床决策支持系统提供了可靠的工具
[137] Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training
Ruicheng Zhang,Jun Zhou,Zunnan Xu,Zihao Liu,Jiehui Huang,Mingyang Zhang,Yu Sun,Xiu Li
Main category: cs.CV
TL;DR: Zo3T是一个零样本测试时训练框架,通过3D感知运动投影、轨迹引导的测试时LoRA适配器和引导场校正,实现了高质量的轨迹引导图像到视频生成,无需大量标注数据和微调。
- Motivation: 现有方法要么需要大量计算资源进行微调,要么在潜在空间进行轨迹控制时忽略3D透视,导致运动不真实和潜在空间与噪声预测不对齐的问题。
- Method: 1) 3D感知运动投影:利用场景深度推断进行透视校正的仿射变换;2) 轨迹引导测试时LoRA:动态注入和优化临时LoRA适配器,通过区域特征一致性损失实现运动约束;3) 引导场校正:通过一步前瞻策略优化条件引导场。
- Result: Zo3T显著提升了轨迹控制图像到视频生成的3D真实感和运动准确性,在性能上优于现有的基于训练和零样本方法。
- Conclusion: Zo3T框架通过创新的测试时训练机制,成功解决了轨迹引导图像到视频生成中的3D真实性和运动准确性问题,为无需大量标注数据的视频生成提供了有效解决方案。
[138] Co-Seg: Mutual Prompt-Guided Collaborative Learning for Tissue and Nuclei Segmentation
Qing Xu,Wenting Duan,Zhen Chen
Main category: cs.CV
TL;DR: 本文提出Co-Seg框架,通过协同组织和核细分割任务,实现互益增强,在PUMA数据集上达到最先进性能。
- Motivation: 现有研究将组织语义分割和核细实例分割分开处理,忽视了两者的内在关联,导致病理图像理解不充分。
- Method: 设计协同分割框架:区域感知提示编码器(RP-Encoder)提供语义和实例区域提示,互动提示掩码解码器(MP-Decoder)通过交叉引导增强上下文一致性。
- Result: 在PUMA数据集上,Co-Seg在语义分割、实例分割和全景分割任务中都超越了最先进方法。
- Conclusion: 协同组织和核细分割能够互益增强,提高病理图像分析的性能和理解深度。
[139] Event Spectroscopy: Event-based Multispectral and Depth Sensing using Structured Light
Christian Geckeler,Niklas Neugebauer,Manasi Muglikar,Davide Scaramuzza,Stefano Mintchev
Main category: cs.CV
TL;DR: 一种新型事件光谱系统,通过单个传感器同时实现高分辨率深度重建和多光谱成像,在森林环境中显著提升了深度估计精度和材料区分能力
- Motivation: 传统感知方法在森林环境中存在延迟、深度分辨率低、光照依赖强等问题,无人机在密枝森林中安全导航和精确数据采集面临挑战
- Method: 使用结构光进行深度重建,通过调制投射结构光的波长在650-850nm范围内捕获光谱信息,开发了可搭载于无人机的笼片版本
- Result: 深度估计RMSE比商业深度传感器提高60%,光谱准确性与参考光谱仪和商业多光谱相机相当,深度数据将材料区分准确度提高30%
- Conclusion: 该系统在实验室和真实雨林环境中都表现出艰固性能,为轻量化、集成化的无人机感知和数据采集提供了新的解决方案
[140] Pothole Detection and Recognition based on Transfer Learning
Mang Hu,Qianqian Xia
Main category: cs.CV
TL;DR: 基于迁移学习的ResNet50-EfficientNet-RegNet深度学习模型,在坑洞检测任务中实现了高准确度和计算效率,超越传统机器学习算法。
- Motivation: 通过图像特征提取实现坑洞状况的自动识别,对于社会发展具有重要意义。该研究主要解决路面图像深度分析中的坑洞自动检测问题。
- Method: 采用标准化、归一化和数据增帿等预处理技术,构建了基于迁移学习的ResNet50-EfficientNet-RegNet深度学习特征提取网络模型,并通过实验结果持续优化。
- Result: 迁移学习模型在识别速度和准确性方面表现优异,超越了Random Forest、MLP、SVM和LightGBM等模型。在90个测试样本上达到97.78%准确率,在900个扩展测试集上达到98.89%准确率。
- Conclusion: 该研究提出的深度学习模型在坑洞检测任务中表现出艶艶的性能,具有高分类准确性和计算效率,为道路维护和交通安全提供了有效的自动化解决方案。
[141] Raw2Event: Converting Raw Frame Camera into Event Camera
Zijie Ning,Enmin Lin,Sudarshan R. Iyengar,Patrick Vandewalle
Main category: cs.CV
TL;DR: Raw2Event是一个硬件-软件系统,能够从低成本原始帧相机实时生成事件流,解决了事件相机成本高、分辨率低的问题。
- Motivation: 事件相机具有高时间分辨率、低延迟和高动态范围等优势,但其高成本、低分辨率和缺乏自动对焦等功能限制了广泛应用,特别是在早期开发和原型设计阶段。
- Method: 通过直接访问原始Bayer数据并绕过传统图像信号处理器(ISP),基于DVS-Voltmeter模型构建可配置的仿真框架,支持在嵌入式平台上部署。
- Result: 实验结果表明Raw2Event能够生成与真实事件相机相似的事件流,同时具有更高分辨率和自动对焦能力,支持实时操作和用户直观参数调优。
- Conclusion: 该系统提供了一个可扩展且经济高效的解决方案,支持基于事件的视觉研究和早期系统开发,代码已开源。
[142] D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning
Sai Kartheek Reddy Kasu,Mohammad Zia Ur Rehman,Shahid Shafi Dar,Rishi Bharat Junghare,Dhanvin Sanjay Namboodiri,Nagendra Kumar
Main category: cs.CV
TL;DR: 这篇论文提出了一种多模态黑色幽默检测方法,通过解释生成和自我循环精炼技术来提升对网络谐音的理解和分类性能。
- Motivation: 解决网络谐音中黑色幽默检测的挑战,包括隐含性、敏感性和文化上下文依赖,以及缺乏多模态资源和方法的问题。
- Method: 构建了一个包含4,379个Reddit谐音的数据集,并提出了一种推理增强框架,通过角色转换自我循环技术使大型视觉-语言模型生成结构化解释,然后使用三流交叉推理网络(TCRNet)融合文本、图像和推理特征。
- Result: 实验结果显示,该方法在三个任务上都超过了强基线方法:黑色幽默检测、目标识别和强度预测。
- Conclusion: 该研究为多模态幽默理解和内容审查提供了价值,释放的数据集、注释和代码将促进进一步研究。
[143] UrbanTwin: High-Fidelity Synthetic Replicas of Roadside Lidar Datasets
Muhammad Shahbaz,Shaurya Agarwal
Main category: cs.CV
TL;DR: UrbanTwin数据集是三个公开路边激光雷达数据集(LUMPI、V2X-Real-IC、TUMTraf-I)的高保真合成复制品,每个包含10K标注帧,可用于3D目标检测、跟踪和分割任务。
- Motivation: 解决真实激光雷达数据收集成本高、标注困难的问题,通过数字孪生技术创建与真实数据高度对齐的合成数据集,增强现有基准数据集的样本量和场景多样性。
- Method: 使用模拟激光雷达传感器在基于真实场景几何、道路对齐和车辆运动模式的数字孪生环境中合成数据,包含3D边界框、实例分割标签、跟踪ID和语义分割标签。
- Result: 合成数据集与真实数据在统计和结构相似性分析中表现出高度一致性,仅使用合成数据训练的3D目标检测模型在真实数据上测试时性能优于使用真实数据训练的模型。
- Conclusion: UrbanTwin数据集是首个能够替代真实激光雷达感知任务的合成数据集,具有独立的训练价值和数据增强价值,可公开获取并支持自定义场景测试。
[144] P3-SAM: Native 3D Part Segmentation
Changfeng Ma,Yang Li,Xinhao Yan,Jiachen Xu,Yunhan Yang,Chunshi Wang,Zibo Zhao,Yanwen Guo,Zhuo Chen,Chunchao Guo
Main category: cs.CV
TL;DR: P3-SAM是一个原生3D点提示部件分割模型,能够全自动将任何3D对象分割成组件,在复杂对象上实现精确分割和强鲁棒性,达到最先进性能。
- Motivation: 当前3D资产分割方法在处理复杂对象时鲁棒性差,且无法完全自动化。需要一种能够全自动分割任何3D对象为组件的方法,以增强3D理解、促进模型重用和支持部件生成等应用。
- Method: 受SAM启发,P3-SAM包含特征提取器、多个分割头和IoU预测器,支持用户交互式分割。还提出算法自动选择和合并模型预测的掩码以实现部件实例分割。模型在包含近370万个具有合理分割标签模型的新建数据集上训练。
- Result: 该方法在复杂对象上实现了精确的分割结果和强鲁棒性,达到了最先进的性能水平。
- Conclusion: P3-SAM是一个有效的全自动3D部件分割解决方案,能够处理任何复杂对象,为3D理解和应用提供了强有力的工具。
[145] AIM 2025 Challenge on High FPS Motion Deblurring: Methods and Results
George Ciubotariu,Florin-Alexandru Vasluianu,Zhuyun Zhou,Nancy Mehta,Radu Timofte,Ke Wu,Long Sun,Lingshun Kong,Zhongbao Yang,Jinshan Pan,Jiangxin Dong,Jinhui Tang,Hao Chen,Yinghui Fang,Dafeng Zhang,Yongqi Song,Jiangbo Guo,Shuhua Jin,Zeyu Xiao,Rui Zhao,Zhuoyuan Li,Cong Zhang,Yufeng Peng,Xin Lu,Zhijing Sun,Chengjie Ge,Zihao Li,Zishun Liao,Ziang Zhou,Qiyu Kang,Xueyang Fu,Zheng-Jun Zha,Yuqian Zhang,Shuai Liu,Jie Liu,Zhuhao Zhang,Lishen Qu,Zhihao Liu,Shihao Zhou,Yaqi Luo,Juncheng Zhou,Jufeng Yang,Qianfeng Yang,Qiyuan Guan,Xiang Chen,Guiyue Jin,Jiyu Jin
Main category: cs.CV
TL;DR: AIM 2025高帧率非均匀运动去模糊挑战赛综述,评估了9个参赛团队的解决方案,展示了该领域的最新进展,并使用了包含挑战性运动模式的新型数据集MIORe。
- Motivation: 识别能够通过学习复杂运动类型的代表性视觉线索,在各种挑战性条件下生成更清晰和视觉吸引力图像的有效网络。
- Method: 通过竞赛形式,68名参与者注册,9个团队提交有效方案,使用新型MIORe数据集进行评估,该数据集包含具有挑战性的运动模式样本。
- Result: 挑战赛成功展示了高帧率单图像运动去模糊领域的最先进进展,证明了该领域的显著进步。
- Conclusion: 该挑战赛为高FPS非均匀运动去模糊技术提供了重要基准,推动了该领域的发展,MIORe数据集为未来研究提供了有价值的资源。
[146] SynthDrive: Scalable Real2Sim2Real Sensor Simulation Pipeline for High-Fidelity Asset Generation and Driving Data Synthesis
Zhengqing Chen,Ruohong Mei,Xiaoyang Guo,Qingjie Wang,Yubin Hu,Wei Yin,Weiqiang Ren,Qian Zhang
Main category: cs.CV
TL;DR: 基于3D生成技术的可扩展真实二次模拟系统,用于自动驾驶中的稀有场景数据生成
- Motivation: 解决现有传感器模拟方案的问题:CG方法缺乏多样性且难以扩展,学习方法受限于特定对象类别且需要大量多传感器数据
- Method: 提出一种可扩展的real2sim2real系统,利用3D生成技术自动化资产挖掘、生成和稀有案例数据合成
- Result: 未在摘要中明确提及,但方法设计目标是为了解决现有方法的限制
- Conclusion: 该系统有望提高自动驾驶传感器模拟的可扩展性和适用范围,为潜体感知训练提供更多样化的稀有场景数据
[147] MIORe & VAR-MIORe: Benchmarks to Push the Boundaries of Restoration
George Ciubotariu,Zhuyun Zhou,Zongwei Wu,Radu Timofte
Main category: cs.CV
TL;DR: MIORe和VAR-MIORe是两个新的多任务运动恢复数据集,通过高帧率采集和自适应帧平均技术生成一致的运动模糊,为视频恢复任务提供高质量基准。
- Motivation: 解决现有运动恢复基准数据集在运动场景覆盖、模糊一致性控制和运动幅度变化范围方面的局限性。
- Method: 使用1000FPS高速采集和专业光学设备捕捉多样运动场景,基于光流指标自适应平均帧生成运动模糊,VAR-MIORe还提供从最小到极端的可变运动幅度范围。
- Result: 创建了包含复杂ego相机运动、多主体交互和深度相关模糊效果的高分辨率数据集,为各种图像视频恢复算法提供挑战性测试基准。
- Conclusion: 这些数据集为下一代图像视频恢复研究奠定了基础,能够有效评估算法在受控和恶劣条件下的性能表现。
[148] UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward
Yufeng Cheng,Wenxu Wu,Shaojin Wu,Mengqi Huang,Fei Ding,Qian He
Main category: cs.CV
TL;DR: UMO是一个统一的多身份优化框架,通过多对多匹配范式和强化学习来解决图像定制中多参考图像的身份混淆问题,显著提高了身份一致性和可扩展性。
- Motivation: 人类对脸部更敏感,现有图像定制方法在多参考图像下难以保持身份一致性且容易产生身份混淆,限制了身份可扩展性。
- Method: 提出UMO框架,将多身份生成重新表述为全局分配优化问题,通过扩散模型上的强化学习实现多身份一致性,并构建了包含合成和真实数据的多参考图像数据集。
- Result: 大量实验表明UMO显著提高了身份一致性,减少了身份混淆,在多个图像定制方法上达到了开源方法中的最先进水平。
- Conclusion: UMO有效解决了多身份图像定制中的身份混淆问题,为现有图像定制方法提供了通用的多身份一致性解决方案,在身份保持维度上设立了新的技术标杆。
[149] Video-Based MPAA Rating Prediction: An Attention-Driven Hybrid Architecture Using Contrastive Learning
Dipta Neogi,Nourash Azmine Chowdhury,Muhammad Rafsan Kabir,Mohammad Ashrafuzzaman Khan
Main category: cs.CV
TL;DR: 使用对比学习和混合神经网络架构实现视频年龄分级分类,在Contextual Contrastive Learning框架下达到88%准确率
- Motivation: 传统方法需要大量标注数据、泛化能力差且特征学习效率低,无法满足视频内容消费快速增长下对MPAA分级标准自动化的需求
- Method: 采用对比学习(实例判别、上下文对比学习、多视角对比学习),结合LRCN(CNN+LSTM)骨干网络和Bahdanau注意力机制,使用NT-Xent、NT-logistic和Margin Triplet等对比损失函数
- Result: 在上下文对比学习框架下实现88%准确率和0.8815 F1分数,能够精细区分PG-13和R级内容
- Conclusion: 提出的混合架构在对比学习框架下表现出色,已部署为实时MPAA分级分类的Web应用,为流媒体平台提供自动化内容合规解决方案
[150] Curia: A Multi-Modal Foundation Model for Radiology
Corentin Dancette,Julien Khlaut,Antoine Saporta,Helene Philippe,Elodie Ferreres,Baptiste Callard,Théo Danielou,Léo Alberge,Léo Machado,Daniel Tordjman,Julie Dupuis,Korentin Le Floch,Jean Du Terrail,Mariam Moshiri,Laurent Dercle,Tom Boeken,Jules Gregory,Maxime Ronot,François Legou,Pascal Roux,Marc Sapoval,Pierre Manceron,Paul Hérent
Main category: cs.CV
TL;DR: Curia是一个在13万TB真实世界放射影像数据上训练的基础模型,在19个放射学任务上表现优异,达到或超过放射科医生和其他基础模型的性能,具有跨模态和少数据场景的临床显著涌现特性。
- Motivation: 当前AI辅助放射学解释主要基于单一任务的窄模型,无法覆盖广泛的成像模态、疾病和放射学发现。基础模型有望在跨模态和少数据设置中实现广泛泛化,但这一潜力在放射学领域尚未实现。
- Method: 开发Curia基础模型,使用一家主要医院数年间的全部横断面成像输出进行训练,包含15万次检查(130TB)的真实世界数据,并在新策划的19任务外部验证基准上进行评估。
- Result: Curia能够准确识别器官、检测脑出血和心肌梗死等病症、预测肿瘤分期结果,在跨模态和少数据场景中展现出临床显著的涌现特性,性能达到或超过放射科医生和近期基础模型。
- Conclusion: Curia展示了基础模型在放射学中的巨大潜力,为加速该领域进展,作者在Hugging Face上发布了基础模型权重。
[151] Leveraging Generic Foundation Models for Multimodal Surgical Data Analysis
Simon Pezold,Jérôme A. Kurylec,Jan S. Liechti,Beat P. Müller,Joël L. Lavanchy
Main category: cs.CV
TL;DR: 这篇论文研究了如何通过过转学习调整通用基础模型V-JEPA,并整合手术室多模态数据来支持多个手术数据科学任务,包括预测住院时间、手术后并发症和手术时期识别。
- Motivation: 探索通用基础模型通过过转学习适配手术领域,以及整合手术室中的多模态数据来提升手术数据科学的性能。
- Method: 使用V-JEPA作为单模态基础模型,在未标注的手术视频上进行微调,并通过训练分离编码器来整合其他时间分辨数据流,形成多模态共享表征空间。
- Result: 领域特定数据的微调显著提升了模型性能。在内部数据中,整合额外数据流同样有益。在HeiCo数据集上,单模态基线就已达到EndoVis2017挑战赛最佳性能,微调后进一步提升了准确率。
- Conclusion: 手术数据科学可以利用公开的通用基础模型,通过领域适配和整合适当的补充数据流来获得显著性能提升。
[152] Evaluating the Impact of Adversarial Attacks on Traffic Sign Classification using the LISA Dataset
Nabeyou Tadessa,Balaji Iyangar,Mashrur Chowdhury
Main category: cs.CV
TL;DR: 本研究评估了交通标志分类器对对抗性攻击的脆弱性,使用LISA数据集训练CNN模型,测试FGSM和PGD攻击效果,发现扰动幅度增加会导致分类准确率急剧下降。
- Motivation: 对抗性攻击对机器学习模型构成严重威胁,但先前研究主要关注MNIST等简单数据集,本文旨在探究真实世界交通标志识别系统的脆弱性。
- Method: 使用LISA交通标志数据集训练卷积神经网络分类47种交通标志,并评估其对FGSM和PGD对抗攻击的鲁棒性。
- Result: 随着扰动幅度的增加,分类准确率急剧下降,表明模型对对抗样本高度敏感。
- Conclusion: 该研究为未来开发针对真实世界交通标志识别系统的防御机制奠定了基础。
[153] ToonOut: Fine-tuned Background-Removal for Anime Characters
Matteo Muratori,Joël Seytre
Main category: cs.CV
TL;DR: 通过收集动漫风格数据集并对BiRefNet模型进行精细调整,显著提升了动漫图片背景移除的准确度
- Motivation: 现有背景移除模型在动漫风格内容上表现不佳,特别是在复杂的头发和透明效果处理方面面临挑战
- Method: 收集和注释了1,228张高质量动漫图片数据集,对开源BiRefNet模型进行精细调整
- Result: 动漫图片背景移除准确度从95.3%提升到99.5%(基于新引入的像素准确度指标)
- Conclusion: 通过领域特定数据集的精细调整可以有效提升专门领域的背景移除性能,并开源了代码、模型和数据集
[154] Automated Radiographic Total Sharp Score (ARTSS) in Rheumatoid Arthritis: A Solution to Reduce Inter-Intra Reader Variation and Enhancing Clinical Practice
Hajar Moradmand,Lei Ren
Main category: cs.CV
TL;DR: 这项研究开发了一种基于深度学习的自动化粗糖病关节损伤评分框架(ARTSS),用于分析全手X光片进行粗糖病严重程度评估,显著提高了评分准确性和效率。
- Motivation: 手动评估粗糖病关节损伤耗时且主观性强,存在观察者间和观察者内变异性。需要一种自动化方法来减少这些问题,特别是能处理关节消失和变长度图像序列的挑战。
- Method: 研究开发了四步框架:I)使用ResNet50进行图像预处理和重定向;II)使用UNet.3进行手部分割;III)使用YOLOv7识别关节;IV)使用VGG16、VGG19、ResNet50、DenseNet201、EfficientNetB0和ViT模型进行TSS预测。基于970名患者数据,采用3折交叉验证进行训练。
- Result: 关节识别模型达到99%的准确率。最佳模型ViT在TSS预测中获得了仅为0.87的Huber损失值。外部测试291名未见患者显示了良好的性能。
- Conclusion: 该研究证明了深度学习在自动化粗糖病评分中的潜力,能够显著节省时间、减少主观变异性、提高评分准确性,为临床决策提供更好支持。
[155] Matching Shapes Under Different Topologies: A Topology-Adaptive Deformation Guided Approach
Aymen Merrouche,Stefanie Wuhrer,Edmond Boyer
Main category: cs.CV
TL;DR: 提出了一种拓扑自适应变形模型,用于处理包含拓扑伪影的非刚性3D网格匹配问题,能够在ARAP和双射关联约束下对齐形状对,无需依赖数据驱动先验。
- Motivation: 解决现实场景中多视角重建等应用中的拓扑伪影问题,当前方法基于等距或ARAP变形的假设在这些情况下会失效。
- Method: 联合优化具有适当拓扑的模板网格及其与待匹配形状的对齐,使用拓扑自适应变形模型允许形状拓扑变化。
- Result: 方法适用于高度非等距形状和含拓扑伪影的形状,包括噪声多视角重建,在3D对齐质量上甚至优于基于大数据训练的方法。
- Conclusion: 提出的拓扑自适应方法有效解决了传统假设失效情况下的非刚性网格匹配问题,具有很好的实用性和鲁棒性。
[156] A New Hybrid Model of Generative Adversarial Network and You Only Look Once Algorithm for Automatic License-Plate Recognition
Behnoud Shafiezadeh,Amir Mashmool,Farshad Eshghi,Manoochehr Kelarestaghi
Main category: cs.CV
TL;DR: 本文提出了一种结合选择性GAN去模糊预处理和YOLOv5检测架构的自动车牌识别系统,在实时性和准确性方面取得了显著成效。
- Motivation: 自动车牌识别系统在智慧城市中至关重要,但因车牌变化性高,传统方法效果有限。模糊车牌图像对识别细精度造成了重大挑战,需要更有效的处理方案。
- Method: 采用选择性GAN进行去模糊预处理,避免不必要的输入操作;结合YOLOv5对象检测架构进行车牌检测、字符分割和字符识别。构建了伊朗车牌数据集进行训练和测试。
- Result: 检测时间仅0.026秒,车牌棆检测准确率95%,字符识别准确率97%。去模糊GAN预处理使检测准确率提高近40%,特别是对模糊车牌效果显著。
- Conclusion: 结合YOLOv5和去模糊GAN的综合模型在准确性、速度和实时性方面表现优异,特别适用于移动应用和处理模糊场景。
[157] Barlow-Swin: Toward a novel siamese-based segmentation architecture using Swin-Transformers
Morteza Kiani Haftlang,Mohammadhossein Malmir,Foroutan Parand,Umberto Michelucci,Safouane El Ghazouali
Main category: cs.CV
TL;DR: 轻量级医学图像分割模型,结合Swin Transformer编码器和U-Net解码器,通过自监督预训练和少参数设计,实现了高效的实时分割性能。
- Motivation: 解决传统卷积网络感知野局限和Transformer模型计算费用高的问题,为实时临床部署提供轻量化解决方案。
- Method: 采用Swin Transformer类似的浅层编码器与U-Net类似解码器结合,通过skip连接保体空间细节。先使用Barlow Twins自监督方法预训练编码器,然后微调整个模型进行任务特定训练。
- Result: 在二值分割床准任务中实现了竞争性的准确度,同时参数数量显著减少且推理速度更快。
- Conclusion: 该模型为实时和资源受限的临床环境提供了一种实用的轻量化分割方案,在保持性能的同时大幅降低了计算成本。
[158] Intraoperative 2D/3D Registration via Spherical Similarity Learning and Inference-Time Differentiable Levenberg-Marquardt Optimization
Minheng Chen,Youyong Kong
Main category: cs.CV
TL;DR: 提出在非欧几里得球面特征空间中进行相似性学习,使用CNN-Transformer编码器提取特征嵌入,通过SO(4)空间的黎曼距离近似测地距离,提升2D/3D配准的准确性和收敛速度。
- Motivation: 现有的欧几里得近似方法扭曲了流形结构并减慢了收敛速度,需要更好的方法来捕捉复杂的流形结构以提高配准性能。
- Method: 使用CNN-Transformer编码器提取特征嵌入,将其投影到球面空间,在双不变SO(4)空间中使用黎曼距离近似测地距离,推理时采用完全可微的Levenberg-Marquardt优化加速收敛。
- Result: 在真实和合成数据集上的实验显示,在患者特定和患者无关场景下均获得了优越的准确性。
- Conclusion: 提出的非欧几里得球面特征空间相似性学习方法能够更好地捕捉复杂流形结构,显著提高了2D/3D配准的准确性和效率。
[159] BIR-Adapter: A Low-Complexity Diffusion Model Adapter for Blind Image Restoration
Cem Eteke,Alexander Griessel,Wolfgang Kellerer,Eckehard Steinbach
Main category: cs.CV
TL;DR: BIR-Adapter是一个低复杂度的盲图像恢复适配器,无需训练额外特征提取器,利用预训练扩散模型的先验知识,通过扩展自注意力机制和采样引导机制实现竞争性性能。
- Motivation: 利用预训练大规模扩散模型的先验知识进行盲图像恢复,避免训练辅助特征提取器,降低计算复杂度。
- Method: 从退化图像中通过模型本身提取特征,扩展自注意力机制引入退化特征,并采用采样引导机制减少幻觉现象。
- Result: 在合成和真实退化场景下,BIR-Adapter达到或超越最先进方法的性能,同时显著降低复杂度,并能集成到其他扩散模型中。
- Conclusion: BIR-Adapter提供了一种高效、低复杂度的盲图像恢复解决方案,具有良好的扩展性和应用前景。
[160] FoMo4Wheat: Toward reliable crop vision foundation models with globally curated data
Bing Han,Chen Zhu,Dong Han,Rui Yu,Songliang Cao,Jianhui Wu,Scott Chapman,Zijian Wang,Bangyou Zheng,Wei Guo,Marie Weiss,Benoit de Solan,Andreas Hund,Lukas Roth,Kirchgessner Norbert,Andrea Visioni,Yufeng Ge,Wenjuan Li,Alexis Comar,Dong Jiang,Dejun Han,Fred Baret,Yanfeng Ding,Hao Lu,Shouyang Liu
Main category: cs.CV
TL;DR: FoMo4Wheat是首个针对小麦作物的视觉基础模型,通过自监督学习在最大的小麦图像数据集ImAg4Wheat上预训练,在10个田间视觉任务中表现优于通用预训练模型。
- Motivation: 通用预训练的视觉模型在农业领域泛化能力不足,因为精细多变的冠层结构与波动的田间条件相互作用,需要作物特定的基础模型来提高田间感知的可靠性。
- Method: 使用自监督学习方法在ImAg4Wheat数据集(250万张高分辨率小麦图像,覆盖2000多个基因型和500多个环境条件)上预训练小麦专用的视觉基础模型。
- Result: FoMo4Wheat模型在冠层和器官级别的10个田间视觉任务中持续优于最先进的通用预训练模型,并且其表征对小麦具有鲁棒性,可迁移到其他作物和杂草。
- Conclusion: 作物特定的基础模型对于可靠的田间感知具有重要价值,为构建具有跨物种和跨任务能力的通用作物基础模型指明了方向。
[161] Interleaving Reasoning for Better Text-to-Image Generation
Wenxuan Huang,Shuang Chen,Zheyong Xie,Shaosheng Cao,Shixiang Tang,Yufan Shen,Qingyu Yin,Wenbo Hu,Xiaoman Wang,Yuntian Tang,Junbo Qiao,Yue Guo,Yao Hu,Zhenfei Yin,Philip Torr,Yu Cheng,Wanli Ouyang,Shaohui Lin
Main category: cs.CV
TL;DR: 提出IRG框架,通过交替文本推理和图像合成来提升文本到图像生成的质量,在多个基准测试中取得5-10个百分点的绝对提升
- Motivation: 当前统一多模态理解生成模型在图像生成能力上有显著进步,但在指令跟随和细节保持方面仍落后于GPT-4o等紧密耦合理解与生成的系统
- Method: 引入Interleaving Reasoning Generation (IRG)框架,交替进行文本推理和图像合成:首先生成文本思考指导初始图像,然后通过反思细化细节、视觉质量和美学效果
- Result: 在GenEval、WISE、TIIF、GenAI-Bench和OneIG-EN等基准测试中取得最先进性能,绝对提升5-10个百分点,视觉质量和细粒度保真度显著改善
- Conclusion: IRG框架通过交替推理和生成的方式有效提升了文本到图像生成的质量和细节保持能力,证明了交错推理在图像生成任务中的有效性
[162] H OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers
Wenhao Li,Mengyuan Liu,Hong Liu,Pichao Wang,Shijian Lu,Nicu Sebe
Main category: cs.CV
TL;DR: 提出H₂OT分层剪枝恢复框架,通过动态选择代表性帧的pose tokens来降低视频3D人体姿态估计中transformer的计算成本,同时保持高精度。
- Motivation: 视频姿态变换器(VPTs)计算成本高,在资源受限设备上不实用,需要提高效率。
- Method: 分层即插即用剪枝恢复框架,包含Token Pruning Module(TPM)动态选择代表性tokens和Token Recovering Module(TRM)恢复完整序列信息。
- Result: 在多个基准数据集上实验证明该方法既有效又高效,能显著降低计算成本同时保持估计精度。
- Conclusion: 保持完整姿态序列不必要,少量代表性帧的pose tokens即可实现高效率和高精度估计,该方法通用性强,可轻松集成到常见VPT模型中。
eess.IV
[163] A Synthetic-to-Real Dehazing Method based on Domain Unification
Zhiqiang Yuan,Jinchao Zhang,Jie Zhou
Main category: eess.IV
TL;DR: 本文提出了一种基于域统一的合成到真实去霏方法,解决了深度学习去霏模型在真实世界霏雾图像上的性能泄漏问题。
- Motivation: 发现去霏任务中真实和合成域间的性能差异来自于清洁数据收集的不完善性,导致大气物理模型在两个域中不一致。
- Method: 通过域统统一方法,统一真实和合成域之间的关系,使去霏模型更符合实际情况。
- Result: 实验结果定性和定量地显示,该方法在真实世界图像上显著超过了最先进的方法。
- Conclusion: 域统统一方法能够有效提升去霏模型在真实霏雾图像上的性能,解决了分布偏移带来的挑战。
[164] Brain Tumor Detection Through Diverse CNN Architectures in IoT Healthcare Industries: Fast R-CNN, U-Net, Transfer Learning-Based CNN, and Fully Connected CNN
Mohsen Asghari Ilani,Yaser M. Banad
Main category: eess.IV
TL;DR: 本研究使用R-CNN、UNet和迁移学习模型对MRI图像中的脑肿瘤进行分类,在IoT医疗系统中实现了高精度诊断,Fast R-CNN达到99%准确率。
- Motivation: 脑健康对人类生命至关重要,准确的脑肿瘤诊断对有效治疗至关重要。MRI为AI驱动的图像分类提供了大数据源,需要开发高精度的自动诊断方法。
- Method: 使用Region-based CNN (R-CNN)、UNet架构,以及CNN和基于CNN的迁移学习模型(Inception-V3、EfficientNetB4、VGG19)对MRI图像中的神经胶质瘤、脑膜瘤和垂体瘤进行分类。
- Result: Fast R-CNN表现最佳:99%准确率、98.5% F分数、99.5% AUC、99.4%召回率、98.5%精确度。在跨数据集验证中,EfficientNetB2达到92.23%准确率。
- Conclusion: 结合R-CNN、UNet和迁移学习能够在IoT医疗系统中实现早期诊断和更有效治疗,AI模型在处理多样化数据集方面表现出鲁棒性和可靠性,有望改善患者护理效果。
[165] Imagining Alternatives: Towards High-Resolution 3D Counterfactual Medical Image Generation via Language Guidance
Mohamed Mohamed,Brennan Nichyporuk,Douglas L. Arnold,Tal Arbel
Main category: eess.IV
TL;DR: 首个基于语言提示的原生3D医学图像生成框架,采用改进的3D正向扩散模型,能够根据自然语言描述生成高分辨率3D反事实医学图像
- Motivation: 虽然视觉-语言模型在2D图像生成方面表现突出,但在3D领域缺乏可用的预训练基础模型,导致语言指导的高分辨率3D反事实医学图像生成方面存在空白
- Method: 采用基于Simple Diffusion增强的先进3D正向扩散模型,结合增强条件控制来提高文本对齐和图像质量,专门应用于神经系统医学影像数据
- Result: 在多个神经系统MRI数据集上成功模拟了多发硬化症的不同疵祸负荷情况和阿尔茫海默病的认知状态,生成了高质量图像且保持了主体的伪真性
- Conclusion: 该框架为3D医学影像领域的提示驱动的疾病进展分析奠定了基础,开启了语言指导的高分辨率3D反事实医学图像生成的新方向
[166] FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes
Muraam Abdel-Ghani,Mahmoud Ali,Mohamed Ali,Fatmaelzahraa Ahmed,Mohamed Arsalan,Abdulaziz Al-Ali,Shidin Balakrishnan
Main category: eess.IV
TL;DR: 提出FASL-Seg模型,通过双流处理机制(LLFP和HLFP)同时捕获高低层次特征,在手术场景语义分割中显著提升性能,在EndoVis数据集上mIoU提升5%
- Motivation: 现有手术语义分割研究主要关注手术工具而忽略解剖结构,且当前SOTA模型难以平衡高层次上下文特征和低层次边缘特征的捕获
- Method: 提出特征自适应空间定位模型(FASL-Seg),包含低层次特征投影(LLFP)和高层次特征投影(HLFP)两个处理流,用于处理不同分辨率的特征
- Result: 在EndoVis18数据集上,解剖结构分割mIoU达到72.71%,比SOTA提升5%;在EndoVis18和EndoVis17工具类型分割上分别达到85.61%和72.78%的mIoU,整体性能优于SOTA
- Conclusion: 双流处理机制能有效处理不同分辨率的特征,在解剖结构和手术器械分割方面都表现出色,证明了该方法在处理手术场景多尺度特征方面的有效性
[167] Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning
Johan Andreas Balle Rubak,Khuram Naveed,Sanyam Jain,Lukas Esterle,Alexandros Iosifidis,Ruben Pauwels
Main category: eess.IV
TL;DR: 联邦学习在牙齿分割任务中表现优于集中式学习和本地学习,特别是在数据损坏场景下,同时保护隐私。
- Motivation: 解决牙科诊断AI中的隐私约束、异构数据质量和标签不一致问题,比较联邦学习与集中式学习、本地学习在多种数据损坏场景下的性能。
- Method: 使用Attention U-Net在2066张全景X光片上训练,通过Flower AI框架实现联邦学习。设置四种实验场景:基线数据、标签操作、图像质量操作和排除故障客户端。监控每个客户端的训练和验证损失轨迹进行异常检测,使用Dice、IoU、HD等指标评估性能。
- Result: 在所有数据损坏场景下,联邦学习都取得了最佳性能:基线场景Dice 0.94889,标签操作场景Dice 0.94884,图像噪声场景Dice 0.94853,故障客户端排除场景Dice 0.94790。损失曲线监控能可靠地检测到数据损坏的站点。
- Conclusion: 联邦学习在保持隐私的同时,性能匹配或超过集中式学习,显著优于本地学习。客户端损失轨迹提供了有效的异常检测机制,支持联邦学习作为可扩展临床AI部署的实用隐私保护方法。
[168] Contrastive Anatomy-Contrast Disentanglement: A Domain-General MRI Harmonization Method
Daniel Scholz,Ayhan Can Erdur,Robbie Holland,Viktoria Ehm,Jan C. Peeken,Benedikt Wiestler,Daniel Rueckert
Main category: eess.IV
TL;DR: 提出基于条件扩散自编码器和对比损失的MRI扫描仪协调方法,无需旅行受试者即可实现跨扫描仪的脑部MRI合成与协调
- Motivation: 解决MRI扫描仪和采集参数差异导致的图像对比度不一致问题,提高多中心临床研究的数据可比性和可重复性
- Method: 使用条件扩散自编码器结合对比损失和领域无关对比增强,从单个参考图像合成脑部MRI
- Result: 在旅行受试者数据集上PSNR提高7%,在未见域上年龄回归性能提高18%,无需微调即可实现稳健协调
- Conclusion: 该方法能有效协调不同扫描仪的脑部MRI图像,保持解剖结构特异性,有望提升多中心和纵向临床研究的可比性和可重复性
[169] MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis
Daniel Scholz,Ayhan Can Erdur,Viktoria Ehm,Anke Meyer-Baese,Jan C. Peeken,Daniel Rueckert,Benedikt Wiestler
Main category: eess.IV
TL;DR: MM-DINOv2是一个将预训练视觉基础模型DINOv2适配到多模态医学影像的高效框架,通过多模态补丁嵌入、全模态掩码和半监督学习,解决了多模态缺失和标注数据有限的问题,在脑胶质瘤亚型分类任务上取得了11.1%的性能提升。
- Motivation: 现有视觉基础模型主要针对单模态图像设计,无法有效处理医学影像中常见的多模态任务。监督模型虽然表现良好,但无法利用未标注数据且难以处理临床中常见的模态缺失问题。
- Method: 提出多模态补丁嵌入使模型能处理多模态数据;采用全模态掩码技术学习跨模态鲁棒关系;利用半监督学习从大规模未标注数据中学习。
- Result: 在多序列脑MRI胶质瘤亚型分类任务中,在外部测试集上达到0.6的MCC分数,比当前最优监督方法提升11.1%。
- Conclusion: 该工作为多模态医学影像任务提供了一个可扩展且鲁棒的解决方案,能够有效利用自然图像预训练的视觉基础模型,同时解决实际临床中的缺失数据和标注有限等挑战。
cs.CR
[170] Tell-Tale Watermarks for Explanatory Reasoning in Synthetic Media Forensics
Ching-Chun Chang,Isao Echizen
Main category: cs.CR
TL;DR: 这篇论文提出了一种可解释的告诉水印系统,用于追踪合成媒体的生命周期变形,通过水印在同步变化中留下可解释追踪,从而推断合成内容的创建过程和变形历史。
- Motivation: 合成媒体的出现模糊了真实与虚假的界限,应对这种情况需要能够追踪合成内容生成链条的方法,以揭示潜在的犯罪意图。
- Method: 发展了一种告诉水印系统,这种水印不是绝对突破或完全稳健的,而是在同步变化中留下可解释的追踪。水印根据不同类型的变形(语义编辑、光度调整、几何投影)进行调整,然后通过解释性推理来推断最可能的复合变形过程。
- Result: 实验评估证明了告诉水印系统在保真度、同步性和可追踪性方面的有效性。
- Conclusion: 告诉水印提供了一种有效的方法来追踪合成媒体的生命周期变形,为数字图像反证分析提供了更深入的证据见解,有助于揭示合成内容的创建意图和变形历史。
[171] Signal-Based Malware Classification Using 1D CNNs
Jack Wilkie,Hanan Hindy,Ivan Andonovic,Christos Tachtatzis,Robert Atkinson
Main category: cs.CR
TL;DR: 这篇论文提出了一种新的恶意软件分类方法,通过将恶意软件转换为1D信号而非传统的2D图像,以减少信息损失并提高分类性能。
- Motivation: 现有的恶意软件分类技术存在显著信息损失:静态分析容易被漏洞避免,动态分析资源消耗大,而2D图像转换方法存在量化噪声和人为的2D依赖关系问题。
- Method: 将恶意软件二进制文件重新调整为1D信号(浮点数格式),避免量化噪声。使用基于ResNet架构和squeeze-and-excitation层的专门1D卷积神经网络进行分类。
- Result: 在MalNet数据集上达到了状态与众不同的性能:二元分类F1得分0.874,类型分类0.503,家族分类0.507。
- Conclusion: 1D信号模态能够有效减少信息损失,提高恶意软件分类的性能,为未来研究开启了新方向。
cs.LG
[172] Feed Two Birds with One Scone: Exploiting Function-Space Regularization for Both OOD Robustness and ID Fine-Tuning Performance
Xiang Yuan,Jun Shu,Deyu meng,Zongben Xu
Main category: cs.LG
TL;DR: 提出一种新的函数空间正则化方法,通过模拟OOD样本来约束微调模型与预训练模型的距离,同时引入一致性正则化来增强OOD鲁棒性,在多种CLIP骨干网络上均能提升下游任务的ID性能和OOD鲁棒性。
- Motivation: 现有鲁棒微调方法通过保留预训练权重、特征或logits来维持OOD鲁棒性,但这些方法不能总是改善不同模型架构的OOD鲁棒性,因为OOD鲁棒性需要模型函数在输入信息变化时保持稳定预测。
- Method: 提出函数空间距离约束正则化,使用模拟OOD样本来约束微调模型与预训练模型在函数空间的距离;同时引入一致性正则化来促进扰动样本的稳定预测。
- Result: 大量实验表明,该方法在各种CLIP骨干网络上都能一致地提升下游任务的ID微调性能和OOD鲁棒性,优于现有的基于正则化的鲁棒微调方法。
- Conclusion: 通过直接在函数空间进行约束,而不是通过权重、特征或logits等间接方式,能够更有效地保持预训练模型的OOD鲁棒性,同时提升下游任务的性能。
[173] ProfilingAgent: Profiling-Guided Agentic Reasoning for Adaptive Model Optimization
Sadegh Jafari,Aishwarya Sarkar,Mohiuddin Bilwal,Ali Jannesari
Main category: cs.LG
TL;DR: 这篇论文提出了ProfilingAgent,一种基于性能分析的多代理系统,利用大语言模型自动化模型压缩,通过结构剪枝和动态量化技术优化模型性能。
- Motivation: 基础模型面临计算和内存瓶颈,当前的压缩技术多使用均匀偏好而忽视了架构和运行时异质性。需要更智能的自动化方案来整合性能分析工具以优化模型部署。
- Method: 设计了模块化的多代理系统ProfilingAgent,利用LLM进行理解和决策,结合静态指标(MACs、参数数量)和动态信号(延迟、内存)来制定层级压缩策略。采用结构剪枝和训练后动态量化技术。
- Result: 在ImageNet-1K、CIFAR-10、CIFAR-100数据集上,剪枝保持或提高了准确性(ImageNet-1K上仅下降约1%,ViT-B/16在小数据集上提高2%),量化实现了达到74%的内存节省且准确性损失<0.5%,推理速度提升1.74倍。
- Conclusion: 该研究证明了代理系统在基于性能分析的模型优化中的可扩展性价值,展示了LLM理解质量对迭代剪枝过程的重要性。
[174] Performance of Conformal Prediction in Capturing Aleatoric Uncertainty
Misgina Tsighe Hagos,Claes Lundström
Main category: cs.LG
TL;DR: 本文研究发现,虽然共形预测能够以高概率覆盖真实类别,但其预测集大小与人类标注者标注的模糊性(aleatoric uncertainty)之间相关性很弱,表明共形预测在捕捉数据固有模糊性方面能力有限。
- Motivation: 验证共形预测方法是否能够有效量化数据集中的固有模糊性(aleatoric uncertainty),特别是由类别重叠引起的模糊性。现有文献缺乏对这一属性的实证验证。
- Method: 使用三种共形预测方法为八个深度学习模型生成预测集,在四个包含多人标注(5-50人/实例)的数据集上,测量预测集大小与人类标注者标注的标签数量之间的相关性,并评估预测集与人工标注的相似性。
- Result: 绝大多数共形预测输出与人类标注之间仅呈现非常弱到弱的相关性,只有少数显示中等相关性。
- Conclusion: 共形预测虽然能提供较高的真实类别覆盖率,但在捕捉固有模糊性方面的能力有限,需要重新评估其生成的预测集的有效性。
[175] Evaluating the Efficiency of Latent Spaces via the Coupling-Matrix
Mehmet Can Yavuz,Berrin Yanikoglu
Main category: cs.LG
TL;DR: 提出了一个冗余指数rho(C)来直接量化潜在表示中的维度间依赖性,通过分析耦合矩阵并与正态分布比较来评估表示质量
- Motivation: 深度学习网络经常产生冗余的潜在空间,多个坐标编码重叠信息,降低了有效容量并阻碍泛化。标准指标如准确率或重建损失只能间接证明这种冗余
- Method: 通过分析从潜在表示导出的耦合矩阵,通过能量距离比较其非对角线统计量与正态分布,构建冗余指数rho(C)
- Result: 在MNIST变体、Fashion-MNIST、CIFAR-10和CIFAR-100上的验证表明,低rho(C)可靠预测高分类准确率或低重建误差,而高冗余与性能崩溃相关
- Conclusion: rho(C)提供了一个理论视角和实用工具,用于评估和改进学习表示的效率,可作为神经架构搜索的指导目标和冗余感知正则化目标
[176] Tackling Device Data Distribution Real-time Shift via Prototype-based Parameter Editing
Zheqi Lv,Wenqiao Zhang,Kairui Fu,Qi Tian,Shengyu Zhang,Jiajie Su,Jingyuan Chen,Kun Kuang,Fei Wu
Main category: cs.LG
TL;DR: Persona是一个新颖的个性化方法,使用基于原型的无反向传播参数编辑框架来增强模型泛化能力,无需部署后重新训练
- Motivation: 设备上实时数据分布偏移挑战轻量级模型的泛化能力,当前研究主要依赖数据密集和计算昂贵的微调方法,忽视了这一关键问题
- Method: 在云端使用神经适配器生成参数编辑矩阵,基于实时设备数据自适应调整设备上模型,将模型聚类为原型模型,并通过跨层知识转移实现一致的多层参数变化
- Result: 在多个数据集的视觉任务和推荐任务上的广泛实验证实了Persona的有效性和通用性
- Conclusion: Persona框架能够有效解决设备上数据分布偏移问题,提升模型泛化性能,且无需昂贵的重新训练
cs.RO
[177] LocoMamba: Vision-Driven Locomotion via End-to-End Deep Reinforcement Learning with Mamba
Yinuo Wang,Gavin Tao
Main category: cs.RO
TL;DR: LocoMamba是一个基于选择性状态空间模型(Mamba)的视觉驱动跨模态深度强化学习框架,通过近线性时间序列建模实现高效训练和长距离依赖捕获,在复杂环境中表现出优越的性能和泛化能力。
- Motivation: 为了解决传统方法在处理长序列时的计算效率问题,并改善在复杂地形和障碍物环境中的机器人运动控制性能,需要开发一个能够高效处理多模态输入、捕获长距离依赖关系且训练效率高的框架。
- Method: 1) 使用多层感知机嵌入本体感知状态,轻量CNN处理深度图像生成紧凑token;2) 堆叠Mamba层通过选择性扫描融合token,实现近线性时间处理;3) 使用PPO算法在随机化地形和外观下进行端到端策略训练,采用障碍密度课程学习和紧凑状态中心奖励函数。
- Result: 在具有静态/动态障碍物和不平地形的模拟环境中,相比最先进基线方法,LocoMamba获得更高回报和成功率,碰撞更少,对未见地形和障碍密度有更强泛化能力,在相同计算预算下以更少更新次数收敛。
- Conclusion: LocoMamba框架通过选择性状态空间模型实现了高效的长序列建模,在多模态感知和运动控制任务中展现出卓越的性能、泛化能力和训练效率,为机器人运动控制提供了有效的解决方案。
[178] ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory
Ying Li,Xiaobao Wei,Xiaowei Chi,Yuming Li,Zhongyu Zhao,Hao Wang,Ningning Ma,Ming Lu,Shanghang Zhang
Main category: cs.RO
TL;DR: ManipDreamer3D是一个从输入图像和文本指令生成3D感知机器人操作视频的新框架,通过3D轨迹规划和轨迹到视频扩散模型解决现有方法依赖2D轨迹导致的3D空间模糊问题。
- Motivation: 机器人操作领域面临数据稀缺的挑战,现有基于扩散模型的方法主要依赖2D轨迹,存在3D空间模糊问题,需要开发能够生成具有合理3D轨迹的机器人操作视频的方法。
- Method: 首先从输入图像重建3D占用表示,然后计算优化的3D末端执行器轨迹(最小化路径长度并避免碰撞),接着使用潜在编辑技术从初始图像潜在和优化轨迹创建视频序列,通过专门训练的轨迹到视频扩散模型生成拾取放置视频。
- Result: 实验结果表明,该方法生成的机器人视频具有自主规划的合理3D轨迹,显著减少了人工干预需求,在视觉质量上优于现有方法。
- Conclusion: ManipDreamer3D框架成功解决了3D空间模糊问题,能够生成高质量的3D感知机器人操作视频,为机器人操作数据生成提供了有效解决方案。
[179] Evaluation of Large Language Models for Anomaly Detection in Autonomous Vehicles
Petros Loukas,David Bassir,Savvas Chatzichristofis,Angelos Amanatiadis
Main category: cs.RO
TL;DR: 这篇论文评估了大语言模型在自主驾驶汽车实际边界案例中的应用,通过结合开放词汇检测器和提示工程来识别异常情况。
- Motivation: 当前对LLM在自主驾驦中的评估仅限于合成数据集或缺乏真实场景知识的手动驾驶数据集,需要在真实世界边界案例中进行评测。
- Method: 构建了一种开放词汇物体检测器结合提示工程和大语言模型上下文推理的架构,在真实世界边界案例中评估多个SOTA模型。
- Result: 提供了定性比较结果,并讨论了LLM作为异常检测器在自主驾驦汽车中的潜在应用可能性。
- Conclusion: LLM可以作为自主驾驦车载具的异常检测模块,在真实世界边界案例中表现出了潜力。
[180] eKalibr-Inertial: Continuous-Time Spatiotemporal Calibration for Event-Based Visual-Inertial Systems
Shuolong Chen,Xingxing Li,Liu Yuan
Main category: cs.RO
TL;DR: eKalibr-Inertial是一个用于事件相机-惯性测量单元系统的精确时空标定工具,采用圆网格标定板,通过严格初始化和连续时间批量优化实现高精度标定。
- Motivation: 事件相机具有高时间分辨率、高动态范围和低功耗等优势,但在视觉-惯性运动估计中需要准确的时空标定(外参和时间校准)来实现最优传感器融合。
- Method: 基于eKalibr和eKalibr-Stereo中的网格模式识别和跟踪方法,首先进行严格高效的初始化以准确恢复所有参数,然后进行连续时间批量优化来精化参数。
- Result: 大量真实世界实验结果表明,eKalibr-Inertial能够实现准确的事件相机-惯性时空标定。
- Conclusion: 该方法为事件相机-惯性系统提供了有效的标定解决方案,并已开源以促进研究社区发展。
[181] Learning in ImaginationLand: Omnidirectional Policies through 3D Generative Models (OP-Gen)
Yifei Ren,Edward Johns
Main category: cs.RO
TL;DR: 使用3D生成模型从单次真实演示中扩展数据集,训练全向策略,显著减少策略学习所需的演示次数
- Motivation: 现有3D生成模型能够从少量图像生成完整物体形状,这为机器人学提供了新机会。研究旨在利用3D生成模型来增强数据集,从而减少策略学习对演示数据的依赖
- Method: 通过单次真实世界演示后,使用3D生成模型创建想象数据集,在该数据集中学习全向策略。研究了不同设计选择对策略行为的影响
- Result: 实验表明该方法能使机器人在远离演示初始状态的情况下执行任务,包括从物体相对演示位置的另一侧开始,在抓取物体、打开抽屉、将垃圾放入垃圾桶等任务中表现优于其他数据增强方法
- Conclusion: 3D生成模型能有效扩展机器人学习数据集,显著减少所需演示次数,在多项真实世界任务中展现出优越性能
[182] O Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation
Tongxuan Tian,Xuhui Kang,Yen-Ling Kuo
Main category: cs.RO
TL;DR: 提出了一种基于单样本学习的3D物体间功能关系理解方法,结合视觉基础模型和点云表示,显著提升了机器人操作中物体交互的推理能力
- Motivation: 现有研究主要关注单物体功能预测,但真实世界中物体交互通常是成对关系,且数据有限的情况下需要更好的泛化能力
- Method: 使用视觉基础模型的语义特征和点云几何表示进行单样本学习,并将3D功能表示与大语言模型结合用于机器人操作任务
- Result: 在3D物体间功能关系理解和机器人操作实验中,该方法在准确性和泛化能力方面显著优于现有基线方法
- Conclusion: 该方法成功解决了有限数据下的物体间功能关系理解问题,为机器人操作提供了更强大的物体交互推理能力
[183] LLaDA-VLA: Vision Language Diffusion Action Models
Yuqing Wen,Hebei Li,Kefan Gu,Yucheng Zhao,Tiancai Wang,Xiaoyan Sun
Main category: cs.RO
TL;DR: LLaDA-VLA是首个基于预训练扩散视觉语言模型(d-VLMs)构建的视觉-语言-扩散-动作模型,用于机器人操作任务,通过局部特殊令牌分类和分层动作结构解码策略,在仿真和真实机器人上都显著优于现有VLA方法。
- Motivation: 虽然基于掩码扩散模型的d-VLMs在文本生成和多模态应用中表现出色,但将其应用于机器人策略学习仍未被充分探索。本文旨在利用d-VLMs的优势来解决机器人操作任务。
- Method: 提出了两个关键设计:(1)局部特殊令牌分类策略,用特殊动作令牌分类替代全词汇分类,降低适应难度;(2)分层动作结构解码策略,考虑动作内部和动作间的依赖关系进行分层解码。
- Result: 大量实验表明,LLaDA-VLA在仿真和真实机器人上都显著优于最先进的VLA方法。
- Conclusion: LLaDA-VLA成功地将扩散视觉语言模型应用于机器人操作领域,通过创新的适应策略实现了优异的性能表现,为扩散模型在机器人控制中的应用开辟了新途径。
[184] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions
Qi Lv,Weijie Kong,Hao Li,Jia Zeng,Zherui Qiu,Delin Qu,Haoming Song,Qizhi Chen,Xiang Deng,Jiangmiao Pang
Main category: cs.RO
TL;DR: F1是一个预训练的视觉-语言-动作框架,通过整合视觉前瞻生成到决策流程中,解决了现有VLA模型在动态环境中短视行为的问题。
- Motivation: 现有的视觉-语言-动作模型主要采用反应式的状态到动作映射,在动态场景中容易产生短视行为且鲁棒性差。
- Method: 采用混合Transformer架构,包含感知、前瞻生成和控制模块,通过下一尺度预测机制合成目标条件的视觉前瞻作为显式规划目标,将动作生成重新表述为前瞻引导的逆动力学问题。
- Result: 在包含136个不同任务的33万条轨迹数据集上进行训练,在真实世界任务和仿真基准测试中始终优于现有方法,在任务成功率和泛化能力方面都有显著提升。
- Conclusion: F1框架通过整合视觉前瞻生成,有效提升了在动态视觉环境中执行语言条件任务的性能和鲁棒性。
[185] Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments
Jiahui Yang,Jason Jingzhou Liu,Yulong Li,Youssef Khaky,Kenneth Shaw,Deepak Pathak
Main category: cs.RO
TL;DR: DRP是一种视觉运动神经运动策略,通过Transformer架构和千万级专家轨迹预训练,结合师生微调和局部反应模块,在动态部分可观测环境中实现高效避障运动规划
- Motivation: 解决动态部分可观测环境中机械臂运动规划的挑战,传统运动规划器需要完整环境知识且速度慢,神经运动策略在复杂动态环境中泛化能力不足
- Method: 提出Deep Reactive Policy (DRP),核心是IMPACT Transformer神经运动策略,在千万仿真专家轨迹上预训练,通过师生迭代微调改进静态避障,使用DCP-RMP局部反应模块增强动态避障
- Result: 在杂乱场景、动态障碍物和目标遮挡等挑战性任务中,DRP在仿真和真实世界环境中均取得高成功率,优于传统和神经方法
- Conclusion: DRP通过预训练、微调和局部反应模块的组合,在动态部分可观测环境中实现了强大的泛化能力和高效的运动规划性能
cs.CL
[186] Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
Hao Liang,Ruitao Wu,Bohan Zeng,Junbo Niu,Wentao Zhang,Bin Dong
Main category: cs.CL
TL;DR: 该论文提出了一种标题辅助的多模态推理框架,通过结合视觉和文本信息来提升数学和物理预测任务的性能,并在ICML 2025挑战赛中获得第一名。
- Motivation: 当前的文本基础推理模型(如GPT-3)在多模态场景中表现不佳,需要有效地结合视觉和文本信息来解决多模态推理挑战。
- Method: 开发了一种标题辅助的推理框架,通过将视觉信息转换为文本描述(标题),然后与文本信息结合进行推理,实现多模态间的有效融合。
- Result: 在ICML 2025 AI for Math Workshop & Challenge 2: SeePhys挑战中获得第一名,显示了方法在物理预测任务上的优异性能。同时在MathVerse几何推理标准数据集上也表现良好,证明了方法的普适性和健壮性。
- Conclusion: 该标题辅助推理框架能够有效地解决多模态推理问题,在数学和物理预测任务上表现突出,为多模态人工智能领域提供了有价值的技术路径。
eess.SP
[187] Towards In-Air Ultrasonic QR Codes: Deep Learning for Classification of Passive Reflector Constellations
Wouter Jansen,Jan Steckel
Main category: eess.SP
TL;DR: 本文提出使用多标签CNN从单次3D声纳测量中同时识别多个紧密排列的反射器,通过反射器星座作为编码标签来增加信息容量,验证了复杂声学模式解码的可行性。
- Motivation: 在视觉传感器失效的环境中,空中声纳为自主系统提供了可靠替代方案。现有研究已能分类单个声学地标,但需要增加信息容量,因此引入反射器星座作为编码标签。
- Method: 设计多标签卷积神经网络(CNN)同时识别多个紧密排列的反射器;研究使用自适应波束成形和零陷技术来隔离单个反射器进行单标签分类。
- Result: 在小数据集上的初步结果证实了该方法的可行性,验证了解码复杂声学模式的能力。
- Conclusion: 讨论了实验结果和局限性,为开发具有显著增加信息熵的声学地标系统及其准确鲁棒检测分类提供了关键见解和未来方向。
cs.GR
[188] From Skin to Skeleton: Towards Biomechanically Accurate 3D Digital Humans
Marilyn Keller,Keenon Werling,Soyong Shin,Scott Delp,Sergi Pujades,C. Karen Liu,Michael J. Black
Main category: cs.GR
TL;DR: SKEL是一个新的参数化3D人体模型,通过将SMPL模型重新绑定到生物力学准确的骨骼结构上,解决了现有人体模型在生物力学应用中的局限性。
- Motivation: 现有的人体模型(如SMPL)具有简化的运动学结构,与真实人体骨骼系统的关节位置和关节结构不符,限制了其在生物力学中的应用。需要一种具有生物力学准确骨骼结构且易于摆姿的参数化3D人体模型。
- Method: 通过优化AMASS序列中SMPL网格内的生物力学准确骨骼来构建数据集,学习从SMPL网格顶点到优化关节位置和骨骼旋转的回归器,最后用新的运动学参数重新参数化SMPL网格。
- Result: SKEL模型具有比SMPL更生物力学准确的关节位置,骨骼更好地贴合在人体表面内部。能够将现有的人体姿态和形状数据集"升级"为包含生物力学参数。
- Conclusion: SKEL提供了一个新的工具,使生物力学能够在野外环境中应用,同时为视觉和图形研究人员提供了更好约束和更真实的人体关节模型。
[189] Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data
Nithin Gopalakrishnan Nair,Srinivas Kaza,Xuan Luo,Vishal M. Patel,Stephen Lombardi,Jungyeon Park
Main category: cs.GR
TL;DR: 提出一种基于transformer的新视角合成方法,通过扩散模型生成合成数据增强训练,并引入token解耦机制来提升重建质量,在多个基准测试中达到SOTA效果。
- Motivation: 现有基于transformer的新视角合成模型受限于公开场景数据集的有限多样性,导致对真实世界场景的泛化能力不足。
- Method: 利用扩散模型生成合成训练数据增强泛化能力,并在transformer架构中引入token解耦过程来改善特征分离和学习效果。
- Result: 在数据集内和跨数据集评估中均优于现有模型,在多个基准测试中达到最先进结果,同时显著降低计算成本。
- Conclusion: 通过合成数据增强和token解耦机制,有效提升了新视角合成模型的泛化能力和重建质量,为处理真实世界场景提供了可扩展的解决方案。
physics.optics
[190] Layer-Wise Anomaly Detection in Directed Energy Deposition using High-Fidelity Fringe Projection Profilometry
Guanzhong Hu,Wenpan Li,Rujing Zha,Ping Guo
Main category: physics.optics
TL;DR: 本文提出了一种基于条纹投影的建筑高度同步系统,用于重钥射添加制造过程中的层次表面重建,并通过几何指标自动识别缺陷。
- Motivation: 重钥射添加制造过程容易产生过程缺陷,如几何偏差、未融合和表面累粗等,需要有效的在线监测方法。
- Method: 开发了建筑高度同步的条纹投影系统,实现层次表面重建,精度达到±46μm。提出两种补充性的几何点云指标:局部点密度(识别表面累粗)和法向变化率(识别未融合特征)。
- Result: 系统能够在不需手动标注的情况下自动识别常见的沉积异常,准确定位异常位置,为闭环过程控制提供支持。
- Conclusion: 该研究确立了条纹投影作为重钥射添加制造微米级监测的实用工具,实现了过程特征与零件几何形状的联系,推进了可认证添加制造的可行性。
cs.AI
[191] From Image Generation to Infrastructure Design: a Multi-agent Pipeline for Street Design Generation
Chenguang Wang,Xiang Yan,Yilong Dai,Ziyi Wang,Susu Xu
Main category: cs.AI
TL;DR: 一种多段系统能够在真实街道景观图像上直接编辑和重新设计自行车设施,通过车道定位、提示优化、设计生成和自动评估等步骤生成现实且上下文适宜的设计方案。
- Motivation: 现有的街道设计渲染方案需要苦巧的人工制作,影响公众参与和协作决策。AI辅助生成设计虽有潜力,但需要大量领域数据且难以实现精确的空间变化设计。
- Method: 开发了一种多段系统,集成车道定位、提示优化、设计生成和自动评估等模块,直接在真实街道景观图像上编辑自行车设施。
- Result: 在多种城市场景中进行实验,系统能够适应不同的路径几何形状和环境条件,一贯地产生视觉一致且符合指令要求的结果。
- Conclusion: 这项工作为应用多段管道于交通基础设施规划和设施设计领域奠定了基础。
[192] Towards Meta-Cognitive Knowledge Editing for Multimodal LLMs
Zhaoyu Fan,Kaihang Pan,Mingze Zhou,Bosheng Qin,Juncheng Li,Shengyu Zhang,Wenqiao Zhang,Siliang Tang,Fei Wu,Yueting Zhuang
Main category: cs.AI
TL;DR: 提出了CogEdit基准来评估多模态大语言模型的元认知知识编辑能力,包含三个层次:反事实驱动编辑、边界约束编辑和噪声鲁棒编辑。同时提出了MIND框架,通过元知识记忆、博弈论交互和标签精炼来提升元认知编辑性能。
- Motivation: 现有知识编辑基准主要关注认知层面的修改,缺乏对更深层次元认知过程的关注。需要评估模型对知识正确性的自我意识、泛化边界和不确定信息的反思能力。
- Method: 提出了MIND框架:1)构建元知识记忆用于自我意识;2)使用博弈论交互监控知识激活;3)采用标签精炼进行噪声鲁棒更新。在CogEdit基准上进行评估。
- Result: MIND框架在传统和元认知知识编辑基准上都显著优于现有认知编辑方法,表现出强大的性能。
- Conclusion: CogEdit基准填补了元认知知识编辑评估的空白,MIND框架通过元认知集成动态知识编辑有效提升了多模态大语言模型的元认知编辑能力。
astro-ph.IM
[193] Stereovision Image Processing for Planetary Navigation Maps with Semi-Global Matching and Superpixel Segmentation
Yan-Shan Lu,Miguel Arana-Catania,Saurabh Upadhyay,Leonard Felicetti
Main category: astro-ph.IM
TL;DR: 本文提出了一种结合半全局匹配(SGM)和超像素优化的方法,用于火星探测车的立体视觉地形建模,解决了传统块匹配方法在低纹理、遮挡和重复模式区域的局限性。
- Motivation: 火星探测需要精确可靠的地形模型来确保探测车安全导航。传统立体匹配方法在处理低纹理图像、遮挡和重复模式时存在困难,因为其仅考虑有限邻域像素且缺乏场景上下文理解。
- Method: 采用半全局匹配(SGM)结合超像素优化方法,平衡SGM的效率和精度,并添加上下文感知分割以支持更一致深度推断。
- Result: 在火星模拟数据集上,获得的地形图显示出改进的结构一致性,特别是在斜坡或易遮挡区域。岩石后的大间隙减少,小岩石和边缘等表面细节捕获更准确。另外两个数据集测试显示更精确的视差图和更一致的地形模型。
- Conclusion: 该方法提供了从特征匹配到最终2D导航地图生成的完整地形建模流程,适合未来行星探测任务集成,能够满足火星自主导航的需求。
Powered by Deepseek & arXiv Daily AI Enhanced