Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] A Deep Learning-Based CCTV System for Automatic Smoking Detection in Fire Exit Zones
Sami Sadat,Mohammad Irtiza Hossain,Junaid Ahmed Sifat,Suhail Haque Rafi,Md. Waseq Alauddin Alvi,Md. Khalilur Rhaman
Main category: cs.CV
TL;DR: 基于YOLOv8改进的深度学习相机监控吸烟检测系统,在灾难逃生途径监控中实现高性能实时检测
- Motivation: 因应灾难逃生途径区域的严格安全要求,需要开发能够在复杂监控环境下进行实时吸烟检测的系统
- Method: 使用8,124张图片和2,708个明暗区域样本的数据集,评估YOLOv8、YOLOv11、YOLOv12模型,并在YOLOv8基础上加入专门结构来应对监控挑战
- Result: 提出模型达到可曝率78.90%和mAP@50 83.70%,在Jetson Xavier NX边缘设备上实现每次推理52-97毫秒的处理速度
- Conclusion: 该系统为公共安全监控提供了稳健且适应性强的平台,能够支持自动遵规执行
[2] Separating Knowledge and Perception with Procedural Data
Adrián Rodríguez-Muñoz,Manel Baradad,Phillip Isola,Antonio Torralba
Main category: cs.CV
TL;DR: 通过仅使用程序生成数据训练表征模型,结合视觉内存数据库实现了与实际图像完全隔离的视觉相似性、分类和语义分割任务,性能接近但略差于真实数据训练模型。
- Motivation: 解决使用真实图像数据训练模型时存在的法律、隐私和版权问题,通过程序生成数据实现完全的数据隔离。
- Method: 仅使用程序生成的数据训练表征模型,通过显式的视觉内存数据库(参考图像嵌入的数据库)来处理视觉相似性、分类和语义分割任务,无需进一步训练。
- Result: 在NIGHTS视觉相似性任务上与Places训练模型相差仅1%,在CUB200和Flowers102细粒度分类任务上分别超过8%和15%,在ImageNet-1K分类任务上相差10%。在COCO数据集上的零样本分割任务上,R²指标与真实数据训练模型相差10%以内。
- Conclusion: 程序生成模型实现了完全的数据隔离且保持了强劲的性能,但由于同一对象不同部分的表征相似性低,导致内存搜索错误,还存在一定性能差距。
[3] FusionFM: Fusing Eye-specific Foundational Models for Optimized Ophthalmic Diagnosis
Ke Zou,Jocelyn Hui Lin Goh,Yukun Zhou,Tian Lin,Samantha Min Er Yew,Sahana Srinivasan,Meng Wang,Rui Santos,Gabor M. Somfai,Huazhu Fu,Haoyu Chen,Pearse A. Keane,Ching-Yu Cheng,Yih Chung Tham
Main category: cs.CV
TL;DR: 这是首个系统性评估眼科基础模型的研究,提出FusionFM框架和两种融合策略,发现DINORET和RetiZero在眼部和系统性疾病预测中表现最佳,融合策略在某些病残上有突破。
- Motivation: 眼科基础模型(FMs)在医学影像分析中显示了良好演化能力,但现有研究对哪个模型表现最佳、是否在不同任务上都表现良好以及模型融合的效果缺乏系统性评估。
- Method: 提出FusionFM评估框架,包括两种融合方法来整合不同眼科FMs。涉及眼科疾病检测(青光眼、糖尿病视网膜病变、黄斑变性) 和系统性疾病预测(糖尿病、高血压)。对4个先进FMs(RETFound、VisionFM、RetiZero、DINORET)进行标准化测试,使用AUC和F1指标评估。
- Result: DINORET和RetiZero在眼科和系统性疾病任务中表现最佳,RetiZero在外部数据集上显示更强的演化能力。门控融合策略在预测青光眼、AMD和高血压方面取得了轻微改善。预测系统性疾病(特别是外部组织的高血压)仍面临挑战。
- Conclusion: 研究提供了基于证据的眼科FMs评估,强调了模型融合的优势,并指明了提高临床应用性的策略方向。
[4] UniDCF: A Foundation Model for Comprehensive Dentocraniofacial Hard Tissue Reconstruction
Chunxia Ren,Ning Zhu,Yue Lai,Gui Chen,Ruijie Wang,Yangyi Hu,Suyao Liu,Shuwen Mao,Hong Su,Yu Zhang,Li Xiao
Main category: cs.CV
TL;DR: UniDCF是一个统一的多模态深度学习框架,能够通过点云和多视图图像的融合编码来重建多种牙颌面硬组织,解决了现有单模态方法的局限性,在几何精度、结构完整性和空间准确性方面优于现有方法。
- Motivation: 牙颌面硬组织缺损严重影响患者的生理功能、面部美观和心理健康,当前深度学习模型仅限于单组织场景和特定模态成像输入,导致泛化性差,需要在解剖保真度、计算效率和跨组织适应性之间进行权衡。
- Method: UniDCF通过点云和多视图图像的多模态融合编码,利用每种模态的互补优势,并加入基于分数的去噪模块来优化表面平滑度,构建了包含6,609名患者54,555个标注实例的最大多模态数据集。
- Result: 评估表明UniDCF在几何精度、结构完整性和空间准确性方面优于现有最先进方法。临床模拟显示UniDCF将重建设计时间减少99%,临床医生接受率超过94%。
- Conclusion: UniDCF实现了快速、自动化、高保真度的重建,支持个性化和精确的修复治疗,简化临床工作流程,改善患者治疗效果。
[5] Ovis2.5 Technical Report
Shiyin Lu,Yang Li,Yu Xia,Yuwei Hu,Shanshan Zhao,Yanqing Ma,Zhichao Wei,Yinglun Li,Lunhao Duan,Jianshan Zhao,Yuxuan Han,Haijun Li,Wanying Chen,Junke Tang,Chengkun Hou,Zhixing Du,Tianli Zhou,Wenjie Zhang,Huping Ding,Jiahe Li,Wen Li,Gui Hu,Yiliang Gu,Siran Yang,Jiamang Wang,Hailong Sun,Yibo Wang,Hui Sun,Jinlong Huang,Yuping He,Shengze Shi,Weihong Zhang,Guodong Zheng,Junpeng Jiang,Sensen Gao,Yi-Feng Wu,Sijia Chen,Yuhui Chen,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang
Main category: cs.CV
TL;DR: Ovis2.5是Ovis2的升级版本,专注于原生分辨率视觉感知和强大多模态推理。它采用原生分辨率视觉transformer处理图像,避免固定分辨率分块带来的质量下降,并通过反思机制增强推理能力。该模型在OpenCompass多模态排行榜上取得78.3分,在40B参数以下的开源MLLM中达到最先进水平。
- Motivation: 为了解决传统固定分辨率图像处理导致的细节丢失问题,并提升多模态模型的推理能力,特别是在视觉密集内容(如复杂图表)上的表现。
- Method: 采用原生分辨率视觉transformer处理可变分辨率图像,引入反思机制(包括自检和修订)作为可选"思考模式",通过五阶段课程训练(包括视觉预训练、大规模指令调优、DPO和GRPO对齐增强),使用多模态数据打包和混合并行技术提升效率。
- Result: Ovis2.5-9B在OpenCompass多模态排行榜上平均得分78.3,相比前代Ovis2-8B有显著提升;Ovis2.5-2B得分73.9,在其规模上达到SOTA。在STEM基准测试、grounding任务、视频任务和复杂图表分析方面都取得领先结果。
- Conclusion: Ovis2.5通过原生分辨率处理和增强推理机制,在保持高效训练的同时,显著提升了多模态模型的性能,特别是在视觉密集内容和复杂推理任务上表现出色,为资源受限场景提供了高性能的小型模型选择。
[6] VideoAVE: A Multi-Attribute Video-to-Text Attribute Value Extraction Dataset and Benchmark Models
Ming Cheng,Tong Wu,Jiazhen Hu,Jiaying Gong,Hoda Eldardiry
Main category: cs.CV
TL;DR: VideoAVE是首个公开的视频到文本电商属性值提取数据集,覆盖14个领域172个属性,包含224k训练数据和25k评估数据,并建立了全面的基准测试。
- Motivation: 解决现有AVE数据集仅限于文本到文本或图像到文本设置,缺乏对产品视频支持、多样化属性覆盖和公开可用性的问题。
- Method: 提出基于CLIP的专家混合过滤系统(CLIP-MoE)来移除不匹配的视频-产品对,确保数据质量。建立基准测试评估最先进的视频视觉语言模型。
- Result: 视频到文本AVE仍然是一个具有挑战性的问题,特别是在开放设置中,现有模型在利用有效时序信息方面还有提升空间。
- Conclusion: VideoAVE填补了视频AVE数据集的空白,为开发更先进的视频视觉语言模型提供了重要资源,展示了时序信息利用的重要性。
[7] An MLP Baseline for Handwriting Recognition Using Planar Curvature and Gradient Orientation
Azam Nouri
Main category: cs.CV
TL;DR: 研究表明仅使用二阶几何特征(平面曲率大小、曲率符号和梯度方向)就能驱动MLP分类器实现手写字符识别,在MNIST数字上达到97%准确率,在EMNIST字母上达到89%准确率。
- Motivation: 探索是否可以不依赖卷积神经网络,仅使用二阶几何线索作为手工特征来驱动多层感知机进行手写字符识别,提供一种可解释的替代方案。
- Method: 使用三种手工特征图(平面曲率大小、曲率符号和梯度方向)作为输入,构建曲率-方向多层感知机分类器。
- Result: 在MNIST数字数据集上达到97%准确率,在EMNIST字母数据集上达到89%准确率。
- Conclusion: 曲率基表示对手写字符图像具有强大的判别能力,深度学习优势可以通过可解释的手工工程特征实现。
[8] Labels or Input? Rethinking Augmentation in Multimodal Hate Detection
Sahajpreet Singh,Rongxin Ouyang,Subhayan Mukerjee,Kokil Jaidka
Main category: cs.CV
TL;DR: 这篇论文提出了一种双重探索方法来改善多模态恨恼图片检测:通过提示优化框架和多模态数据增强管道,提高了模型的稳健性和出色的F1分数表现。
- Motivation: 现代网络中多模态恨恼内容涉及文本和图像的细微交互,但现有视觉-语言模型缺乏细粒度监督支持,容易误判隐式恨恼语言。
- Method: 提出了双重方法:1)提示优化框架,系统性变化提示结构、监督粒度和训练模态;2)多模态数据增强管道,通过多段LLM-VLM设置生成2,479个反事实中性图片。
- Result: 结构化提示在小模型中也能提高稳健性,InternVL2在二进制和级别设置中获得最佳F1分数,数据增强管道成功减少偏偏相关性并改善分类器通用性。
- Conclusion: 提示结构和数据组成与模型大小同样重要,目标导向的数据增强可以支持更可信豖和上下文敏感的恨恼检测,为构建健壮和公平的视觉-语言模型开启新方向。
[9] Towards Understanding 3D Vision: the Role of Gaussian Curvature
Sherlon Almeida da Silva,Davi Geiger,Luiz Velho,Moacir Antonelli Ponti
Main category: cs.CV
TL;DR: 这篇论文研究了高斯曲率在3D表面建模中的作用,证明它能提供稀疏紧凑的3D表面描述,作为几何先验知识改善重建效果,并可作为无监督评量标准。
- Motivation: 当前深度学习方法虽然在立体匹配和单目深度重建中取得显著成功,但缺乏可直接分析、跨模态转移或系统修改的明确3D几何模型。需要探索具有数学可解释性的几何特征。
- Method: 通过对Middlebury立体数据集的实验分析,研究高斯曲率在3D表面建模中的特性与应用。高斯曲率作为观察者或坐标系变换下的不变量,具有良好的数学特性。
- Result: 研究发现:(1)高斯曲率能提供稀疏紧凑的3D表面描述;(2)当前最先进的单目和立体方法会隐式考虑高斯曲率,但无法提取明确模块;(3)高斯曲率可作为几何先验知识来改善重建效果;(4)可作为立体方法的无监督评量标准。
- Conclusion: 高斯曲率在3D表面建模中具有重要价值,既能提供数学上可解释的几何表征,又能为深度学习方法提供有效的先验知识和评估标准,为结合传统几何理论与数捩驱动方法的研究提供了新的思路。
[10] From Pixels to Graphs: Deep Graph-Level Anomaly Detection on Dermoscopic Images
Dehn Xu,Tim Katzke,Emmanuel Müller
Main category: cs.CV
TL;DR: 这篇论文系统性评估了多种图像到图表示转换方法在图神经网络图级异常检测任务中的效果,发现颜色描述符最佳,形状和纹理特征能显著提升性能
- Motivation: 虽然图神经网络已应用于图像演算的图表示,但尚无研究系统比较不同图像到图转换方法在图级异常检测任务中的效果
- Method: 系统性评估多种分割方案、边构建策略和节点特征集(包括颜色、纹理、形状描述符),在皮肤镜图像上进行广泛实验,测试无监督、弱监督和全监督模式
- Result: 颜色描述符单独性能最好,加入形状和纹理特征能持续提升检测效果。最佳无监督配置达到AUC-ROC 0.805,弱监督提升至0.872,全监督达到0.914
- Conclusion: 研究为图像到图转换方法提供了系统性指南,证明了适当的图表示能在无监督环境下达到竞争性能,为图神经网络在图像异常检测中的应用提供了重要参考
[11] Recent Advances in Transformer and Large Language Models for UAV Applications
Hamza Kheddar,Yassine Habchi,Mohamed Chahine Ghanem,Mustapha Hemis,Dusit Niyato
Main category: cs.CV
TL;DR: 这篇综述论文系统性地分类和评估了Transformer架构在无人机系统中的应用,包括注意力机制、CNN-Transformer混合模型、强化学习Transformer和大语言模型,提供了统一的分类体系、性能比较和未来研究方向。
- Motivation: 随着Transformer模型的快速发展,其在无人机感知、决策和自主性方面的应用日益广泛,但缺乏系统性的综述来整合这些进展,指导研究者和实践者理解和发展Transformer驱动的无人机技术。
- Method: 采用系统性文献综述方法,对Transformer在无人机领域的应用进行分类和评估,包括构建统一的分类体系、比较分析性能基准、回顾关键数据集和评估指标。
- Result: 提出了Transformer在无人机应用的统一分类体系,识别了精准农业和自主导航等新兴应用领域,通过结构化表格和性能基准进行了比较分析,并指出了现有文献中的空白。
- Conclusion: 该综述为研究者和实践者提供了全面的Transformer无人机技术指南,指出了计算效率和实时部署等关键挑战,并提出了未来的研究方向,有助于推动Transformer驱动的无人机技术发展。
[12] ComplicitSplat: Downstream Models are Vulnerable to Blackbox Attacks by 3D Gaussian Splat Camouflages
Matthew Hull,Haoyang Yang,Pratham Mehta,Mansi Phute,Aeree Cho,Haorang Wang,Matthew Lau,Wenke Lee,Wilian Lunardi,Martin Andreoni,Polo Chau
Main category: cs.CV
TL;DR: 首个利用3D高斯抽射渲染方法的黑盒攻击,通过视角依赖的色彩隐藏恶意内容,影响各类目标检测器的安全性
- Motivation: 3D高斯抽射技术在安全关键任务中快速应用,需要研究可能的恶意攻击方式,以更好地保护自主导航等重要系统
- Method: 设计ComplicitSplat攻击方法,利用标准3DGS渲染技术创建视角特异的谜色效果,在特定视角下显示恶意内容,无需模型架构或权重信息
- Result: 攻击在真实物体和合成场景中都有效,能够成功攻击单阶段、多阶段和Transformer基础的各种目标检测器
- Conclusion: 暴露了3DGS技术在安全敏感应用中的新风险,需要重视这种黑盒攻击对自主导航等关键系统的威胁
[13] Impact of Clinical Image Quality on Efficient Foundation Model Finetuning
Yucheng Tang,Pawel Rajwa,Alexander Ng,Yipei Wang,Wen Yan,Natasha Thorley,Aqua Asif,Clare Allen,Louise Dickinson,Francesco Giganti,Shonit Punwani,Daniel C. Alexander,Veeru Kasivisvanathan,Yipeng Hu
Main category: cs.CV
TL;DR: 该研究评估了医学影像基础模型ProFound在前列腺多参数MRI中的标签效率,发现图像质量分布及其在微调与测试集之间的不匹配显著影响模型性能,强调需要评估和对齐质量分布以实现基础模型的数据和计算效率优势。
- Motivation: 医学影像基础模型在标签效率方面显示出潜力,但图像质量变化如何影响标签高效的微调以及微调模型的泛化能力尚不清楚。
- Method: 使用在前列腺MRI大数据集上预训练的领域特定视觉基础模型ProFound,系统性地变化微调和评估集中的高/低质量图像比例,测量微调模型的泛化性。
- Result: 研究发现:a) 微调集和测试集之间高/低质量图像比例的变化导致下游性能显著差异;b) 微调集中足够高质量图像对保持强性能至关重要;c) 当质量比例一致时,微调所需标注数据远少于从头训练,但标签效率取决于图像质量分布。
- Conclusion: 需要评估和对齐微调与部署之间的质量分布,并为特定下游任务制定微调数据的质量标准,以充分实现基础模型的数据和计算效率优势。
[14] AdaRing: Towards Ultra-Light Vision-Language Adaptation via Cross-Layer Tensor Ring Decomposition
Ying Huang,Yuanbin Man,Wenqi Jia,Zhengzhong Tu,Junzhou Huang,Miao Yin
Main category: cs.CV
TL;DR: AdaRing是一种基于张量环分解的超轻量视觉-语言模型微调框架,通过消除跨层冗余和集成多样化适配器,在减少90%参数的同时达到最佳性能。
- Motivation: 现有适配器方法存在跨层冗余问题和同质化适配器表征能力有限的问题,需要更高效的参数效率适配方案。
- Method: 利用张量环分解把适配器形式化为层共享的张量核心和层特定的切片,通过泛化感知微调指导不同秩驱动适配器协作处理多样化表征需求。
- Result: 实验结果显示AdaRing在减少平均90%训练参数的情况下,仍能达到状态前治的性能水平。
- Conclusion: 该方法通过张量环分解和多样化适配器协作的方式,有效解决了跨层冗余问题,实现了超轻量且高效的视觉-语言模型适配。
[15] EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models
Wenhui Zhu,Xiwen Chen,Zhipeng Wang,Shao Tang,Sayan Ghosh,Xuanzhao Dong,Rajat Koner,Yalin Wang
Main category: cs.CV
TL;DR: 通过空间信息集成的k-center算法选择代表性视觉token,在保持分割准确性的同时实现5倍视频速度提升和3.5倍图片速度提升
- Motivation: 多模态大语言模型在指令视觉分割任务中的推理成本过高,尤其是在视频任务中,需要加速方法来提高效率
- Method: 提出EVTP-IV方法,基于k-center算法并集成空间信息,选择空间上代表性的视觉token子集,使用信息论分析支撑设计
- Result: 在标准IVS测试集上实现了视频任务5倍加速和图片3.5倍加速,仅使用20%token却保持相当的准确性,超过现有最佳剪枝方法
- Conclusion: EVTP-IV通过简单有效的视觉token剪枝方法,在大幅提升推理速度的同时保持了分割性能,为MLLM模型的实际部署提供了可行解决方案
[16] Large Kernel Modulation Network for Efficient Image Super-Resolution
Quanwei Hu,Yinggan Tang,Xuguang Zhang
Main category: cs.CV
TL;DR: 提出基于纯CNN的大核调制网络(LKMN),通过增强部分大核块和交叉门控前馈网络,在保持低延迟的同时实现非局部特征提取,在轻量级超分辨率任务中达到性能与效率的最佳平衡
- Motivation: 解决资源受限场景下图像超分辨率的需求,卷积神经网络延迟低但缺乏非局部特征捕获能力,而Transformer虽然擅长非局部建模但推理速度慢,需要找到平衡性能与延迟的解决方案
- Method: LKMN包含两个核心组件:增强部分大核块(EPLKB)使用通道混洗增强通道间交互,结合通道注意力聚焦关键信息,在部分通道上应用大核条带卷积进行低复杂度的非局部特征提取;交叉门控前馈网络(CGFN)通过可学习缩放因子动态调整输入、局部和非局部特征间的差异,采用交叉门控策略调制融合这些特征
- Result: 在Manga109数据集上4倍超分辨率任务中,LKMN-L相比DAT-light提升0.23dB PSNR,推理速度快约4.8倍,超越了现有最先进的轻量级超分辨率模型
- Conclusion: LKMN成功实现了纯CNN架构在轻量级超分辨率任务中的性能突破,在保持低延迟的同时有效解决了非局部特征捕获问题,为资源受限场景提供了高质量的解决方案
[17] A Sobel-Gradient MLP Baseline for Handwritten Character Recognition
Azam Nouri
Main category: cs.CV
TL;DR: 重新考察Sobel算子,仅使用水平和垂直边缘演算子作为输入,通过密集多层感知机实现手写字符识别,达到了接近卷积神经网络的性能。
- Motivation: 探索一阶导数边缘映射是否足以驱动密集MLP实现手写字符识别,作为卷积神经网络的替代方案。
- Method: 仅使用水平和垂直Sobel导数作为输入,训练密集多层感知机(MLP),在MNIST和EMNIST Letters数据集上进行实验。
- Result: 在MNIST数字上达到98%准确率,在EMNIST字母上达到92%准确率,性能接近CNN但占用更少内存。
- Conclusion: 手写字符图像中的类别区分信息主要被一阶梯度捐捕,边缘感知MLP是HCR任务的一个简洁而高效的选择。
[18] OVG-HQ: Online Video Grounding with Hybrid-modal Queries
Runhao Zeng,Jiaqi Mao,Minghao Lai,Minh Hieu Phan,Yanjie Dong,Wei Wang,Qi Chen,Xiping Hu
Main category: cs.CV
TL;DR: 这篇论文提出了在线视频基准任务OVG-HQ,解决传统文本查询在流媒体场景下的局限性,通过统一框架和新指标实现多模态查询的在线定位。
- Motivation: 传统视频基准任务仅支持文本查询,无法满足流式视频或视觉类查询的需求,需要扩展到混合模态查询场景。
- Method: 提出OVG-HQ-Unify统一框架,包含参数化记忆块(PMB)保留历史知识,以及跨模态荟蓬策略平衡模态学习。构建QVHighlights-Unify数据集,并采用新的在线评估指标oR@n, IoU=m和omAP。
- Result: 实验结果显示OVG-HQ-Unify在准确性和效率方面都超过现有模型,能够有效处理混合模态查询。
- Conclusion: 该研究为在线混合模态视频基准提供了稳健解决方案,解决了限制上下文和模态不平衡等挑战,推动了该领域的发展。
[19] SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress
Lingyun Zhang,Yu Xie,Yanwei Fu,Ping Chen
Main category: cs.CV
TL;DR: SafeCtrl是一个轻量级非侵入式插件,通过检测-抑制范式在文本到图像生成中实现安全控制,无需像素级标注即可精确定位和抑制有害内容,在安全性和保真度方面优于现有方法。
- Motivation: 现有文本到图像模型安全方法(如提示重写或模型微调)存在安全性与保真度的权衡问题,而基于定位的方法依赖显式概念替换可能导致语义不连贯。
- Method: 提出SafeCtrl插件,采用检测-抑制范式:先精确定位不安全内容,然后抑制有害语义而非硬性替换,让生成过程自然地解析为安全的上下文感知替代方案。使用DPO训练策略,利用图像级偏好数据学习抑制行为。
- Result: 大量实验表明,SafeCtrl在安全有效性和保真度保持方面显著优于最先进方法。
- Conclusion: 解耦的基于抑制的控制是构建更负责任生成模型的高效且可扩展的方向。
[20] TimeSenCLIP: A Vision-Language Model for Remote Sensing Using Single-Pixel Time Series
Pallavi Jain,Diego Marcos,Dino Ienco,Roberto Interdonato,Tristan Berchoux
Main category: cs.CV
TL;DR: TimeSenCLIP是一个轻量级框架,通过利用单像素的时空和光谱信息进行土地利用分类,减少了对大空间瓦片和文本监督的依赖。
- Motivation: 当前视觉语言模型在遥感应用中面临两个关键挑战:依赖大空间瓦片增加计算成本,以及依赖文本监督但文本数据往往不易获得。
- Method: 利用Sentinel-2影像的光谱和时间信息,结合地理标记的地面照片进行跨视角学习,最小化基于标题的训练需求,同时保持卫星和地面视角之间的语义对齐。
- Result: 研究表明,单像素输入结合时空和光谱线索足以进行专题制图,为大规模遥感应用提供了可扩展和高效的替代方案。
- Conclusion: TimeSenCLIP通过重新评估空间上下文的作用,证明了单像素时空光谱信息在土地利用分类中的有效性,为遥感应用提供了更轻量级的解决方案。
[21] Assessment of Using Synthetic Data in Brain Tumor Segmentation
Aditi Jahagirdar,Sameer Joshi
Main category: cs.CV
TL;DR: 本研究探讨了使用GAN生成的合成MRI数据增强U-Net脑肿瘤分割模型训练的效果,发现40%真实+60%合成数据的混合数据集能改善肿瘤边界划分,但肿瘤核心区域的分割精度仍有待提升。
- Motivation: 脑肿瘤手动分割面临肿瘤异质性、标注数据稀缺和类别不平衡等挑战,合成数据有潜力通过增加数据集多样性来缓解这些问题。
- Method: 使用BraTS 2020真实数据和medigan库生成的合成数据,构建不同比例的真实-合成混合数据集,训练U-Net分割网络进行实验比较。
- Result: 定量指标(Dice系数、IoU等)在纯真实数据和混合数据训练模型间相当,但定性分析显示40%真实+60%合成数据的混合集能改善全肿瘤边界划分,肿瘤核心和增强肿瘤区域精度仍较低。
- Conclusion: 合成数据作为脑肿瘤分割的数据增强策略是可行的,但需要更大规模实验、保持体积数据一致性并进一步解决类别不平衡问题。
[22] Deep Learning For Point Cloud Denoising: A Survey
Chengwei Zhang,Xueyi Zhang,Mingrui Lao,Tao Jiang,Xinhao Xu,Wenjie Li,Fubo Zhang,Longyong Chen
Main category: cs.CV
TL;DR: 这是一篇关于深度学习基于点云去噪的综述性论文,系统总结了该领域的发展状况、提出了两步去噪框架(离群点移除和表面噪声恢复),并讨论了研究挑战和未来方向。
- Motivation: 实际环境中的点云数据存在多种模态和强度的噪声,点云去噪作为预处理步骤对下游任务至关重要。深度学习方法虽然性能优秀,但缺乏系统的综述性研究来总结该领域的发展。
- Method: 将点云去噪模型化为两个步骤:离群点移除和表面噪声恢复。通过这种分类方法来系统总结现有方法,对比各方法的相似性、差异性和优势,并提出专门为去噪任务设计的分类系统。
- Result: 该综述性研究识别了深度学习基于点云去噪的关键挑战,系统总结了现有方法的主要贡献,并提供了一个专门适用于去噪任务的分类框架。研究还对比了不同方法的优势和特点。
- Conclusion: 这篇论文填补了深度学习基于点云去噪领域缺乏系统综述的空白,通过提出两步去噪框架和专门分类系统,为该领域提供了结构化的研究视角。最后讨论了研究限制和未来发展方向,为点云去噪技术的进一步发展提供了见解。
[23] DynamicPose: Real-time and Robust 6D Object Pose Tracking for Fast-Moving Cameras and Objects
Tingbang Liang,Yixin Zeng,Jiatong Xie,Boyu Zhou
Main category: cs.CV
TL;DR: DynamicPose是一个无需重新训练的6D姿态跟踪框架,通过视觉惯性里程计、深度感知2D跟踪器和VIO引导的卡尔曼滤波器,在快速移动的相机和物体场景中实现鲁棒的实时6D姿态跟踪。
- Motivation: 现有方法主要适用于静态或准静态场景,当相机和物体都快速移动时性能显著下降,需要解决快速运动场景下的6D姿态跟踪鲁棒性问题。
- Method: 提出三个协同组件:1)视觉惯性里程计补偿相机运动引起的ROI偏移;2)深度感知2D跟踪器校正大物体平移引起的ROI偏差;3)VIO引导的卡尔曼滤波器预测物体旋转并生成候选姿态进行分层细化。
- Result: 仿真和真实世界实验证明该方法有效,能够实现快速移动相机和物体的实时鲁棒6D姿态跟踪。
- Conclusion: DynamicPose形成了一个闭环系统,确保准确的姿态初始化和精确的姿态跟踪,在快速运动场景中表现出优越性能。
[24] Transferable Class Statistics and Multi-scale Feature Approximation for 3D Object Detection
Hao Peng,Hong Sang,Yajing Ma,Ping Qiu,Chao Ji
Main category: cs.CV
TL;DR: 通过知识蓄粉近似点云多尺度特征学习,设计可转移特征嵌入机制和中心加权IoU,在节省计算费用的同时提高物体检测性能
- Motivation: 多尺度特征对点云物体检测至关重要,但传统方法需多次邻域搜索和尺度感知层,计算成本高且不利于轻量级模型开发
- Method: 基于知识蓄粉从单一邻域近似多尺度特征,设计类别感知统计量作为可转移特征,并使用中心加权IoU缓解位置偏移对优化的影响
- Result: 在公开数据集上进行了广泛实验,证明了方法的有效性,同时节省了计算成本
- Conclusion: 该方法通过创新的特征近似和转移机制,在保持检测性能的同时实现了轻量级模型设计,为计算资源受限的研究提供了可行方案
[25] UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding
Yueming Xu,Jiahui Zhang,Ze Huang,Yurui Chen,Yanpeng Zhou,Zhenyu Chen,Yu-Jie Yuan,Pengxiang Xia,Guowei Huang,Xinyue Cai,Zhongang Qi,Xingyue Quan,Jianye Hao,Hang Xu,Li Zhang
Main category: cs.CV
TL;DR: UniUGG是首个统一理解和生成3D模态的框架,使用LLM处理文本和3D表示,通过潜在扩散模型生成高质量3D内容,支持空间视觉问答和基于参考图像的3D场景生成。
- Motivation: 尽管统一架构在图像理解和生成方面取得了显著进展,但3D任务的整合仍然具有挑战性且研究不足,需要开发能够同时处理3D理解和生成的统一框架。
- Method: 提出UniUGG框架,使用大型语言模型理解和解码句子与3D表示;核心是空间解码器利用潜在扩散模型生成高质量3D表示;提出几何语义学习策略预训练视觉编码器,联合捕获输入的语义和几何线索。
- Result: 大量实验结果表明,该方法在视觉表示、空间理解和3D生成方面具有优越性能。
- Conclusion: UniUGG成功实现了3D理解和生成的统一框架,通过几何语义学习和潜在扩散模型显著提升了3D任务的性能,为多模态3D处理提供了有效解决方案。
[26] SAMDWICH: Moment-aware Video-text Alignment for Referring Video Object Segmentation
Seunghun Lee,Jiwan Seo,Jeonghoon Kim,Siwon Kim,Haeun Yun,Hyogyeong Jeon,Wonhyeok Choi,Jaehoon Jeong,Zane Durante,Sang Hyun Park,Sunghoon Im
Main category: cs.CV
TL;DR: SAMDWICH是一个基于时刻感知的Referring Video Object Segmentation框架,通过Moment-guided Dual-path Propagation和Object-level Selective Supervision解决语义对齐问题,在MeViS基准测试中达到最先进性能。
- Motivation: 现有的RVOS方法存在语义错位问题,主要原因是训练时的无差别帧采样和对所有可见对象的监督,而不考虑它们与文本查询的实际相关性。
- Method: 提出了SAMDWICH框架,包含:1)新标注的MeViS-M数据集,手动标注了对象被文本表达式引用的时间时刻;2)Moment-guided Dual-path Propagation(MDP)传播策略;3)Object-level Selective Supervision(OSS)对象级过滤策略。
- Result: 在具有挑战性的MeViS基准测试中实现了最先进的性能,特别是在涉及多样化表达式的复杂场景中表现出色。
- Conclusion: 通过时刻感知的监督和选择性训练策略,SAMDWICH显著增强了视频-文本对齐和参考理解能力,为解决RVOS中的语义对齐问题提供了有效解决方案。
[27] PEdger++: Practical Edge Detection via Assembling Cross Information
Yuanbin Fu,Liang Li,Xiaojie Guo
Main category: cs.CV
TL;DR: PEdger++是一个协作学习框架,通过异构架构、多样化训练时刻和多参数采样的跨信息来提升边缘检测性能,在保持高精度的同时显著降低计算成本和模型大小。
- Motivation: 解决深度学习边缘检测方法在资源受限设备上计算成本过高的问题,寻求在保持高精度的同时降低计算复杂度的平衡方案。
- Method: 提出PEdger++协作学习框架,利用异构架构、多样化训练时刻和多参数采样的跨信息来增强学习效果,从集成角度提升性能。
- Result: 在BSDS500、NYUD和Multicue数据集上实验证明,该方法在定量和定性评估中都优于现有方法,并提供多种计算需求的模型版本。
- Conclusion: PEdger++成功实现了边缘检测精度与计算效率的良好平衡,展示了在不同资源约束下的强适应性,为资源受限设备的边缘检测应用提供了有效解决方案。
[28] Exploring Spatial-Temporal Dynamics in Event-based Facial Micro-Expression Analysis
Nicolas Mastropasqua,Ignacio Bugueno-Cordova,Rodrigo Verschae,Daniel Acevedo,Pablo Negri,Maria E. Buemi
Main category: cs.CV
TL;DR: 提出了一个新的多分辨率多模态微表情数据集,使用同步RGB和事件相机在不同光照条件下录制,展示了事件相机在微表情识别和帧重建方面的优势
- Motivation: 微表情分析在人机交互和驾驶员监控等领域有重要应用,但传统RGB相机由于时间分辨率限制和运动模糊问题难以准确捕捉细微快速的面部运动,而事件相机具有微秒级精度和高动态范围的优势
- Method: 构建了同步RGB和事件相机的多模态数据集,使用脉冲神经网络进行动作单元分类,使用条件变分自编码器进行帧重建
- Result: 事件数据在动作单元分类上达到51.23%准确率(RGB为23.12%),帧重建达到SSIM=0.8513和PSNR=26.89dB的高质量结果
- Conclusion: 事件相机数据在微表情识别和重建方面表现出色,为微表情分析提供了新的有效解决方案
[29] MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding
Daoze Zhang,Zhanheng Nie,Jianyu Liu,Chenghan Fu,Wanxian Guan,Yuan Gao,Jun Song,Pengjie Wang,Jian Xu,Bo Zheng
Main category: cs.CV
TL;DR: MOON是首个基于生成式多模态大语言模型的产品表示学习方法,通过引导式专家混合模块、核心语义区域检测和专业化负采样策略,解决了产品图像-文本多对一对齐、背景噪声干扰等挑战,并在多个下游任务上展现出优秀的零样本性能。
- Motivation: 现有判别式双流架构难以建模产品多图像与文本之间的多对一对齐关系,而生成式多模态大语言模型在提升产品表示学习方面具有巨大潜力,但面临缺乏多模态建模模块、产品图像背景噪声干扰以及缺乏标准评估基准等挑战。
- Method: 1) 采用引导式专家混合(MoE)模块进行多模态和特定方面的产品内容建模;2) 有效检测产品图像中的核心语义区域以减少背景噪声干扰;3) 引入专业化负采样策略增加负样本的难度和多样性;4) 发布大规模多模态基准MBE。
- Result: 模型在自建基准和公共数据集上均展现出有竞争力的零样本性能,在跨模态检索、产品分类和属性预测等各种下游任务中表现出强大的泛化能力。案例研究和可视化证明了MOON在产品理解方面的有效性。
- Conclusion: MOON成功解决了产品表示学习中的关键挑战,证明了生成式MLLM在该领域的潜力,为产品理解提供了新的解决方案和评估基准。
[30] InstDrive: Instance-Aware 3D Gaussian Splatting for Driving Scenes
Hongyuan Liu,Haochen Yu,Jianfei Jiang,Qiankun Liu,Jiansheng Chen,Huimin Ma
Main category: cs.CV
TL;DR: InstDrive是一个针对动态驾驶场景的实例感知3D高斯泼溅框架,通过SAM生成的掩码作为伪真值指导2D特征学习,在3D层面引入正则化和体素损失来编码实例身份,实现了动态开放世界驾驶场景的3D实例分割。
- Motivation: 现有的动态驾驶场景重建方法通常将所有背景元素统一为单一表示,限制了实例级理解和灵活的场景编辑能力。现有方法多针对室内场景设计,不适用于室外驾驶场景,且需要预处理实例ID或复杂管道。
- Method: 使用SAM生成的掩码作为伪真值,通过对比损失和伪监督目标指导2D特征学习;在3D层面引入正则化隐式编码实例身份,通过体素损失保证一致性;使用轻量级静态码本桥接连续特征和离散身份。
- Result: 定量和定性实验证明了InstDrive的有效性,据作者所知,这是首个在动态开放世界驾驶场景中实现3D实例分割的框架。
- Conclusion: InstDrive框架成功解决了动态驾驶场景中实例感知重建的挑战,无需数据预处理或复杂优化,为自动驾驶和场景理解提供了有效的解决方案。
[31] WiseLVAM: A Novel Framework For Left Ventricle Automatic Measurements
Durgesh Kumar Singh,Qing Cao,Sarina Thomas,Ahcène Boubekki,Robert Jenssen,Michael Kampffmeyer
Main category: cs.CV
TL;DR: WiseLVAM是一个全自动的左心室线性测量框架,通过结合B型图像的结构感知和AMM模式的运动感知,自动放置虚拟扫描线并进行测量,提高了临床应用的可靠性。
- Motivation: 现有自动化方法直接从B型图像估计标志点进行测量,但即使小的预测点偏移也会导致显著的测量误差,降低了临床可靠性。需要开发更准确的全自动测量方法。
- Method: 提出轮廓感知的扫描线放置方法:使用弱监督B型标志点检测器估计LV轮廓,推断LV长轴和基底水平来放置扫描线。然后构建WiseLVAM框架,在AMM模式下自动进行LV线性测量。
- Result: WiseLVAM框架能够全自动地放置扫描线并执行LV线性测量,结合了B型图像的结构感知和AMM模式的运动感知,提高了测量的鲁棒性和准确性。
- Conclusion: WiseLVAM提供了一个实用的全自动解决方案,具有手动适应性,有望在常规临床应用中提供可靠的心室测量结果。
[32] Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering
Rakesh Thakur,Yusra Tariq
Main category: cs.CV
TL;DR: Q-FSRU是一个结合频域特征提取和量子检索增强的医学视觉问答模型,在VQA-RAD数据集上表现优异
- Motivation: 解决需要同时理解医学图像和文本的复杂临床问题,这是医疗AI领域的主要挑战
- Method: 使用FFT将医学图像和文本特征转换到频域以提取有意义信息,结合量子检索增强技术从外部知识源获取医学事实
- Result: 在VQA-RAD数据集上超越了先前模型,特别是在需要图像-文本推理的复杂案例中表现突出
- Conclusion: 频域和量子信息的结合提高了性能和可解释性,为构建智能、清晰的医疗AI工具提供了有前景的方法
[33] VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models
Haidong Xu,Guangwei Xu,Zhedong Zheng,Xiatian Zhu,Wei Ji,Xiangtai Li,Ruijie Guo,Meishan Zhang,Min zhang,Hao Fei
Main category: cs.CV
TL;DR: VimoRAG是一个基于视频检索增强的运动生成框架,通过从大规模视频数据库中检索相关2D人体运动信号来解决运动大语言模型的领域外/词汇外问题,显著提升了仅基于文本输入的运动生成性能。
- Motivation: 运动大语言模型由于标注数据有限而面临严重的领域外/词汇外问题,需要利用大规模野外视频数据库来增强3D运动生成能力。
- Method: 设计了Gemini Motion Video Retriever机制进行有效的运动中心视频检索,以及Motion-centric Dual-alignment DPO Trainer来缓解检索结果不佳导致的误差传播问题。
- Result: 实验结果表明,VimoRAG显著提升了仅基于文本输入的运动大语言模型的性能。
- Conclusion: VimoRAG框架通过视频检索增强技术有效解决了运动生成中的领域限制问题,为运动大语言模型提供了强大的性能提升。
[34] Automated Model Evaluation for Object Detection via Prediction Consistency and Reliablity
Seungju Yoo,Hyuk Kwon,Joong-Won Hwang,Kibok Lee
Main category: cs.CV
TL;DR: 自动化对检测器评估的新方法PCR,通过分析NMS前后盒子一致性和可靠性来估计性能,无需人工标注
- Motivation: 解决对检测器在实际应用中性能评估依赖成本高明的人工标注问题
- Method: 提出PCR指标,聚合测量NMS前后盒子空间一致性和重叠盒子的信心度可靠性,并构建包含不同严重程度图像腐化的元数据集
- Result: PCR在性能估计准确性方面超过现有自动评估方法,构建的元数据集覆盖更广泛的检测性能范围
- Conclusion: 该研究为对检测器的自动化性能评估提供了有效解决方案,PCR方法在准确性和可扩展性方面表现优异
[35] Generic Event Boundary Detection via Denoising Diffusion
Jaejun Hwang,Dayoung Gong,Manjin Kim,Minsu Cho
Main category: cs.CV
TL;DR: DiffGEBD是一个基于扩散模型的通用事件边界检测方法,通过生成式视角解决事件边界检测问题,能够产生多样化的边界预测结果。
- Motivation: 传统的事件边界检测方法只关注确定性预测,忽略了事件边界的主观性和解决方案的多样性。
- Method: 提出基于扩散的边界检测模型,通过时间自相似性编码相邻帧的变化,然后迭代地将随机噪声解码为合理的事件边界,使用分类器自由引导控制多样性。
- Result: 在Kinetics-GEBD和TAPOS两个标准基准测试上取得了强劲性能,能够生成多样且合理的事件边界。
- Conclusion: 扩散模型为通用事件边界检测提供了有效的生成式解决方案,能够处理事件边界的主观性和多样性问题。
[36] Enhancing 3D point accuracy of laser scanner through multi-stage convolutional neural network for applications in construction
Qinyuan Fan,Clemens Gühmann
Main category: cs.CV
TL;DR: 基于多步卷积神经网络的集成方法,通过对比高低端扫描仪数据学习系统误差模式,实现了粗糖室内环境下光谱扫描仪三维点精度的显著提升,让低端设备达到接近高端设备的测量精度。
- Motivation: 高端和低端光谱扫描仪在粗糖室内环境中都存在位置误差,影响高精度几何模型的创建和修罚工作。需要一种方法来减少三维点精度的不确定性。
- Method: 采用高精度扫描仪作为参考,在同样环境下对比低精度扫描仪的测量结果,量化特定误差模式。通过建立测量差异与空间分布的统计关系,组合传统几何处理和神经网络精化技术,将系统误差量化转化为监督学习问题。
- Result: 在粗糖室内数据集上的实验结果显示,测量精度显著提升:均方误差减少超过70%,峰值信噪比提升约6分贝。低端设备在不改变硬件的情况下能够达到接近高端设备的测量不确定性水平。
- Conclusion: 该多步神经网络集成方法能够有效减少光谱扫描仪在粗糖室内环境中的系统误差,在保持关键几何特征的同时实现精确纳米级利用超分辨率的空间测量,为高精度几何模型创建提供了可靠技术支撑。
[37] Error Propagation Mechanisms and Compensation Strategies for Quantized Diffusion
Songwei Liu,Hong Liu,Fangmin Chen,Xurui Peng,Chenqian Yan,Lean Fu,Xing Mei
Main category: cs.CV
TL;DR: 通过理论分析推导散布模型的量化错差传播方程,并提出时间步感知的累计错差补偿策略,有效减少量化错差积累,提升低精度散布模型的性能。
- Motivation: 散布模型在图像合成方面达到了突破性质量,但迭代去噪过程计算开销较大。虽然训练后量化(PTQ)能加速采样,但迭代特性导致步进式量化错差积累,影响输出保真度。
- Method: 建立理论框架数学形式化散布模型的错差传播,推导每步量化错差传播方程,并建立首个累计错差的闭式解。基于理论基础,提出时间步感知的累计错差补偿方案。
- Result: 在多个图像数据集上的实验表明,补偿策略有效减少错差传播,显著提升了现有PTQ方法的性能,在低精度散布模型上达到了最先进的性能。
- Conclusion: 通过理论分析和时间步感知的错差补偿,成功解决了散布模型量化过程中的错差积累问题,为大规模部署提供了有效的加速解决方案。
[38] VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine
Ziyang Zhang,Yang Yu,Xulei Yang,Si Yong Yeo
Main category: cs.CV
TL;DR: VELVET-Med是一个针对医学3D CT扫描和放射报告的视觉语言预训练框架,通过整合单模态自监督学习、新型TriBERT语言编码器和分层对比学习,在有限数据量(38,875对)下实现了优异的下游任务性能。
- Motivation: 医学领域中体积模态(如CT扫描)与文本配对数据的大规模收集困难且耗时,这限制了视觉语言模型在下游任务中的表现。需要开发针对有限体积数据的有效预训练方法。
- Method: 1) 将单模态自监督学习整合到VLP框架中;2) 提出TriBERT语言编码器学习多级文本语义;3) 设计分层对比学习捕获多级视觉语言对应关系。仅使用38,875个扫描-报告对进行训练。
- Result: 所学习的编码器展现出强大的迁移能力,在3D分割、跨模态检索、视觉问答和报告生成等多种下游任务中达到了最先进的性能。
- Conclusion: VELVET-Med框架通过创新的预训练目标和模型架构设计,成功解决了医学体积数据有限的问题,证明了在少量配对数据下也能学习到丰富的空间和语义关系,具有很好的泛化能力。
[39] Simple o3: Towards Interleaved Vision-Language Reasoning
Ye Wang,Qianglong Chen,Zejun Li,Siyuan Wang,Shijie Guo,Zhirui Zhang,Zhongyu Wei
Main category: cs.CV
TL;DR: Simple o3是一个端到端的多模态推理框架,通过动态视觉工具交互和交错式视觉语言推理链,显著提升多模态大语言模型的长链思维能力
- Motivation: 现有的多模态大语言模型在视觉语言任务上表现优异,但在多模态场景下的长链思维推理能力仍有待探索,需要模拟人类"看图思考"的迭代推理过程
- Method: 提出Simple o3框架,通过监督微调整合动态工具交互(裁剪、缩放、重用),采用"观察-推理-行动"循环生成高质量交错视觉语言推理链,构建TWI-Tools-146K数据集
- Result: 在多个基准测试中表现优异,超越现有方法。重用和放大原始图像显著提升视觉推理和细粒度感知,基于精确视觉定位的图像裁剪使模型能有效关注关键实体
- Conclusion: Simple o3建立了强大且计算成本可控的多模态推理新范式,首次深入分析了不同交错推理策略对模型性能的影响,为多模态推理发展提供了重要见解
[40] DualFit: A Two-Stage Virtual Try-On via Warping and Synthesis
Minh Tran,Johnmark Clements,Annie Prasanna,Tri Nguyen,Ngan Le
Main category: cs.CV
TL;DR: DualFit是一种混合虚拟试穿方法,通过两阶段流程解决现有方法无法保留服装细节的问题,在保持高频细节和视觉真实感之间取得平衡
- Motivation: 现有基于扩散模型的免扭曲虚拟试穿方法虽然提升了感知质量,但无法有效保留服装的精细细节(如logo和印刷文字),这对品牌完整性和客户信任至关重要
- Method: 两阶段混合方法:第一阶段通过学习流场扭曲目标服装与人像对齐;第二阶段通过保真试穿模块合成最终输出,使用保留区域输入和修复掩码来指导过程,只重新生成必要区域
- Result: 广泛的定性结果显示DualFit能够实现视觉无缝的试穿效果,同时忠实地保持高频服装细节
- Conclusion: DualFit在重建准确性和感知真实感之间取得了有效平衡,解决了现有方法在保留服装细节方面的局限性
[41] TriQDef: Disrupting Semantic and Gradient Alignment to Prevent Adversarial Patch Transferability in Quantized Neural Networks
Amira Guesmi,Bassem Ouni,Muhammad Shafique
Main category: cs.CV
TL;DR: TriQDef是一个三层次量化感知防御框架,通过特征不对齐惩罚、梯度感知失谐惩罚和联合量化感知训练协议,有效降低QNN中基于补丁的对抗攻击在不同比特宽度间的可迁移性,攻击成功率降低40%以上。
- Motivation: 量化神经网络(QNNs)在边缘设备中部署广泛,虽然对像素级攻击有一定鲁棒性,但对基于补丁的对抗攻击防御有限,现有方法要么过拟合固定量化设置,要么无法解决跨比特泛化漏洞。
- Method: TriQDef包含三个核心组件:1)特征不对齐惩罚(FDP)通过惩罚中间表示的感知相似性来强制语义不一致;2)梯度感知失谐惩罚(GPDP)通过边缘IoU和HOG余弦度量最小化结构性和方向性一致性来显式错位输入梯度;3)联合量化感知训练协议在多个量化级别上统一这些惩罚。
- Result: 在CIFAR-10和ImageNet上的广泛实验表明,TriQDef在未见过的补丁和量化组合上将攻击成功率(ASR)降低了40%以上,同时保持高清洁准确率。
- Conclusion: 研究强调了破坏语义和感知梯度对齐对于减轻QNN中补丁可迁移性的重要性,TriQDef框架有效解决了跨比特对抗攻击的防御问题。
[42] Infusing fine-grained visual knowledge to Vision-Language Models
Nikolaos-Antonios Ypsilantis,Kaifeng Chen,André Araujo,Ondřej Chum
Main category: cs.CV
TL;DR: 这篇论文提出了一种细调方法,在保持视觉-语言模型广泛多模态知识的同时,优化细粒度预设置视觉检索性能
- Motivation: 规模模型的对比预训练产生了强大的视觉-语言表征,但在细粒度开放集检索中仍有不足,传统细调方法容易导致灾难性遗忘,严重影响模型的通用能力
- Method: 受续续学习文献的启发,系统分析标准正则化技术,提出高效组合策略,同时重视验证集设计和超参数调整
- Result: 在细粒度和粗粒度图像-图像、图像-文本检索测试中一致获得强劲结果,在不使用文本数据或原始文本编码器的情况下保持了视觉-文本对齐能力
- Conclusion: 该方法能够在细粒度预设置域适配和保留预训练多模态知识之间实现最佳平衡,为视觉-语言模型的专业化应用提供了可靠解决方案
[43] KP-INR: A Dual-Branch Implicit Neural Representation Model for Cardiac Cine MRI Reconstruction
Donghang Lyu,Marius Staring,Mariya Doneva,Hildo J. Lamb,Nicola Pezzotti
Main category: cs.CV
TL;DR: KP-INR是一种用于心脏电影MRI重建的双分支隐式神经表示方法,通过在k空间坐标位置嵌入和局部多尺度特征表示之间进行交叉分支交互,实现了更好的重建性能
- Motivation: 现有的INR方法主要关注基于坐标的位置嵌入来学习映射,但忽略了目标点及其邻域上下文的特征表示,这限制了重建性能
- Method: 提出KP-INR双分支INR方法:一个分支处理k空间坐标的位置嵌入,另一个分支学习该坐标处的局部多尺度k空间特征表示,并通过交叉分支交互来近似目标k空间值
- Result: 在CMRxRecon2024数据集上的实验证实了KP-INR相比基线模型的改进性能,在挑战性的笛卡尔k空间数据上实现了强大的重建效果
- Conclusion: KP-INR方法通过结合位置嵌入和局部特征表示,在心脏电影MRI重建领域展现出良好的潜力,为快速采集技术下的高质量图像恢复提供了有效解决方案
[44] Demystifying Foreground-Background Memorization in Diffusion Models
Jimmy Z. Di,Yiwei Lu,Yaoliang Yu,Gautam Kamath,Adam Dziedzic,Franziska Boenisch
Main category: cs.CV
TL;DR: 提出了FB-Mem方法,通过图像分割量化扩散模型中的记忆化现象,发现记忆化比之前认为的更普遍,现有缓解方法效果有限
- Motivation: 当前检测方法只能识别完全复制的记忆化,无法量化局部区域的部分记忆化,也无法捕捉超越特定提示-图像对的记忆化模式
- Method: 提出基于分割的FB-Mem度量方法,对生成图像中的记忆化区域进行分类和量化,并使用聚类方法进行更强缓解
- Result: 发现记忆化现象更普遍:单个提示生成可能与多个训练图像簇相关;现有缓解方法无法消除局部记忆化,特别是在前景区域
- Conclusion: 建立了有效的扩散模型记忆化测量框架,证明了当前缓解方法的不足,提出了基于聚类的更强缓解方法
[45] RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis
Wenqing Wang,Yun Fu
Main category: cs.CV
TL;DR: RealTalk是一个用于合成情感化说话头像的新框架,通过VAE生成3D面部关键点,结合情感标签嵌入和NeRF技术,在情感准确性、可控性和身份保持方面优于现有方法。
- Motivation: 当前方法在唇部同步和图像质量方面表现优秀,但在生成准确可控的情感表情同时保持主体身份方面存在不足,需要解决情感化说话头像合成的挑战。
- Method: 使用变分自编码器(VAE)从驱动音频生成3D面部关键点,通过ResNet-based关键点变形模型结合情感标签嵌入生成情感化关键点,最后利用三平面注意力NeRF合成高真实感的情感说话头像。
- Result: 大量实验表明,RealTalk在情感准确性、可控性和身份保持方面均优于现有方法。
- Conclusion: RealTalk框架推动了社交智能AI系统的发展,为情感化说话头像合成提供了有效的解决方案。
[46] Scalable RF Simulation in Generative 4D Worlds
Zhiwei Zheng,Dongyin Hu,Mingmin Zhao
Main category: cs.CV
TL;DR: WaveVerse是一个基于提示的射频感知仿真框架,能够从生成的室内场景和人体运动中模拟真实的RF信号,解决了RF数据收集的挑战。
- Motivation: RF传感作为视觉方法的隐私保护替代方案在室内感知中很重要,但在动态多样的室内环境中收集高质量RF数据仍然是一个主要挑战。
- Method: 引入语言引导的4D世界生成器,包括状态感知因果变换器用于基于空间约束和文本的人体运动生成,以及相位相干射线追踪模拟器用于准确模拟RF信号。
- Result: 实验证明了在条件人体运动生成方面的有效性,展示了相位相干性在波束成形和呼吸监测中的应用。在两个案例研究中,WaveVerse首次实现了RF成像数据生成,并在数据有限和数据充足场景中都获得了性能提升。
- Conclusion: WaveVerse提供了一个可扩展的框架,能够生成高质量的RF传感数据,为RF感知研究提供了重要的数据生成解决方案。
[47] Splat Feature Solver
Butian Xiong,Rong Liu,Kenneth Xu,Meida Chen,Andrew Feng
Main category: cs.CV
TL;DR: 通过统一的稀疏线性逆问题形式化,提出了一种高效的特征提升方法,能够在分钟内为3D场景生成高质量的提升特征,在开放词汇分割任务上达到最先进水平
- Motivation: 解决多视图图像中存在的不一致性和噪声问题,优化地将丰富的图像特征描述符(如DINO、CLIP)附着到基于抹除的3D表示上
- Method: 将特征提升问题形式化为稀疏线性逆问题,可以高效地以闭式求解。提出两种补充性正则化策略:Tikhonov指导(通过软对角优势确保数值稳定性)和提升后聚合(通过特征聚类筛选噪声输入)
- Result: 在开放词汇3D分割测试集上达到了最先进的性能,超过了基于训练的、基于分组的和基于经验的基线方法,且只需分钟就能生成提升后的特征
- Conclusion: 该方法为3D场景理解提供了一种高效、可推广的特征提升方案,能够解决多视图不一致性问题,为后续的开放词汇应用奠定了基础
[48] C2PSA-Enhanced YOLOv11 Architecture: A Novel Approach for Small Target Detection in Cotton Disease Diagnosis
Kaiyuan Wang,Jixing Liu,Xiaobo Cai
Main category: cs.CV
TL;DR: 基于YOLOv11的深度学习检测橡病毒橡病检测优化,通过C2PSA模块、动态类别权重和改进数据增帽技术,在实时性、准确性和场景适应性方面获得显著提升
- Motivation: 解决检测橡病毒橡病时遇到的三大挑战:早期病容检测精度低(小于5mm²病容漏检率35%),田间环境下性能漏浪(准确率下降25%),多病容场景错误率高(34.7%)
- Method: 提出C2PSA模块提升小目标特征提取能力,采用动态类别权重处理样本不平衡问题,通过Mosaic-MixUp缩放技术改进数据增帽
- Result: 在4078张图片数据集上,mAP50达到0.820(提升8.0%),mAP50-95达到0.705(提升10.5%),推理速度为158FPS,实现了移动端部署和实时监测
- Conclusion: 该优化方案有效提升了检测精度和速度,能够应用于农业生产中的实时病容监测和精准治疗,为智慧农业提供了可靠的技术支撑
[49] In vivo 3D ultrasound computed tomography of musculoskeletal tissues with generative neural physics
Zhijun Zeng,Youjia Zheng,Chang Su,Qianhang Wu,Hao Hu,Zeyuan Dong,Shan Gao,Yang Lv,Rui Tang,Ligang Cui,Zhiyong Hou,Weijun Lin,Zuoqiang Shi,Yubing Li,He Sun
Main category: cs.CV
TL;DR: 一种结合生成式网络与物理模拟的新题测试技术,能够在10分钟内重建3D超声计算断展图像,充分利用强散射特性来提高肌骨系统成像的质量和效率。
- Motivation: 传统的光线基于重建方法在肌骨系统成像中忽略了强散射效应,导致USCT在该领域的应用受限。需要一种能够处理强散射环境下计算瓶颈的高效方法。
- Method: 提出了一种生成式神经物理框架,将生成式网络与物理信息神经模拟相结合。从仅数十张交叉模态图像中学习超声波传播的简洁代理模型,将波动模拟的准确性与深度学习的效率性和稳定性相融合。
- Result: 在合成数据和in vivo数据(乳腺、手臂、腿部)上,方法能够在10分钟内重建3D组织参数地图,对肌肉和骨骼的生物力学性质保持敏感性,分辨率可与MRI相比。生成了超过反射模式图像的声学特性空间地图。
- Conclusion: 该方法克服了强散射环境下的计算瓶颈,推动了USCT技术向肌骨系统疾病常规临床评估的发展。通过合并深度学习与物理模拟的优势,实现了高保真度的定量成像能力。
[50] WXSOD: A Benchmark for Robust Salient Object Detection in Adverse Weather Conditions
Quan Chen,Xiong Yang,Rongfeng Lu,Qianyu Zhang,Yu Liu,Xiaofei Zhou,Bolun Zheng
Main category: cs.CV
TL;DR: 本文提出了一个新的天气扩展显著性目标检测数据集WXSOD,包含14,945张带有天气噪声的RGB图像,并设计了Weather-aware Feature Aggregation Network (WFANet)基准模型,在复杂天气条件下显著优于现有17种SOD方法。
- Motivation: 现有显著性目标检测方法在自然场景中表现良好,但缺乏对天气噪声影响的研究,主要原因是缺少带有像素级标注的天气噪声数据集。
- Method: 提出两分支全监督架构WFANet:天气预测分支挖掘天气相关深度特征,显著性检测分支将主干网络提取的语义特征与天气特征融合进行显著性检测。
- Result: 在WXSOD数据集上,WFANet相比17种现有SOD方法取得了优越性能,验证了方法的有效性。
- Conclusion: WXSOD数据集填补了天气噪声显著性检测研究的空白,WFANet为复杂天气条件下的显著性检测提供了有效的基准解决方案。
[51] Superpixel-informed Continuous Low-Rank Tensor Representation for Multi-Dimensional Data Recovery
Zhizhou Wang,Ruijing Zheng,Zhenyu Wu,Jianli Wang
Main category: cs.CV
TL;DR: 这篇论文提出了一种超像素信息化的连续低秩张量表示框架(SCTR),解决了传统低秩张量方法在实际应用中的两大限制:整体低秩假设不合理和只能处理网格数据的问题。
- Motivation: 传统低秩张量表示方法假设整体数据都是低秩的,但实际场景中空间变化很大,这个假设常常不成立。同时这些方法只能处理离散网格数据,灵活性和适用性受限。
- Method: 提出SCTR框架:1)使用超像素作为基本建模单元,因为语义一致的区域比整体数据更具有低秩特性;2)提出非对称低秩张量分解(ALTF),通过共享神经网络与专门头部来参数化超像素特征矩阵,分离全局模式学习和局部适应。
- Result: 在多语范数据集上的实验显示,SCTR在多象素图像、视频和色彩图像处理中,比现有低秩张量方法提升3-5 dB的PSNR收益。
- Conclusion: SCTR框架能够连续灵活地建模多维数据,突破了传统网格数据的限制,通过超像素单元和非对称分解结构,同时捐捕了跨超像素的公共特征和超像素内部的变化,实现了高表达力与简洁性的平衡。
[52] Region-Level Context-Aware Multimodal Understanding
Hongliang Wei,Xianqi Zhang,Xingtao Wang,Xiaopeng Fan,Debin Zhao
Main category: cs.CV
TL;DR: 这篇论文提出了区域级上下文感知多模态理解(RCMU)能力,通过新的指令微调方法RCVIT和数据集,使MLLM模型能够结合图像内容和对象的文本信息进行更深入的多模态理解。
- Motivation: 现有多模态大语言模型主要集中于通用视觉理解,缺乏将对象相关的文本上下文与视觉内容相结合的能力,限制了模型的上下文感知多模态理解能力。
- Method: 提出区域级上下文感知视觉指令微调(RCVIT)方法,将对象信息整合到模型输入中,利用边界框坐标将对象的视觉内容与文本信息关联。构建了RCMU数据集和RC&P-Bench评测标准。
- Result: 基于Qwen2-VL模型训练的RC-Qwen2-VL模型在多个RCMU任务上表现出艰涉,同时在多模态RAG和个性化对话中成功应用。
- Conclusion: 该研究有效提升了MLLM模型的区域级上下文感知能力,为更深入的多模态理解应用提供了新的解决方案。
[53] SNNSIR: A Simple Spiking Neural Network for Stereo Image Restoration
Ronghua Xu,Jin Xie,Jing Nie,Jiale Cao,Yanwei Pang
Main category: cs.CV
TL;DR: SNNSIR是一个完全脉冲驱动的脉冲神经网络,用于立体图像恢复,通过脉冲残差基本块、立体卷积调制和立体交叉注意力模块,在保持竞争性恢复性能的同时显著降低计算开销。
- Motivation: 现有的混合SNN-ANN模型仍然依赖浮点矩阵除法或指数运算,这与SNN的二进制和事件驱动特性不兼容。需要开发完全脉冲驱动的架构来实现低功耗和硬件友好的计算。
- Method: 提出SNNSIR模型,包含:1)轻量级脉冲残差基本块(SRBB)通过脉冲兼容的残差学习增强信息流;2)脉冲立体卷积调制(SSCM)模块通过元素级乘法引入简化非线性;3)脉冲立体交叉注意力(SSCA)模块在脉冲兼容框架内实现跨视图的双向特征交互。
- Result: 在多种立体图像恢复任务(雨纹去除、雨滴去除、低光增强和超分辨率)上的广泛实验表明,该模型实现了竞争性的恢复性能,同时显著降低了计算开销。
- Conclusion: 该研究展示了实时、低功耗立体视觉应用的潜力,为完全脉冲驱动的立体图像恢复提供了有效的解决方案。
[54] TSLA: A Task-Specific Learning Adaptation for Semantic Segmentation on Autonomous Vehicles Platform
Jun Liu,Zhenglun Kong,Pu Zhao,Weihao Zeng,Hao Tang,Xuan Shen,Changdi Yang,Wenbin Zhang,Geng Yuan,Wei Niu,Xue Lin,Yanzhi Wang
Main category: cs.CV
TL;DR: 提出了一种针对自动驾驶硬件平台的动态可适应语义分割网络,通过三层控制机制和贝叶斯优化实现计算资源与精度的平衡
- Motivation: 自动驾驶平台面临多样化的驾驶场景和硬件资源限制,需要在嵌入式设备上部署时考虑计算成本,根据硬件计算能力和特定场景定制语义分割网络
- Method: 采用三层控制机制(宽度乘数、分类器深度、分类器核)实现细粒度模型组件控制,结合贝叶斯优化和代理模型在有限计算预算下高效探索超参数空间
- Result: 实现了任务特定的学习适应(TSLA),能够根据不同的自动驾驶任务生成定制化配置,最大化计算能力和模型精度
- Conclusion: 该方法能够有效优化硬件利用率,为自动驾驶平台提供场景特定和任务特定的网络定制解决方案
[55] CLAIR: CLIP-Aided Weakly Supervised Zero-Shot Cross-Domain Image Retrieval
Chor Boon Tan,Conghui Hu,Gim Hee Lee
Main category: cs.CV
TL;DR: 本文提出CLAIR方法,通过CLIP模型生成噪声伪标签,设计对比损失和跨域映射函数来改进弱监督零样本跨域图像检索性能
- Motivation: 大型基础模型能轻松为大量未标注数据生成伪标签,使得无监督零样本跨域图像检索变得不那么相关,因此转向研究使用CLIP等大型基础模型生成噪声伪标签的弱监督方法
- Method: 1) 使用CLIP文本和图像特征的相似度计算置信度来精炼噪声伪标签 2) 设计实例间和簇间对比损失编码到类感知潜在空间 3) 设计域间对比损失缓解域差异 4) 学习闭式跨域映射函数,仅使用CLIP文本嵌入将图像特征从一个域投影到另一个域 5) 引入可学习提示增强零样本泛化能力
- Result: 在TUBerlin、Sketchy、Quickdraw和DomainNet零样本数据集上的大量实验表明,CLAIR相比现有最先进方法始终表现出优越性能
- Conclusion: CLAIR方法有效解决了弱监督零样本跨域图像检索问题,通过精炼噪声伪标签、设计多种对比损失和学习跨域映射,显著提升了检索性能
[56] Improving Densification in 3D Gaussian Splatting for High-Fidelity Rendering
Xiaobin Deng,Changyu Diao,Min Li,Ruohan Yu,Duanqing Xu
Main category: cs.CV
TL;DR: 通过边缘感知分数、长轴分割策略和抗过拟合技术对3D高斯抽射的密化管道进行全面改进,在不增加计算开销的情况下提升渲染质量
- Motivation: 3D高斯抽射的密化策略导致重建质量不佳,需要从密化时机、方式和抗过拟合三个角度进行系统性改进
- Method: 提出边缘感知分数选择分割候选高斯元;长轴分割策略减少几何失真;重复识别剪枝、多步更新和增长控制技术减少过拟合
- Result: 在不增加训练或推理开销的情况下,使用更少的高斯元实现了最高水平的渲染保真度
- Conclusion: 该方法通过优化密化管道显著提升了3DGS的重建质量,为实时渲染提供了更高的效果
[57] Neural Cellular Automata for Weakly Supervised Segmentation of White Blood Cells
Michael Deutges,Chen Yang,Raheleh Salehi,Nassir Navab,Carsten Marr,Ario Sadafi
Main category: cs.CV
TL;DR: 基于神经细胞自动机(NCA)的弱监督分割方法,无需分割标签即可从分类特征图中提取白血球分割掩码,在三个数据集上显著超过现有方法。
- Motivation: 医学诊断中白血球检测和分割需要大量标签数据,而标注过程耗时耗费,需要弱监督方法来降低标注成本。
- Method: 提出NCA-WSS方法,利用神经细胞自动机在分类过程中生成的特征图,无需重新训练即可提取分割掩码。
- Result: 在三个白血球显微镜数据集上评估,NCA-WSS方法显著超过现有的弱监督分割方法。
- Conclusion: 该方法呈现了NCA在弱监督框架下同时进行分类和分割的潜力,为医学图像分析提供了可扩展和高效的解决方案。
[58] Attention Pooling Enhances NCA-based Classification of Microscopy Images
Chen Yang,Michael Deutges,Jingsong Liu,Han Li,Nassir Navab,Carsten Marr,Ario Sadafi
Main category: cs.CV
TL;DR: 通过将注意力池化机制与神经细胞自动机(NCA)结合,在显微镜图像分类任务中显著提升了性能,同时保持了参数效率和可解释性优势
- Motivation: 神经细胞自动机(NCA)在图像分类中具有鲁棒性和可解释性,但在性能上与大型复杂架构存在差距,需要提升特征提取能力
- Method: 将注意力池化机制集成到NCA中,通过关注信息最丰富的区域来增强特征提取,提高分类准确性
- Result: 在8个不同的显微镜图像数据集上评估,显著优于现有NCA方法,与传统轻量级CNN和ViT架构相比性能更好且参数数量显著更低
- Conclusion: 基于NCA的模型具有作为可解释图像分类替代方案的潜力,注意力池化的集成有效弥补了性能差距
[59] DoppDrive: Doppler-Driven Temporal Aggregation for Improved Radar Object Detection
Yuval Haitman,Oded Bialer
Main category: cs.CV
TL;DR: DoppDrive是一种基于多普勒效应的雷达点云时域聚合方法,通过径向位移补偿和自适应聚合时长来增强点云密度并减少散射,显著提升雷达目标检测性能
- Motivation: 雷达在自动驾驶中具有长距离检测优势,但远距离点云稀疏性影响检测精度。现有时域聚合方法会因动态物体产生散射,降低检测性能
- Method: 提出Doppler-Driven时域聚合方法:1)根据动态多普勒分量对历史帧点云进行径向位移补偿消除径向散射;2)基于多普勒和角度为每个点分配独特聚合时长来减少切向散射
- Result: DoppDrive作为检测前预处理步骤,与任何检测器兼容,在多个检测器和数据集上显著提升了目标检测性能
- Conclusion: 该方法有效解决了雷达点云稀疏性和时域聚合散射问题,为雷达目标检测提供了有效的点云密度增强解决方案
[60] Geometry-Aware Video Inpainting for Joint Headset Occlusion Removal and Face Reconstruction in Social XR
Fatemeh Ghorbani Lohesara,Karen Eguiazarian,Sebastian Knorr
Main category: cs.CV
TL;DR: 一种基于深度学习的框架,能够从单视角RGB视频中同时去除HMD遮挡并重建完整的3D面部几何,通过GAN视频修复和3DMM参数回归实现高质量的面部恢复。
- Motivation: HMD在XR应用中遮挡用户面部上半部分,影响视频记录和社交XR应用中面部表情传达,需要解决遮挡移除和面部重建问题。
- Method: 集成GAN基于视频修复网络(通过密集面部关键点和参照帧指导)和SynergyNet基于的3DMM参数回归模块,统一优化密集关键点来提升修复质量和几何精度。
- Result: 框架能够成功去除HMD遮挡,保持面部身份特征和真实感,生成超高真实度3D面部几何输出,在不同关键点密度下都保持稳定性能。
- Conclusion: 该方法为社交XR应用提供了高效的HMD遮挡移除和3D面部重建解决方案,具有良好的应用前景。
[61] Semantic Discrepancy-aware Detector for Image Forgery Identification
Ziye Wang,Minghang Yu,Chunyan Xu,Zhen Cui
Main category: cs.CV
TL;DR: 提出SDD检测器,通过重建学习在细粒度视觉层面对齐伪造痕迹和语义概念空间,利用预训练视觉语言模型的概念知识来提升伪造图像检测性能
- Motivation: 随着图像生成技术的快速发展,需要强大的伪造检测来确保数字媒体的可信度。现有方法中伪造空间和语义概念空间的不对齐阻碍了检测性能
- Method: 提出语义差异感知检测器(SDD):1)语义标记采样模块缓解与伪造痕迹和语义概念无关的特征造成的空间偏移;2)基于视觉重建范式的概念级伪造差异学习模块;3)低级伪造特征增强器整合学习到的概念级差异
- Result: 在两个标准图像伪造数据集上的实验证明SDD的有效性,相比现有方法取得了更优越的结果
- Conclusion: SDD通过重建学习有效对齐伪造和语义概念空间,显著提升了伪造图像检测性能,为解决空间不对齐问题提供了有效方案
[62] AquaFeat: A Features-Based Image Enhancement Model for Underwater Object Detection
Emanuel C. Silva,Tatiana T. Schein,Stephanie L. Brião,Guilherme L. M. Costa,Felipe G. Oliveira,Gustavo P. Almeida,Eduardo L. Silva,Sam S. Devincenzi,Karina S. Machado,Paulo L. J. Drews-Jr
Main category: cs.CV
TL;DR: AquaFeat是一个即插即用的水下目标检测特征增强模块,通过端到端多尺度特征增强网络,在YOLOv8m上实现了最先进的精度和召回率,同时保持46.5 FPS的实时处理速度。
- Motivation: 水下环境的严重图像退化会影响目标检测模型的性能,传统图像增强方法通常没有针对下游任务进行优化。
- Method: 提出AquaFeat模块,集成多尺度特征增强网络,使用检测器的损失函数进行端到端训练,确保增强过程明确指导以优化与检测任务最相关的特征。
- Result: 在挑战性水下数据集上,AquaFeat达到最先进的Precision(0.877)和Recall(0.624),以及竞争力的mAP分数(mAP@0.5为0.677,mAP@[0.5:0.95]为0.421),处理速度为46.5 FPS。
- Conclusion: AquaFeat提供了有效且计算高效的解决方案,适用于海洋生态系统监测和基础设施检查等实际应用。
[63] MBMamba: When Memory Buffer Meets Mamba for Structure-Aware Image Deblurring
Hu Gao,Depeng Dang
Main category: cs.CV
TL;DR: 提出MBMamba网络,通过内存缓冲机制和Ising受激正则化损失,解决Mamba在图像去模糊中的局部像素遗忘和频道冗余问题,在保持原始架构的同时提升性能。
- Motivation: Mamba架构在图像去模糊中存在局部像素遗忘和频道冗余问题,而现有改进方法通常会增加计算复杂度影响实时性能。
- Method: 设计内存缓冲机制保留历史信息以模型相邻特征间关联,以及Ising受激正则化损失模拟物理系统能量最小化来维护图像结构一致性。
- Result: 在广泛使用的测试集上超越了现有最先进方法。
- Conclusion: MBMamba在不改变Mamba原始架构的前提下,通过创新的机制有效解决了空间信息聚合问题,实现了更好的图像去模糊效果。
[64] EgoLoc: A Generalizable Solution for Temporal Interaction Localization in Egocentric Videos
Junyi Ma,Erhang Zhang,Yin-Dong Zheng,Yuchen Xie,Yixuan Zhou,Hesheng Wang
Main category: cs.CV
TL;DR: 这篇论文提出了一种新的零样本方法EgoLoc,用于在主视角视频中准确定位手部与物体的接触和分离时刻,解决了现有方法在这个细粒度问题上的限制。
- Motivation: 现有研究主要关注互动动作的行为范式(如何互动),而对于手部与目标物体接触/分离的关键时刻(何时互动)这个更具挑战性和细粒度的问题研究不足,这对于混合现实中的沉浸式互动体验和机器人运动规划至关重要。
- Method: 提出EgoLoc方法,通过手部动力学引导的采样生成高质量的视觉提示,利用视觉-语言模型识别接触/分离属性、定位具体时间戳并提供闭环反馈进行精炼。该方法无需物体遮罩或动词-名词分类法,实现了零样本通用化。
- Result: 在公开数据集和新的测试标准上进行了全面实验,证明EgoLoc能够在主视角视频中实现可靠的时间互动定位,并且在主视角视觉和机器人操作任务中有效促进多个下游应用。
- Conclusion: EgoLoc作为一种新的零样本方法,成功解决了主视角视频中手部与物体接触/分离时刻定位的挑战,为混合现实和机器人领域提供了一种无需标签数据的通用解决方案。
[65] Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data
Ahmet H. Güzel,Ilija Bogunovic,Jack Parker-Holder
Main category: cs.CV
TL;DR: 通过生成合成训练数据来改善视觉离线强化学习的突破性能力,包括数据增帆和潜空间激光模型生成
- Motivation: 视觉离线RL策略因训练数据不充足而宽广性差,视觉数据的噪声、干扰和偏相关系增加了过拟合风险
- Method: 两步过程:首先对离线数据进行增帆提升零检广应性,然后用激光模型在潜空间生成额外合成数据
- Result: 在连续动作空间(Visual D4RL)和离散动作空间(Procgen)都显著提升了广应性,不需改动现有离线RL算法,减小了测试时的广应性差距
- Conclusion: 该方法能够通过生成合成数据培养更具广应性的智能体,为未来研究提供了有前景的方向
[66] IPGPhormer: Interpretable Pathology Graph-Transformer for Survival Analysis
Guo Tang,Songhan Jiang,Jinpeng Lu,Linghan Cai,Yongbing Zhang
Main category: cs.CV
TL;DR: IPGPhormer是一个可解释的病理图-Transformer框架,用于癌症生存分析,在预测准确性和可解释性方面优于现有方法。
- Motivation: 现有方法在平衡长距离空间关系和局部上下文依赖方面存在困难,且缺乏内在可解释性,限制了临床实用性。
- Method: 提出Interpretable Pathology Graph-Transformer (IPGPhormer)框架,捕捉肿瘤微环境特征并建模其空间依赖关系,无需后处理手动标注即可提供组织和细胞级别的可解释性。
- Result: 在四个公共基准数据集上的综合评估表明,IPGPhormer在预测准确性和可解释性方面均优于最先进方法。
- Conclusion: IPGPhormer为癌症预后评估提供了一个有前景的工具,为病理学中更可靠和可解释的决策支持系统铺平了道路。
[67] ViT-EnsembleAttack: Augmenting Ensemble Models for Stronger Adversarial Transferability in Vision Transformers
Hanwen Cao,Haobo Lu,Xiaosen Wang,Kun He
Main category: cs.CV
TL;DR: 基于视觉Transformer的对策攻击方法,通过对假次模型进行对策增帽和自动重新加权,显著提升了对策转移性攻击的效果
- Motivation: 现有的集成攻击研究主要集中在精炼集成权重或优化集成路径,而忽视了通过探索集成模型来增强对策攻击的转移性
- Method: 提出ViT-EnsembleAttack方法,对每个假次ViT模型采用三种策略进行对策增帽:多头投弹、注意力分数缩放和MLP特征混合,并通过贝叶斯优化相关参数,同时引入自动重新加权和步长扩大模块
- Result: 大量实验证明ViT-EnsembleAttack显著提升了基于ViT的集成攻击的对策转移性,效果显著超过现有方法
- Conclusion: 通过对假次模型进行对策增帽可以提升集成模型的总体汇聚效果和减少对策过拟合风险,为ViT模型的对策攻击提供了新的解决方案
[68] DeCoT: Decomposing Complex Instructions for Enhanced Text-to-Image Generation with Large Language Models
Xiaochuan Lin,Xiangyong Chen,Xuan Li,Yichen Su
Main category: cs.CV
TL;DR: DeCoT是一个通过大语言模型分解复杂文本指令来提升文本到图像生成模型性能的框架,在LongBench-T2I基准测试中显著改善了图像生成质量。
- Motivation: 当前文本到图像模型在处理复杂长文本指令时表现不佳,经常无法准确渲染细节、空间关系和特定约束,需要更好的方法来理解和执行复杂指令。
- Method: DeCoT框架包含两个核心阶段:1)复杂指令分解和语义增强,使用LLM将原始指令分解为结构化语义单元;2)多阶段提示集成和自适应生成,将这些单元转换为适合T2I模型的层次化或优化提示。
- Result: 在LongBench-T2I数据集上的实验表明,DeCoT显著提升了主流T2I模型的性能,特别是在"文本"和"构图"等挑战性维度。与Infinity-8B集成时平均得分从3.44提升到3.52,人类评估也证实了感知质量和指令保真度的提升。
- Conclusion: DeCoT有效弥合了高级用户意图与T2I模型需求之间的差距,实现了更忠实和准确的图像生成,消融研究确认了各组件的重要性和复杂LLM提示的关键作用。
[69] Federated Cross-Modal Style-Aware Prompt Generation
Suraj Prasad,Navyansh Mahla,Sunny Gupta,Amit Sethi
Main category: cs.CV
TL;DR: 基于CLIP模型的联邦学习框架FedCSAP,通过多层次视觉特征和客户端特定风格指标,生成更健壮的提示词,在保持数据隐私的同时提升分类准确性和泛化能力。
- Motivation: 传统联邦学习方法仅依赖最后一层特征,忽略了分布式客户端数据中丰富的多尺度视觉线索和领域特定风格变化,导致泛化能力不足。
- Method: 设计FedCSAP框架,利用CLIP视觉编码器的低、中、高级特征,结合来自批次级统计的客户端特定风格指标,通过融合细致的视觉细节和文本上下文来生成独特且非冗余的上下文感知提示词。
- Result: 在多个图像分类数据集上的综合实验证明,FedCSAP在准确性和总体泛化能力方面都超过现有的联邦提示学习方法。
- Conclusion: FedCSAP通过整合多层次视觉特征和领域特定风格信息,在保护数据隐私的联邦学习环境中实现了更优异的提示生成,有效处理非IID类分布和多样化领域风格。
[70] MPCAR: Multi-Perspective Contextual Augmentation for Enhanced Visual Reasoning in Large Vision-Language Models
Amirul Rahman,Qiang Xu,Xueying Huang
Main category: cs.CV
TL;DR: MPCAR是一种无需微调的推理时策略,通过多角度生成描述来增强视觉语言模型的上下文理解能力,在复杂视觉推理任务中显著提升性能
- Motivation: 现有大型视觉语言模型在需要深度上下文理解、多角度分析或细节识别的复杂视觉推理任务中表现有限,主要受限于单次图像编码和提示的局限性
- Method: 三阶段方法:1)从不同角度生成N个多样化的描述或初步推理路径;2)智能整合这些描述与原始问题构建上下文增强提示;3)使用增强提示进行深度推理和最终答案生成
- Result: 在GQA、VQA-CP v2和ScienceQA等挑战性VQA数据集上 consistently超越基线方法,特别是在需要强上下文理解的任务中获得显著准确率提升,人类评估也确认了答案连贯性和完整性的改善
- Conclusion: 利用LVLMs固有的生成能力来丰富输入上下文,可以有效释放其在复杂多模态任务中的潜在推理能力,无需参数微调即可实现性能提升
[71] LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving
Nan Song,Bozhou Zhang,Xiatian Zhu,Jiankang Deng,Li Zhang
Main category: cs.CV
TL;DR: LMAD是一个专为自动驾驶设计的视觉语言框架,通过引入初步场景交互和专家适配器,显著提升了现有VLM在驾驶推理任务中的性能
- Motivation: 现有方法主要在车载多视角图像和场景推理文本上微调VLM,但缺乏自动驾驶所需的整体场景识别和强大空间感知能力,特别是在复杂场景中
- Method: 提出LMAD框架,模拟现代端到端驾驶范式,包含全面场景理解和任务专用结构。引入初步场景交互和专用专家适配器,在相同驾驶任务结构中更好地对齐VLM与自动驾驶场景
- Result: 在DriveLM和nuScenes-QA数据集上的大量实验表明,LMAD显著提升了现有VLM在驾驶推理任务中的性能
- Conclusion: LMAD为可解释自动驾驶设立了新标准,完全兼容现有VLM并可与规划导向的驾驶系统无缝集成
[72] S5: Scalable Semi-Supervised Semantic Segmentation in Remote Sensing
Liang Lv,Di Wang,Jing Zhang,Lefei Zhang
Main category: cs.CV
TL;DR: 这是首个可扩展的遥感半监督语义分割框架S5,通过数据选择策略和基础模型预训练,在多个遥感测试集上达到最佳性能。
- Motivation: 解决现有半监督语义分割方法依赖小规模数据集和模型的局限性,充分利用大量未标注的地球观测数据提升实际应用能力。
- Method: 构建RS4P-1M大规模数据集,采用基于熵的过滤和多样性扩展的数据选择策略,预训练不同规模的遥感基础模型,并在微调时使用专家混合多数据集微调方法。
- Result: 在土地覆盖分割和目标检测任务上显著提升性能,在所有测试集上达到最佳结果,验证了半监督学习在遥感应用中的扩展可行性。
- Conclusion: S5框架成功实现了遥感半监督学习的大规模扩展,通过大规模未标注数据的利用和高效的模型设计,显著提升了遥感分析的性能和通用性。
[73] SRMA-Mamba: Spatial Reverse Mamba Attention Network for Pathological Liver Segmentation in MRI Volumes
Jun Zeng,Yannan Huang,Elif Keles,Halil Ertugrul Aktas,Gorkem Durak,Nikhil Kumar Tomar,Quoc-Huy Trinh,Deepak Ranjan Nayak,Ulas Bagci,Debesh Jha
Main category: cs.CV
TL;DR: 提出SRMA-Mamba网络,通过空间解剖Mamba模块和空间反向注意力模块,在MRI体积数据中实现肝硬化病理结构的精确3D分割,性能优于现有方法。
- Motivation: 肝硬化早期检测对降低死亡率至关重要,但现有方法未能充分利用MRI体积数据中的空间解剖细节,限制了临床效果和可解释性。
- Method: 集成空间解剖Mamba模块(SABMamba)在肝硬化组织内进行选择性扫描,结合三平面解剖信息构建全局空间上下文表示;引入空间反向注意力模块(SRMA)利用粗分割图和分层编码特征逐步细化分割细节。
- Result: 大量实验表明SRMA-Mamba在3D病理肝脏分割方面超越了最先进方法,表现出卓越性能。
- Conclusion: SRMA-Mamba网络通过有效建模MRI体积中的空间解剖关系,为肝硬化病理结构的精确分割提供了有效解决方案,具有重要的临床应用价值。
[74] TiP4GEN: Text to Immersive Panorama 4D Scene Generation
Ke Xing,Hanwen Liang,Dejia Xu,Yuyang Yin,Konstantinos N. Plataniotis,Yao Zhao,Yunchao Wei
Main category: cs.CV
TL;DR: TiP4GEN是一个文本到动态全景场景生成框架,通过双分支生成模型和几何对齐重建模型,实现了高质量360度沉浸式动态场景的生成
- Motivation: 现有生成工作主要集中于静态场景或窄视角动态场景,无法提供真正的360度沉浸式体验,需要开发能够从任意视角生成动态全景场景的技术
- Method: 采用双分支生成模型(全景分支和透视分支)进行视频生成,通过双向交叉注意力机制实现信息交换;基于3D高斯泼溅的几何对齐重建模型,使用度量深度图对齐时空点云,通过估计位姿初始化场景相机
- Result: 实验证明该方法有效,TiP4GEN在生成视觉吸引人且运动连贯的动态全景场景方面具有优越性
- Conclusion: TiP4GEN框架成功解决了动态全景场景生成的挑战,实现了细粒度内容控制和几何一致性的360度沉浸式虚拟环境创建
[75] Illusions in Humans and AI: How Visual Perception Aligns and Diverges
Jianyi Yang,Junyi Ye,Ankan Dash,Guiling Wang
Main category: cs.CV
TL;DR: 通过对比生物与人工智能视觉系统在视觉幻觉上的差异,揭示了AI视觉的特有弱点和幻觉现象,为开发更健壮、可解释的AI视觉系统提供见解。
- Motivation: 理解生物与人工智能视觉系统在构建视觉现实方面的根本差异,以发展更健壮、可解释、与人类对齐的AI视觉系统。
- Method: 通过系统性对比人类和AI对经典视觉幻觉(包括颜色、大小、形状、运动)的响应,分析AI是否体验幻觉以及是否有独特的幻觉现象。
- Result: 发现AI会出现某些类似幻觉的效应,同时也识别出了AI独有的幻觉现象,如像素级敏感性和幻觉生成,这些在人类中没有对应物。通过对比揭示了对齐缺口和AI特有的感知弱点。
- Conclusion: 这些发现为开发保持人类有益感知偏见、避免破坏信任和安全的感知偏差的视觉系统提供了重要见解。
[76] Adversarial Attacks on VQA-NLE: Exposing and Alleviating Inconsistencies in Visual Question Answering Explanations
Yahsin Yeh,Yilun Wu,Bokai Ruan,Honghan Shuai
Main category: cs.CV
TL;DR: 这篇论文揭示了视觉问答系统中自然语言解释的不一致性漏洞,通过敏感性攻击和知识基础防御提高模型稳健性。
- Motivation: 现有VQA-NLE系统存在解释不一致和理解不深入的问题,需要揭示这些漏洞并提出改善方案。
- Method: 使用对抗性问题扰动和新的图像最小修改攻击策略,并提出基于外部知识的缓解方法。
- Result: 在两个标准测试集和两个广泛使用的VQA-NLE模型上,攻击策略显示高效性,知识基础防御方法显示了提高模型稳健性的潜力。
- Conclusion: 现有VQA-NLE系统存在严重的安全性和可靠性问题,知识基础的防御方法为改善模型稳健性提供了有效途径。
[77] X-Ray-CoT: Interpretable Chest X-ray Diagnosis with Vision-Language Models via Chain-of-Thought Reasoning
Chee Ng,Liliang Sun,Shaoqing Tang
Main category: cs.CV
TL;DR: X-Ray-CoT是一个基于视觉语言大模型的可解释胸部X光诊断框架,通过模拟放射科医生的思维链过程,在保持高诊断准确性的同时生成详细的自然语言诊断报告。
- Motivation: 胸部X光诊断需要丰富临床经验且存在观察者间差异,现有深度学习模型虽然准确率高但缺乏可解释性,阻碍了在临床高风险环境中的应用。
- Method: 提出X-Ray-CoT框架,首先提取多模态特征和视觉概念,然后使用基于LLM的组件配合结构化思维链提示策略进行推理,生成详细的自然语言诊断报告。
- Result: 在CORDA数据集上达到80.52%的平衡准确率和78.65%的F1分数,略优于现有黑盒模型,并能生成高质量的可解释报告。
- Conclusion: 该研究通过多模态融合和思维链推理,为构建可信赖且具有临床可操作性的医学影像AI系统迈出了重要一步。
[78] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping
Xuhui Zhan,Tyler Derr
Main category: cs.CV
TL;DR: Inverse-LLaVA提出了一种新的多模态学习方法,无需对齐预训练,将文本嵌入映射到视觉表示空间进行融合,在推理任务上表现优异,计算需求降低45%。
- Motivation: 挑战传统多模态学习需要昂贵对齐预训练的假设,探索更高效的多模态融合方法,减少计算需求并保持模态特性。
- Method: 将文本嵌入映射到连续视觉表示空间,在transformer中间层通过选择性注意力机制进行动态融合,无需大规模图像-文本对齐数据集。
- Result: 在9个多模态基准测试中显示差异化性能:推理任务显著提升(MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, 认知推理: +27.2%),感知任务下降(名人识别: -49.5%, OCR: -21.3%),计算需求降低45%。
- Conclusion: 首次证明对齐预训练对有效多模态学习不是必需的,特别是复杂推理任务,为高效多模态架构开辟了新研究方向。
[79] Standardization of Neuromuscular Reflex Analysis -- Role of Fine-Tuned Vision-Language Model Consortium and OpenAI gpt-oss Reasoning LLM Enabled Decision Support System
Eranga Bandara,Ross Gore,Sachin Shetty,Ravi Mukkamala,Christopher Rhea,Atmaram Yarlagadda,Shaifali Kaushik,L. H. M. P. De Silva,Andriy Maznychenko,Inna Sokolowska,Amin Hass,Kasun De Zoysa
Main category: cs.CV
TL;DR: 使用细调视觉-语言模型联盟和理解大语言模型构建自动化H-反射电机图形分析系统,提高神经肌肉评估的准确性和标准化程度
- Motivation: 传统H-反射EMG波形分析存在主观性和变异性问题,影响评估的可靠性和标准化
- Method: 细调多个VLM模型处理波形图像和临床数据,通过共识机制聚合输出,再由专门理解LLM精炼进行诊断支持
- Result: 混合系统实现了高精度、一致性和可解释性的H-反射评估
- Conclusion: 该研究首次将细调VLM聚合与理解LLM结合,为下一代AI辅助神经肌肉评估平台奠定基础
[80] Skin Cancer Classification: Hybrid CNN-Transformer Models with KAN-Based Fusion
Shubhi Agarwal,Amulya Kumar Mahto
Main category: cs.CV
TL;DR: 本研究提出了一种结合CNN、Transformer和卷积Kolmogorov-Arnold网络(CKAN)的混合模型,用于皮肤癌分类任务,在多个数据集上取得了优异的性能表现。
- Motivation: 皮肤癌分类是医学图像分析中的关键任务,准确区分恶性和非恶性病变对早期诊断和治疗至关重要。需要开发能够同时捕获局部空间特征和全局依赖关系的强大模型。
- Method: 采用顺序和并行混合CNN-Transformer架构,集成卷积Kolmogorov-Arnold网络(CKAN)进行非线性特征融合。结合迁移学习和广泛的数据增强技术,CNN提取局部空间特征,Transformer建模全局依赖关系。
- Result: 在HAM10000数据集上达到92.81%准确率和92.47% F1分数,PAD-UFES数据集上达到97.83%准确率和97.83% F1分数,BCN20000数据集上达到91.17%准确率和91.79% F1分数,展现了优异的分类性能和泛化能力。
- Conclusion: 混合CNN-Transformer架构能有效捕获空间和上下文特征,CKAN通过可学习激活函数增强特征融合能力。该研究强调了特征表示和模型设计在推进鲁棒准确的医学图像分类中的重要性。
[81] Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients
E. Ulises Moya-Sánchez,Abraham Sánchez-Perez,Raúl Nanclares Da Veiga,Alejandro Zarate-Macías,Edgar Villareal,Alejandro Sánchez-Montes,Edtna Jauregui-Ulloa,Héctor Moreno,Ulises Cortés
Main category: cs.CV
TL;DR: RAIS-DR是一个负责任的人工智能系统,用于糖尿病视网膜病变筛查,在准确性和公平性方面显著优于FDA批准的EyeArt系统。
- Motivation: 糖尿病视网膜病变是工作年龄人群视力丧失的主要原因,早期检测可降低95%的视力丧失风险。但由于视网膜专家短缺和检查时机困难,检测面临挑战。AI模型虽然提供解决方案,但受限于低质量数据和偏见问题。
- Method: 开发了RAIS-DR系统,在整个AI生命周期中整合伦理原则,包含高效的卷积模型进行预处理、质量评估和三个专门的DR分类模型。
- Result: 在1,046名患者的本地数据集上评估,RAIS-DR相比EyeArt系统,F1分数提高5-12%,准确率提高6-19%,特异性提高10-20%。公平性指标显示在不同人口统计亚组中表现公平。
- Conclusion: RAIS-DR是一个强大且符合伦理的DR筛查解决方案,有潜力减少医疗保健差距,代码和权重已开源。
[82] LangVision-LoRA-NAS: Neural Architecture Search for Variable LoRA Rank in Vision Language Models
Krishna Teja Chitty-Venkata,Murali Emani,Venkatram Vishwanath
Main category: cs.CV
TL;DR: 本文提出了LangVision-LoRA-NAS框架,将神经架构搜索(NAS)与LoRA结合,为视觉语言模型(VLMs)动态搜索最优的LoRA秩配置,在保持性能的同时降低微调成本。
- Motivation: 现有的LoRA方法使用固定秩进行微调,可能限制了在不同任务中的灵活性和效率。需要一种能够根据具体多模态任务动态优化LoRA秩配置的方法。
- Method: 集成神经架构搜索(NAS)与LoRA技术,通过NAS动态搜索针对特定多模态任务的最优LoRA秩配置,平衡性能与计算效率。
- Result: 在LLaMA-3.2-11B模型上的大量实验表明,该方法显著提升了模型性能,同时降低了微调成本。
- Conclusion: LangVision-LoRA-NAS框架通过动态秩优化,为视觉语言模型的高效微调提供了有效的解决方案,在性能和效率之间取得了良好平衡。
[83] An Initial Study of Bird's-Eye View Generation for Autonomous Vehicles using Cross-View Transformers
Felipe Carlos dos Santos,Eric Aislan Antonelo,Gustavo Claudio Karl Couto
Main category: cs.CV
TL;DR: 通过交叉视图变换器将相机图像映射到布鸣鸟视图地图,实现了在未见城市中的良好泛化性能
- Motivation: 布鸟鸟视图地图为自动驾驶提供结构化的顶视抽象,需要研究如何从相机图像生成准确的BEV地图
- Method: 使用交叉视图变换器(CVT),通过现实模拟器训练将相机图像映射到三个BEV通道:道路、车道标记和规划轨迹,测试不同相机布局和损失函数
- Result: 仅使用一个城市训练数据,四相机CVT配合L1损失在新城市中表现最为稳健,显示了良好的泛化性能
- Conclusion: 交叉视图变换器在将相机输入映射到准确布鸣鸟视图地图方面具有很大潜力,为自动驾驶感知提供了有效的解决方案
[84] MuSACo: Multimodal Subject-Specific Selection and Adaptation for Expression Recognition with Co-Training
Muhammad Osama Zeeshan,Natacha Gillet,Alessandro Lameiras Koerich,Marco Pedersoli,Francois Bremond,Eric Granger
Main category: cs.CV
TL;DR: MuSACo是一个基于协同训练的多模态个性化表情识别方法,通过选择相关源主体并利用多模态互补信息,在生物识别和压力识别数据集上超越了现有方法。
- Motivation: 现有的多源域自适应方法往往忽视多模态信息或将多个源混合为单一域,限制了主体多样性,无法明确捕捉特定主体的独特特征。
- Method: MuSACo基于协同训练,选择与目标相关的源主体,使用主导模态生成伪标签进行类感知学习,并结合类无关损失从置信度较低的目标样本中学习。同时对齐每个模态的源特征,仅组合置信的目标特征。
- Result: 在BioVid和StressID这两个具有挑战性的多模态表情识别数据集上,MuSACo的表现优于无监督域自适应(混合)和最先进的多源域自适应方法。
- Conclusion: MuSACo通过有效利用多模态信息和多源域信息,能够更好地处理个性化表情识别中的主体间变异性,特别适用于数字健康中的情感计算应用。
[85] REVEAL -- Reasoning and Evaluation of Visual Evidence through Aligned Language
Ipsita Praharaj,Yukta Butala,Yash Butala
Main category: cs.CV
TL;DR: REVEAL框架利用视觉语言模型进行图像伪造检测,通过整体场景评估和区域异常检测两种方法,在多个领域数据集上展现良好性能
- Motivation: 生成模型的快速发展使得视觉伪造检测和解释变得更具挑战性,现有方法在跨领域泛化方面存在困难
- Method: 提出REVEAL框架,将伪造检测视为提示驱动的视觉推理任务,采用两种方法:(1)整体场景级评估(物理、语义、透视和真实性)(2)区域级异常检测(分割图像并分析每个区域)
- Result: 在多个领域数据集(Photoshop、DeepFake和AIGC编辑)上进行实验,与竞争基线比较并分析模型提供的推理
- Conclusion: 该框架利用大型视觉语言模型的语义对齐能力,为图像伪造检测提供了有效的解决方案
[86] Structure-preserving Feature Alignment for Old Photo Colorization
Yingxue Pang,Xin Jin,Jun Fu,Zhibo Chen
Main category: cs.CV
TL;DR: 提出SFAC算法,仅需两张图像即可实现老照片着色,通过特征对齐和结构保持机制解决领域差距问题
- Motivation: 传统深度学习方法在大规模数据集上训练,但直接应用于老照片着色存在挑战,因为缺乏真实标签且自然灰度图像与老照片之间存在领域差距
- Method: SFAC算法通过特征分布对齐损失建立语义对应,确保语义相关对象颜色相似;引入结构保持机制,在特征级使用感知约束,在像素级使用冻结-更新金字塔
- Result: 大量实验证明该方法在老照片着色方面的有效性,通过定性和定量指标得到验证
- Conclusion: SFAC算法成功解决了老照片着色的领域差距问题,无需依赖大数据,仅需两张图像即可获得良好着色效果
[87] Foundation Model for Skeleton-Based Human Action Understanding
Hongsong Wang,Wanjiang Weng,Junbo Wang,Fang Zhao,Guo-Sen Xie,Xin Geng,Liang Wang
Main category: cs.CV
TL;DR: 结构化骨架动作理解的基础模型USDRL,通过密集时空编码器、多粒度特征解相关和多视角一致性训练,在25个基准测试中显著超越现有方法
- Motivation: 现有骨架动作理解方法缺乏扩展性和通用性,需要一个能够处理多样化动作理解任务的基础模型
- Method: 统一骨架密集表征学习框架(USDRL),包含Transformer基础的密集时空编码器、多粒度特征解相关和多视角一致性训练
- Result: 在9种骨架动作理解任务的25个基准测试中显著超越现有最优方法
- Conclusion: 该工作扩展了骨架动作理解的研究范围,并鼓励更多关注密集预测任务
[88] Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models
Tan-Hanh Pham,Chris Ngo
Main category: cs.CV
TL;DR: 多模态连续思维链(MCOUT)方法,通过在聚合潜在空间中进行连续向量推理,改善了多模态理解与推理能力,超过传统的文本基于CoT方法
- Motivation: 传统的语言模型推理方法(如CoT)在多模态环境中效果有限,难以动态对齐音频、视觉和文本信息,需要探索更优化的多模态推理方法
- Method: 提出MCOUT方法,将推理状态表示为连续隐藏向量,在聚合潜在空间中迭代精炼并与多模态嵌入对齐。包括MCOUT-Base(重用语言模型隐藏状态)和MCOUT-Multi(多模态潜在注意力机制)
- Result: 在MMMU、ScienceQA、MMStar等测试集上,MCOUT持续改善多模态推理性能,准确率提升8.23%,BLEU指标提升8.27%,在多选题和开放式任务中都取得显著进步
- Conclusion: 潜在连续推理是提升大型多模态模型能力的有前景方向,MCOUT提供了一个可扩展的框架,能够进行类似人类反思类型的多模态推理
[89] ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving
Can Cui,Yupeng Zhou,Juntong Peng,Sung-Yeon Park,Zichong Yang,Prashanth Sankaranarayanan,Jiaru Zhang,Ruqi Zhang,Ziran Wang
Main category: cs.CV
TL;DR: ViLaD是一个基于扩散模型的端到端自动驾驶框架,通过并行生成驾驶决策序列显著降低延迟,支持双向推理和渐进式生成,在nuScenes数据集上表现优于现有自回归VLM方法。
- Motivation: 现有的基于视觉语言模型的自动驾驶系统采用自回归架构,存在推理延迟高、无法进行双向推理的问题,不适合动态的安全关键环境。
- Method: 提出ViLaD框架,利用掩码扩散模型并行生成完整的驾驶决策序列,支持双向推理和渐进式易先生成策略。
- Result: 在nuScenes数据集上,ViLaD在规划准确性和推理速度方面均优于最先进的自回归VLM基线,实现了接近零的故障率,并在真实自动驾驶车辆上验证了其实用性。
- Conclusion: ViLaD代表了自动驾驶领域的范式转变,通过扩散模型架构解决了自回归方法的局限性,为实际应用提供了高效可靠的解决方案。
[90] ViDA-UGC: Detailed Image Quality Analysis via Visual Distortion Assessment for UGC Images
Wenjie Liao,Jieyu Yuan,Yifang Xu,Chunle Guo,Zilong Zhang,Jihong Li,Jiachen Fu,Haotian Fan,Tao Li,Junhui Cui,Chongyi Li
Main category: cs.CV
TL;DR: 这篇论文提出了首个大规模的视觉异常评估指令微调数据集ViDA-UGC,用于用户生成内容图片的质量评估,通过链式思维框架提升了MLLM模型的图片质量分析能力。
- Motivation: 当前的可解释性图片质量评估方法对用户生成内容和AI生成内容使用相同的异常标准,且缺乏详细的质量分析来监控图片质量和指导图片恢复。
- Method: 构建了包含11K异常图片的ViDA-UGC数据集,通过人工标注和链式思维评估框架使GPT-4o生成质量描述,并创建了包含6,149问答对的基准测试集ViDA-UGC-Bench。
- Result: 实验结果表明ViDA-UGC数据集和CoT框架能够一致地提升多个基础MLLM模型在图片质量分析方面的能力,甚至超越了GPT-4o的表现。
- Conclusion: 该研究为用户生成内容图片的质量评估提供了一个有效的解决方案,通过大规模的质量培训数据集和链式思维框架,显著提升了MLLM模型的图片质量分析能力。
[91] OpenMoCap: Rethinking Optical Motion Capture under Real-world Occlusion
Chen Qian,Danyang Li,Xinran Yu,Zheng Yang,Qiang Ma
Main category: cs.CV
TL;DR: 这篇论文解决光学动作抓取中大规模标记遮挡问题,通过提供现实的CMU-Occlu数据集和新题OpenMoCap模型,在各种遮挡场景下都显著超过现有方法。
- Motivation: 现有光学动作抓取系统在大规模标记遮挡情况下性能严重下降,主要因为缺乏现实遮挡模式的训练数据集和能够捕捉标记间长程依赖关系的训练策略。
- Method: 使用光线追踪技术模拟现实遮挡模式构建CMU-Occlu数据集,提出OpenMoCap模型通过标记-关节链推理机制,实现标记与关节间深度约束的同时优化和构建。
- Result: 在多样化场景下的对比实验显示,OpenMoCap一贯地显著超过了其他竞争方法,CMU-Occlu数据集为未来稳健动作解决研究打开了大门。
- Conclusion: 该研究成功解决了光学动作抓取中的遮挡问题,通过现实的数据集和专门设计的模型,提供了更稳健的动作抓取解决方案,并已集成到实际系统中部署。
[92] WIPES: Wavelet-based Visual Primitives
Wenhao Zhang,Hao Zhu,Delong Wu,Di Kang,Linchao Bao,Zhan Ma,Xun Cao
Main category: cs.CV
TL;DR: WIPES是一种基于小波的通用视觉基元表示方法,通过小波的空间-频率局部化优势有效捕捉低频和高频信息,并开发了基于小波的可微分光栅化器实现快速视觉渲染。
- Motivation: 现有视觉表示方法依赖频率指导或复杂神经网络解码,导致频谱损失或渲染速度慢,需要一种能同时提供灵活频率调制和快速渲染的连续视觉表示。
- Method: 基于小波的空间-频率局部化优势构建WIPES表示,开发基于小波的可微分光栅化器实现快速渲染。
- Result: 在2D图像表示、5D静态和6D动态新视角合成等视觉任务中,WIPES相比基于INR的方法提供更高渲染质量和更快推理速度,在渲染质量上优于基于高斯的方法。
- Conclusion: WIPES作为一种视觉基元表示,能够有效平衡频率捕捉和渲染效率,在多个视觉任务中表现出优越性能。
[93] Creative4U: MLLMs-based Advertising Creative Image Selector with Comparative Reasoning
Yukang Lin,Xiang Zhang,Shichang Jia,Bowen Wan,Chenghan Fu,Xudong Ren,Yueran Liu,Wanxian Guan,Pengji Wang,Jian Xu,Bo Zheng,Baolin Liu
Main category: cs.CV
TL;DR: 这篇论文提出了一种基于多模态大语言模型的可解释性幻想图像评估与选择方法,构建了首个对比性创意数据集CreativePair,并开发了考虑用户兴趣的创意选择器Creative4U。
- Motivation: 广告创意图像对电子商务平台致关重要,但AIGC技术生成的大量创意图像缺乏有效质量评估方法。现有方法主要关注排名而非可解释性选择。
- Method: 使用多模态大语言模型,将创意图像评估和选择集成为自然语言生成任务。构建CreativePair数据集(8k带注释图像对),开发Creative4U系统,采用Reason-to-Select RFT训练方法(CoT-SFT和GRPO强化学习)。
- Result: 离线和在线实验都证明了该方法的有效性,能够准确评估和选择创意图像。
- Conclusion: 该研究首次提出了可解释性创意评估与选择的范式,为AIGC生成内容的质量评估提供了新的解决方案,对产业应用和研究推进具有重要意义。
[94] SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer
Chen Qian,Xinran Yu,Zewen Huang,Danyang Li,Qiang Ma,Fan Dang,Xuan Ding,Guangyong Shang,Zheng Yang
Main category: cs.CV
TL;DR: 提出了一种新的云边协同视觉-语言模型框架SpotVLM,通过将大型模型的延迟输出作为历史上下文来指导小型模型的实时推理,解决了现有系统无法适应云端延迟波动的问题。
- Motivation: 现有的云边协同视觉-语言模型系统无法有效处理云端延迟波动,且没有充分利用大型模型延迟但准确的响应作为历史上下文来提升实时性能。
- Method: 提出Context Transfer框架,将大型视觉-语言模型的延迟输出作为历史上下文来指导小型模型的实时推理。设计SpotVLM系统,包含上下文替换模块和视觉聚焦模块,用于精炼历史文本输入和增强视觉基准一致性。
- Result: 在四个数据集的三个实时视觉任务上进行了广泛实验,证明了该框架的有效性。
- Conclusion: 该新框架为未来视觉-语言模型系统的更有效和延迟感知的协同策略奠定了基础。
[95] Synthesizing Accurate and Realistic T1-weighted Contrast-Enhanced MR Images using Posterior-Mean Rectified Flow
Bastian Brandstötter,Erich Kobler
Main category: cs.CV
TL;DR: 使用两阶段流动模型从非对比增强MRI生成对比增强脑部MRI,避免使用铀制剂,降低成本和风险
- Motivation: 传统对比增强MRI需要铀制剂,增加成本和扫描时间,带来环境问题和病人风险
- Method: 两阶段流动模型管道:首先用3D U-Net预测后骏均值,然后用时间条件化3D正向流进行精炼,以结合真实素材和结构保真
- Result: 在360份测试数据上,最佳精炼输出达到轴向FID 12.46和KID 0.007(比后骏均值降低68.7%),保持低体积MSE 0.057
- Conclusion: 方法能够实现地恢复病变边缘和血管细节,有效平衡了感知与失真的交换关系,适合临床部署
[96] Learn Faster and Remember More: Balancing Exploration and Exploitation for Continual Test-time Adaptation
Pinci Yang,Peisong Wen,Ke Ma,Qianqian Xu
Main category: cs.CV
TL;DR: 提出BEE框架解决持续测试时适应中的探索与利用平衡问题,通过多级一致性正则化和互补锚点回放机制,在多个基准测试中显著优于现有方法
- Motivation: 现有CTTA方法存在两个主要问题:1) 深层预测调整无法有效处理浅层特征域偏移,导致探索缓慢;2) 单一模型在探索新域时会遗忘历史知识,无法有效利用先前经验
- Method: 采用mean teacher框架,提出多级一致性正则化(MCR)损失对齐师生模型中间特征,加速当前域适应;使用互补锚点回放(CAR)机制重用历史检查点,恢复多样化域知识
- Result: 在多个基准测试中显著优于最先进方法,证明了该方法在CTTA任务中的有效性
- Conclusion: BEE框架成功解决了CTTA中探索与利用的平衡问题,通过特征级对齐和知识回放机制实现了快速适应和知识保持的双重目标
[97] DyCrowd: Towards Dynamic Crowd Reconstruction from a Large-scene Video
Hao Wen,Hongbo Kang,Jian Ma,Jing Huang,Yuanwang Yang,Haozhe Lin,Yu-Kun Lai,Kun Li
Main category: cs.CV
TL;DR: DyCrowd是一个从大规模场景视频中重建数百人3D姿态、位置和形状的首个框架,采用粗到细的群体引导运动优化策略,解决了遮挡问题和时间一致性问题。
- Motivation: 当前方法从静态图像重建3D人群缺乏时间一致性,无法缓解遮挡带来的典型影响,需要开发能够处理大规模动态人群重建的方法。
- Method: 设计了粗到细的群体引导运动优化策略,结合VAE人体运动先验和分段级群体引导优化,利用异步运动一致性损失和群体集体行为来解决长期动态遮挡问题。
- Result: 实验结果表明该方法在大规模动态人群重建任务中达到了最先进的性能,并贡献了VirtualCrowd虚拟基准数据集。
- Conclusion: DyCrowd框架能够实现时空一致的3D人群重建,有效处理遮挡和时间不同步问题,为大规模场景视频分析提供了有力工具。
[98] Stable Diffusion-Based Approach for Human De-Occlusion
Seung Young Noh,Ju Yong Chang
Main category: cs.CV
TL;DR: 一种两阶段演进式人体去遮挡方法,第一阶段利用温度模型完成人体遮挡区域的掩码重建,第二阶段在掩码指导下进行RGB颜色恢复,并统一使用人体特征提取和稳定扩散模型来提升生成质量。
- Motivation: 人类可以利用先验知识和可见线索推断遮挡物体的缺失部分,但让深度学习模型准确预测遮挡区域仍是一项具有挑战性的任务。去遮挡技术需要同时重建掩码和RGB外观,特别是在人体去遮挡方面。
- Method: 方法分为两个阶段:
- 掩码完成阶段:利用基于温度模型的人体先验知识,结合遮挡关节热力图提供缺失区域的显式空间线索
- RGB完成阶段:使用重建的无模态掩码作为条件输入,指导模型识别需要RGB重建的区域,并统一使用视觉问答模型提取的人体特征和CLIP编码器来增强RGB生成质量
- 采用稳定扩散模型进行RGB完成,通过解码器微调减少可见区域的像素级退化
- Result: 该方法能够有效地重建人体外观,甚至在严重遮挡条件下也能达到良好效果。在掩码完成和RGB完成两个任务上,方法都一贯地超过现有方法。此外,由该方法生成的去遮挡图像还能够提升下游人体中心任务的性能,如2D姿势估计和3D人体重建。
- Conclusion: 该研究提出了一种有效的两阶段演进式人体去遮挡方法,通过结合温度模型、人体先验知识、明确空间线索以及人体特征提取等技术,成功解决了严重遮挡条仲下的人体外观重建问题,并为下游任务提供了更好的输入数据。代码将公开发布。
[99] WP-CLIP: Leveraging CLIP to Predict Wölfflin's Principles in Visual Art
Abhijay Ghildyal,Li-Yun Wang,Feng Liu
Main category: cs.CV
TL;DR: 使用CLIP视觉语言模型预测Wölfflin艺术风格五原则,通过微调在真实艺术图像数据集上训练WP-CLIP模型,能够有效评估GAN生成画作和Pandora-18K数据集中的艺术风格。
- Motivation: 现有度量标准无法有效预测Wölfflin的五项艺术风格原则,而视觉语言模型在评估抽象图像属性方面展现出潜力,需要开发能够理解艺术风格细微差别的计算模型。
- Method: 对在大规模数据上预训练的CLIP模型进行微调,使用带标注的真实艺术图像数据集训练WP-CLIP模型,为每项Wölfflin原则预测评分。
- Result: WP-CLIP模型在GAN生成画作和Pandora-18K艺术数据集上表现出良好的泛化能力,能够准确评估不同艺术风格。
- Conclusion: 视觉语言模型在自动化艺术分析方面具有巨大潜力,微调后的CLIP模型能够有效理解和预测复杂的艺术风格原则。
[100] Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation
Yuheng Zha,Kun Zhou,Yujia Wu,Yushu Wang,Jie Feng,Zhi Xu,Shibo Hao,Zhengzhong Liu,Eric P. Xing,Zhiting Hu
Main category: cs.CV
TL;DR: 构建了一个全面的视觉推理数据集,提出了基于影响函数的数据选择和难度过滤策略,训练出在多个基准测试中达到SOTA性能的Vision-G1模型
- Motivation: 当前视觉语言模型的训练主要集中在数学和逻辑推理等有限任务上,缺乏跨领域的泛化能力,且多领域数据整合困难
- Method: 从46个数据源构建8个维度的视觉推理数据集,使用影响函数进行数据选择和难度过滤,采用多轮强化学习和数据课程学习训练模型
- Result: Vision-G1模型在各种视觉推理基准测试中达到最先进性能,超越同类规模模型甚至GPT-4o和Gemini-1.5 Flash等专有模型
- Conclusion: 通过构建全面的多领域数据集和创新的训练策略,成功提升了视觉语言模型的跨领域推理能力
[101] Refine-and-Contrast: Adaptive Instance-Aware BEV Representations for Multi-UAV Collaborative Object Detection
Zhongyao Li,Peirui Cheng,Liangjin Zhao,Chen Chen,Yundu Li,Zhechao Wang,Xue Yang,Xian Sun,Zhirui Wang
Main category: cs.CV
TL;DR: AdaBEV是一个针对多无人机协同3D检测的创新框架,通过自适应实例感知的BEV表示学习和精细化对比范式,在保持低分辨率BEV输入的同时实现了优越的精度-计算权衡。
- Motivation: 多无人机协同3D检测虽然能通过融合多视角观测提供准确鲁棒的感知,但在资源受限的无人机平台上存在计算挑战。现有方法平等对待所有BEV网格,效率不高。
- Method: 提出Box-Guided Refinement Module (BG-RM) 仅使用2D监督和空间细分来精细化前景实例相关的BEV网格,以及Instance-Background Contrastive Learning (IBCL) 通过在BEV空间进行对比学习增强前景和背景特征的可区分性。
- Result: 在Air-Co-Pred数据集上的大量实验表明,AdaBEV在不同模型规模下都实现了优越的精度-计算权衡,在低分辨率下优于其他最先进方法,接近上限性能,同时保持低分辨率BEV输入和可忽略的开销。
- Conclusion: AdaBEV通过自适应实例感知的BEV表示学习框架,有效解决了多无人机协同3D检测中的计算效率问题,为资源受限平台上的实时感知提供了可行解决方案。
[102] TTA-DAME: Test-Time Adaptation with Domain Augmentation and Model Ensemble for Dynamic Driving Conditions
Dongjae Jeon,Taeheon Kim,Seongwon Cho,Minhyuk Seo,Jonghyun Choi
Main category: cs.CV
TL;DR: TTA-DAME方法通过源域数据增强、域判别器和专门域检测器处理驾驶场景中的天气域偏移,特别是在白天到夜间的剧烈变化,使用多个检测器和NMS提升适应性,在SHIFT基准上表现显著提升。
- Motivation: 解决测试时适应(TTA)在真实驾驶场景中频繁发生的天气域偏移问题,特别是处理从白天到夜间条件的剧烈域变化挑战。
- Method: 利用源域数据增强到目标域,引入域判别器和专门域检测器来缓解剧烈域偏移,训练多个检测器并通过非极大值抑制(NMS)整合预测结果。
- Result: 在SHIFT基准测试中显示出显著的性能提升,验证了方法的有效性。
- Conclusion: TTA-DAME方法能够有效处理驾驶场景中的动态域偏移问题,特别是在应对白天到夜间条件变化方面表现出色。
[103] Multi-Level Knowledge Distillation and Dynamic Self-Supervised Learning for Continual Learning
Taeheon Kim,San Kim,Minhyuk Seo,Dongjae Jeon,Wonje Jeong,Jonghyun Choi
Main category: cs.CV
TL;DR: 这篇论文提出了两种方法(MLKD和动态SSL)来解决类增量学习中的重复类问题,在CVPR CLVISION挑战赛中获得第2名
- Motivation: 传统类增量学习假设每个任务都包含新类,而实际情况中旧类可能重复出现。CIR情景更符合实际,且可以获取大量未标注数据
- Method: 1)多级知识蓄簍(MLKD):从多个旧模型中蓄簍特征和logits知识 2)动态自监督损失(SSL):利用未标注数据加速新类学习,通过动态权重保持主要任务重点
- Result: 在CIR设置下显著提升了模型性能,在CVPR第5届CLVISION挑战赛中获得第2名
- Conclusion: 通过多级知识蓄簍和动态自监督损失,能够有效利用未标注数据来维持模型的稳定性和可塑性,为类增量学习中的重复类问题提供了有效解决方案
[104] Neural Rendering for Sensor Adaptation in 3D Object Detection
Felix Embacher,David Holtz,Jonas Uhrig,Marius Cordts,Markus Enzweiler
Main category: cs.CV
TL;DR: 这篇论文研究了自主驾驶车不同盛像头传感器配置导致的跨传感器域间间隔问题,提出了CamShift数据集和基于神经渲染的数据驱动传感器适配方案,有效减少了性能泄漏并提高数据可重用性。
- Motivation: 自主驾驶车的盛像头传感器配置因车辆类型不同而异,在一种传感器配置上训练的感知模型在其他配置上性能会减退,这就是跨传感器域间间隔问题。需要研究这种间隔对3D物体检测器的影响并找到解决方案。
- Method: 创建了CamShift数据集(受nuScenes启发在CARLA中模拟)来模拟子紧凑型车辆和SUV之间的传感器域间间隔。研究了不同3D检测器的稳健性,并提出了一种基于神经渲染的数据驱动传感器适配流水线,可以将整个数据集转换以匹配不同盛像头传感器配置。
- Result: 证明了跨传感器性能显著泄漏,识别了模型稳健性对模型架构的依赖关系(基于密集BEV表示并使用向后投影的BEVFormer最稳健)。提出的神经渲染适配方法大幅提高了所有研究3D检测器的性能,大幅减少了跨传感器域间间隔。
- Conclusion: 密集BEV表示的模型架构对不同传感器配置具有更好的稳健性,而基于神经渲染的数据适配方法能够有效减缓跨传感器域间间隔问题,减少新数据收集的需求,提高了数据在不同传感器配置车辆之间的可重用性。
[105] Drifting Away from Truth: GenAI-Driven News Diversity Challenges LVLM-Based Misinformation Detection
Fanxiao Li,Jiaying Wu,Tingchao Fu,Yunyun Dong,Bingbing Song,Wei Zhou
Main category: cs.CV
TL;DR: GenAI驱动的新闻多样性导致多级漂移,显著降低了现有LVLM多模态虚假信息检测系统的鲁棒性,性能平均下降14.8%
- Motivation: 生成式AI工具带来的新闻内容多样性对多模态虚假信息检测构成了新挑战,需要系统研究其对检测系统的影响
- Method: 构建DriftBench大规模基准数据集(16,000个新闻实例,6类多样化),设计三个评估任务:真实性验证鲁棒性、对抗性证据污染易感性、推理一致性分析
- Result: 六个最先进的LVLM检测器性能显著下降(平均F1下降14.8%),推理轨迹不稳定,在对抗性证据注入下表现更差
- Conclusion: 现有MMD系统存在根本性脆弱性,在GenAI时代迫切需要更具弹性的方法
[106] Real-Time Sign Language Gestures to Speech Transcription using Deep Learning
Brandone Fonya
Main category: cs.CV
TL;DR: 基于CNN深度学习的手语实时翻译系统,通过摄像头捕捉手势并转换为文本和语音输出,帮助听障人士沟通
- Motivation: 解决听障人士在日常环境中的沟通障碍,提升他们的自主性和社会融入
- Method: 使用卷积神经网络(CNN)在Sign Language MNIST数据集上训练,实时通过摄像头捕捉手势并进行分类识别
- Result: 系统表现出高准确性和实时性能(存在一些延迟),验证了其作为辅助工具的实用性
- Conclusion: 该系统为手语使用者提供了一个可访问、可靠且用户友好的实时沟通辅助工具
[107] Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score
Syed Muhmmad Israr,Feng Zhao
Main category: cs.CV
TL;DR: 基于对比学习的双对比去噪分数框架,解决文本到图像生成模型在真实图像编辑中的提示语详细描述难和不想要区域变化问题
- Motivation: 大规模文本到图像生成模型虽然能生成高质量图像,但在真实图像编辑中遇到两大挑战:用户难以准确描述所有视觉细节的提示语,以及模型往往会在不想要区域引入意外变化
- Method: 提出Dual Contrastive Denoising Score框架,在潜在滿散模型的自注意力层中利用中间表征的丰富空间信息,通过简单有效的双对比损失实现灵活内容修改和结构保持
- Result: 通过大量实验验证,该方法在真实图像编辑中表现超过现有方法,同时保持了直接利用预训练文本到图像滿散模型的能力
- Conclusion: 该方法成功解决了文本到图像生成模型在真实图像编辑中的两大挑战,实现了灵活内容修改与结构保持的平衡,并支持零样本图像到图像转换
[108] Quantifying and Alleviating Co-Adaptation in Sparse-View 3D Gaussian Splatting
Kangjie Chen,Yingji Zhong,Zhihao Li,Jiaqi Lin,Youyu Chen,Minghan Qin,Haoqian Wang
Main category: cs.CV
TL;DR: 3DGS在稀疏视角下存在外观伪影问题,研究发现这是由于高斯过度纠缠(co-adaptation)导致的。提出了CA指标量化纠缠程度,并提出了两种轻量级策略来缓解该问题。
- Motivation: 3D Gaussian Splatting在密集视角下表现优异,但在稀疏视角场景中会出现外观伪影,需要研究其原因并提出解决方案。
- Method: 提出了Co-Adaptation Score (CA)指标来量化高斯之间的纠缠程度,并提出了两种策略:随机高斯丢弃和透明度乘性噪声注入。
- Result: 分析发现随着训练视角增加,co-adaptation程度自然减轻。提出的两种轻量级策略在各种方法和基准测试中都验证了有效性。
- Conclusion: 对co-adaptation效应的深入理解将有助于社区更全面地理解稀疏视角3DGS,提出的方法为缓解该问题提供了有效解决方案。
[109] Frequency-Driven Inverse Kernel Prediction for Single Image Defocus Deblurring
Ying Zhang,Xiongxin Tang,Chongyi Li,Qiao Chen,Yuquan Wu
Main category: cs.CV
TL;DR: 频域驱动的逆内核预测网络(FDIKP)通过双分支逆内核预测策略和位置适配卷积,在单图散焦去模糊任务中显著提升了性能。
- Motivation: 现有方法依靠空间特征进行内核估计,但在严重模糊区域性能会降低,因为这些区域缺失局部高频细节。频域基础表示能够提供更好的结构可识别性。
- Method: 设计了双分支逆内核预测策略(DIKP),利用频域的辨别能力提高内核估计准确性。提出位置适配卷积(PAC)增强逆卷积过程的适应性。构建双域尺度递归模块(DSRM)融合逆卷积结果并从粗到细逐步改善去模糊质量。
- Result: 广泛实验证明该方法在单图散焦去模糊任务中超越了现有方法。
- Conclusion: 通过结合频域基础表示和创新的网络结构设计,本文方法有效解决了严重模糊区域的内核估计问题,显著提升了去模糊性能。
[110] DCSCR: A Class-Specific Collaborative Representation based Network for Image Set Classification
Xizhan Gao,Wei Hu
Main category: cs.CV
TL;DR: 本文提出了一种名为DCSCR的少样本图像集分类方法,结合传统方法和深度学习,同时学习帧级和概念级特征表示以及集合间距离相似性。
- Motivation: 解决现有图像集分类方法中特征学习不足和距离度量适应性差的问题,特别是在少样本场景下性能有限。
- Method: DCSCR网络包含三个模块:全卷积深度特征提取器、全局特征学习模块和基于类特定协同表示的度量学习模块,使用新的CSCR对比损失函数。
- Result: 在多个知名少样本图像集分类数据集上的实验表明,该方法相比现有最先进算法具有更好的性能。
- Conclusion: DCSCR方法有效解决了图像集分类中的特征学习和距离度量问题,在少样本场景下表现出色。
[111] D2-Mamba: Dual-Scale Fusion and Dual-Path Scanning with SSMs for Shadow Removal
Linhao Li,Boya Jin,Zizhe Li,Lanqing Guo,Hao Cheng,Bo Li,Yongfeng Dong
Main category: cs.CV
TL;DR: 提出基于Mamba的双尺度融合和双路径扫描网络,通过选择性传播上下文信息来提升阴影去除效果,在基准测试中显著优于现有方法
- Motivation: 阴影去除任务中,阴影区域的变换与光照良好区域差异显著,需要有效整合非局部上下文线索和自适应建模区域特定变换
- Method: Dual-Scale Fusion Mamba Block (DFMB)融合原始特征和低分辨率特征增强多尺度表示;Dual-Path Mamba Group (DPMG)通过水平扫描捕获全局特征,采用掩码感知自适应扫描策略
- Result: 在阴影去除基准测试中显著优于现有最先进方法
- Conclusion: 所提出的Mamba-based网络通过双尺度融合和双路径扫描机制,有效解决了阴影去除中区域变换差异的挑战,取得了优异的性能
[112] CLAIRE-DSA: Fluoroscopic Image Classification for Quality Assurance of Computer Vision Pipelines in Acute Ischemic Stroke
Cristo J. van den Berg,Frank G. te Nijenhuis,Mirre J. Blaauboer,Daan T. W. van Erp,Carlijn M. Keppels,Matthijs van der Sluijs,Bob Roozenbeek,Wim van Zwam,Sandra Cornelissen,Danny Ruijters,Ruisheng Su,Theo van Walsum
Main category: cs.CV
TL;DR: CLAIRE-DSA是一个基于深度学习的框架,用于在急性缺血性卒中机械取栓过程中对最小强度投影图像进行质量分类,显著提升下游分割任务的性能
- Motivation: 计算机视觉模型在机械取栓手术中辅助应用时,图像质量差会严重影响性能表现,需要自动化的图像质量评估工具
- Method: 使用预训练的ResNet骨干网络进行微调,训练九个图像属性分类器(如对比剂存在、投影角度、运动伪影严重程度等),在1758张标注的荧光透视MinIP图像数据集上进行训练
- Result: 模型在所有标签上表现优异,ROC-AUC达到0.91-0.98,精确度0.70-1.00。在分割任务中,过滤低质量图像后分割成功率从42%提升至69%(p<0.001)
- Conclusion: CLAIRE-DSA作为自动化工具在急性缺血性卒中患者的DSA序列图像属性分类方面表现出强大潜力,可支持临床和研究应用中的图像标注和质量控制
[113] Harnessing Group-Oriented Consistency Constraints for Semi-Supervised Semantic Segmentation in CdZnTe Semiconductors
Peihao Li,Yan Fang,Man Liu,Huihui Bai,Anhong Wang,Yunchao Wei,Yao Zhao
Main category: cs.CV
TL;DR: 这篇论文提出了一种新的半监督语义分割方法ICAF,专门解决CdZnTe半导体图像标注中的低对比度缺陷边界问题,通过组级一致性增强技术显著提升了分割精度。
- Motivation: 因为CdZnTe半导体图像具有低对比度缺陷边界特征,需要涉及多个视图参考,形成了"多对一"关系。传统半监督方法基于"一对一"关系,在这种情况下容易产生错误积累和确认偏差问题。
- Method: 提出了组内一致性增强框架(ICAF),包括两个核心模块:视图增强模块(VAM)通过多视图聚合动态合成边界感知视图,以及视图纠正模块(VCM)通过信息交互强化显著区域并减少噪音。
- Result: 在CdZnTe数据集上使用DeepLabV3+模型,仅用2组标注数据(约5丯之一)就达到了70.6%的mIoU,显著提升了分割性能。
- Conclusion: ICAF框架有效解决了CdZnTe材料图像分割中的低对比度问题,通过组级一致性的新视角提供了更有效的半监督学习方案。
[114] SocialTrack: Multi-Object Tracking in Complex Urban Traffic Scenes Inspired by Social Behavior
Wenguang Tao,Xiaotian Wang,Tian Yan,Jie Yan,Guodong Li,Kun Bai
Main category: cs.CV
TL;DR: SocialTrack是一个针对无人机视角下复杂城市交通环境中多目标跟踪的创新框架,通过多尺度特征增强、速度自适应卡尔曼滤波、群体运动补偿和时空记忆预测等技术,显著提升了小目标跟踪的准确性和鲁棒性。
- Motivation: 无人机视角下的多目标跟踪在智能交通系统分析中具有重要价值,但面临小目标尺度变化、遮挡、非线性交叉运动和运动模糊等挑战,严重影响跟踪稳定性。
- Method: 提出SocialTrack框架,包含:1)多尺度特征增强的小目标检测器;2)速度自适应容积卡尔曼滤波(VACKF)用于轨迹预测;3)群体运动补偿策略(GMCS)建模社会群体运动先验;4)时空记忆预测(STMP)利用历史轨迹信息预测未来状态。
- Result: 在UAVDT和MOT17数据集上的大量实验表明,SocialTrack在多个关键指标上优于现有最先进方法,特别是在MOTA和IDF1等核心性能指标上有显著提升。
- Conclusion: SocialTrack框架在复杂无人机视角下的小目标多目标跟踪中表现出优异的鲁棒性和适应性,具有高度模块化和兼容性,可与现有跟踪器无缝集成以进一步提升性能。
[115] Leveraging Diffusion Models for Stylization using Multiple Style Images
Dan Ruta,Abdelaziz Djelouah,Raphael Ortiz,Christopher Schroers
Main category: cs.CV
TL;DR: 通过多样式图片和统计对齐技术,提出了一种在潜在扩散模型中实现更准确图像风格转换的方法,解决了风格匿合不准和内容漏泄问题
- Motivation: 现有图像风格转换方法在准确匿合风格、支持多样式图片数量、避免内容风格缠结方面仍然存在问题
- Method: 利用多个风格图片来更好表征风格特征,通过图像提示适配器和去噪过程中的特征统计对齐来实现。在去噪UNet的交叉注意力和自注意力层进行干预,使用聚类技术从大量风格样本中提炼小量代表性注意力特征
- Result: 该方法在图像风格化任务上达到了最先进水平
- Conclusion: 通过多样式图片结合统计对齐技术,有效解决了图像风格转换中的关键问题,实现了更准确的风格匿合和内容保留
[116] Vehicle detection from GSV imagery: Predicting travel behaviour for cycling and motorcycling using Computer Vision
Kyriaki,Kokka,Rahul Goel,Ali Abbas,Kerry A. Nice,Luca Martial,SM Labib,Rihuan Ke,Carola Bibiane Schönlieb,James Woodcock
Main category: cs.CV
TL;DR: 利用路凵图像和深度学习技术,通过分析Google Street View图像来估算全球各城市的骑自行车和骑摩托车的交通方式分享率
- Motivation: 交通方式影响健康,但全球范围内关于骑自行车和骑摩托车行为的比较数据缺乏,需要一种高效的方法来收集这些数据
- Method: 使用YOLOv4模型分析185个城市的Google Street View图像(每个城市8000张图片),识别自行车和摩托车,然后使用beta回归模型以城市人口密度为控制变量预测交通方式分享率
- Result: 模型识别自行车和摩托车的准确率达89%,预测模型的R²值为0.614(自行车)和0.612(摩托车),中位数绝对误差分别为1.3%和1.4%,摩托车计数与实际使用率相关系数高达0.78
- Conclusion: 通过计算机视觉分析Google Street View图像可以高效地收集交通方式数据,为中东、拉丁美洲和东亚等地区的城市提供了新的交通方式估算,补充了传统调查数据的不足
[117] Morphological classification of eclipsing binary stars using computer vision methods
Štefan Parimucha,Maksim Gabdeev,Yanna Markus,Martin Vaňko,Pavol Gajdoš
Main category: cs.CV
TL;DR: 基于卷积神经网络和视觉Transformer的模型,通过极坐标变换和hexbin可视化技术,对蔽月双星光变曲进行分类,在多个广波段上获得了高准确率的分离双星和过接触双星识别,但在自动斑点检测任务上表现差强。
- Motivation: 使用计算机视觉方法对大规模天文调查中的蔽月双星进行形态分类,解决传统方法在处理大量数据时的效率问题。
- Method: 采用预训练的ResNet50和ViT模型,通过极坐标变换和hexbin可视化技术将相位折叠光变曲转换为图像,采用层次分类策略,首先分类分离和过接触类型,然后识别斑点存在性。
- Result: 在Gaia G、I和TESS等多个广波段上获得了高于96%的验证准确率,在OGLE、DEBCat和WUMaCat观测数据上表现优异(准确率94%-100%),但自动斑点检测性能差强。
- Conclusion: 计算机视觉方法在蔽月双星形态分类中具有强大潜力,特别适用于大规模调查,但需要进一步研究提高自动斑点检测的稳健性。
[118] Next Visual Granularity Generation
Yikai Wang,Zhouxia Wang,Zhonghua Wu,Qingyi Tao,Kang Liao,Chen Change Loy
Main category: cs.CV
TL;DR: 提出了一种新的图像生成方法NVG,通过将图像分解为结构化序列,从全局布局到细节逐步细化生成,在ImageNet上取得了优于VAR系列的FID分数。
- Motivation: 传统图像生成方法缺乏对生成过程的细粒度控制,需要一种能够分层级、结构化生成图像的新框架。
- Method: 将图像分解为结构化序列,每个序列元素具有相同空间分辨率但不同视觉粒度。使用Next Visual Granularity (NVG)框架从空图像开始逐步细化生成。
- Result: 在ImageNet数据集上训练NVG模型,FID分数显著优于VAR系列(3.30->3.03, 2.57->2.44, 2.09->2.06),表现出良好的扩展性。
- Conclusion: NVG框架提供了分层级的图像生成控制,在多个粒度级别上实现了优异的生成性能,具有很大的潜力和应用前景。
[119] SIS-Challenge: Event-based Spatio-temporal Instance Segmentation Challenge at the CVPR 2025 Event-based Vision Workshop
Friedhelm Hamann,Emil Mededovic,Fabian Gülhan,Yuli Wu,Johannes Stegmaier,Jing He,Yiqing Wang,Kexin Zhang,Lingling Li,Licheng Jiao,Mengru Ma,Hongxiang Huang,Yuhao Yan,Hongwei Ren,Xiaopeng Lin,Yulong Huang,Bojun Cheng,Se Hyun Lee,Gyu Sung Ham,Kanghan Oh,Gi Hyun Lim,Boxuan Yang,Bowen Du,Guillermo Gallego
Main category: cs.CV
TL;DR: CVPR 2025事件视觉研讨会举办的时空实例分割挑战赛概述,包含任务描述、数据集、挑战细节和结果分析,以及前5名团队的方法介绍
- Motivation: 推动事件相机和灰度相机数据在时空实例分割任务中的应用,促进该领域的技术发展和算法创新
- Method: 基于时空对齐的事件相机和灰度相机数据,预测精确的像素级分割掩码,为定义的物体类别提供分割结果
- Result: 提供了挑战赛的完整概述,包括任务设置、数据集信息、评估标准和参赛团队的表现结果
- Conclusion: 该挑战赛成功推动了事件视觉领域的发展,展示了多种有效的时空实例分割方法,为后续研究提供了重要参考
[120] DEEP-SEA: Deep-Learning Enhancement for Environmental Perception in Submerged Aquatics
Shuang Chen,Ronald Thenius,Farshad Arvin,Amir Atapour-Abarghouei
Main category: cs.CV
TL;DR: DEEP-SEA是一个基于深度学习的海底图像恢复模型,通过双频增强自注意力机制同时优化空间和频率域特征,有效解决水下图像退化问题。
- Motivation: 水下环境存在光散射、吸收和浑浊等问题,导致图像清晰度下降和颜色失真,影响海洋生物多样性监测和生态评估的准确性。
- Method: 提出DEEP-SEA模型,采用双频增强自注意力空间和频率调制器,自适应地在频率域和空间域中细化特征表示,保持空间结构完整性。
- Result: 在EUVP和LSUI数据集上的实验表明,该模型在恢复精细图像细节和结构一致性方面优于现有最先进方法。
- Conclusion: DEEP-SEA通过有效缓解水下视觉退化问题,有望提高水下监测平台的可靠性,实现更准确的生态观测、物种识别和自主导航。
[121] Multi-source Multimodal Progressive Domain Adaption for Audio-Visual Deception Detection
Ronghao Lin,Sijie Mai,Ying Zeng,Qiaolin He,Aolin Xiong,Haifeng Hu
Main category: cs.CV
TL;DR: 提出MMPDA框架解决多模态欺骗检测中的域偏移问题,通过渐进式域适应方法在特征和决策层面对齐源域和目标域,在MMDD挑战赛中取得Top-2成绩
- Motivation: 解决多模态欺骗检测中源域和目标域之间的域偏移问题,特别是在多样化的多模态数据集之间
- Method: 多源多模态渐进式域适应(MMPDA)框架,通过在特征和决策层面逐步对齐源域和目标域来转移音频-视觉知识
- Result: 在竞赛第二阶段达到60.43%准确率和56.99% F1分数,F1分数比第一名高5.59%,准确率比第三名高6.75%
- Conclusion: MMPDA框架有效解决了多模态欺骗检测中的域适应问题,在挑战赛中表现优异,证明了渐进式域适应方法的有效性
[122] Cross-Domain Few-Shot Learning via Multi-View Collaborative Optimization with Vision-Language Models
Dexia Chen,Wentao Zhang,Qianjie Zhu,Ping Hu,Weibing Li,Tong Zhang,Ruixuan Wang
Main category: cs.CV
TL;DR: 通过多视图协同优化策略CoMuCo,提升视觉-语言模型在跨域少样本任务中的性能
- Motivation: 当前的VLM调优方法在跨域任务中表现有限,需要解决基于自然图像领域知识在其他图像领域的过度适配问题
- Method: 提出CoMuCo策略,使用两个功能互补的专家模块提取多视图特征,结合先验知识一致性约束和信息几何共识机制
- Result: 在新建立的跨域少样本测试集上,CoMuCo持续超越当前最佳方法
- Conclusion: CoMuCo有效提升了VLM在跨域少样本任务中的表现,为跨领域应用提供了新的解决方案
[123] Preserve and Sculpt: Manifold-Aligned Fine-tuning of Vision-Language Models for Few-Shot Learning
Dexia Chen,Qianjie Zhu,Weibing Li,Yue Yu,Tong Zhang,Ruixuan Wang
Main category: cs.CV
TL;DR: MPS-Tuning是一种新颖的视觉语言模型微调方法,通过保持语义流形的几何结构并增强类别可分性来提升少样本图像分类性能。
- Motivation: 现有的视觉语言模型微调方法往往忽略数据分布的几何结构,可能导致整体语义表示的扭曲,需要一种能够保持流形结构的方法。
- Method: 将特征空间中的数据分布视为语义流形,通过对齐微调前后的Gram矩阵来保持流形的宏观和微观拓扑结构,同时优化图像和文本模态的特征对相似性来增强类别可分性。
- Result: 大量实验表明MPS-Tuning显著提升了模型性能,同时有效保持了语义流形的结构。
- Conclusion: MPS-Tuning通过几何结构保持和流形雕刻,为视觉语言模型的微调提供了一种有效的新方法,在保持语义完整性的同时提升了分类性能。
[124] S^2-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models
Chubin Chen,Jiashu Zhu,Xiaokun Feng,Nisha Huang,Meiqi Wu,Fangyuan Mao,Jiahong Wu,Xiangxiang Chu,Xiu Li
Main category: cs.CV
TL;DR: S^2-Guidance是一种新的扩散模型引导方法,通过随机块丢弃构建子网络来改进Classifier-free Guidance的次优预测,在文本到图像和文本到视频生成任务中表现优于CFG和其他先进方法。
- Motivation: 研究发现Classifier-free Guidance (CFG)在扩散模型中存在次优预测问题,导致语义不一致和低质量输出,需要更好的引导策略来提升生成质量。
- Method: 提出S^2-Guidance方法,在前向过程中使用随机块丢弃来构建随机子网络,有效引导模型远离低质量预测,朝向高质量输出。
- Result: 在文本到图像和文本到视频生成任务上的大量实验表明,S^2-Guidance在定性和定量评估中都优于CFG和其他先进引导策略。
- Conclusion: S^2-Guidance通过利用模型自身的子网络来精炼预测,成功解决了CFG的局限性,为扩散模型提供了更有效的引导机制。
[125] ONG: One-Shot NMF-based Gradient Masking for Efficient Model Sparsification
Sankar Behera,Yamuna Prasad
Main category: cs.CV
TL;DR: 一种新的一次性剪枝方法ONG,利用非负矩阵分解和梯度遮置机制,在训练初期实现高效的稀疏化,保持结构完整性和目标稀疏度。
- Motivation: 深度神经网络模型过大导致部署困难,现有剪枝技术存在迭代复杂、特殊标准或无法有效维持稀疏度等问题。
- Method: 使用非负矩阵分解(NMF)识别重要权重结构,在训练初期进行一次性剪枝,然后通过精确的梯度遮置机制仅更新未剪枝权重,严格保持目标稀疏度。
- Result: 在CIFAR-10和CIFAR-100数据集上使用ResNet56、ResNet34和ResNet18模型进行实验,ONG在各种稀疏度水平下都能达到相当或更优的性能,同时保持了剪枝后的结构完整性。
- Conclusion: ONG提供了一种高效、简洁的一次性剪枝方案,能够在训练过程中稳定维持目标稀疏度,为深度神经网络的稀疏化提供了明确的机制。
[126] CTFlow: Video-Inspired Latent Flow Matching for 3D CT Synthesis
Jiayi Wang,Hadrien Reynaud,Franciskus Xaverius Erick,Bernhard Kainz
Main category: cs.CV
TL;DR: CTFlow是一个0.5B参数的潜在流匹配变换器模型,能够根据临床报告生成完整的3D CT扫描体积,在时间一致性、图像多样性和文本-图像对齐方面优于现有方法。
- Motivation: 通过基于临床报告生成完整CT体积,可以加速医学研究的数据增强、实现隐私保护的合成数据生成,并减少对患者数据的监管限制,同时保留诊断信号。
- Method: 使用FLUX的A-VAE定义潜在空间,CT-Clip文本编码器编码临床报告。采用自定义自回归方法生成整个CT体积:首先生成第一个切片序列,然后基于先前生成的序列和文本预测后续序列。
- Result: 在FID、FVD、IS分数和CLIP分数评估中,CTFlow在时间一致性、图像多样性和文本-图像对齐方面优于最先进的生成CT模型。
- Conclusion: CTFlow成功实现了基于临床报告的完整3D CT体积生成,为医学影像数据合成提供了有效的解决方案,在多个评估指标上表现出优越性能。
[127] CMF-IoU: Multi-Stage Cross-Modal Fusion 3D Object Detection with IoU Joint Prediction
Zhiwei Ning,Zhaojiang Liu,Xuanang Gao,Yifan Zuo,Jie Yang,Yuming Fang,Wei Liu
Main category: cs.CV
TL;DR: CMF-IOU是一个多阶段跨模态融合的3D检测框架,通过深度补全网络将像素信息投影到3D空间生成伪点云,设计双边跨视图增强3D骨干网络,并引入迭代体素点感知细粒度池化模块,在KITTI、nuScenes和Waymo数据集上表现出优异性能。
- Motivation: 现有的多模态3D检测方法大多只进行单阶段或部分阶段融合,导致特征提取不足和性能不佳,需要解决3D空间信息与2D语义信息的对齐挑战。
- Method: 1) 通过深度补全网络生成伪点云统一表示;2) 设计双边跨视图增强3D骨干网络(S2D分支和ResVC分支);3) 引入迭代体素点感知细粒度池化模块;4) 设计IoU联合预测分支和新的候选框生成技术。
- Result: 在KITTI、nuScenes和Waymo三个主流数据集上的大量实验表明,该方法取得了优越的性能表现。
- Conclusion: CMF-IOU通过多阶段跨模态融合有效解决了3D空间与2D语义信息的对齐问题,显著提升了3D检测性能。
[128] 7Bench: a Comprehensive Benchmark for Layout-guided Text-to-image Models
Elena Izzo,Luca Parolari,Davide Vezzaro,Lamberto Ballan
Main category: cs.CV
TL;DR: 7Bench是首个同时评估语义和空间对齐的布局引导文本到图像生成基准,涵盖7个挑战性场景,包含文本-布局对和评估协议。
- Motivation: 现有基准只评估文本对齐,忽略了布局对齐,无法全面评估模型的空间保真度,这在合成数据生成等应用中至关重要。
- Method: 创建包含7个挑战场景的文本-布局对数据集,提出结合布局对齐分数的评估协议来评估空间准确性。
- Result: 使用7Bench评估了多个最先进的扩散模型,揭示了它们在不同对齐任务中的优势和局限性。
- Conclusion: 7Bench填补了布局引导文本到图像生成评估的空白,为模型的空间保真度评估提供了重要工具。
[129] Towards High-Resolution Industrial Image Anomaly Detection
Ximiao Zhang,Min Xu,Xiuzhuang Zhou
Main category: cs.CV
TL;DR: HiAD是一个针对高分辨率图像异常检测的通用框架,采用双分支架构和多分辨率特征融合策略,能够有效检测不同大小的异常区域,在计算资源有限的情况下实现高精度检测。
- Motivation: 当前异常检测方法主要针对低分辨率场景,高分辨率图像的传统下采样会导致细粒度判别信息丢失,造成细微异常区域漏检。现有方法在检测精度和效率方面难以满足工业场景的实际需求。
- Method: 提出HiAD框架:1)采用双分支架构整合不同尺度的异常线索;2)多分辨率特征融合策略处理高分辨率图像的细粒度纹理变化;3)使用检测器池配合多种检测器分配策略,根据图像块特征自适应分配检测器。
- Result: 在专门构建的高分辨率异常检测基准(MVTec-HD、VisA-HD和RealIAD-HD)上进行广泛实验,证明了HiAD的优越性能。
- Conclusion: HiAD框架能够有效解决高分辨率图像异常检测中的挑战,在检测精度和计算效率方面都表现出色,适用于工业实际应用场景。
[130] SEDEG:Sequential Enhancement of Decoder and Encoder's Generality for Class Incremental Learning with Small Memory
Hongyang Chen,Shaoling Pu,Lingyu Zheng,Zhongwu Sun
Main category: cs.CV
TL;DR: SEDEG是一个两阶段训练的ViT框架,通过提升编码器和解码器的泛化能力来缓解增量学习中的灾难性遗忘问题,特别在小内存场景下表现优异
- Motivation: 现有增量学习方法通常只关注编码器或解码器中的一个组件,限制了缓解灾难性遗忘的效果,特别是在小内存场景下性能更差
- Method: 两阶段训练框架:第一阶段通过特征增强训练集成编码器学习泛化表示,提升解码器泛化能力;第二阶段使用知识蒸馏策略压缩集成编码器,开发新的更泛化的编码器
- Result: 在三个基准数据集上的广泛实验显示SEDEG具有优越性能,消融研究证实了其组件的有效性
- Conclusion: SEDEG通过顺序提升编码器和解码器的泛化能力,有效缓解了增量学习中的灾难性遗忘问题,特别是在小内存场景下表现出色
[131] Fully Automated Segmentation of Fiber Bundles in Anatomic Tracing Data
Kyriaki-Margarita Bintsi,Yaël Balbastre,Jingjing Wu,Julia F. Lehman,Suzanne N. Haber,Anastasia Yendiki
Main category: cs.CV
TL;DR: Error
- Motivation: Error
- Method: Error
- Result: Error
- Conclusion: Error
[132] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models
Jianshu Zeng,Yuxuan Liu,Yutong Feng,Chenxuan Miao,Zixiang Gao,Jiwang Qu,Jianzhang Zhang,Bin Wang,Kun Yuan
Main category: cs.CV
TL;DR: Lumen是一个端到端的视频重光照框架,基于大规模视频生成模型,通过文本描述控制光照和背景,在保持前景一致性的同时实现和谐的视频重光照效果。
- Motivation: 视频重光照是一个具有挑战性但有价值的任务,需要在替换视频背景的同时相应调整前景光照并实现和谐融合。现有方法缺乏高质量配对视频数据,且难以保持时间帧间的一致性和前景属性(如反照率)的保留。
- Method: 构建混合真实和合成视频的大规模数据集;利用3D渲染引擎创建合成视频对;采用HDR光照模拟补充真实视频;设计联合训练课程,注入领域感知适配器来解耦重光照和领域外观分布的学习。
- Result: 实验结果表明,Lumen能够有效将输入编辑为具有一致光照和严格前景保留的电影级重光照视频,在前景保持和视频一致性评估方面优于现有方法。
- Conclusion: Lumen框架通过大规模混合数据集和领域感知适配器设计,成功解决了视频重光照中的一致性和前景保留问题,为视频编辑提供了有效的解决方案。
[133] MaskSem: Semantic-Guided Masking for Learning 3D Hybrid High-Order Motion Representation
Wei Wei,Shaojie Zhang,Yonghao Dang,Jianqin Yin
Main category: cs.CV
TL;DR: MaskSem是一种新颖的语义引导掩码方法,通过Grad-CAM基于相对运动来指导关节掩码,并使用混合高阶运动作为重建目标,显著提升了自监督骨架动作识别的性能。
- Motivation: 现有的自监督骨架动作识别方法主要关注有限关节集合和低阶运动模式,限制了模型对复杂运动模式的理解能力,特别是在人机协作场景中需要更精确的动作识别。
- Method: 提出MaskSem框架:1)基于相对运动的Grad-CAM来语义引导关节掩码;2)使用混合高阶运动(速度+加速度)作为重建目标;3)结合普通transformer架构进行训练。
- Result: 在NTU60、NTU120和PKU-MMD数据集上的实验表明,该方法显著提升了骨架动作识别性能,使其更适用于人机交互应用。
- Conclusion: 语义引导的掩码策略和混合高阶运动重建目标能够有效提升模型对复杂运动模式的理解能力,为自监督骨架动作识别提供了新的有效方法。
[134] Breaking Reward Collapse: Adaptive Reinforcement for Open-ended Medical Reasoning with Enhanced Semantic Discrimination
Yizhou Liu,Jingwei Wei,Zizhi Chen,Minghao Han,Xukun Zhang,Keliang Liu,Lihua Zhang
Main category: cs.CV
TL;DR: ARMed是一个用于开放式医学视觉问答的新型强化学习框架,通过结合文本正确性和自适应语义奖励来提升医学推理质量,在多个医学VQA基准测试中显著提升了准确性和泛化能力。
- Motivation: 现有的强化微调方法主要针对封闭式医学视觉问答,限制了在真实临床推理中的应用。开放式医学VQA更能反映临床实践但研究较少,且基于模型的语义奖励存在奖励塌陷问题。
- Method: ARMed框架首先通过监督微调在思维链数据中融入领域知识,然后应用强化学习结合文本正确性和自适应语义奖励来增强推理质量。
- Result: 在六个具有挑战性的医学VQA基准测试中,ARMed在域内任务上实现了32.64%的改进,在域外基准上获得了11.65%的提升。
- Conclusion: 研究强调了奖励可区分性在医学强化学习中的关键作用,以及语义引导奖励在实现稳健且具有临床意义的多模态推理方面的潜力。
[135] Multi-Phase Automated Segmentation of Dental Structures in CBCT Using a Lightweight Auto3DSeg and SegResNet Implementation
Dominic LaBella,Keshav Jha,Jared Robbins,Esther Yu
Main category: cs.CV
TL;DR: DLaBella29团队在MICCAI 2025 ToothFairy3挑战赛中提出的基于3D SegResNet架构的深度学习管道,用于CBCT牙齿多类别分割,在验证集上达到平均Dice分数0.87
- Motivation: 自动化CBCT牙齿结构分割可有效辅助病理识别(如牙髓或根尖周病变)和头颈癌患者的放射治疗规划,提高患者护理质量
- Method: 使用MONAI Auto3DSeg框架和3D SegResNet架构,采用5折交叉验证训练,关键预处理包括图像重采样到0.6mm各向同性分辨率和强度裁剪,采用多标签STAPLE集成融合和两阶段分割策略
- Result: 在ToothFairy3挑战赛的样本外验证集上取得了平均Dice分数0.87的优异性能
- Conclusion: 该方法展示了自动化牙齿分割在放射肿瘤学中改善患者护理的相关性和有效性,为临床诊断和治疗规划提供了高效辅助工具
[136] GazeDETR: Gaze Detection using Disentangled Head and Gaze Representations
Ryan Anthony Jalova de Belen,Gelareh Mohammadi,Arcot Sowmya
Main category: cs.CV
TL;DR: GazeDETR是一个新颖的端到端架构,使用两个解耦的解码器分别处理头部定位和视线预测任务,在多个数据集上达到最先进性能。
- Motivation: 现有端到端视线检测模型使用单一解码器同时定位头部和预测视线,导致表示纠缠。需要解耦这两个任务以获得更好的性能。
- Method: 提出GazeDETR架构,包含两个独立的解码器:一个专门用于头部定位(使用局部信息),另一个用于视线预测(结合局部和全局信息),利用连贯注意力场。
- Result: 在GazeFollow、VideoAttentionTarget和ChildPlay数据集上取得最先进结果,显著优于现有端到端模型。
- Conclusion: 解耦头部定位和视线预测任务的双解码器架构能够学习独特的表示,有效提升视线检测性能。
[137] Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation
Qirui Li,Guangcong Zheng,Qi Zhao,Jie Li,Bin Dong,Yiwu Yao,Xi Li
Main category: cs.CV
TL;DR: 通过分析视频波散Transformer的注意力矩阵结构,发现其存在异质性稀疏模式,提出Compact Attention加速框架,通过自适应分块策略和时间变化窗口等技术,实现1.6~2.5倍的注意力计算加速。
- Motivation: 解决自注意力机制在辅助视频生成中的计算要求高挑战,尤其是在合成超长序列时,并充分利用视频数据的内在空间时间冗余性。
- Method: 提出Compact Attention加速框架,包括:1)自适应分块策略,通过动态分组近似多样化空间交互模式;2)时间变化窗口,根据帧距离调整稀疏程度;3)自动化配置搜索算法,优化稀疏模式同时保留关键注意力途径。
- Result: 在单GPU环境下实现了注意力计算1.6~2.5倍的加速,同时保持了与全注意力基线相当的视觉质量。
- Conclusion: 该工作提供了一种有理论基础的方法,通过利用结构化稀疏性来实现高效的长形式视频生成。
[138] Dextr: Zero-Shot Neural Architecture Search with Singular Value Decomposition and Extrinsic Curvature
Rohan Asthana,Joschua Conrad,Maurits Ortmanns,Vasileios Belagiannis
Main category: cs.CV
TL;DR: 通过结合频道共线性、特征奇异值分解和外在曲率的方法,提出了一种无需标签数据的零成本代理指标,用于预测神经网络的收敛性、普遍化性和表达能力。
- Motivation: 现有的零成本代琇方法多数需要标签数据,且主要关注收敛性和普遍化性或单纯关注网络表达能力,无法结合这三者。
- Method: 利用神经网络层特征的奇异值分解(SVD)和网络输出的外在曲率,设计了一种简化调和平均形式的代琇指标,只需单个无标签数据样本即可计算。
- Result: 在多个相关性测试中表现优异,包括NAS-Bench-101、NAS-Bench-201、TransNAS-Bench-101-micro以及DARTS和AutoFormer搜索空间的NAS任务,同时具有高效的计算性能。
- Conclusion: 该方法成功地结合了神经网络的收敛性、普遍化性和表达能力三个关键属性,提供了一种无需标签数据的高效零成本代琇方案,在实际应用场景中具有重要价值。
[139] Omni Survey for Multimodality Analysis in Visual Object Tracking
Zhangyong Tang,Tianyang Xu,Xuefeng Zhu,Hui Li,Shaochuan Zhao,Tao Zhou,Chunyang Cheng,Xiaojun Wu,Josef Kittler
Main category: cs.CV
TL;DR: 这是一份关于多模态视觉目标跟踪(MMVOT)的综述性论文,从数据收集、模态对齐、模型设计和评估四个关键方面全面分析了多模态跟踪与单模态跟踪的差异,涵盖6个MMVOT任务和338篇参考文献。
- Motivation: 智慧城市发展产生了大量多模态数据,需要对多模态视觉目标跟踪进行系统性研究,以支持城市基础设施和服务的全面监控。
- Method: 从四个关键方面分析MMVOT:数据收集、模态对齐和注释、模型设计、评估标准;按处理可见光(RGB)和其他模态(X)的不同方式对现有方法进行分类,其中X包括热红外(T)、深度(D)、事件(E)、近红外(NIR)、语言(L)或声纳(S)。
- Result: 完成了对所有多模态视觉目标跟踪方面的全面调查,统计338篇相关文献,首次分析了现有MMVOT数据集中目标类别的分布,发现其呈现明显的长尾分布特征且动物类别缺乏。
- Conclusion: 多模态跟踪并非总是比单模态跟踪更优,需要明确其应用场景的优势条件;数据集的长尾分布特征和动物类别缺乏问题需要关注。
[140] Empirical Evidences for the Effects of Feature Diversity in Open Set Recognition and Continual Learning
Jiawen Xu,Odej Kao
Main category: cs.CV
TL;DR: 本文通过实证研究表明,增强特征多样性可以改善开放集识别性能,并促进持续学习中旧知识的保留和新知识的整合。
- Motivation: 开放集识别和持续学习是机器学习中的两个关键挑战,虽然已有许多启发式方法通过促进特征多样性来解决这些问题,但很少有研究直接探讨特征多样性在这些任务中的作用。
- Method: 通过实证研究分析特征多样性对开放集识别和持续学习性能的影响。
- Result: 增强特征多样性可以显著提高开放集样本的识别能力,同时在持续学习中既有助于保留已学知识,又便于整合新数据。
- Conclusion: 研究结果可为这两个领域的实用方法和理论理解提供启发,推动进一步的研究探索。
[141] SlimComm: Doppler-Guided Sparse Queries for Bandwidth-Efficient Cooperative 3-D Perception
Melih Yazgan,Qiyuan Wu,Iramm Hamdard,Shiqi Li,J. Marius Zoellner
Main category: cs.CV
TL;DR: SlimComm是一个通信高效的协作感知框架,通过整合4D雷达多普勒信息和查询驱动的稀疏方案,显著降低带宽需求同时保持感知精度
- Motivation: 解决协作感知中密集BEV特征图传输对车辆间通信带宽的巨大压力,同时克服遮挡和传感器范围限制的问题
- Method: 构建运动中心动态地图区分动静物体,生成参考查询(动态和高置信区域)和探索查询(遮挡区域),仅交换查询特定BEV特征,通过多尺度门控可变形注意力进行融合
- Result: 带宽降低达90%,在多种交通密度和遮挡情况下匹配或超越现有基线方法
- Conclusion: SlimComm框架有效解决了协作感知的通信瓶颈问题,通过智能查询机制和雷达多普勒信息整合实现了高效准确的环境感知
[142] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model
Xianglong He,Chunli Peng,Zexiang Liu,Boyang Wang,Yifan Zhang,Qi Cui,Fei Kang,Biao Jiang,Mengyin An,Yangyang Ren,Baixin Xu,Hao-Xiang Guo,Kaixiong Gong,Cyrus Wu,Wei Li,Xuchen Song,Yang Liu,Eric Li,Yahui Zhou
Main category: cs.CV
TL;DR: Matrix-Game 2.0是一个实时交互式世界模型,通过少步自回归扩散生成高质量长视频,速度达到25FPS
- Motivation: 现有交互式世界模型依赖双向注意力和冗长推理步骤,严重限制了实时性能,难以模拟需要即时更新的真实世界动态
- Method: 包含三个关键组件:1)可扩展的数据生产流水线,从Unreal Engine和GTA5环境生成约1200小时带交互标注的视频数据;2)动作注入模块,支持帧级鼠标键盘输入作为交互条件;3)基于因果架构的少步蒸馏,实现实时流式视频生成
- Result: 能够以超快速度25FPS生成分钟级别的高质量视频,覆盖多样化场景
- Conclusion: 该框架为交互式世界建模研究提供了重要进展,并开源了模型权重和代码库
[143] EgoTwin: Dreaming Body and View in First Person
Jingqiao Xiu,Fangzhou Hong,Yicong Li,Mengze Li,Wentao Wang,Sirui Han,Liang Pan,Ziwei Liu
Main category: cs.CV
TL;DR: 提出了EgoTwin框架,用于联合生成第一人称视角视频和人体运动,解决了视角对齐和因果交互两个关键挑战
- Motivation: 虽然外中心视角视频合成取得了很大进展,但第一人称视角视频生成仍然很少被探索,需要同时建模第一人称视角内容和穿戴者身体运动引起的相机运动模式
- Method: 基于扩散变换器架构构建EgoTwin框架,引入以头部为中心的运动表示方法,并采用控制论启发的交互机制在注意力操作中显式捕捉视频与运动之间的因果交互
- Result: 构建了大规模的真实世界同步文本-视频-运动三元组数据集,设计了新的评估指标来评估视频-运动一致性,大量实验证明了EgoTwin框架的有效性
- Conclusion: EgoTwin框架成功解决了第一人称视频和人体运动联合生成的关键挑战,为这一新兴领域提供了有效的解决方案
[144] HierAdaptMR: Cross-Center Cardiac MRI Reconstruction with Hierarchical Feature Adapters
Ruru Xu,Ilkay Oksuz
Main category: cs.CV
TL;DR: HierAdaptMR是一个分层特征适应框架,通过参数高效适配器解决多中心心脏MRI重建中的域偏移问题,在CMRxRecon2025数据集上表现出优异的跨中心泛化能力。
- Motivation: 深度学习心脏MRI重建在多临床中心部署时面临显著的域偏移挑战,不同扫描仪配置和成像协议导致性能下降。
- Method: 采用分层特征适应框架:协议级适配器处理序列特定特征,中心级适配器处理扫描仪相关变化,基于变分展开主干网络。通用适配器通过随机训练学习中心不变适应,实现完全未见中心的泛化。使用多尺度SSIM损失和频域增强进行优化。
- Result: 在CMRxRecon2025数据集(5+中心、10+扫描仪、9种模态)上的综合评估显示,该方法在保持重建质量的同时实现了优异的跨中心泛化性能。
- Conclusion: HierAdaptMR通过分层适配器有效解决了多中心心脏MRI重建的域偏移问题,为临床部署提供了可靠的解决方案。
[145] IntelliCap: Intelligent Guidance for Consistent View Sampling
Ayaka Yasunaga,Hideo Saito,Dieter Schmalstieg,Shohei Mori
Main category: cs.CV
TL;DR: 一种基于视觉-语言模型的扫描指导技术,通过识别重要物体并生成球形代理来指导用户进行密集的多视角图像采集,以提升新视角合成质量
- Motivation: 当前新视角合成技术已经取得重大进步,但在帮助人类收集输入图像方面具有显著缺口。人类操作员常常因急忙、耐心不足或不理解场景结构,无法满足高质量视图合成所需的均匀密集视角采样要求
- Method: 提出一种位置可视化技术,在扫描过程中识别需要扩展图像覆盖的重要物体。利用语义分割和类别识别,通过视觉-语言模型进行排名,为高排名物体生成球形代理来指导用户扫描
- Result: 在真实场景中表现出优于传统视角采样策略的性能
- Conclusion: 该方法有效解决了高质量新视角合成中的图像采集指导问题,通过智能化的物体重要性判断和可视化指导,显著提升了扫描效果
[146] Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping
Siddharth Khandelwal,Sridhar Kamath,Arjun Jain
Main category: cs.CV
TL;DR: 人体形态编辑新方法Odo,通过流式模型和专门数据集实现质量显著提升的身体形状变换,重建误差从13.6mm降至7.5mm
- Motivation: 人体形态编辑领域缺乏大规模公开数据集,现有方法存在身体比例不真实、纹理扭曲和背景不一致等问题
- Method: 构建包含18,573张图片的大规模数据集,提出Odo流式基础方法,结合冻结UNet保留外观细节和ControlNet通过SMPL深度地图指导形态变换
- Result: 在重建误差方面显著优于基线方法(从13.6mm降至7.5mm),能够生成质量更高、更现实的身体形态编辑结果
- Conclusion: 该研究为人体形态编辑领域提供了量化评估标准和高质量数据集,Odo方法实现了更准确和现实的身体形态操纵
[147] Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation
Tanjim Islam Riju,Shuchismita Anwar,Saman Sarker Joy,Farig Sadeque,Swakkhar Shatabda
Main category: cs.CV
TL;DR: 一个两阶段多模态框架,通过视线指导的对比学习提升疾病分类,并使用模块化报告生成管道产生区域对齐的医学报告。
- Motivation: 利用攻师视线跟踪数据来提升胸部X光照的疾病分类性能和生成报告的可解释性。
- Method: 第一阶段:视线指导的对比学习架构,整合视觉特征、临床标签、盒子和眼动信号,使用多项视线注意力损失函数。第二阶段:模块化报告生成管道,提取信心度加权的诊断关键词,映射到解剖区域,通过结构化提示生成区域对齐的句子。
- Result: 视线数据将F1分数从0.597提升到0.631(+5.70%),AUC从0.821提升到0.849(+3.41%),同时提高了精度和召回率。报告生成质量在临床关键词召回率和ROUGE重合指标上都有改善。
- Conclusion: 集成视线数据能够同时提高疾病分类性能和生成医学报告的可解释性,证明了视线信息在医学图像分析中的效用。
[148] ID-Card Synthetic Generation: Toward a Simulated Bona fide Dataset
Qingwen Zeng,Juan E. Tapia,Izan Garcia,Juan M. Espin,Christoph Busch
Main category: cs.CV
TL;DR: 通过稳定散布生成合成身份证真实图像,提升阻止攻击检测系统的性能和通用性
- Motivation: 解决ID卡阻止攻击检测系统中真实图像样本数量不足和攻击手段多样化的挑战
- Method: 使用Stable Diffusion生成合成的真实ID卡图像,补充训练数据集
- Result: 生成的合成图像被商业解决方案识别为真实图像,提高了检测性能
- Conclusion: 合成图像生成技术可有效解决真实样本数据不足问题,提升PAD系统的通用性和检测效果
[149] Checkmate: interpretable and explainable RSVQA is the endgame
Lucrezia Tosato,Christel Tartini Chappuis,Syrielle Montariol,Flora Weissgerber,Sylvain Lobry,Devis Tuia
Main category: cs.CV
TL;DR: 通过创建新的Chessboard数据集和Checkmate模型,解决远感视觉问答中的可解释性和偏差问题,实现细粒度的视觉推理和可信的决策刻画。
- Motivation: 当前远感视觉问答模型存在可解释性不足、偏差问题以及短路学习等问题,需要提高模型的透明度和可信过程。
- Method: 创建包含3,123,253个问题的Chessboard数据集,符合均衡答案分布,每个答案都与图像中具体像素相关联。开发Checkmate模型,能够识别决策过程中最关键的图像像素。
- Result: 通过多种模型架构的实验验证,该方法显著提高了远感视觉问答系统的透明度和可解释性。
- Conclusion: 所提出的Chessboard数据集和Checkmate模型有效地解决了远感视觉问答中的可解释性和偏差问题,为建立更可信的决策刻画提供了有力支持。
[150] DMS:Diffusion-Based Multi-Baseline Stereo Generation for Improving Self-Supervised Depth Estimation
Zihua Liu,Yizhou Li,Songyan Zhang,Masatoshi Okutomi
Main category: cs.CV
TL;DR: 提出DMS方法,利用扩散模型的几何先验合成新视角图像来解决自监督立体匹配和单目深度估计中的遮挡和出框区域问题
- Motivation: 自监督方法使用立体图像作为监督信号的研究相对较少,主要挑战在于光度重建中的模糊性,特别是在遮挡和出框区域缺乏对应像素
- Method: 微调Stable Diffusion模型,通过方向提示沿极线方向合成新视角(左-左视图、右-右视图和中间新视图),补充遮挡像素以进行显式光度重建
- Result: 在多个基准数据集上达到最先进性能,异常值减少高达35%
- Conclusion: DMS是一种无需成本的即插即用方法,仅需未标注的立体图像对即可显著提升自监督立体匹配和单目深度估计性能
[151] Real-Time Beach Litter Detection and Counting: A Comparative Analysis of RT-DETR Model Variants
Miftahul Huda,Arsyiah Azahra,Putri Maulida Chairani,Dimas Rizky Ramadhani,Nabila Azhari,Ade Lailani
Main category: cs.CV
TL;DR: RT-DETR模型用于海滩垃圾检测,RT-DETR-X精度略高但计算成本大,RT-DETR-L在速度和精度间取得更好平衡,更适合实时部署
- Motivation: 海岸污染是全球性环境问题,需要可扩展的自动化监测解决方案,研究先进的目标检测模型在海滩垃圾自动检测和计数中的应用效果
- Method: 使用RT-DETR-L和RT-DETR-X两种变体模型,在公开的海岸垃圾数据集上进行训练和比较分析
- Result: RT-DETR-X模型mAP@50为0.816,mAP@50-95为0.612;RT-DETR-L模型mAP@50为0.810,mAP@50-95为0.606。RT-DETR-L推理时间20.1ms,RT-DETR-X为34.5ms
- Conclusion: RT-DETR-L模型在处理速度和检测精度之间提供了更好的平衡,更适合实时野外部署,为基于Transformer的先进检测器在环境保护中的应用提供了重要见解
[152] Precise Action-to-Video Generation Through Visual Action Prompts
Yuang Wang,Chao Wen,Haoyu Guo,Sida Peng,Minghan Qin,Hujun Bao,Xiaowei Zhou,Ruizhen Hu
Main category: cs.CV
TL;DR: 视觉动作提示(VAP)通过将动作渲染为空间精确的骨架表示,解决了动作到视频生成中的精度与通用性的争议,支持复杂高自由度交互的精确控制和跨领域动态转移。
- Motivation: 现有的动作驱动视频生成方法存在精度与通用性的争议:文本、原始动作或粗糕掩码方法具有通用性但缺乏精度,而代理中心的动作信号虽有精度但跨领域转移性差。需要找到一种方法来平衡动作精度和动态转移能力。
- Method: 提出将动作"渲染"为精确的视觉提示(视觉骨架)作为领域无关表示,保持几何精度和跨领域适应性。构建了从人类-物体交互(HOI)和灵巧机器人操作数据源中生成骨架的稳健流程,通过轻量级微调将视觉骨架集成到预训练视频生成模型中。
- Result: 在EgoVid、RT-1和DROID数据集上的实验证明了该方法的有效性,能够实现复杂交互的精确动作控制,同时保持跨领域动态的学习能力。
- Conclusion: 视觉动作提示提供了一种统一的动作表示方案,成功地在高自由度复杂交互的精确控制和跨领域动态转移能力之间取得了平衡,为动作驱动的视频生成领域带来了重要进展。
[153] Motion2Motion: Cross-topology Motion Transfer with Sparse Correspondence
Ling-Hao Chen,Yuhong Zhang,Zixin Yin,Zhiyang Dou,Xin Chen,Jingbo Wang,Taku Komura,Lei Zhang
Main category: cs.CV
TL;DR: Motion2Motion是一个无需训练的新框架,通过稀疏骨骼对应关系实现不同拓扑结构角色之间的运动迁移,在相似骨骼和跨物种骨骼迁移场景中均表现优异。
- Motivation: 解决不同骨骼拓扑结构角色间运动迁移的挑战,当前缺乏大规模配对运动数据集限制了数据驱动方法的发展。
- Method: 基于稀疏骨骼对应关系,仅需目标骨骼上的一个或几个示例运动,无需训练即可实现运动迁移。
- Result: 在定性和定量评估中表现出高效可靠的性能,成功应用于下游应用和用户界面。
- Conclusion: Motion2Motion框架具有工业应用潜力,能够有效解决跨拓扑结构运动迁移问题。
[154] Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
Zhongang Cai,Yubo Wang,Qingping Sun,Ruisi Wang,Chenyang Gu,Wanqi Yin,Zhiqian Lin,Zhitao Yang,Chen Wei,Xuanke Shi,Kewang Deng,Xiaoyang Han,Zukai Chen,Jiaqi Li,Xiangyu Fan,Hanming Deng,Lewei Lu,Bo Li,Ziwei Liu,Quan Wang,Dahua Lin,Lei Yang
Main category: cs.CV
TL;DR: GPT-5在多模态空间智能方面取得显著进展但仍不及人类水平,研究通过8个基准测试评估发现专有模型在最难问题上并无决定性优势。
- Motivation: 多模态模型在空间理解和推理方面仍存在明显局限,需要评估当前最先进模型在空间智能方面的表现,特别是新发布的GPT-5的能力。
- Method: 提出统一的空间任务分类法,在8个关键基准测试上评估最先进的专有和开源模型,消耗超过10亿个token,并进行定性评估。
- Result: GPT-5在空间智能方面表现出前所未有的强大能力,但在广泛任务上仍不及人类;识别出多模态模型更具挑战性的空间智能问题;专有模型在最难问题上没有决定性优势。
- Conclusion: 多模态模型在空间智能方面虽有进步但仍需改进,特别是在对人类直观但对模型困难的场景中,专有模型与开源模型的差距在最难问题上并不明显。
[155] IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion
Wenhao Hu,Zesheng Li,Haonan Zhou,Liu Liu,Xuexiang Wen,Zhizhong Su,Xi Li,Gaoang Wang
Main category: cs.CV
TL;DR: IGFuse是一个新颖的3D场景重建框架,通过融合多个扫描的观察数据来解决物体遮挡问题,实现高保真渲染和物体级场景操作
- Motivation: 现有的3D场景重建方法存在物体遮挡、传感器覆盖有限的问题,多阶段流程容易出错且难以扩展,需要更好的解决方案
- Method: 构建分割感知的高斯场,通过双向光度一致性和语义一致性约束,引入伪中间场景状态进行统一对齐,采用协作共剪枝策略优化几何
- Result: 实验验证了框架对新场景配置的强泛化能力,在真实世界3D重建和真实到仿真转换方面表现出色
- Conclusion: IGFuse能够在不依赖密集观测或复杂流程的情况下,实现高质量的场景重建和交互操作,为3D视觉和机器人领域提供了有效的解决方案
[156] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy
Zhaoxi Chen,Tianqi Liu,Long Zhuo,Jiawei Ren,Zeng Tao,He Zhu,Fangzhou Hong,Liang Pan,Ziwei Liu
Main category: cs.CV
TL;DR: 4DNeX是首个从单张图像生成4D(动态3D)场景的前馈框架,通过微调预训练视频扩散模型实现高效的端到端图像到4D生成。
- Motivation: 现有方法依赖计算密集型优化或需要多帧视频输入,无法实现高效的图像到4D转换。为了解决4D数据稀缺问题并实现高效生成。
- Method: 1)构建大规模4DNeX-10M数据集;2)引入统一6D视频表示联合建模RGB和XYZ序列;3)提出适配策略将预训练视频扩散模型用于4D建模
- Result: 生成高质量动态点云,支持新视角视频合成。在效率和泛化性方面优于现有4D生成方法。
- Conclusion: 4DNeX为图像到4D建模提供了可扩展解决方案,为生成式4D世界模型模拟动态场景演化奠定了基础。
physics.optics
[157] Point upsampling networks for single-photon sensing
Jinyi Liu,Guoyang Zhao,Lijun Liu,Yiguang Hong,Weiping Zhang,Shuming Cheng
Main category: physics.optics
TL;DR: 本文首次提出了一种基于状态空间模型的点云上量化网络,用于改善单元军感知产生的稀疏偏偏点云质量
- Motivation: 单元军感知作为一种长距离超敏感形成技术,产生的点云往往稀疏且存在空间偏差,限制了其实际应用价值
- Method: 构建基于状态空间模型的网络,包含多路径扫描机制以丰富空间上下文,双向Mamba背链以捐捕全局几何和局部细节,以及适配性上量量移模块以纠正偏移导致的形变
- Result: 在常用数据集上的广泛实验确认了高重建精度和对形变噪声的强程度性,在真实数据上能够生成视觉一致、细节保留且噪声压制的点云
- Conclusion: 本研究首次为单元军感知建立了上量化框架,为单元军感知及其在下游任务中的实际应用开启了新途径
cs.RO
[158] Data Shift of Object Detection in Autonomous Driving
Lida Xu
Main category: cs.RO
TL;DR: 本文研究自动驾驶中的数据偏移问题,通过数据偏移检测和CycleGAN数据增帽技术优化YOLOv5模型,在BDD100K数据集上获得更优的物体检测性能。
- Motivation: 自动驾驶系统中的机器学习模型对训练和测试数据的分布偏移效果敏感,实际应用中因季节、天气等动态变化导致的数据偏移问题影响模型性能。
- Method: 系统分析数据偏移问题的复杂性和多样性,综述数据偏移检测方法,进行数据集分类和平衡处理,构建物体检测模型,并结合CycleGAN数据增帽技术优化YOLOv5框架。
- Result: 在BDD100K数据集上的实验结果显示,该方法比基线模型获得了更优异的性能表现。
- Conclusion: 通过系统化的数据偏移检测和数据增帽技术,可以有效提升自动驾驶物体检测模型在实际应用环境中的性能和适应性。
[159] Mechanical Automation with Vision: A Design for Rubik's Cube Solver
Abhinav Chalise,Nimesh Gopal Pradhan,Nishan Khanal,Prashant Raj Bista,Dinesh Baniya Kshatri
Main category: cs.RO
TL;DR: 开发了一个基于三台步进电机、微控制器和YOLO检测模型的魔方自动求解系统,通过Kociemba算法求解,平均解决时间约2.2分钟
- Motivation: 构建一个完整的魔方自动求解系统,实现从物理操作到软件求解的全流程自动化,并通过用户友好的GUI界面展示求解过程
- Method: 使用三台步进电机进行物理操作,微控制器控制硬件,YOLOv8模型实时检测魔方状态,Unity开发GUI界面,Kociemba算法提供求解方案
- Result: YOLOv8模型达到高精度(Precision 0.98443, Recall 0.98419),系统平均求解时间约2.2分钟,成功实现魔方的自动检测和求解
- Conclusion: 该系统成功整合了硬件控制、计算机视觉检测和算法求解,实现了高效的魔方自动求解,证明了多技术融合在自动化系统中的可行性
[160] PROD: Palpative Reconstruction of Deformable Objects through Elastostatic Signed Distance Functions
Hamza El-Kebir
Main category: cs.RO
TL;DR: PROD是一种通过触觉交互重建可变形物体形状和力学特性的新方法,使用弹静力学符号距离函数从稀疏的力和姿态测量中恢复未变形形状和材料刚度。
- Motivation: 传统方法主要依赖几何或视觉数据,无法有效估计软材料的静态和动态响应。PROD通过整合触觉交互(力控表面探测)来克服这一局限。
- Method: 将物体变形建模为弹静力学过程,推导出控制泊松方程,从稀疏的姿态和力测量中估计SDF。结合稳态弹动力学假设,从变形观测中恢复未变形SDF。
- Result: PROD在处理姿态误差、非法向力施加和曲率误差方面表现出鲁棒性,能够准确估计材料刚度并恢复物体形状。
- Conclusion: PROD为机器人操作、医学成像和触觉反馈系统等应用中的可变形物体重建提供了强大工具,具有理论和实践价值。
[161] Temporal and Rotational Calibration for Event-Centric Multi-Sensor Systems
Jiayao Mai,Xiuyuan Lu,Kuan Dai,Shaojie Shen,Yi Zhou
Main category: cs.RO
TL;DR: 事件相机多传感器系统的无标定物时间与旋转外参检测方法,通过角速度估计和关联分析实现高精度检测
- Motivation: 解决事件相机在多传感器融合中的外参检测问题,避免使用专门标定物,提高检测的灵活性和实用性
- Method: 使用法向流观测估计角速度,采用两步法:先通过关联分析初始化时间偏移和旋转外参,然后用连续时间SO(3)参数化进行非线性优化
- Result: 在公开和自收数据集上验证,检测精度可与标定物方法相比,稳定性超过纯关联分析方法,具有高精度、稳健性和灵活性
- Conclusion: 方法有效解决了事件相机多传感器检测难题,无需标定物但保持高精度,代码开源以促进相关研究
[162] Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy
Tianyi Zhang,Haonan Duan,Haoran Hao,Yu Qiao,Jifeng Dai,Zhi Hou
Main category: cs.RO
TL;DR: OC-VLA框架通过将动作预测直接建立在相机观测空间中,解决了VLA模型在观察空间和动作空间不一致的问题,显著提升了跨视角泛化能力。
- Motivation: VLA模型在处理真实世界环境时面临观察空间和动作空间不一致的挑战,模型在不同相机视角下预测末端执行器位姿时存在空间不一致问题。
- Method: 提出OC-VLA框架,利用相机外参标定矩阵将末端执行器位姿从机器人基坐标系转换到相机坐标系,统一了异质视角下的预测目标。
- Result: 在仿真和真实机器人操作任务上的综合评估表明,OC-VLA加速了收敛速度,提高了任务成功率,并显著改善了跨视角泛化性能。
- Conclusion: OC-VLA是一种轻量级即插即用策略,无需对现有VLA架构进行重大修改,就能实现感知和动作的鲁棒对齐,提高模型对相机视角变化的适应能力。
q-bio.QM
[163] BeeNet: Reconstructing Flower Shapes from Electric Fields using Deep Learning
Jake Turley,Ryan A. Palmer,Isaac V. Chenchiah,Daniel Robert
Main category: q-bio.QM
TL;DR: 研究发现通过分析蜜蜂与花朵交互产生的电场可以重建花朵形状,证明节肢动物可以通过电感觉获取丰富的空间信息
- Motivation: 探索节肢动物如传粉蜜蜂如何利用电场信息来感知环境特征,特别是如何从电场中提取关于花朵形状的空间信息
- Method: 使用模拟数据训练UNet深度学习模型,通过蜜蜂与花朵交互产生的电场来重建花瓣形状,测试了不同蜜蜂-花朵距离下的重建效果
- Result: 模型能够准确重建多种花朵形状,包括训练集中未包含的复杂形状,重建性能在最佳距离处达到峰值
- Conclusion: 电感觉能够传输丰富的空间细节信息,为节肢动物环境感知提供了新的见解
[164] On the Importance of Behavioral Nuances: Amplifying Non-Obvious Motor Noise Under True Empirical Considerations May Lead to Briefer Assays and Faster Classification Processes
Theodoros Bermperidis,Joe Vero,Elizabeth B Torres
Main category: q-bio.QM
TL;DR: 开发了一个情感计算平台,通过分析5秒面部视频中的微峰值数据,结合几何和非线性动力学方法,在保持个性化统计功效的同时实现简短数据采样。
- Motivation: 解决大数据集统计功效与可扩展性简短采样之间的权衡问题,传统平均技术会丢失重要信息,特别是对于非正态分布和非线性生物节律时间序列数据。
- Method: 结合AI驱动的人脸网格估计方法,从5秒面部视频时间序列数据中提取微峰值新数据类型,采用几何和非线性动力学系统方法分析运动学特征,特别是速度数据。
- Result: 新方法能够捕获所有面部微峰值,包括不同情感微表达的细微差别,提供了区分自闭症个体与神经典型发育个体动态和几何模式的新途径。
- Conclusion: 该平台实现了在保持统计功效的同时进行简短数据采样,为情感计算和神经发育差异研究提供了新的分析框架。
cs.AI
[165] Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems
Szymon Pawlonka,Mikołaj Małkiński,Jacek Mańdziuk
Main category: cs.AI
TL;DR: 提出了Bongard-RWR+数据集,包含5400个实例,使用VLM生成真实世界图像来表示原始Bongard问题的抽象概念,评估发现VLM在细粒度概念识别上存在困难
- Motivation: 现有的Bongard问题数据集要么使用合成图像缺乏真实性,要么使用真实图像但概念过于简单,且Bongard-RWR数据集规模太小(仅60个实例),限制了评估的鲁棒性
- Method: 使用Pixtral-12B描述手动策划的图像并生成新描述,用Flux.1-dev从描述合成图像,手动验证生成图像是否忠实反映目标概念,构建了5400个实例的数据集
- Result: 评估显示VLM能够识别粗粒度视觉概念,但在辨别细粒度概念方面持续存在困难
- Conclusion: 当前VLM在抽象视觉推理方面存在局限性,特别是在细粒度概念识别上表现不佳,Bongard-RWR+数据集为评估VLM的推理能力提供了更全面的基准
[166] EGOILLUSION: Benchmarking Hallucinations in Egocentric Video Understanding
Ashish Seth,Utkarsh Tyagi,Ramaneswaran Selvakumar,Nishit Anand,Sonal Kumar,Sreyan Ghosh,Ramani Duraiswami,Chirag Agarwal,Dinesh Manocha
Main category: cs.AI
TL;DR: EgoIllusion是首个评估多模态大语言模型在自我中心视频中幻觉问题的基准,包含1400个视频和8000个人工标注问题,测试显示包括GPT-4o和Gemini在内的顶级模型准确率仅为59%
- Motivation: 虽然多模态大语言模型在复杂多模态任务中表现出色,但在自我中心视频中容易产生连贯但不准确的幻觉响应,需要专门的基准来评估和解决这个问题
- Method: 构建包含1400个视频和8000个人工标注问题的EgoIllusion基准,这些问题专门设计来触发视觉和听觉线索的幻觉,并在10个多模态大语言模型上进行评估
- Result: 评估结果显示所有模型都面临重大挑战,即使是强大的GPT-4o和Gemini模型也只能达到59%的准确率,表明当前模型在自我中心视频理解方面存在显著幻觉问题
- Conclusion: EgoIllusion为评估多模态大语言模型的有效性奠定了基础,将推动开发幻觉率更低的更好的自我中心多模态大语言模型,该基准将开源以确保可复现性
[167] E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model
Ronghao Lin,Shuai Shen,Weipeng Hu,Qiaolin He,Aolin Xiong,Li Huang,Haifeng Hu,Yap-peng Tan
Main category: cs.AI
TL;DR: E3RG是一个基于多模态大语言模型的显式情感驱动共情响应生成系统,通过将多模态共情任务分解为三个部分来实现无需额外训练的自然、情感丰富且身份一致的响应生成。
- Motivation: 尽管大语言模型在文本共情响应生成方面有所改进,但在处理多模态情感内容和保持身份一致性方面仍存在挑战,需要开发更有效的多模态共情响应生成系统。
- Method: 将多模态共情响应生成任务分解为三个部分:多模态共情理解、共情记忆检索和多模态响应生成,并集成先进的表达性语音和视频生成模型。
- Result: 实验验证了系统在零样本和少样本设置下的优越性,在ACM MM 25的Avatar-based Multimodal Empathy Challenge中获得Top-1排名。
- Conclusion: E3RG系统能够在不进行额外训练的情况下生成自然、情感丰富且身份一致的多模态共情响应,为构建情感智能人机交互提供了有效解决方案。
eess.IV
[168] DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model
Jingkai Xu,De Cheng,Xiangqian Zhao,Jungang Yang,Zilong Wang,Xinyang Jiang,Xufang Luo,Lili Chen,Xiaoli Ning,Chengxu Li,Xinzhu Zhou,Xuejiao Song,Ang Li,Qingyue Xia,Zhou Zhuang,Hongfei Ouyang,Ke Xue,Yujun Sheng,Rusong Meng,Feng Xu,Xi Yang,Weimin Ma,Yusheng Lee,Dongsheng Li,Xinbo Gao,Jianming Liang,Lili Qiu,Nannan Wang,Xianbo Zuo,Cui Yong
Main category: eess.IV
TL;DR: DermNIO是一个用于皮肤科的多功能基础模型,通过混合预训练框架在43万+图像上训练,在20个数据集上超越现有模型,诊断准确率达95.79%,比医生高22%,并能将医生诊断准确率提升17%。
- Motivation: 解决皮肤病诊断的高负担问题,当前AI模型依赖大量人工标注数据且任务单一,难以在真实临床环境中有效应用。
- Method: 使用432,776张图像构建数据集,采用新颖的混合预训练框架,结合自监督学习、半监督学习和知识引导的原型初始化方法。
- Result: 在20个数据集上持续超越最先进模型,恶性肿瘤分类、疾病严重程度分级、多类别诊断等任务表现优异,诊断准确率95.79%,医生辅助性能提升17.21%。
- Conclusion: DermNIO展示了强大的泛化能力和临床实用性,在隐私保护联邦学习和不同肤色性别群体中表现稳健,有望显著改善皮肤病诊断效率。
[169] FractMorph: A Fractional Fourier-Based Multi-Domain Transformer for Deformable Image Registration
Shayan Kebriti,Shahabedin Nabavi,Ali Gooya
Main category: eess.IV
TL;DR: FractMorph是一种基于双并行Transformer的3D可变形图像配准架构,通过多域分数傅里叶变换分支增强跨图像特征匹配,在心脏MRI数据集上实现了最先进的性能。
- Motivation: 现有方法难以在统一框架中同时捕捉细粒度局部变形和大尺度全局变形,需要一种能够同时处理多尺度变形的端到端解决方案。
- Method: 提出3D双并行Transformer架构,使用分数傅里叶变换在0°、45°、90°角度和log-magnitude分支并行提取局部、半全局和全局特征,通过交叉注意力融合特征,最后用轻量级U-Net预测变形场。
- Result: 在ACDC心脏MRI数据集上达到86.45%的DSC、75.15%的平均每结构DSC和1.54mm的HD95,同时开发了参数仅29.6M的轻量版本FractMorph-Light。
- Conclusion: 多域谱空间注意力机制能够在单一端到端网络中鲁棒高效地建模医学图像中的复杂非刚性变形,无需场景特定调优或多尺度层次网络。
[170] Segmenting Thalamic Nuclei: T1 Maps Provide a Reliable and Efficient Solution
Anqi Feng,Zhangxing Bian,Samuel W. Remedios,Savannah P. Hays,Blake E. Dewey,Jiachen Zhuo,Dan Benjamini,Jerry L. Prince
Main category: eess.IV
TL;DR: 这篇论文系统评估了多种MRI对比度在肿鱼体核分割中的效果,发现T1地图单独使用即可获得优秀的定量和定性结果,而PD地图无额外价值。
- Motivation: 准确的肿鱼体核分割对理解神经系统疾病和指导临床干预至关重要,但最优的MRI输入对比度仍不明确。
- Method: 系统评估多种MRI对比度(MPRAGE、FGATIR、定量PD和T1地图、不同反转时间的T1加权图像),对多-TI图像采用梯度基准显著性分析和Monte Carlo dropout技术选择最重要图像,使用3D U-Net训练每种配置。
- Result: T1地图单独使用即可获得强劲的定量表现和优秀的定性结果,PD地图没有提供额外价值。
- Conclusion: T1地图是肿鱼体核分割中可靠高效的输入选择,为当肿鱼结构是临床或研究重点时的成像协议优化提供了有价值指导。
[171] Anatomic Feature Fusion Model for Diagnosing Calcified Pulmonary Nodules on Chest X-Ray
Hyeonjin Choi,Yang-gon Kim,Dong-yeon Yoo,Ju-sung Sun,Jung-won Lee
Main category: eess.IV
TL;DR: 该研究提出了一种基于原始图像和结构抑制变体融合特征的钙化分类模型,用于胸部X光片中肺结节钙化的准确识别,取得了86.52%的准确率和0.8889的AUC值。
- Motivation: 胸部X光片中肺结节钙化的准确及时识别对早期治疗至关重要,但目前主要依赖医生的视觉评估,存在解读差异大、解剖结构重叠干扰等问题。
- Method: 使用融合特征方法,结合原始图像和结构抑制变体图像的特征,减少结构干扰。数据集包含2,517张无病变图像和656张结节图像(151个钙化结节和550个非钙化结节)。
- Result: 提出的模型在钙化诊断中达到86.52%的准确率和0.8889的AUC值,比仅使用原始图像的模型分别提高了3.54%和0.0385。
- Conclusion: 该融合特征方法能有效减少结构干扰,显著提升肺结节钙化分类的诊断性能,为临床提供更可靠的辅助诊断工具。
cs.AR
[172] HOMI: Ultra-Fast EdgeAI platform for Event Cameras
Shankaranarayanan H,Satyapreet Singh Yadav,Adithya Krishna,Ajay Vikram P,Mahesh Mehendale,Chetan Singh Thakur
Main category: cs.AR
TL;DR: HOMI是一个超低延迟的端到端边缘AI平台,使用事件相机和FPGA芯片,实现了硬件优化的预处理流水线和AI加速器,在DVS手势数据集上达到94%准确率和1000fps吞吐量。
- Motivation: 现有事件处理解决方案存在局限性,缺乏完整的端到端实现、延迟高且未能充分利用事件数据的稀疏性,需要开发更高效的事件相机处理平台。
- Method: 采用Prophesee IMX636事件传感器芯片与Xilinx Zynq UltraScale+ MPSoC FPGA芯片组合,部署自主研发的AI加速器,开发硬件优化的预处理流水线,支持恒定时间和恒定事件模式的直方图累积、线性和指数时间表面处理。
- Result: 在高精度配置下,DVS手势数据集准确率达到94%;在低延迟配置下,吞吐量达到1000fps;硬件优化流水线仅占用33%的FPGA LUT资源,内存占用紧凑。
- Conclusion: HOMI平台为边缘机器人应用提供了超低延迟的端到端解决方案,具有充足的计算余量支持进一步延迟降低、模型并行化、多任务部署和更复杂架构集成。
[173] XR-NPE: High-Throughput Mixed-precision SIMD Neural Processing Engine for Extended Reality Perception Workloads
Tejas Chaudhari,Akarsh J.,Tanushree Dewangan,Mukul Lokhande,Santosh Kumar Vishvakarma
Main category: cs.AR
TL;DR: XR-NPE是一个面向XR感知工作负载的混合精度SIMD神经网络处理引擎,支持FP4和多种Posit格式,通过可重构计算架构和量化感知训练,在28nm工艺下实现1.72GHz频率、0.016mm²面积和14pJ算术强度,相比现有技术减少42%面积和38%功耗。
- Motivation: 为资源受限的扩展现实(XR)设备开发高吞吐量、低功耗的神经网络处理引擎,解决XR感知工作负载(如视觉惯性里程计、物体分类、眼动追踪)对计算效率和能耗的严苛要求。
- Method: 采用混合精度算法支持FP4、Posit(4,1)、Posit(8,0)、Posit(16,1)格式;设计可重构尾数乘法和指数处理电路(RMMEC);实施选择性电源门控技术;结合量化感知训练最小化精度损失。
- Result: 在28nm CMOS工艺下达到1.72GHz最大工作频率,面积0.016mm²,算术强度14pJ;相比最先进的MAC方法减少42%面积和38%功耗;基于AXI的矩阵乘法协处理器在VCU129上减少1.4x LUTs和1.77x FFs,能效提升1.2x;VIO工作负载能效提升23%,计算密度提升4%。
- Conclusion: XR-NPE证明了一个可扩展、精度自适应的计算引擎架构,适用于未来资源受限的XR设备,为设计者和研究人员提供了完整的开源实现。
stat.ME
[174] Statistical analysis of multivariate planar curves and applications to X-ray classification
Moindjié Issam-Ali,Descary Marie-Hélène,Beaulac Cédric
Main category: stat.ME
TL;DR: 提出了一种基于多变量平面曲线的图像分析方法,利用分割图像中的轮廓形状作为预测因子,通过切线投影进行功能分类,在心脏肥大检测中表现出良好效果
- Motivation: 医学图像分析中分割图像广泛可用,但如何有效利用这些分割图像中的形状信息进行预测分类是一个重要问题
- Method: 引入多变量平面曲线形式化方法,解决统计形状分析中的对齐问题,通过切线投影将获得的形状变量用于功能分类
- Result: 在分割X射线图像的心脏肥大检测和合成数据实验中证明了方法的吸引力和鲁棒性
- Conclusion: 该方法为利用图像中物体形状信息进行监督分类提供了一种有效的新途径
cs.LG
[175] Contrastive Regularization over LoRA for Multimodal Biomedical Image Incremental Learning
Haojie Zhang,Yixiong Liang,Hulin Kuang,Lihui Cen,Zhe Qu,Yigang Cen,Min Zeng,Shichao Kan
Main category: cs.LG
TL;DR: 提出了MSLoRA-CR方法,通过模态特定的LoRA模块和对比正则化来解决多模态生物医学图像增量学习中的知识保留和跨模态知识迁移问题
- Motivation: 生物医学领域需要处理多种模态和任务,为每个模态单独训练模型会显著增加推理成本,需要统一的增量学习模型
- Method: 基于大型视觉语言模型,冻结预训练模型,为每个模态增量适配新的LoRA模块,并引入对比正则化来增强模态内知识共享和模态间知识区分
- Result: 在生物医学图像增量学习实验中,MSLoRA-CR相比为每个模态单独训练模型和最先进的通用增量学习方法表现更好,整体性能提升1.88%,同时保持计算效率
- Conclusion: MSLoRA-CR方法有效解决了多模态生物医学图像增量学习的挑战,在性能和效率方面都有显著优势
[176] Scalable Geospatial Data Generation Using AlphaEarth Foundations Model
Luc Houriez,Sebastian Pilarski,Behzad Vahedi,Ali Ahmadalipour,Teo Honda Scully,Nicholas Aflitto,David Andre,Caroline Jaffe,Martha Wedner,Rich Mazzola,Josh Jeffery,Ben Messinger,Sage McGinley-Smith,Sarah Russell
Main category: cs.LG
TL;DR: 利用Google DeepMind的AlphaEarth Foundations全球地球科学表示学习,通过简单的机器学习模型扩展地球科学标签数据集的地理覆盖范围
- Motivation: 高质量标签地球科学数据集通常只覆盖特定地理区域,需要一种方法来扩展其覆盖范围以提高全球视角的数据可用性
- Method: 利用AlphaEarth Foundations全球表示作为输入,使用随机森林和逻辑回归等基础模型进行分类预测,将LANDFIRE EVT植被类型数据集从美国扩展到加拿大
- Result: 在EvtPhys(13个类别)级别上,模型预测与真实数据一致,在美国和加拿大验证集上分别达到81%和73%的分类准确率
- Conclusion: 证明了通过AEF全球表示和基础模型可以有效扩展地球科学标签数据集的地理覆盖范围,为全球视角的地球科学研究提供了可行方案
[177] ENA: Efficient N-dimensional Attention
Yibo Zhong
Main category: cs.LG
TL;DR: 这篇论文探索了将线性递归模型扩展到高阶数据的方法,提出了结合线性递归和滑动窗口注意力的高效N维注意力机制(ENA),在超长高阶数据建模方面取得了较好效果。
- Motivation: 传统Transformer模型在处理长序列高阶数据时效率低下,需要更高效的架构来模型这种数据。论文通过扩展线性递归模型来解决这一问题。
- Method: 研究了两个关键方面:扫描策略和注意力混合架构。重点研究了注意力混合模型,发现磁贴高阶滑动窗口注意力(SWA)在理论和实践中都很高效。最终提出了结合线性递归和高阶SWA的ENA架构。
- Result: 实验结果显示扫描策略提供的改善有限,而注意力混合模型显示出了有前景的结果。ENA架构在超长高阶数据建模中表现出良好的效果。
- Conclusion: 线性递归将全局信息压缩为状态,SWA通过强化严格的局部建模来补充。两者结合形成了一个简单而有效的框架,为超长高阶数据建模提供了有前景的实用解决方案。
[178] L-SR1: Learned Symmetric-Rank-One Preconditioning
Gal Lifshitz,Shahar Zuler,Ori Fouks,Dan Raviv
Main category: cs.LG
TL;DR: 一种新的学习二阶优化器,通过可训练预处理单元增强SR1算法,在人体网栽恢复任务中表现优于现有方法
- Motivation: 绘合深度学习的高性能和优化方法的数据效率优势,充分利用二阶优化的潜力,充实学习优化器领域
- Method: 使用可训练预处理单元生成数据驱动向量,构建正半定矩阵,通过学习投影符合割线约束,改进SR1算法
- Result: 在分析实验和人体网栽恢复任务中表现超过现有学习优化方法,具有轻量级、无需标注数据、强通用性等优点
- Conclusion: 该方法为二阶学习优化器提供了有效解决方案,适合集成到更广泛的优化框架中,展示了良好的应用前景
[179] Toward Architecture-Agnostic Local Control of Posterior Collapse in VAEs
Hyunsoo Song,Seungwhan Kim,Seungkyu Lee
Main category: cs.LG
TL;DR: 通过定义局部后验涼缩和提出潜在重建损失,解决VAE后验涼缩问题,无需网络结构限制
- Motivation: 解决VAE模型中的后验涼缩问题,该问题会降低生成样本的多样性,但现有方法需要结构性约束
- Method: 定义局部后验涼缩概念,提出基于注射和复合函数数学性质的潜在重建损失(LR损失)来控制后验涼缩
- Result: 在MNIST、fashionMNIST、Omniglot、CelebA和FFHQ等多个数据集上验证了方法的有效性,能够控制后验涼缩现象
- Conclusion: LR损失能够在不受网络结构限制的情况下有效解决VAE的后验涼缩问题,提高生成样本的多样性
[180] Argos: A Decentralized Federated System for Detection of Traffic Signs in CAVs
Seyed Mahdi Haji Seyed Hossein,Alireza Hosseini,Soheil Hajian Manesh,Amirali Shahriary
Main category: cs.LG
TL;DR: 这篇论文提出了一种专门用于汽车网络中交通标志检测的联邦学习框架,通过分布式模型训练方案解决数据隐私和通信挟失问题,并在模拟环境中评估了多种训练配置和联合算法的性能。
- Motivation: 自动驾驶汽车每日产生巨量传感器数据,对中心化机器学习方案构成了严重的隐私和通信挟失挑战。需要开发一种能够在不共享原始数据的情况下实现协作模型训练的解决方案。
- Method: 设计了一种联邦学习框架:将交通标志类别在车辆之间进行分区以进行专门化本地训练,使用轻量对象检测器,通过Flower框架在模拟环境中集成模型参数(采用FedProx、FedAdam和FedAVG算法),并评估多种配置参数包括服务器轮数、本地迭代次数、客户端参与比例和数据分布。
- Result: 实验结果显示:将服务器轮数从2增加到20次时,准确率从0.1以下提升到0.8以上;适度的本地迭代次数(8-10次)可以达到最佳效率,准确率约为0.67;更高的客户端参与比例能够将泛化能力提升至0.83;FedProx在处理异质性数据时表现更优;非IID数据分布的性能低于IID分布;训练时长主要受轮数数量影响而非联合策略。
- Conclusion: 这种联邦学习方法为真实世界汽车部署提供了一种可扩展、保护隐私的解决方案,有可能指导未来精强联合算法和通信优化的集成工作,以推进智能交通系统的发展。
[181] A Shift in Perspective on Causality in Domain Generalization
Damian Machlanski,Stephanie Riley,Edward Moroshko,Kurt Butler,Panagiotis Dimitrakopoulos,Thomas Melistas,Akchunya Chanchal,Steven McDonagh,Ricardo Silva,Sotirios A. Tsaftaris
Main category: cs.LG
TL;DR: 本文重新审视因果建模在AI泛化中的作用,挑战了当前领域泛化基准测试中的观点,提出了更细致的因果理论,并提供了交互演示。
- Motivation: 针对近期领域泛化基准测试中对因果建模能带来稳健AI泛化能力的质疑,作者希望重新审视因果关系在泛化中的作用,调和表面矛盾。
- Method: 通过理论分析和文献综述,重新审视因果建模与领域泛化的关系,提出更细致的理论框架。
- Result: 建立了更全面的因果关系在AI泛化中作用的理论,调和了现有文献中的矛盾观点。
- Conclusion: 因果关系在AI泛化中确实扮演重要角色,但需要更细致的理论框架来理解其作用机制,而非简单的二元对立观点。
[182] Learning to Steer: Input-dependent Steering for Multimodal LLMs
Jayneel Parekh,Pegah Khayatan,Mustafa Shukor,Arnaud Dapogny,Alasdair Newson,Matthieu Cord
Main category: cs.LG
TL;DR: L2S(Learn-to-Steer)是一种针对多模态大语言模型的输入特定引导方法,通过训练辅助模块预测输入相关的引导向量,减少幻觉并增强安全性
- Motivation: 现有引导技术(如均值引导)使用单一引导向量,独立于输入查询,在处理依赖具体示例的期望行为时存在局限性
- Method: 提出细粒度引导方法,使用输入特定的线性偏移,通过对比输入特定提示计算偏移量,并训练小型辅助模块来预测输入特定的引导向量
- Result: L2S方法在减少多模态大语言模型幻觉和增强安全性方面优于其他静态基线方法
- Conclusion: 输入特定的引导方法比静态引导方法更有效,能够更好地处理依赖具体情境的行为约束需求
cs.GR
[183] Express4D: Expressive, Friendly, and Extensible 4D Facial Motion Generation Benchmark
Yaron Aloni,Rotem Shalev-Arkushin,Yonatan Shafir,Guy Tevet,Ohad Fried,Amit Haim Bermano
Main category: cs.GR
TL;DR: 这篇论文提出了Express4D数据集,解决了现有面部表情生成模型因缺乏细腻语义标注而无法实现精细控制的问题,通过使用普通设备和LLM生成的自然语言指令来收集丰富的面部动作序列。
- Motivation: 现有面部表情生成模型存在两大问题:数据集要么是语音驱动的,要么只有粗糕的情感标签,缺乏细腻的表达性描述,无法实现精细控制;且数据收集需要复杂昂贵的设备。
- Method: 创建Express4D数据集:使用普通商品设备收集面部动作序列,采用ARKit blendshape格式以支持架构动画,通过LLM生成自然语言指令来添加语义标注,包含丰富的表达性表现。基于该数据集训练了两个基线模型。
- Result: 训练的模型能够学习有意义的文本到表情动作生成,并抓取文本和表情之间的多对多映射关系。数据集、代码和视频示例已公开。
- Conclusion: Express4D数据集为细腻面部表情生成提供了高质量的训练数据,解决了现有模型在细度控制方面的限制,为未来的性能测诅设置了基准。
[184] MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration
Yuanxin Wei,Lansong Diao,Bujiao Chen,Shenggan Cheng,Zhengping Qian,Wenyuan Yu,Nong Xiao,Wei Lin,Jiangsu Du
Main category: cs.GR
TL;DR: 这篇论文提出了MixCache框架,通过多粒度缓存策略和自适应缓存决策,在保持视频生成质量的同时显著提高了视频DiT模型的推理效率,实现了1.94-1.97倍的速度提升。
- Motivation: 现有的单一粒度缓存策略无法灵活地平衡视频生成质量和推理速度,导致计算成本高和延迟大的问题。
- Method: 提出MixCache框架,包含上下文感知的缓存触发策略和自适应混合缓存决策策略,能够动态选择最优缓存粒度,避免单一粒度策略的局限性。
- Result: 在多种模型上进行了广泛实验,MixCache能够显著加速视频生成(Wan 14B模型1.94倍速度提升,HunyuanVideo模型1.97倍速度提升),同时保持优秀的生成质量和推理效率。
- Conclusion: MixCache作为一种无需训练的缓存基础框架,通过多粒度缓存策略有效解决了视频DiT模型在质量和速度之间的平衡问题,为高效视频生成提供了重要技术路径。
cs.HC
[185] iTrace: Click-Based Gaze Visualization on the Apple Vision Pro
Esra Mehmedova,Santiago Berrezueta-Guzman,Stefan Wagner
Main category: cs.HC
TL;DR: iTrace是一个通过点击式注视提取技术绕过Apple Vision Pro隐私限制的系统,能够生成动态热图来分析个人和集体注意力模式,在保持91%精确度的同时实现教育、设计、营销和临床等多种应用。
- Motivation: Apple Vision Pro具有精确的眼动追踪能力,但设备隐私限制阻止直接访问连续用户注视数据,需要开发替代方法来获取注视数据进行分析。
- Method: 开发了iTrace系统,采用客户端-服务器架构,通过手动捏合手势、自动驻留控制或游戏控制器等点击式注视提取技术捕获注视坐标并转换为动态热图。
- Result: 8BitDo控制器实现了14.22次点击/秒的数据收集率(远高于驻留控制的0.45次点击/秒),生成的热图揭示了不同的注意力模式,保持91%的注视精度。
- Conclusion: iTrace展示了在教育内容参与、环境设计评估、营销分析和临床认知评估等广泛应用的强大潜力,但建议开发者仅在研究环境中使用。
eess.SP
[186] Data-driven RF Tomography via Cross-modal Sensing and Continual Learning
Yang Zhao,Tao Wang,Said Elhadi
Main category: eess.SP
TL;DR: 基于深度学习的无线电频成像框架DRIFT,通过跨模态感知和连续学习技术,在动态环境中实现了高精度的地下根块隐藏物体重建
- Motivation: 虽然数据驱动的无线电频成像在地下目标检测方面展现了强大潜力,但在动态环境中实现准确和稳健的性能仍然面临挑战
- Method: 设计了无线电频与视觉传感器的跨模态感知系统,采用跨模态学习方法训练RF成像深度神经网络模型,并在动态环境中使用连续学习自动更新模型
- Result: 实验结果显示,该方法平均相当直径误差为2.29cm,比最先进方法提高23.2%,代码和数据集已开源
- Conclusion: DRIFT框架通过跨模态感知和连续学习,能够在RF信号显著变化的情况下仍然实现了高精度的地下根块截面图像重建
cs.CR
[187] Privacy-Aware Detection of Fake Identity Documents: Methodology, Benchmark, and Improved Detection Methods (FakeIDet2)
Javier Muñoz-Haro,Ruben Tolosana,Ruben Vera-Rodriguez,Aythami Morales,Julian Fierrez
Main category: cs.CR
TL;DR: 本文提出了一种基于片段的隐私保护方法,并提供了包含90万张真伪ID片段的公开数据库FakeIDet2-db,以解决身份证件验证中真实数据缺乏的挑战。
- Motivation: 电子服务平台通过身份证件验证用户身份,但AI技术进步使攻击者能制造极其真实的伪造ID。研究人员面临真实数据缺乏的挑战,因为身份证件属于敏感隐私数据。
- Method: 提出片段基于的隐私保护方法;构建FakeIDet2-db数据库(包含2,000张ID图片中提取的超过90万个真伪片段);开发隐私意识的伪造ID检测方法FakeIDet2。
- Result: 提供了一个公开的标准化测试平台,能够处理各种物理和合成攻击,为伪造ID检测领域提供了可重现的基准测试环境。
- Conclusion: 该研究为解决身份证件验证中真实数据缺乏问题提供了有效方案,通过片段化处理保护用户隐私,并为该领域的研究和发展提供了丰富的数据资源。
cs.CY
[188] Artificial Intelligence in Rural Healthcare Delivery: Bridging Gaps and Enhancing Equity through Innovation
Kiruthika Balakrishnan,Durgadevi Velusamy,Hana E. Hinkle,Zhi Li,Karthikeyan Ramasamy,Hikmat Khan,Srini Ramaswamy,Pir Masoom Shah
Main category: cs.CY
TL;DR: 本综述研究探讨了人工智能(AI)在改善农村医疗保健服务中的变革潜力,通过系统回顾109项研究发现AI技术(特别是多模态基础模型和大型语言模型)能显著提升医疗可及性、质量和效率,但需要解决基础设施、数据质量和伦理等挑战。
- Motivation: 农村医疗面临基础设施不足、人力资源短缺和社会经济差距等持续挑战,阻碍了基本医疗服务获取。研究旨在探索AI技术如何变革性地解决这些农村医疗服务问题。
- Method: 系统回顾2019-2024年间PubMed、Embase、Web of Science、IEEE Xplore和Scopus数据库中的109项研究,采用PRISMA指南和Covidence软件进行筛选,并进行主题分析以识别AI在农村医疗实施中的关键模式和见解。
- Result: 研究发现AI应用(如预测分析、远程医疗平台和自动化诊断工具)在改善医疗可及性、质量和效率方面具有显著潜力。多模态基础模型能整合多种数据源支持综合决策,大型语言模型能促进临床文档、患者分诊、翻译和虚拟辅助。
- Conclusion: AI技术能通过增强人力能力、减少诊断延迟和普及专业知识来革命化农村医疗,但需要解决基础设施限制、数据质量问题和伦理考量。需要跨学科合作、数字基础设施投资和监管框架开发来确保AI在农村医疗系统中的公平和可持续整合。
[189] Vitamin N: Benefits of Different Forms of Public Greenery for Urban Health
Sanja Šćepanović,Sagar Joglekar,Stephen Law,Daniele Quercia,Ke Zhou,Alice Battiston,Rossano Schifanella
Main category: cs.CY
TL;DR: 城市道路绿化比传统官方绿地指标更能预测健康改善,对高血压等疾病的药物处方有显著减少效果
- Motivation: 传统绿地指标只考虑绿地面积和距离,忽视了人们日常生活中实际看到和使用绿地的频率
- Method: 结合航投影像、OpenStreetMap绿地数据、10万张Google街景图片和16万条道路可达性估计,将绿地分为道路绿化(行走时看到)和距离绿地(需计划访问)
- Result: 道路绿化与健康的关联性显著强于四种官方指标,高血压药物处方在道路绿化超过中位数的区域减少3.68%,每年可节省超过300万英镑医疗费用
- Conclusion: 日常生活中见到的绿化比公共但隐秘的绿地更关键,存在的官方绿地指标有重要局限性
Powered by Deepseek & arXiv Daily AI Enhanced