Skip to content
每日arXiv - 2025年8月20日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] YOLO11-CR: a Lightweight Convolution-and-Attention Framework for Accurate Fatigue Driving Detection

Zhebin Jin,Ligang Dong

Main category: cs.CV

TL;DR: 提出了YOLO11-CR轻量级目标检测模型,用于实时疲劳检测,通过CAFM和RCM模块提升特征表达和空间定位能力,在DSM数据集上表现优异。

  • Motivation: 现有疲劳检测方法存在侵入性、硬件依赖或小目标检测困难等问题,需要开发非侵入式、实时且鲁棒的视觉检测方案。
  • Method: 提出YOLO11-CR模型,包含卷积注意力融合模块(CAFM)整合CNN局部特征和Transformer全局上下文,以及矩形校准模块(RCM)捕获水平和垂直上下文信息。
  • Result: 在DSM数据集上达到87.17%精度、83.86%召回率、88.09% mAP@50和55.93% mAP@50-95,显著优于基线模型。
  • Conclusion: YOLO11-CR为车载疲劳监控提供了实用高效解决方案,具有实际部署潜力,未来可扩展时间建模和多模态数据集成。

[2] MIRAGE: Towards AI-Generated Image Detection in the Wild

Cheng Xia,Manxi Lin,Jiexiang Tan,Xiaoxiong Du,Yang Qiu,Junjun Zheng,Xiangheng Kong,Yuning Jiang,Bo Zheng

Main category: cs.CV

TL;DR: 提出了Mirage基准测试和Mirage-R1模型,用于检测真实世界中的AI生成图像,相比现有方法在基准测试上提升5-10%

  • Motivation: 现有的AI生成图像检测器在实验室环境下有效,但无法泛化到真实世界的嘈杂场景,这些图像可能来自多个生成模型并经过后期编辑
  • Method: 构建Mirage基准测试(包含网络收集和合成的AI生成图像),提出Mirage-R1视觉语言模型,采用启发式到分析式推理机制,分两阶段训练(监督微调+强化学习),并使用推理时自适应思考策略
  • Result: 在Mirage基准和公共基准上分别领先现有最佳检测器5%和10%
  • Conclusion: Mirage基准和Mirage-R1模型有效解决了真实世界AI生成图像检测的挑战,在性能和推理速度之间取得了良好平衡

[3] DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

Qian Chen,Xianyin Zhang,Lifan Guo,Feng Chen,Chi Zhang

Main category: cs.CV

TL;DR: DianJin-OCR-R1是一个推理增强的视觉语言模型框架,通过结合自身OCR能力和专家模型工具来减少幻觉,在OCR任务上超越非推理版本和专家模型。

  • Motivation: 大型视觉语言模型在文档图像解析中容易产生幻觉,且相比领域专家模型效果较差,需要一种方法来结合两者的优势。
  • Method: 提出推理-工具交替的VLM框架:先用自己的OCR能力识别内容,然后调用专家模型工具获取参考结果,最后重新审视图像和推理过程提供最终识别结果。
  • Result: 在ReST和OmniDocBench基准测试中,DianJin-OCR-R1模型持续优于非推理版本和专家OCR模型。
  • Conclusion: 该框架有效减少了幻觉问题,通过结合专家模型的优势以较低成本提升了VLM的性能,证明了方法的有效性。

[4] Exploration of Deep Learning Based Recognition for Urdu Text

Sumaiya Fazal,Sheeraz Ahmed

Main category: cs.CV

TL;DR: 使用卷积神经网络的组件基于分类方法实现乌尔都语光学字符识别,通过两层层次网络处理三个字符排列组合,组件分类准确玉达5230.99%

  • Motivation: 乌尔都语作为一种草书形文字,具有复杂的几何和形态结构,传统的分割基于识别方法错误率较高
  • Method: 采用卷积神经网络进行自动特征学习,通过三个字符的排列组合生成数据集,使用连通组件技术获取细体,并实现两层层次神经网络
  • Result: 组件分类的准确率达到0.99%
  • Conclusion: 组件基于的CNN方法能够有效处理乌尔都语识别问题,避免了传统分割方法的高错误率

[5] CLoE: Curriculum Learning on Endoscopic Images for Robust MES Classification

Zeynep Ozdemir,Hacer Yalim Keles,Omer Ozgur Tanriover

Main category: cs.CV

TL;DR: CLoE是一个课程学习框架,通过图像质量评估标签可靠性,结合ResizeMix增强,在溃疡性结肠炎内镜图像MES评分分类中显著提升性能

  • Motivation: 解决MES内镜评分分类中的标签噪声问题和序数结构特性,传统模型往往忽略这些挑战
  • Method: 使用轻量级模型估计图像质量作为标注置信度代理,构建从易到难的课程学习顺序,结合ResizeMix数据增强,支持CNN和Transformer架构
  • Result: 在LIMUC和HyperKvasir数据集上,ConvNeXt-Tiny达到82.5%准确率和0.894 QWK,性能优于强监督和自监督基线
  • Conclusion: 难度感知训练策略在标签不确定性下能有效改进序数分类性能

[6] GaitCrafter: Diffusion Model for Biometric Preserving Gait Synthesis

Sirshapan Mitra,Yogesh S. Rawat

Main category: cs.CV

TL;DR: GaitCrafter是一个基于扩散模型的步态序列生成框架,能够在轮廓域合成逼真的步态数据,支持多种条件控制,并能生成新身份数据以保护隐私。

  • Motivation: 步态识别面临大规模标注数据集缺乏和收集多样化步态样本困难的问题,同时需要保护个人隐私。
  • Method: 训练视频扩散模型,专门使用步态轮廓数据,支持基于服装、携带物品、视角等多种条件的可控生成,并通过身份嵌入插值生成新身份。
  • Result: 将合成样本加入步态识别流程能提升性能,特别是在挑战性条件下;生成的新身份具有独特且一致的步态模式。
  • Conclusion: 该工作是利用扩散模型实现高质量、可控且隐私保护的步态数据生成的重要进展。

[7] Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

Minhao Xiong,Zichen Wen,Zhuangcheng Gu,Xuyang Liu,Rui Zhang,Hengrui Kang,Jiabing Yang,Junyuan Zhang,Weijia Li,Conghui He,Yafei Wang,Linfeng Zhang

Main category: cs.CV

TL;DR: Prune2Drive是一个用于自动驾驶中多视角视觉语言模型的即插即用视觉token剪枝框架,通过多样性感知token选择和视图自适应剪枝控制,在保持性能的同时显著提升推理速度和减少内存消耗。

  • Motivation: 自动驾驶系统中的视觉语言模型在处理高分辨率多视角图像时会产生大量视觉token,导致计算开销巨大、推理延迟高和内存消耗大,阻碍了实际部署。
  • Method: 提出两种核心创新:1)受最远点采样启发的多样性感知token选择机制,优先考虑跨视图的语义和空间覆盖;2)基于下游驾驶任务重要性学习的视图自适应剪枝控制器,为每个摄像头视图学习最优剪枝比例。
  • Result: 在两个大规模多视角驾驶基准测试(DriveLM和DriveLMM-o1)上,当仅保留10%视觉token时,预填充阶段实现6.40倍加速,仅消耗原始FLOPs的13.4%,在DriveLM基准上性能仅下降3%。
  • Conclusion: Prune2Drive无需模型重训练或注意力图访问,与现代高效注意力实现兼容,为自动驾驶视觉语言模型的高效部署提供了有效解决方案。

[8] DAASH: A Meta-Attack Framework for Synthesizing Effective and Stealthy Adversarial Examples

Abdullah Al Nomaan Nafi,Habibur Rahaman,Zafaryab Haider,Tanzim Mahfuz,Fnu Suya,Swarup Bhunia,Prabuddha Chakraborty

Main category: cs.CV

TL;DR: DAASH是一个完全可微分的元攻击框架,通过策略性地组合现有的Lp范数攻击方法,生成有效且感知对齐的对抗样本。

  • Motivation: 现有的Lp范数约束对抗样本往往与人类感知不一致,且不清楚Lp约束攻击的见解是否能有效提升感知效果。
  • Method: 多阶段框架:每阶段聚合多个基础攻击的候选对抗样本,使用学习到的自适应权重,并通过新颖的元损失函数联合最小化误分类损失和感知失真。
  • Result: 在CIFAR-10、CIFAR-100和ImageNet上显著优于最先进的感知攻击AdvAD,攻击成功率提高20.63%,SSIM、LPIPS和FID指标分别提升约11、0.015和5.7。
  • Conclusion: DAASH能够很好地泛化到未见过的防御方法,是评估鲁棒性的实用强基线,无需为每个新防御手工设计自适应攻击。

[9] Automated Assessment of Aesthetic Outcomes in Facial Plastic Surgery

Pegah Varghaei,Kiran Abraham-Aggarwal,Manoj T. Abraham,Arun Ross

Main category: cs.CV

TL;DR: 一个可扩展、可解释的计算机视觉框架,用于通过正面照片定量面部整形外科的美学效果,包括面部对称性、年龄估计和鼻部形态分析。

  • Motivation: 为了提供可重复的、定量的标准来支持数据驱动的手术规划、病人咨询和客观效果评估,解决面部整形外科效果评估缺乏客观标准的问题。
  • Method: 构建了最大的筛选后的手术前后面部图像数据集(7,160张照片,1,259名病人),利用自动化标记点检测、几何面部对称性计算、深度学习年龄估计和鼻部形态分析等技术构建分析流程。
  • Result: 在精美鼻整形子集中,96.2%病人至少在一个鼻部指标上显示改善;在更广泛的正面图像组中,71.3%病人面部对称性或感知年龄显著改善(p < 0.01),同时病人身份识别准确率高达99.5%以上。
  • Conclusion: 该框架为面部整形外科提供了可重复、定量的美学效果评估方法,能够支持数据驱动的手术规划、病人咨询和客观效果评估,促进了整形外科领域的科学化发展。

[10] Applications of Small Language Models in Medical Imaging Classification with a Focus on Prompt Strategies

Yiting Wang,Ziwei Wang,Jiachen Zhong,Di Zhu,Weiyi Li

Main category: cs.CV

TL;DR: 小语言模型在细心程序设计下可以在医疗影像分类任务中达到竞争力准确度,解决大模型计算成本高、可访问性少和数据隐私问题

  • Motivation: 大语言模型虽然能力突出,但高计算成本、限制的可访问性和数据隐私问题阻碍了其在资源受限的医疗环境中的应用
  • Method: 使用NIH胸部X光数据集,评估多个小语言模型在胸部X光位置分类(AP vs PA)任务中的表现,测试三种程序策略:基准指令、增量摘要提示和纠正反思提示
  • Result: 某些小语言模型通过精心设计的程序可以达到竞争力的准确度
  • Conclusion: 程序工程可以在不需要深度AI专业知识的情况下实质性提升小语言模型在健康养老应用中的表现

[11] AIM 2025 Rip Current Segmentation (RipSeg) Challenge Report

Andrei Dumitriu,Florin Miron,Florin Tatui,Radu Tudor Ionescu,Radu Timofte,Aakash Ralhan,Florin-Alexandru Vasluianu,Shenyang Qian,Mitchell Harley,Imran Razzak,Yang Song,Pu Luo,Yumei Li,Cong Xu,Jinming Chai,Kexin Zhang,Licheng Jiao,Lingling Li,Siqi Yu,Chao Zhang,Kehuan Song,Fang Liu,Puhua Chen,Xu Liu,Jin Hu,Jinyang Xu,Biao Liu

Main category: cs.CV

TL;DR: AIM 2025 RipSeg挑战赛旨在推进静止图像中自动离岸流分割技术,使用RipVIS数据集进行单类实例分割,共有75名参与者注册,5个有效测试提交,最佳方法采用深度学习架构和领域适应技术。

  • Motivation: 离岸流是危险的高速水流,对全球海滩安全构成重大风险,准确的视觉检测是一个重要但尚未充分探索的研究任务。
  • Method: 基于RipVIS数据集进行单类实例分割,使用复合评分(F1、F2、AP50和AP[50:95])评估,最佳方法采用深度学习架构、领域适应技术、预训练模型和领域泛化策略。
  • Result: 75名参与者注册,5个有效测试提交,顶级方法在多样化条件下表现出色。
  • Conclusion: 报告概述了数据集细节、竞赛框架、评估指标和最终结果,讨论了关键挑战、从提交中学到的经验教训以及扩展RipSeg的未来方向。

[12] Mitigating Easy Option Bias in Multiple-Choice Question Answering

Hao Zhang,Chen Li,Basura Fernando

Main category: cs.CV

TL;DR: 研究发现多选VQA基准中存在Easy-Options Bias问题,VLMs仅凭视觉和选项就能选择正确答案,无需问题。通过GroundAttack工具生成视觉相似的困难负选项,创建无偏数据集,使VLMs性能更真实。

  • Motivation: 发现当前多选VQA基准存在严重偏差,视觉语言模型可以通过简单的视觉-选项相似度匹配来选择正确答案,而不需要理解问题,这导致对模型真实问答能力的评估失真。
  • Method: 提出GroundAttack工具包,自动生成与正确答案视觉上同样合理的困难负选项,应用于NExT-QA和MMStar数据集,创建无EOB偏差的新标注。
  • Result: 在无EOB偏差的标注上,当前VLMs在仅视觉+选项设置下接近随机准确率,在完整设置下也下降到非饱和准确率,提供了更真实的模型能力评估。
  • Conclusion: 揭示了VQA基准中的系统性偏差问题,提出的GroundAttack方法能有效消除这种偏差,为更准确地评估视觉语言模型的真实问答能力提供了解决方案。

[13] Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference

Yunxiang Yang,Ningning Xu,Jidong J. Yang

Main category: cs.CV

TL;DR: 通过结构化提示和知识蓄约框架,使用大视觉-语言模型生成高质量交通场景注释,训练出缩减版的3B规模模型VISTA,能够在低分辨率视频中进行风险识别和场景理解。

  • Motivation: 解决传统方法在复杂动态真实环境中的扩展性和通用性问题,提升智能交通系统和自动驾驶的场景理解能力。
  • Method: 采用结构化链式思维(CoT)策略,调度GPT-4o和o3-mini两个大视觉-语言模型生成多视角输出,作为知识密集的伪注释用于监督式精调小模型。
  • Result: VISTA模型虽然参数量大幅缩减,但在所有标准描述指标(BLEU-4、METEOR、ROUGE-L、CIDEr)上都达到了强劲性能,能够理解低分辨率交通视频并生成语义准确的风险意识描述。
  • Conclusion: 知识蓄约和结构化多代理监督能够让轻量级模型拥有复杂推理能力,VISTA的紧凑架构便于在边缘设备上部署,实现实时风险监控而无需大规模基础设施升级。

[14] EDTalk++: Full Disentanglement for Controllable Talking Head Synthesis

Shuai Tan,Bin Ji

Main category: cs.CV

TL;DR: EDTalk++是一个新颖的完全解耦框架,用于可控说话头部生成,能够独立控制嘴型、头部姿态、眼部运动和情感表达,支持视频或音频输入。

  • Motivation: 现有方法往往忽视面部特征的解耦空间,无法实现独立操作且不能与不同模态输入共享。需要确保面部特征a)独立操作无相互干扰,b)能够保存并与不同模态输入共享。
  • Method: 使用四个轻量级模块将面部动态分解为嘴部、姿态、眼部和表情四个独立的潜在空间。每个空间由一组可学习基的线性组合定义特定运动。通过正交性约束确保独立性,设计高效训练策略分配运动责任。学习到的基存储在对应库中,实现与音频输入的共享视觉先验。
  • Result: 实验证明了EDTalk++的有效性,能够实现面部多运动的独立控制和多模态输入的适配。
  • Conclusion: EDTalk++提供了一个完整的解耦框架,成功解决了面部特征独立控制和多模态输入适配的问题,在说话头部生成领域具有重要应用价值。

[15] Revisiting MLLM Token Technology through the Lens of Classical Visual Coding

Jinming Liu,Junyan Lin,Yuntao Wei,Kele Shao,Keda Tao,Jianguo Huang,Xudong Yang,Zhibo Chen,Huan Wang,Xin Jin

Main category: cs.CV

TL;DR: 本文通过视觉编码的成熟原理重新审视MLLM token技术,建立了统一框架进行系统比较分析,探索双向技术融合以提升效率和鲁棒性,并展望未来研究方向。

  • Motivation: MLLM token技术和经典视觉编码具有共同的核心目标——在最小化计算成本的同时最大化信息保真度,因此需要从视觉编码的成熟原理角度重新审视MLLM token技术。
  • Method: 建立统一的形式化框架连接token技术和视觉编码,进行模块化的系统比较分析;综合双向洞察,探索视觉编码原理如何提升MLLM token技术的效率和鲁棒性,以及token技术范式如何指导下一代语义视觉编解码器设计。
  • Result: 提出了首个全面结构化的MLLM token与视觉编码技术比较研究,为更高效的多模态模型和更强大的视觉编解码器同时发展铺平了道路。
  • Conclusion: 这项研究通过视觉编码的视角系统分析了MLLM token技术,建立了双向技术融合的基础,为未来更高效的multimodal模型和先进的视觉codec设计指明了方向。

[16] Vision Transformers for Kidney Stone Image Classification: A Comparative Study with CNNs

Ivan Reyes-Amezcua,Francisco Lopez-Tiro,Clement Larose,Andres Mendez-Vazquez,Gilberto Ochoa-Ruiz,Christian Daul

Main category: cs.CV

TL;DR: Vision Transformers (ViT) 在肾结石内窥镜图像分类任务中显著优于传统CNN模型,特别是在复杂成像条件下表现更佳

  • Motivation: 肾结石分类对个性化治疗和复发预防至关重要,但传统CNN模型在捕捉长距离依赖关系方面存在局限,影响在多变成像条件下的性能
  • Method: 对Vision Transformers和基于CNN的模型进行对比分析,在两个离体数据集(CCD相机和柔性输尿管镜图像)上评估性能,使用ImageNet-21k预训练的ViT-base模型与ResNet50基线进行比较
  • Result: ViT模型在所有成像条件下均优于ResNet50:在最复杂的子集(内窥镜图像切片)中,ViT达到95.2%准确率和95.1% F1分数,而ResNet50仅为64.5%和59.3%;在混合视图子集中,ViT达到87.1%准确率,CNN为78.4%
  • Conclusion: ViT架构在肾结石图像分析中提供更优越的分类性能,是可扩展的传统CNN替代方案

[17] STER-VLM: Spatio-Temporal With Enhanced Reference Vision-Language Models

Tinh-Anh Nguyen-Nhu,Triet Dao Hoang Minh,Dat To-Thanh,Phuc Le-Gia,Tuan Vo-Lan,Tien-Huy Nguyen

Main category: cs.CV

TL;DR: STER-VLM是一个计算高效的视觉语言模型框架,通过caption分解、时序帧选择、参考驱动理解和精心设计的提示技术,显著提升了交通场景分析的语义丰富度和准确性。

  • Motivation: 当前视觉语言模型在交通分析中需要大量计算资源,且难以处理细粒度的时空理解问题。需要开发更高效、精确的框架来满足实际应用需求。
  • Method: 采用四种关键技术:(1)caption分解分别处理空间和时间信息;(2)最佳视角过滤的时序帧选择;(3)参考驱动理解捕获细粒度运动和动态上下文;(4)精心设计的视觉/文本提示技术。
  • Result: 在WTS和BDD数据集上显示出语义丰富度和交通场景解释能力的显著提升,在AI City Challenge 2025 Track 2中获得55.655的高分测试成绩。
  • Conclusion: STER-VLM框架有效推进了资源高效且准确的交通分析,为实际应用提供了可行的解决方案。

[18] MINR: Efficient Implicit Neural Representations for Multi-Image Encoding

Wenyong Zhou,Taiqiang Wu,Zhengwu Liu,Yuxin Cheng,Chen Zhang,Ngai Wong

Main category: cs.CV

TL;DR: MINR通过共享中间层来高效编码多张图像,节省60%参数的同时保持性能

  • Motivation: 解决隐式神经表示(INRs)在处理多图像时计算和存储效率低下的问题
  • Method: 共享中间层,保留输入输出层为图像特定,并设计额外的投影层捕获独特特征
  • Result: 在图像重建和超分辨率任务中节省60%参数,处理100张图像时平均PSNR达34dB
  • Conclusion: MINR方法有效解决了多图像INRs的效率问题,具有很好的扩展性和鲁棒性

[19] Distribution-Aware Hadamard Quantization for Hardware-Efficient Implicit Neural Representations

Wenyong Zhou,Jiachen Ren,Taiqiang Wu,Yuxin Cheng,Zhengwu Liu,Ngai Wong

Main category: cs.CV

TL;DR: DHQ是一种针对隐式神经表示(INRs)的分布感知哈达玛量化方案,同时对权重和激活进行量化,通过哈达玛变换将不同分布统一为钟形分布后应用标准量化器,显著提升硬件效率。

  • Motivation: 现有INR量化方法主要关注权重量化,缺乏激活量化,硬件节省有限。INRs依赖全精度计算导致显著硬件开销,需要同时量化权重和激活来充分利用量化优势。
  • Method: 提出DHQ方案,分析发现INRs中首尾层权重和激活分布与其他层不同。使用哈达玛变换将这些不同分布标准化为统一的钟形分布,然后应用标准量化器。
  • Result: 在多种图像重建任务上,DHQ相比全精度版本减少延迟32.7%、能耗40.1%、资源使用高达98.3%,优于先前量化方法。
  • Conclusion: DHQ通过分布感知的哈达玛量化有效解决了INRs中权重和激活的量化问题,显著提升了硬件效率,为INRs的实际部署提供了可行的量化解决方案。

[20] AIM 2025 challenge on Inverse Tone Mapping Report: Methods and Results

Chao Wang,Francesco Banterle,Bin Ren,Radu Timofte,Xin Lu,Yufeng Peng,Chengjie Ge,Zhijing Sun,Ziang Zhou,Zihao Li,Zishun Liao,Qiyu Kang,Xueyang Fu,Zheng-Jun Zha,Zhijing Sun,Xingbo Wang,Kean Liu,Senyan Xu,Yang Qiu,Yifan Ding,Gabriel Eilertsen,Jonas Unger,Zihao Wang,Ke Wu,Jinshan Pan,Zhen Liu,Zhongyang Li,Shuaicheng Liu,S. M Nadim Uddin

Main category: cs.CV

TL;DR: AIM 2025逆色调映射挑战赛综述,67个团队提交319个结果,最佳团队PU21-PSNR达到29.22dB,推动了HDR图像重建技术的发展

  • Motivation: 推动从单张LDR输入重建HDR图像的有效逆色调映射算法发展,重点关注感知保真度和数值一致性
  • Method: 对67个参与者提交的319个有效结果进行综合分析,评选出前五名团队并详细分析其方法学
  • Result: 最佳团队的PU21-PSNR达到29.22dB,挑战赛建立了强大的基准来指导未来研究
  • Conclusion: 该挑战赛成功推动了逆色调映射技术的发展,为HDR重建质量提升提供了创新策略和明确的研究方向

[21] Enhancing Robustness of Implicit Neural Representations Against Weight Perturbations

Wenyong Zhou,Yuxin Cheng,Zhengwu Liu,Taiqiang Wu,Chen Zhang,Ngai Wong

Main category: cs.CV

TL;DR: 这篇论文首次研究隐式神经表示(INRs)的稳健性问题,发现小幅渗透导致重构质量显著下降,并提出了一种新的稳健损失函数来提升INRs的稳健性。

  • Motivation: 隐式神经表示(INRs)在多媒体应用中显示出重要价值,但其网络权重容易受到干扰,导致性能严重下降,影响实际部署。需要研究INRs的稳健性问题并提出解决方案。
  • Method: 通过最小化带权重渗透和不带权重渗透的损失差异来形式化稳健性问题,推导出一种新的稳健损失函数,用于调节重构损失对权重的梯度,从而提升稳健性。
  • Result: 在多模态重构任务中进行了大量实验,结果显示在噪声条件下,该方法相比原始INRs能够实现峰值信噪比(PSNR)值最高提升7.5dB。
  • Conclusion: 该研究首次识别并解决了INRs的稳健性问题,提出的稳健损失函数方法能够有效提升INRs在权重受到渗透时的重构质量,为INRs的实际部署提供了可靠保障。

[22] FAMNet: Integrating 2D and 3D Features for Micro-expression Recognition via Multi-task Learning and Hierarchical Attention

Liangyu Fu,Xuecheng Wu,Danlei Huang,Xinyi Yin

Main category: cs.CV

TL;DR: 本文提出了一种基于多任务学习和层次注意力的微表情识别方法FAMNet,通过2D和3D CNN融合提取微表情的空间-时间特征,在多个数据集上取得显著性能提升。

  • Motivation: 微表情持续时间短、强度低,传统深度学习方法难以有效提取其细粒度和时空特征,需要新的方法来解决这些挑战。
  • Method: 设计FAMNet融合模型,包含2D CNN AMNet2D和3D CNN AMNet3D,使用Resnet18作为共享背骨网络和注意力模块。通过多任务学习同时进行微表情识别和面部动作单元检测,采用参数硬共享机制完善特征提取。
  • Result: 在SAMM、CASME II和MMEW数据集上,FAMNet达到83.75% (UAR)和84.03% (UF1)的性能。在更具挑战的CAS(ME)^3数据集上也达到51% (UAR)和43.42% (UF1)的结果。
  • Conclusion: 该研究提出的FAMNet模型通过2D和3D CNN的融合以及多任务学习机制,能够有效提取微表情的空间-时间特征,显著提升了微表情识别的性能。

[23] CORENet: Cross-Modal 4D Radar Denoising Network with LiDAR Supervision for Autonomous Driving

Fuyang Liu,Jilin Mei,Fangyuan Mao,Chen Min,Yan Xing,Yu Hu

Main category: cs.CV

TL;DR: CORENet是一个新颖的跨模态去噪框架,利用LiDAR监督从原始4D雷达数据中识别噪声模式并提取判别特征,提升4D雷达目标检测性能

  • Motivation: 4D雷达在恶劣天气条件下具有鲁棒性并能提供丰富的空间信息,但其点云数据稀疏且噪声严重,给有效感知带来巨大挑战
  • Method: 提出CORENet跨模态去噪框架,在训练阶段使用LiDAR数据进行跨模态监督,推理阶段完全使用雷达数据,采用即插即用架构可无缝集成到基于体素的检测框架中
  • Result: 在具有高噪声水平的挑战性Dual-Radar数据集上进行广泛评估,证明该框架能有效增强检测鲁棒性,相比现有主流方法获得更优越的性能
  • Conclusion: CORENet通过跨模态监督成功解决了4D雷达点云稀疏和噪声问题,为恶劣天气条件下的自动驾驶感知提供了有效的解决方案

[24] Multi-view Clustering via Bi-level Decoupling and Consistency Learning

Shihao Dong,Yuhui Zheng,Huiying Xu,Xinzhong Zhu

Main category: cs.CV

TL;DR: 提出BDCL框架,通过双层解耦和一致性学习提升多视图聚类的特征表示能力,增强簇间区分度和簇内紧密度

  • Motivation: 多视图聚类中,虽然学习视图间一致性和互补性可以提升性能,但面向聚类的表示学习往往被忽视,需要探索更有效的特征表示来增强簇间区分度和簇内紧密度
  • Method: 包含三个模块:1)多视图实例学习模块通过重构自编码器和对比学习对齐一致信息并保留私有特征;2)特征和簇的双层解耦增强特征空间和簇空间的区分度;3)一致性学习模块将样本的不同视图及其邻居视为正对,学习聚类分配的一致性并压缩簇内空间
  • Result: 在五个基准数据集上的实验结果表明,该方法相比最先进方法具有优越性
  • Conclusion: BDCL框架通过双层解耦和一致性学习有效提升了多视图聚类的性能,增强了特征表示的簇间区分度和簇内紧密度

[25] AdaptiveAE: An Adaptive Exposure Strategy for HDR Capturing in Dynamic Scenes

Tianyi Xu,Fan Zhang,Boxin Shi,Tianfan Xue,Yujin Wang

Main category: cs.CV

TL;DR: 基于强化学习的自适应曝光参数优化方法,通过模拟运动模糊和噪声来提升动态场景中的HDR重建质量

  • Motivation: 现有HDR技术忽视了快门速度和ISO之间的复杂交互作用,且没有充分考虑动态场景中的运动模糊效应,影响了HDR图像质量
  • Method: 提出AdaptiveAE方法,使用强化学习优化快门速度和ISO组合选择,集成了包含运动模糊和噪声模拟的图像合成流程,利用语义信息和曝光直方图
  • Result: 在多个数据集上进行实验,证明该方法达到了最先进的性能水平
  • Conclusion: AdaptiveAE能够根据用户定义的曝光时间预算自适应地选择最优的ISO和快门速度序列,比传统方案更好地优化曝光调度

[26] Bridging the Gap: Doubles Badminton Analysis with Singles-Trained Models

Seungheon Baek,Jinhyuk Yun

Main category: cs.CV

TL;DR: 通过转移单打训练模型和对比学习框架,将姿态基于冲击识别扩展到羽毛球双打分析中,解决了双打比赛数据缺乏和多人跟踪难题。

  • Motivation: 羽毛球双打比赛在国际赛事中更为普遍,但以往研究主要集中在单打。因数据获取困难和多人跟踪挑战,双打分析存在巨大空白。
  • Method: 使用ViT-Pose从ShuttleSet单打数据集提取关键点,通过ST-GCN对比学习框架进行嵌入。采用自定义多目标跟踪算法解决ID切换问题,然后用Transformer分类器根据嵌入识别冲击发生。
  • Result: 证明了姿态基于冲击识别在羽毛球双打中的可行性,扩展了分析能力。
  • Conclusion: 为双打特定数据集的建立奠定了基础,有助于更好理解这种主流但研究不足的快速拳派运动格式。

[27] 2D Gaussians Meet Visual Tokenizer

Yiang Shi,Xiaoyang Guo,Wei Yin,Mingkai Jia,Qian Zhang,Xiaolin Hu,Wenyu Liu,Xinggang Wan

Main category: cs.CV

TL;DR: VGQ是一种新型图像分词器,通过2D高斯分布显式建模几何结构,解决了传统VQ-GAN等量化方法忽视几何信息的问题,在ImageNet 256x256基准上实现了最先进的重建质量。

  • Motivation: 现有基于量化的图像分词器(如VQ-GAN)主要关注外观特征(纹理和颜色),由于其基于patch的设计往往忽略了几何结构信息,这限制了图像生成的质量和结构化表示能力。
  • Method: 提出了Visual Gaussian Quantization (VGQ)框架,将2D高斯分布集成到传统视觉码本量化框架中,通过直接建模位置、旋转和缩放等结构相关参数来编码图像潜在表示,有效捕获几何和空间结构。
  • Result: 在ImageNet 256x256基准测试中,VGQ实现了rFID 1.00的重建质量。通过增加2D高斯密度,进一步获得了rFID 0.556和PSNR 24.93的state-of-the-art重建性能,显著优于现有方法。
  • Conclusion: VGQ通过显式建模几何结构的新型分词器范式,在保持token效率的同时显著提升了视觉丰富度,为图像生成提供了更强大的结构化表示能力。

[28] Calibrating Biased Distribution in VFM-derived Latent Space via Cross-Domain Geometric Consistency

Yanbiao Ma,Wei Dai,Bowei Liu,Jiayi Chen,Wenke Huang,Guancheng Wan,Zhiwu Lu,Junchi Yan

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于几何形状知识的分布检验框架,利用基础模型特征的跨领域可转移性,在联邦学习和长尾分布识别中有效充实了数据分布空间。

  • Motivation: 深度学习中观察样本与真实分布存在差距,这种差距由采样偏差、噪声等因素导致。基础模型特征的几何形状具有显著的跨领域可转移性,可以用来充实分布空间。
  • Method: 提出几何知识导向的分布检验框架:在联邦学习中,设计技术在隐私约束下获取全局几何形状,并利用这种知识生成新样本来平衡本地和全局观测。在长尾识别中,利用来自样本丰富类别的几何知识来恢复尾部类别的真实分布。
  • Result: 综合实验表明,该方法能够有效克服由数据异质性和样本不平衡导致的信息缺失问题,在多个标准数据集上都实现了性能提升。
  • Conclusion: 基础模型特征的几何形状具有明显的跨领域可转移性,通过几何知识导向的分布检验技术可以有效充实数据分布空间,为联邦学习和长尾识别等挑战性场景提供了有效解决方案。

[29] Evaluating Open-Source Vision Language Models for Facial Emotion Recognition against Traditional Deep Learning Models

Vamsi Krishna Mulukutla,Sai Supriya Pavarala,Srinivasa Raju Rudraraju,Sridevi Bonthu

Main category: cs.CV

TL;DR: 这篇论文首次对比了开源视觉-语言模型和传统深度学习模型在面部情感识别任务上的表现,发现传统模型显著更优于VLMs,并提出了一种新的图像恢复流水线来应对噪声数据挑战。

  • Motivation: 面部情感识别对人机交互和心理健康诊断至关重要,但现有视觉-语言模型在低质量图像任务上的表现待评估。研究旨在实证比较VLMs与传统深度学习模型在具有挑战性的FER-2013数据集上的性能。
  • Method: 研究采用了包括Phi-3.5 Vision和CLIP在内的开源VLMs,以及VGG19、ResNet-50和EfficientNet-B0等传统深度学习模型。为了解决VLM训练假设与噪声FER数据之间的不匹配问题,研究提出了一种新的流水线,将GFPGAN图像恢复与FER评估相结合。
  • Result: 结果显示传统模型显著超过VLMs:EfficientNet-B0准确率达到86.44%,ResNet-50为85.72%,而CLIP和Phi-3.5 Vision分别仅有64.07%和51.66%。除了性能评估外,研究还提供了详细的计算成本分析,包括预处理、训练、推理和评估阶段。
  • Conclusion: 这项工作强调了VLMs在噪声环境中的限制,并为情感识别领域的未来研究提供了可复现的基准。研究结果表明需要适应VLMs以处理低质量视觉任务,并为实际部署提供了实用见解。

[30] EAvatar: Expression-Aware Head Avatar Reconstruction with Generative Geometry Priors

Shikun Zhang,Cunjian Chen,Yiqun Wang,Qiuhong Ke,Yong Li

Main category: cs.CV

TL;DR: 基于3D高斯拖尾的表情感知头部虚拟人重建方法EAvatar,通过稀疏表情控制机制和3D先验知识提升了细粒度表情捕捉和细节保真度

  • Motivation: 现有的3D高斯拖尾基方法在头部虚拟人重建中存在细微面部表情捕捉困难和局部纹理连续性保持不佳的问题
  • Method: 提出稀疏表情控制机制,用少量关键高斯元素影响周围高斯元素的变形,并利用预训练生成模型的高质量3D先验知识提供面部几何结构指导
  • Result: 实验结果显示方法能够生成更准确、视觉一致的头部重建结果,在表情控制性和细节保真度方面都有显著提升
  • Conclusion: EAvatar框架通过表情感知和变形感知的设计,有效解决了高可变形区域的细微表情捕捉和纹理连续性问题,为高保真头部虚拟人重建提供了有效解决方案

[31] FLAIR: Frequency- and Locality-Aware Implicit Neural Representations

Sukhun Ko,Dahyeon Kye,Kyle Min,Chanho Eom,Jihyong Oh

Main category: cs.CV

TL;DR: FLAIR提出了一种频率和局部感知的隐式神经表示方法,通过RC-GAUSS激活函数和WEGE编码机制解决现有INRs缺乏频率选择性和空间局部化的问题。

  • Motivation: 现有隐式神经表示(INRs)缺乏频率选择性、空间局部化和稀疏表示,导致过度依赖冗余信号分量,出现频谱偏差问题,难以捕捉高频细节。
  • Method: 提出FLAIR方法,包含两个关键创新:1) RC-GAUSS激活函数,在时频不确定性原理约束下实现显式频率选择和空间局部化;2) 小波能量引导编码(WEGE),利用离散小波变换计算能量分数,显式引导频率信息到网络中。
  • Result: 该方法在2D图像表示与恢复以及3D重建任务中持续优于现有INRs。
  • Conclusion: FLAIR通过引入频率选择和空间局部化机制,有效解决了INRs的频谱偏差问题,提升了高频细节的捕捉能力。

[32] GazeProphet: Software-Only Gaze Prediction for VR Foveated Rendering

Farhaan Ebadulla,Chiraag Mudlapur,Gaurav BV

Main category: cs.CV

TL;DR: GazeProphet是一个纯软件方案,通过结合球形视觉变换器和LSTM时序编码器来预测VR中的注视位置,无需专用眼动追踪硬件,实现了3.83度的中位角度误差,比传统方法提升24%。

  • Motivation: 当前基于硬件的眼动追踪系统成本高、校准复杂且硬件兼容性受限,限制了注视点渲染技术的广泛应用。需要开发纯软件的解决方案来降低部署门槛。
  • Method: 采用球形视觉变换器处理360度VR场景,结合LSTM时序编码器捕捉注视序列模式,通过多模态融合网络整合空间场景特征和时序注视动态来预测未来注视位置并提供置信度估计。
  • Result: 在综合VR数据集上的实验显示,GazeProphet实现了3.83度的中位角度误差,比传统显著性基线方法提升24%,且在不同空间区域和场景类型中保持稳定性能。
  • Conclusion: 研究表明纯软件注视预测可以用于VR注视点渲染,使性能提升更易于在不同VR平台和应用中部署,无需额外硬件要求。

[33] A Lightweight Dual-Mode Optimization for Generative Face Video Coding

Zihan Zhang,Shanzhi Yin,Bolin Chen,Ru-Ling Liao,Shiqi Wang,Yan Ye

Main category: cs.CV

TL;DR: 这篇论文提出了一种轻量级生成式人脸视频编码框架,通过双模式优化技术(结构重设和操作精细化),在保持重建质量的同时大幅降低了模型参数和计算复杂度。

  • Motivation: 虽然生成式人脸视频编码(GFVC)在码率-夸变性能方面表现优异,但大型模型参数和高计算成本阻碍了其实际部署。需要一种轻量级方案来支持资源受限环境中的应用。
  • Method: 提出双模式优化方法:1)结构重设:用更薄、更高效的层替换传统3x3卷积;2)操作精细化:两阶段适配性通道剪枝策略,包括训练期的软剪枝(通过可学习阈值识别冗余通道)和训练后的硬剪枝(使用导出的掩码永久删除冗余通道)。
  • Result: 实验结果显示,该方法与基线相比能够实现90.4%的参数减少和88.9%的计算节省,同时在感知质量指标上超过了最先进的视频编码标准VVC。
  • Conclusion: 提出的轻量级双模式优化GFVC框架能够在保持高重建质量的同时大幅降低复杂度,为轻量级设备和移动边缘设备中的高效部署提供了可行方案。

[34] Color Spike Data Generation via Bio-inspired Neuron-like Encoding with an Artificial Photoreceptor Layer

Hsieh Ching-Teng,Wang Yuan-Kai

Main category: cs.CV

TL;DR: 通过模仿生物神经元运作原理的神经元样编码方法,使刻度信号包含色彩和亮度信息,提升SNN性能保持神经形态计算原则

  • Motivation: 解决刻度神经网络(SNN)因刻度数据信息容量有限而性能落后于卷积神经网络(CNN)的问题,同时避免违背神经形态计算的刻度基础原则
  • Method: 提出神经元样编码方法,基于生物神经元的内在运作原理生成刻度数据,加入人造光感器层使刻度数据包含色彩和亮度信息
  • Result: 实验结果显示该方法能够有效增加刻度信号的信息含量并提升SNN性能
  • Conclusion: 这种受生物启发的方法有望突破神经形态计算当前的限制,促进SNN的更广泛应用

[35] DictAS: A Framework for Class-Generalizable Few-Shot Anomaly Segmentation via Dictionary Lookup

Zhen Qu,Xian Tao,Xinyi Gong,ShiChen Qu,Xiaopei Zhang,Xingang Wang,Fei Shen,Zhengtao Zhang,Mukesh Prasad,Guiguang Ding

Main category: cs.CV

TL;DR: DictAS是一个新颖的少样本异常分割框架,通过自监督学习将字典查找能力迁移到未见类别,无需目标数据重新训练,仅使用少量正常参考图像作为视觉提示。

  • Motivation: 现有视觉语言模型在少样本异常分割中的跨类别泛化能力严重依赖于真实异常样本的先验知识,限制了在实际应用中的灵活性。
  • Method: 包含三个核心组件:字典构建(用正常参考图像特征模拟字典索引和内容)、字典查找(通过稀疏查找策略检索查询区域特征)、查询判别正则化(通过对比查询约束和文本对齐约束增强异常判别能力)。
  • Result: 在7个工业和医学公开数据集上的广泛实验表明,DictAS持续优于最先进的少样本异常分割方法。
  • Conclusion: 该方法通过自监督字典查找机制实现了对未见类别的有效异常检测,避免了传统方法对异常样本先验知识的依赖,具有更好的泛化性能。

[36] Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics

Yuchen Yang,Linfeng Dong,Wei Wang,Zhihang Zhong,Xiao Sun

Main category: cs.CV

TL;DR: 通过神经网络替代迭代优化过程,实现了近200倍速度提升的SMPLify方案

  • Motivation: 解决SMPLify迭代优化计算成本高的问题,利用神经网络替代传统迭代方法提高效率
  • Method: 提出可学习SMPLify框架,采用时序采样策略构建训练数据,人体中心化标准和殊巡学习简化解空间
  • Result: 运行时间提升近200倍,在3DPW和RICH数据集上表现良好,支持模型无关插件应用
  • Conclusion: 该方法成为了一个实用简单的基准方案,在保持准确性的同时显著提高了效率

[37] The 9th AI City Challenge

Zheng Tang,Shuo Wang,David C. Anastasiu,Ming-Ching Chang,Anuj Sharma,Quan Kong,Norimasa Kobori,Munkhjargal Gochoo,Ganzorig Batnasan,Munkh-Erdene Otgonbold,Fady Alnajjar,Jun-Wei Hsieh,Tomasz Kornuta,Xiaolong Li,Yilin Zhao,Han Zhang,Subhashree Radhakrishnan,Arihant Jain,Ratnesh Kumar,Vidya N. Murali,Yuxing Wang,Sameer Satish Pusegaonkar,Yizhou Wang,Sujit Biswas,Xunlei Wu,Zhedong Zheng,Pranamesh Chakraborty,Rama Chellappa

Main category: cs.CV

TL;DR: 第九届AI City Challenge聚焦计算机视觉和AI在交通、工业自动化和公共安全领域的应用,包含4个赛道,参与团队增加17%,数据集下载量超3万次。

  • Motivation: 推动计算机视觉和AI技术在现实世界交通、工业和公共安全场景中的实际应用,通过多任务挑战促进技术创新和基准测试。
  • Method: 设立4个不同技术方向的赛道:多类别3D多相机跟踪、交通视频问答、仓库空间推理、鱼眼相机目标检测,使用NVIDIA Omniverse生成数据集并采用严格评估框架。
  • Result: 245个团队参与,多个团队取得顶级成绩,在多个任务中设立了新的基准,数据集被广泛下载和使用。
  • Conclusion: AI City Challenge成功推动了多模态AI技术在现实场景中的应用,通过多样化的任务设置和严格的评估机制促进了技术发展和可复现性。

[38] Generative Model-Based Feature Attention Module for Video Action Analysis

Guiqin Wang,Peng Zhao,Cong Zhao,Jing Huang,Siyan Guo,Shusen Yang

Main category: cs.CV

TL;DR: 通过生成式注意力模型学习特征语义关系,同时考虑帧级和段落级依赖性,提升视频动作分析的精确度和可扩展性

  • Motivation: 现有视频动作分析方法忽视特征语义学习,专注于动作建议优化,无法满足高性能IoT应用如自主驾驶的精确度要求
  • Method: 提出新的生成式注意力模型,利用动作前景与背景的差异,同时学习时间特征语义的帧级和段落级依赖关系
  • Result: 在动作检测和动作识别任务上进行了广泛实验,在公认数据集上验证了方法的优劢性
  • Conclusion: 该方法通过有效利用特征语义,为高性能IoT应用提供了稳健可扩展的视频分析解决方案

[39] Temporal-Conditional Referring Video Object Segmentation with Noise-Free Text-to-Video Diffusion Model

Ruixin Zhang,Jiaqing Fan,Yifan Liao,Qian Qiao,Fanzhang Li

Main category: cs.CV

TL;DR: 本文提出了一种时序条件引用视频对象分割模型,通过改进分割头设计、利用文本到视频扩散模型提取特征,以及新的时序上下文掩码精细模块,在四个公开数据集上达到了最先进性能。

  • Motivation: 现有的引用视频对象分割方法过于重视特征提取和时序建模,而相对忽视了分割头的设计。实际上,分割头设计仍有很大的改进空间。
  • Method: 1. 提出时序条件引用视频对象分割模型,创新地整合现有分割方法来提升边界分割能力
  1. 利用文本到视频扩散模型进行特征提取
  2. 移除传统的噪声预测模块,避免噪声随机性导致分割准确性下降
  3. 设计时序上下文掩码精细(TCMR)模块,充分利用VAE的特征提取能力
  • Result: 在四个公开的RVOS测试集上,该方法一致地达到了最先进的性能水平。
  • Conclusion: 通过重新关注分割头设计、利用扩散模型特征提取以及新的时序上下文掩码精细模块,本文提出的方法有效提升了引用视频对象分割的边界分割能力和整体性能,为该领域提供了一种简洁有效的解决方案。

[40] Bridging Clear and Adverse Driving Conditions

Yoel Shapiro,Yahia Showgan,Koustav Mullick

Main category: cs.CV

TL;DR: 通过基于GAN和汇泰扩散-GAN的域适应方法,将晴天图像转换为雾、雨、雪和夜间图像,提升自动驾驶系统在恶劣天气条件下的感知性能

  • Motivation: 自动驾驶系统在恶劣天气条件下性能显著下降,而数据集中恶劣条件数据缺乏,直接收集和标注成本过高
  • Method: 提出了模拟、GAN基础和汇泰扩散-GAN等多种数据生成流水线,利用现有DA GAN并扩展支持辅助输入,开发了利用模拟和真实图像的训练方法,并通过适应融合技术减少扩散模型的幻觉和伪影
  • Result: 在ACDC数据集上评估,语义分割整体提升1.85%,夜间场景下提升4.62%,显示了汇泰方法在挑战性条件下的有效性
  • Conclusion: 汇泰扩散-GAN方法能够生成超现实的恶劣天气图像,显著提升了自动驾驶系统在复杂环境下的感知精度,为解决恶劣天气数据缺乏问题提供了一种成本效益高的方案

[41] Towards Efficient Vision State Space Models via Token Merging

Jinyoung Park,Minseok Son,Changick Kim

Main category: cs.CV

TL;DR: MaMe是一种专门为基于状态空间模型(SSM)的视觉模型设计的token合并策略,通过利用状态转移参数Δ量化token重要性并保持序列信息流,在保持性能的同时显著提升计算效率。

  • Motivation: 状态空间模型在计算机视觉中表现出强大能力,但计算效率仍是实际部署的关键挑战。现有的token缩减方法需要针对SSM独特的序列建模能力进行专门设计。
  • Method: 提出MaMe策略:1) 利用状态转移参数Δ作为信息量度量指标来量化token重要性;2) 引入战略性token排列以保持序列信息流;3) 专门针对SSM架构进行优化设计。
  • Result: 实验表明MaMe在效率和性能之间取得了优越的平衡,即使在激进的token缩减情况下也能保持鲁棒性。该方法在图像分类、视频和音频等多个领域都展现出强大的泛化能力。
  • Conclusion: MaMe为SSM模型提供了一种有效的效率提升方法,通过专门设计的token合并策略,在保持序列建模能力的同时显著降低计算成本,具有广泛的应用前景。

[42] Unleashing Semantic and Geometric Priors for 3D Scene Completion

Shiyuan Chen,Wei Sui,Bohao Zhang,Zeyd Boukhers,John See,Cong Yang

Main category: cs.CV

TL;DR: 基于双重解耦设计的FoundationSSC框架,通过基础编码器提供语义和几何先验知识,使用专门化路径精炼,并通过新的轴向融合模块实现优异的3D语义场景完成性能

  • Motivation: 现有方法依赖耦合编码器来提供语义和几何先验知识,这强刻模型在冲突需求之间做出折衷,限制了整体性能
  • Method: 提出双重解耦设计:源头级别使用基础编码器提供语义特征和立体成本体积,路径级别通过专门化路径精炼先验知识,使用混合视图变换生成补充性3D特征,并通过新的轴向融合模块进行合并
  • Result: 在SemanticKITTI上达到新的最佳性能,语义指标提升+0.23 mIoU,几何指标提升+2.03 IoU;在SSCBench-KITTI-360上达到状态最佳性能,分别为21.78 mIoU和48.61 IoU
  • Conclusion: FoundationSSC通过双重解耦设计有效解决了语义和几何先验知识的冲突问题,实现了两者的同时提升,为自主驾驶和机器人导航提供了更优异的密集感知能力

[43] PersonaVlog: Personalized Multimodal Vlog Generation with Multi-Agent Collaboration and Iterative Self-Correction

Xiaolu Hou,Bing Ma,Jiaxiang Cheng,Xuhua Ren,Kai Yu,Wenyue Li,Tianxiang Zheng,Qinglin Lu

Main category: cs.CV

TL;DR: 提出了PersonaVlog框架,基于多模态大语言模型的多智能体协作系统,能够自动生成包含视频、背景音乐和内心独白语音的个性化Vlog。

  • Motivation: 现有Vlog生成方法主要依赖预定义脚本,缺乏动态性和个人表达,需要一种能够实现有效多模态协作和高个性化程度的自动化Vlog生成方法。
  • Method: 基于MLLMs的多智能体协作框架,包含反馈和回滚机制,利用MLLMs评估生成结果并实现迭代自校正。还提出了ThemeVlogEval基准评估框架。
  • Result: 综合实验表明,该框架相比多个基线方法具有显著优势,在自动化Vlog生成方面展现出有效性和巨大潜力。
  • Conclusion: PersonaVlog框架通过多模态协作和个性化生成,成功解决了现有Vlog生成方法的局限性,为自动化内容创作提供了高效且富有创造性的解决方案。

[44] Two-Factor Authentication Smart Entryway Using Modified LBPH Algorithm

Zakiah Ayop,Wan Mohamad Hariz Bin Wan Mohamad Rosdi,Looi Wei Hua,Syarulnaziah Anawar,Nur Fadzilah Othman

Main category: cs.CV

TL;DR: 基于树莓派的智能门禁系统,通过人脸识别和口罩检测实现两因素认证,达到70%准确率和80%精确度

  • Motivation: 在COVID-19大流行期间,缺乏基于IoT的口罩检测系统,需要开发智能门禁访问控制方案
  • Method: 使用树莓派平台,采用局部二值模式直方图算法进行全脸识别,修改后的LBPH算法进行遮挡脸部检测,通过Telegram远程控制
  • Result: 系统平均达到约70%准确率、80%精确度和83.26%召回率,能够自动进行用户注册、门锁控制和报警
  • Conclusion: 该系统能够有效进行人脸识别和口罩检测,用户接受度高,适合未来应用于智能入口控制场景

[45] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

Shunian Chen,Hejin Huang,Yexin Liu,Zihan Ye,Pengcheng Chen,Chenghao Zhu,Michael Guan,Rongsheng Wang,Junying Chen,Guanbin Li,Ser-Nam Lim,Harry Yang,Benyou Wang

Main category: cs.CV

TL;DR: TalkVid是一个新的大规模、高质量、多样化音频驱动说话头合成数据集,包含1244小时视频和7729个独特说话人,解决了现有模型在种族、语言和年龄群体多样性方面泛化能力不足的问题。

  • Motivation: 当前最先进的音频驱动说话头合成模型在人类多样性(种族、语言、年龄群体)方面缺乏泛化能力,主要原因是训练数据在规模、质量和多样性方面存在局限性。
  • Method: 通过多阶段自动化流水线精心筛选运动稳定性、美学质量和面部细节,构建TalkVid数据集;同时创建TalkVid-Bench评估集,包含500个在关键人口统计和语言维度上平衡的片段。
  • Result: 在TalkVid上训练的模型优于在先前数据集上训练的模型,表现出更好的跨数据集泛化能力;TalkVid-Bench分析揭示了传统聚合指标掩盖的性能差异。
  • Conclusion: TalkVid数据集和TalkVid-Bench评估集为解决音频驱动说话头合成的多样性泛化问题提供了重要资源,强调了平衡评估的必要性。

[46] RCGNet: RGB-based Category-Level 6D Object Pose Estimation with Geometric Guidance

Sheng Yu,Di-Hua Zhai,Yuanqing Xia

Main category: cs.CV

TL;DR: 一种仅使用RGB图像的类别级物体姿势估计方法,通过变换器网络预测几何特征并使用RANSAC-PnP算法计算姿势,解决了缺乏深度信息的挑战

  • Motivation: 当前的RGB-D基于类别级物体姿势估计方法在缺乏深度信息的场景中面临重大挑战,需要一种仅依赖RGB图像的方案来实现准确的姿势估计
  • Method: 设计了基于变换器的神经网络来预测和融合目标物体的几何特征,并为了确保预测几何特征准确描绘物体形状,引入了几何特征导向算法,最后使用RANSAC-PnP算法来解决变化尺度的姿势估计问题
  • Result: 在标准数据集上的实验结果显示,该方法不仅高效而且精度超过了之前的RGB基础方法
  • Conclusion: 这些有前景的结果为使用RGB图像推进类别级物体姿势估计提供了新的视角

[47] DiffIER: Optimizing Diffusion Models with Iterative Error Reduction

Ao Chen,Lihe Ding,Tianfan Xue

Main category: cs.CV

TL;DR: 本文提出了DiffIER方法来解决扩散模型中分类器无关引导(CFG)存在的训练-推理差距问题,通过迭代误差最小化优化生成质量,在多个条件生成任务中表现优异。

  • Motivation: 扩散模型在条件生成中对引导权重选择高度敏感,存在训练与推理阶段的性能差距,这影响了生成样本的质量和稳定性。
  • Method: 提出DiffIER方法,通过测量推理阶段的累积误差并建立与引导权重的关联,在每个推理步骤进行迭代误差最小化来减少累积误差。
  • Result: 实验结果表明该方法在条件生成任务中优于基线方法,在文本到图像生成、图像超分辨率和文本到语音生成等多个领域都取得了成功。
  • Conclusion: DiffIER作为一种即插即用的优化框架,能够有效提升扩散模型的生成质量,具有广泛的适用性和应用潜力。

[48] OmniTry: Virtual Try-On Anything without Masks

Yutong Feng,Linlin Zhang,Hengyuan Cao,Yiming Chen,Xiaoduan Feng,Jian Cao,Yuxiong Wu,Bin Wang

Main category: cs.CV

TL;DR: OmniTry是一个统一的虚拟试穿框架,可处理任何可穿戴物品(珠宝、配饰等),采用无掩码设置,通过两阶段训练解决数据配对难题,在12类物品上表现优于现有方法。

  • Motivation: 现有虚拟试穿方法主要关注服装,缺乏对其他可穿戴物品(如珠宝、配饰)的支持,且需要掩码输入,限制了实际应用。
  • Method: 提出两阶段训练流程:第一阶段利用大规模无配对图像训练无掩码定位模型,第二阶段用少量配对图像微调以保持物品外观一致性。重新利用修复模型在合适位置自动绘制物品。
  • Result: 在包含12类常见可穿戴物品的综合基准测试中,OmniTry在物品定位和ID保持方面均优于现有方法,且第一阶段后模型即使使用少量配对样本也能快速收敛。
  • Conclusion: OmniTry成功扩展了虚拟试穿的应用范围,解决了多类可穿戴物品的无掩码试穿问题,为实际应用提供了更实用的解决方案。

[49] DeH4R: A Decoupled and Hybrid Method for Road Network Graph Extraction

Dengxian Gong,Shunping Ji

Main category: cs.CV

TL;DR: 一种新的混合模型DeH4R,结合了图生成方法的高效性和图增长方法的动态性,通过解耦任务实现了高效、准确的道路网络提取

  • Motivation: 解决现有道路网络提取方法的限制:分割方法拓扑保真度低,图增长方法计算成本高,图生成方法不支持动态顶点插入
  • Method: 将任务解耦为候选顶点检测、相邻顶点预测、初始图构建和图扩展四个步骤,结合图生成的高效性和图增长的动态性
  • Result: 在CityScale和SpaceNet评测中达到最先进性能,比之前最佳图增长方法RNGDet++在CityScale上APLS提升4.62,IoU提升10.18,速度提升约10倍
  • Conclusion: DeH4R通过混合设计成功解决了道路网络提取中的效率和动态性问题,在保持高速推理的同时显著提升了拓扑保真度和空间一致性

[50] HumanPCR: Probing MLLM Capabilities in Diverse Human-Centric Scenes

Keliang Li,Hongze Shen,Hao Shi,Ruibing Hou,Hong Chang,Jie Huang,Chenghao Jia,Wen Wang,Yiling Wu,Dongmei Jiang,Shiguang Shan,Xilin Chen

Main category: cs.CV

TL;DR: HumanPCR是一个评估多模态大语言模型在人类相关视觉上下文理解能力的三层次评估套件,包含感知、理解和推理三个层级,包含6000+人工验证问题和视频推理测试,评估发现现有模型在人类中心视觉理解方面存在显著挑战。

  • Motivation: 随着多模态模型的快速发展,追求人工通用智能需要模型在多样化环境中达到人类可比性能,但现有基准测试经常忽视人类相关视觉上下文理解的关键技能。
  • Method: 提出HumanPCR评估套件,包含三个层次:Human-P(感知)和Human-C(理解)包含6000+人工验证多选题,评估9个维度的任务;Human-R(推理)提供手动策划的视频推理测试,需要整合多个视觉证据并主动提取上下文。每个问题都包含人工标注的思维链推理过程。
  • Result: 对30多个最先进模型的广泛评估显示,在人类中心视觉理解方面存在显著挑战,特别是在详细空间感知、时间理解和心智建模任务中。模型在从多样化人类场景中提取主动视觉证据方面表现挣扎,过度依赖查询引导检索。即使使用扩展视觉上下文和测试时思考等先进技术,收益也有限。
  • Conclusion: HumanPCR评估套件和发现将推动多模态模型的开发、评估和人类中心应用的发展,揭示了当前模型在人类相关视觉理解方面的局限性,为未来研究提供了重要基准。

[51] Diversity-enhanced Collaborative Mamba for Semi-supervised Medical Image Segmentation

Shumeng Li,Jian Zhang,Lei Qi,Luping Zhou,Yinghuan Shi,Yang Gao

Main category: cs.CV

TL;DR: DCMamba框架通过数据、网络和特征三个层面的多样性增强,在仅有20%标注数据的情况下,在医学图像半监督分割任务中取得了显著性能提升,比现有方法高出6.69%。

  • Motivation: 医学图像标注成本高昂且耗时,半监督分割技术通过利用未标注数据生成伪标签来缓解这一问题。最近先进的状态空间模型(如Mamba)在处理长距离依赖方面表现出色,这激发了探索其在半监督医学图像分割中潜力的动机。
  • Method: 提出DCMamba框架,从三个层面增强多样性:1)数据层面:开发基于Mamba扫描特性的patch级弱-强混合增强;2)网络层面:引入多样化扫描协作模块,利用不同扫描方向产生的预测差异;3)特征层面:采用不确定性加权的对比学习机制增强特征表示多样性。
  • Result: 在Synapse数据集上,使用20%标注数据时,DCMamba显著优于其他半监督医学图像分割方法,比最新的SSM-based方法高出6.69%。
  • Conclusion: DCMamba框架通过多层次的多样性增强策略,有效提升了半监督医学图像分割的性能,证明了状态空间模型在该领域的应用潜力。

[52] Hierarchical Vision-Language Retrieval of Educational Metaverse Content in Agriculture

Ali Abdari,Alex Falcon,Giuseppe Serra

Main category: cs.CV

TL;DR: 提出了一个包含457个农业主题虚拟博物馆的新数据集,并开发了分层视觉语言模型用于自然语言查询检索,在农业元宇宙场景检索任务上取得了显著效果提升。

  • Motivation: 在线教育内容快速增长但缺乏有效组织,元宇宙为教育内容提供了沉浸式交互环境,但现有数据集规模小且检索相关元宇宙场景仍具挑战性。
  • Method: 引入AgriMuseums数据集(457个农业虚拟博物馆),提出分层视觉语言模型来表示和检索相关虚拟博物馆,支持自然语言查询。
  • Result: 方法达到62% R@1和78% MRR的检索效果,在现有基准上提升6% R@1和11% MRR,实验验证了设计选择的有效性。
  • Conclusion: 该工作为农业元宇宙教育内容的组织和检索提供了有效解决方案,数据集和代码已开源,有助于推动相关领域研究发展。

[53] Enhancing Targeted Adversarial Attacks on Large Vision-Language Models through Intermediate Projector Guidance

Yiming Cao,Yanjie Li,Kaisheng Liang,Yuni Lai,Bin Xiao

Main category: cs.CV

TL;DR: 提出IPGA攻击方法,通过利用投影器模块的中间阶段(Q-Former)进行细粒度视觉特征操控,实现更精确的对抗攻击,在全局图像描述和细粒度视觉问答任务中优于现有方法。

  • Motivation: 现有对抗攻击方法在视觉语言模型中仅扰动图像以最大化全局相似度,将丰富的视觉语义压缩为单一全局向量,限制了攻击粒度,且忽视了投影器模块这一关键语义桥梁。
  • Method: 提出Intermediate Projector Guided Attack (IPGA),首次利用投影器模块中间阶段(Q-Former)进行攻击,将全局图像嵌入转换为细粒度视觉特征;提出Residual Query Alignment (RQA)来保留无关视觉内容。
  • Result: 在标准全局图像描述任务和细粒度视觉问答任务中一致优于现有方法,成功迁移到多个商业VLM(Google Gemini和OpenAI GPT)。
  • Conclusion: IPGA通过操作语义有意义的视觉标记而非单一全局表示,实现了更精确的对抗扰动控制,提高了攻击效果和跨VLM的迁移性。

[54] Mitigating Cross-Image Information Leakage in LVLMs for Multi-Image Tasks

Yeji Park,Minyoung Lee,Sanghyuk Chun,Junsuk Choe

Main category: cs.CV

TL;DR: FOCUS是一种无需训练的解码策略,通过顺序掩码图像来缓解多图像输入时的信息泄露问题,显著提升多图像推理性能

  • Motivation: 大型视觉语言模型在处理单图像任务时表现良好,但在处理多图像输入时性能显著下降,因为不同图像的视觉线索在模型输出中相互干扰,出现跨图像信息泄露现象
  • Method: 提出FOCUS解码策略:1)顺序用随机噪声掩码除一张图像外的所有图像;2)重复此过程获得部分掩码上下文下的logits;3)聚合logits并使用纯噪声参考输入进行对比精炼
  • Result: FOCUS在四个多图像基准测试和多种LVLM模型家族中一致提升性能
  • Conclusion: FOCUS提供了一种通用且实用的解决方案,无需额外训练或架构修改即可增强多图像推理能力

[55] MR6D: Benchmarking 6D Pose Estimation for Mobile Robots

Anas Gouda,Shrutarv Awasthi,Christian Blesing,Lokeshwaran Manohar,Frank Hoffmann,Alice Kirchheim

Main category: cs.CV

TL;DR: MR6D是一个专为移动机器人设计的6D姿态估计数据集,针对工业环境中大尺寸物体、远距离视角和复杂遮挡等挑战,填补了现有数据集主要关注小型家用物体的局限性。

  • Motivation: 现有6D姿态估计数据集主要针对机器人臂操作的小型家用物体,无法满足移动机器人平台在工业环境中面临的远距离感知、大尺寸物体、严重自遮挡和多样化视角等独特挑战。
  • Method: 构建包含92个真实场景的数据集,涵盖16个独特物体,包含静态和动态交互场景,专门捕捉移动平台特有的远距离视角、多样化物体配置、大尺寸物体和复杂遮挡模式。
  • Result: 初步实验显示当前6D姿态估计流程在这些设置下表现不佳,2D分割成为另一个主要障碍,表明现有方法在移动机器人场景中存在明显局限性。
  • Conclusion: MR6D为开发和评估面向移动机器人需求的姿态估计方法奠定了基础,填补了该领域的数据空白,数据集已公开提供以促进相关研究。

[56] Shape-from-Template with Generalised Camera

Agniva Sengupta,Stefan Zachow

Main category: cs.CV

TL;DR: 这篇论文提出了一种新的多相机设备下的3D形状到2D关键点非粘性注册方法,通过凭借相机之间的相互约束提高重建精度。

  • Motivation: 将多相机信息结合到形状注册中,可以扩展医学成像和手持相机注册等应用场景的范围。
  • Method: 使用广义相机模型表示多相机设置,提出三种注册方法:知道三维点的方向向量法、未知三维点但知道方向的方法、以及结合边缘信息的方法。
  • Result: 在合成和实际数据上验证了方法的准确性,实现了更高精度的3D形状重建。
  • Conclusion: 这是首个解决广义相机下形状注册问题的方法集,为多视角非粘性注册开启了新方向。

[57] VisionLaw: Inferring Interpretable Intrinsic Dynamics from Visual Observations via Bilevel Optimization

Jiajing Lin,Shu Jiang,Qingyuan Zeng,Zhenzhong Wang,Min Jiang

Main category: cs.CV

TL;DR: VisionLaw是一个双层优化框架,通过视觉观察推断可解释的内在动力学表达式,使用LLM作为物理专家生成和修订本构定律,并通过视觉模拟评估一致性

  • Motivation: 现有方法在从视觉观察推断物体内在动力学时面临两个主要挑战:依赖手动定义的本构先验难以泛化到复杂场景,或使用神经网络导致可解释性差和泛化能力有限
  • Method: 提出双层优化框架:上层使用LLM驱动的解耦本构演化策略,LLM作为物理专家生成和修订本构定律;下层使用视觉引导的本构评估机制,通过视觉模拟评估生成的本构定律与底层内在动力学的一致性
  • Result: 在合成和真实数据集上的实验表明,VisionLaw能有效从视觉观察推断可解释的内在动力学,显著优于现有最先进方法,并在新场景的交互模拟中表现出强泛化能力
  • Conclusion: VisionLaw框架成功解决了现有方法的局限性,通过结合LLM的物理知识和视觉模拟评估,实现了从视觉观察中推断可解释且泛化能力强的内在动力学表达式

[58] A Fully Transformer Based Multimodal Framework for Explainable Cancer Image Segmentation Using Radiology Reports

Enobong Adahada,Isabel Sassoon,Kate Hone,Yongmin Li

Main category: cs.CV

TL;DR: Med-CTX是一个基于Transformer的多模态框架,用于可解释的乳腺癌超声分割,通过整合临床放射学报告提升性能和可解释性,在BUS-BRA数据集上达到99% Dice分数和95% IoU。

  • Motivation: 提高乳腺癌超声分割的性能和可解释性,通过整合临床文本信息来增强模型的可信度和透明度,为计算机辅助诊断提供临床依据的解释。
  • Method: 使用双分支视觉编码器(ViT和Swin Transformer)结合不确定性感知融合,通过BioClinicalBERT编码临床语言(BI-RADS语义),利用跨模态注意力融合视觉和文本特征,同时生成分割掩码、不确定性图和诊断理由。
  • Result: 在BUS-BRA数据集上达到99% Dice分数和95% IoU,优于U-Net、ViT和Swin等基线模型。消融研究显示临床文本对分割精度和解释质量至关重要(Dice下降5.4%,CIDEr下降31%)。获得良好的多模态对齐(CLIP分数85%)和置信度校准(ECE 3.2%)。
  • Conclusion: Med-CTX为可信赖的多模态医学架构设立了新标准,通过整合临床文本显著提升了分割性能和模型可解释性,为临床决策提供了更可靠的辅助工具。

[59] Timestep-Compressed Attack on Spiking Neural Networks through Timestep-Level Backpropagation

Donghwa Kang,Doohyun Kim,Sang-Ki Ko,Jinkyu Lee,Hyeongboo Baek,Brent ByungHoon Kang

Main category: cs.CV

TL;DR: 提出了TCA(时间步压缩攻击)框架,通过时间步级反向传播和对抗性膜电位重用技术,显著降低SNN对抗攻击的延迟达56%以上,同时保持相似的攻击成功率。

  • Motivation: 现有基于梯度的SNN对抗攻击方法存在严重延迟问题,因为它们直接扩展ANN范式,未能充分利用SNN的关键特性,导致多时间步处理产生大量攻击延迟,无法满足实时应用需求。
  • Method: TCA框架包含两个核心组件:1)时间步级反向传播(TLBP)- 基于发现全局时间信息对攻击成功不关键,支持逐时间步评估和提前停止;2)对抗性膜电位重用(A-MPR)- 利用初始时间步膜电位积累的低效性,预计算并重用这个预热阶段。
  • Result: 在VGG-11和ResNet-17模型上的实验表明,TCA在白盒和黑盒设置下分别比SOTA方法减少56.6%和57.1%的攻击延迟,同时保持可比的攻击成功率。
  • Conclusion: TCA通过有效利用SNN特性显著降低了对抗攻击的延迟,为SNN在实时安全关键应用中的部署提供了可行的解决方案。

[60] Unsupervised Urban Tree Biodiversity Mapping from Street-Level Imagery Using Spatially-Aware Visual Clustering

Diaa Addeen Abuhani,Marco Seccaroni,Martina Mazzarello,Imran Zualkernan,Fabio Duarte,Carlo Ratti

Main category: cs.CV

TL;DR: 无监督聚类框架结合街道级图像和空间植树模式,可扩展地估算城市树木生物多样性而无需标签数据

  • Motivation: 城市树木生物多样性对气候适应和生态稳定至关重要,但现场调查成本高,监督学习方法又需要标签数据且跨区域通用性差
  • Method: 无监督聚类框架,整合街道级图像的视觉嵌入和空间植树模式,在无标签情况下估算生物多样性
  • Result: 在8个北美城市应用,方法高保真度恢复属级多样性模式,获得低Wasserstein距离的Shannon和Simpson指数,保持空间自相关性
  • Conclusion: 该可扩展、细粒度方法能够为缺乏详细调查的城市提供生物多样性地图制作,支持低成本连续监测和城市生态系统的适应性管理

[61] Self-Aware Adaptive Alignment: Enabling Accurate Perception for Intelligent Transportation Systems

Tong Xiang,Hongxia Zhao,Fenghua Zhu,Yuanyuan Chen,Yisheng Lv

Main category: cs.CV

TL;DR: 这篇论文提出了SA3方法,通过自适应对齐机制在跨域对象检测中获得了最优性能

  • Motivation: 解决跨域场景下智能交通检测的挑战,提高检测模型在不同域间的适配能力
  • Method: 使用关注机制基础的对齐模块,实现局部-全局自适应对齐,通过频道重加权和实例-图像级对齐缩小域间差异
  • Result: 在流行的跨域对象检测测试集上获得了超过之前最优方法的突出结果
  • Conclusion: SA3方法通过有效的对齐机制和识别策略,在跨域检测任务中表现优异,为智能交通检测提供了有效解决方案

[62] SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation

Paul Grimal,Michaël Soumm,Hervé Le Borgne,Olivier Ferret,Akihiro Sugimoto

Main category: cs.CV

TL;DR: 通过学习高成功率分布来提升文本到图像生成的准确性,避免缺失关键元素或概念混淆的问题

  • Motivation: 当前最先进的文本到图像模型在视觉效果上显著,但经常无法精确对齐文本提示,导致缺失关键元素或不期望的概念混合
  • Method: 新题方法学习高成功率分布并在去噪过程中显式建模信号组件,提供细粒度控制以减轻过度优化和分布外产物
  • Result: 实验结果显示该方法在性能上超过了当前最先进的方法
  • Conclusion: 该无训练框架能够无缝集成到现有扩散和流匹配架构中,并支持附加条件模态如边框来提升空间对齐

[63] RED.AI Id-Pattern: First Results of Stone Deterioration Patterns with Multi-Agent Systems

Daniele Corradetti,José Delgado Rodrigues

Main category: cs.CV

TL;DR: RED.AI项目开发了一个多智能体AI系统,用于自动识别石材劣化模式,相比传统人工方法和基础模型在各项指标上都有显著提升

  • Motivation: 传统基于专家直接观察的石材劣化识别方法虽然准确但耗时耗力,需要开发自动化解决方案来提高效率
  • Method: 采用认知架构协调五个专业AI智能体(岩性学家、病理学家、环境专家、修复师和诊断协调员)协作诊断石材病理
  • Result: 在28张包含多种劣化模式的困难图像测试中,系统相比基础模型在所有指标上都显示出巨大提升
  • Conclusion: 多智能体AI系统能够有效模拟专家协作,为石材保护领域的自动化诊断提供了有前景的解决方案

[64] RICO: Two Realistic Benchmarks and an In-Depth Analysis for Incremental Learning in Object Detection

Matthias Neuwirth-Trapp,Maarten Bieshaar,Danda Pani Paudel,Luc Van Gool

Main category: cs.CV

TL;DR: 这篇论文提出了两个现实的增量学习目标检测基准RICO,揭示了当前增量学习方法在现实场景下的不足,并发现简单的数据重放方法就能超过所有现有方法,但仍远较单独训练的性能差。

  • Motivation: 现有增量学习评估多基于合成的简化基准,隐藏了现实世界中IL的真实性能问题,需要更现实的评估基准来揭示真实性能水平。
  • Method: 构建了两个现实增量学习目标检测基准RICO:D-RICO包含域迁移但类别固定,EC-RICO每步集成新域和新类别。基于14个多样化数据集,涵盖真实和合成域、不同条件(天气、时间等)、摄像头和标注策略。
  • Result: 所有IL方法在适应性和知识保持方面都表现不佳,而简单重放少量历史数据就能超过所有方法。但单独训练仍然最优,表明现有IL方法与理想状态存在显著差距。
  • Conclusion: 现有IL方法在现实场景下面临重大挑战,工作将提出新的评估基准来更好地揭示这些问题。研究者将对此问题进行更深入的分析并提供代码。

[65] In-hoc Concept Representations to Regularise Deep Learning in Medical Imaging

Valentina Corbetta,Floris Six Dijkstra,Regina Beets-Tan,Hoel Kervadec,Kristoffer Wickstrøm,Wilson Silva

Main category: cs.CV

TL;DR: LCRReg是一种新的正则化方法,利用潜在概念表示来引导医学影像深度学习模型学习临床相关特征而非虚假相关性,提高分布外泛化能力

  • Motivation: 医学影像深度学习模型容易依赖虚假相关性而非临床相关特征,导致在分布偏移下泛化性能差
  • Method: 使用小规模辅助数据集合成高质量解耦概念样本,提取预定义相关特征的潜在概念表示,通过正则化项引导CNN在相关概念子空间中激活
  • Result: 在合成和真实医学任务中显著提升对虚假相关性的鲁棒性,在糖尿病视网膜病变分类任务中改善了合成扰动和分布外泛化性能
  • Conclusion: LCRReg提供了一种轻量级、架构无关的策略,无需密集概念标注即可提升模型鲁棒性

[66] Forecasting Smog Events Using ConvLSTM: A Spatio-Temporal Approach for Aerosol Index Prediction in South Asia

Taimur Khan

Main category: cs.CV

TL;DR: 博士研究使用Sentinel-5P卫星数据和ConvLSTM模型预测南亚霾霉事件,在5天间隔预测汽能指数上取得良好结果

  • Motivation: 南亚地区每年发生严重的霾霉污染,但缺乏区域性的实时预报系统,需要开发有效的污染物预测方法
  • Method: 使用Sentinel-5P卫星2019-2023年的空气成分数据,采用卷积长短期记忆网络(ConvLSTM)模型,以340-380nm紫外污能指数作为预测因子
  • Result: 模型在5天间隔预测中取得均方误差~0.0018,损失值~0.3995,结构相似性指数~0.74的良好性能
  • Conclusion: ConvLSTM模型能有效预测污能指数,为南亚霾霉预报提供了技术支持,但仍需整合更多数据和优化模型结构来提升性能

[67] SCRNet: Spatial-Channel Regulation Network for Medical Ultrasound Image Segmentation

Weixin Xu,Ziliang Wang

Main category: cs.CV

TL;DR: 提出一种新的空间-通道调节网络(SCRNet),通过结合卷积和交叉注意力机制来同时处理长程依赖和局部上下文信息,在医学超声图像分割任务中达到了最先进的性能。

  • Motivation: 现有CNN方法忽视长程依赖关系,而Transformer方法可能忽略局部上下文信息,需要一种能同时处理这两种信息的方法来提高医学超声图像分割的性能。
  • Method: 设计了特征聚合模块(FAM)和卷积与交叉注意力并行模块(CCAPM),通过两个分支分别处理不同的特征作用。将这些模块集成到空间-通道调节模块(SCRM)中,并嵌入UNet编码器构造SCRNet框架。
  • Result: 广泛实验结果显示SCRNet在医学超声图像分割任务中持续达到了最先进的性能,超过了现有的所有方法。
  • Conclusion: 通过结合卷积操作和交叉注意力机制,SCRNet能够同时抓取长程依赖和局部上下文信息,为医学超声图像分割提供了一种有效的解决方案。

[68] PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

Chunji Lv,Zequn Chen,Donglin Di,Weinan Zhang,Hao Li,Wei Chen,Changsheng Li

Main category: cs.CV

TL;DR: PhysGM是一个从单张图像联合预测3D高斯表示和物理属性的前馈框架,能够实现即时物理仿真和高保真4D渲染,相比现有方法显著提升了速度和渲染质量。

  • Motivation: 当前基于物理的3D运动合成方法依赖预重建的3D高斯表示,物理集成要么使用不灵活的手工定义物理属性,要么依赖不稳定、优化密集的视频模型指导,存在严重局限性。
  • Method: 首先联合优化高斯重建和概率物理预测建立基础模型,然后使用物理合理的参考视频进行精炼,采用直接偏好优化(DPO)使仿真与参考视频对齐,避免通过复杂可微分仿真和光栅化进行梯度反向传播。
  • Result: 方法能够从单张图像在一分钟内生成高保真4D仿真,相比先前工作实现了显著加速,同时提供逼真的渲染结果。
  • Conclusion: PhysGM通过联合预测3D表示和物理属性,克服了现有方法的局限性,为单图像到4D物理仿真提供了高效且高质量的解决方案。

[69] DIME-Net: A Dual-Illumination Adaptive Enhancement Network Based on Retinex and Mixture-of-Experts

Ziang Wang,Xiaoqin Wang,Dingyi Wang,Qiang Li,Shushan Qiao

Main category: cs.CV

TL;DR: DIME-Net是一个双光照增强框架,通过混合专家机制自适应处理低光和背光图像,无需重新训练即可在多种光照条件下实现竞争性性能

  • Motivation: 现实环境中复杂光照条件(如低光和背光)导致的图像退化严重影响图像质量和下游视觉任务,现有方法大多只能处理单一类型的光照退化,缺乏统一处理多样化光照条件的能力
  • Method: 提出混合专家光照估计模块,使用稀疏门控机制自适应选择S曲线专家网络;结合Retinex理论设计损伤修复模块,配备光照感知交叉注意力和序列状态全局注意力机制;构建混合光照数据集MixBL进行训练
  • Result: 在合成和真实世界的低光和背光数据集上均取得竞争性性能,无需重新训练即可处理多种光照条件
  • Conclusion: DIME-Net展示了在多样化复杂光照条件下的泛化能力和实际多媒体应用潜力

[70] ViT-FIQA: Assessing Face Image Quality using Vision Transformers

Andrea Atzori,Fadi Boutros,Naser Damer

Main category: cs.CV

TL;DR: ViT-FIQA是一个基于Vision Transformer的人脸图像质量评估方法,通过可学习的质量token来预测人脸图像在识别系统中的效用得分,在多个基准测试中表现优异

  • Motivation: 当前FIQA方法主要依赖CNN,而Vision Transformer架构的潜力尚未被充分探索,需要开发基于ViT的高效人脸图像质量评估方法
  • Method: 扩展标准ViT骨干网络,添加可学习的质量token与图像patch token拼接,通过全局自注意力聚合上下文信息,使用双头输出结构分别处理身份识别和质量预测
  • Result: 在多个具有挑战性的基准测试和不同FR模型上,ViT-FIQA始终达到顶级性能,证明了基于transformer架构的有效性
  • Conclusion: ViT-FIQA展示了transformer架构在建模人脸图像效用方面的有效性,突出了ViT作为未来FIQA研究可扩展基础的潜力

[71] RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

Tianyi Niu,Jaemin Cho,Elias Stengel-Eskin,Mohit Bansal

Main category: cs.CV

TL;DR: 多模态大语言模型在图片旋转识别任务中表现差强,尤其无法区分90度和270度旋转,显示了与人类矩阵感知的显著差距

  • Motivation: 评估MLLM模型在图片旋转识别任务中的视觉理解能力,详细分析它们如何检测旋转线索和理解空间关系
  • Method: 构建RotBench标准化测试集(350张图片),测试GPT-5、o3、Gemini-2.5-Pro等先进模型,使用辅助信息、链式推理、多方位显示等方法进行实验
  • Result: 模型在0度图片识别上表现良好,某些模型能识别180度旋转,但无法区分90度和270度旋转,辅助信息和微调改进效果有限
  • Conclusion: MLLM模型在空间理解能力上与人类存在显著差距,旋转识别任务显示了当前模型的根本限制

[72] ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving

Xianda Guo,Ruijun Zhang,Yiqun Duan,Ruilin Wang,Keyuan Zhou,Wenzhao Zheng,Wenke Huang,Gangwei Xu,Mike Horton,Yuan Si,Hao Zhao,Long Chen

Main category: cs.CV

TL;DR: 一个大规模、多样化的室外驾驶环境深度估计数据集,包含20K视频帧,解决现有数据集的多样性和可扩展性问题

  • Motivation: 现有深度估计数据集(如KITTI、nuScenes、DDAD)在多样性和可扩展性方面存在限制,而且在这些数据集上的性能已接近饱和,需要新一代大规模数据集来支持基础模型和多模态学习
  • Method: 通过轻量级的数据采集流水线实现低成本广泛场景覆盖,使用稀疏但统计充分的真实标签支持稳健训练
  • Result: 该数据集在驾驶场景多样性方面更为丰富,深度密度更低,为模型的通用性提出了新挑战,标准模型的基准测试验证了数据集的实用性
  • Conclusion: 该数据集为深度估计研究提供了一个新的平台,在具有挑战性的条件下显示了显著的性能差距,有助于推动领域的发展

[73] OmViD: Omni-supervised active learning for video action detection

Aayush Rana,Akash Kumar,Vibhav Vineet,Yogesh S Rawat

Main category: cs.CV

TL;DR: 视频动作检测需要密集的时空间注释,该研究探索了不同注释类型(视频标签、点、草图、框、像素掩码)对检测性能的影响,提出了主动学习策略和3D超像素伪标签方法,在大幅节省注释成本的同时保持了检测性能。

  • Motivation: 视频动作检测需要密集的时空间注释,这既难以获得又费用昂贵。实际视频的难度各异,不同视频可能需要不同级别的注释。研究动机在于分析每个样本适合的注释类型及其对检测性能的影响,以降低注释成本。
  • Method: 1) 提出简单的主动学习策略来估计每个视频所需的注释类型;2) 提出新颖的时空间3D超像素方法来从不同注释生成伪标签,支持有效训练。研究了视频级标签、点、草图、盒、像素掩码等多种注释类型。
  • Result: 在UCF101-24和JHMDB-21数据集上验证了方法的有效性,在显著削减注释成本的同时,性能损失最小。
  • Conclusion: 通过为不同难度的视频选择适当的注释类型,可以在保持检测性能的前提下大幅节省注释成本。主动学习策略和3D超像素伪标签生成方法为视频动作检测提供了高效的注释方案。

[74] Physics-Based 3D Simulation for Synthetic Data Generation and Failure Analysis in Packaging Stability Assessment

Samuel Seligardi,Pietro Musoni,Eleonora Iotti,Gianluca Contesso,Alessandro Dal Palù

Main category: cs.CV

TL;DR: 基于3D虚拟环境的可控制板材运输模拟系统,通过深度神经网络预测碳冲风险,减少物理测试需求

  • Motivation: 流通业对包装运输安全的日益增长需求,以及对玻璃包裉材料环保替代品的研究需求
  • Method: 开发了一个支持多种配置的3D虚拟环境模拟系统,并训练深度神经网络来分析渲染视频作为碳冲测试预测器
  • Result: 建立了能够准确复现板材运动行为的模拟系统,减少了物理测试的成本和环境影响
  • Conclusion: 该系统提供了一种高效、精确且环保的方法来分析板材设置的安全性,为物流行业带来重要价值

[75] Self-Supervised Sparse Sensor Fusion for Long Range Perception

Edoardo Palladin,Samuel Brucker,Filippo Ghilotti,Praveen Narayanan,Mario Bijelic,Felix Heide

Main category: cs.CV

TL;DR: 通过稀疏表示和高效的3D编码技术,将自动驾驶感知范围扩展到250米,为高速公路和重型卡车提供更长的规划距离

  • Motivation: 解决城市驾驶感知范围(约50-100米)不足以满足高速公路自动驾驶需求(需要至250米),特别是重型卡车因高惯性需要更长规划距离的问题
  • Method: 基于稀疏表示构建高效的3D多模态时序特征编码,采用新的自监督预训练方案,从无标签的摄像头-LiDAR数据中进行大规模学习
  • Result: 实现了250米感知范围,物体检测mAP提升26.6%,LiDAR预测Chamfer距离降低30.5%
  • Conclusion: 该方法有效解决了长距离感知的计算成本问题,为高速公路自动驾驶和重型车辆提供了可靠的技术支撑

[76] ResPlan: A Large-Scale Vector-Graph Dataset of 17,000 Residential Floor Plans

Mohamed Abouagour,Eleftherios Garyfallidis

Main category: cs.CV

TL;DR: ResPlan是一个包含17,000个详细住宅平面图的大规模数据集,提供精确的建筑元素和功能空间标注,具有更高的视觉保真度和结构多样性,支持多种AI应用。

  • Motivation: 解决现有数据集(如RPLAN和MSD)在视觉保真度和结构多样性方面的局限性,为空间AI研究提供更真实、非理想化的住宅布局数据。
  • Method: 创建包含17,000个详细住宅平面图的数据集,提供几何和基于图的数据格式,开发开源管道进行几何清理、对齐和标注优化,包括房间连通性的结构化表示。
  • Result: 构建了一个规模更大、更真实、更易用的数据集,支持机器人技术、强化学习、生成式AI、VR/AR、模拟和游戏开发等多种应用。
  • Conclusion: ResPlan在规模、真实性和可用性方面提供了显著进步,为开发和基准测试下一代空间智能系统提供了坚实基础。

[77] Online 3D Gaussian Splatting Modeling with Novel View Selection

Byeonggwon Lee,Junkyu Park,Khang Truong Giang,Soohwan Song

Main category: cs.CV

TL;DR: 通过适应性视角选择策略,在线从RGB帧生成更完整的3D高斯涂射模型,解决了仅依赖关键帧导致的场景重建不完整问题

  • Motivation: 以前的方法仅使用关键帧进行3D场景估计,无法捐描整个场景并导致重建不完整,而在线处理又限制了可使用的帧数和训练迭代次数
  • Method: 提出适应性视角选择策略,通过在线分析重建质量来选择最优的非关键帧进行额外训练,结合关键帧和选择的非关键帧来精炼不完整区域,并集成在线多视角立体方法以保证3D信息的一致性
  • Result: 实验结果显示该方法在复杂户外场景中表现出色,超越了现有的最先进方法
  • Conclusion: 该研究成功地解决了在线3D高斯涂射模型生成中的场景完整性问题,通过智能的视角选择策略显著提升了重建质量

[78] Backdooring Self-Supervised Contrastive Learning by Noisy Alignment

Tuo Chen,Jie Gui,Minjing Dong,Ju Jia,Lanting Fang,Jian Liu

Main category: cs.CV

TL;DR: 这篇论文提出了Noisy Alignment(NA)方法,通过明确压制毒图片中的噪声组件,有效提升了自监督对比学习中的数据毒化后门攻击效果,达到了独创性能并保持了清洁数据的准确性。

  • Motivation: 现有的数据毒化后门攻击方法在自监督对比学习中效果有限,主要因为依赖弱慢的隐式共现关系以及对毒图片中辨别性特征压制不充分。
  • Method: 通过战略性操控对比学习的随机裁剪机制,将噪声对齐过程形式化为图像布局优化问题,并使用理论推导的最优参数来实现。
  • Result: Noisy Alignment方法在后门攻击效果上达到了独创性能,同时保持了清洁数据的准确性,并且对常见的后门防御方法也体现出了稳健性。
  • Conclusion: 该方法简单但有效,通过明确压制毒图片中的噪声组件,显著提升了自监督对比学习中数据毒化后门攻击的效果。

[79] InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing

Shaoshu Yang,Zhe Kong,Feng Gao,Meng Cheng,Xiangyu Liu,Yong Zhang,Zhuoliang Kang,Wenhan Luo,Xunliang Cai,Ran He,Xiaoming Wei

Main category: cs.CV

TL;DR: 新的散布帧视频对白技术可以在保持识别和关键动作的同时,实现音频驱动的全身动画编辑,充分解决了传统嘴型编辑方式的限制

  • Motivation: 传统视频对白技术仅限于嘴部编辑,导致面部表情和身体手势不协调,影响观看体验
  • Method: 提出InfiniteTalk流式音频驱动生成器,利用时间上下文帧实现平滑转换,通过精细的参考帧位置策略优化控制强度
  • Result: 在HDTF、CelebV-HQ和EMTD数据集上达到状态前沿性能,量化指标显示在视觉真实性、情感一致性和全身动作同步方面都更优
  • Conclusion: 该方法成功解决了长序列对白的技术挑战,实现了高质量的音频驱动全身动画编辑

[80] GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation

Ken Deng,Yunhan Yang,Jingxiang Sun,Xihui Liu,Yebin Liu,Ding Liang,Yan-Pei Cao

Main category: cs.CV

TL;DR: DetailGen3D是一个专门用于增强生成3D形状几何细节的生成方法,通过潜在空间中的数据依赖流实现从粗糙到精细的转换,避免了大规模3D生成模型的计算开销。

  • Motivation: 现代3D生成方法虽然能够从稀疏或单视图快速创建形状,但由于计算限制,其输出往往缺乏几何细节。
  • Method: 采用数据依赖流在潜在空间中建模粗糙到精细的转换,引入token匹配策略确保细化过程中的准确空间对应,使局部细节合成的同时保持全局结构。训练数据设计匹配合成粗糙形状的特征。
  • Result: 能够有效增强各种3D生成和重建方法产生的形状,从单视图到稀疏多视图输入,实现高保真几何细节合成。
  • Conclusion: DetailGen3D在保持训练效率的同时实现了高质量的几何细节增强,适用于多种3D生成场景。

[81] Distilled-3DGS:Distilled 3D Gaussian Splatting

Lintao Xiang,Xinkai Chen,Jianhuang Lai,Guangcong Wang

Main category: cs.CV

TL;DR: 首个为3D高斯拓扑设计的知识萌发框架,通过多老师模型指导轻量化学生模型,在保持渲染质量的同时大幅减少存储占用

  • Motivation: 3D高斯拓扑技术虽然在新视角合成上表现出艰,但完成高保真渲染需要大量3D高斯元,导致内存消耗和存储需求过大
  • Method: 提出知识萌发框架,使用多种老师模型(普通3DGS、噪声增强版本、dropout正则化版本)输出聚合指导轻量化学生模型优化,并提出结构相似性损失来促进学生与老师模型间空间几何分布的一致性
  • Result: 经过多样化数据集的完整定量和定性评估,提出的Distilled-3DGS框架在渲染质量和存储效率方面都达到了与最先进方法相比的有望结果
  • Conclusion: 该研究提出了一种简单但有效的知识萌发方法,成功地在保持高质量渲染的同时大幅减少3D高斯拓扑技术的存储需求,为该技术的实际应用提供了可行解决方案

[82] Beyond Simple Edits: Composed Video Retrieval with Dense Modifications

Omkar Thawakar,Dmitry Demidov,Ritesh Thawkar,Rao Muhammad Anwer,Mubarak Shah,Fahad Shahbaz Khan,Salman Khan

Main category: cs.CV

TL;DR: 提出了一个新的密集视频检索数据集Dense-WebVid-CoVR和基于交叉注意力的融合模型,在组合视频检索任务上取得了SOTA效果。

  • Motivation: 解决现有视频检索框架在处理细粒度组合查询和时间变化理解方面的局限性,提升对详细组合变化的检索能力。
  • Method: 构建了包含160万样本的密集修改文本数据集,开发了基于交叉注意力融合的模型,使用接地文本编码器实现密集查询修改与目标视频的精确对齐。
  • Result: 在视觉+文本设置下达到71.3%的Recall@1,比现有最佳方法提升3.4%,在所有指标上都超越了现有方法。
  • Conclusion: 提出的数据集和模型能够有效利用详细视频描述和密集修改文本,在组合视频检索任务中表现出色,为细粒度视频理解提供了有力工具。

[83] LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

Chin-Yang Lin,Cheng Sun,Fu-En Yang,Min-Hung Chen,Yen-Yu Lin,Yu-Lun Liu

Main category: cs.CV

TL;DR: LongSplat是一个用于长视频无位姿3D高斯泼溅的鲁棒框架,解决了相机位姿漂移、几何初始化不准确和内存限制等问题,在渲染质量、位姿精度和计算效率方面达到SOTA。

  • Motivation: 解决从随意拍摄的长视频中进行新视角合成时面临的相机运动不规则、未知相机位姿和大场景等关键挑战,现有方法存在位姿漂移、几何初始化不准确和严重内存限制等问题。
  • Method: 提出三个核心组件:1)增量联合优化同时优化相机位姿和3D高斯;2)基于学习3D先验的鲁棒位姿估计模块;3)基于空间密度的八叉树锚点形成机制将稠密点云转换为锚点。
  • Result: 在具有挑战性的基准测试上进行了广泛实验,证明LongSplat实现了最先进的结果,在渲染质量、位姿精度和计算效率方面相比先前方法有显著提升。
  • Conclusion: LongSplat为解决长视频无位姿3D重建问题提供了一个有效的解决方案,通过联合优化策略和高效的内存管理机制,显著提升了新视角合成的性能表现。

cs.AI

[84] Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation

Lei Chen,Xuanle Zhao,Zhixiong Zeng,Jing Huang,Liming Zheng,Yufeng Zhong,Lin Ma

Main category: cs.AI

TL;DR: 这篇论文探索了多模态结构化强化学习(MSRL)在图表到代码生成任务中的应用,通过多级别奖励系统突破了监督学习的性能平台,在两个标准测试集上获得显著收益。

  • Motivation: 虽然强化学习在视觉-语言模型中有效,但在需要深度理解信息丰富图像和生成结构化输出的任务中应用不足。图表到代码生成需要复杂的视觉理解,单纯监督学习效果有限,需要有效的强化学习策略来奖励结构化输出。
  • Method: 提出多模态结构化强化学习(MSRL),构建了最大的训练语料库(300万对图表-代码)。MSRL采用多级别结构化奖励系统:文本层面使用规则基础奖励验证细粒度代码细节,视觉层面通过渲染生成代码为图像并使用评估模型评估结构相似性,采用两阶段课程进行训练稳定性优化。
  • Result: MSRL显著突破了监督学习的性能平台,在ChartMimic和ReachQA几何量语上分别提升6.2%和9.9%,达到了与充分闭源模型竞争的性能。实验显示即使扩展SFT数据最终也会遇到性能平台。
  • Conclusion: 多模态结构化强化学习是解决图表到代码生成这类需要深度理解和结构化输出任务的有效方法,通过多级别奖励系统和真实数据集可以突破监督学习的性能限制。

cs.GR

[85] PreSem-Surf: RGB-D Surface Reconstruction with Progressive Semantic Modeling and SG-MLP Pre-Rendering Mechanism

Yuyan Ye,Hang Xu,Yanghang Huang,Jiali Huang,Qian Weng

Main category: cs.GR

TL;DR: PreSem-Surf是一种基于NeRF的优化方法,通过整合RGB、深度和语义信息,能够在短时间内从RGB-D序列重建高质量场景表面。

  • Motivation: 现有的NeRF方法在从RGB-D序列重建场景表面时,往往需要较长的训练时间,且在区分噪声和局部细节方面存在不足。需要一种能够快速且高质量重建场景表面的方法。
  • Method: 提出SG-MLP采样结构结合PR-MLP进行体素预渲染,使模型能更早捕获场景相关信息并更好区分噪声与细节;采用渐进式语义建模在不同精度级别提取语义信息,减少训练时间的同时提升场景理解。
  • Result: 在7个合成场景和6个评估指标上的实验表明,PreSem-Surf在C-L1、F-score和IoU指标上取得最佳性能,在NC、准确性和完整性指标上保持竞争力。
  • Conclusion: PreSem-Surf方法在场景表面重建方面表现出色,证明了其有效性和实际应用价值,特别是在快速高质量重建方面具有优势。

[86] Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

Feng-Lin Liu,Shi-Yang Li,Yan-Pei Cao,Hongbo Fu,Lin Gao

Main category: cs.GR

TL;DR: Sketch3DVE是一种基于草图的3D感知视频编辑方法,能够处理大视角变化的视频,通过3D点云编辑和深度图表示实现精确的几何控制,生成与原始视频一致的新视角内容。

  • Motivation: 现有视频编辑方法在风格迁移和外观修改方面表现良好,但在处理3D场景结构内容编辑时面临挑战,特别是在大视角变化(如大角度相机旋转或缩放)的情况下,难以生成与原始视频一致的新视角内容并保持未编辑区域的完整性。
  • Method: 使用图像编辑方法生成第一帧的编辑结果并传播到后续帧;利用草图进行精确几何控制;通过密集立体方法估计点云和相机参数;提出基于深度图的点云编辑方法表示新编辑组件的3D几何;采用3D感知掩码传播策略和视频扩散模型生成逼真的编辑视频。
  • Result: 大量实验证明Sketch3DVE在视频编辑方面的优越性,能够有效处理大视角变化的视频编辑任务。
  • Conclusion: Sketch3DVE成功解决了基于稀疏2D输入生成逼真3D视频输出的挑战,实现了对具有显著视角变化的视频进行详细局部操作的能力,为3D感知视频编辑提供了有效解决方案。

[87] Is-NeRF: In-scattering Neural Radiance Field for Blurred Images

Nan Luo,Chenglin Ye,Jiaxu Li,Gang Liu,Bo Wan,Di Wang,Lupeng Liu,Jun Xiao

Main category: cs.GR

TL;DR: Is-NeRF是一种新颖的去模糊神经辐射场方法,通过显式光路建模和散射感知体积渲染来处理运动模糊图像,在复杂真实场景中优于现有方法

  • Motivation: 传统NeRF使用直线体积渲染,难以处理复杂光路场景和几何模糊问题,特别是在处理运动模糊图像时存在几何模糊性
  • Method: 提出散射感知体积渲染管道,统一六种常见光传播现象;引入自适应学习策略确定散射方向和采样间隔;联合优化NeRF参数、散射参数和相机运动
  • Result: 在复杂真实场景中有效处理运动模糊,生成具有精确几何细节的高保真图像,性能优于最先进方法
  • Conclusion: Is-NeRF通过显式光路建模和散射感知渲染成功解决了NeRF在处理运动模糊图像时的局限性,为复杂光路场景提供了有效的解决方案

cs.RO

[88] A Surveillance Based Interactive Robot

Kshitij Kavimandan,Pooja Mangal,Devanshi Mehta

Main category: cs.RO

TL;DR: 基于树莓派4和开源软件构建的移动监控机器人,支持实时视频流、语音控制和多语言交互,通过YOLOv3进行物体检测和自主导航

  • Motivation: 为了开发一个使用普通硬件和开源软件的易于复制的移动监控机器人系统,支持远程监控和语音控制
  • Method: 使用2台树莓派4:一台连接摄像头、麦克风和扬声器的前端单元,另一台中央单元处理视频流和视觉识别。使用FFmpeg传输视频,YOLOv3进行物体检测,Python语音库实现语音识别、多语言翻译和语音合成,Kinect RGB-D传感器提供视觉输入和障碍物检测
  • Result: 在室内测试中,机器人在CPU上以交互弧率检测常见物体,可靠识别命令,并将其转换为动作而无需手动控制
  • Conclusion: 设计依靠商用硬件和开源软件,易于复制。讨论了限制和实用扩展,包括传感器融合、GPU加速、以及添加人脸和文本识别功能

[89] ROVER: Robust Loop Closure Verification with Trajectory Prior in Repetitive Environments

Jingwen Yu,Jiayi Yang,Anjun Hu,Jiankun Wang,Ping Tan,Hong Zhang

Main category: cs.RO

TL;DR: ROVER是一种利用历史轨迹作为先验约束来验证闭环检测的方法,专门针对重复环境中外观特征失效的问题,通过轨迹优化和评分机制拒绝错误闭环

  • Motivation: 在重复性环境中,基于外观特征的闭环检测容易产生误检,现有方法主要关注学习不变的外观特征,而忽略了机器人的时空运动轨迹这一重要先验知识
  • Method: 提出ROVER方法:对于每个闭环候选,首先通过位姿图优化估计机器人轨迹,然后将该轨迹提交给评分方案,评估其与无闭环时的轨迹先验的符合程度,决定是否接受该闭环候选
  • Result: 基准比较和真实世界实验证明了该方法的有效性,集成到最先进的SLAM系统中验证了其鲁棒性和效率
  • Conclusion: 利用历史轨迹作为先验约束是验证闭环检测的有效方法,特别是在具有挑战性的重复环境中能够显著减少误检

[90] MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence

Chao Tang,Anxing Xiao,Yuhong Deng,Tianrun Hu,Wenlong Dong,Hanbo Zhang,David Hsu,Hong Zhang

Main category: cs.RO

TL;DR: MimicFunc是一个通过功能帧建立功能对应关系的框架,能够从单个人类RGB-D视频中模仿工具操作技能,并泛化到新工具上,避免了繁琐的遥操作数据收集。

  • Motivation: 人类能够通过观察一次工具操作就模仿并泛化到功能等效的不同工具上,而现有机器人难以达到这种泛化水平。主要挑战在于处理功能相似工具之间的几何差异(功能内变异)。
  • Method: 提出MimicFunc框架,使用基于关键点的抽象构建功能中心局部坐标系(功能帧)来建立功能对应关系,实现工具操作技能的模仿。
  • Result: 实验表明MimicFunc能有效让机器人从单个人类视频中学习技能,并泛化到操作新工具执行功能等效任务,生成的轨迹可用于训练视觉运动策略。
  • Conclusion: 该方法提供了一种直观且可扩展的机器人教学方式,避免了繁琐的遥操作数据收集,实现了单次泛化能力。

[91] Multimodal Data Storage and Retrieval for Embodied AI: A Survey

Yihao Lu,Hao Tang

Main category: cs.RO

TL;DR: 本论文系统评估了五种存储架构和五种检索范弋在体现式AI数据管理中的适用性,指出了长期语义一致性与实时响应能力之间的根本矛盾,并提出了物理感知数据模型、适应性存储检索协同优化等未来研究方向。

  • Motivation: 体现式AI以持续交互方式产生大量异构多模态数据流,传统数据管理系统无法有效处理这些数据的核心需求,包括物理基础、低延迟访问和动态扩展性。
  • Method: 系统性评估五种存储架构(图数据库、多模型数据库、数据湖、向量数据库、时间序列数据库)和五种检索范弋(融合策略、表征对齐、图结构、生成模型、高效检索优化),基于对180多项相关研究的全面分析。
  • Result: 揭示了长期语义一致性与实时响应能力之间的根本矛盾,识别了从基础物理基础空白到跨模态集成、动态适应和开放世界汉化等系统性瓶颈。
  • Conclusion: 提出了包含物理感知数据模型、适应性存储检索协同优化和标准化测试基准的前瞻性研究议程,为下一代自主体现系统设计健壮、高性能数据管理框架提供了严谨的路线图。

[92] Augmenting cobots for sheet-metal SMEs with 3D object recognition and localisation

Martijn Cramer,Yanming Wu,David De Schepper,Eric Demeester

Main category: cs.RO

TL;DR: 通过雖合3D物体识别与定位技术,将协作机器人转化为移动可重配的生产助手,解决SMEs小批量多种类生产中标准自动化方案不足的问题

  • Motivation: 小批量多种类的金属板材车间面临生产任务变化多、标准自动化方案无法满足需求,导致SMEs依赖人工劳动,增加生产成本且技术工人力资源没有得到充分利用
  • Method: 整合现有技术(包括3D物体识别和定位),开发移动可重配的协作机器人生产助手系统,并通过ACRO研究单位与业界合作的实际项目进行验证
  • Result: 描述了在工业环境中增强协作机器人系统的机遇和挑战,详细说明了具体实施步骤
  • Conclusion: 通过技术整合将协作机器人转化为移动可重配生产助手,有望解决SMEs在小批量多种类生产中遇到的自动化挑战,提高生产效率并充分利用技术人才

cs.AR

[93] Image2Net: Datasets, Benchmark and Hybrid Framework to Convert Analog Circuit Diagrams into Netlists

Haohang Xu,Chengjie Liu,Qihang Wang,Wenhao Huang,Yongjian Xu,Weiyu Chen,Anlan Peng,Zhijun Li,Bo Li,Lei Qi,Jun Yang,Yuan Du,Li Du

Main category: cs.AR

TL;DR: 本文提出了Image2Net框架,用于将模拟集成电路的电路图转换为网表,以支持LLM在模拟IC设计中的应用。构建了包含丰富样式和复杂度电路图的新数据集,并引入了网表编辑距离(NED)作为评估指标。

  • Motivation: 现有的模拟IC大多以图像形式的电路图呈现,而非文本网表,这限制了LLM在模拟IC设计中的进一步发展。现有的转换框架因支持的图像样式和电路元素有限而面临应用挑战。
  • Method: 构建了包含丰富样式和平衡复杂度分布的新数据集,提出了名为Image2Net的混合框架,用于从电路图到网表的实际转换,并引入了网表编辑距离(NED)进行精确评估。
  • Result: Image2Net实现了80.77%的成功率,比先前工作提高了34.62%-45.19%。平均NED为0.116,比最先进方法降低了62.1%-69.6%。
  • Conclusion: Image2Net框架有效解决了复杂电路图到网表的转换问题,为LLM在模拟IC设计中的应用提供了重要支持,显著优于现有方法。

eess.IV

[94] Colon Polyps Detection from Colonoscopy Images Using Deep Learning

Md Al Amin,Bikash Kumar Paul

Main category: eess.IV

TL;DR: 深度学习YOLOv5模型在结肠息肉检测中的应用,YOLOv5l版本达到最佳性能,mAP 85.1%,IoU 0.86

  • Motivation: 结肠息肉是结直肠癌的前驱病变,早期检测对改善患者预后至关重要,需要准确的自动化检测方法
  • Method: 使用Kvasir-SEG数据集,进行大量数据增帿,分为训练集(80%)、验证集(20%)和测试集(20%),测试YOLOv5三个版本(YOLOv5s、YOLOv5m、YOLOv5l)
  • Result: YOLOv5l表现最优,平均精度(mAP)达到85.1%,最高交并比(IoU)为0.86
  • Conclusion: YOLOv5l在结肠息肉定位检测中显示出优秀性能,为提高结直肠癌筛查准确性提供了有前景的工具

[95] Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology

Mingzhe Hu,Zach Eidex,Shansong Wang,Mojtaba Safari,Qiang Li,Xiaofeng Yang

Main category: eess.IV

TL;DR: GPT-5在放射学、放射肿瘤学和医学物理学的多模态任务中相比GPT-4o有显著性能提升,在医学图像问答和物理考试题上准确率分别提升最高达20%和12.7%

  • Motivation: 评估GPT-5等大型多模态模型在安全关键医疗领域(放射学、放射肿瘤学、医学物理学)的实际性能提升,验证其能否有效整合医学图像、文本报告和定量数据进行决策
  • Method: 采用零样本评估方法,在三个代表性任务上对比GPT-5及其变体(mini、nano)与GPT-4o的性能:1)VQA-RAD放射学视觉问答基准;2)SLAKE多语言跨模态理解数据集;3)150道医学物理委员会考试风格选择题
  • Result: GPT-5在所有数据集上取得最高准确率:在胸部纵隔区域挑战性问题中提升+20.00%,肺部问题+13.60%,脑组织解读+11.44%;在物理考试题上达到90.7%准确率(136/150),超过人类通过阈值,而GPT-4o仅为78.0%
  • Conclusion: GPT-5在图像基础推理和领域特定数值问题解决方面相比GPT-4o具有一致且显著的性能改进,显示出在医学成像和治疗物理学中增强专家工作流程的潜力

[96] Uncertainty-Aware Learning Policy for Reliable Pulmonary Nodule Detection on Chest X-Ray

Hyeonjin Choi,Jinse Kim,Dong-yeon Yoo,Ju-sung Sun,Jung-won Lee

Main category: eess.IV

TL;DR: 这篇论文提出了一种不确定性感知学习策略,通过同时学习医生的背景知识和肺部病变来提高医疗AI的诊断准确性和可信过度。

  • Motivation: 解决医疗AI因知识缺乏导致的诊断不确定性问题,提高医生对AI系统的信任度,促进临床应用。
  • Method: 使用期望学习策略,同时学习医生的背景知识和胸部X光片病变信息,基于Ajou大学医院2,517张无病变图像和656张结节图像进行训练。
  • Result: 模型达到92%检测精度(IoU 0.2 / FPPI 2),敏感度比基准模型提高10%,不确定性表征量燃提降0.2。
  • Conclusion: 通过学习医生背景知识可以有效减少医疗AI的诊断不确定性,提高诊断准确性和可靠性,有助于推进医疗AI的临床应用。

[97] PediDemi -- A Pediatric Demyelinating Lesion Segmentation Dataset

Maria Popa,Gabriela Adriana Visa

Main category: eess.IV

TL;DR: 首次公开儿科脱髓鞘病变分割数据集,包含13名儿科患者的MRI扫描和丰富元数据,评估了现有MS数据集训练的模型在该儿科数据集上的表现

  • Motivation: 中枢神经系统脱髓鞘疾病缺乏公开的儿科数据集,特别是MS以外的疾病类型,限制了相关研究的发展
  • Method: 收集13名儿科脱髓鞘疾病患者的MRI扫描数据(包括3例ADEM),提供病变分割掩码和详细患者元数据,并使用现有MS数据集训练的先进分割模型进行评估
  • Result: 研究结果表明现有基于MS数据训练的模型在儿科脱髓鞘数据集上表现有限,凸显了多样化数据集的重要性
  • Conclusion: 该儿科脱髓鞘病变分割数据集的发布填补了研究空白,强调了需要针对不同人群和疾病类型开发专门的数据集和模型

[98] Automated Cervical Cancer Detection through Visual Inspection with Acetic Acid in Resource-Poor Settings with Lightweight Deep Learning Models Deployed on an Android Device

Leander Melroy Maben,Keerthana Prasad,Shyamala Guruvare,Vidya Kudva,P C Siddalingaswamy

Main category: eess.IV

TL;DR: 使用轻量级深度学习算法自动化酮酸视觉检查(VIA),为资源稀缺地区提供价格可批的宫颈癌筛查方案

  • Motivation: 宫颈癌在低中收入国家造成大量死亡,酮酸视觉检查(VIA)是最可行的筛查方法,但需要训练有素的医疗专业人员主观评判,自动化可以消除主观性并将任务转移给训练较少的健康工作者
  • Method: 提出轻量级深度学习算法,包括EfficientDet-Lite3作为关键区域检测器和MobileNet-V2基础的分类模型,部署在Android设备上,无需高级医疗训练、实验室、复杂基础设施或互联网连接
  • Result: 分类模型在测试数据集上达到92.31%的准确率、98.24%的敏感度和88.37%的特异度
  • Conclusion: 该系统作为一种有前景的自动化低资源筛查方案,可以在资源稀缺环境中提供快速、价格可批的宫颈癌筛查

[99] InnerGS: Internal Scenes Rendering via Factorized 3D Gaussian Splatting

Shuxin Liang,Yihan Xiao,Wenlu Tang

Main category: eess.IV

TL;DR: 通过3D高斯散点技术直接建模内部场景的连续体积密度,从稀疏切片数据重建光滑详细的内部结构

  • Motivation: 现有3DGS技术主要集中于外部表面建模,而对于需深入理解物体内部结构的应用至关重要
  • Method: 通过内部3D高斯分布直接建模连续体积密度,无需相机位姿,插拔式设计,兼容任何数据模态
  • Result: 有效重建光滑详细的内部结构,提供CUDA实现
  • Conclusion: 该方法为内部场景重建提供了高效、灵活的解决方案,并开源了代码

[100] Susceptibility Distortion Correction of Diffusion MRI with a single Phase-Encoding Direction

Sedigheh Dargahi,Sylvain Bouix,Christian Desrosier

Main category: eess.IV

TL;DR: 深度学习方法仅需单个相位编码方向的dMRI数据即可等效缩正碳性扭曲效应,性能可比传统topup方法

  • Motivation: dMRI数据采集存在碳性扭曲效应,传统缩正方法需要双向相位编码数据对,限制了在单向数据上的应用
  • Method: 提出基于深度学习的方法,仅使用单个相位编码方向(blip-up或blip-down)的单次采集数据进行碳性扭曲效应缩正
  • Result: 实验结果显示该方法达到了与topup相当的性能水平
  • Conclusion: 该深度学习方法是一种高效且实用的碳性扭曲效应缩正替代方案

[101] Towards Understanding and Harnessing the Transferability of Prognostic Knowledge in Computational Pathology

Pei Liu,Luping Ji,Jiaxiang Gou,Xiangxiang Zeng

Main category: eess.IV

TL;DR: 该研究提出了Path-PKT,首个系统性研究病理学中预后知识迁移的方法,通过构建多癌症数据集和设计路由机制,解决了传统癌症特异性模型在罕见肿瘤预后预测中的局限性。

  • Motivation: 传统WSI预后研究采用癌症特异性模型,无法利用其他癌症的预后知识,难以处理罕见肿瘤样本稀少的问题,也无法从其他癌症的可泛化预后知识中受益。
  • Method: 构建包含13种癌症的大型数据集UNI2-h-DSS;设计实验分析知识迁移影响因素;提出基于路由机制的MoE-PKT方法,利用其他癌症的通用预后知识。
  • Result: 验证了预后知识在不同癌症间的可迁移性;确定了影响知识迁移的关键因素;证明了源模型向罕见肿瘤疾病的有效迁移能力。
  • Conclusion: Path-PKT为WSI癌症预后知识迁移研究奠定了坚实基础,为解决罕见肿瘤预后预测难题提供了有效方案,代码已开源。

[102] State of Abdominal CT Datasets: A Critical Review of Bias, Clinical Relevance, and Real-world Applicability

Saeide Danaei,Zahra Dehghanian,Elahe Meftah,Nariman Naderi,Seyed Amir Ahmad Safavi-Naini,Faeze Khorasanizade,Hamid R. Rabiee

Main category: eess.IV

TL;DR: 本系统综述评估了46个公开腹部CT数据集(50,256例研究),发现存在59.1%的病例重复使用和75.3%的数据来自北美和欧洲的地理偏差。在≥100例的19个数据集中,63%存在领域偏移风险,57%存在选择偏差,这些偏差可能影响AI模型在不同医疗环境中的泛化能力。

  • Motivation: 评估公开腹部CT数据集对AI临床应用的实际适用性,识别现有数据集中的偏差和局限性,以支持开发更公平和临床稳健的AI模型。
  • Method: 系统性回顾分析46个公开腹部CT数据集,进行病例重复性分析和地理分布评估,对≥100例的19个数据集进行偏差风险评估。
  • Result: 发现显著的数据冗余(59.1%病例重复)和地理偏差(75.3%来自欧美),高风险偏差类别中领域偏移占63%,选择偏差占57%。
  • Conclusion: 需要多机构合作、采用标准化协议、有意纳入多样化患者群体和成像技术等针对性策略来改进数据集,以支持开发更公平和临床稳健的腹部成像AI模型。

[103] subCellSAM: Zero-Shot (Sub-)Cellular Segmentation for Hit Validation in Drug Discovery

Jacob Hanimann,Daniel Siegismund,Mario Wieser,Stephan Steigele

Main category: eess.IV

TL;DR: Error

  • Motivation: Error
  • Method: Error
  • Result: Error
  • Conclusion: Error

[104] Deep Biomechanically-Guided Interpolation for Keypoint-Based Brain Shift Registration

Tiago Assis,Ines P. Machado,Benjamin Zwick,Nuno C. Garcia,Reuben Dorent

Main category: eess.IV

TL;DR: 一种基于深度学习的生物力学引导插值方法,通过生物力学模拟数据训练3D U-Net,从稀疏关键点估计密集、物理可行的脑部变形场,显著提升了神经外科导航的准确性。

  • Motivation: 现有的关键点注册方法依赖简单的几何插值器,忽略了组织生物力学特性,导致密集位移场估计不准确。需要一种能够从稀疏匹配点生成物理可行变形场的方法。
  • Method: 首先使用生物力学模拟生成大量合成脑部变形数据集,然后训练殊差3D U-Net网络,将标准插值估计精炼为生物力学引导的变形场。
  • Result: 在大量模拟位移场上的实验显示,该方法显著超过传统插值方法,平均方差误差降低了一半,同时在推理时间上引入可忽略的计算开销。
  • Conclusion: 该深度学习框架能够有效地从稀疏关键点生成物理可行的密集脑部变形场,为神经外科导航提供了更准确的脑部变形补偿方案。

[105] Comparing Conditional Diffusion Models for Synthesizing Contrast-Enhanced Breast MRI from Pre-Contrast Images

Sebastian Ibarra,Javier del Riego,Alessandro Catanese,Julian Cuba,Julian Cardona,Nataly Leon,Jonathan Infante,Karim Lekadir,Oliver Diaz,Richard Osuala

Main category: eess.IV

TL;DR: 使用去噪扩散概率模型从预对比MRI合成动态对比增强MRI,减少对造影剂的依赖,在22种模型变体中发现基于减影图像的模型表现最佳,肿瘤感知损失和分割掩码条件能提升病灶保真度。

  • Motivation: 动态对比增强MRI对乳腺癌诊断至关重要,但使用造影剂存在安全隐患、禁忌症、成本增加和工作流复杂等问题,需要开发无造影剂的替代方案。
  • Method: 提出预对比条件去噪扩散概率模型,在单乳和全乳设置下评估22种生成模型变体,引入肿瘤感知损失函数和显式肿瘤分割掩码条件来增强病灶保真度。
  • Result: 基于减影图像的模型在五个互补评估指标上始终优于基于后对比的模型,肿瘤感知损失和分割掩码输入都能改善评估指标,读者研究确认合成图像具有高真实感。
  • Conclusion: 生成式对比增强方法显示出潜在的临床应用前景,特别是在减少造影剂使用的同时保持诊断质量方面。

[106] Latent Interpolation Learning Using Diffusion Models for Cardiac Volume Reconstruction

Niklas Bubeck,Suprosanna Shit,Chen Chen,Can Zhao,Pengfei Guo,Dong Yang,Georg Zitzlsberger,Daguang Xu,Bernhard Kainz,Daniel Rueckert,Jiazhen Pan

Main category: eess.IV

TL;DR: 基于激活模型的心脏磁共振3D重建方法CaLID,通过潜空间扩散模型实现高效准确的心脏体积重建,无需附加输入且计算效率提升24倍

  • Motivation: 心脏磁共振成像中稀疏的2D切片限制了体积信息的完整性,现有重建方法存在依赖预定义插值方案、计算效率低以及需要附加语义输入等问题
  • Method: 提出CaLID框架:1)基于扩散模型的数据驱动插值方案;2)在潜空间进行高效计算,速度提升24倍;3)仅需稀疏2D图像输入,无需附加指导;4)扩展到2D+T时空数据处理
  • Result: 在体积评估和下游分割任务中达到最佳性能,重建质量和效率均超过基线方法
  • Conclusion: CaLID框架充分解决了现有方法的根本局限性,提供了一种健壮且临床实用的心血管成像解决方案,推动了心脏时空重建技术的发展

[107] A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler

Wenxuan Zhang,Shuai Li,Xinyi Wang,Yu Sun,Hongyu Kang,Pui Yuk Chryste Wan,Yong-Ping Zheng,Sai-Kit Lam

Main category: eess.IV

TL;DR: 本文提出了一种基于注意力增强小波YOLO网络(AAW-YOLO)的AI驱动实时脑血管自动分割系统,用于辅助经额颜色多普勒超声(TCCD)对威利环的准确评估,以减少对操作者经验的依赖。

  • Motivation: 威利环(CoW)与缪血性脑梗塞关系密切,精确评估对风险识别和临床管理重要。TCCD因其无放射、成本低和易获得性有独特优势,但依赖操作者经验限制了普及应用。
  • Method: 提出了专为TCCD数据设计的新题注意力增强小波YOLO(AAW-YOLO)网络,建立了包含738帧注释图像和3,419个标注血管实例的高质量数据集进行训练和评估。
  • Result: AAW-YOLO在同偶和对偶威利环血管分割中表现优异:平均Dice得分0.901、IoU 0.823、精度0.882、召回率0.926、mAP 0.953,每帧推理速度14.199ms。
  • Conclusion: 该系统为减少TCCD脑血管筛查对操作者经验的依赖提供了实用解决方案,有潜力应用于常规临床工作流和资源有限环境。未来将探索双侧建模和更大规模验证。

[108] Learning to See Through Flare

Xiaopeng Peng,Heath Gemar,Erin Fleet,Kyle Novak,Abbie Watnik,Grover Swartzlander

Main category: eess.IV

TL;DR: NeuSee是首个计算成像框架,通过联合学习衍射光学元件和频率空间Mamba-GAN网络,实现全可见光谱范围内的高保真传感器保护,可抑制高达传感器饱和阈值10^6倍的激光辐照度。

  • Motivation: 机器视觉系统容易受到激光耀斑的影响,强烈的激光照射会导致传感器过饱和或永久性像素损坏,从而扭曲环境感知。
  • Method: 联合学习衍射光学元件(DOE)的神经表示和频率空间Mamba-GAN网络进行图像恢复,采用端到端的对抗训练,利用异构数据和模型并行进行分布式计算。
  • Result: 系统在10万张独特图像上训练,能够抑制高达传感器饱和阈值10^6倍的激光辐照度,恢复图像质量提升10.1%,首次实现全光谱成像和激光抑制。
  • Conclusion: NeuSee框架在激光抑制和图像恢复方面优于其他学习型DOE方法,为机器视觉系统提供了有效的传感器保护解决方案。

[109] MMIS-Net for Retinal Fluid Segmentation and Detection

Nchongmaje Ndipenocha,Alina Mirona,Kezhi Wanga,Yongmin Li

Main category: eess.IV

TL;DR: 通过多源多模态医学图像数据集协同训练,提出MMIS-Net算法,使用相似融合块和一热标签空间来提高未见数据的分割性能

  • Motivation: 现有深度学习方法多在单一数据源训练测试,忽视了多源注释数据的协同潜力,而医学图像领域存在众多小规模注释数据集
  • Method: 提出MMIS-Net算法,包含相似融合块(Similarity Fusion blocks)利用监督和像素级相似性知识进行特征融合,创建一热标签空间处理类别定义不一致问题,在10个数据集上训练单一模型
  • Result: 在RETOUCH挑战试隐藏测试集上超越大型基础模型和其他最先进算法,液体分割任务获得0.83的最佳均值Dice分数和0.035的绝对体积差异,液体检测任务获得完美的AUC分数为1
  • Conclusion: 相似融合块的结构设计和一热标签空间的使用有效地提高了模型性能,解决了不同数据集间标签类别不一致和矛盾问题

[110] Real-Time, Population-Based Reconstruction of 3D Bone Models via Very-Low-Dose Protocols

Yiqun Lin,Haoran Sun,Yongqing Li,Rabia Aslam,Lung Fung Tse,Tiange Cheng,Chun Sing Chui,Wing Fung Yau,Victorine R. Le Meur,Meruyert Amangeldy,Kiho Cho,Yinyu Ye,James Zou,Wei Zhao,Xiaomeng Li

Main category: eess.IV

TL;DR: SSR-KD是一个快速准确的AI框架,能在30秒内从双平面X光片重建高质量骨骼模型,平均误差小于1.0mm,消除了对CT和人工工作的依赖。

  • Motivation: 传统CT方法创建骨骼模型存在灵活性低、辐射高、手动分割耗时等问题,限制了其在术中的应用。需要一种快速、低辐射的替代方案。
  • Method: 提出半监督重建与知识蒸馏(SSR-KD)框架,利用双平面X光片进行骨骼模型重建,结合知识蒸馏技术提高重建精度。
  • Result: 在30秒内完成重建,平均误差小于1.0mm。专家在高位胫骨截骨模拟中验证,重建模型与CT标注模型具有相当的临床应用性。
  • Conclusion: 该方法加速了流程,减少辐射暴露,支持术中引导,显著提高了骨骼模型的实用性,为骨科提供了变革性应用。

[111] UNICON: UNIfied CONtinual Learning for Medical Foundational Models

Mohammad Areeb Qazi,Munachiso S Nwadike,Ibrahim Almakky,Mohammad Yaqub,Numan Saeed

Main category: eess.IV

TL;DR: UNICON是一个统一的持续学习框架,使医学基础模型能够无缝适应不同领域、任务和模态,无需为每个新任务重新训练,避免了灾难性遗忘。

  • Motivation: 医学影像数据稀缺,为每个领域、模态或任务预训练基础模型具有挑战性。持续学习可以通过顺序微调模型来整合新知识,而无需每个训练阶段都使用大型数据集。
  • Method: 提出UNICON框架,统一处理领域、任务和模态的变化,通过精心整合使基础模型能够动态扩展到不同成像模态、解剖区域和临床目标。
  • Result: 将胸部CT基础模型从分类任务适应到预后和分割任务,在两个附加任务上都表现出改进的性能。持续整合PET扫描后,Dice分数比相应基线提高了5%。
  • Conclusion: 基础模型并不局限于初始训练范围,可以不断演化,为医学影像通用AI模型的发展铺平了道路。

eess.SY

[112] Model-based Multi-object Visual Tracking: Identification and Standard Model Limitations

Jan Krejčí,Oliver Kost,Yuxuan Xia,Lennart Svensson,Ondřej Straka

Main category: eess.SY

TL;DR: 使用雷达追踪领域的PMBM滤波器和标准点目标模型进行行人追踪,发现模型与数据存在不匹配问题

  • Motivation: 解决基于2D边界框检测的行人追踪问题,应用雷达追踪社区的多目标追踪方法
  • Method: 采用标准点目标(SPO)模型,使用泊松多伯努利混合(PMBM)滤波器计算后验密度,参数部分基于第一原理选择,部分从MOT-17数据集识别
  • Result: PMBM算法显示出有希望的结果,但揭示了SPO模型与数据之间的不匹配
  • Conclusion: 基于模型的方法认为,修改导致SPO模型与数据不匹配的问题组件将在未来开发中带来更好的基于模型的算法

cs.CL

[113] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

Shilong Li,Xingyuan Bu,Wenjie Wang,Jiaheng Liu,Jun Dong,Haoyang He,Hao Lu,Haozhe Zhang,Chenchen Jing,Zhen Li,Chuanhao Li,Jiayi Tian,Chenchen Zhang,Tianhao Peng,Yancheng He,Jihao Gu,Yuanxing Zhang,Jian Yang,Ge Zhang,Wenhao Huang,Wangchunshu Zhou,Zhaoxiang Zhang,Ruizhe Ding,Shilei Wen

Main category: cs.CL

TL;DR: MM-BrowseComp是一个新的多模态网页浏览基准测试,包含224个手工制作的问题,专门评估AI代理的多模态检索和推理能力,现有最先进模型准确率仅29.02%

  • Motivation: 现有网页浏览基准测试主要关注文本信息,忽略了网页中普遍存在的多模态内容,需要专门评估多模态检索和推理能力的基准
  • Method: 创建包含224个挑战性问题的基准测试,问题中可能包含图像提示,网页中的关键信息可能嵌入在图像或视频中,并提供验证清单进行细粒度分析
  • Result: 对最先进模型的评估显示,即使是OpenAI o3等顶级模型也仅达到29.02%的准确率,表明当前模型的多模态能力不足且缺乏原生多模态推理
  • Conclusion: 当前AI代理在多模态网页浏览方面表现不佳,需要开发更好的多模态推理能力来处理网页中的图像和视频内容

[114] MME-SCI: A Comprehensive and Challenging Science Benchmark for Multimodal Large Language Models

Jiacheng Ruan,Dan Jiang,Xian Gao,Ting Liu,Yuzhuo Fu,Yangyang Kang

Main category: cs.CL

TL;DR: MME-SCI是一个针对多模态大语言模型的多语言科学推理基准测试,包含1019个高质量问题对,覆盖4个学科和5种语言,评估显示现有模型在科学推理方面仍存在显著挑战

  • Motivation: 现有科学领域基准测试存在三个关键问题:多语言场景下推理能力评估不足、多模态覆盖不充分、科学知识点标注不够细粒度,需要更全面的评估工具
  • Method: 收集1019个高质量问答对,涵盖数学、物理、化学、生物4个学科,支持中英法西日5种语言,采用3种评估模式,对16个开源模型和4个闭源模型进行广泛实验
  • Result: 实验结果显示MME-SCI对现有MLLMs具有广泛挑战性,如图像模式下o4-mini在数理化生准确率仅为52.11%、24.73%、36.57%、29.80%,难度显著高于现有基准
  • Conclusion: MME-SCI是一个全面且具有挑战性的基准,通过多语言和细粒度知识属性深入分析模型性能,识别了在特定领域的弱点,为MLLMs的科学推理能力评估提供了重要工具

cs.LG

[115] BERT-VQA: Visual Question Answering on Plots

Tai Vu,Robert Yang

Main category: cs.LG

TL;DR: 开发了基于VisualBERT的BERT-VQA模型用于图表视觉问答,但实验结果推翻了跨模态模块对图表组件与问题短语对齐至关重要的核心假设

  • Motivation: 解决图表视觉问答这一自然语言理解中的挑战性子任务,需要模型同时处理视觉和语言领域的信息
  • Method: 使用基于VisualBERT的BERT-VQA架构,包含预训练的ResNet 101图像编码器,可能加入联合融合模块,并与包含LSTM、CNN和浅层分类器的基线模型进行比较
  • Result: 实验结果推翻了核心假设,表明VisualBERT中的跨模态模块对于图表组件与问题短语的对齐并非必需
  • Conclusion: 研究为图表问答任务的难度以及不同模型架构在此问题上的适用性提供了有价值的见解

[116] RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning

Suhang Hu,Wei Hu,Yuhang Su,Fan Zhang

Main category: cs.LG

TL;DR: RISE是一个两阶段框架,通过强化学习生成视觉基础、逻辑一致的思维链,然后利用高质量思维链进行监督微调和强化微调,在复杂图像标注任务中超越传统方法。

  • Motivation: 现有视觉语言模型在复杂图像标注任务中存在推理能力不足的问题,标准监督微调只关注标注结果而忽略推理过程,视觉强化微调由于缺乏高质量验证思维链导致推理不一致。
  • Method: 两阶段框架:1) Reason阶段(RISE-CoT):通过强化学习的"标注-推理-标注"闭环生成视觉基础的逻辑一致思维链;2) Inspire和Strengthen阶段(RISE-R1):利用高质量思维链子集进行监督微调,再进行强化微调。
  • Result: 在复杂和简单图像标注任务上,RISE训练的Qwen2-VL-2B模型超越了SFT和Visual-RFT方法,实现了鲁棒性能和增强的可解释性。
  • Conclusion: RISE提供了一种无需人工标注思维链的自监督解决方案,可有效提升视觉语言模型的推理能力。

[117] Hierarchy-Consistent Learning and Adaptive Loss Balancing for Hierarchical Multi-Label Classification

Ruobing Jiang,Mengzhe Liu,Haobing Liu,Yanwei Yu

Main category: cs.LG

TL;DR: 通过原型对比学习和适应性任务权重机制的多任务学习方法,解决层次多标签分类中的结构一致性和优化偏差问题

  • Motivation: 层次多标签分类(HMC)在维护结构一致性和多任务学习中损失权重平衡方面面临重大挑战,需要解决传统MTL方法中的"一强多弱"优化偏差
  • Method: 提出HCAL分类器,结合原型对比学习和适应性任务权重机制,包括标签明确建模的原型一致性和子类向父类的特征聚合,以及根据任务特定收敛速率动态分配优化资源
  • Result: 在三个数据集上的实验结果显示,该分类器在分类准确率和降低层次违规率方面都超过了基线模型
  • Conclusion: HCAL通过语义一致性和动态权重分配,有效解决了HMC中的结构一致性和优化偏差问题,提高了分类性能和层次正确性

[118] A Comprehensive Re-Evaluation of Biometric Modality Properties in the Modern Era

Rouqaiah Al-Refai,Pankaja Priya Ramasamy,Ragini Ramesh,Patricia Arias-Cabarcos,Philipp Terhörst

Main category: cs.LG

TL;DR: 重新评估生物识别模态的适用性,通过24名专家调查发现面部识别评分提升而指纹识别可靠性下降,专家评估与数据集实证强程度一致

  • Motivation: 现有的1998年评估框架已无法满足当今生物识别技术发展和安全漏洞的需求,需要更可靠的框架来评估各种生物识别模态的适用性
  • Method: 通过24名生物识别专家调查,分析专家在各种属性上的评分一致性,并将专家评估与55个生物识别数据集的实证结果进行对比
  • Result: 发现生物识别模态评分出现显著变化:面部识别因技术进步而提升,指纹识别因新兴漏洞和攻击而可靠性下降,专家评估与数据集实证在大多数模态上强程度一致
  • Conclusion: 专家见解与实证数据的结合对生物识别评估至关重要,专家分歧之处揭示了关键的开放挑战并为未来研究指明了方向