Skip to content
每日arXiv - 2025年6月18日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Non-planar Object Detection and Identification by Features Matching and Triangulation Growth

Filippo Leveni

Main category: cs.CV

TL;DR: 提出了一种基于特征的方法,通过逐步匹配图像与模板的特征来检测和识别场景中的变形对象,利用Delaunay三角剖分作为指导工具。

  • Motivation: 对象检测和识别是计算机视觉中的基础任务,广泛应用于目标跟踪、工业机器人控制等领域。传统几何模型(如单应性)在非平面或变形对象中表现不佳,因此需要一种更灵活的方法。
  • Method: 将模板特征的Delaunay三角剖分视为图,从单个三角形开始逐步评估邻近节点的特征匹配,基于几何和光度一致性标准进行分组。
  • Result: 在变形较小的情况下,该方法与基于单应性的RANSAC性能相当或更好;在变形显著时,表现更优。
  • Conclusion: 该方法能够有效识别非平面或变形对象,扩展了传统几何模型的应用范围。

[2] CDST: Color Disentangled Style Transfer for Universal Style Reference Customization

Shiwen Zhang,Zhuowei Chen,Lang Chen,Yanze Wu

Main category: cs.CV

TL;DR: CDST是一种新颖的两流风格迁移训练范式,通过完全分离颜色与风格,使风格流对颜色不敏感,实现了无需调优的通用风格迁移。

  • Motivation: 解决现有风格迁移方法中颜色与风格耦合的问题,并首次实现无需调优的特征保留风格迁移。
  • Method: 采用两流训练范式,分离颜色与风格,结合多特征图像嵌入压缩和基于Diffusion UNet解耦定律的新风格定义。
  • Result: 在多种风格迁移任务中取得最先进效果,风格相似性显著提升且保留强编辑能力。
  • Conclusion: CDST通过颜色与风格解耦,实现了高效、无需调优的通用风格迁移,并在实验中表现优异。

[3] Hidden Bias in the Machine: Stereotypes in Text-to-Image Models

Sedat Porikli,Vedat Porikli

Main category: cs.CV

TL;DR: 论文研究了文本到图像(T2I)模型在生成图像时可能复制和放大社会偏见的问题,通过多样化的提示词生成并分析了大量图像,揭示了性别、种族等方面的显著差异。

  • Motivation: 探讨T2I模型在生成图像时是否复制和放大社会偏见,以促进生成视觉系统的公平性。
  • Method: 使用Stable Diffusion 1.5和Flux-1模型生成16,000多张图像,并与Google Image Search的8,000张图像对比,分析人类中心因素的差异。
  • Result: 发现生成图像中存在性别、种族、年龄等方面的显著差异,这些差异往往强化了社会叙事中的有害刻板印象。
  • Conclusion: 强调需要更包容的数据集和开发实践,以提升生成视觉系统的公平性。

[4] Fake it till You Make it: Reward Modeling as Discriminative Prediction

Runtao Liu,Jiahao Zhan,Yingqing He,Chen Wei,Alan Yuille,Qifeng Chen

Main category: cs.CV

TL;DR: 论文提出GAN-RM框架,通过对抗训练简化奖励模型构建,无需人工标注偏好数据或复杂质量维度设计,仅需少量目标样本即可实现高效训练。

  • Motivation: 当前奖励模型依赖大量人工标注偏好数据或复杂质量维度设计,实现复杂且不完整,亟需简化方法。
  • Method: 采用对抗训练思想,通过区分目标样本与模型生成样本训练奖励模型,仅需少量目标样本(Preference Proxy Data)。
  • Result: 实验证明GAN-RM在多项应用中有效,包括测试时样本筛选(Best-of-N)及后训练方法(SFT、DPO)。
  • Conclusion: GAN-RM提供了一种高效、简化的奖励建模方法,显著降低实现复杂度。

[5] DeSPITE: Exploring Contrastive Deep Skeleton-Pointcloud-IMU-Text Embeddings for Advanced Point Cloud Human Activity Understanding

Thomas Kreutz,Max Mühlhäuser,Alejandro Sanchez Guinea

Main category: cs.CV

TL;DR: 论文提出DeSPITE模型,通过多模态对比预训练(LiDAR点云、人体骨架、IMU数据和文本)学习联合嵌入空间,填补了LiDAR在人类活动理解中的研究空白。

  • Motivation: LiDAR作为隐私保护的RGB相机替代品,在多模态对比预训练中尚未充分探索,尤其是在人类活动理解任务中。
  • Method: 提出DeSPITE模型,利用噪声对比估计学习四种模态的联合嵌入空间,结合LIPD和Babel数据集实现数据同步。
  • Result: 实验表明DeSPITE支持骨架-点云-IMU匹配、检索和时间片段检索等新任务,并在点云HAR任务中验证了其预训练有效性。
  • Conclusion: DeSPITE填补了LiDAR在多模态人类活动理解中的空白,为点云序列任务提供了新的解决方案。

[6] OPTIMUS: Observing Persistent Transformations in Multi-temporal Unlabeled Satellite-data

Raymond Yu,Paul Han,Josh Myers-Dean,Piper Wolters,Favyen Bastani

Main category: cs.CV

TL;DR: OPTIMUS是一种自监督学习方法,用于检测卫星图像中的长期变化,无需标注数据,性能显著优于基线方法。

  • Motivation: 由于卫星图像中变化标注数据的稀缺性,尤其是罕见类别,监督学习方法难以应用,因此需要一种无需标注的自监督方法。
  • Method: OPTIMUS基于时间序列中图像相对顺序的信息恢复原理,结合变化点检测方法,直接检测卫星图像中的变化。
  • Result: OPTIMUS在区分变化与未变化时间序列的AUROC得分上从56.3%提升至87.6%。
  • Conclusion: OPTIMUS为卫星图像变化检测提供了一种高效的自监督解决方案,性能显著优于传统方法。

[7] Intelligent Image Sensing for Crime Analysis: A ML Approach towards Enhanced Violence Detection and Investigation

Aritra Dutta,Pushpita Boral,G Suseela

Main category: cs.CV

TL;DR: 本文提出了一种基于机器学习的暴力检测与分类框架,结合3D卷积神经网络和双向LSTM,显著提升了计算效率和准确性。

  • Motivation: 全球犯罪率上升及传统监控方法的局限性促使开发自动暴力检测系统。
  • Method: 使用3D卷积神经网络进行暴力检测,结合可分离卷积3D模型和双向LSTM进行分类,训练数据来自多样化标注数据集。
  • Result: 在计算资源效率和准确性方面表现优异。
  • Conclusion: 该框架为自动暴力检测提供了高效且准确的解决方案。

[8] HierVL: Semi-Supervised Segmentation leveraging Hierarchical Vision-Language Synergy with Dynamic Text-Spatial Query Alignment

Numair Nadeem,Saeed Anwar,Muhammad Hamza Asad,Abdul Bais

Main category: cs.CV

TL;DR: HierVL是一个结合视觉语言模型和掩码变换器架构的半监督语义分割框架,通过多尺度查询和跨模态对齐提升性能,在多个基准数据集上显著优于现有方法。

  • Motivation: 解决半监督语义分割在标签稀缺和领域变化下的挑战,特别是视觉方法在泛化和边界定位上的不足,以及视觉语言模型缺乏空间定位能力的问题。
  • Method: 提出HierVL框架,包括分层语义查询生成器、跨模态空间对齐模块和双查询变换器解码器,并结合目标正则化损失。
  • Result: 在COCO、Pascal VOC、ADE20和Cityscapes数据集上分别实现了4.4%、3.1%、5.9%和1.8%的平均IoU提升。
  • Conclusion: 语言引导的分割方法显著提升了标签效率,实现了细粒度和实例感知的泛化能力。

[9] Mapping Farmed Landscapes from Remote Sensing

Michelangelo Conserva,Alex Wilson,Charlotte Stanton,Vishal Batchu,Varun Gulshan

Main category: cs.CV

TL;DR: Farmscapes是首个覆盖英格兰大部分地区的高分辨率(25厘米)农村景观特征地图,通过深度学习模型生成,为生态学家和政策制定者提供开放工具。

  • Motivation: 农业景观的有效管理对全球生物多样性目标至关重要,但缺乏详细的大规模生态地图阻碍了相关努力。
  • Method: 使用深度学习分割模型,基于942个手动标注的航拍图像块训练,生成高分辨率地图。
  • Result: 模型准确识别关键栖息地,林地(96%)和农田(95%)的F1分数高,线性特征(如树篱)的F1分数为72%。
  • Conclusion: 该地图为栖息地恢复的数据驱动规划提供支持,并为景观连通性分析奠定基础。

[10] FindMeIfYouCan: Bringing Open Set metrics to $\textit{near} $, $ \textit{far} $ and farther Out-of-Distribution Object Detection

Daniel Montoya,Aymen Bouguerra,Alexandra Gomez-Villa,Fabio Arnez

Main category: cs.CV

TL;DR: 论文指出当前OOD-OD评估协议存在缺陷,提出新基准和指标以更全面评估未知物体检测。

  • Motivation: 解决现有OOD-OD评估协议中忽略未知物体的问题,提升安全关键应用中的检测可靠性。
  • Method: 手动构建新评估数据集,利用语义相似性划分near、far、farther类别,并引入开放集指标。
  • Result: 语义和视觉接近的OOD物体更易定位但易与ID混淆,far和farther物体定位难但不易误判。
  • Conclusion: 新评估协议和指标能更全面反映OOD-OD性能,为实际部署提供更可靠依据。

[11] Disentangling 3D from Large Vision-Language Models for Controlled Portrait Generation

Nick Yiwen Huang,Akin Caliskan,Berkay Kicanaoglu,James Tompkin,Hyeongwoo Kim

Main category: cs.CV

TL;DR: 论文提出了一种从大型视觉语言模型(LVLM)中解耦3D信息的方法,用于生成可控的3D肖像,支持文本和3D几何控制。

  • Motivation: 解决从预训练的大型视觉语言模型中解耦3D信息的挑战,以实现对肖像外观和几何的自由控制。
  • Method: 使用规范化方法将3D信息解耦到2D参考框架,并通过Jacobian正则化处理LVLM嵌入空间中的噪声。
  • Result: 生成的肖像在文本和3D控制下保持一致性和多样性,优于现有方法。
  • Conclusion: 该方法使创作者能够利用自己的2D数据控制3D生成,无需大规模标注或训练大型模型。

[12] SimpleDoc: Multi-Modal Document Understanding with Dual-Cue Page Retrieval and Iterative Refinement

Chelsi Jain,Yiran Wu,Yifan Zeng,Jiale Liu,S hengyu Dai,Zhenwen Shao,Qingyun Wu,Huazheng Wang

Main category: cs.CV

TL;DR: SimpleDoc是一个轻量级但强大的检索增强框架,用于文档视觉问答(DocVQA),通过双线索检索器和迭代工作记忆机制显著提升性能。

  • Motivation: DocVQA任务需要处理多页和多模态信息,现有方法虽然采用RAG流程,但仍有改进空间。
  • Method: SimpleDoc通过嵌入相似性检索候选页面,再基于页面摘要过滤和重排序,利用VLM推理代理迭代检索新页面。
  • Result: SimpleDoc在4个DocVQA数据集上平均性能提升3.2%,且检索页面更少。
  • Conclusion: SimpleDoc通过高效的双线索检索和迭代机制,显著提升了DocVQA任务的性能。

[13] Image Segmentation with Large Language Models: A Survey with Perspectives for Intelligent Transportation Systems

Sanjeda Akter,Ibne Farabi Shihab,Anuj Sharma

Main category: cs.CV

TL;DR: 本文综述了大型语言模型(LLMs)与计算机视觉结合在图像分割领域的应用,特别是在智能交通系统(ITS)中的潜力、挑战与未来方向。

  • Motivation: 智能交通系统需要高精度的场景理解以确保安全和效率,LLMs与计算机视觉的结合为此提供了新的可能性。
  • Method: 系统回顾了LLM增强图像分割的方法,基于提示机制和核心架构对现有方法进行了分类。
  • Result: 这些创新技术可以提升自动驾驶、交通监控和基础设施维护中的道路场景理解能力。
  • Conclusion: 未来需解决实时性和安全性等关键挑战,并发展可解释、以人为本的AI技术,以推动其在下一代交通系统中的成功应用。

[14] FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution

Siyu Xu,Wenjie Li,Guangwei Gao,Jian Yang,Guo-Jun Qi,Chia-Wen Lin

Main category: cs.CV

TL;DR: 提出了一种频率感知双路径网络(FADPNet),通过分解高低频特征并分别处理,优化了人脸超分辨率(FSR)的性能和效率。

  • Motivation: 现有方法对所有面部像素一视同仁,导致计算资源分配不优和性能下降。CNN对高频特征敏感,而Mamba擅长低频特征且复杂度更低。
  • Method: FADPNet将特征分解为高低频,分别用Mamba和CNN处理。低频分支采用LFEB模块,高频分支采用DPA和HFR模块。
  • Result: 方法在FSR质量和效率上取得平衡,优于现有方法。
  • Conclusion: FADPNet通过频率感知设计,显著提升了FSR性能,同时保持了计算效率。

[15] KDMOS:Knowledge Distillation for Motion Segmentation

Chunyu Cao,Jintao Cheng,Zeyu Chen,Linfan Zhan,Rui Fan,Zhijian He,Xiaoyu Tang

Main category: cs.CV

TL;DR: 提出了一种基于logits的知识蒸馏框架(KDMOS),用于运动目标分割(MOS),通过BEV投影模型(学生)和非投影模型(教师)结合,优化实时性和准确性。

  • Motivation: 现有方法在准确性和实时性之间难以平衡,且运动与非运动类别严重不平衡。
  • Method: 采用BEV投影模型作为学生,非投影模型作为教师,解耦运动与非运动类别并应用定制蒸馏策略,引入动态上采样和网络架构优化。
  • Result: 在SemanticKITTI-MOS隐藏测试集上达到78.8%的IoU,参数数量减少7.69%,在Apollo数据集上表现优异。
  • Conclusion: KDMOS框架显著提升了MOS任务的性能,同时保持了实时性,代码已开源。

[16] Interpreting Biomedical VLMs on High-Imbalance Out-of-Distributions: An Insight into BiomedCLIP on Radiology

Nafiz Sadman,Farhana Zulkernine,Benjamin Kwan

Main category: cs.CV

TL;DR: 论文分析了BiomedCLIP在医学影像分类中的表现,探讨了其嵌入空间和局限性,并提出了改进建议。

  • Motivation: 研究BiomedCLIP在高度不平衡、分布外多标签医学数据集上的表现,以评估其可靠性和适用性。
  • Method: 在IU-xray数据集上实验,评估零样本推理、全微调和线性探测三种分类方式,并使用Grad-CAM热图可视化模型理解。
  • Result: 零样本设置下模型预测过度,精度低;全微调改善疾病分类;线性探测检测重叠特征。
  • Conclusion: 需谨慎调整模型以提高真实场景中的可靠性和适用性。

[17] RadFabric: Agentic AI System with Reasoning Capability for Radiology

Wenting Chen,Yi Dong,Zhaojun Ding,Yucheng Shi,Yifan Zhou,Fang Zeng,Yijun Luo,Tianyu Lin,Yihang Su,Yichen Wu,Kai Zhang,Zhen Xiang,Tianming Liu,Ninghao Liu,Lichao Sun,Yixuan Yuan,Xiang Li

Main category: cs.CV

TL;DR: RadFabric是一个多模态、多代理的CXR分析框架,通过视觉和文本推理提升诊断准确性和覆盖范围。

  • Motivation: 当前自动化CXR系统在病理覆盖、诊断准确性及视觉与文本推理整合方面存在不足。
  • Method: 基于Model Context Protocol (MCP),结合病理检测代理、解剖解释代理和推理代理,实现多模态数据整合。
  • Result: 显著提升诊断性能,如骨折检测准确率达1.000,整体诊断准确率0.799,远超传统系统。
  • Conclusion: RadFabric通过跨模态特征对齐和偏好驱动推理,推动了透明、精准且临床可操作的CXR分析。

[18] SceneAware: Scene-Constrained Pedestrian Trajectory Prediction with LLM-Guided Walkability

Juho Bai,Inwook Shim

Main category: cs.CV

TL;DR: SceneAware框架通过结合场景理解和行人轨迹预测,显著提升了预测准确性,并在ETH/UCY数据集上表现优于现有方法。

  • Motivation: 现有方法主要关注行人间的社交互动,但忽略了环境背景对行人轨迹的重要影响。
  • Method: 使用Vision Transformer(ViT)编码场景信息,结合多模态大语言模型(MLLMs)生成可通行区域掩码,并通过Transformer编码轨迹,同时引入碰撞惩罚机制。
  • Result: 在ETH/UCY数据集上,SceneAware比现有方法性能提升50%以上,且在不同类型行人运动上表现一致。
  • Conclusion: 显式利用场景信息能有效提升轨迹预测的准确性和物理合理性,SceneAware框架具有高效性和可靠性。

[19] VideoMAR: Autoregressive Video Generatio with Continuous Tokens

Hu Yu,Biao Gong,Hangjie Yuan,DanDan Zheng,Weilong Chai,Jingdong Chen,Kecheng Zheng,Feng Zhao

Main category: cs.CV

TL;DR: VideoMAR是一种高效的解码器自回归图像到视频模型,结合了时间因果性和空间双向性,通过课程学习和渐进策略优化长序列建模问题,性能优于现有方法。

  • Motivation: 探索自回归模型在视频生成中的潜力,解决长序列建模的高成本和难度问题。
  • Method: 提出VideoMAR模型,结合时间因果性和空间双向性,采用课程学习、渐进分辨率和温度策略优化。
  • Result: 在VBench-I2V基准测试中,VideoMAR性能优于Cosmos I2V,且参数、训练数据和GPU资源需求显著减少。
  • Conclusion: VideoMAR展示了自回归模型在视频生成中的高效性和潜力,为未来研究提供了新方向。

[20] A multi-stage augmented multimodal interaction network for fish feeding intensity quantification

Shulong Zhang,Mingyuan Yao,Jiayin Zhao,Xiao Liu,Haihua Wang

Main category: cs.CV

TL;DR: 本文提出了一种多阶段增强多模态交互网络(MAINet),用于量化鱼类摄食强度,通过多模态特征提取、交互增强和证据推理决策,显著提高了准确性和可靠性。

  • Motivation: 当前研究在多模态选择、特征提取与融合以及决策推理方面存在局限性,限制了多模态融合模型的准确性、适用性和可靠性。
  • Method: 提出MAINet,包括通用特征提取框架、辅助模态增强主模态机制(ARPM)和证据推理(ER)规则。
  • Result: 实验结果显示MAINet在准确率、精确率、召回率和F1分数上均超过96.7%,显著优于对比模型。
  • Conclusion: MAINet通过改进策略提升了模型的鲁棒性和特征利用率,有效提高了鱼类摄食强度量化的准确性。

[21] One-Shot Neural Architecture Search with Network Similarity Directed Initialization for Pathological Image Classification

Renao Yan

Main category: cs.CV

TL;DR: 提出了一种基于网络相似性引导初始化(NSDI)的策略,结合领域自适应的一键式神经架构搜索(NAS),以提升病理图像分析的效率和性能。

  • Motivation: 现有方法直接应用计算机视觉模型到医学任务中,忽视了病理图像的独特性,导致计算效率低下。
  • Method: 引入NSDI策略提升NAS的稳定性,并结合领域自适应处理病理数据集中的染色和语义尺度变化。
  • Result: 在BRACS数据集上实验表明,该方法在分类性能和临床相关特征定位上优于现有方法。
  • Conclusion: 该方法有效解决了病理图像分析中的计算效率问题,并提升了性能。

[22] Meta-SurDiff: Classification Diffusion Model Optimized by Meta Learning is Reliable for Online Surgical Phase Recognition

Yufei Li,Jirui Wu,Long Tian,Liming Wang,Xiaonan Liu,Zijun Liu,Xiyang Liu

Main category: cs.CV

TL;DR: 该论文提出了一种基于元学习优化的分类扩散模型(Meta-SurDiff),用于解决在线手术阶段识别中的不确定性,包括视频帧模糊和手术阶段分布不平衡问题。

  • Motivation: 在线手术阶段识别对生命健康至关重要,但现有模型未充分探索手术视频中的不确定性,影响识别的可靠性。
  • Method: 通过分类扩散模型评估模糊视频帧的置信度,并利用元学习优化扩散模型以增强分类边界对不同手术阶段的鲁棒性。
  • Result: 在五个广泛使用的数据集(Cholec80、AutoLaparo、M2Cai16、OphNet、NurViD)上验证了Meta-SurDiff的有效性。
  • Conclusion: Meta-SurDiff通过结合生成模型和元学习,显著提升了在线手术阶段识别的可靠性。

[23] Egocentric Human-Object Interaction Detection: A New Benchmark and Method

Kunyuan Deng,Yi Wang,Lap-Pui Chau

Main category: cs.CV

TL;DR: 该论文提出了一个新的数据集Ego-HOIBench,用于推动以自我为中心视角的人-物交互(Ego-HOI)检测研究,并提出了一个轻量级且高效的HGIR方案来提升检测能力。

  • Motivation: 现有的人-物交互(HOI)检测方法主要关注第三人称视角,忽略了更直观的自我中心视角(Ego-HOI)。
  • Method: 论文提出了一个名为Ego-HOIBench的新数据集,包含27K+自我中心视角图像,并提出了HGIR方案,利用手部几何和交互信息优化交互特征。
  • Result: HGIR方案显著提升了Ego-HOI检测能力,并在Ego-HOIBench上达到了最先进的结果。
  • Conclusion: Ego-HOIBench和HGIR方案为Ego-HOI检测提供了新的基准和工具,推动了该领域的发展。

[24] HRGS: Hierarchical Gaussian Splatting for Memory-Efficient High-Resolution 3D Reconstruction

Changbai Li,Haodong Zhu,Hanlin Chen,Juan Zhang,Tongfei Chen,Shuo Yang,Shuwei Shao,Wenhao Dong,Baochang Zhang

Main category: cs.CV

TL;DR: HRGS提出了一种内存高效的分层高斯泼溅框架,通过分层块级优化解决3DGS在高分辨率场景中的内存扩展问题。

  • Motivation: 3D高斯泼溅(3DGS)在实时3D场景重建中取得了进展,但在高分辨率场景下面临内存扩展问题。
  • Method: 首先生成低分辨率数据的全局粗略高斯表示,然后将场景划分为多个块,用高分辨率数据细化每个块,并通过重要性驱动的高斯修剪(IDGP)减少计算需求。
  • Result: 在三个基准测试中,HRGS在高分辨率新视角合成(NVS)和表面重建任务中实现了最先进的性能。
  • Conclusion: HRGS在内存受限的情况下仍能实现高质量、高分辨率的3D场景重建。

[25] Unified Representation Space for 3D Visual Grounding

Yinuo Zheng,Lipeng Gu,Honghua Chen,Liangliang Nan,Mingqiang Wei

Main category: cs.CV

TL;DR: UniSpace-3D提出了一种统一表示空间的方法,通过CLIP模型和多模态对比学习模块,显著提升了3D视觉定位任务的性能。

  • Motivation: 现有方法依赖预训练的视觉和文本编码器,导致模态间在空间几何和语义类别上的差距,影响定位和分类准确性。
  • Method: 1) 使用CLIP模型的统一表示编码器;2) 多模态对比学习模块;3) 语言引导的查询选择模块。
  • Result: 在ScanRefer和Nr3D/Sr3D数据集上性能提升至少2.24%。
  • Conclusion: UniSpace-3D通过统一表示空间和多模态学习,有效解决了3D视觉定位中的模态差距问题。

[26] Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition

Xiaohui Jiang,Haijiang Zhu,Chadei Li,Fulin Tang,Ning An

Main category: cs.CV

TL;DR: 提出了一种基于密度无关几何推理的3D地点识别框架,通过弹性点隐式表示解决了点云密度不一致和单层几何抽象的问题,实验证明其性能优越。

  • Motivation: 现有方法依赖手工特征提取,面临点云密度不一致和单层几何抽象导致的描述符不稳定和表示脆弱性问题。
  • Method: 采用弹性点隐式表示,生成均匀分布的点云,并从中提取占用网格和法向量信息,融合鸟瞰图和3D片段的几何信息生成描述符。
  • Result: 在多个数据集上实现了最先进的性能,并在准确性、运行时间和内存优化之间取得了平衡。
  • Conclusion: 该方法具有优异的鲁棒性和可扩展性,未来将开源代码。

[27] synth-dacl: Does Synthetic Defect Data Enhance Segmentation Accuracy and Robustness for Real-World Bridge Inspections?

Johannes Flotzinger,Fabian Deuser,Achref Jaziri,Heiko Neumann,Norbert Oswald,Visvanathan Ramesh,Thomas Braml

Main category: cs.CV

TL;DR: 论文提出了一种基于合成数据的扩展方法(synth-dacl),用于改善桥梁视觉检测中缺陷分类的性能,特别是在裂缝和空洞等细粒度类别上。

  • Motivation: 桥梁检测面临资源不足和老化问题,自动化视觉检测能提升效率和安全性,但现有数据集(dacl10k)存在类别不平衡问题,影响模型性能。
  • Method: 通过合成混凝土纹理数据扩展数据集(synth-dacl),平衡类别分布,并测试其在15种扰动测试集上的表现。
  • Result: 结合synth-dacl扩展的模型在扰动测试集上表现更优,平均IoU、F1分数、召回率和精确度均提升2%。
  • Conclusion: 合成数据扩展能显著提升模型在桥梁缺陷检测中的鲁棒性和性能。

[28] Comparison of Two Methods for Stationary Incident Detection Based on Background Image

Deepak Ghimire,Joonwhoan Lee

Main category: cs.CV

TL;DR: 论文提出两种基于背景减法的方案,用于检测视频中暂时静止的物体,并通过NCC图像比较进行跟踪,方法对部分遮挡和光照变化具有鲁棒性。

  • Motivation: 传统背景减法主要用于检测运动物体,而本文旨在检测暂时静止的物体,填补了这一领域的空白。
  • Method: 提出两种方案:单背景法和双背景法(不同学习率生成),并通过NCC图像比较跟踪静止物体。
  • Result: 方法对部分遮挡、短时完全遮挡和光照变化具有鲁棒性,并能实时运行。
  • Conclusion: 双背景法在检测性能和计算复杂度上表现更优,适用于实际应用。

[29] Exploring Non-contrastive Self-supervised Representation Learning for Image-based Profiling

Siran Dai,Qianqian Xu,Peisong Wen,Yang Liu,Qingming Huang

Main category: cs.CV

TL;DR: 本文提出了一种名为SSLProfiler的非对比自监督学习框架,专门用于细胞图像分析,解决了细胞图像与自然图像分布差异大以及多图像信息融合的挑战。

  • Motivation: 细胞图像分析在药物发现中至关重要,但现有自监督学习方法因细胞图像与自然图像分布差异大以及多图像信息融合困难而效果不佳。
  • Method: 提出SSLProfiler框架,引入针对细胞图像的专用数据增强和表示后处理方法。
  • Result: SSLProfiler在CVPR 2025的Cell Line Transferability挑战中获胜。
  • Conclusion: SSLProfiler为细胞图像分析提供了一种通用且鲁棒的特征提取方法。

[30] Leader360V: The Large-scale, Real-world 360 Video Dataset for Multi-task Learning in Diverse Environment

Weiming Zhang,Dingwen Xiao,Aobotao Dai,Yexin Liu,Tianbo Pan,Shiqi Wen,Lei Chen,Lin Wang

Main category: cs.CV

TL;DR: 论文介绍了Leader360V,首个大规模标注的真实世界360视频数据集,用于实例分割和跟踪,并提出自动化标注流程。

  • Motivation: 360视频的球形特性导致标注成本高且复杂,缺乏大规模标注数据集阻碍了基础模型的发展。
  • Method: 设计三阶段自动化标注流程:初始标注阶段结合2D分割器和LLM生成语义标签;自动细化阶段修正缺失区域;人工修订阶段进一步验证。
  • Result: 标注流程高效,Leader360V显著提升了360视频分割和跟踪的模型性能。
  • Conclusion: Leader360V为360场景理解提供了可扩展的数据集和标注方法。

[31] FRIDU: Functional Map Refinement with Guided Image Diffusion

Avigail Cohen Rimon,Mirela Ben-Chen,Or Litany

Main category: cs.CV

TL;DR: 提出了一种基于图像扩散模型的功能映射优化方法,通过训练直接在功能映射空间中进行,高效且能生成精确的映射。

  • Motivation: 功能映射通常表示为基变换矩阵,可以视为2D图像,因此可以利用图像扩散模型优化初始不准确的映射。
  • Method: 在功能映射空间训练图像扩散模型,推理时利用点映射作为指导,同时支持正交性和Laplace-Beltrami算子交换性等功能映射目标。
  • Result: 方法在映射优化方面与现有最优方法竞争,展示了扩散模型在功能映射处理中的潜力。
  • Conclusion: 引导扩散模型为功能映射处理提供了有前景的新途径。

[32] FGA-NN: Film Grain Analysis Neural Network

Zoubida Ameur,Frédéric Lefebvre,Philippe De Lagrange,Miloš Radosavljević

Main category: cs.CV

TL;DR: FGA-NN是一种基于学习的胶片颗粒分析方法,用于在压缩后恢复胶片颗粒,平衡了分析精度与合成复杂度。

  • Motivation: 胶片颗粒在低比特率压缩时会丢失,影响艺术效果,需要一种方法在压缩后恢复颗粒。
  • Method: 提出FGA-NN,基于学习的方法分析胶片颗粒参数,兼容传统合成方法。
  • Result: 定量和定性结果显示FGA-NN在分析精度与合成复杂度间取得优越平衡,且具有鲁棒性和适用性。
  • Conclusion: FGA-NN为胶片颗粒分析提供了高效且兼容的解决方案,适用于实际应用。

[33] EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization

Xiaoqi Wang,Yi Wang,Lap-Pui Chau

Main category: cs.CV

TL;DR: EVA02-AT提出了一种高效的视频-语言基础模型,通过单阶段预训练、空间-时间旋转位置嵌入和对称多相似性损失,解决了现有方法的预训练成本高、时空编码无效和学习目标不精确的问题。

  • Motivation: 现有方法在多阶段预训练、手动分割的3D旋转位置嵌入和软标签多实例检索中存在效率低、特征交互差和负对相关性忽略的问题。
  • Method: 1) 单阶段预训练将图像CLIP模型转换为视频编码器;2) 引入空间-时间旋转位置嵌入和联合注意力;3) 提出对称多相似性(SMS)损失和改进的训练框架。
  • Result: 在Ego4D、EPIC-Kitchens-100和Charades-Ego上,EVA02-AT在零样本和微调设置下均达到最优性能,且参数更少。
  • Conclusion: EVA02-AT通过高效预训练、联合时空编码和精确学习目标,显著提升了视频-语言理解任务的性能。

[34] HydroChronos: Forecasting Decades of Surface Water Change

Daniele Rege Cambrin,Eleonora Poeta,Eliana Pastor,Isaac Corley,Tania Cerquitelli,Elena Baralis,Paolo Garza

Main category: cs.CV

TL;DR: HydroChronos是一个大规模多模态时空数据集,用于地表水动态预测,填补了该领域的数据和基准空白。提出的AquaClimaTempo UNet模型显著优于基线。

  • Motivation: 地表水动态预测对水资源管理和气候变化适应至关重要,但缺乏全面数据集和标准化基准。
  • Method: 引入HydroChronos数据集,包含多源数据,并提出AquaClimaTempo UNet模型作为基准。
  • Result: 模型在多项任务中显著优于基线,F1提升14%和11%,MAE提升0.1。
  • Conclusion: 通过可解释AI分析,识别了影响地表水变化的关键气候变量和输入通道,为未来建模提供指导。

[35] DGG-XNet: A Hybrid Deep Learning Framework for Multi-Class Brain Disease Classification with Explainable AI

Sumshun Nahar Eity,Mahin Montasir Afif,Tanisha Fairooz,Md. Mortuza Ahmmed,Md Saef Ullah Miah

Main category: cs.CV

TL;DR: DGG-XNet是一种结合VGG16和DenseNet121的深度学习模型,用于提高脑部疾病的诊断准确性和效率。

  • Motivation: 传统MRI分析方法效率低且易出错,需更准确的诊断工具。
  • Method: 融合VGG16和DenseNet121的DGG-XNet模型,利用Grad-CAM增强可解释性。
  • Result: 在BraTS 2021和Kaggle数据集上测试准确率达91.33%,各项指标均超过91%。
  • Conclusion: DGG-XNet是一种高效且可解释的脑部疾病计算机辅助诊断工具。

[36] Discrete JEPA: Learning Discrete Token Representations without Reconstruction

Junyeob Baek,Hosung Lee,Christopher Hoang,Mengye Ren,Sungjin Ahn

Main category: cs.CV

TL;DR: 论文提出Discrete-JEPA方法,通过语义标记化和新目标改进图像标记化,显著提升符号推理任务性能。

  • Motivation: 当前图像标记化方法在符号抽象和逻辑推理任务中存在局限,无法满足系统性推理需求。
  • Method: 扩展潜在预测编码框架,引入语义标记化和新互补目标,构建适用于符号推理的鲁棒标记化方法。
  • Result: Discrete-JEPA在视觉符号预测任务中显著优于基线,学习到的语义标记空间自发形成系统性模式。
  • Conclusion: 该方法为人工智能系统的符号世界建模和规划能力提供了重要进展。

[37] DepthSeg: Depth prompting in remote sensing semantic segmentation

Ning Zhou,Shanxiong Chen,Mingting Zhou,Haigang Sui,Lieyun Hu,Han Li,Li Hua,Qiming Zhou

Main category: cs.CV

TL;DR: 论文提出了一种名为DepthSeg的深度提示二维遥感语义分割框架,通过建模深度/高度信息来解决光谱混淆和阴影遮挡问题。

  • Motivation: 现有语义分割方法主要关注光谱特征,忽略了目标的高度差异,导致复杂场景中的地物误分类。
  • Method: DepthSeg框架包括轻量级适配器、深度提示器和语义分类解码器,分别用于特征提取、深度建模和语义预测。
  • Result: 在LiuZhou数据集上的实验验证了DepthSeg在地物分类任务中的优势,消融研究强调了深度提示的重要性。
  • Conclusion: DepthSeg通过整合深度信息,显著提升了遥感语义分割的准确性。

[38] GrFormer: A Novel Transformer on Grassmann Manifold for Infrared and Visible Image Fusion

Huan Kang,Hui Li,Xiao-Jun Wu,Tianyang Xu,Rui Wang,Chunyang Cheng,Josef Kittler

Main category: cs.CV

TL;DR: 提出了一种基于Grassmann流形的新型注意力机制(GrFormer),用于红外和可见光图像融合,通过多尺度语义融合提升性能。

  • Motivation: 现有方法在非欧几里得空间中无法捕捉图像的固有拓扑结构,导致融合性能下降。
  • Method: 利用Grassmann流形构建低秩子空间映射,并通过协方差掩模的跨模态融合策略(CMS)优化信息整合。
  • Result: 实验表明,该方法在多个基准测试中优于现有技术。
  • Conclusion: GrFormer通过多尺度语义融合和跨模态策略显著提升了图像融合效果。

[39] Decoupled Classifier-Free Guidance for Counterfactual Diffusion Models

Tian Xia,Fabio De Sousa Ribeiro,Rajat R Rasal,Avinash Kori,Raghav Mehta,Ben Glocker

Main category: cs.CV

TL;DR: 论文提出了一种解耦的无分类器引导(DCFG)方法,用于改进反事实图像生成中的属性控制和身份保持。

  • Motivation: 标准无分类器引导(CFG)在全局权重下可能导致身份保持不佳和虚假属性变化(属性放大),因此需要更灵活的框架。
  • Method: 提出DCFG,通过属性分组嵌入策略解耦语义输入,对干预和不变属性分别应用不同的引导。
  • Result: 在CelebA-HQ、MIMIC-CXR和EMBED数据集上,DCFG提高了干预保真度,减少了意外变化,增强了可逆性。
  • Conclusion: DCFG能够实现更忠实和可解释的反事实图像生成。

[40] Causally Steered Diffusion for Automated Video Counterfactual Generation

Nikos Spyrou,Athanasios Vlontzos,Paraskevas Pegios,Thomas Melistas,Nefeli Gkouti,Yannis Panagakis,Giorgos Papanastasiou,Sotirios A. Tsaftaris

Main category: cs.CV

TL;DR: 提出了一种基于因果关系的视频编辑框架,通过文本提示优化生成反事实视频,无需修改底层模型。

  • Motivation: 现有文本到图像扩散模型在视频编辑中难以保持因果关系,可能导致不现实的结果。
  • Method: 利用视觉语言模型(VLM)指导文本提示优化,基于假设的因果图生成反事实视频。
  • Result: 实验表明,该方法能有效生成因果一致的反事实视频,且兼容任何黑盒视频编辑系统。
  • Conclusion: 该方法在医疗和数字媒体等领域具有潜力,能生成逼真的“假设”视频场景。

[41] Compositional Attribute Imbalance in Vision Datasets

Jiayi Chen,Yanbiao Ma,Andi Zhang,Weidong Tang,Wei Dai,Bowei Liu

Main category: cs.CV

TL;DR: 该论文提出了一种基于CLIP的框架来解决图像分类中的视觉属性不平衡问题,通过调整样本采样概率并结合数据增强技术,显著提升了模型的鲁棒性和公平性。

  • Motivation: 视觉属性不平衡是图像分类中常见但未被充分研究的问题,严重影响模型性能和泛化能力。
  • Method: 定义图像的一级和二级属性,构建视觉属性字典,分析单属性和组合属性不平衡,调整采样概率并结合数据增强技术(如CutMix、Fmix等)。
  • Result: 在基准数据集上的实验表明,该方法有效缓解了属性不平衡,提升了深度神经网络的鲁棒性和公平性。
  • Conclusion: 研究强调了建模视觉属性分布的重要性,并为长尾图像分类任务提供了可扩展的解决方案。

[42] Toward Rich Video Human-Motion2D Generation

Ruihao Xi,Xuekuan Wang,Yongcheng Li,Shuhua Li,Zichen Wang,Yiwei Wang,Feng Wei,Cairong Zhao

Main category: cs.CV

TL;DR: 论文提出了一种基于扩散模型的2D视频人体运动生成方法(RVHM2D),并引入了一个大规模数据集(Motion2D-Video-150K),用于解决多角色交互动作生成的挑战。

  • Motivation: 由于数据稀缺和人际动态建模的复杂性,生成真实且可控的多角色交互动作仍具挑战性。
  • Method: 1. 构建了包含15万视频序列的数据集Motion2D-Video-150K;2. 提出RVHM2D模型,采用双文本编码器(CLIP-L/B或T5-XXL)增强文本条件机制;3. 采用两阶段训练策略(扩散目标训练和基于FID奖励的强化学习微调)。
  • Result: RVHM2D在Motion2D-Video-150K基准测试中表现领先,能生成单角色和双角色交互动作。
  • Conclusion: RVHM2D通过新数据集和模型设计,有效提升了多角色交互动作的生成质量。

[43] MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models

Hongyu Wang,Jiayu Xu,Ruiping Wang,Yan Feng,Yitao Zhai,Peng Pei,Xunliang Cai,Xilin Chen

Main category: cs.CV

TL;DR: MoTE是一种高效的多模态混合专家模型训练方法,通过低精度专家减少内存占用,同时保持性能。

  • Motivation: 解决传统混合专家模型因高精度专家导致内存占用高、难以部署在边缘设备的问题。
  • Method: 使用预训练的FFN作为共享专家,训练三元路由专家(参数为{-1, 0, 1}),结合后训练量化。
  • Result: MoTE在相同内存占用下性能优于全精度基线,内存受限时优势更明显。
  • Conclusion: MoTE是一种高效且适用于内存受限设备的多模态混合专家模型训练方法。

[44] Model compression using knowledge distillation with integrated gradients

David E. Hernandez,Jose Chang,Torbjörn E. M. Nordling

Main category: cs.CV

TL;DR: 提出了一种基于集成梯度(IG)的知识蒸馏方法,通过数据增强提升模型压缩效果,显著提高测试准确率并减少推理时间。

  • Motivation: 在资源受限设备上部署深度学习模型需要高效的压缩技术,传统方法在压缩率和准确性之间存在权衡。
  • Method: 使用IG图叠加到输入图像上作为数据增强策略,增强学生对教师模型决策过程的理解。
  • Result: 在CIFAR-10上达到92.6%的测试准确率,压缩比为4.1倍,推理时间从140ms降至13ms。
  • Conclusion: IG增强的知识蒸馏在多种架构和压缩比下均优于传统方法,适合边缘设备部署。

[45] Adapting Lightweight Vision Language Models for Radiological Visual Question Answering

Aditya Shourya,Michel Dumontier,Chang Sun

Main category: cs.CV

TL;DR: 该研究通过微调轻量级视觉语言模型,解决了放射学视觉问答(VQA)中的数据、建模和评估挑战,展示了小模型在适当调优后也能实现稳健性能。

  • Motivation: 放射学VQA面临数据获取困难、图像模式复杂以及缺乏评估工具等问题,研究旨在通过轻量级模型和高效训练流程解决这些挑战。
  • Method: 研究提出了一种从合成问答对生成到多阶段微调的成本效益训练流程,并使用了ROCO v2.0和MedPix v2.0等专业数据集。
  • Result: 尽管模型规模远小于最先进模型(如LLaVA-Med),但在有限训练数据下仍表现出色,并通过轻量级显著性分析工具帮助识别模型失败模式。
  • Conclusion: 研究表明,轻量级模型在适当调优和专用数据支持下,能够有效应对放射学VQA的复杂需求,同时提供了诊断工具以提升模型可靠性。

[46] Dense360: Dense Understanding from Omnidirectional Panoramas

Yikang Zhou,Tao Zhang,Dizhe Zhang,Shunping Ji,Xiangtai Li,Lu Qi

Main category: cs.CV

TL;DR: 该论文提出了一种基于全景图像的多模态大语言模型(MLLM)方法,通过引入ERP-RoPE位置编码方案解决全景图像的空间连续性和信息密度问题,并发布了包含160K全景图像的数据集和首个全景视觉语言理解基准Dense360-Bench。

  • Motivation: 现有MLLM通过有限视场(FOV)视觉输入实现世界理解,但全景图像能提供更完整、紧凑和连续的场景表示,因此需要研究如何利用全景图像实现密集视觉语言理解。
  • Method: 提出ERP-RoPE位置编码方案,专门针对全景图像的等距柱状投影(ERP)设计,解决其空间连续性和信息密度问题。同时发布包含160K全景图像的数据集,标注了密集实体级描述和场景描述。
  • Result: 建立了首个全景视觉语言理解基准Dense360-Bench,为全景环境下的密集视觉语言理解提供了全面框架。
  • Conclusion: 通过ERP-RoPE和Dense360-Bench,论文为全景图像的多模态理解提供了有效解决方案,推动了密集视觉语言理解的发展。

[47] Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection

Zhijing Wan,Zhixiang Wang,Zheng Wang,Xin Xu,Shin'ichi Satoh

Main category: cs.CV

TL;DR: 论文研究了基于基础模型(FMs)的一次性子集选择方法,发现其在细粒度数据集上优于传统信息提取器(IEs),并提出RAM-APL方法进一步提升性能。

  • Motivation: 传统IEs依赖于目标数据集预训练,限制了其通用性。FMs可能克服这一限制,但性能差异尚不明确。
  • Method: 提出RAM-APL方法,利用多个FMs的互补优势,优化细粒度数据集的子集选择。
  • Result: FMs在细粒度数据集上表现优于传统IEs,但在粗粒度数据集上优势减弱。RAM-APL在多个细粒度数据集上达到最优性能。
  • Conclusion: FMs在子集选择中具有潜力,尤其在细粒度数据集上。RAM-APL方法进一步提升了性能,为未来研究提供了方向。

[48] I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs

Yu Qi,Lipeng Gu,Honghua Chen,Liangliang Nan,Mingqiang Wei

Main category: cs.CV

TL;DR: SpeechRefer是一个新的3D视觉定位框架,通过语音信号和对比学习解决语音转文本错误问题,提升现有3DVG模型的性能。

  • Motivation: 现有3D视觉定位方法依赖精确的文本提示,而语音输入因噪音和转录错误导致性能受限。SpeechRefer旨在解决这一问题。
  • Method: SpeechRefer引入语音互补模块和对比互补模块,分别利用语音信号和对比学习减少对错误转录的依赖。
  • Result: 在SpeechRefer和SpeechNr3D数据集上,SpeechRefer显著提升了现有3DVG方法的性能。
  • Conclusion: SpeechRefer通过处理语音输入中的噪音和错误,为3D视觉定位提供了更直观和实用的解决方案。

[49] MOL: Joint Estimation of Micro-Expression, Optical Flow, and Landmark via Transformer-Graph-Style Convolution

Zhiwen Shao,Yifan Cheng,Feiran Li,Yong Zhou,Xuequan Lu,Yuan Xie,Lizhuang Ma

Main category: cs.CV

TL;DR: 提出了一种结合Transformer、图卷积和普通卷积的端到端微表情识别框架,通过F5C块提取局部-全局特征,无需关键帧先验知识,并在多任务学习中提升性能。

  • Motivation: 微表情识别因动作短暂且细微而具有挑战性,现有方法依赖手工特征或小规模数据集,限制了性能。
  • Method: 提出F5C块(全连接卷积和通道对应卷积),结合Transformer和图卷积提取特征,并通过多任务学习(光流估计和面部标志检测)增强微表情识别。
  • Result: 在多个基准测试中优于现有方法,同时适用于光流估计和面部标志检测,并能捕捉与微表情相关的局部肌肉动作。
  • Conclusion: 该框架通过多任务学习和局部-全局特征提取,显著提升了微表情识别的性能,且无需依赖关键帧。

[50] SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks

Zijian Song,Xiaoxin Lin,Qiuming Huang,Guangrun Wang,Liang Lin

Main category: cs.CV

TL;DR: SIRI-Bench是一个评估视觉语言模型(VLMs)空间智能的基准测试,通过视频推理任务测试其空间理解和高级推理能力。

  • Motivation: 当前VLMs在空间智能方面的复杂推理能力缺乏系统性评估,而空间智能对现实世界交互至关重要。
  • Method: 开发了SIRI-Bench,包含近1K视频-问题-答案三元组,结合自动场景生成引擎(利用LLM代理)从数学问题生成真实3D场景。
  • Result: 实验表明,当前最先进的VLMs在SIRI-Bench上表现不佳,突显空间推理的挑战性。
  • Conclusion: 该研究旨在推动VLMs在空间推理和视觉问题解决方面的进步。

[51] VisLanding: Monocular 3D Perception for UAV Safe Landing via Depth-Normal Synergy

Zhuoyue Tan,Boyong He,Yuxiang Ji,Liaoni Wu

Main category: cs.CV

TL;DR: VisLanding是一个基于单目3D感知的无人机安全着陆框架,通过深度-法线协同预测和语义分割技术,显著提高了安全着陆区的识别精度和泛化能力。

  • Motivation: 解决无人机在复杂未知环境中自主着陆的核心挑战。
  • Method: 利用Metric3D V2模型的深度-法线协同预测能力,构建端到端的安全着陆区估计框架,并通过语义分割任务实现。
  • Result: 实验表明,VisLanding在跨域测试中表现出优越的泛化性和鲁棒性,并能通过深度和法线信息估计着陆区面积。
  • Conclusion: VisLanding为无人机安全着陆提供了有效的解决方案,具有实际应用潜力。

[52] Exploring Diffusion with Test-Time Training on Efficient Image Restoration

Rongchang Lu,Tianduo Luo,Yunzhi Zhang,Conghan Yue,Pei Yang,Guibao Liu,Changyang Gu

Main category: cs.CV

TL;DR: DiffRWKVIR提出了一种结合测试时训练和高效扩散的新框架,解决了图像恢复中的特征融合、计算瓶颈和扩散效率问题。

  • Motivation: 图像恢复中存在特征融合不高效、计算瓶颈和扩散过程效率低的问题,需要一种更优的解决方案。
  • Method: 1. Omni-Scale 2D State Evolution实现全局上下文感知;2. Chunk-Optimized Flash Processing加速并行处理;3. Prior-Guided Efficient Diffusion提取紧凑图像先验表示。
  • Result: 在超分辨率和修复任务中,DiffRWKVIR在PSNR、SSIM、LPIPS和效率指标上优于SwinIR、HAT和MambaIR/v2。
  • Conclusion: DiffRWKVIR为高效自适应图像恢复提供了新范式,优化了硬件利用率。

[53] DreamLight: Towards Harmonious and Consistent Image Relighting

Yong Liu,Wenpeng Xiao,Qianqian Wang,Junlin Chen,Shiyin Wang,Yitong Wang,Xinglong Wu,Yansong Tang

Main category: cs.CV

TL;DR: DreamLight是一个通用图像重光照模型,支持基于图像或文本的背景重光照,通过统一输入格式和预训练扩散模型的语义先验生成自然效果。

  • Motivation: 现有研究主要关注基于图像的重光照,且依赖复杂的环境映射或像素级转换,难以实现前景与背景的自然光照交互。
  • Method: 采用统一输入格式,利用预训练扩散模型的语义先验,提出位置引导光适配器(PGLA)和频谱前景修复器(SFF)模块。
  • Result: 实验和用户研究表明,DreamLight在重光照任务中表现优异。
  • Conclusion: DreamLight通过创新模块设计解决了现有方法的局限性,实现了高质量的重光照效果。

[54] Risk Estimation of Knee Osteoarthritis Progression via Predictive Multi-task Modelling from Efficient Diffusion Model using X-ray Images

David Butler,Adrian Hilton,Gustavo Carneiro

Main category: cs.CV

TL;DR: 论文提出了一种可解释的机器学习方法,通过多任务预测模型生成高质量未来图像,用于预测膝关节骨关节炎(OA)进展风险,并定位解剖标志,提升了预测性能和效率。

  • Motivation: 现有机器学习方法在膝关节OA风险预测中缺乏可解释性,且生成未来图像的复杂性高,限制了临床应用。
  • Method: 采用扩散模型在类别条件潜在空间中生成高质量未来图像,结合多任务预测模型分类未来OA严重程度并预测解剖标志。
  • Result: 在Osteoarthritis Initiative数据集上,方法将预测膝关节OA进展的AUC提升至0.71,推理时间减少约9%。
  • Conclusion: 该方法通过可解释的图像生成和多任务预测,显著提升了膝关节OA风险预测的性能和实用性。

[55] Synthetic Data Augmentation for Table Detection: Re-evaluating TableNet's Performance with Automatically Generated Document Images

Krishna Sahukara,Zineddine Bettouche,Andreas Fischer

Main category: cs.CV

TL;DR: 论文提出了一种自动化的LaTeX流程,用于生成具有多样化表格布局的合成数据,以增强真实数据集Marmot,并评估TableNet的性能。

  • Motivation: 手动提取文档中的表格效率低且易出错,需要自动化解决方案。
  • Method: 使用LaTeX生成合成数据,包含多样化的表格布局和对齐的真实掩码,用于训练TableNet。
  • Result: 在合成测试集上,TableNet的像素XOR误差为4.04%(256x256)和4.33%(1024x1024);在Marmot基准测试中为9.18%(256x256)。
  • Conclusion: 合成数据有效减少了人工标注需求,并提升了表格提取的自动化性能。

[56] PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation

Ming Xu,Xu Zhang

Main category: cs.CV

TL;DR: PoseGRAF框架通过双图卷积结构捕捉关节和骨骼的局部依赖关系,并引入跨注意力模块和动态融合模块,显著提升了单目3D姿态估计的准确性。

  • Motivation: 现有方法主要依赖关节位置特征,忽略了骨骼内在的方向和角度相关性,导致在关节遮挡或快速运动时产生不合理的姿态。
  • Method: 构建双图卷积结构处理关节和骨骼图,引入跨注意力模块建模骨骼方向与关节特征的相互依赖,设计动态融合模块自适应整合特征,并改进Transformer编码器生成最终输出。
  • Result: 在Human3.6M和MPI-INF-3DHP数据集上超越现有方法,野外视频评估验证了其泛化能力。
  • Conclusion: PoseGRAF通过结合关节和骨骼特征,有效解决了单目3D姿态估计中的挑战,表现出优越性能。

[57] Align Your Flow: Scaling Continuous-Time Flow Map Distillation

Amirmojtaba Sabour,Sanja Fidler,Karsten Kreis

Main category: cs.CV

TL;DR: 论文提出了一种名为Align Your Flow的流映射模型,通过连续时间目标和新技术改进生成性能,并在图像生成任务中取得领先效果。

  • Motivation: 扩散和流模型虽然先进,但需要多步采样,而一致性模型虽高效但性能随步数增加下降。流映射通过单步连接噪声水平解决这一问题。
  • Method: 提出两种连续时间目标训练流映射,结合自引导和对抗微调技术,提升性能。
  • Result: 在ImageNet 64x64和512x512上实现领先的少步生成效果,文本到图像任务中优于现有非对抗训练方法。
  • Conclusion: 流映射模型在高效生成任务中表现出色,为少步采样提供了新思路。

[58] Unsupervised Imaging Inverse Problems with Diffusion Distribution Matching

Giacomo Meanti,Thomas Ryckeboer,Michael Arbel,Julien Mairal

Main category: cs.CV

TL;DR: 本文提出了一种基于逆问题的图像恢复方法,利用未配对数据集,适用于真实场景中前向模型未知或数据配对困难的情况。

  • Motivation: 传统方法需要完整的前向模型或配对数据,而真实场景中这些条件难以满足。本文旨在解决这一问题。
  • Method: 采用条件流匹配建模退化观测分布,并通过分布匹配损失学习前向模型。
  • Result: 在去模糊和非均匀点扩散函数校准任务中优于单图像盲方法和无监督方法,在盲超分辨率任务中达到先进水平。
  • Conclusion: 该方法在真实应用中(如镜头校准)表现出高效性,显著减少了数据采集需求。

[59] VisText-Mosquito: A Multimodal Dataset and Benchmark for AI-Based Mosquito Breeding Site Detection and Reasoning

Md. Adnanul Islam,Md. Faiyaz Abdullah Sayeedi,Md. Asaduzzaman Shuvo,Muhammad Ziaur Rahman,Shahanur Rahman Bappy,Raiyan Rahman,Swakkhar Shatabda

Main category: cs.CV

TL;DR: VisText-Mosquito是一个多模态数据集,结合视觉和文本数据,用于蚊虫滋生地的自动检测、分割和推理分析。YOLOv9s和YOLOv11n-Seg模型在检测和分割任务中表现优异,BLIP模型在推理生成任务中取得高分。

  • Motivation: 蚊媒疾病是全球重大健康威胁,需通过早期检测和主动控制滋生地来预防爆发。
  • Method: 构建VisText-Mosquito数据集,包含标注图像和自然语言文本,使用YOLO系列模型进行检测和分割,BLIP模型进行推理生成。
  • Result: YOLOv9s检测精度0.92926,mAP@50 0.92891;YOLOv11n-Seg分割精度0.91587,mAP@50 0.79795;BLIP模型BLEU 54.7,BERTScore 0.91,ROUGE-L 0.87。
  • Conclusion: 数据集和模型框架支持“预防胜于治疗”主题,展示了AI在蚊媒疾病风险主动防控中的潜力。

[60] 3DGS-IEval-15K: A Large-scale Image Quality Evaluation Database for 3D Gaussian-Splatting

Yuke Xing,Jiarui Wang,Peizhi Niu,Wenjie Huang,Guangtao Zhai,Yiling Xu

Main category: cs.CV

TL;DR: 3DGS-IEval-15K是首个针对压缩3D高斯泼溅(3DGS)表示的大规模图像质量评估数据集,包含15,200张图像,用于评估不同压缩级别下的感知影响。

  • Motivation: 3DGS在实时渲染中表现优异,但高存储需求限制了其应用。目前缺乏评估压缩算法感知影响的综合框架。
  • Method: 通过6种代表性3DGS算法在10个真实场景中渲染图像,收集60名观众的主观评价数据,并分析场景多样性和MOS分布。
  • Result: 数据集验证了压缩对3DGS图像质量的影响,并建立了包含30种IQA指标的基准。
  • Conclusion: 3DGS-IEval-15K为开发3DGS专用IQA指标提供了基础,并支持研究3DGS特有的视角依赖质量分布模式。

[61] DDS-NAS: Dynamic Data Selection within Neural Architecture Search via On-line Hard Example Mining applied to Image Classification

Matt Poyser,Toby P. Breckon

Main category: cs.CV

TL;DR: 通过动态硬样本挖掘和课程学习框架加速神经架构搜索(NAS)训练,DDS-NAS框架将梯度基NAS策略提速27倍且无性能损失。

  • Motivation: 解决神经架构搜索(NAS)中的可扩展性挑战,通过动态优化训练样本提升效率。
  • Method: 利用自编码器构建图像相似性嵌入,通过kd树结构快速识别最不相似图像,动态重组子数据集用于NAS优化。
  • Result: DDS-NAS框架将训练速度提升27倍,同时保持性能不变,减少训练周期和收敛所需迭代次数。
  • Conclusion: 动态硬样本挖掘和课程学习显著提升NAS训练效率,为大规模应用提供可行解决方案。

[62] Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models

Ling Li,Yao Zhou,Yuxuan Liang,Fugee Tsung,Jiaheng Wei

Main category: cs.CV

TL;DR: 论文提出了一种新的图像地理定位方法GLOBE,通过构建多样性数据集MP16-Reason和优化视觉语言模型的推理能力,显著提升了地理定位的准确性和可解释性。

  • Motivation: 现有地理定位方法多为分类或检索任务,缺乏可解释性;且现有数据集和模型在多样性和推理能力上存在局限。
  • Method: 提出GLOBE方法,包括构建多样性数据集MP16-Reason,并通过任务特定奖励联合优化定位评估和视觉线索推理。
  • Result: GLOBE在多样视觉场景中优于现有开源视觉语言模型,且生成更具洞察力的推理轨迹。
  • Conclusion: GLOBE通过数据多样性和模型优化,显著提升了地理定位任务的性能和可解释性。

[63] FocalClick-XL: Towards Unified and High-quality Interactive Segmentation

Xi Chen,Hengshuang Zhao

Main category: cs.CV

TL;DR: FocalClick-XL通过多阶段策略改进交互式分割,支持多种交互形式并提升细节捕捉能力。

  • Motivation: 现有交互式分割方法支持有限交互形式且难以捕捉细节,需改进。
  • Method: 提出FocalClick-XL,分解任务为元任务(上下文、对象、细节),每个子网独立预训练,并引入提示层编码交互类型。
  • Result: 在点击基准测试中表现最优,支持多种交互形式,并能预测精细alpha遮罩。
  • Conclusion: FocalClick-XL是高效、灵活的交互式分割工具,适用于多种任务。

[64] YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework

Dahang Wan,Rongsheng Lu,Yang Fang,Xianli Lang,Shuangbao Shu,Jingjing Chen,Siyuan Shen,Ting Xu,Zecong Ye

Main category: cs.CV

TL;DR: 论文提出了一种基于YOLOv11的多光谱目标检测框架YOLOv11-RGBT,通过设计六种多光谱融合模式和优化模态权重分配,显著提升了检测性能。

  • Motivation: 多光谱目标检测在提升检测精度和环境适应性方面具有潜力,但现有方法在统一框架、性能与融合策略平衡及模态权重分配上存在不足。
  • Method: 基于YOLOv11框架,设计了六种多光谱融合模式,提出P3中融合策略和多光谱可控微调(MCF)策略。
  • Result: 在LLVIP和FLIR等数据集上表现优异,FLIR数据集上mAP提升3.41%-5.65%,最高达47.61%。
  • Conclusion: YOLOv11-RGBT框架和策略有效提升了多光谱目标检测的性能和鲁棒性。

[65] Iterative Camera-LiDAR Extrinsic Optimization via Surrogate Diffusion

Ni Ou,Zhuo Chen,Xinru Zhang,Junzheng Wang

Main category: cs.CV

TL;DR: 提出了一种基于替代扩散的迭代框架,用于提升相机和LiDAR外参标定方法的性能,无需修改原方法架构。

  • Motivation: 现有端到端标定方法多为单步预测,缺乏迭代优化能力,难以满足高精度需求。
  • Method: 通过替代扩散框架,将初始外参通过去噪过程迭代优化,原标定方法作为替代去噪器。
  • Result: 实验表明,结合扩散模型后,所有标定方法在精度、鲁棒性和稳定性上均优于其他迭代方法和单步方法。
  • Conclusion: 提出的框架能有效提升标定性能,具有通用性和实用性。

[66] DiFuse-Net: RGB and Dual-Pixel Depth Estimation using Window Bi-directional Parallax Attention and Cross-modal Transfer Learning

Kunal Swami,Debtanu Gupta,Amrit Kumar Muduli,Chirag Jaiswal,Pankaj Kumar Bajpai

Main category: cs.CV

TL;DR: DiFuse-Net是一种新型模态解耦网络,用于RGB和双像素(DP)深度估计,通过WBiPAM机制捕捉智能手机相机的小孔径DP差异线索,并结合RGB上下文信息提升深度预测。

  • Motivation: 传统深度传感器在成本、功耗和鲁棒性方面存在局限,而现代相机中普遍的双像素技术提供了一种替代方案。
  • Method: 提出DiFuse-Net,采用WBiPAM机制捕捉DP差异线索,结合RGB编码器提取上下文信息,并通过CmTL机制利用大规模RGB-D数据集。
  • Result: DiFuse-Net在DP和立体基线方法上表现出优越性,并贡献了新的高质量RGB-DP-D数据集DCDP。
  • Conclusion: DiFuse-Net为智能手机相机的深度估计提供了高效解决方案,并通过新数据集和硬件设置推动了领域发展。

[67] Active InSAR monitoring of building damage in Gaza during the Israel-Hamas War

Corey Scher,Jamon Van Den Hoek

Main category: cs.CV

TL;DR: 该论文提出了一种基于合成孔径雷达(SAR)的长期相干变化检测(LT-CCD)方法,用于实时监测2023年以色列-哈马斯战争期间加沙地带的建筑破坏情况。

  • Motivation: 加沙地带在2023年10月7日开始的空袭中遭受了严重的城市破坏,需要一种能够动态监测持续冲突中破坏情况的方法。
  • Method: 使用Sentinel-1的干涉SAR数据,采用LT-CCD方法每周跟踪破坏趋势。
  • Result: 检测到联合国参考数据中92.5%的破坏标签,误报率仅为1.2%。研究发现战争前三个月破坏迅速增加,临时停火期间破坏暂停,随后破坏热点从北部转移到南部。研究结束时,五分之三的建筑(191,263栋)受损或被毁。
  • Conclusion: 该方法成本低、延迟低,为人道主义和新闻组织提供了及时的破坏数据。

[68] SyncTalk++: High-Fidelity and Efficient Synchronized Talking Heads Synthesis Using Gaussian Splatting

Ziqiao Peng,Wentao Hu,Junyuan Ma,Xiangyu Zhu,Xiaomei Zhang,Hao Zhao,Hui Tian,Jun He,Hongyan Liu,Zhaoxin Fan

Main category: cs.CV

TL;DR: SyncTalk++通过动态肖像渲染器和面部同步控制器解决语音驱动视频中的同步问题,提升真实感和渲染速度。

  • Motivation: 语音驱动视频中身份、唇动、表情和头部姿态的同步是创造真实说话头像的关键挑战。
  • Method: 采用高斯散射的动态肖像渲染器保持身份一致性,面部同步控制器对齐唇动与语音,3D混合形状模型重建表情,头部同步稳定器优化姿态。
  • Result: SyncTalk++在同步性和真实感上优于现有方法,渲染速度达101帧/秒。
  • Conclusion: SyncTalk++显著提升语音驱动视频的同步性和真实感,适用于高要求场景。

[69] Cost-Aware Routing for Efficient Text-To-Image Generation

Qinchan,Li,Kenneth Chen,Changyue,Su,Wittawat Jitkrittum,Qi Sun,Patsorn Sangkloy

Main category: cs.CV

TL;DR: 提出了一种根据提示复杂度动态调整计算成本的框架,通过路由选择最优文本到图像生成模型,平衡质量和计算效率。

  • Motivation: 扩散模型生成高质量图像但计算成本高,希望根据提示复杂度动态调整计算资源。
  • Method: 通过自动路由将提示分配到最适合的生成模型(如不同步数的扩散模型或其他独立模型),学习保留高成本选择给复杂提示。
  • Result: 在COCO和DiffusionDB上验证,路由到九个预训练模型后,平均质量高于单独使用任一模型。
  • Conclusion: 该框架成功实现了计算成本与生成质量的最优平衡。

[70] Scaling-Up the Pretraining of the Earth Observation Foundation Model PhilEO to the MajorTOM Dataset

Nikolaos Dionelis,Jente Bosmans,Riccardo Musto,Giancarlo Paoletti,Simone Sarti,Giacomo Cascarano,Casper Fibaek,Luke Camilleri,Bertrand Le Saux,Nicolas Longépé

Main category: cs.CV

TL;DR: 论文提出了一种名为PhilEO的地球观测基础模型,通过在大规模未标记数据集(MajorTOM 23TB和FastTOM 2TB)上进行预训练,并在下游任务中微调,验证了数据集和模型规模扩展的有效性。

  • Motivation: 地球观测卫星生成大量数据,但缺乏标记数据限制了其应用。预训练基础模型可以高效利用未标记数据,减少下游任务对标记数据的需求。
  • Method: 提出PhilEO Geo-Aware U-Net模型,并在MajorTOM和FastTOM数据集上进行预训练。研究了不同参数和架构的模型变体,并在PhilEO Bench上进行微调和性能评估。
  • Result: PhilEO 44M MajorTOM 23TB模型在道路密度回归任务中表现优于其他模型,PhilEO 200M FastTOM在道路密度估计和建筑密度回归任务中表现最佳。
  • Conclusion: 数据集和模型规模的扩展对提升性能至关重要,同时从U-Net CNN过渡到ViT架构也值得研究。

[71] ASCD: Attention-Steerable Contrastive Decoding for Reducing Hallucination in MLLM

Yujun Wang,Jinhe Bi,Yunpu Ma,Soeren Pirk

Main category: cs.CV

TL;DR: 该论文提出了一种基于注意力机制的可控对比解码框架,通过直接干预模型的注意力分布,有效减少多模态大语言模型(MLLM)的幻觉问题。

  • Motivation: 多模态大语言模型(MLLM)常因过度依赖部分线索而产生幻觉,现有方法(如VCD和ICD)虽有效,但其作用机制尚不明确。本文发现这些方法通过改变注意力分布发挥作用,从而提出更直接干预注意力的方法。
  • Method: 提出了一种注意力可控的对比解码框架,直接干预模型的注意力机制,而非仅调整表面层的logits。
  • Result: 实验表明,该方法在多个MLLM架构和不同解码方法中显著减少幻觉,并在POPE、CHAIR和MMHal-Bench等基准测试中提升性能,同时改善了标准VQA任务的表现。
  • Conclusion: 通过直接干预注意力机制,该方法为减少MLLM幻觉提供了更原则性的解决方案,并在多个任务中验证了其有效性。

[72] CDP: Towards Robust Autoregressive Visuomotor Policy Learning via Causal Diffusion

Jiahua Ma,Yiran Qin,Yixiong Li,Xuanqi Liao,Yulan Guo,Ruimao Zhang

Main category: cs.CV

TL;DR: CDP是一种基于Transformer的扩散模型,通过利用历史动作序列提升动作预测的连贯性和上下文感知能力,解决了硬件限制和数据质量下降的问题。

  • Motivation: 硬件限制和数据质量下降导致机器人从专家演示中学习的效果降低,影响任务执行。
  • Method: 提出Causal Diffusion Policy(CDP),基于Transformer的扩散模型,利用历史动作序列和缓存机制减少计算冗余。
  • Result: 在模拟和真实环境中,CDP在多种任务中表现优于现有方法,且在输入质量下降时仍保持高精度。
  • Conclusion: CDP通过时间连续性推理,在现实不完美条件下展现出强大的鲁棒性,适用于机器人控制。

eess.IV

[73] BraTS orchestrator : Democratizing and Disseminating state-of-the-art brain tumor image analysis

Florian Kofler,Marcel Rosier,Mehdi Astaraki,Ujjwal Baid,Hendrik Möller,Josef A. Buchner,Felix Steinbauer,Eva Oswald,Ezequiel de la Rosa,Ivan Ezhov,Constantin von See,Jan Kirschke,Anton Schmick,Sarthak Pati,Akis Linardos,Carla Pitarch,Sanyukta Adap,Jeffrey Rudie,Maria Correia de Verdier,Rachit Saluja,Evan Calabrese,Dominic LaBella,Mariam Aboian,Ahmed W. Moawad,Nazanin Maleki,Udunna Anazodo,Maruf Adewole,Marius George Linguraru,Anahita Fathi Kazerooni,Zhifan Jiang,Gian Marco Conte,Hongwei Li,Juan Eugenio Iglesias,Spyridon Bakas,Benedikt Wiestler,Marie Piraud,Bjoern Menze

Main category: eess.IV

TL;DR: BraTS orchestrator是一个开源Python工具包,旨在简化BraTS挑战赛中先进脑肿瘤分割和合成算法的使用,促进其在科研和临床中的普及。

  • Motivation: 尽管BraTS挑战赛在脑肿瘤图像分析方面取得了显著进展,但其算法和模型在科学和临床领域的应用仍然有限。为了加速这些技术的传播,开发了BraTS orchestrator。
  • Method: BraTS orchestrator是一个开源Python包,提供直观的教程,使用户能够轻松部署BraTS挑战赛中的优胜算法。
  • Result: 该工具包简化了现代深度学习的复杂性,使更广泛的神经放射学和神经肿瘤学用户能够轻松使用这些先进技术。
  • Conclusion: BraTS orchestrator通过开源和易用性设计,成功推动了BraTS社区专业知识在更广泛领域的应用。

[74] Reliable Noninvasive Glucose Sensing via CNN-Based Spectroscopy

El Arbi Belfarsi,Henry Flores,Maria Valero

Main category: eess.IV

TL;DR: 提出了一种基于短波红外光谱的双模态AI框架,结合CNN和光电压传感器,用于无创血糖监测。

  • Motivation: 开发一种临床准确、成本高效且可穿戴的无创血糖监测解决方案。
  • Method: 使用多波长SWIR成像系统与CNN捕捉空间特征,以及光电压传感器与机器学习回归器分析光学信号。
  • Result: CNN在650 nm波长下MAPE为4.82%,光电压系统Zone A准确率为86.4%。
  • Conclusion: 该框架为无创血糖监测提供了先进解决方案,兼具临床准确性和可穿戴性。

[75] Latent Anomaly Detection: Masked VQ-GAN for Unsupervised Segmentation in Medical CBCT

Pengwei Wang

Main category: eess.IV

TL;DR: 本文提出了一种无监督训练方法,用于自动识别ONJ影像中的异常,通过两阶段训练流程实现,减少了手动标注的负担。

  • Motivation: 由于ONJ影像中标记数据的稀缺,监督训练不切实际,因此需要开发无监督方法。
  • Method: 采用两阶段训练流程:第一阶段训练VQ-GAN重建正常数据;第二阶段通过随机和ONJ特定掩码训练新编码器。
  • Result: 方法在模拟和真实患者数据上均实现了成功分割。
  • Conclusion: 该方法提供了快速初始分割方案,并有望直接用于3D打印。

[76] orGAN: A Synthetic Data Augmentation Pipeline for Simultaneous Generation of Surgical Images and Ground Truth Labels

Niran Nataraj,Maina Sogabe,Kenji Kawashima

Main category: eess.IV

TL;DR: orGAN是一个基于GAN的系统,用于生成高保真、带注释的手术出血图像,解决了医学影像中数据多样性不足、伦理问题和标注成本高的挑战。

  • Motivation: 手术中出血检测和定位因高质量数据集稀缺而困难,传统方法面临伦理和成本问题。
  • Method: 利用小规模“模拟器官”数据集,结合StyleGAN和Relational Positional Learning生成逼真出血图像,并通过LaMa修复模块提供精确标注。
  • Result: 合成与真实图像混合的数据集在手术场景中达到90%检测准确率和99%帧级准确率。
  • Conclusion: orGAN为手术AI提供了伦理合规、高效且低成本的标注数据集生成方案。

[77] BRISC: Annotated Dataset for Brain Tumor Segmentation and Classification with Swin-HAFNet

Amirreza Fateh,Yasin Rezvani,Sara Moayedi,Sadjad Rezvani,Fatemeh Fateh,Mansoor Fateh

Main category: eess.IV

TL;DR: 论文介绍了一个新的MRI数据集,用于脑肿瘤分割和分类任务,包含6000个标注样本,并提出了基于Transformer的分割模型,取得了82.3%的加权平均IoU。

  • Motivation: 脑肿瘤的准确分割和分类在医学图像分析中仍具挑战性,主要由于缺乏高质量、平衡且多样化的数据集。
  • Method: 提出了一个包含6000个标注MRI扫描的新数据集,并开发了一个基于Transformer的分割模型。
  • Result: 模型在加权平均IoU上达到82.3%,在所有肿瘤类别中均有提升。
  • Conclusion: 该数据集为神经肿瘤学的机器学习应用提供了宝贵资源,支持学术研究和临床决策支持系统的开发。

[78] Compressed Video Super-Resolution based on Hierarchical Encoding

Yuxuan Jiang,Siyue Teng,Qiang Zhu,Chen Feng,Chengxi Zeng,Fan Zhang,Shuyuan Zhu,Bing Zeng,David Bull

Main category: eess.IV

TL;DR: 本文提出了一种通用视频超分辨率方法VSR-HE,专注于提升压缩内容的感知质量,通过分层编码变换块消除压缩伪影,并在多种压缩设置下训练和评估。

  • Motivation: 针对高压缩场景,提升低分辨率视频的感知质量,消除H.265/HEVC编码引入的压缩伪影。
  • Method: 采用分层编码变换块,优化模型以消除多种量化参数下的压缩伪影,支持从180p到720p或270p到1080p的超分辨率。
  • Result: 模型在多种压缩设置下表现稳健,能有效恢复细节并保持视觉保真度。
  • Conclusion: VSR-HE方法在视频超分辨率任务中表现出色,已提交至ICME 2025挑战赛。

[79] A large-scale heterogeneous 3D magnetic resonance brain imaging dataset for self-supervised learning

Asbjørn Munk,Stefano Cerri,Jakob Ambsdorf,Julia Machnio,Sebastian Nørgaard Llambias,Vardan Nersesjan,Christian Hedeager Krag,Peirong Liu,Pablo Rocamora García,Mostafa Mehdipour Ghazi,Mikael Boesen,Michael Eriksen Benros,Juan Eugenio Iglesias,Mads Nielsen

Main category: eess.IV

TL;DR: FOMO60K是一个包含60,529个脑部MRI扫描的大规模异构数据集,旨在支持医学影像中自监督学习方法的开发和基准测试。

  • Motivation: 提供大规模、多样化的脑部MRI数据集,以降低新用户的入门门槛,并推动医学影像中自监督学习的发展。
  • Method: 数据集整合了16个公开来源的临床和研究级图像,进行了最小预处理以保留原始特征,并提供了自监督预训练和微调的代码。
  • Result: 数据集包含多种MRI序列和广泛的解剖及病理变异性,适用于大规模研究。
  • Conclusion: FOMO60K为医学影像的自监督学习提供了重要的资源和工具。

[80] Towards Reliable WMH Segmentation under Domain Shift: An Application Study using Maximum Entropy Regularization to Improve Uncertainty Estimation

Franco Matzkin,Agostina Larrazabal,Diego H Milone,Jose Dolz,Enzo Ferrante

Main category: eess.IV

TL;DR: 研究提出最大熵正则化技术,用于改善白质高信号(WMH)分割模型的校准和不确定性估计,以应对MRI数据域偏移问题。

  • Motivation: 白质高信号(WMH)的准确分割对临床决策至关重要,但MRI机器类型或采集参数的差异(域偏移)对模型校准和不确定性估计带来挑战。
  • Method: 采用U-Net架构,结合最大熵正则化技术,评估其在两个公开数据集上的表现,使用Dice系数、预期校准误差和基于熵的不确定性估计。
  • Result: 基于熵的不确定性估计能预测分割错误,最大熵正则化增强了不确定性与分割性能的相关性,并改善了域偏移下的模型校准。
  • Conclusion: 最大熵正则化技术能有效提升WMH分割模型在域偏移下的校准和不确定性估计能力。

[81] Integrating Radiomics with Deep Learning Enhances Multiple Sclerosis Lesion Delineation

Nadezhda Alsahanova,Pavel Bartenev,Maksim Sharaev,Milos Ljubisavljevic,Taleb Al. Mansoori,Yauhen Statsenko

Main category: eess.IV

TL;DR: 该研究通过结合放射组学特征和原始影像数据,提升了多发性硬化症(MS)病灶分割的准确性和稳定性。

  • Motivation: 当前深度学习方法在MS病灶分割中存在鲁棒性问题,研究旨在通过数据融合和深度学习技术改进分割性能。
  • Method: 提出新的放射组学特征(浓度率和Rényi熵),并将其与原始影像数据融合,采用ResNeXt-UNet和注意力增强U-Net架构进行实验。
  • Result: 融合放射组学的ResNeXt-UNet显著提升了分割精度和敏感性(Dice得分0.774±0.05),注意力增强U-Net则表现出更高的模型稳定性。
  • Conclusion: 放射组学与影像数据的融合能够显著提升分割性能和模型稳定性。

[82] Plug-and-Play with 2.5D Artifact Reduction Prior for Fast and Accurate Industrial Computed Tomography Reconstruction

Haley Duba-Sullivan,Aniket Pramanik,Venkatakrishnan Singanallur,Amirkoushyar Ziabari

Main category: eess.IV

TL;DR: 提出了一种基于2.5D CNN的PnP重建方法,用于稀疏视图XCT扫描,通过利用相邻切片信息提升重建质量,并直接抑制常见伪影。

  • Motivation: 传统2D CNN在XCT重建中仅能捕捉切片独立信息,限制了性能,而2.5D CNN能利用相邻切片信息,提升重建质量。
  • Method: 采用2.5D CNN作为先验,结合PnP框架,直接抑制XCT伪影(如射束硬化),无需预处理。
  • Result: 实验表明,2.5D方法在保留细微结构(如孔隙大小和形状)和缺陷检测方面优于2D方法,且能跨域泛化。
  • Conclusion: 2.5D PnP方法显著提升了稀疏视图XCT的重建质量,同时减少了伪影,具有实际应用潜力。

cs.CR

[83] Busting the Paper Ballot: Voting Meets Adversarial Machine Learning

Kaleel Mahmood,Caleb Manicke,Ethan Rathbun,Aayushi Verma,Sohaib Ahmad,Nicholas Stamatakis,Laurent Michel,Benjamin Fuller

Main category: cs.CR

TL;DR: 论文探讨了在美国选举计票器中使用机器学习分类器的安全风险,通过新数据集和多种模型测试,揭示了传统白盒攻击的局限性,并提出改进方法。

  • Motivation: 研究动机是揭示机器学习分类器在选举计票中的潜在安全风险,尤其是在对抗攻击下的脆弱性。
  • Method: 方法包括引入四个新数据集、训练多种模型(如SVM、CNN、ViT)、分析梯度掩蔽问题,并提出改进的对抗攻击方法。
  • Result: 结果显示传统白盒攻击因梯度掩蔽无效,改进方法在物理攻击中可实现5%成功率,足以影响选举结果。
  • Conclusion: 结论指出选举计票中的机器学习模型易受对抗攻击,需改进安全措施以应对现实威胁。

cs.LG

[84] Enclosing Prototypical Variational Autoencoder for Explainable Out-of-Distribution Detection

Conrad Orglmeister,Erik Bochinski,Volker Eiselein,Elvira Fleig

Main category: cs.LG

TL;DR: 论文提出了一种结合自解释原型变分模型与自编码器的OOD检测方法,通过变分自编码器学习潜在空间,用于分类、OOD检测和重建,并在实际应用中表现优异。

  • Motivation: 提高深度机器学习模型在安全相关应用中的决策透明性和可靠性。
  • Method: 使用变分自编码器学习潜在空间,定义高斯混合分布为ID区域,引入限制损失以压缩ID区域,同时保持其解释性。
  • Result: 在OOD检测基准和实际铁路数据集上表现优于现有方法。
  • Conclusion: 该方法通过结合原型解释性和OOD检测能力,提升了模型的可信度和实用性。

[85] Train Once, Forget Precisely: Anchored Optimization for Efficient Post-Hoc Unlearning

Prabhav Sanga,Jaskaran Singh,Arun K. Dubey

Main category: cs.LG

TL;DR: FAMR是一种高效的后处理遗忘框架,用于深度图像分类器,通过约束优化实现选择性遗忘,同时保留模型性能。

  • Motivation: 随着机器学习系统越来越多地依赖受隐私法规约束的数据,选择性遗忘特定信息变得至关重要。
  • Method: FAMR将遗忘问题转化为约束优化问题,最小化遗忘集上的均匀预测损失,并通过ℓ2惩罚锚定模型参数。
  • Result: 在CIFAR-10和ImageNet-100上的实验表明,FAMR在保留性能的同时实现了高效遗忘。
  • Conclusion: FAMR为视觉模型提供了一种可扩展且可验证的高效后处理遗忘方法。

[86] Towards Desiderata-Driven Design of Visual Counterfactual Explainers

Sidney Bender,Jan Herrmann,Klaus-Robert Müller,Grégoire Montavon

Main category: cs.LG

TL;DR: 本文提出了一种新的视觉反事实解释方法(SCE),旨在弥补现有方法在解释的全面性(如保真度、可理解性和充分性)上的不足。

  • Motivation: 现有视觉反事实解释器(VCEs)过于关注样本质量或最小变化,忽略了解释的全面性需求。
  • Method: 探索新的反事实生成机制,并整合为‘平滑反事实探索器’(SCE)算法。
  • Result: 通过合成和真实数据的系统评估验证了SCE的有效性。
  • Conclusion: SCE算法能够更好地满足解释的全面性需求,提升图像分类器的透明度。

physics.optics

[87] MobileHolo: A Lightweight Complex-Valued Deformable CNN for High-Quality Computer-Generated Hologram

Xie Shuyang,Zhou Jie,Xu Bo,Wang Jun,Xu Renjing

Main category: physics.optics

TL;DR: 论文提出了一种基于深度学习的计算机生成全息图(CGH)方法,通过设计复数可变形卷积网络,动态调整卷积核形状以提升有效感受野(ERF)的灵活性,从而在模拟和光学实验中实现最佳性能。

  • Motivation: 全息显示在虚拟现实和增强现实中具有重要潜力,但现有方法因有效感受野不足而难以准确建模衍射过程。
  • Method: 设计复数可变形卷积网络,动态调整卷积核形状以增强特征提取能力。
  • Result: 在1920×1072分辨率下,峰值信噪比分别比CCNN-CGH、HoloNet和Holo-encoder高2.04 dB、5.31 dB和9.71 dB,且模型参数仅为CCNN-CGH的八分之一。
  • Conclusion: 该方法通过提升ERF灵活性,实现了单模型下的最优性能,为全息显示提供了高效解决方案。

cs.GR

[88] ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jinyan Yuan,Bangbang Yang,Keke Wang,Panwang Pan,Lin Ma,Xuehai Zhang,Xiao Liu,Zhaopeng Cui,Yuewen Ma

Main category: cs.GR

TL;DR: ImmerseGen提出了一种基于代理引导的轻量级3D场景建模框架,通过分层几何代理和RGBA纹理合成实现高效且逼真的VR场景生成。

  • Motivation: 现有3D场景建模方法依赖复杂的高多边形网格或大规模3D高斯模型,导致流程复杂或视觉真实感不足。ImmerseGen旨在简化建模流程并提升视觉质量。
  • Method: 采用分层几何代理(简化地形和广告牌网格)和RGBA纹理合成,结合地形条件纹理和VLM代理实现自动化场景生成。
  • Result: 实验表明,ImmerseGen在逼真度、空间一致性和渲染效率上优于现有方法。
  • Conclusion: ImmerseGen通过轻量级代理和纹理合成,实现了高效且逼真的VR场景建模,适用于移动VR设备。

cs.DC

[89] Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse

Jinwoo Hwang,Daeun Kim,Sangyeop Lee,Yoonsung Kim,Guseul Heo,Hojoon Kim,Yunseok Jeong,Tadiwos Meaza,Eunhyeok Park,Jeongseob Ahn,Jongse Park

Main category: cs.DC

TL;DR: Déjà Vu是一个视频语言查询引擎,通过重用连续帧的计算加速ViT-based VideoLMs,显著提升大规模视频分析的实用性。

  • Motivation: 现有VideoLMs在处理大规模视频时因需逐帧计算ViT嵌入而面临性能瓶颈,亟需解决方案。
  • Method: 提出ReuseViT,改进ViT模型以检测帧间重用机会,结合内存-计算联合压缩技术实现性能提升。
  • Result: 在三个VideoLM任务中,Déjà Vu将嵌入生成速度提升至2.64倍,误差控制在2%以内。
  • Conclusion: Déjà Vu通过计算重用和优化技术,显著提升了VideoLMs在大规模视频分析中的实用性。

cs.RO

[90] GAF: Gaussian Action Field as a Dvnamic World Model for Robotic Mlanipulation

Ying Chai,Litao Deng,Ruizhi Shao,Jiajun Zhang,Liangjun Xing,Hongwen Zhang,Yebin Liu

Main category: cs.RO

TL;DR: 提出了一种基于4D高斯动作场(GAF)的V-4D-A框架,用于从动态场景中直接推理机器人动作,显著提升了重建质量和任务成功率。

  • Motivation: 现有方法(V-A或V-3D-A)在复杂动态场景中动作推理不准确,需要一种更高效的动作推理框架。
  • Method: 通过扩展3D高斯泼溅(3DGS)引入可学习运动属性,构建GAF,支持场景重建、未来帧预测和初始动作估计,并结合扩散模型优化动作。
  • Result: GAF在重建质量上提升11.5385 dB PSNR和-0.5574 LPIPS,机器人任务成功率提高10.33%。
  • Conclusion: GAF框架通过4D动态建模显著提升了动作推理的准确性和任务性能。

[91] AMPLIFY: Actionless Motion Priors for Robot Learning from Videos

Jeremy A. Collins,Loránd Cheng,Kunal Aneja,Albert Wilcox,Benjamin Joffe,Animesh Garg

Main category: cs.RO

TL;DR: AMPLIFY框架利用大规模无动作视频数据,通过关键点轨迹生成紧凑的运动标记,分离视觉运动预测与动作推断,显著提升机器人策略学习效果。

  • Motivation: 机器人动作标记数据稀缺且昂贵,而无动作视频数据丰富但难以转化为有效策略,因此需要一种新方法利用异构数据。
  • Method: AMPLIFY通过关键点轨迹生成运动标记,分别训练前向动力学模型(无动作视频)和逆向动力学模型(少量标记数据),实现模块化学习。
  • Result: 动力学模型准确性显著提升(MSE提高3.7倍,像素预测精度提高2.5倍),下游策略学习效果提升1.2-2.2倍,并能从零数据泛化到LIBERO任务。
  • Conclusion: AMPLIFY展示了利用异构数据构建高效、通用世界模型的新范式,适用于机器人控制及其他领域。

[92] GAMORA: A Gesture Articulated Meta Operative Robotic Arm for Hazardous Material Handling in Containment-Level Environments

Farha Abdul Wasay,Mohammed Abdul Rahman,Hania Ghouse

Main category: cs.RO

TL;DR: GAMORA是一种基于VR的机器人系统,用于高风险的实验室环境,通过手势控制实现远程操作,提高安全性和精确度。

  • Motivation: 随着生物危害复杂性的增加,减少人类直接暴露并保持操作精确性变得至关重要。
  • Method: 系统结合Oculus Quest 2、NVIDIA Jetson Nano和ROS,提供实时沉浸式控制、数字孪生模拟和逆运动学操作。
  • Result: GAMORA实现了2.2毫米的平均位置误差、0.2毫升的移液精度和1.2毫米的重复性,并降低了50%的能耗。
  • Conclusion: GAMORA为高风险实验室任务提供了一种可扩展、沉浸式的解决方案,提高了生物安全性和操作效率。

cs.CL

[93] VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training

Jipeng Zhang,Kehao Miao,Renjie Pi,Zhaowei Wang,Runtao Liu,Rui Pan,Tong Zhang

Main category: cs.CL

TL;DR: 本文提出了一种迭代训练框架,通过结合视觉专家、思维链(CoT)和基于边缘的拒绝采样,解决了视觉语言奖励模型(VL-RM)训练中的自举困境和模态偏差问题,显著提升了幻觉检测和多模态推理性能。

  • Motivation: 视觉语言奖励模型(VL-RM)在训练过程中面临自举困境和模态偏差问题,导致生成的偏好数据存在缺陷,进一步误导训练。
  • Method: 提出了一种迭代训练框架,结合视觉专家、思维链(CoT)和基于边缘的拒绝采样,优化偏好数据集并增强结构化批判。
  • Result: 实验表明,该方法在幻觉检测和多模态推理任务中表现优异。
  • Conclusion: 该框架有效提升了视觉语言模型的强化学习对齐能力。