Skip to content
每日arXiv - 2025年9月8日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Facial Emotion Recognition does not detect feeling unsafe in automated driving

Abel van Elburg,Konstantinos Gkentsidis,Mathieu Sarrazin,Sarah Barendswaard,Varun Kotian,Riender Happee

Main category: cs.CV

TL;DR: 这篇论文通过驾驶模拟器实验研究了自动驾驶车的风险感知,发现车辆运动咈胆电导可以预测主观风险感知,而面部表情识别方法不可靠。

  • Motivation: 研究自动驾驶车的风险感知对公众接受度的重要影响,需要寻找可靠的客观风险评估方法。
  • Method: 使用32名参与者进行驾驶模拟器实验,收集主观舒适度评分、车辆运动、面部表情、胆电导、心率咈眼动迹数据,并使用神经网络模型进行分析。
  • Result: 动态驾驶风格导致更强的不舒适感,跨越行人会加剧风险感知。面部表情识别不可靠(仅9/24参与者有可检测反应,其中8人显示快乐表情)。车辆运动咈胆电导模型与主观风险感知呈现良好相关性。
  • Conclusion: 车辆运动咈胆电导可以作为客观风险感知评估的有效方法,减少主观偏差,面部表情识别在自动驾驶风险评估中效果有限。

[2] PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting

Linqing Wang,Ximing Xing,Yiji Cheng,Zhiyuan Zhao,Jiale Tao,Qixun Wang,Ruihuang Li,Xin Li,Mingrui Wu,Xinchi Deng,Chunyu Wang,Qinglin Lu

Main category: cs.CV

TL;DR: PromptEnhancer是一个通用的提示词重写框架,通过强化学习训练思维链重写器,显著提升文本到图像生成模型对复杂提示词的理解能力,无需修改模型权重。

  • Motivation: 现有的文本到图像扩散模型在处理复杂用户提示时经常出现属性绑定、否定和组合关系方面的失败,导致用户意图与生成结果不匹配。
  • Method: 通过强化学习训练思维链重写器,使用专门的AlignEvaluator奖励模型提供细粒度反馈,该奖励模型基于24个关键点的系统分类法。
  • Result: 在HunyuanImage 2.1模型上的广泛实验表明,PromptEnhancer在广泛的语义和组合挑战中显著提高了图像-文本对齐度。
  • Conclusion: 该框架成功解决了T2I模型对复杂提示词理解不足的问题,并引入了新的人类偏好基准来促进未来研究。

[3] Skywork UniPic 2.0: Building Kontext Model with Online RL for Unified Multimodal Model

Hongyang Wei,Baixin Xu,Hongbo Liu,Cyrus Wu,Jie Liu,Yi Peng,Peiyu Wang,Zexiang Liu,Jingwen He,Yidan Xietian,Chuanxin Tang,Zidong Wang,Yichen Wei,Liang Hu,Boyi Jiang,William Li,Ying He,Yang Liu,Xuchen Song,Eric Li,Yahui Zhou

Main category: cs.CV

TL;DR: UniPic2-SD3.5M-Kontext是一个2B参数的DiT模型,通过架构改进和大规模预训练,结合创新的渐进式双任务强化策略,在图像生成和编辑任务上超越了更大参数量的模型,并扩展到统一的多模态框架。

  • Motivation: 现有开源多模态模型过于注重参数规模扩展而忽视训练策略优化,限制了效率和性能。需要开发更高效的训练方法来提升图像生成和编辑能力。
  • Method: 基于SD3.5-Medium进行架构修改,大规模高质量数据预训练,提出渐进式双任务强化策略(PDTR)分阶段增强指令跟随和编辑一致性,最后通过连接器与Qwen2.5-VL-7B联合训练构建统一多模态模型。
  • Result: 模型在图像生成和编辑能力上超越了参数更大的BAGEL(7B)和Flux-Kontext(12B)模型,构建的UniPic2-Metaquery在多任务上达到顶级性能。
  • Conclusion: 提出的训练范式Skywork UniPic 2.0被证明是有效且可推广的,能够以相对较小的参数量实现强大的多模态理解、生成和编辑能力。

[4] Inpaint4Drag: Repurposing Inpainting Models for Drag-Based Image Editing via Bidirectional Warping

Jingyi Lu,Kai Han

Main category: cs.CV

TL;DR: Inpaint4Drag是一个基于像素空间双向变形和图像修复的实时拖拽编辑框架,通过将图像区域视为可变形材料来实现精确控制和实时预览

  • Motivation: 现有基于生成模型潜在空间的拖拽编辑方法存在精度有限、反馈延迟和模型特定约束等问题,需要更直接高效的像素级编辑方案
  • Method: 将拖拽编辑分解为双向变形和图像修复两个步骤,将图像区域视为物理世界中的弹性可变形材料,通过直接转换拖拽输入为标准修复格式
  • Result: 实现512x512分辨率下实时变形预览(0.01秒)和高效修复(0.3秒),相比现有方法需要数分钟每编辑,显著提升交互体验
  • Conclusion: 该方法作为通用适配器可兼容任何修复模型,无需架构修改即可自动继承修复技术的未来改进,在保持实时性能的同时获得卓越的视觉质量和精确控制

[5] DisPatch: Disarming Adversarial Patches in Object Detection with Diffusion Models

Jin Ma,Mohammed Aldeen,Christopher Salas,Feng Luo,Mashrur Chowdhury,Mert Pesé,Long Cheng

Main category: cs.CV

TL;DR: DISPATCH是一个基于扩散模型的物体检测防御框架,采用"再生与修正"策略,通过生成模型消除对抗性补丁攻击效果,同时保持图像完整性。

  • Motivation: 现有的物体检测器容易受到对抗性补丁攻击,这些攻击可以隐藏真实物体或制造虚假物体,造成严重后果。需要一种有效、通用且能抵抗自适应攻击的防御方法。
  • Method: 利用扩散模型的分布内生成能力重新生成整个图像,使其与良性数据对齐,然后通过修正过程识别并用再生后的良性区域替换对抗性区域。该方法无需事先了解补丁信息。
  • Result: 在多个检测器和攻击方法上的实验表明,DISPATCH在隐藏攻击上达到89.3%的最佳mAP.5分数,在非目标创建攻击上将攻击成功率降低至24.8%,且对自适应攻击保持强鲁棒性。
  • Conclusion: DISPATCH是一个实用可靠的物体检测系统防御方法,具有攻击无关性,无需先验知识,在各种攻击场景下都表现出色。

[6] WATCH: World-aware Allied Trajectory and pose reconstruction for Camera and Human

Qijun Ying,Zhongyuan Hu,Rui Zhang,Ronghui Li,Yu Lu,Zijiao Zeng

Main category: cs.CV

TL;DR: WATCH是一个统一的框架,通过解析性航向角分解技术和基于世界模型的相机轨迹整合机制,解决了从单目视频重建全球人体运动时相机方向和位移信息利用不足的问题,在轨迹重建方面达到了最先进性能。

  • Motivation: 从野外单目视频重建全球人体运动在VR、图形和机器人应用中需求日益增长,但面临深度模糊、运动模糊以及相机与人体运动纠缠等挑战。现有以人体运动为中心的方法在利用相机方向信息和整合相机位移线索方面存在不足。
  • Method: 提出WATCH框架:1)解析性航向角分解技术,比现有几何方法更高效和可扩展;2)受世界模型启发的相机轨迹整合机制,有效利用相机位移信息。
  • Result: 在野外基准测试中,WATCH在端到端轨迹重建方面达到了最先进的性能。
  • Conclusion: 该工作证明了联合建模相机-人体运动关系的有效性,为解决相机位移整合这一长期挑战提供了新的见解,代码将公开可用。

[7] Sali4Vid: Saliency-Aware Video Reweighting and Adaptive Caption Retrieval for Dense Video Captioning

MinJu Jeon,Si-Woo Kim,Ye-Chan Kim,HyunGee Kim,Dong-Jin Kim

Main category: cs.CV

TL;DR: Sali4Vid是一个简单有效的显著性感知框架,通过视频重加权和自适应字幕检索来解决密集视频字幕任务中的时间戳监督和场景转换问题,在YouCook2和ViTT数据集上达到SOTA效果。

  • Motivation: 现有端到端密集视频字幕模型存在两个问题:(1)仅对文本应用时间戳监督,将所有视频帧同等对待;(2)从固定大小的视频块中检索字幕,忽略了场景转换。
  • Method: 提出Sali4Vid框架,包含两个核心组件:1)显著性感知视频重加权 - 将时间戳标注转换为基于sigmoid的帧重要性权重;2)基于语义的自适应字幕检索 - 通过帧相似性分割视频以捕捉场景转换并改进字幕检索。
  • Result: 在YouCook2和ViTT数据集上取得了最先进的结果,证明了联合改进视频加权和检索对密集视频字幕任务的益处。
  • Conclusion: Sali4Vid框架通过显著性感知的视频重加权和语义驱动的自适应检索,有效解决了密集视频字幕中的关键挑战,为端到端模型提供了简单而有效的改进方案。

[8] UAV-Based Intelligent Traffic Surveillance System: Real-Time Vehicle Detection, Classification, Tracking, and Behavioral Analysis

Ali Khanpour,Tianyi Wang,Afra Vahidi-Shams,Wim Ectors,Farzam Nakhaie,Amirhossein Taheri,Christian Claudel

Main category: cs.CV

TL;DR: 基于无人机的交通监控系统,通过模板匹配、卡尔曼滤波等技术实现了高精度车辆检测、违章识别和交通分析功能,在200米高空中达到了91.8%检测精度和90.5% F1分数。

  • Motivation: 传统交通监控系统存在覆盖范围有限、适应性差和扩展性低等问题,无法有效应对城市交通拕塞和违章挑战。
  • Method: 采用多角度多规模模板匹配、卡尔曼滤波跟踪和单应映检测技术,结合地理围栏、运动滤波和轨迹偏移分析来识别交通违章行为。
  • Result: 系统在城市环境中达到了91.8%检测精度、90.5% F1分数,跟踪指标MOTA/MOTP分别为92.1%和93.7%,成功识别4种车辆类型和多种违章行为。
  • Conclusion: 该系统具有良好的扩展性、准确性和实用价值,为智慧城市提供了一种不依赖固定基础设施的交通监控解决方案。

[9] VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation

Mustafa Munir,Alex Zhang,Radu Marculescu

Main category: cs.CV

TL;DR: VCMamba是一个新颖的视觉骨干网络,通过结合CNN的局部特征提取能力和多方向Mamba SSM的全局建模能力,在ImageNet-1K分类和ADE20K语义分割任务上取得了优异性能。

  • Motivation: ViT和SSM在捕获全局上下文方面表现出色,但无法像CNN那样有效捕获细粒度局部特征;而CNN虽然具有强大的局部特征归纳偏置,但缺乏transformers和Mamba的全局推理能力。需要一种能够结合两者优势的混合架构。
  • Method: 采用卷积stem和分层结构,早期阶段使用卷积块提取丰富局部特征,后期阶段使用多方向Mamba块高效建模长距离依赖和全局上下文,保持线性复杂度。
  • Result: VCMamba-B在ImageNet-1K上达到82.6% top-1准确率,比PlainMamba-L3高0.3%且参数减少37%;在ADE20K上获得47.1 mIoU,比EfficientFormer-L7高2.0 mIoU且参数减少62%。
  • Conclusion: VCMamba成功整合了CNN和Mamba SSM的优势,在保持线性复杂度的同时实现了优异的特征表示能力,为视觉任务提供了高效的混合架构解决方案。

[10] Guideline-Consistent Segmentation via Multi-Agent Refinement

Vanshika Vats,Ashwani Rathee,James Davis

Main category: cs.CV

TL;DR: 提出多智能体训练免费框架,通过Worker-Supervisor迭代架构协调视觉语言模型,确保语义分割结果严格遵循复杂的文本标注指南

  • Motivation: 现实应用中的语义分割不仅需要准确的分割掩码,还必须严格遵守复杂的文本标注指南。传统方法需要昂贵的任务特定重新训练,而现有的开放词汇分割方法在处理段落级复杂指南时表现不佳
  • Method: 多智能体训练免费框架,包含Worker执行分割、Supervisor根据检索到的指南进行批判、轻量级强化学习停止策略决定循环终止时机,形成迭代精炼架构
  • Result: 在Waymo和ReasonSeg数据集上评估,显著优于最先进的基线方法,展示了强大的泛化能力和指令遵循能力
  • Conclusion: 该方法能够有效解决复杂标注指南的遵循问题,无需重新训练,在保持资源效率的同时确保指南一致性

[11] Domain Adaptation for Different Sensor Configurations in 3D Object Detection

Satoshi Tanaka,Kok Seang Tan,Isamu Yamashita

Main category: cs.CV

TL;DR: 该论文提出两种技术来解决3D物体检测中不同传感器配置的域适应问题:下游微调和部分层微调,通过多数据集训练和选择性层更新来提升跨配置泛化能力。

  • Motivation: 不同自动驾驶车辆平台使用不同的LiDAR传感器配置,导致点云分布差异,使得在一个配置上训练的模型在其他配置上性能下降。现有工作主要关注环境域差距和单一LiDAR内的密度变化,而不同传感器配置间的域差距研究较少。
  • Method: 提出两种技术:1)下游微调 - 在多数据集训练后进行数据集特定的微调;2)部分层微调 - 只更新部分网络层以提高跨配置泛化能力。使用同一地理区域采集的多传感器配置配对数据集进行实验。
  • Result: 实验表明,结合下游微调和部分层微调的联合训练方法,在每个配置上都持续优于简单的联合训练方法。
  • Conclusion: 该研究为3D物体检测模型适应多样化车辆平台提供了实用且可扩展的解决方案,有效解决了不同传感器配置间的域适应问题。

[12] CD-Mamba: Cloud detection with long-range spatial dependency modeling

Tianxiang Xue,Jiayi Zhao,Jingsheng Li,Changlu Chen,Kun Zhan

Main category: cs.CV

TL;DR: 基于卷积神经网络和Mamba状态空间模型的混合方法CD-Mamba,用于遮蓝远感图像中的云层检测,同时抓取短程空间关联和长程大气相似性。

  • Motivation: 远感图像常被云层遮蓝,影响数据完整性和可靠性。云检测需要同时处理短程空间冗余和长程大气相似性。
  • Method: 提出CD-Mamba混合模型,结合卷积操作和Mamba状态空间模型,构建统一的云检测网络。该模型能够同时抓取像素级细节和片段级长程依赖关系。
  • Result: 大量实验验证了CD-Mamba的有效性,表现出超过现有方法的优异性能。
  • Conclusion: CD-Mamba通过整合卷积和Mamba模型的优势,能够在多空间尺度上同时处理像素级交互和片段级依赖关系,显著提高了云检测的准确性。

[13] Exploiting Unlabeled Structures through Task Consistency Training for Versatile Medical Image Segmentation

Shengqian Zhu,Jiafei Wu,Xiaogang Xu,Chengrong Yu,Ying Song,Zhang Yi,Guangjun Li,Junjie Hu

Main category: cs.CV

TL;DR: 提出Task Consistency Training (TCT)框架解决医学图像分割中的类别不平衡问题,无需额外模型,通过一致性约束和过滤策略有效利用未标注解剖结构。

  • Motivation: 医学图像分割中获取所有类别的完整标注不切实际,现有方法存在类别不平衡问题,且伪标签生成需要额外模型并可能导致性能下降。
  • Method: TCT框架包含主分割头和多辅助任务头,通过一致性约束利用未标注数据,采用过滤策略排除低一致性噪声数据,并使用统一辅助不确定性加权损失。
  • Result: 在8个腹部数据集上的广泛实验证明了方法的有效性。
  • Conclusion: TCT框架能够有效解决类别不平衡问题,无需额外模型,在多样临床数据集上表现出色。

[14] Enhancing Self-Driving Segmentation in Adverse Weather Conditions: A Dual Uncertainty-Aware Training Approach to SAM Optimization

Dharsan Ravindran,Kevin Wang,Zhuoyuan Cao,Saleh Abdelrahman,Jeffery Wu

Main category: cs.CV

TL;DR: 该论文提出两种不确定性感知方法来增强SAM和SAM2在恶劣天气条件下的分割性能,通过多步微调和医学图像适配器改进自动驾驶场景的可靠性。

  • Motivation: 现有的视觉基础模型(如SAM和SAM2)在视觉模糊度高的恶劣天气条件下表现不佳,缺乏不确定性量化能力,而自动驾驶等安全关键应用需要更高的可靠性。
  • Method: 1. 为SAM2设计多步微调程序,将不确定性指标直接融入损失函数;2. 将医学图像分割中的不确定性感知适配器(UAT)适配到驾驶场景。
  • Result: 在CamVid、BDD100K和GTA驾驶数据集上的实验表明,UAT-SAM在极端天气下优于标准SAM,而带有不确定性感知损失的SAM2在多样化驾驶场景中实现了性能提升。
  • Conclusion: 显式不确定性建模对于在挑战性环境中进行安全关键自动驾驶具有重要价值,不确定性感知方法能显著提高分割模型在恶劣天气条件下的鲁棒性。

[15] WatchHAR: Real-time On-device Human Activity Recognition System for Smartwatches

Taeyoung Yeon,Vasco Xu,Henry Hoffmann,Karan Ahuja

Main category: cs.CV

TL;DR: WatchHAR是一个完全在智能手表上运行的音频和惯性传感器融合的细粒度人类活动识别系统,通过端到端可训练架构实现了5倍处理速度提升,在25+活动类别上保持90%以上准确率。

  • Motivation: 解决智能手表在无约束环境中进行活动识别时面临的外部数据处理带来的隐私和延迟问题,实现完全在设备上运行的独立活动识别系统。
  • Method: 提出新颖的统一架构,将传感器数据预处理和推理整合到端到端可训练模块中,优化流水线的每个组件以获得复合性能增益。
  • Result: 在智能手表上直接运行时,活动事件检测处理时间为9.3毫秒,多模态活动分类为11.8毫秒,在25+活动类别上准确率超过90%,性能优于最先进模型。
  • Conclusion: 该研究推进了设备端活动识别技术,实现了智能手表作为独立、隐私感知和最小侵入性连续活动跟踪设备的潜力。

[16] MCANet: A Multi-Scale Class-Specific Attention Network for Multi-Label Post-Hurricane Damage Assessment using UAV Imagery

Zhangding Liu,Neda Mohammadi,John E. Taylor

Main category: cs.CV

TL;DR: MCANet是一个用于飓风后无人机图像多标签分类的深度学习框架,通过多尺度特征提取和类别特异性注意力机制,在RescueNet数据集上达到91.75%的mAP,优于多个基准模型。

  • Motivation: 现有的CNN方法难以捕捉多尺度空间特征,且难以区分视觉相似或共现的损坏类型,这限制了飓风后快速准确损坏评估的能力。
  • Method: 提出MCANet框架,使用Res2Net分层主干网络丰富多尺度空间上下文,并采用多头类别特异性残差注意力模块,每个注意力分支关注不同空间粒度,平衡局部细节和全局上下文。
  • Result: 在RescueNet数据集(4,494张无人机图像)上,MCANet达到91.75%的平均精度(mAP),优于ResNet、Res2Net、VGG等基准模型。使用8个注意力头时性能进一步提升至92.35%,对Road Blocked等困难类别的AP提升超过6%。
  • Conclusion: MCANet能够有效定位损坏相关区域,支持可解释性,其输出可为灾后风险制图、应急路由和数字孪生灾害响应提供信息。未来可集成灾害知识图谱和多模态大语言模型以提高适应性。

[17] Dynamic Group Detection using VLM-augmented Temporal Groupness Graph

Kaname Yokoyama,Chihiro Nakatani,Norimichi Ukita

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于VLM的动态人群检测方法,通过全局优化图结构处理视频中变化的人群结构

  • Motivation: 检测复杂人群时,不仅需要本地外观特征,还需要全局场景上下文。以前方法假设视频中人群不变,但实际上人群结构会动态变化
  • Method: 使用组检测增强的VLM提取本地和全局外观特征,通过基于所有帧组性概率的图结构进行全局优化,处理动态变化的人群
  • Result: 在公开数据集上表现超过了最先进的组检测方法
  • Conclusion: 通过结合VLM特征提取和全局优化图结构,该方法能够有效检测视频中动态变化的人群结构

[18] FloodVision: Urban Flood Depth Estimation Using Foundation Vision-Language Models and Domain Knowledge Graph

Zhangding Liu,Neda Mohammadi,John E. Taylor

Main category: cs.CV

TL;DR: FloodVision是一个零样本洪水深度估计框架,结合GPT-4o的视觉语言能力和结构化知识图谱,通过识别参考物体、检索真实高度、估计淹没比例来准确测量洪水深度,在110张图像上达到8.17厘米的平均绝对误差。

  • Motivation: 现有计算机视觉方法在洪水检测中存在精度限制和泛化能力差的问题,主要依赖固定物体检测器和任务特定训练,需要开发能够跨不同洪水场景准确估计深度的通用方法。
  • Method: 结合基础视觉语言模型GPT-4o的语义推理能力和结构化领域知识图谱,动态识别RGB图像中的参考物体,从知识图谱检索验证高度以减少幻觉,估计淹没比例并应用统计异常值过滤计算最终深度值。
  • Result: 在MyCoast New York的110张众包图像上评估,FloodVision实现8.17厘米的平均绝对误差,比GPT-4o基线降低20.5%,优于之前的CNN方法,能够良好泛化到不同场景并近实时运行。
  • Conclusion: FloodVision为零样本洪水深度估计提供了有效解决方案,具有良好的泛化能力和实时性能,适合集成到数字孪生平台和公民报告应用中,增强智慧城市洪水韧性。

[19] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

Bangxiang Lan,Ruobing Xie,Ruixiang Zhao,Xingwu Sun,Zhanhui Kang,Gang Yang,Xirong Li

Main category: cs.CV

TL;DR: 提出PIG方法,通过混合双塔和单塔框架的优势,在文本-视频检索任务中同时实现高效果和高效率。

  • Motivation: 解决现有CLIP-based方法中双塔框架效果差、单塔框架效率低的问题,探索混合框架以兼顾效果和效率。
  • Method: 提出伪查询生成器为每个视频生成伪查询,使视频特征与伪查询文本特征进行细粒度交互,在推理阶段不增加额外开销。
  • Result: 在5个常用基准测试中R@1指标提升1.6%~3.9%,效率与双塔模型相当,接近最先进性能。
  • Conclusion: 混合塔框架成功结合了双塔和单塔方法的优势,在文本-视频检索任务中实现了效果和效率的双重提升。

[20] Comparative Evaluation of Traditional and Deep Learning Feature Matching Algorithms using Chandrayaan-2 Lunar Data

R. Makharia,J. G. Singla,Amitabh,N. Dube,H. Sharma

Main category: cs.CV

TL;DR: 评估五种特征匹配算法在月球多模态图像配准中的性能,发现深度学习算法SuperGlue在精度和速度上表现最佳,传统方法在极区光照条件下性能下降。

  • Motivation: 月球探测需要精确的图像配准来实现表面测绘、资源定位和任务规划,但不同传感器(光学、高光谱、雷达)的数据存在分辨率、光照和传感器畸变差异,配准具有挑战性。
  • Method: 提出预处理流程(地理参考、分辨率对齐、强度归一化、自适应直方图均衡、主成分分析、阴影校正),评估SIFT、ASIFT、AKAZE、RIFT2和SuperGlue五种算法在赤道和极区跨模态图像对上的性能。
  • Result: SuperGlue始终获得最低的均方根误差和最快的运行时间,经典方法如SIFT和AKAZE在赤道附近表现良好但在极区光照下性能下降。
  • Conclusion: 预处理和学习型方法对于在多样化条件下实现鲁棒的月球图像配准至关重要,SuperGlue在跨模态月球图像配准中表现最优。

[21] Toward Accessible Dermatology: Skin Lesion Classification Using Deep Learning Models on Mobile-Acquired Images

Asif Newaz,Masum Mushfiq Ishti,A Z M Ashraful Azam,Asif Ur Rahman Adib

Main category: cs.CV

TL;DR: 这篇论文提出了一种基于Transformer模型的移动设备皮肤病分类方法,在50多种病变类别的数据集上实现了优异性能,并通过Grad-CAM提供可解释性。

  • Motivation: 皮肤病传统诊断方法成本高、复杂且在资源有限场景不可用,而现有的深度学习分类研究多限于皮镜数据集和范围窄病类。
  • Method: 构建了包含50多种皮肤病的移动设备拍摄数据集,评估多种卷积神经网络和Transformer架构,采用Swin Transformer模型,并结合Grad-CAM提高可解释性。
  • Result: Transformer模型特别是Swin Transformer在捕获全局上下文特征方面表现优异,实现了更高的分类性能。
  • Conclusion: 证明了Transformer基础方法在移动皮肤症分类中的潜力,为资源有限环境中的AI辅助皮肤病筛查和早期诊断探索了新路径。

[22] Extracting Uncertainty Estimates from Mixtures of Experts for Semantic Segmentation

Svetlana Pavlitska,Beyza Keskin,Alwin Faßbender,Christian Hubschneider,J. Marius Zöllner

Main category: cs.CV

TL;DR: 该论文提出使用混合专家模型(MoE)从语义分割中提取良好校准的预测不确定性估计,无需修改架构,相比集成方法在OOD数据下表现更好。

  • Motivation: 提高计算机视觉模型(特别是交通场景感知等安全关键应用)的预测不确定性估计准确性和校准质量,增强模型可靠性。
  • Method: 使用混合专家模型,通过门控网络动态加权专家预测,研究三种不确定性提取方法:预测熵、互信息和专家方差,在A2D2和Cityscapes数据集上进行评估。
  • Result: MoE比集成方法产生更可靠的不确定性估计,简单门控机制比复杂类别门控具有更好的路由不确定性校准,增加专家数量可进一步提升不确定性校准。
  • Conclusion: 混合专家模型是获取良好校准预测不确定性估计的有效方法,在安全关键应用中具有实用价值,代码已开源。

[23] Exploring Non-Local Spatial-Angular Correlations with a Hybrid Mamba-Transformer Framework for Light Field Super-Resolution

Haosong Liu,Xiancheng Zhu,Huanqiang Zeng,Jianqing Zhu,Jiuwen Cao,Junhui Hou

Main category: cs.CV

TL;DR: 基于Subspace Simple Scanning策略和双阶段建模的混合Mamba-Transformer框架LFMT,在保持低计算复杂度的同时显著提升光场图超分辨率性能

  • Motivation: 解决当前Mamba方法在光场图超分辨率中多方向扫描策略导致的效率低下和特征提取冗余问题,以及状态空间在保留空间-角度和视差信息方面的局限性
  • Method: 提出Subspace Simple Scanning策略和Subspace Simple Mamba Block;采用双阶段建模策略:阶段I使用Spatial-Angular Residual Subspace Mamba Block进行浅层特征提取,阶段II使用Epipolar Plane Mamba Block和Epipolar Plane Transformer Block的并行结构进行深层精细化
  • Result: LFMT框架在真实和合成光场数据集上都显著超过当前最先进方法,在保持低计算复杂度的同时实现了性能的大幅提升
  • Conclusion: 通过结合Mamba和Transformer优势的混合框架,以及精心设计的子空间扫描策略和双阶段建模方法,成功实现了高效的光场图超分辨率处理

[24] PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination

Ming Dai,Wenxuan Cheng,Jiedong Zhuang,Jiang-jiang Liu,Hongshen Zhao,Zhenhua Feng,Wankou Yang

Main category: cs.CV

TL;DR: PropVG是一个端到端的基于proposal的视觉定位框架,首次将前景目标proposal生成与参考目标理解无缝集成,无需额外检测器,并通过对比学习和多粒度判别提升性能。

  • Motivation: 现有端到端视觉定位方法仅依赖参考目标进行监督,忽略了潜在前景目标的益处,且缺乏多粒度判别能力,在复杂场景中目标识别不够鲁棒。
  • Method: 提出PropVG框架,包含Contrastive-based Refer Scoring (CRS)模块进行句子和词汇级别的对比学习,以及Multi-granularity Target Discrimination (MTD)模块融合对象和语义级别信息。
  • Result: 在gRefCOCO、Ref-ZOM、R-RefCOCO和RefCOCO等多个基准测试上进行了广泛实验,证明了PropVG的有效性。
  • Conclusion: PropVG成功解决了现有方法的局限性,通过集成proposal生成和目标理解,结合对比学习和多粒度判别,显著提升了视觉定位性能。

[25] TemporalFlowViz: Parameter-Aware Visual Analytics for Interpreting Scramjet Combustion Evolution

Yifei Jia,Shiyu Cheng,Yu Dong,Guan Li,Dong Tian,Ruixiao Peng,Xuyi Lu,Yu Wang,Wei Yao,Guihua Shan

Main category: cs.CV

TL;DR: TemporalFlowViz是一个可视化分析工作流和系统,用于支持专家驱动的超燃冲压发动机燃烧模拟中时间流场的聚类、可视化和解释。

  • Motivation: 超燃冲压发动机内复杂燃烧动力学的大规模高维时间流场数据对视觉解释、特征区分和跨案例比较提出了重大挑战。
  • Method: 使用预训练的Vision Transformers提取高维嵌入,应用降维和基于密度的聚类发现潜在燃烧模式,构建时间轨迹跟踪模拟演化,并通过视觉语言模型生成自然语言摘要。
  • Result: 通过两个专家案例研究和专家反馈证明,TemporalFlowViz增强了假设生成,支持可解释模式发现,并促进大规模超燃冲压发动机燃烧分析中的知识发现。
  • Conclusion: TemporalFlowViz工作流有效解决了高维时间流场数据的可视化分析挑战,为燃烧动力学研究提供了强大的分析工具。

[26] Pose-Free 3D Quantitative Phase Imaging of Flowing Cellular Populations

Enze Ye,Wei Lin,Shaochi Ren,Yakun Liu,Xiaoping Li,Hao Wang,He Sun,Feng Pan

Main category: cs.CV

TL;DR: OmniFHT是一个无需姿态信息的3D折射率重建框架,通过傅里叶衍射定理和隐式神经表示,实现了对流动细胞的高通量断层成像,支持任意几何形状和多轴旋转的细胞重建。

  • Motivation: 当前3D定量相位成像方法假设细胞进行均匀单轴旋转且需要已知每帧姿态,这限制了方法对近球形细胞的适用性,无法准确成像具有复杂旋转的不规则形状细胞,只能分析细胞群体的子集。
  • Method: 利用傅里叶衍射定理和隐式神经表示(INRs),在弱散射假设下联合优化每个细胞的未知旋转轨迹和体积结构,支持稀疏采样投影和受限角度覆盖的准确重建。
  • Result: OmniFHT能够从仅10个视图或120度角度范围内产生高保真结果,首次实现了对整个流动细胞群体的原位高通量断层成像。
  • Conclusion: 该方法为流式细胞术平台提供了可扩展且无偏见的无标记形态计量分析解决方案,突破了传统方法的几何形状和旋转限制。

[27] CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

Hannah Schieber,Dominik Frischmann,Simon Boche,Victor Schaack,Angela Schoellig,Stefan Leutenegger,Daniel Roth

Main category: cs.CV

TL;DR: CoRe-GS是一种用于移动自主空中机器人的语义3D高斯重建方法,通过粗粒度语义分割和颜色过滤快速隔离感兴趣对象,将训练时间减少约25%,同时保持高质量的新视角合成效果。

  • Motivation: 移动机器人应用如远程指导和灾难响应需要快速准确的3D重建,但传统方法重建整个场景效率低下。通过专注于特定感兴趣对象(PoIs),可以减少全场景优化的需求,提高重建效率。
  • Method: 首先使用语义高斯溅射生成粗粒度可分割场景,然后通过新颖的基于颜色的有效过滤方法对语义对象进行精炼,实现有效的对象隔离。该方法在完整训练周期完成前即可实现语义3D高斯编辑。
  • Result: 在两个数据集(SCRREAM真实户外和NeRDS 360合成室内)上的评估显示,训练时间比完整语义GS训练周期减少约四分之一,同时获得了更高的新视角合成质量。
  • Conclusion: CoRe-GS方法成功平衡了高质量重建和减少训练时间的需求,通过语义对象优先的重建策略,为移动机器人应用提供了高效的3D重建解决方案。

[28] Cryo-RL: automating prostate cancer cryoablation planning with reinforcement learning

Trixia Simangan,Ahmed Nadeem Abbasi,Yipeng Hu,Shaheer U. Saeed

Main category: cs.CV

TL;DR: Cryo-RL是一个基于强化学习的冷冻消融针放置规划框架,通过模拟临床环境和奖励函数,自动学习最优的冷冻针放置策略,在583例前列腺癌病例中表现优于传统自动化方法,达到专家水平且规划时间大幅减少。

  • Motivation: 当前前列腺癌冷冻消融治疗的手术前规划依赖人工经验,耗时且结果不一致,导致治疗质量参差不齐和可扩展性有限,需要自动化解决方案。
  • Method: 将冷冻消融规划建模为马尔可夫决策过程,在模拟临床约束和术中变异性的环境中,通过强化学习代理顺序选择冷冻针位置和冰球直径,基于肿瘤覆盖率的奖励函数指导学习最优策略。
  • Result: 在583例回顾性前列腺癌病例中,Cryo-RL相比基于几何优化的最佳自动化基线方法,Dice系数提高了8个百分点以上,达到人类专家水平,且规划时间显著减少。
  • Conclusion: 强化学习能够提供临床可行、可重复且高效的冷冻消融规划方案,具有重要的临床应用潜力。

Dominik Pegler,David Steyrl,Mengfan Zhang,Alexander Karner,Jozsef Arato,Frank Scharnowski,Filip Melinscak

Main category: cs.CV

TL;DR: 这篇论文研究了使用预训练计算机视觉模型来预测对蜘蛛图片的恐惧程度,为调整式治疗提供基础。模型在MAE 10.1-11.0范围内准确预测恐惧评分,确认了数据集规模和可解释性的重要性。

  • Motivation: 为了开发适应式计算机化暴露治疗系统,需要能够根据患者反应动态调整视觉刺激物。这需要先验证计算机视觉模型能否准确预测对蜘蛛图片的恐惧程度。
  • Method: 采用转移学习方法,选择三种不同的预训练计算机视觉模型进行调整,以预测人类对标准化的313张蜘蛛图片的恐惧评分(0-100分度)。通过交叉验证评估模型性能,进行学习曲线分析和可解释性评估。
  • Result: 模型在交叉验证中达到平均均方误差(MAE)在10.1到11.0之间。学习曲线分析显示减少数据集规模会显著降低性能,但过大规模也无显著改善。可解释性分析确认模型基于蜘蛛相关特征进行预测,误差分析发现远视图像和人工蜘蛛图片的预测误差更高。
  • Conclusion: 研究证明了可解释性计算机视觉模型在预测恐惧评分方面的潜力,强调了充足的数据集规模和模型可解释性对开发有效情感感知治疗技术的重要性。

[30] SynGen-Vision: Synthetic Data Generation for training industrial vision models

Alpana Dubey,Suma Mani Kuriakose,Nitish Bhardwaj

Main category: cs.CV

TL;DR: 使用视觉语言模型和3D渡染式渲染引擎生成合成的锈边检测数据,训练的模型在实际图像上达到了mAP50 0.87的高性能。

  • Motivation: 工业设备壁薄检测对预测性维护至关重要,但真实数据收集成本高、耗时长,缺乏多种壁薄场景的数据集。
  • Method: 结合视觉语言模型与3D模拟渲染引擎,生成不同锈边条件下的合成数据。
  • Result: 使用合成数据训练的检测模型在实际工业物体图像上表现最佳,mAP50评分达到0.87,超过其他方法。
  • Conclusion: 该方法能够有效解决工业壁薄检测数据缺乏问题,具有可自定义性,可扩展到其他工业壁薄检测场景。

[31] Evaluating Multiple Instance Learning Strategies for Automated Sebocyte Droplet Counting

Maryam Adelipour,Gustavo Carneiro,Jeongkwon Kim

Main category: cs.CV

TL;DR: 一种简单的注意力基础多实例学习框架用于自动化皮腺细胞图像分析,基础MLP模型表现更稳定,注意力MIL需要优化才能发挥潜力

  • Motivation: 手动计数皮腺细胞中的液滴耗时谨主观,需要自动化解决方案来提高效率和准确性
  • Method: 使用Nile Red染色皮腺细胞图像,分为14个类别,通过数据增广扩展到50,000个细胞。比较基础MLP模型和注意力基础MIL模型(使用ResNet-50特征)
  • Result: 基础MLP表现更稳定(平均MAE=5.6),注意力MIL不稳定(平均MAE=10.7)但在某些折叠中更优
  • Conclusion: 简单的集合级聚合方法提供了健壮的基准,注意力MIL需要任务对齐的池化和正则化才能充分发挥潜力

[32] UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

Haowang Cui,Rui Chen,Tao Luo,Rui Li,Jiaze Wang

Main category: cs.CV

TL;DR: UniView通过检索相似物体的参考图像,利用多模态大语言模型选择合适参考,结合多级隔离层和三元注意力机制,显著提升单图像新视角合成的性能

  • Motivation: 解决单图像新视角合成中未观测区域的多义性问题,传统方法基于模糊先验和插值容易导致严重失真
  • Method: 构建检索增强系统,使用MLLM选择参考图像;引入多级隔离层的即插即用适配器模块动态生成参考特征;设计解耦三元注意力机制对齐和整合多分支特征
  • Result: 在挑战性数据集上显著提升新视角合成性能,优于最先进方法
  • Conclusion: UniView通过利用参考图像提供强先验信息,有效解决了单图像视角合成中的失真问题

[33] Efficient Video-to-Audio Generation via Multiple Foundation Models Mapper

Gehui Chen,Guan'an Wang,Xiaowen Huang,Jitao Sang

Main category: cs.CV

TL;DR: MFM-Mapper通过融合双视觉编码器特征和使用GPT-2替代线性映射器,显著提升了视频到音频生成的训练效率和性能,仅需16%的训练量即可达到竞争性效果。

  • Motivation: 现有视频到音频生成方法训练成本高,需要利用基础模型的跨模态知识迁移能力。先前工作通过轻量级映射器连接预训练视觉编码器和文本到音频模型,但仍有改进空间。
  • Method: 提出多基础模型映射器(MFM-Mapper):1)融合双视觉编码器的语义和时序特征;2)用GPT-2替代线性映射器,将跨模态特征映射视为自回归翻译任务。
  • Result: MFM-Mapper训练效率显著提升,仅需先前映射器方法16%的训练量,在语义和时序一致性方面表现更好,与大规模训练模型性能相当。
  • Conclusion: MFM-Mapper通过特征融合和GPT-2映射器设计,有效提升了视频到音频生成的效率和性能,证明了基础模型融合在跨模态任务中的价值。

[34] Dual-Domain Perspective on Degradation-Aware Fusion: A VLM-Guided Robust Infrared and Visible Image Fusion Framework

Tianpei Zhang,Jufeng Zhao,Yiming Zhu,Guangmang Cui

Main category: cs.CV

TL;DR: GD^2Fusion是一个新颖的红外-可见光图像融合框架,通过视觉语言模型进行退化感知,结合频域和空间域的双重优化,有效处理双源退化场景,避免了传统方法需要手动选择预处理步骤的问题。

  • Motivation: 现有的红外-可见光图像融合方法假设输入图像质量高,难以处理双源退化场景,需要手动选择和顺序应用多个预处理步骤,导致误差累积和性能下降。
  • Method: 提出GD^2Fusion框架,包含引导频域模态特定提取模块(GFMSE)进行频域退化感知和抑制,以及引导空间域模态聚合融合模块(GSMAF)进行跨模态退化过滤和自适应多源特征聚合。
  • Result: 大量定性和定量实验表明,GD^2Fusion在双源退化场景下相比现有算法和策略取得了更优的融合性能。
  • Conclusion: GD^2Fusion通过视觉语言模型与双域联合优化的协同整合,有效解决了双源退化场景下的图像融合问题,具有优越的性能表现。

[35] Interpretable Deep Transfer Learning for Breast Ultrasound Cancer Detection: A Multi-Dataset Study

Mohammad Abbadi,Yassine Himeur,Shadi Atalla,Wathiq Mansoor

Main category: cs.CV

TL;DR: 本研究评估了机器学习和深度学习技术在乳腺超声图像癌症分类中的应用,发现ResNet-18达到最高准确率99.7%,深度学习模型优于传统机器学习方法,但传统方法结合深度特征提取也能获得竞争力表现。

  • Motivation: 乳腺癌是全球女性癌症相关死亡的主要原因,超声成像因其安全性和成本效益在早期检测中发挥关键作用,特别是在致密乳腺组织患者中。
  • Method: 使用BUSI、BUS-BRA和BrEaST-Lesions USG数据集,评估传统机器学习模型(SVM、KNN)和深度卷积神经网络(ResNet-18、EfficientNet-B0、GoogLeNet),并采用Grad-CAM可视化提高模型透明度。
  • Result: ResNet-18实现最高准确率99.7%和对恶性病变的完美敏感性。传统ML模型虽然不如CNN,但通过深度特征提取增强后也能获得竞争力表现。
  • Conclusion: 研究结果支持将AI诊断工具整合到临床工作流程中,证明了部署高性能、可解释的超声乳腺癌检测系统的可行性。

[36] A biologically inspired separable learning vision model for real-time traffic object perception in Dark

Hulin Li,Qiliang Ren,Jun Li,Hanbing Wei,Zheng Liu,Linfang Fan

Main category: cs.CV

TL;DR: 提出了Dark-traffic低光交通场景数据集和SLVM生物启发视觉模型,在目标检测、实例分割和光流估计任务上达到SOTA性能

  • Motivation: 解决低光交通场景下物体感知的挑战,现有方法难以快速适应低光环境且缺乏专门的大规模基准数据集
  • Method: SLVM框架包含:光适应瞳孔机制、特征级可分离学习策略、任务特定解耦分支、空间错位感知融合模块
  • Result: 在Dark-traffic数据集上检测性能超过RT-DETR 11.2%,实例分割超过YOLOv12 6.1%,光流误差降低12.37%;在LIS基准上平均超过现有方法11个百分点
  • Conclusion: SLVM在低光交通场景感知中表现出色,计算开销低,Dark-traffic数据集和完整代码已开源

[37] Leveraging Transfer Learning and Mobile-enabled Convolutional Neural Networks for Improved Arabic Handwritten Character Recognition

Mohsine El Khayati,Ayyad Maafiri,Yassine Himeur,Hamzah Ali Alkhazaleh,Shadi Atalla,Wathiq Mansoor

Main category: cs.CV

TL;DR: 这研究通过载体学习与轻量级卷积神经网络结合,在阿拉伯手写字符识别中实现了高精度和效率,MobileNet表现最佳,全层微调策略效果最好。

  • Motivation: 解决阿拉伯手写字符识别中面临的计算资源要求高、数据集稀缺等挑战,通过载体学习与轻量级模型结合提高识别效率和性能。
  • Method: 使用四种轻量级MbNets模型(MobileNet、SqueezeNet、MnasNet、ShuffleNet)在三个标准数据集上评估三种载体学习策略:全层微调、部分微调和从头训练。
  • Result: MobileNet表现最佳,在IFHCDB数据集上达到99%准确率,AHCD数据集达到97%,HIJJA数据集最92%。全层微调策略效果最好,部分微调表现较差。
  • Conclusion: 载体学习与轻量级模型组合为阿拉伯手写字符识别提供了高效解决方案,具有良好的应用前景,未来将继续优化模型结构和数据增强技术。

[38] LUIVITON: Learned Universal Interoperable VIrtual Try-ON

Cong Cao,Xianhang Cheng,Jingyuan Liu,Yujian Zheng,Zhenhui Lin,Meriem Chkir,Hao Li

Main category: cs.CV

TL;DR: LUIVITON是一个端到端的全自动虚拟试穿系统,能够将复杂的多层服装覆盖到多样化的人形角色上,使用SMPL作为代理表示,通过几何学习和扩散模型方法解决服装到身体的对应问题。

  • Motivation: 为了解决复杂服装与任意多样化身体形状对齐的挑战,需要开发一个能够处理复杂几何形状、非流形网格,并能泛化到各种人形角色的自动化虚拟试穿系统。
  • Method: 使用SMPL作为代理表示,将服装到身体的覆盖问题分解为两个对应任务:1)使用基于几何学习的方法处理服装到SMPL的对应;2)使用基于扩散模型的方法处理身体到SMPL的对应,利用多视角一致的外观特征和预训练的2D基础模型。
  • Result: 系统能够处理复杂几何形状,有效泛化到各种人形角色(包括人类、机器人、卡通角色、生物和外星人),保持计算效率,支持服装尺寸和材质的快速定制,无需人工干预即可生成高质量的3D服装适配。
  • Conclusion: LUIVITON提供了一个完全自动化的虚拟试穿解决方案,即使在没有2D服装缝制图案的情况下也能工作,展示了在多样化人形角色上进行高质量3D服装适配的能力。

[39] Towards Efficient Pixel Labeling for Industrial Anomaly Detection and Localization

Jingqi Wu,Hanxi Li,Lin Yuanbo Wu,Hao Chen,Deyin Liu,Peng Wang

Main category: cs.CV

TL;DR: ADClick是一个交互式图像分割算法,通过少量用户点击和文本描述生成像素级异常标注,显著提升工业异常检测模型性能。ADClick-Seg进一步结合视觉特征和文本提示,在多类异常检测任务上达到最先进水平。

  • Motivation: 工业产品检测通常只使用正常样本训练异常检测模型,虽然有缺陷样本但需要像素级标注,限制了可扩展性。需要一种更高效的标注方法来利用缺陷样本。
  • Method: 提出ADClick交互式图像分割算法,通过少量用户点击和简短文本描述生成像素级异常标注。ADClick-Seg采用基于原型的跨模态框架,将视觉特征与文本提示对齐,结合像素级先验和语言引导线索。
  • Result: ADClick在MVTec AD上达到AP=96.1%。ADClick-Seg在多类异常检测任务上取得AP=80.0%、PRO=97.5%、Pixel-AUROC=99.1%的优异结果。
  • Conclusion: ADClick和ADClick-Seg提供了一种高效精确的异常标注方法,显著提升了工业异常检测性能,在多类异常检测任务上达到最先进水平。

[40] Systematic Review and Meta-analysis of AI-driven MRI Motion Artifact Detection and Correction

Mojtaba Safari,Zach Eidex,Richard L. J. Qiu,Matthew Goette,Tonghe Wang,Xiaofeng Yang

Main category: cs.CV

TL;DR: 这篇论文通过系统综述和荟萃分析评估了AI(特别是深度学习生成模型)在检测和校正MRI运动伪影方面的有效性、挑战和未来方向。

  • Motivation: 系统评估AI驱动方法在MRI运动伪影处理中的当前发展状况、效果表现以及存在的挑战,为未来研究提供方向指导。
  • Method: 采用全面的系统综述和荟萃分析方法,重点关注深度学习特别是生成模型在MRI运动伪影检测和校正中的应用,提取数据集、网络架构和性能指标的定量数据。
  • Result: 深度学习特别是生成模型在减少运动伪影和改善图像质量方面显示出潜力,但存在泛化能力有限、依赖配对训练数据和视觉失真风险等关键挑战。
  • Conclusion: AI驱动方法特别是深度学习生成模型在改善MRI图像质量方面具有显著潜力,但需要解决公共数据集缺乏、标准化报告协议和减少对配对数据集依赖等关键挑战,以提升诊断准确性、降低医疗成本并改善患者护理结果。

[41] GeoSplat: A Deep Dive into Geometry-Constrained Gaussian Splatting

Yangming Li,Chaoyu Liu,Lihao Liu,Simon Masnou,Carola-Bibian Schönlieb

Main category: cs.CV

TL;DR: GeoSplat是一个几何约束优化框架,利用一阶和二阶几何先验改进高斯溅射的整个训练流程,包括初始化、梯度更新和密集化,通过曲率初始化等方法显著提升性能

  • Motivation: 现有方法主要使用低阶几何先验(如法向量),且通过噪声敏感方法估计不可靠,需要更鲁棒的几何约束来改进高斯溅射优化
  • Method: 提出GeoSplat框架,利用一阶和二阶几何量,包括基于主曲率初始化高斯尺度、引入高效噪声鲁棒的几何结构估计方法提供动态几何先验
  • Result: 在多个数据集上的新颖视图合成实验中,GeoSplat显著提升了高斯溅射性能,优于之前的基线方法
  • Conclusion: GeoSplat通过引入高阶几何先验和鲁棒估计方法,有效解决了现有几何约束方法的局限性,为高斯溅射优化提供了更可靠的几何指导

[42] Scale-interaction transformer: a hybrid cnn-transformer model for facial beauty prediction

Djamel Eddine Boukhari

Main category: cs.CV

TL;DR: 提出了一种结合CNN和Transformer的混合架构SIT,通过多尺度特征提取和自注意力机制显式建模面部特征间的交互关系,在面部美观度预测任务上取得了新的SOTA效果。

  • Motivation: 传统CNN在处理面部美观度预测时存在固定尺度处理的局限性,无法有效捕捉不同粒度特征间的相互依赖关系。
  • Method: 使用多尺度模块并行卷积提取不同感受野的面部特征,然后将多尺度表示作为序列输入Transformer编码器,通过自注意力机制显式建模特征间的交互和上下文关系。
  • Result: 在SCUT-FBP5500基准数据集上取得了0.9187的皮尔逊相关系数,超越了之前的所有方法。
  • Conclusion: 显式建模多尺度视觉线索之间的相互作用对于高性能面部美观度预测至关重要,CNN-Transformer混合模型在需要整体上下文理解的复杂图像回归任务中具有巨大潜力。

[43] Robust Experts: the Effect of Adversarial Training on CNNs with Sparse Mixture-of-Experts Layers

Svetlana Pavlitska,Haixi Fan,Konstantin Ditschuneit,J. Marius Zöllner

Main category: cs.CV

TL;DR: 使用稀疏专家混合层增强CNN对抗性鲁棒性,在ResNet架构中插入单个MoE层结合对抗训练可提升PGD/AutoPGD攻击下的鲁棒性,发现路由崩溃现象反而使特定专家路径更加鲁棒

  • Motivation: 传统CNN对抗攻击防护方法资源消耗大,需要探索更高效的鲁棒性提升方案
  • Method: 在ResNet架构的深层阶段插入稀疏MoE层替换残差块或卷积层,结合对抗训练,使用switch loss进行专家平衡
  • Result: 单个MoE层插入带来鲁棒性一致提升,路由崩溃导致专家过度使用,反而使特定专家路径获得更强鲁棒性,部分专家个体性能超过门控MoE模型
  • Conclusion: 稀疏MoE层是提升模型鲁棒性的有效方法,路由崩溃现象意外促进了专家专业化,形成了鲁棒子路径

[44] Semi-supervised Deep Transfer for Regression without Domain Alignment

Mainak Biswas,Ambedkar Dukkipati,Devarajan Sridharan

Main category: cs.CV

TL;DR: CRAFT是一个源数据不可用的半监督域适应方法,专门针对回归任务设计,在神经科学数据上比现有方法提升3-9%的性能

  • Motivation: 解决现实应用中源数据无法共享(隐私或计算成本限制)且目标域标注稀缺的挑战,特别是在医学和生物学中的连续值预测问题
  • Method: 基于Contradistinguisher框架,开发了CRAFT方法,用于源数据不可用情况下的半监督迁移学习,不依赖中间表示对齐
  • Result: 在两个神经科学数据集(EEG眼动预测和MRI脑龄预测)上,CRAFT比微调模型提升9% RMSE,比四个最先进的源无关域适应方法提升3%以上
  • Conclusion: CRAFT是生物学和医学中普遍存在的回归任务的高效源无关半监督深度迁移学习方法

[45] A Scalable Attention-Based Approach for Image-to-3D Texture Mapping

Arianna Rampini,Kanika Madan,Bruno Roy,AmirHossein Zamani,Derek Cheung

Main category: cs.CV

TL;DR: 一种基于Transformer的框架,能够从单张图像和网格直接预测3D纹理场,避免UV映射和可微渲染,实现0.2秒每个形状的高保真纹理生成。

  • Motivation: 现有生成方法速度慢、依赖UV地图、且往往无法保持与参考图像的一致性,影响了3D内容创建的质量和效率。
  • Method: 采用Transformer框架,结合三平面表示和基于深度的逆投影损失,直接从单张图像和网格预测3D纹理场。
  • Result: 方法在单张图像纹理重建任务上,在保真度和感知质量方面都超越了最新的基线方法,每个形状只需0.2秒就能生成高保真纹理。
  • Conclusion: 该方法为可扩展、高质量和可控的3D内容创建提供了实用的解决方案,在速度、质量和保真度方面都显著优于现有方法。

[46] SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing

Chaolei Wang,Yang Luo,Jing Du,Siyu Chen,Yiping Chen,Ting Han

Main category: cs.CV

TL;DR: SGS-3D是一个训练免费的3D实例分割精炼框架,通过"先分割后生长"策略,结合语义和几何信息来提升2D到3D提升方法的精度。

  • Motivation: 现有的基于2D到3D提升的3D实例分割方法由于语义指导模糊和深度约束不足,在提升过程中会产生累积误差,导致实例级分割精度不高。
  • Method: 提出"split-then-grow"框架:首先利用几何基元净化和分割模糊的提升掩码,然后在场景中将其生长为完整实例。包括基于3D几何基元共现的掩码过滤策略,以及利用空间连续性和高级特征构建精细对象实例的几何精炼方法。
  • Result: 在ScanNet200、ScanNet++和KITTI-360数据集上的实验表明,SGS-3D显著提高了分割精度和对预训练模型不准确掩码的鲁棒性,在室内外环境中都保持了强大的泛化能力。
  • Conclusion: SGS-3D通过联合融合语义和几何信息,有效解决了2D到3D提升方法中的模糊语义指导和深度约束不足问题,实现了高保真度的3D实例分割。

[47] SL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Ariel Basso Madjoukeng,Jérôme Fink,Pierre Poitier,Edith Belise Kenmogne,Benoit Frenay

Main category: cs.CV

TL;DR: 提出了一种针对手语识别(SLR)的自监督学习框架,通过自由负样本对和新数据增强技术解决对比学习中忽视关键区域和负样本相似度过高的问题,在多个评估任务中取得显著性能提升

  • Motivation: 手语识别面临标注数据稀缺问题,对比学习方法存在两个主要问题:(1)对所有视频区域同等对待,忽视关键信息区域的重要性;(2)不同手语间的共享动作导致负样本过于相似,难以区分
  • Method: 提出包含两个关键组件的自监督学习框架:1)使用自由负样本对的新自监督方法;2)新的数据增强技术,两者协同工作学习有意义的表示
  • Result: 在线性评估、半监督学习和跨手语迁移任务中,相比多种对比学习和自监督方法,该方法在准确率上取得了显著提升
  • Conclusion: 该框架通过解决对比学习在手语识别中的特定问题,成功学习了更具判别性的特征表示,为手语识别任务提供了有效的自监督解决方案

[48] Enhancing 3D Point Cloud Classification with ModelNet-R and Point-SkipNet

Mohammad Saeid,Amir Salarpour,Pedram MohajerAnsari

Main category: cs.CV

TL;DR: 本文提出了改进的ModelNet-R数据集和轻量级Point-SkipNet网络,显著提升了3D点云分类性能并降低了计算成本。

  • Motivation: 现有ModelNet40数据集存在标签不一致、2D数据、尺寸不匹配和类别区分不足等问题,限制了模型性能,需要更可靠的数据集和高效分类方法。
  • Method: 开发了精心优化的ModelNet-R数据集,并提出基于图的轻量级神经网络Point-SkipNet,采用高效采样、邻域分组和跳跃连接技术。
  • Result: 在ModelNet-R上训练的模型性能显著提升,Point-SkipNet以更少的参数量达到了最先进的分类准确率。
  • Conclusion: 数据集质量对3D点云分类模型效率优化至关重要,提出的方法为相关应用提供了更可靠的基准和高效解决方案。

[49] Symbolic Graphics Programming with Large Language Models

Yamei Chen,Haoquan Zhang,Yangyi Huang,Zeju Qiu,Kaipeng Zhang,Yandong Wen,Weiyang Liu

Main category: cs.CV

TL;DR: 该论文研究了大型语言模型生成符号图形程序(SVG)的能力,提出了SGP-GenBench基准测试,并开发了一种基于强化学习的改进方法,显著提升了模型在符号图形编程方面的表现。

  • Motivation: 探索大型语言模型在生成符号图形程序方面的能力,特别是从自然语言描述生成可渲染精确视觉内容的SVG程序,以此作为理解模型视觉世界认知的窗口。
  • Method: 引入SGP-GenBench基准测试评估模型性能,提出基于强化学习的方法,使用格式有效性门确保可渲染SVG,并通过跨模态奖励(SigLIP和DINO编码器)对齐文本和渲染图像。
  • Result: 前沿专有模型显著优于开源模型,性能与通用编码能力相关。应用强化学习方法后,Qwen-2.5-7B模型在SVG生成质量和语义理解方面大幅提升,达到与前沿系统相当的性能。
  • Conclusion: 符号图形编程为跨模态 grounding 提供了精确且可解释的研究视角,强化学习方法能够诱导模型生成更精细的对象分解和上下文细节,提升场景连贯性。

[50] COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Yassine Taoudi-Benchekroun,Klim Troyan,Pascal Sager,Stefan Gerber,Lukas Tuggener,Benjamin Grewe

Main category: cs.CV

TL;DR: COGITAO是一个模块化、可扩展的数据生成框架和基准测试,用于系统研究视觉领域的组合性和泛化能力,通过基于规则的任务和可组合变换来测试AI模型的组合泛化能力。

  • Motivation: 解决当前机器学习模型在组合学习概念并将其应用于新场景方面的局限性,这是人类智能的关键能力但在现有模型中仍存在不足。
  • Method: 基于ARC-AGI的问题设置,构建基于规则的任务,对网格环境中的对象应用28种可互操作的变换,支持可调节深度的组合,并提供对网格参数化和对象属性的广泛控制。
  • Result: 能够创建数百万个独特任务规则,远超现有数据集规模,生成几乎无限的任务样本。基线实验显示最先进的视觉模型虽然域内性能强劲,但在新组合的泛化上持续失败。
  • Conclusion: COGITAO作为一个开源框架,为组合性和泛化研究提供了强大的工具,揭示了当前模型在组合泛化方面的根本性挑战,支持该领域的持续研究。

[51] WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

Zizun Li,Jianjun Zhou,Yifan Wang,Haoyu Guo,Wenzheng Chang,Yang Zhou,Haoyi Zhu,Junyi Chen,Chunhua Shen,Tong He

Main category: cs.CV

TL;DR: WinT3R是一个前馈重建模型,能够在在线预测精确相机位姿和高质量点云地图,解决了重建质量与实时性能之间的权衡问题。

  • Motivation: 现有方法在重建质量和实时性能之间存在权衡,无法同时实现高质量重建和实时处理。
  • Method: 引入滑动窗口机制确保窗口内帧间充分信息交换,使用紧凑相机表示并维护全局相机令牌池来提升相机位姿估计的可靠性。
  • Result: 在多个数据集上的广泛实验验证,WinT3R在在线重建质量、相机位姿估计和重建速度方面达到了最先进的性能。
  • Conclusion: WinT3R通过创新的滑动窗口机制和相机表示方法,成功实现了高质量实时三维重建,代码和模型已开源。

[52] FlowSeek: Optical Flow Made Easier with Depth Foundation Models and Motion Bases

Matteo Poggi,Fabio Tosi

Main category: cs.CV

TL;DR: FlowSeek是一个新颖的光流估计框架,只需单个消费级GPU即可训练,硬件需求比现有方法低8倍,但在多个数据集上实现了10-15%的性能提升

  • Motivation: 为了解决光流估计方法训练时硬件资源需求过高的问题,开发一个既紧凑又准确的光流估计架构
  • Method: 结合光流网络设计空间的最新进展、先进的单图像深度基础模型和经典的低维运动参数化方法
  • Result: 在Sintel Final和KITTI数据集上相对SEA-RAFT实现了10%和15%的改进,在Spring和LayeredFlow数据集上也表现出色
  • Conclusion: FlowSeek证明了通过巧妙的架构设计,可以在大幅降低硬件资源需求的同时实现优异的光流估计性能

cs.SD

[53] Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring

Nicholas R. Rasmussen,Rodrigue Rizk,Longwei Wang,KC Santosh

Main category: cs.SD

TL;DR: 提出了GetNetUPAM层次嵌套交叉验证框架和ARPA-N神经网络架构,用于提升水下被动声学监测的模型稳定性和泛化能力,在生态多样性评估中显著优于基准方法

  • Motivation: 水下被动声学监测存在固有噪声和复杂信号依赖性问题,现有方法对变化的环境噪声、传播效应和混合声源缺乏鲁棒性,需要更严格的评估框架
  • Method: 开发了GetNetUPAM分层嵌套交叉验证框架,按站点-年份划分数据保持异质性;提出ARPA-N神经网络,采用自适应分辨率池化和空间注意力机制处理不规则频谱图
  • Result: ARPA-N在GetNetUPAM评估下比DenseNet基线平均精度提升14.4%,所有指标的变异性降低log2尺度数量级,在不同站点-年份折叠中实现一致检测
  • Conclusion: 该方法显著提升了水下生物声学监测的准确性和可扩展性,为生态多样性分析提供了更可靠的模型评估框架

cs.CL

[54] Sample-efficient Integration of New Modalities into Large Language Models

Osman Batur İnce,André F. T. Martins,Oisin Mac Aodha,Edoardo M. Ponti

Main category: cs.CL

TL;DR: 本文提出了一种样本高效的多模态集成方法(SEMI),通过超网络适配器实现少量样本即可将任意新模态集成到大型语言模型中

  • Motivation: 多模态基础模型需要处理不断演变的多种模态,但从头训练所有模态不可行,且现有方法需要大量配对数据,这在低资源模态中往往不可得
  • Method: 设计超网络来适配共享投影器,该投影器位于模态特定编码器和LLM之间。超网络在高资源模态上训练,在推理时通过少量任意模态样本生成合适的适配器。通过等距变换增加训练模态多样性
  • Result: SEMI在新模态集成中显著提升样本效率,例如达到32-shot SEMI相同准确率,从头训练需要64倍更多数据。在卫星图像、天文图像、惯性测量和分子等多种模态上验证有效
  • Conclusion: SEMI有望扩展基础模型的模态覆盖范围,为低资源模态的集成提供了高效的解决方案

[55] Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization

Lee Kezar,Zed Sehyr,Jesse Thomason

Main category: cs.CL

TL;DR: 通过语音式引入偏差(参数解耦和半监督)改善向量量化自动编码器的符号语言表征学习,提高了对未见手势的一次性重构能力和识别性能。

  • Motivation: 符号语言数据集词汇代表性不足,需要模型能够向未见手势扩展。向量量化是一种有前景的离散表征学习方法,但需要确认学习到的单元是否捕获了偏偏相关而影响外部表现。
  • Method: 探索两种语音学引入偏差:参数解耦(结构偏差)和语音半监督(正则化技术),使用向量量化自动编码器改善已知手势的隔离识别和未见手势的重构质量。
  • Result: 提出模型学习到的表征在未见手势的一次性重构和手势识别方面比对照基准更有效,更具辨别性。
  • Conclusion: 这份工作提供了定量分析,证明明确的、语言学动机的偏差能够改善符号语言学习表征的扩展性能。

[56] PRIM: Towards Practical In-Image Multilingual Machine Translation

Yanzhi Tian,Zeming Liu,Zhengyang Liu,Chong Feng,Xin Li,Heyan Huang,Yuhang Guo

Main category: cs.CL

TL;DR: 本文提出了实用的图像内多语言机器翻译(IIMMT)任务和PRIM数据集,解决了现有研究在合成数据上的局限性,并提出了VisTrans模型来处理真实世界复杂场景下的图像翻译问题。

  • Motivation: 当前端到端图像内机器翻译研究主要在合成数据上进行,具有简单背景、单一字体、固定文本位置和双语翻译等特点,无法充分反映真实世界情况,导致研究与实践之间存在显著差距。
  • Method: 作者标注了PRIM数据集(包含真实世界捕获的单行文本图像,具有复杂背景、多种字体、多样化文本位置,并支持多语言翻译方向),并提出了VisTrans端到端模型,该模型分别处理图像中的视觉文本和背景信息,在提高视觉质量的同时确保多语言翻译能力。
  • Result: 实验结果表明,VisTrans相比其他模型在翻译质量和视觉效果方面都取得了更好的表现。
  • Conclusion: 该研究为真实场景下的图像内机器翻译提供了新的数据集和有效的解决方案,推动了该领域向更实用的方向发展。

quant-ph

[57] Histogram Driven Amplitude Embedding for Qubit Efficient Quantum Image Compression

Sahil Tomar,Sandeep Kumar

Main category: quant-ph

TL;DR: 提出了一种基于量子硬件的紧凑高效彩色图像压缩方法,通过分块处理、强度统计和振幅嵌入,在保持恒定量子比特需求的同时实现高质量图像重建

  • Motivation: 为了解决传统像素级量子编码方法资源消耗大、在当前NISQ时代量子设备上难以实用的问题,开发一种更高效的量子图像压缩方案
  • Method: 将图像分割为固定大小的bixels块,计算每个块的总强度,构建全局直方图,将归一化的bin计数平方根作为振幅编码到n量子比特态中,使用PennyLane进行振幅嵌入并在IBM量子硬件上执行
  • Result: 使用仅5-7个量子比特即可实现高质量重建,显著优于传统像素级编码的量子比特效率,验证了该方法在当前NISQ时代量子系统中的实际应用价值
  • Conclusion: 该方法提供了一种硬件高效的量子图像压缩解决方案,通过调整直方图bin数可以在保真度和资源使用之间进行权衡,为近量子设备的实际图像处理应用提供了可行途径

eess.IV

[58] Inferring the Graph Structure of Images for Graph Neural Networks

Mayur S Gowda,John Shi,Augusto Santos,José M. F. Moura

Main category: eess.IV

TL;DR: 通过分析MNIST和Fashion-MNIST图像像素间相关性,构建行相关、列相关和积图形式的替代图表示,提升了图神经网络的图像分类准确性

  • Motivation: 传统的格子图和超像素方法在表示图像数据时存在限制,需要找到更有效的图表示方法来提升图神经网络在下游任务中的性能
  • Method: 使用像素值间的相关性构建行相关图、列相关图和积图,并将这些替代图表示作为图神经网络的输入
  • Result: 实验结果显示,使用这些新的图表示方法比传统的格子图和超像素方法能够提高图像分类的准确性
  • Conclusion: 通过分析像素间相关性来构建更有效的图表示,可以显著提升图神经网络在图像分类任务中的性能

[59] AURAD: Anatomy-Pathology Unified Radiology Synthesis with Progressive Representations

Shuhan Ding,Jingjing Fu,Yu Gu,Naiteek Sangani,Mu Wei,Paul Vozila,Nan Liu,Jiang Bian,Hoifung Poon

Main category: eess.IV

TL;DR: AURAD是一个可控的放射学合成框架,能够联合生成高质量胸部X光片和伪语义掩码,通过临床提示和解剖结构条件生成掩码来指导图像合成,提升医学图像合成的精细控制和临床相关性。

  • Motivation: 解决医学图像合成中由于高质量标注有限和数据集间域偏移导致的细粒度可控合成难题,特别是在胸部X光片中疾病模式形态多样且与解剖结构紧密交织的挑战。
  • Method: 采用渐进式流程:首先基于解剖结构条件从临床提示生成伪掩码,然后用这些掩码指导图像合成;利用预训练专家医学模型过滤输出确保临床合理性;生成的掩码还可作为下游任务的标签。
  • Result: 78%的合成图像被认证放射科医生分类为真实图像,超过40%的预测分割覆盖被评定为临床有用,证明了方法的有效性和泛化能力。
  • Conclusion: AURAD框架不仅在视觉真实性上表现优异,还通过生成的掩码连接了生成建模与真实世界临床应用,为数据稀缺的临床环境提供了有效的解决方案。

[60] Multi-modal Uncertainty Robust Tree Cover Segmentation For High-Resolution Remote Sensing Images

Yuanyuan Gui,Wei Li,Yinjian Wang,Xiang-Gen Xia,Mauro Marty,Christian Ginzler,Zuyuan Wang

Main category: eess.IV

TL;DR: MURTreeFormer是一个新颖的多模态分割框架,通过概率潜在表示建模辅助模态的补丁级不确定性,利用VAE重采样机制重建不确定补丁,结合梯度幅度注意力模块和轻量级细化头,显著提高了多模态遥感图像中树木覆盖分割的准确性。

  • Motivation: 多模态遥感图像(光学、LiDAR、SAR)在采集时存在时间错位,可能导致植被扰动和成像质量变化,引入跨模态不确定性,严重影响分割精度。需要解决这种时间引起的随机不确定性对树木覆盖映射的影响。
  • Method: 提出MURTreeFormer框架:将一种模态作为主要模态,其他作为辅助模态;通过概率潜在表示显式建模辅助模态的补丁级不确定性;使用VAE重采样机制从主要模态分布重建不确定补丁;在解码器中集成梯度幅度注意力模块和轻量级细化头来引导注意力并保留空间细节。
  • Result: 在上海和苏黎世的多模态数据集上进行广泛实验,证明MURTreeFormer显著提高了分割性能,有效减少了时间引起的随机不确定性的影响。
  • Conclusion: MURTreeFormer通过建模和处理跨模态不确定性,为多模态遥感图像的树木覆盖分割提供了鲁棒的解决方案,在应对时间错位带来的挑战方面表现出色。

[61] VLSM-Ensemble: Ensembling CLIP-based Vision-Language Models for Enhanced Medical Image Segmentation

Julia Dietlmeier,Oluwabukola Grace Adegboro,Vayangi Ganepola,Claudia Mazo,Noel E. O'Connor

Main category: eess.IV

TL;DR: 通过将视觉语言分割模型(VLSMs)与低复杂度CNN集成,在多个医学图像分割数据集上实现了1-6%的Dice分数提升,特别是在BKAI息肉数据集上获得了6.3%的显著改进。

  • Motivation: 当前基于CLIP和BiomedCLIP的视觉语言模型在图像分割任务中仍落后于更复杂的架构如CRIS,研究旨在通过模型集成方法缩小这一性能差距。
  • Method: 采用视觉语言分割模型(VLSMs)与低复杂度CNN进行集成的方法,而不是传统的文本提示工程方法。
  • Result: 在BKAI息肉数据集上Dice分数提升6.3%,其他数据集提升1-6%。在四个放射学和非放射学数据集上提供了初步结果,集成效果因数据集而异。
  • Conclusion: 模型集成在不同数据集上表现差异显著(从优于到劣于CRIS模型),这为社区提供了未来研究的重要方向。代码已开源。

cs.AI

[62] SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing

Hongyi Jing,Jiafu Chen,Chen Rao,Ziqiang Dang,Jiajie Teng,Tianyi Chu,Juncheng Mo,Shuo Fang,Huaizhong Lin,Rui Lv,Chenguang Ma,Lei Zhao

Main category: cs.AI

TL;DR: SparkUI-Parser是一个端到端的多模态GUI解析框架,通过连续坐标建模和拒绝机制,显著提高了定位精度和解析能力,在多个基准测试中优于现有方法。

  • Motivation: 现有MLLM GUI感知方法存在两个主要问题:1)基于文本自回归机制的离散坐标建模导致定位精度低、推理速度慢;2)只能定位预定义元素集合,无法解析整个界面,限制了广泛应用。
  • Method: 提出基于预训练MLLM的连续坐标建模方法,增加token路由器和坐标解码器;引入基于改进匈牙利匹配算法的拒绝机制来识别和拒绝不存在的元素;构建ScreenParse基准测试系统评估GUI模型的结构感知能力。
  • Result: 在ScreenSpot、ScreenSpot-v2、CAGUI-Grounding和ScreenParse等多个基准测试中 consistently outperforms SOTA方法,显著提升了准确性和推理速度。
  • Conclusion: SparkUI-Parser通过连续建模和拒绝机制有效解决了现有方法的局限性,实现了更高的定位精度和细粒度界面解析能力,为GUI感知任务提供了强大的端到端解决方案。

[63] LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

Yinglin Duan,Zhengxia Zou,Tongwei Gu,Wei Jia,Zhan Zhao,Luyi Xu,Xinzhu Liu,Hao Jiang,Kang Chen,Shuang Qiu

Main category: cs.AI

TL;DR: LatticeWorld是一个基于轻量级LLM和游戏引擎的3D世界生成框架,通过多模态输入创建大规模交互式虚拟环境,显著提升工业生产效率90倍以上

  • Motivation: 传统手动建模方法效率低下,需要开发能够基于用户指令自动生成高质量3D虚拟世界的框架,以缩小模拟与现实之间的差距
  • Method: 使用LLaMA-2-7B轻量级大语言模型配合Unreal Engine 5渲染引擎,接受文本描述和视觉指令作为多模态输入,生成包含动态代理的高保真3D环境
  • Result: 在场景布局生成和视觉保真度方面达到优异精度,相比传统手动生产方式效率提升90倍以上,同时保持高质量创意输出
  • Conclusion: LatticeWorld框架证明了使用LLM和游戏引擎结合的方法能够高效生成高质量的动态3D世界,为工业3D环境生产提供了有效的自动化解决方案

cs.GR

[64] Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Haruo Fujiwara,Yusuke Mukuta,Tatsuya Harada

Main category: cs.GR

TL;DR: 提出了一种改进的文本驱动3D场景风格化方法,通过参考注意力机制和多深度图增强视角一致性,并支持区域控制风格迁移

  • Motivation: 现有文本驱动3D场景编辑方法在保证高质量风格化和视角一致性方面存在挑战,且难以实现语义对应的区域一致性风格应用
  • Method: 1) 扩展风格对齐深度条件视角生成框架,使用单参考注意力共享机制替代全共享注意力;2) 利用多深度图网格增强视角一致性;3) 提出多区域重要性加权切片Wasserstein距离损失,支持基于分割掩码的区域风格迁移
  • Result: 实验评估表明,该方法有效提升了文本驱动3D风格化的结果质量,在保持视角一致性的同时实现了更好的风格化效果和区域控制能力
  • Conclusion: 所提出的技术能够同时保证高质量风格化和视角一致性,并提供可选区域控制风格迁移,为3D场景风格化提供了更有效的解决方案

cs.DC

[65] STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs

Han Liang,Jiahui Zhou,Zicheng Zhou,Xiaoxi Zhang,Xu Chen

Main category: cs.DC

TL;DR: STADI是一个针对异构多GPU环境的扩散模型推理加速框架,通过时空自适应调度机制,在时间维度减少慢速GPU的去噪步骤,在空间维度弹性分配图像块,实现了45%的延迟降低和资源利用率提升。

  • Motivation: 现有扩散模型并行推理方案在异构多GPU环境中存在资源利用率低和工作负载不均衡的问题,需要针对硬件差异和后台任务导致的负载不平衡进行优化。
  • Method: 提出时空自适应扩散推理框架(STADI),包含:1)计算感知的步骤分配器,使用最小公倍数最小化量化技术减少慢速GPU的去噪步骤;2)弹性图像块并行机制,根据GPU计算能力分配不同大小的图像块。
  • Result: 在负载不平衡和异构多GPU集群上的实验表明,STADI相比最先进的patch parallelism框架,端到端推理延迟降低高达45%,并显著提高了异构GPU的资源利用率。
  • Conclusion: STADI通过时空维度的细粒度并行调度,有效解决了异构环境下扩散模型推理的负载均衡问题,为实际部署提供了高效的推理加速方案。

cs.LG

[66] Beyond I-Con: Exploring New Dimension of Distance Measures in Representation Learning

Jasmine Shone,Shaden Alshammari,Mark Hamilton,Zhening Li,William Freeman

Main category: cs.LG

TL;DR: Beyond I-Con框架通过探索不同的统计散度和相似性核函数,系统性地发现新的损失函数,在无监督聚类、监督对比学习和降维任务中均取得了优于现有方法的效果。

  • Motivation: I-Con框架发现23种表示学习方法隐式最小化数据分布与学习分布之间的KL散度,但KL散度的不对称性和无界性可能导致优化问题,需要探索其他散度度量。
  • Method: 提出Beyond I-Con框架,系统性地探索替代统计散度(如总变差距离、有界f-散度)和相似性核函数(如距离核替代角度核),重新设计表示学习损失函数。
  • Result: 在DINO-ViT嵌入的无监督聚类中达到SOTA;在监督对比学习中超越标准方法;在降维任务中获得更好的定性结果和下游任务性能。
  • Conclusion: 散度和相似性核函数的选择对表示学习优化至关重要,Beyond I-Con框架为系统探索这些选择提供了有效途径。

cs.RO

[67] Towards an Accurate and Effective Robot Vision (The Problem of Topological Localization for Mobile Robots)

Emanuela Boros

Main category: cs.RO

TL;DR: 本文系统评估了多种视觉描述符在办公室环境拓扑定位中的性能,包括颜色直方图、SIFT系列方法和词袋模型,通过定量比较和标准评估指标验证了不同配置的优势。

  • Motivation: 解决移动机器人在办公室环境中的拓扑定位问题,克服视觉定位中的感知模糊性、传感器噪声和光照变化等挑战,仅使用单目彩色相机图像而不依赖图像序列的时间连续性。
  • Method: 评估了Color Histograms、SIFT、ASIFT、RGB-SIFT和Bag-of-Visual-Words等多种先进视觉描述符,系统比较了这些特征、距离度量和分类器的性能,使用标准评估指标和可视化方法进行分析。
  • Result: 研究结果表明,适当的表观描述符配置、相似性度量和分类器选择具有显著优势,该系统在ImageCLEF评估竞赛的机器人视觉任务中成功识别了新图像序列的最可能位置。
  • Conclusion: 未来工作将探索分层模型、排序方法和特征组合,以构建更鲁棒的定位系统,减少训练和运行时间,避免维度灾难,最终实现跨不同光照条件和更长路径的集成实时定位。

[68] Pointing-Guided Target Estimation via Transformer-Based Attention

Luca Müller,Hassan Ali,Philipp Allgeuer,Lukáš Gajdošech,Stefan Wermter

Main category: cs.RO

TL;DR: 提出MM-ITF多模态转换器架构,通过注意力机制将2D指向手势映射到物体位置,准确预测人类指向意图,实现直观的人机协作

  • Motivation: 指向手势是非语言交流的基本形式,在人机交互中机器人需要能够预测人类意图并做出适当响应,这对于实现自然的人机协作至关重要
  • Method: 采用多模态交互转换器(MM-ITF)架构,利用模态间注意力机制,将单目RGB数据中的2D指向手势映射到桌面场景中的物体位置,为每个物体分配可能性分数并识别最可能的目标
  • Result: 该方法能够准确预测人类指向的意图物体,并引入了补丁混淆矩阵来评估模型在不同候选物体位置上的预测性能
  • Conclusion: MM-ITF架构通过单目RGB数据实现了直观和可访问的人机协作,为基于指向手势的意图识别提供了有效解决方案

[69] Robust Model Predictive Control Design for Autonomous Vehicles with Perception-based Observers

Nariman Niknejad,Gokul S. Sankar,Bahare Kiumarsi,Hamidreza Modares

Main category: cs.RO

TL;DR: 提出一种针对深度学习感知模块非高斯噪声的鲁棒模型预测控制框架,使用约束zonotopes进行集合状态估计,通过线性规划和Minkowski-Lyapunov方法确保稳定性和计算效率。

  • Motivation: 传统MPC假设感知误差为零均值高斯噪声,但深度学习感知模块的噪声往往是非高斯、有偏和重尾的,需要更准确的误差量化来保证反馈控制的安全性。
  • Method: 使用约束zonotopes进行集合状态估计来捕获有偏重尾不确定性;将鲁棒MPC重构为线性规划问题,采用Minkowski-Lyapunov成本函数;通过Minkowski-Lyapunov不等式和收缩zonotopic不变集确保闭环稳定性。
  • Result: 在全方位移动机器人平台上进行仿真和硬件实验验证,结果表明该方法在重尾噪声条件下提供稳定准确的控制性能,在状态估计误差边界和整体控制性能方面显著优于传统高斯噪声设计。
  • Conclusion: 该感知感知MPC框架能够有效处理深度学习感知模块的非高斯噪声特性,为安全可靠的反馈控制提供了新的解决方案。