Skip to content
每日arXiv - 2026年1月5日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model

Yabo Chen,Yuanzhi Liang,Jiepeng Wang,Tingxi Chen,Junfei Cheng,Zixiao Gu,Yuyang Huang,Zicheng Jiang,Wei Li,Tian Li,Weichen Li,Zuoxin Li,Guangce Liu,Jialun Liu,Junqi Liu,Haoyuan Wang,Qizhen Weng,Xuan'er Wu,Xunzhi Xiang,Xiaoyan Yang,Xin Zhang,Shiwen Zhang,Junyu Zhou,Chengcheng Zhou,Haibin Huang,Chi Zhang,Xuelong Li

Main category: cs.CV

TL;DR: TeleWorld是一个实时多模态4D世界建模框架,通过生成-重建-引导范式统一视频生成、动态场景重建和长期世界记忆,实现空间、时间和物理一致性。

  • Motivation: 当前视频生成模型在实时交互、长期一致性和动态场景持久记忆方面存在局限,阻碍了其发展为实用的世界模型。需要一种能够统一视频生成、动态场景重建和长期记忆的框架。
  • Method: 提出生成-重建-引导范式:生成的视频流被连续重建为动态4D时空表示,然后引导后续生成以保持一致性。采用自回归扩散视频模型,增强Macro-from-Micro Planning(MMPL)层次规划方法减少误差积累,结合高效Distribution Matching Distillation(DMD)实现实时合成。
  • Result: TeleWorld在静态和动态世界理解、长期一致性和实时生成效率方面表现出色,将动态对象建模和静态场景表示无缝集成到统一的4D框架中。
  • Conclusion: TeleWorld是迈向实用、交互式和计算可访问世界模型的重要一步,为多模态生成和具身智能提供了交互式、记忆启用的世界模型解决方案。

[2] It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models

Anne Harrington,A. Sophia Koepke,Shyamgopal Karthik,Trevor Darrell,Alexei A. Efros

Main category: cs.CV

TL;DR: 通过噪声优化解决文本到图像生成中的模式崩溃问题,提升生成多样性和质量

  • Motivation: 当前文本到图像模型存在严重的模式崩溃问题,即相同文本提示下生成的图像缺乏多样性。现有方法通过引导机制或生成大量候选再筛选来解决,但本文探索了不同的方向。
  • Method: 采用噪声优化方法,通过简单的噪声优化目标来缓解模式崩溃,同时保持基础模型的保真度。分析噪声的频率特性,探索不同频率分布的噪声初始化对优化和搜索的影响。
  • Result: 噪声优化方法在生成质量和多样性方面都取得了优越的结果,能够有效缓解模式崩溃问题。
  • Conclusion: 噪声优化是一种有效解决文本到图像生成中模式崩溃问题的方法,通过优化噪声可以显著提升生成多样性而不损害模型质量。

[3] Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Pan Wang,Yang Liu,Guile Wu,Eduardo R. Corral-Soto,Chengjie Huang,Binbin Xu,Dongfeng Bai,Xu Yan,Yuan Ren,Xingxin Chen,Yizhe Wu,Tao Huang,Wenjun Wan,Xin Wu,Pei Zhou,Xuyang Dai,Kangbo Lv,Hongbo Zhang,Yosef Fried,Aixue Ye,Bailan Feng,Zhenyu Chen,Zhen Li,Yingcong Chen,Yiyi Liao,Bingbing Liu

Main category: cs.CV

TL;DR: Spatial4D-Bench是一个大规模4D空间智能基准测试,包含约40,000个问答对,涵盖18个任务,用于评估多模态大语言模型在4D空间推理方面的能力。

  • Motivation: 人类天生具备4D空间智能(感知物体随时间的变化),但当前缺乏全面评估多模态大语言模型4D空间推理能力的基准测试。现有基准测试要么规模小,要么任务多样性不足。
  • Method: 创建Spatial4D-Bench基准测试,包含约40,000个问答对,涵盖18个明确定义的任务,这些任务被系统组织为六个认知类别:物体理解、场景理解、空间关系理解、时空关系理解、空间推理和时空推理。
  • Result: 评估了各种开源和专有多模态大语言模型,发现它们在多种4D空间推理方面存在显著局限性,如路径规划、动作识别和物理合理性推理等。
  • Conclusion: 该基准测试为社区提供了有价值的见解,有助于开发更强大的多模态大语言模型,使其向人类水平的4D空间智能发展。

[4] A Spatially Masked Adaptive Gated Network for multimodal post-flood water extent mapping using SAR and incomplete multispectral data

Hyunho Lee,Wenwen Li

Main category: cs.CV

TL;DR: 提出SMAGNet模型,通过自适应门控网络融合SAR和MSI数据,提升洪水淹没范围制图的准确性和鲁棒性

  • Motivation: 洪水期间及时准确的水域范围制图对灾害管理至关重要。虽然SAR数据常用于洪水响应,但结合MSI数据的多模态方法能提升精度。然而,如何自适应整合部分可用的MSI数据到SAR制图流程中尚未充分探索。
  • Method: 提出SMAGNet(空间掩码自适应门控网络),以SAR数据为主要输入进行洪水后水域范围制图,通过特征融合整合互补的MSI数据。模型能处理MSI数据部分缺失的情况。
  • Result: 在C2S-MS Floods数据集上,SMAGNet在不同MSI数据可用性水平下均优于其他多模态深度学习模型。即使MSI数据完全缺失,其性能仍与仅使用SAR数据训练的U-Net模型相当。
  • Conclusion: SMAGNet增强了模型对缺失数据的鲁棒性,提高了多模态深度学习在真实洪水管理场景中的适用性,为灾害响应提供了更可靠的制图工具。

[5] Compressed Map Priors for 3D Perception

Brady Zhou,Philipp Krähenbühl

Main category: cs.CV

TL;DR: CMP框架通过压缩地图先验学习历史遍历信息,显著提升3D目标检测性能,存储需求降低20倍

  • Motivation: 现有自动驾驶视觉系统通常将每个位置视为首次访问,忽略了历史遍历信息。人类驾驶员很少去无人去过的地方,大多数自动驾驶区域都曾被访问过,但系统未能利用这些历史数据。
  • Method: 提出压缩地图先验(CMP)框架,从历史遍历中学习空间先验。使用二值化哈希映射存储地图先验,存储密度仅为32KB/km²,比密集存储减少20倍。该框架可轻松集成到主流3D感知系统中,几乎不增加计算成本。
  • Result: 在nuScenes数据集上,CMP显著且一致地提升了多种架构的3D目标检测性能。压缩存储方案大幅降低了存储需求。
  • Conclusion: 利用历史遍历信息的压缩地图先验是提升自动驾驶3D感知的有效方法,能以极低的存储和计算成本显著改善检测性能。

[6] Attention to Detail: Global-Local Attention for High-Resolution AI-Generated Image Detection

Lawrence Han

Main category: cs.CV

TL;DR: GLASS是一种用于AI生成图像检测的架构,通过全局重采样视图和多个原始分辨率局部裁剪相结合,利用分层采样和注意力机制提升检测性能。

  • Motivation: 随着生成式AI的快速发展,AI生成的图像越来越逼真和高分辨率。现有的AI生成图像检测架构通常会在输入模型前对图像进行下采样,这可能导致细粒度细节的丢失,从而影响检测准确性。
  • Method: 提出GLASS架构,结合全局重采样视图和多个随机采样的局部裁剪。局部裁剪通过空间分层采样高效选择原始分辨率区域,并使用基于注意力的评分机制进行聚合。该架构可集成到各种视觉模型中,处理任意尺寸的图像。
  • Result: 实验使用Vision Transformer、ResNet和ConvNeXt作为骨干网络,结果显示GLASS在可行的计算约束下,相比标准迁移学习方法获得了更高的预测性能。
  • Conclusion: GLASS架构通过同时利用图像的全局和局部信息,有效提升了AI生成图像检测的性能,避免了传统下采样方法可能丢失细节的问题。

[7] FCMBench: A Comprehensive Financial Credit Multimodal Benchmark for Real-world Applications

Yehui Yang,Dalu Yang,Wenshuo Zhou,Fangxin Shang,Yifan Liu,Jie Ren,Haojun Fei,Qing Yang,Tao Chen

Main category: cs.CV

TL;DR: FCMBench-V1.0是一个专门用于金融信贷领域的多模态基准测试,包含4,043张隐私合规图像和8,446个QA样本,评估模型在感知、推理和鲁棒性三个维度的能力。

  • Motivation: 随着多模态AI在信贷风险评估和文档审查中的广泛应用,急需一个专门针对金融信贷领域的基准测试,该基准需要:(1)反映金融信贷申请特有的文档和工作流程,(2)包含信贷特定的理解和真实世界的鲁棒性,(3)在保持隐私合规的同时不牺牲实际效用。
  • Method: 通过封闭的合成-捕获管道构建所有样本:手动合成带有虚拟内容的文档模板,并在内部捕获场景感知的图像。评估框架包括三个维度:感知(3个基础任务)、推理(4个信贷特定任务)和鲁棒性(10种真实世界采集伪影类型)。
  • Result: 在23个最先进的视觉语言模型上进行了广泛实验,其中Gemini 3 Pro作为商业模型获得最佳F1分数(64.61%),Qwen3-VL-235B作为开源基线获得最佳分数(57.27%),而专门的金融信贷模型Qfin-VL-Instruct获得最高总分(64.92%)。鲁棒性评估显示即使表现最佳的模型在采集伪影下也会出现明显性能下降。
  • Conclusion: FCMBench能够有效区分现代视觉语言模型的性能差异和鲁棒性,为金融信贷领域的多模态AI评估提供了专门的基准测试工具,填补了该领域的空白。

[8] Focal-RegionFace: Generating Fine-Grained Multi-attribute Descriptions for Arbitrarily Selected Face Focal Regions

Kaiwen Zheng,Junchen Fu,Songpei Xu,Yaoqing He,Joemon M. Jose,Han Hu,Xuri Ge

Main category: cs.CV

TL;DR: 提出FaceFocalDesc问题:为任意选定面部区域生成包含动作单元、情绪状态和年龄估计的多属性自然语言描述,并构建数据集和基于Qwen2.5-VL的Focal-RegionFace模型进行区域聚焦分析。

  • Motivation: 当前面部分析研究未充分探索针对任意选定面部区域生成多属性自然语言描述的问题。系统能够聚焦于个体面部区域将带来更好的理解和控制能力,这对细粒度面部状态分析具有重要意义。
  • Method: 1) 构建新的多属性描述数据集,为任意选定面部区域提供丰富的区域级标注和自然语言描述;2) 基于Qwen2.5-VL提出Focal-RegionFace模型,通过多个渐进微调阶段逐步细化对局部面部特征的关注,实现可解释的年龄估计、面部动作单元和情绪检测。
  • Result: Focal-RegionFace在新基准测试中,无论是传统广泛使用的指标还是新提出的指标,都取得了最佳性能。这充分验证了其在细粒度多属性面部区域聚焦分析场景中的有效性和通用性。
  • Conclusion: 该研究引入了一个未被充分探索的面部分析问题,通过构建数据集和提出Focal-RegionFace模型,成功实现了对任意选定面部区域的多属性自然语言描述生成和识别,为细粒度面部状态分析提供了新的解决方案。

[9] DichroGAN: Towards Restoration of in-air Colours of Seafloor from Satellite Imagery

Salma Gonzalez-Sabbagh,Antonio Robles-Kelly,Shang Gao

Main category: cs.CV

TL;DR: DichroGAN:一种用于从卫星图像恢复海底空中颜色的条件生成对抗网络,通过两步训练消除水下光衰减影响

  • Motivation: 由于光在水柱中随深度呈指数衰减,从卫星图像恢复海底的空中颜色是一个具有挑战性的任务。现有方法难以准确消除水下光吸收和散射的影响。
  • Method: 提出DichroGAN条件生成对抗网络,采用两步同时训练:1)两个生成器利用高光谱图像立方体估计漫反射和镜面反射,获取大气场景辐射;2)第三个生成器接收包含各光谱带特征的场景辐射,第四个生成器估计水下光传输。这些生成器基于水下图像形成方程协同工作,消除光吸收和散射效应。
  • Result: 在PRISMA卫星图像构建的紧凑数据集上训练,并在卫星和水下数据集上进行广泛实验,DichroGAN相比最先进的水下恢复技术展现出有竞争力的性能。
  • Conclusion: DichroGAN通过创新的两步训练架构,能够有效恢复海底的空中颜色,为卫星遥感中的水下图像恢复提供了新的解决方案。

[10] MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

Xiaokun Sun,Zeyu Cai,Hao Tang,Ying Tai,Jian Yang,Zhenyu Zhang

Main category: cs.CV

TL;DR: MorphAny3D是一个无需训练的三维变形框架,利用结构化潜在表示(SLAT)实现高质量跨类别三维变形,通过注意力机制融合源和目标特征来生成语义一致且时序平滑的变形序列。

  • Motivation: 三维变形面临生成语义一致性和时序平滑性的挑战,特别是在跨类别变形时尤为困难。现有方法难以在保持结构连贯性的同时实现自然的变形过渡。
  • Method: 提出训练免费框架MorphAny3D,基于SLAT表示,引入变形交叉注意力(MCA)融合源和目标特征以确保结构连贯性,使用时序融合自注意力(TFSA)增强时序一致性,并采用方向校正策略缓解变形过程中的姿态模糊问题。
  • Result: 实验表明该方法能生成最先进的变形序列,即使在具有挑战性的跨类别情况下也能表现优异。进一步支持解耦变形和三维风格迁移等高级应用,并可推广到其他基于SLAT的生成模型。
  • Conclusion: MorphAny3D通过智能融合SLAT特征和创新的注意力机制,成功解决了三维变形中的语义一致性和时序平滑性问题,为高质量跨类别三维变形提供了有效的训练免费解决方案。

[11] CropNeRF: A Neural Radiance Field-Based Framework for Crop Counting

Md Ahmed Al Muzaddid,William J. Beksi

Main category: cs.CV

TL;DR: 提出基于多视角图像和神经辐射场(NeRF)的3D实例分割框架,用于精确农作物计数,无需作物特定参数调优,在棉花、苹果、梨数据集上验证有效。

  • Motivation: 室外农田环境中,部分遮挡和作物聚集导致的视觉模糊给基于图像的农作物计数带来巨大挑战,需要更精确的计数方法支持农业管理决策。
  • Method: 利用多视角2D图像,结合神经辐射场(NeRF)进行视图合成,引入作物可见性和掩码一致性评分,结合NeRF的3D信息实现3D实例分割。
  • Result: 在棉花、苹果、梨三个农业数据集上验证,表现出稳定的计数性能,不受作物颜色、形状、大小变化影响,相比现有方法具有优越性能。
  • Conclusion: 提出的3D实例分割框架能有效解决农作物计数中的遮挡和聚集问题,提供精确计数结果,并贡献了棉花植物数据集促进后续研究。

[12] IntraStyler: Exemplar-based Style Synthesis for Cross-modality Domain Adaptation

Han Liu,Yubo Fan,Hao Li,Dewei Hu,Daniel Moyer,Zhoubing Xu,Benoit M. Dawant,Ipek Oguz

Main category: cs.CV

TL;DR: 提出IntraStyler方法,通过示例图像引导风格合成,无需先验知识即可捕捉域内风格多样性,提升跨模态域适应的分割性能。

  • Motivation: 现有无监督域适应方法主要关注源域和目标域之间的域偏移,但域内变异性研究不足。传统方法需要预先指定域内变化进行风格合成,这在实际应用中不切实际。
  • Method: 提出IntraStyler方法:1)基于示例图像的风格合成,使输出风格匹配示例风格;2)引入风格编码器,基于对比学习判别性地学习风格特征;3)无需先验知识即可捕捉多样化的域内风格。
  • Result: 在CrossMoDA 2023数据集上验证了方法的有效性:1)实现了可控的风格合成;2)多样化的合成数据对下游分割任务有益。
  • Conclusion: IntraStyler能够无需先验知识捕捉多样化的域内风格,为跨模态域适应提供了有效的风格合成方法,代码已开源。

[13] From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning

Omar Sharif,Eftekhar Hossain,Patrick Ng

Main category: cs.CV

TL;DR: 该论文提出使用强化学习来增强多模态大语言模型的视觉推理能力,通过设计多种奖励函数激励模型进行更长的结构化推理,在视觉谜题等任务上取得显著性能提升。

  • Motivation: 多模态大语言模型在生成推理链时缺乏视觉信息的有效整合,限制了其在需要准确视觉感知的任务(如视觉谜题)上的表现。研究表明视觉感知是此类任务的关键瓶颈,将图像转换为文本描述能显著提升性能。
  • Method: 采用奖励驱动的强化学习方法,设计了六种针对不同推理方面的奖励函数(包括图像理解、思考步骤和答案准确性),使用组相对策略优化(GRPO)来明确激励更长的结构化推理,并防止视觉信息被绕过。
  • Result: 在Qwen-2.5-VL-7B模型上实现了5.56%的性能提升,在领域内和领域外设置下都获得了一致的增益。实验还显示,将图像转换为文本描述能为Claude 3.5和Claude 3.7分别带来26.7%和23.6%的性能提升。
  • Conclusion: 强化学习是解锁开源多模态大语言模型长视觉推理能力的有效机制,无需昂贵的监督数据。通过设计合适的奖励函数和优化策略,可以显著改善模型在需要视觉感知任务上的表现。

[14] LooC: Effective Low-Dimensional Codebook for Compositional Vector Quantization

Jie Li,Kwan-Yee K. Wong,Kai Han

Main category: cs.CV

TL;DR: LooC是一种新的向量量化方法,使用低维码本进行组合式向量量化,通过重构码向量与特征向量的关系来扩展解空间,实现更紧凑的码本和更好的性能。

  • Motivation: 随着数据和模型复杂度的增加,需要更高容量但更紧凑的向量量化方法。现有方法在码本容量和紧凑性之间存在冲突,需要新的解决方案。
  • Method: LooC采用低维组合码本,将码向量视为特征向量中的低维组合单元进行组合;引入无参数的外推-插值机制来增强和平滑特征;设计确保码本完全使用,避免崩溃问题。
  • Result: 在不同任务、数据集和架构上的广泛评估表明,LooC显著优于现有VQ方法,使用更小的码本实现了最先进的性能。
  • Conclusion: LooC成功解决了向量量化中码本容量与紧凑性的冲突,可作为即插即用模块应用于不同下游任务,在保持高性能的同时显著减小码本规模。

[15] Towards Syn-to-Real IQA: A Novel Perspective on Reshaping Synthetic Data Distributions

Aobo Li,Jinjian Wu,Yongxu Liu,Leida Li,Weisheng Dong

Main category: cs.CV

TL;DR: 本文提出SynDR-IQA框架,通过重塑合成数据分布来解决BIQA模型泛化能力不足的问题,采用分布感知的多样内容上采样和密度感知的冗余聚类下采样策略。

  • Motivation: 盲图像质量评估(BIQA)面临标注数据稀缺的挑战,合成数据是潜在解决方案,但现有合成数据集训练的模型泛化能力有限。研究发现合成数据集学习到的表示呈现离散聚类模式,阻碍回归性能。
  • Method: 提出SynDR-IQA框架,基于样本多样性和冗余对泛化误差影响的理论推导,采用两种策略:1)分布感知的多样内容上采样,增强视觉多样性同时保持内容分布;2)密度感知的冗余聚类下采样,通过减少密集聚类区域的样本密度来平衡样本。
  • Result: 在三种跨数据集设置(合成到真实、合成到算法、合成到合成)上的大量实验证明了该方法的有效性。
  • Conclusion: 通过重塑合成数据分布,SynDR-IQA显著提升了BIQA模型的泛化能力,为解决合成数据训练中的泛化问题提供了有效框架。

[16] Application Research of a Deep Learning Model Integrating CycleGAN and YOLO in PCB Infrared Defect Detection

Chao Yang,Haoyuan Zheng,Yue Ma

Main category: cs.CV

TL;DR: 提出跨模态数据增强框架,结合CycleGAN和YOLOv8解决PCB红外缺陷检测数据稀缺问题

  • Motivation: 红外(IR)数据稀缺是PCB缺陷检测的关键瓶颈,传统方法依赖配对监督,而实际中配对数据难以获取
  • Method: 使用CycleGAN进行非配对图像转换,将丰富的可见光PCB图像映射到红外域,生成高质量伪红外样本;构建异构训练策略,融合生成的伪红外数据和有限真实红外样本训练轻量级YOLOv8检测器
  • Result: 该方法有效增强了低数据条件下的特征学习,增强后的检测器显著优于仅使用有限真实数据训练的模型,性能接近完全监督训练的基准
  • Conclusion: 伪红外合成作为工业检测的鲁棒增强策略具有高效性,为解决红外数据稀缺问题提供了有效解决方案

[17] Context-Aware Pesticide Recommendation via Few-Shot Pest Recognition for Precision Agriculture

Anirudha Ghosh,Ritam Sarkar,Debaditya Barman

Main category: cs.CV

TL;DR: 提出一个轻量级框架用于害虫检测和农药推荐,适用于智能手机和无人机等低资源设备,帮助小农户实现精准农业。

  • Motivation: 传统害虫管理方法依赖人工田间检查和化学农药,成本高、耗时、劳动密集且对环境有负面影响,需要适合小农户的低成本解决方案。
  • Method: 框架包含两个模块:1) 害虫检测模块使用轻量级CNN结合原型元学习,在少量训练样本下准确识别害虫;2) 农药推荐模块结合作物类型和生长阶段等环境因素,推荐安全环保的农药。
  • Result: 提出的轻量级CNN在保持高精度的同时显著降低计算复杂度,决策支持系统减少对传统化学农药的依赖,促进可持续实践,适合实时精准农业应用。
  • Conclusion: 该轻量级框架为小农户提供了有效的害虫管理解决方案,通过结合害虫检测和智能农药推荐,在保持高精度的同时降低计算需求,具有实际应用潜力。

[18] TotalFM: An Organ-Separated Framework for 3D-CT Vision Foundation Models

Kohei Yamamoto,Tomohiro Kikuchi

Main category: cs.CV

TL;DR: TotalFM是一个基于器官分离概念的放射学基础模型,通过自动化创建器官体积-发现句子对,结合自监督预训练和对比学习,在3D-CT图像与语言表达对应学习中平衡计算效率和表示能力。

  • Motivation: 放射学基础模型在处理3D-CT体数据时面临计算成本约束的挑战,需要一种既能保持表示能力又能提高计算效率的实用方法。
  • Method: 1) 基于器官分离概念,利用分割技术和LLM处理放射学报告,自动化创建140,000个系列的器官体积-发现句子对;2) 结合VideoMAE自监督预训练和体积-文本对的对比学习。
  • Result: 在零样本器官级病变分类任务中,相比CT-CLIP在83%器官上获得更高F1分数,相比Merlin在64%器官上表现更好;在零样本发现级病变分类中,相比Merlin在83%类别上获得更高AUROC;在放射学报告生成任务中达到与现有VLM相当的性能。
  • Conclusion: 器官分离学习框架为3D-CT基础模型的实际应用提供了现实有效的设计指南,展示了在临床评估环境中具有高泛化性能。

[19] S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding

He Wang,Longteng Guo,Pengkang Huo,Xuanxu Lin,Yichen Yuan,Jie Jiang,Jing Liu

Main category: cs.CV

TL;DR: S1-MMAlign是一个大规模多学科科学多模态数据集,包含1550万高质量图像-文本对,通过AI增强管道改善科学图像与文本的对齐质量。

  • Motivation: 多模态学习在通用领域取得革命性进展,但在科学发现中的应用受到科学图像与稀疏文本描述之间深刻语义鸿沟的阻碍。现有科学数据集中图像与文本对齐质量差,需要高质量数据集来推动科学AI发展。
  • Method: 从250万开放获取科学论文中收集1550万图像-文本对,涵盖物理、生物、工程等多学科。采用基于Qwen-VL多模态大模型的语义增强管道,通过论文摘要和引用上下文重新描述图像,改善对齐质量。
  • Result: 增强后的数据集质量显著提升:基于SciBERT的伪困惑度指标显示语义模糊性降低,CLIP分数表明图像-文本对齐改善了18.21%。数据集涵盖多种视觉模态,包括实验装置、热图、显微图像等。
  • Conclusion: S1-MMAlign为推进科学推理和跨模态理解提供了基础资源,是AI for Science时代的重要数据集,已在HuggingFace公开可用。

[20] ActErase: A Training-Free Paradigm for Precise Concept Erasure via Activation Patching

Yi Sun,Xinhao Zhong,Hongyan Li,Yimin Zhou,Junhao Li,Bin Chen,Xuan Wang

Main category: cs.CV

TL;DR: 提出ActErase方法,无需训练即可高效擦除扩散模型中的敏感概念,在多个任务上达到SOTA性能

  • Motivation: 现有概念擦除方法依赖数据密集和计算昂贵的微调,限制了实际应用。需要更轻量高效的解决方案来解决扩散模型的安全、版权和伦理问题。
  • Method: 基于激活差异分析,通过提示对分析识别激活差异区域,提取目标激活并在前向传播中动态替换输入激活,实现无需训练的概念擦除。
  • Result: 在三个关键擦除任务(裸露内容、艺术风格、物体移除)上达到最先进的擦除性能,有效保持模型生成能力,并展现对抗攻击的强鲁棒性。
  • Conclusion: ActErase为扩散模型中的概念操作建立了新的即插即用范式,实现了轻量级但有效的概念擦除,解决了现有方法的局限性。

[21] FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering

Chaodong Tong,Qi Zhang,Chen Li,Lei Jiang,Yanbing Liu

Main category: cs.CV

TL;DR: FaithSCAN:一种轻量级网络,通过利用视觉语言模型的丰富内部信号来检测VQA中的幻觉,无需昂贵的人工标注,在多个基准测试中显著优于现有方法。

  • Motivation: VQA中的忠实性幻觉问题严重影响了模型在安全关键应用中的可靠性。现有检测方法存在计算开销大、依赖外部资源、仅捕捉有限不确定性等局限性,需要更高效、鲁棒的解决方案。
  • Method: 提出FaithSCAN轻量级网络,利用VLM的多种内部信号:token级解码不确定性、中间视觉表示和跨模态对齐特征。通过分支证据编码和不确定性感知注意力融合这些信号,并采用低成本策略自动生成模型依赖的监督信号进行训练。
  • Result: 在多个VQA基准测试中,FaithSCAN在效果和效率上都显著优于现有方法。深入分析显示幻觉源于视觉感知、跨模态推理和语言解码的系统性内部状态变化,不同内部信号提供互补的诊断线索。
  • Conclusion: FaithSCAN通过利用VLM的丰富内部信号,提供了一种高效、准确的VQA幻觉检测方法。研究揭示了幻觉产生于模型内部状态的系统性变化,且幻觉模式因VLM架构而异,为理解多模态幻觉的根本原因提供了新见解。

[22] Disentangling Hardness from Noise: An Uncertainty-Driven Model-Agnostic Framework for Long-Tailed Remote Sensing Classification

Chi Ding,Junxiao Xue,Xinyi Yin,Shi Chen,Yunyun Shi,Yiduo Wang,Fengjian Xue,Xuecheng Wu

Main category: cs.CV

TL;DR: 提出DUAL框架,通过证据深度学习动态分离预测不确定性为认知不确定性和偶然不确定性,分别处理长尾分布中的困难样本和噪声样本

  • Motivation: 遥感数据中普遍存在长尾分布,传统方法难以区分困难样本和噪声样本,导致对噪声数据的过拟合
  • Method: 基于证据深度学习,提出DUAL框架:1) 使用认知不确定性作为样本稀缺性指标,指导困难样本的重加权策略;2) 利用偶然不确定性量化数据模糊性,采用自适应标签平滑机制抑制噪声影响
  • Result: 在多个数据集和不同骨干网络上验证了框架的有效性和泛化能力,超越了TGN和SADE等强基线方法
  • Conclusion: DUAL框架能够有效区分长尾分布中的困难样本和噪声样本,通过不确定性分解机制提升模型性能

[23] SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting

Jun-Jee Chao,Volkan Isler

Main category: cs.CV

TL;DR: SV-GS:一种在稀疏观测下重建动态物体的框架,使用骨架引导的变形场,在稀疏视角和时间采样下实现高质量动态重建。

  • Motivation: 现实世界中动态物体重建面临挑战,因为观测通常稀疏(如监控摄像头),而传统方法需要密集的多视角视频。现有方法在稀疏观测下效果不佳,需要新方法处理这种高度不适定问题。
  • Method: 提出SV-GS框架,利用粗略骨架图和初始静态重建作为输入,优化骨架驱动的变形场。该变形场包含粗粒度骨架关节姿态估计器和细粒度变形模块,仅使关节姿态估计器随时间变化,实现平滑运动插值同时保留几何细节。
  • Result: 在合成数据集上,比现有方法在稀疏观测下PSNR提升达34%;在真实数据集上,使用显著更少的帧数就能达到与密集单目视频方法相当的性能。还证明可用扩散生成先验替代初始静态重建,提高实用性。
  • Conclusion: SV-GS能够在稀疏观测条件下有效重建动态物体,通过骨架引导的变形场实现高质量运动估计和几何细节保留,为现实世界动态重建提供了实用解决方案。

[24] Towards Automated Differential Diagnosis of Skin Diseases Using Deep Learning and Imbalance-Aware Strategies

Ali Anaissi,Ali Braytee,Weidong Huang,Junaid Akram,Alaa Farhat,Jie Hua

Main category: cs.CV

TL;DR: 基于Swin Transformer的深度学习模型在ISIC2019数据集上对8种皮肤病变分类达到87.71%准确率,可作为临床诊断支持工具和患者自我评估辅助。

  • Motivation: 皮肤疾病日益普遍,但皮肤科医生资源有限,需要智能工具支持患者和临床医生进行及时准确的皮肤疾病诊断。
  • Method: 使用公开皮肤疾病图像数据集进行预训练,提取视觉特征;改进模型架构,优化数据预处理流程,应用针对性数据增强技术;最终采用Swin Transformer模型。
  • Result: 在ISIC2019数据集上对8种皮肤病变类别实现了87.71%的预测准确率。
  • Conclusion: 该模型展示了作为临床医生诊断支持工具和患者自我评估辅助的潜力,有助于解决皮肤科医疗资源不足的问题。

[25] TimeColor: Flexible Reference Colorization via Temporal Concatenation

Bryan Constantine Sadihin,Yihao Meng,Michael Hua Wang,Matteo Jiahao Chen,Hang Su

Main category: cs.CV

TL;DR: TimeColor:基于草图的视频着色模型,支持异构多参考输入,通过时空对应掩码注意力提升色彩保真度、身份一致性和时间稳定性

  • Motivation: 现有着色模型通常只使用单一参考(如场景首帧),忽略了角色设定图、背景图像等其他条件数据源,限制了着色质量和一致性
  • Method: 1) 将参考编码为额外潜在帧进行时间拼接,实现固定参数下的多参考处理;2) 使用时空对应掩码注意力增强主体-参考绑定;3) 采用模态分离的RoPE索引机制
  • Result: 在SAKUGA-42M数据集上的实验表明,TimeColor在单参考和多参考协议下均优于现有基线,在色彩保真度、身份一致性和时间稳定性方面均有提升
  • Conclusion: TimeColor通过支持异构多参考输入和时空对应注意力机制,有效解决了传统视频着色模型的局限性,为高质量视频着色提供了新方案

[26] VisNet: Efficient Person Re-Identification via Alpha-Divergence Loss, Feature Fusion and Dynamic Multi-Task Learning

Anns Ijaz,Muhammad Azeem Javed

Main category: cs.CV

TL;DR: VisNet是一个高效的人体再识别模型,通过多尺度特征融合、语义聚类和动态权重平均等技术,在保持高精度的同时大幅降低计算成本,适合实时监控和移动应用部署。

  • Motivation: 当前人体再识别方法虽然准确率高,但计算成本过高,不适合计算资源有限的实时监控和移动应用场景。需要开发既准确又高效的模型。
  • Method: 1. 多尺度特征融合:融合ResNet50的1-4阶段特征,无需并行路径
  1. 语义聚类:通过基于规则的伪标签进行解剖学身体分区,引入空间约束
  2. 动态权重平均:平衡分类语义正则化
  3. FIDI损失函数:改进度量学习任务
  • Result: 在Market-1501数据集上达到87.05% Rank-1准确率和77.65% mAP,仅需32.41M参数和4.601 GFLOPs计算量,显著优于现有方法。
  • Conclusion: VisNet提供了一个实用的人体再识别解决方案,在保持高精度的同时大幅降低计算复杂度,适合计算资源有限的实时监控和移动应用部署。

[27] ReMA: A Training-Free Plug-and-Play Mixing Augmentation for Video Behavior Recognition

Feng-Qi Cui,Jinyang Huang,Sirui Zhao,Jinglong Guo,Qifan Cai,Xin Yan,Zhi Liu

Main category: cs.CV

TL;DR: ReMA是一种用于视频行为识别的表示感知混合增强方法,通过控制混合过程来扩展表示同时保持类条件稳定性,无需额外监督或可训练参数。

  • Motivation: 现有视频数据增强策略大多是扰动驱动的,会引入不受控制的变异,放大非判别性因素,削弱类内分布结构,导致表示漂移和跨时间尺度增益不一致。
  • Method: 提出表示感知混合增强(ReMA),包含两个互补机制:表示对齐机制(RAM)在分布对齐约束下进行结构化类内混合,抑制无关类内漂移;动态选择机制(DSM)生成运动感知时空掩码来定位扰动,引导其远离判别敏感区域并促进时间连贯性。
  • Result: 在多个视频行为基准测试上的广泛实验表明,ReMA在不同时空粒度上一致地提升了泛化能力和鲁棒性。
  • Conclusion: ReMA通过联合控制混合的方式和位置,无需额外监督或可训练参数即可提高表示鲁棒性,有效解决了现有视频增强方法的问题。

[28] Depth-Synergized Mamba Meets Memory Experts for All-Day Image Reflection Separation

Siyan Fang,Long Peng,Yuntao Wang,Ruonan Wei,Yuehuan Wang

Main category: cs.CV

TL;DR: 提出DMDNet用于图像反射分离,通过深度感知扫描引导Mamba关注显著结构,深度协同状态空间模型调节状态激活,记忆专家补偿模块利用跨图像历史知识,并在夜间反射分离任务上表现优异。

  • Motivation: 现有单图像反射分离方法在传输层和反射层对比度相似时容易混淆,夜间场景下这一问题更加严重,需要更有效的解决方案。
  • Method: 提出深度记忆解耦网络(DMDNet):1) 深度感知扫描(DAScan)引导Mamba关注语义连贯的显著结构;2) 深度协同状态空间模型(DS-SSM)通过深度调节状态激活敏感性;3) 记忆专家补偿模块(MECM)利用跨图像历史知识提供层特定补偿;4) 构建夜间图像反射分离数据集(NightIRS)。
  • Result: DMDNet在白天和夜间场景下均优于现有最先进方法,特别是在夜间反射分离任务上表现优异。
  • Conclusion: DMDNet通过深度引导的结构关注、深度调节的状态空间建模和跨图像历史知识补偿,有效解决了反射分离中对比度相似时的混淆问题,特别是在挑战性的夜间场景中。

[29] HarmoniAD: Harmonizing Local Structures and Global Semantics for Anomaly Detection

Naiqi Zhang,Chuancheng Shi,Jingtong Dou,Wenhua Wu,Fei Shen,Jianhua Cao

Main category: cs.CV

TL;DR: HarmoniAD是一个频率引导的双分支框架,通过高频和低频路径分别建模结构和语义,解决工业缺陷检测中的结构-语义权衡问题。

  • Motivation: 工业产品质量检测中,微小缺陷检测至关重要。现有方法面临结构-语义权衡:结构导向模型对噪声敏感,语义导向模型常忽略细节。需要平衡精细结构和全局语义。
  • Method: 提出HarmoniAD频率引导双分支框架:1) 使用CLIP图像编码器提取特征;2) 转换到频域;3) 解耦为高频和低频路径。高频分支配备细粒度结构注意力模块(FSAM)增强纹理边缘检测小异常;低频分支使用全局结构上下文模块(GSCM)捕获长程依赖保持语义一致性;4) 采用多类联合训练策略。
  • Result: 在MVTec-AD、VisA和BTAD数据集上实现了最先进的性能,同时具备高灵敏度和鲁棒性。
  • Conclusion: HarmoniAD通过频率引导的双分支设计有效平衡了精细细节和全局语义,解决了工业异常检测中的结构-语义权衡问题,实现了优异的检测性能。

[30] Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion

Yingzhi Tang,Qijian Zhang,Junhui Hou

Main category: cs.CV

TL;DR: JGA-LBD提出了一种从单张RGB图像重建3D数字人的统一框架,通过联合潜在表示和桥接扩散方法同时建模几何和外观,避免了传统解耦方法的不一致性问题。

  • Motivation: 现有方法通常采用解耦的几何估计和外观合成流程,这阻碍了统一重建并导致不一致性。从单张RGB图像实现一致且高保真的3D数字人重建具有挑战性。
  • Method: 1) 将所有输入条件统一为3D高斯表示,通过共享稀疏变分自编码器压缩到统一潜在空间;2) 采用桥接扩散方法,从目标潜在代码的部分观测开始,专注于推断缺失部分;3) 专用解码模块从推断的潜在表示中提取完整3D人体几何结构并渲染新视角。
  • Result: 实验表明JGA-LBD在几何保真度和外观质量方面优于当前最先进方法,包括具有挑战性的野外场景。代码将公开提供。
  • Conclusion: JGA-LBD通过联合潜在表示和桥接扩散统一了3D数字人的几何和外观建模,实现了从单张RGB图像的高质量重建,解决了传统解耦方法的不一致性问题。

[31] Intelligent Traffic Surveillance for Real-Time Vehicle Detection, License Plate Recognition, and Speed Estimation

Bruce Mugizi,Sudi Murindanyi,Olivia Nakacwa,Andrew Katumba

Main category: cs.CV

TL;DR: 开发基于计算机视觉的实时智能交通监控系统,用于乌干达等发展中国家,实现车辆检测、车牌识别、速度估计和自动罚单发送功能。

  • Motivation: 超速是道路死亡事故的主要原因,特别是在乌干达等发展中国家,这些地区道路安全基础设施有限,急需有效的交通管理解决方案。
  • Method: 使用计算机视觉技术:YOLOv8进行车牌检测,CNN和Transformer模型进行字符识别,基于感兴趣区域进行速度估计,并通过Africa's Talking API实现自动短信罚单发送。
  • Result: 车牌检测mAP达97.9%,CNN字符识别CER为3.85%,Transformer模型显著降低至1.79%,速度估计误差在10 km/h内,系统能自动关联用户信息并发送罚单。
  • Conclusion: 该系统能有效满足资源受限环境的交通管理需求,通过自动化交通执法有潜力减少道路事故,在发展中国家具有重要应用价值。

[32] OmniVaT: Single Domain Generalization for Multimodal Visual-Tactile Learning

Liuxiang Qiu,Hui Da,Yuzhen Niu,Tiesong Zhao,Yang Cao,Zheng-Jun Zha

Main category: cs.CV

TL;DR: 提出OmniVaT框架解决视觉-触觉学习中的单域泛化问题,通过多模态分数傅里叶适配器和离散树生成模块,有效缓解模态差异和域偏移。

  • Motivation: 视觉-触觉学习面临两个主要挑战:1) 视觉和触觉图像之间的模态差异;2) 由非标准化触觉传感器和不一致数据收集程序引起的域差距。这些挑战被形式化为单域泛化多模态VTL任务。
  • Method: 提出OmniVaT框架,包含两个核心模块:1) 多模态分数傅里叶适配器(MFFA),将视觉和触觉嵌入映射到统一的嵌入-频率空间,缓解模态差异;2) 离散树生成(DTG)模块,通过分层树结构获得多样可靠的分数表示,增强对未见域中波动域偏移的适应性。
  • Result: 大量实验证明OmniVaT在SDG-VTL任务上具有优越的跨域泛化性能。
  • Conclusion: OmniVaT首次成功解决了单域泛化多模态视觉-触觉学习任务,通过创新的模态对齐和域适应机制,为具身智能感知物理世界提供了有效解决方案。

[33] Efficient Prediction of Dense Visual Embeddings via Distillation and RGB-D Transformers

Söhnke Benedikt Fischedick,Daniel Seichter,Benedict Stephan,Robin Schmidt,Horst-Michael Gross

Main category: cs.CV

TL;DR: DVEFormer:一种基于RGB-D Transformer的高效方法,通过知识蒸馏预测密集文本对齐视觉嵌入,替代传统语义分割,支持自然语言查询和3D地图构建

  • Motivation: 家庭环境中,机器人需要全面理解周围环境才能与未经训练的人类有效互动。传统语义分割方法使用固定预定义类别,缺乏灵活性,无法支持自然语言查询等高级应用
  • Method: 提出DVEFormer,基于RGB-D Transformer架构,通过知识蒸馏从Alpha-CLIP教师模型学习细粒度像素级嵌入。该方法不直接进行传统语义分割,而是学习文本对齐的视觉嵌入,支持线性探测实现传统分割,同时支持文本查询
  • Result: 在常见室内数据集上评估显示,方法达到竞争性性能并满足实时要求:完整模型26.3 FPS,小型变体77.0 FPS(NVIDIA Jetson AGX Orin)。定性结果展示了实际应用中的有效性
  • Conclusion: DVEFormer可作为传统分割方法的直接替代,同时支持灵活的自然语言查询和无缝集成到移动机器人3D建图流程中,为家庭环境机器人提供更直观的交互能力

[34] Mask-Conditioned Voxel Diffusion for Joint Geometry and Color Inpainting

Aarya Sumuk

Main category: cs.CV

TL;DR: 提出一个轻量级的两阶段框架,用于联合修复受损3D对象的几何结构和颜色,适用于文化遗产数字修复。第一阶段用2D卷积网络预测损伤掩码,第二阶段用扩散式3D U-Net进行掩码条件修复。

  • Motivation: 该研究旨在解决文化遗产文物的数字修复问题,特别是需要同时修复3D对象的几何结构和颜色的场景。传统方法可能无法有效处理复杂的损伤模式,需要一种能够联合处理几何和颜色修复的轻量级方法。
  • Method: 采用两阶段框架:1)损伤定位阶段:使用2D卷积网络在体素化对象的RGB切片上预测损伤掩码,并聚合成体积掩码;2)修复阶段:使用扩散式3D U-Net直接在体素网格上进行掩码条件修复,联合预测占用率和颜色,采用复合损失函数。
  • Result: 在合成损伤的纹理文物数据集上评估,使用标准几何和颜色指标。相比基于对称性的基线方法,该方法在固定32^3分辨率下产生更完整的几何结构和更一致的颜色重建。
  • Conclusion: 显式的掩码条件是指导体积扩散模型进行联合3D几何和颜色修复的实用方法,为文化遗产数字修复提供了有效的解决方案。

[35] BHaRNet: Reliability-Aware Body-Hand Modality Expertized Networks for Fine-grained Skeleton Action Recognition

Seungyeon Cho,Tae-kyun Kim

Main category: cs.CV

TL;DR: 提出概率双流框架统一可靠性建模与多模态集成,通过校准无关预处理、概率Noisy-OR融合和跨模态集成,提升基于骨架的细粒度动作识别性能。

  • Motivation: 现有基于骨架的动作识别方法主要关注大尺度身体动作,忽略了对手部细微关节的建模,而这些对于细粒度识别至关重要。需要一种能够处理不确定性和统一多模态信息的框架。
  • Method: 提出概率双流框架:1) 校准无关预处理管道,直接从原生坐标学习;2) 概率Noisy-OR融合,稳定可靠性感知的双流学习;3) 骨架到RGB的跨模态集成,耦合四种骨架模态与视觉表示。
  • Result: 在多个基准数据集(NTU RGB+D 60/120、PKU-MMD、N-UCLA)和新定义的手部中心基准上均表现出持续改进和鲁棒性,在噪声和异构条件下表现稳健。
  • Conclusion: 该框架通过统一可靠性建模和多模态集成,有效解决了细粒度动作识别中手部关节建模不足的问题,在多种条件下展现出优越性能。

[36] NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Yuxue Yang,Lue Fan,Ziqi Shi,Junran Peng,Feng Wang,Zhaoxiang Zhang

Main category: cs.CV

TL;DR: NeoVerse是一个多功能的4D世界模型,能够进行4D重建、新轨迹视频生成和丰富的下游应用,通过免姿态前馈4D重建和在线单目退化模式模拟等技术,实现了对多样化单目视频的可扩展性。

  • Motivation: 当前4D世界建模方法存在可扩展性限制,要么依赖昂贵且专业的多视角4D数据,要么需要繁琐的训练预处理。本文旨在构建一个能够扩展到多样化单目视频的完整流程。
  • Method: NeoVerse采用免姿态前馈4D重建、在线单目退化模式模拟以及其他对齐良好的技术,使模型能够处理各种领域的多样化单目视频。
  • Result: NeoVerse在标准重建和生成基准测试中实现了最先进的性能,同时具备对不同领域的泛化能力。
  • Conclusion: NeoVerse通过创新的可扩展设计,成功构建了一个多功能的4D世界模型,能够处理多样化单目视频并实现高质量的4D重建和视频生成。

[37] RoLID-11K: A Dashcam Dataset for Small-Object Roadside Litter Detection

Tao Wu,Qing Xu,Xiangjian He,Oakleigh Weekes,James Brown,Wenting Duan

Main category: cs.CV

TL;DR: RoLID-11K是首个用于车载摄像头路边垃圾检测的大规模数据集,包含超过11,000张标注图像,涵盖英国各种驾驶条件,具有长尾分布和小目标检测的挑战性特征。

  • Motivation: 当前路边垃圾监测依赖劳动密集型调查和公众报告,空间覆盖有限。现有的视觉垃圾检测数据集主要针对街景静态图像、航拍场景或水环境,无法反映车载摄像头视频中垃圾目标极小、稀疏且嵌入杂乱路边背景的独特特征。
  • Method: 提出了RoLID-11K数据集,包含超过11,000张标注图像,涵盖英国多样驾驶条件。对广泛的现代检测器进行基准测试,包括精度导向的transformer架构和实时YOLO模型,分析它们在这一挑战性任务上的优势和局限性。
  • Result: CO-DETR及相关transformer架构实现了最佳定位精度,而实时模型受限于粗糙的特征层次结构。该数据集为动态驾驶场景中的极端小目标检测建立了具有挑战性的基准。
  • Conclusion: RoLID-11K数据集旨在支持开发可扩展、低成本的路边垃圾监测系统,为动态驾驶场景中的极端小目标检测提供了重要基准,数据集已开源。

[38] ABFR-KAN: Kolmogorov-Arnold Networks for Functional Brain Analysis

Tyler Ward,Abdullah Imran

Main category: cs.CV

TL;DR: 提出ABFR-KAN模型,结合先进脑功能表示组件与KAN网络,改进功能连接分析,在自闭症谱系障碍分类中优于现有方法

  • Motivation: 传统基于图谱分割的功能连接分析存在选择偏差和缺乏个体特异性的问题,需要改进功能连接估计的可靠性和解剖学一致性
  • Method: 提出ABFR-KAN模型,结合transformer分类网络、先进脑功能表示组件和Kolmogorov-Arnold Networks (KANs),减少结构偏差并增强功能连接估计
  • Result: 在ABIDE I数据集上的广泛实验(包括跨站点评估和消融研究)表明,ABFR-KAN在自闭症谱系障碍分类中持续优于最先进的基线方法
  • Conclusion: ABFR-KAN通过结合先进脑功能表示和KAN网络,有效缓解了传统功能连接分析的结构偏差问题,提高了自闭症分类性能

[39] Robust Assembly Progress Estimation via Deep Metric Learning

Kazuma Miura,Sarthak Pathak,Kazunori Umeda

Main category: cs.CV

TL;DR: 提出基于四元组损失的异常检测网络,用于智能工厂中产品装配进度的鲁棒估计,即使存在遮挡或视觉变化微小的情况

  • Motivation: 智能工厂需要自动监控产品装配进度以提高效率,但多日手动装配任务中,现有方法在相邻任务视觉变化细微时容易误分类
  • Method: 使用基于四元组损失的学习方法处理异常图像,并设计定制数据加载器策略性选择训练样本以提高估计精度
  • Result: 在桌面PC装配数据集上,提出的异常四元组网络优于现有方法,估计精度提升1.3%,相邻任务间误分类减少1.9%
  • Conclusion: 该方法能够有效处理遮挡和视觉变化微小的情况,在小规模数据集上实现了鲁棒的装配进度估计

[40] CPPO: Contrastive Perception for Vision Language Policy Optimization

Ahmad Rezaei,Mohsen Gholami,Saeed Ranjbar Alvar,Kevin Cannons,Mohammad Asiful Hossain,Zhou Weimin,Shunbo Zhou,Yong Zhang,Mohammad Akbari

Main category: cs.CV

TL;DR: CPPO是一种用于微调视觉语言模型的对比感知策略优化方法,通过检测感知标记并引入对比感知损失来改进多模态推理,无需额外模型,训练更高效。

  • Motivation: 虽然强化学习在语言模型推理方面取得了进展,但扩展到多模态推理需要同时改进感知和推理能力。先前工作主要使用显式感知奖励,但难以将感知标记与推理标记分离,需要额外LLM、真实数据、强制分离感知与推理,或对所有输出标记不加区分地应用奖励。
  • Method: CPPO通过扰动输入图像下模型输出的熵变化来检测感知标记,然后在RL目标函数中引入对比感知损失(CPL),该损失强制模型在信息保留扰动下保持一致性,在信息移除扰动下保持敏感性。
  • Result: 实验表明CPPO超越了先前的感知奖励方法,同时避免了额外模型,使训练更加高效和可扩展。
  • Conclusion: CPPO通过创新的感知标记检测和对比感知损失,有效解决了多模态强化学习中感知与推理分离的挑战,提供了一种更高效、可扩展的视觉语言模型微调方法。

[41] MotionPhysics: Learnable Motion Distillation for Text-Guided Simulation

Miaowei Wang,Jakub Zadrożny,Oisin Mac Aodha,Amir Vaxman

Main category: cs.CV

TL;DR: MotionPhysics:一个端到端可微分框架,通过自然语言提示为3D场景推断合理的物理参数,无需真实轨迹或标注视频指导,利用多模态大语言模型估计材料参数,并通过可学习的运动蒸馏损失从预训练视频扩散模型中提取运动先验。

  • Motivation: 传统3D物体和材料模拟需要专家知识和耗时的物理参数调整才能达到期望的动态行为,这限制了非专业用户的使用。需要一种能够从自然语言输入自动推断物理参数的方法。
  • Method: 1. 使用多模态大语言模型估计材料参数值,并约束在合理范围内;2. 提出可学习的运动蒸馏损失,从预训练视频扩散模型中提取鲁棒的运动先验,同时最小化外观和几何归纳偏置来指导模拟。
  • Result: 在30多个场景中评估,包括真实世界、人工设计和AI生成的3D物体,涵盖弹性固体、金属、泡沫、沙子以及牛顿和非牛顿流体等多种材料。MotionPhysics能生成由自然语言指导的视觉真实动态模拟,超越现有技术水平,同时自动确定物理上合理的参数。
  • Conclusion: MotionPhysics通过自然语言提示为3D场景推断物理参数,无需真实轨迹或标注视频,实现了视觉真实的动态模拟,为物理模拟提供了更易访问的解决方案。

[42] All-in-One Video Restoration under Smoothly Evolving Unknown Weather Degradations

Wenrui Li,Hongtao Chen,Yao Xiao,Wangmeng Zuo,Jiantao Zhou,Yonghong Tian,Xiaopeng Fan

Main category: cs.CV

TL;DR: 提出ORCANet网络处理视频中平滑演化的未知退化问题,通过粗强度估计去雾模块和流提示生成模块实现时间一致的视频恢复。

  • Motivation: 现有视频恢复方法主要关注逐帧退化变化,忽略了真实世界中退化过程的时间连续性。实际中退化类型和强度随时间平滑演化,多种退化可能共存或逐渐过渡。
  • Method: 提出SEUD场景和ORCANet网络:1) CIED模块利用物理先验估计雾强度并提供粗去雾特征初始化;2) FPG模块提取退化特征,生成捕获片段级退化类型的静态提示和适应帧级强度变化的动态提示;3) 标签感知监督机制提高不同退化下静态提示表示的可区分性。
  • Result: 大量实验表明ORCANet在恢复质量、时间一致性和鲁棒性方面优于图像和视频基线方法。
  • Conclusion: 提出了SEUD场景和ORCANet网络,有效处理视频中平滑演化的未知退化问题,实现了高质量、时间一致的视频恢复。

[43] FreeText: Training-Free Text Rendering in Diffusion Transformers via Attention Localization and Spectral Glyph Injection

Ruiqiang Zhang,Hengyi Wang,Chang Liu,Guanjie Wang,Zehua Ma,Weiming Zhang

Main category: cs.CV

TL;DR: FreeText是一个无需训练、即插即用的框架,通过利用DiT模型的内在机制来改进文本渲染,解决了多行布局、密集排版和中文等长尾脚本的文本渲染问题。

  • Motivation: 大规模文本到图像扩散模型在开放域合成方面表现出色,但在精确文本渲染方面仍有困难,特别是对于多行布局、密集排版和中文等长尾脚本。现有解决方案通常需要昂贵的重新训练或严格的外部布局约束,这会降低美观性并限制灵活性。
  • Method: FreeText将问题分解为"在哪里写"和"写什么"。对于"在哪里写",通过读取图像到文本注意力的token-wise空间归因来定位书写区域,使用sink-like tokens作为稳定的空间锚点,并通过拓扑感知细化产生高置信度掩码。对于"写什么",引入频谱调制字形注入(SGMI),注入噪声对齐的字形先验,通过频域带通调制来增强字形结构并抑制语义泄漏。
  • Result: 在Qwen-Image、FLUX.1-dev和SD3变体上进行了广泛实验,覆盖longText-Benchmark、CVTG和CLT-Bench,结果显示在文本可读性方面获得了一致的提升,同时很大程度上保持了语义对齐和美学质量,推理开销适中。
  • Conclusion: FreeText是一个无需训练、即插即用的框架,通过利用DiT模型的内在机制有效改进了文本渲染,解决了现有方法在灵活性、美观性和成本方面的限制,为文本到图像模型的精确文本渲染提供了实用解决方案。

[44] Boosting Segment Anything Model to Generalize Visually Non-Salient Scenarios

Guangqian Guo,Pengfei Chen,Yong Guo,Huafeng Chen,Boqiang Zhang,Shan Gao

Main category: cs.CV

TL;DR: VNS-SAM 是一个改进的 Segment Anything Model,专门针对视觉非显著性场景(前景与背景对比度低)进行优化,通过两个新设计增强SAM对非显著性特征的感知能力,同时保持其零样本泛化能力。

  • Motivation: SAM在视觉非显著性场景(前景与背景对比度低)中表现不佳,现有方法难以捕捉准确轮廓,需要专门针对这类场景进行优化。
  • Method: 提出VNS-SAM,包含两个核心设计:1) Mask-Edge Token Interactive decoder,2) Non-Salient Feature Mining module。这些设计通过利用SAM的低层特征来增强对非显著性特征的感知,同时保持参数和计算开销最小化。
  • Result: VNS-SAM在多种VNS分割任务中表现出优越性能,特别是在零样本设置下。额外参数可在4小时内优化完成,证明了其可行性和实用性。建立了包含35K+图像的VNS-SEG数据集用于训练和评估。
  • Conclusion: VNS-SAM有效提升了SAM在视觉非显著性场景中的分割能力,同时保持了原始零样本泛化能力,具有广泛的现实应用潜力。

[45] DynaDrag: Dynamic Drag-Style Image Editing by Motion Prediction

Jiacheng Sui,Yujie Zhou,Li Niu

Main category: cs.CV

TL;DR: 提出DynaDrag方法,采用预测-移动框架进行拖拽式图像编辑,通过动态调整有效处理点来提升性能

  • Motivation: 现有拖拽式图像编辑方法存在跟踪丢失、跟踪模糊、源图像与目标图像差距大、中间点不合理导致编辑性差等问题
  • Method: 提出预测-移动框架,迭代执行运动预测和运动监督:运动预测预测处理点应移动的位置,运动监督据此拖动处理点,并动态调整有效处理点
  • Result: 在人脸和人体数据集上的实验展示了相对于先前工作的优越性
  • Conclusion: DynaDrag通过预测-移动框架和动态调整处理点,有效解决了现有拖拽式图像编辑方法的问题,实现了更好的像素级图像操作

[46] SingBAG Pro: Accelerating point cloud-based iterative reconstruction for 3D photoacoustic imaging under arbitrary array

Shuang Li,Yibing Wang,Jian Gao,Chulhong Kim,Seongwook Choi,Yu Zhang,Qian Chen,Yao Yao,Changhui Li

Main category: cs.CV

TL;DR: SlingBAG Pro是一种用于不规则几何换能器阵列的3D光声成像重建算法,通过点云迭代和分层优化策略,在保持高质量重建的同时减少换能器数量并显著缩短重建时间。

  • Motivation: 传统迭代重建算法在处理不规则阵列配置时面临计算复杂度高、内存需求大和重建时间长的问题,而临床应用中需要高质量3D光声成像但受限于空间和成本,因此需要开发适用于任意阵列几何形状的高效重建方法。
  • Method: 基于SlingBAG方法的点云迭代概念,扩展其兼容性至任意阵列几何形状。采用分层优化策略,结合零梯度滤波和迭代过程中逐步增加的时间采样率,快速去除冗余空间点云,加速收敛。
  • Result: 与原始SlingBAG算法相比,SlingBAG Pro在不规则阵列几何下实现了高达2.2倍的点云基3D光声重建速度提升。通过仿真和活体小鼠实验验证了方法的有效性。
  • Conclusion: SlingBAG Pro算法能够在不规则阵列几何下实现高质量、高效率的3D光声成像重建,减少所需换能器数量,显著缩短重建时间,为临床应用提供了有前景的解决方案。

[47] A Comprehensive Dataset for Human vs. AI Generated Image Detection

Rajarshi Roy,Nasrin Imanpour,Ashhar Aziz,Shashwat Bajpai,Gurpreet Singh,Shwetangshu Biswas,Kapil Wanaskar,Parth Patwa,Subhankar Ghosh,Shreyas Dixit,Nilesh Ranjan Pal,Vipula Rawte,Ritvik Garimella,Gaytri Jena,Vasu Sharma,Vinija Jain,Aman Chadha,Aishwarya Naresh Reganti,Amitava Das

Main category: cs.CV

TL;DR: MS COCOAI是一个包含96000个真实和合成图像的数据集,用于AI生成图像检测,支持两类任务:图像真实性分类和生成模型识别。

  • Motivation: 随着Stable Diffusion、DALL-E等生成式AI工具的普及,合成图像越来越难以与真实照片区分,这导致了误导性内容和虚假信息的传播,因此检测AI生成图像变得至关重要。
  • Method: 基于MS COCO数据集构建MS COCOAI数据集,使用五种生成器(Stable Diffusion 3、2.1、SDXL、DALL-E 3、MidJourney v6)生成合成图像,共包含96000个数据点,并提出了两类检测任务。
  • Result: 创建了公开可用的MS COCOAI数据集,支持AI生成图像检测研究,包括图像真实性分类和生成模型识别两个具体任务。
  • Conclusion: MS COCOAI数据集为解决AI生成图像检测问题提供了重要资源,有助于应对生成式AI带来的虚假信息挑战,促进相关研究发展。

[48] AEGIS: Exploring the Limit of World Knowledge Capabilities for Unified Mulitmodal Models

Jintao Lin,Bowen Dong,Weikang Shi,Chenyang Lei,Suiyun Zhang,Rui Liu,Xihui Liu

Main category: cs.CV

TL;DR: AEGIS是一个用于评估统一多模态模型世界知识应用能力的多任务基准,包含1050个手动标注的问题,覆盖21个主题和6种推理类型,并提出确定性检查表评估方法以提高评估可靠性。

  • Motivation: 现有基准在评估统一多模态模型的世界知识应用能力方面存在不足,它们通常是孤立的单任务评估,诊断能力有限。需要更全面的多任务基准来评估模型在不同任务(视觉理解、生成、编辑等)中应用世界知识的能力。
  • Method: 提出AEGIS基准,包含1050个具有挑战性的手动标注问题,涵盖21个主题(STEM、人文、日常生活等)和6种推理类型。同时提出确定性检查表评估方法,用原子化的"是/否"判断替代模糊的基于提示的评分,提高评估可靠性。
  • Result: 实验表明大多数统一多模态模型存在严重的世界知识缺陷,性能在复杂推理任务中显著下降。简单的插件式推理模块可以部分缓解这些弱点,为未来研究指明了方向。
  • Conclusion: 世界知识推理是统一多模态模型发展的关键前沿领域,需要更全面的评估方法和改进的推理能力来提升模型在实际应用中的表现。

[49] A Cascaded Information Interaction Network for Precise Image Segmentation

Hewen Xiao,Jie Mei,Guangfu Ma,Weiren Wu

Main category: cs.CV

TL;DR: 提出一种集成全局信息引导模块的级联卷积神经网络,通过融合多尺度特征提升复杂场景下的图像分割精度

  • Motivation: 视觉感知对自主行为至关重要,但复杂场景下的鲁棒分割仍具挑战。传统方法在视觉杂乱或模糊环境中表现不佳,需要更有效的特征融合机制
  • Method: 提出级联卷积神经网络,集成新颖的全局信息引导模块,有效融合低层纹理细节与高层语义特征,克服单尺度特征提取的局限性
  • Result: 在基准图像分割数据集上的实验表明,该框架实现了卓越的精度,优于现有最先进方法,在视觉杂乱或模糊环境中表现尤为突出
  • Conclusion: 该方法显著提升了分割精度,展示了在实际机器人应用中部署的潜力,为复杂场景下的视觉感知提供了有效解决方案

[50] GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval

Mingyu Jeon,Sunjae Yoon,Jonghee Kim,Junyeoung Kim

Main category: cs.CV

TL;DR: 提出GranAlign框架,通过粒度感知对齐解决零样本视频时刻检索中的语义粒度不匹配问题,无需训练即可实现最先进性能。

  • Motivation: 零样本视频时刻检索中,文本查询与视频内容之间存在语义粒度不匹配问题。现有方法虽然利用预训练知识进行对齐,但未能平衡不同模态间的语义粒度,导致检索不准确。
  • Method: 提出GranAlign框架,包含两种互补技术:1) 基于粒度的查询重写,生成不同语义粒度的查询;2) 查询感知的标题生成,将查询意图嵌入视频内容。通过将多级查询与查询无关和查询感知的标题配对,有效解决语义不匹配。
  • Result: 在三个主要基准测试(QVHighlights、Charades-STA、ActivityNet-Captions)上均达到新的最先进水平,在具有挑战性的QVHighlights数据集上实现了3.23%的mAP@avg显著提升。
  • Conclusion: GranAlign框架通过粒度感知对齐有效解决了零样本视频时刻检索中的语义粒度不匹配问题,无需训练即可显著提升性能,为跨模态对齐提供了新思路。

[51] SafeMo: Linguistically Grounded Unlearning for Trustworthy Text-to-Motion Generation

Yiling Wang,Zeyu Zhang,Yiran Wang,Hao Tang

Main category: cs.CV

TL;DR: SafeMo:首个连续空间中的安全文本到动作生成框架,通过最小化动作遗忘实现安全生成,避免离散码本替换的缺陷

  • Motivation: 现有基于离散VQ-VAE码本替换的安全T2M方法存在两个关键缺陷:1)替换被良性提示重用的码本条目会导致日常任务性能下降;2)离散token方法引入量化和平滑度损失,导致伪影和抖动过渡。此外,现有文本到动作数据集包含不安全内容,不适合安全驱动的机器学习。
  • Method: 提出SafeMo框架,集成最小化动作遗忘(MMU)的两阶段机器学习遗忘策略,在连续空间中实现安全人体动作生成,避免码本损失。同时构建首个安全文本到动作数据集SafeMoVAE-29K,包含重写的安全文本提示和连续精炼动作。
  • Result: 实验显示SafeMo在HumanML3D和Motion-X数据集上分别达到2.5倍和14.4倍更高的遗忘集FID,相比之前的SOTA方法LCR,在安全提示上的良性性能相当或更好。
  • Conclusion: SafeMo在连续空间中实现了安全人体动作生成,避免了离散码本替换的缺陷,提供了更好的安全-效用权衡,是首个可信赖的动作生成框架。

[52] Modality Dominance-Aware Optimization for Embodied RGB-Infrared Perception

Xianhui Liu,Siqi Jiang,Yi Xie,Yuqing Lin,Siao Liu

Main category: cs.CV

TL;DR: 本文提出了一种模态主导感知指数(MDI)来量化RGB-IR多模态检测中的优化偏差,并开发了模态主导感知跨模态学习(MDACL)框架,通过分层跨模态引导和对抗均衡正则化来平衡优化动态,在三个RGB-IR基准上实现了最先进性能。

  • Motivation: RGB-IR多模态感知对于复杂物理环境中的嵌入式多媒体系统至关重要。尽管现有的跨模态融合方法有所进展,但由于模态特征不对称(信息密度和特征质量差异)导致的优化偏差问题尚未得到充分探索。这种偏差会导致训练过度强调主导模态,阻碍有效融合。
  • Method: 1. 提出模态主导指数(MDI),通过联合建模特征熵和梯度贡献来量化模态主导程度;2. 开发模态主导感知跨模态学习(MDACL)框架,包括:分层跨模态引导(HCG)增强特征对齐,对抗均衡正则化(AER)平衡融合过程中的优化动态。
  • Result: 在三个RGB-IR基准数据集上的大量实验表明,MDACL有效缓解了优化偏差问题,并实现了最先进的性能。
  • Conclusion: 通过量化模态主导现象并设计相应的平衡机制,MDACL框架能够有效解决RGB-IR多模态检测中的优化偏差问题,为多模态感知系统提供了更稳健的融合方案。

[53] Noise-Robust Tiny Object Localization with Flows

Huixin Sun,Linlin Yang,Ronyu Chen,Kerui Gu,Baochang Zhang,Angela Yao,Xianbin Cao

Main category: cs.CV

TL;DR: TOLF提出了一种针对微小目标检测的噪声鲁棒定位框架,通过归一化流进行误差建模和不确定性引导优化,解决了微小目标对标注噪声敏感的问题。

  • Motivation: 尽管通用目标检测取得了显著进展,但微小目标的性能仍然明显低于正常尺度目标。研究发现微小目标对标注噪声高度敏感,优化严格的定位目标容易导致噪声过拟合。
  • Method: 提出了Tiny Object Localization with Flows (TOLF)框架:1)使用归一化流进行灵活的误差建模,捕捉复杂的非高斯预测分布;2)采用不确定性感知的梯度调制机制,抑制从高不确定性、易受噪声影响的样本中学习。
  • Result: 在三个数据集上的广泛实验验证了方法的有效性。特别是在AI-TOD数据集上,TOLF将DINO基线提升了1.2% AP。
  • Conclusion: TOLF通过流式误差建模和不确定性引导优化,有效解决了微小目标检测中的噪声鲁棒性问题,显著提升了微小目标的检测性能。

[54] RePose: A Real-Time 3D Human Pose Estimation and Biomechanical Analysis Framework for Rehabilitation

Junxiao Xue,Pavel Smirnov,Ziao Li,Yunyun Shi,Shi Chen,Xinyi Yin,Xiaohan Yue,Lei Wang,Yiduo Wang,Feng Lin,Yijia Chen,Xiao Ma,Xiaoran Yan,Qing Zhang,Fengjian Xue,Xuecheng Wu

Main category: cs.CV

TL;DR: RePose:用于康复训练的实时3D人体姿态估计与运动分析方法,通过多摄像头RGB视频输入实现端到端的实时监测与评估,提供即时反馈指导患者正确执行康复动作。

  • Motivation: 康复训练中需要实时监测和评估患者动作,提供即时反馈以帮助患者正确执行康复练习,但目前缺乏有效的实时3D姿态估计和运动分析方法。
  • Method: 1)提出端到端实时人体姿态估计与运动分析统一流程;2)针对多人干扰的医疗康复场景设计快速跟踪方法(单帧<1ms);3)改进SmoothNet用于实时姿态估计,减少误差并恢复真实运动状态;4)使用Unity平台进行实时监测评估并显示肌肉应力状况。
  • Result: 实现了实时3D人体姿态估计和运动分析,能够在康复训练中实时监测患者动作,提供即时反馈和指导,帮助患者正确执行康复练习并恢复肌肉力量和运动功能。
  • Conclusion: RePose方法为康复训练提供了有效的实时监测和评估工具,通过快速跟踪、改进的姿态估计和Unity可视化平台,能够有效辅助患者进行康复训练,具有临床应用价值。

[55] HyperPriv-EPN: Hypergraph Learning with Privileged Knowledge for Ependymoma Prognosis

Shuren Gabriel Yu,Sikang Ren,Yongji Tian

Main category: cs.CV

TL;DR: 提出HyperPriv-EPN框架,利用术后文本特权信息训练术前MRI模型,通过超图学习和双流蒸馏实现知识迁移,无需推理时文本输入

  • Motivation: 室管膜瘤术前预后对治疗规划至关重要,但MRI缺乏术后手术报告中的语义信息。现有多模态方法无法在推理时利用不可用的特权文本数据
  • Method: 提出基于超图的学习使用特权信息框架,采用分割图策略:共享编码器处理教师图(含术后信息)和学生图(仅术前数据),通过双流蒸馏让学生图从视觉特征中"幻觉"语义社区结构
  • Result: 在311名患者的多中心队列中验证,达到最先进的诊断准确率和生存分层效果,有效将专家知识迁移到术前场景
  • Conclusion: 该方法解锁了历史术后数据的价值,可在无需推理时文本的情况下指导新患者的诊断,实现术前预后预测

[56] Quality Detection of Stored Potatoes via Transfer Learning: A CNN and Vision Transformer Approach

Shrikant Kapse,Priyankkumar Dhrangdhariya,Priya Kedia,Manasi Patwardhan,Shankar Kausley,Soumyadipta Maiti,Beena Rai,Shirish Karande

Main category: cs.CV

TL;DR: 基于图像的深度学习为马铃薯储存质量监测提供非侵入式解决方案,通过预训练模型实现发芽检测、重量损失估计和保质期预测,DenseNet在发芽检测上达到98.03%准确率。

  • Motivation: 解决马铃薯储存期间的质量监测挑战,包括发芽检测、重量损失估计和保质期预测,为自动化分拣和库存系统提供非侵入式、可扩展的解决方案。
  • Method: 在200天控制温湿度条件下收集图像和重量数据,利用ResNet、VGG、DenseNet和Vision Transformer等预训练架构,设计两个专门模型:高精度二分类发芽检测器和多分类重量损失/保质期预测器。
  • Result: DenseNet在发芽检测上达到98.03%准确率;保质期预测在粗分类(2-5类)时准确率超过89.83%,细分类(6-8类)时因视觉差异细微和数据有限而准确率下降。
  • Conclusion: 图像模型可集成到自动化系统中,实现早期发芽识别和动态分类,改善库存管理、差异化定价和减少食物浪费。未来需开发适应不同品种和储存条件的通用模型。

[57] Reconstructing Building Height from Spaceborne TomoSAR Point Clouds Using a Dual-Topology Network

Zhaiyu Chen,Yuanyuan Wang,Yilei Shi,Xiao Xiang Zhu

Main category: cs.CV

TL;DR: 提出首个从TomoSAR点云直接生成高分辨率建筑高度图的学习框架,通过双拓扑网络处理噪声和不规则点分布,填补数据空洞

  • Motivation: 星载SAR层析成像(TomoSAR)能提供天气无关的侧面观测,捕捉建筑立面结构,但点云存在噪声、各向异性分布和数据空洞问题,阻碍准确高度重建
  • Method: 提出基于学习的双拓扑网络框架,交替处理点分支(建模不规则散射特征)和网格分支(强制空间一致性),联合处理两种表示以去噪和填补缺失区域
  • Result: 在慕尼黑和柏林数据上的大量实验验证了方法的有效性,框架还可扩展到融合光学卫星影像,进一步提升重建质量
  • Conclusion: 这是首个直接从TomoSAR点云进行大规模城市高度映射的概念验证,为城市应用提供了有前景的替代方案

[58] CRoPS: A Training-Free Hallucination Mitigation Framework for Vision-Language Models

Neeraj Anand,Samyak Jha,Udbhav Bamba,Rahul Rahaman

Main category: cs.CV

TL;DR: CRoPS:无需训练的幻觉缓解框架,通过选择性移除关键文本标记构建幻觉模型,结合广义对比解码,在多个基准测试中显著提升LVLM可靠性

  • Motivation: 大型视觉语言模型存在幻觉生成问题,现有无需训练方法存在两个局限:1) 对幻觉来源假设过于狭窄;2) 在生成后期效果下降(此时幻觉最可能发生)
  • Method: 提出CRoPS框架:1) 构建新型幻觉模型,通过选择性移除关键文本标记来捕捉幻觉效应;2) 引入广义对比解码,整合多个幻觉模型以表示多样化的幻觉来源
  • Result: CHAIR分数提升20%,在六个基准测试和三个LVLM家族中取得一致增益,优于现有最先进的无需训练方法
  • Conclusion: CRoPS通过更全面地建模幻觉来源,有效缓解LVLM的幻觉问题,提高模型在实际应用中的可靠性

[59] Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians

Melonie de Almeida,Daniela Ivanova,Tong Shi,John H. Williamson,Paul Henderson

Main category: cs.CV

TL;DR: 提出一个新颖的框架,通过单次前向传播从单张图像构建3D高斯场景表示并采样合理的物体运动,实现快速、相机引导的视频生成,无需迭代去噪来注入物体运动。

  • Motivation: 现有基于单张图像的视频生成方法在用户可控性(如修改相机路径)方面不足,且现有相机控制方法在准确建模相机运动、保持时间一致性和几何完整性方面存在困难。虽然使用中间3D表示的方法有前景,但两步处理流程仍无法实现完全的时间一致性。
  • Method: 提出一个新颖框架,通过单次前向传播从单张图像构建3D高斯场景表示并采样合理的物体运动。该方法无需迭代去噪来注入物体运动到渲染帧中,实现了快速、相机引导的视频生成。
  • Result: 在KITTI、Waymo、RealEstate10K和DL3DV-10K数据集上的广泛实验表明,该方法在视频质量和推理效率方面达到了最先进的水平。
  • Conclusion: 该方法通过单次前向传播实现3D高斯场景构建和物体运动采样,为快速、相机引导的视频生成提供了有效解决方案,在保持时间一致性和几何完整性的同时实现了更好的用户可控性。

[60] Efficient Deep Demosaicing with Spatially Downsampled Isotropic Networks

Cory Fan,Wenchao Zhang

Main category: cs.CV

TL;DR: 本文提出在图像去马赛克任务中,通过空间下采样可以显著提升各向同性网络的效率和性能,并设计了JD3Net网络验证了这一观点。

  • Motivation: 大多数现代数字成像应用发生在移动平台上,需要轻量高效的网络。传统的各向同性网络(残差中残差网络)通常避免空间下采样,导致计算成本过高,不适合移动应用。本文挑战这一传统设计理念。
  • Method: 采用基于DeepMAD的数学架构设计技术,设计简单全卷积网络,比较有无下采样的版本。设计了包含下采样的变体JD3Net,并在多种图像去马赛克和联合去马赛克去噪任务上进行测试。
  • Result: 实验表明下采样能提升经验性能。JD3Net在多种图像去马赛克和联合去马赛克去噪任务上表现出强大的经验性能。
  • Conclusion: 与以往各向同性网络设计相反,空间下采样到一定程度可以改善各向同性网络的效率和性能,这为移动平台上的深度学习去马赛克应用提供了更实用的解决方案。

[61] RGS-SLAM: Robust Gaussian Splatting SLAM with One-Shot Dense Initialization

Wei-Tse Cheng,Yen-Jen Chiou,Yuan-Fu Yang

Main category: cs.CV

TL;DR: RGS-SLAM提出了一种基于高斯分布的SLAM框架,使用训练免费的多视角对应关系三角化来初始化高斯分布,替代了传统的残差驱动密度化方法,提高了稳定性和渲染质量。

  • Motivation: 传统GS-SLAM使用残差驱动密度化方法逐步添加高斯分布,这种方法在纹理丰富和杂乱场景中可能不够稳定和高效。作者希望开发一种更鲁棒、收敛更快的高斯SLAM框架。
  • Method: RGS-SLAM采用训练免费的对应关系到高斯初始化方法:1)从DINOv3描述符中提取密集多视角对应关系;2)通过置信度感知的内点分类器进行精炼;3)一次性三角化生成结构感知的高斯种子分布;4)在优化前建立良好分布的高斯先验。
  • Result: 在TUM RGB-D和Replica数据集上评估,RGS-SLAM相比现有高斯和基于点的SLAM系统,实现了竞争性或更优的定位和重建精度。收敛速度提升约20%,在纹理丰富和杂乱场景中渲染保真度更高,同时保持实时映射性能(最高925 FPS)。
  • Conclusion: RGS-SLAM通过训练免费的对应关系三角化初始化方法,提供了更稳定、更快速的高斯SLAM解决方案,与现有GS-SLAM管道完全兼容,在保持实时性能的同时提高了渲染质量和收敛速度。

[62] Detecting Performance Degradation under Data Shift in Pathology Vision-Language Model

Hao Guan,Li Zhou

Main category: cs.CV

TL;DR: 该研究提出结合输入数据分布偏移检测和输出置信度指标的方法,用于监测病理视觉语言模型在数据偏移下的性能退化,开发了DomainSAT工具包进行系统分析。

  • Motivation: 视觉语言模型在医疗图像分析中表现出色,但部署后当输入数据分布发生变化时,性能可能会下降。由于缺乏标注数据,检测这种性能退化对临床可靠性至关重要,但目前仍具挑战性。
  • Method: 1. 开发DomainSAT轻量级工具箱,集成代表性偏移检测算法,提供图形界面进行数据偏移直观探索;2. 研究输入级数据偏移和输出级预测行为;3. 提出基于置信度的无标签性能退化指标,直接捕捉模型预测置信度的变化;4. 在大规模病理数据集上进行肿瘤分类实验。
  • Result: 输入数据偏移检测能有效识别分布变化并提供早期诊断信号,但不总是对应实际性能退化。基于置信度的退化指标与性能退化密切相关,可作为输入偏移检测的有效补充。结合两种方法能更可靠地检测和解释数据偏移下VLMs的性能退化。
  • Conclusion: 结合输入数据偏移检测和输出置信度指标提供了一个实用且互补的框架,用于监测数字病理学中基础模型的可靠性,有助于确保临床应用的稳定性。

[63] Multi-Level Feature Fusion for Continual Learning in Visual Quality Inspection

Johannes C. Bauer,Paul Geng,Stephan Trattnig,Petr Dokládal,Rüdiger Daub

Main category: cs.CV

TL;DR: 提出多级特征融合方法,在制造业质量检测中实现高效持续学习,减少可训练参数同时保持性能

  • Motivation: 深度神经网络在制造业质量检测中应用受限,特别是在再制造等变化场景中,产品类型和缺陷模式频繁变化,需要模型持续适应新条件,同时避免灾难性遗忘
  • Method: 采用多级特征融合方法,利用预训练网络不同深度的特征表示,减少可训练参数的同时保持性能
  • Result: 方法在多种质量检测问题上能达到端到端训练的性能水平,但使用显著更少的可训练参数,同时减少灾难性遗忘并提高对新产品或缺陷的泛化鲁棒性
  • Conclusion: 多级特征融合方法为制造业质量检测中的持续学习问题提供了高效解决方案,平衡了计算效率和性能保持的需求

[64] Grading Handwritten Engineering Exams with Multimodal Large Language Models

Janez Perš,Jon Muhovič,Andrej Košir,Boštjan Murovec

Main category: cs.CV

TL;DR: 提出一个基于多模态大语言模型的端到端手写STEM考试自动评分工作流,通过参考解答和分级规则实现可靠评分,在真实课程测验中达到约8分的平均绝对误差。

  • Motivation: 手写STEM考试能够捕捉开放式推理和图表,但人工评分速度慢且难以扩展。需要一种能够保持标准考试流程(A4纸、无约束手写)的自动评分解决方案。
  • Method: 采用多阶段设计:1) 格式/存在性检查防止空白答案评分;2) 独立评分器集成;3) 监督器聚合;4) 刚性模板和确定性验证生成可审计报告。仅需讲师提供手写参考解答和简短评分规则,参考解答转换为文本摘要用于条件评分。
  • Result: 在斯洛文尼亚真实课程测验(包含手绘电路图)上评估,使用GPT-5.2和Gemini-3 Pro作为后端,完整流程与讲师评分平均绝对差异约8分,偏差低,估计手动审查触发率约17%。消融实验显示简化提示和移除参考解答会显著降低准确性并引入系统性过评分。
  • Conclusion: 结构化提示和参考解答基础对于手写STEM考试自动评分至关重要,提出的多阶段工作流能够实现可靠、可扩展的评分,同时保持标准考试流程。

[65] Unified Primitive Proxies for Structured Shape Completion

Zhaiyu Chen,Yuqing Wang,Xiao Xiang Zhu

Main category: cs.CV

TL;DR: UniCo提出了一种结构化形状补全方法,通过专用路径解码基元,在单次前向传播中预测完整的几何、语义和内点成员关系,显著优于现有基线。

  • Motivation: 重新思考基元与点云之间的交互方式,发现将基元解码放在专用路径中并关注共享形状特征更为有效,旨在从非完整数据中实现结构化3D理解。
  • Method: 引入基元代理作为可学习查询,通过上下文化生成可直接组装的输出;采用在线目标更新的训练策略耦合基元和点云;在单次前向传播中预测完整几何、语义和内点成员关系。
  • Result: 在合成和真实世界基准测试中,使用四种独立组装求解器,UniCo始终优于近期基线,将Chamfer距离降低达50%,法线一致性提高达7%。
  • Conclusion: 为从非完整数据中实现结构化3D理解提供了有吸引力的方案,通过专用基元解码路径和统一表示学习取得了显著性能提升。

[66] Fusion-SSAT: Unleashing the Potential of Self-supervised Auxiliary Task by Feature Fusion for Generalized Deepfake Detection

Shukesh Reddy,Srijan Das,Abhijit Das

Main category: cs.CV

TL;DR: 利用自监督学习作为辅助任务优化深度伪造检测,通过融合自监督任务的特征表示提升跨数据集泛化能力

  • Motivation: 探索自监督学习作为辅助任务如何优化广义深度伪造检测的主要任务,寻找最有效的训练方案组合
  • Method: 研究自监督学习与主要任务的不同训练方案组合,融合自监督辅助任务的特征表示来增强主要任务
  • Result: 在DF40、FaceForensics++、Celeb-DF、DFD、FaceShifter、UADFV等多个数据集上实验,相比当前最先进的检测器,在跨数据集评估中表现出更好的泛化能力
  • Conclusion: 融合自监督辅助任务的特征表示是一种强大的特征表示方法,能够充分利用自监督和主要任务的潜力,为主任务带来更好的性能表现

[67] Two Deep Learning Approaches for Automated Segmentation of Left Ventricle in Cine Cardiac MRI

Wenhui Chu,Nikolaos V. Tsekos

Main category: cs.CV

TL;DR: 提出LNU-Net和IBU-Net两种深度学习架构用于心脏MRI左心室分割,基于层归一化和实例-批量归一化改进U-Net,在805张MRI图像上表现优于现有方法。

  • Motivation: 左心室分割对心脏影像的临床量化和诊断至关重要,需要更准确的分割方法来提高诊断效果。
  • Method: 提出LNU-Net(基于层归一化U-Net)和IBU-Net(基于实例-批量归一化U-Net)两种架构,采用下采样特征提取和上采样精确定位路径,结合仿射变换和弹性变形进行数据增强。
  • Result: 在包含45名患者805张MRI图像的数据集上评估,LNU-Net和IBU-Net在Dice系数和平均垂直距离指标上优于原始U-Net和其他先进方法。
  • Conclusion: 提出的两种归一化改进U-Net架构能有效提升左心室分割精度,为心脏影像诊断提供更可靠的工具。

[68] AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

Jiewen Chan,Zhenjun Zhao,Yu-Lun Liu

Main category: cs.CV

TL;DR: AdaGaR提出自适应Gabor表示和时序连续性约束的统一框架,用于从单目视频重建动态3D场景,在频率适应性和运动平滑性方面取得SOTA性能。

  • Motivation: 现有方法存在局限性:单高斯基元本质上是低通滤波器,标准Gabor函数存在能量不稳定问题,且缺乏时序连续性约束导致插值时出现运动伪影。需要同时解决频率适应性和时序连续性的挑战。
  • Method: 1. 自适应Gabor表示:通过可学习频率权重和自适应能量补偿扩展高斯函数,平衡细节捕捉和稳定性。2. 时序连续性:使用三次Hermite样条和时序曲率正则化确保平滑运动演化。3. 自适应初始化:结合深度估计、点跟踪和前景掩码建立早期训练中的稳定点云分布。
  • Result: 在Tap-Vid DAVIS数据集上取得SOTA性能:PSNR 35.49、SSIM 0.9433、LPIPS 0.0723。在帧插值、深度一致性、视频编辑和立体视图合成等任务上表现出强大的泛化能力。
  • Conclusion: AdaGaR通过统一解决频率适应性和时序连续性,在动态场景建模中实现了高频细节捕捉和平滑运动演化,为单目视频动态3D重建提供了有效解决方案。

cs.SD

[69] Investigating the Viability of Employing Multi-modal Large Language Models in the Context of Audio Deepfake Detection

Akanksha Chuchra,Shukesh Reddy,Sudeepta Mishra,Abhijit Das,Abhinav Dhall

Main category: cs.SD

TL;DR: 探索多模态大语言模型在音频深度伪造检测中的应用,通过音频输入结合文本提示进行检测,发现模型在零样本下表现不佳,但经过微调后对域内数据有良好表现。

  • Motivation: 虽然视觉语言模型和多模态大语言模型在图像和视频深度伪造检测中表现出色,但它们在音频深度伪造检测方面的应用尚未充分探索。本研究旨在探索MLLMs在音频深度伪造检测中的潜力。
  • Method: 结合音频输入与多种文本提示作为查询,探索MLLMs学习跨模态鲁棒表示的能力。使用文本感知和上下文丰富的问答式提示进行二元决策,采用特征引导推理促进深度多模态理解。评估Qwen2-Audio-7B-Instruct和SALMONN两种模型在零样本和微调两种模式下的性能。
  • Result: 实验表明,音频结合多提示方法可能是音频深度伪造检测的可行方向。模型在没有任务特定训练时表现不佳,难以泛化到域外数据。但在少量监督下,模型在域内数据上取得了良好性能,显示出音频深度伪造检测的潜力。
  • Conclusion: 多模态大语言模型结合音频和多提示方法在音频深度伪造检测中具有潜力,特别是在经过适当微调后对域内数据表现良好,但需要进一步改进以增强泛化能力。

eess.SY

[70] Next Generation Intelligent Low-Altitude Economy Deployments: The O-RAN Perspective

Aly Sabri Abdalla,Vuk Marojevic

Main category: eess.SY

TL;DR: 提出基于O-RAN的低空经济框架,通过RAN智能控制器协调AI应用,实现无人机群在复杂环境中的实时轨迹规划。

  • Motivation: 当前低空经济应用(如无人机物流、应急响应)在复杂信号受限环境中面临挑战,缺乏实时、弹性、上下文感知的空中节点编排,以及专门针对LAE任务的AI集成不足。
  • Method: 引入O-RAN支持的LAE框架,利用解耦的RAN架构、开放接口和RAN智能控制器实现闭环AI优化。通过语义感知rApp作为地形解释器,为基于强化学习的xApp提供语义指导,进行无人机群实时轨迹规划。
  • Result: 评估了所提架构的可行性和性能,调查了可用于LAE研究的无人机测试平台能力,并提出了关键研究挑战和标准化需求。
  • Conclusion: O-RAN框架为低空经济任务提供了AI优化、任务关键的解决方案,通过语义感知和强化学习的协同实现了复杂环境中的无人机群智能编排。

cs.LG

[71] Optimized Hybrid Feature Engineering for Resource-Efficient Arrhythmia Detection in ECG Signals: An Optimization Framework

Moirangthem Tiken Singh,Manibhushan Yaikhom

Main category: cs.LG

TL;DR: 提出一个资源高效的以数据为中心的心律失常检测框架,通过特征工程使高维数据线性可分,在MIT-BIH和INCART数据集上达到98.44%准确率,模型仅8.54KB,推理延迟0.46μs。

  • Motivation: 心血管疾病特别是心律失常是全球主要死因,需要IoMT持续监测。现有深度学习方法计算开销大,不适合资源受限的边缘设备。
  • Method: 提出资源高效的数据中心框架,优先特征工程而非模型复杂度。通过时间频率小波分解与图论结构描述符(如PageRank中心性)结合,创建混合特征空间,再使用互信息和递归消除进行特征选择,最终使用可解释的超轻量线性分类器。
  • Result: 在MIT-BIH和INCART数据集上达到98.44%诊断准确率,模型大小仅8.54KB,分类推理延迟0.46μs,每搏处理管道52ms,确保实时操作。相比压缩模型KD-Light(25KB,96.32%准确率)有数量级效率提升。
  • Conclusion: 该框架通过优化特征工程使复杂心律失常数据线性可分,实现了资源受限边缘设备上的高效心律失常检测,为无电池心脏传感器提供了可行解决方案。

[72] Deep Delta Learning

Yifan Zhang,Yifeng Liu,Mengdi Wang,Quanquan Gu

Main category: cs.LG

TL;DR: DDL提出了一种可学习的几何变换来调制残差连接,通过Delta算子实现身份映射、正交投影和几何反射之间的动态插值,从而增强网络对复杂状态转换的建模能力。

  • Motivation: 标准残差网络的身份快捷连接虽然缓解了梯度消失问题,但强加了严格的加性归纳偏置,限制了网络建模复杂状态转换的能力。
  • Method: 提出深度Delta学习(DDL),用可学习的、数据相关的几何变换(Delta算子)调制身份快捷连接。该算子是对单位矩阵的秩-1扰动,由反射方向向量k(X)和门控标量β(X)参数化。
  • Result: 通过谱分析表明,门控β(X)能够在身份映射、正交投影和几何反射之间实现动态插值。将残差更新重构为同步秩-1注入,门控作为动态步长控制旧信息的擦除和新特征的写入。
  • Conclusion: DDL统一了网络对其层间转移算子谱的显式控制,能够在保持门控残差架构稳定训练特性的同时,建模复杂的非单调动态。

[73] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

Shengjun Zhang,Zhang Zhang,Chensheng Dai,Yueqi Duan

Main category: cs.LG

TL;DR: 提出E-GRPO方法,通过熵感知的组相对策略优化增强流匹配模型的人类偏好对齐,通过合并低熵步骤为高熵SDE采样步骤来解决多步去噪中的稀疏奖励问题。

  • Motivation: 现有方法在多步去噪优化中存在稀疏和模糊的奖励信号问题,观察到高熵步骤能实现更高效探索,而低熵步骤导致无区别的轨迹。
  • Method: 提出E-GRPO(熵感知组相对策略优化),合并连续低熵步骤形成高熵SDE采样步骤,其他步骤使用ODE采样,并引入多步组归一化优势函数。
  • Result: 在不同奖励设置下的实验结果表明该方法有效提升了性能。
  • Conclusion: 通过熵感知的步骤合并和组相对优势计算,E-GRPO能更有效地处理流匹配模型中的人类偏好对齐问题。

[74] Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

Taekyung Ki,Sangwon Jang,Jaehyeong Jo,Jaehong Yoon,Sung Ju Hwang

Main category: cs.LG

TL;DR: 提出Avatar Forcing框架,通过扩散强制建模实时用户-头像交互,实现低延迟(约500ms)的互动头像生成,并引入无标签学习的直接偏好优化方法提升表达力。

  • Motivation: 当前说话头像生成模型缺乏真正的互动感,往往生成单向响应而缺乏情感参与。需要解决两个关键挑战:在因果约束下实时生成运动,以及无需额外标注数据学习富有表现力的反应。
  • Method: 提出Avatar Forcing框架,通过扩散强制建模实时用户-头像交互,处理多模态输入(用户音频和动作)。引入直接偏好优化方法,利用丢弃用户条件构建的合成负样本进行无标签学习。
  • Result: 框架实现低延迟实时交互(约500ms),相比基线加速6.8倍。生成的响应性和表达性头像运动在超过80%的对比中优于基线。
  • Conclusion: Avatar Forcing框架成功解决了实时互动头像生成的关键挑战,实现了低延迟、富有表现力的用户-头像交互,为虚拟通信和内容创作提供了更真实的互动体验。

[75] FedHypeVAE: Federated Learning with Hypernetwork Generated Conditional VAEs for Differentially Private Embedding Sharing

Sunny Gupta,Amit Sethi

Main category: cs.LG

TL;DR: FedHypeVAE:基于超网络的差分隐私联邦数据合成框架,通过条件VAE架构和客户端感知解码器解决非IID数据下的嵌入级数据生成问题,提供形式化隐私保护。

  • Motivation: 现有联邦数据共享方法在非IID客户端异构性下表现不佳,且缺乏对梯度泄露的形式化保护。需要一种既能个性化生成层又能保护隐私的联邦数据合成框架。
  • Method: 基于条件VAE架构,用超网络生成客户端感知解码器和类条件先验,替代单一全局解码器和固定潜在先验。采用差分隐私优化超网络,结合局部MMD对齐和Lipschitz正则化增强非IID条件下的稳定性。
  • Result: FedHypeVAE在非IID联邦设置下实现了隐私保护的嵌入级数据合成,通过中性元代码支持领域无关合成,元代码混合提供可控多领域覆盖。
  • Conclusion: FedHypeVAE在生成器层面统一了个性化、隐私保护和分布对齐,为联邦设置下的隐私保护数据合成建立了理论基础。

cs.RO

[76] DefVINS: Visual-Inertial Odometry for Deformable Scenes

Samuel Cerezo,Javier Civera

Main category: cs.RO

TL;DR: DefVINS是一个视觉惯性里程计框架,通过嵌入变形图显式分离刚性IMU锚定状态和非刚性变形,提高非刚性场景下的鲁棒性。

  • Motivation: 传统视觉惯性里程计(VIO)基于刚性假设,在可变形场景中会过度拟合局部非刚性运动或产生严重漂移,需要新的方法来处理非刚性变形。
  • Method: 使用嵌入变形图表示非刚性变形,将刚性IMU锚定状态与非刚性变形分离;通过可观测性分析指导变形自由度的渐进激活;采用基于条件的激活策略防止在激励不足时的病态更新。
  • Result: 结合惯性约束和可观测性感知的变形激活策略,在非刚性环境中提高了系统的鲁棒性,通过消融研究验证了该方法的有效性。
  • Conclusion: DefVINS通过显式分离刚性和非刚性运动,结合惯性测量和可观测性分析,为可变形场景提供了更鲁棒的视觉惯性里程计解决方案。

cond-mat.mes-hall

[77] Automated electrostatic characterization of quantum dot devices in single- and bilayer heterostructures

Merritt P. R. Losert,Dario Denora,Barnaby van Straaten,Michael Chan,Stefan D. Oosterhout,Lucas Stehouwer,Giordano Scappucci,Menno Veldhorst,Justyna P. Zwolak

Main category: cond-mat.mes-hall

TL;DR: 提出自动化协议,从量子点电荷稳定图中提取电容特性,结合机器学习、图像处理和对象检测技术,无需人工标注即可分析大规模数据集。

  • Motivation: 随着量子点自旋量子比特向更大、更复杂的设备架构发展,快速、自动化的设备表征和数据分析工具变得至关重要。手动解释电荷稳定图中的特征耗时、易错且难以规模化。
  • Method: 整合机器学习、图像处理和对象检测技术,自动识别和跟踪电荷稳定图中的电荷跃迁线,无需人工标注即可分析大规模数据集。
  • Result: 在锗单量子阱(平面)和锗双量子阱(双层)量子点设备上验证了该方法。通过分析大量电荷稳定图,能够统计估计物理相关量,如相对杠杆臂和电容耦合。
  • Conclusion: 该协议能够快速提取量子点设备的有用、非平凡信息,为大规模量子点设备表征提供了自动化解决方案。

cs.AI

[78] From Clay to Code: Typological and Material Reasoning in AI Interpretations of Iranian Pigeon Towers

Abolhassan Pishahang,Maryam Badiei

Main category: cs.AI

TL;DR: 研究探讨生成式AI如何解读乡土建筑中的智慧,以伊朗鸽塔为例测试三种扩散模型在不同提示阶段的表现,发现AI能复制几何模式但误解材料和气候逻辑。

  • Motivation: 探索生成式AI系统如何理解和再现乡土建筑形式中蕴含的建筑智慧,分析AI在视觉相似性和建筑推理之间的界限。
  • Method: 以伊朗鸽塔为案例研究,测试Midjourney v6、DALL-E 3和基于Stable Diffusion XL的DreamStudio三种扩散模型,采用参考性、适应性和推测性三个提示阶段,使用五标准评估框架(类型学、材料性、环境、真实性和文化特异性)。
  • Result: AI能可靠地复制几何模式,但误解材料和气候推理逻辑;参考图像提高真实性但限制创造力,无参考时产生创新但文化模糊的结果;定义了视觉相似性与建筑推理之间的界限。
  • Conclusion: 计算乡土推理框架可用于分析AI如何感知、扭曲和重新想象传统设计智慧,揭示了AI在建筑理解方面的局限性。

[79] Explicit Abstention Knobs for Predictable Reliability in Video Question Answering

Jorge Ortiz

Main category: cs.AI

TL;DR: 研究视频问答中基于置信度的弃权机制能否可靠控制错误率,以及分布偏移下的鲁棒性。使用NExT-QA数据集和Gemini 2.0 Flash模型,发现置信度阈值在分布内能提供机制性控制,但在分布偏移下可靠性下降。

  • Motivation: 在视觉语言模型的高风险部署中,需要选择性预测机制,让系统在不确定时弃权而非冒险犯错。研究目标是验证基于置信度的弃权能否在视频问答中提供可靠的错误率控制,以及这种控制在分布偏移下是否保持鲁棒。
  • Method: 使用NExT-QA数据集和Gemini 2.0 Flash模型进行研究。通过扫描置信度阈值epsilon来生成风险-覆盖率的权衡曲线,分析置信度阈值对错误率的控制效果。
  • Result: 1. 置信度阈值在分布内能提供机制性控制,通过调整阈值可以平滑地权衡风险与覆盖率,有效降低错误率。2. 在分布偏移下,这种控制的可靠性下降。
  • Conclusion: 基于置信度的弃权机制在视频问答中能提供有效的错误率控制,但在面对分布偏移时可靠性有限,需要进一步研究更鲁棒的弃权策略。

eess.IV

[80] Deep Learning Approach for the Diagnosis of Pediatric Pneumonia Using Chest X-ray Imaging

Fatemeh Hosseinabadi,Mohammad Mojtaba Rohani

Main category: eess.IV

TL;DR: 该研究比较了三种CNN架构(ResNetRS、RegNet和EfficientNetV2)在儿科肺炎X光图像自动分类中的性能,RegNet表现最佳

  • Motivation: 儿科肺炎是全球儿童发病和死亡的主要原因,及时准确诊断面临挑战,包括放射学专业知识有限以及儿科成像的生理和程序复杂性
  • Method: 从公开数据集中提取1000张儿科胸部X光图像,预处理后进行二元分类(肺炎/正常)。使用ResNetRS、RegNet和EfficientNetV2三种CNN架构,基于ImageNet预训练权重进行迁移学习微调
  • Result: RegNet表现最佳,准确率92.4%,灵敏度90.1%;ResNetRS准确率91.9%,灵敏度89.3%;EfficientNetV2准确率88.5%,灵敏度88.1%
  • Conclusion: 深度学习模型特别是RegNet在儿科肺炎X光图像自动分类中表现出色,有潜力辅助临床诊断,缓解放射学专家不足的问题

[81] The Impact of Lesion Focus on the Performance of AI-Based Melanoma Classification

Tanay Donde

Main category: eess.IV

TL;DR: 研究分析黑色素瘤分类中病灶注意力与诊断性能的关系,发现模型对病灶区域关注度越高,诊断性能越好,为开发更准确可信的医疗AI模型奠定基础。

  • Motivation: 黑色素瘤是最致命的皮肤癌亚型,早期准确检测可显著改善患者预后。虽然机器学习模型(特别是CNN)在自动化黑色素瘤分类方面显示出巨大潜力,但由于对病灶区域的关注不一致,其诊断可靠性仍存在问题。
  • Method: 使用掩码图像、边界框检测和迁移学习,采用多种可解释性和敏感性分析方法,研究模型注意力与病灶区域的对齐程度,以及这种对齐与精确率、召回率和F1分数的相关性。
  • Result: 结果显示,对病灶区域关注度更高的模型取得了更好的诊断性能,表明可解释性AI在医疗诊断中的潜力。
  • Conclusion: 这项研究为未来开发更准确、更可信的黑色素瘤分类模型奠定了基础,强调了病灶注意力对齐对诊断性能的重要性。

eess.SP

[82] Neural Brain Fields: A NeRF-Inspired Approach for Generating Nonexistent EEG Electrodes

Shahar Ain Kedem,Itamar Zimerman,Eliya Nachmani

Main category: eess.SP

TL;DR: 提出一种受NeRF启发的EEG处理方法,将脑电信号编码为固定大小的权重向量,实现连续时空重建和虚拟电极生成。

  • Motivation: EEG数据具有长度可变、信噪比低、个体差异大、时间漂移等挑战,且缺乏大规模干净数据集,需要开发有效的深度学习方法。
  • Method: 借鉴NeRF思想,将EEG电极类比为不同视角的图像,训练神经网络将单个EEG样本编码为固定大小的权重向量,实现信号的连续时空重建。
  • Result: 方法能够连续可视化脑活动(包括超高分辨率),重建原始EEG信号,并有效模拟不存在的电极数据,提升下游处理网络性能。
  • Conclusion: NeRF风格的EEG处理方法为脑电信号分析提供了新的连续表示框架,能够克服传统EEG处理的多重挑战,具有实际应用价值。