Skip to content
每日arXiv - 2025年12月4日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Hierarchical Process Reward Models are Symbolic Vision Learners

Shan Zhang,Aotian Chen,Kai Zou,Jindong Gu,Yuan Xue,Anton van den Hengel

Main category: cs.CV

TL;DR: 提出一种自监督符号自动编码器,将图表编码为结构化基元及其关系,通过可执行引擎重建图表,在重建、感知和推理任务上表现优异。

  • Motivation: 符号计算机视觉需要与基于像素的视觉模型不同的学习范式。现有方法在图表重建中探索不足,需要平衡探索与利用的稳定机制。
  • Method: 提出自监督符号自动编码器,包含符号分层过程奖励建模,强制执行点-线、线-形状、形状-关系一致性,并引入稳定机制平衡探索与利用。
  • Result: 几何图表重建MSE降低98.2%,7B模型在图表重建上超越GPT-4o 0.6%,MathGlance感知基准提升13%,MathVerse和GeoQA推理基准提升3%。
  • Conclusion: 该方法有效整合神经网络推理能力与符号模型可解释性,在图表理解任务中展现出优越性能,为神经符号系统提供了新思路。

[2] Drainage: A Unifying Framework for Addressing Class Uncertainty

Yasser Taha,Grégoire Montavon,Nils Körber

Main category: cs.CV

TL;DR: 提出"排水节点"统一框架,通过重新分配概率质量到不确定性来处理噪声标签、类别模糊和异常样本,在多种噪声场景下显著提升分类准确率。

  • Motivation: 现代深度学习面临噪声标签、类别模糊以及需要鲁棒拒绝分布外或损坏样本的挑战。现有方法在处理实例依赖和不对称标签噪声时效果有限。
  • Method: 在网络输出端添加"排水节点",重新分配概率质量到不确定性,同时保持端到端训练和可微性。该机制为高度模糊、异常或噪声样本提供自然"逃逸路径"。
  • Result: 在CIFAR-10/100添加实例依赖噪声或不对称噪声的实验中,高噪声区域准确率提升高达9%。在mini-WebVision、mini-ImageNet和Clothing-1M等真实数据集上达到或超越现有SOTA方法。
  • Conclusion: 排水节点框架能有效吸收损坏、错误标记或异常数据,产生更稳定的决策边界。该方法不仅适用于分类任务,还可扩展到网络规模半监督数据清洗和开放集应用。

[3] Does Head Pose Correction Improve Biometric Facial Recognition?

Justin Norman,Hany Farid

Main category: cs.CV

TL;DR: 研究面部识别在真实世界图像中的准确率下降问题,评估三种修复技术(3D重建、2D正面化、特征增强)的效果,发现选择性应用CFR-GAN与CodeFormer组合能有效提升识别准确率

  • Motivation: 生物特征面部识别模型在处理真实世界图像(质量差、非正面姿势、遮挡)时准确率显著下降,需要研究针对性修复技术是否能改善识别性能
  • Method: 使用模型无关的大规模法证评估流程,评估三种修复方法:3D重建(NextFace)、2D正面化(CFR-GAN)和特征增强(CodeFormer),并探索选择性应用策略
  • Result: 简单应用这些技术会显著降低面部识别准确率,但选择性应用CFR-GAN与CodeFormer组合能带来有意义的改进
  • Conclusion: 针对性的AI驱动头部姿势校正和图像修复技术需要选择性应用,CFR-GAN与CodeFormer的组合策略能有效提升真实世界面部识别准确率

[4] Flux4D: Flow-based Unsupervised 4D Reconstruction

Jingkang Wang,Henry Che,Yun Chen,Ze Yang,Lily Goli,Sivabalan Manivasagam,Raquel Urtasun

Main category: cs.CV

TL;DR: Flux4D是一个简单可扩展的4D动态场景重建框架,通过直接预测3D高斯及其运动动态,在完全无监督的方式下重建传感器观测,无需预训练模型或标注数据。

  • Motivation: 现有可微分渲染方法(如NeRF和3DGS)在大规模动态场景重建中存在可扩展性限制,需要标注数据来解耦演员运动。现有自监督方法虽然尝试消除显式标注,但仍受限于逐场景优化和对超参数调优的敏感性。
  • Method: Flux4D直接预测3D高斯及其运动动态来重建传感器观测,采用完全无监督方式。仅使用光度损失并强制执行"尽可能静态"的正则化,通过跨多个场景训练直接从原始数据中分解动态元素,无需预训练监督模型或基础先验。
  • Result: 在室外驾驶数据集上的实验表明,Flux4D在可扩展性、泛化能力和重建质量方面显著优于现有方法。该方法能够在几秒钟内高效重建动态场景,有效扩展到大型数据集,并能很好地泛化到未见过的环境,包括罕见和未知物体。
  • Conclusion: Flux4D提供了一个简单且可扩展的框架,用于大规模动态场景的4D重建,通过无监督学习直接从原始数据中分解动态元素,克服了现有方法在可扩展性和标注依赖方面的限制。

[5] Object Counting with GPT-4o and GPT-5: A Comparative Study

Richard Füzesséry,Kaziwa Saleh,Sándor Szénási,Zoltán Vámossy

Main category: cs.CV

TL;DR: 利用多模态大语言模型GPT-4o和GPT-5进行零样本物体计数,仅使用文本提示无需视觉示例,在FSC-147和CARPK数据集上达到与最先进方法相当甚至超越的性能。

  • Motivation: 现有零样本物体计数方法通常需要大量标注数据和视觉示例,而大语言模型具有强大的推理和数据理解能力,可能无需监督即可完成计数任务。
  • Method: 利用多模态大语言模型GPT-4o和GPT-5的视觉能力,仅通过文本提示进行零样本物体计数,无需任何监督训练。
  • Result: 在FSC-147和CARPK数据集上的评估显示,模型性能与最先进的零样本方法相当,在某些情况下甚至超越它们。
  • Conclusion: 多模态大语言模型可以有效地用于零样本物体计数任务,仅使用文本提示就能达到与专门设计的监督方法相当的性能。

[6] LLM-Guided Material Inference for 3D Point Clouds

Nafiseh Izadyar,Teseo Schneider

Main category: cs.CV

TL;DR: 提出基于LLM的两阶段方法,从带粗分割的3D点云推断材质组成,无需任务特定训练

  • Motivation: 现有3D形状数据集和模型只关注几何而忽略材质属性,缺乏可靠的材质标注数据
  • Method: 两阶段LLM方法:第一阶段预测物体语义,第二阶段为每个几何段分配合理材质,均以零样本方式运行
  • Result: 在Fusion/ABS和ShapeNet的1000个形状上,方法在语义和材质合理性方面表现优异
  • Conclusion: 语言模型可作为通用先验,在3D数据中桥接几何推理和材质理解

[7] 2-Shots in the Dark: Low-Light Denoising with Minimal Data Acquisition

Liying Lu,Raphaël Achddou,Sabine Süsstrunk

Main category: cs.CV

TL;DR: 提出一种仅需单张噪声图像和暗帧即可合成真实传感器噪声的方法,用于低光图像去噪训练,无需大量配对数据

  • Motivation: 低光条件下拍摄的原始图像噪声严重,基于学习的去噪器需要大量干净-噪声图像对进行训练,但这些配对数据难以收集。噪声合成可以替代大规模数据采集,但现有方法要么依赖简化的参数模型,要么需要大量配对数据。
  • Method: 提出通用实用的噪声合成方法:1) 使用泊松分布建模信号相关噪声;2) 引入傅里叶域频谱采样算法精确建模信号无关噪声,生成保持真实传感器噪声空间和统计特性的多样化噪声实现。仅需每个ISO设置下的单张噪声图像和单张暗帧。
  • Result: 该方法不仅准确实用,而且在多个低光去噪基准测试中取得了最先进的性能表现。
  • Conclusion: 提出的噪声合成方法克服了传统方法对简化参数模型或大量配对数据的依赖,为低光图像去噪提供了一种高效实用的训练数据生成方案。

[8] PixPerfect: Seamless Latent Diffusion Local Editing with Discriminative Pixel-Space Refinement

Haitian Zheng,Yuan Yao,Yongsheng Yu,Yuqian Zhou,Jiebo Luo,Zhe Lin

Main category: cs.CV

TL;DR: PixPerfect是一个像素级细化框架,通过可微分的判别性像素空间、全面的伪影模拟管道和直接的像素空间细化方案,解决了潜在扩散模型在局部编辑中产生的色彩偏移、纹理不匹配和可见接缝等问题。

  • Motivation: 潜在扩散模型在图像修复和局部编辑方面取得了显著进展,但其固有的潜在压缩会引入像素级不一致性,如色彩偏移、纹理不匹配和编辑边界处的可见接缝。现有的修复方法在实际中通常无法完全消除这些伪影,并且在不同潜在表示或任务上泛化能力不足。
  • Method: PixPerfect采用三个关键技术:(1) 可微分的判别性像素空间,放大和抑制细微的颜色和纹理差异;(2) 全面的伪影模拟管道,在训练期间使细化器暴露于真实的局部编辑伪影;(3) 直接的像素空间细化方案,确保在不同潜在表示和任务上的广泛适用性。
  • Result: 在修复、对象移除和插入基准测试上的广泛实验表明,PixPerfect显著增强了感知保真度和下游编辑性能,为鲁棒和高保真的局部图像编辑建立了新标准。
  • Conclusion: PixPerfect提供了一个像素级细化框架,能够为各种LDM架构和任务提供无缝、高保真的局部编辑,解决了现有方法在消除伪影和泛化能力方面的局限性。

[9] PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispectral Remote Sensing Imagery

Mark Moussa,Andre Williams,Seth Roffe,Douglas Morton

Main category: cs.CV

TL;DR: 该论文提出PyroFocus两阶段管道,用于实时机载野火检测,结合深度学习分类和FRP回归/分割,在速度和精度间取得良好平衡。

  • Motivation: 野火频率和严重性增加,需要低延迟、计算高效的机载实时检测方法。多光谱和高光谱热成像仪提供丰富光谱信息,但高数据维度和有限机载资源使实时处理具有挑战性。
  • Method: 提出PyroFocus两阶段管道:第一阶段进行火灾分类(无火、活跃火、后火条件),第二阶段进行火辐射功率回归或分割。系统评估多种深度学习架构,包括自定义CNN和Transformer模型,使用NASA的MASTER数据进行验证。
  • Result: 实验结果表明,提出的两阶段管道在速度和精度之间实现了良好的权衡,展示了在未来野火监测任务中实时边缘部署的显著潜力。
  • Conclusion: PyroFocus两阶段管道为机载和星载任务中的实时野火检测提供了有效的解决方案,在计算效率和检测精度之间取得了良好平衡,适合资源受限的边缘部署环境。

[10] SpatialReasoner: Active Perception for Large-Scale 3D Scene Understanding

Hongpei Zheng,Shijie Li,Yanran Li,Hujun Yin

Main category: cs.CV

TL;DR: H²U3D是一个用于房屋尺度3D场景理解的数据集,包含多楼层环境;SpatialReasoner是一个主动感知框架,通过两阶段训练实现高效空间探索,在减少图像使用量的情况下达到SOTA性能。

  • Motivation: 当前视觉语言模型主要局限于房间尺度场景,在大规模3D环境中的空间推理能力不足,需要专门的数据集和方法来处理房屋尺度的复杂空间关系。
  • Method: 1) 提出H²U3D数据集:通过自动化标注流程构建从粗到细的层次化视觉表示,生成多样化的问答对和思维链标注;2) 提出SpatialReasoner框架:主动调用空间工具探索3D场景,采用两阶段训练策略:监督式冷启动+带自适应探索奖励的强化学习。
  • Result: SpatialReasoner在H²U3D数据集上达到SOTA性能,超越GPT-4o和Gemini-2.5-Pro等强基线。平均仅使用3-4张图像(基线需要16+张),证明了从粗到细主动探索范式的有效性。
  • Conclusion: H²U3D数据集填补了房屋尺度3D场景理解的空白,SpatialReasoner框架通过高效的主动感知策略,显著提升了大规模3D环境中的空间推理能力,为实际应用提供了实用解决方案。

[11] NavMapFusion: Diffusion-based Fusion of Navigation Maps for Online Vectorized HD Map Construction

Thomas Monninger,Zihan Zhang,Steffen Staab,Sihao Ding

Main category: cs.CV

TL;DR: NavMapFusion:基于扩散模型的在线地图构建框架,融合低精度导航地图与高精度传感器数据,实现实时、准确的环境表征

  • Motivation: 自动驾驶需要准确的环境表征,传统高清地图需要在线构建。虽然导航级标准地图广泛可用,但分辨率不足。如何利用这些低精度地图作为先验指导在线地图构建是一个关键问题
  • Method: 提出NavMapFusion扩散模型框架,通过迭代去噪过程融合高精度传感器数据和低精度导航地图。将先验地图与在线感知的差异视为扩散过程中的噪声,一致区域强化地图构建,过时部分被抑制
  • Result: 在nuScenes基准测试中,使用OpenStreetMap道路线作为条件,在100米感知范围内实现21.4%的相对改进,更大感知范围改进更显著,同时保持实时能力
  • Conclusion: 扩散模型为地图融合提供了鲁棒框架,通过融合低精度先验与高精度传感器数据,能生成准确、最新的环境表征,推动更安全可靠的自动驾驶

[12] Step-by-step Layered Design Generation

Faizan Farooq Khan,K J Joseph,Koustava Goswami,Mohamed Elhoseiny,Balaji Vasan Srinivasan

Main category: cs.CV

TL;DR: 提出SLEDGE方法,通过分层逐步生成设计,模拟设计师逐步修改的过程,解决现有方法将设计合成视为单步生成的问题

  • Motivation: 设计本质上是逐步修改完善的过程,但现有方法将设计合成视为单步生成问题,低估了创意过程的复杂性,需要更贴近实际设计流程的方法
  • Method: 提出"逐步分层设计生成"问题设置,开发SLEDGE模型,利用多模态LLM将每次设计更新建模为基于先前状态的原子化分层变化,并基于指令进行约束
  • Result: 建立了新的评估套件(包括数据集和基准),通过详尽实验分析并与最先进方法比较,证明了方法的有效性
  • Conclusion: 该方法有效模拟了实际设计流程,希望吸引更多关注这个实用但未被充分探索的研究领域

[13] ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fraction Estimation in Echocardiography

Yeganeh Ghamary,Victoria Wu,Hooman Vaseli,Christina Luong,Teresa Tsang,Siavash Bigdeli,Purang Abolmaesumi

Main category: cs.CV

TL;DR: ProtoEFNet是一种基于视频的原型学习模型,用于连续射血分数回归,通过学习动态时空原型来捕获临床有意义的心脏运动模式,同时保持可解释性。

  • Motivation: 传统射血分数估计需要手动追踪和专业知识,耗时且存在观察者间差异。现有深度学习方法多为黑盒模型,缺乏透明度,临床信任度低。后验可解释性方法无法指导模型内部推理,临床应用可靠性有限。
  • Method: 提出ProtoEFNet视频原型学习模型,学习动态时空原型捕获心脏运动模式;提出原型角度分离损失,在连续EF谱上强制区分性表示。
  • Result: 在EchonetDynamic数据集上,ProtoEFNet达到与非可解释模型相当的准确度,同时提供临床相关见解。消融研究显示所提损失提升性能,F1分数从77.67±2.68提高到79.64±2.10。
  • Conclusion: ProtoEFNet通过原型学习实现了准确且可解释的EF预测,原型角度分离损失有效提升模型性能,为临床提供透明可靠的决策支持。

[14] HalluGen: Synthesizing Realistic and Controllable Hallucinations for Evaluating Image Restoration

Seunghoi Kim,Henry F. J. Tregidgo,Chen Jin,Matteo Figini,Daniel C. Alexander

Main category: cs.CV

TL;DR: HalluGen:一种基于扩散的框架,用于合成逼真的幻觉,创建首个大规模幻觉数据集,并开发评估指标和检测器,为安全关键图像修复中的幻觉问题提供可扩展的评估基础。

  • Motivation: 生成模型在图像修复中容易产生幻觉(看似合理但实际错误的伪影),这在医疗影像、工业检测等安全关键领域尤为危险,可能导致严重诊断错误。然而,评估幻觉需要标注数据,而标注成本高且主观,阻碍了该领域进展。
  • Method: 提出HalluGen框架:基于扩散模型合成具有可控类型、位置和严重程度的逼真幻觉;构建首个大规模幻觉数据集(4,350张标注图像,源自1,450张脑部MR图像);开发SHAFE指标(基于特征、软注意力池化)用于语义幻觉评估;训练无参考幻觉检测器。
  • Result: 成功合成感知逼真但语义错误的输出(分割IoU从0.86降至0.36);创建了首个大规模幻觉数据集;SHAFE指标相比传统指标提高了幻觉敏感性;训练的幻觉检测器能泛化到真实修复失败案例。
  • Conclusion: HalluGen及其开放数据集为安全关键图像修复中的幻觉评估建立了首个可扩展的基础,解决了评估幻觉的循环依赖问题,为开发更可靠的图像修复系统提供了重要工具。

[15] Hierarchical Attention for Sparse Volumetric Anomaly Detection in Subclinical Keratoconus

Lynn Kandakji,William Woof,Nikolas Pontikos

Main category: cs.CV

TL;DR: 该研究比较了16种深度学习架构在3D OCT图像中检测亚临床圆锥角膜的性能,发现分层注意力模型在稀疏异常检测方面优于2D/3D CNN和ViT,具有更高的敏感性和特异性。

  • Motivation: 医学影像中微弱、空间分布异常的检测面临挑战,因为早期疾病信号具有细微、非相邻特性。现有架构存在局限性:2D/3D CNN强加局部性,ViT则使用无约束的全局注意力,缺乏适合稀疏体积模式识别的最佳归纳结构。
  • Method: 对16种现代深度学习架构进行对照比较,涵盖2D/3D卷积、混合和体积Transformer家族,用于从3D前段OCT体积中检测亚临床圆锥角膜。通过机制分析、注意力距离测量、表示相似性和辅助年龄/性别预测任务来评估性能。
  • Result: 分层注意力模型在稀疏异常(亚临床)检测中表现出21-23%更高的敏感性和特异性,且参数效率更高。机制分析显示其优势源于精确的空间尺度对齐:分层窗口产生与亚临床异常的中等多切片范围匹配的有效感受野。
  • Conclusion: 分层注意力为3D医学影像中的早期病理变化分析提供了原则性有效方法,为未来体积异常检测系统提供了设计指导。所需的空间整合长度根据信号强度显著变化,亚临床病例需要比健康和明显疾病状态更长的整合。

[16] SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation

Yu Yuan,Tharindu Wickremasinghe,Zeeshan Nadir,Xijun Wang,Yiheng Chi,Stanley H. Chan

Main category: cs.CV

TL;DR: SeeU提出2D→4D→2D学习框架,通过重建4D世界、学习连续4D动态、再投影回2D,实现连续物理一致的新视觉内容生成

  • Motivation: 当前视觉理解、预测和生成直接在2D观测上进行,导致性能不佳。需要从2D投影学习连续4D动态,生成未见视觉内容
  • Method: 1) 从稀疏单目2D帧重建4D世界(2D→4D);2) 在低秩表示和物理约束下学习连续4D动态(离散4D→连续4D);3) 时间向前推进世界,在采样时间和视点重新投影回2D,基于时空上下文感知生成未见区域(4D→2D)
  • Result: 通过4D动态建模,实现连续物理一致的新视觉生成,在未见时间生成、未见空间生成和视频编辑等多个任务中展示强大潜力
  • Conclusion: SeeU的2D→4D→2D框架通过建模4D动态,优于直接在2D上操作的方法,为连续物理一致的视觉生成提供了新途径

[17] A Hybrid Deep Learning Framework with Explainable AI for Lung Cancer Classification with DenseNet169 and SVM

Md Rashidul Islam,Bakary Gibba,Altagi Abdallah Bakheit Abdelgadir

Main category: cs.CV

TL;DR: 该研究提出基于深度学习的肺癌自动分类系统,使用DenseNet169和MobileNetV2+SVM两种模型,在IQOTHNCCD CT数据集上达到98%准确率,并通过Grad-CAM和SHAP增强模型可解释性。

  • Motivation: 肺癌是全球致命疾病,早期诊断对提高患者生存率至关重要。CT扫描广泛用于肺癌诊断,但人工解读耗时且易出错,需要自动分类系统来提高检测准确性和可解释性。
  • Method: 使用IQOTHNCCD公开CT数据集(正常、良性、恶性三类)。采用DenseNet169模型,集成Squeeze-and-Excitation注意力模块、Focal Loss处理类别不平衡、FPN进行多尺度特征融合。同时开发SVM模型,使用MobileNetV2进行特征提取。通过Grad-CAM可视化CT扫描决策区域,SHAP解释SVM模型特征贡献。
  • Result: DenseNet169和SVM模型均达到98%准确率,表现出对实际医疗应用的鲁棒性。模型在肺癌分类任务中展现出高精度和可靠性。
  • Conclusion: 深度学习能够通过提高准确性、透明度和鲁棒性来改善肺癌诊断。该研究展示了自动分类系统在医疗实践中的潜力,为肺癌早期检测提供了有效的计算机辅助诊断工具。

[18] FireSentry: A Multi-Modal Spatio-temporal Benchmark Dataset for Fine-Grained Wildfire Spread Forecasting

Nan Zhou,Huandong Wang,Jiahao Li,Han Li,Yali Song,Qiuhua Wang,Yong Li,Xinlei Chen

Main category: cs.CV

TL;DR: 提出了FireSentry高分辨率野火数据集和FiReDiff双模态预测框架,显著提升了细粒度野火蔓延预测精度

  • Motivation: 现有野火预测研究主要基于粗时空尺度和低分辨率卫星数据,无法捕捉细粒度局部火灾动态,限制了高精度建模能力
  • Method: 1) 创建FireSentry省级多模态数据集(亚米级空间分辨率、亚秒级时间分辨率);2) 提出FiReDiff双模态范式:先在红外模态预测未来视频序列,再基于生成的动态在掩码模态精确分割火灾掩码
  • Result: FiReDiff在生成模型中取得显著性能提升:视频质量PSNR提升39.2%、SSIM提升36.1%、LPIPS提升50.0%、FVD提升29.4%;掩码精度AUPRC提升3.3%、F1分数提升59.1%、IoU提升42.9%、MSE提升62.5%
  • Conclusion: FireSentry基准数据集和FiReDiff范式共同推进了细粒度野火预测和动态灾害模拟,为应急响应和决策提供了更精确的工具

[19] ShelfGaussian: Shelf-Supervised Open-Vocabulary Gaussian-based 3D Scene Understanding

Lingjun Zhao,Yandong Luo,James Hay,Lu Gan

Main category: cs.CV

TL;DR: ShelfGaussian是一个基于高斯表示的开词汇多模态3D场景理解框架,利用现成的视觉基础模型进行监督,在零样本语义占据预测任务上达到SOTA性能。

  • Motivation: 现有高斯方法存在局限性:要么使用带标注的3D标签监督封闭集语义高斯,忽略了渲染能力;要么通过纯2D自监督学习开放集高斯表示,导致几何质量下降且仅限于相机设置。需要充分发挥高斯表示的潜力。
  • Method: 提出多模态高斯变换器,使高斯能从多种传感器模态查询特征;提出货架监督学习范式,在2D图像和3D场景层面联合优化高斯特征;利用现成的视觉基础模型进行监督。
  • Result: 在Occ3D-nuScenes数据集上实现最先进的零样本语义占据预测性能;在无人地面车辆上评估,验证了在多样化城市场景中的野外性能。
  • Conclusion: ShelfGaussian成功结合了高斯表示的效率和视觉基础模型的开词汇能力,为多模态3D场景理解提供了有效的解决方案,在感知和规划任务中表现出色。

[20] MOS: Mitigating Optical-SAR Modality Gap for Cross-Modal Ship Re-Identification

Yujian Zhao,Hankun Liu,Guanglin Niu

Main category: cs.CV

TL;DR: MOS框架通过模态一致表示学习和跨模态数据生成与特征融合,显著提升了光学-SAR跨模态船舶重识别的性能

  • Motivation: 光学与合成孔径雷达(SAR)图像之间存在显著的模态差异,这对跨模态船舶重识别构成了主要挑战,而当前该任务尚未得到充分探索
  • Method: 提出MOS框架,包含两个核心组件:1) 模态一致表示学习(MCRL):通过去噪SAR图像处理和类级模态对齐损失来对齐跨模态的类内特征分布;2) 跨模态数据生成与特征融合(CDGF):使用布朗桥扩散模型合成跨模态样本,在推理时与原始特征融合以增强对齐和区分性
  • Result: 在HOSS ReID数据集上的实验表明,MOS在所有评估协议中都显著超越了现有最先进方法,在ALL to ALL、Optical to SAR和SAR to Optical设置下的R1准确率分别提升了+3.0%、+6.2%和+16.4%
  • Conclusion: MOS框架通过有效缓解光学-SAR模态差异并实现模态一致的特征学习,为跨模态船舶重识别提供了有效的解决方案,代码和训练模型将在发表后公开

[21] ViDiC: Video Difference Captioning

Jiangtao Wu,Shihao Li,Zhaozhou Bian,Yuanxing Zhang,Jialu Chen,Runzhe Wen,An Ping,Yiwen He,Jiakai Wang,Jiaheng Liu

Main category: cs.CV

TL;DR: 提出视频差异描述任务ViDiC及其数据集ViDiC-1K,评估多模态大语言模型描述视频对相似性和差异性的能力,发现现有模型在比较描述和差异感知方面存在显著性能差距。

  • Motivation: 现有图像差异描述方法无法捕捉动态场景中的运动连续性、事件演化或编辑一致性,视觉语言系统在理解动态场景之间的视觉差异方面能力不足。
  • Method: 引入ViDiC任务和ViDiC-1K数据集,包含1000个标注视频对,覆盖7个类别;提出基于LLM-as-a-Judge协议的双检查表框架,分别测量相似性和差异的准确性。
  • Result: 对19个代表性多模态模型的实验显示,它们在比较描述和差异感知能力方面存在显著性能差距,表明当前模型在理解视频差异方面仍有很大改进空间。
  • Conclusion: ViDiC-1K可作为具有挑战性的基准测试,为推进多模态智能中的视频理解、编辑感知和比较推理奠定坚实基础。

[22] YOLOA: Real-Time Affordance Detection via LLM Adapter

Yuqi Ji,Junjie Ke,Lihuo He,Jun Liu,Kaifan Zhang,Yu-Kun Lai,Guiguang Ding,Xinbo Gao

Main category: cs.CV

TL;DR: YOLOA是一个实时可操作性检测模型,通过LLM适配器联合处理物体检测和可操作性学习,在准确性和效率之间取得良好平衡。

  • Motivation: 现有可操作性学习方法大多只关注"如何使用"物体,忽视了"是什么"和"在哪里";而其他方法将物体检测和可操作性学习作为独立任务,缺乏有效交互和实时能力。
  • Method: 提出YOLOA模型,采用轻量级检测器,包含物体检测和可操作性学习分支,通过LLM适配器进行精炼。LLM适配器与初步预测交互,生成更准确的类别先验、边界框偏移和可操作性门控。
  • Result: 在重新标注的ADG-Det和IIT-Heat基准测试中达到最先进精度(52.8/73.1 mAP),同时保持实时性能(最高89.77 FPS,轻量版最高846.24 FPS)。
  • Conclusion: YOLOA在准确性和效率之间实现了优秀权衡,通过LLM适配器有效联合处理物体检测和可操作性学习任务。

[23] DM3D: Deformable Mamba via Offset-Guided Gaussian Sequencing for Point Cloud Understanding

Bin Liu,Chunyang Wang,Xuelian Liu

Main category: cs.CV

TL;DR: DM3D提出了一种用于点云理解的可变形Mamba架构,通过偏移引导的高斯排序机制实现结构自适应序列化,在分类、少样本学习和部件分割任务上达到SOTA性能。

  • Motivation: 状态空间模型(SSMs)在长序列建模中表现出巨大潜力,但其对输入顺序的依赖与点云的不规则性存在冲突。现有方法通常依赖预定义的序列化策略,无法根据不同的几何结构进行调整。
  • Method: DM3D引入偏移引导的高斯排序机制,统一了局部重采样和全局重排序。包括:高斯KNN重采样(GKR)增强结构感知,高斯可微分重排序(GDR)实现端到端序列化优化,以及三路径频率融合模块增强特征互补性并减少混叠。
  • Result: 在基准数据集上的实验表明,DM3D在分类、少样本学习和部件分割任务上达到了最先进的性能,证明了自适应序列化能有效释放SSMs在点云理解中的潜力。
  • Conclusion: DM3D通过结构自适应序列化成功解决了SSMs与点云不规则性之间的冲突,为点云理解任务提供了有效的解决方案,展示了自适应序列化在释放SSMs潜力方面的重要性。

[24] Generalization Evaluation of Deep Stereo Matching Methods for UAV-Based Forestry Applications

Yida Lin,Bing Xue,Mengjie Zhang,Sam Schofield,Richard Green

Main category: cs.CV

TL;DR: 该研究首次系统评估了8种先进立体匹配方法在林业无人机应用中的零样本泛化能力,发现不同方法在不同场景下表现差异显著,并确定DEFOM为林业深度估计的最佳基准方法。

  • Motivation: 自主无人机林业作业需要具有强跨域泛化能力的深度估计方法,但现有评估主要关注城市和室内场景,缺乏对植被密集环境的专门评估,存在关键研究空白。
  • Method: 对8种最先进的立体匹配方法(RAFT-Stereo、IGEV、IGEV++、BridgeDepth、StereoAnywhere、DEFOM及基线方法ACVNet、PSMNet、TCstereo)进行首次系统性零样本评估。所有方法仅在Scene Flow数据集上训练,然后在4个标准基准(ETH3D、KITTI 2012/2015、Middlebury)和新的5,313对Canterbury林业数据集上进行无微调评估。
  • Result: 性能呈现场景依赖模式:基础模型在结构化场景表现优异(BridgeDepth在ETH3D上0.23px,KITTI上0.83-1.07px;DEFOM在多个基准上0.35-4.65px),而迭代方法保持跨域鲁棒性(IGEV++:0.36-6.77px;IGEV:0.33-21.91px)。关键发现:RAFT-Stereo在ETH3D上出现灾难性失败(26.23px EPE,98%错误率),但在KITTI上表现正常(0.90-1.11px)。在Canterbury林业数据集上,DEFOM被确定为植被深度估计的最佳基准,在深度平滑性、遮挡处理和跨域一致性方面优于IGEV++。
  • Conclusion: 该研究填补了林业环境深度估计评估的空白,揭示了不同立体匹配方法的场景依赖性,并推荐DEFOM作为林业无人机应用中深度估计的黄金标准基准方法,为自主无人机林业作业提供了重要的技术指导。

[25] Label-Efficient Hyperspectral Image Classification via Spectral FiLM Modulation of Low-Level Pretrained Diffusion Features

Yuzhen Hu,Biplab Banerjee,Saurabh Prasad

Main category: cs.CV

TL;DR: 提出基于冻结扩散模型的空间特征提取框架,用于高光谱图像分类,通过轻量级FiLM融合模块结合光谱与空间信息,在稀疏标注下实现高效学习。

  • Motivation: 高光谱图像分类面临空间分辨率低和标注稀疏的挑战,需要开发标签高效的框架来利用预训练模型的知识。
  • Method: 1) 从冻结的扩散模型(预训练于自然图像)中提取早期去噪时间步的高分辨率解码器层特征;2) 设计轻量级FiLM融合模块,利用光谱线索自适应调制冻结的空间特征;3) 在稀疏监督下实现稳健的多模态学习。
  • Result: 在两个最新的高光谱数据集上,仅使用提供的稀疏训练标签就超越了最先进方法。消融研究进一步验证了扩散模型特征和光谱感知融合的优势。
  • Conclusion: 预训练的扩散模型能够支持领域无关、标签高效的表征学习,适用于遥感及更广泛的科学成像任务。

[26] Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation

Xieji Li,Siyuan Yan,Yingsheng Liu,H. Peter Soyer,Monika Janda,Victoria Mar,Zongyuan Ge

Main category: cs.CV

TL;DR: 提出整合多智能体数据生成(MAGEN)和基于本体的多角度知识增强(O-MAKE)的医学视觉语言预训练框架,解决网络数据噪声和长文本复杂性,在皮肤病学领域实现SOTA零样本性能。

  • Motivation: 现有医学视觉语言预训练方法面临两大挑战:1) 网络收集数据的固有噪声问题;2) 非结构化长医学文本的复杂性。这些问题限制了从大规模图像-文本对中学习有效表示的能力。
  • Method: 提出两阶段框架:1) MAGEN系统通过基础模型辅助的标注和基于检索的验证流程,合成知识丰富的描述来增强数据质量;2) O-MAKE将长文本分解为不同知识角度,实现全局和局部对齐,并通过本体引导机制显式建模医学概念关系。
  • Result: 在皮肤病学领域验证,在8个数据集上的疾病分类和跨模态检索任务中实现最先进的零样本性能。发布了包含40万+皮肤图像-文本对的增强数据集Derm1M-AgentAug。
  • Conclusion: 提出的MAGEN和O-MAKE框架有效解决了医学VLP中的数据噪声和长文本复杂性挑战,为医学图像分析提供了强大的预训练范式,代码和数据集将开源。

[27] LM-CartSeg: Automated Segmentation of Lateral and Medial Cartilage and Subchondral Bone for Radiomics Analysis

Tongxu Zhang

Main category: cs.CV

TL;DR: LM-CartSeg是一个全自动的膝关节MRI分割和影像组学分析流程,通过几何规则改进分割质量,提供稳定的内外侧分区,并提取与形态测量无关的影像组学特征用于骨关节炎研究。

  • Motivation: 膝关节MRI影像组学研究需要稳健且具有解剖学意义的ROI区域,现有方法多依赖手动标注且缺乏质量控制。需要开发自动化的分割和分析流程来支持多中心骨关节炎研究。
  • Method: 使用两个3D nnU-Net模型分别在SKM-TEA和OAIZIB-CM数据集上训练,测试时融合零样本预测并通过几何规则优化:连通分量清洗、构建10mm软骨下骨带、基于PCA和k-means的数据驱动胫骨内外侧分割。
  • Result: 后处理显著改善分割质量:ASSD从2.63mm降至0.36mm,HD95从25.2mm降至3.35mm,DSC达0.91。几何内外侧规则产生跨数据集的稳定分区,仅6-12%的特征与体积或厚度强相关。
  • Conclusion: LM-CartSeg提供自动化的质量控制ROI和影像组学特征,这些特征携带超越简单形态测量的判别信息,为多中心膝关节骨关节炎影像组学研究提供了实用基础。

[28] KeyPointDiffuser: Unsupervised 3D Keypoint Learning via Latent Diffusion Models

Rhys Newbury,Juyan Zhang,Tin Tran,Hanna Kurniawati,Dana Kulić

Main category: cs.CV

TL;DR: 提出无监督学习框架,从点云数据中学习具有空间结构的3D关键点,并将其作为条件指导扩散模型重建完整形状

  • Motivation: 现有无监督关键点方法大多不适用于无条件生成设置,限制了其在现代3D生成流程中的应用,需要弥合这一差距
  • Method: 从点云数据无监督学习空间结构化的3D关键点,将其作为紧凑可解释的表征,用于条件化Elucidated Diffusion Model(EDM)重建完整形状
  • Result: 学习到的关键点在不同物体实例间展现可重复的空间结构,支持关键点空间的平滑插值,表明其捕捉了几何变化;在多样化物体类别上表现优异,关键点一致性比先前方法提升6个百分点
  • Conclusion: 提出的框架成功弥合了无监督关键点学习与无条件生成设置之间的差距,为3D生成提供了紧凑、可解释且具有空间结构的表征

[29] GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy in Diffusion Transformers

Zhiye Song,Steve Dai,Ben Keller,Brucek Khailany

Main category: cs.CV

TL;DR: GalaxyDiT是一种无需训练的加速视频生成方法,通过指导对齐和系统代理选择实现计算重用,在保持高质量的同时显著提升生成速度。

  • Motivation: 尽管基于Transformer的扩散模型(DiTs)和分类器自由引导(CFG)在视频生成方面取得了成功,但它们需要大量计算资源。每次视频生成需要数十次迭代步骤,而CFG更是将所需计算量加倍,这种低效率阻碍了在下游应用中的广泛采用。
  • Method: GalaxyDiT采用训练免费的方法,通过指导对齐和系统代理选择来实现计算重用。通过秩相关分析,该方法为每个视频模型(跨模型家族和参数规模)识别最优代理,确保最优的计算重用。
  • Result: 在Wan2.1-1.3B和Wan2.1-14B模型上分别实现了1.87倍和2.37倍的加速,在VBench-2.0基准测试中仅分别下降0.97%和0.72%。在高加速率下,该方法保持了优于基础模型的保真度,在峰值信噪比(PSNR)方面比先前最先进方法高出5-10 dB。
  • Conclusion: GalaxyDiT提供了一种高效加速视频生成的方法,在显著提升速度的同时保持高质量,解决了扩散模型计算密集型的问题,有望促进视频生成技术在下游应用中的更广泛采用。

[30] GeoVideo: Introducing Geometric Regularization into Video Generation Model

Yunpeng Bai,Shaoheng Fang,Chaohui Yu,Fan Wang,Qixing Huang

Main category: cs.CV

TL;DR: 在视频生成中引入几何正则化损失,通过深度预测增强潜在扩散模型,提升时空一致性和几何合理性

  • Motivation: 现有视频生成方法主要在2D像素空间操作,缺乏显式的3D结构建模机制,导致时间几何不一致、运动不合理和结构伪影等问题
  • Method: 在潜在扩散模型中增加逐帧深度预测,提出多视角几何损失,在共享3D坐标系中对齐跨帧的预测深度图
  • Result: 在多个数据集上的实验表明,该方法相比现有基线能产生显著更稳定和几何一致的结果
  • Conclusion: 该方法弥合了外观生成与3D结构建模之间的差距,提升了时空连贯性、形状一致性和物理合理性

[31] Think Before You Drive: World Model-Inspired Multimodal Grounding for Autonomous Vehicles

Haicheng Liao,Huanming Shen,Bonan Wang,Yongkang Li,Yihong Tang,Chengyue Wang,Dingyi Zhuang,Kehua Chen,Hai Yang,Chengzhong Xu,Zhenning Li

Main category: cs.CV

TL;DR: ThinkDeeper是一个用于自动驾驶视觉定位的框架,通过空间感知世界模型预测未来空间状态来解决模糊指令问题,在多个基准测试中达到最先进性能。

  • Motivation: 现有自动驾驶视觉定位方法难以处理模糊、依赖上下文的指令,因为它们缺乏对3D空间关系和场景演变的推理能力。
  • Method: 提出ThinkDeeper框架,核心是空间感知世界模型(SA-WM),将当前场景提炼为指令感知的潜在状态,并展开未来潜在状态序列。配合超图引导解码器,分层融合这些状态与多模态输入,捕捉高阶空间依赖关系。
  • Result: 在六个基准测试中,ThinkDeeper在Talk2Car排行榜排名第一,在DrivePilot、MoCAD和RefCOCO/+/g基准上超越最先进基线。在挑战性场景(长文本、多智能体、模糊性)中表现出强大鲁棒性和效率,即使使用50%数据训练仍保持优越性能。
  • Conclusion: ThinkDeeper通过世界模型原则,实现了对模糊指令的更好处理,为自动驾驶视觉定位提供了有效的解决方案,展示了在复杂场景中的强大性能。

[32] Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models

Shojiro Yamabe,Futa Waseda,Daiki Shiono,Tsubasa Takahashi

Main category: cs.CV

TL;DR: 提出TPI方法,通过将文本直接渲染到空白画布上生成合成图像,用于低成本文本中心训练,解决视觉问答任务中图像数据稀缺和隐私限制问题。

  • Motivation: 传统视觉语言模型需要大量图像-文本对进行任务特定微调,但图像数据收集成本高、受隐私限制且在某些领域稀缺。相比之下,文本数据广泛可用且易于编辑,但仅用文本训练因模态差距而效果有限。
  • Method: 提出文本打印图像方法:将给定的文本描述直接渲染到纯白画布上生成合成图像。这种方法将文本投影到图像模态,可低成本集成到现有LVLM训练流程中,且能保留文本语义。
  • Result: 在4个模型和7个基准测试中的系统实验表明,TPI比扩散模型生成的合成图像在文本中心训练中更有效。TPI还可作为低成本数据增强策略,展示了其实用价值。
  • Conclusion: 文本中心训练具有显著潜力,TPI方法为LVLMs的全自动数据生成开辟了新路径,通过简单渲染技术有效弥合了文本与图像之间的模态差距。

[33] Difference Decomposition Networks for Infrared Small Target Detection

Chen Hu,Mingyu Zhou,Shuai Yuan,Hongbo Hu,Xiangyu Qiu,Junhai Luo,Tian Pu,Xiyin Li

Main category: cs.CV

TL;DR: 提出基于基分解的模块(BDM)用于红外小目标检测,通过分解复杂特征为多个基特征来增强目标信息并抑制背景干扰,构建了SD²Net用于单帧检测和STD²Net用于多帧检测,在多个数据集上达到SOTA性能。

  • Motivation: 红外小目标检测面临两大挑战:目标纹理不明显和背景杂波严重,导致目标被背景淹没。需要增强目标特征并抑制背景干扰。
  • Method: 提出基分解模块(BDM)作为可扩展的轻量级模块,将复杂特征分解为多个基特征,增强有用信息并消除冗余。基于BDM开发了空间差异分解模块(SD²M)、空间差异分解下采样模块(SD³M)和时间差异分解模块(TD²M)。构建了SD²Net用于单帧检测(基于U型架构集成SD²M和SD³M),以及STD²Net用于多帧检测(通过TD²M引入运动信息)。
  • Result: 在SISTD和MISTD数据集上进行了大量实验,取得了最先进的性能。在SISTD任务中,SD²Net表现优于大多数现有网络。在MISTD数据集上,STD²Net达到87.68%的mIoU,显著优于SD²Net的64.97%。
  • Conclusion: 提出的基分解模块和相关网络架构有效解决了红外小目标检测中的挑战,通过特征分解和增强机制显著提升了检测性能,特别是在多帧检测中通过引入时间信息获得了更好的结果。

[34] Procedural Mistake Detection via Action Effect Modeling

Wenliang Guo,Yujiang Pu,Yu Kong

Main category: cs.CV

TL;DR: 提出Action Effect Modeling (AEM)框架,通过联合建模动作执行和结果来检测程序性任务中的错误,在EgoPER和CaptainCook4D基准上取得SOTA性能。

  • Motivation: 现有方法主要分析动作执行方式,忽略了动作产生的结果(动作效果)。许多错误并不体现在执行过程中,而是体现在结果状态上,如物体状态错误或空间排列不正确。
  • Method: AEM框架:1) 基于语义相关性和视觉质量选择最具信息量的效果帧;2) 从视觉定位和符号场景图中提取互补线索,在共享潜在空间中对齐形成效果感知表示;3) 设计基于提示的检测器,结合任务特定提示并将动作片段与预期执行语义对齐。
  • Result: 在EgoPER和CaptainCook4D基准的one-class classification (OCC)设置下取得最先进的性能。
  • Conclusion: 联合建模执行和结果能实现更可靠的错误检测,效果感知表示有潜力惠及更广泛的下游应用。

[35] Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Zijian Gu,Yuxi Liu,Zhenhao Zhang,Song Wang

Main category: cs.CV

TL;DR: 提出公平感知的低秩适配方法,结合参数效率和显式公平优化,通过MaxAccGap损失函数减少医学视觉语言模型在人口统计学群体间的诊断准确性差异。

  • Motivation: 医学视觉语言模型在医学影像任务上达到专家级性能,但在不同人口统计学群体间存在显著的诊断准确性差异,需要开发公平性优化的参数高效方法。
  • Method: 提出三种公平感知LoRA方法:FR-LoRA将MaxAccGap正则化整合到训练目标中,GR-LoRA应用逆频率加权平衡梯度贡献,Hybrid-LoRA结合两种机制。使用可微分的MaxAccGap损失函数实现端到端优化。
  • Result: 在10,000张青光眼眼底图像评估中,GR-LoRA将诊断准确性差异减少69%,同时保持53.15%的整体准确性。种族特定优化实现60%差异减少,仅需0.24%可训练参数。
  • Conclusion: 该方法实现了参数效率与公平性优化的结合,强正则化强度在最小准确性折衷下达到最优公平性,使公平医学AI在资源受限医疗环境中具有实际部署可行性。

[36] Towards Object-centric Understanding for Instructional Videos

Wenliang Guo,Yu Kong

Main category: cs.CV

TL;DR: 提出Object-IVQA基准测试,评估视频中对象状态演变的推理能力,并开发了一个对象中心的智能体框架来提升性能。

  • Motivation: 现有基于动作的方法难以处理真实程序中步骤顺序随对象状态变化的问题,需要转向对象中心的范式,将动作视为驱动状态转换的机制。
  • Method: 引入Object-IVQA基准测试(107个长视频,514个开放问答对),并提出一个智能体框架,协调对象中心规划、感知、分析和生成工具,实现显式证据检索和跨片段多跳推理。
  • Result: 现有大型视觉语言模型在对象级识别和推理方面表现不佳,而提出的框架实现了显著改进。
  • Conclusion: 对象中心范式能更好地理解程序性活动,提出的基准测试和智能体框架为复杂现实任务推理提供了有效解决方案。

[37] NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Models with Searchable Adaptation

Renqi Chen,Haoyang Su,Shixiang Tang

Main category: cs.CV

TL;DR: NAS-LoRA:一种新的参数高效微调方法,通过轻量级神经架构搜索块动态优化先验知识,提升SAM在专业领域的适应性能,同时降低训练成本。

  • Motivation: SAM作为强大的视觉基础模型,在适应医学和农业等专业领域时面临挑战。Transformer编码器缺乏图像块的空间先验,可能阻碍高级语义信息的获取,需要将归纳偏置整合到模型中。
  • Method: 提出NAS-LoRA方法:1)在LoRA的编码器和解码器之间加入轻量级神经架构搜索块,动态优化先验知识;2)采用分阶段优化策略,帮助ViT编码器平衡权重更新和架构调整,逐步学习高级语义信息。
  • Result: NAS-LoRA改进了现有PEFT方法,在推理成本不增加的情况下,训练成本降低了24.14%,展示了NAS在增强视觉基础模型PEFT方面的潜力。
  • Conclusion: NAS-LoRA通过结合神经架构搜索和参数高效微调,有效缩小了预训练SAM与专业领域之间的语义差距,为视觉基础模型的高效适应提供了新思路。

[38] EEA: Exploration-Exploitation Agent for Long Video Understanding

Te Yang,Xiangyu Zhu,Bo Wang,Quan Chen,Peng Jiang,Zhen Lei

Main category: cs.CV

TL;DR: EEA是一个新颖的视频代理框架,通过语义引导的层次树搜索过程实现探索-利用平衡,用于长视频理解,在保持计算效率的同时提高性能。

  • Motivation: 长视频理解需要高效导航大量视觉数据以定位稀疏但关键的信息。现有方法要么因密集预处理导致计算开销过大,要么无法有效平衡探索与利用,导致信息覆盖不完整和效率低下。
  • Method: EEA框架通过语义引导的层次树搜索过程实现探索-利用平衡:1)自主发现并动态更新任务相关语义查询,收集与这些查询匹配的视频帧作为语义锚点;2)在树搜索过程中优先探索语义相关帧,同时确保未知段落的充分覆盖;3)通过显式建模不确定性,自适应结合视觉语言模型的内在奖励与语义先验。
  • Result: 在多个长视频基准测试上的实验验证了所提方法的优越性能和计算效率。
  • Conclusion: EEA框架通过语义引导的探索-利用平衡策略,有效解决了长视频理解中的计算效率和信息覆盖问题,为长视频理解任务提供了高效且性能优越的解决方案。

[39] Exploiting Domain Properties in Language-Driven Domain Generalization for Semantic Segmentation

Seogkyu Jeon,Kibeom Hong,Hyeran Byun

Main category: cs.CV

TL;DR: DPMFormer提出了一种新的域泛化语义分割框架,通过域感知提示学习、对比学习和一致性学习来解决视觉-语言模型中的语义对齐问题,在多个基准测试中达到SOTA。

  • Motivation: 现有基于视觉-语言模型的域泛化语义分割方法忽略了视觉和文本上下文之间的语义错位问题,这种错位源于在单一源域上学习的固定上下文提示的刚性。
  • Method: 提出DPMFormer框架:1) 域感知提示学习促进视觉和文本线索的语义对齐;2) 域感知对比学习结合纹理扰动多样化可观察域;3) 域鲁棒一致性学习最小化原始图像和增强图像预测的差异。
  • Result: 该框架在多个域泛化语义分割基准测试中建立了新的最先进性能,证明了其优越性。
  • Conclusion: DPMFormer通过解决视觉-语言模型中的语义对齐问题,为域泛化语义分割提供了一个有效的框架,代码已开源。

[40] AfroBeats Dance Movement Analysis Using Computer Vision: A Proof-of-Concept Framework Combining YOLO and Segment Anything Model

Kwaku Opoku-Ware,Gideon Opoku

Main category: cs.CV

TL;DR: 使用YOLOv8/v11和SAM模型进行自动舞蹈动作分析的初步框架,在加纳AfroBeats舞蹈视频中测试,展示了技术可行性但存在单视频验证等限制。

  • Motivation: 探索使用当代计算机视觉技术进行自动舞蹈动作分析,无需专业设备或标记,为定量舞蹈指标提供技术基础。
  • Method: 提出概念验证框架:集成YOLOv8/v11进行舞者检测,使用Segment Anything Model (SAM)进行精确分割,实现视频中舞者动作的跟踪和量化分析。
  • Result: 在49秒加纳AfroBeats舞蹈视频测试中:检测精度约94%,召回率约89%;SAM分割IoU约83%;主舞者比次舞者多执行23%步数,运动强度高37%,使用空间多42%。
  • Conclusion: 该框架展示了技术可行性,为定量舞蹈指标提供了有前景的方向,但存在单视频验证、缺乏系统地面真值标注和与现有姿态估计方法比较等限制,需要未来系统验证研究。

[41] CSMapping: Scalable Crowdsourced Semantic Mapping and Topology Inference for Autonomous Driving

Zhijian Qiao,Zehuan Yu,Tong Li,Chih-Chung Chou,Wenchao Ding,Shaojie Shen

Main category: cs.CV

TL;DR: CSMapping系统通过潜在扩散模型学习真实地图结构先验,结合约束优化和拓扑聚类,实现高质量语义地图和道路中心线生成,质量随众包数据增加而提升。

  • Motivation: 众包数据可用于大规模自动驾驶地图构建,但低成本传感器噪声限制了数据量增加带来的质量提升,需要一种能随数据量增加而持续提升质量的系统。
  • Method: 1) 语义地图:训练潜在扩散模型学习真实地图结构先验,通过约束MAP优化结合扩散先验;2) 拓扑地图:应用置信度加权k-medoids聚类和运动学优化处理轨迹,生成平滑中心线。
  • Result: 在nuScenes、Argoverse 2和大型专有数据集上实现了最先进的语义和拓扑地图性能,质量随众包数据增加而持续提升。
  • Conclusion: CSMapping系统通过结合生成先验和优化方法,有效解决了众包地图构建中的噪声问题,实现了可扩展的高质量地图生成。

[42] FloodDiffusion: Tailored Diffusion Forcing for Streaming Motion Generation

Yiyi Cai,Yuhan Wu,Kunhang Li,You Zhou,Bo Zheng,Haiyang Liu

Main category: cs.CV

TL;DR: FloodDiffusion是一个用于文本驱动的流式人体动作生成的新框架,通过改进的扩散强制方法实现实时延迟下与文本对齐的无缝动作序列生成。

  • Motivation: 现有方法依赖分块处理或带扩散头的自回归模型,无法有效处理时间变化的文本提示下的流式动作生成任务。需要一种能够建模真实动作分布并实现实时延迟的框架。
  • Method: 采用扩散强制框架,但发现原始扩散强制方法无法建模真实动作分布。为此进行了三项关键改进:1) 使用双向注意力而非因果注意力;2) 采用下三角时间调度器而非随机调度器;3) 使用连续时间变化的方式引入文本条件。
  • Result: 在HumanML3D基准测试中达到0.057的FID分数,首次证明基于扩散强制的框架在流式动作生成任务上达到最先进性能。
  • Conclusion: FloodDiffusion通过改进的扩散强制框架成功解决了文本驱动的流式人体动作生成问题,实现了高质量、实时延迟的动作生成,并开源了模型、代码和权重。

[43] OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation

Zhishan Zhou,Siyuan Wei,Zengran Wang,Chunjie Wang,Xiaosheng Yan,Xiao Liu

Main category: cs.CV

TL;DR: OpenTrack3D:一种用于开放词汇3D实例分割的通用框架,通过视觉-空间跟踪器在线构建跨视图一致的对象提案,并使用MLLM增强组合推理能力

  • Motivation: 现有开放词汇3D实例分割方法存在两个关键限制:1) 提案生成依赖于数据集特定的提案网络或基于网格的超点,无法应用于无网格场景且泛化能力有限;2) CLIP分类器的文本推理能力弱,难以处理组合式和功能性的用户查询
  • Method: 提出OpenTrack3D框架:1) 使用2D开放词汇分割器生成掩码,通过深度信息提升到3D点云;2) 利用DINO特征图提取掩码引导的实例特征;3) 设计视觉-空间跟踪器融合视觉和空间线索维护实例一致性;4) 用多模态大语言模型替代CLIP增强组合推理;5) 提供可选超点细化模块进一步提升性能
  • Result: 在ScanNet200、Replica、ScanNet++和SceneFun3D等多个基准测试中展示了最先进的性能和强大的泛化能力
  • Conclusion: OpenTrack3D解决了现有方法的局限性,实现了通用、准确的无网格开放词汇3D实例分割,在多样化和非结构化环境中表现出色

[44] Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

Subin Kim,Sangwoo Mo,Mamshad Nayeem Rizve,Yiran Xu,Difan Liu,Jinwoo Shin,Tobias Hinz

Main category: cs.CV

TL;DR: PRIS框架通过在推理时自适应地修改提示词来提升文本到视觉生成的质量,而不是固定提示词并单纯增加生成次数。

  • Motivation: 现有方法主要通过增加采样步数或种子数量来扩展视觉生成过程,但这种方法很快会遇到质量瓶颈,因为关键的提示词保持固定,无法有效解决用户意图与生成视觉内容之间的对齐问题。
  • Method: 提出PRIS框架:1)审查生成的视觉内容,识别跨视觉的重复失败模式;2)基于失败模式重新设计提示词;3)使用修订后的提示词重新生成视觉内容。引入元素级事实校正验证器,在细粒度层面评估提示属性与生成视觉之间的对齐,提供更准确和可解释的反馈。
  • Result: 在文本到图像和文本到视频基准测试中广泛实验,包括在VBench 2.0上获得15%的性能提升,证明了方法的有效性。
  • Conclusion: 联合扩展提示词和视觉内容是充分利推理时扩展定律的关键,自适应提示词重设计能够显著提升文本到视觉生成的质量和对齐度。

[45] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

Ruoxuan Zhang,Bin Wen,Hongxia Xie,Yi Yao,Songhan Zuo,Jian-Yu Jiang-Lin,Hong-Han Shuai,Wen-Huang Cheng

Main category: cs.CV

TL;DR: CookAnything是一个基于扩散模型的灵活框架,能够根据任意长度的烹饪指令生成连贯、语义分明的图像序列,解决了现有方法无法适应食谱长度变化的问题。

  • Motivation: 当前扩散模型在处理结构化多步骤场景(如食谱插图)时存在困难,且现有食谱插图方法无法适应食谱长度的自然变化,无论实际指令结构如何都生成固定数量的图像。
  • Method: 提出了三个关键组件:1) 步骤区域控制(SRC),在单个去噪过程中将文本步骤与对应图像区域对齐;2) 灵活RoPE,增强时间连贯性和空间多样性的步骤感知位置编码机制;3) 跨步骤一致性控制(CSCC),保持步骤间细粒度成分一致性。
  • Result: 在食谱插图基准测试中,CookAnything在基于训练和无训练设置下均优于现有方法,支持复杂多步骤指令的可扩展高质量视觉合成。
  • Conclusion: 该框架在指导性媒体和程序化内容创作等领域具有广泛应用潜力,能够生成连贯、语义分明的图像序列来可视化任意长度的烹饪指令。

[46] V-ITI: Mitigating Hallucinations in Multimodal Large Language Models via Visual Inference-Time Intervention

Nan Sun,Zhenyu Zhang,Xixun Lin,Kun Wang,Yanmin Shang,Naibin Gu,Shuohuan Wang,Yu Sun,Hua Wu,Haifeng Wang,Yanan Cao

Main category: cs.CV

TL;DR: V-ITI:一个轻量级视觉推理时干预框架,通过检测视觉忽视并仅在需要时干预,有效缓解多模态大语言模型的幻觉问题

  • Motivation: 多模态大语言模型在视觉语言任务中表现出色,但存在幻觉问题,生成与输入视觉内容不一致的输出,这在精度敏感领域中影响可靠性。现有方法通常通过干预注意力分数或输出logits来缓解幻觉,但只关注"如何干预"而忽略了"何时干预",导致"过度干预"问题,引入新的幻觉和不必要的计算开销。
  • Method: 提出V-ITI框架:1)视觉忽视检测器:通过头级判别探针检测视觉忽视;2)视觉回忆干预器:仅在检测到视觉忽视时,用预存的视觉激活信息调制激活。该方法基于研究发现,视觉忽视可以通过MLLMs中的头级激活模式准确检测。
  • Result: 在八个基准测试和不同MLLM家族上的广泛实验表明,V-ITI能够持续缓解与视觉相关的幻觉,同时保持一般任务性能。
  • Conclusion: V-ITI通过智能检测视觉忽视并仅在必要时进行干预,有效解决了多模态大语言模型的幻觉问题,避免了过度干预带来的新问题,是一个轻量级且高效的解决方案。

[47] Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching

Wei Chee Yew,Hailun Xu,Sanjay Saha,Xiaotian Fan,Hiok Hian Ong,David Yuchen Wang,Kanchan Sarkar,Zhenheng Yang,Danhui Guan

Main category: cs.CV

TL;DR: 提出混合内容审核框架,结合监督分类和相似性匹配,用于直播平台的多模态内容审核,显著减少不良内容观看

  • Motivation: 大规模用户生成视频平台的内容审核面临挑战,特别是在直播环境中需要及时、多模态且能应对不断演变的不良内容形式
  • Method: 混合审核框架:监督分类处理已知违规,基于参考的相似性匹配处理新颖或微妙案例;多模态输入通过两个流程处理,使用多模态大语言模型将知识蒸馏到每个流程中以提高准确性同时保持推理轻量
  • Result: 分类流程在80%精确度下达到67%召回率,相似性流程在80%精确度下达到76%召回率;大规模A/B测试显示用户观看不良直播减少6-8%
  • Conclusion: 该框架展示了可扩展且适应性强的多模态内容治理方法,能够同时处理明确违规和新兴对抗行为

[48] CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding

Huy Quang Ung,Guillaume Habault,Yasutaka Nishimura,Hao Niu,Roberto Legaspi,Tomoki Oya,Ryoichi Kojima,Masato Taya,Chihiro Ono,Atsunori Minamikawa,Yan Liu

Main category: cs.CV

TL;DR: CartoMapQA是一个专门评估视觉语言模型在地图理解能力上的基准测试,包含2000多个样本,涵盖从符号识别到路径推理的多层次地图解读技能,揭示了当前模型在地图语义理解和地理空间推理方面的不足。

  • Motivation: 尽管视觉语言模型在视觉-文本信息融合方面取得了进展,但其在地图解读方面的能力尚未得到充分探索。地图理解对于导航、地理搜索和城市规划等实际应用至关重要,因此需要专门的评估工具来推动模型改进。
  • Method: 研究者创建了CartoMapQA基准测试,包含2000多个样本,每个样本由地图图像、问题(开放式或多选题)和真实答案组成。任务涵盖低、中、高三个层次的地图解读技能:符号识别、嵌入信息提取、比例尺解读和路径推理。
  • Result: 对开源和专有视觉语言模型的评估显示,模型在地图语义理解、地理空间推理方面存在持续挑战,并且容易产生OCR相关错误。这些弱点表明当前模型在地图理解能力上仍有显著不足。
  • Conclusion: CartoMapQA通过识别模型在地图理解方面的具体弱点,为改进视觉语言模型架构提供了有价值的工具,有助于开发更适合依赖可靠地图理解的实际应用(如导航、地理搜索和城市规划)的模型。

[49] GAOT: Generating Articulated Objects Through Text-Guided Diffusion Models

Hao Sun,Lei Fan,Donglin Di,Shaohui Liu

Main category: cs.CV

TL;DR: GAOT:基于文本提示生成铰接物体的三阶段框架,结合扩散模型和超图学习

  • Motivation: 现有铰接物体生成模型通常无法基于文本提示进行条件生成,文本描述与3D铰接物体表示之间存在显著差距
  • Method: 三阶段框架:1) 微调点云生成模型从文本生成粗略物体表示;2) 基于超图学习方法细化表示,将物体部件表示为图顶点;3) 使用扩散模型生成铰接关节(图边)
  • Result: 在PartNet-Mobility数据集上的大量定性和定量实验表明该方法有效,性能优于先前方法
  • Conclusion: GAOT框架成功解决了从文本提示生成铰接物体的问题,通过结合扩散模型和超图学习实现了优越性能

[50] Global-Local Aware Scene Text Editing

Fuxiang Yang,Tonghua Su,Donglin Di,Yin Chen,Xiangqian Wu,Zhongjie Wang,Lei Fan

Main category: cs.CV

TL;DR: GLASTE是一个端到端的场景文本编辑框架,通过全局-局部感知设计解决现有方法的不一致性和长度不敏感问题,在保持文本样式和背景纹理的同时实现更自然的文本替换。

  • Motivation: 现有场景文本编辑方法存在两个主要挑战:1) 编辑后的局部区域与周围背景不一致;2) 难以处理编辑前后文本长度差异较大的情况。这些问题导致编辑结果不自然。
  • Method: 提出GLASTE框架,采用全局-局部组合结构:1) 设计全局-局部组合架构;2) 联合全局和局部损失函数;3) 增强文本图像特征;4) 将文本样式表示为与图像大小无关的向量;5) 使用仿射融合保持目标文本图像的长宽比。
  • Result: 在真实世界数据集上的大量实验表明,GLASTE在定量指标和定性结果上都优于先前方法,有效缓解了不一致性和长度不敏感两个挑战。
  • Conclusion: GLASTE通过同时结合高级全局上下文信息和精细局部特征,实现了更一致、长度敏感的文本编辑,为场景文本编辑任务提供了有效的解决方案。

[51] UniComp: Rethinking Video Compression Through Informational Uniqueness

Chao Yuan,Shimin Chen,Minliang Lin,Limeng Qiao,Guanglu Wan,Lin Ma

Main category: cs.CV

TL;DR: UniComp是一个基于信息独特性驱动的视频压缩框架,通过最小化条件熵来最大化信息保真度,在有限计算预算下优于现有压缩方法。

  • Motivation: 不同于基于注意力的压缩方法,本文从信息论角度出发,旨在在受限计算预算下最大化视频表示的信息保真度,解决视觉压缩中的信息冗余问题。
  • Method: 提出信息独特性概念来衡量token间的内在冗余,并设计了三个渐进式模块:帧组融合、token分配和空间动态压缩,分别进行语义帧分组、自适应资源分配和细粒度空间压缩。
  • Result: 大量实验表明,UniComp在有限计算预算下持续优于现有压缩方法,在保留关键视觉token方面表现突出,证明了信息独特性在token压缩效率中的关键作用。
  • Conclusion: 信息独特性驱动的视频压缩框架UniComp通过优化条件熵和渐进式压缩模块,在保持信息保真度的同时有效减少计算成本,为视觉压缩提供了新的有效方法。

[52] Cross-Stain Contrastive Learning for Paired Immunohistochemistry and Histopathology Slide Representation Learning

Yizhi Zhang,Lei Fan,Zhulin Tao,Donglin Di,Yang Song,Sidong Liu,Cong Cong

Main category: cs.CV

TL;DR: 提出CSCL框架,通过多染色对比学习提升WSI表征质量,在癌症亚型分类、生物标志物状态分类和生存预测任务中表现优异。

  • Motivation: 计算病理学需要通用、可迁移的全切片图像表征。虽然多染色标记(如免疫组化)能丰富H&E特征,但现有数据集对齐不佳,导致跨染色特征不一致,限制了表征学习。
  • Method: 1) 构建五染色对齐数据集(H&E、HER2、KI67、ER、PGR);2) 提出CSCL两阶段预训练框架:第一阶段使用轻量适配器进行补丁级对比对齐,第二阶段使用多实例学习,包含跨染色注意力融合模块和全局对齐模块。
  • Result: 在癌症亚型分类、IHC生物标志物状态分类和生存预测任务上均取得显著提升,生成了高质量、可迁移的H&E切片级表征。
  • Conclusion: CSCL框架通过跨染色对比学习有效整合多染色信息,解决了染色间不对齐问题,显著提升了WSI表征的质量和可迁移性。

[53] Dynamic Optical Test for Bot Identification (DOT-BI): A simple check to identify bots in surveys and online processes

Malte Bleeker,Mauro Gotsch

Main category: cs.CV

TL;DR: DOT-BI是一种利用人类运动感知来区分人类和机器人的动态光学测试方法,通过隐藏数字在随机纹理背景中,只有人类能通过运动感知识别数字,而算法无法提取有效信号。

  • Motivation: 在线调查和流程中需要区分人类参与者和自动化系统,传统验证方法如CAPTCHA存在可用性问题且可能被先进AI破解,需要更自然、高效的人类验证方法。
  • Method: DOT-BI将数字隐藏在随机黑白像素纹理背景中,数字与背景纹理相同但通过运动和缩放差异使其对人类可见。人类通过多帧运动感知识别数字,而逐帧算法处理无法提取有效信号。
  • Result: 1) GPT-5-Thinking和Gemini 2.5 Pro等先进多模态模型即使被告知机制也无法正确提取数字;2) 在线调查中99.5%参与者成功完成任务,平均完成时间10.7秒;实验室研究显示相比对照组无负面可用性影响。
  • Conclusion: DOT-BI是一种有效区分人类和机器人的方法,具有高成功率、快速完成时间和良好可用性,适合在线调查和流程中采用,已发布代码和预渲染变体促进应用。

[54] Beyond Boundary Frames: Audio-Visual Semantic Guidance for Context-Aware Video Interpolation

Yuchen Deng,Xiuyang Wu,Hai-Tao Zheng,Jie Wang,Feidiao Yang,Yuxing Han

Main category: cs.CV

TL;DR: BBF是一个上下文感知的视频帧插值框架,通过解耦的多模态融合机制,能够处理文本、音频、图像和视频等多种条件输入,在通用插值和视听同步插值任务上优于现有方法。

  • Motivation: 现有视频帧插值方法在处理快速、复杂、高度非线性的运动模式时存在困难,特别是扩散模型方法虽然比传统光流方法有所改进,但仍难以覆盖多样化应用场景,在细粒度运动任务(如视听同步插值)中经常无法生成清晰、时间一致性的帧。
  • Method: 1. 增强插值模型的输入设计,使其能灵活处理多种条件模态(文本、音频、图像、视频);2. 提出解耦的多模态融合机制,将不同条件信号顺序注入DiT骨干网络;3. 采用渐进多阶段训练范式,使用起始-结束帧差异嵌入动态调整数据采样和损失权重。
  • Result: BBF在通用插值和视听同步插值任务上均优于专门的先进方法,建立了在协调多通道条件下的统一视频帧插值框架。
  • Conclusion: BBF通过上下文感知设计和多模态融合机制,成功解决了复杂运动模式下的视频帧插值问题,特别是在视听同步等细粒度任务中表现出色,为多条件视频帧插值提供了统一框架。

[55] Harnessing Hypergraphs in Geometric Deep Learning for 3D RNA Inverse Folding

Guang Yang,Lei Fan

Main category: cs.CV

TL;DR: HyperRNA是一个基于超图的生成模型,用于RNA逆折叠设计,通过编码器-解码器架构生成能够折叠成目标二级结构的RNA序列。

  • Motivation: RNA逆折叠问题是RNA设计中的关键挑战,需要找到能够折叠成特定二级结构的核苷酸序列,这对分子稳定性和功能至关重要。序列与结构之间的复杂关系使得这一任务极具挑战性。
  • Method: 提出HyperRNA框架,包含三个主要组件:预处理阶段基于3-bead粗粒度表示构建RNA骨架原子坐标图结构;编码阶段使用注意力嵌入模块和超图编码器捕获高阶依赖性和复杂生物分子相互作用;解码阶段以自回归方式生成RNA序列。
  • Result: 在PDBBind和RNAsolo数据集上进行的定量和定性实验表明,HyperRNA在RNA序列生成和RNA-蛋白质复合物序列生成任务中优于现有RNA设计方法。
  • Conclusion: HyperRNA不仅超越了现有RNA设计方法,还展示了利用超图在RNA工程中的潜力。

[56] CloseUpAvatar: High-Fidelity Animatable Full-Body Avatars with Mixture of Multi-Scale Textures

David Svitov,Pietro Morerio,Lourdes Agapito,Alessio Del Bue

Main category: cs.CV

TL;DR: CloseUpAvatar是一种新颖的关节人体化身表示方法,通过自适应纹理切换机制处理更广泛的相机运动,同时保持特写视图的渲染质量。

  • Motivation: 现有方法在处理广泛相机运动时难以同时保持特写视图的渲染质量,特别是在相机距离变化较大时,渲染质量会受到影响。
  • Method: 使用纹理平面表示化身,包含两组可学习的纹理(低频和高频细节)。根据相机与化身表面的距离自动切换纹理:近距离时使用高频纹理,远距离时逐渐降低其影响。
  • Result: 在ActorsHQ高分辨率数据集上的实验表明,CloseUpAvatar在广泛的相机位置下实现了定性和定量改进,同时通过限制所需图元数量保持高FPS。
  • Conclusion: CloseUpAvatar通过自适应纹理切换机制,能够在更广泛的相机运动范围内实现高质量的化身渲染,特别是在特写视图方面表现优异,同时保持实时性能。

[57] HBFormer: A Hybrid-Bridge Transformer for Microtumor and Miniature Organ Segmentation

Fuchen Zheng,Xinyi Chen,Weixuan Li,Quanjun Li,Junhua Zhou,Xiaojiao Guo,Xuhang Chen,Chi-Man Pun,Shoujun Zhou

Main category: cs.CV

TL;DR: HBFormer:一种新型混合桥接Transformer架构,通过多尺度特征融合解码器解决医学图像分割中局部细节与全局上下文融合不足的问题,在微肿瘤和微小器官分割任务上取得SOTA效果。

  • Motivation: 现有基于移位窗口自注意力的Vision Transformers在医学图像分割中存在局限性:局部注意力机制难以有效融合局部细节与全局上下文,这对微肿瘤和微小器官分割等需要精细边界定义和广泛上下文理解的任务尤为不利。
  • Method: 提出HBFormer(混合桥接Transformer),结合经典U型编码器-解码器框架和Swin Transformer骨干网络进行分层特征提取。核心创新是"桥接"机制,通过新型多尺度特征融合(MFF)解码器融合编码器的多尺度特征与全局上下文信息,使用通道和空间注意力模块(由扩张卷积和深度可分离卷积构建)捕获长程依赖并精细化边界。
  • Result: 在多个具有挑战性的医学图像分割数据集(多器官、肝肿瘤、膀胱肿瘤基准)上进行全面实验,HBFormer实现了最先进的结果,展示了其在微肿瘤和微小器官分割方面的卓越能力。
  • Conclusion: HBFormer通过创新的混合桥接架构有效解决了医学图像分割中局部与全局特征融合的难题,在精细分割任务上表现出色,为临床诊断提供了更准确的工具。

[58] Memory-Guided Point Cloud Completion for Dental Reconstruction

Jianan Sun,Yukang Huang,Dongzhihan Wang,Mingyu Fan

Main category: cs.CV

TL;DR: 提出一种基于检索增强的牙齿点云补全框架,通过可学习的原型记忆库提供结构先验,改善大缺失区域的补全效果。

  • Motivation: 部分牙齿点云常因遮挡和有限扫描视角导致大面积缺失区域,这会偏置仅编码器的全局特征并迫使解码器产生幻觉结构。
  • Method: 提出检索增强框架,将原型记忆库集成到标准编码器-解码器流程中。编码部分输入后,从可学习记忆库中检索最近邻流形原型,通过置信度门控加权与查询特征融合,然后解码。记忆库端到端优化,自组织为可重用的牙齿形状原型,无需牙齿位置标签。
  • Result: 在自处理的Teeth3DS基准测试中,Chamfer距离持续改善,可视化显示更锐利的牙尖、脊和邻接过渡区域。
  • Conclusion: 该方法提供了一种简单有效的利用跨样本规律性的方式,实现更准确和忠实的牙齿点云补全,模块即插即用,兼容常见补全主干网络。

[59] Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding

Haoran Zhou,Gim Hee Lee

Main category: cs.CV

TL;DR: Motion4D:将2D基础模型先验融入4D高斯泼溅表示的统一框架,解决3D一致性问题,提升动态场景理解

  • Motivation: 现有2D视觉基础模型在单目视频动态场景分析中缺乏3D一致性,导致复杂3D环境中的空间错位和时间闪烁问题,需要将2D先验与3D表示相结合
  • Method: 采用两阶段迭代优化框架:1) 顺序优化更新运动和语义场保持局部一致性;2) 全局优化联合优化所有属性实现长期一致性。引入3D置信度图动态调整运动先验,自适应重采样基于RGB和语义误差在欠表示区域插入新高斯。通过迭代细化交替优化语义场和更新SAM2提示增强语义一致性
  • Result: 在点跟踪、视频对象分割和新视角合成等多种场景理解任务中,Motion4D显著优于2D基础模型和现有3D方法
  • Conclusion: Motion4D成功将2D基础模型先验整合到统一的4D高斯泼溅表示中,有效解决了3D一致性问题,为动态场景理解提供了强大框架

[60] LAMP: Language-Assisted Motion Planning for Controllable Video Generation

Muhammed Burak Kizil,Enes Sanli,Niloy J. Mitra,Erkut Erdem,Aykut Erdem,Duygu Ceylan

Main category: cs.CV

TL;DR: LAMP使用大语言模型作为运动规划器,将自然语言描述转换为3D轨迹,实现视频生成中的运动控制

  • Motivation: 现有视频生成方法在运动控制方面存在局限,特别是物体动态和摄像机轨迹的精确控制,这对于创作复杂的电影场景至关重要
  • Method: 利用LLM作为运动规划器,定义运动领域特定语言,通过程序合成将自然语言转换为结构化运动程序,再确定性地映射到3D轨迹
  • Result: LAMP在运动可控性和用户意图对齐方面优于现有方法,建立了首个直接从自然语言生成物体和摄像机运动的框架
  • Conclusion: LAMP通过LLM驱动的运动规划,显著提升了视频生成中的运动控制能力,为复杂电影场景创作提供了新方法

[61] ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation

Yaokun Li,Shuaixian Wang,Mantang Guo,Jiehui Huang,Taojun Ding,Mu Hu,Kaixuan Wang,Shaojie Shen,Guang Tan

Main category: cs.CV

TL;DR: ReCamDriving是一个纯视觉的、相机控制的新轨迹视频生成框架,利用密集完整的3DGS渲染进行几何引导,通过两阶段训练和跨轨迹数据策略实现精确的相机可控生成。

  • Motivation: 现有的修复方法无法恢复复杂伪影,而基于LiDAR的方法依赖稀疏不完整的线索。需要一种能够利用密集完整几何信息实现精确相机控制的视频生成方法。
  • Method: 1. 利用密集场景完整的3DGS渲染作为显式几何引导;2. 采用两阶段训练:第一阶段使用相机姿态进行粗控制,第二阶段加入3DGS渲染进行细粒度视角和几何引导;3. 提出基于3DGS的跨轨迹数据整理策略,消除相机变换模式的训练-测试差距;4. 构建ParaDrive数据集,包含超过11万对平行轨迹视频对。
  • Result: ReCamDriving在相机可控性和结构一致性方面达到了最先进的性能,能够生成精确相机控制的新轨迹视频。
  • Conclusion: ReCamDriving通过结合3DGS渲染的几何引导和创新的训练策略,成功实现了纯视觉的精确相机可控视频生成,为自动驾驶等应用提供了有效的解决方案。

[62] FeatureLens: A Highly Generalizable and Interpretable Framework for Detecting Adversarial Examples Based on Image Features

Zhigang Yang,Yuan Liu,Jiawei Zhang,Puning Zhang,Xinqiang Ma

Main category: cs.CV

TL;DR: FeatureLens是一个轻量级对抗攻击检测框架,使用图像特征提取器和浅层分类器,仅需51维特征就能实现高精度检测,同时具备良好的泛化性、可解释性和计算效率。

  • Motivation: 深度神经网络在图像分类中表现出色,但对对抗攻击的脆弱性仍是关键挑战。现有检测方法通常依赖复杂且难以解释的架构,这损害了可解释性和泛化能力。
  • Method: 提出FeatureLens框架,包含图像特征提取器(IFE)和浅层分类器(如SVM、MLP或XGBoost),模型参数规模仅为1,000到30,000个参数,仅使用51维特征进行检测。
  • Result: 在闭集评估中达到97.8%到99.75%的检测准确率,在泛化评估中达到86.17%到99.6%的准确率,覆盖FGSM、PGD、CW和DAmageNet等多种攻击类型。
  • Conclusion: FeatureLens通过结合强大的检测性能、优秀的泛化能力、良好的可解释性和计算效率,为透明有效的对抗防御提供了实用途径。

[63] MKSNet: Advanced Small Object Detection in Remote Sensing Imagery with Multi-Kernel and Dual Attention Mechanisms

Jiahao Zhang,Xiao Zhao,Guangyu Gao

Main category: cs.CV

TL;DR: MKSNet提出了一种用于遥感图像小目标检测的新网络架构,通过多核选择机制和双注意力机制显著提升了检测性能。

  • Motivation: 遥感图像中的小目标检测面临两大挑战:1)传统CNN深层会丢失小目标的关键信息;2)遥感图像的空间冗余和复杂背景细节会掩盖小目标。
  • Method: 提出MKSNet网络,包含两个核心组件:1)多核选择机制,使用大卷积核捕获广泛上下文信息,并自适应选择核大小;2)双注意力机制,结合空间注意力模块(调整空间权重)和通道注意力模块(优化通道信息选择)。
  • Result: 在DOTA-v1.0和HRSC2016基准测试上,MKSNet显著超越了现有的最先进模型,证明了其在遥感图像小目标检测中的优越性能。
  • Conclusion: MKSNet能够有效处理多尺度和高分辨率图像数据的复杂性,在遥感目标检测中表现出卓越的有效性和创新性。

[64] Optical Context Compression Is Just (Bad) Autoencoding

Ivan Yee Lee,Cheng Yang,Taylor Berg-Kirkpatrick

Main category: cs.CV

TL;DR: 该论文质疑视觉上下文压缩的有效性,通过实验证明简单的替代方法在文本重建和语言建模方面优于视觉编码器

  • Motivation: DeepSeek-OCR展示了从少量视觉token高保真重建渲染文本的能力,引发了视觉上下文压缩的兴奋。但现有评估仅限于重建,未测试这些表示是否真正有助于语言建模。作者旨在验证视觉压缩叙事的两个隐含假设
  • Method: 将DeepSeek-OCR的视觉编码器与两种简单替代方法比较:参数无关的平均池化和学习的分层编码器。在相同压缩率下评估文本重建质量,并测试这些压缩表示对语言建模任务的实际帮助
  • Result: 简单方法在匹配压缩率下达到或超越视觉编码器的重建效果,且在语言建模任务中表现更优。视觉压缩在语言建模上甚至无法超越简单的截断方法,表明视觉上下文压缩的实际效果被高估
  • Conclusion: 对光学上下文压缩的兴奋超过了实际证据。视觉编码器在文本重建和语言建模方面并不优于简单替代方案,视觉压缩叙事需要更严格的实证支持

[65] Multi-Scale Visual Prompting for Lightweight Small-Image Classification

Salim Khazem

Main category: cs.CV

TL;DR: MSVP是一种用于小图像数据集的多尺度视觉提示方法,通过全局、中尺度和局部提示图与输入图像融合,在CNN和ViT骨干网络上以极小的参数增加(<0.02%)显著提升性能。

  • Motivation: 现有视觉提示方法主要针对大型视觉Transformer和高分辨率数据集(如ImageNet),而教育、原型设计和研究中广泛使用的小图像基准(MNIST、Fashion-MNIST、CIFAR-10)在提示学习方面关注不足。
  • Method: 提出多尺度视觉提示(MSVP),学习全局、中尺度和局部提示图,通过轻量级1×1卷积与输入图像融合。该方法与骨干网络无关,参数增加极少。
  • Result: 在MNIST、Fashion-MNIST和CIFAR-10上使用简单CNN、ResNet-18和小型ViT进行统一基准测试,MSVP带来一致的性能提升,计算开销可忽略。多尺度提示为低分辨率图像提供了有效的归纳偏置。
  • Conclusion: 多尺度视觉提示是一种简单通用的模块,即使在小图像数据集上也能有效提升模型性能,为视觉提示在小图像基准上的应用提供了新思路。

[66] ToG-Bench: Task-Oriented Spatio-Temporal Grounding in Egocentric Videos

Qi'ao Xu,Tianwen Qian,Yuqian Fu,Kailing Li,Yang Jiao,Jiacheng Zhang,Xiaoling Wang,Liang He

Main category: cs.CV

TL;DR: 提出了首个面向任务的时空视频定位基准ToG-Bench,专注于具身智能中的任务导向对象定位,包含显式-隐式双重定位和一对多定位等挑战性特性。

  • Motivation: 现有时空视频定位研究主要局限于对象中心和描述性指令,忽略了任务导向推理,而这对具身智能体完成目标导向交互至关重要。需要建立能够评估具身智能中任务导向对象定位能力的基准。
  • Method: 基于ScanNet视频构建ToG-Bench基准,包含100个标注片段和2,704个任务导向定位指令。采用半自动化流程,结合基础模型标注和人工精修。提出专门针对多对象和显式-隐式对象定位的任务级评估指标。
  • Result: 基准测试了7种最先进的多模态大语言模型,实验揭示了任务导向时空视频定位的内在挑战,以及在显式-隐式定位和多对象定位方面存在的显著性能差距。
  • Conclusion: ToG-Bench填补了任务导向时空视频定位基准的空白,揭示了具身场景中感知与交互之间的巨大鸿沟,为未来具身智能研究提供了重要评估工具。

[67] Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

Ge-Peng Ji,Jingyi Liu,Deng-Ping Fan,Nick Barnes

Main category: cs.CV

TL;DR: Colon-X是一个推进结肠镜多模态智能的开源项目,包含ColonVQA数据集(110万+视觉问答条目)和ColonR1推理模型,在数据稀缺条件下性能超越监督微调25.22%

  • Motivation: 当前结肠镜多模态大语言模型的临床输出在鲁棒性和可信度方面存在不足,需要从多模态理解向临床推理演进,以提升结肠镜分析的智能化水平
  • Method: 1) 构建ColonVQA多模态数据集(76个临床发现,18个多模态任务);2) 评估22个MLLM模型的泛化性和鲁棒性;3) 创建ColonReason临床推理数据集(多专家辩论标注);4) 开发ColonR1模型(任务自适应奖励和梯度稳定优化技术)
  • Result: ColonR1在数据稀缺条件下达到56.61%总体准确率,比监督微调提升25.22%,为多模态结肠镜分析建立了新的推理基准。现有MLLM模型的临床输出在鲁棒性和可信度方面仍有很大差距
  • Conclusion: Colon-X项目通过构建大规模数据集和开发推理模型,成功推进了结肠镜多模态智能从理解到临床推理的演进,为社区提供了重要的数据基础和模型基准

[68] ConvRot: Rotation-Based Plug-and-Play 4-bit Quantization for Diffusion Transformers

Feice Huang,Zuliang Han,Xing Zhou,Yihuang Chen,Lifei Zhu,Haoqian Wang

Main category: cs.CV

TL;DR: 提出ConvRot方法,通过分组旋转量化实现扩散Transformer的W4A4推理,在保持图像质量的同时获得2.26倍加速和4.05倍内存减少

  • Motivation: 扩散Transformer模型规模增大导致内存占用和推理延迟增加,现有旋转量化方法存在较大开销且难以处理行向异常值
  • Method: 提出ConvRot分组旋转量化方法,利用正则Hadamard变换抑制行列异常值;设计ConvLinear4bit即插即用模块,集成旋转、量化、GEMM和反量化操作
  • Result: 在FLUX.1-dev上实现2.26倍加速和4.05倍内存减少,同时保持图像保真度,首次实现扩散Transformer的即插即用W4A4推理
  • Conclusion: ConvRot方法有效解决了扩散Transformer量化中的异常值问题,为大规模扩散模型的高效部署提供了实用解决方案

[69] GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

Melis Ocal,Xiaoyan Xing,Yue Li,Ngo Anh Vien,Sezer Karaoglu,Theo Gevers

Main category: cs.CV

TL;DR: GaussianBlender是一个前馈框架,通过学习的解耦潜在空间和潜在扩散模型实现即时文本驱动的3D风格化,无需逐资产优化即可获得多视角一致的高质量结果。

  • Motivation: 现有文本到3D风格化方法通常从2D图像编辑器蒸馏,需要耗时的逐资产优化,并且由于当前文本到图像模型的限制存在多视角不一致问题,这使得它们不适用于大规模生产。
  • Method: 从空间分组的3D高斯中学习结构化的解耦潜在空间,用于几何和外观的受控信息共享,然后使用潜在扩散模型对这些学习到的表示进行文本条件编辑。
  • Result: GaussianBlender能够实现即时、高保真、几何保持、多视角一致的风格化,甚至超越了需要逐实例测试时优化的方法,实现了实用的大规模3D风格化。
  • Conclusion: 该方法解锁了实用、民主化的大规模3D风格化,为游戏开发、虚拟现实和数字艺术提供了可扩展的解决方案。

[70] Active Visual Perception: Opportunities and Challenges

Yian Li,Xiaoyu Guo,Hao Zhang,Shuiwang Li,Xiaowei Dai

Main category: cs.CV

TL;DR: 本文探讨主动视觉感知的概念、应用、机遇与挑战,提供该领域的全面概述

  • Motivation: 被动视觉系统在复杂环境中可能无法提供足够信息,而主动视觉感知通过动态与环境交互能够获取更具信息量的数据,在机器人、自动驾驶等领域有重要应用价值
  • Method: 本文采用综述研究方法,对主动视觉感知领域进行系统性回顾和分析,探讨其核心概念、应用场景、技术挑战和研究现状
  • Result: 识别出主动视觉感知的关键机遇包括:动态环境适应能力、信息获取优化、多模态融合等;主要挑战包括:实时复杂视觉数据处理、动态环境决策、多模态传感器集成等
  • Conclusion: 主动视觉感知在多个领域具有巨大潜力,但要实现广泛应用仍需解决实时处理、动态决策和传感器集成等技术挑战,未来研究应关注这些关键问题

[71] Structured Uncertainty Similarity Score (SUSS): Learning a Probabilistic, Interpretable, Perceptual Metric Between Images

Paula Seidler,Neill D. F. Campbell,Ivor J A Simpson

Main category: cs.CV

TL;DR: SUSS是一种新的感知相似度评分方法,通过结构化多元正态分布建模图像感知组件,在像素空间学习线性变换,提供可解释的相似度评估。

  • Motivation: 现有感知相似度方法存在缺陷:深度感知损失(如LPIPS)虽然与人类视觉对齐良好,但依赖复杂非线性特征且难以解释;手工设计的度量(如SSIM)可解释但缺乏关键感知特性。需要一种既与人类感知对齐又具有可解释性的方法。
  • Method: 提出结构化不确定性相似度评分(SUSS):将图像建模为一组感知组件,每个组件用结构化多元正态分布表示。通过生成式自监督训练,使模型给人眼不可察觉的增强赋予高似然度。最终评分是组件对数概率的加权和,权重从人类感知数据集中学习。在像素空间学习图像特定的线性残差变换,实现可解释性。
  • Result: SUSS与人类感知判断高度一致,在不同失真类型上表现出强大的感知校准能力,提供局部化、可解释的相似度评估解释。作为感知损失函数在下游成像任务中表现出稳定的优化行为和竞争性性能。
  • Conclusion: SUSS成功结合了深度感知损失的良好对齐性和手工度量的可解释性,通过结构化概率建模在像素空间实现透明检查,为感知相似度评估提供了新的有效方法。

[72] DINO-RotateMatch: A Rotation-Aware Deep Framework for Robust Image Matching in Large-Scale 3D Reconstruction

Kaichen Zhang,Tianxiang Sheng,Xuanming Shi

Main category: cs.CV

TL;DR: DINO-RotateMatch是一个用于大规模3D重建的深度学习框架,结合了数据集自适应图像配对策略和旋转感知关键点提取匹配,在Kaggle比赛中获得银奖。

  • Motivation: 解决从非结构化互联网图像进行大规模3D重建中的图像匹配挑战,特别是在大规模图像集合中高效准确地匹配图像。
  • Method: 1. 使用DINO检索语义相关的图像对;2. 通过旋转增强捕捉方向依赖的局部特征;3. 结合ALIKED和Light Glue进行关键点提取和匹配。
  • Result: 在Kaggle Image Matching Challenge 2025中,平均准确率(mAA)持续提升,获得银奖(943个团队中排名第47)。
  • Conclusion: 结合自监督全局描述符和旋转增强的局部匹配,为大规模3D重建提供了鲁棒且可扩展的解决方案。

[73] PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention

Ziwen Li,Xin Wang,Hanlue Zhang,Runnan Chen,Runqi Lin,Xiao He,Han Huang,Yandong Guo,Fakhri Karray,Tongliang Liu,Mingming Gong

Main category: cs.CV

TL;DR: 提出PosA-VLA框架,通过姿态条件监督锚定视觉注意力,解决现有VLA模型在具身任务中产生冗余动作的问题,提高动作生成的精确性和效率。

  • Motivation: 当前视觉-语言-动作模型在具身任务中常产生冗余和不稳定的动作,限制了其在时间敏感场景中的应用。作者认为这源于现有VLA模型的空间均匀感知场,使其在复杂环境中容易被目标无关物体分散注意力。
  • Method: 提出PosA-VLA框架,采用姿态条件锚定注意力机制,通过姿态条件监督引导模型感知任务相关区域。该框架采用轻量级架构,无需辅助感知模块(如分割或接地网络),确保高效推理。
  • Result: 在多种机器人操作基准测试中,该方法能够以精确且时间高效的方式执行具身任务,并在各种挑战性环境中展现出强大的泛化能力。
  • Conclusion: 通过姿态条件监督锚定视觉注意力,能够有效提高VLA模型的动作生成精度和效率,解决冗余动作问题,增强在复杂环境中的鲁棒性。

[74] Out-of-the-box: Black-box Causal Attacks on Object Detectors

Melane Navaratnarajah,David A. Kelly,Hana Chockler

Main category: cs.CV

TL;DR: BlackCAtt是一种黑盒对抗攻击算法,通过识别因果像素集对目标检测器进行可解释、不可感知的攻击,实现边界框的消失、修改或新增。

  • Motivation: 现有对抗扰动方法多为白盒且架构特定,缺乏对攻击机制的理解。需要一种能解释攻击原理、帮助开发者分析和防御的黑盒攻击方法。
  • Method: BlackCAtt结合因果像素和目标检测器的边界框,构建黑盒攻击。使用最小因果充分像素集创建架构无关、可重现的对抗攻击,将检测器视为黑盒处理。
  • Result: 在COCO测试集上,相比基线方法:移除检测效果提升2.7倍,修改检测提升3.86倍,触发新检测提升5.75倍。攻击几乎不可感知,展示了因果像素的强大能力。
  • Conclusion: 因果像素识别能产生更精准、更不可感知的黑盒对抗攻击,BlackCAtt为理解攻击机制和防御提供了新工具,适用于不同架构和大小的目标检测器。

[75] Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification

Jiaze Li,Yan Lu,Bin Liu,Guojun Yin,Mang Ye

Main category: cs.CV

TL;DR: 提出DMDL框架,通过模型级因果干预和优化级协作训练,解决无监督可见光-红外行人重识别中的模态偏差问题。

  • Motivation: 现有两阶段学习框架在单模态训练中学习到的模态特定线索会传播到跨模态学习阶段,导致模态偏差,损害身份判别和泛化能力。
  • Method: 提出双级模态去偏学习框架:1) 模型级:因果启发调整干预模块,用因果建模替代基于似然的建模;2) 优化级:协作无偏训练策略,通过模态特定增强、标签细化和特征对齐中断模态偏差传播。
  • Result: 在基准数据集上的大量实验表明,DMDL能够实现模态不变特征学习,获得更泛化的模型。
  • Conclusion: DMDL框架通过模型和优化两个层面的去偏设计,有效解决了无监督可见光-红外行人重识别中的模态偏差问题,提升了模型的泛化能力。

[76] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

Zirun Guo,Minjie Hong,Feng Zhang,Kai Jia,Tao Jin

Main category: cs.CV

TL;DR: CodeVision:一个基于代码即工具框架的MLLM,通过生成代码作为通用接口调用任意图像操作,显著提升多模态大语言模型在方向变化和自然损坏图像上的鲁棒性。

  • Motivation: 当前MLLM在工具使用上存在局限性:依赖固定工具集,缺乏现实必要性和可扩展性;更重要的是,即使最先进的MLLM在面对简单方向变化或自然损坏的图像时性能显著下降,显示出鲁棒性不足的问题。
  • Method: 提出CodeVision框架,将代码作为通用工具接口;采用两阶段训练方法:1) 在高质量数据集上进行监督微调,该数据集专门为复杂多轮工具组合和错误恢复而构建;2) 使用新颖的密集过程奖励函数进行强化学习,鼓励策略性和高效的工具使用。
  • Result: 在Qwen2.5-VL和Qwen3-VL系列上的实验表明,该方法显著提升模型性能,并涌现出灵活工具组合、高效链式执行和从运行时反馈中鲁棒错误恢复等新能力。同时构建了新的SFT和RL数据集以及专门评估鲁棒性的基准套件。
  • Conclusion: CodeVision通过代码即工具框架解决了MLLM工具使用的可扩展性和鲁棒性问题,为多模态推理提供了更灵活、可扩展且鲁棒的解决方案,推动了工具组合和错误恢复能力的发展。

[77] Fully Unsupervised Self-debiasing of Text-to-Image Diffusion Models

Korada Sri Vardhana,Shrikrishna Lolla,Soma Biswas

Main category: cs.CV

TL;DR: SelfDebias是一种完全无监督的测试时去偏方法,适用于任何使用UNet作为噪声预测器的扩散模型,通过识别图像编码器嵌入空间中的语义聚类来引导扩散过程,无需人工标注数据或外部分类器。

  • Motivation: 文本到图像扩散模型在大型互联网数据集上训练,这些数据包含大量偏见,导致模型学习并复制这些偏见,产生刻板印象的输出结果。
  • Method: SelfDebias在推理过程中识别图像编码器嵌入空间中的语义聚类,并使用这些聚类引导扩散过程,最小化输出分布与均匀分布之间的KL散度。
  • Result: SelfDebias在多种提示和扩散模型架构(包括条件模型和无条件模型)上具有良好泛化能力,能有效去除关键人口统计维度的偏见,同时保持生成图像的视觉保真度,也能处理更抽象概念的偏见。
  • Conclusion: SelfDebias是一种有效的无监督测试时去偏方法,无需人工标注或外部分类器,能自动识别语义模式并减少扩散模型中的偏见。

[78] Research on Brain Tumor Classification Method Based on Improved ResNet34 Network

Yufeng Li,Wenchao Zhao,Bo Dang,Weimin Wang

Main category: cs.CV

TL;DR: 本文提出了一种基于改进ResNet34的脑肿瘤分类模型,通过多尺度特征提取和通道注意力机制,在减少参数量的同时将分类准确率提升至98.8%

  • Motivation: 传统放射学图像解读依赖人工方法,脑肿瘤医学图像手动分类耗时耗力,即使使用浅层卷积神经网络模型,准确率也不理想。需要提高脑肿瘤图像分类的效率和准确性。
  • Method: 以ResNet34残差网络为骨干网络,引入多尺度特征提取:使用多尺度输入模块作为ResNet34网络的第一层,使用Inception v2模块作为残差下采样层。同时加入通道注意力机制模块,从通道域角度为图像不同通道分配不同权重,获取更重要的特征信息。
  • Result: 五折交叉实验结果显示,改进网络模型的平均分类准确率约为98.8%,比原始ResNet34提高1%,且参数量仅为原始模型的80%。
  • Conclusion: 改进的网络模型不仅提高了准确率,还减少了参数量,实现了用更少参数获得更高准确率的分类效果。

[79] AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Zichuan Lin,Yicheng Liu,Yang Yang,Lvfang Tao,Deheng Ye

Main category: cs.CV

TL;DR: AdaptVision:一种基于人类主动视觉机制的高效视觉语言模型,通过粗到细的自适应视觉标记获取,在保证准确性的同时大幅减少计算开销。

  • Motivation: 现有高效VLM方法通过固定比例压缩视觉标记,但缺乏根据任务需求自适应调整的能力。受人类主动视觉机制启发,研究VLMs能否自主确定每个样本所需的最小视觉标记数量。
  • Method: 提出AdaptVision范式:1)初始处理低分辨率图像的压缩视觉标记;2)必要时调用边界框工具裁剪关键区域获取额外视觉信息;3)使用强化学习框架训练,提出解耦转向策略优化(DTPO),将学习目标分解为工具学习和准确性改进两个组件。
  • Result: 在多个VQA基准测试中,AdaptVision在消耗显著更少视觉标记的同时,取得了优于现有高效VLM方法的性能。
  • Conclusion: AdaptVision通过自适应视觉标记获取机制,实现了计算效率与任务准确性之间的更好平衡,为高效VLM设计提供了新思路。

[80] LSRS: Latent Scale Rejection Sampling for Visual Autoregressive Modeling

Hong-Kai Zheng,Piji Li

Main category: cs.CV

TL;DR: 提出LSRS方法,通过潜在尺度拒绝采样来改进VAR模型的图像生成质量,减少结构错误,仅增加少量计算开销就能显著提升生成效果。

  • Motivation: VAR模型在图像生成中采用分层尺度的自回归处理,虽然加速了合成过程,但同一尺度内的并行token采样可能导致结构错误,影响生成图像质量。
  • Method: 提出潜在尺度拒绝采样(LSRS),在推理过程中逐步细化潜在尺度的token图。使用轻量级评分模型评估每个尺度采样的多个候选token图,选择高质量图指导后续尺度生成,优先处理对结构一致性至关重要的早期尺度。
  • Result: LSRS显著提升了VAR的生成质量,计算开销极小。VAR-d30模型推理时间仅增加1%时,FID从1.95降至1.78;推理时间增加15%时,FID可进一步降至1.66。
  • Conclusion: LSRS为增强基于VAR的生成提供了一种高效的测试时扩展解决方案,有效缓解自回归误差累积,同时保持计算效率。

[81] HieroGlyphTranslator: Automatic Recognition and Translation of Egyptian Hieroglyphs to English

Ahmed Nasser,Marwan Mohamed,Alaa Sherif,Basmala Mahmoud,Shereen Yehia,Asmaa Saad,Mariam S. El-Rahmany,Ensaf H. Mohamed

Main category: cs.CV

TL;DR: 提出一种从图像自动识别和翻译古埃及象形文字的方法,使用分割、映射到Gardiner码和翻译三阶段流程,在BLEU分数上取得42.2的显著结果。

  • Motivation: 古埃及象形文字完全由图画组成,翻译成英语面临多种挑战,包括单个符号可能具有多重含义。深度学习翻译应用发展迅速,能产生显著影响生活的结果,因此研究自动识别和翻译方法具有重要意义。
  • Method: 方法分为三个阶段:1)使用Contour和Detectron2进行分割;2)将符号映射到Gardiner码;3)使用CNN模型进行翻译。研究使用了Morris Franken数据集和EgyptianTranslation数据集进行分类和翻译。
  • Result: 模型取得了42.2的BLEU分数,与先前研究相比是显著的结果。
  • Conclusion: 该研究提出了一种有效的古埃及象形文字自动识别和翻译方法,通过三阶段流程实现了较好的翻译性能,为这一具有挑战性的任务提供了可行的解决方案。

[82] A Robust Camera-based Method for Breath Rate Measurement

Alexey Protopopov

Main category: cs.CV

TL;DR: 提出一种基于视频的呼吸率测量方法,在受试者运动干扰下仍能保持高精度,平均绝对误差仅0.57次/分钟

  • Motivation: 现有基于视频的呼吸率测量方法要么在理想条件下测试,要么精度不足,需要一种更鲁棒的方法来应对实际场景中的运动干扰
  • Method: 结合数学变换的方法,使用最小硬件要求,对14名志愿者超过2.5小时的视频进行测试
  • Result: 相对地面真值的偏差小于5%,平均绝对误差为0.57次呼吸/分钟,明显优于先前工作,对受试者运动引起的失真具有更强抵抗力
  • Conclusion: 该方法能够远程测量受试者呼吸率,且对受试者行为没有显著限制,具有实际应用价值

[83] Lean Unet: A Compact Model for Image Segmentation

Ture Hassler,Ida Åkerholm,Marcus Nordström,Gabriele Balletti,Orcun Goksel

Main category: cs.CV

TL;DR: 提出LUnet架构,采用扁平化设计,通道数不随分辨率减半而加倍,大幅减少参数,性能媲美传统Unet和剪枝网络。

  • Motivation: 传统Unet架构在空间分辨率下采样时加倍通道数,导致内存占用大、训练批量小、推理延迟高。现有通道剪枝方法需要长时间优化且跨任务泛化性差。
  • Method: 提出LUnet架构,采用紧凑扁平层次结构,通道数在分辨率减半时保持不变。研究发现剪枝主要针对通道数最多的层,随机剪除这些层的通道也能达到类似效果。
  • Result: LUnet参数减少30倍以上,在公开MRI数据集和内部CT数据集上性能与传统Unet相当,且优于同等参数量的标准Unet。跳跃连接允许瓶颈通道大幅减少。
  • Conclusion: 最终网络结构比通道选择策略更重要。LUnet通过固定架构实现高效分割,无需复杂剪枝过程,为医学图像分割提供轻量级解决方案。

[84] Heatmap Pooling Network for Action Recognition from RGB Videos

Mengyuan Liu,Jinfu Liu,Yongkang Jiang,Bin He

Main category: cs.CV

TL;DR: 提出HP-Net网络,通过热图池化模块提取视频中人体的信息丰富、鲁棒且简洁的池化特征,结合空间-运动协同学习模块和文本精炼调制模块,在多模态数据融合下实现更鲁棒的人体动作识别。

  • Motivation: 现有RGB视频深度特征提取方法存在信息冗余、易受噪声影响、存储成本高等问题,需要充分利用视频中的有用信息。
  • Method: 提出热图池化网络(HP-Net),包含反馈池化模块提取池化特征,以及空间-运动协同学习模块和文本精炼调制模块进行多模态数据融合。
  • Result: 在NTU RGB+D 60、NTU RGB+D 120、Toyota-Smarthome和UAV-Human等多个基准数据集上验证了HP-Net的有效性,优于现有的人体动作识别方法。
  • Conclusion: HP-Net通过热图池化提取信息丰富、鲁棒且简洁的特征,结合多模态融合策略,在人体动作识别任务中取得了优越性能。

[85] CoDA: From Text-to-Image Diffusion Models to Training-Free Dataset Distillation

Letian Zhou,Songhua Liu,Xinchao Wang

Main category: cs.CV

TL;DR: CoDA提出了一种新的数据集蒸馏框架,仅使用现成的文本到图像模型,通过核心分布对齐技术解决现有方法依赖目标数据集预训练扩散模型或存在分布不匹配的问题,在ImageNet等基准上达到SOTA性能。

  • Motivation: 当前数据集蒸馏方法存在两个根本性限制:1)大多数方法需要目标数据集预训练的扩散模型,违背了数据集蒸馏的初衷且训练成本高昂;2)使用通用文本到图像模型的方法存在显著的分布不匹配问题,网络规模的先验知识无法准确捕捉目标特定语义。
  • Method: CoDA框架首先通过鲁棒的基于密度的发现机制识别目标数据集的"内在核心分布",然后引导生成过程使生成样本与该核心分布对齐,从而弥合通用生成先验与目标语义之间的差距。
  • Result: 在不依赖目标数据集特定训练生成模型的情况下,CoDA在所有基准测试(包括ImageNet-1K及其子集)上达到或超越了依赖此类模型的方法性能,在ImageNet-1K的50-images-per-class设置下创造了60.4%的新SOTA准确率。
  • Conclusion: CoDA通过核心分布对齐技术有效解决了数据集蒸馏中的关键挑战,证明了仅使用现成文本到图像模型就能生成高质量蒸馏数据集的可行性,为数据集蒸馏领域提供了更实用、成本效益更高的解决方案。

[86] PULSE: A Unified Multi-Task Architecture for Cardiac Segmentation, Diagnosis, and Few-Shot Cross-Modality Clinical Adaptation

Hania Ghouse,Maryam Alsharqi,Farhad R. Nezami,Muzammil Behzad

Main category: cs.CV

TL;DR: PULSE是一个多任务视觉-语言框架,统一了心脏图像分析中的解剖分割、疾病分类和临床报告生成任务,通过自监督表示和复合监督策略实现跨模态和数据集泛化。

  • Motivation: 当前心脏图像分析任务(解剖分割、疾病分类、临床报告生成)通常由不同网络单独处理,缺乏统一框架,且无法跨成像模态和数据集泛化。
  • Method: 基于自监督表示构建多任务视觉-语言框架,采用复合监督策略平衡区域重叠学习、像素级分类保真度和边界感知IoU细化,多尺度token重建解码器处理解剖分割,共享全局表示支持疾病分类和临床文本输出。
  • Result: PULSE学习任务不变的心脏先验知识,在多个数据集上稳健泛化,能够以最小监督适应新的成像模态,实现从像素到结构再到临床推理的统一处理。
  • Conclusion: PULSE将心脏图像分析推向可扩展的基础模型风格框架,统一了多个分析任务,为领域提供了更接近通用解决方案的架构。

[87] Traffic Image Restoration under Adverse Weather via Frequency-Aware Mamba

Liwen Pan,Longguang Wang,Guangwei Gao,Jun Wang,Jun Shi,Juncheng Li

Main category: cs.CV

TL;DR: 提出FAMamba框架,将频率引导与序列建模结合用于交通图像恢复,通过双向2D频率自适应扫描和基于小波的高频残差学习提升细节重建质量。

  • Motivation: 现有方法主要关注空间域建模而忽视频域先验,Mamba架构在长程依赖建模方面表现出色但其频域特征提取潜力尚未被探索,特别是在恶劣天气条件下的交通图像恢复任务中。
  • Method: 提出FAMamba框架,包含双分支特征提取块(DFEB)通过双向2D频率自适应扫描增强局部-全局交互,以及先验引导块(PGB)通过基于小波的高频残差学习细化纹理细节,同时设计了自适应频率扫描机制(AFSM)。
  • Result: 大量实验证明了FAMamba的效率和有效性,能够实现高质量的图像重建并保留精确的细节信息。
  • Conclusion: FAMamba成功将频率引导与序列建模相结合,为恶劣天气条件下的交通图像恢复提供了一种新颖有效的解决方案,充分利用了频域先验信息。

[88] Prostate biopsy whole slide image dataset from an underrepresented Middle Eastern population

Peshawa J. Muhammad Ali,Navin Vincent,Saman S. Abdulla,Han N. Mohammed Fadhl,Anders Blilie,Kelvin Szolnoky,Julia Anna Mielcarz,Xiaoyi Ji,Kimmo Kartasalo,Abdulbasit K. Al-Talabani,Nita Mulliqi

Main category: cs.CV

TL;DR: 发布来自伊拉克的339张前列腺活检切片数据集,填补中东地区病理AI数据空白,支持模型泛化性评估

  • Motivation: 当前公开的病理数据集主要来自西方人群,缺乏中东地区数据,导致AI模型在非西方人群中的泛化能力未知。需要多样化的数据集来开发和验证全球适用的病理AI模型。
  • Method: 收集伊拉克埃尔比勒185名患者的前列腺穿刺活检切片,由三位病理学家独立标注Gleason评分和ISUP分级。使用三种不同扫描仪(Leica、Hamamatsu、Grundium)数字化,数据去标识化后以原始格式提供。
  • Result: 创建了包含339张全切片图像的数据集,来自中东地区代表性人群。数据集支持分级一致性分析、颜色归一化和跨扫描仪鲁棒性评估等多种研究。
  • Conclusion: 该数据集填补了中东地区病理AI数据的空白,有助于评估和改进AI模型在不同人群和扫描仪间的泛化能力,促进全球病理AI的公平发展。

[89] Diminishing Returns in Self-Supervised Learning

Oli Bridge,Huey Sun,Botond Branyicskai-Nagy,Charles D'Ornano,Shomit Basu

Main category: cs.CV

TL;DR: 小型视觉Transformer(5M参数)的研究发现,预训练和微调有帮助但收益递减,中间微调可能因任务机制差异而对下游性能产生负面影响,建议针对性的预训练和谨慎的数据选择。

  • Motivation: 虽然Transformer架构在计算机视觉和NLP领域表现出色,但通常需要大量参数和训练数据才能获得强大性能。本研究旨在探索在小型5M参数视觉Transformer上,不同预训练、中间微调和下游数据集及训练目标对性能的边际效益。
  • Method: 使用三个不同的预训练、中间微调和下游数据集及训练目标进行实验,分析它们对小型5M参数视觉Transformer性能的影响,特别关注预训练、中间微调和下游任务之间的关系。
  • Result: 研究发现:1)预训练和微调总是有帮助但收益递减;2)中间微调可能因任务机制差异而对下游性能产生负面影响;3)小规模ViT从针对性预训练和谨慎数据选择中获益最大。
  • Conclusion: 对于小型视觉Transformer,针对性预训练和谨慎数据选择最为重要,而不加选择地堆叠中间任务可能会浪费计算资源甚至降低性能。需要根据任务相似性仔细设计训练流程。

[90] An Automated Framework for Large-Scale Graph-Based Cerebrovascular Analysis

Daniele Falcetta,Liane S. Canas,Lorenzo Suppa,Matteo Pentassuglia,Jon Cleary,Marc Modat,Sébastien Ourselin,Maria A. Zuluaga

Main category: cs.CV

TL;DR: CaravelMetrics是一个用于自动脑血管分析的计算框架,通过骨架化图表示建模血管形态,可提取15个形态、拓扑、分形和几何特征,应用于570个3D TOF-MRA扫描,发现年龄、性别和教育相关的血管复杂性变化。

  • Motivation: 开发一个可扩展、全自动的脑血管定量特征提取框架,支持规范建模和人群水平的血管健康与衰老研究,解决传统手动分析耗时且不可扩展的问题。
  • Method: 基于骨架化图表示建模血管形态,整合基于图谱的区域分割、中心线提取和图构建,计算15个形态计量、拓扑、分形和几何特征,可在全局血管网络或动脉区域内进行多尺度表征。
  • Result: 应用于IXI数据集的570个3D TOF-MRA扫描(年龄20-86岁),产生可重复的血管图,捕捉到年龄和性别相关的变化,以及教育相关的血管复杂性增加,与文献报道一致。
  • Conclusion: CaravelMetrics提供了一个可扩展、全自动的脑血管特征提取方法,支持规范建模和人群水平的血管健康与衰老研究,为脑血管组织的多尺度表征提供了有效工具。

[91] Dual Cross-Attention Siamese Transformer for Rectal Tumor Regrowth Assessment in Watch-and-Wait Endoscopy

Jorge Tapias Gomez,Despoina Kanata,Aneesh Rangnekar,Christina Lee,Julio Garcia-Aguilar,Joshua Jesse Smith,Harini Veeraraghavan

Main category: cs.CV

TL;DR: 提出SSDCA模型,结合纵向内窥镜图像区分直肠癌完全缓解与局部复发,无需图像空间对齐

  • Motivation: 直肠癌患者接受新辅助治疗后,临床完全缓解患者采用观察等待策略,但需要准确方法早期检测局部复发以防止远处转移
  • Method: 开发Siamese Swin Transformer with Dual Cross-Attention (SSDCA),利用预训练Swin Transformer提取特征,通过双交叉注意力结合基线期和随访期内窥镜图像,无需空间对齐
  • Result: 在62名患者测试集上,SSDCA获得最佳平衡准确率(81.76%±0.04)、敏感性(90.07%±0.08)和特异性(72.86%±0.05),对血液、粪便等伪影具有鲁棒性
  • Conclusion: SSDCA能有效结合纵向内窥镜图像区分完全缓解与局部复发,为直肠癌观察等待策略提供可靠监测工具

[92] Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence

Shuai Yang,Junxin Lin,Yifan Zhou,Ziwei Liu,Chen Change Loy

Main category: cs.CV

TL;DR: FRESCO提出一种零样本视频编辑方法,通过结合帧内和帧间对应关系来增强时空一致性,显著提升视频编辑的视觉连贯性。

  • Motivation: 现有的零样本视频编辑方法主要关注在注意力机制中整合帧间对应关系,但软约束不足以识别有效特征,导致时间不一致性问题。
  • Method: FRESCO整合帧内对应关系和帧间对应关系,形成更鲁棒的时空约束,确保语义相似内容在帧间的一致转换,并显式优化特征而不仅仅是注意力引导。
  • Result: 在视频到视频转换和文本引导视频编辑两个零样本任务上验证了FRESCO的有效性,实验表明该方法能生成高质量、连贯的视频,显著优于当前零样本方法。
  • Conclusion: FRESCO通过增强的时空约束机制,显著提升了零样本视频编辑的视觉连贯性,代表了零样本视频编辑方法的重要进展。

[93] UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework

Youxin Pang,Yong Zhang,Ruizhi Shao,Xiang Deng,Feng Gao,Xu Xiaoming,Xiaoming Wei,Yebin Liu

Main category: cs.CV

TL;DR: UniMo是一个创新的自回归模型,首次在统一框架中联合建模2D人体视频和3D人体运动,实现两种模态的同时生成和理解。

  • Motivation: 当前方法主要关注以另一种模态为条件生成一种模态,或将其中一种与其他模态(如文本和音频)集成。统一2D视频和3D运动进行同时优化和生成仍未被充分探索,由于它们在结构和分布上的显著差异而面临重大挑战。
  • Method: 1) 将视频和3D运动建模为统一的令牌序列,使用单独的嵌入层缓解分布差距;2) 设计序列建模策略,在单一框架中集成两种不同任务;3) 设计新颖的3D运动分词器,采用时间扩展策略,使用单个VQ-VAE生成量化运动令牌,具有多个专家解码器处理身体形状、平移、全局方向和身体姿态。
  • Result: 大量实验表明,该方法能同时生成相应的视频和运动,同时执行准确的动作捕捉。证明了统一建模的有效性。
  • Conclusion: 这项工作挖掘了LLMs融合不同数据类型的能力,为将人体中心信息集成到现有模型中铺平了道路,可能实现人体、物体和场景的多模态可控联合建模。

[94] Beyond the Ground Truth: Enhanced Supervision for Image Restoration

Donghun Ryou,Inju Ha,Sanghyeok Chu,Bohyung Han

Main category: cs.CV

TL;DR: 提出一个增强现有ground-truth图像质量的框架,通过自适应频率掩码融合原始图像与超分辨率变体,为真实世界图像修复提供更高质量的监督信号

  • Motivation: 真实世界图像修复受限于数据集ground-truth图像的质量,因为实际数据采集存在约束,需要提升监督信号的质量
  • Method: 使用条件频率掩码生成器学习自适应频率掩码,指导原始ground-truth与其超分辨率变体的频率分量最优融合,生成增强的ground-truth图像,然后训练轻量级输出细化网络
  • Result: 实验证明该方法能持续提升修复图像质量,用户研究验证了监督增强和输出细化的有效性
  • Conclusion: 提出的框架通过增强ground-truth图像质量,为真实世界图像修复提供了更有效的监督,同时保持语义一致性并避免幻觉伪影

[95] MUT3R: Motion-aware Updating Transformer for Dynamic 3D Reconstruction

Guole Shen,Tianchen Deng,Xingrui Qin,Nailin Wang,Jianyu Wang,Yanbo Wang,Yongtao Chen,Hesheng Wang,Jingchuan Wang

Main category: cs.CV

TL;DR: MUT3R:一种无需训练的框架,利用预训练transformer中隐含的运动线索抑制动态区域,提升动态场景下的流式3D重建质量

  • Motivation: 现有的状态循环神经网络在静态3D重建上表现良好,但在动态场景中容易产生运动伪影,因为非刚性区域会破坏空间记忆和图像特征之间的注意力传播
  • Method: 通过分析transformer层间自注意力图的聚合模式,发现动态区域会被自然降权,从而提取出隐含的运动线索。MUT3R利用这些注意力衍生的运动线索,在推理过程中通过注意力级门控模块在transformer早期层抑制动态内容的影响
  • Result: 该方法在多个动态基准测试中提升了时间一致性和相机姿态鲁棒性,无需重新训练或微调模型
  • Conclusion: MUT3R提供了一种简单且无需训练的途径,使预训练transformer能够自我诊断运动线索并进行自我校正,从而实现运动感知的流式重建

[96] TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning

Tao Wu,Li Yang,Gen Zhan,Yiting Liao,Junlin Li,Deliang Fu,Li Zhang,Limin Wang

Main category: cs.CV

TL;DR: TempR1:一个用于增强多模态大语言模型时间理解能力的多任务强化学习框架,通过精心设计的时间定位奖励和跨任务优化,在多个基准测试中达到SOTA性能。

  • Motivation: 当前用于改进多模态大语言模型时间推理的强化学习方法通常局限于有限的任务类型和数据,难以泛化到多样化的时间理解场景。需要一种系统性的方法来增强MLLMs的时间理解能力。
  • Method: 提出TempR1框架:1)构建多任务语料库,让模型接触多样化的时间结构和语义;2)基于GRPO算法实现稳定有效的跨任务优化;3)将时间任务分为三种预测区间与真实实例的对应类型,并为每种类型设计定制化的定位奖励。
  • Result: 在多个基准测试中达到最先进的性能。联合优化互补任务产生了强大的协同效应,既增强了泛化能力,也提升了单任务性能。
  • Conclusion: TempR1为MLLMs中的时间推理建立了一个可扩展且原则性的范式,通过多任务强化学习系统性地增强了模型的时间理解能力。

[97] Training for Identity, Inference for Controllability: A Unified Approach to Tuning-Free Face Personalization

Lianyu Pang,Ji Zhou,Qiping Wang,Baoquan Zhao,Zhenguo Yang,Qing Li,Xudong Mao

Main category: cs.CV

TL;DR: UniID是一个无需调优的人脸个性化统一框架,通过协同整合文本嵌入和适配器两种范式,在保持高身份保真度的同时实现灵活的文本控制。

  • Motivation: 现有无需调优的人脸个性化方法分为文本嵌入和适配器两种范式,但都难以同时实现高身份保真度和灵活的文本控制能力。
  • Method: 提出统一框架UniID,采用训练-推理策略:训练时使用身份聚焦学习方案引导两个分支专门捕获身份特征;推理时引入归一化重缩放机制,恢复基础扩散模型的文本控制能力,同时让互补的身份信号相互增强。
  • Result: 在六个最先进方法的对比实验中,UniID在身份保持和文本控制方面都表现出优越性能。
  • Conclusion: UniID通过原则性设计实现了高保真人脸个性化与灵活文本控制的统一,为无需调优的人脸个性化提供了有效解决方案。

[98] BlurDM: A Blur Diffusion Model for Image Deblurring

Jin-Ting He,Fu-Jen Tsai,Yan-Tsung Peng,Min-Hung Chen,Chia-Wen Lin,Yen-Yu Lin

Main category: cs.CV

TL;DR: BlurDM是一种将模糊形成过程集成到扩散模型中的去模糊方法,通过双扩散方案同时进行去噪和去模糊,在潜在空间中实现高效去模糊。

  • Motivation: 现有扩散模型在动态场景去模糊中未能充分利用模糊形成过程的本质,限制了其潜力。需要将模糊形成过程整合到扩散模型中。
  • Method: 提出BlurDM,通过双扩散前向方案隐式建模模糊形成过程,在反向生成过程中推导出双去噪和去模糊公式,并在潜在空间中执行以提高效率。
  • Result: 在四个基准数据集上的实验表明,BlurDM显著且一致地提升了现有去模糊方法的性能。
  • Conclusion: BlurDM成功将模糊形成过程整合到扩散模型中,通过双扩散方案实现了有效的图像去模糊,为扩散模型在去模糊任务中的应用提供了新思路。

[99] DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment

Sheng-Hao Liao,Shang-Fu Chen,Tai-Ming Huang,Wen-Huang Cheng,Kai-Lung Hua

Main category: cs.CV

TL;DR: DirectDrag:无需手动掩码和文本提示的拖拽式图像编辑框架,通过自动软掩码生成和读取引导特征对齐实现精确编辑

  • Motivation: 现有基于拖拽的图像编辑方法严重依赖手动提供的掩码和文本提示来保持语义保真度和运动精度。去除这些约束会导致视觉伪影或空间控制不佳的根本性权衡问题
  • Method: 提出DirectDrag框架,包含两个关键创新:1) 自动软掩码生成模块,从点位移智能推断可编辑区域;2) 读取引导特征对齐机制,利用中间扩散激活保持结构一致性
  • Result: 在DragBench和真实场景上的大量实验表明,DirectDrag在无需手动掩码或提示的情况下,实现了优于现有方法的图像质量,同时保持了竞争力的拖拽精度
  • Conclusion: DirectDrag为高质量交互式图像操作提供了一个有效且实用的解决方案,通过最小化用户输入实现了精确高效的图像编辑

[100] DIQ-H: Evaluating Hallucination Persistence in VLMs Under Temporal Visual Degradation

Zexin Lin,Hawen Wan,Yebin Zhong,Xiaoqiang

Main category: cs.CV

TL;DR: DIQ-H是首个评估视觉语言模型在动态视觉退化时序序列中鲁棒性的基准,通过物理模拟的视觉退化(运动模糊、传感器噪声、压缩伪影)和多轮问答任务,测量幻觉持续性、错误恢复和时序一致性。

  • Motivation: 现有VLM基准主要关注静态高质量图像,忽略了时序退化和错误传播这些关键失效模式——瞬时视觉损坏引发的幻觉会在后续帧中持续存在,这对于自动驾驶等安全关键应用中的VLM部署至关重要。
  • Method: 1) 提出DIQ-H基准,应用物理模拟的视觉退化(运动模糊、传感器噪声、压缩伪影);2) 通过多轮问答任务测量幻觉持续性、错误恢复和时序一致性;3) 提出不确定性引导迭代精炼(UIR)方法,使用轻量级VLM进行不确定性过滤生成可靠的伪真值标注。
  • Result: 1) UIR方法实现了15.3%的准确率提升;2) 在16个SOTA VLM上的实验显示显著的鲁棒性差距:GPT-4o仅达到78.5%的恢复率,开源模型在时序一致性上低于60%;3) DIQ-H为评估真实世界部署中的VLM可靠性提供了全面平台。
  • Conclusion: DIQ-H填补了现有VLM基准在动态视觉退化评估方面的空白,揭示了当前模型在时序鲁棒性方面的严重不足,为未来VLM在安全关键应用中的可靠性改进提供了重要评估工具。

[101] Highly Efficient Test-Time Scaling for T2I Diffusion Models with Text Embedding Perturbation

Hang Xu,Linjiang Huang,Feng Zhao

Main category: cs.CV

TL;DR: 本文提出了一种新的文本到图像扩散模型测试时缩放方法,通过文本嵌入扰动来增强生成多样性和质量,与空间噪声形成频域互补,几乎不增加计算成本。

  • Motivation: 现有测试时缩放方法主要关注搜索策略和奖励模型,但忽略了扩散模型中噪声随机性对方法性能的影响。本文旨在探索文本嵌入扰动这种新的随机性形式,以增强生成多样性和质量。
  • Method: 提出两种关键设计:(1) 引入基于步骤的文本嵌入扰动,结合频率引导的噪声调度与空间噪声扰动;(2) 根据频率特定贡献和扰动容忍度选择性调整扰动强度。
  • Result: 该方法可无缝集成到现有测试时缩放方法中,在多个基准测试上表现出显著改进,几乎不增加额外计算成本。
  • Conclusion: 文本嵌入扰动与空间噪声在频域上具有互补性,通过合理设计扰动策略可以有效提升文本到图像扩散模型的生成性能。

[102] Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

Jialuo Li,Bin Li,Jiahao Li,Yan Lu

Main category: cs.CV

TL;DR: DIG是一个无需训练的视频帧选择框架,根据查询类型自适应选择策略:全局查询使用均匀采样,局部查询使用查询感知选择,显著提升长视频理解性能。

  • Motivation: 大型多模态模型处理长视频时面临上下文长度限制和密集视频token计算成本高的问题,现有查询感知帧选择方法计算开销大,作者质疑这种复杂搜索机制是否普遍必要。
  • Method: 首先识别并验证查询类型学(全局查询vs局部查询),然后提出DIG框架:对全局查询使用高效均匀采样,对局部查询激活专门管道提取查询相关帧,无需训练。
  • Result: 在三个长视频理解基准测试中,DIG始终优于现有基线,即使输入帧数扩展到256帧也能稳健提升LMM性能。
  • Conclusion: 复杂搜索机制并非普遍必要,查询类型感知的自适应帧选择策略(DIG)在保持效率的同时显著提升长视频理解性能。

[103] On the Temporality for Sketch Representation Learning

Marcelo Isaias de Moraes Junior,Moacir Antonelli Ponti

Main category: cs.CV

TL;DR: 该研究探讨了草图表示学习中时间顺序的重要性,发现绝对坐标优于相对坐标,非自回归解码器优于自回归解码器,时间重要性取决于具体顺序和任务。

  • Motivation: 尽管草图表示学习已有显著进展,但时间顺序对表示质量的实际重要性仍不明确。本研究旨在验证将草图视为序列的合理性,并探究哪种内部顺序更为重要。
  • Method: 研究比较了不同时间顺序处理方法:传统位置编码、绝对坐标与相对坐标的对比,以及自回归与非自回归解码器的性能差异。通过系统实验评估不同顺序和任务下的表现。
  • Result: 结果表明:1)传统位置编码对草图序列建模有效;2)绝对坐标始终优于相对坐标;3)非自回归解码器优于自回归解码器;4)时间重要性取决于具体顺序和评估任务。
  • Conclusion: 草图的时间顺序确实重要,但重要性因顺序类型和任务而异。绝对坐标和非自回归解码器是更优的选择,为草图表示学习提供了实用指导。

[104] Emergent Outlier View Rejection in Visual Geometry Grounded Transformers

Jisang Han,Sunghwan Hong,Jaewoo Jung,Wooseok Jang,Honggyu An,Qianqian Wang,Seungryong Kim,Chen Feng

Main category: cs.CV

TL;DR: 研究发现现有前馈式3D重建模型VGGT具有内在的噪声图像识别能力,无需额外训练即可实现离群视图过滤

  • Motivation: 野外图像集合中的噪声图像(与其它图像视角重叠很少或无关的图像)会严重影响3D重建质量。传统SfM流水线通过几何验证和离群值拒绝来处理这些问题,但前馈式3D重建模型缺乏这些显式机制,导致在野外条件下性能下降。
  • Method: 通过在不同比例合成干扰图像下的深入分析,发现VGGT模型的特定层自然表现出离群抑制行为。进一步探究发现该层编码了具有区分性的内部表示,能够有效过滤噪声。利用这一特性,无需额外微调或监督即可在前馈式3D重建中执行离群视图拒绝。
  • Result: 在受控和野外数据集上的大量实验表明,这种隐式过滤机制具有一致性,并能很好地泛化到不同场景中。
  • Conclusion: 现有前馈式3D重建模型虽然缺乏显式的离群值拒绝机制,但具有内在的噪声图像识别能力,这一发现为改进野外条件下的3D重建提供了新思路。

[105] Learning Group Actions In Disentangled Latent Image Representations

Farhana Hossain Swarnali,Miaomiao Zhang,Tonmoy Hossain

Main category: cs.CV

TL;DR: 提出一种端到端框架,自动在潜在图像流形上学习群作用,无需手动干预即可发现变换相关结构

  • Motivation: 现有方法要么在高维数据空间应用群作用(难以解耦变换子空间),要么需要手动划分潜在变量为等变和不变子空间,限制了在表示空间中稳健学习和操作群作用的能力
  • Method: 使用可学习二元掩码和直通估计动态划分潜在表示为变换敏感和不变组件,在统一优化框架中联合学习潜在解耦和群变换映射,可与任何标准编码器-解码器架构无缝集成
  • Result: 在五个2D/3D图像数据集上验证了方法能自动学习群作用的解耦潜在因子,下游分类任务证实了学习表示的有效性
  • Conclusion: 首次实现了在潜在图像流形上学习群作用的端到端框架,自动发现变换相关结构,为群作用在表示空间中的学习提供了更灵活和稳健的解决方案

[106] Ultra-lightweight Neural Video Representation Compression

Ho Man Kwan,Tianhao Peng,Ge Gao,Fan Zhang,Mike Nilsson,Andrew Gower,David Bull

Main category: cs.CV

TL;DR: NVRC-Lite:轻量级神经视频压缩方法,通过多尺度特征网格和八叉树上下文模型,在保持低复杂度的同时提升性能并加速编码

  • Motivation: 现有基于INR的神经视频压缩方法(如NVRC)虽然性能优秀,但计算复杂度较高。一些轻量级INR虽然复杂度低(<10kMACs/像素),但性能仍有提升空间,且现有方法通常使用自回归模型进行熵编码,导致编码速度过慢。
  • Method: 1. 在轻量级神经表示中集成多尺度特征网格,使用更高分辨率网格提升低复杂度下的INR性能;2. 提出基于八叉树的上下文模型用于高维特征网格的熵编码,替代缓慢的自回归模型,加速熵编码模块。
  • Result: NVRC-Lite在PSNR和MS-SSIM指标上分别比当前最佳轻量级INR视频编解码器C3节省21.03%和23.06%的BD-rate,同时实现8.4倍编码加速和2.5倍解码加速。
  • Conclusion: NVRC-Lite成功将NVRC扩展到轻量级表示,通过多尺度特征网格和八叉树上下文模型,在保持低计算复杂度的同时显著提升压缩性能并大幅加速编码过程,为轻量级神经视频压缩提供了有效解决方案。

[107] C3G: Learning Compact 3D Representations with 2K Gaussians

Honggyu An,Jaewoo Jung,Mungyeom Kim,Sunghwan Hong,Chaehyun Kim,Kazumi Fukuda,Minkyeong Jeon,Jisang Han,Takuya Narihira,Hyuna Ko,Junsu Kim,Yuki Mitsufuji,Seungryong Kim

Main category: cs.CV

TL;DR: C3G:一种前馈框架,通过可学习token引导生成紧凑3D高斯,实现高效场景重建与理解

  • Motivation: 现有方法使用逐像素3D高斯溅射进行重建,但会产生大量冗余高斯,导致内存开销大、多视图特征聚合效果差,影响新视角合成和场景理解性能
  • Method: 提出C3G框架,在关键空间位置估计紧凑3D高斯;引入可学习token通过自注意力聚合多视图特征来指导高斯生成;利用学习到的注意力模式进行高斯解码以高效提升特征
  • Result: 在无姿态新视角合成、3D开放词汇分割和视图不变特征聚合任务上表现出色,相比现有方法在内存效率和特征保真度方面更优
  • Conclusion: 紧凑但几何意义明确的表示足以实现高质量场景重建和理解,证明了该方法在减少冗余同时保持特征有效性的优势

[108] PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Xiaolong Li,Youping Gu,Xi Lin,Weijie Wang,Bohan Zhuang

Main category: cs.CV

TL;DR: 提出Pyramid Sparse Attention (PSA),一种通过多级池化KV表示来减少信息损失的高效注意力机制,适用于视频理解和生成任务。

  • Motivation: 注意力机制是基础模型的核心,但其二次复杂度限制了模型扩展。现有稀疏注意力方法通常使用二进制掩码保留或丢弃整个KV块,在高稀疏度下会造成严重信息损失。
  • Method: 提出PSA模块,采用多级池化KV表示而非二进制掩码。每个查询块动态分配较低的池化级别给关键KV块,较高的池化级别给次要KV块,在完全保留和完全剪枝之间创建信息插值。设计类似定点量化和计算机视觉中的特征金字塔网络。
  • Result: 在视频理解和生成基准测试中,PSA能保持上下文信息和视觉保真度,在效率-质量权衡方面优于或达到现有稀疏注意力基线性能。
  • Conclusion: PSA通过多级池化KV表示有效缓解了高稀疏度下的信息损失问题,同时保持了计算效率,为高效注意力机制提供了新思路。

[109] Fast & Efficient Normalizing Flows and Applications of Image Generative Models

Sandeep Nagar

Main category: cs.CV

TL;DR: 该论文在两个方面做出贡献:1) 提出六项创新改进归一化流架构效率,包括可逆卷积层、Quad-coupling层等;2) 应用生成模型解决五个实际计算机视觉问题,包括农业质量评估、地质测绘、隐私保护等。

  • Motivation: 论文旨在解决生成模型(特别是归一化流)的效率问题,并将这些高效模型应用于实际计算机视觉挑战中,包括农业、地质、自动驾驶隐私保护和艺术修复等领域。
  • Method: 第一部分:提出六项归一化流架构创新:可逆3x3卷积层(数学证明可逆条件)、Quad-coupling层、并行反演算法、卷积逆的反向传播算法、Inverse-Flow前向传播、Affine-StableSR超分辨率模型。第二部分:应用生成模型解决实际问题:使用Conditional GANs进行农业质量评估、堆叠自编码器进行地质测绘、人脸检测和图像修复进行隐私保护、Stable Diffusion图像修复、扩散模型进行艺术修复。
  • Result: 提出的归一化流改进提高了模型效率;农业质量评估系统在种子纯度测试中取得良好准确率;地质测绘框架相比传统方法改进了特征提取;隐私保护方法有效保护自动驾驶数据集;艺术修复模型能统一处理多种退化类型。
  • Conclusion: 论文在归一化流架构效率和生成模型实际应用两方面都做出了重要贡献,提出的方法在多个领域显示出实用价值和性能优势,推动了生成模型在计算机视觉中的实际应用。

[110] RELIC: Interactive Video World Model with Long-Horizon Memory

Yicong Hong,Yiqun Mei,Chongjian Ge,Yiran Xu,Yang Zhou,Sai Bi,Yannick Hold-Geoffroy,Mike Roberts,Matthew Fisher,Eli Shechtman,Kalyan Sunkavalli,Feng Liu,Zhengqi Li,Hao Tan

Main category: cs.CV

TL;DR: RELIC是一个统一的交互式世界模型框架,能实时生成长时程、空间一致且用户可控的场景探索,通过压缩历史潜在token和因果蒸馏实现16FPS实时生成。

  • Motivation: 现有方法通常只能解决交互式世界模型三个关键需求(实时长时程流式生成、一致空间记忆、精确用户控制)中的一个,而无法同时满足所有要求,特别是长时记忆机制往往会降低实时性能。
  • Method: 基于自回归视频扩散蒸馏技术,使用压缩的历史潜在token(包含相对动作和绝对相机位姿)作为KV缓存表示长时记忆;通过微调双向教师视频模型生成超5秒训练时长的序列,并采用内存高效的自强制范式将其转换为因果学生生成器,实现长时程教师和学生自展开的全上下文蒸馏。
  • Result: RELIC作为140亿参数模型,在Unreal Engine渲染数据集上训练,能以16FPS实时生成,相比先前工作表现出更准确的动作跟随、更稳定的长时程流式生成和更鲁棒的空间记忆检索能力。
  • Conclusion: RELIC通过统一框架同时解决了交互式世界模型的三个关键挑战,为下一代交互式世界建模奠定了坚实基础。

[111] Stable Signer: Hierarchical Sign Language Generative Model

Sen Fang,Yalin Feng,Hongbin Zhong,Yanxin Zhang,Dimitris N. Metaxas

Main category: cs.CV

TL;DR: 本文提出Stable Signer模型,通过简化手语生成流程为端到端任务,使用SLUL进行文本理解,SPL-MoE进行手势渲染,性能提升48.6%

  • Motivation: 传统手语生成包含多个阶段(Text2Gloss、Gloss2Pose、Pose2Vid等),各阶段误差累积导致生成质量差、进展缓慢。需要简化冗余结构,优化任务目标。
  • Method: 1. 重新定义SLP为分层生成端到端任务,仅包含文本理解(Prompt2Gloss、Text2Gloss)和Pose2Vid
  1. 提出SLUL(Sign Language Understanding Linker)进行文本理解,使用新开发的SAGM Loss训练
  2. 设计SPL-MoE手势渲染专家块生成手势
  3. 端到端生成高质量、多风格手语视频
  • Result: 性能相比当前SOTA生成方法提升48.6%,能够生成高质量、多风格的手语视频
  • Conclusion: 通过简化传统冗余结构,优化任务目标,提出的Stable Signer模型在端到端手语生成任务上取得显著性能提升,解决了传统多阶段方法误差累积的问题。

[112] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Siyi Chen,Mikaela Angelina Uy,Chan Hee Song,Faisal Ladhak,Adithyavairavan Murali,Qing Qu,Stan Birchfield,Valts Blukis,Jonathan Tremblay

Main category: cs.CV

TL;DR: 提出DIRL框架,让视觉语言模型通过两阶段强化学习学会协调使用多种视觉工具进行精确空间推理

  • Motivation: 视觉语言模型在定性视觉理解方面表现良好,但在需要精确度量空间推理的具身应用中存在困难。虽然代理范式允许使用各种工具来增强能力,但现有方法依赖手工提示或固定工具流水线,限制了模型发现最优工具使用模式的能力。
  • Method: 提出Double Interactive Reinforcement Learning (DIRL)两阶段训练框架:1) 教学阶段:结合单一工具专家的交互RL演示与前沿模型使用所有工具的轨迹;2) 探索阶段:通过持续RL进一步优化多工具协调。模型SpaceTools具备工具增强的空间推理能力。
  • Result: 在空间理解基准测试(RoboSpatial-Home, BLINK, BOP-ASK)上达到最先进性能,并在7-DOF机器人上展示可靠的现实世界操作。DIRL相比普通SFT基线提升12%,相比RL基线提升16%。
  • Conclusion: DIRL框架有效解决了视觉语言模型在多工具协调中的挑战,通过交互式强化学习实现了精确的空间推理能力,为具身智能应用提供了可靠的解决方案。

[113] PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

Jiazhe Wei,Ken Li,Tianyu Lao,Haofan Wang,Liang Wang,Caifeng Shan,Chenyang Si

Main category: cs.CV

TL;DR: PosterCopilot是一个用于专业平面设计的框架,通过三阶段训练策略提升LMM的几何理解和美学推理能力,实现几何精确、美学优越的布局设计,并提供图层可控的迭代编辑功能。

  • Motivation: 现有基于大型多模态模型的自动化平面设计方法存在几何布局不准确、缺乏专业工作流程所需的迭代式图层特定编辑等问题,需要开发更精确可控的设计框架。
  • Method: 提出渐进式三阶段训练策略:1) 扰动监督微调;2) 视觉-现实对齐的强化学习;3) 美学反馈的强化学习。结合训练后的LMM设计模型与生成模型,构建完整的图层可控迭代编辑工作流。
  • Result: 实验表明PosterCopilot能够生成几何精确且美学优越的布局,为专业迭代设计提供前所未有的可控性。
  • Conclusion: PosterCopilot通过创新的训练策略和工作流程,解决了现有自动化平面设计方法的局限性,实现了专业级的几何精确性和编辑可控性。

[114] SimFlow: Simplified and End-to-End Training of Latent Normalizing Flows

Qinyu Zhao,Guangting Zheng,Tao Yang,Rui Zhu,Xingjian Leng,Stephen Gould,Liang Zheng

Main category: cs.CV

TL;DR: 提出SimFlow方法,通过固定VAE编码器的方差为常数,简化了归一化流与VAE的联合训练,避免了复杂的数据增强流程,在ImageNet 256×256生成任务上取得了SOTA结果。

  • Motivation: 现有方法存在两个主要问题:1) 需要添加随机噪声作为数据增强,引入了复杂的去噪流程;2) 使用预训练且冻结的VAE编码器,导致重建和生成质量不理想。
  • Method: 提出SimFlow方法,将VAE编码器预测的方差固定为常数(如0.5),这样编码器可以输出更广泛的token分布,解码器学习从增强的token分布中重建干净图像,同时简化了VAE的证据下界,使NF与VAE能够稳定联合训练。
  • Result: 在ImageNet 256×256生成任务上,SimFlow获得gFID 2.15,优于SOTA方法STARFlow的2.40。与REPA-E方法结合后,gFID进一步提升至1.91,在NF方法中创造了新的SOTA。
  • Conclusion: 通过简单的固定方差策略,解决了归一化流与VAE联合训练中的两个关键问题,实现了更简单、更有效的图像生成模型,在ImageNet生成任务上取得了最佳性能。

[115] Unique Lives, Shared World: Learning from Single-Life Videos

Tengda Han,Sayna Ebrahimi,Dilara Gokay,Li Yang Ku,Maks Ovsjanikov,Iva Babukova,Daniel Zoran,Viorica Patraucean,Joao Carreira,Andrew Zisserman,Dima Damen

Main category: cs.CV

TL;DR: 单人生涯学习范式:在单个人的自我中心视频上训练视觉模型,利用多视角学习自监督视觉编码器,发现不同人生涯训练的模型具有高度对齐的几何理解,且能有效迁移到下游任务。

  • Motivation: 探索单人生涯学习范式,研究在单个人的自我中心视频上训练的视觉模型能否学习到有意义的几何表示,以及不同人生涯训练的模型是否会产生对齐的内部表示。
  • Method: 1) 在不同人生涯的自我中心视频数据集上独立训练视觉编码器;2) 提出基于交叉注意力的新指标来量化不同模型内部表示的功能对齐;3) 在室内外环境中进行实验;4) 比较单人生涯数据与多样化网络数据的训练效果。
  • Result: 1) 不同人生涯训练的模型发展出高度对齐的几何理解;2) 单人生涯模型学习到的几何表示能有效迁移到深度估计等下游任务;3) 一周30小时单人生涯数据训练效果与30小时多样化网络数据相当。
  • Conclusion: 世界的共享结构导致单人生涯训练的模型具有一致性,并为视觉表示学习提供了强大信号,单人生涯学习是有效的视觉表示学习范式。

cs.IR

[116] M3DR: Towards Universal Multilingual Multimodal Document Retrieval

Adithya S Kolavi,Vyoman Jain

Main category: cs.IR

TL;DR: M3DR是一个多语言多模态文档检索框架,通过合成多语言数据和对比学习实现跨语言跨模态对齐,在22种语言上验证了性能,并在跨语言检索上取得了约150%的相对改进。

  • Motivation: 现有多模态文档检索系统主要针对英语,在多语言环境中的效果有限,需要开发能够适应不同语言和文化背景的框架。
  • Method: 使用合成多语言文档数据,采用对比训练方法学习文本和文档图像的统一表示,支持单密集向量和ColBERT风格的多向量检索范式。
  • Result: 在22种类型多样的语言上验证了性能一致性,NetraEmbed和ColNetraEmbed模型在跨语言检索上实现了约150%的相对改进,达到最先进水平。
  • Conclusion: M3DR框架成功解决了多语言多模态文档检索的挑战,展示了在不同语言和脚本变化中的鲁棒性和适应性,为现实世界的多语言场景提供了有效解决方案。

physics.ins-det

[117] Kaleidoscopic Scintillation Event Imaging

Alex Bocchieri,John Mamish,David Appleyard,Andreas Velten

Main category: physics.ins-det

TL;DR: 提出了一种万花筒式闪烁体设计,通过镜面反射增加单光子相机中的光收集,同时保留事件的空间信息,实现高分辨率辐射成像。

  • Motivation: 现有闪烁体检测方法面临挑战:快速单像素探测器缺乏空间分辨率,相机只能捕获多次事件的平均值,而新兴的单光子雪崩二极管相机虽然结合了速度和空间分辨率,但单个事件的亮度极低,光子数量有限。
  • Method: 提出万花筒式闪烁体设计,利用几何结构创建事件的镜像反射,增加光收集;开发了万花筒闪烁体成像理论和算法,用于估计事件的3D位置。
  • Result: 万花筒闪烁体设计提供了足够的光收集能力,能够使用商用CMOS单光子相机执行高分辨率事件测量,适用于先进的辐射成像技术。
  • Conclusion: 万花筒式闪烁体设计解决了单光子相机中事件亮度极低的问题,通过增加光收集同时保留空间信息,为高级辐射成像技术提供了新的检测方法。

cs.GR

[118] LATTICE: Democratize High-Fidelity 3D Generation at Scale

Zeqiang Lai,Yunfei Zhao,Zibo Zhao,Haolin Liu,Qingxiang Lin,Jingwei Huang,Chunchao Guo,Xiangyu Yue

Main category: cs.GR

TL;DR: LATTICE是一个新的3D资产生成框架,通过VoxSet半结构化表示和两阶段生成流程,解决了3D生成在质量和可扩展性方面的挑战,实现了最先进的性能。

  • Motivation: 2D图像合成受益于固定空间网格和成熟的transformer架构,但3D生成面临更大挑战:需要从零预测空间结构和详细几何表面,现有3D表示计算复杂且缺乏结构化、可扩展的3D资产编码方案。
  • Method: 提出VoxSet半结构化表示,将3D资产压缩为锚定在粗体素网格上的紧凑潜在向量集,实现高效且位置感知的生成。基于此,LATTICE采用两阶段流程:首先生成稀疏体素化几何锚点,然后使用整流流transformer生成详细几何。
  • Result: 方法简单但支持任意分辨率解码、低成本训练和灵活推理方案,在多个方面达到最先进性能,为可扩展、高质量的3D资产创建迈出重要一步。
  • Conclusion: LATTICE通过VoxSet表示和两阶段生成框架,成功弥合了2D和3D生成模型在质量和可扩展性方面的差距,为高质量3D资产生成提供了有效的解决方案。

[119] Radiance Meshes for Volumetric Reconstruction

Alexander Mai,Trevor Hedstrom,George Kopanas,Janne Kontkanen,Falko Kuester,Jonathan T. Barron

Main category: cs.GR

TL;DR: 提出辐射网格技术,使用Delaunay四面体化构建恒定密度四面体单元来表示辐射场,实现快速精确的体积渲染,支持实时视图合成和多种应用。

  • Motivation: 现有辐射场表示方法在渲染速度和硬件兼容性方面存在限制,需要一种既能保持高质量渲染又能实现实时性能的表示方法。
  • Method: 使用Delaunay四面体化生成恒定密度四面体网格,结合Zip-NeRF风格主干网络处理拓扑变化,提出新的光栅化方法实现精确体积渲染。
  • Result: 实现了比所有先前辐射场表示更快的渲染速度,在标准消费硬件上实现高质量实时视图合成,并支持鱼眼镜头畸变、物理模拟等多种应用。
  • Conclusion: 辐射网格技术提供了一种高效、硬件友好的辐射场表示方法,在保持渲染质量的同时显著提升渲染速度,具有广泛的应用潜力。

cs.LG

[120] Energy-Efficient Federated Learning via Adaptive Encoder Freezing for MRI-to-CT Conversion: A Green AI-Guided Research

Ciro Benito Raggio,Lucia Migliorelli,Nils Skupien,Mathias Krohmer Zabaleta,Oliver Blanck,Francesco Cicone,Giuseppe Lucio Cascini,Paolo Zaffino,Maria Francesca Spadea

Main category: cs.LG

TL;DR: 提出一种面向绿色AI的自适应层冻结策略,用于联邦学习中的MRI到CT转换任务,在保持模型性能的同时减少23%的训练时间、能耗和碳排放。

  • Motivation: 联邦学习虽然能促进医疗平等,但其高计算资源需求可能加剧医疗资源不均。需要开发节能的联邦学习方法,使资源有限的机构也能参与,从而真正实现医疗AI的公平性。
  • Method: 提出自适应层冻结策略:基于轮次间编码器权重的相对差异监控,选择性冻结编码器权重;采用基于耐心的机制,仅在更新持续保持最小时才进行冻结;使用CodeCarbon库追踪能耗和碳排放。
  • Result: 相比未冻结的对照方法,训练时间、总能耗和CO2eq排放减少高达23%;MRI到CT转换性能基本保持,平均绝对误差仅有小幅变化;5种架构中3种无显著差异,2种有显著改进。
  • Conclusion: 该工作为开发满足临床需求、同时确保气候、社会和经济可持续性的深度学习框架提供了范例,为推进隐私、公平和AI驱动医疗中的正义性奠定了基础。

[121] Cyclical Temporal Encoding and Hybrid Deep Ensembles for Multistep Energy Forecasting

Salim Khazem,Houssam Kanso

Main category: cs.LG

TL;DR: 提出一个结合循环时间编码与LSTM-CNN混合架构的统一深度学习框架,用于提升多步能源预测精度,在多个预测时间窗口上取得优于基准方法的性能。

  • Motivation: 准确的电力消费预测对于需求管理和智能电网运营至关重要。现有方法未能充分整合时间编码、日历特征和混合深度学习架构的优势,需要统一的框架来提升多步预测性能。
  • Method: 1. 使用正弦余弦编码系统性地转换基于日历的属性,保留周期结构;2. 通过相关性分析评估预测相关性;3. 采用包含LSTM、CNN和针对每个预测时间窗口专门化的MLP回归器元学习器的集成模型,同时利用长期季节效应和短期局部模式。
  • Result: 使用一年全国消费数据集进行广泛实验研究,包括带/不带循环编码和日历特征的消融分析,以及与文献中基准方法的比较。结果表明在所有七个预测时间窗口上都取得了一致的改进,混合模型实现了比单个架构和先前方法更低的RMSE和MAE。
  • Conclusion: 研究证实了将循环时间表示与互补的深度学习结构相结合的好处。据作者所知,这是首个在统一的短期能源预测框架中联合评估时间编码、基于日历的特征和混合集成架构的工作。

cs.CY

[122] Culture Affordance Atlas: Reconciling Object Diversity Through Functional Mapping

Joan Nwatu,Longju Bai,Oana Ignat,Rada Mihalcea

Main category: cs.CY

TL;DR: 本文提出功能中心框架解决视觉语言数据集的文化偏见问题,通过创建文化可供性图谱,显著减少高低收入群体间的性能差距。

  • Motivation: 主流视觉语言数据集存在文化偏见,过度偏向高收入西方语境,导致模型泛化能力下降,加剧对低收入和非西方社区的性能差异。
  • Method: 提出功能中心框架,按对象在不同文化经济背景下实现的功能进行分类,创建文化可供性图谱,重新标注和重组Dollar Street数据集,涵盖46种功能和288个对象。
  • Result: 使用CLIP模型实证分析显示,功能中心标签显著减少高低收入群体间的社会经济性能差距(中位数减少6个百分点),并识别出主流VL数据集经常忽视的文化必需对象。
  • Conclusion: 功能中心框架为构建包容性视觉语言数据集和公平AI系统提供了可扩展的途径,有助于减少文化偏见和性能差异。

eess.IV

[123] Tada-DIP: Input-adaptive Deep Image Prior for One-shot 3D Image Reconstruction

Evan Bell,Shijun Liang,Ismail Alkhouri,Saiprasad Ravishankar

Main category: eess.IV

TL;DR: Tada-DIP:一种结合输入自适应和去噪正则化的3D深度图像先验方法,用于解决3D逆问题,在稀疏视图CT重建中表现出色。

  • Motivation: 深度图像先验(DIP)在单次神经网络图像重建中表现出潜力,但在3D图像重建中应用有限。现有DIP方法在3D逆问题中容易过拟合,需要一种有效的3D DIP方法。
  • Method: 提出Tada-DIP方法,结合输入自适应和去噪正则化技术,构建完全3D的DIP框架,避免过拟合现象。
  • Result: 在稀疏视图X射线CT重建实验中,Tada-DIP比无训练数据基线方法重建质量更好,性能与使用大量全采样数据训练的有监督网络相当。
  • Conclusion: Tada-DIP是一种高效且完全3D的DIP方法,能有效解决3D逆问题,在CT重建中表现出优越性能,为3D图像重建提供了有前景的解决方案。

cs.RO

[124] Multi-Agent Reinforcement Learning and Real-Time Decision-Making in Robotic Soccer for Virtual Environments

Aya Taourirte,Md Sohag Mia

Main category: cs.RO

TL;DR: 提出一个统一的多智能体强化学习框架,通过分层强化学习和平均场理论解决动态对抗环境中多智能体系统的实时决策、协作和可扩展性问题。

  • Motivation: 在机器人足球等动态对抗环境中部署多智能体系统需要实时决策、复杂协作和可扩展算法。现有强化学习方法在处理任务多粒度(长期策略vs即时动作)和大规模智能体交互复杂性方面存在困难。
  • Method: 1) 使用PPO在客户端-服务器架构中建立基线;2) 引入基于选项框架的分层RL结构,将问题分解为高层轨迹规划层(半马尔可夫决策过程)和低层动作执行层;3) 将平均场理论集成到HRL框架中,简化多智能体交互为单智能体vs群体平均。
  • Result: PPO基线表现良好(4.32平均进球,82.9%控球率);HRL改进全局策略(平均进球增至5.26);平均场actor-critic方法显著提升性能(5.93平均进球,89.1%控球率,92.3%传球准确率),增强训练稳定性。
  • Conclusion: 在Webots环境中进行的4v4比赛仿真验证了该方法的有效性,展示了其在复杂多智能体领域中实现鲁棒、可扩展和协作行为的潜力。

[125] What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models

Tianchen Deng,Yue Pan,Shenghai Yuan,Dong Li,Chen Wang,Mingrui Li,Long Chen,Lihua Xie,Danwei Wang,Jingchuan Wang,Javier Civera,Hesheng Wang,Weidong Chen

Main category: cs.RO

TL;DR: 本文对机器人学中的场景表示方法进行了全面综述,涵盖传统方法(点云、体素、SDF、场景图)和神经表示(NeRF、3DGS、基础模型),分析它们在机器人五大模块(感知、建图、定位、导航、操作)中的应用,并探讨未来发展趋势,特别是3D基础模型作为统一解决方案的潜力。

  • Motivation: 当前SLAM和定位系统主要依赖稀疏表示(如点云、体素),但密集场景表示在下游任务(如导航和避障)中至关重要。神经表示能够整合高级语义特征和语言先验,实现更全面的3D场景理解和具身智能。本文旨在回答"什么是机器人学的最佳3D场景表示?"这一问题,并为研究人员提供有价值的参考资源。
  • Method: 将机器人核心模块分为五个部分(感知、建图、定位、导航、操作),系统性地呈现不同场景表示方法的标准公式化表示,并比较各模块中不同表示方法的优缺点。通过开源项目持续更新最新工作和技术。
  • Result: 提供了全面的场景表示方法分类和比较框架,指出神经表示(如NeRF、3DGS)在整合语义特征方面的优势,预测3D基础模型可能成为未来机器人应用的统一解决方案,同时识别了实现这一目标面临的挑战。
  • Conclusion: 本文系统综述了机器人学中的场景表示方法,强调了密集表示和神经表示的重要性,预测3D基础模型将成为未来发展方向。通过开源项目为社区提供持续更新的资源,帮助研究人员探索3D场景表示在机器人学中的未来应用。

[126] MSG-Loc: Multi-Label Likelihood-based Semantic Graph Matching for Object-Level Global Localization

Gihyeon Lee,Jungwoo Lee,Juwon Kim,Young-Sik Shin,Younggun Cho

Main category: cs.RO

TL;DR: 提出基于多标签似然的语义图匹配框架,用于物体级全局定位,通过多标签图表示和上下文感知似然传播来应对语义模糊性

  • Motivation: 机器人在未知物体类别和语义模糊的环境中定位时,高语义模糊性会加剧物体误分类和错误关联,导致姿态估计出现显著错误
  • Method: 使用多标签图表示而非单标签表示来捕捉物体观测的语义上下文,通过上下文感知似然传播结合节点似然与邻居最大似然来增强图间语义对应
  • Result: 在闭集和开集检测配置下评估了数据关联和姿态估计性能,并在真实室内场景和合成环境中展示了方法对大词汇量物体类别的可扩展性
  • Conclusion: 提出的多标签似然语义图匹配框架能有效处理语义模糊性,提升物体级全局定位的准确性和鲁棒性

[127] RoboScape-R: Unified Reward-Observation World Models for Generalizable Robotics Training via RL

Yinzhou Tang,Yu Shang,Yinuo Chen,Bingwen Wei,Xin Zhang,Shu'ang Yu,Liangzhi Shi,Chao Yu,Chen Gao,Wei Wu,Yong Li

Main category: cs.RO

TL;DR: 提出RoboSccape-R框架,利用世界模型作为通用环境代理,通过基于世界模型的内生奖励机制增强具身策略的泛化能力

  • Motivation: 传统模仿学习和强化学习方法在具身策略泛化方面存在局限:模仿学习容易过拟合专家轨迹,强化学习缺乏统一的通用奖励信号。世界模型有潜力作为通用环境代理,但现有世界模型仍依赖任务特定的手工奖励函数。
  • Method: 提出RoboScape-R框架,利用世界模型作为强化学习范式中的通用环境代理。引入基于世界模型的内生奖励机制,该奖励来源于模型对真实世界状态转移动力学的内在理解。
  • Result: 实验表明RoboScape-R有效解决了传统强化学习方法的局限性,提供了高效通用的训练环境,显著增强了具身策略的泛化能力。在域外场景下平均性能提升37.5%。
  • Conclusion: 世界模型可以作为在线训练策略的有效工具,RoboScape-R框架通过内生奖励机制显著提升了具身策略的泛化性能,为利用世界模型作为通用环境代理提供了重要见解。

[128] Artificial Microsaccade Compensation: Stable Vision for an Ornithopter

Levi Burner,Guido de Croon,Yiannis Aloimonos

Main category: cs.RO

TL;DR: 提出"人工微扫视补偿"方法,通过优化SO(3)中的3D旋转来稳定视频,特别适用于12-20Hz抖动的无尾扑翼机视频,实现实时无失真稳定

  • Motivation: 受人类等动物微扫视现象的启发,解决无尾扑翼机因12-20Hz抖动而难以使用相机传感的问题,需要实时视频稳定方法
  • Method: 通过最小化图像强度变化,在SO(3)中优化3D旋转表示,实现视频稳定。可调整为固定视角方向(偶尔扫视),减少帧间运动并采用高效递归更新
  • Result: 相比Adobe Premier Pro的warp stabilizer(最佳商业软件),该方法获得更高质量结果且能实时运行,适合人类观看的无失真稳定视频
  • Conclusion: 人工微扫视补偿方法有效解决了扑翼机视频稳定问题,在质量和实时性方面优于现有商业解决方案,为抖动视频稳定提供了新思路

cs.CL

[129] Jina-VLM: Small Multilingual Vision Language Model

Andreas Koukounas,Georgios Mastrapas,Florian Hönicke,Sedigheh Eslami,Guillaume Roncari,Scott Martens,Han Xiao

Main category: cs.CL

TL;DR: Jina-VLM是一个2.4B参数的多语言视觉语言模型,在2B规模的开源VLM中实现了最先进的多语言视觉问答性能。

  • Motivation: 开发一个在2B参数规模下具有竞争力的多语言视觉语言模型,能够在保持文本性能的同时,在视觉问答任务上超越同类模型。
  • Method: 结合SigLIP2视觉编码器和Qwen3语言主干,通过注意力池化连接器实现任意分辨率图像的token高效处理。
  • Result: 在标准VQA基准测试和多语言评估中,Jina-VLM超越了可比较的模型,同时保持了有竞争力的纯文本性能。
  • Conclusion: Jina-VLM展示了在2B参数规模下实现最先进多语言视觉问答的可行性,为高效的多模态模型设计提供了新思路。

q-bio.GN

[130] PanFoMa: A Lightweight Foundation Model and Benchmark for Pan-Cancer

Xiaoshui Huang,Tianlin Zhu,Yifan Zuo,Xue Xia,Zonghan Wu,Jiebin Yan,Dingli Hua,Zongyi Xu,Yuming Fang,Jian Zhang

Main category: q-bio.GN

TL;DR: PanFoMa是一个轻量级混合神经网络,结合Transformer和状态空间模型的优势,用于单细胞RNA测序数据分析,在性能和效率之间取得平衡。同时构建了大规模泛癌单细胞基准PanFoMaBench。

  • Motivation: 单细胞RNA测序对于解码肿瘤异质性至关重要,但泛癌研究面临两个关键挑战:学习判别性且高效的单细胞表示,以及建立全面的评估基准。
  • Method: 提出PanFoMa模型,包含前端局部上下文编码器(共享自注意力层捕获复杂、顺序无关的基因相互作用)和后端全局序列特征解码器(使用线性时间状态空间模型高效整合全局上下文)。这种模块化设计保留了Transformer的表达能力,同时利用Mamba的可扩展性实现转录组建模。
  • Result: 在构建的PanFoMaBench基准(包含33种癌症亚型超过350万个高质量细胞)上,PanFoMa在泛癌基准上优于最先进模型(+4.0%),在多个公共任务中表现优异:细胞类型注释(+7.4%)、批次整合(+4.0%)和多组学整合(+3.1%)。
  • Conclusion: PanFoMa通过结合Transformer和状态空间模型的优势,有效捕获局部和全局调控信号,为单细胞RNA测序分析提供了高效且性能优异的解决方案,同时构建的基准数据集将促进该领域的研究。