Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] SO-Bench: A Structural Output Evaluation of Multimodal LLMs
Di Feng,Kaixin Ma,Feng Nan,Haofeng Chen,Bohan Zhai,David Griffiths,Mingfei Gao,Zhe Gan,Eshan Verma,Yinfei Yang,Zhifeng Chen,Afshin Dehghan
Main category: cs.CV
TL;DR: SO-Bench:首个系统评估多模态大语言模型视觉结构化输出能力的基准,涵盖UI界面、自然图像、文档和图表四个视觉领域,包含6.5K个JSON模式和1.8K个图像-模式对。
- Motivation: 多模态大语言模型在现实世界代理场景中部署时,输出不仅需要正确,还必须符合预定义的数据模式。尽管文本领域的结构化生成已有进展,但缺乏系统评估视觉输入的模式基础信息提取和推理能力的基准。
- Method: 设计了SO-Bench基准,涵盖四个视觉领域(UI界面、自然图像、文档、图表),从超过6.5K个多样化JSON模式和1.8K个人工验证质量的图像-模式对构建。对开源和前沿专有模型进行基准测试,并进行训练实验提升模型的结构化输出能力。
- Result: 基准测试揭示了模型在预测准确、符合模式的输出方面存在持续差距,凸显了改进多模态结构化推理的需求。训练实验显著提升了模型的结构化输出能力。
- Conclusion: SO-Bench填补了视觉结构化输出评估的空白,揭示了当前多模态大语言模型在模式合规输出方面的不足,通过训练可以显著提升这一能力,为社区提供了有价值的基准资源。
[2] Saddle-Free Guidance: Improved On-Manifold Sampling without Labels or Additional Training
Eric Yeats,Darryl Hannan,Wilson Fearn,Timothy Doster,Henry Kvinge,Scott Mahan
Main category: cs.CV
TL;DR: 提出了一种新的鞍点自由引导方法,利用对数密度估计的正曲率来引导基于分数的生成模型,无需额外训练或标注数据。
- Motivation: 现有引导方法如分类器自由引导和自动引导需要标注数据或额外模型训练,限制了在无标注数据或无法训练新模型场景下的应用。本文发现对数密度估计在鞍点区域的正曲率可以提供有效的引导信号。
- Method: 提出鞍点自由引导方法,通过估计对数密度的最大正曲率来引导单个基于分数的模型。该方法与分类器自由引导计算成本相同,无需额外训练,可直接应用于现成的扩散和流匹配模型。
- Result: 在单模型无条件ImageNet-512生成中达到最先进的FID和FD-DINOv2指标;与自动引导结合时,无条件样本在FD-DINOv2得分上达到通用最先进水平;在FLUX.1-dev和Stable Diffusion v3.5上,相比分类器自由引导提高了输出图像的多样性,同时保持优秀的提示遵循和图像保真度。
- Conclusion: 鞍点自由引导是一种高效且通用的引导方法,无需额外训练或标注数据,能够显著提升基于分数生成模型的性能,为实际应用提供了更灵活的解决方案。
[3] UniArt: Unified 3D Representation for Generating 3D Articulated Objects with Open-Set Articulation
Bu Jin,Weize Li,Songen Gu,Yupeng Zheng,Yuhang Zheng,Zhengyi Zhou,Yao Yao
Main category: cs.CV
TL;DR: UniArt是一个扩散模型框架,能够从单张图像直接合成完全铰接的3D物体,统一编码几何、纹理、部件分割和运动学参数。
- Motivation: 铰接3D物体在仿真和机器人领域很重要,但手动创建成本高且难以扩展。现有方法多为多阶段流程,缺乏统一的表示。
- Method: 提出统一潜在表示,联合编码几何、纹理、部件分割和运动学参数;引入可逆关节到体素嵌入,将运动特征与体积几何空间对齐;将关节类型预测公式化为开放集问题。
- Result: 在PartNet-Mobility基准测试中,UniArt在网格质量和铰接精度方面达到最先进水平。
- Conclusion: UniArt能够从单张图像端到端生成铰接3D物体,通过统一表示和开放集关节预测实现了对新颖关节类别和未见物体类型的泛化能力。
[4] PathReasoning: A multimodal reasoning agent for query-based ROI navigation on whole-slide images
Kunpeng Zhang,Hanwen Xu,Sheng Wang
Main category: cs.CV
TL;DR: PathReasoning是一个多模态推理代理,通过迭代推理和精炼在WSI中导航,将整张切片转换为问题引导的视图序列,显著提升肿瘤微环境分析性能。
- Motivation: WSI虽然提供了癌症的全面图像,但其巨大尺寸(超过100亿像素)使得导航到相关区域以支持临床检查变得困难且耗时。病理学家通过采样、推理和自我反思的组合进行导航,这启发了本研究的思路。
- Method: 提出PathReasoning多模态推理代理,从随机采样的候选区域开始,通过自我反思审查当前选择,推理视觉观察与临床问题之间的对应关系,然后提出新的探索区域。通过多轮迭代构建推理链,逐步将注意力引导到诊断相关区域。
- Result: 在亚型分型和纵向分析任务上,PathReasoning比强基线ROI选择方法分别提升6.7%和3.1%的AUROC。高质量ROI进一步支持乳腺癌的准确报告生成,比标准GPT-4o准确率提升10%。
- Conclusion: PathReasoning能够优先处理问题特定区域并构建可解释的推理链,支持数字病理学中的高效切片审查、一致的诊断解释、全面报告和证据可追溯性,无需密集像素级标注。
[5] Adaptive Parameter Optimization for Robust Remote Photoplethysmography
Cecilia G. Morales,Fanurs Chi En Teh,Kai Li,Pushpak Agrawal,Artur Dubrawski
Main category: cs.CV
TL;DR: PRISM算法是一种无需训练的远程光电容积描记术(rPPG)方法,通过在线参数自适应优化信号处理,在多种环境下实现高性能心率监测。
- Motivation: 现有rPPG方法依赖针对特定光照条件和相机设置的固定参数,限制了在不同部署环境中的适应性,需要一种能够自适应优化的方法。
- Method: 提出基于投影的鲁棒信号混合(PRISM)算法,通过信号质量评估进行在线参数自适应,联合优化光度去趋势和颜色混合,无需训练。
- Result: 在PURE数据集上MAE为0.77 bpm,UBFC-rPPG上为0.66 bpm;在5 bpm阈值下的准确率分别为97.3%和97.5%,性能与领先的监督方法相当(p>0.2),且能在CPU上实时运行。
- Conclusion: 自适应时间序列优化显著提高了rPPG在不同条件下的性能,PRISM在无需训练的情况下实现了与监督方法相当的效果,验证了自适应方法的重要性。
[6] Interpretable Multimodal Cancer Prototyping with Whole Slide Images and Incompletely Paired Genomics
Yupei Zhang,Yating Huang,Wanming Hu,Lequan Yu,Hujun Yin,Chao Li
Main category: cs.CV
TL;DR: 提出一种灵活的多模态原型框架,整合全切片图像和不完整基因组学数据用于精准肿瘤学,通过生物原型、多视图对齐、二分融合和语义基因组学插补四个关键组件处理模态异质性和数据缺失问题。
- Motivation: 组织学和基因组学的多模态整合在精准肿瘤学中具有巨大潜力,但表型和基因型异质性限制了模态内表示质量并阻碍有效的模态间整合。此外,现有方法大多忽略了基因组学数据可能部分缺失或完全不可用的真实临床场景。
- Method: 提出包含四个关键组件的多模态原型框架:1) 使用文本提示和原型加权进行生物原型构建;2) 通过样本级和分布级对齐实现多视图对齐;3) 二分融合捕获共享和模态特定信息;4) 语义基因组学插补处理缺失数据。
- Result: 在多个下游任务上的广泛实验表明,该方法相比其他最先进方法具有一致优越性。
- Conclusion: 该灵活的多模态原型框架能够有效整合全切片图像和不完整基因组学数据,为精准肿瘤学提供强大的多模态整合解决方案,特别是在处理真实临床场景中的数据缺失问题时表现出色。
[7] AmodalGen3D: Generative Amodal 3D Object Reconstruction from Sparse Unposed Views
Junwei Zhou,Yu-Wing Tai
Main category: cs.CV
TL;DR: AmodalGen3D:一个从稀疏遮挡视图重建完整3D物体的生成框架,通过整合2D模态补全先验和多视角几何条件,实现遮挡区域的可信推断。
- Motivation: 现实场景中,从少量无姿态、部分遮挡的视图重建3D物体是一个常见但具有挑战性的问题,传统多视图或修复方法在遮挡严重时往往产生不完整或几何不一致的重建结果。
- Method: 提出AmodalGen3D框架,整合2D模态补全先验与多视角立体几何条件,采用View-Wise Cross Attention机制进行稀疏视图特征融合,以及Stereo-Conditioned Cross Attention模块推断未观测结构,联合建模可见和隐藏区域。
- Result: 在合成和真实数据集上的实验表明,AmodalGen3D在遮挡严重的稀疏视图设置下实现了优越的保真度和完整性,优于现有方法。
- Conclusion: AmodalGen3D解决了机器人、AR/VR和具身AI应用中物体级3D场景重建的迫切需求,能够从稀疏输入中推断完整的遮挡无关几何和外观。
[8] TAPVid-360: Tracking Any Point in 360 from Narrow Field of View Video
Finlay G. C. Hudson,James A. D. Gardner,William A. P. Smith
Main category: cs.CV
TL;DR: TAPVid-360:一种新的视觉任务,要求预测视频序列中查询场景点的3D方向,即使这些点远在观察视频的狭窄视野之外,旨在促进学习非自我中心(allocentric)的场景表示。
- Motivation: 人类擅长构建周围环境的全景心理模型,能够维持物体恒常性并推断视野之外的场景结构。而当前的人工视觉系统在处理持续性、全景性理解方面存在困难,通常以自我中心(egocentric)的方式逐帧处理场景。这种局限性在Track Any Point (TAP)任务中尤为明显,现有方法无法跟踪视野之外的2D点。
- Method: 利用360度视频作为监督来源,将其重采样为狭窄视野的视角,同时使用2D流程通过跟踪完整全景中的点来计算真实方向。引入新的数据集和基准TAPVid360-10k,包含10,000个视角视频及其真实方向点跟踪。基线方法通过改进CoTracker v3来预测每个点的旋转以进行方向更新。
- Result: 提出的基线方法(改进的CoTracker v3)在预测点方向方面优于现有的TAP和TAPVid 3D方法。
- Conclusion: TAPVid-360任务能够促进学习非自我中心的场景表示,而无需动态4D真实场景模型进行训练。该方法通过利用360度视频作为监督来源,为全景场景理解提供了新的解决方案。
[9] WalkCLIP: Multimodal Learning for Urban Walkability Prediction
Shilong Xiang,JangHyeon Lee,Min Namgung,Yao-Yi Chiang
Main category: cs.CV
TL;DR: WalkCLIP是一个多模态框架,通过整合卫星图像、街景图像和人口动态数据来预测城市步行性,相比单模态方法在准确性和空间对齐方面表现更好。
- Motivation: 传统步行性评估方法成本高且难以扩展,现有单源方法(卫星图像、街景图像或人口指标)只能捕捉步行环境的一个维度,无法全面反映城市步行性。
- Method: WalkCLIP通过GPT-4o生成的图像描述学习步行性感知的视觉语言表示,使用空间聚合模块整合邻域上下文,并将这些特征与人口动态基础模型的表示融合。
- Result: 在明尼阿波利斯-圣保罗的4,660个地点进行评估,WalkCLIP在预测准确性和空间对齐方面均优于单模态和多模态基线方法。
- Conclusion: 视觉和行为信号的整合能够可靠地预测步行环境,多模态方法比单源方法能更全面地捕捉城市步行性。
[10] DeepGI: Explainable Deep Learning for Gastrointestinal Image Classification
Walid Houmaidi,Mohamed Hadadi,Youssef Sabiri,Yousra Chtouki
Main category: cs.CV
TL;DR: 该研究在包含4000张内窥镜图像的新胃肠道医学影像数据集上,对四种关键疾病进行深度学习模型比较分析,最佳模型VGG16和MobileNetV2达到96.5%的测试准确率,并采用Grad-CAM可视化增强临床可解释性。
- Motivation: 解决内窥镜图像分析中的常见挑战,如光照变化、相机角度波动和成像伪影,为胃肠道疾病自动分类建立可靠的基准,并强调医学AI研究中临床相关数据集和模型可解释性的重要性。
- Method: 使用包含4000张内窥镜图像的数据集,涵盖四种疾病类别(憩室病、肿瘤、腹膜炎、输尿管),采用先进的深度学习技术(VGG16、MobileNetV2、Xception等模型),并集成Grad-CAM可视化方法进行可解释AI分析。
- Result: VGG16和MobileNetV2模型均达到96.5%的测试准确率,Xception达到94.24%的准确率,建立了稳健的疾病分类基准,并通过Grad-CAM可视化成功识别影响模型预测的关键图像区域。
- Conclusion: 该研究展示了即使在复杂的真实世界条件下,也能实现稳健、准确且可解释的医学图像分析,为胃肠道计算机辅助诊断提供了原始基准、比较见解和视觉解释,推动了医学AI研究的发展。
[11] PAT3D: Physics-Augmented Text-to-3D Scene Generation
Guying Lin,Kemeng Huang,Michael Liu,Ruihan Gao,Hanke Chen,Lyuhao Chen,Beijia Lu,Taku Komura,Yuan Liu,Jun-Yan Zhu,Minchen Li
Main category: cs.CV
TL;DR: PAT3D是首个将视觉语言模型与物理模拟结合的物理增强文本到3D场景生成框架,能生成物理合理、模拟就绪且无交叠的3D场景。
- Motivation: 现有文本到3D场景生成方法通常缺乏物理合理性,生成的场景存在物体交叠和不稳定问题,无法直接用于下游任务如机器人操作。
- Method: 1) 基于文本提示生成3D物体并推断空间关系,组织成层次化场景树;2) 转换为模拟初始条件;3) 使用可微分刚体模拟器确保重力下的真实物体交互;4) 引入模拟循环优化过程保证物理稳定性和非交叠性。
- Result: PAT3D在物理合理性、语义一致性和视觉质量方面显著优于现有方法,并能生成可直接用于场景编辑和机器人操作等下游任务的模拟就绪3D场景。
- Conclusion: PAT3D通过集成物理模拟与视觉语言模型,首次实现了物理合理、无交叠的文本到3D场景生成,为下游应用提供了可直接使用的模拟就绪场景。
[12] DialBench: Towards Accurate Reading Recognition of Pointer Meter using Large Foundation Models
Futian Wang,Chaoliu Weng,Xiao Wang,Zhen Chen,Zhicheng Zhao,Jin Tang
Main category: cs.CV
TL;DR: 提出了RPM-10K大规模指针仪表数据集和基于物理关系注入的MRLM视觉语言模型,用于解决指针仪表精确读数识别中的反射、遮挡、视角变化等挑战。
- Motivation: 智能电力系统中指针仪表的精确读数识别至关重要,但现有方法因反射、遮挡、动态视角、指针与刻度标记重叠等挑战而脆弱。该领域缺乏大规模数据集支持鲁棒算法开发。
- Method: 首先构建了包含10730张仪表图像的RPM-10K大规模基准数据集。基于此提出了MRLM视觉语言模型,通过物理关系注入显式编码指针与刻度间的几何和因果关系,采用交叉注意力融合和自适应专家选择机制。
- Result: 在新提出的基准数据集上进行了广泛实验,充分验证了所提框架的有效性。数据集和源代码将在GitHub上公开。
- Conclusion: 通过构建大规模数据集和引入物理关系注入的视觉语言模型,显著提升了指针仪表读数识别的鲁棒性和准确性,为智能电力系统提供了可靠的技术支持。
[13] PPBoost: Progressive Prompt Boosting for Text-Driven Medical Image Segmentation
Xuchen Li,Hengrui Gu,Mohan Zhang,Qin Liu,Zhen Tan,Xinyuan Zhu,Huixue Zhou,Tianlong Chen,Kaixiong Zhou
Main category: cs.CV
TL;DR: PPBoost是一个零样本医学图像分割框架,通过将弱文本提示转化为强空间视觉提示(边界框),指导分割模型生成精确掩码,无需任何图像或像素级标注。
- Motivation: 现有方法存在局限性:基于文本提示的基础模型分割空间精度不足且易受域偏移影响;基于视觉提示(边界框)的模型性能好但获取精确视觉提示成本高。需要一种方法能将弱文本信号转化为强空间视觉提示。
- Method: 1. 使用视觉语言模型基于文本描述生成初始伪边界框;2. 应用不确定性感知标准过滤不可靠预测;3. 利用保留的图像-边界框对训练伪标签检测器,生成高质量边界框;4. 推理时进一步扩展边界框以紧密覆盖目标解剖结构;5. 用增强的边界框提示指导现有分割模型生成最终密集掩码。
- Result: 在三个涵盖不同模态和解剖结构的数据集上,PPBoost在Dice系数和归一化表面距离指标上持续优于文本和视觉提示基线,甚至超越了不使用标注数据的少样本分割模型。PPBoost能泛化到多种典型的视觉分割模型骨干网络。
- Conclusion: PPBoost成功地将弱文本提示转化为强空间视觉指导,实现了零样本医学图像分割,在多种模态和解剖结构上表现出优越性能,为临床实践提供了一种无需标注的高效分割解决方案。
[14] Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?
Apratim Bhattacharyya,Bicheng Xu,Sanjay Haresh,Reza Pourreza,Litian Liu,Sunny Panchal,Pulkit Madan,Leonid Sigal,Roland Memisevic
Main category: cs.CV
TL;DR: 本文提出了Qualcomm Interactive Cooking基准测试和数据集,用于评估多模态大语言模型在实时交互式指导任务中的表现,并提出了LiveMamba模型作为解决方案。
- Motivation: 当前多模态大语言模型在对话能力上有进步,但在提供实时、交互式逐步指导方面存在不足,这是未来AI助手的关键能力。有效的指导不仅需要提供指令,还需要检测执行成功、识别错误并及时提醒用户,所有这些都需要实时进行。
- Method: 基于CaptainCook4D构建了Qualcomm Interactive Cooking基准测试和数据集,包含用户执行任务时的错误。数据集具有密集标注、定时指令和反馈信息,特别是精确时间戳标记的错误提醒。提出了LiveMamba模型,这是一个专门为交互式教学指导设计的流式多模态LLM。
- Result: 在Qualcomm Interactive Cooking基准测试上评估了最先进的多模态LLM,并展示了LiveMamba作为强基线模型的表现。这项工作为开发和评估实时、情境化指导提供了首个专用基准。
- Conclusion: 该研究填补了多模态LLM在实时交互指导方面的空白,通过新的基准测试和数据集,以及专门设计的LiveMamba模型,为开发更智能的AI助手提供了重要基础。
[15] StreamFlow: Theory, Algorithm, and Implementation for High-Efficiency Rectified Flow Generation
Sen Fang,Hongbin Zhong,Yalin Feng,Dimitris N. Metaxas
Main category: cs.CV
TL;DR: 提出针对Rectified Flow模型的全面加速方案,通过新速度场批处理、异构时间步向量化和动态TensorRT编译等技术,将512*512图像生成速度提升至611%,远超现有方法18%的加速效果。
- Motivation: Rectified Flow和Flow Matching等新技术显著提升了生成模型的性能,但由于理论、设计上与现有扩散模型的差异,现有加速方法无法直接应用于Rectified Flow模型,需要开发专门的加速方案。
- Method: 从理论、设计和推理策略三个层面构建完整加速流程:1) 使用新速度场进行批处理;2) 异构时间步批处理的向量化;3) 为新方法设计动态TensorRT编译,全面加速基于流模型的生成过程。
- Result: 实验证明,新方法可将512*512图像生成速度加速至611%,而现有公开方法通常只能达到18%的加速效果,新方法在加速性能上远超当前非通用化加速方法。
- Conclusion: 提出的全面加速管道成功解决了Rectified Flow模型无法直接应用现有加速方法的问题,通过理论、设计和推理策略的创新,实现了远超现有方法的性能提升,为流模型的实际应用提供了高效解决方案。
[16] MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis
Chunzheng Zhu,Yangfang Lin,Shen Chen,Yijun Wang,Jianxin Lin
Main category: cs.CV
TL;DR: MedEyes:一个通过动态建模临床医生诊断推理过程,结合离策略专家引导的强化学习框架,在医学视觉问答任务上平均提升8.5%性能
- Motivation: 现有基于强化学习的视觉语言模型虽然展示了链式推理能力,但纯在策略学习容易强化表面连贯但临床不准确的推理路径。需要模拟临床医生渐进式视觉聚焦和迭代推理的工作流程。
- Method: 1. 结合离策略专家引导,将专家视觉搜索轨迹转化为结构化行为信号;2. 设计注视引导推理导航器(GRN),采用双模式探索策略(扫描系统异常定位和钻取详细区域分析);3. 引入置信值采样器(CVS)平衡专家模仿和自主发现;4. 双流GRPO优化框架分离在策略和离策略学习信号。
- Result: 在多个医学VQA基准测试中平均性能提升8.5%,验证了MedEyes在构建可解释医学AI系统方面的潜力。
- Conclusion: MedEyes通过模拟临床医生诊断推理过程,结合专家引导和自主探索,有效提升了医学视觉问答的准确性和可解释性,为构建临床对齐的AI系统提供了新框架。
[17] Intra-Class Probabilistic Embeddings for Uncertainty Estimation in Vision-Language Models
Zhenxiang Lin,Maryam Haghighat,Will Browne,Dimity Miller
Main category: cs.CV
TL;DR: 提出一种无需训练的后处理不确定性估计方法,用于检测对比视觉语言模型的错误预测,通过特征投影和多元高斯分布创建类别特定的概率嵌入
- Motivation: 视觉语言模型(如CLIP)在开放词汇分类中表现良好,但容易对错误分类分配高置信度分数,这在安全关键应用中限制了可靠性
- Method: 基于视觉特征一致性的训练后不确定性估计方法,使用特征投影结合多元高斯分布创建类别特定的概率嵌入,无需微调,对分布偏移具有鲁棒性
- Result: 在ImageNet、Flowers102、Food101、EuroSAT和DTD数据集上展示了最先进的错误检测性能,显著优于确定性和概率性VLM基线方法
- Conclusion: 该方法是一种VLM无关、无需训练的不确定性估计方法,能够有效检测错误预测,即使在每类仅有10个训练图像的情况下也能有效工作
[18] Layover or Direct Flight: Rethinking Audio-Guided Image Segmentation
Joel Alberto Santos,Zongwei Wu,Xavier Alameda-Pineda,Radu Timofte
Main category: cs.CV
TL;DR: 该论文探索了直接音频-视觉对齐的可行性,通过单词语音指令进行物体定位,无需依赖文本转录,在某些情况下甚至优于基于转录的方法。
- Motivation: 当前基于转录的物体定位方法依赖文本作为中间表示,存在效率和鲁棒性问题。作者质疑这种方法的必要性,探索能否实现直接的音频-视觉对齐,避免转录过程。
- Method: 简化任务为基于单词语音指令的物体定位,创建了包含多种物体和不同口音的新音频定位数据集,并适配和基准测试了多个音频-视觉领域的模型。
- Result: 实验结果表明,直接从音频进行物体定位不仅可行,在某些情况下甚至优于基于转录的方法,特别是在处理语言多样性方面表现出更强的鲁棒性。
- Conclusion: 直接音频定位是可行的且有前景的方法,鼓励重新关注直接音频-视觉对齐研究,为更鲁棒高效的多模态理解系统铺平道路。
[19] PAGen: Phase-guided Amplitude Generation for Domain-adaptive Object Detection
Shuchen Du,Shuo Lei,Feiran Li,Jiacheng Li,Daisuke Iso
Main category: cs.CV
TL;DR: 提出一种简单有效的无监督域自适应方法,通过频域图像风格适应减少源域和目标域差异,无需对抗训练或复杂架构,推理时无额外计算开销。
- Motivation: 现有无监督域自适应方法过于复杂,依赖对抗训练策略或复杂架构设计,需要辅助模型进行特征蒸馏和伪标签生成,难以实际部署。
- Method: 在频域中学习适应图像风格以减少域差异,仅引入轻量级预处理模块进行训练,推理时完全丢弃该模块,不增加计算开销。
- Result: 在域自适应目标检测任务上进行了广泛实验,在多个基准测试中取得了显著的性能提升,证明了方法的实用性和有效性。
- Conclusion: 该方法提供了一种简单而有效的无监督域自适应解决方案,通过频域风格适应显著减少域差异,具有实际部署价值。
[20] SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model
Jiayuan Du,Yiming Zhao,Zhenglong Guo,Yong Pan,Wenbo Hou,Zhihui Hao,Kun Zhan,Qijun Chen
Main category: cs.CV
TL;DR: 提出一种基于轨迹条件的新型3D场景占用预测架构,直接利用原始图像特征端到端预测多帧未来占用,无需BEV投影或离散token化,在nuScenes基准上取得SOTA性能。
- Motivation: 现有方法依赖VAE生成离散占用token,限制了表示能力;同时基于BEV投影的方法需要显式几何先验。需要一种能更有效捕捉时空依赖、避免这些限制的新方法。
- Method: 采用基于注意力机制的Transformer架构,直接从原始图像特征预测多帧未来占用,使用稀疏占用表示绕过BEV投影,避免离散token化和显式几何先验。
- Result: 在nuScenes基准的1-3秒占用预测任务上取得最先进性能,显著超越现有方法,在任意未来轨迹条件下都能保持高精度,展现出强大的场景动态理解能力。
- Conclusion: 提出的端到端Transformer架构通过避免离散token化和BEV表示的限制,能够更有效地捕捉时空依赖,为轨迹条件的3D场景占用预测提供了更优的解决方案。
[21] ICM-SR: Image-Conditioned Manifold Regularization for Image Super-Resoultion
Junoh Kang,Donghun Ryu,Bohyung Han
Main category: cs.CV
TL;DR: 提出图像条件流形正则化(ICM)方法,通过使用颜色图和Canny边缘的结构信息来正则化超分辨率输出,解决现有方法使用文本条件流形与真实图像超分辨率任务不匹配的问题。
- Motivation: 现有真实图像超分辨率方法通常使用文本条件扩散模型的生成先验进行正则化,但这存在两个关键问题:概念上与任务不匹配(超分辨率应生成与低质量图像直接相关的高质量图像),实践中会导致颜色失真和边缘模糊。需要找到更合适的正则化流形。
- Method: 提出图像条件流形正则化(ICM)方法,不是直接使用原始输入图像(信息密度过高导致数值不稳定),而是使用稀疏但关键的结构信息:颜色图和Canny边缘的组合。这种方法提供任务对齐且稳定的正则化信号。
- Result: 实验证实提出的正则化方法显著提升了超分辨率性能,特别是在感知质量方面,证明了其在真实世界应用中的有效性。
- Conclusion: ICM方法通过使用图像结构信息进行正则化,解决了现有文本条件方法的局限性,为真实图像超分辨率提供了更合适的正则化策略,提升了最终的超分辨率质量。
[22] TPCNet: Triple physical constraints for Low-light Image Enhancement
Jing-Yi Shi,Ming-Fei Li,Ling-An Wu
Main category: cs.CV
TL;DR: 提出基于Kubelka-Munk理论的三重物理约束(TPCs)理论,构建TPCNet网络,在特征空间建立光照、反射和检测之间的约束关系,显著提升低光图像增强性能。
- Motivation: 现有基于Retinex理论的深度学习方法将反射物体视为理想朗伯体,忽略了镜面反射,且在图像空间构建物理约束,限制了模型的泛化能力。
- Method: 基于Kubelka-Munk理论,保留镜面反射系数,在成像过程中重新构建物理约束,建立光照、反射和检测之间的三重物理约束(TPCs)理论,并在模型特征空间构建这些约束,形成TPCNet网络。
- Result: 在10个数据集上的综合定量和定性基准及消融实验表明,这些约束有效提升了性能指标和视觉质量,且不引入新参数,TPCNet优于其他最先进方法。
- Conclusion: 提出的TPCs理论和TPCNet网络通过更精确的物理建模和特征空间约束,显著改善了低光图像增强效果,为相关任务提供了新的理论框架和实用方法。
[23] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
Jing Hao,Yuci Liang,Lizhuo Lin,Yuxuan Fan,Wenkai Zhou,Kaixin Guo,Zanting Ye,Yanpeng Sun,Xinyu Zhang,Yanqi Yang,Qiankun Li,Hao Tang,James Kit-Hon Tsoi,Linlin Shen,Kuo Feng Hung
Main category: cs.CV
TL;DR: OralGPT-Omni是首个面向牙科的多模态大语言模型,通过TRACE-CoT数据集和四阶段训练范式,在牙科影像分析中显著优于GPT-5等通用模型。
- Motivation: 尽管多模态大语言模型在医学领域展现出巨大潜力,但牙科领域仍缺乏专门研究,主要受限于领域数据不足、专家标注稀缺、模态建模不充分以及可靠性挑战等问题。
- Method: 1. 构建TRACE-CoT数据集,模拟牙科放射科医生的临床推理过程;2. 提出四阶段训练范式;3. 开发MMOral-Uni基准测试,包含2,809个开放性问题,涵盖5种模态和5种任务。
- Result: OralGPT-Omni在MMOral-Uni基准测试中获得51.84分,在MMOral-OPG基准测试中获得45.31分,显著超越GPT-5等通用模型。
- Conclusion: OralGPT-Omni是首个专门针对牙科的多模态大语言模型,通过临床推理监督和系统训练,显著提升了牙科影像分析的准确性和可靠性,推动了智能牙科的发展。
[24] DNA: Dual-branch Network with Adaptation for Open-Set Online Handwriting Generation
Tsai-Ling Huang,Nhat-Tuong Do-Tran,Ngoc-Hoang-Lam Le,Hong-Han Shuai,Ching-Chun Huang
Main category: cs.CV
TL;DR: 提出DNA方法解决在线手写生成中未见字符生成问题,通过双分支网络分别处理风格和内容,实现未见字符的生成
- Motivation: 现有在线手写生成方法难以生成未见字符,特别是在字形语言如中文中,限制了实际应用
- Method: 提出双分支自适应网络DNA,包含自适应风格分支学习笔画属性,自适应内容分支将字符内容分解为结构信息和纹理细节
- Result: 在未见字符生成设置下取得最先进性能,实验证明DNA模型适合未见OHG场景
- Conclusion: DNA方法能有效解决在线手写生成中未见字符生成问题,提升模型在真实场景中的适用性
[25] WorldWander: Bridging Egocentric and Exocentric Worlds in Video Generation
Quanjian Song,Yiren Song,Kelly Peng,Yuan Gao,Mike Zheng Shou
Main category: cs.CV
TL;DR: WorldWander是一个基于上下文学习的视频生成框架,专门用于第一人称(自我中心)和第三人称(外部中心)视角之间的视频翻译,通过创新的视角对齐和位置编码技术实现跨视角同步。
- Motivation: 虽然视频扩散模型在真实性和可控性方面取得了显著进展,但在不同视角(如第一人称和第三人称)之间实现无缝视频翻译仍然研究不足。这种视角转换对于电影制作、具身AI和世界模型至关重要。
- Method: 基于先进的视频扩散变换器,WorldWander集成了:(1) 上下文视角对齐,用于有效建模跨视角同步;(2) 协作位置编码。此外还构建了EgoExo-8K数据集,包含合成和真实场景中的同步第一人称-第三人称三元组。
- Result: 实验表明,WorldWander在视角同步、角色一致性和泛化能力方面表现优异,为第一人称-第三人称视频翻译设立了新的基准。
- Conclusion: WorldWander成功解决了第一人称和第三人称视角之间的视频翻译问题,通过创新的框架和数据集为这一重要但研究不足的领域提供了有效的解决方案。
[26] MRI-Based Brain Age Estimation with Supervised Contrastive Learning of Continuous Representation
Simon Joseph Clément Crête,Marta Kersten-Oertel,Yiming Xiao
Main category: cs.CV
TL;DR: 该研究首次将Rank-N-Contrast对比学习损失应用于T1w结构MRI的脑龄估计,结合Grad-RAM可视化解释,在有限数据下显著优于传统深度回归方法,并探索了脑龄差作为神经退行性疾病生物标志物的潜力。
- Motivation: 现有基于深度学习的脑龄估计方法往往未能捕捉神经形态变化的连续性,可能导致次优的特征表示和结果。神经退行性疾病会加速脑老化,测量这一现象可作为临床应用的潜在生物标志物。
- Method: 首次将监督对比学习与Rank-N-Contrast损失结合,基于T1w结构MRI估计脑龄,并利用Grad-RAM对回归结果进行可视化解释。
- Result: 在有限训练样本下,该方法达到MAE 4.27年和R² 0.93,显著优于相同ResNet骨干的传统深度回归,与使用更大训练数据的最先进方法相当或更好。Grad-RAM显示RNC损失能捕捉更细微的年龄相关特征。
- Conclusion: 该方法在脑龄估计上表现优异,脑龄差与阿尔茨海默病和帕金森病的严重程度相关,展示了其作为神经退行性疾病生物标志物的潜力。
[27] MoE3D: Mixture of Experts meets Multi-Modal 3D Understanding
Yu Li,Yuenan Hou,Yingmei Wei,Xinge Zhu,Yuexin Ma,Wenqi Shao,Yanming Guo
Main category: cs.CV
TL;DR: MoE3D:基于专家混合的多模态3D理解框架,通过专家网络处理不同模态信息,结合信息聚合模块和渐进预训练策略,在多个3D任务上取得优异性能。
- Motivation: 传统多模态融合方法使用单一密集融合网络,难以处理模态间的显著异质性和复杂性,导致性能不佳。需要更有效的多模态学习框架。
- Method: 1. 集成专家混合机制,部署专门处理特定模态或跨模态交互的专家网络;2. 设计基于MoE的transformer以更好利用视觉特征中的互补信息;3. 提出信息聚合模块增强融合性能;4. 采用Top-1门控机制确保高效性;5. 提出渐进预训练策略利用语义和2D先验知识。
- Result: 在四个主流3D理解任务上取得竞争性性能,特别是在Multi3DRefer任务上超越最佳对比方法6.1 mIoU。
- Conclusion: MoE3D通过专家混合机制有效处理多模态异质性,结合渐进预训练策略,为多模态3D理解提供了高效且性能优异的解决方案。
[28] HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction
Chen Zhang,Yilu An,Ying Chen,Hao Li,Xitong Ling,Lihao Liu,Junjun He,Yuxiang Lin,Zihui Wang,Rongshan Yu
Main category: cs.CV
TL;DR: HyperST:一种在双曲空间中学习多级图像-基因表示的框架,用于从组织学图像预测空间转录组基因表达,通过层次化双曲对齐桥接模态鸿沟
- Motivation: 现有方法主要关注点级别的图像-基因匹配,未能充分利用ST数据的完整层次结构,特别是在基因表达侧。此外,存在固有的信息不对称性:基因表达谱包含更多分子细节,可能在组织学图像中缺乏明显的视觉对应物,需要复杂的表示学习方法来桥接这种模态鸿沟。
- Method: 1. 设计多级表示提取器,从每个模态中捕获点级别和生态位级别的表示;2. 引入层次化双曲对齐模块,在双曲空间中统一这些表示,执行空间对齐同时层次化地结构化图像和基因嵌入,丰富图像表示的分子语义。
- Result: 在来自不同组织的四个公共数据集上实现了最先进的性能,为更可扩展和准确的空间转录组学预测铺平了道路。
- Conclusion: HyperST通过在双曲空间中建模数据的固有层次结构,学习多级图像-基因表示,有效桥接了组织学图像与基因表达之间的模态鸿沟,显著提高了跨模态预测性能。
[29] PROMPTMINER: Black-Box Prompt Stealing against Text-to-Image Generative Models via Reinforcement Learning and Fuzz Optimization
Mingzhe Li,Renhao Zhang,Zhiyang Wen,Siqi Pan,Bruno Castro da Silva,Juan Zhai,Shiqing Ma
Main category: cs.CV
TL;DR: PROMPTMINER是一个黑盒提示窃取框架,通过强化学习和模糊搜索两阶段方法从生成图像中恢复原始文本提示,在多个数据集和扩散模型上表现优异。
- Motivation: 随着文本到图像生成模型的普及,精心设计的提示词成为有价值的数字资产,但面临安全性和知识产权风险。现有方法存在白盒访问、需要大规模标注数据或仅依赖字幕生成等限制,缺乏实用性和适应性。
- Method: PROMPTMINER采用两阶段黑盒框架:1)基于强化学习的优化阶段重建主要主题;2)模糊驱动搜索阶段恢复风格修饰符。该方法不需要梯度访问或大规模标注数据。
- Result: 在多个数据集和扩散模型上,PROMPTMINER达到CLIP相似度0.958和SBERT文本对齐度0.751,超越所有基线方法。对未知生成器的真实图像,CLIP相似度比最强基线高7.5%,在防御性扰动下仍保持强鲁棒性。
- Conclusion: PROMPTMINER提供了一个实用且强大的黑盒提示窃取框架,既能用于恶意攻击场景,也能支持数据归属、模型溯源和水印验证等有益应用,具有更好的泛化能力和鲁棒性。
[30] GoPrune: Accelerated Structured Pruning with -Norm Optimization
Li Xu,Xianchao Xiu
Main category: cs.CV
TL;DR: 提出GoPrune方法,使用ℓ_{2,p}范数进行结构化剪枝,通过PAM优化算法提高压缩效率,在CIFAR数据集上优于现有方法。
- Motivation: 卷积神经网络随着深度增加导致存储和计算成本急剧上升,阻碍在资源受限的边缘设备上部署。现有ℓ_p范数剪枝方法只考虑非结构化剪枝且计算效率低。
- Method: 提出GoPrune方法,使用ℓ_{2,p}范数进行稀疏网络学习,将p值扩展到[0,1)范围,并基于近端交替最小化(PAM)开发高效优化算法,子问题具有闭式解。
- Result: 在CIFAR数据集上使用ResNet和VGG模型进行实验,证明了该方法在网络剪枝方面的优越性能。
- Conclusion: GoPrune方法通过ℓ_{2,p}范数和PAM优化算法,实现了高效的结构化剪枝,为边缘设备部署提供了有效的网络压缩解决方案。
[31] Cue3D: Quantifying the Role of Image Cues in Single-Image 3D Generation
Xiang Li,Zirui Wang,Zixuan Huang,James M. Rehg
Main category: cs.CV
TL;DR: Cue3D是一个模型无关的框架,用于量化单图像3D生成中各个图像线索的影响,评估了七种最先进的方法,发现形状意义而非纹理决定泛化能力,几何线索特别是着色对3D生成至关重要。
- Motivation: 虽然深度生成模型在单图像3D生成方面取得了显著进展,但尚不清楚这些方法实际利用了哪些图像线索。人类和传统计算机视觉方法依赖多种单目线索(如着色、纹理、轮廓等)从单张图像推断3D结构,需要量化这些线索在现代3D生成模型中的作用。
- Method: Cue3D是一个全面的、模型无关的框架,通过系统性地扰动着色、纹理、轮廓、透视、边缘和局部连续性等线索,测量它们对3D输出质量的影响。该统一基准评估了七种最先进的方法,涵盖基于回归的、多视图和原生3D生成范式。
- Result: 分析表明:形状意义而非纹理决定泛化能力;几何线索特别是着色对3D生成至关重要;发现模型过度依赖提供的轮廓;不同模型家族对透视和局部连续性等线索表现出不同的敏感性。
- Conclusion: Cue3D通过剖析这些依赖关系,增进了我们对现代3D网络如何利用经典视觉线索的理解,并为开发更透明、鲁棒和可控的单图像3D生成模型提供了方向。
[32] GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models
Bin Wang,Ruotong Hu,Wenqian Wang,Wentong Li,Mingliang Gao,Runmin Cong,Wei Zhang
Main category: cs.CV
TL;DR: 提出一种用于视频任务的耦合提示学习框架,通过引入外部监督提示来缓解微调过程中的语义空间窄化问题,提升视觉语言模型在视频任务中的泛化能力。
- Motivation: 现有视觉和文本软提示调优方法在视频任务微调时会损害模型对未见类的泛化能力。现有方法通过正则化手工提示和软提示之间的差距来缓解遗忘效应,但这会削弱软提示的学习能力。
- Method: 提出插件式耦合提示学习框架:1) 文本提示中引入其他数据集的预训练提示作为硬提示标记,与软提示标记拼接并通过可学习映射层耦合;2) 引入精心设计的无关视频集和负提示作为通用属性锚点,保持预训练语义空间中属性的通用相关性。
- Result: 在视频任务实验中,该方法显著优于最先进的提示调优方法,在泛化基准测试中表现优异,特别是在基类到新类预测任务上。
- Conclusion: 通过竞争性提示方法和通用属性锚点的引入,有效缓解了微调过程中的语义空间窄化问题,保持了视觉语言模型在视频任务中的泛化能力。
[33] Autonomous labeling of surgical resection margins using a foundation model
Xilin Yang,Musa Aydin,Yuhong Lu,Sahan Yoruc Selcuk,Bijie Bai,Yijie Zhang,Andrew Birkeland,Katjana Ehrlich,Julien Bec,Laura Marcu,Nir Pillar,Aydogan Ozcan
Main category: cs.CV
TL;DR: 提出虚拟墨水网络(VIN),利用深度学习自动定位组织切片中的手术切缘,减少对物理墨水的依赖并标准化切缘评估流程。
- Motivation: 当前病理标本评估中,物理墨水标记切缘存在应用不一致的问题,且电灼伪影会掩盖真实切缘,需要更标准化、可靠的切缘定位方法。
- Method: 使用冻结的基础模型作为特征提取器,结合紧凑的两层多层感知器进行补丁级分类,识别电灼相关组织形态特征,在120张H&E染色切片数据集上训练。
- Result: 在20张未见过的切片盲测中,VIN生成连贯的切缘覆盖层,与专家标注定性一致,区域级准确率约73.3%,错误主要局限于不影响整体切缘图连续性的有限区域。
- Conclusion: VIN能够捕捉电灼相关组织形态学特征,提供可重复、无墨水的切缘描绘,适合整合到常规数字病理工作流程中,用于下游切缘距离测量。
[34] DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
Zhen Fang,Zhuoyang Liu,Jiaming Liu,Hao Chen,Yu Zeng,Shiting Huang,Zehui Chen,Lin Chen,Shanghang Zhang,Feng Zhao
Main category: cs.CV
TL;DR: DualVLA通过双重数据剪枝和双重教师自适应蒸馏策略,解决VLA模型在恢复推理能力时出现的动作退化问题,在保持推理能力的同时提升动作性能。
- Motivation: 当前构建通用VLA模型的策略是先训练专家模型学习操作技能,再结合多模态数据恢复推理能力,但这种方法会导致动作性能退化(动作退化现象)。
- Method: 1. 双重数据剪枝:去除冗余的具身推理数据,防止其对动作学习产生负面影响
- 双重教师自适应蒸馏:为不同数据域分配不同的监督信号,在保持推理能力的同时增强动作生成
- 提出VLA Score评估框架:将VLA能力解耦为推理、意图、动作和对齐四个维度进行细粒度评估
- Result: DualVLA在SimplerEnv中达到61.0%的平均成功率,在八个竞争性多模态基准测试中平均得分65.4,在精确动作执行和多模态理解之间实现了更好的平衡。
- Conclusion: DualVLA通过精心设计的后训练策略有效解决了VLA模型的动作退化问题,在保持推理能力的同时显著提升了动作性能,为通用VLA模型的开发提供了有效解决方案。
[35] EASL: Multi-Emotion Guided Semantic Disentanglement for Expressive Sign Language Generation
Yanchao Zhao,Jihao Zhu,Yu Liu,Weizhuo Chen,Yuling Yang,Kun Peng
Main category: cs.CV
TL;DR: EASL是一个情感感知的手语生成框架,通过情感-语义解耦和多情感引导,在保持语义准确性的同时增强手语视频的情感表达和自然度。
- Motivation: 现有基于大语言模型的手语生成方法过于关注语义准确性,忽视了情感表达,导致生成的手语视频缺乏自然性和表现力,无法满足聋人社区对情感交流的需求。
- Method: 提出EASL多情感引导生成架构,包含情感-语义解耦模块和渐进式训练,分别提取语义和情感特征。在姿态解码阶段,情感表示引导语义交互,生成带有7类情感置信度得分的手语姿态,实现情感表达识别。
- Result: EASL在姿态准确性上优于所有基线方法,通过整合多情感信息有效适应扩散模型,生成富有表现力的手语视频。
- Conclusion: EASL成功解决了现有手语生成方法缺乏情感表达的问题,通过情感-语义解耦和多情感引导机制,实现了既语义准确又富有情感表现力的手语视频生成。
[36] SemOD: Semantic Enabled Object Detection Network under Various Weather Conditions
Aiyinsi Zuo,Zhaoliang Zheng
Main category: cs.CV
TL;DR: 本文提出了一种基于语义的物体检测网络,用于处理自动驾驶中各种天气条件下的感知问题,通过语义信息增强图像修复和物体检测性能。
- Motivation: 现有自动驾驶感知模型主要基于晴朗天气数据训练,针对特定天气挑战的模型无法适应多种天气变化,且过于关注天气去除特性而非整体感知性能。
- Method: 提出语义增强网络架构,包含预处理单元(PPU)和检测单元(DTU)。PPU使用U形网络结合语义信息修复退化图像,DTU将语义信息集成到改进的YOLO网络中进行物体检测。
- Result: 在不同天气基准数据集上,相比现有方法mAP提升了1.47%到8.80%,证明了语义信息在图像增强和物体检测中的有效性。
- Conclusion: 语义信息能够帮助模型生成合理的缺失区域内容、理解物体边界、保持视觉一致性和真实感,为改善物体检测性能提供了全面方法。
[37] Stacked Ensemble of Fine-Tuned CNNs for Knee Osteoarthritis Severity Grading
Adarsh Gupta,Japleen Kaur,Tanvi Doshi,Teena Sharma,Nishchal K. Verma,Shantaram Vasikarla
Main category: cs.CV
TL;DR: 提出一个基于堆叠集成CNN的模型,用于膝关节骨关节炎的检测和KL分级,相比现有方法有更高准确率。
- Motivation: 膝关节骨关节炎(KOA)的传统诊断依赖X光片和KL分级系统,需要专家经验且耗时,存在主观判断误差,需要自动化准确诊断方法。
- Method: 开发堆叠集成模型,使用MobileNetV2、YOLOv8、DenseNet201作为基础学习器,CatBoost作为元学习器,进行二分类(检测KOA)和多分类(KL分级)任务。
- Result: 模型在多分类任务中达到73%的平衡测试准确率,在二分类任务中达到87.5%的准确率,优于现有文献中的方法。
- Conclusion: 提出的堆叠集成模型能有效自动化KOA诊断和分级,减少主观误差,为临床提供可靠辅助工具。
[38] RemedyGS: Defend 3D Gaussian Splatting against Computation Cost Attacks
Yanping Li,Zhening Liu,Zijian Li,Zehong Lin,Jun Zhang
Main category: cs.CV
TL;DR: RemedyGS:首个针对3D高斯泼溅计算成本攻击的黑盒防御框架,包含检测器和净化器,通过对抗训练增强防御效果
- Motivation: 3D高斯泼溅(3DGS)作为主流3D重建技术,面临计算成本攻击威胁,可能导致恶意资源占用甚至拒绝服务,阻碍3DGS的可靠部署
- Method: 提出RemedyGS防御框架,包含两个关键组件:1)检测器识别受攻击的输入图像(含毒化纹理);2)净化器从受攻击图像恢复良性图像。通过对抗训练强制恢复图像与原始自然图像分布对齐
- Result: 实验表明该框架能有效防御3DGS系统中的白盒、黑盒和自适应攻击,在安全性和实用性方面达到最先进性能
- Conclusion: RemedyGS是首个针对3DGS计算成本攻击的有效全面黑盒防御框架,能保护3DGS重建系统和服务免受攻击威胁
[39] IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer
Bo Chen,Tao Liu,Qi Chen,Xie Chen,Zilong Zheng
Main category: cs.CV
TL;DR: IMTalker:通过隐式运动转移实现高效高保真的说话人脸生成,用跨注意力机制替代传统光流扭曲,在统一潜在空间中建模运动差异和身份对齐
- Motivation: 现有说话人脸生成方法依赖显式光流和局部扭曲,无法建模复杂全局运动,导致身份漂移问题。需要一种能处理全局运动并保持身份一致性的新方法。
- Method: 1. 用跨注意力机制替代传统流基扭曲,在统一潜在空间中隐式建模运动差异和身份对齐;2. 引入身份自适应模块,将运动潜在向量投影到个性化空间,确保运动与身份解耦;3. 轻量级流匹配运动生成器从音频、姿态和注视线索生成生动可控的隐式运动向量。
- Result: 在运动准确性、身份保持和音频-嘴唇同步方面超越先前方法,达到最先进质量,在RTX 4090 GPU上实现视频驱动40 FPS和音频驱动42 FPS的高效运行。
- Conclusion: IMTalker通过隐式运动转移框架解决了说话人脸生成中的全局运动建模和身份保持问题,实现了高效高保真的生成效果,为相关应用和未来研究提供了有力工具。
[40] Real-Time Long Horizon Air Quality Forecasting via Group-Relative Policy Optimization
Inha Kang,Eunki Kim,Wonjeong Ryu,Jaeyo Shin,Seungjun Yu,Yoon-Hee Kang,Seongeun Jeong,Eunhye Kim,Soontae Kim,Hyunjung Shim
Main category: cs.CV
TL;DR: 该论文提出了针对东亚复杂地形下PM浓度长期预测的改进方法,通过构建高分辨率数据集和引入基于操作成本的强化学习优化,显著降低了误报率。
- Motivation: 东亚地区复杂地形和强大气动力学使得PM浓度长期预测困难,现有基础模型缺乏区域特异性且依赖非实时数据,无法满足公共卫生预警系统的实际需求。同时,传统点对点预测目标无法反映操作成本的不对称性(误报损害公众信任,漏报危害人群健康)。
- Method: 1) 构建并发布了东亚地区的实时观测和高分辨率CMAQ-OBS数据集;2) 提出了Group-Relative Policy Optimization (GRPO)方法,结合类别特定奖励和课程学习机制,使预测与操作优先级对齐。
- Result: 新数据集将区域误差降低了59.5%,实现了48-120小时实时预测。GRPO框架相比SFT基线将误报率降低了47.3%,同时保持了有竞争力的F1分数,显著提升了长期预测的可靠性。
- Conclusion: 该研究通过结合高质量区域数据集和考虑操作成本的强化学习优化,为东亚复杂地形下的PM浓度长期预测提供了实用解决方案,能够更好地支持公共卫生决策和预警系统。
[41] Partially Shared Concept Bottleneck Models
Delong Zhao,Qiang Huang,Di Yan,Yiqun Sun,Jun Yu
Main category: cs.CV
TL;DR: PS-CBM通过多模态概念生成器、部分共享概念策略和概念效率准确率指标,解决了概念瓶颈模型中视觉基础差、概念冗余和缺乏平衡指标的问题,在11个数据集上显著提升了准确率和概念效率。
- Motivation: 现有基于LLM/VLM的自动概念生成方法存在三个核心问题:视觉基础差(概念与图像特征关联弱)、概念冗余(生成过多相似概念)、缺乏平衡预测准确率和概念紧凑性的原则性指标。
- Method: 提出PS-CBM框架,包含三个核心组件:1)多模态概念生成器,结合LLM语义和基于示例的视觉线索;2)部分共享概念策略,基于激活模式合并概念以平衡特异性和紧凑性;3)概念效率准确率(CEA)指标,联合评估预测准确率和概念紧凑性。
- Result: 在11个多样化数据集上的实验表明,PS-CBM持续优于最先进的CBM方法,分类准确率提升1.0%-7.4%,CEA提升2.0%-9.5%,同时所需概念数量显著减少。
- Conclusion: PS-CBM通过解决现有CBM方法的三个关键限制,有效实现了高准确率和强可解释性的平衡,为构建既准确又紧凑的可解释AI模型提供了有效框架。
[42] BrepGPT: Autoregressive B-rep Generation with Voronoi Half-Patch
Pu Li,Wenhao Zhang,Weize Quan,Biao Zhang,Peter Wonka,Dong-Ming Yan
Main category: cs.CV
TL;DR: BrepGPT:一种基于Voronoi Half-Patch表示的单阶段自回归框架,用于直接生成B-rep CAD模型,避免了传统多阶段方法的误差累积问题。
- Motivation: 传统B-rep生成方法由于几何与拓扑元素的复杂耦合,需要依赖级联多阶段网络,导致误差累积和计算效率低下。需要一种更高效、统一的生成方法。
- Method: 提出Voronoi Half-Patch表示法,将B-rep分解为统一的局部单元;使用双VQ-VAE将顶点拓扑和VHP编码为基于顶点的token;采用仅解码器的Transformer进行自回归预测,最终解码为完整B-rep模型。
- Result: BrepGPT在无条件B-rep生成中达到最先进性能,同时在多种条件生成任务(类别标签、点云、文本描述、图像)以及B-rep自动补全和插值中表现出色。
- Conclusion: BrepGPT通过统一的VHP表示和单阶段自回归框架,成功解决了B-rep生成中的几何-拓扑耦合问题,为CAD模型生成提供了高效、通用的解决方案。
[43] Guiding the Inner Eye: A Framework for Hierarchical and Flexible Visual Grounded Reasoning
Zhaoyang Wei,Wenchao Ding,Yanchao Hao,Xi Chen
Main category: cs.CV
TL;DR: GRiP是一个两阶段训练框架,通过引导模型的感知焦点和逻辑路径,实现稳健的视觉基础推理,在多个挑战性基准测试中达到最先进性能。
- Motivation: 当前多模态AI在"图像思考"能力上面临困境:端到端强化学习不稳定,监督微调又过于僵化,导致模型要么难以学习,要么缺乏处理复杂真实场景所需的认知灵活性。
- Method: GRiP采用两阶段训练框架:1)认知增强的强化学习阶段,包含两个关键创新:显著性加权IoU奖励(激励模型优先定位关键对象而非干扰物)和多启发式奖励(鼓励多样但逻辑有效的推理路径);2)基于Qwen2.5-VL-7B模型初始化。
- Result: 在多个挑战性基准测试中取得显著性能提升,在TreeBench和V* Bench上达到开源模型中的最先进结果,证明了其在复杂视觉推理中的有效性。
- Conclusion: 超越简单奖励机制,通过认知启发的信号引导模型"看什么"和"如何思考",对于解锁下一代多模态智能至关重要。
[44] Enhanced Graph Convolutional Network with Chebyshev Spectral Graph and Graph Attention for Autism Spectrum Disorder Classification
Adnan Ferdous Ashrafi,Hasanul Kabir
Main category: cs.CV
TL;DR: 该论文提出了一种结合Chebyshev谱图卷积和图注意力网络的GCN模型,利用多模态神经影像和表型数据提高自闭症谱系障碍的分类准确率。
- Motivation: 自闭症谱系障碍(ASD)是一种复杂的神经发育障碍,症状表现和神经基础存在差异,使得早期客观诊断非常困难。需要开发更准确的多模态分类方法。
- Method: 使用图卷积网络(GCN)模型,结合Chebyshev谱图卷积和图注意力网络(GAT),处理多模态神经影像(rs-fMRI、sMRI)和表型数据。采用基于站点相似性的图结构编码生成群体图,使用多分支架构分别处理各模态后通过拼接融合。
- Result: 在ABIDE I数据集(870名患者)上,模型在测试集上达到74.82%的准确率和0.82的AUC,优于传统GCN、自编码器深度神经网络和多模态CNN等基线方法。
- Conclusion: 提出的多模态GCN模型能够有效整合神经影像和表型数据,显著提高ASD分类性能,为自闭症的客观诊断提供了有前景的计算方法。
[45] MTR-VP: Towards End-to-End Trajectory Planning through Context-Driven Image Encoding and Multiple Trajectory Prediction
Maitrayee Keskar,Mohan Trivedi,Ross Greer
Main category: cs.CV
TL;DR: 提出MTR-VP方法,用视觉特征替代地图特征进行轨迹规划,但发现Transformer结合视觉和运动特征效果不佳,而多轨迹预测能提升规划性能
- Motivation: 自动驾驶轨迹规划需要结合视觉场景理解和运动预测,传统方法依赖地图特征,本文探索用学习到的视觉表征替代地图特征
- Method: MTR-VP方法:使用ViT编码器处理原始图像和过去运动状态,生成与MTR编码器类似的上下文嵌入;用交叉注意力替代可学习意图查询,结合驾驶场景和车辆状态信息
- Result: 在Waymo数据集上评估发现:Transformer结合视觉和运动特征效果不佳(即使使用CLIP和DINOv2增强);但预测多轨迹分布而非单轨迹能提升规划性能
- Conclusion: 视觉特征替代地图特征在轨迹规划中具有潜力,但需要更好的多模态融合方法;多轨迹预测是提升规划性能的关键因素
[46] Shoe Style-Invariant and Ground-Aware Learning for Dense Foot Contact Estimation
Daniel Sungho Jung,Kyoung Mu Lee
Main category: cs.CV
TL;DR: 提出FECO框架,通过对抗训练实现鞋款不变性和地面感知学习,从单张RGB图像估计密集足部接触
- Motivation: 足部接触对理解人类运动和物理交互至关重要,但现有方法通常使用零速度约束近似接触,只关注关节级接触,无法捕捉足部与世界之间的详细交互。从单张RGB图像预测密集足部接触仍未被充分探索,面临鞋款外观多样性和地面外观单调两大挑战。
- Method: 提出FECO框架,包含鞋款风格对抗训练和地面特征提取器。对抗训练强制模型学习鞋款不变特征,地面特征提取器基于空间上下文捕捉地面属性,实现地面感知学习。
- Result: 提出的方法实现了鲁棒的足部接触估计,不受鞋款外观影响,并能有效利用地面信息。
- Conclusion: FECO框架通过鞋款不变性和地面感知学习解决了密集足部接触估计的挑战,为准确建模足部与世界交互提供了有效方法。
[47] HybridWorldSim: A Scalable and Controllable High-fidelity Simulator for Autonomous Driving
Qiang Li,Yingwenqi Jiang,Tuoxi Li,Duyu Chen,Xiang Feng,Yucheng Ao,Shangyue Liu,Xingchen Yu,Youcheng Cai,Yumeng Liu,Yuexin Ma,Xin Hu,Li Liu,Yu Zhang,Linkun Xu,Bingtao Gao,Xueyuan Wang,Shuchang Zhou,Xianming Liu,Ligang Liu
Main category: cs.CV
TL;DR: HybridWorldSim:结合多轨迹神经重建与生成建模的混合仿真框架,用于自动驾驶的高保真场景生成
- Motivation: 现有自动驾驶仿真方法在大视角变化下难以支持新视角合成,且几何一致性不足,需要更真实可控的仿真方案
- Method: 混合仿真框架:静态背景使用多轨迹神经重建,动态智能体使用生成建模,统一设计确保视觉和空间一致性
- Result: 超越现有SOTA方法,发布多轨迹数据集MIRROR,提供实用可扩展的高保真仿真解决方案
- Conclusion: HybridWorldSim解决了自动驾驶仿真的关键限制,为端到端自动驾驶研发提供了有价值的资源和工具
[48] ARPGNet: Appearance- and Relation-aware Parallel Graph Attention Fusion Network for Facial Expression Recognition
Yan Li,Yong Zhao,Xiaohan Xia,Dongmei Jiang
Main category: cs.CV
TL;DR: ARPGNet通过并行图注意力融合网络,结合面部外观和区域关系信息,提升表情识别的时空表示能力。
- Motivation: 现有面部表情识别方法主要依赖预训练CNN学习外观表示,忽略了面部区域之间的关系信息,限制了识别性能。
- Method: 提出ARPGNet:构建面部区域关系图,使用图注意力机制建模区域关系;将关系表示序列与CNN外观表示序列输入并行图注意力融合模块,实现相互增强和时空动态探索。
- Result: 在三个面部表情识别数据集上的实验表明,ARPGNet优于或与最先进方法相当。
- Conclusion: 同时建模面部外观和区域关系信息,并通过并行融合机制增强时空表示,能有效提升面部表情识别性能。
[49] Controllable 3D Object Generation with Single Image Prompt
Jaeseok Lee,Jaekoo Lee
Main category: cs.CV
TL;DR: 提出两种无需文本反转的3D对象生成方法:使用现成图像适配器增强控制能力,以及深度条件预热策略提升3D一致性。
- Motivation: 现有3D对象生成方法主要依赖文本反转技术,但这种方法需要额外训练时间且缺乏控制能力。为了解决这些问题,作者提出了更高效的替代方案。
- Method: 1) 使用现成的图像适配器,无需文本反转即可生成3D对象,并能更好地控制深度、姿态和文本等条件;2) 提出深度条件预热策略以增强3D一致性。
- Result: 实验结果显示,该方法在定性和定量评估中与基于文本反转的方法性能相当,同时提高了3D一致性。用户研究也证实了该方法在匹配输入图像和保持3D一致性方面的优势。
- Conclusion: 提出的方法有效解决了文本反转技术的局限性,提供了更高效、可控的3D对象生成方案,在保持生成质量的同时显著提升了3D一致性。
[50] 3D-Consistent Multi-View Editing by Diffusion Guidance
Josef Bengtson,David Nilsson,Dong In Lee,Fredrik Kahl
Main category: cs.CV
TL;DR: 提出无需训练的多视角一致性扩散框架,用于3D表示(如NeRF、高斯泼溅)的文本图像编辑,通过一致性损失确保不同视角编辑的几何和光度一致性。
- Motivation: 现有基于扩散模型的文本图像编辑方法在多视角编辑中存在几何和光度不一致问题,特别是在3D表示(如NeRF、高斯泼溅)编辑时尤为突出,需要解决多视角一致性问题。
- Method: 提出无需训练的扩散框架,核心假设是未编辑图像中的对应点在编辑后应经历相似变换。引入一致性损失引导扩散采样实现一致编辑,支持密集和稀疏多视角编辑设置,可与多种图像编辑方法结合。
- Result: 实验表明该方法显著提升了3D一致性,优于现有多视角编辑方法,并能实现高质量的高斯泼溅编辑,具有锐利细节和与用户文本提示的强保真度。
- Conclusion: 该训练免费的多视角一致性扩散框架有效解决了3D表示编辑中的一致性问题,支持灵活的多视角编辑设置,为高质量3D内容编辑提供了实用解决方案。
[51] From Compound Figures to Composite Understanding: Developing a Multi-Modal LLM from Biomedical Literature with Medical Multiple-Image Benchmarking and Validation
Zhen Chen,Yihang Fu,Gabriel Madera,Mauro Giuffre,Serina Applebaum,Hyunjae Kim,Hua Xu,Qingyu Chen
Main category: cs.CV
TL;DR: 提出M3LLM医疗多图像多模态大语言模型,利用生物医学文献中的复合图像解决医疗MLLMs缺乏多图像理解能力的问题,显著优于现有模型。
- Motivation: 现有医疗MLLMs大多局限于单图像理解,无法满足临床实践中需要综合分析多模态或多时间点图像的需求,且缺乏大规模高质量标注数据。
- Method: 利用许可许可的生物医学文献复合图像作为数据源,设计五阶段上下文感知指令生成范式,采用分治策略将多图像分析分解为可管理子任务,构建M3LLM模型。
- Result: M3LLM在构建的PMC-MI-Bench基准上显著优于通用和专业医疗MLLMs,在MIMIC数据集上表现出良好的纵向胸部X光分析泛化能力。
- Conclusion: 建立了可扩展高效的医疗MLLMs开发范式,能够进行复合推理,弥合生物医学文献与实际临床应用之间的差距。
[52] IE-SRGS: An Internal-External Knowledge Fusion Framework for High-Fidelity 3D Gaussian Splatting Super-Resolution
Xiang Feng,Tieshi Zhong,Shuo Chang,Weiliu Wang,Chengkai Wang,Yifei Chen,Yuhe Wang,Zhenzhong Kuang,Xuefei Yin,Yanming Zhu
Main category: cs.CV
TL;DR: 提出IE-SRGS方法,通过结合外部2D超分辨率先验和内部3DGS特征,解决低分辨率输入重建高分辨率3D高斯泼溅模型的挑战
- Motivation: 现有方法依赖预训练2D超分辨率模型增强纹理,但存在3D高斯歧义问题,包括跨视角不一致性和2DSR模型的领域差距
- Method: 使用2DSR和深度估计模型生成高分辨率图像和深度图作为外部知识,采用多尺度3DGS模型生成跨视角一致、领域自适应的对应物作为内部知识,引入掩码引导融合策略整合两者
- Result: 在合成和真实世界基准测试中,IE-SRGS在定量准确性和视觉保真度方面均优于最先进方法
- Conclusion: IE-SRGS通过协同利用外部2DSR先验和内部3DGS特征的互补优势,有效指导3D高斯优化实现高保真重建
[53] Bridging 3D Deep Learning and Curation for Analysis and High-Quality Segmentation in Practice
Simon Püttmann,Jonathan Jair Sànchez Contreras,Lennart Kowitz,Peter Lampen,Saumya Gupta,Davide Panzeri,Nina Hagemann,Qiaojie Xiong,Dirk M. Hermann,Cao Chen,Jianxu Chen
Main category: cs.CV
TL;DR: VessQC是一个开源工具,通过不确定性引导的交互式校正,提高3D显微镜图像分割的准确性,将错误检测召回率从67%提升到94%
- Motivation: 当前3D显微镜图像分割即使是先进的基础模型也容易出错,需要人工校正来准备高质量训练数据或修复错误,但传统人工校正效率低下
- Method: 开发VessQC工具,集成不确定性地图,引导用户关注最可能包含生物学意义错误的区域,实现不确定性引导的3D分割校正
- Result: 初步用户研究表明,不确定性引导校正将错误检测召回率从67%显著提高到94.0%(p=0.007),且总校正时间没有显著增加
- Conclusion: VessQC实现了高效的人机交互体积分割精炼,填补了不确定性估计与实际人机交互之间的关键空白,软件已在GitHub开源
[54] Creating Blank Canvas Against AI-enabled Image Forgery
Qi Song,Ziyuan Luo,Renjie Wan
Main category: cs.CV
TL;DR: 提出一种基于SAM的篡改检测新方法,通过对抗扰动使SAM"看不见"图像内容,从而在图像被篡改时能识别伪造区域
- Motivation: AIGC图像编辑技术简化了逼真图像修改,带来了严重的图像伪造风险,需要有效的篡改检测方法
- Method: 将图像转化为神经模型视角的空白画布,通过对抗扰动使SAM"看不见"图像内容,采用频率感知优化策略增强欺骗效果
- Result: 大量实验结果表明该方法在篡改定位方面具有有效性
- Conclusion: 提出了一种创新的基于SAM的篡改检测方法,通过使模型"失明"来识别图像伪造区域
[55] TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning
Qingtao Yu,Changlin Song,Minghao Sun,Zhengyang Yu,Vinay Kumar Verma,Soumya Roy,Sumit Negi,Hongdong Li,Dylan Campbell
Main category: cs.CV
TL;DR: TTSnap提出了一种噪声感知剪枝的测试时缩放框架,通过自蒸馏训练噪声感知奖励模型,在部分去噪阶段就能剪枝低质量候选,显著提高了搜索效率。
- Motivation: 现有测试时缩放方法需要完全去噪每个噪声种子才能计算奖励,计算成本高昂,限制了在固定预算下可探索的样本数量。
- Method: 1) 通过自蒸馏训练噪声感知奖励模型,使中间估计的奖励与最终干净图像的奖励对齐;2) 采用课程训练策略,逐步从干净图像域转移到噪声图像域;3) 引入奖励对齐和计算预算利用率的新度量。
- Result: 相比现有方法性能提升超过16%,实现了更高效有效的测试时缩放,与训练后技术和局部测试时优化结合时能获得正交增益。
- Conclusion: TTSnap通过噪声感知剪枝显著提高了测试时缩放的效率,允许在相同计算预算下探索更多样化的噪声种子,从而获得更好的生成结果。
[56] Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models
Seoyun Yang,Gihoon Kim,Taesup Kim
Main category: cs.CV
TL;DR: 该论文提出了一种通过语义锚定实现文本到图像扩散模型个性化适配的新方法,解决了从少量参考图像学习新概念时保持预训练语义先验的平衡问题。
- Motivation: 当前文本到图像扩散模型在个性化方面存在挑战:从少量参考图像学习新视觉概念时,要么过度拟合参考图像而失去预训练语义先验,要么过于强调先验保持而无法学习新的个性化属性。需要找到平衡点。
- Method: 提出语义锚定方法,将个性化重新定义为通过语义锚定引导的罕见概念学习过程。该方法通过将新概念锚定在其对应分布中来指导模型适配,以稳定可控的方式扩展预训练分布,同时保持语义结构。
- Result: 与基线方法相比,该方法实现了稳定的适配,并在主题保真度和文本图像对齐方面都取得了一致的改进。广泛的实验和消融研究证明了所提锚定策略的鲁棒性和有效性。
- Conclusion: 语义锚定方法能够有效解决文本到图像扩散模型个性化中的平衡问题,通过引导新概念学习实现稳定适配,在保持预训练语义先验的同时成功学习个性化属性。
[57] Toward Diffusible High-Dimensional Latent Spaces: A Frequency Perspective
Bolin Lai,Xudong Wang,Saketh Rambhatla,James M. Rehg,Zsolt Kira,Rohit Girdhar,Ishan Misra
Main category: cs.CV
TL;DR: FreqWarm是一种频率预热课程方法,通过增加扩散训练早期对高频潜在信号的暴露,解决高维潜在空间中重建与生成的权衡问题,无需修改或重新训练自编码器。
- Motivation: 潜在扩散已成为视觉生成的默认范式,但观察到随着潜在维度增加,重建与生成之间存在持续权衡:更高容量的自编码器提高重建保真度,但生成质量最终下降。研究发现编码器在表示高频内容方面不足,导致扩散模型训练中高频频带暴露不足和欠拟合。
- Method: 提出FreqWarm(频率预热课程),这是一种即插即用的方法,在扩散或流匹配训练早期阶段增加对高频潜在信号的暴露,而不修改或重新训练自编码器。通过对RGB和潜在域进行受控扰动分析编码器/解码器行为。
- Result: FreqWarm在多个高维自编码器上一致提高生成质量:在Wan2.2-VAE上gFID降低14.11,在LTX-VAE上降低6.13,在DC-AE-f32上降低4.42。该方法与架构无关,兼容多种骨干网络。
- Conclusion: 研究表明,显式管理频率暴露可以成功地将高维潜在空间转化为更易扩散的目标,FreqWarm为解决重建-生成权衡提供了一种有效且通用的解决方案。
[58] UMind-VL: A Generalist Ultrasound Vision-Language Model for Unified Grounded Perception and Comprehensive Interpretation
Dengbo Chen,Ziwei Zhao,Kexin Zhang,Shishuang Zhao,Junjie Hou,Yaqian Wang,Nianxi Liao,Anlan Sun,Fei Gao,Jia Ding,Yuhang Liu,Dong Wang
Main category: cs.CV
TL;DR: UMind-VL是一个统一的超声医学基础模型,通过动态卷积掩码解码器将像素级结构理解与临床推理相结合,在分割、检测、测量和诊断任务上表现优异。
- Motivation: 当前医学基础模型在超声领域缺乏能够同时处理低层次超声感知(如分割、定位)和高层次超声综合解释(如诊断、推理)的全面解决方案。
- Method: 1. 构建UMind-DS大规模多模态数据集(120万超声图像-文本对,含像素级标注和临床验证推理);2. 设计轻量级动态卷积掩码解码器,基于LLM输出生成动态核来生成掩码;3. 使用任务特定令牌统一分割、检测、几何测量和诊断任务。
- Result: UMind-VL显著优于现有通用多模态模型,在分割、检测、关键点定位和诊断推理基准测试中达到或超过最先进的专用模型性能,同时保持强大的泛化能力。
- Conclusion: UMind-VL成功统一了超声领域的像素级结构理解和复杂临床推理,为超声医学提供了一个全面的基础模型解决方案。
[59] Can Protective Watermarking Safeguard the Copyright of 3D Gaussian Splatting?
Wenkai Huang,Yijia Guo,Gaolei Li,Lei Ma,Hang Zhang,Liwen Hu,Jiazheng Wang,Jianhua Li,Tiejun Huang
Main category: cs.CV
TL;DR: 提出首个针对3D高斯泼溅水印的净化框架GSPure,能有效移除水印同时保持场景完整性
- Motivation: 现有3D高斯泼溅水印方案存在漏洞,传统2D图像水印移除方法无法有效应用于3DGS场景,需要专门的水印净化方案
- Method: 通过分析视图相关渲染贡献和利用几何精确特征聚类,GSPure能精确分离并有效移除与水印相关的高斯基元
- Result: GSPure将水印PSNR降低达16.34dB,同时原始场景保真度损失小于1dB PSNR,在效果和泛化性上均优于现有方法
- Conclusion: 首次系统探索3DGS水印框架的脆弱性,提出的GSPure框架为3D高斯泼溅水印保护提供了有效的净化解决方案
[60] DriveVGGT: Visual Geometry Transformer for Autonomous Driving
Xiaosong Jia,Yanhao Liu,Junqi You,Renqiu Xia,Yu Hong,Junchi Yan
Main category: cs.CV
TL;DR: DriveVGGT:针对自动驾驶数据设计的尺度感知4D重建框架,通过改进VGGT架构,利用自动驾驶特有的先验知识(相机重叠少、内外参已知、相对位置固定),在自动驾驶数据集上优于现有方法。
- Motivation: 直接将VGGT应用于自动驾驶系统效果不佳,因为自动驾驶任务具有独特的先验知识:相机视野重叠少、相机内外参数已知且固定、所有相机相对位置固定。需要专门设计框架来充分利用这些先验。
- Method: 提出DriveVGGT框架:1) 时序视频注意力模块独立处理多相机视频,利用单相机序列的时空连续性;2) 多相机一致性注意力模块使用归一化相对位姿嵌入进行窗口注意力,建立跨相机一致性关系;3) 扩展VGGT头部,增加绝对尺度头和自车姿态头。
- Result: 实验表明DriveVGGT在自动驾驶数据集上优于VGGT、StreamVGGT和fastVGGT,消融研究验证了所提设计的有效性。
- Conclusion: DriveVGGT成功将自动驾驶特有的先验知识整合到前馈重建框架中,实现了针对自动驾驶数据的尺度感知4D重建,为自动驾驶系统提供了更优的视觉几何理解能力。
[61] The Collapse of Patches
Wei Guo,Shunqi Mao,Zhuonan Liang,Heng Wang,Weidong Cai
Main category: cs.CV
TL;DR: 论文提出"patch collapse"概念,类比量子力学波函数坍缩,通过分析图像补丁间的依赖关系来优化视觉任务效率。
- Motivation: 观察到图像中某些补丁的实现会降低其他补丁的不确定性,类似量子力学中的波函数坍缩现象,作者希望利用这种补丁间的依赖关系来提升视觉任务的效率。
- Method: 学习一个自编码器来软选择补丁子集以重建每个目标补丁,通过PageRank分析补丁依赖关系,确定最优的补丁实现顺序。
- Result: 1) 通过遵循坍缩顺序重训练MAR模型提升了自回归图像生成性能;2) Vision Transformers仅需看到22%的高排名补丁就能达到高分类准确率。
- Conclusion: patch collapse为图像建模提供了新视角,能显著提升视觉任务效率,特别是在减少计算需求的同时保持性能。
[62] Match-and-Fuse: Consistent Generation from Unstructured Image Sets
Kate Feingold,Omri Kaduri,Tali Dekel
Main category: cs.CV
TL;DR: 提出Match-and-Fuse方法,一种零样本、无需训练的方法,用于生成具有一致性的非结构化图像集合,这些图像共享共同视觉元素但视角、拍摄时间和周围内容不同。
- Motivation: 现有方法主要处理单个图像或密集采样的视频,缺乏对非结构化图像集合(共享共同元素但视角、时间等不同的图像集)进行一致性生成的能力。需要一种能够保持跨图像一致性的集合到集合生成方法。
- Method: 将任务建模为图结构,每个节点对应一张图像,每条边触发图像对的联合生成。通过融合图像对之间的内部特征,利用密集输入对应关系指导,无需掩码或人工监督。利用文本到图像模型中出现的先验知识,鼓励多个视图在单一画布上生成一致内容。
- Result: Match-and-Fuse在一致性和视觉质量方面达到最先进水平,为从图像集合进行内容创作解锁了新能力。
- Conclusion: 该方法提供了一种有效的零样本、无需训练的方法,用于生成具有跨图像一致性的非结构化图像集合,在内容创作方面具有重要应用价值。
[63] Structure is Supervision: Multiview Masked Autoencoders for Radiology
Sonia Laguna,Andrea Agostini,Alain Ryser,Samuel Ruiperez-Campillo,Irene Cannistraci,Moritz Vandenhirtz,Stephan Mandt,Nicolas Deperrois,Farhad Nooralahzadeh,Michael Krauthammer,Thomas M. Sutter,Julia E. Vogt
Main category: cs.CV
TL;DR: MVMAE是一种利用放射学多视图结构的自监督学习框架,通过掩码图像重建和跨视图对齐学习视图不变和疾病相关表示,MVMAE-V2T版本加入放射报告文本监督增强语义基础,在疾病分类任务上优于监督学习和视觉语言基线。
- Motivation: 构建稳健的医学机器学习系统需要利用临床数据内在结构的预训练策略。放射学研究具有天然的多视图组织,这为学习视图不变和疾病相关表示提供了机会。
- Method: MVMAE结合掩码图像重建和跨视图对齐,将不同投影间的临床冗余转化为自监督信号。MVMAE-V2T进一步加入放射学报告作为基于文本的辅助学习信号,增强语义基础同时保持纯视觉推理能力。
- Result: 在MIMIC-CXR、CheXpert和PadChest三个大型公共数据集的下游疾病分类任务中,MVMAE始终优于监督学习和视觉语言基线。MVMAE-V2T在低标签情况下提供额外增益,特别是当结构化文本监督最有益时。
- Conclusion: 结构监督和文本监督是构建可扩展、临床基础的医学基础模型的互补路径,MVMAE框架证明了利用临床数据内在结构和文本信息的重要性。
[64] Small Object Detection for Birds with Swin Transformer
Da Huo,Marc A. Kastner,Tingwei Liu,Yasutomo Kawanishi,Takatsugu Hirayama,Takahiro Komamizu,Ichiro Ide
Main category: cs.CV
TL;DR: 提出基于Swin Transformer的颈部网络改进方法,专门用于检测稀疏小物体(鸟类),通过调整窗口大小提升小物体检测性能
- Motivation: 当前小物体检测方法主要针对密集场景(如人群中的行人),但对于稀疏的小物体(如鸟类),由于训练样本不足,难以学习有效特征。特别是鸟类检测面临尺寸小、稀疏、模糊、遮挡等挑战
- Method: 提出专门针对鸟类检测的改进方法:1)使用Swin Transformer作为颈部网络来上采样图像特征;2)采用分层设计学习更有效特征;3)调整Swin Transformer的窗口大小以适应小物体检测;4)基于CenterNet检测框架
- Result: 实验表明,基于Swin Transformer的颈部网络结合CenterNet能够取得良好性能,特别是较小的窗口尺寸(默认2)有利于提升小物体检测的mAP指标
- Conclusion: 通过调整Swin Transformer的窗口大小并设计专门的颈部网络,可以有效提升稀疏小物体(如鸟类)的检测性能,为特定类别小物体检测提供了有效解决方案
[65] Prompt-based Consistent Video Colorization
Silvia Dani,Tiberio Uricchio,Lorenzo Seidenari
Main category: cs.CV
TL;DR: 提出基于语言和分割语义引导的自动视频着色方法,使用语言条件扩散模型,通过光流实现时序稳定性,在标准基准测试中达到SOTA性能。
- Motivation: 现有视频着色方法存在时序闪烁问题或需要大量手动输入,需要自动化高质量的视频着色解决方案。
- Method: 使用语言条件扩散模型对灰度帧着色,通过自动生成的对象掩码和文本提示提供引导;主要自动方法使用通用提示;通过光流(RAFT)从先前帧扭曲颜色信息实现时序稳定性;包含检测和修复扭曲引入不一致性的校正步骤。
- Result: 在标准基准测试(DAVIS30, VIDEVO20)中达到SOTA性能,在着色准确性(PSNR)和视觉真实感(Colorfulness, CDC)方面表现优异。
- Conclusion: 证明了基于自动提示引导的方法能够实现一致的高质量视频着色,无需特定颜色输入即可达到SOTA结果。
[66] Unexplored flaws in multiple-choice VQA evaluations
Fabio Rosenthal,Sebastian Schmidt,Thorsten Graf,Thorsten Bagodonat,Stephan Günnemann,Leo Schwinn
Main category: cs.CV
TL;DR: 研究发现多模态大语言模型在多项选择视觉问答评估中对提示格式变化高度敏感,即使语义中性的微小格式变化也会显著影响模型表现,现有偏见缓解策略无法解决这些新发现的格式偏见。
- Motivation: 当前多模态大语言模型评估存在可靠性问题,虽然已有研究发现了答案顺序偏见,但本文旨在揭示提示格式中未被探索的其他偏见,这些偏见可能影响评估结果的准确性和可比性。
- Method: 通过大规模研究分析提示格式的三个关键变化因素,涉及7个MLLM模型和5个VQA数据集,测试了48种不同的提示格式变体,系统评估格式变化对模型表现的影响。
- Result: 研究发现多项选择VQA对微小的提示格式变化高度敏感,即使这些变化在语义上是中性的;这些偏见独立于已知的顺序偏见和模型对正确答案的置信度;现有偏见缓解策略无法解决这些新发现的格式偏见。
- Conclusion: 当前MLLM评估存在严重的提示格式偏见问题,需要开发新的评估方法和偏见缓解策略来提高评估的可靠性和鲁棒性,确保不同模型之间的公平比较。
[67] Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment
Yang Chen,Xiaowei Xu,Shuai Wang,Chenhui Zhu,Ruxue Wen,Xubin Li,Tiezheng Ge,Limin Wang
Main category: cs.CV
TL;DR: 提出一种新的归一化流对齐策略,通过将生成过程中的中间特征与视觉基础模型对齐,显著提升生成质量和分类精度,训练速度提升3.3倍以上,在ImageNet上达到SOTA。
- Motivation: 标准归一化流(NFs)的生成质量受限于基于对数似然优化的语义表示能力不足。虽然NFs具有数学可逆性,但其表示学习和数据生成之间的协同效应未能充分发挥。
- Method: 提出创新的对齐策略:利用NFs的可逆性,将生成(反向)过程中的中间特征与强大的视觉基础模型表示对齐,而非正则化前向过程。同时引入无需训练、基于测试时优化的分类算法来更本质地评估NFs的语义知识。
- Result: 方法使NFs训练速度提升3.3倍以上,同时在生成质量和分类精度上均有显著提升。在ImageNet 64×64和256×256上建立了新的SOTA结果。
- Conclusion: 通过创新的特征对齐策略和评估方法,成功提升了归一化流的语义表示能力和生成质量,证明了利用NFs可逆性进行特征对齐的有效性,为NFs的实际应用提供了新思路。
[68] INSIGHT: An Interpretable Neural Vision-Language Framework for Reasoning of Generative Artifacts
Anshul Bagaria
Main category: cs.CV
TL;DR: INSIGHT是一个可解释的多模态框架,用于鲁棒检测和透明解释AI生成图像,即使在极低分辨率下也能工作,结合超分辨率、定位和语义对齐技术。
- Motivation: 当前深度伪造检测系统在真实世界条件下(如下采样、压缩、跨域分布偏移)性能急剧下降,且大多数检测器作为不透明的分类器运行,无法解释为何图像被标记为合成图像,这削弱了信任并阻碍了在高风险场景中的采用。
- Method: INSIGHT结合了:1)分层超分辨率用于放大细微的取证线索而不引入误导性伪影;2)Grad-CAM驱动的多尺度定位以揭示指示生成模式的空间区域;3)CLIP引导的语义对齐将视觉异常映射到人类可解释的描述符;4)使用结构化ReAct + Chain-of-Thought协议提示视觉语言模型生成一致、细粒度的解释;5)通过双阶段G-Eval + LLM-as-a-judge管道验证解释以减少幻觉并确保事实性。
- Result: 在包括动物、车辆和抽象合成场景在内的多个领域中,INSIGHT在极端退化条件下显著提高了检测鲁棒性和解释质量,优于先前的检测器和黑盒VLM基线。
- Conclusion: INSIGHT为透明、可靠的AI生成图像取证提供了一条实用路径,并在可信赖的多模态内容验证方面迈出了一步。
[69] AnchorFlow: Training-Free 3D Editing via Latent Anchor-Aligned Flows
Zhenglin Zhou,Fan Ma,Chengzhuo Gui,Xiaobo Xia,Hehe Fan,Yi Yang,Tat-Seng Chua
Main category: cs.CV
TL;DR: AnchorFlow:基于潜在锚点一致性的免训练3D编辑方法,通过全局潜在锚点和锚点对齐损失实现稳定、语义对齐的3D形状编辑
- Motivation: 现有免训练3D编辑方法在生成强烈或几何稳定的编辑效果方面存在困难,主要原因是扩散采样中时间步依赖的噪声引入了不一致的潜在锚点
- Method: 提出AnchorFlow方法,基于潜在锚点一致性原则:建立源和目标轨迹共享的全局潜在锚点,使用松弛锚点对齐损失和锚点对齐更新规则强制一致性
- Result: 在Eval3DEdit基准测试中,AnchorFlow在各种编辑类型上都能产生语义对齐且结构鲁棒的编辑效果,无需掩码监督即可有效保持几何保真度
- Conclusion: 通过稳定潜在参考空间,AnchorFlow实现了更显著的语义修改,为免训练3D编辑提供了稳定且语义忠实的解决方案
[70] Asking like Socrates: Socrates helps VLMs understand remote sensing images
Run Shao,Ziyu Li,Zhaoyang Zhang,Linrui Xu,Xinran He,Hongyuan Yuan,Bolei He,Yongxing Dai,Yiming Yan,Yijun Chen,Wang Guo,Haifeng Li
Main category: cs.CV
TL;DR: 提出RS-EoT方法解决遥感视觉问答中的伪推理问题,通过迭代视觉证据搜索范式实现真正的基于证据的推理
- Motivation: 现有多模态推理模型在遥感任务中存在广泛的伪推理问题,模型只是描述推理过程而非基于视觉证据进行真正的推理。这归因于"一瞥效应":对大规模遥感图像的粗略感知导致不完整理解,模型基于语言自洽性而非视觉证据进行推理
- Method: 提出RS-EoT(遥感证据思维)范式,采用语言驱动的迭代视觉证据搜索方法。开发SocraticAgent多智能体系统,通过推理和视觉检查的交替循环合成推理轨迹。采用两阶段渐进式强化学习策略:先在细粒度Grounding任务上进行RL以增强RS-EoT能力,然后在RS VQA任务上进行RL以泛化到更广泛的理解场景
- Result: RS-EoT在多个RS VQA和Grounding基准测试中达到最先进的性能。分析显示清晰的推理和证据搜索迭代循环,证实RS-EoT缓解了一瞥效应,实现了真正的基于证据的推理
- Conclusion: RS-EoT通过迭代视觉证据搜索范式有效解决了遥感任务中的伪推理问题,实现了真正的基于证据的推理,为遥感多模态理解提供了新方法
[71] UAV-MM3D: A Large-Scale Synthetic Benchmark for 3D Perception of Unmanned Aerial Vehicles with Multi-Modal Data
Longkun Zou,Jiale Wang,Rongqin Liang,Hai Wu,Ke Chen,Yaowei Wang
Main category: cs.CV
TL;DR: UAV-MM3D是一个用于低空无人机感知的高保真多模态合成数据集,包含40万帧同步数据,涵盖多种场景、天气条件和无人机模型,提供RGB、红外、激光雷达、雷达和动态视觉传感器五种模态数据,并带有丰富的2D/3D标注信息。
- Motivation: 在复杂低空环境中准确感知无人机对空域安全和智能系统至关重要,但真实世界数据收集面临空域管制、隐私问题和环境变化等限制,同时手动标注3D姿态和跨模态对应关系耗时耗力。
- Method: 创建了UAV-MM3D合成数据集,包含40万帧同步数据,涵盖城市、郊区、森林、沿海等多样场景和不同天气条件,提供五种传感器模态数据,并开发了LiDAR引导的多模态融合基准网络LGFusionNet和专用的无人机轨迹预测基准。
- Result: 构建了一个包含丰富标注信息的大规模多模态合成数据集,为无人机3D检测、姿态估计、目标跟踪和短期轨迹预测等核心任务提供了基准测试平台。
- Conclusion: UAV-MM3D通过可控的仿真环境、全面的场景覆盖和丰富的标注,为推进无人机3D感知研究提供了公开基准,解决了真实数据收集和标注的挑战。
[72] DiffStyle360: Diffusion-Based 360° Head Stylization via Style Fusion Attention
Furkan Guzelant,Arda Goktogan,Tarık Kaya,Aysegul Dundar
Main category: cs.CV
TL;DR: DiffStyle360:无需逐风格训练的单参考图像3D头部风格化扩散框架,通过风格外观模块和风格融合注意力实现多视角一致、身份保持的风格迁移
- Motivation: 现有3D头部风格化方法依赖计算昂贵的优化或特定领域的微调,难以适应新风格。需要一种无需逐风格训练、能处理多样化艺术风格的单参考图像方法
- Method: 基于DiffPortrait360架构,引入风格外观模块解耦风格与内容,使用风格融合注意力机制在潜在空间平衡结构保持与风格保真度,采用3D GAN生成多视角数据集进行微调,并通过温度键缩放策略控制风格化强度
- Result: 在FFHQ和RenderMe360数据集上的实验表明,DiffStyle360在风格质量上优于最先进的GAN和扩散基风格化方法,能处理具有挑战性的风格领域
- Conclusion: DiffStyle360实现了高效、高质量的3D头部风格化,无需逐风格训练,仅需单张风格参考图像,为数字媒体中的创意视觉体验提供了强大工具
[73] Wukong's 72 Transformations: High-fidelity Textured 3D Morphing via Flow Models
Minghao Yin,Yukang Cao,Kai Han
Main category: cs.CV
TL;DR: WUKONG是一个无需训练的高保真纹理3D变形框架,利用基于流的transformer生成先验,通过最优传输重心问题实现平滑形状过渡,并引入相似性引导的语义一致性机制来保持纹理细节。
- Motivation: 传统3D变形方法依赖手动对应匹配和变形轨迹估计,这限制了泛化能力且需要昂贵的预处理。WUKONG旨在克服这些限制,实现高质量、无需训练的3D变形。
- Method: 1. 利用基于流的transformer生成先验;2. 将变形建模为最优传输重心问题以确保平滑形状过渡;3. 引入序列初始化策略防止几何失真;4. 提出相似性引导的语义一致性机制来保留高频纹理细节。
- Result: 广泛的定量和定性评估表明,WUKONG在多样化的几何和纹理变化上显著优于现有方法,实现了卓越的变形质量。
- Conclusion: WUKONG提供了一个无需训练的高质量3D变形框架,能够生成高保真纹理的3D过渡,解决了传统方法的泛化限制和预处理成本问题。
[74] Fin3R: Fine-tuning Feed-forward 3D Reconstruction Models via Monocular Knowledge Distillation
Weining Ren,Hongjun Wang,Xiao Tan,Kai Han
Main category: cs.CV
TL;DR: Fin3R是一种简单有效的微调方法,用于提升前馈式3D重建模型的几何细节和鲁棒性,通过冻结解码器、仅微调编码器,并利用单目教师模型蒸馏几何细节,添加轻量级LoRA适配器。
- Motivation: 当前前馈式3D重建模型在精细几何和鲁棒性方面存在不足,主要原因是:(1)高精度深度和姿态监督数据稀缺;(2)多视角点图回归固有的几何不对齐问题。
- Method: 冻结处理视角匹配的解码器,仅微调负责特征提取的图像编码器。编码器通过轻量级LoRA适配器,从强大的单目教师模型在大量未标记数据上蒸馏精细几何细节。
- Result: 在DUSt3R、MASt3R、CUT3R和VGGT等多种模型上验证,微调后的模型能产生更清晰的边界、恢复复杂结构,在单视角和多视角设置下都获得更高的几何精度,且仅增加微小的LoRA权重,测试时内存和延迟几乎不变。
- Conclusion: Fin3R通过轻量级微调有效解决了前馈式3D重建模型的几何细节和鲁棒性问题,在保持效率的同时显著提升了重建质量。
[75] SkeletonAgent: An Agentic Interaction Framework for Skeleton-based Action Recognition
Hongda Liu,Yunfan Liu,Changlu Wang,Yunlong Wang,Zhenan Sun
Main category: cs.CV
TL;DR: SkeletonAgent:通过两个协作代理(提问者和选择器)连接识别模型与LLM,利用LLM语义先验增强骨架动作识别,解决现有方法中LLM缺乏性能反馈、无法提供关键判别线索的问题。
- Motivation: 现有基于骨架的动作识别方法虽然利用LLM的语义先验来丰富骨架表示,但LLM通常与识别模型隔离运行,缺乏性能反馈,导致无法提供区分相似动作的关键判别线索。
- Method: 提出SkeletonAgent框架,包含两个协作代理:1) Questioner识别最常混淆的动作类别,将其作为上下文提供给LLM以获得更有针对性的指导;2) Selector解析LLM的响应,提取精确的关节级约束,反馈给识别器实现细粒度的跨模态对齐。
- Result: 在NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton、FineGYM和UAV-Human五个基准数据集上的综合评估表明,SkeletonAgent始终优于最先进的基准方法。
- Conclusion: SkeletonAgent通过连接识别模型与LLM的协作代理机制,有效利用LLM语义先验增强骨架动作识别,解决了现有方法中LLM缺乏反馈、无法提供关键判别线索的问题,在多个基准数据集上取得了优越性能。
[76] ABounD: Adversarial Boundary-Driven Few-Shot Learning for Multi-Class Anomaly Detection
Runzhi Deng,Yundi Hu,Xinshuang Zhang,Zhao Wang,Xixi Liu,Wang-Zhou Dai,Caifeng Shan,Fang Zhao
Main category: cs.CV
TL;DR: ABounD:一种用于少样本多类别工业异常检测的对抗边界驱动框架,通过动态概念融合和对抗边界锻造实现精确的决策边界
- Motivation: 少样本多类别工业异常检测面临挑战:视觉语言模型需要同时具备类别适应性和精确判别性,但数据稀缺导致正常与异常状态边界模糊,容易漏检细微缺陷并误拒非典型正常样本
- Method: 提出ABounD统一学习框架:1) 动态概念融合(DCF)模块融合通用先验与类别特定线索生成类别自适应提示;2) 对抗边界锻造(ABF)通过PGD风格扰动生成边界级围栏特征,塑造更精确决策边界;3) 在概念边界损失下进行单阶段训练
- Result: 在MVTec-AD和VisA数据集上的实验表明,该方法在少样本多类别异常检测任务中达到了最先进的性能
- Conclusion: ABounD通过语义概念学习与决策边界塑造的协同作用,实现了紧密跟随正常数据同时保持灵活性和鲁棒语义对齐的决策边界,有效解决了少样本工业异常检测中的边界模糊问题
[77] Do You See What I Say? Generalizable Deepfake Detection based on Visual Speech Recognition
Maheswar Bora,Tashvik Dhamija,Shukesh Reddy,Baptiste Chopin,Pranav Balaji,Abhijit Das,Antitza Dantcheva
Main category: cs.CV
TL;DR: FauxNet:基于视觉语音识别特征的零样本深度伪造检测网络,在跨数据集检测和生成方法溯源方面表现优异,并发布了包含3.8万个视频的新数据集。
- Motivation: 深度伪造技术快速发展带来了严重的滥用风险,需要开发鲁棒可靠的检测方法。现有检测方法在零样本泛化能力方面存在不足,需要能够跨数据集检测不同生成技术的解决方案。
- Method: 提出FauxNet网络,基于预训练的视觉语音识别特征提取视频的时序特征,通过分析这些特征来区分真实视频和伪造视频。重点关注零样本检测能力,即模型在未见过的数据集上的泛化性能。
- Result: FauxNet在零样本设置下持续超越现有最先进方法,能够准确区分不同生成技术来源的视频。在Authentica数据集和FaceForensics++上的广泛实验证明了其优越性。
- Conclusion: 基于视觉语音识别特征的FauxNet为深度伪造检测提供了有效的零样本解决方案,能够实现跨数据集泛化和生成方法溯源。发布的Authentica数据集将促进该领域的进一步研究。
[78] Benchmarking machine learning models for multi-class state recognition in double duantum dot data
Valeria Díaz Moreno,Ryan P Khalili,Daniel Schug,Patrick J. Walsh,Justyna P. Zwolak
Main category: cs.CV
TL;DR: 比较四种机器学习架构在量子点电荷稳定性图状态识别中的性能,发现CNN在实验数据上表现最佳,平衡了准确性和计算效率。
- Motivation: 量子点量子处理器需要可扩展的自动化调谐策略,而准确识别电荷稳定性图中的设备状态是关键。需要评估不同机器学习架构在实际应用中的性能。
- Method: 对四种现代机器学习架构(U-Nets、视觉变换器、混合密度网络、卷积神经网络)进行基准测试,使用合成和实验数据,评估不同数据预算和归一化方案下的性能。
- Result: U-Nets和ViT在合成数据上表现最佳(MSE分数>0.98),但无法泛化到实验数据。MDN计算效率最高但性能较低。CNN在实验数据上表现最佳,参数数量比U-Nets和ViT少两个数量级,同时保持强准确性。
- Conclusion: 对于量子点电荷稳定性图的状态识别,采用最小-最大归一化的卷积神经网络是最实用的方法,提供了准确性、泛化能力和计算效率的最佳平衡。
[79] Beyond Real versus Fake Towards Intent-Aware Video Analysis
Saurabh Atreya,Nabyl Quignon,Baptiste Chopin,Abhijit Das,Antitza Dantcheva
Main category: cs.CV
TL;DR: 提出IntentHQ新基准,从真实性检测转向视频意图分析,包含5168个视频和23个细粒度意图类别,使用多模态模型进行意图识别
- Motivation: 现有深度伪造检测方法仅关注视频真伪,但未能解决更根本的问题:操纵视频背后的意图是什么?需要从真实性验证转向上下文理解
- Method: 构建IntentHQ基准数据集(5168个视频,23个意图类别),使用监督和自监督多模态模型,整合时空视频特征、音频处理和文本分析来推断视频意图
- Result: 提出的模型能够有效区分广泛的意图类别,为视频意图分析提供了新的基准和方法框架
- Conclusion: IntentHQ将深度伪造检测范式从真实性验证扩展到意图分析,有助于更好地理解操纵视频的社会影响和安全风险
[80] ITS3D: Inference-Time Scaling for Text-Guided 3D Diffusion Models
Zhenglin Zhou,Fan Ma,Xiaobo Xia,Hehe Fan,Yi Yang,Tat-Seng Chua
Main category: cs.CV
TL;DR: ITS3D:一种无需额外训练、通过推理时缩放提升文本引导3D扩散模型生成质量的框架,采用验证器引导的搜索算法优化高斯噪声输入
- Motivation: 探索如何在无需额外训练的情况下,通过推理时缩放提升文本引导3D扩散模型的生成质量,解决现有方法在生成质量上的限制
- Method: 将任务形式化为优化问题,寻找最优高斯噪声输入;采用验证器引导的搜索算法迭代优化噪声候选;引入高斯归一化稳定搜索过程、SVD压缩降低计算复杂度、奇异空间重置机制防止陷入局部最优
- Result: 实验表明ITS3D能显著提升文本到3D生成质量,展示了计算高效搜索方法在生成过程中的潜力
- Conclusion: ITS3D框架通过推理时缩放有效提升了3D生成质量,为生成过程提供了计算高效的搜索方法,源代码已开源
[81] Gaussians on Fire: High-Frequency Reconstruction of Flames
Jakob Nazarenus,Dominik Michels,Wojtek Palubicki,Simin Kou,Fang-Lue Zhang,Soren Pirk,Reinhard Koch
Main category: cs.CV
TL;DR: 提出一种基于高斯时空表示的动态火焰三维重建方法,仅需三个视角即可重建具有挑战性的火焰动态
- Motivation: 火焰的动态重建极具挑战性,因其具有挥发性、半透明性和高频特征,传统方法需要大量视角,本文旨在仅用三个视角解决这一难题
- Method: 1) 通过结合多视角立体图像与单目深度先验分离静态背景与动态火焰区域;2) 将火焰初始化为三维流场,融合各视角密集光流投影;3) 每个3D高斯编码生命周期和线性速度以匹配密集光流;4) 使用自定义硬件同步模式确保跨相机亚帧时间对齐
- Result: 在多个重建实验中,定量和定性验证均显示该方法在多样且具有挑战性的真实火焰场景中具有鲁棒性能
- Conclusion: 该方法成功实现了仅用三个视角重建动态火焰,通过创新的时空表示和硬件同步解决了欠约束几何问题,为火焰重建提供了实用且经济高效的解决方案
[82] RoadSceneBench: A Lightweight Benchmark for Mid-Level Road Scene Understanding
Xiyan Liu,Han Wang,Yuhu Wang,Junjie Cai,Zhe Cao,Jianzhong Yang,Zhen Lu
Main category: cs.CV
TL;DR: RoadSceneBench是一个轻量级但信息丰富的基准测试,专注于评估复杂道路环境中的视觉推理能力,填补了现有基准测试主要关注感知任务而忽视推理能力的空白。
- Motivation: 现有基准测试主要针对检测或分割等感知任务,忽视了推理道路拓扑和动态场景结构所需的能力。理解中层道路语义(连接低层感知和高层规划的结构和上下文线索)对于可靠的自动驾驶和数字地图构建至关重要。
- Method: 提出了RoadSceneBench基准测试,强调关系理解和结构一致性。同时提出了HRRP-T(分层关系奖励传播与时序一致性)训练框架,通过自适应奖励信号促进空间一致性和语义对齐。
- Result: 该方法在多样化道路配置中实现了最先进的性能。RoadSceneBench为研究中层道路语义和培养结构感知的自主感知提供了紧凑而强大的基础。
- Conclusion: RoadSceneBench填补了道路场景推理基准测试的空白,提出的HRRP-T框架使模型能够超越静态识别,实现几何感知和时序一致的推理,为自动驾驶感知提供了重要工具。
[83] Hybrid, Unified and Iterative: A Novel Framework for Text-based Person Anomaly Retrieval
Tien-Huy Nguyen,Huu-Loc Tran,Huu-Phong Phan-Nguyen,Quang-Vinh Dinh
Main category: cs.CV
TL;DR: 提出LHP模块结合VLM,通过局部-全局混合视角提取细粒度特征,结合UIT多目标损失和迭代集成策略,在PAB数据集上实现SOTA性能
- Motivation: 现有基于文本的行人异常检索方法大多依赖复杂的深度学习技术,需要优化模型以获得更好的细粒度特征,解决如何有效结合细粒度和粗粒度特征的问题
- Method: 1) 提出LHP模块与VLM结合,探索局部-全局混合视角;2) 研究UIT模型,结合ITC、ITM、MLM、MIM多目标损失;3) 提出新颖的迭代集成策略;4) 基于LHP指导的特征选择算法
- Result: 在PAB数据集上实现SOTA性能,相比先前工作:R@1提升9.70%,R@5提升1.77%,R@10提升1.01%
- Conclusion: 提出的LHP模块、UIT多目标损失模型、迭代集成策略和特征选择算法有效提升了文本行人异常检索的性能,验证了细粒度特征与粗粒度特征结合的重要性
[84] Rethinking Cross-Generator Image Forgery Detection through DINOv3
Zhenglin Huang,Jason Li,Haiquan Wen,Tianxiao Li,Xi Yang,Lu Qi,Bei Peng,Xiaowei Huang,Ming-Hsuan Yang,Guangliang Cheng
Main category: cs.CV
TL;DR: DINOv3等冻结视觉基础模型已具备强大的跨生成器检测能力,无需微调即可识别真实图像与生成图像,主要依赖全局低频结构而非高频伪影。
- Motivation: 随着生成模型日益多样化和强大,跨生成器检测成为新挑战。现有检测方法往往记忆特定生成模型的伪影而非学习可迁移线索,导致在未见生成器上表现不佳。
- Method: 通过频率、空间和token视角的系统研究,发现DINOv3依赖全局低频结构作为弱但可迁移的真实性线索。引入简单的无训练token排序策略,配合轻量级线性探针,选择真实性相关token子集。
- Result: DINOv3在跨生成器检测中表现出色,token子集在所有评估数据集上一致提升检测准确率,提供高效、可解释的基准。
- Conclusion: 研究为理解基础模型为何能泛化到多样生成器提供了经验证据和可行假设,为图像伪造检测提供了通用、高效、可解释的基线方法。
[85] AI killed the video star. Audio-driven diffusion model for expressive talking head generation
Baptiste Chopin,Tashvik Dhamija,Pranav Balaji,Yaohui Wang,Antitza Dantcheva
Main category: cs.CV
TL;DR: Dimitra++是一个音频驱动的说话头生成框架,使用条件运动扩散变换器(cMDT)建模面部运动序列,能够生成包含唇部运动、面部表情和头部姿态的逼真说话头。
- Motivation: 现有的说话头生成方法需要同时学习唇部运动、面部表情和头部姿态,这是一个具有挑战性的任务。本文旨在开发一个能够统一学习这些面部运动组件的框架,以生成更逼真的音频驱动说话头。
- Method: 提出Dimitra++框架,核心是条件运动扩散变换器(cMDT),使用3D表示建模面部运动序列。cMDT以参考面部图像(决定外观)和音频序列(驱动运动)作为条件输入,通过扩散模型生成逼真的面部运动。
- Result: 在VoxCeleb2和CelebV-HQ数据集上的定量、定性实验和用户研究表明,Dimitra++在生成逼真说话头方面优于现有方法,能够准确模拟唇部运动、面部表情和头部姿态。
- Conclusion: Dimitra++通过条件运动扩散变换器成功统一了面部运动建模,在音频驱动的说话头生成任务中取得了优异性能,为逼真的虚拟人物生成提供了有效解决方案。
[86] SciPostGen: Bridging the Gap between Scientific Papers and Poster Layouts
Shun Inadumi,Shohei Tanaka,Tosho Hirasawa,Atsushi Hashimoto,Koichiro Yoshino,Yoshitaka Ushiku
Main category: cs.CV
TL;DR: SciPostGen是一个大规模数据集,用于从科学论文理解和生成海报布局,并提出检索增强的海报布局生成框架
- Motivation: 随着科学论文数量增长,需要有效传达研究成果的方法,海报作为展示论文内容的关键媒介,其布局对研究传播和理解至关重要。目前缺乏论文与对应海报布局的大规模配对标注数据集
- Method: 引入SciPostGen大规模数据集,分析论文结构与海报布局元素数量的关联,提出检索增强的海报布局生成框架,该框架检索与给定论文一致的布局作为生成指导
- Result: 实验在有无布局约束两种条件下进行,结果显示检索器能估计与论文结构一致的布局,框架生成的布局也能满足给定约束
- Conclusion: SciPostGen填补了论文与海报布局对应关系的数据空白,提出的检索增强生成框架能有效生成符合论文结构和用户约束的海报布局
[87] What Shape Is Optimal for Masks in Text Removal?
Hyakka Nakada,Marika Kubota
Main category: cs.CV
TL;DR: 本文针对密集文本图像去除任务,提出了一种基于贝叶斯优化的灵活掩模轮廓建模方法,发现字符级掩模优于最小文本区域覆盖,为手动掩模提供了实用指南。
- Motivation: 现有文本去除方法主要针对简单场景文本,缺乏对密集文本图像的处理研究。实际应用中,文本去除性能对掩模轮廓扰动敏感,需要精确调整掩模形状。
- Method: 创建了包含大量文本的基准数据集,开发了基于贝叶斯优化的高度灵活掩模轮廓建模方法,学习掩模参数。
- Result: 发现最佳掩模轮廓为字符级掩模,且最小文本区域覆盖并非最优。贝叶斯优化学习到的掩模参数能有效提升文本去除性能。
- Conclusion: 研究为密集文本图像去除任务提供了实用掩模设计指南,通过贝叶斯优化建模灵活掩模轮廓,为工业应用中的用户友好型手动掩模提供了理论基础。
[88] DocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA
Ahmad Mohammadshirazi,Pinaki Prasad Guha Neogi,Dheeraj Kulshrestha,Rajiv Ramnath
Main category: cs.CV
TL;DR: DocVAL框架通过验证的思维链蒸馏,将大型教师模型的空间推理能力转移到可部署的学生VLM中,在DocVQA任务上实现了高精度和高效率的平衡。
- Motivation: 当前DocVQA系统存在精度与效率的尖锐权衡:大型教师模型精度高但部署成本高,紧凑学生模型定位性能大幅下降。需要一种方法将教师的空间推理能力高效转移到学生模型中。
- Method: 提出DocVAL框架,包含三个关键组件:1) 带验证时间文本检测的教师监督,过滤和去噪训练信号;2) 多模块验证器(VAL),确保答案正确性和几何一致性,提供像素级错误反馈;3) 两阶段学生训练方案,先学习验证的CoT轨迹,然后通过VAL反馈进行迭代优化。
- Result: 学生模型(Gemma-3 12B)在DocVQA上达到91.4% ANLS和82.4% mAP,作为纯VLM在推理时无需文本检测或OCR。验证反馈贡献6.3 mAP增益,迭代优化贡献9.7 mAP提升。发布了95k高质量验证的CoT轨迹。
- Conclusion: DocVAL通过验证的思维链蒸馏有效解决了DocVQA中精度与效率的权衡问题,将教师的空间推理能力成功转移到可部署的学生模型中,为文档理解中的空间推理研究提供了高质量数据集。
[89] CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving
Zhaohui Wang,Tengbo Yu,Hao Tang
Main category: cs.CV
TL;DR: CoT4AD:一种用于自动驾驶的思维链增强视觉-语言-动作模型,通过显式和隐式思维链推理提升数值推理和因果推理能力,在多个基准测试中达到SOTA性能。
- Motivation: 现有VLA模型在自动驾驶中存在数值推理能力有限和输入输出映射过于简化的问题,难以应对需要逐步因果推理的复杂驾驶场景。
- Method: 提出CoT4AD框架,将思维链推理引入自动驾驶VLA模型。训练时显式建模感知-问题-预测-动作的思维链,推理时执行隐式思维链推理,实现语义推理、场景理解和轨迹规划。
- Result: 在nuScenes和Bench2Drive等真实世界和仿真基准测试中,CoT4AD在开环和闭环评估中都达到了最先进的性能。
- Conclusion: CoT4AD通过思维链推理有效增强了VLA模型在自动驾驶中的数值推理和因果推理能力,为复杂驾驶场景下的决策提供了更稳健的解决方案。
[90] Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration
Mengyu Yang,Yanming Yang,Chenyi Xu,Chenxi Song,Yufan Zuo,Tong Zhao,Ruibo Li,Chi Zhang
Main category: cs.CV
TL;DR: Fast3Dcache是一种无需训练的几何感知缓存框架,通过预测性缓存调度约束和时空稳定性准则,在加速3D扩散模型推理的同时保持几何保真度,实现高达27.12%的加速和54.8%的FLOPs减少。
- Motivation: 现有基于缓存的方法在加速2D和视频生成方面有效,但直接应用于3D扩散模型会破坏几何一致性,因为缓存潜在特征中的微小数值误差会累积导致结构伪影和拓扑不一致。
- Method: 提出Fast3Dcache框架,包含:1)预测性缓存调度约束(PCSC),根据体素稳定模式动态确定缓存配额;2)时空稳定性准则(SSC),基于速度幅度和加速度准则选择稳定特征进行重用。
- Result: Fast3Dcache显著加速推理,实现高达27.12%的加速和54.8%的FLOPs减少,几何质量退化最小(Chamfer Distance仅增加2.48%,F-Score仅降低1.95%)。
- Conclusion: Fast3Dcache是一种有效的训练免费几何感知缓存框架,能够在保持3D几何保真度的同时显著加速扩散模型推理,解决了现有缓存方法在3D应用中破坏几何一致性的问题。
[91] Diff-ICMH: Harmonizing Machine and Human Vision in Image Compression with Generative Prior
Ruoyu Feng,Yunpeng Qi,Jinming Liu,Yixin Gao,Xin Li,Xin Jin,Zhibo Chen
Main category: cs.CV
TL;DR: Diff-ICMH是一个生成式图像压缩框架,旨在协调机器视觉和人类视觉需求,通过语义一致性损失和标签引导模块实现语义保真和感知质量提升。
- Motivation: 现有图像压缩方法通常孤立地优化人类感知或机器分析任务,作者发现这两个目标之间存在根本共性:保持准确的语义信息对智能任务至关重要,同时增强感知质量不仅改善视觉体验,还能通过确保真实的图像分布来帮助机器语义特征提取。
- Method: 提出Diff-ICMH生成式图像压缩框架:1)利用生成先验确保感知真实性;2)通过语义一致性损失(SC loss)保证语义保真度;3)引入标签引导模块(TGM),利用高度语义化的图像级标签激发预训练扩散模型的生成能力,仅需极少额外比特率。
- Result: Diff-ICMH支持通过单一编解码器和比特流完成多种智能任务,无需任务特定适配,同时为人类感知保持高质量视觉体验。大量实验结果表明该方法在多种任务上具有优越性和泛化能力。
- Conclusion: 该工作揭示了人类感知和机器分析在图像压缩中的共同基础,提出的Diff-ICMH框架成功协调了这两个目标,实现了语义保真和感知质量的统一,为通用图像压缩提供了有效解决方案。
[92] Bringing Your Portrait to 3D Presence
Jiawei Zhang,Lei Chu,Jiahao Li,Zhenyu Zang,Chong Li,Xiao Li,Xun Cao,Hao Zhu,Yan Lu
Main category: cs.CV
TL;DR: 提出统一框架从单张肖像重建可动画3D人体化身,解决姿态/构图敏感特征、有限可扩展数据和不可靠代理网格估计三个瓶颈,通过双UV表示、因子化合成数据流形和鲁棒代理网格跟踪器实现强泛化能力。
- Motivation: 现有方法在从单张肖像重建可动画3D人体化身时面临三个主要瓶颈:1) 姿态和构图敏感的特征表示导致token偏移;2) 缺乏可扩展的训练数据;3) 代理网格估计在部分可见情况下不可靠。
- Method: 1) 引入双UV表示:通过Core-UV和Shell-UV分支将图像特征映射到规范UV空间,消除姿态和构图引起的token偏移;2) 构建因子化合成数据流形:结合2D生成多样性和几何一致的3D渲染;3) 设计鲁棒代理网格跟踪器:在部分可见情况下保持稳定性。
- Result: 仅在半身合成数据上训练,模型在头部和上半身重建上达到SOTA,在全身重建上获得有竞争力的结果。广泛的实验和分析验证了方法的有效性,展示了强大的野外泛化能力。
- Conclusion: 提出的统一框架通过解决三个关键瓶颈,实现了从单张肖像高质量重建可动画3D人体化身,在头部、半身和全身输入上均表现出色,具有强大的泛化能力和实际应用价值。
[93] Text Condition Embedded Regression Network for Automated Dental Abutment Design
Mianjie Zheng,Xinquan Yang,Xuguang Li,Xiaoling Luo,Xuefen Liu,Kun Tang,He Meng,Linlin Shen
Main category: cs.CV
TL;DR: 提出TCEAD框架,通过文本条件嵌入和自监督学习实现牙科种植体基台的自动化设计,相比主流方法IoU提升0.8%-12.85%
- Motivation: 传统牙科种植体基台设计过程耗时耗力,长期使用不合适的基台可能导致种植体并发症如种植体周围炎。利用人工智能辅助设计可以提高效率并增强基台适应性。
- Method: 提出文本条件嵌入基台设计框架(TCEAD),扩展MeshMAE自监督学习框架,引入文本引导定位(TGL)模块,使用CLIP文本编码器描述基台区域,并通过口腔扫描数据预训练编码器提升特征提取能力。
- Result: 在大型基台设计数据集上验证,TCEAD相比其他主流方法在IoU指标上提升0.8%-12.85%,展示了在自动化牙科基台设计中的潜力。
- Conclusion: TCEAD框架通过文本条件嵌入和自监督学习有效实现了牙科种植体基台的自动化设计,显著提高了基台区域定位的准确性和设计效率。
[94] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
Yifan Du,Kun Zhou,Yingqian Min,Yue Ling,Wayne Xin Zhao,Youbin Wu
Main category: cs.CV
TL;DR: 研究发现:在视觉语言模型中,简洁的思维链(仅包含关键定位步骤)比冗长的视觉思维链更能提升泛化能力,呈现"短即是长"效应。
- Motivation: 虽然思维链数据(特别是长链或视觉思维链)被广泛用于监督中间推理,但不同思维链设计如何影响视觉语言模型获得可泛化的视觉推理能力仍不清楚。
- Method: 使用可控的迷宫求解基准测试,比较三种代表性思维链格式:语言思维链、定位思维链(含空间坐标轨迹)和视觉思维链(含图像操作)。在Qwen2.5-VL-7B模型上采用标准SFT-then-RL流程进行实验。
- Result: 视觉和长思维链主要加速收敛但不提升最终性能上限;仅含关键定位步骤的简洁思维链优于长轨迹;仅保留最小定位结果的思维链在不同迷宫尺寸上泛化能力最佳。
- Conclusion: 研究发现"短即是长"效应,为构建更具泛化性的视觉推理SFT数据集提供了实用指导。
[95] HarmoCLIP: Harmonizing Global and Regional Representations in Contrastive Vision-Language Models
Haoxi Zeng,Haoxuan Li,Yi Bin,Pengpeng Zeng,Xing Xu,Yang Yang,Heng Tao Shen
Main category: cs.CV
TL;DR: HarmoCLIP通过引入细粒度语义监督和区域-语言对齐策略,在保持CLIP全局对齐的同时增强局部感知能力,解决了全局-局部权衡问题。
- Motivation: CLIP虽然表现出强大的泛化能力,但由于缺乏区域级监督,其细粒度语义理解能力有限。现有方法在改善局部感知的同时往往会破坏全局对齐,导致全局-局部权衡问题。
- Method: 提出HarmoCLIP框架:1)引入显式的细粒度语义监督项,直接对齐文本片段与对应的视觉区域;2)提出区域-语言对齐监督策略,在不损害全局语义一致性的前提下促进细粒度语义学习。
- Result: 在检索任务上达到SOTA(提升高达69.78%),在边界框分类任务上Top-1准确率提升3.2%,优于现有方法,提供了平衡、高效、即插即用的解决方案。
- Conclusion: HarmoCLIP成功解决了CLIP中的全局-局部权衡问题,通过协调全局和区域表示,在保持全局对齐的同时显著提升了细粒度语义理解能力。
[96] AnoRefiner: Anomaly-Aware Group-Wise Refinement for Zero-Shot Industrial Anomaly Detection
Dayou Huang,Feng Xue,Xurui Li,Yu Zhou
Main category: cs.CV
TL;DR: AnoRefiner:一种可插入大多数零样本工业异常检测模型的异常感知细化器,通过异常分数图增强图像特征,将补丁级异常图提升到像素级精度
- Motivation: 现有零样本工业异常检测方法只能生成粗糙的补丁级异常图,而现有细化方法因合成异常与真实异常之间的差距难以恢复细粒度异常。研究发现异常分数图提供了互补的空间线索,这一事实之前被忽视了。
- Method: 提出AnoRefiner框架:1)设计异常细化解码器,利用异常分数图渐进增强图像特征,减少对合成异常数据的依赖;2)提出渐进分组测试时训练策略,在每个产品组中训练解码器用于下一组的细化过程,兼容任何零样本异常检测方法。
- Result: 在MVTec AD和VisA数据集上,AnoRefiner将各种零样本异常检测模型的像素级AP指标提升了最高5.2%,可视化结果也直接展示了改进效果。
- Conclusion: AnoRefiner通过利用异常分数图的互补空间线索,有效解决了零样本工业异常检测中细粒度异常恢复的问题,显著提升了现有方法的性能,且具有良好的兼容性。
[97] GazeTrack: High-Precision Eye Tracking Based on Regularization and Spatial Computing
Xiaoyin Yang
Main category: cs.CV
TL;DR: 提出GazeTrack高精度眼动追踪数据集和新的形状误差正则化方法,结合类似纸张展开的坐标变换技术,在降低计算复杂度的同时减少了注视角度误差。
- Motivation: 当前眼动追踪技术在虚拟和增强现实应用中的注视精度不足,无法满足空间计算需求,需要更精确的解决方案。
- Method: 1) 设计眼动数据收集框架,使用高精度设备创建GazeTrack数据集;2) 提出形状误差正则化方法约束瞳孔椭圆拟合;3) 发明类似纸张展开的坐标变换方法预测注视向量;4) 构建低计算复杂度的注视向量生成模型。
- Result: 创建了首个包含多种族、年龄和视力条件的精确眼动追踪基准数据集GazeTrack,提出的模型相比其他方法在降低计算复杂度的同时减少了注视角度误差。
- Conclusion: 通过高质量数据集、形状误差正则化和创新的坐标变换方法,显著提升了眼动追踪的精度,为空间计算应用提供了更可靠的解决方案。
[98] MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory
Bo Wang,Jiehong Lin,Chenzhi Liu,Xinting Hu,Yifei Yu,Tianjia Liu,Zhongrui Wang,Xiaojuan Qi
Main category: cs.CV
TL;DR: MG-Nav是一个用于零样本视觉导航的双尺度框架,通过全局记忆引导规划和局部几何增强控制,在未见场景中实现鲁棒导航。
- Motivation: 解决零样本视觉导航中长视野规划与精确目标定位的挑战,特别是在动态重排和未见场景条件下的鲁棒性问题。
- Method: 提出双尺度框架:1) 全局层面使用稀疏空间记忆图(SMG)进行区域中心记忆存储和路径规划;2) 局部层面使用导航基础策略执行路径点;3) 引入VGGT-adapter增强几何对齐。
- Result: 在HM3D Instance-Image-Goal和MP3D Image-Goal基准测试中达到最先进的零样本性能,在动态重排和未见场景条件下保持鲁棒性。
- Conclusion: MG-Nav通过结合全局记忆引导规划和局部几何增强控制,实现了高效、鲁棒的零样本视觉导航,为实际应用提供了有前景的解决方案。
[99] Stable-Drift: A Patient-Aware Latent Drift Replay Method for Stabilizing Representations in Continual Learning
Paraskevi-Antonia Theofilou,Anuhya Thota,Stefanos Kollias,Mamatha Thota
Main category: cs.CV
TL;DR: 提出基于潜在漂移引导的重放方法,通过识别和重放具有高表征不稳定性的样本来缓解医学影像中的灾难性遗忘问题
- Motivation: 深度学习模型在顺序学习新数据时会出现灾难性遗忘,这在医学影像中尤为严重,因为模型需要不断适应新医院数据而不损害已有诊断知识
- Method: 引入潜在漂移引导的重放方法:1) 通过潜在漂移量化样本的表征不稳定性(即朴素域适应后样本内部特征表示的变化);2) 在患者层面聚合漂移;3) 存储具有最大多层表征偏移的每患者切片到记忆缓冲区
- Result: 在跨医院COVID-19 CT分类任务上,使用最先进的CNN和Vision Transformer骨干网络,该方法相比朴素微调和随机重放显著减少了遗忘
- Conclusion: 潜在漂移作为一种实用且可解释的重放信号,能够推进现实世界医学场景中的鲁棒持续学习
[100] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
Fukun Yin,Shiyu Liu,Yucheng Han,Zhibo Wang,Peng Xing,Rui Wang,Wei Cheng,Yingming Wang,Aojie Li,Zixin Yin,Pengtao Chen,Xiangyu Zhang,Daxin Jiang,Xianfang Zeng,Gang Yu
Main category: cs.CV
TL;DR: 提出ReasonEdit框架,通过解锁MLLM的推理能力(思考与反思机制),在思考-编辑-反思循环中提升图像编辑性能,在多个基准上显著超越现有方法。
- Motivation: 当前图像编辑模型通常将多模态大语言模型(MLLM)编码器与扩散解码器耦合,但MLLM在训练期间保持冻结。作者认为解锁MLLM的推理能力可以进一步提升编辑模型的性能边界。
- Method: 提出ReasonEdit框架,采用思考-编辑-反思循环:1)思考机制利用MLLM的世界知识解释抽象指令;2)反思机制审查编辑结果,自动纠正意外操作,并确定停止轮次。探索了思考和反思两种推理机制来增强指令理解和编辑准确性。
- Result: 在Step1X-Edit基础上初始化DiT(ReasonEdit-S)时,在ImgEdit、GEdit和Kris基准上分别获得+4.3%、+4.7%和+8.2%的性能提升。与Qwen-Image-Edit集成时(ReasonEdit-Q),在GEdit和Kris基准上也优于之前的开源方法。
- Conclusion: 解锁MLLM的推理能力可以显著提升图像编辑模型的性能,提出的思考-编辑-反思循环框架通过增强指令理解和编辑准确性,在多个基准上实现了最先进的性能。
[101] GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes
Di Wang,Shunyu Liu,Wentao Jiang,Fengxiang Wang,Yi Liu,Xiaolei Qin,Zhiming Luo,Chaoyang Zhou,Haonan Guo,Jing Zhang,Bo Du,Dacheng Tao,Liangpei Zhang
Main category: cs.CV
TL;DR: GeoZero是一个无需预定义思维链监督的多模态大语言模型框架,通过构建两个数据集和引入答案锚定组相对策略优化,实现地理空间推理能力的提升。
- Motivation: 现有遥感MLLMs通常通过精心策划的思维链数据进行冷启动训练,这种方法不仅标注成本高,而且引入人为偏见,限制了模型推理的多样性。需要一种无需预定义CoT监督的地理空间推理框架。
- Method: 提出GeoZero框架:1)构建GeoZero-Instruct数据集用于监督微调获取初步地理知识;2)构建GeoZero-Hard数据集在强化学习阶段激发深度推理;3)引入答案锚定组相对策略优化(A²GRPO),通过模型自身答案正则化推理过程,鼓励多样而准确的思考。
- Result: 在多个遥感视觉语言基准测试上的广泛实验表明,GeoZero不仅超越了现有最先进方法,而且在多样地理空间任务中培养了通用的涌现推理能力。
- Conclusion: GeoZero框架成功实现了无需预定义思维链监督的地理空间推理,通过创新的数据集构建和策略优化方法,显著提升了MLLMs在地理空间理解任务上的性能。
[102] Architecture Decoupling Is Not All You Need For Unified Multimodal Model
Dian Zheng,Manyuan Zhang,Hongyu Li,Kai Zou,Hongbo Liu,Ziyu Guo,Kaituo Feng,Yexin Liu,Ying Luo,Yan Feng,Peng Pei,Xunliang Cai,Hongsheng Li
Main category: cs.CV
TL;DR: 该论文提出Attention Interaction Alignment (AIA)损失函数,通过显式学习任务特定的多模态交互模式来缓解图像生成与理解任务之间的冲突,无需模型解耦即可提升统一多模态模型的性能。
- Motivation: 统一多模态模型在图像生成和理解任务中存在目标冲突,现有方法通过模型解耦来缓解冲突,但这会损害模型的交织生成能力。本文旨在探索不依赖模型解耦的方法来缓解任务冲突。
- Method: 首先分析模型解耦如何通过驱动模型形成任务特定的多模态交互模式来缓解冲突。基于此观察,提出Attention Interaction Alignment (AIA)损失函数,在训练过程中显式学习任务特定的多模态交互模式。将AIA应用于Emu3和Janus-Pro模型的不同训练阶段。
- Result: AIA不仅细化了跨模态注意力模式,还同时提升了生成和理解任务的性能。该方法在Emu3和Janus-Pro模型上均表现出良好的泛化能力。
- Conclusion: 通过显式学习任务特定的多模态交互模式,可以在不进行模型解耦的情况下有效缓解图像生成与理解任务之间的冲突,同时保持统一多模态模型的交织生成能力。
[103] VaMP: Variational Multi-Modal Prompt Learning for Vision-Language Models
Silin Cheng,Kai Han
Main category: cs.CV
TL;DR: VaMP提出变分多模态提示学习框架,通过从学习到的后验分布中采样生成样本特定的不确定性感知提示,在少样本和领域泛化基准上达到SOTA性能。
- Motivation: 现有多模态提示学习方法通常依赖固定共享提示和确定性参数,难以捕捉实例级变化或跨任务和领域的不确定性,限制了在有限监督下适应下游任务的能力。
- Method: 提出变分多模态提示学习框架,通过从学习后验分布采样生成实例条件化提示;引入基于实例表示和类别原型的类感知先验;将提示调优公式化为潜在提示表示的变分推断,通过重参数化采样进行端到端训练。
- Result: 在少样本学习和领域泛化基准测试中,VaMP实现了最先进的性能,证明了建模不确定性和任务结构的有效性。
- Conclusion: VaMP框架通过变分多模态提示学习,实现了样本特定、不确定性感知的提示调优,显著提升了视觉语言模型在有限监督下的适应能力。
[104] A deep learning perspective on Rubens' attribution
A. Afifi,A. Kalimullin,S. Korchagin,I. Kudryashov
Main category: cs.CV
TL;DR: 使用深度学习分析鲁本斯及其工作室画作,通过卷积神经网络识别大师笔触的微观风格特征,实现高精度分类,为艺术史研究提供计算辅助。
- Motivation: 传统艺术鉴定依赖专家经验,对鲁本斯这类大师与工作室合作的作品难以精确区分。需要客观计算方法辅助鉴定画作真实作者和协作关系。
- Method: 构建经过验证的画作数据集,使用卷积神经网络训练识别微观风格特征,特别是大师笔触的独特模式。
- Result: 模型实现了高分类准确率,成功区分鲁本斯本人作品与工作室作品,展示了计算分析在艺术鉴定中的有效性。
- Conclusion: 深度学习可以补充传统艺术史专业知识,为画作鉴定和工作室协作研究提供新的客观分析工具,具有重要应用价值。
[105] Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
Dongyang Liu,Peng Gao,David Liu,Ruoyi Du,Zhen Li,Qilong Wu,Xin Jin,Sihan Cao,Shifeng Zhang,Hongsheng Li,Steven Hoi
Main category: cs.CV
TL;DR: 本文挑战了扩散模型蒸馏的传统理解,发现Distribution Matching Distillation(DMD)的核心驱动力不是分布匹配,而是CFG增强(CA)项,分布匹配项仅作为正则化器。
- Motivation: 传统认为DMD及其变体的优异性能源于学生模型输出分布与教师模型分布匹配。本文质疑这一理解,旨在揭示在复杂任务(如文本到图像生成)中,蒸馏的真正驱动机制。
- Method: 通过严格分解DMD训练目标,识别出CFG增强(CA)项作为蒸馏的"引擎",而分布匹配(DM)项作为"正则化器"。进一步验证DM项并非唯一,可用更简单的非参数约束或GAN目标替代。基于此理解,提出改进方法,如为引擎和正则化器解耦噪声调度。
- Result: 发现CA项是少步蒸馏的主要驱动力,DM项仅起稳定训练作用。提出的改进方法在Z-Image项目中开发出顶级的8步图像生成模型,验证了发现的泛化性和鲁棒性。
- Conclusion: 本文重新定义了扩散模型蒸馏的理解框架,将CA项识别为核心引擎,DM项为可选正则化器。这种解耦分析为蒸馏过程提供了更系统深入的理解,并启发了性能改进的新方法。
[106] Emergent Extreme-View Geometry in 3D Foundation Models
Yiwen Zhang,Joseph Tung,Ruojin Cai,David Fouhey,Hadar Averbuch-Elor
Main category: cs.CV
TL;DR: 3D基础模型在极端非重叠视角下展现几何理解能力,通过轻量级对齐方案优化内部3D表示,并提出了新基准MegaUnScene
- Motivation: 探索3D基础模型在极端非重叠视角下的几何推理能力,现有研究对此关注不足,需要评估和改进模型在此类条件下的表现
- Method: 1. 分析3D基础模型的内部表示;2. 提出轻量级对齐方案,仅微调骨干网络偏置项,保持解码器冻结;3. 构建新基准MegaUnScene,包含相对姿态估计和密集3D重建测试集
- Result: 发现3D基础模型具有对极端视角几何的涌现理解能力;轻量级对齐方案显著改善了极端视角下的相对姿态估计,同时不降低单图像深度或点云质量
- Conclusion: 3D基础模型在极端视角下具有潜力,轻量级对齐能有效提升其几何推理能力,MegaUnScene基准为未来研究提供了重要评估工具
[107] Ar2Can: An Architect and an Artist Leveraging a Canvas for Multi-Human Generation
Shubhankar Borse,Phuc Pham,Farzad Farhadzadeh,Seokeon Choi,Phong Ha Nguyen,Anh Tuan Tran,Sungrack Yun,Munawar Hayat,Fatih Porikli
Main category: cs.CV
TL;DR: Ar2Can是一个两阶段框架,通过空间规划和身份渲染分离的方法,解决了文本到图像生成中多人场景生成不可靠的问题,显著提高了人数准确性和身份保持能力。
- Motivation: 现有文本到图像生成模型在生成多人场景时存在严重问题,经常重复人脸、合并身份或错误计数个体,无法可靠生成多人场景。
- Method: 提出Ar2Can两阶段框架:1) Architect模块预测结构化布局,指定每个人的位置;2) Artist模块合成逼真图像,使用空间接地的面部匹配奖励(结合匈牙利空间对齐和ArcFace身份相似性)。开发两种Architect变体,与基于扩散的Artist模型集成,通过GRPO优化组合奖励。
- Result: 在MultiHuman-Testbench上评估,Ar2Can在人数准确性和身份保持方面取得显著改进,同时保持高感知质量。值得注意的是,该方法主要使用合成数据实现这些结果,无需真实多人图像。
- Conclusion: Ar2Can通过分离空间规划和身份渲染,有效解决了多人场景生成的挑战,为可靠的文本到图像多人场景生成提供了新框架。
[108] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
Z-Image Team,Huanqia Cai,Sihan Cao,Ruoyi Du,Peng Gao,Steven Hoi,Shijie Huang,Zhaohui Hou,Dengyang Jiang,Xin Jin,Liangchen Li,Zhen Li,Zhong-Yu Li,David Liu,Dongyang Liu,Junhan Shi,Qilong Wu,Feng Yu,Chi Zhang,Shifeng Zhang,Shilin Zhou
Main category: cs.CV
TL;DR: Z-Image是一个6B参数的高效图像生成基础模型,采用S3-DiT架构,挑战了"不惜一切代价扩大规模"的范式,在显著降低计算成本的同时达到或超越了领先商业模型的性能。
- Motivation: 当前高性能图像生成模型被Nano Banana Pro、Seedream 4.0等专有系统主导,开源替代品如Qwen-Image、Hunyuan-Image-3.0和FLUX.2参数规模过大(20B-80B),在消费级硬件上推理和微调不切实际。需要填补这一空白。
- Method: 基于可扩展单流扩散Transformer(S3-DiT)架构,通过系统优化整个模型生命周期:从精选数据基础设施到简化的训练课程。采用few-step蒸馏方案和奖励后训练得到Z-Image-Turbo,实现亚秒级推理延迟。还采用全预训练范式训练Z-Image-Edit编辑模型。
- Result: 模型在314K H800 GPU小时(约63万美元)内完成完整训练工作流。Z-Image-Turbo在企业级H800 GPU上实现亚秒级推理延迟,兼容消费级硬件(<16GB VRAM)。在多个维度上达到或超越领先竞争对手的性能,特别是在逼真图像生成和双语文本渲染方面表现出色。
- Conclusion: 研究表明,通过显著减少计算开销也能实现最先进的结果。公开了代码、权重和在线演示,以促进可访问、经济实惠且最先进的生成模型的发展。
[109] Splat-SAP: Feed-Forward Gaussian Splatting for Human-Centered Scene with Scale-Aware Point Map Reconstruction
Boyao Zhou,Shunyuan Zheng,Zhanfeng Liao,Zihan Ma,Hanzhang Tu,Boning Liu,Yebin Liu
Main category: cs.CV
TL;DR: Splat-SAP:一种前馈方法,使用双目相机从稀疏视角渲染以人为中心的场景新视角,通过像素级点图重建几何表示,采用两阶段学习策略实现高质量自由视点渲染。
- Motivation: 现有高斯泼溅方法需要密集输入视角进行逐场景优化,而基于多视角立体几何先验的前馈方法仍需大量重叠输入视角。需要解决大稀疏性条件下的人为中心场景渲染问题。
- Method: 提出两阶段学习策略:阶段1通过迭代亲和力学习将点图转换到真实空间,实现相机控制;阶段2将两个输入视角的点图投影到目标视角平面,通过立体匹配细化几何,并在细化平面上锚定高斯基元进行高质量图像渲染。
- Result: 收集多视角人中心数据,实验表明该方法提高了点图重建的稳定性和自由视点渲染的视觉质量。
- Conclusion: Splat-SAP通过像素级点图重建和两阶段学习策略,成功实现了大稀疏性条件下人中心场景的高质量前馈渲染,解决了现有方法对密集重叠视角的依赖问题。
[110] ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering
Alberto Compagnoni,Marco Morini,Sara Sarto,Federico Cocchi,Davide Caffagni,Marcella Cornia,Lorenzo Baraldi,Rita Cucchiara
Main category: cs.CV
TL;DR: ReAG是一种新颖的推理增强多模态检索增强生成方法,通过粗粒度与细粒度检索结合批评模型过滤无关段落,使用强化学习增强对检索内容的推理能力,在知识密集型视觉问答任务上显著优于现有方法。
- Motivation: 当前多模态大语言模型在领域特定或知识密集型查询上表现不佳,因为相关信息在预训练数据中代表性不足。现有的基于知识的视觉问答方法虽然通过检索外部文档来增强答案生成,但存在检索精度低、段落噪声大和推理能力有限的问题。
- Method: 提出ReAG方法,结合粗粒度和细粒度检索,使用批评模型过滤无关段落确保高质量上下文。采用多阶段训练策略,利用强化学习增强对检索内容的推理能力,监督微调仅作为冷启动。
- Result: 在Encyclopedic-VQA和InfoSeek数据集上的广泛实验表明,ReAG显著优于现有方法,提高了答案准确性,并提供了基于检索证据的可解释推理。
- Conclusion: ReAG通过推理增强的检索增强生成方法有效解决了知识密集型视觉问答中的检索精度和推理能力问题,为多模态大语言模型在知识密集型任务上的应用提供了有效解决方案。
[111] All Centers Are at most a Few Tokens Apart: Knowledge Distillation with Domain Invariant Prompt Tuning
Amir Mohammad Ezzati,Alireza Malekhosseini,Armin Khosravi,Mohammad Hossein Rohban
Main category: cs.CV
TL;DR: 提出DIPT方法,通过领域不变提示调优增强病理图像领域泛化能力,在知识蒸馏框架中学习领域特定token并跨领域平均,实现领域不变提示,提升病理模型在异构数据上的泛化性能。
- Motivation: 计算病理学中,染色协议、扫描设备和成像设置的差异导致领域偏移,影响模型泛化。现有视觉语言模型(如PLIP)的零样本性能受提示词变化敏感,且病理图像缺乏自然图像中的语义描述符,难以定义领域特定提示,需要数据驱动方法学习领域不变提示。
- Method: 提出领域不变提示调优(DIPT)方法:1)为每个领域学习多个输入token;2)分别训练各领域token;3)跨领域平均token得到领域不变提示;4)学生模型利用DIPT学习的提示从PLIP文本编码器蒸馏知识,对齐视觉特征与领域不变嵌入。
- Result: 在病理数据集上的领域泛化任务中,DIPT方法相比现有最先进知识蒸馏方法,在平均F1分数上有显著提升,增强了模型在异构数据源上的泛化能力。
- Conclusion: DIPT通过数据驱动方式学习领域不变提示,有效解决了病理图像领域偏移问题,为在真实临床环境中部署鲁棒的计算病理学模型提供了可行方案。
[112] MammoRGB: Dual-View Mammogram Synthesis Using Denoising Diffusion Probabilistic Models
Jorge Alberto Garza-Abdala,Gerardo A. Fumagal-González,Daly Avendano,Servando Cardona,Sadam Hussain,Eduardo de Avila-Armenta,Jasiel H. Toscano-Martínez,Diana S. M. Rosales Gurmendi,Alma A. Pedro-Pérez,Jose Gerardo Tamez-Pena
Main category: cs.CV
TL;DR: 本研究开发并评估了一种三通道去噪扩散概率模型(DDPM),用于合成单乳双视图乳腺X线摄影图像,并评估了不同通道表示对图像保真度和跨视图一致性的影响。
- Motivation: 研究动机是开发能够生成真实且解剖学一致的双视图乳腺X线摄影图像的合成方法,用于数据集增强等应用。传统方法在保持跨视图一致性方面存在挑战,需要探索不同通道表示对图像质量的影响。
- Method: 方法包括:1)使用预训练的三通道DDPM模型,在包含11020张筛查乳腺X线摄影的私有数据集上进行微调;2)评估三种不同的第三通道编码方式(求和、绝对差、零通道);3)生成500对合成图像;4)使用IoU和DSC进行乳腺掩模分割定量评估;5)使用EMD和KS检验与2500对真实图像进行分布比较;6)由非专业放射科医生进行视觉图灵测试评估跨视图一致性和伪影。
- Result: 结果:1)合成乳腺X线摄影的IoU和DSC分布与真实图像相当(EMD=0.020,KS=0.077);2)使用求和或绝对差编码的模型在IoU和DSC方面表现最佳(p<0.001);3)生成的CC和MLO视图保持了跨视图一致性;4)6-8%的合成图像显示出与训练数据一致的伪影。
- Conclusion: 结论:三通道DDPM能够生成真实且解剖学一致的双视图乳腺X线摄影图像,在数据集增强方面具有有前景的应用价值。不同通道编码方式对图像质量有显著影响,其中求和和绝对差编码表现最佳。
[113] Fusion or Confusion? Assessing the impact of visible-thermal image fusion for automated wildlife detection
Camille Dionne-Pierre,Samuel Foucher,Jérôme Théau,Jérôme Lemaître,Patrick Charbonneau,Maxime Brousseau,Mathieu Varin
Main category: cs.CV
TL;DR: 研究评估了可见光与热红外图像融合在自动检测大蓝鹭及其巢穴中的效果,使用YOLO11n模型比较了早期融合和晚期融合方法,发现两种融合方法均优于单可见光模型。
- Motivation: 野生动物监测对生物多样性保护至关重要,可见光与热红外图像的互补信息有望改进现有调查方法,但两者视场和分辨率不同带来对齐和融合挑战。
- Method: 以大蓝鹭为案例,使用同步航拍可见光和热红外图像,通过深度学习模型自动对齐图像,测试早期融合(主成分分析)和晚期融合(分类回归树)两种方法,与单可见光模型对比。
- Result: 所有类别中,早期和晚期融合均提高了F1分数;主要类别"被占用巢穴"的晚期融合F1分数从90.2%提升至93.0%,且能识别90%召回率的假阳性。
- Conclusion: 融合方法虽能提升检测效果,但受限于热红外视场和对齐约束会损失数据;使用机载高分辨率可见光传感器可能是更实用的调查方案。
[114] Alzheimer's Disease Prediction Using EffNetViTLoRA and BiLSTM with Multimodal Longitudinal MRI Data
Mahdieh Behjat Khatooni,Mohsen Soryani
Main category: cs.CV
TL;DR: 提出一个结合CNN、Vision Transformer和BiLSTM的端到端深度学习模型,利用MRI扫描和非图像生物标志物预测MCI向AD的进展,在ADNI数据集上达到95.05%的预测准确率。
- Motivation: 阿尔茨海默病(AD)是不可逆的神经退行性疾病,早期预测对及时干预至关重要。轻度认知障碍(MCI)是正常衰老到AD的过渡阶段,但并非所有MCI都会进展为AD,因此准确区分稳定MCI(sMCI)和进展性MCI(pMCI)是当前的重要挑战。
- Method: 提出混合架构模型:1)结合CNN和Vision Transformer从MRI扫描中提取局部空间特征和全局上下文依赖;2)使用双向LSTM(BiLSTM)处理四个连续时间点的MRI特征和其他非图像生物标志物;3)端到端预测48个月时的认知状态。
- Result: 模型在ADNI数据集上实现了sMCI和pMCI之间的平均进展预测准确率达到95.05%,超越了现有AD预测研究,展示了最先进的纵向AD预测性能。
- Conclusion: 该研究证明了结合空间和时间建模在阿尔茨海默病早期检测中的有效性,为AD预测提供了先进的端到端深度学习解决方案,在纵向预测方面达到最先进水平。
[115] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
Eunsu Kim,Junyeong Park,Na Min An,Junseong Kim,Hitesh Laxmichand Patel,Jiho Jin,Julia Kruk,Amit Agarwal,Srikant Panda,Fenal Ashokbhai Ilasariya,Hyunjung Shim,Alice Oh
Main category: cs.CV
TL;DR: 论文构建了CultureMix基准测试,发现大型视觉语言模型在文化混合场景中难以保持个体文化身份,存在背景依赖和预测不一致问题,通过监督微调可改善模型表现。
- Motivation: 在全球化世界中,文化元素经常在单一视觉场景中共存,但大型视觉语言模型如何感知这些文化混合场景尚未充分探索。需要研究模型在多种文化元素同时出现时的行为表现。
- Method: 构建CultureMix基准测试,包含23k个扩散生成、人工验证的文化混合食物图像,涵盖四个子任务:仅食物、食物+食物、食物+背景、食物+食物+背景。评估10个LVLM模型,并探索三种鲁棒性策略。
- Result: 模型在混合场景中一致性地无法保持个体文化身份,表现出强烈的背景依赖(添加文化背景后准确率下降14%),对相同食物在不同上下文中产生不一致预测。监督微调使用多样化的文化混合数据集能显著提高模型一致性和减少背景敏感性。
- Conclusion: 文化混合场景是LVLM发展的关键挑战,需要更多关注。通过监督微调等方法可以改善模型在文化混合场景中的表现,这对于模型在文化多样性现实环境中可靠运行至关重要。
[116] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
Yiming Chen,Junlin Han,Tianyi Bai,Shengbang Tong,Filippos Kokkinos,Philip Torr
Main category: cs.CV
TL;DR: 论文提出CogIP-Bench基准测试,评估多模态大语言模型对图像主观认知属性的理解能力,发现现有模型与人类感知存在显著差距,并通过后训练提升模型对齐度,证明这种认知对齐可迁移到创意生成任务中。
- Motivation: 当前多模态大语言模型擅长识别图像中的物体和描述场景,但缺乏对人类主观认知属性的理解能力,如记忆性、趣味性、美学价值和情感唤起等。需要系统评估和提升模型在这些主观认知属性上与人类感知的对齐度。
- Method: 1. 提出CogIP-Bench基准测试,系统评估MLLMs对图像主观认知属性的理解能力;2. 设计后训练阶段,通过专门训练提升模型与人类判断的对齐度;3. 将认知对齐的MLLM集成到图像生成流程中,指导图像合成过程。
- Result: 评估显示当前模型在主观认知属性上与人类感知存在显著差距;后训练能有效缩小这一差距,显著提升模型与人类判断的对齐度;学习到的认知对齐具有可迁移性,能指导生成更具记忆性、视觉吸引力等特质的图像。
- Conclusion: 该工作提供了衡量人类感知的基准测试、提升对齐度的后训练流程,并证明这种认知对齐能实现更以人为本的AI,解锁更具人类中心主义的AI应用。
[117] LC4-DViT: Land-cover Creation for Land-cover Classification with Deformable Vision Transformer
Kai Wang,Siyi Chen,Weicong Pang,Chenchen Zhang,Renjun Gao,Ziru Chen,Cheng Li,Dasa Gu,Rui Huang,Alexis Kai Hon Lau
Main category: cs.CV
TL;DR: 提出LC4-DViT框架,结合文本引导的生成数据增强和变形感知Vision Transformer,用于高分辨率土地覆盖分类,显著提升分类精度和可迁移性。
- Motivation: 土地覆盖图对生态系统服务、水文调节和灾害风险管理至关重要,但遥感分类面临标注数据稀缺、类别不平衡以及高分辨率图像几何失真等挑战。
- Method: 1) 使用GPT-4o生成场景描述,结合超分辨率样本,通过文本引导扩散管道合成类别平衡的高保真训练图像;2) 提出DViT模型,将DCNv4可变形卷积骨干与Vision Transformer编码器结合,共同捕捉细粒度几何特征和全局上下文。
- Result: 在AID数据集8个类别上达到0.9572总体准确率、0.9576宏F1分数和0.9510 Cohen's Kappa,优于ViT基线和其他模型。跨数据集实验在SIRI-WHU子集上达到0.9333总体准确率,显示良好可迁移性。GPT-4o评估显示DViT注意力与水文结构最匹配。
- Conclusion: 描述驱动的生成增强与变形感知transformer相结合,是高分辨率土地覆盖制图的有效方法,能解决数据稀缺和几何失真问题,提升分类性能和模型可解释性。
[118] Captain Safari: A World Engine
Yu-Cheng Chou,Xingrui Wang,Yitong Li,Jiahao Wang,Hanting Liu,Cihang Xie,Alan Yuille,Junfei Xiao
Main category: cs.CV
TL;DR: Captain Safari 是一个基于姿态条件的世界引擎,通过从持久世界记忆中检索来生成视频,解决了现有系统在复杂6-DoF轨迹和户外场景中保持长期几何一致性的问题。
- Motivation: 现有世界引擎在激进的6自由度相机轨迹和复杂户外布局下表现不佳,会失去长距离几何一致性、偏离目标路径或产生过于保守的运动。需要一种能够维持稳定3D结构并准确执行挑战性相机操作的方法。
- Method: 提出姿态条件的世界引擎Captain Safari,通过维护动态局部记忆,使用检索器获取姿态对齐的世界标记,这些标记沿着轨迹条件化视频生成。还构建了OpenSafari数据集,包含经过多阶段几何和运动学验证的高动态无人机视频。
- Result: 在视频质量、3D一致性和轨迹跟随方面显著优于现有相机控制生成器:MEt3R从0.3703降至0.3690,AUC@30从0.181提升至0.200,FVD显著更低。在50人参与的5向人类研究中,67.6%的偏好选择该方法。
- Conclusion: 姿态条件的世界记忆是实现长时域可控视频生成的强大机制,OpenSafari为未来世界引擎研究提供了具有挑战性的新基准。
[119] Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs
Tianle Chen,Chaitanya Chakka,Arjun Reddy Akula,Xavier Thomas,Deepti Ghadiyaram
Main category: cs.CV
TL;DR: 该论文研究了多模态大语言模型对矛盾模态的鲁棒性,发现现有模型在音频-视觉对错位和误导性文本下表现脆弱,并提出了一种模态对齐调优策略来提升多模态推理能力。
- Motivation: 尽管多模态大语言模型取得了显著进展,但一个基本问题仍然存在:MLLMs是否对矛盾的模态具有鲁棒性?作者旨在系统地研究模型对特定模态的依赖程度,并分析其脆弱性。
- Method: 1. 引入MMA-Bench基准测试,包含视频和任务来探测模型对特定模态的依赖;2. 使用黑盒和白盒可解释性技术分析模型脆弱性;3. 提出模态对齐调优策略,教导模型何时优先考虑、利用或忽略特定模态线索。
- Result: 研究发现当前MLLMs在错位的音频-视觉对和简单的误导性文本下表现不佳,缺乏稳健的多模态推理能力。提出的对齐调优策略能够显著增强多模态基础能力,通过大量实验验证了其有效性。
- Conclusion: 这项工作提供了可解释性工具和明确的路径,用于开发具有内在可靠跨模态推理能力的MLLMs。代码和数据集将公开可用,为未来研究奠定了基础。
[120] Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering
Dosung Lee,Sangwon Jung,Boyoung Kim,Minyoung Kim,Sungyeon Kim,Junyoung Sung,Paul Hongsuck Seo
Main category: cs.CV
TL;DR: 提出RETINA基准测试解决MKB-VQA中"视觉捷径"问题,并开发MIMIR模型通过多图像增强来处理该基准
- Motivation: 现有MKB-VQA基准存在"视觉捷径"问题,查询图像通常与目标文档的主要实体匹配,模型可以仅利用视觉线索获得可比结果,这不能反映真实的多模态知识推理能力
- Method: 1) 使用LLM驱动的流程自动构建RETINA基准,包含12万训练数据和2千人工标注测试集;2) 提出MIMIR模型,通过增强多个相关实体的图像来丰富文档嵌入,而先前工作每个文档只使用单张图像
- Result: 在RETINA基准上,现有模型性能显著下降,证实它们依赖视觉捷径;MIMIR能有效处理RETINA基准,优于先前方法
- Conclusion: RETINA基准揭示了现有MKB-VQA基准的局限性,MIMIR通过多图像增强有效解决了视觉捷径问题,为更真实的多模态知识推理评估提供了新基准
[121] Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding
Keliang Liu,Zizhi Chen,Mingcheng Li,Jingqun Tang,Dingkang Yang,Lihua Zhang
Main category: cs.CV
TL;DR: SLEUTH是一个多智能体框架,通过分层精炼过程解决长文档理解问题,利用检索器和四个协作智能体识别关键线索、筛选视觉证据、制定推理策略,最终生成证据密集的多模态上下文进行预测。
- Motivation: 视觉语言模型在单页文档任务上表现良好,但在处理长文档时效果下降。长文档中线索分散在多页和多模态中,冗长输入会损害模型判断。现有检索增强生成方法虽然能筛选相关内容,但检索结果仍包含大量冗余。
- Method: 提出SLEUTH多智能体框架,采用从粗到细的处理流程:1) 检索器获取相关页面;2) 四个协作智能体:识别关键文本和视觉线索、筛选表格和图表等显著视觉证据、分析查询制定推理策略、合成蒸馏后的证据密集多模态上下文;3) 生成最终预测。框架与模型无关且可扩展。
- Result: 当与先进的视觉语言模型骨干结合时,SLEUTH在多个长文档基准测试中持续提升性能,达到最先进结果。消融研究验证了每个模块的有效性,并确认了分层精炼范式的优势。
- Conclusion: SLEUTH通过多智能体协作和分层精炼过程有效解决了长文档理解中的冗余和线索分散问题,提高了视觉语言模型在长文档任务上的性能,为文档理解提供了可扩展的解决方案。
[122] GLOW: Global Illumination-Aware Inverse Rendering of Indoor Scenes Captured with Dynamic Co-Located Light & Camera
Jiaye Wu,Saeed Hadadan,Geng Lin,Peihan Tu,Matthias Zwicker,David Jacobs,Roni Sengupta
Main category: cs.CV
TL;DR: GLOW是一个全局光照感知的逆向渲染框架,专门处理共置光-相机设置中的复杂光照问题,包括强互反射、动态阴影、近场照明和移动高光,显著提升了室内场景的材料反射率估计精度。
- Motivation: 室内场景的逆向渲染面临反射率和光照之间的模糊性问题,多物体间的互反射加剧了这一挑战。虽然自然光照方法难以解决这种模糊性,但共置光-相机设置提供了更好的解耦能力,然而这种设置引入了新的复杂性:强互反射、动态阴影、近场照明和移动高光,现有方法无法有效处理这些问题。
- Method: GLOW框架结合了神经隐式表面表示和神经辐射缓存来近似全局光照,通过精心设计的正则化和初始化联合优化几何和反射率。引入了动态辐射缓存来适应近场运动产生的尖锐光照不连续性,以及表面角度加权的辐射度量损失来抑制手电筒捕捉中常见的镜面伪影。
- Result: 实验表明,GLOW在自然光照和共置光照条件下,在材料反射率估计方面显著优于先前的方法。
- Conclusion: GLOW通过全局光照感知的逆向渲染框架,成功解决了共置光-相机设置中的复杂光照问题,为室内场景的精确材料反射率估计提供了有效的解决方案。
[123] CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation
Fengyi Fang,Sicheng Yang,Wenming Yang
Main category: cs.CV
TL;DR: CoordSpeaker:首个通过手势理解与描述解决语义鸿沟的协同语音手势生成框架,实现文本驱动的非自发手势合成
- Motivation: 现有语音手势生成方法存在两个关键挑战:1)手势数据集缺乏描述性文本标注导致的语义先验鸿沟;2)难以实现协调的多模态手势生成控制。传统方法忽略了文本驱动的非自发手势(如说话时鞠躬)
- Method: 1)提出新颖的手势描述框架,利用运动-语言模型生成多粒度描述性标注;2)构建条件潜在扩散模型,采用统一跨数据集运动表示和分层控制去噪器,实现高度可控的协调手势生成
- Result: 方法生成高质量手势,既与语音节奏同步,又与任意描述语义一致,相比现有方法实现了更优性能且效率更高
- Conclusion: CoordSpeaker首次探索手势理解与描述来解决手势生成中的语义鸿沟问题,同时提供了手势-文本双向映射的新视角,推动了协同语音手势合成的发展
[124] Scalable Diffusion Transformer for Conditional 4D fMRI Synthesis
Jungwoo Seo,David Keetae Park,Shinjae Yoo,Jiook Cha
Main category: cs.CV
TL;DR: 首个用于体素级4D fMRI条件生成的扩散Transformer模型,通过3D VQ-GAN潜在压缩和CNN-Transformer架构,在HCP任务fMRI数据上实现了高质量的任务条件化脑活动序列生成。
- Motivation: 生成全脑4D fMRI序列面临挑战:高维度、跨被试/采集的异质性BOLD动态,以及缺乏神经科学基础的验证方法。需要开发能够条件化生成任务相关脑活动的方法。
- Method: 结合3D VQ-GAN进行潜在空间压缩,使用CNN-Transformer作为主干网络,通过AdaLN-Zero和交叉注意力实现强任务条件化,构建扩散Transformer模型进行体素级4D fMRI生成。
- Result: 在HCP任务fMRI上:重现任务诱发激活图(相关性0.83),保持真实数据中的任务间表征结构(RSA 0.98),实现完美条件特异性,ROI时间序列与典型血流动力学响应对齐。性能随模型规模可预测提升,在所有指标上均超越U-Net基线。
- Conclusion: 通过潜在扩散与可扩展主干网络及强条件化的结合,为条件化4D fMRI合成建立了实用路径,为虚拟实验、跨站点协调、以及下游神经影像模型的原则性增强等应用铺平道路。
[125] CNN-Based Framework for Pedestrian Age and Gender Classification Using Far-View Surveillance in Mixed-Traffic Intersections
Shisir Shahriar Arif,Md. Muhtashim Shahrier,Nazmul Haque,Md Asif Raihan,Md. Hadiuzzaman
Main category: cs.CV
TL;DR: 提出一个深度学习框架,利用卷积神经网络从远距离交叉口监控视频中分类行人年龄组和性别,无需面部识别或高分辨率图像,为交通规划和安全管理提供人口统计洞察。
- Motivation: 在拥堵的城市交叉口,特别是在低收入和中等收入国家,行人安全是一个紧迫问题。人口统计因素如年龄和性别显著影响行人脆弱性,但实时监控系统很少捕获这些信息。现有基础设施缺乏正式控制,且交通模式多样,需要一种能够在不依赖面部识别或高分辨率图像的情况下,从现有监控摄像头中提取人口统计信息的方法。
- Method: 开发了一个深度学习框架,将行人年龄组和性别分类统一为六类问题(成人、青少年、儿童的男性和女性)。使用从孟加拉国达卡三个高风险交叉口收集的视频数据。实现了两种CNN架构:基于ImageNet预训练的ResNet50深度卷积神经网络,以及为计算效率优化的自定义轻量级CNN。探索了八种模型变体,结合不同的池化策略和优化器。
- Result: ResNet50与Max Pooling和SGD优化器实现了最高准确率(86.19%),而自定义CNN表现相当(84.15%),但参数更少、训练更快。该模型的高效设计使其能够在标准监控视频流上进行实时推理。
- Conclusion: 该框架为从业者提供了一个可扩展、经济高效的工具,可以利用现有摄像头基础设施监控交叉口行人人口统计。其输出可以影响交叉口设计、优化信号时序,并为儿童或老年人等弱势群体提供有针对性的安全干预。通过提供传统交通数据中通常缺失的人口统计洞察,该框架支持混合交通环境中更具包容性、数据驱动的规划。
[126] ClearGCD: Mitigating Shortcut Learning For Robust Generalized Category Discovery
Kailin Lyu,Jianwei He,Long Xiao,Jianing Zeng,Liang Fan,Lin Shu,Jie Hao
Main category: cs.CV
TL;DR: ClearGCD框架通过语义视图对齐和捷径抑制正则化解决广义类别发现中的原型混淆问题,提升已知和新类别的识别性能
- Motivation: 在开放世界场景中,广义类别发现需要在无标签数据中识别已知和新类别。现有方法常因捷径学习导致原型混淆,这会削弱泛化能力并导致已知类别的遗忘。
- Method: 提出ClearGCD框架,包含两个互补机制:1) 语义视图对齐:通过跨类别补丁替换生成强增强,并使用弱增强强制语义一致性;2) 捷径抑制正则化:维护自适应原型库,对齐已知类别同时鼓励潜在新类别的分离。
- Result: ClearGCD可以无缝集成到参数化GCD方法中,在多个基准测试中持续优于最先进的方法。
- Conclusion: ClearGCD通过减少对非语义线索的依赖,有效缓解了广义类别发现中的原型混淆问题,提高了模型的泛化能力和类别识别性能。
[127] DM T: Harmonizing Modalities via Diffusion for Multi-Object Tracking
Weiran Li,Yeqiang Liu,Yijie Wei,Mina Han,Qiannan Guo,Zhenbo Li
Main category: cs.CV
TL;DR: DM³T:一种基于扩散模型的多模态多目标跟踪框架,通过迭代特征对齐实现可见光与热红外模态的深度融合,在VT-MOT基准上达到41.7 HOTA,优于现有方法。
- Motivation: 多模态MOT对于自动驾驶系统至关重要,但可见光与热红外模态之间存在显著的非线性分布差异,传统的拼接或相加等简单融合策略会导致模态冲突并降低跟踪精度。
- Method: 提出DM³T框架,将多模态融合重新定义为迭代特征对齐过程:1)通过跨模态扩散融合模块进行迭代跨模态协调;2)引入即插即用的扩散精炼器增强统一特征表示;3)设计分层跟踪器自适应处理置信度估计。
- Result: 在VT-MOT基准测试中达到41.7 HOTA,相对现有最优方法提升1.54%,将目标检测、状态估计和数据关联统一为无需复杂后处理的在线跟踪框架。
- Conclusion: DM³T通过扩散模型的迭代优化思想有效解决了多模态特征融合的挑战,实现了更准确、时间一致的目标轨迹生成,为多模态MOT提供了新的解决方案。
[128] From Points to Clouds: Learning Robust Semantic Distributions for Multi-modal Prompts
Weiran Li,Yeqiang Liu,Yijie Wei,Mina Han,Xin Liu,Zhenbo Li
Main category: cs.CV
TL;DR: P2C框架将多模态提示学习从静态点表示转变为学习语义云分布,通过扩散模型启发的动态去噪机制提升泛化能力
- Motivation: 现有多模态提示学习方法局限于优化单个静态点表示,导致模型脆弱、容易在基础类上过拟合,对新类别或模糊类别泛化能力差
- Method: 提出Points-to-Clouds框架,将提示学习重构为动态去噪任务,包含动态提示去噪机制(对文本提示添加退火噪声)和辅助的V-L映射器去噪损失(将映射器重构为去噪自编码器)
- Result: 在11个数据集上的实验表明,P2C始终优于强基线方法,在基础到新类泛化基准上达到79.7%的调和平均,相对基线提升1.4%
- Conclusion: 通过将点表示范式转变为语义云分布学习,P2C框架显著提升了多模态提示学习的鲁棒性和泛化能力
[129] Leveraging Textual Compositional Reasoning for Robust Change Captioning
Kyu Ri Park,Jiyoung Park,Seong Tae Kim,Hong Joo Lee,Jung Uk Kim
Main category: cs.CV
TL;DR: CORTEX是一个结合视觉和文本特征的变化描述框架,通过视觉语言模型提取场景级文本知识来增强对图像间细微变化的理解。
- Motivation: 现有变化描述方法仅依赖视觉特征,难以捕捉细微但有意义的变化,因为它们缺乏对结构化信息(如对象关系和组合语义)的显式表示能力。
- Method: CORTEX包含三个核心模块:1)图像级变化检测器识别像素级差异;2)推理感知文本提取模块使用VLM生成组合推理描述;3)图像-文本双重对齐模块对齐视觉和文本特征进行细粒度关系推理。
- Result: CORTEX能够同时推理视觉和文本特征,捕捉仅靠视觉特征难以识别的模糊变化,提升了变化描述的性能。
- Conclusion: 通过整合互补的文本线索,CORTEX框架显著增强了变化理解能力,解决了现有方法在捕捉细微变化方面的局限性。
[130] See, Rank, and Filter: Important Word-Aware Clip Filtering via Scene Understanding for Moment Retrieval and Highlight Detection
YuEun Lee,Jung Uk Kim
Main category: cs.CV
TL;DR: 提出一种通过识别查询中重要单词进行细粒度视频片段过滤的新方法,显著提升了视频时刻检索和高光检测的性能。
- Motivation: 现有方法将整个文本查询和视频片段视为黑盒,忽略了单个单词的重要性,这阻碍了上下文理解。需要一种能够识别查询中重要单词并进行细粒度过滤的方法。
- Method: 1. 使用多模态大语言模型(MLLMs)进行图像-文本场景理解;2. 引入特征增强模块(FEM)捕获查询中的重要单词;3. 设计基于排名的过滤模块(RFM)根据重要单词相关性迭代优化视频片段。
- Result: 在视频时刻检索(MR)和高光检测(HD)任务上,该方法显著优于现有最先进方法,取得了卓越的性能表现。
- Conclusion: 通过识别查询中的重要单词并进行细粒度过滤,结合多模态大语言模型,能够有效提升视频理解任务的性能,为视频检索和检测提供了新思路。
[131] ViGG: Robust RGB-D Point Cloud Registration using Visual-Geometric Mutual Guidance
Congjia Chen,Shen Yan,Yufu Qu
Main category: cs.CV
TL;DR: ViGG是一种鲁棒的RGB-D点云配准方法,通过视觉-几何相互引导策略,在几何引导下抑制模糊匹配,在视觉引导下提取高质量对应关系,在多个数据集上优于现有方法。
- Motivation: 现有点云配准方法主要依赖几何信息,而RGB-D配准方法多关注特征融合或改进特征学习,限制了图像信息的充分利用,阻碍了实际应用。
- Method: 提出ViGG方法,采用相互引导策略:1) 几何引导设计抑制模糊的团对齐;2) 视觉引导的几何匹配利用视觉先验确定搜索空间,提取高质量、对噪声不敏感的对应关系。
- Result: 在3DMatch、ScanNet和KITTI数据集上的实验表明,该方法在无学习和基于学习的设置中都优于最近的最先进方法。
- Conclusion: 相互引导策略使ViGG具有卓越的鲁棒性,适用于各种RGB-D配准任务,代码已开源。
[132] Artwork Interpretation with Vision Language Models: A Case Study on Emotions and Emotion Symbols
Sebastian Padó,Kerstin Thomas
Main category: cs.CV
TL;DR: 该研究评估了当前视觉语言模型在识别艺术作品情感表达方面的能力,发现模型能较好识别图像内容和情感,但在抽象/象征性图像和符号识别方面表现不佳,且存在回答不一致的问题。
- Motivation: 情感是艺术表达的基本方面,但由于其抽象性,艺术作品中的情感表达具有广泛谱系,且受历史变迁影响,分析需要艺术史专业知识。本研究旨在探究当前视觉语言模型能检测到情感表达的哪些方面。
- Method: 对三个视觉语言模型(Llava-Llama和两个Qwen模型)进行案例研究,提出四组复杂度递增的问题(一般内容、情感内容、情感表达、情感符号),并进行定性专家评估。
- Result: VLMs能很好地识别图像内容,通常也能识别描绘的情感和表达方式。模型在具体图像上表现最佳,但在高度抽象或高度象征性图像上失败。可靠识别符号仍然存在根本性困难。模型继续表现出已知的LLM弱点,即对相关问题提供不一致的答案。
- Conclusion: 当前视觉语言模型在识别艺术作品情感表达方面显示出一定能力,但在处理抽象/象征性内容和符号识别方面仍有局限,且存在回答一致性问题,表明需要进一步改进。
[133] NeuMatC: A General Neural Framework for Fast Parametric Matrix Operation
Chuan Wang,Xi-le Zhao,Zhilong Han,Liang Li,Deyu Meng,Michael K. Ng
Main category: cs.CV
TL;DR: NeuMatC是一个神经矩阵计算框架,通过学习参数到矩阵运算结果的低秩连续映射,显著加速参数化矩阵运算(如求逆和SVD),减少冗余计算。
- Motivation: 在无线通信和信号处理等应用中,需要对连续变化的参数矩阵重复进行矩阵运算。传统方法独立处理每个矩阵运算,忽略了参数维度上的低秩性和连续性,导致大量冗余计算。
- Method: 提出神经矩阵计算框架NeuMatC,无监督学习从参数到对应矩阵运算结果的低秩连续映射。训练后,只需少量基本操作(矩阵乘法和非线性激活)即可在任意参数下高效计算。
- Result: 实验表明,NeuMatC在参数化矩阵求逆上实现3倍以上加速,在参数化SVD上实现10倍以上加速(相比NumPy基准),同时保持可接受的精度。
- Conclusion: NeuMatC通过利用参数维度上的低秩性和连续性,有效解决了参数化矩阵运算中的冗余计算问题,为无线通信等领域的实时应用提供了高效解决方案。
[134] Robust Image Self-Recovery against Tampering using Watermark Generation with Pixel Shuffling
Minyoung Kim,Paul Hongsuck Seo
Main category: cs.CV
TL;DR: ReImage:基于神经水印的图像自恢复框架,通过将图像自身的打乱版本作为水印嵌入,实现篡改区域的准确恢复
- Motivation: 随着AIGC的快速发展,数字媒体的真实性受到挑战。图像自恢复技术能够从篡改版本中重建原始内容,有助于理解攻击者意图并恢复可信数据。然而现有方法往往无法准确恢复篡改区域,达不到自恢复的主要目标。
- Method: 提出ReImage框架:1)将目标图像的打乱版本作为水印嵌入到图像自身中;2)设计生成器产生适用于神经水印的水印;3)引入图像增强模块来优化恢复图像;4)分析并解决打乱水印的关键限制,使其有效用于自恢复。
- Result: ReImage在多种篡改场景下实现了最先进的性能,能够持续产生高质量的恢复图像。
- Conclusion: ReImage框架通过神经水印和打乱水印技术,有效解决了图像自恢复中准确恢复篡改区域的挑战,为数字媒体真实性保护提供了实用解决方案。
[135] Barcode and QR Code Object Detection: An Experimental Study on YOLOv8 Models
Kushagra Pandya,Heli Hathi,Het Buch,Ravikumar R N,Shailendrasinh Chauhan,Sushil Kumar Singh
Main category: cs.CV
TL;DR: 该研究深入评估了YOLOv8算法在条形码和二维码识别中的效率,通过不同模型尺寸(Nano、Small、Medium)的对比实验,展示了模型缩放对检测精度的影响。
- Motivation: 研究旨在利用YOLOv8的实时检测能力,提升其在条形码和二维码识别中的准确性和速度,探索模型缩放如何影响物体检测性能。
- Method: 使用Kaggle数据集对YOLOv8进行大规模训练和微调,评估Nano、Small、Medium三个不同尺寸的模型迭代,重点关注精确率、召回率和F1分数等评估指标。
- Result: 实验结果显示:Nano模型准确率为88.95%,Small模型达到97.10%,Medium模型为94.10%,表明模型缩放带来了显著的性能提升,特别是Small模型表现最佳。
- Conclusion: YOLOv8在计算机视觉领域取得了重大进展,模型缩放策略有效提升了物体检测精度,为深度学习计算机视觉技术的发展提供了重要参考。
[136] DenoiseGS: Gaussian Reconstruction Model for Burst Denoising
Yongsen Cheng,Yuanhao Cai,Yulun Zhang
Main category: cs.CV
TL;DR: DenoiseGS:首个利用3D高斯泼溅进行突发去噪的框架,通过高斯自一致性损失和log加权频率损失解决噪声输入下的几何退化和细节丢失问题,比NeRF方法快250倍。
- Motivation: 现有突发去噪方法在处理大运动时效果不佳或计算成本过高,需要一种既能处理噪声输入又能保持高效推理的方法。
- Method: 提出DenoiseGS框架,包含两个关键组件:1) 高斯自一致性(GSC)损失,用干净输入生成的高质量高斯点云正则化噪声输入的几何预测;2) log加权频率(LWF)损失,在频域进行自适应加权监督,强调高频细节。
- Result: DenoiseGS在噪声条件下的突发去噪和新视角合成任务上显著超越最先进的NeRF方法,同时实现250倍的推理速度提升。
- Conclusion: DenoiseGS成功将3D高斯泼溅的高效性应用于突发去噪,通过创新的损失函数解决了噪声输入下的几何退化和细节保留问题,为实时高质量图像增强提供了新方案。
[137] One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfe
Shijun Shi,Jing Xu,Zhihang Li,Chunli Peng,Xiaoda Yang,Lijing Lu,Kai Hu,Jiangning Zhang
Main category: cs.CV
TL;DR: 提出One-to-All Animation框架,解决现有扩散模型在姿态驱动角色动画中只能处理空间对齐参考姿态的问题,支持任意布局参考的高保真角色动画和图像姿态迁移。
- Motivation: 现有扩散模型在姿态驱动角色动画中只能处理空间对齐的参考-姿态对,无法处理参考姿态空间错位的问题,限制了实际应用场景。
- Method: 1) 将训练重构为自监督外绘任务,将多样布局参考转换为统一遮挡输入格式;2) 设计参考提取器提取全面身份特征;3) 集成混合参考融合注意力处理不同分辨率和动态序列长度;4) 引入身份鲁棒姿态控制解耦外观与骨骼结构;5) 使用令牌替换策略实现连贯长视频生成。
- Result: 大量实验表明,该方法在角色动画和图像姿态迁移任务上优于现有方法,能够处理空间错位参考并生成高质量结果。
- Conclusion: One-to-All Animation是一个统一的框架,能够处理任意布局参考的高保真角色动画和图像姿态迁移,解决了现有方法的空间对齐限制问题。
[138] Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation
Taeyeong Kim,SeungJoon Lee,Jung Uk Kim,MyeongAh Cho
Main category: cs.CV
TL;DR: FLEX-Seg利用扩散生成数据中的固有错位,通过多尺度边界原型、不确定性边界强调和难度感知采样,将错位转化为鲁棒学习机会,提升语义分割的域泛化性能。
- Motivation: 语义分割的域泛化面临域偏移挑战,特别是在恶劣条件下。基于扩散的数据生成方法虽有前景,但会引入生成图像与语义掩码之间的固有错位。本文旨在将这一限制转化为鲁棒学习的机会。
- Method: FLEX-Seg包含三个核心组件:(1) 多尺度粒度自适应原型捕捉边界特征;(2) 不确定性边界强调根据预测熵动态调整学习重点;(3) 难度感知采样逐步聚焦于困难样本。通过利用固有错位而非强制严格对齐,学习鲁棒表示并捕获丰富的风格变化。
- Result: 在五个真实世界数据集上的实验显示,相比最先进方法取得一致改进,在ACDC和Dark Zurich数据集上分别获得2.44%和2.63%的mIoU提升。
- Conclusion: 验证了处理不完美合成数据的自适应策略能带来优越的域泛化性能,将数据生成中的错位限制转化为鲁棒学习机会。
[139] RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video
Haiyang Mei,Qiming Huang,Hai Ci,Mike Zheng Shou
Main category: cs.CV
TL;DR: RobotSeg:基于SAM 2构建的机器人分割基础模型,通过结构增强记忆关联器、机器人提示生成器和标签高效训练策略,解决了机器人分割中的关节结构、手动提示和标注需求问题,在图像和视频分割上达到SOTA性能。
- Motivation: 机器人分割是机器人感知的基础能力,对视觉伺服、数据增强、虚实转换和安全监控至关重要。尽管现代分割模型能力强大,但由于机器人形态多样性、外观模糊性、结构复杂性和快速形状变化,机器人分割仍然具有挑战性。
- Method: 基于SAM 2基础模型,引入三个创新:1) 结构增强记忆关联器,适应关节机器人结构;2) 机器人提示生成器,实现自动提示而非手动;3) 标签高效训练策略,减少逐帧标注需求。同时构建了包含2.8k视频(138k帧)的VRS数据集。
- Result: RobotSeg在图像和视频分割任务上均实现了最先进的性能,为机器人感知建立了强大的基础。实验证明该模型能有效处理机器人分割的挑战性问题。
- Conclusion: RobotSeg通过结构感知、自动化和标签高效的解决方案,成功解决了机器人分割中的关键挑战,为未来机器人感知的进步奠定了坚实基础。
[140] Contrastive Heliophysical Image Pretraining for Solar Dynamics Observatory Records
Shiyu Shen,Zhe Gao,Taifeng Chai,Yang Huang,Bin Pan
Main category: cs.CV
TL;DR: SolarCHIP:针对SDO多仪器观测的对比预训练视觉骨干网络,通过多粒度对比学习解决太阳图像分析中的模态差异、类间可分性弱和类内变异性强等挑战。
- Motivation: 现有深度学习太阳图像分析方法要么从头训练任务特定编码器,要么依赖忽略SDO数据独特性的自然图像预训练。需要专门针对SDO多仪器观测的预训练骨干网络。
- Method: 提出多粒度对比预训练框架:1)全局类别标记对齐增强时间区分;2)固定空间索引的局部补丁标记对齐实现位置一致、模态不变特征;3)不同空间位置的样本内补丁对齐保留细粒度空间结构。训练CNN和Vision Transformer自编码器。
- Result: SolarCHIP在HMI与AIA通道间的跨模态翻译和全日面耀斑分类任务上达到最先进性能,在低资源设置下表现尤为突出。消融研究证实每个对比组件在不同粒度上贡献了关键区分能力。
- Conclusion: SolarCHIP为太阳物理学界提供了实用的即插即用特征提取器,降低了计算需求,提高了标签效率,为多样化的太阳成像应用建立了可重复使用的基础。
[141] HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model
Chen Li,Eric Peh,Basura Fernando
Main category: cs.CV
TL;DR: 提出一种新颖的分层多模态表示方法,通过多视角图像和文本描述在输入空间显式对齐视觉语言模型,用于3D场景推理。
- Motivation: 现有基于VLM的3D场景理解方法通常将3D场景特征与VLM的嵌入空间对齐,但这种隐式对齐由于3D数据稀缺和3D环境空间关系复杂,往往导致性能不佳。
- Method: 提出分层多模态表示方法:1) 在输入空间显式对齐VLM,利用多视角图像(俯视图和四个方向视图)和文本描述;2) 文本描述通过引用检测对象的3D坐标来捕捉空间关系;3) 分层特征表示将图像块特征聚合为视图级和场景级表示。
- Result: 在situated 3D Q&A和general 3D Q&A基准测试中展示了方法的有效性。
- Conclusion: 提出的分层多模态表示方法通过显式对齐和综合场景覆盖,显著提升了3D场景推理性能。
[142] Taming the Light: Illumination-Invariant Semantic 3DGS-SLAM
Shouhe Zhang,Dayong Ren,Sensen Song,Yurong Qian,Zhenhong Jia
Main category: cs.CV
TL;DR: 提出一种新颖的语义SLAM框架,通过内在外观归一化模块和动态辐射平衡损失,实现光照不变性,提升极端曝光条件下的系统鲁棒性。
- Motivation: 极端曝光会同时降低3D地图重建和语义分割的准确性,这对紧耦合系统尤为有害。现有方法缺乏有效的光照不变性机制,导致在极端光照条件下性能下降。
- Method: 提出两个核心设计:1) 内在外观归一化(IAN)模块,主动解耦场景内在属性(如反照率)与瞬时光照,学习标准化的光照不变外观模型;2) 动态辐射平衡损失(DRB-Loss),仅在图像曝光不佳时激活,直接在辐射场层面进行针对性优化。
- Result: 在公开数据集上的评估表明,该方法在相机跟踪、地图质量、语义和几何精度方面均达到了最先进的性能水平。
- Conclusion: IAN的主动不变性与DRB-Loss的被动校正相结合,赋予系统前所未有的鲁棒性,有效解决了极端光照条件下的语义SLAM挑战。
[143] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
Zeyu Zhang,Shuning Chang,Yuanyu He,Yizeng Han,Jiasheng Tang,Fan Wang,Bohan Zhuang
Main category: cs.CV
TL;DR: BlockVid:一种新颖的块扩散框架,通过语义感知稀疏KV缓存、块强制训练策略和专用噪声调度,解决了长视频生成中的错误累积问题,在LV-Bench基准上显著提升了分钟级视频的生成质量和连贯性。
- Motivation: 生成分钟级视频是开发世界模型的关键步骤,但现有的半自回归(块扩散)方法面临两个主要挑战:KV缓存导致的长时域错误累积,以及缺乏细粒度的长视频基准和连贯性感知指标。
- Method: 提出BlockVid框架,包含:1)语义感知稀疏KV缓存减少错误传播;2)块强制训练策略;3)专用块级噪声调度和混洗增强时间一致性。同时提出LV-Bench细粒度分钟级视频基准和新连贯性评估指标。
- Result: 在VBench和LV-Bench上的实验表明,BlockVid在生成高质量、连贯的分钟级视频方面始终优于现有方法。在LV-Bench上,VDE Subject指标提升22.2%,VDE Clarity指标提升19.4%,显著优于最先进方法。
- Conclusion: BlockVid通过创新的块扩散框架和训练策略,有效解决了长视频生成中的错误累积问题,结合新的LV-Bench基准,为分钟级视频生成提供了更可靠的评估体系,推动了世界模型和AI模拟器的发展。
[144] McSc: Motion-Corrective Preference Alignment for Video Generation with Self-Critic Hierarchical Reasoning
Qiushi Yang,Yingjie Chen,Yuan Yao,Yifang Men,Huaizhuo Liu,Miaomiao Cui
Main category: cs.CV
TL;DR: McSc提出了一种三阶段强化学习框架,通过自批评维度推理、层次比较推理和运动校正直接偏好优化,解决文本到视频生成中人类偏好对齐的挑战,特别是避免模型偏向低运动内容。
- Motivation: 现有视频偏好对齐方法依赖昂贵的人工标注或使用代理指标预测偏好,缺乏对人类偏好逻辑的理解。它们通常直接对齐整体偏好分布,忽略了运动动态和视觉质量等潜在冲突维度,可能导致模型偏向低运动内容。
- Method: McSc包含三个阶段:1) 自批评维度推理(ScDR)训练生成奖励模型,将偏好分解为维度评估;2) 层次比较推理(HCR)进行结构化多维度推理;3) 运动校正直接偏好优化(McDPO)优化T2V模型,动态重新加权对齐目标以减轻低运动内容偏差。
- Result: 实验表明,McSc在人类偏好对齐方面实现了优越性能,并生成了具有高运动动态的视频。
- Conclusion: McSc通过三阶段强化学习框架有效解决了T2V生成中人类偏好对齐的挑战,特别是通过运动校正机制避免了模型偏向低运动内容的问题。
[145] Ovis-Image Technical Report
Guo-Hua Wang,Liangfu Cao,Tianyu Cui,Minghao Fu,Xiaohao Chen,Pengxin Zhan,Jianshan Zhao,Lan Li,Bowen Fu,Jiaqi Liu,Qing-Guo Chen
Main category: cs.CV
TL;DR: Ovis-Image是一个7B参数的文本到图像模型,专门优化高质量文本渲染,能在计算资源受限条件下高效运行,性能接近更大模型但部署成本更低。
- Motivation: 解决现有文本到图像模型在文本渲染方面需要超大模型或专有系统的问题,同时降低部署门槛,让高质量文本渲染能在单GPU上实现。
- Method: 基于Ovis-U1框架,结合扩散视觉解码器和更强的Ovis 2.5多模态骨干网络,采用以文本为中心的训练流程,包括大规模预训练和精心设计的后训练优化。
- Result: Ovis-Image在文本渲染性能上与更大的开源模型(如Qwen-Image)相当,接近闭源系统(如Seedream和GPT4o),同时能在单高端GPU上部署。
- Conclusion: 强大的多模态骨干网络加上精心设计的文本中心化训练方法,足以实现可靠的双语文本渲染,无需依赖超大或专有模型,缩小了前沿文本渲染与实用部署之间的差距。
[146] Convolutional Feature Noise Reduction for 2D Cardiac MR Image Segmentation
Hong Zheng,Nan Mu,Han Su,Lin Feng,Xiaoning Li
Main category: cs.CV
TL;DR: 提出卷积特征滤波器(CFF)来减少分割网络中卷积特征的噪声,通过低幅度滤波器降低特征信号矩阵的噪声,在2D分割网络和心脏MR数据集上验证有效性
- Motivation: 数字信号处理中的噪声减少在分割网络的卷积特征处理中经常被忽视,这种疏忽可能引发蝴蝶效应,损害整个特征系统的后续结果
- Method: 将符合高斯分布的卷积特征视为特征信号矩阵,提出卷积特征滤波器(CFF),这是一种低幅度通滤波器,旨在最小化特征信号输入中的噪声
- Result: 在两个成熟的2D分割网络和两个公共心脏MR图像数据集上的实验验证了CFF的有效性,实验结果显示特征信号矩阵中的噪声减少
- Conclusion: 开发了二值化方程来计算特征信号的信息熵,以数值化观察和分析噪声减少效果,提出的CFF滤波器简单有效
[147] MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
Yuta Oshima,Daiki Miyake,Kohsei Matsutani,Yusuke Iwasawa,Masahiro Suzuki,Yutaka Matsuo,Hiroki Furuta
Main category: cs.CV
TL;DR: MultiBanana是一个新的多参考图像生成基准测试,旨在评估文本到图像模型在多种复杂多参考条件下的能力,包括参考数量变化、领域不匹配、尺度不匹配、罕见概念和多语言文本参考。
- Motivation: 现有基准测试主要关注单参考或少量参考图像生成,无法全面评估模型在多参考条件下的性能,且任务定义模糊,无法捕捉多参考设置的内在难度。
- Method: 设计MultiBanana基准测试,广泛覆盖多参考特定问题:1) 参考数量变化,2) 参考间领域不匹配(如照片vs动漫),3) 参考与目标场景尺度不匹配,4) 包含罕见概念的参考,5) 多语言文本参考。
- Result: 对多种文本到图像模型的分析揭示了它们的优越性能、典型失败模式和需要改进的领域。MultiBanana将作为开放基准发布,推动多参考图像生成的发展并建立公平比较的标准基础。
- Conclusion: MultiBanana填补了多参考图像生成评估的空白,通过系统化的基准设计能够更全面地评估模型能力,为领域发展提供标准化评估框架。
[148] MIMM-X: Disentangling Spurious Correlations for Medical Image Analysis
Louisa Fay,Hajer Reguigui,Bin Yang,Sergios Gatidis,Thomas Küstner
Main category: cs.CV
TL;DR: MIMM-X框架通过最小化互信息来解耦因果特征与多重虚假相关性,解决医学影像中的捷径学习问题,在MRI和X-ray数据集上验证有效
- Motivation: 深度学习模型在医学任务中常出现虚假相关性(捷径学习),导致在新环境中泛化能力差。医学影像中多重虚假相关性共存,误分类可能带来严重后果。
- Method: 提出MIMM-X框架,通过最小化因果特征与多重虚假相关性之间的互信息,实现特征解耦,使预测基于真实的因果关系而非数据集特定的捷径。
- Result: 在三个数据集(UK Biobank、NAKO、CheXpert)和两种成像模态(MRI和X-ray)上评估,结果显示MIMM-X能有效缓解多重虚假相关性的捷径学习问题。
- Conclusion: MIMM-X框架成功解决了医学影像中的多重虚假相关性问题,提高了模型基于真实因果关系的预测能力,具有重要的临床应用价值。
[149] Guiding Visual Autoregressive Models through Spectrum Weakening
Chaoyang Wang,Tianmeng Yang,Jingdong Wang,Yunhai Tong
Main category: cs.CV
TL;DR: 提出谱域弱化框架,用于视觉自回归模型的无条件生成增强,无需重新训练或修改架构
- Motivation: 现有CFG方法主要针对扩散模型,缺乏适用于视觉自回归模型的通用引导机制
- Method: 通过谱域变换构建可控弱模型,在通道维度进行谱选择,引入谱重归一化策略确保数值稳定性
- Result: 在离散和连续AR模型上实验验证,既能实现高质量无条件生成,又能保持条件生成的强提示对齐
- Conclusion: 谱域弱化框架为视觉自回归模型提供了有效的引导机制,突破了扩散模型的限制
[150] Optimizer Sensitivity In Vision Transformerbased Iris Recognition: Adamw Vs Sgd Vs Rmsprop
Moh Imam Faiz,Aviv Yuniar Rahman,Rangga Pahlevi Putra
Main category: cs.CV
TL;DR: 评估不同优化器对基于Vision Transformer的虹膜识别系统准确性和稳定性的影响
- Motivation: 随着数字身份系统扩展,生物特征认证安全性日益重要。虹膜识别因其独特且稳定的纹理模式具有高可靠性。深度学习尤其是Vision Transformers在视觉识别方面取得进展,但优化器选择对基于ViT的生物特征系统影响研究不足。
- Method: 评估不同优化器对Vision Transformer在虹膜识别任务中准确性和稳定性的影响
- Result: 提供了关于优化器选择如何影响ViT在虹膜识别中性能的见解,有助于增强生物特征识别模型的鲁棒性
- Conclusion: 优化器选择对基于Vision Transformer的虹膜识别系统性能有重要影响,研究结果为提升生物特征识别模型的鲁棒性提供了指导
[151] MrGS: Multi-modal Radiance Fields with 3D Gaussian Splatting for RGB-Thermal Novel View Synthesis
Minseong Kweon,Janghyun Kim,Ukcheol Shin,Jinsun Park
Main category: cs.CV
TL;DR: MrGS是基于3D高斯泼溅的多模态辐射场,能同时重建RGB和热红外3D场景,通过正交特征提取和物理定律建模热传导特性。
- Motivation: 现有神经辐射场和3D高斯泼溅方法在RGB场景重建方面表现良好,但融合热红外图像的多模态渲染研究不足,且忽略了热传导和朗伯特性等热学特征。
- Method: 1) 基于3DGS构建多模态辐射场,通过正交特征提取从单一外观特征中分离RGB和热相关信息;2) 根据各模态的朗伯反射程度采用视图相关或独立的嵌入策略;3) 集成傅里叶热传导定律在alpha混合前建模高斯粒子间的热传导;4) 应用斯特藩-玻尔兹曼定律和平方反比定律构建深度感知热辐射图,为热渲染增加几何约束。
- Result: 实验结果表明,MrGS能够实现高保真度的RGB-T场景重建,同时减少了所需的高斯粒子数量。
- Conclusion: MrGS成功地将物理热学原理融入3D高斯泼溅框架,实现了同时重建RGB和热红外场景的多模态渲染,在保持高质量的同时优化了计算效率。
[152] JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
Yunlong Lin,Linqing Wang,Kunjie Lin,Zixu Lin,Kaixiong Gong,Wenbo Li,Bin Lin,Zhenxi Li,Shiyi Zhang,Yuyang Peng,Wenxun Dai,Xinghao Ding,Chunyu Wang,Qinglin Lu
Main category: cs.CV
TL;DR: JarvisEvo是一个统一的图像编辑代理,通过模仿人类设计师的迭代编辑过程,解决了指令幻觉和奖励黑客问题,在图像编辑质量上显著优于现有方法。
- Motivation: 当前基于代理的编辑模型存在两个关键挑战:1) 指令幻觉 - 纯文本的思维链推理无法完全防止事实错误;2) 奖励黑客 - 动态策略优化会利用静态奖励函数的缺陷。需要开发能够自我改进且避免这些问题的图像编辑代理。
- Method: 提出JarvisEvo统一图像编辑代理,包含三个核心创新:1) 交错式多模态思维链(iMCoT)推理机制,提升指令遵循和编辑质量;2) 协同编辑器-评估器策略优化(SEPO)框架,实现无外部奖励的自我改进;3) 通过集成Adobe Lightroom支持全局和局部细粒度编辑。
- Result: 在ArtEdit-Bench上,JarvisEvo在保护性编辑指标上平均比Nano-Banana高出18.95%,其中像素级内容保真度大幅提升44.96%,显著优于现有方法。
- Conclusion: JarvisEvo通过创新的多模态推理机制和协同优化框架,有效解决了指令幻觉和奖励黑客问题,实现了高质量的图像编辑,为智能编辑代理的发展提供了新方向。
[153] From Illusion to Intention: Visual Rationale Learning for Vision-Language Reasoning
Changpeng Wang,Haozhe Wang,Xi Chen,Junhan Liu,Taofeng Xue,Chong Peng,Donglian Qi,Fangzhen Lin,Yunfeng Yan
Main category: cs.CV
TL;DR: 提出ViRL框架,将视觉动作重构为核心推理原语而非可选工具,通过端到端强化学习实现视觉推理的透明性和可验证性。
- Motivation: 当前视觉语言推理框架将视觉动作视为可选工具,导致推理缺乏视觉基础,产生"用图像思考的幻觉"——模型看似基于视觉证据,实则依赖与上下文无关的动作,既不精炼感知也不引导正确推理。
- Method: 提出视觉理性学习(ViRL)框架,包含三个核心组件:1) 使用真实理性进行过程监督;2) 通过步骤级奖励塑形实现目标对齐;3) 细粒度信用分配以区分正确、冗余和错误动作。采用端到端强化学习训练。
- Result: ViRL在感知、幻觉和推理等多个基准测试中取得最先进的结果,纯端到端强化学习训练即可实现。
- Conclusion: 视觉理性化可作为任务无关、过程基础的范式,用于构建透明、可验证且可信赖的视觉语言模型。
[154] Geometry-Consistent 4D Gaussian Splatting for Sparse-Input Dynamic View Synthesis
Yiwei Li,Jiannong Cao,Penghui Ruan,Divya Saxena,Songye Zhu,Yinfeng Cao
Main category: cs.CV
TL;DR: GC-4DGS通过几何一致性增强4D高斯泼溅,实现稀疏视角下的高质量动态场景实时渲染
- Motivation: 现有动态高斯泼溅方法在稀疏输入视角下性能显著下降,限制了其在数字孪生等AIoT应用中的实用性
- Method: 提出动态一致性检查策略减少MVS估计不确定性,采用全局-局部深度正则化从单目深度中提取时空一致的几何信息
- Result: 在N3DV和Technicolor数据集上验证有效,PSNR分别比RF-DeRF和原始4DGS提高2.62dB和1.58dB,可在资源受限的IoT边缘设备部署
- Conclusion: GC-4DGS成功将几何一致性融入4D高斯泼溅,实现了稀疏输入下的高质量动态场景实时渲染,具有实际应用价值
[155] GOATex: Geometry & Occlusion-Aware Texturing
Hyunjin Kim,Kunho Kim,Adam Lee,Wonkwang Lee
Main category: cs.CV
TL;DR: GOATex是一种基于扩散模型的3D网格纹理生成方法,能够为网格的外部和内部表面生成高质量纹理,解决了现有方法在处理遮挡内部区域时的局限性。
- Motivation: 现有3D纹理生成方法在可见区域表现良好,但缺乏处理遮挡内部区域的机制,导致纹理不完整和可见接缝。需要一种能够同时处理外部和内部表面的纹理生成方法。
- Method: 提出基于命中层级概念的遮挡感知纹理框架:1) 通过多视角光线投射量化网格面的相对深度,将网格面划分为从最外层到最内层的可见性层级;2) 采用两阶段可见性控制策略,逐步揭示具有结构一致性的内部区域;3) 使用预训练扩散模型为每个层级生成纹理;4) 提出软UV空间混合技术,基于视角相关的可见性置信度无缝融合各层级纹理。
- Result: 实验结果表明,GOATex在可见和遮挡表面上都能生成无缝、高保真的纹理,一致优于现有方法。该方法无需对预训练扩散模型进行昂贵的微调,并允许为外部和内部网格区域分别提供提示,实现对分层外观的细粒度控制。
- Conclusion: GOATex成功解决了3D网格纹理生成中处理遮挡内部区域的挑战,通过创新的可见性分层和融合技术,实现了完整、高质量的纹理生成,为3D内容创作提供了更精细的控制能力。
[156] Image Valuation in NeRF-based 3D reconstruction
Grigorios Aris Cheimariotis,Antonis Karakottas,Vangelis Chatzis,Angelos Kanlis,Dimitrios Zarpalas
Main category: cs.CV
TL;DR: 提出了一种量化每张图像对NeRF重建贡献的方法,通过PSNR和MSE评估图像贡献度,并验证了移除低贡献图像对重建质量的影响
- Motivation: 在3D场景重建中,不同输入图像对最终输出的贡献不均,特别是在包含不同质量、遮挡和瞬态物体的野外场景中,需要量化每张图像的贡献度
- Method: 基于PSNR和MSE等重建质量指标,量化每张图像对NeRF重建的贡献度,通过移除低贡献图像来验证方法有效性
- Result: 验证了移除低贡献图像对重建保真度的影响,证明了量化图像贡献度方法的有效性
- Conclusion: 提出的方法能够有效评估图像对NeRF重建的贡献度,为数据估值和货币化提供了实用工具
[157] Evaluating the Clinical Impact of Generative Inpainting on Bone Age Estimation
Felipe Akio Matsuoka,Eduardo Moreno J. M. Farina,Augusto Sarquis Serpa,Soraya Monteiro,Rodrigo Ragazzini,Nitamar Abdala,Marcelo Straus Takahashi,Felipe Campos Kitamura
Main category: cs.CV
TL;DR: 生成式基础模型虽然能通过逼真的图像修复去除视觉伪影,但对医学AI性能的影响不确定。研究发现修复儿科手部X光片中的非解剖标记会显著降低骨龄和性别预测性能,表明需要任务特定的验证。
- Motivation: 评估生成式模型修复在医学图像中的临床可靠性,特别是儿科手部X光片中非解剖标记的修复是否会影响骨龄和性别预测所需的特征。
- Method: 使用RSNA骨龄挑战数据集,选取200张原始X光片,用gpt-image-1生成600张修复版本,针对非解剖伪影进行自然语言提示修复。通过深度学习集成模型评估骨龄估计和性别分类性能,使用平均绝对误差和ROC曲线下面积作为指标,并通过像素强度分布检测结构变化。
- Result: 修复显著降低了模型性能:骨龄MAE从6.26个月增加到30.11个月,性别分类AUC从0.955下降到0.704。修复图像显示像素强度偏移和不一致性,表明存在结构修改,简单的校准无法纠正。
- Conclusion: 尽管视觉上逼真,基于基础模型的修复可能掩盖临床相关的细微特征,并在编辑仅限于非诊断区域时引入潜在偏差,强调了在将此类生成工具集成到临床AI工作流程之前需要进行严格的任务特定验证。
[158] Buffer replay enhances the robustness of multimodal learning under missing-modality
Hongye Zhu,Xuan Liu,Yanwen Ba,Jingye Xue,Shigeng Zhang
Main category: cs.CV
TL;DR: REP通过构建模态特征缓冲区、私有-共享特征解耦和任务感知动态初始化,有效缓解多模态模型中模态缺失导致的性能下降问题。
- Motivation: 多模态模型中模态缺失会导致显著的性能下降。现有方法要么计算成本高(合成缺失模态),要么仅依赖相邻层特征而忽略了长距离上下文信息,这些信息可能对模态缺失提供额外的容错能力。
- Method: 1) 通过残差旁路构建模态特征缓冲区,缓存早期层表示并在深层重放,缓解网络深度增加时的信息损失;2) 采用私有-共享特征解耦策略,私有缓冲区保留模态特定信号,共享缓冲区编码跨模态语义;3) 设计任务感知动态初始化机制,根据不同缺失模态条件配置缓冲区,提高稳定性和泛化能力。
- Result: 在视觉-语言、视觉-语言-音频和时间多模态基准测试中,REP在单模态和多模态缺失场景下均优于现有方法,同时仅引入可忽略的参数开销。
- Conclusion: REP为具有挑战性的模态缺失环境中的鲁棒多模态学习提供了一个轻量级且有效的范式。
[159] Bharat Scene Text: A Novel Comprehensive Dataset and Benchmark for Indian Language Scene Text Understanding
Anik De,Abhirama Subramanyam Penamakuri,Rajeev Yadav,Aditya Rathore,Harshiv Shah,Devesh Sharma,Sagar Agarwal,Pravin Kumar,Anand Mishra
Main category: cs.CV
TL;DR: BSTD是一个大规模印度语言场景文本数据集,包含11种印度语言和英语的10万+单词,支持多种场景文本任务,旨在解决印度语言场景文本识别缺乏高质量数据集的问题。
- Motivation: 虽然英语场景文本识别已相当成熟,但印度语言场景文本识别仍面临巨大挑战,主要原因是脚本多样性、非标准字体、不同书写风格,以及缺乏高质量数据集和开源模型。
- Method: 创建了Bharat Scene Text Dataset (BSTD),包含来自6500+场景图像的10万+单词,涵盖11种印度语言和英语,经过精细标注,支持文本检测、脚本识别、裁剪单词识别和端到端场景文本识别四种任务。
- Result: 通过将英语SOTA模型适配到印度语言进行评估,结果揭示了印度语言场景文本识别的挑战和机遇,表明该领域仍有很大改进空间。
- Conclusion: BSTD数据集是推动印度语言场景文本识别研究的重要一步,所有模型和数据均已开源,为社区提供了宝贵资源。
[160] SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models
Ruosen Zhao,Zhikang Zhang,Jialei Xu,Jiahao Chang,Dong Chen,Lingyun Li,Weijian Sun,Zizhuang Wei
Main category: cs.CV
TL;DR: SpaceMind是一个专门用于空间推理的多模态大语言模型,仅使用RGB输入,通过相机引导的模态融合实现3D空间理解,在多个基准测试中达到SOTA
- Motivation: 现有视觉语言模型在多模态理解方面表现良好,但在3D空间推理(如距离估计、尺寸比较、跨视图一致性)方面仍有困难。现有方法要么依赖辅助3D信息,要么通过浅层特征融合增强RGB模型
- Method: 采用双编码器架构:VGGT作为空间理解编码器,InternViT作为2D视觉编码器。核心创新是相机引导的模态融合模块,将相机表示作为主动引导模态而非被动元数据,通过相机条件偏置、几何重要性权重分配和相机嵌入门控来融合表示
- Result: 在VSI-Bench、SQA3D和SPBench上建立了新的SOTA结果,在VSI-Bench和SPBench上大幅超越开源和专有系统,在SQA3D上达到最佳性能
- Conclusion: 相机引导的模态融合是为视觉语言模型提供真正空间基础智能的有效且实用的归纳偏置,作者将发布代码和模型检查点以支持未来研究
[161] Implementation of a Skin Lesion Detection System for Managing Children with Atopic Dermatitis Based on Ensemble Learning
Soobin Jeon,Sujong Kim,Dongmahn Seo
Main category: cs.CV
TL;DR: ENSEL是一个基于集成学习的皮肤病变检测系统,通过整合多种深度学习模型提高诊断准确性,在真实用户拍摄的皮肤图像上验证了性能,实现了高召回率和快速处理速度。
- Motivation: 韩国数据3法案修订和COVID-19影响推动了数字医疗市场发展。特应性皮炎等皮肤疾病缺乏客观诊断方法,主要依赖主观评估,容易误诊。现有研究使用高质量皮肤镜图像,但实际临床中难以获取,且现有系统需要同时保证准确性和快速响应时间。
- Method: 提出ENSEL(集成学习皮肤病变检测系统),通过集成多种深度学习模型来提高诊断准确性。使用实际用户拍摄的皮肤病变图像进行实验验证,测量系统的准确性和响应时间。
- Result: ENSEL在大多数图像中实现了高召回率,处理速度小于1秒。系统能够有效检测皮肤病变,为皮肤疾病的客观诊断提供了可行方案。
- Conclusion: ENSEL系统有助于皮肤病变的客观诊断,促进了数字医疗的发展。通过集成学习方法,系统在实际临床环境中表现出良好的性能和实用性。
[162] NumeriKontrol: Adding Numeric Control to Diffusion Transformers for Instruction-based Image Editing
Zhenyu Xu,Xiaoqi Shen,Haotian Nan,Xinyu Zhang
Main category: cs.CV
TL;DR: NumeriKontrol:一个通过连续标量数值实现精确图像编辑的框架,支持多条件零样本编辑
- Motivation: 基于文本指令的图像编辑虽然直观,但缺乏对编辑强度的精确控制。现有方法难以实现细粒度的强度调节,需要更精确的控制机制。
- Method: 提出NumeriKontrol框架,通过有效的数值适配器编码数值编辑尺度,以即插即用方式注入扩散模型。采用任务分离设计支持零样本多条件编辑,并从高质量渲染引擎和DSLR相机合成精确训练数据,构建Common Attribute Transform (CAT)数据集。
- Result: 实验表明NumeriKontrol能在广泛的属性编辑场景中提供准确、连续且稳定的尺度控制,实现了精确、可扩展且用户可控的图像编辑。
- Conclusion: NumeriKontrol通过引入数值控制机制,推进了基于指令的图像编辑技术,使其更加精确、可扩展和用户可控。
[163] MathSight: A Benchmark Exploring Have Vision-Language Models Really Seen in University-Level Mathematical Reasoning?
Yuandong Wang,Yao Cui,Yuxin Zhao,Zhen Yang,Yangfu Zhu,Zhenzhou Shao
Main category: cs.CV
TL;DR: MathSight是一个大学级多模态数学推理基准,旨在量化视觉输入对推理的实际贡献,发现随着问题难度增加,视觉信息的作用逐渐减弱。
- Motivation: 现有视觉语言模型在数学推理方面表现出色,但视觉信息究竟有多大贡献尚不清楚。现有基准很少隔离图像模态的作用,无法确定模型是真正利用视觉理解还是仅依赖语言先验。
- Method: 设计MathSight基准,每个问题包含多个视觉变体(原始、手绘、照片拍摄)和纯文本条件,用于控制比较。在先进视觉语言模型上进行实验。
- Result: 实验显示一致趋势:随着问题难度增加,视觉信息的贡献逐渐减弱。令人惊讶的是,Qwen3-VL在没有任何图像输入的情况下超越了其多模态变体和GPT-5。
- Conclusion: 需要像MathSight这样的基准来推动未来模型中真正的视觉基础推理发展,当前模型可能过度依赖语言先验而非真正的视觉理解。
[164] db-SP: Accelerating Sparse Attention for Visual Generative Models with Dual-Balanced Sequence Parallelism
Siqi Chen,Ke Hong,Tianchen Zhao,Ruiqi Xie,Zhenhua Zhu,Xudong Zhang,Yu Wang
Main category: cs.CV
TL;DR: 提出db-SP方法解决扩散变换器序列并行中的负载不均衡问题,通过双级分区和动态并行度调整,实现1.25倍端到端加速
- Motivation: 扩散变换器(DiT)序列并行推理时,块稀疏注意力机制导致严重的负载不均衡问题,影响推理延迟优化效果
- Method: 提出db-SP方法:1) 定义稀疏不均衡比量化问题;2) 采用双级分区策略实现头和块级别的负载均衡;3) 动态调整并行度适应不同去噪步和层的稀疏模式
- Result: 相比现有序列并行方法,db-SP实现平均1.25倍端到端加速和1.40倍注意力专用加速,代码已开源
- Conclusion: db-SP有效解决了扩散变换器序列并行中的负载不均衡问题,为视觉生成任务提供了高效的推理加速方案
[165] Analyzing Image Beyond Visual Aspect: Image Emotion Classification via Multiple-Affective Captioning
Zibo Zhou,Zhengjun Zhai,Huimin Chen,Wei Dai,Hansen Yang
Main category: cs.CV
TL;DR: 本文提出了一种基于纯文本的图像情感分类方法ACIEC,通过情感描述生成和语言模型分析来消除"情感鸿沟",在多个基准测试中取得优越性能。
- Motivation: 现有基于预训练视觉模型的方法受到"情感鸿沟"的限制,而心理学研究表明语言具有高变异性、丰富信息且能有效消除情感鸿沟,因此提出基于纯文本的情感分类方法。
- Method: 提出ACIEC方法:1) 设计分层多级对比损失检测图像中的情感概念;2) 提出情感属性链式思维推理生成情感句子;3) 利用预训练语言模型综合情感概念和情感句子进行分类;4) 设计基于语义相似度采样的对比损失解决情感数据集中类内差异大、类间差异小的问题;5) 考虑嵌入文本的图像。
- Result: 在多个基准测试上的广泛实验表明,该方法能有效桥接情感鸿沟并取得优越结果。
- Conclusion: 基于纯文本的情感分类方法ACIEC能有效消除情感鸿沟,通过情感描述生成和语言模型分析在图像情感分类任务中表现出色,同时考虑了嵌入文本的图像这一先前研究忽略的因素。
[166] DNA-Prior: Unsupervised Denoise Anything via Dual-Domain Prior
Yanqi Cheng,Chun-Wun Cheng,Jim Denholm,Thiago Lima,Javier A. Montoya-Zegarra,Richard Goodwin,Carola-Bibiane Schönlieb,Angelica I Aviles-Rivero
Main category: cs.CV
TL;DR: DNA-Prior:一种无需训练数据的通用无监督医学图像去噪框架,通过结合隐式架构先验和显式谱空间先验实现去噪
- Motivation: 现有医学图像去噪方法依赖大量标注数据或监督学习,在临床环境中面临模态异构和真实数据有限的挑战,需要一种无需外部训练数据的通用去噪框架
- Method: 提出DNA-Prior框架,结合隐式架构先验(深度网络参数化)和显式谱空间先验(频域保真项+空间正则化函数),形成结构良好的优化问题,无需训练数据或模态特定调优
- Result: 在多模态实验中,DNA-Prior在不同噪声条件下均能实现一致的噪声抑制和结构保持
- Conclusion: DNA-Prior为临床环境提供了一种无需训练数据的通用无监督去噪解决方案,能有效处理异构模态和有限真实数据的挑战
[167] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
Hongfei Zhang,Kanghao Chen,Zixin Zhang,Harold Haodong Chen,Yuanhuiyi Lyu,Yuqi Zhang,Shuai Yang,Kun Zhou,Yingcong Chen
Main category: cs.CV
TL;DR: DualCamCtrl是一个用于相机控制视频生成的双分支扩散模型,通过同时生成RGB和深度序列,并引入语义引导的互对齐机制,显著提升了相机运动一致性。
- Motivation: 现有方法使用射线表示相机姿态,但缺乏足够的场景理解和几何感知能力,导致相机控制视频生成不够准确。
- Method: 提出双分支框架同时生成相机一致的RGB和深度序列,引入语义引导互对齐机制进行RGB-深度融合,通过解耦外观和几何建模来提升性能。
- Result: 相比先前方法,相机运动误差减少了40%以上,实现了更一致的相机控制视频生成。
- Conclusion: DualCamCtrl通过双分支设计和语义引导融合机制,显著提升了相机控制视频生成的几何一致性和准确性。
[168] InstanceV: Instance-Level Video Generation
Yuheng Chen,Teng Hu,Jiangning Zhang,Zhucun Xue,Ran Yi,Lizhuang Ma
Main category: cs.CV
TL;DR: InstanceV是一个视频生成框架,通过实例感知掩码交叉注意力机制实现实例级控制,同时保持全局语义一致性,在实例级视频生成方面优于现有方法。
- Motivation: 现有文本到视频扩散模型主要依赖文本条件,缺乏对视频生成的细粒度控制能力,特别是实例级别的控制。需要一种能够同时实现实例级控制和全局语义一致性的视频生成框架。
- Method: 提出InstanceV框架:1) 实例感知掩码交叉注意力机制,利用实例级定位信息在指定空间位置生成正确属性的实例;2) 共享时间步自适应提示增强模块,以参数高效的方式连接局部实例与全局语义;3) 空间感知无条件指导,在训练和推理中缓解小实例消失问题;4) 建立InstanceBench评估基准,结合通用视频质量指标和实例感知指标。
- Result: 大量实验表明,InstanceV不仅在视频生成中实现了显著的实例级可控性,而且在定性和定量评估中,在通用质量和实例感知指标方面都优于现有的最先进模型。
- Conclusion: InstanceV通过创新的实例感知机制和一致性增强模块,成功解决了文本到视频生成中的细粒度控制问题,为实例级可控视频生成提供了有效的解决方案,并通过新的评估基准推动了该领域的发展。
[169] Cascaded Robust Rectification for Arbitrary Document Images
Chaoyun Wang,Quanxin Huang,I-Chao Shen,Takeo Igarashi,Nanning Zheng,Caigui Jiang
Main category: cs.CV
TL;DR: 提出一种多阶段文档矫正框架,通过渐进式分解解决相机视角和物理变形问题,并引入新的评估指标
- Motivation: 现实场景中文档矫正面临相机视角变化和物理变形的极端挑战,现有方法难以处理复杂的复合变形
- Method: 三阶段渐进式框架:1) 全局仿射变换校正相机视角变形;2) 矫正纸张卷曲折叠的几何变形;3) 内容感知迭代过程消除细粒度内容失真
- Result: 在多个挑战性基准测试中达到新的SOTA性能,AAD指标降低14.1%-34.7%,并在实际应用中表现出色
- Conclusion: 通过分解复杂变形为可逐步解决的子问题,提出的多阶段框架能有效处理现实场景中的文档矫正,同时新的评估指标提供了更准确的性能评估
[170] Learning to Refuse: Refusal-Aware Reinforcement Fine-Tuning for Hard-Irrelevant Queries in Video Temporal Grounding
Jin-Seop Lee,SungJoon Lee,SeongJun Jung,Boyang Li,Jee-Hyong Lee
Main category: cs.CV
TL;DR: 提出RA-RFT方法,通过强化学习微调让视频时序定位模型能够有效拒绝硬不相关查询,并构建了HI-VTG数据集来支持训练。
- Motivation: 现有视频时序定位模型假设查询总是相关的,即使查询不相关也会预测一个片段。现有方法只能拒绝完全不相关的查询,无法处理语义相似但实际不相关的硬不相关查询。
- Method: 提出拒绝感知的强化学习微调方法RA-RFT,基于GRPO框架,整合格式、拒绝IoU、解释和查询修正四个奖励目标,提升相关性判别和细粒度语义推理能力。
- Result: 方法在多种相关性感知的VTG场景中有效,包括硬不相关VTG、简单打乱的RA-VTG和人工标注的RA-VTG设置,且可扩展到多种LVLM-based VTG模型。
- Conclusion: RA-RFT方法能有效处理硬不相关查询,通过强化学习微调和多奖励目标提升了视频时序定位模型的相关性判别能力。
[171] REVEAL: Reasoning-enhanced Forensic Evidence Analysis for Explainable AI-generated Image Detection
Huangsen Cao,Qin Mei,Zhiheng Li,Yuxi Li,Ying Zhang,Chen Li,Zhimeng Zhang,Xin Ding,Yongwei Wang,Jing Lyu,Fei Wu
Main category: cs.CV
TL;DR: 提出REVEAL-Bench基准和REVEAL框架,通过证据链推理增强AI生成图像检测的可解释性和泛化能力
- Motivation: 随着生成模型快速发展,AI生成图像越来越难与真实图像区分,对社会信任和信息完整性构成严重威胁。现有可解释取证方法主要依赖事后合理化或视觉判别,缺乏可验证的证据链,限制了因果解释的生成和泛化能力。
- Method: 1) 提出REVEAL-Bench基准,围绕多个轻量级专家模型构建证据链,记录逐步推理轨迹和证据依据;2) 提出REVEAL框架,集成检测与专家基础强化学习,奖励机制联合优化检测精度、解释保真度和逻辑连贯性。
- Result: 实验结果表明REVEAL显著提升了检测精度、解释保真度和跨模型泛化能力,为可解释图像取证设立了新的最先进基准。
- Conclusion: 通过引入基于证据链的推理增强方法,REVEAL框架能够产生细粒度、可解释且可验证的推理链,有效解决了当前可解释取证方法的局限性。
[172] PowerCLIP: Powerset Alignment for Contrastive Pre-Training
Masaki Kawamura,Nakamasa Inoue,Rintaro Yanagi,Hirokatsu Kataoka,Rio Yokota
Main category: cs.CV
TL;DR: PowerCLIP提出了一种基于幂集对齐的对比预训练框架,通过优化图像区域与文本解析树之间的幂集对齐来增强细粒度组合理解,使用非线性聚合器降低计算复杂度,在零样本分类和检索任务上表现优异。
- Motivation: 现有CLIP等对比视觉语言预训练框架在细粒度组合理解方面存在局限,难以捕捉跨多个图像区域的组合语义。虽然已有研究尝试将单个文本标记与特定图像区域对齐,但处理多区域组合语义仍然具有挑战性。
- Method: 提出PowerCLIP框架,通过幂集对齐优化区域到短语的对齐,最小化图像区域幂集与文本解析树之间的损失。为解决朴素幂集构建带来的指数级计算成本,引入高效的非线性聚合器,将复杂度从O(2^M)降低到O(M),同时保持任意精度的损失近似。
- Result: 在零样本分类和检索任务上的广泛实验表明,PowerCLIP超越了现有最先进方法,证明了该方法在组合性和鲁棒性方面的优势。
- Conclusion: PowerCLIP通过幂集对齐有效增强了视觉语言模型的组合理解能力,提出的非线性聚合器解决了计算复杂度问题,为细粒度视觉语言理解提供了有效解决方案。
[173] Fast Multi-view Consistent 3D Editing with Video Priors
Liyi Chen,Ruihuang Li,Guowen Zhang,Pengfei Wang,Lei Zhang
Main category: cs.CV
TL;DR: ViP3DE利用预训练视频生成模型的时间一致性先验,通过单次前向传播实现多视角一致的3D编辑,避免了传统迭代方法的耗时和过平滑问题。
- Motivation: 现有基于文本的3D编辑方法通常采用2D生成模型逐视角处理,然后进行迭代的2D-3D-2D更新,这种方法不仅耗时,而且由于不同视角的编辑信号在迭代过程中被平均,容易产生过平滑的结果。
- Method: 1) 利用视频生成模型的时间一致性先验,通过单个编辑视角生成其他一致编辑视角;2) 提出运动保持的噪声混合技术,使视频模型能在预定义相机姿态下生成编辑视角;3) 引入几何感知去噪,将3D几何先验整合到视频模型中增强多视角一致性。
- Result: 实验表明ViP3DE即使在单次前向传播中也能实现高质量的3D编辑结果,在编辑质量和速度上都显著优于现有方法。
- Conclusion: ViP3DE通过利用视频生成模型的时间一致性先验,实现了高效且高质量的多视角一致3D编辑,为文本驱动的3D编辑提供了新的解决方案。
[174] GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation
Yuhao Wan,Lijuan Liu,Jingzhi Zhou,Zihan Zhou,Xuying Zhang,Dongbo Zhang,Shaohui Jiao,Qibin Hou,Ming-Ming Cheng
Main category: cs.CV
TL;DR: GeoWorld提出了一种新的图像到3D场景生成方法,通过利用几何模型和视频生成技术,解决了现有方法中的几何失真和模糊问题。
- Motivation: 现有基于视频模型的图像到3D场景生成方法存在几何失真和内容模糊的问题,需要更好的几何信息利用方式来提升生成质量。
- Method: 1. 先生成连续视频帧而非单帧输入;2. 使用几何模型提取全帧几何特征;3. 提出几何对齐损失提供真实世界几何约束;4. 引入几何适应模块确保几何特征有效利用。
- Result: 实验表明GeoWorld能够从单张图像和给定相机轨迹生成高保真3D场景,在质量和数量上都优于先前方法。
- Conclusion: 通过解锁几何模型的潜力并改进生成流程,GeoWorld显著提升了图像到3D场景生成的质量和几何一致性。
[175] Vision Bridge Transformer at Scale
Zhenxiong Tan,Zeqing Wang,Xingyi Yang,Songhua Liu,Xinchao Wang
Main category: cs.CV
TL;DR: ViBT是一个20B/1.3B参数的大规模Brownian Bridge模型,用于条件生成任务,通过直接建模输入到输出的轨迹实现高效的数据到数据转换,特别适用于图像编辑和视频翻译。
- Motivation: 传统扩散模型将噪声转换为数据,而Bridge模型直接建模输入到输出的轨迹,创建更高效的数据到数据转换范式。作者希望通过扩展这种模型到更大规模,展示其在图像和视频翻译任务中的潜力。
- Method: 采用Transformer架构,提出方差稳定的速度匹配目标进行鲁棒训练,构建20B和1.3B参数的大规模Vision Bridge Transformer模型,直接建模输入到输出的轨迹。
- Result: 成功构建了20B和1.3B参数的大规模模型,在基于指令的图像编辑和复杂视频翻译任务中表现出色,展示了扩展Bridge模型的有效性。
- Conclusion: 通过将Bridge模型扩展到大规模参数,结合Transformer架构和方差稳定训练目标,ViBT为条件生成任务提供了高效的数据到数据转换框架,在图像和视频翻译领域展现出强大潜力。
[176] Pathryoshka: Compressing Pathology Foundation Models via Multi-Teacher Knowledge Distillation with Nested Embeddings
Christian Grashei,Christian Brechenmacher,Rao Muhammad Umer,Jingsong Liu,Carsten Marr,Ewa Szczurek,Peter J. Schüffler
Main category: cs.CV
TL;DR: Pathryoshka:一种多教师蒸馏框架,通过知识蒸馏将大型病理学基础模型压缩86-92%,同时保持性能并支持可调节的嵌入维度
- Motivation: 当前病理学基础模型参数量巨大(超过十亿参数),产生高维嵌入,在计算资源有限的研究或临床环境中应用受限。需要一种方法能在保持性能的同时大幅减小模型规模。
- Method: 提出Pathryoshka框架,结合RADIO蒸馏和Matryoshka表示学习思想,采用多教师蒸馏策略,生成可调节嵌入维度的轻量级模型。
- Result: 在十个公共病理学基准测试中,Pathryoshka将模型大小减少86-92%的同时性能与原始大模型相当;相比同类规模的单教师蒸馏模型,准确率中位数提升7.0%。
- Conclusion: Pathryoshka通过高效本地部署而不牺牲准确性或表示丰富性,为更广泛的研究和临床社区提供了访问先进病理学基础模型的途径。
[177] Zero-Shot Multi-Criteria Visual Quality Inspection for Semi-Controlled Industrial Environments via Real-Time 3D Digital Twin Simulation
Jose Moises Araya-Martinez,Gautham Mohan,Kenichi Hayakawa Bolaños,Roberto Mendieta,Sarvenaz Sardari,Jens Lambrecht,Jörg Krüger
Main category: cs.CV
TL;DR: 提出一个姿态无关的零样本质量检测框架,通过RGB-D空间中的实时数字孪生对比真实工业场景,实现半控制环境下的缺陷检测。
- Motivation: 早期视觉质量检测对零缺陷制造至关重要,但现有系统复杂且数据需求大,阻碍了在半控制工业环境中的广泛应用。
- Method: 通过物体检测和已知CAD模型的姿态估计语义描述工业场景,实现实时数字孪生渲染;提供可扩展的分层标注策略,统一姿态标注与逻辑结构缺陷标注。
- Result: 在汽车轴向磁通电机质量检测案例中,与真实掩码相比达到最高63.3%的IoU分数,即使使用简单距离测量也能在半控制工业条件下有效工作。
- Conclusion: 为动态制造环境中通用化、低数据需求的缺陷检测方法研究奠定了基础。
[178] Instruction Tuning of Large Language Models for Tabular Data Generation-in One Day
Milad Abdollahzadeh,Abdul Raheem,Zilong Zhao,Uzair Javaid,Kevin Yee,Nalam Venkata Abhishek,Tram Truong-Huu,Biplab Sikdar
Main category: cs.CV
TL;DR: 本文探索了使用有限数据和计算资源进行表格数据生成的指令微调,通过创建高质量指令数据集,在仅7K指令上微调Llama3.1-8B模型,实现了与GPT-4o相当的表格数据生成性能。
- Motivation: 现有表格指令微调研究主要关注问答和推理任务,忽视了表格数据生成这一重要方向。同时,表格指令微调通常需要大量数据和计算资源,本研究旨在探索在有限资源下实现表格数据生成的可能性。
- Method: 首先创建高质量的表格数据指令数据集,然后使用该数据集的训练集对开源LLM(Llama3.1-8B-Instruct)进行指令微调,仅使用7K指令在A100 GPU上训练不到6小时。
- Result: 实验结果表明,通过高质量数据集和有限资源的指令微调,模型在表格数据生成任务上达到了与最先进的商业LLM(GPT-4o)相当的性能水平。
- Conclusion: 本研究证明了在有限数据和计算资源下,通过精心设计的指令微调方法,可以有效提升LLM的表格数据生成能力,为资源受限场景下的表格数据处理提供了可行方案。
[179] Robust 3DGS-based SLAM via Adaptive Kernel Smoothing
Shouhe Zhang,Dayong Ren,Sensen Song,Wenjie Li,Piaopiao Yu,Yurong Qian
Main category: cs.CV
TL;DR: 本文挑战了3DGS-SLAM中渲染质量决定跟踪精度的传统观念,提出通过平滑核策略增强光栅化过程对参数误差的鲁棒性,从而提高相机姿态跟踪的稳定性。
- Motivation: 传统3DGS-SLAM方法过度关注渲染质量作为跟踪精度的主要决定因素。作者认为,相比于追求完美的场景表示,更重要的是增强光栅化过程对参数误差的鲁棒性,以确保稳定的相机姿态跟踪。
- Method: 提出CB-KNN方法,采用平滑核策略增强3DGS-SLAM的鲁棒性。核心思想是让每个高斯在渲染过程中影响更平滑、更广泛的像素分布,从而减轻异常值高斯参数噪声的有害影响。该方法自适应地修改局部区域内K个最近邻高斯的RGB值和位置,生成更平滑的局部渲染。
- Result: 实验结果表明,该方法在保持场景重建整体质量的同时,显著提高了相机姿态跟踪的鲁棒性和准确性。
- Conclusion: 渲染质量不是3DGS-SLAM跟踪精度的唯一决定因素,通过增强光栅化过程对参数误差的鲁棒性可以更有效地提高跟踪稳定性。CB-KNN方法提供了一种实用有效的解决方案,可轻松集成到现有3DGS框架中。
[180] DAONet-YOLOv8: An Occlusion-Aware Dual-Attention Network for Tea Leaf Pest and Disease Detection
Yefeng Wu,Shan Wan,Ling Wu,Yecheng Zhao
Main category: cs.CV
TL;DR: DAONet-YOLOv8:针对茶园复杂背景下病虫害检测的改进YOLOv8模型,通过双注意力融合、遮挡感知检测和动态合成卷积提升检测精度
- Motivation: 茶园病虫害检测面临复杂背景、光照变化和枝叶遮挡等挑战,现有检测器在这些场景下存在漏检和误报问题
- Method: 提出DAONet-YOLOv8,包含三个关键改进:1) 双注意力融合模块结合卷积局部特征提取和自注意力全局上下文建模;2) 遮挡感知检测头学习可见与遮挡部分关系;3) C2f-DSConv模块使用动态合成卷积捕捉不规则病变边界
- Result: 在真实茶园数据集上,DAONet-YOLOv8达到92.97%精度、92.80%召回率、97.10% mAP@50和76.90% mAP@50:95,比YOLOv8n基线分别提升2.34、4.68、1.40和1.80个百分点,参数量减少16.7%
- Conclusion: DAONet-YOLOv8在茶园病虫害检测任务中表现出优越性能,能有效应对复杂背景和遮挡问题,优于主流检测模型
[181] PointCNN++: Performant Convolution on Native Points
Lihan Li,Haofeng Zhong,Rui Bu,Mingchao Sun,Wenzheng Chen,Baoquan Chen,Yangyan Li
Main category: cs.CV
TL;DR: PointCNN++提出了一种新的3D点云卷积架构,将稀疏卷积从体素推广到点,在保持几何精度的同时实现高性能,解决了传统点基方法性能不足和体素基方法精度损失的问题。
- Motivation: 现有3D点云学习方法存在精度与性能的权衡:点基方法保持几何精度但性能受限,体素基方法高效但量化导致精度损失。这种精度损失对于点云配准等任务尤为关键,需要一种能同时保持高精度和高性能的新方法。
- Method: 1) 提出点中心卷积,感受野基于原始高精度点坐标;2) 设计原生点计算策略,将点卷积公式化为矩阵-向量乘法和归约问题;3) 开发专用高度优化的GPU内核实现高效计算。
- Result: PointCNN++比代表性点基方法内存使用少一个数量级且速度快数倍;作为体素基骨干网络的简单替代时,显著提高点云配准精度,同时更内存高效且更快。
- Conclusion: PointCNN++证明保持几何细节和实现高性能并不互斥,为高保真和高效率的3D学习开辟了新途径,代码将开源。
[182] Language-guided 3D scene synthesis for fine-grained functionality understanding
Jaime Corsetti,Francesco Giuliari,Davide Boscaini,Pedro Hermosilla,Andrea Pilzer,Guofeng Mei,Alexandros Delitzas,Francis Engelmann,Fabio Poiesi
Main category: cs.CV
TL;DR: SynthFun3D:首个基于任务的3D场景合成方法,通过家具资产数据库生成带功能元素标注的3D室内场景,解决3D功能理解数据稀缺问题。
- Motivation: 3D功能理解需要识别场景中的功能元素来完成特定动作,但真实世界数据收集和标注成本高昂,导致数据稀缺。
- Method: SynthFun3D根据动作描述,使用带有部件级标注的家具资产数据库生成3D室内环境,自动识别并检索正确功能元素的3D掩码,实现大规模高质量标注数据生成。
- Result: 用户研究表明该方法在场景-提示一致性上优于其他方法;定量结果显示生成数据可替代真实数据(性能损失小)或补充真实数据提升性能。
- Conclusion: SynthFun3D为数据密集型3D应用提供了低成本、可扩展的解决方案,能够大规模生成高质量标注数据。
[183] Unlocking Multilingual Reasoning Capability of LLMs and LVLMs through Representation Engineering
Qiming Li,Xiaocheng Feng,Yixuan Ma,Zekai Ye,Ruihan Chen,Xiachong Feng,Bing Qin
Main category: cs.CV
TL;DR: 提出MRRE方法,通过推理时的表示工程增强多语言推理能力,无需额外训练数据或工具,显著提升低资源语言性能并保持输入输出语言一致性。
- Motivation: 大型语言模型和视觉语言模型在英语上的表现远优于低资源语言,存在多语言应用中的公平性问题。现有方法要么依赖昂贵的多语言训练,要么使用外部翻译工具进行提示,两者都资源密集且对翻译质量敏感。
- Method: 提出MRRE方法:在推理过程中按顺序注入两个预计算向量——跨语言推理增强向量(将非英语推理表示引导到英语空间以解锁多语言推理)和目标语言输出锚定向量(恢复目标语言分布以保持输入输出语言一致性)。
- Result: 在6个先进LLM和LVLM上的4个推理基准测试中,MRRE将非英语推理平均提升5.48%,在低资源语言(泰语和斯瓦希里语)上最高提升7.54%,同时将输入输出语言一致性提高3.78%。
- Conclusion: MRRE是一种无需训练、资源高效的推理时方法,能有效增强多语言推理能力,解决大型模型在低资源语言上的性能差距问题,同时保持语言一致性。
[184] Synthetic Industrial Object Detection: GenAI vs. Feature-Based Methods
Jose Moises Araya-Martinez,Adrián Sanchis Reig,Gautham Mohan,Sarvenaz Sardari,Jens Lambrecht,Jörg Krüger
Main category: cs.CV
TL;DR: 比较了多种领域随机化和领域适应技术用于合成数据生成,发现简单的基于特征的方法(如感知哈希)在准确性和资源效率上优于复杂的生成式AI方法。
- Motivation: 减少数据生成和标注负担是工业与机器人领域机器学习应用的关键挑战。合成渲染是潜在解决方案,但缩小仿真到真实差距通常需要专家干预。
- Method: 对领域随机化(DR)和领域适应(DA)技术进行基准测试,包括基于特征的方法、生成式AI(GenAI)和经典渲染方法。评估低层和高层特征对齐的有效性和效率,以及基于提示引导的受控扩散DA方法。
- Result: 如果有足够多样性的渲染数据作为种子,简单的基于特征方法(亮度过滤和感知哈希)在准确性和资源效率上优于复杂的GenAI方法。感知哈希表现最佳,在工业和机器人数据集上分别达到98%和67%的mAP50。GenAI方法在数据生成上有显著时间开销,但仿真到真实mAP值无明显提升。
- Conclusion: 研究为高效缩小仿真到真实差距提供了可行见解,使仅用合成数据训练的模型能在真实世界中获得高性能。简单特征方法在资源受限场景中更具优势。
[185] Learning to Predict Aboveground Biomass from RGB Images with 3D Synthetic Scenes
Silvia Zuffi
Main category: cs.CV
TL;DR: 提出首个从单张RGB图像估计地上生物量的学习方法,通过预测AGB密度图实现密集预测,在合成和真实数据集上分别达到1.22和1.94 kg/m²的中位误差。
- Motivation: 森林在全球生态系统中至关重要,但传统地上生物量估计方法依赖劳动密集的实地测量或遥感方法,在茂密植被中存在显著局限性。需要一种可扩展、经济高效的森林监测解决方案。
- Method: 将AGB估计构建为密集预测任务,引入AGB密度图(每个像素表示归一化的树木生物量)。利用合成3D SPREAD数据集,通过异速生长方程计算AGB,训练模型预测AGB密度图,然后整合得到整个场景的AGB估计。
- Result: 在SPREAD测试数据上达到1.22 kg/m²的中位AGB估计误差,在真实图像数据集上达到1.94 kg/m²的中位误差。这是首个从单张RGB图像直接估计地上生物量的方法。
- Conclusion: 该方法为森林监测提供了可扩展、可解释且经济高效的解决方案,同时通过公民科学计划实现了更广泛的参与。首次实现了从单张RGB图像直接估计地上生物量。
[186] Simultaneous Image Quality Improvement and Artefacts Correction in Accelerated MRI
Georgia Kanli,Daniele Perlo,Selma Boudissa,Radovan Jirik,Olivier Keunen
Main category: cs.CV
TL;DR: 提出USArt模型,同时处理MRI欠采样加速和噪声/运动伪影校正,实现5倍加速且保持图像质量
- Motivation: 传统MRI采集耗时且易受伪影影响,现有方法要么处理欠采样重建,要么处理伪影校正,但无法同时处理两者,限制了实际应用效果
- Method: 提出USArt模型,采用双子模型架构,专门针对笛卡尔采样的2D脑部解剖图像,同时处理欠采样重建和噪声/运动伪影校正
- Result: 显著提高信噪比和对比度,梯度欠采样策略效果最佳,实现5倍加速且同时校正伪影,无明显质量下降
- Conclusion: USArt模型能有效同时处理MRI欠采样加速和伪影校正问题,在真实场景中表现出鲁棒性,为快速高质量MRI成像提供解决方案
[187] FACT-GS: Frequency-Aligned Complexity-Aware Texture Reparameterization for 2D Gaussian Splatting
Tianhao Xie,Linlian Jiang,Xinxin Zuo,Yang Wang,Tiberiu Popa
Main category: cs.CV
TL;DR: FACT-GS提出了一种频率对齐的复杂感知纹理高斯泼溅框架,通过自适应采样密度分配来优化纹理空间利用率,在相同参数预算下恢复更清晰的高频细节。
- Motivation: 现有基于纹理的高斯泼溅方法采用均匀的每高斯采样网格,无论局部视觉复杂度如何都分配相同的采样密度,导致纹理空间利用效率低下:高频区域采样不足而平滑区域容量浪费,造成模糊外观和精细结构细节丢失。
- Method: FACT-GS将纹理参数化重新表述为可微分的采样密度分配问题,用可学习的频率感知分配策略替代均匀纹理,通过变形场的雅可比矩阵调制局部采样密度,在固定分辨率纹理网格上执行非均匀采样。
- Result: FACT-GS在保持实时性能的同时,在相同参数预算下恢复了更清晰的高频细节,提高了纹理空间利用效率。
- Conclusion: FACT-GS通过自适应采样密度分配解决了纹理高斯泼溅中的采样效率问题,为高质量实时渲染提供了更有效的纹理参数化方法。
[188] Toward Automatic Safe Driving Instruction: A Large-Scale Vision Language Model Approach
Haruki Sakajo,Hiroshi Takato,Hiroshi Tsutsui,Komei Soda,Hidetaka Kamigaito,Taro Watanabe
Main category: cs.CV
TL;DR: 该研究探讨了大规模视觉语言模型在驾驶安全监控中的应用,通过构建数据集评估模型处理同步驾驶员视角和道路视角视频的能力,发现微调后的模型能生成准确的安全驾驶指令,但仍面临检测细微复杂事件的挑战。
- Motivation: 现有大规模视觉语言模型在视觉任务中表现出色,可应用于自动驾驶等工业领域。然而,全面安全监控需要同时处理驾驶员视角和道路视角的同步视频输入,以检测如驾驶时使用手机等风险事件。目前缺乏对此类同步多视角处理能力的研究。
- Method: 研究构建了一个专门的数据集,用于评估大规模视觉语言模型处理同步驾驶员视角和道路视角视频的能力。通过对比预训练模型和微调模型在该数据集上的表现,分析模型在驾驶安全监控任务中的有效性。
- Result: 实验结果显示,预训练的大规模视觉语言模型在此任务上效果有限,但经过微调的模型能够生成准确且具有安全意识的驾驶指令。然而,模型在检测视频中细微或复杂事件方面仍存在挑战。
- Conclusion: 微调后的大规模视觉语言模型在驾驶安全监控任务中表现出潜力,能够生成安全导向的指令。但模型仍需改进以更好地检测复杂事件。研究提供的错误分析和发现为该领域模型改进提供了有价值的见解。
[189] A Perceptually Inspired Variational Framework for Color Enhancement
Rodrigo Palma-Amestoy,Edoardo Provenzi,Marcelo Bertalmío,Vicent Caselles
Main category: cs.CV
TL;DR: 提出基于人类颜色视觉现象学的变分色彩对比度增强方法,满足感知启发的能量函数要求,并优化计算复杂度从O(N²)到O(NlogN)
- Motivation: 现有基于人类颜色视觉现象学的色彩校正算法在图像特征(如对比度和离散度)方面的行为难以表征,需要建立更系统的感知启发模型
- Method: 提出变分色彩对比度增强框架,定义感知启发能量函数的基本要求,构造满足所有要求的函数类,选取三个具体函数进行分析,采用梯度下降法求解最小值,并开发计算复杂度优化方法
- Result: 建立了满足感知启发要求的能量函数类,提出了三个具有基本意义的函数,展示了与现有模型的异同,实现了从O(N²)到O(NlogN)的计算复杂度优化
- Conclusion: 该变分框架为基于人类颜色视觉现象学的色彩对比度增强提供了系统化的数学基础,同时通过算法优化实现了计算效率的显著提升
[190] UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes
Shuo Ni,Di Wang,He Chen,Haonan Guo,Ning Zhang,Jing Zhang
Main category: cs.CV
TL;DR: 提出了GeoSeg-1M百万级遥感指令分割数据集、GeoSeg-Bench评估基准和UniGeoSeg统一框架,解决了现有方法任务碎片化和数据不足的问题。
- Motivation: 现有遥感指令驱动分割方法存在任务表述碎片化和指令数据有限的问题,阻碍了有效的理解和泛化能力。
- Method: 1) 通过自动掩码过滤和指令生成流程构建GeoSeg-1M数据集;2) 创建GeoSeg-Bench评估基准;3) 提出UniGeoSeg统一框架,包含任务感知文本增强、潜在知识记忆和渐进训练策略。
- Result: UniGeoSeg在GeoSeg-Bench和多个公共基准测试中达到最先进性能,并展现出强大的零样本泛化能力。
- Conclusion: GeoSeg-1M数据集、GeoSeg-Bench基准和UniGeoSeg框架为遥感指令驱动分割提供了全面的解决方案,显著提升了模型的理解和泛化能力。
[191] Markovian Scale Prediction: A New Era of Visual Autoregressive Generation
Yu Zhang,Jingyi Liu,Yiwei Shi,Qi Zhang,Duoqian Miao,Changwei Wang,Longbing Cao
Main category: cs.CV
TL;DR: 提出Markov-VAR,一种基于马尔可夫过程的视觉自回归模型,通过滑动窗口压缩历史信息,在保持性能的同时大幅降低计算开销和内存消耗。
- Motivation: 传统VAR模型采用全上下文依赖(所有先前尺度预测下一尺度),虽然能实现稳定全面的表示学习,但计算效率低下、开销巨大,严重阻碍了VAR的实际应用和可扩展性。
- Method: 将VAR重新表述为非全上下文马尔可夫过程,提出Markov-VAR。采用马尔可夫尺度预测:将每个尺度视为马尔可夫状态,引入滑动窗口将某些先前尺度压缩为紧凑的历史向量,以补偿非全上下文依赖造成的历史信息损失。将历史向量与马尔可夫状态结合形成代表性动态状态,在马尔可夫过程中演化。
- Result: 在ImageNet上,Markov-VAR相比VAR:在256×256分辨率下FID降低10.5%,在1024×1024分辨率下峰值内存消耗减少83.8%。模型极其简单但高度有效。
- Conclusion: Markov-VAR可以作为未来视觉自回归生成和其他下游任务研究的基础,在保持性能的同时显著提升了效率和可扩展性。
[192] Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories
Xinxi Zhang,Shiwei Tan,Quang Nguyen,Quan Dao,Ligong Han,Xiaoxiao He,Tunyu Zhang,Alen Mrdovic,Dimitris Metaxas
Main category: cs.CV
TL;DR: Re-MeanFlow:一种通过单次重流步骤建模整流轨迹平均速度场的框架,实现高效一步采样,优于现有方法
- Motivation: 现有流生成模型面临采样效率问题:Rectified Flow需要多次计算密集型重流迭代才能获得直线路径,MeanFlow在高度弯曲流上训练时收敛慢且监督噪声大
- Method: 提出Rectified MeanFlow框架,仅用单次重流步骤建模整流轨迹的平均速度场,无需完全直线化路径;引入简单有效的截断启发式方法减少残余曲率
- Result: 在ImageNet 64×64、256×256、512×512分辨率上,Re-MeanFlow在样本质量和训练效率上均优于先前的一步流蒸馏和Rectified Flow方法
- Conclusion: Re-MeanFlow通过结合整流轨迹和平均速度场建模,实现了高效的一步采样生成,在保持高质量的同时显著提升了训练效率
[193] A Hierarchical Computer Vision Pipeline for Physiological Data Extraction from Bedside Monitors
Vinh Chau,Khoa Le Dinh Van,Hon Huynh Ngoc,Binh Nguyen Thien,Hao Nguyen Thien,Vy Nguyen Quang,Phuc Vo Hong,Yen Lam Minh,Kieu Pham Tieu,Trinh Nguyen Thi Diem,Louise Thwaites,Hai Ho Bich
Main category: cs.CV
TL;DR: 提出基于计算机视觉的管道,从床旁监护仪屏幕自动捕获和数字化生命体征数据,解决低资源医疗环境中设备无网络连接的问题。
- Motivation: 在低资源医疗环境中,床旁监护仪多为无网络连接的独立遗留设备,导致生理数据无法无缝集成到电子健康记录系统,形成互操作性鸿沟。
- Method: 采用分层检测框架:YOLOv11用于监护仪和感兴趣区域定位,PaddleOCR用于文本提取,几何校正模块标准化屏幕视角以提高可靠性。
- Result: 在6,498张图像数据集上评估,监护仪检测mAP@50-95达99.5%,生命体征ROI定位达91.5%,核心生理参数端到端提取准确率超过98.9%。
- Conclusion: 轻量级、基于摄像头的方法能可靠地将屏幕捕获的非结构化信息转换为结构化数字数据,为低资源环境提供实用且可扩展的信息访问和临床文档改进途径。
[194] SimScale: Learning to Drive via Real-World Simulation at Scale
Haochen Tian,Tianyu Li,Haochen Liu,Jiazhi Yang,Yihang Qiu,Guang Li,Junli Wang,Yinfeng Gao,Zhang Zhang,Liang Wang,Hangjun Ye,Tieniu Tan,Long Chen,Hongyang Li
Main category: cs.CV
TL;DR: 提出SimScale框架,通过神经渲染和反应式环境合成大规模未见驾驶状态,配合伪专家轨迹生成,通过真实与模拟数据协同训练显著提升规划方法的鲁棒性和泛化能力。
- Motivation: 完全自动驾驶系统需要在各种场景(包括安全关键和分布外场景)中学习理性决策,但这些场景在人类专家收集的真实世界数据中代表性不足,缺乏数据多样性。
- Method: 1) 基于现有驾驶日志,利用神经渲染和反应式环境合成高保真多视角观测;2) 开发伪专家轨迹生成机制为模拟状态提供动作监督;3) 采用真实与模拟数据的简单协同训练策略。
- Result: 在挑战性真实世界基准测试中,各种规划方法的鲁棒性和泛化能力显著提升:navhard上EPDMS提升+6.8,navtest上提升+2.9。仅增加模拟数据即可平滑扩展策略改进,无需额外真实数据。
- Conclusion: SimScale框架能有效补充真实数据多样性不足,通过模拟数据合成和协同训练显著提升自动驾驶规划性能,并揭示了伪专家设计和不同策略架构的扩展特性等关键发现。
[195] DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline
Rui Zhang,Hongxia Wang,Hangqing Liu,Yang Zhou,Qiang Zeng
Main category: cs.CV
TL;DR: 提出了DEAL-300K数据集,用于扩散模型编辑图像的区域定位,包含30万标注图像,并开发了基于视觉基础模型和多频提示调优的定位框架。
- Motivation: 扩散模型使图像编辑变得容易,但也产生了难以检测的局部伪造。现有基准主要关注生成图像的二元检测或手动编辑区域定位,不能反映扩散编辑平滑融合的特性。
- Method: 1) 使用多模态大语言模型生成编辑指令,无掩码扩散编辑器生成编辑图像,主动学习变化检测流程获得像素级标注;2) 提出基于冻结视觉基础模型和多频提示调优的定位框架,捕捉编辑区域的语义和频域线索。
- Result: 在DEAL-300K测试集上达到82.56%的像素级F1分数,在外部CoCoGlide基准上达到80.97%,为DIML研究提供了强基线。
- Conclusion: DEAL-300K是首个大规模扩散编辑定位数据集,提出的定位框架能有效检测扩散编辑区域,为未来DIML研究提供了实用基础。
[196] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
Sinan Du,Jiahao Guo,Bo Li,Shuhao Cui,Zhengzhuo Xu,Yifu Luo,Yongxian Wei,Kun Gai,Xinggang Wang,Kai Wu,Chun Yuan
Main category: cs.CV
TL;DR: VQRAE提出了一种统一的向量量化表示自编码器,首次在单个tokenizer中实现连续语义特征用于图像理解和离散token用于视觉生成
- Motivation: 现有方法通常在双编码器范式下处理多模态理解与生成,缺乏统一的表示方法。需要一种既能保持语义理解能力,又能生成离散token用于视觉生成的统一表示方案
- Method: 基于预训练视觉基础模型,构建对称ViT解码器,采用两阶段训练策略:1)冻结编码器,学习高维语义VQ码本进行像素重建;2)联合优化编码器并加入自蒸馏约束
- Result: VQRAE在多个视觉理解、生成和重建基准上表现出竞争力,语义VQ码本在1536维度下能达到100%利用率,在自回归范式下展现出良好的扩展性
- Conclusion: VQRAE首次实现了在统一tokenizer中同时支持连续语义特征理解和离散token生成,发现了语义编码器量化需要高维码本的重要特性,为构建统一多模态模型提供了新思路
[197] MANTA: Physics-Informed Generalized Underwater Object Tracking
Suhas Srinath,Hemang Jamadagni,Aditya Chadrasekar,Prathosh AP
Main category: cs.CV
TL;DR: MANTA是一个物理信息的水下目标跟踪框架,通过双正对比学习和多阶段跟踪管道,结合Beer-Lambert增强和几何一致性,显著提升水下跟踪性能。
- Motivation: 水下目标跟踪面临波长相关衰减和散射的挑战,这些物理驱动的退化严重扭曲了不同深度和水况下的外观。现有基于陆地数据训练的跟踪器无法泛化到这些物理退化情况。
- Method: 提出MANTA框架:1)双正对比学习策略,将时间一致性与Beer-Lambert增强相结合,产生对时间和水下失真都鲁棒的特征;2)多阶段管道,通过物理信息的二次关联算法增强基于运动的跟踪,该算法整合了几何一致性和外观相似性;3)提出中心尺度一致性(CSC)和几何对齐分数(GAS)评估几何保真度。
- Result: 在四个水下基准测试(WebUOT-1M, UOT32, UTB180, UWCOT220)上,MANTA实现了最先进的性能,将Success AUC提升了高达6%,同时确保稳定的长期泛化水下跟踪和高效的运行时。
- Conclusion: MANTA通过整合物理信息表示学习和跟踪设计,有效解决了水下目标跟踪中的物理退化问题,为水下视觉任务提供了鲁棒且高效的解决方案。
[198] DisMo: Disentangled Motion Representations for Open-World Motion Transfer
Thomas Ressler-Antal,Frank Fundel,Malek Ben Alaya,Stefan Andreas Baumann,Felix Krause,Ming Gui,Björn Ommer
Main category: cs.CV
TL;DR: DisMo提出了一种从原始视频数据学习抽象运动表示的新范式,通过图像空间重建目标实现运动与内容的解耦,支持开放世界的运动迁移,并能与现有视频生成器结合。
- Motivation: 现有的文本到视频和图像到视频模型虽然能生成视觉上吸引人的视频,但缺乏将运动与内容分离的显式表示,限制了内容创作者的应用。这些模型通常在运动保真度和提示遵循之间进行权衡,要么过度拟合源结构,要么偏离描述的动作。
- Method: 提出DisMo范式,通过图像空间重建目标直接从原始视频数据学习抽象运动表示。该表示是通用的,独立于外观、物体身份或姿态等静态信息。通过轻量级适配器可与任何现有视频生成器结合,实现开放世界的运动迁移。
- Result: 方法在多种运动迁移任务中表现出有效性,能够跨语义无关实体传输运动,无需物体对应关系。学习到的表示在下游运动理解任务中也表现优异,在Something-Something v2和Jester等基准测试中,零样本动作分类性能优于V-JEPA等最先进的视频表示模型。
- Conclusion: DisMo提供了一种学习抽象运动表示的新方法,成功解耦了运动语义与外观,实现了准确的运动迁移和忠实的条件控制。该表示具有通用性,能与现有视频生成器轻松集成,为内容创作提供了更灵活的工具。
[199] Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model
Junshu Tang,Jiacheng Liu,Jiaqi Li,Longhuang Wu,Haoyu Yang,Penghao Zhao,Siruis Gong,Xiang Yuan,Shuai Shao,Qinglin Lu
Main category: cs.CV
TL;DR: Hunyuan-GameCraft-2是一个指令驱动的交互式游戏世界生成模型,允许用户通过自然语言、键盘或鼠标信号控制游戏视频内容,实现灵活且语义丰富的交互。
- Motivation: 当前生成世界模型存在动作模式僵化和标注成本高的问题,限制了其对多样化游戏交互和玩家驱动动态的建模能力。
- Method: 1) 定义交互式视频数据概念并开发自动化流程,将大规模非结构化文本-视频对转换为因果对齐的交互数据集;2) 基于14B图像到视频的MoE基础模型,引入文本驱动的交互注入机制,实现对相机运动、角色行为和环境动态的细粒度控制。
- Result: 模型能够生成时间连贯且因果基础的交互式游戏视频,能够忠实响应"开门"、"点燃火炬"、"触发爆炸"等多样化的自由形式用户指令。通过新提出的InterBench基准进行综合评估。
- Conclusion: Hunyuan-GameCraft-2通过指令驱动的交互范式,突破了传统生成世界模型的限制,实现了更灵活、语义更丰富的游戏世界建模能力。
[200] Object-Centric Data Synthesis for Category-level Object Detection
Vikhyat Agarwal,Jiayi Cora Guo,Declan Hoban,Sissi Zhang,Nicholas Moran,Peter Cho,Srilakshmi Pattabiraman,Shantanu Joshi
Main category: cs.CV
TL;DR: 该论文研究了在仅有少量物体中心数据(多视角图像或3D模型)的情况下,通过四种数据合成方法来微调物体检测模型,以扩展其检测新物体类别的能力。
- Motivation: 深度学习物体检测模型需要大量标注数据来扩展新类别,但获取成本高且耗时,特别是对于长尾类别。当只有有限的物体中心数据时,需要有效的方法来利用这些数据提升模型性能。
- Method: 提出了四种基于物体中心数据的数据合成方法:1)简单图像处理技术,2)3D渲染,3)图像扩散模型。这些方法使用物体中心数据合成具有不同上下文连贯性和复杂度的真实杂乱图像。
- Result: 在数据受限的实验设置中,这些方法显著提升了模型性能,使模型能够在真实世界数据中实现类别级泛化。
- Conclusion: 在仅有少量物体中心数据的情况下,通过数据合成方法可以有效扩展物体检测模型的能力,为数据受限场景下的模型微调提供了实用解决方案。
[201] Visual Generation Tuning
Jiahao Guo,Sinan Du,Jingfeng Yao,Wenyu Liu,Bo Li,Haoxiang Cao,Kun Gai,Chun Yuan,Kai Wu,Xinggang Wang
Main category: cs.CV
TL;DR: VGT是一种新的视觉生成调优范式,通过高效调优预训练视觉语言模型,激发其内在的视觉生成能力,实现快速收敛和高质量生成。
- Motivation: 虽然大型视觉语言模型在跨模态理解方面表现出色,但其视觉表示是否具有视觉生成潜力尚未充分探索。现有方法需要大量对齐成本和收敛时间。
- Method: 提出VGT-AE架构,将预训练VLM的语义编码器与像素解码器的潜在表示对齐,避免使用复杂的像素级VAE。通过高效视觉生成调优激发VLM的生成能力。
- Result: 在图像重建任务中达到26.67 PSNR和0.50 rFID(28倍压缩比),超越专用VAE;在视觉生成任务中,在自回归模型中达到SOTA(GenEval 0.77,DPG-Bench 78.73)。收敛速度提升20倍。
- Conclusion: VGT展示了强大的扩展潜力,能够为任何多模态理解训练的VLM赋予视觉生成能力,为探索下一代统一多模态基础模型开辟了新途径。
[202] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement
Zhizhou Zhong,Yicheng Ji,Zhe Kong,Yiying Liu,Jiarui Wang,Jiasun Feng,Lupeng Liu,Xiangyi Wang,Yanjia Li,Yuqing She,Ying Qin,Huan Li,Shuiyang Mao,Wei Liu,Wenhan Luo
Main category: cs.CV
TL;DR: AnyTalker:一个可扩展的多人物视频生成框架,通过身份感知注意力机制处理任意数量的身份-音频对,仅需单人视频训练即可学习多人说话模式,在数据成本和身份可扩展性之间取得良好平衡。
- Motivation: 当前多人视频生成面临两大挑战:1)多样多人数据收集成本高;2)难以驱动多个身份实现连贯交互。现有音频驱动的多人说话视频生成方法在这些方面存在困难。
- Method: 1)提出可扩展的多流处理架构,在Diffusion Transformer的注意力块中引入身份感知注意力机制,迭代处理身份-音频对,实现任意数量的身份驱动;2)训练流程仅依赖单人视频学习多人说话模式,仅需少量真实多人片段优化交互性;3)贡献专门评估指标和数据集。
- Result: 实验表明AnyTalker在唇部同步、视觉质量和自然交互性方面表现优异,在数据成本和身份可扩展性之间取得了良好平衡。
- Conclusion: AnyTalker通过创新的架构设计和训练策略,有效解决了多人视频生成中的数据收集和交互性挑战,为多人说话视频生成提供了高效可扩展的解决方案。
[203] Video-CoM: Interactive Video Reasoning via Chain of Manipulations
Hanoona Rasheed,Mohammed Zumri,Muhammad Maaz,Ming-Hsuan Yang,Fahad Shahbaz Khan,Salman Khan
Main category: cs.CV
TL;DR: Video CoM提出交互式视频推理新范式,让模型通过视觉操作链主动"用视频思考",而非传统被动文本推理,显著提升细粒度时空理解能力。
- Motivation: 现有MLLMs视频理解采用被动范式:视频编码后仅在文本空间推理,将视觉输入视为静态上下文。这造成语义瓶颈:模型无法回看、重聚焦或验证证据,导致需要细粒度时空理解的任务上视觉推理浅层化。
- Method: 1) 提出交互式视频推理范式,将视频转化为主动认知工作空间;2) 设计Video CoM模型,通过操作链(CoM)执行迭代视觉动作收集和精炼证据;3) 构建18K指令调优数据集Video CoM Instruct;4) 引入推理感知的组相对策略优化(GRPO)强化学习,使用步骤级推理奖励而非稀疏答案奖励。
- Result: 在九个视频推理基准上取得强劲结果,平均性能比最新SOTA模型提升3.6%,仅使用25K SFT和3K GRPO视频样本训练,远少于可比大规模模型。消融研究表明推理感知奖励同时提升准确性和可解释性。
- Conclusion: 交互式视频推理范式突破了传统被动文本推理的语义瓶颈,通过主动视觉操作实现更深入、更可靠的视频理解。推理感知强化学习进一步优化了模型的推理过程,为细粒度时空理解任务提供了新方向。
[204] Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models
Muhammad Maaz,Hanoona Rasheed,Fahad Shahbaz Khan,Salman Khan
Main category: cs.CV
TL;DR: 论文提出Video R2模型,通过强化学习提升视频推理的时序对齐和逻辑一致性,解决现有多模态大语言模型在动态视觉内容推理中逻辑不一致和视觉证据不足的问题。
- Motivation: 当前多模态大语言模型在动态视觉内容推理中存在两个主要问题:1)推理过程看似合理但逻辑不一致;2)推理过度依赖语言先验而非视觉证据。作者通过两个诊断指标(TAC和VAS)量化这些问题,发现现有模型在11个视频推理基准上严重依赖文本线索而非视觉内容。
- Method: 提出两阶段后训练方法:1)时间感知监督微调;2)基于组相对策略优化(GRPO)的强化学习,使用新颖的时间对齐奖励(TAR)来鼓励时序对齐和因果连贯的视频推理。该方法结合了时间对齐和推理一致性优化。
- Result: 提出的Video R2模型在多个基准测试中显著提升了TAC(思维答案一致性)、VAS(视频注意力分数)和准确率。实验表明,改进时序对齐和推理连贯性能够带来更准确、更可信的视频理解。
- Conclusion: 通过强化学习方法增强视频推理的时序精度和逻辑一致性是有效的。Video R2模型证明了时间对齐奖励和组相对策略优化能够显著提升模型对动态视觉内容的推理能力,使其更依赖视觉证据而非语言先验,从而提高准确性和可信度。
cs.CR
[205] GEO-Detective: Unveiling Location Privacy Risks in Images with LLM Agents
Xinyu Zhang,Yixin Wu,Boyang Zhang,Chenhao Lin,Chao Shen,Michael Backes,Yang Zhang
Main category: cs.CR
TL;DR: Geo-Detective是一个模仿人类推理和工具使用的智能体,通过四步流程和专门工具(如视觉反向搜索)进行图像地理位置推断,显著提升了地理定位性能,特别是在缺乏明显地理特征的图像上,但也带来了隐私风险。
- Motivation: 社交媒体图像常包含地理线索,现有大型视觉语言模型(LVLMs)虽能进行地理定位但未针对此任务优化。本文旨在探索图像地理定位的潜力及相关隐私风险。
- Method: 提出Geo-Detective智能体,模仿人类推理和工具使用,采用四步自适应策略流程,配备专门工具如视觉反向搜索来收集外部地理线索。
- Result: Geo-Detective在整体上优于基线LVLMs,特别是在缺乏可见地理特征的图像上。在国家级地理定位任务中提升超过11.1%,在更细粒度级别仍有约5.2%的性能增益。配备外部线索时,准确预测率提升,"未知"预测率降低超过50.6%。
- Conclusion: Geo-Detective展示了强大的地理定位能力,但也凸显了隐私风险。研究发现Geo-Detective具有更强的鲁棒性,表明需要更有效的隐私保护措施。
cs.CL
[206] Insight-A: Attribution-aware for Multimodal Misinformation Detection
Junjie Wu,Yumeng Fu,Chen Gong,Guohong Fu
Main category: cs.CL
TL;DR: Insight-A 是一个利用多模态大语言模型进行归因分析的多模态虚假信息检测框架,通过追踪伪造来源和分层推理来检测跨模态失真。
- Motivation: AIGC技术已成为社交媒体上创建多模态虚假信息的普遍手段,对社会安全构成前所未有的威胁。现有的基于标准提示的方法忽略了虚假信息的归因分析,无法有效识别伪造来源。
- Method: 提出Insight-A框架,包含两个核心部分:1) 通过交叉归因提示(CAP)将虚假信息归因到伪造来源,建模感知与推理之间的复杂关联;2) 采用自动归因去偏提示(ADP)减少人工标注提示的主观性;3) 设计图像描述(IC)获取视觉细节以增强跨模态一致性检查。整体采用分层推理管道检测跨模态失真。
- Result: 大量实验证明了该方法的优越性,为AIGC时代的多模态虚假信息检测提供了新范式。
- Conclusion: Insight-A通过探索多模态大语言模型的归因洞察,有效检测多模态虚假信息,特别关注伪造来源追踪和跨模态失真检测,为应对AIGC带来的虚假信息威胁提供了创新解决方案。
[207] CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution
Baoliang Tian,Yuxuan Si,Jilong Wang,Lingyao Li,Zhongyuan Bao,Zineng Zhou,Tao Wang,Sixu Li,Ziyao Xu,Mingze Wang,Zhouzhuo Zhang,Zhihao Wang,Yike Yun,Ke Tian,Ning Yang,Minghui Qiu
Main category: cs.CL
TL;DR: CrossCheck-Bench是一个用于评估多模态大语言模型检测和解决真实世界不一致性的诊断基准,包含15k个具有合成矛盾的问题-答案对,评估发现现有模型在逻辑矛盾检测方面存在显著性能下降。
- Motivation: 当前多模态大语言模型主要在对齐的图像-文本对上训练和评估,但真实世界应用中视觉和文本线索经常冲突,需要模型进行超越表面对齐的结构化推理。现有研究对模型检测和解决真实世界不一致性的能力探索不足。
- Method: 提出了CrossCheck-Bench诊断基准,采用分层任务框架覆盖三个推理复杂度级别,定义了解决跨模态不一致性所需的七种原子能力。数据集包含15k个从真实世界素材中获取的问题-答案对,通过合成注入矛盾,采用多阶段标注流程(超过450专家小时)确保语义有效性和校准难度。
- Result: 评估了13个最先进的视觉语言模型,发现随着任务从感知匹配转向逻辑矛盾检测,性能一致下降。大多数模型在孤立实体识别上表现良好,但在需要综合多个线索进行冲突推理时失败。能力分析显示技能获取不均衡,特别是在需要多步推理或基于规则验证的任务中。传统提示策略如思维链和标记集仅带来边际改进,而将符号推理与基础视觉处理交织的方法获得更稳定的改进。
- Conclusion: 研究揭示了多模态推理中存在的持续瓶颈,强调了现有模型在检测和解决跨模态不一致性方面的局限性,为构建能够进行稳健跨模态验证的模型指出了新方向。
[208] Closing the Performance Gap Between AI and Radiologists in Chest X-Ray Reporting
Harshita Sharma,Maxwell C. Reynolds,Valentina Salvatelli,Anne-Marie G. Sykes,Kelly K. Horst,Anton Schwaighofer,Maximilian Ilse,Olesya Melnichenko,Sam Bond-Taylor,Fernando Pérez-García,Vamshi K. Mugu,Alex Chan,Ceylan Colak,Shelby A. Swartz,Motassem B. Nashawaty,Austin J. Gonzalez,Heather A. Ouellette,Selnur B. Erdal,Beth A. Schueler,Maria T. Wetscherek,Noel Codella,Mohit Jain,Shruthi Bannur,Kenza Bouzid,Daniel C. Castro,Stephanie Hyland,Panos Korfiatis,Ashish Khandelwal,Javier Alvarez-Valle
Main category: cs.CL
TL;DR: MAIRA-X是一个用于胸部X光报告生成的多模态AI模型,在临床评估中表现出色,尤其在导管和管路报告方面显著优于现有技术。
- Motivation: AI辅助报告生成可以减轻放射科医生的工作负担,特别是在导管和管路解释这种重复性任务上。随着筛查指南扩展、病例复杂化和人员短缺,需要能同时处理临床发现和导管管路报告的高效AI系统。
- Method: 使用Mayo Clinic的大规模、多站点、纵向数据集(310万研究,600万图像,80.6万患者)开发MAIRA-X模型。在三个保留数据集和公开MIMIC-CXR数据集上评估,开发了专门的导管管路评估框架,并进行了包含9名放射科医生盲审600项研究的用户评估研究。
- Result: MAIRA-X在词汇质量、临床正确性和导管管路相关元素方面显著优于现有技术。用户研究发现关键错误率相近(原始报告3.0% vs AI报告4.6%),可接受句子率相似(97.8% vs 97.4%),比先前用户研究的差距和错误率有显著改善。
- Conclusion: MAIRA-X能够有效辅助放射科医生,特别是在高流量临床环境中,在保持诊断准确性的同时减轻工作负担。
[209] Visual Puns from Idioms: An Iterative LLM-T2IM-MLLM Framework
Kelaiti Xiao,Liang Yang,Dongyu Zhang,Paerhati Tulajiang,Hongfei Lin
Main category: cs.CL
TL;DR: 提出一个基于迭代框架的视觉双关语生成系统,通过协调LLM、T2IM和MLLM自动生成和评估成语视觉双关图像,并创建了包含1000个成语的数据集进行基准测试。
- Motivation: 研究成语视觉双关语(将成语的字面意义和比喻意义对齐的图像),解决自动生成和评估这类创意内容的挑战。
- Method: 提出迭代框架:给定成语后,系统迭代执行:(1) LLM生成详细视觉提示,(2) T2IM合成图像,(3) MLLM从图像推断成语,(4) 精炼提示直到识别成功或达到步数限制。
- Result: 使用1000个成语生成了对应的视觉双关图像数据集,实验表明MLLM选择是性能主要驱动因素:GPT准确率最高,Gemini次之,最佳开源MLLM(Gemma)与部分闭源模型竞争。LLM方面,Claude在提示生成上表现最佳。
- Conclusion: 成功开发了自动生成和评估成语视觉双关语的框架,创建了基准数据集,并分析了不同模型在生成和理解任务上的性能表现,为多模态创意内容生成提供了有效方法。
[210] TWEO: Transformers Without Extreme Outliers Enables FP8 Training And Quantization For Dummies
Guang Liang,Jie Shao,Ningyuan Tang,Xinyao Liu,Jianxin Wu
Main category: cs.CL
TL;DR: TWEO是一种新型非侵入性损失函数,通过解决权重矩阵共线性问题消除极端异常值,实现全模型FP8预训练,无需工程技巧或架构修改,提升训练吞吐量36%,并首次实现W8A8静态量化的SOTA性能。
- Motivation: 现代硬件原生支持FP8对于训练大型Transformer至关重要,但极端激活异常值严重阻碍了这一进程。现有解决方案要么依赖复杂的混合精度工程,要么需要侵入性的架构修改。本文从根本上挑战了异常值是数据驱动的传统观念。
- Method: 本文发现极端异常值是训练过程中机械产生的、与数据无关的产物,源于权重矩阵的特定结构特性(即共线性)。基于这一洞察,提出了TWEO(Transformers Without Extreme Outliers),这是一种新颖的非侵入性损失函数,通过简单的损失项有效防止极端异常值。
- Result: TWEO将异常值从10000+减少到小于20,实现全模型FP8预训练,无需工程技巧或架构修改。在标准FP8训练灾难性崩溃的情况下,TWEO实现与BF16基线相当的性能,同时训练吞吐量提升36%。此外,TWEO首次在TWEO训练模型上实现了硬件友好的W8A8每张量静态量化,达到SOTA性能。
- Conclusion: TWEO通过解决权重矩阵共线性问题消除极端异常值,为FP8训练提供了简单有效的解决方案,不仅提升训练效率,还开启了新的量化范式,使之前因异常值问题被认为完全不可用的W8A8静态量化首次达到SOTA性能。
[211] Optimizing Multimodal Language Models through Attention-based Interpretability
Alexander Sergeev,Evgeny Kotelnikov
Main category: cs.CL
TL;DR: 提出基于注意力机制的可解释性方法,通过分析图像关键对象的注意力得分来识别多模态语言模型中的重要注意力头,并应用于参数高效微调,仅需微调约0.01%的参数即可显著提升图像理解能力。
- Motivation: 多模态语言模型难以解释,难以确定哪些组件对训练最有效,以平衡效率和性能。全量微调计算成本高,而参数高效微调方法需要识别关键组件。
- Method: 提出基于注意力的可解释性方法,通过分析图像关键对象的注意力得分来识别重要注意力头。计算头部影响分数量化注意力头对关键对象的关注程度,选择HI分数最高的层进行参数高效微调。
- Result: 在2-30亿参数的多模态模型上验证了方法的有效性。微调HI分数最高的层相比预训练、随机选择或最低HI分数层,能带来最显著的指标变化。仅微调约0.01%的参数即可显著影响图像理解能力。
- Conclusion: 基于注意力分析的方法能有效识别多模态语言模型中对图像理解关键的组件,为参数高效微调提供了可解释的指导,显著提升了微调效率。
astro-ph.IM
[212] Structure-Preserving Unpaired Image Translation to Photometrically Calibrate JunoCam with Hubble Data
Aditya Pratap Singh,Shrey Shah,Ramanakumar Sankar,Emma Dahl,Gerald Eichstädt,Georgios Georgakis,Bernadette Bucher
Main category: astro-ph.IM
TL;DR: 提出SP-I2I方法,利用HST作为校准参考,解决JunoCam缺乏绝对光度校准的问题,同时处理两个传感器之间的分辨率差异,保留高频特征用于木星大气研究。
- Motivation: JunoCam缺乏绝对光度校准,阻碍了对木星大气的定量分析。虽然JunoCam提供了高空间分辨率、广泛覆盖和长期观测数据,但需要与校准过的传感器数据进行转换。
- Method: 提出SP-I2I(结构保持图像到图像转换)方法,利用HST作为校准传感器代理,通过显式的频域约束来保留高频特征,处理JunoCam和HST之间的分辨率差异问题。
- Result: 证明了现有最先进的无配对图像转换方法不足以解决此问题,SP-I2I方法在保留精细空间结构方面表现优异,对遥感数据融合任务(如全色锐化)有更广泛影响。
- Conclusion: SP-I2I方法成功解决了JunoCam光度校准问题,同时保留了木星大气研究所需的高频特征,为行星气象学和系外气态巨行星大气研究提供了重要工具。
cs.PF
[213] What Is the Optimal Ranking Score Between Precision and Recall? We Can Always Find It and It Is Rarely
Sébastien Piérard,Adrien Deliège,Marc Van Droogenbroeck
Main category: cs.PF
TL;DR: 该论文分析Fβ分数在分类模型排名中的有效性,发现F1分数并非最优权衡,并提出寻找最佳β值的理论方法和闭式解。
- Motivation: 分类模型性能评估需要综合考虑精度和召回率这两个互补但常矛盾的指标。虽然Fβ分数被广泛使用,但其是否能产生有意义的排名和良好的权衡尚不明确,需要澄清。
- Method: 1) 证明Fβ诱导的排名是有意义的,定义了精度和召回率排名之间的最短路径;2) 将两个分数间的权衡问题表述为基于Kendall秩相关的优化问题;3) 提供理论工具和闭式表达式来寻找任何分布或性能集的最佳β值。
- Result: 研究发现F1分数及其偏斜不敏感版本在权衡精度和召回率排名方面远非最优。通过六个案例研究展示了如何应用理论工具找到最优β值。
- Conclusion: Fβ分数能产生有意义的排名,但常用的F1分数并非最优权衡。论文提供了寻找最佳β值的理论框架和实用方法,有助于更科学地评估分类模型性能。
cs.AI
[214] Evaluating Strategies for Synthesizing Clinical Notes for Medical Multimodal AI
Niccolo Marini,Zhaohui Liang,Sivaramakrishnan Rajaraman,Zhiyun Xue,Sameer Antani
Main category: cs.AI
TL;DR: 该研究探索了在皮肤病学AI应用中,通过设计提示词和整合医学元数据来生成合成临床文本记录,以增强多模态学习性能的方法。
- Motivation: 生物医学多模态学习面临数据稀缺问题,皮肤病数据集通常只有图像和少量元数据,限制了多模态整合的优势。虽然大语言模型可以生成图像文本描述,但它们在医学领域未经专门训练,存在幻觉风险。
- Method: 研究调查了生成合成临床文本记录的策略,包括提示词设计和医学元数据整合,并评估这些策略对多模态架构在分类和跨模态检索任务中性能的影响。
- Result: 在多个异质皮肤病数据集上的实验表明,合成临床文本记录不仅提高了分类性能(特别是在领域转移情况下),还解锁了跨模态检索能力,这是一个在训练期间未明确优化的下游任务。
- Conclusion: 通过精心设计的提示词和医学元数据整合生成的合成临床文本记录,可以有效增强皮肤病学多模态AI应用的性能,特别是在数据稀缺和领域转移的情况下。
[215] Geometrically-Constrained Agent for Spatial Reasoning
Zeren Chen,Xiaoya Lu,Zhijie Zheng,Pengrui Li,Lehan He,Yijin Zhou,Jing Shao,Bohan Zhuang,Lu Sheng
Main category: cs.AI
TL;DR: GCA提出了一种无需训练、基于几何约束的智能体范式,通过将VLM角色解耦为语义分析师和任务求解器两个阶段,在空间推理中解决语义到几何的鸿沟,在多个基准测试中超越现有方法约27%。
- Motivation: 视觉语言模型在空间推理中存在根本性的语义到几何鸿沟:擅长定性语义推理但推理过程在损失性语义空间中进行,与高保真几何不对齐。现有方法无法弥合这一鸿沟,训练方法存在"预言悖论",工具集成方法则未能约束VLM的规划过程。
- Method: 提出几何约束智能体(GCA),无需训练的智能体范式,通过引入形式化任务约束将VLM角色解耦为两个阶段:1)作为语义分析师,将用户模糊查询转换为可验证的任务约束;2)作为任务求解器,在约束定义的确定性边界内生成和执行工具调用。
- Result: GCA在多个空间推理基准测试中达到最先进性能,超越现有训练方法和工具集成方法约27%,成功解决了语义到几何的鸿沟,提供了稳健且可验证的推理路径。
- Conclusion: GCA通过几何约束推理策略成功解决了VLM空间推理中的语义到几何鸿沟,提供了一种无需训练、可验证的稳健解决方案,在多个基准测试中显著优于现有方法。
cs.LG
[216] Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium
Akbar Anbar Jafari,Gholamreza Anbarjafari
Main category: cs.LG
TL;DR: 论文提出Equilibrium Transformers (EqT),通过闭环预测原则解决传统自回归Transformer的开环瓶颈问题,使模型在生成每个token前通过梯度下降迭代优化隐表示以达到自洽平衡。
- Motivation: 传统自回归Transformer采用开环操作:每个隐藏状态仅通过单次前向传播计算且永不修正,导致错误在序列中传播。这限制了模型在长程推理、事实一致性和多步规划方面的能力。
- Method: 提出闭环预测原则,要求模型在生成每个token前迭代优化隐表示直至达到自洽平衡。具体实现为Equilibrium Transformers (EqT),在标准Transformer层基础上增加Equilibrium Refinement Module,通过梯度下降最小化学得的能量函数,该函数强制双向预测一致性、情景记忆连贯性和输出置信度。
- Result: 在二进制奇偶校验任务上,EqT在挑战性序列上平均提升3.28%,在标准Transformer接近随机性能的情况下提升达8.07%,验证了深思熟虑的好处随任务难度增加而扩大。
- Conclusion: 正如注意力机制解决了循环网络的序列瓶颈,闭环平衡可能解决开环自回归的承诺瓶颈,代表了向语言模型发展的基础性步骤。该框架统一了深度平衡模型、扩散语言模型和测试时训练。
[217] Designing Instance-Level Sampling Schedules via REINFORCE with James-Stein Shrinkage
Peiyu Yu,Suraj Kothawade,Sirui Xie,Ying Nian Wu,Hongliang Fei
Main category: cs.LG
TL;DR: 提出一种新的文本到图像采样器后处理方法:通过单次Dirichlet策略学习实例级(提示和噪声条件)采样时间表,而不是固定全局时间表,从而提升生成质量。
- Motivation: 大多数文本到图像采样器的后处理方法都集中在模型权重上(微调对齐或蒸馏提高效率),本文采取不同路线:重新调度冻结采样器的采样时间线,以解锁预训练采样器的额外生成潜力。
- Method: 1. 学习实例级(提示和噪声条件)采样时间表,而非固定全局时间表;2. 使用单次Dirichlet策略;3. 引入基于James-Stein估计器的新奖励基线,降低高维策略学习中的梯度估计误差。
- Result: 1. 在Stable Diffusion和Flux模型家族中,重新调度的采样器一致提升文本图像对齐,包括文本渲染和组合控制;2. 5步Flux-Dev采样器使用该方法可达到与专门蒸馏的采样器(如Flux-Schnell)相当的生成质量。
- Conclusion: 该调度框架作为一种新兴的模型无关后处理方法,能够解锁预训练采样器的额外生成潜力,为文本到图像生成提供了新的优化维度。
[218] Adversarial Flow Models
Shanchuan Lin,Ceyuan Yang,Zhijie Lin,Hao Chen,Haoqi Fan
Main category: cs.LG
TL;DR: 对抗流模型统一了对抗模型和流模型,支持原生单步或多步生成,通过对抗目标训练,在ImageNet-256px上达到SOTA性能
- Motivation: 传统GAN的生成器学习任意传输计划,而流匹配模型学习确定性噪声到数据的映射。本文旨在结合两者的优势:既保持对抗训练的灵活性,又获得流模型的稳定性和高效性
- Method: 提出对抗流模型,生成器学习确定性噪声到数据的映射(与流匹配模型相同的优化传输),使用对抗目标训练。支持原生单步或多步生成,无需学习概率流的中间时间步
- Result: 在ImageNet-256px上,B/2模型在1NFE设置下接近一致性XL/2模型性能,XL/2模型创下最佳FID 2.38。通过深度重复端到端训练56层和112层模型,单次前向传播分别达到FID 2.08和1.94,超越其2NFE和4NFE对应模型
- Conclusion: 对抗流模型成功统一了对抗模型和流模型,显著稳定了对抗训练,节省模型容量,减少训练迭代,避免误差累积,在单步生成性能上达到新的SOTA水平
[219] Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation
Jiacheng Li,Songhe Feng
Main category: cs.LG
TL;DR: 本文提出BriMPR框架,通过渐进式重对齐解决多模态测试时适应中的模态耦合效应问题
- Motivation: 多模态场景中,不同模态的分布偏移程度不同,导致单模态浅层特征偏移和跨模态高层语义错位的复杂耦合效应,阻碍现有TTA方法扩展到多模态领域
- Method: 提出BriMPR框架,包含两个渐进增强模块:1) 使用提示调优校准单模态全局特征分布,实现初始语义重对齐;2) 为掩码和完整模态组合分配可信伪标签,引入模态间实例级对比学习增强信息交互
- Result: 在包括基于损坏和真实世界域偏移基准的MMTTA任务上进行了广泛实验,证明了方法的优越性
- Conclusion: BriMPR通过分而治之策略有效解决了多模态测试时适应中的模态耦合问题,实现了跨模态的渐进式重对齐
[220] Machine Learning for Scientific Visualization: Ensemble Data Analysis
Hamid Gadirov
Main category: cs.LG
TL;DR: 该论文探索深度学习方法来改进时空科学集合数据的分析和可视化,包括基于自动编码器的降维、FLINT模型用于流场估计和时间插值,以及HyperFLINT用于参数感知的自适应处理。
- Motivation: 科学模拟和实验测量产生大量时空数据,但由于高维度、复杂结构和信息缺失,提取有意义的洞察仍然具有挑战性。传统分析方法难以处理这些问题,需要更鲁棒的数据驱动方法。
- Method: 1. 基于自动编码器的降维方法,评估部分标注下的投影稳定性,引入帕累托效率选择策略;2. FLINT深度学习模型,用于流场估计和时间插值,支持有监督和无监督设置;3. HyperFLINT超网络方法,基于模拟参数进行条件化处理,实现参数感知的自适应。
- Result: 开发了能够处理高维科学集合数据的降维方法,实现了高质量的流场重建和时间插值,在2D+时间和3D+时间集合中生成高保真插值结果,无需领域特定假设或大量微调。参数感知方法在稀疏或不完整数据下也能获得更准确的重建。
- Conclusion: 该论文推进了科学可视化的深度学习技术,为解释复杂时空集合数据提供了可扩展、自适应和高质量的解决方案,能够处理高维度、缺失信息和复杂结构等挑战。
[221] Physics-Informed Neural Networks for Thermophysical Property Retrieval
Ali Waseem,Malcolm Mielle
Main category: cs.LG
TL;DR: 提出基于物理信息神经网络(PINN)的迭代框架,利用热成像数据非侵入式估计墙体导热系数k,无需长时间测量即可在真实条件下获得可靠结果。
- Motivation: 当前测量导热系数的方法存在侵入性、需要长时间观测或对环境条件敏感的问题,特别是在建筑外墙改造中评估热传递性能时,需要非侵入式、快速且可靠的现场测量方法。
- Method: 提出PINN迭代框架:交替进行两个步骤——固定k时用PINN求解正向热传导问题,然后通过比较PINN预测的热成像和表面温度来优化k,重复直到k收敛。使用气象站数据和有限体积法软件模拟数据进行验证。
- Result: 在不同环境条件和数据采集时间下准确预测k,前提是黎明时墙体温度分布接近稳态。即使违反稳态假设,最大平均绝对误差仅为4.0851,展示了在真实条件下的可靠性能。
- Conclusion: PINN方法为现场材料性能评估提供了可靠的非侵入式解决方案,无需长时间测量活动。该研究填补了机器学习特别是PINN在解决现场逆问题方面的研究空白,有望成为该领域进一步研究的起点。
eess.IV
[222] LAYER: A Quantitative Explainable AI Framework for Decoding Tissue-Layer Drivers of Myofascial Low Back Pain
Zixue Zeng,Anthony M. Perti,Tong Yu,Grant Kokenberger,Hao-En Lu,Jing Wang,Xin Meng,Zhiyu Sheng,Maryam Satarpour,John M. Cormack,Allison C. Bean,Ryan P. Nussbaum,Emily Landis-Walkenhorst,Kang Kim,Ajay D. Wasan,Jiantao Pu
Main category: eess.IV
TL;DR: 开发了名为LAYER的可解释AI框架,通过分析三维超声中的六个组织层来预测肌筋膜疼痛,发现非肌肉组织对疼痛预测有重要贡献,挑战了传统的肌肉中心范式。
- Motivation: 肌筋膜疼痛是慢性腰痛的主要原因,但其组织层面的驱动因素仍不明确,缺乏可靠的影像生物标志物。现有研究主要关注肌肉,而忽视了筋膜、脂肪等软组织的生物力学作用。
- Method: 开发了LAYER(分层分析产生可解释相关性组织)框架,这是一个基于解剖学的可解释人工智能框架,分析三维超声中的六个组织层,并量化它们对肌筋膜疼痛预测的贡献。使用了包含超过4000次扫描的最大多模态三维超声队列。
- Result: 在B模式成像中,深筋膜膜显示出最高的显著性(0.420);在B模式和剪切波图像结合时,非肌肉层的集体显著性(0.316)几乎与肌肉层(0.317)相当,挑战了肌筋膜疼痛研究中传统的肌肉中心范式。
- Conclusion: LAYER建立了一个定量、可解释的框架,将特定层次解剖结构与疼痛生理学联系起来,揭示了新的组织靶点,并为软组织成像的可解释分析提供了通用方法。
[223] Comparing SAM 2 and SAM 3 for Zero-Shot Segmentation of 3D Medical Data
Satrajit Chakrabarty,Ravi Soni
Main category: eess.IV
TL;DR: SAM 3在医学影像零样本分割中表现优于SAM 2,特别是在复杂解剖结构和稀疏交互场景下,可作为更好的默认选择。
- Motivation: 虽然SAM系列模型在自然图像上表现良好,但在医学数据上的行为特征尚未充分研究。SAM 3引入了新的感知架构和概念级提示机制,需要评估其能否直接替代广泛使用的SAM 2进行医学影像分割。
- Method: 在16个公共医学数据集(CT、MRI、3D/动态超声、内窥镜)上对比SAM 2和SAM 3,涵盖54种解剖结构、病理和手术器械。使用纯视觉提示(禁用概念机制),限制在首帧使用四种提示模式:单点、多点、边界框、密集掩码,标准化预处理、提示放置、传播规则和度量计算。
- Result: SAM 3在点击提示初始化方面显著优于SAM 2,在复杂、血管和软组织解剖结构上保持优势,成为更通用的分割器。SAM 2仅在紧凑、刚性器官且有强空间引导时保持竞争力,但在SAM 3能处理的挑战性目标上经常失败。
- Conclusion: SAM 3是大多数医学分割任务的更优默认选择,特别是在涉及稀疏用户交互或复杂解剖拓扑的场景下,可作为SAM 2的直接替代品。
[224] Digital Elevation Model Estimation from RGB Satellite Imagery using Generative Deep Learning
Alif Ilham Madani,Riska A. Kuswati,Alex M. Lechner,Muhamad Risqi U. Saputra
Main category: eess.IV
TL;DR: 该研究提出了一种使用条件生成对抗网络(GAN)从免费RGB卫星图像生成数字高程模型(DEM)的方法,在山区表现良好,但低地和居民区存在局限性。
- Motivation: 传统DEM生成方法(如LiDAR和摄影测量)需要特定类型数据,在资源受限环境中往往难以获取。本研究旨在通过免费RGB卫星图像生成DEM,为资源受限地区提供成本效益高的替代方案。
- Method: 使用条件GAN从RGB图像生成DEM。首先创建包含12K个RGB-DEM对的全球数据集(Landsat卫星图像和NASA SRTM高程数据)。实施预处理流程选择高质量无云区域,并采用两阶段训练:先在完整数据集上训练,然后通过SSIM筛选高质量样本进行微调。
- Result: 在山区表现良好,总体均方根误差(RMSE)为0.4671,平均SSIM得分为0.2065(范围-1到1)。但在低地和居民区存在局限性,表明模型在不同地形上的泛化能力仍有挑战。
- Conclusion: 该方法为传统DEM生成提供了成本效益高且适应性强的替代方案,强调了预处理和迭代优化在生成建模中的重要性。同时指出模型在全球多样化地形上的泛化能力仍需改进。
[225] When Do Domain-Specific Foundation Models Justify Their Cost? A Systematic Evaluation Across Retinal Imaging Tasks
David Isztl,Tahm Spitznagel,Gabor Mark Somfai,Rui Santos
Main category: eess.IV
TL;DR: 该研究挑战了视网膜疾病分类需要大型领域特定基础模型的假设,发现紧凑的通用模型在大多数任务中表现优异,而大型专用模型仅在具有极端类别不平衡的细粒度任务中才值得其计算成本。
- Motivation: 当前广泛采用大型视觉基础模型进行视网膜疾病分类,但缺乏系统证据证明其参数需求的合理性。研究旨在回答两个关键问题:1)大型领域特定基础模型是否必要,还是紧凑的通用架构就足够?2)专门的视网膜预训练是否值得其计算成本?
- Method: 在四个视网膜成像分类任务上对初始化策略进行基准测试:8类OCT分类、3类糖尿病黄斑水肿、5类糖尿病视网膜病变和3类青光眼检测。评估12-13种模型配置,包括ViT、Swin Transformers、ConvNeXt和领域特定的RETFound模型,在相同训练条件下比较。
- Result: 1)预训练带来普遍好处(5.18-18.41%提升),随任务难度增加而增强;2)紧凑架构(27-29M参数)主导帕累托前沿,SwinV2-tiny在三个数据集上达到top-1性能;3)RETFound(303M)仅在具有挑战性的DR分级任务中值得其计算成本(准确率71.15%),其他任务中ImageNet预训练已足够(DME准确率99.24%,OCT准确率97.96%)。
- Conclusion: 紧凑的通用模型在大多数视网膜分类任务中提供接近最优的性能;专门的基础模型仅在极端类别不平衡下的细粒度辨别任务中才被证明是合理的。CFP任务比OCT任务显示出更大的预训练准确率增益。
[226] GACELLE: GPU-accelerated tools for model parameter estimation and image reconstruction
Kwok-Shing Chan,Hansol Lee,Yixin Ma,Berkin Bilgic,Susie Y. Huang,Hong-Hsi Lee,José P. Marques
Main category: eess.IV
TL;DR: GACELLE是一个开源的GPU加速定量MRI分析框架,通过随机梯度下降和随机采样实现快速参数映射,相比CPU方法加速高达451-14,380倍,同时提高参数精度和可重复性。
- Motivation: 定量MRI(qMRI)能提供组织特异性生物标志物,但其参数估计的计算需求巨大,限制了在临床研究中的采用。高空间分辨率图像或多参数拟合需要冗长的处理时间,阻碍了常规流程使用和方法创新。
- Method: 开发GACELLE开源GPU加速框架,提供随机梯度下降优化器和随机采样器。用户只需提供前向信号模型,框架后端管理计算并行化、自动参数更新和内存批处理。随机求解器在CPU和GPU上执行完全向量化的马尔可夫链蒙特卡罗方法。
- Result: 基准测试显示随机梯度下降求解器加速达451倍,随机采样加速达14,380倍,且不损失精度。在三个代表性qMRI模型和图像重建任务中,GACELLE提高了参数精度、增强了测试-重测可重复性并减少了定量图中的噪声。
- Conclusion: GACELLE通过结合速度、可用性和灵活性,为医学图像分析提供了通用的优化框架,降低了qMRI的计算障碍,为可重复生物标志物开发、大规模成像研究和临床转化铺平了道路。
[227] ColonAdapter: Geometry Estimation Through Foundation Model Adaptation for Colonoscopy
Zhiyi Jiang,Yifu Wang,Xuelian Cheng,Zongyuan Ge
Main category: eess.IV
TL;DR: ColonAdapter:一种自监督微调框架,用于将几何基础模型适配到结肠镜场景,解决非朗伯表面、移动光源和大面积无纹理区域带来的3D几何估计挑战。
- Motivation: 现有3D几何基础模型主要在自然场景数据集上训练,在结肠镜临床场景中性能下降。结肠镜图像具有镜面反射、同质纹理等特性,导致几何估计不准确,需要专门适配。
- Method: 提出ColonAdapter自监督微调框架,利用预训练几何先验并适配临床数据。引入细节恢复模块(DRM)改善低纹理区域性能,几何一致性损失确保尺度一致性,置信度加权光度损失增强临床环境训练稳定性。
- Result: 在合成和真实数据集上的实验表明,该方法在相机姿态估计、单目深度预测和密集3D点云重建方面达到最先进性能,且不需要真实内参。
- Conclusion: ColonAdapter成功将几何基础模型适配到结肠镜场景,解决了临床环境中的特殊挑战,为医学内窥镜3D重建提供了有效解决方案。
[228] Content Adaptive Encoding For Interactive Game Streaming
Shakarim Soltanayev,Odysseas Zisimopoulos,Mohammad Ashraful Anam,Man Cheung Kung,Angeliki Katsenou,Yiannis Andreopoulos
Main category: eess.IV
TL;DR: 提出首个用于交互式游戏流媒体的内容自适应编码方法,通过CNN基于历史帧编码元数据预测最佳分辨率,在超低延迟约束下实现质量提升
- Motivation: 交互式游戏流媒体(IGS)对内容自适应编码(CAE)提出了特殊挑战:需要超低延迟编码、无前瞻或缓冲、计算资源极其有限。现有CAE方法难以在IGS中部署。
- Method: 训练卷积神经网络(CNN),基于当前场景中运行窗口的聚合编码块统计信息,从可用选项推断即将到来的场景的最佳分辨率。使用HEVC编码框架中的历史帧编码元数据。
- Result: 在基于HEVC编码的实用IGS设置中部署:1) 相比HEVC默认固定分辨率阶梯提升2.3 Bjøntegaard Delta-VMAF点;2) 每个场景仅需单CPU核心1ms推理时间,无延迟开销。
- Conclusion: 成功开发了首个适用于交互式游戏流媒体的内容自适应编码方法,在满足超低延迟和严格计算约束的同时,显著提升了视频质量。
[229] Hard Spatial Gating for Precision-Driven Brain Metastasis Segmentation: Addressing the Over-Segmentation Paradox in Deep Attention Networks
Rowzatul Zannath Prerona
Main category: eess.IV
TL;DR: 提出SG-Net解决脑转移瘤分割中的"过分割悖论",通过硬空间门控机制显著提升精度和边界准确性,同时减少参数数量。
- Motivation: 脑转移瘤MRI分割面临小病灶(5-15mm)和极端类别不平衡(150mm),这对立体定向放射外科规划构成重大风险。
- Method: 提出空间门控网络(SG-Net),采用硬空间门控机制。与传统的软注意力不同,SG-Net强制执行严格的特征选择,积极抑制背景伪影同时保留肿瘤特征。
- Result: 在Brain-Mets-Lung-MRI数据集(n=92)上验证,SG-Net获得Dice相似系数0.5578±0.0243,显著优于Attention U-Net和ResU-Net(p<0.001)。边界精度提升三倍,95%豪斯多夫距离56.13mm(对比Attention U-Net的157.52mm),同时保持稳健召回率(0.79)和更高精度(0.52 vs. 0.20)。仅需0.67M参数(比Attention U-Net少8.8倍)。
- Conclusion: 硬空间门控机制是精度驱动病灶检测的稳健解决方案,可直接提升放射外科准确性,特别适合资源受限环境部署。
[230] MICCAI STS 2024 Challenge: Semi-Supervised Instance-Level Tooth Segmentation in Panoramic X-ray and CBCT Images
Yaqi Wang,Zhi Li,Chengyu Wu,Jun Liu,Yifan Zhang,Jiaxue Ni,Qian Luo,Jialuo Chen,Hongyuan Zhang,Jin Liu,Can Han,Kaiwen Fu,Changkai Ji,Xinxu Cai,Jing Hao,Zhihao Zheng,Shi Xu,Junqiang Chen,Qianni Zhang,Dahong Qian,Shuai Wang,Huiyu Zhou
Main category: eess.IV
TL;DR: STS 2024挑战赛展示了半监督学习在牙齿分割中的显著效果,在数据稀缺情况下,2D OPG和3D CBCT分割性能分别提升44%和61%。
- Motivation: 牙齿分割需要大量实例级标注数据,但手动标注耗时费力。为解决数据稀缺问题,研究旨在评估和推进半监督学习在牙齿分割中的应用。
- Method: 在MICCAI 2024举办STS 2024挑战赛,提供包含90,000+ 2D图像和3D切片的公开数据集(2,380 OPG和330 CBCT)。评估114个OPG团队和106个CBCT团队的算法,重点关注前10名和前5名的开源方案。
- Result: 所有成功方案均为基于深度学习的半监督方法。最佳OPG方法将Instance Affinity分数提升44个百分点;最佳CBCT方法将Instance Dice分数提升61个百分点。最有效的方法结合了SAM等基础模型与多阶段粗到细精炼流程。
- Conclusion: 半监督学习在标注数据稀缺的复杂实例级医学图像分割任务中具有显著优势。挑战数据集和参赛代码已公开,确保透明性和可复现性。
cs.GR
[231] Geodiffussr: Generative Terrain Texturing with Elevation Fidelity
Tai Inui,Alexander Matsumura,Edgar Simo-Serra
Main category: cs.GR
TL;DR: Geodiffussr:基于流匹配的文本引导地形纹理生成方法,通过多尺度内容聚合机制严格遵循数字高程模型约束
- Motivation: 大规模地形生成在计算机图形学中仍然是劳动密集型任务,需要一种能够根据文本描述生成地形纹理同时严格遵循给定高程数据的方法
- Method: 提出Geodiffussr流程匹配管道,核心是多尺度内容聚合机制:将预训练编码器提取的DEM特征注入到UNet块的多分辨率层中,实现从全局到局部的高程一致性约束
- Result: 相比非MCA基线,MCA显著提升视觉保真度和高度-外观耦合(FID↓49.16%,LPIPS↓32.33%,ΔdCor↓至0.0016)。构建了全球分布、生物群落和气候分层的DEM-卫星图像-文本描述数据集
- Conclusion: Geodiffussr为可控2.5D景观生成提供了强基线,适用于粗尺度概念设计和预览,与基于物理的地形和生态系统模拟器互补
cs.RO
[232] : Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion
Zhihao Zhan,Jiaying Zhou,Likui Zhang,Qinhan Lv,Hao Liu,Jusheng Zhang,Weizheng Li,Ziliang Chen,Tianshui Chen,Keze Wang,Liang Lin,Guangrun Wang
Main category: cs.RO
TL;DR: E0是一个基于离散扩散的VLA模型,通过迭代去噪量化动作token来生成精确动作,在多个基准测试中达到SOTA性能。
- Motivation: 现有VLA模型在跨任务、场景和视角的泛化能力不足,且生成的动作粗糙或不稳定。真实机器人控制受硬件限制本质上是离散的,而连续扩散策略无法准确建模这种离散分布。
- Method: 提出E0框架:1) 将动作生成建模为对量化动作token的迭代去噪过程;2) 离散token与预训练VLM/VLA主干对齐,实现更强的语义条件;3) 引入球形视角扰动增强方法,无需额外数据提升相机偏移鲁棒性。
- Result: 在LIBERO、VLABench和ManiSkill等14个多样化环境中达到SOTA,平均性能提升10.7%。真实世界Franka机械臂实验证实了E0的精确、鲁棒和可迁移的操控能力。
- Conclusion: 离散扩散是通用VLA策略学习的有前景方向,E0通过建模正确的离散动作分布实现了更强的泛化能力和精细动作控制。
[233] RealD iff: Bridging Real-World Gap in Robot Manipulation via Depth Diffusion
Xiujian Liang,Jiacheng Liu,Mingyang Sun,Qichen He,Cewu Lu,Jianhua Sun
Main category: cs.RO
TL;DR: 提出RealD²iff框架,通过扩散模型学习从干净深度合成带噪声的深度,以纯仿真方式弥合视觉sim2real差距,实现零样本机器人操作。
- Motivation: 现实世界机器人操作受视觉sim2real差距限制,仿真中的深度观测无法反映真实传感器的复杂噪声模式。传统方法难以有效处理这种差距。
- Method: 提出RealD²iff框架:1) 采用干净到噪声的范式,学习合成带噪声的深度;2) 分层粗到细扩散框架,将深度噪声分解为全局结构失真和局部扰动;3) 频率引导监督(FGS)用于全局结构建模;4) 差异引导优化(DGO)用于局部细化;5) 构建六阶段模仿学习流程。
- Result: RealD²iff能够:1) 生成类似真实世界的深度数据,无需手动传感器数据收集即可构建干净-噪声配对数据集;2) 实现零样本sim2real机器人操作,显著提高真实世界性能而无需额外微调。
- Conclusion: 通过扩散模型学习合成噪声深度,提出了一种有效的纯仿真驱动方法来解决视觉sim2real差距,为机器人操作提供了新的解决方案。
[234] Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations
Chancharik Mitra,Yusen Luo,Raj Saravanan,Dantong Niu,Anirudh Pai,Jesse Thomason,Trevor Darrell,Abrar Anwar,Deva Ramanan,Roei Herzig
Main category: cs.RO
TL;DR: Robotic Steering:基于机制可解释性的微调方法,通过少样本演示识别并选择性微调与机器人任务物理、视觉和语言需求对齐的特定注意力头,相比LoRA表现更优
- Motivation: 现有的VLA微调方法缺乏特异性,无论任务的视觉、语言和物理特性如何都调整相同的参数集。受神经科学中功能特异性的启发,作者认为针对特定任务微调稀疏模型表示更有效
- Method: 提出Robotic Steering方法,基于机制可解释性,利用少样本演示识别并选择性微调与机器人任务物理、视觉和语言需求对齐的任务特定注意力头
- Result: 在Franka Emika机械臂上的全面机器人评估显示,Robotic Steering在任务变化下优于LoRA,具有更好的鲁棒性、更低的计算成本和更强的可解释性
- Conclusion: Robotic Steering为适应多样化机器人任务的VLA微调提供了一种更有效、高效且可解释的方法,通过功能特异性原则改进了现有微调策略
[235] Distracted Robot: How Visual Clutter Undermine Robotic Manipulation
Amir Rasouli,Montgomery Alban,Sajjad Pakdamansavoji,Zhiyuan Li,Zhanguang Zhang,Aaron Wu,Xuan Zhao
Main category: cs.RO
TL;DR: 提出一种从心理物理学角度评估机器人操作策略在杂乱场景中性能的协议,使用统一的杂乱度度量,并在仿真和真实世界中进行实验,发现杂乱场景显著降低VLA模型性能达34%,不同策略有独特脆弱性且对成功场景一致性低。
- Motivation: 现有评估方法缺乏从心理物理学角度考虑杂乱场景对机器人操作策略的影响,需要统一的杂乱度度量来系统评估环境因素、干扰物数量、特征和排列对策略性能的影响。
- Method: 提出基于心理物理学的评估协议,使用统一的杂乱度度量,在超现实仿真和真实世界中系统构建评估场景,对视觉-语言-动作模型进行广泛实验,分析杂乱度与性能下降的关系。
- Result: 场景杂乱显著降低策略性能达34%;不同VLA策略虽然平均性能相似,但各有独特脆弱性且对成功场景一致性低;提出的杂乱度度量能有效指示性能下降;干扰物数量和遮挡影响显著;微调增强数据不能同等缓解所有杂乱带来的负面影响。
- Conclusion: 需要从心理物理学角度系统评估机器人操作策略在杂乱场景中的性能,提出的杂乱度度量能有效指示性能下降,不同策略有独特脆弱性,单纯数据增强不能完全解决杂乱带来的挑战。
[236] MARVO: Marine-Adaptive Radiance-aware Visual Odometry
Sacchin Sundar,Atman Kikani,Aaliya Alam,Sumukh Shrote,A. Nayeemulla Khan,A. Shahina
Main category: cs.RO
TL;DR: MARVO是一个物理感知、学习融合的水下视觉里程计框架,结合水下成像模型、可微分匹配和强化学习优化,解决水下视觉定位的挑战。
- Motivation: 水下视觉定位面临波长相关衰减、纹理贫乏和非高斯传感器噪声等挑战,传统方法难以应对水下环境的复杂性。
- Method: 1) 前端:基于Transformer的特征匹配器,加入物理感知辐射适配器补偿颜色通道衰减和对比度损失;2) 后端:因子图融合惯性、压力和视觉测量,使用GTSAM库实现关键帧视觉-惯性-气压估计;3) 强化学习姿态图优化器学习SE(2)上的最优回缩动作。
- Result: 框架能够在水下浑浊条件下产生几何一致的特征对应关系,实时提供完整状态的最大后验估计,并通过强化学习优化器超越经典最小二乘求解器的局部最小值。
- Conclusion: MARVO通过融合物理建模、深度学习和强化学习,为水下视觉定位提供了一个鲁棒且准确的解决方案,能够有效应对水下环境的特殊挑战。
[237] SUPER-AD: Semantic Uncertainty-aware Planning for End-to-End Robust Autonomous Driving
Wonjeong Ryu,Seungjun Yu,Seokha Moon,Hojun Choi,Junsung Park,Jinkyu Kim,Hyunjung Shim
Main category: cs.RO
TL;DR: 提出了一种基于相机端到端自动驾驶框架,通过BEV空间估计偶然不确定性并融入规划,结合车道跟随正则化实现安全可靠的轨迹规划。
- Motivation: 当前端到端自动驾驶系统假设感知输出完全可靠,忽略了场景模糊或观测不足时的不确定性,导致规划器缺乏明确的不确定性度量,存在安全隐患。
- Method: 1. 在BEV空间直接估计像素级偶然不确定性,生成密集的、不确定性感知的可行驶性地图;2. 引入车道跟随正则化,编码车道结构和交通规则,在正常条件下稳定轨迹规划,同时保留超车、变道等操作的灵活性。
- Result: 在NAVSIM基准测试中达到最先进性能,在具有挑战性的NAVHARD和NAVSAFE子集上取得显著提升,证明了不确定性建模与驾驶先验结合能显著提高相机端到端自动驾驶的安全性和可靠性。
- Conclusion: 通过BEV空间的偶然不确定性估计和车道结构先验的结合,实现了鲁棒且可解释的轨迹规划,显著提升了相机端到端自动驾驶系统在不确定性条件下的安全性和可靠性。
[238] DiskChunGS: Large-Scale 3D Gaussian SLAM Through Chunk-Based Memory Management
Casimir Feldmann,Maximum Wilder-Smith,Vaishakh Patil,Michael Oechsle,Michael Niemeyer,Keisuke Tateno,Marco Hutter
Main category: cs.RO
TL;DR: DiskChunGS是一个可扩展的3D高斯泼溅SLAM系统,通过外存方法将场景分区存储,解决GPU内存限制问题,实现大规模环境重建
- Motivation: 当前3D高斯泼溅(3DGS)与SLAM系统集成面临GPU内存容量的根本可扩展性限制,现有方法受限于GPU内存,只能重建小规模环境
- Method: 采用外存方法,将场景划分为空间块,仅将活动区域保留在GPU内存中,非活动区域存储在磁盘上,并与现有SLAM框架无缝集成进行位姿估计和闭环检测
- Result: 在室内场景(Replica、TUM-RGBD)、城市驾驶场景(KITTI)和资源受限的Nvidia Jetson平台上验证有效,成功完成所有11个KITTI序列而无内存故障,并实现卓越的视觉质量
- Conclusion: DiskChunGS通过算法创新克服了先前3DGS SLAM方法的内存限制,证明外存方法能够实现大规模、全局一致的重建
[239] Obstruction reasoning for robotic grasping
Runyu Jiao,Matteo Bortolon,Francesco Giuliari,Alice Fasoli,Sergio Povoli,Guofeng Mei,Yiming Wang,Fabio Poiesi
Main category: cs.RO
TL;DR: UNOGrasp是一个基于学习的视觉语言模型,能够进行视觉基础的障碍推理,推断清除路径并抓取目标物体所需的动作序列,在合成和真实环境中显著提升了障碍推理和抓取成功率。
- Motivation: 当前在杂乱环境中机器人抓取不仅需要视觉定位目标物体,还需要推理需要清除的障碍物。现有的视觉语言具身推理模型虽然展现出空间理解能力,但在障碍推理和可达性规划方面仍然有限。
- Method: 提出了UNOGrasp模型,采用基于目标物体产生的障碍路径的多步推理过程,通过障碍感知的视觉线索锚定每个推理步骤以增强推理能力。结合监督学习和强化学习的微调,使用可验证的推理奖励。构建了UNOBench大规模数据集,基于MetaGraspNetV2,包含超过10万条人工标注的障碍路径,带有障碍比率、接触点和自然语言指令。
- Result: 广泛的实验和真实机器人评估表明,UNOGrasp在合成和真实世界环境中显著改善了障碍推理和抓取成功率,优于通用模型和专有替代方案。
- Conclusion: UNOGrasp通过视觉基础的障碍推理和多步推理过程,成功解决了杂乱环境中机器人抓取的障碍推理问题,在合成和真实环境中都表现出优越性能。
cs.IR
[240] FIGROTD: A Friendly-to-Handle Dataset for Image Guided Retrieval with Optional Text
Hoang-Bao Le,Allie Tran,Binh T. Nguyen,Liting Zhou,Cathal Gurrin
Main category: cs.IR
TL;DR: IGROT统一视觉检索和组合检索,但缺乏可访问的基准。作者提出轻量级数据集FIGROTD和方差引导特征掩码方法VaGFeM,在多个基准上取得竞争性结果。
- Motivation: IGROT(图像引导检索与可选文本)统一了视觉检索(无文本)和组合检索(有文本),在Google Image和Bing等应用中很重要。但进展受限,因为缺乏可访问的基准和平衡各子任务性能的方法。大规模数据集如MagicLens计算成本高,现有模型往往偏向视觉或组合查询。
- Method: 1. 引入FIGROTD轻量级高质量IGROT数据集,包含16,474个训练三元组和1,262个测试三元组,涵盖CIR、SBIR和CSTBIR任务。2. 提出方差引导特征掩码(VaGFeM),基于方差统计选择性增强判别性维度以减少冗余。3. 采用双损失设计(InfoNCE + Triplet)来改进组合推理。
- Result: 在FIGROTD上训练的VaGFeM在九个基准上取得竞争性结果:CIRCO上达到34.8 mAP@10,Sketchy上达到75.7 mAP@200,尽管使用更少的三元组,仍优于更强的基线。
- Conclusion: FIGROTD数据集和VaGFeM方法为IGROT任务提供了轻量级但高效的解决方案,在减少数据冗余的同时实现了跨多个检索任务的平衡性能。
[241] UNION: A Lightweight Target Representation for Efficient Zero-Shot Image-Guided Retrieval with Optional Textual Queries
Hoang-Bao Le,Allie Tran,Binh T. Nguyen,Liting Zhou,Cathal Gurrin
Main category: cs.IR
TL;DR: UNION方法通过融合图像嵌入和空文本提示,在少量数据下实现图像引导检索,统一了组合图像检索和基于草图的图像检索任务。
- Motivation: 图像引导检索(IGROT)统一了组合图像检索(CIR)和基于草图的图像检索(SBIR)两大任务,但现有方法在低数据监督下表现不佳。需要一种轻量级、可泛化的方法,在不修改预训练视觉语言模型架构的情况下,增强多模态查询的语义对齐。
- Method: 提出UNION方法,将目标图像的嵌入与空文本提示融合,创建轻量级且可泛化的目标表示。该方法不需要对预训练视觉语言模型进行架构修改,仅需少量训练数据(5,000个样本)。
- Result: 在仅使用5,000个训练样本的情况下,UNION在多个基准测试中取得竞争性结果:CIRCO mAP@50达到38.5,Sketchy mAP@200达到82.7,超越了多个需要大量监督的基线方法。
- Conclusion: UNION方法展示了在少量数据下实现图像引导检索的鲁棒性和效率,成功桥接了不同查询类型的视觉和语言表示,为低数据监督下的多模态检索提供了有效解决方案。
Powered by Deepseek & arXiv Daily AI Enhanced