Skip to content
每日arXiv - 2026年1月8日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] HyperCLOVA X 32B Think

NAVER Cloud HyperCLOVA X Team

Main category: cs.CV

TL;DR: HyperCLOVA X 32B Think是一个专注于韩语语言文化背景推理和智能体能力的视觉语言模型,在韩国文本和视觉基准测试中表现优异。

  • Motivation: 开发一个专门针对韩语语言文化背景的视觉语言模型,特别强调推理能力和智能体行为,以支持韩国本土的AI研究和应用。
  • Method: 模型采用两阶段训练:首先预训练以增强推理能力,然后进行后训练以支持多模态理解、增强推理、智能体行为和人类偏好对齐。
  • Result: 在同等规模模型中,该模型在韩国文本到文本和视觉到文本基准测试以及面向智能体的评估任务中表现出色。
  • Conclusion: 通过开源HyperCLOVA X 32B Think,旨在促进更广泛的采用,并推动学术界和工业界的进一步研究和创新。

[2] CageDroneRF: A Large-Scale RF Benchmark and Toolkit for Drone Perception

Mohammad Rostami,Atik Faysal,Hongtao Xia,Hadi Kasasbeh,Ziang Gao,Huaxia Wang

Main category: cs.CV

TL;DR: CDRF是一个用于射频无人机检测与识别的大规模基准数据集,包含真实世界采集数据和系统生成的合成变体,旨在解决现有RF数据集稀缺和多样性不足的问题。

  • Motivation: 现有射频无人机数据集存在稀缺性和多样性有限的问题,阻碍了鲁棒、可泛化的RF感知模型的发展。需要大规模、多样化的基准数据集来支持标准化评估和可重复研究。
  • Method: 通过结合真实世界采集数据(Rowan大学校园和受控RF笼设施)与系统化合成变体生成。采用原则性增强流程:精确控制信噪比、注入干扰发射器、应用频率偏移以及标签一致的边界框变换。
  • Result: 创建了包含多种当代无人机模型的大规模基准数据集CDRF,涵盖广泛采集条件,并发布了可互操作的开源工具链,支持分类、开放集识别和目标检测任务的标准化评估。
  • Conclusion: CDRF通过提供全面的基准数据集和工具链,旨在加速鲁棒、可泛化的RF感知模型的发展,支持标准化基准测试和可重复的研究流程。

[3] Mass Concept Erasure in Diffusion Models with Concept Hierarchy

Jiahang Tu,Ye Li,Yiming Wu,Hanbin Zhao,Chao Zhang,Hui Qian

Main category: cs.CV

TL;DR: 提出基于超类型-子类型概念层次结构的群体概念擦除方法SuPLoRA,通过共享参数高效擦除多个相关概念,同时保持整体生成质量

  • Motivation: 现有扩散模型概念擦除方法在擦除多个概念时效率低下且效果不佳,每个概念需要单独参数集,且会降低整体生成质量
  • Method: 1) 构建超类型-子类型概念层次结构,将语义相关概念分组;2) 提出SuPLoRA方法,将超类型概念信息编码到冻结的下投影矩阵,仅更新上投影矩阵;3) 在擦除阶段应用标准扩散正则化保护未掩码区域
  • Result: 构建了更具挑战性的基准测试,涵盖名人、物体和色情内容等多个领域的概念同时擦除需求;理论分析证明SuPLoRA能有效缓解生成性能退化
  • Conclusion: SuPLoRA通过概念层次结构和参数共享机制,实现了高效且有效的群体概念擦除,在保持整体生成质量的同时解决了多概念擦除的挑战

[4] VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models

Jianke Zhang,Xiaoyu Chen,Qiuyue Wang,Mingsheng Li,Yanjiang Guo,Yucheng Hu,Jiajun Zhang,Shuai Bai,Junyang Lin,Jianyu Chen

Main category: cs.CV

TL;DR: VLA模型性能与VLM能力关系研究:发现VLM通用能力不能预测下游控制性能,视觉模块是主要瓶颈,控制相关监督可提升性能

  • Motivation: 研究VLM选择与能力如何影响下游VLA策略性能,挑战当前假设,探索VLM预训练目标与具身控制需求之间的领域差距
  • Method: 提出VLM4VLA最小适应管道,仅使用少量可学习参数将通用VLM转换为VLA策略;在三个基准测试的多个下游任务进行实证研究;通过七个辅助具身任务微调VLM;进行模态级消融分析
  • Result: VLM初始化始终优于从头训练,但VLM通用能力不能预测下游性能;改进特定具身技能不一定提升控制性能;视觉模块是主要瓶颈,向视觉编码器注入控制相关监督能带来持续增益
  • Conclusion: 标准VLM能力对有效具身控制是必要但不充分的,当前VLM预训练目标与具身行动规划需求存在持续领域差距,视觉模块是关键改进方向

[5] Deep Learning-Based Image Recognition for Soft-Shell Shrimp Classification

Yun-Hao Zhang,I-Hsien Ting,Dario Liberona,Yun-Hsiu Liu,Kazunori Minetaki

Main category: cs.CV

TL;DR: 利用深度学习图像识别技术自动分类刚捕捞的白虾,提高分类准确率和效率,保持虾的新鲜度并减少加工过程中的头身分离问题。

  • Motivation: 随着信息技术融入水产养殖,生产更稳定且持续增长。消费者对高品质水产品需求增加,新鲜度和外观完整性是关键关注点。虾类加工食品中,新鲜度在捕捞后迅速下降,软壳虾在烹饪或冷冻后常出现头身分离,影响产品外观和消费者感知。
  • Method: 利用基于深度学习的图像识别技术,采用卷积神经网络(CNN)模型替代人工分拣,实现白虾的自动分类。
  • Result: 提高了分类准确性、效率和一致性,减少了加工时间,有助于保持新鲜度,确保虾类运输企业更有效地满足客户需求。
  • Conclusion: 深度学习图像识别技术能够有效解决虾类加工中的新鲜度保持和外观完整性问题,提高水产加工行业的自动化水平和产品质量。

[6] Higher order PCA-like rotation-invariant features for detailed shape descriptors modulo rotation

Jarek Duda

Main category: cs.CV

TL;DR: 提出使用高阶张量(如三阶或更高阶中心矩)扩展PCA,以获取更精确的旋转不变形状描述符,用于分子形状描述、物体识别和形状相似性比较等应用。

  • Motivation: 传统PCA使用协方差矩阵(二阶矩)只能将形状近似为椭球体,而真实形状通常复杂得多。需要更精确的旋转不变形状描述符来捕捉更复杂的形状特征。
  • Method: 扩展PCA到高阶张量,如三阶中心矩张量p_abc=E[(x_a-E[x_a])(x_b-E[x_b])(x_c-E[x_c])]或更高阶张量。还提出使用多项式乘以高斯函数的方法,允许解码任意高精度的形状描述符及其对应的旋转不变量。
  • Result: 该方法能够生成更精确的旋转不变形状描述符,可以描述比椭球体更复杂的形状特征。这些描述符具有任意高的精度,能够更好地捕捉真实形状的复杂性。
  • Conclusion: 高阶张量扩展PCA提供了一种有效的方法来创建精确的旋转不变形状描述符,在分子形状描述、旋转不变物体识别和形状相似性比较等应用中具有实用价值,避免了昂贵的旋转优化计算。

[7] MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models

Yang Shi,Yifeng Xie,Minzhe Guo,Liangsi Lu,Mingxuan Huang,Jingchao Wang,Zhihong Zhu,Boyan Xu,Zhiqi Huang

Main category: cs.CV

TL;DR: MMErroR是一个包含2,013个样本的多模态基准测试,专门评估视觉语言模型检测和分类推理错误的能力,结果显示即使是最好模型也只能达到66.47%的准确率。

  • Motivation: 随着视觉语言模型在多模态学习中的进步,需要评估这些模型是否真正理解处理的内容,特别是能否检测推理过程中的错误并识别错误类型。
  • Method: 创建MMErroR基准测试,包含2,013个样本,每个样本嵌入一个连贯的推理错误,涵盖6个顶级领域下的24个子领域,进行过程级、以错误为中心的评估。
  • Result: 评估了20个先进视觉语言模型,即使是最好的模型(Gemini-3.0-Pro)也只能在66.47%的情况下正确分类错误,表明识别错误推理具有挑战性。
  • Conclusion: 准确识别错误的能力为多模态推理模型的能力提供了有价值的洞察,MMErroR基准测试揭示了当前模型在理解推理过程方面的局限性。

[8] RelightAnyone: A Generalized Relightable 3D Gaussian Head Model

Yingyan Xu,Pramod Rao,Sebastian Weiss,Gaspard Zoss,Markus Gross,Christian Theobalt,Marc Habermann,Derek Bradley

Main category: cs.CV

TL;DR: 提出一种通用的可重光照3D高斯头部模型,无需OLAT数据即可从单图或多视图重建可重光照的3D头像

  • Motivation: 现有高质量重光照方法需要复杂的时间复用照明数据(如OLAT),限制了应用范围。需要一种能从普通光照数据(单图或多视图)重建可重光照头像的方法
  • Method: 采用两阶段设计:第一阶段从无OLAT的多视图数据学习平面光照3D高斯头像;第二阶段学习从平面光照头像到基于物理的反射率参数的映射,使用小规模OLAT数据集训练
  • Result: 模型能泛化到未见过的对象,仅需单张图像即可拟合,实现新颖视角合成和数字头像重光照
  • Conclusion: 提出了一种无需OLAT数据即可重建可重光照3D高斯头部模型的方法,通过两阶段训练实现跨对象泛化,为数字头像应用提供了更实用的解决方案

[9] Guardians of the Hair: Rescuing Soft Boundaries in Depth, Stereo, and Novel Views

Xiang Zhang,Yang Zhang,Lukas Mehl,Markus Gross,Christopher Schroers

Main category: cs.CV

TL;DR: HairGuard框架通过深度修复网络和生成式场景绘制,在3D视觉任务中恢复软边界(如毛发)的精细细节,提升深度估计和视图合成的质量。

  • Motivation: 自然界和计算机生成图像中常见的软边界(如细毛发)在3D视觉中具有挑战性,因为前景和背景线索的模糊混合导致难以准确恢复细节。
  • Method: 1) 利用图像抠图数据集的数据整理流程;2) 深度修复网络自动识别软边界区域,通过门控残差模块精修深度;3) 基于深度的前向扭曲保留高保真纹理;4) 生成式场景绘制填充遮挡区域;5) 颜色融合器自适应结合扭曲和修复结果。
  • Result: 在单目深度估计、立体图像/视频转换和新视角合成任务中达到最先进性能,特别是在软边界区域有显著改进。
  • Conclusion: HairGuard框架能有效恢复3D视觉中的软边界细节,通过可插拔的深度修复和生成式场景绘制,在各种3D任务中实现几何一致性和精细细节保留。

[10] RiskCueBench: Benchmarking Anticipatory Reasoning from Early Risk Cues in Video-Language Models

Sha Luo,Yogesh Prabhu,Tim Ossowski,Kaiping Chen,Junjie Hu

Main category: cs.CV

TL;DR: 论文提出了RiskCueBench视频风险预测基准,要求模型仅基于风险信号片段(而非完整视频)来预测风险事件,以更好地反映现实世界条件。

  • Motivation: 现有视频风险评估研究通常让模型访问完整视频序列(包括事故本身),这大大降低了任务难度,无法真实反映现实世界条件。需要一个新的基准来评估模型从早期视觉信号预测风险事件的能力。
  • Method: 引入RiskCueBench视频理解基准,对视频进行精心标注以识别风险信号片段——定义为指示潜在安全关注的最早时刻。模型只能基于这些早期信号来预测风险事件。
  • Result: 实验结果显示,当前系统在解释演变情况和从早期视觉信号预测未来风险事件方面存在显著差距,突显了在实际部署视频风险预测模型时面临的重要挑战。
  • Conclusion: RiskCueBench基准揭示了现有视频风险预测模型的局限性,强调了开发能够从早期视觉线索准确预测风险事件的模型的重要性,这对实际应用中的公共安全至关重要。

[11] A Novel Unified Approach to Deepfake Detection

Lord Sen,Shyamapada Mukherjee

Main category: cs.CV

TL;DR: 提出一种结合空间域与频域特征交叉注意力及血液检测模块的深度伪造检测新架构,在多个数据集上达到SOTA性能

  • Motivation: 随着AI技术发展,深度伪造的合成与滥用成为严重威胁,为维持数字时代的信任,需要有效的深度伪造检测与标记方法
  • Method: 提出新颖架构,使用空间域与频域特征的交叉注意力机制,结合血液检测模块,对图像进行真伪分类
  • Result: 在FF++和Celeb-DF数据集上,使用Swin Transformer和BERT达到99.80%和99.88% AUC;使用EfficientNet-B4和BERT达到99.55%和99.38% AUC,并具有良好的跨数据集泛化能力
  • Conclusion: 该统一架构在深度伪造检测方面优于现有方法,提供了对检测过程的深入洞察,具有良好的实际应用前景

[12] Better, But Not Sufficient: Testing Video ANNs Against Macaque IT Dynamics

Matteo Dunnhofer,Christian Micheloni,Kohitij Kar

Main category: cs.CV

TL;DR: 研究比较了猕猴下颞叶皮层在观看自然视频时的神经响应与不同ANN模型,发现现有视频模型仅能捕捉外观相关的动态,而无法像生物视觉系统那样实现外观不变的时间计算。

  • Motivation: 当前主导灵长类腹侧视觉流模型的静态人工神经网络存在固有局限,无法处理动态世界。需要探究猕猴下颞叶皮层的时间响应是否仅反映逐帧特征,还是包含更丰富的动态计算。
  • Method: 比较猕猴下颞叶皮层在观看自然视频时的神经响应与静态、循环和基于视频的ANN模型。通过"外观消除"压力测试:保留运动但去除形状和纹理的变体视频,评估解码器的泛化能力。
  • Result: 视频模型在神经预测性方面有适度改进,特别是在后期响应阶段。但所有ANN模型在"外观消除"测试中都失败,而IT群体活动却能泛化。表明现有视频模型仅能捕捉外观相关的动态。
  • Conclusion: 当前视频模型更好地捕捉外观相关的动态,而非IT皮层表达的外观不变时间计算。需要开发新的目标函数来编码生物时间统计特性和不变性。

[13] Eye-Q: A Multilingual Benchmark for Visual Word Puzzle Solving and Image-to-Phrase Reasoning

Ali Najar,Alireza Mirrokni,Arshia Izadyari,Sadegh Mohammadian,Amir Homayoon Sharifizade,Asal Meskin,Mobin Bagherian,Ehsaneddin Asgari

Main category: cs.CV

TL;DR: Eye-Q是一个多语言视觉文字谜题基准测试,要求模型从概念密集的场景中推断目标词或短语,测试复杂的视觉理解能力,而非表面识别。当前最先进的视觉语言模型在该基准上表现不佳,最高准确率仅60.27%。

  • Motivation: 现有视觉语言模型在标准基准测试中表现良好,但主要依赖表面识别而非深层推理。需要创建更具挑战性的基准来评估模型的复杂视觉理解能力,包括发现隐含视觉线索、生成和修正假设、将感知证据映射到非字面概念的能力。
  • Method: 提出Eye-Q基准测试,包含1,343个多语言视觉文字谜题。这些谜题具有概念密集的场景和简短描述,要求模型推断特定目标词或短语。谜题设计为无结构和线索隐含,包含干扰项和上下文关系,需要选择性注意、抽象和关联推理。基准涵盖英语、波斯语、阿拉伯语和跨语言谜题。采用开放式、与人类对齐的评估协议,在轻度辅助下探测假设形成和修正过程。
  • Result: 评估最先进的视觉语言模型显示存在显著性能差距,特别是在抽象和跨语言谜题上。模型在构建和搜索适当概念表示以进行灵活图像到短语推理的能力有限,最高准确率仅为60.27%。
  • Conclusion: 视觉文字谜题是评估复杂视觉理解能力的有效基准。当前视觉语言模型在需要深层推理、假设形成和概念映射的任务上仍有很大改进空间,特别是在处理抽象概念和跨语言场景时。这突显了开发更强大推理能力模型的重要性。

[14] GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models

Xiangdong Hu,Yangyang Jiang,Qin Hu,Xiaojun Jia

Main category: cs.CV

TL;DR: GAMBIT:一种新颖的多模态越狱框架,通过构建游戏化场景驱动模型主动完成有害内容生成,显著提升对推理模型的攻击成功率

  • Motivation: 现有多模态大语言模型的安全对齐在对抗性输入下仍然脆弱,现有攻击方法主要增加视觉任务复杂度,未能充分利用模型自身的推理激励机制,导致在推理模型上效果不佳
  • Method: 提出GAMBIT框架:1)分解和重组有害视觉语义;2)构建游戏化场景驱动模型探索、重构意图;3)将模型定位为游戏参与者,通过目标追求降低安全注意力;4)诱导模型回答重构后的恶意查询
  • Result: 在流行的推理和非推理MLLMs上实验显示,GAMBIT达到高攻击成功率:Gemini 2.5 Flash 92.13%、QvQ-MAX 91.20%、GPT-4o 85.87%,显著优于基线方法
  • Conclusion: 通过利用模型的推理激励机制和构建游戏化场景,可以有效突破多模态大语言模型的安全对齐,揭示了模型在认知阶段决策的脆弱性

[15] WeedRepFormer: Reparameterizable Vision Transformers for Real-Time Waterhemp Segmentation and Gender Classification

Toqi Tahamid Sarker,Taminul Islam,Khaled R. Ahmed,Cristiana Bernardi Rankrape,Kaitlin E. Creager,Karla Gage

Main category: cs.CV

TL;DR: WeedRepFormer:一种轻量级多任务视觉Transformer,用于同时进行水麻分割和性别分类,通过结构重参数化实现训练容量与推理延迟的解耦,在保持高性能的同时显著减少参数和计算量。

  • Motivation: 现有农业模型难以在生物属性分类所需的细粒度特征提取与实时部署所需的效率之间取得平衡。需要一种既能进行精确分割和性别分类,又能在资源受限环境中高效运行的模型。
  • Method: 提出WeedRepFormer,将结构重参数化系统集成到整个架构中,包括Vision Transformer骨干网络、Lite R-ASPP解码器和新的可重参数化分类头。这种方法将训练时的模型容量与推理时的延迟解耦。还构建了包含10,264个标注帧的水麻数据集。
  • Result: 在构建的数据集上,WeedRepFormer仅用3.59M参数和3.80 GFLOPs就实现了92.18%的mIoU分割精度和81.91%的性别分类准确率。以108.95 FPS运行时,在分类准确率上比最先进的iFormer-T高出4.40%,同时保持竞争力的分割性能,并将参数数量减少了1.9倍。
  • Conclusion: WeedRepFormer通过结构重参数化技术成功解决了农业视觉任务中性能与效率的平衡问题,为实时植物分析提供了高效的多任务解决方案,在保持高精度的同时显著降低了计算成本。

[16] FROST-Drive: Scalable and Efficient End-to-End Driving with a Frozen Vision Encoder

Zeyu Dong,Yimin Zhu,Yu Wu,Yu Sun

Main category: cs.CV

TL;DR: FROST-Drive提出一种新颖的端到端自动驾驶架构,通过冻结预训练视觉编码器的权重来保留视觉语言模型的泛化能力,在Waymo数据集上显著优于完全微调的方法。

  • Motivation: 当前端到端自动驾驶模型通常对视觉编码器进行完全微调,这可能导致模型过度专注于训练数据而限制了泛化能力。本文质疑这种训练范式的必要性,旨在探索如何更好地利用预训练视觉语言模型的广泛世界知识。
  • Method: 提出FROST-Drive架构:1) 冻结预训练视觉语言模型的视觉编码器权重;2) 使用基于Transformer的多模态融合适配器;3) 采用GRU解码器生成平滑路径点;4) 设计专门优化Rater Feedback Score的自定义损失函数。
  • Result: 在Waymo Open E2E数据集(专门包含长尾场景的大规模数据集)上进行广泛实验,结果显示冻结编码器方法显著优于完全微调的模型,证明了保留VLM广泛知识是更有效的策略。
  • Conclusion: 保留强大视觉语言模型的泛化能力比密集的领域特定适应更有利于实现鲁棒、可泛化的驾驶性能,这为开发能更好处理现实世界复杂性的视觉模型提供了新途径。

[17] Experimental Comparison of Light-Weight and Deep CNN Models Across Diverse Datasets

Md. Hefzul Hossain Papon,Shadman Rabby

Main category: cs.CV

TL;DR: 轻量级CNN在低资源环境下作为跨领域视觉任务的强大基线,无需大GPU或预训练模型

  • Motivation: 为低资源环境(如孟加拉国)建立统一、可复现的视觉基准,解决现实世界部署中计算资源有限的问题
  • Method: 使用良好正则化的浅层架构(轻量级CNN),在多个孟加拉国视觉数据集上进行评估
  • Result: 浅层架构在异构领域(从智慧城市监控到农业品种分类)表现出高度竞争力
  • Conclusion: 轻量级CNN在低资源设置中具有实际部署价值,为现实世界应用提供了可复现的基准

[18] Latent Geometry of Taste: Scalable Low-Rank Matrix Factorization

Joshua Salako

Main category: cs.CV

TL;DR: 基于MovieLens 32M数据集,通过并行化ALS框架优化低秩模型,在泛化性能和排序精度间取得最佳平衡,可视化嵌入空间发现语义聚类,并验证了冷启动场景的实用性。

  • Motivation: 解决大规模交互数据集中协同过滤面临的可扩展性和数据稀疏性问题,探索用户偏好的潜在几何结构。
  • Method: 使用MovieLens 32M数据集,实现高性能并行化交替最小二乘(ALS)框架,进行广泛的超参数优化,采用约束低秩模型,并可视化学习到的嵌入空间。
  • Result: 约束低秩模型在泛化性能上显著优于高维模型,在RMSE和排序精度间达到最优平衡;嵌入空间可视化显示无监督地出现了语义流派聚类;冷启动场景验证了系统的实用性,通过可调评分参数有效管理流行度偏差与个性化亲和度之间的权衡。
  • Conclusion: 低秩模型能有效捕捉交互数据中的深层结构关系,在保持良好泛化性能的同时实现语义聚类,为冷启动推荐提供了实用的解决方案。

[19] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

Hengjia Li,Liming Jiang,Qing Yan,Yizhi Song,Hao Kang,Zichuan Liu,Xin Lu,Boxi Wu,Deng Cai

Main category: cs.CV

TL;DR: ThinkRL-Edit:一个基于推理的强化学习框架,通过解耦视觉推理与图像合成,并引入思维链推理采样,显著提升指令驱动图像编辑的质量

  • Motivation: 现有指令驱动图像编辑模型在推理能力上存在局限,导致推理密集型编辑任务表现不佳。传统强化学习方法面临三个关键挑战:推理探索受限、奖励融合偏差和不稳定的VLM指令奖励。
  • Method: 提出ThinkRL-Edit框架:1)解耦视觉推理与图像合成,超越去噪随机性扩展推理探索;2)引入思维链推理采样,包含规划和反思阶段,让模型在生成前探索多个语义假设并验证可行性;3)提出无偏链偏好分组策略避免加权聚合失败;4)用二元检查表替代基于区间的VLM评分,获得更精确、低方差、可解释的奖励。
  • Result: 实验表明该方法在推理密集型图像编辑任务上显著优于先前工作,能够生成更忠实于指令、视觉连贯且语义基础的编辑结果。
  • Conclusion: ThinkRL-Edit通过解耦推理与合成、扩展推理探索、改进奖励机制,有效解决了当前图像编辑强化学习的关键挑战,为推理密集型编辑任务提供了更优的解决方案。

[20] Understanding Reward Hacking in Text-to-Image Reinforcement Learning

Yunqi Hong,Kuei-Chun Kao,Hengguang Zhou,Cho-Jui Hsieh

Main category: cs.CV

TL;DR: 该论文系统分析了文本到图像强化学习中的奖励黑客问题,并提出了一种轻量级自适应伪影奖励模型作为解决方案。

  • Motivation: 现有奖励函数常作为人类判断的不完美代理,导致模型容易发生奖励黑客行为——生成不真实或低质量的图像却能获得高奖励分数。
  • Method: 系统分析T2I RL后训练中的奖励黑客行为,研究美学/人类偏好奖励和提示-图像一致性奖励各自的影响,提出轻量级自适应伪影奖励模型,使用小规模精选数据集训练,作为现有RL流程的调节器。
  • Result: 实验表明,加入伪影奖励能显著提高视觉真实感,减少多个T2I RL设置中的奖励黑客行为,证明轻量级奖励增强能有效防范奖励黑客。
  • Conclusion: 奖励黑客是T2I RL后训练中的普遍问题,轻量级自适应伪影奖励模型可作为现有奖励模型的有效调节器,显著改善生成质量并减少奖励黑客行为。

[21] CroBIM-U: Uncertainty-Driven Referring Remote Sensing Image Segmentation

Yuzhe Sun,Zhe Dong,Haochen Jiang,Tianzhu Liu,Yanfeng Gu

Main category: cs.CV

TL;DR: 提出不确定性引导的遥感图像分割框架,通过预测参考不确定性图来动态调整语言融合和局部优化,解决跨模态对齐的空间非均匀性问题。

  • Motivation: 遥感图像分割面临尺度变化大、相似干扰物密集、边界结构复杂等问题,导致跨模态对齐存在显著的空间非均匀性。现有方法采用均匀融合策略,在视觉清晰区域引入不必要的语言扰动,而在混淆区域又无法提供足够的消歧能力。
  • Method: 提出不确定性引导框架:1) 引入即插即用的参考不确定性评分器(RUS),通过在线误差一致性监督预测参考模糊性的空间分布;2) 基于此先验设计两个模块:不确定性门控融合(UGF)动态调节语言注入强度,不确定性驱动局部优化(UDLR)专注于易错边界和细节。
  • Result: 大量实验表明,该方法作为统一的即插即用解决方案,在不改变骨干架构的情况下,显著提高了复杂遥感场景中的鲁棒性和几何保真度。
  • Conclusion: 通过显式建模参考不确定性并以此指导自适应推理,能够有效解决遥感图像分割中的空间非均匀性问题,提升跨模态对齐的可靠性。

[22] SDCD: Structure-Disrupted Contrastive Decoding for Mitigating Hallucinations in Large Vision-Language Models

Yuxuan Xia,Siheng Wang,Peng Li

Main category: cs.CV

TL;DR: 提出SDCD方法,通过结构打乱的对比解码来缓解大视觉语言模型中的物体幻觉问题

  • Motivation: 现有研究主要关注缓解语言先验或高层统计偏差,但忽视了视觉编码过程的内部复杂性。研究发现视觉统计偏差(源于视觉编码器在弱结构监督下的Bag-of-Patches行为)是物体幻觉的一个促成因素
  • Method: 提出无需训练的算法SDCD(Structure-Disrupted Contrastive Decoding),通过引入打乱的结构破坏视图进行对比校准,惩罚在结构缺失视图中仍保持高置信度的token,从而抑制纹理驱动的偏差
  • Result: 实验结果表明,SDCD在多个基准测试中显著缓解了幻觉问题,并增强了大视觉语言模型的多模态能力
  • Conclusion: 视觉统计偏差是物体幻觉的重要成因,通过结构破坏的对比解码可以有效抑制纹理驱动的偏差,缓解幻觉问题

[23] REFA: Real-time Egocentric Facial Animations for Virtual Reality

Qiang Zhang,Tong Xiao,Haroun Habeeb,Larissa Laich,Sofien Bouaziz,Patrick Snape,Wenjing Zhang,Matthew Cioffi,Peizhao Zhang,Pavel Pidlypenskyi,Winnie Lin,Luming Ma,Mengjiao Wang,Kunpeng Li,Chengjiang Long,Steven Song,Martin Prazak,Alexander Sjoholm,Ajinkya Deogade,Jaebong Lee,Julio Delgado Mangas,Amaury Aubel

Main category: cs.CV

TL;DR: 提出了一种基于VR头显红外摄像头的实时面部表情追踪系统,无需繁琐校准即可驱动虚拟角色表情

  • Motivation: 解决虚拟环境中面部表情追踪的侵入性问题和校准繁琐问题,为虚拟交流、游戏、远程协作等应用提供自然的表情驱动方案
  • Method: 采用蒸馏学习方法训练机器学习模型,整合多源异构数据(合成和真实图像);开发了轻量级采集系统(手机+定制VR头显)收集18k多样本数据;构建了鲁棒的可微分渲染管道自动提取表情标签
  • Result: 实现了非侵入式的实时面部表情追踪系统,能够准确驱动虚拟角色表情,无需冗长校准步骤
  • Conclusion: 该系统为虚拟环境中的交流和表达开辟了新途径,在视频会议、游戏、娱乐和远程协作等领域具有广泛应用前景

[24] G2P: Gaussian-to-Point Attribute Alignment for Boundary-Aware 3D Semantic Segmentation

Hojun Song,Chae-yeong Song,Jeong-hun Hong,Chaewon Moon,Dong-hwi Kim,Gahyeon Kim,Soo Ye Kim,Yiyi Liao,Jaehyup Lee,Sang-hyo Park

Main category: cs.CV

TL;DR: G2P方法通过将3D高斯泼溅的外观感知属性转移到点云中,解决点云语义分割中几何特征不足的问题,提升对形状相似但外观不同物体的区分能力。

  • Motivation: 点云数据稀疏且分布不规则,仅依赖几何特征难以区分形状相似但外观(颜色、纹理、材质)不同的物体,需要引入外观感知信息来提升分割性能。
  • Method: 提出Gaussian-to-Point (G2P)方法:1) 建立点与优化后高斯之间的对应关系,解决几何不对齐问题;2) 利用高斯不透明度属性解决几何模糊性;3) 利用高斯尺度属性实现复杂3D场景中的精确边界定位。
  • Result: 在标准基准测试中取得优越性能,在几何挑战性类别上显示出显著改进,且无需任何2D或语言监督。
  • Conclusion: G2P通过将3D高斯泼溅的外观感知属性转移到点云,有效提升了点云语义分割的判别能力和外观一致性,为解决几何特征不足的问题提供了有效方案。

[25] Semantic Belief-State World Model for 3D Human Motion Prediction

Sarim Chaudhry

Main category: cs.CV

TL;DR: SBWM将人体运动预测重构为人体流形上的潜在动力学模拟,通过信念状态演化而非直接预测姿态,解决了传统方法的长时程漂移和不确定性校准问题。

  • Motivation: 传统人体运动预测方法将问题视为序列回归,直接外推关节坐标,存在几个关键问题:1) 不区分观测重建与动力学建模;2) 缺乏对运动潜在原因(意图、控制结构)的显式表示;3) 在训练范围外会产生累积漂移、平均姿态塌陷和不确定性校准不良。
  • Method: 提出语义信念状态世界模型(SBWM):1) 在人体流形上进行潜在动力学模拟而非直接预测姿态;2) 维护循环概率信念状态,其演化独立于姿态重建学习;3) 将信念状态与SMPL-X解剖参数化显式对齐,形成结构信息瓶颈;4) 采用随机潜在转移和以推演为中心的训练策略,借鉴基于模型的强化学习中的信念状态世界模型思想。
  • Result: SBWM实现了:1) 连贯的长时程推演;2) 在显著降低计算成本的同时保持竞争力的预测精度;3) 避免了传统方法的累积漂移和平均姿态塌陷问题;4) 提供了更好的不确定性校准。
  • Conclusion: 将人体视为世界模型状态空间的一部分而非其输出,从根本上改变了运动模拟和预测的方式。SBWM通过信念状态演化框架,为人体运动预测提供了更稳定、更可解释且计算效率更高的解决方案。

[26] Physics-Constrained Cross-Resolution Enhancement Network for Optics-Guided Thermal UAV Image Super-Resolution

Zhicheng Zhao,Fengjiao Peng,Jinquan Yan,Wei Lu,Chenglong Li,Jin Tang

Main category: cs.CV

TL;DR: PCNet提出了一种用于热成像无人机图像超分辨率的新方法,通过跨分辨率互增强模块和物理驱动的热传导模块,解决传统光学引导方法中的信息损失和物理不一致问题。

  • Motivation: 现有光学引导的热成像超分辨率方法通常压缩光学特征以匹配热特征维度,这会导致高频信息丢失,并由于忽略模态间成像物理差异而引入纹理失真和边缘模糊等物理不一致的伪影。
  • Method: 提出PCNet框架:1) 跨分辨率互增强模块(CRME)联合优化热图像超分辨率和光学到热模态转换,实现双向特征交互;2) 物理驱动热传导模块(PDTM)将二维热传导融入光学引导,建模空间变化的热传导特性;3) 温度一致性损失确保生成的热图像符合真实热辐射原理。
  • Result: 在VGTSR2.0和DroneVehicle数据集上的大量实验表明,PCNet在重建质量和下游任务(包括语义分割和目标检测)方面显著优于现有最先进方法。
  • Conclusion: PCNet通过跨分辨率互增强和物理约束的光学引导,实现了鲁棒的热成像无人机图像超分辨率,解决了传统方法中的信息损失和物理不一致问题,在多个评估指标和下游任务中表现出优越性能。

[27] CloudMatch: Weak-to-Strong Consistency Learning for Semi-Supervised Cloud Detection

Jiayi Zhao,Changlu Chen,Jingsheng Li,Tianxiang Xue,Kun Zhan

Main category: cs.CV

TL;DR: CloudMatch是一个半监督云检测框架,通过视图一致性学习和场景混合增强有效利用未标注遥感图像

  • Motivation: 像素级标注成本高昂,需要开发有效的半监督学习方法。云模式在不同场景和同一场景类别内表现出结构多样性和上下文变异性
  • Method: 提出CloudMatch框架,为每个未标注图像生成一个弱增强视图和两个互补的强增强视图:一个通过场景间混合模拟上下文多样性,另一个通过场景内混合保持语义一致性,通过预测一致性指导伪标签生成
  • Result: 大量实验表明CloudMatch取得了良好性能,证明其能够有效利用未标注数据并推进半监督云检测
  • Conclusion: CloudMatch通过视图一致性学习和场景混合增强,成功解决了云检测中标注成本高的问题,为半监督遥感图像分析提供了有效方案

[28] EASLT: Emotion-Aware Sign Language Translation

Guobin Tu,Di Weng

Main category: cs.CV

TL;DR: 提出EASLT框架,通过情感编码器和情感感知融合模块,将面部表情作为语义锚点来解决手语翻译中的歧义问题,在多个基准测试中取得了最先进的性能。

  • Motivation: 现有无词汇表的手语翻译方法主要关注手势信号,但忽略了面部表情的重要性。当不同概念具有相同手势表达时,这会导致语义歧义。面部表情包含关键的情感语义信息,应该作为语义锚点而非辅助信息。
  • Method: 提出EASLT框架,包含专门的情感编码器捕捉连续的情感动态,并通过情感感知融合模块自适应地重新校准时空手语特征。该框架将情感表示与手势特征融合,基于情感上下文解决语义歧义。
  • Result: 在PHOENIX14T和CSL-Daily基准测试中,EASLT在无词汇表方法中取得了先进性能:BLEU-4分数分别为26.15和22.80,BLEURT分数分别为61.0和57.8。消融研究证实情感建模能有效解耦情感语义和手势动态。
  • Conclusion: 将面部表情作为语义锚点而非辅助信息,通过专门的情感编码和自适应融合,能显著提升手语翻译的准确性,有效解决手势歧义问题。

[29] SpatiaLoc: Leveraging Multi-Level Spatial Enhanced Descriptors for Cross-Modal Localization

Tianyi Shang,Pengjie Xu,Zhaojun Deng,Zhenyu Li,Zhicong Chen,Lijun Wu

Main category: cs.CV

TL;DR: SpatiaLoc是一个利用粗到精策略的跨模态定位框架,通过实例级和全局级的空间关系建模,显著提升了基于文本和点云的机器人定位性能。

  • Motivation: 跨模态定位(文本+点云)使机器人能够通过自然语言描述进行定位,应用于自主导航和人机交互。由于物体在文本和点云中经常重复出现,空间关系成为最具有区分性的定位线索。
  • Method: 采用粗到精策略:粗阶段使用BEOSE(贝塞尔增强对象空间编码器)通过二次贝塞尔曲线建模实例级空间关系,以及FAE(频率感知编码器)在频域生成全局级空间表示;精阶段使用UGFL(不确定性感知高斯精细定位器)通过建模高斯分布并采用不确定性感知损失函数回归2D位置。
  • Result: 在KITTI360Pose数据集上的大量实验表明,SpatiaLoc显著优于现有的最先进方法。
  • Conclusion: 通过强调实例级和全局级的空间关系,SpatiaLoc框架在跨模态定位任务中取得了卓越性能,验证了空间关系作为关键定位线索的重要性。

[30] Detecting AI-Generated Images via Distributional Deviations from Real Images

Yakun Niu,Yingjian Chen,Lei Zhang

Main category: cs.CV

TL;DR: 提出基于掩码的预训练模型微调策略(MPFT),通过纹理感知掩码机制(TAM)增强CLIP-ViT对AI生成图像的检测泛化能力,在少量图像微调下显著超越现有方法。

  • Motivation: 生成模型的快速发展提高了AI生成图像质量,引发对虚假信息和公众信任的担忧。现有基于冻结CLIP模型的方法虽然具有泛化潜力,但仅将图像编码器作为基础特征提取器,未能充分利用其潜力。
  • Method: 提出掩码预训练模型微调策略(MPFT),包含纹理感知掩码机制(TAM),在微调过程中掩码包含生成模型特定模式的纹理区域,迫使CLIP-ViT关注真实图像的"分布偏差"来检测AI生成图像。
  • Result: 在GenImage和UniversalFakeDetect数据集上的大量实验表明,仅用少量图像微调,方法分别达到98.2%和94.6%的平均准确率,显著优于现有方法。
  • Conclusion: 通过分析CLIP-ViT的特性并设计MPFT策略,成功提升了AI生成图像检测的泛化能力,为解决生成模型带来的虚假信息问题提供了有效方案。

[31] Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions

Zhongbin Guo,Zhen Yang,Yushan Li,Xinyue Zhang,Wenyu Gao,Jiacheng Wang,Chengzhi Li,Xiangrui Liu,Ping Jian

Main category: cs.CV

TL;DR: SiT-Bench是一个评估纯文本大语言模型空间智能的基准测试,包含3800多个专家标注项目,涵盖5大类17个子任务,通过将视觉场景转换为坐标感知的文本描述来测试LLMs的空间推理能力。

  • Motivation: 当前空间智能研究主要依赖视觉语言模型,但一个重要问题尚未解决:空间理解究竟来自视觉编码器还是基础推理架构?为了探究纯文本LLMs是否具备空间推理能力,作者开发了SiT-Bench基准测试。
  • Method: 将单/多视角场景转换为高保真、坐标感知的文本描述,要求LLMs进行符号文本推理而非视觉模式匹配。基准包含5个主要类别(如自我中心导航、视角转换、机器人精细操作)和17个子任务,共3800多个专家标注项目。
  • Result: 评估显示,最先进的LLMs在局部语义任务上表现良好,但在全局一致性方面存在显著的"空间差距"。有趣的是,显式空间推理能显著提升性能,表明LLMs具有潜在的世界建模能力。
  • Conclusion: SiT-Bench为开发具有空间基础的LLM架构提供了重要资源,有助于未来视觉语言模型和具身智能体的发展。研究表明LLMs具备空间推理潜力,但需要进一步改进以实现全局一致性。

[32] Adaptive Attention Distillation for Robust Few-Shot Segmentation under Environmental Perturbations

Qianyu Guo,Jingrong Wu,Jieji Ren,Weifeng Ge,Wenqiang Zhang

Main category: cs.CV

TL;DR: 提出环境鲁棒的少样本分割(ER-FSS)设置和自适应注意力蒸馏(AAD)方法,解决现有方法在复杂真实环境(如运动模糊、小目标、伪装目标)下性能下降的问题。

  • Motivation: 现有少样本分割研究大多忽略真实世界中的复杂环境因素(光照、背景、视角等),导致实验室训练的模型在实际部署中表现不佳,需要增强模型在动态真实环境下的鲁棒性。
  • Method: 提出自适应注意力蒸馏(AAD)方法,通过反复对比和蒸馏已知(支持)与未知(查询)图像之间的关键共享语义,为新颖类别推导类别特定的注意力,增强模型在复杂环境中聚焦正确目标的能力。
  • Result: AAD方法在ER-FSS基准测试中,在所有数据集和设置下将mIoU提高了3.3%-8.5%,表现出优越性能和强泛化能力。
  • Conclusion: 提出的环境鲁棒FSS设置和AAD方法有效提升了少样本分割模型在复杂真实环境下的性能,为实际应用提供了更好的解决方案。

[33] Unveiling Text in Challenging Stone Inscriptions: A Character-Context-Aware Patching Strategy for Binarization

Pratyush Jena,Amal Joseph,Arnav Sharma,Ravi Kiran Sarvadevabhatla

Main category: cs.CV

TL;DR: 提出了一种用于印度石刻铭文二值化的鲁棒自适应分块策略,结合注意力U-Net模型,显著提升了二值化性能并展现出跨文字的零样本泛化能力。

  • Motivation: 石刻铭文图像由于字符与背景对比度差、表面退化不均匀、干扰伪影多、文字密度和布局变化大等问题,现有二值化技术难以有效提取字符区域,需要更鲁棒的解决方案。
  • Method: 提出自适应分块策略,通过动态采样和分块选择方法生成训练数据,使用注意力U-Net模型进行二值化,注意力机制帮助模型聚焦细微结构特征。
  • Result: 新分块机制显著提升了传统和深度学习基线的二值化性能,模型仅在单一印度文字数据集上训练,却展现出对其他印度文字和非印度文字的零样本泛化能力。
  • Conclusion: 该方法为石刻铭文提供了干净、结构化的二值化表示,为下游任务如文字识别、OCR和历史文本分析奠定了基础,展示了鲁棒性和文字无关的泛化能力。

[34] Systematic Evaluation of Depth Backbones and Semantic Cues for Monocular Pseudo-LiDAR 3D Detection

Samson Oseiwe Ajadalu

Main category: cs.CV

TL;DR: 本文系统评估了单目3D检测中深度主干网络和特征工程对伪激光雷达流程的影响,发现深度主干选择比语义特征注入更重要。

  • Motivation: 单目3D物体检测相比激光雷达成本更低,但由于从单张图像估计度量深度的困难,其准确性仍然较差。需要系统评估深度主干网络和特征工程如何影响伪激光雷达流程的性能。
  • Method: 在KITTI验证集上系统评估深度主干网络(NeWCRFs vs Depth Anything V2 Metric-Outdoor)和特征工程(外观线索如灰度强度 vs 语义线索如实例分割置信度)对单目伪激光雷达流程的影响。使用相同的伪激光雷达生成和PointRCNN检测协议进行比较。
  • Result: NeWCRFs在3D检测中表现更强,在Moderate分割上达到10.50% AP₃D(IoU=0.7)。语义特征仅提供边际增益,基于掩码的采样可能因移除上下文几何而降低性能。深度主干选择和几何保真度主导性能,超过次要特征注入。
  • Conclusion: 在现成的激光雷达检测器下,深度主干选择和几何保真度是单目3D检测性能的主要决定因素,语义特征注入的收益有限。深度准确性并不完全预测严格的3D IoU性能。

[35] Shape Classification using Approximately Convex Segment Features

Bimal Kumar Ray

Main category: cs.CV

TL;DR: 该论文提出了一种基于特征排序的对象分类方法,无需对象对齐,通过边界分割和特征提取实现相似度测量

  • Motivation: 现有基于描述性特征的对象分类技术依赖对象对齐来计算相似度,这限制了方法的适用性和效率
  • Method: 将对象边界归一化并分割为近似凸段,按长度降序排序,提取段长度、极值点数量、面积、基部和宽度等特征包来测量图像边界相似度
  • Result: 在多个数据集上测试,获得了可接受的结果
  • Conclusion: 提出的基于特征排序的方法能够有效替代对象对齐,实现对象分类,具有实际应用价值

[36] MFC-RFNet: A Multi-scale Guided Rectified Flow Network for Radar Sequence Prediction

Wenjie Luo,Chuanhu Deng,Chaorong Li,Rongyao Deng,Qiang Yang

Main category: cs.CV

TL;DR: 提出MFC-RFNet生成框架,通过多尺度特征通信、小波引导跳跃连接和条件引导空间变换融合,解决雷达回波序列降水临近预报中的多尺度演化建模、帧间特征错位和长程时空依赖捕获难题。

  • Motivation: 雷达回波序列的高精度高分辨率降水临近预报对灾害缓解和经济规划至关重要,但面临三大挑战:复杂多尺度演化建模、位移导致的帧间特征错位、以及在不牺牲空间保真度下高效捕获长程时空上下文。
  • Method: 提出MFC-RFNet生成框架,包含:1) 小波引导跳跃连接(WGSC)保留高频细节;2) 特征通信模块(FCM)促进双向跨尺度交互;3) 条件引导空间变换融合(CGSTF)从条件回波学习空间变换以对齐浅层特征;4) 采用整流流训练学习近线性概率流轨迹;5) 在编码器尾部、瓶颈和首个解码器层放置轻量级Vision-RWKV块捕获长程时空依赖。
  • Result: 在四个公开数据集(SEVIR、MeteoNet、Shanghai、CIKM)上评估,相比强基线模型取得一致改进,在更高雨率阈值下产生更清晰的回波形态,在更长预见期保持持续技能。
  • Conclusion: 整流流训练与尺度感知通信、空间对齐和频率感知融合的协同作用,为基于雷达的临近预报提供了一种有效且稳健的方法。

[37] CrackSegFlow: Controllable Flow-Matching Synthesis for Generalizable Crack Segmentation with the CSF-50K Benchmark

Babak Asadi,Peiyang Wu,Mani Golparvar-Fard,Ramez Hajj

Main category: cs.CV

TL;DR: CrackSegFlow:基于可控流匹配的裂缝图像合成框架,通过条件生成配对数据解决裂缝分割中的标注稀缺和域偏移问题

  • Motivation: 裂缝自动分割在实际部署中面临两大挑战:像素级标注稀缺,以及传感器、光照、纹理和标注规范不同导致的严重域偏移问题
  • Method: 提出CrackSegFlow框架,包含两个流匹配模型:1)基于二元掩码生成真实裂缝图像的模型,采用拓扑保持掩码注入和边界门控调制;2)类条件流匹配模型生成裂缝掩码,可控制裂缝覆盖率。还将裂缝掩码注入无裂缝背景以增强多样性
  • Result: 在五个基准测试中(四个沥青数据集和一个混凝土数据集)取得显著提升:域内性能平均提升5.37 mIoU和5.13 F1;跨域合成平均提升13.12 mIoU和14.82 F1。相比扩散模型,采样更快且薄结构几何保持更好
  • Conclusion: CrackSegFlow通过可控合成解决了裂缝分割的数据稀缺和域偏移问题,提供了更高效、更准确的合成方法,并发布了包含5万对图像-掩码的CSF-50K数据集用于大规模基准测试

[38] VideoMemory: Toward Consistent Video Generation via Memory Integration

Jinsong Zhou,Yihua Du,Xinli Xu,Luozhou Wang,Zijie Zhuang,Yehang Zhang,Shuaibo Li,Xiaojun Hu,Bolan Su,Ying-cong Chen

Main category: cs.CV

TL;DR: VideoMemory是一个实体中心的视频生成框架,通过动态记忆库实现跨镜头实体一致性,解决了叙事视频生成中角色、道具、背景的保持问题。

  • Motivation: 现有视频生成模型能产生高质量短视频,但在场景变化或长时间间隔后,难以保持实体(角色、道具、环境)的身份和外观一致性,这是叙事视频生成的核心挑战。
  • Method: 提出VideoMemory框架:1)多智能体系统分解叙事为镜头;2)动态记忆库存储实体的视觉和语义描述符;3)检索-更新机制从记忆库获取实体表示并生成视频;4)每镜头后更新记忆以反映故事驱动变化。
  • Result: 构建了54个案例的多镜头一致性基准测试,涵盖角色、道具、背景保持场景。实验表明VideoMemory在实体级连贯性和感知质量方面表现优异。
  • Conclusion: VideoMemory通过动态记忆库实现了跨镜头实体一致性,支持连贯的长视频生成,为叙事视频生成提供了有效的解决方案。

[39] MGPC: Multimodal Network for Generalizable Point Cloud Completion With Modality Dropout and Progressive Decoding

Jiangyuan Liu,Hongxuan Ma,Yuhao Zhao,Zhe Liu,Jian Wang,Wei Zou

Main category: cs.CV

TL;DR: MGPC是一个可泛化的多模态点云补全框架,整合了点云、RGB图像和文本,通过模态丢弃策略、Transformer融合模块和渐进生成器提升鲁棒性、可扩展性和几何建模能力,并在大规模数据集上验证了其优越性能。

  • Motivation: 现有基于学习的方法(包括3D CNN、点云和Transformer方法)在合成基准上表现良好,但由于模态限制、可扩展性和生成能力不足,在泛化到新物体和真实场景方面仍面临挑战。
  • Method: 提出MGPC框架:1)整合点云、RGB图像和文本的多模态统一架构;2)创新的模态丢弃策略提升鲁棒性;3)基于Transformer的融合模块;4)新颖的渐进生成器提升几何建模能力;5)构建MGPC-1M大规模基准数据集(1000+类别,100万训练对)。
  • Result: 在MGPC-1M和真实世界数据上的大量实验表明,该方法始终优于现有基线方法,在真实世界条件下展现出强大的泛化能力。
  • Conclusion: MGPC通过多模态整合和创新的架构设计,有效解决了点云补全在泛化到新物体和真实场景方面的挑战,为点云补全任务提供了更鲁棒和可扩展的解决方案。

[40] PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance

Siddarth Nilol Kundur Satish,Devesh Jaiswal,Hongyu Chen,Abhishek Bakshi

Main category: cs.CV

TL;DR: 提出PhysVideoGenerator框架,通过可学习的物理先验改进视频生成质量,解决现有模型在物理动态表示上的不足

  • Motivation: 当前视频生成模型能产生高质量美学视频,但在学习真实世界物理动态表示方面存在困难,导致物体碰撞不自然、重力不一致、时间闪烁等伪影
  • Method: 提出PhysVideoGenerator框架,引入轻量级预测网络PredictorP,从噪声扩散潜在空间中回归预训练V-JEPA 2提取的高级物理特征,通过专用交叉注意力机制将这些物理标记注入DiT生成器(Latte)的时间注意力层
  • Result: 证明了该联合训练范式的技术可行性:扩散潜在空间包含足够信息来恢复V-JEPA 2物理表示,多任务优化在训练过程中保持稳定
  • Conclusion: 建立了物理感知生成模型未来大规模评估的基础,展示了在视频生成过程中显式嵌入可学习物理先验的可行性

[41] TRec: Egocentric Action Recognition using 2D Point Tracks

Dennis Holzmann,Sven Wachsmuth

Main category: cs.CV

TL;DR: 提出利用2D点轨迹作为额外运动线索的自我中心动作识别新方法,通过随机采样图像点并跟踪其轨迹,结合Transformer模型显著提升识别准确率

  • Motivation: 现有自我中心动作识别方法主要依赖RGB外观、人体姿态估计或其组合,缺乏有效的运动表征。本文探索2D点轨迹作为轻量级但有效的运动线索,无需检测手部、物体或交互区域
  • Method: 使用CoTracker跟踪随机初始化的图像点生成轨迹,将轨迹与对应图像帧作为输入,采用基于Transformer的识别模型。创新之处在于仅使用初始帧及其点轨迹即可获得良好效果
  • Result: 实验表明集成2D点轨迹相比无运动信息的相同模型能持续提升性能,即使仅使用初始帧和对应点轨迹也能获得显著增益,验证了点轨迹作为轻量级运动表征的有效性
  • Conclusion: 2D点轨迹是自我中心动作理解的有效运动表征,无需复杂的手部或物体检测,提供了一种轻量级但性能优越的替代方案,为动作识别研究开辟了新方向

[42] BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion

Qingyao Tian,Bingyu Yang,Huai Liao,Xinyan Huang,Junyong Li,Dong Yi,Hongbin Liu

Main category: cs.CV

TL;DR: 提出BREATH-VL框架,结合视觉语言模型的语义理解与视觉配准的几何信息,用于内窥镜6自由度相机定位,在BREATH数据集上表现优于现有方法。

  • Motivation: 视觉语言模型在导航定位任务中表现出色,但应用于内窥镜6-DoF定位面临三大挑战:缺乏大规模高质量标注的医学数据集、细粒度姿态回归能力有限、提取时序特征计算延迟高。需要结合语义理解与几何配准的优势。
  • Method: 1) 构建BREATH数据集,目前最大的体内内窥镜定位数据集;2) 提出BREATH-VL混合框架,集成VLM的语义线索与视觉配准的几何信息;3) 引入轻量级上下文学习机制,将运动历史编码为语言提示,实现高效时序推理。
  • Result: BREATH-VL在准确性和泛化性上均优于最先进的视觉定位方法,平移误差比最佳基线降低25.5%,同时保持有竞争力的计算延迟。视觉语言模块在挑战性手术场景中提供鲁棒的语义定位。
  • Conclusion: 通过结合视觉语言模型的语义理解与视觉配准的几何精度,BREATH-VL框架成功解决了内窥镜6-DoF定位的挑战,在复杂医学环境中实现了准确高效的相机定位。

[43] Towards Real-world Lens Active Alignment with Unlabeled Data via Domain Adaptation

Wenyong Lia,Qi Jiang,Weijian Hu,Kailun Yang,Zhanjun Zhang,Wenjun Tian,Kaiwei Wang,Jian Bai

Main category: cs.CV

TL;DR: DA3通过域自适应方法,使用少量无标签真实图像增强仿真基线,解决光学系统主动对准中仿真与真实图像的域差异问题,显著提升对准精度并大幅减少数据收集时间。

  • Motivation: 光学系统大规模自动化组装需要高精度主动对准技术。传统基于仿真的数字孪生管道能生成大规模标注数据,但复杂成像条件导致仿真与真实图像存在域差异,限制了仿真训练模型的泛化能力。
  • Method: 提出域自适应主动对准(DA3)方法:1)使用自回归域变换生成器;2)基于对抗的特征对齐策略;3)通过自监督学习提取真实域信息;4)提取域不变图像退化特征以实现鲁棒的对准预测。
  • Result: 在两种镜头类型上的实验表明:DA3比纯仿真管道精度提升46%;接近使用3个镜头样本精确标注真实数据达到的性能;将设备上数据收集时间减少98.7%。
  • Conclusion: 域自适应方法有效赋予仿真训练模型鲁棒的真实世界性能,验证了数字孪生管道作为显著提升大规模光学组装效率的实用解决方案。

[44] CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval

Zhipeng Qian,Zihan Liang,Yufei Ma,Ben Chen,Huangyu Dai,Yiwei Ma,Jiayi Ji,Chenyi Lei,Han Li,Xiaoshuai Sun

Main category: cs.CV

TL;DR: CSMCIR提出统一表示框架解决组合图像检索中的表示空间碎片化问题,通过多级思维链提示、对称双塔架构和动态记忆库实现高效查询-目标对齐,在多个基准数据集上达到SOTA性能。

  • Motivation: 现有组合图像检索方法存在表示空间碎片化问题:查询和目标由异构模态组成,使用不同编码器处理,迫使模型只能通过后验对齐来桥接不对齐的表示空间,这从根本上限制了检索性能。这种架构不对称性导致特征空间中形成三个分离的簇,显示了异构模态从初始化就创建了根本不对齐的表示空间。
  • Method: 1. 多级思维链提示策略:引导多模态大语言模型为目标图像生成具有区分性、语义兼容的标题,建立模态对称性。2. 对称双塔架构:查询和目标两侧使用相同的共享参数Q-Former进行跨模态编码,确保一致的特征表示并进一步减少对齐差距。3. 基于熵的时序动态记忆库策略:提供高质量负样本,同时保持与演化模型状态的一致性。
  • Result: 在四个基准数据集上的广泛实验表明,CSMCIR实现了最先进的性能,并具有优越的训练效率。全面的消融研究进一步验证了每个提出组件的有效性。
  • Conclusion: CSMCIR通过统一表示框架解决了组合图像检索中的表示空间碎片化问题,通过模态对称性、架构对称性和动态负样本策略实现了高效的查询-目标对齐,显著提升了检索性能。

[45] MATANet: A Multi-context Attention and Taxonomy-Aware Network for Fine-Grained Underwater Recognition of Marine Species

Donghwan Lee,Byeongjin Kim,Geunhee Kim,Hyukjin Kwon,Nahyeon Maeng,Wooju Kim

Main category: cs.CV

TL;DR: MATANet:一种用于细粒度海洋物种分类的多上下文注意力和分类感知网络,通过结合环境上下文和生物分类层次结构来提升分类性能。

  • Motivation: 现有海洋动物细粒度分类方法往往忽视环境上下文交互,且未能充分融入海洋生物分类的层次结构,这限制了分类性能的提升。
  • Method: 提出MATANet模型,包含两个核心组件:1)多上下文环境注意力模块(MCEAM),学习感兴趣区域与周围环境的关系;2)层次分离诱导学习模块(HSLM),将分类层次结构编码到特征空间。模型结合实例特征、环境特征和分类结构进行细粒度分类。
  • Result: 在FathomNet2025、FAIR1M和LifeCLEF2015-Fish数据集上实现了最先进的性能。
  • Conclusion: MATANet通过模仿专家策略,利用分类信息和环境上下文来解释水下动物的模糊特征,有效提升了细粒度海洋物种分类的准确性。

[46] RadDiff: Describing Differences in Radiology Image Sets with Natural Language

Xiaoxian Shen,Yuhui Zhang,Sahithi Ankireddy,Xiaohan Wang,Maya Varma,Henry Guo,Curtis Langlotz,Serena Yeung-Levy

Main category: cs.CV

TL;DR: RadDiff是一个多模态智能系统,通过放射科医生风格的比较推理来描述成对放射学研究之间的临床意义差异,在RadDiffBench基准测试中达到47%准确率。

  • Motivation: 理解放射学图像集之间的差异对于生成临床见解和解释医疗AI系统至关重要,但目前缺乏系统的方法和基准来发现放射学数据中的有意义差异。
  • Method: 基于VisDiff的提议者-排序者框架,结合四个创新:1)通过领域适应的视觉语言模型注入医学知识;2)整合图像与临床报告的多模态推理;3)多轮推理的迭代假设细化;4)定位并放大显著区域的有针对性视觉搜索。
  • Result: 在RadDiffBench基准测试中,RadDiff达到47%准确率,使用真实报告指导时达到50%准确率,显著优于通用领域的VisDiff基线。系统在COVID-19表型比较、种族亚组分析和生存相关影像特征发现等临床任务中表现出多功能性。
  • Conclusion: RadDiff和RadDiffBench为系统性地揭示放射学数据中有意义的差异提供了首个方法和基准基础,展示了在多种临床任务中的实用价值。

[47] HyperCOD: The First Challenging Benchmark and Baseline for Hyperspectral Camouflaged Object Detection

Shuyan Bai,Tingfa Xu,Peifu Liu,Yuhao Qiu,Huiyan Bai,Huan Chen,Yanyan Peng,Jianan Li

Main category: cs.CV

TL;DR: 提出首个大规模高光谱伪装目标检测基准HyperCOD和适配SAM的HSC-SAM方法,在复杂场景中实现SOTA性能

  • Motivation: 传统RGB图像在颜色纹理模糊的真实场景中检测伪装目标困难,高光谱图像提供精细光谱特征但缺乏专用大规模基准数据集
  • Method: 提出HyperCOD基准数据集(350张高分辨率高光谱图像),并设计HSC-SAM方法:将高光谱图像解耦为空间图(输入SAM编码器)和光谱显著性图(作为自适应提示)
  • Result: HSC-SAM在HyperCOD基准上达到新的SOTA性能,并在其他公共HSI数据集上展现出良好的泛化能力
  • Conclusion: HyperCOD数据集和HSC-SAM基线为高光谱伪装目标检测领域提供了坚实基础,将推动这一新兴方向的研究发展

[48] I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing

Jinghan Yu,Junhao Xiao,Chenyu Zhu,Jiaming Li,Jia Li,HanMing Deng,Xirui Wang,Guoli Jia,Jianjun Li,Zhiyuan Ma,Xiang Bai,Bowen Zhou

Main category: cs.CV

TL;DR: I2E提出了一种"分解-行动"的图像编辑新范式,通过将图像分解为可操作的对象层,并使用物理感知的视觉-语言-动作代理来解析复杂指令,显著提升了组合编辑任务的性能。

  • Motivation: 现有基于端到端像素级修复的图像编辑方法在处理需要精确局部控制和复杂多对象空间推理的组合编辑任务时存在严重不足,主要受限于:1)规划与执行的隐式耦合;2)缺乏对象级控制粒度;3)依赖非结构化的像素中心建模。
  • Method: 提出I2E框架,采用"分解-行动"范式:首先使用分解器将非结构化图像转换为离散、可操作的对象层,然后引入物理感知的视觉-语言-动作代理,通过思维链推理将复杂指令解析为一系列原子操作。同时构建了I2E-Bench基准测试集。
  • Result: 在I2E-Bench和多个公共基准测试上的实验结果表明,I2E在处理复杂组合指令、保持物理合理性以及确保多轮编辑稳定性方面显著优于现有最先进方法。
  • Conclusion: I2E通过结构化环境中的可操作交互过程重新审视图像编辑,解决了现有方法的局限性,为复杂组合编辑任务提供了更有效的解决方案。

[49] MVP: Enhancing Video Large Language Models via Self-supervised Masked Video Prediction

Xiaokun Sun,Zezhong Wu,Zewen Ding,Linli Xu

Main category: cs.CV

TL;DR: 提出MVP(掩码视频预测)作为VideoLLMs的后训练目标,通过重建被掩码的连续视频片段来增强模型的时间推理和因果理解能力

  • Motivation: 现有基于强化学习的VideoLLMs后训练方法主要关注整体内容理解(如字幕生成或视频问答),缺乏对内在时间连贯性和帧间相关性的显式监督,限制了模型捕捉复杂动态和细粒度视觉因果关系的能力
  • Method: 提出MVP(掩码视频预测)目标,要求模型从一组具有挑战性的干扰项中重建被掩码的连续视频片段;开发可扩展的数据合成管道,将任意视频语料库转换为MVP训练样本;采用带有细粒度奖励函数的GRPO(组相对策略优化)来增强模型对视频上下文和时间属性的理解
  • Result: 综合评估表明,MVP通过直接强化时间推理和因果理解,显著提升了视频推理能力
  • Conclusion: MVP作为一种新颖的后训练目标,通过显式监督时间连贯性和帧间相关性,有效弥补了现有VideoLLMs在捕捉复杂动态和视觉因果关系方面的不足,为视频理解提供了更强大的时间推理能力

[50] A Comparative Study of 3D Model Acquisition Methods for Synthetic Data Generation of Agricultural Products

Steven Moonen,Rob Salaets,Kenneth Batstone,Abdellatif Bey-Temsamani,Nick Michiels

Main category: cs.CV

TL;DR: 该研究探讨了在农业领域缺乏CAD模型时,如何通过替代技术生成合成数据来训练AI目标检测模型,以分离石头和土豆。

  • Motivation: 在制造业中,基于AI的计算机视觉系统广泛用于降低成本和提高产量,但训练这些模型需要大量昂贵的数据标注。农业行业缺乏现成的CAD模型,使得利用合成数据变得困难。
  • Method: 提出了替代CAD文件的多种技术来创建合成数据集,包括使用扫描获得的高代表性3D模型和图像到3D的方法。通过在小型真实数据集上进行微调来提升模型性能。
  • Result: 研究表明,使用扫描或图像到3D方法获得的高代表性3D模型可以生成用于训练目标检测模型的合成数据。在小型真实数据集上微调可以显著提升模型性能,即使使用代表性较低的模型也能获得相似性能。
  • Conclusion: 在农业领域缺乏CAD模型的情况下,可以通过替代技术生成合成数据来训练AI模型,结合少量真实数据的微调可以显著提升性能,为农业领域的计算机视觉应用提供了可行的解决方案。

[51] From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs

Usha Shrestha,Dmitry Ignatov,Radu Timofte

Main category: cs.CV

TL;DR: LLMs通过内部化性能反馈自主优化代码增强,无需强化学习或符号目标,减少600倍候选评估

  • Motivation: 当前LLM在代码合成中数据增强依赖启发式或暴力搜索,需要更智能、性能感知的自主优化方法
  • Method: 在NNGPT生态中构建闭环系统,使用LoRA微调LLM,基于6000+带准确率标注的PyTorch增强函数,采用成对性能排序训练
  • Result: 相比暴力搜索减少600倍候选评估,保持竞争性峰值准确率,从随机合成转向任务对齐设计,模型内化语义性能线索而非语法记忆
  • Conclusion: LLM可通过非文本反馈循环展现任务级推理能力,绕过显式符号奖励,实现性能感知的自主代码增强优化

[52] EvalBlocks: A Modular Pipeline for Rapidly Evaluating Foundation Models in Medical Imaging

Jan Tagscherer,Sarah de Boer,Lena Philipp,Fennie van der Graaf,Dré Peeters,Joeran Bosma,Lars Leijten,Bogdan Obreja,Ewoud Smit,Alessa Hering

Main category: cs.CV

TL;DR: EvalBlocks是一个基于Snakemake的模块化、即插即用框架,用于在医学影像基础模型开发过程中进行高效评估,支持新数据集、模型、聚合方法和评估策略的无缝集成,实现可重复、可扩展的实验管理。

  • Motivation: 医学影像基础模型开发需要持续监控下游性能,但研究人员通常依赖临时、手动的工作流程来跟踪大量实验、设计选择及其对性能的影响,这种方法既缓慢又容易出错。
  • Method: 基于Snakemake构建模块化框架,支持新数据集、基础模型、聚合方法和评估策略的无缝集成,通过集中跟踪所有实验和结果,实现单命令可重复执行,利用高效缓存和并行执行在共享计算基础设施上实现可扩展使用。
  • Result: 在五个最先进的基础模型和三个医学影像分类任务上进行了演示,EvalBlocks能够简化模型评估流程,使研究人员能够更快地迭代,专注于模型创新而非评估后勤工作。
  • Conclusion: EvalBlocks框架作为开源软件发布,为医学影像基础模型开发提供了高效、可扩展的评估解决方案,解决了传统手动工作流程的局限性。

[53] IDESplat: Iterative Depth Probability Estimation for Generalizable 3D Gaussian Splatting

Wei Long,Haifeng Wu,Shiyin Jiang,Jinhua Zhang,Xinchun Ji,Shuhang Gu

Main category: cs.CV

TL;DR: IDESplat提出迭代深度概率提升方法,通过级联warp操作和epipolar注意力图,逐步优化深度估计,实现更准确的3D高斯均值预测,在重建质量和泛化能力上显著提升。

  • Motivation: 现有基于3D高斯飞溅的泛化方法通常依赖单一warp操作估计深度概率,这限制了跨视角几何线索的充分利用,导致深度图不稳定且粗糙,进而影响高斯均值的准确预测。
  • Method: 提出IDESplat框架:1)引入深度概率提升单元(DPBU),通过级联warp操作生成epipolar注意力图并以乘法方式集成;2)堆叠多个DPBU构建迭代深度估计过程,逐步识别高概率深度候选;3)通过迭代提升深度概率估计和更新深度候选,逐步细化深度图。
  • Result: 在RealEstate10K、ACID和DL3DV数据集上取得优异重建质量和SOTA性能,具有实时效率。在RE10K上PSNR比DepthSplat高0.33dB,仅使用10.7%参数和70%内存。在DTU跨数据集实验中PSNR提升2.95dB,展示强泛化能力。
  • Conclusion: IDESplat通过迭代深度概率提升机制有效解决了单warp操作的不稳定性问题,显著提升了深度估计精度和高斯均值预测质量,在重建性能、效率和泛化能力方面均取得显著改进。

[54] Bayesian Monocular Depth Refinement via Neural Radiance Fields

Arun Muthukkumar

Main category: cs.CV

TL;DR: 提出MDENeRF框架,通过NeRF深度信息迭代优化单目深度估计,解决现有方法深度图过于平滑、缺乏几何细节的问题。

  • Motivation: 单目深度估计在自动驾驶、扩展现实等领域有重要应用,但现有方法生成的深度图通常过于平滑,缺乏精细几何细节,影响场景理解的准确性。
  • Method: MDENeRF包含三个组件:1) 初始单目深度估计提供全局结构;2) 在扰动视点上训练的NeRF,具有逐像素不确定性;3) 贝叶斯融合单目和NeRF深度。通过体积渲染过程推导NeRF不确定性,迭代注入高频细节,同时保持全局结构。
  • Result: 在SUN RGB-D数据集的室内场景实验中,在关键指标上表现出优越性能。
  • Conclusion: MDENeRF框架通过结合单目深度估计的全局结构和NeRF的精细几何细节,有效提升了深度估计的质量和准确性。

[55] FLNet: Flood-Induced Agriculture Damage Assessment using Super Resolution of Satellite Images

Sanidhya Ghosal,Anurag Sharma,Sushil Ghildiyal,Mukesh Saini

Main category: cs.CV

TL;DR: FLNet使用深度学习超分辨率将Sentinel-2卫星图像从10米提升到3米分辨率,用于洪水后农作物损害评估,在BFCD-22数据集上显著提高了"完全损害"的F1分数。

  • Motivation: 洪水后政府救灾面临挑战,传统人工调查缓慢且有偏见,现有卫星方法受云层覆盖和低空间分辨率限制,需要快速准确的作物损害评估方法。
  • Method: 提出FLNet深度学习架构,使用超分辨率技术将Sentinel-2卫星图像的10米空间分辨率提升到3米,然后进行损害分类。
  • Result: 在Bihar Flood Impacted Croplands Dataset (BFCD-22)上测试,将关键的"完全损害"F1分数从0.83提高到0.89,接近商业高分辨率图像的0.89分数。
  • Conclusion: 该方法提供了成本效益高且可扩展的解决方案,为从人工评估向自动化、高保真损害评估的全国性转变铺平了道路。

[56] HemBLIP: A Vision-Language Model for Interpretable Leukemia Cell Morphology Analysis

Julie van Logtestijn,Petru Manescu

Main category: cs.CV

TL;DR: HemBLIP是一个视觉语言模型,用于生成外周血细胞的可解释形态描述,在白血病诊断中提供透明分析,优于现有模型且计算成本更低。

  • Motivation: 目前的白血病诊断深度学习模型多为黑盒,缺乏临床可信度和采纳度。需要开发能够生成可解释形态描述的系统,提高诊断透明度。
  • Method: 构建包含1.4万个健康与白血病细胞及专家属性标注的新数据集,采用全微调和LoRA参数高效训练方法,适配通用视觉语言模型,并与MedGEMMA生物医学基础模型对比。
  • Result: HemBLIP在描述质量和形态准确性方面表现更优,LoRA适配在显著降低计算成本的同时提供进一步性能提升。
  • Conclusion: 视觉语言模型在透明、可扩展的血液学诊断中具有重要前景,能够提高临床信任度和应用采纳。

[57] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

Mingyu Ouyang,Kevin Qinghong Lin,Mike Zheng Shou,Hwee Tou Ng

Main category: cs.CV

TL;DR: FocusUI提出高效UI grounding框架,通过选择性保留指令相关视觉token并保持位置连续性,在减少计算开销的同时保持性能

  • Motivation: 现有VLM在UI grounding任务中处理高分辨率截图会产生数千个视觉token,计算开销大且注意力稀释,而人类通常只关注感兴趣区域
  • Method: 提出FocusUI框架:1) 通过指令条件分数与基于规则的UI图分数融合构建patch级监督,消除冗余视觉token;2) 引入PosPad策略,将连续丢弃的视觉token压缩为特殊标记以保持位置连续性
  • Result: 在四个grounding基准测试中超越GUI特定基线,ScreenSpot-Pro上FocusUI-7B比GUI-Actor-7B提升3.7%;仅保留30%视觉token时性能仅下降3.2%,推理速度提升1.44倍,GPU峰值内存降低17%
  • Conclusion: FocusUI通过高效视觉token选择和位置连续性保持,在UI grounding任务中实现了计算效率与性能的良好平衡

[58] ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation

Xu Zhang,Cheng Da,Huan Yang,Kun Gai,Ming Lu,Zhan Ma

Main category: cs.CV

TL;DR: ResTok提出了一种新的视觉tokenizer,通过构建分层残差表示来改进自回归图像生成,显著提升了生成质量和效率。

  • Motivation: 现有基于语言建模设计的1D视觉tokenizer忽略了视觉数据的层次性和残差网络设计的重要性,导致表示能力受限。
  • Method: 提出ResTok,构建图像token和潜在token的分层残差表示,通过渐进合并实现跨层次特征融合,并引入分层自回归生成器加速采样。
  • Result: 在ImageNet-256上达到gFID 2.34,仅需9个采样步骤,显著优于现有方法。
  • Conclusion: 恢复视觉tokenization中的分层残差先验能显著提升自回归图像生成性能,为视觉表示学习提供了新方向。

[59] FUSION: Full-Body Unified Motion Prior for Body and Hands via Diffusion

Enes Duran,Nikos Athanasiou,Muhammed Kocabas,Michael J. Black,Omid Taheri

Main category: cs.CV

TL;DR: 提出FUSION,首个基于扩散模型的无条件全身运动先验,联合建模身体和手部运动,解决现有方法忽略手部或任务范围狭窄的问题。

  • Motivation: 手部对于与环境交互和传达手势至关重要,但现有运动合成方法要么完全忽略手部运动,要么只能在高度受限的设置下生成狭窄任务的全身运动。主要障碍是缺乏大规模数据集来联合捕捉多样化的全身运动和详细的手部关节。
  • Method: 1. 整理和统一现有的手部运动数据集与大规模身体运动数据,生成包含手部和身体的全身序列。2. 提出FUSION,首个基于扩散模型的无条件全身运动先验,联合建模身体和手部运动。3. 开发优化流程,通过精炼扩散模型的潜在空间来生成特定任务运动。
  • Result: 1. 在HumanML3D数据集的关键点跟踪任务中,FUSION超越了最先进的骨骼控制模型。2. 实现了更优的运动自然度。3. 展示了两个应用:给定物体运动生成包含手指的详细全身交互运动;使用LLM将自然语言线索转化为可执行的运动约束来生成自我交互运动。
  • Conclusion: FUSION能够精确控制手部运动,同时保持合理的全身协调性,超越了传统运动先验的典型用途,为包含详细手部关节的全身运动合成提供了有效解决方案。

[60] PosterVerse: A Full-Workflow Framework for Commercial-Grade Poster Generation with HTML-Based Scalable Typography

Junle Liu,Peirong Zhang,Yuyi Zhang,Pengyu Yan,Hui Zhou,Xinyue Zhou,Fengjun Guo,Lianwen Jin

Main category: cs.CV

TL;DR: PosterVerse是一个商业级海报生成系统,通过LLM蓝图创建、扩散模型背景生成和MLLM驱动的HTML引擎,实现全流程自动化设计,解决了现有系统工作流不完整、文本渲染差等问题。

  • Motivation: 商业级海报设计需要美学吸引力与精确信息传递的结合,现有自动化系统存在设计流程不完整、文本渲染准确性差、商业应用灵活性不足等问题。
  • Method: 采用三阶段方法:1) 微调LLM从用户需求提取设计元素创建蓝图;2) 定制扩散模型生成视觉吸引力的图形背景;3) MLLM驱动的HTML引擎实现统一布局-文本渲染,保证高精度文本和灵活定制。
  • Result: 实验结果表明PosterVerse能持续生成商业级海报,具有吸引人的视觉效果、准确的文本对齐和可定制的布局,是自动化商业海报设计的有前景解决方案。
  • Conclusion: PosterVerse通过全流程自动化解决了商业海报生成的关键挑战,并引入首个中文HTML排版数据集PosterDNA,从根本上解决了小尺寸高密度文本渲染问题,为商业应用提供了可行方案。

[61] Padé Neurons for Efficient Neural Models

Onur Keleş,A. Murat Tekalp

Main category: cs.CV

TL;DR: 提出Padé神经元(Paons),一种基于Padé逼近的新型非线性神经元模型,比传统McCulloch-Pitts神经元具有更强的非线性能力,能在更少层数下实现更好性能。

  • Motivation: 传统神经网络使用McCulloch-Pitts神经元模型(线性变换+逐点非线性激活),虽然已有二次神经元、广义运算神经元等非线性模型,但仍需更强的非线性表达能力。Padé逼近能提供更丰富的非线性函数逼近能力。
  • Method: 基于Padé逼近理论设计Padé神经元(Paons),每个Paon学习输入的不同非线性函数。Paons包含所有先前提出的神经元模型作为特例,可将任何网络中的任何神经元替换为Paons。在ResNet架构的图像超分辨率、压缩和分类模型中替换经典神经元进行验证。
  • Result: 实验表明,使用Paons构建的神经模型在更少层数下,性能优于或等于经典对应模型。Paons提供了非线性多样性,每个神经元学习不同的非线性函数,层效率更高。
  • Conclusion: Padé神经元(Paons)是一种优越的非线性神经元模型,具有更强的非线性表达能力、层效率和通用性,能有效提升神经网络性能并减少所需层数。

[62] Thinking with Frames: Generative Video Distortion Evaluation via Frame Reward Model

Yuan Wang,Borui Liao,Huijuan Huang,Jinda Lu,Ouxiang Li,Kuien Liu,Meng Wang,Xiang Wang

Main category: cs.CV

TL;DR: REACT是一个针对生成视频结构失真评估的帧级奖励模型,通过两阶段训练和动态采样机制,能准确评估视频中的异常物体外观和交互等结构失真问题。

  • Motivation: 现有视频奖励模型主要关注视觉质量、运动质量和文本对齐,但忽略了关键的结构失真(如异常物体外观和交互),这些失真会降低生成视频的整体质量。
  • Method: 1) 构建大规模人类偏好数据集,基于提出的结构失真分类法进行标注;2) 使用高效的思维链合成管道生成额外数据;3) 两阶段训练框架:先进行带掩码损失的监督微调,然后使用GRPO和成对奖励进行强化学习;4) 推理时引入动态采样机制关注最可能失真的帧。
  • Result: REACT在评估结构失真方面补充了现有奖励模型,实现了准确的定量评估和可解释的归因分析,并提出了REACT-Bench基准测试。
  • Conclusion: REACT通过专门针对结构失真的帧级评估,填补了现有视频奖励模型的空白,为生成视频质量评估提供了更全面的解决方案。

[63] Unsupervised Modular Adaptive Region Growing and RegionMix Classification for Wind Turbine Segmentation

Raül Pérez-Gonzalo,Riccardo Magro,Andreas Espersen,Antonio Agudo

Main category: cs.CV

TL;DR: 提出一种标注高效的叶片分割方法,将像素级任务重构为区域分类问题,使用无监督区域生长和区域混合增强,实现跨风电场的泛化性能

  • Motivation: 风力涡轮机需要频繁检查以确保可靠运行,传统密集像素级深度学习模型需要大量标注数据,存在可扩展性挑战
  • Method: 将像素级分割重构为二值区域分类问题;使用无监督、可解释的模块化自适应区域生长技术生成图像区域;采用自适应阈值引导和区域合并过程整合碎片化区域;引入RegionMix增强策略通过组合不同区域合成新训练样本
  • Result: 展示了最先进的分割精度和强大的跨站点泛化能力,能够在不同风电场中一致地分割涡轮机叶片
  • Conclusion: 提出的标注高效分割框架通过区域分类方法解决了传统像素级模型的数据需求问题,实现了可靠的风力涡轮机叶片自动化检查

[64] Mind the Generative Details: Direct Localized Detail Preference Optimization for Video Diffusion Models

Zitong Huang,Kaidong Zhang,Yukang Ding,Chao Gao,Rui Ding,Ying Chen,Wangmeng Zuo

Main category: cs.CV

TL;DR: LocalDPO:一种新颖的后训练框架,通过在时空区域级别构建局部偏好对来对齐文本到视频扩散模型,无需外部评论模型或手动标注,显著提升视频质量和人类偏好评分。

  • Motivation: 现有的直接偏好优化(DPO)方法依赖多样本排序和特定任务的评论模型,效率低下且常产生模糊的全局监督。需要更高效、细粒度的视频生成器对齐方法。
  • Method: 提出LocalDPO框架:1)自动化收集偏好对数据,将高质量真实视频作为正样本,通过随机时空掩码局部破坏并仅用冻结基础模型恢复掩码区域来生成负样本;2)引入区域感知DPO损失,将偏好学习限制在破坏区域以加速收敛。
  • Result: 在Wan2.1和CogVideoX上的实验表明,LocalDPO相比其他后训练方法,在视频保真度、时间连贯性和人类偏好评分方面均有持续改进。
  • Conclusion: LocalDPO为视频生成器对齐建立了更高效和细粒度的范式,通过局部偏好学习和自动化数据收集,显著提升文本到视频扩散模型与人类偏好的对齐效果。

[65] Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts

Zhihao Zhu,Jiafeng Liang,Shixin Jiang,Jinlan Fu,Ming Liu,Guanglu Sun,See-Kiong Ng,Bing Qin

Main category: cs.CV

TL;DR: 论文发现大型多模态模型在视频推理中存在"文本惯性"问题:一旦思维过程中出现文本幻觉,模型会盲目坚持错误文本而忽视冲突的视觉证据。作者提出LogicGraph扰动协议评估模型自反思能力,并开发了无需训练的推理范式Active Visual-Context Refinement来缓解这一问题。

  • Motivation: 大型多模态模型在视频推理中展现出强大的链式思维能力,但其推理链的鲁棒性存在问题。作者识别出"文本惯性"这一关键失败模式:模型在思维过程中出现文本幻觉后,会盲目坚持错误文本而忽视冲突的视觉证据,这严重影响了推理的可靠性。
  • Method: 1. 提出LogicGraph扰动协议,在多种LMM的推理链中结构性注入扰动,评估其自反思能力;2. 引入Active Visual-Context Refinement:无需训练的推理范式,包含主动视觉重定位机制进行细粒度验证,以及自适应上下文精炼策略来总结和去噪推理历史。
  • Result: 实验结果显示:模型成功自我纠正的比例低于10%,主要表现出盲目的文本错误传播。提出的Active Visual-Context Refinement方法显著抑制了幻觉传播,增强了推理鲁棒性。
  • Conclusion: 大型多模态模型在视频推理中存在严重的文本惯性问题,导致错误传播。通过主动视觉重定位和上下文精炼的无训练推理范式,可以有效缓解这一问题,提升模型推理的鲁棒性和可靠性。

[66] Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

Jiaxin Huang,Yuanbo Yang,Bangbang Yang,Lin Ma,Yuewen Ma,Yiyi Liao

Main category: cs.CV

TL;DR: Gen3R通过结合重建模型和视频扩散模型,实现场景级3D生成,能同时输出RGB视频和对应的3D几何信息

  • Motivation: 现有方法在场景级3D生成方面存在局限,需要将强大的重建模型先验与视频扩散模型相结合,以实现更高质量的3D场景生成
  • Method: 利用VGGT重建模型生成几何潜在表示,通过适配器训练使其与预训练视频扩散模型的外观潜在表示对齐,联合生成解耦但对齐的潜在表示
  • Result: 在单图像和多图像条件下的3D场景生成中达到最先进水平,能同时生成RGB视频、相机姿态、深度图和全局点云,并通过生成先验增强重建鲁棒性
  • Conclusion: 紧密耦合重建模型和生成模型具有相互促进的优势,Gen3R展示了这种结合在场景级3D生成中的有效性

[67] GeoReason: Aligning Thinking And Answering In Remote Sensing Vision-Language Models Via Logical Consistency Reinforcement Learning

Wenshuai Li,Xiantai Xiang,Zixiao Wen,Guangyao Zhou,Ben Niu,Feng Wang,Lijia Huang,Qiantong Wang,Yuxin Hu

Main category: cs.CV

TL;DR: GeoReason框架通过构建逻辑驱动数据集和两阶段训练策略,解决遥感视觉语言模型中的逻辑幻觉问题,提升空间决策的认知可靠性和可解释性。

  • Motivation: 当前遥感视觉语言模型存在逻辑幻觉问题,即正确答案来自错误推理链或依赖位置捷径而非空间逻辑,这削弱了复杂空间任务中战略决策的可靠性。
  • Method: 1) 构建GeoReason-Bench逻辑驱动数据集(4000个推理轨迹);2) 两阶段训练:监督知识初始化(学习推理语法和领域知识)和一致性感知强化学习(引入逻辑一致性奖励,通过选项排列策略惩罚逻辑漂移)。
  • Result: 实验结果表明,该框架显著提升了遥感视觉语言模型的认知可靠性和可解释性,相比其他先进方法达到了最先进的性能。
  • Conclusion: GeoReason框架通过同步内部思考与最终决策,有效解决了遥感视觉语言模型中的逻辑幻觉问题,为复杂空间任务提供了更可靠的认知推理能力。

[68] Pixel-Wise Multimodal Contrastive Learning for Remote Sensing Images

Leandro Stival,Ricardo da Silva Torres,Helio Pedrini

Main category: cs.CV

TL;DR: 提出基于像素级2D表示的多模态自监督方法PIMC,通过递归图编码植被指数时间序列,结合遥感影像进行对比学习,在多个地球观测任务上超越现有方法。

  • Motivation: 卫星持续产生海量数据,特别是卫星图像时间序列(SITS)。现有深度学习模型通常处理完整图像或时间序列,而本研究旨在开发更有效的像素级特征提取方法,利用2D表示更好地编码SITS中的视觉属性变化。
  • Method: 1) 将基于像素的植被指数时间序列(NDVI、EVI、SAVI)转换为递归图作为2D表示;2) 提出PIxel-wise Multimodal Contrastive (PIMC)多模态自监督方法,结合2D像素时间序列表示和遥感影像(RSI)训练有效编码器。
  • Result: 在PASTIS数据集上进行像素级预测和分类,在EuroSAT数据集上进行土地覆盖分类。实验结果表明:2D表示显著增强了SITS的特征提取能力,对比学习提高了像素时间序列和RSI的表示质量,多模态方法在各种地球观测任务上优于现有模型。
  • Conclusion: 提出的多模态方法为处理SITS和RSI建立了强大的自监督框架,2D表示和对比学习的结合在地球观测任务中表现出优越性能,代码已开源。

[69] Klear: Unified Multi-Task Audio-Video Joint Generation

Jun Wang,Chunyu Qiang,Yuxin Guo,Yiran Wang,Xijuan Zeng,Chen Zhang,Pengfei Wan

Main category: cs.CV

TL;DR: Klear是一个音频-视频联合生成系统,通过创新的单塔架构、渐进式多任务训练策略和首个大规模密集标注数据集,解决了现有方法中的视听异步、唇语对齐不佳和单模态退化等问题。

  • Motivation: 现有非商业音频-视频生成方法存在三个主要问题:1) 视听异步和唇语对齐不佳;2) 单模态退化;3) 这些问题源于弱音频-视觉对应建模、有限泛化能力和高质量密集标注数据稀缺。
  • Method: 从三个维度解决问题:1) 架构:采用单塔设计,统一DiT块和Omni-Full Attention机制;2) 训练策略:渐进式多任务训练,包括随机模态掩码、跨任务联合优化和多阶段课程学习;3) 数据:构建首个大规模音频-视频密集标注数据集,开发自动化数据构建流水线。
  • Result: Klear在各项任务中大幅超越先前方法,性能与Veo 3相当,能够生成高保真、语义和时间对齐、遵循指令的内容,在联合和单模态设置下都能稳健泛化到分布外场景。
  • Conclusion: Klear通过统一、可扩展的方法为下一代音频-视频合成提供了路径,在模型架构、训练策略和数据管理三个关键维度上的创新解决了音频-视频生成的核心挑战。

[70] Diffusion-DRF: Differentiable Reward Flow for Video Diffusion Fine-Tuning

Yifan Wang,Yanyu Li,Sergey Tulyakov,Yun Fu,Anil Kag

Main category: cs.CV

TL;DR: Diffusion-DRF:一种使用冻结视觉语言模型作为训练免费评论家的可微分奖励流方法,用于微调视频扩散模型,无需额外奖励模型或偏好数据集

  • Motivation: 当前基于DPO的文本到视频生成方法依赖不可微分的偏好信号(人工标注或学习型奖励模型),导致训练标签密集、易产生偏见、易被欺骗,常引发奖励黑客攻击和不稳定训练
  • Method: 使用冻结的现成视觉语言模型作为训练免费评论家,通过扩散去噪链直接反向传播VLM反馈,将logit级响应转换为token感知梯度进行优化;采用自动化、方面结构化的提示流程获取可靠的多维VLM反馈;通过梯度检查点实现高效更新
  • Result: 提高了视频质量和语义对齐,同时减轻了奖励黑客攻击和崩溃问题,无需额外奖励模型或偏好数据集;方法具有模型无关性,可轻松推广到其他基于扩散的生成任务
  • Conclusion: Diffusion-DRF提供了一种可微分、高效且稳定的方法,利用现成VLM直接优化视频扩散模型,避免了传统偏好优化方法的局限性

[71] ToTMNet: FFT-Accelerated Toeplitz Temporal Mixing Network for Lightweight Remote Photoplethysmography

Vladimir Frants,Sos Agaian,Karen Panetta

Main category: cs.CV

TL;DR: 提出ToTMNet轻量级rPPG架构,用FFT加速的Toeplitz时间混合层替代注意力机制,在保持高性能的同时大幅减少参数和计算成本。

  • Motivation: 现有深度rPPG模型虽然提升了鲁棒性,但计算成本和参数数量增加,注意力机制的时间建模存在二次方复杂度问题,需要更高效的时序建模方法。
  • Method: 使用FFT加速的Toeplitz时间混合层替代注意力,通过循环嵌入和FFT卷积实现近线性时间计算;结合局部深度时间卷积分支和门控全局Toeplitz混合,构建紧凑的门控时间混合器。
  • Result: 在UBFC-rPPG数据集上达到1.055 bpm MAE和0.996 Pearson相关系数;在合成到真实场景迁移中达到1.582 bpm MAE和0.994 Pearson相关系数;仅需63k参数。
  • Conclusion: Toeplitz结构的时间混合是rPPG中注意力机制的高效实用替代方案,能在保持高性能的同时大幅减少计算和参数开销。

[72] ImLoc: Revisiting Visual Localization with Image-based Representation

Xudong Jiang,Fangjinhua Wang,Silvano Galliani,Christoph Vogel,Marc Pollefeys

Main category: cs.CV

TL;DR: 提出一种基于2D图像增强深度图的视觉定位方法,结合密集匹配器,在保持易构建维护的同时实现高精度定位

  • Motivation: 现有视觉定位方法存在两难:2D图像方法易构建维护但几何推理能力有限;3D结构方法精度高但需要集中重建且难以更新。需要一种兼具两者优点的方案。
  • Method: 为每张图像添加估计的深度图来捕获几何结构,利用密集匹配器,采用紧凑压缩和GPU加速的LO-RANSAC实现,在存储和计算上高效
  • Result: 在多个标准基准测试中达到新的最先进精度,在可比地图大小下优于现有内存高效方法
  • Conclusion: 通过2D图像增强深度图的表示方法,在保持易构建维护的同时实现了高精度视觉定位,提供精度与内存效率的灵活权衡

[73] Choreographing a World of Dynamic Objects

Yanzhe Lyu,Chen Geng,Karthik Dharmarajan,Yunzhi Zhang,Hadi Alzayer,Shangzhe Wu,Jiajun Wu

Main category: cs.CV

TL;DR: CHORD是一个通用的生成式管道,用于合成动态物体和场景的4D运动,通过从2D视频中提取拉格朗日运动信息,实现类别无关的动态生成。

  • Motivation: 现实世界中的动态物体不断演化、变形和相互作用,产生多样的4D场景动态。传统基于规则的图形管道需要特定类别的启发式方法,劳动密集且不可扩展;而基于学习的方法需要大规模数据集,无法覆盖所有感兴趣的物体类别。
  • Method: 提出基于蒸馏的管道,从2D视频的欧拉表示中提取隐藏的拉格朗日运动信息。该方法继承视频生成模型的通用性,实现类别无关的动态生成。
  • Result: 实验表明该方法能生成多样化的多体4D动态,相比现有方法具有优势,并展示了在生成机器人操作策略方面的应用潜力。
  • Conclusion: CHORD是一个通用、多功能、类别无关的方法,能够从2D视频中提取运动信息来合成复杂的4D场景动态,在动态生成和机器人应用方面具有潜力。

cs.CL

[74] Persona-aware and Explainable Bikeability Assessment: A Vision-Language Model Approach

Yilong Dai,Ziyi Wang,Chenguang Wang,Kexin Zhou,Yiheng Qian,Susu Xu,Xiang Yan

Main category: cs.CL

TL;DR: 提出基于人物感知的视觉语言模型框架,用于自行车友好性评估,通过人物条件化、多粒度微调和数据增强实现可解释的评估

  • Motivation: 现有基于感知的自行车友好性评估方法难以捕捉复杂道路环境和用户主观感知的异质性,需要更全面的评估框架
  • Method: 1) 基于自行车手类型学的理论驱动人物条件化,通过思维链推理生成人物特定解释;2) 多粒度监督微调,结合专家标注推理和用户评分;3) AI数据增强创建受控配对数据以隔离基础设施变量影响
  • Result: 开发了全景图像众包系统,收集了427名自行车手的12,400个人物条件化评估,框架在自行车友好性评分预测方面具有竞争力,同时实现可解释的因素归因
  • Conclusion: 该人物感知视觉语言模型框架能够有效评估自行车友好性,提供可解释的评估结果,有助于推进可持续城市交通和自行车友好城市建设

[75] e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings

Haonan Chen,Sicheng Gao,Radu Timofte,Tetsuya Sakai,Zhicheng Dou

Main category: cs.CL

TL;DR: e5-omni提出轻量级显式对齐方法,解决多模态嵌入中的三个常见问题:模态依赖的相似度尺度、批次负样本效果下降、跨模态统计不匹配。

  • Motivation: 现代信息系统涉及多种模态(文本、图像、视频、音频),需要全模态嵌入模型。但现有方法依赖预训练视觉语言模型的隐式对齐,导致三个问题:相似度尺度不一致、批次负样本效果随时间下降、跨模态统计特征不匹配。
  • Method: 提出e5-omni轻量级显式对齐方案,包含三个组件:1) 模态感知温度校准对齐相似度尺度;2) 可控负样本课程学习与去偏,聚焦混淆负样本并减少假负样本影响;3) 批次白化与协方差正则化,匹配跨模态几何结构。
  • Result: 在MMEB-V2和AudioCaps数据集上实验显示,相比强双模态和全模态基线获得一致提升,且该方案能良好迁移到其他VLM骨干网络。
  • Conclusion: e5-omni通过轻量级显式对齐方法有效解决了多模态嵌入中的关键问题,提升了模型的鲁棒性和性能,并具有良好的可迁移性。

[76] Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR

Yunhao Liang,Ruixuan Ying,Bo Li,Hong Li,Kai Yan,Qingwen Li,Min Yang,Okamoto Satoshi,Zhe Cui,Shiwen Ni

Main category: cs.CL

TL;DR: DeepSeek-OCR的优异性能主要依赖语言先验而非视觉能力,当去除语言支持时性能从90%暴跌至20%,且传统OCR方法比端到端方法更鲁棒

  • Motivation: 研究DeepSeek-OCR声称的高比例视觉-文本压缩能力背后的真正驱动力:是视觉能力还是语言先验?这关系到LLM长上下文瓶颈的解决方案有效性
  • Method: 通过句子级和单词级语义破坏实验,分离模型的固有OCR能力与语言先验;对比13个基线模型;分析视觉token数量与先验依赖关系;进行上下文压力测试
  • Result: 1) 无语言支持时性能从90%降至20%;2) 传统流水线OCR方法比端到端方法更鲁棒;3) 视觉token越少越依赖先验,幻觉风险越高;4) 约10,000文本token时模型完全崩溃
  • Conclusion: DeepSeek-OCR性能主要依赖语言先验而非视觉能力,当前光学压缩技术可能反而加剧长上下文瓶颈,为未来视觉-文本压缩范式优化提供重要见解

[77] InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Ziyun Zhang,Zezhou Wang,Xiaoyi Zhang,Zongyu Guo,Jiahao Li,Bin Li,Yan Lu

Main category: cs.CL

TL;DR: InfiniteWeb:一个自动生成功能性网页环境用于GUI智能体训练的系统,通过统一规范、任务驱动开发和多样化设计解决网页生成挑战,显著提升GUI智能体性能

  • Motivation: GUI智能体作为实用AI助手具有巨大潜力,但训练这类智能体面临合适环境稀缺的问题。现有方法难以生成具有多个互连页面的现实功能性网站
  • Method: 采用统一规范、任务中心测试驱动开发、结合网站种子和参考设计图像确保多样性。系统还生成可验证的任务评估器,为强化学习提供密集奖励信号
  • Result: InfiniteWeb在现实网站构建方面超越商业编码智能体,在其生成环境中训练的GUI智能体在OSWorld和Online-Mind2Web基准测试中取得显著性能提升
  • Conclusion: InfiniteWeb系统有效解决了GUI智能体训练环境稀缺问题,通过自动生成功能性网页环境显著提升了GUI智能体的性能表现

cs.CR

[78] Listen to Rhythm, Choose Movements: Autoregressive Multimodal Dance Generation via Diffusion and Mamba with Decoupled Dance Dataset

Oran Duan,Yinghua Shen,Yingzhu Lv,Luyang Jie,Yaxin Liu,Qiong Wu

Main category: cs.CR

TL;DR: LRCM是一个多模态引导的扩散框架,支持多种输入模态和自回归舞蹈动作生成,通过特征解耦和MTMM模块实现长序列的平滑生成。

  • Motivation: 当前舞蹈动作生成方法存在语义控制粗糙和长序列连贯性差的问题,需要更精细的多模态控制和长序列生成能力。
  • Method: 提出LRCM多模态引导扩散框架,采用特征解耦范式分离动作捕捉数据、音频节奏和文本描述,集成音频潜在Conformer、文本潜在Cross-Conformer和Motion Temporal Mamba Module(MTMM)实现自回归生成。
  • Result: 实验结果表明LRCM在功能能力和量化指标上都表现出色,在多模态输入场景和长序列生成方面具有显著潜力。
  • Conclusion: LRCM框架有效解决了舞蹈动作生成中的语义控制和长序列连贯性问题,展示了多模态引导扩散模型在该领域的应用前景。

cs.LG

[79] Inferring Clinically Relevant Molecular Subtypes of Pancreatic Cancer from Routine Histopathology Using Deep Learning

Abdul Rehman Akbar,Alejandro Levya,Ashwini Esnakula,Elshad Hasanov,Anne Noonan,Upender Manne,Vaibhav Sahai,Lingbin Meng,Susan Tsai,Anil Parwani,Wei Chen,Ashish Manne,Muhammad Khalid Khan Niazi

Main category: cs.LG

TL;DR: PanSubNet:基于H&E染色全切片图像的深度学习框架,可预测胰腺导管腺癌(PDAC)的分子亚型,无需RNA测序,实现快速、经济的临床分子分型。

  • Motivation: PDAC的分子分型(基底样和经典亚型)具有预后和预测价值,但RNA测序成本高、耗时长、组织要求严格,限制了临床实践中的应用。需要一种基于常规H&E染色切片的快速、经济的方法。
  • Method: 开发了PanSubNet深度学习框架,采用双尺度架构融合细胞级形态和组织级结构,利用注意力机制进行多尺度表示学习和透明特征归因。使用1,055名患者的配对H&E图像和RNA-seq数据,基于Moffitt 50基因签名和GATA6表达生成真实标签。
  • Result: 内部验证(五折交叉验证)平均AUC 88.5%,外部验证(TCGA队列)AUC 84.0%,显示良好泛化能力。在转移性疾病中预后分层能力更强。预测不确定性与中间转录状态相关,而非分类噪声。
  • Conclusion: PanSubNet提供了临床可部署、可解释的工具,能够从常规H&E染色切片实现快速、经济的分子分层,支持数字病理工作流程集成,推进PDAC精准肿瘤学。

[80] MORPHFED: Federated Learning for Cross-institutional Blood Morphology Analysis

Gabriel Ansah,Eden Ruffell,Delmiro Fernandez-Reyes,Petru Manescu

Main category: cs.LG

TL;DR: 提出一种用于白细胞形态分析的联邦学习框架,可在保护数据隐私的同时实现跨机构协作训练,提高模型在资源有限医疗环境中的泛化能力。

  • Motivation: 在低收入和中等收入国家,自动化血液形态分析对血液学诊断很重要,但面临染色变异、成像差异和罕见形态等数据集偏移问题。由于隐私法规和数据共享限制,构建集中式数据集往往不可行。
  • Method: 引入联邦学习框架进行白细胞形态分析,使多个临床机构能够在不交换训练数据的情况下进行协作训练。使用卷积和基于transformer的架构进行联邦训练,学习鲁棒、领域不变的表示。
  • Result: 联邦训练在跨站点性能上表现强劲,相比集中式训练,对未见机构的泛化能力有所提高。联邦模型能够学习到鲁棒、领域不变的表征。
  • Conclusion: 联邦学习是开发公平、可扩展、可泛化的医疗影像AI的实用且保护隐私的方法,特别适用于资源有限的医疗环境。

cs.RO

[81] PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

Wenlong Huang,Yu-Wei Chao,Arsalan Mousavian,Ming-Yu Liu,Dieter Fox,Kaichun Mo,Li Fei-Fei

Main category: cs.RO

TL;DR: PointWorld是一个大型预训练的3D世界模型,通过将状态和动作统一表示为3D点流来预测机器人动作对3D世界的响应,支持跨不同机器人的学习,并在真实机器人上实现了多种操作任务。

  • Motivation: 人类能够从一瞥和身体动作中预测3D世界的响应,这种能力对机器人操作同样重要。现有方法通常使用特定于机器人的动作空间,限制了跨不同机器人的学习能力。
  • Method: 提出PointWorld模型,将状态和动作统一表示为3D点流:给定RGB-D图像和低级机器人动作指令,预测每个像素在3D空间中的位移。通过将动作表示为3D点流而非关节位置等特定动作空间,可以直接基于机器人的物理几何进行条件预测,同时实现跨不同机器人的无缝学习。
  • Result: 使用包含约200万轨迹、500小时数据的大规模数据集训练模型,涵盖真实和模拟环境中的机器人操作。模型在0.1秒内完成推理,可集成到模型预测控制框架中。单个预训练检查点使真实Franka机器人能够执行刚体推动、可变形和关节物体操作以及工具使用,无需演示或后训练。
  • Conclusion: PointWorld通过统一的3D点流表示实现了跨不同机器人的世界建模,为大规模3D世界建模提供了设计原则,并在真实机器人操作中展示了强大的泛化能力。

[82] CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos

Chubin Zhang,Jianan Wang,Zifeng Gao,Yue Su,Tianru Dai,Cai Zhou,Jiwen Lu,Yansong Tang

Main category: cs.RO

TL;DR: CLAP是一个通过对比学习将人类视频与机器人轨迹对齐的框架,解决了视觉-语言-动作模型中机器人数据稀缺和视觉纠缠的问题,实现了从人类视频到机器人执行的技能迁移。

  • Motivation: 当前通用视觉-语言-动作模型面临机器人数据稀缺的问题,而现有潜在动作模型在利用视频数据时容易受到视觉纠缠的影响,捕捉到噪声而非真正的操作技能。
  • Method: 提出对比潜在动作预训练(CLAP)框架,通过对比学习将视频的视觉潜在空间与机器人轨迹的本体感知潜在空间对齐,将视频转换映射到可量化的物理可执行码本上。基于此表示,构建了双形式VLA框架:CLAP-NTP(自回归模型)和CLAP-RF(基于Rectified Flow的策略)。还提出了知识匹配正则化策略来缓解微调时的灾难性遗忘。
  • Result: 大量实验表明,CLAP显著优于强基线方法,能够有效地将人类视频中的技能迁移到机器人执行中。
  • Conclusion: CLAP通过对比学习解决了视觉-语言-动作模型中的数据稀缺和视觉纠缠问题,实现了从丰富的人类视频数据到机器人操作的技能迁移,为通用机器人学习提供了有效解决方案。

[83] Wow, wo, val! A Comprehensive Embodied World Model Evaluation Turing Test

Chun-Kai Fan,Xiaowei Chi,Xiaozhu Ju,Hao Li,Yong Bao,Yu-Kai Wang,Lizhang Chen,Zhiyuan Jiang,Kuangzhi Ge,Ying Li,Weishi Mi,Qingpo Wuwu,Peidong Jia,Yulin Luo,Kevin Zhang,Zhiyuan Qin,Yong Dai,Sirui Han,Yike Guo,Shanghang Zhang,Jian Tang

Main category: cs.RO

TL;DR: 论文提出WoW-World-Eval基准测试,用于评估视频基础模型作为具身AI世界模型的感知保真度和鲁棒性,发现现有模型在长时规划(17.27分)和物理一致性(68.02分)方面表现有限,与真实世界存在明显差距。

  • Motivation: 当前视频基础模型作为具身AI的世界模型存在两个关键问题未解决:1)生成泛化能力是否足以保持人类观察者的感知保真度;2)是否足够鲁棒以作为真实世界具身智能体的通用先验。需要标准化框架来评估这些问题。
  • Method: 基于609个机器人操作数据构建WoW-World-Eval基准测试,评估感知、规划、预测、泛化和执行五个核心能力。提出包含22个指标的综合评估协议,建立与人类偏好高度相关(>0.93皮尔逊相关性)的可靠基础。
  • Result: 模型在长时规划上仅得17.27分,物理一致性最高68.02分,表明时空一致性和物理推理能力有限。在逆动态模型图灵测试中,大多数模型成功率接近0%,而WoW模型保持40.74%成功率,显示生成视频与真实世界存在明显差距。
  • Conclusion: 视频基础模型作为世界模型在具身AI中仍存在显著局限性,WoW-World-Eval基准测试揭示了模型与真实世界之间的差距,强调了在具身AI中基准测试世界模型的紧迫性和必要性。

eess.IV

[84] Staged Voxel-Level Deep Reinforcement Learning for 3D Medical Image Segmentation with Noisy Annotations

Yuyang Fu,Xiuzhen Guo,Ji Shi

Main category: eess.IV

TL;DR: 提出SVL-DRL框架,通过分阶段强化学习解决医学图像分割中的噪声标注问题,将每个体素视为自主代理,动态修正标注错误,显著提升分割精度。

  • Motivation: 医学图像分割依赖高质量标注数据,但实际中常存在噪声标注(由于器官结构复杂和标注者差异),这会严重影响分割模型性能。受医学标注员能基于先验知识修正标注错误的启发,需要开发能自动处理噪声标注的鲁棒分割方法。
  • Method: 提出端到端分阶段体素级深度强化学习(SVL-DRL)框架:1) 将噪声标注建模为体素依赖问题,用分阶段强化学习保证鲁棒收敛;2) 引入体素级异步优势演员-评论家(vA3C)模块,每个体素作为自主代理动态更新状态表示;3) 设计新的动作空间和结合Dice值与空间连续性度量的复合奖励函数。
  • Result: 在三个公共医学图像数据集上取得最先进性能,在各种实验设置下平均Dice和IoU分数提升超过3%。
  • Conclusion: SVL-DRL框架能有效处理医学图像分割中的噪声标注问题,通过分阶段强化学习和体素级代理设计,自动修正标注错误,显著提升分割精度和鲁棒性。

[85] Edit2Restore:Few-Shot Image Restoration via Parameter-Efficient Adaptation of Pre-trained Editing Models

M. Akın Yılmaz,Ahmet Bilican,Burak Can Biner,A. Murat Tekalp

Main category: eess.IV

TL;DR: 使用预训练文本条件图像编辑模型(FLUX.1 Kontext)通过LoRA适配器进行少样本图像修复,仅需16-128张图像即可处理去噪、去雨、去雾等多种任务

  • Motivation: 传统图像修复方法需要为每种退化类型训练专用模型,且需要数千个配对样本。本文挑战这一范式,探索利用预训练图像编辑模型的视觉先验知识,实现少样本、多任务的图像修复
  • Method: 使用参数高效的LoRA适配器微调FLUX.1 Kontext模型(120亿参数流匹配模型),仅需16-128张配对图像,通过文本提示指定修复操作,单个统一适配器可处理多种退化类型
  • Result: 方法显著减少数据需求(仅需传统方法的1-2%),在保持高感知质量的同时有效处理多种退化。虽然优先考虑感知质量而非PSNR/SSIM等像素级指标,但展示了预训练编辑模型作为传统图像修复方法的有效替代方案
  • Conclusion: 预训练图像编辑模型经过适当适配后,为图像修复提供了数据高效的新途径,开启了少样本、提示引导的图像增强新方向,挑战了传统专用模型训练范式

[86] GeoDiff-SAR: A Geometric Prior Guided Diffusion Model for SAR Image Generation

Fan Zhang,Xuanting Wu,Fei Ma,Qiang Yin,Yuxin Hu

Main category: eess.IV

TL;DR: GeoDiff-SAR:基于几何先验引导的扩散模型,用于生成高保真SAR图像,通过物理几何指导和多模态信息融合提升生成质量与可控性。

  • Motivation: 现有SAR图像生成方法主要在图像域操作,忽略了显式几何信息,导致生成质量不佳且无法精确控制关键参数(如方位角)。
  • Method: 1. 通过计算特定方位角的SAR点云模拟几何结构与散射关系;2. 基于FiLM的特征融合门控网络动态调节3D物理信息、图像控制参数和文本描述参数的权重;3. 使用LoRA架构对SD3.5模型进行轻量微调,使其适应SAR域分布特性。
  • Result: 在真实SAR数据集上的实验表明,GeoDiff-SAR生成的数据具有高保真度,能有效提升下游分类任务的准确性,特别是在不同方位角下的识别性能显著改善。
  • Conclusion: 物理引导的生成方法在SAR图像生成中具有优越性,GeoDiff-SAR通过几何先验指导实现了高质量、可控的SAR图像生成,并能增强下游任务性能。

[87] A low-complexity method for efficient depth-guided image deblurring

Ziyao Yi,Diego Valsesia,Tiziano Bianchi,Enrico Magli

Main category: eess.IV

TL;DR: 提出一种低复杂度深度引导图像去模糊神经网络,利用小波变换分离结构细节、减少空间冗余,结合深度信息高效特征调节,在保持竞争力的图像质量下将复杂度降低两个数量级。

  • Motivation: 当前深度学习图像去模糊模型虽然效果好但计算复杂度高,主要依赖强大服务器,难以在移动设备上部署。同时,移动激光雷达可提供深度图作为补充信息来提升去模糊质量,但现有方法未充分利用这一优势且复杂度高。
  • Method: 提出低复杂度深度引导图像去模糊神经网络,采用小波变换分离结构细节并减少空间冗余,设计高效的深度信息特征调节机制,显著降低模型计算复杂度。
  • Result: 实验结果显示,该方法在图像质量上与当前最先进模型具有竞争力,同时将计算复杂度降低了高达两个数量级。
  • Conclusion: 通过小波变换处理结构细节和空间冗余,结合深度信息的高效特征调节,可以开发出低复杂度但性能优越的图像去模糊模型,为移动设备部署提供了可行方案。

[88] Scanner-Induced Domain Shifts Undermine the Robustness of Pathology Foundation Models

Erik Thiringer,Fredrik K. Gustafsson,Kajsa Ledesma Eriksson,Mattias Rantalainen

Main category: eess.IV

TL;DR: 当前病理学基础模型对扫描仪引起的技术域偏移缺乏鲁棒性,尽管基准测试表现良好,但嵌入空间存在明显的扫描仪特异性变异,影响下游预测的校准和临床可靠性。

  • Motivation: 尽管病理学基础模型在基准测试中表现优异,但其对真实世界技术域偏移(如不同全玻片扫描仪设备引起的变异)的鲁棒性尚不清楚。这种鲁棒性对于临床应用的可靠性至关重要。
  • Method: 使用包含384张乳腺癌全玻片图像的跨扫描仪数据集(5种设备),系统评估14种病理学基础模型的鲁棒性。通过无监督嵌入分析和临床病理学监督预测任务,独立评估扫描仪效应。
  • Result: 当前所有病理学基础模型都对扫描仪引起的域偏移不具不变性。大多数模型在嵌入空间中编码了明显的扫描仪特异性变异。虽然AUC通常保持稳定,但这掩盖了关键失败模式:扫描仪变异系统性改变嵌入空间并影响下游预测的校准,导致扫描仪依赖性偏差。鲁棒性与训练数据规模、模型大小或模型新近性无简单关系。
  • Conclusion: 病理学基础模型的开发和评估需要超越以准确性为中心的基准测试,转向在真实采集变异下对嵌入稳定性和校准进行明确评估和优化,以确保临床应用的可靠性。