Skip to content
每日arXiv - 2026年1月30日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] MA-LipNet: Multi-Dimensional Attention Networks for Robust Lipreading

Matteo Rossi

Main category: cs.CV

TL;DR: 提出MA-LipNet,通过通道、时空注意力模块多维度净化视觉特征,提升唇读性能

  • Motivation: 现有唇读方法因发音动作细微,特征区分度有限且泛化能力差,需要从多维度净化视觉特征
  • Method: 提出MA-LipNet,依次使用三个注意力模块:通道注意力(CA)重新校准通道特征,联合时空注意力(JSTA)粗粒度过滤,分离时空注意力(SSTA)细粒度精炼
  • Result: 在CMLR和GRID数据集上显著降低字符错误率(CER)和词错误率(WER),优于多个先进方法
  • Conclusion: 多维特征精炼对鲁棒的视觉语音识别至关重要,MA-LipNet通过注意力机制有效提升唇读性能

[2] Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs

Haochen Zhang,Animesh Sinha,Felix Juefei-Xu,Haoyu Ma,Kunpeng Li,Zhipeng Fan,Meng Dong,Xiaoliang Dai,Tingbo Hou,Peizhao Zhang,Zecheng He

Main category: cs.CV

TL;DR: 该论文针对多轮对话图像生成中的非马尔可夫问题,提出了数据构造、训练框架和优化方法,显著提升了多轮一致性和指令遵循能力。

  • Motivation: 现有多模态大语言模型在多轮对话图像生成中存在马尔可夫依赖问题,即模型主要依赖最近图像而忽略长期历史,无法处理用户引用早期状态、撤销更改或跨多轮引用实体等复杂场景。
  • Method: 提出三种核心方法:1) 非马尔可夫多轮数据构造策略(包括回滚式编辑和基于名称的多轮个性化);2) 历史条件训练和推理框架,采用令牌级缓存防止身份漂移;3) 优化技术包括基于重建的DiT解令牌器和多阶段微调课程。
  • Result: 实验表明,针对非马尔可夫交互的显式训练显著提升了多轮一致性和指令遵循能力,同时保持了强大的单轮编辑和个性化性能。
  • Conclusion: 该工作形式化并解决了多轮对话图像生成中的非马尔可夫挑战,通过系统性方法实现了更自然、一致的多轮交互体验,为对话式图像生成系统提供了重要改进。

[3] Text controllable PET denoising

Xuehua Ye,Hongxu Yang,Adam J. Schwarz

Main category: cs.CV

TL;DR: 提出一种基于文本引导的PET图像去噪方法,使用预训练CLIP模型特征结合U-Net架构,能在单一模型中处理多种计数水平的PET图像去噪。

  • Motivation: PET图像在医学诊断中至关重要,但常受复杂噪声影响,噪声来源包括扫描仪硬件、图像重建、示踪剂特性、剂量/计数水平和采集时间等多种因素,需要有效的去噪方法。
  • Method: 提出文本引导的去噪方法,利用预训练CLIP模型提取特征,结合U-Net去噪架构,构建单一模型处理多种计数水平的PET图像去噪。
  • Result: 实验结果表明,该方法在定性和定量评估上都取得了显著改进,模型灵活性显示出处理更复杂去噪需求或减少采集时间的潜力。
  • Conclusion: 提出的文本引导PET图像去噪方法有效提升了图像质量,具有处理多种噪声水平的灵活性,为医学影像处理提供了新的解决方案。

[4] Low performing pixel correction in computed tomography with unrolled network and synthetic data training

Hongxu Yang,Levente Lippenszky,Edina Timko,Lehel Ferenczi,Gopal Avinash

Main category: cs.CV

TL;DR: 提出基于合成数据的展开双域方法,用于校正CT探测器低性能像素伪影,无需真实临床数据训练

  • Motivation: CT探测器低性能像素会导致环状和条纹伪影,现有监督深度学习方法需要昂贵的数据集,且只关注图像域或正弦图域,忽略了CT几何前向操作的内在相关性
  • Method: 提出基于合成数据的展开双域方法,利用自然图像生成合成数据,通过CT几何前向操作建立正弦图和图像域之间的内在相关性,使模型无需真实临床数据即可校正伪影
  • Result: 在模拟1-2%探测器缺陷的实验中,该方法大幅优于现有最先进方法,能够校正低性能像素伪影,无需数据收集成本,可适应不同扫描仪设置的软件应用
  • Conclusion: 该方法通过合成数据和双域校正,有效解决了CT低性能像素伪影问题,无需昂贵临床数据训练,具有实际应用价值

[5] AI-based Prediction of Biochemical Recurrence from Biopsy and Prostatectomy Samples

Andrea Camilloni,Chiara Micoli,Nita Mulliqi,Erik Everett Palm,Thorgerdur Palsdottir,Kelvin Szolnoky,Xiaoyi Ji,Sol Erika Boman,Andrea Discacciati,Henrik Grönberg,Lars Egevad,Tobias Nordström,Kimmo Kartasalo,Martin Eklund

Main category: cs.CV

TL;DR: AI模型基于前列腺活检切片预测根治性前列腺切除术后生化复发风险,在外部验证中表现良好,结合临床变量可改善风险分层

  • Motivation: 根治性前列腺切除术后生化复发是侵袭性前列腺癌的替代标志物,但现有预后工具仍不精确,需要更准确的预测方法
  • Method: 使用STHLM3队列(n=676)的诊断性前列腺活检切片训练AI模型,采用基础模型和注意力机制的多实例学习,在三个外部队列(LEOPARD、CHIMERA、TCGA-PRAD)验证泛化能力
  • Result: 图像方法在三个外部队列中分别获得0.64、0.70和0.70的5年时间依赖性AUC,结合临床变量可提供补充预后价值并实现统计学显著的风险分层,相比指南推荐的CAPRA-S有增量改善
  • Conclusion: 活检训练的病理AI模型可跨样本类型泛化,支持术前和术后决策,但AI多模态方法相对于简单预测模型的附加价值需在进一步研究中审慎评估

[6] BadDet+: Robust Backdoor Attacks for Object Detection

Kealan Dunnett,Reza Arablouei,Dimity Miller,Volkan Dedeoglu,Raja Jurdak

Main category: cs.CV

TL;DR: BadDet+是一个基于惩罚的后门攻击框架,针对目标检测任务,统一了区域误分类攻击(RMA)和物体消失攻击(ODA),具有位置尺度不变性和物理鲁棒性。

  • Motivation: 后门攻击对深度学习构成严重威胁,但在目标检测领域的影响相比图像分类仍了解不足。现有检测方法存在关键弱点:依赖不现实的假设且缺乏物理验证。
  • Method: 引入BadDet+惩罚框架,使用对数障碍惩罚(log-barrier penalty)来抑制触发输入的真实类别预测,实现位置和尺度不变性,并增强物理鲁棒性。
  • Result: 在真实世界基准测试中,BadDet+相比现有RMA和ODA基线方法实现了更优的合成到物理转移性能,同时保持干净样本性能。理论分析确认惩罚在触发特定特征子空间内作用。
  • Conclusion: 结果突显了目标检测中的重大漏洞,以及需要专门防御的必要性。BadDet+框架有效揭示了目标检测系统的脆弱性。

[7] Towards Mitigating Modality Bias in Vision-Language Models for Temporal Action Localization

Jiaqi Li,Guangming Wang,Shuntian Zheng,Minzhe Ni,Xiaoman Lu,Guanghui Ye,Yu Guan

Main category: cs.CV

TL;DR: 提出ActionVLM框架,通过去偏重加权模块和残差聚合策略,在时序动作定位中系统性地缓解模态偏差,保持视觉主导地位,仅在有益时自适应利用语言信息。

  • Motivation: 现有时序动作定位方法在使用视觉语言模型时,往往过度强调语言先验而牺牲视觉性能,导致明显的模态偏差。需要一种能保持视觉主导地位,仅在有益时利用语言信息的框架。
  • Method: 提出ActionVLM框架,包含:(1)去偏重加权模块,估计语言优势(语言相对于纯视觉预测的增量收益),并动态调整语言模态权重;(2)残差聚合策略,将语言视为补充细化而非主要驱动因素。
  • Result: 在THUMOS14数据集上的实验表明,该模型比现有最优方法提升了高达3.2%的mAP,有效缓解了模态偏差,减少了语言先验的过度自信,并增强了时序推理能力。
  • Conclusion: ActionVLM通过系统性地缓解模态偏差,在时序动作定位中实现了更好的性能,证明了保持视觉主导地位并自适应利用语言信息的有效性。

[8] Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought

Yu Huo,Siyu Zhang,Kun Zeng,Haoyue Liu,Owen Lee,Junlin Chen,Yuquan Lu,Yifu Guo,Yaodong Liang,Xiaoying Tang

Main category: cs.CV

TL;DR: Shape-of-Thought (SoT) 是一个视觉思维链框架,通过渐进式形状组装解决文本到图像生成中的组合结构约束问题,无需外部引擎即可实现透明、过程监督的组合生成。

  • Motivation: 当前多模态文本到图像生成模型在视觉保真度方面表现良好,但在组合结构约束方面仍然脆弱,特别是在生成计数、属性绑定和部件级关系方面存在挑战。
  • Method: 提出SoT视觉思维链框架,训练统一的多模态自回归模型生成交错的文本计划和渲染的中间状态,帮助模型捕捉形状组装逻辑而无需产生显式几何表示。创建SoT-26K数据集和T2S-CompBench基准进行评估。
  • Result: 在SoT-26K上微调后,在组件计数方面达到88.4%,在结构拓扑方面达到84.8%,比纯文本基线提高了约20%。
  • Conclusion: SoT为透明、过程监督的组合生成建立了新范式,通过渐进式形状组装有效解决了文本到图像生成中的组合结构约束问题。

[9] An AI Framework for Microanastomosis Motion Assessment

Yan Meng,Eduardo J. Torres-Rodríguez,Marcelle Altshuler,Nishanth Gowda,Arhum Naeem,Recai Yilmaz,Omar Arnaout,Daniel A. Donoho

Main category: cs.CV

TL;DR: 提出基于AI的微血管吻合器械操作技能自动评估框架,包含器械检测、追踪、尖端定位和分类四个模块,实现97%的检测精度和96%的mAP。

  • Motivation: 传统微血管吻合技能评估依赖专家主观判断,存在评分者间变异大、缺乏标准化标准、易受认知偏见影响、手动评估耗时等问题,迫切需要客观、可靠、自动化的评估系统。
  • Method: 提出包含四个核心组件的AI框架:1)基于YOLO的器械检测模块;2)基于DeepSORT的器械追踪模块;3)使用形状描述符的器械尖端定位模块;4)基于专家标注数据训练的有监督分类模块,用于评估器械操作熟练度。
  • Result: 实验结果显示框架效果显著,器械检测精度达到97%,在IoU阈值50%-95%范围内的平均精度(mAP50-95)达到96%。
  • Conclusion: 该AI框架能够客观、可靠地自动评估微血管吻合器械操作技能,解决了传统主观评估方法的局限性,具有一致性和可扩展性。

[10] Bidirectional Cross-Perception for Open-Vocabulary Semantic Segmentation in Remote Sensing Imagery

Jianzheng Wang,Huan Ni

Main category: cs.CV

TL;DR: 提出SDCI框架,通过跨模型注意力融合、双向交叉图扩散和超像素协同预测,提升训练免费开放词汇遥感语义分割的几何定位和语义预测能力。

  • Motivation: 高分辨率遥感影像具有地物分布密集、边界复杂的特点,对几何定位和语义预测要求更高。现有训练免费的开放词汇语义分割方法通常采用"单向注入"和"浅层后处理"策略,难以满足这些要求。
  • Method: 提出SDCI框架:1) 特征编码阶段引入跨模型注意力融合模块,通过相互注入自注意力图指导协同推理;2) 双向交叉图扩散细化模块,通过迭代随机游走扩散增强双分支分割分数的可靠性;3) 结合低层超像素结构,开发基于凸优化的超像素协同预测机制进一步细化对象边界。
  • Result: 在多个遥感语义分割基准测试中,该方法优于现有方法。消融研究进一步证实,利用超像素结构的传统基于对象的遥感图像分析方法在深度学习框架中仍然有效。
  • Conclusion: SDCI框架通过双分支协同推理有效解决了高分辨率遥感影像开放词汇语义分割的挑战,证明了传统超像素结构在深度学习中的持续价值。

[11] Enhancing Underwater Light Field Images via Global Geometry-aware Diffusion Process

Yuji Lin,Qian Zhao,Zongsheng Yue,Junhui Hou,Deyu Meng

Main category: cs.CV

TL;DR: GeoDiff-LF:基于扩散模型的水下4D光场图像增强框架,通过几何引导的U-Net架构、损失函数和采样策略提升水下成像质量

  • Motivation: 解决水下4D光场成像中获取高质量图像的挑战性问题,特别是水下场景中的颜色失真问题
  • Method: 基于SD-Turbo构建的扩散框架,包含三个关键改进:1)带卷积和注意力适配器的改进U-Net架构以建模几何线索;2)使用张量分解和渐进加权的几何引导损失函数以正则化全局结构;3)带噪声预测的优化采样策略以提高效率
  • Result: 在视觉保真度和定量性能上均优于现有方法,有效减轻水下场景的颜色失真,推进了水下成像增强的技术水平
  • Conclusion: 通过整合扩散先验和光场几何信息,GeoDiff-LF能够有效提升水下4D光场成像质量,代码将公开提供

[12] FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models

Chenyu Huang,Peng Ye,Xudong Tan,Jinhan Mu,Shenghe Zheng,Li Shen,Tao Chen

Main category: cs.CV

TL;DR: FRISM通过子空间级模型合并实现细粒度推理能力注入,在保持视觉能力的同时提升VLM的推理性能

  • Motivation: 现有方法在粗粒度层级操作,导致推理能力注入与视觉能力保持之间存在权衡,需要更精细的方法来解决这一限制
  • Method: 基于子空间级模型合并的细粒度推理注入框架,通过SVD分解LRM任务向量,自适应调整子空间缩放系数,并采用无标签自蒸馏学习策略进行双目标优化
  • Result: 在多种视觉推理基准测试中持续取得最先进性能,有效提升推理能力而不损害模型原有视觉能力
  • Conclusion: FRISM通过细粒度子空间级合并方法成功解决了推理能力注入与视觉能力保持的权衡问题,为VLM与LRM融合提供了有效框架

[13] Generative Recall, Dense Reranking: Learning Multi-View Semantic IDs for Efficient Text-to-Video Retrieval

Zecheng Zhao,Zhi Chen,Zi Huang,Shazia Sadiq,Tong Chen

Main category: cs.CV

TL;DR: GRDR提出了一种新的两阶段视频检索方法,使用生成式召回和多语义ID分配来提升召回质量,然后通过密集重排序进行细粒度匹配,在保持高精度的同时大幅降低存储和计算成本。

  • Motivation: 现有的两阶段视频检索方法中,召回模型性能限制了整体效果。生成式检索(GR)虽然具有恒定复杂度,但存在语义模糊和跨模态不对齐问题:每个视频只能分配一个语义ID,且ID仅从视觉特征生成,缺乏文本监督。
  • Method: GRDR设计了新的生成式召回方法:1) 使用查询引导的多视图分词器为每个视频分配多个语义ID,提供多样化的语义访问路径;2) 通过共享码本联合训练分词器和生成式检索器,使语义ID成为文本和视频之间的语义桥梁;3) 推理时使用trie约束解码生成紧凑候选集,再由密集模型进行重排序。
  • Result: 在TVR基准测试中,GRDR在精度上匹配了强大的密集检索器,同时将索引存储减少了一个数量级,在全语料检索中加速了300倍。
  • Conclusion: GRDR通过解决生成式检索的语义模糊和跨模态不对齐问题,实现了高效且准确的两阶段视频检索,为大规模实时应用提供了可行的解决方案。

[14] Thinker: A vision-language foundation model for embodied intelligence

Baiyu Pan,Daqin Luo,Junpeng Yang,Jiyuan Wang,Yixuan Zhang,Hailin Shi,Jichao Jiao

Main category: cs.CV

TL;DR: 提出Thinker模型解决机器人应用中视觉语言模型的视角混淆和时序推理问题,通过构建大规模机器人感知数据集和结合关键帧与完整视频序列的方法,在任务规划基准上达到SOTA

  • Motivation: 大型视觉语言模型应用于机器人领域时存在两个主要问题:1)容易混淆第三人称和第一人称视角;2)在时序推理时倾向于忽略视频结尾的信息。这些问题对人类来说简单但对模型却容易出错,阻碍了模型在具身智能中的应用。
  • Method: 1)构建大规模机器人感知与推理数据集,包含自我中心视角视频、视觉定位、空间理解和思维链数据;2)提出简单有效的视频理解增强方法,同时将关键帧和完整视频序列作为联合输入,提升模型对视频内容的理解能力。
  • Result: 在任务规划领域最常用的两个基准数据集上取得了最先进的结果,证明了模型在机器人应用中的有效性。
  • Conclusion: 提出的Thinker模型通过针对性的数据集构建和创新的视频理解方法,有效解决了视觉语言模型在机器人应用中的视角混淆和时序推理问题,为具身智能领域提供了强大的基础模型。

[15] LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models

Alvi Md Ishmam,Najibul Haque Sarker,Zaber Ibn Abdul Hakim,Chris Thomas

Main category: cs.CV

TL;DR: LAMP是一种针对多图像多模态大语言模型的黑盒攻击方法,通过学习通用对抗扰动,通过注意力约束和跨图像传染约束来破坏模型的多图像信息聚合能力。

  • Motivation: 多图像MLLMs在视觉语言任务中表现出色,但其安全漏洞尚未被充分探索。现有攻击方法主要针对单图像场景且通常假设白盒威胁模型,这在现实场景中不切实际。
  • Method: 提出LAMP方法:1) 基于注意力的约束防止模型有效聚合多图像信息;2) 跨图像传染约束使扰动标记影响干净标记,无需修改所有输入;3) 索引注意力抑制损失实现位置不变的鲁棒攻击。
  • Result: 实验结果表明,LAMP在多个视觉语言任务和模型上超越了现有最先进基线,实现了最高的攻击成功率。
  • Conclusion: LAMP是首个针对多图像MLLMs的黑盒攻击方法,通过创新的约束机制有效破坏了模型的多图像信息聚合能力,揭示了这类模型的安全漏洞。

[16] PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models

Xuewen Liu,Zhikai Li,Jing Zhang,Mengjuan Chen,Qingyi Gu

Main category: cs.CV

TL;DR: 提出PTQ4ARVG框架,解决自回归视觉生成模型量化中的三个关键挑战:通道级离群值、令牌级动态激活和样本级分布不匹配,实现8位和6位量化而保持性能。

  • Motivation: 自回归视觉生成模型虽然与语言模型架构兼容且性能接近扩散模型,但其量化研究不足。现有量化方法无法有效应用于ARVG模型,存在通道级离群值、令牌级动态激活和样本级分布不匹配三大挑战。
  • Method: 提出无需训练的PTQ4ARVG框架:1) 增益投影缩放通过泰勒展开量化激活-权重量化的缩放增益,推导最优缩放因子缓解通道级离群值;2) 静态令牌级量化利用ARVG固定令牌长度和位置不变分布特性,避免动态校准开销;3) 分布引导校准选择对分布熵贡献最大的样本,消除样本级分布不匹配。
  • Result: 实验表明PTQ4ARVG能有效将ARVG系列模型量化为8位和6位,同时保持有竞争力的性能。
  • Conclusion: PTQ4ARVG框架成功解决了ARVG模型量化中的关键挑战,为自回归视觉生成模型的部署提供了有效的量化解决方案。

[17] NFCDS: A Plug-and-Play Noise Frequency-Controlled Diffusion Sampling Strategy for Image Restoration

Zhen Wang,Hongyi Liu,Jianing Li,Zhihui Wei

Main category: cs.CV

TL;DR: NFCDS通过控制反向扩散噪声的频率来改善保真度-感知质量权衡,低通噪声导致模糊而高通噪声促进细节生成,提出傅里叶域滤波器渐进抑制低频噪声

  • Motivation: 基于扩散采样的PnP方法能产生高感知质量的图像,但通常因反向扩散引入的噪声而降低数据保真度,需要在保真度和感知质量之间取得更好平衡
  • Method: 提出噪声频率控制扩散采样(NFCDS),通过傅里叶域滤波器渐进抑制低频噪声并保留高频内容,将数据一致性先验直接注入采样过程,无需额外训练
  • Result: NFCDS作为PnP模块可无缝集成到现有扩散修复框架,在多种零样本任务中改善保真度-感知质量平衡,实现快速收敛到既高保真又感知可信的结果
  • Conclusion: 保真度-感知质量冲突可通过噪声频率来根本理解,NFCDS通过控制噪声频率提供了一种有效的解决方案,改善了扩散采样方法的性能

[18] Hypersolid: Emergent Vision Representations via Short-Range Repulsion

Esteban Rodríguez-Betancourt,Edgar Casasola-Murillo

Main category: cs.CV

TL;DR: Hypersolid是一种自监督学习方法,将表示学习重新解释为离散打包问题,通过短程硬球排斥防止局部碰撞,避免表示坍塌

  • Motivation: 自监督学习中防止表示坍塌是一个持续挑战。现有方法通常依赖全局正则化(如最大化距离、去相关维度或强制特定分布),但本文从不同角度重新思考这个问题
  • Method: 将表示学习重新解释为离散打包问题,其中保持信息简化为保持单射性。Hypersolid方法使用短程硬球排斥来防止局部碰撞,形成高分离几何机制
  • Result: 该方法能够保持增强多样性,在细粒度和低分辨率分类任务上表现优异
  • Conclusion: 通过将表示学习视为离散打包问题并使用局部排斥约束,Hypersolid提供了一种防止表示坍塌的有效方法,特别适用于需要保持细微差异的任务

[19] Lightweight High-Fidelity Low-Bitrate Talking Face Compression for 3D Video Conference

Jianglong Li,Jun Xu,Bingcong Lu,Zhengxue Cheng,Hongwei Hu,Ronghua Wu,Li Song

Main category: cs.CV

TL;DR: 提出轻量级高保真低比特率3D说话人脸压缩框架,结合FLAME参数化建模与3DGS神经渲染,实现实时高质量3D视频会议

  • Motivation: 现有2D视频压缩技术无法保留精细几何外观细节,而NeRF等隐式神经渲染方法计算成本过高,需要解决高保真3D说话人脸在低比特率下的表示问题
  • Method: 集成FLAME参数化建模与3DGS神经渲染,仅传输关键面部元数据,采用高斯属性压缩和MLP优化实现紧凑表示
  • Result: 方法在极低比特率下实现优异的率失真性能,提供高质量面部渲染,适合实时3D视频会议应用
  • Conclusion: 提出的轻量级框架成功解决了3D说话人脸在低比特率下的高保真表示问题,为实时3D视频会议提供了有效解决方案

[20] GeoRC: A Benchmark for Geolocation Reasoning Chains

Mohit Talreja,Joshua Diao,Jim Thannikary James,Radu Casapu,Tejas Santanam,Ethan Mendes,Alan Ritter,Wei Xu,James Hays

Main category: cs.CV

TL;DR: 首个地理定位推理链基准测试,发现VLMs在位置预测上媲美人类专家,但在解释推理过程时表现糟糕,经常产生幻觉证据。

  • Motivation: 虽然视觉语言模型在地理定位预测上表现出色,但它们在解释推理过程方面存在严重缺陷,经常产生幻觉证据来支持正确的位置预测,这影响了模型的可解释性和可信度。
  • Method: 创建首个地理定位推理链基准测试,基于GeoGuessr游戏的全球位置预测任务,与专家玩家合作创建800个真实推理链,评估LLM-as-a-judge和VLM-as-a-judge策略来评分模型生成的推理链。
  • Result: 大型闭源VLMs(如Gemini和GPT 5)在位置预测上媲美人类专家,但在生成可审计推理链方面仍落后;开源VLMs(如Llama和Qwen)表现灾难性差,仅略优于无视觉信息的幻觉基线;Qwen 3 LLM-as-a-judge与人类评分相关性最佳。
  • Conclusion: 人类专家与VLMs在此任务上的差距表明VLMs在从高分辨率图像中提取细粒度视觉属性方面存在局限性,这指向了未来改进的方向。

[21] Token Entropy Regularization for Multi-modal Antenna Affiliation Identification

Dong Chen,Ruoyu Li,Xinyan Zhang,Jialei Xu,Ruoseng Zhao,Zhikang Zhang,Lingyun Li,Zizhuang Wei

Main category: cs.CV

TL;DR: 提出一种融合基站视频、天线几何特征和PCI信号的多模态方法,用于自动识别天线归属关系,替代传统人工巡检

  • Motivation: 当前通信网络中天线归属识别依赖人工塔检,过程繁琐且易出错,需要自动化解决方案
  • Method: 提出多模态分类匹配框架,融合视频、几何特征和PCI信号;引入专用训练框架对齐天线图像与PCI信号;提出Token Entropy Regularization模块解决表示对齐挑战
  • Result: 实验表明TER模块加速收敛并带来显著性能提升;分析发现首个token的熵具有模态依赖性
  • Conclusion: 提出的多模态融合方法为天线归属识别提供了有效解决方案,通过专用训练框架和TER模块解决了跨模态对齐问题

[22] WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models

Rishi Upadhyay,Howard Zhang,Jim Solomon,Ayush Agrawal,Pranay Boreddy,Shruti Satya Narayana,Yunhao Ba,Alex Wong,Celso M de Melo,Achuta Kadambi

Main category: cs.CV

TL;DR: WorldBench是一个新的视频基准测试,专门用于解耦评估,能够隔离和评估对单个物理概念或定律的理解,发现当前世界模型在特定物理概念上存在系统性失败。

  • Motivation: 现有基于物理的视频基准测试存在纠缠问题,即单个测试同时评估多个物理定律和概念,这限制了其诊断能力。需要一种能够解耦评估、专门评估单个物理概念理解的基准测试。
  • Method: 设计了WorldBench基准测试,包含两个不同层次:1) 评估直觉物理理解(如物体恒存性、尺度/透视);2) 评估低层次物理常数和材料属性(如摩擦系数、流体粘度)。通过概念特定的解耦评估,能够隔离和评估对单个物理概念的理解。
  • Result: 当在WorldBench上评估最先进的视频世界模型时,发现特定物理概念存在系统性失败模式,所有测试模型都缺乏生成可靠真实世界交互所需的物理一致性。
  • Conclusion: WorldBench通过其概念特定的评估,为视频生成和世界模型的物理推理能力提供了更细致和可扩展的评估框架,为更稳健和可泛化的世界模型驱动学习铺平了道路。

[23] Gaussian Belief Propagation Network for Depth Completion

Jie Tang,Pingping Xie,Jian Li,Ping Tan

Main category: cs.CV

TL;DR: GBPN是一种新颖的深度补全框架,将深度学习与概率图模型结合,通过动态构建MRF并使用高斯置信传播进行推断,在稀疏深度测量下实现高性能深度补全。

  • Motivation: 当前深度学习方法在处理稀疏、不规则的深度数据时存在挑战,特别是在高稀疏度下性能受限,需要更有效的方法来捕捉复杂的长程空间依赖关系。
  • Method: 提出高斯置信传播网络(GBPN):1)使用图模型构建网络(GMCN)动态构建场景特定的马尔可夫随机场(MRF);2)GMCN学习预测自适应非局部边,构建MRF的数据相关势能和结构;3)采用串行和并行消息传递方案增强高斯置信传播,实现有效的信息传播。
  • Result: 在NYUv2和KITTI基准测试中达到最先进性能,在不同稀疏度水平、稀疏模式和数据集上表现出优越性能、显著鲁棒性和泛化能力。
  • Conclusion: GBPN通过深度学习与概率图模型的协同集成,有效解决了深度补全中稀疏数据处理的挑战,为处理复杂空间依赖关系提供了新框架。

[24] Mam-App: A Novel Parameter-Efficient Mamba Model for Apple Leaf Disease Classification

Md Nadim Mahamood,Md Imran Hasan,Md Rasheduzzaman,Ausrukona Ray,Md Shafi Ud Doula,Kamrul Hasan

Main category: cs.CV

TL;DR: 提出Mam-App模型,一种基于Mamba的参数高效模型,用于苹果叶病害分类,在保持高精度的同时大幅减少参数量,适合部署在资源受限设备上。

  • Motivation: 全球人口增长和技术进步加剧了粮食需求,苹果作为重要水果,病害导致严重产量损失。现有深度学习模型参数量大,训练和推理时间长,而轻量级模型性能下降,需要在效率和性能之间取得平衡。
  • Method: 提出Mam-App模型,基于Mamba架构的参数高效模型,用于特征提取和叶病害分类。模型参数量极低(仅0.051M),适合部署在无人机、移动设备等低资源平台。
  • Result: 在PlantVillage苹果叶病害数据集上达到99.58%准确率、99.30%精确率、99.14%召回率和99.22% F1分数;在玉米叶病害数据集上达到99.48%准确率、99.20%精确率、99.34%召回率和99.27% F1分数;在马铃薯叶病害数据集上达到98.46%准确率、98.91%精确率、95.39%召回率和97.01% F1分数。
  • Conclusion: Mam-App模型在保持竞争性性能的同时大幅减少参数量,解决了效率与性能的权衡问题,适合在资源受限环境中部署,为农业病害早期诊断提供了实用解决方案。

[25] HiFi-Mesh: High-Fidelity Efficient 3D Mesh Generation via Compact Autoregressive Dependence

Yanfeng Li,Tao Tan,Qingquan Gao,Zhiwen Cao,Xiaohong liu,Yue Sun

Main category: cs.CV

TL;DR: LANE通过紧凑自回归依赖和AdaGraph策略,实现6倍序列长度提升和高效推理,用于高质量3D网格生成。

  • Motivation: 现有方法资源利用不足,推理速度慢,只能处理小规模序列,限制了结构细节的表达能力。
  • Method: 提出Latent Autoregressive Network (LANE),引入紧凑自回归依赖;提出Adaptive Computation Graph Reconfiguration (AdaGraph)策略,通过时空解耦克服串行推理效率瓶颈。
  • Result: LANE在最大可生成序列长度上比现有方法提升6倍,在生成速度、结构细节和几何一致性方面表现优越。
  • Conclusion: LANE为高质量3D网格生成提供了有效解决方案,通过紧凑自回归依赖和高效推理策略实现了性能突破。

[26] Optimal Transport-Induced Samples against Out-of-Distribution Overconfidence

Keke Tang,Ziyong Du,Xiaofei Wang,Weilong Peng,Peican Zhu,Zhihong Tian

Main category: cs.CV

TL;DR: 利用最优传输奇异边界构造几何驱动的OOD样本,通过置信度抑制损失缓解OOD过自信问题

  • Motivation: 深度神经网络在分布外输入上经常产生过度自信的预测,降低了在开放世界环境中的可靠性。半离散最优传输中的奇点标记了语义模糊区域,这些区域分类器特别容易出现不合理的高置信度预测。
  • Method: 提出一个基于最优传输几何的框架:1)在连续基分布和训练数据潜在嵌入之间建立最优传输问题;2)识别产生的奇异边界;3)在这些边界附近采样构造几何驱动的OOD样本(OTIS);4)在训练中对OTIS应用置信度抑制损失,引导模型在结构不确定区域产生更校准的预测。
  • Result: 大量实验表明,该方法显著缓解了OOD过自信问题,并优于现有最先进方法。
  • Conclusion: 通过利用最优传输诱导的奇异边界的几何特性,可以构造有意义的OOD样本,有效缓解深度神经网络在分布外输入上的过度自信问题,提高模型的校准性和可靠性。

[27] Do Pathology Foundation Models Encode Disease Progression? A Pseudotime Analysis of Visual Representations

Pritika Vig,Ren-Chin Wu,William Lotter

Main category: cs.CV

TL;DR: 病理学视觉基础模型能从离散图像中隐式学习连续疾病进展过程,其表示空间能反映疾病轨迹,轨迹保真度可作为表示质量的新评估指标。

  • Motivation: 现有视觉基础模型在分类任务上表现良好,但尚不清楚其表示是否编码了训练数据背后的连续过程。在计算病理学中,能隐式捕捉连续疾病进展的模型可能更好地反映生物学本质、支持更稳健的泛化,并实现对疾病转变特征的定量分析。
  • Method: 使用扩散伪时间(一种从单细胞转录组学推断发育轨迹的方法),探究基础模型是否在表示空间中沿连贯的进展方向组织疾病状态。在四种癌症进展和六个模型上进行测试,比较轨迹保真度与零基线的差异。
  • Result: 所有病理学专用模型恢复的轨迹排序显著超过零基线,仅视觉模型达到最高保真度(CRC-Serrated上τ>0.78)。模型在参考疾病上的轨迹保真度排名能强预测在保留疾病上的少样本分类性能(ρ=0.92),探索性分析显示细胞类型组成沿推断轨迹平滑变化,与已知基质重塑模式一致。
  • Conclusion: 视觉基础模型能从独立静态观察中隐式学习表示连续过程,轨迹保真度提供了超越下游性能的表示质量补充衡量标准。虽然该框架在病理学中展示,但可应用于其他通过静态快照观察连续过程的领域。

[28] SR2-Net: A General Plug-and-Play Model for Spectral Refinement in Hyperspectral Image Super-Resolution

Ji-Xuan He,Guohang Zhuang,Junge Bo,Tingyi Li,Chen Ling,Yanan Qiao

Main category: cs.CV

TL;DR: 提出SR²-Net,一个轻量级即插即用的光谱校正模块,可附加到各种高光谱图像超分辨率模型上,通过增强-校正流程提升光谱一致性和物理合理性。

  • Motivation: 现有高光谱图像超分辨率方法主要关注空间相关性,但忽视了波段间的光谱一致性,导致虚假振荡和物理上不合理的伪影。虽然可以通过设计网络架构来解决光谱一致性问题,但这会降低模型的通用性和灵活性。
  • Method: 提出SR²-Net,采用增强-校正流程:1) 分层光谱-空间协同注意力(H-S³A)加强跨波段交互;2) 流形一致性校正(MCR)将重建光谱约束到紧凑的物理合理光谱流形。同时引入退化一致性损失确保数据保真度。
  • Result: 在多个基准测试和不同骨干网络上进行广泛实验,证明SR²-Net能以可忽略的计算开销持续提升光谱保真度和整体重建质量。
  • Conclusion: SR²-Net是一个轻量级即插即用的光谱校正器,可广泛适用于各种HSI-SR模型而不修改其架构,有效解决光谱一致性问题,提升重建结果的物理合理性。

[29] Dynamical Adapter Fusion: Constructing A Global Adapter for Pre-Trained Model-based Class-Incremental Learning

Ruiqi Liu,Boyu Diao,Zijia An,Zhulin An,Fei Wang,Yongjun Xu

Main category: cs.CV

TL;DR: 提出DAF方法,通过动态融合任务特定适配器、全局适配器和初始化参数,构建单一鲁棒全局适配器,解决类增量学习中知识迁移和灾难性遗忘问题。

  • Motivation: 类增量学习需要模型持续学习新类别而不遗忘旧知识。现有方法通常冻结预训练模型并训练轻量级任务特定适配器,但这会阻碍知识迁移、增加检索成本,而简单的参数融合又会导致破坏性干扰和灾难性遗忘。
  • Method: 基于PAC-Bayes定理提出动态适配器融合(DAF)方法,构建单一鲁棒全局适配器。通过泰勒展开损失函数推导最优融合系数,动态平衡稳定性和可塑性。还提出鲁棒初始化策略来捕获全局知识模式。
  • Result: 在多个类增量学习基准测试中,DAF方法实现了最先进的性能。
  • Conclusion: DAF通过动态融合机制有效解决了类增量学习中的知识迁移和灾难性遗忘问题,实现了稳定性和可塑性的最佳平衡。

[30] Semantic-Guided Dynamic Sparsification for Pre-Trained Model-based Class-Incremental Learning

Ruiqi Liu,Boyu Diao,Zijia An,Runjie Shao,Zhulin An,Fei Wang,Yongjun Xu

Main category: cs.CV

TL;DR: SGDS通过语义引导的动态稀疏化,在激活空间中塑造类特定稀疏子空间,解决CIL中正交参数约束损害可塑性的问题,实现知识迁移与干扰抑制的平衡。

  • Motivation: 传统CIL方法冻结预训练模型并使用轻量适配器,常通过正交参数约束防止任务间干扰,但作者认为这种参数约束方法损害了模型的可塑性。
  • Method: 提出语义引导动态稀疏化(SGDS),通过定向稀疏化主动引导激活空间的方向和秩。鼓励相似类共享紧凑激活子空间以促进知识迁移,同时为不相似类分配非重叠激活子空间以防止干扰。
  • Result: 在多个基准数据集上的广泛实验表明,SGDS实现了最先进的性能。
  • Conclusion: 通过在激活空间中塑造类特定稀疏子空间,SGDS有效减轻了干扰,同时避免了对参数空间的刚性约束,平衡了知识迁移与干扰抑制。

[31] Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery

Hongjun Chen,Huan Zheng,Wencheng Han,Jianbing Shen

Main category: cs.CV

TL;DR: HMRMamba:首个将结构化状态空间模型(SSMs)用于视频3D人体网格恢复的新范式,通过几何感知提升模块和运动引导重建网络解决现有方法物理不合理和时空建模不足的问题,在多个基准上达到SOTA。

  • Motivation: 现有视频3D人体网格恢复方法存在物理不合理的结果,主要源于依赖有缺陷的中间3D姿态锚点,以及无法有效建模复杂的时空动态。需要克服这些深层次的架构问题。
  • Method: 提出HMRMamba框架,包含两个核心模块:1)几何感知提升模块,采用新颖的双扫描Mamba架构,直接从图像特征中提取几何线索,生成可靠的3D姿态序列作为稳定锚点;2)运动引导重建网络,利用该锚点显式处理时间上的运动学模式,注入关键的时间感知。
  • Result: 在3DPW、MPI-INF-3DHP和Human3.6M基准测试中,HMRMamba在重建精度和时间一致性方面均优于现有方法,同时提供卓越的计算效率,确立了新的最先进水平。
  • Conclusion: HMRMamba通过引入结构化状态空间模型,解决了现有视频3D人体网格恢复方法的根本性架构问题,实现了更物理合理、时间一致且高效的重建效果,为领域提供了新范式。

[32] Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification

Kailash A. Hambarde,Hugo Proença

Main category: cs.CV

TL;DR: 提出GIQT方法,通过相机几何条件校正查询-键相似度空间,解决无人机-地面跨视角行人重识别中的几何畸变问题。

  • Motivation: 无人机与地面相机间的极端视角和距离差异导致严重几何畸变,传统方法假设的共享相似度空间失效,现有注意力机制中的点积相似度在极端几何变化下不可靠。
  • Method: 提出几何诱导查询-键变换(GIQT):1) 轻量级低秩模块,基于相机几何条件校正查询-键相似度空间;2) 几何条件提示生成机制,提供全局视图自适应表示先验。
  • Result: 在四个无人机-地面行人重识别基准测试中,该方法在极端和未见几何条件下显著提升鲁棒性,同时计算开销最小。
  • Conclusion: 显式校正相似度空间比仅调整特征表示更有效,GIQT通过几何条件变换显著提升跨极端视角行人重识别性能。

[33] Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation

Zihan Su,Hongyang Wei,Kangrui Cen,Yong Wang,Guanhua Chen,Chun Yuan,Xiangxiang Chu

Main category: cs.CV

TL;DR: UniMRG提出一种架构无关的后训练方法,通过让统一多模态模型生成像素、深度和分割等多种内在表征来增强其理解能力,实现理解和生成的相互促进。

  • Motivation: 现有统一多模态模型主要利用理解来增强生成能力,但利用生成来改进理解的研究仍然很少。作者希望探索通过生成任务来提升模型理解能力的反向方向。
  • Method: UniMRG是一种简单的架构无关后训练方法,训练UMMs生成输入图像的多种内在表征:像素(重建)、深度(几何)和分割(结构),同时结合标准的视觉理解目标。
  • Result: 实验表明该方法显著提升了细粒度感知能力,减少了幻觉现象,改善了空间理解,同时还能提升生成能力。在不同UMM架构上的广泛实验验证了其有效性。
  • Conclusion: 通过让模型生成多种互补的内在表征,UMMs能够获得对视觉输入更深入全面的理解,实现了理解和生成的相互促进,为统一多模态模型的发展提供了新思路。

[34] MPF-Net: Exposing High-Fidelity AI-Generated Video Forgeries via Hierarchical Manifold Deviation and Micro-Temporal Fluctuations

Xinan He,Kaiqing Lin,Yue Zhou,Jiaming Zhong,Wei Ye,Wenhui Yi,Bing Fan,Feng Ding,Haodong Li,Bo Cao,Bin Li

Main category: cs.CV

TL;DR: 论文提出了一种检测AI生成视频的双路径框架,通过分析AI视频中存在的"流形投影波动"特征来区分真实与伪造视频。

  • Motivation: 随着Veo、Wan等视频生成模型的快速发展,合成内容的视觉质量已经很高,宏观语义错误和时间不一致性不再明显。然而,这并不意味着无法区分真实视频和高质量伪造视频。作者认为AI生成视频本质上是流形拟合过程的产物而非物理记录,因此其像素组成逻辑具有结构化、同质化的特征。
  • Method: 提出分层双路径框架:1) 静态流形偏差分支:利用大规模视觉基础模型的感知边界捕获偏离自然真实世界流形的空间异常;2) 微时间波动分支:分析即使视觉完美序列中仍存在的结构化流形投影波动,作为细粒度过滤器。
  • Result: 该框架能够检测伪造视频,无论其表现为全局真实世界流形偏差还是细微的计算指纹。通过这种顺序过滤过程,确保即使高保真视频成功驻留在流形上并逃避空间检测,也能通过时间分析暴露伪造。
  • Conclusion: AI生成视频本质上具有"流形投影波动"特征,这为检测提供了理论基础。提出的双路径框架能够有效区分真实视频与高质量AI生成视频,为视频真伪检测提供了新方法。

[35] From Implicit Ambiguity to Explicit Solidity: Diagnosing Interior Geometric Degradation in Neural Radiance Fields for Dense 3D Scene Understanding

Jiangsan Zhao,Jakob Geipel,Kryzysztof Kusnierek

Main category: cs.CV

TL;DR: NeRF在密集遮挡场景中存在内部几何退化问题,导致实例计数不足;基于SfM的显式几何方法能显著提高恢复率。

  • Motivation: NeRF在多视图重建中表现出色,但在密集自遮挡场景中的定量3D分析可靠性未知,需要研究其局限性并寻找解决方案。
  • Method: 提出基于稀疏体素栅格化的显式几何流程:从SfM特征几何初始化,将2D实例掩码投影到显式体素网格,通过递归分割强制几何分离。
  • Result: 1) 隐式密度场在严重遮挡下只能恢复约89%的实例;2) 显式几何方法达到95.8%的恢复率;3) 显式方法对分割掩码退化更鲁棒,比隐式基线多恢复43%的实例。
  • Conclusion: 在高度自遮挡的3D场景中,显式几何先验是可靠定量分析的先决条件,隐式表示存在固有的内部几何退化问题。

[36] MultiModal Fine-tuning with Synthetic Captions

Shohei Enomoto,Shin'ya Yamaguchi

Main category: cs.CV

TL;DR: 提出一种将单模态数据集转换为多模态数据集的方法,使用MLLMs生成合成图像描述,通过多模态目标进行微调,在图像分类任务中显著提升性能

  • Motivation: 预训练已从单模态转向多模态学习,但微调仍主要保持单模态,限制了预训练丰富表示的优势,需要弥合这一差距
  • Method: 使用多模态大语言模型生成合成图像描述,将单模态数据集转换为多模态;设计包含类别标签和领域上下文的提示词;引入监督对比损失函数促进同类表示聚类;提出基于多合成描述类别平均文本嵌入的推理技术
  • Result: 在13个图像分类基准测试中优于基线方法,在少样本学习场景中改进尤为显著
  • Conclusion: 建立了一种有效弥合多模态预训练与微调之间差距的数据集增强新范式

[37] Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention

Yuxiang Huang,Mingye Li,Xu Han,Chaojun Xiao,Weilin Zhao,Ao Sun,Ziqi Yuan,Hao Zhou,Fandong Meng,Zhiyuan Liu

Main category: cs.CV

TL;DR: Spava是一个序列并行框架,通过在多GPU上分布近似注意力计算来加速长视频推理,解决了LMMs预填充阶段计算密集的瓶颈问题。

  • Motivation: 长视频推理的效率仍然是关键瓶颈,主要由于大型多模态模型(LMMs)预填充阶段的密集计算。现有方法要么压缩视觉嵌入,要么在单个GPU上应用稀疏注意力,导致加速有限或性能下降,限制了LMMs处理更长、更复杂视频的能力。
  • Method: 提出Spava序列并行框架,通过在多GPU上分布近似注意力计算来减少计算并增加并行性,使系统能够高效处理更多视觉嵌入而无需压缩。系统级优化包括负载平衡和融合前向传递。
  • Result: 相比FlashAttn、ZigZagRing和APB,Spava分别实现了12.72倍、1.70倍和1.18倍的加速,且没有明显的性能损失。
  • Conclusion: Spava通过序列并行和优化注意力机制,有效解决了长视频推理的计算瓶颈,在保持性能的同时显著提升了处理效率,使LMMs能够处理更长、更复杂的视频内容。

[38] Variance & Greediness: A comparative study of metric-learning losses

Donghuo Zeng,Hao Niu,Zhi Li,Masato Taya

Main category: cs.CV

TL;DR: 该研究提出了VARIANCE和GREEDINESS诊断框架,分析了7种度量学习损失函数在5个图像检索数据集上的表现,发现Triplet和SCL在细粒度检索中表现更好,而Contrastive和InfoNCE收敛更快但可能过度简化类别结构。

  • Motivation: 度量学习对检索任务至关重要,但其对嵌入几何和优化动态的影响尚未被充分理解。需要系统分析不同损失函数如何影响嵌入空间的结构和学习过程。
  • Method: 提出了VARIANCE(类内/类间方差)和GREEDINESS(活跃比率和梯度范数)诊断框架,比较了7种代表性损失函数(Contrastive、Triplet、N-pair、InfoNCE、ArcFace、SCL、CCL)在5个图像检索数据集上的表现。
  • Result: Triplet和SCL能保持更高的类内方差和更清晰的类间边界,在细粒度检索中表现更好;Contrastive和InfoNCE通过大量小更新快速压缩嵌入空间,加速收敛但可能过度简化类别结构;N-pair实现较大的平均分离但间距不均匀。
  • Conclusion: 揭示了效率与粒度之间的权衡:当需要保持多样性和困难样本区分时,应选择Triplet/SCL;当需要快速嵌入压缩时,应选择Contrastive/InfoNCE。这些见解为实际应用提供了指导。

[39] Mining Forgery Traces from Reconstruction Error: A Weakly Supervised Framework for Multimodal Deepfake Temporal Localization

Midou Guo,Qilin Yin,Wei Lu,Xiangyang Luo,Rui Yang

Main category: cs.CV

TL;DR: RT-DeepLoc:基于重建的弱监督时序深度伪造定位框架,通过MAE重建误差识别伪造片段,使用非对称视频内对比损失增强定位能力。

  • Motivation: 现代深度伪造技术已发展为局部化和间歇性操作,需要细粒度时序定位。由于逐帧标注成本过高,弱监督方法成为实际需求。
  • Method: 1. 使用仅在真实数据上训练的Masked Autoencoder学习时空模式;2. 通过重建误差识别伪造片段;3. 提出非对称视频内对比损失,通过重建线索指导真实特征紧凑性,建立稳定决策边界。
  • Result: 在LAV-DF等大规模数据集上的广泛实验表明,RT-DeepLoc在弱监督时序伪造定位任务上达到最先进性能。
  • Conclusion: RT-DeepLoc通过重建误差和非对称对比学习,有效解决了弱监督时序深度伪造定位问题,在保持对未见伪造泛化能力的同时增强了局部判别能力。

[40] Hypernetwork-Based Adaptive Aggregation for Multimodal Multiple-Instance Learning in Predicting Coronary Calcium Debulking

Kaito Shiku,Ichika Seo,Tetsuya Matoba,Rissei Hino,Yasuhiro Nakano,Ryoma Bise

Main category: cs.CV

TL;DR: 提出首个从CT图像估计冠状动脉钙化去斑必要性的方法,将任务建模为多示例学习问题,通过超网络自适应调整特征聚合策略

  • Motivation: 医生根据患者的表格数据调整对冠状动脉钙化去斑必要性的判断标准,现有方法难以适应这种个体化决策过程
  • Method: 提出HyperAdAgFormer(超网络自适应聚合Transformer),通过超网络根据表格数据为每个患者自适应修改特征聚合策略
  • Result: 在临床数据集上的实验证明了HyperAdAgFormer的有效性
  • Conclusion: 这是首个从CT图像估计冠状动脉钙化去斑必要性的尝试,提出的自适应方法能更好地模拟医生的个体化决策过程

[41] SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing

Thanh-Nhan Vo,Trong-Thuan Nguyen,Tam V. Nguyen,Minh-Triet Tran

Main category: cs.CV

TL;DR: SimGraph是一个统一的场景图驱动框架,将图像生成和编辑集成在一起,通过结构化场景图控制对象关系和空间布局,确保空间一致性和语义连贯性。

  • Motivation: 当前生成式AI方法通常将图像生成和编辑分开处理,导致效率低下,难以保持空间一致性和语义连贯性,且缺乏对对象关系和空间布局的结构化控制。
  • Method: 提出SimGraph统一框架,集成基于场景图的图像生成和编辑,结合基于token的生成和基于扩散的编辑,在单一场景图驱动模型中实现精确的对象交互、布局和空间一致性控制。
  • Result: 通过大量实验证明,该方法在图像生成和编辑任务上优于现有最先进方法,能够产生高质量且一致的结果。
  • Conclusion: SimGraph通过统一场景图驱动方法,成功解决了图像生成和编辑中的空间一致性和语义连贯性问题,为结构化控制对象关系和空间布局提供了有效解决方案。

[42] HERS: Hidden-Pattern Expert Learning for Risk-Specific Vehicle Damage Adaptation in Diffusion Models

Teerapong Panboonyuen

Main category: cs.CV

TL;DR: HERS框架通过领域专家学习提升扩散模型生成车辆损伤图像的保真度和可控性,以应对保险欺诈风险

  • Motivation: 文本到图像扩散模型能生成逼真的车辆损伤图像,可能被滥用于保险欺诈或索赔操纵,需要提高生成图像的可控性和领域对齐以应对这些风险
  • Method: 提出HERS框架,通过大语言模型和T2I管道自动生成自监督图像-文本对,将每种损伤类别(如凹痕、划痕、车灯破损等)建模为独立专家,最终集成到统一的多损伤模型中
  • Result: 在四个扩散骨干网络上评估,相比基线方法,文本忠实度提升5.5%,人类偏好评分提升2.3%
  • Conclusion: 领域特定扩散模型在汽车保险等高风险应用中既带来机遇也带来风险,强调在安全关键应用中可信生成的重要性

[43] Vision KAN: Towards an Attention-Free Backbone for Vision with Kolmogorov-Arnold Networks

Zhuoqin Yang,Jiansong Zhang,Xiaoling Luo,Xu Wu,Zheng Lu,Linlin Shen

Main category: cs.CV

TL;DR: Vision KAN (ViK) 是一种基于 Kolmogorov-Arnold Networks 的无注意力视觉主干网络,使用 MultiPatch-RBFKAN 作为令牌混合器,在 ImageNet-1K 上实现线性复杂度的竞争性性能。

  • Motivation: 注意力机制虽然能建模长距离依赖,但其二次复杂度限制了可扩展性,且注意力权重难以解释。最近的无注意力架构表明无需成对注意力也能获得强大性能,这促使寻找替代方案。
  • Method: 提出 Vision KAN (ViK),核心是 MultiPatch-RBFKAN 令牌混合器,包含:(a) 基于径向基函数的 KAN 进行补丁级非线性变换,(b) 轴级可分离混合实现高效局部传播,(c) 低秩全局映射处理长距离交互。采用补丁级分组策略和轻量级算子来恢复跨补丁依赖关系。
  • Result: 在 ImageNet-1K 上的实验表明,ViK 实现了具有线性复杂度的竞争性准确率,展示了 KAN 基令牌混合作为注意力高效替代方案的潜力。
  • Conclusion: KAN 基令牌混合是一种高效且理论基础的注意力替代方案,Vision KAN 展示了在保持线性复杂度的同时实现竞争性能的可能性。

[44] Bi-Anchor Interpolation Solver for Accelerating Generative Modeling

Hongxu Chen,Hongxiang Li,Zhen Wang,Long Chen

Main category: cs.CV

TL;DR: BA-solver:通过引入轻量级SideNet和双向时间感知,在保持训练自由求解器通用性的同时,显著加速Flow Matching模型推理,仅需5-10步即可达到100+步Euler求解器的生成质量。

  • Motivation: Flow Matching模型虽然能生成高质量结果,但依赖迭代ODE求解导致显著的延迟瓶颈。现有方法面临两难:训练自由求解器在低NFE时性能显著下降,而训练式单步/少步生成方法训练成本过高且缺乏即插即用通用性。
  • Method: 提出BA-solver,包含两个协同组件:1)双向时间感知:SideNet学习近似未来和历史速度,无需重训练大模型;2)双向锚点速度集成:利用SideNet和两个锚点速度高效近似中间速度进行批量高阶集成。通过大模型建立高精度"锚点",SideNet稠化轨迹。
  • Result: 在ImageNet-256²上,BA-solver仅需10步即可达到100+步Euler求解器的生成质量,在5步时仍保持高保真度,训练成本可忽略。同时确保与现有生成管道的无缝集成,支持图像编辑等下游任务。
  • Conclusion: BA-solver在保持训练自由求解器通用性的同时,显著加速Flow Matching模型推理,以极低训练成本实现高质量少步生成,具有实际部署价值。

[45] Unifying Heterogeneous Degradations: Uncertainty-Aware Diffusion Bridge Model for All-in-One Image Restoration

Luwei Tu,Jiawei Wu,Xing Luo,Zhi Jin

Main category: cs.CV

TL;DR: 提出UDBM模型,通过像素级不确定性引导的随机传输问题重新定义AiOIR,解决异构退化间的优化冲突,实现单步推理下的最先进性能。

  • Motivation: AiOIR面临异构退化间优化目标冲突的根本挑战,现有方法受限于粗粒度控制机制或固定映射调度,导致次优适应。
  • Method: 提出不确定性感知扩散桥模型(UDBM),将AiOIR重新表述为像素级不确定性引导的随机传输问题;引入松弛扩散桥公式解决标准扩散桥的漂移奇异性;设计双重调制策略:噪声调度对齐退化到共享高熵潜在空间,路径调度基于熵正则化的粘性动力学自适应调节传输轨迹。
  • Result: UDBM通过有效修正传输几何和动力学,在单步推理中实现跨多种恢复任务的最先进性能。
  • Conclusion: UDBM通过不确定性感知的随机传输框架成功解决了AiOIR中的优化冲突问题,为异构退化恢复提供了有效的统一解决方案。

[46] HydroSense: A Dual-Microcontroller IoT Framework for Real-Time Multi-Parameter Water Quality Monitoring with Edge Processing and Cloud Analytics

Abdul Hasib,A. S. M. Ahsanul Sarkar Akib,Anish Giri

Main category: cs.CV

TL;DR: HydroSense是一个低成本物联网水质监测系统,使用双微控制器架构(Arduino Uno+ESP32),集成6个关键水质参数,成本仅300美元,性能接近商业系统但价格降低85%

  • Motivation: 全球水危机需要经济实惠、准确、实时的水质监测解决方案。传统手动采样或昂贵商业系统无法满足资源受限环境的需求。
  • Method: 采用双微控制器架构:Arduino Uno负责精确模拟测量和五点校准算法,ESP32负责无线连接、边缘处理和云集成。系统包含pH、溶解氧、温度、总溶解固体、估算氮含量和水位6个参数,采用中值滤波、温度补偿算法和鲁棒错误处理等先进信号处理技术。
  • Result: 90天实验验证显示优异性能:pH精度±0.08单位(0-14范围),DO稳定性±0.2 mg/L,TDS精度±1.9%(0-1000 ppm),云数据传输可靠性99.8%。总成本32,983 BDT(约300美元),比商业系统降低85%。
  • Conclusion: HydroSense为可访问的环境监测建立了新范式,证明通过智能系统架构和成本效益组件选择可以实现专业级水质评估,特别适合资源受限环境。

[47] WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models

Zijin Yang,Yu Sun,Kejiang Chen,Jiawei Zhao,Jun Jiang,Weiming Zhang,Nenghai Yu

Main category: cs.CV

TL;DR: WMVLM:首个基于视觉语言模型的统一可解释扩散模型图像水印评估框架,解决现有方法在统一性、可解释性、安全性等方面的不足

  • Motivation: 现有数字水印评估方法存在显著局限:缺乏统一框架处理残差和语义水印、结果缺乏可解释性、忽视全面安全考量、对语义水印使用不当指标
  • Method: 提出WMVLM框架,重新定义两类水印的质量安全指标:残差水印评估伪影强度和擦除抗性,语义水印评估潜在分布偏移;采用三阶段训练策略实现分类、评分和可解释文本生成
  • Result: 实验表明WMVLM优于现有最先进视觉语言模型,在数据集、扩散模型和水印方法上表现出强泛化能力
  • Conclusion: WMVLM为扩散模型图像水印提供了首个统一可解释的评估框架,解决了现有方法的多个关键缺陷,推动了水印算法的发展

[48] PathReasoner-R1: Instilling Structured Reasoning into Pathology Vision-Language Model via Knowledge-Guided Policy Optimization

Songhan Jiang,Fengchun Liu,Ziyue Wang,Linghan Cai,Yongbing Zhang

Main category: cs.CV

TL;DR: PathReasoner是首个大规模全切片图像推理数据集,通过知识引导生成高质量教学样本,并开发PathReasoner-R1模型,结合轨迹掩码监督微调和推理导向强化学习,实现透明、临床可信的病理诊断推理。

  • Motivation: 当前视觉语言模型在病理诊断中直接输出结论而缺乏可验证的证据链推理,严重限制了临床信任并阻碍专家纠错。需要构建能够提供透明、基于证据的推理能力的病理诊断系统。
  • Method: 1) 构建PathReasoner数据集:利用医学知识图谱,将结构化病理发现和临床推理与诊断对齐,生成超过20K高质量教学样本;2) 开发PathReasoner-R1模型:结合轨迹掩码监督微调和推理导向强化学习,建立结构化思维链能力;3) 设计知识感知多粒度奖励函数:包含严格与知识图谱对齐的实体奖励机制,优化逻辑一致性而非仅结果匹配。
  • Result: PathReasoner-R1在PathReasoner数据集和公共基准测试中均取得最先进性能,支持多种图像尺度,为病理模型提供了透明、临床基础的推理能力。
  • Conclusion: 该研究通过构建首个大规模WSI推理数据集和开发PathReasoner-R1模型,成功解决了病理诊断中缺乏可验证推理的问题,显著提升了临床信任和模型透明度,为计算病理学提供了新的推理框架。

[49] Similarity of Processing Steps in Vision Model Representations

Matéo Mahaut,Marco Baroni

Main category: cs.CV

TL;DR: 该研究探讨不同视觉模型在训练过程中是否收敛到相同的中间表示和操作,而不仅仅是最终表示相似。通过量化不同模型在各处理阶段的表示距离,发现虽然相似位置的层表示最相似,但模型间仍存在显著差异。

  • Motivation: 现有文献表明大型模型倾向于收敛到相似的"通用"表示,但尚不清楚不同模型是否通过相同的中间步骤和操作达到这些表示。本研究旨在探索导致表示收敛的具体过程,理解不同视觉模型在训练路径上的异同。
  • Method: 量化不同模型在各处理阶段的表示距离,追踪表示距离在整个处理过程中的演变,识别模型间差异最大的处理步骤。比较CNN、transformer和分类器模型的行为差异。
  • Result: 发现相似位置的层表示最相似,但模型间仍存在显著差异。分类器模型会在最后几层丢弃低层图像统计信息,CNN和transformer模型表现不同,transformer模型的层间表示变化更平滑。
  • Conclusion: 研究阐明了模型表示收敛的程度和性质,为图像模型底层过程提供了更定性的解释。虽然最终表示可能相似,但不同模型达到这些表示的具体路径和操作存在系统性差异。

[50] A Tilted Seesaw: Revisiting Autoencoder Trade-off for Controllable Diffusion

Pu Cao,Yiyang Ma,Feng Zhou,Xuedan Yin,Qing Song,Lu Yang

Main category: cs.CV

TL;DR: 论文指出当前潜在扩散模型中自编码器评估存在系统性偏差:过度强调生成友好性指标(gFID),忽视重建质量,这在大规模可控扩散任务中会导致条件漂移问题。

  • Motivation: 当前ImageNet规模的自编码器研究存在评估偏差,过度关注生成友好性指标(如低gFID),而忽视重建质量。这种偏差在扩展到可控扩散任务时会产生风险,因为自编码器可能引起条件漂移,限制条件对齐能力。
  • Method: 1)理论分析gFID主导偏好在ImageNet生成中看似无害但在可控扩散中危险的原因;2)提出多维条件漂移评估协议;3)实证研究多个近期ImageNet自编码器;4)通过ControlNet实验验证可控性与条件保持的关系。
  • Result: 研究发现:gFID对条件保持的预测能力较弱,而重建导向的指标与条件保持更一致;ControlNet实验证实可控性跟踪条件保持而非gFID;重建保真度(特别是实例级度量)能更好指示可控性。
  • Conclusion: 当前以ImageNet为中心的AE评估与可扩展可控扩散的需求存在差距,需要更平衡的评估框架。论文为更可靠的基准测试和模型选择提供实践指导,强调在评估中应同时考虑重建质量和生成友好性。

[51] RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning

Shiqi Huang,Shuting He,Bihan Wen

Main category: cs.CV

TL;DR: RSGround-R1:一个用于遥感视觉定位的推理引导、位置感知后训练框架,通过链式思维监督微调和强化微调增强空间理解能力

  • Motivation: 遥感场景空间尺度大、语义模糊,描述常依赖位置线索,这对多模态大语言模型的空间推理能力提出了独特挑战
  • Method: 1. 使用合成遥感视觉定位推理数据进行链式思维监督微调,建立明确的位置感知;2. 应用强化微调,配合新设计的位置奖励函数提供连续、距离感知的定位指导;3. 引入空间一致性引导优化方案,基于空间连贯性动态调整策略更新
  • Result: 在遥感视觉定位基准测试中展现出优越性能和泛化能力
  • Conclusion: 提出的RSGround-R1框架通过渐进式增强空间理解,有效解决了遥感场景中多模态大语言模型的空间推理挑战

[52] OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Yufeng Zhong,Lei Chen,Xuanle Zhao,Wenkang Han,Liming Zheng,Jing Huang,Deyang Jiang,Yilin Cao,Lin Ma,Zhixiong Zeng

Main category: cs.CV

TL;DR: OCRVerse:首个端到端的统一文本中心OCR和视觉中心OCR方法,通过两阶段SFT-RL多域训练,在多种文档类型上取得竞争性结果

  • Motivation: 现有OCR方法主要关注从图像或扫描文档中识别文本元素(文本中心OCR),忽略了从图表、网页、科学图表等视觉信息密集的图像源中识别视觉元素(视觉中心OCR)。这些视觉信息密集的图像在互联网上广泛存在,具有重要的实际应用价值。
  • Method: 提出OCRVerse,首个端到端的统一文本中心OCR和视觉中心OCR方法。构建全面的数据工程覆盖文本中心文档(报纸、杂志、书籍)和视觉中心渲染复合体(图表、网页、科学图表)。采用两阶段SFT-RL多域训练方法:SFT直接混合跨域数据训练建立初始域知识,RL阶段为每个域设计个性化奖励策略,定制灵活的奖励信号。
  • Result: 实验结果表明OCRVerse的有效性,在文本中心和视觉中心数据类型上均取得竞争性结果,甚至可与大规模开源和闭源模型相媲美。
  • Conclusion: OCRVerse成功实现了统一的文本中心和视觉中心OCR,通过创新的两阶段训练方法和全面的数据工程,在多域OCR任务上表现出色,为处理视觉信息密集图像提供了有效解决方案。

[53] CAF-Mamba: Mamba-Based Cross-Modal Adaptive Attention Fusion for Multimodal Depression Detection

Bowen Zhou,Marc-André Fiedler,Ayoub Al-Hamadi

Main category: cs.CV

TL;DR: 提出CAF-Mamba框架,基于Mamba架构实现跨模态自适应注意力融合,用于抑郁症检测,在LMVD和D-Vlog数据集上达到SOTA性能。

  • Motivation: 现有抑郁症检测的深度学习方法大多依赖有限特征类型,忽视显式跨模态交互,使用简单拼接或静态权重融合,存在局限性。
  • Method: 提出CAF-Mamba框架,基于Mamba架构,通过模态注意力机制显式和隐式捕获跨模态交互,动态调整模态贡献度,实现更有效的多模态融合。
  • Result: 在LMVD和D-Vlog两个真实世界基准数据集上的实验表明,CAF-Mamba持续优于现有方法,达到最先进的性能。
  • Conclusion: CAF-Mamba通过显式和隐式跨模态交互以及动态模态注意力机制,有效提升了抑郁症检测的多模态融合性能。

[54] Few-Shot Domain Adaptation with Temporal References and Static Priors for Glacier Calving Front Delineation

Marcel Dreier,Nora Gourmelon,Dakota Pyles,Thorsten Seehaus,Matthias H. Braun,Andreas Maier,Vincent Christlein

Main category: cs.CV

TL;DR: 通过少量样本域适应、空间先验知识和夏季参考图像,将冰川崩解前沿分割在新研究点的误差从1131.6米降至68.7米,实现全球尺度监测

  • Motivation: 现有最先进的冰川崩解前沿分割模型在基准测试中表现接近人类水平,但在实际应用到新研究点时,由于域外分布问题,分割精度不足以支持后续科学分析
  • Method: 采用少量样本域适应策略,结合空间静态先验知识,并在输入时间序列中包含夏季参考图像,无需修改模型架构
  • Result: 分割误差从1131.6米显著降低到68.7米,大幅提升了在新研究点的分割精度
  • Conclusion: 这些方法进展为深度学习冰川崩解前沿分割在新研究点的应用建立了框架,使全球尺度的崩解前沿监测成为可能

[55] When Gradient Optimization Is Not Enough: Dispersive and Anchoring Geometric Regularizer for Multimodal Learning

Zixuan Xia,Hao Wang,Pengcheng Weng,Yanyu Qian,Yangxin Xu,William Dan,Fei Wang

Main category: cs.CV

TL;DR: 论文提出了一种轻量级的几何感知正则化框架,通过约束中间嵌入的几何结构来解决多模态学习中的表示几何病理问题。

  • Motivation: 多模态学习旨在整合异构模态的互补信息,但即使经过精心平衡的训练,多模态模型仍常出现几何病理问题,包括模态内表示塌缩和样本级跨模态不一致性,这会降低单模态鲁棒性和多模态融合效果。
  • Method: 提出了一个轻量级的几何感知正则化框架,包含两种互补约束:1) 模态内分散正则化,促进表示多样性;2) 模态间锚定正则化,在不强制刚性对齐的情况下限制样本级跨模态漂移。该正则化器即插即用,无需架构修改,兼容多种训练范式。
  • Result: 在多个多模态基准测试上的广泛实验表明,该方法在多模态和单模态性能上均取得了一致的改进,证明显式调节表示几何能有效缓解模态权衡问题。
  • Conclusion: 表示几何是多模态学习中一个缺失的控制维度,通过几何感知正则化框架可以显式调节表示几何,有效缓解模态权衡,提升模型性能。

[56] Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification

Dexuan Ding,Ciyuan Peng,Endrowednes Kuantama,Jingcai Guo,Jia Wu,Jian Yang,Amin Beheshti,Ming-Hsuan Yang,Yuankai Qi

Main category: cs.CV

TL;DR: MVSC通过将3D sMRI压缩为2D视觉代理特征,更好地与冻结的2D基础模型对齐,用于阿尔茨海默病分类,在多个基准测试中优于现有方法。

  • Motivation: 现有sMRI表示学习方法存在三个问题:3D架构计算成本高、切片级特征提取丢失跨切片关系、使用2D基础模型训练的特征提取能力有限。需要一种能平衡计算效率和特征表达能力的方法。
  • Method: 提出MVSC方法,包含两个核心组件:1) 体积上下文编码器,在文本指导下捕获全局跨切片上下文;2) 自适应切片融合模块,以文本增强的补丁级方式聚合切片级信息。该方法学习将3D sMRI压缩为紧凑的2D视觉代理特征,与冻结的2D基础模型对齐。
  • Result: 在三个大规模阿尔茨海默病基准测试上,MVSC在二分类和多分类任务上都优于最先进的方法。
  • Conclusion: MVSC通过将3D sMRI压缩为2D视觉代理特征,有效解决了现有方法的局限性,实现了更好的计算效率和特征表达能力,为阿尔茨海默病诊断提供了有效的解决方案。

[57] ChartE3: A Comprehensive Benchmark for End-to-End Chart Editing

Shuo Li,Jiajun Sun,Zhekai Wang,Xiaoran Fan,Hui Li,Dingwen Yang,Zhiheng Xi,Yijun Wang,Zifei Shan,Tao Gui,Qi Zhang,Xuanjing Huang

Main category: cs.CV

TL;DR: ChartE³是一个端到端图表编辑基准,直接评估模型而不依赖中间自然语言程序或代码级监督,包含1200+高质量样本,聚焦局部和全局编辑任务。

  • Motivation: 现有图表编辑方法大多采用基于流水线的设计,依赖自然语言或代码作为中间表示,限制了执行复杂编辑的能力。需要直接评估端到端图表编辑能力的新基准。
  • Method: 构建ChartE³基准,包含1200+高质量样本,每个样本包含图表图像、底层代码和多模态编辑指令。关注两个互补维度:局部编辑(字体、颜色等细粒度外观调整)和全局编辑(数据过滤、趋势线添加等整体数据转换)。
  • Result: 对最先进的多模态大语言模型进行广泛基准测试,发现在全局编辑任务上存在显著性能差距,揭示了当前端到端图表编辑能力的严重局限性。
  • Conclusion: ChartE³基准为直接评估端到端图表编辑能力提供了新框架,揭示了现有模型在复杂编辑任务上的不足,特别是全局编辑方面,为未来研究指明了方向。

[58] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Mingshuang Luo,Shuang Liang,Zhengkun Rong,Yuxuan Luo,Tianshu Hu,Ruibing Hou,Hong Chang,Yong Li,Yuan Zhang,Mingyuan Gao

Main category: cs.CV

TL;DR: DreamActor-M2是一个通用字符动画框架,通过将运动条件重构为上下文学习问题,解决了现有方法在身份保持与运动一致性之间的权衡问题,并减少了对显式姿态先验的依赖。

  • Motivation: 现有字符动画方法存在两个根本挑战:(1) 次优的运动注入策略导致身份保持与运动一致性之间的"跷跷板"权衡;(2) 过度依赖显式姿态先验(如骨架),无法充分捕捉复杂动态,且难以泛化到任意非人形角色。
  • Method: 采用两阶段范式:首先将参考外观和运动线索融合到统一潜在空间,利用基础模型的生成先验共同推理空间身份和时间动态;其次引入自引导数据合成流程,创建伪跨身份训练对,实现从姿态依赖控制到直接端到端RGB驱动动画的平滑过渡。
  • Result: DreamActor-M2实现了最先进的性能,在视觉保真度和跨域泛化方面表现优异。作者还引入了AW Bench基准,涵盖广泛的角色类型和运动场景。
  • Conclusion: DreamActor-M2通过重新构想运动条件作为上下文学习问题,解决了字符动画中的关键挑战,实现了高质量、通用的动画生成,显著提升了跨不同角色和运动场景的泛化能力。

[59] From Global to Granular: Revealing IQA Model Performance via Correlation Surface

Baoliang Chen,Danni Huang,Hanwei Zhu,Lingyu Zhu,Wei Zhou,Shiqi Wang,Yuming Fang,Weisi Lin

Main category: cs.CV

TL;DR: 提出了GMC(粒度调制相关性)方法,用于细粒度分析图像质量评估模型性能,解决了传统全局相关性指标(如PLCC和SRCC)无法捕捉局部质量谱上排名一致性的问题。

  • Motivation: 传统图像质量评估模型评价主要依赖PLCC和SRCC等全局相关性指标,但这些指标将性能简化为单一标量,无法捕捉局部质量谱上的排名一致性变化。两个IQA模型可能获得相同的SRCC值,但一个在高质量图像上排名更可靠,另一个在质量差异小的图像对上区分更好。此外,SRCC和PLCC对测试样本质量分布敏感,导致跨测试集比较不稳定。
  • Method: 提出了GMC方法,包含两个核心组件:1) 粒度调制器:基于绝对MOS值和成对MOS差异应用高斯加权相关性,检查局部性能变化;2) 分布调节器:正则化相关性以减轻非均匀质量分布的偏差。最终生成相关性曲面,将相关性值映射为MOS和|ΔMOS|的联合函数,提供IQA性能的3D表示。
  • Result: 在标准基准测试上的实验表明,GMC能够揭示标量指标无法看到的性能特征,为分析、比较和部署IQA模型提供了更具信息性和可靠性的范式。
  • Conclusion: GMC方法提供了对图像质量评估模型性能的细粒度分析,克服了传统全局相关性指标的局限性,通过相关性曲面实现了更全面、稳定的性能评估。

[60] Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation

Jiankun Peng,Jianyuan Guo,Ying Xu,Yue Liu,Jiashuang Yan,Xuanwei Ye,Houhua Li,Xiaoming Wang

Main category: cs.CV

TL;DR: DGNav提出动态拓扑导航框架,通过场景感知自适应策略和动态图Transformer解决VLN-CE任务中的"粒度刚性"问题,实现按需密度调节和拓扑噪声过滤。

  • Motivation: 现有拓扑规划方法存在"粒度刚性"问题:依赖固定几何阈值采样节点,无法适应环境复杂度变化。导致简单区域过采样(计算冗余)和高不确定性区域欠采样(碰撞风险增加、精度降低)。
  • Method: 1) 场景感知自适应策略:基于预测路径点分散度动态调节图构建阈值,在挑战性环境中实现"按需致密化";2) 动态图Transformer:融合视觉、语言和几何线索到动态边权重中,重构图连接性,过滤拓扑噪声。
  • Result: 在R2R-CE和RxR-CE基准测试中表现出优越的导航性能和强泛化能力。消融研究证实框架在导航效率和安全探索之间达到最优权衡。
  • Conclusion: DGNav通过动态调节地图密度和连接性,有效解决了VLN-CE中的"粒度刚性"问题,实现了更精确、安全的长期空间导航。

[61] Synthetic-to-Real Domain Bridging for Single-View 3D Reconstruction of Ships for Maritime Monitoring

Borja Carrillo-Perez,Felix Sattler,Angel Bueno Rodriguez,Maurice Stephan,Sarah Barnes

Main category: cs.CV

TL;DR: 提出一个基于合成数据训练的单视图3D船舶重建流水线,使用Splatter Image网络以3D高斯表示物体,结合分割模块和后处理,实现无需真实3D标注的实时船舶重建

  • Motivation: 现有3D重建方法大多需要多视角监督、3D标注或计算量大,难以在实时海事监控中部署。需要一种高效的单视图重建方案,且能避免对真实世界3D标注的依赖。
  • Method: 使用Splatter Image网络(稀疏3D高斯表示)在合成数据上训练;结合YOLOv8分割模块和预处理;通过后处理实现真实世界尺度、中心化、方向对齐;利用AIS元数据和单应性映射进行地理参考定位
  • Result: 在合成验证数据上表现出强重建保真度;在ShipSG真实海事图像上定性验证了向实际海事场景迁移的潜力;系统无需真实3D标注即可提供交互式3D船舶检查
  • Conclusion: 该流水线为海事监控提供了高效、可扩展的解决方案,展示了向实际应用中实时3D船舶可视化的可行路径,通过合成数据训练和单视图推理实现了实用化部署

[62] CG-MLLM: Captioning and Generating 3D content via Multi-modal Large Language Models

Junming Huang,Weiwei Xu

Main category: cs.CV

TL;DR: CG-MLLM是一个多模态大语言模型,能够同时进行3D描述和高分辨率3D生成,通过混合Transformer架构解决现有方法在3D内容生成中的分辨率不足问题。

  • Motivation: 尽管大语言模型在文本生成和多模态感知方面取得了革命性进展,但在3D内容生成方面的能力仍未充分探索。现有方法要么只能生成低分辨率网格,要么只能产生粗糙的结构代理,无法原生捕捉细粒度几何细节。
  • Method: 采用混合Transformer架构:Token级自回归Transformer处理token级内容,Block级自回归Transformer处理block级内容。结合预训练的视觉语言骨干网络和专门的3D VAE潜在空间,在单一集成架构中实现标准token和空间block之间的长上下文交互。
  • Result: 实验结果表明,CG-MLLM在生成高保真3D对象方面显著优于现有的多模态大语言模型,有效地将高分辨率3D内容创建带入主流大语言模型范式。
  • Conclusion: CG-MLLM通过创新的混合Transformer架构,成功实现了3D描述和高分辨率3D生成的统一框架,为高质量3D内容生成开辟了新途径。

[63] MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

Honglin Lin,Zheng Liu,Yun Zhu,Chonghan Qin,Juekai Lin,Xiaoran Shang,Conghui He,Wentao Zhang,Lijun Wu

Main category: cs.CV

TL;DR: MMFineReason是一个包含180万样本、51亿解决方案token的大规模多模态推理数据集,通过Qwen3-VL-235B蒸馏高质量推理标注,显著提升开源视觉语言模型的推理能力。

  • Motivation: 开源视觉语言模型在推理能力上落后于专有系统,主要原因是缺乏高质量推理数据。现有数据集在STEM图表、视觉谜题等挑战性领域覆盖有限,且缺乏一致的长链思维标注。
  • Method: 采用三阶段流水线:1) 大规模数据收集与标准化;2) 链式思维原理生成;3) 基于推理质量和难度感知的全面筛选。使用Qwen3-VL-235B蒸馏高质量推理标注,并基于MMFineReason微调Qwen3-VL-Instruct模型。
  • Result: MMFineReason-4B超越Qwen3-VL-8B-Thinking,MMFineReason-8B超越Qwen3-VL-30B-A3B-Thinking并接近Qwen3-VL-32B-Thinking,展现出卓越的参数效率。发现"少即是多"现象:仅7%数据(12.3万样本)即可达到完整数据集性能。
  • Conclusion: MMFineReason数据集显著提升开源视觉语言模型的推理能力,通过难度感知筛选策略实现高效训练,同时推理导向的数据组合能协同提升通用能力。

[64] Trajectory-Guided Diffusion for Foreground-Preserving Background Generation in Multi-Layer Documents

Taewon Kang

Main category: cs.CV

TL;DR: 提出基于扩散模型的文档背景生成框架,通过潜在空间设计而非显式约束实现前景保留和多页面风格一致性

  • Motivation: 解决文档背景生成中的两个关键问题:1) 如何在不损害前景内容的情况下生成背景;2) 如何保持多页面间的风格一致性,避免风格漂移
  • Method: 重新解释扩散过程为结构化潜在空间中的随机轨迹演化。通过设计初始噪声及其几何对齐,使背景生成自然避开前景区域。将风格控制与文本条件解耦,引入缓存风格方向作为潜在空间中的持久向量,约束扩散轨迹到共享风格子空间
  • Result: 无需训练,与现有扩散模型兼容,能够生成视觉连贯、前景保留的结果,在多页面复杂文档中保持风格一致性,无需重复指定风格提示
  • Conclusion: 通过将扩散重新定义为潜在空间中的轨迹设计,为一致性和结构化生成建模提供了原则性方法,消除了对辅助机制和重复风格指定的需求

[65] Improving Classifier-Free Guidance of Flow Matching via Manifold Projection

Jian-Feng Cai,Haixia Liu,Zhengyi Su,Chao Wang

Main category: cs.CV

TL;DR: 论文提出了一种基于优化视角的Classifier-free Guidance(CFG)理论解释,将CFG采样重新表述为带流形约束的同伦优化,并通过流形投影和Anderson加速改进生成质量与稳定性。

  • Motivation: 尽管CFG在扩散和流模型中广泛用于可控生成,但其基于启发式线性外推的方法对引导尺度敏感。需要从理论角度理解CFG的工作原理,并提出更稳定高效的方法。
  • Method: 1) 从优化角度解释CFG:证明流匹配中的速度场对应平滑距离函数的梯度;2) 将CFG采样重新表述为带流形约束的同伦优化;3) 通过增量梯度下降实现流形投影;4) 引入Anderson加速提高计算效率和稳定性。
  • Result: 提出的方法无需额外训练,在DiT-XL-2-256、Flux和Stable Diffusion 3.5等大规模模型上显著提升了生成保真度、提示对齐和引导尺度鲁棒性,在多个基准测试中验证了有效性。
  • Conclusion: 论文为CFG提供了理论解释,提出的优化框架不仅解释了CFG的启发式方法,还提供了更稳定高效的替代方案,在保持训练自由的同时显著提升了生成质量。

[66] Past- and Future-Informed KV Cache Policy with Salience Estimation in Autoregressive Video Diffusion

Hanmo Chen,Chenghao Xu,Xu Yang,Xuan Chen,Cheng Deng

Main category: cs.CV

TL;DR: 提出PaFu-KV缓存策略,通过轻量级显著性估计头来识别和保留重要token,解决长视频生成中KV缓存效率低下的问题,实现质量与效率的更好平衡。

  • Motivation: 现有自回归视频生成方法依赖启发式KV缓存策略,忽略了token重要性差异,导致关键时空信息丢失和冗余缓存积累,降低了视频生成质量和效率。
  • Method: 提出PaFu-KV缓存策略,引入从双向教师蒸馏的轻量级显著性估计头来评估token重要性,保留信息丰富的token,丢弃不相关的token,从而减少KV缓存容量和内存占用。
  • Result: 在基准测试上的广泛实验表明,该方法在保持高保真视频生成质量的同时,实现了加速推理,支持更高效的长时视频生成。
  • Conclusion: PaFu-KV通过智能KV缓存管理解决了长视频生成中的效率瓶颈,实现了质量与效率的更好权衡,为高效长时视频生成提供了有效解决方案。

[67] TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention

Chuancheng Shi,Shangze Li,Wenjun Lu,Wenhua Wu,Cong Wang,Zifeng Cheng,Fei Shen,Tat-Seng Chua

Main category: cs.CV

TL;DR: TraceRouter:一种路径级防御框架,通过追踪和断开有害语义的因果传播电路来增强大基础模型的对抗鲁棒性,相比现有局部防御方法效果更优。

  • Motivation: 现有防御方法主要依赖"局部性假设",抑制孤立的神经元或特征,但有害语义表现为分布式、跨层的电路,使得局部干预脆弱且损害模型效用。需要一种更有效的防御机制来应对这一挑战。
  • Method: TraceRouter采用三阶段路径级框架:1) 通过分析注意力差异定位敏感起始层;2) 使用稀疏自编码器和差分激活分析解耦和隔离恶意特征;3) 通过零干预得到的特征影响分数将特征映射到下游因果路径,选择性抑制这些因果链。
  • Result: 大量实验表明,TraceRouter显著优于现有最先进的基线方法,在对抗鲁棒性和通用效用之间实现了更优的权衡。
  • Conclusion: TraceRouter通过物理切断有害信息流同时保持正交计算路径完整,为大基础模型提供了一种有效的对抗防御解决方案,实现了鲁棒性和效用的更好平衡。

[68] Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning

Hanmo Chen,Guangtao Lyu,Chenghao Xu,Jiexi Yan,Xu Yang,Cheng Deng

Main category: cs.CV

TL;DR: 提出基于金字塔形Shapley-Taylor学习框架的细粒度运动-语言检索方法,通过渐进式关节对齐和片段对齐,显著提升跨模态检索性能。

  • Motivation: 现有运动-语言检索方法主要关注全局对齐,忽略了局部运动片段与身体关节之间的细粒度交互,导致检索性能不理想。受人类运动感知的金字塔过程启发,需要更细粒度的对齐方法。
  • Method: 提出金字塔形Shapley-Taylor学习框架,将人体运动分解为时间片段和空间关节,通过渐进式关节对齐和片段对齐的金字塔方式学习跨模态对应关系,捕捉局部语义细节和层次结构关系。
  • Result: 在多个公开基准数据集上的实验表明,该方法显著优于现有最先进方法,实现了运动片段、身体关节与对应文本标记的精确对齐。
  • Conclusion: 提出的金字塔形Shapley-Taylor学习框架通过细粒度对齐有效解决了运动-语言检索中的语义鸿沟问题,为人类中心跨模态智能提供了更精确的检索方法。

[69] VideoAesBench: Benchmarking the Video Aesthetics Perception Capabilities of Large Multimodal Models

Yunhao Li,Sijing Wu,Zhilin Gao,Zicheng Zhang,Qi Jia,Huiyu Duan,Xiongkuo Min,Guangtao Zhai

Main category: cs.CV

TL;DR: VideoAesBench:首个评估大模型视频美学质量理解能力的基准,包含1804个多样化视频、多种问题格式和全面的美学维度,测试23个模型发现现有能力仍不完整

  • Motivation: 虽然大模型在多种视觉感知任务中表现出色,但其视频美学质量评估能力尚未得到充分探索,而这是人类的基本能力,需要建立专门的评估基准
  • Method: 构建VideoAesBench基准,包含:1) 1804个多样化视频(用户生成、AI生成、压缩、机器人生成、游戏视频);2) 多种问题格式(单选、多选、判断、开放式描述);3) 全面美学维度(视觉形式5方面、视觉风格4方面、视觉感染力3方面)
  • Result: 测试23个开源和商业大模型,发现当前模型仅具备基本的视频美学感知能力,表现仍不完整且不精确
  • Conclusion: VideoAesBench可作为强大的测试平台,为可解释的视频美学评估提供见解,推动大模型在视频美学理解方面的发展

[70] Zero-Shot Video Restoration and Enhancement with Assistance of Video Diffusion Models

Cong Cao,Huanjing Yue,Shangbin Xie,Xin Liu,Jingyu Yang

Main category: cs.CV

TL;DR: 提出首个利用视频扩散模型辅助图像方法实现零样本视频修复与增强的框架,解决时间一致性闪烁问题

  • Motivation: 现有基于扩散的零样本图像修复与增强方法应用于视频时会产生严重的时间闪烁问题,需要保持时间一致性
  • Method: 提出同源潜在融合、异源潜在融合和COT融合比例策略,利用文本到视频扩散模型补充图像方法;提出时间强化后处理,利用图像到视频扩散模型进一步改善时间一致性
  • Result: 实验结果表明该方法具有优越性,无需训练且可应用于任何基于扩散的图像修复与增强方法
  • Conclusion: 该框架成功利用视频扩散模型辅助图像方法,有效解决了零样本视频修复与增强中的时间一致性问题

[71] Just Noticeable Difference Modeling for Deep Visual Features

Rui Zhao,Wenrui Li,Lin Zhu,Yajing Zheng,Weisi Lin

Main category: cs.CV

TL;DR: 提出FeatJND方法,预测深度视觉特征的最大可容忍扰动,在保持下游任务性能的同时控制特征质量

  • Motivation: 深度视觉特征在视觉系统中应用日益广泛,需要描述特征特性并控制特征质量。将JND(恰可察觉差异)扩展到深度特征空间,可以提供任务对齐的容忍边界,为资源受限下的特征质量控制提供实用参考
  • Method: 提出FeatJND方法,预测每个特征的最大可容忍扰动图;在标准化分割点构建FeatJND估计器;在图像分类、检测和实例分割任务中验证;应用于token-wise动态量化
  • Result: 在相同失真强度下,FeatJND扰动比非结构化高斯扰动能更好地保持任务性能;归因可视化显示FeatJND能抑制非关键特征区域;在动态量化应用中,FeatJND引导的步长分配优于随机步长排列和全局均匀步长
  • Conclusion: FeatJND为深度视觉特征提供了任务对齐的JND表述,能够有效控制特征质量并保持下游任务性能,在资源受限场景下具有实用价值

[72] BookNet: Book Image Rectification via Cross-Page Attention Network

Shaokai Liu,Hao Feng,Bozhi Luan,Min Hou,Jiajun Deng,Wengang Zhou

Main category: cs.CV

TL;DR: BookNet是首个用于双页书籍图像校正的端到端深度学习框架,通过双分支架构和跨页注意力机制,同时估计单页和整本书页的形变流,解决了现有单页方法无法捕捉相邻页面几何关系的问题。

  • Motivation: 书籍图像校正面临独特挑战,由于装订约束导致的复杂几何畸变,左右页面呈现明显不对称的曲率模式。现有的单页文档图像校正方法无法捕捉书籍中相邻页面之间的耦合几何关系。
  • Method: BookNet采用双分支架构,配备跨页注意力机制,能够同时估计单个页面和完整书页的形变流,显式建模左右页面之间的相互影响。为了解决缺乏专门数据集的问题,作者构建了Book3D(大规模合成训练数据集)和Book100(真实世界评估基准)。
  • Result: 大量实验表明,BookNet在书籍图像校正方面优于现有的最先进方法。
  • Conclusion: BookNet是首个专门为双页书籍图像校正设计的端到端深度学习框架,通过建模页面间的几何关系,显著提升了校正性能,并提供了专门的数据集支持该领域的研究。

[73] Deep Models, Shallow Alignment: Uncovering the Granularity Mismatch in Neural Decoding

Yang Du,Siyuan Dai,Yonghao Song,Paul M. Thompson,Haoteng Tang,Liang Zhan

Main category: cs.CV

TL;DR: 提出Shallow Alignment方法,通过将神经信号与视觉编码器的中间层表示对齐,而非最终输出,解决人类与机器视觉的粒度不匹配问题,显著提升神经视觉解码性能。

  • Motivation: 现有神经视觉解码方法忽视了人类与机器视觉之间的基本粒度不匹配:深度视觉模型强调语义不变性而抑制局部纹理信息,而神经信号则保留了低层视觉属性与高层语义内容的复杂混合。
  • Method: 提出Shallow Alignment对比学习策略,将神经信号与视觉编码器的中间层表示对齐,而非最终输出,从而在低层纹理细节与高层语义特征之间取得更好平衡。
  • Result: 在多个基准测试中,Shallow Alignment显著优于标准的最终层对齐方法,性能提升范围在22%到58%之间。该方法有效解锁了神经视觉解码的缩放定律,使解码性能能够随着预训练视觉骨干网络容量的增加而可预测地提升。
  • Conclusion: 通过将神经信号与视觉编码器的中间层表示对齐,Shallow Alignment解决了人类与机器视觉之间的粒度不匹配问题,显著提升了神经视觉解码性能,并揭示了神经解码性能随模型容量扩展的规律。

[74] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Cheng Cui,Ting Sun,Suyin Liang,Tingquan Gao,Zelun Zhang,Jiaxuan Liu,Xueqing Wang,Changda Zhou,Hongen Liu,Manhui Lin,Yue Zhang,Yubo Zhang,Yi Liu,Dianhai Yu,Yanjun Ma

Main category: cs.CV

TL;DR: PaddleOCR-VL-1.5在OmniDocBench v1.5上达到94.5%的SOTA准确率,并提出了Real5-OmniDocBench基准测试物理失真鲁棒性,同时扩展了印章识别和文本检测功能,保持0.9B超紧凑VLM的高效性。

  • Motivation: 现有文档理解模型在真实世界物理失真(如扫描、倾斜、扭曲、屏幕拍摄、光照变化)下的鲁棒性评估不足,需要更全面的基准测试来推动模型在实际应用中的可靠性。
  • Method: 提出PaddleOCR-VL-1.5升级模型,引入Real5-OmniDocBench基准测试专门评估五种物理失真情况,同时扩展模型功能支持印章识别和文本检测任务,保持0.9B参数的超紧凑视觉语言模型架构。
  • Result: 在OmniDocBench v1.5上达到94.5%的SOTA准确率,在新提出的Real5-OmniDocBench基准测试上也取得SOTA性能,模型保持高效的同时扩展了功能。
  • Conclusion: PaddleOCR-VL-1.5在文档理解任务上实现了新的SOTA性能,并通过Real5-OmniDocBench基准测试提供了更全面的物理失真鲁棒性评估,同时模型功能扩展和紧凑架构设计使其在实际应用中更具实用价值。

[75] Causal World Modeling for Robot Control

Lin Li,Qihang Zhang,Yiming Luo,Shuai Yang,Ruilin Wang,Fei Han,Mingrui Yu,Zelin Gao,Nan Xue,Xing Zhu,Yujun Shen,Yinghao Xu

Main category: cs.CV

TL;DR: LingBot-VA是一个基于视频世界建模和视觉语言预训练的机器人学习框架,通过自回归扩散模型同时学习帧预测和策略执行,在长时程操作、数据效率和泛化能力方面表现出色。

  • Motivation: 视频世界建模与视觉语言预训练为机器人学习提供了新的独立基础。视频世界模型能够通过理解动作与视觉动态之间的因果关系来预测未来,这启发了作者开发一个能够同时学习帧预测和策略执行的框架。
  • Method: 提出LingBot-VA自回归扩散框架,包含三个核心设计:1) 共享潜在空间,通过混合变换器架构集成视觉和动作标记;2) 闭环滚动机制,持续获取环境反馈和真实观测;3) 异步推理管道,并行化动作预测和运动执行以实现高效控制。
  • Result: 在仿真基准测试和真实世界场景中,模型在长时程操作、后训练数据效率和面对新配置的强泛化能力方面表现出显著潜力。
  • Conclusion: 视频世界建模与视觉语言预训练为机器人学习建立了新的基础,LingBot-VA框架通过集成帧预测和策略执行,在多个方面展现出优越性能,代码和模型已公开以促进社区发展。

[76] Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving

Linhan Wang,Zichong Yang,Chen Bai,Guoxiang Zhang,Xiaotong Liu,Xiaoyin Zheng,Xiao-Xiao Long,Chang-Tien Lu,Cheng Lu

Main category: cs.CV

TL;DR: Drive-JEPA:结合视频联合嵌入预测架构与多模态轨迹蒸馏的端到端自动驾驶框架,通过自监督视频预训练和模拟器轨迹蒸馏提升规划性能

  • Motivation: 当前端到端自动驾驶使用自监督视频预训练学习规划表示,但现有视频世界模型改进有限,且驾驶场景固有的模糊性(每个场景通常只有单一人为轨迹)使得学习多模态行为困难
  • Method: 1) 将V-JEPA适配于端到端驾驶,在大规模驾驶视频上预训练ViT编码器,生成与轨迹规划对齐的预测表示;2) 提出以提议为中心的规划器,蒸馏模拟器生成的多样化轨迹和人为轨迹,采用动量感知选择机制促进稳定安全行为
  • Result: 在NAVSIM评估中,V-JEPA表示结合简单transformer解码器在无感知设置下比先前方法提升3 PDMS;完整Drive-JEPA框架在v1上达到93.3 PDMS,在v2上达到87.8 EPDMS,创下新SOTA
  • Conclusion: Drive-JEPA通过整合视频预测架构和多模态轨迹蒸馏,有效解决了驾驶场景的模糊性问题,显著提升了端到端自动驾驶的规划性能

[77] Understanding Multimodal Complementarity for Single-Frame Action Anticipation

Manuel Benavent-Lledo,Konstantinos Bacharidis,Konstantinos Papoutsakis,Antonis Argyros,Jose Garcia-Rodriguez

Main category: cs.CV

TL;DR: 单帧动作预测框架AAG+通过整合RGB外观、深度几何线索和语义历史信息,在仅使用单帧图像的情况下达到甚至超越视频方法的性能

  • Motivation: 挑战动作预测必须依赖密集时序信息的传统假设,探究单帧图像中已包含多少未来信息,以及如何有效利用这些信息
  • Method: 在AAG基础上系统研究单帧动作预测,分析RGB外观、深度几何线索、过去动作语义表示的贡献,研究多模态融合策略、关键帧选择策略和历史信息源的影响,整合最优设计形成AAG+框架
  • Result: AAG+在IKEA-ASM、Meccano和Assembly101等挑战性基准测试中,性能优于原始AAG,达到或超越最先进的视频方法
  • Conclusion: 单帧动作预测具有巨大潜力,研究明确了何时需要密集时序建模,何时精心选择的单帧就足够,为动作预测提供了新视角

[78] Urban Neural Surface Reconstruction from Constrained Sparse Aerial Imagery with 3D SAR Fusion

Da Li,Chen Yao,Tong Mao,Jiacheng Bao,Houjun Sun

Main category: cs.CV

TL;DR: 首个融合3D SAR点云与航空影像的神经表面重建框架,解决稀疏视角下城市重建的几何模糊问题

  • Motivation: 现有神经表面重建方法在稀疏视角条件下存在几何模糊和不稳定性问题,而航空影像采集受飞行路径、地形和成本限制,需要更稳健的城市3D重建方案
  • Method: 提出融合3D合成孔径雷达点云与航空影像的框架,将雷达空间约束集成到基于SDF的神经表面重建骨干网络中,指导结构感知的光线选择和自适应采样
  • Result: 实验表明,融合3D SAR显著提高了重建精度、完整性和鲁棒性,特别是在高度稀疏和倾斜视角条件下优于单模态基线
  • Conclusion: 该工作为利用先进机载和星载光学-SAR传感实现可扩展的高保真城市重建提供了可行路径,并构建了首个配准的3D SAR点云与航空影像基准数据集

[79] PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

Changjian Jiang,Kerui Ren,Xudong Li,Kaiwen Song,Linning Xu,Tao Lu,Junting Dong,Yu Zhang,Bo Dai,Mulin Yu

Main category: cs.CV

TL;DR: PLANING是一个高效的在线单目图像序列重建框架,通过混合表示(几何基元+神经高斯)解耦几何与外观建模,实现高质量渲染与精确几何的平衡,速度比2D高斯泼溅快5倍以上。

  • Motivation: 现有单目图像序列流式重建方法通常在高质量渲染和精确几何之间难以兼顾,要么偏向渲染质量,要么偏向几何精度,很少能同时实现两者。
  • Method: 采用混合表示方法,松散耦合显式几何基元与神经高斯,解耦几何与外观建模。支持在线初始化与优化策略,分离几何和外观更新,减少结构冗余。
  • Result: 稠密网格Chamfer-L2比PGSR提升18.52%,PSNR比ARTDECO高1.31dB,ScanNetV2场景重建时间小于100秒,比2D高斯泼溅快5倍以上,质量媲美离线逐场景优化。
  • Conclusion: PLANING在重建质量、结构清晰度和计算效率方面表现优异,适用于大规模场景建模和具身AI的仿真就绪环境等下游应用。

[80] MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources

Baorui Ma,Jiahui Yang,Donglin Di,Xuancheng Zhang,Jianxun Cui,Hao Li,Yan Xie,Wei Chen

Main category: cs.CV

TL;DR: Metric Anything是一个可扩展的预训练框架,通过稀疏度量提示从多样化的3D数据中学习度量深度,无需手动工程提示或相机特定建模,首次在度量深度领域展示了清晰的缩放趋势。

  • Motivation: 将视觉基础模型的缩放范式扩展到度量深度估计面临挑战,包括异构传感器噪声、相机相关偏差以及跨源3D数据中的度量模糊性。现有方法需要手动工程提示、相机特定建模或任务特定架构。
  • Method: 提出稀疏度量提示,通过随机掩码深度图创建,作为解耦空间推理与传感器/相机偏差的通用接口。使用约2000万图像-深度对,涵盖重建、捕获和渲染的3D数据,跨越10000个相机模型。
  • Result: 首次在度量深度领域展示清晰的缩放趋势。预训练模型在深度补全、超分辨率和雷达-相机融合等提示驱动任务中表现出色,其蒸馏后的无提示学生模型在单目深度估计、相机内参恢复、单/多视角度量3D重建和VLA规划中达到SOTA。作为视觉编码器还能显著提升多模态大语言模型的空间智能能力。
  • Conclusion: 度量深度估计可以从驱动现代基础模型的相同缩放定律中受益,为可扩展和高效的现实世界度量感知建立了新路径。开源项目支持社区研究。

[81] Unsupervised Decomposition and Recombination with Discriminator-Driven Diffusion Models

Archer Wang,Emile Anand,Yilun Du,Marin Soljačić

Main category: cs.CV

TL;DR: 提出一种对抗训练方法,通过判别器区分单源样本与跨源因子重组样本,提升扩散模型中无监督因子分解的质量和组合生成能力。

  • Motivation: 复杂数据分解为因子化表示能揭示可复用组件,并通过组件重组合成新样本。现有扩散模型学习因子化潜在空间时缺乏因子级监督,需要改进因子发现和组合生成质量。
  • Method: 引入对抗训练信号:训练判别器区分单源样本和跨源因子重组生成的样本;优化生成器以欺骗判别器,从而鼓励重组结果的物理和语义一致性。
  • Result: 在CelebA-HQ、Virtual KITTI、CLEVR和Falcor3D数据集上超越先前基线,获得更低的FID分数和更好的解缠结性能(MIG和MCC指标)。在机器人视频轨迹应用中,通过重组学习到的动作组件,生成多样化序列显著增加LIBERO基准的状态空间覆盖。
  • Conclusion: 对抗训练方法能有效提升无监督因子分解的质量和组合生成能力,在图像和机器人视频领域均有良好表现,特别是在机器人轨迹生成中能显著扩展状态空间覆盖。

[82] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Wenxuan Huang,Yu Zeng,Qiuchen Wang,Zhen Fang,Shaosheng Cao,Zheng Chu,Qingyu Yin,Shuang Chen,Zhenfei Yin,Lin Chen,Zehui Chen,Yao Hu,Philip Torr,Feng Zhao,Wanli Ouyang

Main category: cs.CV

TL;DR: Vision-DeepResearch提出了一种新的多模态深度研究范式,通过多轮、多实体、多尺度的视觉和文本搜索,在噪声环境下实现强大的搜索引擎交互能力。

  • Motivation: 现有MLLMs在需要大量事实信息的任务中,通常采用简单的"推理-工具调用"模式进行视觉和文本搜索,但这种方法假设单次图像查询和少量文本查询就能获取关键证据,这在现实世界存在大量视觉噪声的场景中不切实际。此外,现有方法在推理深度和搜索广度上有限,难以解决需要聚合多样化视觉和文本证据的复杂问题。
  • Method: 提出Vision-DeepResearch,采用新的多模态深度研究范式:1)多轮、多实体、多尺度的视觉和文本搜索;2)支持数十个推理步骤和数百次引擎交互;3)通过冷启动监督和强化学习训练将深度研究能力内化到MLLM中,构建端到端的多模态深度研究MLLM。
  • Result: Vision-DeepResearch显著优于现有的多模态深度研究MLLMs,以及基于GPT-5、Gemini-2.5-pro和Claude-4-Sonnet等强大闭源基础模型构建的工作流程。
  • Conclusion: Vision-DeepResearch通过创新的多模态深度研究范式,解决了现有方法在现实噪声环境中的局限性,实现了更强大的多模态信息检索和推理能力,为复杂视觉问答任务提供了有效解决方案。

[83] BLO-Inst: Bi-Level Optimization Based Alignment of YOLO and SAM for Robust Instance Segmentation

Li Zhang,Pengtao Xie

Main category: cs.CV

TL;DR: BLO-Inst通过双层优化统一检测与分割目标,将检测器训练为分割感知的提示生成器,解决SAM自动化部署中的目标不匹配和对齐过拟合问题。

  • Motivation: SAM虽然具有零样本分割能力,但依赖手动提示阻碍了全自动化部署。现有使用检测器作为提示生成器的方案存在两个根本问题:1) 目标不匹配 - 检测器优化的几何定位目标与SAM所需的最佳提示上下文不匹配;2) 对齐过拟合 - 标准联合训练中检测器只是记忆特定训练样本的提示调整,而非学习泛化策略。
  • Method: 提出BLO-Inst统一框架,通过双层优化对齐检测与分割目标。将对齐问题表述为在不相交数据分割上的嵌套优化问题:下层在子集D1上微调SAM以最大化给定检测提议的分割保真度;上层在子集D2上更新检测器,使其生成的边界框能最小化微调后SAM的验证损失。这使检测器成为分割感知的提示生成器,不仅优化定位精度,还优化下游掩码质量。
  • Result: 大量实验表明,BLO-Inst在通用和生物医学领域的任务上都取得了优越性能,超越了标准基线方法。
  • Conclusion: BLO-Inst通过双层优化框架有效解决了SAM自动化部署中的目标不匹配和对齐过拟合问题,将检测器训练为分割感知的提示生成器,实现了检测与分割目标的统一对齐。

[84] RefAny3D: 3D Asset-Referenced Diffusion Models for Image Generation

Hanzhuo Huang,Qingyang Bao,Zekai Gu,Zhongshuo Du,Cheng Lin,Yuan Liu,Sibei Yang

Main category: cs.CV

TL;DR: 提出一个3D资产参考的扩散模型,通过双分支感知和多视角RGB图像与点云图,实现2D图像生成与3D资产的一致性对齐。

  • Motivation: 现有基于参考的图像生成方法仅限于单张图像参考,无法利用3D资产,限制了实际应用的多样性。需要探索如何将3D资产整合到图像扩散模型中。
  • Method: 提出跨域扩散模型,采用双分支感知架构,同时处理多视角RGB图像和点云图,联合建模颜色和规范空间坐标。通过空间对齐的双分支生成架构和域解耦生成机制,确保同时生成空间对齐但内容解耦的RGB图像和点云图。
  • Result: 实验表明,该方法能有效利用3D资产作为参考,生成与给定资产一致的图像,在扩散模型与3D内容创作结合方面展现出潜力。
  • Conclusion: 该方法成功将3D资产整合到图像扩散模型中,实现了2D图像属性与3D资产属性的链接,为扩散模型与3D内容创作的结合开辟了新可能性。

[85] SINA: A Circuit Schematic Image-to-Netlist Generator Using Artificial Intelligence

Saoud Aldowaish,Yashwanth Karumanchi,Kai-Chen Chiang,Soroosh Noorzad,Morteza Fayazi

Main category: cs.CV

TL;DR: SINA是一个开源的全自动电路原理图图像到网表生成器,使用深度学习、CCL、OCR和VLM技术,在实验中实现了96.47%的网表生成准确率,比现有方法高2.72倍。

  • Motivation: 当前将电路原理图图像转换为机器可读网表的方法在元件识别和连接性推断方面存在困难,需要更准确、自动化的解决方案。
  • Method: SINA集成了深度学习进行精确的元件检测、连通域标记(CCL)进行准确的连接性提取、光学字符识别(OCR)获取元件参考标识符,并使用视觉语言模型(VLM)进行可靠的参考标识符分配。
  • Result: 在实验中,SINA实现了96.47%的整体网表生成准确率,比最先进的方法高出2.72倍。
  • Conclusion: SINA提供了一个高效、准确的开源解决方案,显著提升了电路原理图图像到网表转换的性能,解决了现有方法在元件识别和连接性推断方面的局限性。

[86] Creative Image Generation with Diffusion Model

Kunpeng Song,Ahmed Elgammal

Main category: cs.CV

TL;DR: 提出基于扩散模型的创意生成框架,将创意与CLIP嵌入空间中图像存在概率的逆相关,通过驱动生成图像向低概率区域移动来产生罕见、富有想象力的视觉输出。

  • Motivation: 当前创意图像生成需要产生新颖高质量图像以扩展想象边界,但现有方法依赖手动概念混合或子类别排除,缺乏系统性的创意生成方法。
  • Method: 提出新框架,将创意定义为CLIP嵌入空间中图像存在概率的逆,计算生成图像的概率分布并驱动其向低概率区域移动,同时引入回拉机制以保持视觉保真度。
  • Result: 在文本到图像扩散模型上的大量实验证明该框架有效且高效,能够产生独特、新颖、引人深思的图像,在创意生成方面表现出色。
  • Conclusion: 为生成模型中的创意提供了新视角,提供了促进视觉内容合成创新的原则性方法,实现了高创意性而不牺牲视觉质量。

[87] EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers

John Flynn,Wolfgang Paier,Dimitar Dinev,Sam Nhut Nguyen,Hayk Poghosyan,Manuel Toribio,Sandipan Banerjee,Guy Gafni

Main category: cs.CV

TL;DR: EditYourself:基于DiT的音频驱动视频编辑框架,通过文本脚本修改说话人视频,支持内容增删和重定时,保持运动连贯性、身份一致性和准确唇形同步

  • Motivation: 当前生成视频模型擅长从文本和图像提示创建新内容,但缺乏编辑现有预录制视频的能力。当需要对口语脚本进行微小修改时,需要保持运动、时间连贯性、说话者身份和准确的唇形同步
  • Method: 基于通用视频扩散模型,EditYourself通过音频条件化和区域感知、编辑聚焦的训练扩展增强其V2V能力。使用时空修复技术实现精确唇形同步和时间连贯的重构,包括在新添加片段中合成逼真的人体运动
  • Result: 能够实现精确的唇形同步和时间连贯的现有表演重构,包括在新添加片段中合成逼真的人体运动,同时保持长时间内的视觉保真度和身份一致性
  • Conclusion: 这项工作代表了生成视频模型作为专业视频后期制作实用工具的基础性步骤

[88] Early and Prediagnostic Detection of Pancreatic Cancer from Computed Tomography

Wenxuan Li,Pedro R. A. S. Bassi,Lizhou Wu,Xinze Zhou,Yuxuan Zhao,Qi Chen,Szymon Plotka,Tianyu Lin,Zheren Zhu,Marisa Martin,Justin Caskey,Shanshan Jiang,Xiaoxi Chen,Jaroslaw B. Ćwikla,Artur Sankowski,Yaping Wu,Sergio Decherchi,Andrea Cavalli,Chandana Lall,Cristian Tomasetti,Yaxing Guo,Xuan Yu,Yuqing Cai,Hualin Qiao,Jie Bao,Chenhan Hu,Ximing Wang,Arkadiusz Sitek,Kai Ding,Heng Li,Meiyun Wang,Dexin Yu,Guang Zhang,Yang Yang,Kang Wang,Alan L. Yuille,Zongwei Zhou

Main category: cs.CV

TL;DR: 开发了名为ePAI的AI系统用于早期胰腺癌检测,在内部测试中AUC达0.939-0.999,外部测试中AUC达0.918-0.945,能检测直径小至2-5mm的病变,并在临床诊断前3-36个月发现被放射科医生漏诊的病变。

  • Motivation: 胰腺导管腺癌(PDAC)是最致命的实体恶性肿瘤之一,通常在晚期和不可手术阶段才被发现。回顾性分析显示,专家放射科医生在知道患者后来发展为PDAC的情况下,经常能在之前的CT扫描中发现被忽视的病变。因此需要开发自动化系统来帮助早期检测这些病变。
  • Method: 开发了名为ePAI(早期胰腺癌检测人工智能)的自动化系统,使用来自单一医疗中心的1,598名患者数据进行训练。系统在内部测试(1,009名患者)和外部测试(6个中心的7,158名患者)中进行评估,并与30名认证放射科医生进行多读者研究比较。
  • Result: 内部测试中,ePAI对小于2cm的PDAC检测AUC为0.939-0.999,敏感性95.3%,特异性98.7%,能精确定位小至2mm的病变。外部测试中AUC为0.918-0.945,敏感性91.5%,特异性88.0%,能定位小至5mm的病变。ePAI在临床诊断前3-36个月的CT扫描中检测到被放射科医生漏诊的PDAC,在159名患者中成功检测并定位了75例,中位提前时间为347天。多读者研究显示ePAI敏感性显著优于30名放射科医生50.3%,同时保持95.4%的可比特异性。
  • Conclusion: ePAI系统在早期胰腺癌检测方面表现出优异性能,能够检测放射科医生漏诊的微小病变,并显著提前诊断时间。这些发现表明ePAI有潜力作为辅助工具改善胰腺癌的早期检测。

[89] PI-Light: Physics-Inspired Diffusion for Full-Image Relighting

Zhexin Liang,Zhaoxi Chen,Yongwei Chen,Tianyi Wei,Tengfei Wang,Xingang Pan

Main category: cs.CV

TL;DR: π-Light:基于物理启发的两阶段扩散框架,用于全图像重光照,通过物理引导的神经渲染和批量感知注意力提升真实场景泛化能力

  • Motivation: 解决全图像重光照的三大挑战:大规模配对数据收集困难、物理合理性难以保持、数据驱动先验泛化能力有限。现有方法在合成到真实场景的迁移方面效果不佳。
  • Method: 两阶段物理启发扩散框架:1)批量感知注意力提升内在预测一致性;2)物理引导神经渲染模块确保物理合理的光传输;3)物理启发损失函数规范训练动态;4)精心策划的多样化场景数据集
  • Result: π-Light能够合成各种材质的高光和漫反射,在真实场景的泛化能力上优于现有方法,实现了更逼真的重光照效果
  • Conclusion: 该框架通过物理约束和扩散模型的结合,有效解决了全图像重光照的关键挑战,为下游评估提供了可靠基准,在真实世界图像编辑中展现出优越的泛化能力

[90] Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions

Xiaoxiao Sun,Mingyang Li,Kun yuan,Min Woo Sun,Mark Endo,Shengguang Wu,Changlin Li,Yuhui Zhang,Zeyu Wang,Serena Yeung-Levy

Main category: cs.CV

TL;DR: 该论文提出了VI-Probe框架,通过可控的视觉错觉实验发现大型视觉语言模型对视觉变化的响应不一致,揭示了模型响应持续性的多种机制而非单一原因。

  • Motivation: 大型视觉语言模型在回答经典视觉错觉问题时,即使错觉因素被反转,模型仍坚持相同回答,这表明模型可能只是回忆记忆模式而非真正感知视觉变化。现有研究仅观察到这一现象,但对其根本原因缺乏系统理解。
  • Method: 提出VI-Probe框架,包含分级扰动和匹配的视觉控制(无错觉诱导因素),通过极性翻转一致性、模板固定指数和相对于匹配控制的错觉乘数等指标来衡量稳定性和敏感性,从而区分视觉基础感知和语言驱动回忆。
  • Result: 实验发现不同模型家族的响应持续性源于异质机制:GPT-5表现出记忆覆盖,Claude-Opus-4.1显示感知-记忆竞争,而Qwen变体则暗示视觉处理限制。这些发现挑战了单一原因的观点。
  • Conclusion: 研究结果表明需要基于探测的评估方法,既要测量知识,也要测量对受控视觉变化的敏感性。VI-Probe框架为系统理解视觉语言模型的感知能力提供了新工具。

[91] UEval: A Benchmark for Unified Multimodal Generation

Bo Li,Yida Yin,Wenhao Chai,Xingyu Fu,Zhuang Liu

Main category: cs.CV

TL;DR: UEval是一个评估统一模型(能同时生成图像和文本)的基准测试,包含1000个专家策划的问题,需要模型输出图像和文本,覆盖8个真实世界任务。采用基于量规的评分系统,包含10,417个验证过的评分标准,可实现细粒度自动评分。

  • Motivation: 现有评估开放多模态生成的方法存在局限性,简单的LLM-as-a-judge方法可能忽略细微差别。需要一种能评估统一模型在复杂多模态理解和生成任务上表现的基准测试。
  • Method: 设计基于量规的评分系统:为每个问题提供参考图像和文本答案,用MLLM生成初始评分量规(多个评估标准),然后由人类专家精炼和验证这些量规。最终包含10,417个验证过的评分标准。
  • Result: UEval对当前统一模型具有挑战性:GPT-5-Thinking仅得66.4分(满分100),最佳开源模型仅得49.1分。推理模型通常优于非推理模型,将推理轨迹从推理模型转移到非推理模型可显著缩小差距。
  • Conclusion: 推理对于需要复杂多模态理解和生成的任务可能很重要。UEval为评估统一模型提供了一个可扩展、细粒度的自动评分基准,揭示了当前模型的局限性。

[92] One-step Latent-free Image Generation with Pixel Mean Flows

Yiyang Lu,Susie Lu,Qiao Sun,Hanhong Zhao,Zhicheng Jiang,Xianbang Wang,Tianhong Li,Zhengyang Geng,Kaiming He

Main category: cs.CV

TL;DR: 提出pixel MeanFlow (pMF),一种无需潜在空间的一步生成方法,在ImageNet 256×256和512×512分辨率上取得优异结果

  • Motivation: 当前扩散/流模型存在两个核心特征:(i) 多步采样,(ii) 在潜在空间中操作。虽然近期研究在单个方面取得了进展,但仍缺乏同时实现一步生成且无需潜在空间的方法
  • Method: 提出pixel MeanFlow (pMF),核心思想是将网络输出空间和损失空间分开设计。网络目标设计在假设的低维图像流形上(x-prediction),而损失通过速度空间中的MeanFlow定义。引入图像流形与平均速度场之间的简单变换
  • Result: 在ImageNet 256×256分辨率上获得2.22 FID,512×512分辨率上获得2.48 FID,填补了无需潜在空间的一步生成方法的关键空白
  • Conclusion: pMF为实现一步生成且无需潜在空间的扩散/流模型迈出了重要一步,有望进一步推动生成模型的发展

cs.LG

[93] Noisy but Valid: Robust Statistical Evaluation of LLMs with Imperfect Judges

Chen Feng,Minghe Shen,Ananth Balashankar,Carsten Gerner-Beuerle,Miguel R. D. Rodrigues

Main category: cs.LG

TL;DR: 提出一个"嘈杂但有效"的假设检验框架,用于在LLM法官存在不完美、噪声和偏见的情况下,可靠地认证大语言模型的安全性,并保证有限样本类型I错误控制。

  • Motivation: LLM认证需要验证故障率低于安全阈值,但使用"LLM作为法官"进行规模化评估时,法官的不完美、噪声和偏见会破坏统计保证的有效性。需要一种能处理法官缺陷的可靠认证方法。
  • Method: 通过小型人工标注校准集估计法官的真阳性率和假阳性率,然后将方差校正的临界阈值应用于大型法官标注数据集。该框架明确建模法官行为,而非黑盒估计器,理论上保证有限样本类型I错误控制。
  • Result: 理论推导了嘈杂测试比直接评估具有更高统计功效的确切条件;在Jigsaw Comment、Hate Speech和SafeRLHF上的实验验证了理论;揭示了实际方法与理论"Oracle"之间的显著性能差距,量化了估计成本。
  • Conclusion: 该研究首次系统处理不完美法官设置,提供了法官可靠性的可解释诊断,阐明了评估功效如何依赖于法官质量、数据集大小和认证水平,深化了对使用LLM法官进行统计评估的理解。

[94] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

Chengzu Li,Zanyi Wang,Jiaang Li,Yi Xu,Han Zhou,Huanyu Zhang,Ruichuan An,Dengyang Jiang,Zhaochong An,Ivan Vulić,Serge Belongie,Anna Korhonen

Main category: cs.LG

TL;DR: 视频生成模型可作为视觉推理的中间推理步骤,在迷宫导航和七巧板拼图任务中展现出零样本泛化、视觉上下文利用和测试时扩展能力。

  • Motivation: 当前视觉语言模型在细粒度空间理解和连续动作规划方面存在不足,难以模拟复杂视觉推理所需的动态过程。研究者希望通过视频生成模型来改进视觉推理能力。
  • Method: 将视觉推理问题转化为视频生成任务,让生成的帧作为初始状态到解决方案的中间推理步骤。在两个不同任务上评估:迷宫导航(序列离散规划,视觉变化小)和七巧板拼图(连续操作,视觉变化大)。
  • Result: 实验发现三个关键洞察:1)强大的零样本泛化能力;2)模型能有效利用视觉上下文作为显式控制;3)观察到序列规划中的测试时扩展定律,增加生成视频长度能提升零样本泛化能力。
  • Conclusion: 视频生成不仅是一种媒体工具,更是可扩展、可泛化的视觉推理范式,为复杂视觉推理问题提供了新的解决方案。

[95] Adversarial Vulnerability Transcends Computational Paradigms: Feature Engineering Provides No Defense Against Neural Adversarial Transfer

Achraf Hsain,Ahmed Abdelkader,Emmanuel Baldwin Mbaya,Hamoud Aljamaan

Main category: cs.LG

TL;DR: 对抗性样本不仅影响深度神经网络,还能通过特征工程转移到基于HOG的经典机器学习分类器上,且FGSM攻击比PGD更有效

  • Motivation: 研究对抗性样本是否只影响端到端可微的神经网络,还是也能通过特征工程转移到使用手工特征的经典机器学习分类器上
  • Method: 使用VGG16作为代理模型生成FGSM和PGD对抗样本,测试向四种经典分类器(KNN、决策树、线性SVM、核SVM)和浅层神经网络的转移攻击,在CIFAR-10数据集上评估八种HOG配置
  • Result: 所有经典分类器都遭受16.6%-59.1%的相对准确率下降,与神经网络间的转移攻击相当;意外发现FGSM攻击比PGD更有效,与神经网络中的模式相反;块归一化提供部分但不足的缓解
  • Conclusion: 对抗性脆弱性不是端到端可微性的产物,而是图像分类系统的根本属性,对跨计算范式的安全关键部署具有重要影响

[96] Revisiting Diffusion Model Predictions Through Dimensionality

Qing Jin,Chaoyang Wang

Main category: cs.LG

TL;DR: 本文提出了一个理论框架解释为何在高维数据中直接预测数据(x)优于预测噪声(ε)或速度(v),并提出了k-Diff框架自动学习最优预测目标,无需显式估计内在维度。

  • Motivation: 扩散和流匹配模型中,预测目标从噪声(ε)、速度(v)转向直接数据(x)预测,但缺乏理论解释为何最优目标取决于数据特性。需要理解数据几何性质如何影响最优预测目标的选择。
  • Method: 1) 提出广义预测公式,将ε-、v-和x-预测作为特例;2) 推导数据几何性质与最优预测目标之间的解析关系;3) 提出k-Diff框架,通过数据驱动方法直接学习最优预测参数k,无需显式估计内在维度。
  • Result: 理论证明当环境维度显著超过数据内在维度时,x-预测更优。实验表明k-Diff在潜在空间和像素空间图像生成中,在不同架构和数据规模下均优于固定目标基线。
  • Conclusion: 本文提供了选择最优预测目标的理论依据,并提出k-Diff框架自动优化预测目标,为提升生成性能提供了原则性和自动化的方法。

[97] Lossy Common Information in a Learnable Gray-Wyner Network

Anderson de Andrade,Alon Harell,Ivan V. Bajić

Main category: cs.LG

TL;DR: 提出基于Gray-Wyner网络的可学习三通道编解码器,分离多视觉任务中的共享信息和任务特定信息,减少冗余表示,优于独立编码方法。

  • Motivation: 许多计算机视觉任务存在大量重叠信息,但传统编解码器忽略这一点,导致冗余和低效表示。Gray-Wyner网络为分离公共和任务特定信息提供了理论框架。
  • Method: 开发可学习的三通道编解码器,基于Gray-Wyner网络理论,通过损失公共信息概念表征方法极限,提出平衡学习表示中固有权衡的优化目标。
  • Result: 在六个视觉基准的双任务场景中比较三种编解码架构,证明该方法显著减少冗余,一致优于独立编码,验证了Gray-Wyner理论在现代机器学习中的实用价值。
  • Conclusion: 将经典信息理论与任务驱动的表示学习相结合,展示了Gray-Wyner理论在现代机器学习环境中的实际价值,为多任务表示学习提供了有效框架。

[98] From Consistency to Complementarity: Aligned and Disentangled Multi-modal Learning for Time Series Understanding and Reasoning

Hang Ni,Weijia Zhang,Fei Wang,Zezhi Shao,Hao Liu

Main category: cs.LG

TL;DR: MADI是一个多模态大语言模型,通过细粒度对齐和解耦交互增强时间序列理解,解决了跨模态整合中的时间错位和语义纠缠问题。

  • Motivation: 现有时间序列多模态模型面临两个主要挑战:1)不同模态间的细粒度时间错位,阻碍局部解释;2)共享语义和模态特定语义的严重纠缠,影响互补推理。这些限制了模型对时间序列的全面理解。
  • Method: 提出MADI框架,包含三个核心组件:1)补丁级对齐,强制异质模态间的物理基础细粒度对应;2)离散解耦交互,将模态共有语义分离为紧凑离散潜在变量,自适应协同纯化的模态独特信息;3)关键标记突出,强调信息丰富、查询相关的信号以增强鲁棒推理。
  • Result: 在合成和真实世界基准测试中,MADI持续优于通用大语言模型和时间序列专用多模态大语言模型。
  • Conclusion: MADI通过解决跨模态整合中的细粒度对齐和语义解耦问题,显著提升了时间序列理解和推理能力,为多模态时间序列分析提供了有效解决方案。

[99] Visual-Guided Key-Token Regularization for Multimodal Large Language Model Unlearning

Chengyi Cai,Zesheng Ye,Peike Li,Bo Han,Jianzhong Qi,Feng Liu

Main category: cs.LG

TL;DR: 本文提出ViKeR方法,通过视觉引导的关键令牌正则化来改进多模态大语言模型的遗忘学习,重点关注答案中不同令牌的重要性差异,而非像现有方法那样统一处理所有令牌。

  • Motivation: 现有MLLM遗忘学习方法主要沿用LLM的方法,存在两个主要问题:1) 将所有答案令牌同等对待,忽视了它们在遗忘过程中的重要性差异;2) 仅关注语言模态,忽略了视觉线索对识别关键令牌的作用。
  • Method: 提出视觉引导的关键令牌正则化(ViKeR)方法:1) 利用无关视觉输入预测理想的后遗忘令牌级分布;2) 使用这些分布来正则化遗忘过程,优先处理关键令牌;3) 通过信息熵定义遗忘中的关键令牌,并通过令牌级梯度重加权来增强关键令牌的更新。
  • Result: 在MLLMU和CLEAR基准测试上的实验表明,该方法能有效执行遗忘学习,同时减轻遗忘效应并保持回答的连贯性。
  • Conclusion: ViKeR方法通过视觉引导的关键令牌正则化,解决了现有MLLM遗忘学习方法忽视令牌重要性差异和视觉线索的问题,实现了更有效的隐私保护遗忘学习。

cs.MA

[100] Learning to Communicate Across Modalities: Perceptual Heterogeneity in Multi-Agent Systems

Naomi Pitzer,Daniela Mihai

Main category: cs.MA

TL;DR: 异构多智能体在缺乏感知对齐的情况下,通过多步二元通信游戏发展出类别一致的通信系统,但单模态系统比多模态系统更高效,通信编码是分布式的而非组合式的。

  • Motivation: 现有涌现通信研究大多假设同质模态或对齐的表示空间,忽视了真实世界中的感知异质性。本文旨在研究异构模态智能体在缺乏感知基础的情况下如何发展共享结构化表示。
  • Method: 采用异构多步二元通信游戏,智能体在模态上存在差异且缺乏感知基础。通过比特扰动实验分析通信编码方式,并进行互操作性分析测试不同感知世界训练的系统间的通信能力。
  • Result: 尽管感知不对齐,多模态系统仍能收敛到基于感知输入的类别一致消息。单模态系统通信更高效(使用更少比特、分类熵更低),多模态智能体需要更多信息交换且不确定性更高。比特扰动实验表明意义以分布式而非组合式编码。不同感知世界训练的系统无法直接通信,但有限微调可实现跨系统通信。
  • Conclusion: 涌现通信可作为研究智能体如何适应和跨异构模态传递表示的框架,为理论和实验研究开辟新方向,特别关注分布式编码和跨模态可转移性。

eess.IV

[101] Denoising and Baseline Correction of Low-Scan FTIR Spectra: A Benchmark of Deep Learning Models Against Traditional Signal Processing

Azadeh Mokari,Shravan Raghunathan,Artem Shydliukh,Oleg Ryabchykov,Christoph Krafft,Thomas Bocklitz

Main category: eess.IV

TL;DR: 提出基于物理约束的级联Unet网络,用于FTIR成像的去噪和基线校正,实现32倍加速且消除光谱幻觉

  • Motivation: 传统FTIR成像需要大量信号平均来降低噪声和漂移,严重限制临床速度。现有深度学习方法存在光谱幻觉问题,且难以在不稳定大气条件下泛化。
  • Method: 提出物理信息级联Unet架构,使用确定性物理桥将去噪和基线校正任务分离,嵌入SNIP层强制光谱约束而非学习统计近似。
  • Result: 级联模型相比原始单次扫描输入降低51.3% RMSE,优于单Unet(40.2%)和传统Savitzky-Golay/SNIP工作流(33.7%),消除光谱幻觉并保持峰值强度。
  • Conclusion: 级联Unet是诊断级FTIR成像的稳健解决方案,可实现比现有方法快32倍的成像速度。

[102] Blind Ultrasound Image Enhancement via Self-Supervised Physics-Guided Degradation Modeling

Shujaat Khan,Syed Muhammad Atif,Jaeyoung Huh,Syed Saad Azhar

Main category: eess.IV

TL;DR: 提出一种盲自监督超声图像增强框架,联合去卷积和去噪,无需干净目标图像或已知退化模型,通过物理引导的退化模型训练Swin卷积U-Net

  • Motivation: 超声图像解释受到乘性斑点噪声、点扩散函数引起的采集模糊以及扫描仪和操作员相关伪影的困扰。现有监督增强方法需要干净目标图像或已知退化模型,这些条件在实践中很少满足。
  • Method: 使用Swin卷积U-Net构建盲自监督增强框架,通过物理引导的退化模型训练。从每个训练帧提取旋转/裁剪的补丁,通过高斯PSF代理卷积和添加噪声(空间加性高斯噪声或复杂傅里叶域扰动)合成输入。超声扫描的类干净目标通过非局部低秩去噪获得,无需真实标签;自然图像使用原始图像作为目标。
  • Result: 在UDIAT B、JNU-IFM和XPIE Set-P数据集上训练验证,在700图像的PSFHS测试集上评估,在Gaussian和斑点噪声水平上获得最高的PSNR/SSIM,在强噪声下优势更明显。相比MSANN、Restormer和DnCNN,在强高斯噪声下保持额外~1-4dB PSNR和0.05-0.15 SSIM,在严重斑点噪声下保持~2-5dB PSNR和0.05-0.20 SSIM。PSF研究显示FWHM减小和峰值梯度增加,证明分辨率恢复而不侵蚀边缘。作为即插即用预处理器,持续提升胎儿头部和耻骨联合分割的Dice分数。
  • Conclusion: 该方法提供了一种实用、假设少的鲁棒超声增强路径,能够跨数据集、扫描仪和退化类型泛化,为超声图像处理提供了有效的自监督解决方案。

physics.flu-dyn

[103] Learning Transient Convective Heat Transfer with Geometry Aware World Models

Onur T. Doganay,Alexander Klawonn,Martin Eigel,Hanno Gottschalk

Main category: physics.flu-dyn

TL;DR: 提出一种基于几何感知的世界模型架构,用于学习瞬态物理模拟,通过双重条件机制和通道维度适配,在CFD问题上实现可控的仿真合成。

  • Motivation: PDE模拟在工程和物理中至关重要,但实时应用计算成本高。现有视频生成架构缺乏物理模拟所需的特定控制和数据兼容性,需要专门设计的方法。
  • Method: 基于LongVideoGAN视频生成架构,设计几何感知世界模型:1)双重条件机制(全局物理参数+局部几何掩码);2)支持任意通道维度的架构适配,超越RGB限制。
  • Result: 在2D瞬态CFD问题(浮力驱动流动与固体结构热流耦合)上评估,模型成功复现训练数据的复杂时空动态和空间相关性,并在未见几何配置上展示了泛化能力。
  • Conclusion: 该条件模型在可控仿真合成方面具有潜力,能够学习物理动态,但在分布外样本的空间精度方面仍存在局限性,为物理模拟的AI替代方法提供了有前景的方向。

cs.NI

[104] ViTMAlis: Towards Latency-Critical Mobile Video Analytics with Vision Transformers

Miao Zhang,Guanzhen Wu,Hao Fang,Yifei Zhu,Fangxin Wang,Ruixiao Zhang,Jiangchuan Liu

Main category: cs.NI

TL;DR: ViTMAlis:面向ViT骨干密集预测模型的动态混合分辨率推理框架,通过设备-边缘协同优化传输和推理延迟,显著降低端到端延迟并提升渲染精度。

  • Motivation: 移动视频分析应用正从CNN转向ViT模型以利用其全局上下文建模优势,但ViT在延迟关键场景下面临巨大挑战。传统CNN卸载范式以网络传输为主要瓶颈,而ViT系统则受限于显著的推理延迟,特别是在密集预测任务中,高分辨率输入需求加剧了ViT固有的二次计算复杂度。
  • Method: 提出动态混合分辨率推理策略,针对ViT骨干密集预测模型实现运行时速度与精度的灵活权衡。在此基础上,开发ViTMAlis框架——一个ViT原生的设备到边缘卸载系统,动态适应网络条件和视频内容,联合优化传输和推理延迟。在商用移动和边缘设备上实现了完整功能原型。
  • Result: 与最先进的精度中心、内容感知和延迟自适应基线相比,ViTMAlis显著降低了端到端卸载延迟,同时提升了用户感知的渲染精度,为下一代移动智能提供了实用基础。
  • Conclusion: ViTMAlis通过动态混合分辨率推理和ViT原生设备-边缘协同优化,有效解决了ViT模型在移动视频分析中的延迟挑战,平衡了速度与精度,为实际部署提供了可行方案。

cs.GR

[105] Hybrid Foveated Path Tracing with Peripheral Gaussians for Immersive Anatomy

Constantin Kleinbeck,Luisa Theelke,Hannah Schieber,Ulrich Eck,Rüdiger von Eisenhart-Rothe,Daniel Roth

Main category: cs.GR

TL;DR: 提出混合渲染方法,结合注视点路径追踪与外围高斯泼溅近似,实现高质量交互式医学体数据可视化

  • Motivation: 传统2D切片难以理解空间关系,现有3D渲染方法要么计算昂贵(路径追踪),要么需要预计算(高斯泼溅),限制了交互使用
  • Method: 结合流式注视点路径追踪与轻量级高斯泼溅外围近似,利用体数据优化外围模型生成,通过注视点渲染持续精炼,深度引导重投影提高延迟鲁棒性
  • Result: 相比直接路径追踪和高斯泼溅,混合方法在保持视觉质量的同时,能在1秒内重新生成外围模型,无需大量预处理和近似
  • Conclusion: 混合渲染方法为交互式医学可视化提供了新选择,结合了两种技术的优势

[106] JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion

Anthony Chen,Naomi Ken Korem,Tavi Halperin,Matan Ben Yosef,Urska Jelercic,Ofir Bibi,Or Patashnik,Daniel Cohen-Or

Main category: cs.GR

TL;DR: 提出一种基于音频-视觉基础模型的视频配音方法,通过轻量级LoRA适配,实现单模型同时生成翻译音频和同步面部动作

  • Motivation: 现有视频配音方案依赖复杂、任务特定的流程,在真实场景中表现不佳,而音频-视觉基础模型为多模态生成提供了新机会
  • Method: 使用轻量级LoRA适配音频-视频扩散基础模型,利用模型自身生成多语言配对视频进行训练,通过语言切换和修复技术创建训练数据
  • Result: 相比现有配音流程,该方法能生成更高质量的视频配音,在视觉保真度、唇部同步和鲁棒性方面表现更优
  • Conclusion: 通过利用音频-视觉基础模型的生成先验,实现了保留说话者身份和唇部同步的鲁棒视频配音,为下游任务提供了新方案

cs.RO

[107] InspecSafe-V1: A Multimodal Benchmark for Safety Assessment in Industrial Inspection Scenarios

Zeyi Liu,Shuang Liu,Jihai Min,Zhaoheng Zhang,Jun Cen,Pengyu Han,Songqiao Hu,Zihan Meng,Xiao He,Donghua Zhou

Main category: cs.RO

TL;DR: InspecSafe-V1是首个用于工业巡检安全评估的多模态基准数据集,包含真实工业场景下的多传感器数据、像素级分割标注和安全等级标签。

  • Motivation: 工业智能化和无人巡检快速发展,但现有数据集多为模拟数据、单模态感知或缺乏细粒度标注,限制了工业基础模型的鲁棒场景理解和多模态安全推理能力。
  • Method: 从真实巡检机器人的日常操作中收集数据,覆盖隧道、电力设施、烧结设备、石油化工、煤炭输送栈桥等5个工业场景,包含41台轮式和轨道式巡检机器人在2239个有效巡检点采集的5013个巡检实例,提供像素级分割标注、语义场景描述和安全等级标签,并包含7种同步传感模态。
  • Result: 发布了InspecSafe-V1数据集,包含可见光图像、红外视频、音频、深度点云、雷达点云、气体测量、温度、湿度等7种同步传感模态,支持多模态异常识别、跨模态融合和综合安全评估。
  • Conclusion: InspecSafe-V1填补了工业巡检安全评估领域真实多模态基准数据集的空白,为工业基础模型的发展提供了重要支持,能够促进多模态异常识别、跨模态融合和综合安全评估的研究与应用。

[108] 4D-CAAL: 4D Radar-Camera Calibration and Auto-Labeling for Autonomous Driving

Shanliang Yao,Zhuoxiao Li,Runwei Guan,Kebin Cao,Meng Xia,Fuping Hu,Sen Xu,Yong Yue,Xiaohui Zhu,Weiping Ding,Ryan Wen Liu

Main category: cs.RO

TL;DR: 4D-CAAL:一个统一的4D雷达-相机标定与自动标注框架,通过双用途标定目标和多特征优化,解决自动驾驶中多模态感知系统的标定和标注难题。

  • Motivation: 4D雷达在自动驾驶中日益重要,但现有标定方法使用分离的目标,难以建立对应关系;同时,稀疏雷达数据的手动标注既费时又不可靠,阻碍了多模态感知系统的发展。
  • Method: 提出双用途标定目标设计(正面棋盘格用于相机检测,背面中心角反射器用于雷达检测),开发鲁棒的对应匹配算法,以及基于几何投影和多特征优化的自动标注流程。
  • Result: 实验表明,该方法实现了高精度标定,同时显著减少了手动标注工作量,加速了自动驾驶多模态感知系统的开发。
  • Conclusion: 4D-CAAL框架有效解决了4D雷达-相机标定和自动标注的挑战,为自动驾驶多模态感知系统提供了实用且高效的解决方案。

[109] From Instruction to Event: Sound-Triggered Mobile Manipulation

Hao Ju,Shaofei Huang,Hongyu Li,Zihan Ding,Si Liu,Meng Wang,Zhedong Zheng

Main category: cs.RO

TL;DR: 提出声音触发的移动操作新范式,让机器人主动感知声音源并执行操作,无需显式指令,提升自主性

  • Motivation: 当前移动操作研究主要依赖预定义文本指令,限制了机器人的自主性和对动态环境事件的响应能力
  • Method: 开发Habitat-Echo数据平台(集成声学渲染与物理交互),提出包含高层任务规划和低层策略模型的基线方法
  • Result: 实验表明该方法能让机器人主动检测和响应听觉事件,无需逐案例指令;在双声源场景中能成功隔离主声源并操作次要对象
  • Conclusion: 声音触发移动操作能提升机器人自主性,Habitat-Echo平台和基线方法为这一新范式提供了有效支持

[110] DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

Haozhe Xie,Beichen Wen,Jiarui Zheng,Zhaoxi Chen,Fangzhou Hong,Haiwen Diao,Ziwei Liu

Main category: cs.RO

TL;DR: DynamicVLA是一个用于动态物体操作的VLA框架,通过紧凑模型架构、连续推理和潜在感知动作流三大设计,解决了现有VLA模型在动态场景中的局限性,并在新构建的DOM基准上取得了显著性能提升。

  • Motivation: 现有视觉-语言-动作(VLA)模型在静态操作中表现出色,但在需要快速感知、时间预测和连续控制的动态物体操作场景中表现不佳,这构成了一个开放挑战。
  • Method: 1) 紧凑的0.4B VLA模型,使用卷积视觉编码器实现空间高效、结构忠实的编码;2) 连续推理机制,允许推理和执行重叠以降低延迟;3) 潜在感知动作流,通过强制时间对齐的动作执行来弥合感知-执行差距。同时构建了DOM基准数据集。
  • Result: 在响应速度、感知能力和泛化性能方面取得了显著改进,使DynamicVLA成为跨实现平台的通用动态物体操作统一框架。
  • Conclusion: DynamicVLA通过整合时间推理和闭环适应,成功解决了VLA模型在动态物体操作中的挑战,为通用动态操作提供了一个有效的统一框架。

cs.AI

[111] Drive-KD: Multi-Teacher Distillation for VLMs in Autonomous Driving

Weitong Lian,Zecong Tang,Haoran Li,Tianjian Gao,Yifei Wang,Zixu Wang,Lingyi Meng,Tengju Ru,Zhejun Cui,Yichen Zhu,Hangshuo Cao,Qi Kang,Tianxing Chen,Yusen Qin,Kaixuan Wang,Yu Zhang

Main category: cs.AI

TL;DR: Drive-KD:通过知识蒸馏将自动驾驶分解为感知-推理-规划三元组,使用层特定注意力作为蒸馏信号,构建单教师和多教师蒸馏框架,显著提升小模型性能。

  • Motivation: 自动驾驶是安全关键任务,现有大模型(LLMs/VLMs)需要大量GPU内存和高推理延迟,而传统监督微调难以弥补小模型能力差距,需要更高效的解决方案。
  • Method: 将自动驾驶分解为感知、推理、规划三个能力维度;使用层特定注意力作为蒸馏信号构建单教师模型;统一为多教师蒸馏框架,引入非对称梯度投影缓解跨能力梯度冲突。
  • Result: 蒸馏后的InternVL3-1B模型比同系列78B预训练模型节省42倍GPU内存,吞吐量提升11.4倍,在DriveBench上整体性能更好,规划维度超越GPT-5.1。
  • Conclusion: Drive-KD框架通过知识蒸馏有效提升小模型在自动驾驶任务中的性能,为高效自动驾驶视觉语言模型提供了可行路径,实现了性能与效率的良好平衡。

[112] SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

Ahmed Y. Radwan,Christos Emmanouilidis,Hina Tabassum,Deval Pandya,Shaina Raza

Main category: cs.AI

TL;DR: SONIC-O1是一个全面的人工验证基准测试,用于评估多模态大语言模型在13个真实世界对话领域中的表现,重点关注时序定位和社会鲁棒性。

  • Motivation: 当前多模态大语言模型研究主要集中在静态图像理解,而对处理时序音频-视频数据的能力研究不足,需要高质量基准测试来系统评估模型在真实场景中的表现。
  • Method: 构建了包含4,958个标注和人口统计元数据的SONIC-O1基准测试,涵盖13个真实世界对话领域,评估任务包括开放式摘要、多项选择题回答和带推理的时序定位。
  • Result: 实验显示闭源和开源模型在多项选择题准确率上差距较小,但在时序定位任务上存在22.6%的显著性能差异。模型在不同人口统计群体上的性能进一步下降,表明存在持续的行为差异。
  • Conclusion: SONIC-O1为时序基础和社会鲁棒的多模态理解提供了开放评估套件,揭示了当前模型的局限性,特别是时序理解和公平性方面的不足,为未来研究提供了重要基准。

[113] Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

Grzegorz Stefanski,Alberto Presta,Michal Byra

Main category: cs.AI

TL;DR: RTL提出自适应剪枝框架,发现多个针对不同数据类别/语义簇/环境条件的专门子网络,相比单一模型和独立多模型在准确率和召回率上表现更好,参数减少10倍,并能诊断过度剪枝问题。

  • Motivation: 现有彩票假设方法假设存在适用于所有输入的单一通用"中奖彩票",忽略了真实世界数据的异质性。需要开发能够适应数据多样性的剪枝方法。
  • Method: 提出Routing the Lottery (RTL)自适应剪枝框架,发现多个专门子网络(自适应彩票),每个子网络针对特定类别、语义簇或环境条件进行优化。
  • Result: 在多种数据集和任务上,RTL在平衡准确率和召回率上持续优于单模型和多模型基线,参数使用比独立模型少10倍,且表现出语义对齐。还发现了子网络崩溃现象并提出了诊断方法。
  • Conclusion: 将剪枝重新定义为对齐模型结构与数据异质性的机制,为更模块化和上下文感知的深度学习铺平道路。

cs.CR

Lingxiao Chen,Liqin Wang,Wei Lu,Xiangyang Luo

Main category: cs.CR

TL;DR: TrajPrint是一种无损、无需训练的扩散模型版权保护框架,通过提取确定性生成过程中形成的独特流形指纹来验证模型版权,支持黑盒API场景。

  • Motivation: 扩散模型作为高价值知识产权面临未经授权复制的风险。现有保护方法要么通过修改模型嵌入水印损害性能,要么通过操纵去噪过程提取模型指纹,无法兼容黑盒API。
  • Method: 1) 使用水印图像作为锚点,精确追溯其轨迹起源,锁定由该路径映射的模型指纹;2) 采用双端锚定联合优化策略合成特定指纹噪声,严格遵循目标流形以实现鲁棒水印恢复;3) 通过原子推理和统计假设检验进行验证。
  • Result: 实验表明TrajPrint在黑盒API场景中实现无损验证,对模型修改具有优越的鲁棒性,目标模型能恢复水印图像而非目标模型则失败。
  • Conclusion: TrajPrint提供了一种完全无损且无需训练的扩散模型版权保护框架,通过提取独特的流形指纹实现黑盒API兼容的版权验证,解决了现有方法的性能损害和API不兼容问题。

[115] On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression

Xinwei Zhang,Hangcheng Liu,Li Bai,Hao Wang,Qingqing Ye,Tianwei Zhang,Haibo Hu

Main category: cs.CR

TL;DR: 现有视觉token压缩方法加速大视觉语言模型,但其对抗鲁棒性未被充分研究。本文提出CAGE攻击方法,通过特征扰动和秩失真对齐,在压缩机制下更准确地评估模型鲁棒性。

  • Motivation: 现有基于编码器的攻击方法会高估压缩后LVLMs的鲁棒性,因为存在优化-推理不匹配问题:扰动在完整token表示上优化,而推理通过token压缩瓶颈进行。
  • Method: 提出CAGE攻击方法,包含两个核心组件:(1) 预期特征扰动:将失真集中在可能在不同预算下存活的token上;(2) 秩失真对齐:主动将token失真与秩分数对齐,促进高度失真证据的保留。
  • Result: 在多种代表性的即插即用压缩机制和数据集上,CAGE始终比基线方法获得更低的鲁棒准确率,表明忽略压缩的鲁棒性评估可能过于乐观。
  • Conclusion: 这项工作强调忽略压缩的鲁棒性评估可能过于乐观,呼吁对高效LVLMs进行压缩感知的安全评估和防御。