Skip to content
每日arXiv - 2025年10月6日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Exploring OCR-augmented Generation for Bilingual VQA

JoonHo Lee,Sunho Park

Main category: cs.CV

TL;DR: 该论文研究了OCR增强的视觉语言模型生成,开发了双语OCR基线KLOCR,并创建了韩语VQA基准KOCRBench,实验表明OCR提取的文本能显著提升模型性能。

  • Motivation: 探索视觉语言模型在OCR增强生成方面的应用,特别是在韩语和英语的双语环境下,以支持多语言研究。
  • Method: 训练了KLOCR双语OCR基线模型(基于100M实例),创建了KOCRBench韩语VQA基准,并分析了不同的提示方法。
  • Result: 广泛的实验表明,OCR提取的文本显著提升了开源和商业模型的性能。
  • Conclusion: 该工作为双语VQA的OCR增强生成提供了新的见解,并发布了模型、代码和数据。

[2] Oracle-RLAIF: An Improved Fine-Tuning Framework for Multi-modal Video Models through Reinforcement Learning from Ranking Feedback

Derek Shi,Ruben Glatt,Christine Klymko,Shubham Mohole,Hongjun Choi,Shashank Kushwaha,Sam Sakla,Felipe Leno da Silva

Main category: cs.CV

TL;DR: Oracle-RLAIF是一种新的强化学习框架,用通用Oracle排序器替代训练好的奖励模型,通过基于排名的损失函数优化视频理解模型,在多个基准测试中优于现有方法。

  • Motivation: 随着视频语言模型参数规模扩大,收集人类反馈的成本急剧增加。现有的AI反馈方法依赖专门的奖励模型,这种流程昂贵且限制性强。
  • Method: 提出Oracle-RLAIF框架,用Oracle排序器替代传统奖励模型,并引入基于排名的GRPO_rank损失函数,直接优化顺序反馈。
  • Result: 实验证明Oracle-RLAIF在各种视频理解基准测试中持续优于领先的视频语言模型。
  • Conclusion: Oracle-RLAIF为创建灵活且数据高效的大型多模态视频模型对齐框架开辟了新路径,基于排名而非分数的强化学习。

[3] PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction

Qiao Feng,Yiming Huang,Yufu Wang,Jiatao Gu,Lingjie Liu

Main category: cs.CV

TL;DR: PhysHMR是一个统一框架,直接从单目视频学习视觉到动作的策略来控制物理模拟器中的人体模型,实现物理合理且与输入视频视觉对齐的运动重建。

  • Motivation: 现有方法主要关注基于运动学的姿态估计,缺乏物理约束导致不真实的结果。传统两阶段设计(运动学估计+物理后处理)会引入误差累积,限制重建质量。
  • Method: 提出像素作为射线的策略,将2D关键点提升为3D空间射线并转换到全局空间;结合预训练编码器的局部视觉特征;使用蒸馏方案从动作捕捉训练的专家转移运动知识,并通过物理激励的强化学习奖励进行精炼。
  • Result: PhysHMR在多样化场景中产生高保真、物理合理的运动,在视觉准确性和物理真实感方面均优于先前方法。
  • Conclusion: PhysHMR通过统一的视觉到动作学习框架,实现了物理基础和视觉对齐的运动重建,解决了传统两阶段方法的误差累积问题。

[4] Unlocking the power of partnership: How humans and machines can work together to improve face recognition

P. Jonathon Phillips,Geraldine Jeckeln,Carina A. Hahn,Amy N. Yates,Peter C. Fontana,Alice J. O'Toole

Main category: cs.CV

TL;DR: 本研究探讨了人机协作在面部识别中的效果,发现当人类和机器基线准确率差异较小时,协作能提升准确率。通过近端准确率规则(PAR)确定了关键融合区域,并实现了智能人机融合,比单独使用机器或简单融合更准确。

  • Motivation: 研究人机协作面部识别系统的准确率提升条件,探索如何有效结合人类和机器的优势来提高识别准确率。
  • Method: 使用专家和非专家面部识别者的数据,分析人-人和人-机协作效果,应用近端准确率规则(PAR)建立关键融合区域,实施智能人机融合策略。
  • Result: 发现协作效益随协作者基线准确率差异减小而增加;确定了较大的关键融合区域;智能人机融合比单独机器或简单融合更准确;图论找到全人系统的最佳性能接近智能人机协作平均水平。
  • Conclusion: 人机协作在面部识别中具有重要价值,智能融合能有效提升系统准确率并减少低性能人类的影响,为AI在面部识别中的智能应用提供了基于证据的路线图。

[5] How Confident are Video Models? Empowering Video Models to Express their Uncertainty

Zhiting Mei,Ola Shorinwa,Anirudha Majumdar

Main category: cs.CV

TL;DR: 本文提出了首个针对生成式视频模型的不确定性量化框架S-QUBED,通过潜在空间建模将预测不确定性分解为偶然性和认知性成分,并建立了视频模型校准评估指标和基准数据集。

  • Motivation: 生成式视频模型存在幻觉问题,会产生看似合理但事实错误的视频,但目前缺乏视频模型的不确定性量化方法,这带来了严重的安全隐患。
  • Method: 提出了包含三个组件的框架:(i)基于稳健秩相关估计的视频模型校准评估指标;(ii)黑盒不确定性量化方法S-QUBED,通过潜在建模将不确定性分解为偶然性和认知性成分;(iii)用于基准测试的不确定性量化数据集。
  • Result: 在基准视频数据集上的实验表明,S-QUBED能够计算校准的总不确定性估计,与任务准确度呈负相关,并能有效计算偶然性和认知性不确定性成分。
  • Conclusion: 这是首个针对生成式视频模型的不确定性量化工作,提出的S-QUBED框架能够可靠地量化视频模型的不确定性,为视频生成系统的安全部署提供了重要工具。

[6] PEO: Training-Free Aesthetic Quality Enhancement in Pre-Trained Text-to-Image Diffusion Models with Prompt Embedding Optimization

Hovhannes Margaryan,Bo Wan,Tinne Tuytelaars

Main category: cs.CV

TL;DR: 提出了Prompt Embedding Optimization (PEO)方法,通过优化文本嵌入来提升预训练文本到图像扩散模型的美学质量,无需额外训练且与主干模型无关。

  • Motivation: 针对预训练文本到图像扩散模型在简单提示词下生成图像美学质量不足的问题,旨在通过优化文本嵌入来提升生成图像的美学效果。
  • Method: 采用三分目标函数:提升生成图像的美学保真度、确保与优化后文本嵌入的一致性、通过提示词保留项最小化与初始提示词的差异。该方法无需训练且与主干模型无关。
  • Result: 定量和定性评估证实了该方法的有效性,在性能上超过或等同于最先进的文本到图像和提示词适应方法。
  • Conclusion: PEO方法能够有效提升预训练扩散模型在简单提示词下的美学质量,具有训练无关性和主干模型无关性的优势。

[7] Ego-Exo 3D Hand Tracking in the Wild with a Mobile Multi-Camera Rig

Patrick Rim,Kun He,Kevin Harris,Braden Copple,Shangchen Han,Sizhe An,Ivan Shugurov,Tomas Hodan,He Wen,Xu Xie

Main category: cs.CV

TL;DR: 提出了一种新型无标记多摄像头系统,用于在野外条件下精确捕捉3D手部与物体的交互,解决了现有数据集在受控实验室环境中采集的限制问题。

  • Motivation: 现有手部跟踪数据集主要在受控实验室环境中采集,缺乏环境多样性,限制了模型的泛化能力。需要开发能够在真实野外条件下精确跟踪手部交互的方法。
  • Method: 设计轻量级背戴式捕捉装置,包含8个外中心摄像头和Meta Quest 3头显提供的2个自我中心视角。开发了自我-外中心跟踪流程来生成准确的3D手部姿态真值。
  • Result: 收集了包含同步多视角图像和精确3D手部姿态的标注数据集,显著降低了环境真实性与3D标注准确性之间的权衡。
  • Conclusion: 该方法能够在真实野外条件下实现精确的3D手部跟踪,为无约束环境中的手部交互研究提供了高质量的数据支持。

[8] Input-Aware Sparse Attention for Real-Time Co-Speech Video Generation

Beijia Lu,Ziyi Chen,Jing Xiao,Jun-Yan Zhu

Main category: cs.CV

TL;DR: 提出了一种基于输入人体姿态条件的视频蒸馏方法,将多步扩散模型蒸馏为少步学生模型,实现实时语音驱动视频生成。

  • Motivation: 现有基于扩散模型的语音驱动视频生成方法由于需要大量去噪步骤和昂贵的注意力机制,速度慢且无法实时部署。
  • Method: 使用输入人体姿态关键点对应关系来指导注意力机制,提出输入感知稀疏注意力减少冗余计算;引入输入感知蒸馏损失函数提升唇部同步和手部运动真实性。
  • Result: 方法实现了实时性能,相比现有音频驱动和输入驱动方法具有更好的视觉质量。
  • Conclusion: 通过输入感知稀疏注意力和蒸馏损失的结合,在保持高质量的同时显著提升了推理效率。

[9] Deep Generative Continual Learning using Functional LoRA: FunLoRA

Victor Enescu,Hichem Sahbi

Main category: cs.CV

TL;DR: 提出FunLoRA方法,使用秩1矩阵和函数重参数化来增强生成模型的表达能力,解决持续学习中的灾难性遗忘问题,只需在当前任务数据上训练即可避免遗忘。

  • Motivation: 深度生成模型的持续适应具有巨大潜力,但增量训练面临灾难性遗忘问题。现有方法依赖合成数据进行再训练,存在训练时间不断增加和合成数据质量不足导致性能下降的问题。
  • Method: 设计基于LoRA的新型条件机制FunLoRA,专门使用秩1矩阵,通过精心选择的函数进行重参数化来功能性地增加矩阵秩,实现动态条件调节。
  • Result: 基于流匹配模型的实验表明,FunLoRA在分类准确率上超越了基于扩散模型的现有最佳方法,同时只需要一小部分内存成本和采样时间。
  • Conclusion: FunLoRA是一种参数高效微调方法,能够有效避免灾难性遗忘,在持续学习任务中表现出色,具有更高的准确率和更低的计算成本。

[10] Sequence-Preserving Dual-FoV Defense for Traffic Sign and Light Recognition in Autonomous Vehicles

Abhishek Joshi,Jahnavi Krishna Koda,Abhishek Phadke

Main category: cs.CV

TL;DR: 提出了一个双视野、序列保持的鲁棒性框架,用于美国交通灯和标志识别,结合特征压缩、防御性蒸馏和基于熵的异常检测,显著降低了攻击成功率和高风险误分类。

  • Motivation: 自动驾驶车辆中交通灯和标志识别错误直接影响导航和安全,现有方法缺乏对时间连续性、多静态视野感知以及数字和自然退化鲁棒性的考虑。
  • Method: 基于多源数据集构建双视野框架,采用三层防御堆栈(特征压缩、防御性蒸馏、熵基异常检测)和序列时间投票,在四种操作设计域中进行评估。
  • Result: 统一防御堆栈达到79.8mAP,将攻击成功率降至18.2%,优于YOLOv8、YOLOv9和BEVFormer,同时将高风险误分类降至32%。
  • Conclusion: 该框架显著提升了交通灯和标志识别的鲁棒性,有效应对数字和自然扰动,为自动驾驶安全提供了可靠解决方案。

[11] Smart-GRPO: Smartly Sampling Noise for Efficient RL of Flow-Matching Models

Benjamin Yu,Jackie Liu,Justin Cui

Main category: cs.CV

TL;DR: Smart-GRPO是首个针对流匹配模型中强化学习的噪声扰动优化方法,通过迭代搜索策略改进噪声分布,提升奖励优化和视觉质量。

  • Motivation: 流匹配模型的确定性特性使其不适合强化学习,而现有通过随机噪声扰动引入随机性的方法效率低下且不稳定。
  • Method: 采用迭代搜索策略:解码候选扰动、用奖励函数评估、向高奖励区域优化噪声分布。
  • Result: 实验表明Smart-GRPO在奖励优化和视觉质量方面均优于基线方法。
  • Conclusion: 为流匹配框架中的强化学习提供了实用路径,弥合了高效训练与人类对齐生成之间的差距。

[12] FSFSplatter: Build Surface and Novel Views with Sparse-Views within 3min

Yibin Zhao,Yihan Pan,Jun Nan,Jianjun Yi

Main category: cs.CV

TL;DR: FSFSplatter是一种从自由稀疏图像进行快速表面重建的新方法,通过端到端密集高斯初始化、相机参数估计和几何增强场景优化,解决了传统方法需要密集校准视图的问题。

  • Motivation: 现有高斯溅射方法大多需要密集、校准的视图,而从自由稀疏图像重建往往由于有限重叠和过拟合导致表面质量差。
  • Method: 使用大型Transformer编码多视图图像,通过自分割高斯头生成密集且几何一致的高斯场景初始化;采用基于贡献的剪枝消除局部浮点,在快速优化期间利用深度和多视图特征监督与可微分相机参数缓解过拟合。
  • Result: FSFSplatter在广泛使用的DTU和Replica数据集上优于当前最先进方法。
  • Conclusion: 该方法能够从自由稀疏图像实现高质量的表面重建,解决了传统方法的局限性。

[13] MoGIC: Boosting Motion Generation via Intention Understanding and Visual Context

Junyu Shi,Yong Sun,Zhiyuan Zhang,Lijiang Liu,Zhengjie Zhang,Yuxin He,Qiang Nie

Main category: cs.CV

TL;DR: MoGIC是一个统一的多模态运动生成框架,通过整合意图建模和视觉先验,解决了现有方法在捕捉动作执行因果逻辑和人类意图方面的局限性。

  • Motivation: 现有文本驱动运动生成方法将合成视为语言和运动之间的双向映射,但难以捕捉动作执行的因果逻辑和驱动行为的人类意图。缺乏视觉基础进一步限制了精度和个性化。
  • Method: 提出MoGIC框架,通过联合优化多模态条件运动生成和意图预测,揭示潜在人类目标,利用视觉先验增强生成能力。引入具有自适应范围的混合注意力机制,实现条件标记与运动子序列的有效局部对齐。
  • Result: 微调后,MoGIC在HumanML3D上FID降低38.6%,在Mo440H上降低34.6%。在运动字幕生成方面超越基于LLM的方法,并支持意图预测和视觉条件生成。
  • Conclusion: MoGIC推进了可控运动合成和意图理解,展示了多模态生成能力,并通过Mo440H基准数据集支持该范式。

[14] From Tokens to Nodes: Semantic-Guided Motion Control for Dynamic 3D Gaussian Splatting

Jianing Chen,Zehao Li,Yujun Cai,Hao Jiang,Shuqin Gao,Honglong Zhao,Tianlu Mao,Yucheng Zhang

Main category: cs.CV

TL;DR: 提出了一种基于运动自适应的3D重建框架,通过语义和运动先验将控制点密度与运动复杂度对齐,使用样条轨迹参数化取代MLP变形场,显著提升了动态场景重建质量和效率。

  • Motivation: 现有稀疏控制方法存在控制点分配与运动复杂度不匹配的问题:静态区域冗余,动态区域不足。需要解决几何分配导致的静态冗余和动态不足问题。
  • Method: 利用视觉基础模型的语义和运动先验建立patch-token-node对应关系,应用运动自适应压缩在动态区域集中控制点,通过迭代体素化和运动趋势评分实现表示密度自适应,使用基于2D轨迹初始化的样条轨迹参数化。
  • Result: 在重建质量和效率方面相比现有最先进方法有显著提升。
  • Conclusion: 提出的运动自适应框架通过将控制密度与运动复杂度对齐,有效解决了控制点分配不匹配问题,样条轨迹参数化实现了更平滑的运动表示和更稳定的优化。

[15] Net2Net: When Un-trained Meets Pre-trained Networks for Robust Real-World Denoising

Weimin Yuan,Cai Meng

Main category: cs.CV

TL;DR: Net2Net是一种结合无监督DIP网络和预训练DRUNet网络的混合去噪方法,通过RED正则化实现真实世界噪声去除,无需大量标注数据且能适应不同噪声模式。

  • Motivation: 传统去噪方法依赖手工先验,难以处理复杂真实噪声;深度学习需要大量标注数据且泛化性有限。需要一种能结合两者优势、适应各种噪声且数据需求少的方法。
  • Method: 结合无监督DIP网络(适应输入图像独特噪声)和预训练DRUNet网络(利用大规模数据集学习表示),通过RED正则化实现混合框架。
  • Result: 在基准数据集上的广泛实验表明,该方法在真实世界噪声去除方面表现优越,特别是在训练数据有限的情况下。
  • Conclusion: Net2Net通过结合无监督和预训练网络的优势,有效解决了真实世界噪声去除的挑战,提高了泛化能力和性能。

[16] Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval

Lanyun Zhu,Deyi Ji,Tianrun Chen,Haiyang Wu,Shiqi Wang

Main category: cs.CV

TL;DR: Retrv-R1是首个专为多模态通用检索设计的R1风格MLLM,通过逐步推理提高检索准确性,解决了DeepSeek-R1直接应用于检索任务时的高计算成本和训练不稳定性问题。

  • Motivation: DeepSeek-R1展示了RL增强LLM推理能力的巨大潜力,但直接应用于检索任务不可行,主要因为多候选推理过程导致的高计算成本,以及RL训练检索任务时的不稳定性和次优结果。
  • Method: 引入信息压缩模块和细节检查机制减少token数量同时保留关键信息;提出新训练范式,包括使用检索定制合成CoT数据集的激活阶段,以及采用课程奖励的RL训练。
  • Result: Retrv-R1在多个基准测试和任务中实现了SOTA性能、高效率和强泛化能力。
  • Conclusion: Retrv-R1通过创新的信息压缩和训练范式设计,成功解决了多模态检索中的计算效率和训练稳定性问题,为RL在检索任务中的应用提供了有效解决方案。

[17] Bayesian Test-time Adaptation for Object Recognition and Detection with Vision-language Models

Lihua Zhou,Mao Ye,Shuaifeng Li,Nianxin Li,Jinlin Wu,Xiatian Zhu,Lei Deng,Hongbin Liu,Jiebo Luo,Zhen Lei

Main category: cs.CV

TL;DR: BCA+是一个无需训练、无需反向传播的测试时自适应框架,通过动态缓存机制结合贝叶斯推理,同时适应对象识别和检测任务中的语义理解和上下文置信度。

  • Motivation: 现有的测试时自适应方法要么计算成本高,要么只关注似然适应而忽略了先验的重要性。BCA+旨在解决这些问题,为对象识别和检测提供统一的高效自适应框架。
  • Method: 引入动态缓存机制,自适应存储和更新类别嵌入、空间尺度以及基于历史预测的自适应类别先验。将自适应建模为贝叶斯推理问题,通过融合初始VLM输出和基于缓存的预测来生成最终预测。
  • Result: 在识别和检测基准测试中实现了最先进的性能,同时保持了高效率。
  • Conclusion: BCA+通过双自适应机制和不确定性引导的融合,成功纠正了模型的语义理解和上下文置信度,为视觉语言模型在真实世界分布偏移下的应用提供了有效的测试时自适应解决方案。

[18] Hierarchical Generalized Category Discovery for Brain Tumor Classification in Digital Pathology

Matthias Perkonigg,Patrick Rockenschaub,Georg Göbel,Adelheid Wöhrer

Main category: cs.CV

TL;DR: 提出了一种用于脑肿瘤分类的层次化广义类别发现方法(HGCD-BT),通过结合层次聚类和对比学习,能够识别训练时未见过的肿瘤类别。

  • Motivation: 现有脑肿瘤分类方法局限于预定义类别,无法识别训练时未见的肿瘤类型。广义类别发现(GCD)虽然能识别已知和未知类别,但缺乏对脑肿瘤层次化分类结构的考虑。
  • Method: 将层次聚类与对比学习相结合,在对比学习GCD基础上引入半监督层次聚类损失函数,构建层次化广义类别发现框架。
  • Result: 在OpenSRH数据集上,相比最先进的GCD方法,在图像块分类准确率上提升28%,特别是在识别未见肿瘤类别方面表现优异。在数字脑肿瘤图谱的HE染色全玻片图像分类中也验证了方法的通用性。
  • Conclusion: HGCD-BT方法能有效识别已知和未知的脑肿瘤类别,考虑了肿瘤分类的层次结构,在不同成像模态中都具有良好的通用性。

[19] AdaRD-key: Adaptive Relevance-Diversity Keyframe Sampling for Long-form Video understanding

Xian Zhang,Zexi Wu,Zinuo Li,Hongming Xu,Luqi Gong,Farid Boussaid,Naoufel Werghi,Mohammed Bennamoun

Main category: cs.CV

TL;DR: AdaRD-Key是一种无需训练的关键帧采样模块,通过统一的相关性-多样性最大体积目标,为长视频理解选择信息丰富且非冗余的关键帧。

  • Motivation: 现有方法在长视频理解中存在不足:均匀采样会忽略关键时刻,基于时间间隔的方法会错过精细线索,而强调视觉多样性的方法又忽视了查询相关性。
  • Method: 提出RD-MV目标函数,结合查询条件相关性评分和对数行列式多样性组件,并使用轻量级相关性感知门控机制处理弱对齐查询。
  • Result: 在LongVideoBench和Video-MME上的广泛实验表明,该方法在长视频上实现了最先进的性能,特别是在长视频上表现优异。
  • Conclusion: AdaRD-Key是一种无需训练、计算高效且与现有VLMs兼容的即插即用解决方案,显著提升了长视频理解能力。

[20] Reasoning Riddles: How Explainability Reveals Cognitive Limits in Vision-Language Models

Prahitha Movva

Main category: cs.CV

TL;DR: 本文通过可解释性分析研究视觉语言模型在复杂横向思维挑战(如字谜谜题)中的认知过程,揭示了模型在视觉组合方面的优势和在缺失解释、文化象征方面的根本局限性。

  • Motivation: 虽然视觉语言模型在多模态任务中表现出色,但其在复杂横向思维挑战(如字谜谜题)中的认知过程仍不透明。现有研究表明这些模型在解决字谜谜题时表现不佳,但其推理过程和失败模式尚未得到充分探索。
  • Method: 研究贡献了一个包含221个字谜谜题的系统标注数据集,涵盖六个认知类别,并提出了一个将推理质量与答案正确性分离的评估框架。调查了三种提示策略,旨在引发不同类型的解释过程。
  • Result: 研究发现推理质量在不同谜题类别间差异显著,模型在视觉组合方面表现出系统性优势,但在缺失解释和文化象征方面存在根本局限性。提示策略对认知方法和问题解决效果有显著影响。
  • Conclusion: 可解释性应被视为模型性能的组成部分,而非事后考虑。研究建立了可解释性作为模型性能评估的重要维度。

[21] OTR: Synthesizing Overlay Text Dataset for Text Removal

Jan Zdenek,Wataru Shimoda,Kota Yamaguchi

Main category: cs.CV

TL;DR: 提出了一种合成文本去除基准数据集的方法,适用于场景文本以外的领域,解决了现有数据集的局限性。

  • Motivation: 现有文本去除研究主要关注自然图像中的场景文本,但当前数据集存在领域泛化能力差、评估不准确的问题,特别是SCUT-EnsText等基准存在人工编辑造成的地面实况伪影、文本背景过于简单等缺陷。
  • Method: 通过对象感知布局和视觉语言模型生成内容,在复杂背景上渲染文本来合成文本去除基准数据集,确保干净的地面实况和具有挑战性的文本去除场景。
  • Result: 创建了一个适用于场景文本以外领域的文本去除基准数据集,该数据集可在HuggingFace上获取。
  • Conclusion: 提出的方法能够生成具有复杂背景和干净地面实况的文本去除基准,解决了现有数据集的局限性,为文本去除任务提供了更好的评估工具。

[22] Align Your Query: Representation Alignment for Multimodality Medical Object Detection

Ara Seo,Bryan Sangwoo Kim,Hyungjin Chung,Jong Chul Ye

Main category: cs.CV

TL;DR: 提出了一种用于多模态医学目标检测的表示对齐方法,通过模态令牌和查询表示对齐来改善混合模态训练的效果。

  • Motivation: 解决单一检测器在混合医学模态(如CXR、CT、MRI)上训练时,由于统计异质性和表示空间不连续导致的性能下降问题。
  • Method: 使用模态令牌编码成像模态信息,通过多模态上下文注意力(MoCA)在查询集中传播模态上下文,并引入QueryREPA预训练阶段通过对比学习对齐查询表示。
  • Result: 该方法在多种模态联合训练时能持续提升AP性能,且开销极小,无需架构修改。
  • Conclusion: 提供了一种实用的多模态医学目标检测解决方案,通过表示对齐技术有效提升检测性能。

[23] MaskCD: Mitigating LVLM Hallucinations by Image Head Masked Contrastive Decoding

Jingyuan Deng,Yujiu Yang

Main category: cs.CV

TL;DR: 提出了一种名为MaskCD的方法,通过掩码LVLMs中的图像头来构建对比样本,有效缓解大视觉语言模型的幻觉问题,同时保持模型的通用能力。

  • Motivation: 大视觉语言模型在视觉语言理解方面表现出色,但存在幻觉问题,即生成与输入视觉和文本内容相矛盾的内容。现有的对比解码方法难以构建合适的对比样本,注意力操作方法缺乏稳定性。
  • Method: 提出图像头掩码对比解码(MaskCD),利用LVLMs中的图像头,通过掩码这些头来构建对比样本进行对比解码。
  • Result: 在LLaVA-1.5-7b和Qwen-VL-7b上的评估显示,MaskCD有效缓解了幻觉现象,并在CHAIR、POPE、AMBER和MME等基准测试中表现良好。
  • Conclusion: MaskCD方法能够有效解决LVLMs的幻觉问题,同时保持模型的通用能力,为缓解大视觉语言模型幻觉提供了一种有效解决方案。

[24] VERNIER: an open-source software pushing marker pose estimation down to the micrometer and nanometer scales

Patrick Sandoz,Antoine N. André,Guillaume J. Laurent

Main category: cs.CV

TL;DR: VERNIER是一个开源相位处理软件,用于基于伪周期模式实现快速可靠的位姿测量,特别适用于小尺度下的纳米级精度位姿估计。

  • Motivation: 小尺度下的位姿估计仍然具有挑战性,需要能够在相对大范围内实现纳米级和微弧度级分辨率的解决方案。
  • Method: 使用相位处理方法和伪周期模式,采用基于相位的局部阈值算法,对周期性帧进行相位处理。
  • Result: 该软件在噪声、散焦和遮挡情况下表现出特别强的鲁棒性,能够在厘米范围内实现纳米级分辨率。
  • Conclusion: 提供了选择适当模式设计和显微镜放大镜头的指南,以满足不同应用需求的性能要求。

[25] Med-K2N: Flexible K-to-N Modality Translation for Medical Image Synthesis

Feng Yuan,Yifan Gao,Yuehua Ye,Haoyue Li,Xin Gao

Main category: cs.CV

TL;DR: 本文提出Med-K2N方法,通过序列帧建模和渐进增强机制解决K到N医学图像合成中的三个关键挑战:异质模态贡献建模、融合质量控制和模态身份一致性保持。

  • Motivation: 临床诊断需要灵活的重建缺失成像模态,但现有方法面临三个挑战:不同模态对目标任务的异质贡献建模、防止噪声信息导致质量下降的融合质量控制、多输出生成中的模态身份一致性保持。
  • Method: 将多模态医学数据视为序列帧,设计三个协作模块:PreWeightNet用于全局贡献评估,ThresholdNet用于自适应过滤,EffiWeightNet用于有效权重计算。同时提出因果模态身份模块(CMIM)通过视觉语言建模建立生成图像与目标模态描述间的因果约束。
  • Result: 在多个基准测试中,Med-K2N显著优于现有最先进方法。
  • Conclusion: 所提出的Med-K2N方法通过序列帧建模和渐进增强机制有效解决了K到N医学图像合成中的关键挑战,为临床诊断提供了更灵活和准确的模态重建能力。

[26] ELMF4EggQ: Ensemble Learning with Multimodal Feature Fusion for Non-Destructive Egg Quality Assessment

Md Zahim Hassan,Md. Osama,Muhammad Ashad Kabir,Md. Saiful Islam,Zannatul Naim

Main category: cs.CV

TL;DR: ELMF4EggQ是一个集成学习框架,通过融合图像、形状和重量等多模态外部特征来无损评估鸡蛋等级和新鲜度,在公开数据集上取得了86.57%的等级分类准确率和70.83%的新鲜度预测准确率。

  • Motivation: 需要准确、无损的鸡蛋质量评估方法来确保食品安全、维持产品标准和提高商业家禽生产效率,传统方法需要破坏性检测内部质量。
  • Method: 使用预训练CNN模型提取外部鸡蛋图像特征,结合形状和重量等结构特征,通过PCA降维、SMOTE数据增强,采用多种机器学习算法分类,并通过集成投票机制提升性能。
  • Result: 多模态方法显著优于仅使用图像或仅使用表格特征的基准方法,集成方法在等级分类和新鲜度预测上分别达到86.57%和70.83%的准确率。
  • Conclusion: 仅使用外部非侵入性特征就能有效评估鸡蛋内部质量,多模态特征融合方法优于单一模态,为无损鸡蛋质量检测提供了可行方案。

[27] One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

Lorenzo Bianchi,Giacomo Pacini,Fabio Carrara,Nicola Messina,Giuseppe Amato,Fabrizio Falchi

Main category: cs.CV

TL;DR: 提出了一个统一的零样本图像描述框架,从图像中心转向补丁中心范式,无需区域级监督即可描述任意区域

  • Motivation: 现有的零样本描述模型局限于全局表示和整图描述,无法描述图像中的特定区域
  • Method: 将单个图像补丁作为原子描述单元,通过聚合补丁特征来描述从单个补丁到非连续区域和整图的任意区域
  • Result: 使用DINO等生成有意义密集视觉特征的主干网络,在多个基于区域的描述任务中达到最先进性能
  • Conclusion: 补丁级语义表示对于可扩展的描述生成非常有效,在密集描述、区域集描述和轨迹描述任务中表现优异

[28] Training-Free Out-Of-Distribution Segmentation With Foundation Models

Laith Nayal,Hadi Salloum,Ahmad Taha,Yaroslav Kholodov,Alexander Gasnikov

Main category: cs.CV

TL;DR: 提出了一种无需训练的OoD检测方法,利用InternImage骨干网络特征和K-Means聚类,在语义分割中识别未知物体,在多个基准测试中表现优异。

  • Motivation: 大型视觉基础模型在闭集语义任务中表现出色,但其在语义分割中检测分布外区域的能力尚未充分探索,这对于自动驾驶等安全关键应用至关重要。
  • Method: 使用InternImage骨干网络特征,结合K-Means聚类和原始解码器logits的置信度阈值来识别OoD聚类,无需任何异常监督或额外训练。
  • Result: 在RoadAnomaly基准测试上达到50.02平均精度,在ADE-OoD基准测试上达到48.77,超越了多个有监督和无监督基线方法。
  • Conclusion: 结果表明这是一种有前景的通用OoD分割方法方向,需要最少的假设或额外数据。

[29] Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention

Xin Zou,Di Lu,Yizhou Wang,Yibo Yan,Yuanhuiyi Lyu,Xu Zheng,Linfeng Zhang,Xuming Hu

Main category: cs.CV

TL;DR: HoloV是一个简单有效的视觉token剪枝框架,通过从整体视角重新思考token保留策略,在空间裁剪中自适应分配剪枝预算,解决了现有注意力优先剪枝方法在高剪枝率下性能下降的问题。

  • Motivation: 多模态大语言模型依赖大量视觉token导致计算开销巨大,现有基于注意力机制的剪枝方法在高剪枝率下会保留语义相似的token,造成性能显著下降。
  • Method: 提出HoloV框架,从整体视角重新设计token保留策略,通过在不同空间裁剪中自适应分配剪枝预算,确保保留的token能够捕捉全局视觉上下文而非孤立显著特征。
  • Result: 实验结果显示HoloV在各种任务、MLLM架构和剪枝率下均优于现有方法。例如,LLaVA1.5配备HoloV后,在剪枝88.9%视觉token的情况下仍能保持95.8%的原始性能。
  • Conclusion: HoloV通过整体视角的token剪枝策略,在保持高效推理的同时最小化了表示崩溃,实现了优越的效率-准确性权衡。

[30] Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting

Nikoo Naghavian,Mostafa Tavassolipour

Main category: cs.CV

TL;DR: 提出CAW方法增强视觉语言模型的零样本鲁棒性,通过置信度感知损失和特征对齐正则化,在保持泛化能力的同时提升干净和对抗样本的准确率。

  • Motivation: 视觉语言模型如CLIP在零样本泛化方面表现优异,但对对抗攻击高度脆弱,需要提升其鲁棒性。
  • Method: CAW包含两个组件:(1)置信度感知损失,通过缩放干净和对抗预测间的KL散度来优先处理不确定的对抗样本;(2)特征对齐正则化,通过最小化冻结和微调图像编码器在对抗输入上的特征距离来保持语义一致性。
  • Result: 在TinyImageNet和14个额外数据集上的实验表明,CAW在AutoAttack等强攻击下优于PMG-AFT和TGA-ZSR等最新方法,且内存使用更少。
  • Conclusion: CAW能有效提升视觉语言模型的零样本鲁棒性,在保持泛化能力的同时改善干净和对抗样本的准确率。

[31] Multimodal Carotid Risk Stratification with Large Vision-Language Models: Benchmarking, Fine-Tuning, and Clinical Insights

Daphne Tsolissou,Theofanis Ganitidis,Konstantinos Mitsis,Stergios CHristodoulidis,Maria Vakalopoulou,Konstantina Nikita

Main category: cs.CV

TL;DR: 该研究评估了大型视觉语言模型在颈动脉粥样硬化疾病风险分层中的应用,通过整合超声图像与临床数据,发现现有模型在风险分类方面表现不佳,但通过领域适应和多模态数据整合可显著提升性能。

  • Motivation: 颈动脉粥样硬化疾病的风险评估需要整合多样化的临床和影像信息,但现有方法缺乏透明性和可解释性。研究旨在探索大型视觉语言模型在多模态颈动脉斑块评估中的潜力。
  • Method: 提出了一个模拟真实诊断场景的框架,比较了多种开源LVLM模型,包括通用模型和医学专用模型。使用零样本实验评估模型性能,并通过低秩适应( LoRA )对LLaVa-NeXT-Vicuna进行超声领域适应,整合多模态表格数据。
  • Result: 零样本实验显示,并非所有LVLM都能准确识别成像模态和解剖结构,所有模型在风险分类方面表现不佳。经过领域适应后,卒中风险分层性能显著提升,多模态数据整合进一步提高了特异性和平衡准确率,性能与先前在同一数据集上训练的CNN基线相当。
  • Conclusion: 研究强调了LVLM在超声心血管风险预测中的潜力和局限性,突出了多模态整合、模型校准和领域适应对临床转化的重要性。

[32] Flip Distribution Alignment VAE for Multi-Phase MRI Synthesis

Xiaoyan Kui,Qianmu Xiao,Qqinsong Li,Zexin Ji,JIelin Zhang,Beiji Zou

Main category: cs.CV

TL;DR: 提出FDA-VAE,一种轻量级特征解耦变分自编码器,用于多期相增强MRI合成。通过对称潜在分布编码和Y形双向训练策略,有效分离共享和独立特征。

  • Motivation: 现有方法使用深度自编码器生成器参数效率低,缺乏可解释的训练策略。需要更高效、可解释的多期相增强MRI合成方法。
  • Method: 使用变分自编码器将输入和目标图像编码为关于标准正态分布对称的两个潜在分布,实现特征分离。采用Y形双向训练策略增强特征分离的可解释性。
  • Result: 相比现有深度自编码器端到端合成方法,FDA-VAE显著减少模型参数和推理时间,同时有效提高合成质量。
  • Conclusion: FDA-VAE为多期相增强MRI合成提供了一种轻量级、高效且可解释的解决方案,在参数效率和合成质量方面均有显著提升。

[33] TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency

Juntong Wang,Huiyu Duan,Jiarui Wang,Ziheng Jia,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: 提出了LPG-Bench基准和TIT评估方法,用于评估长文本提示的图像生成质量,解决了现有模型对长提示理解不足的问题。

  • Motivation: 当前文本到图像模型对短提示生成效果好,但对长而详细的提示理解不足,生成结果不一致,需要专门的评估基准和方法。
  • Method: 构建包含200个平均超过250词的长提示基准LPG-Bench,生成2600张图像并进行人工标注;提出基于文本-图像-文本一致性的TIT评估方法,包括TIT-Score和TIT-Score-LLM两种实现。
  • Result: 现有T2I评估指标与人类偏好一致性差;TIT方法显著优于CLIP-score等基线,TIT-Score-LLM在成对准确率上比最强基线提升7.31%。
  • Conclusion: LPG-Bench和TIT方法为T2I模型提供了更深入的评估视角,将促进该领域的发展。

[34] Towards Scalable and Consistent 3D Editing

Ruihao Xia,Yang Tang,Pan Zhou

Main category: cs.CV

TL;DR: 提出了3DEditVerse数据集和3DEditFormer模型,通过大规模配对数据和结构保持的transformer架构,实现了无需3D掩码的高质量3D编辑。

  • Motivation: 解决现有3D编辑方法存在的速度慢、几何失真、依赖手动3D掩码等问题,提升3D编辑的跨视图一致性、结构保真度和细粒度控制能力。
  • Method: 构建3DEditVerse数据集(116,309训练对+1,500测试对),提出3DEditFormer模型,采用双引导注意力和时间自适应门控机制,实现可编辑区域与保留结构的解耦。
  • Result: 在广泛实验中,该框架在定量和定性评估上均优于现有最先进方法,为实用和可扩展的3D编辑设立了新标准。
  • Conclusion: 通过数据与模型的双重创新,实现了无需辅助3D掩码的精确一致3D编辑,推动了3D编辑技术的实用化发展。

[35] Not every day is a sunny day: Synthetic cloud injection for deep land cover segmentation robustness evaluation across data sources

Sara Mobsite,Renaud Hostache,Laure Berti Equille,Emmanuel Roux,Joris Guerin

Main category: cs.CV

TL;DR: 提出了一种云注入算法模拟真实云覆盖,并开发轻量级NDI注入方法增强语义分割性能,结合Sentinel-1雷达数据在云覆盖条件下显著提升土地覆盖分割效果

  • Motivation: 现有Sentinel-2数据集多为无云图像,在热带多云地区实用性受限;同时深度网络编码器下采样会丢失空间和光谱细节
  • Method: 开发云注入算法模拟真实云覆盖;提出轻量级NDI注入方法,将归一化差异指数注入最终解码层;融合Sentinel-1雷达数据与光学数据
  • Result: NDI注入在无云图像上提升U-Net性能1.99%、DeepLabV3性能2.78%;在云覆盖条件下,结合Sentinel-1数据相比仅使用光学数据在所有模型上都获得显著性能提升
  • Conclusion: 雷达-光学数据融合在挑战性大气条件下具有显著效果,NDI注入是保留关键空间特征的有效轻量级方法

[36] PocketSR: The Super-Resolution Expert in Your Pocket Mobiles

Haoze Sun,Linfeng Jiang,Fan Li,Renjing Pei,Zhixin Wang,Yong Guo,Jiaqi Xu,Haoyu Chen,Jin Han,Fenglong Song,Yujiu Yang,Wenbo Li

Main category: cs.CV

TL;DR: PocketSR是一个超轻量级的单步图像超分辨率模型,通过高效的LiteED编码器和在线退火剪枝技术,在保持生成质量的同时大幅减少计算开销,适合边缘设备部署。

  • Motivation: 现有的基于大生成模型的RealSR方法虽然效果出色,但计算成本高、延迟大,难以在实际边缘设备上部署应用。
  • Method: 设计了LiteED作为SD中VAE的高效替代,参数减少97.5%;提出在线退火剪枝技术,逐步将生成先验从重模块转移到轻模块;使用多层特征蒸馏损失来缓解剪枝过程中的知识损失。
  • Result: 模型参数仅146M,处理4K图像仅需0.8秒,性能与最先进的单步和多步RealSR模型相当。
  • Conclusion: PocketSR在保持高质量的同时实现了显著的效率提升,为边缘设备上的RealSR应用提供了实用解决方案。

[37] When and Where do Events Switch in Multi-Event Video Generation?

Ruotong Liao,Guowen Huang,Qing Cheng,Thomas Seidl,Daniel Cremers,Volker Tresp

Main category: cs.CV

TL;DR: 该论文提出了MEve评估套件,系统研究了多事件文本到视频生成中的事件转换控制问题,发现早期去噪步骤和块级模型层对多事件视频生成至关重要。

  • Motivation: 现有方法在多事件生成时忽略了事件转换的内在因素,本文旨在回答多事件提示何时何地控制事件转换这一核心问题。
  • Method: 引入MEve自建提示套件,对OpenSora和CogVideoX两个代表性模型家族进行系统研究,通过大量实验分析去噪步骤和模型层的影响。
  • Result: 实验证明早期干预去噪步骤和块级模型层在多事件视频生成中具有重要作用,揭示了多事件生成的关键因素。
  • Conclusion: 研究结果强调了早期干预的重要性,为未来模型中的多事件条件控制提供了可能性。

[38] InsideOut: An EfficientNetV2-S Based Deep Learning Framework for Robust Multi-Class Facial Emotion Recognition

Ahsan Farabi,Israt Khandaker,Ibrahim Khalil Shanto,Md Abdul Ahad Minhaz,Tanisha Zaman

Main category: cs.CV

TL;DR: InsideOut是一个基于EfficientNetV2-S的可复现面部表情识别框架,通过迁移学习、数据增强和类别不平衡优化,在FER2013数据集上达到62.8%准确率和0.590的宏平均F1分数。

  • Motivation: 面部表情识别在情感计算中很重要,但由于遮挡、光照变化、姿势变化、细微的类内差异和数据集不平衡等问题,识别少数情绪类别仍然具有挑战性。
  • Method: 使用EfficientNetV2-S架构进行迁移学习,应用标准化、分层分割和强数据增强,通过类别加权损失函数优化轻量级分类头来处理数据不平衡问题。
  • Result: 在FER2013数据集上获得62.8%的准确率和0.590的宏平均F1分数,与传统CNN基线相比具有竞争力。
  • Conclusion: 研究表明,高效架构与定制化的不平衡处理方法相结合,可以提供实用、透明且可复现的面部表情识别解决方案。

[39] What Drives Compositional Generalization in Visual Generative Models?

Karim Farid,Rajat Sahay,Yumna Ali Alnaggar,Simon Schrodi,Volker Fischer,Cordelia Schmid,Thomas Brox

Main category: cs.CV

TL;DR: 该研究系统分析了视觉生成模型中影响组合泛化的设计选择,发现离散vs连续训练目标和条件信息程度是关键因素,并提出通过添加连续JEPA目标来改进MaskGIT等离散模型的组合性能。

  • Motivation: 理解视觉生成模型中促进或抑制组合泛化(生成已知概念的新组合)的机制,目前尚未完全清楚,需要进行系统研究。
  • Method: 通过受控实验研究不同设计选择对图像和视频生成中组合泛化的影响,重点关注训练目标的离散/连续性质以及条件信息提供的程度。
  • Result: 识别出两个关键因素:训练目标的离散/连续分布特性,以及训练期间条件信息对构成概念的提供程度。基于这些发现,通过在MaskGIT离散损失中添加辅助连续JEPA目标可以改善组合性能。
  • Conclusion: 训练目标的离散/连续特性和条件信息的提供程度是影响组合泛化的关键因素,通过适当结合连续目标可以改进离散模型的组合性能。

[40] Latent Diffusion Unlearning: Protecting Against Unauthorized Personalization Through Trajectory Shifted Perturbations

Naresh Kumar Devulapally,Shruti Agarwal,Tejas Gokhale,Vishnu Suresh Lokhande

Main category: cs.CV

TL;DR: 提出了一种基于潜在扩散模型的新型图像扰动方法,通过在去噪轨迹中修改起始点来生成难以学习和个性化的图像,保护数据隐私和知识产权。

  • Motivation: 随着文本到图像扩散模型在个性化应用中的有效性提升,引发了数据隐私、知识产权保护和未经授权使用的担忧,需要开发防止模型复制的保护方法。
  • Method: 在潜在扩散模型的潜在空间中操作,交替进行去噪和反转过程,修改去噪轨迹的起始点,实现轨迹偏移采样。
  • Result: 在四个基准数据集上的验证表明,该方法在感知指标(PSNR、SSIM、FID)上提升了约8%-10%,在五种对抗设置下平均提升了约10%的鲁棒性。
  • Conclusion: 该方法能够有效保护敏感数据,在保持高视觉保真度的同时,对下游生成模型的反转和个性化具有抵抗力。

[41] Geometry Meets Vision: Revisiting Pretrained Semantics in Distilled Fields

Zhiting Mei,Ola Shorinwa,Anirudha Majumdar

Main category: cs.CV

TL;DR: 该论文研究了在辐射场语义蒸馏中,几何基础特征与纯视觉特征的对比效果,发现几何基础特征包含更多几何细节但降低了姿态估计精度,而纯视觉特征在更广泛的下游任务中更具通用性。

  • Motivation: 探索几何基础语义特征在蒸馏辐射场中的潜在优势,特别是在空间任务如姿态估计中的表现,以填补现有研究在几何基础特征效果评估方面的空白。
  • Method: 提出SPINE框架进行无初始猜测的辐射场反演,包含基于蒸馏语义的粗反演和基于光度优化的细反演两个核心组件,并对比几何基础特征与纯视觉特征的效果。
  • Result: 几何基础特征包含更精细的结构细节,但在语义目标定位任务中无显著差异,且在姿态估计任务中精度反而下降;纯视觉特征在更广泛的下游任务中表现更优。
  • Conclusion: 纯视觉特征在通用性方面优于几何基础特征,未来需要研究更有效的几何基础策略来增强预训练语义特征的通用性和性能。

[42] GeoComplete: Geometry-Aware Diffusion for Reference-Driven Image Completion

Beibei Lin,Tingting Chen,Robby T. Tan

Main category: cs.CV

TL;DR: GeoComplete是一个新颖的参考驱动图像补全框架,通过引入显式3D结构指导来增强几何一致性,相比仅依赖扩散先验的现有方法,能产生更准确对齐的内容。

  • Motivation: 现有基于生成的方法仅依赖扩散先验,缺乏相机姿态或深度等几何线索,导致补全内容经常出现错位或不合理的问题。
  • Method: 采用双分支扩散架构:一个分支从掩码目标合成缺失区域,另一个分支从投影点云提取几何特征;通过联合自注意力确保一致性;引入目标感知掩码策略指导模型关注相关参考线索。
  • Result: 实验显示GeoComplete相比最先进方法PSNR提升17.1,显著提高几何准确度同时保持高视觉质量。
  • Conclusion: 通过结合几何感知的双分支扩散架构和目标感知掩码策略,GeoComplete为几何条件图像补全提供了统一且鲁棒的解决方案。

[43] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

Kaisi Guan,Xihua Wang,Zhengfeng Lai,Xin Cheng,Peng Zhang,XiaoJiang Liu,Ruihua Song,Meng Cao

Main category: cs.CV

TL;DR: 提出了HVGC框架和BridgeDiT模型来解决文本到音视频生成中的模态干扰和跨模态交互问题,通过解耦字幕和双向注意力机制实现音视频同步生成。

  • Motivation: 解决文本到音视频生成中的两个关键挑战:单一共享文本导致的模态干扰,以及跨模态特征交互机制不明确的问题。
  • Method: 首先提出HVGC框架生成解耦的视频和音频字幕,然后引入BridgeDiT双塔扩散变换器,采用双向交叉注意力机制实现对称信息交换。
  • Result: 在三个基准数据集上通过人工评估证明了该方法在大多数指标上达到最先进水平,消融研究验证了各贡献的有效性。
  • Conclusion: 该方法为未来T2SV任务提供了关键见解,代码和检查点将公开发布。

[44] HAVIR: HierArchical Vision to Image Reconstruction using CLIP-Guided Versatile Diffusion

Shiyi Zhang,Dong Liang,Hairong Zheng,Yihang Zhou

Main category: cs.CV

TL;DR: HAVIR模型通过分离视觉皮层的两个层次区域提取不同特征,结合结构生成器和语义提取器,利用Versatile Diffusion模型合成图像,在复杂场景中提升重建质量。

  • Motivation: 现有方法在恢复高度复杂视觉刺激方面面临挑战,自然场景的低级特征异质性和高级特征语义纠缠导致重建困难。
  • Method: 将视觉皮层分为两个层次区域:结构生成器从空间处理体素提取结构信息并转换为潜在扩散先验,语义提取器将语义处理体素转换为CLIP嵌入,通过Versatile Diffusion模型集成合成最终图像。
  • Result: 实验结果显示HAVIR在复杂场景中提升了重建的结构和语义质量,优于现有模型。
  • Conclusion: 基于视觉皮层层次表示理论的HAVIR模型有效解决了复杂视觉刺激的重建问题,在结构和语义质量上均有显著提升。

[45] Mask2IV: Interaction-Centric Video Generation via Mask Trajectories

Gen Li,Bo Zhao,Jianfei Yang,Laura Sevilla-Lara

Main category: cs.CV

TL;DR: Mask2IV是一个用于交互中心视频生成的两阶段框架,无需密集掩码输入,通过预测运动轨迹来生成高质量的人类/机器人交互视频。

  • Motivation: 现有方法难以建模复杂的动态交互,而获取精确的掩码注释在现实应用中具有挑战性。
  • Method: 采用解耦的两阶段流程:首先预测演员和物体的合理运动轨迹,然后基于这些轨迹生成视频。
  • Result: 在多样化的动作和物体类别上,该方法在视觉真实性和可控性方面优于现有基线方法。
  • Conclusion: Mask2IV提供了一种无需密集掩码输入的交互中心视频生成方案,支持直观的控制和灵活的操作。

[46] ReeMark: Reeb Graphs for Simulating Patterns of Life in Spatiotemporal Trajectories

Anantajit Subrahmanya,Chandrakanth Gudavalli,Connor Levenson,Umang Garg,B. S. Manjunath

Main category: cs.CV

TL;DR: 提出马尔可夫Reeb图框架,用于模拟保留生活模式的时空轨迹,在保持数据真实性的同时实现计算效率

  • Motivation: 准确建模人类移动性对城市规划、流行病学和交通管理至关重要,需要生成既保持个体生活模式又包含变异性的真实轨迹
  • Method: 结合个体和群体层面移动结构,在概率拓扑模型中生成时空轨迹,保留从基线数据学习到的生活模式
  • Result: 在Urban Anomalies数据集评估显示,基于Jensen-Shannon散度的人口和个体层面指标均表现出强保真度,且数据计算效率高
  • Conclusion: 马尔可夫Reeb图是一个可扩展的轨迹模拟框架,适用于各种城市环境

[47] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Ming Zhao,Wenhui Dong,Yang Zhang,Xiang Zheng,Zhonghao Zhang,Zian Zhou,Yunzhi Guan,Liukun Xu,Wei Peng,Zhaoyang Gong,Zhicheng Zhang,Dachuan Li,Xiaosheng Ma,Yuli Ma,Jianing Ni,Changjiang Jiang,Lixia Tian,Qixin Chen,Kaishun Xia,Pingping Liu,Tongshun Zhang,Zhiqiang Liu,Zhongan Bi,Chenyang Si,Tiansheng Sun,Caifeng Shan

Main category: cs.CV

TL;DR: SpineMed是一个专为脊柱疾病AI诊断设计的生态系统,包含SpineMed-450k数据集和SpineBench评估框架,解决了脊柱影像诊断中缺乏椎体级别多模态数据的问题。

  • Motivation: 脊柱疾病影响全球6.19亿人,是致残的主要原因,但AI辅助诊断因缺乏椎体级别感知的多模态数据集而受限。临床决策需要跨X光、CT和MRI在特定椎体级别进行复杂推理。
  • Method: 与执业脊柱外科医生共同设计,采用两阶段LLM生成方法(草稿和修订)创建SpineMed-450k数据集,包含45万条指令实例,涵盖问答、多轮咨询和报告生成。
  • Result: 对先进大视觉语言模型的评估显示在细粒度、椎体级别推理方面存在系统性弱点,而在SpineMed-450k上微调的模型在所有任务上均表现出显著改进。
  • Conclusion: 临床医生评估证实了模型输出的诊断清晰度和实用性,SpineMed为脊柱AI诊断提供了高质量的数据集和标准化评估框架。

[48] UniShield: An Adaptive Multi-Agent Framework for Unified Forgery Image Detection and Localization

Qing Huang,Zhipei Xu,Xuanyu Zhang,Jian Zhang

Main category: cs.CV

TL;DR: UniShield是一个基于多智能体的统一伪造图像检测和定位系统,能够跨多个领域检测图像伪造,包括图像篡改、文档篡改、DeepFake和AI生成图像。

  • Motivation: 随着图像生成技术的快速发展,合成图像越来越逼真,带来了严重的社会风险,如虚假信息和欺诈。现有的领域特定检测方法存在专业化程度过高、跨领域泛化能力差、缺乏统一自适应框架等问题。
  • Method: UniShield创新性地整合了感知智能体和检测智能体。感知智能体智能分析图像特征以动态选择合适的检测模型,检测智能体将各种专家检测器整合到统一框架中并生成可解释的报告。
  • Result: 大量实验表明,UniShield取得了最先进的结果,超越了现有的统一方法和领域特定检测器,展现了其卓越的实用性、自适应性和可扩展性。
  • Conclusion: UniShield通过多智能体统一框架有效解决了伪造图像检测和定位中的跨领域泛化问题,为维护信息完整性和社会安全提供了重要工具。

[49] ROGR: Relightable 3D Objects using Generative Relighting

Jiapeng Tang,Matthew Lavine,Dor Verbin,Stephan J. Garbin,Matthias Nießner,Ricardo Martin Brualla,Pratul P. Srinivasan,Philipp Henzler

Main category: cs.CV

TL;DR: ROGR提出了一种从多视角重建可重光照3D模型的新方法,使用生成式重光照模型模拟物体在不同环境光照下的效果,通过双分支架构的NeRF实现任意环境光照下的高效重光照。

  • Motivation: 现有的3D重建方法在重光照方面存在限制,需要针对每种光照条件进行优化或复杂的光传输模拟,缺乏高效处理任意环境光照的能力。
  • Method: 通过在不同光照环境下采样物体外观创建数据集,训练光照条件化的NeRF模型,采用双分支架构分别编码一般光照效果和镜面反射,实现高效的前向重光照。
  • Result: 在TensoIR和Stanford-ORB数据集上的评估表明,该方法在大多数指标上优于现有最先进方法,并在真实物体捕捉上展示了良好效果。
  • Conclusion: ROGR方法能够高效重建可重光照的3D模型,无需针对每种光照条件进行优化或复杂的光传输模拟,在多个数据集上表现优于现有方法。

[50] Dynamic Prompt Generation for Interactive 3D Medical Image Segmentation Training

Tidiane Camaret Ndir,Alexander Pfefferle,Robin Tibor Schirrmeister

Main category: cs.CV

TL;DR: 提出一种结合动态体积提示生成和内容感知自适应裁剪的训练策略,用于优化3D生物医学图像交互式分割模型,在单GPU上高效处理序列细化反馈。

  • Motivation: 现有基础模型要么缺乏体积感知能力,要么交互能力有限,需要开发能根据用户提示迭代优化预测的高效模型。
  • Method: 使用动态体积提示生成和内容感知自适应裁剪的训练策略,基于nnInteractive分割模型的公开权重初始化网络,模拟真实用户交互模式。
  • Result: 在3D生物医学图像交互分割竞赛中表现优异,平均Dice得分0.6385,归一化表面距离0.6614,AUC指标分别为2.4799(Dice)和2.5671(NSD)。
  • Conclusion: 该方法有效解决了3D生物医学图像交互分割的计算挑战,在单GPU上实现了高效的序列细化学习。

[51] Product-Quantised Image Representation for High-Quality Image Synthesis

Denis Zavadski,Nikita Philip Tatsch,Carsten Rother

Main category: cs.CV

TL;DR: PQGAN将产品量化(PQ)集成到VQGAN框架中,显著提升了图像重建性能,在PSNR上达到37dB,比现有方法提升10dB,并能将FID、LPIPS和CMMD分数降低高达96%。

  • Motivation: 产品量化(PQ)在可扩展向量编码中应用广泛,但在高保真图像生成的潜在表示中应用有限。研究旨在将PQ集成到VQGAN框架中,提升图像重建性能。
  • Method: 在VQGAN的向量量化框架中集成产品量化(PQ),分析码本大小、嵌入维度和子空间分解之间的相互作用,将向量和标量量化作为特例。
  • Result: PSNR达到37dB(先前工作为27dB),FID、LPIPS和CMMD分数降低高达96%。分析发现VQ和PQ在扩展嵌入维度时表现相反,为超参数选择提供指导。
  • Conclusion: PQGAN可无缝集成到预训练扩散模型中,实现更快、更高效生成或双倍输出分辨率,表明PQ是图像合成中离散潜在表示的强大扩展。

[52] Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft

Junchao Huang,Xinting Hu,Boyao Han,Shaoshuai Shi,Zhuotao Tian,Tianyu He,Li Jiang

Main category: cs.CV

TL;DR: 提出了Memory Forcing学习框架,通过几何索引空间记忆和混合训练协议,解决自回归视频扩散模型在有限计算预算下长期空间一致性与新场景生成质量之间的权衡问题。

  • Motivation: 自回归视频扩散模型在Minecraft等游戏世界建模中面临关键挑战:需要在新场景探索时生成自然内容,同时在重访已探索区域时保持空间一致性。在有限计算预算下,模型必须在有限上下文窗口中压缩和利用历史线索,这暴露了时间记忆与空间记忆之间的权衡问题。
  • Method: 1. Memory Forcing框架结合几何索引空间记忆;2. 混合训练暴露不同游戏机制,引导模型在探索时依赖时间记忆,在重访时结合空间记忆;3. 链式前向训练通过模型rollout扩展自回归训练,创建更大姿态变化并鼓励依赖空间记忆保持一致性;4. 点对帧检索通过映射可见点到源帧来高效检索历史;5. 增量3D重建维护和更新显式3D缓存。
  • Result: 广泛实验表明,Memory Forcing在多样化环境中实现了卓越的长期空间一致性和生成质量,同时在扩展序列中保持计算效率。
  • Conclusion: Memory Forcing框架成功解决了自回归视频扩散模型在有限计算预算下长期空间一致性与新场景生成质量之间的权衡,为游戏世界建模和交互式场景生成提供了有效解决方案。

[53] MonSTeR: a Unified Model for Motion, Scene, Text Retrieval

Luca Collorone,Matteo Gioia,Massimiliano Pappa,Paolo Leoni,Giovanni Ficarra,Or Litany,Indro Spinelli,Fabio Galasso

Main category: cs.CV

TL;DR: MonSTeR是首个运动-场景-文本检索模型,通过构建统一潜在空间来捕捉多模态间的复杂依赖关系,在多种任务中实现灵活而鲁棒的检索。

  • Motivation: 现有研究缺乏评估骨骼运动(动作)、意图(文本)和周围环境(场景)之间对齐关系的工具,尽管这种机制在人类复杂环境运动中很直观。
  • Method: 受高阶关系建模启发,MonSTeR利用单模态和跨模态表示构建统一潜在空间,捕捉模态间的复杂依赖关系。
  • Result: MonSTeR在性能上优于仅依赖单模态表示的三模态模型,并通过用户研究验证其检索分数与人类偏好的一致性。
  • Conclusion: MonSTeR展示了其潜在空间在零样本场景内物体放置和动作描述任务中的通用性,为多模态对齐提供了有效工具。

[54] Test-Time Defense Against Adversarial Attacks via Stochastic Resonance of Latent Ensembles

Dong Lao,Yuxiang Zhang,Haniyeh Ehsani Oskouie,Yangchao Wu,Alex Wong,Stefano Soatto

Main category: cs.CV

TL;DR: 提出一种基于随机共振的测试时防御机制,通过引入小的平移扰动来对抗对抗性攻击,无需额外训练或特定攻击类型调整。

  • Motivation: 现有防御方法依赖特征过滤或平滑,可能导致信息损失,需要一种能增强鲁棒性同时最小化信息损失的通用方法。
  • Method: 对输入图像引入小的平移扰动,对齐变换后的特征嵌入并聚合,然后映射回原始参考图像,整个过程可用闭式公式表达。
  • Result: 在图像分类任务上恢复高达68.1%的准确率损失,在立体匹配和光流任务上分别恢复71.9%和29.2%的性能损失。
  • Conclusion: 该方法实现了训练无关、架构无关和攻击无关的通用测试时防御,首次为密集预测任务建立了通用防御机制。

[55] MIXER: Mixed Hyperspherical Random Embedding Neural Network for Texture Recognition

Ricardo T. Fares,Lucas C. Ribas

Main category: cs.CV

TL;DR: 提出Mixer,一种用于纹理表示学习的新型随机神经网络,利用超球面随机嵌入和双分支学习模块来捕获通道内和通道间关系。

  • Motivation: 现有随机神经网络方法主要关注改进跨信息预测,未对整体网络架构进行显著改进,需要更先进的纹理表示学习方法。
  • Method: 使用超球面随机嵌入结合双分支学习模块,通过新制定的优化问题构建丰富的纹理表示。
  • Result: 在多个具有不同特征和挑战的纯纹理基准测试中取得了有趣的结果。
  • Conclusion: Mixer方法在纹理识别任务中表现出色,源代码将在发表后提供。

[56] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

Suyuchen Wang,Tianyu Zhang,Ahmed Masry,Christopher Pal,Spandana Gella,Bang Liu,Perouz Taslakian

Main category: cs.CV

TL;DR: 提出RULER tokens和I-MRoPE方法解决GUI grounding中的分辨率外推问题,显著提升高分辨率界面上的坐标定位精度

  • Motivation: 当前VLM在GUI grounding任务中面临核心瓶颈:可靠的patch-to-pixel映射在训练未见的高分辨率显示器上失效,导致坐标定位精度下降
  • Method: 1. RULER tokens作为显式坐标标记,让模型能够像地图网格线一样参考位置;2. Interleaved MRoPE改进空间编码,确保宽度和高度维度平等表示
  • Result: 在ScreenSpot、ScreenSpot-V2和ScreenSpot-Pro数据集上的实验显示,该方法在grounding精度上获得一致提升,特别是在高分辨率界面上改进最大
  • Conclusion: 通过提供显式空间指导而非依赖隐式学习,该方法能够在不同分辨率和平台上实现更可靠的GUI自动化

[57] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

Ci-Siang Lin,Min-Hung Chen,Yu-Yang Sheng,Yu-Chiang Frank Wang

Main category: cs.CV

TL;DR: LEAML是一个标签高效的MLLM适应框架,利用少量标注VQA样本和大量未标注图像,通过QA生成器和选择性神经元更新来解决专业领域OOD任务。

  • Motivation: MLLM在通用视觉基准上表现良好,但在医疗影像等专业领域的OOD任务中表现不佳,这些领域标注数据有限且昂贵。
  • Method: 使用QA生成器为未标注数据生成领域相关的伪问答对,通过标题蒸馏进行正则化,并选择性更新与问答最相关的神经元。
  • Result: 在胃肠内窥镜和体育VQA上的实验表明,LEAML在最小监督下始终优于标准微调。
  • Conclusion: LEAML框架在标签稀缺的专业领域视觉问答任务中表现出色,证明了其有效性。

cs.DC

[58] PyRadiomics-cuda: a GPU-accelerated 3D features extraction from medical images within PyRadiomics

Jakub Lisowski,Piotr Tyrakowski,Szymon Zyguła,Krzysztof Kaczmarski

Main category: cs.DC

TL;DR: PyRadiomics-cuda是PyRadiomics库的GPU加速扩展,通过将关键几何计算卸载到GPU硬件,显著减少医学图像三维形状特征提取的处理时间。

  • Motivation: 解决从医学图像中提取三维形状特征时的计算挑战,特别是在处理大规模体积数据集时。
  • Method: 使用Python和C/CUDA实现,将关键几何计算卸载到GPU硬件,同时保持与原始PyRadiomics API的完全兼容性。
  • Result: 在各种计算场景(计算集群、预算设备和家庭设备)中均显著减少处理时间,支持高效、可扩展的放射组学分析。
  • Conclusion: PyRadiomics-cuda提供了透明的GPU加速,无需修改代码即可集成到现有AI工作流中,支持高通量AI管道所需的快速特征提取。

cs.CL

[59] Words That Make Language Models Perceive

Sophie L. Wang,Phillip Isola,Brian Cheung

Main category: cs.CL

TL;DR: 通过简单的提示工程,可以在纯文本训练的LLM中可靠地激活与视觉和听觉相关的表征,使其与专业视觉和音频编码器的表征对齐。

  • Motivation: 测试纯文本训练的LLM是否包含隐含的多模态规律,以及是否可以通过显式的感官提示来激活这些潜在结构。
  • Method: 使用感官提示(如'看'或'听')来引导模型,使其在生成下一个token时表现得好像基于潜在的视觉或听觉证据。
  • Result: 发现轻量级的提示工程可以可靠地激活纯文本训练LLM中与模态相适应的表征。
  • Conclusion: 纯文本训练的LLM内部表征确实隐含了多模态规律,通过适当的提示可以显式地激活这些表征。

stat.AP

[60] Neural Posterior Estimation with Autoregressive Tiling for Detecting Objects in Astronomical Images

Jeffrey Regier

Main category: stat.AP

TL;DR: 提出了一种基于空间自回归变分分布的小目标检测方法,通过K色棋盘模式划分和排序潜在空间,在斯隆数字巡天图像上实现了最先进的性能。

  • Motivation: 应对未来天文巡天产生的海量高分辨率图像中检测和表征天文物体的挑战,特别是针对微弱和视觉重叠的目标。
  • Method: 使用空间自回归变分分布,通过K色棋盘模式划分潜在空间,采用卷积神经网络参数化变分分布,使用神经后验估计最小化前向KL散度期望。
  • Result: 在斯隆数字巡天图像上实现了最先进的检测性能,自回归结构显著改善了后验校准。
  • Conclusion: 提出的自回归变分推断方法有效解决了天文图像中的小目标检测问题,为大规模天文数据处理提供了有力工具。

eess.IV

[61] Learning a distance measure from the information-estimation geometry of data

Guy Ohayon,Pierre-Etienne H. Fiquet,Florentin Guth,Jona Ballé,Eero P. Simoncelli

Main category: eess.IV

TL;DR: 提出了一种基于信息理论和估计理论的新型距离度量IEM,通过比较信号在不同噪声水平下的去噪误差向量来定义距离,能够适应复杂分布的几何结构。

  • Motivation: 传统距离度量难以捕捉复杂信号分布的几何特性,需要一种能够自适应分布几何的距离度量方法。
  • Method: 基于信息理论与估计理论的关系,通过比较信号在不同噪声水平下的去噪误差向量来定义IEM距离,使用学习到的去噪器计算该度量。
  • Result: 在ImageNet数据集上学习的IEM在预测人类感知判断方面,与最先进的监督图像质量度量方法竞争或表现更优。
  • Conclusion: IEM是一种有效的距离度量方法,能够适应复杂分布的几何特性,在图像质量评估等任务中具有良好性能。

[62] A UAV-Based VNIR Hyperspectral Benchmark Dataset for Landmine and UXO Detection

Sagar Lekhak,Emmett J. Ientilucci,Jasper Baur,Susmita Ghosh

Main category: eess.IV

TL;DR: 提出了一个用于地雷和未爆弹药检测研究的无人机可见光-近红外高光谱图像基准数据集,包含143个真实模拟目标,具有高光谱保真度。

  • Motivation: 填补无人机高光谱数据在地雷检测领域的空白,为可重复研究提供多传感器基准数据。
  • Method: 使用Headwall Nano-Hyperspec传感器在无人机平台上采集数据,通过经验线法进行反射率反演,并进行辐射定标、正射校正和拼接。
  • Result: 交叉验证显示在400-900nm范围内RMSE低于1.0,SAM值在1-6度之间,证明了高光谱保真度。
  • Conclusion: 该数据集填补了地雷检测领域无人机高光谱数据的空白,为相关研究提供了重要的基准资源。

[63] Image Enhancement Based on Pigment Representation

Se-Ho Lee,Keunsoo Ko,Seung-Wook Kim

Main category: eess.IV

TL;DR: 提出了一种基于颜料表示的高效图像增强方法,通过将RGB颜色转换为高维颜料空间,动态适应输入内容,实现优于传统方法的图像增强效果。

  • Motivation: 传统图像增强方法受限于预定义颜色空间(如RGB),缺乏对输入内容的动态适应性。本文旨在开发一种更灵活、表达能力更强的图像增强方法。
  • Method: 将输入RGB颜色转换为高维颜料表示,在颜料空间中进行重投影和混合处理,然后转换回RGB空间生成增强图像。变换参数由视觉编码器根据输入图像内容自适应估计。
  • Result: 在图像修饰和色调映射等任务中,该方法在性能上优于现有最先进方法,同时保持较低的计算复杂度和较小的模型尺寸。
  • Conclusion: 基于颜料表示的图像增强方法通过动态适应输入内容,在保持高效性的同时实现了卓越的图像增强性能,为图像处理提供了新的有效途径。

Daeyoung Kim

Main category: eess.IV

TL;DR: 本文提出了一种新颖的因果性AMD分析模型GCVAMD,通过改进的CausalVAE方法从原始OCT图像中提取潜在因果因子,能够进行因果推断如治疗模拟和干预分析。

  • Motivation: 现有的深度学习方法主要关注预测性能,忽略了AMD的病理学和潜在因果机制,这限制了特定因素的干预分析并可能导致决策不可靠。
  • Method: 使用改进的CausalVAE方法从原始OCT图像中提取潜在因果因子,结合因果性进行AMD检测分析。
  • Result: GCVAMD能够识别玻璃膜疣和新生血管状态,并在潜在空间中体现AMD因果机制,可用于从AMD检测到干预分析的各种任务。
  • Conclusion: 通过引入因果性分析,GCVAMD模型不仅提高了AMD检测性能,还支持治疗模拟和风险因素干预分析,为眼科诊断提供了更可靠的工具。

[65] Wave-GMS: Lightweight Multi-Scale Generative Model for Medical Image Segmentation

Talha Ahmed,Nehal Ahmed Shaikh,Hassan Mohy-ud-Din

Main category: eess.IV

TL;DR: Wave-GMS是一个轻量级高效的多尺度生成模型,用于医学图像分割,具有参数少、内存需求低、支持大批次训练的特点,在多个数据集上达到最先进的性能。

  • Motivation: 为了在医院和医疗设施中公平部署AI工具,需要能够在成本效益高的GPU上训练、内存需求低且支持大批次训练的深度分割网络。
  • Method: 提出Wave-GMS模型,这是一个轻量级高效的多尺度生成模型,不需要加载内存密集的预训练视觉基础模型,支持在有限内存的GPU上进行大批次训练。
  • Result: 在四个公开数据集(BUS、BUSI、Kvasir-Instrument和HAM10000)上的实验表明,Wave-GMS仅需约260万可训练参数,就能实现最先进的分割性能,并具有优越的跨领域泛化能力。
  • Conclusion: Wave-GMS是一个高效且轻量级的医学图像分割解决方案,能够在资源受限的环境中实现高性能分割。

q-bio.QM

[66] Glaucoma Detection and Structured OCT Report Generation via a Fine-tuned Multimodal Large Language Model

Jalil Jalili,Yashraj Gavhane,Evan Walker,Anna Heinke,Christopher Bowd,Akram Belghith,Massimo A. Fazio,Christopher A. Girkin,C. Gustavo De Moraes,Jeffrey M. Liebmann,Sally L. Baxter,Robert N. Weinreb,Linda M. Zangwill,Mark Christopher

Main category: q-bio.QM

TL;DR: 开发了一个可解释的多模态大语言模型,用于筛查视神经头OCT环形扫描图像质量,并生成包含青光眼诊断和分区视网膜神经纤维层变薄评估的结构化临床报告。

  • Motivation: 开发一个能够自动分析OCT图像、评估图像质量、检测青光眼并提供分区RNFL变薄描述的系统,以支持临床诊断。
  • Method: 使用Llama 3.2 Vision-Instruct模型进行微调,训练数据包括配对的OCT图像和自动生成的结构化临床报告,评估了质量评估、青光眼检测和七个解剖分区RNFL变薄分类三个任务。
  • Result: 质量筛查准确率0.90,特异性0.98;青光眼检测准确率0.86,敏感性0.91,特异性0.73;RNFL变薄预测准确率0.83-0.94;文本生成指标显示与参考报告高度一致。
  • Conclusion: 微调后的多模态大语言模型能够基于OCT图像生成准确的临床描述,在识别图像质量问题和检测青光眼方面表现出高准确性,并提供分区RNFL变薄描述以支持临床评估。

cs.CR

[67] Secure and Robust Watermarking for AI-generated Images: A Comprehensive Survey

Jie Cao,Qi Li,Zelin Zhang,Jianbing Ni

Main category: cs.CR

TL;DR: 本文对AI生成图像水印技术进行了全面综述,涵盖系统形式化、技术比较、评估方法、安全漏洞和未来方向五个维度,旨在促进该领域的发展。

  • Motivation: 随着生成式AI的快速发展,AI生成图像带来了知识产权保护、真实性和责任追究等关键问题,水印技术成为区分AI生成图像与自然内容、确保来源可信的解决方案。
  • Method: 采用系统性综述方法,从五个关键维度分析AI生成图像水印技术:系统形式化、多样化水印技术概述与比较、评估方法学、恶意攻击漏洞分析以及挑战与未来方向。
  • Result: 提供了对AI生成图像水印技术现状的全面理解,包括不同技术的比较分析、评估指标和安全性分析,为研究人员提供了该领域的整体框架。
  • Conclusion: 该综述旨在为研究人员提供对AI生成图像水印技术的全面理解,促进该技术的持续发展,以应对生成式AI带来的知识产权和真实性挑战。

[68] A Statistical Method for Attack-Agnostic Adversarial Attack Detection with Compressive Sensing Comparison

Chinthana Wimalasuriya,Spyros Tragoudas

Main category: cs.CR

TL;DR: 提出一种基于压缩/未压缩神经网络对行为的统计方法,实现近乎完美的实时对抗攻击检测,显著降低误报率

  • Motivation: 现有对抗攻击检测方法难以检测未知攻击类型,且对不同攻击类型的检测准确率有限
  • Method: 建立部署前的检测基线,通过比较压缩/未压缩神经网络对的行为生成对抗存在性指标
  • Result: 在多种攻击类型上实现近乎完美的检测效果,显著减少误报,优于现有最先进技术
  • Conclusion: 该方法可靠且实用,适用于现实世界应用中的实时对抗攻击检测

cs.LG

[69] Dale meets Langevin: A Multiplicative Denoising Diffusion Model

Nishanth Shetty,Madhava Prasath,Chandra Sekhar Seelamantula

Main category: cs.LG

TL;DR: 本文提出了一种基于几何布朗运动和Dale定律的生物启发式生成模型,使用乘法更新规则进行样本生成,适用于对数正态分布数据。

  • Motivation: 标准梯度下降优化与生物系统学习不一致,受Dale定律启发开发生物启发的学习技术,该定律指出抑制性和兴奋性突触在学习过程中不会互换角色。
  • Method: 从几何布朗运动的随机微分方程出发,离散化相应的时间反向SDE得到乘法更新规则,提出乘法去噪分数匹配形式化方法。
  • Result: 在MNIST、Fashion MNIST和Kuzushiji数据集上的实验结果表明新方案具有生成能力。
  • Conclusion: 这是首个基于几何布朗运动、采用乘法更新的生物启发式生成模型,为对数正态分布数据提供自然拟合的分数匹配框架。

[70] Confidence and Dispersity as Signals: Unsupervised Model Evaluation and Ranking

Weijian Deng,Weijie Tu,Ibrahim Radwan,Mohammad Abu Alsheikh,Stephen Gould,Liang Zheng

Main category: cs.LG

TL;DR: 提出了一个统一的框架,用于在无标签测试数据情况下评估模型在分布偏移下的泛化能力,包括数据集中心评估和模型中心评估两种场景。

  • Motivation: 在现实部署中,当标记测试数据不可用时,评估模型在分布偏移下的泛化能力至关重要。
  • Method: 利用模型预测的两个内在属性——置信度(反映预测确定性)和分散度(捕捉预测类别的多样性),构建基于置信度、分散度和混合指标的评估方法。
  • Result: 混合指标在数据集中心和模型中心评估设置中均优于单方面指标,特别是预测矩阵的核范数在各种任务中表现稳健准确。
  • Conclusion: 这些发现为部署场景中的无监督模型评估提供了实用且可推广的基础。

cs.RO

[71] SIMSplat: Predictive Driving Scene Editing with Language-aligned 4D Gaussian Splatting

Sung-Yeon Park,Adam Lee,Juanwu Lu,Can Cui,Luyang Jiang,Rohit Gupta,Kyungtae Han,Ahmadreza Moradipari,Ziran Wang

Main category: cs.RO

TL;DR: SIMSplat是一个基于语言对齐高斯泼溅的预测性驾驶场景编辑器,支持通过自然语言提示直观地操纵驾驶场景,并提供详细的对象级编辑功能。

  • Motivation: 现有的驾驶场景编辑框架由于编辑能力有限,难以高效生成逼真场景。SIMSplat旨在解决这一挑战,提供更直观和灵活的驾驶场景编辑能力。
  • Method: 通过将语言与高斯重建场景对齐,SIMSplat支持直接查询道路对象,实现精确灵活的编辑。方法包括详细的对象级编辑(添加新对象、修改车辆和行人轨迹)以及通过多智能体运动预测进行预测性路径优化。
  • Result: 在Waymo数据集上的实验表明,SIMSplat具有广泛的编辑能力和跨多种场景的适应性。
  • Conclusion: SIMSplat作为一个语言控制的编辑器,能够生成逼真的驾驶场景交互,为驾驶场景编辑提供了有效的解决方案。

[72] Work Zones challenge VLM Trajectory Planning: Toward Mitigation and Robust Autonomous Driving

Yifan Liao,Zhen Sun,Xiaoyun Qiu,Zixiao Zhao,Wenbing Tang,Xinlei He,Xinhu Zheng,Tianwei Zhang,Xinyi Huang,Xingshuo Han

Main category: cs.RO

TL;DR: 本文首次系统研究视觉语言模型在施工区域轨迹规划中的表现,发现主流VLMs在68%情况下生成错误轨迹,并提出REACT-Drive框架,通过检索增强生成技术显著提升轨迹规划精度和效率。

  • Motivation: 当前视觉语言模型在自动驾驶领域逐渐应用,但在施工区域这种具有不规则布局、临时交通控制和动态几何结构的复杂环境中,其轨迹规划能力尚未被充分探索。
  • Method: 提出REACT-Drive框架,结合检索增强生成技术:1)通过子图挖掘和聚类分析识别常见失败模式;2)利用VLMs将先验失败案例转化为约束规则和可执行代码;3)在新场景中检索相似模式指导轨迹生成。
  • Result: 在ROADWork数据集上,REACT-Drive相比VLM基线平均位移误差减少约3倍,推理时间仅0.58秒(远低于微调的17.90秒),并在15个真实施工区域场景中验证了强实用性。
  • Conclusion: REACT-Drive框架有效解决了VLMs在施工区域轨迹规划中的局限性,通过结合先验知识和检索机制显著提升了规划精度和效率,具有重要的实际应用价值。

[73] MM-Nav: Multi-View VLA Model for Robust Visual Navigation via Multi-Expert Learning

Tianyu Xu,Jiawei Chen,Jiazhao Zhang,Wenyao Zhang,Zekun Qi,Minghan Li,Zhizheng Zhang,He Wang

Main category: cs.RO

TL;DR: 提出MM-Nav多视角视觉语言动作模型,通过师生学习方式从合成专家数据中学习多样化导航能力,在仿真和真实环境中都表现出强大的泛化能力

  • Motivation: 视觉导航策略使用自我中心视觉观察进行导航,但视觉信息难以像LiDAR点云或深度图那样显式建模,需要智能模型和大规模数据
  • Method: 基于预训练大语言模型和视觉基础模型实现多视角VLA模型MM-Nav,从三个具有特权深度信息的RL专家收集专家数据,在三个定制环境中分别训练到达、挤压和避障能力,动态平衡训练比例
  • Result: 模型在仿真环境中展现出强大的泛化能力,学生VLA模型超越了RL教师,体现了多种能力整合的协同效应,真实世界实验进一步验证了有效性
  • Conclusion: 通过VLA模型和合成专家数据的师生学习,成功实现了多样化导航能力的集成和泛化,为视觉导航提供了有效解决方案

cs.CY

[74] Representing Beauty: Towards a Participatory but Objective Latent Aesthetics

Alexander Michael Rusnak

Main category: cs.CY

TL;DR: 该论文探讨神经网络如何表示美,发现审美内容能在不同模型间产生更一致的表征,表明美具有现实主义基础,而不仅仅是社会建构的产物。

  • Motivation: 研究机器如何识别美,探索神经网络是否能够建模审美判断,尽管美在哲学上难以定义且具有文化多样性。
  • Method: 利用跨模型表征收敛的最新工作,分析不同数据和模态训练的模型对美和非美图像的表征对齐程度。
  • Result: 审美图像在不同模型间产生更相似和对齐的表征,而非审美图像则不会,表明美具有形式结构的现实主义基础。
  • Conclusion: 美的表征具有现实主义基础,源于物理和文化物质的共同基础,人机共创不仅是可能的,而且是基础性的,美在文化生产和机器感知中作为目的论吸引子。