Skip to content
每日arXiv - 2025年10月7日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] SoC-DT: Standard-of-Care Aligned Digital Twins for Patient-Specific Tumor Dynamics

Moinak Bhattacharya,Gagandeep Singh,Prateek Prasanna

Main category: cs.CV

TL;DR: 本文提出了SoC-DT框架,这是一个可微分数字孪生系统,能够统一反应-扩散肿瘤生长模型和标准治疗干预,结合基因组和人口统计学个性化,预测治疗后肿瘤结构。

  • Motivation: 准确预测标准治疗下的肿瘤轨迹是肿瘤学中未满足的重要需求,传统反应-扩散模型无法捕捉异质性治疗范式下的肿瘤动态。
  • Method: 开发了SoC-DT可微分框架,结合反应-扩散肿瘤生长模型、离散标准治疗干预(手术、化疗、放疗),以及基因组和人口统计学个性化;提出了IMEX-SoC隐式-显式指数时间差分求解器确保稳定性、正性和可扩展性。
  • Result: 在合成数据和真实胶质瘤数据上评估,SoC-DT在预测肿瘤动态方面持续优于经典PDE基线和纯数据驱动的神经模型。
  • Conclusion: SoC-DT通过将机制可解释性与现代可微分求解器相结合,为肿瘤学中患者特异性数字孪生建立了原则性基础,实现了生物学一致的肿瘤动态估计。

[2] Visualizing Celebrity Dynamics in Video Content: A Proposed Approach Using Face Recognition Timestamp Data

Doğanay Demir,İlknur Durgar Elkahlout

Main category: cs.CV

TL;DR: 提出了一个结合分布式多GPU推理系统和交互式可视化平台的混合框架,用于分析视频剧集中的名人动态,通过高效处理大量视频数据并提供多维可视化分析。

  • Motivation: 在视频内容主导的时代,理解视频结构和动态变得越来越重要,需要能够高效处理大量视频数据并提供深入分析的工具。
  • Method: 使用优化的ONNX模型、异构批量推理和高吞吐量并行化的分布式多GPU推理系统处理视频数据,生成带时间戳的出现记录,然后通过交互式可视化平台展示多种图表。
  • Result: 系统能够生成包括出现频率图、时长分析、饼图、共同出现矩阵、网络图、堆叠面积图、季节比较和热力图在内的全面可视化,揭示名人知名度、屏幕时间分布、时间动态、共同出现关系和强度等模式。
  • Conclusion: 通过将分布式识别与结构化、视觉驱动的分析相结合,这项工作为娱乐分析、内容创作策略和观众参与研究开辟了新的可能性。

[3] Domain-Robust Marine Plastic Detection Using Vision Models

Saanvi Kataria

Main category: cs.CV

TL;DR: 本研究比较了不同深度学习模型在水下塑料垃圾跨域检测中的性能,发现轻量级CNN模型MobileNetV2表现最佳,而零样本模型CLIP和Gemini各有优势。

  • Motivation: 海洋塑料污染是紧迫的环境威胁,需要可靠的水下碎片自动检测系统。但由于领域偏移问题,在一个数据集上训练的视觉系统在新图像上性能会下降。
  • Method: 在标记的水下数据集上训练CNN(MobileNetV2、ResNet-18、EfficientNet-B0)和视觉变换器(DeiT-Tiny、ViT-B16),然后在来自不同来源的平衡跨域测试集上评估。同时评估了两个零样本模型CLIP ViT-L14和Gemini 2.0 Flash。
  • Result: 轻量级MobileNetV2提供最强的跨域性能(F1 0.97),超越更大模型。所有微调模型都实现了高精度(约99%),但在召回率上存在差异。零样本CLIP相对敏感但易产生假阳性,而Gemini则相反。
  • Conclusion: 具有监督训练的紧凑CNN可以有效地泛化用于跨域水下检测,而大型预训练视觉语言模型提供了互补优势。

[4] Multimodal Arabic Captioning with Interpretable Visual Concept Integration

Passant Elchafei,Amany Fashwan

Main category: cs.CV

TL;DR: VLCAP是一个阿拉伯语图像描述框架,通过CLIP视觉标签检索和多模态文本生成相结合,生成可解释的阿拉伯语图像描述。

  • Motivation: 传统的端到端图像描述方法缺乏可解释性,VLCAP旨在通过基于视觉概念检索的方法,生成文化相关且上下文准确的阿拉伯语图像描述。
  • Method: 使用三种多语言编码器(mCLIP、AraCLIP、Jina V4)进行视觉标签检索,构建包含训练描述和约21K通用领域标签的混合词汇表,然后将检索到的标签转换为阿拉伯语提示,与原始图像一起输入到视觉语言模型中进行描述生成。
  • Result: mCLIP + Gemini Pro Vision组合在BLEU-1(5.34%)和余弦相似度(60.01%)上表现最佳,而AraCLIP + Qwen-VL组合在LLM-judge评分(36.33%)上最高。
  • Conclusion: VLCAP框架能够生成文化一致且上下文准确的阿拉伯语图像描述,其可解释的流水线设计提高了生成质量。

[5] Convolutional Neural Nets vs Vision Transformers: A SpaceNet Case Study with Balanced vs Imbalanced Regimes

Akshar Gothi

Main category: cs.CV

TL;DR: 对比EfficientNet-B0和ViT-Base在SpaceNet数据集上的性能,包括在自然不平衡和平衡重采样两种标签分布下的表现,评估准确率、F1分数、模型大小和延迟等指标。

  • Motivation: 比较卷积神经网络和视觉Transformer在遥感图像分类任务中的性能差异,特别是在不同标签分布情况下的表现,为模型选择提供依据。
  • Method: 在SpaceNet数据集上进行控制实验,使用两种标签分布(自然不平衡和平衡重采样),匹配预处理、数据增强和训练预算,评估多个性能指标。
  • Result: 在不平衡分布下,EfficientNet-B0达到93%测试准确率且延迟更低;在平衡分布下,两者表现都很强,EfficientNet-B0达到99%,ViT-Base保持竞争力,但CNN在效率方面仍有优势。
  • Conclusion: 平衡数据分布可以缩小架构差距,但卷积神经网络在效率方面仍保持优势,为实际应用中的模型选择提供了重要参考。

[6] A Comprehensive Review on Artificial Intelligence Empowered Solutions for Enhancing Pedestrian and Cyclist Safety

Shucheng Zhang,Yan Shi,Bingzhang Wang,Yuang Zhang,Muhammad Monjurul Karim,Kehua Chen,Chenxi Liu,Mehrdad Nasri,Yinhai Wang

Main category: cs.CV

TL;DR: 本文综述了基于摄像头的AI感知系统在弱势道路使用者安全保护方面的最新进展,重点分析了检测分类、跟踪重识别、轨迹预测和意图识别四个核心任务,并指出了数据、模型和部署方面的挑战。

  • Motivation: 传统基础设施措施在动态城市环境中保护弱势道路使用者效果有限,而现有AI应用调查主要关注检测任务,缺乏对其他视觉任务的全面覆盖。
  • Method: 系统性地回顾了过去五年基于摄像头的AI感知系统在弱势道路使用者安全保护方面的研究进展,重点关注四个核心视觉任务。
  • Result: 识别了AI赋能的主动式弱势道路使用者保护解决方案的关键技术组成,包括检测分类、跟踪重识别、轨迹预测和意图识别预测四个核心任务。
  • Conclusion: 通过将视觉AI进展与现实部署考虑相结合,为开发下一代感知系统以增强弱势道路使用者安全提供了基础参考,并指出了未来研究方向。

[7] The View From Space: Navigating Instrumentation Differences with EOFMs

Ryan P. Demilt,Nicholas LaHaye,Karis Tenneson

Main category: cs.CV

TL;DR: 地球观测基础模型(EOFMs)的表示空间对传感器架构高度敏感,理解这种差异对当前EOFMs设计缺陷提供了重要视角,并为模型开发者和用户指明了前进方向。

  • Motivation: 现有EOFMs大多在单一模态数据上训练,然后通过匹配不同模态的波段来应用或评估,但传感器架构对EOFMs内部表示的影响尚不清楚。
  • Method: 分析EOFMs表示空间对传感器架构的敏感性,研究不同传感器设计如何影响模型内部表示。
  • Result: EOFMs的表示空间对传感器架构高度敏感,这种敏感性揭示了当前EOFMs设计的缺陷。
  • Conclusion: 理解传感器架构对EOFMs表示空间的影响,为模型开发者、用户和遥感科学社区提供了重要指导,指明了基于稳健遥感科学的发展方向。

[8] Photorealistic Inpainting for Perturbation-based Explanations in Ecological Monitoring

Günel Aghakishiyeva,Jiayi Zhou,Saagar Arya,James David Poling,Holly R. Houliston,Jamie N. Womble,David W. Johnston,Brinnae Bent

Main category: cs.CV

TL;DR: 提出了一种基于修复引导的扰动解释技术,通过生成逼真的掩码局部编辑来揭示计算机视觉模型在生态监测中的决策依据,特别是在海豹检测任务中。

  • Motivation: 生态监测中自动化视觉模型的不透明预测限制了信任和实际应用,需要可解释的方法来支持专家验证和AI在生态学中的可信部署。
  • Method: 使用修复引导的扰动解释技术,通过Segment-Anything-Model精炼的掩码支持两种干预:(i)对象移除/替换;(ii)背景替换,保持场景上下文和分布内特性。
  • Result: 该方法能够定位诊断结构,避免传统扰动的删除伪影,产生领域相关的见解,支持专家验证和生态学AI的可靠部署。
  • Conclusion: 该解释技术通过生成逼真的扰动图像,有效揭示了模型决策的形态学线索,为生态监测中的AI系统提供了可验证和可信的解释方法。

[9] Advances in Medical Image Segmentation: A Comprehensive Survey with a Focus on Lumbar Spine Applications

Ahmed Kabil,Ghada Khoriba,Mina Yousef,Essam A. Rashed

Main category: cs.CV

TL;DR: 这篇论文对医学图像分割方法进行了系统性综述,涵盖从传统图像处理技术到现代深度学习方法,特别关注了深度学习中CNN、FCN、U-Net等架构以及注意力机制、半监督学习等新兴趋势,并包含腰椎分割的案例研究。

  • Motivation: 医学图像分割在精确诊断、治疗规划和病情监测中具有关键作用,本文旨在弥合传统图像处理技术与现代深度学习方法之间的差距,提供该领域的全面概览。
  • Method: 采用系统性综述方法,涵盖阈值分割、边缘检测、区域分割、聚类算法、模型基础技术,以及CNN、FCN、U-Net等深度学习架构,还探讨了注意力机制、半监督学习、GAN和Transformer模型。
  • Result: 综述展示了医学图像分割领域从传统方法到深度学习的演进,突出了混合架构、跨模态学习、联邦学习等新兴趋势,并通过腰椎分割案例展示了该领域的具体应用和挑战。
  • Conclusion: 尽管医学图像分割领域取得了显著进展,但仍面临数据集偏差、领域适应、深度学习模型可解释性以及实际临床工作流集成等关键挑战。

[10] DECOR: Deep Embedding Clustering with Orientation Robustness

Fiona Victoria Stanley Jothiraj,Arunaggiri Pandian Karunanidhi,Seth A. Eichmeyer

Main category: cs.CV

TL;DR: DECOR是一个面向晶圆缺陷检测的深度聚类框架,通过考虑晶圆图的方向变化,能够在复杂、不平衡、未标记的数据条件下可靠地聚类缺陷模式。

  • Motivation: 半导体制造中,晶圆缺陷的早期检测对产品良率优化至关重要。但原始晶圆数据通常复杂、未标记、不平衡,且单个晶圆可能包含多个缺陷,需要设计在非理想数据条件下仍可靠的聚类方法。
  • Method: 提出DECOR框架,这是一种具有方向鲁棒性的深度聚类方法,能够将晶圆图中的复杂缺陷模式分组到一致的簇中,并显式考虑晶圆图的方向变化。
  • Result: 在MixedWM38数据集上的实验表明,DECOR能够无需手动调参即可发现簇,并且在聚类性能上优于现有基线方法。
  • Conclusion: DECOR为自动化视觉检测系统提供了一个可靠且可扩展的解决方案,能够确保空间相似的缺陷无论其旋转或对齐方式如何都能被一致地聚类。

[11] Error correction in multiclass image classification of facial emotion on unbalanced samples

Andrey A. Lebedev,Victor B. Kazantsev,Sergey V. Stasenko

Main category: cs.CV

TL;DR: 该论文提出了一种基于LSTM和注意力机制的面部表情分类方法,专门解决类别不平衡问题,通过错误校正技术提高对小样本类别的识别性能。

  • Motivation: 研究动机是解决多类别面部表情分类中的类别不平衡问题,特别是当某些情绪类别样本数量显著多于其他类别时,需要提高对小样本类别的识别准确率。
  • Method: 使用基于LSTM的神经网络模型,结合注意力机制聚焦于面部关键区域。实验采用六类子集训练,然后对第七类进行错误校正的方法。
  • Result: 结果显示所有类别都能进行校正,但效果各异。在测试样本中,对小类别的关键质量指标有所提升,表明该方法在寻找罕见事件方面具有潜力。
  • Conclusion: 该方法可有效应用于面部表情分析系统,以及在类别分布不平衡情况下需要稳定分类的任务中,特别是在反欺诈系统等寻找罕见事件的场景中。

[12] OpusAnimation: Code-Based Dynamic Chart Generation

Bozheng Li,Miao Yang,Zhenhan Chen,Jiawang Cao,Mushui Liu,Yi Lu,Yongliang Wu,Bin Zhang,Yangguang Ji,Licheng Tang,Jay Wu,Wenbo Zhu

Main category: cs.CV

TL;DR: 提出了DCG-Bench基准,评估多模态大语言模型在动态图表生成任务中的能力,并开发了Qwen2.5-VL-DCG-3B模型,在三个任务上平均性能提升8.31%。

  • Motivation: 多模态大语言模型在静态图表生成和理解方面已有显著进展,但在动态图表生成和理解方面的潜力尚未充分探索,需要填补这一研究空白。
  • Method: 构建了DCG-8K高质量数据集,包含指令-代码-视频三元组和QA对;提出两阶段训练方法,使用联合代码-视觉奖励进行组相对策略优化。
  • Result: 基准测试揭示了现有MLLM在视觉到图表任务中的不足;所提模型在三个任务上平均性能提升8.31%,仅用3B参数即可与专有模型性能相当。
  • Conclusion: 提出的训练方法有效,证明了在动态图表生成任务上的优越性能,代码和数据集将公开可用。

[13] Visual Odometry with Transformers

Vlardimir Yugay,Duy-Kien Nguyen,Theo Gevers,Cees G. M. Snoek,Martin R. Oswald

Main category: cs.CV

TL;DR: VoT是一个端到端的单目视觉里程计Transformer模型,无需手工组件如光束法平差、特征匹配、相机标定或密集3D重建,直接预测相机运动。

  • Motivation: 现有的单目视觉里程计方法依赖预训练深度学习组件和优化模块,形成复杂流水线,严重依赖相机标定和超参数调优,在未见过的真实场景中表现不佳。
  • Method: 提出VoT(Visual odometry Transformer),通过时空注意力处理单目帧序列,提取特征并建模全局关系,直接预测相机运动而无需估计密集几何结构,仅依赖相机位姿进行监督。
  • Result: 实验表明VoT能有效扩展到更大数据集,受益于更强的预训练骨干网络,在不同相机运动和标定设置下具有良好泛化性,性能优于传统方法且运行速度快3倍以上。
  • Conclusion: 单目视觉里程计可以通过端到端方式有效解决,VoT框架模块化灵活,可无缝集成各种预训练编码器作为特征提取器。

[14] Inference-Time Search using Side Information for Diffusion-based Image Reconstruction

Mahdi Farahbakhsh,Vishnu Teja Kunde,Dileep Kalathil,Krishna Narayanan,Jean-Francois Chamberland

Main category: cs.CV

TL;DR: 提出一种基于侧信息的推理时搜索算法,用于改进扩散模型在逆问题中的图像重建质量,平衡探索与利用,避免梯度引导中的奖励黑客伪影问题。

  • Motivation: 现有扩散模型方法在解决逆问题时通常忽略侧信息,而这些信息在严重不适定情况下能显著提升重建质量。
  • Method: 设计推理时搜索算法,利用侧信息引导采样过程,平衡探索与利用,可无缝集成到现有扩散基图像重建流程中。
  • Result: 在多种逆问题(框内修复、超分辨率、运动/高斯/非线性/盲去模糊等)上实验表明,该方法能持续提升扩散基图像重建算法的定性和定量性能。
  • Conclusion: 该方法优于包括奖励梯度引导算法在内的其他基线方法,为扩散模型在逆问题中的应用提供了更准确可靠的解决方案。

[15] Sonar Image Datasets: A Comprehensive Survey of Resources, Challenges, and Applications

Larissa S. Gomes,Gustavo P. Almeida,Bryan U. Moreira,Marco Quiroz,Breno Xavier,Lucas Soares,Stephanie L. Brião,Felipe G. Oliveira,Paulo L. J. Drews-Jr

Main category: cs.CV

TL;DR: 本文对声纳图像数据集进行了全面综述,分析了不同声纳模态的公开数据集,识别了研究空白,并为水下声学数据分析领域的研究者提供了路线图。

  • Motivation: 声纳图像对水下探索、自主导航和生态系统监测至关重要,但公开可用的、标注良好的声纳图像数据集稀缺,这限制了稳健机器学习模型的发展。
  • Method: 通过映射不同声纳模态(包括侧扫声纳、前视声纳、合成孔径声纳、多波束回声测深仪和双频识别声纳)的公开数据集,分析分类、检测、分割和3D重建等应用,并整合成主表和时序图。
  • Result: 生成了一个清晰可访问的数据集比较,包括特征、大小和标注细节,展示了最新的数据集进展。
  • Conclusion: 该综述为水下声学数据分析领域的研究者提供了基础指南,帮助他们在该领域开始或推进研究。

[16] Learned Display Radiance Fields with Lensless Cameras

Ziyang Chen,Yuta Itoh,Kaan Akşit

Main category: cs.CV

TL;DR: 提出了一种结合无透镜相机和隐式神经表示的显示校准方法,无需专业设备即可从多角度捕获显示特性。

  • Motivation: 传统显示校准需要专业设备和暗室环境,对大多数用户来说难以实现,因此需要开发无需专业硬件的便捷校准方案。
  • Method: 联合设计无透镜相机和基于隐式神经表示的算法,从多个视角捕获显示特性,能够重建46.6°×37.6°视角范围内的显示光场。
  • Result: 开发出的新兴流程能够高效重建显示器发出的光场,为轻松显示校准和特性分析奠定了基础。
  • Conclusion: 该方法为实现无需专业设备的显示校准迈出了初步但重要的步骤,有望解决显示校准的便利性问题。

[17] Provenance Networks: End-to-End Exemplar-Based Explainability

Ali Kayyam,Anusha Madan Gopal,M. Anthony Lewis

Main category: cs.CV

TL;DR: 提出溯源网络,一种新型神经网络模型,通过将预测直接关联到支持性训练样本来实现端到端的可解释性,类似于学习的KNN方法。

  • Motivation: 解决传统深度神经网络的不透明性、幻觉问题以及数据贡献者信用分配等挑战,提高模型的透明度、鲁棒性和可信度。
  • Method: 模型在正常操作中学习将每个预测直接链接到其支持训练样本,通过联合优化主任务和可解释性目标,嵌入可解释性到架构本身。
  • Result: 能够系统研究记忆与泛化的权衡,验证输入是否在训练集中,检测错误标签或异常数据点,增强对输入扰动的鲁棒性,并识别相似输入对新数据点的贡献。
  • Conclusion: 溯源网络为现有可解释性技术提供了补充方法,虽然引入额外计算成本且目前适用于中等规模数据集,但显著改善了神经模型的透明度、鲁棒性和可信度。

[18] Unified Unsupervised Anomaly Detection via Matching Cost Filtering

Zhe Zhang,Mingxiu Cai,Gaochang Wu,Jing Zhang,Lingqiao Liu,Dacheng Tao,Tianyou Chai,Xiatian Zhu

Main category: cs.CV

TL;DR: 提出统一成本过滤(UCF)框架,通过匹配视角统一处理单模态和多模态无监督异常检测,通过可学习的过滤模块减少匹配噪声并增强异常检测能力。

  • Motivation: 现有无监督异常检测方法在图像或特征级匹配中存在匹配噪声问题,且单模态和多模态方法相互隔离,缺乏统一理解和知识迁移。
  • Method: 构建异常成本体积,通过匹配测试样本与正常样本,然后使用多层注意力引导的可学习过滤模块进行细化。
  • Result: 在22个多样化基准测试中,UCF显著提升了多种UAD方法的性能,在单模态(RGB)和多模态(RGB-3D、RGB-Text)场景中均达到新的最先进水平。
  • Conclusion: UCF是一个通用的后处理细化框架,能有效减少匹配噪声并增强异常检测能力,为统一处理单模态和多模态无监督异常检测提供了有效解决方案。

[19] Visual Language Model as a Judge for Object Detection in Industrial Diagrams

Sanjukta Ghosh

Main category: cs.CV

TL;DR: 提出使用视觉语言模型(VLMs)评估工业图纸对象检测结果质量的框架,通过多模态能力识别缺失或不一致的检测,实现自动化质量评估和改进检测性能。

  • Motivation: 工业图纸数字化过程中缺乏自动评估对象检测结果质量的方法,现有算法虽有进步但无法自动评估输出质量。
  • Method: 利用视觉语言模型(VLMs)的多模态能力,识别检测结果中的缺失或不一致之处,指导检测结果精炼。
  • Result: 该框架能够自动评估对象检测质量并改进复杂工业图纸上的整体检测性能。
  • Conclusion: VLMs为工业图纸对象检测提供了有效的质量评估和精炼方法,填补了该领域的空白。

[20] Spatial-ViLT: Enhancing Visual Spatial Reasoning through Multi-Task Learning

Chashi Mahiul Islam,Oteo Mamo,Samuel Jacob Chacko,Xiuwen Liu,Weikuan Yu

Main category: cs.CV

TL;DR: 提出SpatialViLT模型,通过整合深度图、3D坐标和边缘图等空间特征来增强视觉语言模型的空间推理能力,在VSR数据集上取得最先进性能。

  • Motivation: 现有视觉语言模型在3D场景和复杂物体配置的空间推理方面仍面临挑战,需要增强空间理解能力。
  • Method: 引入SpatialViLT模型,通过多任务学习框架整合空间特征,提出两个变体:SpatialViLT和MaskedSpatialViLT,以及两者的集成SpatialEnsemble。
  • Result: 在VSR数据集上,模型在方向性、拓扑和邻近关系等空间推理类别中表现出色,达到最先进准确率。
  • Conclusion: 这项工作显著提升了AI系统的空间智能,对高级多模态理解和实际应用至关重要。

[21] Denoising of Two-Phase Optically Sectioned Structured Illumination Reconstructions Using Encoder-Decoder Networks

Allison Davis,Yezhi Shen,Xiaoyu Ji,Fengqing Zhu

Main category: cs.CV

TL;DR: 使用编码器-解码器网络减少两相光学切片结构照明显微镜中的伪影,通过合成训练数据解决缺乏干净地面真实数据的问题

  • Motivation: 两相光学切片结构照明显微镜中,减少采集时间会引入残留伪影,传统去噪方法难以有效抑制,而监督训练又缺乏干净的地面真实数据
  • Method: 使用非对称去噪自编码器和U-Net网络,通过在合成图像上应用真实伪影场来创建合成训练对,然后评估真实OS-SI图像
  • Result: 两种网络都提高了图像清晰度,各自在不同类型的伪影上表现优异
  • Conclusion: 合成训练能够实现OS-SI图像的监督去噪,编码器-解码器网络有潜力简化重建工作流程

[22] PEaRL: Pathway-Enhanced Representation Learning for Gene and Pathway Expression Prediction from Histology

Sejuti Majumder,Saarthak Kapse,Moinak Bhattacharya,Xuan Xu,Alisa Yurovsky,Prateek Prasanna

Main category: cs.CV

TL;DR: PEaRL是一个多模态框架,通过ssGSEA计算通路激活分数来表征转录组学,使用transformer编码生物通路信号,并通过对比学习与组织学特征对齐,在三个癌症空间转录组数据集中优于现有方法。

  • Motivation: 现有多模态方法依赖少量高变基因,限制了预测范围并忽视了协调的生物程序,需要更全面、生物意义更丰富的表征方法。
  • Method: 使用ssGSEA计算通路激活分数,用transformer编码通路信号,通过对比学习与组织学特征对齐,实现降维和跨模态对应。
  • Result: 在三个癌症ST数据集中,PEaRL在基因和通路水平表达预测方面均优于现有方法,Pearson相关系数分别提高达58.9%和20.4%。
  • Conclusion: 基于通路的转录组表征能产生更生物忠实和可解释的多模态模型,推动计算病理学超越基因水平嵌入。

[23] DuPLUS: Dual-Prompt Vision-Language Framework for Universal Medical Image Segmentation and Prognosis

Numan Saeed,Tausifa Jan Saleem,Fadillah Maani,Muhammad Ridzuan,Hu Wang,Mohammad Yaqub

Main category: cs.CV

TL;DR: DuPLUS是一个用于多模态医学图像分析的新型深度学习框架,通过分层语义提示和双提示机制实现细粒度任务控制,在分割任务中超越现有方法,并能扩展到预后预测等任务。

  • Motivation: 解决医学影像分析中任务特定模型泛化性差、现有通用方法条件控制简单且医学语义理解不足的问题。
  • Method: 提出基于视觉语言的分层语义提示框架,采用双提示机制实现文本控制架构,支持参数高效微调。
  • Result: 在10个医学数据集上,8个超越最先进方法;在头颈癌数据集上预后预测CI达到0.69;支持跨3种成像模态和30多个器官/肿瘤类型的分割。
  • Conclusion: DuPLUS是一个通用且临床相关的医学图像分析解决方案,具有出色的泛化性和扩展性。

[24] Real-Time Threaded Houbara Detection and Segmentation for Wildlife Conservation using Mobile Platforms

Lyes Saad Saoud,Loic Lesobre,Enrico Sorato,Irfan Hussain

Main category: cs.CV

TL;DR: 提出了一种移动优化的两阶段深度学习框架,通过线程化并行执行YOLOv10检测和MobileSAM分割,显著提升实时性能,在Houbara鸨鸟检测任务中取得优异结果。

  • Motivation: 自然环境中实时动物检测和分割对野生动物保护至关重要,但由于计算资源有限和物种隐蔽外观,这些任务仍然具有挑战性。
  • Method: 采用移动优化的两阶段框架,集成线程化检测模型(TDM)并行执行YOLOv10检测和MobileSAM分割,相比传统YOLO+SAM流水线通过线程化减少延迟。
  • Result: 在Houbara鸨鸟检测中达到mAP50为0.9627,mAP75为0.7731,mAP95为0.7178,MobileSAM mIoU为0.7421。YOLOv10每帧处理时间为43.7毫秒,满足实时需求。
  • Conclusion: 该框架成功实现了实时动物检测和分割,为野生动物保护提供了有效的非侵入式监测解决方案,并发布了包含40,000张标注图像的Houbara数据集。

[25] Platonic Transformers: A Solid Choice For Equivariance

Mohammad Mohaiminul Islam,Rishabh Anand,David R. Wessels,Friso de Kruiff,Thijs P. Kuipers,Rex Ying,Clara I. Sánchez,Sharvaree Vadgama,Georg Bökman,Erik J. Bekkers

Main category: cs.CV

TL;DR: Platonic Transformer通过将注意力机制与柏拉图立体对称群的参考框架相结合,实现了对连续平移和柏拉图对称性的等变性,同时保持了标准Transformer的架构和计算成本。

  • Motivation: 现有的Transformer缺乏对科学和计算机视觉中常见几何对称性的归纳偏置,而现有的等变方法往往通过复杂、计算密集型的设计牺牲了Transformer的效率和灵活性。
  • Method: 通过定义相对于柏拉图立体对称群参考框架的注意力机制,引入了一种原则性的权重共享方案,实现了对连续平移和柏拉图对称性的联合等变性。
  • Result: 在计算机视觉(CIFAR-10)、3D点云(ScanObjectNN)和分子属性预测(QM9、OMol25)等多个基准测试中,Platonic Transformer通过利用几何约束实现了有竞争力的性能,且无需额外成本。
  • Conclusion: Platonic Transformer成功解决了Transformer缺乏几何对称性归纳偏置的问题,在保持标准Transformer效率和灵活性的同时实现了几何等变性。

[26] Domain Generalization for Semantic Segmentation: A Survey

Manuel Schwonberg,Hanno Gottschalk

Main category: cs.CV

TL;DR: 这篇综述论文全面回顾了领域泛化语义分割的研究进展,重点分析了从传统方法到基于基础模型的范式转变,并提供了广泛的性能比较。

  • Motivation: 深度神经网络在未知领域的泛化能力仍然是一个重大挑战,特别是在语义分割任务中,这对生物医学和自动驾驶等应用至关重要。领域泛化方法旨在无需目标域知识的情况下实现跨域泛化。
  • Method: 作者对现有方法进行了聚类和系统回顾,识别了向基于基础模型的领域泛化方法的范式转变,并进行了广泛的性能比较分析。
  • Result: 性能比较突出了基础模型对领域泛化的显著影响,表明基于基础模型的方法在领域泛化语义分割任务中表现出色。
  • Conclusion: 该综述旨在推动领域泛化研究的发展,并激励科学家探索新的研究方向,特别是在基础模型应用方面。

[27] From Scope to Script: An Automated Report Generation Model for Gastrointestinal Endoscopy

Evandros Kaklamanos,Kristjana Kristinsdottir,Jonathan Huang,Dustin Carlson,Rajesh Keswani,John Pandolfino,Mozziyar Etemadi

Main category: cs.CV

TL;DR: 提出基于transformer的自动报告生成模型,通过两阶段训练框架减轻内窥镜检查的文档负担

  • Motivation: 内窥镜检查(如EGD和结肠镜检查)的文档负担给胃肠病学家带来巨大压力,导致临床工作流程效率低下和医生倦怠
  • Method: 使用基于transformer的视觉编码器和文本解码器,采用两阶段训练:先在图像/文本描述对上预训练,再在图像/报告对上微调
  • Result: 模型能够生成具有临床意义的检查发现
  • Conclusion: 该方法不仅简化了文档流程,还有望减少医生工作量并改善患者护理

[28] SketchPlan: Diffusion Based Drone Planning From Human Sketches

Sixten Norelius,Aaron O. Feldman,Mac Schwager

Main category: cs.CV

TL;DR: SketchPlan是一个基于扩散模型的规划器,通过2D手绘草图在深度图像上生成无人机3D飞行路径,实现零样本从仿真到现实的迁移。

  • Motivation: 解决如何让无人机通过人类直观的2D手绘草图来理解导航意图,并在未见过的真实环境中生成安全准确的3D飞行路径。
  • Method: 包含SketchAdapter(将手绘草图映射到2D投影路径)和DiffPath(从2D投影和第一人称深度图像推断3D轨迹)两个组件,使用混合标注数据和模块化设计。
  • Result: 在真实世界无人机测试中,低/中等障碍物环境下达到100%成功率,高障碍物环境下达到40%成功率,比关键消融实验高出20-60%。
  • Conclusion: 通过混合人类标注和自动标注数据训练,结合模块化设计,SketchPlan能够准确解读人类意图并推断3D路径,实现有效的零样本仿真到现实迁移。

[29] Unmasking Puppeteers: Leveraging Biometric Leakage to Disarm Impersonation in AI-based Videoconferencing

Danial Samadi Vahdati,Tai Duc Nguyen,Ekta Prashnani,Koki Nagano,David Luebke,Orazio Gallo,Matthew Stamm

Main category: cs.CV

TL;DR: 提出了一种基于生物特征泄漏防御的方法,通过分析姿态-表情潜在空间中的身份信息来检测实时视频会议中的身份劫持攻击。

  • Motivation: AI驱动的说话头视频会议系统通过传输紧凑的姿态-表情潜在表示来降低带宽,但这种潜在表示可能被恶意操控,导致攻击者实时劫持受害者的身份。由于每帧都是合成的,传统的深度伪造检测器完全失效。
  • Method: 利用姿态-表情潜在空间固有包含驱动身份的生物特征信息这一关键观察,提出了一个姿态条件化的大间隔对比编码器,该编码器在传输的潜在表示中分离出持久的身份线索,同时消除瞬时的姿态和表情信息。
  • Result: 在多个说话头生成模型上的实验表明,该方法始终优于现有的傀儡攻击防御方法,能够实时运行,并在分布外场景中表现出强大的泛化能力。
  • Conclusion: 通过在潜在空间层面进行生物特征分析,而不是依赖重建的RGB视频,该方法为实时视频会议系统提供了一种有效的身份劫持防御机制。

[30] Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Junbao Zhou,Yuan Zhou,Kesen Zhao,Qingshan Xu,Beier Zhu,Richang Hong,Hanwang Zhang

Main category: cs.CV

TL;DR: 提出了REVEL任务和DragStream方法,实现自回归视频扩散模型的流式细粒度交互式拖拽控制,解决潜在空间漂移和上下文干扰问题。

  • Motivation: 自回归视频扩散模型难以实现流式细粒度控制,无法确保输出始终符合用户期望。
  • Method: 提出训练无关的DragStream方法,包含自适应分布自校正策略和空间频率选择性优化机制。
  • Result: 方法可无缝集成到现有自回归视频扩散模型中,实验证明其有效性。
  • Conclusion: REVEL任务和DragStream方法成功解决了视频流式拖拽操作中的潜在分布漂移和上下文干扰问题。

[31] GAS-MIL: Group-Aggregative Selection Multi-Instance Learning for Ensemble of Foundation Models in Digital Pathology Image Analysis

Peiran Quan,Zifan Gu,Zhuo Zhao,Qin Zhou,Donghan M. Yang,Ruichen Rong,Yang Xie,Guanghua Xiao

Main category: cs.CV

TL;DR: 提出GAS-MIL框架,通过集成多个基础模型特征,无需手动特征选择或精细调优,在多种癌症分类任务中表现优于单个模型和传统方法。

  • Motivation: 基础模型在计算病理学中应用广泛,但针对特定诊断任务进行适配和基准测试耗时耗力,需要解决多模型集成和特征利用的挑战。
  • Method: 开发Group-Aggregative Selection多示例学习框架,无缝集成多个基础模型特征,保留其互补优势,避免手动特征选择和任务特定调优。
  • Result: 在前列腺癌(PANDA)、卵巢癌(UBC-OCEAN)和乳腺癌(TCGA-BrCa)三个数据集上,GAS-MIL持续优于单个基础模型和传统MIL方法。
  • Conclusion: GAS-MIL通过高效集成异构基础模型,简化了病理学模型部署,为未来多模态和精准肿瘤学应用提供了可扩展基础。

[32] Real-Time Assessment of Bystander Situation Awareness in Drone-Assisted First Aid

Shen Chang,Renran Tian,Nicole Adams,Nan Kong

Main category: cs.CV

TL;DR: 开发了基于无人机的纳洛酮递送系统,通过实时评估旁观者情境意识来改善阿片类药物过量急救响应

  • Motivation: 解决无人机递送纳洛酮系统中旁观者情境意识实时评估的研究空白,提升人类-自主系统协作效率
  • Method: 创建DANDSD数据集,提出基于图嵌入和Transformer模型的视频实时SA评估框架,整合几何、运动学和交互图特征
  • Result: 实现了高性能的SA预测,在时间分割准确率上比FINCH基线高出9% MoF和5% IoU
  • Conclusion: 该框架支持开发能有效指导旁观者的自适应无人机系统,改善急救响应效果并挽救生命

[33] Evaluating OCR performance on food packaging labels in South Africa

Mayimunah Nagayi,Alice Khan,Tamryn Frank,Rina Swart,Clement Nyirenda

Main category: cs.CV

TL;DR: 评估四种开源OCR系统在食品包装图像上的性能,重点关注成分表和营养面板提取。Tesseract在准确率上表现最佳,EasyOCR在准确率和多语言支持间取得平衡,PaddleOCR覆盖率高但速度慢,TrOCR表现最差。

  • Motivation: 食品包装上的OCR对合规性和营养监测很重要,但由于多语言文本、密集布局、字体多样、反光和曲面等挑战,准确提取成分表和营养面板具有难度。
  • Method: 使用231个产品(1,628张图像)的数据集评估四种OCR系统(Tesseract、EasyOCR、PaddleOCR、TrOCR),其中113张图像(60个产品)作为真实标注子集用于准确率评估。评估指标包括字符错误率、词错误率、BLEU、ROUGE-L、F1、覆盖率和执行时间。
  • Result: 在真实标注子集上,Tesseract获得最低字符错误率(0.912)和最高BLEU分数(0.245)。EasyOCR在准确率和多语言支持间表现均衡。PaddleOCR实现近乎完全覆盖但速度较慢(仅CPU运行)。TrOCR尽管使用GPU加速,但表现最差。
  • Conclusion: 研究为包装OCR提供了特定基准,建立了基线,并指出了布局感知方法和文本定位的发展方向。

[34] FrameOracle: Learning What to See and How Much to See in Videos

Chaoyu Li,Tianzhi Li,Fei Tao,Zhenyu Zhao,Ziqian Wu,Maozheng Zhao,Juntong Song,Cheng Niu,Pooyan Fazli

Main category: cs.CV

TL;DR: FrameOracle是一个轻量级即插即用模块,能够预测视频中最相关的帧以及回答问题所需的最少帧数,显著提升视频理解的效率和准确性。

  • Motivation: 现有的视频语言模型在处理视频时受限于输入帧数,传统的均匀采样或固定预算采样策略无法适应信息密度和任务复杂度的变化,导致效率低下和信息丢失。
  • Method: FrameOracle通过四阶段课程学习训练,前三阶段使用跨模态相似度等弱代理信号,最后阶段利用新构建的FrameOracle-41K数据集提供的强监督关键帧标注。
  • Result: 在5个VLMs和6个基准测试中,FrameOracle将16帧输入平均减少到10.4帧且不损失准确率;从64帧候选帧中平均减少到13.9帧,同时准确率提升1.4%。
  • Conclusion: FrameOracle实现了视频理解中效率与准确性的最优权衡,为可扩展视频理解提供了最先进的解决方案。

[35] A Hybrid Co-Finetuning Approach for Visual Bug Detection in Video Games

Faliu Yi,Sherif Abdelfattah,Wei Huang,Adrian Brown

Main category: cs.CV

TL;DR: 提出混合协同微调(CFT)方法,结合标记和未标记数据,有效解决游戏视觉bug检测中标记数据稀缺的问题。

  • Motivation: 游戏视觉bug的手动识别成本高且需要专业知识,而监督学习模型依赖大量标记数据,但此类bug出现频率低,标记数据获取困难。
  • Method: 采用混合协同微调方法,整合目标游戏和同领域游戏的标记样本,并加入未标记数据来增强特征表示学习。
  • Result: 实验结果显示该方法在多种游戏环境中优于传统基线方法,即使仅使用目标游戏50%的标记数据仍保持竞争力。
  • Conclusion: CFT方法有效降低了特定目标游戏对标记数据的依赖,提升了视觉bug检测的可扩展性和适应性。

[36] Exploring the Hierarchical Reasoning Model for Small Natural-Image Classification Without Augmentation

Alexander V. Mantzaris

Main category: cs.CV

TL;DR: HRM模型在MNIST上表现良好(≈98%测试准确率),但在CIFAR-10和CIFAR-100上过拟合且泛化能力差,不如简单的卷积网络基准模型。

  • Motivation: 探究HRM模型是否可以作为实用的图像分类器,特别是在原始训练条件下(无数据增强、相同优化器设置)。
  • Method: 使用HRM模型,包含两个Transformer模块,采用一步训练、深度监督、旋转位置编码和RMSNorm,在MNIST、CIFAR-10和CIFAR-100数据集上评估。
  • Result: HRM在MNIST上达到98%测试准确率,但在CIFAR-10上仅65.0%(CNN基准77.2%),CIFAR-100上仅29.7%(CNN基准45.3%),且训练速度慢30倍。
  • Conclusion: 在无数据增强的小分辨率图像分类任务中,当前HRM模型不如简单卷积架构,但模型改进可能带来显著提升。

[37] Unsupervised Transformer Pre-Training for Images: Self-Distillation, Mean Teachers, and Random Crops

Mattia Scardecchia

Main category: cs.CV

TL;DR: DINOv2在自监督学习中超越弱监督方法,通过多裁剪视图增强和均值教师自蒸馏技术实现最佳性能。

  • Motivation: 自监督学习能够学习捕捉图像高级语义和细粒度空间结构的通用视觉特征,DINOv2在此领域建立了新的技术标杆。
  • Method: 采用多裁剪视图增强和均值教师自蒸馏方法,结合transformer骨干网络。
  • Result: DINOv2在大多数基准测试中超越了OpenCLIP等弱监督方法,并在各种下游任务中表现出色。
  • Conclusion: DINOv2具有显著影响,但仍存在局限性,为未来研究指明了方向。

[38] Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL

Ruitao Wu,Yifan Zhao,Guangyao Chen,Jia Li

Main category: cs.CV

TL;DR: 提出了Diffusion-Classifier Synergy (DCS)框架,通过在扩散模型和FSCIL分类器之间建立相互促进的循环,利用基于分类器状态的动态多面奖励函数指导扩散模型生成,显著提升了小样本类增量学习的性能。

  • Motivation: 解决FSCIL中由于稳定性-可塑性困境和数据稀缺导致的泛化困难问题,现有方法依赖有限数据集,而直接应用扩散模型可能导致语义不对齐或无效指导。
  • Method: 采用奖励对齐学习策略,构建特征级和logits级双重奖励机制:特征级确保语义一致性和多样性,logits级促进探索性图像生成和增强类间区分度。
  • Result: 在FSCIL基准测试中实现了最先进的性能,显著提升了知识保留和新类学习能力。
  • Conclusion: DCS框架通过扩散模型和分类器的协同进化,有效解决了FSCIL中的数据稀缺和泛化挑战,为小样本增量学习提供了新的解决方案。

[39] MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

Jiang Wu,Sichao Wu,Yinsong Ma,Guangyuan Yu,Haoyuan Xu,Lifang Zheng,Jingliang Duan

Main category: cs.CV

TL;DR: MonitorVLM是一个基于视觉-语言模型的智能安全监控框架,专门用于从监控视频中自动检测矿业工人的安全违规行为,通过动态条款筛选和行为放大模块显著提升了检测精度和效率。

  • Motivation: 传统人工检查在矿业等高危领域存在劳动密集、易出错且难以适应大规模动态环境的问题,迫切需要智能化的自动安全监控解决方案。
  • Method: 提出MonitorVLM框架,包含三个关键创新:1) 构建包含9000个VQA样本的领域特定违规数据集;2) 动态选择Top-K相关条款的条款筛选模块,降低推理延迟13.56%;3) 增强工人区域的行为放大模块,提升细粒度动作识别能力。
  • Result: 实验结果显示,MonitorVLM显著优于基线模型,在精度、召回率和F1分数上分别提升22.01%、34.22%和28.37%。行为放大模块额外带来3.45%精度和8.62%召回率提升。
  • Conclusion: 该研究展示了多模态大模型在提升矿业等职业安全监控方面的潜力,通过轻量级Web界面实现了自动违规报告和视频时间戳记录的实际应用。

[40] A Novel Cloud-Based Diffusion-Guided Hybrid Model for High-Accuracy Accident Detection in Intelligent Transportation Systems

Siva Sai,Saksham Gupta,Vinay Chamola,Rajkumar Buyya

Main category: cs.CV

TL;DR: 提出了一种将扩散模型与智能交通系统结合的新型混合模型,用于交通事故检测,准确率达到97.32%。

  • Motivation: 传统分类方法在处理复杂数据分布方面存在不足,扩散模型能有效理解复杂数据分布,提升交通事故检测性能。
  • Method: 使用改进的ExceptionNet架构输出作为扩散模型输入,结合图像张量作为条件,构建多条件模块来动态调整输入线性投影,采用云基实现以解决计算密集问题。
  • Result: 在公开数据集上评估,提出的扩散模型在基于图像的交通事故检测中表现最佳,准确率达到97.32%。
  • Conclusion: 扩散模型与智能交通系统的结合显著提升了交通事故检测能力,通过消融研究验证了关键扩散特性的重要性。

[41] SAMSOD: Rethinking SAM Optimization for RGB-T Salient Object Detection

Zhengyi Liu,Xinrui Wang,Xianyong Fang,Zhengzheng Tu,Linbo Wang

Main category: cs.CV

TL;DR: 提出SAMSOD模型,通过单模态监督增强非主导模态学习,使用梯度解冲突减少冲突梯度对收敛的影响,并利用解耦适配器分别处理高激活和低激活神经元以增强背景学习。

  • Motivation: 现有RGB-T显著目标检测方法在微调Segment Anything Model时忽略了两种模态的不平衡收敛以及高激活和低激活之间的显著梯度差异,这限制了性能的进一步提升。
  • Method: 使用单模态监督增强非主导模态学习,采用梯度解冲突技术减少冲突梯度对模型收敛的影响,并利用两个解耦适配器分别掩码高激活和低激活神经元来强调前景对象。
  • Result: 在RGB-T SOD基准数据集上的基础实验以及在涂鸦监督RGB-T SOD、全监督RGB-D SOD数据集和全监督RGB-D轨道表面缺陷检测上的泛化性实验均证明了所提方法的有效性。
  • Conclusion: SAMSOD模型通过解决模态不平衡收敛和梯度差异问题,有效提升了RGB-T显著目标检测的性能,并在多个任务上展现出良好的泛化能力。

[42] Referring Expression Comprehension for Small Objects

Kanoko Goto,Takumi Hirose,Mahiro Ukai,Shuhei Kurita,Nakamasa Inoue

Main category: cs.CV

TL;DR: 提出针对小目标指代表达理解的新数据集SOREC和参数高效微调方法PIZA,显著提升了小目标定位精度

  • Motivation: 虽然视觉语言学习在指代表达理解方面取得进展,但在自动驾驶等实际应用中定位极小目标仍面临重大挑战
  • Method: 构建包含10万对指代表达和边界框的SOREC数据集,并提出渐进迭代缩放适配器PIZA进行参数高效微调
  • Result: 在SOREC数据集上应用PIZA到GroundingDINO模型,准确率显著提升
  • Conclusion: 提出的数据集和方法有效解决了小目标定位问题,相关资源已公开

[43] Artery-Vein Segmentation from Fundus Images using Deep Learning

Sharan SK,Subin Sahayam,Umarani Jayaraman,Lakshmi Priya A

Main category: cs.CV

TL;DR: 提出了一种基于注意力机制的Attention-WNet深度学习模型,用于视网膜血管分割中的动静脉分类,在HRF和DRIVE数据集上表现优于现有方法。

  • Motivation: 视网膜血管分割成动脉和静脉是视网膜血管分析的前提,这种分析可以为识别和诊断各种视网膜眼病提供潜在见解和生物标志物。血管规律性和宽度的改变可以作为全身血管系统健康的指标,帮助识别高风险血管疾病患者。
  • Method: 基于注意力机制,将其整合到WNet深度学习模型中,构建了Attention-WNet模型。
  • Result: 在HRF和DRIVE等公开数据集上测试,该方法的性能优于文献中现有的最先进模型。
  • Conclusion: 提出的Attention-WNet方法在视网膜动静脉分割任务中表现出色,为视网膜血管分析提供了有效的解决方案。

[44] Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models

Leander Girrbach,Stephan Alaniz,Genevieve Smith,Trevor Darrell,Zeynep Akata

Main category: cs.CV

TL;DR: 该研究通过为LAION-400M数据集创建人物中心标注,揭示了训练数据中的人口统计不平衡与下游模型偏见之间的直接联系。

  • Motivation: 解决大规模多模态数据集中缺乏人口统计标注的问题,以理解训练数据在产生模型偏见中的作用。
  • Method: 通过结合目标检测、多模态字幕生成和微调分类器的验证自动标注流程,为整个数据集创建人物中心标注。
  • Result: 发现了人口统计不平衡和有害关联,如男性、黑人和中东裔个体与犯罪相关和负面内容的不成比例关联,并显示CLIP和Stable Diffusion中60-70%的性别偏见可由数据中的直接共现线性解释。
  • Conclusion: 建立了首个大规模实证联系,证明数据集组成与下游模型偏见之间的直接关系。

[45] Mapping Rio de Janeiro's favelas: general-purpose vs. satellite-specific neural networks

Thomas Hallopeau,Joris Guérin,Laurent Demagistri,Youssef Fouzai,Renata Gracie,Vanderlei Pascoal De Matos,Helen Gurgel,Nadine Dessay

Main category: cs.CV

TL;DR: 比较两种预训练神经网络在里约热内卢贫民窟检测中的表现:通用网络(大数据量)vs 专用卫星图像网络(任务特定性),探讨哪种因素对检测性能更重要

  • Motivation: 现有深度学习方法尚未充分利用预训练神经网络的潜力,需要研究任务特定性与数据量哪个因素对贫民窟检测性能影响更大
  • Method: 使用两种预训练神经网络:1)在大型多样化数据集上预训练的通用网络;2)在卫星图像上预训练的专用网络,比较它们在里约热内卢贫民窟检测任务中的表现
  • Result: 论文通过实验比较了两种网络的性能,但具体结果未在摘要中提供
  • Conclusion: 研究旨在确定在非正式住区检测中,任务特定性与数据量哪个因素能带来更优越的性能

[46] LoRA Patching: Exposing the Fragility of Proactive Defenses against Deepfakes

Zuomin Qu,Yimao Guo,Qianyue Hu,Wei Lu

Main category: cs.CV

TL;DR: 提出LoRA修补方法,通过向Deepfake生成器注入可插拔的LoRA补丁来绕过最先进的防御系统,并引入防御性LoRA修补作为补充解决方案。

  • Motivation: 现有的主动防御方法在防止Deepfake操纵方面缺乏鲁棒性和可靠性,需要开发更有效的攻击和防御策略。
  • Method: 使用低秩适应(LoRA)修补技术,结合可学习门控机制防止梯度爆炸,并引入多模态特征对齐(MMFA)损失函数进行语义级特征对齐。
  • Result: 仅用1000个面部样本和单轮微调,LoRA修补成功击败了多个主动防御系统,揭示了当前防御范式的关键弱点。
  • Conclusion: 当前Deepfake防御策略存在严重漏洞,需要开发更鲁棒的防御方法,同时提出的防御性LoRA修补可作为补充解决方案。

[47] The Overlooked Value of Test-time Reference Sets in Visual Place Recognition

Mubariz Zaffar,Liangliang Nan,Sebastian Scherer,Julian F. P. Kooij

Main category: cs.CV

TL;DR: 提出了一种参考集微调(RSF)方法,通过在测试时参考集上微调VPR模型,显著提升在具有显著训练-测试域差距的挑战性基准上的性能。

  • Motivation: 现有VPR方法在训练-测试域差距大的挑战性基准上表现不佳,而测试时参考集包含目标域信息,可作为补充信息源来弥合这一差距。
  • Method: 提出参考集微调(RSF),在测试时参考集上对SOTA VPR模型进行简单微调,利用参考集中的图像和姿态信息。
  • Result: 在挑战性数据集上平均提升Recall@1约2.3%,微调后的模型保持泛化能力,且RSF方法适用于多种测试数据集。
  • Conclusion: RSF是一种有效的方法,能够利用测试时参考集信息显著提升VPR模型在域差距大的挑战性基准上的性能。

[48] Adaptively Sampling-Reusing-Mixing Decomposed Gradients to Speed Up Sharpness Aware Minimization

Jiaxin Deng,Junbiao Pang

Main category: cs.CV

TL;DR: ARSAM通过自适应采样-重用-混合分解梯度来加速SAM,在保持泛化能力的同时将训练速度提升约40%。

  • Motivation: SAM虽然能提升模型泛化能力,但计算成本是SGD的两倍,需要更高效的优化方法。
  • Method: 将SAM梯度分解为SGD梯度和二阶梯度在一阶梯度上的投影(PSF),并自适应地重用PSF以减少计算量。
  • Result: 在CIFAR-10/100等数据集上达到与SAM相当的准确率,速度提升约40%,并在姿态估计、模型量化等任务中有效。
  • Conclusion: ARSAM在保持SAM泛化优势的同时显著降低了计算成本,具有广泛的实用性。

[49] CoPA: Hierarchical Concept Prompting and Aggregating Network for Explainable Diagnosis

Yiheng Dong,Yi Lin,Xin Yang

Main category: cs.CV

TL;DR: CoPA框架通过概念提示和聚合机制,从视觉编码器的多层提取概念表示,利用概念感知嵌入生成器和概念提示调优来增强关键概念相关视觉线索,提升概念和疾病预测性能。

  • Motivation: 深度学习模型在临床诊断中需要透明度,概念瓶颈模型通过将黑盒模型的潜在空间转化为人类可理解的概念来提供清晰的决策过程,但现有方法在概念捕获能力上面临挑战,主要依赖最终层特征而忽视浅层和多尺度特征,缺乏有效的概念编码指导。
  • Method: 提出概念提示和聚合(CoPA)框架,使用概念感知嵌入生成器(CEG)从视觉编码器的每一层提取概念表示,同时这些表示作为概念提示调优(CPT)的提示,引导模型放大关键概念相关视觉线索,并将各层视觉表示聚合以对齐文本概念表示。
  • Result: 在三个公共数据集上的广泛实验结果表明,CoPA在概念和疾病预测方面优于最先进的方法。
  • Conclusion: CoPA框架能够有效捕获和利用图像中有价值的概念信息,从而改善概念和疾病预测的性能。

[50] Efficiency vs. Efficacy: Assessing the Compression Ratio-Dice Score Relationship through a Simple Benchmarking Framework for Cerebrovascular 3D Segmentation

Shimaa Elbana,Ahmad Kamal,Shahd Ahmed Ali,Ahmad Al-Kabbany

Main category: cs.CV

TL;DR: ZFP压缩技术能在保持脑血管分割性能的同时,显著减少3D医学影像数据大小(最高22.89:1压缩比),Dice系数仅从0.8774降至0.87656。

  • Motivation: 3D医学影像数据集日益庞大复杂,阻碍了协作研究和可移植性,需要找到既能压缩数据又不影响自动脑血管分割性能的方法。
  • Method: 在包含真实血管分割的3D医学数据集上应用ZFP压缩技术的误差容忍和固定速率两种模式,并与未压缩基准进行严格比较。
  • Result: ZFP实现了显著的数据缩减(最高22.89:1压缩比),同时保持了高保真度,平均Dice系数保持在0.87656的高水平。
  • Conclusion: ZFP是促进大规模医学数据集更高效、更易访问研究的可行且强大的工具,有助于推动更广泛的社区合作。

[51] MambaCAFU: Hybrid Multi-Scale and Multi-Attention Model with Mamba-Based Fusion for Medical Image Segmentation

T-Mai Bui,Fares Bougourzi,Fadi Dornaika,Vinh Truong Hoang

Main category: cs.CV

TL;DR: 提出了一种用于医学图像分割的混合架构,结合CNN、Transformer和Mamba注意力融合机制,通过三分支编码器捕获局部、全局和长程依赖关系,在保持计算效率的同时提升分割精度和泛化能力。

  • Motivation: 现有医学图像分割模型多为任务特定,在不同模态和解剖区域的性能差异大,且在临床环境中难以平衡模型复杂度和性能。需要一种既准确又高效的通用分割方法。
  • Method: 采用三分支编码器集成CNN、Transformer和Mamba注意力融合机制,结合多尺度注意力CNN解码器重建分割图,并使用协同注意力门增强跨尺度特征选择和交互。
  • Result: 在多个基准数据集上的实验表明,该方法在准确性和泛化性方面优于现有最先进方法,同时保持可比较的计算复杂度。
  • Conclusion: 该架构通过有效平衡效率和效果,为多样化医学成像任务提供了实用且可扩展的解决方案。

[52] Road Damage and Manhole Detection using Deep Learning for Smart Cities: A Polygonal Annotation Approach

Rasel Hossen,Diptajoy Mistry,Mushiur Rahman,Waki As Sami Atikur Rahman Hridoy,Sajib Saha,Muhammad Ibrahim

Main category: cs.CV

TL;DR: 使用YOLOv9算法和多边形标注的深度学习方法来自动检测道路损坏和井盖,在孟加拉国达卡收集的数据集上训练,总体准确率78.1%,在道路损坏检测上表现良好但井盖检测因类别不平衡而效果较差。

  • Motivation: 城市安全和基础设施维护是智慧城市发展的关键组成部分,手动监测道路损坏耗时、成本高且容易出错,需要自动化解决方案。
  • Method: 采用YOLOv9算法,使用多边形标注而非传统边界框标注来更精确地定位道路缺陷,构建包含1000多张图像的数据集,训练三类检测模型(损坏、未损坏、井盖)。
  • Result: 总体图像级准确率78.1%,损坏类F1分数86.7%,未损坏类F1分数89.2%,井盖类F1分数仅18.2%(因类别不平衡问题)。
  • Conclusion: 该方法为发展中国家城市基础设施监控提供了高效可扩展的解决方案,多边形标注提高了定位精度,但需要解决类别不平衡问题以改善井盖检测性能。

[53] Contrastive-SDE: Guiding Stochastic Differential Equations with Contrastive Learning for Unpaired Image-to-Image Translation

Venkata Narendra Kotyada,Revanth Eranki,Nagesh Bhattu Sristy

Main category: cs.CV

TL;DR: 提出了一种结合对比学习和扩散模型的非配对图像转换方法,通过时间相关的对比学习保留域不变特征,并用对比模型指导预训练SDE进行图像转换。

  • Motivation: 非配对图像转换缺乏对齐样本,扩散模型能生成高质量多样化输出,对比学习能在无监督下学习语义相似性,两者结合可有效解决非配对转换问题。
  • Method: 使用SimCLR训练时间相关对比学习模型,将图像与其域不变特征作为正样本对,然后用学习到的对比模型指导预训练随机微分方程进行图像转换。
  • Result: 在三个常见非配对图像转换任务上与多个基线方法比较,使用四个评估指标,在多个指标上达到与最先进方法相当的结果,且收敛更快、无需标签监督或分类器训练。
  • Conclusion: Contrastive-SDE是一种更高效的非配对图像转换替代方案,结合了对比学习和扩散模型的优势,实现了快速收敛和无监督学习。

[54] LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization

Xueyang Zhou,Yangming Xu,Guiyao Tie,Yongchao Chen,Guowen Zhang,Duanfeng Chu,Pan Zhou,Lichao Sun

Main category: cs.CV

TL;DR: LIBERO-PRO扩展了LIBERO基准,在四个维度上系统评估模型性能,发现现有模型在标准评估中达到90%以上准确率,但在广义设置下崩溃到0.0%,暴露了模型依赖训练集记忆而非真正任务理解的问题。

  • Motivation: 当前LIBERO基准的训练和评估设置存在问题,导致性能估计过高,无法公平比较模型。需要更严格的评估方法来测试模型的泛化能力和真实理解。
  • Method: 引入LIBERO-PRO基准,在四个维度上系统评估模型性能:操纵对象、初始状态、任务指令和环境。通过合理的扰动测试模型的鲁棒性。
  • Result: 实验结果显示,现有模型在标准LIBERO评估中达到90%以上准确率,但在LIBERO-PRO的广义设置下性能崩溃到0.0%。模型表现出对训练集动作序列和环境布局的死记硬背,缺乏真正的任务理解。
  • Conclusion: 当前评估实践存在严重缺陷,呼吁社区放弃误导性方法,采用更严格的评估来测试模型的泛化能力和理解力。LIBERO-PRO为更稳健的模型评估提供了新标准。

[55] Mirage: Unveiling Hidden Artifacts in Synthetic Images with Large Vision-Language Models

Pranav Sharma,Shivank Garg,Durga Toshniwal

Main category: cs.CV

TL;DR: 提出了Mirage数据集,包含具有可见伪影的AI生成图像,并研究大型视觉语言模型在可解释AI图像检测中的应用。

  • Motivation: 当前AI生成图像越来越难以被标准检测器识别,但人类仍能区分。需要研究更有效的检测方法,特别是利用大型视觉语言模型。
  • Method: 构建Mirage数据集,包含各种具有可见伪影的AI生成图像,并在该数据集和现有基准数据集上测试大型视觉语言模型的检测能力。
  • Result: 大型视觉语言模型能有效检测具有可见伪影的AI生成图像,但在缺乏此类线索的图像上性能下降。
  • Conclusion: 大型视觉语言模型在检测具有可见伪影的AI生成图像方面表现优异,但在更逼真的图像上仍有局限性。

[56] UGround: Towards Unified Visual Grounding with Unrolled Transformers

Rui Qian,Xin Yin,Chuanhang Deng,Zhiyuan Peng,Jian Xiong,Wei Zhai,Dejing Dou

Main category: cs.CV

TL;DR: UGround提出了一种统一的视觉定位范式,通过动态选择Transformer中间层作为“mask as prompt”,解决了现有方法依赖固定最后一层和使用作为提示的两个主要问题。

  • Motivation: 现有视觉定位方法存在两个主要问题:(1)依赖固定的最后一层隐藏层,导致层间传播误差累积;(2)使用作为提示,缺乏明确的空间线索。
  • Method: 提出了Policy-Prompted Masking方法,包含两个关键组件:随机跳跃连接(SSC)和Mask as Prompt(MasP)。SSC通过强化学习策略动态选择连接层,MasP使用相似度图作为软逻辑掩码来提示SAM生成掩码。
  • Result: UGround首次在单一框架内统一了从传统参考表达式分割到推理分割、从单目标到多目标、从正查询到错误前提的各种视觉定位任务。
  • Conclusion: UGround通过动态层选择和明确的掩码提示,显著提升了视觉定位的性能和鲁棒性,所有代码和模型均已开源。

[57] Optimized Minimal 4D Gaussian Splatting

Minseo Lee,Byeonghyeon Lee,Lucas Yunkyu Lee,Eunsoo Lee,Sangmin Kim,Seunghyeon Song,Joo Chan Lee,Jong Hwan Ko,Jaesik Park,Eunbyung Park

Main category: cs.CV

TL;DR: OMG4是一个优化4D高斯泼溅的框架,通过渐进式修剪和压缩技术显著减少模型存储开销,在保持重建质量的同时将模型大小减少60%以上。

  • Motivation: 4D高斯泼溅虽然能实时渲染动态场景,但需要数百万个高斯函数导致存储开销巨大,现有方法在压缩比或视觉质量方面仍有局限。
  • Method: 采用三阶段渐进式修剪:高斯采样识别关键基元、高斯修剪去除冗余、高斯合并融合相似基元;结合隐式外观压缩和推广的子向量量化到4D表示。
  • Result: 在标准基准数据集上的实验表明,OMG4显著优于现有方法,模型大小减少超过60%的同时保持重建质量。
  • Conclusion: OMG4在紧凑4D场景表示方面迈出重要一步,为广泛应用开辟了新可能性。

[58] Cross-View Open-Vocabulary Object Detection in Aerial Imagery

Jyoti Kini,Rohit Gupta,Mubarak Shah

Main category: cs.CV

TL;DR: 提出了一种新颖的开放词汇目标检测框架,通过结构化域对齐将地面视图的预训练模型知识迁移到航拍图像领域,解决了跨域检测的挑战。

  • Motivation: 传统目标检测模型在固定类别集上训练,缺乏灵活性且扩展新类别成本高。开放词汇检测能够识别未见类别,但航拍图像与地面视图存在域偏移、视角变化和尺度差异,需要专门的适应策略。
  • Method: 采用对比图像到图像对齐增强航拍与地面视图嵌入的相似性,并使用多实例词汇关联来对齐航拍图像与文本嵌入,实现结构化域对齐。
  • Result: 在xView、DOTAv2、VisDrone、DIOR和HRRSD数据集上的实验验证,零样本设置下相比微调的封闭词汇模型,在DOTAv2上提升+6.32 mAP,VisDrone上+4.16 mAP,HRRSD上+3.46 mAP。
  • Conclusion: 该方法为航拍应用提供了更灵活和可扩展的目标检测系统,通过有效的域对齐策略成功实现了跨域知识迁移。

[59] Exploring the Challenge and Value of Deep Learning in Automated Skin Disease Diagnosis

Runhao Liu,Ziming Chen,Peng Zhang

Main category: cs.CV

TL;DR: 这篇综述论文探讨了深度学习在皮肤癌诊断中的应用,分析了当前面临的挑战并总结了应对策略,强调了DL在改善皮肤病诊断和临床决策方面的潜力。

  • Motivation: 皮肤癌是全球最常见和最致命的癌症之一,早期检测和诊断对改善患者预后至关重要。深度学习在自动化皮肤病诊断中显示出巨大潜力,但仍面临复杂特征、图像噪声、类内变异、类间相似性和数据不平衡等挑战。
  • Method: 采用基于PRISMA框架的综合方法,综述了应对挑战的创新方法,包括数据增强、混合模型和特征融合等策略。
  • Result: 研究发现深度学习模型能够显著提高皮肤病变检测和分类的准确性和效率,通过创新方法可以有效应对现有挑战。
  • Conclusion: 深度学习有潜力彻底改变皮肤病诊断并改善临床决策,但需要持续的技术进步来充分释放其在皮肤科护理中的变革潜力。

[60] SDAKD: Student Discriminator Assisted Knowledge Distillation for Super-Resolution Generative Adversarial Networks

Nikolaos Kaparinos,Vasileios Mezaris

Main category: cs.CV

TL;DR: 提出SDAKD方法,通过引入学生判别器来解决GAN知识蒸馏中的容量不匹配问题,在图像超分辨率任务中显著提升性能

  • Motivation: GANs在生成任务中表现优异,但计算需求大难以部署到资源受限设备。传统知识蒸馏方法在GAN压缩中面临学生生成器与教师判别器容量不匹配的挑战
  • Method: 提出SDAKD方法,引入学生判别器缓解容量不匹配问题,采用三阶段训练策略,并在最后两个阶段集成适配的特征图蒸馏方法
  • Result: 在GCFSR和Real-ESRGAN两个超分辨率GAN上的实验表明,SDAKD相比基线和现有SOTA GAN知识蒸馏方法取得了一致的改进
  • Conclusion: SDAKD是一种有效的GAN蒸馏方法,通过学生判别器解决了容量不匹配问题,在超分辨率任务中表现出色

[61] PoseGaze-AHP: A Knowledge-Based 3D Dataset for AI-Driven Ocular and Postural Diagnosis

Saja Al-Dabet,Sherzod Turaev,Nazar Zaki,Arif O. Khan,Luai Eldweik

Main category: cs.CV

TL;DR: 提出了PoseGaze-AHP数据集,这是首个同步捕捉头部姿态和注视运动的3D数据集,专门用于眼源性异常头部姿势的AI诊断。

  • Motivation: 现有数据集分别关注头部姿态和眼部运动,限制了眼源性AHP综合诊断方法的发展和AI驱动的进步。
  • Method: 使用Claude 3.5 Sonnet模型通过迭代过程从医学文献中提取结构化临床数据,采用逐步、分层和复杂提示策略,然后使用神经头部化身框架将提取的记录系统化地转换为3D表示。
  • Result: 数据集包含7,920张图像,涵盖广泛的眼部病症,提取方法总体准确率达到91.92%。
  • Conclusion: PoseGaze-AHP是首个公开可用的资源,专门用于AI驱动的眼源性AHP诊断,支持开发准确且符合隐私要求的诊断工具。

[62] DHQA-4D: Perceptual Quality Assessment of Dynamic 4D Digital Human

Yunhao Li,Sijing Wu,Yucheng Zhu,Huiyu Duan,Zicheng Zhang,Guangtao Zhai

Main category: cs.CV

TL;DR: 提出了一个大规模动态数字人质量评估数据集DHQA-4D和基于大语言模型的DynaMesh-Rater方法,用于评估带纹理和不带纹理的4D人体网格质量。

  • Motivation: 随着3D扫描和重建技术的发展,基于4D网格的动态数字人化身越来越流行,但这些网格在采集、压缩和传输过程中容易受到各种噪声影响,影响用户体验,因此需要有效的质量评估方法。
  • Method: 首先构建了DHQA-4D数据集,包含32个高质量4D人体网格序列和1920个失真样本。然后提出DynaMesh-Rater方法,从投影的2D视频提取视觉特征、从裁剪视频片段提取运动特征、从4D人体网格提取几何特征,利用大语言模型整合这些多维特征,并通过LoRA指令调优技术预测质量分数。
  • Result: 在DHQA-4D数据集上的大量实验结果表明,DynaMesh-Rater方法优于以往的质量评估方法。
  • Conclusion: 提出的DHQA-4D数据集和DynaMesh-Rater方法为动态4D数字人质量评估提供了有效的解决方案,能够同时处理带纹理和不带纹理的4D网格质量评估问题。

[63] Skin Lesion Classification Based on ResNet-50 Enhanced With Adaptive Spatial Feature Fusion

Runhao Liu,Ziming Chen,Peng Zhang

Main category: cs.CV

TL;DR: 提出了一种基于自适应空间特征融合(ASFF)的改进ResNet-50模型,用于皮肤癌分类,通过多尺度特征融合提高特征表示能力并减少过拟合。

  • Motivation: 皮肤癌分类面临类间相似度高、类内变异大和图像噪声等挑战,需要更有效的特征表示方法。
  • Method: 采用双分支设计融合高层语义和中层细节特征,通过全局平均池化和全连接层生成自适应权重进行加权融合,增强特征学习并减少噪声影响。
  • Result: 在ISIC 2020数据集子集(3297张图像)上,准确率达到93.18%,AUC值在P-R和ROC曲线上分别为0.9670和0.9717,优于5种经典CNN模型。
  • Conclusion: 该方法为计算机辅助皮肤癌诊断提供了更有效和高效的解决方案,Grad-CAM验证显示模型能自适应关注病变相关区域。

[64] Multi-Modal Oral Cancer Detection Using Weighted Ensemble Convolutional Neural Networks

Ajo Babu George,Sreehari J R Ajo Babu George,Sreehari J R Ajo Babu George,Sreehari J R

Main category: cs.CV

TL;DR: 开发多模态深度学习框架,整合临床、放射学和病理学图像,通过加权集成DenseNet-121 CNN提高口腔鳞状细胞癌的早期检测能力。

  • Motivation: 口腔鳞状细胞癌晚期诊断导致高死亡率,超过50%病例在晚期发现,5年生存率低于50%,需要改进早期检测方法。
  • Method: 使用公开数据集训练三个DenseNet-121 CNN,分别对应不同医学成像模态,采用数据增强和模态特定预处理,通过验证加权集成策略融合预测结果。
  • Result: 放射学模态验证准确率100%,病理学模态95.12%,临床图像63.10%(视觉异质性导致)。集成模型在多模态验证集上总体准确率达84.58%。
  • Conclusion: 多模态集成框架提供非侵入性AI辅助分诊工具,增强高风险病变的早期识别,支持临床决策,符合全球肿瘤学指南以减少诊断延迟和改善患者预后。

[65] Exploring Instruction Data Quality for Explainable Image Quality Assessment

Yunhao Li,Sijing Wu,Huiyu Duan,Yucheng Zhu,Qi Jia,Guangtao Zhai

Main category: cs.CV

TL;DR: 本文挑战了扩展定律,提出了一种基于聚类的数据选择方法IQA-Select,仅使用10%的数据就能达到甚至超过全量数据微调的性能,显著降低计算成本。

  • Motivation: 当前可解释图像质量评估方法依赖大规模指令调优数据,但这会导致高昂计算成本和数据冗余,反而损害模型性能。
  • Method: 提出三阶段聚类数据选择框架:聚类特征提取、聚类配额分配、聚类采样策略,并开发了IQA-Select方法。
  • Result: 在Q-Bench和AesBench上,仅使用10%选定数据就能分别达到全量微调性能的102.1%和103.7%。
  • Conclusion: 数据质量比数量更重要,IQA-Select方法能有效减少冗余数据,在保持性能的同时显著降低计算成本。

[66] Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert

Mingyu Liu,Zheng Huang,Xiaoyi Lin,Muzhi Zhu,Canyu Zhao,Zongze Du,Yating Wang,Haoyi Zhu,Hao Chen,Chunhua Shen

Main category: cs.CV

TL;DR: 提出了一种基于通用动作专家的框架,使用稀疏3D轨迹作为中间表示,将VLM的高级规划能力与低级物理动作模块连接起来,解决了传统VLA模型泛化能力差的问题。

  • Motivation: 传统视觉-语言-动作模型在将推理能力转化为物理世界时面临泛化能力差的问题,而现有的双系统方法又受到动作模块语义模糊性的限制,需要在新环境中进行微调。
  • Method: 使用稀疏3D路径点作为中间表示,VLM生成粗略路径点,通用动作专家通过采样实时点云观测将其细化为密集可执行动作序列,采用"动作预训练、点云微调"的训练范式。
  • Result: 该方法结合了VLM在视觉理解和规划方面的广泛泛化能力与动作专家在动作级别的细粒度泛化能力。
  • Conclusion: 提出的框架通过通用动作专家和3D轨迹中间表示,有效解决了VLA模型在物理世界中的泛化问题,实现了高效训练和鲁棒泛化。

[67] Zero-Shot Fine-Grained Image Classification Using Large Vision-Language Models

Md. Atabuzzaman,Andrew Zhang,Chris Thomas

Main category: cs.CV

TL;DR: 提出了一种将零样本细粒度图像分类转化为视觉问答框架的新方法,利用大视觉语言模型的综合理解能力,通过注意力干预技术提升性能,并在多个基准测试中超越了现有最优方法。

  • Motivation: 探索大视觉语言模型在零样本细粒度图像分类中的潜力,该任务需要精确区分视觉上相似的类别,目前尚未得到充分研究。
  • Method: 将零样本细粒度图像分类转化为视觉问答框架,利用LVLMs的综合理解能力而非直接生成类别名称,并采用新颖的注意力干预技术来增强模型性能。
  • Result: 在多个细粒度图像分类基准测试中进行了广泛实验,提出的方法始终优于当前最优方法,证明了该方法的有效性。
  • Conclusion: 该方法不仅验证了所提方法的有效性,还展示了大视觉语言模型在零样本细粒度分类任务中的更广泛潜力。

[68] From Filters to VLMs: Benchmarking Defogging Methods through Object Detection and Segmentation Performance

Ardalan Aryashad,Parsa Razmara,Amin Mahjoub,Seyedarmin Azizi,Mahdi Salmani,Arad Firouzkouhi

Main category: cs.CV

TL;DR: 本文对自动驾驶感知系统在雾天条件下的去雾方法进行了系统性评估,比较了传统滤波器、现代去雾网络、级联方法和视觉语言模型等多种方法在图像质量和下游任务性能上的表现。

  • Motivation: 自动驾驶感知系统在雾天条件下特别脆弱,光线散射会降低对比度并模糊关键细节。现有的去雾方法在图像保真度上的改进并不总能转化为更好的检测和分割性能,且大多依赖合成数据,真实世界适用性存疑。
  • Method: 采用结构化实证研究方法,在Foggy Cityscapes数据集上评估了四类管道:(i)传统滤波器,(ii)现代去雾网络,(iii)级联变体(滤波器→模型,模型→滤波器),(iv)基于提示的视觉语言图像编辑模型直接处理雾图。
  • Result: 分析揭示了去雾何时有效、级联何时产生协同或退化效应,以及VLM编辑器与专用方法的比较。VLM法官的定性评分与任务指标高度相关,特别是与mAP强相关。
  • Conclusion: 研究为去雾方法建立了透明、面向任务的基准,明确了在何种条件下预处理能真正改善恶劣天气下的自动驾驶感知性能。

[69] Generating Human Motion Videos using a Cascaded Text-to-Video Framework

Hyelin Nam,Hyojun Go,Byeongjun Park,Byung-Hoon Kim,Hyungjin Chung

Main category: cs.CV

TL;DR: CAMEO是一个用于通用人体运动视频生成的级联框架,通过连接文本到运动模型和条件视频扩散模型,解决了训练和推理过程中的次优因素,实现了鲁棒的对齐和自动视角选择。

  • Motivation: 尽管视频扩散模型快速发展,但通用人体视频生成仍未被充分探索,现有工作大多局限于图像到视频设置或舞蹈等狭窄领域。
  • Method: 提出CAMEO级联框架,通过精心设计的组件连接文本到运动模型和条件视频扩散模型,包括分析文本提示和视觉条件来有效训练VDM,以及引入相机感知条件模块自动选择与输入文本对齐的视角。
  • Result: 在MovieGen基准和新引入的T2M-VDM组合基准上证明了方法的有效性,并展示了其在多样化用例中的通用性。
  • Conclusion: CAMEO框架成功解决了通用人体视频生成中的关键挑战,通过级联设计和自动视角选择实现了高质量的视频生成,减少了人工干预。

[70] OpenFLAME: Federated Visual Positioning System to Enable Large-Scale Augmented Reality Applications

Sagar Bharadwaj,Harrison Williams,Luke Wang,Michael Liang,Tao Jin,Srinivasan Seshan,Anthony Rowe

Main category: cs.CV

TL;DR: OpenFLAME是一个联邦视觉定位系统,通过分布式方式让各组织独立管理自己的3D扫描空间,解决了集中式VPS在隐私、法规和维护方面的限制。

  • Motivation: 集中式视觉定位系统无法覆盖私人室内空间,存在隐私担忧、法规限制和维护瓶颈。需要一种分布式解决方案来扩大覆盖范围并保护隐私。
  • Method: 提出联邦图像定位概念,各组织独立维护自己的VPS服务,通过参考解决方案管理和合并跨地图数据而不共享私有数据。
  • Result: 实现了分布式VPS后端,支持访问控制、分布式维护和更大覆盖范围,解决了服务分片带来的定位结果一致性、质量控制等挑战。
  • Conclusion: 联邦VPS方法能够有效解决集中式系统的局限性,为大规模AR应用提供更广泛、更隐私保护的定位服务。

[71] Talking Tennis: Language Feedback from 3D Biomechanical Action Recognition

Arushi Dashore,Aryan Anumala,Emily Hui,Olivia Yang

Main category: cs.CV

TL;DR: 开发了一个结合CNN-LSTM模型提取生物力学特征和LLM生成反馈的框架,用于网球击球分析,旨在提供技术准确且可操作的反馈。

  • Motivation: 现有系统未能将生物力学洞察转化为对球员和教练有意义且可操作的语言反馈,本研究旨在填补这一空白。
  • Method: 使用CNN-LSTM模型从运动数据中提取关键生物力学特征(如关节角度、肢体速度和动力链模式),并利用LLM基于这些特征生成反馈。
  • Result: 基于THETIS数据集和特征提取技术,该方法能够生成技术上准确、生物力学基础扎实且对最终用户可操作的反馈。
  • Conclusion: 该框架在分类性能和可解释性方面进行了评估,弥合了可解释AI与运动生物力学之间的差距。

[72] Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs

Sameep Vani,Shreyas Jena,Maitreya Patel,Chitta Baral,Somak Aditya,Yezhou Yang

Main category: cs.CV

TL;DR: TimeWarp方法通过创建针对性合成时间数据集,显著提升了视频大语言模型在细粒度时间理解任务上的性能,在七个基准测试中实现了绝对性能改进。

  • Motivation: 现有视频大语言模型在需要细粒度时间理解的任务上表现不佳,主要因为当前微调数据集缺乏视觉复杂性和时间细节,导致模型过度依赖语言推理而非真正理解视频动态。
  • Method: 提出TimeWarp方法,系统性地创建针对性合成时间数据集来微调模型,使其更关注输入视频内容,并构建大规模偏好数据集捕捉常被忽视的复杂时间动态。
  • Result: 将该方法应用于现有模型后,在时间理解基准测试中性能显著提升,在七个基准测试中实现了绝对性能改进。
  • Conclusion: TimeWarp方法通过针对性数据集有效推进了视频大语言模型的时间理解能力,证明了合成数据在提升模型性能方面的有效性。

[73] No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models

Min Woo Sun,Alejandro Lozano,Javier Gamazo Tejero,Vishwesh Nath,Xiao Xiao Sun,James Burgess,Yuhui Zhang,Kun Yuan,Robert Tibshirani,Sean Huver,Serena Yeung-Levy

Main category: cs.CV

TL;DR: 该论文研究了在生物医学视觉语言模型中扩展文本编码器上下文长度的影响,发现更长的上下文能带来更好的检索和分类性能,并提出了BIOMEDICA-LongCAP数据集和BMC-LongCLIP模型。

  • Motivation: 现有的视觉语言模型通常使用短文本窗口(<77个token)进行预训练,这导致长格式的生物医学描述被截断。然而,大规模开源文献显示大量生物医学描述远超77个token,因此需要研究长上下文预训练的影响。
  • Method: 通过扩展视觉语言模型中文本编码器的上下文长度,使用BIOMEDICA-LongCAP数据集(包含100万张图像-描述对,具有来自全文文章的上下文感知描述)训练BMC-LongCLIP模型,支持最多512个token的文本窗口。
  • Result: BMC-LongCLIP将上下文容量扩展了6.6倍,token浪费从55%降至2.2%。在长描述检索基准测试中,Recall@1获得高达30%的绝对增益,分类平均提升2%,且收敛速度比短上下文模型更快。
  • Conclusion: 长上下文建模是推进生物医学视觉语言模型发展的有前景方向,能够有效利用长格式描述中的额外监督信息,显著提升模型性能。

[74] Keep It on a Leash: Controllable Pseudo-label Generation Towards Realistic Long-Tailed Semi-Supervised Learning

Yaxin Hou,Bo Han,Yuheng Jia,Hui Liu,Junhui Hou

Main category: cs.CV

TL;DR: 提出CPG框架解决长尾半监督学习中未标记数据分布未知的问题,通过可控伪标签生成和动态过滤机制,使模型不受未标记数据分布影响,显著提升分类精度。

  • Motivation: 现有长尾半监督学习方法假设未标记数据遵循预定义分布,但实际上未标记数据的分布通常是未知且任意的,这限制了现有方法的性能。
  • Method: 采用可控自增强优化循环:动态可控过滤机制选择可靠伪标签,构建贝叶斯最优分类器,并使用类感知自适应增强模块改善少数类表示。
  • Result: 在多个基准数据集上,CPG方法相比最先进方法准确率提升高达15.97%。
  • Conclusion: CPG框架能有效处理未标记数据分布未知的长尾半监督学习问题,通过可控伪标签生成和优化循环显著降低泛化误差。

[75] Enhancing OCR for Sino-Vietnamese Language Processing via Fine-tuned PaddleOCRv5

Minh Hoang Nguyen,Su Nguyen Thiet

Main category: cs.CV

TL;DR: 提出基于PaddleOCRv5的微调方法,提升汉喃文本识别准确率,从37.5%提升至50.0%,并开发交互式演示系统

  • Motivation: 现有OCR系统在处理越南历史文献中的汉喃文本时,难以应对图像退化、非标准字形和手写变体等问题
  • Method: 使用精选的越南汉喃手稿数据集微调PaddleOCRv5的文本识别模块,构建完整的训练流程包括预处理、LMDB转换、评估和可视化
  • Result: 微调后模型在噪声图像条件下表现显著提升,准确率从37.5%提高至50.0%
  • Conclusion: 该方法有效改善了汉喃文本识别性能,支持汉越语义对齐、机器翻译和历史语言学研究等下游应用

[76] Fit Pixels, Get Labels: Meta-learned Implicit Networks for Image Segmentation

Kushal Vyas,Ashok Veeraraghavan,Guha Balakrishnan

Main category: cs.CV

TL;DR: MetaSeg是一个基于元学习的隐式神经表示框架,用于医学图像分割,能够在少量参数下达到与U-Net相当的性能。

  • Motivation: 隐式神经表示在信号表示方面表现出色,但不适用于分割等预测任务,需要学习信号分布上的语义结构。
  • Method: 使用一个基础INR同时预测像素强度值和类别标签,通过元学习在训练数据集上找到最优初始参数,使INR能够快速微调以适应新图像并自动解码类别标签。
  • Result: 在2D和3D脑MRI分割任务上评估,Dice分数与常用U-Net模型相当,但参数数量减少90%。
  • Conclusion: MetaSeg为医学图像分割提供了一个新颖、可扩展的替代方案,相比传统的资源密集型架构如U-Net和视觉变换器更具优势。

[77] Video-in-the-Loop: Span-Grounded Long Video QA with Interleaved Reasoning

Chendong Wang,Donglin Bai,Yifan Yang,Xiao Jin,Anlan Zhang,Rui Wang,Shiqi Jiang,Yuqing Yang,Hao Wu,Qi Dai,Chong Luo,Ting Cao,Lili Qiu,Suman Banerjee

Main category: cs.CV

TL;DR: Video-in-the-Loop (ViTL) 是一个两阶段长视频问答框架,通过低帧率浏览定位问题相关区间,然后在更高有效帧率下重新分配视觉令牌来回答问题,在固定令牌预算下实现高效的长视频理解。

  • Motivation: 解决长视频问答中计算效率低下的问题,传统方法处理长视频需要大量计算资源,ViTL旨在在固定令牌预算下实现高效的长视频理解。
  • Method: 采用两阶段框架:1) 使用低帧率浏览定位问题相关时间区间;2) 通过跨度感知的令牌重新分配在更高有效帧率下回答问题;使用交错组相对目标进行端到端训练。
  • Result: 在固定令牌预算下,ViTL在长视频问答和时间定位任务上(如Charades-STA、ActivityNet-Captions)取得了最高8.6%的性能提升,同时减少了50%的帧输入;跨度感知令牌重新分配始终优于均匀采样。
  • Conclusion: ViTL和配套数据集提供了一个可解释、计算高效的解决方案,为可扩展的长视频问答提供了有效方法。

[78] Enhancing Fake News Video Detection via LLM-Driven Creative Process Simulation

Yuyan Bu,Qiang Sheng,Juan Cao,Shaofei Wang,Peng Qi,Yuhui Shi,Beizhe Hu

Main category: cs.CV

TL;DR: 提出AgentAug数据增强框架,通过模拟典型创作过程生成多样化的假新闻视频,结合主动学习策略提升短视频假新闻检测器的性能。

  • Motivation: 现有假新闻检测器依赖模式特征,但训练数据有限且多样性不足,导致模式偏见和性能受限。真实场景中视频素材与虚假新闻事件存在复杂的多对多关系,现有数据集未能充分反映这种关系。
  • Method: 使用多个LLM驱动的四种伪造类别管道模拟新闻视频创作过程,结合基于不确定性采样的主动学习策略选择有用的增强样本。
  • Result: 在两个基准数据集上的实验结果表明,AgentAug能持续提升短视频假新闻检测器的性能。
  • Conclusion: AgentAug通过数据增强有效解决了假新闻视频检测中的数据稀疏问题,提高了检测器的泛化能力。

[79] Prompt-to-Prompt: Text-Based Image Editing Via Cross-Attention Mechanisms -- The Research of Hyperparameters and Novel Mechanisms to Enhance Existing Frameworks

Linn Bieske,Carla Lorente

Main category: cs.CV

TL;DR: 该研究通过优化超参数来提升提示到提示图像编辑框架的精确性和可靠性,提出了三种方法:词替换、注意力重加权和CL P2P框架,以解决现有方法中的不一致性问题。

  • Motivation: 当前基于稳定扩散模型的图像编辑方法虽然简化了编辑过程,但结果存在变异性(如头发颜色不一致),需要提高编辑的精确性和可靠性。
  • Method: 1. 全面研究"词替换"方法;2. 开发"注意力重加权方法"以提高适应性;3. 提出"CL P2P"框架解决循环不一致等现有限制。
  • Result: 通过优化超参数与神经网络注意力机制的交互,显著影响了生成图像的构图和质量。
  • Conclusion: 这项工作有助于理解和改进超参数设置与神经网络模型架构选择之间的相互作用,特别是在注意力机制方面,从而提升图像编辑的精确性。

[80] \textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding

Bin Lei,Nuo Xu,Ali Payani,Mingyi Hong,Chunhua Liao,Yu Cao,Caiwen Ding

Main category: cs.CV

TL;DR: GUI-Spotlight是一个用于图像推理的模型,通过动态调用多个专业工具来逐步缩小屏幕相关区域,显著提高视觉定位准确性。

  • Motivation: 多模态大语言模型在图形用户界面系统中的实际应用受到视觉定位可靠性的限制,无法准确执行指针级操作如点击或拖动。
  • Method: 训练GUI-Spotlight模型进行图像推理,动态调用多个专业工具来迭代缩小屏幕相关区域。
  • Result: 在ScreenSpot-Pro基准测试中,仅使用18.5K训练样本的GUI-Spotlight达到52.8%准确率,超越了使用9.6M样本的V2P-7B(50.6%)和使用1.56M样本的GTA-1-7B(50.1%)。
  • Conclusion: GUI-Spotlight通过动态工具调用和迭代聚焦方法,显著提高了视觉定位准确性,为GUI系统的实际应用提供了更可靠的解决方案。

[81] Quantization Range Estimation for Convolutional Neural Networks

Bingtao Yang,Yujia Wang,Mengzhi Jiao,Hongwei Huo

Main category: cs.CV

TL;DR: 提出一种用于后训练量化的范围估计方法,通过层间局部最小值最小化量化误差,在ResNet系列和Inception-v3模型上实现了最先进的性能。

  • Motivation: 低比特量化在保持模型精度方面具有挑战性,需要改进后训练量化的性能。
  • Method: 将范围估计建模为通过层间局部最小值最小化量化误差的优化问题,证明该问题局部凸,并提出高效搜索算法,在变换权重空间中应用该算法以进一步改进。
  • Result: 在图像分类任务中,8位和6位量化几乎无精度损失,4位量化精度显著提升,在ResNet系列和Inception-v3模型上优于现有方法。
  • Conclusion: 提出的范围估计方法有效提升了后训练量化的性能,特别是在低比特设置下保持模型精度。

[82] MetaFind: Scene-Aware 3D Asset Retrieval for Coherent Metaverse Scene Generation

Zhenyu Pan,Yucheng Lu,Han Liu

Main category: cs.CV

TL;DR: MetaFind是一个面向元宇宙场景生成的三模态组合检索框架,通过从大规模存储库中检索3D资产来解决空间、语义和风格约束不一致的问题。

  • Motivation: 解决现有3D资产检索中的两个核心挑战:(i)忽视空间、语义和风格约束的不一致检索;(ii)缺乏专门为3D资产检索设计的标准化检索范式。
  • Method: 引入灵活的检索机制,支持文本、图像和3D模态的任意组合查询,通过可插拔的等变布局编码器ESSGNN联合建模对象级特征和场景级布局结构。
  • Result: 实证评估显示,MetaFind在各种检索任务中相比基线方法具有更好的空间和风格一致性。
  • Conclusion: MetaFind通过三模态组合检索和等变布局编码,显著提升了3D资产检索的空间推理和风格一致性,支持迭代式场景构建。

[83] Ordinal Encoding as a Regularizer in Binary Loss for Solar Flare Prediction

Chetraj Pandey,Jinsu Hong,Anli Ji,Rafal A. Angryk,Berkay Aydin

Main category: cs.CV

TL;DR: 该论文提出了一种改进的损失函数,将耀斑子类之间的序数信息整合到传统的二元交叉熵损失中,以解决太阳耀斑预测中二元分类忽略序数关系的问题。

  • Motivation: 太阳耀斑预测通常被表述为二元分类任务,但这种框架忽略了FL和NF类别内子类之间的固有序数关系。研究表明,最频繁的错误分类发生在预测阈值附近,表明模型难以区分强度相似但位于二元阈值两侧的事件。
  • Method: 提出一种改进的损失函数,将耀斑标签的二元化子类之间的序数信息整合到常规二元交叉熵损失中。这种方法作为一种序数感知、数据驱动的正则化方法,在模型优化期间对接近预测阈值的错误预测施加更重的惩罚。
  • Result: 通过将序数加权整合到损失函数中,旨在利用数据的序数特性增强模型的学习过程,从而提高整体性能。
  • Conclusion: 该方法通过考虑耀斑子类之间的序数关系,改进了传统的二元分类方法,有望减少阈值附近的错误分类,提升太阳耀斑预测的准确性。

[84] QuantDemoire: Quantization with Outlier Aware for Image Demoiréing

Zheng Chen,Kewei Zhang,Xiaoyang Liu,Weihang Zhang,Mengfan Wang,Yifan Fu,Yulun Zhang

Main category: cs.CV

TL;DR: 提出了一种专为去摩尔纹任务设计的后训练量化框架QuantDemoire,通过异常值感知量化器和频率感知校准策略,在保持质量的同时大幅减少参数和计算量。

  • Motivation: 现有的去摩尔纹深度学习方法需要大量计算资源,难以在边缘设备上部署。直接应用现有量化方法会导致严重的性能下降,主要原因是分布异常值和平滑区域表示弱化。
  • Method: 包含两个关键组件:1)异常值感知量化器,使用基于采样的范围估计减少激活异常值,并将少量极端权重保留为FP16;2)频率感知校准策略,在微调过程中强调低频和中频分量。
  • Result: 在W4A4设置下比现有量化方法高出4dB以上,同时大幅减少了参数和计算量。
  • Conclusion: QuantDemoire框架有效解决了去摩尔纹模型量化中的性能下降问题,为边缘设备部署提供了可行的解决方案。

[85] Diffusion Low Rank Hybrid Reconstruction for Sparse View Medical Imaging

Zongyin Deng,Qing Zhou,Yuhao Fang,Zijian Wang,Yao Lu,Ye Zhang,Chun Li

Main category: cs.CV

TL;DR: TV-LoRA是一种结合扩散生成先验和多正则化约束的低剂量稀疏视图CT重建方法,在ADMM框架下实现高效3D重建。

  • Motivation: 解决极稀疏视图下CT重建的病态问题和纹理丢失问题,结合生成先验和物理约束提升重建质量。
  • Method: 结合扩散生成先验(NCSN++ SDE模型)与多正则化约束(各向异性TV和核范数LoRA),采用ADMM框架,使用2D切片策略并利用FFT加速和并行优化。
  • Result: 在AAPM-2016、CTHD和LIDC数据集上,TV-LoRA在SSIM、纹理恢复、边缘清晰度和伪影抑制方面均优于基准方法,展现出强鲁棒性和泛化性。
  • Conclusion: TV-LoRA实现了高保真、高效的3D CT重建,在低剂量稀疏采样场景下具有广泛的临床应用前景。

[86] TOPO-Bench: An Open-Source Topological Mapping Evaluation Framework with Quantifiable Perceptual Aliasing

Jiaming Wang,Diwen Liu,Jizhuo Chen,Harold Soh

Main category: cs.CV

TL;DR: 该论文提出了拓扑映射的标准评估协议,包括拓扑一致性作为核心指标、数据集模糊度量化方法,并发布了基准数据集和基线系统来解决该领域缺乏标准化评估的问题。

  • Motivation: 拓扑映射领域缺乏标准化的评估指标、数据集和协议,现有系统在不同环境和标准下评估,无法进行公平可复现的比较,且感知混淆问题的影响未被充分量化。
  • Method: 形式化拓扑一致性作为拓扑映射的基本属性,提出定位精度作为其替代指标;提出数据集模糊度的定量测量方法;构建具有校准模糊度水平的多样化基准数据集,并实现深度学习基线系统。
  • Result: 建立了拓扑映射的标准评估框架,通过实验分析揭示了当前方法在感知混淆下的局限性,所有数据集、基线和评估工具均已开源。
  • Conclusion: 该工作为拓扑映射研究提供了标准化的评估协议和工具,促进了该领域的一致性和可复现性研究,特别在应对感知混淆挑战方面提供了新的见解。

[87] Learning Efficient Meshflow and Optical Flow from Event Cameras

Xinglong Luo,Ao Luo,Kunming Luo,Zhengning Wang,Ping Tan,Bing Zeng,Shuaicheng Liu

Main category: cs.CV

TL;DR: 提出了基于事件相机的网格流估计新任务,创建了高分辨率事件网格流数据集HREM,开发了轻量级EEMFlow网络实现快速准确的网格流估计,并引入自适应密度模块ADM提升模型泛化能力。

  • Motivation: 现有事件流估计方法存在两个关键问题:缺乏专门的网格流数据集和方法,以及事件数据密度挑战未被充分探索。
  • Method: 生成大规模高分辨率事件网格流数据集HREM,提出轻量级EEMFlow网络架构,并设计置信度诱导细节补全模块和自适应密度模块ADM。
  • Result: EEMFlow模型相比现有最优方法性能卓越且运行效率提升30倍,ADM模块将EEMFlow和EEMFlow+性能分别提升8%和10%。
  • Conclusion: 该工作填补了事件网格流估计的空白,提出的数据集、网络架构和密度自适应方法为事件相机运动估计提供了有效解决方案。

[88] Joint Learning of Pose Regression and Denoising Diffusion with Score Scaling Sampling for Category-level 6D Pose Estimation

Seunghyun Lee,Tae-Kyun Kim

Main category: cs.CV

TL;DR: 提出了一种新的6D物体姿态估计方法,通过预训练编码器和联合学习策略加速训练收敛,并引入采样指导机制消除额外评估网络的需求,在多个基准测试中达到最先进精度。

  • Motivation: 现有基于扩散模型的6D物体姿态估计方法存在训练收敛慢、需要端到端学习编码器、以及需要额外网络来过滤低质量姿态候选的问题。
  • Method: 1) 预训练编码器并使用直接姿态回归头,通过回归头和去噪扩散头联合学习网络;2) 提出基于时间相关分数缩放的采样指导机制,有效平衡探索-利用权衡。
  • Result: 在REAL275、HouseCat6D和ROPE等多个基准测试中,该方法即使使用单姿态推理也能达到最先进的精度,同时在训练和推理方面更加高效。
  • Conclusion: 该方法简单而有效,通过预训练编码器和采样指导机制解决了现有方法的局限性,在6D物体姿态估计任务中表现出色。

[89] Learning from All: Concept Alignment for Autonomous Distillation from Multiple Drifting MLLMs

Xiaoyu Yang,Jie Lu,En Yu

Main category: cs.CV

TL;DR: 本文提出了一种解决多模态大语言模型蒸馏中概念漂移问题的新方法——自主偏好优化(APO),通过"学习、比较、批判"范式来对齐多教师推理轨迹中的概念漂移,提升学生模型的鲁棒性和泛化能力。

  • Motivation: 多教师MLLMs在蒸馏过程中产生的推理轨迹存在概念漂移问题,导致推理分布不可预测地演化并将偏见传递给学生模型,最终损害其性能。
  • Method: 提出自主偏好优化(APO)方法,采用"学习、比较、批判"范式:学生模型首先通过比较多个教师来学习和自蒸馏偏好的思维,然后对教师的漂移推理进行批判性反思,通过APO进行概念对齐。
  • Result: 实验证明该方法在知识蒸馏中具有优越的一致性、鲁棒性和泛化性能,并贡献了包含170,982个蒸馏推理轨迹的大规模数据集CXR-MAX。
  • Conclusion: APO方法能够有效解决多教师MLLMs蒸馏中的概念漂移问题,产生鲁棒、一致且可泛化的学生模型。

[90] Automating construction safety inspections using a multi-modal vision-language RAG framework

Chenxin Wang,Elyas Asadi Shamsabadi,Zhaohui Chen,Luming Shen,Alireza Ahmadian Fard Fini,Daniel Dias-da-Costa

Main category: cs.CV

TL;DR: SiteShield是一个基于多模态大视觉语言模型的检索增强生成框架,用于自动化建筑安全检查报告生成,通过整合视觉和音频输入,在真实数据上表现优于单模态LLM。

  • Motivation: 传统建筑安全检查方法效率低下,需要处理大量信息。现有应用存在响应不相关、模态输入受限和幻觉问题,LLM应用受限于训练数据和实时适应性。
  • Method: 开发了SiteShield多模态LVLM框架,采用检索增强生成技术,整合视觉和音频输入进行安全检查。
  • Result: 在真实数据上,SiteShield的F1得分为0.82,汉明损失为0.04,精确率0.76,召回率0.96,优于无RAG的单模态LLM。
  • Conclusion: SiteShield为增强安全检查报告的信息检索和生成效率提供了新途径。

[91] BLADE: Bias-Linked Adaptive DEbiasing

Piyush Arora,Navlika Singh,Vasubhya Diwan,Pratik Mazumder

Main category: cs.CV

TL;DR: BLADE是一个无需先验偏见知识或偏见冲突样本的生成式去偏框架,通过跨偏见域图像翻译和自适应细化来缓解神经网络中的隐式偏见问题。

  • Motivation: 神经网络容易学习训练数据中的虚假相关性(隐式偏见),而现有方法通常需要偏见先验知识或偏见冲突样本,这在现实场景中往往不切实际。
  • Method: 首先训练生成模型在偏见域间翻译图像并保留任务相关特征,然后基于图像对偏见的敏感性自适应地细化图像,通过对齐任务相关特征但偏见不同的样本来鼓励鲁棒表示。
  • Result: 在多个基准数据集上显著优于现有方法,在corrupted CIFAR-10数据集的最差组设置下比最接近的基线方法绝对提升了约18%。
  • Conclusion: BLADE为无需显式监督开发更鲁棒的深度学习模型建立了新的基准,展示了在偏见缓解方面的潜力。

[92] From Segments to Concepts: Interpretable Image Classification via Concept-Guided Segmentation

Ran Eisenberg,Amit Rozner,Ethan Fetaya,Ofir Lindenbaum

Main category: cs.CV

TL;DR: 提出了SEG-MIL-CBM框架,将概念引导的图像分割与注意力多实例学习结合,通过语义区域推理实现透明、空间定位的概念级解释,无需概念标注。

  • Motivation: 深度神经网络缺乏决策透明度,在安全关键应用中限制可信度。现有模型可能利用不可靠特征,概念瓶颈模型需要昂贵标注且缺乏空间定位。
  • Method: 集成概念引导图像分割到注意力多实例学习框架,将分割区域作为实例,学习跨区域证据聚合,推理与高级概念对齐的语义区域。
  • Result: 在涉及虚假相关性、输入损坏和大规模基准的设置中实现稳健性能,同时提供透明概念级解释。
  • Conclusion: SEG-MIL-CBM通过语义区域推理实现了无需概念标注的透明、空间定位解释,在多种挑战性场景下保持稳健性能。

[93] Let Features Decide Their Own Solvers: Hybrid Feature Caching for Diffusion Transformers

Shikang Zheng,Guantao Chen,Qinming Zhou,Yuqi Lin,Lixuan He,Chang Zou,Peiliang Cai,Jiacheng Liu,Linfeng Zhang

Main category: cs.CV

TL;DR: HyCa是一个基于混合ODE求解器的缓存框架,通过维度级缓存策略加速扩散变换器的采样过程,在多个模型上实现5-6倍加速且几乎无损。

  • Motivation: 扩散变换器的迭代采样过程由于每个时间步都需要进行昂贵的transformer前向传播,成为主要性能瓶颈。现有特征缓存方法对所有特征维度采用统一策略,忽略了它们异质的动态行为。
  • Method: 将隐藏特征演化建模为跨维度的ODE混合,引入HyCa框架应用维度级缓存策略,基于混合ODE求解器思想。
  • Result: 在FLUX上实现5.55倍加速,HunyuanVideo上5.56倍加速,Qwen-Image和Qwen-Image-Edit上6.24倍加速,无需重新训练。
  • Conclusion: HyCa通过维度级缓存策略有效解决了扩散变换器采样瓶颈,在多个领域和模型上实现了近乎无损的显著加速。

[94] World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge

Moo Hyun Son,Jintaek Oh,Sun Bin Mun,Jaechul Roh,Sehyun Choi

Main category: cs.CV

TL;DR: World-To-Image框架通过代理驱动的方式从网络检索未知概念的图像信息,进行多模态提示优化,显著提升文本到图像生成模型对新颖或分布外实体的生成质量。

  • Motivation: 解决文本到图像模型在面对新颖或分布外实体时性能显著下降的问题,由于模型固有的知识截止限制。
  • Method: 设计代理动态搜索网络获取未知概念的图像信息,进行多模态提示优化,引导生成模型进行准确合成。
  • Result: 在NICE基准测试中比现有最优方法在语义对齐和视觉美学方面显著提升,准确率提高+8.1%,且仅需不到3次迭代即可实现高效结果。
  • Conclusion: 该框架为文本到图像系统提供了更好反映不断变化的真实世界的能力,实现了更高的语义保真度和视觉质量。

[95] MASC: Boosting Autoregressive Image Generation with a Manifold-Aligned Semantic Clustering

Lixuan He,Shikang Zheng,Linfeng Zhang

Main category: cs.CV

TL;DR: 提出MASC框架,通过构建层次化语义树来优化自回归图像生成模型,解决了传统扁平词汇表导致的效率低下问题。

  • Motivation: 传统自回归模型使用扁平的视觉词汇表,忽略了token嵌入空间的内在结构,导致预测任务复杂、训练效率低、生成质量受限。
  • Method: MASC框架从codebook内在结构直接构建层次化语义树,使用几何感知距离度量和密度驱动的聚合构造方法,将扁平预测任务转化为结构化层次任务。
  • Result: 训练速度提升最高达57%,LlamaGen-XL的FID从2.87降至2.58,显著提升生成质量,使自回归框架与最先进方法具有竞争力。
  • Conclusion: 结构化预测空间与架构创新同等重要,MASC作为即插即用模块能有效提升自回归生成模型的扩展性。

[96] Zoom-In to Sort AI-Generated Images Out

Yikun Ji,Yan Hong,Bowen Deng,jun lan,Huijia Zhu,Weiqiang Wang,Liqing Zhang,Jianfu Zhang

Main category: cs.CV

TL;DR: ZoomIn是一个两阶段取证框架,通过模仿人类视觉检查,先扫描图像定位可疑区域,再对这些放大区域进行聚焦分析,提高AI生成图像检测的准确性和可解释性。

  • Motivation: AI生成图像的快速增长模糊了真实与合成内容的界限,对数字完整性构成严重威胁。现有的视觉语言模型虽然提供可解释性,但在检测高质量合成图像中的细微伪影方面表现不足。
  • Method: 提出ZoomIn两阶段取证框架:第一阶段扫描图像定位可疑区域,第二阶段对放大区域进行聚焦分析。构建了MagniFake数据集(20,000张真实和高质量合成图像,带有边界框和取证解释),通过自动化VLM管道生成训练数据。
  • Result: 该方法达到了96.39%的准确率,具有强大的泛化能力,同时提供基于视觉证据的人类可理解解释。
  • Conclusion: ZoomIn框架在AI生成图像检测方面实现了高准确性和可解释性的平衡,为数字取证提供了有效的解决方案。

[97] A Recursive Pyramidal Algorithm for Solving the Image Registration Problem

Stefan Dirnstorfer

Main category: cs.CV

TL;DR: 提出了一种简单、端到端可训练的图像配准算法,仅需少量Python代码即可实现,在训练数据和训练时间有限的情况下仍能获得准确结果。

  • Motivation: 解决图像配准问题,即找到使两幅图像对应点位置一致的变换。传统方法可能复杂且需要大量数据,因此需要一种简单高效的解决方案。
  • Method: 使用端到端可训练的算法,仅需少量Python代码实现。在立体视觉应用中,使用74张图像在19x15输入窗口上进行训练。
  • Result: 该算法在训练数据和训练时间有限的情况下仍能获得准确结果,代码简洁(仅需十几行Python代码)。
  • Conclusion: 该算法简洁高效,在训练数据、训练时间或代码复杂度受限的相关场景中是一个良好的起点。

[98] Detection of retinal diseases using an accelerated reused convolutional network

Amin Ahmadi Kasani,Hedieh Sajedi

Main category: cs.CV

TL;DR: 提出了一种名为ArConv的新型卷积层,通过重新设计和优化卷积层来创建轻量级模型,该模型仅含130万参数,在RfMiD数据集上实现了93.28%的准确率,优于MobileNetV2。

  • Motivation: 提高深度神经网络模型的可访问性,特别是在移动设备上应用,用于眼部疾病的早期诊断。现有方法计算复杂,限制了在资源受限环境中的使用。
  • Method: 在基础层面重新设计和优化卷积层,开发了名为ArConv的新型卷积层,构建了轻量级通用模型。
  • Result: 最终模型仅含130万参数,在RfMiD数据集测试集上达到93.28%的准确率,优于拥有220万参数的MobileNetV2模型(92.66%准确率)。
  • Conclusion: 通过优化卷积层设计,成功创建了适合移动设备使用的轻量级模型,在保持高准确率的同时显著降低了计算复杂度。

[99] Scaling Sequence-to-Sequence Generative Neural Rendering

Shikun Liu,Kam Woh Ng,Wonbong Jang,Jiadong Guo,Junlin Han,Haozhe Liu,Yiannis Douratsos,Juan C. Pérez,Zijian Zhou,Chi Phung,Tao Xiang,Juan-Manuel Pérez-Rúa

Main category: cs.CV

TL;DR: Kaleido是一个用于逼真神经渲染的生成模型家族,将3D视为视频的特殊子域,通过序列到序列的图像合成实现生成式视图合成,无需显式3D表示。

  • Motivation: 通过将3D建模视为视频的特殊子域,利用大规模视频数据进行预训练,减少对稀缺的相机标注3D数据的依赖,实现更好的空间一致性和视图合成质量。
  • Method: 使用解码器-only的整流流变换器,通过掩码自回归框架实现任意数量参考视图到任意数量目标视图的6-DoF生成,统一3D和视频建模。
  • Result: 在多个视图合成基准测试中达到新的最先进水平,零样本性能在少视图设置中显著优于其他生成方法,在多视图设置中首次达到逐场景优化方法的质量。
  • Conclusion: Kaleido通过统一的序列到序列框架成功将3D建模与视频建模结合,利用视频数据预训练显著提升了神经渲染的质量和一致性。

[100] The best performance in the CARE 2025 -- Liver Task (LiSeg-Contrast): Contrast-Aware Semi-Supervised Segmentation with Domain Generalization and Test-Time Adaptation

Jincan Lou,Jingkun Chen,Haoquan Li,Hang Li,Wenjian Huang,Weihua Chen,Fan Wang,Jianguo Zhang

Main category: cs.CV

TL;DR: 提出CoSSeg-TTA框架,用于Gd-EOB-DTPA增强肝胆期MRI的肝脏分割,结合半监督学习和领域适应技术,在低标注条件下实现优越性能。

  • Motivation: 解决对比增强MRI肝脏分割面临的挑战:标注数据有限、增强协议异质性、跨扫描仪和机构的领域偏移问题。传统图像翻译方法存在结构扭曲和训练不稳定等缺点。
  • Method: 基于nnU-Netv2构建紧凑分割框架,采用半监督均值教师方案利用未标注数据,集成随机直方图风格外观转换和可训练对比感知网络的领域适应模块,并使用持续测试时适应策略。
  • Result: 在广泛实验中,框架持续优于nnU-Netv2基线,获得更高的Dice分数和更小的Hausdorff距离,在低标注条件下对未见领域表现出强泛化能力。
  • Conclusion: CoSSeg-TTA框架有效解决了单模态MRI肝脏分割中的领域泛化问题,通过半监督学习和领域适应技术提升了分割性能和在未见领域的泛化能力。

[101] Concept-Based Masking: A Patch-Agnostic Defense Against Adversarial Patch Attacks

Ayushi Mehrotra,Derek Peng,Dipkamal Bhusal,Nidhi Rastogi

Main category: cs.CV

TL;DR: 提出一种基于概念解释的补丁不可知防御方法,通过抑制最有影响力的概念激活向量来中和对抗性补丁攻击,无需显式检测补丁位置或大小。

  • Motivation: 现有防御方法通常需要先验知识(补丁大小或位置),限制了实际应用。对抗性补丁攻击通过局部扰动在物理世界中实现针对性错误分类,构成实际威胁。
  • Method: 利用基于概念的解释来识别和抑制最有影响力的概念激活向量,从而在不显式检测补丁的情况下中和补丁效应。
  • Result: 在Imagenette数据集和ResNet-50模型上的评估显示,该方法在鲁棒性和清洁准确率方面均优于最先进的PatchCleanser方法,且在不同补丁大小和位置下保持强性能。
  • Conclusion: 结果表明将可解释性与鲁棒性结合具有前景,概念驱动的防御策略可作为对抗对抗性补丁攻击的可扩展解决方案。

[102] Flexible and Efficient Spatio-Temporal Transformer for Sequential Visual Place Recognition

Yu Kiu,Lau,Chao Chen,Ge Jin,Chen Feng

Main category: cs.CV

TL;DR: 提出Adapt-STformer方法,通过循环可变形Transformer编码器实现灵活的序列长度支持、快速推理和低内存使用,在多个数据集上显著提升召回率并降低时间和内存开销。

  • Motivation: 现有基于Transformer的序列视觉地点识别方法过于注重性能而牺牲了灵活性和效率,无法满足实时应用中对序列长度可变性、快速推理和低内存使用的需求。
  • Method: 提出Adapt-STformer方法,核心是循环可变形Transformer编码器(Recurrent-DTE),采用迭代循环机制融合多帧序列信息,支持可变序列长度。
  • Result: 在Nordland、Oxford和NuScenes数据集上,Adapt-STformer将召回率提升高达17%,同时序列提取时间减少36%,内存使用降低35%。
  • Conclusion: Adapt-STformer成功解决了现有Transformer基序列视觉地点识别方法在灵活性和效率方面的不足,实现了性能与效率的平衡。

[103] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation

Jay Zhangjie Wu,Xuanchi Ren,Tianchang Shen,Tianshi Cao,Kai He,Yifan Lu,Ruiyuan Gao,Enze Xie,Shiyi Lan,Jose M. Alvarez,Jun Gao,Sanja Fidler,Zian Wang,Huan Ling

Main category: cs.CV

TL;DR: ChronoEdit将图像编辑重新定义为视频生成问题,通过利用预训练视频生成模型的时间一致性来确保物理一致性,并引入时间推理阶段来约束编辑轨迹的物理可行性。

  • Motivation: 现有大型生成模型在图像编辑和上下文图像生成方面取得进展,但在确保物理一致性方面存在关键差距,这对于世界模拟相关任务尤为重要。
  • Method: 将输入和编辑图像视为视频的首尾帧,利用预训练视频生成模型;引入时间推理阶段,在推理时联合去噪目标帧和推理token来想象合理的编辑轨迹;推理token在几步后被丢弃以避免完整视频渲染的高计算成本。
  • Result: 在PBench-Edit基准测试中,ChronoEdit在视觉保真度和物理合理性方面均优于最先进的基线方法。
  • Conclusion: ChronoEdit通过将图像编辑重新定义为视频生成问题,有效解决了物理一致性问题,为需要物理一致性的图像编辑任务提供了新的解决方案。

[104] CARE-PD: A Multi-Site Anonymized Clinical Dataset for Parkinson's Disease Gait Assessment

Vida Adeli,Ivan Klabucar,Javad Rajabi,Benjamin Filtjens,Soroush Mehraban,Diwei Wang,Hyewon Seo,Trung-Hieu Hoang,Minh N. Do,Candice Muller,Claudia Oliveira,Daniel Boari Coelho,Pieter Ginis,Moran Gilat,Alice Nieuwboer,Joke Spildooren,Lucas Mckay,Hyeokhyen Kwon,Gari Clifford,Christine Esper,Stewart Factor,Imari Genias,Amirhossein Dadashzadeh,Leia Shum,Alan Whone,Majid Mirmehdi,Andrea Iaboni,Babak Taati

Main category: cs.CV

TL;DR: CARE-PD是最大的公开帕金森病3D步态数据集,包含来自8个临床中心的9个队列数据,支持临床评分预测和无监督运动任务基准测试。

  • Motivation: 帕金森病的客观步态评估受限于缺乏大型、多样且临床标注的运动数据集,因此需要构建一个多中心的标准化数据集。
  • Method: 将RGB视频或动作捕捉数据通过统一预处理流程转换为匿名SMPL网格,支持监督临床评分预测和无监督运动任务两种基准测试。
  • Result: 运动编码器始终优于手工特征,在CARE-PD上预训练可将MPJPE从60.8mm降至7.5mm,并将PD严重程度macro-F1提高17个百分点。
  • Conclusion: CARE-PD证明了临床策划的多样化训练数据的价值,数据集和基准代码已公开发布用于非商业研究。

[105] GenAR: Next-Scale Autoregressive Generation for Spatial Gene Expression Prediction

Jiarui Ouyang,Yihui Wang,Yihang Gao,Yingxue Xu,Shu Yang,Hao Chen

Main category: cs.CV

TL;DR: GenAR是一个多尺度自回归框架,通过从粗到细的方式预测空间转录组学数据,将基因聚类为层次组以捕捉基因间依赖关系,直接预测原始计数而非连续回归,在四个数据集上达到最先进性能。

  • Motivation: 空间转录组学成本高昂,而H&E染色图像广泛可用。现有计算方法独立预测每个基因且使用连续回归,忽略了基因共表达结构和离散计数特性,导致生物学上不可信的结果。
  • Method: GenAR采用多尺度自回归框架,将基因聚类为层次组,使用无码本离散标记生成直接预测原始计数,在解码时融合组织学和空间嵌入信息。
  • Result: 在四个不同组织类型的空间转录组学数据集上的广泛实验结果表明,GenAR实现了最先进的性能。
  • Conclusion: GenAR通过离散建模和从粗到细的分解,避免了log诱导的偏差,为精准医学和成本效益高的分子分析提供了潜在应用价值。

[106] RAP: 3D Rasterization Augmented End-to-End Planning

Lan Feng,Yang Gao,Eloi Zablocki,Quanyi Li,Wuyang Li,Sichao Liu,Matthieu Cord,Alexandre Alahi

Main category: cs.CV

TL;DR: 提出RAP方法,通过轻量级3D栅格化和特征对齐技术,为端到端驾驶规划提供可扩展的数据增强,无需昂贵的照片级渲染。

  • Motivation: 传统模仿学习缺乏恢复数据,小错误会累积导致失败。现有照片级渲染方法成本高且速度慢,而驾驶规划实际需要的是语义保真度和可扩展性。
  • Method: 使用3D栅格化替代渲染,生成反事实恢复机动和跨智能体视图合成;引入栅格到真实特征空间对齐来弥合仿真与现实的差距。
  • Result: 在NAVSIM v1/v2、Waymo Open Dataset Vision-based E2E Driving和Bench2Drive四个主要基准测试中排名第一,实现了最先进的闭环鲁棒性和长尾泛化能力。
  • Conclusion: 轻量级栅格化配合特征对齐足以扩展端到端训练,为照片级渲染提供了实用的替代方案。

[107] Diffusion^2: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction

Yuhao Luo,Yuang Zhang,Kehua Chen,Xinyu Zheng,Shucheng Zhang,Sikai Chen,Yinhai Wang

Main category: cs.CV

TL;DR: 提出了Diffusion^2框架,用于解决瞬时轨迹预测问题,通过两个连接的扩散模型分别进行历史轨迹生成和未来轨迹预测。

  • Motivation: 在自动驾驶和人机交互场景中,当行人从盲区突然出现时,往往缺乏足够的观测数据(瞬时轨迹),导致预测困难并增加交通事故风险。
  • Method: 使用两个顺序连接的扩散模型:一个用于生成未观测的历史轨迹(向后预测),另一个用于预测未来轨迹(向前预测),并设计了双头参数化机制和时序自适应噪声模块。
  • Result: 在ETH/UCY和Stanford Drone数据集上达到了最先进的瞬时轨迹预测性能。
  • Conclusion: Diffusion^2框架有效解决了瞬时轨迹预测的挑战,为提升交通安全提供了重要技术支撑。

[108] MorphoSim: An Interactive, Controllable, and Editable Language-guided 4D World Simulator

Xuehai He,Shijie Zhou,Thivyanth Venkateswaran,Kaizhi Zheng,Ziyu Wan,Achuta Kadambi,Xin Eric Wang

Main category: cs.CV

TL;DR: MorphoSim是一个语言引导的4D场景生成框架,支持多视角一致性和对象级控制,能够从自然语言指令生成动态环境,并允许对对象进行交互式编辑。

  • Motivation: 现有的文本到视频模型仅限于2D视图且交互性有限,无法满足机器人技术中对可控制和可编辑时空环境的需求。
  • Method: 结合轨迹引导生成和特征场蒸馏技术,从自然语言指令生成4D场景,支持多视角一致性和对象级控制。
  • Result: 实验表明MorphoSim在保持高场景保真度的同时实现了可控性和可编辑性。
  • Conclusion: MorphoSim为机器人技术提供了可扩展的训练数据、可重现的评估和灵活的任务设计能力。

[109] Your Vision-Language Model Can't Even Count to 20: Exposing the Failures of VLMs in Compositional Counting

Xuyang Guo,Zekai Huang,Zhenmei Shi,Zhao Song,Jiahao Zhang

Main category: cs.CV

TL;DR: 本文提出了VLMCountBench基准测试,发现当前视觉语言模型在单一形状计数时表现可靠,但在组合形状计数时存在显著失败。

  • Motivation: 尽管视觉语言模型在多种任务上表现出色,但作者质疑它们是否能正确计数物体,特别是在组合场景中。
  • Method: 创建了仅包含基本几何形状及其组合的简约基准测试VLMCountBench,通过严格控制变量研究颜色、大小和提示优化等简单属性的影响。
  • Result: 实验结果显示,VLMs在单一形状类型计数时表现可靠,但在多种形状类型组合计数时出现显著失败。
  • Conclusion: 当前视觉语言模型在组合计数方面存在基本经验局限性,这为未来研究指明了重要方向。

[110] CodeFormer++: Blind Face Restoration Using Deformable Registration and Deep Metric Learning

Venkata Bharath Reddy Reddem,Akshay P Sarashetti,Ranjith Merugu,Amit Satish Unde

Main category: cs.CV

TL;DR: CodeFormer++是一个新颖的盲脸修复框架,通过分解任务为身份保护修复、高质量生成和动态融合,解决了视觉质量与身份保真度之间的权衡问题。

  • Motivation: 现有方法在盲脸修复中存在视觉质量与身份保真度之间的权衡,导致要么身份失真,要么降质去除不理想。
  • Method: 提出三个关键贡献:基于学习的可变形人脸配准模块、纹理引导修复网络以及集成深度度量学习来融合身份保护和生成特征。
  • Result: 在真实世界和合成数据集上的广泛实验表明,CodeFormer++在视觉保真度和身份一致性方面都取得了优越性能。
  • Conclusion: CodeFormer++框架有效利用了生成先验进行高质量人脸修复,同时保持了身份信息,解决了现有方法的局限性。

[111] A.I.R.: Enabling Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering

Yuanhao Zou,Shengji Jin,Andong Deng,Youpeng Zhao,Jun Wang,Chen Chen

Main category: cs.CV

TL;DR: 提出A.I.R.方法解决VideoQA中的帧选择问题,通过自适应迭代推理选择关键帧,平衡计算成本与准确性

  • Motivation: 现有帧选择方法面临两难:轻量级相似度模型无法处理复杂查询,而使用VLM进行深度分析则计算成本过高
  • Method: 使用强大的VLM对复杂查询进行深度语义分析,在成本效益高的迭代循环中仅处理少量高潜力帧
  • Result: 在多个VideoQA基准测试中表现优于现有帧选择方法,显著提升基础VLM性能,计算效率大幅提高
  • Conclusion: A.I.R.方法有效解决了帧选择中的准确性与计算效率的权衡问题

[112] REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization

Qiyuan He,Yicong Li,Haotian Ye,Jinghao Wang,Xinyao Liao,Pheng-Ann Heng,Stefano Ermon,James Zou,Angela Yao

Main category: cs.CV

TL;DR: 提出reAR训练策略解决视觉自回归生成中的生成器-分词器不一致问题,通过token-wise正则化目标提升性能,无需改变分词器或推理流程

  • Motivation: 视觉自回归生成性能落后于扩散模型,核心瓶颈在于生成器与分词器的不一致性,即AR生成的token可能无法被分词器良好解码
  • Method: 提出reAR训练策略,在预测下一个token时,因果变换器同时学习恢复当前token的视觉嵌入,并在噪声上下文中预测目标token的嵌入
  • Result: 在ImageNet上,gFID从3.02降至1.86,IS提升至316.9;应用于先进分词器时,仅用177M参数达到gFID 1.42,匹配675M扩散模型性能
  • Conclusion: reAR通过简单的训练策略有效解决了生成器-分词器不一致问题,显著提升了视觉自回归生成的性能

[113] SPEGNet: Synergistic Perception-Guided Network for Camouflaged Object Detection

Baber Jan,Saeed Anwar,Aiman H. El-Maleh,Abdul Jabbar Siddiqui,Abdul Bais

Main category: cs.CV

TL;DR: SPEGNet提出了一种统一的伪装目标检测方法,通过通道校准和空间增强整合多尺度特征,避免了传统方法中复杂组件累积带来的计算负担。

  • Motivation: 当前伪装目标检测方法依赖累积复杂组件(如边界模块、注意力机制等),导致计算负担增加且需要降低分辨率处理,从而丢失精细细节。
  • Method: SPEGNet采用统一设计,通过通道校准和空间增强整合多尺度特征,边界直接从上下文丰富的表示中产生,保持语义-空间对齐,并采用渐进式细化实现尺度自适应边缘调制。
  • Result: 在CAMO数据集上达到0.887 Sα,COD10K上0.890,NC4K上0.895,并实现实时推理速度,在各种尺度对象上表现优异。
  • Conclusion: SPEGNet在边界精度和区域一致性之间取得了平衡,能够有效处理遮挡和模糊边界,为伪装目标检测提供了高效统一的解决方案。

[114] MedCLM: Learning to Localize and Reason via a CoT-Curriculum in Medical Vision-Language Models

Soo Yong Kim,Suin Cho,Vincent-Daniel Yun,Gyeongyeon Hwang

Main category: cs.CV

TL;DR: MedCLM是一个将检测数据集转换为大规模医学视觉问答数据的自动化流程,通过连接病变框与器官分割和结构化推理,使医学视觉语言模型能够生成带有逐步推理的问答对。

  • Motivation: 弥合临床诊断推理与AI之间的差距仍然是医学影像中的核心挑战。
  • Method: 提出MedCLM自动化流程,将检测数据集转换为带有链式推理的大规模医学VQA数据;采用集成CoT-课程策略,包含简单阶段(显式病变框)、中等阶段(隐式定位)和困难阶段(弱监督推理)。
  • Result: MedCLM在多个医学VQA基准测试中达到了最先进的性能。
  • Conclusion: MedCLM为开发临床对齐的医学视觉语言模型提供了一个可扩展的框架。

[115] VaseVQA-3D: Benchmarking 3D VLMs on Ancient Greek Pottery

Nonghai Zhang,Zeyu Zhang,Jiazi Wang,Yang Zhao,Hao Tang

Main category: cs.CV

TL;DR: 提出了首个针对古希腊陶器3D模型的视觉问答数据集VaseVQA-3D和相应的VaseVLM模型,解决了文化遗产领域视觉语言模型面临的数据稀缺和领域知识不足问题。

  • Motivation: 现有的视觉语言模型在通用任务上表现良好,但在文化遗产等专业领域面临数据稀缺和领域知识不足的挑战,特别是在3D陶器文物分析方面。
  • Method: 构建了VaseVQA-3D数据集(包含664个古希腊陶器3D模型及对应问答数据),开发了VaseVLM模型,通过领域自适应训练提升模型在陶器文物分析中的性能。
  • Result: 在VaseVQA-3D数据集上,R@1指标提升12.8%,词汇相似度提升6.6%,显著改善了3D陶器文物的识别和理解能力。
  • Conclusion: 该方法为数字文化遗产保护研究提供了新的技术途径,有效解决了专业领域视觉语言模型的应用挑战。

[116] TBStar-Edit: From Image Editing Pattern Shifting to Consistency Enhancement

Hao Fang,Zechao Zhan,Weixin Feng,Ziwei Huang,XuBin Li,Tiezheng Ge

Main category: cs.CV

TL;DR: TBStar-Edit是一个专门为电商领域设计的图像编辑模型,通过数据工程、模型架构设计和两阶段训练策略,在保持产品外观和布局完整性的同时实现精确高保真的图像编辑。

  • Motivation: 现有的通用图像生成和编辑模型在电商场景中经常遇到一致性限制问题,无法很好地保持产品外观和布局的完整性。
  • Method: 1. 数据工程:建立全面的数据构建流程(收集、构建、筛选、增强)获取高质量、指令跟随和强一致性的编辑数据;2. 模型架构:设计分层框架,包括基础模型、模式转换模块和一致性增强模块;3. 训练策略:采用两阶段训练,第一阶段进行编辑模式转换,第二阶段进行一致性增强。
  • Result: 在自建的电商基准测试中,TBStar-Edit在客观指标(VIE评分)和主观用户偏好方面均优于现有的通用领域编辑模型。
  • Conclusion: TBStar-Edit通过专门针对电商领域的设计,有效解决了通用模型在电商场景中的一致性限制问题,实现了更好的图像编辑效果。

[117] Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

Zijing Hu,Yunze Tong,Fengda Zhang,Junkun Yuan,Jun Xiao,Kun Kuang

Main category: cs.CV

TL;DR: 提出异步扩散模型,通过为不同像素分配不同时间步长来改善文本到图像的对齐问题

  • Motivation: 传统扩散模型采用同步去噪,所有像素同时从噪声演化到清晰图像,导致提示相关区域只能参考不相关区域的相同噪声水平,无法获得清晰上下文,最终影响文本到图像对齐效果
  • Method: 异步扩散模型框架,为不同像素分配不同的时间步长,重新制定逐像素去噪过程。通过动态调节单个像素的时间步长调度,使提示相关区域比不相关区域更渐进地去噪,从而利用更清晰的像素间上下文
  • Result: 广泛的实验表明,异步扩散模型能显著提高各种提示下的文本到图像对齐效果
  • Conclusion: 异步扩散模型通过异步去噪机制,有效解决了传统扩散模型在文本到图像对齐方面的局限性,提升了生成图像与输入提示的忠实度

[118] TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

Hyunmin Cho,Donghoon Ahn,Susung Hong,Jee Eun Kim,Seungryong Kim,Kyong Hwan Jin

Main category: cs.CV

TL;DR: 提出TAG(切向放大引导)方法,通过放大估计分数的切向分量来修正采样轨迹,提高扩散模型的生成质量而不修改基础模型。

  • Motivation: 现有扩散模型在图像生成中常出现语义不一致或幻觉问题,现有的推理时引导方法通常依赖外部信号或架构修改,带来额外计算开销。
  • Method: 利用中间样本作为投影基础,通过一阶泰勒展开放大估计分数的切向分量来修正采样轨迹,无需修改底层扩散模型。
  • Result: TAG是一个即插即用、架构无关的模块,能以最小计算开销提高扩散采样的保真度。
  • Conclusion: TAG提供了一种新的扩散引导视角,通过直接操作轨迹信号实现高效引导,减少语义不一致并提升样本质量。

[119] Conditional Representation Learning for Customized Tasks

Honglin Liu,Chao Sun,Peng Hu,Yunfan Li,Xi Peng

Main category: cs.CV

TL;DR: 提出条件表示学习(CRL)方法,通过用户指定的条件生成定制化特征表示,避免传统通用表示与下游任务不匹配的问题,无需监督微调即可获得针对特定标准的语义表示。

  • Motivation: 传统表示学习方法学习的是通用表示,主要捕捉主导语义,可能与定制化下游任务不匹配。例如在动物栖息地分析中,研究者关注场景相关特征,而通用嵌入强调类别语义,导致次优结果。现有方法需要监督微调,计算和标注成本高。
  • Method: CRL方法:1) 使用大语言模型(LLM)根据用户指定条件生成描述性文本来构建语义基;2) 利用视觉语言模型(VLM)将图像表示投影到这个条件特征空间中。通过语义基的概念实现定制化特征提取。
  • Result: 在分类和检索任务上的大量实验证明了CRL的优越性和通用性。条件表示能更好地捕捉特定标准的语义,适用于多种定制化任务。
  • Conclusion: CRL提供了一种无需监督微调的条件表示学习方法,能够根据任意用户指定标准提取定制化表示,有效解决了通用表示与定制任务不匹配的问题。

[120] Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior

Sheng Wang,Ruiming Wu,Charles Herndon,Yihang Liu,Shunsuke Koga,Jeanne Shen,Zhi Huang

Main category: cs.CV

TL;DR: 本文提出了AI Session Recorder系统,通过记录病理学家在WSI查看器中的导航行为来生成Pathology-CoT数据集,并构建了Pathologist-o3智能代理系统,在胃肠道淋巴结转移检测中表现优异。

  • Motivation: 当前病理学基础模型虽然强大,但缺乏能够自主决定查看区域、调整放大倍数并提供可解释诊断的实用智能代理系统,主要障碍是缺乏可扩展的、临床对齐的专家行为监督数据。
  • Method: 开发AI Session Recorder记录病理学家在WSI查看器中的导航行为,通过轻量级人工审核将日志转换为标准化行为命令和边界框,构建Pathology-CoT数据集,并基于此训练Pathologist-o3两阶段代理系统。
  • Result: 在胃肠道淋巴结转移检测任务中,Pathologist-o3达到了84.5%的精确率、100.0%的召回率和75.4%的准确率,优于最先进的OpenAI o3模型,且在不同骨干网络上具有良好的泛化能力。
  • Conclusion: 该框架将日常查看器日志转化为可扩展的专家验证监督数据,使智能病理代理系统变得实用,并为构建人类对齐、可升级的临床AI系统开辟了道路。

[121] A Spatial-Spectral-Frequency Interactive Network for Multimodal Remote Sensing Classification

Hao Liu,Yunhao Gao,Wei Li,Mingyang Zhang,Maoguo Gong,Lorenzo Bruzzone

Main category: cs.CV

TL;DR: 提出S²Fin网络,通过空间-光谱-频率交互融合,解决多模态遥感图像分类中结构特征和细节特征提取困难的问题

  • Motivation: 现有特征融合方法难以从异构冗余的多模态图像中提取结构和细节特征,需要引入频域学习来建模关键稀疏细节特征
  • Method: 提出高频稀疏增强变换器,采用稀疏空间-光谱注意力优化高频滤波器参数;引入两级空间-频率融合策略,包括自适应频率通道模块和高频共振掩码;以及空间-光谱注意力融合模块
  • Result: 在四个基准多模态数据集上的实验表明,S²Fin在有限标注数据下实现了优越的分类性能,超越了现有最先进方法
  • Conclusion: S²Fin通过频域学习有效提升了多模态遥感图像分类能力,特别是在提取结构和细节特征方面表现出色

[122] SFANet: Spatial-Frequency Attention Network for Deepfake Detection

Vrushank Ahire,Aniruddh Muley,Shivam Zample,Siddharth Verma,Pranav Menon,Surbhi Madan,Abhinav Dhall

Main category: cs.CV

TL;DR: 提出了一种结合Transformer架构和纹理方法的集成框架,用于检测深度伪造媒体,在DFWild-Cup数据集上取得了最先进的性能。

  • Motivation: 随着深度伪造技术的兴起,检测伪造媒体变得日益重要。现有方法在跨数据集和生成技术的泛化能力方面存在不足。
  • Method: 采用集成框架,结合Swin Transformers和ViT等Transformer架构与纹理方法,引入创新数据分割、顺序训练、频率分割、基于补丁的注意力和面部分割技术。
  • Result: 在包含八个深度伪造数据集的DFWild-Cup数据集上实现了最先进的检测性能。
  • Conclusion: 混合模型能有效应对深度伪造检测的挑战,为实际应用提供了稳健解决方案。

[123] Do Superpixel Segmentation Methods Influence Deforestation Image Classification?

Hugo Resende,Fabio A. Faria,Eduardo B. Neto,Isabela Borlido,Victor Sundermann,Silvio Jamil F. Guimarães,Álvaro L. Fazenda

Main category: cs.CV

TL;DR: 本研究比较了SLIC与其他四种超像素分割方法在森林砍伐检测中的效果,发现通过分类器融合方法可以显著提升检测精度。

  • Motivation: ForestEyes项目结合公民科学和机器学习检测热带森林砍伐,传统使用SLIC算法进行图像分割,但研究表明其他超像素方法在遥感图像分割中表现更好,需要评估不同分割方法对分类器训练的影响。
  • Method: 比较SLIC和其他四种最佳分割方法,使用PyCaret AutoML库选择前五名分类器,并应用分类器融合(集成学习)方法。
  • Result: 初始结果显示不同分割方法间性能差异不大,但通过分类器融合方法后,平衡准确率有明显提升。
  • Conclusion: 分割方法的选择和机器学习模型的组合对于森林砍伐检测任务都很重要,分类器融合方法能有效提升检测性能。

[124] EduPersona: Benchmarking Subjective Ability Boundaries of Virtual Student Agents

Buyuan Zhu,Shiyu Hu,Yiping Ma,Yuanming Zhang,Kang Hao Cheong

Main category: cs.CV

TL;DR: EduPersona是一个大规模教育基准,专注于评估语言模型在课堂模拟中的主观能力,包含1308个真实课堂对话和128k扩展数据,通过三个渐进任务评估模型性能。

  • Motivation: 随着大语言模型在教育中的应用增多,虚拟学生代理在课堂模拟和教师培训中变得重要,但其课堂导向的主观能力尚未得到充分评估,限制了模型边界理解和可信部署。
  • Method: 基于大五人格理论构建包含两种语言、三个学科、十种人格类型的大规模数据集,将主观性能分解为三个渐进任务:基本连贯性、学生真实性和长期人格一致性。
  • Result: 在三个代表性LLM上的实验显示,经过EduPersona微调的模型在所有任务上都有显著提升:TASK1 +33.6%、TASK2 +30.6%、TASK3 +14.9%。
  • Conclusion: EduPersona提供了首个专注于主观能力的课堂基准,建立了可解耦和可验证的研究范式,将开源数据集和框架支持教育AI研究。

[125] MoME: Estimating Psychological Traits from Gait with Multi-Stage Mixture of Movement Experts

Andy Cǎtrunǎ,Adrian Cosma,Emilian Rǎdoi

Main category: cs.CV

TL;DR: 提出了一种分层多阶段运动专家混合模型,用于从步态序列中预测心理特征,在PsyMo基准测试中表现优于现有方法。

  • Motivation: 步态包含丰富的生物特征和行为信息,但利用行走方式来推断心理特征仍是一个具有挑战性且未被充分探索的问题。
  • Method: 采用分层多阶段运动专家混合架构,通过四个运动复杂度阶段处理行走周期,使用轻量级专家模型提取时空特征,并通过任务特定门控模块自适应加权专家。
  • Result: 在涵盖17个心理特征的PsyMo基准测试中,该方法在运行级别达到37.47%加权F1分数,在受试者级别达到44.6%,优于现有步态分析模型。
  • Conclusion: 研究表明多任务步态学习在心理特征估计方面具有可行性,为基于运动信息的心理推断提供了基础。

[126] ConceptSplit: Decoupled Multi-Concept Personalization of Diffusion Models via Token-wise Adaptation and Attention Disentanglement

Habin Lim,Yeongseob Won,Juwon Seo,Gyeong-Moon Park

Main category: cs.CV

TL;DR: ConceptSplit是一个解决多概念个性化文本到图像生成中概念混合问题的新框架,包含Token-wise Value Adaptation训练方法和Latent Optimization for Disentangled Attention推理优化

  • Motivation: 多概念个性化生成中多个学习的概念在输出图像中会产生干扰或混合的问题,现有方法修改key投影会破坏注意力机制导致概念混合
  • Method: 提出ToVA训练方法仅调整交叉注意力中的value投影,避免修改key投影;提出LODA在推理时通过优化输入潜变量来缓解注意力纠缠
  • Result: 通过大量定性和定量实验证明ConceptSplit能够实现鲁棒的多概念个性化,减轻意外的概念干扰
  • Conclusion: ConceptSplit框架有效解决了多概念个性化中的概念混合问题,通过训练和推理阶段的创新方法实现了更好的概念分离效果

[127] Label-Efficient Cross-Modality Generalization for Liver Segmentation in Multi-Phase MRI

Quang-Khai Bui-Tran,Minh-Toan Dinh,Thanh-Huy Nguyen,Ba-Thinh Lam,Mai-Anh Vu,Ulas Bagci

Main category: cs.CV

TL;DR: 提出了一种标签高效的肝脏分割方法,通过基础模型微调、交叉伪监督协同训练和标准化预处理,在多模态多厂商MRI中实现跨模态泛化,无需空间配准。

  • Motivation: 多模态MRI中肝脏分割对于肝纤维化评估至关重要,但现实临床环境中存在标注数据稀缺、模态分布不均、空间错位和缺失相位等问题,需要开发能够跨模态泛化的标签高效分割方法。
  • Method: 整合基础级3D分割主干网络微调、交叉伪监督协同训练利用未标注数据、标准化预处理流程,无需空间配准即可学习跨MRI相位和厂商的泛化能力。
  • Result: 模型在标注和未标注域均表现出稳健的分割性能,验证了所提标签高效基线在多相位多厂商MRI肝脏分割中的有效性。
  • Conclusion: 结合基础模型适应与协同训练的方法在真实临床影像任务中具有巨大潜力,能够有效解决标注数据稀缺和模态分布不均的挑战。

[128] ID-Consistent, Precise Expression Generation with Blendshape-Guided Diffusion

Foivos Paraperas Papantoniou,Stefanos Zafeiriou

Main category: cs.CV

TL;DR: 提出了一个基于扩散模型的框架,能够忠实地重新想象任何对象在任何特定面部表情下的表现,通过组合式设计实现身份一致性和精确的表情控制。

  • Motivation: 现有方法在保持面部身份一致性的同时,难以实现细粒度的表情控制而不损害身份特征。需要开发能够同时满足身份一致性和精确表情控制的人类中心生成模型。
  • Method: 基于ID一致的面部基础模型,采用组合式设计,包含由FLAME blendshape参数引导的表情交叉注意力模块,并在富含表情变化的图像和视频数据混合集上训练。
  • Result: 模型能够超越基本情绪,生成微妙的微表情和表情转换,在定制的身份一致表情生成方面优于现有方法。
  • Conclusion: 该框架在保持身份一致性的同时实现了精确的表情控制,能够处理从基本情绪到微妙微表情的各种面部表现。

[129] ReactDiff: Fundamental Multiple Appropriate Facial Reaction Diffusion Model

Luo Cheng,Song Siyang,Yan Siyuan,Yu Zhen,Ge Zongyuan

Main category: cs.CV

TL;DR: ReactDiff是一个新颖的时间扩散框架,用于在对话中生成多样且逼真的面部反应,通过整合时空面部运动学先验来确保反应的平滑性和自然性。

  • Motivation: 现有方法无法模拟真实人类反应的随机性和动态特性,导致生成的面部反应缺乏多样性和真实感。
  • Method: 提出ReactDiff框架,在扩散过程中整合两个关键先验:时间面部行为运动学和面部动作单元依赖关系,以引导模型生成符合人类面部解剖学约束的逼真反应。
  • Result: 在REACT2024数据集上的广泛实验表明,该方法在反应质量、多样性和反应适当性方面均达到最先进水平。
  • Conclusion: ReactDiff通过整合时空面部运动学约束,成功解决了面部反应生成中的多样性和真实性问题,为人类-计算机交互系统提供了更自然的交互体验。

[130] Object-Centric Representation Learning for Enhanced 3D Scene Graph Prediction

KunHo Heo,GiHyun Kim,SuYeon Kim,MyeongAh Cho

Main category: cs.CV

TL;DR: 提出了一种通过对比预训练策略增强对象特征表示能力的3D语义场景图预测方法,显著提升了对象分类和关系预测的准确性。

  • Motivation: 现有方法过度依赖图神经网络但对象和关系特征的表示能力不足,研究发现对象特征质量对整体场景图精度至关重要。
  • Method: 设计了高判别性的对象特征编码器,采用对比预训练策略将对象表示学习与场景图预测解耦,并有效结合几何和语义特征进行关系预测。
  • Result: 在3DSSG数据集上显著超越现有最先进方法,将预训练编码器集成到现有框架中在所有评估指标上都观察到实质性性能提升。
  • Conclusion: 通过增强对象特征表示能力并有效整合关系信息,该方法在3D语义场景图预测任务中取得了卓越性能。

[131] Benchmark on Monocular Metric Depth Estimation in Wildlife Setting

Niccolò Niccoli,Lorenzo Seidenari,Ilaria Greco,Francesco Rovero

Main category: cs.CV

TL;DR: 首个针对野生动物监测的单目深度估计基准测试,评估了四种先进方法在真实相机陷阱环境中的性能,发现Depth Anything V2表现最佳,为保护监测系统提供实用指导。

  • Motivation: 相机陷阱广泛用于野生动物监测,但单目图像缺乏深度信息,现有单目深度估计方法在自然野生动物环境中的性能尚未系统评估。
  • Method: 在93张带有校准ChARUCO图案地面真实距离的相机陷阱图像上,评估四种最先进的MDE方法(Depth Anything V2、ML Depth Pro、ZoeDepth、Metric3D)和几何基线方法。
  • Result: Depth Anything V2表现最佳,平均绝对误差0.454m,相关性0.962;ZoeDepth在户外自然环境中性能显著下降(MAE: 3.087m);中值深度提取在所有深度学习方法中始终优于均值方法。
  • Conclusion: 该基准为野生动物应用建立了性能基线,并为在保护监测系统中实施深度估计提供了实用指导,Depth Anything V2在准确性和速度之间提供了最佳平衡。

[132] ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Mehdi Houshmand Sarkhoosh,Frøy Øye,Henrik Nestor Sørlie,Nam Hoang Vu,Dag Johansen,Cise Midoglu,Tomas Kupka,Pål Halvorsen

Main category: cs.CV

TL;DR: 提出ExposureEngine系统,使用定向边界框(OBB)精确检测体育转播中旋转的赞助商logo,在足球案例中达到0.859 mAP,并集成语言驱动分析功能。

  • Motivation: 传统赞助商可见性分析依赖手动、主观且不可扩展的方法,现有自动化系统因使用水平边界框(HBB)在logo旋转或倾斜时导致曝光指标不准确。
  • Method: 开发端到端系统,预测定向边界框(OBB)精确拟合各种方向的logo,创建包含1,103帧瑞典顶级足球比赛的数据集,集成语言驱动代理层支持自然语言查询。
  • Result: 模型达到0.859 mAP@0.5,精确率0.96,召回率0.87,在多样化转播条件下稳健定位logo,系统计算精确的可见性指标如曝光时长和屏幕覆盖率。
  • Conclusion: ExposureEngine提供全面的可审计和可解释的赞助商测量解决方案,包括数据集和分析仪表板,显著提升体育媒体中赞助商可见性分析的准确性和效率。

[133] Anomaly-Aware YOLO: A Frugal yet Robust Approach to Infrared Small Target Detection

Alina Ciocarlan,Sylvie Le Hégarat-Mascle,Sidonie Lefebvre

Main category: cs.CV

TL;DR: 提出AA-YOLO方法,在YOLO检测头中集成统计异常检测,将小目标视为背景中的异常模式,有效控制误报率,在各种YOLO骨干网络中具有良好通用性。

  • Motivation: 红外小目标检测在防御应用中面临复杂背景和小目标尺寸的挑战,传统目标检测器会产生大量误报。
  • Method: 在YOLO检测头中集成统计异常检测测试,将小目标视为背景中的意外模式,仅修改检测头使其具有高度通用性。
  • Result: 在多个IRSTD基准测试中取得竞争性性能,在训练数据有限、噪声和域偏移场景下表现出显著鲁棒性,成功应用于各种YOLO骨干网络和实例分割YOLO。
  • Conclusion: AA-YOLO是资源受限实际部署中具有吸引力的解决方案,代码将公开发布。

[134] Beyond Appearance: Transformer-based Person Identification from Conversational Dynamics

Masoumeh Chapariniya,Teodora Vukovic,Sarah Ebling,Volker Dellwo

Main category: cs.CV

TL;DR: 该论文研究基于Transformer的架构在自然面对面对话场景中的人员识别性能,使用双流框架分别建模空间配置和时间运动模式,在CANDOR对话语料库上取得了98.03%的准确率。

  • Motivation: 研究Transformer架构在自然面对面对话场景中的人员识别性能,探索空间配置和时间运动模式在人员识别中的作用。
  • Method: 实现并评估双流框架,分别建模133个COCO WholeBody关键点的空间配置和时间运动模式,比较预训练和从头训练,研究速度特征的使用,并引入多尺度时间Transformer进行分层运动建模。
  • Result: 领域特定训练显著优于迁移学习,空间配置比时间动态携带更多判别信息。空间Transformer达到95.74%准确率,多尺度时间Transformer达到93.90%。特征级融合将性能提升至98.03%。
  • Conclusion: Transformer架构在自然交互中的人员识别具有潜力,姿态和动态信息是互补的,为未来多模态和跨文化研究提供了见解。

[135] Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction

Chi Yan,Dan Xu

Main category: cs.CV

TL;DR: PG-Occ是一个渐进式高斯变换器框架,用于开放词汇3D占用预测,通过渐进在线密集化和各向异性感知采样策略,在保持计算效率的同时提升对小物体的检测能力。

  • Motivation: 传统3D占用预测方法局限于固定语义类别,而现有文本对齐方法存在稀疏高斯表示难以捕捉小物体与密集表示计算开销大的权衡问题。
  • Method: 采用渐进在线密集化策略逐步增强3D高斯表示,结合各向异性感知采样和时空融合,自适应分配不同尺度和阶段的感受野。
  • Result: 在评估中实现了最先进的性能,相比之前最佳方法相对提升了14.3%的mIoU。
  • Conclusion: PG-Occ框架有效解决了文本对齐场景建模中的权衡问题,实现了更精确和详细的场景理解。

[136] Beyond the Seen: Bounded Distribution Estimation for Open-Vocabulary Learning

Xiaomeng Fan,Yuchuan Mao,Zhi Gao,Yuwei Wu,Jin Chen,Yunde Jia

Main category: cs.CV

TL;DR: 提出了一种通过生成未见类数据来估计开放环境分布的新方法,包含类域数据生成流程和分布对齐算法,在11个数据集上表现优于基线方法14%

  • Motivation: 现有方法仅使用已见类数据估计开放环境分布,但由于未见类的缺失导致估计误差无法识别。学习超越已见类对于边界估计误差至关重要
  • Method: 提出类域数据生成流程(在层次语义树和域信息指导下生成未见类数据)和分布对齐算法(估计并最大化后验概率)
  • Result: 在11个数据集上的广泛实验表明,该方法比基线方法性能提升高达14%
  • Conclusion: 通过生成未见类数据可以有效估计开放环境分布,理论证明估计误差有上界,提出的方法在开放词汇学习中表现出色

[137] Federated Learning for Surgical Vision in Appendicitis Classification: Results of the FedSurg EndoVis 2024 Challenge

Max Kirchner,Hanna Hoffmann,Alexander C. Jenke,Oliver L. Saldanha,Kevin Pfeiffer,Weam Kanjo,Julia Alekseenko,Claas de Boer,Santhi Raj Kolamuri,Lorenzo Mazza,Nicolas Padoy,Sophia Bano,Annika Reinke,Lena Maier-Hein,Danail Stoyanov,Jakob N. Kather,Fiona R. Kolbinger,Sebastian Bodenstedt,Stefanie Speidel

Main category: cs.CV

TL;DR: FedSurg挑战赛是首个针对手术视频分类的联邦学习基准测试,评估模型在未见临床中心的泛化能力和本地微调适应性,发现ViViT模型表现最佳,同时揭示了泛化能力有限、类别不平衡敏感等问题。

  • Motivation: 建立手术视频分类中联邦学习的基准评估体系,评估现有方法在未见临床中心的泛化能力、本地微调适应性,以及在不共享患者数据情况下的协作模型开发能力。
  • Method: 使用多中心Appendix300视频数据集,参与者开发了基于基础模型的线性探测、三元组损失的度量学习,以及FedAvg、FedMedian、FedSAM等联邦学习聚合方案,通过F1分数和期望成本评估性能。
  • Result: 泛化任务中各中心性能有限,适应任务中所有团队在微调后均有提升但排名稳定性低,ViViT模型表现最佳,时空建模和上下文感知预处理显示出潜力。
  • Conclusion: 该挑战赛建立了手术视频分类联邦学习的首个基准,揭示了本地个性化与全局鲁棒性之间的权衡,强调了架构选择、预处理和损失设计的重要性,为未来开发不平衡感知、自适应和鲁棒的临床手术AI方法提供了参考。

[138] Hands-Free Heritage: Automated 3D Scanning for Cultural Heritage Digitization

Javed Ahmad,Federico Dassiè,Selene Frascella,Gabriele Marchello,Ferdinando Cannella,Arianna Traviglia

Main category: cs.CV

TL;DR: 提出了一种自动化双机器人扫描系统,用于文化遗产文物的高保真3D扫描,通过协调的机器人操作和运动规划实现全面表面覆盖,显著提高了扫描精度和效率。

  • Motivation: 传统3D扫描方法需要专业知识和手动干预来维持最佳扫描条件和覆盖范围,这限制了文化遗产保护的效率和可及性。
  • Method: 使用两个协调工作的机器人系统:一个配备扫描仪的机器人和一个托盘处理机器人。系统将扫描空间参数化为不同区域,通过优化的轨迹规划和路径点分布来确保全面表面覆盖、最小化遮挡,并平衡重建精度与系统效率。
  • Result: 实验结果显示,该方法相比基线方法实现了显著更低的Chamfer距离和更高的F分数,提供了优越的几何精度、改进的数字化效率,并减少了对专家操作人员的依赖。
  • Conclusion: 自动化双机器人扫描系统能够有效解决文化遗产3D扫描中的挑战,为文化遗产保护提供了一种高效、精确且易于使用的解决方案。

[139] A Comparative Study of Vision Transformers and CNNs for Few-Shot Rigid Transformation and Fundamental Matrix Estimation

Alon Kaya,Igal Bilik,Inna Stainvas

Main category: cs.CV

TL;DR: 该研究系统比较了ViT和大规模CNN在几何估计任务中的表现,发现在大数据场景下ViT表现更优,而在小数据场景下CNN的归纳偏置使其能与ViT匹敌。

  • Motivation: 探索预训练的ViT和CNN在涉及图像形变的几何估计任务中的效率,特别是在低数据环境下的表现。
  • Method: 系统比较大规模CNN(ResNet、EfficientNet、CLIP-ResNet)与ViT基础模型(CLIP-ViT变体和DINO)在不同数据规模设置下的表现,包括少样本场景。
  • Result: 在大数据场景下ViT优于CNN,但在小数据场景下CNN的归纳偏置和较小容量使其能与ViT匹敌;ViT在跨域评估中表现出更强的泛化能力。
  • Conclusion: 需要根据数据规模仔细选择模型架构进行精调,未来研究应关注平衡局部和全局表示的混合架构。

[140] DiT-VTON: Diffusion Transformer Framework for Unified Multi-Category Virtual Try-On and Virtual Try-All with Integrated Image Editing

Qi Li,Shuwen Qiu,Julien Han,Xingzi Xu,Mehmet Saygin Seyfioglu,Kee Kiat Koo,Karim Bouyarmane

Main category: cs.CV

TL;DR: DiT-VTON是一个基于扩散变换器的新型虚拟试穿框架,通过多种图像条件配置和数据扩展,实现了卓越的细节保持和鲁棒性,支持多种产品类别和图像编辑功能。

  • Motivation: 现有虚拟试穿模型在细节保持、鲁棒性、采样效率、图像编辑能力和跨类别泛化方面存在不足,需要更先进的解决方案。
  • Method: 采用扩散变换器架构,探索了上下文标记拼接、通道拼接和ControlNet集成等多种图像条件配置,并在扩展数据集上进行训练。
  • Result: 在VITON-HD数据集上超越现有最先进方法,实现了更好的细节保持和鲁棒性,无需额外条件编码器;在包含数千个产品类别的多样化数据集上,在VTA和图像编辑能力方面表现优异。
  • Conclusion: DiT-VTON不仅重新定义了虚拟试穿任务,还提供了通用的虚拟试穿解决方案,支持多种产品类别和高级图像编辑功能,展示了数据扩展和扩散变换器在虚拟试穿任务中的有效性。

[141] Did you just see that? Arbitrary view synthesis for egocentric replay of operating room workflows from ambient sensors

Han Zhang,Lalithkumar Seenivasan,Jose L. Porras,Roger D. Soberanis-Mukul,Hao Ding,Hongchao Shu,Benjamin D. Killeen,Ankita Ghosh,Lonny Yarmus,Masaru Ishii,Angela Christine Argento,Mathias Unberath

Main category: cs.CV

TL;DR: EgoSurg是一个从固定摄像头视频重建手术室人员动态自我中心视角回放的框架,无需干扰临床工作流程。

  • Motivation: 传统手术观察方法依赖固定视角或回忆,无法记录指导临床决策的自我中心视觉视角,限制了手术安全、培训和流程优化的洞察。
  • Method: 结合几何驱动的神经渲染和基于扩散的视图增强技术,能够在任意时刻合成任意自我中心视角的高视觉保真度图像。
  • Result: 在多站点手术案例和对照研究中,EgoSurg能够以高视觉质量和保真度重建人员特定的视觉场和任意视角。
  • Conclusion: EgoSurg将现有手术室摄像头基础设施转变为可导航的动态3D记录,为沉浸式手术数据科学建立了新基础,使手术实践能够从各个角度可视化、体验和分析。

[142] Visual Representations inside the Language Model

Benlin Liu,Amita Kamath,Madeleine Grunde-McLaughlin,Winson Han,Ranjay Krishna

Main category: cs.CV

TL;DR: 该论文研究了多模态语言模型在感知任务上的表现不佳问题,发现视觉值令牌包含足够信息但语言模型未能充分利用,同时输入无关的图像键令牌存在干扰,通过添加文本前缀可改善感知能力。

  • Motivation: 理解为什么多模态语言模型在感知密集型任务上表现不佳,特别是研究视觉键值令牌在模型中的处理机制。
  • Method: 分析流行多模态模型(LLaVA-OneVision、Qwen2.5-VL、Llama-3-LLaVA-NeXT)中视觉信息的流动,研究视觉值令牌和键令牌的作用,探索通过文本前缀控制视觉信息的方法。
  • Result: 视觉值令牌包含足够信息执行分割、语义对应等感知任务;语言模型对视觉信息的增强与整体感知能力相关;后期层中的输入无关键令牌存在干扰;添加文本前缀可改善感知能力;33.3%的BLINK基准问题中,语言模型内的感知信息未被输出利用。
  • Conclusion: 揭示了键值令牌在多模态系统中的关键作用,为MLMs的机制可解释性研究提供了新方向,并建议改进视觉编码器和语言模型组件的训练方法。

[143] AvatarVTON: 4D Virtual Try-On for Animatable Avatars

Zicheng Jiang,Jixin Gao,Shengfeng He,Xinzhe Li,Yulong Zheng,Zhaotong Yang,Junyu Dong,Yong Du

Main category: cs.CV

TL;DR: AvatarVTON是首个4D虚拟试穿框架,能从单张服装图像生成逼真的试穿效果,支持自由姿态控制、新视角渲染和多样化服装选择。

  • Motivation: 现有方法需要多视角服装捕捉或物理先验,无法在单视角监督下实现动态服装交互。AvatarVTON旨在解决这一限制。
  • Method: 框架包含两个关键模块:互易流校正器(无先验光流校正策略)和非线性变形器(将高斯图分解为视角姿态不变和特定分量)。
  • Result: 实验表明AvatarVTON实现了高保真度、多样性和动态服装真实感,建立了4D虚拟试穿的基准。
  • Conclusion: 该框架适用于AR/VR、游戏和数字人应用,无需多视角捕捉或物理先验即可实现动态服装交互。

[144] Flow Matching for Conditional MRI-CT and CBCT-CT Image Synthesis

Arnela Hadzic,Simon Johannes Joham,Martin Urschler

Main category: cs.CV

TL;DR: 本文采用完全3D流匹配框架从MRI或CBCT生成合成CT,在SynthRAD2025挑战赛基准上评估,准确重建了全局解剖结构但细部细节保留有限。

  • Motivation: 从MRI或CBCT生成合成CT对于实现仅MRI和基于CBCT的自适应放射治疗至关重要,可提高治疗精度同时减少患者辐射暴露。
  • Method: 采用完全3D流匹配框架,将高斯噪声体积通过学习的流匹配速度场转换为合成CT图像,使用轻量级3D编码器从输入MRI或CBCT中提取特征作为条件。
  • Result: 在SynthRAD2025挑战赛基准上验证,方法准确重建了全局解剖结构,但由于内存和运行时间限制导致的训练分辨率较低,细部细节保留有限。
  • Conclusion: 未来工作将探索基于补丁的训练和潜在空间流模型,以提高分辨率和局部结构保真度。

[145] Beyond Random: Automatic Inner-loop Optimization in Dataset Distillation

Muquan Li,Hang Gou,Dongyang Zhang,Shuang Liang,Xiurui Xie,Deqiang Ouyang,Ke Qin

Main category: cs.CV

TL;DR: 提出了AT-BPTT框架,通过动态调整截断位置和窗口大小来改进数据集蒸馏中的内循环优化,在多个数据集上实现了SOTA性能,同时显著提升训练速度和降低内存消耗。

  • Motivation: 现有数据集蒸馏方法中的内循环优化通常依赖随机截断策略,缺乏灵活性且效果欠佳。研究发现神经网络在不同训练阶段具有不同的学习动态,使得随机截断策略效果不佳。
  • Method: 提出了自动截断反向传播时间(AT-BPTT)框架,包含三个关键组件:基于概率的阶段感知时间步选择机制、基于梯度变化的自适应窗口大小策略、以及用于降低计算开销的低秩Hessian近似。
  • Result: 在CIFAR-10、CIFAR-100、Tiny-ImageNet和ImageNet-1K上的实验表明,AT-BPTT相比基线方法平均提升准确率6.16%,同时将内循环优化速度提升3.9倍,节省63%内存成本。
  • Conclusion: AT-BPTT通过动态适应截断策略,有效解决了数据集蒸馏中内循环优化的局限性,在保持模型性能的同时显著提升了训练效率。

[146] Detailed Aerial Mapping of Photovoltaic Power Plants Through Semantically Significant Keypoints

Viktor Kozák,Jan Chudoba,Libor Přeučil

Main category: cs.CV

TL;DR: 提出基于航拍图像的光伏电站映射新方法,实现自动化建模至单个光伏组件级别,通过视觉分割和结构信息推断构建紧凑的地理参考模型。

  • Motivation: 光伏电站需要准确且最新的模型以实现最优运维,但现有模型不易获取,且依赖第三方数据。
  • Method: 利用航拍图像进行视觉分割,识别光伏模块,推断结构信息(工作台、行、列分配),通过视觉关键点合并多图像检测结果,保持结构完整性。
  • Result: 在两个不同电站上实验验证和评估,成功生成包含3D位置和语义结构的紧凑地理参考模型。
  • Conclusion: 该方法能够自动化光伏电站映射过程,消除对第三方数据的依赖,为电站维护提供合适的模型。

[147] From Actions to Kinesics: Extracting Human Psychological States through Bodily Movements

Cheyu Lin,Katherine A. Flanigan

Main category: cs.CV

TL;DR: 提出了一种基于3D骨骼数据的运动学识别框架,通过结合时空图卷积网络和卷积神经网络,从人体动作推断心理状态,实现隐私保护的人类行为建模。

  • Motivation: 传统方法依赖理论模型或问卷调查,存在范围有限、静态和劳动密集的问题,无法在保护隐私的同时捕捉人类心理状态。
  • Method: 使用时空图卷积网络(ST-GCN)和卷积神经网络(CNN)的组合,通过迁移学习直接从3D骨骼关节数据推断人类活动的交流功能(运动学)。
  • Result: 在DUET数据集上的结果表明,该方法能够实现可扩展、准确且以人为本的行为建模。
  • Conclusion: 该方法为增强强化学习驱动的人类-环境交互模拟提供了新途径,同时保护用户匿名性并揭示反映认知和情绪状态的潜在身体运动结构。

[148] Read the Room: Inferring Social Context Through Dyadic Interaction Recognition in Cyber-physical-social Infrastructure Systems

Cheyu Lin,John Martins,Katherine A. Flanigan,Ph. D

Main category: cs.CV

TL;DR: 该论文比较了五种基于骨骼的交互识别算法,用于识别12种二元人类互动,旨在解决隐私问题并促进社会效益。

  • Motivation: 传统网络物理系统主要关注经济目标,而忽略了社会效益。网络物理社会基础设施系统旨在通过将CPS与社会目标对齐来解决这一问题,需要理解人类互动及其社会意义。
  • Method: 使用深度传感器分析骨骼运动来识别二元人类互动,比较了五种基于骨骼的交互识别算法,数据集包含12种不同类别的互动(如象征性手势和情感表达)。
  • Result: 研究评估了不同算法在识别二元人类互动方面的性能,为隐私保护的社交行为测量提供了基础。
  • Conclusion: 基于骨骼的交互识别方法为隐私保护的人类互动分析提供了可行方案,有助于理解人类互动的文化情感层面,为网络物理社会基础设施系统的发展奠定基础。

[149] ERDE: Entropy-Regularized Distillation for Early-exit

Martial Guidez,Stefan Duffner,Yannick Alpou,Oscar Röth,Christophe Garcia

Main category: cs.CV

TL;DR: 该论文提出了一种结合早期退出和知识蒸馏的神经网络压缩方法,通过引入基于熵的损失函数来优化学生早期退出模型的训练,在保持分类性能的同时显著降低计算复杂度。

  • Motivation: 深度神经网络虽然性能优越,但计算成本高,难以应用于实时和边缘场景。需要开发压缩技术来降低计算成本,同时动态架构能够在执行时调节压缩水平。
  • Method: 将早期退出和知识蒸馏两种优化技术相结合,训练一个简化的学生早期退出模型。关键创新是引入基于熵的损失函数来处理教师模型分类错误的图像,替代传统的知识蒸馏损失。
  • Result: 在CIFAR10、CIFAR100和SVHN图像分类数据集上的实验结果表明,该方法在保持分类性能的同时显著降低了计算复杂度。
  • Conclusion: 该方法有效优化了准确性和效率之间的权衡,为知识蒸馏在其他场景中的应用开辟了新的研究视角。

[150] μDeepIQA: deep learning-based fast and robust image quality assessment with local predictions for optical microscopy

Elena Corbetta,Thomas Bocklitz

Main category: cs.CV

TL;DR: μDeepIQA是一个基于深度学习的图像质量评估方法,专门针对光学显微镜图像,通过卷积神经网络提供快速稳定的质量预测,并能可视化图像中不同区域的质量分布。

  • Motivation: 传统图像质量评估方法在处理大规模数据集时计算成本高,且对超出理想域的图像不稳定。深度学习IQA方法能提供更好的性能、泛化能力和快速预测。
  • Method: 将自然图像IQA的深度卷积神经网络架构重新训练,用于光学显微镜数据,预测单个质量指标和全局质量分数,并提供图像块级别的质量预测。
  • Result: μDeepIQA能够提供快速稳定的图像质量预测,即使在标准方法理想范围之外也能泛化质量估计,并能可视化单幅图像中空间变化的质量分布。
  • Conclusion: 深度学习模型因其在异常值存在时的稳定性能、评估小图像块的能力和快速预测,使光学显微镜研究受益于其泛化能力。

[151] In-Field Mapping of Grape Yield and Quality with Illumination-Invariant Deep Learning

Ciem Cornelissen,Sander De Coninck,Axel Willekens,Sam Leroux,Pieter Simoens

Main category: cs.CV

TL;DR: 开发了一个端到端的物联网机器人系统,用于葡萄园中葡萄产量和质量的非破坏性实时空间映射,包括葡萄串检测、重量估计和基于高光谱数据的质量评估。

  • Motivation: 解决葡萄园精准农业中实时监测葡萄产量和质量的需求,特别是克服高光谱成像中因光照变化导致的"域偏移"问题。
  • Method: 集成两个关键模块:高性能的葡萄串检测和重量估计模型,以及基于Light-Invariant Spectral Autoencoder (LISA)的新型深度学习框架,用于从高光谱数据中进行质量评估。LISA是一个域对抗框架,可从未校准数据中学习光照不变特征。
  • Result: 系统在三种不同光照条件下验证:实验室人工照明、早晨和下午的自然阳光。葡萄串检测召回率达到0.82,重量预测R²为0.76,LISA模块相比基线方法将质量预测泛化能力提高了20%以上。
  • Conclusion: 该系统成功生成了高分辨率、地理参考的葡萄产量和质量数据,为精准葡萄栽培提供了可操作的数据驱动见解。

[152] BenthiCat: An opti-acoustic dataset for advancing benthic classification and habitat mapping

Hayat Rajani,Valerio Franchi,Borja Martinez-Clavel Valles,Raimon Ramos,Rafael Garcia,Nuno Gracias

Main category: cs.CV

TL;DR: 本文提出了一个全面的多模态海底栖息地测绘数据集,包含约100万个侧扫声纳瓦片、测深图和光学图像,其中36000个声纳瓦片已手动标注,旨在为机器学习模型开发提供标准化基准。

  • Motivation: 海底栖息地测绘对理解海洋生态系统至关重要,但目前缺乏大规模标注数据集限制了机器学习模型的发展和基准测试。
  • Method: 收集加泰罗尼亚海岸的侧扫声纳瓦片、测深图和AUV采集的光学图像,手动标注36000个声纳瓦片,开发多传感器数据融合方法,并提供开源预处理和标注工具。
  • Result: 创建了包含约100万个声纳瓦片的多模态数据集,其中36000个已标注,建立了光学图像与声纳瓦片的空间关联,支持自监督跨模态表示学习。
  • Conclusion: 该资源为水下栖息地测绘建立了标准化基准,促进了自主海底分类和多传感器集成的研究进展。

[153] Comparative Analysis of YOLOv5, Faster R-CNN, SSD, and RetinaNet for Motorbike Detection in Kigali Autonomous Driving Context

Ngeyen Yinkfu,Sunday Nwovu,Jonathan Kayizzi,Angelique Uwamahoro

Main category: cs.CV

TL;DR: 该研究比较了YOLOv5、Faster R-CNN、SSD和RetinaNet四种目标检测模型在卢旺达基加利摩托车检测中的性能,评估了准确性、定位能力和推理速度,旨在为资源受限环境下的实时导航系统提供解决方案。

  • Motivation: 基加利的摩托车出租车是主要交通工具,经常不遵守交通规则且行驶不可预测,这对自动驾驶系统构成重大挑战,特别是在发展中国家资源受限的环境中。
  • Method: 使用在基加利收集的198张图像自定义数据集,在PyTorch中实现四种目标检测模型(YOLOv5、Faster R-CNN、SSD、RetinaNet),采用迁移学习方法进行训练和评估。
  • Result: 研究评估了各模型在准确性、定位精度和推理速度方面的表现,识别了数据集限制和模型复杂性等实施挑战。
  • Conclusion: 建议采用简化架构以提高发展中国家自动驾驶系统的可访问性,为未来在资源受限环境中的实时导航系统开发提供指导。

[154] A Semantics-Aware Hierarchical Self-Supervised Approach to Classification of Remote Sensing Images

Giulio Weikmann,Gianmarco Perantoni,Lorenzo Bruzzone

Main category: cs.CV

TL;DR: 提出了一种语义感知层次共识(SAHC)方法,通过集成层次特定分类头来学习层次特征和关系,使用可训练层次矩阵引导网络学习层次结构,并引入层次共识机制确保不同层次概率分布的一致性。

  • Motivation: 深度学习在遥感图像分类中日益重要,但预定义的标签层次结构经常被忽略,大多数方法只关注细粒度分类方案。
  • Method: 在深度网络架构中集成层次特定分类头,每个头专门处理不同粒度的类别;使用可训练层次矩阵以自监督方式学习层次结构;引入层次共识机制作为加权集成。
  • Result: 在三个具有不同层次复杂度的基准数据集上评估,使用不同骨干架构,实验结果显示该方法在指导网络学习和层次共识的鲁棒性方面都有效。
  • Conclusion: SAHC方法能够有效利用层次分类任务的固有结构,在遥感图像分类任务中表现出良好的适应性和有效性。

[155] REN: Anatomically-Informed Mixture-of-Experts for Interstitial Lung Disease Diagnosis

Alec K. Peltekian,Halil Ertugrul Aktas,Gorkem Durak,Kevin Grudzinski,Bradford C. Bemiss,Carrie Richardson,Jane E. Dematte,G. R. Scott Budinger,Anthony J. Esposito,Alexander Misharin,Alok Choudhary,Ankit Agrawal,Ulas Bagci

Main category: cs.CV

TL;DR: 提出了首个针对医学图像分类的解剖学引导的混合专家框架REN,通过七个专门处理不同肺叶区域的专家网络,结合多模态门控机制,在间质性肺病分类中取得了显著优于传统方法的性能。

  • Motivation: 传统MoE系统缺乏医学成像所需的解剖学约束,而肺部解剖结构和区域疾病异质性对病理模式有重要影响,需要专门针对医学图像设计的解剖学引导框架。
  • Method: 利用解剖学先验训练七个专门处理不同肺叶和双侧肺组合的专家网络;采用多模态门控机制动态整合放射组学生物标志物和深度学习特征(CNN、ViT、Mamba)来优化专家权重分配。
  • Result: 在间质性肺病分类中,放射组学引导的集成方法达到平均AUC 0.8646±0.0467,比SwinUNETR基线提高12.5%;下叶区域专家模型AUC达0.88-0.90,优于DL对应模型(CNN:0.76-0.79)。
  • Conclusion: REN展示了强大的泛化能力和临床可解释性,为结构化医学成像应用提供了一个可扩展的解剖学引导方法。

[156] Unsupervised Active Learning via Natural Feature Progressive Framework

Yuxi Liu,Catherine Lalman,Yimin Yang

Main category: cs.CV

TL;DR: 提出NFPF无监督主动学习框架,通过特定特征学习机量化样本重要性,显著超越现有无监督方法,达到与监督方法相当的性能。

  • Motivation: 传统主动学习需要多次人工标注,无监督主动学习(UAL)虽然将标注负担转移到后选择阶段,但现有方法性能不佳,主要依赖局部梯度评分,易受噪声干扰且无法充分代表数据分布。
  • Method: 提出自然特征渐进框架(NFPF),使用特定特征学习机(SFLM)量化样本对模型性能的贡献,并定义重构差异度量进行初始样本选择。
  • Result: NFPF在视觉数据集上显著超越所有现有无监督主动学习方法,性能与监督主动学习方法相当,具有更强的鲁棒性和更好的数据分布覆盖。
  • Conclusion: NFPF通过创新的样本重要性度量方法,为无监督主动学习提供了有效的解决方案,在减少人工标注负担的同时保持了高性能。

[157] Bidirectional Mammogram View Translation with Column-Aware and Implicit 3D Conditional Diffusion

Xin Li,Kaixiang Yang,Qiang Li,Zhiwei Wang

Main category: cs.CV

TL;DR: 提出CA3D-Diff框架解决乳腺X光双视图转换问题,通过列感知交叉注意力和隐式3D重建模块,在视图缺失或损坏时生成高质量对应视图,提升诊断效果。

  • Motivation: 临床实践中乳腺X光双视图(CC和MLO)可能因采集错误或压缩伪影而缺失或损坏,影响下游分析效果。视图间转换可帮助恢复缺失视图并改善病灶对齐,但由于X射线投影中的大非刚性变形和组织重叠,该任务极具挑战性。
  • Method: 基于条件扩散模型,设计列感知交叉注意力机制,利用解剖对应区域在列位置相似的几何特性;引入隐式3D结构重建模块,将噪声2D潜在空间反投影到粗糙3D特征体积中,增强解剖意识指导跨视图生成。
  • Result: CA3D-Diff在双向任务中表现出色,在视觉保真度和结构一致性方面优于最先进方法。合成的视图有效改善了筛查设置中的单视图恶性分类性能。
  • Conclusion: 该方法在真实世界诊断中具有实用价值,能够有效恢复缺失的乳腺X光视图并提升诊断准确性。

[158] SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization

Théophane Vallaeys,Jakob Verbeek,Matthieu Cord

Main category: cs.CV

TL;DR: SSDD是一种新的像素扩散解码器架构,通过蒸馏技术实现单步重建,在无需对抗损失的情况下超越了KL-VAE的性能,提供更高的重建质量和更快的采样速度。

  • Motivation: 解决当前KL-VAE tokenizer需要对抗损失和扩散解码器因迭代采样导致解码时间较长的问题,寻求一种更稳定、高效的替代方案。
  • Method: 提出新的像素扩散解码器架构,利用transformer组件和无GAN训练提高扩展性和训练稳定性,并通过蒸馏技术将扩散解码器性能复制到高效的单步解码器中。
  • Result: SSDD将重建FID从0.87提升到0.50,吞吐量提高1.4倍,DiT生成质量保持的同时采样速度加快3.8倍。
  • Conclusion: SSDD可作为KL-VAE的直接替代品,用于构建更高质量和更快的生成模型。

[159] ActiveMark: on watermarking of visual foundation models via massive activations

Anna Chistyakova,Mikhail Pautov

Main category: cs.CV

TL;DR: 提出了一种视觉基础模型的所有权验证方法,通过在模型内部嵌入数字水印来保护知识产权。

  • Motivation: 视觉基础模型训练成本高昂,需要保护模型所有者的知识产权,防止非法再分发。
  • Method: 微调视觉基础模型中的表达层,结合小型编码器-解码器网络,在输入图像的内部表示中嵌入数字水印。
  • Result: 该方法在水印模型和非水印模型之间具有低误检率和低漏检率,水印在下游任务微调后仍可检测。
  • Conclusion: 提出的水印嵌入方法为视觉基础模型提供了可靠的所有权验证机制,有效保护模型知识产权。

[160] Latent Uncertainty Representations for Video-based Driver Action and Intention Recognition

Koen Vellenga,H. Joe Steinhauer,Jonas Andersson,Anders Sjögren

Main category: cs.CV

TL;DR: 提出了一种新的潜在不确定性表示方法,通过在预训练DNN中添加变换层生成多个潜在表示来估计不确定性,在视频驾驶员行为识别任务中表现出色。

  • Motivation: 深度神经网络在资源受限的安全关键任务中应用广泛,但现有最后一层概率深度学习方法在检测分布外实例时性能不稳定,需要更有效的不确定性估计方法。
  • Method: 扩展预训练DNN,添加变换层生成多个潜在表示来估计不确定性,提出LUR和RLUR方法,并与8种PDL方法在4个驾驶员行为数据集上比较。
  • Result: LUR和RLUR在分布内分类性能与其他LL-PDL方法相当,在不确定性检测方面LUR与最佳PDL方法相当,且训练更高效、调参更容易。
  • Conclusion: 提出的潜在不确定性表示方法在保持分类性能的同时,提供了更高效的不确定性估计,特别适合资源受限的安全关键应用。

[161] Exploring the Efficacy of Modified Transfer Learning in Identifying Parkinson's Disease Through Drawn Image Patterns

Nabil Daiyan,Md Rakibul Haque

Main category: cs.CV

TL;DR: 使用手绘螺旋和波形图像的机器学习方法进行帕金森病早期诊断,结合CNN、迁移学习和注意力机制,通过集成投票达到93.3%的准确率。

  • Motivation: 帕金森病早期诊断对预防不良影响至关重要,但传统诊断方法繁琐且昂贵,需要开发非侵入性、成本效益高的解决方案。
  • Method: 利用卷积神经网络、迁移学习和注意力机制处理手绘螺旋和波形图像,通过数据增强增加样本多样性,采用预训练CNN、自定义卷积层和集成投票的三阶段架构。
  • Result: 螺旋图像精度、召回率和F1分数为90%,波形图像为96.67%,通过硬投票集成后总体准确率达到93.3%。
  • Conclusion: 机器学习方法在帕金森病早期诊断中具有巨大潜力,提供了非侵入性且成本效益高的解决方案,有助于改善患者预后。

[162] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

Yunlong Tang,Jing Bi,Pinxin Liu,Zhenyu Pan,Zhangyun Tan,Qianxiang Shen,Jiani Liu,Hang Hua,Junjia Guo,Yunzhong Xiao,Chao Huang,Zhiyuan Wang,Susan Liang,Xinyi Liu,Yizhi Song,Yuhe Nie,Jia-Xing Zhong,Bozheng Li,Daiqing Qi,Ziyun Zeng,Ali Vosoughi,Luchuan Song,Zeliang Zhang,Daiki Shimada,Han Liu,Jiebo Luo,Chenliang Xu

Main category: cs.CV

TL;DR: 本文首次全面调查了视频大语言模型的后训练方法,包括监督微调、强化学习和测试时扩展三大支柱,为提升视频理解能力提供了统一框架。

  • Motivation: 视频理解是计算机视觉中最具挑战性的领域,需要模型推理复杂的时空关系。虽然视频大语言模型已展现出强大能力,但将其从基础感知系统转变为复杂推理引擎的后训练阶段在文献中仍很分散。
  • Method: 提出了结构化分类法,涵盖三大后训练方法:带思维链的监督微调、基于可验证目标的强化学习、通过增强推理计算的测试时扩展,并针对视频特有挑战进行适配。
  • Result: 系统分析了代表性方法,综合了关键设计原则、见解和评估协议,同时识别了奖励设计、可扩展性和成本性能优化等关键开放挑战。
  • Conclusion: 本调查为研究人员和从业者提供了推进视频大语言模型能力的统一框架,并维护了基准、数据集和指标资源以促进严格评估。

[163] SegMASt3R: Geometry Grounded Segment Matching

Rohit Jayanti,Swayam Agrawal,Vansh Garg,Siddharth Tourani,Muhammad Haris Khan,Sourav Garg,Madhava Krishna

Main category: cs.CV

TL;DR: 利用3D基础模型的空间理解能力解决宽基线分割匹配问题,在极端视角变化下实现分割区域匹配,性能优于现有方法30%

  • Motivation: 分割匹配比关键点匹配更能捕捉结构化区域,对遮挡、光照变化和视角变化具有更强鲁棒性。宽基线分割匹配在极端视角变化下特别具有挑战性
  • Method: 提出一种架构,利用3D基础模型的归纳偏置来匹配图像对中的分割区域,可处理高达180度的视角变化
  • Result: 在ScanNet++和Replica数据集上,AUPRC指标比最先进方法(包括SAM2视频传播器和局部特征匹配方法)提升高达30%
  • Conclusion: 该方法在宽基线分割匹配任务上表现出色,并在3D实例分割和图像目标导航等下游任务中显示出优势

[164] No-reference Quality Assessment of Contrast-distorted Images using Contrast-enhanced Pseudo Reference

Mohammad-Ali Mahmoudpour,Saeed Mahmoudpour

Main category: cs.CV

TL;DR: 提出一种针对对比度失真图像的无参考图像质量评估方法,通过选择最合适的对比度增强算法生成伪参考图像,将NR-IQA问题转化为FR-IQA问题来提高评估准确性。

  • Motivation: 对比度变化是影响图像质量的重要因素,但在图像质量评估中常被忽视。现有方法主要关注模糊和噪声等失真,而对比度失真的视觉影响和特性与传统失真类型不同。
  • Method: 使用一组对比度增强算法生成视觉上接近实际参考图像的伪参考图像,通过训练分类网络根据图像内容和失真选择最合适的对比度增强算法,最终以全参考方式评估对比度增强图像与退化图像之间的质量差异。
  • Result: 在包含对比度失真的三个数据库(CCID2014、TID2013和CSIQ)上的性能评估表明,该方法具有有前景的性能表现。
  • Conclusion: 通过将无参考图像质量评估问题转化为全参考评估问题,该方法能够有效评估对比度失真图像的质量,在多个数据库上表现出良好的性能。

[165] Neuroplastic Modular Framework: Cross-Domain Image Classification of Garbage and Industrial Surfaces

Debojyoti Ghosh,Soumya K Ghosh,Adrijit Goswami

Main category: cs.CV

TL;DR: 本文提出了一种神经可塑性模块化分类器,这是一种新颖的混合架构,结合了ResNet-50和Vision Transformer,并采用FAISS相似性检索和动态扩展模块,在垃圾分类和工业表面缺陷检测任务中表现出色。

  • Motivation: 需要高效准确的废物分类和工业表面缺陷检测方法,以支持可持续废物管理和高质量控制标准,特别是在动态环境中需要鲁棒和自适应的图像分类解决方案。
  • Method: 使用ResNet-50进行局部特征提取,Vision Transformer捕捉全局语义上下文,集成FAISS相似性检索提供记忆参考,采用神经可塑性模块化设计,包含可扩展的学习模块,在训练性能停滞时动态增长。
  • Result: 在垃圾分类和KolektorSDD2工业缺陷检测数据集上的实验表明,该架构在准确性和适应性方面均优于传统静态模型。
  • Conclusion: 神经可塑性模块化分类器为现实世界图像分类提供了可扩展的高性能解决方案,在环境和工业领域都具有很强的适用性。

[166] Factuality Matters: When Image Generation and Editing Meet Structured Visuals

Le Zhuo,Songhao Han,Yuandong Pu,Boxiang Qiu,Sayak Paul,Yue Liao,Yihao Liu,Jie Shao,Xi Chen,Si Liu,Hongsheng Li

Main category: cs.CV

TL;DR: 该论文针对现有视觉生成模型在结构化视觉内容(如图表、图表、数学图形)生成和编辑方面的不足,提出了一个包含数据集构建、模型训练和评估基准的完整解决方案。

  • Motivation: 现代视觉生成模型在生成美观的自然图像方面表现出色,但在处理需要组合规划、文本渲染和多模态推理的结构化视觉内容时表现不佳,这需要事实准确性保证。
  • Method: 构建了130万高质量结构化图像对的数据集,训练了一个集成VLM和FLUX.1 Kontext的统一模型,采用三阶段训练课程,并在推理时使用外部推理器增强性能。
  • Result: 评估了15个模型,发现即使是领先的闭源系统也远未达到满意水平。作者模型在编辑任务上表现强劲,推理时推理在不同架构中带来一致增益。
  • Conclusion: 通过发布数据集、模型和基准测试,旨在推进结构化视觉内容的统一多模态基础研究。

[167] Character Mixing for Video Generation

Tingting Liao,Chongjian Ge,Guangyi Liu,Hao Li,Yi Zhou

Main category: cs.CV

TL;DR: 提出了一个跨角色交互的视频生成框架,通过交叉角色嵌入和增强技术,让不同作品中的角色能够自然互动而不失风格保真度。

  • Motivation: 研究如何让来自不同世界(如Mr. Bean和Tom and Jerry)的角色在视频中自然交互,同时保持各自的身份特征和行为逻辑,避免风格混淆问题。
  • Method: 使用交叉角色嵌入(CCE)从多模态数据中学习角色身份和行为逻辑,结合交叉角色增强(CCA)通过合成共存和混合风格数据来丰富训练。
  • Result: 在包含10个卡通和真人角色的基准测试中,在身份保持、交互质量和风格混淆鲁棒性方面都有明显提升。
  • Conclusion: 该框架能够实现先前从未共存角色之间的自然交互,同时保持风格保真度,为生成式故事讲述开辟了新形式。

[168] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

Ziqi Huang,Ning Yu,Gordon Chen,Haonan Qiu,Paul Debevec,Ziwei Liu

Main category: cs.CV

TL;DR: VChain是一个推理时的视觉思维链框架,通过多模态模型生成关键帧来指导视频生成,提升复杂动态场景的生成质量。

  • Motivation: 当前视频生成模型在合成复杂动态和连贯因果链方面存在困难,而多模态模型具有较强的视觉状态推理和未来预测能力,需要将两者优势结合。
  • Method: 利用大型多模态模型生成稀疏关键帧作为快照,然后仅在关键时刻对预训练视频生成器进行稀疏推理时调优。
  • Result: 在复杂多步骤场景的广泛实验中,VChain显著提升了生成视频的质量。
  • Conclusion: VChain是一种调优高效、开销最小的方法,通过注入视觉推理信号有效增强了视频生成能力。

[169] Paper2Video: Automatic Video Generation from Scientific Papers

Zeyu Zhu,Kevin Qinghong Lin,Mike Zheng Shou

Main category: cs.CV

TL;DR: PaperTalker提出了首个学术演示视频生成的多智能体框架,通过集成幻灯片生成、布局优化、字幕、语音合成和说话人头像渲染等技术,自动从研究论文生成演示视频。

  • Motivation: 学术演示视频制作耗时耗力,传统方法需要数小时的设计、录制和编辑工作。现有方法难以处理研究论文的密集多模态信息,以及协调幻灯片、字幕、语音和说话人等多个对齐通道的挑战。
  • Method: 开发了PaperTalker多智能体框架,集成了幻灯片生成与布局优化(使用新颖的树搜索视觉选择)、光标定位、字幕生成、语音合成和说话人头像渲染,并通过并行化幻灯片级生成提高效率。
  • Result: 在Paper2Video数据集上的实验表明,该方法生成的演示视频比现有基线更加忠实和内容丰富,为自动化学术视频生成迈出了实际的一步。
  • Conclusion: PaperTalker建立了首个学术演示视频生成的基准和框架,通过多智能体方法有效解决了学术视频生成中的多模态协调问题,显著提升了生成视频的质量和效率。

cs.IR

[170] Visual Lifelog Retrieval through Captioning-Enhanced Interpretation

Yu-Fei Shih,An-Zi Yen,Hen-Hsen Huang,Hsin-Hsi Chen

Main category: cs.IR

TL;DR: 本文提出了一种基于字幕集成的视觉生活日志检索系统,通过生成字幕并使用文本嵌入模型,在共享向量空间中匹配用户查询与生活日志图像。

  • Motivation: 人们常常难以记住过去经历的具体细节,需要重新访问这些记忆。因此,生活日志检索成为重要应用,需要帮助用户快速访问个人生活日志以辅助记忆回忆。
  • Method: 提出CIVIL检索系统,首先生成视觉生活日志的字幕,然后使用文本嵌入模型将字幕和用户查询投影到共享向量空间。针对第一人称视角的特点,引入了三种字幕方法:单字幕法、集体字幕法和合并字幕法。
  • Result: 实验结果表明,该方法能有效描述第一人称视觉图像,提升生活日志检索效果。同时构建了将视觉生活日志转换为字幕的文本数据集。
  • Conclusion: 所提出的字幕集成方法能够有效解释生活记录者的生活体验,显著改善了生活日志检索的性能。

[171] Learning-Based Hashing for ANN Search: Foundations and Early Advances

Sean Moran

Main category: cs.IR

TL;DR: 这是一篇关于近似最近邻搜索中学习哈希方法的基础性综述论文,重点回顾了早期的监督、无监督和半监督哈希方法,以及多比特和多阈值模型等扩展。

  • Motivation: 近似最近邻搜索是信息检索中的基础问题,哈希方法通过将高维数据映射为紧凑二进制码来实现快速相似性计算。本文旨在介绍学习哈希的概念基础,为读者提供该领域的结构化理解。
  • Method: 通过综述早期学习哈希方法,分析投影函数如何生成有意义的嵌入表示,以及量化策略如何将这些嵌入转换为二进制码。涵盖监督、无监督和半监督方法。
  • Result: 提供了学习哈希方法的概念框架和历史背景,阐明了该领域的基本原则、权衡和开放挑战。
  • Conclusion: 本文为学习哈希方法提供了概念基础,帮助读者理解该领域的核心思想和持续影响当前研究的关键问题。

cs.AI

[172] Bridging the Gap Between Multimodal Foundation Models and World Models

Xuehai He

Main category: cs.AI

TL;DR: 该论文研究如何弥合多模态基础模型与世界模型之间的差距,通过增强模型的推理能力和生成能力,使其能够进行反事实推理、时空理解、可控生成等多方面任务。

  • Motivation: 受人类通过多感官整合理解世界的启发,当前的多模态基础模型缺乏作为有效世界模型所需的关键能力,如反事实推理、动态模拟、时空信息理解和可控生成等。
  • Method: 通过判别性任务提升推理能力,赋予结构化推理技能(因果推理、反事实思维、时空推理);开发结构化可控生成框架,结合场景图、多模态条件约束和对齐策略;扩展到可控4D生成,实现时空交互式可编辑对象合成。
  • Result: 提出的方法使多模态基础模型能够超越表面相关性,理解视觉和文本数据中的深层关系,并实现与高层语义和细粒度用户意图一致的生成结果。
  • Conclusion: 通过增强推理和生成能力,多模态基础模型可以更好地接近世界模型的功能,具备更全面的物理过程理解和交互能力。

[173] ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering

Rachneet Kaur,Nishan Srishankar,Zhen Zeng,Sumitra Ganesh,Manuela Veloso

Main category: cs.AI

TL;DR: ChartAgent是一个新颖的代理框架,通过在图表空间域中直接执行视觉推理来解决未标注图表理解问题,超越了依赖文本捷径的方法。

  • Motivation: 现有的多模态LLM在基于图表的视觉问答中表现良好,但在需要精确视觉解释而非依赖文本捷径的未标注图表上性能急剧下降。
  • Method: ChartAgent迭代地将查询分解为视觉子任务,通过专门的视觉工具(如绘制注释、裁剪区域、定位坐标轴等)主动操作和交互图表图像,模拟人类图表理解的认知策略。
  • Result: 在ChartBench和ChartX基准测试中达到最先进精度,整体绝对增益达16.07%,在未标注、数值密集型查询上增益达17.31%。该框架在多样化图表类型上有效,在各种视觉和推理复杂度级别上获得最高分数,并可作为即插即用框架提升不同底层LLM的性能。
  • Conclusion: ChartAgent是首批使用工具增强多模态代理进行视觉基础推理的图表理解工作之一,展示了在图表空间域中直接执行视觉推理的有效性。

[174] Watch and Learn: Learning to Use Computers from Online Videos

Chan Hee Song,Yiwen Song,Palash Goyal,Yu Su,Oriana Riva,Hamid Palangi,Tomas Pfister

Main category: cs.AI

TL;DR: Watch & Learn (W&L)框架通过将互联网上的人类演示视频转换为可执行的UI轨迹,解决了计算机使用代理训练数据稀缺的问题,在OSWorld基准测试中显著提升了代理性能。

  • Motivation: 计算机使用代理需要基于多样化、不断变化的应用和环境来规划任务工作流,但目标应用中大规模高质量训练数据的稀缺阻碍了学习。现有数据集是领域特定的、静态的且标注成本高,而当前合成数据生成方法往往产生过于简化或不对齐的任务演示。
  • Method: 提出Watch & Learn框架,将问题建模为逆动力学目标:从连续屏幕状态预测用户动作。开发了包含任务感知视频检索的逆动力学标注流程,从原始网络视频生成了超过53k条高质量轨迹。
  • Result: 在OSWorld基准测试中,W&L提取的UI轨迹一致地增强了通用和最先进框架的上下文性能,并在监督训练下为开源模型带来了更强的性能提升。
  • Conclusion: 网络规模的人类演示视频是推进计算机使用代理走向实际部署的实用且可扩展的基础。

cs.RO

[175] Efficient Surgical Robotic Instrument Pose Reconstruction in Real World Conditions Using Unified Feature Detection

Zekai Liang,Kazuya Miyata,Xiao Liang,Florian Richter,Michael C. Yip

Main category: cs.RO

TL;DR: 提出了一种用于微创手术机器人相机-机器人标定的新框架,通过共享编码统一检测几何基元(关键点和轴边缘),实现高效的姿态估计。

  • Motivation: 微创手术机器人具有长运动链和部分自由度可见性,传统标定方法假设刚性机器人和良好可见性,在真实条件下表现不佳。现有方法存在特征检测不一致或推理时间长的问题,不适合在线机器人控制。
  • Method: 通过共享编码统一检测关键点和轴边缘,在单次推理中同时检测两种特征,使用大规模合成数据和投影标注进行训练,利用投影几何实现高效姿态估计。
  • Result: 在特征检测和姿态估计方面均进行了评估,定性和定量结果表明在具有挑战性的手术环境中实现了快速性能和最先进的精度。
  • Conclusion: 该框架在手术机器人相机-机器人标定中实现了快速准确的特征检测和姿态估计,解决了传统方法在微创手术环境中的局限性。

[176] EmbodiSwap for Zero-Shot Robot Imitation Learning

Eadom Dessalene,Pavan Mantripragada,Michael Maynord,Yiannis Aloimonos

Main category: cs.RO

TL;DR: EmbodiSwap是一种在人类视频上生成逼真合成机器人覆盖的方法,用于零样本模仿学习,通过V-JEPA视觉骨干在合成机器人视频上训练闭环机器人操作策略。

  • Motivation: 解决野外自我中心人类视频与目标机器人具身化之间的具身差距,实现从人类视频到机器人操作的零样本模仿学习。
  • Method: 使用EmbodiSwap在人类视频上生成合成机器人覆盖,采用V-JEPA作为视觉骨干,将视频理解领域的V-JEPA重新用于合成机器人视频的模仿学习。
  • Result: 在真实世界测试中,零样本训练的V-JEPA模型达到82%的成功率,优于少量样本训练的π₀网络以及基于EmbodiSwap数据训练的π₀。
  • Conclusion: EmbodiSwap结合V-JEPA视觉骨干在机器人模仿学习中表现出色,为跨具身化学习提供了有效解决方案。

[177] NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation

Zheng Huang,Mingyu Liu,Xiaoyi Lin,Muzhi Zhu,Canyu Zhao,Zongze Du,Xiaoman Li,Yiduo Jia,Hao Zhong,Hao Chen,Chunhua Shen

Main category: cs.RO

TL;DR: 提出NoTVLA框架,通过聚焦稀疏轨迹而非密集动作序列来解决VLA模型的灾难性遗忘问题,在计算资源大幅减少和无腕部摄像头的情况下实现多任务性能提升和零样本泛化。

  • Motivation: 解决VLA模型在真实世界部署中面临的灾难性遗忘问题,该问题源于对连续动作序列的过度依赖,导致跨任务知识保留中断。
  • Method: 采用轨迹规划策略,聚焦机器人末端执行器的稀疏轨迹而非目标物体轨迹,利用时间压缩和空间推理剪枝,使用稀疏轨迹进行训练而非密集动作轨迹。
  • Result: 在多任务评估中,NoTVLA相比pi0表现更优且泛化能力更强,计算资源使用减少一个数量级以上,无需腕部摄像头,操作精度接近单任务专家模型。
  • Conclusion: NoTVLA框架有效解决了VLA模型的灾难性遗忘问题,在保持语言能力的同时实现了多任务性能和零样本泛化的显著提升,支持跨机器人平台的统一部署。

[178] CLEAR-IR: Clarity-Enhanced Active Reconstruction of Infrared Imagery

Nathan Shankar,Pawel Ladosz,Hujun Yin

Main category: cs.RO

TL;DR: 提出了一种基于U-Net架构的方法,从包含发射器图案的红外图像中重建干净的IR图像,以提升暗光环境下的机器人感知性能。

  • Motivation: 红外流在低光条件下比RGB流更抗噪,但受主动发射器图案干扰,影响物体检测、跟踪和定位等高级任务。
  • Method: 采用U-Net架构从含有发射器图案的输入中重建干净的IR图像。
  • Result: 该方法优于现有增强技术,能够在从良好光照到极端低光场景的各种照明条件下实现视觉驱动机器人系统的可靠运行。
  • Conclusion: 该方法有效解决了IR图像中发射器图案干扰问题,显著提升了暗光环境下机器人感知的鲁棒性。

[179] StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

Mingyu Liu,Jiuhe Shu,Hui Chen,Zeju Li,Canyu Zhao,Jiange Yang,Shenyuan Gao,Hao Chen,Chunhua Shen

Main category: cs.RO

TL;DR: 提出StaMo方法,通过轻量级编码器和预训练DiT解码器学习高度压缩的双token状态表示,该表示不仅高效可解释,还能通过潜在插值自然产生有效的潜在动作。

  • Motivation: 现有方法在具身智能中难以平衡状态表示的紧凑性和表达能力,要么过于冗余,要么缺乏任务关键信息。
  • Method: 使用轻量级编码器和预训练扩散变换器解码器学习压缩的双token状态表示,通过潜在插值获得潜在动作。
  • Result: 在LIBERO上性能提升14.3%,真实世界任务成功率提高30%,潜在动作增强策略协同训练,比先前方法提升10.4%。
  • Conclusion: StaMo方法从静态图像学习紧凑状态表示,无需复杂架构和视频数据,就能学习可泛化的机器人运动,并在多种数据源上有效扩展。

eess.SY

[180] Use of Quadcopter Wakes to Supplement Strawberry Pollination

Sadie Cutler,Ben DeFay,Scott McArt,Kirstin Petersen

Main category: eess.SY

TL;DR: 该论文研究了一种基于风媒授粉的新型人工授粉方法,使用四轴无人机辅助自然授粉,虽然田间实验结果不确定,但实验室研究显示该方法具有潜力。

  • Motivation: 传粉媒介对生态系统和粮食供应至关重要,但近期研究发现包括草莓在内的多种作物存在授粉不足问题,需要寻找可负担且易于实施的补充授粉解决方案。
  • Method: 确定侧向气流最大化的高度后,在田间使用四轴无人机辅助自然授粉进行实验,同时在实验室进行验证研究。
  • Result: 田间实验结果不确定,但实验室研究显示该方法具有发展潜力,可以进一步优化以获得更好的田间效果。
  • Conclusion: 基于风媒授粉的四轴无人机辅助授粉方法在实验室中表现出潜力,虽然田间结果尚不明确,但值得进一步研究和改进。

cs.LG

[181] VIFO: Visual Feature Empowered Multivariate Time Series Forecasting with Cross-Modal Fusion

Yanlong Wang,Hang Yu,Jian Xu,Fei Ma,Hongkang Zhang,Tongtong Feng,Zijian Zhang,Shao-Lun Huang,Danny Dongning Sun,Xiao-Ping Zhang

Main category: cs.LG

TL;DR: VIFO是一个跨模态预测模型,通过将多元时间序列渲染为图像,利用预训练的大型视觉模型提取通道间依赖关系,并与时间序列模态特征对齐融合,显著提升了预测性能。

  • Motivation: 现有时间序列基础模型采用通道独立架构,忽略了重要的跨通道依赖关系;同时现有多模态方法未能充分利用大型视觉模型解释时空数据的潜力。
  • Method: 将多元时间序列渲染为图像,使用预训练大型视觉模型提取跨通道模式,将这些视觉特征与时间序列模态表示对齐融合,仅训练7.45%的参数。
  • Result: 在多个基准测试中实现了有竞争力的性能,提供了捕获跨变量关系的高效有效解决方案。
  • Conclusion: VIFO通过跨模态方法成功解决了时间序列预测中的跨通道依赖问题,证明了视觉模型在时间序列分析中的潜力。

[182] Frequency-Aware Model Parameter Explorer: A new attribution method for improving explainability

Ali Yavari,Alireza Mohamadi,Elham Beydaghi,Rainer A. Leitgeb

Main category: cs.LG

TL;DR: 提出了一种可转移的频率感知对抗攻击方法,并基于此开发了频率感知模型参数探索器(FAMPE)来提升深度神经网络的可解释性,相比现有方法在插入得分上平均提升13.02%。

  • Motivation: 解决深度神经网络在真实世界噪声和故意扰动下的可靠性问题,现有归因方法效果欠佳需要进一步改进。
  • Method: 提出可转移的频率感知对抗攻击,通过高低频分量进行频率感知探索,并基于此开发FAMPE归因方法。
  • Result: 相比当前最先进方法AttEXplore,FAMPE在插入得分上平均提升13.02%,通过消融研究验证了高低频分量在可解释性中的作用。
  • Conclusion: 频率感知方法有效提升了深度神经网络的可解释性,高低频分量在模型解释中均发挥重要作用。

[183] Real-Time Brain Biomechanics Prediction with Neural Operators: Toward Clinically Deployable Traumatic Brain Injury Models

Anusha Agarwal,Dibakar Roy Sarkar,Somdatta Goswami

Main category: cs.LG

TL;DR: 本研究评估了四种神经算子架构用于快速预测脑位移场,MG-FNO获得最高精度,DeepONet提供最快推理速度,所有方法将计算时间从小时级降至毫秒级,为实时创伤性脑损伤建模开辟了新途径。

  • Motivation: 创伤性脑损伤是全球重大公共卫生问题,传统有限元模型计算成本高昂,限制了临床快速决策应用。需要开发快速、患者特异性的脑位移预测方法。
  • Method: 将TBI建模定义为算子学习问题,使用四种神经算子架构(FNO、F-FNO、MG-FNO、DeepONet),输入为患者特异性解剖MRI、MRE刚度图和人口统计学特征,输出为全场3D脑位移预测。在249个MRE数据集上训练评估。
  • Result: MG-FNO达到最高精度(MSE=0.0023,94.3%空间保真度),F-FNO收敛速度比标准FNO快2倍,DeepONet提供最快推理速度(14.5次/秒),比MG-FNO快7倍。所有神经算子将计算时间从小时级降至毫秒级。
  • Conclusion: 神经算子为预测脑变形提供了高效、分辨率不变的方法,为实时患者特异性TBI风险评估、临床分诊支持和防护设备优化打开了大门,展示了基于神经算子的人脑数字孪生的潜力。

[184] Universal Multi-Domain Translation via Diffusion Routers

Duc Kieu,Kien Do,Tuan Hoang,Thao Minh Le,Tung Kieu,Dang Nguyen,Thin Nguyen

Main category: cs.LG

TL;DR: 提出了通用多域翻译(UMDT)框架,使用扩散路由(DR)方法,仅需K-1个配对数据集就能实现任意K个域之间的翻译,在多个基准测试中达到最先进水平。

  • Motivation: 现有多域翻译方法需要完全对齐的元组或只能处理训练中见过的域对,限制了实用性并排除了许多跨域映射。
  • Method: 提出扩散路由(DR)框架,使用单一噪声预测器建模所有中心域与非中心域之间的翻译,通过中心域路由实现间接翻译,并引入变分边界目标和Tweedie精炼程序支持直接映射。
  • Result: 在三个大规模UMDT基准测试中,DR在间接和直接翻译方面都取得了最先进的结果,同时降低了采样成本并解锁了草图↔分割等新任务。
  • Conclusion: DR被证明是一个可扩展且通用的多域翻译框架,能够实现跨多个域的通用翻译。

[185] Rethinking Inter-LoRA Orthogonality in Adapter Merging: Insights from Orthogonal Monte Carlo Dropout

Andi Zhang,Xuan Ding,Haofan Wang,Steven McDonagh,Samuel Kaski

Main category: cs.LG

TL;DR: 提出了正交蒙特卡洛Dropout方法,在合并LoRA模块时强制正交性以避免语义向量干扰,但实证发现正交性本身不足以实现语义组合性。

  • Motivation: LoRA模块合并时语义向量会相互干扰,影响组合效果,需要解决这种干扰问题。
  • Method: 正交蒙特卡洛Dropout,在不增加时间复杂度的前提下强制稀疏语义向量正交组合。
  • Result: 理论保证正交性,但实证显示正交性本身不能实现语义解耦和组合性。
  • Conclusion: 仅靠LoRA间正交性可能不足以实现真正的语义组合性,需要重新审视其在适配器合并中的作用。

[186] SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size

Junhao Xia,Ming Zhao,Limin Xiao,Xiujun Zhang

Main category: cs.LG

TL;DR: SDQ-LLM是一种创新的1位LLM量化框架,通过Sigma-Delta量化器和过采样比率的连续可调性,实现极低比特量化,同时保持语言推理能力。

  • Motivation: 大型语言模型面临显著的计算和内存挑战,需要极低比特量化来高效部署。
  • Method: 使用上采样结合Sigma-Delta量化器将权重二值化或三值化,采用Hadamard权重平滑减少精度损失,并提出基于权重方差的细粒度OSR分配策略MultiOSR。
  • Result: 在OPT和LLaMA模型系列上的广泛实验表明,SDQ-LLM在极低OSR设置下实现了更高效和高精度的性能。
  • Conclusion: SDQ-LLM框架为LLM的极低比特量化提供了有效的解决方案,通过动态调整OSR实现模型大小与精度之间的最优权衡。

[187] Revoking Amnesia: RL-based Trajectory Optimization to Resurrect Erased Concepts in Diffusion Models

Daiheng Gao,Nanxiang Jiang,Andi Zhang,Shilin Lu,Yufei Tang,Wenbo Zhou,Weiming Zhang,Zhaoxin Fan

Main category: cs.LG

TL;DR: 概念擦除技术在T2I扩散模型中存在局限性,仅通过偏置采样轨迹制造遗忘假象,而非真正移除概念。本文提出RevAm框架,通过RL轨迹优化逆向恢复被擦除的概念,暴露当前安全机制的脆弱性。

  • Motivation: 现有概念擦除方法在下一代架构(如Flux)中效果退化,且仅制造遗忘假象而非真正移除概念,存在安全隐患。需要区分表面安全与真实概念移除。
  • Method: 提出RevAm框架,基于RL的轨迹优化方法,通过动态引导去噪过程恢复被擦除概念,无需修改模型权重。采用Group Relative Policy Optimization适应扩散模型,通过轨迹级奖励探索多样恢复路径。
  • Result: RevAm实现了优越的概念恢复保真度,同时将计算时间减少10倍,暴露了当前安全机制的关键漏洞。
  • Conclusion: 当前基于轨迹操纵的擦除技术存在根本可逆性,需要开发更鲁棒的概念擦除方法,超越简单的轨迹操纵。

[188] Conditional Pseudo-Supervised Contrast for Data-Free Knowledge Distillation

Renrong Shao,Wei Zhang,Jun wang

Main category: cs.LG

TL;DR: 提出了一种新的数据无知识蒸馏方法CPSC-DFKD,通过条件生成对抗网络生成类别特定的多样化图像,改进生成器模块以区分不同类别分布,并引入伪监督对比学习来增强多样性。

  • Motivation: 解决当前数据无知识蒸馏方法中存在的问题:缺乏伪监督学习范式、无法区分不同类别样本分布导致模糊样本、无法优化类别多样性样本,从而影响学生模型性能。
  • Method: 使用条件生成对抗网络合成类别特定的多样化图像,改进生成器模块以更好区分不同类别分布,提出基于教师和学生视图的伪监督对比学习来增强样本多样性。
  • Result: 在三个常用数据集上的综合实验验证了CPSC-DFKD在提升学生模型和生成器性能方面的有效性。
  • Conclusion: CPSC-DFKD通过引入条件生成和伪监督对比学习,有效解决了当前数据无知识蒸馏方法的局限性,显著提升了学生模型的性能表现。

[189] Longitudinal Flow Matching for Trajectory Modeling

Mohammad Mohaiminul Islam,Thijs P. Kuipers,Sharvaree Vadgama,Coen de Vente,Afsana Khan,Clara I. Sánchez,Erik J. Bekkers

Main category: cs.LG

TL;DR: 提出IMMFM框架,通过多时间点联合学习连续随机动态,使用分段二次插值路径作为流匹配的平滑目标,能处理稀疏采样和高维轨迹。

  • Motivation: 传统生成模型对稀疏采样和高维轨迹处理困难,通常只能学习成对转移,无法捕捉多个观测时间点的联合动态。
  • Method: 使用分段二次插值路径作为流匹配目标,联合优化漂移项和数据驱动的扩散系数,支持稳定学习的理论条件。
  • Result: 在合成基准和真实神经影像数据集上,IMMFM在预测精度和下游任务中优于现有方法。
  • Conclusion: IMMFM能捕捉内在随机性,处理不规则稀疏采样,生成特定主体轨迹,在多个任务中表现优异。

[190] Efficient Test-Time Scaling for Small Vision-Language Models

Mehmet Onurcan Kaya,Desmond Elliott,Dim P. Papadopoulos

Main category: cs.LG

TL;DR: 提出了两种高效的测试时扩展策略TTAug和TTAdapt,通过模型内部特征而非外部监督来提升小型视觉语言模型的性能,同时保持计算效率。

  • Motivation: 小型视觉语言模型计算效率高但泛化能力和下游任务性能较弱,现有测试时扩展方法计算成本高,与小型模型的资源高效设计目标相矛盾。
  • Method: 提出两种测试时扩展策略:(1) TTAug:生成多个增强输入并在token级别聚合输出,无需参数更新;(2) TTAdapt:使用TTAug生成的基于共识的伪标签在推理时自适应调整模型参数。
  • Result: 在九个基准测试中展示了持续的性能提升,同时保持了适合资源受限环境的计算效率,方法在不同规模模型和不同VLM中具有通用性。
  • Conclusion: 提出的TTAug和TTAdapt策略有效提升了小型视觉语言模型的性能,同时保持了计算效率,具有很好的通用性。

[191] Using predefined vector systems as latent space configuration for neural network supervised training on data with arbitrarily large number of classes

Nikita Gabdullin

Main category: cs.LG

TL;DR: 提出一种不依赖类别数量的神经网络训练方法,使用预定义向量系统作为目标潜在空间配置,可在类别数量极大或未知时训练相同架构的神经网络

  • Motivation: 传统监督学习方法需要神经网络参数数量依赖于类别数量,限制了在类别数量极大或未知情况下的应用
  • Method: 使用预定义向量系统作为目标潜在空间配置,特别是随机扰动的An根系统向量,通过匹配神经网络预测与预定义向量来训练编码器和视觉变换器
  • Result: 成功在Cinic-10和ImageNet-1K数据集上训练编码器和ViT,并在128万类别的数据集上验证了方法的可行性
  • Conclusion: 该方法可应用于类别数量极大的场景,并在持续学习和神经网络蒸馏方面具有潜在应用价值

[192] DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks

Nghiem T. Diep,Hien Dang,Tuan Truong,Tan Dinh,Huy Nguyen,Nhat Ho

Main category: cs.LG

TL;DR: DoRAN是一种改进的DoRA方法,通过噪声注入和动态低秩矩阵生成来提升训练稳定性和样本效率,在视觉和语言任务上优于LoRA、DoRA等PEFT基线方法。

  • Motivation: DoRA虽然改进了LoRA的学习能力和训练稳定性,但仍有进一步提升空间。本文旨在通过新的技术手段进一步稳定DoRA训练并提高其样本效率。
  • Method: DoRAN包含两个关键技术:(1) 在DoRA权重分解的分母中注入噪声作为自适应正则化器;(2) 用辅助网络动态生成低秩矩阵,实现跨层参数耦合。
  • Result: 在视觉和语言基准测试上的综合实验表明,DoRAN在性能上持续优于LoRA、DoRA和其他PEFT基线方法。
  • Conclusion: 结合噪声正则化和网络参数生成的方法为基础模型的稳健高效微调提供了有前景的方向。

[193] Partial Information Decomposition via Normalizing Flows in Latent Gaussian Distributions

Wenyuan Zhao,Adithya Balachandran,Chao Tian,Paul Pu Liang

Main category: cs.LG

TL;DR: 提出了一种基于高斯分布的偏信息分解(GPID)方法,通过梯度优化算法提高计算效率,并通过编码器将非高斯数据转换为高斯分布,解决了多模态数据分析中的信息量化问题。

  • Motivation: 现有偏信息分解方法依赖于对联合分布的优化,但在连续和高维模态中计算成本高且不准确。需要一种更高效准确的方法来量化多模态数据中信息的独立、冗余和协同传递。
  • Method: 1. 提出高斯偏信息分解(GPID)框架,假设成对分布为多元高斯分布;2. 开发基于梯度优化的高效算法;3. 使用信息保持编码器将任意分布的随机变量转换为成对高斯随机变量。
  • Result: 在多种合成示例中验证,相比现有基线方法,提出的方法提供了更准确和高效的PID估计。在大规模多模态基准测试中展示了其在量化多模态数据集PID和选择高性能模型方面的实用性。
  • Conclusion: 该方法成功解决了GPID中联合高斯解的最优性问题,为多模态数据分析提供了一种计算高效且准确的偏信息分解工具。

[194] Real-time Prediction of Urban Sound Propagation with Conditioned Normalizing Flows

Achim Eckerle,Martin Spitznagel,Janis Keuper

Main category: cs.LG

TL;DR: 使用条件归一化流(Full-Glow)模型实时生成符合标准的城市声压地图,相比传统物理求解器加速2000倍以上,在非视距场景下比现有深度学习模型精度提升24%。

  • Motivation: 城市噪声预测对公共健康和法规遵从至关重要,但基于物理的求解器速度太慢,无法满足时间紧迫的迭代式"假设分析"研究需求。
  • Method: 采用条件归一化流模型,从2D城市布局实时生成256x256声压地图,在单个RTX 4090上实现交互式探索。
  • Result: 在基线、衍射和反射场景数据集上,模型生成速度比参考求解器快2000倍以上,非视距精度比先前深度学习模型提高24%,基线非视距场景达到0.65 dB平均绝对误差。
  • Conclusion: 该模型能够重现衍射和干涉模式,支持在声源或几何变化时即时重新计算,为城市规划、合规制图和运营提供了实用引擎。

[195] Post-training quantization of vision encoders needs prefixing registers

Seunghyeon Kim,Jinho Kim,Taesun Yeom,Wonpyo Park,Kyuyeun Kim,Jaeho Lee

Main category: cs.LG

TL;DR: RegCache是一种无需训练的方法,通过在视觉编码器中添加前缀token来缓解量化过程中的异常值问题,显著降低8位量化时的精度损失。

  • Motivation: 基于Transformer的视觉编码器(如CLIP)在多模态应用中需要实时处理大量视觉数据,降低推理成本至关重要。后训练量化是实用路径,但由于大规模激活中的异常值,即使在8位精度下仍具挑战性。
  • Method: 提出RegCache算法,向目标视觉编码器引入易产生异常值但语义无意义的前缀token,防止其他token出现异常值。针对视觉编码器中异常值与语言模型不同的行为特点,提出了中间层前缀化和token删除两项技术创新。
  • Result: 实验表明,该方法在文本监督和自监督视觉编码器上都能一致提高量化模型的准确性。
  • Conclusion: RegCache通过创新的前缀token策略有效解决了视觉编码器量化中的异常值问题,为实时多模态应用提供了高效的量化解决方案。

[196] SONA: Learning Conditional, Unconditional, and Mismatching-Aware Discriminator

Yuhta Takida,Satoshi Hayakawa,Takashi Shibuya,Masaaki Imaizumi,Naoki Murata,Bac Nguyen,Toshimitsu Uesaka,Chieh-Hsin Lai,Yuki Mitsufuji

Main category: cs.LG

TL;DR: 提出SONA方法,通过分离自然性和对齐性评估、匹配感知监督和自适应加权机制,改善条件生成对抗网络的性能。

  • Motivation: 现有条件生成对抗网络在评估真实性和条件对齐性之间存在平衡困难,需要更好的判别器设计。
  • Method: 使用分离投影评估自然性和对齐性,引入匹配感知监督增强对齐敏感性,采用自适应加权机制动态平衡所有目标。
  • Result: 在类别条件生成任务中取得优于现有方法的样本质量和条件对齐性,在文本到图像生成中也表现出有效性。
  • Conclusion: SONA方法具有多功能性和鲁棒性,能有效提升条件生成模型的性能。

[197] On Structured State-Space Duality

Jerry Yao-Chieh Hu,Xiwen Zhang,Weimin Wu,Han Liu

Main category: cs.LG

TL;DR: 本文扩展了结构化状态空间对偶性(SSD),从标量恒等状态矩阵推广到一般对角SSM,建立了状态空间模型与1-半可分因果掩码注意力之间的等价关系,揭示了SSM作为线性时间递归和二次时间注意力两种算法实现的本质联系。

  • Motivation: 扩展和形式化结构化状态空间对偶性,从标量恒等情况推广到更一般的对角状态空间模型,建立状态空间模型与注意力机制之间更全面的理论联系,为设计表达力强且高效的序列模型拓宽理论基础。
  • Method: 通过数学推导和理论分析:(i)将SSD从标量恒等状态矩阵扩展到一般对角SSM;(ii)证明对角SSM在保持标量情况训练复杂度下界的同时支持更丰富的动态特性;(iii)建立SSM与1-半可分掩码注意力等价的充要条件;(iv)分析标准softmax注意力中由于秩爆炸导致对偶性失效的原因。
  • Result: 成功建立了对角状态空间模型与1-半可分因果掩码注意力之间的等价关系,证明了相同的序列变换可以分别通过线性时间O(T)递归和二次时间O(T^2)注意力两种算法实现,同时揭示了标准softmax注意力由于秩爆炸无法实现类似对偶性。
  • Conclusion: 该研究强化了循环状态空间模型与Transformer之间的理论桥梁,为设计兼具表达力和计算效率的序列模型提供了更广阔的设计空间,推动了对序列建模算法本质的深入理解。

q-bio.NC

[198] Model-Guided Microstimulation Steers Primate Visual Behavior

Johannes Mehrer,Ben Lonnqvist,Anna Mitola,Abdulkadir Gokce,Paolo Papale,Martin Schrimpf

Main category: q-bio.NC

TL;DR: 提出了一个计算框架来建模和指导高级视觉皮层的微刺激,通过扰动模块、地形模型和映射程序,在猕猴实验中验证了模型预测刺激能显著改变感知选择,为下一代视觉假体奠定基础。

  • Motivation: 现有视觉假体刺激早期视觉皮层只能产生简单符号感知,受硬件限制和低级表征特性约束。高级视觉区域编码更复杂的物体表征,但确定能可靠引发物体级感知的刺激目标具有挑战性。
  • Method: 开发包含三个关键组件的计算框架:(1)扰动模块将微刺激参数转换为神经活动的空间变化;(2)地形模型捕捉皮层神经元的空间组织;(3)映射程序将模型优化的刺激位点映射回灵长类皮层。
  • Result: 在猕猴视觉识别任务中,模型预测的刺激实验产生了显著的体内感知选择变化。位点模型预测与猴子行为强相关。图像生成显示面部选择性位点的硅内刺激与患者报告的面部幻视具有定性相似性。
  • Conclusion: 这一原理验证为模型引导的微刺激奠定了基础,并指向能够诱导更复杂视觉体验的下一代视觉假体。

eess.AS

[199] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition

Umberto Cappellazzo,Minsu Kim,Pingchuan Ma,Honglie Chen,Xubo Liu,Stavros Petridis,Maja Pantic

Main category: eess.AS

TL;DR: MoME框架将稀疏专家混合(MoE)集成到基于嵌套表示学习(MRL)的大语言模型中,用于音视频语音识别,实现了动态容量分配和跨粒度一致性,在保持高性能的同时显著减少参数需求。

  • Motivation: 现有基于MRL的方法在训练时独立处理每个尺度,限制了跨尺度泛化能力、高压缩下的鲁棒性和可解释性,需要一种更灵活高效的解决方案。
  • Method: 提出MoME框架,在冻结的LLM基础上添加top-k路由和共享专家,通过共享路由器促进跨粒度的一致性专家激活,使压缩序列能从低压缩表示中受益。
  • Result: 在LRS2和LRS3数据集上的实验表明,MoME在AVSR、ASR和VSR任务中达到最先进性能,同时需要显著更少的参数并在噪声下保持鲁棒性。
  • Conclusion: MoME统一了MRL的适应性和MoE的效率,为资源感知的语音识别提供了可扩展和可解释的解决方案。

cs.CG

[200] Fast Witness Persistence for MRI Volumes via Hybrid Landmarking

Jorge Leonardo Ruiz Williams

Main category: cs.CG

TL;DR: 提出了一种可扩展的基于见证点的持久同调管道,用于全脑MRI体积分析,结合密度感知地标选择和GPU就绪的见证过滤,显著提升了计算效率。

  • Motivation: 传统方法如Cech、Vietoris-Rips和alpha过滤存在组合爆炸问题,无法高效处理全脑MRI体积数据,需要开发更高效的计算方法。
  • Method: 使用混合度量评分候选地标,平衡几何覆盖和逆核密度,通过密度感知地标选择和GPU就绪的见证过滤构建持久同调。
  • Result: 在BrainWeb、IXI和合成流形上的基准测试显示,相比随机或仅基于密度的基线,平均成对距离减少30-60%,且在单个NVIDIA RTX 4090 GPU上执行时间少于10秒。
  • Conclusion: 该方法实现了高效的全脑MRI拓扑数据分析,避免了传统方法的计算瓶颈,并提供了易于使用的Python包whale-tda供医学影像工作流使用。

physics.optics

[201] Super-resolution image projection over an extended depth of field using a diffractive decoder

Hanlong Chen,Cagatay Isil,Tianyi Gan,Mona Jarrahi,Aydogan Ozcan

Main category: physics.optics

TL;DR: 提出了一种混合图像投影系统,结合CNN数字编码器和全光学衍射解码器,实现扩展景深和超分辨率图像投影,显著提升空间带宽积并降低功耗。

  • Motivation: 图像投影系统需要在保持高空间带宽积的同时,实现数据存储、计算和传输的高效性。传统系统在景深和分辨率方面存在限制,需要开发新的混合方法来克服这些挑战。
  • Method: 使用CNN编码器将输入图像压缩为紧凑的相位表示,通过低分辨率投影仪显示,然后由完全被动的衍射光学解码器进行全光学图像重建,实现像素超分辨率和扩展景深。
  • Result: 系统在THz频谱验证了概念,实现了约267倍波长的扩展景深,每个横向平面提供约16倍空间带宽积提升,同时保持高保真图像合成。
  • Conclusion: 该混合投影架构显著降低了显示系统的数据存储和传输需求,且光学解码器无需额外功耗。该方法可扩展到光学计量和显微镜等其他应用领域。

eess.IV

[202] Real-time nonlinear inversion of magnetic resonance elastography with operator learning

Juampablo E. Heras Rivera,Caitlin M. Neher,Mehmet Kurt

Main category: eess.IV

TL;DR: 开发并评估了用于脑磁共振弹性成像非线性反演的算子学习框架oNLI,实现实时弹性图反演,精度与NLI相当且速度提升30000倍。

  • Motivation: 为解决脑磁共振弹性成像非线性反演计算成本高的问题,开发实时反演框架,同时保持空间精度。
  • Method: 使用61名受试者的3D MRE数据,采用预测性深度算子学习框架oNLI,结合结构先验机制,通过10折交叉验证训练,输入为测量位移场的复旋度,输出为NLI参考弹性图。
  • Result: oNLI在全脑绝对百分比误差为8.4±0.5(μ')和10.0±0.7(μ''),显著优于CNN的15.8±0.8(μ')和26.1±1.1(μ''),在所有脑区相关系数均优于CNN(p<0.05)。
  • Conclusion: oNLI框架实现了实时MRE反演(30000倍加速),优于CNN方法,并保持了NLI在脑部可达到的精细空间精度。

[203] How We Won BraTS-SSA 2025: Brain Tumor Segmentation in the Sub-Saharan African Population Using Segmentation-Aware Data Augmentation and Model Ensembling

Claudia Takyi Ankomah,Livingstone Eli Ayivor,Ireneaus Nyame,Leslie Wambo,Patrick Yeboah Bonsu,Aondona Moses Iorumbur,Raymond Confidence,Toufiq Musah

Main category: eess.IV

TL;DR: 该研究通过分割感知数据增强和模型集成方法,提高了脑肿瘤在多样化数据集上的分割准确性和鲁棒性。

  • Motivation: 脑肿瘤特别是胶质瘤由于复杂的生长模式、浸润性以及个体间脑结构差异,使得准确诊断和监测变得困难。现有深度学习模型大多在相对同质的高资源数据集上训练,在资源匮乏地区部署时鲁棒性有限。
  • Method: 在BraTS-Africa数据集上进行分割感知离线数据增强以增加样本量和多样性;构建了MedNeXt、SegMamba和Residual-Encoder U-Net三种架构的集成模型,利用它们的互补优势。
  • Result: 最佳模型MedNeXt在1000个训练周期后获得最高平均病灶Dice分数0.86和归一化表面距离分数0.81;集成模型在500个周期后在不同肿瘤亚区域产生了最平衡的分割性能。
  • Conclusion: 先进的数据增强和模型集成组合可以改善在多样化和代表性不足数据集上的分割准确性和鲁棒性。

[204] Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events

Shuoyan Wei,Feng Li,Shengeng Tang,Runmin Cong,Yao Zhao,Meng Wang,Huihui Bai

Main category: eess.IV

TL;DR: EvEnhancer是一种结合事件流特性的连续时空视频超分辨率方法,通过事件自适应合成和局部隐式视频变换器实现任意尺度的视频重建,EvEnhancerPlus进一步引入可控切换机制降低计算开销。

  • Motivation: 解决现有连续时空视频超分辨率方法在分布外尺度上泛化能力差的问题,利用事件流的高时间分辨率和高动态范围特性实现鲁棒的视频重建。
  • Method: 结合事件自适应合成捕获长期运动轨迹,使用局部隐式视频变换器学习连续视频表示,EvEnhancerPlus加入基于事件统计的可控切换机制和交叉导数训练策略。
  • Result: 在合成和真实数据集上达到最先进性能,在分布外尺度上保持优越的泛化能力,同时显著降低计算开销。
  • Conclusion: 该方法成功解决了连续时空视频超分辨率的泛化问题,通过事件流和自适应机制实现了高效鲁棒的任意尺度视频重建。

[205] AI-Assisted Pleural Effusion Volume Estimation from Contrast-Enhanced CT Images

Sanhita Basu,Tomas Fröding,Ali Teymur Kahraman,Dimitris Toumpanakis,Tobias Sjöblom

Main category: eess.IV

TL;DR: 开发了一种名为TTAS的半监督深度学习框架,用于从CT扫描中准确分割和量化胸腔积液,相比现有模型表现更优。

  • Motivation: 胸腔积液是常见临床病症,但从CT扫描中准确测量其体积具有挑战性,需要改进分割和量化方法以提升临床管理。
  • Method: 使用CT肺动脉造影数据,开发了教师-助教-学生(TTAS)半监督深度学习框架,在100例手动标注数据上训练,并在未分割检查中实现高效训练。
  • Result: TTAS模型在分割性能上显著优于现有模型,平均Dice得分为0.82 vs 0.73,平均绝对体积差异为6.49 mL vs 23.16 mL,均具有统计学意义(p < 0.0001)。
  • Conclusion: TTAS框架提供了优越的胸腔积液分割能力,有助于从CT扫描中准确确定积液体积。

[206] Sliding Window Attention for Learned Video Compression

Alexander Kopte,André Kaup

Main category: eess.IV

TL;DR: 提出3D滑动窗口注意力机制,替代传统的分块方法,在视频压缩中实现更好的率失真性能和更低的计算复杂度。

  • Motivation: 传统基于分块的局部注意力机制存在不规则感受野和计算冗余问题,特别是在时序自回归模型中需要重叠窗口,导致效率低下。
  • Method: 采用3D滑动窗口注意力,这是一种无分块的局部注意力形式,通过解码器专用架构统一处理空间和时间上下文,提供均匀的感受野。
  • Result: 相比VCT基线,BD-rate节省达到18.6%,解码器复杂度降低2.8倍,熵模型效率提升近3.5倍。
  • Conclusion: 3D滑动窗口注意力有效提升了视频压缩性能,但需要注意过长的时间上下文可能反而降低性能。

[207] The method of the approximate inverse for limited-angle CT

Bernadette Hahn,Gael Rigaud,Richard Schmähl

Main category: eess.IV

TL;DR: 提出了一种基于近似逆方法的新模型驱动方法CLARK,用于解决有限角度CT重建问题,能够消除条纹伪影但需要处理病态性问题。

  • Motivation: 有限角度CT在工业和医学中具有重要应用价值,但传统方法如FBP和总变分会产生伪影,而深度学习需要大量数据集。需要开发不依赖大数据集的有效重建方法。
  • Method: 使用近似逆方法,预先计算重建核作为辅助问题的解,结合谱滤波、近似逆方法和自定义边缘保持去噪来稳定重建过程。
  • Result: LARK能够完全重建物体而不产生条纹伪影,但存在严重病态性;CLARK通过正则化策略成功稳定了重建过程,在合成和真实数据上得到验证。
  • Conclusion: 提出的CLARK方法为有限角度CT重建提供了有效的模型驱动解决方案,可作为未来学习策略的新起点。

[208] Adaptive double-phase Rudin--Osher--Fatemi denoising model

Wojciech Górny,Michał Łasica,Alexandros Matsoukas

Main category: eess.IV

TL;DR: 提出了一种基于自适应权重双相型变增长全变差正则化的新图像去噪模型,旨在减少经典Rudin-Osher-Fatemi模型的阶梯效应,同时保持类似的边缘保护效果。

  • Motivation: 经典Rudin-Osher-Fatemi模型在图像去噪中会产生阶梯效应,需要开发既能减少这种伪影又能保持边缘清晰度的改进模型。
  • Method: 采用自适应权重的双相型变增长全变差正则化方法,在1D和2D合成图像及自然图像上进行了实现和测试。
  • Result: 模型在不同噪声水平下对合成和自然图像进行了性能测试,验证了其有效性。
  • Conclusion: 所提出的模型在减少阶梯效应的同时,能够有效保持图像边缘,为图像去噪提供了改进方案。

cs.GR

[209] Creative synthesis of kinematic mechanisms

Jiong Lin,Jialong Ning,Judah Goldfeder,Hod Lipson

Main category: cs.GR

TL;DR: 将平面连杆机构的运动综合问题转化为跨域图像生成任务,使用RGB图像表示开发数据集,通过共享潜在空间变分自编码器生成未见过的运动曲线和模拟新运动学。

  • Motivation: 探索基于图像的生成模型在机械设计中的潜力,统一表示和合成具有旋转、平移关节以及凸轮、齿轮等复杂机构的运动学。
  • Method: 使用共享潜在空间变分自编码器,将轨迹点绘制速度编码为颜色梯度,支持基于轨迹形状和速度分布的约束运动综合。
  • Result: 在三个复杂度递增的数据集上验证了方法的有效性:标准四杆机构、四杆与曲柄滑块混合机构、包含多环机构的复杂集合。
  • Conclusion: 基于图像的表示方法在生成式机械设计中具有有效性,能够在统一的图像生成框架中表示和合成各种机构类型。

[210] Universal Beta Splatting

Rong Liu,Zhongpai Gao,Benjamin Planche,Meida Chen,Van Nguyen Nguyen,Meng Zheng,Anwesa Choudhuri,Terrence Chen,Yue Wang,Andrew Feng,Ziyan Wu

Main category: cs.GR

TL;DR: 提出了Universal Beta Splatting (UBS)框架,将3D高斯泼溅推广到N维各向异性Beta核,用于显式辐射场渲染。Beta核能在单一表示中建模空间、角度和时间维度的可控依赖关系。

  • Motivation: 传统高斯泼溅使用固定高斯基元,无法有效建模复杂的光传输效应、各向异性视角相关外观和场景动态。需要统一的框架来处理这些多维度依赖关系。
  • Method: 使用N维各向异性Beta核作为通用基元,替代固定高斯核。Beta参数可控制空间、角度和时间维度的依赖关系,无需辅助网络或特定颜色编码。
  • Result: 在静态、视角相关和动态基准测试中一致优于现有方法,实现实时渲染。Beta参数可自然分解场景属性为可解释的空间、角度和时间分量。
  • Conclusion: Beta核作为可扩展的通用基元,为辐射场渲染提供了统一的解决方案,保持向后兼容性,在多个维度上实现更好的性能。

[211] Diverse Text-to-Image Generation via Contrastive Noise Optimization

Byungjun Kim,Soobin Um,Jong Chul Ye

Main category: cs.GR

TL;DR: 提出对比噪声优化方法,通过优化初始噪声来提升文本到图像生成模型的多样性,同时保持保真度。

  • Motivation: 现有文本到图像扩散模型在强文本引导下输出多样性不足,现有方法对中间潜在变量或文本条件进行优化,但效果有限且对超参数敏感。
  • Method: 开发了在Tweedie数据空间中定义的对比损失函数,优化一批噪声潜在变量,通过对比优化使批次内实例相互排斥以最大化多样性,同时锚定参考样本以保持保真度。
  • Result: 在多个T2I骨干模型上的广泛实验表明,该方法实现了更优的质量-多样性帕累托前沿,且对超参数选择具有鲁棒性。
  • Conclusion: 对比噪声优化是一种简单有效的方法,从不同角度解决了文本到图像生成中的多样性问题,通过优化初始噪声而非中间变量来提升生成多样性。

[212] Joint Neural SDF Reconstruction and Semantic Segmentation for CAD Models

Shen Fan,Przemyslaw Musialski

Main category: cs.GR

TL;DR: 提出了一种数据高效的管道,通过在基于神经SDF的CAD部件隐式重建网络上添加部件分割头,使用PartField生成的监督进行训练,能够处理任意数量部件的网格并产生几何对齐的标签。

  • Motivation: 现有方法受限于固定的分类法,无法处理具有任意数量部件的CAD网格。本文旨在开发一种不依赖分类法或精确调色板匹配的方法,实现语义结构化的CAD网格。
  • Method: 在Flat-CAD SDF主干网络上附加轻量级分割头,使用PartField生成的监督进行训练,单次处理即可为任意数量部件的网格产生连贯的几何对齐标签。
  • Result: 在ABC数据集上评估,在重建(CDL1/CDL2, F1-micro, NC)和分割(mIoU, Accuracy)方面表现强劲,即使对于薄或复杂几何的重建质量下降时,分割仍保持准确和标签一致性。
  • Conclusion: 该方法为语义结构化的CAD网格提供了一条实用路径,无需精心策划的分类法或精确的调色板匹配,但边界精度存在局限性,未来可朝着边界感知训练和更高分辨率标签的方向发展。

[213] 3Dify: a Framework for Procedural 3D-CG Generation Assisted by LLMs Using MCP and RAG

Shun-ichiro Hayashi,Daichi Mukunoki,Tetsuya Hoshino,Satoshi Ohshima,Takahiro Katagiri

Main category: cs.GR

TL;DR: 3Dify是一个基于LLM的程序化3D-CG生成框架,通过自然语言指令生成3D内容,集成MCP、RAG等先进技术,支持DCC工具自动化和用户反馈优化。

  • Motivation: 解决传统3D-CG制作需要专业技能和复杂操作的问题,让普通用户也能通过自然语言轻松创建3D内容。
  • Method: 基于Dify平台构建,使用MCP协议自动化DCC工具操作,对不支持MCP的工具采用CUA方法自动化GUI操作,通过RAG增强生成质量,支持用户反馈学习和本地LLM部署。
  • Result: 实现了仅通过自然语言指令就能生成3D-CG内容的能力,支持多候选图像选择和反馈优化,降低了使用门槛和成本。
  • Conclusion: 3Dify框架成功地将LLM技术应用于3D-CG生成领域,为普通用户提供了便捷的3D内容创作工具,具有实际应用价值。

[214] C3Editor: Achieving Controllable Consistency in 2D Model for 3D Editing

Zeng Tao,Zheng Ding,Zeyuan Chen,Xiang Zhang,Leizhi Li,Zhuowen Tu

Main category: cs.GR

TL;DR: 提出C3Editor框架,通过选择性建立视图一致的2D编辑模型来解决现有2D提升3D编辑方法的一致性问题,实现更可控和一致的3D编辑效果。

  • Motivation: 现有基于2D提升的3D编辑方法存在一致性问题,主要源于缺乏视图一致的2D编辑模型和难以确保多视图编辑一致性。
  • Method: 通过控制选择GT视图及其编辑图像作为优化目标,在GT视图和多视图上微调2D编辑模型,并引入单独的LoRA模块分别处理GT视图拟合和多视图一致性需求。
  • Result: 在定性和定量评估中均优于现有2D提升方法,实现了更一致和可控的2D和3D编辑结果。
  • Conclusion: C3Editor框架有效解决了3D编辑中的一致性问题,提供了更可靠的2D提升3D编辑解决方案。

[215] Social Agent: Mastering Dyadic Nonverbal Behavior Generation via Conversational LLM Agents

Zeyi Zhang,Yanju Zhou,Heyuan Yao,Tenglong Ao,Xiaohang Zhan,Libin Liu

Main category: cs.GR

TL;DR: Social Agent是一个基于大语言模型的框架,用于生成双人对话中真实且上下文合适的伴随语音非语言行为,通过智能体系统和扩散模型实现协调的动作生成。

  • Motivation: 解决双人对话中自然、协调的非语言行为生成问题,使虚拟角色在交互中表现出更真实的肢体语言和互动行为。
  • Method: 开发基于LLM的智能体系统控制对话流程和交互行为,提出基于自回归扩散模型的双人姿态生成模型,从语音信号合成协调动作,并建立持续反馈循环。
  • Result: 用户研究和定量评估显示,该模型显著提高了双人交互质量,生成了自然、同步的非语言行为。
  • Conclusion: Social Agent框架能够有效生成真实协调的双人非语言行为,为虚拟角色交互提供了重要技术支撑。

[216] Bridging Text and Video Generation: A Survey

Nilay Kumar,Priyansh Bhandari,G. Maragatham

Main category: cs.GR

TL;DR: 本文对文本到视频生成技术进行了全面综述,从早期GAN和VAE模型到混合扩散-Transformer架构的发展历程,涵盖了模型原理、数据集、训练配置、评估指标及性能表现,并指出了当前挑战和未来研究方向。

  • Motivation: 文本到视频生成技术在教育、营销、娱乐和辅助技术等领域具有巨大潜力,但面临着对齐、长程一致性和计算效率等挑战。为梳理该领域发展脉络,提供系统性分析以支持未来研究。
  • Method: 采用系统性综述方法,追溯从GAN、VAE到扩散-Transformer混合架构的演进历程,详细分析模型工作原理、训练数据集、硬件配置、超参数设置以及评估指标。
  • Result: 展示了不同模型架构在质量、一致性和控制能力方面的改进,提供了标准基准测试中的性能表现,并指出了当前评估指标的局限性。
  • Conclusion: 文本到视频生成技术已取得显著进展,但仍需解决对齐、长程一致性和计算效率等关键挑战。未来应转向更全面、感知对齐的评估策略,并探索新的架构范式以推动该领域发展。

[217] SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder

Ronen Kamenetsky,Sara Dorfman,Daniel Garibi,Roni Paiss,Or Patashnik,Daniel Cohen-Or

Main category: cs.GR

TL;DR: 提出一种基于文本嵌入token级操作的解耦连续编辑方法,通过稀疏自编码器识别语义隔离的编辑方向,实现不改变扩散过程的模型无关图像编辑。

  • Motivation: 现有文本到图像扩散模型仅通过文本提示无法提供足够的编辑控制,需要实现解耦编辑(改变一个属性不影响其他属性)和连续控制(平滑调整编辑强度)。
  • Method: 在文本嵌入层面进行token级操作,通过稀疏自编码器识别语义隔离的编辑方向,沿这些方向操纵嵌入来控制目标属性的强度。
  • Result: 实验表明该方法能够在不同属性和领域中实现直观高效的连续控制操作。
  • Conclusion: 该方法提供了一种模型无关的解耦连续编辑解决方案,无需修改扩散过程即可应用于各种图像合成骨干网络。

[218] Pulp Motion: Framing-aware multimodal camera and human motion generation

Robin Courant,Xi Wang,David Loiseaux,Marc Christie,Vicky Kalogeiton

Main category: cs.GR

TL;DR: 本文提出了一种文本条件下的联合生成框架,将人体运动和相机轨迹作为相互关联的模态进行协同生成,通过屏幕空间框架作为桥梁确保多模态一致性。

  • Motivation: 传统方法将人体运动和相机轨迹生成分开处理,忽略了电影摄影中演员表演与摄像机工作的紧密互动关系。本文旨在实现这两种异质但内在关联模态的联合生成,保持一致的屏幕构图。
  • Method: 提出模型无关的框架,通过将人体关节点投影到相机上产生的屏幕框架作为辅助模态来强制多模态一致性。设计了联合自编码器学习共享潜在空间,以及从人体和相机潜在空间到框架潜在空间的轻量级线性变换,并引入辅助采样来引导生成过程。
  • Result: 在DiT和MAR架构上的广泛实验表明,该方法在生成屏幕框架一致的人体-相机运动方面具有通用性和有效性,同时在两种模态的文本对齐方面也取得了提升。
  • Conclusion: 该方法能够产生更具电影摄影意义的构图,为该任务设定了新的技术水平,证明了通过屏幕框架作为桥梁实现多模态一致性的有效性。