Skip to content
每日arXiv - 2025年8月4日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] A Quality-Guided Mixture of Score-Fusion Experts Framework for Human Recognition

Jie Zhu,Yiyang Su,Minchul Kim,Anil Jain,Xiaoming Liu

Main category: cs.CV

TL;DR: 提出了一种名为QME的新框架,通过可学习的分数融合策略提升全身生物识别性能,解决了传统方法忽略分数分布差异的问题。

  • Motivation: 传统全身生物识别方法通过分数融合(如加权平均)整合多模态数据,但忽略了各模态分数分布的差异,限制了性能提升。
  • Method: 提出QME框架,结合质量估计器(QE)和分数三元组损失,通过Mixture of Experts(MoE)实现可学习的分数融合。
  • Result: 在多个数据集上验证了QME的有效性,相比基线方法取得了最优性能。
  • Conclusion: QME框架在多模态和多模型场景下表现优异,解决了分数域模型不对齐和数据质量差异等关键挑战。

[2] Punching Bag vs. Punching Person: Motion Transferability in Videos

Raiyaan Abdullah,Jared Claypoole,Michael Cogswell,Ajay Divakaran,Yogesh Rawat

Main category: cs.CV

TL;DR: 论文探讨了动作识别模型在跨上下文迁移高级运动概念时的表现,发现模型在新颖情境下性能显著下降,并提出了改进方法。

  • Motivation: 研究动作识别模型是否能有效迁移高级运动概念到不同上下文,尤其是在类似分布内。
  • Method: 引入了一个运动迁移性框架,使用三个数据集(Syn-TA、Kinetics400-TA、Something-Something-v2-TA)评估13个先进模型。
  • Result: 模型在新颖情境下性能显著下降,尤其是多模态模型在细粒度动作上表现更差;大模型在空间线索主导时表现更好,但时间推理困难。
  • Conclusion: 研究为动作识别中的运动迁移性评估提供了重要基准,并提出了改进方向。

[3] The Monado SLAM Dataset for Egocentric Visual-Inertial Tracking

Mateo de Mayo,Daniel Cremers,Taihú Pire

Main category: cs.CV

TL;DR: 论文介绍了Monado SLAM数据集,旨在解决现有视觉惯性里程计(VIO)和SLAM系统在头戴式传感器应用中面临的挑战性问题。

  • Motivation: 现有VIO和SLAM系统在头戴式传感器应用中难以应对高动态运动、遮挡、低纹理区域等常见问题,缺乏相关数据集。
  • Method: 通过收集来自多个虚拟现实头显的真实序列数据,构建Monado SLAM数据集。
  • Result: 发布了Monado SLAM数据集,采用CC BY 4.0许可,以促进VIO/SLAM研究。
  • Conclusion: Monado SLAM数据集填补了现有研究的空白,有助于推动头戴式传感器跟踪技术的发展。

[4] Exploring the Feasibility of Deep Learning Techniques for Accurate Gender Classification from Eye Images

Basna Mohammed Salih Hasan,Ramadhan J. Mstafa

Main category: cs.CV

TL;DR: 论文提出了一种基于眼部周围区域的性别分类方法,使用CNN模型在CVBL和(Female and Male)数据集上分别达到99%和96%的准确率。

  • Motivation: 性别分类在安全、人机交互等领域至关重要,但受化妆和伪装等因素影响。研究聚焦于利用眼部周围区域的视觉线索提高分类准确性。
  • Method: 采用卷积神经网络(CNN)模型,利用彩色图像数据库提取眼部周围区域特征进行性别分类。
  • Result: 模型在CVBL数据集上达到99%准确率,在(Female and Male)数据集上达到96%准确率,参数量较少(7,235,089)。
  • Conclusion: 模型表现优异,适用于安全和监控等实际应用。

[5] World Consistency Score: A Unified Metric for Video Generation Quality

Akshat Rakheja,Aarsh Ashdhir,Aryan Bhattacharjee,Vanshika Sharma

Main category: cs.CV

TL;DR: World Consistency Score (WCS) 是一种新的统一评估指标,用于衡量生成视频的内部世界一致性,结合了四个可解释的子组件,并通过学习权重公式生成与人类判断一致的分数。

  • Motivation: 现有视频评估指标主要关注视觉保真度或提示对齐,而忽略了时间与物理一致性。WCS旨在填补这一空白,提供更全面的评估框架。
  • Method: WCS整合了四个子指标(物体持久性、关系稳定性、因果合规性和闪烁惩罚),使用开源工具计算,并通过人类偏好数据训练权重。
  • Result: WCS在多个基准测试中验证了与人类评估的相关性,并与其他指标(如FVD、CLIPScore)进行了比较。
  • Conclusion: WCS为评估视频生成模型的世界一致性提供了全面且可解释的框架,弥补了现有指标的不足。

[6] GeoExplorer: Active Geo-localization with Curiosity-Driven Exploration

Li Mi,Manon Bechaz,Zeming Chen,Antoine Bosselut,Devis Tuia

Main category: cs.CV

TL;DR: GeoExplorer通过内在奖励驱动的探索方法提升主动地理定位任务的鲁棒性和泛化能力。

  • Motivation: 当前基于距离奖励的强化学习方法在目标或环境未知时表现不佳,需要更可靠的探索策略。
  • Method: 提出GeoExplorer,利用好奇心驱动的内在奖励进行目标无关的探索。
  • Result: 在四个AGL基准测试中验证了GeoExplorer的有效性,特别是在未知目标和环境中。
  • Conclusion: GeoExplorer通过好奇心驱动探索显著提升了AGL任务的性能和泛化能力。

[7] Robust 3D Object Detection using Probabilistic Point Clouds from Single-Photon LiDARs

Bhavya Goyal,Felipe Gutierrez-Barragan,Wei Lin,Andreas Velten,Yin Li,Mohit Gupta

Main category: cs.CV

TL;DR: 论文提出了一种名为概率点云(PPC)的新型3D场景表示方法,通过为每个点添加概率属性来封装原始数据中的测量不确定性,从而提升3D物体检测的鲁棒性。

  • Motivation: 现代LiDAR在远距离或低反光物体等场景中会产生稀疏或错误的点云,这些误差会传播到下游感知模型,导致精度下降。传统3D处理流程未保留原始测量中的不确定性信息。
  • Method: 提出PPC表示方法,为每个点添加概率属性,并设计基于PPC的推理方法,可作为轻量级模块集成到3D推理流程中。
  • Result: 实验表明,PPC方法在室内外场景中优于LiDAR和相机-LiDAR融合模型,尤其在处理小、远距离和低反光物体时表现更优。
  • Conclusion: PPC通过显式建模测量不确定性,显著提升了3D物体检测的鲁棒性,适用于多种挑战性场景。

[8] On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI

David Restrepo,Ira Ktena,Maria Vakalopoulou,Stergios Christodoulidis,Enzo Ferrante

Main category: cs.CV

TL;DR: 论文提出了一种名为选择性模态转移(SMS)的方法,用于量化视觉语言模型(VLMs)在二元分类任务中对不同模态的依赖程度,揭示了模型对文本输入的强烈偏好。

  • Motivation: 临床决策依赖于医学图像和相关临床报告的综合分析,但现有的视觉语言模型(VLMs)往往偏向于某一模态(通常是文本),而忽略视觉信息。
  • Method: 通过选择性模态转移(SMS)方法,系统地交换样本中的图像或文本,以暴露模态特定的偏见,并在两个医学影像数据集上评估了六种开源VLMs。
  • Result: 研究发现,模型在未扰动和扰动设置下均表现出对文本输入的显著依赖,视觉信息常被文本细节掩盖。
  • Conclusion: 强调了设计和评估真正整合视觉和文本线索的多模态医学模型的重要性。

[9] Graph Lineages and Skeletal Graph Products

Eric Mjolsness,Cory B. Scott

Main category: cs.CV

TL;DR: 论文提出了一种结构化图“谱系”的定义,用于描述层次化增长的图结构,并推导了其代数类型理论,适用于深度学习网络和多网格数值方法。

  • Motivation: 研究动机是为数学模型的架构提供一种层次化的图结构描述方法,以支持机器学习和计算科学中的多尺度建模。
  • Method: 方法包括定义层次化增长的图谱系,推导其代数操作(如骨架二元操作符),并应用于深度学习网络和多网格方法。
  • Result: 结果表明,提出的骨架操作符具有类似标准操作的代数性质,并能逼近连续极限对象。
  • Conclusion: 结论是该方法适用于定义层次化模型架构(“层次结构”)及其局部采样、搜索或优化算法。

[10] Learning Personalised Human Internal Cognition from External Expressive Behaviours for Real Personality Recognition

Xiangyu Kong,Hengde Zhu,Haoqin Sun,Zhihao Guo,Jiayan Gu,Xinyi Ni,Wei Zhang,Shizhe Liu,Siyang Song

Main category: cs.CV

TL;DR: 提出了一种基于个性化内部认知的自动真实人格识别方法,通过模拟目标个体的内部认知来提升识别性能。

  • Motivation: 现有方法通常作为外部观察者推断人格印象,与真实人格偏差较大,性能较差。
  • Method: 通过短音频-视觉行为模拟个性化内部认知,构建二维图表示,并提出2D-GNN进行人格推断。
  • Result: 提出了一种端到端策略,联合训练认知模拟、二维图构建和人格识别模块。
  • Conclusion: 该方法通过模拟内部认知,显著提升了真实人格识别的性能。

[11] SAM-PTx: Text-Guided Fine-Tuning of SAM with Parameter-Efficient, Parallel-Text Adapters

Shayan Jalilian,Abdul Bais

Main category: cs.CV

TL;DR: SAM-PTx通过轻量级适配器设计,将CLIP文本嵌入注入SAM的图像编码器,提升语义引导的分割性能。

  • Motivation: 探索语义文本提示在分割任务中的潜力,弥补传统空间提示的不足。
  • Method: 提出Parallel-Text适配器,仅修改MLP并行分支,保留注意力路径,使用固定CLIP文本嵌入作为输入。
  • Result: 在COD10K、COCO和ADE20K数据集上,语义提示显著优于纯空间提示基线。
  • Conclusion: 语义条件集成到SAM架构中,为高效适应提供了实用且可扩展的路径。

[12] Object-Centric Cropping for Visual Few-Shot Classification

Aymane Abdali,Bartosz Boguslawski,Lucas Drumetz,Vincent Gripon

Main category: cs.CV

TL;DR: 在少样本图像分类中,通过引入对象的局部位置信息显著提升分类性能,尤其是利用Segment Anything Model或无监督前景提取方法。

  • Motivation: 少样本图像分类中,图像模糊性(如多对象或复杂背景)会显著降低性能,因此需要探索如何利用局部位置信息提升分类效果。
  • Method: 通过Segment Anything Model(仅需标记对象的一个像素)或无监督前景提取方法,引入对象的局部位置信息。
  • Result: 实验表明,该方法在多个基准测试中显著提升了分类性能。
  • Conclusion: 利用局部位置信息,尤其是通过简单标记或无监督方法,能有效提升少样本图像分类的性能。

[13] Guided Depth Map Super-Resolution via Multi-Scale Fusion U-shaped Mamba Network

Chenggang Guo,Hao Xu,XianMing Wan

Main category: cs.CV

TL;DR: 提出了一种多尺度融合U形Mamba(MSF-UM)模型,用于深度图超分辨率,结合Mamba的高效状态空间建模能力和多尺度U形结构,显著减少参数并提升重建精度。

  • Motivation: 传统卷积神经网络在处理长距离依赖和全局上下文信息时存在局限,而Transformer的计算复杂度和内存消耗较高,限制了其在高分辨率深度图处理中的应用。
  • Method: 设计了结合残差密集通道注意力块和Mamba状态空间模块的结构,利用多尺度跨模态融合策略,通过彩色图像的高频纹理信息指导深度图超分辨率。
  • Result: 模型在多个公开数据集上验证了有效性,显著减少了参数数量并提升了重建精度,尤其在大规模深度图超分辨率任务中表现出优秀的泛化能力。
  • Conclusion: MSF-UM模型通过结合局部特征提取和长距离依赖建模,以及多尺度融合策略,为深度图超分辨率提供了一种高效且准确的解决方案。

[14] PointGauss: Point Cloud-Guided Multi-Object Segmentation for Gaussian Splatting

Wentao Sun,Hanqing Xu,Quanyun Wu,Dedong Zhang,Yiping Chen,Lingfei Ma,John S. Zelek,Jonathan Li

Main category: cs.CV

TL;DR: PointGauss是一种基于点云引导的实时多目标分割框架,通过高斯泼溅表示实现高效3D分割,显著提升多视角一致性和计算效率。

  • Motivation: 现有方法存在初始化时间长和多视角一致性不足的问题,PointGauss旨在通过点云分割驱动流程直接解析高斯基元来解决这些问题。
  • Method: 提出点云高斯基元解码器和GPU加速的2D掩码渲染系统,分别实现快速3D实例分割和多视角一致性。
  • Result: 实验显示性能提升1.89%至31.78%(多视角mIoU),并保持高效计算。同时发布新数据集DesktopObjects-360。
  • Conclusion: PointGauss在3D分割任务中表现出色,新数据集为未来研究提供了更全面的基准。

[15] Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models

Hyundong Jin,Hyung Jin Chang,Eunwoo Kim

Main category: cs.CV

TL;DR: 提出了一种新框架,通过混合视觉投影器和专家推荐策略,解决生成式视觉语言模型在持续学习中忽视语言指令的问题。

  • Motivation: 现有方法在持续学习中可能过度关注视觉输入而忽视语言指令,尤其是在重复文本指令的任务中。
  • Method: 引入混合视觉投影器作为专家,根据指令上下文翻译视觉信息;提出专家推荐策略和修剪机制以减少干扰。
  • Result: 在多样化的视觉语言任务中,该方法优于现有持续学习方法,生成更符合指令的响应。
  • Conclusion: 新框架有效平衡了视觉和语言信息的处理,提升了模型在持续学习中的表现。

[16] Multimodal Referring Segmentation: A Survey

Henghui Ding,Song Tang,Shuting He,Chang Liu,Zuxuan Wu,Yu-Gang Jiang

Main category: cs.CV

TL;DR: 本文综述了多模态指代分割任务,涵盖图像、视频和3D场景,介绍了统一架构、代表性方法及实际应用。

  • Motivation: 多模态指代分割在基于用户指令的精确对象感知中具有重要应用价值,近年来因深度学习的进步受到广泛关注。
  • Method: 提出统一元架构,总结图像、视频和3D场景中的代表性方法,并讨论广义指代表达(GREx)方法。
  • Result: 提供了标准基准上的性能比较,并持续跟踪相关研究。
  • Conclusion: 多模态指代分割领域发展迅速,未来需进一步应对现实世界的复杂性挑战。

[17] Towards Robust Semantic Correspondence: A Benchmark and Insights

Wenyue Chong

Main category: cs.CV

TL;DR: 论文提出了一种评估语义对应在恶劣条件下鲁棒性的新基准,发现现有方法在挑战性场景中表现显著下降,但大规模视觉模型能提升鲁棒性。

  • Motivation: 语义对应是计算机视觉中的基础任务,但在恶劣条件下的鲁棒性研究不足。
  • Method: 建立包含14种挑战性场景的基准数据集,评估现有方法和大规模视觉模型的性能。
  • Result: 现有方法在恶劣条件下表现下降,大规模视觉模型(如DINO)表现更优,融合模型进一步提升鲁棒性。
  • Conclusion: 任务特定的设计对提升语义对应的鲁棒性至关重要,通用数据增强效果有限。

[18] Privacy-Preserving Driver Drowsiness Detection with Spatial Self-Attention and Federated Learning

Tran Viet Khoa,Do Hai Son,Mohammad Abu Alsheikh,Yibeltal F Alem,Dinh Thai Hoang

Main category: cs.CV

TL;DR: 提出一种基于空间自注意力机制和LSTM的驾驶员疲劳检测框架,结合联邦学习和梯度相似性比较,实现高精度和隐私保护的检测。

  • Motivation: 驾驶员疲劳是交通事故的主要原因之一,但现有方法在分散和多样化的真实数据中表现不佳。
  • Method: 结合空间自注意力机制(SSA)和LSTM提取关键面部特征,使用梯度相似性比较(GSC)优化联邦学习模型聚合。
  • Result: 在联邦学习设置下达到89.9%的检测准确率,优于现有方法。
  • Conclusion: 该方法能有效处理真实数据多样性,有望用于智能交通系统提升道路安全。

[19] TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models

Christian Simon,Masato Ishii,Akio Hayakawa,Zhi Zhong,Shusuke Takahashi,Takashi Shibuya,Yuki Mitsufuji

Main category: cs.CV

TL;DR: 提出TITAN-Guide方法,解决条件扩散模型在控制任务中的内存和性能问题,无需额外微调。

  • Motivation: 现有训练自由引导框架内存需求高或控制效果不佳,限制了在计算密集型任务(如文本到视频扩散模型)中的应用。
  • Method: 开发了一种无需反向传播的高效扩散潜在优化方法,研究了前向梯度下降及其方向指令选项。
  • Result: 实验证明该方法在内存管理和潜在优化上优于现有方法,显著提升了文本到视频扩散模型的性能。
  • Conclusion: TITAN-Guide在减少内存需求的同时,优化了控制效果,适用于计算密集型扩散模型。

[20] AniMer+: Unified Pose and Shape Estimation Across Mammalia and Aves via Family-Aware Transformer

Jin Lyu,Liang An,Li Lin,Pujin Cheng,Yebin Liu,Xiaoying Tang

Main category: cs.CV

TL;DR: AniMer+ 是一个扩展的框架,通过高容量的 Vision Transformer 和 Mixture-of-Experts 设计,统一重建哺乳动物和鸟类的姿态与形状,并利用合成数据解决数据稀缺问题。

  • Motivation: 在基础模型时代,通过单一网络实现对不同动态物体的统一理解,可以增强空间智能。同时,准确估计动物姿态和形状对生物研究至关重要,但现有方法受限于网络容量和数据稀缺。
  • Method: AniMer+ 采用家族感知的 Vision Transformer 和 Mixture-of-Experts 设计,将网络层分为物种特定和共享部分。此外,通过扩散模型生成合成数据集 CtrlAni3D 和 CtrlAVES3D。
  • Result: 在 41.3k 哺乳动物和 12.4k 鸟类图像(含合成数据)上训练后,AniMer+ 在多个基准测试中表现优于现有方法,包括具有挑战性的 Animal Kingdom 数据集。
  • Conclusion: AniMer+ 的网络架构和合成数据集显著提升了实际应用性能,为动物姿态与形状估计提供了有效解决方案。

[21] Controllable Pedestrian Video Editing for Multi-View Driving Scenarios via Motion Sequence

Danzhen Fu,Jiagao Hu,Daiguo Zhou,Fei Wang,Zepeng Wang,Wenhua Liao

Main category: cs.CV

TL;DR: 提出了一种用于多视角驾驶场景中可控行人视频编辑的新框架,结合视频修复和人体运动控制技术,以增强行人检测模型的鲁棒性。

  • Motivation: 现有行人检测模型因训练数据中危险行人场景的不足而缺乏鲁棒性,需改进数据增强方法。
  • Method: 通过识别多视角行人区域、扩展检测框、统一画布拼接,并应用二进制掩码和姿态序列控制条件进行行人编辑。
  • Result: 实验证明该方法能高质量完成行人编辑,具有视觉真实感、时空一致性和多视角一致性。
  • Conclusion: 该方法为多视角行人视频生成提供了鲁棒且通用的解决方案,适用于自动驾驶中的数据增强和场景模拟。

[22] Exploring Fourier Prior and Event Collaboration for Low-Light Image Enhancement

Chunyan She,Fujun Han,Chengyu Fang,Shukai Duan,Lidan Wang

Main category: cs.CV

TL;DR: 论文提出了一种基于事件相机的低光图像增强方法,通过解耦增强流程为两个阶段(可见性恢复和结构细化),并设计了动态对齐的融合策略和对比损失,显著提升了性能。

  • Motivation: 现有方法未充分利用事件相机和帧相机的模态优势,限制了性能提升。
  • Method: 1. 可见性恢复网络(基于傅里叶空间的振幅-相位关系);2. 动态对齐的融合策略;3. 空间-频率插值生成负样本,结合对比损失。
  • Result: 实验表明,该方法优于现有最优模型。
  • Conclusion: 通过分阶段处理和动态对齐策略,有效提升了低光图像增强的性能。

[23] DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios

Yufeng Zhong,Zhixiong Zeng,Lei Chen,Longrong Yang,Liming Zheng,Jing Huang,Siqi Yang,Lin Ma

Main category: cs.CV

TL;DR: DocTron-Formula是一个基于通用视觉语言模型的统一框架,用于数学公式OCR,无需专用架构,结合CSFormula数据集,实现了最先进的性能。

  • Motivation: 数学公式OCR在科学文献智能分析中至关重要,但现有模型难以处理其结构多样性和复杂性。
  • Method: 提出DocTron-Formula框架,利用通用视觉语言模型,并通过CSFormula数据集进行监督微调。
  • Result: 在多种风格、科学领域和复杂布局中达到最先进性能,超越专用模型。
  • Conclusion: DocTron-Formula为复杂科学文档的自动理解提供了新范式。

[24] GV-VAD : Exploring Video Generation for Weakly-Supervised Video Anomaly Detection

Suhang Cai,Xiaohao Peng,Chong Wang,Xiaojie Cai,Jiangbo Qian

Main category: cs.CV

TL;DR: 提出GV-VAD框架,利用文本条件视频生成模型生成合成视频增强训练数据,提升视频异常检测性能。

  • Motivation: 解决真实异常数据稀缺、标注成本高的问题,提升模型性能和泛化能力。
  • Method: 利用文本条件视频生成模型生成可控且物理合理的合成视频,并通过合成样本损失缩放策略优化训练。
  • Result: 在UCF-Crime数据集上优于现有方法。
  • Conclusion: GV-VAD框架通过合成数据增强和优化训练策略,显著提升了视频异常检测的效果。

[25] Steering Guidance for Personalized Text-to-Image Diffusion Models

Sunghyun Park,Seokeon Choi,Hyoungwoo Park,Sungrack Yun

Main category: cs.CV

TL;DR: 提出了一种个性化引导方法,通过未学习的弱模型和动态权重插值,平衡目标分布对齐与文本编辑能力。

  • Motivation: 解决现有采样引导方法(如CFG和AG)在少样本微调中无法平衡目标分布对齐和文本编辑能力的问题。
  • Method: 利用未学习的弱模型和动态权重插值,在推理过程中控制未学习程度,实现平衡的潜在空间。
  • Result: 实验表明,该方法能提升文本对齐和目标分布保真度,且无需额外计算开销。
  • Conclusion: 个性化引导方法有效平衡了目标分布对齐和文本编辑能力,适用于多种微调策略。

[26] Spectral Sensitivity Estimation with an Uncalibrated Diffraction Grating

Lilika Makabe,Hiroaki Santo,Fumio Okura,Michael S. Brown,Yasuyuki Matsushita

Main category: cs.CV

TL;DR: 提出了一种使用衍射光栅校准相机光谱灵敏度的实用方法,无需窄带滤光片或已知反射率的目标。

  • Motivation: 相机光谱灵敏度的准确校准对计算机视觉任务(如颜色校正、光照估计和材料分析)至关重要。现有方法需要专用设备,而本方法仅需普通衍射光栅。
  • Method: 通过拍摄直接光照及其通过衍射光栅的衍射图案图像,以闭式方法同时估计相机光谱灵敏度和光栅参数。
  • Result: 在合成和真实数据上的实验表明,该方法优于传统的基于参考目标的方法。
  • Conclusion: 该方法具有高效性和实用性,适用于实际应用。

[27] Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning

Angelos Vlachos,Giorgos Filandrianos,Maria Lymperaiou,Nikolaos Spanos,Ilias Mitsouras,Vasileios Karampinis,Athanasios Voulodimos

Main category: cs.CV

TL;DR: 提出了一种基于双代理的协作框架,用于多图像推理,无需训练即可泛化多种任务,并在多个数据集上取得优异表现。

  • Motivation: 解决跨数据集和任务格式的多模态推理挑战,实现自动化、模块化的多图像推理。
  • Method: 采用双代理系统:PromptEngineer生成任务特定提示,VisionReasoner(大型视觉语言模型)进行最终推理。
  • Result: 在18个数据集上表现优异,Claude 3.7在TQA、DocVQA等任务中接近天花板性能。
  • Conclusion: 大型视觉语言模型在多图像推理中表现优异,提示设计和模型选择对性能有显著影响。

[28] Stable at Any Speed: Speed-Driven Multi-Object Tracking with Learnable Kalman Filtering

Yan Gong,Mengjun Chen,Hao Liu,Gao Yongsheng,Lei Yang,Naibang Wang,Ziying Song,Haoqun Ma

Main category: cs.CV

TL;DR: 论文提出了一种速度引导的可学习卡尔曼滤波器(SG-LKF),通过动态适应不确定性建模,显著提高了多目标跟踪(MOT)在高动态场景中的稳定性和准确性。

  • Motivation: 传统跟踪方法依赖静态坐标变换,忽略了车辆速度对观测噪声和参考帧变化的影响,导致在高动态场景中跟踪性能下降。
  • Method: 提出SG-LKF,结合MotionScaleNet(MSNet)动态预测关键参数,并引入自监督轨迹一致性损失以增强帧间关联和轨迹连续性。
  • Result: SG-LKF在KITTI 2D MOT上以79.59% HOTA排名第一,在KITTI 3D MOT上达到82.03% HOTA,并在nuScenes 3D MOT上优于SimpleTrack 2.2% AMOTA。
  • Conclusion: SG-LKF通过动态适应车辆速度,显著提升了MOT在高动态场景中的性能。

[29] CoST: Efficient Collaborative Perception From Unified Spatiotemporal Perspective

Zongheng Tang,Yi Liu,Yifan Sun,Yulu Gao,Jinyu Chen,Runsheng Xu,Si Liu

Main category: cs.CV

TL;DR: 论文提出了一种高效的协作感知方法CoST,通过统一时空空间同时聚合多智能体和多时间观测,提高了传输效率和感知性能。

  • Motivation: 解决现有方法将多智能体融合和多时间融合分离的问题,提升协作感知的效率和准确性。
  • Method: 提出CoST方法,统一时空空间同时聚合多智能体和多时间观测,实现高效特征传输和优越特征融合。
  • Result: CoST在效率和准确性上均有提升,且兼容多数现有方法,减少传输带宽需求。
  • Conclusion: CoST通过统一时空空间优化协作感知,显著提升性能,具有广泛适用性。

[30] Honey Classification using Hyperspectral Imaging and Machine Learning

Mokhtar A. Al-Awadhi,Ratnadeep R. Deshmukh

Main category: cs.CV

TL;DR: 提出了一种基于机器学习的蜂蜜植物来源自动分类方法,包括数据准备、特征提取和分类三个步骤,使用LDA和SVM/KNN模型,在标准数据集上取得最高95.13%的分类准确率。

  • Motivation: 解决蜂蜜植物来源自动分类问题,提高分类准确率和效率。
  • Method: 1. 数据准备阶段使用类转换方法增强类别可分性;2. 特征提取阶段采用LDA降维;3. 分类阶段使用SVM和KNN模型。
  • Result: 在标准HSI数据集上,分类准确率分别达到95.13%(图像)和92.80%(实例)。
  • Conclusion: 该方法在蜂蜜植物来源分类中表现优异,达到了当前最优水平。

[31] SparseRecon: Neural Implicit Surface Reconstruction from Sparse Views with Feature and Depth Consistencies

Liang Han,Xu Zhang,Haichuan Song,Kanle Shi,Yu-Shen Liu,Zhizhong Han

Main category: cs.CV

TL;DR: SparseRecon提出了一种新的稀疏视图神经隐式重建方法,通过特征一致性和不确定性引导的深度约束,解决了现有方法在未见视图和几何线索不足时的局限性。

  • Motivation: 现有稀疏视图重建方法分为泛化型和过拟合型,但泛化型方法对未见视图泛化能力差,过拟合型方法受限于几何线索不足。
  • Method: SparseRecon结合了基于体积渲染的特征一致性损失和不确定性引导的深度约束,以增强重建的完整性和几何细节。
  • Result: 实验表明,SparseRecon在稀疏视图输入下优于现有方法,尤其在小重叠视图场景中表现优异。
  • Conclusion: SparseRecon通过创新设计显著提升了稀疏视图重建的质量,为相关领域提供了新思路。

[32] Representation Shift: Unifying Token Compression with FlashAttention

Joonmyung Choi,Sanghyeok Lee,Byungoh Ko,Eunseo Kim,Jihyung Kil,Hyunwoo J. Kim

Main category: cs.CV

TL;DR: 提出了一种名为Representation Shift的训练无关、模型无关的度量方法,用于衡量每个token表示的变化程度,从而与FlashAttention兼容地实现token压缩。

  • Motivation: 随着任务复杂度的增加,Transformer模型的计算成本(尤其是自注意力的二次成本)和GPU内存访问开销显著增加,现有token压缩方法与FlashAttention不兼容。
  • Method: 提出Representation Shift度量方法,无需训练或注意力图,直接测量token表示的变化程度,实现与FlashAttention兼容的token压缩。
  • Result: 实验表明,该方法在视频-文本检索和视频问答任务中分别实现了5.5%和4.4%的速度提升。
  • Conclusion: Representation Shift是一种高效且通用的token压缩方法,适用于多种模型(如Transformer、CNN和状态空间模型),并与FlashAttention无缝集成。

[33] Bidirectional Action Sequence Learning for Long-term Action Anticipation with Large Language Models

Yuji Sato,Yasunori Ishii,Takayoshi Yamashita

Main category: cs.CV

TL;DR: BiAnt结合前向和后向预测,利用大语言模型提升视频长期动作预测性能。

  • Motivation: 传统方法因单向性限制性能,难以捕捉场景中语义不同的子动作。
  • Method: BiAnt结合前向和后向预测,使用大语言模型。
  • Result: 在Ego4D上,BiAnt在编辑距离上优于基线方法。
  • Conclusion: BiAnt通过双向预测有效提升了长期动作预测的性能。

[34] Advancing Welding Defect Detection in Maritime Operations via Adapt-WeldNet and Defect Detection Interpretability Analysis

Kamal Basha S,Athira Nambiar

Main category: cs.CV

TL;DR: 提出了一种自适应焊接缺陷检测框架Adapt-WeldNet,结合可解释性分析(DDIA)提升检测性能和透明度。

  • Motivation: 传统无损检测方法难以检测细微或内部缺陷,现有神经网络方法缺乏可解释性,影响安全性。
  • Method: 系统评估预训练架构、迁移学习策略和自适应优化器,提出DDIA框架结合XAI技术和专家验证。
  • Result: 优化了缺陷检测性能,提升了系统的可靠性和透明度。
  • Conclusion: 该工作增强了焊接缺陷检测系统的信任、安全性和可靠性,适用于海洋和离岸环境。

[35] MVHybrid: Improving Spatial Transcriptomics Prediction with Hybrid State Space-Vision Transformer Backbone in Pathology Vision Foundation Models

Won June Cho,Hongjun Yoon,Daeky Jeong,Hyeongyeol Lim,Yosep Chong

Main category: cs.CV

TL;DR: 论文提出了一种结合状态空间模型(SSMs)和ViT的混合架构MVHybrid,用于从病理图像预测空间基因表达,性能优于现有ViT模型。

  • Motivation: 空间转录组学成本高且技术复杂,限制了临床应用。从常规病理图像预测基因表达是一种实用替代方案,但现有ViT模型性能不足。
  • Method: 提出MVHybrid架构,结合SSMs和ViT,利用SSMs的低频偏置特性捕捉形态学模式。在相同数据集上预训练并比较六种架构。
  • Result: MVHybrid在基因表达预测中表现最优,LOSO评估下相关性比ViT高57%,性能下降减少43%。
  • Conclusion: MVHybrid在基因表达预测和其他任务中表现优异,有望成为下一代病理视觉基础模型骨干。

[36] Cued-Agent: A Collaborative Multi-Agent System for Automatic Cued Speech Recognition

Guanjie Huang,Danny H. K. Tsang,Shan Yang,Guangzhi Lei,Li Liu

Main category: cs.CV

TL;DR: 提出了一种名为Cued-Agent的多智能体系统,用于自动识别Cued Speech(CS),通过多模态融合和语义优化显著提升了性能。

  • Motivation: 解决传统方法因数据有限和手唇运动时间异步导致的多模态融合效果不佳问题。
  • Method: 集成四个子智能体:基于多模态大语言模型的手势识别、基于Transformer的唇部识别、动态整合手唇特征的提示解码,以及语义优化的音素到单词转换。
  • Result: 在正常和听力受损场景下表现优异,优于现有方法。
  • Conclusion: Cued-Agent为CS识别提供了一种高效、数据友好的解决方案。

[37] Decouple before Align: Visual Disentanglement Enhances Prompt Tuning

Fei Zhang,Tianfei Zhou,Jiangchao Yao,Ya Zhang,Ivor W. Tsang,Yanfeng Wang

Main category: cs.CV

TL;DR: 论文提出DAPT框架,通过解耦和对齐视觉模态的前景与背景,解决提示调优中的信息不对称问题,提升模型性能。

  • Motivation: 解决提示调优(PT)中视觉与文本模态信息不对称的问题,避免模型因粗对齐而偏向关注上下文区域。
  • Method: 提出DAPT框架,先解耦视觉模态为前景和背景表示,再分别与文本对齐,并引入视觉拉推正则化以增强视觉专注。
  • Result: 在少样本学习、基础到新类泛化和数据高效学习中表现优异,超越现有基准。
  • Conclusion: DAPT通过解耦和对齐视觉模态,有效解决了信息不对称问题,提升了模型性能。

[38] Video Forgery Detection with Optical Flow Residuals and Spatial-Temporal Consistency

Xi Xue,Kunio Suzuki,Nabarun Goswami,Takuya Shintate

Main category: cs.CV

TL;DR: 提出一种基于RGB外观特征和光流残差的双分支框架,用于检测AI生成视频中的伪造内容,实验证明其鲁棒性和泛化能力。

  • Motivation: 随着扩散模型生成的视频越来越逼真,现有方法难以捕捉时间不一致性,需要更精细的检测手段。
  • Method: 采用双分支架构,分别分析RGB帧和光流残差,结合空间和时间一致性检测伪造视频。
  • Result: 在多种生成模型上验证了方法的鲁棒性和泛化能力。
  • Conclusion: 提出的框架能有效检测高保真AI生成视频中的伪造内容。

[39] iSafetyBench: A video-language benchmark for safety in industrial environment

Raiyaan Abdullah,Yogesh Singh Rawat,Shruti Vyas

Main category: cs.CV

TL;DR: iSafetyBench是一个新的视频语言基准测试,用于评估工业环境中视觉语言模型的性能,特别是在常规和危险场景下的表现。

  • Motivation: 现有视觉语言模型在工业领域的高风险场景中表现不足,需要更全面的评估工具。
  • Method: 构建了包含1,100个工业视频片段的iSafetyBench数据集,标注了多标签动作类别,并设计了多项选择题进行模型评估。
  • Result: 在零样本设置下,八种先进模型在iSafetyBench上表现不佳,尤其是在危险活动识别和多标签场景中。
  • Conclusion: iSafetyBench揭示了现有模型的局限性,为开发更安全的多模态模型提供了测试平台。

[40] Sari Sandbox: A Virtual Retail Store Environment for Embodied AI Agents

Janika Deborah Gajo,Gerarld Paul Merales,Jerome Escarcha,Brenden Ashley Molina,Gian Nartea,Emmanuel G. Maminta,Juan Carlos Roldan,Rowel O. Atienza

Main category: cs.CV

TL;DR: Sari Sandbox是一个高保真、逼真的3D零售店模拟环境,用于评估具身代理在购物任务中与人类表现的对比。

  • Motivation: 填补零售特定模拟环境在具身代理训练中的空白。
  • Method: 提供超过250种可交互的杂货商品和三种商店配置,支持VR和VLM驱动的具身代理,并引入SariBench数据集。
  • Result: 具身代理能够导航、检查和操作零售商品,并与人类表现进行基准对比。
  • Conclusion: 提供了基准测试、性能分析,并提出了增强真实性和可扩展性的建议。

[41] PMR: Physical Model-Driven Multi-Stage Restoration of Turbulent Dynamic Videos

Tao Wu,Jingyuan Ye,Ying Fu

Main category: cs.CV

TL;DR: 论文提出了一种动态效率指数(DEI)和多阶段视频恢复框架(PMR),用于解决大气湍流引起的视频失真问题,并在高动态湍流条件下表现出色。

  • Motivation: 大气湍流导致的长距离动态场景视频质量下降,现有方法难以恢复边缘细节和消除混合失真,尤其是在强湍流和复杂动态条件下。
  • Method: 提出动态效率指数(DEI)量化视频动态强度,并设计多阶段视频恢复框架(PMR),包括去倾斜、运动分割增强和去模糊三个阶段。
  • Result: 实验表明,PMR能有效抑制运动拖尾伪影、恢复边缘细节,并在高湍流和复杂动态场景中表现出强泛化能力。
  • Conclusion: 该方法在高动态湍流条件下表现优异,代码和数据集将公开。

[42] Sortblock: Similarity-Aware Feature Reuse for Diffusion Model

Hanqi Chen,Xu Zhang,Xiaoliu Guan,Lielin Jiang,Guanzhong Wang,Zeyu Chen,Yi Liu

Main category: cs.CV

TL;DR: Sortblock是一种无需训练的动态缓存框架,通过跳过冗余计算加速DiTs推理,保持生成质量的同时实现2倍以上的加速。

  • Motivation: DiTs的序列去噪过程导致高推理延迟,现有方法忽略了去噪阶段和Transformer块间的语义变化。
  • Method: 提出Sortblock,动态缓存块级特征,基于相邻时间步的相似性排序,自适应确定重计算比例,并加入轻量级线性预测减少误差。
  • Result: 实验表明,Sortblock在多种任务和DiT架构中实现2倍以上的推理加速,且输出质量下降极小。
  • Conclusion: Sortblock为扩散生成模型提供了一种高效通用的加速解决方案。

[43] DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space

Junyu Chen,Dongyun Zou,Wenkun He,Junsong Chen,Enze Xie,Song Han,Han Cai

Main category: cs.CV

TL;DR: DC-AE 1.5是一种新型深度压缩自编码器,通过结构化潜在空间和增强扩散训练,解决了高分辨率扩散模型中潜在通道增加导致的收敛慢问题,提升了生成质量。

  • Motivation: 解决潜在通道增加导致的扩散模型收敛慢和生成质量下降问题,突破潜在扩散模型的质量上限。
  • Method: 提出结构化潜在空间和增强扩散训练两种创新方法,前者通过训练在潜在空间中引入通道结构,后者通过额外扩散训练目标加速收敛。
  • Result: DC-AE 1.5在ImageNet 512x512上比DC-AE生成质量更高且速度提升4倍。
  • Conclusion: DC-AE 1.5通过结构化潜在空间和增强扩散训练,显著提升了扩散模型的收敛速度和生成质量。

[44] IN2OUT: Fine-Tuning Video Inpainting Model for Video Outpainting Using Hierarchical Discriminator

Sangwoo Youn,Minji Lee,Nokap Tony Park,Yeonggyoo Jeon,Taeyoung Na

Main category: cs.CV

TL;DR: 论文提出了一种基于视频修复模型的视频外绘方法,通过改进判别器设计和损失函数,解决了现有方法在扩展视频边界时效果不佳的问题。

  • Motivation: 视频外绘的挑战在于扩展边界时保持内容一致性,现有方法仅生成背景效果不佳。
  • Method: 提出分层判别器和专用外绘损失函数,区分全局和局部目标进行对抗训练。
  • Result: 方法在定量和定性上均优于现有技术。
  • Conclusion: 改进的判别器和损失函数能生成视觉吸引且全局一致的视频外绘结果。

[45] UIS-Mamba: Exploring Mamba for Underwater Instance Segmentation via Dynamic Tree Scan and Hidden State Weaken

Runmin Cong,Zongji Yu,Hao Fang,Haoyan Sun,Sam Kwong

Main category: cs.CV

TL;DR: 提出首个基于Mamba的水下实例分割模型UIS-Mamba,通过动态树扫描(DTS)和隐藏状态弱化(HSW)模块解决水下场景的特殊挑战,并在多个数据集上取得最优性能。

  • Motivation: 水下实例分割(UIS)任务对复杂水下场景检测至关重要,但现有方法在颜色失真和边界模糊的情况下难以保持实例连续性,且复杂背景会干扰实例理解。
  • Method: 设计DTS模块动态调整扫描区域以保持实例连续性,HSW模块通过Ncut机制弱化背景干扰,聚焦实例信息流。
  • Result: 在UIIS和USIS10K数据集上实现最优性能,同时保持低参数量和计算复杂度。
  • Conclusion: UIS-Mamba成功将Mamba模型迁移至水下任务,为水下实例分割提供了高效解决方案。

[46] Contact-Aware Amodal Completion for Human-Object Interaction via Multi-Regional Inpainting

Seunggeun Chi,Enna Sachdeva,Pin-Hao Huang,Kwonjoon Lee

Main category: cs.CV

TL;DR: 提出了一种结合物理先验知识和多区域修复技术的新方法,用于动态场景中的人-物交互(HOI)的无模态补全,显著提升了生成结果的准确性和真实性。

  • Motivation: 现有方法(如预训练扩散模型)在动态HOI场景中难以生成合理的补全结果,因其对HOI的理解有限。
  • Method: 结合物理约束(如人体拓扑和接触信息),定义主次区域,并在扩散模型中采用定制化的去噪策略进行多区域修复。
  • Result: 实验表明,该方法在HOI场景中显著优于现有方法,且无需真实接触标注仍具鲁棒性。
  • Conclusion: 该方法使机器感知更接近人类对动态环境的理解,适用于3D重建和新视角/姿态合成等任务。

[47] Reducing the gap between general purpose data and aerial images in concentrated solar power plants

M. A. Pérez-Cutiño,J. Valverde,J. Capitán,J. M. Díaz-Báñez

Main category: cs.CV

TL;DR: 论文提出AerialCSP虚拟数据集,用于模拟CSP电站的航拍图像,减少真实数据标注需求,提升模型在真实场景中的缺陷检测能力。

  • Motivation: CSP电站的航拍图像具有高反射性和领域特殊性,传统数据集训练的模型难以泛化,而真实数据标注成本高。
  • Method: 创建AerialCSP虚拟数据集,模拟真实CSP电站图像,用于模型预训练。
  • Result: AerialCSP显著提升了真实场景中罕见和小缺陷的检测能力,减少了手动标注需求。
  • Conclusion: AerialCSP为CSP电站视觉任务提供了高质量合成数据和基准,解决了真实数据标注难题。

[48] TopoTTA: Topology-Enhanced Test-Time Adaptation for Tubular Structure Segmentation

Jiale Zhou,Wenhan Wang,Shikun Li,Xiaolei Qu,Xin Guo,Yizhong Liu,Wenzhong Tang,Xun Lin,Yefeng Zheng

Main category: cs.CV

TL;DR: TopoTTA是一种针对管状结构分割(TSS)的测试时适应框架,通过两阶段方法解决领域偏移问题,显著提升性能。

  • Motivation: 管状结构分割对领域偏移敏感,传统方法在未见目标域中性能下降。
  • Method: TopoTTA分为两阶段:1)使用TopoMDCs增强拓扑表示;2)通过TopoHG生成硬样本并优化拓扑连续性。
  • Result: 在四个场景和十个数据集上,TopoTTA平均提升31.81%的clDice。
  • Conclusion: TopoTTA是一种有效的即插即用解决方案,适用于基于CNN的TSS模型。

[49] SDMatte: Grafting Diffusion Models for Interactive Matting

Longfei Huang,Yu Liang,Hao Zhang,Jinwei Chen,Wei Dong,Lunde Chen,Wanyu Liu,Bo Li,Pengtao Jiang

Main category: cs.CV

TL;DR: SDMatte利用扩散模型改进交互式抠图,通过视觉提示和注意力机制提升边缘细节提取能力。

  • Motivation: 现有交互式抠图方法在边缘细节提取上表现不足,扩散模型因其强大的数据建模和纹理合成能力成为潜在解决方案。
  • Method: 提出SDMatte,结合扩散模型先验,将文本驱动能力转化为视觉提示驱动,并引入坐标嵌入和掩码自注意力机制。
  • Result: 在多个数据集上验证了SDMatte的优越性能,尤其在边缘细节提取方面表现突出。
  • Conclusion: SDMatte通过扩散模型和视觉提示驱动,显著提升了交互式抠图的细节提取能力。

[50] AutoDebias: Automated Framework for Debiasing Text-to-Image Models

Hongyi Cai,Mohammad Mahdinur Rahman,Mingkang Dong,Jie Li,Muxin Pu,Zhili Fang,Yinan Peng,Hanjun Luo,Yang Liu

Main category: cs.CV

TL;DR: AutoDebias是一个自动识别和减轻文本到图像模型中社会偏见的框架,无需预先知道具体偏见类型。

  • Motivation: 解决现有方法在复杂或重叠偏见上的不足,提升模型的公平性。
  • Method: 利用视觉语言模型检测偏见模式,生成包容性提示,并通过CLIP引导训练减少偏见。
  • Result: 在25种偏见场景中,AutoDebias准确检测91.6%的偏见,将偏见输出从90%降至可忽略水平,同时保持图像质量。
  • Conclusion: AutoDebias能有效处理复杂偏见,显著提升模型公平性,且不影响生成质量。

[51] CLIPTime: Time-Aware Multimodal Representation Learning from Images and Text

Anju Rani,Daniel Ortiz-Arroyo,Petar Durdevic

Main category: cs.CV

TL;DR: CLIPTime是一个基于CLIP架构的多模态多任务框架,用于从图像和文本输入预测真菌生长的发育阶段和时间戳,无需显式时间输入即可进行时间感知推理。

  • Motivation: 理解生物生长的时间动态在微生物学、农业和生物降解研究中至关重要,但现有视觉语言模型在捕捉时间进展方面能力有限。
  • Method: 提出CLIPTime框架,结合视觉-文本嵌入学习,通过分类和回归任务预测离散生长阶段和连续时间戳,并使用合成真菌生长数据集进行训练和评估。
  • Result: 实验表明,CLIPTime能有效建模生物进展,并生成可解释的时间相关输出。
  • Conclusion: CLIPTime展示了视觉语言模型在现实生物监测应用中的潜力。

[52] PIF-Net: Ill-Posed Prior Guided Multispectral and Hyperspectral Image Fusion via Invertible Mamba and Fusion-Aware LoRA

Baisong Li,Xingwang Wang,Haixiao Xu

Main category: cs.CV

TL;DR: PIF-Net提出了一种新的多光谱和高光谱图像融合框架,通过引入不适定先验和可逆Mamba架构,解决了数据不对齐带来的问题,并在多个数据集上表现优于现有方法。

  • Motivation: 多光谱和高光谱图像融合(MHIF)任务由于光谱与空间信息的固有权衡及观测数据有限,本质上是病态的,且现有方法未能有效解决数据不对齐问题。
  • Method: 提出PIF-Net框架,结合不适定先验和可逆Mamba架构,设计Fusion-Aware Low-Rank Adaptation模块动态校准特征。
  • Result: 在多个基准数据集上,PIF-Net显著优于现有方法,同时保持模型高效。
  • Conclusion: PIF-Net通过创新架构和模块设计,有效解决了MHIF任务中的病态问题,实现了高性能的图像融合。

[53] Semantic and Temporal Integration in Latent Diffusion Space for High-Fidelity Video Super-Resolution

Yiwen Wang,Xinning Chai,Yuhong Zhang,Zhengxue Cheng,Jun Zhao,Rong Xie,Li Song

Main category: cs.CV

TL;DR: SeTe-VSR提出了一种结合语义和时空引导的视频超分辨率方法,显著提升了细节恢复和时间一致性。

  • Motivation: 现有视频超分辨率模型在控制生成过程和保持时间一致性方面存在挑战。
  • Method: 通过潜在扩散空间中的语义和时空引导,平衡细节恢复和时间一致性。
  • Result: 实验表明SeTe-VSR在细节恢复和感知质量上优于现有方法。
  • Conclusion: SeTe-VSR在复杂视频超分辨率任务中表现出色。

[54] HyPCV-Former: Hyperbolic Spatio-Temporal Transformer for 3D Point Cloud Video Anomaly Detection

Jiaping Cao,Kangkang Zhou,Juan Du

Main category: cs.CV

TL;DR: 提出了一种名为HyPCV-Former的双曲时空变换器,用于3D点云视频中的异常检测,通过双曲空间建模事件层次结构和时空连续性,显著提升了性能。

  • Motivation: 现有方法在RGB或深度域中使用欧几里得表示,难以捕捉事件的层次结构和时空连续性,因此需要一种新的方法来解决这些限制。
  • Method: 首先从点云序列中提取每帧空间特征,并将其嵌入到Lorentzian双曲空间中;引入双曲多头自注意力机制(HMHA),利用Lorentzian内积和曲率感知的softmax学习非欧几里得几何下的时间依赖性。
  • Result: 在多个异常类别上实现了最先进的性能,TIMo数据集上提升了7%,DAD数据集上提升了5.6%。
  • Conclusion: HyPCV-Former通过直接在双曲空间中建模特征和异常评分,显著提升了异常检测的性能,为视频监控领域提供了新的解决方案。

[55] LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

Yuzhuo Chen,Zehua Ma,Jianhua Wang,Kai Kang,Shunyu Yao,Weiming Zhang

Main category: cs.CV

TL;DR: LAMIC是一个无需训练的布局感知多图像合成框架,通过两种注意力机制实现多参考场景下的图像生成,并在多个指标上达到最优性能。

  • Motivation: 解决可控图像合成中多参考图像的空间布局一致性问题。
  • Method: 基于MMDiT模型,引入Group Isolation Attention (GIA)和Region-Modulated Attention (RMA)两种注意力机制。
  • Result: 在ID-S、BG-S、IN-R和AVG等指标上优于现有方法,展示了零样本泛化能力。
  • Conclusion: LAMIC为可控多图像合成提供了一种无需训练的新范式,具有强大的泛化能力。

[56] SAMSA 2.0: Prompting Segment Anything with Spectral Angles for Hyperspectral Interactive Medical Image Segmentation

Alfie Roddan,Tobias Czempiel,Chi Xu,Daniel S. Elson,Stamatia Giannarou

Main category: cs.CV

TL;DR: SAMSA 2.0是一种交互式分割框架,通过引入光谱角度提示,结合空间线索指导SAM模型,提升了高光谱医学图像的分割精度和鲁棒性。

  • Motivation: 解决高光谱医学图像分割中光谱信息利用不足的问题,提升分割精度和泛化能力。
  • Method: 采用光谱角度提示,将光谱信息与空间线索早期融合,无需重新训练。
  • Result: 相比仅使用RGB的模型,Dice分数提升3.8%;优于现有光谱融合方法3.1%。
  • Conclusion: SAMSA 2.0在低数据和噪声场景下表现出色,增强了少样本和零样本性能。

[57] LesiOnTime -- Joint Temporal and Clinical Modeling for Small Breast Lesion Segmentation in Longitudinal DCE-MRI

Mohammed Kamran,Maria Bernathova,Raoul Varga,Christian Singer,Zsuzsanna Bago-Horvath,Thomas Helbich,Georg Langs,Philipp Seeböck

Main category: cs.CV

TL;DR: LesiOnTime是一种新型3D分割方法,结合纵向影像和BI-RADS评分,显著提升小病灶分割性能。

  • Motivation: 现有深度学习方法主要针对大病灶,忽略了纵向和临床信息,而早期癌症检测需要这些信息。
  • Method: 提出Temporal Prior Attention(TPA)块和BI-RADS Consistency Regularization(BCR)损失,整合纵向数据和临床评分。
  • Result: 在DCE-MRI数据集上,Dice分数比现有方法提升5%,TPA和BCR均贡献性能提升。
  • Conclusion: 结合时间和临床背景对乳腺癌筛查中的早期病灶分割至关重要。

[58] Leveraging Convolutional and Graph Networks for an Unsupervised Remote Sensing Labelling Tool

Tulsi Patel,Mark W. Jones,Thomas Redfern

Main category: cs.CV

TL;DR: 提出了一种无监督的遥感影像标注方法,利用卷积和图神经网络分割图像,生成更鲁棒的特征空间,减少标注异常并支持细粒度标注。

  • Motivation: 遥感影像标注依赖专家分析,耗时且成本高。现有方法需要预标注数据训练,限制了其应用。
  • Method: 结合卷积神经网络和图神经网络,将图像分割为同质区域,基于颜色和空间相似性分组,并通过图神经网络聚合周围信息。
  • Result: 减少了标注异常,支持细粒度标注,并在编码空间中形成旋转不变的语义关系。
  • Conclusion: 该方法克服了现有方法的限制,提供了一种更高效的遥感影像标注工具。

[59] Fine-grained Spatiotemporal Grounding on Egocentric Videos

Shuo Liang,Yiwu Zhong,Zi-Yuan Hu,Yeyao Tao,Liwei Wang

Main category: cs.CV

TL;DR: 本文提出了EgoMask,首个用于第一人称视频的像素级时空定位基准,通过自动标注管道构建,并创建了大规模训练数据集EgoMask-Train。实验表明现有模型在EgoMask上表现不佳,但通过微调可显著提升性能。

  • Motivation: 第一人称视频在增强现实和机器人等应用中日益重要,但现有研究多集中于第三人称视频,第一人称视频的时空定位研究相对不足。
  • Method: 通过系统分析第一人称与第三人称视频的差异,提出EgoMask基准和自动标注管道,并构建EgoMask-Train训练数据集。
  • Result: 实验显示现有模型在EgoMask上表现不佳,但通过微调可显著改进性能,同时不影响第三人称数据集的表现。
  • Conclusion: 本文为第一人称视频理解提供了关键资源和见解,推动了该领域的发展。

[60] EPANet: Efficient Path Aggregation Network for Underwater Fish Detection

Jinsong Yang,Zeyuan Hu,Yichen Li

Main category: cs.CV

TL;DR: 提出了一种高效路径聚合网络(EPANet),用于水下鱼类检测,通过互补特征集成实现轻量化和高精度。

  • Motivation: 水下鱼类检测面临低分辨率、背景干扰和目标与周围环境视觉相似性高的挑战,现有方法通常增加模型复杂度或降低效率。
  • Method: EPANet包含高效路径聚合特征金字塔网络(EPA-FPN)和多尺度多样化短路径瓶颈(MS-DDSP瓶颈),前者通过长程跳跃连接和跨层融合路径提升特征集成效率,后者通过细粒度特征分割和多样化卷积操作增强局部特征多样性。
  • Result: 在基准数据集上,EPANet在检测精度和推理速度上优于现有方法,同时保持较低参数复杂度。
  • Conclusion: EPANet为水下鱼类检测提供了一种高效且轻量化的解决方案。

[61] Video Color Grading via Look-Up Table Generation

Seunghyun Shin,Dongmin Shin,Jisu Shin,Hae-Gon Jeon,Joon-Young Lee

Main category: cs.CV

TL;DR: 提出了一种基于参考的视频色彩分级框架,通过扩散模型生成查找表(LUT)以实现色彩属性对齐,并结合用户偏好文本提示进行低级特征增强。

  • Motivation: 视频色彩分级通常需要专业技能,本文旨在简化这一过程,使其更易用且高效。
  • Method: 使用扩散模型生成LUT,对齐参考场景与输入视频的色彩属性,并结合文本提示调整低级特征。
  • Result: 实验和用户研究表明,该方法能有效进行视频色彩分级,且不损失结构细节。
  • Conclusion: 提出的框架在视频色彩分级中表现优异,代码已开源。

[62] Your other Left! Vision-Language Models Fail to Identify Relative Positions in Medical Images

Daniel Wolf,Heiko Hillenhagen,Billurvan Taskin,Alex Bäuerle,Meinrad Beer,Michael Götz,Timo Ropinski

Main category: cs.CV

TL;DR: 评估了当前先进的视觉语言模型(VLMs)在医学图像中定位解剖结构相对位置的能力,发现均表现不佳,并提出视觉提示和基准数据集MIRP以促进研究。

  • Motivation: 临床决策依赖解剖结构的相对位置信息,但现有VLMs在此任务上表现不足,亟需改进。
  • Method: 评估了GPT-4o、Llama3.2等VLMs的表现,并尝试使用视觉提示(如标记)提升性能。
  • Result: VLMs在医学图像上的表现显著低于自然图像,且依赖先验知识而非图像内容。
  • Conclusion: 需进一步研究提升VLMs在医学图像中的定位能力,MIRP数据集为此提供了基准。

[63] DBLP: Noise Bridge Consistency Distillation For Efficient And Reliable Adversarial Purification

Chihan Huang,Belal Alsinglawi,Islam Al-qudah

Main category: cs.CV

TL;DR: 提出了一种名为DBLP的高效扩散对抗净化框架,通过噪声桥蒸馏和自适应语义增强实现快速且高质量的净化。

  • Motivation: 深度神经网络易受对抗扰动影响,现有扩散净化方法计算量大,难以实际应用。
  • Method: 采用噪声桥蒸馏目标,结合潜在一致性模型,并引入多尺度金字塔边缘图作为条件输入。
  • Result: 在多个数据集上达到SOTA鲁棒精度和图像质量,推理时间约0.2秒。
  • Conclusion: DBLP为实时对抗净化迈出重要一步。

[64] HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models

Jizhihui Liu,Feiyi Du,Guangdao Zhu,Niu Lian,Jun Li,Bin Chen

Main category: cs.CV

TL;DR: HiPrune是一种无需训练、模型无关的视觉令牌剪枝框架,利用视觉编码器的分层注意力结构,显著提升推理效率。

  • Motivation: 解决视觉语言模型中视觉令牌序列过长导致的计算开销大和推理效率低的问题。
  • Method: 基于分层注意力结构,选择三类关键令牌:锚令牌(对象中心层高注意力)、缓冲令牌(空间连续性)和注册令牌(全局上下文)。
  • Result: 在LLaVA-1.5等模型上,仅保留33.3%令牌时任务准确率达99.3%,推理FLOPs和延迟降低9倍。
  • Conclusion: HiPrune在无需训练的情况下,实现了高效的令牌剪枝,具有广泛的模型和任务通用性。

[65] Training-Free Class Purification for Open-Vocabulary Semantic Segmentation

Qi Chen,Lingxiao Yang,Yun Chen,Nailong Zhao,Jianhuang Lai,Jie Shao,Xiaohua Xie

Main category: cs.CV

TL;DR: FreeCP是一种无需训练的分类净化框架,旨在解决开放词汇语义分割中的类别冗余和视觉语言模糊性问题,显著提升分割性能。

  • Motivation: 现有无需训练的方法忽视了类别冗余和视觉语言模糊性带来的挑战,导致次优的分割结果。
  • Method: 提出FreeCP框架,通过净化语义类别和纠正冗余与模糊性引起的错误,生成最终分割预测。
  • Result: 在八个基准测试中验证了FreeCP的有效性,作为即插即用模块显著提升其他OVSS方法的分割性能。
  • Conclusion: FreeCP通过解决类别冗余和视觉语言模糊性问题,显著提升了开放词汇语义分割的性能。

[66] Guiding Diffusion-Based Articulated Object Generation by Partial Point Cloud Alignment and Physical Plausibility Constraints

Jens U. Kreber,Joerg Stueckler

Main category: cs.CV

TL;DR: PhysNAP是一种基于扩散模型的方法,用于生成与部分点云对齐且物理合理的铰接物体。

  • Motivation: 铰接物体是日常环境中重要的交互对象,但现有方法在物理合理性和点云对齐方面存在不足。
  • Method: 使用签名距离函数(SDFs)表示部件形状,通过点云对齐损失和非穿透性、移动性约束引导反向扩散过程。
  • Result: 在PartNet-Mobility数据集上验证,PhysNAP在约束一致性和生成能力之间取得了平衡。
  • Conclusion: PhysNAP能够生成更物理合理的铰接物体,并在点云对齐方面表现优于无引导的扩散模型。

[67] Weakly Supervised Virus Capsid Detection with Image-Level Annotations in Electron Microscopy Images

Hannah Kniesel,Leon Sick,Tristan Payer,Tim Bergner,Kavitha Shaga Devan,Clarissa Read,Paul Walther,Timo Ropinski

Main category: cs.CV

TL;DR: 提出了一种基于图像级标注的弱监督目标检测算法,通过预训练模型生成伪标签,用于训练目标检测模型,效果优于现有方法。

  • Motivation: 获取目标检测所需的边界框标注成本高且耗时,尤其是需要领域专家参与。因此,研究如何利用更易获取的图像级标注实现高效目标检测。
  • Method: 利用预训练模型预测图像中病毒的存在与否,生成伪标签;采用优化方法和缩小感受野直接提取病毒颗粒。
  • Result: 生成的伪标签更易获取,且在标注时间有限的情况下,性能优于其他弱标注方法甚至真实标注。
  • Conclusion: 该方法显著降低了标注成本,同时保持了高性能,适用于标注资源有限的场景。

[68] CoProU-VO: Combining Projected Uncertainty for End-to-End Unsupervised Monocular Visual Odometry

Jingchao Xie,Oussema Dhaouadi,Weirong Chen,Johannes Meier,Jacques Kaiser,Daniel Cremers

Main category: cs.CV

TL;DR: 论文提出了一种名为CoProU-VO的新方法,通过跨帧不确定性传播改进视觉里程计(VO),在动态场景中表现优于现有无监督方法。

  • Motivation: 动态物体和遮挡会导致无监督视觉里程计(VO)的位姿估计错误,传统方法仅考虑单帧信息,无法有效处理跨帧不确定性。
  • Method: 提出CoProU-VO,结合目标帧和参考帧的不确定性,采用概率公式进行跨帧传播,基于视觉Transformer同时学习深度、不确定性和相机位姿。
  • Result: 在KITTI和nuScenes数据集上表现优于现有无监督单目方法,尤其在高速公路场景中表现突出。
  • Conclusion: 跨帧不确定性传播显著提升了动态场景下的VO性能,验证了方法的有效性。

[69] Uncertainty-Aware Likelihood Ratio Estimation for Pixel-Wise Out-of-Distribution Detection

Marc Hölle,Walter Kellermann,Vasileios Belagiannis

Main category: cs.CV

TL;DR: 论文提出了一种基于不确定性感知的似然比估计方法,用于区分语义分割模型中的已知和未知像素特征,显著降低了误报率。

  • Motivation: 现实自动驾驶场景中,语义分割模型常因未知物体误分类而失效,现有方法在复杂场景中表现不佳。
  • Method: 采用证据分类器结合似然比测试,明确考虑不确定性,生成概率分布而非点估计。
  • Result: 在五个标准数据集上,误报率降至2.5%,平均精度达90.91%,计算开销可忽略。
  • Conclusion: 通过不确定性建模,该方法有效提升了未知物体检测性能,适用于复杂场景。

[70] Context-based Motion Retrieval using Open Vocabulary Methods for Autonomous Driving

Stefan Englmeier,Max A. Büttner,Katharina Winter,Fabian B. Flohr

Main category: cs.CV

TL;DR: 提出了一种基于上下文感知的运动检索框架,用于自动驾驶系统中罕见人类行为的识别,结合SMPL运动序列和视频帧,通过文本查询实现高效检索。

  • Motivation: 自动驾驶系统需在涉及易受伤害道路使用者(VRUs)的复杂行为场景中可靠运行,但大规模数据集中罕见行为的检索具有挑战性。
  • Method: 结合SMPL运动序列和视频帧,编码到与自然语言对齐的多模态嵌入空间,支持文本查询检索。
  • Result: 在WayMoCo数据集上,运动-上下文检索准确率比现有最优模型高27.5%。
  • Conclusion: 提出的框架为自动驾驶系统提供了高效的人类行为检索方法,显著提升了罕见场景的识别能力。

[71] A Novel Modeling Framework and Data Product for Extended VIIRS-like Artificial Nighttime Light Image Reconstruction (1986-2024)

Yihe Tian,Kwan Man Cheng,Zhengbo Zhang,Tao Zhang,Suju Li,Dongmei Yan,Bing Xu

Main category: cs.CV

TL;DR: 论文提出了一种新的夜间灯光(NTL)重建框架EVAL,解决了现有方法低估光强和结构缺失的问题,将时间序列扩展至1986年,显著提升了精度。

  • Motivation: 现有NTL数据时间覆盖有限(始于2012年),且现有方法存在光强低估和结构缺失的不足,限制了长期时间序列研究。
  • Method: 提出两阶段重建框架:构建阶段使用分层融合解码器(HFD)提高初始重建保真度;细化阶段采用双特征细化器(DFR),利用高分辨率不透水面掩膜增强细节。
  • Result: 开发的EVAL产品将时间序列扩展至1986年,R²从0.68提升至0.80,RMSE从1.27降至0.99,具有优异的时间一致性和社会经济参数相关性。
  • Conclusion: EVAL为研究社区提供了可靠的长期分析资源,公开可用。

[72] Wukong Framework for Not Safe For Work Detection in Text-to-Image systems

Mingrui Liu,Sixiao Zhang,Cheng Long

Main category: cs.CV

TL;DR: Wukong是一个基于Transformer的NSFW检测框架,利用早期去噪步骤的中间输出和预训练的U-Net跨注意力参数,显著优于文本过滤器,与图像过滤器精度相当但效率更高。

  • Motivation: 现有的外部安全措施(文本过滤器和图像过滤器)存在效率低或易受攻击的问题,需要一种更高效准确的NSFW检测方法。
  • Method: 利用扩散模型早期去噪步骤的语义布局和U-Net跨注意力层,提出Wukong框架,结合新数据集进行训练和评估。
  • Result: Wukong在NSFW检测上显著优于文本过滤器,与图像过滤器精度相当,同时效率更高。
  • Conclusion: Wukong提供了一种高效准确的NSFW检测方法,适用于现代T2I系统。

[73] GeoMoE: Divide-and-Conquer Motion Field Modeling with Mixture-of-Experts for Two-View Geometry

Jiajun Le,Jiayi Ma

Main category: cs.CV

TL;DR: GeoMoE提出了一种基于Mixture-of-Experts的框架,用于处理两视图几何中的异构运动模式,通过分解和专家定制建模提升运动场估计的精度。

  • Motivation: 现有方法在复杂场景中难以处理异构运动模式,导致运动场估计偏离真实结构。
  • Method: 采用概率先验引导分解策略和MoE增强的双路径校正器,分解运动场并定制专家建模。
  • Result: GeoMoE在相对位姿和单应性估计中优于现有方法,并表现出强泛化能力。
  • Conclusion: GeoMoE通过简洁设计有效解决了异构运动模式的建模问题,提升了运动场估计的准确性。

[74] DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior

Junzhe Lu,Jing Lin,Hongkun Dou,Ailing Zeng,Yue Deng,Xian Liu,Zhongang Cai,Lei Yang,Yulun Zhang,Haoqian Wang,Ziwei Liu

Main category: cs.CV

TL;DR: DPoser-X是一种基于扩散模型的3D全身人体姿态先验模型,通过变分扩散采样解决姿态任务,结合截断时间步调度和掩码训练机制,显著提升了性能。

  • Motivation: 构建多功能且鲁棒的全身人体姿态先验模型面临姿态复杂性和高质量数据集稀缺的挑战。
  • Method: 采用扩散模型(DPoser)并扩展为DPoser-X,提出截断时间步调度和掩码训练机制,结合全身和局部数据集。
  • Result: 在多个基准测试中表现优异,优于现有方法,为全身姿态建模设定了新标准。
  • Conclusion: DPoser-X展示了在全身人体姿态建模中的鲁棒性和多功能性,成为新的先验模型基准。

[75] Backdoor Attacks on Deep Learning Face Detection

Quentin Le Roux,Yannick Teglia,Teddy Furon,Philippe Loubet-Moundi

Main category: cs.CV

TL;DR: 论文研究了人脸检测系统中的漏洞,提出了一种新的攻击方法(Landmark Shift Attack),并提供了防御措施。

  • Motivation: 在无约束环境中,人脸识别系统面临光照、姿态等挑战,需要依赖人脸检测模块。然而,这些模块可能受到攻击,因此研究其脆弱性并提出防御方法至关重要。
  • Method: 通过Face Generation Attacks(特别是Landmark Shift Attack)攻击人脸检测模块的坐标回归任务。
  • Result: 首次展示了Landmark Shift Attack对坐标回归任务的后门攻击效果。
  • Conclusion: 论文揭示了人脸检测系统的脆弱性,并提出了相应的防御措施。

[76] Minimum Data, Maximum Impact: 20 annotated samples for explainable lung nodule classification

Luisa Gallée,Catharina Silvia Lisson,Christoph Gerhard Lisson,Daniela Drees,Felix Weig,Daniel Vogele,Meinrad Beer,Michael Götz

Main category: cs.CV

TL;DR: 论文提出了一种通过生成模型合成属性标注数据的方法,以解决医学图像中属性标注数据稀缺的问题,从而提高可解释模型的性能。

  • Motivation: 增强医学图像诊断中分类模型的可解释性,使其更符合临床推理,提升医生的信任度和可用性。
  • Method: 利用增强的Diffusion Model生成属性标注数据,仅需少量真实标注样本(如20个肺结节样本),并将生成数据用于训练可解释模型。
  • Result: 合成数据的加入使属性预测准确率提升13.4%,目标预测准确率提升1.8%。
  • Conclusion: 合成数据能够有效缓解医学图像数据稀缺问题,提升可解释模型在医学图像分析中的适用性。

[77] Revisiting Adversarial Patch Defenses on Object Detectors: Unified Evaluation, Large-Scale Dataset, and New Insights

Junhao Zheng,Jiahao Sun,Chenhao Lin,Zhengyu Zhao,Chen Ma,Chong Zhang,Cong Wang,Qian Wang,Chao Shen

Main category: cs.CV

TL;DR: 该论文提出了首个针对目标检测器补丁攻击的防御基准,通过大规模数据集和综合分析揭示了防御性能的新见解。

  • Motivation: 现有防御评估缺乏统一和全面的框架,导致对当前方法的评估不一致且不完整。
  • Method: 重新评估了11种代表性防御方法,构建了包含2种攻击目标、13种补丁攻击、11种目标检测器和4种多样指标的首个补丁防御基准。
  • Result: 发现自然补丁防御的难点在于数据分布而非高频特性;新数据集可提升现有防御性能15.09%;自适应攻击能显著绕过现有防御。
  • Conclusion: 研究为补丁攻击/防御的评估和设计提供了指导,并开源了代码和数据集。

[78] Can Large Pretrained Depth Estimation Models Help With Image Dehazing?

Hongfei Zhang,Kun Zhou,Ruizheng Wu,Jiangbo Lu

Main category: cs.CV

TL;DR: 论文研究了预训练深度表示在图像去雾中的泛化能力,提出了一种即插即用的RGB-D融合模块,适用于多种去雾架构。

  • Motivation: 解决现有去雾方法因架构特定设计而难以适应不同场景需求的问题。
  • Method: 利用预训练的深度表示,设计了一个RGB-D融合模块,可灵活集成到不同去雾架构中。
  • Result: 实验证明该方法在多个基准测试中有效且具有广泛适用性。
  • Conclusion: 预训练的深度表示在图像去雾中具有显著一致性,提出的RGB-D融合模块提升了方法的通用性和效果。

[79] D3: Training-Free AI-Generated Video Detection Using Second-Order Features

Chende Zheng,Ruiqi suo,Chenhao Lin,Zhengyu Zhao,Le Yang,Shuai Liu,Minghui Yang,Cong Wang,Chao Shen

Main category: cs.CV

TL;DR: 论文提出了一种基于二阶动力学分析的训练免费检测方法D3,用于识别AI生成视频中的时间伪影,并在多个数据集上验证了其优越性。

  • Motivation: 现有检测方法对合成视频中的时间伪影探索不足,导致检测效果有限。
  • Method: 通过牛顿力学下的二阶动力学分析建立理论框架,并扩展了针对时间伪影检测的二阶中心差分特征。
  • Result: 在4个开源数据集上验证了D3的优越性,例如在Gen-Video上比之前最佳方法提高了10.39%的平均精度。
  • Conclusion: D3具有出色的计算效率和鲁棒性能,为AI生成视频检测提供了有效解决方案。

[80] MIHBench: Benchmarking and Mitigating Multi-Image Hallucinations in Multimodal Large Language Models

Jiale Li,Mingrui Wu,Zixiang Jin,Hao Chen,Jiayi Ji,Xiaoshuai Sun,Liujuan Cao,Rongrong Ji

Main category: cs.CV

TL;DR: 该论文首次系统研究了多图像多模态大语言模型(MLLMs)中的幻觉现象,并提出了专门用于评估多图像场景中对象相关幻觉的基准MIHBench。通过实验,论文发现多图像幻觉的关键因素,并提出动态注意力平衡机制以减少幻觉。

  • Motivation: 现有研究主要关注单图像场景中的幻觉,多图像场景中的幻觉现象尚未被充分探索,因此需要填补这一研究空白。
  • Method: 提出MIHBench基准,包含三个核心任务,用于评估多图像场景中的对象相关幻觉。通过实验分析关键因素,并提出动态注意力平衡机制。
  • Result: 实验发现多图像幻觉与图像输入数量、单图像幻觉倾向等因素相关,提出的动态注意力平衡机制能有效减少幻觉并提升语义整合能力。
  • Conclusion: 该研究填补了多图像MLLMs中幻觉研究的空白,提出的方法和基准为未来研究提供了重要工具。

[81] YOLO-Count: Differentiable Object Counting for Text-to-Image Generation

Guanning Zeng,Xiang Zhang,Zirui Wang,Haiyang Xu,Zeyuan Chen,Bingnan Li,Zhuowen Tu

Main category: cs.CV

TL;DR: YOLO-Count是一个可微分的开放词汇对象计数模型,解决了通用计数问题,并为文本到图像生成提供精确数量控制。

  • Motivation: 解决开放词汇计数与文本到图像生成控制之间的差距,提升对象计数的准确性和生成模型的精细控制。
  • Method: 提出'cardinality'映射作为回归目标,结合表示对齐和强弱监督混合方案,采用全可微分架构。
  • Result: 在实验中达到最先进的计数准确性,并为文本到图像系统提供鲁棒的数量控制。
  • Conclusion: YOLO-Count在开放词汇计数和生成模型控制方面表现出色,具有实际应用潜力。

[82] Rethinking Backbone Design for Lightweight 3D Object Detection in LiDAR

Adwait Chandorkar,Hasan Tercan,Tobias Meisen

Main category: cs.CV

TL;DR: 论文提出了一种轻量级骨干网络Dense Backbone,用于LiDAR点云数据的3D目标检测,显著降低了计算成本,同时保持了高检测精度。

  • Motivation: 现有的3D目标检测方法多依赖复杂骨干网络(如VGG或ResNet),增加了模型复杂度。轻量级骨干网络在2D目标检测中已有研究,但在3D领域仍有限。
  • Method: 提出Dense Backbone,结合高处理速度、轻量架构和鲁棒检测精度,并适配多种现有3D检测器(如PillarNet)。
  • Result: DensePillarNet在nuScenes测试集上减少了29%的模型参数和28%的延迟,仅损失2%的检测精度。
  • Conclusion: Dense Backbone的即插即用设计使其易于集成到现有架构中,无需修改其他网络组件。

[83] GECO: Geometrically Consistent Embedding with Lightspeed Inference

Regine Hartwig,Dominik Muhle,Riccardo Marin,Daniel Cremers

Main category: cs.CV

TL;DR: GECO提出了一种基于最优传输的训练框架,生成几何一致的特征,显著提升了语义对应任务的性能,并引入了新的几何感知评估指标。

  • Motivation: 现有的自监督视觉基础模型在语义对应任务中缺乏对3D几何的感知,GECO旨在填补这一空白。
  • Method: 采用最优传输的训练框架,生成几何一致的特征,支持遮挡和去遮挡情况下的监督。
  • Result: GECO在PFPascal、APK和CUB数据集上分别提升了6.0%、6.2%和4.1%的PCK,运行速度达到30 fps,比现有方法快98.2%。
  • Conclusion: GECO不仅提升了性能,还揭示了PCK指标的局限性,并提出了更全面的几何感知评估方法。

[84] Is It Really You? Exploring Biometric Verification Scenarios in Photorealistic Talking-Head Avatar Videos

Laura Pedrouzo-Rodriguez,Pedro Delgado-DeRobles,Luis F. Gomez,Ruben Tolosana,Ruben Vera-Rodriguez,Aythami Morales,Julian Fierrez

Main category: cs.CV

TL;DR: 论文探讨了在逼真虚拟头像中利用面部运动模式作为行为生物特征进行身份验证的可行性,并提出了一种轻量级的时空图卷积网络架构。

  • Motivation: 随着虚拟头像在虚拟会议和社交平台中的普及,其带来的安全风险(如冒充攻击)日益突出,亟需可靠的身份验证方法。
  • Method: 使用GAGAvatar生成真实与冒充头像视频数据集,提出基于面部关键点的时空图卷积网络架构,结合时间注意力池化。
  • Result: 实验显示面部运动特征可实现有效身份验证,AUC值接近80%。
  • Conclusion: 研究强调了在虚拟头像通信系统中开发更先进行为生物特征防御的紧迫性,并提供了公开数据集和系统。

[85] SU-ESRGAN: Semantic and Uncertainty-Aware ESRGAN for Super-Resolution of Satellite and Drone Imagery with Fine-Tuning for Cross Domain Evaluation

Prerana Ramkumar

Main category: cs.CV

TL;DR: SU-ESRGAN是一种针对卫星图像的SR框架,结合了ESRGAN、DeepLabv3分割损失和蒙特卡洛dropout,提供语义一致性和像素级不确定性,适用于无人机和卫星系统。

  • Motivation: GANs在图像超分辨率中缺乏语义一致性和像素级置信度,限制了其在遥感关键应用中的可信度。
  • Method: 提出SU-ESRGAN,整合ESRGAN、DeepLabv3分割损失和蒙特卡洛dropout,生成像素级不确定性图。
  • Result: 在PSNR、SSIM和LPIPS指标上与基线ESRGAN相当,适用于无人机和卫星系统。
  • Conclusion: SU-ESRGAN在跨域应用中表现良好,强调领域感知训练的重要性。

[86] Sample-Aware Test-Time Adaptation for Medical Image-to-Image Translation

Irene Iele,Francesco Di Feola,Valerio Guarrasi,Paolo Soda

Main category: cs.CV

TL;DR: 提出了一种动态调整的测试时适应(TTA)框架,用于解决医学图像转换中分布外样本的性能下降问题。

  • Motivation: 现有图像转换技术在处理分布外样本时性能下降,需要一种动态适应方法。
  • Method: 引入重建模块量化域偏移,并通过动态适应块选择性修改预训练模型的内部特征。
  • Result: 在低剂量CT去噪和T1到T2 MRI转换任务中表现优于基线模型和现有TTA方法。
  • Conclusion: 动态样本特定调整是提高模型在真实场景中鲁棒性的有效途径。

[87] Zero-Shot Anomaly Detection with Dual-Branch Prompt Learning

Zihan Wang,Samira Ebrahimi Kahou,Narges Armanfard

Main category: cs.CV

TL;DR: PILOT框架通过双分支提示学习和无标签测试时适应策略,解决了零样本异常检测在域转移下的泛化问题,并在多个基准测试中表现优异。

  • Motivation: 现有零样本异常检测方法在域转移下表现不佳,因其训练数据有限且难以泛化到新分布。
  • Method: PILOT采用双分支提示学习机制动态整合可学习提示与语义属性,并结合无标签测试时适应策略更新提示参数。
  • Result: 在13个工业和医学基准测试中,PILOT在域转移下的异常检测和定位性能达到最优。
  • Conclusion: PILOT通过创新机制显著提升了零样本异常检测在域转移下的性能。

[88] Cross-Dataset Semantic Segmentation Performance Analysis: Unifying NIST Point Cloud City Datasets for 3D Deep Learning

Alexander Nikitas Dimopoulos,Joseph Grasso

Main category: cs.CV

TL;DR: 研究分析了异构标记点云数据集在公共安全应用中的语义分割性能,发现几何较大的对象分割效果较好,而较小的安全关键特征识别率较低。

  • Motivation: 探讨如何统一不同标记的3D数据,以提升公共安全应用中的点云语义分割性能。
  • Method: 采用分级标注方案和KPConv架构,通过IoU指标评估性能。
  • Result: 几何较大的对象(如楼梯、窗户)分割效果较好,但较小的安全关键特征识别率较低,受限于类别不平衡和几何区分度不足。
  • Conclusion: 公共安全领域的可靠点云语义分割需要标准化标注协议和改进的标记技术,以解决数据异构性和小目标检测问题。

[89] IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

Wenxuan Guo,Xiuwei Xu,Hang Yin,Ziwei Wang,Jianjiang Feng,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: IGL-Nav提出了一种基于3D高斯表示的增量式图像目标导航框架,通过粗定位和细优化结合,显著提升了导航效率和准确性。

  • Motivation: 传统方法无法充分建模3D环境与目标图像之间的几何关系,且计算效率低,因此需要一种更高效、3D感知的导航方法。
  • Method: 采用增量式3D高斯表示更新场景,结合粗定位(离散空间匹配)和细优化(可微渲染)实现高效导航。
  • Result: IGL-Nav在多种实验配置下显著优于现有方法,并能处理自由视角图像目标导航。
  • Conclusion: IGL-Nav为图像目标导航提供了一种高效、3D感知的解决方案,适用于实际机器人平台。

cs.CL

[90] Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications

Wenxuan Wang,Zizhan Ma,Meidan Ding,Shiyi Zheng,Shengyuan Liu,Jie Liu,Jiaming Ji,Wenting Chen,Xiang Li,Linlin Shen,Yixuan Yuan

Main category: cs.CL

TL;DR: 本文系统综述了大型语言模型(LLMs)在医学推理领域的发展,提出了训练时和测试时的增强技术分类,并分析了其在多模态数据和临床应用中的表现。

  • Motivation: 尽管LLMs在医学中表现出色,但其缺乏系统、透明和可验证的推理能力,这是临床实践的核心需求。
  • Method: 通过分析60项研究(2022-2025),提出了训练时(如监督微调)和测试时(如提示工程)的推理增强技术分类。
  • Result: 研究发现,评估标准从简单准确性发展为对推理质量和视觉可解释性的复杂评估。
  • Conclusion: 未来需解决忠实性与合理性之间的差距,并发展高效、稳健且负责任的医学AI。

cs.NE

[91] STF: Shallow-Level Temporal Feedback to Enhance Spiking Transformers

Zeqi Zheng,Zizheng Zhu,Yingchao Yu,Yanchen Huang,Changze Lv,Junfeng Tang,Zhaofei Yu,Yaochu Jin

Main category: cs.NE

TL;DR: 论文提出了一种轻量级的浅层时间反馈模块(STF),用于提升基于Transformer的脉冲神经网络(SNN)在静态数据集上的性能,解决了现有方法因深层反馈导致的效率问题。

  • Motivation: 现有的基于Transformer的SNN因脉冲序列的二进制特性与浮点ANN存在性能差距,而深层反馈设计又带来高计算成本和延迟。
  • Method: 提出STF模块,包含时空位置嵌入(TSPE)和时间反馈(TF),轻量且即插即用。
  • Result: 实验表明STF在多种Transformer-based SNN上显著提升性能,增强脉冲模式多样性,并在对抗鲁棒性和时间敏感性上优于直接编码。
  • Conclusion: STF是一种高效的脉冲编码方案,适用于静态场景,代码将公开。

q-bio.NC

[92] The Repeated-Stimulus Confound in Electroencephalography

Jack A. Kilgallen,Barak A. Pearlmutter,Jeffrey Mark Siskind

Main category: q-bio.NC

TL;DR: 论文指出在神经解码研究中,重复使用相同刺激物训练和评估模型会导致性能高估,称为“重复刺激混淆”,并量化了其对结果的影响。

  • Motivation: 研究动机是揭示神经解码研究中因重复使用相同刺激物导致的性能高估问题,并评估其对文献中结果的影响。
  • Method: 方法包括识别受影响的数据集和出版物,使用这些研究中的模型进行实验,量化性能高估的程度,并探讨混淆在其他情境下的影响。
  • Result: 结果显示,受影响的模型解码准确率被高估了4.46-7.42%,且每增加1%的准确率,高估程度增加0.26%。
  • Conclusion: 结论是重复刺激混淆不仅导致性能高估,还削弱了相关研究的有效性,甚至可能被用于支持伪科学主张。

cs.LG

[93] Stress-Aware Resilient Neural Training

Ashkan Shakarami,Yousef Yeganeh,Azade Farshad,Lorenzo Nicole,Stefano Ghidoni,Nassir Navab

Main category: cs.LG

TL;DR: 本文提出了一种名为Stress-Aware Learning的弹性神经训练范式,通过动态调整优化行为来提升深度神经网络的鲁棒性和泛化能力。

  • Motivation: 受材料科学中结构疲劳的启发,旨在解决深度神经网络在训练过程中遇到的优化停滞问题。
  • Method: 提出Plastic Deformation Optimizer,通过自适应噪声注入模型参数,帮助模型逃离尖锐极小值,收敛到更平坦的损失区域。
  • Result: 在六种架构、四种优化器和七个视觉基准测试中验证了方法的鲁棒性和泛化能力,且计算开销极小。
  • Conclusion: Stress-Aware Learning为深度神经网络提供了一种高效的训练范式,显著提升了模型的性能。

[94] Towards Higher Effective Rank in Parameter-efficient Fine-tuning using Khatri--Rao Product

Paul Albert,Frederic Z. Zhang,Hemanth Saratchandran,Anton van den Hengel,Ehsan Abbasnejad

Main category: cs.LG

TL;DR: 论文比较了低秩适应(LoRA)和全秩PEFT方法,发现LoRA在近似高有效秩矩阵时表现不佳,提出了一种新的PEFT算法KRAdapter,通过Khatri-Rao乘积生成权重更新,性能优于LoRA。

  • Motivation: 研究LoRA在适应多模态和大语言模型时的局限性,并提出更高效的PEFT方法。
  • Method: 使用合成矩阵近似基准进行定量比较,提出KRAdapter算法,利用Khatri-Rao乘积生成高有效秩的权重更新。
  • Result: KRAdapter在视觉语言模型和大型语言模型上表现优于LoRA,尤其在未见过的常识推理任务中。
  • Conclusion: KRAdapter是一种高效且实用的PEFT方法,适用于十亿级参数模型的微调。

cs.RO

[95] UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents

Jianqiang Xiao,Yuexuan Sun,Yixin Shao,Boxi Gan,Rongqiang Liu,Yanjing Wu,Weili Gua,Xiang Deng

Main category: cs.RO

TL;DR: 论文提出UAV-ON基准,用于无人机在开放环境中的目标导航,摆脱传统依赖语言指令的范式,强调语义目标驱动的自主性。

  • Motivation: 现有空中导航研究依赖语言指令(如VLN),限制了可扩展性和自主性。UAV-ON旨在填补这一空白,推动无人机在复杂环境中的语义目标导航研究。
  • Method: 提出UAV-ON基准,包含14个高保真环境和1270个目标对象,通过实例级语义指令定义目标。开发模块化策略AOA,结合语义目标与感知数据。
  • Result: 基线方法在UAV-ON上表现不佳,突显了空中导航与语义目标结合的挑战。
  • Conclusion: UAV-ON为无人机在复杂环境中的语义目标导航提供了新基准,推动了相关研究的发展。

[96] Omni-Scan: Creating Visually-Accurate Digital Twin Object Models Using a Bimanual Robot with Handover and Gaussian Splat Merging

Tianshuang Qiu,Zehan Ma,Karim El-Refai,Hiya Shah,Chung Min Kim,Justin Kerr,Ken Goldberg

Main category: cs.RO

TL;DR: Omni-Scan是一种利用双手机器人抓取并旋转物体以生成高质量3D高斯溅射模型的管道,支持360度视图,应用于零件缺陷检测。

  • Motivation: 传统3D对象扫描方法受限于工作空间和设备,Omni-Scan旨在通过机器人抓取和旋转物体解决这一问题。
  • Method: 使用双手机器人抓取物体并旋转,结合DepthAnything、Segment Anything和RAFT光流模型去除背景和夹持器遮挡,改进3DGS训练管道。
  • Result: 在12种工业和家用物体上检测视觉或几何缺陷的平均准确率为83%。
  • Conclusion: Omni-Scan提供了一种高效且灵活的3D对象扫描方法,适用于多种应用场景。

[97] On-Device Diffusion Transformer Policy for Efficient Robot Manipulation

Yiming Wu,Huan Wang,Zhenghao Chen,Jianxin Pang,Dong Xu

Main category: cs.RO

TL;DR: LightDP是一种专为移动设备设计的框架,通过压缩去噪模块和减少采样步骤,显著提升了Diffusion Policies的计算效率,实现了实时动作预测。

  • Motivation: Diffusion Policies在机器人操作任务中表现优异,但在资源受限的移动平台上部署时面临计算效率低和内存占用高的问题。
  • Method: LightDP采用网络压缩和采样步骤减少策略,包括统一的剪枝和再训练流程,并结合一致性蒸馏技术。
  • Result: 实验表明,LightDP在多个标准数据集上实现了实时动作预测,性能与现有Diffusion Policies相当。
  • Conclusion: LightDP为资源受限环境下部署基于扩散的策略提供了实用解决方案。

eess.IV

[98] CADS: A Comprehensive Anatomical Dataset and Segmentation for Whole-Body Anatomy in Computed Tomography

Murong Xu,Tamaz Amiranashvili,Fernando Navarro,Maksym Fritsak,Ibrahim Ethem Hamamci,Suprosanna Shit,Bastian Wittmann,Sezgin Er,Sebastian M. Christ,Ezequiel de la Rosa,Julian Deseoe,Robert Graf,Hendrik Möller,Anjany Sekuboyina,Jan C. Peeken,Sven Becker,Giulia Baldini,Johannes Haubold,Felix Nensa,René Hosch,Nikhil Mirajkar,Saad Khalid,Stefan Zachow,Marc-André Weber,Georg Langs,Jakob Wasserthal,Mehmet Kemal Ozdemir,Andrey Fedorov,Ron Kikinis,Stephanie Tanadini-Lang,Jan S. Kirschke,Stephanie E. Combs,Bjoern Menze

Main category: eess.IV

TL;DR: CADS是一个开源框架,专注于整合和标准化异构数据源,用于全身CT分割,提供了一个大规模数据集和模型,显著提升了分割性能和临床实用性。

  • Motivation: 当前AI分割方法通常针对单个结构,导致模型碎片化和评估不一致。CADS旨在通过系统整合数据,解决现有全身CT分割方法在数据异质性和解剖覆盖方面的不足。
  • Method: 提出CADS框架,整合22,022个CT扫描的大规模数据集,标注167个解剖结构,并基于此开发CADS模型。
  • Result: 在18个公共数据集和真实医院队列中表现优于现有方法,尤其在放射肿瘤学分割任务中验证了临床实用性。
  • Conclusion: 通过公开数据集、模型和临床工具,CADS推动了放射学中稳健AI解决方案的发展,并为临床和研究提供了全面的解剖分析工具。

[99] GEPAR3D: Geometry Prior-Assisted Learning for 3D Tooth Segmentation

Tomasz Szczepański,Szymon Płotka,Michal K. Grzeszczyk,Arleta Adamowicz,Piotr Fudalej,Przemysław Korzeniowski,Tomasz Trzciński,Arkadiusz Sitek

Main category: eess.IV

TL;DR: GEPAR3D是一种新颖的牙齿分割方法,结合实例检测和多类分割,显著提高了CBCT中牙齿根尖的精细分割效果。

  • Motivation: CBCT中的牙齿分割(尤其是根尖)对正畸治疗中的根吸收评估至关重要,但现有方法难以处理精细结构。
  • Method: GEPAR3D结合统计形状模型作为几何先验,并采用深度分水岭方法,将每个牙齿建模为3D能量盆地。
  • Result: 在多个测试集上,GEPAR3D的平均Dice相似系数达95.0%,召回率提高9.5%,显著优于其他方法。
  • Conclusion: GEPAR3D在牙齿分割中表现出色,有望提升临床决策准确性,代码和数据集已开源。

[100] Weakly Supervised Intracranial Aneurysm Detection and Segmentation in MR angiography via Multi-task UNet with Vesselness Prior

Erin Rainville,Amirhossein Rasoulian,Hassan Rivaz,Yiming Xiao

Main category: eess.IV

TL;DR: 提出了一种弱监督3D多任务UNet模型,结合血管先验知识,用于颅内动脉瘤的检测和分割,性能优于现有技术。

  • Motivation: 颅内动脉瘤(IAs)在影像中难以准确检测和分析,且缺乏标注数据,需要高效算法支持临床诊断。
  • Method: 使用Frangi血管过滤器生成软血管先验,结合多任务UNet进行检测和分割。
  • Result: 在Lausanne和ADAM数据集上表现优异(分割Dice=0.614,检测灵敏度=92.9%)。
  • Conclusion: 该方法在动脉瘤检测和分割中表现出色,具有临床潜力。

[101] Diffusion-Based User-Guided Data Augmentation for Coronary Stenosis Detection

Sumin Seo,In Kyu Lee,Hyun-Woo Kim,Jaesik Min,Chung-Hwan Jung

Main category: eess.IV

TL;DR: 提出了一种基于扩散模型的数据增强方法,用于生成逼真的冠状动脉狭窄病变,以解决标签数据不足和类别不平衡问题。

  • Motivation: 冠状动脉狭窄是缺血性心脏事件的主要风险因素,传统医疗分析耗时且劳动密集,深度学习虽具潜力,但受限于数据不足和类别不平衡。
  • Method: 采用扩散模型的修复方法生成用户可控严重程度的病变,增强数据集。
  • Result: 在多种合成数据集规模下,方法在病变检测和严重程度分类上表现优异,尤其在数据有限时仍保持高性能。
  • Conclusion: 该方法显著提升了狭窄严重程度评估的可靠性,优化了数据利用,具有重要临床意义。

[102] FMPlug: Plug-In Foundation Flow-Matching Priors for Inverse Problems

Yuxiang Wan,Ryan Devera,Wenjie Zhang,Ju Sun

Main category: eess.IV

TL;DR: FMPlug是一个新颖的插件框架,通过利用相似性和高斯性增强基础流匹配先验,解决不适定逆问题,性能优于现有方法。

  • Motivation: 传统方法依赖领域特定或无训练先验,FMPlug通过通用基础模型提升性能。
  • Method: 引入时间自适应预热策略和高斯性正则化,利用相似性和高斯性。
  • Result: 在图像超分辨率和高斯去模糊任务中显著优于现有方法。
  • Conclusion: FMPlug展示了通用基础模型在逆问题中的潜力。

[103] AI-Driven Collaborative Satellite Object Detection for Space Sustainability

Peng Hu,Wenxuan Zhang

Main category: eess.IV

TL;DR: 论文提出了一种基于卫星集群的深度学习空间物体检测方法,优化了检测性能并降低了资源消耗。

  • Motivation: 低地球轨道卫星密度增加导致碰撞风险上升,传统地面跟踪系统存在延迟和覆盖限制,需要星载视觉检测能力。
  • Method: 提出卫星集群框架,构建高保真数据集,引入距离感知视角选择策略,评估深度学习模型。
  • Result: 集群方法在检测精度上具有竞争力,同时保持低资源消耗。
  • Conclusion: 分布式AI星载系统有望提升空间态势感知能力,促进长期空间可持续性。

cs.GR

[104] Occlusion-robust Stylization for Drawing-based 3D Animation

Sunjae Yoon,Gwanhyeong Koo,Younghwan Lee,Ji Woo Hong,Chang D. Yoo

Main category: cs.GR

TL;DR: 论文提出了一种用于基于绘图的3D动画的遮挡鲁棒风格化框架(OSF),解决了现有方法在遮挡情况下风格属性退化的问题。

  • Motivation: 现有方法在训练和推理时存在风格化姿态差距,导致在遮挡情况下风格属性(如轮廓和笔触)退化。
  • Method: 提出OSF框架,利用光流提供遮挡鲁棒的边缘引导,确保风格一致性,并采用单阶段方法提升效率。
  • Result: OSF在遮挡情况下保持风格一致性,推理速度提升2.4倍,内存减少2.1倍。
  • Conclusion: OSF有效解决了风格化姿态差距问题,提升了基于绘图的3D动画的质量和效率。

[105] SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation

Kien T. Pham,Yingqing He,Yazhou Xing,Qifeng Chen,Long Chen

Main category: cs.GR

TL;DR: SpA2V是一个音频驱动视频生成框架,通过利用音频中的空间和语义线索生成高质量视频。

  • Motivation: 现有方法主要关注语义信息,忽略了音频中的空间属性(如位置和运动方向),而人类能够自然识别这些信息。
  • Method: SpA2V分为两个阶段:1)音频引导的视频规划,生成视频场景布局(VSL);2)布局引导的视频生成,利用预训练扩散模型生成视频。
  • Result: 实验表明,SpA2V能够生成与输入音频在语义和空间上对齐的逼真视频。
  • Conclusion: SpA2V通过利用音频的空间线索,显著提升了视频生成的准确性和真实性。

cs.AI

[106] CoRGI: Verified Chain-of-Thought Reasoning with Visual Grounding

Shixin Yi,Lin Shang

Main category: cs.AI

TL;DR: CoRGI框架通过引入视觉验证机制,改进了视觉语言模型中的推理过程,减少了幻觉现象,并在实验中提升了性能。

  • Motivation: 解决视觉语言模型在推理过程中产生的幻觉问题,即解释流畅但缺乏视觉依据。
  • Method: 提出CoRGI框架,包含文本推理链生成、视觉证据提取和综合验证三个阶段。
  • Result: 在VCR基准测试中,CoRGI提升了Qwen-2.5VL和LLaVA-1.6的性能,并通过人类评估验证了其解释的准确性和实用性。
  • Conclusion: 视觉验证对增强多模态推理的鲁棒性至关重要,CoRGI展示了其有效性,但也指出了后验验证框架的潜在限制。

hep-ph

[107] Jet Image Generation in High Energy Physics Using Diffusion Models

Victor D. Martinez,Vidya Manian,Sudhir Malik

Main category: hep-ph

TL;DR: 本文首次将扩散模型应用于生成大型强子对撞机质子-质子碰撞事件的喷注图像,比较了基于分数的扩散模型和一致性模型的性能,发现后者在生成质量和稳定性上更优。

  • Motivation: 研究旨在探索扩散模型在高能物理中生成喷注图像的应用,以改进计算效率和生成准确性。
  • Method: 将喷注的动力学变量映射为二维图像,训练扩散模型学习喷注成分的空间分布,并比较基于分数的扩散模型和一致性模型的性能。
  • Result: 一致性模型在生成质量和稳定性上优于基于分数的扩散模型,FID指标显示其具有更高的保真度。
  • Conclusion: 该方法为高能物理研究提供了高效且准确的工具,一致性模型表现更优。

cs.SD

[108] AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

Le Wang,Jun Wang,Feng Deng,Chen Zhang,Kun Gai,Di Zhang

Main category: cs.SD

TL;DR: AudioGen-Omni是一个基于多模态扩散变换器(MMDit)的统一方法,能够生成与输入视频同步的高保真音频、语音和歌曲。

  • Motivation: 解决现有方法在生成多样化音频时语义对齐和跨模态条件限制的问题。
  • Method: 采用联合训练范式,结合大规模视频-文本-音频数据,使用统一的歌词-转录编码器和PAAPI增强的注意力机制。
  • Result: 在音频质量、语义对齐和唇同步准确性上表现优异,并在多项任务中达到SOTA效果。
  • Conclusion: AudioGen-Omni在效率和通用性上均有显著提升,适用于广泛的音频生成任务。