Skip to content
每日arXiv - 2026年1月14日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Edge-AI Perception Node for Cooperative Road-Safety Enforcement and Connected-Vehicle Integration

Shree Charran R,Rahul Kumar Dubey

Main category: cs.CV

TL;DR: 本文提出了一种基于边缘AI的实时路边感知节点,用于多类交通违规分析和安全事件传播,部署在NVIDIA Jetson Nano上,实现高效能违规检测和车牌识别。

  • Motivation: 印度等新兴经济体的快速机动化导致严重执法不对称,2023年记录违规超过1100万起,而警力密度仅为每4000辆车一名警官。传统监控和人工罚单无法应对这种规模,需要自主、协作且节能的边缘AI感知基础设施。
  • Method: 系统集成YOLOv8 Nano进行高精度多目标检测,DeepSORT实现时间一致的车辆跟踪,以及基于规则的OCR后处理引擎识别符合标准的车牌。部署在NVIDIA Jetson Nano上,通过TensorRT FP16量化优化,无需手动校准感兴趣区域。
  • Result: 系统在9.6W功耗下维持28-30FPS推理,实现97.7%违规检测准确率和84.9%OCR精度,涵盖信号跳跃、斑马线违规、逆行、非法掉头和超速五类违规。相比其他模型,平均精度提升10.7%,每瓦精度提高1.4倍。
  • Conclusion: 路边边缘AI分析可通过V2X协议向联网车辆和智能交通系统发布标准化安全事件,增强协作感知和主动道路安全管理,证明其在IEEE智能车辆生态系统中的价值。

[2] An Empirical Study on Knowledge Transfer under Domain and Label Shifts in 3D LiDAR Point Clouds

Subeen Lee,Siyeong Lee,Namil Kim,Jaesik Choi

Main category: cs.CV

TL;DR: 该论文提出了ROAD基准测试,用于评估LiDAR点云分类在同时面临域偏移和标签演化时的持续学习能力,填补了3D感知中持续学习研究的空白。

  • Motivation: 现实世界中的3D感知系统需要适应不断变化的对象定义和传感器域,但目前3D点云感知中的持续学习和迁移学习研究相对不足,特别是在同时面临域偏移和标签变化的情况下。
  • Method: 提出了ROAD基准测试,专门针对LiDAR点云分类设计,考虑了域偏移以及三种标签演化形式:类别分割、类别扩展和类别插入。使用大规模数据集(Waymo、NuScenes、Argoverse2)评估零样本迁移、线性探测和持续学习方法。
  • Result: 评估发现现有方法在现实偏移下存在局限性,为未来稳健3D感知研究建立了强基线。分析了骨干架构、训练目标和持续学习方法的影响。
  • Conclusion: ROAD基准测试填补了3D点云感知中持续学习研究的空白,揭示了现有方法在现实场景中的局限性,为开发更稳健的3D感知系统提供了重要基础。

[3] Moonworks Lunara Aesthetic Dataset

Yan Wang,M M Sayeef Abdullah,Partho Hassan,Sabit Hassan

Main category: cs.CV

TL;DR: Lunara Aesthetic Dataset是一个高质量、风格多样的美学数据集,包含中东、北欧、东亚、南亚等地区美学风格以及素描、油画等通用类别,所有图像由Moonworks Lunara模型生成,美学评分超过现有美学数据集,附带人工精炼提示词和结构化标注,采用Apache 2.0许可。

  • Motivation: 现有大规模网络数据集强调广度而非精度,缺乏高质量美学内容和明确的许可协议。需要创建一个专注于美学质量、风格多样性和许可透明度的数据集,以支持美学相关研究。
  • Method: 使用Moonworks Lunara模型生成图像,涵盖多种艺术风格(区域美学和通用类别),每张图像都经过人工精炼提示词设计,并附带结构化标注描述关键对象、属性、关系和风格线索。
  • Result: 创建了首个同类数据集,美学评分显著超过现有美学数据集和通用数据集,提供了高质量美学内容、风格多样性和明确的Apache 2.0许可,支持研究和商业使用。
  • Conclusion: Lunara Aesthetic Dataset填补了高质量美学数据集的空白,提供了风格多样、许可透明的资源,将促进美学相关研究的发展。

[4] LWMSCNN-SE: A Lightweight Multi-Scale Network for Efficient Maize Disease Classification on Edge Devices

Fikadu Weloday,Jianmei Su

Main category: cs.CV

TL;DR: 提出LWMSCNN-SE轻量级卷积神经网络,结合多尺度特征提取、深度可分离卷积和SE注意力机制,在玉米病害分类中实现96.63%准确率,仅需24万参数和0.666 GFLOPs,适合边缘设备部署。

  • Motivation: 传统病害检测模型在智能手机、无人机等资源受限环境部署时面临高计算成本挑战,需要解决精度与效率的权衡问题。
  • Method: 提出LWMSCNN-SE轻量级CNN,整合多尺度特征提取、深度可分离卷积降低计算量,加入SE注意力机制提升特征表达能力。
  • Result: 模型达到96.63%分类准确率,仅需241,348参数和0.666 GFLOPs计算量,在精度和效率间取得良好平衡。
  • Conclusion: LWMSCNN-SE模型解决了玉米病害分类在边缘设备部署的计算成本问题,展示了在精准农业系统中实时病害诊断的潜力。

[5] 3DGS-Drag: Dragging Gaussians for Intuitive Point-Based 3D Editing

Jiahua Dong,Yu-Xiong Wang

Main category: cs.CV

TL;DR: 3DGS-Drag:基于点的3D编辑框架,通过拖拽操作实现真实3D场景的高效直观编辑,结合变形引导和扩散引导技术

  • Motivation: 2D拖拽编辑已取得显著进展,但在3D场景编辑中仍面临挑战。现有3D编辑方法(基于变形或2D编辑)在几何相关内容编辑方面存在局限,需要更直观高效的3D编辑方案
  • Method: 结合3D高斯溅射的变形引导实现几何一致性修改,利用扩散引导进行内容校正和视觉质量提升,采用渐进式编辑策略支持激进3D拖拽编辑
  • Result: 在多种场景中实现运动变化、形状调整、修复和内容扩展等广泛编辑,在几何相关3D内容编辑方面达到最先进性能,单RTX 4090 GPU上仅需10-20分钟
  • Conclusion: 3DGS-Drag填补了变形基和2D编辑基3D编辑方法之间的空白,为真实3D场景提供了高效直观的拖拽编辑能力,具有实际应用价值

[6] Sesame Plant Segmentation Dataset: A YOLO Formatted Annotated Dataset

Sunusi Ibrahim Muhammad,Ismail Ismail Tijjani,Saadatu Yusuf Jumare,Fatima Isah Jibrin

Main category: cs.CV

TL;DR: 本文提出了芝麻植物分割数据集,这是一个开源标注图像数据集,专门用于支持农业应用中人工智能模型的开发,特别关注芝麻植物。数据集包含206张训练图像、43张验证图像和43张测试图像,采用YOLO兼容的分割格式,捕捉了不同环境条件下早期生长阶段的芝麻植物。

  • Motivation: 传统边界框数据集无法提供精确的植物检测和分析。需要专门针对芝麻植物的高质量分割数据集,以支持植物监测、产量估算和农业研究等应用,特别是在尼日利亚这样的农业地区。
  • Method: 使用高分辨率移动相机在尼日利亚卡齐纳州Jirdede农场收集数据,采用Segment Anything Model version 2在农民监督下进行标注。数据集采用像素级分割格式,包含训练、验证和测试集。使用Ultralytics YOLOv8框架进行模型评估。
  • Result: 模型在边界框检测方面:召回率79%,精确率79%,IoU 0.50时的平均精度84%,IoU 0.50-0.95的平均精度58%。在分割任务方面:召回率82%,精确率77%,IoU 0.50时的平均精度84%,IoU 0.50-0.95的平均精度52%。
  • Conclusion: 该数据集是尼日利亚芝麻农业视觉数据集的新贡献,支持植物监测、产量估算和农业研究等应用。像素级分割比传统边界框方法能提供更精确的检测和分析。

[7] An Efficient Additive Kolmogorov-Arnold Transformer for Point-Level Maize Localization in Unmanned Aerial Vehicle Imagery

Fei Li,Lang Qiao,Jiahao Fan,Yijia Xu,Shawn M. Kaeppler,Zhou Zhang

Main category: cs.CV

TL;DR: 提出AKT模型用于无人机图像中的玉米点级定位,通过PKAN模块增强小目标特征提取,使用PAA注意力降低计算复杂度,在PML数据集上取得SOTA性能。

  • Motivation: 无人机高分辨率摄影测量在精准农业中至关重要,但玉米点级定位面临三大挑战:1) 目标像素比极低(3000x4000)的二次注意力计算成本过高;3) 农业场景特有的稀疏目标分布和环境变化问题。
  • Method: 提出Additive Kolmogorov-Arnold Transformer (AKT):1) 用Pade Kolmogorov-Arnold Network (PKAN)模块替代传统MLP,增强小目标特征提取的功能表达能力;2) 引入PKAN Additive Attention (PAA)建模多尺度空间依赖,降低计算复杂度;3) 构建Point-based Maize Localization (PML)数据集,包含1928张高分辨率无人机图像和约501,000个点标注。
  • Result: AKT平均F1-score达到62.8%,比SOTA方法提升4.2%,同时减少12.6%的FLOPs,推理吞吐量提升20.7%。在下游任务中,株数统计的平均绝对误差为7.1,株间距估计的RMSE为1.95-1.97厘米。
  • Conclusion: 将Kolmogorov-Arnold表示理论与高效注意力机制相结合,为高分辨率农业遥感提供了有效框架,能够解决小目标检测和计算效率的双重挑战。

[8] Likelihood ratio for a binary Bayesian classifier under a noise-exclusion model

Howard C. Gifford

Main category: cs.CV

TL;DR: 提出一种基于最小可提取图像特征阈值的新型统计理想观察者模型,用于整体视觉搜索处理,减少自由参数并缩小系统规模

  • Motivation: 开发一个更高效的理想观察者模型来处理整体视觉搜索(或整体感知),通过减少自由参数来简化系统,为医学图像感知、计算机视觉等领域提供更好的分析工具
  • Method: 建立统计理想观察者模型,通过对最小可提取图像特征设置阈值来实现整体视觉搜索处理,从而减少模型中的自由参数数量
  • Result: 开发出新型框架,能够缩小系统规模,减少参数数量,为多个应用领域提供优化和分析工具
  • Conclusion: 该新型统计理想观察者模型在医学图像感知、计算机视觉、性能基准测试、特征选择评估、目标检测识别以及传感器评估等多个领域具有广泛应用价值

[9] Predicting Region of Interest in Human Visual Search Based on Statistical Texture and Gabor Features

Hongwei Lin,Diego Andrade,Mini Das,Howard C. Gifford

Main category: cs.CV

TL;DR: 该研究探索了结合Gabor特征和GLCM纹理特征来建模早期视觉搜索行为,通过两种特征融合管道在数字乳腺断层合成图像上验证,发现预测的注视区域与人类早期注视行为一致。

  • Motivation: 理解人类视觉搜索行为是视觉科学和计算机视觉的基础问题,对建模观察者在位置未知搜索任务中如何分配注意力有直接影响。研究旨在探索Gabor特征和GLCM纹理特征在建模早期视觉搜索行为中的关系。
  • Method: 提出了两种特征融合管道来整合Gabor和GLCM特征,以缩小可能的人类注视区域。使用模拟的数字乳腺断层合成图像进行评估,并与基于阈值的模型观察者进行比较。同时收集了人类观察者的眼动追踪数据。
  • Result: 结果显示,提出的管道预测的注视候选区域与基于阈值的模型观察者定性一致。观察到GLCM均值和Gabor特征响应之间存在强相关性,表明这些特征编码了相关的图像信息。眼动追踪数据进一步表明预测的注视区域与人类早期注视行为一致。
  • Conclusion: 这些发现强调了结合结构性和纹理特征对建模视觉搜索的价值,并支持开发感知信息化的观察者模型。Gabor和GLCM特征虽然形式不同,但编码了相关的图像信息,可用于有效预测人类早期视觉搜索行为。

[10] CASHEW: Stabilizing Multimodal Reasoning via Iterative Trajectory Aggregation

Chaoyu Li,Deeparghya Dutta Barua,Fei Tao,Pooyan Fazli

Main category: cs.CV

TL;DR: CASHEW和CASHEW-RL:两种提升视觉语言模型多步推理稳定性的方法,通过聚合多个推理轨迹和视觉验证来提高一致性

  • Motivation: 视觉语言模型在多模态理解和推理任务中表现优异,但其多步推理存在不稳定性问题——相同输入下多次采样会产生不同的推理轨迹和不一致的最终预测
  • Method: 提出两种互补方法:1) CASHEW推理时框架,通过迭代聚合多个候选轨迹形成更高质量的推理轨迹,并通过显式视觉验证过滤幻觉步骤;2) CASHEW-RL学习变体,通过Group Sequence Policy Optimization训练,使用复合奖励鼓励基于最小充分视觉证据的正确答案
  • Result: 在13个图像理解、视频理解和视频推理基准测试中显示显著性能提升,包括ScienceQA上提升23.6个百分点,EgoSchema上提升8.1个百分点
  • Conclusion: CASHEW和CASHEW-RL有效解决了视觉语言模型多步推理的不稳定性问题,通过轨迹聚合和视觉验证机制显著提升了推理质量和一致性

[11] TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Xin Jin,Yichuan Zhong,Yapeng Tian

Main category: cs.CV

TL;DR: TP-Blend是一个无需训练的双提示注意力融合框架,通过两个互补的注意力处理器,同时实现对象替换和风格注入,解决了现有扩散编辑器难以同时处理新对象和新风格的问题。

  • Motivation: 当前基于文本条件的扩散编辑器擅长处理单一对象替换,但在需要同时引入新对象和新风格时表现不佳。现有方法难以同时精确控制内容和外观。
  • Method: 提出TP-Blend框架,包含两个核心组件:1) Cross-Attention Object Fusion (CAOF):通过熵正则化最优传输问题重新分配多头特征向量,实现对象融合;2) Self-Attention Style Fusion (SASF):通过细节敏感实例归一化和Key/Value矩阵交换,注入风格纹理。
  • Result: 实验表明TP-Blend能够生成高分辨率、逼真的编辑结果,在内容和外观上都有精确控制,在定量保真度、感知质量和推理速度方面都超越了现有基线方法。
  • Conclusion: TP-Blend是一个轻量级、无需训练的双提示融合框架,成功解决了同时进行对象替换和风格注入的挑战,为扩散模型编辑提供了更精细的控制能力。

[12] Decoder Generates Manufacturable Structures: A Framework for 3D-Printable Object Synthesis

Abhishek Kumar

Main category: cs.CV

TL;DR: 提出基于解码器的深度学习方法,生成满足增材制造约束的可制造3D结构

  • Motivation: 传统3D生成方法常忽略制造约束,导致几何上有效但无法实际打印的结构。需要开发能直接生成可制造3D对象的智能方法。
  • Method: 采用基于解码器的深度学习框架,将潜在表示解码为几何有效且可打印的3D对象。框架学习从抽象表示到有效3D几何的复杂映射函数,同时考虑悬垂角度、壁厚和结构完整性等制造约束。
  • Result: 方法在多种对象类别上验证,相比朴素生成方法显著提高了可制造性。成功实现了解码器生成结构的实际3D打印。
  • Conclusion: 神经解码器能够学习复杂映射函数,生成满足增材制造约束的可制造3D结构,为智能3D设计制造提供了有效解决方案。

[13] Representations of Text and Images Align From Layer One

Evžen Wybitul,Javier Rando,Florian Tramèr,Stanislav Fort

Main category: cs.CV

TL;DR: 研究发现视觉语言模型从第一层就存在图像-文本对齐,挑战了传统认为对齐只出现在深层网络的观念,并提出了一种新的合成可视化方法。

  • Motivation: 传统观点认为视觉语言模型中的图像-文本对齐主要出现在深层网络层,但本研究旨在挑战这一观点,探索是否在更早的网络层就已经存在有意义的对齐。
  • Method: 提出了一种基于DeepDream启发的合成方法:给定文本概念(如"木星"),在特定层提取其概念向量,然后通过优化合成与该向量对齐的图像表示。该方法应用于Gemma 3模型的七个层中的数百个概念。
  • Result: 研究发现即使在第一层,超过50%的合成图像都能描绘出目标文本概念的可识别视觉特征(如动物、活动、季节等),为图像-文本对齐提供了直接的构造性证据。
  • Conclusion: 该方法挑战了传统对齐观点,提供了一种简单、快速且无需辅助模型或数据集的跨模态对齐测量方法,为模型可解释性提供了新的可视化途径。

[14] Training Free Zero-Shot Visual Anomaly Localization via Diffusion Inversion

Samet Hicsonmez,Abd El Rahman Shabayek,Djamila Aouada

Main category: cs.CV

TL;DR: 提出一种无需训练、仅依赖视觉的零样本异常检测框架,通过DDIM反演和重建差异实现异常定位,无需细粒度提示

  • Motivation: 现有零样本异常检测方法要么依赖语言等多模态信息生成细粒度提示,要么仅能进行图像级分类而缺乏空间定位精度,需要一种仅依赖视觉的简单有效方法
  • Method: 利用预训练的DDIM模型进行图像反演获取潜在表示,从固定中间时间步开始去噪重建图像;由于扩散模型仅在正常数据上训练,重建结果为正常外观;通过输入图像与重建图像的差异检测异常
  • Result: 在VISA数据集上达到最先进性能,展示了强大的异常定位能力,无需辅助模态,减少了对提示的依赖
  • Conclusion: 提出了一种简单有效的训练免费视觉零样本异常检测框架,通过扩散模型反演实现异常检测和定位,推动了零样本异常检测研究向减少提示依赖的方向发展

[15] A Highly Efficient Diversity-based Input Selection for DNN Improvement Using VLMs

Amin Abbasishahkoo,Mahboubeh Dadkhah,Lionel Briand

Main category: cs.CV

TL;DR: 提出CBD概念多样性度量,结合Margin不确定性,构建高效可扩展的输入选择方法,显著提升DNN微调性能

  • Motivation: DNN微调需要标注新数据,成本高昂。现有多样性选择方法计算密集且难以扩展到大规模数据集,需要更高效的输入选择方案
  • Method: 提出概念多样性(CBD)度量,利用视觉语言模型(VLM)高效计算图像多样性;结合Margin不确定性构建混合选择方法
  • Result: CBD与几何多样性(GD)强相关但计算时间大幅减少;CBD-based选择在所有评估场景中优于5种SOTA基线方法,计算效率接近简单不确定性方法
  • Conclusion: CBD-based方法在有效性和计算效率上均优于现有方法,特别在重复和大规模输入选择场景中具有显著可扩展性优势

[16] FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

Jifeng Song,Arun Das,Pan Wang,Hui Ji,Kun Zhao,Yufei Huang

Main category: cs.CV

TL;DR: FigEx2是一个视觉条件框架,用于定位科学复合图中的面板并生成面板级描述,通过噪声感知门控融合模块和强化学习优化实现多模态一致性,在多个科学领域表现出色。

  • Motivation: 科学复合图通常包含多个带标签的面板,但在实际流程中,标题经常缺失或只提供图级摘要,这使得面板级理解变得困难。需要直接从复合图中定位面板并生成面板级描述的解决方案。
  • Method: 提出FigEx2视觉条件框架,包含噪声感知门控融合模块来过滤标记级特征以稳定检测查询空间。采用分阶段优化策略,结合监督学习和强化学习,使用基于CLIP的对齐和基于BERTScore的语义奖励来强制严格的多模态一致性。
  • Result: FigEx2在检测方面达到0.726 mAP@0.5:0.95的优异性能,在METEOR和BERTScore上显著优于Qwen3-VL-8B模型(分别高出0.51和0.24)。值得注意的是,FigEx2在无需微调的情况下对分布外科学领域表现出显著的零样本迁移能力。
  • Conclusion: FigEx2框架有效解决了科学复合图的面板级理解和描述问题,通过创新的融合模块和优化策略实现了高性能和跨领域泛化能力,为科学图像理解提供了有力工具。

[17] Rescind: Countering Image Misconduct in Biomedical Publications with Vision-Language and State-Space Modeling

Soumyaroop Nandi,Prem Natarajan

Main category: cs.CV

TL;DR: 首个视觉语言引导的生物医学图像伪造生成与检测框架,结合扩散模型和视觉语言提示,实现语义可控的伪造操作,并提出了大规模基准数据集和先进的检测方法。

  • Motivation: 生物医学出版物中的图像篡改对研究完整性和可重复性构成严重威胁。与自然图像取证不同,生物医学伪造检测面临领域特定伪影、复杂纹理和非结构化图像布局等独特挑战。
  • Method: 提出了首个视觉语言引导的生物医学图像伪造生成与检测框架:1)结合扩散合成与视觉语言提示,实现复制、拼接、区域移除等语义可控的伪造操作;2)引入Rescind大规模基准数据集,包含细粒度标注和模态特定划分;3)提出Integscan结构化状态空间建模框架,集成注意力增强的视觉编码与提示条件语义对齐,实现精确伪造定位;4)采用视觉语言模型验证循环,基于与预期提示的一致性过滤生成的伪造图像。
  • Result: 在Rescind和现有基准上的广泛实验表明,Integscan在检测和定位方面均达到最先进的性能,为自动化科学完整性分析奠定了坚实基础。
  • Conclusion: 该研究建立了首个视觉语言引导的生物医学图像伪造生成与检测框架,通过创新的数据集、检测方法和验证机制,显著提升了生物医学图像伪造检测的能力,为维护科学研究的完整性提供了重要工具。

[18] The Role of Noisy Data in Improving CNN Robustness for Image Classification

Oscar H. Ramírez-Agudelo,Nicoleta Gorea,Aliza Reif,Lorenzo Bonasera,Michael Karl

Main category: cs.CV

TL;DR: 在CIFAR-10数据集上,通过在训练数据中策略性地加入10%的噪声数据,可以显著提升Resnet-18模型在完全噪声测试条件下的性能,同时对干净数据性能影响最小。

  • Motivation: 现实世界中的图像数据经常受到噪声和失真的影响,而高质量的训练数据虽然理想,但无法完全反映实际应用场景。本研究旨在探索通过有控制地在训练数据中引入噪声来提升卷积神经网络对真实世界噪声的鲁棒性。
  • Method: 使用CIFAR-10数据集,评估三种常见噪声类型(高斯噪声、椒盐噪声、高斯模糊)在不同强度和训练集污染水平下的影响。采用Resnet-18模型进行实验,分析不同噪声比例对模型性能的影响。
  • Result: 实验结果表明,在训练数据中仅加入10%的噪声数据就足以显著降低测试损失,并在完全噪声测试条件下提高准确率。这种策略对干净数据的性能影响很小,表明噪声暴露可以作为一种有效的正则化方法。
  • Conclusion: 策略性地在训练数据中引入噪声是一种简单而有效的正则化技术,能够在传统数据清洁度和实际应用鲁棒性之间提供实用的权衡,为提升模型在真实噪声环境中的性能提供了可行方案。

[19] Exploiting DINOv3-Based Self-Supervised Features for Robust Few-Shot Medical Image Segmentation

Guoping Xu,Jayaram K. Udupa,Weiguo Lu,You Zhang

Main category: cs.CV

TL;DR: DINO-AugSeg:一种利用DINOv3特征进行少样本医学图像分割的新框架,通过小波特征增强和上下文融合模块提升性能

  • Motivation: 医学图像分割在少样本场景下面临标注数据稀缺的挑战。虽然自监督基础模型如DINOv3在自然图像上表现出强大的特征提取能力,但直接应用于医学图像存在领域差异问题。
  • Method: 提出DINO-AugSeg框架:1) WT-Aug小波特征增强模块,通过扰动频率分量丰富DINOv3特征多样性;2) CG-Fuse上下文信息引导融合模块,利用交叉注意力整合语义丰富的低分辨率特征和空间细节丰富的高分辨率特征。
  • Result: 在涵盖MRI、CT、超声、内窥镜和皮肤镜等五种成像模态的六个公共基准测试中,DINO-AugSeg在有限样本条件下始终优于现有方法。
  • Conclusion: 小波域增强和上下文融合的结合能够产生鲁棒的特征表示,DINO-AugSeg为推进少样本医学图像分割提供了有前景的方向。

[20] From Prompts to Deployment: Auto-Curated Domain-Specific Dataset Generation via Diffusion Models

Dongsik Yoon,Jongeun Kim

Main category: cs.CV

TL;DR: 提出一个自动化流程,使用扩散模型生成领域特定的合成数据集,解决预训练模型与真实部署环境之间的分布偏移问题。

  • Motivation: 解决预训练模型在真实世界部署时遇到的分布偏移问题,减少对大量真实世界数据收集的依赖。
  • Method: 三阶段框架:1) 通过可控修复在领域特定背景中合成目标对象;2) 通过多模态评估验证生成结果(目标检测、美学评分、视觉语言对齐);3) 使用用户偏好分类器捕捉主观选择标准。
  • Result: 能够高效构建高质量、可部署的数据集,同时减少对真实世界数据收集的依赖。
  • Conclusion: 该自动化流程为领域特定合成数据生成提供了有效解决方案,有助于弥合预训练模型与真实部署环境之间的差距。

[21] PathoGen: Diffusion-Based Synthesis of Realistic Lesions in Histopathology Images

Mohamad Koohi-Moghadam,Mohammad-Ali Nikouei Mahani,Kyongtae Tyler Bae

Main category: cs.CV

TL;DR: PathoGen是一种基于扩散模型的生成方法,能够在良性组织病理图像中可控地生成高保真病变区域,解决标注数据稀缺问题,提升下游分割性能。

  • Motivation: 组织病理学诊断中AI模型开发面临专家标注病变数据稀缺的挑战,特别是罕见病理和疾病亚型。现有数据增强方法无法生成具有复杂空间关系和细胞结构的真实病变形态。
  • Method: PathoGen是一种基于扩散模型的生成方法,通过迭代精炼过程在良性组织病理图像中进行可控的高保真修复,生成具有自然组织边界、保留细胞结构和真实染色特征的病变。
  • Result: 在肾脏、皮肤、乳腺和前列腺四个不同病理数据集上验证,PathoGen在图像保真度和分布相似性上优于条件GAN和Stable Diffusion等基线方法。使用PathoGen生成的病变增强训练集能提升下游分割性能,特别是在数据稀缺情况下。
  • Conclusion: PathoGen通过同时生成真实形态和像素级标注,有效克服了手动标注瓶颈,为在有限专家标注数据下开发可泛化的医疗AI系统提供了可扩展的途径。

[22] How Do Optical Flow and Textual Prompts Collaborate to Assist in Audio-Visual Semantic Segmentation?

Peng Gao,Yujian Lee,Yongqi Xu,Wentao Fan

Main category: cs.CV

TL;DR: 提出SSP框架,通过光学流和文本提示增强音频-视觉语义分割,解决移动和静止声源的分割挑战

  • Motivation: AVSS任务需要超越单纯识别发声物体的语义理解,现有方法将任务分解为两个子任务,但需要更有效的多模态整合策略来处理移动和静止声源
  • Method: 提出SSP框架:1) 使用光学流捕捉运动动态提供时间上下文;2) 引入两种文本提示(物体类别和场景描述);3) 视觉-文本对齐模块实现跨模态整合;4) 后掩码技术训练模型学习光学流模式
  • Result: 实验结果显示SSP优于现有AVS方法,提供高效精确的分割结果
  • Conclusion: SSP框架通过整合光学流和文本提示,有效解决了AVSS任务中移动和静止声源的分割挑战,实现了更好的语义理解和跨模态对齐

[23] Subspace Alignment for Vision-Language Model Test-time Adaptation

Zhichen Zeng,Wenxuan Bao,Xiao Lin,Ruizhong Qiu,Tianxin Wei,Xuying Ning,Yuchen Yan,Chen Luo,Monica Xiao Cheng,Jingrui He,Hanghang Tong

Main category: cs.CV

TL;DR: SubTTA通过对齐视觉和文本模态的语义子空间来改进视觉语言模型的测试时适应,解决了模态鸿沟和视觉噪声问题,在多种基准测试中平均提升2.24%

  • Motivation: 现有测试时适应方法依赖零样本预测作为伪标签,但在分布偏移下不可靠。主要问题:1)模态鸿沟:分布偏移导致视觉和文本模态间存在差距,跨模态关系不准确;2)视觉噪声:视觉嵌入包含丰富但与任务无关的噪声,在分布偏移下会淹没任务特定语义
  • Method: SubTTA通过语义子空间对齐增强零样本预测以指导TTA过程:1)提取两个模态的主子空间,通过最小化弦距离将视觉流形对齐到文本语义锚点;2)将对齐的视觉特征投影到任务特定的文本子空间,通过将视觉嵌入约束在有效语义范围内过滤任务无关噪声;3)在净化空间上执行标准TTA以细化决策边界
  • Result: 在多种基准测试和VLM架构上的广泛实验表明,SubTTA显著有效,相比最先进的TTA方法平均提升2.24%
  • Conclusion: 通过对齐视觉和文本模态的语义子空间,SubTTA能够有效解决分布偏移下的模态鸿沟和视觉噪声问题,显著提升视觉语言模型的测试时适应性能

[24] Where Does Vision Meet Language? Understanding and Refining Visual Fusion in MLLMs via Contrastive Attention

Shezheng Song,Shasha Li,Jie Yu

Main category: cs.CV

TL;DR: 该论文通过层级的掩码分析揭示了多模态大语言模型中视觉-文本融合的演化模式,发现融合发生在特定层而非均匀分布,并提出了一种无需训练的关注对比框架来提升多模态推理性能。

  • Motivation: 尽管多模态大语言模型在视觉-语言理解方面取得了显著进展,但其内部如何整合视觉和文本信息仍然缺乏深入理解。研究者希望揭示MLLMs中视觉-文本融合的内部机制和演化规律。
  • Method: 1. 对多种架构进行系统的层级掩码分析,探究视觉-文本融合在模型内部的演化过程;2. 分析层级关注演化,观察关注模式的动态变化;3. 基于分析结果,提出无需训练的对比关注框架,建模早期融合层与最终层之间的转换关系,以突出有意义的关注转移。
  • Result: 研究发现:1. 融合发生在几个特定层而非均匀分布;2. 某些模型在输出生成前出现视觉信号重新激活的"回顾"现象;3. 观察到对无关区域的持续高关注噪声,以及对文本对齐区域逐渐增强的关注;4. 提出的对比关注框架在多种MLLMs和基准测试中验证了分析结果,并提升了多模态推理性能。
  • Conclusion: 该研究首次系统地揭示了MLLMs中视觉-文本融合的内部机制,发现了融合的层级特性和关注演化模式,提出的无需训练方法有效提升了模型性能,为理解和改进多模态模型提供了重要洞见。

[25] Instance-Aligned Captions for Explainable Video Anomaly Detection

Inpyo Song,Minjun Joo,Joonhyung Kwon,Eunji Jeon,Jangwon Lee

Main category: cs.CV

TL;DR: 论文提出了一种基于实例对齐字幕的可解释视频异常检测方法,通过将文本描述与具体对象实例及其外观运动属性关联,实现可验证的空间定位解释。

  • Motivation: 当前可解释视频异常检测方法缺乏空间定位能力,特别是在多实体交互场景中,现有方法产生的解释往往不完整或视觉不对齐,降低了可信度。需要一种能够验证的解释方法。
  • Method: 提出实例对齐字幕框架,将每个文本声明链接到特定对象实例,包含外观和运动属性。框架能够识别谁导致了异常、每个实体在做什么、影响了谁以及解释的空间定位。
  • Result: 标注了8个广泛使用的VAD基准数据集,并扩展了360度第一人称数据集VIEW360,新增868个视频、8个位置和4种新异常类型,创建了VIEW360+综合测试平台。实验表明实例级空间定位字幕揭示了当前LLM和VLM方法的显著局限性。
  • Conclusion: 提出的实例对齐字幕方法为可验证和可操作的可解释视频异常检测提供了新框架,同时创建的综合数据集为未来可信和可解释的异常检测研究提供了稳健基准。

[26] A Hardware-Algorithm Co-Designed Framework for HDR Imaging and Dehazing in Extreme Rocket Launch Environments

Jing Tao,Banglei Guan,Pengju Sun,Taihang Lei,Yang Shang,Qifeng Yu

Main category: cs.CV

TL;DR: 提出硬件-算法协同设计框架,结合定制空间变化曝光传感器与物理感知去雾算法,解决火箭发射极端成像条件下光学测量的挑战。

  • Motivation: 火箭发射时极端成像条件(如密集颗粒雾霾、超过120dB的亮度变化)严重阻碍了羽流流场、冲击波结构、喷嘴振荡等关键机械参数的光学测量,导致图像数据质量下降,影响后续摄影测量和测速分析。
  • Method: 采用硬件-算法协同设计:1)定制空间变化曝光传感器,单次拍摄获取多曝光数据,实现鲁棒的雾霾评估;2)物理感知去雾算法,动态估计雾霾密度,进行区域自适应光照优化,应用多尺度熵约束融合,有效分离雾霾与场景辐射。
  • Result: 在真实发射图像和受控实验中验证,该框架在恢复羽流和发动机区域的物理准确视觉信息方面表现出优越性能,为提取粒子速度、流动不稳定频率、结构振动等关键机械参数提供了可靠的图像基础。
  • Conclusion: 该硬件-算法协同设计框架能够有效应对极端航空航天环境中的成像挑战,支持精确的定量分析,为火箭发射关键机械参数的光学测量提供了可靠解决方案。

[27] Representation Learning with Semantic-aware Instance and Sparse Token Alignments

Phuoc-Nguyen Bui,Toan Duc Nguyen,Junghyun Bum,Duc-Tai Le,Hyunseung Choo

Main category: cs.CV

TL;DR: SISTA框架通过多级对齐改进医学视觉语言预训练,在图像-报告和补丁-单词两个层级进行语义感知的对齐,消除假阴性样本并提升表示质量。

  • Motivation: 传统医学VLP方法将所有未配对样本视为负样本,但医学数据中不同患者的图像或报告可能存在高度相似性,这种刚性处理会破坏语义结构并降低学习表示的质量。
  • Method: 提出SISTA多级对齐框架:1)在图像-报告层级,通过考虑报告间相似性来消除假阴性;2)在补丁-单词层级,有效对齐图像补丁与相关单词标记。
  • Result: 实验表明该框架在不同数据集的下游任务(图像分类、分割、检测)上提升迁移性能,在有限标注数据的细粒度任务中表现尤为显著。
  • Conclusion: SISTA通过语义感知的多级对齐改进了医学VLP,解决了传统对比学习中假阴性问题,提升了表示学习质量,在医学视觉任务中具有重要应用价值。

[28] Towards Cross-Platform Generalization: Domain Adaptive 3D Detection with Augmentation and Pseudo-Labeling

Xiyan Feng,Wenbo Zhang,Lu Zhang,Yunzhi Zhuge,Huchuan Lu,You He

Main category: cs.CV

TL;DR: 基于PVRCNN++框架,通过数据增强和自训练策略提升跨平台3D目标检测性能,在RoboSense2025挑战赛中获得第三名

  • Motivation: 解决跨平台3D目标检测中的领域泛化问题,提升模型在不同传感器平台间的适应能力
  • Method: 在PVRCNN++框架基础上,采用定制化数据增强和基于伪标签的自训练策略来缩小领域差距
  • Result: 在挑战赛中获得第三名:第一阶段目标域Car类别3D AP为62.67%,第二阶段目标域Car和Pedestrian类别3D AP分别为58.76%和49.81%
  • Conclusion: 数据增强和自训练策略能有效提升跨平台3D目标检测的泛化性能,在RoboSense2025挑战赛中验证了方法的有效性

[29] CogniMap3D: Cognitive 3D Mapping and Rapid Retrieval

Feiran Wang,Junyi Wu,Dawen Cai,Yuan Hong,Yan Yan

Main category: cs.CV

TL;DR: CogniMap3D是一个受生物启发的动态3D场景理解与重建框架,模仿人类认知过程,通过持久记忆库存储静态场景,实现高效空间知识存储和快速检索。

  • Motivation: 现有3D场景理解方法通常缺乏类似人类认知的持久记忆机制,难以在多次访问同一场景时有效利用历史信息。需要一种能够持续学习和更新的动态场景理解系统。
  • Method: 框架包含三个核心能力:1) 基于运动和深度先验的多阶段动态物体识别框架;2) 用于存储、回忆和更新静态场景的认知映射系统;3) 用于优化相机姿态的因子图优化策略。通过图像流识别动态区域,匹配静态元素到记忆库,并在重访时检索存储场景并更新记忆。
  • Result: 在视频深度估计、相机姿态重建和3D映射任务上展示了最先进的性能,能够有效支持跨长时间序列和多次访问的连续场景理解。
  • Conclusion: CogniMap3D通过模仿人类认知过程,实现了高效的动态3D场景理解与重建,其持久记忆机制和认知映射系统为连续场景理解提供了有前景的解决方案。

[30] Instruction-Driven 3D Facial Expression Generation and Transition

Anh H. Vo,Tae-Seok Kim,Hulin Jin,Soo-Mi Choi,Yong-Guk Kim

Main category: cs.CV

TL;DR: 提出一个基于文本指令驱动的3D面部表情生成框架,能够从指定表情平滑过渡到目标表情

  • Motivation: 传统3D虚拟形象通常只有六种基本表情,为了模拟更真实的情感变化,需要能够渲染任意两种表情之间的平滑过渡
  • Method: 1) 引入IFED模块进行多模态数据学习,捕捉文本描述与面部表情特征的相关性;2) 提出I2FET方法,利用IFED和顶点重建损失函数优化潜在向量的语义理解;3) 开发面部表情过渡模型生成平滑的表情序列
  • Result: 在CK+和CelebV-HQ数据集上优于现有方法,能够根据文本指令生成面部表情轨迹,大大扩展了表情库和过渡可能性
  • Conclusion: 该框架能够根据文本指令生成多样化的面部表情过渡,有望在各种实际应用中找到用途,项目网站提供了更多信息

[31] Second-order Gaussian directional derivative representations for image high-resolution corner detection

Dongbo Xie,Junjie Qiu,Changming Sun,Weichuan Zhang

Main category: cs.CV

TL;DR: 该论文提出了一种基于二阶高斯方向导数(SOGDD)的高分辨率角点检测方法,能够准确检测相邻角点,在定位误差、图像模糊鲁棒性、图像匹配和3D重建方面优于现有方法。

  • Motivation: 现有角点检测方法存在理论缺陷,特别是Zhang等人的简单角点模型忽略了相邻角点灰度信息的相互影响,无法准确检测高分辨率图像中的相邻角点。
  • Method: 使用二阶高斯方向导数(SOGDD)滤波器平滑两种典型高分辨率角点模型(END型和L型),推导其SOGDD表示,发现高分辨率角点特征,并提出基于高斯滤波尺度选择的新检测方法。
  • Result: 实验验证表明,所提方法在定位误差、图像模糊变换鲁棒性、图像匹配和3D重建方面优于现有最先进方法,能够准确检测相邻角点。
  • Conclusion: 提出的基于SOGDD的高分辨率角点检测方法有效解决了相邻角点相互影响的问题,为图像匹配和3D重建等计算机视觉任务提供了更准确的角点检测方案。

[32] GI-Bench: A Panoramic Benchmark Revealing the Knowledge-Experience Dissociation of Multimodal Large Language Models in Gastrointestinal Endoscopy Against Clinical Standards

Yan Zhu,Te Luo,Pei-Yao Fu,Zhen Zhang,Zi-Long Wang,Yi-Fan Qu,Zi-Han Geng,Jia-Qi Xu,Lu Yao,Li-Yun Ma,Wei Su,Wei-Feng Chen,Quan-Lin Li,Shuo Wang,Ping-Hong Zhou

Main category: cs.CV

TL;DR: 本文提出了GI-Bench基准,系统评估多模态大语言模型在胃肠内窥镜工作流中的表现,发现顶级模型在诊断推理上接近初级内镜医师,但在空间定位和事实准确性上存在瓶颈。

  • Motivation: 尽管多模态大语言模型在胃肠病学中显示出潜力,但其在完整临床工作流程中的表现以及与人类基准的比较尚未得到验证。需要系统评估MLLMs在胃肠内窥镜工作流中的临床实用性。
  • Method: 构建了包含20个细粒度病变类别的GI-Bench基准,评估12个MLLMs在五阶段临床工作流程中的表现:解剖定位、病变识别、诊断、发现描述和管理。使用Macro-F1、mIoU和多维度Likert量表将模型性能与3名初级内镜医师和3名住院医师进行比较。
  • Result: Gemini-3-Pro表现最佳。在诊断推理方面,顶级模型(Macro-F1 0.641)优于住院医师(0.492),与初级内镜医师(0.727)相当。但存在"空间定位瓶颈":人类病变定位(mIoU >0.506)显著优于最佳模型(0.345)。还发现"流畅性-准确性悖论":模型生成的报告语言可读性优于人类,但事实准确性较低,存在"过度解释"和幻觉问题。
  • Conclusion: MLLMs在胃肠内窥镜诊断推理方面已接近人类专家水平,但在空间定位和事实准确性方面仍需改进。GI-Bench建立了动态排行榜,持续跟踪MLLMs在临床内窥镜中的发展。

[33] Human-inspired Global-to-Parallel Multi-scale Encoding for Lightweight Vision Models

Wei Xu

Main category: cs.CV

TL;DR: 提出GPM(全局到并行多尺度编码)机制,基于人类视觉系统协同机制,通过全局洞察生成器和并行分支处理不同尺度特征,实现全局与局部特征的连贯表示,并构建轻量级H-GPE网络。

  • Motivation: 现有轻量级视觉网络在参数规模、计算开销和任务性能之间难以取得良好平衡。一些模型虽然减少了计算量,但参数数量大幅增加(如LSNet、MobileMamba),不利于资源受限设备部署。同时,一些借鉴人类视觉感知的研究过于简化视觉过程,难以反映真实感知机制。
  • Method: 提出GPM机制:1)全局洞察生成器(GIG)提取整体线索;2)并行分支处理不同尺度特征:LSAE强调中/大尺度语义关系,IRB保留细粒度纹理信息。基于GPM构建轻量级H-GPE网络,模拟人类视觉"先整体后细节"和"局部注意时保持广泛上下文感知"的特性。
  • Result: 在图像分类、目标检测和语义分割任务上的实验表明,H-GPE在保持FLOPs和参数平衡的同时实现了强大性能,相比近期最先进的轻量级模型提供了更优的精度-效率权衡。
  • Conclusion: GPM机制有效模拟了人类视觉系统的协同工作机制,基于此构建的H-GPE网络在多个视觉任务上实现了参数规模、计算开销和任务性能的良好平衡,为资源受限设备的部署提供了更优解决方案。

[34] Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Md. Faiyaz Abdullah Sayeedi,Rashedur Rahman,Siam Tahsin Bhuiyan,Sefatul Wasi,Ashraful Islam,Saadia Binte Alam,AKM Mahbubur Rahman

Main category: cs.CV

TL;DR: R^4是一个用于医学图像分析的智能体框架,通过四个协调的智能体(路由、检索、反思、修复)提升大型视觉语言模型在放射学报告生成和弱监督检测中的性能,无需梯度微调即可显著提高报告质量和检测精度。

  • Motivation: 当前医学图像分析主要依赖单一通道的黑盒视觉语言模型,存在推理可控性差、安全性有限、空间定位能力不足等问题。需要一种能够提供更好控制、更可靠且具有空间基础的系统。
  • Method: 提出R^4框架,包含四个协调智能体:1) Router根据图像、患者病史和元数据配置任务和专业化提示;2) Retriever使用示例记忆和pass@k采样联合生成自由文本报告和边界框;3) Reflector针对关键临床错误模式(否定、侧向性、无支持声明、矛盾、遗漏发现、定位错误)批判每个草稿-框对;4) Repairer在针对性约束下迭代修订叙述和空间输出,同时为未来病例策划高质量示例。
  • Result: 在胸部X光分析中,使用多个现代VLM骨干网络进行评估,R^4在报告生成和弱监督检测方面持续提升性能:LLM-as-a-Judge评分提高约+1.7-+2.5分,mAP50提高+2.5-+3.5个绝对百分点,优于强大的单VLM基线,且无需任何基于梯度的微调。
  • Conclusion: 智能体路由、反思和修复可以将强大但脆弱的VLM转变为更可靠、基础更好的临床图像解释工具,为医学图像分析提供了更可控、更安全的框架。

[35] Unified Multi-Site Multi-Sequence Brain MRI Harmonization Enriched by Biomedical Semantic Style

Mengqi Wu,Yongheng Sun,Qianqian Wang,Pew-Thian Yap,Mingxia Liu

Main category: cs.CV

TL;DR: MMH是一个用于多站点多序列脑MRI图像协调的统一框架,利用生物医学语义先验进行序列感知的风格对齐,无需配对数据即可有效分离图像风格和解剖结构。

  • Motivation: 多站点脑MRI数据聚合可以增强深度学习模型训练,但站点特异性差异(如扫描仪厂商、采集参数、成像协议)会引入非生物异质性,影响模型泛化能力。现有方法依赖有限的配对数据,难以有效分离风格与解剖结构,且大多只处理单序列协调,限制了在实际多序列MRI场景中的应用。
  • Method: MMH采用两阶段框架:1)基于扩散的全局协调器,使用风格无关的梯度条件将MRI图像映射到序列特定的统一域;2)目标特定微调器,将全局对齐图像适配到目标域。使用三平面注意力BiomedCLIP编码器聚合多视图嵌入来表征体积风格信息,实现无需配对数据的风格与解剖结构显式分离。
  • Result: 在4,163个T1和T2加权MRI图像上的评估表明,MMH在图像特征聚类、体素级比较、组织分割以及下游年龄和站点分类任务上,均优于现有最先进方法。
  • Conclusion: MMH提供了一个有效的多站点多序列脑MRI协调框架,能够在不依赖配对数据的情况下实现风格与解剖结构的有效分离,显著提高了跨站点MRI数据的协调质量和下游任务性能。

[36] MobiDiary: Autoregressive Action Captioning with Wearable Devices and Wireless Signals

Fei Deng,Yinghui He,Chuntong Chu,Ge Wang,Han Ding,Jinsong Han,Fei Wang

Main category: cs.CV

TL;DR: MobiDiary:基于IMU和Wi-Fi信号生成自然语言活动描述的框架,通过统一传感器编码器和Transformer解码器实现跨模态泛化,在多个基准测试中达到SOTA性能。

  • Motivation: 智能家居中的人类活动识别对健康监测和辅助生活至关重要。基于视觉的系统存在隐私问题和环境限制(如遮挡),需要一种能从物理信号直接生成自然语言描述的方法。
  • Method: 提出MobiDiary框架,包含统一传感器编码器和Transformer解码器。编码器使用基于补丁的机制捕获局部时间相关性,集成异构位置嵌入来统一不同传感器的空间上下文。解码器采用自回归机制逐词生成连贯的动作描述。
  • Result: 在多个公共基准测试(XRF V2、UWash、WiFiTAD)上评估,MobiDiary在字幕生成指标(BLEU@4、CIDEr、RMC)上达到最先进性能,在连续动作理解方面优于专用基线。
  • Conclusion: MobiDiary能够从异构物理信号(IMU和Wi-Fi)生成自然语言活动描述,有效弥合连续噪声信号与离散语言描述之间的语义鸿沟,为智能家居活动识别提供了隐私友好且表达丰富的解决方案。

[37] FUME: Fused Unified Multi-Gas Emission Network for Livestock Rumen Acidosis Detection

Taminul Islam,Toqi Tahamid Sarker,Mohamed Embaby,Khaled R Ahmed,Amer AbuGhazaleh

Main category: cs.CV

TL;DR: 首个基于深度学习的方法FUME,通过双气体光学成像检测奶牛瘤胃酸中毒,使用CO2和CH4排放模式进行健康分类,在计算成本降低10倍的同时达到高精度。

  • Motivation: 瘤胃酸中毒是奶牛常见代谢疾病,造成重大经济损失和动物福利问题。现有诊断方法依赖侵入性pH测量,难以实现连续监测,需要非侵入、可扩展的解决方案。
  • Method: 提出FUME(融合统一多气体排放网络),采用轻量级双流架构,包含权重共享编码器、模态特定自注意力机制和通道注意力融合,联合优化气体羽流分割和奶牛健康分类。
  • Result: FUME在首个双气体OGI数据集上达到80.99% mIoU和98.82%分类准确率,仅使用1.28M参数和1.97G MACs,分割质量优于现有方法且计算成本降低10倍。
  • Conclusion: 该研究证明了基于气体排放的牲畜健康监测可行性,为实用的体外酸中毒检测系统铺平道路,CO2提供主要判别信号,双任务学习对最优性能至关重要。

[38] Knowledge-based learning in Text-RAG and Image-RAG

Alexander Shim,Khalil Saieh,Samuel Clarke

Main category: cs.CV

TL;DR: 该研究比较了基于EVA-ViT的多模态方法与LLaMA或ChatGPT LLM,旨在减少幻觉问题并检测胸部X光图像疾病。研究发现文本RAG能有效减少幻觉,图像RAG通过KNN方法提高预测置信度和校准,GPT LLM表现优于Llama模型。

  • Motivation: 解决多模态医学图像分析中的幻觉问题,提高胸部X光图像疾病检测的准确性和可靠性。通过比较不同方法,探索如何有效减少大型语言模型在医学图像分析中产生的错误信息。
  • Method: 使用NIH胸部X光图像数据集,采用基于EVA-ViT的多模态图像编码器,结合LLaMA或ChatGPT LLM。比较了三种方法:图像检索增强生成(RAG)、文本RAG和基线方法。图像RAG使用KNN方法,文本RAG利用外部知识信息。
  • Result: 文本RAG能有效减少幻觉问题;图像RAG通过KNN方法提高了预测置信度和校准性能;GPT LLM在性能、幻觉率和预期校准误差(ECE)方面均优于Llama模型。
  • Conclusion: 研究揭示了数据不平衡和多阶段复杂结构的挑战,但提出了大规模实验环境和平衡使用示例的解决方案。多模态方法结合外部知识能有效减少医学图像分析中的幻觉问题,GPT LLM在医学应用中的表现优于Llama模型。

[39] Improving Zero-shot ADL Recognition with Large Language Models through Event-based Context and Confidence

Michele Fiori,Gabriele Civitarese,Marco Colussi,Claudio Bettini

Main category: cs.CV

TL;DR: 提出基于事件分割和置信度估计的零样本ADL识别方法,超越时间分割和传统监督方法

  • Motivation: 现有基于LLM的零样本ADL识别方法依赖时间分割,与LLM的上下文推理能力不匹配,且缺乏预测置信度估计方法
  • Method: 采用事件分割替代时间分割,并提出新的预测置信度估计方法
  • Result: 事件分割在复杂数据集上持续优于时间分割方法,甚至超越监督方法;置信度估计能有效区分预测正误
  • Conclusion: 事件分割和置信度估计显著提升了零样本ADL识别的性能,即使使用相对较小的LLM也能取得优异效果

[40] AIMC-Spec: A Benchmark Dataset for Automatic Intrapulse Modulation Classification under Variable Noise Conditions

Sebastian L. Cocks,Salvador Dreo,Feras Dayoub

Main category: cs.CV

TL;DR: 该论文提出了AIMC-Spec数据集,这是一个用于基于频谱图的雷达信号内脉冲调制分类的标准化合成数据集,包含33种调制类型和13个信噪比级别,并评估了5种深度学习算法的性能。

  • Motivation: 雷达信号分析中的自动内脉冲调制分类(AIMC)长期以来缺乏标准化数据集,这阻碍了在噪声或退化条件下的研究进展。AIMC对于电子支持系统至关重要,需要从单个雷达脉冲的I/Q表示中识别调制类型。
  • Method: 创建了AIMC-Spec合成数据集,包含33种调制类型和13个SNR级别。重新实现并评估了5种代表性深度学习算法(轻量级CNN、去噪架构、基于Transformer的网络),使用统一的频谱图输入格式进行基准测试。
  • Result: 结果显示性能存在显著差异:频率调制(FM)信号比相位或混合调制类型分类更可靠,特别是在低SNR条件下。专门的FM测试进一步表明调制类型和网络架构影响分类器的鲁棒性。
  • Conclusion: AIMC-Spec为AIMC领域建立了可重复的基准,为未来研究和标准化提供了基础,有助于推动雷达信号自动调制分类的发展。

[41] HIPPO: Accelerating Video Large Language Models Inference via Holistic-aware Parallel Speculative Decoding

Qitan Lv,Tianyu Liu,Wen Wu,Xuenan Xu,Bowen Zhou,Feng Wu,Chao Zhang

Main category: cs.CV

TL;DR: HIPPO是一个针对视频-LLM的并行推测解码框架,通过语义感知的token保留和并行解码策略,实现了最高3.51倍的推理加速。

  • Motivation: 现有视频-LLM的推测解码方法主要通过剪枝冗余视觉token来加速,但无法达到纯文本LLM的加速效果。主要问题包括:剪枝策略未能充分保留视觉语义token,导致草稿质量下降和接受率降低;即使激进剪枝,草稿模型的剩余推理成本仍限制整体加速效果。
  • Method: HIPPO提出两个核心方法:1)语义感知token保留方法,融合全局注意力分数和局部视觉语义,在高剪枝率下保留语义信息;2)视频并行推测解码算法,将草稿生成和目标验证阶段解耦并重叠执行。
  • Result: 在四个视频-LLM和六个基准测试上的实验表明,HIPPO相比原始自回归解码实现了最高3.51倍的加速效果。
  • Conclusion: HIPPO通过更有效的语义保留策略和并行解码架构,显著提升了视频-LLM的推理效率,解决了现有推测解码方法在视频领域的局限性。

[42] One-Shot Identification with Different Neural Network Approaches

Janis Mohr,Jörg Frochte

Main category: cs.CV

TL;DR: 该论文探索了使用胶囊网络进行小样本学习,在工业应用和人脸识别等任务中取得了优于其他方法的结果。

  • Motivation: 卷积神经网络在计算机视觉中取得了显著进展,但在数据稀缺的情况下(如小样本学习)学习好的特征计算成本高且困难。小样本学习需要在仅看到一个类别的一个示例后做出预测,这需要特殊技术。
  • Method: 使用堆叠图像技术和孪生胶囊网络来处理小样本识别任务。该方法结合了堆叠图像表示和胶囊网络架构。
  • Result: 胶囊网络架构在从工业应用到人脸识别基准测试的广泛数据集上取得了强劲结果,超过了其他技术,同时易于使用和优化。
  • Conclusion: 使用胶囊架构的方法在小样本识别任务中表现优异,为数据稀缺场景下的计算机视觉应用提供了有效的解决方案。

[43] KidVis: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old?

Xianfeng Wang,Kaiwei Zhang,Qi Jia,Zijian Chen,Guangtao Zhai,Xiongkuo Min

Main category: cs.CV

TL;DR: 该研究通过儿童视觉发展理论构建KidVis基准,评估多模态大语言模型的基础视觉能力,发现即使最先进的GPT-5也远不及6-7岁儿童水平,且存在"缩放定律悖论"。

  • Motivation: 虽然多模态大语言模型在高级推理任务上表现出色,但其是否具备人类直觉般的基础视觉能力仍不明确。研究者希望探究MLLMs是否拥有类似人类儿童的基础视觉感知能力。
  • Method: 基于人类视觉发展理论构建KidVis基准,将视觉智能分解为6种原子能力(专注、追踪、辨别、记忆、空间、闭合),包含10类低语义依赖的视觉任务。评估20个最先进的MLLMs,并与人类儿童(6-7岁)的生理基线进行对比。
  • Result: 人类儿童平均得分95.32(接近完美),而最先进的GPT-5仅得67.33。发现"缩放定律悖论":单纯增加模型参数并不能线性提升这些基础视觉能力。
  • Conclusion: 当前MLLMs尽管具备强大的推理能力,但缺乏实现广义视觉智能所需的基础生理感知能力。这表明需要新的方法来培养模型的基础视觉能力,而非仅仅扩大规模。

[44] M3SR: Multi-Scale Multi-Perceptual Mamba for Efficient Spectral Reconstruction

Yuze Zhang,Lingjie Li,Qiuzhen Lin,Zhong Ming,Fei Yu,Victor C. M. Leung

Main category: cs.CV

TL;DR: 提出M3SR架构,通过多尺度多感知Mamba解决光谱重建中单空间感知和单尺度特征提取的局限性,在计算成本更低的情况下超越现有方法。

  • Motivation: Mamba架构在低层视觉任务中表现出色,但在光谱重建任务中面临两个挑战:1) 单空间感知限制了全面理解高光谱图像的能力;2) 单尺度特征提取难以捕捉高光谱图像中的复杂结构和精细细节。
  • Method: 提出M3SR架构,设计多感知融合块增强模型对输入特征的全面理解和分析能力。将多感知融合块集成到U-Net结构中,有效提取和融合全局、中间和局部特征,实现多尺度高光谱图像重建。
  • Result: 大量定量和定性实验表明,M3SR在计算成本更低的情况下优于现有最先进方法。
  • Conclusion: M3SR通过多尺度多感知Mamba架构成功解决了光谱重建中的单空间感知和单尺度特征提取问题,实现了更准确的高光谱图像重建。

[45] ReCo-KD: Region- and Context-Aware Knowledge Distillation for Efficient 3D Medical Image Segmentation

Qizhen Lan,Yu-Chun Hsu,Nida Saddaf Khan,Xiaoqian Jiang

Main category: cs.CV

TL;DR: 提出ReCo-KD知识蒸馏框架,通过区域感知和上下文对齐技术,将大模型知识迁移到轻量级网络,实现3D医学图像分割的高效部署

  • Motivation: 现有最先进的3D医学图像分割模型通常过大,不适合计算资源有限的临床环境,而轻量级架构通常性能损失严重,需要解决部署和速度限制
  • Method: 提出Region- and Context-aware Knowledge Distillation (ReCo-KD)框架,包含:1) Multi-Scale Structure-Aware Region Distillation (MS-SARD),使用类别感知掩码和尺度归一化权重强调临床重要的小区域;2) Multi-Scale Context Alignment (MS-CA),在不同特征层级对齐师生网络的亲和模式
  • Result: 在多个公开3D医学分割数据集和具有挑战性的聚合数据集上,蒸馏后的轻量级模型达到接近教师模型的精度,同时显著减少参数和推理延迟
  • Conclusion: ReCo-KD框架无需定制学生网络设计,可轻松适配其他架构,为临床部署提供了实用的解决方案,平衡了精度和效率

[46] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Dongting Hu,Aarush Gupta,Magzhan Gabidolla,Arpit Sahni,Huseyin Coskun,Yanyu Li,Yerlan Idelbayev,Ahsan Mahmood,Aleksei Lebedev,Dishani Lahiri,Anujraaj Goyal,Ju Hu,Mingming Gong,Sergey Tulyakov,Anil Kag

Main category: cs.CV

TL;DR: 提出高效扩散变换器框架,针对移动和边缘设备优化,在严格资源约束下实现高质量图像生成。

  • Motivation: 当前扩散变换器在图像生成方面表现出色,但计算和内存成本过高,不适合在移动和边缘设备上部署。
  • Method: 1. 紧凑DiT架构,采用自适应全局-局部稀疏注意力机制;2. 弹性训练框架,联合优化不同容量的子DiT;3. 知识引导分布匹配蒸馏,结合DMD目标和少步教师模型知识转移。
  • Result: 实现了在移动设备上高质量、低延迟的图像生成(如4步生成),适合实时设备端使用。
  • Conclusion: 该框架为不同硬件提供了可扩展、高效且高质量的扩散模型部署方案。

[47] Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation

Kang Fu,Huiyu Duan,Zicheng Zhang,Yucheng Zhu,Jun Zhao,Xiongkuo Min,Jia Wang,Guangtao Zhai

Main category: cs.CV

TL;DR: IQARAG是一个无需训练的新框架,利用检索增强生成(RAG)提升大型多模态模型在图像质量评估(IQA)中的性能,通过检索语义相似但质量不同的参考图像及其主观评分来提供视觉感知锚点。

  • Motivation: 当前大型多模态模型在图像质量评估任务中表现出色,但达到最先进性能通常需要计算成本高昂的微调方法。需要一种资源高效的无训练方法来提升LMMs的IQA能力。
  • Method: IQARAG包含三个关键阶段:检索特征提取、图像检索、集成与质量分数生成。框架检索语义相似但质量不同的参考图像及其平均意见分数,将这些检索到的图像与输入图像整合到特定提示中,为LMM提供IQA任务的视觉感知锚点。
  • Result: 在KADID、KonIQ、LIVE Challenge和SPAQ等多个多样化IQA数据集上的广泛实验表明,IQARAG有效提升了LMMs的IQA性能,为质量评估提供了资源高效的微调替代方案。
  • Conclusion: IQARAG是一个无需训练的新框架,通过检索增强生成技术显著提升大型多模态模型在图像质量评估任务中的能力,为资源受限场景提供了有效的解决方案。

[48] YOLOBirDrone: Dataset for Bird vs Drone Detection and Classification and a YOLO based enhanced learning architecture

Dapinder Kaur,Neeraj Battish,Arnav Bhavsar,Shashi Poddar

Main category: cs.CV

TL;DR: 提出YOLOBirDrone架构,通过AELAN、MPDA和RMPDA模块改进无人机与鸟类的检测分类准确率,并引入BirDrone数据集,检测精度达85%

  • Motivation: 无人机在商业和国防应用广泛,但也用于攻击行为,需要检测系统。现有视觉检测系统精度有限,难以区分无人机和小型鸟类。
  • Method: 提出YOLOBirDrone架构,包含自适应扩展层聚合(AELAN)、多尺度渐进双注意力模块(MPDA)和反向MPDA(RMPDA),以保持形状信息并丰富局部和全局空间通道特征。同时引入包含小型挑战性物体的大规模BirDrone数据集。
  • Result: 实验结果显示,YOLOBirDrone相比其他先进算法在性能指标上有改进,在各种场景下检测准确率达到约85%。
  • Conclusion: 提出的YOLOBirDrone架构能有效提高无人机和鸟类的检测分类精度,解决了现有系统区分困难的问题,为无人机检测系统提供了更好的解决方案。

[49] UM-Text: A Unified Multimodal Model for Image Understanding

Lichen Ma,Xiaolong Fu,Gaojing Zhou,Zipeng Guo,Ting Zhu,Yichun Liu,Yu Shi,Jason Li,Junshi Huang

Main category: cs.CV

TL;DR: UM-Text是一个统一的多模态模型,通过自然语言指令实现上下文理解和视觉文本编辑,在保持与参考图像风格一致性的同时生成视觉文本。

  • Motivation: 现有视觉文本编辑方法需要复杂步骤指定文本内容和属性(字体大小、颜色、布局),且未考虑与参考图像的风格一致性。需要开发能够理解指令和参考图像上下文,生成风格一致视觉文本的方法。
  • Method: 1. 引入视觉语言模型(VLM)处理指令和参考图像,根据上下文信息精心设计文本内容和布局;2. 提出UM-Encoder结合各种条件信息的嵌入,由VLM根据输入指令自动配置组合;3. 提出区域一致性损失在潜在空间和RGB空间为字形生成提供有效监督;4. 设计三阶段训练策略增强模型性能;5. 贡献UM-DATA-200K大规模视觉文本图像数据集。
  • Result: 在多个公共基准测试上的广泛定性和定量结果表明,该方法实现了最先进的性能。
  • Conclusion: UM-Text通过统一的多模态框架解决了视觉文本编辑中的风格一致性问题,通过VLM理解上下文、UM-Encoder融合条件信息、区域一致性损失和三阶段训练策略,实现了高质量的视觉文本生成。

[50] IGAN: A New Inception-based Model for Stable and High-Fidelity Image Synthesis Using Generative Adversarial Networks

Ahmed A. Hashim,Ali Al-Shuwaili,Asraa Saeed,Ali Al-Bayaty

Main category: cs.CV

TL;DR: 提出IGAN模型,结合Inception卷积和空洞卷积,在保持训练稳定性的同时生成高质量图像,在CUB-200和ImageNet数据集上FID提升28-33%

  • Motivation: 现有GAN模型(如DCGAN、BigGAN、StyleGAN)在高质量图像生成和训练稳定性之间存在平衡难题,常面临模式崩溃和不稳定梯度问题
  • Method: 提出Inception GAN (IGAN)模型,结合深度Inception风格卷积和空洞卷积,在生成器和判别器中使用dropout和谱归一化技术
  • Result: 在CUB-200数据集上FID为13.12,ImageNet上为15.08,相比SOTA提升28-33%;IS分别为9.27和68.25,显示图像多样性和质量改善
  • Conclusion: IGAN模型有效平衡训练稳定性和图像生成质量,为高保真图像合成提供了可扩展且计算高效的框架

[51] Tissue Classification and Whole-Slide Images Analysis via Modeling of the Tumor Microenvironment and Biological Pathways

Junzhuo Liu,Xuemei Du,Daniel Reisenbuchler,Ye Chen,Markus Eckstein,Christian Matek,Friedrich Feuerhake,Dorit Merhof

Main category: cs.CV

TL;DR: BioMorphNet是一个多模态网络,自动整合全切片图像的组织形态特征和空间基因表达数据,用于组织分类和差异基因分析,在多种癌症数据集上优于现有方法。

  • Motivation: 现有研究主要关注单个基因序列和切片级别的分类任务,对空间转录组学和补丁级别应用关注有限。需要开发能够整合组织形态特征和空间基因表达的方法,以支持精准临床诊断和癌症进展研究。
  • Method: BioMorphNet构建图模型来建模目标补丁与其邻居的关系,基于形态和分子相似性调整响应强度;从空间转录组数据中提取临床通路特征作为形态和基因表达的桥梁;设计可学习的通路模块自动模拟生物通路形成过程。
  • Result: 在前列腺癌、结直肠癌和乳腺癌数据集上,BioMorphNet的平均分类指标分别提高了2.67%、5.48%和6.29%。不仅能准确分类WSI中的组织类别以支持肿瘤定位,还能基于预测置信度分析组织类别间的差异基因表达。
  • Conclusion: BioMorphNet通过整合组织形态特征和空间基因表达,在组织分类和差异基因分析方面表现出色,有助于肿瘤定位和潜在肿瘤生物标志物的发现,为精准临床诊断和癌症研究提供了有力工具。

[52] From Local Windows to Adaptive Candidates via Individualized Exploratory: Rethinking Attention for Image Super-Resolution

Chunyu Meng,Wei Long,Shuhang Gu

Main category: cs.CV

TL;DR: 提出IET模型,通过Individualized Exploratory Attention机制,让每个token自适应选择注意力候选,实现高效且精确的超分辨率重建。

  • Motivation: 现有Transformer-based超分辨率方法虽然性能优秀,但计算成本高。大多数方法采用固定分组注意力,忽略了token相似性的固有不对称性,无法实现灵活的自适应注意力计算。
  • Method: 提出Individualized Exploratory Transformer (IET),引入Individualized Exploratory Attention (IEA)机制,让每个token自适应选择内容感知且独立的注意力候选,实现token自适应和非对称的注意力计算。
  • Result: 在标准超分辨率基准测试上的大量实验表明,IET在可比较的计算复杂度下实现了最先进的性能。
  • Conclusion: IET通过token自适应的注意力机制,在保持计算效率的同时实现了更精确的信息聚合,为单图像超分辨率提供了有效的解决方案。

[53] Semantic Misalignment in Vision-Language Models under Perceptual Degradation

Guo Cheng

Main category: cs.CV

TL;DR: 该研究系统分析了视觉语言模型在感知退化下的语义对齐问题,发现即使分割指标下降不大,VLM也会出现严重的安全关键错误,揭示了像素级鲁棒性与多模态语义可靠性之间的脱节。

  • Motivation: 尽管视觉语言模型在多模态基准测试中表现良好,但它们在真实感知退化下的鲁棒性仍不清楚。自动驾驶和具身AI系统需要可靠的感知来确保安全语义推理和决策,因此理解VLM在感知退化下的行为至关重要。
  • Method: 使用Cityscapes数据集上的语义分割作为代表性感知模块,引入感知现实的退化方法,这些退化仅导致传统分割指标适度下降。然后分析多种对比式和生成式VLM在下游任务中的行为,提出语言级错位指标来量化幻觉、关键遗漏和安全误判。
  • Result: 研究发现,即使分割质量只有适度下降,VLM也会出现严重的下游行为失败,包括幻觉对象提及、遗漏安全关键实体和不一致的安全判断。不同VLM模型都表现出像素级鲁棒性与多模态语义可靠性之间的明显脱节。
  • Conclusion: 当前基于VLM的系统存在关键局限性,需要开发能够明确考虑感知不确定性的评估框架,特别是在安全关键应用中。研究强调了在真实感知退化下评估VLM语义可靠性的重要性。

[54] Geo-NVS-w: Geometry-Aware Novel View Synthesis In-the-Wild with an SDF Renderer

Anastasios Tsalakopoulos,Angelos Kanlis,Evangelos Chatzis,Antonis Karakottas,Dimitrios Zarpalas

Main category: cs.CV

TL;DR: Geo-NVS-w是一个几何感知的框架,用于从非结构化野外图像集合进行高保真新视角合成,通过SDF几何表示和几何保持损失来确保几何一致性,同时大幅降低能耗。

  • Motivation: 现有野外新视角合成方法虽然表现良好,但缺乏复杂表面上的几何基础,有时会产生不一致的结果。需要一种既能保持高保真渲染又能确保几何一致性的方法。
  • Method: 基于有符号距离函数(SDF)的几何表示来指导渲染过程,并引入新颖的几何保持损失来确保精细结构细节的保留。
  • Result: 实现了具有竞争力的渲染性能,同时相比类似方法能耗降低了4-5倍,能够生成具有锐利、几何一致细节的逼真结果。
  • Conclusion: Geo-NVS-w是一个强大的野外新视角合成方法,通过几何感知框架实现了高质量渲染和几何一致性,同时显著降低了计算能耗。

[55] Source-Free Domain Adaptation for Geospatial Point Cloud Semantic Segmentation

Yuan Gao,Di Cao,Xiaohuan Xi,Sheng Nie,Shaobo Xia,Cheng Wang

Main category: cs.CV

TL;DR: 提出LoGo框架用于地理空间点云的无源域自适应,通过局部-全局双重共识机制解决长尾分布和领域偏移问题

  • Motivation: 地理空间点云语义分割面临跨区域地理模式变化导致的领域偏移问题,现有域自适应方法需要源域数据,但实际中由于隐私、法规等限制难以获取,因此需要研究无源域自适应方法
  • Method: 提出LoGo框架:1) 局部层面:类平衡原型估计模块,采用类内独立锚点挖掘策略而非全局阈值过滤;2) 全局层面:基于最优传输的全局分布对齐模块,将伪标签分配建模为全局优化问题;3) 双重一致性伪标签过滤机制,保留局部多增强集成预测与全局最优传输分配一致的高置信度伪标签
  • Result: 该方法能有效生成样本稀缺尾类的稳健特征原型,缓解长尾分布导致的特征坍塌,纠正头类过度主导问题,防止模型预测偏向多数类
  • Conclusion: LoGo框架为地理空间点云的无源域自适应提供了一种有效解决方案,通过局部-全局双重共识机制解决了长尾分布和领域偏移的挑战

[56] Design and Development of a Low-Cost Scalable GSM-IoT Smart Pet Feeder with a Remote Mobile Application

Md. Rakibul Hasan Nishat,S. M. Khalid Bin Zahid,Abdul Hasib,T. M. Mehrab Hasan,Mohammad Arman,A. S. M. Ahsanul Sarkar Akib

Main category: cs.CV

TL;DR: 开发了一个基于GSM-IoT的低成本智能宠物喂食器,通过蜂窝通信实现远程监控和控制,无需互联网连接

  • Motivation: 现代家庭宠物饲养日益普遍,但城市中忙碌的主人难以保持一致的喂食时间表,需要一种经济实惠的解决方案
  • Method: 采用Arduino微控制器、SIM800L GSM模块、超声波传感器和伺服机构,结合MIT App Inventor开发的移动应用
  • Result: SMS命令成功率98%,喂食量误差±2.67%,可靠自主运行,模块化节能设计适用于资源有限家庭
  • Conclusion: 该工作推动了可访问宠物护理技术发展,提供了实用、可扩展且完全独立于互联网的解决方案,为低成本GSM智能宠物产品设定了新标准

[57] An Explainable Two Stage Deep Learning Framework for Pericoronitis Assessment in Panoramic Radiographs Using YOLOv8 and ResNet-50

Ajo Babu George,Pranav S,Kunal Agarwal

Main category: cs.CV

TL;DR: 开发了一个用于全景X光片上诊断冠周炎的两阶段AI系统,包含牙齿定位/分类和病理检测,并加入可解释性功能以提高临床信任度。

  • Motivation: 克服在全景X光片上诊断冠周炎的挑战,需要一个集成了解剖定位、病理分类和可解释性的AI辅助评估系统。
  • Method: 采用两阶段深度学习流程:第一阶段使用YOLOv8检测第三磨牙并基于Winter分类法分类其解剖位置和角度;第二阶段使用改进的ResNet-50架构检测提示冠周炎的放射学特征,并使用Grad-CAM突出关键诊断区域以增强可解释性。
  • Result: YOLOv8组件达到92%精确度和92.5%平均精确度;ResNet-50分类器对正常病例和冠周炎的F1分数分别为88%和86%;放射科医生报告Grad-CAM与其诊断印象有84%的一致性。
  • Conclusion: 该系统在全景X光评估中显示出强大的AI辅助潜力,其可解释AI特征有助于提高临床信心。

[58] Edge-Optimized Multimodal Learning for UAV Video Understanding via BLIP-2

Yizhan Feng,Hichem Snoussi,Jing Teng,Jian Liu,Yuyang Wang,Abel Cherouat,Tian Wang

Main category: cs.CV

TL;DR: 提出基于BLIP-2的轻量级多模态任务平台,集成YOLO-World和YOLOv8-Seg模型,解决无人机边缘设备计算资源有限与视觉语言模型高计算成本之间的矛盾。

  • Motivation: 无人机在复杂场景中需要实时视觉理解和交互,但大型视觉语言模型的高计算成本与无人机边缘设备的有限计算资源之间存在矛盾,需要轻量级解决方案。
  • Method: 1) 深度集成BLIP-2与YOLO模型,利用YOLO的精确感知结果;2) 基于K-Means聚类的内容感知关键帧采样机制;3) 统一的多任务适应提示优化方案,将YOLO的结构化事件日志作为上下文信息注入。
  • Result: 平台扩展了BLIP-2的多任务能力,无需在无人机数据上进行任务特定微调,即可处理视频级交互任务,生成准确且上下文相关的输出。
  • Conclusion: 提出的轻量级多模态平台有效解决了无人机边缘设备计算资源限制问题,通过模型集成和优化机制实现了高效的实时视觉理解和交互能力。

[59] SPARK: Scalable Real-Time Point Cloud Aggregation with Multi-View Self-Calibration

Chentian Sun

Main category: cs.CV

TL;DR: SPARK是一个自标定的实时多相机3D点云重建框架,联合处理点云融合和相机外参不确定性,通过几何感知的在线外参估计和置信度驱动的点云融合策略,在动态场景中实现稳定重建。

  • Motivation: 现有方法在多视角融合、相机外参不确定性和大规模相机设置的可扩展性方面存在困难,需要一种能够同时处理点云融合和外参不确定性的实时多相机3D重建框架。
  • Method: SPARK包含两个核心模块:(1) 几何感知的在线外参估计模块,利用多视角先验并强制跨视角和时间一致性实现稳定自标定;(2) 置信度驱动的点云融合策略,在像素和点级别建模深度可靠性和可见性,抑制噪声和视角相关的不一致性。
  • Result: 在真实世界多相机系统上的大量实验表明,SPARK在外参精度、几何一致性、时间稳定性和实时性能方面优于现有方法,证明了其在大规模多相机3D重建中的有效性和可扩展性。
  • Conclusion: SPARK通过联合处理点云融合和外参不确定性,实现了稳定、实时的大规模多相机3D重建,特别适用于动态场景,且计算复杂度与相机数量呈线性关系。

[60] MMLGNet: Cross-Modal Alignment of Remote Sensing Data using CLIP

Aditya Chaudhary,Sneha Barman,Mainak Singha,Ankit Jha,Girish Mishra,Biplab Banerjee

Main category: cs.CV

TL;DR: 提出MMLGNet多模态框架,通过CLIP等视觉语言模型将高光谱成像和LiDAR等异构遥感模态与自然语言语义对齐,使用双向对比学习在共享潜在空间中对齐视觉特征与手工文本嵌入。

  • Motivation: 随着多模态地球观测数据的日益增多,需要能够有效融合光谱、空间和几何信息,同时实现语义级理解的方法。现有方法在将高维遥感数据与语言引导解释相结合方面存在不足。
  • Method: 采用模态特定编码器,通过双向对比学习在共享潜在空间中对齐视觉特征与手工文本嵌入。受CLIP训练范式启发,使用简单的CNN编码器,将异构遥感模态与自然语言语义对齐。
  • Result: 在两个基准数据集上,MMLGNet超越了多个已建立的多模态视觉方法,展示了语言监督的显著优势。即使使用简单的CNN编码器也能实现强大性能。
  • Conclusion: MMLGNet成功地将异构遥感模态与自然语言语义对齐,证明了语言监督在多模态遥感数据分析中的重要性,为遥感数据的语义级理解提供了有效框架。

[61] Deep Learning Based Facial Retargeting Using Local Patches

Yeonsoo Choi,Inyup Lee,Sihun Cha,Seonghyeon Kim,Sunjin Jung,Junyong Noh

Main category: cs.CV

TL;DR: 提出基于局部块的面部动画重定向方法,将源视频中的面部动画转移到风格化3D角色上,保持语义表达

  • Motivation: 当前面部动画重定向方法在相似形状模型间效果良好,但在处理风格化或夸张的3D角色时面临挑战,需要保持原始面部动作的语义含义
  • Method: 提出三模块方法:1)自动块提取模块从源视频帧提取局部块;2)重演模块生成对应的目标局部块;3)权重估计模块计算每帧动画参数
  • Result: 实验表明该方法能成功将源面部表情的语义含义转移到面部特征比例差异较大的风格化角色上
  • Conclusion: 该方法有效解决了风格化3D角色面部动画重定向的挑战,保持了原始面部动作的语义完整性

[62] Incentivizing Cardiologist-Like Reasoning in MLLMs for Interpretable Echocardiographic Diagnosis

Yi Qin,Lehan Wang,Chenxu Zhao,Alex P. W. Lee,Xiaomeng Li

Main category: cs.CV

TL;DR: 提出CardiacMind框架,通过Cardiac Reasoning Template和强化学习奖励机制,增强多模态大语言模型在超声心动图诊断中的推理能力,实现类似心脏病专家的思维过程。

  • Motivation: 现有超声心动图基础模型未能有效捕捉定量测量与临床表现之间的关系,而医学推理多模态大语言模型需要昂贵的详细推理路径构建,且难以直接融入超声心动图先验知识。
  • Method: 提出Cardiac Reasoning Template(CRT)提供复杂心脏疾病的逐步规范诊断流程,并开发CardiacMind强化学习方案,包含三个新颖奖励:程序数量奖励(PQtR)、程序质量奖励(PQlR)和超声心动图语义奖励(ESR)。
  • Result: 在15种复杂心脏疾病的多视角超声心动图诊断中性能提升48%,在CardiacNet-PAH上提升5%。用户研究显示93.33%的临床医生同意其推理逻辑类似心脏病专家。
  • Conclusion: CardiacMind框架通过引入心脏病专家思维模式和强化学习奖励机制,显著提升了多模态大语言模型在超声心动图诊断中的推理能力,为医学影像诊断提供了有效解决方案。

[63] Noise-Adaptive Regularization for Robust Multi-Label Remote Sensing Image Classification

Tom Burgert,Julia Henkel,Begüm Demir

Main category: cs.CV

TL;DR: 提出NAR方法,一种针对遥感多标签分类中标签噪声的自适应正则化方法,能区分加性噪声和减性噪声,通过置信度机制动态处理标签,结合早期学习正则化提升鲁棒性。

  • Motivation: 遥感多标签分类中,由于使用主题产品或众包标注降低成本,常引入部分错误的标签噪声(加性、减性或混合噪声)。现有方法大多忽视噪声类型差异,直接将噪声标注作为监督信号,缺乏针对不同噪声类型的学习机制。
  • Method: 提出NAR(噪声自适应正则化)方法,在半监督学习框架下明确区分加性噪声和减性噪声。采用基于置信度的标签处理机制:高置信度标签保留,中等置信度标签暂时停用,低置信度标签通过翻转进行校正。这种选择性监督衰减与早期学习正则化(ELR)结合,稳定训练并减轻对噪声标签的过拟合。
  • Result: 在加性、减性和混合噪声场景下的实验表明,NAR相比现有方法持续提升鲁棒性。在减性噪声和混合噪声下性能提升最为显著,表明自适应抑制和选择性校正噪声监督是遥感多标签分类中噪声鲁棒学习的有效策略。
  • Conclusion: NAR方法通过区分噪声类型并自适应处理标签,有效解决了遥感多标签分类中的标签噪声问题,特别是在减性和混合噪声场景下表现出色,为噪声鲁棒学习提供了有效策略。

[64] Divide and Conquer: Static-Dynamic Collaboration for Few-Shot Class-Incremental Learning

Kexin Bao,Daichi Zhang,Yong Li,Dan Zeng,Shiming Ge

Main category: cs.CV

TL;DR: 提出静态-动态协作(SDC)框架解决少样本类增量学习中的稳定性-可塑性困境,将任务分为静态保留和动态学习两个阶段,在三个公开基准和实际应用数据集上达到SOTA性能。

  • Motivation: 少样本类增量学习(FSCIL)面临稳定性-可塑性困境:需要在有限数据下持续识别新类别,同时平衡旧知识的保留和新知识的获取。
  • Method: 提出静态-动态协作(SDC)框架,将FSCIL分为两个阶段:1)静态保留阶段(SRS):在基础会话中训练初始模型并保存关键部分作为静态记忆;2)动态学习阶段(DLS):引入额外的动态投影器与静态记忆联合训练,分别处理旧静态类别信息和增量动态类别信息。
  • Result: 在三个公开基准数据集和一个实际应用数据集上的实验表明,该方法相比其他竞争方法取得了最先进的性能。
  • Conclusion: SDC框架通过分离静态保留和动态学习阶段,有效平衡了稳定性与可塑性,在少样本类增量学习中实现了更好的旧知识保留和新类别适应能力。

[65] Developing Predictive and Robust Radiomics Models for Chemotherapy Response in High-Grade Serous Ovarian Carcinoma

Sepideh Hatamikia,Geevarghese George,Florian Schwarzhans,Amirreza Mahbod,Marika AV Reinius,Ali Abbasian Ardakani,Mercedes Jimenez-Linan,Satish Viswanath,Mireia Crispin-Ortuzar,Lorena Escudero Sanchez,Evis Sala,James D Brenton,Ramona Woitek

Main category: cs.CV

TL;DR: 本研究开发了一个结合特征稳健性和预测准确性的放射组学框架,用于预测高级别浆液性卵巢癌患者对新辅助化疗的反应,最佳模型在体积减少预测上达到AUC 0.83。

  • Motivation: 高级别浆液性卵巢癌通常晚期诊断且腹膜转移广泛,约40%患者对新辅助化疗反应有限。放射组学结合机器学习为无创预测治疗反应提供了有前景的方法,但需要提高预测准确性。
  • Method: 引入自动化随机化算法模拟观察者间变异,平衡特征稳健性和预测准确性。使用四种反应指标(CRS、RECIST、VolR、DiaR),研究不同解剖部位病灶。使用NACT前后CT扫描进行特征提取和模型训练,并在独立队列进行外部验证。
  • Result: 体积减少预测在所有病灶组合时表现最佳(AUC 0.83),网膜病灶在CRS预测中表现最好(AUC 0.77),盆腔病灶在DiaR预测中表现最佳(AUC 0.76)。
  • Conclusion: 将稳健性整合到特征选择过程中确保了可靠模型的开发,促进了放射组学模型在HGSOC患者临床应用中的实施。未来工作应探索放射组学在卵巢癌中的进一步应用,特别是在实时临床环境中。

[66] Modality-Decoupled RGB-Thermal Object Detector via Query Fusion

Chao Tian,Zikun Zhou,Chao Yang,Guoqing Zhu,Fu'an Zhong,Zhenyu He

Main category: cs.CV

TL;DR: 提出MDQF框架,通过查询融合平衡RGB-T检测中的模态互补与分离,在极端条件下排除退化模态影响,无需配对数据训练

  • Motivation: RGB-T检测虽能融合跨模态互补信息,但在极端条件下(某一模态质量差)会干扰检测,需要模态分离来减轻噪声影响
  • Method: 使用DETR-like检测器作为RGB和TIR图像的独立分支,在每级细化阶段进行查询融合:通过查询选择和适配,将高质量查询从一个分支馈送到另一分支
  • Result: 实验表明该方法优于现有RGB-T检测器,实现更好的模态独立性
  • Conclusion: MDQF框架能有效平衡模态互补与分离,在极端条件下排除退化模态影响,且无需配对RGB-T数据训练

[67] CoMa: Contextual Massing Generation with Vision-Language Models

Evgenii Maslov,Valentin Khrulkov,Anastasia Volkova,Anton Gusarov,Andrey Kuznetsov,Ivan Oseledets

Main category: cs.CV

TL;DR: 提出CoMa-20K数据集和基于视觉语言模型的建筑体量生成框架,解决建筑设计自动化中的数据缺乏问题

  • Motivation: 建筑概念设计阶段(特别是建筑体量设计)复杂且依赖设计师直觉和手动工作,需要自动化方法但缺乏合适的数据集
  • Method: 1) 创建CoMa-20K数据集,包含详细体量几何、经济与功能数据、场地视觉上下文;2) 将体量生成作为条件任务,评估微调和零样本视觉语言模型
  • Result: 实验显示任务固有复杂性,同时证明视觉语言模型能够生成上下文敏感的体量方案,数据集和分析为数据驱动建筑设计建立基准
  • Conclusion: CoMa-20K数据集和视觉语言模型方法为建筑体量生成提供了基础基准,展示了数据驱动建筑设计的重要研究机会

[68] Zero-Shot Distracted Driver Detection via Vision Language Models with Double Decoupling

Takamichi Miyata,Sumiko Miyata,Andrew Morris

Main category: cs.CV

TL;DR: 提出一种主题解耦框架,通过提取驾驶员外观嵌入并从图像嵌入中移除其影响,来解决视觉语言模型在分心驾驶检测中因驾驶员外观变化导致的性能下降问题。

  • Motivation: 分心驾驶是交通事故的主要原因,需要鲁棒且可扩展的检测方法。现有基于视觉语言模型的分心驾驶检测器在现实条件下表现不佳,主要原因是模型将驾驶员特定外观变化(如服装、年龄、性别)与行为线索纠缠在一起,导致决策基于"驾驶员是谁"而非"驾驶员在做什么"。
  • Method: 提出主题解耦框架:1) 提取驾驶员外观嵌入;2) 在零样本分类前从图像嵌入中移除外观影响,强调与分心相关的证据;3) 通过Stiefel流形上的度量投影正交化文本嵌入,提高可分性同时保持原始语义。
  • Result: 实验表明该方法在先前基线方法上取得了持续改进,显示出在道路安全实际应用中的潜力。
  • Conclusion: 通过解耦驾驶员外观变化与行为线索,提出的框架能够更准确地检测分心驾驶行为,为实际道路安全应用提供了有前景的解决方案。

[69] Towards Safer Mobile Agents: Scalable Generation and Evaluation of Diverse Scenarios for VLMs

Takara Taniguchi,Kuniaki Saito,Atsushi Hashimoto

Main category: cs.CV

TL;DR: HazardForge是一个可扩展的管道,利用图像编辑模型生成包含移动、侵入和远距离物体的危险场景,并构建了MovSafeBench基准测试来评估视觉语言模型在复杂环境中的安全决策能力。

  • Motivation: 现有的基准测试无法充分覆盖多样化的危险情况,特别是具有时空动态的异常场景。随着视觉语言模型在自动驾驶和移动系统中的部署增加,评估其在复杂环境中支持安全决策的能力变得至关重要。
  • Method: 提出了HazardForge管道,利用图像编辑模型结合布局决策算法和验证模块来生成包含移动、侵入和远距离物体的危险场景。使用该管道构建了MovSafeBench基准测试,包含7,254张图像和对应的问答对,涵盖13个物体类别。
  • Result: 实验表明,视觉语言模型在存在异常物体的情况下性能显著下降,特别是在需要细微运动理解的场景中下降最大。
  • Conclusion: HazardForge能够有效生成复杂的危险场景,MovSafeBench基准测试揭示了视觉语言模型在异常场景理解方面的局限性,特别是在时空动态理解方面存在不足。

[70] Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models

Hao Tang,Yu Liu,Shuanglin Yan,Fei Shen,Shengfeng He,Jing Qin

Main category: cs.CV

TL;DR: CoEvo是一个无需训练和标注的测试时框架,通过双向、样本条件化的文本和视觉代理自适应,实现零样本OOD检测的跨模态对齐和稳定预测。

  • Motivation: 在开放世界部署视觉语言模型时,可靠的零样本OOD检测至关重要。现有基于负标签的方法使用固定的文本代理,存在两个问题:(1) 对ID类别之外的语义空间采样稀疏;(2) 文本代理静态不变而视觉特征漂移,导致跨模态错位和不稳定预测。
  • Method: 提出CoEvo框架,包含:1) 代理对齐的协同进化机制,维护两个进化的代理缓存;2) 基于测试图像动态挖掘上下文文本负样本;3) 迭代优化视觉代理;4) 动态重新加权双模态代理贡献,获得校准的OOD分数。
  • Result: 在标准基准测试中,CoEvo达到最先进性能,相比强负标签基线,在ImageNet-1K上AUROC提升1.33%,FPR95降低45.98%。
  • Conclusion: CoEvo通过双向、样本条件化的文本和视觉代理自适应,有效解决了零样本OOD检测中的跨模态错位问题,实现了对分布偏移的鲁棒性。

[71] An IoT-Enabled Smart Aquarium System for Real-Time Water Quality Monitoring and Automated Feeding

MD Fatin Ishraque Ayon,Sabrin Nahar,Ataur Rahman,Md. Taslim Arif,Abdul Hasib,A. S. M. Ahsanul Sarkar Akib

Main category: cs.CV

TL;DR: 基于ESP32的智能鱼缸系统,通过多传感器实时监测水质并自动控制,实现96%准确率和97%运行可靠性

  • Motivation: 传统鱼缸水质管理依赖人工监测,效率低、易出错,难以维持最佳水生环境,需要自动化解决方案
  • Method: 集成ESP32微控制器、多种传感器(pH、TDS、温度、浊度)和执行器(伺服喂食器、水泵),采用边缘处理、Blynk云平台连接和智能警报机制
  • Result: 在10升鱼缸环境中测试,传感器平均准确率达96%,异常检测响应时间1.2秒,自动模块运行可靠性达97%
  • Conclusion: 低成本物联网解决方案可革新鱼缸维护,使水生生态系统管理更易用、可靠和高效,适用于住宅和商业场景

[72] PKI: Prior Knowledge-Infused Neural Network for Few-Shot Class-Incremental Learning

Kexin Baoa,Fanzhao Lin,Zichen Wang,Yong Li,Dan Zeng,Shiming Ge

Main category: cs.CV

TL;DR: 提出PKI网络解决FSCIL问题,通过级联投影器集成先验知识,平衡遗忘和过拟合,并设计变体优化资源消耗

  • Motivation: 解决少样本类增量学习中的灾难性遗忘和新类过拟合问题。现有方法倾向于冻结更多网络组件,但需要平衡先验知识保留和新知识学习
  • Method: 提出先验知识注入神经网络(PKI),包含骨干网络、投影器集成、分类器和额外记忆。每个增量会话构建新投影器加入集成,仅微调新投影器和分类器,其他组件冻结。还设计了PKIV-1和PKIV-2变体减少投影器数量以优化资源消耗
  • Result: 在三个流行基准测试上的广泛实验表明,该方法优于最先进的方法
  • Conclusion: PKI通过级联投影器有效集成先验知识,灵活学习新知识,在资源消耗和性能之间取得良好平衡,成功解决FSCIL的挑战

[73] EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers

Wenwen Liao,Hang Ruan

Main category: cs.CV

TL;DR: EfficientFSL是一个针对ViT的查询专用微调框架,通过极少量可训练参数实现少样本分类,显著降低计算开销,同时保持竞争性能。

  • Motivation: 大型模型(如ViT)在少样本分类中表现优异,但微调需要大量GPU内存和训练时间,不适用于低资源场景。需要一种高效方法在保持性能的同时降低计算成本。
  • Method: 提出EfficientFSL框架:1) 轻量级可训练Forward Block合成任务特定查询,以查询专用方式从预训练模型中间表示中提取特征;2) Combine Block融合多层输出增强特征表示深度和鲁棒性;3) Support-Query Attention Block通过调整原型对齐查询集分布来缓解分布偏移。
  • Result: 在四个域内少样本数据集和六个跨域数据集上达到最先进性能,证明其在实际应用中的有效性。仅需极少量可训练参数即可实现高分类精度。
  • Conclusion: EfficientFSL为ViT少样本分类提供了一种高效解决方案,在保持竞争性能的同时显著降低计算开销,适用于现实世界的低资源场景。

[74] Closed-Loop LLM Discovery of Non-Standard Channel Priors in Vision Models

Tolgay Atinc Uzun,Dmitry Ignatov,Radu Timofte

Main category: cs.CV

TL;DR: 使用LLM驱动的NAS框架优化神经网络通道配置,通过AST突变生成大量有效架构数据,在CIFAR-100上实现显著精度提升。

  • Motivation: 传统神经网络架构搜索在通道配置优化上面临复杂的组合挑战,受限于张量形状兼容性和计算预算。作者认为LLM能够以传统启发式方法无法实现的方式推理架构代码结构,为NAS提供变革性方法。
  • Method: 将搜索问题构建为条件代码生成任务序列,LLM基于性能遥测数据细化架构规范。通过AST突变生成大量形状一致的有效架构数据,解决数据稀缺问题,使LLM能够学习通道配置与性能之间的潜在关系。
  • Result: 在CIFAR-100上的实验验证了该方法的有效性,模型在准确率上实现了统计显著的改进。分析确认LLM成功获取了领域特定的架构先验知识。
  • Conclusion: 该方法区别于随机搜索,突显了语言驱动设计在深度学习中的巨大潜力,LLM能够内化复杂的设计模式并应用于优化特征提取策略。

[75] CD^2: Constrained Dataset Distillation for Few-Shot Class-Incremental Learning

Kexin Bao,Daichi Zhang,Hansong Zhang,Yong Li,Yutao Yue,Shiming Ge

Main category: cs.CV

TL;DR: 提出CD²框架解决小样本类增量学习中的灾难性遗忘问题,通过数据集蒸馏模块和蒸馏约束模块来压缩保存关键知识

  • Motivation: 现有FSCIL方法通常使用外部存储器存储先前知识并平等对待增量类,无法适当保留先前关键知识,需要解决灾难性遗忘问题
  • Method: 提出CD²框架,包括数据集蒸馏模块(DDM)和蒸馏约束模块(DCM)。DDM在分类器指导下合成高度压缩的样本,迫使模型从少量增量样本中学习紧凑的类相关线索;DCM引入设计损失来约束先前学习的类分布,更充分地保留蒸馏知识
  • Result: 在三个公共数据集上的广泛实验表明,该方法优于其他最先进的竞争对手
  • Conclusion: CD²框架通过数据集蒸馏和约束机制有效解决了FSCIL中的灾难性遗忘问题,能够更好地保留先前关键知识

[76] VideoHEDGE: Entropy-Based Hallucination Detection for Video-VLMs via Semantic Clustering and Spatiotemporal Perturbations

Sushant Gautam,Cise Midoglu,Vajira Thambawita,Michael A. Riegler,Pål Halvorsen

Main category: cs.CV

TL;DR: VideoHEDGE:用于视频问答幻觉检测的模块化框架,通过语义熵和视觉增强方法在多个视频VLM上实现最佳检测性能

  • Motivation: 视频视觉语言模型(Video-VLMs)中幻觉频繁且置信度高,现有不确定性指标与正确性对齐不佳,需要专门针对视频时序结构的幻觉检测方法
  • Method: 提出VideoHEDGE框架:从原始视频和时空扰动变体中生成基线答案和高温采样,使用NLI或嵌入方法将文本输出聚类为语义假设,基于聚类概率计算三种可靠性分数(语义熵、RadFlag、视觉增强语义熵)
  • Result: 在SoccerChat基准测试中,VASE在三个7B视频VLM上获得最高ROC-AUC,尤其在较大扰动预算下表现优异;嵌入聚类与NLI聚类性能相当但计算成本更低;领域微调减少幻觉频率但校准改进有限
  • Conclusion: VideoHEDGE为视频问答幻觉检测提供了有效框架,VASE是最可靠的指标,嵌入聚类是计算高效的替代方案,领域微调对校准改善有限

[77] REVNET: Rotation-Equivariant Point Cloud Completion via Vector Neuron Anchor Transformer

Zhifan Ni,Eckehard Steinbach

Main category: cs.CV

TL;DR: 提出REVNET框架,基于向量神经元网络实现旋转等变点云补全,无需姿态对齐即可处理任意旋转的点云

  • Motivation: 现有点云补全方法通常在规范姿态下训练,对旋转敏感,数据增强增加学习负担且无法保证任意姿态下的鲁棒性
  • Method: 基于向量神经元网络构建旋转等变锚点变换器,使用等变锚点表示局部细节,设计VN缺失锚点变换器预测缺失锚点位置和特征,引入旋转等变偏置公式和ZCA层归一化
  • Result: 在合成MVP数据集上优于现有方法,在真实KITTI数据集上与非等变网络竞争,无需输入姿态对齐
  • Conclusion: REVNET通过旋转等变设计实现了对任意旋转点云的鲁棒补全,解决了现有方法对姿态敏感的局限性

[78] End-to-End Video Character Replacement without Structural Guidance

Zhengbo Xu,Jie Ma,Ziheng Wang,Zhan Peng,Jun Liang,Jing Li

Main category: cs.CV

TL;DR: MoCha是一个创新的视频角色替换框架,仅需单帧掩码即可实现可控角色替换,无需逐帧分割或显式结构指导,在复杂场景中表现优异。

  • Motivation: 现有基于重建的方法需要逐帧分割掩码和显式结构指导(如骨骼、深度),在遮挡、角色-物体交互、异常姿态或挑战性光照等复杂场景中泛化能力有限,容易产生视觉伪影和时间不一致性。
  • Method: 提出MoCha框架,仅需单帧任意掩码;引入条件感知RoPE适应多模态输入条件并增强面部身份;采用RL后训练阶段;构建三个专门数据集:UE5渲染的高保真数据集、当前肖像动画技术合成的表情驱动数据集、现有视频-掩码对衍生的增强数据集。
  • Result: 大量实验表明,该方法显著优于现有最先进方法,在复杂场景中表现出更好的泛化能力和时间一致性。
  • Conclusion: MoCha通过简化输入要求(仅需单帧掩码)和构建综合训练数据,有效解决了视频角色替换在复杂场景中的挑战,为可控视频角色替换提供了更实用和鲁棒的解决方案。

[79] WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation

Zishan Shu,Juntong Wu,Wei Yan,Xudong Liu,Hongyu Zhang,Chang Liu,Youdong Mao,Jie Chen

Main category: cs.CV

TL;DR: 提出WaveFormer模型,通过波动方程建模视觉特征传播,用Wave Propagation Operator替代注意力机制,在多个视觉任务上取得竞争性性能,同时提高计算效率。

  • Motivation: Transformer的注意力机制虽然能捕捉视觉依赖,但缺乏对语义信息如何在空间传播的原理性解释。现有方法没有明确建模空间频率(从低频全局布局到高频边缘纹理)与传播时间(网络深度)的交互。
  • Method: 从波动角度重新思考视觉建模:将特征图视为空间信号,其随内部传播时间(对应网络深度)的演化由欠阻尼波动方程控制。推导出频率-时间解耦的闭式解,实现为Wave Propagation Operator(WPO),以O(N log N)时间复杂度建模全局交互。基于WPO构建WaveFormer模型系列,可作为标准ViT和CNN的即插即用替代。
  • Result: 在图像分类、目标检测和语义分割任务上取得竞争性准确率,相比基于注意力的替代方案,吞吐量提升最高1.6倍,FLOPs减少30%。波动传播为基于热的方法引入了互补的建模偏差,能有效捕捉全局连贯性和高频细节。
  • Conclusion: 波动传播为视觉建模提供了新的视角,WaveFormer模型在保持性能的同时显著提升计算效率,展示了频率-时间解耦方法在视觉语义建模中的有效性。

[80] Interpretability and Individuality in Knee MRI: Patient-Specific Radiomic Fingerprint with Reconstructed Healthy Personas

Yaxi Chen,Simin Ni,Shuai Li,Shaheer U. Saeed,Aleksandra Ivanova,Rikin Hargunani,Jie Huang,Chaozong Liu,Yipeng Hu

Main category: cs.CV

TL;DR: 提出两种互补策略(放射组学指纹和健康人格)用于膝关节MRI自动评估,在保持可解释性的同时达到或超越深度学习模型性能。

  • Motivation: 传统放射组学特征在群体层面预定义,虽然可解释性强但过于受限,无法捕捉患者特异性变异;端到端深度学习性能好但缺乏可解释性。需要同时满足准确性和可解释性的临床需求。
  • Method: 1. 放射组学指纹:动态构建患者特异性特征集,通过图像条件预测器估计特征使用概率,使用透明逻辑回归进行分类。2. 健康人格:使用扩散模型重建健康膝关节MRI,为每个患者合成无病理基线,通过对比病理图像与健康人格的特征差异来定位疾病。
  • Result: 两种方法在三个临床任务中表现与最先进深度学习模型相当或更优,同时支持多层次可解释性。案例研究展示了这些方法如何促进人类可解释的生物标志物发现和病理定位。
  • Conclusion: 放射组学指纹和健康人格为膝关节MRI自动评估提供了准确且可解释的解决方案,平衡了深度学习性能与传统放射组学的可解释性,有望促进临床采用。

[81] SfMamba: Efficient Source-Free Domain Adaptation via Selective Scan Modeling

Xi Chen,Hongxun Yao,Sicheng Zhao,Jiankun Zhu,Jing Jiang,Kui Jiang

Main category: cs.CV

TL;DR: SfMamba:基于Mamba的源自由域自适应框架,通过通道序列扫描和语义一致打乱策略解决现有方法在感知场与计算效率之间的权衡问题

  • Motivation: 源自由域自适应(SFDA)在实际应用中面临数据隐私和存储限制,现有方法在域不变特征学习中难以平衡感知场和计算效率。虽然Mamba通过选择性扫描机制提供了长距离依赖建模的线性复杂度解决方案,但视觉Mamba在捕获域对齐关键的信道频率特征和保持空间鲁棒性方面仍有局限
  • Method: 提出SfMamba框架,包含:1)通道视觉状态空间块,实现信道序列扫描以提取域不变特征;2)语义一致打乱策略,在2D选择性扫描中打乱背景补丁序列同时保持预测一致性,以减少错误累积
  • Result: 在多个基准测试上的综合评估表明,SfMamba相比现有方法实现了持续更强的性能,同时保持了良好的参数效率
  • Conclusion: SfMamba为源自由域自适应提供了一个实用解决方案,通过充分利用源自由模型转移中的稳定依赖关系,解决了现有方法在感知场与计算效率之间的权衡问题

[82] SoC: Semantic Orthogonal Calibration for Test-Time Prompt Tuning

Leo Fillioux,Omprakash Chakraborty,Ismail Ben Ayed,Paul-Henry Cournède,Stergios Christodoulidis,Maria Vakalopoulou,Jose Dolz

Main category: cs.CV

TL;DR: 本文提出语义正交校准(SoC)方法,通过Huber正则化器在保持语义邻近性的同时实现平滑原型分离,改善视觉语言模型在测试时提示调优中的校准性能。

  • Motivation: 随着视觉语言模型在医疗、自动驾驶等关键决策系统中的广泛应用,其不确定性估计的校准变得至关重要。然而,现有VLM测试时提示调优研究主要关注提升判别性能,而忽略了校准这一维度。当前最先进方法强制文本提示嵌入完全正交以增强可分离性,但作者理论证明这会过度推动语义相关类别分离,导致模型过度自信。
  • Method: 提出语义正交校准(SoC)方法,采用Huber-based正则化器,在保持语义邻近性的同时实现平滑原型分离。相比先前基于正交性的方法,SoC能更好地平衡类别分离与语义关系保留。
  • Result: 通过全面的实证验证,SoC在多个数据集上一致地改善了校准性能,同时保持了有竞争力的判别能力。相比先前正交性方法,SoC在保持语义关系的同时实现了更好的校准效果。
  • Conclusion: SoC方法有效解决了VLM测试时提示调优中的校准问题,通过平衡原型分离与语义邻近性,在提升校准性能的同时不牺牲判别能力,为关键决策系统中的VLM应用提供了更可靠的不确定性估计。

[83] CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion

Yiming Sun,Yuan Ruan,Qinghua Hu,Pengfei Zhu

Main category: cs.CV

TL;DR: CtrlFuse是一个可控的红外与可见光图像融合框架,通过掩码提示实现交互式动态融合,同时提升融合质量和下游分割任务性能。

  • Motivation: 现有方法要么只关注像素级融合而忽略下游任务适应性,要么通过级联检测/分割模型隐式学习刚性语义,无法交互式满足多样化的语义目标感知需求。
  • Method: 提出可控图像融合框架CtrlFuse,包含多模态特征提取器、参考提示编码器(RPE)和提示-语义融合模块(PSFM)。RPE通过预训练分割模型微调动态编码任务特定语义提示,PSFM将这些语义显式注入融合特征。通过并行分割和融合分支的协同优化实现任务性能与融合质量的相互增强。
  • Result: 实验表明在融合可控性和分割准确性方面都达到了最先进水平,适应后的任务分支甚至超越了原始分割模型。
  • Conclusion: CtrlFuse通过交互式动态融合机制成功解决了现有方法的局限性,实现了融合质量与下游任务性能的双重提升,为智能无人系统的环境感知提供了更灵活的解决方案。

[84] SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models

Renyang Liu,Kangjie Chen,Han Qiu,Jie Zhang,Kwok-Yan Lam,Tianwei Zhang,See-Kiong Ng

Main category: cs.CV

TL;DR: SafeRedir:一个轻量级推理时框架,通过提示嵌入重定向实现鲁棒遗忘,无需修改底层图像生成模型即可安全移除有害概念

  • Motivation: 图像生成模型会记忆训练数据中的不良概念(如NSFW内容和受版权保护的艺术风格),现有后处理过滤方法鲁棒性有限,而遗忘方法需要昂贵重训练、会降低良性生成质量或无法抵抗提示改写和对抗攻击
  • Method: 通过提示嵌入重定向实现推理时遗忘,包含两个核心组件:1)潜在感知多模态安全分类器识别不安全生成轨迹;2)令牌级delta生成器进行精确语义重定向,配备令牌掩码和自适应缩放辅助预测器来定位和调节干预
  • Result: 在多个代表性遗忘任务中,SafeRedir实现了有效的遗忘能力、高语义和感知保留、鲁棒的图像质量以及增强的抗对抗攻击能力,并能有效泛化到各种扩散骨干和现有遗忘模型
  • Conclusion: SafeRedir提供了一个轻量级、即插即用的推理时框架,能够在不修改底层模型的情况下实现鲁棒遗忘,具有广泛的适用性和兼容性

[85] Além do Desempenho: Um Estudo da Confiabilidade de Detectores de Deepfakes

Lucas Lopes,Rayson Laroca,André Grégio

Main category: cs.CV

TL;DR: 该论文提出了一个基于四大支柱(可迁移性、鲁棒性、可解释性和计算效率)的深度伪造检测可靠性评估框架,并对五种最先进方法进行了分析。

  • Motivation: 深度伪造技术既有正面应用(教育、创意),也有严重负面影响(欺诈、错误信息、隐私侵犯)。虽然检测技术有所进步,但超越分类性能的综合评估方法仍然缺乏。
  • Method: 提出了一个基于四大支柱的可靠性评估框架:1) 可迁移性 - 检测方法在不同数据集和生成技术上的泛化能力;2) 鲁棒性 - 对对抗攻击和图像处理的抵抗力;3) 可解释性 - 检测决策的可解释程度;4) 计算效率 - 资源消耗和推理速度。使用该框架分析了五种最先进的深度伪造检测方法。
  • Result: 分析揭示了深度伪造检测方法的显著进展,但也发现了关键局限性。不同方法在四大支柱上的表现存在差异,表明当前技术仍存在改进空间。
  • Conclusion: 需要超越传统分类性能指标的全面评估框架来推动深度伪造检测技术的发展。提出的四大支柱框架为评估和比较检测方法提供了系统性方法,有助于识别现有方法的优势和不足。

[86] Salience-SGG: Enhancing Unbiased Scene Graph Generation with Iterative Salience Estimation

Runfeng Qu,Ole Hall,Pia K Bideau,Julie Ouerfelli-Ethier,Martin Rolfs,Klaus Obermayer,Olaf Hellwich

Main category: cs.CV

TL;DR: Salience-SGG:通过迭代显著性解码器强调空间结构,解决场景图生成中的长尾分布问题,提升空间理解能力

  • Motivation: 场景图生成存在长尾分布问题,少数谓词类别占主导,导致模型在罕见关系上表现不佳。现有的无偏SGG方法虽然解决了偏差问题,但往往以牺牲空间理解为代价,过度依赖语义先验。
  • Method: 提出Salience-SGG框架,包含迭代显著性解码器(ISD),强调具有显著空间结构的三元组。使用语义无关的显著性标签指导ISD学习。
  • Result: 在Visual Genome、Open Images V6和GQA-200数据集上的评估显示,Salience-SGG达到最先进性能,并改善了现有无偏SGG方法的空间理解能力(通过Pairwise Localization Average Precision衡量)。
  • Conclusion: Salience-SGG通过强调空间显著性,有效解决了场景图生成中的长尾分布问题,同时保持了空间理解能力,为无偏SGG方法提供了新的方向。

[87] ISLA: A U-Net for MRI-based acute ischemic stroke lesion segmentation with deep supervision, attention, domain adaptation, and ensemble learning

Vincent Roca,Martin Bretzner,Hilde Henon,Laurent Puy,Grégory Kuchcinski,Renaud Lopes

Main category: cs.CV

TL;DR: ISLA是一个用于急性缺血性卒中病变分割的深度学习模型,通过系统优化损失函数、卷积架构、深度监督和注意力机制,在三个多中心数据库上训练,并在外部测试集上优于现有方法。

  • Motivation: 急性缺血性卒中病变在MRI中的准确分割对卒中诊断和管理至关重要。虽然已有基于U-Net的深度学习模型,但不同模型在损失函数、深度监督、残差连接和注意力机制等方面存在差异,且许多实现不公开,最优配置仍不明确。
  • Method: 开发ISLA模型,系统优化损失函数、卷积架构、深度监督和注意力机制。在三个多中心数据库(超过1500名AIS参与者)上训练,并研究无监督域适应以提升对外部临床数据集的泛化能力。
  • Result: ISLA在外部测试集上优于两种最先进的AIS病变分割方法。代码和训练模型将公开,以促进重用和可重复性。
  • Conclusion: ISLA是一个鲁棒的急性缺血性卒中病变分割框架,通过系统优化实现了优异的性能,并展示了无监督域适应在提升泛化能力方面的潜力。

[88] UR-Bench: A Benchmark for Multi-Hop Reasoning over Ultra-High-Resolution Images

Siqi Li,Xinyu Cai,Jianbiao Mei,Nianchen Deng,Pinlong Cai,Licheng Wen,Yufan Shen,Xuemeng Yang,Botian Shi,Yong Liu

Main category: cs.CV

TL;DR: UR-Bench:首个用于评估多模态大语言模型在超高清图像上推理能力的基准,包含数百兆到千兆像素图像,并提出基于代理的框架提升处理效率。

  • Motivation: 现有多模态大语言模型在视觉语言推理方面表现出色,但在超高清图像上的性能尚未充分探索。现有VQA基准通常基于中等分辨率数据,视觉复杂度有限,需要专门评估模型在极端视觉信息下的推理能力。
  • Method: 提出UR-Bench基准,包含人文场景和自然场景两大类,涵盖四个具有不同空间结构和数据来源的超高清图像子集(数百兆到千兆像素)。问题分为三个难度级别。同时提出基于代理的框架,让语言模型通过调用外部视觉工具进行推理,并引入语义抽象和检索工具来高效处理超高清图像。
  • Result: 评估了最先进的模型,包括端到端MLLMs和提出的代理框架,证明了该框架的有效性。
  • Conclusion: UR-Bench填补了超高清图像推理评估的空白,提出的代理框架为高效处理超高清图像提供了有效解决方案,推动了多模态模型在复杂视觉场景下的发展。

[89] Translating Light-Sheet Microscopy Images to Virtual H&E Using CycleGAN

Yanhua Zhao

Main category: cs.CV

TL;DR: 使用CycleGAN实现无配对的多通道荧光显微镜图像到伪H&E染色病理图像的转换,帮助病理学家以熟悉格式可视化荧光数据

  • Motivation: H&E染色是组织病理学分析的标准,但荧光显微镜提供补充信息。将荧光图像转换为H&E样外观有助于解释和与标准工作流程集成
  • Method: 采用Cycle-Consistent Adversarial Network (CycleGAN)进行无配对图像到图像转换,将C01和C02荧光通道合并为RGB,使用ResNet生成器和PatchGAN判别器,结合对抗损失、循环一致性损失和身份损失进行训练
  • Result: 实验表明模型能生成逼真的伪H&E图像,在保持形态结构的同时呈现H&E样颜色特征,使荧光数据能以病理学家熟悉的格式可视化
  • Conclusion: 该方法成功实现了荧光显微镜图像到伪H&E图像的转换,支持与现有H&E分析流程的集成,为病理学家提供了更直观的数据展示方式

[90] Aggregating Diverse Cue Experts for AI-Generated Image Detection

Lei Tan,Shuwei Li,Mohan Kankanhalli,Robby T. Tan

Main category: cs.CV

TL;DR: MCAN是一个多线索聚合网络,通过整合空间、频域和色度信息来提升AI生成图像检测的泛化能力,在多个基准测试中达到SOTA性能。

  • Motivation: 现有AI生成图像检测方法过度依赖模型特定特征,导致过拟合和泛化能力差。随着图像合成模型的快速发展,需要更通用的检测方法。
  • Method: 提出多线索聚合网络(MCAN),整合三种互补线索:输入图像(整体内容)、高频分量(边缘细节)和色度不一致性线索(捕捉真实图像采集过程中的噪声模式)。使用混合编码器适配器动态处理这些线索。
  • Result: 在GenImage、Chameleon和UniversalFakeDetect基准测试中达到最先进性能。在GenImage数据集上,MCAN在八个不同图像生成器上的平均ACC比最佳现有方法高出7.4%。
  • Conclusion: MCAN通过统一的多线索聚合框架整合空间、频域和色度信息,增强了表示学习能力,提高了跨模型泛化性能,为AI生成图像检测提供了更鲁棒的解决方案。

[91] DentalX: Context-Aware Dental Disease Detection with Radiographs

Zhi Qin Tan,Xiatian Zhu,Owen Addison,Yunpeng Li

Main category: cs.CV

TL;DR: DentalX:一种利用口腔结构信息的上下文感知牙科疾病检测方法,通过语义分割辅助任务增强对X光片中细微病变的检测能力

  • Motivation: 牙科X光片诊断具有挑战性,因为诊断证据通常很细微。现有基于自然图像目标检测的方法难以检测视觉支持较少的牙科疾病,需要解决X光片中的视觉模糊性问题
  • Method: 提出DentalX方法,包含结构上下文提取模块,学习牙科解剖结构的语义分割作为辅助任务,提取有意义的结构上下文信息并集成到主要的疾病检测任务中
  • Result: 在专用基准测试上的广泛实验表明,DentalX在两个任务上都显著优于先前方法,两个任务之间的相关性在模型优化过程中被有效捕捉,实现相互促进
  • Conclusion: 通过利用口腔结构信息,DentalX能够有效缓解X光片中的视觉模糊性,提高对细微牙科疾病的检测性能,两个相关任务的联合优化自然产生相互益处

[92] Near-perfect photo-ID of the Hula painted frog with zero-shot deep local-feature matching

Maayan Yesharim,R. G. Bina Perl,Uri Roll,Sarig Gafny,Eli Geffen,Yoav Ram

Main category: cs.CV

TL;DR: 本文评估了计算机视觉方法在濒危两栖动物(胡拉彩蛙)照片重识别中的应用,发现零样本深度局部特征匹配优于全局特征嵌入模型,并提出两阶段工作流程实现高效准确的个体识别。

  • Motivation: 对于濒危两栖动物的监测,准确的个体识别至关重要,但侵入性标记方法通常不适用于极度濒危物种。因此需要开发非侵入性的照片重识别方法。
  • Method: 使用1,233张腹面图像(来自191个个体)比较零样本深度局部特征匹配和深度全局特征嵌入模型。提出两阶段工作流程:先用微调的全局特征模型检索候选列表,再用局部特征匹配重新排序。
  • Result: 局部特征管道达到98%的top-1闭集识别准确率,优于所有全局特征模型。两阶段工作流程将端到端运行时间从6.5-7.8小时减少到约38分钟,同时保持约96%的top-1闭集准确率。
  • Conclusion: 对于该物种,零样本深度局部特征匹配优于全局特征嵌入,可作为照片重识别的强默认方法。开发了实用的网络应用程序,支持保护监测和捕获-重捕获分析。

[93] S3-CLIP: Video Super Resolution for Person-ReID

Tamas Endrei,Gyorgy Cserey

Main category: cs.CV

TL;DR: S3-CLIP是一个基于视频超分辨率的CLIP-ReID框架,首次系统性地研究视频超分辨率如何提升行人重识别中的轨迹质量,特别是在跨视角挑战性场景下。

  • Motivation: 现有行人重识别方法大多关注模型架构改进,而忽视了轨迹质量的重要性,这在现实世界复杂场景部署时带来挑战。本文旨在解决这一局限,特别针对跨视角(如空中到地面)的困难场景。
  • Method: 提出S3-CLIP框架,将最新的超分辨率网络与任务驱动的超分辨率流程集成,并将其适配到基于视频的行人重识别场景中。这是首次系统研究视频超分辨率用于提升行人重识别轨迹质量的方法。
  • Result: 在VReID-XFD挑战中,空中到地面场景达到37.52% mAP,地面到空中场景达到29.16% mAP。在地面到空中设置中,排名准确率显著提升:Rank-1、Rank-5、Rank-10分别提高11.24%、13.48%、17.98%。
  • Conclusion: 视频超分辨率是提升行人重识别轨迹质量的有效手段,特别是在跨视角挑战性场景下。S3-CLIP框架展示了这一方法的潜力,为实际部署中的困难场景提供了解决方案。

[94] Reasoning Matters for 3D Visual Grounding

Hsiang-Wei Huang,Kuang-Ming Chen,Wenhao Chai,Cheng-Yen Yang,Jen-Hao Cheng,Jenq-Neng Hwang

Main category: cs.CV

TL;DR: 提出自动合成3D视觉定位数据及推理过程的管道,并基于此训练出性能超越现有方法的3D视觉定位大语言模型

  • Motivation: 当前3D视觉定位任务面临两大挑战:1)现有模型推理能力有限,需要大量人工标注数据进行监督训练;2)现有合成数据方法成本高但性能提升有限。需要更高效的数据生成方法和更强的推理能力模型
  • Method: 1)设计自动合成3D视觉定位数据及对应推理过程的管道;2)利用生成数据对大语言模型进行微调,开发Reason3DVG-8B模型
  • Result: Reason3DVG-8B模型仅使用3D-GRAND方法1.6%的训练数据,性能即超越该现有LLM-based方法,证明了数据生成管道的有效性和推理能力在3D视觉定位中的重要性
  • Conclusion: 提出的自动数据合成管道能高效生成高质量3D视觉定位数据,结合大语言模型的推理能力可显著提升3D视觉定位性能,为3D理解任务提供了新的解决方案

[95] Motion Attribution for Video Generation

Xindi Wu,Despoina Paschalidou,Jun Gao,Antonio Torralba,Laura Leal-Taixé,Olga Russakovsky,Sanja Fidler,Jonathan Lorraine

Main category: cs.CV

TL;DR: 提出了Motive框架,首个用于视频生成模型的运动归因方法,通过梯度归因识别影响运动质量的训练数据,并用于数据筛选提升视频生成质量。

  • Motivation: 尽管视频生成模型快速发展,但数据如何影响运动质量仍不清楚。现有方法主要关注视觉外观而非时间动态,需要专门的运动归因框架来理解数据对运动的影响。
  • Method: 提出Motive框架:1) 使用运动加权损失掩码分离时间动态与静态外观;2) 基于梯度的数据归因方法,可扩展到大规模高质量视频数据集和模型;3) 识别对运动有强影响的微调片段;4) 指导数据筛选以提升时间一致性和物理合理性。
  • Result: 在文本到视频模型中,Motive能有效识别影响运动的片段。使用Motive筛选的高影响力数据,在VBench上提升了运动平滑度和动态程度,相比预训练基础模型获得74.1%的人类偏好胜率。
  • Conclusion: Motive是首个专注于视频生成模型中运动而非视觉外观的归因框架,能够有效指导数据筛选,显著提升视频生成的运动质量,为理解数据对运动的影响提供了新工具。

[96] 3AM: Segment Anything with Geometric Consistency in Videos

Yang-Che Sun,Cheng Sun,Chin-Yang Lin,Fu-En Yang,Min-Hung Chen,Yen-Yu Lin,Yu-Lun Liu

Main category: cs.CV

TL;DR: 3AM通过将3D感知特征(MUSt3R)与SAM2的外观特征融合,解决了视频对象分割在大视角变化下的问题,仅需RGB输入无需相机位姿或预处理。

  • Motivation: 现有视频对象分割方法(如SAM2)依赖外观特征,在大视角变化下表现不佳;传统3D实例分割方法需要相机位姿、深度图和昂贵预处理。需要一种仅需RGB输入就能实现几何一致性的方法。
  • Method: 提出3AM训练时增强方法:1)将MUSt3R的3D感知特征与SAM2外观特征通过轻量级Feature Merger融合;2)提出视场感知采样策略,确保帧观察空间一致的对象区域;3)推理时仅需RGB输入,无需相机位姿或预处理。
  • Result: 在宽基线运动挑战数据集(ScanNet++、Replica)上大幅超越SAM2及其扩展方法:ScanNet++ Selected Subset上达到90.6% IoU和71.7% Positive IoU,相比最先进VOS方法提升+15.9和+30.4个百分点。
  • Conclusion: 3AM成功将3D感知特征集成到视频对象分割中,实现了基于空间位置和视觉相似性的几何一致性识别,仅需RGB输入就能处理大视角变化,显著提升了分割性能。

[97] RAVEN: Erasing Invisible Watermarks via Novel View Synthesis

Fahad Shamshad,Nils Lukas,Karthik Nandakumar

Main category: cs.CV

TL;DR: 该论文提出了一种基于视角合成的零样本扩散框架,通过语义保持的视角变换来移除不可见水印,揭示了当前水印方案在语义层面的根本性漏洞。

  • Motivation: 随着AI生成图像水印技术的大规模部署,评估这些方案对抗高级移除攻击的脆弱性变得至关重要。现有水印方案虽然在像素空间和频域攻击中表现鲁棒,但在语义保持的视角变换面前可能存在根本性漏洞。
  • Method: 将水印移除重新定义为视角合成问题,提出零样本扩散框架:在潜在空间中应用受控几何变换,并通过视角引导的对应注意力机制在重建过程中保持结构一致性。该方法无需访问水印检测器或水印知识,仅使用冻结的预训练模型。
  • Result: 该方法在15种水印方法上实现了最先进的水印抑制效果,优于14种基线攻击方法,同时在多个数据集上保持了优异的感知质量。
  • Conclusion: 该研究揭示了不可见水印的根本性脆弱性:即使对像素空间和频域攻击鲁棒的水印,在语义保持的视角变换面前仍然脆弱。这为设计更鲁棒的水印方案提供了重要指导。

eess.IV

[98] Application of Ideal Observer for Thresholded Data in Search Task

Hongwei Lin,Howard C. Gifford

Main category: eess.IV

TL;DR: 提出了一种基于阈值视觉搜索的拟人化模型观察者,通过选择性处理高显著性特征来提升图像质量评估性能,在噪声环境下表现优异且训练数据需求少。

  • Motivation: 现有任务型图像质量评估方法需要改进,特别是在噪声环境下如何提高诊断准确性和计算效率。人类视觉系统能够选择性处理高显著性特征,这启发了开发拟人化阈值模型观察者的想法。
  • Method: 采用两阶段框架:候选区域选择和决策制定。在候选选择阶段使用阈值数据细化感兴趣区域,阶段特异性特征处理优化性能。通过模拟评估阈值对特征图、候选定位和多特征场景的影响。
  • Result: 阈值处理通过排除低显著性特征显著提升观察者性能,特别是在噪声环境中。中间阈值通常优于无阈值处理,表明仅保留相关特征比保留所有特征更有效。模型能用较少图像有效训练,同时保持与人类性能的一致性。
  • Conclusion: 提出的新型框架能够预测临床现实任务中的人类视觉搜索性能,并为资源有限的模型观察者训练提供解决方案。该方法可应用于计算机视觉、机器学习、国防安全图像分析等其他需要模拟人类视觉搜索和检测任务的领域。

[99] Temporal-Enhanced Interpretable Multi-Modal Prognosis and Risk Stratification Framework for Diabetic Retinopathy (TIMM-ProRS)

Susmita Kar,A S M Ahsanul Sarkar Akib,Abdul Hasib,Samin Yaser,Anas Bin Azim

Main category: eess.IV

TL;DR: TIMM-ProRS是一个结合ViT、CNN和GNN的多模态深度学习框架,利用视网膜图像和时序生物标志物(HbA1c、视网膜厚度)进行糖尿病视网膜病变诊断,在多个数据集上达到97.8%准确率和0.96 F1分数,优于现有方法。

  • Motivation: 糖尿病视网膜病变(DR)影响全球数百万人,有严重致盲风险且给医疗系统带来压力。诊断复杂源于视觉症状与年龄相关性黄斑变性、高血压性视网膜病变等疾病重叠,在医疗资源匮乏地区误诊率高。
  • Method: 提出TIMM-ProRS深度学习框架,集成Vision Transformer(ViT)、卷积神经网络(CNN)和图神经网络(GNN),采用多模态融合技术。独特之处在于同时利用视网膜图像和时序生物标志物(HbA1c、视网膜厚度)捕捉多模态和时序动态特征。
  • Result: 在APTOS 2019(训练集)、Messidor-2、RFMiD、EyePACS和Messidor-1(验证集)等多个数据集上全面评估,模型达到97.8%准确率和0.96 F1分数,表现出最先进的性能,优于RSG-Net和DeepDR等现有方法。
  • Conclusion: 该方法能够实现早期、精确且可解释的诊断,支持可扩展的远程医疗管理,有助于提升全球眼健康的可持续性。

[100] Region of interest detection for efficient aortic segmentation

Loris Giordano,Ine Dirks,Tom Lenaerts,Jef Vandemeulebroucke

Main category: eess.IV

TL;DR: 提出一种创新的主动脉分割方法,通过目标ROI检测实现高效分割,相比传统方法计算量减少三分之二,性能达到SOTA

  • Motivation: 胸主动脉夹层和动脉瘤是最致命的主动脉疾病,治疗的主要障碍在于医学图像的准确分析。主动脉3D图像分割通常繁琐困难,基于深度学习的分割模型虽然理想,但在困难病例中无法提供可用输出且计算成本高,导致临床采用受限。
  • Method: 提出一种创新的主动脉分割方法,使用目标ROI检测。与经典检测模型不同,提出简单高效的检测模型,可广泛用于检测单个ROI。检测模型训练为多任务模型,使用编码器-解码器架构进行分割,瓶颈处附加全连接网络进行检测。比较了一步分割模型、nnU-Net和由检测和分割步骤组成的级联模型的性能。
  • Result: 实现了平均Dice相似系数0.944,所有病例均超过0.9,同时仅使用三分之一的计算能力。这种简单解决方案实现了最先进的性能,同时紧凑且稳健。
  • Conclusion: 该方法简单、紧凑且稳健,实现了最先进的性能,是临床应用的理想解决方案。

[101] A Single-Parameter Factor-Graph Image Prior

Tianyang Wang,Ender Konukoglu,Hans-Andrea Loeliger

Main category: eess.IV

TL;DR: 提出一种具有分段常数局部参数的自适应图像模型,基于因子图和NUP先验,通过共轭梯度和高斯消息传递迭代计算,应用于去噪和对比度增强。

  • Motivation: 传统图像模型通常使用固定参数,无法适应不同图像区域的特征变化。需要一种能够自动适应图像局部特性的模型,以提高图像处理效果。
  • Method: 提出基于因子图的分段平滑图像模型,使用NUP(参数未知的正态分布)先验。通过共轭梯度步骤和高斯消息传递的迭代算法进行计算。
  • Result: 模型能够自动适应图像的局部特征,在去噪和对比度增强应用中表现出良好的性能,证明了方法的有效性。
  • Conclusion: 提出的自适应分段常数参数图像模型结合因子图和NUP先验,通过高效的计算算法,为图像处理任务提供了有效的解决方案。

[102] M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding

Juntao Jiang,Jiangning Zhang,Yali Bi,Jinsheng Bai,Weixuan Liu,Weiwei Jin,Zhucun Xue,Yong Liu,Xiaobin Hu,Shuicheng Yan

Main category: eess.IV

TL;DR: M3CoTBench:首个专门评估医学图像理解中思维链推理的基准,关注推理路径而非仅最终答案

  • Motivation: 当前医学图像理解基准只关注最终答案,忽略推理过程,缺乏可解释性,难以辅助医生诊断。思维链推理与临床思维过程自然契合,但缺乏专门评估其质量的基准。
  • Method: 构建包含24种检查类型、13个不同难度任务的多层次数据集,设计专门评估思维链推理的四个维度指标:正确性、效率、影响力和一致性。
  • Result: 系统评估了多个多模态大语言模型,揭示了当前模型在生成可靠且临床可解释的推理方面的局限性。
  • Conclusion: M3CoTBench填补了医学图像理解中思维链推理评估的空白,旨在推动开发透明、可信赖且诊断准确的医疗AI系统。

math.NA

[103] Operator learning for models of tear film breakup

Qinying Chen,Arnab Roy,Tobin A. Driscoll

Main category: math.NA

TL;DR: 提出基于神经算子的学习框架,替代传统逆问题求解器,用于从荧光成像中快速分析泪膜厚度和渗透压

  • Motivation: 泪膜破裂是理解干眼症的关键因素,但传统基于荧光成像的厚度和渗透压估计需要求解计算昂贵的逆问题
  • Method: 采用算子学习框架,用基于模拟泪膜动力学训练的神经算子替代传统逆问题求解器
  • Result: 该方法为快速、数据驱动的泪膜动力学分析提供了可扩展的途径
  • Conclusion: 神经算子框架能够显著提高泪膜厚度和渗透压估计的计算效率,为干眼症研究提供新的分析工具

cs.IR

[104] VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking

Mark Rothermel,Marcus Kornmann,Marcus Rohrbach,Anna Rohrbach

Main category: cs.IR

TL;DR: VeriTaS是首个动态多模态自动事实核查基准,包含24,000个真实世界声明,覆盖54种语言和多种媒体形式,通过季度更新防止数据泄露问题。

  • Motivation: 现有AFC基准存在任务范围有限、模态单一、语言多样性不足、静态数据集导致数据泄露等问题,使得基准性能无法可靠反映实际核查能力。
  • Method: 开发了完全自动化的七阶段流水线:规范化声明表述、检索原始媒体、将异构专家裁决映射到新颖的标准化解耦评分方案,并提供文本理由。每季度更新数据。
  • Result: 创建了包含24,000个声明的动态基准,覆盖108个专业事实核查组织、54种语言、文本和视听内容。人工评估显示自动标注与人类判断高度一致。
  • Conclusion: VeriTaS建立了抗泄露的基准,支持在基础模型快速演进时代进行有意义的AFC评估,承诺未来持续更新,并将公开代码和数据。

astro-ph.IM

[105] Blind Deconvolution in Astronomy: How Does a Standalone U-Net Perform?

Jean-Eric Campagne

Main category: astro-ph.IM

TL;DR: U-Net架构能够独立进行端到端的天文图像盲去卷积,无需点扩散函数或噪声特性先验知识,性能随训练数据量增加而提升,在低信噪比条件下甚至优于传统Tikhonov方法。

  • Motivation: 研究U-Net架构是否能够在不依赖点扩散函数或噪声特性先验知识的情况下,独立完成天文图像的端到端盲去卷积,并评估其与传统方法的性能对比及泛化能力。
  • Method: 使用GalSim工具包模拟真实天文观测,包含随机变换、PSF卷积(光学和大气效应)和高斯白噪声。采用MSE损失函数训练U-Net模型,数据集规模达40,000张48x48图像(来自COSMOS Real Galaxy Dataset)。使用PSNR、SSIM和余弦相似度指标评估性能。
  • Result: U-Net在盲去卷积中表现有效,性能随训练数据量增加持续提升,超过5,000张图像后趋于饱和。在低PSNR/中等SSIM的挑战性条件下,U-Net甚至优于类似神谕的Tikhonov方法。模型对未见的大气视宁度和噪声条件具有良好泛化能力。
  • Conclusion: U-Net能够有效学习盲去卷积任务,其性能随训练数据量增加而提升,在挑战性条件下优于传统方法,并展现出良好的泛化能力。实验结果支持U-Net学习几何自适应谐波基的假设,与最近关于其自适应学习能力的数学见解一致。

q-bio.QM

[106] Imaging-anchored Multiomics in Cardiovascular Disease: Integrating Cardiac Imaging, Bulk, Single-cell, and Spatial Transcriptomics

Minh H. N. Le,Tuan Vinh,Thanh-Huy Nguyen,Tao Li,Bao Quang Gia Le,Han H. Huynh,Monika Raj,Carl Yang,Min Xu,Nguyen Quoc Khanh Le

Main category: q-bio.QM

TL;DR: 这篇综述探讨了将心脏影像表型与转录组学和空间分子状态连接起来的联合表征方法,旨在整合多模态数据以推进心血管疾病研究。

  • Motivation: 心血管疾病源于遗传风险、分子程序和临床影像观察到的组织重塑之间的相互作用。目前医疗系统生成大量心脏影像和转录组数据,但这些数据仍在分离的流程中分析,需要整合方法来更好地理解疾病机制。
  • Method: 采用影像锚定视角,将超声心动图、心脏MRI和CT定义为心脏的空间表型,结合bulk、单细胞和空间转录组学提供细胞类型和位置特异性分子背景。首先总结各模态的生物学和技术特征,然后概述每种模态的表征学习策略,最后回顾多模态融合方法。
  • Result: 综述了放射基因组学、空间分子对齐和基于影像的基因表达预测的整合流程,讨论了常见失败模式、实际考虑因素和开放挑战。空间多组学、单细胞和空间基础模型以及多模态医学基础模型正在推动影像锚定多组学向大规模心血管转化迈进。
  • Conclusion: 影像锚定多组学方法通过整合心脏影像表型与分子状态,为心血管疾病研究提供了新的整合框架,有望推动精准医学和转化研究的发展。

[107] Automated Lesion Segmentation of Stroke MRI Using nnU-Net: A Comprehensive External Validation Across Acute and Chronic Lesions

Tammar Truzman,Matthew A. Lambon Ralph,Ajay D. Halai

Main category: q-bio.QM

TL;DR: 本研究系统评估了基于nnU-Net框架的脑卒中病灶分割模型在多种MRI模态和不同卒中阶段的表现,发现模型能够达到接近人工标注的可靠性水平,并识别了影响模型泛化能力的关键因素。

  • Motivation: 当前深度学习模型在脑卒中病灶分割中存在泛化能力不足的问题,许多模型仅针对特定成像条件优化,难以适应独立数据集、不同模态和卒中阶段。需要系统评估模型在异质数据集上的表现,以推动临床研究和个性化干预。
  • Method: 使用nnU-Net框架在多个公开的MRI数据集上进行系统评估,涵盖急性和慢性卒中阶段。模型在DWI、FLAIR和T1加权MRI上进行训练和测试,并在独立数据集上评估。分析不同模态、训练数据特征、病灶体积和图像质量对模型性能的影响。
  • Result: 1. 模型在不同卒中阶段表现出稳健的泛化能力,分割准确度接近报告的人工标注可靠性
  1. 急性卒中中,DWI训练的模型始终优于FLAIR模型,多模态组合仅带来有限提升
  2. 慢性卒中中,增加训练集规模可提升性能,但超过数百例后收益递减
  3. 病灶体积是关键影响因素:小病灶更难分割,限制体积范围的训练模型泛化能力差
  4. 图像质量影响泛化:低质量扫描训练的模型迁移能力差,高质量数据训练的模型对噪声图像泛化良好
  5. 预测与参考标注的差异常源于人工标注的局限性
  • Conclusion: 自动化病灶分割能够接近人类水平的性能,同时识别了影响泛化能力的关键因素,包括成像模态、训练数据特征、病灶体积和图像质量。这些发现为开发更鲁棒的病灶分割工具提供了重要指导。

cs.CL

[108] VULCA-Bench: A Multicultural Vision-Language Benchmark for Evaluating Cultural Understanding

Haorui Yu,Ramon Ruiz-Dolz,Diji Yang,Hang He,Fengrui Zhang,Qiufeng Yi

Main category: cs.CL

TL;DR: VULCA-Bench是一个多文化艺术评论基准,用于评估视觉语言模型在超越表面视觉感知的文化理解能力,包含7,410个图像-评论对,涵盖八种文化传统。

  • Motivation: 现有VLM基准主要评估L1-L2能力(物体识别、场景描述、事实问答),而缺乏对高阶文化解释能力的评估,需要专门的多文化理解基准。
  • Method: 采用五层框架(L1-L5,从视觉感知到哲学美学)操作化文化理解,实例化为225个文化特定维度,包含专家撰写的双语评论,涵盖八种文化传统。
  • Result: 初步结果表明,高层推理(L3-L5)比视觉和技术分析(L1-L2)更具挑战性,数据集、评估脚本和标注工具已开源。
  • Conclusion: VULCA-Bench填补了VLM文化理解评估的空白,为模型在多文化艺术解释方面的能力提供了系统评估框架。

cs.RO

[109] Fiducial Exoskeletons: Image-Centric Robot State Estimation

Cameron Smith,Basile Van Hoorick,Vitor Guizilini,Yue Wang

Main category: cs.RO

TL;DR: Fiducial Exoskeletons:一种基于图像的3D机器人状态估计方法,通过单张RGB图像估计机器人各连杆的6D位姿,简化了传统繁琐的标定流程,使用带有标记的3D打印外骨骼实现鲁棒的状态估计。

  • Motivation: 传统机器人状态估计方法(特别是机器人-相机外参标定)依赖高精度执行器和耗时的手眼标定流程,而现代基于学习的机器人控制越来越多地使用低成本硬件的RGB观测。需要一种更简单、更鲁棒的图像基础状态估计方法。
  • Method: 1. 将机器人状态估计重新定义为从单张RGB图像估计每个连杆的6D位姿;2. 引入"基准外骨骼":在每个连杆上安装已知几何关系的基准标记的3D打印支架;3. 通过全局优化确保观测到的连杆位姿与运动学一致性,直接获得机器人-相机基座变换和关节状态。
  • Result: 在低成本机器人手臂上验证,基准外骨骼显著简化了设置过程,同时提高了标定精度、状态准确性和下游3D控制性能。即使在断电机器人上也能实现鲁棒的状态估计。
  • Conclusion: 基准外骨骼提供了一种简单、鲁棒的图像基础机器人状态估计方法,替代了传统的繁琐标定流程,实现了算法-硬件协同设计,为低成本机器人系统提供了实用的解决方案。

[110] Robust Subpixel Localization of Diagonal Markers in Large-Scale Navigation via Multi-Layer Screening and Adaptive Matching

Jing Tao,Banglei Guan,Yang Shang,Shunkun Liang,Qifeng Yu

Main category: cs.RO

TL;DR: 提出一种鲁棒高精度定位方法,解决大规模飞行导航中复杂背景干扰导致的定位失败问题,以及传统滑动窗口匹配技术的计算效率低下问题。

  • Motivation: 解决大规模飞行导航中复杂背景干扰导致的定位失败,以及传统滑动窗口匹配技术计算效率低下的问题。
  • Method: 采用三层框架:多层角点筛选和自适应模板匹配。首先通过光照均衡和结构信息提取降维;采用粗到精的候选点选择策略减少滑动窗口计算成本;最后为候选点生成自适应模板,通过改进的模板匹配和相关系数极值拟合实现亚像素精度。
  • Result: 实验结果表明该方法在复杂大规模环境中能有效提取和定位对角标记,适合导航任务中的视场测量。
  • Conclusion: 该方法能有效解决复杂背景干扰下的定位问题,计算效率高,精度达到亚像素级别,适合大规模飞行导航应用。

[111] Keyframe-based Dense Mapping with the Graph of View-Dependent Local Maps

Krzysztof Zielinski,Dominik Belter

Main category: cs.RO

TL;DR: 提出基于关键帧的RGB-D建图系统,使用局部NDT地图和位姿图优化,通过视图依赖的2D结构存储NDT单元,支持局部地图融合与过滤

  • Motivation: 传统建图方法未能充分利用RGB-D相机的特性和不确定性模型,需要一种能根据相机距离自适应精度、支持闭环检测后全局地图修正的建图系统
  • Method: 基于关键帧的局部NDT地图更新,使用视图依赖的2D结构存储NDT单元,将局部地图存储在位姿图中,提出局部地图融合与过滤流程生成全局地图
  • Result: 与Octomap和NDT-OM方法相比,提出的方法在精度和效率上表现更好,能够自然实现距离相机越近的物体表示精度越高
  • Conclusion: 提出的关键帧建图系统有效利用了RGB-D相机特性,通过视图依赖的NDT表示和位姿图优化,实现了高质量的环境建图,具有实际应用价值

[112] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Shaoan Wang,Yuanfei Luo,Xingyu Chen,Aocheng Luo,Dongyue Li,Chang Liu,Sheng Chen,Yangang Zhang,Junzhi Yu

Main category: cs.RO

TL;DR: VLingNav:基于语言驱动认知的具身导航VLA模型,通过自适应思维链和视觉辅助语言记忆模块,在复杂长视野导航任务中实现SOTA性能

  • Motivation: 现有VLA模型在具身导航中主要依赖从观察到动作的被动映射,缺乏显式推理能力和持久记忆,难以处理复杂长视野导航任务
  • Method: 1) 基于人类认知双过程理论的自适应思维链机制,动态触发显式推理;2) 视觉辅助语言记忆模块构建跨模态语义记忆;3) 构建Nav-AdaCoT-2.9M数据集;4) 在线专家指导强化学习阶段
  • Result: VLingNav在多个具身导航基准测试中达到SOTA性能,能够零样本迁移到真实机器人平台,执行各种导航任务,展示强大的跨域和跨任务泛化能力
  • Conclusion: VLingNav通过语言驱动认知框架,结合自适应推理和持久记忆,显著提升了VLA模型在复杂具身导航任务中的性能,实现了从模拟到真实世界的有效迁移

[113] Real-Time Localization Framework for Autonomous Basketball Robots

Naren Medarametla,Sreejon Mondal

Main category: cs.RO

TL;DR: 提出基于视觉的混合定位算法,用于机器人篮球比赛中的精确定位

  • Motivation: 在Robocon 2025机器人篮球比赛中,精确定位对提高投篮精度、避免碰撞和高效导航至关重要
  • Method: 结合经典技术与基于学习的方法,仅使用球场地面视觉数据进行混合定位
  • Result: 实现了篮球场上的自主定位能力
  • Conclusion: 混合定位方法为机器人篮球比赛提供了准确可靠的定位解决方案

cs.AI

[114] ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios

António Loison,Quentin Macé,Antoine Edy,Victor Xing,Tom Balough,Gabriel Moreira,Bo Liu,Manuel Faysse,Céline Hudelot,Gautier Viaud

Main category: cs.AI

TL;DR: ViDoRe v3是一个多模态RAG基准测试,包含视觉丰富的文档和多种查询类型,涵盖10个专业领域数据集,评估模型在视觉元素理解、跨文档信息合成和来源定位方面的能力。

  • Motivation: 现有RAG基准测试主要关注文本数据、单文档理解,或将检索和生成分开评估,无法捕捉多模态RAG面临的真实挑战,如视觉元素解释、跨文档信息合成和准确来源定位。
  • Method: 构建包含约26,000个文档页面和3,099个人工验证查询的多模态基准测试,涵盖10个专业领域数据集,支持6种语言,通过12,000小时人工标注提供检索相关性、边界框定位和验证参考答案的高质量标注。
  • Result: 评估显示:视觉检索器优于文本检索器,后期交互模型和文本重排序显著提升性能,混合或纯视觉上下文提高答案生成质量。但当前模型在处理非文本元素、开放式查询和细粒度视觉定位方面仍有困难。
  • Conclusion: ViDoRe v3为多模态RAG研究提供了全面的评估框架,揭示了当前模型的局限性,特别是在视觉理解和跨文档合成方面,鼓励社区解决这些挑战。

[115] MEMEWEAVER: Inter-Meme Graph Reasoning for Sexism and Misogyny Detection

Paolo Italiani,David Gimeno-Gomez,Luca Ragazzi,Gianluca Moro,Paolo Rosso

Main category: cs.AI

TL;DR: MemeWeaver:一种端到端可训练的多模态框架,通过新颖的跨meme图推理机制检测性别歧视和厌女症,在MAMI和EXIST基准上优于现有方法

  • Motivation: 女性因性别遭受网络骚扰的可能性是男性的两倍。现有的多模态内容审核方法大多忽视了这种现象背后的社会动态,即施害者在志同道合的社区中强化偏见和群体认同。虽然基于图的方法有望捕捉此类互动,但现有解决方案受限于启发式图构建、浅层模态融合和实例级推理。
  • Method: 提出MemeWeaver框架,采用端到端可训练的多模态架构,引入新颖的跨meme图推理机制。系统评估了多种视觉-文本融合策略,通过图结构捕捉网络仇恨的关系性质。
  • Result: 在MAMI和EXIST基准测试中始终优于最先进的基线方法,同时实现更快的训练收敛。进一步分析表明,学习到的图结构能够捕捉语义上有意义的模式。
  • Conclusion: MemeWeaver通过图推理机制有效检测性别歧视和厌女症,为理解网络仇恨的关系性质提供了有价值的见解,解决了现有方法在社会动态建模方面的局限性。

cs.MM

[116] MLLM-VADStory: Domain Knowledge-Driven Multimodal LLMs for Video Ad Storyline Insights

Jasmine Yang,Poppy Zhang,Shawndra Hill

Main category: cs.MM

TL;DR: 提出MLLM-VADStory框架,利用领域知识引导的多模态大语言模型,系统量化视频广告故事情节理解并生成洞察,应用于5万个社交媒体视频广告分析。

  • Motivation: 视频广告的故事情节对广告效果有重要影响,但缺乏系统化的量化分析方法。现有方法难以大规模理解广告叙事结构,需要结合领域知识来引导多模态大模型进行有效分析。
  • Method: 提出基于领域知识引导的MLLM框架:1) 将广告分割为功能单元;2) 使用广告特定的功能角色分类法对每个单元分类;3) 聚合跨广告的功能序列,恢复数据驱动的故事情节结构。
  • Result: 应用于4个行业子垂直领域的5万个社交媒体视频广告,发现基于故事的创意能提高视频留存率,并推荐了表现最佳的故事情节弧线来指导广告创意设计。
  • Conclusion: 该框架展示了利用领域知识引导MLLMs生成可扩展的视频广告故事情节洞察的价值,使其成为理解视频创意内容的通用工具。

cs.LG

[117] HOSC: A Periodic Activation with Saturation Control for High-Fidelity Implicit Neural Representations

Michal Jan Wlodarczyk,Danzel Serrano,Przemyslaw Musialski

Main category: cs.LG

TL;DR: 提出HOSC激活函数,通过tanh(sin)结构控制Lipschitz边界,解决周期性激活的梯度不稳定问题,在多种INR应用中表现优异。

  • Motivation: 周期性激活函数(如sine)在隐式神经表示中能保持高频信息,但存在梯度不稳定和难以控制多尺度行为的问题。需要一种既能保持周期性特性又能稳定梯度的激活函数。
  • Method: 提出HOSC激活函数:HOSC(x) = tanh(βsin(ω₀x)),通过参数β显式控制激活函数的Lipschitz边界(βω₀),从而直接调节梯度幅度,同时保留周期性载波。
  • Result: 在图像、音频、视频、NeRFs和SDFs等多种INR应用上进行标准化训练测试,与SIREN、FINER等方法对比,HOSC在多个领域表现出显著优势或达到竞争性水平。
  • Conclusion: HOSC是一种实用的周期性激活函数,提供了领域特定的超参数选择指导,能有效解决梯度不稳定问题,适用于各种INR应用。

[118] Deep Exploration of Epoch-wise Double Descent in Noisy Data: Signal Separation, Large Activation, and Benign Overfitting

Tomoki Kubo,Ryuken Uda,Yusuke Iida

Main category: cs.LG

TL;DR: 该研究通过分析CIFAR-10数据集上带标签噪声训练的神经网络内部结构演化,揭示了epoch-wise双下降现象中延迟泛化的机制,连接了"深度双下降"、"良性过拟合"和"大激活"三个关键现象。

  • Motivation: 研究动机是深入理解深度学习中epoch-wise双下降现象(延迟泛化跟随过拟合)的机制,通过分析神经网络内部结构的演化来揭示这一现象背后的原理。
  • Method: 在CIFAR-10数据集上添加30%标签噪声,训练三种不同大小的全连接神经网络。通过将损失曲线分解为干净数据和噪声数据的信号贡献,分别分析内部信号的epoch-wise演化。
  • Result: 1. 模型在双下降阶段即使完美拟合噪声训练数据后仍能在测试数据上实现强重新泛化,对应"良性过拟合"状态;2. 噪声数据在干净数据之后被学习,随着学习进展,它们在外部层中的对应激活逐渐分离,使模型能够仅过拟合噪声数据;3. 所有模型的浅层都出现单个非常大的激活(称为"异常值"、"大规模激活"或"超级激活"),其大小与输入模式相关但与输出模式无关。
  • Conclusion: 这些实证发现直接连接了"深度双下降"、"良性过拟合"和"大激活"三个关键现象,支持提出理解深度双下降的新颖场景。研究揭示了神经网络在过拟合噪声数据后仍能重新泛化的内部机制。

[119] Training-Free Distribution Adaptation for Diffusion Models via Maximum Mean Discrepancy Guidance

Matina Mahdizadeh Sani,Nima Jamali,Mohammad Jalali,Farzan Farnia

Main category: cs.LG

TL;DR: 提出MMD Guidance方法,在推理时使用最大平均差异(MMD)梯度指导扩散模型采样,实现与目标分布的分布对齐,无需额外训练。

  • Motivation: 预训练扩散模型生成的样本常与用户特定目标数据特征不匹配,特别是在只有少量参考样本的领域适应任务中。现有推理时指导方法通常优化替代目标(如分类器似然),而非直接与目标分布对齐。
  • Method: 提出训练免费的MMD Guidance机制,在反向扩散过程中加入生成样本与参考数据集之间最大平均差异(MMD)的梯度。MMD能从有限数据提供可靠的分布估计,方差低且可高效微分。该方法通过乘积核扩展到条件生成模型的提示感知适应,并可在潜在扩散模型(LDMs)中高效应用。
  • Result: 在合成和真实世界基准测试中,MMD Guidance能够实现分布对齐,同时保持样本保真度。
  • Conclusion: MMD Guidance是一种有效的推理时指导方法,能够直接对齐生成分布与目标分布,特别适用于数据有限的领域适应任务。

[120] DiffMM: Efficient Method for Accurate Noisy and Sparse Trajectory Map Matching via One Step Diffusion

Chenxu Han,Sean Bin Yang,Jilin Hu

Main category: cs.LG

TL;DR: DiffMM:一种基于编码器-扩散的稀疏轨迹地图匹配框架,通过一步扩散过程实现高效准确的地图匹配

  • Motivation: 现有基于HMM或编码器-解码器的地图匹配方法在处理噪声或稀疏采样的GPS轨迹时面临显著挑战,需要更有效的解决方案
  • Method: 1. 道路段感知轨迹编码器:通过注意力机制将输入轨迹及其周围候选道路段嵌入共享潜在空间;2. 一步扩散方法:利用轨迹和候选道路段的联合嵌入作为条件上下文,通过捷径模型实现地图匹配
  • Result: 在大规模轨迹数据集上的实验表明,该方法在准确性和效率方面始终优于最先进的地图匹配方法,特别是在稀疏轨迹和复杂道路网络拓扑情况下
  • Conclusion: DiffMM框架通过创新的编码器-扩散方法有效解决了稀疏轨迹地图匹配的挑战,为交通调度和交通流分析等应用提供了更可靠的解决方案

[121] TRACE: Reconstruction-Based Anomaly Detection in Ensemble and Time-Dependent Simulations

Hamid Gadirov,Martijn Westra,Steffen Frey

Main category: cs.LG

TL;DR: 比较2D和3D卷积自编码器在参数化卡门涡街模拟数据中的异常检测性能,发现3D模型利用时空上下文能更好地检测异常运动模式并减少冗余检测。

  • Motivation: 高维、时间相关的模拟数据具有复杂的时空动态,使得异常检测变得困难。研究旨在探索基于重建的异常检测方法在参数化卡门涡街模拟数据中的应用。
  • Method: 使用卷积自编码器进行异常检测:比较2D自编码器(处理单个时间帧)和3D自编码器(处理短时间堆栈)。评估体积时间相关数据,分析重建误差与质量空间分布的关系。
  • Result: 2D模型能识别单个时间步中的局部空间不规则性,而3D模型利用时空上下文检测异常运动模式,并减少了跨时间的冗余检测。重建误差受质量空间分布的强烈影响,高度集中区域比分散配置产生更大的误差。
  • Conclusion: 在动态模拟中,时间上下文对于稳健的异常检测至关重要。3D自编码器通过利用时空信息,在检测异常运动模式方面表现更优。