Skip to content
每日arXiv - 2025年7月30日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] GAITEX: Human motion dataset from impaired gait and rehabilitation exercises of inertial and optical sensor data

Andreas Spilz,Heiko Oppel,Jochen Werner,Kathrin Stucke-Straub,Felix Capanni,Michael Munz

Main category: cs.CV

TL;DR: 该论文提出了一个多模态数据集,用于开发和评估基于IMU的机器学习模型,支持物理治疗练习和步态分析。

  • Motivation: 解决开发传感器分类模型时缺乏大规模多样化数据集的问题,促进机器学习在人类运动分析中的应用。
  • Method: 使用同步的IMU和标记运动捕捉系统记录19名参与者的物理治疗练习和步态数据,并提供详细注释和处理工具。
  • Result: 数据集包含原始和处理后的数据,支持多种分析任务,如自动运动评估和步态分析。
  • Conclusion: 该数据集和工具旨在加速机器学习驱动的人类运动分析研究。

[2] Seeing Beyond Frames: Zero-Shot Pedestrian Intention Prediction with Raw Temporal Video and Multimodal Cues

Pallavi Zambare,Venkata Nikhil Thanikella,Ying Liu

Main category: cs.CV

TL;DR: BF-PIP是一种零样本方法,通过连续视频片段和结构化元数据预测行人意图,无需额外训练即可达到73%的准确率。

  • Motivation: 解决传统方法需要大量重新训练的问题,提升复杂城市环境中行人意图预测的适应性。
  • Method: 基于Gemini 2.5 Pro,利用连续视频片段和JAAD元数据,结合边界框标注和车辆速度的多模态提示。
  • Result: 在无需额外训练的情况下,预测准确率达到73%,比GPT-4V基线高18%。
  • Conclusion: 结合时间视频输入和上下文线索,可提升时空感知能力,为智能交通系统提供无需重新训练的敏捷感知模块。

[3] ChartM3: Benchmarking Chart Editing with Multimodal Instructions

Danglu Yang,Liang Zhang,Zihao Yue,Liangyu Chen,Yichen Xu,Wenxuan Wang,Qin Jin

Main category: cs.CV

TL;DR: 论文提出了一种多模态图表编辑新范式,结合自然语言和视觉指示器表达用户意图,并提出了ChartM3基准和训练集,显著提升了多模态大语言模型的图表编辑能力。

  • Motivation: 现有图表编辑方法主要依赖自然语言指令,但语言模糊性限制了细粒度编辑能力,因此需要更直观的多模态表达方式。
  • Method: 引入多模态图表编辑范式,结合自然语言和视觉指示器;构建ChartM3基准和ChartM3-Train训练集,用于评估和训练多模态大语言模型。
  • Result: ChartM3基准揭示了当前MLLMs(如GPT-4o)在视觉指示器理解上的局限性,通过训练集微调后模型性能显著提升。
  • Conclusion: 多模态监督对构建实用图表编辑系统至关重要,ChartM3为未来研究提供了数据和工具支持。

[4] PanoGAN A Deep Generative Model for Panoramic Dental Radiographs

Soren Pedersen,Sanyam Jain,Mikkel Chavez,Viktor Ladehoff,Bruna Neves de Freitas,Ruben Pauwels

Main category: cs.CV

TL;DR: 本文开发了一种用于合成牙科全景X光片的生成对抗网络(GAN),旨在解决牙科研究和教育中数据稀缺的问题。

  • Motivation: 解决牙科研究和教育中数据稀缺的问题。
  • Method: 使用Wasserstein损失和梯度惩罚(WGANGP)训练深度卷积GAN(DCGAN),数据集包含2322张质量不一的X光片,重点处理牙槽区域。
  • Result: 生成的X光片在解剖可视性和真实性上表现中等,部分图像存在伪影。未去噪数据训练的模型在细节上更优,而去噪数据训练的模型整体清晰度更高。
  • Conclusion: 为牙科影像中基于GAN的方法提供了未来研究的基础。

[5] On Explaining Visual Captioning with Hybrid Markov Logic Networks

Monika Shah,Somdeb Sarkhel,Deepak Venugopal

Main category: cs.CV

TL;DR: 论文提出了一种基于混合马尔可夫逻辑网络(HMLNs)的解释框架,用于解释深度神经网络在多模态任务(如图像描述生成)中的决策过程。

  • Motivation: 现有标准指标无法深入解释DNN如何整合视觉、语言和知识表示生成有意义的描述,因此需要一种更易解释的方法。
  • Method: 使用HMLNs结合符号规则和实值函数,通过学习训练实例的分布并推断生成样本对分布的影响,量化哪些实例对生成描述贡献更大。
  • Result: 实验表明,该方法能提供可解释的解释,并比较不同图像描述模型在可解释性方面的表现。
  • Conclusion: 提出的HMLN框架为DNN在多模态任务中的决策提供了可解释的解释工具。

[6] Dual Guidance Semi-Supervised Action Detection

Ankit Singh,Efstratios Gavves,Cees G. M. Snoek,Hilde Kuehne

Main category: cs.CV

TL;DR: 提出了一种用于时空动作定位的半监督学习方法,通过双引导网络选择更好的伪边界框,显著提升了有限标注数据下的模型性能。

  • Motivation: 半监督学习在图像分类中表现优异,但在时空动作定位中的应用尚未充分研究,本文旨在填补这一空白。
  • Method: 引入双引导网络,结合帧级分类和边界框预测,确保动作类别在帧和边界框间的一致性。
  • Result: 在UCF101-24、J-HMDB-21和AVA数据集上验证,模型在有限标注数据下表现优于基线方法。
  • Conclusion: 所提方法在时空动作定位任务中有效提升了半监督学习的性能。

[7] Tracking Moose using Aerial Object Detection

Christopher Indris,Raiyan Rahman,Goetz Bramesfeld,Guanghui Wang

Main category: cs.CV

TL;DR: 论文研究了航空野生动物追踪中的小目标检测问题,通过数据增强和比较不同目标检测模型,发现简单模型在计算资源有限的情况下表现良好。

  • Motivation: 航空野生动物追踪需要高效的小目标检测方法,但传统方法成本高且计算资源有限。
  • Method: 采用数据增强(patching augmentation)比较三种不同架构的目标检测模型,分析超参数对检测准确性的影响。
  • Result: 所有模型在至少一种配置下达到93% mAP@IoU=0.5,简单模型在计算资源有限时表现与复杂模型相当。
  • Conclusion: 研究支持在无人机部署中使用计算效率更高的模型,数据与模型已开源。

[8] HDR Environment Map Estimation with Latent Diffusion Models

Jack Hilliard,Adrian Hilton,Jean-Yves Guillemaut

Main category: cs.CV

TL;DR: 提出了一种基于潜在扩散模型(LDM)的新方法,用于从单视图图像估计HDR环境贴图,解决了ERP表示中的边界伪影问题,并通过全景适应的扩散变换器架构(PanoDiT)提升了质量。

  • Motivation: 解决ERP格式在环境贴图中常见的极区扭曲和边界伪影问题,提升单视图图像估计HDR环境贴图的质量和准确性。
  • Method: 1. 提出ERP卷积填充以消除边界伪影;2. 设计全景适应的扩散变换器架构(PanoDiT)以减少ERP扭曲。
  • Result: 模型在标准基准测试中表现优异,环境贴图的质量和光照准确性均与现有最优方法相当。
  • Conclusion: 通过LDM和PanoDiT架构,成功提升了单视图HDR环境贴图估计的质量,同时解决了ERP格式的常见问题。

[9] Fairness and Robustness of CLIP-Based Models for Chest X-rays

Théo Sourget,David Restrepo,Céline Hudelot,Enzo Ferrante,Stergios Christodoulidis,Maria Vakalopoulou

Main category: cs.CV

TL;DR: 该研究评估了六种基于CLIP的模型在胸部X光分类任务中的公平性和鲁棒性,发现模型在不同年龄患者间存在性能差距,但对其他属性表现较为公平。同时,模型在无胸引管的病例中表现较差,表明其依赖虚假相关性。

  • Motivation: 基于CLIP的模型在自然图像-文本领域表现优异,但在医学任务中的公平性和鲁棒性尚未充分探索。
  • Method: 使用三个公开数据集(MIMIC-CXR、NIH-CXR14、NEATX)评估六种CLIP模型,分析其公平性和鲁棒性。
  • Result: 模型在不同年龄患者间性能不均,但对性别和种族表现公平;无胸引管的病例表现较差。
  • Conclusion: 研究揭示了CLIP模型在医学任务中的局限性,并强调了公平性和鲁棒性评估的重要性。

[10] VoluMe -- Authentic 3D Video Calls from Live Gaussian Splat Prediction

Martin de La Gorce,Charlie Hewitt,Tibor Takacs,Robert Gerdisch,Zafiirah Hosenie,Givi Meishvili,Marek Kowalski,Thomas J. Cashman,Antonio Criminisi

Main category: cs.CV

TL;DR: 提出了一种实时从2D摄像头生成3D高斯重建的方法,提升虚拟3D会议的体验。

  • Motivation: 现有3D会议方案依赖复杂硬件或固定外观,不适合视频会议应用。
  • Method: 通过独立处理每帧视频,结合稳定性损失函数,生成真实且稳定的3D重建。
  • Result: 在视觉质量和稳定性上优于现有方法,仅需普通2D设备即可实现3D会议。
  • Conclusion: 该方法为3D视频会议提供了高可访问性、真实性和真实感的解决方案。

[11] GLCP: Global-to-Local Connectivity Preservation for Tubular Structure Segmentation

Feixiang Zhou,Zhuangzhi Gao,He Zhao,Jianyang Xie,Yanda Meng,Yitian Zhao,Gregory Y. H. Lip,Yalin Zheng

Main category: cs.CV

TL;DR: 提出了一种全局到局部连通性保持(GLCP)框架,用于解决管状结构分割中的结构碎片化问题,通过联合学习全局分割、骨架图和局部不连续图,显著提升了分割精度和连续性。

  • Motivation: 管状结构(如血管网络)的准确分割在医学领域至关重要,但现有方法常因忽略局部不连续区域而导致分割效果不佳。
  • Method: 提出GLCP框架,包含交互式多头分割(IMS)模块和基于双注意力的轻量级细化(DAR)模块,联合学习全局和局部特征。
  • Result: 在2D和3D数据集上的实验表明,GLCP在分割精度和连续性上优于现有方法。
  • Conclusion: GLCP框架通过全局和局部特征的联合学习,有效解决了管状结构分割中的碎片化问题,具有实际应用潜力。

[12] Analyzing the Sensitivity of Vision Language Models in Visual Question Answering

Monika Shah,Sudarshan Balaji,Somdeb Sarkhel,Sanorita Dey,Deepak Venugopal

Main category: cs.CV

TL;DR: 研究探讨了视觉语言模型(VLMs)在违反Grice对话原则时的表现,发现其性能随修饰词增加而下降。

  • Motivation: 探索VLMs是否能像人类一样处理违反Grice对话原则的情况,以理解其局限性。
  • Method: 在VQA v2.0数据集上,对GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-Flash三种VLMs添加修饰词并分析其响应。
  • Result: VLMs的性能随修饰词增加而下降,表明其在处理违反对话原则时存在局限性。
  • Conclusion: 该方法为理解VLMs的局限性提供了有前景的方向。

[13] Enhancing and Accelerating Brain MRI through Deep Learning Reconstruction Using Prior Subject-Specific Imaging

Amirmohammad Shamaei,Alexander Stebner,Salome,Bosshart,Johanna Ospel,Gouri Ginde,Mariana Bento,Roberto Souza

Main category: cs.CV

TL;DR: 提出了一种基于深度学习的MRI重建框架,结合初始重建网络、深度配准模型和基于Transformer的增强网络,显著提升了重建质量和效率。

  • Motivation: MRI扫描时间长、成本高且影响患者舒适度,现有方法在整合先验信息时耗时较长。
  • Method: 采用深度学习框架,包括初始重建网络、深度配准模型和Transformer增强网络,验证于纵向T1加权MRI数据集。
  • Result: 定量指标优于现有方法(p < 0.05),下游脑分割任务精度提升,重建时间大幅减少。
  • Conclusion: 该方法高效且适合实时临床应用,代码已开源。

[14] Group Relative Augmentation for Data Efficient Action Detection

Deep Anil Patel,Iain Melvin,Zachary Izzo,Martin Renqiang Min

Main category: cs.CV

TL;DR: 提出了一种结合参数高效调优(LoRA)和可学习内部特征增强的策略,用于视频语言模型(VLM)的高效适应,解决了少样本动作检测中的过拟合和粒度不匹配问题。

  • Motivation: 解决视频语言模型在少样本动作检测任务中面临的过拟合和场景级预训练与人物中心理解之间的粒度不匹配问题。
  • Method: 结合LoRA参数高效调优和可学习内部特征增强(通过FiLM实现),并引入基于预测差异动态调整训练贡献的组加权损失函数。
  • Result: 在复杂多标签、多人动作检测数据集(AVA、MOMA)上表现出色,实现了较高的mAP性能,并展示了从有限样本中适应VLM的高数据效率。
  • Conclusion: 提出的方法有效解决了少样本动作检测中的挑战,显著提升了模型适应性和性能。

[15] Collaborative Perceiver: Elevating Vision-based 3D Object Detection via Local Density-Aware Spatial Occupancy

Jicheng Yuan,Manh Nguyen Duc,Qian Liu,Manfred Hauswirth,Danh Le Phuoc

Main category: cs.CV

TL;DR: CoP提出了一种多任务学习框架,通过空间占用辅助信息提升BEV 3D物体检测性能。

  • Motivation: 现有BEV方法忽略环境上下文信息,导致检测器无法全面感知物理世界特征。
  • Method: 提出LDO生成密集占用真值,VHS策略提取局部特征,CFF模块融合全局-局部特征。
  • Result: 在nuScenes测试集上达到49.5% mAP和59.2% NDS,优于现有方法。
  • Conclusion: CoP通过多任务协作显著提升了BEV 3D检测性能。

[16] Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers

Lukman Jibril Aliyu,Umar Sani Muhammad,Bilqisu Ismail,Nasiru Muhammad,Almustapha A Wakili,Seid Muhie Yimam,Shamsuddeen Hassan Muhammad,Mustapha Abdullahi

Main category: cs.CV

TL;DR: 比较深度学习模型在非洲野生动物图像分类中的表现,DenseNet-201和ViT-H/14表现最佳,但后者计算成本高。

  • Motivation: 非洲野生动物数量急剧下降,需高效工具进行生物多样性监测和保护。
  • Method: 使用迁移学习冻结特征提取器,比较DenseNet-201、ResNet-152、EfficientNet-B4和ViT-H/14在四种动物图像分类中的表现。
  • Result: DenseNet-201在卷积网络中表现最佳(67%准确率),ViT-H/14总体最高(99%),但计算成本高。
  • Conclusion: 研究为非洲野生动物保护提供了模型选择和部署的实用建议,强调轻量级模型的可行性。

[17] Exploring Probabilistic Modeling Beyond Domain Generalization for Semantic Segmentation

I-Hsiang Chen,Hua-En Chang,Wei-Ting Chen,Jenq-Neng Hwang,Sy-Yen Kuo

Main category: cs.CV

TL;DR: PDAF是一种概率扩散对齐框架,通过捕捉潜在域先验来增强语义分割模型的泛化能力。

  • Motivation: 解决领域泛化语义分割中因域偏移导致的性能下降问题。
  • Method: 引入潜在域先验(LDP),通过三个模块(LPE、DCM、DPE)建模和补偿域偏移。
  • Result: 在多样化城市场景中验证了PDAF的有效性。
  • Conclusion: PDAF通过概率扩散建模显著提升了模型在未见目标域中的泛化能力。

[18] Top2Pano: Learning to Generate Indoor Panoramas from Top-Down View

Zitong Zhang,Suranjan Gautam,Rui Yu

Main category: cs.CV

TL;DR: Top2Pano是一种端到端模型,用于从2D俯视图生成逼真的360度室内全景图,通过体积渲染和扩散细化提升真实感和结构一致性。

  • Motivation: 从2D俯视图生成360度室内全景图在虚拟现实、室内设计等领域有广泛应用,但由于缺乏明确的3D结构和几何一致性要求,这一任务具有挑战性。
  • Method: Top2Pano通过估计体积占用率推断3D结构,使用体积渲染生成粗糙的颜色和深度全景图,再通过ControlNet进行扩散细化。
  • Result: 在两个数据集上的评估显示,Top2Pano优于基线方法,能有效重建几何、遮挡和空间布局,并能从示意图生成高质量全景图。
  • Conclusion: Top2Pano在连接俯视图与沉浸式室内合成方面具有潜力。

[19] Multimodal LLMs as Customized Reward Models for Text-to-Image Generation

Shijie Zhou,Ruiyi Zhang,Huaisheng Zhu,Branislav Kveton,Yufan Zhou,Jiuxiang Gu,Jian Chen,Changyou Chen

Main category: cs.CV

TL;DR: LLaVA-Reward是一种高效的奖励模型,利用预训练的多模态大语言模型(MLLMs)自动评估文本到图像(T2I)生成的多个方面。通过Skip-connection Cross Attention模块增强视觉与文本表示的双向交互,支持多种偏好数据微调,在多个评估维度上表现优于传统方法。

  • Motivation: 现有MLLM方法需要指令跟随数据进行监督微调,且评估生成质量时依赖文本响应分析,耗时且难以训练。LLaVA-Reward旨在解决这一问题。
  • Method: 直接利用MLLMs的隐藏状态处理文本-图像对,引入SkipCA模块增强视觉与文本表示的交互,支持配对和非配对偏好数据微调。
  • Result: 在文本-图像对齐、保真度/伪影、安全性和整体排名四个评估维度上,LLaVA-Reward表现优于传统和基于MLLM的方法。
  • Conclusion: LLaVA-Reward提供了一种高效、自动化的文本到图像生成评估方法,显著提升了评估质量和推理效率。

[20] ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs

Chaoyu Li,Yogesh Kulkarni,Pooyan Fazli

Main category: cs.CV

TL;DR: ReGATE是一种自适应令牌剪枝方法,通过教师-学生框架加速多模态大语言模型(MLLM)训练,显著减少计算开销。

  • Motivation: 现有方法主要针对推理且依赖令牌减少或合并,对训练阶段的效率提升有限。
  • Method: 采用教师-学生框架,结合教师模型的参考损失和学生模型的难度评分,选择性处理关键令牌。
  • Result: 在VideoLLaMA2上,ReGATE达到标准训练的峰值精度,速度提升2倍,令牌使用量仅35%。
  • Conclusion: ReGATE在减少令牌数量的同时,甚至超越基线性能,展示了高效训练MLLM的潜力。

[21] MapDiffusion: Generative Diffusion for Vectorized Online HD Map Construction and Uncertainty Estimation in Autonomous Driving

Thomas Monninger,Zihan Zhang,Zhipeng Mo,Md Zafar Anwar,Steffen Staab,Sihao Ding

Main category: cs.CV

TL;DR: MapDiffusion提出了一种基于扩散模型的生成方法,用于学习向量化地图的完整分布,提高了自动驾驶地图构建的准确性和不确定性估计。

  • Motivation: 传统地图构建模型仅提供确定性点估计,无法捕捉真实世界环境中的不确定性和模糊性(如遮挡和缺失的车道标记)。
  • Method: MapDiffusion利用扩散模型,通过迭代优化随机初始化的查询,生成多个可能的地图样本,并基于BEV潜在网格进行条件化。
  • Result: 在nuScenes数据集上,MapDiffusion在在线地图构建中表现最优,单样本性能提升5%,多样本聚合进一步提高了性能。不确定性估计在遮挡区域显著更高。
  • Conclusion: MapDiffusion通过建模完整的地图分布,增强了在线向量化高清地图构建的鲁棒性和可靠性,支持自动驾驶在复杂环境中的不确定性感知决策。

[22] Dual Cross-image Semantic Consistency with Self-aware Pseudo Labeling for Semi-supervised Medical Image Segmentation

Han Wu,Chong Wang,Zhiming Cui

Main category: cs.CV

TL;DR: 提出了一种新的半监督医学图像分割框架DuCiSC,通过双交叉图像语义一致性学习解决现有方法在区域级语义一致性和特征差异上的不足。

  • Motivation: 现有半监督学习方法在医学图像分割中忽视区域级语义一致性,且因标记与未标记数据不平衡导致特征差异。
  • Method: DuCiSC通过双范式(标记与未标记图像、标记与融合图像)强制区域级语义一致性,并采用自感知置信度估计策略选择可靠伪标签。
  • Result: 在四个数据集上验证,包括左心房、胰腺、心脏诊断和下牙槽神经分割,表现优于现有方法。
  • Conclusion: DuCiSC通过跨图像语义一致性有效解决了特征差异问题,提升了分割性能。

[23] Recursive Visual Imagination and Adaptive Linguistic Grounding for Vision Language Navigation

Bolei Chen,Jiaxu Kang,Yifei Wang,Ping Zhong,Qi Wu,Jianxin Wang

Main category: cs.CV

TL;DR: 论文提出了一种递归视觉想象(RVI)和自适应语言对齐(ALG)技术,用于提升视觉语言导航(VLN)任务中代理的导航能力。

  • Motivation: 当前VLN代理在场景表示和视觉-语言对齐方面存在问题,导致导航行为偏离语言指令。
  • Method: 通过递归总结视觉感知并建模历史轨迹为紧凑神经网格,结合RVI和ALG技术,优化视觉过渡和语义布局的规律性。
  • Result: 在VLN-CE和ObjectNav任务中表现优于现有方法。
  • Conclusion: RVI和ALG技术显著提升了VLN任务的性能。

[24] Boost Self-Supervised Dataset Distillation via Parameterization, Predefined Augmentation, and Approximation

Sheng-Feng Yu,Jia-Jiun Yao,Wei-Chen Chiu

Main category: cs.CV

TL;DR: 论文提出了一种自监督数据集蒸馏方法,通过压缩图像及其自监督学习表示,提升跨架构泛化能力,并提出了三种新技术以提高蒸馏效率和性能。

  • Motivation: 随着数据集规模的增长,训练成本急剧上升,数据集蒸馏成为一种减少数据集大小的方法。然而,现有方法主要针对监督数据集,本文旨在解决自监督数据集蒸馏的问题。
  • Method: 1) 使用低维基对图像和表示进行参数化;2) 通过预定义的数据增强解决自监督学习中的随机性问题;3) 利用轻量网络建模增强视图间的关系。
  • Result: 实验表明,该方法在蒸馏效率、跨架构泛化和迁移学习性能上优于现有方法。
  • Conclusion: 自监督数据集蒸馏方法能有效压缩数据集并保持性能,提出的新技术显著提升了蒸馏效果。

[25] An Angular-Temporal Interaction Network for Light Field Object Tracking in Low-Light Scenes

Mianzhao Wang,Fan Shi,Xu Cheng,Feifei Zhang,Shengyong Chen

Main category: cs.CV

TL;DR: 提出了一种新的光场表示方法(ESI)和角-时域交互网络(ATINet),用于提升低光场景下的目标跟踪性能,并引入了大规模数据集。

  • Motivation: 现有方法在复杂低光场景下的角-时域建模效果不佳,需要更高效的光场表示和建模方法。
  • Method: 提出光场极平面结构图像(ESI)表示和角-时域交互网络(ATINet),利用几何结构和角-时域交互线索进行建模。
  • Result: ATINet在单目标跟踪中达到最优性能,并成功扩展到多目标跟踪。
  • Conclusion: ESI和ATINet有效提升了光场角-时域建模的质量,尤其在低光场景中表现突出。

[26] Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval

Zhichuan Wang,Yang Zhou,Zhe Liu,Rui Yu,Song Bai,Yulong Wang,Xinwei He,Xiang Bai

Main category: cs.CV

TL;DR: DAC框架通过结合CLIP和多模态大语言模型(MLLM),仅使用多视角图像实现开放集3D对象检索,显著优于现有方法。

  • Motivation: 现有方法因3D训练数据不足难以生成泛化表示,而CLIP基于大规模图像-文本预训练具有广泛泛化能力。
  • Method: 提出DAC框架,利用MLLM描述已知类别信息以适配CLIP,并引入AB-LoRA缓解过拟合。
  • Result: 在四个开放集3DOR数据集上平均提升10.01% mAP,泛化能力在图像和跨数据集场景中验证。
  • Conclusion: DAC通过简单有效的方法显著提升了开放集3D对象检索的性能和泛化能力。

[27] VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding

Shibo Gao,Peipei Yang,Yangyang Liu,Yi Chen,Han Zhu,Xuyao Zhang,Linlin Huang

Main category: cs.CV

TL;DR: 论文提出了VAGU基准,整合视频异常检测中的语义理解和时间定位任务,并提出了GtS框架和JeAUG评估指标。

  • Motivation: 现有视频异常检测方法无法同时支持语义理解和时间定位任务,缺乏统一的基准和评估标准。
  • Method: 提出VAGU基准,包含异常类别、语义解释、时间定位和视频问答;设计GtS框架,通过文本提示实现粗定位和精细解释;提出JeAUG评估指标。
  • Result: 实验验证了VAGU基准、GtS框架和JeAUG指标的有效性。
  • Conclusion: VAGU基准和GtS框架为视频异常检测提供了全面解决方案,JeAUG指标克服了传统评估的局限性。

[28] Optimizing Active Learning in Vision-Language Models via Parameter-Efficient Uncertainty Calibration

Athmanarayanan Lakshmi Narayanan,Amrutha Machireddy,Ranganath Krishnan

Main category: cs.CV

TL;DR: 提出了一种参数高效学习方法,结合不确定性校准损失,用于主动学习框架,显著减少标注成本并提升性能。

  • Motivation: 在大规模视觉语言模型中,主动学习面临不确定性估计和高效采样的挑战,需要一种参数高效的方法来解决。
  • Method: 引入了一种可微的损失函数,促进不确定性校准,以选择信息量最大的样本进行微调。
  • Result: 实验表明,该方法在多个数据集和视觉骨干上表现优异,计算效率高,甚至超越复杂特征采样技术。
  • Conclusion: 该方法在主动学习中表现出色,同时比较了Prompt学习和LoRA在样本选择中的效果。

[29] Chain-of-Cooking:Cooking Process Visualization via Bidirectional Chain-of-Thought Guidance

Mengling Xu,Ming Tao,Bing-Kun Bao

Main category: cs.CV

TL;DR: 提出了一种名为Chain-of-Cooking的烹饪过程可视化模型,通过动态补丁选择模块和语义进化模块解决语义一致性和上下文连贯性问题,并在CookViz数据集上验证了其优越性。

  • Motivation: 现有方法多关注于生成最终食物的图像,而忽略了烹饪过程中食材外观变化和步骤间依赖关系,导致语义不一致和连贯性不足。
  • Method: 采用动态补丁选择模块检索相关图像补丁,语义进化模块建立语义关联,并通过双向链式思维引导保持连贯性。
  • Result: 实验表明,该方法在生成连贯且语义一致的烹饪过程图像上优于现有方法。
  • Conclusion: Chain-of-Cooking模型有效解决了烹饪过程可视化中的语义一致性和连贯性问题,具有实际应用潜力。

[30] Suppressing Gradient Conflict for Generalizable Deepfake Detection

Ming-Hui Liu,Harry Cheng,Xin Luo,Xin-Shun Xu

Main category: cs.CV

TL;DR: 论文提出了一种冲突抑制的深度伪造检测框架(CS-DFD),通过解决梯度冲突问题,提升了检测模型的泛化能力。

  • Motivation: 现有的深度伪造检测模型在联合训练原始数据和在线合成伪造数据时性能下降,这与传统观点相矛盾。研究发现这是由于梯度冲突导致的。
  • Method: CS-DFD框架包含两个模块:更新向量搜索(UVS)模块和冲突梯度减少(CGR)模块。UVS通过极值优化寻找最优更新向量,CGR通过冲突下降损失函数减少梯度冲突。
  • Result: 实验表明,CS-DFD在多个深度伪造基准测试中实现了最先进的检测精度和跨域泛化能力。
  • Conclusion: CS-DFD通过解决梯度冲突问题,显著提升了深度伪造检测模型的性能。

[31] Sun sensor calibration algorithms: A systematic mapping and survey

Michael Herman,Olivia J. Pinon Fischer,Dimitri N. Mavris

Main category: cs.CV

TL;DR: 论文综述了太阳传感器的建模与校准算法,分析了研究空白并提出了未来方向。

  • Motivation: 太阳传感器校准因涉及复杂的时空不确定性而困难,需开发先进算法以提高精度。
  • Method: 系统映射不同传感器配置下的建模与校准算法,全面调查每种方法。
  • Result: 总结了现有方法,识别了研究空白,提出了未来研究方向。
  • Conclusion: 通过系统综述,为太阳传感器建模与校准技术的未来发展提供了指导。

[32] Multi-View Reconstruction with Global Context for 3D Anomaly Detection

Yihan Sun,Yuqi Cheng,Yunkang Cao,Yuxin Zhang,Weiming Shen

Main category: cs.CV

TL;DR: 提出了一种基于多视角重建(MVR)的3D异常检测方法,通过将高分辨率点云无损转换为多视角图像,增强全局信息学习,显著提升了检测性能。

  • Motivation: 现有方法在高精度3D异常检测中因全局信息不足导致性能下降,需改进。
  • Method: 采用多视角重建(MVR)方法,将点云转换为多视角图像,并结合重建框架学习全局信息。
  • Result: 在Real3D-AD基准测试中,MVR取得了89.6%的对象级AU-ROC和95.7%的点级AU-ROC。
  • Conclusion: MVR通过增强全局信息学习,显著提升了3D异常检测的性能。

[33] RelMap: Enhancing Online Map Construction with Class-Aware Spatial Relation and Semantic Priors

Tianhui Cai,Yun Zhang,Zewei Zhou,Zhiyu Huang,Jiaqi Ma

Main category: cs.CV

TL;DR: RelMap是一个端到端框架,通过结合空间关系和语义先验提升在线高清地图构建的准确性和泛化能力。

  • Motivation: 现有基于Transformer的方法忽视了地图元素间的空间和语义关系,限制了其性能。
  • Method: 提出Class-aware Spatial Relation Prior和MoE-based Semantic Prior,分别编码空间关系和优化语义特征解码。
  • Result: 在nuScenes和Argoverse 2数据集上达到最先进性能。
  • Conclusion: RelMap通过显式建模空间和语义关系,显著提升了在线地图构建的效果。

[34] LinDeps: A Fine-tuning Free Post-Pruning Method to Remove Layer-Wise Linear Dependencies with Guaranteed Performance Preservation

Maxim Henry,Adrien Deliège,Anthony Cioppa,Marc Van Droogenbroeck

Main category: cs.CV

TL;DR: LinDeps是一种新型的后剪枝方法,通过线性依赖性分析优化CNN剪枝效果,提高压缩率并保持性能。

  • Motivation: CNN在资源受限平台上的部署面临挑战,现有剪枝方法忽略特征图间的结构依赖性,导致剪枝效果不佳。
  • Method: LinDeps利用主元QR分解检测并剪除线性相关滤波器,并通过信号恢复机制调整下一层内核,无需微调。
  • Result: 在CIFAR-10和ImageNet上的实验表明,LinDeps提升了现有剪枝技术的压缩率,同时保持性能,成为CNN剪枝的新标杆。
  • Conclusion: LinDeps是当前和未来剪枝技术的重要补充,尤其在低资源环境下表现优异。

[35] TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs

Kejia Zhang,Keda Tao,Zhiming Luo,Chang Liu,Jiasheng Tang,Huan Wang

Main category: cs.CV

TL;DR: TARS提出了一种基于token自适应的偏好策略,通过min-max优化减少多模态大语言模型的幻觉问题,显著提升了视觉-语言推理的可靠性。

  • Motivation: 现有直接偏好优化(DPO)方法在处理幻觉问题时依赖静态监督信号,容易过拟合语言线索,导致视觉信息丢失。
  • Method: TARS将DPO重新定义为min-max优化问题,最大化token级分布变化以模拟对齐不确定性,同时最小化偏好损失。
  • Result: 在多个幻觉基准测试中,TARS仅用4.8k偏好样本,将幻觉率从26.4%降至13.2%,认知值从2.5降至0.4,性能优于标准DPO并匹配GPT-4o。
  • Conclusion: TARS通过动态优化策略有效减少了多模态推理中的幻觉问题,提升了模型的可靠性和视觉信息的基础性。

Zheyuan Zhang,Wang Zhang

Main category: cs.CV

TL;DR: 本文综述了基于图像级标注的弱监督语义分割(WSSS)的最新进展,分类总结了现有方法,并探讨了领域特定数据集的挑战和未来研究方向。

  • Motivation: 现有综述未能捕捉最新趋势,需要更新且全面的综述来填补这一空白。
  • Method: 分类总结了基于图像级标注的WSSS方法,并分析了领域特定数据集的挑战。
  • Result: 综述了最新技术和进展,指出了现有方法的局限性和未来研究方向。
  • Conclusion: 本文为熟悉WSSS基础的研究者提供了当前进展和方法创新的深入理解,并展望了未来研究方向。

[37] Locally Controlled Face Aging with Latent Diffusion Models

Lais Isabelle Alves dos Santos,Julien Despois,Thibaut Chauffier,Sileye O. Ba,Giovanni Palma

Main category: cs.CV

TL;DR: 提出了一种基于局部老化特征的面部老化新方法,解决了现有方法将老化视为全局同质过程的局限性。

  • Motivation: 现有方法(如GAN和扩散模型)通常基于参考图像和目标年龄生成老化效果,忽略了面部区域因内在和外在因素而异的老化过程。
  • Method: 利用潜在扩散模型选择性地老化特定面部区域,并通过潜在扩散细化器无缝融合局部老化区域,实现全局一致的自然合成。
  • Result: 实验结果表明,该方法在身份保持、高保真图像和自然可控的老化进程三个方面表现优异。
  • Conclusion: 该方法提供了更精细的老化控制,实现了更真实和个性化的面部老化效果。

[38] Decoupled Spatio-Temporal Consistency Learning for Self-Supervised Tracking

Yaozong Zheng,Bineng Zhong,Qihua Liang,Ning Li,Shuxiang Song

Main category: cs.CV

TL;DR: 提出了一种自监督跟踪框架SSTrack,无需手动标注框,通过时空一致性训练和实例对比损失实现高效跟踪。

  • Motivation: 减少对人工标注框的依赖,扩大跟踪数据集的规模和多样性。
  • Method: 采用解耦的时空一致性训练框架,结合全局空间定位和局部时间关联,设计实例对比损失。
  • Result: 在多个基准数据集上表现优异,性能提升显著。
  • Conclusion: SSTrack为自监督跟踪提供了高效解决方案,减少了对标注数据的依赖。

[39] Semantic Segmentation of iPS Cells: Case Study on Model Complexity in Biomedical Imaging

Maoquan Zhang,Bisser Raytchev,Xiujuan Sun

Main category: cs.CV

TL;DR: DeepLabv3模型在iPS细胞集落分割任务中表现优于大型基础模型,表明在特定任务中,模型复杂度并非越高越好。

  • Motivation: 探讨在医学图像分割中,针对低对比度边界的专业任务,简单模型是否可能优于复杂模型。
  • Method: 使用DeepLabv3模型进行iPS细胞集落分割,并与SAM2和MedSAM2等大型模型对比。
  • Result: DeepLabv3在实验条件下表现更优,无需结构修改即可超越大型模型。
  • Conclusion: 在特定生物医学应用中,适当调整的简单模型可能提供更高的准确性和可靠性。

[40] Wind Turbine Feature Detection Using Deep Learning and Synthetic Data

Arash Shahirpour,Jakob Gebler,Manuel Sanders,Tim Reuscher

Main category: cs.CV

TL;DR: 提出了一种生成合成数据的方法,用于训练无人机检测风力涡轮机及其关键特征的深度学习模型,解决了真实数据不足和多样性受限的问题。

  • Motivation: 现有方法依赖手动标记的真实图像,导致训练数据在天气、光照、涡轮机类型和图像复杂性方面缺乏多样性。
  • Method: 通过生成合成训练数据,控制视觉和环境因素的变化,并使用改进的YOLOv11网络进行特征检测。
  • Result: 模型在合成和真实图像上均表现良好,未训练的真实图像上Pose mAP50-95达到0.97。
  • Conclusion: 合成数据方法有效提升了模型的泛化能力,为无人机检测任务提供了新思路。

[41] EMIT: Enhancing MLLMs for Industrial Anomaly Detection via Difficulty-Aware GRPO

Wei Guan,Jun Lan,Jian Cao,Hao Tan,Huijia Zhu,Weiqiang Wang

Main category: cs.CV

TL;DR: EMIT框架通过难度感知的组相对策略优化(GRPO)提升多模态大语言模型(MLLMs)在工业异常检测(IAD)中的性能,平均提升7.77%。

  • Motivation: 工业异常检测对制造系统的安全性和可靠性至关重要,但现有MLLMs在IAD中表现有限,需领域特定优化。
  • Method: EMIT构建多任务IAD数据集,利用GPT生成文本描述补充缺陷图像缺失;结合软提示和热图引导的对比嵌入;提出难度感知GRPO,包含响应重采样和优势重加权机制。
  • Result: 在MMAD基准测试中,EMIT显著提升MLLMs的IAD性能,平均提升7.77%。
  • Conclusion: EMIT通过创新优化策略有效提升了MLLMs在工业异常检测中的表现。

[42] GuidPaint: Class-Guided Image Inpainting with Diffusion Models

Qimin Wang,Xinda Liu,Guohua Geng

Main category: cs.CV

TL;DR: GuidPaint是一种无需训练的、基于类别引导的图像修复框架,通过引入分类器引导和混合采样策略,显著提升了修复结果的语义一致性和视觉真实感。

  • Motivation: 现有基于扩散模型的图像修复方法需要额外训练且缺乏对掩码区域的精细控制,导致语义不一致或视觉不合理。
  • Method: GuidPaint通过分类器引导调整去噪过程,并结合随机与确定性采样,实现对掩码区域的精确控制和结果优化。
  • Result: 实验表明,GuidPaint在定性和定量评估上均优于现有方法。
  • Conclusion: GuidPaint为图像修复提供了一种高效且无需训练的新方法,显著提升了修复质量。

[43] The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM

Shibo Gao,Peipei Yang,Haiyang Guo,Yangyang Liu,Yi Chen,Shuai Li,Han Zhu,Jian Xu,Xu-Yao Zhang,Linlin Huang

Main category: cs.CV

TL;DR: 本文综述了基于多模态大语言模型(MLLMs)和大语言模型(LLMs)的视频异常检测(VAD)方法,探讨了其在数据标注、输入模态、模型架构和任务目标等方面的变革,并提出了一个统一框架。

  • Motivation: 随着深度学习和MLLMs/LLMs的快速发展,VAD领域面临新的机遇与挑战,亟需系统性的综述以梳理最新进展。
  • Method: 提出一个统一框架,涵盖基于深度神经网络(DNN)和LLM的VAD方法,分析新范式并构建分类系统。
  • Result: 深入探讨了LLMs对VAD领域的变革及其原因,总结了当前基于MLLMs/LLMs的VAD方法。
  • Conclusion: 提炼了关键技术挑战和未来研究方向,为VAD社区提供指导。

[44] Automated Detection of Antarctic Benthic Organisms in High-Resolution In Situ Imagery to Aid Biodiversity Monitoring

Cameron Trotter,Huw Griffiths,Tasnuva Ming Khan,Rowan Whittle

Main category: cs.CV

TL;DR: 提出了一种针对南极底栖生物监测的定制化目标检测框架,解决了海洋生态图像中的关键挑战,并在检测中大型生物方面表现出色。

  • Motivation: 南极底栖生物多样性监测对理解气候变化驱动的生态变化至关重要,但传统手动标注方法效率低下,阻碍大规模分析。
  • Method: 结合分辨率保持的分块、空间数据增强、微调和后处理技术(Slicing Aided Hyper Inference),并比较了多种目标检测架构。
  • Result: 在检测25种精细形态的中大型生物方面表现优异,但对小型和稀有类群的检测仍有挑战。
  • Conclusion: 该框架为未来机器辅助的底栖生物多样性监测研究提供了可扩展的基础。

[45] APT: Improving Diffusion Models for High Resolution Image Generation with Adaptive Path Tracing

Sangmin Han,Jinho Jeong,Jinwoo Kim,Seon Joo Kim

Main category: cs.CV

TL;DR: APT框架通过统计匹配和尺度感知调度解决了基于补丁方法中的分布偏移和单调性问题,提升了高分辨率图像生成的细节和速度。

  • Motivation: 固定分辨率的潜在扩散模型在高分辨率图像生成中存在局限性,而基于补丁的方法虽流行但存在分布偏移和单调性问题。
  • Method: 提出APT框架,结合统计匹配和尺度感知调度,优化补丁分布和去噪路径。
  • Result: APT生成更清晰的高分辨率图像,同时加快采样速度,质量损失最小。
  • Conclusion: APT为高分辨率图像生成提供了一种实用且高效的解决方案。

[46] Semantics versus Identity: A Divide-and-Conquer Approach towards Adjustable Medical Image De-Identification

Yuan Tian,Shuo Wang,Rongzhao Zhang,Zijian Chen,Yankai Jiang,Chunyi Li,Xiangyang Zhu,Fang Yan,Qiang Hu,XiaoSong Wang,Guangtao Zhai

Main category: cs.CV

TL;DR: 提出了一种分步框架,通过身份阻断和医学语义补偿实现医疗影像去标识化,同时保留医学语义。

  • Motivation: 现有去标识化方法未能充分保留医学语义且缺乏隐私级别灵活性。
  • Method: 分步框架:1) 身份阻断以调整隐私级别;2) 利用预训练医学基础模型补偿语义;3) 基于最小描述长度原则解耦残留身份信息。
  • Result: 在七个数据集和三个下游任务中表现优于现有方法。
  • Conclusion: 该方法在去标识化中实现了隐私与医学语义的平衡,性能领先。

[47] Impact of Underwater Image Enhancement on Feature Matching

Jason M. Summers,Mark W. Jones

Main category: cs.CV

TL;DR: 提出了一种用于评估水下图像增强效果的新框架,包括局部匹配稳定性和最远可匹配帧作为量化指标,并验证其对实际应用(如SLAM)的影响。

  • Motivation: 水下图像因光吸收、散射、海洋生物和碎片等因素导致视觉退化,增强后的图像对路径检测和自主导航等任务至关重要,但现有方法缺乏对实际应用效果的评估。
  • Method: 提出了一种针对水下环境的新型评估框架,通过局部匹配稳定性和最远可匹配帧量化增强效果,并结合实际匹配策略进行验证。
  • Result: 通过度量分析揭示了现有方法的优缺点,并填补了其在实际应用评估中的空白。新框架为增强方法提供了上下文感知的基准。
  • Conclusion: 新框架不仅提升了水下图像增强的评估效果,还验证了其对SLAM等实际应用的性能提升,强调了其在操作场景中的实用性。

[48] Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations

Nils Hütten,Florian Hölken,Hasan Tercan,Tobias Meisen

Main category: cs.CV

TL;DR: 该论文通过神经科学启发的消融实验,分析了三种检测Transformer模型(DETR、DDETR、DINO)内部组件的作用,揭示了模型对组件消融的敏感性和冗余性,为提升模型透明性和效率提供了见解。

  • Motivation: 研究检测Transformer模型内部组件的具体作用,以填补现有研究空白,提升模型的透明性和效率。
  • Method: 采用神经科学中的消融研究方法,系统性地消融关键组件(如查询嵌入、MHSA和MHCA层),并在COCO数据集上评估性能(gIoU和F1-score)。
  • Result: 发现模型对消融的敏感性不同:DETR对编码器MHSA和解码器MHCA最敏感,DDETR因多尺度可变形注意力更鲁棒,DINO因更新规则最鲁棒。同时揭示了结构冗余性。
  • Conclusion: 该研究为DETR模型的XAI提供了新见解,明确了内部组件的贡献,为优化模型透明性和效率提供了方向。

[49] SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking

Qianxiong Xu,Lanyun Zhu,Chenxi Liu,Guosheng Lin,Cheng Long,Ziyue Li,Rui Zhao

Main category: cs.CV

TL;DR: 论文提出了一种基于SAM2的SAMITE模型,通过原型记忆库和位置提示生成器解决VOT中的遮挡和干扰问题,提升了跟踪性能。

  • Motivation: 现有VOT方法在时间依赖性和泛化性上存在不足,且难以应对遮挡和干扰问题。
  • Method: 基于SAM2构建SAMITE模型,引入原型记忆库量化跟踪结果的正确性,并通过位置提示生成器提供明确位置线索。
  • Result: 在六个基准测试中验证了SAMITE的优越性。
  • Conclusion: SAMITE通过改进记忆机制和位置提示,有效解决了VOT中的关键挑战。

[50] MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces

Shaojun E,Yuchen Yang,Jiaheng Wu,Yan Zhang,Tiejun Zhao,Ziyan Chen

Main category: cs.CV

TL;DR: 提出MAGE框架,通过智能对齐网络(IAN)解决视觉与文本语义空间的对齐问题,提升多模态模型的性能。

  • Motivation: 多模态学习中视觉数据编码后的空间和语义损失是关键挑战,现有方法存在向量间隙或语义差异问题。
  • Method: 引入IAN实现维度和语义对齐,结合交叉熵和均方误差训练策略,并开发微调数据集增强模型能力。
  • Result: MAGE在多个评估基准(如MME、MMBench、SEED)上表现优于同类工作。
  • Conclusion: MAGE通过创新的对齐机制和训练策略,显著提升了多模态模型的性能。

[51] Adversarial Reconstruction Feedback for Robust Fine-grained Generalization

Shijie Wang,Jian Shi,Haojie Li

Main category: cs.CV

TL;DR: AdvRF提出了一种对抗性重建反馈框架,用于学习类别无关的差异表示,以解决现有细粒度图像检索方法对预定义类别的依赖问题。

  • Motivation: 现有细粒度图像检索方法依赖预定义类别,导致检索表示中引入类别特定语义,限制了其泛化能力。
  • Method: AdvRF通过结合检索模型的类别感知差异定位与重建模型的类别无关特征学习,将FGIR重新定义为视觉差异重建任务。
  • Result: AdvRF在细粒度和粗粒度数据集上均表现出色。
  • Conclusion: AdvRF通过对抗性重建反馈成功学习到类别无关的差异表示,提升了检索模型的泛化能力。

[52] Few-Shot Vision-Language Reasoning for Satellite Imagery via Verifiable Rewards

Aybora Koksal,A. Aydin Alatan

Main category: cs.CV

TL;DR: 论文提出了一种基于少量样本的强化学习框架(RLVR),用于卫星图像分析,无需标注数据,仅需轻量级规则奖励。实验表明,该方法在少量样本下表现优异,甚至优于传统大规模标注数据训练模型。

  • Motivation: 解决遥感等专业领域数据稀缺且标注成本高的问题,提出一种高效且成本低的解决方案。
  • Method: 采用1-shot RLVR框架,结合策略梯度优化和轻量级规则奖励(如IoU),仅需少量样本即可训练模型。
  • Result: 在多个遥感任务(分类、视觉问答、定位)中,仅需1个样本即可显著提升性能,128样本时性能媲美或超越传统大规模标注模型。
  • Conclusion: RLVR框架为数据稀缺领域提供了一种高效、低成本的解决方案,通过少量样本和规则奖励即可实现高性能模型训练。

[53] LiteFat: Lightweight Spatio-Temporal Graph Learning for Real-Time Driver Fatigue Detection

Jing Ren,Suyu Ma,Hong Jia,Xiwei Xu,Ivan Lee,Haytham Fayek,Xiaodong Li,Feng Xia

Main category: cs.CV

TL;DR: LiteFat是一种轻量级时空图学习模型,用于高效检测驾驶员疲劳,具有高精度和低计算需求。

  • Motivation: 驾驶员疲劳是交通事故的主要原因,现有深度学习模型计算量大,不适合资源有限的嵌入式设备。
  • Method: 将视频数据转换为时空图(STG),使用MobileNet提取面部特征,轻量级时空图神经网络检测疲劳。
  • Result: 在基准数据集上表现优异,显著降低计算复杂性和延迟。
  • Conclusion: LiteFat为嵌入式设备提供了实时、高效的疲劳检测解决方案。

[54] MOR-VIT: Efficient Vision Transformer with Mixture-of-Recursions

YiZhou Li

Main category: cs.CV

TL;DR: MoR-ViT引入动态递归机制,显著减少参数和计算成本,提升ViT效率。

  • Motivation: 标准ViT存在参数冗余和计算成本高的问题,限制了实际部署。
  • Method: 提出MoR-ViT框架,采用token级动态递归机制,自适应确定处理深度。
  • Result: 在ImageNet-1K上实现最高精度,参数减少70%,推理加速2.5倍。
  • Conclusion: 动态递归是高效ViT的有效策略,为可扩展和可部署的深度学习模型开辟新途径。

[55] AU-LLM: Micro-Expression Action Unit Detection via Enhanced LLM-Based Feature Fusion

Zhishu Liu,Kaishen Yuan,Bo Zhao,Yong Xu,Zitong Yu

Main category: cs.CV

TL;DR: 论文提出了一种名为AU-LLM的新框架,首次利用大型语言模型(LLM)检测微表情动作单元(AUs),解决了数据稀缺和强度低的问题,并通过增强融合投影器(EFP)弥合视觉-语言语义鸿沟。

  • Motivation: 微表情AUs检测是情感计算中的重要挑战,但现有方法在数据稀缺和低强度领域表现不足。LLMs的强大推理能力尚未在此领域应用。
  • Method: 提出AU-LLM框架,结合3D-CNN提取的局部和全局视觉特征,通过EFP(多层感知机)融合为信息密集的token,供LLM进行推理。
  • Result: 在CASME II和SAMM数据集上的实验表明,AU-LLM在LOSO和跨域协议下达到新SOTA,验证了LLM在微表情分析中的潜力。
  • Conclusion: AU-LLM展示了LLM在微表情AUs检测中的显著潜力,为情感计算提供了新方向。

[56] MSGCoOp: Multiple Semantic-Guided Context Optimization for Few-Shot Learning

Zhaolong Wang,Tongfeng Sun,Mingzheng Du,Yachao Huang

Main category: cs.CV

TL;DR: MSGCoOp框架通过多语义引导上下文优化提升少样本泛化能力,同时保持计算效率。

  • Motivation: 现有方法在新类别泛化上表现不佳,且复杂架构或计算开销大。
  • Method: 利用并行可学习上下文向量捕捉多样语义,结合LLM生成的类描述进行语义引导,并引入多样性正则化损失。
  • Result: 在11个基准数据集上,MSGCoOp显著提升了基类到新类的泛化性能,平均调和均值提升1.10%。
  • Conclusion: MSGCoOp在少样本和跨域泛化任务中表现出色,计算高效。

[57] Distribution-Based Masked Medical Vision-Language Model Using Structured Reports

Shreyank N Gowda,Ruichi Zhang,Xiao Gu,Ying Weng,Lu Yang

Main category: cs.CV

TL;DR: 提出了一种不确定性感知的医学图像-文本预训练模型,通过结构化文本报告增强医学图像分析能力。

  • Motivation: 现有模型难以处理医学数据的变异性与模糊性,限制了其对临床信息的捕捉能力。
  • Method: 利用大语言模型生成结构化文本报告,结合图像数据,建模跨模态和模态内不确定性。
  • Result: 模型在多个下游任务中取得最先进性能。
  • Conclusion: 该方法显著提升了医学图像-文本预训练的效果,增强了模型的泛化能力。

[58] HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

HunyuanWorld Team,Zhenwei Wang,Yuhao Liu,Junta Wu,Zixiao Gu,Haoyuan Wang,Xuhui Zuo,Tianyu Huang,Wenhuan Li,Sheng Zhang,Yihang Lian,Yulin Tsai,Lifu Wang,Sicong Liu,Puhua Jiang,Xianghui Yang,Dongyuan Guo,Yixuan Tang,Xinyue Mao,Jiaao Yu,Junlin Yu,Jihong Zhang,Meng Chen,Liang Dong,Yiwen Jia,Chao Zhang,Yonghao Tan,Hao Zhang,Zheng Ye,Peng He,Runzhou Wu,Minghui Chen,Zhan Li,Wangchen Qin,Lei Wang,Yifu Sun,Lin Niu,Xiang Yuan,Xiaofeng Yang,Yingping He,Jie Xiao,Yangyu Tao,Jianchen Zhu,Jinbao Xue,Kai Liu,Chongqing Zhao,Xinming Wu,Tian Liu,Peng Chen,Di Wang,Yuhong Liu,Linus,Jie Jiang,Tengfei Wang,Chunchao Guo

Main category: cs.CV

TL;DR: HunyuanWorld 1.0是一个新框架,结合视频和3D方法的优势,从文本或图像生成沉浸式、可探索的3D场景。

  • Motivation: 解决现有方法在3D一致性和渲染效率上的不足,以及训练数据和内存效率的限制。
  • Method: 采用全景世界代理和语义分层的3D网格表示,支持360度沉浸体验、网格导出和解耦对象表示。
  • Result: 在生成连贯、可探索和交互式3D世界方面达到最先进水平,适用于虚拟现实、游戏开发等。
  • Conclusion: HunyuanWorld 1.0成功结合了多样性和几何一致性,为3D世界生成提供了高效解决方案。

[59] Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is

Ahmed B Mustafa,Zihan Ye,Yang Lu,Michael P Pound,Shreyank N Gowda

Main category: cs.CV

TL;DR: 论文研究了非专家用户如何通过巧妙设计的提示绕过大型语言模型和文本到图像系统的安全机制,提出了统一的提示级越狱策略分类,并呼吁开发上下文感知的防御方法。

  • Motivation: 尽管在内容审核和对齐方面取得了进展,但大型语言模型和文本到图像系统仍易受提示攻击(越狱)的影响。这些攻击通常由非专家用户设计,绕过安全机制。
  • Method: 通过多轮叙事升级、词汇伪装、隐含链、虚构冒充和微妙语义编辑等技术,研究了非专家用户如何绕过安全机制,并提出了统一的提示级越狱策略分类。
  • Result: 分析表明,从输入过滤到输出验证的每个审核阶段都可能被绕过,且这些策略在实际环境中易于复现。
  • Conclusion: 论文强调需要开发上下文感知的防御方法,以应对这些易于复现的越狱攻击。

[60] Cross-Architecture Distillation Made Simple with Redundancy Suppression

Weijia Zhang,Yuehao Liu,Wu Ran,Chao Ma

Main category: cs.CV

TL;DR: 提出了一种简单的跨架构知识蒸馏方法,通过抑制冗余信息实现知识迁移,避免了复杂模块和额外参数,性能优于现有方法。

  • Motivation: 现有跨架构知识蒸馏方法通常引入复杂模块和架构定制设计,导致效率低下且适用范围受限。
  • Method: 提出冗余抑制蒸馏(RSD)损失,包括跨架构不变性最大化和特征去相关目标,并通过轻量级模块解耦RSD目标与学生内部表示。
  • Result: 在CIFAR-100和ImageNet-1k基准测试中优于OFA方法,且参数开销显著降低。
  • Conclusion: 该方法为跨架构蒸馏领域提供了一个简单而强大的基线。

[61] Unleashing the Power of Motion and Depth: A Selective Fusion Strategy for RGB-D Video Salient Object Detection

Jiahao He,Daerji Suolang,Keren Fu,Qijun Zhao

Main category: cs.CV

TL;DR: 论文提出了一种选择性跨模态融合框架(SMFNet),用于RGB-D视频显著目标检测(VSOD),通过像素级选择性融合策略(PSF)和多维选择性注意力模块(MSAM)优化运动与深度信息的利用。

  • Motivation: 现有RGB-D VSOD模型在处理运动(光流)和深度信息时未考虑其在不同场景中的贡献差异,限制了性能提升。
  • Method: 提出SMFNet框架,包含PSF策略(基于实际贡献融合光流和深度)和MSAM模块(多维增强特征表示)。
  • Result: 在RDVS和DVisal数据集上全面评估,SMFNet优于19种现有模型,并在合成深度数据集上验证了有效性。
  • Conclusion: SMFNet通过选择性融合和多维注意力机制显著提升了RGB-D VSOD性能,为未来研究提供了新基准。

[62] Low-Cost Test-Time Adaptation for Robust Video Editing

Jianhui Wang,Yinda Chen,Yangfan He,Xinyuan Song,Yi Xin,Dapeng Zhang,Zhongwei Wan,Bin Li,Rongchao Zhang

Main category: cs.CV

TL;DR: Vid-TTA是一个轻量级的测试时自适应框架,通过自监督辅助任务优化视频编辑,提升时间一致性和减少提示过拟合。

  • Motivation: 现有视频编辑方法存在时间不一致性和提示过拟合问题,且计算资源需求高。
  • Method: 采用运动感知帧重建和提示扰动策略,结合元学习动态损失平衡机制。
  • Result: 显著提升视频时间一致性,减少提示过拟合,计算开销低。
  • Conclusion: Vid-TTA为现有视频编辑模型提供即插即用的性能提升。

[63] CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding

Fevziye Irem Eyiokur,Dogucan Yaman,Hazım Kemal Ekenel,Alexander Waibel

Main category: cs.CV

TL;DR: 论文提出了一种双模型框架,结合头部到指尖和手腕到指尖的方向,通过高斯射线热图表示和CLIP感知的集成模块,提升了指向性参考理解的准确性。

  • Motivation: 现有方法在利用视觉线索进行消歧时效果不佳,且单一方向假设(如头部到指尖)可能导致性能下降。
  • Method: 提出双模型框架,分别学习头部到指尖和手腕到指尖的方向,引入高斯射线热图表示和CLIP感知集成模块,并添加物体中心预测任务。
  • Result: 在YouRefIt数据集上,0.25 IoU阈值下性能提升了约4 mAP。
  • Conclusion: 双模型框架和辅助任务显著提升了指向性参考理解的性能。

[64] Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs

Saeed Ghorbani

Main category: cs.CV

TL;DR: Aether Weaver是一个多模态叙事协同生成框架,通过集成机制同时生成文本叙事、动态场景图、视觉场景和情感音景,显著提升了叙事深度、视觉保真度和情感共鸣。

  • Motivation: 克服传统顺序文本到视觉管道的局限性,提供更一致和沉浸式的叙事体验。
  • Method: 使用Narrator(大型语言模型)生成叙事文本和多模态提示,Director管理动态场景图,Narrative Arc Controller指导故事结构,Affective Tone Mapper确保跨模态情感一致性。
  • Result: 在多样化叙事提示的定性评估中,Aether Weaver在叙事深度、视觉保真度和情感共鸣方面优于基线方法。
  • Conclusion: Aether Weaver为快速创意原型设计和沉浸式叙事体验提供了强大平台。

[65] Evaluating Deepfake Detectors in the Wild

Viacheslav Pirogov,Maksim Artemev

Main category: cs.CV

TL;DR: 论文评估了现代深度伪造检测器在真实场景中的表现,发现检测效果不佳,且简单图像处理会显著降低性能。

  • Motivation: 深度伪造技术对数字媒体真实性构成威胁,现有检测器在真实场景中的有效性尚未验证。
  • Method: 提出一种模拟真实场景的测试方法,使用先进生成技术创建包含50万张高质量深度伪造图像的数据集。
  • Result: 检测深度伪造仍具挑战性,半数检测器AUC低于60%,最低为50%,图像处理会显著降低性能。
  • Conclusion: 深度伪造检测仍需改进,公开代码和数据以促进研究。

[66] Predict Patient Self-reported Race from Skin Histological Images

Shengjia Chen,Ruchika Verma,Kevin Clare,Jannes Jegminat,Kuan-lin Huang,Brandon Veremis,Thomas Fuchs,Gabriele Campanella

Main category: cs.CV

TL;DR: AI在病理学中能预测种族,但可能引入偏见,需注意数据选择和公平性。

  • Motivation: 研究AI在病理学中是否无意学习种族偏见,关注社会健康因素。
  • Method: 使用深度学习模型预测种族,分析形态特征,评估数据策略。
  • Result: 模型对白人和黑人预测性能高(AUC:0.799,0.762),整体性能下降至0.663。表皮是关键特征。
  • Conclusion: 需谨慎数据选择和偏见缓解,确保AI在病理学中的公平应用。

[67] ArtSeek: Deep artwork understanding via multimodal in-context reasoning and late interaction retrieval

Nicola Fanelli,Gennaro Vessio,Giovanna Castellano

Main category: cs.CV

TL;DR: ArtSeek是一个多模态框架,结合了多模态大语言模型和检索增强生成技术,用于分析数字化艺术品,仅需图像输入,无需依赖外部知识库链接。

  • Motivation: 数字化艺术品的分析需要视觉解读和丰富的艺术、历史背景知识,现有方法通常依赖外部知识库链接,限制了适用性。
  • Method: ArtSeek整合了多模态检索模块、对比多任务分类网络和基于上下文的推理策略,并利用WikiFragments数据集支持知识驱动的多模态推理。
  • Result: 在多个基准测试中取得最优结果,风格分类F1提升8.4%,ArtPedia上的标题生成BLEU@1提升7.1。
  • Conclusion: ArtSeek不仅能解读视觉主题和推断历史背景,还能推广到其他需要外部知识的领域,支持可扩展的多模态AI研究。

[68] SwinECAT: A Transformer-based fundus disease classification model with Shifted Window Attention and Efficient Channel Attention

Peiran Gu,Teng Yao,Mengshen He,Fuhao Duan,Feiyan Liu,RenYuan Peng,Bao Ge

Main category: cs.CV

TL;DR: 本文提出了一种基于Transformer的模型SwinECAT,结合了Shifted Window Attention和Efficient Channel Attention,用于提高眼底图像分类的准确性。

  • Motivation: 眼底图像分析面临小病灶区域和疾病间差异细微的挑战,导致模型预测精度下降和过拟合。
  • Method: 提出SwinECAT模型,结合Swin Attention和ECA Attention机制,捕捉局部空间结构和长程依赖关系,并增强特征表示。
  • Result: 在包含16,140张眼底图像的EDID数据集上,SwinECAT实现了88.29%的准确率,加权F1分数0.88,宏观F1分数0.90,显著优于基线模型。
  • Conclusion: SwinECAT在9类眼底疾病分类中表现最佳,为眼底图像分析提供了更高粒度的诊断能力。

[69] MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

Tianhong Gao,Yannian Fu,Weiqun Wu,Haixiao Yue,Shanshan Liu,Gang Zhang

Main category: cs.CV

TL;DR: MMAT-1M是一个百万规模的多模态代理调优数据集,旨在提升多模态大语言模型在思维链、反思和动态工具使用方面的性能。

  • Motivation: 当前多模态领域缺乏大规模高质量的代理调优数据集,限制了多模态大语言模型的潜力。
  • Method: 通过四阶段数据引擎构建数据集:1) 收集公开多模态数据集;2) 利用GPT-4o生成理性并整合API调用和RAG信息;3) 通过反思优化理性;4) 可选地将多轮对话压缩为单轮格式。
  • Result: 在MMAT-1M上微调的模型(如InternVL2.5-8B-RR)在多个基准测试中表现显著提升,平均提高2.7%,在Dyn-VQA上提升8.8%。
  • Conclusion: MMAT-1M有效提升了多模态推理和工具使用能力,数据集已公开。

[70] Attention-Driven Multimodal Alignment for Long-term Action Quality Assessment

Xin Wang,Peng-Jie Li,Yuan-Yuan Shen

Main category: cs.CV

TL;DR: LMAC-Net提出了一种多模态注意力一致性网络,用于长期动作质量评估,显著优于现有方法。

  • Motivation: 现有方法在评估艺术类运动(如韵律体操和花样滑冰)时,无法有效建模多模态线索(如音乐)或捕捉跨模态交互和时间动态。
  • Method: LMAC-Net通过多模态注意力一致性机制对齐多模态特征,结合视觉和音频信息,并引入局部查询编码器和两级评分机制。
  • Result: 在RG和Fis-V数据集上的实验表明,LMAC-Net显著优于现有方法。
  • Conclusion: LMAC-Net通过多模态对齐和特征增强,有效解决了长期动作质量评估中的挑战。

[71] Enhancing Generalization in Data-free Quantization via Mixup-class Prompting

Jiwoong Park,Chaeun Lee,Yongseok Choi,Sein Park,Deokki Hong,Jungwook Choi

Main category: cs.CV

TL;DR: 提出了一种基于mixup-class prompt的数据生成方法,解决了传统DFQ中因单类提示导致的性能下降问题,显著提升了量化模型的泛化能力和优化稳定性。

  • Motivation: 传统数据自由量化(DFQ)方法在生成合成图像时依赖单类提示,导致多义性和性能下降,亟需一种更有效的提示策略。
  • Method: 提出mixup-class prompt策略,通过融合多个类标签生成多样且鲁棒的合成数据,结合梯度范数和泛化误差分析进行优化。
  • Result: 在CNN和ViT上实验表明,该方法优于现有DFQ方法(如GenQ),并在极低位量化(W2A4)中达到新SOTA精度。
  • Conclusion: mixup-class prompt有效提升了DFQ的性能,尤其在低比特量化场景下表现突出。

[72] Contrast-Prior Enhanced Duality for Mask-Free Shadow Removal

Jiyu Wu,Yifan Liu,Jiancheng Huang,Mingfu Yan,Shifeng Chen

Main category: cs.CV

TL;DR: 提出了一种无需阴影掩码的自适应门控双分支注意力机制(AGBA)和基于扩散的频率对比融合网络(FCFN),用于阴影去除。

  • Motivation: 现有方法依赖阴影掩码,但在实际场景中难以获取;局部对比信息虽可作为替代,但在复杂场景中存在模糊性。
  • Method: AGBA动态过滤和重加权对比先验,FCFN利用高频和对比线索引导生成过程。
  • Result: 在无掩码方法中达到最优,与基于掩码的方法性能相当。
  • Conclusion: AGBA和FCFN有效解决了阴影去除中的模糊性和细节恢复问题。

[73] Mitigating Spurious Correlations in Weakly Supervised Semantic Segmentation via Cross-architecture Consistency Regularization

Zheyuan Zhang,Yen-chia Hsu

Main category: cs.CV

TL;DR: 论文提出了一种新的弱监督语义分割框架,针对工业烟雾等领域的像素级标签稀缺问题,通过教师-学生框架结合CNN和ViT,解决了现有方法的前景覆盖不全、边界不准确等问题。

  • Motivation: 工业烟雾等领域中像素级标签稀缺且标注困难,现有弱监督方法存在前景覆盖不全、边界不准确等问题,尤其是模型对共现上下文的固有偏差。
  • Method: 采用教师-学生框架结合CNN和ViT,引入知识转移损失以对齐内部表示,并加入后处理技术提升伪掩码质量。
  • Result: 提出的框架直接针对共现问题,无需外部监督,改善了伪掩码的覆盖率和准确性。
  • Conclusion: 新方法有效解决了弱监督语义分割中的共现偏差问题,提升了分割质量。

[74] PanoSplatt3R: Leveraging Perspective Pretraining for Generalized Unposed Wide-Baseline Panorama Reconstruction

Jiahui Ren,Mochu Xiang,Jiajun Zhu,Yuchao Dai

Main category: cs.CV

TL;DR: PanoSplatt3R是一种无需精确姿态信息的宽基线全景重建方法,通过改进RoPE机制实现高效域迁移,显著优于现有方法。

  • Motivation: 现有方法依赖精确姿态信息,限制了实际应用;PanoSplatt3R旨在解决这一问题。
  • Method: 扩展视角域重建预训练到全景域,引入RoPE滚动机制建模全景图像周期性。
  • Result: 在无姿态信息下,PanoSplatt3R在视图生成和深度估计上显著优于现有方法。
  • Conclusion: PanoSplatt3R展示了无需姿态信息的全景重建潜力,具有广泛实用性。

[75] A Deep Learning Pipeline Using Synthetic Data to Improve Interpretation of Paper ECG Images

Xiaoyu Wang,Ramesh Nadarajah,Zhiqiang Zhang,David Wong

Main category: cs.CV

TL;DR: 提出了一种深度学习框架,用于将心电图图像分类为五种主要诊断类别,解决了图像噪声和波形细节检测的挑战。

  • Motivation: 心血管疾病是全球主要死因,早期检测至关重要。心电图图像在临床中广泛使用,但人工解读耗时且需专业知识。
  • Method: 采用预处理管道减少噪声,使用两阶段微调策略(先学习领域特征,再增强疾病识别),以ConvNeXt架构为模型主干。
  • Result: 在公开验证集和私有测试集上分别获得0.9688和0.9677的AUROC分数。
  • Conclusion: 该方法在自动心电图解读中具有临床应用潜力。

[76] EIFNet: Leveraging Event-Image Fusion for Robust Semantic Segmentation

Zhijiang Li,Haoran He

Main category: cs.CV

TL;DR: EIFNet是一种多模态融合网络,通过自适应事件特征优化和跨模态注意力机制,解决了事件相机语义分割中的特征提取和融合问题,并在实验中表现出色。

  • Motivation: 事件相机具有高动态范围和精细时间分辨率,但在语义分割中面临稀疏噪声事件流和图像数据融合的挑战。
  • Method: 提出EIFNet,包含自适应事件特征优化模块(AEFRM)、模态自适应重校准模块(MARM)和多头注意力门控融合模块(MGFM)。
  • Result: 在DDD17-Semantic和DSEC-Semantic数据集上达到最先进性能。
  • Conclusion: EIFNet有效解决了事件相机语义分割中的关键问题,展现了多模态融合的优势。

[77] Motion Matters: Motion-guided Modulation Network for Skeleton-based Micro-Action Recognition

Jihao Gu,Kun Li,Fei Wang,Yanyan Wei,Zhiliang Wu,Hehe Fan,Meng Wang

Main category: cs.CV

TL;DR: 论文提出了一种名为MMN的网络,通过运动引导的调制模块(MSM和MTM)来捕捉和增强微动作中的细微运动线索,从而提升识别精度。

  • Motivation: 现有微动作识别方法忽视了微动作中的细微变化,导致识别精度受限。
  • Method: 设计了运动引导的骨骼调制模块(MSM)和时间调制模块(MTM),并结合多尺度特征的运动一致性学习策略。
  • Result: 在Micro-Action 52和iMiGUE数据集上取得了最先进的性能。
  • Conclusion: 通过显式建模细微运动线索,MMN显著提升了微动作识别的准确性。

[78] ZIUM: Zero-Shot Intent-Aware Adversarial Attack on Unlearned Models

Hyun Jun Yook,Ga San Jhun,Jae Hyun Cho,Min Jeon,Donghyun Kim,Tae Hyung Kim,Youn Kyu Lee

Main category: cs.CV

TL;DR: ZIUM是一种零样本意图感知的对抗性攻击方法,针对机器遗忘模型,能够高效生成符合攻击者意图的内容,并显著降低计算成本。

  • Motivation: 机器遗忘模型存在被对抗性提示利用的风险,现有方法在生成符合意图的内容和计算成本方面存在不足。
  • Method: 提出ZIUM方法,支持零样本对抗性攻击,无需额外优化即可针对遗忘概念生成定制化内容。
  • Result: ZIUM在多种机器遗忘场景中表现优异,攻击成功率高,且显著减少攻击时间。
  • Conclusion: ZIUM为机器遗忘模型的安全性问题提供了高效解决方案。

[79] Staining and locking computer vision models without retraining

Oliver J. Sutton,Qinghua Zhou,George Leete,Alexander N. Gorban,Ivan Y. Tyukin

Main category: cs.CV

TL;DR: 提出无需微调或重新训练即可对预训练模型进行染色和锁定的新方法,保护知识产权。

  • Motivation: 保护计算机视觉模型的知识产权,防止未经授权使用。
  • Method: 通过直接修改少量模型权重实现染色和锁定,锁定模型需在输入图像中插入触发补丁解锁。
  • Result: 实验证明方法有效,对模型性能影响小,且具有可计算的最坏情况误报率保证。
  • Conclusion: 新方法为预训练模型的知识产权保护提供了实用且高效的解决方案。

[80] Bridging Synthetic and Real-World Domains: A Human-in-the-Loop Weakly-Supervised Framework for Industrial Toxic Emission Segmentation

Yida Tao,Yen-Chia Hsu

Main category: cs.CV

TL;DR: CEDANet结合公民科学和弱监督域适应,显著提升工业烟雾分割性能,无需目标域标注。

  • Motivation: 解决工业烟雾分割中像素级标注成本高和数据稀缺的问题。
  • Method: 提出CEDANet框架,利用公民提供的视频级标签和对抗特征对齐,优化伪标签并迁移源域表示。
  • Result: 在SMOKE5K和IJmond数据集上,F1-score和IoU分别提升5倍和6倍,接近全监督模型性能。
  • Conclusion: 验证了公民科学与弱监督域适应结合的可扩展性和成本效益,适用于数据稀缺的环境监测。

[81] See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs

Ziyun Dai,Xiaoqiang Li,Shaohua Zhang,Yuanchen Wu,Jide Li

Main category: cs.CV

TL;DR: ViHallu是一个视觉中心的幻觉缓解框架,通过视觉变化图像生成和视觉指令构建增强视觉语义对齐,显著减少大视觉语言模型的幻觉现象。

  • Motivation: 大视觉语言模型在视觉理解和多模态推理方面表现出色,但常出现幻觉现象,即生成的文本与视觉内容不一致。现有方法多为文本中心,视觉语义对齐的挑战限制了其效果。
  • Method: ViHallu通过生成视觉变化图像和构建视觉指令,增强模型的细粒度视觉理解能力,从而改善视觉语义对齐。
  • Result: 在多个基准测试中,ViHallu显著减少了幻觉现象,并提升了模型的细粒度视觉理解能力。
  • Conclusion: ViHallu通过视觉中心的方法有效缓解了幻觉问题,并发布了ViHallu-Instruction数据集,为未来研究提供了资源。

[82] VeS: Teaching Pixels to Listen Without Supervision

Sajay Raj

Main category: cs.CV

TL;DR: 论文研究了多语言环境下密集音频-视觉(AV)模型的表现,发现密集目标函数在低资源、多语言和嘈杂环境中表现更优。

  • Motivation: 探讨密集AV模型在低资源、多语言和嘈杂环境中的有效性,填补英语为中心研究的空白。
  • Method: 比较三种对比目标函数:全局平均池化损失、密集最大-平均标记匹配器和混合方法,使用多语言数据集Project Vaani。
  • Result: 密集目标函数在音频-视觉检索中相对R@1提升59%,定位热图更清晰,且无需微调视觉骨干。
  • Conclusion: 密集标记路由在低资源环境中更具决定性,代码和模型已开源。

[83] XAI for Point Cloud Data using Perturbations based on Meaningful Segmentation

Raju Ningappa Mulawade,Christoph Garth,Alexander Wiebel

Main category: cs.CV

TL;DR: 提出了一种基于分割的可解释人工智能(XAI)方法,用于点云分类神经网络,通过点移动机制生成易于理解的显著性图。

  • Motivation: 随着AI的快速发展,理解其决策过程在关键领域尤为重要,尤其是点云数据分类算法的可解释性。
  • Method: 利用点云分割模型生成分类模型的解释,通过点移动机制引入扰动,生成易于人类理解的显著性图。
  • Result: 相比传统聚类方法,该方法能生成更具意义的显著性图,并通过实例分析验证了其有效性。
  • Conclusion: 该方法为点云分类提供了更直观和可解释的XAI工具,优于现有方法。

[84] From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning

Honglin He,Yukai Ma,Wayne Wu,Bolei Zhou

Main category: cs.CV

TL;DR: 论文提出了Seeing-to-Experiencing(S2E)框架,结合预训练视频和强化学习(RL),提升导航基础模型的交互能力,并通过NavBench-GS评估其通用性和安全性。

  • Motivation: 现有导航基础模型仅依赖离线数据训练,缺乏对动作后果的推理和适应能力,难以在真实城市导航中实现安全交互行为。
  • Method: S2E结合视频预训练和模拟环境中的RL后训练,引入Anchor-Guided Distribution Matching策略和Residual-Attention Module。
  • Result: 实验表明S2E缓解了仅依赖离线数据的性能瓶颈,强化学习在机器人学习后训练中优于监督微调。
  • Conclusion: 整合交互式在线经验对扩展机器人基础模型至关重要。

[85] Shallow Deep Learning Can Still Excel in Fine-Grained Few-Shot Learning

Chaofei Qi,Chao Ye,Zhitai Liu,Weiyang Lin,Jianbin Qiu

Main category: cs.CV

TL;DR: 本文探讨了浅层网络(如ConvNet-4)在细粒度少样本学习(FGFSL)中的潜力,并提出了一种位置感知星座网络(LCN-4),通过创新的位置感知特征聚类模块和位置编码补偿技术,显著提升了性能。

  • Motivation: 主流方法倾向于使用深层网络,但浅层网络可能因提取非抽象视觉特征而表现不佳。本文旨在验证浅层网络是否能在FGFSL中达到或超越深层网络的性能。
  • Method: 提出了LCN-4网络,包含位置感知特征聚类模块、网格位置编码补偿和频域位置嵌入技术,以解决特征提取中的位置信息丢失问题。
  • Result: 在三个细粒度少样本基准测试中,LCN-4显著优于基于ConvNet-4的现有方法,并与基于ResNet12的方法性能相当或更优。
  • Conclusion: 浅层网络在FGFSL中具备潜力,通过创新的位置感知技术可以显著提升性能,验证了作者的猜想。

[86] Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos

Ziren Gong,Xiaohan Li,Fabio Tosi,Jiawei Han,Stefano Mattoccia,Jianfei Cai,Matteo Poggi

Main category: cs.CV

TL;DR: Ov3R是一个新颖的框架,用于从RGB视频流中进行开放词汇语义3D重建,通过CLIP3R和2D-3D OVS模块实现几何与语义的全局一致对齐。

  • Motivation: 推动空间AI的发展,实现实时、语义感知的3D重建。
  • Method: 结合CLIP3R模块预测密集点图并嵌入语义,以及2D-3D OVS模块将2D特征提升为3D,融合空间、几何和语义线索。
  • Result: 在密集3D重建和开放词汇3D分割中达到最先进性能。
  • Conclusion: Ov3R为实时、语义感知的空间AI迈出了重要一步。

[87] MetaLab: Few-Shot Game Changer for Image Recognition

Chaofei Qi,Zhitai Liu,Jianbin Qiu

Main category: cs.CV

TL;DR: 提出了一种名为MetaLab的高效少样本图像识别方法,通过CIELab颜色空间和协作神经网络实现高性能。

  • Motivation: 少样本图像识别具有重要应用前景,但与传统大规模图像识别存在技术差距。
  • Method: MetaLab包含两个协作神经网络:LabNet(用于CIELab颜色空间转换和特征提取)和LabGNN(促进亮度图与颜色图之间的相互学习)。
  • Result: 在多个基准测试中,MetaLab实现了高准确率(接近99%)、鲁棒性能和有效泛化能力。
  • Conclusion: MetaLab能够以每类单样本达到人类识别水平,性能优异。

[88] X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Zigang Geng,Yibing Wang,Yeyao Ma,Chen Li,Yongming Rao,Shuyang Gu,Zhao Zhong,Qinglin Lu,Han Hu,Xiaosong Zhang,Linus,Di Wang,Jie Jiang

Main category: cs.CV

TL;DR: 论文提出了一种名为X-Omni的框架,通过强化学习改进离散自回归建模方法,实现了图像与语言生成的无缝集成,显著提升了生成质量。

  • Motivation: 当前基于离散标记的自回归建模方法在图像生成中存在视觉保真度低、输出扭曲等问题,无法满足复杂指令的需求。论文旨在解决这些问题,实现图像与语言生成的统一建模。
  • Method: 提出X-Omni框架,包括语义图像标记器、统一的自回归模型和离线扩散解码器,通过强化学习优化生成质量。
  • Result: X-Omni在图像生成任务中达到最先进性能,使用7B语言模型生成高质量图像,并能有效遵循指令和渲染长文本。
  • Conclusion: 强化学习可以有效改进离散自回归建模方法,X-Omni框架为图像与语言生成的统一建模提供了可行方案。

[89] StepAL: Step-aware Active Learning for Cataract Surgical Videos

Nisarg A. Shah,Bardia Safaei,Shameema Sikder,S. Swaroop Vedula,Vishal M. Patel

Main category: cs.CV

TL;DR: StepAL是一种针对手术视频步骤识别的主动学习框架,通过全视频选择和熵加权聚类策略,减少标注成本并提高准确性。

  • Motivation: 传统主动学习方法在手术视频中效果不佳,因为其依赖单帧或短片段标注,而手术步骤识别需要整个视频的上下文。
  • Method: StepAL结合了步骤感知特征表示和熵加权聚类策略,优先选择不确定且步骤多样化的视频进行标注。
  • Result: 在Cataract-1k和Cataract-101数据集上,StepAL优于现有方法,以更少的标注视频实现更高的步骤识别准确率。
  • Conclusion: StepAL为手术视频分析提供了一种高效方法,降低了计算机辅助手术系统的开发成本。

[90] MOVE: Motion-Guided Few-Shot Video Object Segmentation

Kaining Ying,Hengrui Hu,Henghui Ding

Main category: cs.CV

TL;DR: 本文提出了一种基于运动引导的少样本视频目标分割(FSVOS)方法,并引入新数据集MOVE,评估现有方法并提出基线模型DMA。

  • Motivation: 现有FSVOS方法主要关注静态目标类别,忽略了视频中的动态运动模式,限制了其在需要运动理解的场景中的应用。
  • Method: 提出Decoupled Motion Appearance Network (DMA)作为基线方法,结合运动与外观特征。
  • Result: 实验表明DMA在少样本运动理解中表现优异。
  • Conclusion: DMA为未来研究方向奠定了基础。

[91] MetaCLIP 2: A Worldwide Scaling Recipe

Yung-Sung Chuang,Yang Li,Dong Wang,Ching-Feng Yeh,Kehan Lyu,Ramya Raghavendra,James Glass,Lifei Huang,Jason Weston,Luke Zettlemoyer,Xinlei Chen,Zhuang Liu,Saining Xie,Wen-tau Yih,Shang-Wen Li,Hu Xu

Main category: cs.CV

TL;DR: MetaCLIP 2提出了一种新方法,通过全球网络规模的图像-文本对从头训练CLIP,解决了多语言数据处理的挑战,并在多语言基准测试中取得了新的最优性能。

  • Motivation: 现有的CLIP模型在处理非英语世界数据时缺乏有效的筛选方法,且多语言CLIP的英语性能不如单英语版本。
  • Method: MetaCLIP 2通过最小化必要的改动,设计了一种训练方法,使英语和非英语数据相互受益。
  • Result: 在零样本ImageNet分类中,MetaCLIP 2 ViT-H/14超越了其单英语版本0.8%,并在多语言基准测试中创下新纪录。
  • Conclusion: MetaCLIP 2成功解决了多语言数据处理的挑战,并在性能和泛化能力上取得了显著提升。

cs.RO

[92] Research Challenges and Progress in the End-to-End V2X Cooperative Autonomous Driving Competition

Ruiyang Hao,Haibao Yu,Jiaru Zhong,Chuanye Wang,Jiahao Wang,Yiming Kan,Wenxian Yang,Siqi Fan,Huilin Yin,Jianing Qiu,Yao Mu,Jiankai Sun,Li Chen,Walter Zimmer,Dandan Zhang,Shanghang Zhang,Mac Schwager,Wei Huang,Xiaobo Zhang,Ping Luo,Zaiqing Nie

Main category: cs.RO

TL;DR: 论文介绍了基于V2X通信的自动驾驶挑战赛,旨在解决多源传感器数据融合和动态环境下的技术问题,并分析了高性能解决方案的技术趋势。

  • Motivation: 随着自动驾驶技术的快速发展,V2X通信成为扩展感知范围和提升安全性的关键,但多源数据融合和动态环境下的技术挑战亟待解决。
  • Method: 通过组织End-to-End Autonomous Driving through V2X Cooperation Challenge,基于UniV2X框架和V2X-Seq-SPD数据集,设立两个赛道:协作时序感知和协作端到端规划。
  • Result: 吸引了全球30多个团队参与,建立了统一的协作驾驶系统评估基准,并分析了带宽感知融合、鲁棒多智能体规划和异构传感器集成等关键技术问题。
  • Conclusion: 该挑战赛通过解决通信和数据融合的实际约束,推动了可扩展且可靠的V2X协作自动驾驶系统的发展。

quant-ph

[93] Supervised Quantum Image Processing

Marco Parigi,Mehran Khosrojerdi,Filippo Caruso,Leonardo Banchi

Main category: quant-ph

TL;DR: 比较了四种量子图像表示(QImRs)的压缩性能,发现FRQI优于TNR、NEQR和QPIE。量子内核在分类任务中表现与经典线性内核相当,但存储需求更低。

  • Motivation: 大数据和AI时代对数据存储和处理效率的需求推动了量子图像处理(QIP)的发展,以解决复杂计算挑战。
  • Method: 比较了四种QImRs(TNR、FRQI、NEQR、QPIE)的压缩性能,并评估了量子内核在分类任务中的表现。
  • Result: FRQI压缩性能最佳;量子内核分类准确率与经典方法相当,但存储资源需求更低。
  • Conclusion: 量子图像处理在压缩和分类任务中具有潜力,尤其是FRQI表现突出,量子内核资源效率更高。

eess.IV

[94] Comparative Analysis of Vision Transformers and Convolutional Neural Networks for Medical Image Classification

Kunal Kawadkar

Main category: eess.IV

TL;DR: 本文比较了CNN和ViT在医学影像任务中的表现,发现不同任务适合不同模型,为医学AI应用提供了架构选择依据。

  • Motivation: 探讨Vision Transformers (ViTs)与传统Convolutional Neural Networks (CNNs)在医学影像任务中的效果差异,填补研究空白。
  • Method: 在三个医学影像任务(肺炎检测、脑瘤分类、皮肤癌检测)中评估四种模型(ResNet-50、EfficientNet-B0、ViT-Base、DeiT-Small),共使用8,469张图像。
  • Result: ResNet-50在胸部X光分类中表现最佳(98.37%准确率),DeiT-Small在脑瘤检测中领先(92.16%),EfficientNet-B0在皮肤癌分类中表现最优(81.84%)。
  • Conclusion: 医学AI应用中,任务特定的架构选择至关重要,研究结果为临床决策支持系统提供了实用指导。

[95] Querying GI Endoscopy Images: A VQA Approach

Gaurav Parajuli

Main category: eess.IV

TL;DR: 本文探讨了如何将Florence2模型应用于医学视觉问答(VQA)任务,特别是在胃肠道内窥镜图像上的表现。

  • Motivation: 尽管现有多模态大语言模型在通用领域表现优异,但在医学影像等专业领域的VQA任务中表现不佳,因此需要针对医学领域进行优化。
  • Method: 研究通过调整Florence2模型,使其适应医学视觉问答任务,并评估其在胃肠道内窥镜图像上的表现。
  • Result: 使用ROUGE、BLEU和METEOR等标准指标评估模型性能。
  • Conclusion: 该研究为医学诊断AI系统的开发提供了潜在解决方案,特别是在胃肠道疾病诊断方面。

[96] ST-DAI: Single-shot 2.5D Spatial Transcriptomics with Intra-Sample Domain Adaptive Imputation for Cost-efficient 3D Reconstruction

Jiahe Qian,Yaoyu Fang,Xinkun Wang,Lee A. Cooper,Bo Zhou

Main category: eess.IV

TL;DR: ST-DAI是一种单次框架,通过2.5D采样和域自适应插值,降低3D空间转录组学的成本,同时保持性能。

  • Motivation: 3D空间转录组学的高成本和大规模外部数据需求限制了其应用,现有方法存在域差异问题。
  • Method: 采用2.5D采样(中心全采样,相邻稀疏采样),结合域自适应插值(FMDR和PDLs)和伪标签重加权(CSG)。
  • Result: ST-DAI性能接近全采样方法,显著降低测量成本。
  • Conclusion: ST-DAI为3D空间转录组学提供了一种高效且低成本的新方法。

[97] VidFuncta: Towards Generalizable Neural Representations for Ultrasound Videos

Julia Wolleb,Florentin Bieder,Paul Friedrich,Hemant D. Tagare,Xenophon Papademetris

Main category: eess.IV

TL;DR: VidFuncta利用隐式神经表示(INRs)分析超声视频,通过静态和时间依赖的调制向量编码视频,优于传统2D/3D方法,并在多个下游任务中表现优异。

  • Motivation: 解决超声视频分析中因非标准化采集和操作者偏差导致的标准深度学习方法难以处理的问题。
  • Method: 提出VidFuncta框架,基于Functa的INR方法,将超声视频编码为静态和时间依赖的调制向量,捕捉动态和冗余。
  • Result: 在三个超声视频数据集上验证,VidFuncta在视频重建和下游任务(如射血分数预测、B线检测和乳腺病变分类)中表现优于基线方法。
  • Conclusion: VidFuncta是一种通用且高效的超声视频表示框架,具有广泛应用潜力。

[98] Cyst-X: AI-Powered Pancreatic Cancer Risk Prediction from Multicenter MRI in Centralized and Federated Learning

Hongyi Pan,Gorkem Durak,Elif Keles,Deniz Seyithanoglu,Zheyuan Zhang,Alpay Medetalibeyoglu,Halil Ertugrul Aktas,Andrea Mia Bejar,Ziliang Hong,Yavuz Taktak,Gulbiz Dagoglu Kartal,Mehmet Sukru Erturk,Timurhan Cebeci,Maria Jaramillo Gonzalez,Yury Velichko,Lili Zhao,Emil Agarunov,Federica Proietto Salanitri,Concetto Spampinato,Pallavi Tiwari,Ziyue Xu,Sachin Jambawalikar,Ivo G. Schoots,Marco J. Bruno,Chenchang Huang,Candice Bolan,Tamas Gonda,Frank H. Miller,Rajesh N. Keswani,Michael B. Wallace,Ulas Bagci

Main category: eess.IV

TL;DR: Cyst-X是一个基于AI的框架,用于预测胰腺导管内乳头状黏液性肿瘤(IPMN)的恶性程度,通过多中心MRI数据显著优于现有指南和专家。

  • Motivation: 胰腺癌预计将成为西方国家第二大致命恶性肿瘤,而IPMN是其重要前体,但现有评估方法存在不足,导致不必要的手术或漏诊。
  • Method: 利用多中心MRI数据(723 T1和738 T2加权扫描,764名患者),开发Cyst-X AI框架,并通过联邦学习实现隐私保护。
  • Result: Cyst-X的AUC为0.82,显著优于京都指南(AUC=0.75)和放射科专家,且AI特征与临床标志物一致。
  • Conclusion: Cyst-X为IPMN风险分层提供了更准确的工具,并发布了首个大规模多中心胰腺囊肿MRI数据集,推动隐私保护AI发展。

[99] Cardiac-CLIP: A Vision-Language Foundation Model for 3D Cardiac CT Images

Yutao Hu,Ying Zheng,Shumei Miao,Xiaolei Zhang,Jiahao Xia,Yaolei Qi,Yiyang Zhang,Yuting He,Qian Chen,Jing Ye,Hongyan Qiao,Xiuhua Hu,Lei Xu,Jiayin Zhang,Hui Liu,Minwen Zheng,Yining Wang,Daimin Zhang,Ji Zhang,Wenqi Shao,Yun Liu,Longjiang Zhang,Guanyu Yang

Main category: eess.IV

TL;DR: Cardiac-CLIP是一种多模态基础模型,用于3D心脏CT图像,通过两阶段预训练策略(自监督学习和对比学习)实现,并在心血管诊断任务中表现出色。

  • Motivation: 尽管基础模型在医学领域显示出潜力,但在复杂心血管诊断中的应用尚未充分探索。
  • Method: 两阶段预训练:第一阶段使用3D掩码自编码器(MAE)进行自监督学习;第二阶段引入对比学习对齐视觉和文本表示。
  • Result: Cardiac-CLIP在内部和外部数据上均实现最先进性能,尤其在急性冠状动脉综合征预测等复杂任务中表现突出。
  • Conclusion: Cardiac-CLIP为心血管诊断提供了高效的多模态解决方案,具有显著的临床应用潜力。

[100] ReXGroundingCT: A 3D Chest CT Dataset for Segmentation of Findings from Free-Text Reports

Mohammed Baharoon,Luyang Luo,Michael Moritz,Abhinav Kumar,Sung Eun Kim,Xiaoman Zhang,Miao Zhu,Mahmoud Hussain Alabbad,Maha Sbayel Alhazmi,Neel P. Mistry,Kent Ryan Kleinschmidt,Brady Chrisler,Sathvik Suryadevara,Sri Sai Dinesh Jaliparthi,Noah Michael Prudlo,Mark David Marino,Jeremy Palacio,Rithvik Akula,Hong-Yu Zhou,Ibrahim Ethem Hamamci,Scott J. Adams,Hassan Rayhan AlOmaish,Pranav Rajpurkar

Main category: eess.IV

TL;DR: ReXGroundingCT是首个公开数据集,将自由文本放射学发现与3D胸部CT扫描中的像素级分割手动标注关联起来。

  • Motivation: 解决医学AI中自由文本与三维空间精确位置关联的缺失问题,支持基于文本的放射学报告生成系统。
  • Method: 使用GPT-4提取肺部及胸膜阳性发现,专家手动分割,质量控制由放射科医生完成。
  • Result: 数据集包含3,142个CT扫描和8,028个标注发现,79%为局灶性异常。
  • Conclusion: ReXGroundingCT为胸部CT中的自由文本分割模型设定了新基准。

cs.CY

[101] A Tactical Behaviour Recognition Framework Based on Causal Multimodal Reasoning: A Study on Covert Audio-Video Analysis Combining GAN Structure Enhancement and Phonetic Accent Modelling

Wei Meng

Main category: cs.CY

TL;DR: TACTIC-GRAPHS结合谱图理论和多模态图神经网络推理,用于高噪声和弱结构战术视频的语义理解和威胁检测。

  • Motivation: 解决战术视频中高噪声和弱结构条件下的语义理解和威胁检测问题。
  • Method: 结合谱嵌入、时间因果边建模和异构模态的判别路径推断,采用语义感知关键帧提取方法构建时间图。
  • Result: 在TACTIC-AVS和TACTIC-Voice数据集上,时间对齐准确率达89.3%,完整威胁链识别率超过85%,节点延迟在±150毫秒内。
  • Conclusion: 该方法提升了结构可解释性,适用于监控、防御和智能安全系统。

cs.IR

[102] Page image classification for content-specific data processing

Kateryna Lutsai,Pavel Straňák

Main category: cs.IR

TL;DR: 开发了一个基于AI的历史文档页面图像分类系统,用于自动化处理多样化内容。

  • Motivation: 历史文档数字化项目产生大量多样化页面图像,手动分类和分析效率低,需要自动化方法。
  • Method: 利用人工智能和机器学习技术,开发专门的历史文档页面图像分类系统。
  • Result: 系统能够根据内容(如文本、图形)对页面进行分类,支持定制化的下游分析流程。
  • Conclusion: 该系统为历史文档的自动化处理提供了高效解决方案,支持内容特定的分析技术。

cs.CR

[103] Hot-Swap MarkBoard: An Efficient Black-box Watermarking Approach for Large-scale Model Distribution

Zhicheng Zhang,Peizhuo Lv,Mengke Wan,Jiang Fang,Diandian Guo,Yezeng Chen,Yinlong Liu,Wei Ma,Jiyan Sun,Liru Geng

Main category: cs.CR

TL;DR: 论文提出了一种名为Hot-Swap MarkBoard的高效水印方法,用于保护分布式深度学习模型的知识产权,支持动态水印定制且无需重新训练。

  • Motivation: 随着深度学习模型在终端设备上的部署增加,模型的知识产权风险加剧,现有水印方法无法满足大规模分发场景的需求。
  • Method: 通过在多分支低秩适应(LoRA)模块中独立嵌入多个水印,结合参数混淆机制,实现高效水印定制和防移除。
  • Result: 实验表明,该方法在多种任务和模型上表现优异,验证准确率达100%。
  • Conclusion: Hot-Swap MarkBoard为分布式深度学习模型提供了一种高效、灵活的知识产权保护解决方案。

[104] Unmasking Synthetic Realities in Generative AI: A Comprehensive Review of Adversarially Robust Deepfake Detection Systems

Naseem Khan,Tuan Nguyen,Amine Bermak,Issa Khalil

Main category: cs.CR

TL;DR: 本文系统综述了深度伪造检测的最新方法,强调可复现实现,并指出对抗性鲁棒性评估不足的缺陷。

  • Motivation: 深度伪造技术的快速发展对数字安全、虚假信息防控和身份保护构成挑战,需评估现有检测方法。
  • Method: 分为两种核心范式:完全合成媒体的检测(基于统计异常和分层特征提取)和真实内容中篡改区域的定位(利用多模态线索)。
  • Result: 现有方法在受控环境中表现良好,但对对抗性扰动的鲁棒性不足。
  • Conclusion: 未来研究需优先提升对抗性鲁棒性,开发可扩展、模态无关的架构。

[105] PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

Quanchen Zou,Zonghao Ying,Moyang Chen,Wenzhuo Xu,Yisong Xiao,Yakai Li,Deyue Zhang,Dongdong Yang,Zhao Liu,Xiangzheng Zhang

Main category: cs.CR

TL;DR: 论文提出了一种基于ROP技术的新型越狱框架,通过将有害指令分解为多个良性视觉片段,利用模型的组合推理能力生成有害输出,显著提高了攻击成功率。

  • Motivation: 现有的大视觉语言模型(LVLMs)安全对齐机制仍易受复杂对抗攻击,尤其是组合推理过程中的漏洞未被充分探索。
  • Method: 提出ROP启发的越狱框架,将有害指令分解为良性视觉片段,通过精心设计的文本提示引导模型组合这些片段生成有害输出。
  • Result: 在SafeBench和MM-SafetyBench上验证,攻击成功率显著提升(SafeBench上超过0.90),ASR提升高达0.39。
  • Conclusion: 揭示了LVLMs组合推理能力的漏洞,强调需开发保护整个推理过程的防御机制。

cs.LG

[106] Learning from Limited and Imperfect Data

Harsh Rangwani

Main category: cs.LG

TL;DR: 论文提出针对现实世界中不完美数据(如长尾分布和分布偏移)的深度学习算法,以解决传统算法在非均衡数据集上的性能问题。

  • Motivation: 现实世界的数据分布与精心策划的数据集差异显著,传统算法在非均衡数据上表现不佳,需开发更鲁棒的算法。
  • Method: 论文分为四部分:1) 从长尾数据学习生成模型;2) 通过归纳正则化提升尾部类别的泛化能力;3) 半监督学习优化相关指标;4) 高效域适应。
  • Result: 开发了能够从不完美数据中学习的算法,解决了模式崩溃、尾部类别泛化等问题。
  • Conclusion: 提出的算法扩展了深度学习在现实世界数据中的应用,减少了对数据标注的依赖。

cs.AI

[107] MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions

Yanxu Zhu,Shitong Duan,Xiangxu Zhang,Jitao Sang,Peng Zhang,Tun Lu,Xiao Zhou,Jing Yao,Xiaoyuan Yi,Xing Xie

Main category: cs.AI

TL;DR: 该论文首次系统评估了多模态大语言模型(MLLMs)在面对视觉不可回答问题时是否诚实,构建了大规模基准MoHoBench,并提出了改进方法。

  • Motivation: 尽管MLLMs在视觉语言任务中取得进展,但其在不可回答问题上的诚实行为尚未充分研究。
  • Method: 定义了四类不可回答的视觉问题,构建了12k+样本的MoHoBench基准,评估了28种MLLMs的诚实性,并尝试了监督和偏好学习方法改进。
  • Result: 多数模型无法适当拒绝回答,且诚实性受视觉信息影响,需专门的多模态对齐方法。
  • Conclusion: 论文为未来可信MLLMs研究提供了基准和方法基础。

[108] Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning

Jiong Yin,Liang Li,Jiehua Zhang,Yuhan Gao,Chenggang Yan,Xichun Sheng

Main category: cs.AI

TL;DR: 论文提出了一种三阶段的渐进式稳态与可塑性音频-视觉提示(PHP)方法,用于音频-视觉多任务增量学习,旨在平衡旧任务知识的保留与新任务的学习。

  • Motivation: 解决音频-视觉多任务增量学习中如何保留旧任务知识并促进新任务学习的挑战。
  • Method: PHP方法分为三个阶段:浅层阶段设计任务共享模态聚合适配器;中层阶段提出任务特定模态共享动态生成适配器;深层阶段引入任务特定模态独立提示。
  • Result: 在四个任务(AVE、AVVP、AVS和AVQA)的不同顺序中实现了SOTA性能。
  • Conclusion: PHP方法通过平衡知识共享和任务特异性,有效解决了多任务增量学习中的挑战。

[109] MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Junzhe Li,Yutao Cui,Tao Huang,Yinping Ma,Chun Fan,Miles Yang,Zhao Zhong

Main category: cs.AI

TL;DR: MixGRPO通过结合SDE和ODE的混合采样策略,优化了GRPO在图像生成中对齐人类偏好的效率,显著减少了训练时间。

  • Motivation: 现有方法如FlowGRPO在优化所有去噪步骤时效率低下,需要改进以提升性能。
  • Method: MixGRPO引入滑动窗口机制,窗口内使用SDE采样和GRPO优化,窗口外使用ODE采样,减少优化开销并加速收敛。
  • Result: MixGRPO在人类偏好对齐中表现优异,训练时间减少50%;MixGRPO-Flash进一步减少71%训练时间。
  • Conclusion: MixGRPO在效率和性能上均优于现有方法,为图像生成对齐人类偏好提供了高效解决方案。

[110] UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

Shuquan Lian,Yuhang Wu,Jia Ma,Zihan Song,Bingqi Chen,Xiawu Zheng,Hui Li

Main category: cs.AI

TL;DR: UI-AGILE框架通过改进训练和推理阶段,解决了GUI代理在推理设计、奖励机制和视觉噪声方面的问题,显著提升了性能。

  • Motivation: 现有GUI代理在训练和推理中存在推理设计困境、奖励机制无效和视觉噪声问题,亟需改进。
  • Method: 1) 训练阶段:引入连续奖励函数、"简单思考"奖励和裁剪重采样策略;2) 推理阶段:提出分解定位选择方法。
  • Result: 在ScreenSpot-Pro和ScreenSpot-v2基准测试中达到最优性能,定位准确率提升23%。
  • Conclusion: UI-AGILE框架有效提升了GUI代理的性能,为未来研究提供了新方向。