Skip to content
每日arXiv - 2025年11月17日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] A Mathematical Framework for AI Singularity: Conditions, Bounds, and Control of Recursive Improvement

Akbar Anbar Jafari,Cagri Ozcinar,Gholamreza Anbarjafari

Main category: cs.CV

TL;DR: 本文开发了一个分析框架来研究AI系统在有限时间内能力无限增长的条件,提出了基于可观测指标的测试方法来区分超线性增长和亚临界状态,并提供了可实施的安全控制措施。

  • Motivation: 研究AI系统在什么可测量条件下会出现能力无限增长(失控增长),以及在什么条件下可以排除这种可能性,用可测试的条件取代猜测。
  • Method: 开发了一个递归自我改进的分析框架,将能力增长与资源建设和部署策略联系起来,基于物理和信息理论限制定义服务包络,建立内生增长模型,并推导出基于可观测序列的决策规则。
  • Result: 提出了基于设施功率、IO带宽、训练吞吐量、基准损失和支出等可观测序列的yes/no证书,用于区分失控增长与非奇异行为,并提供了功率限制、吞吐量节流和评估门等可实施的安全控制。
  • Conclusion: 该框架用可测试的条件和可部署的控制措施取代了对AI奇点的猜测,为认证或排除AI奇点提供了理论基础和实践工具。

[2] Semantic VLM Dataset for Safe Autonomous Driving

Yuankai He,Weisong Shi

Main category: cs.CV

TL;DR: CAR-Scenes是一个用于自动驾驶的帧级数据集,通过28个关键类别/子类别知识库对5,192张图像进行标注,支持视觉语言模型的训练和评估,实现可解释的场景级理解。

  • Motivation: 为自动驾驶领域提供支持视觉语言模型训练和评估的数据集,实现可解释的场景级理解,支持语义检索、数据集筛选和风险感知场景挖掘。
  • Method: 使用GPT-4o辅助的视觉语言流水线进行标注,结合人工验证,涵盖环境、道路几何、车辆行为、弱势道路用户等350+个叶属性,并提供属性共现图和JSONL记录。
  • Result: 发布了包含标注和分析脚本的完整数据集,包括图构建和评估脚本,支持可解释的数据中心化工作流程。
  • Conclusion: CAR-Scenes为未来智能车辆提供了可解释、数据中心化的工作流程支持,促进了自动驾驶场景理解的发展。

[3] Fast Data Attribution for Text-to-Image Models

Sheng-Yu Wang,Aaron Hertzmann,Alexei A Efros,Richard Zhang,Jun-Yan Zhu

Main category: cs.CV

TL;DR: 提出一种可扩展的高效数据归属方法,通过将基于反学习的慢速归属方法蒸馏到特征嵌入空间,实现高效检索对生成输出影响最大的训练图像。

  • Motivation: 现有文本到图像模型的数据归属方法计算资源消耗大,难以在实际应用中部署。
  • Method: 将慢速的基于反学习的归属方法蒸馏到特征嵌入空间,结合高效索引和搜索方法,无需运行昂贵的归属算法即可找到高影响力图像。
  • Result: 在MSCOCO和LAION数据集上的实验表明,该方法在几秒内达到更好或竞争性性能,比现有方法快2,500-400,000倍。
  • Conclusion: 这项工作为实现数据归属方法在真实世界模型(如Stable Diffusion)上的大规模应用迈出了重要一步。

[4] Expert Consensus-based Video-Based Assessment Tool for Workflow Analysis in Minimally Invasive Colorectal Surgery: Development and Validation of ColoWorkflow

Pooja P Jain,Pietro Mascagni,Giuseppe Massimiani,Nabani Banik,Marta Goglia,Lorenzo Arboit,Britty Baby,Andrea Balla,Ludovica Baldari,Gianfranco Silecchia,Claudio Fiorillo,CompSurg Colorectal Experts Group,Sergio Alfieri,Salvador Morales-Conde,Deborah S Keller,Luigi Boni,Nicolas Padoy

Main category: cs.CV

TL;DR: 开发并验证了首个基于共识的视频评估工具ColoWorkflow,用于微创结直肠手术的工作流程分析,具有中等程度的评分者间可靠性。

  • Motivation: 微创结直肠手术存在程序变异性大、学习曲线陡峭和并发症影响质量的问题,需要数据驱动的工具来减少变异性、优化培训和改善手术表现。
  • Method: 通过德尔菲法建立共识,开发ColoWorkflow工具,并在多中心视频数据集上由独立评分者应用,评估适用性和评分者间可靠性。
  • Result: 达成了10个程序无关阶段和34个程序特定步骤的共识,工具在54个手术视频中表现出广泛适用性,平均Cohen's K为0.71(阶段)和0.66(步骤)。
  • Conclusion: ColoWorkflow为微创结直肠手术建立了可重复的视频评估框架,支持跨机构基准测试和AI驱动的工作流程识别,有望标准化培训并加速能力获取。

[5] Frequency-Aware Vision-Language Multimodality Generalization Network for Remote Sensing Image Classification

Junjie Zhang,Feng Zhao,Hanqiang Liu,Jun Yu

Main category: cs.CV

TL;DR: 提出了一种频率感知的视觉语言多模态泛化网络(FVMGN),用于遥感图像分类,通过频率域分析和多模态对齐来解决遥感多模态泛化问题。

  • Motivation: 遥感技术发展带来了多模态泛化任务的需求,现有视觉语言模型缺乏针对不同遥感视觉模态的专用语言先验知识,难以克服数据异质性并具备强大的跨场景泛化能力。
  • Method: 设计了基于扩散的训练-测试时间增强策略、多模态小波解缠模块、共享和专用类别文本编码器、空间频率感知图像编码器以及多尺度空间频率特征对齐模块,构建统一的语义空间。
  • Result: 大量实验表明,FVMGN相比最先进方法具有优异的多模态泛化能力。
  • Conclusion: 该工作成功解决了遥感多模态泛化问题,提出的FVMGN网络在遥感图像分类任务中表现出色,为多模态遥感数据分析提供了有效解决方案。

[6] GFT: Graph Feature Tuning for Efficient Point Cloud Analysis

Manish Dhakal,Venkat R. Dasari,Raj Sunderraman,Yi Ding

Main category: cs.CV

TL;DR: 提出了一种针对点云数据的参数高效微调方法GFT,通过动态图学习和跨注意力模块,在保持性能的同时显著减少可训练参数。

  • Motivation: 现有的通用参数高效微调方法对于点云数据不够优化,需要进一步减少可训练参数数量。
  • Method: 使用轻量级图卷积网络从transformer初始token化输入中学习动态图,通过跳跃连接和高效跨注意力模块将图特征传递到更深层。
  • Result: 在物体分类和分割任务上的大量实验表明,GFT在相同领域内与现有方法竞争,同时减少了可训练参数。
  • Conclusion: GFT是一种点云专用的参数高效微调方法,能够在保持性能的同时显著降低计算和内存成本。

[7] Accuracy-Preserving CNN Pruning Method under Limited Data Availability

Daisuke Yasui,Toshitaka Matsuki,Hiroshi Sato

Main category: cs.CV

TL;DR: 提出了一种基于LRP的剪枝方法,在少量数据情况下实现更高的剪枝率同时保持更好的模型精度

  • Motivation: 现有基于LRP的剪枝方法虽然不需要微调,适合数据有限场景,但仍存在显著的精度下降问题,限制了实际应用
  • Method: 使用Layer-wise Relevance Propagation(LRP)技术进行模型剪枝,在少量数据情况下操作
  • Result: 相比现有方法,实现了更高的剪枝率同时更好地保持了模型精度
  • Conclusion: 该方法在数据有限场景下实现了比现有方法更好的精度保持效果,具有更高的实用价值

[8] Short-Window Sliding Learning for Real-Time Violence Detection via LLM-based Auto-Labeling

Seoik Jung,Taekyung Song,Yangro Lee,Sungjun Lee

Main category: cs.CV

TL;DR: 提出基于短窗口滑动学习的实时暴力检测框架,将视频分割为1-2秒片段,利用LLM自动标注构建细粒度数据集,在RWF-2000上达到95.25%准确率,在UCF-Crime长视频上提升至83.25%。

  • Motivation: 传统长视频训练方法难以精确识别快速暴力事件,需要开发能够实时检测且保持时间连续性的暴力检测系统。
  • Method: 采用短窗口滑动学习框架,将视频分割为1-2秒片段,利用大语言模型自动生成标注构建细粒度数据集,充分利用所有帧保持时间连续性。
  • Result: 在RWF-2000数据集上达到95.25%准确率,在UCF-Crime长视频数据集上性能提升至83.25%,显示出强大的泛化能力。
  • Conclusion: 该方法在实时暴力检测中表现出色,具有强泛化能力和实际应用价值,适用于智能监控系统。

[9] MCN-CL: Multimodal Cross-Attention Network and Contrastive Learning for Multimodal Emotion Recognition

Feng Li,Ke Wu,Yongwei Li

Main category: cs.CV

TL;DR: 提出了MCN-CL方法,通过三重查询机制和硬负样本挖掘策略解决多模态情感识别中的模态异质性和类别不平衡问题,在IEMOCAP和MELD数据集上优于现有方法。

  • Motivation: 多模态情感识别面临三大挑战:类别分布不平衡、动态面部动作单元时间建模复杂、模态异质性导致特征融合困难。随着社交媒体多模态数据的爆炸式增长,迫切需要构建高效的跨模态融合框架。
  • Method: 提出MCN-CL方法,使用三重查询机制和硬负样本挖掘策略,在去除特征冗余的同时保留重要情感线索。
  • Result: 在IEMOCAP和MELD数据集上的实验结果显示,该方法优于现有最先进方法,加权F1分数分别提高了3.42%和5.73%。
  • Conclusion: MCN-CL方法有效解决了多模态情感识别中的模态异质性和类别不平衡问题,在多个数据集上取得了显著性能提升。

[10] DINOv3 as a Frozen Encoder for CRPS-Oriented Probabilistic Rainfall Nowcasting

Luciano Araujo Dourado Filho,Almir Moreira da Silva Neto,Anthony Miyaguchi,Rodrigo Pereira David,Rodrigo Tripodi Calumby,Lukáš Picek

Main category: cs.CV

TL;DR: 提出了一种用于概率性降雨临近预报的竞争性计算方法,使用预训练的卫星视觉编码器和轻量级概率头,在Weather4Cast 2025基准测试中表现优于3D-UNET基线。

  • Motivation: 开发计算效率高且具有竞争力的概率降雨临近预报方法,以改进短期降雨预测的准确性。
  • Method: 将视频投影器(V-JEPA Vision Transformer)和轻量级概率头连接到预训练的卫星视觉编码器(DINOv3-SAT493M),将编码器标记映射到4小时累积降雨量的离散经验累积分布函数上,使用连续排序概率得分进行端到端优化。
  • Result: 在Weather4Cast 2025基准测试中,CRPS得分为3.5102,相比最佳3D-UNET基线提高了约26%的效果增益。
  • Conclusion: 该方法在概率降雨临近预报任务中表现出有前景的性能,显著优于传统的3D-UNET方法。

[11] YOLO-Drone: An Efficient Object Detection Approach Using the GhostHead Network for Drone Images

Hyun-Ki Jung

Main category: cs.CV

TL;DR: 提出了一种名为YOLO-Drone的改进无人机目标检测模型,通过在YOLOv11的Head网络中引入GhostHead网络,显著提升了检测精度和速度。

  • Motivation: 解决无人机从高空拍摄图像导致目标识别困难的问题,提升无人机目标检测的准确性和效率。
  • Method: 基于YOLOv11n模型,在Head网络中引入GhostHead网络进行改进,使用VisDrone数据集进行实验验证。
  • Result: 相比原始YOLOv11,精度提升0.4%,召回率提升0.6%,F1分数提升0.5%,mAP(0.5)提升0.5%,推理速度也有显著提升。
  • Conclusion: YOLO-Drone是一个高性能的无人机目标检测模型,在精度和速度方面均优于YOLOv11及其他主流模型。

[12] PhaseWin Search Framework Enable Efficient Object-Level Interpretation

Zihan Gu,Ruoyu Chen,Junchi Zhang,Yue Hu,Hua Zhang,Xiaochun Cao

Main category: cs.CV

TL;DR: PhaseWin是一种新颖的相位窗口搜索算法,用于目标级基础模型的忠实区域归因,以近线性复杂度实现高忠实度归因。

  • Motivation: 基于子模子集选择的现有方法虽然忠实度高,但计算效率低,限制了在实际场景中的部署应用。
  • Method: 采用分阶段粗到细搜索策略,结合自适应剪枝、窗口化细粒度选择和动态监督机制,替代传统二次复杂度的贪婪选择。
  • Result: 仅使用20%计算预算即可达到贪婪归因95%以上的忠实度,在目标检测和视觉定位任务中持续优于其他基线方法。
  • Conclusion: PhaseWin为目标级多模态模型建立了可扩展、高忠实度归因的新技术标准。

[13] Out-of-Distribution Detection with Positive and Negative Prompt Supervision Using Large Language Models

Zhixia He,Chen Zhao,Minglai Shao,Xintao Wu,Xujiang Zhao,Dong Li,Qin Tian,Linlin Yu

Main category: cs.CV

TL;DR: 提出正负提示监督方法,通过优化正负提示来增强基于能量的OOD检测器性能,在多个基准测试中优于现有方法

  • Motivation: 现有方法中的负提示通常包含广泛的非ID特征,可能导致捕获重叠或误导信息,从而产生次优结果
  • Method: 使用LLM初始化类特定的正负提示,优化后正提示关注类内特征,负提示突出类别边界特征,采用图架构聚合语义监督并传播到视觉分支
  • Result: 在CIFAR-100和ImageNet-1K两个基准测试上,针对8个OOD数据集和5个不同LLM的广泛实验表明,该方法优于最先进的基线方法
  • Conclusion: 正负提示监督方法能有效提升OOD检测性能,通过优化提示表示和跨模态知识传递实现了更好的检测效果

[14] Facial Expression Recognition with YOLOv11 and YOLOv12: A Comparative Study

Umma Aymon,Nur Shazwani Kamarudin,Ahmad Fakhri Ab. Nasir

Main category: cs.CV

TL;DR: 该研究评估了YOLOv11n和YOLOv12n两种轻量级模型在面部表情识别任务中的表现,发现YOLOv12n在干净数据集上表现更好,而YOLOv11n在噪声环境下具有更高精度。

  • Motivation: 研究旨在探索轻量级YOLO模型在真实世界环境中进行面部表情识别的性能,平衡计算效率与识别准确率。
  • Method: 将FER2013和KDEF两个基准分类数据集转换为目标检测格式,使用YOLOv11n和YOLOv12n模型进行评估,采用mAP 0.5、精确率、召回率和混淆矩阵等指标。
  • Result: YOLOv12n在干净KDEF数据集上获得95.6 mAP 0.5的最高性能,在FER2013上mAP为63.8;YOLOv11n在FER2013上精确率达65.2,误报更少。
  • Conclusion: 轻量级YOLO模型能有效平衡性能与效率,YOLOv12n对表情变化更敏感,YOLOv11n在噪声环境下更可靠,适合实时资源受限的情感AI应用。

[15] Heterogeneous Complementary Distillation

Liuchi Xu,Hao Zheng,Lu Wang,Lisheng Xu,Jun Cheng

Main category: cs.CV

TL;DR: 提出HCD框架解决异构架构知识蒸馏问题,通过互补特征映射和子对数解耦蒸馏,在多个数据集上优于现有方法

  • Motivation: 异构架构知识蒸馏(如ViT到ResNet18)面临空间特征表示差异的挑战,传统方法难以有效处理这种差异,现有异构方法计算成本高或过度依赖对数对齐
  • Method: HCD框架:通过卷积投影和自适应池化处理学生特征,与教师特征拼接后通过CFM模块映射到共享对数;SDD将共享对数分解为n个子对数,结合教师对数修正分类;引入正交损失确保子对数多样性
  • Result: 在CIFAR-100、细粒度数据集(如CUB200)和ImageNet-1K上的实验表明,HCD优于最先进的知识蒸馏方法
  • Conclusion: HCD通过保留学生特定优势并利用教师知识,增强了学生的鲁棒性和泛化能力,是异构知识蒸馏的有效解决方案

[16] Divide, Conquer and Unite: Hierarchical Style-Recalibrated Prototype Alignment for Federated Medical Image Segmentation

Xingyue Zhao,Wenke Huang,Xingguang Wang,Haoyu Zhao,Linghao Zhuang,Anwen Jiang,Guancheng Wan,Mang Ye

Main category: cs.CV

TL;DR: 提出FedBCS方法解决联邦学习中医疗数据特征异质性问题,通过领域不变上下文原型对齐来桥接特征表示差距

  • Motivation: 现有方法主要关注最终层特征,忽略了多层级线索,且中间层的领域特定偏差会累积,降低模型鲁棒性
  • Method: 引入频域自适应风格重校准的原型构建,解耦内容-风格表示;设计上下文感知的双层级原型对齐方法,从编码器和解码器的不同层提取领域不变原型
  • Result: 在两个公共数据集上的广泛实验表明,该方法表现出显著性能
  • Conclusion: FedBCS通过领域不变上下文原型对齐有效解决了联邦学习中的特征异质性问题

[17] Abstract 3D Perception for Spatial Intelligence in Vision-Language Models

Yifan Liu,Fangneng Zhan,Kaichen Zhou,Yilun Du,Paul Pu Liang,Hanspeter Pfister

Main category: cs.CV

TL;DR: SandboxVLM通过引入抽象边界框来编码几何结构和物理运动学,弥合了视觉语言模型在3D任务中的模态差距,无需额外训练即可显著提升3D推理能力。

  • Motivation: 视觉语言模型在空间认知和物理理解等3D相关任务上表现不佳,这限制了其在机器人和具身智能等实际应用中的潜力。主要原因是3D任务与2D训练之间存在模态差距。
  • Method: 提出了SandboxVLM框架,包含四个阶段的3D沙盒重建和感知流程:生成带抽象控制的多视图先验、代理高程、多视图投票聚类以及3D感知推理。
  • Result: 在多个基准测试和VLM骨干网络的零样本设置下,该方法持续提升空间智能,在SAT Real基准上相比基线方法获得了8.3%的性能提升。
  • Conclusion: 为视觉语言模型配备3D抽象能力可以显著增强其3D推理能力,无需额外训练,为通用具身智能开辟了新的可能性。

[18] DEFT-LLM: Disentangled Expert Feature Tuning for Micro-Expression Recognition

Ren Zhang,Huilai Li,Chao qi,Guoliang Xu,Tianyu Zhou,Wei wei,Jianqin Yin

Main category: cs.CV

TL;DR: 提出了DEFT-LLM方法,通过多专家解耦实现运动语义对齐,解决了微表情识别中静态外观与动态运动纠缠以及文本标签与面部肌肉运动语义不匹配的问题。

  • Motivation: 微表情识别对推断真实情绪至关重要。现有方法面临两个核心挑战:静态外观与动态运动线索的纠缠阻碍模型关注细微运动;现有数据集的文本标签与面部肌肉运动不完全对应,存在语义鸿沟。
  • Method: 提出DEFT-LLM方法,包含:1)构建Uni-MER运动驱动指令数据集,利用光流和动作单元双重约束确保时空一致性和运动对应;2)设计三专家架构,将面部动态解耦为独立可解释的表征(结构、动态纹理和运动语义)。
  • Result: 在多个具有挑战性的MER基准测试中实现了最先进的性能,并在局部面部运动的可解释建模方面表现出特别优势。
  • Conclusion: 通过将Uni-MER的指令对齐知识整合到DEFT-LLM中,该方法为微表情注入了有效的物理先验,同时利用大语言模型的跨模态推理能力,实现了对细微情绪线索的精确捕捉。

[19] Language-Guided Graph Representation Learning for Video Summarization

Wenrui Li,Wei Han,Hengyu Man,Wangmeng Zuo,Xiaopeng Fan,Yonghong Tian

Main category: cs.CV

TL;DR: 提出LGRLN网络,通过图结构表示学习解决视频摘要中的全局依赖和用户定制问题,显著减少推理时间和模型参数

  • Motivation: 现有视频摘要方法难以捕捉视频内容的全局依赖关系,无法支持多模态用户定制,且视频帧的时间邻近性不一定对应语义邻近性
  • Method: 使用视频图生成器将视频帧转换为结构化图,构建前向、后向和无向图;设计带双阈值图卷积的图内关系推理模块;提出语言引导的跨模态嵌入模块
  • Result: 在多个基准测试中优于现有方法,推理时间和模型参数分别减少87.8%和91.7%
  • Conclusion: LGRLN能有效处理视频摘要中的全局依赖和用户定制问题,同时大幅提升效率

[20] Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition

Gunho Jung,Heejo Kong,Seong-Whan Lee

Main category: cs.CV

TL;DR: TG-DFER是一个文本引导的弱监督动态面部表情识别框架,通过结合语义引导和连贯时序建模来增强基于MIL的DFER方法。

  • Motivation: 解决动态面部表情识别中的多对一标注问题,以及MIL方法面临的视觉多样性和时序动态复杂性挑战。
  • Method: 整合视觉语言预训练模型提供语义引导,引入视觉提示对齐文本情感标签与视觉特征,设计多粒度时序网络捕捉短期动态和长期情感流。
  • Result: TG-DFER在弱监督下实现了更好的泛化能力、可解释性和时序敏感性。
  • Conclusion: 文本引导的语义信息和连贯时序建模能有效提升弱监督动态面部表情识别的性能。

[21] ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization

Anzhe Cheng,Shukai Duan,Shixuan Li,Chenzhong Yin,Mingxi Cheng,Heng Ping,Tamoghna Chattopadhyay,Sophia I Thomopoulos,Shahin Nazarian,Paul Thompson,Paul Bogdan

Main category: cs.CV

TL;DR: ERMoE是一种稀疏MoE架构,通过将专家重新参数化到学习的正交特征基中,并用特征基得分替代学习门控逻辑,解决了路由不稳定和专家利用率低的问题,无需显式平衡损失即可实现更好的性能和可解释的专家专业化。

  • Motivation: 传统MoE架构面临两个核心挑战:路由器逻辑与专家内部结构不对齐导致路由不稳定和专家利用不足,负载不平衡造成瓶颈。标准解决方案如辅助负载平衡损失会削弱专家专业化并损害下游性能。
  • Method: 提出ERMoE,将每个专家重新参数化到学习的正交特征基中,用输入特征与专家基之间的余弦相似度(特征基得分)替代学习门控逻辑,实现内容感知路由。
  • Result: 在ImageNet分类和跨模态图像-文本检索基准(如COCO、Flickr30K)上达到最先进精度,自然产生更平坦的专家负载分布。3D MRI变体(ERMoE-ba)将脑龄预测精度提高7%以上,并产生解剖学上可解释的专家专业化。
  • Conclusion: ERMoE为稀疏专家模型引入了新的架构原则,直接解决路由不稳定性,在保持稀疏性的同时实现可扩展、可解释的专家专业化和改进的性能。

[22] Preserving Cross-Modal Consistency for CLIP-based Class-Incremental Learning

Haoran Chen,Houze Xu,Micah Goldblum,Daoguo Dong,Zuxuan Wu

Main category: cs.CV

TL;DR: 提出了DMC和DMC-OT两种方法,用于解决基于CLIP的类增量学习中的分类器偏差和分布漂移问题,通过解耦视觉编码器和文本提示的优化来实现更好的跨模态对齐。

  • Motivation: 现有的基于CLIP的类增量学习方法在学习新类别时容易产生严重的分类器偏差,文本原型会过度拟合到最近的类别,同时视觉编码器更新会导致存储的类级高斯统计量出现分布漂移问题。
  • Method: DMC采用两阶段框架,分别优化视觉编码器和文本软提示,一个模态作为另一个模态的稳定语义锚点;DMC-OT在DMC基础上增加了最优传输引导的校准策略来对齐演化编码器间的记忆统计量,并设计了任务特定的提示来增强任务间可分性。
  • Result: 在CIFAR-100、Imagenet-R、CUB-200和UCF-101上的广泛实验表明,DMC和DMC-OT都达到了最先进的性能,其中DMC-OT进一步将准确率平均提高了1.80%。
  • Conclusion: 提出的解耦优化框架和最优传输校准策略有效解决了CLIP类增量学习中的关键挑战,实现了更好的知识保留和跨模态对齐。

[23] PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs

Bowen Sun,Yujun Cai,Ming-Hsuan Yang,Hang Wu,Yiwei Wang

Main category: cs.CV

TL;DR: 提出了Phase Aggregated Smoothing (PAS)方法,通过多相位聚合平滑时间核,解决视频LLMs中的时间不一致性问题,无需训练即可提升模型对时间偏移的鲁棒性。

  • Motivation: 视频LLMs存在时间不一致性问题:帧时序的微小偏移会导致注意力翻转并抑制相关帧。这种不稳定性源于多模态RoPE扩展导致的逆傅里叶时间核中的帧尺度波纹。
  • Method: 提出PAS方法:在多个注意力头中应用小的相反相位偏移,然后聚合它们的输出。该方法保持每个头的频谱幅度,同时通过聚合有效平滑时间核,减少相位敏感性而不改变位置编码结构。
  • Result: 在多个视频理解基准测试中,在相同token预算下显示出持续改进,计算开销可忽略不计。
  • Conclusion: PAS为视频LLMs提供了即插即用的鲁棒时间编码升级方案,能够有效解决时间不一致性问题。

[24] Binary Verification for Zero-Shot Vision

Jeffrey Liu,Rongbin Hu

Main category: cs.CV

TL;DR: 提出了一种无需训练的二值验证工作流,通过量化和二值化将开放性问题转化为多项选择题和真/假验证问题,显著提升零样本视觉任务的性能。

  • Motivation: 现有的视觉语言模型在零样本视觉任务中直接回答开放性问题时性能有限,需要一种无需额外训练的统一方法来提升推理准确性。
  • Method: 包含两个步骤:(1)量化:将开放性问题转化为具有明确候选答案的多项选择题;(2)二值化:对每个候选答案提出真/假问题,通过确定性规则进行选择。
  • Result: 在引用表达式定位、空间推理和BLINK-Jigsaw等任务上,该方法相比直接回答开放性问题带来显著性能提升,量化步骤带来大幅增益,二值化步骤提供额外稳定提升。
  • Conclusion: 该工作流提供了一种简单统一的推理时设计方法,强调推理时设计而非任务特定训练,为当前视觉语言模型提供了实用的零样本视觉增强路径。

[25] Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation

Daxin Li,Yuanchao Bai,Kai Wang,Wenbo Zhao,Junjun Jiang,Xianming Liu

Main category: cs.CV

TL;DR: 本文提出了一个基于分层并行性和渐进适应的自回归模型框架,重新确立了纯自回归方法作为高性能实用图像压缩解决方案的地位。

  • Motivation: 自回归模型虽然理论上是最佳的无损图像压缩基准,但由于计算成本过高而被认为不实用。本研究旨在重新思考这一范式,使自回归方法既保持高性能又具有实用性。
  • Method: 提出了分层并行自回归卷积网络(HPAC),采用分层分解结构和内容感知卷积门控来高效捕获空间依赖。关键优化包括:缓存-选择推理(CSI)消除冗余计算,自适应聚焦编码(AFC)扩展到高比特深度图像,以及空间感知率引导渐进微调(SARP-FT)进行实例级优化。
  • Result: 在多种数据集(自然、卫星、医学图像)上的实验验证了该方法实现了新的最先进压缩性能,在学习的无损压缩中设立了新基准。
  • Conclusion: 精心设计的自回归框架能够以较小的参数量和具有竞争力的编码速度,显著优于现有方法,证明了自回归模型在无损图像压缩中的实用价值。

[26] CLUE: Controllable Latent space of Unprompted Embeddings for Diversity Management in Text-to-Image Synthesis

Keunwoo Park,Jihye Chae,Joong Ho Ahn,Jihoon Kweon

Main category: cs.CV

TL;DR: CLUE是一个生成模型框架,能够在不需要额外数据的情况下,通过固定格式提示实现多样化的稳定图像生成,特别适用于医学等数据有限的专门领域。

  • Motivation: 现有文本到图像合成方法在通用领域表现良好,但在医学等专门领域面临数据种类有限、数量不足的限制,需要能够在有限数据集上实现多样化稳定生成的方法。
  • Method: 基于Stable Diffusion架构,CLUE使用Style Encoder处理图像和提示生成风格嵌入,通过新的第二注意力层和Kullback-Leibler散度实现与提示无关的连续高斯区域潜在空间表示。
  • Result: 在中耳炎数据集上,CLUE将FID从46.81降至9.30,召回率从49.60%提升至70.29%。仅使用合成数据训练的分类器F1分数达83.21%,合成与真实数据结合达94.76%。在外部数据集上表现同样优异。
  • Conclusion: CLUE能够从有限数据集中实现多样化且稳定的图像生成,是领域特定应用的有效数据增强方法。

[27] PROMISE: Prompt-Attentive Hierarchical Contrastive Learning for Robust Cross-Modal Representation with Missing Modalities

Jiajun Chen,Sai Cheng,Yutao Yuan,Yirui Zhang,Haitao Yuan,Peng Peng,Yi Zhong

Main category: cs.CV

TL;DR: PROMISE是一个新颖的多模态框架,通过提示学习和分层对比学习来处理模态缺失问题,在基准数据集上表现出优于现有方法的性能。

  • Motivation: 现实世界中多模态数据常常存在模态缺失问题,现有方法通过简单生成方式处理缺失模态,但无法充分保持跨模态一致性,导致性能下降。
  • Method: 提出PROMISE框架,将多模态提示学习融入分层对比学习框架,配备专门设计的提示注意力机制,动态生成缺失模态下的鲁棒表示。
  • Result: 在基准数据集上的广泛实验和消融研究显示,PROMISE相比现有最先进多模态方法具有优越性能。
  • Conclusion: PROMISE通过创新的提示注意力机制有效弥合完整数据与不完整数据之间的表示差距,为模态缺失场景提供了鲁棒的跨模态表示学习方案。

[28] EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

Zongyang Qiu,Bingyuan Wang,Xingbei Chen,Yingqing He,Zeyu Wang

Main category: cs.CV

TL;DR: 提出了EmoVid数据集,这是首个专为创意媒体设计的多模态情感标注视频数据集,包含卡通动画、电影片段和动画贴纸,并开发了基于情感条件的视频生成技术。

  • Motivation: 现有视频生成系统主要关注低层次视觉指标而忽略情感维度,视频领域缺乏专门资源来连接情感理解与生成任务,特别是在风格化和非现实场景中。
  • Method: 引入EmoVid数据集,包含情感标签、视觉属性和文本描述;通过系统分析发现视觉特征与情感感知的空间和时间模式;基于Wan2.1模型开发情感条件视频生成技术。
  • Result: 在文本到视频和图像到视频任务中,生成视频的定量指标和视觉质量均有显著提升。
  • Conclusion: EmoVid为情感视频计算设立了新基准,不仅为艺术风格视频的视觉情感分析提供了宝贵见解,还为增强视频生成中的情感表达提供了实用方法。

[29] MeCaMIL: Causality-Aware Multiple Instance Learning for Fair and Interpretable Whole Slide Image Diagnosis

Yiran Song,Yikai Zhang,Shuang Zhou,Guojun Xiong,Xiaofeng Yang,Nian Wang,Fenglong Ma,Rui Zhang,Mingquan Lin

Main category: cs.CV

TL;DR: MeCaMIL是一个因果感知的多实例学习框架,通过结构化因果图显式建模人口统计学混杂因素,解决了现有方法缺乏因果可解释性和公平性不足的问题。

  • Motivation: 现有MIL方法存在两个关键局限:(1)依赖缺乏因果可解释性的注意力机制;(2)未能整合患者人口统计学信息,导致跨不同人群的公平性问题,阻碍临床转化。
  • Method: 使用结构化因果图建模人口统计学混杂因素,采用原则性因果推断方法(do-calculus和碰撞器结构)来分离疾病相关信号与虚假的人口统计学相关性。
  • Result: 在三个基准测试中达到最先进性能:CAMELYON16(ACC/AUC/F1: 0.939/0.983/0.946)、TCGA-Lung(0.935/0.979/0.931)和TCGA-Multi(0.977/0.993/0.970)。公平性显著提升,人口统计学差异方差平均降低超过65%。
  • Conclusion: MeCaMIL为数字病理学提供了一个原则性框架,实现了公平、可解释且临床可操作的AI,因果图结构对性能至关重要。

[30] Draft and Refine with Visual Experts

Sungheon Jeong,Ryozo Masukawa,Jihong Park,Sanggeon Yun,Wenjun Huang,Hanning Chen,Mahdi Imani,Mohsen Imani

Main category: cs.CV

TL;DR: 提出了Draft and Refine (DnR)框架,通过问题条件化的利用度量来量化大型视觉语言模型对视觉信息的依赖程度,并利用外部视觉专家提供反馈来增强视觉基础,减少幻觉现象。

  • Motivation: 现有的大型视觉语言模型过于依赖语言先验而非视觉证据,产生不接地气或幻觉的响应,缺乏量化衡量模型在推理过程中实际使用视觉信息的方法。
  • Method: DnR框架包含问题条件化的利用度量,通过构建查询条件化的相关性图来定位问题特定线索,并通过相关性引导的概率掩码测量依赖程度。利用该度量指导DnR代理使用外部视觉专家的针对性反馈来优化初始草稿。
  • Result: 在VQA和图像描述基准测试中,实验显示准确率持续提升,幻觉现象减少。
  • Conclusion: 测量视觉利用为构建更可解释和证据驱动的多模态代理系统提供了原则性路径。

[31] VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

Xinlei Yu,Chengming Xu,Guibin Zhang,Zhangquan Chen,Yudong Zhang,Yongbo He,Peng-Tao Jiang,Jiangning Zhang,Xiaobin Hu,Shuicheng Yan

Main category: cs.CV

TL;DR: VisMem是一个基于人类认知记忆理论的视觉语言模型增强框架,通过短期和长期视觉记忆模块解决视觉处理瓶颈问题,在多个视觉基准测试中平均性能提升11.8%。

  • Motivation: 当前视觉语言模型在复杂视觉任务中存在"视觉处理瓶颈",容易在生成过程中失去视觉证据的根基,缺乏情境化的视觉体验。
  • Method: 受人类认知记忆理论启发,提出VisMem框架,包含短期视觉主导记忆模块(用于细粒度感知保留)和长期语义主导记忆模块(用于抽象语义整合),在推理过程中动态调用这些记忆。
  • Result: 在多个视觉理解、推理和生成基准测试中,VisMem相比原始模型平均性能提升11.8%,优于所有对比方法。
  • Conclusion: VisMem建立了一种新的潜在空间记忆增强范式,能够同时保持感知保真度和语义一致性。

[32] SP-Guard: Selective Prompt-adaptive Guidance for Safe Text-to-Image Generation

Sumin Yu,Taesup Moon

Main category: cs.CV

TL;DR: SP-Guard是一种针对扩散式文本到图像模型的安全保护方法,通过估计提示词危害性并应用选择性引导掩码,仅对图像中的不安全区域进行引导,在提升安全性的同时最小化对内容的意外改变。

  • Motivation: 现有的推理时引导方法缺乏自适应性和选择性,无法根据提示词调整引导强度,也无法仅针对图像中的不安全区域进行引导,这限制了安全生成的效果。
  • Method: SP-Guard通过估计提示词的危害性,并应用选择性引导掩码,仅对图像中被识别为不安全的区域进行引导,而不是对整个图像施加统一的引导。
  • Result: 实验表明,SP-Guard比现有方法生成更安全的图像,同时最大限度地减少对内容的意外改变。
  • Conclusion: 除了提高安全性外,该研究还强调了图像生成中透明度和可控性的重要性。

[33] SUPER Decoder Block for Reconstruction-Aware U-Net Variants

Siheon Joo,Hongjo Kim

Main category: cs.CV

TL;DR: 提出SUPER解码器块,利用小波完美重构特性防止信息损失,通过选择性抑制冗余特征来增强U-Net变体的高频细节恢复能力,在各种裂纹分割和图像去噪任务中表现出色。

  • Motivation: 现有的跳跃连接编码器-解码器架构(U-Net变体)在逆问题中仍存在信息损失问题,限制了高频细节的恢复能力。
  • Method: 利用小波的完美重构特性防止信息退化,同时选择性抑制冗余特征,作为即插即用的解码器块应用于各种U-Net变体,消除其固有的重构瓶颈。
  • Result: 在CrackVision12K数据集上显著改善了细裂纹分割性能(特别是宽度小于4像素的裂纹),在SIDD智能手机图像去噪中PSNR获得适度提升,验证了其在高频和低频场景下的鲁棒性。
  • Conclusion: SUPER解码器块具有即插即用的通用性,能够在统一的重构感知框架内实现高频保真度和全局一致性,同时保持可比较的计算成本。

[34] AirCopBench: A Benchmark for Multi-drone Collaborative Embodied Perception and Reasoning

Jirong Zha,Yuxuan Fan,Tianyu Zhang,Geng Chen,Yingfeng Chen,Chen Gao,Xinlei Chen

Main category: cs.CV

TL;DR: 提出了首个用于评估多模态大语言模型在具身空中协作感知任务中表现的基准测试AirCopBench,包含14.6k+问题,涵盖4个关键任务维度,并在40个MLLMs上显示出显著的性能差距。

  • Motivation: 现有基准主要针对使用高质量单智能体图像的基本感知任务,无法评估MLLMs在更复杂的以自我为中心的协作场景,特别是在真实世界退化感知条件下的表现。
  • Method: 构建了包含模拟器和真实世界数据的基准测试,通过模型、规则和人工方法在严格质量控制下生成大规模问题,涵盖14种任务类型。
  • Result: 在40个MLLMs上的评估显示协作感知任务存在显著性能差距,最佳模型平均落后人类24.38%,且在不同任务间表现不一致。微调实验证实了空中协作感知和推理中模拟到真实迁移的可行性。
  • Conclusion: AirCopBench填补了多智能体协作感知评估的空白,揭示了MLLMs在复杂协作场景中的局限性,并为未来研究提供了重要基准。

[35] EmbryoDiff: A Conditional Diffusion Framework with Multi-Focal Feature Fusion for Fine-Grained Embryo Developmental Stage Recognition

Yong Sun,Zhengjie Zhang,Junyu Shi,Zhiyuan Zhang,Lijiang Liu,Qiang Nie

Main category: cs.CV

TL;DR: EmbryoDiff是一个基于扩散模型的两阶段框架,用于胚胎发育阶段的细粒度识别,通过多焦点特征融合和混合语义-边界条件注入,在细胞遮挡情况下实现准确分类。

  • Motivation: 现有深度学习模型未能利用胚胎发育的分布先验,且依赖单焦点信息导致胚胎表示不完整,在细胞遮挡下容易出现特征模糊问题。
  • Method: 提出两阶段扩散框架:1) 训练冻结的帧级编码器提取多焦点特征;2) 多焦点特征融合策略构建3D感知形态表示,设计混合语义-边界条件块注入扩散去噪过程。
  • Result: 在两个基准数据集上达到最先进结果,单次去噪步骤即可获得最佳平均测试性能,准确率分别为82.8%和81.3%。
  • Conclusion: EmbryoDiff通过扩散模型和多焦点特征融合有效解决了胚胎发育阶段识别中的特征模糊问题,显著提升了分类准确性。

[36] Algorithms Trained on Normal Chest X-rays Can Predict Health Insurance Types

Chi-Yu Chen,Rawan Abulibdeh,Arash Asgari,Leo Anthony Celi,Deirdre Goode,Hassan Hamidi,Laleh Seyyed-Kalantari,Po-Chih Kuo,Ned McCague,Thomas Sounack

Main category: cs.CV

TL;DR: 深度学习模型可以从正常胸部X光片中预测患者的健康保险类型(社会经济地位的强代理指标),准确率显著(AUC约0.67-0.68),这表明医疗AI模型可能内化了社会不平等痕迹。

  • Motivation: 揭示医学AI模型如何感知和利用医疗数据中隐藏的社会不平等痕迹,挑战医疗图像是中性生物数据的假设。
  • Method: 使用最先进的架构(DenseNet121、SwinV2-B、MedMamba)在MIMIC-CXR-JPG和CheXpert数据集上训练模型预测健康保险类型,通过基于补丁的遮挡分析信号分布。
  • Result: 模型能显著预测健康保险类型(AUC约0.67-0.68),信号在控制年龄、种族和性别后依然存在,且分布在上中胸部区域而非局部化。
  • Conclusion: 医疗AI公平性目标需要从平衡数据集转向审视和解构临床数据中嵌入的社会指纹,医疗图像并非中性生物数据。

[37] Accelerating Controllable Generation via Hybrid-grained Cache

Lin Liu,Huixia Ben,Shuo Wang,Jinda Lu,Junxiang Qiu,Shengeng Tang,Yanbin Hao

Main category: cs.CV

TL;DR: 提出了一种混合粒度缓存(HGC)方法,通过在不同计算阶段采用不同粒度的缓存策略来减少可控生成模型的计算开销,显著提升生成效率。

  • Motivation: 解决可控生成模型在处理控制条件和内容生成时的计算效率低下的问题,这些模型通常需要处理大量计算需求。
  • Method: 采用两种缓存策略:1)基于特征重用的粗粒度缓存(块级),在模型推理的每一步中动态绕过编码器-解码器块中的冗余计算;2)细粒度缓存(提示级),在模块内重用跨注意力图,并将其扩展到相邻步骤的相应模块计算中。
  • Result: 在四个基准数据集上验证了HGC的有效性,特别是在COCO-Stuff分割基准上,计算成本(MACs)显著降低了63%(从18.22T降至6.70T),同时语义保真度损失控制在1.5%以内。
  • Conclusion: HGC方法在平衡生成效率和视觉质量方面具有显著优势,能够在不牺牲质量的前提下大幅提升可控生成模型的效率。

[38] MPCGNet: A Multiscale Feature Extraction and Progressive Feature Aggregation Network Using Coupling Gates for Polyp Segmentation

Wei Wang,Feng Jiang,Xin Wang

Main category: cs.CV

TL;DR: 本文提出了MPCGNet方法,通过耦合门机制解决息肉分割中的三个主要挑战:小息肉易漏检、边界模糊和图像噪声问题。

  • Motivation: 现有息肉分割方法面临三个主要挑战:(1)小尺寸息肉容易被漏检,(2)息肉与周围环境边界模糊,(3)结肠镜图像中的噪声影响分割效果。
  • Method: 提出三个核心模块:CGMFE模块(耦合门多尺度特征提取)用于提取局部特征和抑制噪声;WCAD解码器模块(窗口交叉注意力)用于恢复细节;DFA模块(解码器特征聚合)用于渐进特征聚合和重要性选择。
  • Result: 在ETIS-LaribPolypDB和CVC-ColonDB数据集上,MPCGNet的mDice分数分别比次优网络高出2.20%和0.68%。
  • Conclusion: MPCGNet通过耦合门机制有效解决了息肉分割中的关键挑战,在多个数据集上表现出优越性能。

[39] CrossMed: A Multimodal Cross-Task Benchmark for Compositional Generalization in Medical Imaging

Pooja Singh,Siddhant Ujjain,Tapan Kumar Gandhi,Sandeep Kumar

Main category: cs.CV

TL;DR: CrossMed是一个评估医学多模态大语言模型组合泛化能力的基准,使用模态-解剖-任务(MAT)结构化框架,将四个公共数据集统一为视觉问答格式,包含20,200个多项选择题实例。

  • Motivation: 当前多模态大语言模型在医学AI中应用前景广阔,但其在未见过的成像模态、解剖结构和任务类型组合上的组合泛化能力尚未充分探索。
  • Method: 将CheXpert、SIIM-ACR、BraTS 2020和MosMedData四个数据集重新格式化为统一的视觉问答格式,评估LLaVA-Vicuna-7B和Qwen2-VL-7B在相关、无关和零重叠MAT拆分上的表现。
  • Result: 在相关拆分上模型达到83.2%分类准确率和0.75分割cIoU,但在无关和零重叠条件下性能显著下降。跨任务迁移显示仅使用分类数据训练也能提升分割性能7% cIoU。
  • Conclusion: CrossMed为评估医学视觉语言模型的零样本、跨任务和模态无关泛化能力提供了严格测试平台,多模态大语言模型在组合泛化方面表现独特优势。

[40] SemanticNN: Compressive and Error-Resilient Semantic Offloading for Extremely Weak Devices

Jiaming Huang,Yi Gao,Fuchang Pan,Renjie Li,Wei Dong

Main category: cs.CV

TL;DR: 提出SemanticNN语义编解码器,在资源受限的嵌入式设备上实现容错的设备-边缘协作推理,通过语义级正确性而非比特级正确性,显著减少特征传输量同时保持高推理精度。

  • Motivation: 随着物联网发展,在资源极度受限的嵌入式设备上集成AI面临挑战,传统方法关注比特级传输正确性,在动态信道条件下效率低下,需要能够容忍比特错误但保证语义正确性的解决方案。
  • Method: 提出SemanticNN语义编解码器,包含BER感知解码器适应动态信道条件、基于软量化的编码器学习紧凑表示、特征增强学习训练策略,以及XAI不对称补偿解决编码器-解码器能力不匹配问题。
  • Result: 在STM32平台上使用三个模型和六个数据集进行实验,在不同传输错误率下,SemanticNN将特征传输量减少56.82-344.83倍,同时保持优越的推理精度。
  • Conclusion: SemanticNN在严格的计算和通信约束下实现了压缩且鲁棒的协作推理卸载,为资源受限的嵌入式设备上的AI部署提供了有效的解决方案。

[41] Hyperbolic Hierarchical Alignment Reasoning Network for Text-3D Retrieval

Wenrui Li,Yidan Lu,Yeyu Chai,Rui Zhao,Hengyu Man,Xiaopeng Fan

Main category: cs.CV

TL;DR: H²ARN是一个用于文本-3D检索的双曲层次对齐推理网络,通过在洛伦兹模型双曲空间中嵌入文本和3D数据来解决层次表示崩溃和冗余引起的显著性稀释问题。

  • Motivation: 解决当前文本-3D检索方法面临的两个主要挑战:层次表示崩溃(HRC)和冗余引起的显著性稀释(RISD)。HRC在欧几里得嵌入中压缩了抽象到具体和整体到部分的层次结构,而RISD平均了噪声片段,模糊了关键语义线索。
  • Method: 提出H²ARN网络,在双曲空间中嵌入文本和3D数据,利用层次排序损失构建收缩蕴含锥,确保匹配的3D实例落在锥内,同时使用实例级对比损失分离不匹配样本。提出贡献感知的双曲聚合模块,利用洛伦兹距离评估局部特征相关性。
  • Result: 发布了扩展的T3DR-HIT v2基准,包含8,935个文本-3D对,是原始大小的2.6倍,涵盖细粒度文化文物和复杂室内场景。
  • Conclusion: H²ARN通过双曲几何有效解决了层次表示和冗余问题,提升了文本-3D检索的性能。

[42] PINGS-X: Physics-Informed Normalized Gaussian Splatting with Axes Alignment for Efficient Super-Resolution of 4D Flow MRI

Sun Jo,Seok Young Hong,JinHyun Kim,Seungmin Kang,Ahjin Choi,Don-Gwan An,Simon Song,Je Hyeong Hong

Main category: cs.CV

TL;DR: PINGS-X是一个基于轴对齐时空高斯表示的新型框架,用于4D血流MRI的超分辨率重建,显著减少训练时间同时保持高精度。

  • Motivation: 传统4D血流MRI需要高时空分辨率来早期检测心血管疾病,但高分辨率导致扫描时间过长。现有基于PINNs的方法训练缓慢,需要为每个患者单独训练,限制了实际应用。
  • Method: 提出PINGS-X框架,使用轴对齐时空高斯表示建模高分辨率血流速度。包括三个创新:(i)具有形式收敛保证的归一化高斯渲染,(ii)轴对齐高斯简化高维数据训练,(iii)高斯合并程序防止退化解并提升计算效率。
  • Result: 在计算流体动力学和真实4D血流MRI数据集上的实验表明,PINGS-X显著减少训练时间,同时实现优越的超分辨率精度。
  • Conclusion: PINGS-X通过轴对齐时空高斯表示有效解决了4D血流MRI超分辨率重建中的训练效率问题,为临床实践提供了可行的解决方案。

[43] NP-LoRA: Null Space Projection Unifies Subject and Style in LoRA Fusion

Chuheng Chen,Xiaofei Zhou,Geyuan Zhang,Yong Huang

Main category: cs.CV

TL;DR: 提出了NP-LoRA方法,通过零空间投影解决LoRA融合中的结构干扰问题,实现更好的主题保真度和风格一致性

  • Motivation: 现有LoRA融合方法依赖权重合并,导致一个LoRA主导另一个,产生干扰和保真度下降。这种干扰是结构性的:单独训练的LoRA占据低秩高维子空间,导致非正交和重叠表示
  • Method: 首先通过奇异值分解提取主要风格方向,然后将主题LoRA投影到其正交零空间中。还引入了软投影机制来平衡主题保真度和风格一致性
  • Result: 实验表明NP-LoRA在融合质量上持续优于强基线方法(如基于DINO和CLIP的指标,以及人类和LLM偏好得分),并且无需重新训练即可广泛适用于各种骨干网络和LoRA对
  • Conclusion: NP-LoRA通过强制子空间分离有效防止了主要方向的结构干扰,为可控生成提供了更好的LoRA融合解决方案

[44] CareCom: Generative Image Composition with Calibrated Reference Features

Jiaxuan Chen,Bo Zhang,Qingdong He,Jinlong Peng,Li Niu

Main category: cs.CV

TL;DR: 该论文提出了一种多参考生成式图像合成方法,通过校准前景参考图像的全局和局部特征,使其与背景信息兼容,从而实现细节保持和前景姿态/视角调整的同步优化。

  • Motivation: 现有的生成式图像合成方法在同时保持细节和调整前景姿态/视角方面仍存在困难。
  • Method: 将现有生成式合成模型扩展为多参考版本,允许使用任意数量的前景参考图像,并校准参考图像的全局和局部特征使其与背景信息兼容。
  • Result: 在MVImgNet和MureCom数据集上的大量实验表明,生成模型能从校准的参考特征中大大受益。
  • Conclusion: 通过多参考图像和特征校准,生成式图像合成模型能够更好地实现细节保持和前景姿态调整的平衡。

[45] LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

Dor Shmilovich,Tony Wu,Aviad Dahan,Yuval Domb

Main category: cs.CV

TL;DR: LiteAttention利用扩散注意力在去噪步骤间的时序一致性,通过早期标记非重要tile并向前传播跳过决策,在不重复分析开销的情况下消除冗余注意力计算,在保持质量的同时显著加速视频扩散模型。

  • Motivation: 扩散变换器在视频生成中质量优异但存在二次注意力复杂度问题,导致延迟过高。现有加速方法面临动态稀疏注意力模式计算开销大且估计误差高,而静态稀疏模式固定且在整个去噪过程中往往次优的根本权衡。
  • Method: 识别扩散注意力的关键结构特性——其稀疏模式在去噪步骤间表现出强时序一致性,提出LiteAttention方法利用这种时序一致性实现跨去噪序列的进化计算跳过,通过在早期标记非重要tile并向前传播跳过决策来消除冗余注意力计算。
  • Result: 在FlashAttention基础上实现高度优化的LiteAttention内核,在生产级视频扩散模型上展示了显著加速效果,且没有质量下降。
  • Conclusion: LiteAttention结合了动态方法的适应性和静态方法的效率,通过利用扩散注意力的时序一致性特性,有效解决了视频扩散模型中的注意力计算瓶颈问题。

[46] From Retinal Pixels to Patients: Evolution of Deep Learning Research in Diabetic Retinopathy Screening

Muskaan Chopra,Lorenz Sparrenberg,Armin Berger,Sarthak Khanna,Jan H. Terheyden,Rafet Sifa

Main category: cs.CV

TL;DR: 这篇论文系统综述了2016-2025年间糖尿病视网膜病变(DR)的深度学习研究进展,整合了50多项研究和20多个数据集,重点关注方法创新、评估标准和临床转化挑战。

  • Motivation: 糖尿病视网膜病变是可预防性失明的主要原因,早期检测对减少全球视力丧失至关重要。深度学习在过去十年中改变了DR筛查方式,但需要系统总结技术进展和临床转化障碍。
  • Method: 采用系统综述方法,分析自监督学习、半监督学习、领域泛化、联邦训练和混合神经符号模型等技术进展,同时评估评估协议、报告标准和可重复性挑战。
  • Result: 建立了跨数据集的基准性能表,识别了多中心验证和临床信任方面的开放差距,为可重复、隐私保护和临床可部署的DR AI提供了实用议程。
  • Conclusion: 该综述不仅为DR研究提供了系统框架,而且所调查的许多创新可广泛扩展到大规模医学影像领域,连接了技术进步与转化障碍。

[47] S2D-ALIGN: Shallow-to-Deep Auxiliary Learning for Anatomically-Grounded Radiology Report Generation

Jiechao Gao,Chang Liu,Yuangang Li

Main category: cs.CV

TL;DR: 提出S2D-Align方法,通过浅到深的策略利用多粒度辅助信号建立解剖学基础的对齐,提升放射学报告生成质量

  • Motivation: 现有的基于MLLM的方法仅通过图像-文本对的实例级对齐,无法建立解剖学基础的对齐,导致报告生成质量不佳
  • Method: 采用浅到深策略:从粗粒度放射图像-报告配对开始,引入参考报告进行实例级指导,最后使用关键短语在特定解剖细节上建立基础;使用基于记忆的适配器实现特征共享
  • Result: 在MIMIC-CXR和IU X-Ray基准测试中达到最先进性能,消融研究验证了多阶段辅助引导方法的有效性
  • Conclusion: 该方法为增强复杂多模态生成任务中的基础能力提供了有前景的方向

[48] Evaluating Latent Generative Paradigms for High-Fidelity 3D Shape Completion from a Single Depth Image

Matthias Humt,Ulrich Hillenbrand,Rudolph Triebel

Main category: cs.CV

TL;DR: 比较扩散模型和自回归变换器在3D形状生成和补全任务中的性能,发现扩散模型在连续潜在空间表现更好,而自回归模型在离散潜在空间可匹配扩散模型性能。

  • Motivation: 生成模型在3D数据应用中尚未达成共识,且缺乏对部分3D数据等条件信息的系统评估。
  • Method: 将去噪扩散概率模型和自回归因果变换器适配于生成形状建模和补全任务,并进行定量比较和消融研究。
  • Result: 扩散模型在连续潜在空间中优于判别模型和自回归方法,在单张噪声深度图像的多模态形状补全中达到最先进性能;在相同离散潜在空间中,自回归模型可匹配或超越扩散模型性能。
  • Conclusion: 扩散模型在连续潜在空间表现最佳,而自回归模型在离散潜在空间中具有竞争力,为不同任务选择合适的生成模型提供了指导。

[49] Phys-Liquid: A Physics-Informed Dataset for Estimating 3D Geometry and Volume of Transparent Deformable Liquids

Ke Ma,Yizhou Fang,Jean-Baptiste Weibel,Shuai Tan,Xinggang Wang,Yang Xiao,Yi Fang,Tian Xia

Main category: cs.CV

TL;DR: 提出了Phys-Liquid数据集,包含97,200张模拟图像和对应的3D网格,用于透明变形液体的几何和体积属性估计,通过四阶段重建流程验证了其有效性。

  • Motivation: 解决自主机器人执行精确液体操作任务时,由于容器运动引起的液体表面变形导致的几何和体积估计困难问题。
  • Method: 创建物理信息数据集Phys-Liquid,包含多种实验室场景、光照条件、液体颜色和容器旋转的模拟数据;提出四阶段重建流程:液体分割、多视角掩码生成、3D网格重建和真实世界缩放。
  • Result: 实验结果显示在重建液体几何和体积方面获得了更高的准确性和一致性,优于现有基准方法。
  • Conclusion: Phys-Liquid数据集及相关验证方法为透明液体感知任务的未来发展提供了支持,有助于提升机器人液体操作的精确性。

[50] SplineSplat: 3D Ray Tracing for Higher-Quality Tomography

Youssef Haouchat,Sepand Kashani,Aleix Boquet-Pujadas,Philippe Thévenaz,Michael Unser

Main category: cs.CV

TL;DR: 提出了一种高效计算基于B样条表示的3D体积层析投影的方法,使用射线追踪算法和神经网络来高效计算基函数贡献,在数据充足情况下比传统体素方法重建质量更高。

  • Motivation: 传统体素方法在3D体积层析重建中存在重建质量限制,需要更高效的投影计算方法来提升重建精度。
  • Method: 使用基于移位B样条的线性组合表示3D体积,开发射线追踪算法计算任意投影几何的3D线积分,并利用神经网络高效计算基函数贡献。
  • Result: 在数据充足的适定情况下,该方法实现了比传统体素方法更高的重建质量。
  • Conclusion: 基于B样条表示和神经网络的射线追踪方法能够有效提升层析投影的计算效率和重建质量。

[51] A Space-Time Transformer for Precipitation Forecasting

Levi Harris,Tianlong Chen

Main category: cs.CV

TL;DR: 提出了SaTformer,一种基于全时空注意力的视频变换器,用于从卫星辐射数据中精确预测极端降水,并在NeurIPS Weather4Cast 2025累积降雨挑战赛中获得了第一名。

  • Motivation: 传统数值天气预报模型在临近预报时间尺度(0-4小时)性能下降,且计算需求高。AI天气预测方法虽然成功,但视频理解架构在天气预报中的应用仍未被充分探索。
  • Method: 使用基于全时空注意力的视频变换器架构,将降水回归问题重新表述为分类问题,并采用类别加权损失来处理标签不平衡问题。
  • Result: 在NeurIPS Weather4Cast 2025累积降雨挑战赛中获得了第一名。
  • Conclusion: SaTformer通过视频变换器架构和针对长尾数据的技术改进,成功提升了极端降水预报的准确性。

[52] Machine-Learning Based Detection of Coronary Artery Calcification Using Synthetic Chest X-Rays

Dylan Saeed,Ramtin Gharleghi,Susann Bier,Sonit Singh

Main category: cs.CV

TL;DR: 本研究首次系统评估了数字重建放射影像(DRR)作为冠状动脉钙化(CAC)检测的替代训练域,通过生成合成DRR图像并评估多种训练策略,证明了DRR可作为CAC检测的可扩展、标签丰富的基础。

  • Motivation: CT是CAC检测的临床金标准但成本高昂,胸片(CXR)便宜但缺乏可靠标注,限制了深度学习发展。DRR通过将CT体积投影为CXR样图像同时继承精确标签,提供了可扩展的替代方案。
  • Method: 使用667个CT扫描生成合成DRR,评估模型容量、超分辨率保真度增强、预处理和训练策略,包括轻量CNN从头训练、超分辨率与对比度增强配对、课程学习等方法。
  • Result: 最佳配置达到平均AUC 0.754,与或超过先前基于CXR的研究。轻量CNN从头训练优于大型预训练网络,超分辨率与对比度增强配对带来显著提升,课程学习在弱监督下稳定训练。
  • Conclusion: DRR为CAC检测提供了可扩展、标签丰富的基础,为未来向真实CXR的迁移学习和领域自适应奠定了基础。

[53] Detection of Bark Beetle Attacks using Hyperspectral PRISMA Data and Few-Shot Learning

Mattia Ferrari,Giancarlo Papitto,Giorgio Deligios,Lorenzo Bruzzone

Main category: cs.CV

TL;DR: 提出了一种基于对比学习和少样本学习的树皮甲虫侵染检测方法,使用PRISMA高光谱卫星数据,在CNN编码器预训练后通过支持向量回归估计健康、受攻击和死亡树木的比例。

  • Motivation: 树皮甲虫侵染对针叶林健康构成严重威胁,需要有效的监测方法。传统方法可能受限于数据可用性和标注成本。
  • Method: 使用对比学习框架预训练一维CNN编码器,提取高光谱数据的鲁棒特征表示,然后用少量标注样本训练支持向量回归器来估计各类树木比例。
  • Result: 在Dolomites研究区域的实验表明,该方法优于使用原始PRISMA光谱带和Sentinel-2数据的方法。
  • Conclusion: PRISMA高光谱数据与少样本学习相结合为森林健康监测提供了显著优势。

[54] VIDEOP2R: Video Understanding from Perception to Reasoning

Yifan Jiang,Yueying Wang,Rui Zhao,Toufiq Parag,Zhimin Chen,Zhenyu Liao,Jayakrishnan Unnikrishnan

Main category: cs.CV

TL;DR: VideoP2R是一个面向视频大语言模型的过程感知强化微调框架,通过将感知和推理建模为不同过程,在7个视频推理基准中的6个达到最先进性能。

  • Motivation: 将强化微调(RFT)扩展到视频大语言模型(LVLMs)具有挑战性,现有方法难以有效提升视频推理能力。
  • Method: 两阶段框架:SFT阶段生成高质量过程感知思维链数据集VideoP2R-CoT-162K;RL阶段提出过程感知组相对策略优化(PA-GRPO)算法,为感知和推理分别提供奖励。
  • Result: 在7个视频推理基准中的6个达到最先进性能,消融研究证实过程感知建模和PA-GRPO的有效性。
  • Conclusion: VideoP2R成功将RFT扩展到LVLMs,过程感知建模显著提升视频推理能力,且感知输出为下游推理提供充分信息。

[55] Toward Generalized Detection of Synthetic Media: Limitations, Challenges, and the Path to Multimodal Solutions

Redwan Hussain,Mizanur Rahman,Prithwiraj Bhattacharjee

Main category: cs.CV

TL;DR: 本文综述了24篇关于AI生成媒体检测的最新研究,分析了现有方法的局限性,并建议未来研究方向应关注多模态深度学习模型,以提供更鲁棒和通用的检测能力。

  • Motivation: 随着GAN和扩散模型等AI技术的快速发展,合成媒体质量大幅提升,导致真假内容难以区分。深度伪造等技术的滥用引发了虚假信息传播、隐私侵犯和欺诈等问题,因此需要开发有效的检测方法。
  • Method: 通过系统回顾24篇相关研究,逐一分析每项研究的贡献和弱点,总结现有方法的共同局限性和关键挑战。
  • Result: 现有检测方法(如CNN和ViT)在视觉、空间或时间异常检测方面存在不足,难以泛化到未见数据,对来自不同模型的内容和多模态数据的处理效果不佳。
  • Conclusion: 建议未来研究应聚焦于多模态深度学习模型,这些模型有望提供更鲁棒和通用的检测能力,为构建对抗有害合成媒体的更强防御提供明确起点。

[56] Stroke Modeling Enables Vectorized Character Generation with Large Vectorized Glyph Model

Xinyue Zhang,Haolong Li,Jiawei Ma,Chen Ye

Main category: cs.CV

TL;DR: 提出LVGM模型,通过预测下一个笔画来生成矢量中文字符,基于笔画嵌入和微调DeepSeek LLM实现矢量字形生成。

  • Motivation: 利用矢量字形的可扩展性和灵活性,结合大语言模型的序列预测能力,实现通过笔画建模生成矢量字符。
  • Method: 将笔画编码为离散潜在变量(笔画嵌入),通过微调DeepSeek LLM预测下一个笔画嵌入来训练LVGM模型。
  • Result: 模型能够基于有限笔画生成完整字符、语义优美的词语甚至未见过的诗句矢量形式,实验显示模型在数据规模上具有缩放行为。
  • Conclusion: LVGM成功实现了矢量中文字符生成,生成的矢量字形得到专家和相关人员验证,并发布了包含907,267个样本的大规模中文SVG数据集。

[57] Hindsight Distillation Reasoning with Knowledge Encouragement Preference for Knowledge-based Visual Question Answering

Yu Zhao,Ying Zhang,Xuhui Sui,Baohang Zhou,Li Shen,Dacheng Tao

Main category: cs.CV

TL;DR: 提出了HinD框架和KEPO方法,通过后见之明蒸馏推理来激发MLLMs的内部知识推理能力,在KBVQA任务上取得优异性能

  • Motivation: 现有KBVQA方法要么使用MLLMs的隐式知识,要么使用检索增强生成,但缺乏显式的多步推理轨迹
  • Method: 1) 通过冻结的7B MLLM构建Hindsight-Zero训练数据;2) 自蒸馏为CoT生成器和知识生成器;3) 使用KEPO优化知识生成器,偏好低置信度但有用的知识
  • Result: 在OK-VQA和A-OKVQA上的实验验证了HinD的有效性,使用7B规模MLLM的推理能力实现了优越性能
  • Conclusion: HinD框架成功激发了MLLMs的内部知识推理能力,无需商业模型API或外部知识即可在KBVQA任务上取得优异表现

[58] OT-ALD: Aligning Latent Distributions with Optimal Transport for Accelerated Image-to-Image Translation

Zhanpeng Wang,Shuting Cao,Yuhang Lu,Yuhan Li,Na Lei,Zhongxuan Luo

Main category: cs.CV

TL;DR: OT-ALD是一种基于最优传输理论的图像到图像翻译框架,解决了DDIB方法中存在的翻译效率低和潜在分布不匹配问题,通过OT映射改进反向扩散过程,在保持高质量的同时提升翻译效率。

  • Motivation: 现有的DDIB方法虽然能保持循环一致性,但面临两个主要挑战:(1)翻译效率低,(2)由于潜在分布不匹配导致的翻译轨迹偏差。
  • Method: 提出OT-ALD框架,计算从源域到目标域潜在分布的最优传输映射,并将映射后的分布作为目标域反向扩散过程的起点。
  • Result: 在三个高分辨率数据集的四个翻译任务中,OT-ALD相比最佳基线模型平均提升采样效率20.29%,FID分数降低2.6。
  • Conclusion: OT-ALD有效消除了潜在分布不匹配问题,在图像翻译速度和图像质量之间实现了良好平衡。

[59] Reverberation: Learning the Latencies Before Forecasting Trajectories

Conghao Wong,Ziqian Zou,Beihao Xia,Xinge You

Main category: cs.CV

TL;DR: 提出了一种基于混响变换的轨迹预测模型Rev,通过显式学习和预测智能体对轨迹变化事件的响应延迟,实现可控的轨迹预测。

  • Motivation: 现有轨迹预测方法难以显式学习和预测智能体对不同轨迹变化事件的响应延迟(latency),这会影响预测系统的因果连续性并导致不合理的轨迹。
  • Method: 受声学中混响曲线的启发,提出了混响变换和Rev轨迹预测模型,使用两个显式可学习的混响核来模拟和预测每个智能体的不同延迟偏好及其随机性。
  • Result: 在多个数据集上的实验表明,Rev在保持竞争力的准确性的同时,能够揭示跨智能体和场景的可解释延迟动态。
  • Conclusion: 混响变换具有作为通用延迟建模方法的潜力,能够实现可控的轨迹预测并揭示智能体的延迟行为模式。

[60] Explainable Deep Convolutional Multi-Type Anomaly Detection

Alex George,Lyudmila Mihaylova,Sean Anderson

Main category: cs.CV

TL;DR: 提出了MultiTypeFCDD,一个轻量级的卷积框架,用于可解释的多类型异常检测,能够区分异常类型而无需为每个对象类别训练单独模型。

  • Motivation: 现有可解释异常检测方法只能识别异常但无法区分异常类型,且需要为每个对象类别训练和维护单独模型,这在实际应用中成本高昂。
  • Method: 使用仅图像级标签学习并生成多通道热图,每个通道对应特定异常类型,作为统一框架处理多个对象类别的异常检测。
  • Result: 在Real-IAD数据集上评估,与最先进复杂模型竞争,同时显著减少参数负载和推理时间。
  • Conclusion: 该方法是计算资源受限实际应用中的高度实用可行解决方案。

[61] CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios

Hangyu Li,Bofeng Cao,Zhaohui Liang,Wuzhen Li,Juyoung Oh,Yuxuan Chen,Shixiao Liang,Hang Zhou,Chengyuan Ma,Jiaxi Liu,Zheng Li,Peng Zhang,KeKe Long,Maolin Liu,Jackson Jiang,Chunlei Yu,Shengxiang Liu,Hongkai Yu,Xiaopeng Li

Main category: cs.CV

TL;DR: CATS-V2V是首个针对复杂恶劣交通场景的V2V协同感知真实世界数据集,包含10种天气和光照条件下的100个片段,提供LiDAR点云、多视角相机图像、高精度定位数据以及时间一致的3D标注。

  • Motivation: 现有数据集主要关注普通交通场景,缺乏复杂恶劣条件下的V2V协同感知数据,限制了协同感知在真实世界中的应用潜力。
  • Method: 使用两辆硬件时间同步的车辆收集数据,覆盖10种天气和光照条件,提供LiDAR点云、相机图像、GNSS/IMU记录,并提出基于目标的时序对齐方法确保多模态数据精确对齐。
  • Result: 构建了包含60K帧LiDAR点云、1.26M相机图像、750K定位记录的100片段数据集,是目前同类数据集中规模最大、支持最全面、质量最高的。
  • Conclusion: CATS-V2V数据集将推动自动驾驶社区在复杂恶劣场景下的协同感知研究,为相关任务提供重要基础设施。

[62] Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA

Ayush Pandey,Jai Bardhan,Ishita Jain,Ramya S Hebbalaguppe,Rohan Raju Dhanakshirur,Lovekesh Vig

Main category: cs.CV

TL;DR: 提出了AlignVQA框架,通过多智能体辩论机制和校准感知损失函数来改善视觉问答系统的置信度校准问题,减少过度自信现象。

  • Motivation: 现代VQA系统在医疗诊断和自动驾驶等高风险领域应用日益广泛,但其置信度估计的可靠性研究不足,系统往往产生过度自信的响应,需要改进置信度校准。
  • Method: 引入AlignVQA辩论式多智能体框架,使用不同提示策略的专门化VLM生成候选答案,通过两阶段交互(通用智能体批判、精炼和聚合)产生更准确的置信度估计,并提出可微分的校准感知损失函数aligncal来微调专门化智能体。
  • Result: 在多个基准VQA数据集上的实证结果表明,该方法显著减少了校准差异,更校准的专门化智能体产生更好对齐的置信度。
  • Conclusion: AlignVQA框架通过多智能体辩论和校准优化,有效提高了VQA系统的置信度校准性能,使其置信度估计更准确地反映实际预测性能。

[63] Dynamic Gaussian Scene Reconstruction from Unsynchronized Videos

Zhixin Xu,Hengyu Zhou,Yuan Liu,Wenhan Xue,Hao Pan,Wenping Wang,Bin Wang

Main category: cs.CV

TL;DR: 提出了一种用于非同步多视角视频的4D高斯泼溅重建的时序对齐策略,通过粗到精的对齐模块估计和补偿相机时间偏移,提高重建质量。

  • Motivation: 现实世界中多视角视频常因相机触发延迟或独立录制设置导致时序不同步,而现有4DGS方法假设输入视频流是时间同步的,这限制了其在真实场景中的应用。
  • Method: 采用粗到精的对齐模块,先确定粗略的帧级偏移,然后细化为亚帧精度,可作为即插即用模块集成到现有4DGS框架中。
  • Result: 实验表明该方法能有效处理时序错位视频,显著提升基线方法的重建质量。
  • Conclusion: 该方法增强了4DGS框架在处理异步数据时的鲁棒性,为实际应用中的多视角视频重建提供了有效解决方案。

[64] Viper-F1: Fast and Fine-Grained Multimodal Understanding with Cross-Modal State-Space Modulation

Quoc-Huy Trinh,Mustapha Abdullahi,Do Duy Hung Trinh,Bo Zhao,Debesh Jha

Main category: cs.CV

TL;DR: Viper-F1是一个混合状态空间视觉语言模型,用高效液体状态空间动力学替代注意力机制,通过Token-Grid相关性模块增强视觉定位,在保持线性时间推理的同时实现细粒度理解。

  • Motivation: 解决多模态大语言模型在资源受限场景下的高计算成本问题,以及小模型在细粒度推理任务中难以精确捕捉相关视觉区域的问题。
  • Method: 使用液体状态空间动力学替代Transformer交叉注意力机制,提出Token-Grid相关性模块计算文本标记与图像补丁之间的轻量级相关性,并通过FiLM条件调节状态空间动力学。
  • Result: 在多个基准测试中,Viper-F1实现了准确、细粒度的理解,同时显著提高了效率。
  • Conclusion: Viper-F1通过状态空间模型和视觉定位增强,在保持高效推理的同时实现了细粒度的视觉语言理解,为资源受限场景提供了可行的解决方案。

[65] A Comparison of Lightweight Deep Learning Models for Particulate-Matter Nowcasting in the Indian Subcontinent & Surrounding Regions

Ansh Kushwaha,Kaushik Gopalan

Main category: cs.CV

TL;DR: 提出一个高效框架,用于印度次大陆及周边地区PM1、PM2.5和PM10的6小时临近预报,使用CAMS全球大气成分预报数据,在有限空间域上实现优于基础模型的性能。

  • Motivation: 为印度地区提供准确的颗粒物浓度短期预报,利用专业深度学习模型在有限空间域上提升预报精度。
  • Method: 使用CAMS全球大气成分预报的0.4度分辨率分析场作为输入,开发三个轻量级参数特定架构,训练数据为2021-2023年,评估数据为2024年。
  • Result: 在RMSE、MAE、Bias和SSIM指标上显著优于Aurora基础模型,显示了紧凑专业化深度学习模型在短程预报中的有效性。
  • Conclusion: 紧凑且专业化的深度学习模型在有限空间域的短程预报中表现优异,为区域空气质量预报提供了高效解决方案。

[66] Computationally-efficient deep learning models for nowcasting of precipitation: A solution for the Weather4cast 2025 challenge

Anushree Bhuskute,Kaushik Gopalan,Jeet Shah

Main category: cs.CV

TL;DR: 提出了基于ConvGRU的迁移学习框架用于短期降雨预测,采用两阶段训练策略:第一阶段预测SEVIRI亮度温度,第二阶段通过非线性变换生成降雨率。在Weather4Cast 2025竞赛中,该方法在累积降雨任务中获得第二名。

  • Motivation: 开发有效的短期降雨预测方法,利用SEVIRI红外通道数据,通过迁移学习框架提高预测准确性,满足气象预测的实际需求。
  • Method: 使用ConvGRU模型,采用两阶段训练:第一阶段训练模型预测SEVIRI亮度温度以捕获时空模式;第二阶段通过经验非线性变换将预测场映射为OPERA兼容的降雨率。对于事件预测任务,使用3D事件检测和时空特征提取。
  • Result: 在Weather4Cast 2025竞赛中,累积降雨任务获得第二名;相同模型在事件预测任务中表现与基线模型相当。
  • Conclusion: 提出的ConvGRU迁移学习框架在短期降雨预测中表现优异,证明了该方法的有效性,特别是在累积降雨预测方面取得了显著成果。

[67] Geospatial Chain of Thought Reasoning for Enhanced Visual Question Answering on Satellite Imagery

Shambhavi Shanker,Manikandan Padmanaban,Jagabondhu Hazra

Main category: cs.CV

TL;DR: 提出了一种结合思维链推理和直接偏好优化的视觉问答框架,用于卫星图像分析,在气候相关应用中显著提升了准确性和推理质量。

  • Motivation: 现有视觉问答模型在解释遥感数据时缺乏结构化推理能力,难以处理复杂的地理空间查询,特别是在灾害监测、基础设施风险评估等高风险气候领域。
  • Method: 集成思维链推理与直接偏好优化,通过生成中间推理过程来提升模型在检测、分类、空间关系和比较分析等任务中的表现。
  • Result: 思维链监督使准确率比直接基线提升34.9%,直接偏好优化进一步提高了准确性和推理质量。
  • Conclusion: 该框架通过实现更丰富的地理空间推理,推进了多光谱地球观测的视觉问答能力,为气候应用提供了更有效的决策支持。

[68] Questioning the Stability of Visual Question Answering

Amir Rosenfeld,Neta Glazer,Ethan Fetaya

Main category: cs.CV

TL;DR: 本文首次系统研究了视觉语言模型对良性视觉和文本扰动的鲁棒性,发现即使是最先进的模型也对微小变化高度敏感,稳定性是预测正确性的强指标。

  • Motivation: 视觉语言模型在微小但语义保持的输入变化下的可靠性尚未被充分理解,需要系统性评估其鲁棒性。
  • Method: 使用像素级偏移、几何变换、缩放填充、文本改写和多语言重写等良性扰动,在多种模型和数据集上进行大规模测试。
  • Result: 现代VLM对微小扰动高度敏感,即使GPT-4o、Gemini 2.0 Flash等最先进模型也经常在几个像素偏移或无害改写下失败;稳定样本的正确率显著更高。
  • Conclusion: 当前VLM存在基本脆弱性,需要超越对抗性扰动的鲁棒性评估,关注模型应可靠保持的不变性。

[69] One-to-N Backdoor Attack in 3D Point Cloud via Spherical Trigger

Dongmei Shan,Wei Lian,Chongxia Wang

Main category: cs.CV

TL;DR: 提出了首个3D视觉中的一对多后门攻击框架,使用可配置的球形触发器,允许单个触发器设计编码多个目标类别。

  • Motivation: 现有的3D点云后门攻击局限于刚性的一对一范式,无法应对多目标威胁,而3D领域如自动驾驶和机器人对安全性要求极高。
  • Method: 基于新颖的可配置球形触发器,利用球体的空间特性作为参数空间,使单个触发器能够编码多个目标类别,建立了3D一对多后门攻击的理论基础。
  • Result: 在多个数据集和模型架构上系统验证了该方法的有效性,攻击成功率高达100%,同时保持了对干净数据的准确性。
  • Conclusion: 这项工作为3D视觉中的多目标威胁建立了关键基准,为保护未来3D驱动的智能系统提供了基础理解。

[70] MAFM^3: Modular Adaptation of Foundation Models for Multi-Modal Medical AI

Mohammad Areeb Qazi,Munachiso S Nwadike,Ibrahim Almakky,Mohammad Yaqub,Numan Saeed

Main category: cs.CV

TL;DR: 提出了MAFM^3框架,通过轻量级模块化组件让单个基础模型能够扩展到不同医学影像领域、任务和模态,实现高效的多任务多模态适应。

  • Motivation: 医学影像领域数据稀缺,为每个领域、模态或任务单独预训练模型不现实,需要一种统一且可扩展的适应框架。
  • Method: 使用轻量级模块化组件作为专门技能集,根据输入类型或临床目标灵活激活相应能力,实现多任务多模态适应。
  • Result: 将胸部CT基础模型扩展到预后和分割模块,两个任务性能均有提升;整合PET扫描后,Dice分数比基线提高了5%。
  • Conclusion: 配备模块化组件的基础模型不受初始训练范围限制,可以发展为医学影像的多任务多模态系统。

[71] RealisticDreamer: Guidance Score Distillation for Few-shot Gaussian Splatting

Ruocheng Wu,Haolan He,Yufei Wang,Zhihao Li,Bihan Wen

Main category: cs.CV

TL;DR: 提出GSD框架,利用预训练视频扩散模型的多视图一致性先验来指导3D高斯泼溅在稀疏训练视图下的优化,解决过拟合问题

  • Motivation: 3D高斯泼溅在稀疏训练视图下容易过拟合,缺乏中间视图监督,需要利用视频扩散模型的丰富多视图一致性先验
  • Method: 基于分数蒸馏采样,引入统一指导形式,结合深度扭曲指导和语义图像特征指导,修正视频扩散模型的噪声预测结果
  • Result: 在多个数据集上优于现有方法
  • Conclusion: GSD框架有效利用视频扩散模型的先验知识,改善了稀疏视图下3D高斯泼溅的表示质量

[72] Positional Bias in Multimodal Embedding Models: Do They Favor the Beginning, the Middle, or the End?

Kebin Wu,Fatima Albreiki

Main category: cs.CV

TL;DR: 本文研究了多模态表示模型中的位置偏差问题,发现文本编码器倾向于输入开始位置,图像编码器在开始和结束位置都有偏差,这种偏差由位置编码方案、训练损失等因素共同导致。

  • Motivation: 位置偏差(模型过度关注某些位置而忽略内容)已被证明会影响模型性能,但现有研究主要关注文本生成模型,对表示模型特别是多模态模型中的位置偏差研究不足。
  • Method: 在图像-文本检索任务中区分上下文重要性和位置偏差,评估不同模型和数据集中的位置偏差存在程度和表现形式。
  • Result: 实验表明位置偏差在多模态模型中普遍存在,但不同模态表现不同:文本编码器偏向输入开始位置,图像编码器在开始和结束位置都有偏差。
  • Conclusion: 多模态模型中的位置偏差由位置编码方案、训练损失、上下文重要性以及图像-文本对的使用性质等多种因素共同导致或放大。

[73] 3D Gaussian and Diffusion-Based Gaze Redirection

Abiram Panchalingam,Indu Bodala,Stuart Middleton

Main category: cs.CV

TL;DR: DiT-Gaze是一个基于扩散变换器的高保真视线重定向框架,通过弱监督和正交约束损失提升3D视线重定向模型的性能,在感知质量和重定向精度上达到新的最优水平。

  • Motivation: 现有3D高斯泼溅模型在渲染细微连续视线变化时存在困难,需要更高保真度的视线重定向方法来生成增强数据以提升视线估计器的泛化能力。
  • Method: 结合扩散变换器(DiT)、跨视线角度的弱监督策略和正交约束损失。DiT实现高保真图像合成,弱监督使用合成生成的中间视线角度提供平滑的视线方向流形,正交约束损失数学上强制视线、头部姿态和表情的内部表示解耦。
  • Result: DiT-Gaze在感知质量和重定向精度上都达到了新的最优水平,将当前最优视线误差降低了4.1%至6.353度,为创建合成训练数据提供了更优越的方法。
  • Conclusion: DiT-Gaze通过创新的DiT、弱监督和正交约束损失组合,显著提升了视线重定向的保真度和准确性,为视线估计研究提供了更好的合成数据生成工具。

[74] DoReMi: A Domain-Representation Mixture Framework for Generalizable 3D Understanding

Mingwei Xing,Xinliang Wang,Yifeng Shi

Main category: cs.CV

TL;DR: DoReMi是一个混合专家框架,通过联合建模领域感知专家分支和统一表示分支,解决多源点云异构性导致的负迁移问题,在多个3D理解基准上取得优异性能。

  • Motivation: 解决3D深度学习在多领域泛化的局限性,现有数据集规模有限且多源点云存在密度和噪声分布的显著差异,导致多领域融合时出现负迁移问题。
  • Method: 提出DoReMi框架:1) 领域感知专家分支通过领域引导空间路由动态激活;2) 统一表示分支通过多属性自监督学习预训练;3) 使用熵控制动态分配实现稳定高效的专家利用。
  • Result: 在ScanNet Val上达到80.1% mIoU,在S3DIS上达到77.2% mIoU,相比现有方法具有竞争力或更优性能。
  • Conclusion: DoReMi展示了作为未来3D理解研究基础框架的强大潜力,能够自适应建模不同领域分布,同时保持跨领域几何和结构先验。

[75] Parameter-Efficient MoE LoRA for Few-Shot Multi-Style Editing

Cong Cao,Yujie Xu,Xiaodong Xu

Main category: cs.CV

TL;DR: 提出一个少样本风格编辑框架,通过MoE LoRA和路由机制实现多风格联合微调,在有限配对数据下有效适应新风格。

  • Motivation: 通用图像编辑模型在面对新风格时往往表现不佳,需要解决如何用少量配对数据有效微调模型适应新风格的问题。
  • Method: 构建多风格基准数据集,提出参数高效的MoE LoRA方法,包含风格特定和风格共享路由机制,通过度量引导方法自动确定各层最优秩,并在DiT模型中优化LoRA插入位置,集成对抗学习和流匹配指导扩散训练。
  • Result: 实验结果表明,该方法在显著减少LoRA参数的情况下,优于现有最先进方法。
  • Conclusion: 所提出的少样本风格编辑框架能够有效适应新风格,在参数效率和性能方面都表现出色。

[76] Beyond Flatlands: Unlocking Spatial Intelligence by Decoupling 3D Reasoning from Numerical Regression

Zhongbin Guo,Jiahe Liu,Yushan Li,Wenyu Gao,Zhen Yang,Chenzhi Li,Xinyue Zhang,Ping Jian

Main category: cs.CV

TL;DR: GEODE是一个解决视觉语言模型3D空间理解瓶颈的新架构,通过解耦3D推理和数值生成,使用两个专用模块实现高效的空间推理。

  • Motivation: 现有视觉语言模型在理解真实世界3D空间智能方面存在根本性困难,主要由于输入阶段的几何感知编码器计算成本高与2D特征冲突,以及输出阶段离散分词器无法生成精确连续数值的双重瓶颈。
  • Method: 引入GEODE架构,包含两个即插即用模块:解耦推理模块(DRM)作为空间协处理器,通过交叉注意力对齐3D数据和2D视觉特征,并将空间思维链逻辑蒸馏为可注入的推理令牌;直接回归头(DRH)采用"嵌入即值"范式,将专用控制令牌路由到轻量级MLP进行精确连续回归。
  • Result: 1.5B参数的模型能够作为高级语义分发器,在空间推理性能上达到最先进水平,可与7B+模型相媲美。
  • Conclusion: GEODE通过解耦3D推理和数值生成的双模块架构,成功解决了视觉语言模型在3D空间理解方面的双重瓶颈问题。

[77] Arcee: Differentiable Recurrent State Chain for Generative Vision Modeling with Mamba SSMs

Jitesh Chavan,Rohit Lal,Anand Kamat,Mengjia Xu

Main category: cs.CV

TL;DR: Arcee提出了一种跨块循环状态链,通过重用每个块的终端状态空间表示作为下一块的初始条件,改进了Mamba模型在视觉任务中的性能,显著降低了FID指标。

  • Motivation: 传统的Mamba模型在选择性扫描操作中,每个块都会从零重新初始化状态空间动态,丢弃了前一个块的终端状态空间表示,这限制了跨块信息的有效传递。
  • Method: Arcee构建了一个可微分的边界映射,将每个块的终端状态空间表示作为下一块的初始条件,实现了跨块的梯度流动,且与现有视觉Mamba变体兼容且参数免费。
  • Result: 在CelebA-HQ(256×256)的无条件生成任务中,Arcee将FID从82.81降低到15.33(降低了5.4倍),显著提升了生成质量。
  • Conclusion: 终端状态空间表示作为因果传递的温和方向性先验,而非非顺序信号本身的估计器,通过Arcee的跨块状态重用机制,能有效提升视觉Mamba模型的性能。

[78] Toward Gaze Target Detection of Young Autistic Children

Shijian Deng,Erin E. Kosloski,Siva Sai Nagender Vasireddy,Jia Li,Randi Sierra Sherwood,Feroz Mohamed Hatha,Siddhi Patel,Pamela R Rollins,Yapeng Tian

Main category: cs.CV

TL;DR: 提出了一种用于自闭症儿童注视目标检测的新AI框架SACF,通过社交感知的粗到细方法解决数据集类别不平衡问题,在首个自闭症注视目标数据集上实现了最先进性能。

  • Motivation: 自闭症儿童缺乏足够的专业医疗资源,通过AI自动检测注视目标可以改善他们的生活质量,特别是测量联合注意力这一自闭症核心挑战。
  • Method: 提出社交感知粗到细(SACF)框架,采用双路径架构,分别处理社交和非社交注视,通过上下文感知门模块指导,克服自闭症数据集中常见的类别不平衡问题。
  • Result: 在首个自闭症注视目标数据集(AGT)上,该框架实现了最先进性能,显著优于现有方法,特别是在关键的少数类别——面部注视检测上表现突出。
  • Conclusion: 该研究为自闭症儿童的注视目标检测提供了有效的AI解决方案,通过利用社交上下文信息成功解决了数据不平衡问题,为自动化联合注意力测量系统奠定了基础。

[79] CountSteer: Steering Attention for Object Counting in Diffusion Models

Hyemin Boo,Hyoryung Kim,Myungjin Lee,Seunghyeon Lee,Jiyoung Lee,Jang-Hwan Choi,Hyunsoo Cho

Main category: cs.CV

TL;DR: CountSteer是一种无需训练的方法,通过引导扩散模型的交叉注意力隐藏状态来改进文本到图像生成中的对象计数准确性,提高约4%的计数准确率而不影响视觉质量。

  • Motivation: 文本到图像扩散模型虽然能生成逼真连贯的图像,但往往无法准确遵循文本中的数字指令,这揭示了语言与视觉表示之间的差距。研究发现模型内部实际上对数字有隐式认知,能够感知自身计数准确性。
  • Method: 基于模型内部对数字正确性的潜在认知,提出CountSteer方法,在推理过程中引导模型的交叉注意力隐藏状态,无需额外训练即可改进对象计数生成。
  • Result: 实验表明CountSteer将对象计数准确率提高了约4%,同时保持了图像的视觉质量。
  • Conclusion: CountSteer为更可控和语义可靠的文本到图像生成提供了一种简单而有效的解决方案,利用模型已有的数值正确性认知来指导生成过程。

[80] Discovering Meaningful Units with Visually Grounded Semantics from Image Captions

Melika Behjati,James Henderson

Main category: cs.CV

TL;DR: 提出了一种通过分组caption tokens来获取细粒度视觉语言表示的方法,将语言表示与图像中的对象级别对齐,从而提升视觉语言模型的细粒度理解能力。

  • Motivation: 现有方法主要将图像块与语言token对齐,但图像块对人类无意义,单个token也不一定携带可接地的信息。需要将token分组来描述场景的不同方面,以获得更好的细粒度知识理解。
  • Method: 提出一种模型,在架构中分组caption tokens以捕获语言的细粒度表示,并将这些表示与经过训练发现对象的图像编码器输出对齐。
  • Result: 通过学习token分组,视觉语言模型在视觉和语言理解方面具有更好的细粒度理解能力,发现的token组与文本中的可接地短语高度相似。
  • Conclusion: 通过分组caption tokens并与对象级别表示对齐,可以有效提升视觉语言模型的细粒度理解能力,且发现的token组具有良好的可解释性。

[81] GraphPilot: Grounded Scene Graph Conditioning for Language-Based Autonomous Driving

Fabian Schmidt,Markus Enzweiler,Abhinav Valada

Main category: cs.CV

TL;DR: 提出了一种模型无关的方法,通过交通场景图来增强基于语言的驾驶模型,显著提升了自动驾驶性能。

  • Motivation: 现有的视觉语言模型在自动驾驶规划中缺乏对空间结构和动态交互关系的显式监督,限制了它们从原始传感器数据中推断交通实体间相互影响的能力。
  • Method: 将不同抽象层次和格式的场景图序列化,并通过结构化提示模板将其整合到模型中,系统分析关系监督何时以及如何最有效。
  • Result: 在LangAuto基准测试中,场景图条件化使最先进方法的驾驶性能大幅提升,LMDrive驾驶分数提高15.6%,BEVDriver提高17.5%。
  • Conclusion: 即使测试时不需要场景图输入,模型也能通过场景图条件化训练更好地内化和基础关系先验知识。

[82] Φeat: Physically-Grounded Feature Representation

Giuseppe Vecchio,Adrien Kaiser,Rouffet Romain,Rosalie Martin,Elena Garces,Tamy Boubekeur

Main category: cs.CV

TL;DR: Φeat是一个基于物理的视觉骨干网络,通过自监督预训练学习对材料身份敏感的表示,分离高级语义与低级物理因素(几何和光照)。

  • Motivation: 当前自监督特征将高级语义与低级物理因素(几何、光照)纠缠在一起,阻碍了需要显式物理推理的任务。
  • Method: 采用对比预训练策略,对比同一材料在不同形状和光照条件下的空间裁剪和物理增强,无需显式标签。
  • Result: Φeat学习到的表示在特征相似性分析和材料选择任务中表现出色,能够捕捉超越语义分组的物理基础结构。
  • Conclusion: 无监督物理特征学习有望成为视觉和图形学中物理感知感知的基础。

[83] Coordinative Learning with Ordinal and Relational Priors for Volumetric Medical Image Segmentation

Haoyi Wang

Main category: cs.CV

TL;DR: 提出了CORAL方法,通过协调学习局部和全局解剖结构来解决体积医学图像分割中的标注稀缺问题,在有限标注设置下达到最先进性能。

  • Motivation: 现有方法使用硬二进制阈值定义正负样本,丢弃了连续的解剖相似性信息,且忽略了全局解剖进展的方向一致性,导致特征空间扭曲无法捕捉跨患者的规范解剖流形。
  • Method: CORAL采用对比排序目标利用连续解剖相似性,确保切片间特征距离与解剖位置差异成比例;同时引入序数目标强制全局方向一致性,使学习特征分布与跨患者的规范解剖进展对齐。
  • Result: 在基准数据集上,CORAL在有限标注设置下实现了最先进的性能,同时学习到了具有有意义解剖结构的表示。
  • Conclusion: 通过学习切片间关系,CORAL产生了解剖学知情的表示,有利于下游分割任务,代码已开源。

[84] D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Amplitude and Pixel Spaces

Ruoqi Wang,Haitao Wang,Shaojie Guo,Qiong Luo

Main category: cs.CV

TL;DR: D-GAP是一种在幅度空间和像素空间进行针对性增强的数据无关方法,通过频率敏感度映射和像素级混合来提升模型的域外鲁棒性。

  • Motivation: 解决现实计算机视觉应用中域外鲁棒性挑战,传统增强方法在域偏移下效果不一致,且神经网络存在对域特定频率成分的学习偏差。
  • Method: 在幅度空间计算任务梯度的敏感度映射,自适应插值源样本和目标样本的幅度,同时在像素空间进行互补混合以恢复空间细节。
  • Result: 在四个真实世界数据集和三个域适应基准测试中,D-GAP始终优于通用和数据集特定增强方法,平均域外性能分别提升+5.3%和+1.8%。
  • Conclusion: D-GAP通过频率和像素空间的协同增强,有效缓解了神经网络对域特定频率的学习偏差,显著提升了域外鲁棒性。

[85] RTGaze: Real-Time 3D-Aware Gaze Redirection from a Single Image

Hengfei Wang,Zhongqun Zhang,Yihua Cheng,Hyung Jin Chang

Main category: cs.CV

TL;DR: RTGaze是一种实时高质量视线重定向方法,通过可控制的视线表示学习和神经渲染,在保持3D一致性的同时实现800倍加速

  • Motivation: 现有视线重定向方法在3D一致性、效率或质量方面存在不足,限制了实际应用
  • Method: 学习基于视线提示的可控面部表示,通过神经渲染解码,并从预训练的3D肖像生成器中提取面部几何先验
  • Result: 在多个数据集上实现最先进的效率、重定向准确性和图像质量,达到实时处理速度(约0.06秒/图像)
  • Conclusion: RTGaze实现了实时、3D感知的视线重定向,比现有3D感知方法快800倍

[86] SimuFreeMark: A Noise-Simulation-Free Robust Watermarking Against Image Editing

Yichao Tang,Mingyang Li,Di Miao,Sheng Li,Zhenxing Qian,Xinpeng Zhang

Main category: cs.CV

TL;DR: 提出SimuFreeMark框架,一种无需噪声模拟的水印方法,利用图像低频分量的稳定性来抵抗各种攻击。

  • Motivation: 现有基于深度学习的水印方法依赖手工噪声模拟层,限制了其对未知失真的泛化能力。
  • Method: 通过预训练的变分自编码器(VAE)将水印直接嵌入到低频分量的深度特征空间中,利用低频分量的固有稳定性。
  • Result: 在广泛的传统和语义攻击下,SimuFreeMark优于现有最先进方法,同时保持优异的视觉质量。
  • Conclusion: SimuFreeMark通过消除训练中的噪声模拟需求,提供了一种更通用和鲁棒的水印解决方案。

[87] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

Haokun Chen,Jianing Li,Yao Zhang,Jinhe Bi,Yan Xia,Jindong Gu,Volker Tresp

Main category: cs.CV

TL;DR: AUVIC是一个针对多模态大语言模型的视觉概念遗忘框架,通过对抗性扰动实现精确的目标概念移除,同时保持相关实体的性能。

  • Motivation: 多模态大语言模型训练数据常包含敏感或受版权保护内容,需要满足'被遗忘权'法规要求,而视觉概念遗忘在MLLMs中研究不足。
  • Method: AUVIC框架应用对抗性扰动来实现精确遗忘,有效隔离目标概念而不影响相似实体。
  • Result: 实验结果显示AUVIC实现了最先进的目标遗忘率,同时对非目标概念的性能影响最小。
  • Conclusion: AUVIC为MLLMs中的视觉概念遗忘提供了有效解决方案,在VCUBench基准测试中表现优异。

[88] 6D Strawberry Pose Estimation: Real-time and Edge AI Solutions Using Purely Synthetic Training Data

Saptarshi Neil Sinha,Julius Kühn,Mika Silvan Goschke,Michael Weinmann

Main category: cs.CV

TL;DR: 本文提出了一种基于纯合成数据的草莓6D姿态估计方法,使用YOLOX-6D-Pose算法和Blender程序化流水线生成逼真合成数据,在RTX 3090和Jetson Orin Nano上均取得良好性能,特别适合农业机器人部署。

  • Motivation: 解决先进经济体水果采摘面临的高成本和季节性劳动力短缺问题,通过自动化技术实现选择性水果收获。
  • Method: 使用YOLOX-6D-Pose单次检测算法,通过Blender程序化流水线生成逼真合成草莓数据进行训练,增强数据真实感以支持姿态估计算法。
  • Result: 在RTX 3090和Jetson Orin Nano上均达到可比精度,RTX 3090处理速度更快,Jetson Orin Nano适合资源受限环境。模型能准确估计成熟和部分成熟草莓姿态,但对未成熟草莓检测存在挑战。
  • Conclusion: 该方法可轻松扩展到其他水果如苹果、桃子、李子等,在农业自动化领域具有广泛应用前景,未来可通过探索颜色变化来改进未成熟草莓的检测能力。

[89] DocSLM: A Small Vision-Language Model for Long Multimodal Document Understanding

Tanveer Hannan,Dimitrios Mallios,Parth Pathak,Faegheh Sardari,Thomas Seidl,Gedas Bertasius,Mohsen Fayyaz,Sunando Sengupta

Main category: cs.CV

TL;DR: DocSLM是一个高效的小型视觉语言模型,专为内存受限的边缘设备上的长文档理解而设计,通过分层多模态压缩器和流式弃权机制,在显著减少资源消耗的同时保持高性能。

  • Motivation: 大型视觉语言模型在长文档理解方面表现出色,但内存占用过高,无法在资源受限的边缘设备上部署。
  • Method: 采用分层多模态压缩器联合编码每页的视觉、文本和布局信息为固定长度序列,并引入基于熵的流式弃权机制进行顺序处理。
  • Result: 在多个长多模态文档基准测试中,DocSLM匹配或超越最先进方法,同时减少82%视觉token、75%参数和71%延迟。
  • Conclusion: DocSLM能够在轻量级边缘设备上提供可靠的多模态文档理解,解决了资源受限环境下的部署挑战。

[90] YCB-Ev SD: Synthetic event-vision dataset for 6DoF object pose estimation

Pavel Rojtberg,Julius Kühn

Main category: cs.CV

TL;DR: YCB-Ev SD是一个用于6DoF物体姿态估计的标准分辨率事件相机合成数据集,包含50,000个事件序列,采用基于物理的渲染和线性相机运动模拟生成。

  • Motivation: 填补事件视觉领域缺乏全面合成数据资源的空白,为6DoF物体姿态估计提供标准化的基准数据集。
  • Method: 使用基于物理的渲染(PBR)场景和YCB-Video物体,遵循BOP方法学,通过模拟线性相机运动生成合成事件数据,系统评估不同事件表示方法。
  • Result: 线性衰减时间表面和双通道极性编码在CNN推理中表现最佳,显著优于指数衰减和单通道替代方案,极性信息对性能提升贡献最大。
  • Conclusion: YCB-Ev SD数据集为事件视觉研究提供了标准化的基准资源,线性时间编码和极性信息是提升姿态估计性能的关键因素。

[91] Free3D: 3D Human Motion Emerges from Single-View 2D Supervision

Sheng Liu,Yuanzhi Liang,Sidan Du

Main category: cs.CV

TL;DR: Free3D是一个无需3D运动标注的3D人体运动生成框架,通过2D运动序列映射到3D一致潜在空间,并利用3D无关正则化目标实现鲁棒泛化。

  • Motivation: 现有3D人体运动生成模型虽然重建精度高,但难以泛化到训练分布之外,这源于精确3D监督使模型过度拟合固定坐标模式而非学习本质的3D结构和运动语义线索。
  • Method: 提出Motion-Lifting Residual Quantized VAE (ML-RQ)将2D运动序列映射到3D一致潜在空间,并设计了一套3D无关正则化目标,包括视角一致性、方向连贯性和物理合理性约束。
  • Result: 仅使用2D运动数据训练,Free3D能生成多样化、时间连贯且语义对齐的3D运动,性能达到甚至超过完全3D监督的模型。
  • Conclusion: 放松显式3D监督能促进更强的结构推理和泛化能力,为3D运动生成提供了可扩展且数据高效的范式。

[92] Unsupervised Segmentation of Micro-CT Scans of Polyurethane Structures By Combining Hidden-Markov-Random Fields and a U-Net

Julian Grolig,Lars Griem,Michael Selzer,Hans-Ulrich Kauczor,Simon M. F. Triphan,Britta Nestler,Arnd Koeppe

Main category: cs.CV

TL;DR: 提出了一种结合隐马尔可夫随机场(HMRF)理论和CNN分割的方法,实现了无监督学习和快速分割,在PU泡沫μCT图像数据集上取得了高精度分割效果,并提出预训练策略减少标注数据需求。

  • Motivation: 从图像中提取数字材料表示是定量分析材料特性的必要前提。传统分割方法在精度或速度上存在不足,监督CNN需要大量标注数据,而无监督方法分割时间长且精度较差。
  • Method: 将HMRF理论与CNN分割相结合,研究不同邻域项和组件对无监督HMRF损失的贡献,使用HMRF-UNet在PU泡沫μCT图像上进行分割。
  • Result: HMRF-UNet在无需真实标注的情况下实现了高分割精度,提出的预训练策略显著减少了训练分割模型所需的标注数据量。
  • Conclusion: 该方法成功结合了HMRF和CNN的优势,实现了无监督学习和快速分割,为材料图像分割提供了有效解决方案。

[93] Disentangling Emotional Bases and Transient Fluctuations: A Low-Rank Sparse Decomposition Approach for Video Affective Analysis

Feng-Qi Cui,Jinyang Huang,Ziyu Jia,Xinyu Li,Xin Yan,Xiaokang Zhou,Meng Wang

Main category: cs.CV

TL;DR: 提出LSEF框架,通过低秩稀疏原理分层解耦情感动态,包含稳定性编码、动态解耦和一致性集成三个模块,显著提升视频情感计算的鲁棒性和动态判别能力。

  • Motivation: 视频情感计算面临模型不稳定和表征退化问题,核心限制是缺乏分层结构机制来解耦不同的情感组件(情感基调和瞬时波动)。
  • Method: 提出低秩稀疏情感理解框架(LSEF),包含三个即插即用模块:稳定性编码模块捕获低秩情感基调,动态解耦模块分离稀疏瞬时信号,一致性集成模块重建多尺度稳定性与反应性一致性,采用秩感知优化策略自适应平衡梯度平滑性和敏感性。
  • Result: 在多个数据集上的广泛实验证实,LSEF显著增强了鲁棒性和动态判别能力。
  • Conclusion: 分层低秩稀疏建模对于理解情感动态具有有效性和通用性。

[94] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

Manyu Li,Ruian He,Chenxi Ma,Weimin Tan,Bo Yan

Main category: cs.CV

TL;DR: 提出了MicroVQA++,一个三阶段构建的大规模高质量显微镜视觉问答数据集,通过专家验证、图结构过滤和人工筛选确保数据质量,使小规模MLLM在显微镜推理任务上达到与大模型竞争的性能。

  • Motivation: 解决生物医学成像中多模态大语言模型面临的大规模高质量训练数据稀缺问题,特别是显微镜图像的科学推理任务。
  • Method: 三阶段构建方法:1) 从同行评审文章中获取专家验证的图-标题对;2) 使用HiCQA-Graph(融合NLI文本蕴含、CLIP视觉语言对齐和智能体信号的异构图)过滤不一致样本;3) 用MLLM生成多选题并通过人工筛选。
  • Result: 构建了包含大规模训练集和人工检查测试集的数据集,其Bloom认知水平难度分布超过MicroVQA基准,使4B参数的MLLM在显微镜推理任务上达到与GPT-5竞争的性能,并在开源MLLM中达到最先进水平。
  • Conclusion: 通过精心设计的数据构建方法,小规模MLLM能够在专业领域任务上达到与大模型竞争的性能,证明了高质量数据对模型性能的重要性。

[95] Q-Doc: Benchmarking Document Image Quality Assessment Capabilities in Multi-modal Large Language Models

Jiaxi Huang,Dongxu Wu,Hanwei Zhu,Lingyu Zhu,Jun Xing,Xu Wang,Baoliang Chen

Main category: cs.CV

TL;DR: 提出了Q-Doc框架,系统评估多模态大语言模型在文档图像质量评估中的能力,发现现有模型存在评分不一致、失真识别错误等问题,但思维链提示能显著提升性能。

  • Motivation: 多模态大语言模型在文档图像质量评估方面的潜力尚未充分探索,需要系统评估其在此任务上的能力。
  • Method: 提出三层次评估框架:粗粒度质量评分、中粒度失真类型识别、细粒度失真强度分类,并使用思维链提示增强性能。
  • Result: 评估显示MLLMs具备初步DIQA能力,但存在评分不一致、失真误识别和强度误判等关键限制,思维链提示能显著提升所有层次的性能。
  • Conclusion: 为MLLMs的DIQA能力提供了基准测试,揭示了其在质量感知方面的明显缺陷,并指出了改进的可行路径。

[96] BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning

Lan Li,Tao Hu,Da-Wei Zhou,Han-Jia Ye,De-Chuan Zhan

Main category: cs.CV

TL;DR: BOFA是一个用于类增量学习的框架,通过仅调整CLIP的跨模态桥接层,无需额外参数即可实现稳定知识积累,并利用正交低秩融合防止遗忘。

  • Motivation: 解决CLIP在类增量学习中的两个主要挑战:避免增加模型复杂度和遗忘,以及更有效地整合视觉和文本模态的互补优势。
  • Method: 在CLIP的桥接层进行正交低秩融合,将参数更新限制在与过去任务特征正交的低秩安全子空间中,并采用跨模态混合原型方法。
  • Result: 在标准基准测试中,BOFA相比现有方法实现了更高的准确率和效率。
  • Conclusion: BOFA通过仅调整现有桥接层和正交融合机制,在无需数据重放的情况下实现了稳定高效的类增量学习。

[97] Shrinking the Teacher: An Adaptive Teaching Paradigm for Asymmetric EEG-Vision Alignment

Lukun Wu,Jie Li,Ziqi Ren,Kaifan Zhang,Xinbo Gao

Main category: cs.CV

TL;DR: 提出自适应教学范式来解决视觉-EEG不对称对齐问题,通过让视觉模态动态调整其知识结构来匹配EEG模态的能力,在零样本脑到图像检索任务上达到60.2%的top-1准确率。

  • Motivation: 视觉和脑电信号之间存在根本的不对称性,包括保真度差距(EEG噪声大vs视觉特征高保真)和语义差距(EEG概念表示浅vs视觉语义丰富)。现有方法忽视这种不对称性,导致泛化能力差。
  • Method: 提出自适应教学范式,让教师模态(视觉)在任务指导下动态收缩和调整知识结构,使用ShrinkAdapter模块实现,该模块具有无残差设计和瓶颈结构。
  • Result: 在零样本脑到图像检索任务上达到60.2%的top-1准确率,比之前的最优方法提升了9.8%。
  • Conclusion: 为不对称对齐提供了新视角:教师必须收缩和适应来弥合视觉-脑电差距。

[98] Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs

Francisco Nogueira,Alexandre Bernardino,Bruno Martins

Main category: cs.CV

TL;DR: 构建了一个涵盖10种语言的多语言指代表达理解数据集,并提出了一种基于注意力锚定的神经网络架构,在多语言REC任务中取得了有竞争力的性能。

  • Motivation: 解决当前指代表达理解研究主要集中于英语的问题,满足全球化部署需求,推动多语言视觉定位系统的发展。
  • Method: 通过机器翻译和基于上下文的翻译增强,将12个现有英语REC基准扩展到多语言;提出使用多语言SigLIP2编码器的注意力锚定架构,从注意力分布生成粗空间锚点并通过学习残差进行精炼。
  • Result: 构建了包含约800万条多语言指代表达、177,620张图像和336,882个标注对象的数据集;在RefCOCO多语言评估中达到86.9%的IoU@50准确率,相比英语单语言的91.3%表现具有竞争力。
  • Conclusion: 多语言评估显示模型在不同语言间具有一致的能力,证明了多语言视觉定位系统的实际可行性。

[99] WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

Wei Chow,Jiachun Pan,Yongyuan Liang,Mingze Zhou,Xue Song,Liyu Jia,Saining Zhang,Siliang Tang,Juncheng Li,Fengda Zhang,Weijia Wu,Hanwang Zhang,Tat-Seng Chua

Main category: cs.CV

TL;DR: WEAVE是首个用于上下文交织跨模态理解和生成的套件,包含WEAVE-100k大规模数据集和WEAVEBench人工标注基准,旨在解决现有方法在多轮、上下文感知图像生成和编辑方面的局限性。

  • Motivation: 现有数据集和基准主要关注单轮交互,无法捕捉真实世界图像创建和编辑的多轮、上下文依赖特性,需要填补这一空白。
  • Method: 构建了包含100K交织样本的WEAVE-100k数据集和基于480张图像100个任务的WEAVEBench基准,采用混合VLM评判器评估框架评估模型在多轮生成、视觉记忆和世界知识推理方面的能力。
  • Result: 在WEAVE-100k上训练能够提升视觉理解、图像编辑和理解-生成协作能力,促进UMMs发展出新兴的视觉记忆能力,但WEAVEBench评估揭示了当前方法在多轮上下文感知图像生成和编辑方面的持续局限性。
  • Conclusion: WEAVE为多模态社区研究上下文交织理解和生成提供了视角和基础,有助于推动多轮、上下文感知图像生成和编辑技术的发展。

[100] The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Maria-Teresa De Rosa Palmini,Eva Cetinic

Main category: cs.CV

TL;DR: 本文提出了一个评估框架来区分文本到图像扩散模型中的文化参考识别与实现,通过量化指标分析模型如何复制或重新诠释多模态图标性,发现模型价值不仅在于复制文化知识,更在于其转化和重新语境化的能力。

  • Motivation: 解决文本到图像扩散模型中泛化与记忆之间的模糊性,特别关注多模态图标性现象——即图像和文本唤起文化共享关联的情况,如标题唤起熟悉艺术品或电影场景。
  • Method: 引入评估框架分离识别(模型是否识别参考)与实现(如何通过复制或重新诠释描绘参考),使用Wikidata衍生的767个文化参考评估五个扩散模型,并进行提示扰动实验分析语言敏感性。
  • Result: 框架比现有基于相似性的方法更有效地区分复制与转化;模型即使文本线索改变也经常复制标志性视觉结构;文化对齐不仅与训练数据频率相关,还与文本独特性、参考流行度和创建日期相关。
  • Conclusion: 扩散模型的价值不仅在于复制文化知识,更在于其转化和重新语境化的能力,推动评估超越简单的文本-图像匹配,实现更丰富的语境理解。

[101] Hi-DREAM: Brain Inspired Hierarchical Diffusion for fMRI Reconstruction via ROI Encoder and visuAl Mapping

Guowei Zhang,Yun Zhao,Moein Khajehnejad,Adeel Razi,Levin Kuhlmann

Main category: cs.CV

TL;DR: Hi-DREAM是一个受大脑启发的条件扩散框架,通过将fMRI信号按视觉皮层层次结构分组并转化为多尺度皮层金字塔,在图像重建中实现更好的语义理解和功能解释性。

  • Motivation: 当前基于扩散的脑活动解码器大多直接基于fMRI特征,忽略了大脑的层次处理结构和不同视觉区域的功能分工,导致重建图像质量受限且缺乏解释性。
  • Method: 使用ROI适配器将fMRI信号分为早期/中期/晚期视觉流,转化为与U-Net深度对齐的多尺度皮层金字塔;通过轻量级深度匹配的ControlNet在去噪过程中注入尺度特定的提示信息。
  • Result: 在自然场景数据集(NSD)上,Hi-DREAM在高层次语义指标上达到最先进性能,同时保持竞争力的低层次保真度。
  • Conclusion: 基于皮层层次结构组织条件信息是纯数据驱动嵌入的强大替代方案,为研究视觉皮层提供了有用的视角。

[102] VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models

Mingjie Xu,Jinpeng Chen,Yuzhi Zhao,Jason Chun Lok Li,Yue Qiu,Zekang Du,Mengyang Wu,Pingping Zhang,Kun Li,Hongzheng Yang,Wenao Ma,Jiaheng Wei,Qinbin Li,Kangcheng Liu,Wenqiang Lei

Main category: cs.CV

TL;DR: VP-Bench是一个评估多模态大语言模型理解和利用视觉提示能力的基准,包含感知和下游任务两个阶段,测试了28个模型在8种形状和355种属性组合下的表现。

  • Motivation: 现有基准缺乏对MLLMs理解视觉提示能力的系统评估,而视觉提示是人类自然使用的直观提示方法,需要明确当前模型是否能有效识别和利用这些提示。
  • Method: 采用两阶段评估框架:第一阶段测试模型在自然场景中感知视觉提示的能力,使用30k个可视化提示;第二阶段评估视觉提示对下游任务的影响。
  • Result: 评估了28个MLLMs(包括GPT-4o、InternVL3、Qwen2.5-VL等),分析了影响视觉提示理解的因素,如属性变化、问题安排和模型规模。
  • Conclusion: VP-Bench为研究MLLMs如何理解和解决基于视觉提示的引用问题建立了新的参考框架。

[103] From Synthetic Scenes to Real Performance: Enhancing Spatial Reasoning in VLMs

Massimo Rizzoli,Simone Alghisi,Seyed Mahed Mousavi,Giuseppe Riccardi

Main category: cs.CV

TL;DR: 本文提出了一种通过控制合成数据生成来解决视觉语言模型微调中偏差、分布不平衡和标注错误问题的方法,显著提升了在真实数据上的性能表现。

  • Motivation: 传统视觉语言模型微调过程容易受到数据偏差、分布不平衡和标注错误的影响,导致过拟合和不平衡的性能表现。
  • Method: 重新设计微调过程:1)控制生成数据和标注,确保无偏差、分布平衡且无标注错误;2)自动构建数据集,全面采样对象属性(颜色、形状、大小、位置);3)使用该数据集微调最先进的视觉语言模型。
  • Result: 实验表明:1)在平衡合成数据上微调能在视觉场景中产生均匀性能并减轻常见偏差;2)在合成刺激上微调显著提升了在真实数据(COCO)上的性能,优于匹配设置下微调的模型。
  • Conclusion: 通过控制合成数据生成的方法可以有效解决视觉语言模型微调中的偏差问题,并显著提升模型在真实世界数据上的泛化能力。

[104] VoxTell: Free-Text Promptable Universal 3D Medical Image Segmentation

Maximilian Rokuss,Moritz Langenberg,Yannick Kirchhoff,Fabian Isensee,Benjamin Hamm,Constantin Ulrich,Sebastian Regnery,Lukas Bauer,Efthimios Katsigiannopulos,Tobias Norajitra,Klaus Maier-Hein

Main category: cs.CV

TL;DR: VoxTell是一个用于文本提示的3D医学图像分割的视觉语言模型,能够将自由形式的文本描述映射到3D分割掩码,在多种模态上实现最先进的零样本性能。

  • Motivation: 开发一个能够理解自由形式文本描述(从单词到完整临床句子)并执行3D医学图像分割的模型,以解决传统分割方法在灵活性和泛化能力方面的限制。
  • Method: 使用多阶段视觉语言融合在解码器层中,在多个尺度上对齐文本和视觉特征,在62K+ CT、MRI和PET体积数据上训练,涵盖1000多个解剖和病理类别。
  • Result: 在未见数据集上实现最先进的零样本性能,在熟悉概念上表现出色,同时能够泛化到相关的未见类别,展示出强大的跨模态迁移能力和对语言变化的鲁棒性。
  • Conclusion: VoxTell证明了视觉语言模型在3D医学图像分割中的有效性,能够处理真实世界的文本描述并实现准确的实例特定分割,为临床应用提供了灵活的解决方案。

[105] Rethinking Efficient Mixture-of-Experts for Remote Sensing Modality-Missing Classification

Qinghao Gao,Jianhai Qu,Yunsong Li,Weiqiang Dong

Main category: cs.CV

TL;DR: 提出MaMOL框架,将模态缺失问题重新定义为多任务学习问题,通过双路由机制实现参数高效的自适应,在遥感多模态分类中表现出优异的鲁棒性和泛化能力。

  • Motivation: 遥感多模态分类常因环境干扰、传感器故障或大气效应导致模态缺失,严重影响分类性能。现有两阶段自适应方法计算成本高且假设训练时具有完整多模态数据,限制了其在真实世界不完整性场景中的泛化能力。
  • Method: 提出Missing-aware Mixture-of-Loras (MaMOL)框架,引入双路由机制:任务导向的动态路由器自适应激活不同缺失模式的专家,模态特定-共享的静态路由器维持稳定的跨模态知识共享。通过轻量级专家更新和共享专家重用实现参数高效自适应。
  • Result: 在多个遥感基准测试中表现出优异的鲁棒性和泛化能力,在不同缺失率下均能保持良好性能,且计算开销最小。在自然图像数据集上的迁移实验验证了其可扩展性和跨领域适用性。
  • Conclusion: MaMOL是不完整多模态学习的一个通用且高效的解决方案,能够有效处理现实世界中的模态缺失问题。

[106] Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents

Davide Napolitano,Luca Cagliero,Fabrizio Battiloro

Main category: cs.CV

TL;DR: 提出了VRD-UQA基准,用于评估视觉大语言模型在视觉丰富文档中检测不可回答问题的能力,通过自动修改现有VQA数据集的问题来测试模型对看似合理但无法回答问题的识别能力。

  • Motivation: 虽然VLLMs在多页视觉丰富文档的视觉问答方面表现出色,但它们在检测不可回答问题方面的能力仍然是一个开放的研究问题。本研究旨在探索VLLMs对看似合理但无法回答问题的鲁棒性。
  • Method: 通过替换原始自然语言实体为同类型但属于不同文档元素、不同布局位置或不同页面的实体,生成看似合理但无法回答的问题。使用VLLM作为评判者验证问题的不可回答性,并在12个模型上进行多维度实验分析。
  • Result: 实验揭示了VLLMs在检测不可回答问题方面的局限性,特别是在页面和文档级别的准确性、不同类型破坏(NLP实体、文档元素、布局)的影响,以及不同知识注入策略的有效性方面。
  • Conclusion: VRD-UQA可以作为开发弹性文档VQA系统的评估框架,帮助识别和解决VLLMs在处理不可回答问题时的弱点。

[107] Sat2RealCity: Geometry-Aware and Appearance-Controllable 3D Urban Generation from Satellite Imagery

Yijie Kang,Xinliang Wang,Zhenyu Wu,Yifeng Shi,Hailong Zhu

Main category: cs.CV

TL;DR: Sat2RealCity是一个从真实卫星图像生成3D城市的框架,通过基于OSM的空间先验、外观引导控制和MLLM语义引导,解决了现有方法对大规模3D城市资产和语义/高度图的依赖问题。

  • Motivation: 现有3D城市生成方法面临两个主要挑战:需要大规模3D城市资产进行监督训练,以及依赖语义或高度图导致生成结果缺乏真实世界外观连接,限制了真实性和泛化能力。
  • Method: 1) 引入基于OSM的空间先验策略,从空间拓扑到建筑实例实现可解释的几何生成;2) 设计外观引导的可控建模机制,实现细粒度外观真实性和风格控制;3) 构建MLLM驱动的语义引导生成流程,桥接语义解释和几何重建。
  • Result: 广泛的定量和定性实验表明,Sat2RealCity在结构一致性和外观真实性方面显著超越现有基线方法。
  • Conclusion: Sat2RealCity为真实世界对齐的3D城市内容创建奠定了坚实基础,代码即将发布。

[108] ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation

Kaishen Wang,Ruibo Chen,Tong Zheng,Heng Huang

Main category: cs.CV

TL;DR: ImAgent是一个无需训练的统一多模态代理,通过集成推理、生成和自我评估,在单一框架内实现高效的测试时扩展,提升图像生成的质量和语义对齐。

  • Motivation: 现有文本到图像模型在生成图像时存在随机性和与提示不一致的问题,特别是在文本描述模糊或未明确指定时。现有方法如提示重写、最佳N采样和自我精炼通常需要额外模块且独立运行,限制了测试时扩展效率并增加了计算开销。
  • Method: ImAgent是一个无需训练的统一多模态代理,通过策略控制器引导多个生成动作动态交互和自组织,增强图像保真度和语义对齐,不依赖外部模型。
  • Result: 在图像生成和编辑任务上的广泛实验表明,ImAgent持续改进基础模型性能,甚至在基础模型失败的情况下超越其他强基线方法。
  • Conclusion: 统一多模态代理在测试时扩展下具有自适应和高效图像生成的潜力。

[109] Multimodal Posterior Sampling-based Uncertainty in PD-L1 Segmentation from H&E Images

Roman Kinakh,Gonzalo R. Ríos-Muñoz,Arrate Muñoz-Barrutia

Main category: cs.CV

TL;DR: nnUNet-B是一个贝叶斯分割框架,通过多模态后验采样直接从H&E染色组织学图像推断PD-L1表达,提供准确分割和不确定性估计

  • Motivation: 当前基于免疫组化的PD-L1表达评估方法资源密集,需要更高效、可扩展的解决方案
  • Method: 基于nnUNet-v2构建,在循环训练期间采样不同模型检查点来近似后验分布,通过熵和标准差进行不确定性估计
  • Result: 在肺鳞状细胞癌数据集上,平均Dice分数0.805,平均IoU 0.709,性能与现有基线相当,并提供像素级不确定性图谱
  • Conclusion: 基于H&E的不确定性感知PD-L1预测是迈向临床工作流程中可扩展、可解释生物标志物评估的有前景的一步

[110] PAS : Prelim Attention Score for Detecting Object Hallucinations in Large Vision--Language Models

Nhat Hoang-Xuan,Minh Vu,My T. Thai,Manish Bhattarai

Main category: cs.CV

TL;DR: 提出Prelim Attention Score (PAS)方法,利用注意力权重检测大型视觉语言模型中的物体幻觉问题,无需额外训练即可实时检测和干预。

  • Motivation: 大型视觉语言模型存在物体幻觉问题,研究发现模型在产生幻觉预测时会忽略图像信息,转而依赖先前生成的prelim tokens来推断新物体。
  • Method: 基于互信息分析发现弱图像依赖与幻觉强相关,提出PAS信号,通过计算prelim tokens上的注意力权重来检测幻觉,无需额外前向传播。
  • Result: PAS在多个模型和数据集上实现了最先进的物体幻觉检测性能,支持实时过滤和干预。
  • Conclusion: PAS是一种轻量级、无需训练的方法,能有效利用先前被忽视的注意力信号来检测和缓解LVLM中的物体幻觉问题。

[111] OpenUS: A Fully Open-Source Foundation Model for Ultrasound Image Analysis via Self-Adaptive Masked Contrastive Learning

Xiaoyu Zheng,Xu Chen,Awais Rauf,Qifan Fu,Benedetta Monosi,Felice Rivellese,Myles J. Lewis,Shaogang Gong,Gregory Slabaugh

Main category: cs.CV

TL;DR: OpenUS是首个基于大规模公共数据的可复现开源超声基础模型,采用视觉Mamba架构和自适应掩码框架,在308K+超声图像上预训练,支持标签高效的下游任务微调。

  • Motivation: 超声图像解释高度依赖操作者,且因解剖区域、采集协议和设备类型而异,加上斑点噪声、低对比度和标准化标注有限等挑战,阻碍了通用化、标签高效的超声AI模型发展。
  • Method: 使用视觉Mamba骨干网络捕捉局部和全局长程依赖;提出自适应掩码框架,结合对比学习和掩码图像建模,集成教师注意力图和学生重建损失;采用动态学习进度表;在42个公共数据集的308K+图像上预训练。
  • Result: 开发了最大的公共超声数据集,覆盖多种解剖区域、机构、成像设备和疾病类型;预训练模型可作为标签高效微调的骨干网络。
  • Conclusion: OpenUS为超声AI提供了首个可复现的开源基础模型,通过创新的自适应掩码和动态学习策略,有效解决了超声图像分析的挑战,支持下游任务的标签高效适应。

[112] CVChess: A Deep Learning Framework for Converting Chessboard Images to Forsyth-Edwards Notation

Luthira Abeykoon,Ved Patel,Gawthaman Senthilvelan,Darshan Kasundra

Main category: cs.CV

TL;DR: CVChess是一个深度学习框架,可将棋盘图像转换为Forsyth-Edwards Notation (FEN),然后输入在线象棋引擎为用户提供最佳下一步走法。

  • Motivation: 疫情期间在线象棋观看人数激增,但实体象棋游戏缺乏相应的辅助工具,导致模拟和数字象棋体验之间存在鸿沟。
  • Method: 使用带有残差层的卷积神经网络(CNN)进行棋子识别,包括图像预处理(霍夫线变换边缘检测)、投影变换获得俯视视角、分割为64个方格、使用残差CNN将棋子分类为13类(6种白棋、6种黑棋和空方格)。
  • Result: 在包含10,800张智能手机图像的Chess Recognition Dataset (ChessReD)上进行训练和评估,残差连接有助于保留低层视觉特征同时进行深层特征提取,提高了训练准确性和稳定性。
  • Conclusion: 该系统能够将物理棋盘图像转换为FEN字符串,然后输入象棋引擎生成最优走法,弥合了实体和数字象棋体验之间的差距。

[113] Bridging Hidden States in Vision-Language Models

Benjamin Fein-Ashley,Jacob Fein-Ashley

Main category: cs.CV

TL;DR: BRIDGE提出了一种轻量级的视觉语言模型融合模块,通过在编码器顶部添加少量跨模态双向注意力层来对齐视觉和文本隐藏状态,实现了高效的跨模态理解。

  • Motivation: 现有视觉语言模型要么在编码器早期融合特征,要么在后期比较池化嵌入,但两种模态的隐藏状态已经包含丰富的模态特定结构,直接对齐这些状态是更自然的方式。
  • Method: 在视觉和文本编码器顶部添加少量仅跨模态的双向注意力层,将隐藏状态投影到共享空间,进行跨模态注意力计算,并通过门控残差更新返回,使用简单稳定器改善对齐效果。
  • Result: 在标准检索、VQA和视觉推理基准测试中,BRIDGE优于可比较的视觉语言模型,同时保持了对比模型的双编码器效率。
  • Conclusion: BRIDGE提供了一种有效的视觉语言对齐方法,编码器保持非因果性和强理解能力,生成通过可选解码器清晰解耦,实现了性能与效率的平衡。

[114] DocLens : A Tool-Augmented Multi-Agent Framework for Long Visual Document Understanding

Dawei Zhu,Rui Meng,Jiefeng Chen,Sujian Li,Tomas Pfister,Jinsung Yoon

Main category: cs.CV

TL;DR: DocLens是一个工具增强的多智能体框架,通过"放大"证据来解决长视觉文档理解中的证据定位挑战,在MMLongBench-Doc和FinRAGBench-V上达到最先进性能。

  • Motivation: 现有方法在长视觉文档理解中存在根本挑战:证据定位困难,难以检索相关页面并忽略视觉元素中的细粒度细节,导致性能有限和模型幻觉。
  • Method: 提出DocLens工具增强多智能体框架,首先从完整文档导航到相关页面上的特定视觉元素,然后采用采样-裁决机制生成单一可靠答案。
  • Result: 与Gemini-2.5-Pro配对,DocLens在MMLongBench-Doc和FinRAGBench-V上达到最先进性能,甚至超越人类专家,在视觉中心和不可回答查询上表现尤为突出。
  • Conclusion: DocLens通过增强的定位能力展示了其优势,特别是在视觉中心和不可回答查询方面,证明了其强大的证据定位能力。

[115] LARM: A Large Articulated-Object Reconstruction Model

Sylvia Yuan,Ruoxi Shi,Xinyue Wei,Xiaoshuai Zhang,Hao Su,Minghua Liu

Main category: cs.CV

TL;DR: LARM是一个统一的feedforward框架,从稀疏视角图像重建3D关节物体,联合恢复详细几何、真实纹理和准确关节结构,无需密集监督即可生成高质量网格。

  • Motivation: 现有优化方法需要密集多视角输入和昂贵的逐实例优化,限制了可扩展性;而前馈方法通常产生粗糙几何、缺乏纹理重建且依赖复杂多阶段流程。
  • Method: 将LVSM扩展到关节设置,使用基于transformer的架构联合推理相机姿态和关节变化,生成深度图和部件掩码以辅助3D网格提取和关节估计。
  • Result: 在多个物体类别上实现高保真重建,在新视角和状态合成以及3D关节物体重建方面优于最先进方法,生成与输入图像紧密贴合的高质量网格。
  • Conclusion: LARM提供了一种可扩展且准确的3D关节物体重建解决方案,消除了对密集监督的需求,支持跨多样物体类别的高质量重建。

physics.optics

[116] Deep Learning-Enhanced Analysis for Delineating Anticoagulant Essay Efficacy Using Phase Microscopy

S. Shrivastava,M. Rathor,D. Yenurkar,S. K. Chaubey,S. Mukherjee,R. K. Singh

Main category: physics.optics

TL;DR: 开发了一种基于数字全息显微镜和深度学习的无标记、非侵入式框架,用于评估体外抗凝剂效果,比较了传统EDTA和新型KFeOx-NPs抗凝剂对血液细胞形态的影响。

  • Motivation: 血液离体后凝固会严重影响血液学分析的准确性,导致检测结果不可靠和细胞特性改变,需要开发可靠的抗凝剂效果评估方法。
  • Method: 构建了数字全息显微镜结合自动图像处理和深度学习管道的系统,对使用EDTA和KFeOx-NPs两种抗凝剂处理的人血样本进行形态学分析,实现细胞自动高通量筛选和凝血率估计。
  • Result: KFeOx-NPs能够防止人血凝固且不改变红细胞形态,而EDTA在6小时孵育内就引起了显著变化。系统可通过评估细胞聚集和形态等参数定量分析凝血动力学。
  • Conclusion: 该框架为体外抗凝剂比较效果和作用提供了定量分析工具,KFeOx-NPs在保持细胞形态方面优于传统EDTA抗凝剂。

cs.RO

[117] Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Nikolaos Tsagkas,Andreas Sochopoulos,Duolikun Danier,Sethu Vijayakumar,Alexandros Kouris,Oisin Mac Aodha,Chris Xiaoxuan Lu

Main category: cs.RO

TL;DR: 提出了Attentive Feature Aggregation (AFA),一种轻量级的可训练池化机制,通过学习关注任务相关的视觉线索来提升预训练视觉表示在视觉扰动场景下的鲁棒性。

  • Motivation: 预训练视觉表示虽然强大,但会编码大量与任务无关的场景信息,使得训练出的视觉运动策略在面对域外视觉变化和干扰物时缺乏鲁棒性。
  • Method: 通过AFA机制,学习自然关注任务相关的视觉线索,忽略语义丰富的场景干扰物,无需昂贵的数据集增强或PVR微调。
  • Result: 在仿真和真实世界的广泛实验中,使用AFA训练的策略在视觉扰动存在时显著优于标准池化方法。
  • Conclusion: 忽略无关视觉信息是部署鲁棒且可泛化的视觉运动策略的关键步骤。

[118] Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective

Nhat Chung,Taisei Hanyu,Toan Nguyen,Huy Le,Frederick Bumgarner,Duy Minh Ho Nguyen,Khoa Vo,Kashu Yamazaki,Chase Rainwater,Tung Kieu,Anh Nguyen,Ngan Le

Main category: cs.RO

TL;DR: 提出了LIBERO-Mem任务套件来测试机器人在非马尔可夫环境下的操作能力,并开发了Embodied-SlotSSM框架来解决视觉-语言-动作模型在时间扩展性方面的挑战。

  • Motivation: 在复杂环境中,机器人需要感知、跟踪和推理个体对象实例随时间的变化,特别是在需要与视觉相似对象进行序列交互的任务中。当前模型缺乏对先前交互的持久记忆,导致在非马尔可夫设置中表现不佳。
  • Method: 提出Embodied-SlotSSM框架,采用槽中心方法维护时空一致的槽身份,通过槽状态空间建模重建短期历史,并使用关系编码器对齐输入标记与动作解码。
  • Result: 实验表明Embodied-SlotSSM在LIBERO-Mem和通用任务上取得了基准性能,为非马尔可夫推理提供了可扩展的解决方案。
  • Conclusion: 该工作为解决对象中心机器人策略中的非马尔可夫推理问题提供了一个可扩展的框架,特别适用于需要长期对象跟踪和时间序列子目标的任务。

[119] Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities

Yiyun Zhou,Mingjing Xu,Jingwei Shi,Quanjiang Li,Jingyuan Chen

Main category: cs.RO

TL;DR: 提出了TLV-CoRe方法,基于CLIP的触觉-语言-视觉协同表示学习,通过传感器感知调制器和触觉无关解耦学习统一不同传感器的触觉特征,并引入统一桥接适配器增强三模态交互。

  • Motivation: 现有触觉传感器缺乏标准化,导致冗余特征阻碍跨传感器泛化,且现有方法未能充分整合触觉、语言和视觉模态间的中间通信。
  • Method: TLV-CoRe方法包含传感器感知调制器统一不同传感器触觉特征,触觉无关解耦学习分离无关触觉特征,以及统一桥接适配器增强三模态交互。
  • Result: 实验结果表明TLV-CoRe显著提高了传感器无关表示学习和跨模态对齐性能。
  • Conclusion: 该方法为多模态触觉表示提供了新方向,并提出了RSS评估框架来公平评估触觉模型的鲁棒性、协同性和稳定性。

cs.MM

[120] AccKV: Towards Efficient Audio-Video LLMs Inference via Adaptive-Focusing and Cross-Calibration KV Cache Optimization

Zhonghua Jiang,Kui Chen,Kunxi Li,Keting Yin,Yiyun Zhou,Zhaode Wang,Chengfei Lv,Shengyu Zhang

Main category: cs.MM

TL;DR: AccKV是一个针对音视频大语言模型的高效推理优化框架,通过自适应聚焦和跨模态校准技术来优化KV缓存管理,在保持准确性的同时显著提升计算效率。

  • Motivation: 音视频大语言模型在处理音视频数据时会产生庞大的KV缓存,现有优化策略存在模态注意力分配不合理、信息混淆等问题,导致性能下降。
  • Method: 提出层自适应聚焦技术,根据不同层特性选择性关注关键模态;通过注意力重新分配增强重要token识别;采用跨模态校准技术,先整合模态内低效KV缓存,再让低优先级模态与高优先级模态对齐,选择性淘汰低优先级模态的KV缓存。
  • Result: 实验结果表明AccKV能够显著提升AV-LLMs的计算效率,同时保持准确性。
  • Conclusion: AccKV框架有效解决了音视频大语言模型中的KV缓存优化问题,通过自适应模态聚焦和跨模态校准实现了高效推理。

q-bio.QM

[121] Synergy vs. Noise: Performance-Guided Multimodal Fusion For Biochemical Recurrence-Free Survival in Prostate Cancer

Seth Alain Chang,Muhammad Mueez Amjad,Noorul Wahab,Ethar Alzaid,Nasir Rajpoot,Adam Shephard

Main category: q-bio.QM

TL;DR: 多模态深度学习在计算病理学中表现优异,但研究发现并非所有模态组合都能带来性能提升。只有高性能模态的组合才能优于单模态方法,而加入低性能模态反而会降低预测准确性。

  • Motivation: 检验多模态深度学习的基本假设——即组合多个数据源必然能提高性能。研究者假设多模态增益取决于各模态的预测质量,整合弱模态可能引入噪声而非互补信息。
  • Method: 在前列腺癌数据集上测试,整合组织病理学、放射学和临床数据来预测生化复发时间,比较不同模态组合的性能表现。
  • Result: 证实组合高性能模态能获得优于单模态方法的性能,但将低性能模态与其他高性能模态整合会降低预测准确性。
  • Conclusion: 多模态获益需要基于性能的选择性整合,而非不加区分的模态组合,这对计算病理学和医学影像中的多模态深度学习设计具有重要意义。

cs.IR

[122] MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising

Chenghan Fu,Daoze Zhang,Yukang Lin,Zhanheng Nie,Xiang Zhang,Jianyu Liu,Yueran Liu,Wanxian Guan,Pengjie Wang,Jian Xu,Bo Zheng

Main category: cs.IR

TL;DR: MOON是一个用于电商多模态表示学习的可持续迭代实践框架,已在淘宝搜索广告系统全面部署,在CTR预测任务上实现了20%的在线提升。

  • Motivation: 解决多模态表示学习与下游任务目标之间的不对齐问题,通过定义交换率来量化中间指标改进对下游收益的转化效果。
  • Method: 采用三阶段训练范式:预训练、后训练和应用,重点关注数据处理、训练策略、模型架构和下游应用四个维度的优化。
  • Result: 在CTR预测任务上实现了20%的在线提升,这是过去三年中CTR预测任务的最大改进,并完成了五次全规模迭代。
  • Conclusion: MOON框架成功地将多模态表示学习与下游任务有效集成,通过系统化的迭代优化和缩放规律研究,为电商领域的多模态应用提供了宝贵经验。

eess.IV

[123] DualVision ArthroNav: Investigating Opportunities to Enhance Localization and Reconstruction in Image-based Arthroscopy Navigation via External Cameras

Hongchao Shu,Lalithkumar Seenivasan,Mingxu Liu,Yunseo Hwang,Yu-Chun Ku,Jonathan Knopf,Alejandro Martin-Gomez,Mehran Armand,Mathias Unberath

Main category: eess.IV

TL;DR: 提出了DualVision ArthroNav多摄像头关节镜导航系统,通过整合外部摄像头和关节镜摄像头,解决了传统单目视觉导航的尺度模糊和漂移问题,实现了高精度的轨迹跟踪和场景重建。

  • Motivation: 现有光学跟踪系统对工作空间限制严格且干扰手术流程,而基于视觉的替代方案仅依赖单目关节镜摄像头,容易产生漂移、尺度模糊以及对快速运动或遮挡敏感的问题。
  • Method: 开发了多摄像头关节镜导航系统,将外部摄像头刚性安装在关节镜上。外部摄像头提供稳定的视觉里程计和绝对定位,单目关节镜视频实现密集场景重建,通过互补视图解决单目SLAM的固有缺陷。
  • Result: 系统有效补偿了校准误差,平均绝对轨迹误差为1.09毫米,重建场景的平均目标配准误差为2.16毫米,具有高视觉保真度(SSIM=0.69,PSNR=22.19)。
  • Conclusion: 该系统为关节镜导航提供了实用且经济高效的解决方案,填补了光学跟踪和纯视觉系统之间的空白,为临床可部署的完全基于视觉的关节镜引导铺平了道路。

[124] From Attention to Frequency: Integration of Vision Transformer and FFT-ReLU for Enhanced Image Deblurring

Syed Mumtahin Mahmud,Mahdi Mohd Hossain Noki,Prothito Shovon Majumder,Abdul Mohaimen Al Radi,Md. Haider Ali,Md. Mosaddek Khan

Main category: eess.IV

TL;DR: 提出了一种结合视觉变换器和FFT-ReLU模块的双域架构,通过空间注意力建模和频域稀疏性来提升图像去模糊效果。

  • Motivation: 现有的CNN和ViT方法在处理复杂或高分辨率模糊图像时存在困难,且计算需求大,需要更有效的去模糊方法。
  • Method: 采用双域架构,ViT主干网络捕捉局部和全局依赖关系,FFT-ReLU组件在频域强制稀疏性以抑制模糊伪影并保留细节。
  • Result: 在基准数据集上的实验表明,该架构在PSNR、SSIM和感知质量方面优于现有最先进模型。
  • Conclusion: 建立了一个实用且可推广的真实世界图像恢复范式,通过定量指标、定性比较和人类偏好评估证实了其有效性。

[125] CLIPPan: Adapting CLIP as A Supervisor for Unsupervised Pansharpening

Lihua Jian,Jiabo Liu,Shaowu Wu,Lihui Chen

Main category: eess.IV

TL;DR: 提出CLIPPan无监督全分辨率全色锐化框架,利用CLIP视觉语言模型作为监督器,通过语义语言约束损失实现无地面真值下的全分辨率训练。

  • Motivation: 解决监督式全色锐化神经网络在模拟降分辨率训练数据与真实全分辨率场景之间的域适应问题。
  • Method: 首先轻量级微调CLIP识别多光谱、全色和高分辨率图像,然后构建语义语言约束损失,将图像融合过程与文本提示对齐。
  • Result: 在真实数据集上显著提升光谱和空间保真度,为无监督全分辨率全色锐化设定了新的最佳性能。
  • Conclusion: CLIPPan成功利用语言作为监督信号,无需地面真值即可指导融合学习,有效解决了全色锐化的域适应挑战。

[126] Boosting Neural Video Representation via Online Structural Reparameterization

Ziyi Li,Qingyu Mao,Shuai Liu,Qilei Li,Fanyang Meng,Yongsheng Liang

Main category: eess.IV

TL;DR: 提出Online-RepNeRV框架,通过在线结构重参数化增强神经视频表示能力,在训练时使用多分支结构提升模型容量,训练后转换为单分支结构保持解码效率。

  • Motivation: 现有神经视频表示方法存在模型容量限制导致性能瓶颈,且复杂设计增加计算开销、缺乏框架集成灵活性。
  • Method: 提出通用重参数化块ERB,包含多个并行卷积路径增强模型容量;采用在线重参数化策略在训练时动态融合参数,训练后将多分支结构等价转换为单分支结构。
  • Result: 在主流视频数据集上相比基线方法平均PSNR提升0.37-2.7 dB,同时保持可比训练时间和解码速度。
  • Conclusion: Online-RepNeRV通过在线重参数化有效解决了神经视频表示中的模型容量限制问题,在提升性能的同时不影响解码效率。

[127] Large-scale modality-invariant foundation models for brain MRI analysis: Application to lesion segmentation

Petros Koutsouvelis,Matej Gazda,Leroy Volmer,Sina Amirrajab,Kamil Barbierik,Branislav Setlak,Jakub Gazda,Peter Drotar

Main category: eess.IV

TL;DR: 该研究提出了模态不变表示学习方法,在大规模预训练后评估其在卒中和癫痫病灶分割中的效果。结果表明,尽管实现了跨模态对齐,但病灶分割主要受益于保留细粒度的模态特定特征。

  • Motivation: 计算机视觉领域正转向通过自监督学习进行大规模基础模型预训练。利用大量未标记的脑MRI数据,这些模型可以学习解剖先验知识,提高在多样化神经影像任务中的少样本性能。然而,大多数自监督学习框架是为自然图像设计的,其在捕获多模态MRI信息方面的适应性仍有待探索。
  • Method: 提出了模态不变表示学习设置,并在大规模预训练后评估其在卒中和癫痫病灶分割任务中的有效性。
  • Result: 实验结果表明,尽管成功实现了跨模态对齐,但病灶分割主要受益于保留细粒度的模态特定特征。
  • Conclusion: 模型检查点和代码已公开提供。病灶分割任务更依赖于保留模态特定的细粒度特征,而非完全的模态不变表示。

[128] Unsupervised Motion-Compensated Decomposition for Cardiac MRI Reconstruction via Neural Representation

Xuanyu Tian,Lixuan Chen,Qing Wu,Xiao Wang,Jie Feng,Yuyao Zhang,Hongjiang Wei

Main category: eess.IV

TL;DR: MoCo-INR是一种无监督的心脏磁共振重建方法,结合隐式神经表示和运动补偿框架,能在超高加速因子下实现高质量图像重建和准确的心脏运动分解。

  • Motivation: 当前CMR重建技术要么图像质量不足,要么受限于真实数据稀缺,限制了临床应用。需要开发无需真实数据的高质量重建方法。
  • Method: 将隐式神经表示与运动补偿框架结合,通过显式运动建模和INR的连续先验,提出专门针对CMR问题的新INR网络架构来稳定模型优化。
  • Result: 在回顾性数据集上优于最先进方法,实现快速收敛和精细重建(如VISTA采样20x加速);在真实自由呼吸CMR扫描中验证了临床实用性。
  • Conclusion: MoCo-INR通过运动建模和INR结合,实现了高质量CMR重建,具有临床实用价值,消融研究证实了关键组件的有效性。

cs.CL

[129] Grounded Visual Factualization: Factual Anchor-Based Finetuning for Enhancing MLLM Factual Consistency

Filippo Morbiato,Luca Romano,Alessandro Persona

Main category: cs.CL

TL;DR: 提出了GVF微调方法,通过事实锚数据增强、事实感知指令调整和事实一致性损失函数,系统性地提升多模态大语言模型的视觉事实一致性,显著减少视觉幻觉现象。

  • Motivation: 多模态大语言模型中的视觉幻觉问题严重影响了其可靠性,现有的微调方法改进有限,未能深入干预事实推理过程。
  • Method: GVF微调包含三个核心机制:事实锚数据增强(添加结构化事实锚和反事实提示)、事实感知指令调整(将事实线索嵌入显式指令)、事实一致性损失函数(专门惩罚事实不准确)。
  • Result: 在LLaVA-1.5-13B模型上,GVF微调在VHTest基准测试中显著优于标准微调,在开放式问题和是/否问题格式上都表现出色,同时在MME和POPE等通用多模态基准上保持或略微提升性能。
  • Conclusion: GVF方法有效缓解了视觉幻觉问题,且不损害模型的通用理解和推理能力,为提升多模态模型的事实一致性提供了系统性解决方案。

[130] AV-Dialog: Spoken Dialogue Models with Audio-Visual Input

Tuochao Chen,Bandhav Veluri,Hongyu Gong,Shyamnath Gollakota

Main category: cs.CL

TL;DR: AV-Dialog是首个多模态对话框架,利用音频和视觉线索追踪目标说话者、预测话轮转换并生成连贯响应,在嘈杂环境中优于纯音频模型。

  • Motivation: 解决对话模型在嘈杂多说话者环境中表现不佳的问题,包括产生不相关响应和话轮转换不自然。
  • Method: 结合声学标记化和多任务多阶段训练,在单声道、合成和真实音视频对话数据集上进行训练,实现流式转录、语义基础的话轮边界检测和准确响应。
  • Result: 在干扰条件下优于纯音频模型,减少转录错误,改善话轮转换预测,提升人类评价的对话质量。
  • Conclusion: 视觉和听觉结合对于说话者感知交互具有强大作用,为在真实嘈杂环境中稳健运行的语音对话代理铺平道路。

[131] Enhancing Meme Emotion Understanding with Multi-Level Modality Enhancement and Dual-Stage Modal Fusion

Yi Shi,Wenlong Meng,Zhenyuan Guo,Chengkun Wei,Wenzhi Chen

Main category: cs.CL

TL;DR: MemoDetector是一个用于表情包情感理解(MEU)的新框架,通过四步文本增强模块和双阶段模态融合策略,显著提升了表情包情感分类性能。

  • Motivation: 随着社交媒体和网络文化的兴起,表情包已成为表达情感倾向的流行媒介。现有方法面临两个主要挑战:(1)缺乏细粒度的多模态融合策略;(2)对表情包隐含意义和背景知识的挖掘不足。
  • Method: 提出四步文本增强模块,利用多模态大语言模型(MLLMs)逐步推理和提取表情包的隐含和上下文信息;设计双阶段模态融合策略,第一阶段对原始图像和文本进行浅层融合,第二阶段深度整合增强的视觉和文本特征。
  • Result: 在MET-MEME和MOOD两个数据集上的实验表明,MemoDetector持续优于现有最优方法,在MET-MEME上F1分数提升4.3%,在MOOD上提升3.4%。消融研究和深入分析验证了方法的有效性和鲁棒性。
  • Conclusion: MemoDetector通过文本增强和层次化模态融合,有效解决了表情包情感理解中的关键挑战,展现了推进MEU领域的强大潜力。

cs.LG

[132] LT-Soups: Bridging Head and Tail Classes via Subsampled Model Soups

Masih Aminbeidokhti,Subhankar Roy,Eric Granger,Elisa Ricci,Marco Pedersoli

Main category: cs.LG

TL;DR: 提出LT-Soups框架解决长尾数据集中参数高效微调方法在提升尾部类别性能时牺牲头部类别准确率的问题,通过两阶段模型融合实现更好的性能权衡。

  • Motivation: 现实世界数据集通常呈现长尾分布,现有参数高效微调方法在提升尾部类别性能时会损害头部类别准确率,且头尾比例这一关键因素被忽视。
  • Method: 提出两阶段模型融合框架LT-Soups:第一阶段在平衡子集上微调模型并平均以减少头部类别偏见;第二阶段仅在完整数据集上微调分类器以恢复头部类别准确率。
  • Result: 在六个基准数据集上的实验表明,LT-Soups在广泛的类别不平衡情况下相比参数高效微调和传统模型融合方法实现了更优的性能权衡。
  • Conclusion: LT-Soups框架能够有效处理长尾数据分布中的头尾类别权衡问题,在不同不平衡机制下都表现出色。

[133] From Parameter to Representation: A Closed-Form Approach for Controllable Model Merging

Jialin Wu,Jian Yang,Handing Wang,Jiajun Wen,Zhiyong Yu

Main category: cs.LG

TL;DR: 提出一种基于最优线性变换的模型合并方法,通过直接修正模型最终表示来替代复杂的离线多目标优化,实现线性复杂度的高效Pareto最优模型生成。

  • Motivation: 现有可控模型合并方法采用编译-查询范式,需要昂贵的离线多目标优化,复杂度随任务数量指数增长,限制了实际应用。
  • Method: 将模型修正建模为最优线性变换问题,得到闭式解,用单步架构无关计算替代整个离线优化过程,直接整合用户偏好。
  • Result: 实验结果显示该方法生成更优的Pareto前沿,具有更精确的偏好对齐和显著降低的计算成本。
  • Conclusion: 通过从参数空间优化转向表示空间直接修正,实现了高效、可控的模型合并,复杂度仅随任务数量线性增长。

[134] Unsupervised Robust Domain Adaptation: Paradigm, Theory and Algorithm

Fuxiang Huang,Xiaowei Fu,Shiyu Ye,Lina Ma,Wen Li,Xinbo Gao,David Zhang,Lei Zhang

Main category: cs.LG

TL;DR: 本文提出了无监督鲁棒域适应(URDA)范式,解决了传统UDA方法忽视对抗攻击鲁棒性的问题,并开发了DART算法来实现可迁移性和鲁棒性。

  • Motivation: 传统无监督域适应方法强调迁移能力但忽视对抗攻击鲁棒性,而标准对抗训练在UDA中效果不佳。本文旨在解决UDA+VAT范式中的内在纠缠问题。
  • Method: 提出URDA范式,并开发DART算法:先预训练任意UDA模型,然后通过解纠缠蒸馏进行瞬时鲁棒化后训练步骤。
  • Result: 在四个基准数据集上的实验表明,DART能有效增强鲁棒性同时保持域适应性,验证了URDA范式和理论。
  • Conclusion: 本文首次建立了URDA范式和理论,提出的DART算法简单有效,能同时实现可迁移性和对抗鲁棒性。

[135] Low-Bit, High-Fidelity: Optimal Transport Quantization for Flow Matching

Dara Varam,Diaa A. Abuhani,Imran Zualkernan,Raghad AlDamani,Lujain Khalil

Main category: cs.LG

TL;DR: 本文提出了一种基于最优传输(OT)的流匹配(FM)生成模型后训练量化方法,能够在2-3比特/参数的低精度下保持生成质量,优于均匀、分段和对数量化方案。

  • Motivation: 流匹配生成模型虽然具有高效的无模拟训练和确定性采样优势,但其实际部署受到高精度参数需求的挑战,需要有效的量化方法来压缩模型以适应边缘和嵌入式AI应用。
  • Method: 采用基于最优传输的后训练量化方法,最小化量化权重与原始权重之间的2-Wasserstein距离,并与均匀量化、分段量化和对数量化方案进行系统比较。
  • Result: 在五个复杂度不同的基准数据集上的实验结果表明,OT量化方法在2-3比特/参数的低精度下仍能保持视觉生成质量和潜在空间稳定性,而其他方法在此精度下失效。
  • Conclusion: 基于OT的量化是一种有原则且有效的方法,可用于压缩FM生成模型,适用于边缘和嵌入式AI应用场景。