Skip to content
每日arXiv - 2025年12月18日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] SkyCap: Bitemporal VHR Optical-SAR Quartets for Amplitude Change Detection and Foundation-Model Evaluation

Paul Weinmann,Ferdinand Schenck,Martin Šiklar

Main category: cs.CV

TL;DR: SkyCap数据集通过光学-SAR配准和标签转移,首次评估了基础模型在VHR SAR变化检测上的性能,发现光学模型经过适当预处理后优于SAR专用模型。

  • Motivation: 线性基础设施监测需要可靠的高分辨率数据和定期采集。光学VHR图像易于解释和标注,但受云层影响;SAR可实现全天候采集,但难以标注。需要解决SAR变化检测的标注难题并评估基础模型在该任务上的表现。
  • Method: 构建SkyCap双时相VHR光学-SAR数据集,通过档案匹配和配准SkySat(光学)和Capella Space(SAR)场景。利用光学到SAR的标签转移获得SAR振幅变化检测标签,无需SAR专家标注。在SAR数据上对SARATR-X进行持续预训练,并评估SAR专用基础模型与光学基础模型在不同预处理选择下的性能。
  • Result: 光学基础模型MTP(ViT-B+RVSA)在dB+Z-score预处理下取得最佳结果(F1c = 45.06),优于直接在Capella数据上进一步预训练的SAR专用基础模型。观察到对预处理与预训练统计量对齐的强烈敏感性,光学模型在光学变化检测上的排名不能一对一转移到SAR振幅变化检测。
  • Conclusion: 这是首次在VHR SAR振幅变化检测上评估基础模型的研究。光学基础模型经过适当预处理后可以超越SAR专用模型,但预处理对齐至关重要。光学到SAR的标签转移是有效的标注方法,为SAR变化检测提供了新途径。

[2] SocialNav-MoE: A Mixture-of-Experts Vision Language Model for Socially Compliant Navigation with Reinforcement Fine-Tuning

Tomohito Kawabata,Xinyu Zhang,Ling Xiao

Main category: cs.CV

TL;DR: SocialNav-MoE:一个基于专家混合的小型视觉语言模型,通过强化微调实现社交合规导航,在保持高效的同时提升导航准确率

  • Motivation: 当前机器人导航研究主要关注安全性,而忽视了社交合规性(如人类舒适度、社会规范等)。大型视觉语言模型虽然有望解决此问题,但计算开销大、延迟高,不适合资源受限的机器人平台实时部署。
  • Method: 提出SocialNav-MoE,一个高效的专家混合视觉语言模型,采用强化微调(RFT)进行社交合规导航。引入语义相似度奖励(SSR)来增强决策能力。研究了不同小型语言模型(Phi、Qwen、StableLM)、路由策略和视觉编码器(CLIP vs. SigLIP,冻结 vs. 微调)的效果。
  • Result: 在SNEI数据集上的实验表明,SocialNav-MoE在导航准确性和效率之间取得了良好平衡。提出的SSR函数比硬级别和字符级别奖励更有效。
  • Conclusion: SocialNav-MoE为资源受限的机器人平台提供了一种高效的社交合规导航解决方案,通过小型视觉语言模型和强化微调实现了实时部署的可行性。

[3] The Renaissance of Expert Systems: Optical Recognition of Printed Chinese Jianpu Musical Scores with Lyrics

Fan Bu,Rongfeng Li,Zijin Li,Ya Li,Linfeng Fan,Pei Huang

Main category: cs.CV

TL;DR: 提出一个模块化专家系统管道,将带歌词的印刷简谱转换为机器可读的MusicXML和MIDI格式,无需大量标注训练数据。

  • Motivation: 大规模光学音乐识别研究主要集中于西方五线谱,而中国简谱及其丰富的歌词资源未被充分探索。简谱数字化面临标注数据稀缺的挑战。
  • Method: 采用自上而下的专家系统设计,结合传统计算机视觉技术(如乐句相关性、骨架分析)利用先验知识,同时集成无监督深度学习模块进行图像特征嵌入。这种混合策略在可解释性和准确性之间取得平衡。
  • Result: 在《中国民歌选集》上评估,系统大规模数字化了:(i) 超过5,000首纯旋律歌曲(>30万个音符)和(ii) 超过1,400首带歌词的精选子集(>10万个音符)。系统在旋律识别(音符级F1=0.951)和对齐歌词(字符级F1=0.931)上都实现了高精度识别。
  • Conclusion: 该混合专家系统方法成功解决了简谱数字化问题,在无需大量标注数据的情况下实现了高精度识别,为中文简谱资源的大规模数字化提供了有效解决方案。

[4] AquaDiff: Diffusion-Based Underwater Image Enhancement for Addressing Color Distortion

Afrah Shaahid,Muzammil Behzad

Main category: cs.CV

TL;DR: AquaDiff是一个基于扩散模型的水下图像增强框架,通过颜色补偿策略和条件扩散过程来校正水下图像的颜色失真,同时保持结构和感知保真度。

  • Motivation: 水下图像因波长相关的光吸收和散射而严重退化,导致颜色失真、对比度低和细节丢失,这阻碍了基于视觉的水下应用。现有方法在处理这些挑战方面仍有不足。
  • Method: 提出AquaDiff框架,整合了颜色先验引导的颜色补偿策略和条件扩散过程,使用交叉注意力动态融合退化输入和噪声潜在状态。增强的去噪骨干网络包含残差密集块和多分辨率注意力,同时引入跨域一致性损失来联合强制像素级精度、感知相似性、结构完整性和频域保真度。
  • Result: 在多个具有挑战性的水下基准测试上的广泛实验表明,AquaDiff相比最先进的传统方法、CNN、GAN和扩散方法提供了更好的结果,在不同水下条件下实现了优异的颜色校正和竞争力的整体图像质量。
  • Conclusion: AquaDiff通过创新的扩散框架有效解决了水下图像增强问题,在颜色校正和图像质量方面表现出色,为水下视觉应用提供了可靠的解决方案。

[5] Improving VQA Reliability: A Dual-Assessment Approach with Self-Reflection and Cross-Model Verification

Xixian Wu,Yang Ou,Pengchao Tian,Zian Yang,Jielei Zhang,Peiyi Li,Longwen Gao

Main category: cs.CV

TL;DR: DAVR框架通过自我反思和跨模型验证的双重评估机制,有效降低视觉语言模型在VQA任务中的幻觉问题,提升回答可靠性。

  • Motivation: 视觉语言模型在视觉问答中表现出潜力,但容易产生幻觉导致过度自信的错误答案,严重损害回答可靠性。
  • Method: 提出DAVR框架,采用双路径架构:一条路径通过双选择器模块融合VLM潜在特征和QA嵌入来评估响应可靠性;另一条路径部署外部参考模型进行事实交叉检查以减轻幻觉。
  • Result: 在ICCV-CLVL 2025的Reliable VQA挑战赛中,DAVR获得领先的Φ100分数39.64和100-AUC分数97.22,获得第一名。
  • Conclusion: DAVR框架通过综合不确定性估计有效增强了VLM响应的可信度,为解决VLM幻觉问题提供了有效方案。

[6] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

Dan Ben-Ami,Gabriele Serussi,Kobi Cohen,Chaim Baskin

Main category: cs.CV

TL;DR: HERBench是一个新的视频问答基准测试,专门设计用于评估模型在时间维度上整合多个证据的能力,要求至少聚合三个非重叠的视觉线索,现有视频大语言模型在该基准上表现不佳。

  • Motivation: 当前视频问答基准测试通常允许模型通过单个显著线索回答问题,未能充分测试需要聚合多个时间上分离的视觉证据的推理能力,因此需要一个新的基准来评估多证据整合能力。
  • Method: 创建HERBench基准,包含26K个五选一选择题,组织成12个组合任务,引入最小必需帧集(MRFS)概念来衡量证据需求,评估13个最先进的视频大语言模型。
  • Result: HERBench的平均MRFS为5.5,显著高于先前数据集(2.6-4.2),现有模型表现不佳(准确率31-42%,仅略高于20%随机猜测基线),主要存在检索缺陷和融合缺陷两个瓶颈。
  • Conclusion: HERBench通过使跨时间证据整合成为必要且可量化,为推进稳健、组合式的视频理解建立了原则性目标,揭示了当前视频大语言模型在多证据整合方面的重大缺陷。

[7] Isolated Sign Language Recognition with Segmentation and Pose Estimation

Daniel Perkins,Davis Hunter,Dhrumil Patel,Galen Flanagan

Main category: cs.CV

TL;DR: 该论文提出了一种用于孤立手语识别(ISLR)的高效模型,通过结合姿态估计、信息分割和ResNet-Transformer架构,在降低计算需求的同时保持对用户变异的鲁棒性。

  • Motivation: 大型语言模型在口语和书面语翻译方面取得了进展,但这些技术对依赖复杂视觉线索的美国手语(ASL)用户来说仍然难以访问。孤立手语识别目前面临数据稀缺、用户变异大和计算成本高的挑战。
  • Method: 提出三阶段方法:1)姿态估计管道提取手部和面部关节坐标;2)分割模块隔离相关信息;3)ResNet-Transformer主干网络联合建模空间和时间依赖关系。
  • Result: 该方法在降低计算需求的同时,保持了对用户变异的鲁棒性,为手语识别提供了更高效的解决方案。
  • Conclusion: 该模型为美国手语用户提供了更易访问的技术支持,通过减少计算需求同时保持鲁棒性,有助于缩小手语用户与主流语言技术之间的差距。

[8] Visual-textual Dermatoglyphic Animal Biometrics: A First Case Study on Panthera tigris

Wenshuo Li,Majid Mirmehdi,Tilo Burghardt

Main category: cs.CV

TL;DR: 该论文提出了一种结合皮肤纹理文字描述与图像的老虎重识别方法,通过生成虚拟个体数据增强,显著提升了跨模态检索性能。

  • Motivation: 传统AI动物重识别主要依赖图像,但存在局限性。生物学中常结合视觉和文字描述进行重识别,而法医学中使用的皮肤纹理描述方法在生态学中尚未应用。研究者希望开发一种结合视觉和文字描述的方法,提高重识别准确性和可解释性。
  • Method: 1. 引入皮肤纹理文字描述作为新的重识别方法,使用人类可解释的语言标签编码动物皮毛拓扑结构;2. 收集84,264个手动标注的细节特征,覆盖3,355张185只老虎的图像;3. 开发文本-图像协同合成管道,生成包含数十张逼真图像和皮肤纹理文字的"虚拟个体";4. 在真实场景中评估该视觉-文本方法。
  • Result: 1. 皮肤纹理语言引导的生物识别方法能够克服纯视觉方法的局限性;2. 数据增强显著提升了AI在跨模态检索中的准确性;3. 实现了基于人类可验证匹配的文字到视觉身份恢复;4. 展示了跨模态身份检索的新能力。
  • Conclusion: 皮肤纹理语言引导的生物识别代表了重识别可解释性的重要进展,实现了生态监测中描述模态的语言驱动统一。该方法为动物重识别提供了更可靠、可解释的解决方案。

[9] Vibe Spaces for Creatively Connecting and Expressing Visual Concepts

Huzheng Yang,Katherine Xu,Andrew Lu,Michael D. Grossberg,Yutong Bai,Jianbo Shi

Main category: cs.CV

TL;DR: Vibe Blending任务通过Vibe Space分层图流形在特征空间中学习低维测地线,实现概念间的平滑语义过渡,生成比现有方法更具创造性和连贯性的视觉概念混合体。

  • Motivation: 创建新视觉概念需要连接不同想法间的相关共享属性(vibe),但现有方法难以识别和遍历潜在空间中连接远距离概念的非线性路径。
  • Method: 提出Vibe Space分层图流形,在CLIP等特征空间中学习低维测地线,实现概念间的平滑语义一致过渡;设计结合人类判断、LLM推理和几何路径难度分数的认知启发评估框架。
  • Result: Vibe Space生成的混合体在人类评估中比现有方法获得更高的创造性和连贯性评分。
  • Conclusion: Vibe Space通过分层图流形有效解决了视觉概念混合中的非线性路径问题,能够生成更具创造性和语义一致性的概念混合体。

[10] PANDA-PLUS-Bench: A Clinical Benchmark for Evaluating Robustness of AI Foundation Models in Prostate Cancer Diagnosis

Joshua L. Ebbert,Dennis Della Corte

Main category: cs.CV

TL;DR: 该研究提出了PANDA-PLUS-Bench基准数据集,用于评估前列腺癌Gleason分级AI模型区分生物学特征与切片特异性伪影的能力,发现组织特异性训练能提升模型鲁棒性。

  • Motivation: 当前AI基础模型在前列腺癌Gleason分级中可能学习到切片特异性伪影而非可泛化的生物学特征,这限制了其临床实用性,需要专门的评估方法来量化这一失败模式。
  • Method: 构建了PANDA-PLUS-Bench基准数据集,包含9个不同患者的全切片图像,提取非重叠组织块,在两种分辨率下进行八种增强。使用该基准评估了7个基础模型区分生物学信号与切片级混杂因素的能力。
  • Result: 模型间鲁棒性差异显著:Virchow2切片级编码最低但跨切片准确率第二低;HistoEncoder(前列腺组织特异性训练)跨切片准确率最高且切片级编码最强。所有模型都存在切片内与跨切片准确率差距(19.9-26.9个百分点)。
  • Conclusion: 组织特异性训练能同时提升生物学特征捕获和切片特异性特征识别能力。PANDA-PLUS-Bench为Gleason分级这一重要临床场景中的基础模型鲁棒性评估提供了专门资源。

[11] Improving Pre-trained Segmentation Models using Post-Processing

Abhijeet Parida,Daniel Capellán-Martín,Zhifan Jiang,Nishad Kulkarni,Krithika Iyer,Austin Tapp,Syed Muhammad Anwar,María J. Ledesma-Carbayo,Marius George Linguraru

Main category: cs.CV

TL;DR: 该论文提出自适应后处理技术来改进预训练大模型对胶质瘤分割的质量,在BraTS 2025挑战赛中显著提升了分割性能,同时强调计算公平性和可持续性。

  • Motivation: 胶质瘤是最常见的恶性脑肿瘤,生存率低。虽然深度学习模型改进了自动分割,但大规模预训练模型泛化能力差,存在假阳性、标签交换、切片不连续等系统错误,且计算资源不平等和环境成本问题日益突出。
  • Method: 提出自适应后处理技术来精炼大规模预训练模型生成的胶质瘤分割结果,而不是设计更复杂的模型架构。该方法针对不同肿瘤类型的预训练模型输出进行优化。
  • Result: 在BraTS 2025分割挑战赛的多个任务中验证了方法有效性:撒哈拉以南非洲挑战赛的排名指标提升了14.9%,成人胶质瘤挑战赛提升了0.9%。
  • Conclusion: 该方法推动了脑肿瘤分割研究从复杂模型架构转向高效、临床对齐的后处理策略,实现了精确、计算公平且可持续的分割解决方案。

[12] TalkVerse: Democratizing Minute-Long Audio-Driven Video Generation

Zhenzhi Wang,Jian Wang,Ke Ma,Dahua Lin,Bing Zhou

Main category: cs.CV

TL;DR: TalkVerse是一个大规模开放语料库,用于单人口型视频生成,包含230万高清音频-视频同步片段,总时长6300小时。基于该数据集,作者构建了一个可复现的50亿参数DiT基线模型,能够生成长达一分钟的视频,推理成本降低10倍,并支持零样本视频配音。

  • Motivation: 当前最先进的音频驱动说话视频生成系统依赖于封闭数据或计算密集型模型,缺乏公平、可复现的比较基准。为了降低研究门槛并促进该领域的发展,需要构建一个大规模、高质量的开放数据集。
  • Method: 1) 构建TalkVerse数据集:从6万小时视频中通过场景切割检测、美学评估、严格的音视频同步检查等透明流程,筛选出230万高清同步片段;2) 基于Wan2.2-5B构建可复现的50亿参数DiT基线模型,采用高下采样比的视频VAE和带运动帧上下文的滑动窗口机制;3) 集成MLLM导演根据音频和视觉线索重写提示词,增强长视频叙事;4) 通过受控潜在噪声注入实现零样本视频配音。
  • Result: 1) 发布了包含230万高清音频-视频同步片段(总时长6300小时)的TalkVerse数据集;2) 提出的50亿参数模型能够生成长达一分钟的视频,漂移较小;3) 在唇部同步和视觉质量上与140亿参数的Wan-S2V模型相当,但推理成本降低10倍;4) 支持零样本视频配音;5) 开源了数据集、训练方案和50亿参数检查点。
  • Conclusion: TalkVerse为音频驱动的人类视频生成研究提供了一个大规模、高质量的开放基准,显著降低了研究门槛。提出的50亿参数模型在保持高质量的同时大幅降低了计算成本,并展示了在长视频生成和零样本视频配音方面的能力,推动了该领域的可复现研究。

[13] Puzzle Curriculum GRPO for Vision-Centric Reasoning

Ahmadreza Jeddi,Hakki Can Karaimer,Hue Nguyen,Zhongling Wang,Ke Zhao,Javad Rajabi,Ran Zhang,Raghav Goyal,Babak Taati,Radek Grzeszczuk

Main category: cs.CV

TL;DR: PC-GRPO是一种无需监督的强化学习方法,通过自监督拼图环境和难度感知课程来增强视觉语言模型的推理能力,无需标注或外部验证器。

  • Motivation: 现有强化学习方法存在三个主要问题:依赖昂贵且嘈杂的人工标注或外部验证器;GRPO中的奖励方案平坦且稀疏;推理链与最终答案之间存在逻辑不一致性。
  • Method: 提出PC-GRPO方法,包含三个自监督拼图环境(PatchFit、Rotation、Jigsaw),采用难度感知课程动态加权样本,并监控推理-答案一致性(RAC)。
  • Result: 在Qwen-7B和Qwen-3B骨干网络上,PC-GRPO提高了推理质量、训练稳定性和下游任务准确率,RAC与下游准确率相关。
  • Conclusion: PC-GRPO为视觉语言模型提供了一条可扩展、可验证、可解释的强化学习后训练实用路径。

[14] Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities

Aref Farhadipour,Teodora Vukovic,Volker Dellwo,Petr Motlicek,Srikanth Madikeri

Main category: cs.CV

TL;DR: 提出一个三模态(语音、面部、手势)人物识别框架,通过多任务学习、跨注意力门控融合和置信度加权融合机制,在模态缺失或质量不佳时仍保持高精度。

  • Motivation: 现实世界中人物识别系统常面临模态缺失或质量下降的问题,现有方法对此不够鲁棒。需要开发一个能够整合多种模态并在模态缺失时仍能有效工作的识别框架。
  • Method: 采用多任务学习独立处理每个模态,然后通过跨注意力和门控融合机制促进模态间交互。使用置信度加权融合策略动态适应缺失和低质量数据,确保在单模态或双模态场景下的最优分类。
  • Result: 在CANDOR数据集上达到99.18%的Top-1准确率,优于传统单模态和后期融合方法。在VoxCeleb1数据集的双模态模式下达到99.92%准确率。系统在一个或两个模态缺失时仍保持高精度。
  • Conclusion: 提出的三模态框架在模态完整和缺失情况下都表现出色,为现实世界人物识别应用提供了鲁棒解决方案。代码和数据已公开。

[15] Where is the Watermark? Interpretable Watermark Detection at the Block Level

Maria Bulychev,Neil G. Marchant,Benjamin I. P. Rubinstein

Main category: cs.CV

TL;DR: 提出一种后处理图像水印方法,结合局部嵌入与区域级可解释性,在离散小波变换域嵌入水印,生成检测图显示水印区域,实现强鲁棒性与高不可感知性。

  • Motivation: 当前生成式AI创建的高度逼真数字内容引发真实性、所有权和滥用担忧。现有图像水印方案多为黑盒,仅提供全局检测分数,缺乏透明度影响用户信任且难以解释篡改影响。
  • Method: 在离散小波变换域使用统计块级策略嵌入水印信号,结合局部嵌入与区域级可解释性,生成检测图显示图像中可能被水印或篡改的区域。
  • Result: 方法对常见图像变换具有强鲁棒性,同时对语义操作保持敏感性,水印高度不可感知。相比先前后处理方法,提供更可解释的检测同时保持竞争性鲁棒性,例如水印对裁剪至图像一半保持鲁棒。
  • Conclusion: 提出了一种透明、可解释的图像水印方法,通过局部化嵌入和区域级检测提高了水印系统的可信度和实用性,在保持鲁棒性的同时增强了可解释性。

[16] Beyond Proximity: A Keypoint-Trajectory Framework for Classifying Affiliative and Agonistic Social Networks in Dairy Cattle

Sibi Parivendan,Kashfia Sailunaz,Suresh Neethirajan

Main category: cs.CV

TL;DR: 提出基于姿态的计算框架,通过解剖关键点的时空几何建模来区分亲和与攻击性行为,超越传统静态接近阈值方法

  • Motivation: 精准畜牧业需要客观评估社会行为以监测群体福利,但现有方法使用静态接近阈值无法在复杂畜舍环境中区分亲和与攻击性行为,限制了自动化社交网络分析的可解释性
  • Method: 提出姿态计算框架,集成YOLOv11目标检测、监督个体识别、ByteTrack多目标跟踪、ZebraPose 27点解剖关键点估计,以及基于姿态距离动态的支持向量机分类器
  • Result: 在商业奶牛场标注的交互片段上,仅使用姿态信息的分类器达到77.51%的准确率区分亲和与攻击性行为,相比仅基于接近度的基线方法有显著提升
  • Conclusion: 该框架为构建交互感知社交网络的自动化视觉推理提供了概念验证,在商用硬件上实现近实时性能,显著提升了行为区分能力

[17] Evaluating the Capability of Video Question Generation for Expert Knowledge Elicitation

Huaying Zhang,Atsushi Hashimoto,Tosho Hirasawa

Main category: cs.CV

TL;DR: 该研究提出了一种评估视频问题生成模型质量的新协议,通过模拟与专家的问答交流来评估问题在激发专家未见知识方面的能力,并构建了EgoExoAsk数据集进行验证。

  • Motivation: 现有视频问题生成评估主要关注问题能否被回答,而非问题本身的质量。本研究关注如何评估问题在激发专家未见知识方面的质量,这对于从专家那里提取有价值信息至关重要。
  • Method: 提出一个评估协议,通过问题到答案检索来模拟与专家的问答交流。构建EgoExoAsk数据集(27,666个QA对),使用训练集获得检索器,在验证集上构建基准测试。
  • Result: 实验结果表明,该评估指标与问题生成设置合理对齐:能够访问更丰富上下文的模型获得更好评估,证明协议按预期工作。
  • Conclusion: 该研究为视频问题生成模型的质量评估提供了新方法,通过模拟专家交流来评估问题激发未见知识的能力,EgoExoAsk数据集支持这一评估框架。

[18] Model Agnostic Preference Optimization for Medical Image Segmentation

Yunseong Nam,Jiwon Jang,Dongkyu Won,Sang Hyun Park,Soopil Kim

Main category: cs.CV

TL;DR: 提出MAPO框架,通过Dropout驱动的随机分割假设构建偏好一致梯度,无需直接真值监督,提升医学图像分割的边界贴合度并减少过拟合

  • Motivation: 现有偏好优化方法在医学图像分割中存在模型特定性、依赖低多样性预测采样的问题,需要一种更通用、高效的监督范式
  • Method: 提出MAPO框架,利用Dropout驱动的随机分割假设构建偏好一致梯度,不依赖直接真值监督,支持2D/3D CNN和Transformer架构
  • Result: 在多个医学数据集上验证,MAPO能持续提升边界贴合度、减少过拟合,并提供更稳定的优化动态
  • Conclusion: MAPO提供了一种模型无关的偏好优化框架,有效解决了医学图像分割中现有方法的局限性,具有广泛适用性

[19] MVGSR: Multi-View Consistent 3D Gaussian Super-Resolution via Epipolar Guidance

Kaizhe Zhang,Shinan Chen,Qian Zhao,Weizhan Zhang,Caixia Yan,Yudeng Xin

Main category: cs.CV

TL;DR: MVGSR提出了一种多视角一致的3D高斯泼溅超分辨率方法,通过基于相机姿态的辅助视角选择和极线约束多视角注意力机制,解决了现有方法缺乏跨视角一致性的问题,适用于任意组织的多视角数据集。

  • Motivation: 基于低分辨率图像训练的3D高斯泼溅(3DGS)不适合高分辨率渲染,需要超分辨率方法。现有单图像超分辨率方法缺乏跨视角一致性,视频超分辨率方法需要严格序列帧,限制了在非结构化多视角数据集上的应用。
  • Method: 1. 基于相机姿态的辅助视角选择方法,无需时间连续性或数据重排;2. 首次引入极线约束多视角注意力机制作为多视角超分辨率网络核心,选择性聚合辅助视角的一致信息。
  • Result: 在物体中心和场景级3DGS超分辨率基准测试中达到最先进性能,能够生成具有高频细节和增强一致性的3DGS表示。
  • Conclusion: MVGSR框架通过创新的视角选择和注意力机制,有效解决了3D高斯泼溅超分辨率中的多视角一致性问题,适用于任意组织的多视角数据集,提升了渲染质量和几何一致性。

[20] Asynchronous Event Stream Noise Filtering for High-frequency Structure Deformation Measurement

Yifei Bian,Banglei Guan,Zibin Liu,Ang Su,Shiyao Zhu,Yang Shang,Qifeng Yu

Main category: cs.CV

TL;DR: 提出一种利用事件相机和LED标记测量高频变形的方法,解决了传统高速相机在恶劣光照条件和设备成本方面的限制。

  • Motivation: 大型结构在复杂载荷下会产生高频变形,但恶劣光照条件和高设备成本限制了传统高速相机测量方法的应用。
  • Method: 1) 基于LED标记闪烁和时空相关性过滤事件流中的观测噪声;2) 区分运动引起的事件和LED闪烁事件,从事件流中提取高速移动的LED标记;3) 使用单目事件相机测量高频平面变形。
  • Result: 实验结果证实了该方法在测量高频平面变形方面的准确性。
  • Conclusion: 该方法能够有效利用事件相机和LED标记测量高频变形,克服了传统高速相机方法的限制。

[21] Tracking spatial temporal details in ultrasound long video via wavelet analysis and memory bank

Chenxiao Zhang,Runshi Zhang,Junchen Wang

Main category: cs.CV

TL;DR: 提出基于记忆库的波滤滤波与融合网络,用于超声视频中病灶区域和目标器官的高保真分割,特别针对小物体和长视频跟踪问题。

  • Motivation: 超声视频对比度低、背景噪声大,导致器官边界分割错误和小物体丢失,长视频中的目标跟踪也是重要挑战。
  • Method: 采用编码器-解码器结构,包含记忆波滤卷积、级联波滤压缩、长短时记忆库和HF感知特征融合模块,有效提取细粒度空间特征并整合高频信息。
  • Result: 在四个超声视频数据集上优于现有方法,特别是在小甲状腺结节分割方面表现优异,验证了其在长视频中小超声物体分割的有效性。
  • Conclusion: 提出的MWNet方法能够有效解决超声视频分割中的边界错误和小物体丢失问题,在长视频跟踪中表现出色,为计算机辅助手术工作流提供了关键技术支持。

[22] PMMD: A pose-guided multi-view multi-modal diffusion for person generation

Ziyu Shang,Haoran Liu,Rongchao Zhang,Zhiqian Wei,Tongtong Feng

Main category: cs.CV

TL;DR: PMMD是一个基于扩散模型的框架,通过多视角参考图像、姿态图和文本提示来生成逼真的人体图像,解决了现有方法中的遮挡、服装风格漂移和姿态不对齐问题。

  • Motivation: 当前方法在生成可控姿态和外观的人体图像时,经常面临遮挡、服装风格漂移和姿态不对齐等问题,这对于虚拟试穿、图像编辑和数字人创建等应用至关重要。
  • Method: 提出Pose-guided Multi-view Multimodal Diffusion (PMMD)框架,包含多模态编码器联合建模视觉视角、姿态特征和语义描述,ResCVA模块增强局部细节同时保持全局结构,以及跨模态融合模块在去噪过程中整合图像语义和文本信息。
  • Result: 在DeepFashion MultiModal数据集上的实验表明,PMMD在一致性、细节保持和可控性方面优于代表性基线方法。
  • Conclusion: PMMD通过多视角多模态融合,有效提升了人体图像生成的质量和可控性,为相关应用提供了更好的解决方案。

[23] Uni-Parser Technical Report

Xi Fang,Haoyi Tao,Shuwen Yang,Suyang Zhong,Haocheng Lu,Han Lyu,Chaozheng Huang,Xinyu Li,Linfeng Zhang,Guolin Ke

Main category: cs.CV

TL;DR: Uni-Parser是一个工业级文档解析引擎,专为科学文献和专利设计,采用模块化多专家架构,支持跨模态对齐,具有高吞吐量、高精度和成本效益的特点。

  • Motivation: 传统流水线式文档解析方法难以处理科学文献和专利中的复杂多模态内容(文本、公式、表格、图像、化学结构),且缺乏可扩展性和成本效益。需要一种能够保持细粒度跨模态对齐、支持大规模部署的解析系统。
  • Method: 采用模块化、松耦合的多专家架构,支持自适应GPU负载均衡、分布式推理、动态模块编排和可配置模式。系统可以同时处理整体解析或特定模态解析,保持跨模态对齐关系。
  • Result: 在8个NVIDIA RTX 4090D GPU上达到每秒20页PDF的处理速度,支持数十亿页文档的高效解析。系统具有高可扩展性,能够支持从文献检索到化学结构提取等多种下游应用。
  • Conclusion: Uni-Parser为科学文献和专利解析提供了工业级解决方案,其模块化架构、高性能和成本效益使其能够支持大规模AI4Science模型训练和各种下游应用,推动了科学文档处理技术的发展。

[24] Is Nano Banana Pro a Low-Level Vision All-Rounder? A Comprehensive Evaluation on 14 Tasks and 40 Datasets

Jialong Zuo,Haoyou Deng,Hanyu Zhou,Jiaxin Zhu,Yicheng Zhang,Yiwei Zhang,Yongxin Yan,Kaixing Huang,Weisen Chen,Yongtai Deng,Rui Jin,Nong Sang,Changxin Gao

Main category: cs.CV

TL;DR: Nano Banana Pro在低层视觉任务中表现出主观视觉质量优势,但在传统定量指标上落后于专业模型,揭示了生成模型在像素级一致性方面的挑战。

  • Motivation: 探索商业文本到图像生成模型(如Nano Banana Pro)作为通用低层视觉问题解决器的潜力,该领域目前尚未得到充分研究。
  • Method: 在14个不同的低层视觉任务和40个多样化数据集上进行全面的零样本评估,使用简单的文本提示而不进行微调,并与最先进的专用模型进行基准测试。
  • Result: 发现明显的性能二分现象:Nano Banana Pro在主观视觉质量上表现优越,经常产生比专用模型更合理的细节,但在传统的基于参考的定量指标上落后。
  • Conclusion: Nano Banana Pro是低层视觉任务中一个有能力的零样本竞争者,但要达到领域专用模型的高保真度仍然是一个重大挑战,这归因于生成模型固有的随机性难以满足传统指标对像素级一致性的严格要求。

[25] 3DProxyImg: Controllable 3D-Aware Animation Synthesis from Single Image via 2D-3D Aligned Proxy Embedding

Yupeng Zhu,Xiongzhen Zhang,Ye Chen,Bingbing Ni

Main category: cs.CV

TL;DR: 提出轻量级3D动画框架,通过解耦几何控制与外观合成,使用粗糙3D估计作为结构载体,将高保真外观和视角合成委托给学习的图像空间生成先验,实现高效的单图像3D动画生成。

  • Motivation: 传统3D动画制作流程劳动密集、技术要求高、计算成本昂贵。现有的AIGC方法要么继承完整3D流程的高成本,要么依赖视频合成范式而牺牲3D可控性和交互性。单图像3D动画生成面临渲染质量与3D控制之间的根本性权衡限制。
  • Method: 提出2D-3D对齐的代理表示方法,使用粗糙的3D估计作为结构载体,将高保真外观和视角合成委托给学习的图像空间生成先验。这种代理公式化实现了类似经典流程的3D感知运动控制和交互,无需精确几何或昂贵优化,并能自然扩展到连贯的背景动画。
  • Result: 该方法在低功耗平台上实现了高效动画生成,在身份保持、几何和纹理一致性以及精确交互控制方面优于基于视频的3D动画生成方法。
  • Conclusion: 通过解耦几何控制与外观合成,提出的轻量级框架解决了3D动画生成中渲染质量与可控性之间的权衡问题,实现了高效、可控的单图像3D动画生成,为现代视觉媒体提供了实用的解决方案。

[26] Borrowing from anything: A generalizable framework for reference-guided instance editing

Shengxiao Zhou,Chenghua Li,Jianhao Huang,Qinghao Hu,Yifan Zhang

Main category: cs.CV

TL;DR: GENIE是一个可泛化的实例编辑框架,通过空间对齐、自适应残差缩放和渐进注意力融合实现外观与属性的显式解耦,在AnyInsertion数据集上达到最先进的性能。

  • Motivation: 参考引导的实例编辑存在语义纠缠问题,即参考对象的内在外观与其外在属性相互交织。核心挑战在于解耦应该从参考中借用哪些信息,以及如何适当地应用到目标上。
  • Method: GENIE包含三个模块:1) 空间对齐模块(SAM)纠正空间错位;2) 自适应残差缩放模块(ARSM)学习借用什么,通过放大显著内在线索同时抑制外在属性;3) 渐进注意力融合(PAF)机制学习如何将外观渲染到目标上,同时保留目标结构。
  • Result: 在具有挑战性的AnyInsertion数据集上的大量实验表明,GENIE在保真度和鲁棒性方面达到了最先进的水平,为基于解耦的实例编辑设立了新标准。
  • Conclusion: GENIE通过显式解耦内在外观与外在属性,有效解决了参考引导实例编辑中的语义纠缠问题,实现了高质量的实例编辑。

[27] Explainable Action Form Assessment by Exploiting Multimodal Chain-of-Thoughts Reasoning

Mengshi Qi,Yeteng Wu,Xianlin Zhang,Huadong Ma

Main category: cs.CV

TL;DR: 提出人类动作形态评估(AFA)新任务,构建包含健身和武术视频的多层次标注数据集CoT-AFA,并开发可解释的评估框架,能判断动作质量并提供改进反馈。

  • Motivation: 当前视频理解方法主要关注动作是什么和在哪里,无法满足评估动作标准化程度的需求。现有数据集缺乏动作标准化程度标签,且动作质量评估数据集缺乏可解释性和详细反馈。
  • Method: 1) 定义AFA新任务;2) 构建CoT-AFA数据集,包含健身和武术视频,采用链式思维解释范式提供完整推理过程;3) 提出可解释健身评估器框架,使用双并行处理流和动态门控机制融合视觉和语义信息。
  • Result: 在解释生成方面提升16.0%(CIDEr),动作分类准确率提升2.7%,质量评估准确率提升2.1%,展示了CoT-AFA数据集对未来研究的巨大潜力。
  • Conclusion: 提出的AFA任务、CoT-AFA数据集和可解释评估框架填补了动作标准化评估领域的空白,为未来研究提供了有价值的基准和工具。

[28] EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence

Jiaxu Wan,Xu Wang,Mengwei Xie,Hang Zhang,Mu Xu,Yang Han,Hong Zhang,Ding Yuan,Yifan Yang

Main category: cs.CV

TL;DR: EagleVision:一种用于空间认知的双阶段框架,通过宏观感知和微观验证解决空间推理中的关键挑战,在VSI-Bench上达到开源视觉语言模型的最先进性能。

  • Motivation: 现有空间智能方法存在空间一致性弱、视角多样性有限、证据链无法追溯等问题。虽然"图像思维"框架展示了逐步多模态推理的潜力,但未解决空间思维链中的三个关键挑战:严格token预算下的全局空间感知构建、3D假设与视频帧的显式关联验证、以及空间基础奖励的设计。
  • Method: 提出EagleVision双阶段框架:1) 宏观感知阶段使用语义-视角融合确定性点过程(SPF-DPP)从长视频中选择紧凑的几何和语义感知关键帧;2) 微观验证阶段将空间思维链形式化为BEV基础姿态查询:智能体迭代预测BEV平面上的姿态,检索最近的真实帧,并通过空间基础奖励进行纯强化学习训练。
  • Result: 在VSI-Bench基准测试中,EagleVision在开源视觉语言模型中达到了最先进的性能,展示了强大且可泛化的空间理解能力。
  • Conclusion: EagleVision通过宏观感知和微观验证的双阶段设计,有效解决了空间思维链中的关键挑战,为空间认知提供了系统化的解决方案,在空间理解任务上表现出色。

[29] Cross-modal ultra-scale learning with tri-modalities of renal biopsy images for glomerular multi-disease auxiliary diagnosis

Kaixing Long,Danyi Weng,Yun Mi,Zhentai Zhang,Yanmeng Lu,Jian Geng,Zhitao Zhou,Liming Zhong,Qianjin Feng,Wei Yang,Lei Cao

Main category: cs.CV

TL;DR: 提出CMUS-Net网络,通过跨模态超尺度学习解决肾活检图像中纳米级与微米级尺度差异问题,实现多模态肾小球疾病的自动分类

  • Motivation: 现有多模态和多尺度模型难以有效融合TEM纳米级图像与OM/IM微米级图像的特征,阻碍了肾小球多疾病识别的准确性提升
  • Method: 提出跨模态超尺度学习网络(CMUS-Net):1)使用稀疏多实例学习模块聚合TEM图像特征;2)设计跨模态尺度注意力模块促进特征交互;3)结合多种损失函数权衡不同模态重要性
  • Result: 在内部数据集上达到ACC 95.37±2.41%、AUC 99.05±0.53%、F1-score 95.32±2.41%,优于其他多模态/多尺度方法,并在MN分期中展示泛化能力
  • Conclusion: CMUS-Net首次基于三模态双尺度图像实现IgAN、MN、LN等多种肾小球疾病的自动分类,为肾活检病理诊断提供了有效的辅助工具

[30] Criticality Metrics for Relevance Classification in Safety Evaluation of Object Detection in Automated Driving

Jörg Gamerdinger,Sven Teufel,Stephan Amann,Oliver Bringmann

Main category: cs.CV

TL;DR: 本文首次深入分析了用于自动驾驶目标检测系统安全评估的关键性指标,提出了双向关键性评级和多指标聚合两种新策略,在关键性分类准确率上实现了高达100%的提升。

  • Motivation: 自动驾驶安全评估需要专门的安全指标来可靠评估目标检测系统,而区分相关与非相关对象的关键性指标是安全评估的核心挑战。
  • Method: 通过全面文献综述识别和评估现有关键性指标,使用DeepAccident数据集进行实证验证,并提出双向关键性评级和多指标聚合两种新应用策略。
  • Result: 提出的方法在关键性分类准确率上实现了高达100%的改进,显著提升了自动驾驶车辆目标检测系统的安全评估能力。
  • Conclusion: 该研究为自动驾驶目标检测系统的安全评估提供了有效的关键性指标分析框架和新策略,对提升自动驾驶安全性具有重要意义。

[31] Robust and Calibrated Detection of Authentic Multimedia Content

Sarim Hashmi,Abdelrahman Elsayed,Mohammed Talha Alam,Samuele Poppi,Nils Lukas

Main category: cs.CV

TL;DR: 提出一种重合成框架来检测深度伪造内容,通过校准的重合成方法在高效对抗者场景下实现高精度、低召回率的可靠检测,同时保持可控的低误报率。

  • Motivation: 生成模型能合成高度逼真的深度伪造内容,已被大规模滥用破坏数字媒体真实性。现有检测方法不可靠:1)事后区分不真实内容往往不可能(如记忆样本),导致无界误报率;2)检测缺乏鲁棒性,对抗者可用最小计算资源适应已知检测器。
  • Method: 提出重合成框架来确定样本是否真实或其真实性是否可被合理否认。采用校准的重合成方法,专注于对抗高效(计算受限)对抗者的高精度、低召回率设置。支持多模态并利用最先进的反演技术。
  • Result: 1)校准的重合成方法在验证真实样本时最可靠,同时保持可控的低误报率;2)该方法在对抗高效对抗者时具有鲁棒性,而先前方法在相同计算预算下容易被规避。
  • Conclusion: 提出的重合成框架为解决深度伪造检测中的可靠性和鲁棒性问题提供了有效方案,特别是在对抗计算受限对抗者的场景下,为数字媒体真实性验证提供了更可靠的保障。

[32] ERIENet: An Efficient RAW Image Enhancement Network under Low-Light Environment

Jianan Wang,Yang Hong,Hesong Li,Tao Wang,Songrong Liu,Ying Fu

Main category: cs.CV

TL;DR: ERIENet:一种高效的RAW图像增强网络,采用并行多尺度处理和绿色通道引导,实现实时低光增强

  • Motivation: 现有RAW图像低光增强方法通常顺序处理多尺度信息,导致模型不够轻量、处理速度慢,且忽视RAW图像绿色通道的丰富信息优势
  • Method: 提出高效多尺度全并行架构,包含通道感知残差密集块提取特征;引入绿色通道引导分支,利用RAW图像绿色通道的丰富信息指导图像重建
  • Result: 在常用低光图像增强数据集上优于现有方法,实现4K分辨率图像超过146FPS的实时处理速度(NVIDIA RTX 3090)
  • Conclusion: ERIENet通过并行多尺度处理和绿色通道引导,实现了高效、高质量的RAW图像低光增强,平衡了性能与计算效率

[33] TBC: A Target-Background Contrast Metric for Low-Altitude Infrared and Visible Image Fusion

Yufeng Xie

Main category: cs.CV

TL;DR: 提出TBC(目标-背景对比度)指标解决红外与可见光图像融合中传统无参考指标在低光环境下将传感器噪声误判为有效细节的问题,该指标基于韦伯定律关注目标相对对比度而非全局统计。

  • Motivation: 传统无参考指标(如熵EN和平均梯度AG)在复杂低光环境下存在"噪声陷阱"问题,它们会将高频传感器噪声误判为有效细节,导致给噪声图像打更高分数,误导融合算法发展。
  • Method: 提出TBC(目标-背景对比度)指标,基于韦伯定律原理,关注显著目标的相对对比度而非全局统计特性,通过惩罚背景噪声和奖励目标可见性来评估融合图像质量。
  • Result: 在DroneVehicle数据集上的实验表明,TBC指标与人类感知更加一致,为低空无人机侦察场景提供了可靠的图像融合质量评估标准。
  • Conclusion: TBC指标有效解决了传统无参考指标在低光环境下的"噪声陷阱"问题,能够更好地评估红外与可见光图像融合质量,特别适用于低空无人机侦察任务。

[34] From Camera to World: A Plug-and-Play Module for Human Mesh Transformation

Changhai Ma,Ziyu Wu,Yunkang Zhang,Qijun Ying,Boyan Liu,Xiaohui Cai

Main category: cs.CV

TL;DR: Mesh-Plug是一个即插即用模块,能够将相机坐标系下的人体网格准确转换到世界坐标系,通过人体中心方法估计相机旋转参数,无需依赖环境线索。

  • Motivation: 从野外图像重建世界坐标系下的准确3D人体网格具有挑战性,因为缺乏相机旋转信息。现有方法假设相机旋转为零,在相机坐标系下效果良好,但转换到世界坐标系时会产生显著误差。
  • Method: 提出Mesh-Plug模块:1) 训练相机旋转预测模块,利用RGB图像和初始网格渲染的深度图,基于人体空间配置估计相机俯仰角;2) 设计网格调整模块,结合预测的相机参数和初始网格,同时优化根关节方向和身体姿态。
  • Result: 在SPEC-SYN和SPEC-MTP基准数据集上,该框架优于现有最先进方法。
  • Conclusion: Mesh-Plug通过人体中心方法有效解决了从相机坐标系到世界坐标系的转换问题,无需环境线索,显著提高了3D人体网格重建的准确性。

[35] SLCFormer: Spectral-Local Context Transformer with Physics-Grounded Flare Synthesis for Nighttime Flare Removal

Xiyu Zhu,Wei Wang,Xin Yuan,Xiao Wang

Main category: cs.CV

TL;DR: SLCFormer:一种用于夜间镜头眩光去除的新型频谱-局部上下文Transformer框架,通过频域全局建模和空间域局部增强,结合物理真实的散射眩光生成,在Flare7K++数据集上达到SOTA性能。

  • Motivation: 现有方法难以有效处理非均匀散射眩光,这在复杂真实世界夜间场景中限制了其适用性。镜头眩光是夜间常见伪影,由强光源在相机镜头内散射引起,导致模糊条纹、光晕和眩光,降低视觉质量。
  • Method: 提出SLCFormer框架,包含两个关键模块:1)频率傅里叶与激励模块(FFEM),在频域捕获高效全局上下文表示以建模眩光特性;2)方向增强空间模块(DESM),在空间域进行局部结构增强和方向特征提取以实现精确眩光去除。此外,引入基于ZernikeVAE的散射眩光生成流程,合成具有空间变化点扩散函数的物理真实散射眩光。
  • Result: 在Flare7K++数据集上的大量实验表明,该方法在定量指标和感知视觉质量方面均优于现有方法,并在具有复杂眩光伪影的真实夜间场景中展现出强大的泛化能力。
  • Conclusion: SLCFormer通过结合频域全局建模和空间域局部增强,有效解决了非均匀散射眩光去除问题,为复杂真实世界夜间场景中的镜头眩光去除提供了有效的解决方案。

[36] Null-LoRA: Low-Rank Adaptation on Null Space

Yi Zhang,Yulei Kang,Haoxuan Chen,Jinxuan Li,ian-Fang Hu

Main category: cs.CV

TL;DR: 提出Null-LoRA方法,通过利用预训练模型的零空间进行低秩适应,减少冗余参数,在图像文本检索和视觉问答任务上以更少参数超越现有方法。

  • Motivation: 现有参数高效微调方法(如LoRA)在全参数空间进行低秩适应,但研究发现微调在子空间内即可达到可比效果。受预训练模型存在非平凡零空间的启发,希望利用这一特性减少冗余并提升参数效率。
  • Method: 提出Null-LoRA方法:1) 通过冻结部分低秩矩阵减少冗余并提升有效秩;2) 将整个增量更新约束在零空间内,最大化利用增量更新适应新任务范式。
  • Result: 在图像文本检索和视觉问答任务上的大量实验表明,Null-LoRA以更少的参数超越了现有最优方法。
  • Conclusion: Null-LoRA通过利用预训练模型的零空间进行低秩适应,有效减少了参数冗余,提升了参数效率,在多个下游任务上取得了优于现有方法的性能。

[37] Intersectional Fairness in Vision-Language Models for Medical Image Disease Classification

Yupeng Zhang,Adam G. Dunn,Usman Naseem,Jinman Kim

Main category: cs.CV

TL;DR: 提出CMAC-MMD训练框架,通过跨模态对齐一致性标准化诊断置信度,减少医疗AI中的交叉偏见,无需推理时敏感数据,在皮肤病变和青光眼检测中提升公平性和准确性。

  • Motivation: 医疗AI系统(特别是多模态视觉语言模型)存在交叉偏见,对边缘化患者亚组的诊断置信度较低,导致漏诊率差异。现有公平性干预方法要么无法解决这些差距,要么以牺牲整体诊断性能为代价。
  • Method: 开发了Cross-Modal Alignment Consistency (CMAC-MMD)训练框架,通过标准化交叉患者亚组的诊断置信度来减少偏见。该方法在临床推理时不需要敏感人口统计数据,通过跨模态对齐实现公平性。
  • Result: 在皮肤病变检测中,将交叉漏诊率差距从0.50降至0.26,AUC从0.94提升至0.97;在青光眼筛查中,将ΔTPR从0.41降至0.31,AUC从0.71提升至0.72。在两个数据集上都同时提高了公平性和准确性。
  • Conclusion: CMAC-MMD建立了一个可扩展的框架,用于开发既准确又能在不同患者亚组间公平执行的高风险临床决策支持系统,确保可靠性能而不增加隐私风险。

[38] Assessing the Visual Enumeration Abilities of Specialized Counting Architectures and Vision-Language Models

Kuinan Hou,Jing Mi,Marco Zorzi,Lamberto Ballan,Alberto Testolin

Main category: cs.CV

TL;DR: 本文系统比较了专业计数架构与多模态视觉语言模型在物体计数任务上的表现,发现VLMs在简单场景中表现相当甚至更好,但都无法可靠处理复杂场景。

  • Motivation: 传统计数方法依赖特定领域的架构和预定义类别,而新兴的大规模多模态视觉语言模型可能为开放集物体计数提供更灵活的替代方案。
  • Method: 在两种流行的计数数据集和一个新创建的基准测试上,系统比较了最先进的专用计数架构与VLMs的性能,新基准能更精细控制测试图像的视觉属性。
  • Result: 大多数VLMs能近似枚举视觉场景中的物品数量,匹配甚至超越专用计算机视觉架构;当提示VLMs生成每个待计数对象的中间表示(位置和语言标签)时,计数准确性显著提高。
  • Conclusion: 没有模型能可靠地计数复杂视觉场景中的物体数量,表明仍需进一步研究以创建能在现实环境中可靠部署计数程序的AI系统。

[39] MMMamba: A Versatile Cross-Modal In Context Fusion Framework for Pan-Sharpening and Zero-Shot Image Enhancement

Yingying Wang,Xuanhua He,Chen Wu,Jialing Huang,Suiyun Zhang,Rui Liu,Xinghao Ding,Haoxuan Che

Main category: cs.CV

TL;DR: 提出MMMamba框架,基于Mamba架构实现跨模态上下文融合的全色锐化方法,支持零样本图像超分辨率,具有线性计算复杂度

  • Motivation: 传统CNN方法通过通道级联和固定卷积算子限制了空间和光谱变化的适应性,而交叉注意力机制计算效率低且可能稀释细粒度对应关系,难以捕捉复杂语义关系
  • Method: 基于Mamba架构构建跨模态上下文融合框架,引入新型多模态交错扫描机制,促进PAN和MS模态间的有效信息交换,支持零样本图像超分辨率
  • Result: 在多个任务和基准测试中,该方法相比现有最先进技术表现出优越性能
  • Conclusion: MMMamba框架通过跨模态上下文融合实现了高效的全色锐化,具有线性计算复杂度和强大的跨模态交互能力

[40] SynthSeg-Agents: Multi-Agent Synthetic Data Generation for Zero-Shot Weakly Supervised Semantic Segmentation

Wangyu Wu,Zhenhong Chen,Xiaowei Huang,Fei Ma,Jimin Xiao

Main category: cs.CV

TL;DR: 提出ZSWSSS新方向,使用LLM驱动的多智能体框架SynthSeg Agents生成完全无需真实图像的合成训练数据,在PASCAL VOC和COCO上取得竞争性性能。

  • Motivation: 现有弱监督语义分割方法仍依赖真实世界训练样本,需要探索完全不使用真实图像的零样本弱监督语义分割新方向,以实现成本高效且可扩展的语义分割。
  • Method: 提出SynthSeg Agents多智能体框架:1) Self-Refine Prompt Agent通过迭代优化、记忆机制和提示空间探索自动生成多样化语义丰富的图像提示;2) Image Generation Agent利用视觉语言模型合成候选图像;3) 使用冻结CLIP评分模型选择高质量样本;4) 训练ViT分类器重新标注合成数据集以提高语义精度。
  • Result: 在PASCAL VOC 2012和COCO 2014数据集上,SynthSeg Agents在不使用任何真实训练图像的情况下取得了竞争性的性能表现。
  • Conclusion: LLM驱动的智能体框架能够生成高质量训练数据而不依赖真实图像,展示了在成本高效和可扩展语义分割方面的潜力,为零样本弱监督语义分割开辟了新方向。

[41] KD360-VoxelBEV: LiDAR and 360-degree Camera Cross Modality Knowledge Distillation for Bird's-Eye-View Segmentation

Wenke E,Yixin Sun,Jiaxu Liu,Hubert P. H. Shum,Amir Atapour-Abarghouei,Toby P. Breckon

Main category: cs.CV

TL;DR: 首个针对单全景相机BEV分割的跨模态蒸馏框架,通过LiDAR图像表示和体素对齐视图变换器,将多模态教师网络知识蒸馏到仅需单全景相机的轻量学生网络。

  • Motivation: 现有BEV分割方法通常依赖多传感器(如相机+LiDAR),增加了传感器复杂性和部署成本。需要开发仅使用单全景相机的高效BEV分割方案,以降低自动驾驶系统的成本和复杂性。
  • Method: 1. 提出新颖的LiDAR图像表示(融合距离、强度和环境通道);2. 设计体素对齐视图变换器,保持空间保真度并支持高效BEV处理;3. 使用高容量LiDAR-相机融合教师网络提取丰富空间和语义特征;4. 通过跨模态知识蒸馏将知识转移到仅依赖单全景相机的轻量学生网络。
  • Result: 在Dur360BEV数据集上,教师网络比现有相机BEV分割方法提升25.6% IoU;蒸馏后的学生网络获得8.5% IoU增益,推理速度达31.2 FPS(SOTA)。在KITTI-360(双鱼眼相机)上的评估验证了框架对不同相机设置的泛化能力。
  • Conclusion: 该框架显著降低了传感器复杂性和部署成本,为现实世界自动驾驶提供了高效、低成本的BEV分割实用解决方案,同时保持了竞争性性能和实时推理速度。

[42] Automated Motion Artifact Check for MRI (AutoMAC-MRI): An Interpretable Framework for Motion Artifact Detection and Severity Assessment

Antony Jerald,Dattesh Shanbhag,Sudhanya Chatterjee

Main category: cs.CV

TL;DR: AutoMAC-MRI:一个可解释的MRI运动伪影分级框架,通过监督对比学习和分级亲和力评分实现跨对比度和方向的运动严重度评估

  • Motivation: 现有MRI质量评估方法大多局限于二元决策且缺乏可解释性,运动伪影会降低MRI图像质量并增加患者召回率,需要一种能够跨不同MR对比度和方向进行运动伪影分级并提供解释的自动化方法
  • Method: 使用监督对比学习学习运动严重度的判别性表示,在该特征空间中计算分级亲和力分数,量化图像与每个运动等级的接近程度,从而实现透明且可解释的等级分配
  • Result: 在超过5000个专家标注的脑MRI切片上进行评估,实验显示亲和力分数与专家判断高度一致,支持其作为运动严重度的可解释度量
  • Conclusion: AutoMAC-MRI通过结合准确的等级检测和每级亲和力评分,实现了内联MRI质量控制,有望减少不必要的重新扫描并提高工作流程效率

[43] Prototypical Learning Guided Context-Aware Segmentation Network for Few-Shot Anomaly Detection

Yuxin Jiang,Yunkang Cao,Weiming Shen

Main category: cs.CV

TL;DR: 提出PCSNet方法解决少样本异常检测中的领域差距问题,通过原型特征适应和上下文感知分割网络提升特征描述能力,在MVTec和MPDD数据集上取得优异性能。

  • Motivation: 现有少样本异常检测方法主要依赖预训练特征表示,但忽视了预训练表示与目标场景之间的领域差距,这限制了异常检测性能。
  • Method: 提出PCSNet网络,包含原型特征适应子网络(PFA)和上下文感知分割子网络(CAS)。PFA提取原型特征作为指导,确保正常数据的特征紧凑性并与异常明显分离,同时设计像素级差异分类损失使细微异常更易区分。CAS用于像素级异常定位,利用伪异常促进训练过程。
  • Result: 在MVTec和MPDD数据集上,8-shot场景下分别达到94.9%和80.2%的图像级AUROC,在汽车塑料零件检测的实际应用中也表现出色。
  • Conclusion: PCSNet通过解决领域差距问题有效提升了少样本异常检测性能,在工业检测等实际应用中具有良好前景。

[44] MECAD: A multi-expert architecture for continual anomaly detection

Malihe Dahmardeh,Francesco Setti

Main category: cs.CV

TL;DR: MECAD提出了一种基于多专家架构的持续异常检测方法,通过动态专家分配和高效内存管理实现增量学习,在MVTec AD数据集上达到0.8259的平均AUROC。

  • Motivation: 工业环境中产品类型不断演变,需要持续学习新类别而不遗忘旧知识。传统单专家方法存在知识退化问题,需要平衡计算效率、知识保留和适应性。
  • Method: 采用多专家架构,基于特征相似性动态分配专家到对象类别;使用优化的核心集选择和专用回放缓冲区机制进行高效内存管理;实现增量学习而无需完整模型重新训练。
  • Result: 在MVTec AD数据集上,最优的5专家配置在15个不同对象类别上达到0.8259的平均AUROC,相比单专家方法显著减少了知识退化。
  • Conclusion: MECAD框架平衡了计算效率、专业知识保留和适应性,适合产品类型不断演变的工业环境,为持续异常检测提供了有效的解决方案。

[45] A Masked Reverse Knowledge Distillation Method Incorporating Global and Local Information for Image Anomaly Detection

Yuxin Jiang,Yunkang Can,Weiming Shen

Main category: cs.CV

TL;DR: 提出MRKD方法,通过图像级和特征级掩码解决知识蒸馏在异常检测中的过度泛化问题,在MVTec数据集上取得优异性能

  • Motivation: 知识蒸馏在图像异常检测中有效,但存在过度泛化问题,主要原因是输入信号和监督信号过于相似
  • Method: 提出掩码反向知识蒸馏(MRKD),使用图像级掩码(ILM)捕获全局信息,特征级掩码(FLM)引入合成特征级异常确保局部信息,将图像重建任务转化为图像修复
  • Result: 在MVTec数据集上取得:图像级AU-ROC 98.9%,像素级AU-ROC 98.4%,AU-PRO 95.3%,消融实验验证了MRKD在缓解过度泛化问题上的优越性
  • Conclusion: MRKD通过ILM和FLM策略增强了图像上下文捕获能力,有效解决了知识蒸馏的过度泛化问题,在异常检测和定位任务中表现出色

[46] Vision-based module for accurately reading linear scales in a laboratory

Parvesh Saini,Soumyadipta Maiti,Beena Rai

Main category: cs.CV

TL;DR: 提出一种受人类启发的视觉方法,用于从注射器和量筒等线性刻度读取测量值,通过图像处理和特征提取实现自动化读数

  • Motivation: 虽然视觉模型在物体检测、图像分类等任务上表现优异,但能够像人类一样从图像中准确读取定量测量值的模型仍然稀缺。实验室环境中机器人要实现完全自主工作,需要具备读取仪器测量值的基本能力
  • Method: 采用人类启发的方法:1) 对随机方向的注射器进行方向校正变换;2) 将感兴趣区域缩小到仅包含线性刻度的部分;3) 提取主要刻度标记、对应数字和液位指示器位置等特征;4) 基于这些特征计算最终读数
  • Result: 该系统读取的测量值与人工读取的相同实例值进行了比较,观察到了准确的对应关系,表明方法有效
  • Conclusion: 成功开发了一种能够从线性刻度准确读取测量值的视觉系统,为实验室环境中机器人的自主操作提供了重要能力支持

[47] Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

Junjie Chen,Fei Wang,Zhihao Huang,Qing Zhou,Kun Li,Dan Guo,Linfeng Zhang,Xun Yang

Main category: cs.CV

TL;DR: TIMAR是一个用于3D对话头部生成的因果框架,通过交错音频-视觉上下文建模对话,使用轻量级扩散头预测连续的3D头部动态,在DualTalk基准上显著降低了Fréchet距离和MSE。

  • Motivation: 人类对话涉及语音和非语言线索的连续交换,现有框架通常将说话和倾听作为独立过程处理或依赖非因果全序列建模,这阻碍了跨轮次的时间连贯性。
  • Method: TIMAR采用因果框架,将对话建模为交错音频-视觉上下文,在每个轮次内融合多模态信息,应用轮次级因果注意力积累对话历史,使用轻量级扩散头预测连续的3D头部动态。
  • Result: 在DualTalk基准测试中,TIMAR在测试集上将Fréchet距离和MSE降低了15-30%,在分布外数据上也取得了类似的提升。
  • Conclusion: TIMAR通过因果建模对话中的交错音频-视觉上下文,能够生成具有协调性和表达变异性的连续3D头部动态,为构建表达性化身和交互机器人提供了有效框架。

[48] Expand and Prune: Maximizing Trajectory Diversity for Effective GRPO in Generative Models

Shiran Ge,Chenyi Huang,Yuang Ai,Qihang Fan,Huaibo Huang,Ran He

Main category: cs.CV

TL;DR: Pro-GRPO通过动态剪枝奖励聚集的轨迹,在保持多样性的同时显著降低GRPO的计算开销

  • Motivation: GRPO技术在大组规模与计算成本之间存在冲突,现有静态过滤方法仍需对最终丢弃的轨迹进行不必要的采样计算
  • Method: 提出Pro-GRPO动态框架:1)利用潜在特征在采样过程中早期终止奖励聚集的轨迹;2)采用"扩展-剪枝"策略,先扩大初始采样组以最大化多样性,再对潜在特征应用多步OVF过滤
  • Result: 在扩散模型和流模型上的实验证明Pro-GRPO在保持性能的同时显著降低计算开销,高方差轨迹子集优于未过滤的大组
  • Conclusion: Pro-GRPO通过动态轨迹剪枝有效解决了GRPO的计算瓶颈,为生成模型对齐提供了高效实用的解决方案

[49] SemanticBridge -- A Dataset for 3D Semantic Segmentation of Bridges and Domain Gap Analysis

Maximilian Kellner,Mariana Ferrandon Cervantes,Yuandong Pan,Ruodan Lu,Ioannis Brilakis,Alexander Reiterer

Main category: cs.CV

TL;DR: 提出了专门用于桥梁3D语义分割和传感器差异导致的领域差距分析的新数据集,包含多国桥梁高分辨率3D扫描和详细语义标注,评估了三种先进架构并量化了传感器差异带来的性能下降。

  • Motivation: 基础设施检测和维护对现代社会至关重要,但缺乏专门用于桥梁3D语义分割的数据集,且传感器差异导致的领域差距问题尚未得到充分研究。
  • Method: 创建包含多国桥梁高分辨率3D扫描和详细语义标注的新数据集,使用三种最先进的3D深度学习架构进行综合评估,并通过不同传感器采集数据来量化领域差距。
  • Result: 所有架构在桥梁分割任务上都表现出稳健性能,但传感器差异导致的领域差距可能导致性能下降高达11.4% mIoU。
  • Conclusion: 该数据集填补了桥梁3D语义分割领域的空白,揭示了传感器差异对模型性能的显著影响,为基础设施自动检测和结构健康监测提供了重要资源。

[50] Emotion Recognition in Signers

Kotaro Funakoshi,Yaoxiong Zhu

Main category: cs.CV

TL;DR: 该论文通过跨语言方法解决手语情感识别的两大挑战:语法与情感面部表情重叠、训练数据稀缺,使用日本手语eJSL数据集和英国手语BOBSL数据集,证明文本情感识别可缓解数据稀缺,时间片段选择和手部运动能提升识别效果。

  • Motivation: 手语情感识别面临两大挑战:1) 语法性面部表情与情感性面部表情的重叠问题(理论挑战);2) 模型训练数据稀缺(实践挑战)。论文旨在在跨语言环境下解决这些问题。
  • Method: 使用新构建的日本手语情感识别基准数据集eJSL(2名手语者×78个话语×7种情感状态=1092个视频片段)和大型英国手语数据集BOBSL。采用跨语言方法,利用口语文本情感识别缓解手语数据稀缺,研究时间片段选择的影响,并加入手部运动信息。
  • Result: 实证表明:1) 口语文本情感识别能有效缓解手语数据稀缺问题;2) 时间片段选择对识别效果有显著影响;3) 结合手部运动能提升手语情感识别性能。最终建立的基线模型优于口语大型语言模型。
  • Conclusion: 通过跨语言方法和多模态信息(时间片段选择、手部运动)的结合,成功解决了手语情感识别的理论挑战(表情重叠)和实践挑战(数据稀缺),建立了比口语LLM更强的基线模型。

[51] See It Before You Grab It: Deep Learning-based Action Anticipation in Basketball

Arnau Barrera Roy,Albert Clapés Sintes

Main category: cs.CV

TL;DR: 该论文提出了篮球视频中篮板球预测的新任务,创建了包含10万视频片段和2000+手动标注篮板事件的数据集,并应用深度学习技术进行基准测试。

  • Motivation: 尽管计算机视觉在体育分析中取得了显著进展,但在体育视频中预测动作发生前的结果(如篮板球归属)尚未得到足够关注。现有研究主要集中在追踪、姿态估计、动作定位和犯规识别,而动作预测研究相对较少。
  • Method: 1. 提出篮球广播视频中动作预测的新任务:预测投篮后哪支球队将获得篮板球控制权
  1. 创建新的自收集数据集:包含10万个篮球视频片段、300多小时镜头和2000多个手动标注的篮板事件
  2. 使用最先进的动作预测方法建立基准结果
  3. 探索两个补充任务:篮板分类和篮板发现
  • Result: 1. 首次将深度学习技术应用于篮球篮板预测
  1. 实验结果表明篮板预测既具有可行性又存在固有挑战
  2. 该数据集支持广泛的篮球视频理解应用,填补了现有数据集的空白
  3. 为动态多智能体体育场景的预测建模提供了有价值的见解
  • Conclusion: 通过预测篮板球发生前的球队控制权,这项工作能够支持实时自动化广播和赛后分析工具,辅助决策制定。该研究为篮球视频理解开辟了新的研究方向,并提供了首个专门用于篮板预测的数据集和基准。

[52] SMART: Semantic Matching Contrastive Learning for Partially View-Aligned Clustering

Liang Peng,Yixuan Ye,Cheng Liu,Hangjun Che,Fei Wang,Zhiwen Yu,Si Wu,Hau-San Wong

Main category: cs.CV

TL;DR: SMART模型通过语义匹配对比学习解决部分视图对齐聚类问题,利用对齐和未对齐数据,缓解跨视图分布偏移,提升聚类性能。

  • Motivation: 现实场景中收集严格对齐的多视图数据困难,现有部分视图对齐聚类方法未能充分利用未对齐数据捕捉共享语义,且多视图数据的异质性导致表示分布偏移,影响跨视图特征对应关系建立。
  • Method: 提出语义匹配对比学习模型SMART,通过缓解跨视图分布偏移,促进语义匹配对比学习,充分利用对齐和未对齐数据中的语义关系。
  • Result: 在八个基准数据集上的广泛实验表明,该方法在部分视图对齐聚类问题上持续优于现有方法。
  • Conclusion: SMART模型通过语义匹配对比学习有效解决了部分视图对齐聚类问题,能够充分利用对齐和未对齐数据,缓解分布偏移,提升聚类性能。

[53] Preserving Marker Specificity with Lightweight Channel-Independent Representation Learning

Simon Gutwein,Arthur Longuefosse,Jun Seita,Sabine Taschner-Mandl,Roxane Licandro

Main category: cs.CV

TL;DR: 提出轻量级通道独立模型CIM-S,在多重组织成像数据中通过保持标记独立性而非早期通道融合,实现了比深度早期融合CNN更强的表征学习能力。

  • Motivation: 多重组织成像可测量每个细胞的数十个蛋白质标记,但现有深度学习模型通常采用早期通道融合,假设标记间共享结构。作者质疑这种假设是否适用于多重数据,并探索保持标记独立性结合浅层架构是否能提供更合适的归纳偏置。
  • Method: 提出通道独立模型CIM-S(仅5.5K参数),与标准早期融合CNN和标记感知基线进行比较。使用霍奇金淋巴瘤CODEX数据集(145,000个细胞,49个标记),通过对比预训练和线性评估验证模型性能。
  • Result: 早期融合模型在保留标记特异性信息和罕见细胞区分方面表现有限。通道独立架构(特别是CIM-S)尽管参数极少,却实现了显著更强的表征能力。这些发现在多种自监督框架、增强设置以及49标记和18标记设置中均保持一致。
  • Conclusion: 轻量级通道独立架构在多重表征学习中可以匹配甚至超越深度早期融合CNN和基础模型,表明保持标记独立性结合浅层架构是更合适的归纳偏置。

[54] Photorealistic Phantom Roads in Real Scenes: Disentangling 3D Hallucinations from Physical Geometry

Hoang Nguyen,Xiaohao Xu,Xiaonan Huang

Main category: cs.CV

TL;DR: 论文提出首个端到端框架来探测、量化和缓解单目深度基础模型的"3D海市蜃楼"问题——模型从几何平面但感知模糊的输入中幻觉出虚假3D结构

  • Motivation: 单目深度基础模型通过学习大规模语义先验实现了显著泛化能力,但这带来了关键漏洞:它们会从几何平面但感知模糊的输入中幻觉出虚假的3D结构。这种未被量化的安全风险需要系统性的探测和缓解方法
  • Method: 1) 提出3D-Mirage基准测试,包含真实世界幻觉场景(如街头艺术)的精确平面区域标注和上下文受限裁剪;2) 提出基于拉普拉斯算子的评估框架,包含两个指标:用于虚假非平面性的偏差综合评分(DCS)和用于上下文不稳定性的混淆综合评分(CCS);3) 引入Grounded Self-Distillation方法,通过参数高效策略在幻觉区域强制平面性,同时使用冻结教师模型保留背景知识,避免灾难性遗忘
  • Result: 论文提供了诊断和缓解3D海市蜃楼现象的基本工具,提出的评估框架能够量化模型的结构和上下文鲁棒性,Grounded Self-Distillation方法能有效减少幻觉同时保持模型性能
  • Conclusion: 这项工作促使MDE评估从像素级精度向结构和上下文鲁棒性转变,提供了必要的工具来诊断和缓解单目深度基础模型的幻觉问题,相关代码和基准测试将公开以促进这一研究方向

[55] Step-GUI Technical Report

Haolong Yan,Jia Wang,Xin Huang,Yeqing Shen,Ziyang Meng,Zhimin Fan,Kaijun Tan,Jin Gao,Lieyu Shi,Mi Yang,Shiliang Yang,Zhirui Wang,Brian Li,Kang An,Chenyang Li,Lei Lei,Mengmeng Duan,Danxun Liang,Guodong Liu,Hang Cheng,Hao Wu,Jie Dong,Junhao Huang,Mei Chen,Renjie Yu,Shunshan Li,Xu Zhou,Yiting Dai,Yineng Deng,Yingdan Liang,Zelin Chen,Wen Sun,Chengxu Yan,Chunqin Xu,Dong Li,Fengqiong Xiao,Guanghao Fan,Guopeng Li,Guozhen Peng,Hongbing Li,Hang Li,Hongming Chen,Jingjing Xie,Jianyong Li,Jingyang Zhang,Jiaju Ren,Jiayu Yuan,Jianpeng Yin,Kai Cao,Liang Zhao,Liguo Tan,Liying Shi,Mengqiang Ren,Min Xu,Manjiao Liu,Mao Luo,Mingxin Wan,Na Wang,Nan Wu,Ning Wang,Peiyao Ma,Qingzhou Zhang,Qiao Wang,Qinlin Zeng,Qiong Gao,Qiongyao Li,Shangwu Zhong,Shuli Gao,Shaofan Liu,Shisi Gao,Shuang Luo,Xingbin Liu,Xiaojia Liu,Xiaojie Hou,Xin Liu,Xuanti Feng,Xuedan Cai,Xuan Wen,Xianwei Zhu,Xin Liang,Xin Liu,Xin Zhou,Yingxiu Zhao,Yukang Shi,Yunfang Xu,Yuqing Zeng,Yixun Zhang,Zejia Weng,Zhonghao Yan,Zhiguo Huang,Zhuoyu Wang,Zheng Ge,Jing Li,Yibo Zhu,Binxing Jiao,Xiangyu Zhang,Daxin Jiang

Main category: cs.CV

TL;DR: 提出自进化训练流水线、Step-GUI模型家族、GUI-MCP协议和AndroidDaily基准测试,推动实用GUI智能体发展

  • Motivation: 解决多模态大语言模型在GUI自动化中高质量训练数据获取困难、标注成本高、隐私保护不足以及缺乏真实场景评估基准的问题
  • Method: 1) 基于校准步奖励系统的自进化训练流水线,将模型生成轨迹转化为可靠训练信号;2) Step-GUI模型家族(4B/8B);3) GUI-MCP分层协议,结合原子操作和任务委派;4) AndroidDaily基准测试,基于真实移动使用模式
  • Result: Step-GUI 8B模型在多个基准上达到SOTA:AndroidWorld 80.2%、OSWorld 48.5%、ScreenShot-Pro 62.6%;训练标注准确率>90%,成本降低10-100倍;AndroidDaily基准上静态任务89.91%,端到端任务52.50%
  • Conclusion: 该工作通过创新的训练方法、模型架构、协议标准和评估基准,显著推进了实用GUI智能体的发展,展示了在真实数字交互中部署的强大潜力

[56] CLIP-FTI: Fine-Grained Face Template Inversion via CLIP-Driven Attribute Conditioning

Longchen Dai,Zixuan Shen,Zhiheng Zhou,Peipeng Yu,Zhihua Xia

Main category: cs.CV

TL;DR: CLIP-FTI:基于CLIP的细粒度属性条件框架,用于人脸模板反演,通过融合CLIP语义嵌入和泄露模板,在StyleGAN中生成更精细的人脸图像,提升识别准确率和跨模型攻击能力。

  • Motivation: 现有的人脸模板反演方法生成的人脸图像存在面部特征(眼睛、鼻子、嘴巴)过度平滑和可迁移性有限的问题,需要提升重建图像的细粒度属性和跨模型攻击能力。
  • Method: 提出CLIP-FTI框架:1)使用CLIP模型获取面部特征的语义嵌入;2)通过跨模态特征交互网络将CLIP属性嵌入与泄露模板融合;3)投影到预训练StyleGAN的中间潜在空间;4)StyleGAN生成器合成具有相同身份但更精细面部特征的人脸图像。
  • Result: 在多个FR模型和数据集上的实验表明:1)达到更高的识别准确率和属性相似度;2)恢复更清晰的组件级属性语义;3)相比先前方法提升了跨模型攻击可迁移性;4)获得SOTA结果。
  • Conclusion: CLIP-FTI是首个利用人脸模板之外额外信息实现人脸模板反演的方法,通过CLIP驱动的细粒度属性条件框架,显著提升了重建图像的质量和攻击效果。

[57] ST-DETrack: Identity-Preserving Branch Tracking in Entangled Plant Canopies via Dual Spatiotemporal Evidence

Yueqianji Chen,Kevin Williams,John H. Doonan,Paolo Remagnino,Jo Hepworth

Main category: cs.CV

TL;DR: ST-DETrack:一种时空融合双解码器网络,用于从时间序列图像中自动提取植物分枝,通过自适应门控机制整合空间几何先验和时间运动一致性,在油菜数据集上达到93.6%的分枝匹配准确率。

  • Motivation: 从时间序列图像中自动提取植物分枝对于高通量表型分析至关重要,但由于非刚性生长动态和纠缠冠层中的严重身份碎片化,这仍然具有计算挑战性。需要克服这些阶段依赖性模糊性。
  • Method: 提出ST-DETrack,一种时空融合双解码器网络。包含空间解码器(利用位置和角度等几何先验进行早期跟踪)和时间解码器(利用运动一致性解决后期遮挡)。采用自适应门控机制动态调整空间和时间线索的依赖,并基于负向重力性的生物约束来缓解垂直生长模糊性。
  • Result: 在油菜数据集上验证,ST-DETrack达到93.6%的分枝匹配准确率(BMA),分别比空间和时间基线方法高出28.9和3.3个百分点。
  • Conclusion: 该方法在复杂动态植物结构中保持长期身份一致性方面表现出鲁棒性,为解决植物分枝跟踪中的阶段依赖性模糊问题提供了有效解决方案。

[58] Evaluation of deep learning architectures for wildlife object detection: A comparative study of ResNet and Inception

Malach Obisa Amonga,Benard Osero,Edna Too

Main category: cs.CV

TL;DR: 该研究评估了ResNet-101和Inception v3在野生动物检测中的表现,两者在复杂条件下均表现良好,Inception v3略优(95%准确率 vs 94%),但都面临相似物种和恶劣环境下的检测挑战。

  • Motivation: 野生动物检测对生物多样性保护、生态监测和栖息地保护至关重要,但面临环境变化、物种间视觉相似性和类内多样性等复杂挑战,需要评估深度学习模型在此类任务中的有效性。
  • Method: 使用ResNet-101和Inception v3两种深度学习架构,在野生动物图像数据集上进行训练和评估。采用标准化预处理:图像最大尺寸调整为800像素、转换为RGB格式、转为PyTorch张量。使用70:30的训练-验证分割比例。
  • Result: ResNet-101达到94%分类准确率和0.91 mAP,Inception v3达到95%分类准确率和0.92 mAP。Inception v3的并行卷积多尺度特征提取使其表现略优。两种模型在视觉相似物种、光照不足和遮挡情况下仍面临挑战。
  • Conclusion: ResNet-101和Inception v3都是有效的野生动物检测模型,为保护导向的计算机视觉应用提供了可靠基础,但需要进一步改进以应对相似物种和恶劣环境条件下的检测挑战。

[59] RUMPL: Ray-Based Transformers for Universal Multi-View 2D to 3D Human Pose Lifting

Seyed Abolfazl Ghasemzadeh,Alexandre Alahi,Christophe De Vleeschouwer

Main category: cs.CV

TL;DR: RUMPL提出基于Transformer的3D姿态提升器,使用3D射线表示2D关键点,实现无需相机标定和视图数量的通用多视角3D姿态估计。

  • Motivation: 现有多视角3D姿态估计方法受限于大规模真实多视角数据稀缺,且难以泛化到真实场景。传统方法依赖相机标定和固定视图配置,缺乏通用性。
  • Method: 基于MPL框架,提出RUMPL:1)引入3D射线表示2D关键点,消除对相机标定的依赖;2)设计View Fusion Transformer,通过融合射线token聚合多视角信息;3)支持任意多视角配置,无需重新训练或微调。
  • Result: 相比三角测量降低MPJPE达53%,相比基于Transformer的图像表示基线降低60%以上。在野外多视角和多人物数据集上验证了鲁棒性和可扩展性。
  • Conclusion: RUMPL提供了一种通用的多视角3D姿态估计框架,摆脱了对相机标定和固定视图配置的依赖,在多种场景下表现出优越性能。

[60] The LUMirage: An independent evaluation of zero-shot performance in the LUMIR challenge

Rohit Jena,Pratik Chaudhari,James C. Gee

Main category: cs.CV

TL;DR: 该论文对LUMIR挑战中深度学习配准方法的零样本泛化能力提出质疑,通过独立评估发现其在外域对比度和高分辨率数据上表现显著下降,与领域偏移的经典理论一致。

  • Motivation: LUMIR挑战声称深度学习配准方法在未见对比度和分辨率上具有卓越的零样本泛化能力,这与深度学习领域偏移的既定理解相矛盾。作者旨在通过独立评估验证这些声称,并解决潜在的仪器偏差问题。
  • Method: 采用严格的评估协议对深度学习配准方法进行独立再评估,重点关注零样本泛化能力。评估包括:1)同分布T1w图像和相近物种(猕猴)的性能;2)外域对比度(T2、T2*、FLAIR)的性能;3)高分辨率数据的可扩展性;4)对预处理选择的敏感性。
  • Result: 1)深度学习在T1w图像和猕猴数据上与迭代优化方法相当;2)在外域对比度上性能显著下降(Cohen's d=0.7-1.5);3)在高分辨率数据(0.6mm各向同性)上存在可扩展性限制;4)对预处理选择高度敏感。这些结果与领域偏移理论一致。
  • Conclusion: 深度学习配准方法的零样本泛化能力被夸大,实际性能在外域数据上显著下降。需要建立反映实际临床和研究工作流程的评估协议,而不是偏向特定方法类别的条件。

[61] Off The Grid: Detection of Primitives for Feed-Forward 3D Gaussian Splatting

Arthur Moreau,Richard Shaw,Michal Nazarczuk,Jisu Shin,Thomas Tanay,Zhensong Zhang,Songcen Xu,Eduardo Pérez-Pellitero

Main category: cs.CV

TL;DR: 提出一种新的前馈3D高斯泼溅架构,通过亚像素级高斯基元检测和自适应分布,取代传统像素网格,实现更高效、高质量的实时场景生成。

  • Motivation: 传统前馈3D高斯泼溅模型依赖密集、刚性的像素网格进行基元放置,导致质量和效率受限。需要一种更智能的基元分布方法来提升场景生成效果。
  • Method: 引入亚像素级3D高斯基元检测,用自适应"Off The Grid"分布取代像素网格。采用多分辨率解码器学习在图像块间分布基元,通过自监督学习端到端训练3D重建骨干网络。
  • Result: 模型在几秒内生成逼真场景,在前馈模型中达到最先进的新视角合成效果。使用更少基元却优于竞争对手,能捕捉精细细节并减少伪影。同时发现3D重建骨干网络能改进相机姿态估计。
  • Conclusion: 提出的自适应基元分布方法显著提升了前馈3D高斯泼溅的质量和效率,同时展示了无标签训练基础模型的潜力,为实时场景生成开辟了新方向。

[62] VAAS: Vision-Attention Anomaly Scoring for Image Manipulation Detection in Digital Forensics

Opeyemi Bamigbade,Mark Scanlon,John Sheppard

Main category: cs.CV

TL;DR: 提出VAAS框架,结合Vision Transformer全局注意力异常估计与SegFormer嵌入的局部自一致性评分,提供连续可解释的异常分数,用于检测AI生成图像伪造。

  • Motivation: AI驱动的图像生成技术给数字证据真实性验证带来新挑战,现有方法大多缺乏明确的异常强度度量,难以量化篡改严重程度。
  • Method: VAAS双模块框架:1) 基于Vision Transformer的全局注意力异常估计;2) 基于SegFormer嵌入的局部自一致性评分。混合方法提供连续可解释的异常分数。
  • Result: 在DF2023和CASIA v2.0数据集上评估,VAAS在F1和IoU指标上表现有竞争力,同时通过注意力引导的异常图增强视觉可解释性。
  • Conclusion: VAAS框架将定量检测与人类可理解的推理相结合,支持透明可靠的图像完整性评估,代码已开源。

[63] DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations

Yuxiang Shi,Zhe Li,Yanwen Wang,Hao Zhu,Xun Cao,Ligang Liu

Main category: cs.CV

TL;DR: DeX-Portrait:一种能够通过解耦的姿态和表情信号生成富有表现力的肖像动画的新方法,实现了对头部姿态和面部表情的高保真分离控制。

  • Motivation: 现有的扩散模型无法实现头部姿态和面部表情的高保真解耦控制,这限制了仅表情或仅姿态的编辑和动画应用。
  • Method: 1. 将姿态表示为显式全局变换,表情表示为隐式潜在编码;2. 设计运动训练器学习姿态和表情编码器以提取精确分解的驱动信号;3. 通过双分支条件机制将姿态变换注入扩散模型,通过交叉注意力注入表情潜在编码;4. 设计渐进式混合无分类器引导以保持身份一致性。
  • Result: 实验表明,该方法在动画质量和解耦可控性方面优于现有最先进的基线方法。
  • Conclusion: DeX-Portrait成功实现了对肖像动画中姿态和表情的高保真解耦控制,为仅表情或仅姿态的编辑和动画应用提供了有效解决方案。

[64] EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

Daiqing Wu,Dongbao Yang,Can Ma. Yu Zhou

Main category: cs.CV

TL;DR: EmoCaliber是一个用于视觉情感理解的置信度感知多模态大语言模型,通过三阶段训练框架使模型能够表达情感预测的置信度,提高VEC系统的可靠性。

  • Motivation: 当前多模态大语言模型在视觉情感理解中将情感预测视为确定性任务,输出单一情感标签,忽略了情感感知的主观性和替代解释的可能性,需要增强模型的可靠性。
  • Method: 提出三阶段训练框架:1) 结构化推理能力培养;2) 置信度表达能力教学;3) 置信度表达校准。最终开发出EmoCaliber模型。
  • Result: 在统一基准VECBench上的评估显示,EmoCaliber在情感预测和置信度估计方面均优于现有方法,验证了方法的有效性。
  • Conclusion: 通过使MLLMs能够表达情感预测的置信度,可以增强视觉情感理解系统的可靠性,EmoCaliber为实现更可靠的VEC系统迈出了可行的一步。

[65] An Efficient and Effective Encoder Model for Vision and Language Tasks in the Remote Sensing Domain

João Daniel Silva,Joao Magalhaes,Devis Tuia,Bruno Martins

Main category: cs.CV

TL;DR: GeoMELT是一个基于编码器架构的紧凑多任务学习模型,用于遥感图像文本生成和跨模态检索,相比大型视觉语言模型参数更少、计算成本更低。

  • Motivation: 大型视觉语言模型(LVLMs)在遥感多任务处理中表现出潜力,但其参数庞大导致训练和使用成本过高,限制了大多数机构的可及性。需要开发更紧凑高效的模型来解决遥感图像文本生成和跨模态检索等任务。
  • Method: 提出GeoMELT模型,采用编码器架构设计,专注于多任务高效学习。模型能够统一处理遥感图像文本生成和跨模态检索这两种通常不被统一处理的任务,同时保持参数数量的紧凑性。
  • Result: 在已建立的基准测试中,GeoMELT模型展示了其有效性和效率,证明了编码器架构在遥感多任务学习中的可行性,同时显著降低了计算成本。
  • Conclusion: 编码器架构的紧凑多任务学习模型能够有效解决遥感图像文本生成和跨模态检索任务,为资源受限的机构提供了可行的替代方案,平衡了性能与计算成本。

[66] BLANKET: Anonymizing Faces in Infant Video Recordings

Ditmar Hadera,Jan Cech,Miroslav Purkrabek,Matej Hoffmann

Main category: cs.CV

TL;DR: BLANKET是一种针对婴儿视频的人脸匿名化方法,通过扩散模型生成新身份并保持时间一致性,在保护面部属性和减少伪影方面优于DeepPrivacy2。

  • Motivation: 涉及人类受试者(特别是婴儿)的视频数据需要符合伦理的匿名化方法,现有方法在保护婴儿面部关键特征方面存在不足。
  • Method: 采用两阶段方法:1)使用扩散模型通过修复技术生成与原身份兼容的新随机人脸;2)通过时间一致的人脸交换和真实表情转移,将新身份无缝融入视频帧。
  • Result: 在婴儿短视频数据集上评估,与DeepPrivacy2相比,BLANKET在去识别化、面部属性保护、下游任务(如人体姿态估计)影响和伪影控制方面均表现更优。
  • Conclusion: BLANKET为婴儿视频数据提供了一种有效的匿名化解决方案,在保护隐私的同时保持了重要的面部特征,代码已开源供使用。

[67] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

Bozhou Li,Sihan Yang,Yushuo Guan,Ruichuan An,Xinlong Chen,Yang Shi,Pengfei Wan,Wentao Zhang,Yuanxing zhang

Main category: cs.CV

TL;DR: GRAN-TED提出了一种新的文本编码器评估框架TED-6K和两阶段训练方法,显著提升了文本到图像/视频生成的质量。

  • Motivation: 文本编码器是文本到图像/视频扩散模型的关键组件,但面临两大挑战:缺乏能可靠预测下游生成性能的高效评估框架,以及难以有效将预训练语言模型适配到视觉合成任务。
  • Method: 1) 提出TED-6K文本基准,通过轻量级统一适配器标准化评估编码器表示质量;2) 开发两阶段训练范式:先在多模态大语言模型上进行微调以获得更好的视觉表示,然后使用层加权方法提取更细致强大的文本特征。
  • Result: TED-6K性能与下游生成任务效果强相关;GRAN-TED编码器在TED-6K上达到最先进性能,并在文本到图像和文本到视频生成中带来显著性能提升。
  • Conclusion: GRAN-TED通过创新的评估框架和训练方法,解决了文本编码器发展的关键瓶颈,为文本到视觉生成系统提供了更鲁棒、对齐和细致的文本嵌入。

[68] On the Effectiveness of Textual Prompting with Lightweight Fine-Tuning for SAM3 Remote Sensing Segmentation

Roni Blushtein-Livnon,Osher Rafaeli,David Ioffe,Amir Boger,Karen Sandberg Esquenazi,Tal Svoray

Main category: cs.CV

TL;DR: SAM3框架通过文本提示生成遥感图像分割掩码,结合语义和几何提示策略在有限监督下实现有效适应,几何标注对不规则目标尤其重要。

  • Motivation: 遥感图像分割面临标注数据有限以及航空影像与自然图像之间的差异问题,需要开发在有限监督下的有效适应方法。
  • Method: 使用SAM3概念驱动框架,通过文本提示生成掩码而无需任务特定修改,评估文本、几何和混合提示策略,在轻量级微调尺度下进行实验。
  • Result: 结合语义和几何线索的混合提示在所有目标和指标上表现最佳;文本提示表现最差,尤其对不规则形状目标;轻量微调在几何规则和视觉显著目标上提供实用性能-努力权衡;适度几何标注足以实现有效适应。
  • Conclusion: 几何信息对遥感图像分割至关重要,尤其对于不规则目标;有限监督下SAM3能够有效适应,但欠分割和边界不准确仍是主要误差模式。

[69] MoonSeg3R: Monocular Online Zero-Shot Segment Anything in 3D with Reconstructive Foundation Priors

Zhipeng Du,Duolikun Danier,Jan Eric Lenssen,Hakan Bilen

Main category: cs.CV

TL;DR: MoonSeg3R:首个在线单目3D实例分割方法,利用CUT3R重建基础模型从单目RGB流获取几何先验,无需RGB-D序列

  • Motivation: 现有3D实例分割方法依赖带姿态的RGB-D序列,无法在仅有单目RGB流的在线场景下工作,需要解决这一实际应用限制
  • Method: 提出三个关键组件:1)自监督查询精炼模块,通过空间语义蒸馏将2D视觉基础模型的分割掩码转化为判别性3D查询;2)3D查询索引内存,通过检索上下文查询提供时间一致性;3)来自CUT3R的状态分布令牌,作为掩码身份描述符增强跨帧融合
  • Result: 在ScanNet200和SceneNN数据集上,MoonSeg3R是首个实现在线单目3D分割的方法,性能与最先进的RGB-D系统相当
  • Conclusion: MoonSeg3R成功解决了在线零样本单目3D实例分割的挑战,通过利用重建基础模型和创新的查询机制,实现了无需RGB-D序列的高性能3D分割

[70] IMKD: Intensity-Aware Multi-Level Knowledge Distillation for Camera-Radar Fusion

Shashank Mishra,Karan Patil,Didier Stricker,Jason Rambach

Main category: cs.CV

TL;DR: IMKD是一种基于多层次知识蒸馏的雷达-相机融合框架,通过三阶段强度感知蒸馏策略,在保持各传感器固有特性的同时增强互补优势,在nuScenes基准上达到67.0% NDS和61.0% mAP的SOTA性能。

  • Motivation: 现有知识蒸馏方法通常直接将模态特定特征转移到每个传感器,这会扭曲其独特特性并削弱各自优势。需要一种能够保持传感器固有特性同时增强互补优势的融合方法。
  • Method: 提出IMKD框架,采用三阶段强度感知蒸馏策略:1) LiDAR到雷达的强度感知特征蒸馏,用细粒度结构线索增强雷达表示;2) LiDAR到融合特征的强度引导蒸馏,选择性突出几何和深度信息;3) 相机-雷达强度引导融合机制,促进特征对齐和校准。
  • Result: 在nuScenes基准测试中达到67.0% NDS和61.0% mAP,超越了所有先前的基于蒸馏的雷达-相机融合方法。
  • Conclusion: IMKD通过多层次知识蒸馏有效保持了雷达和相机的固有特性,同时增强了它们的互补优势,实现了高性能的3D目标检测,无需在推理时使用LiDAR。

[71] FlexAvatar: Learning Complete 3D Head Avatars with Partial Supervision

Tobias Kirschstein,Simon Giebenhain,Matthias Nießner

Main category: cs.CV

TL;DR: FlexAvatar是一种从单张图像创建高质量完整3D头部化身的方法,通过可学习数据源令牌的统一训练,结合单目和多视角数据的优势,解决了单目训练导致的3D重建不完整问题。

  • Motivation: 现有方法面临多视角数据有限和单目训练导致3D头部重建不完整的问题。核心挑战在于从单目视频学习时,驱动信号和目标视角之间的纠缠关系。
  • Method: 提出基于Transformer的3D肖像动画模型,引入可学习数据源令牌(bias sinks),实现单目和多视角数据集的统一训练。利用两种数据源的优势:单目数据的强泛化能力和多视角监督的完整3D重建。
  • Result: 在单视角、少样本和单目化身创建任务上的广泛评估验证了FlexAvatar的有效性。相比现有方法在视角外推上的困难,FlexAvatar能生成完整的3D头部化身并实现逼真的面部动画。
  • Conclusion: FlexAvatar通过统一训练框架成功解决了单目3D重建不完整的问题,创建了平滑的潜在化身空间,支持身份插值和灵活适应任意数量的输入观测,在3D头部化身创建方面表现出色。

[72] Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

Shengming Yin,Zekai Zhang,Zecheng Tang,Kaiyuan Gao,Xiao Xu,Kun Yan,Jiahao Li,Yilei Chen,Yuxiang Chen,Heung-Yeung Shum,Lionel M. Ni,Jingren Zhou,Junyang Lin,Chenfei Wu

Main category: cs.CV

TL;DR: Qwen-Image-Layered是一种端到端扩散模型,可将单张RGB图像分解为多个语义解耦的RGBA图层,实现固有可编辑性,每个图层可独立操作而不影响其他内容。

  • Motivation: 当前视觉生成模型在图像编辑时存在一致性问题,因为栅格图像将所有视觉内容融合到单一画布上。而专业设计工具采用分层表示,允许隔离编辑同时保持一致性。
  • Method: 提出三个关键组件:1) RGBA-VAE统一RGB和RGBA图像的潜在表示;2) VLD-MMDiT架构支持可变数量图像层分解;3) 多阶段训练策略将预训练图像生成模型适配为多层图像分解器。还构建了从PSD文件中提取和标注多层图像的流程。
  • Result: 实验表明,该方法在分解质量上显著超越现有方法,为一致性图像编辑建立了新范式。
  • Conclusion: Qwen-Image-Layered通过分层表示解决了图像编辑的一致性问题,实现了固有可编辑性,为视觉生成模型提供了新的编辑范式。

[73] Robust Multi-view Camera Calibration from Dense Matches

Johannes Hägerlind,Bao-Long Tran,Urs Waldmann,Per-Erik Forssén

Main category: cs.CV

TL;DR: 提出一种改进SfM流程的稳健相机姿态估计与标定方法,通过优化对应点采样和视图增量添加策略,显著提升强径向畸变相机的精度

  • Motivation: 虽然SfM技术在相机内外参估计方面已有进步,但在动物行为研究和监控视频分析等应用中,对于多视角刚性相机系统的稳健姿态估计仍存在挑战
  • Method: 分析SfM流程各组件,提出两项改进:1) 研究如何最佳子采样密集匹配器预测的对应点以用于估计过程;2) 研究增量添加视图的选择标准
  • Result: 在强径向畸变相机上取得显著改进(79.9% vs 40.4% baseline),在全局SfM设置中验证了对应点子采样的有效性,方法适用于多种相机配置
  • Conclusion: 提出的改进SfM流程在动物行为研究和法医视频分析等应用中具有实用价值,能够处理包括强径向畸变在内的各种相机配置

[74] Persistent feature reconstruction of resident space objects (RSOs) within inverse synthetic aperture radar (ISAR) images

Morgan Coe,Gruffudd Jones,Leah-Nani Alconcel,Marina Gashinova

Main category: cs.CV

TL;DR: 该论文提出使用亚太赫兹逆合成孔径雷达(ISAR)进行空间目标感知,通过序列特征检测和跟踪技术识别卫星外部结构,提高特征检测和分类的置信度。

  • Motivation: 随着近地空间环境中居民空间物体(RSOs)数量快速增长,需要获取其状态和能力的详细信息以实现空间域感知(SDA)。空间基传感能够在更短距离、不受大气影响、全方位地检查RSOs。
  • Method: 使用亚太赫兹ISAR成像系统,通过元启发式模拟器生成ISAR图像序列。采用梯度比方法进行边缘检测,使用双加权霍夫变换检测线性特征,并通过仿射变换实现帧间对齐,最后进行序列特征跟踪。
  • Result: 该方法能够在100公里范围内实现亚厘米级分辨率,通过序列特征跟踪提高了特征检测和分类的置信度,并以阴影检测为例展示了方法的鲁棒性。
  • Conclusion: 提出的序列特征检测和跟踪方法能够有效提高空间目标外部结构识别的准确性和可靠性,为空间域感知提供了有效的技术手段。

[75] OccSTeP: Benchmarking 4D Occupancy Spatio-Temporal Persistence

Yu Zheng,Jie Hu,Kailun Yang,Jiaming Zhang

Main category: cs.CV

TL;DR: 提出4D占据时空持续性(OccSTeP)概念,包含反应式预测和主动式预测任务,并构建相应基准。提出OccSTeP-WM模型,使用线性复杂度注意力机制和循环状态空间模块,在传感器输入缺失或噪声时仍能保持鲁棒性能。

  • Motivation: 自动驾驶需要对3D场景有持续的理解,这种理解需要能够应对时间干扰并考虑潜在的未来行动。现有方法在应对语义标签错误、丢帧等挑战性场景时存在不足。
  • Method: 提出OccSTeP-WM模型:1) 维护密集体素化场景状态;2) 使用线性复杂度注意力机制捕获长距离空间依赖;3) 结合循环状态空间模块随时间增量融合时空上下文;4) 通过自运动补偿持续更新场景记忆;5) 支持在线推理。
  • Result: 在OccSTeP基准测试中,语义mIoU达到23.70%(提升6.56%),占据IoU达到35.89%(提升9.26%)。模型在传感器输入缺失或噪声时仍能保持鲁棒性能。
  • Conclusion: OccSTeP概念和OccSTeP-WM模型有效解决了自动驾驶中的时空持续性理解问题,特别是在挑战性场景下表现出色。代码和数据将开源。

[76] Towards Physically-Based Sky-Modeling For Image Based Lighting

Ian J. Maquignaz

Main category: cs.CV

TL;DR: AllSky:一种从物理捕获的HDRI直接学习的灵活全天候天空模型,在用户控制的太阳位置和云层形态下,实现了最先进的天空建模性能,解决了现有DNN天空模型无法支持真实感和完整动态范围的问题。

  • Motivation: 现有天空模型在真实再现自然天空方面存在不足,特别是DNN生成的HDR环境图无法像物理捕获的HDRI那样准确重照明场景(色调、阴影、光照不一致),且无法同时支持真实感和室外照明所需的22档完整动态范围。
  • Method: 提出AllSky模型,直接从物理捕获的HDRI学习,研究天空模型的输入模态、色调映射、条件设置和评估方法。模型允许用户直观控制太阳位置和云层形态,扩展了现有功能。
  • Result: AllSky实现了最先进的天空模型性能,通过提出的评估方法证明现有DNN天空模型无法与物理捕获的HDRI或参数化天空模型互换,当前限制阻碍了下游应用的可扩展性和准确照明。
  • Conclusion: 该工作填补了HDR文献中天空建模的空白,AllSky模型在保持真实感的同时支持完整动态范围,为室外场景的逼真渲染提供了更准确的环境图解决方案。

[77] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

Yuanhang Li,Yiren Song,Junzhe Bai,Xinran Liang,Hu Yang,Libiao Jin,Qi Mao

Main category: cs.CV

TL;DR: IC-Effect:基于指令引导和DiT的少样本视频VFX编辑框架,能在严格保持时空一致性的同时合成复杂特效(如火焰、粒子、卡通角色)

  • Motivation: 视频VFX编辑面临三大挑战:特效需要与背景无缝融合、背景必须完全保持不变、需要从有限的配对数据中高效学习特效模式。现有视频编辑模型无法满足这些要求。
  • Method: 1. 利用源视频作为干净的上下文条件,发挥DiT模型的上下文学习能力实现精确背景保持和自然特效注入;2. 两阶段训练策略:通用编辑适应后通过Effect-LoRA进行特效特定学习;3. 引入时空稀疏标记化以降低计算成本;4. 发布包含15种高质量视觉风格的配对VFX编辑数据集
  • Result: IC-Effect能够实现高质量、可控且时间一致的VFX编辑,为视频创作开辟了新可能性。实验证明该方法在保持背景不变的同时能有效合成复杂特效。
  • Conclusion: IC-Effect通过指令引导的DiT框架解决了视频VFX编辑的关键挑战,实现了精确的背景保持和自然的特效注入,为视频特效编辑提供了高效、高质量的解决方案。

[78] InpaintDPO: Mitigating Spatial Relationship Hallucinations in Foreground-conditioned Inpainting via Diverse Preference Optimization

Qirui Li,Yizhe Tang,Ran Yi,Guangben Lu,Fangyuan Zou,Peng Shu,Huan Yu,Jie Jiang

Main category: cs.CV

TL;DR: InpaintDPO:首个基于直接偏好优化的前景条件修复框架,专门解决前景与背景之间的空间关系幻觉问题,通过MaskDPO、条件非对称偏好优化和共享共性偏好优化等技术提升空间合理性。

  • Motivation: 当前前景条件修复方法存在空间关系幻觉问题,包括不恰当的比例、位置关系和视角。由于空间合理性的主观性难以量化,传统基于奖励的RLHF方法难以应用,需要专门解决空间合理性的优化框架。
  • Method: 提出InpaintDPO框架:1) MaskDPO将偏好优化限制在背景区域,避免梯度冲突;2) 条件非对称偏好优化通过差异化裁剪操作增强边界一致性;3) 共享共性偏好优化从高质量获胜样本中学习空间共性。
  • Result: 该框架能有效解决前景与背景之间的空间关系幻觉问题,确保前景与背景元素之间的空间关系合理性,提升前景条件修复的质量和一致性。
  • Conclusion: InpaintDPO是首个专门针对前景条件修复中空间合理性问题的DPO框架,通过创新的优化策略有效解决了空间关系幻觉问题,为可控图像生成提供了重要技术支撑。

[79] Hard Labels In! Rethinking the Role of Hard Labels in Mitigating Local Semantic Drift

Jiacheng Cui,Bingkui Tong,Xinyue Bi,Xiaohan Zhao,Jiacheng Liu,Zhiqiang shen

Main category: cs.CV

TL;DR: 本文提出HALD方法,通过结合硬标签来校准软标签中的局部语义漂移问题,在数据集蒸馏和分类任务中取得显著改进。

  • Motivation: 研究发现当每个图像仅使用有限数量的裁剪时,软标签容易出现局部语义漂移问题:裁剪图像可能在视觉上类似于另一个类别,导致其软嵌入偏离原始图像的真实语义。这种局部视觉内容与全局语义意义之间的不匹配引入了系统误差和训练测试之间的分布不对齐。
  • Method: 提出HALD(Hard Label for Alleviating Local Semantic Drift)训练范式,将硬标签作为中间校正信号,同时保留软标签的细粒度优势。理论上分析了在少量软标签监督下漂移的出现,并证明软硬标签混合可以恢复视觉内容与语义监督之间的对齐。
  • Result: 在数据集蒸馏和大规模常规分类基准测试中验证了方法的有效性。在ImageNet-1K上,仅使用285M存储的软标签就达到42.7%的准确率,比之前最先进的LPLD方法提高了9.0%。
  • Conclusion: 研究重新确立了硬标签作为补充工具的重要性,呼吁重新思考硬标签在软标签主导的训练中的作用。软硬标签的适当结合可以提供强大的内容无关锚点来校准语义漂移。

[80] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

Hongbo Zhao,Meng Wang,Fei Zhu,Wenzhuo Liu,Bolin Ni,Fanhu Zeng,Gaofeng Meng,Zhaoxiang Zhang

Main category: cs.CV

TL;DR: 论文提出了首个视觉文本压缩(VTC)基准测试,系统评估了视觉语言模型在长上下文理解能力,发现尽管VTC能实现3-20倍的token压缩,但大多数模型在压缩信息的长关联理解上表现不佳。

  • Motivation: LLMs扩展上下文窗口带来的计算和内存开销严重限制了其可扩展性。视觉文本压缩(VTC)解决方案(如DeepSeek-OCR和Glyph)能将长文本转换为密集的2D视觉表示,实现3-20倍的token压缩,但这种高信息密度对视觉语言模型核心长上下文能力的影响尚未得到充分研究。
  • Method: 1. 提出首个VTC基准测试,系统评估VLMs在三种长上下文理解设置下的性能:VTC-Retrieval(检索和聚合信息)、VTC-Reasoning(推断潜在关联定位事实)、VTC-Memory(长期对话记忆中的全面问答)。2. 建立VTCBench-Wild模拟多样化输入场景。3. 全面评估领先的开源和专有模型。
  • Result: 尽管大多数VLMs能够很好地解码文本信息(如OCR),但在VTC压缩信息的长上下文理解能力上表现令人惊讶地差,无法捕捉上下文中的长关联或依赖关系。
  • Conclusion: 这项研究提供了对VTC的深入理解,并为设计更高效和可扩展的VLMs奠定了基础。研究表明当前VLMs在压缩信息的长上下文理解方面存在显著不足,需要进一步改进。

[81] Stylized Synthetic Augmentation further improves Corruption Robustness

Georg Siedel,Rojan Regmi,Abhirami Anand,Weijia Shao,Silvia Vock,Andrey Morozov

Main category: cs.CV

TL;DR: 提出结合合成图像与神经风格迁移的数据增强方法,提升深度视觉模型对常见图像损坏的鲁棒性

  • Motivation: 深度视觉模型对常见图像损坏(如噪声、模糊等)很脆弱,需要提升模型的鲁棒性
  • Method: 使用合成图像数据与神经风格迁移相结合的数据增强管道,系统分析不同增强方法及其超参数的影响
  • Result: 在CIFAR-10-C、CIFAR-100-C和TinyImageNet-C上分别达到93.54%、74.9%和50.86%的鲁棒准确率,达到SOTA水平
  • Conclusion: 风格迁移和合成数据相互补充,可与TrivialAugment等规则增强方法结合,有效提升模型对图像损坏的鲁棒性

[82] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

Yifei Li,Wenzhao Zheng,Yanran Zhang,Runze Sun,Yu Zheng,Lei Chen,Jie Zhou,Jiwen Lu

Main category: cs.CV

TL;DR: Skyra是一个专门的多模态大语言模型,通过识别AI生成视频中人类可感知的视觉伪影,为检测和解释提供依据,在多个基准测试中超越现有方法。

  • Motivation: AI驱动的视频生成技术滥用引发严重社会担忧,迫切需要可靠的AI生成视频检测器。现有方法大多局限于二元分类,缺乏对人类可解释的解释。
  • Method: 1) 构建ViF-CoT-4K数据集:首个大规模AI生成视频伪影数据集,带有细粒度人工标注;2) 开发两阶段训练策略:系统提升模型的时空伪影感知、解释能力和检测准确性;3) 提出Skyra模型:专门的多模态大语言模型,识别人类可感知的视觉伪影作为检测和解释的依据。
  • Result: Skyra在多个基准测试中超越现有方法。构建的ViF-Bench基准包含3K高质量样本,由十多个最先进的视频生成器生成。评估结果为推进可解释的AI生成视频检测提供了宝贵见解。
  • Conclusion: Skyra通过识别视觉伪影作为证据,实现了可解释的AI生成视频检测,为应对AI视频生成技术滥用提供了有效解决方案,并为该领域的发展提供了重要数据集和基准。

[83] VLIC: Vision-Language Models As Perceptual Judges for Human-Aligned Image Compression

Kyle Sargent,Ruiqi Gao,Philipp Henzler,Charles Herrmann,Aleksander Holynski,Li Fei-Fei,Jiajun Wu,Jason Zhang

Main category: cs.CV

TL;DR: 利用视觉语言模型(VLM)的零样本能力来评估图像压缩质量,提出VLIC系统,通过VLM的二元判断进行后训练,实现与人类感知对齐的图像压缩。

  • Motivation: 传统图像压缩评估指标(如MSE)与人类感知不一致,现有方法需要在大规模人类视觉判断数据集上训练感知损失网络。作者发现VLM可以零样本复现人类的二元选择判断,因此希望利用VLM的零样本视觉推理能力来改进图像压缩。
  • Method: 提出VLIC系统:基于扩散模型的图像压缩框架,直接使用VLM的二元判断进行后训练,而不是将VLM判断蒸馏到单独的感知损失网络中。系统利用现有的扩散模型偏好后训练技术,通过VLM的二元选择反馈来优化压缩模型。
  • Result: 在不同数据集上,VLIC系统在人类对齐的视觉压缩方面表现出竞争性或最先进的性能,通过感知指标和大规模用户研究验证。同时深入分析了VLM奖励设计和训练过程,提供了重要见解。
  • Conclusion: VLM可以有效地用于图像压缩系统的感知对齐,VLIC系统展示了利用VLM零样本能力进行压缩优化的可行性,为人类感知对齐的图像压缩提供了新方法。

[84] End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

Yuwei Guo,Ceyuan Yang,Hao He,Yang Zhao,Meng Wei,Zhenheng Yang,Weilin Huang,Dahua Lin

Main category: cs.CV

TL;DR: 提出Resampling Forcing框架,通过自重采样模拟推理误差,结合稀疏因果掩码实现并行训练,解决自回归视频扩散模型的曝光偏差问题,无需教师模型或在线判别器。

  • Motivation: 自回归视频扩散模型存在曝光偏差问题(训练-测试不匹配),现有方法通常依赖双向教师模型或在线判别器进行后训练,缺乏端到端的解决方案。
  • Method: 提出Resampling Forcing框架:1)自重采样方案在训练时模拟推理阶段的历史帧误差;2)稀疏因果掩码确保时间因果性同时支持并行训练;3)历史路由机制动态检索最相关的历史帧以支持长序列生成。
  • Result: 实验表明该方法性能与基于蒸馏的基线相当,在长视频上表现出更好的时间一致性,得益于原生长度训练。
  • Conclusion: Resampling Forcing提供了一个无需教师模型的端到端解决方案,有效解决了自回归视频扩散模型的曝光偏差问题,支持长序列视频生成。

[85] GateFusion: Hierarchical Gated Cross-Modal Fusion for Active Speaker Detection

Yu Wang,Juhyung Ha,Frangil M. Ramirez,Yuchen Wang,David J. Crandall

Main category: cs.CV

TL;DR: GateFusion:一种新颖的主动说话人检测架构,通过分层门控融合解码器实现渐进式多深度跨模态融合,结合两个辅助目标函数,在多个基准测试中达到SOTA性能。

  • Motivation: 现有ASD方法多采用后期融合策略,难以捕捉细粒度的跨模态交互,这在非约束场景下对鲁棒性能至关重要。需要一种能够更好地整合视觉和音频特征的融合机制。
  • Method: 提出GateFusion架构:1)使用预训练的单模态编码器提取特征;2)设计分层门控融合解码器(HiGate),通过可学习的双模态条件门控,在Transformer骨干网络的多个层级自适应地注入跨模态上下文特征;3)引入两个辅助目标函数:掩码对齐损失(MAL)和对齐单模态与多模态输出,以及过正惩罚(OPP)抑制虚假的视频激活。
  • Result: 在多个ASD基准测试中达到新的SOTA:Ego4D-ASD上mAP 77.8%(提升9.4%),UniTalk上86.1%(提升2.9%),WASD上96.1%(提升0.5%),在AVA-ActiveSpeaker上也表现出竞争力。跨域实验证明了模型的泛化能力,消融实验验证了各组件互补性。
  • Conclusion: GateFusion通过渐进式多深度融合机制和辅助目标函数,显著提升了主动说话人检测的性能,在多个挑战性基准上建立了新的SOTA,并展现出良好的泛化能力。

[86] Multi-View Foundation Models

Leo Segre,Or Hirschorn,Shai Avidan

Main category: cs.CV

TL;DR: 提出将基础模型转换为多视角基础模型的方法,通过添加3D感知注意力层实现跨视角特征一致性,避免构建3D特征模型

  • Motivation: 现有基础模型处理多视角图像时,对同一3D点在不同视角下产生的特征不一致,需要解决跨视角特征匹配问题
  • Method: 在Transformer基础模型(DINO、SAM、CLIP)中添加中间3D感知注意力层,使模型能够匹配不同视角的特征,保持对应点特征一致性
  • Result: 在表面法线估计和多视角分割任务上表现优异,相比现有基础模型显著提升了特征匹配能力
  • Conclusion: 提出的多视角基础模型转换方法有效解决了跨视角特征一致性问题,为3D场景理解提供了直接图像空间操作的新途径

[87] Gaussian Pixel Codec Avatars: A Hybrid Representation for Efficient Rendering

Divam Gupta,Anuj Pahuja,Nemanja Bartolovic,Tomas Simon,Forrest Iandola,Giljoo Nam

Main category: cs.CV

TL;DR: GPiCA是一种结合三角形网格和3D高斯分布的混合表示方法,用于创建可从多视角图像生成并在移动设备上高效渲染的逼真头部虚拟形象。

  • Motivation: 现有方法在逼真度和渲染效率之间存在权衡:纯高斯方法逼真但计算量大,网格方法高效但逼真度不足。需要一种既能保持逼真外观又能在移动设备上高效渲染的解决方案。
  • Method: 采用三角形网格和3D高斯的混合表示:网格高效表示面部皮肤等表面区域,高斯分布处理头发胡须等非表面区域。开发统一的微分渲染管道,将网格作为半透明层融入3D高斯溅射的体积渲染范式。训练神经网络将面部表情代码解码为3D面部网格、RGBA纹理和3D高斯集合。
  • Result: GPiCA实现了纯高斯虚拟形象的逼真度,同时达到了基于网格虚拟形象的渲染性能,能够在移动设备上高效渲染。
  • Conclusion: GPiCA通过创新的混合表示方法,成功解决了逼真虚拟形象在移动设备上的高效渲染问题,为移动端应用提供了高质量的虚拟形象解决方案。

[88] DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

Lunbin Zeng,Jingfeng Yao,Bencheng Liao,Hongyuan Tao,Wenyu Liu,Xinggang Wang

Main category: cs.CV

TL;DR: DiffusionVL:将现有自回归模型转换为扩散视觉语言模型的新方法,通过少量数据微调实现性能大幅提升和推理加速

  • Motivation: 扩散范式在多模态研究中具有独特的解码优势,但现有扩散视觉语言模型性能落后于主流自回归模型。研究探索是否能够基于现有强大的自回归模型构建扩散视觉语言模型。
  • Method: 提出DiffusionVL方法,通过简单微调将自回归预训练模型适配到扩散范式,并引入支持任意长度生成和KV缓存重用的块解码设计,显著加速推理。
  • Result: 使用不到先前方法5%的数据进行训练,在MMMU-Pro(视觉)基准上获得34.4%提升,在MME(认知)基准上获得37.5%提升,同时实现2倍推理加速,性能与LLaVA风格视觉指令调优相当。
  • Conclusion: 自回归模型向扩散范式的转换是有效且可行的,DiffusionVL为构建高性能扩散视觉语言模型提供了新途径,在性能、效率和数据效率方面均有显著优势。

[89] In Pursuit of Pixel Supervision for Visual Pre-training

Lihe Yang,Shang-Wen Li,Yang Li,Xinjie Lei,Dong Wang,Abdelrahman Mohamed,Hengshuang Zhao,Hu Xu

Main category: cs.CV

TL;DR: Pixio是一种增强的掩码自编码器,在20亿网络图像上训练,在多种下游任务中表现优异,证明像素空间自监督学习是潜在空间方法的有效替代和补充。

  • Motivation: 像素是视觉信息的基本来源,包含从低级属性到高级概念的所有信息。自编码器作为学习原始输入表示的经典范式,作者希望证明基于自编码器的自监督学习在今天仍然具有竞争力,能够为下游任务提供强大的表示。
  • Method: Pixio是一种增强的掩码自编码器(MAE),具有更具挑战性的预训练任务和更强大的架构。模型在20亿网络爬取图像上训练,采用自筛选策略,最小化人工筛选。通过像素空间的自监督学习来学习表示。
  • Result: Pixio在多种下游任务中表现优异,包括单目深度估计(如Depth Anything)、前馈3D重建(MapAnything)、语义分割和机器人学习,性能优于或匹配相似规模的DINOv3。
  • Conclusion: 像素空间的自监督学习可以作为潜在空间方法的有前景的替代和补充方案,自编码器范式在今天仍然具有竞争力。

[90] Spatia: Video Generation with Updatable Spatial Memory

Jinjing Zhao,Fangyun Wei,Zhening Liu,Hongyang Zhang,Chang Xu,Yan Lu

Main category: cs.CV

TL;DR: Spatia是一个空间记忆感知的视频生成框架,通过维护3D场景点云作为持久空间记忆来提升视频的长期时空一致性,支持相机控制和3D感知编辑。

  • Motivation: 现有视频生成模型在处理密集高维视频信号时难以保持长期时空一致性,需要一种能够维持空间记忆的方法来解决这一问题。
  • Method: 提出Spatia框架,将3D场景点云作为持久空间记忆,通过迭代生成视频片段并利用视觉SLAM动态更新空间记忆,实现动态-静态解耦设计。
  • Result: 该框架增强了生成过程中的空间一致性,同时保持了生成逼真动态实体的能力,支持显式相机控制和3D感知交互编辑等应用。
  • Conclusion: Spatia提供了一个几何基础的空间记忆驱动视频生成框架,能够有效解决长期时空一致性问题,为可扩展的视频生成提供了新方向。

cs.RO

[91] HERO: Hierarchical Traversable 3D Scene Graphs for Embodied Navigation Among Movable Obstacles

Yunheng Wang,Yixiao Feng,Yuetong Fang,Shuning Zhang,Tan Jing,Jian Li,Xiangrui Jiang,Renjing Xu

Main category: cs.RO

TL;DR: HERO框架通过构建层次化可通行3D场景图,将可操作障碍物重新定义为通路,显著提升了智能体在复杂环境中的导航效率和可达性。

  • Motivation: 现有3D场景图导航方法基于静态世界假设,将可交互障碍物视为不可通行,导致在真实场景中可达性有限、效率低下、扩展性差。
  • Method: 提出HERO框架构建层次化可通行3D场景图,重新定义可通行性,将可操作障碍物建模为通路,捕捉其物理交互性、功能语义和场景关系层次。
  • Result: 在部分阻塞环境中路径长度减少35.1%,在完全阻塞环境中成功率提升79.4%,显著提高了导航效率和可达性。
  • Conclusion: HERO通过建模障碍物的交互性和功能性,突破了传统静态世界假设的限制,为智能体在复杂真实环境中的导航提供了更有效的解决方案。

[92] BEV-Patch-PF: Particle Filtering with BEV-Aerial Feature Matching for Off-Road Geo-Localization

Dongmyeong Lee,Jesse Quattrociocchi,Christian Ellis,Rwik Rana,Amanda Adkins,Adam Uccello,Garrett Warnell,Joydeep Biswas

Main category: cs.RO

TL;DR: BEV-Patch-PF:一种无需GPS的序列化地理定位系统,通过粒子滤波结合鸟瞰图(BEV)和航空特征图,在越野环境中实现高精度实时定位

  • Motivation: 解决在无GPS环境(如茂密树冠下)的机器人定位问题,传统基于检索的方法精度不足,需要更鲁棒的序列化定位方案
  • Method: 使用粒子滤波框架,从车载RGB和深度图像构建BEV特征图,从局部航空图像提取航空特征图,通过特征匹配计算粒子似然度
  • Result: 在两个真实越野数据集上,相比基于检索的基线方法,在已见路线上绝对轨迹误差降低7.5倍,在未见路线上降低7.0倍,在茂密树冠和阴影下仍保持精度,实时运行频率达10Hz
  • Conclusion: BEV-Patch-PF系统实现了无需GPS的高精度实时地理定位,在挑战性越野环境中表现出色,适用于实际机器人部署

[93] EPSM: A Novel Metric to Evaluate the Safety of Environmental Perception in Autonomous Driving

Jörg Gamerdinger,Sven Teufel,Stephan Amann,Lukas Marc Listl,Oliver Bringmann

Main category: cs.RO

TL;DR: 提出一种新的感知系统安全评估框架,结合物体和车道检测的安全指标,识别传统性能指标无法捕捉的安全关键错误

  • Motivation: 传统感知评估指标(如精确率、召回率、F1分数)只关注整体检测准确性,未考虑安全相关因素,可能导致高评分系统仍存在引发严重事故的误检测
  • Method: 提出一个联合评估框架,包含:1)轻量级物体安全指标,量化物体检测错误相关的潜在风险;2)车道安全指标,考虑两个任务在安全评估中的相互依赖关系;3)结合的安全评分提供统一可解释的感知安全性能度量
  • Result: 在DeepAccident数据集上验证,该方法能识别传统性能指标无法捕捉的安全关键感知错误,强调安全中心评估方法的重要性
  • Conclusion: 感知系统的安全评估至关重要,提出的安全指标框架能更全面地评估自动驾驶感知系统的安全性能,弥补传统评估方法的不足

[94] MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training

Zhenhan Yin,Xuanhan Wang,Jiahao Jiang,Kaiyuan Deng,Pengqi Chen,Shuangle Li,Chong Liu,Xing Xu,ingkuan Song,Lianli Gao,Heng Tao Shen

Main category: cs.RO

TL;DR: MiVLA通过人机双向模仿预训练,利用人手与机械臂的行为相似性建立行为先验,提升视觉语言动作模型在跨视角、外观和形态差异下的泛化能力。

  • Motivation: 现有视觉语言动作模型(VLA)虽然可以利用丰富的人类视频和模拟机器人数据解决真实机器人数据稀缺问题,但由于相机视角、视觉外观和形态差异,其泛化能力仍然有限。
  • Method: 提出MiVLA,通过人机双向模仿预训练,利用左右手坐标系下的运动学规则实现人与机器人动作空间的双向对齐。模型训练时,给定人类或模拟机器人演示,MiVLA预测一个形态的行为轨迹,同时模仿演示中未见形态的行为。
  • Result: 在ARX、PiPer和LocoMan三个机器人平台上的仿真和真实世界实验中,MiVLA显著提升了泛化能力,在仿真中超越现有最佳VLA模型25%,在真实机器人控制任务中提升14%。
  • Conclusion: 通过人机双向模仿预训练,MiVLA成功整合了真实人类数据的行为保真度和模拟机器人数据的操作多样性,构建了统一的泛化模型,有效解决了跨形态机器人控制的泛化挑战。

[95] mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs

Jonas Pai,Liam Achenbach,Victoriano Montesinos,Benedek Forrai,Oier Mees,Elvis Nava

Main category: cs.RO

TL;DR: 提出Video-Action Model (VAM),通过预训练的视频模型捕获语义和视觉动态,结合流匹配动作解码器,显著提升机器人操作任务的样本效率和收敛速度。

  • Motivation: 当前视觉-语言-动作模型(VLAs)依赖大规模静态网络数据预训练,缺乏物理因果理解,需要大量专家数据来补偿动态推断能力。视频数据能同时捕获语义和视觉动态,是更有效的预训练范式。
  • Method: 提出VAM模型:1) 使用预训练的互联网规模视频模型;2) 基于流匹配的动作解码器,以视频潜在表示为条件;3) 解码器作为逆动力学模型,从视频空间动作计划的潜在表示生成低级机器人动作。
  • Result: 在模拟和真实世界机器人操作任务中达到最先进性能,相比传统VLA架构,样本效率提升10倍,收敛速度提升2倍。
  • Conclusion: 视频预训练能有效捕获语义和物理动态,将高级规划与低级控制分离,显著减少机器人学习对专家数据的依赖,为机器人操作提供了更高效的学习范式。

q-fin.CP

[96] PyFi: Toward Pyramid-like Financial Image Understanding for VLMs via Adversarial Agents

Yuqun Zhang,Yuxuan Zhao,Sijia Chen

Main category: q-fin.CP

TL;DR: PyFi是一个金字塔式金融图像理解框架,包含PyFi-600K数据集,通过多智能体对抗机制生成渐进式问题链,用于评估和提升视觉语言模型在金融领域的推理能力。

  • Motivation: 现有视觉语言模型在金融图像理解方面缺乏细粒度评估和渐进式推理能力,需要专门的数据集和框架来提升模型在金融视觉理解方面的专业能力。
  • Method: 提出PyFi框架,核心是PyFi-600K数据集,采用多智能体对抗机制(挑战者vs求解器)在MCTS范式下生成金字塔结构的问题链,从基础感知到复杂金融推理逐步深入。
  • Result: 在Qwen2.5-VL-3B和Qwen2.5-VL-7B模型上微调后,分别获得19.52%和8.06%的平均准确率提升,证明了金字塔式问题链训练的有效性。
  • Conclusion: PyFi框架通过金字塔式问题链和对抗生成的数据集,显著提升了视觉语言模型在金融图像理解方面的渐进推理能力,为金融视觉理解提供了新的评估和训练范式。

cs.LG

[97] LLM as a Neural Architect: Controlled Generation of Image Captioning Models Under Strict API Contracts

Krunal Jesani,Dmitry Ignatov,Radu Timofte

Main category: cs.LG

TL;DR: NN-Caption:基于LLM引导的神经架构搜索管道,自动生成可运行的图像描述模型,将CNN编码器与序列解码器组合,在MS COCO数据集上评估,超过一半生成模型成功训练并产生有意义的描述。

  • Motivation: 传统神经架构搜索需要大量人工专业知识或自动化试错,本文旨在利用LLM的代码生成能力自动化设计深度学习模型,减少人工干预,加速模型开发流程。
  • Method: 使用DeepSeek-R1-0528-Qwen3-8B作为主要生成器,通过提示模板生成图像描述模型架构,将LEMUR分类主干中的CNN编码器与LSTM/GRU/Transformer序列解码器组合,遵循严格的Net API规范,集成基于提示的代码生成与自动评估管道。
  • Result: LLM生成了数十个描述模型,超过一半成功训练并产生有意义的描述;分析不同数量输入模型片段(5 vs 10)对成功率的影响,提供更多候选组件时成功率略有下降;报告训练动态和最高BLEU-4得分;LLM不仅提出架构,还建议超参数和训练实践。
  • Conclusion: LLM引导的NAS显示出巨大潜力,能够自动化模型设计过程,但面临代码幻觉和API合规性等挑战;通过提示规则和迭代代码修复解决这些问题;该管道为可复现基准测试和下游AutoML研究贡献了数十个新颖的描述模型。

[98] SepsisSuite: Beyond Risk Stratification -- A Comparative Analysis of Deep Fusion vs. Expert Stacking for Prescriptive Sepsis AI

Ryan Cartularo

Main category: cs.LG

TL;DR: 比较两种多模态融合架构用于脓毒症预测,发现端到端深度融合在小数据集上过拟合,而上下文感知的混合专家模型通过模态专家动态门控达到SOTA性能。

  • Motivation: 脓毒症占ICU入院近20%,但传统预测模型难以有效整合异质数据流,要么模态孤立,要么依赖脆弱的早期融合。需要更好的多模态融合方法。
  • Method: 1. 提出SepsisFusionFormer(四模态分层门控注意力网络),但实验发现在小抗生素队列上存在"注意力饥饿"问题导致过拟合。2. 设计SepsisLateFusion(上下文感知混合专家架构),将模态视为正交专家("历史学家"静态、"监视器"时序、"阅读器"NLP),通过CatBoost元学习器动态门控。
  • Result: SepsisLateFusion在临床发作前4小时预测达到SOTA性能(AUC 0.915),通过校准决策阈值将漏诊病例减少48%。四模态集成在抗生素选择任务上达到最高性能(AUC 0.72)。
  • Conclusion: 上下文感知的混合专家架构优于端到端深度融合,特别是在小数据集场景下。模型已集成到SepsisSuite临床决策支持框架中,为及时干预提供预防窗口。

[99] INFORM-CT: INtegrating LLMs and VLMs FOR Incidental Findings Management in Abdominal CT

Idan Tankel,Nir Mazor,Rafi Brada,Christina LeBedis,Guy ben-Yosef

Main category: cs.LG

TL;DR: 提出一个基于LLM和VLM的规划-执行框架,用于自动化腹部CT扫描中偶然发现的检测、分类和报告生成,相比纯VLM方法在准确性和效率上表现更优。

  • Motivation: CT扫描中的偶然发现虽然通常良性,但具有重要临床意义,需要遵循指南报告。传统放射科医生手动检查耗时且存在变异性,需要提高效率和精度。
  • Method: 采用规划-执行代理方法:基于LLM的规划器根据腹部器官医学指南生成Python脚本,执行器运行这些脚本,通过VLM、分割模型和图像处理子程序进行必要的检查和检测。
  • Result: 在腹部CT基准测试中,该框架在三个器官上以完全自动化的端到端方式运行,在准确性和效率方面优于现有的纯VLM方法。
  • Conclusion: 提出的LLM和VLM结合的规划-执行框架能够有效自动化管理CT扫描中的偶然发现,提高检测和报告的效率和精度。

[100] Task Matrices: Linear Maps for Cross-Model Finetuning Transfer

Darrin O' Brien,Dhikshith Gajulapalli,Eric Xia

Main category: cs.LG

TL;DR: 该论文提出了"任务矩阵"概念,证明在视觉和文本模型中存在从基础模型到微调模型的跨层线性编码,通过简单的线性变换就能实现接近微调的性能。

  • Motivation: 现有研究表明大模型在上下文提示下学习隐式线性编码,但更通用的适应机制中是否存在类似线性表示尚未得到验证。本文旨在探索基础模型和微调模型之间是否存在可学习的线性变换关系。
  • Method: 提出"任务矩阵"概念,即从基础模型嵌入状态到微调模型嵌入状态的线性变换。通过数据驱动的近似方法,在10个不同数据集上验证该方法的有效性,并与线性探测方法进行对比。
  • Result: 任务矩阵方法在视觉和文本模型上的表现超越了线性探测,有时能达到接近微调模型的性能水平。验证了预训练和微调架构之间存在跨层线性编码,且数据驱动的近似方法既高效又具有跨领域泛化能力。
  • Conclusion: 基础模型和微调模型之间存在可学习的线性变换关系,任务矩阵提供了一种高效且通用的适应方法,为模型解释和高效微调提供了新思路。

[101] SoFlow: Solution Flow Models for One-Step Generative Modeling

Tianze Luo,Haotian Yuan,Zhuang Liu

Main category: cs.LG

TL;DR: SoFlow:一种用于一步生成的框架,通过分析速度函数与解函数的关系,提出Flow Matching损失和解一致性损失来训练模型,无需计算Jacobian-vector product,在ImageNet 256×256上优于MeanFlow。

  • Motivation: 扩散模型和Flow Matching模型中的多步去噪过程导致效率低下,这促使研究少步生成方法。作者旨在开发一个能够从零开始进行一步生成的框架。
  • Method: 提出Solution Flow Models (SoFlow)框架,通过分析速度ODE中速度函数与解函数的关系,设计了Flow Matching损失和解一致性损失来训练模型。Flow Matching损失允许模型在训练期间为Classifier-Free Guidance提供估计的速度场,而一致性损失无需计算Jacobian-vector product。
  • Result: 实验结果表明,在使用相同DiT架构和相同训练轮数从头训练时,SoFlow在ImageNet 256×256数据集上获得了比MeanFlow模型更好的FID-50K分数。
  • Conclusion: SoFlow提供了一个有效的一步生成框架,通过创新的损失函数设计避免了计算Jacobian-vector product的需求,在图像生成质量上超越了现有方法。

eess.IV

[102] Magnification-Aware Distillation (MAD): A Self-Supervised Framework for Unified Representation Learning in Gigapixel Whole-Slide Images

Mahmut S. Gokmen,Mitchell A. Klusty,Peter T. Nelson,Allison M. Neltner,Sen-Ching Samson Cheung,Thomas M. Pearce,David A Gutman,Brittany N. Dugger,Devavrat S. Bisht,Margaret E. Flanagan,V. K. Cody Bumgardner

Main category: eess.IV

TL;DR: 提出MAD方法,通过跨尺度自监督学习实现WSI图像的多分辨率稳定表示,MAD-NP模型在未见过的40x图像上保持96.7%性能

  • Motivation: 现有自监督方法将WSI的不同放大倍数视为独立视图,无法学习分辨率变化时的稳定表示,而这是神经病理学工作流程的关键需求
  • Method: 提出Magnification-Aware Distillation (MAD)方法,通过自监督策略将低倍镜上下文与空间对齐的高倍镜细节联系起来,学习粗组织结构与精细细胞模式的关系
  • Result: MAD-NP模型在10x嵌入上训练的线性分类器应用于未见过的40x图像时保持96.7%性能;分割输出在不同放大倍数下保持一致,保留解剖边界并减少噪声
  • Conclusion: MAD方法证明了使用统一嵌入空间进行可扩展、对放大倍数鲁棒的WSI分析的可行性,为神经病理学提供实用的基础模型

[103] Artificial Intelligence for the Assessment of Peritoneal Carcinosis during Diagnostic Laparoscopy for Advanced Ovarian Cancer

Riccardo Oliva,Farahdiba Zarin,Alice Zampolini Faustini,Armine Vardazaryan,Andrea Rosati,Vinkle Srivastav,Nunzia Del Villano,Jacques Marescaux,Giovanni Scambia,Pietro Mascagni,Nicolas Padoy,Anna Fagotti

Main category: eess.IV

TL;DR: 开发AI模型从诊断性腹腔镜视频自动预测Fagotti评分和手术可行性,用于晚期卵巢癌治疗决策

  • Motivation: Fagotti评分在诊断性腹腔镜中用于评估手术可切除性,但其主观性和操作者依赖性限制了可重复性和广泛应用。需要更客观、标准化的评估方法。
  • Method: 回顾性收集诊断性腹腔镜视频,手动标注Fagotti评分相关帧的解剖结构和腹膜癌灶。训练深度学习模型自动识别相关帧、分割结构和癌灶,预测视频级Fagotti评分和手术指征。
  • Result: 分割模型在7,311帧上训练,解剖结构Dice分数70±3%,腹膜癌灶56±3%。视频级解剖站分类F1分数74±3%和73±4%,Fagotti评分预测归一化RMSE为1.39±0.18和1.15±0.08,手术指征预测F1分数80±8%和80±2%(开发和测试集)。
  • Conclusion: 这是首个从诊断性腹腔镜视频自动预测细胞减灭术可行性的AI模型,其可重复和可靠的性能表明AI可通过标准化术中肿瘤负荷评估支持外科医生临床决策。

[104] A Gaussian Parameterization for Direct Atomic Structure Identification in Electron Tomography

Nalini M. Singh,Tiffany Chien,Arthur R. C. McCray,Colin Ophus,Laura Waller

Main category: eess.IV

TL;DR: 提出一种基于高斯原子参数化的直接原子结构重建方法,替代传统体素中间表示,提高对实际成像伪影的鲁棒性。

  • Motivation: 传统原子电子断层扫描(AET)方法先重建体素表示再后处理得到原子结构,存在效率低且对成像伪影敏感的问题。需要更直接、物理先验更强的重建方法。
  • Method: 将原子结构参数化为可学习的高斯函数集合,直接优化原子位置和属性,避免中间体素表示。使用高斯表示作为强物理先验。
  • Result: 模拟实验和实验数据验证表明,该方法对实际成像伪影具有更好的鲁棒性,在材料表征和透射电镜分析中具有实际应用潜力。
  • Conclusion: 高斯原子参数化方法为原子电子断层扫描提供了更直接、更鲁棒的重建框架,代码已开源,有望推动材料表征技术的发展。

[105] Meta-learners for few-shot weakly-supervised optic disc and cup segmentation on fundus images

Pandega Abyan Zumarsyah,Igi Ardiyanto,Hanung Adi Nugroho

Main category: eess.IV

TL;DR: 开发了用于少样本弱监督分割的元学习器,通过Omni元训练平衡数据使用并多样化shot数量,创建高效版本降低计算成本,开发稀疏化技术生成更可定制和代表性的稀疏标签。最佳模型EO-ProtoSeg在REFUGE数据集上仅使用一张稀疏标注图像就取得了OD 88.15%和OC 71.17%的IoU分数。

  • Motivation: 针对青光眼诊断中视盘和视杯分割任务,在有限标注眼底图像的情况下,解决少样本弱监督分割的挑战。现有方法需要大量标注数据,而实际医疗场景中标注成本高且稀缺。
  • Method: 1) 提出Omni元训练方法,平衡数据使用并多样化shot数量;2) 开发高效版本元学习器降低计算成本;3) 开发稀疏化技术生成更可定制和代表性的涂鸦及其他稀疏标签;4) 评估多个数据集,比较不同方法性能。
  • Result: Omni和高效版本优于原始版本,最佳模型EO-ProtoSeg在REFUGE数据集上仅用一张稀疏标注图像就达到OD 88.15%和OC 71.17%的IoU。在DRISHTIGS上达到OD 86.80%和OC 71.78%,在REFUGE上达到OD 88.21%和OC 73.70%。模型参数少于200万,无需重新训练,性能与无监督域适应方法相当但更轻量。
  • Conclusion: 提出的元学习方法显著提高了少样本弱监督分割性能,EO-ProtoSeg在多个数据集上表现出色,仅需少量稀疏标注就能达到与需要更多标注的方法相当甚至更好的性能,为医疗图像分割提供了一种高效实用的解决方案。

[106] Generative Preprocessing for Image Compression with Pre-trained Diffusion Models

Mengxi Guo,Shijie Zhao,Junlin Li,Li Zhang

Main category: eess.IV

TL;DR: 提出首个基于大尺度预训练扩散模型的压缩预处理方法,从传统的率失真优化转向率感知优化,通过知识蒸馏和参数高效微调,在不修改标准编解码器的情况下显著提升视觉质量。

  • Motivation: 现有压缩预处理方法主要基于率失真优化,受限于像素级保真度约束。本文旨在转向率感知优化,利用扩散模型的强大生成先验来增强纹理和减少伪影,提升主观视觉质量。
  • Method: 提出两阶段框架:1) 使用一致性分数恒等蒸馏将多步Stable Diffusion 2.1蒸馏为紧凑的单步图像到图像模型;2) 在蒸馏模型注意力模块上进行参数高效微调,使用率感知损失和可微分编解码器代理进行指导。
  • Result: 在Kodak数据集上实现了显著的率感知增益,DISTS指标达到30.13%的BD-rate降低,并提供了优越的主观视觉质量。
  • Conclusion: 本文开创性地将大尺度预训练扩散模型应用于压缩预处理,实现了从率失真优化到率感知优化的范式转变,能够与标准编解码器无缝集成,利用生成先验显著提升压缩图像的感知质量。

cs.MM

[107] A Preprocessing Framework for Video Machine Vision under Compression

Fei Zhao,Mengxi Guo,Shijie Zhao,Junlin Li,Li Zhang,Xiaodong Xie

Main category: cs.MM

TL;DR: 提出针对机器视觉任务的视频预处理框架,通过神经预处理器保留关键信息,结合可微分虚拟编解码器进行训练,相比标准编解码器可节省超过15%的码率。

  • Motivation: 现有视频编码优化方法主要关注人类感知指标的最小化失真,忽视了机器视觉系统的特殊需求。机器视觉任务对视频压缩有更高的要求,需要保留对后续任务更关键的信息。
  • Method: 提出包含神经预处理器的视频预处理框架,该预处理器能够保留对后续机器视觉任务至关重要的信息。同时引入可微分虚拟编解码器,在训练阶段提供码率和失真的约束。测试时直接应用广泛使用的标准编解码器。
  • Result: 在两个典型下游任务和多种骨干网络上进行了广泛实验,结果表明该方法相比仅使用标准编解码器基准版本,可以节省超过15%的码率。
  • Conclusion: 提出的视频预处理框架专门针对机器视觉任务优化,通过神经预处理器保留关键信息,结合可微分虚拟编解码器训练,能够显著提升码率-准确率性能,且易于在实际场景中部署应用。

cs.CL

[108] Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams

Yiming Cui,Xin Yao,Yuxuan Qin,Xin Li,Shijin Wang,Guoping Hu

Main category: cs.CL

TL;DR: 评估40个多模态大语言模型在化学奥林匹克竞赛题目上的表现,发现多数模型在多模态融合方面存在困难,思维链提示能提升准确性和视觉基础,揭示了当前MLLMs在科学推理方面的局限性。

  • Motivation: 多模态科学推理对大型语言模型仍是重大挑战,特别是在化学领域,问题解决依赖于符号图、分子结构和结构化视觉数据。需要系统评估当前多模态模型在化学推理方面的能力。
  • Method: 使用超过20年美国国家化学奥林匹克竞赛题目构建基准,系统评估40个专有和开源多模态LLMs(包括GPT-5、o3、Gemini-2.5-Pro、Qwen2.5-VL等),通过思维链提示、消融研究和基于遮挡的可解释性分析来评估模型表现。
  • Result: 许多模型在多模态融合方面表现不佳,有时移除图像反而提高准确性,表明视觉-语言整合存在错位。思维链提示能持续提升准确性和视觉基础,揭示了当前MLLMs在科学推理能力上的关键限制。
  • Conclusion: 这项工作为衡量领域特定多模态AI进展提供了及时基准,强调了在人工智能与科学推理交叉领域需要进一步推进,为开发更鲁棒和可解释的化学多模态系统提供了可行策略。

cs.IR

[109] Image Complexity-Aware Adaptive Retrieval for Efficient Vision-Language Models

Mikel Williams-Lekuona,Georgina Cosma

Main category: cs.IR

TL;DR: ICAR提出图像复杂度感知检索方法,让视觉transformer根据图像复杂度动态调整计算量,简单图像少计算,复杂图像全计算,同时保持跨模态对齐,实现20%加速且性能损失很小。

  • Motivation: 现有视觉语言模型对所有图像使用相同计算量(175.33 GFLOPs),无论简单产品照片还是复杂街景,计算效率低下。需要根据图像复杂度动态调整计算资源。
  • Method: 1. ICAR:双路径训练,产生兼容的嵌入表示,无论图像提前退出还是完全处理,都能保持图像表示与文本嵌入在同一语义空间的兼容性。2. ConvNeXt-IC:将图像复杂度评估作为分类任务,使用现代分类器骨干而非专用架构。
  • Result: ConvNeXt-IC达到最先进性能,与人类判断相关性0.959(Pearson),速度提升4.4倍。ICAR在标准基准测试和真实网络数据上实现20%实际加速,保持类别级性能,达到实例级性能的95%。
  • Conclusion: ICAR通过图像复杂度感知的动态计算分配,实现了视觉语言系统的可持续扩展,在保持性能的同时显著提升计算效率,无需昂贵的重排序过程。