Skip to content
每日arXiv - 2025年11月20日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] Gaussian See, Gaussian Do: Semantic 3D Motion Transfer from Multiview Video

Yarin Bekor,Gal Michael Harari,Or Perel,Or Litany

Main category: cs.CV

TL;DR: 提出Gaussian See, Gaussian Do方法,实现多视角视频的语义3D运动迁移,支持无绑定、跨类别的运动传递,并建立了首个语义3D运动迁移基准。

  • Motivation: 解决传统方法在跨类别对象间进行语义运动迁移的挑战,实现更自然、一致的运动传递效果。
  • Method: 基于隐式运动迁移技术,通过条件反演提取源视频运动嵌入,应用到静态目标形状的渲染帧,使用生成的视频监督动态3D高斯溅射重建,引入锚点式视角感知运动嵌入机制。
  • Result: 建立了首个语义3D运动迁移基准,相比适应基线方法展现出更优的运动保真度和结构一致性。
  • Conclusion: 该方法在语义3D运动迁移任务中表现出色,为相关研究提供了新的技术路径和评估标准。

[2] When CNNs Outperform Transformers and Mambas: Revisiting Deep Architectures for Dental Caries Segmentation

Aashish Ghimire,Jun Zeng,Roshan Paudel,Nikhil Kumar Tomar,Deepak Ranjan Nayak,Harshith Reddy Nalla,Vivek Jha,Glenda Reynolds,Debesh Jha

Main category: cs.CV

TL;DR: 本研究对12种最先进的神经网络架构在牙科全景X光片龋齿分割任务上进行了基准测试,发现基于CNN的DoubleU-Net表现最佳,超越了所有transformer和Mamba架构。

  • Motivation: 全景X光片中龋齿的准确识别和分割对早期诊断和治疗规划至关重要,但由于病变对比度低、形态变异大和标注数据有限,自动分割仍然具有挑战性。
  • Method: 使用DC1000数据集,在相同配置下训练12种最先进架构,包括卷积神经网络、视觉transformer和状态空间Mamba架构,如VMUnet、MambaUNet、DoubleU-Net等。
  • Result: CNN-based的DoubleU-Net获得了最高的Dice系数0.7345、mIoU 0.5978和精度0.8145,在所有性能指标的前三名均为基于CNN的架构。Mamba和transformer方法由于数据有限和空间先验较弱而表现不佳。
  • Conclusion: 研究结果强调了在特定领域医学图像分割中,架构与任务的对齐比模型复杂性更重要,CNN架构在该任务中仍具有优势。

[3] B-Rep Distance Functions (BR-DF): How to Represent a B-Rep Model by Volumetric Distance Functions?

Fuyang Zhang,Pradeep Kumar Jayaraman,Xiang Xu,Yasutaka Furukawa

Main category: cs.CV

TL;DR: 提出了一种基于体积距离函数的CAD边界表示新方法BR-DF,将表面网格几何编码为SDF,将顶点、边、面及其拓扑信息编码为每面UDF,并通过改进的Marching Cubes算法直接转换为水密CAD B-Rep模型,实现了100%的模型生成成功率。

  • Motivation: 解决现有CAD生成方法在生成B-Rep模型时成功率不高的问题,提出一种能够可靠生成水密CAD模型的几何表示方法。
  • Method: 使用BR-DF表示方法,将CAD模型几何编码为SDF,拓扑信息编码为每面UDF,并扩展Marching Cubes算法进行转换;采用多分支潜在扩散模型与3D U-Net骨干网络联合生成SDF和每面UDF。
  • Result: 在CAD生成性能上与SOTA方法相当,同时实现了前所未有的100%成功率生成(分面)B-Rep模型。
  • Conclusion: BR-DF方法提供了一种可靠且高效的CAD B-Rep生成方案,解决了传统方法在模型转换过程中的失败问题,为CAD建模领域带来了突破性进展。

[4] GeoSceneGraph: Geometric Scene Graph Diffusion Model for Text-guided 3D Indoor Scene Synthesis

Antonio Ruiz,Tao Wu,Andrew Melnik,Qing Cheng,Xuqin Wang,Lu Liu,Yongliang Wang,Yanfeng Zhang,Helge Ritter

Main category: cs.CV

TL;DR: GeoSceneGraph是一种从文本提示合成3D室内场景的方法,利用场景图结构和几何对称性,无需预定义关系类别或真实关系标注。

  • Motivation: 现有方法要么从头训练生成模型,要么依赖视觉语言模型(VLMs)。VLM性能强但资源需求大,而从头训练的方法常忽略室内场景的内在图结构,影响场景连贯性和真实性。需要一种能在资源受限设备上运行且能捕捉多样对象交互的方法。
  • Method: 基于等变图神经网络(EGNNs),提出简单有效的文本特征条件化策略,利用3D场景的图结构和几何对称性,无需预定义关系类别或真实关系标注。
  • Result: 尽管不使用真实关系标注,GeoSceneGraph在性能上达到了使用真实关系的方法的水平。
  • Conclusion: GeoSceneGraph通过结合图结构和几何对称性,实现了从文本提示生成连贯真实的3D室内场景,为资源受限设备提供了有效的解决方案。

[5] HULFSynth : An INR based Super-Resolution and Ultra Low-Field MRI Synthesis via Contrast factor estimation

Pranav Indrakanti,Ivor Simpson

Main category: cs.CV

TL;DR: 提出无监督双向MRI合成器,可在高场强和超低场强MRI图像之间相互转换,基于物理驱动对比度变化,无需配对数据训练。

  • Motivation: 现有MRI合成模型缺乏物理基础,无法准确模拟HF和ULF MRI之间的对比度变化,需要开发基于物理原理的无监督合成方法。
  • Method: 使用物理驱动的前向模型模拟HF到ULF转换,通过估计组织类型信噪比;使用隐式神经表示网络进行超分辨率任务,同时预测组织分割和图像强度。
  • Result: 合成ULF图像的白质-灰质对比度提升52%,64mT图像提升37%;前向模型对目标对比度、噪声和初始种子变化具有鲁棒性。
  • Conclusion: 提出的物理驱动无监督方法能有效实现HF和ULF MRI之间的双向合成,显著改善图像对比度,且对参数变化具有鲁棒性。

[6] InstructMix2Mix: Consistent Sparse-View Editing Through Multi-View Model Personalization

Daniel Gilo,Or Litany

Main category: cs.CV

TL;DR: 提出了InstructMix2Mix框架,将2D扩散模型的编辑能力蒸馏到预训练的多视图扩散模型中,用于稀疏输入视图的多视图图像编辑,显著提高了跨视图一致性。

  • Motivation: 解决现有方法在稀疏多视图图像编辑中产生的伪影和不一致问题,现有基于每场景神经场或时间注意力机制的方法在此设置下表现不佳。
  • Method: 用多视图扩散学生替代SDS中的传统神经场整合器,采用增量学生更新、专用教师噪声调度器和增强跨视图一致性的注意力修改。
  • Result: 实验表明I-Mix2Mix显著提高了多视图一致性,同时保持了高单帧编辑质量。
  • Conclusion: 该框架成功地将2D扩散编辑能力蒸馏到多视图扩散模型中,有效解决了稀疏多视图编辑的一致性问题。

[7] Skin-R1: Toward Trustworthy Clinical Reasoning for Dermatological Diagnosis

Zehao Liu,Wejieying Ren,Jipeng Zhang,Tianxiang Zhao,Jingxi Zhu,Xiaoting Li,Vasant G. Honavar

Main category: cs.CV

TL;DR: SkinR1是一个新型皮肤病视觉语言模型,通过结合基于教科书的推理和强化学习来解决数据异构性、缺乏诊断依据和泛化能力有限的问题,在多个皮肤病数据集上实现了优越的诊断准确性。

  • Motivation: 解决视觉语言模型在临床推理中的三个主要限制:数据异构性、缺乏可靠的诊断依据推理监督、以及在小规模密集标注数据集上训练的模型难以泛化到大规模稀疏标注数据的问题。
  • Method: 1. 设计基于教科书的推理生成器,合成高保真、层次感知和鉴别诊断信息轨迹;2. 利用构建的轨迹进行监督微调,赋予模型基础推理能力;3. 开发结合疾病层次结构的新型强化学习范式,将基础推理模式迁移到大规模稀疏数据。
  • Result: 在多个皮肤病数据集上的广泛实验表明,SkinR1实现了优越的诊断准确性。消融研究证明了监督微调所建立推理基础的重要性。
  • Conclusion: SkinR1通过统一的端到端框架成功解决了皮肤病视觉语言模型的关键挑战,结合基于教科书的深度推理和强化学习的广泛泛化能力,为临床诊断提供了可靠的支持。

[8] FarSLIP: Discovering Effective CLIP Adaptation for Fine-Grained Remote Sensing Understanding

Zhenshi Li,Weikang Yu,Dilxat Muhtar,Xueliang Zhang,Pengfeng Xiao,Pedram Ghamisi,Xiao Xiang Zhu

Main category: cs.CV

TL;DR: FarSLIP是一个针对遥感领域的细粒度语言-图像预训练框架,通过构建多粒度数据集和改进对齐方法,解决了CLIP在遥感图像中空间感知能力有限的问题。

  • Motivation: 现有遥感专用CLIP变体仍然继承了CLIP的有限空间感知能力,主要问题包括:遥感图像-文本数据集生成全局描述时未充分利用对象级监督,以及直接应用通用区域-文本对齐方法到遥感数据会导致性能下降。
  • Method: 构建首个多粒度遥感图像-文本数据集MGRS-200k;提出FarSLIP框架,使用patch-to-patch蒸馏对齐局部和全局视觉线索,采用简单的CLS token区域-类别对齐而非显式patch级对齐。
  • Result: FarSLIP在遥感领域实现了改进的细粒度视觉-语言对齐,在遥感开放词汇语义分割、零样本分类和图像-文本检索等任务上均达到了新的最先进水平。
  • Conclusion: FarSLIP通过改进的细粒度对齐方法有效提升了遥感图像的空间感知能力,为遥感视觉-语言理解提供了新的解决方案。

[9] nnMIL: A generalizable multiple instance learning framework for computational pathology

Xiangde Luo,Jinxi Xiang,Yuanfeng Ji,Ruijiang Li

Main category: cs.CV

TL;DR: nnMIL是一个简单但广泛适用的多实例学习框架,将补丁级病理基础模型连接到稳健的幻灯片级临床推理,在40,000张全切片图像上表现出色。

  • Motivation: 当前病理学基础模型能够从大规模全切片图像中提取丰富的补丁级表示,但现有聚合方法存在设计限制,阻碍了泛化性和可靠性。
  • Method: nnMIL引入补丁级和特征级的随机采样,实现大批量优化、任务感知采样策略,以及跨数据集和模型架构的高效可扩展训练。轻量级聚合器执行滑动窗口推理生成集成预测并支持不确定性估计。
  • Result: 在35个临床任务和四个病理基础模型上,nnMIL持续优于现有MIL方法,在疾病诊断、组织亚型分类、分子生物标志物检测和泛癌预后预测中表现优异,展现出强大的跨模型泛化能力和可靠的不确定性量化。
  • Conclusion: nnMIL为将病理基础模型转化为临床有意义的预测提供了实用且可泛化的解决方案,推进了可靠AI系统在真实世界环境中的开发和部署。

[10] X-WIN: Building Chest Radiograph World Model via Predictive Sensing

Zefan Yang,Ge Wang,James Hendler,Mannudeep K. Kalra,Pingkun Yan

Main category: cs.CV

TL;DR: X-WIN是一个新颖的CXR世界模型,通过从胸部CT中提取体积知识来学习在潜在空间中预测其2D投影,解决了CXR因结构叠加而无法捕捉3D解剖结构的问题。

  • Motivation: CXR作为2D投影图像,受限于结构叠加,无法捕捉3D解剖结构,这给表示学习和疾病诊断带来了挑战。
  • Method: 通过从胸部CT中学习预测其2D投影来构建CXR世界模型,引入亲和力引导的对比对齐损失,并整合真实CXR进行训练。
  • Result: X-WIN在多种下游任务上优于现有基础模型,并展示了重建3D CT体积的能力。
  • Conclusion: X-WIN通过整合3D解剖知识,显著提升了CXR表示学习和疾病诊断的性能。

[11] CPSL: Representing Volumetric Video via Content-Promoted Scene Layers

Kaiyuan Hu,Yili Jin,Junhua Liu,Xize Duan,Hong Kang,Xue Liu

Main category: cs.CV

TL;DR: CPSL是一种紧凑的2.5D视频表示方法,通过深度和内容显著性指导将2D视频分解为几何一致的层,支持视差校正的新视角合成,显著降低存储和渲染成本。

  • Motivation: 现有体积视频表示(如点云和神经场)在捕获、计算和渲染方面成本高昂,限制了其在按需视频和实时通信中的可扩展性。
  • Method: 基于每帧深度和内容显著性,将帧分解为少量几何一致层,配备软alpha带和边缘深度缓存,通过深度加权变形和前向后alpha合成实现新视角合成。
  • Result: 在多个基准测试中,CPSL相比基于层和神经场的基线方法实现了更优的感知质量和边界保真度,同时将存储和渲染成本降低数倍。
  • Conclusion: CPSL为从2D视频到可扩展2.5D沉浸式媒体提供了一条实用路径,将体积视频的感知优势带给传统2D内容。

[12] Unsupervised Discovery of Long-Term Spatiotemporal Periodic Workflows in Human Activities

Fan Yang,Quanting Xie,Atsunori Moteki,Shoichi Masui,Shan Jiang,Yonatan Bisk,Graham Neubig

Main category: cs.CV

TL;DR: 提出了首个包含580个多模态人类活动序列的长周期工作流基准,支持无监督周期工作流检测、任务完成跟踪和程序异常检测三个任务,并提出了一个轻量级、无需训练的基础方法。

  • Motivation: 解决长周期工作流(具有低对比度模式)检测的研究空白,而现有的研究主要集中在结构简单、高对比度模式的短期周期活动。
  • Method: 提出了一个轻量级、无需训练的基础方法,用于建模多样化的周期工作流模式。
  • Result: 实验表明:该基准对无监督周期检测方法和基于LLM的零样本方法构成显著挑战;提出的基础方法在所有评估任务中大幅优于竞争方法;在实际应用中,该方法与传统监督工作流检测方法具有相当的部署优势,且无需标注和重新训练。
  • Conclusion: 该工作填补了长周期工作流检测的研究空白,提出的基准和方法为相关研究提供了重要基础,并在实际应用中展现出显著优势。

[13] RocSync: Millisecond-Accurate Temporal Synchronization for Heterogeneous Camera Systems

Jaro Meyer,Frédéric Giraud,Joschua Wüthrich,Marc Pollefeys,Philipp Fürnstahl,Lilian Calvet

Main category: cs.CV

TL;DR: 提出了一种低成本、通用的多摄像头同步方法,使用LED时钟编码时间信息,实现毫秒级时间对齐,适用于异构摄像头系统(RGB和红外)。

  • Motivation: 异构摄像头系统(专业与消费级设备、可见光与红外传感器、有无音频系统)难以实现硬件同步,在现实环境中尤其明显,需要一种通用的同步解决方案。
  • Method: 使用定制的LED时钟,通过红色和红外LED编码时间信息,从记录的帧中视觉解码曝光窗口(开始和结束时间),实现毫秒级同步。
  • Result: 与硬件同步相比,残差误差为1.34ms RMSE;在光、音频和时间码同步方法中表现更优;在包含25+异构摄像头的大规模手术记录中验证有效。
  • Conclusion: 该方法简化了同步流程,扩展了在无约束环境(工业和临床应用)中基于视觉的先进感知技术的应用范围。

[14] Artificial intelligence approaches for energy-efficient laser cutting machines

Mohamed Abdallah Salem,Hamdy Ahmed Ashour,Ahmed Elshenawy

Main category: cs.CV

TL;DR: 本研究通过深度学习技术实现激光切割中烟雾抽吸泵的自适应控制,在实验中将能耗降低了20%-50%。

  • Motivation: 解决激光切割中能量消耗和环境影响的挑战,特别是CO2激光抽吸泵缺乏自适应控制和开环运行的问题。
  • Method: 采用闭环配置,基于被切割材料和烟雾水平动态调整泵功率。引入多种材料分类方法,包括使用无透镜散斑传感的定制CNN和使用USB摄像头通过预训练VGG16模型进行迁移学习的方法。同时使用单独的DL模型进行烟雾水平检测。
  • Result: 实验证明,该系统能使烟雾抽吸泵在非活动时间自动停止,在运行期间动态调整功率,实现20%-50%的能耗降低。
  • Conclusion: 该方法显著降低了激光切割过程中的能耗,为制造业的可持续发展做出了重要贡献。

[15] EGSA-PT:Edge-Guided Spatial Attention with Progressive Training for Monocular Depth Estimation and Segmentation of Transparent Objects

Gbenga Omotara,Ramy Farag,Seyed Mohamad Ali Tousi,G. N. DeSouza

Main category: cs.CV

TL;DR: 本文提出了一种边缘引导空间注意力机制,通过将边界信息融入语义和几何特征的融合中,减少多任务学习中的负面交互,从而提升透明物体感知性能。

  • Motivation: 透明物体感知是计算机视觉中的主要挑战,因为透明度会干扰深度估计和语义分割。现有的多任务学习框架存在负面跨任务交互问题,阻碍了性能提升。
  • Method: 提出了边缘引导空间注意力机制,将边界信息融入语义和几何特征的融合过程。同时采用多模态渐进训练策略,从RGB图像边缘学习过渡到深度图像预测边缘学习。
  • Result: 在Syn-TODD和ClearPose基准测试中,EGSA相比当前最先进方法持续提升了深度估计精度,同时保持了有竞争力的分割性能,在透明区域改进最为显著。
  • Conclusion: 边缘引导融合是一种稳健的方法,能够有效改善透明物体感知,同时消除了训练时对真实深度数据的需求。

[16] Logit-Based Losses Limit the Effectiveness of Feature Knowledge Distillation

Nicholas Cooper,Lijun Chen,Sailesh Dwivedy,Danna Gurari

Main category: cs.CV

TL;DR: 提出了一种仅使用基于特征的损失函数(不使用基于logit的损失如交叉熵)的知识蒸馏框架,通过引入知识质量指标来识别教师模型中最有效的蒸馏层,在图像分类任务上取得了最先进的性能。

  • Motivation: 现有的特征知识蒸馏方法通常同时使用基于logit和中间层特征的损失函数,本文旨在探索仅使用基于特征的损失函数进行知识蒸馏的可能性,以简化蒸馏过程并提高效果。
  • Method: 提出了一个仅使用基于特征损失的知识蒸馏框架,利用潜在表示几何结构的最新发现,引入了知识质量指标来识别教师模型中最有效的蒸馏层。
  • Result: 在三个图像分类数据集和四种不同的师生模型对(包括CNN和ViT)上的实验表明,该方法达到了最先进的性能,相比标准方法提升了高达15%的top-1准确率。
  • Conclusion: 仅使用基于特征的损失函数进行知识蒸馏是可行且有效的,通过适当选择教师模型的知识层可以获得显著的性能提升。

[17] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Vladimir Arkhipkin,Vladimir Korviakov,Nikolai Gerasimenko,Denis Parkhomenko,Viacheslav Vasilev,Alexey Letunovskiy,Maria Kovaleva,Nikolai Vaulin,Ivan Kirillov,Lev Novitskiy,Denis Koposov,Nikita Kiselev,Alexander Varlamov,Dmitrii Mikhailov,Vladimir Polovnikov,Andrey Shutkin,Ilya Vasiliev,Julia Agafonova,Anastasiia Kargapoltseva,Anna Dmitrienko,Anastasia Maltseva,Anna Averchenkova,Olga Kim,Tatiana Nikulina,Denis Dimitrov

Main category: cs.CV

TL;DR: Kandinsky 5.0是一个用于高分辨率图像和10秒视频生成的最先进基础模型家族,包含三个核心模型系列,采用多阶段训练流程和多种优化技术。

  • Motivation: 开发一个大规模、公开可用的生成框架,推动高质量生成模型的开发和可访问性,为研究社区提供先进的图像和视频生成能力。
  • Method: 采用多阶段训练流程,包括数据整理、预训练、自监督微调(SFT)和基于强化学习(RL)的后训练;包含三个核心模型:60亿参数图像生成模型、20亿参数轻量视频模型和190亿参数专业视频模型;采用新颖的架构、训练和推理优化技术。
  • Result: 实现了高生成速度和最先进的性能表现,在人类评估中表现优异,能够适应广泛的生成应用场景。
  • Conclusion: Kandinsky 5.0作为一个大规模公开生成框架,通过发布开源代码和训练检查点,将显著推进高质量生成模型的研究和发展。

[18] FinCriticalED: A Visual Benchmark for Financial Fact-Level OCR Evaluation

Yueru He,Xueqing Peng,Yupeng Cao,Yan Wang,Lingfei Qian,Haohang Li,Yi Han,Ruoyu Xiang,Mingquan Lin,Prayag Tiwari,Jimin Huang,Guojun Xiong,Sophia Ananiadou

Main category: cs.CV

TL;DR: FinCriticalED是一个用于评估金融文档OCR和视觉语言模型的事实级视觉基准,包含500个图像-HTML对和700多个专家标注的数值和时间事实,重点关注金融文档中关键事实的准确性而非表面文本相似度。

  • Motivation: 金融文档具有视觉密集和表格繁多的布局,其中数值和时间信息与结构紧密耦合。在高风险场景中,微小的OCR错误(如符号反转或日期偏移)可能导致完全不同的解读,而传统的ROUGE和编辑距离等OCR指标仅能捕捉表面文本相似度。
  • Method: 开发了包含500个图像-HTML对的基准数据集,所有标注由金融专家创建和验证,对符号、数值大小和时间表达进行严格质量控制。建立了LLM-as-Judge评估流程,对视觉复杂的金融文档执行结构化事实提取和上下文验证。
  • Result: 对OCR系统、开源视觉语言模型和专有模型进行基准测试,结果显示虽然最强的专有模型达到最高的事实准确性,但在视觉复杂的数值和时间上下文中仍存在显著错误。
  • Conclusion: FinCriticalED为金融和其他精度关键领域的视觉事实精确度提供了严格的基础,将评估从词汇重叠转向领域关键的事实正确性。

[19] CKDA: Cross-modality Knowledge Disentanglement and Alignment for Visible-Infrared Lifelong Person Re-identification

Zhenyu Cui,Jiahuan Zhou,Yuxin Peng

Main category: cs.CV

TL;DR: 提出CKDA方法解决可见光-红外终身行人重识别中的模态知识冲突问题,通过知识解耦和对齐来平衡模态特定知识和模态共同知识的获取与保持。

  • Motivation: 现有方法忽略了模态特定知识获取和模态共同知识抗遗忘之间的相互干扰,导致冲突知识引发协作性遗忘问题。
  • Method: 提出跨模态知识解耦和对齐方法CKDA,包含模态共同提示模块和模态特定提示模块来显式分离知识,以及跨模态知识对齐模块在双模态原型基础上进行特征空间对齐。
  • Result: 在四个基准数据集上的大量实验验证了CKDA方法的有效性和优越性,优于现有最先进方法。
  • Conclusion: CKDA方法通过平衡地分离和保持模态特定知识与模态共同知识,有效解决了VI-LReID中的知识冲突问题,实现了更好的性能。

[20] Complex-Valued 2D Gaussian Representation for Computer-Generated Holography

Yicheng Zhan,Xiangjun Gao,Long Quan,Kaan Akşit

Main category: cs.CV

TL;DR: 提出基于结构化复值2D高斯图元的新全息图表示方法,将参数搜索空间减少10倍,实现更低VRAM使用、更快优化和更高保真度重建

  • Motivation: 传统逐像素信息存储方法参数搜索空间大,限制了全息图估计的可扩展性,需要更高效的表示方法来支持下一代计算机生成全息系统
  • Method: 使用结构化复值2D高斯图元表示全息图,开发可微分光栅化器和GPU优化的自由空间光传播核,支持端到端训练,并提供向实用全息图格式的转换过程
  • Result: 相比现有方法,VRAM使用降低2.5倍,优化速度提升50%,重建保真度更高,并能有效抑制先前方法中观察到的噪声伪影
  • Conclusion: 通过减少全息图参数搜索空间,该方法为下一代计算机生成全息系统提供了更可扩展的全息图估计方案

[21] Computer Vision Modeling of the Development of Geometric and Numerical Concepts in Humans

Zekun Wang,Sashank Varma

Main category: cs.CV

TL;DR: 研究表明计算机视觉模型在训练过程中表现出与儿童发展轨迹相似的发展对齐现象,特别是在几何和数字概念的学习上

  • Motivation: 探索计算机视觉模型是否不仅在认知表征上与人类相似,而且在发展进程上也与儿童的发展轨迹对齐
  • Method: 使用ResNet-50模型进行详细案例研究,分析模型在不同训练阶段对几何和数字概念的表现
  • Result: 在几何和拓扑方面,部分概念类别(欧几里得几何、几何图形、度量属性、拓扑)表现出发展对齐,但其他类别(手性图形、几何变换、对称图形)没有;在数字概念方面,模型随着经验积累发展出类似人类的"心理数字线"表征
  • Conclusion: 计算机视觉模型在理解人类数学认知发展方面具有潜力,为未来研究探索更多模型架构和构建更大基准测试指明了方向

[22] UniHOI: Unified Human-Object Interaction Understanding via Unified Token Space

Panqi Yang,Haodong Jing,Nanning Zheng,Yongqiang Ma

Main category: cs.CV

TL;DR: UniHOI是一个统一的人类-物体交互检测和生成模型,通过共享的token空间实现双向映射,在有限标注下也能有效工作。

  • Motivation: 传统方法将HOI检测和生成作为独立任务处理,阻碍了全面的交互理解。需要统一框架来促进知识共享和提升泛化能力。
  • Method: 提出对称的交互感知注意力模块和统一的半监督学习范式,通过共享token空间实现图像与交互语义的双向映射。
  • Result: 在HOI检测上准确率提升4.9%,在开放词汇生成任务上交互指标提升42.0%,在两个任务上都达到最先进性能。
  • Conclusion: UniHOI成功证明了统一建模HOI检测和生成任务的有效性,显著提升了模型性能,特别是在长尾检测和开放词汇生成方面。

[23] Hyperspectral Super-Resolution with Inter-Image Variability via Degradation-based Low-Rank and Residual Fusion Method

Yue Wen,Kunjing Yang,Minru Bai

Main category: cs.CV

TL;DR: 提出DLRRF模型处理高光谱与多光谱图像融合中的图像间变异性问题,通过建模光谱退化变化和分解低秩残差分量来提升融合性能。

  • Motivation: 高光谱与多光谱图像融合时,由于采集条件不同存在光谱变异性和空间局部变化,严重影响融合效果,现有方法直接变换图像会加剧模型不适定性。
  • Method: 将光谱变异性建模为光谱退化算子的变化,将目标高光谱图像分解为低秩和残差分量以恢复丢失的空间细节,采用降维和隐式正则化,在PnP框架下使用PAO算法求解。
  • Result: 大量数值实验表明DLRRF在处理具有图像间变异性的HSI和MSI融合中取得了优越性能。
  • Conclusion: DLRRF模型能有效处理高光谱与多光谱图像融合中的图像间变异性问题,提升融合质量。

[24] CellGenNet: A Knowledge-Distilled Framework for Robust Cell Segmentation in Cancer Tissues

Srijan Ray,Bikesh K. Nirala,Jason T. Yustein,Sundaresh Ram

Main category: cs.CV

TL;DR: CellGenNet是一个基于知识蒸馏的细胞分割框架,通过师生架构和混合损失函数,在有限监督下实现跨组织稳健的细胞分割。

  • Motivation: 显微镜全切片图像中的细胞核分割由于染色、成像条件和组织形态的变异性而具有挑战性,需要开发在有限监督下仍能稳健工作的分割方法。
  • Method: 采用师生架构,容量教师模型在稀疏标注上训练并生成软伪标签;学生模型通过整合真实标签和教师概率目标的联合目标进行优化,使用结合二元交叉熵和Tversky损失的混合损失函数,并应用一致性正则化和分层dropout。
  • Result: 在多种癌症组织全切片图像上的实验表明,CellGenNet相比监督和半监督基线方法提高了分割准确性和泛化能力。
  • Conclusion: CellGenNet支持可扩展和可重复的组织病理学分析,为有限监督下的细胞分割提供了有效解决方案。

[25] ProPL: Universal Semi-Supervised Ultrasound Image Segmentation via Prompt-Guided Pseudo-Labeling

Yaxiong Chen,Qicong Wang,Chunlei Li,Jingliang Hu,Yilei Shi,Shengwu Xiong,Xiao Xiang Zhu,Lichao Mou

Main category: cs.CV

TL;DR: 提出ProPL框架,解决超声图像分割的通用性问题,支持多器官多任务,结合有标签和无标签数据。

  • Motivation: 现有超声图像分割方法通常针对特定解剖结构或任务,限制了在临床环境中的实际应用价值。
  • Method: 使用共享视觉编码器配合提示引导的双解码器,通过解码时提示机制实现灵活任务适应,并利用不确定性驱动的伪标签校准模块进行可靠的自训练。
  • Result: 在包含5个器官和8个分割任务的综合超声数据集上,ProPL在各项指标上均优于最先进方法。
  • Conclusion: 为通用超声图像分割建立了新的基准,展示了在多器官多任务场景下的优越性能。

[26] Evaluating Multimodal Large Language Models on Vertically Written Japanese Text

Keito Sasagawa,Shuhei Kurita,Daisuke Kawahara

Main category: cs.CV

TL;DR: 评估多模态大语言模型在垂直书写日文文本上的阅读能力,发现现有模型在垂直文本上表现较差,但通过合成OCR数据集微调可以显著提升性能。

  • Motivation: 由于一些日文文档采用垂直书写方式,而现有研究对垂直书写日文文本的关注有限,需要评估MLLMs在这方面的能力。
  • Method: 生成合成日文OCR数据集(包含水平和垂直文本),创建真实世界垂直书写文档评估数据集,用于模型微调和评估。
  • Result: 现有MLLMs在垂直书写日文文本上的表现比水平文本差,但使用合成数据集训练可以显著改善原本无法处理垂直书写的模型性能。
  • Conclusion: 垂直书写日文文本对MLLMs构成挑战,但通过适当的训练数据可以解决这一问题,相关数据集和代码已公开。

[27] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

Cheng Yang,Haiyuan Wan,Yiran Peng,Xin Cheng,Zhaoyang Yu,Jiayi Zhang,Junchi Yu,Xinlei Yu,Xiawu Zheng,Dongzhan Zhou,Chenglin Wu

Main category: cs.CV

TL;DR: 本文提出了VR-Bench基准测试,用于评估视频模型在迷宫求解等空间推理任务中的能力,发现视频模型通过微调能够展现出强大的空间推理能力,优于视觉语言模型。

  • Motivation: 类比语言模型从文本生成发展到文本推理,本文探索视频模型是否能够通过视频生成进行推理。视频在空间布局和时间连续性方面的优势使其成为空间推理的理想载体。
  • Method: 构建VR-Bench基准测试,包含7,920个程序生成的视频,涵盖5种迷宫类型和多样视觉风格。通过监督微调(SFT)激发视频模型的推理能力,并测试推理时的多样化采样策略。
  • Result: 视频模型在空间推理任务中表现出更强的空间感知能力,优于领先的视觉语言模型,并能很好地泛化到不同场景、任务和复杂度级别。推理时的多样化采样可将可靠性提高10-20%。
  • Conclusion: 视频推理范式在空间推理任务中具有独特潜力和可扩展性,为视频模型从生成到推理的发展开辟了新方向。

[28] BokehFlow: Depth-Free Controllable Bokeh Rendering via Flow Matching

Yachuan Huang,Xianrui Luo,Qiwen Wang,Liao Shen,Jiaqi Li,Huiqiang Sun,Zihao Huang,Wei Jiang,Zhiguo Cao

Main category: cs.CV

TL;DR: BokehFlow是一个无需深度输入的景深渲染框架,基于流匹配直接合成逼真散景效果,通过文本提示实现语义控制。

  • Motivation: 现有方法依赖准确的深度图,而生成方法在可控性和效率方面存在局限,需要一种无需深度输入的可控散景渲染方案。
  • Method: 基于流匹配的深度无关框架,使用交叉注意力机制通过文本提示控制焦点区域和模糊强度。
  • Result: 在四个数据集上的实验表明,BokehFlow在渲染质量和效率上均优于现有深度依赖和生成方法。
  • Conclusion: BokehFlow成功实现了无需深度输入的可控散景渲染,提供了精确的语义控制和高效的渲染性能。

[29] MambaTrack3D: A State Space Model Framework for LiDAR-Based Object Tracking under High Temporal Variation

Shengjing Tian,Yinan Han,Xiantong Zhao,Xuehu Liu,Qi Lang

Main category: cs.CV

TL;DR: MambaTrack3D是一个基于状态空间模型Mamba的3D单目标跟踪框架,专门针对高时间变化动态户外环境,通过帧间传播和分组特征增强实现近线性复杂度和更好的精度-效率权衡。

  • Motivation: 解决现有基于内存的跟踪器在动态户外环境中面临的二次计算复杂度、时间冗余和几何先验利用不足的问题。
  • Method: 设计基于Mamba的帧间传播模块替代传统单帧特征提取,引入分组特征增强模块在通道层面分离前景和背景语义。
  • Result: 在KITTI-HTV和nuScenes-HTV基准测试中显著优于现有方法,在标准KITTI数据集上保持竞争力,实现了高达6.5%成功率和9.5%精度的提升。
  • Conclusion: MambaTrack3D在专业HTV和常规跟踪场景中均表现出色,实现了优越的精度-效率权衡和强大的泛化能力。

[30] TiCAL:Typicality-Based Consistency-Aware Learning for Multimodal Emotion Recognition

Wen Yin,Siyu Zhan,Cencen Liu,Xin Hu,Guiduo Duan,Xiurui Xie,Yuan-Fang Li,Tao He

Main category: cs.CV

TL;DR: 提出TiCAL框架解决多模态情感识别中的模态间情感冲突问题,通过典型性估计和双曲空间特征嵌入来提升识别性能

  • Motivation: 现有方法依赖统一情感标签进行监督训练,忽略了同一样本中不同模态可能表达不同情感倾向的模态间情感冲突问题
  • Method: TiCAL框架基于人类情感感知的阶段特性,利用伪单模态情感标签和典型性估计动态评估训练样本一致性,在双曲空间中嵌入特征以捕捉情感类别的细粒度差异
  • Result: 在CMU-MOSEI和MER2023等基准数据集上的实验验证了TiCAL的有效性,相比最先进的DMD方法提升了约2.6%的性能
  • Conclusion: TiCAL框架能够有效缓解模态间情感冲突,提高多模态情感识别的整体准确性

[31] Jointly Conditioned Diffusion Model for Multi-View Pose-Guided Person Image Synthesis

Chengyu Xie,Zhi Gong,Junchi Ren,Linkun Yu,Si Shen,Fei Shen,Xiaoyu Du

Main category: cs.CV

TL;DR: 提出联合条件扩散模型JCDM,通过多视图先验解决姿态引导人体图像生成中的纹理不完整和跨视图交互缺失问题

  • Motivation: 现有姿态引导人体图像生成方法受限于单参考视图的纹理不完整和缺乏显式的跨视图交互
  • Method: 使用外观先验模块从多视图推断整体身份保持先验,通过联合条件注入机制融合多视图线索并注入共享条件到去噪骨干网络
  • Result: 实验证明JCDM在保真度和跨视图一致性方面达到最先进水平
  • Conclusion: JCDM支持可变数量的参考视图,只需对标准扩散骨干进行最小化针对性架构修改即可集成

[32] A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models

Duo Li,Zuhao Yang,Xiaoqin Zhang,Ling Shao,Shijian Lu

Main category: cs.CV

TL;DR: 本文研究了离散扩散多模态大语言模型中的视觉令牌冗余问题,发现不同架构和任务下冗余模式不同,并提出了针对性的效率优化策略。

  • Motivation: 现有离散扩散MLLMs在推理时由于全序列注意力计算导致显著计算开销,而现有优化方法大多忽略了模态特定的视觉令牌冗余问题。
  • Method: 通过全面研究不同dMLLM架构和任务下视觉令牌冗余的演变规律,以及视觉令牌剪枝对模型响应和效率的影响。
  • Result: 研究发现视觉冗余仅出现在从头训练的dMLLMs处理长答案任务时;视觉令牌剪枝会引入不可忽视的信息损失,但只有从头训练的dMLLMs能在后期去噪步骤中逐步恢复丢失的信息。
  • Conclusion: 层跳过对AR到扩散的dMLLMs加速有效,而渐进式或后期剪枝对从头训练的dMLLMs更有效,为dMLLMs效率优化提供了新视角。

[33] Gaussian Blending: Rethinking Alpha Blending in 3D Gaussian Splatting

Junseo Koo,Jinseo Jeong,Gunhee Kim

Main category: cs.CV

TL;DR: 提出Gaussian Blending方法替代传统alpha blending,解决3DGS在未见采样率下的缩放模糊和阶梯伪影问题,保持实时渲染且无需额外内存。

  • Motivation: 现有3DGS方法在训练时未见采样率的视图合成中,缩放时会出现侵蚀引起的模糊伪影和扩张引起的阶梯伪影,推测源于alpha blending的根本局限性。
  • Method: 将alpha和透射率视为空间变化分布而非标量,提出Gaussian Blending方法,考虑像素区域内alpha值的空间分布来更新透射率,让邻近背景splat贡献最终渲染。
  • Result: Gaussian Blending能有效捕捉训练时未见各种采样率下的细节,在未见和已见采样率下均一致优于现有新视图合成模型。
  • Conclusion: Gaussian Blending作为即插即用替代方案,解决了3DGS在缩放时的视觉伪影问题,保持实时渲染性能且无需额外内存成本。

[34] An Event-triggered System for Social Persuasion and Danger Alert in Elder Home Monitoring

Jun-Yi Liu,Chung-Hao Chen,Ya-Chi Tsao,Ssu-Yao Wu,Yu-Ting Tsao,Lyn Chao-ling Chen

Main category: cs.CV

TL;DR: 开发了一个事件触发系统,通过GMM背景建模检测老年人物理和心理健康状态,包括看门狗、危险通知和照片链接三种事件类型,并在5个家庭中进行实验验证。

  • Motivation: 同时考虑老年人的生理和心理状态,为缺乏技术经验的老年人设计直观的操作方式,通过社交媒体与亲属建立沟通。
  • Method: 采用GMM背景建模检测访客和老年人的运动行为,使用SVM机器学习分析捕获的图像,设计基于正常生活活动的直观操作系统。
  • Result: 在家庭场景中成功检测和记录了三种类型的事件,系统能够有效识别老年人的活动状态并促进与亲属的沟通。
  • Conclusion: 该系统能够有效监测老年人的健康状况,通过简单直观的操作方式解决了老年人技术经验不足的问题,实现了与亲属的有效沟通。

[35] Unbiased Semantic Decoding with Vision Foundation Models for Few-shot Segmentation

Jin Wang,Bingfeng Zhang,Jian Pang,Weifeng Liu,Baodi Liu,Honglong Chen

Main category: cs.CV

TL;DR: 本文提出了一种与SAM集成的无偏语义解码策略,通过同时从支持和查询集中提取目标信息,利用CLIP模型的语义指导进行一致预测,以解决few-shot分割中SAM对准确提示的依赖问题。

  • Motivation: 现有的few-shot分割方法主要依赖从支持集中提取提示来激活SAM,但这种设计在适应未知类别时容易导致有偏的解码过程,无法充分利用SAM的泛化能力。
  • Method: 提出了无偏语义解码策略,包括两种特征增强策略:图像级的全局补充提供类别指示,像素级的局部指导提供目标位置;以及可学习的视觉-文本目标提示生成器,通过交互目标文本嵌入和CLIP视觉特征生成目标聚焦的提示嵌入。
  • Result: 该方法在不重新训练视觉基础模型的情况下,通过具有语义区分能力的特征和富含目标信息的提示引导,将注意力集中在目标区域。
  • Conclusion: USD策略能够有效激活SAM的泛化能力,在few-shot分割任务中实现无偏的语义解码和一致预测。

[36] WaveFuse-AL: Cyclical and Performance-Adaptive Multi-Strategy Active Learning for Medical Images

Nishchala Thakur,Swati Kochhar,Deepti R. Bathula,Sukrit Gupta

Main category: cs.CV

TL;DR: WaveFuse-AL是一个新颖的多策略主动学习框架,通过周期性时间先验和性能驱动适应,动态融合BALD、BADGE、Entropy和CoreSet四种获取策略,在医学影像任务中显著优于单策略和交替策略基线。

  • Motivation: 主动学习通过选择信息量最大的样本进行标注来降低医学影像标注成本,但单个获取策略在主动学习周期的不同阶段往往表现不一致。
  • Method: 提出WaveFuse-AL框架,将周期性(正弦)时间先验与性能驱动适应相结合,在整个学习过程中动态调整多种已建立获取策略的重要性。
  • Result: 在APTOS-2019(多类分类)、RSNA肺炎检测(二元分类)和ISIC-2018(皮肤病变分割)三个医学影像基准测试中,WaveFuse-AL在十二个指标测量中的十个上实现了统计显著的性能改进。
  • Conclusion: WaveFuse-AL能够一致地超越单策略和交替策略基线,在最大化有限标注预算效用的同时实现显著性能提升。

[37] DCL-SE: Dynamic Curriculum Learning for Spatiotemporal Encoding of Brain Imaging

Meihua Zhou,Xinyu Tong,Jiarui Zhao,Min Cheng,Li Yang,Lei Tian,Nan Wan

Main category: cs.CV

TL;DR: 提出了DCL-SE框架,通过数据驱动的时空编码和动态课程学习策略,将3D脑数据高效编码为2D动态表示,在多个神经影像任务中表现优异。

  • Motivation: 解决高维神经影像分析中时空保真度不足和大规模通用模型适应性有限的问题。
  • Method: 使用近似秩池化将3D脑体积数据编码为2D动态表示,采用动态课程学习策略和动态组机制逐步训练解码器。
  • Result: 在六个公开数据集上的评估显示,DCL-SE在阿尔茨海默病分类、脑肿瘤分类、脑动脉分割和脑年龄预测等任务中均优于现有方法。
  • Conclusion: 在大型预训练网络时代,紧凑的任务特定架构具有关键重要性。

[38] SceneEdited: A City-Scale Benchmark for 3D HD Map Updating via Image-Guided Change Detection

Chun-Jung Lin,Tat-Jun Chin,Sourav Garg,Feras Dayoub

Main category: cs.CV

TL;DR: SceneEdited是首个专门为3D点云更新研究设计的城市规模数据集,包含800多个场景、73公里驾驶距离,模拟了23,000多个物体变化,用于支持高精地图维护研究。

  • Motivation: 高精地图对城市规划、基础设施监控和自动驾驶导航至关重要,但环境变化导致地图快速过时。现有技术主要关注2D图像变化检测,缺乏从变化检测到实际更新3D地图的有效方法。
  • Method: 创建了包含校准RGB图像、LiDAR扫描和详细变化掩码的数据集,提供基于基础图像结构从运动管线的基线方法,以及支持可扩展性、可追踪性和可移植性的工具包。
  • Result: 数据集覆盖约3平方公里的城市区域,包含2,000多个过时版本,模拟了路边基础设施、建筑物、立交桥和电线杆等现实城市修改。
  • Conclusion: SceneEdited为3D地图更新研究建立了标准化基准,数据集和工具包已公开提供,支持未来数据集扩展和过时对象注释的统一。

[39] Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation

Firdavs Nasriddinov,Rafal Kocielnik,Anima Anandkumar,Andrew J. Hung

Main category: cs.CV

TL;DR: 开发了一个结构感知的手术反馈生成系统,通过从真实训练师-学员对话中学习手术动作本体,使用Instrument-Action-Target三元组来指导GPT-4o生成临床基础的手术反馈。

  • Motivation: 高质量的手术中反馈对改善学员表现和长期技能获取至关重要。自动化生成自然、训练师风格的反馈可以规模化提供及时、可访问且一致的指导,但需要能够理解临床相关表示的模型。
  • Method: 1) 从真实世界反馈文本中挖掘IAT三元组并将表面形式聚类为规范化类别;2) 微调视频到IAT模型,利用手术程序和任务上下文以及细粒度时间仪器运动;3) 演示如何使用IAT三元组表示来指导GPT-4o生成临床基础、训练师风格的反馈。
  • Result: 在视频到IAT识别任务中,上下文注入和时间跟踪带来一致的AUC提升。在反馈文本生成任务中,仅使用视频的GPT-4o得分为2.17,而IAT条件化达到2.44(+12.4%),可接受生成比例从21%翻倍至42%。传统文本相似性指标也有改善。
  • Conclusion: 基于明确IAT结构的生成提高了保真度并产生临床医生可验证的理由,支持在手术培训中的可审计使用。

[40] Multimodal Continual Instruction Tuning with Dynamic Gradient Guidance

Songze Li,Mingyu Gao,Tonghua Su,Xu-Yao Zhang,Zhongjie Wang

Main category: cs.CV

TL;DR: 提出了一种通过几何特性近似缺失梯度来缓解多模态持续指令调优中灾难性遗忘的新方法,无需模型扩展即可实现SOTA性能。

  • Motivation: 多模态持续指令调优面临灾难性遗忘的挑战,即学习新任务会导致先前任务性能下降。本文从缺失梯度的角度重新概念化这个问题。
  • Method: 利用参数空间的几何特性,使用当前参数与先前最优参数之间的方向向量作为梯度指导来近似缺失梯度,并结合有限回放缓冲区的真实梯度,通过伯努利采样策略动态平衡模型稳定性和可塑性。
  • Result: 在多模态持续指令调优数据集上的广泛实验表明,该方法无需模型扩展即可实现最先进的性能,有效缓解灾难性遗忘并保持紧凑架构。
  • Conclusion: 通过几何梯度近似方法成功解决了多模态持续学习中的灾难性遗忘问题,为紧凑模型的持续学习提供了有效解决方案。

[41] Learning Depth from Past Selves: Self-Evolution Contrast for Robust Depth Estimation

Jing Cao,Kui Jiang,Shenyi Li,Xiaocheng Feng,Yong Huang

Main category: cs.CV

TL;DR: 提出SEC-Depth框架,通过自进化对比学习提升自监督深度估计在恶劣天气条件下的鲁棒性

  • Motivation: 现有自监督深度估计方法在雨雾等恶劣天气条件下性能显著下降,能见度降低严重影响深度预测
  • Method: 利用训练过程中生成的中间参数构建时序演化的延迟模型,设计自进化对比方案,包括动态更新策略和自进化对比损失(SECL)
  • Result: 实验表明该方法能无缝集成到多种基线模型中,在零样本评估中显著增强鲁棒性
  • Conclusion: SEC-Depth框架有效缓解了恶劣天气条件下的性能损失,减少了人工干预需求

[42] MMCM: Multimodality-aware Metric using Clustering-based Modes for Probabilistic Human Motion Prediction

Kyotaro Tokoro,Hiromu Taketsugu,Norimichi Ukita

Main category: cs.CV

TL;DR: 本文提出了一种新的人体运动预测评估指标MMCM,该指标通过聚类定义运动模式,能够同时评估预测运动的覆盖范围(多模态分布)和有效性(运动合理性)。

  • Motivation: 现有的人体运动预测评估指标存在缺陷,它们往往简单地赞赏广泛分布的运动,即使这些运动属于单一模式或运动学上无效。需要一种能够同时评估预测运动的多模态覆盖和运动有效性的新指标。
  • Method: 提出MMCM指标:1)通过聚类将运动空间划分为多个模式;2)使用这些模式显式评估预测运动是否分布在多个模式中(覆盖性);3)从运动数据集中收集可能的未来运动来识别有效模式(有效性)。
  • Result: 实验验证了聚类方法能够产生合理的模式定义,并且MMCM能够准确评估多模态预测。
  • Conclusion: MMCM是一种有效的人体运动预测评估指标,能够同时考虑预测运动的覆盖性和有效性,解决了现有指标的局限性。

[43] Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

Geon Choi,Hangyul Yoon,Hyunju Shin,Hyunki Park,Sang Hoon Seo,Eunho Yang,Edward Choi

Main category: cs.CV

TL;DR: 提出了指令引导的病灶分割新范式,构建了首个大规模胸部X光病灶分割指令数据集MIMIC-ILS,并开发了ROSALIA模型,能够基于简单指令分割多种病灶类型并提供文本解释。

  • Motivation: 当前胸部X光病灶分割模型存在目标标签数量少、依赖专家级详细文本输入的问题,限制了实际应用。
  • Method: 开发了全自动多模态流水线构建MIMIC-ILS数据集,包含110万指令-答案对;基于该数据集微调视觉语言模型ROSALIA。
  • Result: ROSALIA模型在新任务中实现了高分割精度和文本准确性,证明了流水线的有效性和MIMIC-ILS作为基础资源的价值。
  • Conclusion: 指令引导病灶分割新范式解决了现有模型的局限性,MIMIC-ILS数据集和ROSALIA模型为像素级胸部X光病灶定位提供了重要基础。

[44] BrainRotViT: Transformer-ResNet Hybrid for Explainable Modeling of Brain Aging from 3D sMRI

Wasif Jalal,Md Nafiu Rahman,M. Sohel Rahman

Main category: cs.CV

TL;DR: 提出BrainRotViT混合架构,结合Vision Transformer的全局上下文建模和残差CNN的局部细化,用于从结构MRI准确估计脑年龄,在11个数据集上达到MAE 3.34年,优于现有方法。

  • Motivation: 传统回归和CNN方法存在手动特征工程、感受野有限和异质数据过拟合问题,纯Transformer模型需要大数据集和高计算成本,需要开发更高效准确的脑年龄估计方法。
  • Method: 使用Vision Transformer编码器在辅助任务上预训练学习切片级特征,然后冻结编码器生成嵌入向量矩阵,输入到结合性别信息的残差CNN回归器中估计连续脑年龄。
  • Result: 在11个MRI数据集上验证MAE为3.34年(Pearson r=0.98),在4个独立队列中MAE在3.77-5.04年之间,脑年龄差与阿尔茨海默病、认知障碍和自闭症谱系障碍相关。
  • Conclusion: 该方法提供了高效、可解释且可推广的脑年龄预测框架,弥合了CNN和Transformer方法之间的差距,为衰老和神经退行性疾病研究开辟了新途径。

[45] Insert In Style: A Zero-Shot Generative Framework for Harmonious Cross-Domain Object Composition

Raghu Vamsi Chittersu,Yuvraj Singh Rathore,Pranav Adlinge,Kunal Swami

Main category: cs.CV

TL;DR: Insert In Style是一个零样本生成框架,能够在风格化域中高质量地插入真实世界对象,无需在线微调或文本提示。

  • Motivation: 现有的基于参考的对象组合方法在将真实世界对象插入风格化域时效果不佳,要么缺乏生成保真度,要么需要不切实际的在线微调。
  • Method: 采用多阶段训练协议来解耦身份、风格和组合的表征,并使用专门的掩码注意力架构在生成过程中强制实施这种解耦。
  • Result: 在身份和风格指标上显著优于现有方法,用户研究也强烈证实了这一结果。
  • Conclusion: 该框架是第一个既实用又高保真的零样本生成方法,解决了风格化域中对象组合的挑战。

[46] Towards Unbiased Cross-Modal Representation Learning for Food Image-to-Recipe Retrieval

Qing Wang,Chong-Wah Ngo,Ee-Peng Lim

Main category: cs.CV

TL;DR: 本文提出了一种基于因果理论的跨模态表示学习方法,用于解决食谱和食物图像检索中的偏差问题。通过将食材视为混淆变量并进行后门调整,该方法显著提升了检索性能。

  • Motivation: 现有方法将食谱视为描述菜品视觉外观的文本源,但由于烹饪过程、菜品呈现和图像拍摄条件等因素,食物图像可能无法完全捕捉食谱中的所有细节,导致图像-食谱相似性判断存在偏差。
  • Method: 使用因果理论建模跨模态表示学习中的偏差,将食材视为混淆变量,通过后门调整进行因果干预,并提出了一个即插即用的多标签食材分类器模块来消除偏差。
  • Result: 在Recipe1M数据集上实现了MedR=1的最优检索性能,在1K、10K和50K测试数据规模下均达到最佳效果,创造了新的最先进搜索性能。
  • Conclusion: 因果干预方法能有效消除食谱-图像检索中的偏差,显著提升跨模态检索性能,为类似问题提供了理论指导。

[47] Physics-Based Benchmarking Metrics for Multimodal Synthetic Images

Kishor Datta Gupta,Marufa Kamal,Md. Mahfuzur Rahman,Fahad Rahman,Mohd Ariful Haque,Sunzida Siddique

Main category: cs.CV

TL;DR: 提出PCMDE指标,结合大语言模型与物理约束,解决现有指标在语义和结构准确性评估上的不足

  • Motivation: 现有评估指标如BLEU、CIDEr等无法充分捕捉语义或结构准确性,特别是在领域特定或上下文依赖场景中
  • Method: 三阶段架构:(1)通过目标检测和视觉语言模型提取多模态特征;(2)置信度加权组件融合进行自适应验证;(3)使用大语言模型进行物理引导推理,强制执行结构和关系约束
  • Result: 开发了PCMDE指标,能够更好地评估语义和结构准确性
  • Conclusion: PCMDE通过结合大语言模型推理、知识映射和视觉语言模型,克服了现有评估指标的局限性

[48] SkinGPT-R1: Adapter-Only Dual Distillation for Efficient Dermatology Reasoning

Yuhao Shen,Jiahe Qian,Zhangtianyi Chen,Yuanhao He,Juexiao Zhou

Main category: cs.CV

TL;DR: SkinGPT-R1是一个专注于皮肤科的视觉语言模型,通过明确的、逐步可验证的诊断推理链来提升皮肤疾病诊断能力。

  • Motivation: 为了解决皮肤科诊断中推理过程不透明的问题,开发能够提供明确、可验证推理链的皮肤科专用AI模型。
  • Method: 构建了DermCoT语料库(包含10,000个训练案例和3,000个专家评分案例),定义了DermEval六维评估器和DermBench基准,并采用皮肤科感知的视觉蒸馏技术。
  • Result: 在DermBench上获得4.031/5的平均分,排名第一,比Vision-R1提升约41%;在三个皮肤科分类基准上表现稳定且具有竞争力。
  • Conclusion: 基于DermCoT的推理链监督和皮肤科感知视觉蒸馏能显著提升模型在皮肤科诊断中的推理质量和识别准确性。

[49] SplitFlux: Learning to Decouple Content and Style from a Single Image

Yitong Yang,Yinglin Wang,Changshuo Wang,Yongjun Zhang,Ziyang Chen,Shuting He

Main category: cs.CV

TL;DR: 提出了SplitFlux方法,通过分析Flux模型特性,发现早期块控制内容、后期块控制风格,使用LoRA微调单Dream块来实现内容与风格的解耦。

  • Motivation: 现有SDXL方法难以实现高质量结果,而Flux模型由于特性未被充分探索,无法有效分离内容与风格。
  • Method: 基于Flux模型分析,提出SplitFlux:1)秩约束适应:压缩特定块的秩并放大更新幅度以保持内容结构;2)视觉门控LoRA:将内容LoRA分为高秩和低秩分支,分别保留主体信息和细节。
  • Result: 在多样化场景中,SplitFlux在内容保持和风格化质量方面持续优于最先进方法。
  • Conclusion: SplitFlux通过系统分析Flux模型特性,实现了有效的内容风格解耦,为定制化图像生成提供了高质量解决方案。

[50] Graph Query Networks for Object Detection with Automotive Radar

Loveneet Saini,Hasan Tercan,Tobias Meisen

Main category: cs.CV

TL;DR: GQN是一种基于注意力机制的图神经网络框架,用于解决3D雷达目标检测中稀疏不规则反射的挑战,通过图查询动态构建对象特定图,在NuScenes数据集上显著提升检测性能。

  • Motivation: 3D雷达在汽车感知中至关重要,但雷达的长波长会产生稀疏且不规则的反射,这对传统的基于网格和序列的卷积和变换器检测器构成挑战。
  • Method: 提出图查询网络(GQN),将雷达感知的对象建模为图,使用图查询动态关注鸟瞰图空间,构建对象特定图,并通过EdgeFocus进行关系推理和DeepContext Pooling进行上下文聚合。
  • Result: 在NuScenes数据集上,GQN将相对mAP提升高达+53%,比最强的先前雷达方法高出+8.2%,同时将峰值图构建开销减少80%,FLOPs成本适中。
  • Conclusion: GQN通过图查询和对象特定图建模有效解决了雷达目标检测中的稀疏性问题,在性能和效率方面都取得了显著改进。

[51] Edge-Centric Relational Reasoning for 3D Scene Graph Prediction

Yanni Ma,Hao Liu,Yulan Guo,Theo Gevers,Martin R. Oswald

Main category: cs.CV

TL;DR: 提出LEO框架,通过将关系边转换为节点进行边中心的关系推理,解决现有方法难以捕捉高阶关系依赖的问题

  • Motivation: 现有3D场景图预测方法采用对象中心的图神经网络,关系表示局限于成对对象上下文,难以捕捉对关系预测至关重要的高阶关系依赖
  • Method: 首先预测对象对之间的潜在链接以抑制无关边,然后将原始场景图转换为线图(每个关系作为节点),应用线图神经网络进行边中心关系推理,最后将增强的关系特征整合回原始对象中心图
  • Result: 在3DSSG数据集上与两个竞争基线相比,显示出持续改进,证明了边到对象推理范式的有效性
  • Conclusion: LEO框架能够从关系级上下文到对象级理解进行渐进式推理,是模型无关的,可与任何现有对象中心方法集成

[52] Taming Generative Synthetic Data for X-ray Prohibited Item Detection

Jialong Sun,Hongguang Zhu,Weizhe Liu,Yunda Sun,Renshuai Tao,Yunchao Wei

Main category: cs.CV

TL;DR: 提出了一种基于文本到图像生成的一阶段X射线安检图像合成方法Xsyn,无需额外人工成本即可实现高质量合成,在禁止物品检测任务中表现优于现有方法。

  • Motivation: 训练禁止物品检测模型需要大量X射线安检图像,但收集和标注这些图像耗时耗力。现有合成方法采用两阶段流程,需要人工前景提取,效率低下且成本高。
  • Method: 基于文本到图像生成的一阶段合成流程,包含交叉注意力细化策略(利用扩散模型的交叉注意力图优化边界框标注)和背景遮挡建模策略(在潜在空间中显式建模背景遮挡以增强图像复杂性)。
  • Result: 实验表明,Xsyn方法在mAP指标上比现有方法提升1.2%,生成的合成图像能够有效提升各种X射线安检数据集和检测器上的禁止物品检测性能。
  • Conclusion: Xsyn是首个无需额外人工成本即可实现高质量X射线安检图像合成的方法,为禁止物品检测任务提供了有效的解决方案。

[53] Text2Loc++: Generalizing 3D Point Cloud Localization from Natural Language

Yan Xia,Letian Shi,Yilin Di,Joao F. Henriques,Daniel Cremers

Main category: cs.CV

TL;DR: Text2Loc++是一个用于通过自然语言描述在3D点云中定位的神经网络,采用从粗到精的定位流程,在KITTI360Pose数据集上比现有方法性能提升高达15%。

  • Motivation: 解决使用复杂多样的自然语言描述在3D点云子图中进行定位的问题,特别是在多样化城市场景中处理不同语言复杂度的挑战。
  • Method: 采用从粗到精的定位流程:全局位置识别阶段使用预训练语言模型和分层Transformer结合最大池化处理句子级语义,注意力机制的点云编码器处理空间理解;提出掩码实例训练过滤非对齐对象;引入模态感知分层对比学习。精细定位阶段基于原型地图克隆和级联交叉注意力Transformer的轻量级框架。
  • Result: 在KITTI360Pose数据集上比现有方法性能提升高达15%,在新数据集上表现出良好的泛化能力,能有效处理复杂语言表达和多样化城市场景。
  • Conclusion: Text2Loc++通过创新的从粗到精定位框架和分层对比学习方法,在3D点云语言定位任务中取得了显著性能提升,并展现出良好的泛化能力。

[54] Adapt-As-You-Walk Through the Clouds: Training-Free Online Test-Time Adaptation of 3D Vision-Language Foundation Models

Mehran Tamjidi,Hamidreza Dastmalchi,Mohammadreza Alimoradijazi,Ali Cheraghian,Aijun An,Morteza Saberi

Main category: cs.CV

TL;DR: 提出Uni-Adapter,一种无需训练的在线测试时自适应策略,通过动态原型学习和图基标签平滑来解决3D视觉语言基础模型在实际场景中的性能下降问题。

  • Motivation: 3D视觉语言基础模型在开放世界点云处理任务中表现出色,但在实际场景中面对噪声、不完整或分布不同的数据时性能下降。
  • Method: 基于动态原型学习,定义3D缓存存储类别特定的聚类中心作为原型,通过相似性评分进行缓存基对数计算,同时使用图基标签平滑模块捕获原型间相似性以增强标签一致性,最后通过熵加权聚合统一原始模型和优化缓存的预测。
  • Result: 在多个3D基准测试中取得最先进性能,ModelNet-40C提升10.55%,ScanObjectNN-C提升8.26%,ShapeNet-C提升4.49%。
  • Conclusion: Uni-Adapter无需重新训练即可有效缓解分布偏移,显著提升3D视觉语言基础模型在异构数据分布下的性能。

[55] A Multimodal Transformer Approach for UAV Detection and Aerial Object Recognition Using Radar, Audio, and Video Data

Mauro Larrat,Claudomiro Sales

Main category: cs.CV

TL;DR: 本文提出了一种新颖的多模态Transformer模型,通过融合雷达、RGB视频、红外视频和音频数据,实现了无人机检测和空中物体识别的卓越性能,适合实时应用。

  • Motivation: 解决单一模态方法在无人机检测和空中物体识别中的局限性,需要构建能够融合多种数据流的鲁棒系统。
  • Method: 设计并评估了一种多模态Transformer模型,利用自注意力机制融合雷达、RGB视频、红外视频和音频等不同模态的特征,学习全面、互补且高度区分的表示进行分类。
  • Result: 在独立测试集上表现出色,实现了0.9812准确率、0.9873召回率、0.9787精确率、0.9826 F1分数和0.9954特异性,特别在区分无人机与其他空中物体方面表现出高精确度和召回率。
  • Conclusion: 该研究在空域物体分类方面取得了重要进展,验证了通过Transformer架构进行多模态数据融合的有效性,为复杂空域中的无人机检测和监控提供了高精度和鲁棒的解决方案。

[56] What Your Features Reveal: Data-Efficient Black-Box Feature Inversion Attack for Split DNNs

Zhihan Ren,Lijun He,Jiaxi Liang,Xinzhu Fu,Haixia Bi,Fan Li

Main category: cs.CV

TL;DR: FIA-Flow是一个黑盒特征反演攻击框架,能够从中间特征实现高保真图像重建,揭示了Split DNNs中比先前认知更严重的隐私威胁。

  • Motivation: Split DNNs将密集计算卸载到云服务器,但中间特征可能被利用来重建私有输入,现有FIA方法重建质量有限,难以评估隐私泄露的真实程度。
  • Method: 设计了潜在特征空间对齐模块(LFSAM)来弥合中间特征空间与潜在空间之间的语义差距,并开发了确定性反演流匹配(DIFM)来校正分布不匹配问题。
  • Result: 实验表明FIA-Flow在多种模型(AlexNet、ResNet、Swin Transformer、DINO和YOLO11)和各层上实现了更忠实和语义对齐的特征反演。
  • Conclusion: FIA-Flow揭示了Split DNNs中比先前认知更严重的隐私威胁,为评估隐私泄露提供了新视角。

[57] Adaptive thresholding pattern for fingerprint forgery detection

Zahra Farzadpour,Masoumeh Azghani

Main category: cs.CV

TL;DR: 提出了一种基于自适应阈值模式的指纹伪造检测算法,通过小波变换和多层系数处理来区分真假指纹,并在抗失真方面表现出色。

  • Motivation: 指纹活体检测系统面临伪造威胁,需要开发能够自动检测指纹伪造并抵抗各种失真(如噪声污染、像素缺失、块缺失)的技术。
  • Method: 使用各向异性扩散处理输入图像,通过三层小波变换,对不同层的系数进行自适应阈值处理并拼接成特征向量,最后使用SVM分类器进行分类。
  • Result: 在90%像素缺失场景下准确率提升约8%,在70x70块缺失场景下准确率提升约5%,在抗失真方面优于现有方法。
  • Conclusion: 提出的方法在指纹伪造检测中表现出优越性能,特别是在抵抗各种失真方面具有显著优势,为指纹生物识别系统提供了更可靠的保护。

[58] Fast Post-Hoc Confidence Fusion for 3-Class Open-Set Aerial Object Detection

Spyridon Loukovitis,Vasileios Karampinis,Athanasios Voulodimos

Main category: cs.CV

TL;DR: 提出了一种轻量级、模型无关的后处理框架,用于无人机导航中的开放集检测,能够同时处理已知目标、未知物体和背景的三分类问题。

  • Motivation: 现有开放集检测方法通常依赖单一不确定性分数和阈值处理,缺乏灵活性且容易将未知物体与背景混淆,无法满足无人机导航对安全性的要求。
  • Method: 使用融合方案聚合多个置信度估计和每个检测特征,通过紧凑的多层感知机实现三分类,并整合不同的logit变体来提升性能。
  • Result: 在二分类中平均提升2.7% AUROC,同时保持或改进开放集mAP;在三分类中显著优于竞争方法,封闭集mAP最高提升9个百分点(18%相对增益)。
  • Conclusion: 该方法为无人机导航提供了关键的鲁棒三分类能力,能够主动避开未知物体并安全忽略背景区域,显著提升了检测系统的可靠性。

[59] IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers

Gihwan Kim,Jemin Lee,Hyungshin Kim

Main category: cs.CV

TL;DR: IPTQ-ViT是一种无需重新训练即可实现完全整数推理的视觉Transformer后训练量化框架,通过多项式GELU和位移Softmax近似函数,在W8A8和W4A8设置下超越现有PTQ方法。

  • Motivation: 现有QAT方法需要昂贵的重新训练来恢复非线性层量化精度损失,而PTQ方法要么部分量化非线性函数,要么调整激活分布但无法实现完全整数推理。
  • Method: 提出多项式GELU和位移Softmax近似函数,并设计统一指标(量化敏感性、扰动和计算成本)来选择每层最优近似函数。
  • Result: 在图像分类上获得最高6.44%(平均1.78%)的top-1精度提升,目标检测提升1.0 mAP,在W8A8和W4A8下超越部分浮点PTQ方法,精度和延迟与整数QAT方法相当。
  • Conclusion: IPTQ-ViT首次实现了无需重新训练的完全整数视觉Transformer推理,在精度和效率上均优于现有PTQ方法。

[60] Zero-Shot Open-Vocabulary Human Motion Grounding with Test-Time Training

Yunjiao Zhou,Xinyan Chen,Junlang Qian,Lihua Xie,Jianfei Yang

Main category: cs.CV

TL;DR: ZOMG是一个零样本、开放词汇的运动分割框架,无需标注或微调即可将运动序列分解为语义对齐的子动作。

  • Motivation: 现有方法依赖预定义动作类的密集监督,在开放词汇的现实场景中不可行,需要能够无监督分解复杂人类活动的解决方案。
  • Method: 结合语言语义分割(使用大语言模型将指令分解为有序子动作单元)和软掩码优化(学习实例特定的时间掩码,关注关键帧同时保持段内连续性和段间分离性)。
  • Result: 在三个运动-语言数据集上实现最先进的运动定位性能,在HumanML3D基准上比之前方法提升+8.7% mAP,在下游检索任务中也有显著改进。
  • Conclusion: 为无标注运动理解建立了新范式,证明了零样本开放词汇方法的有效性。

[61] Breaking Expert Knowledge Limits: Self-Pruning for Large Language Models

Haidong Kang,Lihong Lin,Enneng Yang,Hongning Dai,Hao Wang

Main category: cs.CV

TL;DR: AutoPrune是一种新颖的LLM自剪枝方法,通过图驱动思维链自动设计最优剪枝算法,并引入偏斜感知动态稀疏分配来解决高剪枝率下的异常值问题。

  • Motivation: 现有LLM剪枝方法严重依赖人工设计算法,导致巨大的人力成本和专业知识需求,且在高剪枝率下存在严重的异常值问题导致性能急剧下降。
  • Method: 提出AutoPrune方法:1) 利用LLM自动设计剪枝算法;2) 使用图驱动思维链(GCoT)优化提示,增强推理过程;3) 引入偏斜感知动态稀疏分配(SDSA)解决异常值问题。
  • Result: 在主流LLM基准测试上的广泛实验表明,AutoPrune始终优于最先进的竞争对手。
  • Conclusion: AutoPrune证明了LLM可以自行剪枝,无需专家知识,并能有效解决高剪枝率下的性能下降问题,为LLM的实际部署提供了可行方案。

[62] ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation

Simon Boeder,Fabian Gigengack,Simon Roesler,Holger Caesar,Benjamin Risse

Main category: cs.CV

TL;DR: ShelfOcc是一种仅使用视觉的3D占用估计方法,通过从视频生成度量一致的语义体素标签,实现真正的3D监督,无需LiDAR或手动3D标注。

  • Motivation: 现有的自监督和弱监督占用估计方法依赖2D投影或渲染监督,存在几何不一致和深度出血问题。需要一种不依赖LiDAR的纯视觉方法来解决这些限制。
  • Method: 引入专用框架,通过跨帧过滤和累积静态几何,处理动态内容,并将语义信息传播到稳定的体素表示中,缓解稀疏、噪声和不一致的几何问题。
  • Result: 在Occ3D-nuScenes基准测试中,ShelfOcc显著优于所有先前的弱监督/半监督方法(相对改进高达34%),为无LiDAR的3D场景理解建立了新的数据驱动方向。
  • Conclusion: 高质量监督对于稳健的占用学习至关重要,是架构创新的重要补充途径。ShelfOcc展示了通过数据为中心的监督方法可以在不依赖LiDAR的情况下实现先进的3D场景理解。

[63] Controlling False Positives in Image Segmentation via Conformal Prediction

Luca Mossina,Corentin Friedrich

Main category: cs.CV

TL;DR: 提出一种后处理框架,通过保形预测为语义分割模型构建置信掩码,确保假阳性预测的比例低于用户指定的容忍度,提供统计保证。

  • Motivation: 深度分割模型很少提供明确的统计误差保证,而临床决策需要可靠的分割结果,特别是避免过分割可能带来的临床后果。
  • Method: 使用预训练分割模型,通过增加分数阈值或形态学腐蚀构建嵌套的收缩掩码族,利用标记校准集通过保形预测选择收缩参数。
  • Result: 在息肉分割基准测试中实现了目标级别的经验有效性,方法具有模型无关性,无需重新训练,并提供有限样本保证。
  • Conclusion: 该框架在过分割可能产生临床后果的场景中实现了实用的、风险感知的分割。

[64] D4C: Data-free Quantization for Contrastive Language-Image Pre-training Models

Wenlun Zhang,Yunshan Zhong,Zihao Ding,Xinyu Li,Kentaro Yoshioka

Main category: cs.CV

TL;DR: 提出了D4C框架,这是首个专门为CLIP模型设计的数据无关量化方法,通过生成语义丰富且结构多样的伪图像来解决现有DFQ技术在CLIP上的性能下降问题。

  • Motivation: 数据无关量化在隐私敏感场景中具有实用价值,但现有方法直接应用于视觉语言模型(如CLIP)会导致显著性能下降,主要原因是合成样本语义内容不足和图像内部多样性低。
  • Method: D4C框架包含三个关键组件:(1) 提示引导语义注入,使用文本提示使生成图像与真实世界语义对齐;(2) 结构对比生成,利用前景-背景对比合成重现自然图像的组合结构;(3) 扰动感知增强,应用受控扰动提高样本多样性和鲁棒性。
  • Result: 在W4A8设置下,D4C显著提升了CLIP模型的零样本分类性能:在CIFAR-10上提升12.4%-18.9%,在CIFAR-100上提升6.8%-19.7%,在ImageNet-1K上提升1.4%-5.7%。
  • Conclusion: D4C通过生成语义丰富且结构多样的伪图像,有效弥补了数据无关量化在CLIP模型上的性能差距,为视觉语言模型的隐私保护压缩提供了实用解决方案。

[65] WarNav: An Autonomous Driving Benchmark for Segmentation of Navigable Zones in War Scenes

Marc-Emmanuel Coupvent des Graviers,Hejer Ammar,Christophe Guettier,Yann Dumortier,Romaric Audigier

Main category: cs.CV

TL;DR: WarNav是一个基于DATTALION开源仓库图像构建的真实世界数据集,专门用于在冲突影响的无结构环境中开发和评估自主地面车辆的语义分割模型。

  • Motivation: 解决传统城市驾驶资源与危险战区无人系统面临的独特操作场景之间的关键差距,促进高风险场景下自主车辆的鲁棒性和安全性研究。
  • Method: 从DATTALION开源仓库收集图像数据,处理数据异质性和伦理问题,使用在结构化城市场景上训练的最先进语义分割模型建立性能基准,并分析训练数据环境的影响。
  • Result: 报告了多个语义分割模型在WarNav数据集上的基线结果,为在挑战性环境中实现有效导航性提供了初步步骤,特别是在目标图像没有标注的情况下。
  • Conclusion: WarNav数据集填补了现有资源与战区无人系统需求之间的空白,为在数据标注有限的情况下开发鲁棒自主导航系统提供了重要基础。

[66] Representation Space Constrained Learning with Modality Decoupling for Multimodal Object Detection

YiKang Shao,Tao Shi

Main category: cs.CV

TL;DR: 本文系统分析了多模态检测中的融合退化问题,提出了RSC-MD方法来解决梯度抑制和模态不平衡问题,在多个数据集上实现了最先进性能。

  • Motivation: 现有研究大多关注改进模态融合策略,但忽视了融合退化现象,且缺乏对其根本原因的理论分析。
  • Method: 提出RSC-MD方法,包含表示空间约束学习(RSC)和模态解耦(MD)两个模块,分别用于放大被抑制的梯度和消除模态间耦合干扰及不平衡。
  • Result: 在FLIR、LLVIP、M3FD和MFAD数据集上的广泛实验表明,该方法有效缓解了融合退化,在多个基准测试中达到了最先进性能。
  • Conclusion: RSC-MD方法能够全面优化各模态特定骨干网络,成功解决了多模态检测中的融合退化问题。

[67] HV-Attack: Hierarchical Visual Attack for Multimodal Retrieval Augmented Generation

Linyin Luo,Yujuan Ding,Yunshan Ma,Wenqi Fan,Hanjiang Lai

Main category: cs.CV

TL;DR: 本文提出了一种针对多模态检索增强生成(MRAG)系统的层次化视觉攻击方法,通过在用户输入的图像中添加不可察觉的扰动来破坏系统性能,而无需篡改其他组件。

  • Motivation: 现有研究主要关注MRAG系统的知识投毒攻击,但本文考虑仅通过视觉扰动攻击MRAG系统的新场景,这更具挑战性但更实用。
  • Method: 提出层次化视觉攻击方法,通过两阶段策略:首先破坏跨模态对齐,然后破坏多模态语义对齐,使检索器召回无关知识,从而混淆生成器的输出。
  • Result: 在OK-VQA和InfoSeek数据集上的实验表明,该方法能显著降低MRAG系统的检索和生成性能,证明了视觉攻击的有效性。
  • Conclusion: 视觉攻击是MRAG系统的一个实际安全威胁,需要开发相应的防御机制来保护系统安全。

[68] A Dataset and Baseline for Deep Learning-Based Visual Quality Inspection in Remanufacturing

Johannes C. Bauer,Paul Geng,Stephan Trattnig,Petr Dokládal,Rüdiger Daub

Main category: cs.CV

TL;DR: 提出了一个用于变速箱部件质量检测的新图像数据集,并开发了对比正则化损失来提升模型对未见部件类型的泛化能力

  • Motivation: 再制造过程中部件质量检测主要依赖人工,深度神经网络虽然能自动化视觉检测,但难以泛化到新的产品变体、部件或缺陷模式
  • Method: 创建包含两种汽车变速箱典型齿轮箱部件的图像数据集,生成不同的数据分布偏移来测试模型泛化能力,并提出对比正则化损失来增强模型鲁棒性
  • Result: 实验结果表明,所提出的对比正则化损失能够有效提升模型对未见类型部件的泛化能力
  • Conclusion: 该方法为解决再制造过程中部件质量检测的泛化问题提供了有效解决方案

[69] Driving in Spikes: An Entropy-Guided Object Detector for Spike Cameras

Ziyan Liu,Qi Su,Lulu Tang,Zhaofei Yu,Tiejun Huang

Main category: cs.CV

TL;DR: 提出了EASD,一种用于自动驾驶中脉冲相机目标检测的端到端检测器,采用双分支设计解决脉冲流稀疏离散的问题,并创建了首个面向驾驶的模拟脉冲检测基准DSEC Spike。

  • Motivation: 自动驾驶中的目标检测在快速运动和极端光照条件下存在运动模糊和饱和问题。脉冲相机具有微秒级延迟和超高动态范围,但其稀疏离散的输出无法被标准图像检测器处理。
  • Method: EASD采用双分支设计:时间纹理加特征融合分支用于全局跨切片语义,熵选择性注意力分支用于目标中心细节。同时创建了DSEC Spike基准数据集。
  • Result: 论文提出了首个端到端脉冲相机检测器,解决了脉冲流处理的关键挑战,并填补了驾驶导向脉冲检测数据集的空白。
  • Conclusion: EASD通过创新的双分支架构有效处理脉冲相机的稀疏输出,为自动驾驶在极端条件下的目标检测提供了新解决方案。

[70] SIGMMA: Hierarchical Graph-Based Multi-Scale Multi-modal Contrastive Alignment of Histopathology Image and Spatial Transcriptome

Dabin Jeong,Amirhossein Vahidi,Ciro Ramírez-Suástegui,Marie Moullet,Kevin Ly,Mohammad Vali Sanian,Sebastian Birk,Yinshui Chang,Adam Boxall,Daniyal Jafree,Lloyd Steele,Vijaya Baskar MS,Muzlifah Haniffa,Mohammad Lotfollahi

Main category: cs.CV

TL;DR: Sigmma是一个多模态对比对齐框架,用于在多个尺度上学习HE图像和空间转录组谱的层次表示,通过多尺度对比对齐和图表示细胞相互作用,显著提升了基因表达预测和跨模态检索性能。

  • Motivation: 现有方法通常在单一尺度上对齐HE图像和空间转录组谱,忽略了细粒度细胞结构及其空间组织,需要多尺度方法来更好地捕捉组织微环境中的细胞相互作用。
  • Method: 提出Sigmma框架,采用多尺度对比对齐确保不同尺度表示在模态间保持一致,并通过图表示细胞相互作用,整合图间和图内关系来捕捉从细到粗的细胞-细胞相互作用。
  • Result: Sigmma在基因表达预测任务中平均提升9.78%,在跨模态检索任务中平均提升26.93%,并在下游分析中学习了有意义的多组织组织。
  • Conclusion: Sigmma通过学习层次表示有效捕捉了跨模态对应关系,在计算病理学任务中表现出显著性能提升,证明了多尺度方法在理解组织微环境中的价值。

[71] Deep Learning for Accurate Vision-based Catch Composition in Tropical Tuna Purse Seiners

Xabier Lekunberri,Ahmad Kamal,Izaro Goienetxea,Jon Ruiz,Iñaki Quincoces,Jaime Valls Miro,Ignacio Arganda-Carreras,Jose A. Fernandes-Salvador

Main category: cs.CV

TL;DR: 该研究开发了一个AI多阶段管道,用于从围网渔船电子监控视频中自动识别大眼金枪鱼和黄鳍金枪鱼,结合YOLOv9-SAM2分割和分层分类方法,实现了84.8%的个体分割分类准确率。

  • Motivation: 围网渔船捕获了全球约69%的热带金枪鱼,电子监控系统产生大量视频数据需要人工处理。AI集成可以减轻工作量并提高报告准确性,但物种识别特别是大眼金枪鱼和黄鳍金枪鱼的区分仍具挑战性。
  • Method: 开发多阶段管道:比较三种分割方法(Mask R-CNN、DINOv2+SAM2、YOLOv9+SAM2),使用ByteTrack进行个体跟踪,评估标准多类分类和分层分类方法。
  • Result: YOLOv9-SAM2表现最佳,验证平均精度0.66±0.03,召回率0.88±0.03。结合分层分类,84.8%的个体被分割分类,平均误差4.5%。专家间识别一致性为42.9%±35.6%(大眼金枪鱼)和57.1%±35.6%(黄鳍金枪鱼)。
  • Conclusion: YOLOv9-SAM2与分层分类结合提供了最佳物种组成估计,显著提高了金枪鱼物种识别的自动化水平,为渔业管理提供了可靠工具。

[72] RS-CA-HSICT: A Residual and Spatial Channel Augmented CNN Transformer Framework for Monkeypox Detection

Rashid Iqbal,Saddam Hussain Khan

Main category: cs.CV

TL;DR: 提出了一种混合深度学习框架RS-CA-HSICT,结合CNN和Transformer的优势来增强MPox检测,通过残差学习、空间注意力和通道增强实现98.30%的分类准确率。

  • Motivation: 现有CNN和ViT在MPox检测中存在局限性,需要结合两者的优势来更好地捕捉局部纹理和全局上下文信息,同时处理多尺度特征和类内对比度变化。
  • Method: 构建HSICT模块集成CNN主干和定制ICT块,结合残差CNN、空间CNN和通道注意力机制,通过逆残差学习解决梯度消失,阶段式分辨率降低确保尺度不变性。
  • Result: 在Kaggle基准和多样化MPox数据集上达到98.30%分类准确率和98.13% F1分数,优于现有CNN和ViT方法。
  • Conclusion: RS-CA-HSICT框架有效结合了CNN和Transformer的优势,在MPox检测中表现出色,为医学图像分析提供了强大的混合架构。

[73] FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Luisa Gallée,Yiheng Xiong,Meinrad Beer,Michael Götz

Main category: cs.CV

TL;DR: FunnyNodules是一个完全参数化的合成医学图像数据集,用于系统评估医学AI模型中的属性推理能力,通过可控的视觉属性和预定义决策规则来支持可解释AI方法的发展和分析。

  • Motivation: 医学图像数据集中缺乏既包含诊断标签又包含诊断推理过程的标注数据,这种推理相关的标注对于开发和评估与放射科医生推理方式相似的可解释AI模型至关重要。
  • Method: 创建FunnyNodules合成数据集,生成抽象的肺结节样形状,具有可控的视觉属性(如圆形度、边缘锐度、毛刺征等),目标类别来自预定义的属性组合,完全控制属性与诊断类别之间的决策规则。
  • Result: FunnyNodules可用于模型无关的评估,评估模型是否学习正确的属性-目标关系,解释属性预测中的过拟合或欠拟合,并分析与属性特定感兴趣区域的对齐情况。
  • Conclusion: FunnyNodules提供了一个多功能的基础框架,具有完整的真实标注信息,支持医学图像分析中可解释AI方法的开发、基准测试和深入分析。

[74] Evaluating Low-Light Image Enhancement Across Multiple Intensity Levels

Maria Pilligua,David Serrano-Lozano,Pai Peng,Ramon Baldrich,Michael S. Brown,Javier Vazquez-Corral

Main category: cs.CV

TL;DR: 提出了多光照低光数据集MILL,包含不同光照强度下的图像,用于评估低光增强算法在不同光照条件下的性能表现。通过改进现有方法,在多种光照场景下实现了显著的性能提升。

  • Motivation: 现有低光增强方法大多依赖单一光照条件下的配对数据,缺乏对不同光照强度的适应性研究,限制了我们对算法在各种光照条件下性能的理解。
  • Method: 引入MILL数据集,包含在受控条件下固定相机设置和精确照度测量下捕获的不同光照强度图像。利用数据集的多光照结构提出改进方法,增强算法在不同光照场景下的鲁棒性。
  • Result: 基准测试显示现有方法在不同光照强度下性能差异显著。提出的改进在Full HD图像上实现了DSLR相机10 dB PSNR和智能手机2 dB PSNR的提升。
  • Conclusion: MILL数据集为全面评估低光增强算法提供了重要基准,提出的改进方法显著提升了算法在不同光照条件下的鲁棒性和性能。

[75] Learning to Expand Images for Efficient Visual Autoregressive Modeling

Ruiqing Yang,Kaixin Zhang,Zheng Zhang,Shan You,Tao Huang

Main category: cs.CV

TL;DR: EAR是一种新型自回归图像生成方法,模仿人类视觉系统的中心向外感知模式,通过螺旋展开图像token并采用长度自适应解码策略,在保持生成质量的同时显著提升效率。

  • Motivation: 现有自回归视觉生成方法存在效率问题,要么需要逐token解码,要么多尺度表示复杂。受人类视觉中心向外感知模式的启发,旨在开发更高效的自回归生成范式。
  • Method: 提出扩展自回归表示(EAR):1)以螺旋顺序从中心向外展开图像token,保持空间连续性;2)采用长度自适应解码策略,动态调整每步预测的token数量;3)支持并行解码。
  • Result: 在ImageNet上的实验表明,EAR在单尺度自回归模型中实现了保真度和效率之间的最先进权衡,计算成本降低的同时生成质量得到改善。
  • Conclusion: EAR为可扩展且认知对齐的自回归图像生成设定了新方向,通过生物启发设计在效率和生成质量方面都取得了显著提升。

[76] Multi-Text Guided Few-Shot Semantic Segmentation

Qiang Jiao,Bin Yan,Yi Yang,Mengrui Shi,Qiang Zhang

Main category: cs.CV

TL;DR: MTGNet是一个双分支框架,通过融合多样文本提示来改进文本先验并指导视觉先验的跨模态优化,解决现有方法因单一文本描述无法捕捉复杂类别语义多样性导致的目标区域激活不完整问题。

  • Motivation: 现有基于CLIP的少样本语义分割方法通常使用单一提示,无法充分捕捉复杂类别的语义多样性,导致目标区域激活不完整,且缺乏明确的跨模态交互,容易受到噪声支持特征的影响。
  • Method: 提出MTGNet框架,包含三个模块:MTPR模块抑制干扰并聚合互补语义线索;TAFF模块利用多文本嵌入作为语义锚点促进局部原型的传递;FCWA模块利用支持前景特征的内部自相似性增强视觉先验鲁棒性。
  • Result: 在标准FSS基准测试中,1-shot设置下在PASCAL-5i上达到76.8% mIoU,在COCO-20i上达到57.4% mIoU,在具有高类内变化的fold上表现显著提升。
  • Conclusion: MTGNet通过多文本引导和跨模态优化有效提升了少样本语义分割性能,特别是在处理语义多样性和类内变化方面表现出色。

[77] A Hybrid CNN-ViT-GNN Framework with GAN-Based Augmentation for Intelligent Weed Detection in Precision Agriculture

Pandiyaraju V,Abishek Karthik,Sreya Mynampati,Poovarasan L,D. Saraswathi

Main category: cs.CV

TL;DR: 提出一种用于杂草检测的混合深度学习框架,结合CNN、ViT和GNN,使用GAN增强和自监督对比预训练,在多个基准数据集上达到99.33%的准确率。

  • Motivation: 精确农业需要准确的杂草物种识别,以便选择性施用除草剂,实现可持续农业管理。
  • Method: 使用CNN、ViT和GNN构建混合深度学习框架,采用GAN进行数据增强平衡类别分布,结合自监督对比预训练从有限标注数据中学习更多特征。
  • Result: 在多个基准数据集上获得99.33%的准确率、精确率、召回率和F1分数,模型具有高可解释性和适应性。
  • Conclusion: 该框架能够实时高效部署到边缘设备,实现自动化杂草检测,减少对除草剂的过度依赖,为精准农业提供可扩展的可持续解决方案。

[78] Scriboora: Rethinking Human Pose Forecasting

Daniel Bermuth,Alexander Poeppel,Wolfgang Reif

Main category: cs.CV

TL;DR: 该论文评估了多种人体姿态预测算法,发现存在可复现性问题,并提出了统一的训练评估流程。通过类比语音理解任务,展示了语音模型可有效适应姿态预测任务并提升性能。最后评估了模型对姿态估计器噪声的鲁棒性,并展示了无监督微调对性能恢复的效果。

  • Motivation: 人体姿态预测在动作识别、自动驾驶和人机交互等领域有重要应用,但现有算法存在可复现性问题,且缺乏对真实噪声场景的鲁棒性评估。
  • Method: 建立了统一的训练和评估流程,将语音模型适配到姿态预测任务,并引入基于姿态估计器噪声的新数据集变体来评估模型鲁棒性,使用无监督微调恢复性能。
  • Result: 语音模型在姿态预测任务中表现出色,超越了现有最佳方法;姿态估计器噪声导致性能显著下降,但无监督微调可部分恢复性能。
  • Conclusion: 语音模型可有效提升姿态预测性能,但模型对真实噪声敏感,需要鲁棒性改进;无监督微调是应对噪声的有效策略。

[79] Computer-Use Agents as Judges for Generative User Interface

Kevin Qinghong Lin,Siyuan Hu,Linjie Li,Zhengyuan Yang,Lijuan Wang,Philip Torr,Mike Zheng Shou

Main category: cs.CV

TL;DR: 提出了一个Coder-CUA协作框架,让编码语言模型作为GUI设计师,计算机使用代理作为评估者,通过任务可解性和导航成功率来优化界面设计,而非视觉美观度。

  • Motivation: 当前GUI主要为人设计,迫使代理采用人类导向行为,而编码语言模型的进步使得自动GUI设计成为可能,需要探索代理能否作为评估者协助自动GUI设计。
  • Method: 构建AUI-Gym基准测试,包含52个应用和1560个合成任务;开发验证器确保任务可执行性;提出Coder-CUA协作框架,Coder设计网站,CUA评估功能;设计CUA仪表板压缩导航历史为可视化摘要。
  • Result: 成功建立了自动GUI设计评估框架,通过代理协作实现了界面设计的迭代优化,提高了代理在数字环境中的任务执行效率。
  • Conclusion: 该框架将代理从被动使用转向主动参与数字环境,推动界面设计向代理原生效率和可靠性发展。

[80] Transferable Dual-Domain Feature Importance Attack against AI-Generated Image Detector

Weiheng Zhu,Gang Cao,Jing Liu,Lifang Yu,Shaowei Weng

Main category: cs.CV

TL;DR: 提出了一种双域特征重要性攻击(DuFIA)方案,通过联合建模空间域和频域特征重要性来增强对抗样本的迁移性,有效规避AI生成图像检测器。

  • Motivation: 现有AI生成图像检测器在干净条件下表现优异,但对抗攻击安全性评估不足,需要开发更先进的对抗攻击方法来评估检测器的安全性。
  • Method: 通过空间插值梯度和频率感知扰动捕获取证重要特征,融合空间域和频域特征重要性来指导基于优化的对抗样本生成。
  • Result: 跨多种AI生成图像检测器的广泛实验验证了DuFIA的跨模型迁移性、透明性和鲁棒性。
  • Conclusion: DuFIA方案在一定程度上能够使AI生成图像检测器失效,证明了其在对抗攻击评估中的有效性。

[81] From Low-Rank Features to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers

Huiyuan Tian,Bonan Xu,Shijian Li,Xin Jin

Main category: cs.CV

TL;DR: 本文分析了ViT特征蒸馏失败的原因,发现尽管ViT表示全局低秩,但单个token使用高带宽编码模式,导致师生模型间编码不匹配。提出了两种最小化策略来重新激活ViT特征蒸馏。

  • Motivation: 理解为什么特征图知识蒸馏在卷积网络中有效但在Vision Transformers中失败,并基于分析结果设计有效的蒸馏方法。
  • Method: 1. 层间SVD分析显示ViT表示全局低秩;2. token级谱能量模式分析揭示编码不匹配问题;3. 提出两种策略:后验特征提升和原生宽度对齐。
  • Result: 在ImageNet-1K上,将DeiT-Tiny从CaiT-S24蒸馏的准确率从74.86%提升到77.53%和78.23%,同时改善了无教师训练的独立学生模型。
  • Conclusion: 解释了ViT特征蒸馏失败的原因,展示了如何利用低秩结构产生有效、可解释的补救措施,并为紧凑ViT设计提供了具体指导。

[82] AVATAAR: Agentic Video Answering via Temporal Adaptive Alignment and Reasoning

Urjitkumar Patel,Fang-Chun Yeh,Chinmay Gondhalekar

Main category: cs.CV

TL;DR: AVATAAR是一个模块化、可解释的视频问答框架,通过结合全局和局部视频上下文、预检索思考代理和重新思考模块,实现了类似人类的迭代推理,在CinePile基准测试中显著提升了视频理解能力。

  • Motivation: 随着视频内容的普及,理解和回答长视频问题变得至关重要。现有的大视觉语言模型在处理需要全面理解和详细分析的复杂查询时面临挑战。
  • Method: AVATAAR框架包含:1)全局和局部视频上下文结合;2)预检索思考代理;3)重新思考模块;4)持久全局摘要;5)重新思考模块与预检索思考代理之间的反馈循环,实现检索策略的迭代优化。
  • Result: 在CinePile基准测试中,相比基线模型,AVATAAR在时间推理上提升5.6%,技术查询提升5%,主题问题提升8%,叙事理解提升8.2%。实验证实每个模块都对性能有积极贡献,反馈循环对适应性至关重要。
  • Conclusion: AVATAAR为长视频问答提供了一个可扩展的解决方案,融合了准确性、可解释性和可扩展性,有效提升了视频理解能力。

[83] CompTrack: Information Bottleneck-Guided Low-Rank Dynamic Token Compression for Point Cloud Tracking

Sifan Zhou,Yichao Cao,Jiahao Nie,Yuqian Fu,Ziyu Zhao,Xiaobo Lu,Shuo Wang

Main category: cs.CV

TL;DR: CompTrack是一个用于3D LiDAR点云单目标跟踪的端到端框架,通过消除空间冗余和信息冗余来提升跟踪精度和效率。

  • Motivation: 现有跟踪器面临点云固有的稀疏性带来的双重冗余挑战:空间冗余(背景噪声影响精度)和信息冗余(前景内部信息冗余影响效率)。
  • Method: 提出CompTrack框架,包含空间前景预测器(SFP)模块基于信息熵过滤背景噪声,以及信息瓶颈引导的动态令牌压缩(IB-DTC)模块通过在线SVD分析自适应压缩冗余前景为紧凑的代理令牌。
  • Result: 在KITTI、nuScenes和Waymo数据集上的实验表明,CompTrack实现了顶级的跟踪性能,在单个RTX 3090 GPU上达到实时90 FPS的高效率。
  • Conclusion: CompTrack通过系统性地消除点云中的双重冗余,在保持高精度的同时实现了实时高效的3D目标跟踪。

[84] Learning from Mistakes: Loss-Aware Memory Enhanced Continual Learning for LiDAR Place Recognition

Xufei Wang,Junqiao Zhao,Siyue Tao,Qiwen Gu,Wonbong Kim,Tiantian Feng

Main category: cs.CV

TL;DR: KDF+是一个用于LiDAR地点识别的持续学习框架,通过损失感知采样策略和记忆增强机制解决灾难性遗忘问题,在多个基准测试中表现优于现有方法。

  • Motivation: 现有的LiDAR地点识别方法在新环境中往往难以适应而忘记先前学到的知识,即灾难性遗忘问题。
  • Method: 提出KDF+框架,包含损失感知采样策略(根据样本损失值估计学习难度,优先选择困难样本)和记忆增强机制(在训练新任务时进一步优化记忆样本)。
  • Result: 在多个基准测试中,KDF+持续优于现有持续学习方法,并能无缝集成到最先进的LiDAR地点识别框架中,带来显著且稳定的性能提升。
  • Conclusion: KDF+通过创新的采样和记忆增强策略,有效解决了LiDAR地点识别中的灾难性遗忘问题,为持续学习提供了有效的解决方案。

[85] US-X Complete: A Multi-Modal Approach to Anatomical 3D Shape Recovery

Miruna-Alexandra Gafencu,Yordanka Velikova,Nassir Navab,Mohammad Farid Azampour

Main category: cs.CV

TL;DR: 提出了一种新颖的多模态深度学习方法,利用单张X射线图像的信息来补全3D超声中被遮挡的脊椎解剖结构,解决了超声成像中骨骼声影导致的视野受限问题。

  • Motivation: 超声成像虽然具有无辐射、成本低、实时可视化等优势,但由于骨骼的声影效应,无法完整显示脊椎解剖结构,特别是椎体。需要克服这一关键限制来提升超声在脊柱手术中的引导价值。
  • Method: 生成配对训练数据:模拟X射线扫描的2D侧位脊椎视图和模拟超声成像中有限可见性的3D部分脊椎表示。通过多模态深度学习整合两种成像模式的形态信息。
  • Result: 在脊椎重建方面相比现有3D超声脊椎补全方法有显著改进(p < 0.001),实现了更准确、完整的腰椎体积可视化,无需与术前CT等模态配准。
  • Conclusion: 集成单张X射线投影能够有效缓解超声的关键限制,同时保留其作为主要成像模式的优势,为未来临床转化奠定了基础。

[86] MaskMed: Decoupled Mask and Class Prediction for Medical Image Segmentation

Bin Xie,Gady Agam

Main category: cs.CV

TL;DR: 提出MaskMed方法,通过解耦分割头和全尺度感知可变形Transformer模块,在医学图像分割中实现最先进性能,在AMOS 2022和BTCV数据集上分别超越nnUNet +2.0%和+6.9% Dice分数。

  • Motivation: 传统医学图像分割使用点式卷积分割头,每个输出通道固定对应特定类别,这种刚性设计限制了特征共享和语义泛化能力。
  • Method: 1) 统一的解耦分割头:将多类预测分离为类别无关的掩码预测和类别标签预测,使用共享对象查询;2) 全尺度感知可变形Transformer模块:通过可变形注意力让低分辨率编码器特征关注全分辨率编码器特征,实现内存高效且空间对齐的全尺度融合。
  • Result: 在AMOS 2022数据集上Dice分数比nnUNet提升2.0%,在BTCV数据集上提升6.9%,达到最先进性能。
  • Conclusion: MaskMed通过解耦分割头和全尺度特征融合,有效解决了传统分割方法的局限性,在医学图像分割任务中表现出优越性能。

[87] When to Think and When to Look: Uncertainty-Guided Lookback

Jing Bi,Filippos Bellos,Junjia Guo,Yayuan Li,Chao Huang,Yunlong,Tang,Luchuan Song,Susan Liang,Zhongfei,Zhang,Jason J. Corso,Chenliang Xu

Main category: cs.CV

TL;DR: 该论文系统分析了测试时思考(生成显式中间推理链)对视觉推理的影响,发现更多思考并不总是更好,长推理链往往导致忽略图像的错误轨迹。基于成功轨迹中富含回顾图像短语的洞察,提出了基于不确定性的回顾解码策略,在多个基准测试中实现了性能提升。

  • Motivation: 尽管测试时思考在大型视觉语言模型中显示出性能提升,但缺乏对思考如何影响视觉推理的系统性分析。本研究旨在填补这一空白,深入理解思考机制在视觉推理中的作用。
  • Method: 对InternVL3.5和Qwen3-VL家族的10个变体在MMMU-val上进行大规模对比分析,提出了基于不确定性的回顾解码策略,结合不确定性信号、自适应回顾提示和广度搜索,无需额外训练。
  • Result: 研究表明长推理链往往忽略图像内容,而包含回顾图像短语的短推理链与更好的视觉基础相关。提出的方法在MMMU上提升了整体性能,在标准思考表现较弱的类别中获得最大增益,并在五个额外基准测试中表现一致改进。
  • Conclusion: 测试时思考需要谨慎设计,基于不确定性的回顾解码策略能有效提升视觉推理性能,为视觉语言模型的推理机制提供了重要洞察和改进方向。

[88] FlashMesh: Faster and Better Autoregressive Mesh Synthesis via Structured Speculation

Tingrui Shen,Yiheng Zhang,Chen Tang,Chuan Ping,Zixing Zhao,Le Wan,Yuwang Wang,Ronggang Wang,Shengfeng He

Main category: cs.CV

TL;DR: FlashMesh是一个快速高保真网格生成框架,通过预测-校正-验证的推测解码方案,利用网格数据的结构先验来加速自回归模型,实现2倍加速同时提升生成质量。

  • Motivation: 自回归模型虽然能生成高质量3D网格,但其逐token解码导致推理速度慢,限制了在交互式和大规模应用中的实用性。
  • Method: 提出预测-校正-验证范式,利用网格token的结构和几何相关性进行多token推测,在hourglass transformer架构中实现面、点、坐标级别的并行预测。
  • Result: 实验显示FlashMesh相比标准自回归模型实现高达2倍的加速,同时提高了生成保真度。
  • Conclusion: 网格数据的结构先验可以系统性地用于加速和增强自回归生成。

[89] The SA-FARI Dataset: Segment Anything in Footage of Animals for Recognition and Identification

Dante Francisco Wasmuht,Otto Brookes,Maximillian Schall,Pablo Palencia,Chris Beirne,Tilo Burghardt,Majid Mirmehdi,Hjalmar Kühl,Mimi Arandjelovic,Sam Pottie,Peter Bermant,Brandon Asheim,Yi Jin Toh,Adam Elzinga,Jason Holmberg,Andrew Whitworth,Eleanor Flatt,Laura Gustafson,Chaitanya Ryali,Yuan-Ting Hu,Baishan Guo,Andrew Westbury,Kate Saenko,Didac Suris

Main category: cs.CV

TL;DR: SA-FARI是最大的开源野生动物多动物追踪数据集,包含11,609个摄像机陷阱视频,涵盖99个物种类别,提供16,224个掩模身份和942,702个边界框、分割掩码和物种标签。

  • Motivation: 现有野生动物追踪数据集规模有限,物种单一,缺乏时空多样性,无法训练适用于野生动物种群的通用多动物追踪模型。
  • Method: 收集了来自4大洲741个地点约10年(2014-2024)的摄像机陷阱视频,进行详尽标注,包括边界框、分割掩码和物种标签,并提供匿名化摄像机位置信息。
  • Result: 构建了包含46小时密集标注视频的大型数据集,使用最先进的视觉语言模型进行基准测试,包括SAM 3,并与专门为野生动物分析开发的纯视觉方法进行比较。
  • Conclusion: SA-FARI是首个结合高物种多样性、多区域覆盖和高质量时空标注的大规模数据集,为推进野外通用多动物追踪提供了新基础。

[90] Hierarchical Semantic Tree Anchoring for CLIP-Based Class-Incremental Learning

Tao Hu,Lan Li,Zhen-Hao Xie,Da-Wei Zhou

Main category: cs.CV

TL;DR: HASTEN是一种基于层次语义树的类增量学习方法,通过将层次信息锚定到CIL中,利用双曲空间嵌入和零空间投影来减少灾难性遗忘。

  • Motivation: 现有的基于CLIP的CIL方法未能显式捕捉视觉和语言概念的固有层次结构,导致细粒度类别特征在增量更新时发生漂移,最终造成灾难性遗忘。
  • Method: 1. 使用外部知识图谱作为监督,在双曲空间中嵌入视觉和文本特征,有效保留层次结构;2. 将梯度投影到共享双曲映射器的零空间,防止对先前任务的干扰。
  • Result: 大量实验表明HASTEN持续优于现有方法,同时提供统一的结构化表示。
  • Conclusion: HASTEN通过层次语义树锚定和双曲空间嵌入,有效缓解了类增量学习中的灾难性遗忘问题。

[91] Multi-Stage Residual-Aware Unsupervised Deep Learning Framework for Consistent Ultrasound Strain Elastography

Shourov Joarder,Tushar Talukder Showrav,Md. Kamrul Hasan

Main category: cs.CV

TL;DR: 提出了MUSSE-Net,一种基于残差感知的多阶段无监督深度学习框架,用于超声应变弹性成像中的稳健应变估计,在模拟和临床数据上均优于现有方法。

  • Motivation: 超声应变弹性成像在临床应用中受到组织去相关噪声、真实数据稀缺以及不同变形条件下应变估计不一致的限制,需要开发更稳健的应变估计方法。
  • Method: 提出USSE-Net作为核心架构,采用多流编码器-解码器结构并行处理变形前后的RF序列,结合上下文感知互补特征融合编码器、三交叉注意力瓶颈和交叉注意力融合解码器,并引入一致性损失和残差细化阶段。
  • Result: 在模拟数据上达到目标SNR 24.54、背景SNR 132.76、CNR 59.81和弹性成像SNR 9.73;在BUET临床数据集上产生增强的病灶-背景对比度和显著噪声抑制的应变图。
  • Conclusion: MUSSE-Net框架在超声应变弹性成像中实现了最先进的性能,能够生成临床可解释的应变模式,具有重要的临床应用价值。

[92] MambaIO: Global-Coordinate Inertial Odometry for Pedestrians via Multi-Scale Frequency-Decoupled Modeling

Shanshan Zhang

Main category: cs.CV

TL;DR: 本文提出MambaIO,通过拉普拉斯金字塔分解IMU信号,使用Mamba架构处理低频分量提取运动上下文,卷积结构处理高频分量捕获细节运动,在多个数据集上实现了最先进的定位精度。

  • Motivation: 传统惯性里程计主要使用全局坐标系,但无人机场景研究表明体坐标系能显著提升精度,需要重新评估全局坐标系在行人惯性里程计中的适用性。
  • Method: 使用拉普拉斯金字塔将IMU测量分解为高频和低频分量,低频分量通过Mamba架构提取隐式上下文运动线索,高频分量通过卷积结构捕获细粒度局部运动细节。
  • Result: 在多个公共数据集上的实验表明,MambaIO显著降低了定位误差,实现了最先进的性能。
  • Conclusion: 这是Mamba架构在惯性里程计任务中的首次应用,证明了该方法的有效性,为行人惯性定位提供了新的解决方案。

[93] INQUIRE-Search: A Framework for Interactive Discovery in Large-Scale Biodiversity Databases

Edward Vendrow,Julia Chae,Rupa Kurinchi-Vendhan,Isaac Eckert,Jazlynn Hall,Marta Jarzyna,Reymond Miyajima,Ruth Oliver,Laura Pollock,Lauren Schrack,Scott Yanco,Oisin Mac Aodha,Sara Beery

Main category: cs.CV

TL;DR: INQUIRE-Search是一个开源系统,利用自然语言搜索大规模生物多样性图像数据库中的生态概念,大幅提升科学发现效率

  • Motivation: 现有生态工作流程主要依赖元数据过滤或人工检查,无法有效利用生物多样性图像中蕴含的大量生态背景信息(如行为、互动、物候、栖息地等)
  • Method: 开发INQUIRE-Search系统,支持科学家使用自然语言在生态图像数据库中交互式搜索特定概念,验证并导出相关观测数据用于科学分析
  • Result: 相比传统方法,INQUIRE-Search仅需一小部分时间,通过五个案例研究展示了该工具支持的科学应用多样性,从物种行为的季节性变化到火灾后森林再生
  • Conclusion: INQUIRE-Search代表了一种交互式、高效且可扩展的科学发现新范式,能够解锁大规模生物多样性数据集中以前无法获取的科学价值,同时要求专家重新构建科学过程的优先事项

[94] GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI

Naomi Simumba,Nils Lehmann,Paolo Fraccaro,Hamed Alemohammad,Geeth De Mel,Salman Khan,Manil Maskey,Nicolas Longepe,Xiao Xiang Zhu,Hannah Kerner,Juan Bernabe-Moreno,Alexander Lacoste

Main category: cs.CV

TL;DR: GEO-Bench-2是一个用于评估地理空间基础模型的标准化基准框架,涵盖19个数据集和多种任务类型,通过能力分组对模型进行排名,帮助用户选择最适合特定任务的模型。

  • Motivation: 当前地理空间基础模型评估缺乏标准化协议,难以进行公平比较和确定模型在不同任务中的表现优劣。
  • Method: 建立包含分类、分割、回归、目标检测和实例分割的综合性评估框架,引入'能力'分组概念,根据数据集特征(如分辨率、波段、时间性)对模型进行排名。
  • Result: 实验表明没有单一模型在所有任务中表现最优,自然图像预训练模型在高分辨率任务中表现优异,而EO专用模型在多光谱应用中表现更好。
  • Conclusion: 最佳模型选择取决于任务需求、数据模态和约束条件,单一通用地理空间基础模型仍是一个开放的研究方向,GEO-Bench-2为特定用例提供可复现的评估标准。

[95] VisPlay: Self-Evolving Vision-Language Models from Images

Yicheng He,Chengsong Huang,Zongxia Li,Jiaxin Huang,Yonghui Yang

Main category: cs.CV

TL;DR: VisPlay是一个自演进的强化学习框架,让视觉语言模型使用无标签图像数据自主提升推理能力,通过角色分配和群体相对策略优化实现持续改进。

  • Motivation: 现有RL方法依赖人工标注标签或任务特定启发式来定义可验证奖励,成本高且难以扩展,需要一种能自主提升推理能力的框架。
  • Method: 将基础VLM分配到两个交互角色:图像条件提问者生成挑战性问题,多模态推理者生成银标签回答,使用GRPO结合多样性和难度奖励进行联合训练。
  • Result: 在Qwen2.5-VL和MiMo-VL两个模型家族上,VisPlay在8个基准测试中持续提升了视觉推理、组合泛化和减少幻觉的能力。
  • Conclusion: VisPlay展示了向自演进多模态智能的可扩展路径,能够有效利用无标签数据提升模型性能。

[96] MF-GCN: A Multi-Frequency Graph Convolutional Network for Tri-Modal Depression Detection Using Eye-Tracking, Facial, and Acoustic Features

Sejuti Rahman,Swakshar Deb,MD. Sameer Iqbal Chowdhury,MD. Jubair Ahmed Sourov,Mohammad Shamsuddin

Main category: cs.CV

TL;DR: 提出多频图卷积网络(MF-GCN)用于抑郁症检测,通过眼动追踪、音频和视频数据,结合低高频信号,在二元和三元分类任务中表现优异。

  • Motivation: 解决现有基于图的模型仅关注低频信息的局限性,充分利用眼动、音频和视频数据中的多频信号来提升抑郁症检测准确性。
  • Method: 设计多频图卷积网络(MF-GCN),包含新颖的多频滤波器组模块(MFFBM),能够同时利用低频和高频信号进行跨模态交互建模。
  • Result: 二元分类敏感度0.96,F2分数0.94;三元分类敏感度0.79,特异性0.87;在CMDC数据集上敏感度0.95,F2分数0.96,显著优于基线模型。
  • Conclusion: 多频框架能有效捕捉跨模态交互,为抑郁症检测提供准确可靠的方法,具有良好的泛化能力。

[97] MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Yushi Huang,Zining Wang,Zhihang Yuan,Yifu Ding,Ruihao Gong,Jinyang Guo,Xianglong Liu,Jun Zhang

Main category: cs.CV

TL;DR: MoDES是一个无需训练的高效MoE多模态大语言模型推理框架,通过全局调制局部门控机制和双模态阈值方法,在跳过88%专家的情况下仍能提升性能10.67%,并显著提高推理速度。

  • Motivation: 现有的专家跳过方法原本为单模态大语言模型设计,直接应用于MoE多模态大语言模型会导致性能显著下降,因为这些方法未能考虑MoE层间专家的异质贡献和模态特定行为。
  • Method: 提出MoDES框架:1) 全局调制局部门控机制,将全局层重要性整合到局部路由概率中;2) 双模态阈值方法,分别处理各模态token;3) 利用单调性特性的边界搜索算法快速确定最优阈值。
  • Result: 在3个模型系列的13个基准测试中,MoDES远超先前方法。例如跳过Qwen3-VL-MoE-30B-A3B-Instruct的88%专家时,性能提升达10.67%,预填充时间提升2.16倍,解码时间提升1.26倍。
  • Conclusion: MoDES是首个无需训练的自适应专家跳过框架,能够实现高效准确的MoE多模态大语言模型推理,显著优于现有方法。

[98] Hyperspectral Image Classification using Spectral-Spatial Mixer Network

Mohammed Q. Alkhatib

Main category: cs.CV

TL;DR: SS-MixNet是一种轻量级深度学习模型,用于高光谱图像分类,在仅使用1%标注数据的情况下,在两个数据集上分别达到95.68%和93.86%的总体准确率,优于现有方法。

  • Motivation: 解决高光谱图像分类中在有限监督下实现准确预测的挑战,开发轻量级但有效的模型。
  • Method: 结合3D卷积层提取局部光谱-空间特征,使用两个并行MLP风格的混合器块捕获光谱和空间维度的长程依赖关系,并采用深度卷积注意力机制增强判别能力。
  • Result: 在QUH-Tangdaowan和QUH-Qingyun数据集上,仅使用1%标注数据进行训练和验证,分别达到95.68%和93.86%的总体准确率,优于2D-CNN、3D-CNN、IP-SWIN、SimPoolFormer和HybridKAN等方法。
  • Conclusion: SS-MixNet在有限监督下能够提供准确且鲁棒的预测,定量指标和分类图证实了模型的有效性。

[99] First Frame Is the Place to Go for Video Content Customization

Jingxi Chen,Zongxia Li,Zhichao Liu,Guangyao Shi,Xiyang Wu,Fuxiao Liu,Cornelia Fermuller,Brandon Y. Feng,Yiannis Aloimonos

Main category: cs.CV

TL;DR: 论文揭示了视频生成模型将第一帧视为概念记忆缓冲区的本质,而非传统认为的时空起点,并基于此实现了仅需20-50个训练样本的鲁棒视频内容定制。

  • Motivation: 传统观点将视频第一帧视为时空起点,但研究发现视频模型实际上将其作为概念记忆缓冲区来存储视觉实体供后续生成重用。
  • Method: 利用第一帧作为概念记忆缓冲区的特性,在不改变架构或大规模微调的情况下,仅使用20-50个训练样本实现视频内容定制。
  • Result: 实现了鲁棒且通用的视频内容定制,在多样化场景中都能有效工作,展示了视频生成模型被忽视的基于参考的定制能力。
  • Conclusion: 视频生成模型具有强大的基于参考的视频定制能力,这一能力源于模型将第一帧作为概念记忆缓冲区的内在机制。

[100] Think Visually, Reason Textually: Vision-Language Synergy in ARC

Beichen Zhang,Yuhang Zang,Xiaoyi Dong,Yuhang Cao,Haodong Duan,Dahua Lin,Jiaqi Wang

Main category: cs.CV

TL;DR: 提出了一种结合视觉和语言推理的方法来解决ARC-AGI抽象推理问题,通过视觉-语言协同推理和模态切换自校正策略,在多个模型上实现了比纯文本基线高达4.33%的性能提升。

  • Motivation: 现有方法将ARC-AGI视为纯文本推理任务,忽略了人类在解决此类谜题时依赖视觉抽象的事实。研究发现简单地将网格渲染为图像会因规则执行不精确而降低性能,因此假设视觉和语言在不同推理阶段具有互补优势。
  • Method: 引入两种协同策略:1) 视觉-语言协同推理(VLSR),将ARC-AGI分解为模态对齐的子任务;2) 模态切换自校正(MSSC),利用视觉验证基于文本的推理以实现内在错误校正。
  • Result: 在多个旗舰模型和多个ARC-AGI任务上的广泛实验表明,该方法比纯文本基线提高了高达4.33%的性能。
  • Conclusion: 将视觉抽象与语言推理统一是实现未来基础模型中可泛化、类人智能的关键步骤。

[101] GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

Yikun Wang,Zuyan Liu,Ziyi Wang,Pengfei Liu,Han Hu,Yongming Rao

Main category: cs.CV

TL;DR: 本文提出了GeoBench基准测试和GeoVista代理模型,用于评估和改进地理定位任务中的智能体推理能力。GeoVista通过集成图像放大和网络搜索工具,结合监督微调和强化学习训练,在多个指标上达到与闭源模型相当的性能。

  • Motivation: 当前基于代理的视觉推理研究主要关注图像处理工具,缺乏面向通用代理模型的地理定位能力评估。现有地理定位基准无法满足高分辨率图像和深度代理推理的需求。
  • Method: 构建GeoBench基准测试,包含全球照片、全景图和城市卫星图像;提出GeoVista代理模型,在推理循环中集成图像放大和网络搜索工具;采用两阶段训练流程:监督微调学习推理模式和工具使用先验,强化学习阶段使用分层奖励提升性能。
  • Result: GeoVista在多个指标上大幅超越其他开源代理模型,在大多数指标上与Gemini-2.5-flash和GPT-5等闭源模型性能相当。
  • Conclusion: GeoVista通过工具集成和分层强化学习训练,有效提升了地理定位任务中的代理推理能力,填补了现有基准测试的不足。

[102] RoMa v2: Harder Better Faster Denser Feature Matching

Johan Edstedt,David Nordström,Yushan Zhang,Georg Bökman,Jonathan Astermark,Viktor Larsson,Anders Heyden,Fredrik Kahl,Mårten Wadenbäck,Michael Felsberg

Main category: cs.CV

TL;DR: 提出了一种新的密集特征匹配模型,通过架构改进、损失函数优化、多样化训练分布和两阶段匹配-精炼流程,显著提升了匹配精度和效率。

  • Motivation: 现有密集匹配器在复杂真实场景中表现不佳,高精度模型速度慢,限制了实际应用。
  • Method: 构建新颖的匹配架构和损失函数,采用两阶段匹配-精炼流程,使用定制CUDA内核减少内存使用,并利用DINOv3基础模型提升鲁棒性。
  • Result: 在广泛实验中,新匹配器显著优于先前方法,达到了新的最先进水平。
  • Conclusion: 通过系统性的多方面改进,开发出了更准确、高效的密集特征匹配模型,解决了现有方法的局限性。

cs.RO

[103] Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception

Jiashu Yang,Yifan Han,Yucheng Xie,Ning Guo,Wenzhao Lian

Main category: cs.RO

TL;DR: EyeVLA是一个主动视觉感知的机器人眼球系统,通过将动作行为离散化为动作标记,并与视觉语言模型集成,实现在像素和空间预算约束下主动获取更丰富的信息。

  • Motivation: 现有的视觉模型和固定RGB-D相机系统无法同时实现广域覆盖和细粒度细节获取,限制了在开放世界机器人应用中的效能。
  • Method: 将动作行为离散化为动作标记,与视觉语言模型集成进行联合建模;使用2D边界框坐标指导推理链,应用强化学习优化视点选择策略;仅使用少量真实世界数据将VLM的开放世界场景理解能力转移到VLA策略。
  • Result: 实验表明系统在真实世界环境中高效执行指令场景,通过旋转和缩放等指令驱动动作主动获取更准确的视觉信息,实现强大的环境感知能力。
  • Conclusion: EyeVLA引入了一种新颖的机器人视觉系统,利用详细且空间丰富的大规模具身数据,为下游具身任务主动获取高信息量的视觉观察。

[104] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Senyu Fei,Siyin Wang,Li Ji,Ao Li,Shiduo Zhang,Liming Liu,Jinlong Hou,Jingjing Gong,Xianzhong Zhao,Xipeng Qiu

Main category: cs.RO

TL;DR: SRPO是一个创新的VLA-RL框架,通过利用模型自身成功轨迹作为自我参考,为失败尝试分配渐进式奖励,解决了奖励稀疏性问题,在LIBERO基准上实现了99.2%的成功率。

  • Motivation: 现有VLA模型依赖专家演示导致演示偏差,而VLA-RL方法面临严重奖励稀疏性问题,仅使用二元成功指标浪费了失败轨迹中的有价值信息。
  • Method: 提出自参考策略优化(SRPO),利用当前训练批次中生成的自身成功轨迹作为参考,通过世界模型的潜在空间表示来稳健地测量行为进展,无需外部演示或手动奖励工程。
  • Result: 在LIBERO基准上,从48.9%的基线成功率提升到99.2%,相对改进103%;在LIBERO-Plus基准上性能提升167%,仅用200个RL步骤。
  • Conclusion: SRPO通过自我参考和潜在世界表示有效解决了VLA-RL中的奖励稀疏性问题,实现了高效训练和强大性能,无需额外监督。

[105] In-N-On: Scaling Egocentric Manipulation with in-the-wild and on-task Data

Xiongyi Cai,Ri-Zhao Qiu,Geng Chen,Lai Wei,Isabella Liu,Tianshu Huang,Xuxin Cheng,Xiaolong Wang

Main category: cs.RO

TL;DR: 提出了一种利用人类自我中心视频数据学习操作策略的可扩展方法,通过将人类数据分为"野外"和"任务"两类,并开发了PHSD数据集和Human0策略,实现了语言指令跟随、少样本学习和鲁棒性提升。

  • Motivation: 自我中心视频是学习操作策略的宝贵数据源,但由于数据异质性,现有方法未能充分发挥其潜力。需要系统化的数据收集和使用方法来解锁其全部价值。
  • Method: 将人类数据分为野外数据和任务数据,构建PHSD数据集(1000+小时野外数据,20+小时任务数据),训练大型自我中心语言条件流匹配策略Human0,并使用领域适应技术缩小人类与人形机器人之间的差距。
  • Result: Human0实现了从人类数据中学习语言指令跟随、少样本学习能力,并通过任务数据提高了鲁棒性,展示了扩展人类数据带来的新特性。
  • Conclusion: 通过系统化的数据分类和领域适应技术,可以有效地利用大规模人类自我中心视频数据来学习复杂的操作策略,为机器人学习提供了新的可能性。

cs.CL

[106] Context Cascade Compression: Exploring the Upper Limits of Text Compression

Fanfan Liu,Haibo Qiu

Main category: cs.CL

TL;DR: 提出了C3上下文级联压缩方法,通过大小两个LLM级联处理长文本压缩和解码任务,在20倍压缩比下达到98%解码准确率,显著优于DeepSeek-OCR的60%准确率。

  • Motivation: 解决百万级token长上下文任务给LLM带来的计算和内存挑战,探索文本压缩的上限。
  • Method: 级联两个不同大小的LLM:小LLM作为第一阶段将长上下文压缩为少量潜在token(如32或64长度),大LLM作为第二阶段在压缩上下文中执行解码任务。
  • Result: 20倍压缩比下达到98%解码准确率(DeepSeek-OCR约60%),40倍压缩比下仍保持约93%准确率。
  • Conclusion: C3压缩在上下文压缩领域表现出优越性能和可行性,为光学字符压缩、OCR等领域提供了压缩比的上限参考。

[107] Multimodal Evaluation of Russian-language Architectures

Artem Chervyakov,Ulyana Isaeva,Anton Emelyanov,Artem Safin,Maria Tikhonova,Alexander Kharitonov,Yulia Lyakh,Petr Surovtsev,Denis Shevelev Vildan Saburov,Vasily Konovalov,Elisei Rykov,Ivan Sviridov,Amina Miftakhova,Ilseyar Alimova,Alexander Panchenko,Alexander Kapitanov,Alena Fenogenova

Main category: cs.CL

TL;DR: Mera Multi是一个针对俄语的多模态评估框架,包含18个新构建的评估任务,涵盖文本、图像、音频和视频模态,为俄语多模态大语言模型提供标准化评估。

  • Motivation: 目前缺乏针对俄语的多模态基准测试,多模态大语言模型的能力、局限性和风险尚未得到充分理解,特别是在考虑俄语文化和语言特性的情况下。
  • Method: 创建了包含18个全新数据集的评估框架,采用指令式评估,涵盖文本、图像、音频和视频模态,包含通用模型和模态特定架构的评估,并采用水印和许可证来防止基准泄露。
  • Result: 提供了闭源和开源模型的基线结果,建立了统一的多模态能力分类法,创建了关注俄语文化和语言特性的数据集。
  • Conclusion: Mera Multi填补了俄语多模态评估的空白,其方法论可复制到其他斯拉夫语系语言中,为多模态模型在类型多样语言中的评估提供了可行方案。

q-bio.QM

[108] Data-driven Prediction of Species-Specific Plant Responses to Spectral-Shifting Films from Leaf Phenotypic and Photosynthetic Traits

Jun Hyeun Kang,Jung Eek Son,Tae In Ahn

Main category: q-bio.QM

TL;DR: 本研究使用人工智能方法分析光谱转换膜对温室作物产量的影响,通过数据增强和多种机器学习模型预测光谱转换效果,前馈神经网络在测试集上达到91.4%的分类准确率。

  • Motivation: 光谱转换膜在温室中的应用对作物生长反应存在物种差异,仅考虑单一作物属性难以理解光质调整与作物生长的关系,需要综合考虑多种植物表型性状和生理响应。
  • Method: 在2021-2024年间,在覆盖普通膜和光谱转换膜的温室中种植多种作物,测量叶片反射率、叶质量面积比、叶绿素含量、日光照积分和光饱和点等参数,使用变分自编码器进行数据增强,并训练逻辑回归、决策树、随机森林、XGBoost和前馈神经网络等模型进行二元分类。
  • Result: 收集了210个数据点,光谱转换膜下大多数作物产量平均增加22.5%,前馈神经网络在测试数据集上实现了91.4%的高分类准确率。
  • Conclusion: 本研究通过改进预测光谱转换效果的能力,为叶片表型和光合特性、环境条件与太阳光谱组分之间的复杂相互作用提供了见解。

eess.IV

[109] Application of Graph Based Vision Transformers Architectures for Accurate Temperature Prediction in Fiber Specklegram Sensors

Abhishek Sebastian

Main category: eess.IV

TL;DR: 本研究使用多种基于Transformer的架构(包括ViT、Swin Transformer、LINA-ViT和MAP-ViGAT)来预测光纤散斑图中的温度变化,在0-120摄氏度范围内取得了优于传统CNN模型的性能,并通过XAI技术提高了模型的可解释性。

  • Motivation: 光纤散斑图传感器在环境监测中非常有效,但散斑图数据的非线性特性给准确温度预测带来了重大挑战,需要探索更先进的模型来处理这种复杂数据。
  • Method: 采用多种Transformer架构(ViT、Swin Transformer、LINA-ViT、MAP-ViGAT)处理光纤散斑图数据,并结合可解释AI技术(注意力图和显著性图)分析模型决策过程。
  • Result: ViT模型取得了1.15的平均绝对误差,优于传统CNN模型。GAT-ViT和MAP-ViGAT变体也表现出竞争力,自适应注意力机制和图结构能有效捕捉散斑图中的复杂模态相互作用和相位偏移。
  • Conclusion: Transformer架构为基于光纤的温度传感建立了强大的基准,并为工业监测和结构健康评估应用提供了有前景的方向。

[110] Image Denoising Using Transformed L1 (TL1) Regularization via ADMM

Nabiha Choudhury,Jianqing Jia,Yifei Lou

Main category: eess.IV

TL;DR: 提出使用变换L1(TL1)正则化替代传统TV正则化进行图像去噪,通过ADMM算法求解,能有效抑制噪声同时保持边缘和增强对比度

  • Motivation: 传统TV正则化的凸L1形式会导致阶梯伪影和对比度损失问题
  • Method: 开发TL1正则化去噪模型,使用ADMM算法求解,包含闭式TL1近端算子和基于FFT的图像更新
  • Result: 实验结果表明该方法实现优异的去噪性能,有效抑制噪声同时保持边缘和增强图像对比度
  • Conclusion: TL1正则化是TV正则化的有效替代方案,能解决阶梯伪影和对比度损失问题

cs.CR

[111] Attacking Autonomous Driving Agents with Adversarial Machine Learning: A Holistic Evaluation with the CARLA Leaderboard

Henry Wong,Clement Fung,Weiran Lin,Karen Li,Stanley Chen,Lujo Bauer

Main category: cs.CR

TL;DR: 评估对抗性示例对自动驾驶的风险,通过CARLA模拟器测试针对多种驾驶代理的攻击,发现尽管某些攻击能误导ML模型,但驾驶代理的其他模块可能覆盖被攻击的预测结果。

  • Motivation: 自动驾驶系统结合了多种ML模型、控制器逻辑和自定义模块,但现有研究主要关注孤立ML模型的对抗攻击,不清楚这些攻击是否能在实际驾驶环境中产生有害行为。
  • Method: 使用CARLA模拟器创建和评估对抗性补丁,针对CARLA排行榜上的驾驶代理进行测试,无需修改代理代码,覆盖代理的所有组成部分。
  • Result: 某些攻击能成功误导ML模型产生错误的停止或转向指令,但一些驾驶代理使用PID控制或基于GPS的规则等模块,能够覆盖被攻击的ML模型预测。
  • Conclusion: 对抗性攻击对自动驾驶系统的有效性取决于代理的整体架构,仅针对ML模型的攻击评估可能不足以反映真实风险,需要考虑整个系统的响应机制。

cs.DB

[112] BBox DocVQA: A Large Scale Bounding Box Grounded Dataset for Enhancing Reasoning in Document Visual Question Answer

Wenhan Yu,Wang Chen,Guanqiang Qi,Weikang Li,Yang Li,Lei Sha,Deguo Xia,Jizhou Huang

Main category: cs.DB

TL;DR: 提出了BBox DocVQA数据集,这是一个大规模、基于边界框的文档视觉问答数据集,旨在增强视觉文档中的空间推理和证据定位能力。

  • Motivation: 现有的DocVQA数据集大多局限于页面级别,缺乏细粒度的空间定位,限制了视觉语言模型的解释性和推理能力。
  • Method: 开发了自动构建流水线Segment Judge and Generate,集成了区域分割模型、用于语义判断的VLM和用于问答生成的先进VLM,并通过人工验证确保质量。
  • Result: 构建的数据集包含3.6K个多样化文档和32K个QA对,涵盖单区域/多区域以及单页/多页场景。基准测试显示现有VLMs在空间定位和推理准确性方面仍面临挑战。
  • Conclusion: 在BBox DocVQA上进行微调显著改善了边界框定位和答案生成,验证了该数据集对于增强VLMs推理能力的有效性。

cs.GR

[113] MHR: Momentum Human Rig

Aaron Ferguson,Ahmed A. A. Osman,Berta Bescos,Carsten Stoll,Chris Twigg,Christoph Lassner,David Otte,Eric Vignola,Federica Bogo,Igor Santesteban,Javier Romero,Jenna Zarate,Jeongseok Lee,Jinhyung Park,Jinlong Yang,John Doublestein,Kishore Venkateshan,Kris Kitani,Ladislav Kavan,Marco Dal Farra,Matthew Hu,Matthew Cioffi,Michael Fabris,Michael Ranieri,Mohammad Modarres,Petr Kadlecek,Rinat Abdrashitov,Romain Prévost,Roman Rajbhandari,Ronald Mallet,Russel Pearsall,Sandy Kao,Sanjeev Kumar,Scott Parrish,Te-Li Wang,Tony Tung,Yuan Dong,Yuhua Chen,Yuanlu Xu,Yuting Ye,Zhongshi Jiang

Main category: cs.GR

TL;DR: MHR是一个参数化人体模型,结合了ATLAS的解耦骨架/形状范式和Momentum库的灵活现代绑定系统,支持非线性姿态修正,用于AR/VR和图形管道的表达性人体动画。

  • Motivation: 开发一个能够实现表达性、解剖学上合理的人体动画的模型,同时支持非线性姿态修正,并适用于AR/VR和图形管道的稳健集成。
  • Method: 结合ATLAS的解耦骨架/形状范式和Momentum库的灵活现代绑定系统,构建参数化人体模型MHR。
  • Result: MHR模型能够实现表达性、解剖学上合理的人体动画,支持非线性姿态修正。
  • Conclusion: MHR是一个适用于AR/VR和图形管道的参数化人体模型,具有表达性和解剖学合理性。

cs.SD

[114] A Novel CustNetGC Boosted Model with Spectral Features for Parkinson's Disease Prediction

Abishek Karthik,Pandiyaraju V,Dominic Savio M,Rohit Swaminathan S

Main category: cs.SD

TL;DR: 本文提出了一种名为CustNetGC的新颖分类和可视化模型,结合CNN、自定义网络Grad-CAM和CatBoost,通过语音特征分析提高帕金森病诊断效率,在公开数据集上达到99.06%的准确率。

  • Motivation: 帕金森病早期诊断困难,语音特征变化可作为神经损伤的关键指标。利用语音属性变化作为早期检测标记具有重要临床意义。
  • Method: 使用CustNetGC模型,结合CNN、自定义网络Grad-CAM和CatBoost。从语音录音中提取L-mHP和谱斜率特征,L-mHP结合了对数梅尔谱图、谐波谱图和打击乐谱图。使用Grad-CAM实现预测可解释性。
  • Result: 在81名参与者(40名PD患者和41名健康对照)的数据集上,模型达到99.06%准确率和95.83%精确率,PD类AUC为0.90,HC类AUC为0.89。
  • Conclusion: CustNetGC系统在提高帕金森病诊断准确性和模型可解释性方面具有显著潜力,CatBoost的加入增强了模型的鲁棒性和预测性能。

cs.LG

[115] Dynamic Nested Hierarchies: Pioneering Self-Evolution in Machine Learning Architectures for Lifelong Intelligence

Akbar Anbar Jafari,Cagri Ozcinar,Gholamreza Anbarjafari

Main category: cs.LG

TL;DR: 提出了动态嵌套层次结构,使模型能够在训练或推理过程中自主调整优化层数、嵌套结构和更新频率,解决了现有模型在非平稳环境中的适应性问题。

  • Motivation: 当前机器学习模型在静态任务中表现出色,但在非平稳环境中因架构僵化而难以持续适应和终身学习,需要更灵活的架构来支持动态调整。
  • Method: 基于嵌套学习范式,构建动态嵌套层次结构,允许模型自主调整优化层数、嵌套结构和更新频率,受神经可塑性启发实现无预定义约束的自我进化。
  • Result: 通过严格的数学公式、收敛性理论证明、表达能力边界和不同机制下的次线性遗憾分析,以及在语言建模、持续学习和长上下文推理中的实证演示,展现了优越性能。
  • Conclusion: 动态嵌套层次结构为实现自适应、通用智能奠定了基础性进展,解决了现有模型的前向遗忘问题,促进了真正的终身学习。

[116] Knowledge Graphs as Structured Memory for Embedding Spaces: From Training Clusters to Explainable Inference

Artur A. Oliveira,Mateus Espadoto,Roberto M. Cesar,Roberto Hirata

Main category: cs.LG

TL;DR: Graph Memory (GM) 是一个结构化非参数框架,通过区域级原型的关系记忆增强基于嵌入的推理,将嵌入空间总结为带有可靠性指标的原型节点,并通过几何和上下文关系连接。

  • Motivation: 传统方法单独处理每个训练实例,GM旨在通过结构化的关系记忆统一实例检索、原型推理和图标签传播,在非参数学习中建立局部证据与全局一致性的桥梁。
  • Method: GM将嵌入空间总结为原型节点,标注可靠性指标,并通过编码几何和上下文关系的边连接这些节点,形成一个支持高效推理和可信解释的归纳模型。
  • Result: 在合成和真实数据集(包括乳腺癌组织病理学IDC)上的实验表明,GM的准确性与kNN和标签传播方法相当,但校准性更好、决策边界更平滑,且所需样本数量少一个数量级。
  • Conclusion: GM通过显式建模可靠性和关系结构,为非参数学习提供了局部证据与全局一致性的原则性桥梁,在保持竞争力的准确性的同时显著提升了校准性和效率。

[117] Deep Pathomic Learning Defines Prognostic Subtypes and Molecular Drivers in Colorectal Cancer

Zisong Wang,Xuanyu Wang,Hang Chen,Haizhou Wang,Yuxin Chen,Yihang Xu,Yunhe Yuan,Lihuan Luo,Xitong Ling,Xiaoping Liu

Main category: cs.LG

TL;DR: 开发了TDAM-CRC多实例学习模型,通过组织病理学全切片图像实现结直肠癌精准预后分层,并揭示其分子机制。

  • Motivation: 结直肠癌具有高度异质性,传统的TNM分期系统无法满足个性化医疗需求,需要更精准的预后预测工具。
  • Method: 使用多实例学习模型TDAM-CRC分析组织病理学全切片图像,在TCGA发现队列训练,外部队列验证,并整合多组学数据提高可解释性。
  • Result: TDAM-CRC在两个队列中均实现稳健风险分层,性能显著优于传统临床分期和现有模型。多组学分析揭示高风险亚型与代谢重编程和免疫抑制微环境相关,发现MRPL37作为关键枢纽基因。
  • Conclusion: TDAM-CRC为结直肠癌提供了改进的风险分层工具,揭示了新的分子靶点,并促进了个性化临床决策。

[118] GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning

Yanchen Xu,Ziheng Jiao,Hongyuan Zhang,Xuelong Li

Main category: cs.LG

TL;DR: 将GRPO方法从大语言模型扩展到表示学习模型,提出GRPO-RM方法,通过预定义输出集和专门设计的奖励函数来优化表示模型的性能。

  • Motivation: GRPO在LLMs中表现出色,但能否推广到表示学习模型尚不明确。本文旨在研究GRPO类策略在表示模型后训练中的性能。
  • Method: 提出GRPO-RM方法:建立预定义输出集替代LLMs中的token序列采样,生成输出组;设计专门的奖励函数以适应表示模型的特性。
  • Result: 在多个真实数据集上进行广泛实验,验证了所提方法的有效性。
  • Conclusion: GRPO方法可以成功扩展到表示学习模型,GRPO-RM为表示模型的优化提供了有效解决方案。

[119] NTK-Guided Implicit Neural Teaching

Chen Zhang,Wei Zuo,Bingyang Cheng,Yikun Wang,Wei-Bin Kou,Yik Chung WU,Ngai Wong

Main category: cs.LG

TL;DR: 提出NINT方法,通过神经正切核(NTK)动态选择最大化全局函数更新的坐标,显著加速隐式神经表示(INR)的训练过程。

  • Motivation: 隐式神经表示在处理高分辨率信号时需要优化数百万个坐标,导致计算成本过高,需要高效的训练加速方法。
  • Method: 利用神经正切核(NTK)对坐标进行评分,综合考虑拟合误差和异质性杠杆(自影响和跨坐标耦合),动态选择最能促进全局函数更新的训练坐标。
  • Result: 实验表明NINT将训练时间减少近一半,同时保持或提高了表示质量,在基于采样的加速策略中达到最先进水平。
  • Conclusion: NINT通过NTK引导的坐标选择有效解决了INR训练中的计算瓶颈,为高分辨率信号的隐式建模提供了高效的解决方案。

cs.AI

[120] Octopus: Agentic Multimodal Reasoning with Six-Capability Orchestration

Yifu Guo,Zishan Xu,Zhiyuan Yao,Yuquan Lu,Jiaye Lin,Sen Hu,Zhenheng Tang,Yingchao Li,Huacan Wang,Ronghao Chen

Main category: cs.AI

TL;DR: 提出了Octopus:一种具有六种能力协调的多模态代理推理新范式,能够自主探索推理路径并动态选择最合适的能力,在Octopus-Bench基准测试中表现最佳。

  • Motivation: 现有多模态推理模型存在架构限制,缺乏人类般的自主探索多样化推理路径的能力,无法适应动态变化的能力需求。
  • Method: 定义了多模态推理的六个核心能力,提出Octopus框架,能够自主探索推理过程并基于当前状态动态选择最合适的能力。
  • Result: 在Octopus-Bench基准测试中,Octopus在绝大多数任务上取得了最佳性能。
  • Conclusion: 能力协调在代理多模态推理中起着关键作用,Octopus证明了这种新范式的有效性。

[121] IPR-1: Interactive Physical Reasoner

Mingyu Zhang,Lifeng Zhuo,Tianxi Tan,Guocan Xie,Xian Nie,Yan Li,Renjie Zhao,Zizhu He,Ziyu Wang,Jiting Cai,Yong-Lu Li

Main category: cs.AI

TL;DR: 论文提出IPR(交互式物理推理器),通过世界模型推演来增强VLM策略,并引入PhysCode物理中心动作编码,在1000+游戏中预训练后,在三个推理级别上表现稳健,整体匹配GPT-5并在好奇心级别超越它。

  • Motivation: 研究智能体是否能像人类一样通过交互获取物理和因果推理能力,并在更多经验中持续改进。
  • Method: 提出IPR框架,使用世界模型推演来评分和增强VLM策略;引入PhysCode物理中心动作编码,将语义意图与动力学对齐;在1000+异质游戏上进行预训练。
  • Result: IPR在三个推理级别(生存、好奇心、实用性)表现稳健,整体性能匹配GPT-5,在好奇心级别超越GPT-5;性能随训练游戏和交互步骤增加而提升;模型能零样本迁移到未见游戏。
  • Conclusion: 物理中心的交互是持续改进物理推理能力的有效路径。