Skip to content
每日arXiv - 2025年11月10日

以下论文的arXiv类型标签包含:cs.CV

Powered by Deepseek & arXiv Daily AI Enhanced

cs.CV

[1] IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs

Ali Faraz,Akash,Shaharukh Khan,Raja Kolla,Akshat Patidar,Suranjan Goswami,Abhinav Ravi,Chandra Khatri,Shubham Agarwal

Main category: cs.CV

TL;DR: IndicVisionBench是首个以印度次大陆为中心的大规模多模态基准测试,涵盖英语和10种印度语言,包含OCR、MMT和VQA三个任务,共约5K图像和37K+问答对,评估了8个模型在文化多样性环境中的表现。

  • Motivation: 现有的视觉语言模型评估基准大多以西方为中心,缺乏对文化多样性和多语言环境的评估,需要建立更包容的评估框架。
  • Method: 创建包含英语和10种印度语言的基准测试,涵盖OCR、多模态机器翻译和视觉问答三个任务,涉及13个文化相关主题,构建了10种印度语言的并行语料库。
  • Result: 实验揭示了当前视觉语言模型在文化多样性环境中存在显著的性能差距,表明现有模型在跨文化场景中的局限性。
  • Conclusion: IndicVisionBench通过关注文化多样性和多语言性,为更包容的多模态研究建立了可复现的评估框架。

[2] Knowledge-based anomaly detection for identifying network-induced shape artifacts

Rucha Deshpande,Tahsin Rahman,Miguel Lago,Adarsh Subbaswamy,Jana G. Delfino,Ghada Zamzmi,Elim Thompson,Aldo Badano,Seyed Kahaki

Main category: cs.CV

TL;DR: 提出了一种基于知识的异常检测方法,用于检测合成医学图像中的网络诱导形状伪影,通过两阶段框架(特征提取器和隔离森林检测器)在乳腺X光合成数据上验证了有效性。

  • Motivation: 合成数据虽然能解决训练数据稀缺问题,但未经质量评估的采用可能引入伪影、失真和不真实特征,影响模型性能和临床实用性。
  • Method: 采用两阶段框架:1) 新颖的特征提取器,通过分析解剖边界角度梯度的每图像分布构建专门特征空间;2) 基于隔离森林的异常检测器。
  • Result: 在两个合成乳腺X光数据集上的定量评估显示,该方法成功将伪影集中在最异常分区(第1百分位),AUC值分别为0.97和0.91。读者研究显示与人类读者平均一致率为66%和68%。
  • Conclusion: 该方法在负责任使用合成数据方面迈出了重要一步,使开发者能够根据已知解剖约束评估合成图像,识别并解决特定问题以提高合成数据集质量。

[3] CPO: Condition Preference Optimization for Controllable Image Generation

Zonglin Lyu,Ming Li,Xinxin Liu,Chen Chen

Main category: cs.CV

TL;DR: 本文提出Condition Preference Optimization (CPO)方法,通过优化控制条件而非生成图像来提升文本到图像生成的可控性,相比ControlNet++和DPO方法具有更低的方差和更好的效果。

  • Motivation: 现有方法如ControlNet++只优化低噪声时间步,忽略了高噪声时间步的贡献并引入近似误差;而DPO方法难以确保图像对仅在可控性上存在差异。需要一种能消除混杂因素、在全部时间步优化可控性的方法。
  • Method: 提出Condition Preference Optimization (CPO),构造获胜和失败的控制信号c^w和c^l,训练模型偏好c^w。这种方法消除了图像质量等混杂因素,提供了低方差的训练目标。
  • Result: CPO在多种控制类型上显著优于ControlNet++:分割任务错误率降低超过10%,人体姿态任务降低70-80%,边缘和深度图任务一致降低2-5%。
  • Conclusion: CPO通过优化控制条件而非生成图像,有效提升了文本到图像生成的可控性,在理论和实验上都优于现有方法,且计算和存储需求更低。

[4] DARN: Dynamic Adaptive Regularization Networks for Efficient and Robust Foundation Model Adaptation

Dhenenjay Yadav,Rohan Sawai

Main category: cs.CV

TL;DR: DARN是一种新颖的解码器架构,通过动态自适应正则化解决卫星图像异质性挑战,在完整微调和高效适应两种模式下都实现了最先进的性能。

  • Motivation: 标准适应方法使用固定正则化策略,无法应对卫星图像的显著异质性,限制了基础模型在地理空间分析中的有效应用。
  • Method: DARN包含三个关键创新:轻量级任务复杂度预测器、自适应dropout调制和动态容量门控,通过理论分析连接了优化与自适应信息瓶颈机制。
  • Result: 在完整微调模式下,DARN在GeoBench基准测试中达到86.66% mIoU(比之前SOTA提升5.56个百分点);在高效适应模式下,在Sen1Floods11上达到90.5% mIoU,并在OOD泛化、鲁棒性和少数类性能方面表现优异。
  • Conclusion: DARN为关键地理空间应用提供了更智能、鲁棒和高效的基础模型利用方法。

[5] Global 3D Reconstruction of Clouds & Tropical Cyclones

Shirin Ermis,Cesar Aybar,Lilli Freischem,Stella Girtsou,Kyriaki-Margarita Bintsi,Emiliano Diaz Salas-Porras,Michael Eisinger,William Jones,Anna Jungbluth,Benoit Tremblay

Main category: cs.CV

TL;DR: 提出基于预训练-微调框架的机器学习方法,首次实现从2D卫星图像生成全球瞬时3D云图,准确重建强热带气旋的3D结构。

  • Motivation: 热带气旋预报面临卫星观测有限和云属性解析困难等挑战,现有方法在强风暴区域验证不足。
  • Method: 采用预训练-微调流程,从多颗全球覆盖卫星学习,将2D卫星图像转换为3D云图,并在定制热带气旋数据集上评估。
  • Result: 首次创建全球瞬时3D云图,准确重建强风暴3D结构,扩展卫星观测能力并提供缺失观测的估计。
  • Conclusion: 该方法对理解热带气旋增强机制和改善预报至关重要,为气象研究提供重要工具。

[6] EETnet: a CNN for Gaze Detection and Tracking for Smart-Eyewear

Andrea Aspesi,Andrea Simpsi,Aaron Tognoli,Simone Mentasti,Luca Merigo,Matteo Matteucci

Main category: cs.CV

TL;DR: 提出EETnet,一种基于事件的眼动追踪CNN网络,能够在资源受限的微控制器上运行,包含分类和回归两种架构版本。

  • Motivation: 现有基于事件相机的眼动追踪方案大多依赖强大GPU,无法在嵌入式设备上部署,需要开发能在资源受限设备上运行的解决方案。
  • Method: 设计卷积神经网络EETnet,使用纯事件数据,提出训练、评估和量化方法,包含两种架构:基于网格的分类模型和像素级回归模型。
  • Result: 开发出能够在微控制器上运行的基于事件的眼动追踪网络,实现了在嵌入式设备上的实际部署。
  • Conclusion: EETnet证明了基于事件的眼动追踪可以在资源受限的嵌入式设备上实现,为低功耗眼动追踪应用提供了可行方案。

[7] 3D Gaussian Point Encoders

Jim James,Ben Wilson,Simon Lucey,James Hays

Main category: cs.CV

TL;DR: 提出3D高斯点编码器,这是一种基于学习3D高斯混合的显式逐点嵌入方法,相比传统PointNet等隐式表示,在3D识别任务中具有更高的计算效率和参数效率。

  • Motivation: 当前3D识别任务主要使用隐式表示(如PointNet),但3D重建领域已从隐式表示转向显式表示(如高斯泼溅)。受此启发,作者希望开发显式几何表示来提升3D识别任务的效率。
  • Method: 基于自然梯度和从PointNet蒸馏的优化技术,学习能够重建PointNet激活的高斯基。将3D高斯泼溅的滤波技术扩展到编码器构建中,实现加速。
  • Result: 3D高斯点编码器比传统PointNet快2.7倍,内存减少46%,FLOPs减少88%。在Mamba3D中运行快1.27倍,内存和FLOPs分别减少42%和54%。
  • Conclusion: 3D高斯点编码器是一种轻量级的显式表示方法,能够在仅CPU设备上实现高帧率,为3D识别任务提供了更高效的解决方案。

[8] Data Efficiency and Transfer Robustness in Biomedical Image Segmentation: A Study of Redundancy and Forgetting with Cellpose

Shuo Zhao,Jianxu Chen

Main category: cs.CV

TL;DR: 该研究分析了Cellpose生物医学图像分割模型的数据冗余和跨域遗忘问题,提出了数据集量化策略来构建紧凑训练子集,发现仅需10%数据即可达到饱和性能,并通过选择性重放和训练域排序有效缓解跨域遗忘。

  • Motivation: 研究动机是解决生物医学图像分割中两个关键但未被充分探索的挑战:训练数据冗余程度和跨域迁移对模型保留的影响,使用Cellpose作为案例进行研究。
  • Method: 采用数据集量化(DQ)策略构建紧凑训练子集,通过MAE嵌入和t-SNE进行潜在空间分析,进行跨域微调实验评估灾难性遗忘,并测试选择性DQ重放和训练域排序策略。
  • Result: 实验显示图像分割性能在仅使用10%数据时达到饱和,DQ选择比随机采样捕获更多特征多样性;跨域微调导致源域性能显著下降,选择性重放5-10%源数据可有效恢复源性能,训练域排序改善泛化并减少遗忘。
  • Conclusion: 研究强调了数据为中心设计在生物医学图像分割中的重要性,高效训练不仅需要紧凑子集,还需要保留感知的学习策略和明智的域排序方法。

[9] An Active Learning Pipeline for Biomedical Image Instance Segmentation with Minimal Human Intervention

Shuo Zhao,Yu Zhou,Jianxu Chen

Main category: cs.CV

TL;DR: 提出了一种结合主动学习和伪标注的数据中心AI工作流,通过利用基础模型生成伪标签来配置nnU-Net,然后选择代表性样本进行少量人工标注,显著减少了手动标注需求。

  • Motivation: 解决生物医学图像分割中nnU-Net需要大量标注数据进行交叉验证的问题,以及基础模型在特定数据集上性能不足的局限性。
  • Method: 使用基础模型生成伪标签用于nnU-Net自配置,然后通过主动学习选择代表性核心集进行少量人工标注,最后微调nnU-Net模型。
  • Result: 显著减少了手动标注需求,同时保持了有竞争力的分割性能。
  • Conclusion: 该方法为生物医学研究人员提供了一种可访问的解决方案,能够在分割任务中应用最先进的AI技术,同时最小化人工干预。

[10] Geometry Denoising with Preferred Normal Vectors

Manuel Weiß,Lukas Baumgärtner,Roland Herzog,Stephan Schmidt

Main category: cs.CV

TL;DR: 提出了一种基于表面法向量先验知识的几何去噪新范式,通过标签向量集进行分割,结合全变差正则化,使用分裂Bregman方法求解优化问题。

  • Motivation: 利用表面法向量的先验知识来改进几何去噪效果,通过标签向量集引入分割能力,提高去噪质量。
  • Method: 基于标签向量集的法向量相似性进行分割,结合全变差正则化,采用分裂Bregman(ADMM)方法求解优化问题,顶点更新基于二阶形状微积分。
  • Result: 提出了一种新的几何去噪框架,能够同时进行去噪和分割,通过法向量先验知识提升去噪效果。
  • Conclusion: 该方法成功将法向量先验知识融入几何去噪过程,实现了去噪与分割的联合优化,为几何处理提供了新思路。

[11] Self-Supervised Implicit Attention Priors for Point Cloud Reconstruction

Kyle Fogarty,Chenyue Cai,Jing Yang,Zhilin Guo,Cengiz Öztireli

Main category: cs.CV

TL;DR: 提出了一种从点云中学习形状特定先验的隐式自先验方法,通过联合训练可学习嵌入字典与隐式距离场,无需外部训练数据即可生成高质量表面。

  • Motivation: 从不规则点云恢复高质量表面是病态问题,需要强大的几何先验。传统方法依赖外部训练数据,而本文直接从输入点云本身提取形状特定先验。
  • Method: 1. 联合训练可学习嵌入字典与隐式距离场,通过交叉注意力机制捕获形状的重复结构和长程相关性;2. 仅使用自监督点云重建损失;3. 将训练后的场采样得到密集点云和法向量,集成到RIMLS框架中。
  • Result: 实验表明该方法在生成高保真表面方面优于传统和基于学习的方法,具有更好的细节保持能力和对数据退化的鲁棒性。
  • Conclusion: 该方法成功地从点云自身提取几何先验,在保持输入保真度的同时有效正则化稀疏区域,实现了高质量表面重建。

[12] Clinical-ComBAT: a diffusion-weighted MRI harmonization method for clinical applications

Gabriel Girard,Manon Edde,Félix Dumais,Yoan David,Matthieu Dumont,Guillaume Theaud,Jean-Christophe Houde,Arnaud Boré,Maxime Descoteaux,Pierre-Marc Jodoin

Main category: cs.CV

TL;DR: 提出了Clinical-ComBAT方法,用于解决DW-MRI数据在多站点采集时的扫描仪特异性偏差问题,克服了传统ComBAT方法的局限性。

  • Motivation: DW-MRI数据在评估神经退行性疾病和白质微结构特性方面很有效,但多站点数据采集存在扫描仪特异性偏差,传统ComBAT方法在临床应用中受到线性协变量关系、同质群体、固定站点数量等限制。
  • Method: 开发了Clinical-ComBAT方法,采用非线性多项式数据模型、基于规范站点的站点特异性协调、适应小队列的方差先验,并包含超参数调整和拟合优度评估指标。
  • Result: 在模拟和真实数据上验证了方法的有效性,显示扩散指标的改进对齐和规范建模的增强适用性。
  • Conclusion: Clinical-ComBAT为真实世界临床场景提供了灵活有效的多站点DW-MRI数据协调解决方案。

[13] Validating Vision Transformers for Otoscopy: Performance and Data-Leakage Effects

James Ndubuisi,Fernando Auat,Marta Vallejo

Main category: cs.CV

TL;DR: 本研究评估了Swin视觉变换器在耳部疾病诊断中的效果,发现初始结果虽好但存在数据泄露问题,修正后性能显著下降,强调数据预处理的重要性。

  • Motivation: 由于耳鼻喉科专家有27%的误诊率,需要提高耳部疾病的诊断准确性,探索视觉变换器模型在医学诊断中的应用潜力。
  • Method: 使用智利大学临床医院耳鼻喉科的耳镜视频数据集,基于拉普拉斯和香农熵阈值选择帧,比较Swin v1、Swin v2变换器模型与ResNet模型的性能。
  • Result: 初始结果:Swin v1准确率100%,Swin v2准确率99.1%,ResNet准确率99.5%;修正数据泄露后:Swin v1和v2准确率83%,ResNet准确率82%。
  • Conclusion: 视觉变换器在耳部疾病诊断中具有潜力,但需要在先进模型架构和有效数据预处理之间找到最佳平衡,这对开发可靠的医疗机器学习模型至关重要。

[14] Beta Distribution Learning for Reliable Roadway Crash Risk Assessment

Ahmad Elallaf,Nathan Jacobs,Xinyue Ye,Mei Chen,Gongbo Liang

Main category: cs.CV

TL;DR: 提出了一种基于卫星影像的地理空间深度学习框架,用于预测致命交通事故风险,通过估计Beta概率分布提供不确定性感知的预测,相比基线方法在召回率上提升17-23%。

  • Motivation: 传统交通安全研究孤立分析风险因素,忽视空间复杂性;传统神经网络风险估计器缺乏不确定性量化,限制了关键决策中的应用。
  • Method: 利用卫星影像作为综合空间输入,构建地理空间深度学习框架,估计致命事故风险的完整Beta概率分布而非单一确定性输出。
  • Result: 模型在召回率指标上比基线方法提升17-23%,提供更优的校准性能,能够准确标记潜在危险。
  • Conclusion: 该方法仅通过卫星影像就能提供可靠且可解释的风险评估,为自动驾驶安全导航和城市规划者提供了高度可扩展的工具,以公平且经济高效的方式提升道路安全。

[15] Learning to Restore Multi-Degraded Images via Ingredient Decoupling and Task-Aware Path Adaptation

Hu Gao,Xiaoning Lei,Ying Zhang,Xichen Xu,Guannan Jiang,Lizhuang Ma

Main category: cs.CV

TL;DR: 提出IMDNet网络,通过解耦退化成分来指导路径选择,实现多退化图像恢复,在单退化和多退化任务中均表现优异

  • Motivation: 现实世界图像通常存在多种退化共存的问题,而现有方法大多只关注单一退化类型,限制了实际应用效果
  • Method: 设计退化成分解耦块(DIDBlock)分离退化成分统计特征,融合块(FBlock)整合多尺度退化信息,任务适应块(TABlock)动态激活功能分支选择最优恢复路径
  • Result: 在多种退化恢复任务中表现出色,同时在单退化任务中保持强大竞争力
  • Conclusion: IMDNet通过紧密集成的架构有效解决了多退化图像恢复问题,具有很好的实用价值

[16] A benchmark multimodal oro-dental dataset for large vision-language models

Haoxin Lv,Ijazul Haq,Jin Du,Jiaxin Ma,Binnian Zhu,Xiaobing Dang,Chaoan Liang,Ruxu Du,Yingjie Zhang,Muhammad Saqib

Main category: cs.CV

TL;DR: 提出了一个包含8775次牙科检查的多模态数据集,包含50000张口腔内图像、8056张X光片和详细文本记录,用于训练AI模型进行口腔疾病分类和诊断报告生成。

  • Motivation: 口腔医疗AI的发展需要大规模多模态数据集来捕捉临床实践的复杂性,但目前缺乏这样的公开资源。
  • Method: 收集了8年间的牙科检查数据,使用Qwen-VL 3B和7B模型进行微调,评估其在六种口腔异常分类和从多模态输入生成完整诊断报告两个任务上的表现。
  • Result: 微调后的模型相比基础模型和GPT-4o取得了显著提升,验证了数据集的有效性。
  • Conclusion: 该数据集为AI牙科研究提供了重要资源,能够有效推动AI驱动的口腔医疗解决方案的发展。

[17] DeepForgeSeal: Latent Space-Driven Semi-Fragile Watermarking for Deepfake Detection Using Multi-Agent Adversarial Reinforcement Learning

Tharindu Fernando,Clinton Fookes,Sridha Sridharan

Main category: cs.CV

TL;DR: 提出一种基于高维潜在空间表示和多智能体对抗强化学习(MAARL)的深度学习框架,用于开发鲁棒且自适应的水印方法,以解决深度伪造检测中的平衡问题。

  • Motivation: 生成AI快速发展导致深度伪造日益逼真,现有被动检测器依赖特定伪造伪影难以泛化,而主动水印方法在鲁棒性和敏感性之间难以平衡。
  • Method: 开发可学习的水印嵌入器,在潜在空间中操作以捕获高级图像语义;采用MAARL范式,通过水印智能体与对抗攻击智能体的交互,在良性扭曲和恶意篡改之间寻求最优平衡。
  • Result: 在CelebA和CelebA-HQ基准测试中,该方法始终优于最先进方法,在具有挑战性的操作场景下分别实现了超过4.5%和5.3%的改进。
  • Conclusion: 所提出的框架通过高维潜在空间表示和MAARL范式,成功解决了深度伪造检测中水印方法的鲁棒性与敏感性平衡问题,显著提升了检测性能。

[18] CLM: Removing the GPU Memory Barrier for 3D Gaussian Splatting

Hexu Zhao,Xiwen Min,Xiaoteng Liu,Moonjun Gong,Yiming Li,Ang Li,Saining Xie,Jinyang Li,Aurojit Panda

Main category: cs.CV

TL;DR: CLM系统通过将3D高斯分布卸载到CPU内存,仅在需要时加载到GPU内存,使3D高斯溅射技术能够在单个消费级GPU上渲染大型场景。

  • Motivation: 3D高斯溅射技术虽然渲染速度快、输出质量高,但在处理大型场景时需要大量内存,超出了大多数GPU的内存容量。
  • Method: 利用3DGS内存访问模式的观察,采用流水线化的卸载策略,重叠GPU-CPU通信、GPU计算和CPU计算,同时减少通信量。
  • Result: 在单个RTX4090上成功渲染需要1亿个高斯分布的大型场景,并实现了最先进的重建质量。
  • Conclusion: CLM系统有效解决了3DGS在大场景中的内存限制问题,使其能够在消费级硬件上运行。

[19] Pattern-Aware Diffusion Synthesis of fMRI/dMRI with Tissue and Microstructural Refinement

Xiongri Shen,Jiaqi Wang,Yi Zhong,Zhenxi Song,Leilei Zhao,Yichen Wei,Lingyan Liang,Shuqiang Wang,Baiying Lei,Demao Deng,Zhiguo Zhang

Main category: cs.CV

TL;DR: 提出PDS方法解决fMRI和dMRI模态缺失问题,通过模式感知双模态3D扩散框架和微结构细化网络,在OASIS-3等数据集上实现最先进的合成性能。

  • Motivation: fMRI和dMRI在神经退行性疾病研究中至关重要,但模态缺失限制了其临床应用。现有GAN和扩散模型方法在fMRI-dMRI合成中存在信号差异大和疾病相关神经解剖模式整合不足的问题。
  • Method: 提出PDS方法,包含:(1)模式感知双模态3D扩散框架进行跨模态学习;(2)集成高效微结构细化的组织细化网络,保持结构保真度和细节。
  • Result: 在OASIS-3、ADNI和内部数据集上,fMRI合成PSNR/SSIM达29.83dB/90.84%(比基线+1.54dB/+4.12%),dMRI合成达30.00dB/77.55%(比基线+1.02dB/+2.2%)。临床验证中合成数据在NC vs MCI vs AD分类中达到67.92%准确率。
  • Conclusion: PDS方法有效解决了fMRI-dMRI跨模态合成中的挑战,在定量指标和临床诊断性能上均优于现有方法,为神经退行性疾病研究提供了可靠的工具。

[20] Learning Fourier shapes to probe the geometric world of deep neural networks

Jian Wang,Yixing Yong,Haixia Bi,Lijun He,Fan Li

Main category: cs.CV

TL;DR: 该论文提出了一个可微分框架,通过傅里叶级数参数化任意形状,使用环绕数映射将其转换为DNN所需的像素网格,并利用信号能量约束优化形状,以探究深度神经网络的几何理解能力。

  • Motivation: 深度神经网络研究主要关注纹理特征,而对其几何理解能力的探索不足。本文旨在研究形状作为语义载体的潜力,以及如何利用形状作为解释性工具和对抗性攻击手段。
  • Method: 采用端到端的可微分框架,结合傅里叶级数参数化形状、基于环绕数的像素网格映射方法,以及信号能量约束来优化形状生成。
  • Result: 优化的形状能够作为有效的语义载体产生高置信度分类;作为高保真解释性工具精确识别模型的显著区域;构成新的通用对抗性范式欺骗下游视觉任务。
  • Conclusion: 该工作为探索深度神经网络的几何世界提供了多功能框架,并为挑战和理解机器感知开辟了新前沿。

[21] Challenges in 3D Data Synthesis for Training Neural Networks on Topological Features

Dylan Peek,Matthew P. Skerritt,Siddharth Pritam,Stephan Chalup

Main category: cs.CV

TL;DR: 本文提出了一种使用排斥表面算法生成带标签3D数据集的系统方法,用于训练拓扑数据分析中的神经网络估计器,解决了该领域缺乏专门标注数据的瓶颈问题。

  • Motivation: 传统拓扑数据分析方法如持续同调计算成本高,而神经网络估计器缺乏专门为监督学习设计的带标签3D数据集,阻碍了该领域的发展。
  • Method: 使用排斥表面算法系统生成带标签3D数据集,控制拓扑不变量(如孔洞数量),并采用3D卷积变换器架构训练属数估计网络。
  • Result: 生成了具有不同几何形状和拓扑标签的数据集,观察到随着形变增加,估计器准确性下降,表明几何复杂性对泛化性能有重要影响。
  • Conclusion: 该数据集填补了拓扑数据分析中训练和评估模型的带标签3D数据空白,强调了在训练泛化估计器时需要考虑几何复杂性的重要性。

[22] GSE: Evaluating Sticker Visual Semantic Similarity via a General Sticker Encoder

Heng Er Metilda Chee,Jiayin Wang,Zhiqiang Guo,Weizhi Ma,Min Zhang

Main category: cs.CV

TL;DR: 提出了贴纸语义相似度任务,创建了首个基准数据集Triple-S,并开发了通用贴纸编码器GSE来解决现有模型在理解贴纸语义方面的不足。

  • Motivation: 贴纸已成为流行的视觉交流形式,但由于其高度多样化和象征性内容,理解其语义关系仍然具有挑战性。
  • Method: 定义了贴纸语义相似度任务,创建了包含905个人工标注贴纸对的Triple-S基准数据集,并提出了轻量级通用贴纸编码器GSE,使用Triple-S和额外数据集学习鲁棒的贴纸嵌入。
  • Result: GSE在未见过的贴纸上表现出优异性能,在情感分类和贴纸检索等下游任务中取得强劲结果。
  • Conclusion: 通过发布Triple-S和GSE,为贴纸理解、检索和多模态内容生成的未来研究提供了标准化评估工具和鲁棒嵌入。

[23] Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings

Aakriti Agrawal,Gouthaman KV,Rohith Aralikatti,Gauri Jagatap,Jiaxin Yuan,Vijay Kamarshi,Andrea Fanelli,Furong Huang

Main category: cs.CV

TL;DR: 本文发现主流LVLM架构存在对语言模态的固有偏见,并提出通过整合平均池化视觉特征来优化文本嵌入的方法,显著改善了视觉定位并减少了幻觉现象。

  • Motivation: 识别主流LVLM架构中存在的语言模态偏见问题,这种偏见主要源于将视觉嵌入简单附加到输入文本序列的常见做法。
  • Method: 提出一种简单有效的方法,通过整合平均池化的视觉特征来优化文本嵌入,从而改善视觉定位能力。
  • Result: 该方法在已建立的基准测试中显著改善了视觉定位能力,并大幅减少了幻觉现象。
  • Conclusion: 虽然平均池化提供了一种简单、鲁棒且高效的视觉信息整合方式,但更复杂的融合方法可能进一步改善视觉定位和跨模态对齐,这留待未来工作探索。

[24] Dynamic Residual Encoding with Slide-Level Contrastive Learning for End-to-End Whole Slide Image Representation

Jing Jin,Xu Liu,Te Gao,Zhihong Shi,Yixiong Liang,Ruiqing Zheng,Hulin Kuang,Min Zeng,Shichao Kan

Main category: cs.CV

TL;DR: 提出动态残差编码与切片级对比学习(DRE-SLCL)方法,解决全切片图像(WSI)表示学习中的计算挑战,通过内存银行存储瓦片特征,结合残差编码生成WSI表示。

  • Motivation: 全切片图像表示对癌症亚型分类、癌症识别和突变预测至关重要,但由于单个切片包含数万个图像瓦片,在GPU限制下难以在单个小批量中计算所有瓦片的梯度。
  • Method: 使用内存银行存储所有WSI的瓦片特征,随机采样瓦片计算特征,从内存银行选择同一切片的其他瓦片特征,采用残差编码技术结合采样特征和内存特征生成WSI表示,计算切片级对比损失。
  • Result: 在癌症亚型分类、癌症识别和突变预测任务上的实验证明了DRE-SLCL方法的有效性。
  • Conclusion: 提出的DRE-SLCL方法能够有效解决WSI表示学习中的计算挑战,在多个癌症相关任务上表现出色。

[25] Pressure2Motion: Hierarchical Motion Synthesis from Ground Pressure with Text Guidance

Zhengxuan Li,Qinhui Yang,Yiyu Zhuang,Chuan Guo,Xinxin Zuo,Xiaoxiao Long,Yao Yao,Xun Cao,Qiu Shen,Hao Zhu

Main category: cs.CV

TL;DR: Pressure2Motion是一种从地面压力序列和文本提示生成人体运动的新算法,无需摄像头或可穿戴设备,适用于隐私保护、低光照和低成本运动捕捉场景。

  • Motivation: 解决传统运动捕捉系统需要专业设备(如摄像头、可穿戴传感器)的限制,为隐私保护、低光照和低成本场景提供替代方案。由于压力信号到全身运动的不确定性,该任务具有严重的不适定性。
  • Method: 提出Pressure2Motion生成模型,利用压力特征作为输入,文本提示作为高级约束。采用双级特征提取器准确解释压力数据,以及分层扩散模型识别大尺度运动轨迹和细微姿势调整。结合物理线索和语义指导来精确引导运动生成。
  • Result: 实验表明该方法能生成高保真、物理合理的运动,在该任务上建立了新的最先进水平。建立了首个用于该任务的MPL基准测试。
  • Conclusion: Pressure2Motion是利用压力数据和语言先验进行运动生成的先驱工作,为隐私保护运动捕捉提供了有效解决方案。

[26] Medical Referring Image Segmentation via Next-Token Mask Prediction

Xinyu Chen,Yiran Wang,Gaoyang Pang,Jiafu Hao,Chentao Yue,Luping Zhou,Yonghui Li

Main category: cs.CV

TL;DR: NTP-MRISeg将医学参考图像分割重新定义为多模态序列上的自回归下一令牌预测任务,通过统一架构简化设计,无需复杂融合或外部模型,并引入三种新策略提升性能。

  • Motivation: 现有医学参考图像分割方法通常涉及复杂的多模态融合或多阶段解码器设计,作者希望提出更简化的端到端解决方案。
  • Method: 将MRIS重新定义为多模态序列的自回归下一令牌预测任务;提出三种新策略:Next-k令牌预测减少累积误差、令牌级对比学习增强边界敏感度、基于记忆的困难令牌优化策略。
  • Result: 在QaTa-COV19和MosMedData+数据集上的实验表明,NTP-MRISeg达到了新的最先进性能。
  • Conclusion: NTP-MRISeg为传统MRIS流程提供了一个简化和有效的替代方案,展示了统一序列建模在医学图像分割中的潜力。

[27] No Pose Estimation? No Problem: Pose-Agnostic and Instance-Aware Test-Time Adaptation for Monocular Depth Estimation

Mingyu Sung,Hyeonmin Choe,Il-Min Kim,Sangseok Yun,Jae Mo Kang

Main category: cs.CV

TL;DR: 提出了PITTA框架,一种用于单目深度估计的测试时自适应方法,通过姿态无关的自适应范式和实例感知图像掩码,在无需相机姿态信息的情况下有效提升模型在不同环境下的深度估计性能。

  • Motivation: 解决单目深度估计模型在训练环境和实际部署环境存在差异时的性能下降问题,特别是在动态多样化环境中的测试时自适应挑战。
  • Method: 1. 姿态无关的测试时自适应范式;2. 实例感知图像掩码技术,通过预训练的泛在分割网络提取动态对象掩码;3. 简单有效的边缘提取方法用于输入图像和深度图。
  • Result: 在DrivingStereo和Waymo数据集上的广泛实验表明,PITTA框架在测试时自适应过程中显著超越了现有最先进技术,取得了显著的性能提升。
  • Conclusion: PITTA框架通过创新的姿态无关自适应和实例感知掩码策略,有效解决了单目深度估计在多样化动态环境中的测试时自适应问题,展现出卓越的性能表现。

[28] Role-SynthCLIP: A Role Play Driven Diverse Synthetic Data Approach

Yuanxiang Huangfu,Chaochao Wang,Weilei Wang

Main category: cs.CV

TL;DR: Role-SynthCLIP通过多视角角色扮演提示引导MLLMs生成语义多样的图像描述,在保持图像-文本对数量不变的情况下提升语义多样性和细粒度对齐,仅用100万对数据训练的CLIP模型在MS COCO上达到64.1%的Recall@1,超越现有最佳方法。

  • Motivation: 现有合成数据生成方法主要关注增加数据量,但这往往导致语义多样性有限、描述冗余或浅显。需要解决语义多样性不足的问题。
  • Method: 提出Role-SynthCLIP框架,使用多视角角色扮演提示(如组合分析师、图像上下文解释器)来指导MLLMs从不同视角生成语义多样的描述。
  • Result: 仅用100万对Role-SynthCLIP数据训练的CLIP-B/16模型在MS COCO验证集上达到64.1%的Recall@1,比现有最佳合成数据基线(使用500万对数据)高出2.8个百分点。
  • Conclusion: Role-SynthCLIP通过多视角角色提示有效提升了合成数据的语义多样性和图像-文本对齐质量,在更少数据量下实现了更好的性能。

[29] SurgiATM: A Physics-Guided Plug-and-Play Model for Deep Learning-Based Smoke Removal in Laparoscopic Surgery

Mingyu Sheng,Jianan Fan,Dongnan Liu,Guoyan Zheng,Ron Kikinis,Weidong Cai

Main category: cs.CV

TL;DR: 提出SurgiATM模型用于手术烟雾去除,通过结合物理大气模型和数据驱动深度学习模型的优势,实现高精度和强泛化性的烟雾清除。

  • Motivation: 腹腔镜手术中组织烧灼产生的烟雾会显著降低内窥镜图像质量,增加手术错误风险,影响临床决策和计算机视觉分析。
  • Method: SurgiATM统计性地桥接基于物理的大气模型和数据驱动的深度学习模型,作为轻量级即插即用模块,仅引入两个超参数且无额外可训练权重。
  • Result: 在三个公共手术数据集上的实验表明,SurgiATM能普遍降低现有模型的恢复误差,相对增强其泛化能力,且不增加任何可训练层或权重。
  • Conclusion: 该方法具有便利性、低成本、有效性和强泛化性,可无缝集成到各种手术去烟架构中提升准确性和稳定性。

[30] Deep learning models are vulnerable, but adversarial examples are even more vulnerable

Jun Li,Yanwei Xu,Keran Li,Xiaoli Zhang

Main category: cs.CV

TL;DR: 研究发现对抗样本对遮挡特别敏感,提出SMCE指标量化遮挡下的置信度波动,并开发SWM-AED检测方法,在CIFAR-10上达到62%-96.5%的检测准确率。

  • Motivation: 理解对抗样本与干净样本的内在差异是提升DNN鲁棒性和检测能力的关键。
  • Method: 使用9种典型攻击生成对抗样本,引入滑动掩码置信熵(SMCE)量化遮挡下的模型置信度波动,提出滑动窗口掩码对抗样本检测(SWM-AED)方法。
  • Result: 对抗样本在遮挡下表现出显著更高的置信度波动,SWM-AED在CIFAR-10上对多种分类器和攻击具有鲁棒性能,准确率大多超过62%,最高达96.5%。
  • Conclusion: 基于遮挡敏感性的检测方法能有效识别对抗样本,避免传统对抗训练的灾难性过拟合问题。

[31] A Dual-stage Prompt-driven Privacy-preserving Paradigm for Person Re-Identification

Ruolin Li,Min Liu,Yuan Bian,Zhaoyang Li,Yuzhen Li,Xueping Wang,Yaonan Wang

Main category: cs.CV

TL;DR: 提出DPPP框架,通过双阶段提示驱动方法生成隐私保护的虚拟行人重识别数据集GenePerson,并利用提示驱动解耦机制学习领域不变特征,在多个数据集上达到最先进的泛化性能。

  • Motivation: 解决现有虚拟数据集构建复杂、领域泛化能力差的问题,为隐私保护的行人重识别提供有效的虚拟数据替代方案。
  • Method: 1. 第一阶段:使用多维属性提示驱动扩散模型端到端合成多样化数据,构建GenePerson数据集(130,519张图像,6,641个身份)
  1. 第二阶段:提出提示驱动解耦机制,通过两个文本反演网络分别映射图像的风格和内容,构建风格解耦的内容提示,在图像级别学习领域不变内容特征
  • Result: 在GenePerson数据集上使用PDM训练的模型在多个行人重识别数据集上实现了最先进的泛化性能,超越了基于真实和流行虚拟数据集训练的模型。
  • Conclusion: DPPP框架能够有效生成高质量的隐私保护虚拟数据,并通过提示驱动解耦机制显著提升模型的领域泛化能力,为隐私敏感的行人重识别应用提供了可行解决方案。

[32] Real-World Adverse Weather Image Restoration via Dual-Level Reinforcement Learning with High-Quality Cold Start

Fuyang Liu,Jiaqi Xu,Xiaowei Hu

Main category: cs.CV

TL;DR: 提出了一个双层次强化学习框架,通过物理驱动的高保真数据集HFLS-Weather进行冷启动训练,实现恶劣天气条件下的视觉感知增强。

  • Motivation: 恶劣天气严重影响现实世界视觉感知,而现有基于合成数据训练的视觉模型难以泛化到复杂的退化场景。
  • Method: 构建HFLS-Weather数据集,设计双层次强化学习框架:局部层次通过扰动驱动的图像质量优化精炼天气特定恢复模型;全局层次通过元控制器动态编排模型选择和执行顺序。
  • Result: 该框架能够持续适应真实世界条件,在多种恶劣天气场景下达到最先进的性能。
  • Conclusion: 提出的强化学习框架有效解决了恶劣天气下视觉感知的泛化问题,实现了持续适应和最优性能。

[33] Early Alzheimer's Disease Detection from Retinal OCT Images: A UK Biobank Study

Yasemin Turkan,F. Boray Tek,M. Serdar Nazlı,Öykü Eren

Main category: cs.CV

TL;DR: 本研究首次应用深度学习直接对OCT B扫描图像进行阿尔茨海默病早期检测,通过微调预训练模型并使用年龄、性别匹配的UK Biobank数据,ResNet-34在4年队列中达到AUC 0.62,虽然低于临床应用阈值,但为OCT-based AD预测提供了基准。

  • Motivation: 传统研究主要关注视网膜分层厚度测量,本研究探索直接使用OCT B扫描图像进行AD早期分类,这是文献中首次将深度学习应用于原始OCT B扫描进行AD预测。
  • Method: 微调多个预训练模型(包括ImageNet网络和OCT专用RETFound transformer),使用UK Biobank队列中年龄、性别匹配的受试者级交叉验证数据集,应用标准和OCT专用数据增强技术,以及优先考虑成像后4年内诊断病例的年份加权损失函数。
  • Result: ResNet-34产生最稳定结果,在4年队列中达到AUC 0.62,可解释性分析确认AD组与对照组在中央黄斑亚区存在局部结构差异。
  • Conclusion: 虽然结果低于临床应用阈值,但为OCT-based AD预测提供了基准,突出了在AD诊断前数年检测细微视网膜生物标志物的挑战,并指出需要更大数据集和多模态方法。

[34] SnowyLane: Robust Lane Detection on Snow-covered Rural Roads Using Infrastructural Elements

Jörg Gamerdinger,Benedict Wetzel,Patrick Schulz,Sven Teufel,Oliver Bringmann

Main category: cs.CV

TL;DR: 提出一种在雪天环境下通过检测路边柱状物作为间接车道指示的鲁棒实时车道检测方法,并发布了包含8万帧标注的SnowyLane合成数据集

  • Motivation: 雪天环境中车道标记经常被积雪覆盖或遮挡,传统车道检测方法失效,需要寻找替代方案
  • Method: 通过检测路边垂直柱状物作为间接车道指示,使用参数化贝塞尔曲线模型拟合平滑车道轨迹,利用空间一致性和道路几何信息
  • Result: 相比最先进的车道检测系统,在恶劣天气特别是大雪遮挡情况下表现出显著改进的鲁棒性
  • Conclusion: 为冬季场景下的可靠车道检测建立了坚实基础,为全天候自动驾驶研究提供了宝贵资源

[35] From Linear Probing to Joint-Weighted Token Hierarchy: A Foundation Model Bridging Global and Cellular Representations in Biomarker Detection

Jingsong Liu,Han Li,Nassir Navab,Peter J. Schüffler

Main category: cs.CV

TL;DR: JWTH模型通过细胞中心的后调优和注意力池化融合局部与全局特征,在数字病理学中实现更准确和可解释的AI生物标志物检测

  • Motivation: 大多数病理学基础模型依赖全局补丁级嵌入而忽略细胞级形态学,需要开发能整合局部和全局特征的模型
  • Method: 结合大规模自监督预训练、细胞中心后调优和注意力池化,融合局部和全局token
  • Result: 在涉及四个生物标志物和八个队列的四个任务中,JWTH比先前PFM实现高达8.3%的平衡准确率提升和1.2%的平均改进
  • Conclusion: JWTH推进了数字病理学中可解释和稳健的AI生物标志物检测

[36] Splatography: Sparse multi-view dynamic Gaussian Splatting for filmmaking challenges

Adrian Azzarelli,Nantheera Anantrasirichai,David R Bull

Main category: cs.CV

TL;DR: 提出了一种将可变形高斯泼溅分解为前景和背景组件的方法,用于从稀疏多视角视频中实现高质量动态3D重建,在保持模型尺寸减半的同时提升重建质量。

  • Motivation: 解决电影制作中因预算限制导致的稀疏相机配置问题,现有方法在捕捉复杂动态特征时表现受限。
  • Method: 将规范高斯泼溅和变形场分解为前景和背景组件,使用t=0时刻的稀疏掩码集进行分离,并在规范预训练期间对不同组件使用不同的损失函数进行单独训练。
  • Result: 在3D和2.5D娱乐数据集上实现了最先进的定性和定量结果,PSNR最高提升3分,模型尺寸减半,并能生成包括透明和动态纹理的分割动态重建。
  • Conclusion: 该方法在稀疏相机配置下实现了高质量的动态3D重建,无需密集掩码监督即可生成分割的动态重建结果。

[37] Another BRIXEL in the Wall: Towards Cheaper Dense Features

Alexander Lappe,Martin A. Giese

Main category: cs.CV

TL;DR: BRIXEL是一种简单的知识蒸馏方法,通过让学生模型学习在更高分辨率下复现自身特征图,在固定分辨率下显著超越DINOv3基线模型,同时大幅降低计算成本。

  • Motivation: 解决DINOv3等视觉基础模型在高分辨率下计算密集特征图时面临的高计算成本和内存需求问题。
  • Method: 采用知识蒸馏方法,训练学生模型学习在更高分辨率下复现自身的特征图,从而在保持性能的同时降低计算复杂度。
  • Result: 在固定分辨率下,BRIXEL大幅超越DINOv3基线模型的下游任务性能,并能以更低的计算成本生成与教师模型相似的特征图。
  • Conclusion: BRIXEL提供了一种有效的方法来平衡视觉基础模型的性能和计算效率,在保持高质量特征表示的同时显著降低计算需求。

[38] MUSE: Multi-Scale Dense Self-Distillation for Nucleus Detection and Classification

Zijiang Yang,Hanqing Chao,Bokai Zhao,Yelin Yang,Yunshuo Zhang,Dongmei Fu,Junping Zhang,Le Lu,Ke Yan,Dakai Jin,Minfeng Xu,Yun Bian,Hui Jiang

Main category: cs.CV

TL;DR: 提出MUSE方法,一种用于组织病理学中细胞核检测和分类的自监督学习方法,通过多尺度密集自蒸馏和基于细胞核位置的局部自蒸馏机制,有效利用大规模未标记数据学习判别性细胞核表示。

  • Motivation: 现有方法严重依赖劳动密集型的细胞核级标注,难以充分利用大规模未标记数据学习判别性细胞核表示,限制了组织病理学分析的发展。
  • Method: 提出MUSE方法,核心是NuLo机制(基于细胞核位置的局部自蒸馏),通过坐标引导实现灵活的局部自蒸馏,无需增强视图间的严格空间对齐,支持关键跨尺度对齐。设计了简单有效的编码器-解码器架构和大视野半监督微调策略。
  • Result: 在三个广泛使用的基准测试上的大量实验表明,MUSE有效解决了组织病理学细胞核检测和分类的核心挑战,所得模型不仅超越了最先进的监督基线,还优于通用的病理学基础模型。
  • Conclusion: MUSE方法通过创新的自监督学习机制,成功解决了组织病理学细胞核检测和分类中对标注数据的过度依赖问题,为病理学分析提供了更有效的解决方案。

[39] Walk the Lines 2: Contour Tracking for Detailed Segmentation

André Peter Kelm,Max Braeschke,Emre Gülsoylu,Simone Frintrop

Main category: cs.CV

TL;DR: WtL2是一种改进的轮廓跟踪算法,专门用于红外和RGB图像中船舶及各种物体的精细分割,通过轮廓跟踪替代传统非极大值抑制,生成1像素宽的闭合形状。

  • Motivation: 扩展原始Walk the Lines算法,使其不仅适用于彩色图像中的船舶分割,还能处理红外图像并适应多种物体类型,满足需要精细分割的专业应用需求。
  • Method: 通过轮廓跟踪算法细化物体轮廓,直到生成1像素宽的闭合形状,可在前景-背景场景中形成可分割区域,并针对红外图像调整物体轮廓检测器输入。
  • Result: WtL2在实现闭合物体轮廓时优于最新的基于轮廓的方法,提供高峰值IoU和令人印象深刻的细节,扩展了WtL的应用范围。
  • Conclusion: WtL2成为需要精细分割或高质量样本的专业应用中具有竞争力的方法,有望加速图像分割若干细分领域的进展。

[40] FreeControl: Efficient, Training-Free Structural Control via One-Step Attention Extraction

Jiang Lin,Xinyu Chen,Song Wu,Zhiqiu Zhang,Jizhi Zhang,Ye Wang,Qiang Tang,Qian Wang,Jian Yang,Zili Yi

Main category: cs.CV

TL;DR: FreeControl是一个无需训练的扩散模型控制框架,通过单步注意力提取和潜在条件解耦实现高效的结构和语义控制,支持组合控制且兼容现代扩散模型。

  • Motivation: 现有扩散模型控制方法如ControlNet依赖手工条件图和重新训练,灵活性有限;基于反转的方法虽然对齐效果更好但推理成本高。需要一种无需训练、高效且灵活的控制方法。
  • Method: 1. 单步注意力提取:从最优关键时间步一次性提取注意力并在整个去噪过程中复用;2. 潜在条件解耦(LCD):分离关键时间步和噪声潜在表示,提供更精细的注意力质量控制;3. 支持组合控制:通过多源参考图像实现直观场景布局设计。
  • Result: FreeControl实现了结构和语义对齐的视觉一致生成,直接从原始图像生成,支持直观组合设计,与现代扩散模型兼容,仅增加约5%的计算成本。
  • Conclusion: FreeControl为测试时控制引入了新范式,无需反转或重新训练即可实现高效、灵活的结构和语义控制,在保持高质量生成的同时显著降低了计算开销。

[41] 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos

Mengqi Guo,Bo Xu,Yanyan Li,Gim Hee Lee

Main category: cs.CV

TL;DR: 4D3R是一个无需相机位姿的动态神经渲染框架,通过两阶段方法解耦静态和动态组件,在动态场景新视角合成方面取得显著改进。

  • Motivation: 解决单目视频中动态场景的新视角合成问题,现有方法如NeRF和3DGS在动态内容和未知相机位姿方面存在困难。
  • Method: 两阶段方法:首先使用3D基础模型进行初始位姿和几何估计,然后通过运动感知细化。关键技术包括运动感知束调整模块和高效的运动感知高斯溅射表示。
  • Result: 在真实世界动态数据集上,相比最先进方法PSNR提升达1.8dB,在大型动态对象场景中表现优异,计算需求减少5倍。
  • Conclusion: 4D3R框架在动态场景新视角合成方面实现了显著性能提升,同时大幅降低了计算成本,为动态神经渲染提供了有效解决方案。

[42] ADPretrain: Advancing Industrial Anomaly Detection via Anomaly Representation Pretraining

Xincheng Yao,Yan Luo,Zefeng Qian,Chongyang Zhang

Main category: cs.CV

TL;DR: 本文提出了专门针对工业异常检测的预训练表示学习框架,通过角度和范数导向的对比损失最大化正常与异常特征之间的差异,在大型异常检测数据集上预训练以解决ImageNet预训练与异常检测任务不匹配的问题。

  • Motivation: 当前主流的异常检测方法依赖于ImageNet预训练特征,但ImageNet预训练过程与异常检测目标不匹配(不区分正常与异常),且自然图像与工业图像存在分布偏移,导致预训练特征对异常检测任务次优。
  • Method: 提出角度和范数导向的对比损失,同时最大化正常与异常特征之间的角度大小和范数差异;在大型异常检测数据集RealIAD上进行预训练;基于类泛化表示学习残差特征以缓解预训练数据与下游数据集之间的潜在偏移。
  • Result: 在五个异常检测数据集和五个骨干网络上进行的广泛实验表明,使用本文预训练特征替换原始特征后,五个基于嵌入的异常检测方法均表现出优越性能。
  • Conclusion: 本文提出的专门针对异常检测任务的预训练表示学习框架能够产生鲁棒且具有区分性的特征,显著提升工业异常检测性能。

[43] Accurate online action and gesture recognition system using detectors and Deep SPD Siamese Networks

Mohamed Sanim Akremi,Rim Slama,Hedi Tabia

Main category: cs.CV

TL;DR: 提出了一种基于骨骼序列流的在线连续运动识别系统,包含检测器和分类器两个主要组件,使用半正定矩阵表示和孪生网络,能够实时识别未分割序列中的运动区间。

  • Motivation: 现有的骨骼运动识别方法大多关注分段识别,不适合在线场景。在线连续运动识别在现实应用中更具实用性,需要能够处理连续流数据的系统。
  • Method: 使用半正定矩阵表示骨骼数据的统计特征,通过孪生网络学习语义相似性。检测器预测未分割序列中的运动时间区间,分类器识别每个预测区间内的运动类型。
  • Result: 在手势和身体动作识别基准测试中进行了广泛实验,在大多数情况下优于现有最先进方法。
  • Conclusion: 提出的在线识别系统能够连续识别运动状态,在准确性和实用性方面表现优异。

[44] Automatic segmentation of colorectal liver metastases for ultrasound-based navigated resection

Tiziano Natali,Karin A. Olthof,Niels F. M. Kok,Koert F. D. Kuhlmann,Theo J. M. Ruers,Matteo Fusaglia

Main category: cs.CV

TL;DR: 开发了一种基于3D U-Net的自动分割方法,用于术中超声下的结直肠肝转移瘤分割,通过裁剪体积训练显著提升性能,实现近实时分割,准确率接近专家水平。

  • Motivation: 术中超声对结直肠肝转移瘤的准确描绘具有挑战性,存在对比度低、噪声大和操作者依赖性等问题,自动分割可提高超声导航工作流程的精确性和效率。
  • Method: 使用85例患者的追踪3D术中超声数据,通过nnU-Net框架实现3D U-Net,比较了完整体积和裁剪肿瘤区域两种训练变体,并集成到3D Slicer中供实时使用。
  • Result: 裁剪体积模型在所有指标上显著优于完整体积模型(AUC-ROC = 0.898 vs 0.718),中位DSC = 0.74,召回率 = 0.79,Hausdorff距离 = 17.1 mm,执行速度快约4倍(约1分钟)。
  • Conclusion: 基于裁剪3D U-Net的自动分割方法提供可靠、近实时的结果,无需配准即可实现高效的超声导航,接近专家级准确度,同时显著减少手动工作量和手术时间。

[45] OregairuChar: A Benchmark Dataset for Character Appearance Frequency Analysis in My Teen Romantic Comedy SNAFU

Qi Sun,Dingju Zhou,Lina Zhang

Main category: cs.CV

TL;DR: 提出了OregairuChar数据集,用于分析动漫《我的青春恋爱物语果然有问题》中角色出现频率,包含1600帧手动标注图像,涵盖11个主要角色,用于研究角色在叙事中的突出程度和演变模式。

  • Motivation: 角色出现频率分析对于理解动漫叙事结构、角色突出程度和故事进展至关重要,但目前缺乏专门针对动漫角色出现频率分析的基准数据集。
  • Method: 构建包含1600帧手动选择图像的数据集,标注2860个边界框覆盖11个主要角色,利用目标检测模型进行基准测试,并基于预测结果进行细粒度的集级角色存在时间分析。
  • Result: 数据集捕捉了遮挡、姿态变化和角色间相似性等视觉挑战,通过分析揭示了角色突出程度的模式及其在叙事中的演变。
  • Conclusion: OregairuChar数据集为探索计算叙事动态和风格化媒体中以角色为中心的叙事提供了宝贵资源,特别强调角色出现频率分析。

[46] DeepEyesV2: Toward Agentic Multimodal Model

Jack Hong,Chenxiao Zhao,ChengLin Zhu,Weiheng Lu,Guohai Xu,Xing Yu

Main category: cs.CV

TL;DR: DeepEyesV2是一个代理式多模态模型,通过两阶段训练方法(冷启动+强化学习)实现稳健的工具调用能力,在真实世界理解、数学推理和搜索密集型任务中表现优异。

  • Motivation: 构建能够主动调用外部工具(如代码执行环境和网络搜索)并将其整合到推理过程中的代理式多模态模型。
  • Method: 采用两阶段训练管道:冷启动阶段建立工具使用模式,强化学习阶段进一步优化工具调用。构建多样化、适度挑战的训练数据集,并引入RealX-Bench评估基准。
  • Result: DeepEyesV2在RealX-Bench和其他代表性基准测试中表现有效,展现出任务自适应的工具调用能力,倾向于对感知任务使用图像操作,对推理任务使用数值计算。
  • Conclusion: 该研究为开发代理式多模态模型提供了指导,强化学习能够实现复杂的工具组合和基于上下文的选择性工具调用。

[47] What's on Your Plate? Inferring Chinese Cuisine Intake from Wearable IMUs

Jiaxi Yin,Pengcheng Wang,Han Ding,Fei Wang

Main category: cs.CV

TL;DR: CuisineSense是一个通过智能手表和智能眼镜集成手部动作与头部动态来分类中餐类型的系统,采用两阶段检测流程实现无干扰的饮食监测。

  • Motivation: 传统饮食监测方法存在回忆偏差和隐私问题,现有可穿戴设备方法主要针对有限食物类型,无法满足中餐多样性需求。
  • Method: 使用两阶段检测流程:第一阶段通过区分特征时间模式识别进食状态;第二阶段基于进食过程中的动作进行细粒度食物类型识别。
  • Result: 在包含11种食物类别、10名参与者的27.5小时IMU记录数据集上,系统在进食状态检测和食物分类方面均达到高准确率。
  • Conclusion: CuisineSense为无干扰、基于可穿戴设备的饮食监测提供了实用解决方案,系统代码已公开。

[48] Cross-domain EEG-based Emotion Recognition with Contrastive Learning

Rui Yan,Yibo Li,Han Ding,Fei Wang

Main category: cs.CV

TL;DR: EmotionCLIP将EEG情感识别重构为CLIP框架下的EEG-文本匹配任务,通过SST-LegoViT骨干网络提取空间、频谱和时间特征,在SEED和SEED-IV数据集上实现了优越的跨被试和跨时间识别准确率。

  • Motivation: 基于EEG的情感识别在特征利用和跨域泛化方面面临挑战,需要开发更有效的特征提取和泛化方法。
  • Method: 提出EmotionCLIP框架,将情感识别重构为EEG-文本匹配任务,使用SST-LegoViT骨干网络结合多尺度卷积和Transformer模块来捕获空间、频谱和时间特征。
  • Result: 在SEED和SEED-IV数据集上分别达到88.69%和73.50%的跨被试准确率,以及88.46%和77.54%的跨时间准确率,优于现有模型。
  • Conclusion: 多模态对比学习对于鲁棒的EEG情感识别是有效的,EmotionCLIP展示了在跨域泛化方面的优越性能。

[49] LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

Zhenyu Yang,Kairui Zhang,Yuhang Hu,Bing Wang,Shengsheng Qian,Bin Wen,Fan Yang,Tingting Gao,Weiming Dong,Changsheng Xu

Main category: cs.CV

TL;DR: LiveStar是一个开创性的直播助手,通过自适应流式解码实现持续主动响应,解决了现有在线视频大语言模型在处理连续帧输入和确定最佳响应时机方面的困难。

  • Motivation: 现有在线视频大语言模型通常难以同时处理连续帧输入并确定最佳响应时机,往往牺牲实时响应性和叙述连贯性。
  • Method: LiveStar包含:(1)支持可变长度视频流增量视频语言对齐的训练策略;(2)通过单次前向传播验证确定最佳主动响应时机的响应-静默解码框架;(3)通过峰值-末端内存压缩实现内存感知加速,结合流式键值缓存实现1.53倍推理加速。
  • Result: 在三个基准测试上的广泛实验表明,LiveStar实现了最先进的性能,在语义正确性上平均提升19.5%,时序差异减少18.1%,同时在所有五个OmniStar任务上FPS提升12.0%。
  • Conclusion: LiveStar通过自适应流式解码有效解决了在线视频理解中的实时响应和连贯性问题,在多个评估任务上表现出色。

[50] Rethinking Metrics and Diffusion Architecture for 3D Point Cloud Generation

Matteo Bastico,David Ryckelynck,Laurent Corté,Yannick Tillier,Etienne Decencière

Main category: cs.CV

TL;DR: 论文揭示了传统点云生成评估指标(特别是基于倒角距离的指标)的不足,提出了改进的DCD指标和新的SNC指标,并开发了Diffusion Point Transformer模型,在ShapeNet数据集上取得了新的最优性能。

  • Motivation: 随着3D点云技术的普及,现有生成模型评估指标(特别是基于倒角距离的指标)存在对缺陷不鲁棒、无法捕捉几何保真度和局部形状一致性的问题,需要更可靠的评估方法和更好的生成模型。
  • Method: 1)引入样本对齐和DCD距离改进评估指标;2)提出新的SNC指标通过比较点法向量来评估表面相似性;3)基于transformer架构开发Diffusion Point Transformer模型生成高质量3D结构。
  • Result: 在ShapeNet数据集上的实验表明,提出的评估指标组合能更全面地评估生成样本质量,Diffusion Point Transformer模型在生成点云质量方面超越了之前的解决方案,达到了新的最优水平。
  • Conclusion: 通过改进评估指标和开发新的生成模型,该工作为3D点云生成提供了更可靠的评估框架和更高质量的生成能力,推动了该领域的发展。

[51] S2LM: Towards Semantic Steganography via Large Language Models

Huanqi Wu,Huangbiao Xu,Runfeng Xie,Jiaxin Cai,Kaixin Zhang,Xiao Ke

Main category: cs.CV

TL;DR: 提出了一种基于大语言模型的语义隐写方法S²LM,能够将句子级别的语义信息嵌入到图像中,突破了传统比特级隐写的限制。

  • Motivation: 在AIGC时代,隐写术的容量需求日益增长,但现有方法难以嵌入语义丰富的句子级信息。
  • Method: 使用大语言模型设计新的隐写流程,通过S²LM模型将句子或段落级别的文本信息嵌入到载体图像中。
  • Result: 定量和定性实验表明,该方法有效解锁了大语言模型的新语义隐写能力。
  • Conclusion: 提出的语义隐写方法为LLMs开辟了新的应用方向,能够处理更高级别的语义信息隐写任务。

[52] Canonical Space Representation for 4D Panoptic Segmentation of Articulated Objects

Manuel Gomes,Bogdan Raducanu,Miguel Oliveira

Main category: cs.CV

TL;DR: 提出了Artic4D数据集和CanonSeg4D框架,用于4D铰接物体的全景分割,通过将物体部分映射到规范空间来提升分割精度。

  • Motivation: 现有方法忽略了铰接物体的时间动态特性,且缺乏4D全景分割的基准数据集,这阻碍了该领域的发展。
  • Method: 提出CanonSeg4D框架,通过估计每帧偏移将观察到的物体部分映射到学习的规范空间,实现跨帧一致的物体部分对齐。
  • Result: 在Artic4D数据集上的实验表明,CanonSeg4D在复杂场景下的全景分割精度优于现有最先进方法。
  • Conclusion: 时间建模和规范对齐在动态物体理解中具有显著效果,为4D铰接物体感知的未来发展铺平了道路。

[53] Dense Motion Captioning

Shiyao Xu,Benedetta Liberatori,Gül Varol,Paolo Rota

Main category: cs.CV

TL;DR: 提出了密集运动描述任务,创建了CompMo数据集和DEMO模型,在3D人体运动理解方面取得显著进展

  • Motivation: 当前3D人体运动与语言集成研究主要集中在文本到运动生成,而运动理解任务相对被忽视,现有数据集缺乏详细时间标注且多为短序列
  • Method: 构建CompMo大规模数据集(6万条运动序列),提出DEMO模型将大语言模型与简单运动适配器结合,生成密集的时间基础描述
  • Result: DEMO在CompMo数据集和适应基准上显著优于现有方法,为3D运动理解和描述研究建立了坚实基础
  • Conclusion: 密集运动描述是一个有前景的研究方向,CompMo数据集和DEMO模型为未来3D运动理解研究提供了重要基础

[54] PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization

Zehui Feng,Tian Qiu,Tong Wu,Junxuan Li,Huayuan Xu,Ting Han

Main category: cs.CV

TL;DR: 提出PreResQ-R1框架,通过偏好-响应解耦的强化学习统一绝对分数回归和相对排序一致性,在视觉质量评估任务中实现最先进性能。

  • Motivation: 现有多模态大语言模型在视觉质量评估中主要依赖监督微调或仅排序目标,导致推理浅层、分数校准差和跨域泛化有限。
  • Method: 采用双分支奖励公式,分别建模样本内响应一致性和样本间偏好对齐,通过组相对策略优化进行优化,并设计了全局-时序和局部-空间数据流策略用于视频质量评估。
  • Result: 仅用6K图像和28K视频进行强化微调,就在10个IQA和5个VQA基准测试中取得最先进结果,在IQA任务中SRCC和PLCC分别提升5.30%和2.15%。
  • Conclusion: PreResQ-R1不仅实现了量化性能提升,还产生了与人类对齐的推理轨迹,揭示了质量判断背后的感知线索。

[55] AI Assisted AR Assembly: Object Recognition and Computer Vision for Augmented Reality Assisted Assembly

Alexander Htet Kyaw,Haotian Ma,Sasa Zivkovic,Jenny Sabin

Main category: cs.CV

TL;DR: AI辅助的增强现实装配工作流,使用深度学习物体识别技术识别装配组件并显示分步指导,通过实时定位组件位置来简化装配过程。

  • Motivation: 消除装配前手动搜索、分类或标记不同组件的需求,通过连接装配指导与组件实时位置来提高装配效率。
  • Method: 使用基于深度学习的物体识别技术识别不同装配组件,在物理空间中显示组件的边界框和放置位置,提供分步装配指导。
  • Result: 通过LEGO雕塑装配的案例研究证明了使用物体识别进行AR辅助装配的可行性。
  • Conclusion: 该系统展示了AI辅助AR装配工作流的有效性,能够显著简化装配过程并提高效率。

[56] PALM: A Dataset and Baseline for Learning Multi-subject Hand Prior

Zicong Fan,Edoardo Remelli,David Dimond,Fadime Sener,Liuhao Ge,Bugra Tekin,Cem Keskin,Shreyas Hampali

Main category: cs.CV

TL;DR: PALM是一个大规模手部数据集,包含263名受试者的13,000个高质量手部扫描和90,000张多视角图像,用于解决手部建模中的几何、外观和关节复杂性挑战。

  • Motivation: 当前从图像创建高质量个性化手部化身面临复杂几何、外观和关节的挑战,特别是在无约束光照和有限视角下,且缺乏提供准确3D几何、高分辨率多视角图像和多样化受试者群体的数据集。
  • Method: 提出了PALM-Net基线方法,通过基于物理的逆渲染学习手部几何和材料属性的多受试者先验,实现真实、可重新照明的单图像手部化身个性化。
  • Result: PALM数据集捕获了肤色、年龄和几何的丰富变化,其规模和多样性使其成为手部建模和相关研究的宝贵现实世界资源。
  • Conclusion: PALM数据集解决了手部建模中的数据稀缺问题,为创建高质量个性化手部化身提供了重要基础,推动了手部建模技术的发展。

[57] Multi-modal Loop Closure Detection with Foundation Models in Severely Unstructured Environments

Laura Alejandra Encinar Gonzalez,John Folkesson,Rudolph Triebel,Riccardo Giubilato

Main category: cs.CV

TL;DR: MPRF是一个多模态闭环检测管道,结合视觉和LiDAR基础模型,在非结构化环境中实现鲁棒的闭环检测和6-DoF位姿估计。

  • Motivation: 在GNSS拒止环境(如行星探测)中,视觉位置识别因混叠和弱纹理而失效,LiDAR方法则受稀疏性和模糊性影响,需要更鲁棒的闭环检测方案。
  • Method: 采用两阶段视觉检索策略:使用DINOv2特征和SALAD聚合进行候选筛选,结合SONATA LiDAR描述子进行几何验证,集成显式6-DoF位姿估计。
  • Result: 在S3LI数据集和S3LI Vulcano数据集上,MPRF在精度上优于最先进的检索方法,并在低纹理区域增强了位姿估计的鲁棒性。
  • Conclusion: MPRF在准确性、效率和可靠性之间实现了良好平衡,展示了基础模型统一位置识别和位姿估计的潜力。

[58] Sharing the Learned Knowledge-base to Estimate Convolutional Filter Parameters for Continual Image Restoration

Aupendu Kar,Krishnendu Ghosh,Prabir Kumar Biswas

Main category: cs.CV

TL;DR: 提出一种持续学习图像修复方法,通过简单修改卷积层来适应新任务,无需修改主干架构,在保持现有任务性能的同时提升新任务表现。

  • Motivation: 现有持续学习方法在图像修复领域应用有限,处理大尺寸图像和多样化退化类型具有挑战性,现有方法需要大量工程化架构修改,计算开销大。
  • Method: 通过简单修改卷积层来适配先前修复任务的知识,无需修改主干架构,可无缝应用于任何深度架构,增加可训练参数但不会显著增加计算开销。
  • Result: 实验验证表明新修复任务可以在不影响现有任务性能的情况下引入,新任务性能通过适配先前任务创建的知识库得到提升。
  • Conclusion: 该方法为图像修复领域的持续学习提供了一种简单有效的解决方案,能够在不显著增加计算成本的情况下持续学习新任务。

[59] Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis

Dogucan Yaman,Seymanur Akti,Fevziye Irem Eyiokur,Alexander Waibel

Main category: cs.CV

TL;DR: 提出基于HierSpeech++的文本到说话人脸合成框架,通过文本生成Wav2Vec2嵌入来联合调节语音和面部生成,采用两阶段训练解决特征分布偏移问题。

  • Motivation: 实现无需真实音频即可生成自然、表达丰富的语音和同步面部动作,同时保持说话者身份,改善唇形同步和视觉真实感。
  • Method: 使用Text-to-Vec模块从文本生成Wav2Vec2嵌入,采用两阶段训练:先在Wav2Vec2嵌入上预训练,再在TTS输出上微调,以处理干净特征和TTS预测特征之间的分布偏移。
  • Result: 实验表明,基于TTS预测的潜在特征调节优于级联流水线,提高了唇形同步和视觉真实感。
  • Conclusion: 该框架能够实现紧密的音频-视觉对齐,保持说话者身份,并在推理时无需真实音频即可生成自然的语音和同步面部运动。

[60] How Many Tokens Do 3D Point Cloud Transformer Architectures Really Need?

Tuan Anh Tran,Duy M. H. Nguyen,Hoai-Chau Tran,Michael Barz,Khoa D. Doan,Roger Wattenhofer,Ngo Anh Vien,Mathias Niepert,Daniel Sonntag,Paul Swoboda

Main category: cs.CV

TL;DR: 提出gitmerge3D方法,通过全局信息图token合并技术将3D点云transformer的token数量减少90-95%,同时保持竞争性性能,挑战了更多token带来更好性能的假设。

  • Motivation: 现有3D点云transformer模型依赖密集token表示,导致训练和推理时计算和内存成本高昂,研究发现token存在显著冗余。
  • Method: gitmerge3D——基于全局信息的图token合并方法,通过识别和合并冗余token来大幅减少token数量。
  • Result: 在多个3D视觉任务中验证,token数量减少90-95%的同时保持竞争性性能,显著提升计算效率。
  • Conclusion: 当前许多3D transformer模型存在过度标记化问题,gitmerge3D为开发更高效的3D基础架构提供了重要见解。

[61] The Potential of Copernicus Satellites for Disaster Response: Retrieving Building Damage from Sentinel-1 and Sentinel-2

Olivier Dietrich,Merlin Alfredsson,Emilia Arens,Nando Metzger,Torben Peters,Linus Scheibenreif,Jan Dirk Wegner,Konrad Schindler

Main category: cs.CV

TL;DR: 该研究评估了中分辨率Copernicus卫星图像在建筑物损坏评估中的应用,发现10米分辨率图像在许多灾害场景中能较好地检测和绘制建筑物损坏,且复杂模型架构未见明显优势。

  • Motivation: 自然灾害需要快速损坏评估来指导人道主义响应,但超高分辨率图像可用性有限。研究旨在探索中分辨率地球观测图像是否能补充支持建筑物损坏评估。
  • Method: 引入了xBD-S12数据集,包含10,315对Sentinel-1和Sentinel-2的灾前灾后图像对,并与xBD基准进行时空对齐。通过一系列实验评估不同模型在损坏检测和映射中的表现。
  • Result: 研究表明,尽管只有10米地面采样距离,但在许多灾害场景中建筑物损坏可以被较好地检测和映射。复杂模型架构在泛化到未见过的灾害时表现不佳,地理空间基础模型带来的实际益处有限。
  • Conclusion: Copernicus图像是快速、广域损坏评估的可行数据源,可与超高分辨率图像一起发挥重要作用。发布了xBD-S12数据集、代码和训练模型以支持进一步研究。

[62] Photo Dating by Facial Age Aggregation

Jakub Paplham,Vojtech Franc

Main category: cs.CV

TL;DR: 提出一种基于人脸分析的图片年代估计方法,利用CSFD-1.6M数据集中的160万标注人脸,通过概率框架结合人脸识别、年龄估计和职业时间先验来推断照片拍摄年份。

  • Motivation: 传统图片年代估计主要依赖场景信息,而本文探索利用图像中多个人脸信息来更准确地估计照片拍摄时间。
  • Method: 提出概率框架,结合现代人脸识别模型、年龄估计模型和职业时间先验,通过多个人脸证据聚合来推断照片拍摄年份。
  • Result: 实验表明,聚合多个人脸证据能持续提升性能,特别是在包含多个可识别个体的图像中,该方法显著优于基于场景的基线方法。
  • Conclusion: 利用多个人脸信息进行图片年代估计是有效的,提出的方法在包含多个可识别个体的图像中表现优异。

[63] EventFlow: Real-Time Neuromorphic Event-Driven Classification of Two-Phase Boiling Flow Regimes

Sanghyeon Chang,Srikar Arani,Nishant Sai Nuthalapati,Youngjoon Suh,Nicholas Choi,Siavash Khodakarami,Md Rakibul Hasan Roni,Nenad Miljkovic,Aparna Chandramowlishwaran,Yoonjin Won

Main category: cs.CV

TL;DR: 提出基于神经形态传感器的实时流态分类框架,利用事件数据优于传统图像方法,LSTM模型达到97.6%准确率和0.28ms处理时间

  • Motivation: 流沸腾是高效传热机制,但流态突变会破坏热性能,需要准确低延迟的实时监测。传统光学成像方法计算量大、时间分辨率不足,无法捕捉瞬态流动行为
  • Method: 开发五种分类模型,比较传统图像数据和事件数据。神经形态传感器检测像素亮度变化,对应边缘运动,无需全帧重建,提供基于事件的信息
  • Result: 基于事件数据的模型优于基于帧的方法,对动态流动特征更敏感。事件LSTM模型在准确性和速度间达到最佳平衡,分类准确率97.6%,处理时间0.28ms
  • Conclusion: 异步处理流水线支持连续低延迟预测,通过多数投票机制提供稳定输出,为实验控制和智能热管理提供可靠的实时反馈

[64] Semantic-Guided Natural Language and Visual Fusion for Cross-Modal Interaction Based on Tiny Object Detection

Xian-Hong Huang,Hui-Kai Su,Chi-Chia Sun,Jun-Wei Hsieh

Main category: cs.CV

TL;DR: 提出了一种结合语义引导自然语言处理和先进视觉识别骨干网络的小目标检测方法,使用BERT语言模型和CNN-based PRB-FPN-Net,集成ELAN、MSP、CSP等创新骨干架构,在COCO和Objects365数据集上取得优异性能。

  • Motivation: 解决小目标和复杂物体检测精度不足的问题,通过整合自然语言理解和视觉特征来提升检测性能,同时降低模型参数消耗。
  • Method: 集成BERT语言模型与CNN-based PRB-FPN-Net,采用ELAN、MSP、CSP等骨干架构,使用词形还原和微调技术对齐文本语义线索与视觉特征。
  • Result: 在COCO2017验证集上达到52.6%的平均精度,显著优于YOLO-World,同时参数消耗仅为Transformer模型如GLIP的一半。
  • Conclusion: 自然语言理解与先进骨干架构的整合在小目标检测中具有巨大潜力,在准确性、效率和实际应用适应性方面设立了新基准。

[65] GroupKAN: Rethinking Nonlinearity with Grouped Spline-based KAN Modeling for Efficient Medical Image Segmentation

Guojie Li,Anwar P. P. Abdul Majeed,Muhammad Ateeq,Anh Nguyen,Fan Zhang

Main category: cs.CV

TL;DR: GroupKAN是一种轻量级医学图像分割网络,通过分组KAN变换和分组KAN激活模块,在减少参数量的同时提升分割精度和可解释性。

  • Motivation: 解决现有卷积架构缺乏自适应非线性能力、Transformer架构复杂度高且注意力机制不透明的问题,同时克服U-KAN因全通道变换导致的O(C^2)复杂度限制。
  • Method: 提出两个结构化功能模块:分组KAN变换(将通道划分为G组进行多元样条映射,复杂度降至O(C^2/G))和分组KAN激活(在每个通道组内应用共享的样条映射实现高效token-wise非线性)。
  • Result: 在三个医学基准数据集(BUSI、GlaS、CVC)上平均IoU达到79.80%,比U-KAN提升+1.11%,参数量仅为U-KAN的47.6%(3.02M vs 6.35M)。
  • Conclusion: GroupKAN在保持高精度的同时显著降低了模型复杂度,提供了更好的可解释性,是医学图像分割的有效解决方案。

[66] TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning

Junwen Pan,Qizhe Zhang,Rui Zhang,Ming Lu,Xin Wan,Yuan Zhang,Chang Liu,Qi She

Main category: cs.CV

TL;DR: TimeSearch-R将时序搜索重新定义为交错文本-视频思考过程,通过强化学习将视频片段搜索无缝集成到推理过程中,并提出GRPO-CSV方法解决强化学习训练中的监督不足问题,在多个时序搜索和长视频理解基准上取得显著提升。

  • Motivation: 现有时序搜索方法通常依赖手工设计的搜索过程,缺乏端到端优化来学习最优搜索策略,导致搜索效率受限。
  • Method: 提出TimeSearch-R框架,将时序搜索重构为交错文本-视频思考过程,使用强化学习优化搜索策略;引入GRPO-CSV方法,通过完整性自验证机制确保搜索的充分性和逻辑一致性;构建专门的数据集用于SFT冷启动和RL训练。
  • Result: 在Haystack-LVBench、Haystack-Ego4D等时序搜索基准以及VideoMME、MLVU等长视频理解基准上取得显著改进,在LongVideoBench上相比基础模型Qwen2.5-VL提升4.1%,相比先进视频推理模型Video-R1提升2.0%。
  • Conclusion: TimeSearch-R通过将时序搜索重新定义为交错推理过程,结合强化学习和完整性验证,有效提升了长视频理解的准确性和效率,为时序搜索任务提供了新的解决方案。

[67] Visual Spatial Tuning

Rui Yang,Ziyu Zhu,Yanwei Li,Jingjia Huang,Shen Yan,Siyuan Zhou,Zhe Liu,Xiangtai Li,Shuangye Li,Wenqian Wang,Yi Lin,Hengshuang Zhao

Main category: cs.CV

TL;DR: 提出了Visual Spatial Tuning (VST)框架,通过构建大规模空间感知数据集VST-P和空间推理数据集VST-R,结合监督微调和强化学习,在保持通用能力的同时显著提升了视觉语言模型的空间能力。

  • Motivation: 增强视觉语言模型的空间感知和推理能力是实现类人通用智能的关键,但现有方法通常需要额外编码器,这会带来额外开销并损害通用能力。
  • Method: 构建VST-P数据集(410万样本,19种技能)和VST-R数据集(13.5万样本),采用渐进式训练流程:监督微调建立基础空间知识,然后通过强化学习提升空间推理能力。
  • Result: 在多个空间基准测试中达到最先进水平,包括MMSI-Bench上的34.8%和VSIBench上的61.2%,且不影响模型的通用能力。
  • Conclusion: VST框架显著增强了视觉语言动作模型的空间能力,为开发更具物理基础的人工智能铺平了道路。

cs.LG

[68] Ada-FCN: Adaptive Frequency-Coupled Network for fMRI-Based Brain Disorder Classification

Yue Xun,Jiaxing Xu,Wenbo Gao,Chen Yang,Shujun Wang

Main category: cs.LG

TL;DR: 提出了一个新颖的框架,通过自适应级联分解学习任务相关的频率子带,并利用频率耦合连接学习构建统一的功能网络,用于脑部疾病诊断。

  • Motivation: 现有模型忽视了神经元振荡的多频特性,将BOLD信号视为单一时间序列,限制了诊断敏感性和特异性。神经疾病通常在特定频率带中表现为中断。
  • Method: 使用自适应级联分解学习每个脑区的任务相关频率子带,频率耦合连接学习捕获带内和跨带交互,统一功能网络通过Unified-GCN进行消息传递生成节点表示。
  • Result: 在ADNI和ABIDE数据集上的实验结果表明,该方法优于现有方法。
  • Conclusion: 该框架能够有效捕捉脑功能连接网络中的多频信息,提高脑部疾病诊断性能。

[69] Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models

Jiwoo Shin,Byeonghu Na,Mina Kang,Wonhyeok Choi,Il-chul Moon

Main category: cs.LG

TL;DR: 本文提出了一种解决文本到图像生成模型有害内容防御问题的新方法,通过用概念反演获得的隐式负嵌入替换训练自由方法中的负提示,解决了现有两种防御方法之间的不兼容性问题。

  • Motivation: 现有的文本到图像生成模型防御方法包括微调模型和训练自由引导方法,但将这两种正交方法结合使用时往往导致防御性能下降,这表明两种范式之间存在关键的不兼容性。
  • Method: 提出了一种概念简单但实验稳健的方法:用通过概念反演获得的隐式负嵌入替换训练自由方法中使用的负提示。该方法无需对任一方法进行修改,可以轻松集成到现有流程中。
  • Result: 在色情和暴力基准测试上实验验证了该方法的有效性,显示防御成功率持续提高,同时保持了输入提示的核心语义。
  • Conclusion: 该方法成功解决了现有防御方法之间的不兼容性问题,提供了一种简单有效的集成方案,在保持语义完整性的同时提高了防御性能。

[70] SiamMM: A Mixture Model Perspective on Deep Unsupervised Learning

Xiaodong Wang,Jing Huang,Kevin J Liang

Main category: cs.LG

TL;DR: 该论文建立了无监督聚类方法与经典统计混合模型之间的联系,提出了名为SiamMM的新模型,在自监督学习基准测试中达到最先进性能。

  • Motivation: 现有聚类方法在自监督和无监督学习中应用广泛但缺乏理论指导,作者希望通过建立与统计混合模型的联系来改进这些方法。
  • Method: 通过将无监督聚类方法与经典混合模型联系起来,开发了SiamMM模型,增强了聚类方法的理论基础和性能。
  • Result: SiamMM在多个自监督学习基准测试中达到最先进性能,学习到的聚类结果与真实标签高度相似,甚至能发现可能的错误标注。
  • Conclusion: 通过将聚类方法与统计混合模型相结合,可以显著提升自监督学习性能,并为理解聚类结果提供了新的视角。

[71] On Flow Matching KL Divergence

Maojiang Su,Jerry Yao-Chieh Hu,Sophia Pi,Han Liu

Main category: cs.LG

TL;DR: 本文推导了流匹配分布近似的KL散度的确定性非渐近上界,证明了当L2流匹配损失有界时,真实数据分布与估计分布之间的KL散度有界,并展示了流匹配在总变差距离下的统计收敛率和接近极小极大最优效率。

  • Motivation: 研究流匹配方法的统计效率,将其与扩散模型在总变差距离下的性能进行比较,为流匹配提供理论保证。
  • Method: 推导流匹配分布近似的KL散度的确定性非渐近上界,分析L2流匹配损失与KL散度的关系,研究流匹配在总变差距离下的统计收敛率。
  • Result: 当L2流匹配损失有界时,KL散度被A1ε + A2ε²上界,其中A1和A2仅依赖于数据和速度场的正则性。流匹配在估计平滑分布时达到接近极小极大最优效率。
  • Conclusion: 流匹配在统计效率上与扩散模型相当,数值研究验证了理论结果,为流匹配方法提供了坚实的理论基础。

cs.CR

[72] Quantifying the Risk of Transferred Black Box Attacks

Disesdi Susanna Cox,Niklas Bunzel

Main category: cs.CR

TL;DR: 本文提出了一种针对迁移对抗攻击的定向韧性测试框架,通过基于CKA相似度策略选择替代模型来优化对抗子空间覆盖,并使用基于回归的估计器进行风险评估。

  • Motivation: 随着神经网络在安全相关产品中的广泛应用,对抗攻击的脆弱性日益受到关注。现有方法难以准确评估迁移对抗攻击的风险,特别是在高维输入空间中实现完整测试覆盖在计算上不可行。
  • Method: 提出基于Centered Kernel Alignment (CKA)相似度的替代模型选择策略,利用与目标模型具有高和低CKA相似度的替代模型来优化对抗子空间覆盖,采用基于回归的估计器进行风险量化。
  • Result: 该方法能够提供现实可行且可操作的风险量化,解决了传统方法在迁移对抗攻击评估中的局限性。
  • Conclusion: 所提出的定向韧性测试框架为组织提供了有效的对抗风险评估工具,克服了传统全面对抗风险映射的不实用性。

q-bio.QM

[73] PySlyde: A Lightweight, Open-Source Toolkit for Pathology Preprocessing

Gregory Verghese,Anthony Baptista,Chima Eke,Holly Rafique,Mengyuan Li,Fathima Mohamed,Ananya Bhalla,Lucy Ryan,Michael Pitcher,Enrico Parisini,Concetta Piazzese,Liz Ing-Simmons,Anita Grigoriadis

Main category: q-bio.QM

TL;DR: PySlyde是一个轻量级的开源Python工具包,基于OpenSlide构建,旨在简化和标准化全切片图像(WSI)的预处理流程,包括组织检测、分块、染色标准化和特征提取等关键步骤。

  • Motivation: 数字化全切片图像(WSI)包含丰富的空间和形态学信息,但其千兆像素级的规模和变异性给标准化和分析带来了重大挑战。现有的预处理工作流程往往分散且不一致,限制了病理学AI的发展。
  • Method: 开发了基于OpenSlide的PySlyde工具包,提供直观的API用于载入切片、管理注释、组织检测、分块和特征提取,并与现代病理学基础模型兼容。
  • Result: PySlyde统一了WSI预处理流程,简化了工作流程,提高了可重复性,并加速了AI就绪数据集的生成。
  • Conclusion: PySlyde工具包通过标准化WSI预处理流程,使研究人员能够专注于模型开发和下游分析,从而推动病理学AI在精准医学中的应用。

cs.RO

[74] EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation

Samarth Chopra,Alex McMoil,Ben Carnovale,Evan Sokolson,Rajkumar Kubendran,Samuel Dickerson

Main category: cs.RO

TL;DR: EverydayVLA是一个低成本(300美元以下)的6自由度机械臂,结合视觉-语言-动作模型,通过自适应规划集成实现安全可靠的操作,在真实世界测试中显著优于现有方法。

  • Motivation: 现有的视觉-语言-动作模型依赖昂贵硬件且在复杂场景中表现不佳,需要开发低成本且可靠的机器人系统。
  • Method: 使用单一统一模型输出离散和连续动作,采用自适应规划集成监控运动不确定性并触发实时重新规划。
  • Result: 在LIBERO基准测试中达到最先进成功率,真实世界测试中分别比现有方法提高49%(分布内)和34.9%(分布外)。
  • Conclusion: EverydayVLA通过结合先进VLA模型与低成本硬件,为家庭和研究实验室提供了经济实惠的机器人基础模型解决方案。

cs.GR

[75] DAFM: Dynamic Adaptive Fusion for Multi-Model Collaboration in Composed Image Retrieval

Yawei Cai,Jiapeng Mi,Nan Ji,Haotian Rong,Yawei Zhang,Zhangti Li,Wenbin Guo,Rensong Xie

Main category: cs.GR

TL;DR: 提出动态自适应融合(DAFM)方法,通过多模型协作解决组合图像检索中的特征融合和相似性匹配问题,显著提升检索精度。

  • Motivation: 现有组合图像检索方法依赖单一模型进行特征融合和相似性匹配,面临两个主要挑战:单一模型难以同时处理全局和细节信息,且缺乏动态权重分配机制导致嵌入表示偏离目标。
  • Method: DAFM方法利用异构模型的互补优势,自适应地重新平衡它们的贡献,实现多模型协作,最大化检索精度且性能增益与融合顺序无关。
  • Result: 在CIRR和FashionIQ基准测试中取得显著提升:CIRR上Recall@10达93.21,Rmean达84.43;FashionIQ上平均Rmean达67.48,比现有强基线提升高达4.5%。
  • Conclusion: 动态多模型协作为组合图像检索提供了有效且通用的解决方案,证明了异构模型互补优势的重要性。

[76] Neural Image Abstraction Using Long Smoothing B-Splines

Daniel Berio,Michael Stroh,Sylvain Calinon,Frederic Fol Leymarie,Oliver Deussen,Ariel Shamir

Main category: cs.GR

TL;DR: 将平滑B样条集成到可微分矢量图形管道中,通过线性映射实现平滑且任意长的路径生成,支持保真度与简洁性的参数化控制,以及几何和图像空间的风格化控制。

  • Motivation: 在基于图像的深度学习系统中生成平滑且任意长的矢量路径,同时提供对保真度与简洁性权衡的参数化控制,以及几何和图像空间的风格化能力。
  • Method: 将平滑B样条通过线性映射集成到标准可微分矢量图形(DiffVG)管道中,利用基于导数的平滑成本进行参数控制。
  • Result: 开发了兼容现有矢量图形生成和矢量化方法的管道,并展示了在四个应用中的多功能性:风格化空间填充路径生成、基于笔划的图像抽象、封闭区域图像抽象和风格化文本生成。
  • Conclusion: 提出的方法能够有效生成平滑的矢量图形路径,在保持与现有方法兼容性的同时,提供了灵活的风格化和参数控制能力。

eess.IV

[77] LG-NuSegHop: A Local-to-Global Self-Supervised Pipeline For Nuclei Instance Segmentation

Vasileios Magoulianitis,Catherine A. Alexander,Jiaxin Yang,C. -C. Jay Kuo

Main category: eess.IV

TL;DR: LG-NuSegHop是一种自监督的细胞核分割方法,无需人工标注数据,通过局部处理、数据驱动特征提取和全局后处理三个模块实现跨器官和跨域的良好泛化性能。

  • Motivation: 细胞核分割是组织学图像分析的关键任务,但现有方法面临标注数据昂贵、不同器官组织间细胞核变异性大、深度学习模型泛化能力差等挑战。
  • Method: 提出LG-NuSegHop自监督流水线,包含三个模块:局部处理操作生成伪标签、NuSegHop数据驱动特征提取模型、全局操作进行预测后处理。
  • Result: 在三个公开数据集上的实验表明,该方法优于其他自监督和弱监督方法,与全监督方法具有竞争力,且无需人工标注或域适应。
  • Conclusion: LG-NuSegHop提供了一种透明可解释的自监督细胞核分割方案,在保持良好泛化性能的同时,为医生提供了可理解的决策过程。

[78] UHDRes: Ultra-High-Definition Image Restoration via Dual-Domain Decoupled Spectral Modulation

S. Zhao,W. Lu,B. Wang,T. Wang,K. Zhang,H. Zhao

Main category: eess.IV

TL;DR: UHDRes是一种轻量级双域解耦频谱调制框架,用于超高清图像恢复,通过频谱域调制显式建模振幅谱,同时通过空间域细化隐式恢复相位,仅需40万参数即可实现最先进的恢复性能。

  • Motivation: 超高清图像常因模糊、雾霾、雨雾或低光条件而严重退化,由于高分辨率和计算需求,图像恢复面临重大挑战。
  • Method: 提出轻量级双域解耦频谱调制框架,通过多尺度上下文聚合器提取局部和全局空间特征,在频域显式增强振幅特征,同时通过空间细化隐式恢复相位信息,并设计共享门控前馈网络促进特征交互。
  • Result: 在五个公共UHD基准测试上的广泛实验比较表明,UHDRes仅用40万参数就实现了最先进的恢复性能,同时显著降低了推理延迟和内存使用。
  • Conclusion: UHDRes框架在超高清图像恢复方面表现出色,以极少的参数实现了高性能,具有实际应用价值。

cs.CL

[79] Cross-Lingual SynthDocs: A Large-Scale Synthetic Corpus for Any to Arabic OCR and Document Understanding

Haneen Al-Homoud,Asma Ibrahim,Murtadha Al-Jubran,Fahad Al-Otaibi,Yazeed Al-Harbi,Daulet Toibazar,Kesen Wang,Pedro J. Moreno

Main category: cs.CL

TL;DR: Cross-Lingual SynthDocs是一个大规模合成语料库,包含超过250万个样本,旨在解决阿拉伯语OCR和文档理解资源稀缺问题,通过微调Qwen-2.5-VL模型在多个阿拉伯语基准测试中显著提升了性能。

  • Motivation: 解决阿拉伯语在光学字符识别和文档理解领域资源稀缺的问题,为多语言文档分析提供可扩展的视觉真实资源。
  • Method: 利用真实扫描背景、双语布局和变音符号感知字体构建合成语料库,包含文本、表格和图表等多种文档元素,通过微调Qwen-2.5-VL模型进行训练。
  • Result: 在多个阿拉伯语基准测试中,词错误率和字符错误率持续改善,树编辑距离相似度和图表提取分数在其他模态中也有所提升。
  • Conclusion: SynthDocs为多语言文档分析研究提供了可扩展且视觉真实的资源,有效提升了阿拉伯语OCR和文档理解的性能。