Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] A Real-Time Diminished Reality Approach to Privacy in MR Collaboration
Christian Fane
Main category: cs.CV
TL;DR: 这篇论文提出了一个基于实时修复的减实系统,用于混合现实会议中的隐私保护,能够以超过20fps的速度选择性移除敏感物品
- Motivation: 在共享空间的混合现实会议中,用户需要保护个人或敏感物品的隐私,防止被其他参与者看到
- Method: 使用语义分割和精确对象选择,结合ZED 2i深度相机实现实时修复,采用YOLOv11进行物体检测和修改的DSTT模型进行高质量视频修复
- Result: 系统在720p分辨率下能够维持超过20fps的帧率,实现了实时减实效果
- Conclusion: 该系统证明了实时减实技术在保护隐私的混合现实应用中的可行性,具有便携性和鲁棒性
[2] SurgLaVi: Large-Scale Hierarchical Dataset for Surgical Vision-Language Representation Learning
Alejandra Perez,Chinedu Nwoye,Ramtin Raji Kermani,Omid Mohareri,Muhammad Abdullah Jamal
Main category: cs.CV
TL;DR: SurgLaVi是当前最大最全面的手术视觉语言数据集,包含24万视频片段-文本对,覆盖200多种手术流程,具有层次化标注结构。通过自动化流程生成高质量标注,并发布开源版本SurgLaVi-β。基于该数据集开发的SurgCLIP模型在多项手术任务中取得显著性能提升。
- Motivation: 现有手术视觉语言预训练数据集存在规模小、流程多样性不足、语义质量差和缺乏层次结构等问题,限制了手术VLP的发展。需要构建大规模、高质量、层次化的数据集来推动手术基础模型的发展。
- Method: 开发了全自动化的标注流程,系统生成手术视频的细粒度转录文本,分割为连贯的手术单元,应用双模态过滤去除噪声样本,生成语义丰富且易于理解的标注。构建了SurgLaVi数据集并基于此开发了SurgCLIP双编码器对比学习框架。
- Result: SurgLaVi包含近24万视频片段-文本对,覆盖200+手术流程,具有阶段-步骤-任务三级层次结构。SurgCLIP在阶段识别、步骤识别、动作识别和工具识别等任务中均取得显著提升,大幅超越现有最优方法。
- Conclusion: 大规模、语义丰富且层次结构化的数据集能够直接转化为更强和更可泛化的表示能力,SurgLaVi为开发手术基础模型提供了关键资源,证明了高质量数据集对手术VLP的重要性。
[3] Building a General SimCLR Self-Supervised Foundation Model Across Neurological Diseases to Advance 3D Brain MRI Diagnoses
Emily Kaczmarek,Justin Szeto,Brennan Nichyporuk,Tal Arbel
Main category: cs.CV
TL;DR: 本文提出了一个基于SimCLR的自监督学习基础模型,用于3D脑部结构MRI分析,在多个下游任务中表现优于其他方法,包括MAE和监督基线。
- Motivation: 现有3D MRI深度学习模型多为特定任务设计,泛化能力有限,且缺乏高分辨率、可广泛访问的基础模型。自监督学习在2D医学影像中成功,但3D脑MRI基础模型仍存在分辨率、范围或可访问性限制。
- Method: 开发基于SimCLR的自监督学习基础模型,在11个公开数据集的18,759名患者(44,958次扫描)上进行预训练,涵盖多种神经系统疾病。与MAE和两个监督基线模型在四个不同下游预测任务中进行比较。
- Result: 微调后的SimCLR模型在所有任务中都优于其他模型。在仅使用20%标记训练样本预测阿尔茨海默病时,仍能保持优异性能。
- Conclusion: 该工作提供了一个通用、高分辨率、可广泛访问的3D脑MRI基础模型,有助于临床脑MRI分析,代码和模型已公开。
[4] USCTNet: A deep unfolding nuclear-norm optimization solver for physically consistent HSI reconstruction
Xiaoyang Ma,Yiyang Chai,Xinran Qu,Hong Sun
Main category: cs.CV
TL;DR: 本文提出USCTNet,一种基于深度展开的RGB到高光谱图像重建方法,通过物理约束的逆问题建模和可学习低秩子空间SVT操作,在保证色度一致性的同时提升重建精度。
- Motivation: 现有的RGB到高光谱图像重建方法在相机光谱敏感性和场景照明信息不准确时会产生物理不一致的结果,需要一种能够同时估计这些参数并确保重建物理一致性的方法。
- Method: 将RGB-to-HSI重建建模为物理约束的逆问题,使用可学习变换域中的核范数正则化;引入数据自适应的低秩子空间SVT操作避免完整SVD计算;开发USCTNet深度展开求解器,耦合参数估计模块和可学习近端更新。
- Result: 在标准基准测试上的广泛实验显示,该方法在重建精度方面持续优于最先进的RGB-based方法。
- Conclusion: USCTNet通过物理一致的建模和高效的低秩近似,实现了更准确和稳定的高光谱图像重建,为RGB-to-HSI转换提供了有效的解决方案。
[5] A Comparison and Evaluation of Fine-tuned Convolutional Neural Networks to Large Language Models for Image Classification and Segmentation of Brain Tumors on MRI
Felicia Liu,Jay J. Yoo,Farzad Khalvati
Main category: cs.CV
TL;DR: LLMs在医疗图像任务(胶质瘤分类和分割)中表现不如传统CNN,空间理解能力有限,微调效果不明显
- Motivation: 探索LLMs在医疗图像应用中的有效性,特别是在胶质瘤分类和分割任务上,与传统CNN方法进行比较
- Method: 使用BraTS 2020多模态脑MRI数据集,评估通用视觉语言LLM(LLaMA 3.2 Instruct)在微调前后的性能,并与定制3D CNN进行基准测试
- Result: CNN在分类任务中达到80%准确率,而通用LLM为76%但特异性仅18%;微调后特异性提升至55%但整体性能下降。分割任务中LLMs始终将预测集中在图像中心,无法区分肿瘤特征
- Conclusion: 当前形式的LLMs不适合基于图像的任务,需要更严格的微调或替代训练策略才能在医疗领域获得更好的性能和实用性
[6] Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
Hao Zhang,Chun-Han Yao,Simon Donné,Narendra Ahuja,Varun Jampani
Main category: cs.CV
TL;DR: SP4D是一个从单目输入生成配对RGB和运动学部件视频的框架,通过双分支扩散模型联合合成RGB帧和部件分割图,使用空间颜色编码简化架构,并支持不同部件数量。
- Motivation: 传统部件分割方法依赖基于外观的语义线索,无法产生与物体关节对齐且跨视图和时间一致的动态部件。需要一种能够生成运动学部件的方法来支持下游动画和运动相关任务。
- Method: 采用双分支扩散模型联合合成RGB帧和部件分割图;引入空间颜色编码将部件掩码映射到连续RGB类图像;使用双向扩散融合模块增强跨分支一致性;采用对比部件一致性损失促进部件预测的空间和时间对齐。
- Result: SP4D能够泛化到多样化场景,包括真实世界视频、新生成物体和罕见关节姿态,产生适用于下游动画和运动相关任务的运动感知输出。生成的2D部件图可以提升到3D以推导骨骼结构和皮肤权重。
- Conclusion: SP4D框架成功实现了从单目输入生成运动学一致的部件分割,为动画和运动分析任务提供了有效的解决方案,并在构建的KinematicParts20K数据集上展示了强大的泛化能力。
[7] SegSLR: Promptable Video Segmentation for Isolated Sign Language Recognition
Sven Schreiber,Noha Sarhan,Simone Frintrop,Christian Wilms
Main category: cs.CV
TL;DR: SegSLR是一个结合RGB和姿态信息的孤立手语识别系统,通过可提示的零样本视频分割技术,专注于手语者的手部和身体部位,在ChaLearn249 IsoGD数据集上优于现有方法。
- Motivation: 现有的孤立手语识别方法主要依赖RGB数据或姿态信息,但结合这两种模态时往往会因不精确的表示(如边界框)而丢失关键细节,如手部形状和方向信息。
- Method: 提出SegSLR系统,通过姿态信息获得手部和身体的粗略定位,然后使用可提示的零样本视频分割技术对这些部位进行精确分割,保持所有相关形状信息,并将RGB数据处理集中在最相关的身体部位上。
- Result: 在复杂的ChaLearn249 IsoGD数据集上的评估显示,SegSLR优于最先进的方法。消融研究表明,系统通过专注于手语者的身体和手部获得了显著收益。
- Conclusion: SegSLR通过结合RGB和姿态信息并专注于关键身体部位,有效提升了孤立手语识别的性能,验证了设计选择的有效性。
[8] SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation
Jecia Z. Y. Mao,Francis X Creighton,Russell H Taylor,Manish Sahu
Main category: cs.CV
TL;DR: SCOPE框架通过整合大语言模型和视觉基础模型,实现手术场景中器械和解剖结构的实时语音引导分割与追踪
- Motivation: 解决当前手术场景分割方法依赖标注数据和领域特定模型的问题,开发无需手动标注、支持开放集分割的实时手术辅助系统
- Method: 结合LLM的推理能力和VFMs的感知能力,通过语音反馈引导分割,利用分割结果作为指针标记其他手术元素
- Result: 在Cataract1k数据集和内部颅底数据集上验证了框架的有效性,展示了实时分割和追踪能力
- Conclusion: 该人机协作范式展示了开发适应性强、免提操作、以外科医生为中心的手术室工具的潜力
[9] Every Camera Effect, Every Time, All at Once: 4D Gaussian Ray Tracing for Physics-based Camera Effect Data Generation
Yi-Ruei Liu,You-Zhe Xie,Yu-Hsiang Hsu,I-Sheng Fang,Yu-Lun Liu,Jun-Cheng Chen
Main category: cs.CV
TL;DR: 4D-GRT是一个两阶段流水线,结合4D高斯溅射和基于物理的光线追踪,用于模拟相机效应,在渲染速度和质量上优于现有基线
- Motivation: 传统计算机视觉系统假设理想针孔相机,但在面对真实世界相机效应(如鱼眼畸变和滚动快门)时表现不佳,主要因为缺乏包含相机效应的训练数据
- Method: 提出4D-GRT两阶段方法:首先用多视角视频重建动态场景,然后应用光线追踪生成具有可控、物理精确相机效应的视频
- Result: 实现了最快的渲染速度,渲染质量优于或与现有基线相当,并构建了包含8个合成动态场景的基准测试集
- Conclusion: 4D-GRT有效解决了相机效应模拟的数据生成问题,为计算机视觉系统在真实相机条件下的性能提升提供了有效解决方案
[10] EditDuet: A Multi-Agent System for Video Non-Linear Editing
Marcelo Sandoval-Castaneda,Bryan Russell,Josef Sivic,Gregory Shakhnarovich,Fabian Caba Heilbron
Main category: cs.CV
TL;DR: 本文提出了一种基于多智能体系统的自动化视频编辑方法,通过Editor和Critic两个智能体的协作,使用自然语言指令来编辑视频序列,显著优于现有方法。
- Motivation: 现有的视频编辑工具主要关注检索或用户界面,而将实际编辑工作留给用户。本文旨在自动化视频编辑的核心任务,将其构建为序列决策过程。
- Method: 采用多智能体方法,设计Editor智能体(使用视频编辑软件工具处理视频剪辑和自然语言指令)和Critic智能体(提供自然语言反馈或渲染满意序列)。引入基于学习的方法实现专业智能体间的有效通信。
- Result: 通过用户研究对输出视频序列进行定性和定量评估,结果显示系统在覆盖率、时间约束满足度和人类偏好方面大幅超越现有方法。
- Conclusion: 提出的多智能体视频编辑系统能够有效处理语言驱动的视频编辑任务,并通过LLM-as-a-judge指标验证了其质量,与人类偏好高度一致。
[11] Enhancement Without Contrast: Stability-Aware Multicenter Machine Learning for Glioma MRI Imaging
Sajad Amiri,Shahram Taeb,Sara Gharibi,Setareh Dehghanfard,Somayeh Sadat Mehrnia,Mehrdad Oveisi,Ilker Hacihaliloglu,Arman Rahmim,Mohammad R. Salmanpour
Main category: cs.CV
TL;DR: 提出稳定性感知框架,通过多中心机器学习方法从非对比MRI预测胶质瘤对比增强,减少对钆基对比剂的依赖,提高跨中心泛化能力
- Motivation: 钆基对比剂在胶质瘤成像中存在安全性、成本和可及性问题,而对比增强反映了肿瘤侵袭性并指导治疗计划,需要寻找更安全的替代方案
- Method: 使用来自四个TCIA数据集的1,446例胶质瘤病例,从非对比T1WI提取108个影像组学特征,结合48种降维方法和25种分类器构建1,200个机器学习流程,采用旋转验证方法进行多中心测试
- Result: 交叉验证准确率0.91-0.96,外部测试平均准确率0.93(范围0.87-0.98),F1、精确率和召回率稳定(0.87-0.96),MI与ETr组合的流程表现最佳
- Conclusion: 稳定性感知模型选择能够可靠地从非对比MRI预测对比增强,减少对钆基对比剂的依赖,为神经肿瘤学及其他领域的可重复机器学习提供了可扩展模板
[12] Group Evidence Matters: Tiling-based Semantic Gating for Dense Object Detection
Yilun Xiao
Main category: cs.CV
TL;DR: 提出了一种检测器无关的后处理框架,通过重叠切片恢复低置信度候选目标,利用空间和语义门验证群体证据,并进行置信度重加权,显著提高了无人机图像中密集小目标的召回率。
- Motivation: 解决无人机图像中由于远距离视角、遮挡和杂乱导致的密集小目标漏检问题,利用重叠引起的冗余信息转化为群体证据来提升检测性能。
- Method: 采用重叠切片技术恢复低置信度候选目标,使用基于DBSCAN的空间门(边界框中心点)和语义门(ResNet-18嵌入向量)验证群体证据,通过置信度重加权和类别感知NMS融合进行后处理。
- Result: 在VisDrone数据集上,召回率从0.685提升到0.778(+0.093),精确度从0.801调整到0.595,F1分数达到0.669,后处理延迟平均每张图像0.095秒。
- Conclusion: 该框架无需重新训练即可与现代检测器集成,在召回敏感的应用(如远场计数和监控)中表现优异,未来工作将降低语义门成本并引入时序线索。
[13] InternScenes: A Large-scale Simulatable Indoor Scene Dataset with Realistic Layouts
Weipeng Zhong,Peizhou Cao,Yichen Jin,Li Luo,Wenzhe Cai,Jingli Lin,Hanqing Wang,Zhaoyang Lyu,Tai Wang,Bo Dai,Xudong Xu,Jiangmiao Pang
Main category: cs.CV
TL;DR: InternScenes是一个大规模可模拟室内场景数据集,包含约4万个多样化场景、196万个3D物体,覆盖15种场景类型和288个物体类别,解决了现有数据集在规模、多样性和布局真实性方面的局限性。
- Motivation: 现有Embodied AI数据集在数据规模、场景多样性、布局真实性(缺乏小物品)和物体碰撞方面存在严重限制,阻碍了该领域的发展。
- Method: 整合三种不同场景来源(真实扫描、程序生成、设计师创建),通过综合数据处理流程确保可模拟性,包括创建真实到模拟的副本、添加交互对象、通过物理模拟解决碰撞问题。
- Result: 创建了包含平均每个区域41.5个物体的复杂真实布局,展示了在场景布局生成和点目标导航两个基准应用中的价值,为模型训练规模化提供了可能。
- Conclusion: InternScenes为复杂场景中的生成和导航任务铺平了道路,承诺开源数据、模型和基准测试以造福整个研究社区。
[14] Well-Conditioned Polynomial Representations for Mathematical Handwriting Recognition
Robert M. Corless,Deepak Singh Kalhan,Stephen M. Watt
Main category: cs.CV
TL;DR: 本文探讨了不同多项式基(Legendre、Legendre-Sobolev、Chebyshev、Chebyshev-Sobolev)在数学手写识别中的权衡,分析基选择和多项式阶数对计算成本和建模精度的影响。
- Motivation: 研究如何在数学手写识别中实现准确建模与低计算成本之间的平衡,通过分析不同多项式基的条件数和内积范数来优化参数化平面曲线表示。
- Method: 使用参数化平面曲线多项式表示,比较Legendre、Legendre-Sobolev、Chebyshev和Chebyshev-Sobolev基的性能,分析多项式求值的条件数以及不同内积对符号变化范数的约束。
- Result: 提供了不同基选择和多项式阶数之间的权衡分析,确定了在保持计算效率的同时实现准确建模的最佳配置。
- Conclusion: 通过合理选择多项式基和阶数,可以在数学手写识别中实现计算成本与建模精度之间的优化平衡,为数字墨水的紧凑几何表示提供理论指导。
[15] Multi-Task Diffusion Approach For Prediction of Glioma Tumor Progression
Aghiles Kebaili,Romain Modzelewski,Jérôme Lapuyade-Lahorgue,Maxime Fontanilles,Sébastien Thureau,Su Ruan
Main category: cs.CV
TL;DR: 提出一个多任务扩散框架,用于胶质瘤进展的时间无关像素级预测,能够生成未来FLAIR序列和估计肿瘤演化的空间概率图,并整合了预训练变形模块和针对性数据增强策略。
- Motivation: 解决临床实践中稀疏、不规则采集的纵向MRI数据导致的胶质瘤进展预测困难,特别是由于不完整的随访序列造成的数据不平衡和建模不可靠问题。
- Method: 多任务扩散框架同时生成未来任意时间点的FLAIR序列和使用符号距离场(SDFs)估计空间概率肿瘤演化图;整合预训练变形模块建模扫描间变化;实施针对性数据增强管道合成完整随访序列;引入放疗加权的焦点损失项。
- Result: 在公共数据集上训练并在内部私有数据集上评估,在两个数据集上都取得了有希望的结果,能够基于仅两个早期随访扫描生成灵活的时间依赖概率图。
- Conclusion: 该框架为临床医生提供了在任何未来时间里程碑上询问肿瘤进展风险的能力,通过不确定性量化和临床重要性区域的重点关注,提高了预测模型的稳定性和准确性。
[16] Point-Plane Projections for Accurate LiDAR Semantic Segmentation in Small Data Scenarios
Simone Mosco,Daniel Fusaro,Wanmeng Li,Emanuele Menegatti,Alberto Pretto
Main category: cs.CV
TL;DR: 提出了一种基于点-平面投影的LiDAR点云语义分割方法,通过从2D表示中有效学习特征来提升性能,同时引入几何感知的数据增强技术来解决类别不平衡问题。
- Motivation: 现有方法通常计算复杂度高且需要大量训练数据,在数据稀缺场景下泛化能力有限。本文旨在仅使用LiDAR数据,通过点-平面投影从2D表示中提取互补信息来提升点基方法的性能。
- Method: 使用点-平面投影将点云投影到多个信息丰富的2D表示上,从中学习特征;引入几何感知的数据增强技术,该技术与LiDAR传感器特性对齐并缓解类别不平衡问题。
- Result: 在有限数据场景下取得显著改进,同时在SemanticKITTI和PandaSet两个公开标准数据集上获得有竞争力的结果。
- Conclusion: 该方法通过点-平面投影有效利用2D表示信息,配合几何感知数据增强,在仅使用LiDAR数据的情况下实现了性能提升,特别是在数据稀缺场景中表现优异。
[17] OpenUrban3D: Annotation-Free Open-Vocabulary Semantic Segmentation of Large-Scale Urban Point Clouds
Chongyu Wang,Kunlei Jing,Jihua Zhu,Di Wang
Main category: cs.CV
TL;DR: OpenUrban3D是首个无需对齐多视角图像、预训练点云分割网络或人工标注的大规模城市场景3D开放词汇语义分割框架,通过多视角多粒度渲染和视觉语言特征提取实现零样本分割
- Motivation: 解决大规模城市点云中开放词汇语义分割的挑战,包括缺乏高质量对齐多视角图像数据以及现有3D分割方法在不同城市环境中的泛化能力差的问题
- Method: 通过多视角多粒度渲染从原始点云生成鲁棒语义特征,进行掩码级视觉语言特征提取和样本平衡融合,然后蒸馏到3D骨干模型中
- Result: 在SensatUrban和SUM等大规模城市基准测试中,OpenUrban3D在分割精度和跨场景泛化方面显著优于现有方法
- Conclusion: OpenUrban3D为3D城市场景理解提供了一个灵活且可扩展的解决方案,能够处理任意文本查询的零样本分割任务
[18] AutoOEP -- A Multi-modal Framework for Online Exam Proctoring
Aryan Kashyap Naveen,Bhuvanesh Singla,Raajan Wankhade,Shreesha M,Ramu S,Ram Mohana Reddy Guddeti
Main category: cs.CV
TL;DR: AutoOEP是一个多模态在线考试监考系统,使用双摄像头和机器学习技术检测作弊行为,准确率达90.7%,无需GPU即可运行。
- Motivation: 在线教育的快速发展需要可扩展的学术诚信保障系统,传统人工监考难以规模化,现有自动化方案要么侵入性强要么检测能力有限。
- Method: 采用双摄像头设置(正面和侧面视角),集成人脸模块(身份验证、头部姿态、视线跟踪、嘴部动作分析)和手部模块(YOLOv11检测违禁物品),通过LSTM网络分析时序模式计算实时作弊概率。
- Result: 系统准确率90.7%,违禁物品检测mAP@.5为0.57,处理速度约2.4帧/秒(无GPU),有效减少人工干预需求。
- Conclusion: AutoOEP是一个高效且资源友好的自动化监考解决方案,显著提升了在线考试的完整性。
[19] Total Variation Subgradient Guided Image Fusion for Dual-Camera CASSI System
Weiqiang Zhao,Tianzhu Liu,Yuzhe Gui,Yanfeng Gu
Main category: cs.CV
TL;DR: 提出了一种基于总变分次梯度理论的双相机CASSI重建框架,通过动态正则化策略和辅助相机空间先验,解决了高压缩比下的病态重建问题,在保持物理可解释性的同时提升了重建性能。
- Motivation: 传统压缩感知光谱成像(CASSI)在高压缩比下存在病态重建问题,模型方法依赖手工先验性能有限,深度学习方法缺乏物理可解释性。需要一种既能保持数学严谨性又能提升重建质量的方法。
- Method: 建立端到端SD-CASSI数学模型,引入总变分次梯度理论,设计动态正则化策略,利用RGB/全色参考图像的归一化梯度约束构建TV次梯度相似函数,通过辅助相机提供空间先验和自适应参考生成机制。
- Result: 实验结果表明该方法能有效保持空间-光谱结构一致性,在不同重建场景下表现出鲁棒性能,为计算光谱成像建立了可解释的数学基础。
- Conclusion: 提出的双相机CASSI重建框架成功解决了高压缩比下的重建难题,在保持物理可解释性的同时显著提升了重建质量,为多相机系统提供了数学分析基础。
[20] Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder for Earth Observation
Mohanad Albughdadi
Main category: cs.CV
TL;DR: 提出一个仅250万参数的元数据感知混合专家掩码自编码器(MoE-MAE),通过结合稀疏专家路由和地理时间条件,在小型模型上实现了与大型模型竞争的性能
- Motivation: 当前地球观测领域的大型基础模型计算成本高昂,限制了其在下游任务中的可访问性和重用性,需要探索更紧凑的架构
- Method: 使用元数据感知的混合专家掩码自编码器,结合稀疏专家路由和地理时间条件(经纬度坐标、季节/日周期编码),在BigEarthNet-Landsat数据集上进行预训练
- Result: 尽管模型规模很小(2.5M参数),但在线性探测评估中与参数量大得多的架构竞争,在缺乏显式元数据的EuroSAT-Landsat数据集上也表现出竞争力
- Conclusion: 紧凑的元数据感知MoE-MAE是构建高效、可扩展地球观测基础模型的有效途径,证明了元数据感知预训练能提高迁移和标签效率
[21] Simulating Sinogram-Domain Motion and Correcting Image-Domain Artifacts Using Deep Learning in HR-pQCT Bone Imaging
Farhan Sadik,Christopher L. Newman,Stuart J. Warden,Rachel K. Surowiec
Main category: cs.CV
TL;DR: 提出了一种基于深度学习的运动伪影校正方法ESWGAN-GP,用于HR-pQCT图像中刚性运动伪影的去除,通过模拟运动伪影生成配对数据集,并在模拟和真实数据集上均取得了良好效果。
- Motivation: HR-pQCT图像中的刚性运动伪影(如皮质骨条纹和骨小梁模糊)严重阻碍了骨微结构的体内评估,目前缺乏标准化的退化模型和有效的运动校正方法。
- Method: 优化传统的基于正弦图的运动伪影模拟方法创建配对数据集,提出ESWGAN-GP网络,包含边缘增强跳跃连接、自注意力机制和基于VGG的感知损失,用于运动伪影校正。
- Result: 在模拟数据集上获得SNR 26.78、SSIM 0.81、VIF 0.76;在真实数据集上获得SNR 29.31、SSIM 0.87、VIF 0.81的改进性能。
- Conclusion: 虽然提出的方法对真实世界运动的简化表示可能无法完全捕捉体内运动伪影的复杂性,但这些方法代表了在HR-pQCT中实施基于深度学习的运动校正的重要初步步骤。
[22] Gaze Authentication: Factors Influencing Authentication Performance
Dillon Lohr,Michael J Proulx,Mehedi Hasan Raju,Oleg V Komogortsev
Main category: cs.CV
TL;DR: 本文研究影响最先进注视认证性能的关键因素,通过大规模实验发现校准目标深度一致性、融合校准与非校准注视、提升信号质量可提高性能,而简单移动平均滤波反而会降低性能。
- Motivation: 研究当前最先进的注视认证系统中影响性能的关键技术因素,为实际应用提供优化指导。
- Method: 使用Meta Quest Pro等效硬件收集8,849名受试者的眼动数据,采用72Hz视频眼动追踪流程和最先进的神经网络架构,分析信号质量、校准参数和原始注视滤波对认证性能的影响。
- Result: 发现使用相同深度的校准目标、融合校准与非校准注视数据、提高眼动信号质量都能提升认证性能,而三样本移动平均滤波通常会略微降低性能。
- Conclusion: 注视认证系统的性能优化需要综合考虑多个技术因素,不同处理策略对性能有显著影响,为实际系统设计提供了重要参考。
[23] TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation
Haoming Lu
Main category: cs.CV
TL;DR: TrueSkin是一个包含7299张图像的数据集,系统分类为6个皮肤色调类别,用于改善皮肤色调识别和生成的公平性和准确性。
- Motivation: 皮肤色调识别和生成在模型公平性、医疗健康和生成式AI中很重要,但由于缺乏全面数据集和鲁棒方法而面临挑战。现有大型多模态模型和图像生成模型在准确识别和合成皮肤色调方面存在困难。
- Method: 引入TrueSkin数据集,包含7299张在不同光照条件、相机角度和拍摄设置下收集的图像,系统分为6个类别。使用该数据集对现有识别和生成方法进行基准测试,并训练识别模型和微调生成模型。
- Result: 基准测试显示现有模型存在显著偏差:LMMs倾向于将中间肤色误分类为较浅肤色,生成模型在受提示中无关属性(如发型或环境背景)影响时难以准确生成指定肤色。在TrueSkin上训练的识别模型比LMMs和传统方法准确率提高20%以上,微调后显著改善图像生成模型的肤色保真度。
- Conclusion: 研究强调了像TrueSkin这样的全面数据集的必要性,它不仅可作为评估现有模型的基准,还为提升皮肤色调识别和生成任务的公平性和准确性提供了宝贵的训练资源。
[24] Policy-Driven Transfer Learning in Resource-Limited Animal Monitoring
Nisha Pillai,Aditi Virupakshaiah,Harrison W. Smith,Amanda J. Ashworth,Prasanna Gowda,Phillip R. Owens,Adam R. Rivers,Bindu Nanduri,Mahalingam Ramkumar
Main category: cs.CV
TL;DR: 提出基于强化学习的迁移学习框架,使用UCB算法自动选择最适合动物检测任务的预训练模型,提高检测率并减少计算时间
- Motivation: 无人机结合计算机视觉为动物监测提供非侵入式解决方案,但标注训练数据有限阻碍深度学习模型发展,需要自动化选择最优预训练模型的方法
- Method: 使用强化学习框架,采用上置信界(UCB)算法系统评估和排序候选预训练模型,自动选择最适合动物检测任务的模型
- Result: 实验结果表明该框架相比传统方法获得更高的检测率,同时显著减少计算时间
- Conclusion: 提出的RL-based迁移学习框架能有效解决预训练模型选择难题,为资源有限的动物检测应用提供自动化解决方案
[25] Improving Fungi Prototype Representations for Few-Shot Classification
Abdarahmane Traore,Éric Hervet,Andy Couturier
Main category: cs.CV
TL;DR: FungiCLEF 2025竞赛专注于使用真实野外观测数据进行真菌物种自动识别,提出基于原型网络的深度学习方法,在稀有物种识别方面比基线方法提升30多个百分点
- Motivation: 解决真菌物种识别中类别分布极度不平衡的问题,特别是针对稀有和缺乏文档记录的真菌物种,这些物种在标准训练集中往往缺失,但占所有已验证真菌观测的约20%
- Method: 采用基于原型网络的深度学习方法,增强原型表示以支持少样本真菌分类
- Result: 在公开和私有排行榜上的Recall@5指标均超过竞赛基线30多个百分点
- Conclusion: 该方法在准确识别常见和稀有真菌物种方面表现出强大潜力,支持FungiCLEF 2025的主要目标
[26] Cluster-Level Sparse Multi-Instance Learning for Whole-Slide Images
Yuedi Zhang,Zhixiang Xia,Guosheng Yin,Bin Liu
Main category: cs.CV
TL;DR: csMIL是一个新颖的多实例学习框架,通过全局-局部实例聚类、簇内注意力和簇级稀疏正则化来解决传统MIL方法中的实例冗余问题,在计算病理学中实现了最先进的性能。
- Motivation: 传统多实例学习方法在处理无序实例集合时存在实例冗余问题,缺乏明确的机制来丢弃非信息性实例,限制了方法的鲁棒性和可解释性。特别是在计算病理学的全切片图像分析中,这个问题尤为突出。
- Method: 提出Cluster-level Sparse MIL (csMIL)框架:1)对所有包进行全局聚类建立K个簇中心;2)在每个包内进行局部聚类分配簇标签;3)在每个簇内计算注意力分数;4)对簇权重应用稀疏正则化,选择性保留诊断相关簇,丢弃无关簇。
- Result: 理论分析表明csMIL仅需O(s log K)个包即可恢复s个相关簇,符合压缩感知原理。在两个公开的组织病理学基准数据集(CAMELYON16, TCGA-NSCLC)上实现了最先进的性能。
- Conclusion: csMIL通过簇级稀疏性增强了对抗噪声实例的鲁棒性,通过识别关键区域提高了可解释性,同时降低了计算复杂度,为计算病理学中的弱监督学习提供了有效的解决方案。
[27] Action Hints: Semantic Typicality and Context Uniqueness for Generalizable Skeleton-based Video Anomaly Detection
Canhui Tang,Sanping Zhou,Haoyue Shi,Le Wang
Main category: cs.CV
TL;DR: 提出基于骨架数据的零样本视频异常检测框架,通过动作典型性和独特性学习,无需目标域训练数据即可在新场景中检测异常行为
- Motivation: 解决零样本视频异常检测中现有方法仅学习低层次骨架表示、依赖领域受限正态性边界的问题,利用骨架数据的固有泛化优势
- Method: 1) 语言引导的语义典型性建模模块:将骨架片段投影到动作语义空间,蒸馏LLM对典型正常/异常行为的知识;2) 测试时上下文独特性分析模块:精细分析骨架片段的时空差异,推导场景自适应边界
- Result: 在四个大规模VAD数据集(ShanghaiTech、UBnormal、NWPU、UCF-Crime)上达到最先进性能,涵盖100多个未见监控场景
- Conclusion: 该方法成功解锁了骨架数据在零样本异常检测中的潜力,通过语义典型性和上下文独特性学习实现了优秀的跨场景泛化能力
[28] Organoid Tracker: A SAM2-Powered Platform for Zero-shot Cyst Analysis in Human Kidney Organoid Videos
Xiaoyu Huang,Lauren M Maxson,Trang Nguyen,Cheng Jack Song,Yuankai Huo
Main category: cs.CV
TL;DR: 开发了基于SAM2的肾脏类器官追踪平台Organoid Tracker,用于自动分析多囊肾病时空显微镜视频数据,实现零样本分割和定量指标提取
- Motivation: 当前肾脏类器官研究的手动分析方法仅限于粗略分类,无法充分利用像素级和纵向时空信息,需要更高效的分析工具
- Method: 构建基于Segment Anything Model 2 (SAM2)的图形用户界面平台,采用模块化插件架构,支持零样本分割和自动化时空视频分析
- Result: 能够量化囊肿形成率、生长速度和形态变化等关键指标,生成全面报告,为研究人员提供无需编程的专业分析能力
- Conclusion: Organoid Tracker作为一个可扩展的开源框架,显著提升了肾脏发育、多囊肾病建模和治疗发现研究的效率和准确性
[29] The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge
Jinghan Peng,Jingwen Wang,Xing Yu,Dehui Du
Main category: cs.CV
TL;DR: 本文介绍了一种基于LLaVA模型的视觉语言模型系统,通过LoRA和DoRA微调方法增强,并整合深度信息,在CVPR 2024自动驾驶挑战赛中取得第一名。
- Motivation: 解决自动驾驶场景中的语言理解任务,提升车辆对复杂驾驶环境的理解和决策能力。
- Method: 使用LLaVA模型为基础,采用LoRA和DoRA方法进行微调,整合开源深度估计模型的深度信息,并在推理时使用Chain-of-Thought推理方法处理选择题和是非题。
- Result: 在验证集排行榜上获得0.7799的最高分,排名第一。
- Conclusion: 该综合方法有效提升了视觉语言模型在自动驾驶语言理解任务中的性能,证明了深度信息整合和Chain-of-Thought推理策略的有效性。
[30] Mars Traversability Prediction: A Multi-modal Self-supervised Approach for Costmap Generation
Zongwu Xie,Kaijie Yun,Yang Liu,Yiming Ji,Han Li
Main category: cs.CV
TL;DR: 提出了一种基于多模态(相机+LiDAR)的自监督可通行性成本地图预测框架,通过IMU数据生成标签,在BEV视角下实现地形成本预测,模型表现出高度鲁棒性
- Motivation: 为行星探测车开发可靠的可通行性评估系统,传统方法依赖人工标注或有限监督信号,需要一种能够自动学习地形成本的自监督方法
- Method: 使用DINOv3图像编码器和FiLM传感器融合技术,结合Huber和平滑损失函数,通过IMU数据自监督训练多模态BEV成本地图预测模型
- Result: 模型在各项消融实验中表现高度鲁棒,MAE仅从0.0775增加到0.0915(LiDAR稀疏化时),表明几何信息主导学习成本,性能差异较小
- Conclusion: 提出了一个高保真仿真环境、自监督IMU标注流程和强大的多模态BEV成本地图预测模型,未来需要关注领域泛化和数据集扩展
[31] End-to-End Visual Autonomous Parking via Control-Aided Attention
Chao Chen,Shunyu Yao,Yuanwu He,Tao Feng,Ruojing Song,Yuliang Guo,Xinyu Huang,Chenxu Wu,Ren Liu,Chen Feng
Main category: cs.CV
TL;DR: CAA-Policy是一个端到端的模仿学习系统,通过控制辅助注意力机制让控制信号指导视觉注意力的学习,解决了传统方法中感知与控制缺乏有效协同的问题,在停车任务中实现了更高的精度、鲁棒性和可解释性。
- Motivation: 现有的端到端学习方法在感知和控制之间缺乏有效协同,基于transformer的自注意力机制会产生不稳定和时序不一致的空间注意力,影响下游策略决策的可靠性。
- Method: 提出了CAA-Policy系统,采用控制辅助注意力机制,使用控制输出的反向传播梯度而非训练损失来以自监督方式训练注意力模块,同时集成短时域路径点预测作为辅助任务,并引入单独训练的运动预测模块来稳定跟踪目标位置。
- Result: 在CARLA模拟器中的大量实验表明,该方法在精度、鲁棒性和可解释性方面均超越了端到端学习基线和模块化BEV分割+混合A*流水线。
- Conclusion: 通过控制信号指导注意力学习的方法能够产生更鲁棒和可泛化的策略,为端到端自动驾驶系统提供了新的解决方案。
[32] PanoLora: Bridging Perspective and Panoramic Video Generation with LoRA Adaptation
Zeyu Dong,Yuyang Yin,Yuqi Li,Eric Li,Hao-Xiang Guo,Yikai Wang
Main category: cs.CV
TL;DR: 提出使用LoRA(低秩适应)技术将全景视频生成视为从透视视图的适应问题,仅用约1000个视频高效微调预训练视频扩散模型,在视觉质量、左右一致性和运动多样性方面超越现有方法
- Motivation: 传统视角视频与全景视频在投影方式上存在根本差异,现有解决方案通常需要复杂架构或大规模训练,导致效率低下和结果不理想。受LoRA在风格迁移任务中成功的启发,将全景视频生成视为投影变换的适应问题
- Method: 通过理论分析证明当LoRA的秩超过任务自由度时,可以有效建模透视与全景投影之间的变换。使用LoRA技术高效微调预训练的视频扩散模型,仅需约1000个训练视频
- Result: 实验结果表明该方法保持了正确的投影几何,在视觉质量、左右一致性和运动多样性方面超越了之前的最先进方法
- Conclusion: LoRA技术能够有效解决全景视频生成的投影变换问题,通过少量数据高效微调即可实现高质量的全景视频生成,为这一挑战性问题提供了有效的解决方案
[33] SMILE: A Super-resolution Guided Multi-task Learning Method for Hyperspectral Unmixing
Ruiying Li,Bin Pan,Qiaoying Qu,Xia Xu,Zhenwei Shi
Main category: cs.CV
TL;DR: 提出SMILE方法,通过超分辨率指导的多任务学习提升高光谱解混性能,提供理论分析验证任务亲和性并保证收敛性
- Motivation: 高光谱解混性能受限于低空间分辨率,直接整合超分辨率和解混面临任务亲和性未验证和解混收敛性无保证两大挑战
- Method: 提出超分辨率指导的多任务学习框架SMILE,通过理论分析验证任务亲和性(关系和存在定理),学习共享和特定表示,并通过可达性定理保证解混收敛
- Result: 在合成和真实数据集上的实验验证了方法的有效性
- Conclusion: SMILE提供了渐进式理论支持,设计了超分辨率指导下的新解混框架,解决了多任务学习中的关键挑战
[34] A Copula-Guided Temporal Dependency Method for Multitemporal Hyperspectral Images Unmixing
Ruiying Li,Bin Pan,Qiaoying Qu,Xia Xu,Zhenwei Shi
Main category: cs.CV
TL;DR: 本文提出了一种基于copula理论的时序依赖方法Cog-TD,用于多时相高光谱解混,通过显式建模时序依赖结构来捕捉动态材料演化。
- Motivation: 现有多时相高光谱解混方法在建模时序依赖方面存在局限,无法有效捕捉动态材料演化过程。copula理论具有显式建模依赖结构的能力,因此被引入来解决这一问题。
- Method: 提出copula引导的时序依赖方法Cog-TD,包括:1)定义新的数学模型,将copula理论融入问题定义;2)构建copula引导框架,估计具有时序依赖的动态端元和丰度;3)开发两个关键模块(copula函数估计和时序依赖引导);4)提供理论支持证明方法的有效性。
- Result: 在合成和真实数据集上的实验结果表明,所提出方法具有实用价值,能够有效处理多时相高光谱解混问题。
- Conclusion: Cog-TD方法通过引入copula理论成功解决了多时相高光谱解混中的时序依赖建模问题,为动态材料演化分析提供了有效工具。
[35] 3DAeroRelief: The first 3D Benchmark UAV Dataset for Post-Disaster Assessment
Nhut Le,Ehsan Karimi,Maryam Rahnemoonfar
Main category: cs.CV
TL;DR: 提出了首个专门用于灾后评估的3D基准数据集3DAeroRelief,使用低成本无人机采集飓风受灾区域的密集3D点云数据,包含细粒度结构损伤标注,填补了现有3D数据集在灾害场景的空白。
- Motivation: 现有自然灾害分析主要依赖2D图像,缺乏深度信息且易受遮挡限制;现有3D基准数据集主要关注城市或室内场景,缺少针对灾害影响区域的专门数据集。
- Method: 使用低成本无人机采集数据,通过运动结构和多视角立体技术重建密集3D点云,通过手动2D标注并投影到3D空间生成语义标注。
- Result: 创建了3DAeroRelief数据集,包含大规模室外环境中的细粒度结构损伤3D数据,评估了多种先进3D分割模型在该数据集上的表现。
- Conclusion: 该数据集为推进灾后场景中稳健3D视觉系统的实际应用提供了宝贵资源,展示了无人机在危险区域进行经济、灵活和安全数据收集的优势。
[36] Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation
Nhi Kieu,Kien Nguyen,Arnold Wiliem,Clinton Fookes,Sridha Sridharan
Main category: cs.CV
TL;DR: 本文提出GEMMNet,一种生成增强的多模态学习网络,用于解决遥感语义分割中模态缺失问题,通过混合特征提取、多尺度融合和互补损失机制,在Vaihingen和Potsdam数据集上超越了现有生成和非生成方法。
- Motivation: 现实世界中多模态信号容易因传感器故障和恶劣天气条件而缺失,现有生成方法在处理多模态遥感数据的异质性方面存在局限,无法有效捕捉复杂场景中的语义上下文,且容易过度依赖主导模态。
- Method: 提出GEMMNet网络,包含三个核心组件:1)混合特征提取器(HyFEx)学习模态特定表示;2)多尺度感知的混合融合(HyFMA)捕捉跨尺度的模态协同语义上下文;3)互补损失(CoLoss)方案通过鼓励跨模态和任务的一致性来减轻固有偏差。
- Result: 在Vaihingen和Potsdam两个具有挑战性的遥感语义分割数据集上,GEMMNet超越了生成基线方法(AE、cGAN)和最先进的非生成方法(mmformer、shaspec)。
- Conclusion: GEMMNet有效解决了多模态遥感数据中的模态缺失问题,通过创新的生成增强架构和损失设计,显著提升了模型在缺失模态条件下的鲁棒性和性能表现。
[37] WildSmoke: Ready-to-Use Dynamic 3D Smoke Assets from a Single Video in the Wild
Yuqiu Liu,Jialin Song,Manolis Savva,Wuyang Chen
Main category: cs.CV
TL;DR: 提出从单段野外视频中提取和重建动态3D烟雾资产的流程,支持交互式烟雾设计和编辑
- Motivation: 现有流体重建方法严重依赖实验室环境,而真实世界野外视频中的烟雾重建研究不足,存在背景去除、粒子初始化和多视角视频推断三大挑战
- Method: 设计针对性技术包括背景去除的烟雾提取、烟雾粒子和相机姿态初始化、多视角视频推断,并集成交互式模拟进行烟雾编辑
- Result: 在野外视频上平均PSNR提升2.22,优于现有重建和生成方法,支持多样化和逼真的流体动力学编辑
- Conclusion: 该方法成功解决了野外烟雾重建的关键挑战,提供了高质量的烟雾重建和编辑能力,为真实世界流体动态处理开辟了新途径
[38] SVR-GS: Spatially Variant Regularization for Probabilistic Masks in 3D Gaussian Splatting
Ashkan Taghipour,Vahid Naghshin,Benjamin Southwell,Farid Boussaid,Hamid Laga,Mohammed Bennamoun
Main category: cs.CV
TL;DR: SVR-GS提出了一种空间变体正则化方法,通过逐像素空间掩码来优化3D高斯泼溅的稀疏性,显著减少了高斯数量同时保持图像质量。
- Motivation: 现有的基于掩码的剪枝方法(如MaskGS)使用全局均值正则化,这与决定图像质量的逐像素重建损失不匹配,需要一种更精确的稀疏化方法。
- Method: 提出SVR-GS空间变体正则化器,从每个高斯沿射线的有效贡献渲染逐像素空间掩码,在低重要性高斯上施加稀疏性压力,并探索了三种空间掩码聚合策略。
- Result: 在三个数据集上的实验表明,SVR-GS相比MaskGS减少1.79倍高斯数量,相比3DGS减少5.63倍,仅导致0.50 dB和0.40 dB的PSNR下降。
- Conclusion: SVR-GS实现了更小、更快、内存效率更高的模型,适用于机器人、AR/VR和移动感知等实时应用。
[39] No Mesh, No Problem: Estimating Coral Volume and Surface from Sparse Multi-View Images
Diego Eustachio Farchione,Ramzi Idoughi,Peter Wonka
Main category: cs.CV
TL;DR: 提出了一种从2D多视角RGB图像预测珊瑚状物体3D体积和表面积的轻量级学习框架,通过预训练模块提取点云并使用DGCNN解码器联合输出体积、表面积及置信度估计
- Motivation: 珊瑚监测需要准确量化珊瑚生长,但由于珊瑚复杂形态,体积和表面积估计具有挑战性。需要一种从稀疏图像集高效、可扩展的珊瑚几何估计方法
- Method: 使用预训练VGGT模块从多视角图像提取密集点图,合并为统一点云并添加置信度分数。采用并行DGCNN解码器头联合输出体积和表面积,引入基于高斯负对数似然的复合损失函数提供不确定性估计
- Result: 该方法实现了竞争性精度,对未见过的珊瑚形态具有良好的泛化能力
- Conclusion: 该框架为直接从稀疏图像集进行高效、可扩展的珊瑚几何估计铺平了道路,在珊瑚生长分析和礁石监测中具有潜在应用价值
[40] Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic
Waikit Xiu,Qiang Lu,Xiying Li,Chen Hu,Shengbo Sun
Main category: cs.CV
TL;DR: Traffic-MLLM是一个基于Qwen2.5-VL的多模态大语言模型,专门用于细粒度交通分析,通过LoRA微调和创新的知识提示模块,在交通视频理解方面实现了最先进的性能。
- Motivation: 现有方法在准确建模时空因果关系和整合领域特定知识方面存在显著挑战,限制了在复杂交通场景中的有效性。
- Method: 基于Qwen2.5-VL骨干网络,利用高质量交通专用多模态数据集,采用LoRA进行轻量级微调,并引入结合CoT推理和RAG的知识提示模块。
- Result: 在TrafficQA和DriveQA基准测试中达到最先进性能,展现出卓越的零样本推理和跨场景泛化能力。
- Conclusion: Traffic-MLLM通过创新的架构设计显著提升了多模态交通数据处理能力,为智能交通系统提供了有效的解决方案。
[41] Multispectral-NeRF:a multispectral modeling approach based on neural radiance fields
Hong Zhang,Fei Guo,Zihan Xie,Dizhao Yao
Main category: cs.CV
TL;DR: 提出Multispectral-NeRF,一种基于NeRF改进的神经网络架构,能够有效处理6波段多光谱信息进行3D重建,解决了传统方法成本高、精度低和现有NeRF模型无法处理多波段数据的问题。
- Motivation: 传统3D重建方法主要依赖RGB光谱信息,而新兴的多光谱传感器提供了更多波段数据。现有方法整合多光谱数据时存在成本高、精度低、几何特征差的问题,且NeRF及其改进模型只能处理三波段数据,无法利用多波段信息。
- Method: 基于NeRF架构进行三方面改进:1)扩展隐藏层维度以容纳6波段光谱输入;2)重新设计残差函数以优化重建图像与参考图像之间的光谱差异计算;3)调整数据压缩模块以适应多光谱图像增加的位深要求。
- Result: 实验结果表明,Multispectral-NeRF能够成功处理多波段光谱特征,同时准确保留原始场景的光谱特性,实现了高精度高质量的3D重建。
- Conclusion: Multispectral-NeRF有效解决了多光谱3D重建中的技术挑战,为利用多波段光谱信息进行高质量3D重建提供了可行的解决方案。
[42] SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion
Zhiwen Yang,Yuxin Peng
Main category: cs.CV
TL;DR: SPHERE是一种用于相机3D语义场景补全的新方法,结合体素和高斯表示来同时利用语义和物理信息,在保持语义准确性的同时生成具有真实几何细节的场景补全结果。
- Motivation: 现有体素和平面方法难以捕捉真实几何细节,而神经重建方法如NeRF和3DGS虽然物理感知能力强,但在大规模自动驾驶场景中计算成本高、收敛慢,语义准确性差。
- Method: 提出语义-物理融合表示(SPHERE),包含语义引导高斯初始化(SGI)模块和物理感知谐波增强(PHE)模块,通过双分支3D场景表示定位焦点体素作为锚点,并利用语义球谐函数建模物理感知上下文细节。
- Result: 在SemanticKITTI和SSCBench-KITTI-360基准测试上的广泛实验验证了SPHERE的有效性,能够生成具有真实细节的语义场景补全结果。
- Conclusion: SPHERE成功解决了现有方法在几何细节和语义准确性之间的权衡问题,为自动驾驶系统提供了更全面的场景感知能力。
[43] StegOT: Trade-offs in Steganography via Optimal Transport
Chengde Lin,Xuezhu Gong,Shuxue Ding,Mingzhe Yang,Xijun Lu,Chengjun Mo
Main category: cs.CV
TL;DR: 本文提出StegOT模型,基于最优传输理论解决图像隐写中的模式崩溃问题,通过多通道最优传输模块实现信息平衡,提升隐写图像和恢复图像的质量。
- Motivation: 现有基于GAN和VAE的隐写模型普遍存在模式崩溃问题,导致隐写图像中封面图像和秘密图像信息不平衡,影响后续提取效果。
- Method: 提出基于自编码器的StegOT模型,引入最优传输理论,设计多通道最优传输(MCOT)模块将多峰特征分布转换为单峰分布,实现信息权衡。
- Result: 实验表明该方法不仅实现了封面图像和秘密图像之间的信息平衡,还显著提升了隐写图像和恢复图像的质量。
- Conclusion: StegOT模型通过最优传输理论有效解决了图像隐写中的模式崩溃问题,为隐写技术提供了新的解决方案,代码将在GitHub开源。
[44] The Impact of Skin Tone Label Granularity on the Performance and Fairness of AI Based Dermatology Image Classification Models
Partha Shah,Durva Sankhe,Maariyah Rashid,Zakaa Khaled,Esther Puyol-Antón,Tiarna Lee,Maram Alqarni,Sweta Rai,Andrew P. King
Main category: cs.CV
TL;DR: 本研究探讨了Fitzpatrick皮肤色调(FST)量表在AI皮肤病变分类模型中的粒度影响,发现FST分组粒度对模型性能和偏差有显著影响,建议在公平AI研究中采用更好的皮肤色调表示量表。
- Motivation: AI皮肤病变分类模型易受肤色偏差影响,而常用的FST量表因对浅肤色有更细粒度分类而受到批评,需要研究FST粒度对AI模型性能和偏差的具体影响。
- Method: 训练多个AI模型使用不同粒度的FST特定数据进行良恶性病变分类,比较三组(FST 1/2、3/4和5/6)与更粗粒度分组的性能差异。
- Result: 使用三组FST特定数据训练的模型性能优于在FST平衡数据上训练的通用模型;减少FST信息粒度(如从1/2和3/4合并为1/2/3/4)会对性能产生不利影响。
- Conclusion: FST分组粒度对病变分类模型训练至关重要,鉴于FST量表可能存在人为偏见,应转向能更好代表人类肤色多样性的替代量表。
[45] Scaling Up Forest Vision with Synthetic Data
Yihang She,Andrew Blake,David Coomes,Srinivasan Keshav
Main category: cs.CV
TL;DR: 使用合成数据预训练,仅需少量真实森林数据微调,即可实现与全量真实数据训练相当的树木分割效果,大幅减少标注需求
- Motivation: 现有公开3D森林数据集规模不足,无法构建鲁棒的树木分割系统,受自动驾驶领域合成数据成功启发,探索合成数据在树木分割中的应用
- Method: 开发新的合成数据生成流水线,整合游戏引擎和物理LiDAR模拟,创建大规模多样化标注3D森林数据集,采用预训练+微调策略
- Result: 仅需不到0.1公顷的真实森林地块进行微调,预训练模型的分割效果即可与全量真实数据训练的模型相媲美
- Conclusion: 合成数据能显著减少对标注真实数据的需求,物理模拟、多样性和规模是成功使用合成数据的关键因素,为未来更鲁棒的3D森林视觉系统铺平道路
[46] Beyond Sliders: Mastering the Art of Diffusion-based Image Manipulation
Yufei Tang,Daiheng Gao,Pingyu Wu,Wenbo Zhou,Bang Zhang,Weiming Zhang
Main category: cs.CV
TL;DR: Beyond Sliders是一个创新的图像处理框架,通过结合GAN和扩散模型,改进了概念滑块方法,能够在真实世界图像上实现更精细的文本和视觉引导操作,显著提升图像质量和真实感。
- Motivation: 现有概念滑块方法在处理非AIGC图像(特别是真实世界拍摄的图像)时表现不佳,需要开发一个能够跨越不同图像类别进行复杂图像操作的框架。
- Method: 集成GAN和扩散模型,通过对抗性方式进行细粒度的文本和视觉引导来优化图像,改进概念滑块方法。
- Result: 大量实验验证表明,Beyond Sliders在各种应用中都具有鲁棒性和多功能性,图像质量和真实感得到显著提升。
- Conclusion: 该框架成功填补了现有方法在真实世界图像处理方面的不足,为跨类别图像操作提供了有效的解决方案。
[47] Geometrically Constrained and Token-Based Probabilistic Spatial Transformers
Johann Schmidt,Sebastian Stober
Main category: cs.CV
TL;DR: 本文提出了一种概率化的组件级空间变换网络,通过分解仿射变换为旋转、缩放和剪切组件,并使用高斯变分后验建模不确定性,提高了细粒度视觉分类对几何变化的鲁棒性。
- Motivation: 细粒度视觉分类对几何变化(如方向、尺度和透视畸变)高度敏感。虽然等变架构能解决此问题,但通常需要大量计算资源并限制假设空间。本文重新审视空间变换网络作为规范化工具,强调其灵活性、主干无关性和无架构约束的特点。
- Method: 提出概率化组件级扩展方法:1) 将仿射变换分解为旋转、缩放和剪切组件;2) 使用共享定位编码器在几何约束下回归每个组件;3) 用高斯变分后验建模每个组件的不确定性;4) 在推理时进行基于采样的规范化;5) 提出组件级对齐损失,利用增强参数指导空间对齐。
- Result: 在具有挑战性的蛾类分类基准测试中,该方法相比其他空间变换网络方法 consistently 提高了鲁棒性。
- Conclusion: 提出的概率化组件级空间变换网络为细粒度视觉分类提供了一种灵活且有效的几何规范化解决方案,能够显著提升模型对几何变化的鲁棒性,同时保持计算效率和架构通用性。
[48] CCoMAML: Efficient Cattle Identification Using Cooperative Model-Agnostic Meta-Learning
Rabin Dulal,Lihong Zheng,Ashad Kabir
Main category: cs.CV
TL;DR: 提出了一种基于元学习的少样本学习框架CCoMAML,结合多头注意力特征融合(MHAFF)进行牛只鼻纹识别,解决了传统RFID系统的缺陷和深度学习模型数据不足的问题
- Motivation: 传统RFID耳标系统易丢失、损坏和被攻击,而基于牛只鼻纹的生物识别虽具有独特性,但深度学习模型面临数据有限、采集干扰和畜群动态变化等挑战
- Method: 使用协作式模型无关元学习(CCoMAML)框架,结合多头注意力特征融合(MHAFF)作为特征提取器,实现从少量样本中高效学习而无需重新训练
- Result: 在牛只识别任务中达到98.46%和97.91%的F1分数,优于当前最先进的少样本学习技术
- Conclusion: 提出的CCoMAML with MHAFF框架在牛只识别方面表现出卓越性能,具有强大的模型适应能力,能够有效解决实际养殖环境中的数据限制问题
[49] ANROT-HELANet: Adverserially and Naturally Robust Attention-Based Aggregation Network via The Hellinger Distance for Few-Shot Classification
Gao Yu Lee,Tanmoy Dam,Md Meftahul Ferdaus,Daniel Puiu Poenar,Vu N. Duong
Main category: cs.CV
TL;DR: ANROT-HELANet是一种基于Hellinger距离的对抗性和自然鲁棒性小样本学习网络,在miniImageNet数据集上1-shot和5-shot场景分别提升1.20%和1.40%,并能抵抗ε=0.30的对抗扰动和σ=0.30的高斯噪声。
- Motivation: 现有的基于KL散度的贝叶斯估计方法虽然在小样本学习中表现优于普通CNN方法,但仍然容易受到对抗攻击和自然噪声的影响,需要开发更鲁棒的解决方案。
- Method: 提出ANROT-HELANet网络,采用基于Hellinger距离的特征类别聚合方案,引入新颖的Hellinger相似性对比损失函数,结合注意力机制,实现对抗性和自然鲁棒性。
- Result: 在四个小样本基准数据集上验证,网络能抵抗ε=0.30对抗扰动和σ=0.30高斯噪声,在miniImageNet上1-shot和5-shot分别提升1.20%和1.40%,图像重建FID得分2.75优于传统VAE(3.43)和WAE(3.38)。
- Conclusion: ANROT-HELANet通过Hellinger距离特征聚合、注意力机制和新颖损失函数的组合,在保持对抗性和自然鲁棒性的同时,建立了新的最先进性能。
[50] MIS-LSTM: Multichannel Image-Sequence LSTM for Sleep Quality and Stress Prediction
Seongwan Park,Jieun Woo,Siheon Yang
Main category: cs.CV
TL;DR: MIS-LSTM是一个混合框架,结合CNN编码器和LSTM序列模型,从多模态生活日志数据预测睡眠质量和压力。通过多通道图像表示连续传感器数据,专用1D-CNN编码离散事件,使用注意力模块融合模态,LSTM捕获长期时间依赖,UALRE不确定性感知集成提升鲁棒性。
- Motivation: 为了解决从多模态生活日志数据中进行睡眠质量和压力预测的挑战,需要有效处理连续传感器流和稀疏离散事件,并捕捉长期时间依赖性。
- Method: 将连续传感器流分割为N小时块并渲染为多通道图像,稀疏离散事件用专用1D-CNN编码。使用卷积块注意力模块融合两种模态,LSTM聚合块嵌入捕获长期时间依赖。引入UALRE不确定性感知集成增强鲁棒性。
- Result: 在2025 ETRI生活日志挑战数据集上,基础MIS-LSTM达到Macro-F1 0.615;使用UALRE集成后提升至0.647,优于强LSTM、1D-CNN和CNN基线。消融实验确认多通道优于堆叠垂直成像、4小时块粒度最佳、模态特定离散编码有效。
- Conclusion: MIS-LSTM框架通过多模态融合和长期时间建模,在睡眠质量和压力预测任务上表现出色,UALRE集成进一步提升了性能,为生活日志数据分析提供了有效解决方案。
[51] Contextualized Multimodal Lifelong Person Re-Identification in Hybrid Clothing States
Robert Long,Rongxin Jiang,Mingrui Yan
Main category: cs.CV
TL;DR: 本文提出了CMLReID框架,解决人员重识别中的衣物变化和持续学习问题,通过上下文感知语义提示和自适应知识融合,在多个数据集上达到最先进性能。
- Motivation: 现实监控系统中人员重识别面临衣物变化和持续学习的双重挑战,现有方法要么只处理同衣物场景,要么将衣物变化视为独立问题,缺乏统一解决方案。
- Method: 提出基于CLIP的CMLReID框架,包含两个核心组件:上下文感知语义提示(CASP)用于对齐多粒度视觉线索与语义文本空间,自适应知识融合和投影(AKFP)通过双路径学习器生成鲁棒的原型。
- Result: 在广泛数据集上的实验表明,CMLReID在衣物变化和顺序学习过程中表现出强大的鲁棒性和泛化能力,优于所有最先进方法。
- Conclusion: CMLReID成功解决了衣物变化和持续学习的联合挑战,为实际监控系统中的人员重识别提供了有效的统一解决方案。
[52] Cross-Domain Attribute Alignment with CLIP: A Rehearsal-Free Approach for Class-Incremental Unsupervised Domain Adaptation
Kerun Mi,Guoliang Kang,Guangyu Li,Lin Zhao,Tao Zhou,Chen Gong
Main category: cs.CV
TL;DR: 本文提出了一种基于CLIP的无排练类增量无监督域自适应方法,通过挖掘和保持领域不变、类别无关的属性知识来缓解灾难性遗忘和域偏移问题。
- Motivation: 解决传统CI-UDA方法需要存储排练样本导致内存持续增长,以及非对称对齐导致知识遗忘的问题,旨在实现无排练的持续域自适应。
- Method: 使用CLIP提取类别无关的属性特征,构建键值对表示(视觉原型和文本提示),维护两个域的属性字典,通过视觉注意力一致性和预测一致性进行跨域属性对齐。
- Result: 在三个CI-UDA基准测试中优于现有最先进方法,有效缓解了灾难性遗忘问题。
- Conclusion: 通过属性建模和跨域对齐,该方法能够在无排练的情况下有效减少知识遗忘同时缓解域偏移,为CI-UDA任务提供了新的解决方案。
[53] Synthetic Dataset Evaluation Based on Generalized Cross Validation
Zhihang Song,Dingyi Yao,Ruibo Ming,Lihui Peng,Danya Yao,Yi Zhang
Main category: cs.CV
TL;DR: 本文提出了一个新颖的合成数据集评估框架,通过广义交叉验证实验和领域迁移学习原理,提供可推广和可比较的合成数据质量评估方法。
- Motivation: 随着合成数据集生成技术的快速发展,评估合成数据质量已成为关键研究重点。当前评估研究有限,缺乏普遍接受的标准框架。
- Method: 提出集成广义交叉验证实验和领域迁移学习原理的评估框架,训练任务特定模型形成交叉性能矩阵,构建GCV矩阵量化领域可迁移性,引入模拟质量和迁移质量两个关键指标。
- Result: 在Virtual KITTI上的实验验证证明了所提框架和指标在评估合成数据保真度方面的有效性。
- Conclusion: 这个可扩展和可量化的评估解决方案克服了传统限制,为人工智能研究中合成数据集优化提供了原则性指导方法。
[54] ROSGS: Relightable Outdoor Scenes With Gaussian Splatting
Lianjun Liao,Chunhui Zhang,Tong Wu,Henglei Lv,Bailin Deng,Lin Gao
Main category: cs.CV
TL;DR: ROSGS是一个两阶段管道,使用高斯溅射表示高效重建可重光照的室外场景,通过混合光照模型实现高精度重光照和渲染效率
- Motivation: 室外图像数据通常包含无界场景和变化的照明条件,现有方法存在计算开销大和低频光照表示导致渲染效率低、重光照精度差的问题
- Method: 两阶段方法:第一阶段利用单目法线先验,使用紧凑的2D高斯溅射表示重建场景几何;第二阶段通过混合光照模型分解纹理和光照,使用球面高斯函数捕捉高频阳光分量,球谐系数学习辐射传输函数建模低频天光
- Result: 定量指标和定性比较表明,ROSGS在室外场景重光照方面达到最先进性能,具有优越的重光照精度和渲染效率
- Conclusion: ROSGS通过创新的两阶段管道和混合光照模型,成功解决了室外场景重光照的挑战,在精度和效率方面都表现出色
[55] Mitigating Hallucinations in Large Vision-Language Models by Self-Injecting Hallucinations
Yifan Lu,Ziqi Zhang,Chunfeng Yuan,Jun Gao,Congxuan Zhang,Xiaojuan Qi,Bing Li,Weiming Hu
Main category: cs.CV
TL;DR: APASI是一种无需外部依赖的自洽偏好对齐方法,通过自我注入幻觉来缓解大型视觉语言模型的幻觉问题,在多个基准测试中表现优异。
- Motivation: 现有幻觉缓解方法主要基于偏好对齐,需要外部人工标注或辅助模型收集偏好数据,成本高且限制持续改进能力。
- Method: APASI利用目标LVLM自我注入幻觉到生成响应中,创建具有不同偏好水平的响应对,并通过迭代对齐训练策略结合课程学习来持续增强模型。
- Result: 在六个基准测试上的广泛实验表明,APASI不仅有效缓解了三个基线模型的幻觉问题,而且取得了与依赖外部资源的方法相当甚至更优的性能。
- Conclusion: APASI是一种有效且通用的方法,能够在没有外部依赖的情况下持续缓解LVLM的幻觉问题,展示了其有效性和泛化能力。
[56] Leveraging Geometric Priors for Unaligned Scene Change Detection
Ziling Liu,Ziwei Chen,Mingqi Gao,Jinyu Yang,Feng Zheng
Main category: cs.CV
TL;DR: 本文提出了一种利用几何基础模型先验的无训练框架,用于解决未对齐场景变化检测中的视角变化、遮挡和视觉重叠识别等核心挑战。
- Motivation: 当前未对齐场景变化检测方法仅依赖2D视觉线索建立跨图像对应关系,但在大视角变化时容易出现匹配漂移或失败,且缺乏显式几何推理能力。
- Method: 提出一种无训练框架,将几何基础模型的几何先验与视觉基础模型的强大表示相结合,实现可靠的视觉重叠识别、鲁棒对应关系建立和显式遮挡检测。
- Result: 在PSCD、ChangeSim和PASLCD数据集上的广泛评估表明,该方法实现了优越且鲁棒的性能。
- Conclusion: 通过引入几何先验,该方法有效解决了未对齐场景变化检测中的几何挑战,为处理视角不对齐情况下的可靠变化检测提供了新思路。
[57] UnLoc: Leveraging Depth Uncertainties for Floorplan Localization
Matthias Wüest,Francis Engelmann,Ondrej Miksik,Marc Pollefeys,Daniel Barath
Main category: cs.CV
TL;DR: UnLoc是一种基于概率模型的相机定位方法,利用预训练单目深度模型和平面图数据,实现高效的不确定性感知定位,在长序列和短序列上分别比现有方法提升2.7倍和16.7倍的定位召回率。
- Motivation: 解决现有方法缺乏深度预测不确定性建模、需要为每个环境训练定制深度网络的问题,利用易于获取且长期稳定的平面图数据进行相机定位。
- Method: 提出概率模型将深度预测建模为显式概率分布,利用现成的预训练单目深度模型,避免依赖环境特定的深度网络训练。
- Result: 在大规模合成和真实数据集上验证,在LaMAR HGE数据集上,长序列(100帧)定位召回率提升2.7倍,短序列(15帧)提升16.7倍。
- Conclusion: UnLoc通过不确定性建模和预训练模型的使用,显著提高了相机定位的准确性和鲁棒性,具有良好的泛化能力。
[58] Motion Estimation for Multi-Object Tracking using KalmanNet with Semantic-Independent Encoding
Jian Song,Wei Mei,Yunfeng Xu,Qiang Fu,Renke Kou,Lina Bu,Yucheng Long
Main category: cs.CV
TL;DR: 提出了SIKNet方法,通过语义独立编码器改进卡尔曼滤波,在多目标跟踪的运动估计中优于传统方法和现有学习辅助滤波器
- Motivation: 传统基于线性恒定速度模型的卡尔曼滤波在参数不匹配和物体非平稳运动时效果不佳,需要学习辅助滤波器来提升运动估计性能
- Method: 使用语义独立编码器(SIE)分两步编码状态向量:1D卷积处理同质语义信息,全连接层和非线性激活处理异质语义间的非线性依赖关系
- Result: 在构建的大规模半模拟数据集上实验表明,SIKNet优于传统卡尔曼滤波和现有学习辅助滤波器,具有更好的鲁棒性和准确性
- Conclusion: SIKNet通过有效的语义编码机制显著提升了多目标跟踪中的运动估计性能,为学习辅助滤波器提供了新思路
[59] Toward Next-generation Medical Vision Backbones: Modeling Finer-grained Long-range Visual Dependency
Mingyuan Meng
Main category: cs.CV
TL;DR: 该博士研究探索了在医学图像计算中建模长距离视觉依赖性的有效方法,比较了Transformer和MLP在处理高分辨率医学图像细节方面的优劣,发现MLP在捕捉细粒度长距离依赖方面优于Transformer和CNN。
- Motivation: 医学图像分析需要同时捕捉全局长距离上下文和局部细微视觉特征,但现有方法如CNN受限于局部性,Transformer因计算负载高而难以处理高分辨率特征,MLP作为高效替代方案在医学图像领域尚未得到充分研究。
- Method: 研究首先创新性地将Transformer应用于像素级和图像级医学视觉任务,然后重点转向MLP,开创性地开发基于MLP的视觉模型来捕捉医学图像中的细粒度长距离视觉依赖性。
- Result: 大量实验证实了长距离依赖性建模在医学图像计算中的关键作用,并发现MLP能够在包含丰富解剖/病理细节的高分辨率医学特征中建模更细粒度的长距离依赖性。
- Conclusion: MLP在建模细粒度长距离依赖方面优于Transformer和CNN,能够持续提升各种医学视觉任务的性能,为下一代医学视觉骨干网络奠定了基础。
[60] Dual Band Video Thermography Near Ambient Conditions
Sriram Narayanan,Mani Ramanagopal,Srinivasa G. Narasimhan
Main category: cs.CV
TL;DR: 提出了首个使用双光谱热成像相机分离表面反射和环境发射光成分的方法,在近环境温度条件下准确估计材料发射率和时变温度
- Motivation: 在近环境温度条件下,热成像中的反射光和发射光成分通常具有可比强度且随时间变化,传统方法假设单一成分主导或恒定不再适用,需要新的分离方法
- Method: 使用两个不同光谱灵敏度的热成像相机,推导双波段热成像形成模型,开发算法估计表面发射率和时变温度,同时分离动态背景
- Result: 通过精确校准的多种材料发射率进行定量评估,并在复杂日常场景(如装有热液体的玻璃杯和移动人物)上展示定性结果
- Conclusion: 该方法首次实现了在近环境条件下对热成像中反射和发射光成分的有效分离,为计算机视觉应用提供了重要的热物理属性分析能力
[61] Beyond Instance Consistency: Investigating View Diversity in Self-supervised Learning
Huaiyuan Qin,Muli Yang,Siyuan Hu,Peng Hu,Yu Zhang,Chen Gong,Hongyuan Zhu
Main category: cs.CV
TL;DR: 本研究探讨了自监督学习在实例一致性不保证的情况下的有效性,发现即使正对缺乏严格实例一致性,SSL仍能学习有意义的表示,适度的视图多样性可以提升性能,但过度多样性会降低效果。
- Motivation: 传统自监督学习依赖实例一致性假设,但在非标志性数据中该假设可能不成立,因为不同视图可能包含不同对象或语义信息。本文旨在研究当实例一致性无法保证时SSL的有效性。
- Method: 通过大量消融实验分析SSL在实例一致性不保证时的表现,采用Earth Mover's Distance (EMD)作为估计器来测量视图间的互信息,验证不同视图多样性设置下的效果。
- Result: 研究表明SSL即使在没有严格实例一致性的情况下仍能学习有意义的表示;适度的视图多样性(零重叠或较小裁剪尺度)能提升分类和密集预测任务的性能;过度多样性会降低效果;中等EMD值与改进的SSL学习相关。
- Conclusion: 自监督学习对实例一致性的依赖并非绝对必要,适度的视图多样性有助于提升性能,EMD可作为衡量视图间互信息的有效指标,为未来SSL框架设计提供了重要见解。
[62] Promoting Shape Bias in CNNs: Frequency-Based and Contrastive Regularization for Corruption Robustness
Robin Narsingh Ranabhat,Longwei Wang,Amit Kumar Patel,KC santosh
Main category: cs.CV
TL;DR: 该论文提出了两种正则化策略来提高CNN对图像损坏的鲁棒性:通过辅助损失强制原始图像与低频滤波图像的特征一致性,以及使用监督对比学习构建基于形状的特征表示。
- Motivation: CNN在图像分类中表现出色,但对常见损坏的鲁棒性较差,主要原因是过度依赖局部纹理线索而非全局形状信息,这与人类感知方式形成鲜明对比。
- Method: 1)引入辅助损失,强制原始输入与低频滤波输入之间的特征一致性,减少对高频纹理的依赖;2)采用监督对比学习,围绕类别一致、形状相关的表示来结构化特征空间。
- Result: 在CIFAR-10-C基准测试中,两种方法都提高了对损坏的鲁棒性,同时保持了干净的准确率。
- Conclusion: 损失级别的正则化可以有效地引导CNN学习更具形状感知能力和鲁棒性的表示。
[63] GLaVE-Cap: Global-Local Aligned Video Captioning with Vision Expert Integration
Wan Xu,Feng Zhu,Yihan Zeng,Yuanfan Guo,Ming Liu,Hang Xu,Wangmeng Zuo
Main category: cs.CV
TL;DR: GLaVE-Cap是一个全局-局部对齐的视频详细字幕生成框架,通过TrackFusion模块生成全面的局部字幕,CaptionBridge模块建立局部-全局交互,解决了现有方法细节不足和上下文不一致的问题。
- Motivation: 现有的局部到全局视频字幕生成范式导致字幕细节不足且上下文不一致,主要原因是缺乏细粒度字幕保证机制和局部与全局字幕之间的弱交互。
- Method: 提出GLaVE-Cap框架,包含两个核心模块:TrackFusion利用视觉专家获取跨帧视觉提示,通过双流结构生成全面局部字幕;CaptionBridge使用全局上下文指导局部字幕生成,并自适应地将局部字幕汇总为连贯的全局字幕。
- Result: 在四个基准测试上的广泛实验表明,GLaVE-Cap实现了最先进的性能。消融研究和学生模型分析进一步验证了所提出模块的有效性以及GLaVE-1.2M数据集对视频理解社区的贡献。
- Conclusion: GLaVE-Cap通过全局-局部对齐和视觉专家集成,有效解决了视频详细字幕生成中的细节不足和上下文不一致问题,为视频理解社区提供了新的解决方案和数据集资源。
[64] In-Vivo Skin 3-D Surface Reconstruction and Wrinkle Depth Estimation using Handheld High Resolution Tactile Sensing
Akhil Padmanabha,Arpit Agarwal,Catherine Li,Austin Williams,Dinesh K. Patel,Sankalp Chopkar,Achu Wilson,Ahmet Ozkan,Wenzhen Yuan,Sonal Choudhary,Arash Mostaghimi,Zackory Erickson,Carmel Majidi
Main category: cs.CV
TL;DR: 开发了一种基于GelSight触觉成像的便携式3D皮肤重建探头,通过定制弹性凝胶和学习算法实现微米级皱纹高度估计,在临床研究中验证了其有效性。
- Motivation: 目前缺乏经过验证的便携式高分辨率3D皮肤表面重建设备,无法在各种身体部位进行深度重建和定量皮肤学评估。
- Method: 基于GelSight触觉成像技术,使用定制弹性凝胶和学习重建算法,集成力传感的手持探头确保一致接触。
- Result: 在皱纹样测试对象上达到12.55微米的平均绝对误差;在15名健康参与者中首次验证了多身体区域的皱纹深度指标;证明使用非处方保湿霜后三个部位的皱纹高度显著减少。
- Conclusion: 提供了一个经过验证的临床和化妆品皮肤分析工具,在诊断、治疗监测和护肤效果评估方面具有潜在应用价值。
[65] MixANT: Observation-dependent Memory Propagation for Stochastic Dense Action Anticipation
Syed Talal Wasim,Hamid Suleman,Olga Zatsarynna,Muzammal Naseer,Juergen Gall
Main category: cs.CV
TL;DR: MixANT是一种新颖的随机长期密集人类活动预测架构,通过混合专家方法动态选择上下文相关的遗忘门参数,解决了现有状态空间模型中遗忘门静态不变的限制,在多个数据集上均优于最先进方法。
- Motivation: 现有的状态空间模型(如Mamba)虽然通过输入依赖的选择性在三个关键参数上表现出潜力,但控制时间记忆的关键遗忘门(A矩阵)仍然是静态的,这限制了模型的表现能力。
- Method: 引入混合专家方法,基于输入特征动态选择上下文相关的A矩阵,在不牺牲计算效率的情况下增强表示能力。
- Result: 在50Salads、Breakfast和Assembly101数据集上的广泛实验表明,MixANT在所有评估设置中始终优于最先进的方法。
- Conclusion: 研究结果强调了输入依赖的遗忘门机制对于在多样化现实场景中可靠预测人类行为的重要性。
[66] No Modality Left Behind: Dynamic Model Generation for Incomplete Medical Data
Christoph Fürböck,Paul Weiser,Branko Mitic,Philipp Seeböck,Thomas Helbich,Georg Langs
Main category: cs.CV
TL;DR: 提出基于超网络的动态模型生成方法,解决多模态医学影像数据中部分缺失的问题,无需丢弃样本或插补处理,在25%数据完整度下准确率提升8%
- Motivation: 真实临床环境中多模态医学影像数据往往存在部分缺失,传统方法要么丢弃缺失样本、需要插补处理,要么重新设计dropout学习方案,限制了模型的鲁棒性和泛化能力
- Method: 使用超网络方法动态生成针对可用模态集合的任务特定分类模型。超网络学习预测适应可用模态的任务模型参数,而不是训练固定模型,从而能够在所有样本上训练和推理,无论数据完整性如何
- Result: 在人工构造的不完整数据集上系统分析了对缺失模态的鲁棒性。结果显示该方法具有优越的适应性,在25%完整度(75%训练数据有缺失模态)的数据集上训练时,准确率绝对提升高达8%,优于现有最佳方法
- Conclusion: 通过使单一模型能够泛化到所有模态配置,该方法为真实世界多模态医学数据分析提供了高效解决方案
[67] On the Skinning of Gaussian Avatars
Nikolaos Zioulis,Nikolaos Kotarelas,Georgios Albanis,Spyridon Thermos,Anargyros Chatzitofis
Main category: cs.CV
TL;DR: 提出了一种基于四元数平均的加权旋转混合方法,用于解决高斯溅射中人脸头像动画中的非线性旋转问题,替代了现有的网格属性旋转或训练校正偏移的方法。
- Motivation: 虽然高斯溅射方法在训练和渲染速度上优于神经辐射场,但线性混合蒙皮对高斯非线性的旋转属性处理不当,导致伪影问题。现有方法需要复杂处理,需要更简单有效的解决方案。
- Method: 采用加权旋转混合方法,利用四元数平均来处理高斯的非线性旋转属性。该方法只需修改线性混合蒙皮技术,无需额外训练或复杂计算,可与任何高斯光栅化器集成。
- Result: 该方法实现了更简单的高斯顶点表示,能够高效地进行动画处理,并且易于在任何引擎中集成,解决了非线性旋转导致的伪影问题。
- Conclusion: 提出的四元数平均加权旋转混合方法为高斯溅射中的人脸头像动画提供了一种简单有效的解决方案,克服了现有方法的复杂性,具有良好的实用性和兼容性。
[68] Disentanglement of Biological and Technical Factors via Latent Space Rotation in Clinical Imaging Improves Disease Pattern Discovery
Jeanny Pan,Philipp Seeböck,Christoph Fürböck,Svitlana Pochepnia,Jennifer Straub,Lucian Beer,Helmut Prosch,Georg Langs
Main category: cs.CV
TL;DR: 提出了一种通过潜在空间旋转主动学习域偏移的方法,用于解耦医学影像中的生物学和技术因素,提高跨域聚类一致性并增强生存预测性能。
- Motivation: 医学影像数据中存在由不同厂商、扫描参数等引起的域偏移问题,这阻碍了数据表示学习和生物学有意义聚类模式的发现,需要解耦生物学和技术因素。
- Method: 通过后验旋转数据潜在空间来主动学习域偏移,实现生物学和技术因素的有效解耦,学习解耦表示以获得跨不同采集设置的稳定组织类型聚类。
- Result: 在真实临床数据上,解耦表示相比纠缠表示将聚类一致性提高了+19.01%(ARI)、+16.85%(NMI)和+12.39%(Dice),优于四种最先进的协调方法,并在特发性肺纤维化患者的生存预测中表现出更好的性能。
- Conclusion: 该无标签框架有助于在多中心常规影像数据中发现生物标志物,为诊断和预后评估提供支持。
[69] MultiMAE for Brain MRIs: Robustness to Missing Inputs Using Multi-Modal Masked Autoencoder
Ayhan Can Erdur,Christian Beischl,Daniel Scholz,Jiazhen Pan,Benedikt Wiestler,Daniel Rueckert,Jan C Peeken
Main category: cs.CV
TL;DR: 提出一种基于掩码自编码器的多模态多任务学习框架,用于处理3D脑部MRI中缺失序列的问题,通过跨序列推理实现缺失序列的推断,在下游任务中显著优于基线方法。
- Motivation: 医学影像数据中经常存在输入序列缺失的问题,这给依赖完整输入数据的深度学习模型带来了挑战。需要开发能够处理缺失输入并保持性能的方法。
- Method: 采用掩码自编码器(MAE)范式,将每个MRI序列视为独立输入模态,使用后期融合风格的Transformer编码器整合多序列信息,并为每个模态设计单独的解码器流进行多任务重建。
- Result: 在下游分割和分类任务中,相比MAE-ViT基线方法,在缺失输入序列的情况下,整体Dice分数绝对提升10.1,MCC提升0.46,表现出优异的性能和鲁棒性。
- Conclusion: 该方法提供了一个灵活且通用的脑部MRI编码器,能够从可用输入推断缺失序列,并可适应各种下游应用,证明了这种预训练策略的有效性。
[70] Beyond Frame-wise Tracking: A Trajectory-based Paradigm for Efficient Point Cloud Tracking
BaiChen Fan,Sifan Zhou,Jian Li,Shibo Zhao,Muqing Cao,Qin Wang
Main category: cs.CV
TL;DR: TrajTrack是一种基于轨迹的3D单目标跟踪新范式,通过隐式学习历史边界框轨迹来增强基础双帧跟踪器,在保持高效率的同时显著提升跟踪精度
- Motivation: 解决现有双帧方法缺乏长期时间上下文导致稀疏或遮挡场景性能不佳,以及序列方法计算成本高的问题
- Method: 提出轨迹跟踪范式,首先生成快速显式运动提议,然后使用隐式运动建模模块预测未来轨迹来修正初始提议,仅需历史边界框轨迹而不需要额外点云输入
- Result: 在NuScenes基准测试中达到新的最先进性能,跟踪精度比强基线提高4.48%,运行速度达56 FPS,并展示出良好的跨基础跟踪器泛化能力
- Conclusion: TrajTrack提供了一种轻量级但高效的解决方案,成功平衡了跟踪精度和计算效率,为3D单目标跟踪开辟了新的研究方向
[71] Modality-Aware Infrared and Visible Image Fusion with Target-Aware Supervision
Tianyao Sun,Dawei Xiang,Tianqi Ding,Xiang Fang,Yijiashun Qi,Zunduo Zhao
Main category: cs.CV
TL;DR: FusionNet是一个新颖的端到端红外与可见光图像融合框架,通过模态感知注意力机制和像素级alpha混合模块实现精细可解释的融合,并利用目标感知损失保持语义一致性。
- Motivation: 红外和可见光图像融合是多模态感知的基础任务,需要整合不同光谱域的互补结构和纹理信息。现有方法在模态间交互建模和任务关键区域增强方面存在不足。
- Method: 提出FusionNet框架:1)模态感知注意力机制动态调整红外和可见光特征的贡献;2)像素级alpha混合模块学习空间变化的融合权重;3)目标感知损失利用弱ROI监督保持重要区域的语义一致性。
- Result: 在M3FD数据集上的实验表明,FusionNet生成的融合图像具有增强的语义保持能力、高感知质量和清晰的解释性。
- Conclusion: FusionNet为语义感知的多模态图像融合提供了一个通用且可扩展的解决方案,对目标检测和场景理解等下游任务有益。
[72] Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis
Wenhao Tang,Sheng Huang,Heng Fang,Fengtao Zhou,Bo Liu,Qingshan Liu
Main category: cs.CV
TL;DR: 提出MHIM-MIL框架,通过掩码硬实例挖掘解决全幻灯片图像分析中现有方法偏向易分类实例的问题,在多个癌症诊断任务上表现优异
- Motivation: 现有多示例学习方法通过注意力机制识别显著实例,但存在偏向易分类实例而忽略困难实例的问题,而困难实例对于准确建模判别边界至关重要
- Method: 使用Siamese结构和一致性约束,通过动量教师模型掩码显著实例并隐式挖掘硬实例来训练学生模型,采用大规模随机掩码和全局循环网络确保特征多样性
- Result: 在癌症诊断、亚型分类、生存分析等12个基准测试中,MHIM-MIL在性能和效率方面均优于最新方法
- Conclusion: MHIM-MIL框架通过有效挖掘硬实例,显著提升了全幻灯片图像分析的性能,为计算病理学提供了新的解决方案
[73] SFGNet: Semantic and Frequency Guided Network for Camouflaged Object Detection
Dezhen Wang,Haixiang Zhao,Xiang Shen,Sheng Miao
Main category: cs.CV
TL;DR: SFGNet是一个新颖的语义和频率引导网络,通过结合语义提示和频域特征来检测伪装目标并改善边界感知,在三个COD基准数据集上显著优于现有方法。
- Motivation: 现有的大多数伪装目标检测研究忽视了不同目标的文本提示之间的语义差异以及细粒度的频率特征,导致在复杂背景和模糊边界情况下性能受限。
- Method: 提出了SFGNet网络,包含多频带傅里叶模块(MBFM)来处理复杂背景和模糊边界,以及交互式结构增强块(ISEB)来确保预测的结构完整性和边界细节。
- Result: 在三个COD基准数据集上的广泛实验表明,该方法显著优于最先进的方法。
- Conclusion: SFGNet通过有效整合语义提示和频域特征,成功提升了伪装目标检测的性能,特别是在处理复杂场景和边界细节方面表现出色。
[74] How Auxiliary Reasoning Unleashes GUI Grounding in VLMs
Weiming Li,Yan Shao,Jing Yang,Yujing Lu,Ling Zhong,Yuhan Wang,Manni Duan
Main category: cs.CV
TL;DR: 本文提出三种零样本辅助推理方法,通过提供空间线索(坐标轴、网格和标记交点)来增强视觉语言模型在GUI定位任务中的表现,无需微调即可显著提升性能。
- Motivation: 通用视觉语言模型在GUI定位任务中表现不佳,虽然具有潜在的定位能力(通过Pointing Game验证),但在输出显式坐标时表现较差。现有微调方法数据标注成本高,需要零样本解决方案。
- Method: 提出三种零采样辅助推理方法:1)添加坐标轴作为空间参考;2)引入网格系统;3)使用标记的交点。这些方法通过修改输入图像提供明确的空间线索,帮助模型表达其隐含的空间理解能力。
- Result: 在四个GUI定位基准测试和七个开源及专有VLMs上的评估表明,所提方法显著提升了GUI定位性能,验证了方法的有效性。
- Conclusion: 通过提供明确的空间线索,可以有效地激发VLMs的潜在空间理解能力,在无需微调的情况下显著改善GUI定位任务的表现,为构建GUI智能体提供了实用的解决方案。
[75] Gaussian-Plus-SDF SLAM: High-fidelity 3D Reconstruction at 150+ fps
Zhexi Peng,Kun Zhou,Tianjia Shao
Main category: cs.CV
TL;DR: 提出了一种高斯-SDF混合表示方法,结合SDF的平滑几何和外观与高斯分布捕捉细节,实现了实时SLAM系统GPS-SLAM,速度达150fps,比现有技术快一个数量级。
- Motivation: 现有基于高斯的SLAM方法计算性能不足(<20fps),远落后于几何中心方法(数百fps),主要原因是高斯建模计算负担重,需要大量高斯和复杂优化迭代。
- Method: 采用高斯-SDF混合表示:使用彩色SDF处理平滑几何和外观,3D高斯捕捉细节;SDF通过RGB-D融合高效构建,高斯进行迭代优化;减少50%高斯数量和75%优化迭代。
- Result: 开发了GPS-SLAM系统,在真实Azure Kinect序列上实现超过150fps的实时3D重建,速度比最先进技术快一个数量级,同时保持相当的重建质量。
- Conclusion: 高斯-SDF混合表示有效解决了计算瓶颈问题,实现了实时高性能SLAM,将在未来研究中发布源代码和数据。
[76] Hierarchical Identity Learning for Unsupervised Visible-Infrared Person Re-Identification
Haonan Shi,Yubin Wang,De Cheng,Lingfeng He,Nannan Wang,Xinbo Gao
Main category: cs.CV
TL;DR: 提出分层身份学习框架HIL,通过二次聚类生成多记忆中心,使用多中心对比学习和双向反向选择传输机制,在无监督可见光-红外行人重识别任务中取得优异性能
- Motivation: 现有无监督跨模态行人重识别方法主要基于聚类对比学习,但通常只关注簇内共性而忽略细粒度差异,每个簇可能包含多个反映图像细微变化的子簇
- Method: HIL框架:1)通过二次聚类为每个粗粒度簇生成多个记忆中心;2)多中心对比学习MCCL增强表征学习;3)双向反向选择传输BRST机制建立可靠的跨模态对应关系
- Result: 在SYSU-MM01和RegDB数据集上的大量实验表明,该方法优于现有方法
- Conclusion: 提出的分层身份学习框架有效解决了无监督可见光-红外行人重识别中细粒度差异忽略的问题,通过多中心表征和双向匹配机制显著提升了性能
[77] Optimizing Class Distributions for Bias-Aware Multi-Class Learning
Mirco Felske,Stefan Stiene
Main category: cs.CV
TL;DR: BiCDO是一个数据中心的迭代框架,通过优化多类图像分类中的类别分布来提升模型性能,特别支持对关键类别进行优先级排序。
- Motivation: 在安全关键场景中,某些类别(如'人类')需要比其它类别(如'狗')更高的识别准确率。传统均匀分布无法满足这种需求,需要一种能够控制偏差并优化类别分布的方法。
- Method: 提出迭代式Bias-Controlled Class Distribution Optimizer框架,确定每个类别的最优图像数量,最小化目标函数的偏差和方差,可与现有训练流程无缝集成。
- Result: 在CIFAR-10和iNaturalist21数据集上使用EfficientNet、ResNet和ConvNeXt验证,显示通过优化数据分布实现了改进且平衡的模型性能。
- Conclusion: BiCDO提供了一种有效的数据中心方法,能够针对特定需求优化多类分类任务的类别分布,提升模型在关键类别上的可靠性。
[78] MVQA-68K: A Multi-dimensional and Causally-annotated Dataset with Quality Interpretability for Video Assessment
Yanyun Pu,Kehan Li,Zeyi Huang,Zhijie Zhong,Kaixiang Yang
Main category: cs.CV
TL;DR: MVQA-68K是一个包含68,000个视频的多维度视频质量评估数据集,覆盖7个质量维度,通过详细的思维链标注提升可解释性,显著提升了多模态大语言模型在VQA任务上的性能。
- Motivation: 随着Sora等视频生成模型的快速发展,需要从大规模预训练数据集中筛选高质量视频。传统VQA方法通常只给出单一数值分数,缺乏全面性和可解释性。
- Method: 构建了MVQA-68K数据集,包含超过68,000个精心标注的视频,涵盖7个关键质量维度:整体美学、摄像机运动、动态程度、纹理细节、构图、视觉质量和事实一致性。每个标注都包含详细的思维链推理过程。
- Result: 实验表明MVQA-68K显著提升了各种多模态大语言模型在VQA任务上的性能,在内部测试集和公开基准(LSVQ-test、LSVQ-1080p、LIVE-VQC)上都达到了最先进的结果。在VQA训练中加入显式推理过程大幅提升了零样本泛化能力。
- Conclusion: MVQA-68K数据集通过多维度标注和思维链推理,有效解决了传统VQA方法的局限性,为视频质量评估提供了更全面和可解释的解决方案,推动了视频生成模型的发展。
[79] Disentangling Content from Style to Overcome Shortcut Learning: A Hybrid Generative-Discriminative Learning Framework
Siming Fu,Sijun Dong,Xiaoliang Meng
Main category: cs.CV
TL;DR: 本文提出HyGDL混合生成-判别学习框架,通过内容-风格解耦解决自监督学习中的捷径学习问题,实现跨域泛化。
- Motivation: 自监督学习存在捷径学习问题,模型倾向于利用表面特征而非内在结构,导致在未见域上泛化失败。现有方法只在表面层面对齐或分离域特征,未能改变产生捷径依赖的底层学习机制。
- Method: 提出HyGDL混合框架,基于不变性预训练原则:通过系统性地改变输入中的偏差(如风格)同时保持监督信号不变,强制模型学习不变本质。使用单一编码器,通过向量投影分析性地定义风格为表示中与风格不变内容正交的分量。
- Result: 实现了显式的内容-风格解耦,解决了生成式(如MAE)和判别式方法中的系统性捷径学习问题。
- Conclusion: HyGDL框架从根本上解决了自监督学习的捷径学习问题,通过内容-风格解耦机制提升了模型在未见域上的泛化能力。
[80] DUAL-VAD: Dual Benchmarks and Anomaly-Focused Sampling for Video Anomaly Detection
Seoik Jung,Taekyung Song,Joshua Jordan Daniel,JinYoung Lee,SungJun Lee
Main category: cs.CV
TL;DR: 本文提出了基于softmax的帧分配策略和两个互补的基准测试,用于视频异常检测,在UCF-Crime数据集上取得了帧级和视频级的性能提升
- Motivation: 现有的视频异常检测基准测试仅限于帧级或视频级任务,限制了模型泛化能力的全面评估,需要构建更全面的评估体系
- Method: 提出softmax-based帧分配策略,优先选择异常密集片段同时保持全视频覆盖;构建图像基准测试(帧级推理)和视频基准测试(时序定位和异常评分)
- Result: 在UCF-Crime数据集上的实验显示,该方法在帧级和视频级都取得了改进,异常聚焦采样相比均匀和随机基线具有明显优势
- Conclusion: 提出的帧分配策略和双基准测试框架能够更全面地评估视频异常检测模型的性能,为未来研究提供了更好的评估标准
[81] A Controllable 3D Deepfake Generation Framework with Gaussian Splatting
Wending Liu,Siyun Liang,Huy H. Nguyen,Isao Echizen
Main category: cs.CV
TL;DR: 基于3D高斯溅射的新颖3D深度伪造框架,实现多视角一致的面部交换和重演,解决了传统2D方法在几何一致性和新视角泛化方面的局限性。
- Motivation: 传统2D深度伪造方法存在几何不一致性和新视角泛化能力有限的问题,需要开发能够在完全可控3D空间中实现真实、身份保持的面部交换和重演的技术。
- Method: 结合参数化头部模型和动态高斯表示,显式分离头部和背景高斯,使用预训练的2D指导优化面部区域,并引入修复模块增强极端姿态和表情下的视觉一致性。
- Result: 在NeRSemble和额外评估视频上的实验表明,该方法在身份保持、姿态和表情一致性方面与最先进的2D方法相当,但在多视角渲染质量和3D一致性方面显著优于2D方法。
- Conclusion: 该方法弥合了3D建模和深度伪造合成之间的差距,为场景感知、可控和沉浸式视觉伪造开辟了新方向,同时也揭示了新兴3D高斯溅射技术可能被用于操纵攻击的威胁。
[82] IS-Diff: Improving Diffusion-Based Inpainting with Better Initial Seed
Yongzhe Lyu,Yu Wu,Yutian Lin,Bo Du
Main category: cs.CV
TL;DR: IS-Diff是一种无需训练的扩散模型修复方法,通过从非掩码区域采样初始种子来模拟掩码数据分布,解决随机初始化导致的语义不匹配问题,并引入动态选择性优化机制提升修复质量。
- Motivation: 传统扩散模型在修复任务中使用随机噪声初始化,可能导致掩码区域与未掩码区域语义不匹配,产生不一致和不相干的修复结果。
- Method: 提出IS-Diff方法:1)从非掩码区域采样初始种子来模拟掩码数据分布;2)设计动态选择性优化机制,检测中间潜在空间中的不和谐修复并动态调整初始化先验强度。
- Result: 在CelebA-HQ、ImageNet和Places2数据集的标准和大掩码修复任务中,IS-Diff在所有指标上都优于最先进的修复方法。
- Conclusion: IS-Diff通过分布和谐的初始种子和动态优化机制,有效解决了扩散模型修复中的语义不匹配问题,无需训练即可实现高质量的图像修复。
[83] WeatherBench: A Real-World Benchmark Dataset for All-in-One Adverse Weather Image Restoration
Qiyuan Guan,Qianfeng Yang,Xiang Chen,Tianyu Song,Guiyue Jin,Jiyu Jin
Main category: cs.CV
TL;DR: 提出了一个真实世界的多天气图像恢复基准数据集WeatherBench,包含雨、雪、雾等多种天气条件下的精确对齐图像对,解决了现有合成数据集存在的领域差距问题。
- Motivation: 现有的多天气图像恢复方法主要使用混合单天气合成数据集进行训练和评估,但这些数据集在分辨率、风格和领域特征上存在显著差异,导致严重的领域差距,阻碍了统一模型的开发和公平评估。缺乏大规模真实世界多天气恢复数据集是该领域发展的关键瓶颈。
- Method: 构建了一个真实世界的多天气图像恢复基准数据集,包含在各种天气条件(雨、雪、雾)下捕获的图像对,涵盖不同的户外场景和光照设置。数据集提供精确对齐的退化图像和清晰图像,支持监督学习和严格评估。
- Result: 通过在WeatherBench数据集上对各种任务特定、任务通用和多天气恢复方法进行全面基准测试,验证了数据集的有效性。数据集为推进真实场景中鲁棒实用的多天气图像恢复提供了宝贵基础。
- Conclusion: WeatherBench数据集解决了多天气图像恢复领域的关键数据瓶颈问题,提供了真实世界的基准测试平台,有助于推动该领域的发展。数据集已公开发布,可供研究社区使用。
[84] Joint-octamamba:an octa joint segmentation network based on feature enhanced mamba
Chuang Liu,Nan Guo
Main category: cs.CV
TL;DR: 提出了RVMamba和Joint-OCTAMamba框架,结合Mamba状态空间模型,在OCTA-500数据集上实现了视网膜血管和FAZ联合分割的优异性能
- Motivation: 现有2D视网膜血管分割方法精度不足,且现有OCTA联合分割模型在不同任务间存在性能不平衡问题
- Method: 集成多特征提取模块与Mamba状态空间模型,提出RVMamba架构;引入FAZMamba和统一的Joint-OCTAMamba框架来同时改善FAZ分割并缓解性能不平衡
- Result: 在OCTA-500数据集上的实验结果表明,Joint-OCTAMamba在所有评估指标上都优于现有模型
- Conclusion: 所提出的方法有效解决了OCTA图像分割中的精度不足和性能不平衡问题,为视网膜疾病诊断提供了更准确的工具
[85] DTGen: Generative Diffusion-Based Few-Shot Data Augmentation for Fine-Grained Dirty Tableware Recognition
Lifei Hao,Yue Cheng,Baoqi Huang,Bing Jia,Xuandong Zhao
Main category: cs.CV
TL;DR: DTGen是一种基于生成扩散模型的少样本数据增强方案,专门针对细粒度脏餐具识别设计,通过LoRA实现高效领域专业化,生成多样化脏污图像,并通过CLIP跨模态过滤确保数据质量。
- Motivation: 智能餐具清洁在食品安全和智能家居中至关重要,但现有方法受限于粗粒度分类和少样本数据稀缺,难以满足工业化需求。
- Method: 采用基于生成扩散模型的少样本数据增强方案DTGen,通过LoRA实现高效领域专业化,使用结构化提示生成多样化脏污图像,并通过CLIP跨模态过滤确保数据质量。
- Result: 在极有限的真实少样本条件下,DTGen能够合成几乎无限的高质量样本,显著提高分类器性能,支持细粒度脏餐具识别。
- Conclusion: DTGen不仅验证了生成式AI在少样本工业视觉中的价值,还为自动化餐具清洁和食品安全监控提供了可行的部署路径。
[86] MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs
Feilong Chen,Yijiang Liu,Yi Huang,Hao Wang,Miren Tian,Ya-Qi Yu,Minghui Liao,Jihao Wu
Main category: cs.CV
TL;DR: MindVL是基于昇腾NPU训练的多模态大语言模型,采用原生分辨率视觉变换器处理可变分辨率图像,避免固定分辨率分块导致的性能下降。通过三阶段训练流程和专门优化的分布式训练框架,在仅使用1/10训练数据的情况下达到与Qwen2.5-VL相当的性能。
- Motivation: 为了解决传统固定分辨率图像处理在多模态任务中的细节丢失问题,特别是在处理复杂图表和文档时保持细粒度细节和全局布局信息,同时针对昇腾NPU硬件平台优化训练效率。
- Method: 采用原生分辨率Vision Transformers处理可变分辨率图像;开发Mindspeed-MLLM分布式训练框架;实施三阶段训练(预热、多任务训练、监督指令微调);使用多模态数据打包和混合并行技术;引入测试时分辨率搜索和模型权重平均。
- Result: 在仅使用Qwen2.5-VL约1/10训练数据的情况下,MindVL在通用多模态理解和文档/表格理解评估中达到与Qwen2.5-VL相当的性能,并在OCR评估中取得领先表现。
- Conclusion: MindVL证明了通过原生分辨率处理和优化的训练框架,可以在减少训练数据量的同时实现与先进模型相当的性能,为昇腾NPU平台上的高效多模态模型训练提供了有效解决方案。
[87] RouteExtract: A Modular Pipeline for Extracting Routes from Paper Maps
Bjoern Kremser,Yusuke Matsui
Main category: cs.CV
TL;DR: 提出从扫描地图中提取可导航小径的完整流程,结合地理配准、U-Net分割、图构建和路由引擎迭代优化,实现纸质地图的GPS导航功能
- Motivation: 纸质地图包含精心策划的徒步路线和本地相关标注,这些信息在Google Maps等数字导航应用中经常缺失,但纸质地图无法直接用于GPS导航
- Method: 结合地理配准、基于U-Net的二元分割、图构建以及使用路由引擎的迭代优化程序
- Result: 方法能够从不同地图样式中稳健地恢复小径网络,并生成适合实际使用的GPS路线
- Conclusion: 该流程成功实现了将传统纸质地图转换为可用于GPS导航的数字格式,为户外活动提供了更好的导航支持
[88] IMD: A 6-DoF Pose Estimation Benchmark for Industrial Metallic Objects
Ruimin Ma,Sebastian Zudaire,Zhen Li,Chi Zhang
Main category: cs.CV
TL;DR: 提出了专门针对工业场景的金属物体6D位姿估计数据集IMD,包含45个真实工业零件,在自然光照下采集,支持分割、位姿跟踪和单样本位姿估计三个任务。
- Motivation: 现有的6D位姿估计基准主要使用纹理丰富、低反射率的日常物品,无法很好地泛化到工业场景中金属、无纹理、高反射物体的挑战。
- Method: 创建了工业金属数据集IMD,包含45个真实工业零件,使用RGB-D相机在自然室内光照和不同物体布置下采集数据,支持视频物体分割、6D位姿跟踪和单样本6D位姿估计三个任务。
- Result: 评估显示现有先进模型在工业数据集上表现更具挑战性,该数据集比家用物体数据集更难。
- Conclusion: 该基准为开发和比较能够更好泛化到工业机器人场景的分割和位姿估计算法提供了基础。
[89] Uncertainty-Aware Retinal Vessel Segmentation via Ensemble Distillation
Jeremiah Fadugba,Petru Manescu,Bolanle Oladejo,Delmiro Fernandez-Reyes,Philipp Berens
Main category: cs.CV
TL;DR: 提出Ensemble Distillation方法,通过知识蒸馏将多个集成模型压缩为单一模型,在保持视网膜血管分割性能的同时显著降低计算复杂度
- Motivation: 医学图像分割中不确定性估计对可靠性至关重要,但传统Deep Ensembles方法计算成本随集成数量增加而显著上升
- Method: 使用知识蒸馏技术,将多个集成模型的知识压缩到单一模型中,实现高效的集成效果
- Result: 在DRIVE和FIVES数据集上的实验表明,该方法在校准和分割指标上达到可比性能,同时大幅降低计算复杂度
- Conclusion: Ensemble Distillation为视网膜血管分割中的不确定性估计提供了高效可靠的方法,在医学成像应用中具有广阔前景
[90] The Quest for Universal Master Key Filters in DS-CNNs
Zahra Babaiee,Peyman M. Kiassari,Daniela Rus,Radu Grosu
Main category: cs.CV
TL;DR: 研究发现深度可分离卷积网络本质上收敛到仅8个通用滤波器,这些滤波器是DoG、高斯及其导数,与哺乳动物视觉系统的感受野惊人相似。使用这8个冻结滤波器初始化的网络在ImageNet上达到80%+准确率,在小数据集上甚至优于数千个可训练参数的模型。
- Motivation: 扩展"主密钥滤波器假设",探索深度可分离卷积网络是否收敛到一个极小的通用滤波器集合,这些滤波器可能构成视觉处理的基础构建模块。
- Method: 通过系统性的无监督搜索,在不同架构和数据集上提取这些基本模式,分析传统DS-CNN滤波器与发现的通用集合之间的线性变换关系。
- Result: 识别出8个通用主密钥滤波器,网络使用这些冻结滤波器初始化能在ImageNet上达到80%+准确率,在小数据集上表现优于传统可训练模型。滤波器模式与DoG、高斯及其导数高度匹配。
- Conclusion: 深度卷积层无论任务或架构如何,都自然趋向于这组基本空间算子,这为理解泛化和迁移学习提供了新的视角,揭示了视觉处理的通用语言。
[91] Advanced Layout Analysis Models for Docling
Nikolaos Livathinos,Christoph Auer,Ahmed Nassar,Rafael Teixeira de Lima,Maksym Lysak,Brown Ebouky,Cesar Berrospi,Michele Dolfi,Panagiotis Vagenas,Matteo Omenetti,Kasper Dinkla,Yusik Kim,Valery Weber,Lucas Morin,Ingmar Meijer,Viktor Kuropiatnyk,Tim Strohmeyer,A. Said Gurbuz,Peter W. J. Staar
Main category: cs.CV
TL;DR: 本文开发了新的文档布局分析模型,集成到Docling文档转换流水线中,在15万份文档上训练了RT-DETR、RT-DETRv2和DFINE架构的检测器,实现了20.6%-23.9%的mAP提升,最佳模型达到78% mAP和28ms/图像的推理速度。
- Motivation: 改进文档转换流水线中的布局分析能力,通过训练先进的物体检测器来提升文档结构识别的准确性和效率。
- Method: 使用RT-DETR、RT-DETRv2和DFINE架构在15万份异构文档数据集上训练物体检测器,并应用后处理步骤优化检测结果。在不同硬件环境(CPU、Nvidia和Apple GPU)上评估运行时性能。
- Result: 开发了五个新模型,相比之前基线提升20.6%-23.9% mAP,最佳模型"heron-101"达到78% mAP,在NVIDIA A100 GPU上推理时间为28ms/图像。
- Conclusion: 研究为文档布局检测器的训练、评估和部署提供了最佳实践指南,所有检查点、代码和文档已在HuggingFace上开源发布。
[92] Microsurgical Instrument Segmentation for Robot-Assisted Surgery
Tae Kyeong Jeong,Garam Kim,Juyoun Park
Main category: cs.CV
TL;DR: MISRA是一个用于显微手术器械分割的框架,通过增强RGB输入、集成跳跃注意力和迭代反馈模块,在细长结构分割上表现优异,比竞争方法平均IoU提升5.37%。
- Motivation: 显微手术场景中细长结构的精确分割对于手术理解至关重要,但由于分辨率损失、低对比度和类别不平衡等问题而具有挑战性。
- Method: 提出MISRA分割框架:1)用亮度通道增强RGB输入;2)集成跳跃注意力以保留细长特征;3)使用迭代反馈模块(IFM)在多轮处理中恢复连续性。同时发布了专门的显微手术数据集。
- Result: MISRA在竞争中表现优异,平均类别IoU提升5.37%,在器械接触和重叠区域提供更稳定的预测。
- Conclusion: MISRA是朝着计算机辅助和机器人显微手术可靠场景解析迈出的有希望的一步,为微创手术提供了有效的分割解决方案。
[93] Bridging the Gap Between Sparsity and Redundancy: A Dual-Decoding Framework with Global Context for Map Inference
Yudong Shen,Wenyu Wu,Jiali Mao,Yixiao Tong,Guoping Liu,Chaoya Wang
Main category: cs.CV
TL;DR: DGMap是一个基于双解码框架的轨迹地图推断方法,通过多尺度网格编码、掩码增强关键点提取和全局上下文关系预测,解决了轨迹密度不均导致的道路碎片化和冗余问题。
- Motivation: 轨迹数据成本低、覆盖广且持续可用,但密度不均会导致稀疏区域道路碎片化和密集区域冗余段,现有方法难以有效处理这些问题。
- Method: 提出DGMap双解码框架,包含多尺度网格编码、掩码增强关键点提取和全局上下文关系预测三个模块,通过整合全局语义上下文和局部几何特征来提高关键点检测精度。
- Result: 在三个真实数据集上的实验表明,DGMap在APLS指标上优于现有最优方法5%,在滴滴出行平台的轨迹数据上表现尤为突出。
- Conclusion: DGMap通过全局上下文感知和双解码框架,有效解决了轨迹密度不均带来的地图推断问题,显著提升了道路网络的完整性和准确性。
[94] A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications
Hongyuan Zhang,Yuheng Wu,Mingyang Zhao,Zhiwei Chen,Rebecca Li,Fei Zhu,Haohan Zhao,Xiaohua Yuan,Meng Yang,Chunli Qiu,Xiang Cong,Haiyan Chen,Lina Luan,Randolph H. L. Wong,Huai Liao,Colin A Graham,Shi Chang,Guowei Tao,Dong Yi,Zhen Lei,Nassir Navab,Sebastien Ourselin,Jiebo Luo,Hongbin Liu,Gaofeng Meng
Main category: cs.CV
TL;DR: EchoCare是一个通过自监督学习开发的超声基础模型,使用包含450万张图像的全球多中心数据集,在10个超声基准测试中优于现有最先进模型。
- Motivation: 解决临床环境中标记数据稀缺和任务特定模型泛化能力有限的问题,开发通用的临床AI超声模型。
- Method: 采用自监督学习方法,引入分层分类器进行像素级和表示级特征的联合学习,捕捉全局解剖上下文和局部超声特征。
- Result: 在10个代表性超声基准测试中(疾病诊断、病变分割、器官检测等)均优于现有最先进模型。
- Conclusion: EchoCare提供了一个完全开放和可泛化的基础模型,可促进多样化临床超声应用的AI技术发展。
[95] MSMA: Multi-Scale Feature Fusion For Multi-Attribute 3D Face Reconstruction From Unconstrained Images
Danling Cao
Main category: cs.CV
TL;DR: 提出MSMA框架,通过多尺度特征融合和多属性学习,结合大核注意力模块,从单张无约束图像实现精确的3D人脸重建。
- Motivation: 现有基于学习的方法需要大量3D人脸数据且成本高昂,同时在多样化面部属性和条件下难以捕捉细节和多尺度特征,导致重建不完整或不准确。
- Method: 多尺度特征融合与多属性学习框架,集成大核注意力模块以增强跨尺度特征提取精度,从单张2D图像估计准确的3D面部参数。
- Result: 在MICC Florence、Facewarehouse和自定义数据集上的实验表明,该方法与当前最先进方法性能相当,在某些挑战性条件下甚至超越SOTA。
- Conclusion: MSMA框架有效解决了无约束环境下3D人脸重建的挑战,通过多尺度特征融合和多属性学习实现了更精确的重建效果。
[96] Seg2Track-SAM2: SAM2-based Multi-object Tracking and Segmentation for Zero-shot Generalization
Diogo Mendonça,Tiago Barros,Cristiano Premebida,Urbano J. Nunes
Main category: cs.CV
TL;DR: Seg2Track-SAM2是一个无需微调的多目标跟踪分割框架,整合了预训练检测器、SAM2和新的Seg2Track模块,在KITTI基准测试中达到SOTA性能,内存使用减少75%
- Motivation: 解决基础模型在MOTS任务中身份管理和内存效率不足的问题,实现零样本泛化的多目标跟踪分割
- Method: 集成预训练目标检测器、SAM2分割模型和Seg2Track模块来处理轨迹初始化、管理和强化,采用滑动窗口内存策略
- Result: 在KITTI MOT和MOTS基准测试中排名第四,建立新的关联精度基准,内存使用减少75%且性能损失可忽略
- Conclusion: Seg2Track-SAM2通过结合零样本跟踪、增强身份保持和高效内存利用,推动了MOTS技术的发展
[97] SA-UNetv2: Rethinking Spatial Attention U-Net for Retinal Vessel Segmentation
Changlu Guo,Anders Nymark Christensen,Anders Bjorholm Dahl,Yugen Yi,Morten Rieger Hannemose
Main category: cs.CV
TL;DR: SA-UNetv2是一个轻量级的视网膜血管分割模型,通过在跳跃连接中注入跨尺度空间注意力并采用加权BCE+MCC损失函数,在保持高性能的同时大幅减少了模型参数和内存占用。
- Motivation: 现有的SA-UNet模型在瓶颈层引入了空间注意力,但在跳跃连接中未充分利用注意力机制,且未能有效解决前景-背景严重不平衡问题。
- Method: 在SA-UNetv2中,在所有跳跃连接中注入跨尺度空间注意力以增强多尺度特征融合,并采用加权二元交叉熵加马修斯相关系数损失函数来提高对类别不平衡的鲁棒性。
- Result: 在DRIVE和STARE公开数据集上,SA-UNetv2仅使用1.2MB内存和0.26M参数(少于SA-UNet的50%),在592×592×3图像上实现1秒CPU推理,达到了最先进的性能。
- Conclusion: SA-UNetv2在资源受限的CPU-only环境中表现出强大的效率和部署能力,为视网膜血管分割提供了高效的解决方案。
[98] FineQuest: Adaptive Knowledge-Assisted Sports Video Understanding via Agent-of-Thoughts Reasoning
Haodong Chen,Haojian Huang,XinXiang Yin,Dian Shao
Main category: cs.CV
TL;DR: FineQuest是一个无需训练的框架,利用双模式推理(反应式推理和审慎式推理)来处理体育视频问答,通过SSGraph多模态体育知识场景图增强领域理解,在多个体育VideoQA基准上达到最先进性能。
- Motivation: 基于大语言模型的视频问答在通用视频理解方面有潜力,但在复杂的体育视频领域面临显著挑战,需要专门的方法来处理领域特定的复杂查询。
- Method: 提出FineQuest训练免费框架,采用认知科学启发的双模式推理:反应式推理处理简单查询,审慎式推理处理复杂查询。引入SSGraph多模态体育知识场景图,涵盖9种运动,编码视觉实例和领域术语。
- Result: 在新建的Gym-QA和Diving-QA基准以及现有SPORTU数据集上达到最先进性能,同时保持强大的通用VideoQA能力。
- Conclusion: FineQuest通过双模式推理和领域知识增强,有效解决了体育视频问答的挑战,为复杂领域视频理解提供了新的解决方案。
[99] Pseudo-D: Informing Multi-View Uncertainty Estimation with Calibrated Neural Training Dynamics
Ang Nan Gu,Michael Tsang,Hooman Vaseli,Purang Abolmaesumi,Teresa Tsang
Main category: cs.CV
TL;DR: 提出基于神经网络训练动态的框架,通过生成不确定性感知的伪标签来处理医学图像诊断中的不确定性,提升模型校准和鲁棒性
- Motivation: 现有医学图像诊断系统使用过于简化的one-hot标签,忽略了诊断不确定性和评分者间差异,导致模型在面对噪声或模糊输入时过度自信
- Method: 利用神经网络训练动态评估每个训练样本的内在难度,通过聚合和校准训练过程中的模型预测来生成反映学习过程中模糊性的不确定性感知伪标签
- Result: 在心超分类基准测试中表现出色,在校准、选择性分类和多视图融合方面优于专门基线方法
- Conclusion: 该架构无关的标签增强方法可应用于任何监督学习流程,有效提升不确定性估计和模型鲁棒性
[100] LFRA-Net: A Lightweight Focal and Region-Aware Attention Network for Retinal Vessel Segmentatio
Mehwish Mehmood,Shahzaib Iqbal,Tariq Mahmood Khan,Ivor Spence,Muhammad Fahim
Main category: cs.CV
TL;DR: LFRA-Net是一个轻量级视网膜血管分割网络,通过焦点调制注意力和区域感知注意力机制,在保持低计算成本的同时实现了优异的血管分割性能。
- Motivation: 视网膜血管分割对早期诊断视力威胁性疾病至关重要,但现有深度学习模型在提取微小血管方面存在挑战且计算成本高,特别是在计算资源有限的临床环境中。
- Method: 提出LFRA-Net网络,在编码器-解码器瓶颈处引入焦点调制注意力,在选择性跳跃连接中使用区域感知注意力,有效捕获局部和全局依赖关系,增强特征表示和区域聚焦能力。
- Result: 在DRIVE、STARE和CHASE_DB三个公开数据集上表现优异:Dice分数分别为84.28%、88.44%、85.50%,Jaccard指数分别为72.86%、79.31%、74.70%。模型仅0.17M参数、0.66MB内存占用和10.50GFLOPs计算量。
- Conclusion: LFRA-Net在分割精度和计算成本之间达到了理想平衡,特别适合资源有限的实时临床应用,为临床环境提供了高效的视网膜血管分割解决方案。
[101] SpecVLM: Fast Speculative Decoding in Vision-Language Models
Haiduo Huang,Fuwei Yang,Zhenhua Liu,Xuanwu Yin,Dong Li,Pengju Ren,Emad Barsoum
Main category: cs.CV
TL;DR: SpecVLM是一个针对视觉语言模型的推测解码系统,通过EAGLE-2风格的基础加速和弹性视觉压缩器,实现了2.5-2.9倍的端到端加速,同时保持无损解码。
- Motivation: 直接将推测解码应用于视觉语言模型面临系统约束:预填充阶段受视觉token主导,计算和内存开销大,特别是KV缓存。需要专门针对VLMs的加速方案。
- Method: 1) 建立EagleVLM基线(EAGLE-2风格);2) 使用弹性视觉压缩器自适应选择剪枝、池化、卷积和重采样原语;3) 提出在线logit蒸馏协议,使用教师logits和倒数第二层特征训练草稿模型。
- Result: 在LLaVA和MMMU上5个epoch内实现2.5-2.9倍端到端加速,在不同分辨率和任务难度下保持一致性能,保持目标模型输出分布(无损解码)。
- Conclusion: SpecVLM成功解决了VLMs推测解码的系统挑战,通过在线蒸馏和弹性压缩实现了显著的加速效果,同时证明了训练时间缩放效应的重要性。
[102] MAFS: Masked Autoencoder for Infrared-Visible Image Fusion and Semantic Segmentation
Liying Wang,Xiaoli Zhang,Chuanmin Jia,Siwei Ma
Main category: cs.CV
TL;DR: MAFS是一个统一网络,同时处理红外-可见光图像融合和语义分割任务,通过并行结构和多任务学习实现像素级融合与特征级分割的相互促进
- Motivation: 现有方法虽然考虑了语义信息注入,但缺乏从宏观任务层面探索图像融合与跨模态特征融合感知任务之间的相互促进潜力
- Method: 采用并行结构包含融合子网络和分割子网络,设计异构特征融合策略增强语义感知能力,使用多阶段Transformer解码器聚合多尺度融合特征,引入基于最大最小公平分配原则的动态因子进行多任务权重自适应
- Result: 大量实验表明该方法在图像融合和语义分割任务上均取得了与最先进方法竞争性的结果
- Conclusion: MAFS框架成功实现了图像融合与语义分割任务的相互促进,为多模态视觉任务提供了有效的统一解决方案
[103] Probabilistic Robustness Analysis in High Dimensional Space: Application to Semantic Segmentation Network
Navid Hashemi,Samuel Sasaki,Diego Manzanas Lopez,Ipek Oguz,Meiyi Ma,Taylor T. Johnson
Main category: cs.CV
TL;DR: 提出了一种可扩展的概率验证框架,结合基于采样的可达性分析和保形推理,为语义分割网络提供可靠的安全保证,在高维输出场景中显著减少了保守性。
- Motivation: 现有概率验证方法难以扩展到现代分割任务的复杂性和高维度,往往产生过于保守的保证结果,无法满足实际应用需求。
- Method: 结合基于采样的可达性分析和保形推理(CI),提出架构无关的可扩展验证框架,并针对高维设置设计了减少保守性的新策略。
- Result: 在CamVid、OCTA-500、肺部分割和Cityscapes等大规模分割模型上的实验表明,该方法提供可靠安全保证的同时,相比最先进方法显著收紧边界。
- Conclusion: 该框架为语义分割网络提供了既严格又实用的概率验证解决方案,并通过开源工具箱促进实际应用。
[104] Synthetic Captions for Open-Vocabulary Zero-Shot Segmentation
Tim Lebailly,Vijay Veerabadran,Satwik Kottur,Karl Ridgeway,Michael Louis Iuzzolino
Main category: cs.CV
TL;DR: 本文提出通过使用生成式视觉语言模型生成的合成描述来密集对齐图像和语言,从而提升零样本开放词汇分割任务的性能。
- Motivation: 生成式视觉语言模型虽然具有强大的高层次图像理解能力,但缺乏视觉和语言模态之间的空间密集对齐。另一方面,现有的视觉语言对齐表示学习方法专注于密集任务的零样本推理。本文旨在将这两个方向结合起来。
- Method: 利用生成式视觉语言模型生成合成描述,这些合成描述成本低、可扩展且易于生成,为密集对齐方法提供了高层次语义理解的良好来源。
- Result: 实验表明,该方法在标准零样本开放词汇分割基准/数据集上优于先前工作,同时具有更高的数据效率。
- Conclusion: 通过密集对齐图像与合成描述,成功将生成式视觉语言模型的高层次理解能力与密集对齐方法相结合,在零样本分割任务中取得了更好的性能。
[105] Segmentation-Driven Initialization for Sparse-view 3D Gaussian Splatting
Yi-Hsin Li,Thomas Sikora,Sebastian Knorr,Måarten Sjöström
Main category: cs.CV
TL;DR: SDI-GS是一种基于分割驱动的3D高斯泼溅初始化方法,通过区域分割识别结构重要区域,选择性下采样密集点云,在保持场景保真度的同时大幅减少高斯数量。
- Motivation: 解决稀疏视图合成中现有方法依赖SfM相机姿态估计的局限性,以及MVS方法生成过多3D高斯导致高内存成本的问题。
- Method: 利用区域分割识别结构重要区域,对密集点云进行选择性下采样,保留关键结构信息的同时减少高斯数量。
- Result: 在多个基准测试中,高斯数量减少高达50%,PSNR和SSIM指标达到相当或更好的渲染质量,LPIPS仅有轻微下降,训练速度更快且内存占用更低。
- Conclusion: SDI-GS通过分割驱动的初始化方法,显著提升了3D高斯泼溅在受限视图场景中的实用性和效率。
[106] Bridging Vision Language Models and Symbolic Grounding for Video Question Answering
Haodi Ma,Vyom Pathak,Daisy Zhe Wang
Main category: cs.CV
TL;DR: SG-VLM是一个将符号场景图作为中间接地信号与视觉语言模型结合的模块化框架,用于提升视频问答中的因果和时间推理能力。
- Motivation: 现有的视觉语言模型在视频问答中往往依赖浅层相关性,导致时间接地能力弱和可解释性有限。研究希望通过符号场景图的结构化对象-关系表示来补充VLM的整体推理能力。
- Method: 提出SG-VLM框架,通过提示和视觉定位将冻结的VLM与场景图接地相结合,使用符号场景图作为中间接地信号。
- Result: 在三个基准测试(NExT-QA、iVQA、ActivityNet-QA)和多个VLM(QwenVL、InternVL)上,SG-VLM在因果和时间推理方面表现优于先前基线方法,但对强VLM的提升有限。
- Conclusion: 符号接地在视频理解中具有前景但也存在当前局限性,为未来混合VLM-符号方法提供了指导方向。
[107] Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding
Meng Luo,Shengqiong Wu,Liqiang Jing,Tianjie Ju,Li Zheng,Jinxiang Lai,Tianlong Wu,Xinya Du,Jian Li,Siyuan Yan,Jiebo Luo,William Yang Wang,Hao Fei,Mong-Li Lee,Wynne Hsu
Main category: cs.CV
TL;DR: Dr.V是一个分层框架,通过细粒度时空定位诊断视频大模型的幻觉问题,包含Dr.V-Bench基准数据集和Dr.V-Agent检测代理
- Motivation: 大型视频模型存在幻觉问题,生成与输入视频冲突的内容,需要系统性的诊断方法
- Method: 提出分层框架,在感知、时序和认知三个层次进行细粒度时空定位,通过两步流程检测幻觉
- Result: 实验证明Dr.V-Agent能有效诊断幻觉,提高可解释性和可靠性
- Conclusion: Dr.V为现实场景中的鲁棒视频理解提供了实用蓝图
[108] Multi-animal tracking in Transition: Comparative Insights into Established and Emerging Methods
Anne Marthe Sophie Ngo Bibinbe,Patrick Gagnon,Jamie Ahloy-Dallaire,Eric R. Paquet
Main category: cs.CV
TL;DR: MOT方法在猪只长期跟踪中优于传统MAT工具,能提高畜牧业自动跟踪的准确性和可靠性
- Motivation: 精准畜牧业需要先进的监控工具,现有MAT工具性能不如最先进的MOT方法,导致下游任务不准确
- Method: 对MAT和MOT方法进行基准测试,比较DeepLabCut、idTracker等MAT工具与ByteTrack、DeepSORT等MOT方法在10分钟猪只跟踪数据集上的表现
- Result: 总体而言,MOT方法在长期跟踪场景中优于传统MAT工具
- Conclusion: 最新的MOT技术有潜力提高畜牧业自动跟踪的准确性和可靠性
[109] Do It Yourself (DIY): Modifying Images for Poems in a Zero-Shot Setting Using Weighted Prompt Manipulation
Sofia Jamil,Kotla Sai Charan,Sriparna Saha,Koustava Goswami,K J Joseph
Main category: cs.CV
TL;DR: 提出Weighted Prompt Manipulation (WPM)技术,通过调整扩散模型中的注意力权重和文本嵌入,实现诗歌图像的零样本生成和优化。
- Motivation: 诗歌作为表达性艺术形式具有多重解读性,读者常基于自身情感、经验和文化背景理解诗歌。需要一种方法能够根据用户需求生成和修改诗歌图像。
- Method: 引入新颖的WPM技术,系统修改扩散模型中的注意力权重和文本嵌入,动态调整特定词汇的重要性,增强或抑制其在最终生成图像中的影响。结合扩散模型和大型语言模型(如GPT)以及现有诗歌数据集。
- Result: 能够生成语义更丰富、上下文更准确的诗歌可视化图像,在文学领域实现改进的图像生成。
- Conclusion: 这是首次将加权提示操作技术整合用于增强诗歌语言意象的尝试,为零样本诗歌图像生成和优化提供了结构化方法。
[110] SAM-TTT: Segment Anything Model via Reverse Parameter Configuration and Test-Time Training for Camouflaged Object Detection
Zhenni Yu,Li Zhao,Guobao Xiao,Xiaoqin Zhang
Main category: cs.CV
TL;DR: SAM-TTT通过反向参数配置和测试时训练增强SAM在伪装目标检测中的性能,抑制有害参数同时增强有益参数,在多个基准测试中达到最先进水平。
- Motivation: 现有基于SAM的COD模型主要关注提取有利特征和增强有益参数,但忽略了有害参数对SAM语义理解的负面影响,需要一种方法来同时抑制有害参数并增强有益参数。
- Method: 提出反向SAM参数配置模块以训练无关方式抑制有害参数,并引入T-Visioner模块将测试时训练层集成到视觉任务中,通过线性复杂度的序列建模层增强有益参数。
- Result: 在多个COD基准测试中实现了最先进的性能,显著提升了SAM在伪装目标检测任务中的语义理解能力。
- Conclusion: SAM-TTT通过同时抑制有害参数和增强有益参数的有效方法,为SAM在COD任务中的应用设立了新的基准,证明了反向参数配置和测试时训练在视觉任务中的有效性。
[111] BREA-Depth: Bronchoscopy Realistic Airway-geometric Depth Estimation
Francis Xiatian Zhang,Emile Mackute,Mohammadreza Kasaei,Kevin Dhaliwal,Robert Thomson,Mohsen Khadem
Main category: cs.CV
TL;DR: Brea-Depth是一个用于支气管镜深度估计的新框架,通过整合气道特异性几何先验来提升基础模型在支气管镜场景中的表现,解决了现有模型缺乏解剖意识的问题。
- Motivation: 现有的深度基础模型在支气管镜场景中缺乏解剖意识,过度拟合局部纹理而非捕捉全局气道结构,特别是在深度线索模糊和光照条件差的情况下。
- Method: 提出Brea-Depth框架,包含深度感知CycleGAN来弥合真实支气管镜图像与解剖数据中气道几何之间的域差距,并引入气道结构感知损失来保持气道管腔内的深度一致性和结构完整性。
- Result: 在收集的离体人类肺数据集和开放支气管镜数据集上验证,Brea-Depth在解剖深度保持方面优于现有方法。
- Conclusion: 通过整合解剖先验,Brea-Depth增强了模型的泛化能力,产生了更鲁棒、准确的3D气道重建,并提出了新的气道深度结构评估指标来评估解剖真实性。
[112] Logit Mixture Outlier Exposure for Fine-grained Out-of-Distribution Detection
Akito Shinohara,Kohei Fukuda,Hiroaki Aizawa
Main category: cs.CV
TL;DR: 提出在logit空间进行线性插值的方法,混合in-distribution和out-of-distribution数据,通过平滑logits改善OOD检测性能,特别是对靠近in-distribution的OOD数据。
- Motivation: 现有的Outlier Exposure和Mixture Outlier Exposure方法虽然能提升OOD检测性能,但模型仍难以有效学习类间关系和清晰区分in-distribution与out-of-distribution数据。
- Method: 在logit空间进行线性插值混合in-distribution和out-of-distribution数据,并强制logit空间混合与输入空间混合的logits一致性,以实现更平滑的决策边界。
- Result: 实验表明该方法减少了模型输出在决策边界附近的突变,实现了更平滑可靠的in-distribution与out-of-distribution数据分离,在细粒度OOD检测任务上表现有效。
- Conclusion: logit空间混合技术能有效改善OOD检测性能,特别是对靠近in-distribution的OOD数据,通过平滑logits实现更好的类间分离。
[113] Integrating Prior Observations for Incremental 3D Scene Graph Prediction
Marian Renz,Felix Igelbrink,Martin Atzmueller
Main category: cs.CV
TL;DR: 提出了一种新颖的异构图模型,用于增量式3D语义场景图预测,整合多模态信息(如先验观察和语义嵌入)到消息传递过程中,无需完整场景重建。
- Motivation: 现有3D语义场景图方法主要依赖传感器数据,缺乏语义丰富环境的进一步信息整合,且大多假设完整场景重建,限制了在真实世界增量设置中的适用性。
- Method: 使用多层异构图模型,在消息传递过程中灵活整合全局和局部场景表示,无需专门模块或完整场景重建,利用CLIP等语义嵌入和先验观察等多模态信息。
- Result: 在3DSSG数据集上评估显示,通过多模态信息增强的GNN为复杂真实世界环境提供了可扩展和通用的解决方案。
- Conclusion: 该方法为增量式3D语义场景图预测提供了有效的解决方案,能够更好地处理真实世界的复杂环境,代码将开源。
[114] NeuroGaze-Distill: Brain-informed Distillation and Depression-Inspired Geometric Priors for Robust Facial Emotion Recognition
Zilin Li,Weiwei Xu,Xuanqi Zhao,Yiran Zhu
Main category: cs.CV
TL;DR: NeuroGaze-Distill是一个跨模态蒸馏框架,通过脑电信息增强的面部情绪识别模型,使用静态V/A原型和抑郁几何先验来提高模型的泛化能力,无需部署时的脑电信号。
- Motivation: 传统基于像素的面部情绪识别模型难以跨数据集泛化,因为面部外观是情感的间接且有偏代理。需要利用脑电信号提供的更直接情感信息来提升模型鲁棒性。
- Method: 使用在EEG地形图上训练的教师模型生成5x5 Valence/Arousal原型网格,学生模型(ResNet-18/50)通过Proto-KD(余弦对齐)和D-Geo(抑郁研究启发的几何约束)两个轻量正则器进行训练。
- Result: 方法在域内(FERPlus验证集)和跨数据集(AffectNet-mini、CK+)协议上均显示一致性能提升,5x5网格在稳定性上优于更密集网格。
- Conclusion: NeuroGaze-Distill是一个简单可部署的框架,通过脑信息先验提升了面部情绪识别模型的鲁棒性,无需增加架构复杂性。
[115] Enriched text-guided variational multimodal knowledge distillation network (VMD) for automated diagnosis of plaque vulnerability in 3D carotid artery MRI
Bo Cao,Fan Yu,Mengmeng Feng,SenHao Zhang,Xin Meng,Yue Zhang,Zhen Qian,Jie Lu
Main category: cs.CV
TL;DR: 本文提出了一种基于变分推理和多模态知识蒸馏(VMD)的方法,利用放射科医生的领域知识来自动诊断颈动脉斑块易损性,通过跨模态先验知识提升诊断网络在未标注3D MRI图像上的准确性。
- Motivation: 颈动脉3D MRI图像直接诊断斑块易损性对放射科医生和传统3D视觉网络都具有挑战性。临床实践中放射科医生采用多模态方法结合多种成像模态和领域专业知识进行评估,这启发了多模态诊断网络的开发。
- Method: 提出VMD(Variation inference and Multimodal knowledge Distillation)策略,利用变分推理和多模态知识蒸馏技术,从有限的图像标注和放射学报告中提取跨模态先验知识。
- Result: 在内部收集的数据集上进行了深入实验,验证了VMD策略的有效性,表明该方法能够显著提升诊断网络对未标注3D MRI图像的诊断准确性。
- Conclusion: VMD方法成功地将放射科医生的领域知识整合到自动化诊断系统中,通过利用多模态信息和知识蒸馏技术,有效解决了有限标注数据下的颈动脉斑块易损性诊断问题。
[116] Graph Algorithm Unrolling with Douglas-Rachford Iterations for Image Interpolation with Guaranteed Initialization
Xue Zhang,Bingshuo Hu,Gene Cheung
Main category: cs.CV
TL;DR: 该论文提出了一种基于图信号处理和Douglas-Rachford迭代的新型神经网络初始化方法,用于图像插值任务,在减少参数量的同时实现了最先进的性能。
- Motivation: 传统深度神经网络随机初始化参数并通过SGD优化,容易陷入性能较差的局部最小值。为了解决这个问题,作者希望找到更好的初始化方法来提升图像插值性能。
- Method: 首先基于已知插值器初始化有向图邻接矩阵建立基线性能,然后学习扰动矩阵来增强邻接矩阵,并通过展开Douglas-Rachford迭代构建轻量级可解释神经网络。
- Result: 实验结果表明该方法在图像插值任务上达到了最先进的性能,同时大幅减少了网络参数数量。
- Conclusion: 该方法通过结合图信号处理理论和迭代优化算法,提供了一种有效的神经网络初始化策略,在保持高性能的同时显著降低了模型复杂度。
[117] Sphere-GAN: a GAN-based Approach for Saliency Estimation in 360° Videos
Mahmoud Z. A. Wahba,Sara Baldoni,Federica Battisti
Main category: cs.CV
TL;DR: 提出了Sphere-GAN模型,使用球形卷积的生成对抗网络来检测360度视频的显著性区域,在公开数据集上表现优于现有方法
- Motivation: 随着沉浸式应用的发展,需要新的方法来处理360度图像视频并优化传输。显著性估计可以识别视觉相关区域,但现有方法主要针对2D内容,360度显著性估计算法较少
- Method: 使用生成对抗网络(GAN)结合球形卷积来构建Sphere-GAN模型,专门用于360度视频的显著性检测
- Result: 在公开的360度视频显著性数据集上进行广泛实验,结果显示Sphere-GAN在准确预测显著性图方面优于最先进的模型
- Conclusion: Sphere-GAN为360度视频显著性检测提供了有效的解决方案,通过球形卷积GAN架构实现了优于现有方法的性能
[118] CLAIRE: A Dual Encoder Network with RIFT Loss and Phi-3 Small Language Model Based Interpretability for Cross-Modality Synthetic Aperture Radar and Optical Land Cover Segmentation
Debopom Sutradhar,Arefin Ittesafun Abian,Mohaimenul Azam Khan Raiaan,Reem E. Mohamed,Sheikh Izzal Azid,Sami Azam
Main category: cs.CV
TL;DR: 提出CLAIRE双编码器架构,融合光学和SAR卫星影像特征,使用RIFT混合损失函数解决类别不平衡问题,在多个数据集上取得优异性能,并引入小语言模型生成可解释性说明
- Motivation: 卫星影像土地覆盖分类面临自然景观复杂性、类别视觉相似性和数据集类别不平衡等挑战,需要提高分类精度和模型可解释性
- Method: 双编码器架构分别提取光学和SAR影像特征,通过跨模态注意力融合模块CLAIRE进行特征融合,使用RIFT混合损失函数(加权焦点损失和Tversky损失)处理类别不平衡,并引入小语言模型生成预测解释
- Result: 在WHU-OPT-SAR数据集上mIoU 56.02%、OA 84.56%;在OpenEarthMap-SAR数据集上mIoU 59.89%、OA 73.92%;在PIE-RGB-SAR云遮挡条件下mIoU 86.86%、OA 94.58%
- Conclusion: CLAIRE方法有效解决了土地覆盖分类中的多模态融合和类别不平衡问题,具有优异的性能和鲁棒性,同时通过可解释性模块增强了模型透明度
[119] Learning to Generate 4D LiDAR Sequences
Ao Liang,Youquan Liu,Yu Yang,Dongyue Lu,Linfeng Li,Lingdong Kong,Huaici Zhao,Wei Tsang Ooi
Main category: cs.CV
TL;DR: LiDARCrafter是一个将自由形式语言转换为可编辑LiDAR序列的统一框架,通过三分支扩散模型和自回归模块生成时间一致的4D LiDAR数据,支持对象级编辑,并在nuScenes数据集上实现了最先进的性能。
- Motivation: 尽管生成式世界模型在视频和基于占据的数据合成方面取得了进展,但LiDAR生成仍然未被充分探索,尽管其在精确3D感知中的重要性。将生成扩展到4D LiDAR数据面临着可控性、时间稳定性和评估方面的挑战。
- Method: 提出LiDARCrafter框架:1)将指令解析为以自我为中心的场景图;2)使用三分支扩散模型转换为对象布局、轨迹和形状;3)通过范围图像扩散模型生成初始扫描;4)使用自回归模块扩展为时间一致的序列;5)支持对象级编辑功能。
- Result: 在nuScenes数据集上,LiDARCrafter实现了最先进的保真度、可控性和时间一致性。同时提供了EvalSuite评估基准,涵盖场景级、对象级和序列级指标。
- Conclusion: LiDARCrafter为基于LiDAR的仿真和数据增强提供了基础框架,成功解决了4D LiDAR数据生成中的关键挑战,包括可控性、时间稳定性和评估问题。
[120] Lost in Embeddings: Information Loss in Vision-Language Models
Wenyan Li,Raphael Tang,Chengzu Li,Caiqi Zhang,Ivan Vulić,Anders Søgaard
Main category: cs.CV
TL;DR: 该论文研究了视觉-语言模型中连接器组件导致的信息损失问题,通过两种方法量化分析投影过程中的语义信息损失及其对模型性能的影响。
- Motivation: 视觉-语言模型通过连接器将视觉特征投影到语言嵌入空间,但这一步骤可能导致信息损失,且这种损失对模型能力的影响尚未得到充分研究。
- Method: 提出两种互补方法:1)通过分析投影前后图像表示的k近邻关系变化来评估语义信息保存;2)从投影表示重建视觉嵌入,在图像块级别定位信息损失。
- Result: 实验发现连接器显著扭曲视觉表示的局部几何结构,k近邻关系在投影后偏离40-60%,与检索性能下降相关。块级重建显示信息损失高的区域能可靠预测模型在视觉问答任务中的困难实例。
- Conclusion: 连接器投影过程存在显著信息损失,这种损失会影响模型性能,提出的分析方法为理解模型行为和改进视觉-语言模型提供了可解释的见解。
[121] Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness
Zixuan Fu,Yan Ren,Finn Carter,Chenyue Wen,Le Ku,Daheng Yu,Emily Davis,Bo Zhang
Main category: cs.CV
TL;DR: SCORE是一个用于扩散模型中概念擦除的新框架,通过对抗性独立性方法实现敏感内容的统计独立删除,在多个基准测试中优于现有方法。
- Motivation: 扩散模型在图像生成方面取得了巨大成功,但在隐私、公平性和安全性方面存在风险,需要有效删除敏感或有害概念(如NSFW内容、私人信息、艺术风格)同时保持整体生成能力。
- Method: SCORE将概念擦除表述为对抗性独立性问题,通过最小化目标概念与生成输出之间的互信息来提供可证明的擦除保证,结合对抗优化、轨迹一致性和显著性驱动的微调。
- Result: 在Stable Diffusion和FLUX上的四个基准测试(对象擦除、NSFW移除、名人脸抑制、艺术风格遗忘)中,SCORE比现有方法(EraseAnything、ANT、MACE、ESD、UCE)表现更好,擦除效果提高12.5%,同时保持相当或更好的图像质量。
- Conclusion: SCORE通过理论保证和实证验证,为扩散模型中的安全鲁棒概念擦除设立了新标准,解决了隐私和安全问题。
[122] RAM++: Robust Representation Learning via Adaptive Mask for All-in-One Image Restoration
Zilong Zhang,Chujie Qin,Chunle Guo,Yong Zhang,Chao Xue,Ming-Ming Cheng,Chongyi Li
Main category: cs.CV
TL;DR: RAM++是一个两阶段图像修复框架,通过自适应语义感知掩码、掩码属性传导和鲁棒特征正则化三个关键设计,实现了在极端场景下的内容导向鲁棒修复。
- Motivation: 解决现有退化导向方法在极端场景(如退化与图像结构强耦合)中的局限性,以及跨任务性能不平衡、对已知退化过拟合、对未知退化泛化能力弱等常见挑战。
- Method: 1) 自适应语义感知掩码(AdaSAM):在语义丰富和纹理区域应用像素级掩码的预训练策略;2) 掩码属性传导(MAC):选择性微调策略,调整贡献度高的层;3) 鲁棒特征正则化(RFR):利用DINOv2的语义一致和退化不变表示进行特征融合。
- Result: RAM++在已知、未知、极端和混合退化场景下实现了鲁棒、平衡且最先进的性能。
- Conclusion: 该框架成功整合了高级语义理解和低级纹理生成,实现了内容导向的鲁棒图像修复,代码和模型将开源。
[123] Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing
Bingyu Li,Haocheng Dong,Da Zhang,Zhiyuan Zhao,Junyu Gao,Xuelong Li
Main category: cs.CV
TL;DR: 本文提出了RSKT-Seg框架,专门针对遥感图像开放词汇分割任务,通过多方向成本图聚合、高效融合变换器和知识迁移模块,在新建的基准测试上显著超越现有方法。
- Motivation: 遥感图像开放词汇分割(OVRSIS)任务缺乏统一的评估基准,且自然图像与遥感图像存在领域差距,现有方法直接应用效果不佳。
- Method: 提出RSKT-Seg框架,包含三个核心组件:多方向成本图聚合模块(RS-CMA)捕捉旋转不变特征;高效成本图融合变换器(RS-Fusion)建模空间语义依赖;遥感知识迁移模块(RS-Transfer)注入预训练知识并增强上采样。
- Result: 在新建的OVRSISBench基准上,RSKT-Seg比强基线方法提升+3.8 mIoU和+5.9 mACC,同时实现2倍推理加速。
- Conclusion: RSKT-Seg为遥感开放词汇分割提供了有效的解决方案,通过专门设计的模块成功解决了领域适应问题,在性能和效率方面都取得了显著提升。
[124] Layout-Conditioned Autoregressive Text-to-Image Generation via Structured Masking
Zirui Zheng,Takashi Isobe,Tong Shen,Xu Jia,Jianbin Zhao,Xiaomin Li,Mengmeng Ge,Baolu Li,Qinghe Wang,Dong Li,Dong Zhou,Yunzhi Zhuge,Huchuan Lu,Emad Barsoum
Main category: cs.CV
TL;DR: SMARLI是一个新颖的布局到图像生成框架,通过结构化掩码策略和GRPO后训练方案,有效解决了AR模型在布局条件生成中的特征纠缠问题,实现了高质量的布局控制图像生成。
- Motivation: 自回归模型在图像生成方面表现出色,但扩展到布局条件生成面临挑战,主要因为布局条件的稀疏性和特征纠缠风险。需要一种方法能够有效整合空间布局约束到AR图像生成中。
- Method: 提出了结构化掩码策略来控制全局提示、布局和图像token之间的交互,防止不同区域与其描述之间的错误关联。同时采用基于Group Relative Policy Optimization的后训练方案,配合专门设计的布局奖励函数来提升生成质量和布局准确性。
- Result: 实验结果表明SMARLI能够无缝整合布局token与文本和图像token,在不影响生成质量的前提下实现卓越的布局感知控制,同时保持AR模型的结构简单性和生成效率。
- Conclusion: SMARLI框架成功解决了AR模型在布局条件图像生成中的关键挑战,通过创新的结构化掩码和强化学习后训练方法,实现了高质量的布局控制图像生成,为AR模型在条件生成任务中的应用提供了有效解决方案。
[125] A Computer Vision Pipeline for Individual-Level Behavior Analysis: Benchmarking on the Edinburgh Pig Dataset
Haiyu Yang,Enhong Liu,Jennifer Sun,Sumit Sharma,Meike van Leerdam,Sebastien Franceschini,Puchun Niu,Miel Hostens
Main category: cs.CV
TL;DR: 提出基于计算机视觉的模块化管道,用于自动化群体饲养环境中的动物行为分析,在猪行为识别任务中达到94.2%的整体准确率,比现有方法提升21.2个百分点。
- Motivation: 传统人工观察动物行为的方法耗时、主观且难以扩展,需要自动化、客观且可扩展的解决方案来提升农业环境中动物福利和健康监测的效率。
- Method: 结合零样本目标检测、运动感知跟踪与分割、以及基于视觉transformer的高级特征提取技术,构建模块化管道处理动物遮挡和群体饲养场景。
- Result: 在爱丁堡猪行为视频数据集上验证,时间模型达到94.2%整体准确率,身份保持得分93.3%,目标检测精度89.3%,相比现有方法显著提升。
- Conclusion: 该模块化管道为精准养猪和福利评估提供了自动化、客观且连续的解决方案,开源实现具有可扩展性,可适应其他场景但需要跨物种验证。
[126] AvatarSync: Rethinking Talking-Head Animation through Autoregressive Perspective
Yuchen Deng,Xiuyang Wu,Hai-Tao Zheng,Suiyang Zhang,Yi He,Yuxing Han
Main category: cs.CV
TL;DR: AvatarSync是一个基于音素表示的自回归框架,通过两阶段生成策略(关键帧生成和帧间插值)从单张参考图像生成高质量、可控的说话头部动画,解决了现有方法存在的帧间闪烁、身份漂移和推理速度慢的问题。
- Motivation: 现有的基于GAN或扩散模型的说话头部动画方法存在帧间闪烁、身份漂移和推理速度慢等局限性,限制了其在实际应用中的适用性。需要开发一种能够生成真实可控、时序一致且高效的说话头部动画解决方案。
- Method: 采用两阶段生成策略:1)面部关键帧生成阶段,通过音素到视觉映射和文本-帧因果注意力掩码生成音素级语义表示;2)帧间插值阶段,使用时序感知自适应策略和选择性状态空间模型实现高效双向上下文推理,确保时序一致性和视觉平滑度。
- Result: 大量实验表明,AvatarSync在视觉保真度、时序一致性和计算效率方面均优于现有的说话头部动画方法,提供了可扩展和可控的解决方案。
- Conclusion: AvatarSync通过创新的两阶段自回归框架,成功解决了说话头部动画中的关键挑战,为高质量、高效率的说话头部动画生成提供了有效的技术路径。
[127] Robust Fetal Pose Estimation across Gestational Ages via Cross-Population Augmentation
Sebastian Diaz,Benjamin Billot,Neel Dey,Molin Zhang,Esra Abaci Turk,P. Ellen Grant,Polina Golland,Elfar Adalsteinsson
Main category: cs.CV
TL;DR: 开发了一个跨群体数据增强框架,通过模拟早期孕周子宫环境和胎儿位置,使姿态估计模型能够仅使用晚期孕周标注数据就能鲁棒地泛化到早期孕周临床队列。
- Motivation: 胎儿运动是神经发育和宫内健康的关键指标,但现有方法主要针对晚期孕周训练,无法泛化到早期孕周,因为存在显著的解剖学变化和早期孕周标注数据获取困难的问题。
- Method: 提出了胎儿特异性数据增强策略,模拟早期孕周特有的宫内环境和胎儿位置,使用跨群体数据增强框架,仅利用晚期孕周标注图像就能训练出适用于早期孕周的姿态估计模型。
- Result: 实验表明跨群体数据增强减少了变异性,并在晚期孕周和具有挑战性的早期孕周病例中都取得了显著改进。
- Conclusion: 通过实现整个孕期的可靠姿态估计,该工作有助于在具有挑战性的4D胎儿成像设置中进行早期临床检测和干预。
[128] End-to-End Learning of Multi-Organ Implicit Surfaces from 3D Medical Imaging Data
Farahdiba Zarin,Nicolas Padoy,Jérémy Dana,Vinkle Srivastav
Main category: cs.CV
TL;DR: ImplMORe是一种基于隐式表面表示的端到端深度学习方法,用于从3D医学图像进行多器官重建,通过连续域特征学习和多尺度插值实现比输入图像分辨率更高的精细表面重建。
- Motivation: 医学3D成像中器官的精细表面重建对诊断和手术规划至关重要,但传统方法受限于分辨率和计算资源。虽然计算机视觉领域已提出隐式表示方法,但由于架构和数据差异,这些方法无法直接应用于医学图像。
- Method: 使用3D CNN编码器提取局部特征,通过多尺度插值在连续域中学习特征,利用占据函数表示器官形状,实现端到端的隐式表面重建。
- Result: 在totalsegmentator数据集上的实验表明,该方法在单器官和多器官重建任务中均优于基于离散显式表示的方法,能够提供比输入图像分辨率更高的精细表面细节。
- Conclusion: ImplMORe通过隐式表示成功解决了医学图像器官重建中的分辨率限制问题,为精细表面重建提供了有效的解决方案,代码将开源发布。
[129] U-Mamba2: Scaling State Space Models for Dental Anatomy Segmentation in CBCT
Zhi Qin Tan,Xiatian Zhu,Owen Addison,Yunpeng Li
Main category: cs.CV
TL;DR: U-Mamba2是一种基于Mamba2状态空间模型和U-Net架构的新型神经网络,用于CBCT多解剖结构分割,在ToothFairy3挑战赛中取得优异性能。
- Motivation: CBCT在牙科3D成像中广泛应用,但准确分割牙颌解剖结构仍然耗时且具有挑战性,需要高效的自动化解决方案。
- Method: 将Mamba2状态空间模型集成到U-Net架构中,加入交互式点击提示和交叉注意力块,采用自监督学习预训练,并融入牙科领域知识。
- Result: 在ToothFairy3挑战赛两个任务中均进入前三名:Task 1 Dice 0.792,HD95 93.19;Task 2 Dice 0.852,HD95 7.39。
- Conclusion: U-Mamba2在CBCT牙科解剖分割中表现出高效性和有效性,为临床诊断和手术规划提供了可靠的自动化工具。
[130] Progressive Flow-inspired Unfolding for Spectral Compressive Imaging
Xiaodong Wang,Ping Wang,Zijun He,Mengjie Qin,Xin Yuan
Main category: cs.CV
TL;DR: 提出了一种轨迹可控的展开框架,用于编码孔径快照光谱成像(CASSI)重建,通过强制平滑连续的优化路径来改善重建质量。
- Motivation: 现有的深度展开网络在CASSI重建中存在重建轨迹不可控的问题,导致质量跳跃和非渐进式细化。
- Method: 受扩散轨迹和流匹配启发,设计了轨迹可控展开框架,包含高效的空间-光谱Transformer和频域融合模块。
- Result: 在仿真和真实数据实验中,该方法在重建质量和效率上都优于现有最先进方法。
- Conclusion: 所提出的轨迹可控展开框架能够实现从噪声初始估计到高质量重建的平滑连续优化路径,显著提升了CASSI重建性能。
[131] End-to-End 4D Heart Mesh Recovery Across Full-Stack and Sparse Cardiac MRI
Yihong Chen,Jiancheng Yang,Deniz Sayin Mercadier,Hieu Le,Juerg Schwitter,Pascal Fua
Main category: cs.CV
TL;DR: TetHeart是首个端到端框架,能从完整CMR堆栈和术中稀疏切片统一重建4D心脏网格,采用深度可变形四面体表示,支持从完整堆栈到单切片的任意稀疏输入。
- Motivation: 现有方法依赖完整CMR堆栈推断心脏运动,限制了在术中仅有稀疏切片可用场景的实用性,需要开发能处理稀疏观测的心脏运动重建方法。
- Method: 使用深度可变形四面体混合表示,包含切片自适应2D-3D特征组装机制和从完整到稀疏设置的蒸馏策略,采用两阶段弱监督运动学习方案仅需关键帧标注。
- Result: 在三个大型公共数据集上训练验证,并在额外私人和公共CMR数据集上零样本评估,在术前和术中设置下均达到最先进精度和强泛化能力。
- Conclusion: TetHeart首次实现了从稀疏切片到完整堆栈的统一4D心脏网格重建,为术中场景提供了实用的心脏运动分析工具。
[132] FS-SAM2: Adapting Segment Anything Model 2 for Few-Shot Semantic Segmentation via Low-Rank Adaptation
Bernardo Forni,Gabriele Lombardi,Federico Pozzi,Mirco Planamente
Main category: cs.CV
TL;DR: FS-SAM2是一个基于Segment Anything Model 2的少样本分割方法,通过LoRA微调技术,仅需训练少量参数就能在多个数据集上取得优异性能。
- Motivation: 现有的少样本分割方法需要在大规模数据集上从头训练额外模块,计算成本高。SAM2作为基础分割模型具有强大的零样本能力,但需要适应少样本分割任务。
- Method: 将SAM2的视频分割能力直接用于少样本任务,采用低秩适应(LoRA)技术对原始模块进行微调,以处理标准数据集中多样化的图像(与SAM2预训练时的时间连续帧不同)。
- Result: 在PASCAL-5^i、COCO-20^i和FSS-1000数据集上取得了显著结果,推理时表现出优秀的计算效率。
- Conclusion: FS-SAM2通过有效利用SAM2的基础能力并结合LoRA微调,实现了高效的少样本分割,支持任意K-shot配置,具有很好的实用价值。
[133] RailSafeNet: Visual Scene Understanding for Tram Safety
Ing. Ondrej Valach,Ing. Ivan Gruber
Main category: cs.CV
TL;DR: RailSafeNet是一个实时轨道安全框架,通过融合语义分割、目标检测和基于规则的距离评估器来检测轨道入侵,仅使用单目视频即可识别轨道、定位附近物体并分类风险等级。
- Motivation: 解决有轨电车在人口密集区域运行时的安全问题,防止与行人、驾驶员、骑行者、宠物和乘客发生碰撞事故,这些碰撞可能从轻微伤害到致命后果。
- Method: 提出RailSafeNet框架,结合语义分割(SegFormer B3模型)识别轨道,目标检测(YOLOv8)定位物体,以及基于规则的距离评估器通过比较投影距离与标准1435mm轨距来分类风险。
- Result: 在RailSem19数据集上,语义分割模型达到65% IoU,目标检测模型达到75.6% mAP(IoU阈值0.50),能够提供准确的场景理解并提前预警危险情况。
- Conclusion: RailSafeNet提供了一种准确且标注要求低的实时安全解决方案,能够在危险情况升级前警告驾驶员,代码已开源。
[134] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
Pu Jian,Junhong Wu,Wei Sun,Chen Wang,Shuo Ren,Jiajun Zhang
Main category: cs.CV
TL;DR: 提出Reflection-V模型,通过视觉中心推理数据构建和基于视觉注意力的奖励设计,增强视觉语言模型的视觉反思能力,在多个视觉推理基准上取得显著提升
- Motivation: 当前视觉推理模型在生成长响应时对视觉信息的注意力迅速下降,缺乏有效的视觉反思能力,需要解决这一关键挑战
- Method: 1) 利用VLMs和推理LLMs之间的交互代理构建视觉中心推理数据,实现冷启动学习;2) 在强化学习中使用基于视觉注意力的奖励模型,鼓励基于视觉信息的推理
- Result: Reflection-V在多个视觉推理基准上表现显著提升,并在视觉推理过程中保持对视觉信息更强、更一致的依赖
- Conclusion: Reflection-V有效增强了视觉反思能力,为视觉推理模型的发展提供了新方向
[135] 3DViT-GAT: A Unified Atlas-Based 3D Vision Transformer and Graph Learning Framework for Major Depressive Disorder Detection Using Structural MRI Data
Nojod M. Alotaibi,Areej M. Alhothali,Manar S. Ali
Main category: cs.CV
TL;DR: 本文提出了一种结合Vision Transformer和Graph Neural Network的统一框架,用于从结构MRI数据中检测重度抑郁症,通过两种区域定义策略(基于图谱和基于立方体)并利用余弦相似度图建模脑区关系,在REST-meta-MDD数据集上取得了78.98%的准确率。
- Motivation: 重度抑郁症(MDD)是一种普遍的精神健康问题,现有基于sMRI和深度学习的自动检测方法大多使用体素级特征或预定义脑图谱的手工区域表示,限制了捕捉复杂脑模式的能力。
- Method: 开发了统一流程:使用Vision Transformers从sMRI数据提取3D区域嵌入,使用Graph Neural Network进行分类。探索了两种区域定义策略:(1)基于预定义结构和功能脑图谱的方法;(2)基于立方体的方法,通过ViT直接从均匀提取的3D patches识别区域。生成余弦相似度图建模脑区间关系,指导GNN分类。
- Result: 在REST-meta-MDD数据集上进行广泛实验,通过分层10折交叉验证,最佳模型获得78.98%准确率、76.54%灵敏度、81.58%特异性、81.58%精确度和78.98% F1分数。基于图谱的方法 consistently优于基于立方体的方法。
- Conclusion: 基于图谱的模型表现更优,强调了使用领域特异性解剖先验知识对于MDD检测的重要性,证明了所提统一框架在抑郁症自动诊断中的有效性。
[136] Open-ended Hierarchical Streaming Video Understanding with Vision Language Models
Hyolim Kang,Yunsu Park,Youngbeom Yoo,Yeeun Choi,Seon Joo Kim
Main category: cs.CV
TL;DR: 提出了分层流式视频理解任务,结合在线时序动作定位和自由描述生成,并开发了OpenHOUSE系统来提升流式动作感知性能
- Motivation: 现有数据集缺乏分层和细粒度时序标注,需要扩展流式动作感知超越单纯的动作分类,实现更丰富的视频理解
- Method: 利用LLMs将原子动作分组为高层事件来丰富数据集,开发专门的流式模块准确检测相邻动作边界
- Result: OpenHOUSE系统将现有方法的性能提升了近一倍,在动作边界检测方面表现优异
- Conclusion: OpenHOUSE代表了流式动作感知向集成强大生成模型方向发展的重要一步,为未来视频理解系统奠定了基础
[137] Multi Anatomy X-Ray Foundation Model
Nishank Singla,Krisztian Koos,Farzin Haddadpour,Amin Honarmandi Shandiz,Lovish Chum,Xiaojian Xu,Qing Jin,Erhan Bas
Main category: cs.CV
TL;DR: XR-0是一个多解剖部位X射线基础模型,通过自监督学习在115万张图像上训练,在12个数据集和20个下游任务中表现出色,证明了解剖多样性和监督对于构建稳健医疗视觉模型的重要性。
- Motivation: 现有AI基础模型主要局限于胸部解剖,无法泛化到更广泛的临床任务,需要开发能够处理多解剖部位的通用X射线模型。
- Method: 使用自监督学习在包含115万张图像的私有数据集上训练多解剖部位X射线基础模型,数据集涵盖多种解剖区域。
- Result: XR-0在大多数多解剖任务中达到最先进性能,在胸部特定基准测试中保持竞争力,在分类、检索、分割、定位、视觉定位和报告生成等任务中表现优异。
- Conclusion: 解剖多样性和监督对于构建稳健、通用的医疗视觉模型至关重要,为放射学中可扩展和适应性强的AI系统铺平了道路。
[138] LoRA-fine-tuned Large Vision Models for Automated Assessment of Post-SBRT Lung Injury
M. Bolhassani,B. Veasey,E. Daugherty,S. Keltner,N. Kumar,N. Dunlap,A. Amini
Main category: cs.CV
TL;DR: 本研究评估了LoRA在微调DinoV2和SwinV2大型视觉模型诊断放射诱导肺损伤方面的效果,相比传统全微调方法,LoRA在保持或提升性能的同时显著降低了计算成本和训练时间。
- Motivation: 研究LoRA在大型视觉模型微调中的有效性,特别是在医学影像诊断领域,旨在提高模型训练效率并降低计算资源需求。
- Method: 使用两种尺寸的裁剪图像(50mm³和75mm³),以治疗等中心为中心,比较LoRA与传统全微调和仅推理方法,并探索2D模型适应3D数据的不同技术。
- Result: 实验结果表明,LoRA在性能上与传统微调相当或更优,同时通过减少可训练参数显著降低了计算成本和训练时间。
- Conclusion: LoRA是一种高效的大型视觉模型微调方法,在医学影像诊断任务中具有显著的计算效率优势,为临床应用提供了可行的解决方案。
[139] HoloGarment: 360° Novel View Synthesis of In-the-Wild Garments
Johanna Karras,Yingwei Li,Yasamin Jafarian,Ira Kemelmacher-Shlizerman
Main category: cs.CV
TL;DR: HoloGarment是一种新颖的视图合成方法,能够从1-3张图像或连续视频中生成服装的360度新视角视图,通过结合真实视频数据和合成3D数据来优化共享服装嵌入空间,有效处理遮挡、复杂姿态和服装变形等挑战。
- Motivation: 解决野外服装新视角合成中的挑战,包括显著遮挡、复杂人体姿态和服装变形。先前方法依赖合成3D训练数据,导致在真实世界服装上泛化能力差。
- Method: 提出HoloGarment方法,使用新颖的隐式训练范式,结合大规模真实视频数据和小规模合成3D数据来优化共享服装嵌入空间。在推理时通过构建服装"atlas"表示实现动态视频到360度新视角合成。
- Result: 在野外服装的新视角合成任务上达到最先进性能,能够鲁棒处理真实世界中的皱纹、姿态变化和遮挡等挑战,同时保持照片真实感、视角一致性、精细纹理细节和准确几何形状。
- Conclusion: HoloGarment通过创新的训练范式和共享嵌入空间,成功解决了真实世界服装新视角合成的关键挑战,为处理复杂服装场景提供了有效的解决方案。
[140] Domain-Adaptive Pretraining Improves Primate Behavior Recognition
Felix B. Mueller,Timo Lueddecke,Richard Vogg,Alexander S. Ecker
Main category: cs.CV
TL;DR: 本文提出使用自监督学习和领域自适应预训练(DAP)方法,显著提升了灵长类动物行为识别的准确率,在两个数据集上分别比现有最佳模型提高了6.1%和6.3%的准确率。
- Motivation: 动物行为计算机视觉研究面临大规模数据标注成本高的问题,需要数据高效的学习方法来解决这一瓶颈。
- Method: 使用预训练的V-JEPA模型,并应用领域自适应预训练(DAP)方法,即在领域内数据上继续预训练,无需标注样本。
- Result: 在PanAf和ChimpACT两个大猿行为数据集上,分别比已发布的最先进行为识别模型提高了6.1%的准确率和6.3%的mAP。
- Conclusion: 该方法在无需标注样本的情况下显著提升了动物行为识别性能,具有巨大的应用潜力。
[141] 3D Human Pose and Shape Estimation from LiDAR Point Clouds: A Review
Salma Galaaoui,Eduardo Valle,David Picard,Nermin Samet
Main category: cs.CV
TL;DR: 本文对基于LiDAR点云的3D人体姿态估计和人体网格恢复方法进行了系统性综述,提出了分类法,比较了现有方法,建立了基准数据集和评估标准,并指出了未来研究方向。
- Motivation: 随着LiDAR技术在自动驾驶和机器人领域的广泛应用,从LiDAR点云中准确估计3D人体姿态和形状变得日益重要。现有方法缺乏系统性的比较和统一的评估标准,需要建立公平的基准来推动该领域的发展。
- Method: 提出了结构化的分类法来系统分类现有方法;对三个最广泛使用的数据集进行定量比较;统一了所有评估指标的定义;建立了两个任务的基准表格;维护了持续更新的网页资源库。
- Result: 建立了全面的综述框架和分类体系,提供了统一的数据集特征分析和评估标准,创建了公平比较的基准表格,为研究者提供了系统性的参考资源。
- Conclusion: 该研究为LiDAR-based 3D人体理解领域提供了重要的基础工作,通过系统性的综述和基准建立,将促进该领域的公平比较和技术进步,同时指出了未来需要解决的关键挑战和研究方向。
[142] OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
Yang Zhou,Yifan Wang,Jianjun Zhou,Wenzheng Chang,Haoyu Guo,Zizun Li,Kaijing Ma,Xinyue Li,Yating Wang,Haoyi Zhu,Mingyu Liu,Dingning Liu,Jiange Yang,Zhoujie Fu,Junyi Chen,Chunhua Shen,Jiangmiao Pang,Kaipeng Zhang,Tong He
Main category: cs.CV
TL;DR: OmniWorld是一个大规模多领域多模态数据集,专门为4D世界建模设计,包含新收集的OmniWorld-Game数据集和多个精选公共数据集,旨在解决现有数据在动态复杂性、多领域多样性和时空标注方面的不足。
- Motivation: 当前4D世界建模领域的发展受到高质量数据可用性的根本限制,现有数据集缺乏动态复杂性、多领域多样性和时空标注,无法支持4D几何重建、未来预测和相机控制视频生成等关键任务。
- Method: 引入OmniWorld数据集,包括新收集的OmniWorld-Game数据集(提供更丰富的模态覆盖、更大规模和更真实的动态交互)和多个精选公共数据集,并基于此建立具有挑战性的基准测试。
- Result: 基准测试暴露了当前最先进方法在建模复杂4D环境方面的局限性,同时在OmniWorld上微调现有SOTA方法在4D重建和视频生成任务上带来了显著的性能提升。
- Conclusion: OmniWorld作为训练和评估的强大资源,有望加速通用4D世界模型的发展,最终推动机器对物理世界的整体理解。
[143] LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
Zixin Yin,Xili Dai,Duomin Wang,Xianfang Zeng,Lionel M. Ni,Gang Yu,Heung-Yeung Shum
Main category: cs.CV
TL;DR: LazyDrag是首个基于拖拽的多模态扩散变换器图像编辑方法,通过显式对应映射消除对隐式点匹配的依赖,实现稳定的全强度反演过程,无需测试时优化,统一了几何控制与文本引导。
- Motivation: 现有基于拖拽的编辑方法依赖注意力机制的隐式点匹配,导致反演强度减弱和昂贵的测试时优化,限制了扩散模型的高保真修复和文本引导创作能力。
- Method: LazyDrag从用户拖拽输入生成显式对应映射作为可靠参考来增强注意力控制,支持稳定的全强度反演过程,无需测试时优化,支持多轮工作流和同时移动缩放操作。
- Result: 在DragBench评估中,LazyDrag在拖拽准确性和感知质量方面优于基线方法,经VIEScore和人工评估验证,建立了新的最先进性能。
- Conclusion: LazyDrag不仅实现了最先进的性能,还为编辑范式开辟了新途径,能够实现之前无法完成的复杂编辑任务,如统一精确几何控制与文本引导。
[144] Character-Centric Understanding of Animated Movies
Zhongrui Gui,Junyu Xie,Tengda Han,Weidi Xie,Andrew Zisserman
Main category: cs.CV
TL;DR: 提出音频-视觉动画角色识别管道,通过构建多模态角色库实现鲁棒识别,并应用于无障碍字幕和音频描述生成
- Motivation: 动画角色外观多样且变形严重,传统人脸识别方法难以处理,需要新的多模态方法来提升动画内容理解和无障碍访问
- Method: 自动构建包含视觉样本和语音样本的音频-视觉角色库,开发多模态角色识别系统,支持长尾分布的外观识别
- Result: 构建CMD-AM数据集(75部动画电影),在角色识别准确性和无障碍应用方面显著优于基于人脸检测的方法
- Conclusion: 音频-视觉多模态方法能有效解决动画角色识别挑战,提升动画内容的无障碍访问和叙事理解能力
cs.AI
[145] Maestro: Self-Improving Text-to-Image Generation via Agent Orchestration
Xingchen Wan,Han Zhou,Ruoxi Sun,Hootan Nakhost,Ke Jiang,Rajarishi Sinha,Sercan Ö. Arık
Main category: cs.AI
TL;DR: Maestro是一个自演进图像生成系统,通过自我批判和自我进化机制,让T2I模型仅从初始提示就能自主改进生成图像质量
- Motivation: 解决T2I模型过度依赖人工干预、需要手动迭代提示工程的问题,提升用户体验和生成效果
- Method: 采用多模态LLM代理作为'评论家'进行自我批判识别图像弱点,使用MLLM-as-a-judge进行头对头比较实现自我进化,迭代优化提示
- Result: 在复杂T2I任务上显著提升图像质量,效果优于初始提示和最先进的自动化方法,且随着MLLM组件升级效果更佳
- Conclusion: 提供了一个稳健、可解释且有效的自改进T2I生成路径,实现了仅凭初始提示就能自主优化图像生成的能力
[146] Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs
Amir Taherin,Juyi Lin,Arash Akbari,Arman Akbari,Pu Zhao,Weiwei Chen,David Kaeli,Yanzhi Wang
Main category: cs.AI
TL;DR: 本文评估了5种VLA模型在不同硬件平台上的性能表现,发现在边缘设备上某些配置可以匹配甚至超越数据中心GPU的性能,挑战了数据中心硬件在机器人推理中的优越性假设。
- Motivation: VLA模型作为机器人控制的通用策略虽然强大,但其在不同模型架构和硬件平台上的性能扩展以及相关的功耗预算仍然缺乏深入理解。
- Method: 使用LIBERO基准测试,评估了5种代表性VLA模型(包括最先进的基准模型和两种新提出的架构),在边缘和数据中心GPU平台上测量准确性以及系统级指标(延迟、吞吐量、峰值内存使用量)。
- Result: 发现了明显的扩展趋势:(1)架构选择(如动作标记化和模型主干大小)强烈影响吞吐量和内存占用;(2)功率受限的边缘设备表现出非线性性能下降,某些配置匹配或超越旧的数据中心GPU;(3)可以在不显著损失准确性的情况下实现高吞吐量变体。
- Conclusion: 这些发现为在不同部署约束条件下选择和优化VLA提供了可行的见解,挑战了当前关于数据中心硬件在机器人推理中优越性的假设。
[147] Advancing Medical Artificial Intelligence Using a Century of Cases
Thomas A. Buckley,Riccardo Conci,Peter G. Brodeur,Jason Gusdorf,Sourik Beltrán,Bita Behrouzi,Byron Crowe,Jacob Dockterman,Muzzammil Muhammad,Sarah Ohnigian,Andrew Sanchez,James A. Diao,Aashna P. Shah,Daniel Restrepo,Eric S. Rosenberg,Andrew S. Lea,Marinka Zitnik,Scott H. Podolsky,Zahir Kanjee,Raja-Elie E. Abdulnour,Jacob M. Koshy,Adam Rodman,Arjun K. Manrai
Main category: cs.AI
TL;DR: LLMs在复杂文本鉴别诊断方面超越医生表现,并能有效模拟专家医学演示,但在图像解读和文献检索方面仍有不足。研究开发了CPC-Bench基准和Dr. CaBot AI系统来持续追踪医学AI进展。
- Motivation: 传统AI评估仅关注最终诊断,未能全面评估专家医师所需的多方面推理和演示技能。研究旨在创建综合基准来评估AI在医学推理各方面的能力。
- Method: 使用7102个临床病理会议案例和1021个图像挑战,创建了CPC-Bench基准,评估领先LLMs在10个文本和多模态任务上的表现,并开发了Dr. CaBot AI讨论系统。
- Result: o3模型在60%案例中排名第一诊断,84%案例进入前十,优于20名医生基线。在盲测中,医生74%情况下无法区分AI和人类生成的鉴别诊断文本。图像任务准确率为67%。
- Conclusion: LLMs在文本诊断方面表现优异,能有效模拟专家演示,但图像解读和文献检索仍需改进。CPC-Bench和CaBot为医学AI进展提供了透明追踪工具。
cs.GR
[148] AD-GS: Alternating Densification for Sparse-Input 3D Gaussian Splatting
Gurutva Patle,Nilay Girgaonkar,Nagabhushan Somraj,Rajiv Soundararajan
Main category: cs.GR
TL;DR: AD-GS提出了一种交替密度化框架,通过高密度化和低密度化阶段的交替进行,有效解决了3D高斯泼溅在稀疏视图下的过拟合问题,显著提升了渲染质量和几何一致性。
- Motivation: 3D高斯泼溅在稀疏视图设置下容易产生浮游物、几何不准确和过拟合等伪影,主要原因是无控制的密度化过程。
- Method: 采用交替密度化框架:高密度化阶段进行激进的密度化并基于光度损失训练以捕捉细节;低密度化阶段进行激进的透明度剪枝,并通过伪视图一致性和边缘感知深度平滑来正则化几何。
- Result: 在具有挑战性的数据集上的广泛实验表明,AD-GS相比现有方法显著提升了渲染质量和几何一致性。
- Conclusion: 交替密度化方法通过精心控制模型容量增长和逐步细化场景表示,有效减少了过拟合问题,为稀疏视图下的3D重建提供了更好的解决方案。
[149] SH-SAS: An Implicit Neural Representation for Complex Spherical-Harmonic Scattering Fields for 3D Synthetic Aperture Sonar
Omkar Shailendra Vengurlekar,Adithya Pediredla,Suren Jayasuriya
Main category: cs.GR
TL;DR: SH-SAS是一种基于球谐函数的隐式神经表示方法,用于合成孔径声纳的3D重建,能够同时建模各向同性和各向异性散射,直接从一维飞行时间信号训练,无需中间波束形成图像监督。
- Motivation: 传统时域反投影算法无法建模方向依赖性散射,且存在采样限制、混叠和遮挡问题。现有的神经体积方法将每个体素视为各向同性散射密度,无法处理各向异性返回。
- Method: 使用多分辨率哈希编码器输入轻量级MLP,输出复数球谐系数(最高到L阶)。零阶系数作为各向同性散射场(密度项),高阶系数紧凑地捕获方向性散射。模型直接预测任意发射-接收基线的复振幅,从一维飞行时间信号直接训练。
- Result: 在合成和真实SAS基准测试(包括空中和水下)中,SH-SAS在3D重建质量和几何度量方面优于先前方法。
- Conclusion: SH-SAS通过球谐函数表示成功建模了方向依赖性声学散射,实现了直接从原始信号的高质量3D重建,参数开销最小,性能优于现有方法。
cs.IR
[150] DSRAG: A Domain-Specific Retrieval Framework Based on Document-derived Multimodal Knowledge Graph
Mengzheng Yang,Yanfei Ren,David Osei Opoku,Ruochang Li,Peng Ren,Chunxiao Xing
Main category: cs.IR
TL;DR: 提出了DSRAG框架,通过多模态知识图谱增强检索增强生成,解决领域特定问答中的知识幻觉问题,提升准确性和可靠性
- Motivation: 当前通用大语言模型在领域特定任务中存在知识幻觉和领域适应性不足的问题,传统RAG方法在领域知识准确性和上下文建模方面仍有局限
- Method: 利用领域特定文档构建多模态知识图谱,整合文本、图像、表格等异构信息,提出语义剪枝和结构化子图检索机制,结合知识图谱上下文和向量检索结果指导语言模型生成
- Result: 使用Langfuse多维评分机制评估显示,该方法在领域特定问答任务中表现优异
- Conclusion: 多模态知识图谱与检索增强生成的结合有效提升了领域特定问答的性能和可靠性
cs.IT
[151] Rate-Distortion Limits for Multimodal Retrieval: Theory, Optimal Codes, and Finite-Sample Guarantees
Thomas Y. Chen
Main category: cs.IT
TL;DR: 本文建立了多模态检索的信息理论极限,提出了基于率失真理论的排序框架,推导出单字母率失真函数R(D),并构建了熵加权随机量化器,在理论和实验上验证了方法的有效性。
- Motivation: 当前多模态检索缺乏信息理论基础,需要回答"每个查询需要多少比特才能实现高质量检索"这一根本问题,并为对比学习目标、持续学习检索器和检索增强生成器提供设计指导。
- Method: 将排序建模为有损源编码问题,推导出单字母率失真函数R(D),构建熵加权随机量化器,采用自适应模态温度解码器,使用Blahut-Arimoto算法证明方法接近理论极限。
- Result: 理论分析显示方法在n个训练三元组下达到与R(D)的O(n^{-1})失真距离,VC类型分析得到复杂度随模态数和熵差距次线性增长的有限样本超额风险界。在Gaussian mixtures和Flickr30k上的实验表明自适应编码方法接近理论前沿。
- Conclusion: 研究为多模态检索提供了信息理论基础,回答了比特需求问题,并为相关应用提供了熵感知的设计指导,固定温度和朴素CLIP基线表现显著落后。
cs.CR
[152] Realistic Environmental Injection Attacks on GUI Agents
Yitong Zhang,Ximo Li,Liyi Cai,Jia Li
Main category: cs.CR
TL;DR: 本文提出了Chameleon攻击框架,针对GUI代理在动态网页环境中的安全漏洞,通过LLM驱动的环境模拟和注意力黑洞机制,显著提升了在现实威胁模型下的攻击效果。
- Motivation: 现有GUI代理攻击研究假设过于理想化,无法反映真实网页的动态性和小尺寸触发图像的现实场景,需要更真实的威胁模型来暴露代理的潜在漏洞。
- Method: 提出Chameleon框架:1)LLM驱动环境模拟自动生成多样化高保真网页模拟;2)注意力黑洞机制将注意力权重转化为显式监督信号,引导代理关注触发区域。
- Result: 在6个真实网站和4个代表性LVLM GUI代理上评估,Chameleon显著优于现有方法,消融研究证实两个创新点对性能都至关重要。
- Conclusion: 研究揭示了现代GUI代理中未被充分探索的漏洞,为开放世界GUI代理系统的防御研究奠定了坚实基础。
cs.CL
[153] CoachMe: Decoding Sport Elements with a Reference-Based Coaching Instruction Generation Model
Wei-Hsin Yeh,Yu-An Su,Chih-Ning Chen,Yi-Hsueh Lin,Calvin Ku,Wen-Hsin Chiu,Min-Chun Hu,Lun-Wei Ku
Main category: cs.CL
TL;DR: CoachMe是一个基于参考的运动指导模型,通过分析学习者动作与参考动作在时间和物理层面的差异,生成高质量、运动专项的纠正指导
- Motivation: 解决现有多模态模型在生成精确运动指导方面的挑战,特别是运动领域的高度专业性和需要提供信息性指导的需求
- Method: 提出参考基模型,分析学习者动作与参考动作在时间和物理方面的差异,实现领域知识学习和教练式思维过程获取
- Result: 在花样滑冰上比GPT-4o提升31.6%,在拳击上提升58.3%,能够详细阐述错误并提供相应的改进方法
- Conclusion: CoachMe能够有效适应特定运动项目,通过从通用运动学习并利用有限数据,生成高质量的运动指导而非仅具有教练语气但缺乏关键信息的方向性建议
cs.RO
[154] Nav-R1: Reasoning and Navigation in Embodied Scenes
Qingxiang Liu,Ting Huang,Zeyu Zhang,Hao Tang
Main category: cs.RO
TL;DR: Nav-R1是一个统一的具身推理基础模型,通过大规模思维链数据集和GRPO强化学习框架,实现了高效且连贯的导航推理。
- Motivation: 解决现有具身导航方法中推理轨迹不连贯不稳定、难以平衡长时程语义推理与低延迟实时控制的问题。
- Method: 构建Nav-CoT-110K大规模思维链数据集,设计基于GRPO的强化学习框架(包含格式、理解和导航三个奖励),采用Fast-in-Slow推理范式分离语义推理和反应控制。
- Result: 在具身AI基准测试中平均提升8%以上的推理和导航性能,在移动机器人上验证了有限资源下的鲁棒性。
- Conclusion: Nav-R1通过统一的推理框架和创新的训练范式,显著提升了具身导航的连贯性、稳定性和实时性能。
[155] ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations
Zheng Li,Pei Qu,Yufei Jia,Shihui Zhou,Haizhou Ge,Jiahang Cao,Jinni Zhou,Guyue Zhou,Jun Ma
Main category: cs.RO
TL;DR: ManiVID-3D是一个新颖的3D强化学习架构,通过自监督解耦特征学习实现视角不变表示,无需相机标定即可处理任意视角的点云观测,在视角变化下比现有方法成功率提高44.7%,参数减少80%。
- Motivation: 解决视觉强化学习策略在真实世界部署中因相机视角变化而失效的问题,现有方法依赖精确相机标定或难以处理大视角变化。
- Method: 提出ViewNet轻量级模块自动对齐任意视角的点云观测到统一空间坐标系,开发高效GPU加速批量渲染模块(每秒处理5000帧),通过自监督解耦特征学习实现视角不变表示。
- Result: 在10个模拟和5个真实世界任务中评估,相比最先进方法在视角变化下成功率提高44.7%,参数减少80%,对严重视角变化具有鲁棒性,表现出强大的模拟到真实性能。
- Conclusion: 学习几何一致表示对于非结构化环境中可扩展机器人操作的有效性得到验证,系统在视角变化下表现出优异性能和鲁棒性。
[156] DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation
Yunheng Wang,Yuetong Fang,Taowen Wang,Yixiao Feng,Yawen Tan,Shuning Zhang,Peiran Liu,Yiding Ji,Renjing Xu
Main category: cs.RO
TL;DR: DreamNav是一个零样本视觉语言导航方法,通过视角校正、轨迹级规划和主动想象来解决现有方法成本高、动作语义不对齐和规划短视的问题,在VLN-CE任务上取得了新的SOTA性能。
- Motivation: 现有的零样本VLN方法依赖昂贵的感知和被动场景理解,将控制简化为点级选择,导致部署成本高、动作语义不对齐和规划短视。需要一种更高效、语义对齐且具有长视野规划能力的方法。
- Method: 提出DreamNav方法,包含三个核心组件:(1)EgoView Corrector对齐视角并稳定自我中心感知;(2)Trajectory Predictor进行全局轨迹级规划以更好对齐指令语义;(3)Imagination Predictor赋予智能体主动思考能力,实现预期性和长视野规划。
- Result: 在VLN-CE和真实世界测试中,DreamNav建立了新的零样本SOTA,在SR和SPL指标上分别比最强的自我中心基线高出7.49%和18.15%,且仅使用自我中心输入。
- Conclusion: DreamNav是第一个统一轨迹级规划和主动想象的零样本VLN方法,有效解决了现有方法的局限性,为具身机器人的视觉语言导航提供了更实用的解决方案。
[157] Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations
Shresth Grover,Akshay Gopalkrishnan,Bo Ai,Henrik I. Christensen,Hao Su,Xuanlin Li
Main category: cs.RO
TL;DR: 提出一个保护预训练特征的视觉-语言-动作模型微调框架,通过双编码器设计、字符串动作标记化和协同训练策略,在机器人操作任务中实现更好的泛化性能
- Motivation: 直接从视觉语言模型微调得到的VLA模型往往会破坏预训练表示,限制泛化能力,需要更好的方法来保持预训练特征的同时适应机器人任务
- Method: 采用三个关键组件:(i)双编码器设计(一个冻结视觉编码器保持特征,一个可训练编码器适应任务)(ii)字符串动作标记化将连续动作转换为字符序列(iii)协同训练策略结合机器人演示数据和视觉语言数据集
- Result: 在仿真和真实机器人上的评估显示,该方法在视觉扰动鲁棒性、新指令和环境泛化能力以及整体任务成功率方面均优于基线方法
- Conclusion: 该框架有效保护了预训练特征,同时成功适应机器人操作任务,为构建通用机器人系统提供了有前景的方向
[158] ParaEQsA: Parallel and Asynchronous Embodied Questions Scheduling and Answering
Haisheng Wang,Weiming Zhi
Main category: cs.RO
TL;DR: 本文提出了并行异步问答问题(EQsA)和ParaEQsA框架,通过优先级规划和共享记忆模块实现多问题并行处理,在PAEQs基准测试中显著优于传统顺序方法。
- Motivation: 传统EQA只能处理单个问题,而实际部署中需要处理异步到达、具有不同紧急程度的多个问题,因此需要新的并行处理框架。
- Method: 提出ParaEQsA框架,包含共享记忆模块减少冗余探索,优先级规划模块动态调度问题,使用DAR和NUWL指标评估性能。
- Result: ParaEQsA在PAEQs基准测试中持续优于强顺序基线方法,减少了探索和延迟,验证了优先级、紧急度建模等关键组件的有效性。
- Conclusion: 紧急度感知的并行调度是使具身代理在现实多问题工作负载下保持响应性和效率的关键技术。
[159] TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning
Jiacheng Liu,Pengxiang Ding,Qihang Zhou,Yuxuan Wu,Da Huang,Zimian Peng,Wei Xiao,Weinan Zhang,Lixin Yang,Cewu Lu,Donglin Wang
Main category: cs.RO
TL;DR: 提出了KORR框架,结合Koopman算子理论进行全局动力学建模,指导残差策略学习,在长时程精细机器人装配任务中显著提升性能、鲁棒性和泛化能力
- Motivation: 现有残差策略学习主要关注局部修正,缺乏对状态演化的全局理解,限制了在未见场景中的鲁棒性和泛化能力
- Method: 利用Koopman算子理论在学习潜空间中施加线性时不变结构,通过Koopman预测的潜状态条件化残差修正,实现全局信息指导的稳定动作精炼
- Result: 在长时程精细机器人家具装配任务的各种扰动下,相比强基线方法 consistently 获得性能、鲁棒性和泛化能力的提升
- Conclusion: Koopman-based建模有潜力桥接现代学习方法与经典控制理论,KORR框架简单有效,为残差策略学习提供了全局动力学指导的新思路
eess.IV
[160] MIDOG 2025 Track 2: A Deep Learning Model for Classification of Atypical and Normal Mitotic Figures under Class and Hardness Imbalances
Sujatha Kotte,Vangala Govindakrishnan Saipradeep,Vidushi Walia,Dhandapani Nandagopal,Thomas Joseph,Naveen Sivadasan,Bhagat Singh Lali
Main category: eess.IV
TL;DR: 提出基于ResNet的深度学习模型,通过专门分类头和焦点损失函数,有效解决有丝分裂图像分类中的类别不平衡和形态差异挑战,在MIDOG 2025数据集上取得优异性能。
- Motivation: 准确分类正常和异常有丝分裂图像对肿瘤预后评估至关重要,但由于形态差异细微、类别不平衡和难度差异等挑战,需要开发鲁棒的深度学习模型。
- Method: 使用ResNet骨干网络配合专门分类头,同时建模有丝分裂表型和实例难度;采用焦点损失处理类别不平衡,并通过数据增强提高模型鲁棒性和泛化能力。
- Result: 在MIDOG 2025 Track 2数据集5折交叉验证中,平均平衡准确率0.8744±0.0093,ROC AUC 0.9505±0.029;在初步排行榜评估中整体平衡准确率0.8736±0.0204。
- Conclusion: 该方法为解决真实世界数据挑战提供了可靠且可泛化的解决方案,有望支持临床精确预后评估并提高病理诊断一致性。
[161] FireGNN: Neuro-Symbolic Graph Neural Networks with Trainable Fuzzy Rules for Interpretable Medical Image Classification
Prajit Sengupta,Islem Rekik
Main category: eess.IV
TL;DR: FireGNN是一个可解释的图神经网络框架,通过集成可训练的模糊规则来提升医学图像分类的透明度和性能。
- Motivation: 医学图像分类需要高预测性能和可解释性以确保临床信任,但标准GNN往往作为黑盒运行,限制了在临床环境中的透明度和可用性。
- Method: 将可训练的模糊规则集成到GNN中,使用可学习的阈值和锐度参数嵌入拓扑描述符(节点度、聚类系数、标签一致性),并探索辅助自监督任务来评估拓扑学习的贡献。
- Result: 在五个MedMNIST基准测试和合成数据集MorphoMNIST上实现了强劲性能,同时生成基于规则的可解释解释。
- Conclusion: 这是首次在GNN中集成可训练模糊规则的工作,为医学图像分类提供了高性能且可解释的解决方案。
[162] Automated Cervical Os Segmentation for Camera-Guided, Speculum-Free Screening
Aoife McDonald-Bowyer,Anjana Wijekoon,Ryan Laurance Love,Katie Allan,Scott Colvin,Aleksandra Gentry-Maharaj,Adeola Olaitan,Danail Stoyanov,Agostino Stilli,Sophia Bano
Main category: eess.IV
TL;DR: 该研究评估了深度学习模型在经阴道内窥镜图像中实时分割宫颈口的性能,发现基于视觉变换器的EndoViT/DPT模型表现最佳,为无窥器宫颈筛查设备的自动化识别提供了技术基础。
- Motivation: 宫颈癌高度可预防,但筛查障碍限制了消除目标的进展。无窥器设备需要可靠的视觉引导来改善筛查可及性,特别是在资源匮乏地区。
- Method: 比较了五种编码器-解码器架构,使用IARC宫颈图像数据集的913帧图像,采用十折交叉验证评估IoU、DICE、检测率和距离指标。
- Result: EndoViT/DPT模型获得最高DICE分数(0.50±0.31)和检测率(0.87±0.33),优于CNN方法,在幻影数据外部验证中表现出稳健的分割性能,达到21.5 FPS实时处理速度。
- Conclusion: 研究结果为将自动化宫颈口识别集成到无窥器宫颈筛查设备中奠定了基础,支持在高低资源环境下非专业人员的使用。
[163] Adapting Medical Vision Foundation Models for Volumetric Medical Image Segmentation via Active Learning and Selective Semi-supervised Fine-tuning
Jin Yang,Daniel S. Marcus,Aristeidis Sotiras
Main category: eess.IV
TL;DR: 提出了一种主动无源域适应方法(ASFDA),通过主动学习选择信息量最大的目标域样本,在无需源域预训练数据的情况下高效微调医学视觉基础模型,用于体积医学图像分割。
- Motivation: 医学视觉基础模型(Med-VFMs)在医学图像解释方面具有优越能力,但缺乏高效适应目标域的方法。现有方法随机选择样本进行微调,无法实现最优性能。需要设计一种高效的方法,通过选择信息量最大的样本来最大化模型在目标域的适应性能。
- Method: 提出主动无源域适应(ASFDA)方法,包含:1)新颖的主动学习方法,使用多样化知识差异(DKD)和解剖分割难度(ASD)两个查询指标选择目标域样本;2)选择性半监督微调,从未查询样本中识别高可靠性样本提高微调效率和性能。
- Result: 该方法能够在无需访问源预训练样本的情况下,通过最小选择预算最大化Med-VFMs在目标域的性能,特别适用于体积医学图像分割任务。
- Conclusion: ASFDA方法为医学视觉基础模型的高效域适应提供了一种有效的解决方案,通过智能样本选择和半监督微调策略,显著提高了模型在目标域的适应效率和性能。
[164] Branched Broomrape Detection in Tomato Farms Using Satellite Imagery and Time-Series Analysis
Mohammadreza Narimani,Alireza Pourreza,Ali Moghimi,Parastoo Farajpoor,Hamid Jafarbiglu,Mohsen Mesgaran
Main category: eess.IV
TL;DR: 本文开发了一个基于Sentinel-2卫星影像和时间序列分析的端到端管道,用于早期检测番茄田中的分枝列当寄生植物,准确率达到87%
- Motivation: 分枝列当是一种叶绿素缺乏的寄生植物,可导致番茄产量损失高达80%。其地下生命周期和大量种子生产(每株超过20万粒种子,可存活20年)使得早期检测至关重要
- Method: 使用Sentinel-2影像处理12个光谱波段和太阳-传感器几何数据,计算20个植被指数,通过神经网络推导5种植被性状。利用长短期记忆(LSTM)网络在48个生长度日时间点上对18,874个像素进行训练
- Result: 模型达到88%的训练准确率和87%的测试准确率,精确度0.86,召回率0.92,F1分数0.89。NDMI、冠层叶绿素含量、FAPAR和叶绿素红边指数被确定为最有效的特征
- Conclusion: 结果表明卫星驱动的时间序列建模在规模化检测番茄农场寄生胁迫方面具有巨大潜力
[165] UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction
Zhi Chen
Main category: eess.IV
TL;DR: UltraUPConvNet是一个计算高效的通用框架,用于超声图像分类和分割,在多个数据集上达到最先进性能且计算开销更低
- Motivation: 当前AI研究通常将疾病预测和组织分割作为两个独立任务处理,且模型需要大量计算开销,需要开发一个既能同时处理这两个任务又计算高效的解决方案
- Method: 提出了UltraUPConvNet框架,在大规模数据集(包含7个不同解剖区域的9700多个标注)上进行训练
- Result: 模型在某些数据集上实现了最先进的性能,同时具有较低的计算开销
- Conclusion: 该框架为超声图像分析提供了有效的通用解决方案,模型权重和代码已开源
[166] Data-driven Smile Design: Personalized Dental Aesthetics Outcomes Using Deep Learning
Marcus Lin,Jennifer Lai
Main category: eess.IV
TL;DR: 本文提出了一种整合AI、大数据和识别技术的综合系统,用于自动化微笑设计过程,使经验丰富和经验不足的牙医都能轻松生成美观的微笑设计。
- Motivation: 传统微笑设计过度依赖牙医专业知识,使用石膏模型和手绘,结果存在不确定性。数字技术虽然有所改进,但输出仍受从业者偏见或训练数据限制的影响。
- Method: 开发了一个包含面部特征提取模块和图像生成模块的综合系统,整合AI、大数据和识别技术来自动化微笑设计过程。
- Result: 该系统能够服务于不同的从业者和患者需求,未来可整合用户数据进行设计优化,并测试虚拟和增强现实进行实时预览。
- Conclusion: 这种综合系统有潜力改善牙科实践中的微笑设计,收集的数据还可用于美学偏好分析,增强对微笑设计的理解。
eess.AS
[167] Spectral Bottleneck in Deep Neural Networks: Noise is All You Need
Hemanth Chandravamsi,Dhanush V. Shenoy,Itay Zinn,Shimon Pisnoy,Steven H. Frankel
Main category: eess.AS
TL;DR: 提出了WINNER权重初始化方法,通过基于目标信号频谱质心的自适应高斯噪声扰动,解决神经网络在拟合高频主导信号时的频谱瓶颈问题。
- Motivation: 深度神经网络存在频谱学习偏差,低频成分先被学习,高频成分学习缓慢。当目标信号缺乏低频成分且被宽带高频主导时,会出现频谱瓶颈,导致模型无法有效重建信号。
- Method: 提出WINNER权重初始化方案:对均匀初始化的权重添加高斯噪声扰动,噪声尺度根据目标信号的频谱质心自适应确定,从而控制网络激活谱和神经正切核的特征基。
- Result: 该方法不仅解决了频谱瓶颈问题,还实现了更快的收敛速度和更高的表示精度,在音频拟合任务中超越现有最佳方法,在图像拟合和去噪任务中也取得显著提升。
- Conclusion: WINNER方法为计算机视觉和科学机器学习中的自适应权重初始化策略开辟了新方向,能够有效拟合任意频率内容的目标信号。
q-bio.QM
[168] Introduction to a Low-Cost AI-Powered GUI for Unstained Cell Culture Analysis
Surajit Das,Pavel Zun
Main category: q-bio.QM
TL;DR: 开发了一个基于Python的显微镜图像分析框架,可在标准CPU桌面上对未染色活细胞进行细胞计量分析,无需人工标注训练数据或训练阶段,具有用户友好的GUI界面和优异的准确性。
- Motivation: 为低预算实验室提供可在标准CPU硬件上运行的显微镜图像分析工具,实现对未染色活细胞的自动化分析,避免传统方法需要染色或大量标注数据的限制。
- Method: 采用先进的计算机视觉和机器学习流水线,基于无标签数据进行语义和实例分割、特征提取、分析和自动报告生成。模块化架构支持单图像和批量处理,提供GUI界面和脚本接口。
- Result: 在livecells公共数据集上验证显示,相比Cellpose和StarDist等工具具有更高的准确性和可重复性,在CPU平台上具有竞争力的分割速度。
- Conclusion: 该框架在标准CPU硬件上实现了优异的未染色细胞分析性能,具有基础研究和临床应用的重要潜力,特别是在细胞移植和肌肉再生治疗领域。
cs.SD
[169] Spectral and Rhythm Features for Audio Classification with Deep Convolutional Neural Networks
Friedrich Wolf-Monheim
Main category: cs.SD
TL;DR: 该研究比较了不同频谱和节奏特征在深度卷积神经网络中的音频分类性能,发现梅尔频谱图和MFCC在环境声音分类任务中表现最佳
- Motivation: 探索卷积神经网络在音频分类中的应用,比较不同音频特征表示方法在深度CNN中的性能差异,为音频处理任务选择最优特征提供指导
- Method: 使用深度卷积神经网络对多种音频特征(梅尔频谱图、MFCC、循环节奏图、STFT色谱图、CQT色谱图、CENS色谱图)进行环境声音分类实验,采用ESC-50数据集(2000个标注的环境音频录音)
- Result: 梅尔频谱图和梅尔频率倒谱系数(MFCC)在音频分类任务中的性能显著优于其他研究的频谱和节奏特征
- Conclusion: 对于基于深度CNN的音频分类任务,梅尔频谱图和MFCC是最有效的特征表示方法,为音频处理应用提供了重要的特征选择指导
cond-mat.mtrl-sci
[170] Geometric Analysis of Magnetic Labyrinthine Stripe Evolution via U-Net Segmentation
Vinícius Yu Okubo,Kotaro Shimizu,B. S. Shivaran,Gia-Wei Chern,Hae Yong Kim
Main category: cond-mat.mtrl-sci
TL;DR: 使用深度学习U-Net模型和几何分析管道对铋掺杂钇铁石榴石薄膜中的迷宫状磁条纹图案进行定量分析,揭示了两种不同的演化模式与磁场极性相关
- Motivation: 迷宫状条纹图案在物理系统中常见但缺乏长程有序性,难以进行定量表征,需要开发新方法来分析这类复杂系统的几何和拓扑特性
- Method: 采用U-Net深度学习模型进行图像分割,结合骨架化、图映射和样条拟合的几何分析管道,对444张图像进行局部条纹传播的长度和曲率测量
- Result: 分析了从"淬火"状态到更平行和相干的"退火"状态的转变,识别出与磁场极性相关的两种不同演化模式(A型和B型)
- Conclusion: 为磁性条纹图案的几何和拓扑特性提供了定量分析,为理解其局部结构演化提供了新见解,并建立了分析复杂迷宫系统的通用工具
cs.LG
[171] The 1st International Workshop on Disentangled Representation Learning for Controllable Generation (DRL4Real): Methods and Results
Qiuyu Chen,Xin Jin,Yue Song,Xihui Liu,Shuai Yang,Tao Yang,Ziqiang Li,Jianguo Huang,Yuntao Wei,Ba'ao Xie,Nicu Sebe,Wenjun,Zeng,Jooyeol Yun,Davide Abati,Mohamed Omran,Jaegul Choo,Amir Habibian,Auke Wiggers,Masato Kobayashi,Ning Ding,Toru Tamaki,Marzieh Gheisari,Auguste Genovesio,Yuheng Chen,Dingkun Liu,Xinyao Yang,Xinping Xu,Baicheng Chen,Dongrui Wu,Junhao Geng,Lexiang Lv,Jianxin Lin,Hanzhe Liang,Jie Zhou,Xuanxin Chen,Jinbao Wang,Can Gao,Zhangyi Wang,Zongze Li,Bihan Wen,Yixin Gao,Xiaohan Pan,Xin Li,Zhibo Chen,Baorui Peng,Zhongming Chen,Haoran Jin
Main category: cs.LG
TL;DR: 本文回顾了ICCV 2025举办的DRL4Real研讨会,聚焦于将解耦表示学习从理论推向实际应用,特别是在可控生成领域。
- Motivation: 弥合解耦表示学习(DRL)的理论潜力与其在现实场景中应用之间的差距,超越合成基准测试的局限。
- Method: 研讨会汇集了9篇论文,涵盖新颖归纳偏置整合(如语言)、扩散模型在DRL中的应用、3D感知解耦,以及DRL在自动驾驶和EEG分析等专业领域的扩展。
- Result: 研讨会成功推动了DRL在实际应用中的评估,特别是在可控生成、模型鲁棒性、可解释性和泛化性方面的进展。
- Conclusion: DRL4Real研讨会为解耦表示学习在现实世界应用中的发展提供了重要平台,展示了该领域从理论到实践的转化潜力。
[172] FEDEXCHANGE: Bridging the Domain Gap in Federated Object Detection for Free
Haolin Yuan,Jingtao Li,Weiming Zhuang,Chen Chen,Lingjuan Lyu
Main category: cs.LG
TL;DR: FEDEXCHANGE是一个新颖的联邦目标检测框架,通过在服务器端进行动态模型交换来解决跨域泛化问题,无需增加客户端计算开销。
- Motivation: 联邦目标检测中,不同客户端的环境、天气等域特定因素差异导致性能下降,现有方法忽略了边缘设备的硬件限制,引入的高计算成本限制了实际应用。
- Method: 采用服务器端动态模型交换策略,交替进行模型聚合和模型交换轮次。在交换轮次中,基于距离度量对本地模型进行聚类和交换,使模型能够学习多种域的特征。
- Result: 在挑战性域(如雨天条件)中实现了1.6倍的平均精度提升,同时仅需要基线方法0.8倍的计算资源。
- Conclusion: FEDEXCHANGE有效解决了联邦目标检测中的跨域泛化问题,在提升性能的同时显著降低了计算开销,具有很好的实际应用价值。
[173] Multimodal Deep Learning for ATCO Command Lifecycle Modeling and Workload Prediction
Kaizhen Tan
Main category: cs.LG
TL;DR: 提出多模态深度学习框架,整合结构化数据、轨迹序列和图像特征,预测空中交通管制员命令与飞机机动之间的时间偏移和命令持续时间,支持智能命令生成和工作量评估。
- Motivation: 在密集空域中,空中交通管制员发出高强度语音命令,准确的工作量建模对安全和效率至关重要,需要建立命令与飞机机动之间的时间关系模型。
- Method: 构建高质量数据集,使用滑动窗口和基于直方图的方法检测机动点,开发CNN-Transformer集成模型进行多模态特征融合和预测。
- Result: 开发了首个将轨迹与语音命令关联的模型,能够准确、可泛化且可解释地预测命令时间偏移和持续时间参数。
- Conclusion: 该框架为智能命令生成提供了支持,具有实际应用价值,可用于工作量评估、人员配置和调度优化。
[174] Mitigating Catastrophic Forgetting and Mode Collapse in Text-to-Image Diffusion via Latent Replay
Aoi Otani
Main category: cs.LG
TL;DR: 该论文提出了一种基于神经科学启发的潜在重放方法,用于解决文本到图像扩散模型在持续学习中的灾难性遗忘和模式崩溃问题,通过存储紧凑的高层特征表示而非原始图像,显著提升了模型性能。
- Motivation: 解决文本到图像扩散模型在持续学习中的两个关键挑战:灾难性遗忘(学习新任务时遗忘旧知识)和模式崩溃(输出随时间变得重复)。传统重放方法需要存储大量图像,内存开销大。
- Method: 采用潜在重放方法,仅存储从模型内部架构提取的紧凑高层特征表示,而非原始图像数据。这种方法模仿海马体存储神经活动模式而非原始感官输入的过程。
- Result: 在五个顺序学习的视觉概念实验中,潜在重放方法显著优于现有方法。学习完所有概念后,最早概念的图像对齐度保持77.59%,比基线方法高14%,同时保持输出多样性。意外发现随机选择存储的潜在示例比基于相似性的策略效果更好。
- Conclusion: 潜在重放方法为生成式AI模型实现了高效的持续学习,为能够随用户需求演化而不产生过高计算成本的个性化文本到图像模型开辟了道路。
[175] Accurate and Private Diagnosis of Rare Genetic Syndromes from Facial Images with Federated Deep Learning
Ali Burak Ünal,Cem Ata Baykara,Peter Krawitz,Mete Akgün
Main category: cs.LG
TL;DR: 提出了基于联邦学习的GestaltMatcher服务,通过跨机构协作训练全局特征提取器,在保护患者隐私的同时实现90%以上的集中式性能
- Motivation: 现有GestaltMatcher框架依赖集中式数据集,但患者数据分散在不同机构且受隐私法规限制,阻碍了进一步开发
- Method: 采用跨机构水平联邦学习框架,将患者数据映射到共享潜在空间,使用隐私保护核矩阵计算框架进行综合征推断和发现
- Result: 联邦服务保持了90%以上的集中式性能,对不同机构数量和异构数据分布具有鲁棒性
- Conclusion: 联邦学习方法有效解决了医疗数据隐私和分散性问题,新参与者可以直接受益并贡献于系统
[176] CrunchLLM: Multitask LLMs for Structured Business Reasoning and Outcome Prediction
Rabeya Tus Sadia,Qiang Cheng
Main category: cs.LG
TL;DR: CrunchLLM是一个针对创业公司成功预测的领域适应LLM框架,通过结合结构化数据和非结构化文本,使用参数高效微调策略,在Crunchbase数据集上实现了超过80%的准确率。
- Motivation: 预测初创公司成功(通过收购或IPO退出)是创业和创新研究中的关键问题。现有方法要么只使用结构化数据效果有限,要么LLM难以直接适应特定领域业务数据。
- Method: 提出CrunchLLM框架,整合结构化公司属性和非结构化文本叙述,应用参数高效微调策略和提示优化,专门针对创业数据进行领域适应。
- Result: 在Crunchbase创业成功预测上达到超过80%的准确率,显著优于传统分类器和基线LLM,并提供可解释的推理轨迹。
- Conclusion: 这项工作展示了通过领域感知微调和结构化-非结构化数据融合来适应LLM,可以推进创业结果的预测建模,为风险投资和创新政策提供了方法论框架和实用工具。
[177] Robustifying Diffusion-Denoised Smoothing Against Covariate Shift
Ali Hedayatnia,Mostafa Tavassolipour,Babak Nadjar Araabi,Abdol-Hossein Vahabie
Main category: cs.LG
TL;DR: 本文提出了一种新方法来改进扩散去噪平滑(DDS)中的协变量偏移问题,通过在去噪扩散模型中针对添加噪声设计对抗性目标函数,显著提高了认证精度并在多个基准测试中达到最先进性能。
- Motivation: 现有的扩散去噪平滑方法虽然取得了state-of-the-art的结果,但使用去噪扩散模型会通过噪声估计错误引入协变量偏移,从而降低平滑分类器的性能。
- Method: 提出了一种新颖的对抗性目标函数,专注于去噪扩散模型的添加噪声。该方法基于对协变量偏移来源的理解,训练基础分类器使其对去噪器引入的协变量偏移具有鲁棒性。
- Result: 在三个标准分类基准(MNIST、CIFAR-10和ImageNet)上显著提高了认证精度,在l2对抗扰动方面实现了新的最先进性能。
- Conclusion: 通过针对去噪扩散模型中添加噪声的对抗性训练,有效解决了协变量偏移问题,为随机平滑方法提供了性能改进的重要途径。
[178] Data-Efficient Ensemble Weather Forecasting with Diffusion Models
Kevin Valencia,Ziyang Liu,Justin Cui
Main category: cs.LG
TL;DR: 研究表明,通过时间分层采样策略,仅使用20%的训练数据就能在天气预测扩散模型中达到与全数据训练相当或更好的性能,证明了数据高效训练在计算资源受限场景下的可行性。
- Motivation: 当前基于扩散模型的集合天气预报方法通常是自回归的,计算成本高昂,而气候科学领域数据获取困难且成本高。本研究旨在探索通过精心策划的数据选择来降低训练数据需求,同时保持模型性能。
- Method: 评估了多种数据采样策略,重点测试了简单的时间分层采样方法,比较了不同采样比例下的模型性能表现。
- Result: 时间分层采样方法仅使用20%的训练数据就能达到与全数据训练相似或更好的性能,在某些指标上甚至优于全数据模型,在其他指标上表现略差但差距很小。
- Conclusion: 证明了数据高效扩散训练的可行性,特别是在天气预报领域,为未来开发自适应或模型感知的采样方法提供了动机,这些方法可以超越随机或纯时间采样。
[179] SelectMix: Enhancing Label Noise Robustness through Targeted Sample Mixing
Qiuhao Liu,Ling Li,Yao Lu,Qi Xuan,Zhaowei Zhu,Jiaheng Wei
Main category: cs.LG
TL;DR: SelectMix是一个针对噪声标签的置信度引导混合框架,通过K折交叉验证识别噪声样本,选择性地将不确定样本与置信预测样本混合,使用软标签确保监督信号与混合输入对齐。
- Motivation: 深度神经网络容易记忆噪声标签,严重降低泛化性能。现有的基于Mixup的方法通常进行无差别的混合,缺乏样本选择和混合策略的原则性指导,无意中传播了噪声监督。
- Method: SelectMix首先通过基于置信度的K折交叉验证不匹配分析识别潜在噪声或模糊样本,然后选择性地将这些不确定样本与其潜在类别中置信预测的同类样本混合。使用从混合过程中涉及的所有类别派生的软标签,确保标签准确表示混合样本的组成。
- Result: 在多个合成数据集(MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100)和真实世界基准数据集(CIFAR-N、MNIST和Clothing1M)上的广泛理论分析和实证评估表明,SelectMix始终优于强基线方法。
- Conclusion: SelectMix验证了其在噪声标签学习中的有效性和鲁棒性,通过置信度引导的选择性混合和软标签对齐,有效解决了噪声标签传播问题,提升了模型的泛化性能。
[180] PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
Loka Li,Wong Yu Kang,Minghao Fu,Guangyi Chen,Zhenhao Chen,Gongxu Luo,Yuewen Sun,Salman Khan,Peter Spirtes,Kun Zhang
Main category: cs.LG
TL;DR: 提出了PersonaX多模态数据集,包含CelebPersona和AthlePersona两个子集,整合了行为特征、面部图像和传记信息,用于多模态行为特征分析和因果推理研究。
- Motivation: 现有数据集很少将行为描述符与面部属性和传记信息等多模态数据结合,限制了全面分析人类行为特征的能力。
- Method: 构建包含9444名公众人物和4181名运动员的多模态数据集,使用三个高性能大语言模型推断行为特征评估,并提出新的因果表示学习框架进行多模态分析。
- Result: 在合成和真实数据上的实验证明了该方法的有效性,能够统一结构化和非结构化分析,为多模态特征分析提供基础。
- Conclusion: PersonaX为研究LLM推断的行为特征与视觉、传记属性的关联提供了重要资源,推动了多模态特征分析和因果推理的发展。
[181] SpeCa: Accelerating Diffusion Transformers with Speculative Feature Caching
Jiacheng Liu,Chang Zou,Yuanhuiyi Lyu,Fei Ren,Shaobo Wang,Kaixin Li,Linfeng Zhang
Main category: cs.LG
TL;DR: SpeCa是一个基于推测采样的扩散模型加速框架,通过预测中间特征和验证机制实现6-7倍加速,同时保持生成质量。
- Motivation: 扩散模型在图像和视频合成方面表现出色,但计算需求大且存在严格的时间依赖性问题,无法并行化,限制了实时应用。
- Method: 采用'预测-验证'框架,引入推测采样预测后续时间步的特征,使用参数无关的验证机制评估预测可靠性,并实现样本自适应计算分配。
- Result: 在FLUX上实现6.34倍加速(质量下降5.5%),DiT上7.3倍加速(保持生成保真度),HunyuanVideo上6.1倍加速(VBench得分79.84%),验证开销仅1.67%-3.5%。
- Conclusion: SpeCa为扩散模型推理建立了新的高效范式,在激进加速比下仍能保持生成质量,代码已开源。
[182] DRAG: Data Reconstruction Attack using Guided Diffusion
Wa-Kin Lei,Jun-Cheng Chen,Shang-Tse Chen
Main category: cs.LG
TL;DR: 提出基于引导扩散的新型数据重建攻击方法,利用预训练的潜在扩散模型先验知识,从视觉基础模型的深层中间表示中高质量重建原始数据
- Motivation: 随着大型基础模型的兴起,分割推理成为流行计算范式,但现有数据重建攻击主要针对小型CNN分类模型,大型基础模型在分割推理中的隐私风险尚未充分探索
- Method: 基于引导扩散的数据重建攻击,利用在大规模数据集上预训练的潜在扩散模型(LDM)中嵌入的丰富先验知识,在LDM学习的图像先验上进行迭代重建
- Result: 大量实验表明,该方法在定性和定量上都显著优于最先进方法,能够从视觉基础模型的深层中间表示中重建高保真度的原始数据图像
- Conclusion: 研究结果强调了在分割推理场景中为大型模型开发更强大隐私保护机制的紧迫性
[183] FedDAF: Federated Domain Adaptation Using Model Functional Distance
Mrinmay Sen,Ankita Das,Sidhant Nair,C Krishna Mohan
Main category: cs.LG
TL;DR: FedDAF是一种新的联邦域适应方法,通过计算模型功能距离来聚合全局源模型和目标模型,有效解决了域偏移和目标数据稀缺的双重挑战。
- Motivation: 现有FDA方法主要关注域偏移问题,假设目标数据充足,但往往忽视了域偏移和数据稀缺的双重挑战。同时,现有方法未能根据目标目标优先共享源客户端的相关信息。
- Method: FedDAF使用基于相似性的聚合方法,通过在目标数据上计算平均梯度场来度量模型功能距离,利用Gompertz函数进行归一化,并通过简单平均聚合所有本地源模型来构建全局源模型。
- Result: 在真实数据集上的实验表明,FedDAF在测试准确率方面优于现有的FL、PFL和FDA方法。
- Conclusion: FedDAF通过创新的模型功能距离计算方法,有效解决了联邦域适应中的域偏移和数据稀缺问题,实现了更好的模型性能。
[184] Early Detection of Branched Broomrape (Phelipanche ramosa) Infestation in Tomato Crops Using Leaf Spectral Analysis and Machine Learning
Mohammadreza Narimani,Alireza Pourreza,Ali Moghimi,Parastoo Farajpoor,Hamid Jafarbiglu,Mohsen B. Mesgaran
Main category: cs.LG
TL;DR: 利用叶片光谱反射率和集成机器学习方法,在番茄生长早期(585 GDD)实现了89%准确率的寄生杂草分枝列当检测,但在后期准确率下降至69%。
- Motivation: 分枝列当是一种缺乏叶绿素的寄生杂草,通过从宿主提取养分威胁番茄生产,需要开发早期检测方法以避免产量损失。
- Method: 在田间实验中跟踪300株番茄植株,使用便携式光谱仪获取400-2500 nm叶片反射光谱,经过预处理(波段去噪、1 nm插值、Savitzky-Golay平滑、相关性波段缩减)后,采用随机森林、XGBoost、SVM和朴素贝叶斯的集成机器学习方法进行分析。
- Result: 在1500 nm和2000 nm水吸收特征附近观察到明显的类别差异,表明感染植株在早期阶段叶片含水量降低。集成模型在585 GDD时达到89%准确率,召回率分别为0.86(感染)和0.93(未感染),但在后期阶段准确率下降。
- Conclusion: 尽管感染植株数量少且存在环境干扰因素,近端传感结合集成学习能够在冠层症状可见之前及时检测分枝列当,支持针对性干预和减少产量损失。
Powered by Deepseek & arXiv Daily AI Enhanced