Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Cropland Mapping using Geospatial Embeddings
Ivan Zvonkov,Gabriel Tseng,Inbal Becker-Reshef,Hannah Kerner
Main category: cs.CV
TL;DR: 评估地理空间嵌入在农业用地制图中的应用效果,证明其能简化工作流程并实现高精度分类
- Motivation: 准确和最新的土地覆盖地图对于理解土地利用变化至关重要,而地理空间嵌入提供了一种更高效和可访问的制图方式,但在实际应用中的探索仍然不足
- Method: 使用Presto和AlphaEarth的地理空间嵌入来制作多哥的农业用地地图
- Result: 地理空间嵌入能够简化工作流程,实现高精度的农业用地分类
- Conclusion: 地理空间嵌入最终能够支持更好地评估土地利用变化及其气候影响
[2] Generative Hints
Andy Dimnaku,Abdullah Yusuf Kavranoğlu,Yaser Abu-Mostafa
Main category: cs.CV
TL;DR: 提出生成提示训练方法,通过生成模型创建虚拟样本来直接在整个输入空间中强制已知的不变性,优于传统数据增强方法。
- Motivation: 数据增强仅在训练数据的变换上学习不变性,无法完全捕捉这些属性。需要一种方法能在整个输入空间中直接强制执行已知的不变性。
- Method: 使用在训练集上训练的生成模型生成未标记的虚拟图像,然后在半监督方式下同时训练分类和提示目标,利用虚拟样本来引导模型学习期望的提示属性。
- Result: 在多个数据集、架构和损失函数上,生成提示方法在学习相同属性时始终优于标准数据增强。在细粒度视觉分类基准上获得最高1.78%的top-1准确率提升,在CheXpert X射线数据集上平均提升1.286%。
- Conclusion: 生成提示是一种有效的训练方法,能够直接在整个输入空间中强制执行已知的不变性,显著优于传统数据增强技术。
[3] ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology
Srikumar Sastry,Subash Khanal,Aayush Dhakal,Jiayu Lin,Dan Cher,Phoenix Jarosz,Nathan Jacobs
Main category: cs.CV
TL;DR: ProM3E是一个概率性掩码多模态嵌入模型,用于生态学中任意模态到任意模态的生成,通过掩码模态重建学习从少量上下文模态推断缺失模态,支持模态嵌入空间反转,并提出新颖的跨模态检索方法。
- Motivation: 解决生态学中多模态数据融合和生成的问题,学习如何有效融合不同模态以支持下游任务,并分析不同模态融合的可行性。
- Method: 基于掩码模态重建在嵌入空间中学习,通过概率模型推断缺失模态,支持模态反转,并提出混合模态间和模态内相似度的跨模态检索方法。
- Result: 模型在跨模态检索任务中表现出优越性能,通过线性探测任务展示了其强大的表示学习能力。
- Conclusion: ProM3E为生态学多模态数据处理提供了有效的解决方案,支持任意模态生成和融合分析,代码和数据集将开源发布。
[4] EvtSlowTV -- A Large and Diverse Dataset for Event-Based Depth Estimation
Sadiq Layi Macaulay,Nimet Kaygusuz,Simon Hadfield
Main category: cs.CV
TL;DR: EvtSlowTV是一个从YouTube视频构建的大规模事件相机数据集,包含超过130亿个事件,用于自监督深度估计,解决了现有数据集规模小、泛化能力差的问题。
- Motivation: 现有事件相机深度估计方法受限于小规模标注数据集,难以泛化到真实世界场景。需要大规模、多样化的数据集来提升模型性能。
- Method: 从公开的YouTube视频构建EvtSlowTV数据集,包含各种环境条件和运动场景。采用自监督学习框架,利用原始事件流的HDR特性,无需帧级标注。
- Result: EvtSlowTV比现有事件数据集大一个数量级,训练后的模型在复杂场景和运动中表现出更好的泛化能力。
- Conclusion: EvtSlowTV为事件相机深度估计提供了大规模、自然的数据源,自监督方法有效利用了事件数据的异步特性和HDR优势。
[5] Hybrid Convolution and Vision Transformer NAS Search Space for TinyML Image Classification
Mikhael Djajapermana,Moritz Reiber,Daniel Mueller-Gritschneder,Ulf Schlichtmann
Main category: cs.CV
TL;DR: 提出新的混合CNN-ViT搜索空间,通过神经架构搜索寻找适合tinyML部署的高效图像分类架构
- Motivation: 现有混合CNN-ViT架构参数量大、计算成本高,不适合tinyML部署,需要寻找更高效的混合架构
- Method: 设计混合CNN-ViT搜索空间,包含CNN和ViT块学习局部和全局信息,以及可搜索池化层用于高效特征图降维
- Result: 在CIFAR10数据集上,提出的搜索空间生成的混合架构在严格模型大小约束下,比基于ResNet的tinyML模型具有更高的准确率和推理速度
- Conclusion: 提出的混合CNN-ViT搜索空间能够为tinyML部署找到高效且性能优越的图像分类架构
[6] SCALE-VLP: Soft-Weighted Contrastive Volumetric Vision-Language Pre-training with Spatial-Knowledge Semantics
Ailar Mahdizadeh,Puria Azadi Moghadam,Xiangteng He,Shahriar Mirabbasi,Panos Nasiopoulos,Leonid Sigal
Main category: cs.CV
TL;DR: SCALE-VLP是一个软加权对比视觉语言预训练框架,专门针对医学CT等体数据设计,整合体积空间语义和领域知识,在有限监督下实现结构一致和语义基础的表示。
- Motivation: 现有视觉语言模型主要局限于2D数据和二元监督,忽视了体数据中的连续结构化依赖关系,且通常将体积扫描视为独立2D切片,损害了空间连贯性并未充分利用丰富的临床语义。
- Method: 提出SCALE-VLP框架,整合(i)体积空间语义以保持解剖结构,(ii)领域感知的知识注入语义(如放射学本体)来指导对齐,采用软加权对比学习。
- Result: 相比之前最佳方法,SCALE-VLP在CT-报告检索中实现高达4.3倍的top-1性能提升,异常分类提高10个百分点,报告生成达到ROUGE-L 0.44和BERT-F1 0.89。在零样本跨域评估中观察到一致增益。
- Conclusion: SCALE-VLP展示了强大的跨任务可迁移性(检索、报告生成和分类)和跨域泛化能力,无需进一步微调即可获得一致性能提升。
[7] Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning
Dakota Hester,Vitor S. Martins,Lucas B. Ferreira,Thainara M. A. Lima
Main category: cs.CV
TL;DR: 提出了一种基于自监督学习的标签高效方法,仅使用1000个标注图像块实现州级1米分辨率土地覆盖分类,在密西西比州覆盖超过1230亿像素,总体准确率达到87.14%。
- Motivation: 解决高分辨率土地覆盖分类中大规模标注训练数据收集困难的问题,降低深度学习模型在大范围应用中的门槛。
- Method: 使用BYOL自监督预训练策略在大量未标记彩色红外航空图像上预训练ResNet-101编码器,然后将学习到的权重迁移到多个语义分割架构中进行微调。
- Result: 通过集成表现最佳的U-Net模型,在8类土地覆盖分类中获得了87.14%的总体准确率和75.58%的宏F1分数,准确识别了开阔水域和林区,但在区分农田、草本植物和裸地方面存在挑战。
- Conclusion: 自监督学习是减少手动标注数据需求的有效策略,直接解决了大规模高空间分辨率土地覆盖制图的主要限制因素。
[8] A Foundation Model for Brain MRI with Dynamic Modality Integration
Minh Sao Khue Luu,Bair N. Tuchinov
Main category: cs.CV
TL;DR: 提出了一个用于脑MRI的基础模型,能够处理不同成像序列组合,通过可学习模态嵌入、条件层归一化和掩码自编码目标来处理缺失模态,无需为每种模态单独训练模型。
- Motivation: 现有的脑MRI分析通常需要完整的成像序列组合,但在临床实践中某些序列可能缺失或不可用,需要开发能够灵活处理不同模态组合的模型。
- Method: 使用单一编码器配合可学习模态嵌入、条件层归一化,采用掩码自编码目标处理缺失模态,并应用方差-协方差正则化器来稳定特征学习和提高表示多样性。
- Result: 初步结果表明该方法可行,计划在脑肿瘤和多发性硬化症分割以及病变分类任务上进行详细评估。
- Conclusion: 该方法能够适应不同输入模态组合,包括缺失或未见过的序列,为脑MRI分析提供了灵活的基础模型解决方案。
[9] SLIP: Structural-aware Language-Image Pretraining for Vision-Language Alignment
Wenbo Lu
Main category: cs.CV
TL;DR: SLIP是一种结构感知的语言-图像预训练方法,通过引入结构对比损失来建模结构化图中的实体关系,在跨模态检索和分类任务中优于CLIP。
- Motivation: 现有VLP方法将图像-文本对视为孤立训练样本,忽略了现实领域中丰富的图结构关系,如电商产品共购图。受人类将知识编码为关系认知图的神经科学证据启发,提出了SLIP。
- Method: 引入结构对比损失,在模态对齐的同时建模结构化图中相邻实体的关系,并构建了大规模亚马逊产品共购多模态图数据集。
- Result: 在零样本和少样本设置下,SLIP在跨模态检索和分类任务中持续优于CLIP,证明了关系监督对跨模态对齐的价值。
- Conclusion: 关系监督对于跨模态对齐具有重要价值,SLIP通过建模结构化关系显著提升了VLP性能。
[10] From Propagation to Prediction: Point-level Uncertainty Evaluation of MLS Point Clouds under Limited Ground Truth
Ziyang Xu,Olaf Wysocki,Christoph Holst
Main category: cs.CV
TL;DR: 提出了一种基于学习的移动激光扫描点云不确定性评估框架,无需地面真值数据,通过最优邻域估计和几何特征提取来预测点级不确定性。
- Motivation: 移动激光扫描点云在高精度应用中的可靠性评估需要不确定性分析,但获取地面真值成本高昂且在实际应用中往往不可行,需要减少对地面真值的依赖。
- Method: 开发了集成最优邻域估计和几何特征提取的学习框架,使用XGBoost和随机森林等机器学习模型来预测点级不确定性。
- Result: 在真实数据集上的实验表明,该框架可行,XGBoost模型在保持与随机森林相当精度的同时,效率提高了约3倍,证明几何特征可用于预测基于C2C距离的点级不确定性。
- Conclusion: 移动激光扫描点云的不确定性是可学习的,为不确定性评估研究提供了新的基于学习的视角。
[11] A Plug-and-Play Framework for Volumetric Light-Sheet Image Reconstruction
Yi Gong,Xinyuan Zhang,Jichen Chai,Yichen Ding,Yifei Lou
Main category: cs.CV
TL;DR: 提出了一个结合压缩感知和光片显微镜的高性能计算成像框架,用于高效、低光毒性的心脏成像,通过压缩采集和PnP重建算法成功重建斑马鱼心脏细胞结构。
- Motivation: 传统光学成像在空间和时间分辨率之间存在根本性权衡,无法捕捉跳动心脏中的动态细胞结构,需要克服这些限制。
- Method: 使用数字微镜设备进行随机二进制掩码编码的压缩采集,提出基于ADMM求解的PnP框架,灵活整合Tikhonov、TV和BM3D等先进去噪器,并引入时间正则化保持结构连续性。
- Result: 在高压缩比下对斑马鱼心脏成像的实验结果表明,该方法成功重建细胞结构,具有优异的去噪性能和图像清晰度。
- Conclusion: 验证了该算法在真实高速、低光生物成像场景中的有效性和鲁棒性。
[12] ISC-Perception: A Hybrid Computer Vision Dataset for Object Detection in Novel Steel Assembly
Miftahur Rahman,Samuel Adebayo,Dorian A. Acevedo-Mejia,David Hester,Daniel McPolin,Karen Rafferty,Debra F. Laefer
Main category: cs.CV
TL;DR: 提出了ISC-Perception数据集,这是首个专门用于钢构件检测的混合数据集,结合了CAD渲染图像、游戏引擎照片级真实感场景和少量真实照片,显著减少了人工标注时间。
- Motivation: 解决钢构件检测中缺乏专用图像数据集的问题,因为在施工现场收集照片存在物流困难和安全隐私问题。
- Method: 创建混合数据集,包含程序化渲染的CAD图像、游戏引擎生成的逼真场景和少量精选真实照片,实现合成部分的自动标注。
- Result: 在10,000张图像数据集上,总人工时间为30.5小时,相比手动标注的166.7小时减少了81.7%。检测器在IoU 0.50下的平均精度达到0.756,显著优于仅使用合成或照片级数据训练的模型。
- Conclusion: ISC-Perception填补了建筑机器人感知领域的数据空白,促进了定制物体检测器的快速开发,可供研究和工业使用。
[13] DentalSplat: Dental Occlusion Novel View Synthesis from Sparse Intra-Oral Photographs
Yiyi Miao,Taoyu Wu,Tong Chen,Sihao Li,Ji Jiang,Youpeng Yang,Angelos Stefanidis,Limin Yu,Jionglong Su
Main category: cs.CV
TL;DR: DentalSplat是一个用于稀疏正畸图像3D重建的有效框架,通过先验引导的立体重建和尺度自适应剪枝策略,在仅有三张稀疏输入图像的情况下实现高质量的新视角合成。
- Motivation: 在正畸治疗特别是远程医疗中,从多视角观察患者牙合关系对及时临床决策很重要。传统3DGS方法需要密集多视角输入和精确相机位姿,而正畸病例通常只有前视图和双侧颊视图三张稀疏图像,重建任务极具挑战性。
- Method: 使用先验引导的密集立体重建模型初始化点云,采用尺度自适应剪枝策略提高3DGS训练效率和重建质量。在极稀疏视角下,结合光流作为几何约束和梯度正则化来增强渲染保真度。
- Result: 在包含950个临床病例的大规模数据集和195个模拟远程正畸成像条件的视频测试集上验证,该方法有效处理稀疏输入场景,在牙合可视化新视角合成质量上优于现有最优技术。
- Conclusion: DentalSplat框架能够从稀疏正畸图像实现高质量的3D重建和新视角合成,为远程正畸治疗提供了实用的解决方案。
[14] Image-Intrinsic Priors for Integrated Circuit Defect Detection and Novel Class Discovery via Self-Supervised Learning
Botong. Zhao,Xubin. Wang,Shujing. Lyu,Yue. Lu
Main category: cs.CV
TL;DR: 提出了IC DefectNCD框架,利用IC SEM图像的固有先验进行缺陷检测和新类别发现,无需支持集。包含自归一化信息引导的缺陷检测、自适应二值化策略和自缺陷信息引导的缺陷分类。
- Motivation: 集成电路制造过程复杂,缺陷可能出现在任何阶段,导致良率损失。监督方法需要大量人工标注且难以处理新类别和罕见缺陷,基于聚类的方法因缺乏先验而性能不稳定。
- Method: 1. 自归一化信息引导缺陷检测:通过可学习的正常信息提取器聚合代表性正常特征,利用重建残差粗略定位缺陷区域;2. 自适应二值化:处理不同缺陷的显著性变化,生成聚焦核心缺陷区域的稳定子图像;3. 自缺陷信息引导缺陷分类:使用软掩码引导注意力机制将空间缺陷先验注入师生模型。
- Result: 在涵盖三个关键制造阶段和15种缺陷类型的真实数据集上验证,实验表明在缺陷检测和未见缺陷分类方面均表现出稳健性能。
- Conclusion: IC DefectNCD框架有效解决了IC制造中缺陷检测和新类别发现的挑战,无需支持集即可实现稳健的缺陷识别和分类。
[15] Accelerating Physical Property Reasoning for Augmented Visual Cognition
Hongbo Lan,Zhenlin An,Haoyu Li,Vaibhav Singh,Longfei Shangguan
Main category: cs.CV
TL;DR: \sysname系统通过算法和系统优化,将视觉引导的物理属性推理延迟从10-20分钟降低到6秒以内,实现了62.9-287.2倍加速,并在ABO数据集上达到与SOTA基线相当甚至更好的性能。
- Motivation: 现有的视觉引导物理属性推理系统存在高延迟问题(10-20分钟),限制了在实时应用(如智能眼镜)中的实用性。
- Method: 结合快速几何3D重建、高效语义特征融合和并行视图编码等算法与系统优化,最小化推理管道的运行时延迟。
- Result: 端到端延迟从10-20分钟降至6秒以内;在ABO数据集上实现62.9-287.2倍加速;物体级物理属性估计精度与SOTA相当,材料分割和体素级推理性能更优;在真实场景中即使视图较少也能提供稳健估计。
- Conclusion: \sysname成功实现了实时视觉引导物理属性推理,为智能眼镜等增强现实应用提供了可行的解决方案。
[16] Deploying Rapid Damage Assessments from sUAS Imagery for Disaster Response
Thomas Manzini,Priyankari Perali,Robin R. Murphy
Main category: cs.CV
TL;DR: 首个用于无人机影像建筑物损伤评估的AI/ML系统,在飓风灾害期间实际部署运行,解决了灾害响应中影像数据过载的问题。
- Motivation: 灾害响应中无人机团队每天产生47GB-369GB影像数据,远超专家人工处理能力,导致响应延迟,需要计算机视觉技术来解决数据过载问题。
- Method: 基于21,716个建筑物损伤标签的最大无人机灾后影像数据集训练模型,并对91名灾害从业人员进行操作培训,在飓风Debby和Helene期间部署最佳模型。
- Result: 在飓风响应中评估了415栋建筑物,耗时约18分钟,建立了无人机损伤评估系统的实践标准。
- Conclusion: 这项工作记录了AI/ML在灾害期间实际应用的案例,为AI/ML研究和用户社区提供了宝贵的经验教训。
[17] Finetuning-Free Personalization of Text to Image Generation via Hypernetworks
Sagar Shrestha,Gopal Sharma,Luowei Zhou,Suren Kumar
Main category: cs.CV
TL;DR: 提出一种无需微调的个性化文本到图像生成方法,通过超网络直接从主体图像预测LoRA适配权重,避免传统方法的高计算成本。
- Motivation: 传统个性化方法如DreamBooth需要针对每个主体进行微调,计算成本高且推理慢。现有适配器和编码器方法仍需额外微调或大型骨干模型。
- Method: 使用超网络预测LoRA适配权重,采用端到端训练目标和简单输出正则化稳定训练,并引入混合模型无分类器引导(HM-CFG)增强组合泛化能力。
- Result: 在CelebA-HQ、AFHQ-v2和DreamBench上的实验表明,该方法在保持主体保真度和提示对齐的同时实现了强大的个性化性能。
- Conclusion: 超网络方法为开放类别个性化提供了一个可扩展且有效的方向,无需每个主体的优化即可实现高质量个性化生成。
[18] Subsampled Randomized Fourier GaLore for Adapting Foundation Models in Depth-Driven Liver Landmark Segmentation
Yun-Chen Lin,Jiayuan Huang,Hanyuan Zhang,Sergi Kavtaradze,Matthew J. Clarkson,Mobarak I. Hoque
Main category: cs.CV
TL;DR: 提出了一种用于腹腔镜肝脏手术中肝脏标志物分割的深度引导框架,结合了SAM2和DA2编码器,并引入了SRFT-GaLore高效微调方法,在L3D数据集上取得了显著的性能提升。
- Motivation: 在腹腔镜肝脏手术中,2D视频流限制了深度感知,使标志物定位变得复杂。现有方法在融合RGB和深度特征以及高效适应大规模视觉模型到手术领域方面仍面临挑战。
- Method: 使用SAM2编码器提取RGB特征,DA2编码器提取深度感知特征,引入SRFT-GaLore低秩梯度投影方法替代计算昂贵的SVD,通过交叉注意力融合模块整合RGB和深度线索。
- Result: 在L3D数据集上,Dice相似系数提高了4.85%,平均对称表面距离降低了11.78点。在新构建的LLSD数据集上也保持了竞争力,显著优于基于SAM的基线方法。
- Conclusion: SRFT-GaLore增强的双编码器框架能够在实时、深度受限的手术设置下实现可扩展和精确的分割,展示了强大的跨数据集鲁棒性和对未见手术环境的适应性。
[19] SurgAnt-ViVQA: Learning to Anticipate Surgical Events through GRU-Driven Temporal Cross-Attention
Shreyas C. Dhake,Jiayuan Huang,Runlong He,Danyal Z. Khan,Evangelos B. Mazomenos,Sophia Bano,Hani J. Marcus,Danail Stoyanov,Matthew J. Clarkson,Mobarak I. Hoque
Main category: cs.CV
TL;DR: 提出了第一个用于手术前瞻推理的VQA数据集PitVQA-Anticipation和视频语言模型SurgAnt-ViVQA,通过时间建模实现从回顾性描述到主动预测的转变。
- Motivation: 在鼻内镜经蝶垂体手术中,由于视野受限和工作流程快速变化,预测未来手术事件对实时辅助至关重要。现有VQA系统主要关注当前场景,缺乏对未来步骤的预测能力。
- Method: 构建了包含33.5小时手术视频和734,769个问答对的PitVQA-Anticipation数据集。提出SurgAnt-ViVQA模型,使用GRU门控时间交叉注意力模块,通过双向GRU编码帧间动态,自适应门控在token级别注入视觉上下文。
- Result: 在PitVQA-Anticipation和EndoVis数据集上测试,SurgAnt-ViVQA超越了基于图像和视频的基线方法。消融实验显示时间循环和门控融合是性能提升的主要因素。
- Conclusion: 通过结合时间感知编码器和细粒度门控交叉注意力,SurgAnt-ViVQA将手术VQA从回顾性描述推进到主动预测。PitVQA-Anticipation为该领域提供了全面基准,强调了针对性时间建模对未来感知手术辅助的重要性。
[20] PETWB-REP: A Multi-Cancer Whole-Body FDG PET/CT and Radiology Report Dataset for Medical Imaging Research
Le Xue,Gang Feng,Wenbo Zhang,Yichi Zhang,Lanlan Li,Shuqi Wang,Liling Peng,Sisi Peng,Xin Gao
Main category: cs.CV
TL;DR: PETWB-REP是一个包含490名癌症患者全身FDG PET/CT扫描和相应放射学报告的公开数据集,支持医学影像、放射组学、人工智能和多模态学习研究。
- Motivation: 目前缺乏结合功能和解剖成像与详细临床报告的多癌症类型数据集,这限制了AI模型的开发和验证以及回顾性临床研究。
- Method: 收集了490名患有各种恶性肿瘤患者的全身18F-FDG PET/CT扫描、相应的放射学报告和结构化临床元数据,主要涵盖肺癌、肝癌、乳腺癌、前列腺癌和卵巢癌等常见癌症。
- Result: 创建了一个包含配对PET和CT图像、去标识化文本报告和结构化临床元数据的公开数据集。
- Conclusion: PETWB-REP数据集为医学影像、放射组学、人工智能和多模态学习研究提供了有价值的资源。
[21] QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models
Kuei-Chun Kao,Hsu Tzu-Yin,Yunqi Hong,Ruochen Wang,Cho-Jui Hsieh
Main category: cs.CV
TL;DR: 提出了一种新的零样本提示方法QG-CoC,用于解决多模态大语言模型在多图像场景下的细粒度感知和跨图像推理问题。
- Motivation: 当前多模态大语言模型在多图像环境中存在两个关键问题:缺乏跨图像的细粒度感知能力,以及难以有效推理和整合来自多个视觉输入的信息。现有研究主要关注单图像或特定受限场景,缺乏对复杂多图像推理任务的深入理解。
- Method: 提出QG-CoC(问题引导的标题链)方法,这是一种通用的零样本提示方法,能够有效处理任意数量的图像。该方法通过问题引导的方式生成图像标题链,实现感知与推理的无缝集成。
- Result: 在多个开源和闭源多模态大语言模型上进行了评估,实验结果表明QG-CoC在各种任务中表现出竞争力,并在现有提示方法失败的挑战性场景中展现出稳健的改进。
- Conclusion: QG-CoC方法能够有效解决多模态大语言模型在多图像场景下的感知和推理问题,为复杂多图像推理任务提供了有效的解决方案。
[22] MvBody: Multi-View-Based Hybrid Transformer Using Optical 3D Body Scan for Explainable Cesarean Section Prediction
Ruting Cheng,Boyuan Feng,Yijiang Zheng,Chuhui Qiu,Aizierjiang Aiersilan,Joaquin A. Calderon,Wentao Zhao,Qing Pan,James K. Hahn
Main category: cs.CV
TL;DR: 本研究提出了一种基于多视角Transformer网络MvBody的新方法,仅使用自报医疗数据和3D光学身体扫描来预测剖宫产风险,在资源有限环境中实现84.62%的准确率和0.724的AUC-ROC。
- Motivation: 在医疗资源有限的环境中,现有的剖宫产风险预测模型大多依赖医院内参数,无法在家庭或资源受限环境中使用。需要开发基于更易获取数据的早期风险预测方法。
- Method: 提出MvBody多视角Transformer网络,结合自报医疗数据和3D光学身体扫描,并引入度量学习损失来提高训练效率和模型泛化能力。使用Integrated Gradients算法提供可解释性。
- Result: 在独立测试集上达到84.62%的准确率和0.724的AUC-ROC,优于现有机器学习模型和先进3D分析方法。发现孕前体重、年龄、产科史、既往剖宫产史以及头肩部体型是关键预测因素。
- Conclusion: 3D体型数据结合自报医疗信息可以有效预测剖宫产风险,为资源有限环境提供了一种可行的早期风险评估方案,具有临床应用潜力。
[23] Diffusion-Guided Mask-Consistent Paired Mixing for Endoscopic Image Segmentation
Pengyu Jie,Wanquan Liu,Rui He,Yihui Wen,Deyu Meng,Chenqiang Gao
Main category: cs.CV
TL;DR: 提出了一种结合扩散合成和样本混合的数据增强方法MCPMix,通过生成与真实图像共享相同掩码的合成对应物,在保持像素级语义的同时扩大多样性,并通过RLA机制自适应调整混合强度以缓解分布偏差。
- Motivation: 传统数据增强方法存在软标签歧义和合成-真实域偏移问题,需要一种既能增加多样性又不损害像素级语义的增强方法。
- Method: MCPMix方法为每个真实图像生成相同掩码的合成对应物,仅混合图像外观而保持原始硬掩码作为监督;RLA机制自适应调整混合强度和混合样本的损失权重。
- Result: 在Kvasir-SEG、PICCOLO、CVC-ClinicDB、NPC-LES队列和ISIC 2017数据集上实现了最先进的分割性能,相比基线方法获得一致提升。
- Conclusion: 结合标签保持混合与扩散驱动的多样性,配合自适应重锚定,能够产生鲁棒且可泛化的内窥镜分割结果。
[24] Transformer-Progressive Mamba Network for Lightweight Image Super-Resolution
Sichen Guo,Wenjie Li,Yuanyang Liu,Guangwei Gao,Jian Yang,Chia-Wen Lin
Main category: cs.CV
TL;DR: T-PMambaSR是一个轻量级超分辨率框架,结合窗口自注意力和渐进式Mamba,通过多尺度感受野交互实现细粒度建模,并引入自适应高频细化模块来恢复丢失的高频细节。
- Motivation: 现有的Mamba超分辨率方法缺乏不同建模尺度间的细粒度过渡,限制了特征表示的效率。需要解决Transformer方法二次计算复杂度和Mamba方法尺度过渡不足的问题。
- Method: 提出T-PMambaSR框架:1)集成窗口自注意力和渐进式Mamba,实现多尺度感受野交互;2)引入自适应高频细化模块(AHFRM)恢复高频细节;3)建立线性复杂度的渐进式特征增强范式。
- Result: 实验表明T-PMambaSR能渐进增强模型感受野和表达能力,性能优于最近的Transformer或Mamba方法,同时计算成本更低。
- Conclusion: T-PMambaSR通过整合窗口自注意力和渐进式Mamba,实现了高效的细粒度建模,在保持线性复杂度的同时显著提升了超分辨率性能。
[25] Decoupled Multi-Predictor Optimization for Inference-Efficient Model Tuning
Liwei Luo,Shuaitengyuan Li,Dongwei Ren,Qilong Wang,Pengfei Zhu,Qinghua Hu
Main category: cs.CV
TL;DR: 提出DMPO方法,通过架构设计和优化策略解耦早期阶段的低层表征能力与高层判别能力,提升预训练模型推理效率
- Motivation: 解决多阶段预测器中早期阶段同时提供低层基础特征给深层阶段和向早期预测器提供高层判别特征的关键挑战
- Method: 引入轻量级旁路模块进行功能分解,开发基于高阶统计的早期预测器,采用解耦优化策略分配两阶段损失权重
- Result: 在多个数据集和预训练骨干网络上,DMPO在降低计算成本时明显优于同类方法
- Conclusion: DMPO在架构设计和模型优化方面有效解耦了早期阶段的表征和判别能力
[26] Generative deep learning for foundational video translation in ultrasound
Nikolina Tomic Roshni Bhatnagar,Sarthak Jain,Connor Lau,Tien-Yu Liu,Laura Gambini,Rima Arnaout
Main category: cs.CV
TL;DR: 开发了一种用于超声彩色多普勒-灰度视频转换的生成方法,该方法能够生成逼真的合成超声视频,在分类、分割任务中与真实视频难以区分,并展示了跨临床领域的泛化能力。
- Motivation: 解决超声数据中不同子模态(如灰度图和彩色多普勒)不平衡的问题,通过图像翻译技术来平衡数据集,提升深度学习在医学超声成像中的应用效果。
- Method: 利用像素级损失、对抗损失和感知损失,采用两个网络:一个用于重建解剖结构,一个用于去噪,以实现逼真的超声成像。在54,975个视频上训练,在8,368个视频上测试。
- Result: 合成视频与真实视频的平均SSIM为0.91±0.04;在DL分类和分割任务中表现与真实视频无异;临床专家区分真实与合成视频的准确率为54±6%(42-61%),表明合成视频非常逼真。
- Conclusion: 该方法扩展了回顾性收集影像的实用性,增强了医学影像数据集设计的工具箱,展示了基础能力,尽管仅在心脏视频上训练,但在多个临床领域的超声数据上表现良好。
[27] Enhancing Medical Image Segmentation via Heat Conduction Equation
Rong Wu,Yim-Sang Yu
Main category: cs.CV
TL;DR: 提出了一种结合U-Mamba架构和热传导方程的混合模型,用于医学图像分割,通过状态空间模块和热传导算子实现高效的长距离推理和语义抽象。
- Motivation: 现有深度学习模型在医学图像分割中难以同时实现高效的全局上下文建模和长距离依赖推理,特别是在实际计算预算下。
- Method: 使用U-Mamba架构,在瓶颈层结合Mamba状态空间模块进行长距离推理,并引入热传导算子模拟频域热扩散以增强语义抽象。
- Result: 在多模态腹部CT和MRI数据集上的实验结果表明,该模型持续优于强基线方法,验证了其有效性和泛化能力。
- Conclusion: 将状态空间动力学与基于热扩散的全局建模相结合,为医学分割任务提供了可扩展且可解释的解决方案。
[28] IEC3D-AD: A 3D Dataset of Industrial Equipment Components for Unsupervised Point Cloud Anomaly Detection
Bingyang Guo,Hongjie Li,Ruiyun Yu,Hanzhe Liang,Jinbao Wang
Main category: cs.CV
TL;DR: 提出了一个针对工业设备组件的3D异常检测数据集IEC3D-AD和新的检测范式GMANet,通过几何形态分析生成合成点云样本,并通过空间差异优化提高检测性能。
- Motivation: 现有3D数据集无法捕捉真实工业环境中的复杂性和细微缺陷,限制了工业设备组件异常检测的精确研究。
- Method: 开发了IEC3D-AD数据集,并提出GMANet方法:基于几何形态分析生成合成点云样本,通过空间差异优化减少正常和异常点级特征之间的差距。
- Result: 在IEC3D-AD和其他数据集上的广泛实验证明了该方法的有效性。
- Conclusion: IEC3D-AD数据集和GMANet方法为工业设备组件的3D异常检测提供了更精确的解决方案。
[29] Unified Long Video Inpainting and Outpainting via Overlapping High-Order Co-Denoising
Shuangquan Lyu,Steven Mao,Yue Ma
Main category: cs.CV
TL;DR: 提出了一种统一的长视频修复和外延方法,通过扩展文本到视频扩散模型来生成任意长度的高保真空间编辑视频,解决了长视频生成和可控编辑的挑战。
- Motivation: 长视频生成是一个基本挑战,而实现视频修复和外延的高可控性尤为困难。需要同时解决这两个问题,实现长视频剪辑的可控修复和外延。
- Method: 利用LoRA高效微调预训练视频扩散模型(如Wan 2.1)进行掩码区域视频合成,采用重叠混合时间协同去噪策略和高阶求解器来保持长序列的一致性。
- Result: 在包含数百帧的对象编辑和添加等挑战性任务上验证了方法,在质量指标(PSNR/SSIM)和感知真实性(LPIPS)方面优于基线方法如Wan 2.1和VACE。
- Conclusion: 该方法实现了参数效率和性能优越之间的平衡,能够以最小开销实现实用的长距离视频编辑,解决了固定长度剪辑和拼接伪影的问题。
[30] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models
Minghao Fu,Guo-Hua Wang,Tianyu Cui,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang
Main category: cs.CV
TL;DR: 本文提出了Diffusion-SDPO方法,解决了扩散模型直接偏好优化中的关键问题:扩大偏好边界不一定提升生成质量,反而可能增加重构误差。新方法通过自适应缩放失败者梯度来保护获胜者,确保偏好输出的误差不增加。
- Motivation: 文本到图像扩散模型虽然能生成高质量图像,但与人类偏好的对齐仍然具有挑战性。标准Diffusion-DPO目标存在病理问题:扩大偏好边界可能同时增加获胜和失败分支的重构误差,导致生成质量下降。
- Method: 提出Diffusion-SDPO方法,采用保护性更新规则,根据失败者梯度与获胜者梯度的对齐程度自适应缩放失败者梯度。通过一阶分析得到闭式缩放系数,确保偏好输出的误差在每一步优化中不增加。
- Result: 在标准文本到图像基准测试中,Diffusion-SDPO在自动偏好、美学和提示对齐指标上持续优于偏好学习基线方法。
- Conclusion: Diffusion-SDPO是一种简单、模型无关的方法,与现有DPO风格对齐框架广泛兼容,仅增加边际计算开销,能有效提升扩散模型的偏好对齐性能。
[31] SurgViVQA: Temporally-Grounded Video Question Answering for Surgical Scene Understanding
Mauro Orazio Drago,Luca Carlini,Pelinsu Celebi Balyemez,Dennis Pierantozzi,Chiara Lena,Cesare Hassan,Danail Stoyanov,Elena De Momi,Sophia Bano,Mobarak I. Hoque
Main category: cs.CV
TL;DR: 提出SurgViVQA手术视频问答模型,通过融合视频和文本特征来捕捉时间动态信息,在结肠镜视频数据集上显著优于现有图像基准模型。
- Motivation: 当前手术视频问答方法局限于静态图像特征,缺乏对时间动态的关注,而手术过程中的运动和组织-工具交互等时间线索对准确理解手术过程至关重要。
- Method: 使用掩码视频-文本编码器融合视频和问题特征,捕捉运动和组织-工具交互等时间线索,然后通过微调的大语言模型解码生成连贯答案。
- Result: 在REAL-Colon-VQA和EndoVis18-VQA数据集上,SurgViVQA在关键词准确率上分别比PitVQA提升11%和9%,扰动研究证实了模型对问题表述变化的鲁棒性。
- Conclusion: SurgViVQA和REAL-Colon-VQA数据集为手术视频问答提供了时间感知理解框架,使AI模型能更有效地解释动态手术过程。
[32] Multi-Object Tracking Retrieval with LLaVA-Video: A Training-Free Solution to MOT25-StAG Challenge
Yi Yang,Yiming Xu,Timo Kaiser,Hao Cheng,Bodo Rosenhahn,Michael Ying Yang
Main category: cs.CV
TL;DR: 提出一个两阶段零样本方法,结合FastTracker跟踪模型和LLaVA-Video多模态大语言模型,在MOT25-StAG挑战赛中获得第二名
- Motivation: 解决复杂真实场景视频中基于特定和自由形式语言查询的多目标精确定位和跟踪问题
- Method: 将任务建模为视频检索问题,采用两阶段零样本方法,结合FastTracker跟踪模型和LLaVA-Video多模态大语言模型
- Result: 在MOT25-StAG测试集上获得m-HIoU 20.68和HOTA 10.73的成绩
- Conclusion: 该方法在挑战赛中表现优异,证明了所提解决方案的有效性
[33] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
Guozhen Zhang,Zixiang Zhou,Teng Hu,Ziqiao Peng,Youliang Zhang,Yi Chen,Yuan Zhou,Qinglin Lu,Limin Wang
Main category: cs.CV
TL;DR: UniAVGen是一个统一的音频-视频生成框架,通过双分支扩散变换器构建跨模态潜在空间,采用非对称跨模态交互机制和面部感知调制模块,实现了更好的唇部同步和语义一致性。
- Motivation: 现有开源音频-视频生成方法因缺乏有效的跨模态建模,导致唇部同步不佳和语义一致性不足。
- Method: 采用双分支联合合成架构,包含两个并行扩散变换器;核心是非对称跨模态交互机制,实现双向时间对齐的跨注意力;辅以面部感知调制模块动态优先处理显著区域;以及模态感知的无分类器引导策略增强跨模态相关性。
- Result: 在训练样本少得多的情况下(130万vs3010万),UniAVGen在音频-视频同步、音色一致性和情感一致性方面具有整体优势。
- Conclusion: UniAVGen的鲁棒联合合成设计能够在单一模型中无缝统一关键的音频-视频任务,如联合音频-视频生成和延续、视频到音频配音以及音频驱动的视频合成。
[34] Decoupling Augmentation Bias in Prompt Learning for Vision-Language Models
Gahyeon Kim,Sohee Kim,Seokju Lee
Main category: cs.CV
TL;DR: AAPL是一种新的提示学习方法,通过引入对抗性标记嵌入来解耦图像增强引入的表面视觉变化与类别相关语义表示,从而提升零样本学习的泛化能力。
- Motivation: 现有的提示学习方法(如CoOp、CoCoOp)主要关注文本修改,而忽略了图像增强的潜力,且在泛化到完全未见类别时表现不佳。
- Method: 提出AAPL方法,引入对抗性标记嵌入来解耦图像增强带来的表面视觉变化,使学习到的提示能够专注于与目标类别对齐的视觉判别特征。
- Result: 在11个基准数据集上的实验表明,AAPL在少样本、零样本、跨数据集和领域泛化设置中均优于现有方法。
- Conclusion: AAPL通过结合图像增强和对抗性学习,有效提升了提示学习的泛化能力,特别是在处理未见类别时表现优异。
[35] Robust Alignment of the Human Embryo in 3D Ultrasound using PCA and an Ensemble of Heuristic, Atlas-based and Learning-based Classifiers Evaluated on the Rotterdam Periconceptional Cohort
Nikolai Herrmann,Marcella C. Zijta,Stefan Klein,Régine P. M. Steegers-Theunissen,Rene M. H. Wijnen,Bernadette S. de Bakker,Melek Rousian,Wietske A. P. Bastiaansen
Main category: cs.CV
TL;DR: 提出了一种自动化方法,通过PCA分析胚胎分割掩模来标准化3D超声图像中的胚胎对齐,使用三种策略选择标准方向,在早期妊娠图像中达到98.5%的准确率。
- Motivation: 标准化胚胎在3D超声图像中的对齐有助于产前生长监测,促进标准平面检测,改善地标可视化和突出不同扫描之间的差异。
- Method: 对胚胎分割掩模应用PCA提取主成分轴,生成四个候选方向,然后使用三种策略选择标准方向:基于皮尔逊相关的启发式方法、通过归一化互相关进行图谱匹配、以及随机森林分类器。
- Result: 在2166张3D超声图像上测试,PCA在99.0%的图像中正确提取胚胎主成分轴。皮尔逊启发式、图谱匹配和随机森林分别达到97.4%、95.8%和98.4%的选择准确率,多数投票达到98.5%。
- Conclusion: 该流程的高准确率实现了早期妊娠中一致的胚胎对齐,支持临床和研究环境中的可扩展分析。
[36] Generalizing Shape-from-Template to Topological Changes
Kevin Manogue,Tomasz M Schang,Dilara Kuş,Jonas Müller,Stefan Zachow,Agniva Sengupta
Main category: cs.CV
TL;DR: 提出了一种能够处理拓扑变化的Shape-from-Template方法,通过迭代分割模板空间域来重建具有撕裂、切割等拓扑变化的可变形物体表面。
- Motivation: 现有的SfT方法在处理伴随拓扑变化的变形时会失效,需要扩展SfT框架以支持拓扑变化的重建。
- Method: 基于经典SfT解初始化,通过迭代分割模板空间域来最小化结合物理合理性和重投影一致性的能量函数。
- Result: 方法能够稳健地捕捉包括撕裂和切割在内的多种拓扑事件,在合成和真实数据实验中均优于基线方法。
- Conclusion: 建立了首个支持拓扑变化感知的通用SfT框架,为处理拓扑变化的可变形物体重建提供了有效解决方案。
[37] Human Mesh Modeling for Anny Body
Romain Brégier,Guénolé Fiche,Laura Bravo-Sánchez,Thomas Lucas,Matthieu Armando,Philippe Weinzaepfel,Grégory Rogez,Fabien Baradel
Main category: cs.CV
TL;DR: Anny是一个基于人体测量学的开源人体模型,无需3D扫描,通过表型参数控制形状变化,支持跨年龄、体型和比例的广泛人体形态建模。
- Motivation: 现有参数化人体模型依赖昂贵的3D扫描和专有技术,且人口统计代表性不足,需要一种开放、可解释且具有广泛人口代表性的替代方案。
- Method: 基于MakeHuman社区的人体测量知识,构建完全可微分的连续形状空间,使用性别、年龄、身高、体重等表型参数控制混合形状,并通过WHO人口统计数据校准。
- Result: Anny支持毫米级精度的扫描拟合、可控合成数据生成和人体网格恢复,Anny-One数据集包含80万张照片级真实感人体图像,训练的人体网格恢复模型性能可与基于扫描的模型相媲美。
- Conclusion: Anny提供了一个开放、可解释且具有广泛人口代表性的3D人体建模基础,其简单性不牺牲性能,为以人为中心的3D建模提供了可访问的基础设施。
[38] Signal Intensity-weighted coordinate channels improve learning stability and generalisation in 1D and 2D CNNs in localisation tasks on biomedical signals
Vittal L. Rao
Main category: cs.CV
TL;DR: 提出了一种信号强度加权的坐标表示方法,用局部信号强度缩放的坐标通道替代纯坐标通道,在ECG信号和细胞图像定位任务中表现优于传统坐标通道方法。
- Motivation: 生物医学数据中的定位任务需要模型从具有复杂强度分布的信号中学习有意义的空间或时间关系。传统方法如CoordConv层通过附加坐标通道使网络能够学习绝对位置,但缺乏信号强度与位置的耦合。
- Method: 提出信号强度加权的坐标表示,用局部信号强度缩放的坐标通道替换纯坐标通道,将强度-位置耦合直接嵌入输入表示中,引入简单且模态无关的归纳偏置。
- Result: 在两个不同的定位问题上评估:预测20秒双导联ECG信号的形态转换时间,以及回归SiPaKMeD数据集中细胞核中心坐标。该方法相比传统坐标通道方法收敛更快、泛化性能更高。
- Conclusion: 所提出的表示方法在一维和二维生物医学信号中都表现出有效性,证明了跨模态的通用性。
[39] A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential
Mehdi Sefidgar Dilmaghani,Francis Fowley,Peter Corcoran
Main category: cs.CV
TL;DR: 提出了一种轻量级3D卷积神经网络,使用事件相机数据进行人类活动识别,在保护隐私的同时实现了94.17%的准确率,优于现有基准模型。
- Motivation: 传统帧式相机在人类监控系统中会捕获可识别的个人信息,存在隐私保护问题。事件相机仅记录像素强度变化,提供固有的隐私保护感知模式。
- Method: 使用轻量级3DCNN建模时空动态,采用焦点损失与类别重加权解决类别不平衡,结合针对性数据增强策略提升泛化能力。
- Result: 在Toyota Smart Home和ETRI数据集上获得F1分数0.9415,总体准确率94.17%,比C3D、ResNet3D和MC3_18等基准模型提升高达3%。
- Conclusion: 事件驱动的深度学习方法具有开发准确、高效且隐私感知的人类动作识别系统的潜力,适合现实世界的边缘应用。
[40] Part-Aware Bottom-Up Group Reasoning for Fine-Grained Social Interaction Detection
Dongkeun Kim,Minsu Cho,Suha Kwak
Main category: cs.CV
TL;DR: 提出了一种基于身体部位感知的自下而上群体推理框架,用于细粒度社交互动检测,通过分析身体部位特征和人际关系来推断社交群体及其互动。
- Motivation: 现有社交互动检测方法忽略了细微的视觉线索(如面部表情、注视、手势),主要依赖个体的整体表示,且直接检测社交群体而未明确建模个体间的底层互动,这限制了捕捉局部社交信号的能力。
- Method: 首先检测个体并通过部位感知线索增强其特征,然后通过基于相似性的推理关联个体来推断群体配置,该推理不仅考虑空间关系,还考虑暗示互动的细微社交线索。
- Result: 在NVI数据集上的实验表明,该方法优于先前方法,达到了新的最先进水平。
- Conclusion: 提出的部位感知自下而上群体推理框架能够更准确地推断社交群体配置,通过利用身体部位特征和人际关系来捕捉细粒度的社交互动。
[41] Disentangled Concepts Speak Louder Than Words:Explainable Video Action Recognition
Jongseo Lee,Wooil Lee,Gyeong-Moon Park,Seong Tae Kim,Jinwoo Choi
Main category: cs.CV
TL;DR: 提出了DANCE框架,通过解耦运动动态、物体和场景概念来解释视频动作识别模型,提高解释清晰度并保持竞争力性能。
- Motivation: 现有基于显著性的方法产生纠缠的解释,无法区分预测是依赖运动还是空间上下文;基于语言的方法由于运动的隐含性难以有效解释动作。
- Method: 使用解耦的概念类型:运动动态(人体姿态序列)、物体和场景概念,采用前概念瓶颈设计强制通过这些概念进行预测,利用大语言模型自动提取物体和场景概念。
- Result: 在四个数据集上的实验表明,DANCE显著提高了解释清晰度且性能具有竞争力,用户研究验证了其优越的可解释性,并有助于模型调试、编辑和失败分析。
- Conclusion: DANCE框架通过解耦概念类型有效解决了视频动作识别模型解释中的纠缠问题,提供了更清晰的可解释性,同时保持模型性能。
eess.IV
[42] Optimizing the nnU-Net model for brain tumor (Glioma) segmentation Using a BraTS Sub-Saharan Africa (SSA) dataset
Chukwuemeka Arua Kalu,Adaobi Chiazor Emegoakor,Fortune Okafor,Augustine Okoh Uchenna,Chijioke Kelvin Ukpai,Godsent Erere Onyeugbo
Main category: eess.IV
TL;DR: 使用BraTS Sub-Saharan Africa数据集(60例脑胶质瘤多模态MRI)进行医学图像分割研究,发现nnU Net模型在原始数据集上的表现优于离线增强的360例数据集,获得0.84的Dice分数。
- Motivation: 医学图像分割是现代医学的重要成就,但需要关注数据质量和增强方法对模型泛化能力的影响,特别是在代表性不足的地区。
- Method: 使用BraTS Sub-Saharan Africa数据集(60例脑胶质瘤多模态MRI),对比nnU Net模型在原始数据集和离线增强数据集(360例)上的表现。
- Result: 原始数据集配合nnU Net的在线增强方法表现更好,Dice分数达到0.84;离线增强引入了人工解剖变异,降低了泛化能力。
- Conclusion: 数据质量和适当的增强方法对于构建准确、可泛化的医学图像分割模型至关重要,特别是在代表性不足的地区。
[43] Domain-Adaptive Transformer for Data-Efficient Glioma Segmentation in Sub-Saharan MRI
Ilerioluwakiiye Abolade,Aniekan Udo,Augustine Ojo,Abdulbasit Oyetunji,Hammed Ajigbotosho,Aondana Iorumbur,Confidence Raymond,Maruf Adewole
Main category: eess.IV
TL;DR: SegFormer3D-plus是一个用于脑胶质瘤分割的放射组学引导的transformer架构,专门针对撒哈拉以南非洲地区MRI基础设施有限和采集协议异质性导致的严重域偏移问题而设计。
- Motivation: 撒哈拉以南非洲地区MRI基础设施有限且采集协议异质性强,导致严重的域偏移问题,使得脑胶质瘤分割变得困难,这对诊断和治疗规划至关重要。
- Method: 结合了:(1)直方图匹配进行强度归一化;(2)放射组学特征提取与PCA降维的k-means聚类进行域感知分层采样;(3)双路径编码器,具有频率感知特征提取和空间-通道注意力;(4)复合Dice-Cross-Entropy损失函数进行边界细化。
- Result: 在BraTS 2023上预训练并在BraTS-Africa数据上微调后,SegFormer3D-plus在异质性非洲临床扫描中表现出改进的肿瘤亚区分割和边界定位效果。
- Conclusion: 放射组学引导的域适应方法在资源有限的环境中具有重要价值,能够有效应对域偏移挑战。
[44] Morpho-Genomic Deep Learning for Ovarian Cancer Subtype and Gene Mutation Prediction from Histopathology
Gabriela Fernandes
Main category: eess.IV
TL;DR: 开发了一种混合深度学习管道,通过整合定量核形态测量和深度卷积图像特征,直接从H&E组织病理学图像进行卵巢癌亚型分类和基因突变推断,在亚型分类和基因突变预测方面取得了良好性能。
- Motivation: 卵巢癌因晚期诊断和亚型异质性导致死亡率高,现有诊断方法难以揭示基因组变异信息,需要开发能够直接从组织病理学图像推断基因组信息的精准诊断方法。
- Method: 使用来自TCGA和公共数据集的约45,000个图像块,开发了结合ResNet-50 CNN编码器和Vision Transformer的融合模型,能够同时捕捉局部形态纹理和全局组织背景。
- Result: 亚型分类准确率达到84.2%(宏观AUC 0.87±0.03),基因突变推断性能:TP53 AUC 0.82±0.02,BRCA1 AUC 0.76±0.04,ARID1A AUC 0.73±0.05。特征重要性分析显示核实心和偏心率是TP53突变的主要预测因子。
- Conclusion: 可量化的组织学表型编码了可测量的基因组信号,为卵巢癌分诊和诊断中实现成本效益高的精准组织病理学铺平了道路。
eess.SP
[45] Benchmarking ResNet for Short-Term Hypoglycemia Classification with DiaData
Beyza Cinar,Maria Maleshkova
Main category: eess.SP
TL;DR: 本研究改进了DiaData数据集的质量,通过异常值处理、缺失值插补等方法提升T1D数据分析的可靠性,并建立了低血糖分类基准。
- Motivation: T1D个性化治疗需要高质量数据,但现有数据存在异常值、噪声和小样本问题,影响分析可靠性。
- Method: 使用IQR方法识别异常值并用缺失值替换;小间隔(≤25分钟)用线性插值,大间隔(30-120分钟)用Stineman插值;建立ResNet模型进行低血糖分类。
- Result: Stineman插值比线性插值提供更真实的血糖估计;血糖与心率在低血糖前15-60分钟存在中度相关性;使用更多数据和精炼数据分别提升模型性能7%和2-3%。
- Conclusion: 数据质量改进显著提升T1D数据分析的可靠性,为个性化治疗提供更准确的数据基础。
[46] NEF-NET+: Adapting Electrocardio panorama in the wild
Zehui Zhan,Yaojun Hu,Jiajing Zhan,Wanchen Lian,Wanqing Wu,Jintai Chen
Main category: eess.SP
TL;DR: NEF-NET+是一个增强的心电图全景合成框架,能够从任意视角生成任意长度的心电信号,并解决了设备间泛化和电极放置偏差等实际问题。
- Motivation: 传统多导联心电图系统只能从固定的解剖视角捕获信号,但某些心脏疾病需要非标准视角来显示诊断关键模式。现有的Nef-Net方法在理想假设下运行,面临实际应用中的挑战。
- Method: 设计了新的模型架构执行直接视角变换,包含离线预训练、设备校准调谐步骤以及用于患者特定适应的实时校准步骤。
- Result: 在真实世界设置中,NEF-NET+相比Nef-Net在PSNR上提高了约6 dB,构建了包含5367个记录的Panobench基准数据集。
- Conclusion: NEF-NET+在真实场景下显著提升了全景心电图合成的性能,为心脏电活动空间变异性研究提供了更好的工具。
cs.GR
[47] Scheduling the Off-Diagonal Weingarten Loss of Neural SDFs for CAD Models
Haotian Yin,Przemyslaw Musialski
Main category: cs.GR
TL;DR: 提出了一种用于神经符号距离函数(SDF)中Off-Diagonal Weingarten(ODW)损失的自适应调度策略,通过动态调整正则化权重来提升CAD重建质量。
- Motivation: FlatCAD中固定的ODW权重在训练过程中存在局限性:早期需要强正则化来稳定优化,但后期会抑制细节恢复。需要一种自适应策略来平衡不同训练阶段的需求。
- Method: 研究了多种ODW损失调度策略,包括常数、线性、五次方和阶梯插值调度,以及增加预热变体。这些策略在训练过程中动态调整正则化权重。
- Result: 在ABC CAD数据集上的实验表明,时变调度策略始终优于固定权重方法,相比FlatCAD基线在Chamfer距离上实现了高达35%的改进。
- Conclusion: 调度策略是曲率正则化的简单而有效的扩展,能够实现更稳健的CAD重建,在保持结构保真度的同时允许精细尺度细化。
cs.RO
[48] Comprehensive Assessment of LiDAR Evaluation Metrics: A Comparative Study Using Simulated and Real Data
Syed Mostaquim Ali,Taufiq Rahman,Ghazal Farhani,Mohamed H. Zaki,Benoit Anctil,Dominique Charlebois
Main category: cs.RO
TL;DR: 本文探讨了用于比较真实世界和模拟LiDAR扫描的评估指标,发现密度感知Chamfer距离(DCD)在所有测试场景中表现最佳,并验证了虚拟测试环境在自动驾驶系统安全测试中的可行性。
- Motivation: 由于成本和安全性考虑,传统物理测试不切实际,需要虚拟测试环境(VTE)作为替代方案。通过比较VTE生成的传感器输出与真实世界对应物,可以验证VTE是否准确反映现实。
- Method: 采用综合实验方法评估适用于比较真实和模拟LiDAR扫描的指标,测试了不同噪声、密度、失真、传感器方向和通道设置下的敏感性和准确性。使用真实LiDAR扫描数据生成虚拟测试环境,并在相同姿态下生成模拟LiDAR扫描进行比较。
- Result: 密度感知Chamfer距离(DCD)在所有情况下表现最佳。真实和模拟LiDAR扫描在语义分割输出上相似(mIoU 21%),平均DCD为0.63,表明几何属性存在轻微差异,但模型输出存在显著差异。DCD与感知方法相关性最高。
- Conclusion: DCD是评估虚拟测试环境中LiDAR扫描质量的最有效指标,虚拟测试环境可以作为自动驾驶系统安全测试的可行替代方案,但需要进一步改进几何表示的准确性。
[49] OneOcc: Semantic Occupancy Prediction for Legged Robots with a Single Panoramic Camera
Hao Shi,Ze Wang,Shangwei Guo,Mengfei Duan,Song Wang,Teng Chen,Kailun Yang,Lin Wang,Kaiwei Wang
Main category: cs.RO
TL;DR: OneOcc是一个专为腿式/人形机器人设计的全景语义场景补全框架,通过双投影融合、双网格体素化、轻量级解码器和步态位移补偿等技术,在360度连续性和抗抖动方面表现出色,在两个新发布的全景占用基准上达到SOTA性能。
- Motivation: 现有的语义场景补全系统主要针对轮式平台和前向传感器设计,而腿式/人形机器人需要能够处理身体抖动和360度连续性的鲁棒3D语义占用感知系统。
- Method: 结合了:(i)双投影融合利用环形全景图及其等距柱状展开;(ii)双网格体素化在笛卡尔和柱极坐标系中推理;(iii)轻量级解码器采用分层AMoE-3D进行动态多尺度融合;(iv)即插即用的步态位移补偿学习特征级运动校正。
- Result: 在QuadOcc基准上超越了强视觉基线和流行的LiDAR方法;在H3O基准上分别获得了+3.83 mIoU(同城)和+8.08(跨城)的性能提升。
- Conclusion: OneOcc模块轻量级,为腿式/人形机器人提供了可部署的全向感知能力,在两个新发布的全景占用基准上建立了新的SOTA标准。
[50] Flying Robotics Art: ROS-based Drone Draws the Record-Breaking Mural
Andrei A. Korigodskii,Oleg D. Kalachev,Artem E. Vasiunik,Matvei V. Urvantsev,Georgii E. Bondar
Main category: cs.RO
TL;DR: 开发了一个用于绘制世界上最大无人机壁画的自主无人机系统,结合红外运动捕捉和LiDAR技术实现精确定位,采用独特控制架构确保轨迹跟踪和线条稳定性,并设计了专门的喷涂机制。
- Motivation: 解决在恶劣户外条件下(如风、阳光)保持艺术精度和操作可靠性的双重挑战,推动机器人在创意领域的应用。
- Method: 使用红外运动捕捉相机和LiDAR技术实现精确定位;采用切向和法向不同调节的控制架构;开发轨迹规划和路径优化算法;设计定制喷涂机制以应对螺旋桨气流。
- Result: 实验结果表明系统在各种条件下都具有鲁棒性和精确性,成功展示了自主大规模艺术创作的潜力。
- Conclusion: 该系统扩展了机器人在创意领域的功能应用,为自主大规模艺术创作提供了可行的技术解决方案。
eess.AS
[51] Seeing What You Say: Expressive Image Generation from Speech
Jiyoung Lee,Song Park,Sanghyuk Chun,Soo-Whan Chung
Main category: eess.AS
TL;DR: VoxStudio是首个统一端到端的语音到图像生成模型,通过联合对齐语言和副语言信息,直接从语音描述生成富有表现力的图像。
- Motivation: 现有的语音到图像方法通常依赖额外的语音转文本系统,这会忽略文本之外的隐藏细节(如语调、情感),因此需要开发能够直接处理语音并保留副语言信息的模型。
- Method: 核心是语音信息瓶颈(SIB)模块,将原始语音压缩为紧凑的语义标记,保留韵律和情感细微差别。同时构建了VoxEmoset大规模配对情感语音-图像数据集。
- Result: 在SpokenCOCO、Flickr8kAudio和VoxEmoset基准测试上的综合实验证明了方法的可行性,并突出了情感一致性和语言歧义等关键挑战。
- Conclusion: VoxStudio为直接从语音生成富有表现力的图像提供了可行方案,为未来研究铺平了道路。
cs.CL
[52] Benchmarking the Thinking Mode of Multimodal Large Language Models in Clinical Tasks
Jindong Hong,Tianjie Chen,Lingjie Luo,Chuanyang Zheng,Ting Xu,Haibao Yu,Jianing Qiu,Qianzhong Chen,Suning Huang,Yan Xu,Yong Gui,Yijun He,Jiankai Sun
Main category: cs.CL
TL;DR: 评估了Seed1.5-VL和Gemini-2.5-Flash两种多模态大语言模型在医疗任务中的"思考模式"能力,发现激活思考模式相比标准非思考模式的性能提升有限,在复杂医疗任务中表现仍不理想。
- Motivation: 随着"双状态"多模态大语言模型的出现,需要系统评估这些模型增强的推理过程如何影响医疗任务中的性能和可靠性。
- Method: 使用VQA-RAD和ROCOv2数据集,在四个视觉医疗任务上评估两种领先MLLM的"思考模式"能力。
- Result: 在大多数任务中,激活思考模式相比标准非思考模式的性能提升有限;在开放式VQA和医学图像解释等复杂医疗任务中表现欠佳。
- Conclusion: 需要领域特定的医疗数据和更先进的医学知识整合方法来提升MLLM在医疗应用中的性能。
cs.LG
[53] Data-Efficient Realized Volatility Forecasting with Vision Transformers
Emi Soroka,Artem Arzyn
Main category: cs.LG
TL;DR: 使用Vision Transformer(ViT)架构预测资产未来30天的已实现波动率,从单日的隐含波动率曲面中学习季节性模式和非线性特征。
- Motivation: 金融机器学习中深度学习方法在预测非线性关系方面表现优越,但Transformer模型在期权数据中的应用仍较少探索。
- Method: 训练Vision Transformer(ViT)架构,从单日的隐含波动率曲面(增强日期信息)预测资产未来30天的已实现波动率。
- Result: ViT能够从隐含波动率曲面中学习季节性模式和非线性特征,显示出模型开发的潜力。
- Conclusion: ViT在期权数据预测中表现出潜力,为模型开发指明了有希望的方向。
[54] Test Time Adaptation Using Adaptive Quantile Recalibration
Paria Mehrbod,Pedro Vianna,Geraldin Nanfack,Guy Wolf,Eugene Belilovsky
Main category: cs.LG
TL;DR: 提出了一种名为自适应分位数重校准(AQR)的测试时适应技术,通过通道级别的分位数对齐来调整预激活分布,无需模型重训练即可在动态环境中实现领域适应。
- Motivation: 传统领域适应方法依赖目标域先验知识或需要模型重训练,在动态或资源受限环境中实用性有限。现有的基于批量归一化统计更新的测试时适应方法难以捕捉复杂的激活分布,且仅限于特定归一化层。
- Method: AQR通过通道级别的分位数对齐来修改预激活分布,捕捉激活分布的完整形状,并适用于BatchNorm、GroupNorm和LayerNorm等多种架构。为解决不同批次大小下分布尾部估计的挑战,AQR引入了稳健的尾部校准策略。
- Result: 在CIFAR-10-C、CIFAR-100-C和ImageNet-C数据集上的实验表明,AQR在多种架构下实现了稳健的适应性能,优于现有的测试时适应基线方法。
- Conclusion: AQR在动态和不可预测数据分布的真实场景中具有部署潜力,能够实现无需重训练的领域适应。
[55] A Probabilistic U-Net Approach to Downscaling Climate Simulations
Maryam Alipourhajiagha,Pierre-Louis Lemaire,Youssef Diouane,Julie Carreau
Main category: cs.LG
TL;DR: 本文采用概率U-Net进行气候统计降尺度,结合确定性U-Net主干和变分潜空间来捕捉随机不确定性,评估了四种训练目标在降水和温度降尺度任务中的表现。
- Motivation: 气候模型受限于计算成本,通常输出粗空间分辨率,而许多气候变化影响研究需要更精细的尺度,统计降尺度方法可以弥合这一差距。
- Method: 使用概率U-Net架构,结合确定性U-Net主干和变分潜空间来捕捉不确定性,评估了afCRPS和WMSE-MS-SSIM两种训练目标在三种设置下的表现。
- Result: WMSE-MS-SSIM在某些设置下对极端事件表现良好,而afCRPS能更好地捕捉跨尺度的空间变异性。
- Conclusion: 不同的训练目标在统计降尺度任务中各有优势,需要根据具体应用场景选择合适的目标函数。
[56] A Feedback-Control Framework for Efficient Dataset Collection from In-Vehicle Data Streams
Philipp Reis,Philipp Rigoll,Christian Steinhauser,Jacob Langner,Eric Sax
Main category: cs.LG
TL;DR: FCDC将数据收集建模为闭环控制问题,通过概率模型评估数据分布状态,基于似然和马氏距离等反馈信号自适应调节样本保留,实现探索与利用的平衡,减少冗余数据。
- Motivation: 现代AI系统受限于数据质量和多样性而非模型容量。传统开环数据收集方式积累冗余样本,导致存储效率低、标注成本高、泛化能力有限。
- Method: FCDC使用在线概率模型持续估计已收集数据分布状态,基于似然和马氏距离等反馈信号自适应调节样本保留,形成闭环控制机制。
- Result: 在真实数据流实验中,FCDC生成的数据集平衡性提升25.9%,数据存储减少39.8%。
- Conclusion: 数据收集可以主动控制,从被动流水线阶段转变为数据驱动AI核心的自调节反馈驱动过程。
[57] Decoupled Entropy Minimization
Jing Ma,Hanlin Li,Xiang Xiang
Main category: cs.LG
TL;DR: 本文分析了经典熵最小化(EM)的内在机制,将其解耦为两个相反作用的部分,揭示了其局限性,并提出了自适应解耦熵最小化(AdaDEM)方法来解决这些问题。
- Motivation: 经典熵最小化虽然能减少类别重叠、缩小领域差距和限制不确定性,但其潜力有限。需要研究EM的内在机制并解决其局限性。
- Method: 将经典EM解耦为两个部分:聚类聚合驱动因子(CADF)和梯度缓解校准器(GMC)。然后提出AdaDEM方法,通过标准化CADF带来的奖励,并使用边际熵校准器(MEC)替代GMC。
- Result: AdaDEM在噪声和动态环境中的各种不完美监督学习任务中表现优于DEM*(经典EM的上界变体),取得了优越的性能。
- Conclusion: 通过解耦经典EM并引入自适应机制,AdaDEM有效解决了经典EM的局限性,在各种不完美监督学习场景中表现出色。
Powered by Deepseek & arXiv Daily AI Enhanced