Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] AI-Based Culvert-Sewer Inspection
Christina Thrainer
Main category: cs.CV
TL;DR: 该论文提出三种方法改进排水管道缺陷分割:数据预处理增强、新型FORTRESS架构和少样本学习,解决标注数据稀缺问题。
- Motivation: 排水管道和涵洞缺陷检测对公共安全至关重要,但数据收集和标注困难且需要专业知识,导致大规模标注数据集不可行,需要解决数据稀缺问题。
- Method: 1) 评估预处理策略:传统数据增强和动态标签注入;2) 提出FORTRESS架构:结合深度可分离卷积、自适应KAN网络和多尺度注意力机制;3) 研究少样本语义分割:采用双向原型网络加注意力机制。
- Result: 预处理技术显著提升分割性能(IoU和F1分数);FORTRESS在管道缺陷数据集上达到SOTA性能,同时大幅减少可训练参数和计算成本;少样本学习方法在各项评估指标上获得满意结果。
- Conclusion: 论文提出的三种方法能显著增强缺陷分割性能并有效处理数据稀缺问题,通过数据增强、架构优化和少样本学习策略,为实际应用场景提供了可行解决方案。
[2] Evaluating Multimodal Large Language Models for Heterogeneous Face Recognition
Hatef Otroshi Shahreza,Anjith George,Sébastien Marcel
Main category: cs.CV
TL;DR: MLLMs在跨模态人脸识别(HFR)任务中表现不佳,与传统人脸识别系统存在显著性能差距,特别是在跨光谱条件下。
- Motivation: 随着多模态大语言模型(MLLMs)在各种视觉语言任务中表现出色,研究者希望探索其在生物识别应用中的潜力,特别是针对异质人脸识别(HFR)任务。
- Method: 对多个开源MLLMs进行系统性评估,测试其在VIS-NIR、VIS-SWIR、VIS-THERMAL等跨模态人脸识别场景中的表现,使用生物识别协议和多种指标(获取率、等错误率、真实接受率)。
- Result: 结果显示MLLMs与传统人脸识别系统存在显著性能差距,特别是在具有挑战性的跨光谱条件下,尽管MLLMs在其他领域取得了进展。
- Conclusion: 当前MLLMs在HFR任务中存在局限性,部署人脸识别系统时需要严格的生物识别评估,MLLMs目前不适合直接用于跨模态人脸识别。
[3] CURE: Curriculum-guided Multi-task Training for Reliable Anatomy Grounded Report Generation
Pablo Messina,Andrés Villa,Juan León Alcázar,Karen Sánchez,Carlos Hinojosa,Denis Parra,Álvaro Soto,Bernard Ghanem
Main category: cs.CV
TL;DR: CURE是一个错误感知课程学习框架,通过动态调整样本采样策略,无需额外数据即可提升医学视觉语言模型在放射学报告生成中的视觉定位准确性和事实一致性。
- Motivation: 现有医学视觉语言模型在生成放射学报告时存在视觉定位不准确和事实不一致的问题,导致预测结果不可靠或缺乏充分视觉证据支持。
- Method: CURE采用课程学习框架,在短语定位、基于定位的报告生成和解剖学定位报告生成三个任务上微调多模态指令模型,根据模型表现动态调整样本采样,强调困难样本以改善空间和文本对齐。
- Result: CURE将定位准确率提升+0.37 IoU,报告质量提升+0.188 CXRFEScore,幻觉减少18.6%,在公开数据集上验证了其有效性。
- Conclusion: CURE是一个数据高效的学习框架,能够同时提升医学视觉语言模型的定位准确性和报告可靠性,代码和模型权重已开源。
[4] DuFal: Dual-Frequency-Aware Learning for High-Fidelity Extremely Sparse-view CBCT Reconstruction
Cuong Tran Van,Trong-Thang Pham,Ngoc-Son Nguyen,Duy Minh Ho Nguyen,Ngan Le
Main category: cs.CV
TL;DR: DuFal是一个用于稀疏视图锥束CT重建的双频感知学习框架,通过双路径架构整合频域和空间域处理,显著提升了高频解剖特征的恢复能力。
- Motivation: 稀疏视图锥束CT重建面临的主要挑战是难以恢复对应高频组件的细粒度解剖细节。传统CNN方法通常偏向学习低频信息,难以有效恢复这些精细结构。
- Method: 提出了DuFal框架,包含:1)高低频分解傅里叶神经算子,包含全局高频增强分支和局部高频增强分支;2)谱通道分解方案减少参数;3)交叉注意力频率融合模块整合空间和频率特征;4)特征解码器和强度场解码管道重建CT体积。
- Result: 在LUNA16和ToothFairy数据集上的实验表明,DuFal在保持高频解剖特征方面显著优于现有最先进方法,特别是在极端稀疏视图设置下。
- Conclusion: DuFal通过双频感知学习有效解决了稀疏视图CT重建中高频细节恢复的挑战,为医学成像中的精细结构重建提供了创新解决方案。
[5] DevPrompt: Deviation-Based Prompt Learning for One-Normal ShotImage Anomaly Detection
Morteza Poudineh,Marc Lalonde
Main category: cs.CV
TL;DR: 本文提出了一种基于偏差引导提示学习的少样本异常检测框架,通过可学习上下文向量和异常特定后缀令牌增强视觉-语言模型在正常与异常提示间的区分能力,并引入基于高斯偏差的Top-K多示例学习损失函数来提升补丁级异常定位性能。
- Motivation: 少样本异常检测任务因监督有限和缺陷多样性而极具挑战性。现有方法通常存在正常与异常提示间区分能力弱、缺乏补丁级异常评分机制的问题,需要更有效的框架来整合视觉-语言模型的语义能力和基于偏差的统计可靠性。
- Method: 提出偏差引导提示学习框架:1)用可学习上下文向量替换固定提示前缀,正常与异常提示共享上下文,异常特定后缀令牌实现类别感知对齐;2)引入基于Top-K多示例学习的偏差损失,将补丁级特征建模为与正态分布的高斯偏差,使网络能为统计显著偏差的补丁分配更高异常分数。
- Result: 在MVTecAD和VISA基准测试中,相比PromptAD和其他基线方法,本文方法在像素级检测性能上表现更优。消融研究进一步验证了可学习提示、基于偏差的评分和Top-K MIL策略的有效性。
- Conclusion: 该框架成功整合了视觉-语言模型的语义能力和基于偏差的统计可靠性,通过可学习提示和偏差损失显著提升了少样本异常检测中正常与异常的区分能力,改善了异常定位和可解释性。
[6] Seeing through Light and Darkness: Sensor-Physics Grounded Deblurring HDR NeRF from Single-Exposure Images and Events
Yunshan Qi,Lin Zhu,Nan Bao,Yifan Zhao,Jia Li
Main category: cs.CV
TL;DR: 提出一种基于传感器物理的NeRF框架,从单曝光模糊LDR图像和对应事件数据中合成锐利HDR新视角,通过物理建模解决传感器与真实世界辐射不匹配问题。
- Motivation: 现有方法使用事件数据处理模糊LDR图像,但忽略了相机输出与物理世界辐射之间的传感器物理不匹配,导致HDR和去模糊效果不佳。
- Method: 提出统一传感器物理NeRF框架:1) 用NeRF直接表示HDR域3D场景实际辐射;2) 引入像素级RGB映射场对齐渲染值与传感器记录值;3) 设计事件映射场桥接物理场景动态与事件传感器输出;4) 联合优化映射场与NeRF网络。
- Result: 在收集和公开数据集上的实验表明,该方法能够从单曝光模糊LDR图像和对应事件中实现最先进的去模糊HDR新视角合成结果。
- Conclusion: 通过物理建模传感器与真实世界辐射关系,提出的框架能够有效解决极端光照条件下从模糊LDR图像合成锐利HDR新视角的挑战。
[7] Hybrid Vision Transformer_GAN Attribute Neutralizer for Mitigating Bias in Chest X_Ray Diagnosis
Jobeal Solomon,Ali Mohammed Mansoor Alsahag,Seyed Sahand Mohammadi Ziabari
Main category: cs.CV
TL;DR: 使用Vision Transformer替代U-Net卷积编码器在胸部X光属性中性化框架中,能更有效减少性别和年龄相关的属性泄漏,同时保持疾病诊断准确性。
- Motivation: 胸部X光分类器常存在性别和年龄相关的捷径偏差,导致少数亚组被系统性漏诊。现有的像素空间属性中性化方法(基于卷积编码器)虽能减轻但无法完全消除属性泄漏。
- Method: 在Attribute-Neutral Framework中用Vision Transformer(DeiT-S)替代U-Net卷积编码器,在ChestX-ray14数据集上训练。生成11个编辑强度级别的图像,用独立AI评估属性泄漏,用卷积神经网络评估疾病预测性能。
- Result: 在中等编辑强度(alpha=0.5)下,ViT中性化器将患者性别识别AUC降至约0.80,比原始卷积U-Net编码器低约10个百分点,且训练轮数减半。同时,15种发现的宏观ROC AUC与未编辑基线相差在5个百分点内,最差亚组AUC保持在0.70附近。
- Conclusion: 全局自注意力视觉模型能进一步抑制属性泄漏而不牺牲临床实用性,为实现更公平的胸部X光AI提供了实用途径。
[8] Controllable Layered Image Generation for Real-World Editing
Jinrui Yang,Qing Liu,Yijun Li,Mengwei Ren,Letian Zhang,Zhe Lin,Cihang Xie,Yuyin Zhou
Main category: cs.CV
TL;DR: LASAGNA是一个统一框架,能同时生成图像及其组成层(逼真背景和高质量透明前景),支持多种条件输入,提供更好的可控性。
- Motivation: 现有图像生成模型在编辑特定元素时难以产生可控且一致的结果,现有分层方法通常无法生成具有连贯合成关系的层,且缺乏逼真的视觉效果(如阴影和反射)。
- Method: 提出LASAGNA框架,从多种条件输入(文本提示、前景、背景和位置掩码)高效学习正确的图像合成;创建LASAGNA-48K数据集(包含干净背景和具有物理基础视觉效果的RGBA前景);建立LASAGNABENCH基准测试。
- Result: LASAGNA在同时生成多个图像层方面表现出色,产生高度一致和连贯的结果,支持多样化的后期编辑应用,能准确保持身份和视觉效果。
- Conclusion: LASAGNA通过统一框架解决了分层图像生成中的可控性和视觉效果问题,提出的数据集和基准测试将促进该领域的开放研究。
[9] DeltaDorsal: Enhancing Hand Pose Estimation with Dorsal Features in Egocentric Views
William Huang,Siyou Pei,Leyi Zou,Eric J. Gonzalez,Ishan Chatterjee,Yang Zhang
Main category: cs.CV
TL;DR: 提出一种利用手背皮肤形变信息解决XR设备中手部姿态估计遮挡问题的新方法,通过对比动态手部与放松基准位置的特征,显著提升遮挡场景下的估计精度。
- Motivation: XR设备中手部姿态估计面临手指频繁遮挡的固有挑战,需要寻找不依赖完整手部几何信息的新解决方案。
- Method: 提出双流delta编码器,利用密集视觉特征提取器,通过对比动态手部与基准放松位置的特征来学习姿态,仅需裁剪的手背图像。
- Result: 在手指遮挡≥50%的场景中,平均关节角度误差(MPJAE)比依赖完整手部几何和大模型骨干的SOTA方法降低18%,同时模型尺寸更小。
- Conclusion: 该方法不仅提高了遮挡场景下食指捏合和点击估计等下游任务的可靠性,还解锁了新的交互范式,如检测表面"点击"的等长力而无需可见运动。
[10] VIOLA: Towards Video In-Context Learning with Minimal Annotations
Ryo Fujii,Hideo Saito,Ryo Hachiuma
Main category: cs.CV
TL;DR: VIOLA:一种标签高效的视频上下文学习框架,通过密度-不确定性加权采样和置信度感知机制,在最小专家标注下实现多模态大语言模型对新视频领域的适应。
- Motivation: 多模态大语言模型(MLLMs)在新视频领域的泛化面临标注数据稀缺的挑战,特别是在工业或手术等专业环境中,专家标注成本高昂且难以获取。现有的上下文学习方法需要大量标注数据,这在专业场景中不切实际。
- Method: 1. 密度-不确定性加权采样:在严格标注预算下最大化效率,结合密度估计选择既多样、有代表性又信息丰富的样本;2. 置信度感知检索和提示:构建混合池(标注+伪标签),基于相似度和置信度的复合分数检索演示,使MLLM能自适应区分真实标注和噪声伪标签。
- Result: 在9个不同基准测试和4个MLLMs上的广泛实验表明,该框架在低资源设置下显著优于各种基线方法,能以最小标注成本实现鲁棒适应。
- Conclusion: VIOLA框架通过最小专家监督与大量未标注数据的协同,为MLLMs在新视频领域的训练自由适应提供了有效解决方案,特别适用于标注稀缺的专业环境。
[11] Relative Classification Accuracy: A Calibrated Metric for Identity Consistency in Fine-Grained K-pop Face Generation
Sylvey Lin,Eranki Vasistha
Main category: cs.CV
TL;DR: 该研究评估了条件扩散模型在K-pop偶像人脸生成中的语义可控性,发现模型在视觉质量上表现优异但存在严重的语义模式崩溃问题,并提出RCA指标来量化身份一致性。
- Motivation: 现有评估指标(如FID和IS)在细粒度、单领域任务中难以检测身份对齐问题,特别是在K-pop偶像人脸生成这种类间相似度高的领域,需要更精确的语义可控性评估方法。
- Method: 使用类别条件DDPM生成32x32的K-pop偶像人脸,提出相对分类准确率(RCA)指标,通过混淆矩阵分析模型在视觉模糊身份上的失败模式,并探讨分辨率限制和性别内模糊性对性能的影响。
- Result: 模型在视觉质量上表现优异(FID 8.93),但在语义控制上存在严重问题(RCA仅0.27),特别是在视觉模糊的身份上出现语义模式崩溃,表明高视觉质量并不保证身份一致性。
- Conclusion: 该研究框架为条件生成模型的身份一致性验证提供了严格标准,揭示了扩散模型在细粒度控制任务中的局限性,强调需要超越传统视觉质量指标来评估语义可控性。
[12] Region-aware Spatiotemporal Modeling with Collaborative Domain Generalization for Cross-Subject EEG Emotion Recognition
Weiwei Wu,Yueyang Li,Yuhu Shi,Weiming Zeng,Lang Qin,Yang Yang,Ke Zhou,Zhiguo Zhang,Wai Ting Siok,Nizhuan Wang
Main category: cs.CV
TL;DR: 提出RSM-CoDG框架,通过区域感知时空建模与协作域泛化解决跨被试EEG情绪识别中的个体差异问题,在SEED数据集上表现优异。
- Motivation: 跨被试EEG情绪识别面临两大挑战:1) 被试间变异性导致的分布偏移;2) 情绪相关神经表征在空间组织和时间演化上的高度复杂性。现有方法通常孤立地改进空间建模、时间建模或泛化策略,难以在统一框架中同时对齐跨被试表征、捕捉多尺度动态并抑制被试特异性偏差。
- Method: 提出RSM-CoDG框架:1) 基于功能脑区分区构建区域级空间表征,提高跨被试可比性;2) 多尺度时间建模捕捉情绪诱发神经活动的动态演化;3) 协作域泛化策略,通过多维约束在完全未见目标被试设置下减少被试特异性偏差。
- Result: 在SEED系列数据集上的大量实验结果表明,RSM-CoDG始终优于现有竞争方法,为提升跨被试EEG情绪识别的鲁棒性提供了有效方法。
- Conclusion: RSM-CoDG通过整合神经科学先验、多尺度时间建模和协作域泛化,有效解决了跨被试EEG情绪识别中的关键挑战,显著提升了模型的泛化能力和识别性能。
[13] Explainable Deepfake Detection with RL Enhanced Self-Blended Images
Ning Jiang,Dingheng Zeng,Yanhong Liu,Haiyang Yi,Shijie Yu,Minghe Weng,Haifeng Shen,Ying Li
Main category: cs.CV
TL;DR: 提出基于自混合图像的自動化思維鏈數據生成框架和強化學習增強深度偽造檢測框架,解決MLLM在深度偽造檢測中缺乏高質量註釋數據的問題
- Motivation: 現有深度偽造檢測方法缺乏可解釋性輸出,而多模態大語言模型(MLLM)在可解釋檢測方面有潛力,但面臨高質量註釋數據稀缺的問題,且文本註釋成本高、難度大
- Method: 1) 基於自混合圖像的自動化思維鏈數據生成框架;2) 強化學習增強的深度偽造檢測框架,包括定製獎勵機制和反饋驅動的合成數據生成方法
- Result: 在多個跨數據集基準測試中達到與最先進方法競爭的性能,驗證了思維鏈數據構建流程、獎勵機制和合成數據生成方法的有效性
- Conclusion: 提出的框架降低了註釋成本,促進了MLLM在深度偽造檢測中的應用,並探索了強化學習在該領域的潛力,為可解釋深度偽造檢測提供了新思路
[14] Evolving Without Ending: Unifying Multimodal Incremental Learning for Continual Panoptic Perception
Bo Yuan,Danpei Zhao,Wentao Li,Tian Li,Zhiguo Jiang
Main category: cs.CV
TL;DR: 本文提出持续全景感知(CPP)框架,将持续学习扩展到多模态多任务场景,通过跨模态编码器、知识继承模块和一致性约束解决灾难性遗忘和语义混淆问题。
- Motivation: 现有持续学习研究主要关注单任务场景,限制了在多任务和多模态应用中的潜力。多任务持续学习不仅存在灾难性遗忘问题,还会导致跨模态语义混淆,在增量训练中造成严重的模型退化。
- Method: 提出持续全景感知(CPP)模型:1)协作跨模态编码器(CCE)进行多模态嵌入;2)通过对比特征蒸馏和实例蒸馏的可塑性知识继承模块;3)跨模态一致性约束(CPP+);4)非对称伪标签机制,无需样本回放。
- Result: 在多模态数据集和多样化持续学习任务上的广泛实验表明,所提模型具有优越性,特别是在细粒度持续学习任务中表现突出。
- Conclusion: CPP框架成功将持续学习扩展到多模态多任务场景,通过协同跨模态编码、知识继承和一致性约束,有效解决了灾难性遗忘和语义对齐问题,实现了像素级、实例级和图像级的联合感知。
[15] SuperOcc: Toward Cohesive Temporal Modeling for Superquadric-based Occupancy Prediction
Zichen Yu,Quanli Liu,Wei Wang,Liyong Zhang,Xiaoguang Zhao
Main category: cs.CV
TL;DR: SuperOcc是一个基于超二次曲面的3D占据预测框架,通过时间建模、多超二次曲面解码和高效体素化方案,在保持稀疏性的同时提升几何表达能力和计算效率。
- Motivation: 现有3D占据预测方法大多使用密集场景表示,忽略了真实驾驶场景的固有稀疏性。虽然超二次曲面表示作为稀疏替代方案具有潜力,但现有框架存在时间建模不足、查询稀疏性与几何表达能力之间的权衡困难、以及超二次曲面到体素转换效率低等问题。
- Method: 提出SuperOcc框架,包含三个关键设计:1) 融合视角中心和物体中心时间线索的协同时间建模机制;2) 在不牺牲查询稀疏性的前提下增强几何表达能力的多超二次曲面解码策略;3) 提高计算效率的高效超二次曲面到体素转换方案。
- Result: 在SurroundOcc和Occ3D基准测试上的广泛实验表明,SuperOcc实现了最先进的性能,同时保持了卓越的效率。
- Conclusion: SuperOcc通过创新的时间建模、几何表达增强和高效转换方案,成功解决了超二次曲面框架的现有问题,为自动驾驶中的3D占据预测提供了有效的稀疏表示解决方案。
[16] Event-VStream: Event-Driven Real-Time Understanding for Long Video Streams
Zhenghui Guo,Yuanbin Man,Junyuan Sheng,Bowen Lin,Ahmed Ahmed,Bo Jiang,Boyuan Zhang,Miao Yin,Sian Jin,Omprakash Gnawal,Chengming Zhang
Main category: cs.CV
TL;DR: Event-VStream:基于事件感知的视频流理解框架,通过检测语义连贯的事件边界来触发语言生成,减少冗余帧处理,实现长视频实时理解。
- Motivation: 现有视频流理解系统存在两个主要问题:1)固定间隔解码导致重复输出;2)缓存剪枝会丢失关键时序信息。多模态大语言模型在处理长视频流时面临冗余帧处理和快速遗忘过去上下文的问题。
- Method: 提出事件感知框架,将连续视频表示为离散的语义连贯事件序列。通过整合运动、语义和预测线索来检测有意义的状态转换,仅在事件边界触发语言生成。每个事件嵌入被整合到持久记忆库中,支持长时程推理。
- Result: 在OVOBench-Realtime和长格式Ego4D评估中表现优异:1)比VideoLLM-Online-8B基线提升10.4分;2)仅使用通用LLaMA-3-8B文本骨干,性能接近Flash-VStream-7B;3)在2小时Ego4D流上保持约70%的GPT-5胜率。
- Conclusion: Event-VStream通过事件感知方法有效解决了长视频流理解中的冗余处理和记忆遗忘问题,在保持低延迟的同时实现了竞争性的性能表现。
[17] Skywork UniPic 3.0: Unified Multi-Image Composition via Sequence Modeling
Hongyang Wei,Hongbo Liu,Zidong Wang,Yi Peng,Baixin Xu,Size Wu,Xuying Zhang,Xianglong He,Zexiang Liu,Peiyu Wang,Xuchen Song,Yangguang Li,Yang Liu,Yahui Zhou
Main category: cs.CV
TL;DR: Skywork UniPic 3.0是一个统一的多模态框架,支持单图像编辑和多图像组合,通过创新的数据管道和序列建模训练范式,在少量高质量训练样本下实现SOTA性能。
- Motivation: 社区对多图像组合任务(特别是人-物交互类别)有强烈需求,但现有模型未公开高质量融合的具体方法细节,多图像组合在一致性和质量方面比单图像编辑更具挑战性。
- Method: 1) 设计全面的数据收集、过滤和合成管道,仅用70万高质量训练样本;2) 提出将多图像组合建模为序列问题的训练范式,将条件生成转化为统一序列合成;3) 在训练后阶段集成轨迹映射和分布匹配,实现8步快速推理。
- Result: 在单图像编辑基准上达到SOTA性能,在多图像组合基准上超越Nano-Banana和Seedream 4.0,推理速度比标准合成采样提升12.5倍,仅需8步即可生成高保真样本。
- Conclusion: Skywork UniPic 3.0通过创新的数据管道和训练范式,有效解决了多图像组合的挑战,验证了方法的有效性,代码、模型和数据集已公开。
[18] Consistency-Regularized GAN for Few-Shot SAR Target Recognition
Yikui Zhai,Shikuang Liu,Wenlve Zhou,Hongsheng Zhang,Zhiheng Zhou,Xiaolin Tian,C. L. Philip Chen
Main category: cs.CV
TL;DR: 提出Cr-GAN框架解决SAR图像少样本识别中的数据稀缺问题,通过双分支判别器解耦对抗训练和表征学习,在极少数据下生成高质量样本,显著提升少样本识别性能。
- Motivation: SAR图像少样本识别面临极端数据稀缺的挑战。传统方法使用GAN生成大量数据并通过自监督学习预训练模型,但GAN本身需要大量数据训练,这与少样本学习的前提相矛盾。
- Method: 提出一致性正则化生成对抗网络(Cr-GAN):1) 双分支判别器解耦对抗训练和表征学习;2) 通道级特征插值策略生成新潜在特征;3) 双域循环一致性机制确保语义完整性。框架可适配多种GAN架构。
- Result: 在MSTAR和SRSDD数据集上验证,8-shot设置下分别达到71.21%和51.64%的准确率,显著优于现有基线方法,且参数量仅为最先进扩散模型的约5%。
- Conclusion: Cr-GAN成功解决了少样本SAR识别中的数据稀缺问题,能够在极少数据下生成多样且高质量的样本,有效提升自监督学习性能,为实际应用提供了可行解决方案。
[19] Performance-guided Reinforced Active Learning for Object Detection
Zhixuan Liang,Xingyu Zeng,Rui Zhao,Ping Luo
Main category: cs.CV
TL;DR: MGRAL是一种用于目标检测的强化学习驱动的主动学习方法,通过mAP改进作为奖励来优化样本选择,在PASCAL VOC和COCO基准上实现了最佳性能。
- Motivation: 当前主动学习方法主要关注数据的分布或内在信息内容,而没有直接与下游任务性能(如目标检测中的mAP)相关联,这限制了主动学习在目标检测中的效果。
- Method: 提出MGRAL方法:1) 使用模型输出变化的期望作为信息量度量;2) 采用强化学习采样代理,使用策略梯度优化选择,以mAP改进作为奖励;3) 通过无监督方式和快速查找表减少mAP估计的计算开销。
- Result: 在PASCAL VOC和COCO基准的目标检测任务上,MGRAL展示了最高的主动学习曲线和令人信服的可视化结果,建立了强化学习驱动主动目标检测的新范式。
- Conclusion: MGRAL成功地将强化学习与主动学习相结合,通过直接优化mAP改进来指导样本选择,为目标检测的主动学习提供了有效的新方法。
[20] Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs
Mingyu Yu,Lana Liu,Zhehao Zhao,Wei Wang,Sujuan Qin
Main category: cs.CV
TL;DR: BVS是一种针对多模态大语言模型的图像-文本对越狱框架,通过"重建-生成"策略探测视觉安全边界,成功率达到98.21%
- Motivation: 多模态大语言模型快速发展带来了复杂的安全挑战,特别是在文本和视觉安全的交叉领域。现有方案对MLLMs安全漏洞的探索不足,特别是对其视觉安全边界的研究不够充分。
- Method: 提出BVS框架,采用"重建-生成"策略,利用中性化视觉拼接和归纳重组技术,将恶意意图从原始输入中解耦,诱导MLLMs生成有害图像。
- Result: 实验结果显示BVS对GPT-5(2026年1月12日发布)实现了98.21%的显著越狱成功率,暴露了当前MLLMs视觉安全对齐的关键漏洞。
- Conclusion: 研究发现揭示了当前多模态大语言模型在视觉安全对齐方面存在严重漏洞,需要加强安全防护措施。
[21] Enhanced LULC Segmentation via Lightweight Model Refinements on ALOS-2 SAR Data
Ali Caglayan,Nevrez Imamoglu,Toru Kouyama
Main category: cs.CV
TL;DR: 该研究提出三种轻量级改进方法,用于日本全国尺度ALOS-2单极化SAR数据的土地利用/土地覆盖语义分割,有效解决了边界过度平滑、细长结构漏检和长尾分布下稀有类别性能下降等问题。
- Motivation: 解决SAR密集预测中的常见失败模式:边界过度平滑、细长结构漏检,以及在长尾标签分布下稀有类别性能退化的问题,同时不增加管道复杂度。
- Method: 基于SAR-W-MixMAE自监督预训练,引入三种轻量级改进:(1) 将高分辨率特征注入多尺度解码;(2) 渐进式细化上采样头,交替进行卷积细化和逐步上采样;(3) α尺度因子调节焦点损失+Dice损失中的类别重新加权。
- Result: 在日本全国范围的ALOS-2 LULC基准测试中取得一致改进,特别是对于代表性不足的类别,同时在水体检测任务上提升了各项标准评估指标。
- Conclusion: 通过三种轻量级改进方法,有效解决了SAR语义分割中的常见问题,显著提升了土地利用/土地覆盖分类性能,特别是对稀有类别和细长结构的识别能力。
[22] Zero-Shot Product Attribute Labeling with Vision-Language Models: A Three-Tier Evaluation Framework
Shubham Shukla,Kunal Sonalkar
Main category: cs.CV
TL;DR: 本文提出一个三层评估框架,系统评估视觉语言模型在时尚多属性预测任务中的表现,发现VLM在细粒度分类上表现优异,但在属性适用性检测上存在瓶颈。
- Motivation: 时尚零售应用需要细粒度属性预测,但现有视觉语言模型在时尚多属性任务上的系统评估不足。时尚属性通常是条件性的,需要先检测属性适用性再进行分类,这是一个关键挑战。
- Method: 引入三层评估框架:1) 整体任务性能(包括NA类);2) 属性适用性检测;3) 属性可确定时的细粒度分类。使用DeepFashion-MultiModal数据集,在18个属性上评估9个VLM模型,并与基于Fashion-CLIP嵌入的分类器进行对比。
- Result: 1) 零样本VLM达到64.0%宏F1,比基于Fashion-CLIP嵌入的逻辑回归提升三倍;2) VLM在细粒度分类上表现优异(70.8% F1),但在适用性检测上表现较差(34.1% NA-F1);3) 高效模型能达到旗舰模型90%以上的性能,成本更低。
- Conclusion: 该诊断框架能帮助从业者识别错误来源(可见性检测或分类),指导生产系统的针对性改进。高效模型提供了实用的部署路径,但属性适用性检测仍是关键瓶颈。
[23] VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
Chenglin Li,Qianglong Chen,Feng Han,Yikun Wang,Xingxi Yin,Yan Gong,Ruilin Li,Yin Zhang,Jiaqi Wang
Main category: cs.CV
TL;DR: VideoThinker:通过合成工具交互轨迹训练的视频大语言模型,解决了长视频理解中信息丢失和时域定位问题,显著优于现有方法。
- Motivation: 现有视频大语言模型依赖均匀采样帧进行静态推理,导致长视频理解中时域定位能力弱和信息丢失严重。虽然代理工具(时域检索、空间缩放、时域缩放)能自适应探索关键时刻,但构建代理视频理解数据需要模型本身具备强大的长视频理解能力,形成循环依赖。
- Method: 将视频转换为丰富的描述,利用强大的代理语言模型在描述空间生成多步工具使用序列,然后将这些轨迹通过替换描述为对应帧的方式锚定回视频,从而创建大规模的交错视频和工具推理数据集,无需底层模型具备长视频理解能力。
- Result: VideoThinker在长视频基准测试中显著优于仅使用描述的语言模型代理和强大的视频模型基线,展示了工具增强合成数据和自适应检索与缩放推理对长视频理解的有效性。
- Conclusion: 通过合成工具交互轨迹训练的视频大语言模型VideoThinker,具备动态推理能力、自适应时域探索和多步工具使用能力,为解决长视频理解挑战提供了有效方案。
[24] FAIR-ESI: Feature Adaptive Importance Refinement for Electrophysiological Source Imaging
Linyong Zou,Liang Zhang,Xiongfei Wang,Jia-Hong Gao,Yi Sun,Shurong Sheng,Kuntao Xiao,Wanli Yang,Pengfei Teng,Guoming Luan,Zhao Lv,Zikang Xu
Main category: cs.CV
TL;DR: FAIR-ESI:一种通过多视图自适应特征重要性精炼来提升脑电生理源成像准确性的新框架
- Motivation: 脑电生理源成像(ESI)是诊断脑部疾病的重要技术,但现有方法在特征选择和精炼方面仍面临挑战,影响了成像的精确性。
- Method: 提出FAIR-ESI框架,通过三种视图自适应精炼特征重要性:基于FFT的频谱特征精炼、加权时域特征精炼和基于自注意力的分块特征精炼。
- Result: 在两个不同配置的模拟数据集和两个真实临床数据集上的广泛实验验证了该框架的有效性。
- Conclusion: FAIR-ESI框架有潜力推动脑部疾病诊断的进步,并为脑功能研究提供新见解。
[25] Sub-Region-Aware Modality Fusion and Adaptive Prompting for Multi-Modal Brain Tumor Segmentation
Shadi Alijani,Fereshteh Aghaee Meibodi,Homayoun Najjaran
Main category: cs.CV
TL;DR: 提出一种用于多模态医学影像的基础模型适配框架,通过子区域感知模态注意力和自适应提示工程,在脑肿瘤分割任务上显著优于基线方法。
- Motivation: 基础模型在多模态医学影像上的成功适配是一个关键但未解决的挑战。现有模型难以有效融合多源信息并适应病理组织的异质性。
- Method: 引入包含两个关键技术创新的框架:1) 子区域感知模态注意力机制,让模型学习每个肿瘤子区域的最优模态组合;2) 自适应提示工程策略,利用基础模型固有能力提升分割精度。
- Result: 在BraTS 2020脑肿瘤分割数据集上验证,该方法显著优于基线方法,特别是在具有挑战性的坏死核心子区域表现突出。
- Conclusion: 为多模态融合和提示提供了原则性有效方法,为医学影像中更准确、鲁棒的基础模型解决方案铺平了道路。
[26] Breaking the Resolution Barrier: Arbitrary-resolution Deep Image Steganography Framework
Xinjue Hu,Chi Wang,Boyu Wang,Xiang Zhang,Zhenshan Tan,Zhangjie Fu
Main category: cs.CV
TL;DR: ARDIS是首个任意分辨率深度图像隐写框架,通过频率解耦架构和隐式重建器,实现不同分辨率秘密图像的隐藏与恢复,无需预先重采样。
- Motivation: 现有深度图像隐写方法要求秘密图像与载体图像分辨率一致,导致两个问题:1) 分辨率不一致时需要重采样,造成细节损失;2) 分辨率未知时无法恢复原始分辨率。
- Method: 1) 频率解耦架构:将秘密图像解耦为分辨率对齐的全局基和分辨率无关的高频潜在表示;2) 潜在引导隐式重建器:使用连续隐函数查询和渲染高频残差;3) 隐式分辨率编码:将离散分辨率值转换为密集特征图隐藏。
- Result: 实验结果表明,ARDIS在不可见性和跨分辨率恢复保真度方面显著优于现有最先进方法。
- Conclusion: ARDIS通过从离散映射到参考引导连续信号重建的范式转变,解决了分辨率约束问题,实现了任意分辨率秘密图像的准确隐藏和恢复。
[27] White-Box mHC: Electromagnetic Spectrum-Aware and Interpretable Stream Interactions for Hyperspectral Image Classification
Yimin Zhu,Lincoln Linlin Xu,Zhengsen Xu,Zack Dewis,Mabel Heffring,Saeid Taleghanidoozdoozan,Motasem Alkayid,Quinn Ledingham,Megan Greenwood
Main category: cs.CV
TL;DR: 提出ES-mHC框架,通过显式建模电磁频谱分组间的结构化交互,将高光谱图像分类从黑盒预测转变为部分白盒学习过程
- Motivation: 现有深度学习模型在高光谱图像分类中依赖不透明的光谱-空间特征混合,限制了可解释性,阻碍了对内部决策机制的理解
- Method: 提出物理频谱感知的白盒mHC框架(ES-mHC),使用结构化、方向性矩阵显式建模不同电磁频谱分组间的交互,将特征表示与交互结构分离
- Result: 学习的超连接矩阵展现出连贯的空间模式和非对称交互行为,提供了模型内部动态的机制性洞察;增加扩展率加速了结构化交互模式的出现
- Conclusion: ES-mHC将高光谱图像分类从纯粹的黑盒预测任务转变为结构透明、部分白盒的学习过程,提高了模型的可解释性和内部机制的可视化分析能力
[28] Atlas-Assisted Segment Anything Model for Fetal Brain MRI (FeTal-SAM)
Qi Zeng,Weide Liu,Bo Li,Ryne Didier,P. Ellen Grant,Davood Karimi
Main category: cs.CV
TL;DR: FeTal-SAM:基于SAM的胎儿脑MRI分割模型,通过集成图谱提示和基础模型原理,实现无需重新训练即可适应不同标签定义的灵活分割
- Motivation: 传统深度学习方法需要大量标注数据且标签定义固定,当临床或研究需求变化时需要重新训练模型。同时,现有方法无法区分分割结果是由真实图像对比度驱动还是由学习到的空间先验驱动
- Method: 利用多图谱配准生成空间对齐的标签模板作为密集提示,结合边界框提示,输入到SAM分割解码器。通过逐结构二值分割并融合重建完整3D分割体积
- Result: 在两个数据集(dHCP和内部数据集)上评估,对于高对比度结构(如皮层板、小脑)达到与最先进基线相当的Dice分数,同时保持分割任意用户指定解剖结构的能力。对于低对比度细微结构(如海马体、杏仁核)精度略低
- Conclusion: FeTal-SAM展示了无需大量重新训练即可作为通用分割模型的潜力,是迈向临床适应性胎儿脑MRI分析工具的有希望的一步
[29] LL-GaussianMap: Zero-shot Low-Light Image Enhancement via 2D Gaussian Splatting Guided Gain Maps
Yuhan Chen,Ying Fang,Guofa Li,Wenxuan Yu,Yicui Shi,Jingrui Zhang,Kefei Qian,Wenbo Chu,Keqiang Li
Main category: cs.CV
TL;DR: LL-GaussianMap首次将2D高斯泼溅技术用于低光图像增强,通过无监督学习生成增益图,在保持边缘和抑制伪影的同时实现极低存储开销。
- Motivation: 现有低光增强方法主要在像素域操作或依赖隐式特征表示,忽视了图像的内在几何结构先验。2D高斯泼溅(2DGS)具有优越的结构拟合能力和高渲染效率,但在低层视觉任务中尚未被探索。
- Method: 提出LL-GaussianMap无监督框架,将增强任务重新定义为由2DGS基元引导的增益图生成过程。包含两个阶段:1) 使用2DGS进行高保真结构重建;2) 通过创新的统一增强模块,利用高斯泼溅的光栅化机制渲染数据驱动的增强字典系数。
- Result: 实验结果表明,LL-GaussianMap在实现卓越增强性能的同时,具有极低的存储开销,证明了显式高斯表示在图像增强中的有效性。
- Conclusion: 该研究首次将2D高斯泼溅技术成功应用于低光图像增强,通过显式高斯表示有效结合结构感知能力,在无监督学习框架下实现了高质量的增强效果。
[30] LL-GaussianImage: Efficient Image Representation for Zero-shot Low-Light Enhancement with 2D Gaussian Splatting
Yuhan Chen,Wenxuan Yu,Guofa Li,Yijun Xu,Ying Fang,Yicui Shi,Long Cao,Wenbo Chu,Keqiang Li
Main category: cs.CV
TL;DR: 提出LL-GaussianImage框架,直接在2DGS压缩表示域进行低光增强,避免了解压缩-增强-再压缩的繁琐流程,实现了压缩即增强。
- Motivation: 现有低光增强算法主要在像素域操作,处理2DGS压缩图像需要解压缩-增强-再压缩的繁琐流程,效率低且引入二次退化。需要直接在压缩表示域进行处理的方法。
- Method: 1. 语义引导的Mixture-of-Experts增强框架,使用渲染图像指导对2DGS稀疏属性空间进行动态自适应变换;2. 多目标协作损失函数系统约束平滑度和保真度;3. 两阶段优化过程:单尺度重建确保基础表示准确性,增强网络鲁棒性。
- Result: 实现了低光图像的高质量增强,同时保持高压缩比。实验验证了在压缩表示域直接处理范式的可行性和优越性。
- Conclusion: LL-GaussianImage是首个零样本无监督框架,直接在2DGS压缩表示域进行低光增强,实现了压缩即增强,避免了传统流程的效率损失和二次退化问题。
[31] Diffusion Model-Based Data Augmentation for Enhanced Neuron Segmentation
Liuyun Jiang,Yanchao Zhang,Jinyue Guo,Yizhuo Lu,Ruining Zhou,Hua Han
Main category: cs.CV
TL;DR: 提出基于扩散模型的数据增强框架,用于电子显微镜神经元分割,通过生成多样且结构合理的图像-标签对来解决训练数据不足问题。
- Motivation: 当前基于深度学习的神经元分割方法依赖大规模训练数据和耗时的手动标注。传统数据增强方法生成的样本与原始图像高度相关,缺乏结构多样性,限制了分割性能。
- Method: 提出扩散基数据增强框架:1) 使用分辨率感知的条件扩散模型,结合多尺度条件和EM分辨率先验,从3D掩码生成体素级图像;2) 引入生物学引导的掩码重塑模块,生成具有增强结构真实性的掩码。
- Result: 在AC3和AC4数据集上,在低标注情况下,结合两种不同后处理方法,ARAND指标分别提升32.1%和30.7%。
- Conclusion: 该扩散基数据增强框架能有效丰富训练集,提高神经元分割性能,特别是在标注数据有限的情况下。
[32] Assessing Situational and Spatial Awareness of VLMs with Synthetically Generated Video
Pascal Benschop,Justin Dauwels,Jan van Gemert
Main category: cs.CV
TL;DR: 本文提出了一个合成基准测试,用于评估视觉语言模型在情境感知和空间感知方面的能力,发现现有模型在区分暴力行为、跨视角角色绑定和轨迹对齐等任务上表现仅略高于随机猜测。
- Motivation: 当前视觉语言模型在涉及微妙时空或几何线索的语义理解方面仍然脆弱,特别是在情境感知(判断互动是否具有危害性)和空间感知(追踪谁对谁做了什么,以及推理相对位置和运动)方面存在不足。
- Method: 通过构建合成基准测试,使用最小化的视频对来评估三个挑战:区分暴力与良性活动、跨视角绑定攻击者角色、判断细粒度轨迹对齐。在训练无关的设置下评估最近的视觉语言模型。
- Result: 结果显示,在所有任务上模型表现仅略高于随机猜测。简单的辅助手段(稳定颜色线索)部分减少了攻击者角色混淆,但未能解决根本的弱点。
- Conclusion: 通过发布数据和代码,旨在提供可复现的诊断工具,并探索轻量级空间先验来补充大规模预训练,以提升视觉语言模型的空间推理能力。
[33] A Mobile Application for Flower Recognition System Based on Convolutional Neural Networks
Mustafa Yurdakul,Enes Ayan,Fahrettin Horasan,Sakir Tasdemir
Main category: cs.CV
TL;DR: 开发基于CNN的移动应用用于花卉识别,比较三种CNN模型和七种优化算法,DenseNet-121+SGD组合效果最佳,准确率达95.84%
- Motivation: 花卉在日常生活中用途广泛,但识别花卉类型需要专业知识,而专家并非随时可及。需要为非专业人士提供快速便捷的花卉识别工具。
- Method: 开发移动应用,采用三种CNN模型(MobileNet、DenseNet121、Xception)进行花卉分类,使用七种不同优化算法训练模型,评估分类性能。
- Result: DenseNet-121架构配合随机梯度下降(SGD)优化算法表现最佳,达到95.84%准确率,96.00%的精确率、召回率和F1分数。
- Conclusion: CNN可用于移动应用中的花卉分类,DenseNet-121+SGD组合在花卉识别任务中表现出色,为移动端花卉识别应用提供了有效解决方案。
[34] Beyond Off-the-Shelf Models: A Lightweight and Accessible Machine Learning Pipeline for Ecologists Working with Image Data
Clare Chemery,Hendrik Edelhoff,Ludwig Bothmann
Main category: cs.CV
TL;DR: 提出轻量级实验流水线,降低生态研究中应用机器学习进行图像分类的门槛,使生态学家能独立实验并构建针对本地数据集和特定任务的分类器。
- Motivation: 生态研究中应用机器学习进行图像分类存在技术门槛高的问题,生态学家难以超越现成模型,需要针对本地数据集和特定分类任务定制化解决方案。
- Method: 开发结合命令行界面(用于预处理、训练和评估)和图形界面(用于标注、错误分析和模型比较)的工具,使生态学家无需高级ML专业知识即可构建和迭代任务特定的分类器。
- Result: 在德国Veldenstein森林收集的3392张相机陷阱图像中,使用4352张专家标注的裁剪图像训练模型,最佳模型在年龄分类上达到90.77%准确率,性别分类达到96.15%准确率。
- Conclusion: 该框架为生态学家提供了开发针对特定研究问题的ML模型的可访问工具,即使数据有限也能实现可靠的种群统计分类,为ML在野生动物监测和种群分析中的更广泛应用铺平道路。
[35] Towards Realistic Remote Sensing Dataset Distillation with Discriminative Prototype-guided Diffusion
Yonghao Xu,Pedram Ghamisi,Qihao Weng
Main category: cs.CV
TL;DR: 首次将数据集蒸馏引入遥感图像解释领域,使用文本到图像扩散模型将大规模遥感数据集压缩为紧凑的蒸馏数据集,通过分类器驱动指导和视觉风格引导提升合成样本质量。
- Motivation: 深度学习在遥感图像解释中依赖大规模数据集带来两大挑战:(1)高存储和计算成本,(2)涉及敏感类别时的数据泄露风险。需要开发能压缩数据集同时保持代表性的方法。
- Method: 1. 使用文本到图像扩散模型压缩大规模遥感数据集;2. 提出分类器驱动指导,通过预训练模型的分类一致性损失注入扩散训练过程;3. 对训练样本进行潜在空间聚类选择代表性原型作为视觉风格指导;4. 使用视觉语言模型提供聚合文本描述。
- Result: 在三个高分辨率遥感场景分类基准测试中,该方法能够为下游模型训练蒸馏出真实且多样化的样本。代码和预训练模型已在线提供。
- Conclusion: 首次将数据集蒸馏引入遥感图像解释,提出的方法能有效压缩数据集同时保持样本质量和多样性,为降低存储计算成本和数据泄露风险提供了可行方案。
[36] An IoT-Based Smart Plant Monitoring and Irrigation System with Real-Time Environmental Sensing, Automated Alerts, and Cloud Analytics
Abdul Hasib,A. S. M. Ahsanul Sarkar Akib
Main category: cs.CV
TL;DR: 基于ESP32的智能植物监测系统,集成温湿度、水位、土壤湿度传感器,通过ThingSpeak云平台实现远程监控和自动灌溉,节水40%,成本45.20美元。
- Motivation: 传统农业依赖人工观察和定期浇水,导致水资源浪费、植物生长不一致、对环境变化响应延迟。全球对可持续农业的需求增长需要智能监测系统来优化资源利用和植物健康管理。
- Method: 使用ESP32微控制器集成DHT22(温湿度)、HC-SR04(水位)和土壤湿度传感器,通过OLED显示屏提供视觉反馈,蜂鸣器提供听觉警报。所有传感器数据无线传输到ThingSpeak云平台进行远程监控、历史分析和自动警报生成。
- Result: 系统能维持最佳土壤湿度水平(准确率92%),提供实时环境监测,相比传统灌溉方法减少约40%的用水量。集成Web仪表板全面可视化植物健康参数,总实施成本45.20美元。
- Conclusion: 该系统为精准农业和智能农业提供了经济实惠、可扩展的解决方案,适用于小规模园艺和商业农业应用,能有效优化资源利用和植物健康管理。
[37] TinySense: Effective CSI Compression for Scalable and Accurate Wi-Fi Sensing
Toan Gian,Dung T. Tran,Viet Quoc Pham,Francesco Restuccia,Van-Dinh Nguyen
Main category: cs.CV
TL;DR: TinySense是一个基于VQGAN的Wi-Fi感知压缩框架,通过向量量化显著减少CSI数据量,同时保持人体姿态估计精度,并优化网络资源使用。
- Motivation: 随着对设备无关和隐私保护感知解决方案的需求增长,Wi-Fi感知成为人体姿态估计的有前景方法。但现有方法直接处理大量CSI数据,给网络资源带来压力,需要更高效的压缩方案来提升可扩展性。
- Method: 提出TinySense压缩框架,基于VQGAN学习码本,显著减少CSI数据量。使用K-means算法动态调整压缩比特率,将大规模预训练码本聚类为更小子集。结合Transformer模型缓解比特率损失,增强不可靠网络条件下的鲁棒性。在Jetson Nano和Raspberry Pi上实现原型系统。
- Result: TinySense在相同压缩率下比现有压缩方案提升1.5倍HPE精度(PCK20评分),延迟降低5倍,网络开销减少2.5倍。在Jetson Nano和Raspberry Pi上的实验验证了其低延迟和高效网络资源使用。
- Conclusion: TinySense通过创新的VQGAN压缩框架有效解决了Wi-Fi感知中的网络资源瓶颈问题,在保持高精度人体姿态估计的同时显著提升了系统可扩展性和效率。
[38] A Lightweight Brain-Inspired Machine Learning Framework for Coronary Angiography: Hybrid Neural Representation and Robust Learning Strategies
Jingsong Xia,Siqi Wang
Main category: cs.CV
TL;DR: 提出轻量级脑启发式深度学习框架,用于冠状动脉造影图像分类,解决临床场景中的复杂病变、类别不平衡、标签不确定性和计算资源有限等挑战。
- Motivation: 冠状动脉造影是评估冠心病的核心影像学方法,但实际临床环境中存在复杂病变形态、严重类别不平衡、标签不确定性和有限计算资源等挑战,传统深度学习方法在鲁棒性和泛化性方面面临困难。
- Method: 基于预训练卷积神经网络构建轻量级混合神经表示,采用选择性神经可塑性训练策略实现高效参数适应,使用脑启发的注意力调制损失函数(结合Focal Loss和标签平滑),并采用类别不平衡感知采样和余弦退火重启机制模拟生物神经系统的节律调节和注意力分配机制。
- Result: 实验结果表明,所提出的轻量级脑启发模型在二分类冠状动脉造影任务中表现出强大而稳定的性能,在准确率、召回率、F1分数和AUC等指标上具有竞争力,同时保持高计算效率。
- Conclusion: 本研究验证了脑启发学习机制在轻量级医学图像分析中的有效性,为有限计算资源下的智能临床决策支持提供了生物学合理且可部署的解决方案。
[39] Out-of-Distribution Detection Based on Total Variation Estimation
Dabiao Ma,Zhiba Su,Jian Yang,Haojun Fei
Main category: cs.CV
TL;DR: 提出TV-OOD检测方法,利用总变差网络估计器计算输入对总变差的贡献,通过总变差分数区分分布内外数据,在图像分类任务中表现优于现有方法。
- Motivation: 现有方法在机器学习模型部署中对抗实际应用中的分布偏移已有不错效果,但需要进一步提升检测性能,特别是在图像分类任务中。
- Method: TV-OOD方法利用总变差网络估计器计算每个输入对整体总变差的贡献,将其定义为总变差分数,用于区分分布内和分布外数据。
- Result: 在多种模型和数据集上测试,TV-OOD在图像分类任务中所有评估指标上都达到或优于最先进的分布外检测技术。
- Conclusion: TV-OOD方法通过总变差分数有效检测分布偏移,为机器学习模型部署提供了更可靠的分布外检测解决方案。
[40] PMPBench: A Paired Multi-Modal Pan-Cancer Benchmark for Medical Image Synthesis
Yifan Chen,Fei Yin,Hao Chen,Jia Wu,Chao Li
Main category: cs.CV
TL;DR: 提出了首个公开、完全配对、涵盖11个人体器官的泛癌症医学影像数据集,包含完整的动态增强MRI序列和配对的CT平扫-增强图像,用于AI图像翻译研究。
- Motivation: 对比剂在放射成像中至关重要,但受患者健康状况或医疗资源限制,并非总是可行。现有数据集存在局限性:主要集中于脑部MR、数据不完整、标签缺失、大量资源私有,阻碍了AI图像翻译研究。
- Method: 构建了首个公开、完全配对、涵盖11个人体器官的泛癌症医学影像数据集,包含完整的DCE-MRI序列(DCE1-DCE3)和配对的CT平扫-增强图像。数据集经过解剖对应性处理,支持1对1、N对1、N对N翻译任务评估。
- Result: 建立了全面的基准测试,报告了当代图像到图像翻译代表性基线的结果。数据集和基准测试已公开发布,旨在推动安全有效的对比剂合成研究。
- Conclusion: 该数据集填补了现有数据空白,为多器官肿瘤成像工作流程中的AI图像翻译研究提供了重要资源,有望促进安全有效的对比剂合成技术发展。
[41] Understanding the Transfer Limits of Vision Foundation Models
Shiqi Huang,Yipei Wang,Natasha Thorley,Alexander Ng,Shaheer Saeed,Mark Emberton,Shonit Punwani,Veeru Kasivisvanathan,Dean Barratt,Daniel Alexander,Yipeng Hu
Main category: cs.CV
TL;DR: 研究发现视觉基础模型在下游任务表现不均的原因是预训练目标与下游任务需求不匹配,通过对前列腺MRI任务的分析表明,预训练与下游任务对齐度越高,性能提升越大且收敛越快。
- Motivation: 视觉基础模型(VFMs)尽管投入了大量计算资源,但在下游任务中表现不均,作者认为这是由于预训练目标(如掩码图像重建或对比学习)与下游视觉成像任务需求不匹配造成的。
- Method: 在具体临床领域(前列腺多参数MRI)中评估两种VFMs:基于MAE的重建模型ProFound和基于对比学习的模型ProViCNet,在五个任务上检验任务对齐如何影响迁移性能,使用最大均值差异(MMD)等简单发散度量来衡量对齐度。
- Result: 研究发现预训练与下游任务对齐度越高(通过微调前后相同特征的MMD等度量衡量),性能提升越大且收敛越快,强调设计预训练目标时需要考虑下游适用性。
- Conclusion: 视觉基础模型的预训练目标与下游任务需求对齐对迁移性能至关重要,设计预训练策略时应考虑下游任务的具体需求,简单的对齐度量(如MMD)可以预测模型在下游任务的表现。
[42] RadJEPA: Radiology Encoder for Chest X-Rays via Joint Embedding Predictive Architecture
Anas Anwarul Haq Khan,Mariam Husain,Kshitij Jadhav
Main category: cs.CV
TL;DR: RadJEPA:一种基于联合嵌入预测架构的自监督框架,仅使用未标记的胸部X光图像进行预训练,无需语言监督,通过预测掩码图像区域的潜在表示来学习,在疾病分类、语义分割和报告生成任务上表现优异。
- Motivation: 医学视觉语言模型的学习依赖于配对的图像-文本数据,但这种监督形式受限于数据可用性。本研究旨在探索是否可以在不依赖语言监督的情况下学习稳健的放射学编码器。
- Method: 提出RadJEPA自监督框架,基于联合嵌入预测架构,仅使用未标记的胸部X光图像进行预训练。模型学习预测掩码图像区域的潜在表示,这与图像-文本预训练和DINO式自蒸馏有根本区别:不是对齐跨视图或跨模态的全局表示,而是显式建模潜在空间预测。
- Result: 在疾病分类、语义分割和报告生成任务上评估学习到的编码器。在多个基准测试中,RadJEPA的性能超过了包括Rad-DINO在内的最先进方法。
- Conclusion: RadJEPA证明了在不依赖语言监督的情况下学习稳健放射学编码器的可行性,通过自监督的潜在空间预测方法取得了优异性能,为医学图像分析提供了新的有效途径。
[43] ThermoSplat: Cross-Modal 3D Gaussian Splatting with Feature Modulation and Geometry Decoupling
Zhaoqi Su,Shihai Chen,Xinyan Lin,Liqin Huang,Zhipeng Su,Xiaoqiang Lu
Main category: cs.CV
TL;DR: ThermoSplat:通过跨模态特征调制和自适应几何解耦实现RGB-T热红外多模态场景重建的3D高斯泼溅框架
- Motivation: 现有3DGS方法在多光谱场景中难以充分利用多模态数据的互补信息,通常忽视跨模态相关性或使用无法自适应处理光谱间复杂结构相关性和物理差异的共享表示
- Method: 1) 跨模态FiLM调制机制:用热结构先验动态调节共享潜在特征,指导可见纹理合成;2) 模态自适应几何解耦方案:学习独立不透明度偏移并执行热分支的独立光栅化;3) 混合渲染管道:结合显式球谐函数和隐式神经解码
- Result: 在RGBT-Scenes数据集上的实验表明,ThermoSplat在可见光和热光谱上都达到了最先进的渲染质量
- Conclusion: ThermoSplat通过主动特征调制和自适应几何解耦实现了深度光谱感知重建,有效解决了多模态3DGS中的跨模态融合挑战
[44] Opening the Black Box: Preliminary Insights into Affective Modeling in Multimodal Foundation Models
Zhen Zhang,Runhao Zeng,Sicheng Zhao,Xiping Hu
Main category: cs.CV
TL;DR: 研究发现多模态基础模型中的情感能力主要由前馈门控机制(gate_proj)介导,而非注意力模块,通过仅调整24.5%的参数即可达到AffectGPT 96.6%的性能。
- Motivation: 尽管情感模型在实证上表现良好,但对其内部架构机制如何支持情感理解和生成的理解仍然不足。本研究旨在系统性地探索多模态基础模型中情感建模的机制原理。
- Method: 采用系统性机制研究方法,分析多种架构、训练策略和情感任务下情感导向监督如何重塑内部模型参数。通过受控模块转移、针对性单模块适应和破坏性消融实验来验证发现。
- Result: 发现情感适应主要定位在前馈门控投影(gate_proj)而非注意力模块。gate_proj对情感理解和生成是充分、高效且必要的。仅调整约24.5%的参数即可达到AffectGPT 96.6%的平均性能。
- Conclusion: 情感能力在基础模型中由前馈门控机制结构性地介导,gate_proj被确定为情感建模的核心架构位点,这为理解情感模型内部机制提供了实证证据。
[45] The Latency Wall: Benchmarking Off-the-Shelf Emotion Recognition for Real-Time Virtual Avatars
Yarin Benyamin
Main category: cs.CV
TL;DR: 在VR/HCI领域,针对ASD患者的实时情绪识别面临严格的延迟-精度权衡问题。研究评估了YOLO系列和Vision Transformers在虚拟角色表情识别上的表现,发现YOLOv11n在检测阶段表现最佳,但通用Transformer模型无法满足实时治疗场景的要求。
- Motivation: 为自闭症谱系障碍患者提供VR社交技能训练需要实时情绪识别,但现有深度学习模型过于注重精度而忽略了VR硬件对延迟的严格要求(MTP延迟需低于140ms)。
- Method: 使用UIBVFED数据集,在CPU推理环境下评估了YOLO(v8、v11、v12)的Medium和Nano变体进行人脸检测,以及CLIP、SigLIP和ViT-FER等通用视觉Transformer进行零样本面部表情识别。
- Result: 人脸检测在风格化虚拟角色上表现稳健(100%准确率),但分类阶段存在"延迟墙"。YOLOv11n在检测阶段提供最佳平衡(约54ms),而通用Transformer模型在准确率(150ms)上均无法满足实时循环要求。
- Conclusion: 为实现可访问的VR治疗,需要开发轻量级、领域特定的架构,而非依赖通用Transformer模型,以满足实时AI在治疗场景中的严格要求。
[46] A Multi-View Pipeline and Benchmark Dataset for 3D Hand Pose Estimation in Surgery
Valery Fischer,Alan Magdaleno,Anna-Katharina Calek,Nicola Cavalcanti,Nathan Hoffman,Christoph Germann,Joschua Wüthrich,Max Krähenmann,Mazda Farshad,Philipp Fürnstahl,Lilian Calvet
Main category: cs.CV
TL;DR: 提出无需领域微调的多视角3D手部姿态估计方法,在手术场景中显著优于基线,并发布包含6.8万帧的手术基准数据集
- Motivation: 手术环境中的3D手部姿态估计对技能评估、机器人辅助干预和几何感知工作流分析至关重要,但面临强烈局部光照、频繁遮挡、手套导致的统一外观以及标注数据稀缺等挑战
- Method: 提出鲁棒的多视角流程,无需领域特定微调,仅使用现成预训练模型。流程整合可靠的人员检测、全身姿态估计、最先进的2D手部关键点预测,以及约束3D优化。同时创建包含6.8万帧和3000个手动标注2D手部姿态的手术基准数据集
- Result: 定量实验显示方法持续优于基线,2D平均关节误差减少31%,3D平均每关节位置误差减少76%
- Conclusion: 为手术中的3D手部姿态估计建立了强基线,提供了免训练流程和全面标注数据集,促进手术计算机视觉的未来研究
[47] Class Confidence Aware Reweighting for Long Tailed Learning
Brainard Philemon Jagati,Jitendra Tembhurne,Harsh Goud,Rudra Pratap Singh,Chandrashekhar Meshram
Main category: cs.CV
TL;DR: 提出一种基于损失级别的类别和置信度感知重加权方案,用于解决长尾数据分布下的神经网络性能下降问题,通过Ω(p_t, f_c)函数根据预测置信度和类别相对频率调整训练贡献。
- Motivation: 深度神经网络在长尾数据分布下性能显著下降,现有方法主要关注决策空间的logit级别调整来补偿类别先验偏差,而很少关注优化过程中样本间置信度差异带来的调整。需要一种基于损失级别的重加权方案来补充现有方法。
- Method: 设计了一种类别和置信度感知的重加权方案,使用Ω(p_t, f_c)函数根据预测置信度(p_t)和类别相对频率(f_c)来调制对训练任务的贡献。该方案纯粹基于损失级别,与现有的logit调整方法具有互补性。
- Result: 在CIFAR-100-LT、ImageNet-LT和iNaturalist2018数据集上,针对不同的不平衡因子进行了大量实验,结果显著验证了理论讨论,证明了所提方案的有效性。
- Conclusion: 提出的基于损失级别的类别和置信度感知重加权方案能够有效解决长尾学习问题,与现有的logit调整方法形成互补,在各种不平衡因子下都取得了显著的性能提升。
[48] NeuroMamba: Multi-Perspective Feature Interaction with Visual Mamba for Neuron Segmentation
Liuyun Jiang,Yizhuo Lu,Yanchao Zhang,Jiazheng Liu,Hua Han
Main category: cs.CV
TL;DR: NeuroMamba:一种用于神经元分割的多视角框架,结合Mamba的线性复杂度进行全局建模和局部特征建模,在四个公共EM数据集上达到SOTA性能
- Motivation: 现有方法存在局限性:CNN方法因缺乏长距离上下文而无法解决模糊边界问题,Transformer方法因补丁划分导致体素级细节丢失而边界不精确。需要同时处理长距离依赖关系和保留精细体素细节。
- Method: 提出NeuroMamba框架:1) 通道门控边界判别特征提取器(BDFE)增强局部形态学线索;2) 空间连续特征提取器(SCFE)将分辨率感知扫描机制集成到Visual Mamba架构中,自适应建模不同分辨率下的全局依赖;3) 交叉调制机制协同融合多视角特征。
- Result: 在四个公共EM数据集上展示了最先进的性能,验证了其对各向异性和各向同性分辨率的卓越适应性。
- Conclusion: NeuroMamba通过结合Mamba的线性复杂度进行全局建模和局部特征建模,有效解决了神经元分割中的边界模糊和细节丢失问题,在多种分辨率下都表现出优异的性能。
[49] EVolSplat4D: Efficient Volume-based Gaussian Splatting for 4D Urban Scene Synthesis
Sheng Miao,Sijin Li,Pan Wang,Dongfeng Bai,Bingbing Liu,Yue Wang,Andreas Geiger,Yiyi Liao
Main category: cs.CV
TL;DR: EvolSplat4D:一种前馈框架,通过三个专门分支统一基于体积和基于像素的高斯预测,实现静态和动态城市场景的高质量新视角合成,在保持效率的同时超越现有方法。
- Motivation: 现有新视角合成方法在自动驾驶仿真中难以平衡重建时间与质量。神经辐射场和3D高斯溅射方法虽然真实但需要耗时的逐场景优化,而前馈方法常采用逐像素高斯表示,在复杂动态环境中聚合多视角预测时会导致3D不一致性。
- Method: 提出EvolSplat4D框架,包含三个专门分支:1)近距离静态区域:从3D特征体积直接预测多帧一致的3D高斯几何,辅以语义增强的图像渲染模块预测外观;2)动态物体:利用物体中心规范空间和运动调整渲染模块聚合时序特征;3)远景:采用高效的逐像素高斯分支确保全场景覆盖。
- Result: 在KITTI-360、KITTI、Waymo和PandaSet数据集上的实验表明,EvolSplat4D在静态和动态环境重建方面具有优越的准确性和一致性,超越了逐场景优化方法和最先进的前馈基线方法。
- Conclusion: EvolSplat4D通过统一体积和像素高斯预测的三分支架构,成功解决了现有方法在效率与质量、静态与动态场景重建之间的平衡问题,为自动驾驶仿真提供了高效高质量的新视角合成方案。
[50] HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models
Xin Xie,Jiaxian Guo,Dong Gong
Main category: cs.CV
TL;DR: HyperAlign:通过训练超网络动态生成低秩适配权重来调整扩散模型,实现高效测试时对齐,平衡性能与效率,避免奖励过优化和多样性损失
- Motivation: 扩散模型虽然性能先进,但生成的图像常不符合人类偏好和意图,存在美学质量差和语义不一致问题。现有对齐方法面临两难:微调方法会因奖励过优化导致多样性损失,测试时缩放方法则计算开销大且优化不足。
- Method: 提出HyperAlign框架,训练超网络在测试时动态生成低秩适配权重来调制扩散模型的生成算子。超网络根据输入潜变量、时间步和提示自适应调整去噪轨迹,实现奖励条件对齐。提供多种变体平衡性能与效率,并使用奖励分数目标正则化偏好数据来减少奖励黑客攻击。
- Result: 在Stable Diffusion和FLUX等多个扩展生成范式中评估,HyperAlign在增强语义一致性和视觉吸引力方面显著优于现有的微调和测试时缩放基线方法。
- Conclusion: HyperAlign通过超网络动态生成适配权重的方法,有效解决了扩散模型对齐中的性能-效率权衡问题,实现了更符合人类偏好的高质量图像生成。
[51] PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models
Chak-Wing Mak,Guanyu Zhu,Boyi Zhang,Hongji Li,Xiaowei Chi,Kevin Zhang,Yichen Wu,Yangfan He,Chun-Kai Fan,Wentao Lu,Kuangzhi Ge,Xinyu Fang,Hongyang He,Kuan Lu,Tianxiang Xu,Li Zhang,Yongxin Ni,Youhua Li,Shanghang Zhang
Main category: cs.CV
TL;DR: PhysicsMind是一个统一基准测试,用于评估多模态大语言模型和视频世界模型在物理定律一致性推理和生成方面的能力,涵盖质心、杠杆平衡和牛顿第一定律三个核心物理原理。
- Motivation: 现有基准测试要么依赖合成的视觉问答模板,要么关注与物理定律无关的视频感知质量,缺乏对模型物理理解能力的系统评估。当前MLLMs和视频世界模型在数学、常识和视觉推理方面进步显著,但其物理理解能力尚未得到充分探索。
- Method: 提出PhysicsMind基准测试,包含真实和模拟环境,通过两种主要任务进行评估:1) VQA任务:测试模型从图像或短视频中推理物理量和数值的能力;2) 视频生成任务:评估预测的运动轨迹是否遵循与真实情况相同的质心、扭矩和惯性约束。
- Result: 评估了多种最新模型和视频生成模型,发现它们主要依赖外观启发式方法,经常违反基本力学原理。这些差距表明当前的扩展和训练仍然不足以实现稳健的物理理解。
- Conclusion: PhysicsMind作为一个专注于物理感知多模态模型的测试平台,突显了当前模型在物理理解方面的不足,为未来改进提供了明确方向。
[52] Keyframe-Based Feed-Forward Visual Odometry
Weichen Dai,Wenhan Su,Da Kong,Yuhang Ming,Wanzeng Kong
Main category: cs.CV
TL;DR: 提出基于强化学习的自适应关键帧选择方法,用于视觉基础模型的视觉里程计,提高计算效率和精度
- Motivation: 当前基于视觉基础模型的VO方法通常不加区分地处理原始图像序列,导致计算冗余和性能下降,而传统几何启发式方法难以集成到这些模型中
- Method: 使用强化学习在数据驱动的方式下推导自适应关键帧策略,使关键帧选择与基础模型的内在特性对齐,而不是依赖手工规则
- Result: 在TartanAir数据集上训练,在多个真实世界数据集上进行广泛评估,实验结果表明该方法在现有前馈VO方法基础上实现了持续且显著的改进
- Conclusion: 提出的基于强化学习的自适应关键帧选择方法有效解决了视觉基础模型VO中的计算冗余问题,提高了性能和效率
[53] PAINT: Pathology-Aware Integrated Next-Scale Transformation for Virtual Immunohistochemistry
Rongze Ma,Mengkang Lu,Zhenyu Xiang,Yongsheng Pan,Yicheng Wu,Qingjie Zeng,Yong Xia
Main category: cs.CV
TL;DR: PAINT提出了一种结构优先的自回归框架,用于从H&E图像合成虚拟免疫组化染色,通过空间结构起始图确保形态学对齐,在结构保真度和临床任务上优于现有方法。
- Motivation: 虚拟免疫组化染色旨在从常规H&E图像计算合成分子染色模式,提供比传统物理染色更经济、组织利用率更高的替代方案。但该任务面临挑战:H&E形态学对蛋白质表达提供模糊线索,相似组织结构可能对应不同的分子状态。现有方法多关注直接外观合成,由于缺乏足够结构先验,常导致语义不一致。
- Method: 提出病理感知集成下一尺度变换(PAINT),这是一个视觉自回归框架,将合成过程重新定义为结构优先的条件生成任务。不同于直接图像翻译,PAINT通过解析基于全局结构布局的分子细节来强制执行因果顺序。核心是引入空间结构起始图(3S-Map),将自回归初始化基于观察到的形态学,确保确定性、空间对齐的合成。
- Result: 在IHC4BC和MIST数据集上的实验表明,PAINT在结构保真度和临床下游任务上优于最先进的方法,验证了结构引导自回归建模的潜力。
- Conclusion: PAINT通过结构优先的自回归方法成功解决了虚拟免疫组化染色中的语义不一致问题,为计算病理学提供了一种更可靠的分子表达预测框架。
[54] ProGiDiff: Prompt-Guided Diffusion-Based Medical Image Segmentation
Yuan Lin,Murong Xu,Marc Hölle,Chinmay Prabhakar,Andreas Maier,Vasileios Belagiannis,Bjoern Menze,Suprosanna Shit
Main category: cs.CV
TL;DR: ProGiDiff:利用预训练扩散模型进行医学图像分割的新框架,支持自然语言提示和多类别分割,通过少量样本适应跨模态迁移
- Motivation: 现有医学图像分割方法主要是确定性的,缺乏自然语言提示能力、多提案估计、人机交互和跨模态适应能力。从头训练扩散模型需要大量数据,这在医学领域受限,且现有方法通常限于二值分割。
- Method: 提出ProGiDiff框架,采用ControlNet风格的调节机制和定制编码器,引导预训练扩散模型输出分割掩码。支持通过提示目标器官实现多类别分割,并通过低秩少量样本适应实现跨模态迁移。
- Result: 在CT图像器官分割实验中表现出优于先前方法的性能,支持专家参与的多提案利用。学习到的调节机制可通过少量样本轻松迁移到MR图像分割。
- Conclusion: ProGiDiff成功将预训练扩散模型应用于医学图像分割,实现了自然语言提示、多类别分割和跨模态适应,为医学图像分析提供了灵活有效的解决方案。
[55] DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models
Chenyang Li,Jieyuan Liu,Bin Li,Bo Gao,Yilin Yuan,Yangfan He,Yuchen Li,Jingqun Tang
Main category: cs.CV
TL;DR: 提出DTP框架,通过动态检测和剪枝VLA模型中的"干扰token"来提升机器人操作任务成功率
- Motivation: VLA模型在处理机器人操作任务时,会过度关注任务无关区域的图像token(干扰token),这会影响动作token的生成,降低任务成功率
- Method: 提出即插即用的干扰token剪枝(DTP)框架,动态检测并剪枝干扰图像token,修正模型的视觉注意力模式,不改变原始架构或增加额外输入
- Result: 在SIMPLER基准测试中,方法在不同类型的新型VLA模型上均能持续提升任务成功率,且发现任务成功率与任务无关区域注意力量呈负相关
- Conclusion: DTP框架能有效提升VLA模型的性能,揭示了VLA模型普遍存在的注意力偏差现象,为未来研究提供了指导
[56] DSFedMed: Dual-Scale Federated Medical Image Segmentation via Mutual Distillation Between Foundation and Lightweight Models
Hanwen Zhang,Qiaojin Shen,Yuxi Liu,Yuesheng Zhu,Guibo Luo
Main category: cs.CV
TL;DR: DSFedMed:双尺度联邦框架,通过基础模型与轻量客户端模型之间的相互知识蒸馏,实现医学图像分割的高效联邦学习,显著降低通信和推理成本。
- Motivation: 基础模型在联邦学习环境中部署面临高计算需求、大通信开销和推理成本的问题,特别是在医疗图像分割任务中需要平衡性能与效率。
- Method: 提出双尺度联邦框架DSFedMed,包括:1)基础模型与轻量客户端模型之间的相互知识蒸馏;2)生成高质量医疗图像替代真实公共数据集;3)可学习性引导的样本选择策略优化蒸馏效率。
- Result: 在五个医疗图像分割数据集上,DSFedMed平均Dice分数提升2%,同时通信成本和推理时间减少近90%,显著优于现有联邦基础模型基线。
- Conclusion: DSFedMed通过双尺度相互蒸馏实现了基础模型在联邦环境中的高效部署,在保持性能的同时大幅降低资源消耗,为资源受限的联邦部署提供了可扩展解决方案。
[57] Masked Modeling for Human Motion Recovery Under Occlusions
Zhiyin Qian,Siwei Zhang,Bharat Lal Bhatnagar,Federica Bogo,Siyu Tang
Main category: cs.CV
TL;DR: MoRo:一种基于掩码建模的遮挡鲁棒性人体运动重建框架,从单目RGB视频实时恢复全局坐标系下的人体运动,在遮挡场景下显著优于现有方法。
- Motivation: 现有方法存在局限性:回归方法对遮挡敏感;优化和扩散方法鲁棒但推理慢且需要繁重预处理。需要一种既能处理遮挡又能高效实时推理的解决方案。
- Method: 提出MoRo框架,将运动重建视为视频条件任务,通过掩码建模自然处理遮挡。设计跨模态学习方案:1)轨迹感知运动先验;2)图像条件姿态先验;3)视频条件掩码变换器融合先验,在视频-运动数据集上微调。
- Result: 在EgoBody和RICH数据集上,MoRo在遮挡场景下的准确性和运动真实性显著优于SOTA方法,在非遮挡场景表现相当。在单张H200 GPU上达到70 FPS的实时推理速度。
- Conclusion: MoRo通过掩码建模和跨模态学习,实现了遮挡鲁棒、端到端、实时的人体运动重建,为AR/VR、机器人和数字内容创作等应用提供了有效解决方案。
[58] SAMTok: Representing Any Mask with Two Words
Yikang Zhou,Tao Zhang,Dengxian Gong,Yuanzheng Wu,Ye Tian,Haochen Wang,Haobo Yuan,Jiacong Wang,Lu Qi,Hao Fei,Anran Wang,Zhuochen Wang,Yujing Wang,Cheng Chen,Shunping Ji,Xiangtai Li
Main category: cs.CV
TL;DR: SAMTok是一种离散掩码标记器,可将区域掩码转换为特殊标记,使多模态大语言模型能够通过标准的下一个标记预测学习像素级能力,无需架构修改。
- Motivation: 像素级能力对于构建交互式智能系统至关重要,但现有的像素级多模态大语言模型难以扩展,因为需要复杂的区域级编码器、专门的分割解码器和不兼容的训练目标。
- Method: 提出SAMTok离散掩码标记器,基于SAM2构建,使用掩码编码器和残差向量量化器将任何区域掩码转换为两个特殊标记,并用这些标记高保真重建掩码。通过将掩码视为新的语言标记,使基础MLLM能够通过标准下一个标记预测和简单强化学习学习像素级能力。
- Result: QwenVL-SAMTok在区域描述、区域视觉问答、接地对话、参考分割、场景图解析和多轮交互分割等任务上达到最先进或可比的结果。通过文本答案匹配奖励的强化学习,在GRES和GCG基准上取得显著改进。
- Conclusion: SAMTok展示了一种可扩展且简单的范式,为多模态大语言模型提供强大的像素级能力,无需架构修改和专门的损失设计。
[59] Clustering-Guided Spatial-Spectral Mamba for Hyperspectral Image Classification
Zack Dewis,Yimin Zhu,Zhengsen Xu,Mabel Heffring,Saeid Taleghanidoozdoozan,Quinn Ledingham,Lincoln Linlin Xu
Main category: cs.CV
TL;DR: 提出了CSSMamba框架,通过聚类引导的空间-光谱Mamba架构改进高光谱图像分类,解决了Mamba模型中序列定义效率低和自适应性的问题。
- Motivation: Mamba模型在高光谱图像分类中表现良好,但在定义高效且自适应的token序列方面存在挑战,这限制了性能提升。
- Method: 1) 聚类引导的空间Mamba模块(CSpaMamba):集成聚类机制减少序列长度;2) 光谱Mamba模块(SpeMamba):学习光谱信息;3) 注意力驱动的token选择机制:优化序列排序;4) 可学习聚类模块:自适应学习聚类成员关系。
- Result: 在Pavia University、Indian Pines和Liao-Ning 01数据集上的实验表明,CSSMamba相比最先进的CNN、Transformer和Mamba方法,实现了更高的准确率和更好的边界保持能力。
- Conclusion: CSSMamba框架通过聚类引导的空间-光谱Mamba架构,有效解决了Mamba模型在高光谱图像分类中的序列定义问题,显著提升了分类性能。
[60] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing
Tingyu Song,Yanzhao Zhang,Mingxin Li,Zhuoning Guo,Dingkun Long,Pengjun Xie,Siyue Zhang,Yilun Zhao,Shu Wu
Main category: cs.CV
TL;DR: 作者提出了EDIR,一个新颖的细粒度组合图像检索基准,通过图像编辑合成多样化查询,包含5,000个高质量查询,涵盖5个主类别和15个子类别,揭示了现有模型的显著能力差距。
- Motivation: 当前组合图像检索基准存在查询类别有限、无法反映真实场景多样需求的问题,需要构建更全面、细粒度的评估基准来弥补这一评估差距。
- Method: 利用图像编辑技术精确控制修改类型和内容,构建合成查询的流水线,创建EDIR基准,包含5,000个高质量查询,涵盖5个主类别和15个子类别,并对13个多模态嵌入模型进行综合评估。
- Result: 评估显示现有模型存在显著能力差距,即使是SOTA模型(如RzenEmbed和GME)也无法在所有子类别上表现一致;揭示了现有基准的固有局限性,如模态偏见和类别覆盖不足;域内训练实验表明某些类别可通过针对性数据解决,而某些类别暴露了当前模型架构的内在限制。
- Conclusion: EDIR基准为组合图像检索提供了更全面、细粒度的评估框架,揭示了现有模型的局限性,并为未来研究指明了方向,特别是需要解决某些类别中暴露的模型架构内在限制。
[61] Learning to Watermark in the Latent Space of Generative Models
Sylvestre-Alvise Rebuffi,Tuan Tran,Valeriu Lacatusu,Pierre Fernandez,Tomáš Souček,Nikola Jovanović,Tom Sander,Hady Elsahar,Alexandre Mourachko
Main category: cs.CV
TL;DR: DistSeal:一种在潜在空间进行水印的统一方法,适用于扩散和自回归模型,通过训练潜在空间水印模型并蒸馏到生成模型或潜在解码器中,实现高效、鲁棒的水印嵌入。
- Motivation: 现有AI生成图像水印方法通常在像素空间进行后处理,存在计算开销大和可能引入视觉伪影的问题。本文探索潜在空间水印,旨在提高效率并减少视觉影响。
- Method: 提出DistSeal方法:1)在生成模型的潜在空间中训练后处理水印模型;2)将这些潜在水印模型蒸馏到生成模型本身或潜在解码器中,实现模型内水印;3)适用于扩散模型和自回归模型。
- Result: 潜在空间水印在保持竞争性鲁棒性的同时,提供与像素空间基线相似的不可感知性,速度提升高达20倍。蒸馏潜在水印模型优于蒸馏像素空间水印模型,提供更高效和更鲁棒的解决方案。
- Conclusion: DistSeal展示了潜在空间水印的有效性,通过将水印模型蒸馏到生成模型中,实现了高效、鲁棒且不可感知的水印嵌入,为AI生成内容认证提供了实用解决方案。
[62] ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
Remy Sabathier,David Novotny,Niloy J. Mitra,Tom Monnier
Main category: cs.CV
TL;DR: ActionMesh:一种生成式模型,通过"时序3D扩散"框架从前馈方式生成可直接用于生产的动态3D网格,支持从视频、文本或静态网格输入生成动画,速度快且拓扑一致。
- Motivation: 现有3D动画生成方法存在应用限制:设置复杂、运行时间长、质量有限,难以在实际生产中使用。需要一种能快速生成高质量、可直接使用的动态3D网格的方法。
- Method: 提出"时序3D扩散"框架:1)改进现有3D扩散模型,加入时间轴生成同步的时序潜在表示;2)设计时序3D自编码器,将独立形状序列转换为预定义参考形状的变形,构建动画。支持从单目视频、文本描述或带动画描述的3D网格输入生成。
- Result: 在标准视频到4D基准测试(Consistent4D、Objaverse)上取得最先进性能,在几何精度和时序一致性方面表现优异。相比先前方法,速度快、无需绑定、拓扑一致,便于纹理化和重定向等应用。
- Conclusion: ActionMesh能以前所未有的速度和质量生成动态3D网格,解决了现有方法在实际应用中的局限性,为3D动画生成提供了高效实用的解决方案。
[63] HVD: Human Vision-Driven Video Representation Learning for Text-Video Retrieval
Zequn Xie,Xin Liu,Boyun Zhang,Yuxiao Lin,Sihang Cai,Tao Jin
Main category: cs.CV
TL;DR: 提出HVD模型,通过粗到细的对齐机制解决文本-视频检索中的"盲目"特征交互问题,模拟人类视觉认知过程
- Motivation: 当前文本-视频检索方法存在"盲目"特征交互问题,模型难以从背景噪声中识别关键视觉信息,这是由于文本查询的稀疏性导致的。受人类认知行为启发,需要更智能的特征交互机制
- Method: 提出人类视觉驱动的HVD模型,包含两个关键组件:1) 帧特征选择模块(FFSM),模拟人类宏观感知能力,选择关键帧消除时间冗余;2) 补丁特征压缩模块(PFCM),模拟微观感知,通过高级注意力机制将补丁特征聚合为显著视觉实体,实现精确的实体级匹配
- Result: 在五个基准测试上的广泛实验表明,HVD不仅能够捕捉类似人类的视觉焦点,而且实现了最先进的性能
- Conclusion: 通过模拟人类认知过程,HVD模型有效解决了文本-视频检索中的特征交互问题,实现了更智能、更精确的跨模态对齐
[64] 360Anything: Geometry-Free Lifting of Images and Videos to 360°
Ziyi Wu,Daniel Watson,Andrea Tagliasacchi,David J. Fleet,Marcus A. Brubaker,Saurabh Saxena
Main category: cs.CV
TL;DR: 360Anything:基于扩散Transformer的几何无关框架,无需相机参数即可将透视图像/视频提升为360°全景图,在图像和视频生成任务上达到SOTA性能。
- Motivation: 现有方法依赖透视图像与等距柱状投影之间的显式几何对齐,需要已知相机元数据,限制了在野外数据(通常缺乏准确相机校准)上的应用。
- Method: 基于预训练扩散Transformer构建几何无关框架,将透视输入和全景目标视为token序列,以纯数据驱动方式学习透视到等距柱状投影的映射,无需相机信息。引入Circular Latent Encoding解决ERP边界接缝问题。
- Result: 在图像和视频透视到360°生成任务上达到最先进性能,超越使用真实相机信息的先前工作。在零样本相机视场和方向估计基准测试中表现出竞争力。
- Conclusion: 360Anything通过几何无关方法成功实现高质量全景生成,展示了深度几何理解能力,为计算机视觉任务提供了更广泛的应用潜力。
[65] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders
Shengbang Tong,Boyang Zheng,Ziteng Wang,Bingda Tang,Nanye Ma,Ellis Brown,Jihan Yang,Rob Fergus,Yann LeCun,Saining Xie
Main category: cs.CV
TL;DR: RAE在ImageNet上表现出色,本文研究其能否扩展到大规模文本到图像生成。通过实验发现:1) 扩展RAE解码器需要特定数据组合;2) 大规模简化了框架设计;3) RAE在所有规模上都优于VAE,训练更稳定,收敛更快,质量更好。
- Motivation: 研究表示自编码器(RAE)能否从ImageNet扩展到大规模、自由形式的文本到图像生成任务,探索在大规模场景下RAE框架的简化可能性和性能优势。
- Method: 1) 在冻结的SigLIP-2编码器上扩展RAE解码器,使用网络、合成和文本渲染数据进行训练;2) 系统测试RAE在ImageNet上提出的设计选择;3) 在0.5B到9.8B参数规模的扩散变换器上,对RAE和FLUX VAE进行受控比较。
- Result: 1) 扩展RAE解码器需要特定数据组合(如文本领域);2) 大规模简化了RAE框架,仅需维度相关噪声调度;3) RAE在所有模型规模上都优于VAE,预训练表现更好;4) 在高质量数据集微调时,VAE模型在64轮后灾难性过拟合,而RAE在256轮后仍稳定且性能更好;5) RAE模型收敛更快,生成质量更高。
- Conclusion: RAE比VAE更简单、更强大,是大规模文本到图像生成的更好基础框架。由于视觉理解和生成可以在共享表示空间中操作,多模态模型可以直接对生成的潜在表示进行推理,为统一模型开辟了新可能性。
[66] PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation
Onkar Susladkar,Tushar Prakash,Adheesh Juvekar,Kiet A. Nguyen,Dong-Hwan Jang,Inderjit S Dhillon,Ismini Lourentzou
Main category: cs.CV
TL;DR: PyraTok是一种语言对齐的金字塔式视频分词器,通过多尺度文本引导量化和共享大二进制码本,在多个时空分辨率上学习语义结构化的离散潜在表示,显著提升视频重建、文本到视频生成和零样本视频理解性能。
- Motivation: 现有视频VAE分词器通常学习单尺度、词汇量有限的视觉码本,且语言监督较浅,导致跨模态对齐和零样本迁移能力不足。需要一种能学习多分辨率语义结构化离散潜在表示的分词器。
- Method: 基于预训练视频VAE,提出语言对齐金字塔量化(LaPQ)模块,使用共享大二进制码本在多个深度离散化编码器特征,生成紧凑而富有表现力的视频token序列。联合优化多尺度文本引导量化和token层次结构的全局自回归目标。
- Result: 在10个基准测试中达到最先进的视频重建性能,持续提升文本到视频生成质量,在视频分割、时序动作定位和视频理解任务上创下新的零样本SOTA性能,可稳健扩展到4K/8K分辨率。
- Conclusion: PyraTok通过语言对齐的金字塔式分词方法,解决了现有视频tokenizer的局限性,实现了更好的跨模态对齐和零样本迁移能力,为视频生成和理解系统提供了更强大的基础。
[67] Why Can't I Open My Drawer? Mitigating Object-Driven Shortcuts in Zero-Shot Compositional Action Recognition
Geo Ahn,Inwoong Lee,Taeoh Kim,Minho Shim,Dongyoon Wee,Jinwoo Choi
Main category: cs.CV
TL;DR: 现有零样本组合动作识别模型存在物体驱动动词捷径问题,导致无法泛化到未见过的动词-物体组合。作者提出RCORE框架,通过组合感知增强和时间顺序正则化来强制时序基础的动词学习,显著提升未见组合的识别准确率。
- Motivation: 现有零样本组合动作识别模型在未见过的动词-物体组合上表现不佳,研究发现主要原因是物体驱动的动词捷径问题。模型在训练过程中过度依赖共现统计而忽略视觉证据,导致无法获得组合识别的优势。
- Method: 提出RCORE框架:1) 组合感知增强:多样化动词-物体组合而不破坏运动线索;2) 时间顺序正则化损失:通过显式建模时间结构来惩罚捷径行为,强制时序基础的动词学习。
- Result: 在两个基准测试(Sth-com和新构建的EK100-com)上,RCORE显著提高了未见组合的准确率,减少了对共现偏见的依赖,并实现了持续正面的组合差距。验证了解决物体驱动捷径问题对鲁棒组合视频理解的重要性。
- Conclusion: 物体驱动捷径是零样本组合动作识别中的关键限制因素,解决这一问题对于实现鲁棒的组合视频理解至关重要。RCORE通过强制时序基础的动词学习有效解决了这一问题。
[68] CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback
Wenhang Ge,Guibao Shen,Jiawei Feng,Luozhou Wang,Hao Lu,Xingye Tian,Xin Tao,Ying-Cong Chen
Main category: cs.CV
TL;DR: 提出一种基于奖励反馈学习的高效相机感知3D解码器,通过将视频潜在表示解码为3D高斯表示来量化视频-相机对齐奖励,提升相机可控性。
- Motivation: 现有相机控制视频扩散模型在视频-相机对齐方面仍有局限,现有ReFL方法面临三个挑战:缺乏评估视频-相机对齐的奖励模型、解码为RGB视频计算奖励计算开销大、视频解码时忽略3D几何信息。
- Method: 提出高效相机感知3D解码器,将视频潜在表示和相机姿态解码为3D高斯表示。相机姿态既作为输入又作为投影参数,视频潜在与相机姿态不对齐会导致3D结构几何畸变。通过优化渲染新视角与真实视角的像素一致性作为奖励,并引入可见性项选择性监督确定性区域。
- Result: 在RealEstate10K和WorldScore基准测试上进行了广泛实验,证明了所提方法的有效性。
- Conclusion: 通过将视频潜在解码为3D表示进行奖励量化,有效提升了相机可控性,解决了现有ReFL方法的局限性。
cs.LG
[69] CASL: Concept-Aligned Sparse Latents for Interpreting Diffusion Models
Zhenghao He,Guangzhi Xiong,Boyang Wang,Sanchit Sinha,Aidong Zhang
Main category: cs.LG
TL;DR: CASL提出监督式稀疏潜在对齐框架,将扩散模型内部激活与语义概念对齐,实现更精确的图像生成控制。
- Motivation: 现有基于稀疏自编码器的方法依赖无监督学习,无法将稀疏特征与人类可理解概念对齐,限制了语义控制的可靠性。
- Method: CASL框架:1) 在冻结U-Net激活上训练稀疏自编码器获得解耦潜在表示;2) 学习轻量级线性映射,将每个概念与少量相关潜在维度关联;3) 提出CASL-Steer作为因果探针验证语义对齐。
- Result: 实验表明CASL在编辑精度和可解释性上优于现有方法,并引入编辑精度比(EPR)联合度量概念特异性和无关属性保持。
- Conclusion: 这是首个实现扩散模型中潜在表示与语义概念监督对齐的工作,为可解释AI和可控图像生成提供了新途径。
[70] Uncertainty-guided Generation of Dark-field Radiographs
Lina Felsner,Henriette Bast,Tina Dorosti,Florian Schaff,Franz Pfeiffer,Daniela Pfeiffer,Julia Schnabel
Main category: cs.LG
TL;DR: 首个从标准衰减X光生成暗场图像的框架,使用不确定性引导的渐进生成对抗网络,提高可解释性和可靠性
- Motivation: X射线暗场成像能通过小角度散射可视化微观组织变化,提供补充诊断信息,但数据有限限制了深度学习模型开发
- Method: 使用不确定性引导的渐进生成对抗网络,结合偶然不确定性和认知不确定性,直接从标准衰减胸部X光生成暗场图像
- Result: 生成图像具有高结构保真度,各阶段定量指标持续改善,分布外评估显示模型泛化能力强
- Conclusion: 不确定性引导的生成建模能实现逼真的暗场图像合成,为未来临床应用提供可靠基础
[71] Provable Robustness in Multimodal Large Language Models via Feature Space Smoothing
Song Xia,Meiwen Ding,Chenqi Kong,Wenhan Yang,Xudong Jiang
Main category: cs.LG
TL;DR: 提出特征空间平滑(FS)和净化器与平滑映射器(PSM)来增强多模态大语言模型对抗攻击的鲁棒性,提供理论保证并显著降低攻击成功率
- Motivation: 多模态大语言模型虽然功能强大,但对对抗性扰动非常脆弱,容易导致特征表示失真和错误预测,需要增强其鲁棒性
- Method: 提出特征空间平滑(FS)方法,将特征编码器转换为平滑变体,提供特征余弦相似度的理论保证;引入PSM模块提升高斯鲁棒性分数,无需重新训练模型
- Result: FS-PSM在各种白盒攻击中将攻击成功率从近90%降低到约1%,在多种MLLM和下游任务中表现出色,优于对抗训练
- Conclusion: FS-PSM为多模态大语言模型提供了强大的理论鲁棒性保证和优越的实证性能,是增强模型对抗攻击鲁棒性的有效方法
cs.RO
[72] DextER: Language-driven Dexterous Grasp Generation with Embodied Reasoning
Junha Lee,Eunha Park,Minsu Cho
Main category: cs.RO
TL;DR: DextER通过接触驱动的具身推理生成灵巧抓握,将任务语义与物理约束连接,在DexGYS上达到67.14%成功率,比SOTA提升3.83%
- Motivation: 现有方法直接将观察映射到抓握参数,缺乏对物理交互的中间推理。需要理解任务语义、3D几何和复杂的手-物体交互。
- Method: 引入基于接触的具身推理,预测手部链接与物体表面的接触位置作为中间表示,然后自回归生成具身接触令牌和抓握配置令牌。
- Result: 在DexGYS数据集上达到67.14%成功率,比现有最佳方法提升3.83%,意图对齐度提升96.4%。支持通过部分接触规范进行可控生成。
- Conclusion: 接触驱动的具身推理为灵巧抓握生成提供了有效的中间表示,连接了任务语义与物理约束,实现了更好的性能和可控性。
cs.AI
[73] The Paradigm Shift: A Comprehensive Survey on Large Vision Language Models for Multimodal Fake News Detection
Wei Ai,Yilong Tan,Yuntao Shou,Tao Meng,Haowen Chen,Zhixiong He,Keqin Li
Main category: cs.AI
TL;DR: 该论文是关于大视觉语言模型在多模态虚假新闻检测中的系统综述,追踪了从传统特征工程方法到端到端多模态推理框架的范式转变。
- Motivation: 大视觉语言模型的快速发展推动了多模态虚假新闻检测的范式转变,但缺乏系统性的综述来追踪这一转变并整合最新进展。该论文旨在填补这一空白。
- Method: 提供全面的综述:1) 历史视角,追踪从传统多模态检测流程到基础模型驱动范式的演变;2) 结构化分类法,涵盖模型架构、数据集和性能基准;3) 分析剩余技术挑战;4) 展望未来研究方向。
- Result: 这是首个系统性记录和分析大视觉语言模型在多模态虚假新闻检测中变革作用的全面综述,提供了历史演变、分类框架、技术挑战和未来方向的完整分析。
- Conclusion: 大视觉语言模型彻底改变了多模态虚假新闻检测领域,从浅层融合方法转向强大的联合表示学习。该综述为理解这一范式转变提供了系统性框架,并指出了未来研究方向以推动该领域进一步发展。
[74] GeMM-GAN: A Multimodal Generative Model Conditioned on Histopathology Images and Clinical Descriptions for Gene Expression Profile Generation
Francesca Pia Panaccione,Carlo Sgaravatti,Pietro Pinoli
Main category: cs.AI
TL;DR: GeMM-GAN:基于组织病理学切片和临床元数据生成基因表达谱的生成对抗网络,在TCGA数据集上表现优于现有方法
- Motivation: 基因表达数据因隐私法规和实验成本难以广泛获取,而医学影像和临床元数据则常规收集,需要一种能从易获取数据生成基因表达谱的方法
- Method: 使用Transformer编码器处理图像块,通过交叉注意力机制融合图像块和文本标记,生成条件向量指导生成模型合成生物学一致的基因表达谱
- Result: 在TCGA数据集上评估,相比现有生成模型,能生成更真实、功能更有意义的基因表达谱,下游疾病类型预测准确率提升超过11%
- Conclusion: GeMM-GAN成功解决了基因表达数据获取困难的问题,通过组织病理学切片和临床元数据生成高质量的基因表达谱,为生物医学研究提供了新工具
eess.IV
[75] High-Fidelity 3D Tooth Reconstruction by Fusing Intraoral Scans and CBCT Data via a Deep Implicit Representation
Yi Zhu,Razmig Kechichian,Raphaël Richert,Satoshi Ikehata,Sébastien Valette
Main category: eess.IV
TL;DR: 提出一个自动融合CBCT和IOS数据的深度学习管道,生成无缝、完整、解剖学一致的3D牙齿模型
- Motivation: 数字牙科需要高保真3D牙齿模型,但临床成像方式各有局限:CBCT能捕捉牙根但牙冠噪声大分辨率低,IOS提供高保真牙冠但无牙根信息。简单融合会导致不自然的接缝和伪影。
- Method: 提出全自动管道:1)分割并鲁棒配准牙齿实例;2)创建混合代理网格(IOS牙冠+CBCT牙根);3)使用该代理引导类别特定的DeepSDF网络,通过优化过程将输入投影到理想牙齿形状的学习流形上。
- Result: 定性和定量评估表明,该方法能同时保留IOS的高保真牙冠和CBCT的患者特定牙根形态,克服了每种模态和简单缝合的局限性。
- Conclusion: 该方法成功融合了CBCT和IOS数据,生成无缝、水密且解剖学一致的牙齿模型,为数字牙科提供了高质量的完整牙齿重建方案。
[76] A Machine Vision Approach to Preliminary Skin Lesion Assessments
Ali Khreis,Ro'Yah Radaideh,Quinn McGill
Main category: eess.IV
TL;DR: 研究比较了基于ABCD规则的皮肤病变评估系统与多种机器学习方法,发现从头训练的自定义CNN在小型医学数据集上表现最佳,准确率达78.5%,比传统方法提升19个百分点。
- Motivation: 早期检测恶性皮肤病变对改善患者预后至关重要。研究旨在评估结合临床ABCD规则与机器学习分类的综合系统,探索在小型医学数据集上哪种方法能更有效地进行皮肤病变评估。
- Method: 使用HAM10000数据集的1000张图像子集,实现基于ABCD规则的自动化管道计算总皮肤镜评分(TDS),并与多种机器学习方法比较:传统分类器(逻辑回归、随机森林、SVM)、迁移学习(EfficientNet-B0)和从头训练的三层卷积神经网络(CNN)。
- Result: 规则系统临床可解释性强但性能受限;EfficientNet-B0因自然与医学图像领域差异表现不佳;自定义CNN在经中值滤波处理的图像上达到78.5%准确率和86.5%召回率,比传统方法提升19个百分点准确率。
- Conclusion: 直接像素级学习能捕捉手工特征之外的诊断模式;针对小型、领域特定医学数据集,从头训练的目的构建轻量级架构优于大型预训练模型;在医学图像分析中,领域适配的定制化方法比通用迁移学习更有效。
[77] FUGC: Benchmarking Semi-Supervised Learning Methods for Cervical Segmentation
Jieyun Bai,Yitong Tang,Zihao Zhou,Mahdi Islam,Musarrat Tabassum,Enrique Almar-Munoz,Hongyu Liu,Hui Meng,Nianjiang Lv,Bo Deng,Yu Chen,Zilun Peng,Yusong Xiao,Li Xiao,Nam-Khanh Tran,Dac-Phu Phan-Le,Hai-Dang Nguyen,Xiao Liu,Jiale Hu,Mingxu Huang,Jitao Liang,Chaolu Feng,Xuezhi Zhang,Lyuyang Tong,Bo Du,Ha-Hieu Pham,Thanh-Huy Nguyen,Min Xu,Juntao Jiang,Jiangning Zhang,Yong Liu,Md. Kamrul Hasan,Jie Gan,Zhuonan Liang,Weidong Cai,Yuxin Huang,Gongning Luo,Mohammad Yaqub,Karim Lekadir
Main category: eess.IV
TL;DR: FUGC是首个用于宫颈分割的半监督学习基准,提供890张经阴道超声图像,评估指标包括DSC、HD和运行时间,最佳方法分别达到90.26% mDSC、38.88 mHD和32.85 ms RT。
- Motivation: 经阴道超声宫颈结构准确分割对评估自发性早产风险至关重要,但标记数据稀缺限制了监督学习方法的性能,需要建立半监督学习基准来推动该领域发展。
- Method: 提出Fetal Ultrasound Grand Challenge (FUGC)基准,包含890张TVS图像(500训练、90验证、300测试),使用Dice相似系数、Hausdorff距离和运行时间加权组合(0.4/0.4/0.2)评估方法性能。
- Result: 挑战吸引了10个团队82名参与者,最佳方法在各项指标上分别达到:90.26% mDSC、38.88 mHD、32.85 ms RT,证明了半监督方法在有限标记数据下的有效性。
- Conclusion: FUGC建立了宫颈分割的标准化基准,展示了半监督方法在有限标记数据下的效能,为AI辅助临床早产风险评估奠定了基础。
[78] Phi-SegNet: Phase-Integrated Supervision for Medical Image Segmentation
Shams Nafisa Ali,Taufiq Hasan
Main category: eess.IV
TL;DR: Phi-SegNet:一种结合相位感知信息的CNN架构,通过在架构和优化层面整合频域表示,提升医学图像分割的泛化能力和边界精度。
- Motivation: 现有分割架构主要编码空间信息而忽略频域表示,后者包含丰富的结构和纹理线索。虽然最近有研究在特征层面探索谱信息,但在监督层面整合频率线索(对细粒度目标定位至关重要)仍未充分开发。
- Method: 提出Phi-SegNet,包含:1) Bi-Feature Mask Former (BFMF)模块,融合相邻编码器特征以减少语义鸿沟;2) Reverse Fourier Attention (RFA)块,使用相位正则化特征精炼解码器输出;3) 专门的相位感知损失,使特征与结构先验对齐,形成强调边界精度的闭环反馈。
- Result: 在涵盖X射线、超声、组织病理学、MRI和结肠镜检查的五个公共数据集上,Phi-SegNet始终达到最先进性能,IoU平均相对提升1.54±1.26%,F1分数提升0.98±0.71%。在跨数据集泛化场景中也表现出鲁棒和优越性能。
- Conclusion: 研究表明在特征表示和监督中利用谱先验的潜力,为在细粒度目标定位中表现出色的通用分割框架铺平道路。
cs.CL
[79] Transfer Learning from ImageNet for MEG-Based Decoding of Imagined Speech
Soufiane Jhilal,Stéphanie Martin,Anne-Lise Giraud
Main category: cs.CL
TL;DR: 该论文提出了一种基于图像的方法,将MEG信号转换为时频表示,利用预训练视觉模型解码想象语音,在多项任务上取得显著性能提升。
- Motivation: 想象语音的非侵入式解码面临信号弱、分布广泛和标记数据有限等挑战,需要开发更有效的解码方法。
- Method: 将MEG信号通过可学习的传感器空间卷积投影为三个空间尺度混合的时频表示,形成类似图像的输入,然后使用ImageNet预训练的视觉架构进行处理。
- Result: 预训练模型在多项任务上表现优异:想象vs静默达到90.4%平衡准确率,想象vs默读达到81.0%,元音解码达到60.6%。跨被试评估证实模型能捕捉共享神经表征。
- Conclusion: 预训练视觉模型应用于基于图像的MEG表示能有效捕捉想象语音的神经结构,为非侵入式脑机接口提供了有前景的新方法。
[80] synthocr-gen: A synthetic ocr dataset generator for low-resource languages- breaking the data barrier
Haq Nawaz Malik,Kh Mohmad Shafi,Tanveer Ahmad Reshi
Main category: cs.CL
TL;DR: SynthOCR-Gen是一个开源合成OCR数据集生成器,专门为低资源语言设计,通过将数字Unicode文本语料库转换为现成的训练数据集来解决OCR开发中的瓶颈问题。
- Motivation: 低资源语言(如克什米尔语)缺乏大规模标注训练数据集,导致主流OCR系统不支持这些语言。手动创建数据集成本高、耗时长且容易出错,阻碍了这些语言的OCR发展。
- Method: 开发了一个综合管道,包括文本分割(字符、单词、n-gram、句子和行级别)、Unicode规范化与脚本纯度强制执行、多字体渲染以及25+种数据增强技术,模拟真实世界文档退化效果。
- Result: 成功生成了包含60万个样本的克什米尔语OCR数据集,并公开发布在HuggingFace上,为低资源语言进入视觉-语言AI模型时代提供了实用途径。
- Conclusion: SynthOCR-Gen为全球研究者和从业者提供了一个实用工具,能够有效解决低资源语言OCR数据集稀缺问题,推动这些语言在AI时代的发展。
cs.SD
[81] PF-D2M: A Pose-free Diffusion Model for Universal Dance-to-Music Generation
Jaekwon Im,Natalia Polouliakh,Taketo Akama
Main category: cs.SD
TL;DR: PF-D2M:基于扩散模型的通用舞蹈到音乐生成方法,通过提取舞蹈视频视觉特征和渐进训练策略解决数据稀缺问题,在舞蹈-音乐对齐和音乐质量上达到SOTA
- Motivation: 现有舞蹈到音乐生成方法通常依赖单个人类舞者的身体运动特征和有限的数据集,限制了其在多舞者和非人类舞者等真实场景中的性能和应用
- Method: 提出PF-D2M,基于扩散模型的通用舞蹈到音乐生成模型,从舞蹈视频中提取视觉特征,采用渐进训练策略解决数据稀缺和泛化问题
- Result: 主客观评估均显示PF-D2M在舞蹈-音乐对齐和音乐质量方面达到最先进性能
- Conclusion: PF-D2M通过视觉特征提取和渐进训练策略,有效解决了现有方法的局限性,在舞蹈到音乐生成任务上取得了显著改进
[82] Distillation-based Layer Dropping (DLD) Effective End-to-end Framework for Dynamic Speech Networks
Abdul Hannan,Daniele Falavigna,Shah Nawaz,Mubashir Noman,Markus Schedl,Alessio Brutti
Main category: cs.SD
TL;DR: 提出基于知识蒸馏的层丢弃框架DLD,通过结合知识蒸馏和层丢弃技术,在动态语音网络中实现最先进的性能,显著降低词错误率并减少训练时间。
- Motivation: 边缘设备在资源受限且多变的场景下运行,需要能够适应可用资源限制的动态架构。现有的层丢弃方法在高低丢弃情况下会严重影响动态模型的性能,恶化性能-计算权衡。
- Method: 提出蒸馏层丢弃框架DLD,以端到端方式有效结合知识蒸馏和层丢弃技术,用于动态语音网络。
- Result: 在三个公共基准测试上使用conformer和WavLM等知名语音识别方法进行综合实验,在高丢弃和无丢弃情况下分别降低词错误率9.32%和2.25%,同时减少33.3%的训练时间。
- Conclusion: DLD框架通过结合知识蒸馏和层丢弃,显著改善了动态语音网络的性能-计算权衡,在边缘设备资源受限场景下具有重要应用价值。
cs.GR
[83] SplatBus: A Gaussian Splatting Viewer Framework via GPU Interprocess Communication
Yinghan Xu,Théo Morales,John Dingliana
Main category: cs.GR
TL;DR: 开发了一个名为SplatBus的软件解决方案,通过NVIDIA IPC API将3D高斯泼溅实时渲染结果集成到传统网格渲染管线中
- Motivation: 3D高斯泼溅(3DGS)虽然能实现实时渲染,但难以集成到传统的基于网格的渲染管线中,这限制了其在交互应用和艺术探索中的使用
- Method: 使用NVIDIA的进程间通信(IPC)API,将3DGS渲染结果传输到外部客户端,如Unity、Blender、Unreal Engine和OpenGL查看器
- Result: 开发了SplatBus软件,代码已在GitHub开源,实现了3DGS与传统渲染管线的无缝集成
- Conclusion: 该解决方案解决了3DGS集成难题,使其能够广泛应用于各种交互式应用和创作工具中
cs.NE
[84] Neural Particle Automata: Learning Self-Organizing Particle Dynamics
Hyunsoo Kim,Ehsan Pajouheshgar,Sabine Süsstrunk,Wenzel Jakob,Jinah Park
Main category: cs.NE
TL;DR: NPA将神经细胞自动机从静态网格扩展到动态粒子系统,每个细胞作为具有连续位置和内部状态的粒子,通过可学习的神经规则更新,支持异质动力学和计算效率。
- Motivation: 传统神经细胞自动机(NCA)局限于静态网格结构,无法处理动态粒子系统。需要一种能够建模动态粒子间相互作用、支持细胞个体化和异质动力学的框架。
- Method: 将细胞建模为具有连续位置和内部状态的粒子,使用可学习的神经规则更新。采用可微分的平滑粒子流体动力学(SPH)算子处理动态邻域,配合内存高效的CUDA加速内核实现端到端训练。
- Result: NPA在形态发生、点云分类和粒子纹理合成等任务中表现出色,保留了NCA的鲁棒性和自再生特性,同时实现了粒子系统特有的新行为。
- Conclusion: NPA作为一种紧凑的神经模型,能够学习自组织粒子动力学,为动态粒子系统提供了有效的建模框架。
Powered by Deepseek & arXiv Daily AI Enhanced