Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] 2nd Place Solution for CVPR2024 E2E Challenge: End-to-End Autonomous Driving Using Vision Language Model
Zilong Guo,Yi Luo,Long Sha,Dongxu Wang,Panqu Wang,Chenyang Xu,Yi Yang
Main category: cs.CV
TL;DR: 基于视觉语言模型的端到端自主驾驶方案,仅使用单相机即可在驾驶任务中获得突出性能
- Motivation: 探索大语言模型(LLM)和多模态视觉语言模型(VLM)是否能够提升端到端自主驾驶任务的性能
- Method: 结合端到端架构设计和知识丰富的视觉语言模型,仅使用单相机输入
- Result: 在驾驶任务上获得了印象深刻的性能,成为相机仅有方案中的最佳解决方案
- Conclusion: 证明了基于视视觉的驾驶方法的有效性,展示了端到端驾驶任务的很大潜力
[2] PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?
Mennatullah Siam
Main category: cs.CV
TL;DR: 该论文提出了MoCentric-Bench基准测试,用于评估视频多模态大语言模型在运动感知视觉定位任务中的能力,发现现有模型过度依赖静态外观线索而非真实运动推理。
- Motivation: 当前视频MLLMs在像素级视觉定位能力方面研究不足,特别是在基于运动模式描述的对象分割任务中,现有基准测试存在单帧即可满足运动指代表达的缺陷。
- Method: 提出了四种运动中心探测技术,构建了MoCentric-Bench基准测试,确保模型真正利用运动与语言的交互而非静态外观线索,并建立了强大的单图像基线方法。
- Result: 研究发现现有视频MLLMs在区分真假运动和把握运动顺序方面存在不足,提出的运动中心适应技术在MoCentric-Bench上达到了最先进性能。
- Conclusion: 该工作挑战未来模型改进密集时空定位和像素级视频理解能力,为视频MLLMs的运动感知评估提供了重要基准。
[3] Multi-Scale Deep Learning for Colon Histopathology: A Hybrid Graph-Transformer Approach
Sadra Saremi,Amirhossein Ahmadkhan Kordbacheh
Main category: cs.CV
TL;DR: 这篇论文提出了一种混合多尺度深度学习模型HG-TNet,结合了胶囊网络、图注意机制、Transformer模块和残差学习,用于结肠癌的早期识别。
- Motivation: 结肠癌是全球急性最强的癌症之一,早期检测对防止病情恶化至关重要。需要更准确的病理图像分析方法来提高识别准确性。
- Method: 使用HG-TNet混合架构,结合Transformer和卷积神经网络的优势。Transformer分支通过卷积基础的补丁嵌入提取全局上下文关系,CNN分支捕获局部细节特征。同时使用自监督自旋转预测目标和胶囊网络保持空间组织结构。
- Result: 在LC25000数据集上表现出优异的性能,不仅在准确率和损失函数上超过标准架构,还能够更好地理解图像空间组织结构。
- Conclusion: 该混合多尺度深度学习方法能够有效提高结肠癌病理图像的分类准确性,为医疗诊断提供了更可靠的工具。
[4] PRECISE-AS: Personalized Reinforcement Learning for Efficient Point-of-Care Echocardiography in Aortic Stenosis Diagnosis
Armin Saadat,Nima Hashemi,Hooman Vaseli,Michael Y. Tsang,Christina Luong,Michiel Van de Panne,Teresa S. M. Tsang,Purang Abolmaesumi
Main category: cs.CV
TL;DR: 基于强化学习的动态超声视频采集框架,用于主动脉狭窄诊断,在仅使用47%视频的情况下达到80.6%准确率
- Motivation: 解决农村和资源匮乏地区超声心动图检查资源有限的问题,传统方法需要固定视频集且依赖操作者经验
- Method: 提出强化学习驱动的主动视频采集框架,动态选择每个患者最具信息量的超声视频,持续评估是否需要额外成像
- Result: 在2,572名患者数据上测试,仅使用47%的超声视频就实现了80.6%的分类准确率
- Conclusion: 主动特征采集方法可提高主动脉狭窄诊断效率,使超声心动图评估更加高效、可扩展和个性化
[5] LiGuard: A Streamlined Open-Source Framework for Rapid & Interactive Lidar Research
Muhammad Shahbaz,Shaurya Agarwal
Main category: cs.CV
TL;DR: LiGuard是一个开源激光雷达软件框架,旨在解决激光雷达研究中代码重复开发的问题,提供数据I/O、预处理/后处理和常用算法的内置支持,支持快速开发和结果可视化。
- Motivation: 激光雷达自主移动和智能交通系统研究中存在代码重复开发问题,不同研究共享多个方法步骤但各自开发专用代码,导致效率低下且代码难以复用。
- Method: 开发LiGuard开源框架,提供数据输入输出、预处理后处理、常用算法的内置支持,支持交互式算法调整和参数修改,并生成结构化目录便于代码共享。
- Result: 通过案例研究证明了LiGuard的有效性,能够帮助研究人员快速开发激光雷达项目代码。
- Conclusion: LiGuard框架成功解决了激光雷达研究中的代码复用和开发效率问题,为研究者提供了便捷的开发工具和代码共享平台。
[6] PercepTwin: Modeling High-Fidelity Digital Twins for Sim2Real LiDAR-based Perception for Intelligent Transportation Systems
Muhammad Shahbaz,Shaurya Agarwal
Main category: cs.CV
TL;DR: 本文提出了一种使用高保真数字双胞生成大规模高质量合成数据集的方法,解决LiDAR感知系统中标注数据成本高、耗时的问题,支持可扩展的Sim2Real学习。
- Motivation: LiDAR基感知系统依赖大规模标注数据集,但这些数据集的制作成本高、耗时且需要大量人工劳动,影响了系统的可扩展性。Sim2Real学习作为解决方案,效果取决于源模拟的保真度。
- Method: 提出了一种严格可复现的方法论,使用高保真数字双胞生成大规模高质量合成数据集。流程包括数字化复制真实环境、静态几何建模、道路基础设施复制和动态交通场景生成,利用开源资源如卫星影像和OpenStreetMap数据。
- Result: 该方法能够构建健壮的合成环境,支持可扩展、成本效益高、多样化的数据集生成,为健壮的Sim2Real学习提供可靠基础。
- Conclusion: 通过高保真数字双胞技术,可以有效解决LiDAR感知系统中标注数据的成本和可扩展性问题,为智能交通系统提供了一种可行的Sim2Real学习解决方案。
[7] High-Fidelity Digital Twins for Bridging the Sim2Real Gap in LiDAR-Based ITS Perception
Muhammad Shahbaz,Shaurya Agarwal
Main category: cs.CV
TL;DR: 本文提出高保真数字双生框架(HiFi DT),通过模拟环境构建和领域适应技术,有效缩小LiDAR感知在Sim2Real过程中的域偏移问题,使得在模拟数据训练的模型在真实数据上表现超过了使用真实数据训练的模型。
- Motivation: 解决Sim2Real域转移中的分布偏移问题,提高模拟训练的LiDAR感知模型在真实交通系统中的性能和可靠性,降低实际部署成本。
- Method: 提出HiFi DT框架,包含真实世界背景几何、车道级别路网拓扑和传感器特定规格配置,通过CD、MMD、EMD、FD等指标量化分布对齐程度。
- Result: 使用HiFi DT生成的模拟数据训练的3D物体检测器,在真实数据上的性能超过使用真实数据训练的模型4.8%,显著减少了域偏移。
- Conclusion: 高保真数字双生技术在实现可靠的模拟基于LiDAR感知方面具有重要价值,能够有效缩小Sim2Real间隔,推动智能交通系统的发展。
[8] Single Domain Generalization in Diabetic Retinopathy: A Neuro-Symbolic Learning Approach
Midhat Urooj,Ayan Banerjee,Farhat Shaikh,Kuntal Thakur,Sandeep Gupta
Main category: cs.CV
TL;DR: KG-DG是一个神经符号框架,通过整合视觉变换器和专家指导的符号推理,在糖尿病视网膜病变分类中实现了跨域泛化的显著提升,最高获得5.2%的准确率增益。
- Motivation: 解决医学影像中模型在单一源域训练后无法适应真实世界分布变化的领域泛化挑战,特别是在糖尿病视网膜病变分类任务中。
- Method: 提出神经符号框架KG-DG,整合视觉变换器与专家指导的符号推理,利用临床病变本体构建结构化规则特征和视网膜血管分割,通过置信度加权集成策略与深度视觉表示融合,最小化域嵌入间的KL散度以实现高层临床语义对齐。
- Result: 在四个公共数据集(APTOS、EyePACS、Messidor-1、Messidor-2)上验证,跨域设置中获得最高5.2%准确率提升,比基线ViT模型提高6%。符号模型在MDG中达到63.67%平均准确率,神经符号集成在SDG场景中达到最高准确率。病变特征准确率达84.65%,显著优于纯神经方法。
- Conclusion: 神经符号集成是构建临床鲁棒、领域不变的医学AI系统的有前景范式,符号组件不仅增强可解释性,还作为有效正则化器发挥作用。
[9] A Data-Driven RetinaNet Model for Small Object Detection in Aerial Images
Zhicheng Tang,Jinwen Tang,Yi Shang
Main category: cs.CV
TL;DR: DDR-Net是基于RetinaNet的数据驱动深度学习模型,专门用于增强航空图像中小物体的检测能力,通过自主确定最优特征图和锚点估计,在有限数据条件下实现高效训练和精确检测。
- Motivation: 航空图像中小物体检测在环境监测、城市规划、危机管理等领域至关重要,但现有方法在有限数据条件下效果不佳,需要开发更高效精准的检测模型。
- Method: 提出DDR-Net模型,引入数据驱动技术自主确定最优特征图和锚点估计,开发创新的采样技术来增强有限数据训练下的模型效能。
- Result: 在多种航空鸟类图像数据集上的实证评估显示,DDR-Net显著优于RetinaNet和其他当代模型,大幅降低了数据收集和训练的成本与时间。
- Conclusion: DDR-Net的创新技术推动了当前航空图像分析技术的发展,在农业、安全、考古等多个领域具有广泛的应用前景和重要影响。
[10] STAR: A Fast and Robust Rigid Registration Framework for Serial Histopathological Images
Zeyu Liu,Shengwei Ding
Main category: cs.CV
TL;DR: STAR是一个快速、轻量级的开源框架,用于全切片组织病理图像的刚性配准,特别适用于连续切片的多染色场景,具有分层相关策略和自适应内核缩放等特点。
- Motivation: 现有方法通常依赖计算密集型且难以复现的复杂可变形或深度学习方案,而适用于连续切片场景的轻量级刚性配准框架开发不足。
- Method: STAR集成了染色条件预处理、分层粗到精相关策略、自适应内核缩放和内置质量控制,实现跨异质组织类型和染色方案的可靠刚性配准。
- Result: 在ANHIR 2019和ACROBAT 2022数据集上评估显示,STAR能在几分钟内为每张切片产生稳定对齐,对跨染色变异性和部分组织重叠具有鲁棒性。
- Conclusion: STAR作为一个开源轻量级工具,提供了可复现的基线,降低了临床采用门槛,并为下一代计算病理学的大规模配对数据准备提供了支持。
[11] Resilient Multimodal Industrial Surface Defect Detection with Uncertain Sensors Availability
Shuai Jiang,Yunfeng Ma,Jingyu Zhou,Yuan Bian,Yaonan Wang,Min Liu
Main category: cs.CV
TL;DR: 提出跨模态提示学习和对称对比学习来解决多模态工业表面缺陷检测中的模态缺失问题,通过RGB和3D模态融合实现更好的缺陷检测性能
- Motivation: 解决多模态工业表面缺陷检测中由于传感器不确定性导致的模态缺失问题,包括学习模式转换和信息空缺等挑战
- Method: 提出跨模态提示学习(包含跨模态一致性提示、模态特定提示和缺失感知提示)和对称对比学习(利用文本模态作为双视觉模态融合的桥梁,设计配对对比文本提示和三模态对比预训练)
- Result: 在RGB和3D模态总缺失率0.7的情况下,达到73.83% I-AUROC和93.05% P-AUROC,分别超过最先进方法3.84%和5.58%,在不同缺失类型和比率下均优于现有方法
- Conclusion: 该方法有效解决了多模态工业表面缺陷检测中的模态缺失问题,通过创新的跨模态提示学习和对称对比学习机制,显著提升了检测性能
[12] EdgeAttNet: Towards Barb-Aware Filament Segmentation
Victor Solomon,Piet Martens,Jingyu Liu,Rafal Angryk
Main category: cs.CV
TL;DR: EdgeAttNet是一种基于U-Net的太阳细丝分割架构,通过引入可学习的边缘图来增强自注意力机制,显著提高了细丝边界和分支的识别精度。
- Motivation: 现有方法在H-alpha观测中难以捕捉太阳细丝的精细结构(特别是分支),主要原因是长程依赖建模和空间细节处理能力有限。
- Method: 在U-Net骨干网络上引入从输入图像直接导出的可学习边缘图,通过线性变换注意力Key和Query矩阵,将边缘信息融入自注意力机制,增强空间敏感性。
- Result: 在MAGFILO数据集上优于U-Net和其他基于U-Net的transformer基线,分割精度更高,细丝分支识别显著改善,推理速度更快。
- Conclusion: EdgeAttNet通过显式整合结构先验到注意力计算中,有效提升了太阳细丝分割性能,同时减少了可训练参数数量,适合实际部署。
[13] KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models
Yujin Wang,Tianyi Wang,Quanfeng Liu,Wenxian Fan,Junfeng Jiao,Christian Claudel,Yunbing Yan,Bingzhao Gao,Jianqiang Wang,Hong Chen
Main category: cs.CV
TL;DR: KEPT是一个知识增强的视觉语言模型框架,通过检索场景对齐范例和链式思维提示,在nuScenes数据集上实现了最先进的短视距轨迹预测性能。
- Motivation: 现有的视觉语言模型在自动驾驶轨迹预测中往往无法有效基于场景动态和领域知识进行推理,需要提升预测的准确性和安全性。
- Method: 结合时间频率-空间融合视频编码器、k-means+HNSW检索堆栈提供场景对齐范例,通过链式思维提示嵌入检索先验,采用三阶段微调策略对齐空间线索和物理可行运动。
- Result: 在nuScenes数据集上,NoAvg协议下达到0.70m平均L2误差和0.21%碰撞率;TemAvg协议下达到0.31m平均L2误差和0.07%碰撞率,检索延迟亚毫秒级。
- Conclusion: 检索增强、CoT引导的视觉语言模型为可解释和可信的自动驾驶提供了一条有前景的数据高效路径。
[14] VQualA 2025 Challenge on Engagement Prediction for Short Videos: Methods and Results
Dasong Li,Sizhuo Ma,Hang Hua,Wenjie Li,Jian Wang,Chris Wei Zhou,Fengbin Guan,Xin Li,Zihao Yu,Yiting Lu,Ru-Ling Liao,Yan Ye,Zhibo Chen,Wei Sun,Linhan Cao,Yuqin Cao,Weixia Zhang,Wen Wen,Kaiwei Zhang,Zijian Chen,Fangfang Lu,Xiongkuo Min,Guangtao Zhai,Erjia Xiao,Lingfeng Zhang,Zhenjie Su,Hao Cheng,Yu Liu,Renjing Xu,Long Chen,Xiaoshuai Hao,Zhenpeng Zeng,Jianqin Wu,Xuxu Wang,Qian Yu,Bo Hu,Weiwei Wang,Pinxin Liu,Yunlong Tang,Luchuan Song,Jinxi He,Jiaru Wu,Hanjia Lyu
Main category: cs.CV
TL;DR: VQualA 2025挑战赛专注于社交媒体平台用户生成短视频的参与度预测,使用真实用户交互数据,吸引了97名参与者提交15份有效测试方案。
- Motivation: 理解和建模用户生成内容(UGC)短视频在社交媒体平台上的受欢迎程度,促进能够捕捉影响用户参与度复杂因素的稳健建模策略。
- Method: 使用包含视觉内容、音频和创作者提供的元数据等多模态特征的新短视频UGC数据集,该数据集基于真实世界用户交互的参与度指标构建。
- Result: 挑战赛吸引了97名参与者,收到了15份有效的测试提交方案,在短视频UGC视频参与度预测方面取得了显著进展。
- Conclusion: VQualA 2025挑战赛成功推动了短视频参与度预测领域的发展,为理解用户生成内容的受欢迎因素提供了重要数据和模型基础。
[15] InstaDA: Augmenting Instance Segmentation Data with Dual-Agent System
Xianbao Hou,Yonghao He,Zeyd Boukhers,John See,Hu Su,Wei Sui,Cong Yang
Main category: cs.CV
TL;DR: InstaDA是一个无需训练的双智能体系统,通过文本智能体和图像智能体协作增强实例分割数据集,在LVIS验证集上显著提升性能
- Motivation: 解决实例分割数据标注成本高、类别不平衡问题,现有方法缺乏大语言模型与扩散模型的深度协作,未能充分利用现有训练数据信息
- Method: 提出双智能体系统:1)文本智能体(T-Agent)通过Prompt Rethink机制迭代优化提示词,促进LLM与扩散模型协作;2)图像智能体(I-Agent)基于训练图像生成新实例以丰富数据分布
- Result: 在LVIS 1.0验证集上相比基线提升:box AP +4.0,mask AP +3.3;相比领先模型DiverGen提升:box AP +0.3,mask AP +0.1,在常见类别上表现更佳
- Conclusion: InstaDA通过双智能体协作有效增强实例分割数据集,无需训练即可显著提升模型性能,证明了深度整合LLM与扩散模型的潜力
[16] SPENet: Self-guided Prototype Enhancement Network for Few-shot Medical Image Segmentation
Chao Fan,Xibin Jia,Anqi Xiao,Hongyuan Yu,Zhenghan Yang,Dawei Yang,Hui Xu,Yan Huang,Liang Wang
Main category: cs.CV
TL;DR: 提出SPENet网络,通过多级原型生成和查询引导的局部原型增强来解决少样本医学图像分割中类内变化和原型匹配问题
- Motivation: 现有基于原型的方法通常为支持图像生成单一全局原型来匹配查询图像,忽略了类内变化,当支持图像和查询图像存在显著差异时,局部原型可能不利于匹配
- Method: SPENet包含两个核心模块:1) 多级原型生成模块(MPG),同时生成全局原型和自适应数量的局部原型;2) 查询引导的局部原型增强模块(QLPE),根据查询图像指导自适应优化支持原型
- Result: 在三个公共医学数据集上的大量实验表明,SPENet优于现有的最先进方法,实现了卓越的性能
- Conclusion: SPENet通过多粒度原型生成和查询引导的原型增强,有效解决了少样本医学图像分割中的类内变化和原型匹配问题,取得了state-of-the-art的性能
[17] SOPSeg: Prompt-based Small Object Instance Segmentation in Remote Sensing Imagery
Chenhao Wang,Yingrui Ji,Yu Meng,Yunjian Zhang,Yao Zhu
Main category: cs.CV
TL;DR: SOPSeg是一个专门针对遥感图像中小目标分割的提示驱动框架,通过区域自适应放大和定制解码器解决SAM模型在小目标分割中的性能下降问题
- Motivation: 当前研究主要关注小目标检测,但小目标实例分割领域缺乏专门数据集和研究,且SAM模型由于1/16的粗糙特征分辨率导致小目标分割性能显著下降
- Method: 提出SOPSeg框架,包含区域自适应放大策略以保留细粒度细节,定制解码器整合边缘预测和渐进细化进行精确边界划分,以及针对遥感应用中广泛采用的定向边界框的新提示机制
- Result: SOPSeg在小目标分割方面优于现有方法,并促进了遥感任务的高效数据集构建
- Conclusion: 该研究填补了小目标实例分割的空白,构建了基于SODA-A的综合小目标实例分割数据集,并将发布模型和数据集以支持未来研究
[18] Enhancing Robustness in Post-Processing Watermarking: An Ensemble Attack Network Using CNNs and Transformers
Tzuhsuan Huang,Cheng Yu Yeo,Tsai-Ling Huang,Hong-Han Shuai,Wen-Huang Cheng,Jun-Cheng Chen
Main category: cs.CV
TL;DR: 本文提出一种后处理水印方法,通过集成攻击网络训练增强水印鲁棒性,在WAVES基准测试中显著提升基线方法性能
- Motivation: 后处理水印相比处理中水印更具灵活性,可应用于任何生成模型的输出,且能为单个图像嵌入独特水印
- Method: 构建CNN和Transformer在空间域和频域的组合攻击网络,研究不同组合对水印鲁棒性的影响,采用集成攻击网络进行训练
- Result: CNN空间域+Transformer频域组合获得最高鲁棒性,在WAVES基准测试中平均比特准确率显著提升,特别是对再生攻击StegaStamp提升18.743%
- Conclusion: 集成攻击网络训练能有效增强后处理水印的鲁棒性,空间域CNN与频域Transformer的组合效果最佳
[19] Lesion-Aware Visual-Language Fusion for Automated Image Captioning of Ulcerative Colitis Endoscopic Examinations
Alexis Ivan Lopez Escamilla,Gilberto Ochoa,Sharib Al
Main category: cs.CV
TL;DR: 提出了一种用于溃疡性结肠炎的病变感知图像字幕框架,整合了ResNet嵌入、Grad-CAM热图和CBAM增强注意力机制,结合T5解码器生成结构化临床描述。
- Motivation: 解决溃疡性结肠炎内镜图像分析中自动生成结构化、可解释的临床描述的需求,提高内镜报告的准确性和可靠性。
- Method: 使用ResNet提取图像特征,Grad-CAM生成热图定位病变区域,CBAM增强注意力机制,T5解码器结合临床元数据(MES评分、血管模式等)作为自然语言提示生成字幕。
- Result: 相比基线方法,该方法在字幕质量和MES分类准确性方面均有提升,支持可靠的内镜报告生成。
- Conclusion: 该框架能够生成与临床实践一致的结构化描述,同时提供MES分类和病变标签,为溃疡性结肠炎的内镜诊断提供有效支持。
[20] Unveiling the Response of Large Vision-Language Models to Visually Absent Tokens
Sohee Kim,Soohyun Ryu,Joonhyung Park,Eunho Yang
Main category: cs.CV
TL;DR: LVLMs存在将纯文本输入误认为图像内容的幻觉问题,研究发现特定FFN神经元能识别视觉缺失,基于此开发了检测模块来改善输出质量。
- Motivation: 大型视觉语言模型在处理文本输入时经常错误地将缺乏视觉证据的文本内容视为图像的一部分,导致生成错误响应,需要解决这种幻觉问题。
- Method: 发现并利用特定的视觉缺失感知(VA)神经元激活模式,开发检测模块来识别输入token是否具有视觉基础,通过重新解释问题提示或替换检测到的缺失token来优化输出。
- Result: 实验表明该方法有效缓解了模型错误假设文本输入具有视觉存在的倾向,且在不同LVLMs上具有通用性。
- Conclusion: 通过识别和利用VA神经元的激活模式,可以系统性地检测和修正LVLMs中的视觉缺失幻觉问题,提高模型输出的准确性。
[21] Background Matters Too: A Language-Enhanced Adversarial Framework for Person Re-Identification
Kaicong Huang,Talha Azfar,Jack M. Reilly,Thomas Guggisberg,Ruimin Ke
Main category: cs.CV
TL;DR: 这篇论文提出了一种双渠道多模态策略,同时模型化前景和背景信息,通过语义对齐和对抗学习来提升人员重识别的性能。
- Motivation: 现有方法主要关注前景信息而忽视了背景语义的价值,而人类观察中背景语义与前景同样重要,因为人们会在关注目标外观的同时排除背景干扰。
- Method: 提出端到端的双渠道跨模态特征提取框架,采用内部语义对齐和跨语义对抗学习策略。将相同语义的视觉和文本特征对齐,同时抱减前景与背景特征之间的相似性以增强网络的辨别能力。
- Result: 在2个整体和2个遮挡ReID测试集上进行了全面实验,结果显示方法有效且通用,性能达到或超过当前最先进方法。
- Conclusion: 通过同时利用前景和背景语义信息,继承人类观察的方式,可以有效提升人员重识别的表现,特别是在处理复杂遮挡场景时。
[22] MedLiteNet: Lightweight Hybrid Medical Image Segmentation Model
Pengyang Yu,Haoquan Wang,Gerard Marks,Tahar Kechadi,Laurence T. Yang,Sahraoui Dhelim,Nyothiri Aung
Main category: cs.CV
TL;DR: MedLiteNet是一个轻量级CNN-Transformer混合模型,用于皮肤病变分割,通过层次特征提取和多尺度上下文聚合实现高精度分割
- Motivation: 解决皮肤病变分割中CNN感受野有限难以建模长距离依赖,以及Vision Transformer在医学小样本数据集上计算复杂度和参数量过大的问题
- Method: 使用深度可分离Mobile Inverted Bottleneck块构建编码器,插入跨尺度token混合单元进行分辨率间信息交换,嵌入边界感知自注意力模块来锐化病变轮廓
- Result: 模型在保持轻量化的同时实现了高精度的皮肤病变分割
- Conclusion: MedLiteNet为皮肤癌计算机辅助诊断提供了一种高效的轻量级分割解决方案
[23] DCDB: Dynamic Conditional Dual Diffusion Bridge for Ill-posed Multi-Tasks
Chengjie Huang,Jiafeng Yan,Jing Li,Lu Bai
Main category: cs.CV
TL;DR: 提出动态条件双扩散桥训练范式,解决条件扩散模型在多任务场景中难以利用任务间内在相关性的问题,特别针对训练数据缺乏的病态任务。
- Motivation: 传统条件扩散模型在多任务场景中难以利用任务间的内在相关性,特别是在训练数据缺乏的病态任务中表现更差。静态条件控制在具有动态演化特性的多任务场景中难以有效学习。
- Method: 动态条件双扩散桥训练范式:1) 解耦扩散和条件生成过程,避免扩散模型对监督数据的依赖;2) 使用相同噪声调度生成动态条件,逐步调整统计特征,自然嵌入时间相关信息,降低网络学习难度。
- Result: 在去雾和可见光-红外融合等典型病态多任务场景中,在多个公共数据集上取得了最佳性能表现。
- Conclusion: 提出的动态条件双扩散桥训练范式有效解决了病态多任务场景中的挑战,通过动态条件机制显著提升了模型性能。
[24] Isolated Bangla Handwritten Character Classification using Transfer Learning
Abdul Karim,S M Rafiuddin,Jahidul Islam Razin,Tahira Alam
Main category: cs.CV
TL;DR: 使用转移学习技3DCNN、ResNet和MobileNet等深度网络技术,对孟加拉手写字符进行分类,获得99.46%的测试准确率,超越现有最佳方案。
- Motivation: 孟加拉语言包含50个基本字符和许多复合字符,需要有效的手写字符识别方法。之前的研究存在核心问题需要解决。
- Method: 采用转移学习方法,结合3D卷积神经网络(3DCNN)、殊差神经网络(ResNet)和MobileNet等深度学习模型,避免渐消梯度问题,实现孟加拉手写字符的端到端分类。
- Result: 在包含166,105个图像样本的Bangla Lekha Isolated数据集上,模型训练准确率达到99.82%,测试准确率达到99.46%,超越了各种现有的最佳方案。
- Conclusion: 该研究提出的深度学习模型能够高效地识别孟加拉手写字符,包括基本字符和复合字符,为孟加拉语言处理提供了可靠的解决方案。
[25] High Cursive Complex Character Recognition using GAN External Classifier
S M Rafiuddin
Main category: cs.CV
TL;DR: 提出ADA-GAN模型,结合外部分类器和生成对抗网络,通过生成伪造手写字符图像并添加对抗性扰动噪声来增强训练数据,有效分类复杂草书字符。
- Motivation: 手写字符因其复杂和草书特性比简单非草书字符更难分类,现有卷积神经网络对复杂字符的准确率会下降。
- Method: 使用生成对抗网络(GAN),生成器产生伪造手写字符图像,经过判别器网络置信度筛选后添加对抗性扰动噪声来增强训练数据。
- Result: ADA-GAN模型对草书和复杂字符都表现出更强的鲁棒性和有效性,相比传统CNN在复杂字符分类上表现更好。
- Conclusion: ADA-GAN通过数据增强和对抗训练的方式,显著提升了复杂草书手写字符的分类性能。
[26] TRELLIS-Enhanced Surface Features for Comprehensive Intracranial Aneurysm Analysis
Clément Hervé,Paul Garnier,Jonathan Viquerat,Elie Hachem
Main category: cs.CV
TL;DR: 通过利用非医疗大规模三维生成模型TRELLIS的特征进行跨领域转移,显著提升了脑动脉脱的检测、分割和血流模拟性能
- Motivation: 脑内动脉脱检测和建模面临标注三维数据稀缺的挑战,需要引入更有效的特征表征方法
- Method: 采用跨领域特征转移方法,利用TRELLIS生成模型在大规模非医疗3D数据上学习的几何嵌入特征,替代传统点法向或网格描述子
- Result: 在动脉脱分类、分割和血流预测任务中实现了显著性能提升,模拟错误降低15%,超越了现有最佳方法
- Conclusion: 这种通用性生成模型向专业医疗任务转移3D表征的方法具有广阔潜力,为解决医疗数据稀缺问题提供了新思路
[27] Backdoor Poisoning Attack Against Face Spoofing Attack Detection Methods
Shota Iwamatsu,Koichi Ito,Takafumi Aoki
Main category: cs.CV
TL;DR: 本文提出了一种针对人脸反欺骗检测系统的后门投毒攻击方法,通过在活体人脸图像中嵌入欺骗攻击的特征,使特定欺骗攻击能够绕过检测而不引起视觉变化。
- Motivation: 人脸识别系统可能被用户照片等欺骗攻击非法认证,现有反欺骗检测方法依赖深度学习需要大量训练数据,如果训练数据被恶意注入,可能导致特定欺骗攻击被错误分类为活体。
- Method: 提出后门投毒攻击方法,将欺骗攻击的人脸图像特征嵌入到活体人脸图像中,不引起可察觉的视觉变化,从而使特定欺骗攻击能够绕过检测。
- Result: 在公共数据集上的实验表明,该方法对现有欺骗攻击检测系统构成现实威胁。
- Conclusion: 该方法展示了人脸反欺骗检测中后门投毒的潜在威胁,需要加强对此类攻击的防御措施。
[28] Information transmission: Inferring change area from change moment in time series remote sensing images
Jialu Li,Chen Wu,Meiqi Hu
Main category: cs.CV
TL;DR: CAIM-Net是一个时间序列变化检测网络,通过从变化时刻推断变化区域来确保两者结果的一致性,包含差异提取增强、粗粒度变化时刻提取、细粒度变化时刻提取和变化区域推断三个关键步骤。
- Motivation: 现有深度学习方法将变化区域检测和变化时刻识别作为独立任务处理,但变化区域可以从变化时刻推断出来,因此需要确保两者结果的一致性。
- Method: 采用三步骤方法:1)差异提取和增强(轻量级编码器+边界增强卷积);2)粗粒度变化时刻提取(时空相关性分析);3)细粒度变化时刻提取和变化区域推断(多尺度时间CAM模块)。
- Result: 通过从变化时刻推断变化区域,确保了变化检测结果中空间和时间维度的一致性。
- Conclusion: CAIM-Net通过内在的时间序列分析和空间变化检测关系,实现了从变化时刻到变化区域的一致性推断,为时间序列变化检测提供了新的解决方案。
[29] Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection
Shan Wang,Maying Shen,Nadine Chang,Chuong Nguyen,Hongdong Li,Jose M. Alvarez
Main category: cs.CV
TL;DR: 提出基于梯度自反思的token影响力估计方法,通过影响感知对比解码框架同时缓解多模态大语言模型中的文本-视觉偏差和共现偏差,无需额外资源即可有效减少幻觉现象。
- Motivation: 多模态大语言模型存在文本-视觉偏差和共现偏差导致的幻觉问题,现有方法缺乏对实例间偏差水平波动的理解,需要更智能的偏差缓解方案。
- Method: 使用梯度自反思方法估计不同token类型(视觉、提示、先前输出)的影响力,检测物体相关视觉token,并将其整合到影响感知对比解码框架中。
- Result: 在LLaVA-QA90上实现高达92%的准确率提升,有效减少幻觉现象,且无需额外微调、模型或数据统计资源。
- Conclusion: 提出的梯度自反思和影响感知对比解码方法能够同时有效缓解多模态大语言模型的两种主要偏差类型,显著提升模型性能并减少幻觉。
[30] Towards Realistic Hand-Object Interaction with Gravity-Field Based Diffusion Bridge
Miao Xu,Xiangyu Zhu,Xusheng Liang,Zidu Wang,Jinlin Wu,Zhen Lei
Main category: cs.CV
TL;DR: 提出GravityDB方法,通过引力场驱动的扩散桥解决手-物体交互中的穿透、间隙和手部变形问题,生成物理合理且语义指导的交互效果。
- Motivation: 现有手-物体姿态估计方法存在穿透、接触区域间隙问题,且难以捕捉手部在交互过程中的真实变形,需要更精细的交互建模方法。
- Method: 将手-物体交互建模为引力场驱动过程,提出基于引力场的扩散桥(GravityDB)方法,模拟可变形手部表面与刚性物体的交互,并引入文本语义信息指导引力场构建。
- Result: 在多个数据集上的定性和定量实验表明,该方法能有效消除穿透、确保稳定抓握、捕捉真实手部变形,生成物理合理的交互效果。
- Conclusion: GravityDB方法通过引力场驱动的扩散过程成功解决了手-物体交互中的关键挑战,为精细的交互建模提供了有效解决方案。
[31] Temporally-Aware Diffusion Model for Brain Progression Modelling with Bidirectional Temporal Regularisation
Mattia Litrico,Francesco Guarnera,Mario Valerio Giuffrida,Daniele Ravì,Sebastiano Battiato
Main category: cs.CV
TL;DR: 提出TADM-3D模型,使用3D扩散模型和脑龄估计器来预测大脑MRI的未来变化,解决现有方法在时间关系建模和3D上下文利用方面的不足。
- Motivation: 现有方法存在三个主要局限:未能明确捕捉结构变化与时间间隔的关系、仅依赖扫描插值缺乏临床实用性、大多基于2D架构忽略3D解剖上下文。需要开发能够准确预测大脑病理进展的3D方法。
- Method: 提出3D时间感知扩散模型(TADM-3D),使用预训练的脑龄估计器(BAE)指导扩散模型生成反映预期年龄差异的MRI。引入回溯时间正则化(BITR),通过双向训练(从基线到随访和从随访到基线)提升时间准确性。
- Result: 在OASIS-3数据集上训练和评估,并在NACC数据集的外部测试集上验证泛化性能。代码将在接受后提供。
- Conclusion: TADM-3D能够准确预测大脑MRI的进展,通过脑龄估计器指导和双向训练正则化,解决了时间关系建模和3D上下文利用的问题,具有更好的临床实用性。
[32] Preserving instance continuity and length in segmentation through connectivity-aware loss computation
Karol Szustakowski,Luk Frank,Julia Esser,Jan Gründemann,Marie Piraud
Main category: cs.CV
TL;DR: 提出了两种新颖的损失函数(负中心线损失和简化拓扑损失),用于3D生物医学分割任务,特别关注保持细长结构的连续性和长度,在轴突起始段分割任务中显著减少了不连续性。
- Motivation: 在生物医学分割任务中,保持细长结构的连续性和长度比体素级精度更重要。现有方法容易因信号丢失导致分割不连续,影响下游应用的长度计算。
- Method: 提出两种新的损失函数:负中心线损失和简化拓扑损失,结合CNN使用。还讨论了实验设计特征如下采样和间距校正,以帮助获得连续的分割掩码。
- Result: 在3D光片荧光显微镜轴突起始段数据集上评估,相比标准CNN和现有拓扑感知损失,新方法显著减少了每个实例的分割不连续性,特别是在输入信号缺失区域,改进了下游应用中的实例长度计算。
- Conclusion: 损失函数设计中嵌入的结构先验可以显著提高生物应用分割的可靠性,特别是在保持细长结构连续性方面。
[33] Count2Density: Crowd Density Estimation without Location-level Annotations
Mattia Litrico,Feng Chen,Michael Pound,Sotirios A Tsaftaris,Sebastiano Battiato,Mario Valerio Giuffrida
Main category: cs.CV
TL;DR: Count2Density是一个仅使用计数级别标注训练密度估计模型的新方法,通过历史图库和对比空间正则化从计数信息中恢复空间分布
- Motivation: 解决人群密度估计任务中需要精细位置标注的问题,传统方法依赖点级标注,收集成本高且难以扩展
- Method: 使用历史图库生成伪密度图,通过超几何分布采样位置,结合无监督显著性估计和EMA更新策略,并添加自监督对比空间正则化
- Result: 在多个数据集上显著优于跨域适应方法,在半监督设置下优于当前最先进方法,能够准确进行子区域计数
- Conclusion: Count2Density能够有效地从计数级别标注中提取空间信息,为减少标注负担提供了可行方案
[34] AutoDetect: Designing an Autoencoder-based Detection Method for Poisoning Attacks on Object Detection Applications in the Military Domain
Alma M. Liezenga,Stefan Wijnja,Puck de Haan,Niels W. T. Brink,Jip J. van Stijn,Yori Kamphuis,Klamer Schutte
Main category: cs.CV
TL;DR: 本文研究军事目标检测系统中的投毒攻击效果及检测方法,创建了军事车辆数据集MilCivVeh,开发了基于自动编码器的轻量级检测方法AutoDetect,发现投毒攻击需要大量污染数据才能成功,现有检测方法存在不足。
- Motivation: 军事领域AI系统面临日益严重的投毒攻击威胁,但针对目标检测系统的投毒攻击应用和检测研究有限,军事领域的攻击可能造成严重后果。
- Method: 创建军事车辆数据集MilCivVeh;实施改进的BadDet补丁式投毒攻击;测试专业投毒检测方法和视觉工业异常检测方法;提出基于自动编码器的轻量级检测方法AutoDetect,利用图像切片重建误差区分干净和污染样本。
- Result: 投毒攻击虽然可以达到正面的攻击成功率,但需要污染大量数据,实际应用性存疑;现有检测方法均存在不足;AutoDetect方法在区分干净和污染样本方面表现出色,性能优于现有方法,且计算和内存需求更低。
- Conclusion: 军事领域需要大型代表性数据集来进一步评估投毒攻击风险和补丁检测机会;AutoDetect方法为投毒检测提供了简单、快速、轻量级的解决方案。
[35] PPORLD-EDNetLDCT: A Proximal Policy Optimization-Based Reinforcement Learning Framework for Adaptive Low-Dose CT Denoising
Debopom Sutradhar,Ripon Kumar Debnath,Mohaimenul Azam Khan Raiaan,Yan Zhang,Reem E. Mohamed,Sami Azam
Main category: cs.CV
TL;DR: 提出基于强化学习的PPORLD-EDNetLDCT方法,用于低剂量CT图像去噪,在多个数据集上取得优异性能
- Motivation: 低剂量CT虽然减少辐射暴露,但会导致噪声增加和图像质量下降。传统去噪方法往往无法保持图像质量,需要新的解决方案
- Method: 使用强化学习方法,采用PPO算法实时优化去噪策略,基于图像质量反馈进行训练,通过编码器-解码器架构实现
- Result: 在多个数据集上表现优异:PSNR达41.87,SSIM达0.9814,RMSE为0.00236;在COVID-19分类任务中准确率达到94%,比非RL方法提升4%
- Conclusion: 该方法为低剂量CT成像提供了更安全、更准确的解决方案,在图像质量和临床应用方面都表现出显著优势
[36] AIVA: An AI-based Virtual Companion for Emotion-aware Interaction
Chenxi Li
Main category: cs.CV
TL;DR: 该论文提出了一个名为\ours的多模态情感感知AI虚拟伴侣,通过整合视觉、音频和文本信号来增强LLMs的情感理解能力,实现更具同理心的人机交互。
- Motivation: 现有的大型语言模型仅限于单模态文本处理,无法解读非语言信号中的情感线索,限制了更沉浸式和共情的人机交互体验。
- Method: 提出了多模态情感感知网络(MSPN),使用跨模态融合transformer和监督对比学习来提取情感线索;开发了情感感知提示工程策略生成共情响应;整合了文本转语音系统和动画虚拟形象模块。
- Result: 构建了一个能够捕捉多模态情感线索、生成情感对齐响应并提供表达性交互的情感感知AI代理框架。
- Conclusion: \ours为情感感知代理提供了一个通用框架,在伴侣机器人、社会关怀、心理健康和以人为中心的人工智能等领域具有广泛应用前景。
[37] RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion
Junhao Jia,Yifei Sun,Yunyou Liu,Cheng Yang,Changmiao Wang,Feiwei Qin,Yong Peng,Wenwen Min
Main category: cs.CV
TL;DR: RTGMFF是一个统一的fMRI分析框架,通过ROI级文本生成和多模态特征融合,显著提升了脑部疾病诊断的准确性和鲁棒性。
- Motivation: 现有fMRI诊断面临信噪比低、个体差异大、CNN/Transformer模型频率感知有限,以及缺乏文本注释来理解脑区激活和连接模式的问题。
- Method: 框架包含三个组件:1) ROI驱动的fMRI文本生成;2) 混合频率-空间编码器(小波-mamba分支+跨尺度Transformer);3) 自适应语义对齐模块,通过正则化余弦相似度损失缩小模态差距。
- Result: 在ADHD-200和ABIDE基准测试中,RTGMFF在诊断准确性、敏感性、特异性和ROC曲线下面积方面均超越现有方法,取得了显著提升。
- Conclusion: RTGMFF通过结合文本生成和多模态融合,有效解决了fMRI分析中的关键挑战,为脑部疾病诊断提供了更可靠的解决方案。
[38] LGBP-OrgaNet: Learnable Gaussian Band Pass Fusion of CNN and Transformer Features for Robust Organoid Segmentation and Tracking
Jing Zhang,Siying Tao,Jiao Li,Tianhe Wang,Junchen Wu,Ruqian Hao,Xiaohui Du,Ruirong Tan,Rui Li
Main category: cs.CV
TL;DR: 本文提出LGBP-OrgaNet深度学习模型,通过自动化无损坏方式实现织细胎织细团的分割、跟踪和定量分析
- Motivation: 织细胎织细团的形状和大小能够反映其发育状态,但传统的莖光标记方法存在破坏结构的风险,需要一种无损坏的自动化方案
- Method: 设计LGBP-OrgaNet深度学习系统,结合CNN和Transformer模块的优势,提出创新的可学习高斯带通融合模块,以及双向交叉融合块来融合多尺度特征,最终通过逐步连接和上采样完成解码
- Result: SROrga在织细胎织细团分割数据集上展现了满意的分割准确性和稳健性
- Conclusion: 该方法为织细胎织细团研究提供了一种强大的工具,能够在保持结构完整的前提下实现准确的分割和跟踪
[39] PI3DETR: Parametric Instance Detection of 3D Point Cloud Edges with a Geometry-Aware 3DETR
Fabio F. Oberweger,Michael Schwingshackl,Vanessa Staderini
Main category: cs.CV
TL;DR: PI3DETR是一个端到端的3D参数化曲线检测框架,直接从点云预测多种曲线类型,无需中间表示或多阶段处理,在ABC数据集上达到最先进性能。
- Motivation: 解决现有方法需要中间表示和多阶段处理的复杂性,提高对噪声和不同采样密度的鲁棒性,应对真实世界LiDAR和3D传感场景的挑战。
- Method: 基于3DETR扩展,引入几何感知匹配策略和专门损失函数,在单次前向传播中统一检测多种参数化曲线类型(三次贝塞尔曲线、线段、圆、圆弧),并提供可选后处理步骤。
- Result: 在ABC数据集上达到新的最先进水平,能有效泛化到真实传感器数据,对噪声和不同采样密度具有更好的鲁棒性。
- Conclusion: PI3DETR提供了一个简单而强大的3D边缘和曲线估计解决方案,通过端到端设计简化了处理流程并提高了性能。
[40] SynBT: High-quality Tumor Synthesis for Breast Tumor Segmentation by 3D Diffusion Model
Hongxu Yang,Edina Timko,Levente Lippenszky,Vanda Czipczer,Lehel Ferenczi
Main category: cs.CV
TL;DR: 提出SynBT模型,使用3D扩散模型在MRI图像中生成高质量乳腺肿瘤,通过潜在空间特征和掩码条件控制,提升肿瘤分割性能2-3% Dice分数
- Motivation: 现有肿瘤合成方法在大空间体积(如乳腺MRI大视场)中表现不佳,常用方法基于小图像块,需要更好的大视场肿瘤生成技术
- Method: 提出3D医学扩散模型SynBT,包含patch-to-volume自编码器压缩高分辨率MRI到潜在空间,使用掩码条件扩散模型在选定乳腺组织区域合成肿瘤
- Result: 在大型公共数据集上评估,该方法可使常见分割模型性能提升2-3% Dice分数
- Conclusion: SynBT能生成高质量乳腺肿瘤,为MRI图像中的肿瘤分割提供有益帮助
[41] PointAD+: Learning Hierarchical Representations for Zero-shot 3D Anomaly Detection
Qihang Zhou,Shibo He,Jiangtao Yan,Wenchao Meng,Jiming Chen
Main category: cs.CV
TL;DR: 基于CLIP的2D扩展能力,提出PointAD+统一框架,通过隐式和显式3D表征结合,实现对未见对象的3D异常检测与分割
- Motivation: 将CLIP在2D领域的健壮扩展能力转移到3D异常检测,以处理高度多样化类语义的未见对象
- Method: 首先设计PointAD(隐式3D表征),通过点-像素对应关系使用渲染像素表征检测3D异常。然后提出PointAD+(显式3D表征),通过G-aggregation涵盖几何信息强调空间异常关系,采用层次表征学习和跨层次对比对齐技术
- Result: 大量实验证明PointAD+在未见对象的零样本3D异常检测中体现优势,能够插件式集成RGB信息不断提升检测性能
- Conclusion: PointAD+通过统一框架综合点级和像素级信息,实现了对3D异常的全面理解,为处理高度多样化类语义的异常检测问题提供了有效解决方案
[42] Empowering Lightweight MLLMs with Reasoning via Long CoT SFT
Linyu Ou
Main category: cs.CV
TL;DR: 长思维链数据对于提升轻量级多模态语言模型(MLLMs)的推理能力至关重要,先进行监督微调(SFT)阶段,再进行强化学习(RL)阶段可显著提升性能
- Motivation: 探索验证奖励的强化学习在参数少于70亿的轻量级多模态语言模型中的有效性,以及长思维链数据在提升这类模型推理能力中的作用
- Method: 使用长思维链数据进行监督微调(SFT),然后在SFT基础上进行强化学习(RL)阶段
- Result: 长思维链数据的SFT显著提升MLLM推理能力,后续RL阶段可带来额外性能增益
- Conclusion: 使用长思维链数据的SFT阶段是开发轻量级MLLMs推理能力的关键前提条件
[43] Heatmap Guided Query Transformers for Robust Astrocyte Detection across Immunostains and Resolutions
Xizhe Zhang,Jiayang Zhu
Main category: cs.CV
TL;DR: 基于CNN-Transformer混合网络的星形细胞自动检测方法,结合局部特征提取和全局上下文理解,在ALDH1L1和GFAP染色数据集上较传统方法更准确地检测星形细胞。
- Motivation: 星形细胞的异常形态和密度是许多神经系统疾病的重要标志,但其复杂的分支结构和染色变异性使得自动检测极其困难。
- Method: 提出了一种混合CNN-Transformer检测器,结合局部特征提取与全局上下文理解。使用热力图引导查询机制生成空间基础锚点,并通过轻量Transformer模块提高在密集群中的识别能力。
- Result: 在ALDH1L1和GFAP染色的星形细胞数据集上,该模型一贯地超越了Faster R-CNN、YOLOv11和DETR,实现了更高的敏感性和更少的假阻性,FROC分析确认了这一结果。
- Conclusion: 混合CNN-Transformer架构在稳健的星形细胞检测方面具有强大潜力,为进阶计算病理学工具的发展奠定了基础。
[44] InfraDiffusion: zero-shot depth map restoration with diffusion models and prompted segmentation from sparse infrastructure point clouds
Yixiong Jing,Cheng Zhang,Haibing Wu,Guangming Wang,Olaf Wysocki,Brian Sheil
Main category: cs.CV
TL;DR: InfraDiffusion是一个零样本框架,通过虚拟相机将砖石点云转换为深度图,并使用DDNM进行恢复,无需特定任务训练即可提升深度图的视觉清晰度和几何一致性,显著改善了砖块级分割效果。
- Motivation: 现有研究主要从RGB图像进行砖块级分割,但在低光照环境下获取高分辨率图像不切实际。点云虽然对昏暗光照鲁棒,但通常非结构化、稀疏且有噪声,限制了细粒度分割。
- Method: 提出InfraDiffusion框架:1) 使用虚拟相机将砖石点云投影为深度图;2) 采用去噪扩散零空间模型(DDNM)进行恢复;3) 无需任务特定训练;4) 使用Segment Anything Model(SAM)进行砖块级分割。
- Result: 在砖石桥梁和隧道点云数据集上的实验表明,该方法在砖块级分割方面取得了显著改进,证明了其在砖石资产自动化检测中的潜力。
- Conclusion: InfraDiffusion通过点云到深度图的转换和扩散模型恢复,有效解决了低光照环境下砖石结构细粒度分割的挑战,为零样本基础设施监测提供了可行方案。
[45] Transformer-Guided Content-Adaptive Graph Learning for Hyperspectral Unmixing
Hui Chen,Liangyu Liu,Xianchao Xiu,Wanquan Liu
Main category: cs.CV
TL;DR: 提出T-CAGU框架,结合Transformer和自适应图神经网络,同时捕获全局依赖和局部一致性,提升高光谱解混性能
- Motivation: 现有深度学习方法难以同时表征全局依赖和局部一致性,无法兼顾长程交互和边界细节的保持
- Method: 使用Transformer捕获全局依赖,引入内容自适应图神经网络增强局部关系,集成多传播阶次动态学习图结构,采用图残差机制保持全局信息和训练稳定性
- Result: 实验结果表明优于最先进方法
- Conclusion: T-CAGU框架有效解决了高光谱解混中全局和局部特征同时保持的挑战
[46] TinyDrop: Tiny Model Guided Token Dropping for Vision Transformers
Guoxin Wang,Qingyuan Wang,Binhua Huang,Shaowu Chen,Deepu John
Main category: cs.CV
TL;DR: TinyDrop是一个无需训练、即插即用的token丢弃框架,通过轻量级视觉模型指导大型ViT模型选择性丢弃不重要token,可减少80%计算量且精度损失极小
- Motivation: Vision Transformers在图像分类中表现优异但计算成本高昂,需要在不牺牲精度的情况下降低大型ViT模型的推理成本
- Method: 使用轻量级视觉模型在推理时估计token重要性,选择性丢弃低重要性token,无需修改架构且兼容各种ViT模型
- Result: 在标准图像分类基准测试中,FLOPs减少高达80%,精度下降极小
- Conclusion: 该框架具有出色的泛化能力和实际应用价值,为高效ViT分类提供了实用解决方案
[47] Human Preference-Aligned Concept Customization Benchmark via Decomposed Evaluation
Reina Ishikawa,Ryo Fujii,Hideo Saito,Ryo Hachiuma
Main category: cs.CV
TL;DR: 提出了D-GPTScore评估方法和CC-AlignBench基准数据集,用于评估概念定制任务,特别是在多概念场景下,该方法与人类偏好具有更高相关性。
- Motivation: 现有评估方法在概念定制任务中要么过于狭窄要么过于泛化,与人类偏好存在偏差,特别是在评估多概念交互时缺乏有效方法。
- Method: 提出分解式GPT评分(D-GPTScore),将评估标准分解为更细粒度的方面,并使用多模态大语言模型进行方面级评估;同时发布了包含单概念和多概念任务的人类偏好对齐基准数据集。
- Result: 在CC-AlignBench基准上显著优于现有方法,与人类偏好表现出更高的相关性。
- Conclusion: 为概念定制评估建立了新标准,并指出了未来研究的关键挑战。
[48] Scalable and Loosely-Coupled Multimodal Deep Learning for Breast Cancer Subtyping
Mohammed Amer,Mohamed A. Suliman,Tu Bui,Nuria Garcia,Serban Georgescu
Main category: cs.CV
TL;DR: 这篇论文提出了一种可扩展的多模态框架,通过结合复制数量变异、临床记录和组织病理图像等多模态数据,显著提升了乳腺癌分子分型的性能。该框架设计为松耦合结构,可随意扩展模态而无需重新训练,具有广泛的应用前景。
- Motivation: 医疗应用本质上是多模态的,但不同临床环境中可用模态异越性较大。乳腺癌分子分型作为重要的临床任务,能够促进个性化治疗和改善病人预后,因此需要有效整合多模态数据来提升分型准确性。
- Method: 研究提出了一种可扩展的松耦合多模态框架,包括:1) 为全片图像(WSI)引入双重表征,结合传统图像基于和图象基于的表征方法;2) 新的多模态融合策略,能够在各种多模态条件下提升性能;3) 整合CNV、临床记录和组织病理图像等多模态数据。
- Result: 综合实验结果显示,通过集成双重WSI表征、CNV和临床健康记录,结合新的多模态融合策略,在乳腺癌分子分型任务上超过了现有的最先进方法,并在广泛的多模态条件下都显示出性能提升。
- Conclusion: 该研究提出的可扩展多模态框架不仅在乳腺癌分子分型中取得了显著成效,其松耦合设计还使得它能够轻松扩展到其他癌症类型,为医疗AI领域的多模态数据整合提供了一种灵活且高效的解决方案。
[49] Time-Scaling State-Space Models for Dense Video Captioning
AJ Piergiovanni,Ganesh Satish Mallya,Dahun Kim,Anelia Angelova
Main category: cs.CV
TL;DR: 通过时间缩放状态空间模型(SSMs)和转移状态技术,提出了一种可在线处理长视频的密集视频描述方法,减少计算复杂度和内存需求
- Motivation: 解决现有密集视频描述方法在处理长视频时遇到的计算复杂性和内存限制问题,以及无法进行在线处理的缺陷
- Method: 时间缩放状态空间模型(SSMs),结合转移状态技术,维持SSMs在长序列处理中的状态持久性
- Result: 方法能够在线生成描述,适合长视频处理,计算量减少7倍
- Conclusion: 该方法有效解决了密集视频描述中的长序列处理挑战,实现了高效的在线处理能力
[50] Decoding Visual Neural Representations by Multimodal with Dynamic Balancing
Kaili sun,Xingyu Miao,Bing Zhai,Haoran Duan,Yang Long
Main category: cs.CV
TL;DR: 通过整合EEG、图像和文本多模态数据,提出了一种能够从低信器比EEG信号中解码视觉神经表征的创新框架,在ThingsEEG数据集上实现了领先性能。
- Motivation: 解决从低信器比EEG信号中解码视觉神经表征的挑战,通过引入文本模态来增强EEG信号与视觉内容之间的语义对应关系。
- Method: 提出了一个多模态框架,包括:1)使用文本提供显式语义标签来对齐图像和EEG特征;2)设计适配器模块来利用预训练的视觉和文本表征;3)提出模态一致性动态平衡策略(MCDB)来调整各模态的贡献比重;4)使用随机扰动正则化(SPR)来增强模型的泛化能力。
- Result: 在ThingsEEG数据集上,方法在Top-1和Top-5准确率指标上都超过了之前的最优方法,分别提高了2.0%和4.7%。
- Conclusion: 该框架通过多模态整合和创新的正则化技术,有效地解码了来自低信器比EEG信号的视觉神经表征,为多模态神经科学研究提供了新的视角。
[51] Joint Training of Image Generator and Detector for Road Defect Detection
Kuan-Chuan Peng
Main category: cs.CV
TL;DR: JTGD是一种联合训练图像生成器和检测器的道路缺陷检测方法,专为边缘设备设计,不使用集成方法或测试时增强,参数量减少80%以上,在RDD2022基准测试中优于现有方法。
- Motivation: 针对道路缺陷检测在边缘设备部署时面临的内存和计算资源限制问题,需要开发轻量级且不使用集成方法或测试时增强的高效检测方案。
- Method: 提出JTGD方法,联合训练图像生成器和检测器:1)使用双判别器确保合成缺陷块和整体图像的真实性;2)提出基于CLIP的Fréchet Inception Distance损失提升图像质量;3)通过联合训练让生成器合成对检测器更具挑战性的样本。
- Result: 在RDD2022道路缺陷检测基准测试中,JTGD在不同国家的数据集上都优于最先进方法,同时参数量仅为竞争基线的20%以下,更适合边缘设备部署。
- Conclusion: JTGD通过联合训练生成器和检测器,成功实现了在资源受限环境下高效的道路缺陷检测,为实际边缘设备部署提供了可行的解决方案。
[52] Parameter-Efficient Adaptation of mPLUG-Owl2 via Pixel-Level Visual Prompts for NR-IQA
Yahya Benmahane,Mohammed El Hassouni
Main category: cs.CV
TL;DR: 提出了一种基于像素空间视觉提示的无参考图像质量评估参数高效适应方法,仅训练60万参数即可实现与全微调相当的性能
- Motivation: 传统全微调MLLM方法参数效率低,需要探索更高效的适应方法来解决低层视觉任务
- Method: 使用像素空间优化的视觉提示,通过加法与图像结合,仅训练少量参数(<0.01%),保持基础模型冻结
- Result: 在KADID-10k、KonIQ-10k和AGIQA-3k数据集上表现优异,KADID-10k达到0.93 SRCC,与全微调方法和专业NR-IQA模型竞争
- Conclusion: 首次将像素空间视觉提示应用于NR-IQA,证明了MLLM在低层视觉任务中的高效适应潜力
[53] OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation
Han Li,Xinyu Peng,Yaoming Wang,Zelin Peng,Xin Chen,Rongxiang Weng,Jingang Wang,Xunliang Cai,Wenrui Dai,Hongkai Xiong
Main category: cs.CV
TL;DR: OneCAT是一个统一的多模态模型,采用纯解码器Transformer架构,整合了理解、生成和编辑功能,无需外部视觉组件,通过MoE结构和多尺度自回归机制实现高效高性能。
- Motivation: 现有统一多模态模型通常依赖外部视觉组件(如ViT或视觉分词器),导致推理效率低下,特别是在高分辨率输入时。需要一种更简洁高效的架构来实现真正的统一多模态智能。
- Method: 提出纯解码器Transformer架构,使用模态特定的MoE结构,采用单一自回归目标训练,支持动态分辨率。在LLM中引入多尺度视觉自回归机制,大幅减少解码步骤。
- Result: 在多项基准测试中超越了现有开源统一多模态模型,在多模态生成、编辑和理解任务上均达到最先进性能,同时显著提升了推理效率。
- Conclusion: 纯自回归建模可以作为统一多模态智能的充分而优雅的基础,OneCAT为此设定了新的性能标准,展示了该方法的强大潜力。
[54] DeepSea MOT: A benchmark dataset for multi-object tracking on deep-sea video
Kevin Barnard,Elaine Liu,Kristine Walz,Brian Schlining,Nancy Jacobsen Stout,Lonny Lundsten
Main category: cs.CV
TL;DR: 开发了一个新的深海视频多目标跟踪基准数据集,用于评估目标检测模型和跟踪器性能,并提供了完整的工作流程和评估工具
- Motivation: 为深海视频中的多目标跟踪提供首个公开基准,便于研究人员评估模型检测和跟踪性能,实现模型间的公平比较和性能优化
- Method: 开发包含4个深海视频序列的新基准数据集,使用高阶跟踪精度指标评估多个目标检测模型和跟踪器的性能
- Result: 创建了首个公开的深海视频多目标跟踪基准,提供了基准数据、工作流程文档和Python代码示例
- Conclusion: 该研究填补了深海视频多目标跟踪基准的空白,为相关研究提供了重要的评估工具和标准化方法
[55] Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data
Honglu Zhou,Xiangyu Peng,Shrikant Kendre,Michael S. Ryoo,Silvio Savarese,Caiming Xiong,Juan Carlos Niebles
Main category: cs.CV
TL;DR: Strefer是一个合成指令数据生成框架,旨在为视频大语言模型提供时空参考和推理能力,通过伪标注密集时空元数据来增强模型对空间和时间参考的理解。
- Motivation: 现有视频大语言模型在细粒度时空推理方面存在不足,特别是在处理基于时间事件参考和手势线索的空间锚定时表现不佳,限制了AI伴侣在动态现实环境中的应用。
- Method: 使用数据引擎伪标注时间密集的细粒度视频元数据,以结构化方式捕获丰富的空间和时间信息,包括主体、对象、位置掩码、动作描述和时间线,生成多样化的指令调优数据。
- Result: 实验评估显示,使用Strefer生成数据训练的模型在需要空间和时间消歧的任务上优于基线模型,并展现出增强的时空感知推理能力。
- Conclusion: Strefer为感知基础的指令调优视频大语言模型建立了新基础,无需使用专有模型、昂贵的人工标注或大量新视频标注,即可显著提升模型的时空推理性能。
[56] A comprehensive Persian offline handwritten database for investigating the effects of heritability and family relationships on handwriting
Abbas Zohrevand,Javad Sadri,Zahra Imani
Main category: cs.CV
TL;DR: 本文介绍了一个用于研究遗传对笔迹影响的综合数据库,包含210个家庭的手写样本,旨在探索笔迹是否存在遗传成分和家族关系影响
- Motivation: 目前缺乏研究笔迹遗传特性的数据库,需要创建能够回答笔迹是否具有遗传成分、家族关系是否影响笔迹等问题的数据集
- Method: 收集210个家庭(包括祖父母、父母、叔伯姑姨、兄弟姐妹、堂表兄弟姐妹、侄子侄女等)的手写样本,包括数字、字母、形状和自由段落,使用专门设计的表格记录所有书写者的家族关系
- Result: 通过比较家族成员笔迹特征,检测到他们之间的书写风格和特征相似性,创建了目前首个此类数据库
- Conclusion: 该数据库免费提供给模式识别社区,有望为研究遗传和家族关系对笔迹影响的研究铺平道路
[57] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
Ouxiang Li,Yuan Wang,Xinting Hu,Huijuan Huang,Rui Chen,Jiarong Ou,Xin Tao,Pengfei Wan,Fuli Feng
Main category: cs.CV
TL;DR: T2I-CoReBench是一个全面的文本到图像生成基准测试,通过12维评估分类法评估组合和推理能力,包含1080个复杂提示和13500个检查问题,发现现有模型在复杂场景中组合能力有限,推理能力更是瓶颈
- Motivation: 现有T2I生成基准测试在评估组合和推理能力方面存在局限性,无法全面评估模型能力,且当前基准测试局限于低场景密度和简化的一对一推理
- Method: 构建包含1080个复杂提示的基准测试,围绕场景图元素(实例、属性、关系)构建组合能力评估,围绕哲学推理框架(演绎、归纳、溯因)构建推理能力评估,每个提示配有检查清单进行细粒度评估
- Result: 对27个当前T2I模型的实验显示,模型在复杂高密度场景中的组合能力仍然有限,推理能力更是严重滞后,所有模型都难以从提示中推断隐含元素
- Conclusion: T2I-CoReBench提供了一个全面复杂的评估框架,揭示了当前T2I模型在组合和推理能力方面的局限性,特别是推理能力是关键的瓶颈问题
cs.AI
[58] sam-llm: interpretable lane change trajectoryprediction via parametric finetuning
Zhuo Cao,Yunxiao Shi,Min Xu
Main category: cs.AI
TL;DR: SAM-LLM是一种混合架构,将大语言模型的上下文推理能力与运动学换道模型的物理精度相结合,用于自动驾驶中的可解释换道轨迹预测。
- Motivation: 为了解决传统坐标预测方法在自动驾驶轨迹预测中缺乏物理可解释性和计算效率低的问题,需要一种既能保持高精度又具备物理合理性的预测方法。
- Method: 通过微调大语言模型,使其输出轨迹模型的核心物理参数而非原始坐标。对于换道场景,模型生成增强正弦加速度模型(SAM)的参数,包括横向位移、机动持续时间、初始横向速度和纵向速度变化。
- Result: 实现了80%的输出尺寸缩减,整体意图预测准确率达到98.73%的state-of-the-art水平,在保持性能的同时显著提升了可解释性和资源效率。
- Conclusion: SAM-LLM成功地将LLM的上下文推理能力与物理模型的精度相结合,提供了一种连续、物理合理且计算高效的轨迹预测方法,为自动驾驶系统提供了更好的可解释性。
cs.LG
[59] Robult: Leveraging Redundancy and Modality Specific Features for Robust Multimodal Learning
Duy A. Nguyen,Abhi Kamboj,Minh N. Do
Main category: cs.LG
TL;DR: Robult是一个可扩展的多模态学习框架,通过信息论方法解决缺失模态和标签数据有限的问题,包含PU对比损失和潜在重构损失两个核心目标,在多种数据集上验证了优越性能。
- Motivation: 解决多模态学习中缺失模态和有限标注数据的关键挑战,提升鲁棒性。
- Method: 提出Robult框架,采用软正-无标签对比损失最大化任务相关特征对齐,以及潜在重构损失保留模态特定信息,模块化设计增强对不完整模态的鲁棒性。
- Result: 在多个数据集上的实验验证表明,Robult在半监督学习和缺失模态场景下均优于现有方法。
- Conclusion: Robult框架具有轻量级设计和良好可扩展性,能够无缝集成到现有架构中,适用于实际多模态应用。
physics.med-ph
[60] Application of Quantum Convolutional Neural Networks for MRI-Based Brain Tumor Detection and Classification
Sugih Pratama Nugraha,Ariiq Islam Alfajri,Tony Sumaryada,Duong Thanh Tai,Nissren Tamam,Abdelmoneim Sulieman,Sitti Yani
Main category: physics.med-ph
TL;DR: 该研究探索了量子卷积神经网络(QCNN)在脑肿瘤MRI图像分类中的应用,量子计算提升了计算效率。在3264张MRI图像数据集上,二分类准确率达89%,多分类准确率为62%。
- Motivation: 利用量子计算的优势提升脑肿瘤MRI图像分类的计算效率和准确性,探索量子机器学习在医疗影像领域的应用潜力。
- Method: 使用包含3264张MRI图像的数据集(含胶质瘤、脑膜瘤、垂体瘤和无肿瘤病例),采用80%训练20%测试划分,使用过采样技术处理类别不平衡。QCNN模型包含量子卷积层、展平层和全连接层,滤波器大小2,深度4,4个量子比特,训练10个epoch。
- Result: 二分类模型准确率从88%提升至89%(数据平衡后),多分类模型准确率从52%提升至62%(过采样后)。二分类表现良好,但多分类面临数据集复杂性和量子电路限制的挑战。
- Conclusion: QCNN在医疗影像特别是二分类任务中具有应用前景,但需要进一步优化量子电路架构和开发经典-量子混合方法,以提升多分类准确率和临床适用性。
[61] Toward a robust lesion detection model in breast DCE-MRI: adapting foundation models to high-risk women
Gabriel A. B. do Nascimento,Vincent Dong,Guilherme J. Cavalcante,Alex Nguyen,Thaís G. do Rêgo,Yuri Malheiros,Telmo M. Silva Filho,Carla R. Zeballos Torrez,James C. Gee,Anne Marie McCarthy,Andrew D. A. Maidment,Bruno Barufaldi
Main category: physics.med-ph
TL;DR: 基于预训练医学分割Transformer和KAN网络的精准乳腺病变MRI分析管道,在不均衡数据集上达到AUC 0.80的性能,同时保持可解释性。
- Motivation: 提高乳腺MRI病变检测的准确性对于早期癌症诊断至关重要,特别是在高风险人群中。需要建立突破传统卷积神经网络限制的突破性方法来处理不均衡和异质性临床数据集。
- Method: 采用预训练基础模型Medical Slice Transformer(MST)生成切片特征嵌入,然后训练Kolmogorov-Arnold网络(KAN)分类器。KAN通过适配性B样条激活函数实现局部非线性变换,提供灵活且可解释的分类方案。
- Result: 实验结果显示MST+KAN管道在不均衡临床数据集上较基线MST分类器更优,达到AUC = 0.80 ± 0.02,同时通过注意力热力图保持了模型的可解释性。
- Conclusion: 结合基础模型嵌入与先进分类策略能够构建健壮且可通用的乳腺MRI分析工具,KAN网络为传统卷积神经网络提供了灵活、可解释的替代方案。
eess.IV
[62] Pan-Cancer mitotic figures detection and domain generalization: MIDOG 2025 Challenge
Zhuoyan Shen,Esther Bär,Maria Hawkins,Konstantin Bräutigam,Charles-Antoine Collins-Fekete
Main category: eess.IV
TL;DR: 本文介绍了MIDOG 2025挑战赛的提交方案,通过发布两个新数据集和采用最新训练方法,在有丝分裂检测任务中取得了优异性能。
- Motivation: 解决组织病理学中有丝分裂检测的领域泛化问题,这对于癌症预后评估至关重要。遵循"Bitter Lesson"原则,强调数据规模比算法新颖性更重要。
- Method: 1. 公开发布两个新数据集(常规和非常规有丝分裂)来扩充训练数据;2. 为两个赛道实施最新的训练方法学
- Result: Track-1 F1分数达到0.8407(测试集),Track-2平衡准确率达到0.9107(非常规有丝分裂细胞分类)
- Conclusion: 通过大规模数据和现代训练方法的结合,在MIDOG 2025挑战赛的有丝分裂检测任务中实现了优异的性能表现,验证了数据规模的重要性。
[63] MitoDetect++: A Domain-Robust Pipeline for Mitosis Detection and Atypical Subtyping
Esha Sadia Nasir,Jiaqi Lv,Mostafa Jahanifer,Shan E Ahmed Raza
Main category: eess.IV
TL;DR: MitoDetect++是一个用于MIDOG 2025挑战赛的深度学习管道,能够同时进行有丝分裂检测和非典型有丝分裂分类,在验证域上达到0.892的平衡准确率。
- Motivation: 计算病理学中自动检测和分类有丝分裂图像,特别是区分非典型和正常有丝分裂,仍然是一个关键挑战。
- Method: 使用U-Net编码器-解码器架构(EfficientNetV2-L骨干)进行检测,Virchow2视觉变换器进行分类,采用LoRA微调、强数据增强、焦点损失和分层交叉验证。
- Result: 在验证域上实现了0.892的平衡准确率,证明了方法的临床适用性和跨任务可扩展性。
- Conclusion: 该方法在检测和分类有丝分裂方面表现出色,具有良好的泛化能力和临床实用性。
[64] Sequential Hard Mining: a data-centric approach for Mitosis Detection
Maxime W. Lafarge,Viktor H. Koelzer
Main category: eess.IV
TL;DR: 这篇论文采用受劳加技术启发的高效样本采样方法,以更好地利用大量有标注的有丝切裂图像数据集训练深度学习模型,并为MIDOG 2025挑战赛提供了解决方案。
- Motivation: 随着历史学图像中有丝切裂图标注数据集的持续增长,如何最优地利用这些大量数据来训练深度学习模型成为了新的挑战。
- Method: 基于之前提出的方法,采用受劳加技术启发的高效训练数据采样方法,为MIDOG 2025挑战赛的两个赨道提供候选解决方案。
- Result: 未在摘要中明确提供,但该方法目的是为了更有效地利用大规模标注数据来提高模型训练效果。
- Conclusion: 通过高效的数据采样策略,可以在有丝切裂检测任务中更好地利用越来越多的标注数据,为相关领域的深度学习模型训练提供有效解决方案。
[65] Normal and Atypical Mitosis Image Classifier using Efficient Vision Transformer
Xuan Qi,Dominic Labella,Thomas Sanford,Maxwell Lee
Main category: eess.IV
TL;DR: 使用EfficientViT-L2混合架构在MIDOG 2025挑战中实现非典型与正常有丝分裂分类,在13,938个癌细胞核数据集上获得0.859平衡准确率和0.942 ROC AUC
- Motivation: 解决MIDOG 2025挑战中的非典型与正常有丝分裂分类问题,评估模型在不同癌症类型间的泛化能力
- Method: 采用EfficientViT-L2混合CNN-ViT架构,使用留一癌症类型交叉验证和5折集成,通过染色反卷积进行图像增强
- Result: 在初步评估阶段获得平衡准确率0.859、ROC AUC 0.942和原始准确率0.85,表现出竞争性且均衡的性能
- Conclusion: EfficientViT-L2架构在非典型有丝分裂分类任务中表现出色,具有良好的跨域泛化能力和均衡的指标表现
[66] Ensemble of Pathology Foundation Models for MIDOG 2025 Track 2: Atypical Mitosis Classification
Mieko Ochi,Bae Yuan
Main category: eess.IV
TL;DR: 利用病理学基础模型和参数高效微调技术,通过鱼眼变换和傅里叶域适应增强有丝分裂识别,集成多个模型实现高精度分类
- Motivation: 非典型有丝分裂计数与肿瘤侵袭性密切相关,但即使是专家病理学家也难以准确区分典型和非典型有丝分裂,这对患者预后和资源分配至关重要
- Method: 使用在大型组织病理学数据集上预训练的病理学基础模型,采用低秩适应的参数高效微调方法,训练时应用鱼眼变换强调有丝分裂,并使用ImageNet目标图像进行傅里叶域适应,最后集成多个PFM模型
- Result: 在初步评估阶段数据集上获得了高平衡准确率
- Conclusion: 通过集成多个预训练病理学基础模型并结合先进的图像增强技术,能够有效提高典型和非典型有丝分裂的分类准确性
[67] Robust Pan-Cancer Mitotic Figure Detection with YOLOv12
Raphaël Bourgade,Guillaume Balezo,Thomas Walter
Main category: eess.IV
TL;DR: 基于YOLOv12的有杰图识别方法,在MIDOG 2025挑战赛中获得0.801的F1分数,不依赖外部数据
- Motivation: 有杰图是肿瘤病理学中关键的组织预后特征,但识别存在显著的观察者间差异,需要发展稳健的自动检测算法
- Method: 采用YOLOv12物体检测架构进行有杰图检测
- Result: 在MIDOG 2025挑战赛预测试验集上获得F1分数0.801
- Conclusion: 该方法在不使用外部数据的情况下展现了良好的有杰图检测性能
[68] ConvNeXt with Histopathology-Specific Augmentations for Mitotic Figure Classification
Hana Feki,Alice Blondel,Thomas Walter
Main category: eess.IV
TL;DR: 基于轻量级ConvNeXt架构的解决方案,通过多域数据训练和病理学特异性增强策略,在MIDOG 2025挑战赛中实现了0.8961的平衡准确率,证明了广泛域暴露对提高有丝分裂图像分类器准确性和泛化能力的重要性。
- Motivation: 准确分类有丝分裂图像对计算病理学至关重要,但区分非典型有丝分裂图像(AMFs)和正常有丝分裂图像(NMFs)存在挑战,包括形态差异小、类内变异大、域偏移、标注有限和类别不平衡等问题。
- Method: 使用轻量级ConvNeXt架构,在多个数据集(AMi-Br, AtNorM-Br, AtNorM-MD, OMG-Octo)上进行训练以最大化域覆盖,采用病理学特异性增强管道(包括弹性和染色特异性变换)和平衡采样来缓解类别不平衡,使用分组5折交叉验证策略进行可靠评估。
- Result: 在初步排行榜上,模型达到了0.8961的平衡准确率,排名靠前。
- Conclusion: 广泛域暴露结合针对性增强策略是构建准确且可泛化的有丝分裂图像分类器的关键。
[69] Solutions for Mitotic Figure Detection and Atypical Classification in MIDOG 2025
Shuting Xu,Runtong Liu,Zhixuan Chen,Junlin Hou,Hao Chen
Main category: eess.IV
TL;DR: 提出两阶段检测-分类框架用于有丝分裂检测,集成多模型用于非典型有丝分裂分类,在MIDOG 2025挑战中表现有效
- Motivation: 深度学习在计算病理学有丝分裂分析中取得显著进展,需要解决有丝分裂检测和非典型有丝分裂分类的领域泛化问题
- Method: 有丝分裂检测采用两阶段框架:先定位候选有丝分裂图像,再用分类模块精炼预测;非典型有丝分裂分类采用集成策略整合多个先进深度学习架构
- Result: 大量实验证明所提方法在两个任务中都有效
- Conclusion: 提出的两阶段检测-分类框架和集成策略在MIDOG 2025挑战的两个任务中展现出良好的效果
[70] RF-DETR for Robust Mitotic Figure Detection: A MIDOG 2025 Track 1 Approach
Piotr Giedziun,Jan Sołtysik,Mateusz Górczany,Norbert Ropiak,Marcin Przymus,Piotr Krajewski,Jarosław Kwiecień,Artur Bartczak,Izabela Wasiak,Mateusz Maniewski
Main category: eess.IV
TL;DR: 本文针对MIDOG 2025挑战赛Track 1,提出基于RF-DETR的单阶段有丝分裂检测方法,通过硬负样本挖掘解决组织病理学图像中的域偏移问题,在初步测试集上获得0.789的F1分数。
- Motivation: 解决组织病理学图像中有丝分裂检测在不同扫描仪、染色方案和组织类型间存在的显著域偏移挑战,提升检测模型的泛化能力。
- Method: 采用RF-DETR(Roboflow Detection Transformer)单阶段检测框架,结合硬负样本挖掘技术,在MIDOG++数据集上进行训练。
- Result: 在初步测试集上达到F1分数0.789,召回率0.839,精确率0.746,显示出对未见域的良好泛化性能。
- Conclusion: 训练数据平衡和硬负样本挖掘对于解决有丝分裂检测中的域偏移问题至关重要,单阶段检测方法在时间受限情况下仍能取得良好效果。
[71] Team Westwood Solution for MIDOG 2025 Challenge
Tengyou Xu,Haochen Yang,Xiang 'Anthony' Chen,Hongyan Gu,Mohammad Haeri
Main category: eess.IV
TL;DR: 团队Westwood在MIDOG 2025挑战赛中提出的有丝分裂检测和非典型有丝分裂分类解决方案,使用nnUNetV2进行初始候选筛选,然后通过随机森林集成多个CNN模型的预测结果
- Motivation: 解决MIDOG 2025挑战赛中的有丝分裂检测和非典型有丝分裂分类问题,提高检测准确性和分类性能
- Method: 1. 有丝分裂检测:nnUNetV2进行初始高灵敏度候选筛选 + 随机森林集成EfficientNet-b3/b5/V2-s三个CNN模型的预测
- 非典型有丝分裂分类:随机森林集成EfficientNet-b3/b5和InceptionV3三个CNN模型的预测
- Result: 在初步测试集上:
- 赛道1有丝分裂检测F1分数:0.7450
- 赛道2非典型有丝分裂分类平衡准确率:0.8722
- Conclusion: 提出的集成学习方法在MIDOG 2025挑战赛中取得了良好的性能表现,证明了nnUNetV2与随机森林集成多个CNN模型的有效性
[72] Foundation Model-Driven Classification of Atypical Mitotic Figures with Domain-Aware Training Strategies
Piotr Giedziun,Jan Sołtysik,Mateusz Górczany,Norbert Ropiak,Marcin Przymus,Piotr Krajewski,Jarosław Kwiecień,Artur Bartczak,Izabela Wasiak,Mateusz Maniewski
Main category: eess.IV
TL;DR: 基于H-optimus-0病理基础模型,采用LoRA微调和MixUp增强的方法解决MIDOG 2025挑战赛中的正常与异常有丝分裂图像二分类问题
- Motivation: 解决病理图像中正常有丝分裂(NMFs)与异常有丝分裂(AMFs)的复杂二分类任务,探索基础模型在此类医学图像分析中的应用潜力
- Method: 选择H-optimus-0病理基础模型,采用LoRA低秩适应微调、MixUp数据增强,结合多专家共识软标签、难负样本挖掘、自适应焦点损失、度量学习和域适应技术
- Result: 在初步评估阶段取得了合理的性能表现,证明了基础模型在此复杂分类任务中的应用前景
- Conclusion: 该方法展示了基础模型在复杂医学图像分类任务中的潜力和挑战,为病理图像分析提供了有前景的技术路线
[73] Is Synthetic Image Augmentation Useful for Imbalanced Classification Problems? Case-Study on the MIDOG2025 Atypical Cell Detection Competition
Leire Benito-Del-Valle,Pedro A. Moreno-Sánchez,Itziar Egusquiza,Itsaso Vitoria,Artzai Picón,Cristina López-Saratxaga,Adrian Galdran
Main category: eess.IV
TL;DR: MIDOG 2025挑战赛新增非典型有丝分裂分类任务,研究比较了ImageNet预训练的ConvNeXt和病理学自监督预训练的ViT模型,在高度不平衡数据上达到约95%的AUROC,发现合成数据平衡效果有限。
- Motivation: 解决组织病理学图像中正常与非典型有丝分裂细胞的分类问题,这是一个临床相关但高度不平衡且跨域的挑战性任务。
- Method: 使用两种骨干网络:ImageNet预训练的ConvNeXt-Small和病理学自监督预训练的Lunit ViT;采用五折交叉验证;通过合成数据平衡类别分布(9408正常 vs 1741非典型)。
- Result: 两种模型均达到强性能(平均AUROC约95%),ConvNeXt峰值略高但Lunit更稳定;合成平衡未带来一致改进;在隐藏测试集上ConvNeXt达到95.4% AUROC。
- Conclusion: ImageNet和领域预训练骨干网络都适用于非典型有丝分裂分类,领域预训练提供鲁棒性而ImageNet预训练能达到更高峰值,简单的合成数据平衡效果有限。
[74] Challenges and Lessons from MIDOG 2025: A Two-Stage Approach to Domain-Robust Mitotic Figure Detection
Euiseop Song,Jaeyoung Park,Jaewoo Park
Main category: eess.IV
TL;DR: 本文介绍了参与MIDOG 2025挑战赛的两阶段有丝分裂图像检测方法,使用Faster R-CNN进行候选检测,结合三个分类器集成进行假阳性过滤,获得高召回率但低精度的结果
- Motivation: 解决计算病理学中有丝分裂图像检测面临的领域变异性和形态复杂性挑战,开发跨不同组织领域的鲁棒检测方法
- Method: 两阶段流水线:Faster R-CNN用于候选检测,DenseNet-121、EfficientNet-v2、InceptionResNet-v2三个分类器集成进行假阳性过滤
- Result: 最佳提交获得F1-score 0.2237(召回率95.28%,精确率12.67%),高召回率显示有效检测,但极低精确率表明区分真伪有丝分裂的挑战
- Conclusion: 研究揭示了领域泛化在组织病理学中的复杂性,强调需要有效的假阳性抑制策略来开发鲁棒的有丝分裂检测算法
[75] A Single Detect Focused YOLO Framework for Robust Mitotic Figure Detection
Yasemin Topuz,M. Taha Gökcan,Serdar Yıldız,Songül Varlı
Main category: eess.IV
TL;DR: SDF-YOLO是一个轻量级且具有领域鲁棒性的检测框架,专门用于小且罕见的目标(如有丝分裂图形)检测,在多个数据集上表现出色。
- Motivation: 有丝分裂图形检测是计算病理学中的关键任务,但扫描仪、组织类型和染色方案的差异导致的领域变异性对自动化检测方法的鲁棒性构成了重大挑战。
- Method: 基于YOLOv11构建,进行了任务特定的修改,包括与有丝分裂图形尺度对齐的单一检测头、增强位置敏感性的坐标注意力机制以及改进的跨通道特征混合。
- Result: 在MIDOG2025挑战赛的初步测试集上,SDF-YOLO实现了0.799的平均精度(AP),精度0.758,召回率0.775,F1分数0.766,FROC-AUC为5.793。
- Conclusion: SDF-YOLO提供了一个可靠且高效的框架,能够在不同领域中实现鲁棒的有丝分裂图形检测,具有竞争性的准确性和计算效率。
[76] Adaptive Learning Strategies for Mitotic Figure Classification in MIDOG2025 Challenge
Biwen Meng,Xi Long,Jingxin Liu
Main category: eess.IV
TL;DR: 本研究通过三种方法改进UNI2-h病理基础模型来检测非典型有丝分裂图像,发现视觉提示调优(VPT)结合染色标准化测试时增强(TTA)效果最佳,在MIDOG2025挑战赛中取得top10成绩。
- Motivation: 非典型有丝分裂图像(AMFs)是异常细胞分裂的重要临床指标,但由于形态学模糊性和扫描仪变异性,其可靠检测仍然具有挑战性。
- Method: 研究了三种UNI2-h模型变体:LoRA基线方法、视觉提示调优(VPT)、以及VPT结合Vahadane和Macenko染色标准化的测试时增强(TTA)。
- Result: 最终提交在初步排行榜上获得0.8837的平衡准确率和0.9513的ROC-AUC,排名前10团队。
- Conclusion: 基于提示的适应方法结合染色标准化TTA为不同成像条件下的非典型有丝分裂分类提供了有效策略。
[77] Ensemble YOLO Framework for Multi-Domain Mitotic Figure Detection in Histopathology Images
Navya Sri Kelam,Akash Parekh,Saikiran Bonthu,Nitin Singhal
Main category: eess.IV
TL;DR: 使用YOLOv5和YOLOv8两种一阶检测器进行有线分裂图检测,通过集成学习结合两者优势,提高了自动化检测的效果
- Motivation: 解决组织切片图像中有线分裂图检测的挑战,包括稀缺性、形态异质性和染色变异等问题
- Method: 使用YOLOv5和YOLOv8在MIDOG++、CMC、CCMCT数据集上训练,采用染色不变颜色扰动和纹理保存增帽技术,最后使用集成学习结合两种模型
- Result: YOLOv5在精度上表现更优,YOLOv8在召回率上更好;集成模型在保持精度的同时提高了敏感性
- Conclusion: 基于现代物体检测器的集成策略能够有效提升数字病理学中有线分裂图自动检测的性能
[78] Deep Self-knowledge Distillation: A hierarchical supervised learning for coronary artery segmentation
Mingfeng Lin
Main category: eess.IV
TL;DR: 这篇论文提出了一种深度自我知识萌荘方法,通过层次输出监督来改善冠状动脉分割的性能和普遍性。
- Motivation: 现有冠状动脉分割方法存在性能差、普遍性有限的问题,并且当前的知识萌荘方法没有充分利用模型的层次知识,导致信息浪费和模型性能提升不足。
- Method: 提出Deep Self-knowledge Distillation方法,结合深度分布损失和像素级自我知识萌荘损失,通过层次学习策略增强学生模型的分割性能。方法结合松弛约束的概率分布向量和严格约束的像素级监督。
- Result: 在XCAD和DCA1数据集上的实验表明,该方法在dice系数、准确度、敏感性和IoU指标上都超过了其他比较模型。
- Conclusion: 该方法通过层次知识分布和双重正则化策略,有效提升了冠状动脉分割模型的性能、普遍性和稳健性。
[79] Prompt-Guided Patch UNet-VAE with Adversarial Supervision for Adrenal Gland Segmentation in Computed Tomography Medical Images
Hania Ghouse,Muzammil Behzad
Main category: eess.IV
TL;DR: 提出结合变分重建、监督分割和对抗性补丁反馈的统一框架,用于解决小尺寸不规则形状腹部器官(如肾上腺)CT图像分割中的类别不平衡、空间上下文差和标注数据有限的问题。
- Motivation: 小尺寸不规则形状腹部器官(如肾上腺)在CT图像中的分割面临严重类别不平衡、空间上下文信息不足和标注数据有限等挑战,需要新的方法来提高分割准确性。
- Method: 基于VAE-UNet骨干网络,联合重建输入补丁并生成体素级分割掩码;引入基于补丁的训练流程,选择性注入从学习潜在空间生成的合成补丁;使用VGG特征的感知重建损失和PatchGAN判别器进行对抗监督。
- Result: 在BTCV数据集上的综合实验表明,该方法提高了分割准确性,特别是在边界敏感区域,同时保持了良好的重建质量。
- Conclusion: 混合生成-判别训练机制对小器官分割有效,为在数据稀缺场景中平衡真实性、多样性和解剖一致性提供了新见解。
[80] Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics
Yukun Zhou,Paul Nderitu,Jocelyn Hui Lin Goh,Justin Engelmann,Siegfried K. Wagner,Anran Ran,Hongyang Jiang,Lie Ju,Ke Zou,Sahana Srinivasan,Hyunmin Kim,Takahiro Ninomiya,Zheyuan Wang,Gabriel Dawei Yang,Eden Ruffell,Dominic Williamson,Rui Santos,Gabor Mark Somfai,Carol Y. Cheung,Tien Yin Wong,Daniel C. Alexander,Yih Chung Tham,Pearse A. Keane
Main category: eess.IV
TL;DR: 通过系统性评估发现,虽然通用基础模型通过扩大规模体现出强大适应性,但领域专门的视网膜基础模型RETFound-DINOv2在眼部疾病检测和眼科学任务中仍然表现更优,具有更强的通用性和数据效率。
- Motivation: 识别通用基础模型与领域专门模型在医学领域的性能差距,明确领域特定预训练的必要性和相对优势。
- Method: 系统性评估DINOv2和DINOv3在视网膜图像应用中的适应性,与专业模型RETFound-MAE和RETFound-DINOv2进行对比,采用细调和线性探针两种适应策略,并分析数据效率和适应效率。
- Result: RETFound-DINOv2在眼部疾病检测和眼科学任务中一贵表现更优,显示出更强的通用性和数据效率,而通用模型与专业模型的性能差距正在缩小。
- Conclusion: 专业的视网膜基础模型仍是临床应用的最佳选择,但通用模型通过持续扩大数据和模型规模也能获得领域相关收益,有望成为未来医学基础模型的强大基础。
cs.CL
[81] ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly
Kimihiro Hasegawa,Wiradee Imrattanatrai,Masaki Asada,Susan Holm,Yuran Wang,Vincent Zhou,Ken Fukuda,Teruko Mitamura
Main category: cs.CL
TL;DR: 提出了一个新的多模态QA数据集ProMQA-Assembly,包含391个问答对,用于评估装配活动中的多模态理解能力,通过半自动化标注方法创建,并展示了当前模型的改进空间。
- Motivation: 目前缺乏支持装配任务中应用导向系统评估的测试平台,需要促进装配助手的发展。
- Method: 采用半自动化QA标注方法,使用LLM生成候选问题并由人工验证,集成细粒度动作标签来多样化问题类型,创建指令任务图来辅助标注和基准测试。
- Result: 构建了包含391个QA对的数据集,基准测试显示当前多模态模型仍有很大改进空间。
- Conclusion: 新的评估数据集ProMQA-Assembly可以促进程序性活动助手的发展,为装配任务的多模态理解提供重要基准。
cs.HC
[82] EclipseTouch: Touch Segmentation on Ad Hoc Surfaces using Worn Infrared Shadow Casting
Vimal Mollyn,Nathan DeVrio,Chris Harrison
Main category: cs.HC
TL;DR: 提出了一种名为\systemname的头戴式集成技术,使用计算机触发相机和红外发射器创建结构化阴影,能够准确检测日常表面上的触摸事件,平均悬停距离误差6.9mm,触摸接触准确率98.0%
- Motivation: 检测非仪器化日常表面上的触摸事件是混合现实系统的长期目标,虚拟界面绑定到物理表面相比空中点击具有性能和人体工程学优势
- Method: 使用计算机触发相机和一个或多个红外发射器创建结构化阴影,通过阴影分析估计悬停距离和触摸接触
- Result: 平均悬停距离误差6.9mm,触摸接触准确率达到98.0%,在各种条件下都能工作,包括不同表面材料、交互方向和环境光照
- Conclusion: \systemname技术为混合现实系统提供了一种有效的头戴式触摸检测解决方案,在多种实际条件下都能保持高精度性能
[83] SmartPoser: Arm Pose Estimation with a Smartphone and Smartwatch Using UWB and IMU Data
Nathan DeVrio,Vimal Mollyn,Chris Harrison
Main category: cs.HC
TL;DR: 使用普通智能手机和智能手表通过UWB和悬坐仪数据经济地进行臂膀踪踪
- Motivation: 解决传统手膀踪踪方案需要摄像头(隐私问题)或多个IMU设备(复杂)的问题
- Method: 结合智能手机和智能手表的IMU数据以及UWB技术测量绝对距离,充分利用两种数据的优势
- Result: 进行手膀踪踪时手腕和肘关节位置的中位数误差仅11.0cm
- Conclusion: 这种无需训练数据、使用普通消费级设备的方案为手膀踪踪提供了一种简单、保护隐私的解决方案
cs.RO
[84] Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey
Rui Shao,Wei Li,Lingsen Zhang,Renshan Zhang,Zhiyang Liu,Ran Chen,Liqiang Nie
Main category: cs.RO
TL;DR: 这是一份关于基于大视觉-语言模型的视觉-语言-动作模型在机器人操控领域的系统性调研报告,包含架构分析、技术集成和未来方向的综述。
- Motivation: 传统的规则基础方法在无结构化环境中缺乏扩展性和通用性,而基于大视觉-语言模型的VLA模型为机器人操控带来了变革性的解决方案。
- Method: 采用系统性的分类学方法,定义了单一系统和双系统设计的单体模型,以及通过可解释中间表示解耦规划与执行的层次模型。深入分析了与强化学习、无训练优化、从人类视频学习等领域的集成。
- Result: 该调研整合了最新进展,解决了现有分类学中的不一致性,减轻了研究分散性,并通过系统集成大型VLM与机器人操控的研究填补了关键空白。
- Conclusion: 大型VLM基础的VLA模型为机器人操控领域提供了变革性的解决方案,未来的研究方向包括内存机制、4D感知、高效适应、多代理体合作等新兴能力。
[85] DUViN: Diffusion-Based Underwater Visual Navigation via Knowledge-Transferred Depth Features
Jinghe Yang,Minh-Quan Le,Mingming Gong,Ye Pu
Main category: cs.RO
TL;DR: 提出DUViN方法,通过知识迁移的深度特征实现水下视觉导航,无需预建地图即可进行4自由度运动控制,解决了水下数据收集困难的问题。
- Motivation: 水下自主导航面临传感能力有限和水下环境建图困难的挑战,需要开发不依赖预建地图的视觉导航方法,同时解决水下大规模数据集收集困难的问题。
- Method: 采用两阶段训练框架:首先在空气中数据集上使用预训练深度特征提取器训练扩散式视觉导航策略;然后在深度估计任务上重新训练提取器,并将其集成到已训练的导航策略中。
- Result: 在模拟和真实水下环境中的实验证明了该方法的有效性和泛化能力。
- Conclusion: DUViN方法通过知识迁移策略成功实现了从空气到水下环境的域适应,为水下视觉导航提供了一种有效的解决方案。
[86] Uncertainty-aware Test-Time Training (UT ) for Efficient On-the-fly Domain Adaptive Dense Regression
Uddeshya Upadhyay
Main category: cs.RO
TL;DR: 提出了UT³框架,通过不确定性感知的自监督任务实现高效测试时训练,在保持性能的同时显著降低推理时间,适用于资源受限的实时应用。
- Motivation: 深度神经网络在领域偏移下泛化能力差,现有测试时训练方法虽然能适应新测试分布,但推理时间大幅增加,不适用于资源受限的实时机器人应用。
- Method: 提出不确定性感知的自监督任务,利用量化不确定性选择性地应用训练,减少测试时训练频率,同时提供连续设置让用户控制训练频率。
- Result: 在单目深度估计任务上验证,推理时间显著改善,性能与标准测试时训练相当。
- Conclusion: UT³框架在保持测试时训练性能优势的同时,大幅降低了推理时间,适合实时应用部署。
[87] Efficient Active Training for Deep LiDAR Odometry
Beibei Zhou,Zhiyuan Zhang,Zhenbo Song,Jianhui Guo,Hui Kong
Main category: cs.RO
TL;DR: 主动训练框架通过简洁数据选择提升深度LiDAR测程模型的效率和稳健性,仅需52%数据即达到全数据集训练效果
- Motivation: 解决深度LiDAR测程模型需要大量多样化训练数据才能适应不同环境的效率问题
- Method: 采用初始训练集选择(ITSS)和主动增量选择(AIS)两种策略,ITSS通过轨迹分析选择多样序列,AIS利用场景重建和预测不一致性选择复杂场景样本
- Result: 在多种数据集和天气条件下验证有效,仅需52%序列数据即可达到全数据集训练的性能水平
- Conclusion: 该主动训练框架能够优化训练过程,为更灵活可靠的LiDAR测程系统奠定基础
Powered by Deepseek & arXiv Daily AI Enhanced