Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] A 96pJ/Frame/Pixel and 61pJ/Event Anti-UAV System with Hybrid Object Tracking Modes
Yuncheng Lu,Yucen Shi,Aobo Li,Zehao Li,Junying Li,Bo Wang,Tony Tae-Hyoung Kim
Main category: cs.CV
TL;DR: 提出一种能效优化的反无人机系统,集成帧基与事件驱动目标跟踪,通过自适应模式切换和专用硬件架构实现高效的小型快速无人机检测。
- Motivation: 传统反无人机系统在检测小型快速移动无人机时面临能效挑战,需要同时处理高帧率图像和事件数据,现有方案计算冗余大,难以在资源受限的嵌入式设备上实现实时可靠检测。
- Method: 1) 使用游程编码重建二进制事件帧并生成区域提议;2) 基于目标大小和速度自适应切换帧模式与事件模式;3) 快速目标跟踪单元通过自适应阈值和轨迹分类提高鲁棒性;4) 神经处理单元支持灰度块和轨迹推理,采用自定义指令集和零跳过MAC架构减少97%以上冗余计算。
- Result: 采用40nm CMOS工艺的2mm²芯片在0.8V电压下实现每帧每像素96pJ和每个事件61pJ的能效,在公共无人机数据集上达到98.2%识别准确率,支持50-400米距离和5-80像素/秒速度范围,展示了最先进的端到端能效。
- Conclusion: 该集成帧基与事件驱动的反无人机系统通过硬件软件协同优化,在保持高检测精度的同时显著降低能耗,为资源受限的嵌入式无人机检测应用提供了高效解决方案。
[2] NystagmusNet: Explainable Deep Learning for Photosensitivity Risk Prediction
Karthik Prabhakar
Main category: cs.CV
TL;DR: NystagmusNet:基于AI的系统,通过双分支CNN预测光敏风险环境并提供实时视觉适应建议,准确率达75%,集成可解释性技术增强临床信任
- Motivation: 眼球震颤患者的光敏性问题严重,现有解决方案缺乏预测性和个性化,需要智能系统来预测高风险视觉环境并提供实时适应建议
- Method: 使用双分支卷积神经网络,基于合成和增强数据集训练,结合环境亮度和眼球运动方差估计光敏风险评分,集成SHAP和GradCAM可解释性技术,包含基于规则的推荐引擎
- Result: 在合成数据上达到75%的验证准确率,能够识别环境风险区域,提供自适应滤镜建议,增强模型可解释性和临床信任度
- Conclusion: NystagmusNet为眼球震颤患者提供了有效的AI驱动解决方案,未来将通过智能眼镜部署和强化学习实现更个性化的推荐
[3] SuperFlow: Training Flow Matching Models with RL on the Fly
Kaijie Chen,Zhiyang Xu,Ying Shen,Zihao Lin,Yuguang Yao,Lifu Huang
Main category: cs.CV
TL;DR: SuperFlow提出了一种用于流式生成模型的强化学习训练框架,通过方差感知采样调整组大小和计算与连续时间流动态一致的步级优势,显著提高了训练效率和性能。
- Motivation: 当前流式生成模型的强化学习训练存在两个主要问题:1)GRPO风格的固定每提示组大小忽略了不同提示间采样重要性的变化,导致采样效率低下和训练缓慢;2)轨迹级优势被重用为每步估计,导致沿流的信用分配偏差。
- Method: SuperFlow采用方差感知采样动态调整组大小,并计算与连续时间流动态一致的步级优势,改进了流式生成模型的强化学习训练框架。
- Result: SuperFlow仅需原始训练步数的5.4%到56.3%,减少训练时间5.2%到16.7%,无需架构更改。在文本渲染、组合图像生成和人类偏好对齐等标准T2I任务上,比SD3.5-M提升4.6%到47.2%,比Flow-GRPO提升1.7%到16.0%。
- Conclusion: SuperFlow通过更高效的采样策略和更准确的信用分配机制,显著提升了流式生成模型的强化学习训练效率和性能,为文本到图像生成任务提供了有效的训练框架。
[4] Seeing Beyond the Scene: Analyzing and Mitigating Background Bias in Action Recognition
Ellie Zhou,Jihoon Chung,Olga Russakovsky
Main category: cs.CV
TL;DR: 论文系统分析了视频动作识别中的背景偏见问题,发现各类模型都存在依赖背景而非人体动作进行预测的倾向,并提出了针对分类模型和VLLM的缓解策略。
- Motivation: 人类动作识别模型经常依赖背景线索而非人体运动和姿态进行预测,这种背景偏见问题需要系统分析和解决。
- Method: 1. 系统分析分类模型、对比文本-图像预训练模型和视频大语言模型中的背景偏见;2. 针对分类模型提出使用分割人体输入的方法;3. 探索手动和自动提示调优来引导VLLM进行人体聚焦推理。
- Result: 1. 所有模型都表现出强烈的背景推理倾向;2. 分割人体输入使分类模型的背景偏见降低3.78%;3. 提示设计使VLLM的人体聚焦推理提升9.85%。
- Conclusion: 背景偏见是动作识别模型的普遍问题,通过分割人体输入和提示调优可以有效缓解这一问题,引导模型进行更准确的人体动作推理。
[5] SCS-SupCon: Sigmoid-based Common and Style Supervised Contrastive Learning with Adaptive Decision Boundaries
Bin Wang,Fadi Dornaika
Main category: cs.CV
TL;DR: 提出SCS-SupCon框架,通过sigmoid对比损失和风格距离约束,解决细粒度图像分类中类间差异小、类内变化大的问题,在多个数据集上实现SOTA性能。
- Motivation: 现有对比学习方法在细粒度图像分类中存在局限性:监督对比学习基于InfoNCE损失,存在负样本稀释问题,缺乏自适应决策边界,导致在类间差异小、类内变化大的场景下判别能力不足。
- Method: 提出SCS-SupCon框架:1)引入基于sigmoid的成对对比损失,包含可学习的温度和偏置参数,实现自适应决策边界,强调困难负样本,缓解负样本稀释;2)添加显式的风格距离约束,解耦风格和内容表示,增强特征鲁棒性。
- Result: 在6个基准数据集(包括CUB200-2011和Stanford Dogs)上取得SOTA性能。在CIFAR-100+ResNet-50上,相比SupCon提升约3.9个百分点,相比CS-SupCon提升约1.7个百分点。在细粒度数据集上,比CS-SupCon提升0.4-3.0个百分点。消融实验和统计分析验证了框架的鲁棒性和泛化能力。
- Conclusion: SCS-SupCon通过自适应决策边界和风格-内容解耦,有效解决了细粒度图像分类中的挑战,在CNN和Transformer骨干网络上都表现出优越性能,为监督对比学习提供了更有效的框架。
[6] A Modular Framework for Single-View 3D Reconstruction of Indoor Environments
Yuxiao Li
Main category: cs.CV
TL;DR: 提出一个基于扩散技术的模块化单视图室内场景3D重建框架,通过分步处理解决复杂实例形状和遮挡问题,在3D-Front数据集上超越现有方法。
- Motivation: 传统单视图室内场景3D重建方法难以处理复杂的实例形状和遮挡问题,直接从残缺的2D图像预测3D形状会导致重建质量受限。需要一种能有效处理遮挡并提升重建质量的方法。
- Method: 采用模块化框架,分两步处理:1) 使用扩散技术预测完整的房间背景和被遮挡实例的全视图;2) 将其转换为3D。框架包含四个核心模块:用于恢复遮挡实例完整视图的amodal补全模块、专门预测房间布局的修复模型、平衡几何精度与细节表达的混合深度估计技术、利用2D和3D线索确保实例精确放置的视图空间对齐方法。
- Result: 在3D-Front数据集上的大量实验表明,该方法在视觉质量和重建精度方面均优于当前最先进方法,能有效从单张图像重建前景实例和房间背景。
- Conclusion: 该模块化框架通过分步处理和扩散技术的应用,有效解决了室内场景3D重建中的遮挡和形状复杂性问题,在室内设计、房地产和增强现实等领域具有应用潜力。
[7] Enhancing Tea Leaf Disease Recognition with Attention Mechanisms and Grad-CAM Visualization
Omar Faruq Shikdar,Fahad Ahammed,B. M. Shahria Alam,Golam Kibria,Tawhidur Rahman,Nishat Tasnim Niloy
Main category: cs.CV
TL;DR: 该研究开发了一个基于深度学习的茶叶病害自动分类系统,使用集成模型达到85.68%的准确率,并引入可解释AI提高模型透明度。
- Motivation: 茶叶是全球广泛消费的饮品,茶叶病害会导致严重经济损失。传统人工识别方法效率低、耗时长且成功率无保障,需要自动化解决方案来及时识别病害,帮助农民减少损失。
- Method: 1. 创建包含5278张图像、7个类别的新数据集;2. 对数据进行预处理;3. 部署DenseNet、Inception和EfficientNet预训练模型;4. 使用两个注意力模块提升性能;5. 构建集成模型;6. 引入可解释AI技术提高模型可解释性。
- Result: 集成模型取得了最高的85.68%准确率,证明了自动化系统在茶叶病害分类中的有效性。
- Conclusion: 该研究成功开发了一个能够自动分类茶叶病害的系统,为农民提供了及时识别病害的工具,有助于减少经济损失。系统结合了深度学习、注意力机制和可解释AI技术,具有实用价值。
[8] Name That Part: 3D Part Segmentation and Naming
Soumava Paul,Prakhar Kaushik,Ankit Vaidya,Anand Bhattad,Alan Yuille
Main category: cs.CV
TL;DR: ALIGN-Parts:一种将3D物体分解为语义部件并进行命名的对齐方法,通过几何、外观和语义线索实现开放词汇匹配,创建了统一部件本体并提出了新评估指标。
- Motivation: 现有3D部件分割数据集标注不一致,限制了鲁棒训练;先前方法只能生成未标记分解或检索单个部件,缺乏完整形状标注。需要一种能够为3D部件提供有意义名称的统一方法。
- Method: 提出ALIGN-Parts方法,将部件命名建模为直接集合对齐任务。将形状分解为partlets(隐式3D部件表示),通过二分图分配匹配部件描述。结合3D部件场的几何线索、多视角视觉特征的外观信息,以及语言模型生成的affordance描述的语义知识。文本对齐损失确保partlets与文本共享嵌入空间。
- Result: 创建了统一本体,对齐了PartNet、3DCoMPaT++和Find3D数据集,包含1,794个独特3D部件。展示了新创建的Tex-Parts数据集示例。提出了2个适合命名3D部件分割任务的新评估指标。模型支持零样本匹配任意描述,并为已知类别提供置信度校准预测。
- Conclusion: ALIGN-Parts是一种高效、新颖的一次性3D部件分割和命名方法,支持开放词汇匹配,可作为可扩展标注引擎应用于多个下游任务。通过人类验证创建的统一本体解决了数据集间标注不一致的问题。
[9] Seeing Justice Clearly: Handwritten Legal Document Translation with OCR and Vision-Language Models
Shubham Kumar Nigam,Parjanya Aditya Shukla,Noel Shallum,Arnab Bhattacharya
Main category: cs.CV
TL;DR: 该研究比较了传统OCR-MT流水线与视觉大语言模型在马拉地语手写法律文档翻译中的性能,旨在为印度法院系统提供可扩展的翻译解决方案。
- Motivation: 解决马拉地语等低资源语言手写文本识别和翻译的挑战,特别是为了数字化印度地区和高院的FIR、指控书、证人陈述等法律记录,提高法律信息获取效率。
- Method: 比较两种方法:1) 传统两阶段流水线(OCR提取文本 + 机器翻译模型);2) 视觉大语言模型(端到端直接翻译手写文本图像)。在马拉地语手写法律文档数据集上进行评估。
- Result: 研究结果为构建稳健、可在边缘部署的解决方案提供了可行见解,能够为非母语者和法律专业人士增强法律信息访问。
- Conclusion: 探索了传统OCR-MT流水线与端到端视觉大语言模型在手写文本翻译中的性能比较,为低资源环境下的法律文档处理提供了实用指导。
[10] NodMAISI: Nodule-Oriented Medical AI for Synthetic Imaging
Fakrul Islam Tushar,Ehsan Samei,Cynthia Rudin,Joseph Y. Lo
Main category: cs.CV
TL;DR: NodMAISI是一个针对肺结节检测的CT合成与增强框架,通过解剖约束和病灶感知的增强方法,显著提升了小肺结节的检测性能,特别是在数据稀缺情况下改善了恶性结节分类效果。
- Motivation: 医学影像数据集中,对肺癌筛查至关重要的异常发现(特别是小结节)代表性不足且标注不一致,需要更好的数据增强方法来改善结节检测和分类性能。
- Method: 开发了NodMAISI框架:1)标准化数据整理和标注流程;2)基于ControlNet条件化的整流流生成器,确保解剖和病灶一致性;3)病灶感知增强方法,扰动结节掩模同时保留周围解剖结构。
- Result: 在六个公共测试数据集上,NodMAISI相比MAISI-v2提升了分布保真度,显著提高了结节检测的平均灵敏度(特别是在亚厘米结节上),在数据稀缺情况下将恶性结节分类AUC提升了0.07-0.21。
- Conclusion: NodMAISI通过解剖约束的合成和病灶感知增强,有效解决了小肺结节在现有数据增强方法中的不足,显著提升了结节检测和分类性能,特别是在数据稀缺情况下。
[11] YolovN-CBi: A Lightweight and Efficient Architecture for Real-Time Detection of Small UAVs
Ami Pandat,Punna Rajasekhar,Gopika Vinod,Rohit Shukla
Main category: cs.CV
TL;DR: 提出Yolov5-CBi架构,结合CBAM注意力模块和BiFPN特征金字塔,通过知识蒸馏获得轻量模型,显著提升小型无人机检测的准确率和实时性
- Motivation: 无人机在民用和军事领域的风险日益增加,需要准确实时的检测系统。但无人机尺寸小、移动快、视觉对比度低,检测难度大
- Method: 提出Yolov5-CBi架构,整合CBAM注意力模块和BiFPN特征金字塔网络。创建28K图像训练集和2500张本地测试集。提出四种CBi变体,并使用知识蒸馏技术进行模型压缩
- Result: Yolov5-CBi在速度-准确率权衡上优于Yolov8和Yolov12。蒸馏模型mA@P0.5:0.9达到0.6573,比教师模型提升6.51%,速度比基线模型快82.9%
- Conclusion: 提出的CBi架构结合蒸馏轻量模型,有效推进了小型无人机的高效准确实时检测,适合边缘部署
[12] FOODER: Real-time Facial Authentication and Expression Recognition
Sabri Mustafa Kahya,Muhammet Sami Yavuz,Boran Hamdi Sivrikaya,Eckehard Steinbach
Main category: cs.CV
TL;DR: FOODER是一个基于雷达的实时隐私保护框架,集成了OOD人脸认证和表情识别,使用低成本FMCW雷达和分层架构,在认证和表情识别方面都取得了优异性能。
- Motivation: 开发一个能够在保护用户隐私的同时实现安全面部认证和表情识别的实时系统,利用雷达数据避免传统摄像头带来的隐私问题,并解决神经网络在部署时面临的OOD检测挑战。
- Method: 使用低成本FMCW雷达获取距离-多普勒和微距离-多普勒表示;认证模块采用多编码器多解码器架构(BP和ILED组件)进行OOD检测;表情识别模块使用ResNet块区分动态和静态表情,然后分别用两个专门的MobileViT网络进行分类。
- Result: 在60 GHz短程FMCW雷达数据集上,FOODER实现了94.13%的AUROC和18.12%的FPR95用于认证,表情识别平均准确率达到94.70%,优于现有的OOD检测方法和多种transformer架构,并能实时运行。
- Conclusion: FOODER框架成功实现了基于雷达的隐私保护面部认证和表情识别,通过分层设计和专门化网络架构,在保持实时性能的同时达到了高精度,为安全神经网络部署提供了有效解决方案。
[13] FPBench: A Comprehensive Benchmark of Multimodal Large Language Models for Fingerprint Analysis
Ekta Balkrishna Gavas,Sudipta Banerjee,Chinmay Hegde,Nasir Memon
Main category: cs.CV
TL;DR: FPBench是首个针对多模态大语言模型在指纹领域理解的综合基准测试,评估了20个MLLM在7个数据集上8个生物识别和法医任务的性能。
- Motivation: 虽然多模态大语言模型在虹膜和人脸图像分析中已有应用,但它们在指纹理解方面的能力尚未被探索。需要建立一个全面的基准来评估MLLM在指纹领域的表现。
- Method: 设计了FPBench基准,评估20个开源和专有MLLM在7个真实和合成数据集上的表现,涵盖8个生物识别和法医任务,使用零样本和思维链提示策略。
- Result: 研究讨论了MLLM在指纹理解方面的性能、可解释性,并分享了挑战和局限性。FPBench成为首个全面的指纹领域理解基准。
- Conclusion: FPBench为指纹领域的基础模型发展铺平了道路,建立了首个全面的MLLM指纹理解基准,揭示了该领域的挑战和机遇。
[14] Uncertainty-Gated Region-Level Retrieval for Robust Semantic Segmentation
Shreshth Rajan,Raymond Liu
Main category: cs.CV
TL;DR: 提出基于区域级不确定性门控检索机制,提升域偏移下的语义分割准确性和校准性,在减少87.5%检索成本的同时实现11.3%的mIoU提升
- Motivation: 室外街景语义分割在自动驾驶、移动机器人等应用中至关重要,需要准确区分道路、人行道、车辆等关键元素。现有方法需要在不同环境、光照条件和传感器噪声下保持鲁棒性,同时实现实时处理,但在域偏移情况下准确性和校准性仍有待提升。
- Method: 提出区域级不确定性门控检索机制,通过评估每个区域的不确定性来决定是否进行检索,仅对不确定性高的区域执行检索操作,从而在保持准确性的同时大幅降低计算成本。
- Result: 最佳方法实现了11.3%的平均交并比(mIoU)提升,同时将检索成本降低了87.5%,仅对12.5%的区域进行检索(相比基线方法的100%区域检索)。
- Conclusion: 不确定性门控检索机制能有效提升语义分割在域偏移下的性能和校准性,同时显著降低计算开销,为实时应用提供了实用解决方案。
[15] SERA-H: Beyond Native Sentinel Spatial Limits for High-Resolution Canopy Height Mapping
Thomas Boudras,Martin Schwartz,Rasmus Fensholt,Martin Brandt,Ibrahim Fayad,Jean-Pierre Wigneron,Gabriel Belouze,Fajwel Fogel,Philippe Ciais
Main category: cs.CV
TL;DR: SERA-H模型结合超分辨率与时间注意力编码,利用免费Sentinel卫星时序数据生成2.5米分辨率森林冠层高度图,性能媲美商业高分辨率影像。
- Motivation: 现有深度学习方法在卫星影像预测高度图时面临数据可获取性与空间分辨率之间的权衡问题,需要一种既能利用免费数据又能达到高分辨率的方法。
- Method: 提出SERA-H端到端模型,结合超分辨率模块(EDSR)和时间注意力编码(UTAE),使用高密度LiDAR数据进行监督训练,从免费Sentinel-1/2时序数据生成2.5米分辨率高度图。
- Result: 在法国开源基准数据集上评估,MAE为2.6米,决定系数0.82,不仅优于标准Sentinel基线,性能也媲美或优于依赖商业高分辨率影像的方法。
- Conclusion: 结合高分辨率监督与时序数据的时空信息,能够重建超出输入传感器原生分辨率的细节,实现免费高频森林制图,精度媲美昂贵的商业影像。
[16] EndoStreamDepth: Temporally Consistent Monocular Depth Estimation for Endoscopic Video Streams
Hao Li,Daiwei Lu,Jiacheng Wang,Robert J. Webster,Ipek Oguz
Main category: cs.CV
TL;DR: EndoStreamDepth是一个用于内窥镜视频流的单目深度估计框架,能生成具有清晰解剖边界、时间一致性的深度图,并实现实时处理。
- Motivation: 现有方法通常使用批量输入,无法实现实时处理,且缺乏时间一致性。内窥镜手术需要准确的深度图来支持机器人手术等下游任务,特别是需要清晰的解剖边界。
- Method: 框架包含三个主要组件:(1) 具有内窥镜特定变换的单帧深度网络;(2) 多级Mamba时间模块,利用帧间信息提高准确性和稳定性;(3) 具有全面多尺度监督的分层设计,通过互补损失项共同改善局部边界清晰度和全局几何一致性。
- Result: 在两个公开的结肠镜深度估计数据集上进行评估,相比最先进的单目深度估计方法,EndoStreamDepth显著提高了性能,生成的深度图具有清晰、解剖对齐的边界。
- Conclusion: EndoStreamDepth为内窥镜视频流提供了准确、时间一致且实时的深度估计,这对于支持机器人手术等下游任务至关重要。代码已公开。
[17] Local Patches Meet Global Context: Scalable 3D Diffusion Priors for Computed Tomography Reconstruction
Taewon Yang,Jason Hu,Jeffrey A. Fessler,Liyue Shen
Main category: cs.CV
TL;DR: 提出一种基于3D patch的扩散模型,能够从有限数据中学习完全3D扩散先验,实现高分辨率3D图像的可扩展生成,并在3D CT重建中超越现有方法。
- Motivation: 扩散模型在图像逆问题中表现出色,但直接训练3D扩散模型面临计算资源需求高、数据集规模大的挑战。现有方法多复用2D扩散先验处理3D问题,未能充分利用扩散模型在高维数据上的生成能力。
- Method: 提出3D patch-based扩散模型,通过建模位置感知的3D局部patch与下采样3D体数据作为全局上下文的联合分布,实现可扩展效率的同时保证3D图像生成质量。
- Result: 在多个数据集的3D CT重建实验中,方法在性能和效率上均优于现有技术,实现了512×512×256高分辨率3D重建(约20分钟)。
- Conclusion: 该方法不仅实现了高质量3D生成,还为高分辨率3D逆问题提供了前所未有的高效准确解决方案,成功克服了3D扩散模型训练的计算挑战。
[18] Atlas is Your Perfect Context: One-Shot Customization for Generalizable Foundational Medical Image Segmentation
Ziyu Zhang,Yi Yu,Simeng Zhu,Ahmed Aly,Yunhe Gao,Ning Gu,Yuan Xue
Main category: cs.CV
TL;DR: AtlasSegFM:通过单标注示例定制医学图像分割基础模型的图谱引导框架,利用图谱配准提供上下文感知提示,提升小结构分割性能
- Motivation: 现有交互式基础模型(如nnInteractive)虽然通过大规模多模态预训练增强了泛化能力,但仍依赖精确提示,且在训练数据中代表性不足的临床场景下表现不佳。需要一种轻量级、可部署的解决方案来定制基础模型以适应真实临床工作流。
- Method: 提出AtlasSegFM框架:1)通过上下文图谱与查询图像之间的配准,为基础模型提供上下文感知提示的流程;2)测试时适配器,融合图谱配准和基础模型的预测结果。仅需单个标注示例即可定制基础模型。
- Result: 在多个模态和器官的公共及内部数据集上的广泛实验表明,AtlasSegFM能持续提升分割性能,特别是对于小而精细的结构。该框架为真实临床工作流中的基础模型一次性定制提供了轻量级、可部署的解决方案。
- Conclusion: AtlasSegFM通过图谱引导的上下文感知提示和预测融合,有效解决了基础模型在临床场景中的定制问题,显著提升了医学图像分割性能,特别是对小结构的识别,为临床部署提供了实用方案。
[19] MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation
Kaixing Yang,Jiashu Zhu,Xulong Tang,Ziqiao Peng,Xiangyue Zhang,Puwei Wang,Jiahong Wu,Xiangxiang Chu,Hongyan Liu,Jun He
Main category: cs.CV
TL;DR: MACE-Dance是一个基于级联专家混合的音乐驱动舞蹈视频生成框架,通过运动专家生成3D舞蹈动作,外观专家合成视频,在舞蹈生成质量上达到SOTA
- Motivation: 随着在线舞蹈视频平台和AIGC的发展,音乐驱动舞蹈生成成为重要研究方向。现有方法无法直接适应此任务,且现有研究难以同时实现高质量视觉外观和逼真人体运动。
- Method: 采用级联专家混合框架:运动专家使用BiMamba-Transformer混合架构的扩散模型和免引导训练策略进行音乐到3D动作生成;外观专家采用解耦的运动-美学微调策略进行运动和参考条件视频合成。
- Result: 运动专家在3D舞蹈生成上达到SOTA性能,外观专家在姿态驱动图像动画上达到SOTA性能。基于新构建的数据集和评估协议,MACE-Dance整体也达到SOTA性能。
- Conclusion: MACE-Dance通过级联专家混合框架成功解决了音乐驱动舞蹈视频生成的挑战,在运动质量和视觉外观上都实现了SOTA性能,为该领域提供了新的基准。
[20] Is There a Better Source Distribution than Gaussian? Exploring Source Distributions for Image Flow Matching
Junho Lee,Kwanseok Kim,Joonseok Lee
Main category: cs.CV
TL;DR: 该论文通过2D模拟分析流匹配学习动态,发现高斯分布的全局覆盖对稳定学习至关重要,并提出结合范数对齐训练和方向剪枝采样的实用框架,可在不重新训练的情况下提升现有流匹配模型性能。
- Motivation: 虽然流匹配已成为强大的生成建模方法,但高维数据生成中源分布的选择潜力尚未充分探索。高斯分布虽常用,但可能存在更好的替代方案。论文旨在通过可解释的2D模拟分析流匹配学习动态,为源分布设计提供指导。
- Method: 提出新颖的2D模拟方法,捕捉高维几何特性于可解释的2D设置中,分析流匹配训练动态。基于分析结果,开发结合范数对齐训练和方向剪枝采样的实用框架。剪枝策略可直接应用于任何使用高斯源训练的流匹配模型,无需重新训练。
- Result: 实证评估显示,该方法在生成质量和采样效率方面均获得一致改进。关键发现包括:密度逼近可能因模态差异而降低性能;方向对齐在过度集中时会出现路径纠缠;高斯分布的全局覆盖确保稳健学习;范数不对齐带来显著学习成本。
- Conclusion: 研究为源分布设计提供了实用见解和指导原则,并引入了可直接应用于现有流匹配模型的技术。提出的方向剪枝采样方法能在不重新训练的情况下立即提升性能,为流匹配模型的实际应用提供了有价值的改进方案。
[21] ALIGN: Advanced Query Initialization with LiDAR-Image Guidance for Occlusion-Robust 3D Object Detection
Janghyun Baek,Mincheol Chang,Seokha Moon,Seung Joon Lee,Jinkyu Kim
Main category: cs.CV
TL;DR: ALIGN提出了一种用于3D目标检测的新型查询初始化方法,通过激光雷达和图像引导解决遮挡和拥挤场景中的查询效率问题。
- Motivation: 现有基于查询的3D目标检测方法在查询初始化策略上存在不足,如随机采样或BEV热图采样,导致查询使用效率低下,特别是在遮挡或拥挤物体场景中准确率下降。
- Method: ALIGN包含三个核心组件:1) 遮挡感知中心估计(OCE),融合激光雷达几何和图像语义准确估计物体中心;2) 自适应邻域采样(ANS),从激光雷达聚类生成物体候选,并在周围采样空间和语义对齐的点;3) 动态查询平衡(DQB),自适应平衡前景和背景区域的查询分配。
- Result: 在nuScenes基准测试中,ALIGN在多个最先进的检测器上一致提升性能,最高获得+0.9 mAP和+1.2 NDS的增益,在遮挡或密集拥挤的挑战性场景中表现尤为突出。
- Conclusion: ALIGN通过激光雷达和图像引导的查询初始化策略,有效解决了3D目标检测中的查询效率问题,特别是在遮挡和拥挤场景中表现出色,为多模态3D检测提供了新的解决方案。
[22] Multi-Part Object Representations via Graph Structures and Co-Part Discovery
Alex Foo,Wynne Hsu,Mong Li Lee
Main category: cs.CV
TL;DR: 提出一种基于显式图表示的多部件物体发现方法,在遮挡和分布外场景中显著提升物体识别能力
- Motivation: 现有的隐式物体表示方法在处理多部件物体时,无法在遮挡或分布外场景中准确识别物体,因为它们假设部件-整体关系通过间接训练目标隐式编码
- Method: 提出新方法:利用显式图表示部件,开发协同部件物体发现算法,并引入三个基准测试来评估物体中心方法在遮挡和分布外设置中的鲁棒性
- Result: 在模拟、真实和现实世界图像上的实验结果显示,相比最先进方法,发现的物体质量显著提升,在遮挡和分布外场景中能准确识别多部件物体
- Conclusion: 发现的物体中心表示在下游任务中能更准确预测关键物体属性,表明该方法有潜力推动物体中心表示领域的发展
[23] Unsupervised Anomaly Detection with an Enhanced Teacher for Student-Teacher Feature Pyramid Matching
Mohammad Zolfaghari,Hedieh Sajedi
Main category: cs.CV
TL;DR: 提出ET-STPM框架,通过增强教师网络提升学生-教师架构在异常检测中的性能,在图像级和像素级都取得了优异结果。
- Motivation: 异常检测是监督学习中的挑战性课题,现有学生-教师框架在异常检测中仍有提升空间,需要增强教师网络以提高性能指标。
- Method: 采用学生-教师框架,首先在ImageNet上预训练ResNet-18网络,然后在MVTech-AD数据集上进行微调,构建增强的教师网络用于异常检测。
- Result: ET-STPM模型在图像级异常检测上达到0.971平均准确率,在像素级异常检测上达到0.977平均准确率,优于先前方法。
- Conclusion: 增强教师网络的学生-教师特征金字塔框架在异常检测任务中表现优异,证明了该方法的有效性。
[24] Multifaceted Exploration of Spatial Openness in Rental Housing: A Big Data Analysis in Tokyo's 23 Wards
Takuya OKi,Yuan Liu
Main category: cs.CV
TL;DR: 本研究开发了一个量化框架,从2D和3D角度评估住宅空间开放性,分析了东京4004个租赁单元,发现开放性随时间变化(1990年代达到峰值),与租金正相关,但与现有模型的印象评分相关性较弱。
- Motivation: 理解空间开放性对改善居住质量和设计至关重要,但现有研究往往将其影响因素分开处理。需要开发一个综合的量化框架来评估住宅空间开放性,并将其与城市和市场动态联系起来。
- Method: 开发了一个多维数据驱动框架:1)2D开放性通过平面可见性分析(VGA)从平面图计算;2)3D开放性通过语义分割模型Mask2Former分析室内图像,识别墙壁、天花板、地板和窗户。使用东京23区4004个租赁单元的数据,分析开放性的时空变化及其与租金和住房属性的关系。
- Result: 结果显示:1)客厅可见性增加,整体开放性在1990年代达到峰值;2)空间分析显示开放性、租金和建筑特征之间存在部分相关性,反映了城市再开发趋势;3)2D和3D开放性指标不直接相关,但更高的开放性倾向于对应更高的租金;4)现有模型预测的印象评分与开放性仅弱相关,表明室内设计和家具对感知空间的影响更强。
- Conclusion: 本研究提供了一个新的多维数据驱动框架,用于量化住宅空间开放性并将其与城市和市场动态联系起来。虽然2D和3D开放性指标不直接相关,但开放性对租金有积极影响,而室内设计元素对空间感知的影响比开放性本身更重要。
[25] Investigating Spatial Attention Bias in Vision-Language Models
Aryan Chaudhary,Sanchit Goyal,Pratik Narang,Dhruv Kumar
Main category: cs.CV
TL;DR: VLMs存在系统性空间注意力偏置:在水平拼接图像中,约97%情况下会优先描述左侧内容而非右侧内容,这种偏置与语言阅读方向无关,而是源于模型架构因素。
- Motivation: 尽管视觉语言模型在理解视觉内容方面表现出色,但其空间处理中的系统性偏置尚未得到充分探索。本研究旨在识别和表征VLMs在处理水平拼接图像时存在的空间注意力偏置。
- Method: 通过对开源和闭源模型在图像对上进行的控制实验,测试了不同架构模型的空间处理偏置。特别测试了阿拉伯语微调模型以排除语言阅读方向的影响,并调查了训练数据集(如PixMo和Visual Genome)的标注指南。
- Result: 在自然提示条件下,模型在约97%的情况下优先描述左侧内容。阿拉伯语微调模型同样表现出这种偏置,排除了语言阅读方向是主要原因的可能性。训练数据标注指南中未发现明确的左优先排序指令。
- Conclusion: 当前VLMs在空间信息处理方面存在根本性限制,其系统性空间注意力偏置(左优先)与模型架构因素相关,而非训练数据指令或语言阅读方向所致。
[26] Joint Learning of Depth, Pose, and Local Radiance Field for Large Scale Monocular 3D Reconstruction
Shahram Najam Syed,Yitian Hu,Yuchao Yao
Main category: cs.CV
TL;DR: 提出一个联合学习框架,通过结合度量尺度深度估计、多尺度特征束调整和增量局部辐射场层次结构,实现从单目视频进行大规模场景的逼真3D重建。
- Motivation: 大规模场景的单目视频3D重建面临三个主要问题:尺度模糊的深度导致鬼影几何、长时位姿漂移破坏对齐、单个全局NeRF无法建模数百米内容。现有方法孤立求解深度、位姿和辐射场会导致重建失败。
- Method: 1) 使用ViT深度网络进行度量尺度监督训练,获得全局一致的深度;2) 多尺度特征束调整层在特征空间直接优化相机位姿,利用学习到的金字塔描述符抑制漂移;3) 增量局部辐射场层次结构:当视图重叠低于阈值时动态分配和冻结新的哈希网格NeRF,实现城市街区尺度覆盖。
- Result: 在Tanks and Temples基准测试中,绝对轨迹误差降低到0.001-0.021米,比BARF低18倍,比NoPe-NeRF低2倍,同时保持亚像素级的相对位姿误差。能够在单个GPU上实现城市街区尺度的覆盖。
- Conclusion: 通过联合学习深度、位姿和辐射场,证明了从单个未校准RGB相机实现度量尺度、无漂移的3D重建和高保真新视角合成是可行的。
[27] SG-RIFE: Semantic-Guided Real-Time Intermediate Flow Estimation with Diffusion-Competitive Perceptual Quality
Pan Ben Wong,Chengli Wu,Hanyue Lu
Main category: cs.CV
TL;DR: SG-RIFE通过语义引导增强预训练的RIFE模型,在保持实时性的同时达到接近扩散模型的感知质量
- Motivation: 现有实时视频插帧方法(如RIFE)在复杂场景下表现不佳,而扩散模型方法质量高但延迟大,无法实时应用。需要一种既能保持实时性又能达到高质量的方法。
- Method: 提出语义引导的RIFE(SG-RIFE),采用参数高效微调策略,将预训练的RIFE骨干网络与冻结的DINOv3视觉变换器的语义先验结合。设计了Split-Fidelity Aware Projection Module(Split-FAPM)来压缩和精炼高维特征,以及Deformable Semantic Fusion(DSF)模块来对齐语义先验与像素级运动场。
- Result: 在SNU-FILM数据集上,语义注入显著提升了感知保真度。SG-RIFE在FID/LPIPS指标上优于扩散基的LDMVFI,在复杂基准测试中达到与Consec. BB相当的质量,同时运行速度显著更快。
- Conclusion: 语义一致性使得基于光流的方法能够在接近实时的条件下达到与扩散模型竞争的感知质量,成功弥合了实时方法与高质量方法之间的差距。
[28] Spectral Discrepancy and Cross-modal Semantic Consistency Learning for Object Detection in Hyperspectral Image
Xiao He,Chang Tang,Xinwang Liu,Wei Zhang,Zhimin Gao,Chuankun Li,Shaohua Qiu,Jiangfeng Xu
Main category: cs.CV
TL;DR: 提出SDCM网络解决高光谱图像中类内和类间相似性挑战,通过光谱差异和跨模态语义一致性学习来缓解波段间不一致性和冗余问题
- Motivation: 高光谱图像具有高光谱分辨率,能识别相似物质的细微差异,但面临类内和类间相似性挑战,包括波段间空间差异、传感器噪声和光照干扰等,需要解决波段间不一致性和冗余问题
- Method: 提出SDCM网络,包含三个核心模块:1) 语义一致性学习(SCL)模块利用波段间上下文线索减少波段间信息异质性;2) 光谱门控生成器(SGG)基于波段重要性过滤冗余数据;3) 光谱差异感知(SDA)模块提取像素级光谱特征丰富高层语义表示
- Result: 在两个高光谱数据集上的大量实验表明,该方法相比其他方法实现了最先进的性能
- Conclusion: SDCM网络通过光谱差异和跨模态语义一致性学习,有效缓解了高光谱图像波段间不一致性和冗余问题,提高了目标检测性能
[29] Towards Ancient Plant Seed Classification: A Benchmark Dataset and Baseline Model
Rui Xing,Runmin Cong,Yingying Wu,Can Wang,Zhongming Tang,Fen Wang,Hao Wu,Sam Kwong
Main category: cs.CV
TL;DR: 构建首个古代植物种子图像分类数据集APS,并提出APSNet框架,通过引入种子尺寸特征和异步解耦解码架构,在古植物种子分类任务上达到90.5%的准确率。
- Motivation: 传统考古植物学研究依赖专家知识,耗时低效。虽然智能分析方法在考古学其他领域取得进展,但在考古植物学特别是古代植物种子分类任务上存在数据和方法的研究空白。
- Method: 1) 构建首个APS数据集,包含8,340张来自中国18个考古遗址的17个属/种级别种子图像;2) 设计APSNet框架,引入尺寸感知与嵌入(SPE)模块显式提取种子尺寸信息;3) 提出基于传统渐进学习的异步解耦解码(ADD)架构,从通道和空间角度解码特征。
- Result: 在定量和定性分析中,该方法超越了现有最先进的图像分类方法,达到了90.5%的准确率。
- Conclusion: 该工作为大规模、系统化的考古研究提供了有效工具,通过结合种子尺寸特征和精细粒度信息学习,能够引导网络发现分类的关键"证据"。
[30] Loom: Diffusion-Transformer for Interleaved Generation
Mingcheng Ye,Jiaming Liu,Yiren Song
Main category: cs.CV
TL;DR: Loom是一个统一的扩散-Transformer框架,用于交错文本-图像生成,通过语言规划策略和条件历史帧实现时序一致的可控长序列生成。
- Motivation: 交错文本-图像生成旨在联合生成连贯的视觉帧和对齐的文本描述,支持风格迁移、组合合成和程序教程等任务。现有方法在处理长序列生成时面临时序一致性和可控性挑战。
- Method: Loom扩展了Bagel统一模型,采用全参数微调和交错架构,交替处理文本和视觉嵌入。语言规划策略将用户指令分解为逐步提示和帧嵌入。每个帧仅条件于少量采样历史帧和全局文本上下文,而非拼接所有历史。
- Result: 在风格迁移、组合生成和教程类任务中,Loom在组合性、时序一致性和文本-图像对齐方面表现优异。相比开源基线Anole,在文本到交错任务中平均提升2.6分(5分制)。构建了50K交错教程数据集,显著优于统一和扩散编辑基线。
- Conclusion: Loom通过语言规划和条件历史帧采样,实现了高效可控的长序列交错文本-图像生成,在多个任务上展示了优越性能,为复杂多模态序列生成提供了有效解决方案。
[31] Who Can See Through You? Adversarial Shielding Against VLM-Based Attribute Inference Attacks
Yucheng Fan,Jiawei Chen,Yu Tian,Zhaoxia Yin
Main category: cs.CV
TL;DR: 提出一种针对VLM属性推断攻击的隐私保护方法,在视觉一致性约束下联合优化隐私抑制和效用保持,并引入VPI-COCO基准数据集进行公平评估。
- Motivation: 随着视觉语言模型(VLMs)的广泛应用,基于VLM的属性推断攻击成为严重隐私威胁,现有保护方法往往降低图像视觉质量或干扰社交媒体视觉功能,无法在隐私保护和用户体验间取得良好平衡。
- Method: 提出一种新颖的保护方法,在视觉一致性约束下联合优化隐私抑制和效用保持;同时引入VPI-COCO公开基准数据集,包含522张图像及分层隐私问题,支持细粒度联合评估。
- Result: 在多个VLM上的实验表明,该方法能有效将隐私属性识别率(PAR)降至25%以下,保持非隐私属性识别率(NPAR)在88%以上,维持高视觉一致性,并对未见和转述的隐私问题具有良好的泛化能力。
- Conclusion: 该方法在隐私保护和用户体验间取得了良好平衡,展示了在实际VLM部署中的强大适用性,同时VPI-COCO基准为公平比较不同保护方法提供了重要工具。
[32] Building UI/UX Dataset for Dark Pattern Detection and YOLOv12x-based Real-Time Object Recognition Detection System
Se-Young Jang,Su-Yeon Yoon,Jae-Woong Jung,Dong-Hun Lee,Seong-Hun Choi,Soo-Kyung Jun,Yu-Bin Kim,Young-Seon Ju,Kyounggon Kim
Main category: cs.CV
TL;DR: 提出基于YOLOv12x的视觉暗模式检测框架,通过构建包含4066张UI截图的数据集,实现92.8% mAP@50的检测精度和40.5 FPS的实时性能。
- Motivation: 随着数字化转型加速和在线平台普及,暗模式(误导用户的设计模式)问题日益突出。现有监管方法多为事后反应,需要开发主动、实时的检测技术来应对企业日益复杂的设计策略。
- Method: 构建专有视觉目标检测数据集(4066张UI截图,来自194个网站,涵盖6大行业),标注5类暗模式相关UI组件(按钮、复选框、输入框、弹窗、二维码)。采用YOLOv12x模型并应用迁移学习优化暗模式识别性能。
- Result: 提出的方法在mAP@50指标上达到92.8%的高检测精度,同时保持40.5 FPS的实时推理速度,证实了在实际在线环境中部署的有效性。数据集已公开供后续研究使用。
- Conclusion: 该研究开发了一个有效的视觉暗模式检测框架,实现了高精度和实时性能的平衡。公开的数据集将促进该领域进一步研究和技术发展,为解决暗模式问题提供了实用工具。
[33] UniMPR: A Unified Framework for Multimodal Place Recognition with Arbitrary Sensor Configurations
Zhangshuo Qi,Jingyi Xu,Luqi Cheng,Shichen Wen,Yiming Ma,Guangming Xiong
Main category: cs.CV
TL;DR: UniMPR是一个统一的多模态地点识别框架,使用单一训练模型即可适应任意传感器组合(相机、LiDAR、雷达),在极坐标BEV特征空间中处理异构数据,通过多分支网络提取特征,并在多个数据集上实现SOTA性能。
- Motivation: 当前多模态地点识别方法面临三大挑战:1)无法在统一框架中动态适应任意模态输入;2)对缺失或降质模态的鲁棒性不足;3)难以泛化到不同传感器配置和设置。需要一种能灵活处理各种模态组合的通用解决方案。
- Method: 提出UniMPR统一框架:1)将所有输入统一到极坐标BEV特征空间处理数据异构性;2)使用多分支网络从任意模态组合中提取判别性特征;3)构建大规模训练集并引入自适应标签分配策略进行广泛预训练。
- Result: 在7个数据集上的实验表明,UniMPR在不同传感器配置、模态组合和环境条件下均实现了最先进的性能,展示了优秀的泛化能力和鲁棒性。
- Conclusion: UniMPR成功解决了多模态地点识别中的关键挑战,提供了一个统一的框架,能够灵活适应任意模态组合,并在各种条件下保持鲁棒性和泛化能力,为自主车辆和机器人的全局定位提供了有效解决方案。
[34] Pyramidal Adaptive Cross-Gating for Multimodal Detection
Zidong Gu,Shoufu Tian
Main category: cs.CV
TL;DR: 提出PACGNet用于航拍图像多模态目标检测,通过对称交叉门控和金字塔特征感知门控模块实现深度融合,在DroneVehicle和VEDAI数据集上达到SOTA性能。
- Motivation: 现有航拍目标检测方法通常采用简单的特征融合策略,存在两个关键缺陷:容易受到跨模态噪声干扰,并且破坏了特征金字塔的层次结构,从而损害了小目标的细粒度检测能力。
- Method: 提出金字塔自适应交叉门控网络(PACGNet),包含两个核心组件:1) 对称交叉门控(SCG)模块,采用双向对称的"水平"门控机制,选择性吸收互补信息、抑制噪声并保持各模态语义完整性;2) 金字塔特征感知多模态门控(PFMG)模块,通过渐进层次门控机制重建特征层次,利用前一级高分辨率细节特征指导当前低分辨率级的融合。
- Result: 在DroneVehicle和VEDAI数据集上评估,PACGNet达到新的SOTA基准,mAP50分数分别为81.7%和82.1%。
- Conclusion: PACGNet通过深度融合架构有效解决了航拍目标检测中的跨模态噪声和特征层次破坏问题,显著提升了小目标的细粒度检测性能。
[35] MatE: Material Extraction from Single-Image via Geometric Prior
Zeyu Zhang,Wei Zhai,Jian Yang,Yang Cao
Main category: cs.CV
TL;DR: MatE:从单张无约束真实世界图像生成可平铺PBR材质的创新方法
- Motivation: 传统高保真PBR材质创建需要专业设备和专家后处理,流程复杂且成本高。本文旨在通过单张普通图像生成材质,降低材质创建门槛。
- Method: 1. 使用估计深度图进行粗略校正;2. 采用双分支扩散模型,利用旋转对齐和尺度对齐训练数据学习一致性;3. 校正粗结果的残余失真并生成完整的材质贴图集(反照率、法线、粗糙度、高度)
- Result: 在合成和真实世界数据上的综合实验证明了方法的有效性和鲁棒性,能够从随意拍摄的图像中恢复内在材质属性。
- Conclusion: MatE实现了对输入图像未知光照和透视的不变性,使普通用户能够从真实世界图像创建逼真的可平铺PBR材质。
[36] MatSpray: Fusing 2D Material World Knowledge on 3D Geometry
Philipp Langsteiner,Jan-Niklas Dihlmann,Hendrik P. A. Lensch
Main category: cs.CV
TL;DR: 提出融合2D材质数据到3D几何的框架,通过扩散模型生成PBR材质图,结合高斯泼溅重建和神经细化,实现高质量可重光照的3D场景重建。
- Motivation: 当前3D重建方法在重光照场景中表现不佳,缺乏精确的空间变化材质参数;同时2D扩散模型能预测PBR属性但难以转移到3D几何上,需要解决2D材质数据与3D几何融合的挑战。
- Method: 1) 使用高斯泼溅重建场景几何;2) 扩散模型从输入图像生成2D材质图(反照率、粗糙度、金属度);3) 通过基于图像的损失优化或高斯光线追踪直接投影将材质参数集成到3D表示;4) 引入轻量级神经细化步骤(Neural Merger)提升细节精度和多视角一致性。
- Result: 提出的方法在定量指标和感知视觉真实感方面优于现有技术,能够从重建场景中生成更准确、可重光照和照片级真实的渲染,显著提升内容生产流程的效率和真实感。
- Conclusion: 该框架成功解决了2D材质数据与3D几何融合的挑战,实现了高质量的可重光照3D场景重建,为游戏和电影行业的内容创作工作流提供了更高效、更真实的解决方案。
[37] A two-stream network with global-local feature fusion for bone age assessment
Qiong Lou,Han Yang,Fang Lu
Main category: cs.CV
TL;DR: 提出BoNet+模型,通过双流架构结合全局和局部特征提取,在RSNA和RHPE数据集上分别达到3.81和5.65个月的MAE,实现高精度自动骨龄评估。
- Motivation: 现有深度学习方法在平衡全局特征和局部骨骼细节方面存在挑战,需要开发更准确的自动骨龄评估系统。
- Method: 提出BoNet+模型,采用双流深度学习架构:全局特征提取通道引入Transformer模块增强全局特征提取;局部特征提取通道引入RFAConv模块增强多尺度感受野的局部特征提取;最后通过Inception-V3网络优化拼接的特征。
- Result: 在RSNA和RHPE测试数据集上分别达到3.81和5.65个月的平均绝对误差(MAE),与最先进方法相当。
- Conclusion: BoNet+模型能够减轻临床工作量,实现自动、高精度且更客观的骨龄评估。
[38] MCVI-SANet: A lightweight semi-supervised model for LAI and SPAD estimation of winter wheat under vegetation index saturation
Zhiheng Zhang,Jiajun Yang,Hong Sun,Dong Wang,Honghua Jiang,Yaru Chen,Tangyuan Ning
Main category: cs.CV
TL;DR: 提出MCVI-SANet模型,通过植被指数饱和度感知模块和半监督学习策略,解决冬小麦LAI和SPAD估计中植被指数饱和、标注数据有限的问题,在保持轻量化的同时达到SOTA性能。
- Motivation: 冬小麦LAI和SPAD估计面临两个主要挑战:1)植被指数在冠层密集阶段容易饱和;2)地面真值标注数据有限。现有方法存在特征表达能力有限、域差距大、数据需求高等问题,限制了泛化能力。
- Method: 提出MCVI-SANet模型,包含:1)植被指数饱和度感知模块(VI-SABlock),用于自适应通道-空间特征增强;2)基于VICReg的半监督学习策略,提升泛化能力;3)基于植被高度的数据集划分策略,确保不同生长阶段的代表性。
- Result: 在10次重复实验中,MCVI-SANet达到SOTA性能:LAI平均R²=0.8123,RMSE=0.4796;SPAD平均R²=0.6846,RMSE=2.4222。相比最佳基线,LAI R²提升8.95%,SPAD R²提升8.17%。模型仅0.10M参数,保持高推理速度。
- Conclusion: 将半监督学习与农学先验知识结合,为增强基于遥感的精准农业提供了有前景的方法。MCVI-SANet在轻量化、泛化能力和准确性方面均表现出色。
[39] Enhancing 3D Semantic Scene Completion with a Refinement Module
Dunxing Zhang,Jiachen Lu,Han Yang,Lei Bao,Bo Song
Main category: cs.CV
TL;DR: ESSC-RM是一个即插即用的语义场景补全增强框架,通过细化模块提升现有SSC模型的性能,在SemanticKITTI数据集上验证了有效性。
- Motivation: 现有语义场景补全(SSC)模型在语义预测精度方面仍有提升空间,需要一个通用的细化框架来增强现有模型的性能,而不需要重新设计整个架构。
- Method: 采用两阶段框架:首先基线SSC网络生成粗略体素预测,然后通过3D U-Net基础的预测噪声感知模块(PNAM)和体素级局部几何模块(VLGM)进行多尺度监督下的细化。
- Result: 在SemanticKITTI数据集上,ESSC-RM显著提升了语义预测性能。集成到CGFormer时,平均IoU从16.87%提升到17.27%;集成到MonoScene时,从11.08%提升到11.51%。
- Conclusion: ESSC-RM是一个通用的细化框架,能够无缝集成到多种现有SSC模型中,有效提升语义场景补全的性能,具有广泛的适用性。
[40] Efficient Zero-Shot Inpainting with Decoupled Diffusion Guidance
Badr Moufad,Navid Bagheri Shouraki,Alain Oliviero Durmus,Thomas Hirtz,Eric Moulines,Jimmy Olsson,Yazid Janati
Main category: cs.CV
TL;DR: 提出一种新的零样本扩散模型后验采样方法,避免反向传播计算,显著降低推理成本
- Motivation: 现有零样本扩散模型编辑方法需要计算向量-雅可比乘积,导致内存和运行时开销大,需要更高效的采样方法
- Method: 提出新的似然替代函数,产生简单高效的高斯后验转移,绕过去噪器网络的反向传播
- Result: 与微调基线相比,实现了强观测一致性,产生连贯高质量重建,同时显著降低推理成本
- Conclusion: 提出的方法在保持高质量图像编辑性能的同时,大幅提升了零样本扩散模型推理效率
[41] RecurGS: Interactive Scene Modeling via Discrete-State Recurrent Gaussian Fusion
Wenhao Hu,Haonan Zhou,Zesheng Li,Liu Liu,Jiacheng Dong,Zhizhong Su,Gaoang Wang
Main category: cs.CV
TL;DR: RecurGS是一个基于3D高斯场景表示的循环融合框架,能够增量整合离散场景状态,支持交互式3D环境构建和状态合成。
- Motivation: 现有3D场景表示方法存在局限性:要么只能更新单个场景不支持新状态合成,要么依赖基于扩散的对象-背景解耦方法,只能处理单个状态且无法跨多个观察融合信息。需要解决这些限制以实现交互式3D环境。
- Method: RecurGS通过检测连续状态间的对象级变化,使用语义对应和基于李代数的SE(3)细化对齐几何运动,并通过回放监督进行循环更新以保留历史结构。采用体素化、可见性感知的融合模块选择性整合新观察区域,同时保持稳定区域固定。
- Result: 在合成和真实世界数据集上的广泛实验表明,该框架能够提供高质量重建,显著提高更新效率,支持对象级操作,无需额外扫描即可合成新场景状态,并在演化环境中保持照片级真实感。
- Conclusion: RecurGS为构建连续交互式高斯世界提供了可扩展的解决方案,能够高效处理长时程更新,同时减轻灾难性遗忘问题。
[42] Automated Mosaic Tesserae Segmentation via Deep Learning Techniques
Charilaos Kapelonis,Marios Antonakakis,Konstantinos Politof,Aristomenis Antoniadis,Michalis Zervakis
Main category: cs.CV
TL;DR: 使用SAM 2模型进行马赛克镶嵌艺术品的数字保存,通过微调提升分割性能,并创建了新的标注数据集
- Motivation: 马赛克作为文化遗产易受损,需要数字化保存。现有数据集有限,传统分割方法效果不佳,需要更先进的自动分割技术
- Method: 采用Meta AI的Segment Anything Model 2 (SAM 2)作为基础模型,创建马赛克图像标注数据集进行微调,实现自动分割
- Result: 微调后模型在测试集上IoU从89.00%提升至91.02%,Recall从92.12%提升至95.89%;在基准测试中F-measure提高3%,预测与实际镶嵌块绝对误差从0.20降至0.02
- Conclusion: 微调SAM 2模型结合新标注数据集显著提升马赛克分割性能,为实现实时马赛克图像分割奠定基础
[43] Through the PRISm: Importance-Aware Scene Graphs for Image Retrieval
Dimitrios Georgoulopoulos,Nikolaos Chaidos,Angeliki Dimitriou,Giorgos Stamou
Main category: cs.CV
TL;DR: PRISm是一个基于剪枝的多模态图像检索框架,通过重要性预测模块和边缘感知图神经网络,显式建模对象语义重要性及其交互关系,实现与人类感知更一致的图像检索。
- Motivation: 传统图像检索方法难以捕捉场景中的关系和上下文细微差别,无法充分理解图像的语义内容。需要一种能够显式建模对象重要性及其交互关系的检索方法。
- Method: 提出PRISm框架,包含两个核心组件:1) 重要性预测模块,识别并保留图像中最关键的对象和关系三元组,同时剪枝无关元素;2) 边缘感知图神经网络,显式编码关系结构并整合全局视觉特征,生成语义感知的图像嵌入。
- Result: 在基准数据集和真实世界数据集上的广泛实验显示,PRISm在top-ranked性能上持续优于现有方法。定性分析表明,PRISm能够准确捕捉关键对象和交互,产生可解释且语义有意义的结果。
- Conclusion: PRISm通过显式建模对象语义重要性及其交互关系,将关系推理与视觉表示有效结合,实现了语义基础的图像检索,与人类感知更加一致,弥补了先前方法的不足。
[44] AmPLe: Supporting Vision-Language Models via Adaptive-Debiased Ensemble Multi-Prompt Learning
Fei Song,Yi Li,Jiangmeng Li,Rui Wang,Changwen Zheng,Fanjiang Xu,Hui Xiong
Main category: cs.CV
TL;DR: AmPLe提出自适应去偏集成多提示学习方法,同时解决模型-提示匹配偏差和样本-提示匹配偏差,在少样本视觉语言模型适应任务中显著优于现有方法。
- Motivation: 现有多提示学习方法主要关注在单一基础视觉语言模型中使用精心设计的提示,但忽略了模型-提示匹配偏差(同一提示在不同模型中传达不同语义)和样本-提示匹配偏差(输入样本中包含与提示无关的语义),这些偏差限制了多提示学习的发展。
- Method: 1) 采用集成学习方法聚合不同预测的优势;2) 基于信息论分析提取输入样本中与提示相关的语义,自适应计算去偏的集成权重;3) 提出自适应去偏集成多提示学习(AmPLe)框架,同时缓解两种偏差。
- Result: 在三个代表性任务上的广泛实验表明:泛化到新类别、新目标数据集和未见域迁移任务中,AmPLe均显著优于现有方法。从因果视角的理论验证进一步支持了AmPLe的有效性。
- Conclusion: AmPLe通过同时解决模型-提示匹配偏差和样本-提示匹配偏差,有效提升了多提示学习在下游任务中的性能,为视觉语言模型的快速适应提供了更鲁棒的解决方案。
[45] E-RGB-D: Real-Time Event-Based Perception with Structured Light
Seyed Ehsan Marjani Bajestani,Giovanni Beltrame
Main category: cs.CV
TL;DR: 提出结合事件相机与DLP投影仪的新型RGB-D感知系统,实现1400fps色彩检测和4kHz像素深度检测
- Motivation: 传统单色事件相机无法检测静态/慢速物体且缺乏色彩信息,限制了其在需要色彩感知的应用中的使用
- Method: 集成DLP投影仪形成主动结构光系统,结合事件相机优势,通过动态投影调整优化带宽,实现像素级色彩和深度分离检测
- Result: 实现了1400fps的色彩检测速度和4kHz的像素深度检测,生成彩色点云而不牺牲空间分辨率
- Conclusion: 该集成系统显著推进了计算机视觉领域,为机器人到3D重建等应用提供了帧无关的RGB-D感知解决方案
[46] MeniMV: A Multi-view Benchmark for Meniscus Injury Severity Grading
Shurui Xu,Siqi Yang,Jiapin Ren,Zhong Cao,Hongwei Yang,Mengzhen Fan,Yuyu Sun,Shuyan Li
Main category: cs.CV
TL;DR: 提出了MeniMV多视图基准数据集,专门用于半月板角部损伤分级,包含3000个MRI检查,提供6000个配准的矢状面和冠状面图像,并建立了CNN和Transformer模型的基准性能。
- Motivation: 半月板角部撕裂的精确分级对膝关节损伤诊断至关重要,但目前在自动化MRI分析中仍未被充分探索。现有方法通常依赖粗粒度的研究级标签或二元分类,缺乏定位和严重程度信息。
- Method: 构建了MeniMV多视图基准数据集,包含来自3个医疗中心750名患者的3000个膝关节MRI检查,提供6000个配准的矢状面和冠状面图像。每个检查都经过精心标注,对前角和后角半月板提供四级(0-3级)严重程度标签,并由首席骨科医师验证。使用多种最先进的CNN和Transformer模型进行基准测试。
- Result: MeniMV数据集提供了比先前数据集多一倍以上的病理标记数据量,并独特地捕捉了临床实践中必不可少的双视图诊断背景。基准测试建立了强大的基线,并突出了严重程度分级中的挑战。
- Conclusion: MeniMV数据集为自动化肌肉骨骼成像的未来研究提供了宝贵的基础,特别是在半月板角部损伤的精确分级方面,填补了现有方法的不足。
[47] Object-Centric Framework for Video Moment Retrieval
Zongyao Li,Yongkang Wong,Satoshi Yamazaki,Jianquan Liu,Mohan Kankanhalli
Main category: cs.CV
TL;DR: 提出基于对象中心的视频时刻检索框架,通过场景图解析提取查询相关对象,构建对象级特征序列,利用关系轨迹变换器建模对象时空关联,在多个基准测试中优于现有方法。
- Motivation: 现有视频时刻检索方法主要依赖帧级或片段级特征,这些特征主要编码全局视觉和语义信息,但往往无法捕捉细粒度的对象语义和外观。对于涉及特定实体及其交互的对象导向查询,这种表示方法效果有限,特别是对象级的时间动态变化被忽视。
- Method: 1. 使用场景图解析器提取查询相关对象;2. 从视频帧生成场景图表示对象及其关系;3. 基于场景图构建编码丰富视觉和语义信息的对象级特征序列;4. 使用关系轨迹变换器处理这些序列,建模对象间的时空相关性。
- Result: 在三个基准测试集(Charades-STA、QVHighlights、TACoS)上评估,实验结果表明该方法在所有基准测试中都优于现有的最先进方法。
- Conclusion: 通过显式捕捉对象级状态变化,该对象中心框架能够更准确地定位与对象导向查询对齐的时刻,解决了现有方法在细粒度对象语义和外观捕捉方面的局限性。
[48] Plasticine: A Traceable Diffusion Model for Medical Image Translation
Tianyang Zhanng,Xinxing Cheng,Jun Cheng,Shaoming Zheng,He Zhao,Huazhu Fu,Alejandro F Frangi,Jiang Liu,Jinming Duan
Main category: cs.CV
TL;DR: Plasticine:首个以可追溯性为核心目标的端到端图像到图像翻译框架,结合强度转换和空间变换,在去噪扩散框架中实现像素级对应关系。
- Motivation: 医学图像分析中,成像设备和人群分布差异导致领域差距问题。现有图像翻译方法主要学习域间映射,生成具有解剖尺度形状变化的合成数据,但通常忽略翻译过程中的空间对应关系。临床应用中,可追溯性(提供原始图像与翻译图像间像素级对应关系的能力)对于临床可解释性至关重要,但先前方法大多忽视了这一点。
- Method: 提出Plasticine框架,在去噪扩散框架中结合强度转换和空间变换。该方法能够生成具有可解释强度过渡和空间一致形变的合成图像,支持整个翻译过程中的像素级可追溯性。
- Result: Plasticine是首个以可追溯性为核心目标的端到端图像到图像翻译框架,能够生成具有像素级对应关系的合成医学图像。
- Conclusion: 通过将可追溯性作为核心设计目标,Plasticine解决了医学图像翻译中临床可解释性的关键需求,为临床应用提供了更可靠和可解释的图像翻译解决方案。
[49] Adaptive-VoCo: Complexity-Aware Visual Token Compression for Vision-Language Models
Xiaoyang Guo,Keze Wang
Main category: cs.CV
TL;DR: Adaptive-VoCo:一种自适应视觉压缩框架,通过轻量级预测器动态选择最佳压缩率,平衡推理效率与表示能力,在多模态任务中优于固定压缩率基线。
- Motivation: 现有视觉语言模型(如VoCo-LLaMA)使用固定压缩率压缩视觉patch token,无法适应不同图像的视觉复杂度变化,限制了模型的适应性和效率。
- Method: 在VoCo-LLaMA基础上增加轻量级预测器,利用视觉编码器的统计特征(如patch token熵和注意力图方差)量化图像复杂度,动态选择最优压缩率;引入结合率正则化和复杂度对齐的联合损失函数。
- Result: 实验结果表明,该方法在多个多模态任务中一致优于固定压缩率基线,展示了自适应视觉压缩在创建更高效、鲁棒的视觉语言模型方面的潜力。
- Conclusion: 自适应视觉压缩能有效平衡推理效率与表示能力,特别是在复杂场景下,为构建更高效、适应性更强的视觉语言模型提供了有前景的方向。
[50] PlantDiseaseNet-RT50: A Fine-tuned ResNet50 Architecture for High-Accuracy Plant Disease Detection Beyond Standard CNNs
Santwana Sagnika,Manav Malhotra,Ishtaj Kaur Deol,Soumyajit Roy,Swarnav Kumar
Main category: cs.CV
TL;DR: PlantDiseaseNet-RT50是基于ResNet50微调的深度学习模型,用于植物病害自动检测,在综合数据集上达到约98%的准确率、精确率和召回率。
- Motivation: 植物病害导致全球70-80%的作物损失,传统人工检测方法耗时耗力且不适用于大规模农业操作,需要自动化解决方案。
- Method: 基于ResNet50进行微调,采用策略性解冻层、自定义分类头(包含正则化机制)、动态学习率调度(余弦衰减),以及批归一化和dropout正则化等高级训练技术。
- Result: 在包含多种作物病害类别的综合数据集上,模型实现了约98%的准确率、精确率和召回率,表现出卓越性能。
- Conclusion: PlantDiseaseNet-RT50代表了AI驱动农业工具的重要进展,提供了计算高效的解决方案,可用于实际农业场景中的快速准确病害诊断,支持及时干预并减少作物损失。
[51] NASTaR: NovaSAR Automated Ship Target Recognition Dataset
Benyamin Hosseiny,Kamirul Kamirul,Odysseas Pappas,Alin Achim
Main category: cs.CV
TL;DR: 提出了NASTaR数据集,包含3415个从NovaSAR S波段图像提取的船舶补丁,用于SAR船舶类型分类任务,通过基准深度学习模型验证了数据集的有效性。
- Motivation: SAR能够在全天候条件下进行海上活动监测,但船舶类型分类面临挑战。现有深度学习模型需要大量高质量标注数据,而不同频率和空间分辨率的SAR卫星增多加剧了对标注数据集的需求。
- Method: 创建NASTaR数据集,包含3415个从NovaSAR S波段图像提取的船舶补丁,标签与AIS数据匹配,具有23个独特类别、近岸/离岸分离以及可见尾流的辅助尾流数据集。
- Result: 使用基准深度学习模型验证:四类主要船舶分类准确率超过60%,三类场景超过70%,区分货船与油轮超过75%,识别渔船超过87%。
- Conclusion: NASTaR数据集为SAR船舶类型分类提供了有价值的资源,通过基准测试证明了其有效性,数据集和代码已公开可用。
[52] GTMA: Dynamic Representation Optimization for OOD Vision-Language Models
Jensen Zhang,Ningyuan Liu,Keze Wang
Main category: cs.CV
TL;DR: 提出GTMA框架,通过动态表示优化解决视觉语言模型在开放世界中的OOD问题,构建连续伪词嵌入对齐视觉锚点,提升零样本性能15-20%
- Motivation: 视觉语言模型在开放世界应用中面临模态不对称问题:视觉编码器能从未见图像提取特征,但文本编码器受限于固定词汇表,无法合成新的语义锚点,导致OOD概念触发跨模态对齐崩溃,严重降低零样本性能
- Method: 提出引导目标匹配适应(GTMA)框架,在推理时构建连续伪词嵌入,使其与OOD图像的视觉锚点最佳对齐。采用自适应梯度表示策略优化算法,结合语义正则化保持合理性和与模型先验知识的兼容性
- Result: 在ImageNet-R和VISTA-Beyond基准测试中,GTMA将零样本和少样本OOD准确率提升15-20%,同时保持内分布概念的性能。消融研究证实了伪词优化的必要性
- Conclusion: GTMA通过动态表示优化有效解决了视觉语言模型的模态不对称问题,突破了预训练语义空间的限制,显著提升了开放世界应用的性能
[53] Detection of AI Generated Images Using Combined Uncertainty Measures and Particle Swarm Optimised Rejection Mechanism
Rahul Yumlembam,Biju Issac,Nauman Aslam,Eaby Kollonoor Babu,Josh Collyer,Fraser Kennedy
Main category: cs.CV
TL;DR: 提出一个基于多源不确定性融合的AI生成图像检测框架,通过Fisher信息、蒙特卡洛Dropout熵和深度核学习预测方差三种互补技术,结合粒子群优化学习最优权重和自适应拒绝阈值,在分布偏移下保持稳健检测性能。
- Motivation: 随着AI生成图像越来越逼真,区分自然图像与AI生成图像变得日益困难。现有检测方法在分布内表现良好,但在面对不同生成器带来的分布偏移时性能下降,需要更稳健的检测框架。
- Method: 采用三种互补的不确定性度量:1) Fisher信息(捕捉模型参数对输入变化的敏感性);2) 蒙特卡洛Dropout的熵不确定性(反映预测变异性);3) 深度核学习框架中高斯过程分类器的预测方差。使用粒子群优化学习这些不确定性信号的权重并确定自适应拒绝阈值。
- Result: 组合不确定性度量在未见生成器上达到约70%的错误拒绝率,成功过滤大多数误分类的AI样本。在对抗攻击下,组合方法拒绝约61%的成功攻击,而基于GP的不确定性单独可达80%。框架对自然图像和域内AI数据保持高接受率。
- Conclusion: 多源不确定性融合为AI生成图像检测提供了弹性和自适应解决方案,尽管偶尔会拒绝新生成器的正确预测,但这种保守行为是可接受的,因为被拒绝的样本可用于重新训练。
[54] WoundNet-Ensemble: A Novel IoMT System Integrating Self-Supervised Deep Learning and Multi-Model Fusion for Automated, High-Accuracy Wound Classification and Healing Progression Monitoring
Moses Kiprono
Main category: cs.CV
TL;DR: WoundNet-Ensemble:基于ResNet-50、DINOv2和Swin Transformer三种深度学习架构的集成系统,用于自动分类六种临床伤口类型,在5,175张伤口图像上达到99.90%的准确率,比现有最佳方法提升3.7%。
- Motivation: 慢性伤口(包括影响高达三分之一糖尿病患者的糖尿病足溃疡)带来了巨大的临床和经济负担,美国医疗成本每年超过250亿美元。当前伤口评估主要依赖主观判断,导致分类不一致和干预延迟。
- Method: 提出WoundNet-Ensemble系统,采用三种互补深度学习架构的集成:ResNet-50、自监督视觉Transformer DINOv2和Swin Transformer,通过加权融合策略对六种临床伤口类型进行自动分类。系统还包括纵向伤口愈合跟踪器,计算愈合率、严重程度评分并生成临床警报。
- Result: 在包含5,175张伤口图像的全面数据集上达到99.90%的集成准确率,涵盖糖尿病足溃疡、压力性溃疡、静脉性溃疡、热烧伤、藏毛窦伤口和恶性真菌肿瘤。加权融合策略比先前最先进方法提升3.7%。
- Conclusion: 这项工作展示了一个稳健、准确且可临床部署的工具,通过人工智能现代化伤口护理,满足远程医疗和远程患者监测的关键需求。实现代码和训练模型将公开提供以支持可重复性。
[55] Hierarchical Bayesian Framework for Multisource Domain Adaptation
Alexander M. Glandon,Khan M. Iftekharuddin
Main category: cs.CV
TL;DR: 本文提出了一种用于多源域适应的贝叶斯框架,通过利用不同源域分布之间的相似性来优化预训练,在人类动作识别任务上实现了17.29%的准确率提升。
- Motivation: 现有MDA方法在预训练阶段要么采用权重共享,要么使用独立训练的模型,缺乏系统性的框架。考虑到不同源域分布通常具有相似性,需要一种能够利用这种相似性的贝叶斯框架来优化MDA的预训练过程。
- Method: 提出分层贝叶斯框架,利用不同源域数据分布之间的相似性来优化多源域适应的预训练。该框架通过贝叶斯方法建模源域之间的关系,而不是采用简单的权重共享或独立训练。
- Result: 在Daily-DA RGB视频数据集的人类动作识别任务上,提出的贝叶斯框架相比现有最优MDA方法实现了17.29%的准确率提升,显著改善了识别性能。
- Conclusion: 提出的分层贝叶斯框架为多源域适应提供了一种有效的预训练方法,通过利用源域分布相似性显著提升了目标域的识别准确率,为MDA问题提供了系统性的解决方案。
[56] Enhancing Medical Large Vision-Language Models via Alignment Distillation
Aofei Chang,Ting Wang,Fenglong Ma
Main category: cs.CV
TL;DR: 提出MEDALIGN框架,通过从医学CLIP模型蒸馏视觉对齐知识来解决Med-LVLMs的幻觉问题,提升医学报告生成和VQA性能。
- Motivation: 医学大型视觉语言模型在临床应用中常因视觉理解错位而产生幻觉输出,主要由于视觉表示学习不足和视觉注意力对齐不佳两个根本限制。
- Method: 提出MEDALIGN轻量级对齐蒸馏框架,从领域特定的CLIP模型转移视觉对齐知识,包含基于视觉token级相似性结构的空间感知视觉对齐损失,以及引导注意力到诊断相关区域的注意力感知蒸馏损失。
- Result: 在医学报告生成和医学视觉问答基准上的广泛实验表明,MEDALIGN能持续提升性能和可解释性,产生更视觉基础化的输出。
- Conclusion: MEDALIGN通过解决视觉表示学习和注意力对齐问题,有效减少了Med-LVLMs的幻觉现象,为医学视觉语言模型提供了简单有效的对齐解决方案。
[57] OpenView: Empowering MLLMs with Out-of-view VQA
Qixiang Chen,Cheng Zhang,Chi-Wing Fu,Jingwen Ye,Jianfei Cai
Main category: cs.CV
TL;DR: 该论文首次研究多模态大语言模型的"视野外理解"能力,提出OpenView框架、数据集和基准测试,显著提升了MLLMs在视野外推理任务上的性能。
- Motivation: 当前多模态大语言模型主要擅长图像帧内内容的推理,但在视野外理解(即推理图像可见帧之外的物体、活动和场景)方面能力有限,这是计算机视觉和AI理解真实世界的重要能力。
- Method: 提出三方面技术贡献:1) OpenView四阶段流水线,利用全景图像生成上下文丰富、空间定位的多选VQA;2) OpenView-Dataset高质量合成数据集;3) OpenView-Bench基准测试,联合评估选择和推理准确性。
- Result: 实验结果显示,在OpenView赋能后,多个MLLMs在OOV VQA任务上的性能从平均48.6%提升到64.1%,虽然与人类表现仍有较大差距,但取得了显著改进。
- Conclusion: 该研究首次系统探索了多模态大语言模型的视野外理解能力,提出的OpenView框架、数据集和基准测试为这一重要研究方向奠定了基础,显著提升了模型在视野外推理任务上的性能。
[58] Placenta Accreta Spectrum Detection Using an MRI-based Hybrid CNN-Transformer Model
Sumaiya Ali,Areej Alhothali,Ohoud Alzamzami,Sameera Albasri,Ahmed Abduljabbar,Muhammad Alwazzan
Main category: cs.CV
TL;DR: 提出混合3D深度学习模型用于胎盘植入谱系(PAS)的自动MRI检测,结合3D DenseNet121和3D Vision Transformer,在1133个MRI体积数据集上达到84.3%准确率
- Motivation: 胎盘植入谱系(PAS)是严重的产科疾病,MRI诊断存在放射科医生解读差异大的挑战,需要提高诊断一致性和准确性
- Method: 提出混合3D深度学习模型,集成3D DenseNet121捕获局部特征和3D Vision Transformer建模全局空间上下文,在1133个MRI体积数据集上开发评估
- Result: DenseNet121-ViT模型在独立测试集上取得最高性能,五次运行平均准确率达84.3%,优于其他3D深度学习架构
- Conclusion: 混合CNN-Transformer模型作为计算机辅助诊断工具具有强大潜力,能为放射科医生提供稳健决策支持,提高PAS诊断的一致性和及时性
[59] Commercial Vehicle Braking Optimization: A Robust SIFT-Trajectory Approach
Zhe Li,Kun Cheng,Hanyue Mo,Jintao Lu,Ziwen Kuang,Jianwen Ye,Lixu Xu,Xinya Meng,Jiahui Zhao,Shengda Ji,Shuyuan Liu,Mengyu Wang
Main category: cs.CV
TL;DR: 提出基于视觉的轨迹分析方案,解决商用车AEB系统在低速时因CAN信号不准导致的"零速制动"问题,通过视频分析精确识别车辆运动状态
- Motivation: 商用车自动紧急制动系统在低速运行时,由于CAN信号不准确导致"零速制动"误触发问题,影响系统可靠性和安全性
- Method: 使用NVIDIA Jetson AGX Xavier平台处理盲区摄像头视频序列,采用自适应CLAHE增强的SIFT特征提取和KNN-RANSAC匹配,结合多帧轨迹位移统计、双阈值状态决策矩阵和OBD-II驱动的动态ROI配置
- Result: 在真实数据集(32,454个视频片段,1,852辆车)上评估:静态检测F1-score 99.96%,运动状态识别97.78%,处理延迟14.2ms;现场部署显示误制动事件减少89%,紧急制动成功率100%,故障率低于5%
- Conclusion: 该视觉轨迹分析方案有效解决了商用车AEB系统低速误触发问题,显著提升了系统可靠性和安全性,具有实际部署价值
[60] SimpleCall: A Lightweight Image Restoration Agent in Label-Free Environments with MLLM Perceptual Feedback
Jianglin Lu,Yuanwei Wu,Ziyi Zhao,Hongcheng Wang,Felix Jimenez,Abrar Majeedi,Yun Fu
Main category: cs.CV
TL;DR: 提出基于策略优化的图像修复框架,通过轻量级智能体学习工具调用序列,在无标签环境下利用多模态大语言模型作为评估器进行训练,实现高效高质量的复杂图像修复。
- Motivation: 现有基于视觉语言模型和大语言模型的修复方法存在效率瓶颈(反射、回滚、迭代工具搜索),且严重依赖需要大量标注的退化识别模型,限制了在无标签环境下的应用。
- Method: 提出策略优化修复框架:1)轻量级智能体在序列决策过程中选择最合适的修复操作;2)引入多模态大语言模型驱动的奖励机制作为人类对齐评估器,提供感知反馈以改进策略;3)训练后智能体执行确定性修复计划,避免冗余工具调用。
- Result: 在无监督情况下,方法在全参考指标上匹配SOTA性能,在无参考指标上超越现有方法,同时显著加速推理过程。
- Conclusion: 该方法解决了现有修复方法的效率瓶颈和标注依赖问题,通过策略优化和多模态大语言模型评估,实现了在无标签环境下高效高质量的复杂图像修复。
[61] Text2Graph VPR: A Text-to-Graph Expert System for Explainable Place Recognition in Changing Environments
Saeideh Yousefzadeh,Hamidreza Pourreza
Main category: cs.CV
TL;DR: Text2Graph VPR:一个可解释的视觉地点识别系统,通过将图像转换为文本描述,再解析为场景图,然后基于图结构进行地点匹配,实现透明且鲁棒的长期地点识别。
- Motivation: 长期视觉地点识别需要超越像素相似性的推理能力,系统必须做出透明、可解释的决策,并在光照、天气和季节变化下保持鲁棒性。
- Method: 将图像序列转换为文本场景描述,解析为结构化场景图(包含对象、属性和关系),聚合单帧图为紧凑的地点表示,使用双相似度机制(图注意力网络嵌入+最短路径核)进行检索。
- Result: 在Oxford RobotCar和MSLS基准测试中验证,系统在严重外观变化下实现鲁棒检索,支持零样本操作(使用人类文本查询),展示了语义图推理的可行性。
- Conclusion: 基于语义图的推理是视觉地点识别的一个可行且可解释的替代方案,特别适合安全敏感和资源受限的场景。
[62] PTTA: A Pure Text-to-Animation Framework for High-Quality Creation
Ruiqi Chen,Kaitong Cai,Yijia Fan,Keze Wang
Main category: cs.CV
TL;DR: PTTA是一个纯文本到动画的框架,通过构建高质量配对数据集并在HunyuanVideo模型上进行微调,实现了高质量的动画生成,在多个维度上优于现有基线。
- Motivation: 传统动画制作流程复杂且成本高昂。虽然Sora、Kling、CogVideoX等视频生成模型在自然视频合成上表现优异,但在动画生成方面存在明显局限。AniSora通过微调图像到视频模型展示了潜力,但文本到动画的探索仍然有限。
- Method: 首先构建小规模但高质量的动画视频与文本描述配对数据集。然后在预训练的文本到视频模型HunyuanVideo上进行微调,使其适应动画风格生成。
- Result: 通过多个维度的广泛视觉评估表明,该方法在动画视频合成方面始终优于可比基线。
- Conclusion: PTTA框架成功实现了高质量的文本到动画生成,为动画制作提供了更高效的解决方案。
[63] Uni-Neur2Img: Unified Neural Signal-Guided Image Generation, Editing, and Stylization via Diffusion Transformers
Xiyue Bai,Ronghao Yu,Jia Xiu,Pengfei Zhou,Jie Xia,Peng Ji
Main category: cs.CV
TL;DR: Uni-Neur2Img是一个统一的神经信号驱动图像生成与编辑框架,通过参数高效的LoRA模块处理多模态神经信号,使用因果注意力机制,并在多个数据集上验证了其有效性。
- Motivation: 现有神经驱动生成研究主要关注文本模态作为条件或中间表示,对视觉模态作为直接条件信号探索有限。本文旨在填补这一研究空白,开发一个能够直接从神经信号生成和编辑图像的框架。
- Method: 提出Uni-Neur2Img统一框架:1)引入参数高效的基于LoRA的神经信号注入模块,作为可插拔组件独立处理每个条件信号;2)采用因果注意力机制适应条件生成长序列建模需求;3)收集EEG-Style数据集用于评估。
- Result: 在多个数据集上进行了全面评估:1)在CVPR40数据集上进行EEG驱动的图像生成;2)在Loongx数据集上进行神经信号引导的图像编辑;3)在自收集的EEG-Style数据集上进行EEG驱动的风格迁移。实验结果表明在生成保真度、编辑一致性和风格迁移质量方面有显著提升,同时保持低计算开销和强扩展性。
- Conclusion: Uni-Neur2Img提供了一个统一、高效且可扩展的解决方案,用于桥接神经信号和视觉内容生成,在神经科学、视觉和脑机交互的交叉领域具有重要潜力。
[64] Geometric-Photometric Event-based 3D Gaussian Ray Tracing
Kai Kohyama,Yoshimitsu Aoki,Guillermo Gallego,Shintaro Shiba
Main category: cs.CV
TL;DR: 提出一个事件相机3D高斯泼溅框架,通过解耦几何和辐射渲染来平衡精度与时间分辨率,无需预训练模型或COLMAP初始化。
- Motivation: 事件相机具有高时间分辨率,但现有事件相机3D高斯泼溅方法难以充分利用稀疏事件的细粒度时间信息,需要在精度和时间分辨率之间权衡。
- Method: 将渲染解耦为两个分支:基于事件逐事件的几何(深度)渲染和基于快照的辐射(强度)渲染,使用光线追踪和变形事件图像。
- Result: 在真实数据集上达到最先进性能,在合成数据集上具有竞争力。无需预训练模型或COLMAP初始化,事件选择更灵活,边缘重建锐利,训练速度快。
- Conclusion: 该方法深化了对稀疏事件在3D重建中作用的理解,为事件相机3D高斯泼溅提供了更灵活的解决方案。
[65] Adversarial Robustness in Zero-Shot Learning:An Empirical Study on Class and Concept-Level Vulnerabilities
Zhiyuan Peng,Zihan Ye,Shreyank N Gowda,Yuping Yan,Haotian Xu,Ling Shao
Main category: cs.CV
TL;DR: 该论文对零样本学习模型的鲁棒性进行了实证分析,发现现有ZSL方法在类别级和概念级攻击下都很脆弱,并提出了新的攻击方法来完全消除GZSL性能。
- Motivation: 虽然零样本学习模型承诺提高泛化能力和可解释性,但其在系统性输入扰动下的鲁棒性尚不清楚。作者旨在实证分析现有ZSL方法在类别级和概念级攻击下的脆弱性。
- Method: 1) 在类别级攻击中,使用非目标类别攻击(clsA)并发现其在GZSL设置中的局限性;2) 提出类别偏差增强攻击(CBEA)来完全消除GZSL性能;3) 在概念级攻击中,引入类保持概念攻击(CPconA)和非类保持概念攻击(NCPconA);4) 对过去三年的三种典型ZSL模型进行广泛实验评估。
- Result: 实验表明:1) ZSL模型对传统类别攻击很脆弱;2) 在GZSL中,clsA攻击仅在原始最佳校准点成功,攻击后最佳校准点会偏移;3) CBEA攻击能完全消除GZSL在所有校准点的准确性;4) ZSL模型对概念攻击也很脆弱,攻击者可以通过擦除或引入概念来操纵类别预测。
- Conclusion: ZSL模型在类别级和概念级攻击下都存在显著脆弱性,现有方法之间存在明显的性能差距,强调了当前ZSL模型需要改进对抗鲁棒性的迫切需求。
[66] SplatBright: Generalizable Low-Light Scene Reconstruction from Sparse Views via Physically-Guided Gaussian Enhancement
Yue Wen,Liang Song,Hesheng Wang
Main category: cs.CV
TL;DR: SplatBright是首个通用的3D高斯框架,用于从稀疏sRGB输入进行联合低光增强和重建,通过物理引导的照明建模和几何-外观解耦实现一致的低光重建。
- Motivation: 稀疏视图下的低光3D重建面临曝光不平衡和颜色保真度下降的挑战,现有方法存在视图不一致性和需要逐场景训练的问题。
- Method: 采用双分支预测器稳定初始化3D高斯几何参数;外观方面利用频率先验实现可控的跨视图一致照明,并通过外观细化模块分离照明、材质和视图相关线索;使用基于物理的相机模型合成暗视图进行训练。
- Result: 在公开和自收集数据集上的实验表明,SplatBright在新颖视图合成、跨视图一致性和对未见低光场景的泛化能力方面优于现有2D和3D方法。
- Conclusion: SplatBright通过整合物理引导的照明建模和几何-外观解耦,首次实现了从稀疏sRGB输入进行通用低光增强和3D重建,解决了现有方法的局限性。
[67] PMPGuard: Catching Pseudo-Matched Pairs in Remote Sensing Image-Text Retrieval
Pengxiang Ouyang,Qing Ma,Zheng Wang,Cong Bai
Main category: cs.CV
TL;DR: 提出一种新的遥感图像-文本检索框架,通过跨模态门控注意力和正负感知注意力机制来处理伪匹配对问题,在多个基准数据集上达到SOTA性能。
- Motivation: 现实世界遥感数据集中存在大量伪匹配对(语义不匹配或弱对齐的图像-文本对),这些噪声关联阻碍了可靠的跨模态对齐学习,需要专门的方法来处理这种挑战。
- Method: 提出包含跨模态门控注意力和正负感知注意力机制的检索框架:门控模块动态调节跨模态信息流;感知机制在对齐学习中明确区分信息性(正面)线索和误导性(负面)线索。
- Result: 在RSICD、RSITMD和RS5M三个遥感基准数据集上的大量实验表明,该方法始终达到最先进的性能,证明了其在处理真实世界不匹配和伪匹配对方面的鲁棒性和有效性。
- Conclusion: 所提出的框架通过创新的注意力机制有效缓解了伪匹配对问题,为遥感图像-文本检索任务提供了一种鲁棒的解决方案,能够处理现实数据集中的噪声关联。
[68] SmartSight: Mitigating Hallucination in Video-LLMs Without Compromising Video Understanding via Temporal Attention Collapse
Yiming Sun,Mi Zhang,Feifei Li,Geng Hong,Min Yang
Main category: cs.CV
TL;DR: SmartSight提出了一种无需训练的方法,通过模型自省能力减少视频大语言模型的感知幻觉,同时保持视频理解能力
- Motivation: 视频大语言模型存在严重的感知幻觉问题,限制了实际应用。现有缓解方法往往损害模型的视频理解和推理能力
- Method: SmartSight采用训练免费方法:1)生成多个候选响应以发现低幻觉输出;2)使用时序注意力崩溃分数评估每个响应的幻觉程度;3)通过视觉注意力消失点提高效率,实现准确幻觉估计和早期终止
- Result: 在Qwen2.5-VL-7B上,SmartSight将VRIPT-HAL的幻觉降低10.59%,同时在VideoMMMU上将性能提升高达8.86%
- Conclusion: SmartSight有效提高了开源视频大语言模型的可靠性,在减少幻觉的同时增强了视频理解和推理能力
[69] AsyncDiff: Asynchronous Timestep Conditioning for Enhanced Text-to-Image Diffusion Inference
Longhuan Xu,Feng Yin,Cunjian Chen
Main category: cs.CV
TL;DR: 提出异步推理机制,将潜在状态更新与去噪器条件时间步解耦,通过轻量级时间步预测模块选择更可行的条件时间步,在有限推理步数下提升图像生成质量。
- Motivation: 传统文本到图像扩散推理采用同步调度,数值积分器将潜在状态推进到与去噪器条件相同的时间步。这种同步机制限制了推理灵活性,作者希望通过解耦这两个过程来提升生成质量。
- Method: 提出异步推理机制,将潜在状态更新与去噪器条件时间步解耦。使用轻量级时间步预测模块(TPM),通过Group Relative Policy Optimization(GRPO)训练,根据当前状态选择更可行的条件时间步。部署时可通过缩放超参数在原时间步和解耦时间步之间插值。
- Result: 在Stable Diffusion 3.5 Medium和Flux.1-dev上评估,使用MS-COCO 2014和T2I-CompBench数据集。方法优化了综合奖励(Image Reward、HPSv2、CLIP Score和Pick Score的平均值),并显示出持续改进。为控制计算成本,将SD3.5推理步数限制在15步,Flux限制在10步。
- Conclusion: 异步推理机制通过解耦潜在状态更新和去噪器条件时间步,允许更灵活地控制图像细节和纹理丰富度,在有限推理步数下有效提升图像生成质量。
[70] brat: Aligned Multi-View Embeddings for Brain MRI Analysis
Maxime Kayser,Maksim Gridnev,Wanting Wang,Max Bain,Aneesh Rangnekar,Avijit Chatterjee,Aleksandr Petrov,Harini Veeraraghavan,Nathaniel C. Swinburne
Main category: cs.CV
TL;DR: BRAT是一个用于脑部MRI的多视角表示学习框架,通过将MRI扫描与临床报告对齐进行预训练,在多个视觉-语言和视觉任务上表现出显著性能提升。
- Motivation: 脑部MRI存在独特挑战:存在大量、高度变化且通常微小的异常,这些异常仅局限于3D体积中的少数切片。现有数据集规模不足,需要更好的表示学习方法。
- Method: 1) 构建了比现有数据集大10倍的脑部MRI数据集(约80,000个3D扫描及对应放射学报告);2) 提出受文档检索启发的多视角预训练方法;3) 开发隐式查询-特征匹配机制;4) 采用质量-多样性概念获得与报告句子临床特征对齐的多视角MRI嵌入。
- Result: 在多个视觉-语言和视觉任务上展示了显著的性能改进。BRAT基础模型已公开发布。
- Conclusion: BRAT框架通过大规模数据集和多视角表示学习方法,成功解决了脑部MRI分析中的挑战,为脑部影像分析提供了有效的预训练模型。
[71] A Study of Finetuning Video Transformers for Multi-view Geometry Tasks
Huimin Wu,Kwang-Ting Cheng,Stephen Lin,Zhirong Wu
Main category: cs.CV
TL;DR: 通过微调视频基础模型,将通用视觉Transformer应用于多视角几何任务(如光流估计),仅需添加线性解码器即可达到SOTA性能
- Motivation: 探索是否可以通过微调通用视频预训练模型来解决多视角几何任务,避免传统方法需要定制架构设计和任务特定预训练的复杂性
- Method: 在视频预训练的Transformer骨干网络上附加线性解码器,利用注意力机制学习时空信息进行几何推理,并通过迭代细化进一步提升性能
- Result: 在光流估计任务上取得优异结果:Sintel clean EPE 0.69,Sintel final EPE 1.78,KITTI EPE 3.15;在线测试基准上创下新记录;在3D深度估计和立体匹配任务上也表现强劲
- Conclusion: 通用视频预训练模型通过简单微调即可有效解决多视角几何任务,证明了注意力机制学习时空信息的能力和视频基础模型的广泛适用性
[72] EcoSplat: Efficiency-controllable Feed-forward 3D Gaussian Splatting from Multi-view Images
Jongmin Park,Minh-Quan Viet Bui,Juan Luis Gonzalez Bello,Jaeho Moon,Jihyong Oh,Munchurl Kim
Main category: cs.CV
TL;DR: EcoSplat:首个效率可控的前馈3D高斯泼溅框架,可根据目标基元数量自适应预测3D表示
- Motivation: 现有前馈3DGS方法在密集视图设置中会产生过多基元,且无法控制预测的高斯数量,限制了其在灵活下游渲染任务中的应用
- Method: 采用两阶段优化:第一阶段像素对齐高斯训练学习初始基元预测;第二阶段重要性感知高斯微调学习基元排序并根据目标基元数量自适应调整参数
- Result: 在多个密集视图设置下的实验表明,EcoSplat在严格基元数量约束下优于现有方法,具有鲁棒性
- Conclusion: EcoSplat为灵活的下游渲染任务提供了效率可控的3D表示预测框架,解决了现有方法基元数量不可控的问题
[73] Rectification Reimagined: A Unified Mamba Model for Image Correction and Rectangling with Prompts
Linwei Qiu,Gongzhe Li,Xiaozhe Zhang,Qinlin Sun,Fengying Xie
Main category: cs.CV
TL;DR: UniRect是一个统一的图像校正框架,通过模拟不同类型镜头将多种任务特定逆问题整合到通用畸变模型中,采用任务无关的双组件结构(变形模块和恢复模块)处理多样化畸变,并在多任务学习中实现SOTA性能。
- Motivation: 现有图像校正方法主要依赖任务特定架构,这严重限制了它们的泛化能力和在不同任务间的有效应用。需要一种统一的方法来处理多种图像校正任务。
- Method: 提出UniRect统一校正框架:1)通过模拟不同类型镜头将各种任务特定逆问题整合到通用畸变模型中;2)采用任务无关的双组件结构:变形模块使用残差渐进薄板样条(RP-TPS)处理复杂几何变形,恢复模块使用残差Mamba块(RMBs)对抗变形过程中的退化并增强输出保真度;3)设计稀疏专家混合(SMoEs)结构避免多任务学习中因不同畸变导致的严重任务竞争。
- Result: 大量实验表明,该模型相比其他最新方法实现了最先进的性能。
- Conclusion: UniRect提供了一个全面的统一框架,从一致的畸变校正角度处理多种实际图像校正任务,通过通用畸变模型和任务无关架构实现了优异的性能和泛化能力。
[74] Breast Cancer Recurrence Risk Prediction Based on Multiple Instance Learning
Jinqiu Chen,Huyan Xu
Main category: cs.CV
TL;DR: 使用三种多实例学习框架(CLAM-SB、ABMIL、ConvNeXt-MIL-XGBoost)对210例乳腺癌患者H&E全切片图像进行深度学习分析,预测5年复发风险分层,最佳模型AUC达0.836,准确率76.2%。
- Motivation: 预测乳腺癌复发风险是临床关键挑战,需要开发基于常规病理切片的自动化风险分层方法,以替代昂贵的基因组检测。
- Method: 使用三种MIL框架(CLAM-SB、ABMIL、ConvNeXt-MIL-XGBoost)分析210例患者H&E全切片图像,基于21基因复发评分作为金标准,使用UNI和CONCH预训练模型提取特征,采用5折交叉验证评估性能。
- Result: 改进的CLAM-SB模型表现最佳,平均AUC为0.836,分类准确率76.2%,成功将患者分为低、中、高三个风险等级。
- Conclusion: 深度学习结合常规组织学切片可实现与基因组学相关的自动化风险分层,为快速、经济高效的临床决策支持提供了有前景的途径。
[75] : A "Spot the Difference" Challenge for Large Multimodal Models
Kewei Wei,Bocheng Hu,Jie Cao,Xiaohan Chen,Zhengxi Lu,Wubing Xia,Weili Xu,Jiaao Wu,Junchen He,Mingyu Jia,Ciyun Zhao,Ye Sun,Yizhi Li,Zhonghan Zhao,Jian Zhang,Gaoang Wang
Main category: cs.CV
TL;DR: M³-Verse是一个多模态、多状态、多维度的基准测试,用于评估大型多模态模型在共享空间环境中跟踪物体状态变化的能力,包含270个场景和2932个问题,覆盖50多个子任务。
- Motivation: 当前大型多模态模型在静态图像和单状态时空理解方面表现出色,但在理解两个不同视频观察中共享空间环境下物体动态变化的能力尚未充分探索,这种在一致环境中推理变换的能力对空间智能发展至关重要。
- Method: 基于成对视频构建基准测试,这些视频提供室内场景在状态变化前后的多视角观察。包含270个场景和2932个问题,分为50多个子任务,测试4个核心能力。评估了16个最先进的LMMs,并提出简单有效的基线方法。
- Result: 评估发现现有LMMs在跟踪状态转换方面存在局限性。提出的基线方法在多状态感知方面实现了显著的性能提升,M³-Verse为下一代模型开发提供了具有挑战性的测试平台。
- Conclusion: M³-Verse基准测试填补了多模态模型在动态视觉世界理解方面的空白,为开发具有更全面动态视觉理解能力的下一代模型提供了重要工具和测试平台。
[76] AMLID: An Adaptive Multispectral Landmine Identification Dataset for Drone-Based Detection
James E. Gallagher,Edward J. Oughton
Main category: cs.CV
TL;DR: AMLID是首个结合RGB和LWIR图像的开源无人机地雷检测数据集,包含12,078张标记图像,涵盖21种全球部署的地雷类型,旨在推动人道主义排雷研究。
- Motivation: 地雷仍然是严重的人道主义威胁,全球约有1.1亿枚地雷分布在60个国家,每年造成约26,000人伤亡。现有检测方法危险、低效且成本高昂,需要更安全有效的解决方案。
- Method: 创建了自适应多光谱地雷识别数据集(AMLID),这是首个结合RGB和长波红外(LWIR)图像的开源无人机数据集。数据集包含12,078张标记图像,涵盖21种全球部署的地雷类型,包括反人员和反坦克类别,金属和塑料材质。数据集覆盖11种RGB-LWIR融合级别、4种传感器高度、2个季节时期和3种日常光照条件。
- Result: AMLID提供了全面的多光谱覆盖,跨越多种环境变量,使研究人员能够开发和基准测试自适应检测算法,无需接触实弹或昂贵的数据收集基础设施。
- Conclusion: AMLID数据集民主化了人道主义排雷研究,为开发更安全、高效的地雷检测算法提供了重要资源,有望推动该领域的技术进步。
[77] Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation
Tianrui Zhu,Shiyi Zhang,Zhirui Sun,Jingqi Tian,Yansong Tang
Main category: cs.CV
TL;DR: 提出MAG框架,通过分离内存压缩和帧生成任务,解决长视频生成中历史信息保留与内存消耗的矛盾。
- Motivation: 当前帧级自回归模型在长视频生成中面临两难:窗口注意力会丢弃历史上下文导致场景不一致,而保留完整历史则内存成本过高。
- Method: 提出MAG框架,将内存压缩和帧生成解耦为独立任务:训练内存模型将历史信息压缩为紧凑的KV缓存,训练生成器模型利用该压缩表示合成后续帧。
- Result: MAG在保持标准视频生成基准竞争力的同时,实现了优异的历史场景一致性,并通过MAG-Bench严格评估历史记忆保留能力。
- Conclusion: MAG框架有效解决了长视频生成中历史信息保留与计算效率的平衡问题,为交互式世界模型和游戏引擎提供了更好的基础。
[78] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search
Kaican Li,Lewei Yao,Jiannan Wu,Tiezheng Yu,Jierun Chen,Haoli Bai,Lu Hou,Lanqing Hong,Wei Zhang,Nevin L. Zhang
Main category: cs.CV
TL;DR: 提出O3-Bench基准测试评估多模态推理能力,并开发InSight-o3框架,通过视觉搜索代理(vSearcher)增强前沿多模态模型的性能
- Motivation: 当前开源多模态代理在推理能力方面不足,难以处理包含密集图表/示意图的文档分析和地图导航等现实任务
- Method: 1) 创建O3-Bench基准测试评估多模态推理;2) 提出InSight-o3多代理框架,包含视觉推理代理(vReasoner)和视觉搜索代理(vSearcher);3) 通过强化学习训练专门的多模态LLM执行广义视觉搜索任务
- Result: O3-Bench对前沿系统如OpenAI o3具有挑战性(仅40.8%准确率);InSight-o3的vSearcher作为即插即用代理,显著提升了多种前沿多模态模型在广泛基准测试上的性能
- Conclusion: InSight-o3框架通过专门的视觉搜索代理增强多模态推理能力,为实现强大的类o3开源系统迈出了具体一步
[79] IPCV: Information-Preserving Compression for MLLM Visual Encoders
Yuan Chen,Zichen Wen,Yuzhou Wu,Xuyang Liu,Shuang Chen,Junpeng Ma,Weijia Li,Conghui He,Linfeng Zhang
Main category: cs.CV
TL;DR: IPCV是一种无需训练的多模态大语言模型视觉编码器压缩框架,通过邻居引导重建和注意力稳定化技术,在ViT内部进行激进token剪枝,显著降低计算成本同时保持性能。
- Motivation: 现有token剪枝策略存在不足:LLM阶段的token剪枝忽略了ViT编码器的开销,而传统的ViT token剪枝缺乏语言指导,可能丢弃对文本理解关键的视觉线索,并因ViT的双向注意力机制引入特征失真。
- Method: 提出IPCV框架,包含:1)邻居引导重建(NGR):在ViT内部进行激进token剪枝,但临时重建被剪枝的token参与注意力计算,最小化开销,在传递给LLM前完全恢复;2)注意力稳定化(AS):通过近似被剪枝token的K/V来减轻剪枝的负面影响,可直接应用于现有的LLM侧token剪枝方法。
- Result: IPCV显著减少了端到端计算成本,在多种图像和视频基准测试中优于最先进的无训练token压缩方法。
- Conclusion: IPCV是一个有效的训练免费压缩框架,通过创新的token重建和注意力稳定技术,在保持多模态大语言模型性能的同时大幅降低视觉编码器的计算开销。
[80] Context-Aware Network Based on Multi-scale Spatio-temporal Attention for Action Recognition in Videos
Xiaoyang Li,Wenzhu Yang,Kanglin Wang,Tiebiao Wang,Qingsong Fei
Main category: cs.CV
TL;DR: 提出CAN网络用于动作识别,通过多尺度时空线索模块有效捕捉不同粒度的动作特征,在多个基准数据集上取得竞争性性能。
- Motivation: 现有动作识别方法往往忽视动作的多粒度特性,需要更全面地捕捉不同尺度的时空线索。
- Method: 提出上下文感知网络(CAN),包含两个核心模块:多尺度时间线索模块(MTCM)提取多尺度时间特征,组空间线索模块(GSCM)通过分组特征图提取多尺度空间特征。
- Result: 在五个基准数据集上取得竞争性性能:Something-Something V1 (50.4%)、V2 (63.9%)、Diving48 (88.4%)、Kinetics-400 (74.9%)、UCF101 (86.9%),优于大多数主流方法。
- Conclusion: 捕捉多尺度时空线索对于鲁棒的动作识别至关重要,CAN网络通过其多粒度特征提取能力有效提升了动作识别性能。
[81] MaskFocus: Focusing Policy Optimization on Critical Steps for Masked Image Generation
Guohui Zhang,Hu Yu,Xiaoxiao Ma,Yaning Pan,Hang Xu,Feng Zhao
Main category: cs.CV
TL;DR: MaskFocus:针对掩码生成模型的强化学习框架,通过聚焦关键步骤实现有效策略优化
- Motivation: 强化学习在语言模型和自回归视觉生成模型的后训练中表现出潜力,但难以适应掩码生成模型。主要挑战在于策略优化需要考虑每个步骤的概率似然,导致计算成本高,而随机步骤优化效果不佳。
- Method: 提出MaskFocus框架:1)通过测量中间图像与最终生成图像的相似度确定步骤级信息增益;2)识别最关键和有价值的步骤进行聚焦策略优化;3)基于熵设计动态路由采样机制,鼓励模型为低熵样本探索更有价值的掩码策略。
- Result: 在多个文本到图像基准测试上进行广泛实验,验证了方法的有效性。
- Conclusion: MaskFocus成功解决了掩码生成模型中强化学习应用的挑战,通过聚焦关键步骤实现了有效的策略优化。
[82] In-Context Audio Control of Video Diffusion Transformers
Wenze Liu,Weicai Ye,Minghong Cai,Quande Liu,Xintao Wang,Xiangyu Yue
Main category: cs.CV
TL;DR: 提出ICAC框架,在视频扩散Transformer中集成音频控制,通过Masked 3D Attention机制实现语音驱动视频生成,解决传统方法在音频条件处理上的不足。
- Motivation: 当前视频生成模型主要关注文本、图像和深度图等模态,而严格时间同步的音频信号被忽视。需要探索在统一注意力架构中集成音频条件的方法,实现语音驱动的视频生成。
- Method: 提出ICAC框架,系统探索三种音频注入机制:标准交叉注意力、2D自注意力和统一3D自注意力。针对3D注意力的训练挑战,提出Masked 3D Attention机制,通过约束注意力模式强制时间对齐,实现稳定训练。
- Result: 实验表明该方法在音频流和参考图像条件下,实现了良好的唇形同步和视频质量。Masked 3D Attention机制克服了训练困难,表现出优越性能。
- Conclusion: ICAC框架成功将音频信号集成到视频生成中,通过创新的Masked 3D Attention机制解决了音频-视觉时空相关性的建模挑战,为语音驱动视频生成提供了有效解决方案。
[83] Eff-GRot: Efficient and Generalizable Rotation Estimation with Transformers
Fanis Mathioulakis,Gorjan Radevski,Tinne Tuytelaars
Main category: cs.CV
TL;DR: Eff-GRot:一种从RGB图像进行高效且可泛化的旋转估计方法,通过单次前向传播直接预测物体旋转,无需特定物体或类别的训练
- Motivation: 现有旋转估计方法通常需要特定物体或类别的训练,计算效率不高,难以在延迟敏感的应用中部署。需要一种更高效、可泛化的旋转估计方法
- Method: 使用transformer在潜在空间中进行比较,联合处理来自多个参考图像的旋转感知表示和查询图像,实现端到端的旋转预测
- Result: 实验结果表明Eff-GRot在准确性和计算效率之间取得了良好平衡,特别适合延迟敏感的应用场景
- Conclusion: Eff-GRot为更高效的旋转估计提供了有前景的方向,具有简单、可扩展和完全端到端的优势
[84] Tempo as the Stable Cue: Hierarchical Mixture of Tempo and Beat Experts for Music to 3D Dance Generation
Guangtao Lyu,Chenghao Xu,Qi Liu,Jiexi Yan,Muli Yang,Fen Fang,Cheng Deng
Main category: cs.CV
TL;DR: TempoMoE:基于节奏感知的混合专家模块,通过分层节奏自适应路由实现音乐到3D舞蹈的生成,无需人工流派标签,在舞蹈质量和节奏对齐方面达到SOTA。
- Motivation: 现有音乐到3D舞蹈生成方法通常依赖额外的流派标签来改进生成效果,但这些标签通常存在噪声、粗糙、不可用或不足以捕捉真实世界音乐的多样性,导致节奏错位或风格漂移。作者观察到节奏(tempo)作为反映音乐节奏和速度的核心属性,在不同数据集和流派中保持相对一致(60-200 BPM),因此提出利用节奏信息替代流派标签。
- Method: 提出TempoMoE,一个分层节奏感知的混合专家模块,用于增强扩散模型及其节奏感知能力。该方法将运动专家组织成按节奏范围分组的结构,包含多尺度节拍专家来捕捉细粒度和长程节奏动态。采用分层节奏自适应路由机制,根据音乐特征动态选择和融合专家,实现灵活、节奏对齐的生成,无需人工流派标签。
- Result: 大量实验表明,TempoMoE在舞蹈质量和节奏对齐方面取得了最先进的结果,证明了基于节奏的方法优于依赖流派标签的传统方法。
- Conclusion: 通过利用节奏这一核心音乐属性,TempoMoE能够实现高质量、节奏对齐的3D舞蹈生成,无需依赖噪声或不可用的流派标签,为音乐到舞蹈生成提供了一种更可靠和灵活的方法。
[85] FedVideoMAE: Efficient Privacy-Preserving Federated Video Moderation
Ziyuan Tao,Chuanzhi Xu,Sandaru Jayawardana,Wei Bao,Kanchana Thilakarathna,Teng Joon Lim
Main category: cs.CV
TL;DR: 提出基于设备端的联邦学习框架用于视频暴力检测,集成自监督VideoMAE表示、LoRA参数高效适配和深度防御隐私保护,显著减少通信成本和隐私风险。
- Motivation: 短视频平台快速增长需要隐私保护的内容审核,云端处理存在隐私泄露风险、高带宽成本和推理延迟问题。
- Method: 采用设备端联邦学习框架,结合自监督VideoMAE表示学习、LoRA参数高效微调、DP-SGD差分隐私和安全聚合技术。
- Result: 在RWF-2000数据集上,40个客户端达到77.25%准确率(无隐私保护),强差分隐私下65-66%准确率,通信成本比全模型联邦学习减少28.3倍。
- Conclusion: 提出的框架在保护隐私的同时实现了高效的视频暴力检测,显著降低了通信开销和隐私风险,适用于实际部署。
[86] Revealing Perception and Generation Dynamics in LVLMs: Mitigating Hallucinations via Validated Dominance Correction
Guangtao Lyu,Xinyi Cheng,Chenghao Xu,Qi Liu,Muli Yang,Fen Fang,Huilin Chen,Jiexi Yan,Xu Yang,Cheng Deng
Main category: cs.CV
TL;DR: 论文提出VDC策略,通过分析LVLMs内部视觉感知和token生成的模式来减少幻觉问题
- Motivation: 大型视觉语言模型(LVLMs)虽然表现出色,但幻觉问题仍然持续存在,需要系统性分析其内部工作机制来缓解这一问题
- Method: 1. 分析LVLMs内部视觉感知的三阶段GATE过程(全局扫描、接近收紧、探索补充区域);2. 识别token生成的SAD模式(从次主导token累积到主导token);3. 提出VDC策略,检测无支持的token并用验证过的主导token替换
- Result: 在多个模型和基准测试上的广泛实验证实,VDC策略能显著减轻幻觉问题
- Conclusion: 通过深入分析LVLMs的内部工作机制,提出的VDC策略能有效提高输出可靠性,为缓解幻觉问题提供了新思路
[87] EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer
Yuxiao Yang,Hualian Sheng,Sijia Cai,Jing Lin,Jiahao Wang,Bing Deng,Junzhe Lu,Haoqian Wang,Jieping Ye
Main category: cs.CV
TL;DR: EchoMotion是一个用于生成复杂人体动作视频的框架,通过联合建模外观和人体运动分布,解决了现有视频生成模型在人体运动合成上的局限性。
- Motivation: 当前视频生成模型在合成复杂人体运动方面存在困难,因为像素级训练目标偏向外观保真度而忽略了运动学原理。需要一种能同时建模外观和人体运动的方法来提升人体动作视频生成质量。
- Method: 1. 扩展DiT框架为双分支架构,联合处理不同模态的token;2. 提出MVS-RoPE(运动-视频同步RoPE),为视频和运动token提供统一的3D位置编码;3. 采用运动-视频两阶段训练策略;4. 构建HuMoVe数据集(约80,000个高质量人体视频-运动对)。
- Result: 显式表示人体运动与外观互补,显著提升了人体中心视频生成的连贯性和合理性。模型能够联合生成复杂人体动作视频及其对应运动序列,并执行跨模态条件生成任务。
- Conclusion: 通过联合建模外观和人体运动分布,EchoMotion框架有效解决了视频生成中人体运动的合成问题,证明了运动表示对于提升人体动作视频生成质量的重要性。
[88] Brain-Gen: Towards Interpreting Neural Signals for Stimulus Reconstruction Using Transformers and Latent Diffusion Models
Hasib Aslam,Muhammad Talal Faiz,Muhammad Imran Malik
Main category: cs.CV
TL;DR: 提出基于Transformer的框架,从EEG信号中提取时空表征,结合到潜在扩散模型的注意力机制中,实现从脑活动重建视觉刺激
- Motivation: 尽管神经科学和AI在脑活动解码方面取得进展,但EEG信号的高噪声、空间扩散和时间变异性限制了神经表征的可解释性。需要更好地理解思维背后的神经机制
- Method: 提出Transformer框架从EEG记录中提取与视觉刺激相关的时空表征,将这些特征整合到潜在扩散模型(LDMs)的注意力机制中,实现从脑活动重建视觉刺激
- Result: 在公开基准数据集上,该方法在EEG信号语义结构建模方面表现优异:潜在空间聚类准确率提升6.5%,未见类别零样本泛化提升11.8%,同时保持与现有基线相当的Inception Score和Fréchet Inception Distance
- Conclusion: 该工作标志着向EEG信号可泛化语义解释迈出了重要一步,为理解思维背后的神经机制提供了新方法
[89] VizDefender: Unmasking Visualization Tampering through Proactive Localization and Intent Inference
Sicheng Song,Yanjie Zhang,Zixin Chen,Huamin Qu,Changbo Wang,Chenhui Li
Main category: cs.CV
TL;DR: 提出VizDefender框架,通过半脆弱水印和MLLM意图分析来检测和分析数据可视化篡改
- Motivation: 数据可视化的完整性受到图像编辑技术的威胁,需要检测和分析篡改行为
- Method: 1) 半脆弱水印模块嵌入位置图以精确定位篡改区域;2) 意图分析模块利用多模态大语言模型解释篡改意图
- Result: 广泛的评估和用户研究证明了方法的有效性
- Conclusion: VizDefender框架能够有效保护数据可视化免受篡改威胁
[90] Cross-modal Counterfactual Explanations: Uncovering Decision Factors and Dataset Biases in Subjective Classification
Alina Elena Baia,Andrea Cavallaro
Main category: cs.CV
TL;DR: DeX框架通过跨模态分解和图像特定概念生成自然语言反事实解释,用于图像隐私决策分析,无需训练即可揭示主观决策因素和数据集偏见。
- Motivation: 图像隐私决策具有情境性和主观性,需要可解释的AI方法来理解模型决策背后的因素。现有方法在生成图像特定、稀疏的自然语言解释方面存在不足。
- Method: DeX框架利用跨模态分解性和图像特定概念,通过多准则选择机制(考虑图像相似性和决策置信度)识别关键决策因素,生成自然语言反事实解释。
- Result: DeX在图像隐私决策领域显著优于现有技术,能够揭示主观决策的主要影响因素,识别数据集偏见,并为针对性公平性改进提供策略。
- Conclusion: DeX作为一个无需训练的灵活框架,通过图像特定的自然语言反事实解释,有效提升了AI决策的可解释性,特别是在主观决策场景中,并能帮助发现和缓解数据集偏见。
[91] Application of deep learning approaches for medieval historical documents transcription
Maksym Voloshchuk,Bohdana Zarembovska,Mykola Kozlenko
Main category: cs.CV
TL;DR: 提出一种深度学习方法来处理9-11世纪拉丁语手写文献的文本提取,针对中世纪文献特性进行优化,包含数据集开发、模型管道设计,并报告了多种评估指标。
- Motivation: 现有手写文本识别和光学字符识别解决方案对现代数据效果良好,但对中世纪拉丁文献效率下降,需要专门方法处理9-11世纪手写拉丁语文献。
- Method: 开发针对中世纪文献特性的深度学习管道,包括数据集开发、对象检测、使用分类模型和嵌入词图像进行单词识别等步骤。
- Result: 报告了召回率、精确率、F1分数、交并比、混淆矩阵和平均字符串距离等多种评估指标,并提供了指标图表,代码已在GitHub发布。
- Conclusion: 提出了一种专门针对中世纪拉丁手写文献的文本提取方法,通过考虑文献特性改进了识别效果,为历史文献转录领域提供了实用解决方案。
[92] CrashChat: A Multimodal Large Language Model for Multitask Traffic Crash Video Analysis
Kaidi Liang,Ke Li,Xianbiao Hu,Ruwen Qin
Main category: cs.CV
TL;DR: 提出CrashChat,一个基于VideoLLaMA3的多模态大语言模型,用于多任务交通事故视频分析,通过指令微调和任务解耦分组策略实现优异性能。
- Motivation: 交通事故视频分析对交通安全研究和自动驾驶责任认定至关重要,但现有模型无法在统一框架内完成识别、时间定位和高级理解等多任务,且训练策略不足。
- Method: 基于VideoLLaMA3构建多模态大语言模型,通过指令微调获取领域知识,采用任务解耦分组的多任务学习策略,最大化组内和跨组联合学习效益,减少负迁移。
- Result: 在公开数据集上超越现有MLLM和传统视觉方法,达到SOTA:碰撞识别接近完美准确率,碰撞定位提升176%,预碰撞定位提升40%;在描述和推理任务中,BLEU和ROUGE分数显著提升。
- Conclusion: CrashChat是一个性能强大、端到端的实用分析工具,为交通事故视频分析提供了统一的多任务解决方案,代码和数据集已开源。
[93] Localising Shortcut Learning in Pixel Space via Ordinal Scoring Correlations for Attribution Representations (OSCAR)
Akshit Achara,Peter Triantafillou,Esther Puyol-Antón,Alexander Hammers,Andrew P. King
Main category: cs.CV
TL;DR: OSCAR是一个模型无关的框架,用于量化深度学习中的捷径学习并定位捷径特征,通过将任务归因图转换为数据集级排名配置文件,并比较平衡基线、测试模型和敏感属性预测器之间的相关性来评估捷径依赖程度。
- Motivation: 深度神经网络经常利用捷径特征(与输出标签相关但与任务语义无关的虚假线索),当这些特征与敏感属性相关时会导致模型偏见。现有方法主要基于定性、图像级检查,且假设线索是人类可见的,限制了在医学影像等领域的应用。
- Method: OSCAR将图像级任务归因图转换为数据集级图像区域排名配置文件,比较三个模型:平衡基线模型(BA)、测试模型(TS)和敏感属性预测器(SA)。通过计算这些排名配置文件之间的成对、部分和偏差相关性,生成量化捷径依赖程度的指标,并识别贡献最大的图像区域。
- Result: 在CelebA、CheXpert和ADNI数据集上的实验表明,OSCAR的相关性指标:(i)在不同种子和分区下稳定,(ii)对训练数据中捷径特征与输出标签的关联程度敏感,(iii)能够区分局部化和扩散的捷径特征。使用基于识别捷径区域的简单测试时衰减方法可以减少最差组性能差异。
- Conclusion: OSCAR提供了一个轻量级的像素空间审计工具,能够生成统计决策规则和空间映射,使用户能够测试、定位和缓解捷径依赖问题,为模型公平性和可解释性提供了实用工具。
[94] Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs
Dmitry Demidov,Zaigham Zaheer,Zongyan Han,Omkar Thawakar,Rao Anwer
Main category: cs.CV
TL;DR: FiNDR:首个基于推理增强大语言模型的无词汇表细粒度图像识别框架,通过三步自动化流程实现超越传统方法的性能
- Motivation: 现有无词汇表细粒度图像识别方法存在局限性:要么依赖大型固定词汇表,要么使用复杂脆弱的多阶段流程。而大语言模型具备视觉语言理解、问题分解、知识检索和自校正能力,为这一问题提供了更原则性和有效的解决方案。
- Method: FiNDR采用三步自动化流程:1)推理增强大语言模型为每张图像生成描述性候选标签;2)视觉语言模型筛选和排序候选标签形成连贯类别集;3)验证后的名称实例化轻量级多模态分类器用于推理。
- Result: 在流行的细粒度分类基准测试中取得最先进性能,在无词汇表设置下相对先前方法提升高达18.8%。令人惊讶的是,该方法甚至超越了使用预定义真实名称的零样本基线,挑战了人工整理词汇表定义上限的假设。
- Conclusion: 推理增强大语言模型为可扩展、全自动化、开放世界的细粒度视觉识别提供了有效基础。精心设计的提示词能使开源大语言模型匹配专有模型性能。
[95] Delta-LLaVA: Base-then-Specialize Alignment for Token-Efficient Vision-Language Models
Mohamad Zamini,Diksha Shukla
Main category: cs.CV
TL;DR: Delta-LLaVA提出了一种token高效的多模态大语言模型视觉投影器,通过低秩Delta投影和轻量级Transformer块,在仅使用144个token的情况下显著提升推理和训练效率。
- Motivation: 当前多模态大语言模型在处理密集视觉token时计算成本高昂,标准的多层感知机投影器在高分辨率输入下扩展性差,引入显著冗余,成为主要瓶颈。
- Method: 提出Delta-LLaVA投影器,采用"先对齐后专业化"设计:1) 低秩DeltaProjection将多级视觉特征对齐到紧凑子空间;2) 轻量级Transformer块作为专业化层,在有限token预算下捕获全局和局部结构。
- Result: 在多个基准测试中仅使用144个token就获得一致性能提升,推理吞吐量提高达55%,端到端训练在预训练阶段加速4-5倍,微调阶段加速1.5倍以上。
- Conclusion: Delta-LLaVA展示了在扩展交互能力之前优化token形成的重要性,其设计在效率和可扩展性方面均带来双重好处,为高效多模态推理提供了有效解决方案。
[96] LouvreSAE: Sparse Autoencoders for Interpretable and Controllable Style Transfer
Raina Panda,Daniel Fein,Arpita Singhal,Mark Fiore,Maneesh Agrawala,Matyas Bohacek
Main category: cs.CV
TL;DR: 提出LouvreSAE方法,通过艺术专用稀疏自编码器学习风格概念,无需微调即可实现快速、可解释的风格迁移
- Motivation: 现有生成模型中的艺术风格迁移方法通常需要模型微调、适配器或提示工程,这些方法计算成本高且可能将风格与主题内容纠缠在一起
- Method: 在生成图像模型的潜在嵌入上使用艺术专用稀疏自编码器(SAE),学习解耦的风格和构图概念,构建可分解的风格配置文件作为转向向量
- Result: 在ArtBench10上验证,在风格评估指标(VGG风格损失和CLIP风格得分)上达到或超越现有方法,速度提升1.7-20倍,且具有可解释性
- Conclusion: LouvreSAE提供了一种无需训练和推理负担的轻量级、可解释的艺术风格表示和迁移方法,解决了现有方法的计算成本和风格-内容纠缠问题
[97] Point What You Mean: Visually Grounded Instruction Policy
Hang Yu,Juntu Zhao,Yufeng Liu,Kaiyu Li,Cheng Ma,Di Zhang,Yingdong Hu,Guang Chen,Junyuan Xie,Junliang Guo,Junqiao Zhao,Yang Gao
Main category: cs.CV
TL;DR: Point-VLA通过视觉提示(如边界框)增强语言指令,解决VLA模型在复杂场景中的对象指代模糊问题,实现更精确的物体级定位和泛化控制。
- Motivation: 现有Vision-Language-Action模型仅依赖文本提示时,在杂乱或分布外场景中的物体指代能力有限,存在指代模糊问题。
- Method: 提出Point-VLA即插即用策略,用显式视觉提示(边界框)增强语言指令;开发自动数据标注流程,最小化人工标注需求。
- Result: 在多样化真实世界指代任务中,Point-VLA比纯文本指令VLA表现更强,尤其在杂乱或未见物体场景中,具有鲁棒泛化能力。
- Conclusion: Point-VLA通过像素级视觉定位有效解决物体指代模糊问题,实现更通用的具身控制。
[98] Symmetrization of 3D Generative Models
Nicolas Caytuiro,Ivan Sipiran
Main category: cs.CV
TL;DR: 提出一种数据中心的对称性提升方法:通过修改训练数据而非模型架构,训练生成模型仅使用半物体数据,然后通过反射生成完整对称形状
- Motivation: 现有3D生成模型在对称性方面表现不足,传统方法通常修改模型架构来增强对称性,但本文探索通过数据层面的改进来提升生成形状的对称性
- Method: 分析真实3D形状和现有模型的反射对称性,构建半物体数据集(沿x=0平面反射一半形状),训练生成模型仅使用这些半物体数据,生成时通过反射获得完整对称形状
- Result: 实验表明,使用该方法生成的形状相比原始模型生成的形状和原始数据集物体,具有更好的对称性和一致性
- Conclusion: 数据中心的对称性提升方法是有效的,通过修改训练数据而非模型架构,可以显著提高3D生成模型的对称性表现
[99] VOIC: Visible-Occluded Decoupling for Monocular 3D Semantic Scene Completion
Zaidao Han,Risa Higashita,Jiang Liu
Main category: cs.CV
TL;DR: 提出VOIC框架,通过可见区域标签提取策略和双解码器设计,将单目3D语义场景补充分解为可见区域感知和遮挡区域推理两个子任务,提升性能。
- Motivation: 现有单目3D语义场景补全方法通常采用端到端的2D到3D特征提升和体素补全,但忽略了单张图像输入导致的高置信度可见区域感知与低置信度遮挡区域推理之间的干扰,这会导致特征稀释和错误传播。
- Method: 1) 提出离线可见区域标签提取策略,从密集3D真值中显式分离和提取可见区域的体素级监督;2) 设计可见-遮挡交互补全网络,采用双解码器框架,将任务解耦为可见区域语义感知和遮挡区域场景补全;3) 通过融合图像特征和深度派生占据信息构建基础3D体素表示,可见解码器生成高保真几何语义先验,遮挡解码器利用这些先验进行全局场景推理。
- Result: 在SemanticKITTI和SSCBench-KITTI360基准测试中,VOIC在几何补全和语义分割精度上均优于现有单目SSC方法,达到最先进性能。
- Conclusion: 通过显式分离可见区域监督和设计双解码器框架,有效解决了单目3D语义场景补全中可见与遮挡区域间的干扰问题,实现了更准确的场景理解和补全。
[100] DVI: Disentangling Semantic and Visual Identity for Training-Free Personalized Generation
Guandong Li,Yijun Ding
Main category: cs.CV
TL;DR: DVI是一个无需调参的身份定制框架,通过解耦语义和视觉流来解决现有方法中的"语义-视觉失调"问题,实现更好的视觉一致性和氛围保真度。
- Motivation: 现有无需调参的身份定制方法虽然面部保真度高,但忽视了光照、皮肤纹理和环境色调等视觉上下文,导致"语义-视觉失调"问题,产生不自然的"贴纸效果"。
- Method: DVI将身份解耦为细粒度语义流和粗粒度视觉流,利用VAE潜在空间的统计特性(均值和方差)作为全局视觉氛围描述符。引入无参数特征调制机制,用视觉统计量自适应调制语义嵌入,并采用动态时间粒度调度器,在去噪早期优先视觉氛围,后期细化语义细节。
- Result: DVI在无需参数微调的情况下显著增强了视觉一致性和氛围保真度,保持了鲁棒的身份保持能力,在IBench评估中优于现有最先进方法。
- Conclusion: DVI通过解耦视觉和身份表示,有效解决了身份定制中的语义-视觉失调问题,实现了更好的视觉一致性和自然度,为无需调参的身份定制提供了新思路。
[101] Total Curvature Regularization and its_Minimization for Surface and Image Smoothing
Tianle Lu,Ke Chen,Yuping Duan
Main category: cs.CV
TL;DR: 提出一种新颖的正则化方法,通过惩罚多个方向上的法曲率来保持尖锐边缘和精确各向同性特性,并通过PDE系统求解实现高效优化。
- Motivation: 现有曲率正则化方法在处理尖锐边缘和各向同性特性方面存在不足,需要一种能够同时保持边缘锐度和各向同性特性的正则化方法。
- Method: 提出总法曲率正则化,将高阶非线性优化问题转化为时间相关PDE系统的稳态求解问题,采用算子分裂进行时间离散化,每个子问题都有闭式解或高效算法。
- Result: 方法避免了复杂的参数调优,对参数选择具有鲁棒性,在表面和图像平滑问题上验证了其效率和有效性。
- Conclusion: 总法曲率正则化方法能够有效处理尖锐边缘和各向同性特性,通过PDE系统求解实现了高效优化,为相关领域提供了新的解决方案。
[102] Self-Attention with State-Object Weighted Combination for Compositional Zero Shot Learning
Cheng-Hong Chang,Pei-Hsuan Tsai
Main category: cs.CV
TL;DR: SASOW模型通过引入自注意力机制和状态-对象加权策略,提升了组合零样本学习中状态和对象识别的准确性。
- Motivation: 现有物体识别系统大多只识别物体本身,而忽略其状态。组合零样本学习(CZSL)能同时识别状态和物体,但现有最佳方法KG-SP在状态和物体识别准确性上仍有提升空间,且未考虑组合时的权重分配。
- Method: 1. 在状态和物体分类器中引入自注意力机制,提升识别准确性;2. 在组合过程中加入状态和对象的权重考虑,生成更合理的组合。
- Result: 在MIT-States、UT Zappos和C-GQA三个基准数据集上,SASOW相比OW-CZSL和KG-SP方法,在未见组合的识别准确率上分别提升了2.1%、1.7%和0.4%。
- Conclusion: SASOW通过自注意力机制和加权组合策略,有效提升了组合零样本学习中状态和物体识别的准确性,为同时识别物体及其状态提供了更优解决方案。
[103] ICP-4D: Bridging Iterative Closest Point and LiDAR Panoptic Segmentation
Gyeongrok Oh,Youngdong Jang,Jonghyun Choi,Suk-Ju Kang,Guang Lin,Sangpil Kim
Main category: cs.CV
TL;DR: ICP-4D:一种无需训练、基于几何关系的4D LiDAR全景分割框架,通过迭代最近点算法和Sinkhorn软匹配实现时空实例关联
- Motivation: 现有4D LiDAR全景分割方法需要大量点云训练或专门设计实例关联模块,计算成本高且忽略了原始点云固有的几何先验信息
- Method: 使用迭代最近点算法直接关联时空一致的实例,通过Sinkhorn软匹配处理噪声预测,设计考虑静态、动态和缺失实例的三类处理流程
- Result: 在SemanticKITTI和panoptic nuScenes数据集上一致超越最先进方法,无需额外训练或额外点云输入
- Conclusion: ICP-4D通过几何关系统一时空推理,提供了一种简单有效、无需训练的4D LiDAR全景分割解决方案,在性能和计算效率上均表现出色
[104] Towards AI-Guided Open-World Ecological Taxonomic Classification
Cheng Yaw Low,Heejoon Koo,Jaewoo Park,Kaleb Mesfin Asfaw,Meeyoung Cha
Main category: cs.CV
TL;DR: 提出Open-World Ecological Taxonomy Classification框架和TaxoNet模型,解决生态分类中的长尾分布、细粒度差异、时空域偏移和封闭集假设问题,在多个生态数据集上优于基线方法。
- Motivation: AI引导的生态分类对全球可持续发展至关重要,但面临长尾分布、细粒度差异、时空域偏移和封闭集假设等多重挑战,需要统一框架来解决这些现实生态场景中的共现问题。
- Method: 提出TaxoNet模型,采用基于嵌入的编码器和双边界惩罚损失,强化稀有类别的学习信号,同时抑制过代表类别的支配,直接应对相互关联的挑战。
- Result: 在Google Auto-Arborist、iNat-Plantae和NAFlora-Mini等多个生态数据集上,模型持续优于基线方法,特别是在稀有分类群上表现突出,为开放世界植物分类监测奠定了坚实基础。
- Conclusion: 该研究为开放世界生态分类提供了有效解决方案,同时发现通用多模态基础模型在植物领域应用中仍存在局限性,需要领域特定的方法。
[105] CETCAM: Camera-Controllable Video Generation via Consistent and Extensible Tokenization
Zelin Zhao,Xinyu Gong,Bangya Liu,Ziyang Song,Jun Zhang,Suhui Wu,Yongxin Chen,Hao Zhang
Main category: cs.CV
TL;DR: CETCAM是一个无需相机标注的相机可控视频生成框架,通过几何感知token实现精确相机控制
- Motivation: 现有方法依赖难以扩展的相机姿态标注,且与深度估计不一致导致训练-测试差异,需要无需标注的相机控制方案
- Method: 利用VGGT等几何基础模型估计深度和相机参数,转换为统一几何感知token,通过轻量级上下文块集成到预训练视频扩散模型中,采用两阶段渐进训练
- Result: 在多个基准测试中实现最先进的几何一致性、时间稳定性和视觉真实感,并展示对修复和布局控制等其他模态的强适应性
- Conclusion: CETCAM通过几何感知token方案实现了无需相机标注的高质量相机可控视频生成,具有出色的灵活性和扩展性
[106] VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation
Sihao Lin,Zerui Li,Xunyi Zhao,Gengze Zhou,Liuyi Wang,Rong Wei,Rui Tang,Juncheng Li,Hanqing Wang,Jiangmiao Pang,Anton van den Hengel,Jiajun Liu,Qi Wu
Main category: cs.CV
TL;DR: VLNVerse是一个新的大规模、可扩展的视觉语言导航基准,旨在解决现有基准数据集小、物理模拟简单、任务碎片化等问题,为可扩展的具身AI研究提供统一框架和真实模拟环境。
- Motivation: 现有视觉语言导航基准存在三个主要问题:1) 数据集规模小且固定,无法满足现代大语言模型预训练需求;2) 物理模拟过于简单,限制了从模拟到真实世界的泛化研究;3) 任务碎片化阻碍了统一进展。
- Method: 提出VLNVerse基准,具有四个核心特性:1) 可扩展性:支持大规模数据集;2) 统一性:将碎片化任务整合到单一框架;3) 具身性:支持完整运动学而非"幽灵"代理;4) 真实性:基于强大物理引擎的真实模拟。
- Result: 利用VLNVerse的规模和多样性对现有方法进行全面评估,从经典模型到多模态大语言模型代理,并提出了一个能够处理基准内所有任务的新型统一多任务模型。
- Conclusion: VLNVerse旨在缩小模拟导航与真实世界泛化之间的差距,为研究社区提供重要工具,推动可扩展、通用具身运动代理的研究进展。
[107] Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection
Haoze Li,Jie Zhang,Guoying Zhao,Stephen Lin,Shiguang Shan
Main category: cs.CV
TL;DR: SVLP-IL是一个基于视觉语言预训练模型的免排练增量学习框架,通过多角度提示和选择性弹性权重巩固来平衡稳定性和可塑性,用于人脸呈现攻击检测的隐私合规增量学习。
- Motivation: 人脸呈现攻击检测需要增量学习来应对不断演变的欺骗策略和领域,但隐私法规禁止保留历史数据,因此需要免排练的增量学习方法。
- Method: 提出SVLP-IL框架:1)多角度提示(MAP)分离领域依赖,增强分布偏移敏感性,通过联合利用通用和领域特定线索减轻遗忘;2)选择性弹性权重巩固(SEWC)选择性保留先前任务的关键权重,保持必要知识同时允许新适应。
- Result: 在多个PAD基准测试上的综合实验表明,SVLP-IL显著减少了灾难性遗忘,并提高了在未见领域上的性能。
- Conclusion: SVLP-IL为RF-IL设置中的鲁棒终身PAD部署提供了一个隐私合规的实用解决方案。
[108] Finer-Personalization Rank: Fine-Grained Retrieval Examines Identity Preservation for Personalized Generation
Connor Kilrain,David Carlyn,Julia Chae,Sara Beery,Wei-Lun Chao,Jianyang Gu
Main category: cs.CV
TL;DR: 本文提出Finer-Personalization Rank评估协议,通过检索排名而非成对相似度来评估个性化生成模型的身份保持能力,更关注细粒度身份细节而非整体语义相似度。
- Motivation: 当前个性化生成模型评估指标主要关注参考图像与生成图像之间的整体语义相似度,而忽略了细粒度的身份判别细节。如何准确评估身份保持能力成为关键问题。
- Method: 提出Finer-Personalization Rank评估协议:将每个生成图像作为查询,在包含视觉相似真实图像的身份标记图库中进行检索。使用检索指标(如平均精度均值)衡量性能,分数越高表明身份特定细节保留越好。该方法支持从细粒度类别到个体实例的多粒度身份评估。
- Result: 在CUB、Stanford Cars和动物重识别基准测试中,Finer-Personalization Rank比仅基于语义的指标更能准确反映身份保持能力,并揭示了多个流行个性化方法中存在显著的身份漂移问题。
- Conclusion: 基于图库的评估协议为个性化生成提供了原则性和实用的评估框架,能够更准确地衡量身份保持能力,为个性化生成模型的评估提供了新方向。
[109] Automatic Neuronal Activity Segmentation in Fast Four Dimensional Spatio-Temporal Fluorescence Imaging using Bayesian Approach
Ran Li,Pan Xiao,Kaushik Dutta,Youdong Guo
Main category: cs.CV
TL;DR: 提出基于贝叶斯深度学习的框架,用于从光片显微镜获取的4D时空数据中自动检测神经元活动,结合时空信息并建模检测不确定性。
- Motivation: 荧光显微镜钙成像是在体记录和分析大规模神经元活动的重要工具,但手动分割神经元活动耗时耗力且缺乏泛化性,需要自动精确的检测方法。
- Method: 采用贝叶斯深度学习框架,通过计算像素级相关性图利用时间信息,结合平均汇总图像提供的空间信息,生成概率分割图并建模神经元检测的不确定性。
- Result: 网络相对于Otsu方法生成的合成Ground Truth获得平均Dice分数0.81,在可重复性测试中两次运行间的平均Dice分数为0.79,表明方法具有良好的准确性和泛化能力。
- Conclusion: 该方法可成功用于行为研究中神经元活动的快速检测,为脑活动映射研究提供了有效的自动化解决方案。
[110] Distinguishing Visually Similar Actions: Prompt-Guided Semantic Prototype Modulation for Few-Shot Action Recognition
Xiaoyang Li,Mingming Lu,Ruiqi Wang,Hao Li,Zewei Le
Main category: cs.CV
TL;DR: 本文提出CLIP-SPM框架解决少样本动作识别的三大挑战:时间建模、视觉相似性和模态差异,通过HSMR模块、SPM策略和PADM方法提升性能。
- Motivation: 少样本动作识别面临三个核心挑战:1) 时间建模中模型易受静态背景干扰,难以捕捉动态动作特征;2) 视觉相似类别难以区分;3) 视觉-文本支持原型与纯视觉查询之间的模态差异,导致共享嵌入空间对齐困难。
- Method: 提出CLIP-SPM框架,包含三个组件:1) 分层协同运动精炼(HSMR)模块,对齐深浅运动特征以减少静态背景干扰;2) 语义原型调制(SPM)策略,生成查询相关文本提示以弥合模态差异;3) 原型-锚点双重调制(PADM)方法,精炼支持原型并将查询特征与全局语义锚点对齐。
- Result: 在Kinetics、SSv2-Full、SSv2-Small、UCF101和HMDB51等标准基准测试中,CLIP-SPM在1-shot、3-shot和5-shot设置下均取得竞争性性能。消融研究和可视化分析验证了各组件有效性。
- Conclusion: CLIP-SPM框架有效解决了少样本动作识别的三大核心挑战,通过综合的时间建模、模态对齐和特征精炼策略,在多个基准测试中展现了优越性能。
[111] WaTeRFlow: Watermark Temporal Robustness via Flow Consistency
Utae Jeong,Sumin In,Hyunju Ryu,Jaewan Choi,Feng Yang,Jongheon Jeong,Seungryong Kim,Sangpil Kim
Main category: cs.CV
TL;DR: WaTeRFlow:针对图像到视频转换的鲁棒水印框架,通过流引导合成、时序一致性损失和语义保持损失,提高水印在视频帧中的检测准确性。
- Motivation: 当前水印方案在面对图像到视频转换时容易失效,因为逐帧水印检测会减弱。随着I2V技术快速发展并应用于内容创作、世界建模和仿真工作流,跨模态水印恢复变得至关重要。
- Method: 提出WaTeRFlow框架:1) FUSE(流引导统一合成引擎),通过指令驱动编辑和快速视频扩散代理在训练中暴露编码器-解码器到真实失真;2) 光流扭曲与时序一致性损失稳定逐帧预测;3) 语义保持损失维持条件信号。
- Result: 在代表性I2V模型上的实验显示,能够从视频帧中准确恢复水印,具有更高的首帧和逐帧比特准确率,并且在视频生成前后应用各种失真时表现出更强的鲁棒性。
- Conclusion: WaTeRFlow为图像到视频转换场景提供了有效的鲁棒水印解决方案,填补了跨模态水印恢复的空白,支持I2V在内容创作和仿真工作流中的可信应用。
[112] Decoupled Generative Modeling for Human-Object Interaction Synthesis
Hwanhee Jung,Seunggwan Lee,Jeongyoon Yoon,SeungHyeon Kim,Giljoo Nam,Qixing Huang,Sangpil Kim
Main category: cs.CV
TL;DR: DecHOI:一种解耦生成模型,通过分离路径规划和动作合成来生成更真实的人-物交互,避免手动指定中间路径点,并改善接触真实性和运动同步性。
- Motivation: 现有方法需要手动指定中间路径点,并将所有优化目标放在单个网络中,导致复杂度高、灵活性差,并产生人-物运动不同步或穿透等错误。
- Method: 提出DecHOI框架,分离路径规划和动作合成:轨迹生成器首先生成人和物体的轨迹(无需指定路径点),动作生成器基于这些路径合成详细动作;采用对抗训练,通过判别器关注远端关节动态以改善接触真实性;支持动态场景中的响应式长序列规划。
- Result: 在FullBodyManipulation和3D-FUTURE两个基准测试中,DecHOI在大多数定量指标和定性评估上超越先前方法,感知研究也偏好该方法的结果。
- Conclusion: DecHOI通过解耦路径规划和动作合成,能够生成更真实、同步的人-物交互,避免手动路径点指定,在动态场景中支持长序列规划,显著优于现有方法。
[113] 6DAttack: Backdoor Attacks in the 6DoF Pose Estimation
Jihui Guo,Zongmin Zhang,Zhen Sun,Yuhao Yang,Jinlin Wu,Fu Zhang,Xinlei He
Main category: cs.CV
TL;DR: 6DAttack:首个针对6DoF物体姿态估计的后门攻击框架,使用3D物体触发器在保持正常性能的同时控制连续姿态参数
- Motivation: 虽然6DoF姿态估计在机器人、AR/VR等领域广泛应用,但现有后门攻击研究主要集中在2D视觉任务。6DoF姿态估计需要控制连续的平移和旋转参数,传统2D后门方法不适用,这一安全威胁尚未被充分探索。
- Method: 提出6DAttack框架,使用3D物体作为触发器,在训练数据中植入后门。该方法能够诱导受控的错误姿态预测,同时保持模型在干净样本上的正常性能。
- Result: 在PVNet、DenseFusion和PoseDiffusion等多个模型上,在LINEMOD、YCB-Video和CO3D数据集上评估,攻击成功率(ASR)高达100%,同时保持高达100%的干净ADD准确率。触发样本的ADD-P达到97.70%,且现有防御方法无效。
- Conclusion: 6DAttack揭示了6DoF姿态估计系统中一个严重但未被充分探索的安全威胁,表明现有防御方法无法有效应对此类攻击,需要新的安全机制来保护姿态估计系统。
[114] Watch Closely: Mitigating Object Hallucinations in Large Vision-Language Models with Disentangled Decoding
Ruiqi Ma,Yu Yan,Chunhong Zhang,Minghao Yin,XinChao Liu,Zhihong Jin,Zheng Hu
Main category: cs.CV
TL;DR: 提出无需训练的幻觉解耦解码方法,通过图像分割和空白图像消除语言先验幻觉,提升LVLM在视觉和语言模态的准确性
- Motivation: 大型视觉语言模型在物体识别任务中存在严重幻觉问题,现有方法主要关注语言模态的幻觉减少,需要同时解决视觉和语言模态的幻觉问题
- Method: 提出幻觉解耦解码方法,通过图像分割增强原始图像,使用空白图像消除语言先验幻觉,无需训练即可同时减少视觉和语言模态的幻觉
- Result: 该方法降低了模型对语言先验的依赖,提升了视觉性能,有效缓解了LVLM在物体识别中的幻觉问题
- Conclusion: HDD方法无需训练即可同时处理视觉和语言模态的幻觉问题,为缓解LVLM幻觉提供了有效解决方案
[115] Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation
Khanh Nguyen,Dasith de Silva Edirimuni,Ghulam Mubashar Hassan,Ajmal Mian
Main category: cs.CV
TL;DR: 提出BoxOVIS方法,通过2D开放词汇检测器引导RGB图像生成3D实例掩码,实现快速准确检索罕见物体,避免依赖SAM和CLIP的计算开销
- Motivation: 现有开放词汇3D实例分割方法依赖SAM和CLIP,计算开销大且处理速度慢;Open-YOLO 3D虽能实时处理但难以泛化到训练数据中罕见的物体类别
- Method: 使用2D开放词汇检测器从RGB图像中识别新颖物体,并引导生成3D实例掩码,继承2D检测器识别能力同时保持高效分类
- Result: 方法能识别罕见物体实例,实现快速准确的开放文本查询检索,显著减少推理时间
- Conclusion: 提出的BoxOVIS方法结合2D开放词汇检测器与3D掩码生成,在保持高效性的同时提升对罕见物体的泛化能力,适用于机器人、增强现实等实时应用
[116] Auditing Significance, Metric Choice, and Demographic Fairness in Medical AI Challenges
Ariel Lubonja,Pedro R. A. S. Bassi,Wenxuan Li,Hualin Qiao,Randal Burns,Alan L. Yuille,Zongwei Zhou
Main category: cs.CV
TL;DR: RankInsight是一个开源工具包,解决医学AI排行榜的三个主要问题:统计显著性检验、器官特异性指标评估和交叉人口公平性审计。
- Motivation: 当前医学AI排行榜存在三个持续性问题:1) 排名差距缺乏统计显著性检验,排名稳定性未知;2) 对所有器官使用单一平均指标,掩盖了临床重要的边界错误;3) 很少报告交叉人口统计的性能,掩盖了公平性和公平性差距。
- Method: 开发RankInsight工具包,包含三个核心功能:1) 计算成对显著性地图;2) 使用器官适当指标重新计算排行榜;3) 审计交叉公平性,分析不同人口亚组的性能差异。
- Result: 1) 显示nnU-Net家族在统计上显著优于Vision-Language和MONAI提交;2) 当用NSD替代Dice评估管状结构时,前四名模型顺序反转;3) 超过一半的MONAI模型在性别-种族交叉组上表现出最大差异。
- Conclusion: RankInsight工具包公开发布,可应用于过去、现在和未来的挑战,使组织者和参与者能够发布统计可靠、临床有意义且人口公平的排名。
[117] Mamba-Based Modality Disentanglement Network for Multi-Contrast MRI Reconstruction
Weiyi Lyu,Xinming Fang,Jun Wang,Jun Shi,Guixu Zhang,Juncheng Li
Main category: cs.CV
TL;DR: MambaMDN:一种基于Mamba的双域多对比度MRI重建框架,通过参考K空间数据补全、模态解缠和迭代优化,显著提升重建质量
- Motivation: 现有加速MRI技术面临两个关键挑战:1)未能有效利用K空间先验信息,导致零填充输入的混叠伪影持续存在;2)多对比度融合策略中无关信息污染目标重建质量。MRI扫描时间长是影响患者吞吐量和舒适度的主要障碍。
- Method: 提出MambaMDN双域框架:首先使用全采样参考K空间数据补全欠采样目标数据,生成结构对齐但模态混合的输入;然后开发基于Mamba的模态解缠网络,从混合表示中提取并移除参考特定特征;最后引入迭代优化机制,通过重复特征纯化逐步提升重建精度。
- Result: 大量实验表明,MambaMDN能够显著超越现有的多对比度重建方法。
- Conclusion: MambaMDN通过有效利用K空间先验信息和精确的模态解缠,解决了多对比度MRI重建中的关键挑战,为加速MRI提供了有前景的解决方案。
[118] GaussianImage++: Boosted Image Representation and Compression with 2D Gaussian Splatting
Tiantian Li,Xinjie Zhang,Xingtong Ge,Tongda Xu,Dailan He,Jun Zhang,Yan Wang
Main category: cs.CV
TL;DR: GaussianImage++ 是一种基于高斯泼溅的图像表示和压缩方法,通过失真驱动的密集化、上下文感知高斯滤波器和量化技术,在保持实时解码和低内存使用的同时,超越了现有方法的表现。
- Motivation: 隐式神经表示(INRs)在图像表示和压缩方面取得了显著成功,但需要大量训练时间和内存。而最近的高斯泼溅方法(如GaussianImage)虽然提供了高效的基于基元的渲染,但需要过多的高斯基元来保持高视觉保真度。因此需要开发一种既能利用GS方法潜力,又能用有限基元实现高性能的方法。
- Method: 1. 失真驱动的密集化机制:根据信号强度逐步分配高斯基元
- 上下文感知高斯滤波器:为每个基元使用上下文感知滤波器,协助密集化过程,根据不同图像内容优化高斯基元
- 属性分离的可学习标量量化器和量化感知训练:高效压缩基元属性
- Result: 实验结果表明该方法有效。GaussianImage++在表示和压缩性能上超越了GaussianImage和基于INRs的COIN方法,同时保持了实时解码和低内存使用。
- Conclusion: GaussianImage++成功利用有限的高斯基元实现了出色的图像表示和压缩性能,为高斯泼溅方法在图像处理领域的应用提供了新的有效解决方案。
[119] Trifocal Tensor and Relative Pose Estimation with Known Vertical Direction
Tao Li,Zhenbao Yu,Banglei Guan,Jianli Han,Weimin Lv,Friedrich Fraundorfer
Main category: cs.CV
TL;DR: 提出两种基于已知垂直方向的相对位姿估计算法:一种线性闭式解(4点对应),一种最小解(3点对应),在RANSAC框架下高效去除离群点并估计位姿。
- Motivation: 在自动驾驶、手机、无人机等设备中,IMU可以轻松获取相机垂直方向信息。利用这一已知信息可以简化相对位姿估计问题,减少所需点对应数量,提高RANSAC框架下的计算效率。
- Method: 1. 线性闭式解:利用已知垂直方向,将问题简化为求解两个旋转角度和两个平移向量,仅需三个视图中的4个点对应关系。
- 最小解:使用最新的Gröbner基求解器,仅需3个点对应关系。两种方法都可在RANSAC框架中高效应用。
- Result: 在合成数据和KITTI真实场景上的实验结果表明,所提方法估计的位姿精度优于其他替代方法,且由于所需点对应较少,在RANSAC框架下计算效率更高。
- Conclusion: 利用IMU提供的已知垂直方向信息,可以显著简化相对位姿估计问题,提出的两种算法(4点线性解和3点最小解)在精度和效率上都表现出优越性,特别适合集成到RANSAC框架中进行离群点去除和视觉里程计应用。
[120] Generative Giants, Retrieval Weaklings: Why do Multimodal Large Language Models Fail at Multimodal Retrieval?
Hengyi Feng,Zeang Sheng,Meiyi Qiang,Wentao Zhang
Main category: cs.CV
TL;DR: MLLMs在生成任务表现出色,但在零样本多模态检索任务中存在反直觉的缺陷,主要原因是表征空间被文本语义主导,视觉信息不足,导致检索判别力下降。
- Motivation: 尽管多模态大语言模型在生成任务中取得了显著成功,但作者观察到它们在零样本多模态检索任务中表现出反直觉的缺陷。本文旨在探究阻碍MLLMs成为有效检索器的根本机制。
- Method: 使用稀疏自编码器将MLLM输出表征分解为可解释的语义概念,分析其内在行为。通过分析表征空间组成,探究文本语义和视觉信息的分布情况,以及特征组件对相似度计算的影响。
- Result: 分析发现:1)MLLMs的表征空间被文本语义主导,多模态检索所需的视觉信息只占很小部分;2)MLLMs过度关注桥接图像-文本模态,促进了生成但同质化了嵌入,削弱了检索所需的判别力;3)对MLLMs相似度计算贡献最大的特定特征组件实际上是降低检索性能的干扰因素。
- Conclusion: 本文首次对MLLMs在多模态检索背景下的表征进行了深入的解释性分析,揭示了其检索性能不足的根本原因,并为增强MLLMs的多模态检索能力提供了可能的方向。
[121] AMap: Distilling Future Priors for Ahead-Aware Online HD Map Construction
Ruikai Li,Xinrun Li,Mengwei Xie,Hao Shan,Shoumeng Qiu,Xinyuan Chang,Yizhe Fan,Feng Xiong,Han Jiang,Yilong Ren,Haiyang Yu,Mu Xu,Yang Long,Varun Ojha,Zhiyong Cui
Main category: cs.CV
TL;DR: AMap提出了一种前瞻性在线高精地图构建框架,通过"从未来蒸馏"范式,让教师模型利用未来时间上下文指导仅使用当前帧的轻量学生模型,实现零推理成本的前瞻能力,显著提升关键前向区域的地图感知性能。
- Motivation: 现有基于历史时间融合的在线高精地图构建方法存在"空间后视"的安全缺陷:主要提升已遍历区域的地图重建,对前方未观察道路改善有限。下游规划任务分析显示,后方感知误差通常可容忍,而前向区域的不准确会直接导致危险驾驶行为。
- Method: 提出AMap框架,采用"从未来蒸馏"范式:教师模型拥有未来时间上下文的特权访问,指导仅使用当前帧的轻量学生模型。引入多级BEV蒸馏策略(含空间掩码)和非对称查询适配模块,将未来感知表示有效转移到学生的静态查询中。
- Result: 在nuScenes和Argoverse 2基准测试中,AMap显著提升了当前帧感知性能。最关键的是,在关键前向区域超越了最先进的时序模型,同时保持了单当前帧推理的效率。
- Conclusion: AMap通过前瞻性在线高精地图构建框架解决了现有方法的"空间后视"安全缺陷,实现了零推理成本的前瞻能力,为自动驾驶安全提供了重要保障。
[122] OmniMoGen: Unifying Human Motion Generation via Learning from Interleaved Text-Motion Instructions
Wendong Bu,Kaihang Pan,Yuze Lin,Jiacheng Li,Kai Shen,Wenqiao Zhang,Juncheng Li,Jun Xiao,Siliang Tang
Main category: cs.CV
TL;DR: OmniMoGen是一个统一的人体运动生成框架,通过交错文本-运动指令实现多功能运动生成,在文本到运动、运动编辑等任务上达到SOTA性能。
- Motivation: 现有的人体运动生成方法局限于孤立任务,缺乏自由形式和全目标生成的灵活性。虽然大语言模型在语言任务中实现了统一框架,但在运动生成领域尚未探索这种统一性。
- Method: 基于简洁的RVQ-VAE和Transformer架构构建统一框架,支持端到端指令驱动的运动生成。创建了包含13.7万条交错文本-运动指令的大规模数据集X2Mo,并引入AnyContext基准用于评估交错运动生成。
- Result: 在文本到运动、运动编辑和AnyContext基准上达到最先进性能,展现出组合编辑、自反思生成和知识驱动生成等新兴能力。
- Conclusion: OmniMoGen标志着向下一代智能运动生成迈出了一步,通过统一框架实现了多功能运动生成,为更灵活、更智能的运动生成系统奠定了基础。
[123] PEDESTRIAN: An Egocentric Vision Dataset for Obstacle Detection on Pavements
Marios Thoma,Zenonas Theodosiou,Harris Partaourides,Vassilis Vassiliades,Loizos Michael,Andreas Lanitis
Main category: cs.CV
TL;DR: 提出了PEDESTRIAN数据集,包含29种常见人行道障碍物的第一视角视频数据,用于训练实时障碍物检测算法以提升行人安全。
- Motivation: 城市人行道常被各种障碍物阻塞,影响行人自由移动和安全。虽然普及计算和第一视角视觉技术发展提供了实时检测障碍物的可能性,但缺乏全面平衡的第一视角数据集阻碍了有效识别算法的开发。
- Method: 收集了340个使用手机摄像头拍摄的第一视角视频,涵盖29种常见人行道障碍物,创建了PEDESTRIAN数据集。使用该数据集训练了多种最先进的深度学习算法进行障碍物检测和识别。
- Result: 建立了包含29类障碍物的第一视角视频数据集,并通过实验验证了该数据集可用于训练有效的障碍物检测算法,为相关任务提供了基准。
- Conclusion: PEDESTRIAN数据集填补了第一视角人行道障碍物数据的空白,可用于训练路面障碍物检测器,提升城市行人的安全性。
[124] InvCoSS: Inversion-driven Continual Self-supervised Learning in Medical Multi-modal Image Pre-training
Zihao Luo,Shaohao Rui,Zhenyu Tang,Guotai Wang,Xiaosong Wang
Main category: cs.CV
TL;DR: 提出InvCoSS框架,通过模型反演生成合成图像来替代真实数据回放,解决医学多模态图像持续自监督学习中的数据隐私和遗忘问题。
- Motivation: 现有持续自监督学习方法依赖回放先前阶段数据来防止灾难性遗忘,但这会损害数据隐私,且在实际医疗场景中跨站点数据传输受限,限制了应用。
- Method: 1) 训练完先前任务后,通过反演预训练的自监督模型生成近似原始训练分布的合成图像;2) 提出InvUNet多尺度融合架构恢复反演图像的高低频成分;3) 设计排斥性表示学习机制促进合成图像特征空间多样性。
- Result: 在九个下游任务上的实验验证了InvCoSS的有效性,性能达到甚至超过先前数据回放方法,同时显著减少存储需求并消除数据隐私限制。
- Conclusion: InvCoSS框架通过模型反演生成合成图像替代真实数据回放,成功解决了医学多模态图像持续自监督学习中的数据隐私和灾难性遗忘问题,具有实际应用价值。
[125] HippMetric: A skeletal-representation-based framework for cross-sectional and longitudinal hippocampal substructural morphometry
Na Gao,Chenfei Ye,Yanwu Yang,Anqi Li,Zhengbo He,Li Liang,Zhiyuan Liu,Xingyu Hao,Ting Ma,Tengfei Guo
Main category: cs.CV
TL;DR: HippMetric:基于骨骼表示(s-rep)的海马体亚结构形态测量框架,通过可变形骨骼坐标系实现跨个体和扫描的稳定对应关系
- Motivation: 海马体亚结构的准确表征对于检测细微结构变化和识别早期神经退行性生物标志物至关重要。然而,人类海马体的高个体间变异性和复杂折叠模式阻碍了一致的跨个体和纵向分析。现有方法大多依赖个体特异性建模,缺乏稳定的内在坐标系来适应解剖学变异,限制了建立可靠个体间和个体内对应关系的能力。
- Method: 提出HippMetric框架,基于骨骼表示(s-rep)进行海马体亚结构形态测量。框架建立在轴参考形态模型(ARMM)基础上,采用与海马体解剖和功能对齐的可变形骨骼坐标系。包含两个核心模块:1)尊重海马体保守纵向层状结构的骨骼坐标系,其中功能单元(层)垂直于长轴堆叠;2)通过表面重建、变形和几何约束的辐条细化生成的个体化s-rep,确保边界贴合、正交性和非相交性。
- Result: 在两个国际队列上的广泛实验表明,与现有形状模型相比,HippMetric实现了更高的准确性、可靠性和对应稳定性。
- Conclusion: HippMetric提供了一个生物学基础的参考框架,能够建立可靠的海马体亚结构跨个体和扫描的点对点对应关系,为神经退行性疾病早期检测提供了有力的形态测量工具。
[126] Towards Minimal Fine-Tuning of VLMs
Tiange Luo,Lajanugen Logeswaran,Jaekyeom Kim,Justin Johnson,Honglak Lee
Main category: cs.CV
TL;DR: Image-LoRA:一种轻量级的参数高效微调方法,专门针对视觉语言模型,通过仅适配视觉token跨度的注意力层中的value路径,并选择性地适配部分注意力头,显著减少训练参数和计算开销。
- Motivation: 现有LoRA方法在视觉语言模型微调时,对所有注意力层和所有注意力头都进行适配,导致训练参数和计算开销较大。需要一种更轻量、更高效的微调方法,既能保持模型性能,又能减少计算成本。
- Method: 1. 仅对视觉token跨度的注意力层中的value路径应用低秩适配;2. 使用rank-1 Image-LoRA估计注意力头影响力分数,选择性地适配部分注意力头;3. 通过选择大小归一化稳定每层更新。
- Result: 在屏幕中心定位和指代基准测试中,Image-LoRA在文本密集到图像密集的不同场景下,都能达到或接近标准LoRA的准确率,同时使用更少的可训练参数和更低的适配器训练FLOPs。在GSM8K上进一步证明,该方法能保持VLM在纯文本推理任务上的性能。
- Conclusion: Image-LoRA是一种有效的轻量级参数高效微调方法,能够在保持视觉语言模型性能的同时,显著减少训练参数和计算开销,并且不会损害模型的纯文本推理能力。
[127] From Pixels to Predicates Structuring urban perception with scene graphs
Yunlong Liu,Shuyang Li,Pengyuan Liu,Yu Zhang,Rudi Stouffs
Main category: cs.CV
TL;DR: 该研究提出一个三阶段流程,将街景图像转换为结构化图表示,用于预测六个感知指标,相比基线模型平均提升26%的预测准确率,并具有良好的跨城市泛化能力。
- Motivation: 当前感知研究多使用街景图像,但许多方法仍依赖像素特征或对象共现统计,忽略了塑造人类感知的显式关系。需要一种能够捕捉场景中对象间关系的结构化表示方法。
- Method: 三阶段流程:1) 使用开放集全景场景图模型(OpenPSG)从街景图像中提取对象-谓词-对象三元组;2) 通过异构图自编码器(GraphMAE)学习紧凑的场景级嵌入;3) 使用神经网络从这些嵌入中预测感知分数。
- Result: 1) 相比图像基线模型,感知预测准确率平均提升26%;2) 在跨城市预测任务中保持强大的泛化性能;3) 结构化表示能够解释哪些关系模式导致城市场景感知分数降低(如"墙上涂鸦"、"人行道上停车")。
- Conclusion: 基于图的结构为建模城市感知提供了表达力强、可泛化且可解释的信号,推动了以人为本和上下文感知的城市分析发展。
[128] VisionDirector: Vision-Language Guided Closed-Loop Refinement for Generative Image Synthesis
Meng Chu,Senqiao Yang,Haoxuan Che,Suiyun Zhang,Xichen Zhang,Shaozuo Yu,Haokun Gui,Zhefan Rao,Dandan Tu,Rui Liu,Jiaya Jia
Main category: cs.CV
TL;DR: 论文提出LGBench基准测试暴露现有生成模型处理长多目标提示的不足,并开发VisionDirector训练免费视觉语言监督器来改善多目标图像生成和编辑性能。
- Motivation: 现有生成模型在处理专业设计师使用的长、多目标提示时表现不佳,缺乏评估模型在真实场景下性能的基准测试。
- Method: 1) 引入LGBench基准测试(2000个任务);2) 提出VisionDirector系统:提取结构化目标、动态决策生成策略、微网格采样与语义验证、目标级奖励记录;3) 使用Group Relative Policy Optimization微调规划器。
- Result: 当前SOTA模型仅满足少于72%的目标;VisionDirector在GenEval上提升7%,在ImgEdit上提升0.07绝对分数,编辑步骤从4.2减少到3.1,在排版、多对象场景和姿态编辑上均有显著改进。
- Conclusion: VisionDirector通过结构化目标提取和动态编辑策略,显著提升了生成模型处理长多目标提示的能力,为实际应用场景提供了有效解决方案。
[129] 3SGen: Unified Subject, Style, and Structure-Driven Image Generation with Adaptive Task-specific Memory
Xinyang Song,Libin Wang,Weining Wang,Zhiwei Li,Jianxin Sun,Dandan Zheng,Jingdong Chen,Qi Li,Zhenan Sun
Main category: cs.CV
TL;DR: 3SGen是一个统一框架,通过自适应任务特定记忆模块,在单个模型中同时处理主题、风格和结构三种条件生成,解决了特征纠缠问题并提升了任务可迁移性。
- Motivation: 当前图像生成方法通常孤立地处理主题、风格和结构条件,导致特征纠缠和任务可迁移性有限。需要统一的框架来同时处理这三种条件模式。
- Method: 使用配备可学习语义查询的MLLM对齐文本-图像语义,VAE分支保留细粒度视觉细节。核心是自适应任务特定记忆模块,通过轻量门控机制和可扩展记忆项动态解耦、存储和检索条件特定先验。
- Result: 在提出的3SGen-Bench和其他公共基准测试中,3SGen在多样化的图像驱动生成任务上表现出优越性能,减少了任务间干扰并自然扩展到组合输入。
- Conclusion: 3SGen是一个任务感知的统一框架,能够有效处理主题、风格和结构条件生成,通过自适应记忆模块解决了特征纠缠问题,为图像驱动生成提供了全面的解决方案。
[130] Is Visual Realism Enough? Evaluating Gait Biometric Fidelity in Generative AI Human Animation
Ivan DeAndres-Tame,Chengwei Ye,Ruben Tolosana,Ruben Vera-Rodriguez,Shiqi Yu
Main category: cs.CV
TL;DR: 当前生成式AI在人类动画生成中视觉质量高但生物特征保真度低,无法有效保留步态识别所需的时空细节,主要依赖视觉属性而非时间动态特征。
- Motivation: 生成式AI在人类动画合成方面取得了显著进展,但生成真实的人类动画仍然面临挑战,特别是在行为生物识别应用中,微妙的运动线索容易丢失或扭曲。本研究旨在探究最先进的生成式AI人类动画模型是否能保留用于步态生物识别的人员身份识别所需的时空细节。
- Method: 评估了四种不同的生成式AI模型在两个主要评估任务上的表现:1)在不同复杂条件下从参考视频中恢复步态模式;2)将这些步态模式转移到不同的视觉身份中。
- Result: 结果显示,虽然视觉质量普遍较高,但在身份识别任务中生物特征保真度较低,表明当前生成式AI模型难以将身份与运动分离。通过身份转移任务进一步暴露了基于外观的步态识别的基本缺陷:当纹理与运动分离时,身份识别崩溃,证明当前模型依赖视觉属性而非时间动态特征。
- Conclusion: 当前生成式AI人类动画模型在保留步态生物识别所需的微妙时空细节方面存在局限性,主要依赖视觉外观而非运动动态,这限制了它们在需要精确身份识别的行为生物识别应用中的有效性。
[131] Hand-Aware Egocentric Motion Reconstruction with Sequence-Level Context
Kyungwon Cho,Hanbyul Joo
Main category: cs.CV
TL;DR: HaMoS:首个基于扩散模型的手部感知序列级框架,利用头轨迹和间歇可见的手部线索从第一人称视频重建全身运动,通过新颖的数据增强和局部注意力机制实现最先进的精度和时序平滑性。
- Motivation: 随着第一人称视觉系统普及,从第一人称视频估计穿戴者全身运动成为人机交互的关键挑战。现有方法主要依赖头轨迹(导致模糊性)或假设持续追踪手部(不切实际),需要更实用的解决方案。
- Method: 提出HaMoS框架:1)基于扩散模型,同时利用头轨迹和间歇可见的手部线索;2)引入新颖的数据增强方法模拟真实世界条件;3)采用局部注意力机制高效推断长序列,利用身体形状和视野等序列级上下文。
- Result: 在公开基准测试中达到最先进的精度和时序平滑性,展示了在野外第一人称3D运动理解方面的实际进展。
- Conclusion: HaMoS通过结合头轨迹和间歇手部线索,克服了第一人称视角下身体部位不可见的问题,为可靠的野外第一人称3D运动理解迈出了实际一步。
[132] RMLer: Synthesizing Novel Objects across Diverse Categories via Reinforcement Mixing Learning
Jun Li,Zikun Chen,Haibo Chen,Shuo Chen,Jian Yang
Main category: cs.CV
TL;DR: RMLer:基于强化学习的跨类别文本概念融合框架,通过动态混合系数和视觉奖励优化,生成高质量新颖视觉对象
- Motivation: 现有文本到图像生成方法在融合不同类别文本概念时存在概念混合不足、评估不严谨、输出质量差等问题,表现为概念不平衡、表面组合或简单并列
- Method: 提出强化混合学习框架,将跨类别概念融合建模为强化学习问题:混合特征作为状态,混合策略作为动作,视觉结果作为奖励。使用MLP策略网络预测动态混合系数,引入基于语义相似度和组合平衡的视觉奖励,通过近端策略优化训练
- Result: 实验表明RMLer在合成来自不同类别的连贯、高保真对象方面优于现有方法,能够生成高质量融合对象
- Conclusion: RMLer为生成新颖视觉概念提供了稳健框架,在电影、游戏和设计领域具有应用前景
[133] Bridging Semantics and Geometry: A Decoupled LVLM-SAM Framework for Reasoning Segmentation in Remote Sensing
Xu Zhang,Junyao Ge,Yang Zheng,Kaitai Guo,Jimin Liang
Main category: cs.CV
TL;DR: Think2Seg-RS提出了一种解耦框架,通过结构化几何提示让大型视觉语言模型控制冻结的SAM模型,实现了语义推理与像素预测的分离,在遥感图像分割中取得了SOTA性能并展示了零样本泛化能力。
- Motivation: 现有的大型视觉语言模型在遥感分析中将语言推理和像素预测通过端到端监督微调耦合在一起,导致几何基础薄弱且跨任务泛化能力有限。需要一种能够将抽象语义推理转化为空间基础行动的方法。
- Method: 提出Think2Seg-RS解耦框架:训练LVLM提示器通过结构化几何提示控制冻结的Segment Anything Model (SAM)。采用仅掩码的强化学习目标,让LVLM学习将抽象语义推理转化为空间基础行动。
- Result: 在EarthReason数据集上达到最先进性能;学习的提示策略能够零样本泛化到多个参考分割基准;揭示了语义级和实例级基础之间的明显区别;发现紧凑分割器在语义级监督下优于大型分割器,负提示在异质航空背景下无效。
- Conclusion: 语义级推理分割成为地理空间理解的新范式,为统一、可解释的LVLM驱动地球观测开辟了道路。解耦框架通过结构化几何提示实现了语义推理与像素预测的有效分离。
[134] MixFlow Training: Alleviating Exposure Bias with Slowed Interpolation Mixture
Hui Li,Jiayue Lyu,Fu-Yun Wang,Kaihui Cheng,Siyu Zhu,Jingdong Wang
Main category: cs.CV
TL;DR: MixFlow是一种解决扩散模型训练-测试不一致性(曝光偏差)的新方法,通过利用"慢流现象"在训练时引入放缓时间步的插值混合来改进预测网络性能。
- Motivation: 扩散模型存在训练-测试不一致性问题:训练时输入是真实噪声数据(噪声和数据的插值),而测试时输入是生成的噪声数据,这种差异导致性能下降。
- Method: 提出MixFlow方法,基于"慢流现象":在给定采样时间步,最接近生成噪声数据的真实插值对应更高噪声的时间步(放缓时间步)。MixFlow利用这些放缓时间步的插值(放缓插值混合)对每个训练时间步的预测网络进行后训练。
- Result: 在类别条件图像生成(包括SiT、REPA、RAE)和文本到图像生成任务上验证了有效性。RAE模型在ImageNet上取得优异结果:256×256分辨率下无引导FID 1.43、有引导FID 1.10;512×512分辨率下无引导FID 1.55、有引导FID 1.10。
- Conclusion: MixFlow通过解决扩散模型的训练-测试不一致性问题,显著提升了生成质量,在多个基准测试中取得了最先进的性能。
[135] Neural Implicit Heart Coordinates: 3D cardiac shape reconstruction from sparse segmentations
Marica Muffoletto,Uxio Hermida,Charlène Mauger,Avan Suinesiaputra,Yiyang Xu,Richard Burns,Lisa Pankewitz,Andrew D McCulloch,Steffen E Petersen,Daniel Rueckert,Alistair A Young
Main category: cs.CV
TL;DR: NIHCs是一种基于通用心室坐标的标准化隐式坐标系统,可从稀疏2D分割直接预测心脏解剖结构,实现高效3D重建。
- Motivation: 从稀疏临床图像准确重建心脏解剖结构是患者特异性建模的主要挑战,现有神经隐式函数在跨主体解剖一致性映射方面应用有限。
- Method: 提出神经隐式心脏坐标(NIHCs),基于通用心室坐标建立标准化隐式坐标系统,从有限2D分割预测NIHCs,然后解码为密集3D分割和高分辨率网格。
- Result: 在5000个心脏网格数据集上训练,疾病队列平均表面误差2.51±0.33mm,健康队列2.3±0.36mm,推理时间从60秒降至5-15秒,能恢复复杂结构如瓣膜平面。
- Conclusion: NIHCs构成了一种稳健高效的心脏解剖表示方法,可从最小输入数据实现患者特异性3D心脏重建。
[136] Extended OpenTT Games Dataset: A table tennis dataset for fine-grained shot type and point outcome
Moamal Fadhil Abdul,Jonas Bruun Hubrechts,Thomas Martini Jørgensen,Emil Hovad
Main category: cs.CV
TL;DR: 扩展OpenTTGames数据集,添加详细的击球类型、球员姿态和回合结果标注,支持乒乓球视频的细粒度分析
- Motivation: 自动检测和分类乒乓球视频中的击球动作可以简化训练流程、丰富直播覆盖和实现细粒度性能分析,但需要标注的视频数据。现有数据集缺乏详细的击球类型和战术理解标注
- Method: 扩展OpenTTGames数据集,添加帧级准确的击球类型标注(正手、反手及其子类型)、球员姿态标签(身体倾斜和腿部姿势)以及回合结束时的结果标签。提供紧凑的编码方案和代码辅助标注流程
- Result: 创建了包含详细击球类型、球员姿态和回合结果标注的扩展数据集,填补了社区中公开可用的细粒度乒乓球视频分析数据集的空白
- Conclusion: 扩展后的OpenTTGames数据集支持从简单的事件检测向战术理解的模型发展,采用CC BY-NC-SA 4.0许可,允许非商业用途的自由使用、修改和再分发
[137] DeltaMIL: Gated Memory Integration for Efficient and Discriminative Whole Slide Image Analysis
Yueting Zhu,Yuehao Song,Shuai Zhang,Wenyu Liu,Xinggang Wang
Main category: cs.CV
TL;DR: DeltaMIL:一种针对全切片图像分析的新型多示例学习框架,通过门控delta规则动态筛选和整合信息,在生存预测和分类任务上取得SOTA性能
- Motivation: 全切片图像规模大、异质性强,产生高度冗余和分散的信息,现有MIL方法要么无法有效丢弃无信息线索,要么整合多区域相关特征能力有限,限制了在大规模异质WSI上的性能
- Method: 提出DeltaMIL框架:1)使用门控delta规则,通过遗忘和记忆机制块高效筛选和整合信息;2)delta机制根据与当前patch的相关性动态更新记忆;3)门控机制快速遗忘无关信号;4)集成局部模式混合机制保留细粒度病理局部性
- Result: DeltaMIL在生存预测任务上,使用ResNet-50特征提升3.69%,使用UNI特征提升2.36%;在切片级分类任务上,使用ResNet-50特征提升3.09%,使用UNI特征提升3.75%,均达到SOTA性能
- Conclusion: DeltaMIL通过有效提取有意义的病理线索并抑制冗余噪声信息,增强了模型的鲁棒性和判别能力,在多种WSI任务上展现出强大且一致的性能
[138] GANeXt: A Fully ConvNeXt-Enhanced Generative Adversarial Network for MRI- and CBCT-to-CT Synthesis
Siyuan Mei,Yan Xia,Fuxin Fan
Main category: cs.CV
TL;DR: GANeXt:基于3D ConvNeXt的生成对抗网络,用于从MRI和CBCT合成CT图像,支持多模态多解剖区域的统一合成。
- Motivation: 在自适应放射治疗中,从MRI和CBCT合成CT对于精确的解剖结构表示至关重要。现有方法通常针对特定模态或解剖区域,缺乏统一的解决方案。
- Method: 提出GANeXt,一个3D patch-based、完全基于ConvNeXt的生成对抗网络。使用U形生成器(堆叠3D ConvNeXt块)、条件PatchGAN判别器。结合MAE、感知损失、分割掩码MAE、对抗损失等混合损失函数。采用AdamW优化器、预热和余弦衰减调度器。
- Result: 模型在MRI-to-CT上训练3000个epoch,CBCT-to-CT上训练1000个epoch,无需微调即可在所有解剖区域上工作。采用滑动窗口和平均折叠进行全尺寸合成CT重建。
- Conclusion: GANeXt提供了一个统一的CT合成框架,能够处理不同模态(MRI/CBCT)和不同解剖区域,在自适应放射治疗规划中具有临床应用潜力。
[139] ReasonCD: A Multimodal Reasoning Large Model for Implicit Change-of-Interest Semantic Mining
Zhenyang Huang,Xiao Yu,Yi Zhang,Decheng Wang,Hang Ruan
Main category: cs.CV
TL;DR: ReasonCD:基于多模态推理的遥感变化检测模型,能够挖掘用户隐含任务意图,解决现有方法对显式文本描述过度依赖的问题。
- Motivation: 当前基于多模态大模型的遥感变化检测方法过度依赖用户对变化区域(CRoI)的显式文本描述,当面对隐含的文本描述时性能几乎完全失效。需要一种能够理解用户隐含任务意图的变化检测方法。
- Method: 提出ReasonCD模型,利用预训练大语言模型的强大推理能力挖掘用户的隐含任务意图,然后基于这些意图获得不同的变化检测结果。模型具备解释推理过程的能力。
- Result: 在BCDD数据集上F1分数达到92.1%,表现出优秀的变化检测性能。在基于SECOND数据集标注的推理数据子集上,模型不仅能完成基于推理的变化检测任务,还能解释推理过程辅助人类决策。
- Conclusion: ReasonCD通过挖掘用户隐含意图解决了现有方法对显式文本描述的过度依赖问题,实现了基于推理的变化检测,并具备解释能力,为遥感智能解译提供了新思路。
[140] Efficient Spike-driven Transformer for High-performance Drone-View Geo-Localization
Zhongwei Chen,Hai-Jun Rong,Zhao-Xu Yang,Guoqi Li
Main category: cs.CV
TL;DR: 提出首个用于无人机视角地理定位的脉冲神经网络框架SpikeViMFormer,通过轻量级脉冲驱动Transformer骨干、选择性注意力块和混合状态空间块解决信息丢失和长程依赖问题,在保持低功耗的同时达到与先进ANN竞争的性能。
- Motivation: 传统基于ANN的无人机视角地理定位方法计算密集、功耗高,而SNN具有低功耗优势但尚未在DVGL中得到充分研究。同时,脉冲驱动的稀疏计算在表示学习场景中会导致关键信息丢失和长程依赖学习困难。
- Method: 提出SpikeViMFormer框架:1) 轻量级脉冲驱动Transformer骨干提取粗粒度特征;2) 脉冲驱动选择性注意力(SSA)块通过门控机制实现选择性特征增强;3) 脉冲驱动混合状态空间(SHS)块学习长程依赖;4) 分层重排序对齐学习(HRAL)策略优化骨干网络。
- Result: 实验结果表明SpikeViMFormer优于最先进的SNN方法,与先进的ANN方法相比也达到了竞争性性能,同时保持了SNN的低功耗优势。
- Conclusion: SpikeViMFormer是首个专门为无人机视角地理定位设计的SNN框架,成功解决了脉冲神经网络在表示学习中的信息丢失和长程依赖问题,在保持低功耗的同时实现了与ANN竞争的性能。
[141] DSTED: Decoupling Temporal Stabilization and Discriminative Enhancement for Surgical Workflow Recognition
Yueyao Chen,Kai-Ni Wang,Dario Tayupo,Arnaud Huaulm'e,Krystel Nyangoh Timoh,Pierre Jannin,Qi Dou
Main category: cs.CV
TL;DR: 提出双路径框架DSTED,通过可靠记忆传播和不确定性感知原型检索,解决手术工作流识别中的预测抖动和模糊阶段判别问题,在AutoLaparo-hysterectomy数据集上达到SOTA性能。
- Motivation: 当前手术工作流识别方法存在两个关键挑战:连续帧间的预测抖动和模糊阶段的判别能力差。需要开发稳定框架,通过选择性传播可靠历史信息和显式建模不确定性来增强困难样本处理。
- Method: 提出双路径框架DSTED,包含可靠记忆传播(RMP)和不确定性感知原型检索(UPR)。RMP通过多标准可靠性评估过滤和融合高置信度历史特征来保持时间一致性;UPR从高不确定性样本构建可学习的类特定原型,进行自适应原型匹配来优化模糊帧表示;置信度驱动门基于预测确定性动态平衡两条路径。
- Result: 在AutoLaparo-hysterectomy数据集上达到84.36%准确率和65.51% F1分数,分别超过次优方法3.51%和4.88%。消融实验显示RMP贡献2.19%提升,UPR贡献1.93%提升,组合有协同效应。分析证实显著减少时间抖动,在挑战性阶段转换上有明显改进。
- Conclusion: 双路径设计为稳定工作流识别引入了新范式,证明将时间一致性和阶段模糊性建模解耦可获得优越性能和临床适用性。
[142] Non-Contrast CT Esophageal Varices Grading through Clinical Prior-Enhanced Multi-Organ Analysis
Xiaoming Zhang,Chunli Li,Jiacheng Hao,Yuan Gao,Danyang Tu,Jianyi Qiao,Xiaoli Yin,Le Lu,Ling Zhang,Ke Yan,Yang Hou,Yu Shi
Main category: cs.CV
TL;DR: MOON++是一个多模态框架,通过综合分析非对比增强CT扫描来评估食管静脉曲张,利用多器官体积关系进行严重程度分类,性能优于传统单器官方法。
- Motivation: 食管静脉曲张是门脉高压的重要并发症,传统内镜检查具有侵入性。非对比增强CT作为非侵入性替代方法在临床中尚未充分利用,需要开发更准确的评估工具。
- Method: 提出MOON++多模态框架,整合食管、肝脏和脾脏的影像特征,基于临床证据中器官体积关系与肝病严重程度的相关性,通过多模态学习进行综合分析。
- Result: 在1631名患者中验证,MOON++在严重程度分类(G3 vs <G3)上AUC达到0.894(传统方法0.803),在中重度分级(≥G2 vs <G2)上AUC达到0.921(传统方法0.793),性能显著优于单器官方法。
- Conclusion: MOON++是首个结合临床先验知识的综合性多器官NCCT分析框架,为食管静脉曲张评估提供了有前景的非侵入性诊断替代方案。
[143] dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models
Yi Xin,Siqi Luo,Qi Qin,Haoxing Chen,Kaiwen Zhu,Zhiwei Zhang,Yangfan He,Rongchao Zhang,Jinbin Bai,Shuo Cao,Bin Fu,Junjun He,Yihao Liu,Yuewen Cao,Xiaohong Liu
Main category: cs.CV
TL;DR: dMLLM-TTS是一个用于扩散多模态大语言模型的高效测试时缩放框架,通过分层搜索算法和自我验证反馈机制,在提高生成质量的同时显著降低计算成本。
- Motivation: 扩散多模态大语言模型(dMLLMs)统一了图像生成和理解,但现有测试时缩放方法计算成本高、需要外部验证器,限制了其生成潜力的充分发挥。
- Method: 提出dMLLM-TTS框架,包含两个创新:1) O(N+T)复杂度的分层搜索算法,自适应扩展和剪枝采样轨迹;2) 自我验证反馈机制,利用dMLLMs内在的图像理解能力评估文本-图像对齐,无需外部验证器。
- Result: 在GenEval基准测试中,对三种代表性dMLLMs(Lumina-DiMOO、MMaDA、Muddit)的实验表明,该框架显著提高生成质量,同时比线性搜索效率提升高达6倍。
- Conclusion: dMLLM-TTS通过高效的分层搜索和自我验证机制,为扩散多模态大语言模型提供了有效的测试时缩放解决方案,平衡了生成质量和计算效率。
[144] MT-Mark: Rethinking Image Watermarking via Mutual-Teacher Collaboration with Adaptive Feature Modulation
Fei Ge,Ying Huang,Jie Liu,Guixuan Zhang,Zhi Zeng,Shuwu Zhang,Hu Guan
Main category: cs.CV
TL;DR: 提出一种显式协作的深度图像水印框架,通过协作交互机制和自适应特征调制模块实现嵌入器与提取器的双向通信,提升水印鲁棒性和提取准确性。
- Motivation: 现有深度图像水印方法采用固定的嵌入-失真-提取流程,嵌入器和提取器仅通过最终损失弱耦合,缺乏显式协作机制。这种设计无法让嵌入器考虑解码感知线索,也无法让提取器指导嵌入过程,限制了水印系统的性能。
- Method: 1. 提出协作交互机制(CIM),建立嵌入器与提取器之间的直接双向通信,实现相互教师训练范式;2. 设计自适应特征调制模块(AFMM),通过解耦调制结构和强度实现内容感知特征调节,引导水印嵌入到稳定图像特征中,并在提取时抑制宿主干扰;3. 在CIM框架下,两端的AFMM形成闭环协作,使嵌入行为与提取目标对齐。
- Result: 在真实世界和AI生成数据集上的实验表明,该方法在保持高感知质量的同时,水印提取准确率始终优于现有最先进方法,展现出强大的鲁棒性和泛化能力。
- Conclusion: 通过架构层面的重新设计,将水印嵌入和提取重构为显式协作组件,使鲁棒性从嵌入和提取之间的协调表示学习中自然产生,而非依赖详尽的失真模拟,为深度图像水印提供了新的设计范式。
[145] D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning
Evelyn Zhang,Fufu Yu,Aoqi Wu,Zichen Wen,Ke Yan,Shouhong Ding,Biqing Qi,Linfeng Zhang
Main category: cs.CV
TL;DR: D2Pruner:一种用于多模态大语言模型的视觉令牌剪枝框架,通过结合去偏重要性和结构剪枝机制,在保持细粒度定位能力的同时显著减少计算量。
- Motivation: 当前视觉令牌剪枝方法在处理长序列时存在计算负担问题,且现有方法在细粒度定位任务上表现不佳。重要性方法存在位置偏差,多样性方法忽视用户提示和空间冗余,导致定位任务失败。
- Method: 提出D2Pruner框架:1)基于去偏注意力分数选择核心令牌作为枢轴;2)在剩余令牌上执行最大独立集选择,令牌建模在表示空间邻近性和语义相似性的混合图上;3)迭代保留最重要且可用的令牌,同时移除其邻居,确保补充令牌同时最大化重要性和多样性。
- Result: 在LLaVA-1.5-7B上,减少74.2%的FLOPs同时保持99.2%的原始性能;在InternVL-2.5-8B的定位基准测试中,在90%令牌减少率下保持85.7%性能,比现有方法提升高达63.53%。
- Conclusion: D2Pruner通过结合去偏重要性和结构剪枝机制,有效解决了现有令牌剪枝方法在细粒度定位任务上的失败问题,在保持高效计算的同时实现了卓越的性能保真度。
[146] Sign Language Recognition using Parallel Bidirectional Reservoir Computing
Nitin Kumar Singh,Arie Rachmad Syulistyo,Yuichiro Tanaka,Hakaru Tamukoh
Main category: cs.CV
TL;DR: 提出结合并行双向储备计算与MediaPipe的轻量级手语识别系统,在WLASL数据集上达到60.85% top-1准确率,训练时间仅18.67秒,适合边缘设备部署。
- Motivation: 现有基于深度学习的手语识别模型计算资源需求大,不适合在边缘设备上部署,需要开发轻量级解决方案。
- Method: 使用MediaPipe进行实时手部跟踪和关节坐标提取,结合并行双向储备计算架构(两个ESN基础的双向储备计算模块并行排列)来捕捉时间依赖性。
- Result: 在WLASL数据集上达到top-1准确率60.85%、top-5准确率85.86%、top-10准确率91.74%,训练时间仅18.67秒,相比Bi-GRU的55分钟大幅减少。
- Conclusion: 该方法为边缘设备上的实时手语识别提供了轻量级、经济高效的解决方案,特别适合资源受限环境。
[147] Emotion-Director: Bridging Affective Shortcut in Emotion-Oriented Image Generation
Guoli Jia,Junyao Hu,Xinwei Long,Kai Tian,Kaiyan Zhang,KaiKai Zhao,Ning Ding,Bowen Zhou
Main category: cs.CV
TL;DR: 提出Emotion-Director框架,通过跨模态协作解决情感导向图像生成中的"情感捷径"问题,避免情感被简化为语义。
- Motivation: 当前情感导向图像生成方法存在"情感捷径"问题,将情感近似为语义,但情感不等于语义。广告等领域需要更准确的情感表达。
- Method: 提出Emotion-Director框架:1) MC-Diffusion模型整合视觉提示和文本提示,通过负视觉提示改进DPO优化;2) MC-Agent多智能体系统模拟人类情感主观性,采用概念链工作流重写文本提示。
- Result: 大量定性和定量实验证明Emotion-Director在情感导向图像生成方面的优越性。
- Conclusion: Emotion-Director通过跨模态协作有效解决了情感捷径问题,实现了超越语义的情感导向图像生成。
[148] Dynamic Stream Network for Combinatorial Explosion Problem in Deformable Medical Image Registration
Shaochen Bi,Yuting He,Weiming Wang,Hao Chen
Main category: cs.CV
TL;DR: 提出DySNet网络,通过动态调整感受野和权重来解决可变形医学图像配准中的组合爆炸问题,显著提升配准性能
- Motivation: 可变形医学图像配准(DMIR)中双输入导致的组合爆炸问题:同时处理两幅图像时特征组合关系呈指数增长,模型在特征建模过程中会考虑更多干扰特征组合
- Method: 提出动态流网络(DySNet),包含两个关键创新:1)自适应流池(AdSB)模块动态调整感受野形状,使模型聚焦于相关性更强的特征关系;2)动态流注意力(DySA)机制生成动态权重,搜索更有价值的特征关系
- Result: 大量实验表明DySNet持续优于最先进的DMIR方法,显示出出色的泛化能力
- Conclusion: 通过引入动态感受野和权重调整机制,DySNet能够有效消除干扰特征组合并建模潜在特征关系,为解决DMIR中的组合爆炸问题提供了有效方案
[149] FusionNet: Physics-Aware Representation Learning for Multi-Spectral and Thermal Data via Trainable Signal-Processing Priors
Georgios Voulgaris
Main category: cs.CV
TL;DR: 提出FusionNet框架,通过融合短波红外(SWIR)比值与热红外(TIR)数据,结合物理感知特征选择和深度学习架构,提升多光谱学习在真实场景下的鲁棒性。
- Motivation: 现有多模态视觉模型依赖与信号形成物理过程不匹配的归纳偏置,导致跨光谱和真实条件下性能脆弱。特别是依赖直接热信号的方法难以捕捉持续热排放引起的间接但持久的环境变化。
- Method: 提出物理感知表示学习框架,整合对土壤性质变化敏感的地质SWIR比值与TIR数据,通过中间融合架构FusionNet实现。该骨干网络在卷积层中嵌入可训练差分信号处理先验,结合混合池化策略和更宽的感受野以增强跨光谱模态鲁棒性。
- Result: 系统消融实验显示各架构组件均贡献性能提升:DGCNN在SWIR比值上达到88.7%准确率,FusionNet达到90.6%,在五种光谱配置上均优于现有基线。迁移学习实验表明ImageNet预训练会降低TIR性能,凸显模态感知训练对跨光谱学习的重要性。
- Conclusion: 结合物理感知特征选择与原则性深度学习架构能产生鲁棒且可泛化的表示,说明基于第一性原理的信号建模可在挑战性条件下改进多光谱学习。
[150] Anatomy-R1: Enhancing Anatomy Reasoning in Multimodal Large Language Models via Anatomical Similarity Curriculum and Group Diversity Augmentation
Ziyang Song,Zelin Zang,Zuyao Chen,Xusheng Liang,Dong Yi,Jinlin Wu,Hongbin Liu,Jiebo Luo
Main category: cs.CV
TL;DR: 提出两种新方法改进多模态大语言模型在医学解剖图像理解中的推理能力:解剖相似性课程学习和群体多样性问题增强,显著提升在SGG-VQA和OmniMedVQA基准上的性能。
- Motivation: 多模态大语言模型在自然图像推理方面取得显著进展,但在医学成像尤其是临床解剖手术图像中的应用潜力尚未充分挖掘。解剖理解任务需要精确理解和临床一致的答案,但由于医学数据的复杂性和高质量专家标注的稀缺性,传统监督微调策略效果有限。现有GRPO方法在解剖识别中存在两个弱点:不同解剖结构间的知识无法有效共享导致信息获取不均,以及模型快速收敛到单一推理路径抑制了多样化策略的探索。
- Method: 提出两种创新方法:1) 解剖相似性课程学习:通过控制答案选项的相似度来调节问题难度,实现渐进式学习,使模型能够逐步掌握复杂问题;2) 群体多样性问题增强:通过问题增强扩展模型对困难查询的搜索空间,减轻产生统一响应的倾向。
- Result: 在SGG-VQA和OmniMedVQA基准测试上的综合实验表明,该方法在两个基准上都取得了显著改进,证明了其在增强多模态大语言模型的医学推理能力方面的有效性。
- Conclusion: 提出的解剖相似性课程学习和群体多样性问题增强方法有效解决了GRPO在医学解剖识别中的局限性,显著提升了多模态大语言模型在医学图像推理任务中的性能,为医学人工智能应用提供了有价值的改进方案。
[151] A Convolutional Neural Deferred Shader for Physics Based Rendering
Zhuo He,Yingdong Ru,Qianying Liu,Paul Henderson,Nicolas Pugeault
Main category: cs.CV
TL;DR: pbnds+:一种基于物理的神经延迟着色管道,使用CNN减少参数并提升着色和重光照性能,通过能量正则化解决暗光场景问题。
- Motivation: 现有神经渲染方法使用MLP学习渲染方程,虽然能实现逼真的着色和重光照,但存在参数过多、计算资源需求高、训练复杂、渲染性能下降等问题。数据驱动方法需要大量训练数据,且不平衡数据会导致模型忽略暗光等特殊光照条件。
- Method: 提出pbnds+:基于物理的神经延迟着色管道,使用卷积神经网络替代MLP以减少参数并提升性能;引入能量正则化来约束模型在暗光条件下的反射行为。
- Result: 大量实验表明,该方法在着色和重光照任务上超越了经典基线方法、最先进的神经着色模型以及基于扩散的方法。
- Conclusion: pbnds+通过CNN架构和能量正则化,有效解决了现有神经渲染方法的参数过多和暗光场景处理问题,在着色和重光照任务中表现出优越性能。
[152] Multi-Modal Soccer Scene Analysis with Masked Pre-Training
Marc Peral,Guillem Capellera,Luis Ferraz,Antonio Rubio,Antonio Agudo
Main category: cs.CV
TL;DR: 提出一个多模态架构分析足球战术镜头,专注于球轨迹推断、球状态分类和持球者识别三个核心任务,通过结合球员轨迹、球员类型和球员图像裁剪,使用社会时间变换器块处理时空动态。
- Motivation: 现有方法严重依赖精确的球跟踪或手工启发式规则,而现实比赛中的噪声和遮挡条件使得这些方法不够鲁棒。需要一种能够在不直接访问球过去或未来位置的情况下推断球轨迹,并在嘈杂或遮挡条件下准确识别球状态和持球者的解决方案。
- Method: 整合三种输入模态(球员轨迹、球员类型和球员图像裁剪)到一个统一框架中,使用社会时间变换器块级联处理时空动态。引入CropDrop,一种模态特定的掩码预训练策略,防止过度依赖图像特征,鼓励模型在预训练期间依赖跨模态模式。
- Result: 在大规模数据集上展示了方法的有效性,在所有任务上都显著优于最先进的基线方法。结果突出了在基于变换器的架构中结合结构化和视觉线索的好处,以及现实掩码策略在多模态学习中的重要性。
- Conclusion: 提出的多模态架构能够在不直接访问球位置的情况下鲁棒地推断球轨迹,并在现实比赛条件下准确识别球状态和持球者。CropDrop预训练策略有效防止了模型过度依赖图像特征,促进了跨模态学习。
[153] SlicerOrbitSurgerySim: An Open-Source Platform for Virtual Registration and Quantitative Comparison of Preformed Orbital Plates
Chi Zhang,Braedon Gunn,Andrew M. Read-Fuller
Main category: cs.CV
TL;DR: 开发了SlicerOrbitSurgerySim开源工具,用于在3D Slicer平台上定量评估和比较预成型眼眶植入物的适配性,旨在改善术前决策和减少术中修改。
- Motivation: 眼眶植入物适配不良是术后并发症和翻修手术的主要原因。目前缺乏公开工具和标准化指标来定量比较不同供应商、尺寸和患者解剖结构的植入物适配性。
- Method: 开发了SlicerOrbitSurgerySim,这是一个3D Slicer平台的开源扩展,支持在患者特异性虚拟规划环境中交互式虚拟配准、评估和比较多个预成型眼眶植入物。
- Result: 该软件生成可重复的定量植入物-眼眶距离指标和可视化工具,支持患者特异性规划和群体水平的植入物适配性统计分析。
- Conclusion: 通过促进植入物设计和放置策略的客观比较,该工具旨在改善术前决策、减少术中植入物修改,并促进协作研究和外科教育。提供了试点研究、样本数据集和详细教程来支持测试、透明度和可重复性。
[154] CASA: Cross-Attention via Self-Attention for Efficient Vision-Language Fusion
Moritz Böhle,Amélie Royer,Juliette Marrie,Edouard Grave,Patrick Pérez
Main category: cs.CV
TL;DR: CASA提出了一种通过自注意力实现交叉注意力的高效视觉语言模型架构,在保持交叉注意力模型可扩展性的同时,显著缩小了与完全token插入方法的性能差距。
- Motivation: 现有视觉语言模型存在效率与性能的权衡:完全token插入方法虽然性能好但计算成本高,而交叉注意力方法效率高但性能较差,特别是在需要细粒度视觉细节的任务上。
- Method: 提出CASA(Cross-Attention via Self-Attention)范式,在专用的交叉注意力层中同时启用局部文本到文本交互,通过自注意力机制增强交叉注意力的表达能力。
- Result: CASA在常见图像理解基准测试中显著缩小了与完全token插入方法的性能差距,同时在流媒体视频字幕等长上下文多模态任务中保持了与交叉注意力模型相同的可扩展性。
- Conclusion: CASA提供了一种简单高效的视觉语言模型架构,在保持计算效率的同时显著提升了性能,特别适合处理高分辨率图像、长对话和流媒体视频等多模态任务。
[155] StoryMem: Multi-shot Long Video Storytelling with Memory
Kaiwen Zhang,Liming Jiang,Angtian Wang,Jacob Zhiyuan Fang,Tiancheng Zhi,Qing Yan,Hao Kang,Xin Lu,Xingang Pan
Main category: cs.CV
TL;DR: StoryMem:一种基于视觉记忆的长视频叙事生成方法,通过记忆银行和M2V设计将单镜头视频扩散模型转化为多镜头叙事器
- Motivation: 现有方法难以生成具有电影质量和长程一致性的多镜头视频叙事,需要解决跨镜头一致性和连贯性问题
- Method: 提出StoryMem范式,将长视频叙事重构为基于显式视觉记忆的迭代镜头合成,采用M2V设计维护动态更新的关键帧记忆银行,通过潜在连接和负RoPE偏移注入记忆,结合语义关键帧选择与审美偏好过滤
- Result: 在ST-Bench基准测试中,StoryMem在跨镜头一致性方面优于先前方法,同时保持高审美质量和提示遵循能力,实现了连贯的分钟级视频叙事
- Conclusion: StoryMem通过视觉记忆机制显著提升了多镜头视频叙事的一致性和连贯性,为长视频生成提供了有效解决方案
[156] ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars
Ziqiao Peng,Yi Chen,Yifeng Ma,Guozhen Zhang,Zhiyao Sun,Zixiang Zhou,Youliang Zhang,Zhengguang Zhou,Zhaoxin Fan,Hongyan Liu,Yuan Zhou,Qinglin Lu,Jun He
Main category: cs.CV
TL;DR: ActAvatar是一个通过文本指导实现相位级精确动作控制的说话头像生成框架,解决了现有方法在文本跟随能力、时间对齐和依赖额外控制信号方面的挑战。
- Motivation: 现有说话头像生成方法存在三个关键挑战:1)文本跟随能力不足,难以生成多样动作;2)动作与音频内容时间对齐不佳;3)依赖姿势骨架等额外控制信号。需要开发能够通过文本指导实现精确动作控制的框架。
- Method: 提出三个核心创新:1)相位感知交叉注意力(PACA),将提示分解为全局基础块和时间锚定的相位块,实现精确的时间-语义对齐;2)渐进式视听对齐,早期层优先文本建立动作结构,深层强调音频细化唇部运动,防止模态干扰;3)两阶段训练策略,先在多样数据上建立稳健的视听对应,再通过结构化标注微调注入动作控制。
- Result: 大量实验表明,ActAvatar在动作控制和视觉质量方面显著优于最先进的方法。
- Conclusion: ActAvatar通过相位级精确的动作控制和创新的模态对齐机制,解决了说话头像生成中的关键挑战,实现了卓越的文本跟随能力和视听同步质量。
[157] BabyFlow: 3D modeling of realistic and expressive infant faces
Antonia Alomar,Mireia Masias,Marius George Linguraru,Federico M. Sukno,Gemma Piella
Main category: cs.CV
TL;DR: BabyFlow是一个生成式AI模型,使用标准化流技术分离婴儿面部身份和表情,实现独立控制,并通过跨年龄表情迁移解决婴儿表情数据稀缺问题。
- Motivation: 婴儿面部建模对早期发育障碍检测很重要,但面临数据有限和频繁自发表情的挑战。现有方法难以处理婴儿面部复杂的非线性变化。
- Method: 使用标准化流学习灵活的概率表示,捕获婴儿表情的非线性变化。通过跨年龄表情迁移,将成人3D扫描的表情适配到婴儿数据集,丰富表情变体。
- Result: BabyFlow提高了3D重建精度,特别是在嘴、眼、鼻等高表情区域。支持合成和修改婴儿表情同时保持身份,与扩散模型结合可生成高保真2D婴儿图像。
- Conclusion: BabyFlow为婴儿面部分析提供了强大工具,支持数据增强和早期面部分析,有助于发育障碍的早期检测。
[158] No Data? No Problem: Robust Vision-Tabular Learning with Missing Values
Marta Hasny,Laura Daza,Keno Bressem,Maxime Di Folco,Julia Schnabel
Main category: cs.CV
TL;DR: RoVTL是一个鲁棒的视觉-表格学习框架,通过对比预训练和门控交叉注意力模块处理表格数据缺失问题,在0-100%表格数据可用性下保持稳定性能。
- Motivation: 大规模医学生物库包含丰富的表格数据,但现实世界数据集中往往只有部分表格属性可用。现有方法无法有效处理训练时使用完整表格数据而推理时面临数据缺失的挑战。
- Method: RoVTL采用两阶段方法:1) 对比预训练阶段,将表格属性缺失作为数据增强提升鲁棒性;2) 下游任务微调阶段,使用门控交叉注意力模块进行多模态融合,并引入"表格数据多vs少"损失函数和分离梯度学习。
- Result: 在UK Biobank心脏MRI数据上,RoVTL相比现有方法对表格数据缺失表现出更优的鲁棒性。还能成功泛化到外部心脏MRI数据集进行多模态疾病分类,并扩展到自然图像领域。
- Conclusion: RoVTL能够有效处理表格数据可用性的任意变化,为现实世界多模态学习提供了鲁棒的解决方案,特别是在医学成像领域具有重要应用价值。
[159] MapTrace: Scalable Data Generation for Route Tracing on Maps
Artemis Panagopoulou,Aveek Purohit,Achin Kulshrestha,Soroosh Yazdani,Mohit Goyal
Main category: cs.CV
TL;DR: 论文提出了一种可扩展的合成数据生成流程,用于提升多模态大语言模型在细粒度空间理解(如地图路径追踪)上的能力,通过23k路径样本微调模型,在MapBench上取得了显著改进。
- Motivation: 当前多模态大语言模型在细粒度空间理解(如地图路径追踪)方面表现有限,无法像人类那样快速解析和导航地图,部分原因是收集大规模像素级精确路径标注的成本和难度过高。
- Method: 引入可扩展的合成数据生成流程,利用合成地图图像和像素级解析自动为路径追踪任务生成精确标注。使用该流程构建了包含23k路径样本、覆盖4k地图的微调数据集。
- Result: 在MapBench上的结果显示,微调显著提高了模型的鲁棒性,成功率提升了高达6.4个百分点,同时减少了路径追踪误差(NDTW)。开源和专有MLLM都取得了改进。
- Conclusion: 研究表明,预训练模型中缺乏的细粒度空间推理能力可以通过合成监督明确教授,合成数据生成是提升模型空间理解能力的有效方法。
[160] Generative diffusion models for agricultural AI: plant image generation, indoor-to-outdoor translation, and expert preference alignment
Da Tan,Michael Beck,Christopher P. Bidinosti,Robert H. Gulden,Christopher J. Henry
Main category: cs.CV
TL;DR: 论文研究基于扩散模型的植物图像生成技术,包括室内外图像合成、室内到室外图像转换以及专家偏好对齐微调,旨在解决农业AI中高质量植物图像数据获取困难的问题。
- Motivation: 农业人工智能的成功严重依赖大规模、多样化、高质量的植物图像数据集,但在真实田间条件下收集此类数据成本高、劳动密集且受季节限制。需要开发数据高效的生成方法来解决这些挑战。
- Method: 1. 在标注的室内外植物图像上微调Stable Diffusion模型,生成文本条件化的油菜和大豆图像;2. 使用DreamBooth文本反演和图像引导扩散进行室内到室外图像转换;3. 基于专家评分训练奖励模型,应用奖励加权更新进行偏好引导微调。
- Result: 合成图像能有效增强训练数据并提高表型分类准确率;转换后的图像能提升杂草检测和分类性能;偏好引导微调能产生更稳定且符合专家偏好的输出。
- Conclusion: 这些组件共同展示了农业AI数据高效生成管道的实用路径,为解决农业图像数据稀缺问题提供了可行方案。
[161] 4D Gaussian Splatting as a Learned Dynamical System
Arnold Caleb Asiimwe,Carl Vondrick
Main category: cs.CV
TL;DR: EvoGS将4D高斯泼溅重新解释为连续时间动力系统,通过积分学习到的神经动力场来产生场景运动,而非逐帧变形,实现了更高效的学习、时间外推和可组合动态
- Motivation: 传统基于变形的方法存在局限性,需要逐帧监督且难以实现时间外推和可控场景合成。作者希望建立更统一的动态场景表示方法,将高斯表示视为演化物理系统
- Method: 将4D高斯泼溅重新解释为连续时间动力系统,场景运动通过积分学习到的神经动力场产生。将高斯表示视为演化物理系统,其状态在学习的运动定律下连续演化
- Result: 在动态场景基准测试中,EvoGS相比基于变形场的方法实现了更好的运动连贯性和时间一致性,同时保持实时渲染性能
- Conclusion: EvoGS通过连续时间动力系统框架为动态场景表示提供了新范式,实现了稀疏监督下的高效学习、时间外推和可组合动态,超越了传统变形方法的局限性
[162] Over++: Generative Video Compositing for Layer Interaction Effects
Luchao Qi,Jiaye Wu,Jun Myeong Choi,Cary Phillips,Roni Sengupta,Dan B Goldman
Main category: cs.CV
TL;DR: Over++是一个视频效果生成框架,能够在保持原始视频场景的同时,根据文本提示合成逼真的半透明环境效果(如阴影、反射、灰尘、水花等),无需相机姿态、场景静止或深度监督的假设。
- Motivation: 专业视频合成工作流中,艺术家需要手动创建前景与背景之间的环境交互效果。现有视频生成模型难以在保持输入视频的同时添加这些效果,而当前视频修复方法要么需要昂贵的逐帧掩码,要么产生不真实的结果。
- Method: 提出了增强合成任务,并开发了Over++框架。构建了针对此任务的配对效果数据集,引入了保持文本驱动可编辑性的非配对增强策略。方法支持可选的掩码控制和关键帧引导,无需密集标注。
- Result: 尽管在有限数据上训练,Over++能够生成多样且逼真的环境效果,在效果生成和场景保持方面均优于现有基线方法。
- Conclusion: Over++成功解决了视频增强合成任务,能够在保持原始场景的同时合成逼真的环境交互效果,为专业视频合成工作流提供了有效的自动化解决方案。
[163] Beyond CLIP: Knowledge-Enhanced Multimodal Transformers for Cross-Modal Alignment in Diabetic Retinopathy Diagnosis
Argha Kamal Samanta,Harshika Goyal,Vasudha Joshi,Tushar Mungle,Pabitra Mitra
Main category: cs.CV
TL;DR: 提出知识增强的联合嵌入框架,整合视网膜图像、临床文本和结构化患者数据,显著提升糖尿病视网膜病变的跨模态检索和诊断性能
- Motivation: 糖尿病视网膜病变是全球可预防性失明的主要原因,需要准确的自动化诊断系统。通用领域的视觉语言模型(如CLIP)在自然图像任务上表现良好,但在医学领域应用特别是眼科图像的跨模态检索方面存在困难
- Method: 提出新颖的知识增强联合嵌入框架,通过多模态transformer架构整合视网膜眼底图像、临床文本和结构化患者数据。使用单独的编码器:Vision Transformer处理视网膜图像,Bio-ClinicalBERT处理临床叙述,多层感知机处理结构化特征。通过具有模态特定嵌入的联合transformer进行融合,使用多种目标训练,包括模态对之间的对比损失、图像和文本的重建损失,以及根据ICDR和SDRG方案的DR严重程度分级分类损失
- Result: 在巴西多标签眼科数据集上的实验结果显示显著改进:文本到图像检索的Recall@1达到99.94%(相比微调CLIP的1.29%),同时保持最先进的分类准确率(SDRG 97.05%,ICDR 97.97%)。在未见过的DeepEyeNet数据集上的零样本评估验证了强大的泛化能力,Recall@1达到93.95%(相比微调CLIP的0.22%)
- Conclusion: 该多模态训练方法有效捕捉了医学领域的跨模态关系,既建立了优越的检索能力,又实现了稳健的诊断性能,为解决医学图像-文本对齐的关键差距提供了有效方案
[164] Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning
Mojtaba Safari,Shansong Wang,Vanessa L Wildman,Mingzhe Hu,Zach Eidex,Chih-Wei Chang,Erik H Middlebrooks,Richard L. J Qiu,Pretesh Patel,Ashesh B. Jania,Hui Mao,Zhen Tian,Xiaofeng Yang
Main category: cs.CV
TL;DR: 提出一种结合多头选择性状态空间模型和轻量级通道MLP的高效MRI超分辨率框架,在保持解剖细节的同时大幅降低计算成本。
- Motivation: 高分辨率MRI对诊断至关重要,但长采集时间限制了临床应用。现有深度学习方法在保真度和效率之间存在权衡,需要开发既能保持解剖细节又计算高效的超分辨率方法。
- Method: 提出新颖的SR框架,结合多头选择性状态空间模型和轻量级通道MLP。采用2D块提取和混合扫描捕获长程依赖关系。每个MambaFormer块集成MHSSM、深度卷积和门控通道混合。在7T脑部T1 MP2RAGE和1.5T前列腺T2w MRI数据集上评估。
- Result: 模型在7T脑部数据上:SSIM=0.951±0.021,PSNR=26.90±1.41 dB,LPIPS=0.076±0.022,GMSD=0.083±0.017;在前列腺数据上:SSIM=0.770±0.049,PSNR=27.15±2.19 dB,LPIPS=0.190±0.095,GMSD=0.087±0.013。仅使用0.9M参数和57 GFLOPs,相比Res-SRDiff减少99.8%参数和97.5%计算量,同时在准确性和效率上优于SwinIR和MambaIR。
- Conclusion: 该框架为MRI超分辨率提供了高效准确的解决方案,在不同数据集上都能增强解剖细节。其低计算需求和最先进的性能显示出强大的临床转化潜力。
[165] WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
Hanyang Kong,Xingyi Yang,Xiaoxu Zheng,Xinchao Wang
Main category: cs.CV
TL;DR: WorldWarp是一个结合3D几何锚点和2D生成精炼的视频生成框架,通过高斯泼溅建立3D几何缓存作为结构支架,使用时空扩散模型进行"填充-修订"来生成几何一致的长视频。
- Motivation: 当前生成模型在相机条件潜在空间中运行最有效,但视频的几何一致性需要在像素空间中严格遵守3D几何,这种脱节导致现有方法在处理遮挡区域和复杂相机轨迹时表现不佳。
- Method: WorldWarp框架包含两个核心组件:1) 通过高斯泼溅(3DGS)建立在线3D几何缓存作为结构锚点,将历史内容显式变形到新视图中;2) 时空扩散(ST-Diff)模型采用"填充-修订"目标,使用时空变化的噪声调度:空白区域接收完全噪声以触发生成,变形区域接收部分噪声以进行精炼。
- Result: WorldWarp通过在每个步骤动态更新3D缓存,在视频块之间保持一致性,实现了最先进的保真度,确保3D逻辑指导结构而扩散逻辑完善纹理。
- Conclusion: WorldWarp成功弥合了3D几何一致性与2D生成模型之间的鸿沟,通过结合3D结构锚点和2D生成精炼,能够生成几何一致的长视频,特别是在处理遮挡和复杂相机轨迹方面表现出色。
[166] VA- : Variational Policy Alignment for Pixel-Aware Autoregressive Generation
Xinyao Liao,Qiyuan He,Kai Xu,Xiaoye Qu,Yicong Li,Wei Wei,Angela Yao
Main category: cs.CV
TL;DR: VA-π是一个轻量级后训练框架,通过像素空间目标直接优化自回归视觉生成模型,解决tokenizer与生成器之间的对齐问题,显著提升图像生成质量。
- Motivation: 自回归视觉生成中,tokenizer训练目标是重建干净图像,而生成器只优化token似然,这种不对齐导致生成的token序列可能解码出低质量图像,缺乏像素空间的直接监督。
- Method: VA-π将生成器-tokenizer对齐问题形式化为变分优化,推导出证据下界(ELBO)统一像素重建和自回归建模。采用基于强化学习的对齐策略,将AR生成器视为策略,使用像素空间重建质量作为内在奖励,通过教师强制测量预测token序列重建原始图像的能力。
- Result: 仅用1% ImageNet-1K数据和25分钟调优,将LlamaGen-XXL的FID从14.36降至7.65,IS从86.55提升至116.70。在GenEval文本到图像任务中,LlamaGen从0.306提升至0.339,Janus-Pro从0.725提升至0.744。
- Conclusion: VA-π能够快速适应现有AR生成器,无需重新训练tokenizer或外部奖励模型,通过像素级指导显著提升生成质量,为自回归视觉生成提供了有效的对齐解决方案。
[167] From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs
Mingrui Wu,Zhaozhi Wang,Fangjinhua Wang,Jiaolong Yang,Marc Pollefeys,Tong Zhang
Main category: cs.CV
TL;DR: 该论文提出了一个用于评估多模态大语言模型空间智能的大规模基准测试,基于户外行人视角视频数据,包含精确的3D信息,揭示当前模型主要依赖语言先验而非视觉推理
- Motivation: 当前多模态大语言模型在语义任务上表现出色,但其空间智能(对稳健和接地AI系统至关重要)发展不足。现有基准测试存在局限:要么关注过于简化的定性推理,要么依赖特定领域的室内数据,缺乏具有可验证度量真值的户外数据集。
- Method: 构建了一个大规模基准测试,使用同步立体相机、LiDAR和IMU/GPS传感器采集的行人视角视频数据。该数据集提供精确的3D信息,能够自动生成涵盖层次化谱系的空间推理问题——从定性关系到定量度量和运动学理解。
- Result: 评估显示,在结构化室内基准测试中观察到的性能提升在开放世界环境中消失。通过合成异常场景和盲测的进一步分析证实,当前MLLM严重依赖语言先验而非接地的视觉推理。
- Conclusion: 该基准测试为诊断多模态大语言模型的局限性并推进物理接地的空间智能提供了一个原则性平台,揭示了当前模型在真实世界空间理解方面的不足。
[168] Zero-shot Reconstruction of In-Scene Object Manipulation from Video
Dixuan Lin,Tianyou Wang,Zhuoyang Pan,Yufu Wang,Lingjie Liu,Kostas Daniilidis
Main category: cs.CV
TL;DR: 首个从单目RGB视频重建场景内物体操作的系统,解决手物深度模糊和物理合理性问题
- Motivation: 现有方法以手为中心坐标,忽略场景信息,导致度量精度不足且不实用。需要解决场景重建不适定、手物深度模糊和物理合理交互的问题
- Method: 首先使用数据驱动的基础模型初始化核心组件(物体网格和姿态、场景点云、手部姿态),然后应用两阶段优化,从抓取到交互恢复完整的手物运动,保持与输入视频场景信息一致
- Result: 构建了首个从单目RGB视频重建场景内物体操作的系统,能够恢复完整的手物运动轨迹,保持与场景信息的一致性
- Conclusion: 该方法解决了现有方法的局限性,实现了度量准确且物理合理的手物交互重建,具有实际应用价值
[169] Visual-Aware CoT: Achieving High-Fidelity Visual Consistency in Unified Models
Zixuan Ye,Quande Liu,Cong Wei,Yuanxing Zhang,Xintao Wang,Pengfei Wan,Kun Gai,Wenhan Luo
Main category: cs.CV
TL;DR: 本文提出了一种增强多模态生成中视觉上下文一致性的方法,通过自适应视觉规划和迭代视觉校正来保持关键视觉特征。
- Motivation: 当前统一模型在生成过程中的思维过程主要关注与文本提示的一致性,而忽视了与视觉参考图像的视觉上下文一致性,导致在多模态生成中无法保持关键视觉特征(如人物ID、对象属性、风格)。
- Method: 1) 自适应视觉规划:生成结构化视觉检查清单以确定需要保持一致的视觉元素;2) 迭代视觉校正:在检查清单指导下进行自我反思并以迭代方式优化生成结果。使用监督微调教模型如何进行视觉检查规划、自我反思和自我优化,并使用flow-GRPO通过定制的视觉检查奖励进一步增强视觉一致性。
- Result: 实验表明,该方法在零样本统一模型和带有文本CoT的模型之上,在多模态生成中表现出更高的视觉上下文一致性。
- Conclusion: 通过将视觉上下文一致性整合到统一模型的推理过程中,能够有效保持多模态生成中的关键视觉特征,提高生成质量。
[170] Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models
Pablo Ruiz-Ponce,Sergio Escalera,José García-Rodríguez,Jiankang Deng,Rolandos Alexandros Potamias
Main category: cs.CV
TL;DR: Interact2Ar:首个端到端文本条件自回归扩散模型,用于生成包含手部运动的全身人-人交互动作,通过自回归管道和记忆技术实现实时适应和多人扩展。
- Motivation: 现有方法在生成人-人交互时存在两个主要问题:1)忽略手部运动,限制了交互的真实性和表现力;2)当前基于扩散的方法一次性生成整个运动序列,无法捕捉人类交互的反应性和适应性本质。
- Method: 提出Interact2Ar模型:1)通过专用并行分支整合详细的手部运动学,实现高保真全身生成;2)采用自回归管道结合新颖的记忆技术,利用高效的大上下文窗口适应人类交互的固有变异性。
- Result: 模型展现出卓越性能:1)支持时间运动组合、实时适应干扰、扩展到多人场景等下游应用;2)通过专门设计的评估指标验证,在定量和定性实验中展示了最先进的性能。
- Conclusion: Interact2Ar是首个能够生成包含手部运动的全身人-人交互的端到端文本条件自回归扩散模型,通过自回归架构和记忆机制显著提升了交互生成的真实性和适应性。
[171] The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan,Haiwen Diao,Quan Wang,Dahua Lin,Ziwei Liu
Main category: cs.CV
TL;DR: 论文提出Prism假说:语义编码器主要捕获低频抽象信息,像素编码器保留高频细节信息,并基于此提出统一自编码模型UAE,在ImageNet和MS-COCO上取得SOTA性能。
- Motivation: 不同模态的深度表示本质上是相互关联的,但现有研究很少探索编码器特征频谱与其功能角色之间的对应关系。作者希望通过分析各种语义和像素编码器的频谱特性,揭示这种对应关系,从而为统一不同模态的表示提供理论基础。
- Method: 1. 系统分析各种语义和像素编码器的频谱特性,发现语义编码器主要捕获低频分量(抽象意义),像素编码器额外保留高频信息(细粒度细节);2. 提出Prism假说,将数据模态视为自然世界在共享特征频谱上的投影;3. 基于此提出统一自编码模型UAE,通过创新的频带调制器协调语义结构和像素细节。
- Result: 在ImageNet和MS-COCO基准测试上的大量实验验证了UAE的有效性,该模型成功将语义抽象和像素级保真度统一到单个潜在空间中,并取得了最先进的性能。
- Conclusion: 论文揭示了编码器特征频谱与其功能角色之间的对应关系(Prism假说),并基于此提出了UAE模型,为统一不同模态的表示提供了新的视角和方法,在保持语义抽象的同时保留了像素级细节。
q-bio.OT
[172] CytoDINO: Risk-Aware and Biologically-Informed Adaptation of DINOv3 for Bone Marrow Cytomorphology
Aziz Muminov,Anne Pham
Main category: q-bio.OT
TL;DR: CytoDINO:基于DINOv3和LoRA的骨髓细胞形态学分析框架,通过分层焦点损失和关键惩罚机制,在MLL数据集上实现SOTA性能,同时考虑临床误诊风险
- Motivation: 骨髓细胞形态学分析对血液恶性肿瘤诊断至关重要,但当前过程劳动密集且存在观察者间差异。现有基础模型需要大量计算资源,且未考虑临床误诊的不对称风险
- Method: 使用低秩适应(LoRA)微调DINOv3,提出分层焦点损失与关键惩罚机制,编码细胞谱系间的生物学关系,并惩罚临床危险误分类(如将原始细胞分类为正常细胞)
- Result: 在MLL数据集21个细胞类的测试集上达到88.2%加权F1分数和76.5%宏F1;仅使用8%可训练参数在单张RTX 5080上匹配专业基础设施性能;置信度选择性预测在67%样本上达到99.5%准确率
- Conclusion: CytoDINO展示了消费级硬件可匹配专业基础设施,通过置信度选择性预测为临床部署提供可行路径,高不确定性病例可标记供专家审查
cs.NI
[173] Privacy-Aware Sharing of Raw Spatial Sensor Data for Cooperative Perception
Bangya Liu,Chengpo Yan,Chenghao Jiang,Suman Banerjee,Akarsh Prabhakara
Main category: cs.NI
TL;DR: SHARP框架旨在解决基于原始传感器数据的协同感知中的隐私问题,推动该技术的实际应用
- Motivation: 虽然基于原始传感器数据的车辆协同感知能提高场景理解准确性,但存在新的隐私泄露问题,阻碍汽车制造商采用该技术
- Method: 提出SHARP研究框架,通过最小化隐私泄露来推动基于原始数据的协同感知发展
- Result: 提出了一个解决协同感知中隐私问题的框架,并为实现该框架提出了开放式问题
- Conclusion: SHARP框架为解决协同感知中的隐私挑战提供了方向,需要网络系统、移动计算、感知研究、产业和政府等多方合作来实现
econ.GN
[174] Multimodal LLMs for Historical Dataset Construction from Archival Image Scans: German Patents (1877-1918)
Niclas Griesshaber,Jochen Streb
Main category: econ.GN
TL;DR: 使用多模态大语言模型从历史专利图像扫描中构建德国专利数据集,比人工方法更快、更便宜且质量更高
- Motivation: 解决从复杂历史文档(哥特体和罗马体字体、双栏格式)中提取数据的技术挑战,降低经济历史研究中数据集构建的门槛
- Method: 使用Gemini-2.5-Pro和Gemini-2.5-Flash-Lite构建多模态LLM管道,从9,562张档案图像扫描中提取306,070个德国专利数据
- Result: 多模态LLM比研究助理构建的数据集质量更高,速度提升795倍以上,成本降低205倍,成功处理复杂字体和布局的历史文档
- Conclusion: 多模态LLM是经济历史数据集构建的范式转变,开源工具降低了技术门槛,对经济历史研究领域具有重要影响
cs.AI
[175] NEURO-GUARD: Neuro-Symbolic Generalization and Unbiased Adaptive Routing for Diagnostics -- Explainable Medical AI
Midhat Urooj,Ayan Banerjee,Sandeep Gupta
Main category: cs.AI
TL;DR: NEURO-GUARD:一种结合视觉Transformer与语言驱动推理的知识引导视觉框架,通过检索增强生成机制实现自验证,在医疗图像诊断中提升准确性、可解释性和跨域鲁棒性。
- Motivation: 当前医疗AI面临准确性与可解释性的平衡挑战,现有视觉模型多为黑盒预测,可解释性差且跨域泛化能力弱,限制了临床实际应用。需要开发既能保持高精度又具备透明推理能力的诊断系统。
- Method: 提出NEURO-GUARD框架,将视觉Transformer与语言驱动推理结合,采用检索增强生成机制让大语言模型迭代生成、评估和优化医疗图像特征提取代码,并将该过程基于临床指南和专家知识进行指导。
- Result: 在糖尿病视网膜病变分类的四个基准数据集上,NEURO-GUARD比纯ViT基线准确率提升6.2%(84.69% vs. 78.4%),跨域泛化能力提升5%。在基于MRI的癫痫检测中也表现出优越的跨域鲁棒性,持续超越现有方法。
- Conclusion: NEURO-GUARD成功将符号化医学推理与亚符号化视觉学习相结合,实现了可解释、知识感知且可泛化的医疗图像诊断,在多个数据集上达到最先进性能,为高风险的临床决策提供了更可靠的AI支持。
[176] Agent-Based Output Drift Detection for Breast Cancer Response Prediction in a Multisite Clinical Decision Support System
Xavier Rafael-Palou,Jose Munuera,Ana Jimenez-Pastor,Richard Osuala,Karim Lekadir,Oliver Diaz
Main category: cs.AI
TL;DR: 提出基于代理的多站点临床AI系统漂移检测框架,通过站点特定监控代理进行批量输出比较,在乳腺癌影像数据上显示多中心方案优于集中监控,F1分数提升达10.3%。
- Motivation: 现代临床决策支持系统服务于多个独立医学影像机构时,由于患者群体、成像硬件和采集协议的差异,预测性能可能在不同站点间退化。现有方法多依赖集中监控聚合预测,忽略了站点特定的漂移动态。
- Method: 提出基于代理的框架,为每个站点分配漂移监控代理,进行批量模型输出与参考分布的对比。分析多种多中心监控方案:站点特定、全局、仅生产数据和自适应参考获取方式,并与集中基线比较。
- Result: 在真实世界乳腺癌影像数据上,使用病理完全缓解预测模型,所有多中心方案均优于集中监控,漂移检测F1分数提升最高达10.3%。无站点特定参考时,自适应方案表现最佳,漂移检测F1分数74.3%,漂移严重程度分类83.7%。
- Conclusion: 自适应、站点感知的基于代理漂移监控可增强多站点临床决策支持系统的可靠性,通过站点特定监控代理能更有效地检测和处理分布漂移。
[177] ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning
Weijie Zhou,Xuangtang Xiong,Ye Tian,Lijun Yue,Xinyu Wu,Wei Li,Chaoyang Zhao,Honghui Dong,Ming Tang,Jinqiao Wang,Zhengyou Zhang
Main category: cs.AI
TL;DR: ESearch-R1:一个成本感知的具身推理框架,通过统一交互对话、情景记忆检索和物理导航,使用HC-GRPO优化策略,在模糊指令下平衡探索成本与人类交互成本,显著提升任务成功率并降低50%操作成本。
- Motivation: 当前多模态大语言模型(MLLMs)驱动的具身代理在面对模糊自然语言指令时,无法有效平衡物理探索的高成本与人类交互的认知成本。现有方法通常将消歧视为被动感知问题,缺乏最小化总任务执行成本的策略推理能力。
- Method: 提出ESearch-R1成本感知具身推理框架,将交互对话(Ask)、情景记忆检索(GetMemory)和物理导航(Navigate)统一为单一决策过程。引入HC-GRPO(异构成本感知组相对策略优化),通过采样推理轨迹组并强化那些在信息增益与异构成本(如导航时间、人类注意力)之间达到最优权衡的轨迹来优化MLLM。
- Result: 在AI2-THOR环境中的大量实验表明,ESearch-R1显著优于标准的基于ReAct的代理。在提高任务成功率的同时,将总操作成本降低了约50%,验证了GRPO在使MLLM代理与物理世界约束对齐方面的有效性。
- Conclusion: ESearch-R1框架通过成本感知的推理和HC-GRPO优化,成功解决了具身代理在模糊指令下的成本权衡问题,为MLLM代理在物理环境中的实际应用提供了有效解决方案。
cs.MM
[178] Layout-Aware Text Editing for Efficient Transformation of Academic PDFs to Markdown
Changxu Duan
Main category: cs.MM
TL;DR: EditTrans:一种混合编辑-生成模型,通过从PDF中识别待编辑文本队列来加速学术文档转换为标记语言的过程,相比端到端解码器Transformer模型减少44.5%的延迟。
- Motivation: 学术PDF文档包含复杂元素(数学公式、图表、表格等),现有端到端Transformer模型在转换时效率低下,需要从头逐token解码,浪费大量推理步骤重新生成可直接从PDF复制的密集文本。
- Method: 提出EditTrans混合编辑-生成模型,包含一个轻量级分类器(基于文档布局分析模型在162,127页arXiv文档上微调),能够先识别PDF中的待编辑文本队列,再生成标记语言。
- Result: EditTrans相比端到端解码器Transformer模型减少了高达44.5%的转换延迟,同时保持了转换质量。代码和可复现的数据集生成脚本已开源。
- Conclusion: EditTrans通过先识别可复用的PDF文本再生成标记语言的混合方法,显著提高了学术文档转换效率,为数字图书馆工作流程提供了更高效的解决方案。
[179] Asynchronous Pipeline Parallelism for Real-Time Multilingual Lip Synchronization in Video Communication Systems
Eren Caglar,Amirkia Rafiei Oskooei,Mehmet Kutanoglu,Mustafa Keles,Mehmet S. Aktas
Main category: cs.MM
TL;DR: 提出并行异步Transformer框架,用于实时视频会议中的多语言唇语同步,通过流水线并行设计和多种优化技术,相比顺序方法降低3.1倍延迟,适用于资源受限的AIoT场景。
- Motivation: 解决实时视频会议系统中多语言唇语同步的延迟问题,传统顺序处理方式导致高延迟,难以满足实时通信需求,特别是在资源受限的物联网环境中。
- Method: 采用并行异步Transformer架构,集成翻译、语音处理和唇语同步模块,通过消息队列解耦实现并发执行;使用图编译、混合精度量化和硬件加速内核融合优化推理流程;加入上下文自适应静音检测组件。
- Result: 相比顺序方法降低3.1倍端到端延迟,在处理速度、同步稳定性和资源利用率方面优于传统流水线,同时保持模型准确性和视觉质量。
- Conclusion: 该工作为下一代AIoT系统开发了低延迟、资源高效的多模态通信框架,适用于远程医疗、多语言信息亭和远程协助等资源受限场景。
cs.RO
[180] Robotic VLA Benefits from Joint Learning with Motion Image Diffusion
Yu Fang,Kanchana Ranasinghe,Le Xue,Honglu Zhou,Juntao Tan,Ran Xu,Shelby Heinecke,Caiming Xiong,Silvio Savarese,Daniel Szafir,Mingyu Ding,Michael S. Ryoo,Juan Carlos Niebles
Main category: cs.RO
TL;DR: 提出一种通过运动图像扩散进行联合学习的新策略,增强VLA模型的运动推理能力,在保持推理延迟不变的同时显著提升机器人操作性能
- Motivation: 现有的VLA模型通常只是模仿专家轨迹,缺乏预测性运动推理能力,这限制了它们决定采取何种动作的能力。需要增强VLA模型的运动推理能力。
- Method: 采用双头设计扩展VLA架构:动作头预测动作块,运动头(基于扩散变换器DiT)预测基于光流的运动图像来捕捉未来动态。两个头联合训练,使共享的VLM骨干学习将机器人控制与运动知识耦合的表示。
- Result: 在LIBERO基准测试中将pi-series VLA的成功率提升至97.5%,在RoboTwin基准测试中达到58.0%,在真实世界性能上实现23%的改进,验证了其增强大规模VLA运动推理能力的有效性。
- Conclusion: 通过运动图像扩散的联合学习策略能够有效增强VLA模型的运动推理能力,构建时间一致且物理基础的表示,同时保持标准VLA的推理延迟,显著提升机器人操作性能。
[181] Embodied4C: Measuring What Matters for Embodied Vision-Language Navigation
Tin Stribor Sohn,Maximilian Dillitzer,Jason J. Corso,Eric Sax
Main category: cs.RO
TL;DR: Embodied4C是一个用于评估视觉语言模型在具身智能中核心能力的闭环基准测试,涵盖自动驾驶车辆、无人机和机械臂三种异构平台,通过1100个一次性推理问题和58个目标导向导航任务评估语义、空间、时间和物理推理四个维度。
- Motivation: 当前基准测试对具身性(物理平台、传感器配置和模态对齐)如何影响感知、推理和控制的理解有限,需要开发一个能够全面评估视觉语言模型在不同具身平台下核心能力的基准测试。
- Method: 设计了Embodied4C基准测试,包含三种异构具身平台(自动驾驶车辆、无人机、机械臂),通过1100个一次性推理问题和58个目标导向导航任务,评估语义、空间、时间和物理推理四个维度。引入动态传感器配置、环境变化和领域远查询来防止过拟合。
- Result: 对10个最先进的视觉语言模型和4个具身控制基线的评估表明:跨模态对齐和指令微调比模型规模更重要;空间和时间推理是可靠具身能力的主要瓶颈;当前模型在具身推理方面仍有显著不足。
- Conclusion: Embodied4C基准测试揭示了视觉语言模型在具身智能中的关键挑战,强调需要更好的跨模态对齐和专门的推理能力开发,而不仅仅是扩大模型规模。该基准为未来具身智能研究提供了重要评估框架。
[182] STORM: Search-Guided Generative World Models for Robotic Manipulation
Wenjun Lin,Jensen Zhang,Kaitong Cai,Keze Wang
Main category: cs.RO
TL;DR: STORM框架通过结合扩散动作生成、条件视频预测和搜索规划,在机器人操作中实现了基于视觉推演的时空推理,在SimplerEnv基准上达到51.0%的成功率。
- Motivation: 现有视觉-语言-动作模型依赖抽象潜在动态或将推理委托给语言组件,缺乏基于显式视觉推演的可解释规划能力,需要更直观的预见性决策框架。
- Method: 1) 扩散式VLA策略生成多样化候选动作;2) 生成式视频世界模型模拟视觉和奖励结果;3) MCTS通过前瞻评估选择性优化规划。
- Result: 在SimplerEnv操作基准上达到51.0%的平均成功率(新SOTA),奖励增强的视频预测将Frechet视频距离降低75%以上,展现出强大的重规划和故障恢复能力。
- Conclusion: STORM证明了搜索引导的生成世界模型在长视野机器人操作中的优势,通过显式视觉推演实现可解释、预见性的决策,为时空推理提供了新范式。
[183] Offline Reinforcement Learning for End-to-End Autonomous Driving
Chihiro Noguchi,Takaki Yamamoto
Main category: cs.RO
TL;DR: 提出基于相机输入的端到端自动驾驶离线强化学习框架,通过专家轨迹正则化解决过估计问题,在nuScenes数据集上显著降低碰撞率并提高路线完成率。
- Motivation: 端到端自动驾驶模型虽然计算高效且具有统一优化潜力,但依赖模仿学习存在持续失败模式。在线强化学习能缓解这些问题,但神经渲染模拟和大规模端到端网络的计算负担使得迭代调优成本高昂。
- Method: 提出相机端到端离线强化学习框架:1) 仅使用固定模拟器数据集训练,不进行额外探索;2) 从专家驾驶日志构建伪真实轨迹作为行为正则化信号;3) 在从nuScenes数据集学习的神经渲染环境中进行训练和闭环评估。
- Result: 相比模仿学习基线,该方法在碰撞率和路线完成率方面取得显著改进,证明了离线强化学习在端到端自动驾驶中的有效性。
- Conclusion: 离线强化学习结合专家轨迹正则化能够有效解决端到端自动驾驶中的模仿学习问题,提供数据高效且实验迭代快速的解决方案,同时避免在线强化学习的高计算成本。
[184] Affordance RAG: Hierarchical Multimodal Retrieval with Affordance-Aware Embodied Memory for Mobile Manipulation
Ryosuke Korekata,Quanting Xie,Yonatan Bisk,Komei Sugiura
Main category: cs.RO
TL;DR: 提出Affordance RAG框架,通过构建Affordance-Aware Embodied Memory实现零样本开放词汇移动操作,在真实环境中达到85%任务成功率
- Motivation: 解决开放词汇移动操作问题,机器人需要根据自然语言指令将各种物体运送到容器中,这需要理解视觉语义和操作动作的可用性
- Method: 提出Affordance RAG,一种零样本分层多模态检索框架,从预探索图像构建Affordance-Aware Embodied Memory,通过区域和视觉语义检索候选目标,并用可用性分数重新排序
- Result: 在大规模室内环境中,该方法在移动操作指令检索性能上优于现有方法;真实世界实验中,基于自由形式指令的移动操作任务成功率达到85%
- Conclusion: Affordance RAG框架通过结合视觉语义和可用性分析,有效解决了开放词汇移动操作问题,在检索性能和实际任务成功率方面均表现出色
[185] WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving
Pengxuan Yang,Ben Lu,Zhongpu Xia,Chao Han,Yinfeng Gao,Teng Zhang,Kun Zhan,XianPeng Lang,Yupeng Zheng,Qichao Zhang
Main category: cs.RO
TL;DR: WorldRFT提出了一种面向规划的潜在世界模型框架,通过分层规划分解和局部感知交互优化机制,将场景表示学习与规划对齐,并使用强化学习微调提升安全关键策略性能。
- Motivation: 现有的潜在世界模型通过时间自监督学习增强场景表示,但重建导向的表示学习将感知与规划任务纠缠在一起,导致规划优化效果不佳。
- Method: 1) 集成视觉-几何基础模型提升3D空间感知;2) 采用分层规划任务分解指导表示优化;3) 使用局部感知迭代优化推导面向规划的驾驶策略;4) 引入GRPO(组相对策略优化)进行强化学习微调,包含轨迹高斯化和碰撞感知奖励。
- Result: 在nuScenes上碰撞率降低83%(0.30%→0.05%);在NavSim上,仅使用相机输入达到与LiDAR-based SOTA方法DiffusionDrive相当的性能(87.8 vs. 88.1 PDMS)。
- Conclusion: WorldRFT通过将场景表示学习与规划对齐,结合强化学习微调,在开放环和封闭环基准测试中都达到了最先进的性能,显著提升了自动驾驶的安全性和规划效果。
[186] TwinAligner: Visual-Dynamic Alignment Empowers Physics-aware Real2Sim2Real for Robotic Manipulation
Hongwei Fan,Hang Dai,Jiyao Zhang,Jinzhou Li,Qiyang Yan,Yujie Zhao,Mingju Gao,Jinghang Wu,Hao Tang,Hao Dong
Main category: cs.RO
TL;DR: TwinAligner是一个Real2Sim2Real系统,通过视觉对齐和动态对齐模块解决仿真与现实之间的差距,使仿真训练的机器人策略能够零样本泛化到现实世界。
- Motivation: 机器人领域正朝着数据驱动的端到端学习发展,但依赖昂贵的真实世界数据限制了进展。仿真器提供了经济有效的替代方案,但仿真与现实之间的差距阻碍了有效的策略迁移。
- Method: TwinAligner包含视觉对齐模块(通过SDF重建和可编辑3DGS渲染实现像素级对齐)和动态对齐模块(通过识别机器人-物体交互中的刚性物理确保动态一致性)。
- Result: 定量评估显示TwinAligner在视觉和动态真实到仿真对齐方面具有强大能力,使仿真训练的机器人策略能够在现实世界中实现零样本泛化,真实世界与仿真策略性能高度一致。
- Conclusion: TwinAligner通过提供可扩展的数据收集和建立可信赖的迭代循环,加速了算法开发,有望推动可扩展的机器人学习发展。
[187] Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface
Yujie Zhao,Hongwei Fan,Di Chen,Shengcong Chen,Liliang Chen,Xiaoqi Li,Guanghui Ren,Hao Dong
Main category: cs.RO
TL;DR: Real2Edit2Real框架通过3D编辑和视频生成技术,仅需1-5个原始演示就能生成大量空间增强的机器人操作数据,将数据效率提升10-50倍。
- Motivation: 机器人学习需要大量多样化演示数据,但收集成本高昂,特别是在空间泛化方面存在限制。需要一种能减少重复数据收集、提高数据效率的方法。
- Method: 1) 从多视角RGB观测重建场景几何;2) 在点云上进行深度可靠的3D编辑,生成新操作轨迹并几何校正机器人姿态;3) 使用以深度为主要控制信号的多条件视频生成模型,结合动作、边缘和射线图,合成空间增强的多视角操作视频。
- Result: 在四个真实世界操作任务中,仅用1-5个源演示生成的数据训练的策略,性能与使用50个真实演示训练的策略相当或更优,数据效率提升10-50倍。高度和纹理编辑实验证明了框架的灵活性和可扩展性。
- Conclusion: Real2Edit2Real框架通过3D编辑和视频生成有效减少了机器人学习的数据收集需求,提高了数据效率,具有作为统一数据生成框架的潜力。
[188] LoGoPlanner: Localization Grounded Navigation Policy with Metric-aware Visual Geometry
Jiaqi Peng,Wenzhe Cai,Yuqiang Yang,Tai Wang,Yuan Shen,Jiangmiao Pang
Main category: cs.RO
TL;DR: LoGoPlanner是一个端到端的导航框架,通过视觉几何骨干网络进行隐式状态估计和场景几何重建,无需单独定位模块,在非结构化环境中实现更好的轨迹规划和泛化能力。
- Motivation: 传统模块化导航系统存在延迟和级联错误问题,而现有的端到端方法仍依赖单独的定位模块,需要精确的传感器外参标定,限制了在不同机器人和环境中的泛化能力。
- Method: 1) 微调长时程视觉几何骨干网络,使预测具有绝对度量尺度,提供隐式状态估计;2) 从历史观测重建周围场景几何,提供密集细粒度的环境感知;3) 将策略建立在上述辅助任务引导的隐式几何上,减少误差传播。
- Result: 在仿真和真实世界评估中,LoGoPlanner的完全端到端设计减少了累积误差,度量感知的几何记忆增强了规划一致性和避障能力,相比基于精确定位基准的方法提升了27.3%以上,在不同机器人和环境中表现出强泛化能力。
- Conclusion: LoGoPlanner通过隐式状态估计和场景几何重建,实现了无需单独定位模块的端到端导航框架,在非结构化环境中显著提升了轨迹规划性能和泛化能力。
eess.IV
[189] SLIM: Semantic-based Low-bitrate Image compression for Machines by leveraging diffusion
Hyeonjin Lee,Jun-Hyuk Kim,Jong-Seok Lee
Main category: eess.IV
TL;DR: SLIM:基于语义的低比特率图像压缩框架,利用扩散模型专注于机器视觉感兴趣区域,在保持人类视觉感知细节的同时优化机器视觉任务性能。
- Motivation: 当前图像压缩模型主要针对人类视觉设计,保留了过多感知细节,在机器视觉任务中无法最优地降低比特率。需要专门针对机器视觉的高效压缩框架。
- Method: 提出SLIM框架:1)压缩器专注于图像潜在空间中的机器视觉感兴趣区域(RoI);2)利用预训练的潜在扩散模型,通过RoI聚焦的文本描述增强解压缩的潜在表示;3)无需推理阶段的引导掩码即可聚焦RoI区域。
- Result: 实验结果表明,在相同比特率条件下,SLIM相比传统机器视觉图像压缩模型实现了更高的分类准确率。
- Conclusion: SLIM通过结合扩散模型和RoI聚焦策略,实现了针对机器视觉任务优化的低比特率图像压缩,同时保持人类视觉的感知细节。
[190] Selective Phase-Aware Training of nnU-Net for Robust Breast Cancer Segmentation in Multi-Center DCE-MRI
Beyza Zayim,Aissiou Ikram,Boukhiar Naima
Main category: eess.IV
TL;DR: 本文提出了一种针对nnU-Net的选择性、相位感知训练框架,通过质量导向的数据选择提高乳腺肿瘤分割的鲁棒性和泛化能力
- Motivation: 乳腺癌是女性最常见的癌症,DCE-MRI是评估乳腺肿瘤的重要工具,但缺乏标准化基准来分析治疗反应和指导个性化护理。现有数据集存在图像质量差异和运动伪影等问题,影响分割性能
- Method: 采用nnU-Net框架,提出选择性训练策略,系统分析图像质量和中心特异性变异对分割性能的影响。通过对比不同数据集(DUKE、NACT、ISPY1、ISPY2)和不同相位图像(早期相位0000-0002),使用CLAHE等预处理技术
- Result: 包含运动伪影和对比度降低的ISPY扫描会损害分割性能,即使使用高级预处理。在DUKE和NACT数据上训练,特别是使用早期相位图像,能提供更稳定的训练条件。相位敏感和质量感知的训练策略对异质临床数据集的分割性能至关重要
- Conclusion: 强调质量导向数据选择的重要性,指出简单扩展数据集的局限性,未来需要自动化质量选择策略来提升乳腺肿瘤分割在临床异质数据集中的可靠性
[191] Rethinking Coupled Tensor Analysis for Hyperspectral Super-Resolution: Recoverable Modeling Under Endmember Variability
Meng Ding,Xiao Fu
Main category: eess.IV
TL;DR: 提出基于LMN张量分解模型的超光谱图像超分辨率方法,在保持可解释性的同时处理端元变异性等非线性效应
- Motivation: 现有CTD方法如CPD和Tucker分解虽然表达能力强但缺乏物理可解释性,而LL1模型在LMM假设下可解释但实际中常因端元变异性等非线性效应而失效
- Method: 提出使用更灵活的块项张量分解模型(LMN模型),该模型包含CPD、Tucker和LL1作为特例,在保持可解释性的同时能鲁棒地处理非线性效应
- Result: 在LMN模型下,超分辨率图像的可恢复性在适当条件下仍可得到理论保证,合成和真实数据集实验验证了方法的有效性和鲁棒性
- Conclusion: LMN模型在表达能力和可解释性之间取得了良好平衡,为处理实际中存在的非线性效应提供了理论支持和实用解决方案
[192] Patlak Parametric Image Estimation from Dynamic PET Using Diffusion Model Prior
Ziqian Huang,Boxiao Yu,Siqi Li,Savas Ozdemir,Sangjin Bae,Jae Sung Lee,Guobao Wang,Kuang Gong
Main category: eess.IV
TL;DR: 提出基于扩散模型的动力学建模框架,用于提高动态PET参数图像质量,通过预训练分数函数作为先验,结合动力学模型作为数据一致性约束。
- Motivation: 动态PET参数成像通过动力学模型拟合估计体素级生理参数,但由于拟合过程的病态性和全身PET非连续数据采集导致的有限计数,参数图像质量通常较低。
- Method: 提出扩散模型为基础的动力学建模框架,使用Patlak模型为例。扩散模型的分数函数在静态全身PET图像上预训练,利用参数图像的块级相似性作为Patlak斜率和截距图像的先验。推理过程中,动力学模型作为数据一致性约束指导参数图像估计。
- Result: 在不同剂量水平的全身动态PET数据集上评估,证明了该框架在提高参数图像质量方面的可行性和有前景的性能。
- Conclusion: 提出的基于扩散模型的动力学建模框架能够有效改善动态PET参数图像质量,为定量生理参数估计提供了新的解决方案。
physics.ao-ph
[193] A curated UK rain radar data set for training and benchmarking nowcasting models
Viv Atureta,Rifki Priansyah Jasin,Stefan Siegert
Main category: physics.ao-ph
TL;DR: 本文介绍了一个用于统计建模和机器学习短时预报的英国降雨雷达图像序列数据集,包含1000个20步长的序列,并提供相关大气地理特征和数据处理工具。
- Motivation: 为统计建模和机器学习方法提供高质量的降雨雷达数据,支持短时预报研究,解决现有数据获取和处理困难的问题。
- Method: 构建包含1000个随机采样序列的数据集,每个序列包含20个时间步(15分钟间隔)的40x40二维雷达强度场。采用空间分层采样确保空间均匀性,并提供大气和地理特征数据。开发新的R函数处理Nimrod二进制格式数据。
- Result: 创建了包含雷达序列和相关特征的综合数据集,提供了数据处理工具,并通过案例研究展示了如何使用卷积神经网络进行雷达短时预报。
- Conclusion: 该数据集和工具为降雨短时预报的统计建模和机器学习研究提供了有价值的资源,有助于推动该领域的发展。
stat.ML
[194] Disentangled representations via score-based variational autoencoders
Benjamin S. H. Lyo,Eero P. Simoncelli,Cristina Savin
Main category: stat.ML
TL;DR: SAMI是一种无监督表示学习方法,结合扩散模型和VAE的理论框架,通过分数引导学习自动捕获数据中有意义结构的表示。
- Motivation: 动机在于将扩散模型的隐含结构信息通过变分自编码器变得显式和可解释,实现无监督学习中有意义的表示学习。
- Method: 方法是通过统一扩散模型和VAE的证据下界,构建原则性目标函数,利用底层扩散过程的分数引导来学习表示。
- Result: 结果包括:在合成数据中恢复真实生成因子,从复杂自然图像中学习分解的语义潜在维度,从静态图像训练的视频序列编码获得更直的潜在轨迹,并能从预训练扩散模型中提取有用表示。
- Conclusion: 结论表明扩散模型中的隐含结构信息可以通过与变分自编码器的协同组合变得显式和可解释,其数学精确性允许对学习表示的性质做出形式化陈述。
cs.CL
[195] CycleChart: A Unified Consistency-Based Learning Framework for Bidirectional Chart Understanding and Generation
Dazhen Deng,Sen Yang,Yuchen He,Yuan Tian,Yingcai Wu
Main category: cs.CL
TL;DR: CycleChart是一个基于一致性的双向图表理解与生成框架,通过模式中心化表述统一不同任务,使用生成-解析一致性目标学习跨方向图表语义,在图表生成、解析和问答任务上取得优异表现。
- Motivation: 当前图表特定任务(如图表问答、图表解析、图表生成)通常被孤立研究,阻碍了模型学习连接图表生成与解释的共享语义。需要开发一个统一框架来促进跨任务学习。
- Method: 采用模式中心化表述作为跨任务通用接口;构建一致的多任务数据集,每个图表样本包含对齐的模式预测、数据解析和问答标注;引入生成-解析一致性目标:模型从表格和文本查询生成图表模式,然后学习从生成的图表中恢复模式和数据,强制跨方向语义对齐。
- Result: CycleChart在图表生成、图表解析和图表问答任务上取得了优异结果,展示了改进的跨任务泛化能力,标志着向更通用的图表理解模型迈出了一步。
- Conclusion: CycleChart通过一致性学习框架成功统一了图表理解与生成任务,证明了跨方向语义对齐的有效性,为开发更通用的图表理解模型提供了有前景的方向。
cs.LG
[196] Stable and Efficient Single-Rollout RL for Multimodal Reasoning
Rui Liu,Dian Yu,Lei Ke,Haolin Liu,Yujun Zhou,Zhenwen Liang,Haitao Mi,Pratap Tokekar,Dong Yu
Main category: cs.LG
TL;DR: MSSR提出了一种用于多模态大语言模型的稳定单轮次强化学习框架,通过基于熵的优势塑形机制解决训练效率与稳定性之间的权衡问题。
- Motivation: 现有基于群体的RLVR算法需要多轮次采样,效率较低;而单轮次变体在多模态环境中存在严重不稳定性,容易导致训练崩溃。需要解决训练效率与稳定性之间的权衡问题。
- Method: 提出MSSR(多模态稳定单轮次)框架,采用基于熵的优势塑形机制,自适应地正则化优势幅度,防止训练崩溃并保持稳定性。
- Result: 在分布内评估中,MSSR达到与基于群体基线相似的验证准确率,但训练步骤减半;相同训练步骤下性能超越基线,并在五个推理密集型基准测试中展现一致的泛化改进。
- Conclusion: MSSR能够实现稳定、计算高效且有效的RLVR,适用于复杂的多模态推理任务,解决了多模态环境中单轮次训练的不稳定性问题。
[197] NOVA: Discovering Well-Conditioned Winograd Transforms through Numerical Optimization of Vandermonde Arithmetic
Jayant Lohia
Main category: cs.LG
TL;DR: NOVA框架通过优化Winograd卷积中的插值点选择,解决了大尺寸卷积核在低精度计算中的数值不稳定问题,将F(8,3)的条件数提升415倍,恢复FP16精度下的模型准确率。
- Motivation: 传统Winograd卷积在追求更高效率时(如使用F(6,3)、F(8,3)等大尺寸卷积核),其基于整数的变换矩阵条件数急剧恶化,在FP16或Int8低精度计算中变得不可用,导致准确率崩溃。
- Method: 提出NOVA框架,将Winograd插值点选择视为连续优化问题,通过进化策略在R^n-1流形上搜索,将候选解映射到简单有理数,并通过符号验证保证正确性。
- Result: NOVA发现了稳定的分数配置(如±5/6、±7/6、±3/5),将F(8,3)的1D条件数提升415倍,2D卷积提升172,484倍。在FP16 ImageNet推理中,将VGG16准确率从4.7%恢复到75-78%。
- Conclusion: NOVA框架突破了传统整数插值的限制,通过数值优化发现了稳定的分数配置,使大尺寸Winograd卷积能够在低精度硬件上高效运行,无需重新训练或校准。
[198] Machine Unlearning in the Era of Quantum Machine Learning: An Empirical Study
Carla Crivoi,Radu Tudor Ionescu
Main category: cs.LG
TL;DR: 首次对混合量子-经典神经网络中的机器遗忘进行实证研究,发现量子模型支持有效遗忘,但效果受电路深度、纠缠结构和任务复杂度影响
- Motivation: 机器遗忘在经典深度学习中得到广泛探索,但在变分量子电路和量子增强架构中的行为仍未被充分研究,需要建立量子机器遗忘的基准实证见解
- Method: 将多种遗忘方法(梯度基、蒸馏基、正则化基和认证技术)适配到量子设置,并针对混合模型引入两种新的遗忘策略,在Iris、MNIST和Fashion-MNIST数据集上进行实验
- Result: 浅层VQC表现出高内在稳定性,记忆最小化;深层混合模型在效用、遗忘强度和与重训练对齐之间表现出更强的权衡;EU-k、LCA和认证遗忘等方法在不同指标间提供最佳平衡
- Conclusion: 量子模型支持有效遗忘,但需要量子感知算法和理论保证,为量子机器学习系统的扩展提供了基线实证见解
[199] MAGIC: Achieving Superior Model Merging via Magnitude Calibration
Yayuan Li,Jian Zhang,Jintao Guo,Zihan Cheng,Lei Qi,Yinghuan Shi,Yang Gao
Main category: cs.LG
TL;DR: 提出MAGIC框架,通过校准特征和权重空间中的幅度分量来提升模型合并性能,无需额外训练
- Motivation: 现有模型合并方法主要关注特征方向对齐,忽视了幅度分量的重要性。幅度在合并操作中容易受到扰动,导致合并模型性能下降
- Method: 提出MAGIC框架,包含三种变体:特征空间校准(FSC)使用少量无标签数据重新对齐特征幅度;权重空间校准(WSC)无需额外数据在权重空间进行校准;双重空间校准(DSC)结合两者
- Result: 在计算机视觉任务上平均提升4.3%(8个数据集),在NLP任务上提升8.0%(Llama模型),无需额外训练
- Conclusion: MAGIC框架有效解决了模型合并中幅度扰动问题,显著提升合并模型性能,证明了幅度校准在模型合并中的重要性
[200] KerJEPA: Kernel Discrepancies for Euclidean Self-Supervised Learning
Eric Zimmermann,Harley Wiltzer,Justin Szeto,David Alvarez-Melis,Lester Mackey
Main category: cs.LG
TL;DR: 提出KerJEPA家族,使用核基正则化器改进自监督学习,相比传统JEPA具有更好的训练稳定性和设计灵活性
- Motivation: 现有JEPA方法使用欧几里得表示向各向同性高斯先验正则化,虽然能提升训练稳定性和下游泛化能力,但正则化方法有限。需要更灵活的正则化框架来改进自监督学习算法。
- Method: 引入KerJEPA家族,使用核基正则化器。扩展了可用的核函数和先验分布,计算切片最大均值差异(MMD)的高维闭式极限,开发具有改进训练稳定性的替代KerJEPA算法。
- Result: 开发出具有多种有利特性的替代KerJEPA算法,包括改进的训练稳定性和设计灵活性。LeJEPA Epps-Pulley正则化器是该家族的一个特例,使用高斯先验和高斯核近似切片MMD。
- Conclusion: KerJEPA家族通过核基正则化器扩展了自监督学习的正则化方法,提供了更灵活的设计空间和更好的训练稳定性,是JEPA框架的重要扩展。
cs.SD
[201] Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning
Apoorv Vyas,Heng-Jui Chang,Cheng-Fu Yang,Po-Yao Huang,Luya Gao,Julius Richter,Sanyuan Chen,Matt Le,Piotr Dollár,Christoph Feichtenhofer,Ann Lee,Wei-Ning Hsu
Main category: cs.SD
TL;DR: PE-AV是一个基于对比学习的音视频编码器家族,通过扩展PE架构支持音频,并原生支持音频-视频、音频-文本、视频-文本的多模态联合嵌入,在音视频基准测试中达到SOTA。
- Motivation: 现有工作通常局限于单一模态或特定领域(如仅语音或仅音乐),缺乏统一的跨模态表示学习框架。需要构建能够同时处理音频、视频、文本的通用编码器,并支持细粒度的音视频对齐。
- Method: 1. 构建强大的音视频数据引擎,为约1亿音频-视频对生成高质量字幕;2. 使用10对对比学习目标,扩展跨模态和字幕类型对;3. 开发PE-A-Frame,通过帧级对比目标微调PE-AV,实现细粒度音频帧到文本对齐。
- Result: 1. 在标准音频和视频基准测试中达到新的SOTA;2. 统一的跨模态嵌入支持语音检索等新任务;3. 音频数据涵盖语音、音乐和通用音效,避免了先前工作的单领域限制;4. 扩展对比学习目标增强了对齐效果并提升了零样本性能。
- Conclusion: PE-AV通过大规模对比学习和高质量数据引擎,实现了强大的跨模态表示学习,为音视频理解提供了统一的框架,并支持多种新颖应用,如语音检索和声音事件检测。
astro-ph.CO
[202] Deep Learning for Primordial -mode Extraction
Eric Guzman,Joel Meyers
Main category: astro-ph.CO
TL;DR: 该论文提出使用深度学习网络(ResUNet-CMB)来估计和去除CMB中多种次级B模式偏振源,从而提高对原初引力波振幅的约束精度。
- Motivation: 原初引力波的搜索是CMB调查的核心目标,但次级B模式偏振(主要是引力透镜效应)已成为提高原初引力波振幅约束的主要瓶颈。现有方法在去除多种次级B模式偏振源和处理去透镜后CMB图的复杂统计特性方面存在挑战。
- Method: 采用深度学习网络ResUNet-CMB来同时估计多种次级B模式偏振源(包括引力透镜、斑块再电离和宇宙偏振旋转等),并将其从观测数据中去除。该方法还可用于似然分析中,产生接近最优、无偏的原初引力波振幅估计。
- Result: 深度学习技术能够有效估计和去除多种次级B模式偏振源,在似然分析中产生接近最优、无偏的原初引力波振幅估计,解决了传统方法在处理多种次级偏振源和复杂统计特性方面的局限性。
- Conclusion: 深度学习为CMB数据分析提供了强大的工具,能够同时处理多种次级B模式偏振源,显著提高对原初引力波振幅的约束精度,为未来高精度CMB观测的数据分析开辟了新途径。
q-bio.QM
[203] Standardized Evaluation of Automatic Methods for Perivascular Spaces Segmentation in MRI -- MICCAI 2024 Challenge Results
Yilei Wu,Yichi Zhang,Zijian Dong,Fang Ji,An Sen Tan,Gifford Tan,Sizhao Tang,Huijuan Chen,Zijiao Chen,Eric Kwun Kei Ng,Jose Bernal,Hang Min,Ying Xia,Ines Vati,Liz Cooper,Xiaoyu Hu,Yuchen Pei,Yutao Ma,Victor Nozais,Ami Tsuchida,Pierre-Yves Hervé,Philippe Boutinaud,Marc Joliot,Junghwa Kang,Wooseung Kim,Dayeon Bak,Rachika E. Hamadache,Valeriia Abramova,Xavier Lladó,Yuntao Zhu,Zhenyu Gong,Xin Chen,John McFadden,Pek Lan Khong,Roberto Duarte Coello,Hongwei Bran Li,Woon Puay Koh,Christopher Chen,Joanna M. Wardlaw,Maria del C. Valdés Hernández,Juan Helen Zhou
Main category: q-bio.QM
TL;DR: MICCAI 2024 EPVS挑战赛旨在推进多中心数据中扩大的血管周围间隙自动分割算法,使用100训练/50验证/50测试扫描,获胜方法采用MedNeXt架构,但跨站点泛化仍面临挑战。
- Motivation: 扩大的血管周围间隙是脑小血管病的重要影像标志物,但自动分割面临小尺寸、形态多变、与其他病理特征相似以及标注数据有限等挑战,需要开发更鲁棒的算法。
- Method: 组织MICCAI 2024 EPVS挑战赛,提供来自英国、新加坡、中国的多中心数据集(100训练/50验证/50测试),遵循STRIVE协议标注,七支团队参与,主要采用U-Net架构,结合多模态处理、集成策略和transformer组件。
- Result: 获胜方法使用MedNeXt架构配合双2D/3D策略处理不同层厚数据;在已知数据集上表现良好,但在未见的上海队列上性能显著下降,凸显了领域偏移带来的跨站点泛化挑战。
- Conclusion: 该挑战赛为EPVS分割方法建立了重要基准,强调需要继续开发能够在多样化临床环境中泛化的鲁棒算法,以应对领域偏移问题。
Powered by Deepseek & arXiv Daily AI Enhanced