Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] What Happens When: Learning Temporal Orders of Events in Videos
Daechul Ahn,Yura Choi,Hyeonbeom Choi,Seongwon Cho,San Kim,Jonghyun Choi
Main category: cs.CV
TL;DR: 论文发现现有视频大模型在时序理解上存在缺陷,即使视频帧被打乱也能在现有基准上表现良好,表明模型依赖先验知识而非时序推理。为此提出了VECTOR基准和MECOT方法提升时序理解能力。
- Motivation: 现有视频大模型在视频理解方面表现优异,但其对多个事件时序顺序的准确捕捉能力尚未充分探索。研究发现即使视频帧被打乱,模型在现有基准上仍表现良好,表明模型可能依赖典型场景的先验知识而非准确的时序处理。
- Method: 提出VECTOR基准专门评估模型对事件时序顺序的识别能力;提出MECOT方法,包括(1)在详细的事件级视频描述上进行微调,(2)在推理时使用思维链提示来增强时序意识。
- Result: 各种视频大模型在VECTOR基准上经常无法理解事件顺序;MECOT方法在VECTOR基准上优于现有方法,同时在现有视频基准上也有性能提升,表明时序理解的有效性。
- Conclusion: 视频大模型在时序理解方面存在缺陷,提出的VECTOR基准和MECOT方法能有效评估和提升模型的时序理解能力,为视频理解研究提供了新的方向。
[2] Training Multi-Image Vision Agents via End2End Reinforcement Learning
Chengqi Dong,Chuhuai Yue,Hang He,Rongge Mao,Fenghe Tang,S Kevin Zhou,Zekun Xu,Xiaohan Wang,Jiajun Chai,Wei Lin,Guojun Yin
Main category: cs.CV
TL;DR: IMAgent是一个开源视觉代理,通过端到端强化学习训练,专门处理复杂的多图像任务。它使用多智能体系统生成高质量的多图像问答数据,并开发了视觉反思和确认工具来防止模型忽略视觉输入。
- Motivation: 当前开源视觉语言模型代理大多只能处理单图像输入,无法应对现实世界中的多图像问答任务。现有方法限制了工具的输入为单张图像,在多图像场景下表现不足。
- Method: 1. 使用多智能体系统生成具有挑战性的多图像问答对(MIFG-QA数据集,包含10k样本)
- 开发视觉反思和确认工具,让模型在推理过程中主动重新关注图像内容
- 采用动作-轨迹两级掩码策略,通过纯强化学习训练实现稳定的工具使用行为,无需昂贵的监督微调数据
- Result: IMAgent在现有单图像基准测试中保持强劲性能,同时在提出的多图像数据集上取得显著改进。分析结果为研究社区提供了可行的见解。
- Conclusion: IMAgent通过端到端强化学习训练,成功解决了多图像任务中的视觉注意力问题,为开源视觉代理在多图像场景下的应用提供了有效解决方案。代码和数据将很快发布。
[3] Mitigating Bias with Words: Inducing Demographic Ambiguity in Face Recognition Templates by Text Encoding
Tahar Chettaoui,Naser Damer,Fadi Boutros
Main category: cs.CV
TL;DR: 提出UTIE方法,利用视觉语言模型的跨模态对齐能力,通过向人脸嵌入中添加其他人口群体的文本特征来减少人口统计偏见,在保持或提高人脸验证准确性的同时降低偏见指标。
- Motivation: 人脸识别系统存在人口统计偏见,主要原因是人脸嵌入中身份相关特征与人口统计特定信息纠缠在一起。这种偏见在大型多元文化城市中尤为关键,尤其是在生物识别技术作为智慧城市基础设施重要组成部分的背景下。这种纠缠会导致人口统计属性在嵌入空间中掩盖身份线索,造成不同人口群体间验证性能的差异。
- Method: 提出统一文本-图像嵌入(UTIE)方法,利用视觉语言模型(如CLIP、OpenCLIP、SigLIP)的零样本能力和跨模态语义对齐特性。通过向每个人口群体的人脸嵌入中添加从其他人口群体提取的文本衍生人口统计特征,从而丰富嵌入信息,鼓励嵌入空间中对人口统计属性更加中性的表示。
- Result: 在RFW和BFW两个人脸识别偏见评估基准上进行了实验。结果表明,UTIE方法能够持续降低偏见指标,同时保持甚至在某些情况下提高了人脸验证的准确性。
- Conclusion: UTIE方法通过利用视觉语言模型的跨模态对齐能力,有效地减少了人脸识别系统中的人口统计偏见,为实现更公平的人脸验证系统提供了一种有前景的解决方案。
[4] Consist-Retinex: One-Step Noise-Emphasized Consistency Training Accelerates High-Quality Retinex Enhancement
Jian Xu,Wei Chen,Shigui Li,Delu Zeng,John Paisley,Qibin Zhao
Main category: cs.CV
TL;DR: Consist-Retinex:首个将一致性模型应用于Retinex低光增强的框架,通过双目标一致性损失和自适应噪声强调采样策略,实现单步采样的SOTA性能
- Motivation: 扩散模型在低光图像增强中取得了显著成功,但需要数百次迭代采样步骤限制了实际部署。虽然一致性模型在无条件合成中提供了一步生成,但在条件增强中的应用尚未探索
- Method: 提出Consist-Retinex框架,包含两个核心创新:1)双目标一致性损失,结合时间一致性和地面真值对齐,在随机时间采样下提供全谱监督;2)自适应噪声强调采样策略,优先训练对一步条件生成至关重要的大噪声区域
- Result: 在VE-LOL-L数据集上,Consist-Retinex实现了单步采样的SOTA性能(PSNR: 25.51 vs. 23.41,FID: 44.73 vs. 49.59),相比Diff-Retinex++,仅需1/8的训练预算
- Conclusion: Consist-Retinex成功将一致性模型应用于Retinex低光增强,解决了条件增强与无条件生成的不同训练动态问题,实现了高效的单步增强,为实际部署提供了可行方案
[5] HSCP: A Two-Stage Spectral Clustering Framework for Resource-Constrained UAV Identification
Maoyu Wang,Yao Lu,Bo Zhou,Zhuangzhi Chen,Yun Lin,Qi Xuan,Guan Gui
Main category: cs.CV
TL;DR: HSCP:一种结合层剪枝和通道剪枝的分层谱聚类剪枝框架,用于无人机射频指纹识别,在保持高精度的同时实现极端压缩
- Motivation: 传统无人机识别方法在复杂环境中难以提取可靠信号特征且无法满足实时性要求。基于深度学习的RFFI方法虽然提高了识别精度,但模型大、计算需求高,难以部署在资源受限的边缘设备上。现有剪枝技术难以同时优化压缩率、硬件加速和识别精度。
- Method: 提出HSCP分层谱聚类剪枝框架:第一阶段使用基于中心核对齐(CKA)的谱聚类识别并移除冗余层;第二阶段将相同策略应用于通道维度以消除更细粒度的冗余;最后采用噪声鲁棒微调策略确保模型鲁棒性。
- Result: 在UAV-M100基准测试中,HSCP优于现有通道和层剪枝方法。在ResNet18上实现了86.39%的参数减少和84.44%的FLOPs减少,同时相比未剪枝基线精度提高1.49%,在低信噪比环境下仍保持优越的鲁棒性。
- Conclusion: HSCP框架通过分层剪枝策略有效解决了深度学习模型在边缘设备部署时的压缩与性能平衡问题,为无人机射频指纹识别提供了高效的边缘部署解决方案。
[6] RAG-HAR: Retrieval Augmented Generation-based Human Activity Recognition
Nirhoshan Sivaroopan,Hansi Karunarathna,Chamara Madarasingha,Anura Jayasumana,Kanchana Thilakarathna
Main category: cs.CV
TL;DR: RAG-HAR是一个无需训练的检索增强框架,利用大语言模型进行人类活动识别,通过统计描述符和向量数据库检索实现零样本活动识别,在多个基准测试中达到最先进性能。
- Motivation: 现有深度学习方法需要针对特定数据集进行训练、大量标注数据和计算资源,这限制了人类活动识别在医疗、康复、健身追踪等领域的应用。需要一种无需训练、更高效的方法。
- Method: RAG-HAR采用检索增强生成框架:1) 计算轻量级统计描述符;2) 从向量数据库中检索语义相似样本;3) 利用大语言模型基于上下文证据进行活动识别;4) 通过提示优化和LLM生成的活动描述符增强上下文信息。
- Result: 在六个不同的人类活动识别基准测试中达到最先进的性能,无需模型训练或微调。能够识别和有意义地标记多个未见的人类活动。
- Conclusion: RAG-HAR提供了一种无需训练、高效的人类活动识别框架,超越了已知行为的识别,具有强大的鲁棒性和实际应用价值,为医疗、康复等领域的应用提供了新方法。
[7] An Efficient Test-Time Scaling Approach for Image Generation
Vignesh Sundaresha,Akash Haridas,Vikram Appia,Lav Varshney
Main category: cs.CV
TL;DR: 提出Verifier-Threshold方法,通过自动重新分配测试时计算资源,在图像生成任务中实现2-4倍的计算时间减少
- Motivation: 现有方法在分配非均匀推理计算预算时依赖贪心算法,导致计算资源分配效率低下,需要更有效的计算资源分配策略来提升图像生成模型的效率
- Method: 提出Verifier-Threshold方法,自动重新分配测试时计算预算,通过更有效的计算资源分配策略来优化扩散和流模型的噪声样本搜索过程
- Result: 在GenEval基准测试上,相比现有最优方法,在保持相同性能的情况下实现了2-4倍的计算时间减少
- Conclusion: 通过智能计算资源分配,可以显著提升图像生成模型的效率,Verifier-Threshold方法为解决测试时计算资源分配问题提供了有效解决方案
[8] Explainable Fundus Image Curation and Lesion Detection in Diabetic Retinopathy
Anca Mihai,Adrian Groza
Main category: cs.CV
TL;DR: 提出一个用于糖尿病视网膜病变AI训练的质量控制框架,通过可解释特征分类器筛选图像、深度学习辅助标注、标注者一致性评估来确保数据质量
- Motivation: 糖尿病视网膜病变需要早期诊断,AI可以辅助临床医生识别病变,但需要高质量标注数据集。由于视网膜结构复杂,图像采集和人工标注可能存在错误,因此需要质量控制框架确保数据质量。
- Method: 1. 使用可解释特征分类器筛选不合格图像(特征通过图像处理和对比学习提取);2. 图像增强后进行标注,使用深度学习辅助;3. 通过推导公式计算标注者间一致性,确定标注的可用性。
- Result: 论文提出了一个完整的质量控制框架,能够确保只有高标准的数据用于AI训练和评估,提高了糖尿病视网膜病变诊断模型的可靠性和准确性。
- Conclusion: 该质量控制框架通过多阶段处理(图像筛选、增强、辅助标注、一致性评估)有效解决了糖尿病视网膜病变AI训练中的数据质量问题,为临床AI应用提供了可靠的数据基础。
[9] 3DID: Direct 3D Inverse Design for Aerodynamics with Physics-Aware Optimization
Yuze Hao,Linchao Zhu,Yi Yang
Main category: cs.CV
TL;DR: 提出3DID框架,通过连续潜在表示与物理感知优化策略直接导航3D设计空间,实现从零开始的3D逆向设计
- Motivation: 现有逆向设计方法在3D领域存在局限性:网格搜索不可行,现有深度学习方法使用2D投影或微调现有3D形状,牺牲了体积细节并限制了设计探索,无法实现真正的从零开始3D设计
- Method: 提出3DID框架:1) 学习统一的物理-几何嵌入,在连续潜在空间中紧凑捕获形状和物理场数据;2) 采用两阶段物理感知优化策略:第一阶段使用梯度引导扩散采样器探索全局潜在流形,第二阶段进行目标驱动、拓扑保持的细化,将候选设计雕刻至目标目标
- Result: 3DID能够生成高保真3D几何形状,在解决方案质量和设计多样性方面均优于现有方法
- Conclusion: 该框架通过直接导航3D设计空间,克服了现有方法的局限性,实现了真正的从零开始3D逆向设计,为复杂物理系统的优化设计提供了新途径
[10] Enhancing Knowledge Transfer in Hyperspectral Image Classification via Cross-scene Knowledge Integration
Lu Huo,Wenjian Huang,Jianguo Zhang,Min Xu,Haimin Zhang
Main category: cs.CV
TL;DR: 提出CKI框架解决跨场景高光谱图像分类中的光谱差异和语义不一致问题,在完全异构场景下实现知识迁移
- Motivation: 现有方法在跨场景高光谱图像分类中存在局限性:假设同质域或仅考虑共现类别,当标签空间不重叠时依赖完整源域覆盖而忽略目标私有信息
- Method: 提出跨场景知识集成(CKI)框架,包含:1) 光谱特征对齐(ASC)通过域无关投影减少光谱差异;2) 跨场景知识共享偏好(CKSP)通过源相似性机制(SSM)解决语义不匹配;3) 互补信息集成(CII)最大化利用目标特定互补线索
- Result: 在多样跨场景HSI场景中实现最先进性能并具有强稳定性
- Conclusion: CKI框架有效解决了完全异构场景下的知识迁移问题,通过显式整合目标私有知识克服了现有方法的局限性
[11] Deterministic World Models for Verification of Closed-loop Vision-based Systems
Yuang Geng,Zhuoyang Zhou,Zhongzheng Zhang,Siyuan Pan,Hoang-Dung Tran,Ivan Ruchkin
Main category: cs.CV
TL;DR: 提出确定性世界模型(DWM)替代传统生成模型,消除随机隐变量,为视觉控制系统验证提供更精确的输入边界
- Motivation: 视觉控制系统验证面临图像高维度和视觉环境建模困难的问题。现有生成模型依赖随机隐变量会引入不必要的过近似误差,影响验证精度
- Method: 提出确定性世界模型(DWM),将系统状态直接映射到生成图像,消除不可解释的隐变量。采用双目标损失函数:像素级重建精度+控制差异损失。结合StarV可达性分析和保形预测获得统计边界
- Result: 在标准基准测试中,相比基于隐变量的基线方法,本方法能产生显著更紧凑的可达集和更好的验证性能
- Conclusion: 确定性世界模型通过消除随机隐变量,为视觉控制系统验证提供了更精确的边界,提高了验证的准确性和可靠性
[12] Demo: Generative AI helps Radiotherapy Planning with User Preference
Riqiang Gao,Simon Arberet,Martin Kraus,Han Liu,Wilko FAR Verbakel,Dorin Comaniciu,Florin-Cristian Ghesu,Ali Kamen
Main category: cs.CV
TL;DR: 提出一种基于用户偏好口味的3D剂量预测生成模型,无需依赖参考计划作为训练基准,避免模型偏向特定机构规划风格,提供个性化放疗规划方案。
- Motivation: 现有深度学习3D剂量预测方法依赖参考计划作为训练基准,导致模型偏向特定机构或规划师的规划风格,缺乏灵活性和个性化。需要一种能够根据用户自定义偏好生成剂量分布的方法。
- Method: 开发一种新颖的生成模型,仅基于用户定义的偏好口味预测3D剂量分布。这些可定制的偏好允许规划师优先考虑危及器官和计划靶区之间的权衡,提供更大的灵活性和个性化。模型设计用于与临床治疗规划系统无缝集成。
- Result: 比较评估表明,该方法在某些场景下在适应性和计划质量方面超越了Varian RapidPlan模型。能够高效生成高质量计划,提供更好的个性化放疗规划方案。
- Conclusion: 提出的基于用户偏好口味的生成模型为放疗规划提供了更灵活、个性化的解决方案,避免了传统方法对特定规划风格的依赖,在临床应用中展现出优越的适应性和计划质量。
[13] Diffusion Model Regularized Implicit Neural Representation for CT Metal Artifact Reduction
Jie Wen,Chenhe Du,Xiao Wang,Yuyao Zhang
Main category: cs.CV
TL;DR: 提出基于扩散模型正则化的隐式神经表示框架,用于解决CT金属伪影问题,结合物理约束和先验知识,在模拟和临床数据上表现优异。
- Motivation: 现有监督式金属伪影减少方法依赖有限配对数据导致性能不稳定,无监督方法存在两个主要问题:1) CT物理几何未有效融入MAR过程确保数据保真度;2) 传统启发式正则化项无法充分捕捉可用先验知识。
- Method: 提出扩散模型正则化的隐式神经表示框架:隐式神经表示整合物理约束并施加数据保真度,预训练扩散模型提供先验知识正则化解。
- Result: 在模拟和临床数据上的实验结果表明该方法有效且具有良好泛化能力,显示出临床应用潜力。
- Conclusion: 该框架成功结合物理约束和扩散模型先验,为CT金属伪影减少提供了有前景的解决方案,有望应用于临床环境。
[14] A Physics-Constrained, Design-Driven Methodology for Defect Dataset Generation in Optical Lithography
Yuehua Hu,Jiyeong Kong,Dong-yeol Shin,Jaekyun Kim,Kyung-Tae Kang
Main category: cs.CV
TL;DR: 提出一种生成大规模、物理有效缺陷数据集的新方法,用于半导体制造中的AI缺陷检测,通过物理约束的形态学操作合成缺陷布局,并利用DMD光刻制造物理样本,创建了包含13,365个标注缺陷实例的数据集。
- Motivation: 微纳制造中AI缺陷检测面临高质量物理基础训练数据稀缺的问题,特别是半导体光刻缺陷数据难以获取,导致公开数据集匮乏,限制了AI在测量/检测中的应用。
- Method: 1. 使用可控的物理约束数学形态学操作(腐蚀和膨胀)从原始设计布局中合成缺陷布局;2. 通过高保真数字微镜器件光刻将合成布局制造为物理样本;3. 比较缺陷样本与无缺陷参考的光学显微图像,创建一致的像素级缺陷标注。
- Result: 构建了包含3,530张光学显微图像、13,365个标注缺陷实例的数据集,涵盖桥接、毛刺、缩颈和污染四类缺陷。Mask R-CNN在桥接、毛刺、缩颈类上的AP@0.5分别达到0.980、0.965、0.971,比Faster R-CNN平均提升约34%;在污染类上提升约42%。
- Conclusion: 提出的生成像素级标注缺陷数据集的方法可行,能够支持半导体制造中稳健的AI测量/检测,解决了训练数据稀缺的瓶颈问题。
[15] A Survey of Body and Face Motion: Datasets, Performance Evaluation Metrics and Generative Techniques
Lownish Rai Sookha,Nikhil Pakhale,Mudasir Ganaie,Abhinav Dhall
Main category: cs.CV
TL;DR: 这是一篇关于身体和面部动作生成的综述论文,涵盖了核心概念、表示技术、生成方法、数据集和评估指标,旨在提高虚拟形象在交流中的真实感、连贯性和表现力。
- Motivation: 身体和面部动作在交流中起着重要作用,传达着参与者的关键信息。尽管生成建模和多模态学习取得了进展,但由于语言/非语言线索与个人性格特征的复杂相互作用,生成富有表现力和连贯性的面部和身体动态仍然具有挑战性。
- Method: 这是一篇综述论文,采用文献综述的方法,系统性地回顾了身体和面部动作生成领域的核心概念、表示技术、生成方法、数据集和评估指标。
- Result: 该论文提供了身体和面部动作生成领域的全面概述,涵盖了从基础概念到最新技术的各个方面,并整理了详细的研究资源(包括网站链接)。
- Conclusion: 这是第一篇全面涵盖身体和面部动作生成的综述论文,强调了未来研究方向,旨在提高虚拟形象在双向交流场景中的真实感、连贯性和表现力。
[16] Towards Lossless Ultimate Vision Token Compression for VLMs
Dehua Zheng,Mouxiao Huang,Borui Jiang,Hailin Hu,Xinghao Chen
Main category: cs.CV
TL;DR: LUVC框架通过视觉编码器的迭代合并和LLM中的频谱剪枝单元,系统压缩视觉token,在保持精度的同时实现2倍推理加速。
- Motivation: 高分辨率图像和视频的token表示存在大量冗余,导致视觉语言模型计算效率低、延迟高。现有压缩方法存在位置偏差或类别不平衡问题,且在浅层LLM中泛化能力差。
- Method: 1. 在视觉编码器中采用空间轴正交的迭代合并方案;2. 在LLM中集成基于低通滤波器的频谱剪枝单元,逐步剪枝冗余视觉token;3. 提出LUVC框架,系统压缩视觉token直至LLM最后一层完全消除。
- Result: LUVC在语言模型中实现2倍推理加速,精度损失可忽略,且无需训练即可部署到多个VLM中。
- Conclusion: LUVC通过渐进式视觉token压缩和融合,有效解决了VLM的计算效率问题,实现了训练自由的高效部署。
[17] An Approach for Detection of Entities in Dynamic Media Contents
Nzakiese Mbongo,Ngombo Armando
Main category: cs.CV
TL;DR: 该论文提出了一种基于深度学习的人工神经网络方法,用于在视频序列中搜索和检测特定人物,通过监督学习算法从目标人物的简单特征实现高效定位,在安哥拉国家安全系统中有应用潜力。
- Motivation: 智能代理的发展离不开学习机制,视频中的人物检测是一个复杂的研究领域,特别是在分析数据中存在大量对象的情况下。研究旨在开发一种能够从视频序列中有效检测特定人物的方法,这对于国家安全系统(如追踪失踪人员、罪犯等)具有重要意义。
- Method: 采用基于人工神经网络的深度学习技术,构建监督学习算法,利用目标人物的简单特征进行训练和检测。该方法专门针对视频序列中的人物检测任务进行优化。
- Result: 与现有技术相比,该方法在计算机视觉领域取得了显著成功,能够从目标人物的简单特征出发,高效地定位目标个体。该方法在公共或私人图像数据库中都能有效工作。
- Conclusion: 提出的分类器为安哥拉国家安全系统提供了新的可能性,可以通过目标个体数据库(失踪人员、罪犯等)和综合公共安全中心的视频序列来加强国家安全。该方法展示了深度学习在视频人物检测中的实际应用价值。
[18] Learning to Remove Lens Flare in Event Camera
Haiqian Han,Lingdong Kong,Jianing Li,Ao Liang,Chengtao Zhu,Jiacheng Lyu,Lai Xing Ng,Xiangyang Ji,Wei Tsang Ooi,Benoit R. Cottereau
Main category: cs.CV
TL;DR: E-Deflare:首个系统性的去除事件相机镜头光晕框架,包含物理模型、大规模数据集和SOTA恢复网络
- Motivation: 事件相机具有高时间分辨率和动态范围,但易受镜头光晕影响,这种光学伪影在事件流中形成复杂的时空失真,且此前被忽视
- Method: 1) 建立物理基础理论模型;2) 创建E-Deflare Benchmark数据集(包含模拟训练集E-Flare-2.7K和首个真实世界配对测试集E-Flare-R);3) 设计E-DeflareNet恢复网络
- Result: 实现了最先进的恢复性能,广泛实验验证了方法的有效性,并证明对下游任务有明显益处
- Conclusion: E-Deflare是首个系统性的去除事件相机镜头光晕框架,提供了理论模型、基准数据集和高效网络,代码和数据集已公开
[19] ConceptPose: Training-Free Zero-Shot Object Pose Estimation using Concept Vectors
Liming Kuang,Yordanka Velikova,Mahdi Saleh,Jan-Nico Zaech,Danda Pani Paudel,Benjamin Busam
Main category: cs.CV
TL;DR: ConceptPose:无需训练、无需模型的零样本物体姿态估计框架,利用视觉语言模型创建开放词汇3D概念图,通过3D-3D对应实现6DoF相对姿态估计
- Motivation: 传统物体姿态估计方法需要大量数据集特定训练,而大规模视觉语言模型展现出强大的零样本能力。本文旨在结合这两个领域,开发无需训练和模型的姿态估计方法
- Method: 使用视觉语言模型(VLM)创建开放词汇3D概念图,每个点通过显著性图获得概念向量。通过建立概念图之间的鲁棒3D-3D对应关系,实现6DoF相对姿态的精确估计
- Result: 在常见的零样本相对姿态估计基准测试中取得最先进结果,ADD(-S)分数比现有方法提升超过62%,包括那些使用大量数据集特定训练的方法
- Conclusion: ConceptPose框架成功将视觉语言模型的零样本能力应用于物体姿态估计,实现了无需训练和模型的姿态估计,在零样本设置下显著优于现有方法
[20] SIP: Site in Pieces- A Dataset of Disaggregated Construction-Phase 3D Scans for Semantic Segmentation and Scene Understanding
Seongyong Kim,Yong Kwon Cho
Main category: cs.CV
TL;DR: SIP数据集针对建筑工地3D感知,提供反映实际LiDAR采集约束的标注数据,包含室内外场景和建筑专用分类体系。
- Motivation: 现有3D感知数据集多来自密集融合扫描,具有均匀采样和完整可见性,无法反映建筑工地的实际约束条件。工地数据通常受安全要求、有限访问和持续作业限制,采集为孤立单站LiDAR视图,导致径向密度衰减、几何碎片化和视角依赖可见性等问题,这些特征在现有数据集中代表性不足。
- Method: 使用地面LiDAR扫描仪采集室内外场景,采用专门针对建筑环境设计的分类体系进行点级标注:A.建筑环境、B.施工操作、C.工地周边。数据集包含结构组件和细长临时物体(如脚手架、MEP管道、剪刀式升降机),扫描协议、标注工作流程和质量控制程序为数据集提供一致基础。
- Result: SIP数据集公开可用,配有Git仓库支持,提供可适应现代3D深度学习框架的灵活类别配置。数据集保留了真实世界感知特征,能够支持鲁棒基准测试。
- Conclusion: 通过提供保留真实感知特征的现场数据,SIP能够实现鲁棒基准测试,有助于推进面向建筑的3D视觉任务发展。
[21] KD-OCT: Efficient Knowledge Distillation for Clinical-Grade Retinal OCT Classification
Erfan Nourbakhsh,Nasrin Sanjari,Ali Nourbakhsh
Main category: cs.CV
TL;DR: KD-OCT提出了一种新颖的知识蒸馏框架,将高性能的ConvNeXtV2-Large教师模型压缩为轻量级EfficientNet-B2学生模型,用于AMD和CNV相关疾病的OCT图像分类,在保持高诊断性能的同时实现实时部署。
- Motivation: AMD和CNV相关疾病是全球视力丧失的主要原因,OCT是早期检测和管理的关键工具。然而,最先进的深度学习模型(如ConvNeXtV2-Large)在临床部署中面临计算需求高的挑战,需要开发既高效又能保持高诊断性能的模型,以实现实时部署。
- Method: 提出KD-OCT知识蒸馏框架:1)使用增强版ConvNeXtV2-Large作为教师模型(采用高级数据增强、随机权重平均和焦点损失);2)将知识蒸馏到轻量级EfficientNet-B2学生模型;3)采用实时蒸馏策略,结合软教师知识转移和硬真实标签监督的混合损失函数;4)在Noor Eye Hospital数据集上进行患者级交叉验证评估。
- Result: KD-OCT在效率-准确率平衡方面优于可比的多尺度或特征融合OCT分类器,实现了接近教师模型的性能,同时显著减少了模型大小和推理时间。尽管经过压缩,学生模型仍超过大多数现有框架,便于AMD筛查的边缘部署。
- Conclusion: KD-OCT框架成功地将高性能教师模型压缩为轻量级学生模型,在保持高诊断准确率的同时大幅降低计算需求,为AMD筛查的临床实时部署提供了可行解决方案。
[22] Adaptive Thresholding for Visual Place Recognition using Negative Gaussian Mixture Statistics
Nick Trinh,Damian Lyons
Main category: cs.CV
TL;DR: 提出一种基于负高斯混合统计的自动阈值选择方法,用于视觉地点识别(VPR),解决手动设置阈值难以适应多种视觉场景的问题。
- Motivation: 当前VPR系统通常需要手动设置匹配阈值,但手动阈值难以适应季节变化、天气光照、环境结构变化以及行人车辆等不同视觉场景的挑战。
- Method: 通过分析地点的"负"高斯混合统计信息(表示"非此地"的图像统计特征),自动选择适用于不同图像数据库和图像描述符的阈值。
- Result: 该方法能够为多种图像数据库和图像描述符选择出效果良好的阈值,解决了手动阈值选择的局限性。
- Conclusion: 基于负高斯混合统计的自动阈值选择方法能够有效应对VPR中的视觉变化挑战,为机器人实现提供更可靠的阈值选择方案。
[23] AgentComp: From Agentic Reasoning to Compositional Mastery in Text-to-Image Models
Arman Zarei,Jiacheng Pan,Matthew Gwilliam,Soheil Feizi,Zhenheng Yang
Main category: cs.CV
TL;DR: AgentComp:利用大语言模型自主构建组合性数据集,通过智能偏好优化微调文生图模型,提升组合生成能力而不损失图像质量
- Motivation: 当前文生图模型在视觉质量上表现出色,但在组合性方面存在不足——难以准确捕捉对象关系、属性绑定和提示中的细粒度细节。主要限制是模型没有经过明确训练来区分组合相似的提示和图像,导致输出接近预期描述但在细粒度细节上存在偏差。
- Method: 提出AgentComp框架:1)利用配备图像生成、编辑和视觉问答工具的大语言模型自主构建组合性数据集;2)应用智能偏好优化方法微调文生图模型,使其能更好地区分组合相似的样本
- Result: 在T2I-CompBench等组合性基准测试中取得最先进结果,且不损害图像质量(这是先前方法的常见缺点),甚至能泛化到未明确训练的其他能力,如文本渲染
- Conclusion: AgentComp通过明确训练模型区分组合变化并增强推理能力,有效解决了文生图模型的组合性问题,在保持图像质量的同时显著提升了组合生成能力
[24] Explaining the Unseen: Multimodal Vision-Language Reasoning for Situational Awareness in Underground Mining Disasters
Mizanur Rahman Jewel,Mohamed Elmahallawy,Sanjay Madria,Samuel Frimpong
Main category: cs.CV
TL;DR: MDSE是一个多模态灾难场景解释框架,专门用于生成地下矿山灾后场景的详细文本描述,通过创新的视觉-语言对齐和高效语言模型,在恶劣环境下提供准确的情境感知。
- Motivation: 地下矿山灾难会产生黑暗、灰尘和坍塌,严重阻碍视觉感知,使得人类和传统系统难以获得准确的情境感知,这给应急救援带来了巨大挑战。
- Method: 提出MDSE框架,包含三个创新:1) 上下文感知交叉注意力机制,用于在严重退化条件下对齐视觉和文本特征;2) 分割感知的双路径视觉编码,融合全局和区域特定嵌入;3) 资源高效的基于Transformer的语言模型,以最小计算成本生成表达性字幕。
- Result: 在UMD数据集和相关基准测试中,MDSE显著优于最先进的字幕生成模型,能生成更准确、上下文更相关的描述,在模糊环境中捕捉关键细节,提升地下应急响应的情境感知能力。
- Conclusion: MDSE通过创新的多模态框架有效解决了地下矿山灾后场景理解难题,为应急救援提供了可靠的情境感知工具,并通过公开数据集和代码促进了该领域的研究发展。
[25] Food Image Generation on Multi-Noun Categories
Xinyue Pan,Yuhao Chen,Jiangpeng He,Fengqing Zhu
Main category: cs.CV
TL;DR: 提出FoCULR方法解决多名词食物类别图像生成问题,通过融入食物领域知识和早期引入核心概念来改善生成质量
- Motivation: 多名词食物类别(如"egg noodle")在生成图像时存在语义误解问题,导致生成错误的成分或空间布局,这在真实世界数据集中很常见且影响基准测试性能
- Method: 提出FoCULR(Food Category Understanding and Layout Refinement)方法,融入食物领域知识,在生成过程早期引入核心概念,解决多名词关系误解和空间布局问题
- Result: 实验结果表明,这些技术的集成提高了食物领域图像生成的性能
- Conclusion: FoCULR方法通过领域知识集成和早期概念引入,有效解决了多名词食物类别图像生成的挑战,提升了生成质量
[26] GimbalDiffusion: Gravity-Aware Camera Control for Video Generation
Frédéric Fortier-Chouinard,Yannick Hold-Geoffroy,Valentin Deschaintre,Matheus Gadelha,Jean-François Lalonde
Main category: cs.CV
TL;DR: GimbalDiffusion是一个文本到视频生成框架,通过基于物理世界坐标的绝对坐标系控制相机运动,使用重力作为全局参考,实现精确的相机参数控制。
- Motivation: 现有文本到视频生成方法在相机运动控制方面存在局限,通常使用相对或模糊的表示方法,缺乏明确的几何控制能力。需要一种能够基于物理世界坐标进行精确相机控制的方法。
- Method: 1. 使用绝对坐标系定义相机轨迹,而非相对前一帧;2. 利用全景360度视频构建多样化的相机轨迹;3. 引入空俯仰条件标注策略,减少模型对文本内容的依赖;4. 重新平衡SpatialVID-HQ数据集建立相机感知视频生成基准。
- Result: 实现了精确、可解释的相机参数控制,能够生成超出传统视频数据中主要直线、前向轨迹的多样化相机运动,提高了文本到视频模型的相机控制能力和鲁棒性。
- Conclusion: GimbalDiffusion通过基于物理坐标的相机控制、全景视频数据利用和空俯仰条件标注等创新,显著提升了文本到视频生成中相机运动的精确控制能力,为生成式框架中的重力对齐相机操作提供了有效解决方案。
[27] SuperF: Neural Implicit Fields for Multi-Image Super-Resolution
Sander Riisøen Jyhne,Christian Igel,Morten Goodwin,Per-Arne Andersen,Serge Belongie,Nico Lang
Main category: cs.CV
TL;DR: SuperF:一种基于神经场(INR)的多图像超分辨率测试时优化方法,通过共享隐式神经表示和联合优化帧对齐,无需高分辨率训练数据即可实现8倍超分辨率。
- Motivation: 传统超分辨率方法(包括单图像和基于辅助数据的方法)容易产生"幻觉"结构,与真实场景不匹配。多图像超分辨率(MISR)通过利用亚像素偏移的多个视图来约束超分辨率过程,但需要有效的实现方法。
- Method: 提出SuperF方法:1)为多个偏移的低分辨率帧共享一个隐式神经表示(INR);2)联合优化帧对齐与INR;3)将亚像素对齐参数化为可优化的仿射变换参数;4)通过对应输出分辨率的超采样坐标网格进行优化。
- Result: 在卫星图像和手持相机地面图像的模拟burst上取得了令人信服的结果,支持高达8倍的上采样因子。关键优势是不依赖任何高分辨率训练数据。
- Conclusion: SuperF通过神经场和测试时优化的结合,为多图像超分辨率提供了一种有效且无需训练数据的方法,能够避免传统方法的"幻觉"问题,产生更真实的超分辨率结果。
[28] Integrated Pipeline for Coronary Angiography With Automated Lesion Profiling, Virtual Stenting, and 100-Vessel FFR Validation
Georgy Kopanitsa,Oleg Metsker,Alexey Yakovlev
Main category: cs.CV
TL;DR: AngioAI-QFR是一个端到端的血管造影分析系统,结合深度学习检测狭窄、分割管腔、提取中心线和直径,提供相对血流容量分析和虚拟支架置入,自动计算QFR,在100条血管中与FFR相关性达0.89,诊断性能优异。
- Motivation: 冠状动脉造影是评估冠心病的主要工具,但视觉评估狭窄存在变异性且与缺血相关性有限。基于导丝的FFR能改善病变选择但未系统使用。现有的血管造影衍生指标如QFR虽提供无导丝生理学评估,但许多工具工作流程繁琐,且与自动化解剖分析和虚拟PCI规划分离。
- Method: 开发了AngioAI-QFR端到端血管造影分析系统,结合深度学习狭窄检测、管腔分割、中心线和直径提取、毫米级相对血流容量分析,以及虚拟支架置入并自动重新计算血管造影衍生的QFR。
- Result: 在100条血管中,AngioAI-QFR与FFR相关性达0.89,平均绝对误差0.045。检测FFR≤0.80的AUC为0.93,敏感性0.88,特异性0.86。93%的血管完全自动完成分析,中位结果时间41秒。RFC分析能区分局灶性和弥漫性血流容量损失,虚拟支架预测局灶性病变的QFR改善更大。
- Conclusion: AngioAI-QFR提供了一个实用、近实时的分析流程,统一了计算机视觉、功能分析和虚拟PCI规划,实现了自动化的血管造影衍生生理学评估。
[29] GTAvatar: Bridging Gaussian Splatting and Texture Mapping for Relightable and Editable Gaussian Avatars
Kelian Baert,Mae Younes,Francois Bourel,Marc Christie,Adnane Boukhayma
Main category: cs.CV
TL;DR: 提出一种结合2D高斯泼溅精度与UV纹理映射直观性的头像重建方法,通过将高斯基元嵌入模板网格UV空间,从单目视频重建可编辑材质纹理,支持重光照和直观外观修改。
- Motivation: 高斯泼溅方法在头像重建方面取得了高精度,但缺乏传统三角网格方法的直观可编辑性。现有方法难以提供像UV纹理映射那样直观的编辑控制。
- Method: 将每个规范高斯基元的局部坐标系嵌入模板网格的UV空间,从单目视频重建连续可编辑的材质纹理。采用高效的基于物理的反射模型支持重光照和材质图编辑。
- Result: 与最先进方法相比,展示了重建的准确性、重光照结果的质量,以及通过纹理映射直观修改头像外观和几何的能力,无需额外优化。
- Conclusion: 该方法成功结合了高斯泼溅的精度与UV纹理映射的直观性,实现了高质量、可编辑的头像重建,支持重光照和直观外观控制,为视觉特效、视频会议和虚拟现实应用提供了实用解决方案。
[30] WonderZoom: Multi-Scale 3D World Generation
Jin Cao,Hong-Xing Yu,Jiajun Wu
Main category: cs.CV
TL;DR: WonderZoom是一种从单张图像生成多尺度3D场景的新方法,通过尺度自适应高斯表面元和渐进细节合成器实现从宏观到微观的多尺度内容生成。
- Motivation: 现有3D世界生成模型局限于单尺度合成,无法生成不同粒度的一致场景内容。核心挑战是缺乏能够生成和渲染空间尺寸差异巨大的内容的尺度感知3D表示。
- Method: 采用两个关键技术:(1) 尺度自适应高斯表面元,用于多尺度3D场景的生成和实时渲染;(2) 渐进细节合成器,迭代生成更精细尺度的3D内容。
- Result: 实验表明WonderZoom在质量和对齐度上显著优于最先进的视频和3D模型,能够从单张图像创建多尺度3D世界。用户可"放大"3D区域并自回归合成从景观到微观特征的精细细节。
- Conclusion: WonderZoom成功解决了多尺度3D场景生成的挑战,实现了从单张图像创建连贯的多尺度3D世界,为3D内容创作提供了新的可能性。
[31] Prompt-Based Continual Compositional Zero-Shot Learning
Sauda Maryam,Sara Nadeem,Faisal Qureshi,Mohsen Ali
Main category: cs.CV
TL;DR: 提出了首个基于提示的持续组合零样本学习框架PromptCCZSL,通过多教师蒸馏和会话感知提示解决组合零样本学习中的持续适应问题,防止灾难性遗忘
- Motivation: 解决视觉语言模型在组合零样本学习中的持续适应问题,需要同时处理新属性、对象及其组合的学习,同时防止对先前知识的遗忘。与传统持续学习不同,CCZSL更复杂,因为属性和对象可能在多个会话中重复出现,而组合保持唯一
- Method: 基于冻结的VLM骨干网络,提出PromptCCZSL框架:1) 通过最近加权多教师蒸馏保留先前知识;2) 使用会话感知组合提示融合多模态特征;3) 通过会话无关融合学习属性和对象提示以保持全局语义一致性;4) 余弦锚点损失稳定先前知识;5) 正交投影损失确保新嵌入与先前嵌入区分;6) 会话内多样性损失促进当前会话嵌入的多样性
- Result: 在UT-Zappos和C-GQA基准测试中,PromptCCZSL相比先前的VLM和非VLM基线取得了显著改进,为封闭世界设置下的CCZSL设立了新基准
- Conclusion: PromptCCZSL是首个基于提示的持续组合零样本学习框架,通过创新的损失函数和提示设计有效解决了灾难性遗忘和组合泛化问题,为CCZSL领域提供了强有力的解决方案
[32] Learning Patient-Specific Disease Dynamics with Latent Flow Matching for Longitudinal Imaging Generation
Hao Chen,Rui Yin,Yifan Chen,Qi Chen,Chao Li
Main category: cs.CV
TL;DR: Δ-LFM:基于流匹配的疾病进展建模框架,通过患者特异性潜在对齐学习连续单调的疾病动态
- Motivation: 现有生成方法在建模疾病进展时存在关键不匹配:疾病动态本质上是连续单调的,但潜在表示往往分散且缺乏语义结构,扩散模型通过随机去噪过程破坏了连续性
- Method: 将疾病动态视为速度场,利用流匹配对齐患者数据的时间演化;学习患者特异性潜在对齐,强制患者轨迹沿特定轴排列,其大小随疾病严重程度单调增加
- Result: 在三个纵向MRI基准测试中,Δ-LFM表现出强大的实证性能,并提供了理解和可视化疾病动态的新框架
- Conclusion: Δ-LFM通过流匹配和患者特异性潜在对齐,实现了更可解释的疾病进展建模,为早期诊断和个性化治疗提供了新工具
[33] View-on-Graph: Zero-shot 3D Visual Grounding via Vision-Language Reasoning on Scene Graphs
Yuanyuan Liu,Haiyang Mei,Dongyang Zhan,Jiayue Zhao,Dongsheng Zhou,Bo Dong,Xin Yang
Main category: cs.CV
TL;DR: 提出新的VLM x SI范式,将3D空间信息外部化为场景图,让VLM作为主动智能体选择性访问必要线索,实现零样本3D视觉定位的SOTA性能。
- Motivation: 现有零样本方法将3D空间信息转换为复合输入(如指定视角渲染或带标记的视频序列),导致视觉表示纠缠,使VLM难以有效利用空间语义关系。
- Method: 提出View-on-Graph方法:将场景组织成多模态、多层场景图,让VLM作为主动智能体在遍历场景时选择性访问必要线索,实现增量式推理。
- Result: VoG在零样本3D视觉定位任务上达到最先进性能,通过结构化场景探索显著提升了效果。
- Conclusion: 结构化场景探索是推进零样本3D视觉定位的有前景策略,VLM x SI范式通过外部化空间信息和主动推理降低了VLM的推理难度并提高了可解释性。
[34] Enabling Next-Generation Consumer Experience with Feature Coding for Machines
Md Eimran Hossain Eimon,Juan Merlos,Ashan Perera,Hari Kalva,Velibor Adzic,Borko Furht
Main category: cs.CV
TL;DR: FCM标准通过高效压缩和传输神经网络中间特征,在保持相同准确率的同时,相比远程推理减少75.90%的比特率需求。
- Motivation: 随着消费设备智能化程度提高,需要为机器任务提供高效数据传输方案,特别是支持AI驱动应用,让低功耗设备能够利用大型深度学习模型。
- Method: FCM标准支持AI驱动应用,通过高效提取、压缩和传输中间神经网络特征,将计算密集型操作卸载到具有高计算资源的基础服务器。
- Result: 实验结果表明,FCM标准在保持相同准确率的同时,相比远程推理减少了75.90%的比特率需求。
- Conclusion: FCM标准为机器任务提供了高效的数据传输解决方案,使低功耗设备能够利用大型深度学习模型,同时显著降低比特率需求。
[35] Efficient Feature Compression for Machines with Global Statistics Preservation
Md Eimran Hossain Eimon,Hyomin Choi,Fabien Racapé,Mateen Ulhaq,Velibor Adzic,Hari Kalva,Borko Furht
Main category: cs.CV
TL;DR: 提出一种基于Z-score归一化的特征数据压缩方法,用于AI模型分割推理范式,显著降低比特率同时保持任务精度。
- Motivation: 在AI模型分割推理范式中,需要在两部分之间传输中间特征数据,特征数据的有效压缩变得至关重要。现有MPEG FCM编解码器标准中的缩放方法存在改进空间。
- Method: 采用Z-score归一化在解码端高效恢复压缩的特征数据,并将该方法集成到MPEG正在开发的FCM编解码器标准中,替代现有的缩放方法。还提出了一种简化方法以在特定情况下进一步降低开销。
- Result: 实验显示,提出的方法在不同任务中平均降低17.09%的比特率,在目标跟踪任务中最高降低65.69%,且不牺牲任务精度。
- Conclusion: 提出的基于Z-score归一化的特征压缩方法优于现有标准方法,既能减少开销比特,又能提高终端任务精度,为AI模型分割推理提供了更高效的特征数据传输方案。
[36] A Clinically Interpretable Deep CNN Framework for Early Chronic Kidney Disease Prediction Using Grad-CAM-Based Explainable AI
Anas Bin Ayub,Nilima Sultana Niha,Md. Zahurul Haque
Main category: cs.CV
TL;DR: 提出基于深度卷积神经网络(CNN)的早期慢性肾病检测方法,结合SMOTE类别平衡和Grad-CAM可解释性,在CT肾脏数据集上实现100%准确率。
- Motivation: 慢性肾病(CKD)是全球重大医疗负担,肾功能逐渐恶化导致代谢废物清除障碍和全身液体稳态紊乱。由于其显著增加全球发病率和死亡率,开发可靠高效的诊断方法对于早期检测和及时临床管理至关重要。
- Method: 使用深度卷积神经网络(CNN)从CT肾脏图像进行早期CKD检测,结合合成少数类过采样技术(SMOTE)进行类别平衡,并采用梯度加权类激活映射(Grad-CAM)提供可解释性。在包含12,446张CT图像的数据集上进行训练和评估,包括3,709例囊肿、5,077例正常、1,377例结石和2,283例肿瘤病例。
- Result: 提出的深度CNN实现了显著的分类性能,在早期慢性肾病检测中达到100%的准确率。
- Conclusion: 这一重要进展展示了解决关键临床诊断挑战和增强早期医疗干预策略的强大潜力。
[37] OmniPSD: Layered PSD Generation with Diffusion Transformer
Cheng Liu,Yiren Song,Haofan Wang,Mike Zheng Shou
Main category: cs.CV
TL;DR: OmniPSD是一个基于Flux生态系统的统一扩散框架,能够通过上下文学习实现文本到PSD生成和图像到PSD分解,生成具有透明通道的分层PSD文件。
- Motivation: 尽管扩散模型在图像生成和编辑方面取得了显著进展,但生成或重建具有透明alpha通道的分层PSD文件仍然非常具有挑战性。现有方法难以处理多层结构和透明通道的复杂性。
- Method: 1) 文本到PSD生成:将多个目标层空间排列到单个画布上,通过空间注意力学习它们的组合关系;2) 图像到PSD分解:执行迭代上下文编辑,逐步提取和擦除文本和前景组件;3) 使用RGBA-VAE作为辅助表示模块来保留透明度而不影响结构学习。
- Result: 在新建的RGBA分层数据集上的实验表明,OmniPSD实现了高保真生成、结构一致性和透明度感知,为分层设计生成和分解提供了新范式。
- Conclusion: OmniPSD通过统一的扩散框架成功解决了分层PSD文件的生成和分解问题,为基于扩散变换器的分层设计提供了新的解决方案,在保持透明度和结构一致性方面表现出色。
[38] GLACIA: Instance-Aware Positional Reasoning for Glacial Lake Segmentation via Multimodal Large Language Model
Lalit Maurya,Saurabh Kaushik,Beth Tellman
Main category: cs.CV
TL;DR: GLACIA框架首次将大语言模型与分割能力结合,用于冰川湖监测,不仅能生成准确的分割掩码,还能提供空间推理输出,显著超越现有方法。
- Motivation: 现有基于CNN和ViT的冰川湖分割方法仅限于像素级预测,缺乏高层全局场景语义和人类可解释的推理,难以支持直观的灾害准备和决策制定。
- Method: 提出GLACIA框架,整合大语言模型与分割能力;构建GLake-Pos数据集管道,提供多样化的空间基础问答对,解决遥感数据中实例感知位置推理数据的缺乏问题。
- Result: GLACIA在mIoU指标上达到87.30,显著超越基于CNN的方法(78.55-79.01)、ViT方法(69.27-81.75)、地理基础模型(76.37-87.10)和基于推理的分割方法(60.12-75.66)。
- Conclusion: GLACIA通过支持自然语言交互,实现了更直观的灾害准备和知情决策制定,在快速变化的冰川环境中提供了高效且可解释的决策支持。
[39] ROI-Packing: Efficient Region-Based Compression for Machine Vision
Md Eimran Hossain Eimon,Alena Krause,Ashan Perera,Juan Merlos,Hari Kalva,Velibor Adzic,Borko Furht
Main category: cs.CV
TL;DR: ROI-Packing是一种针对机器视觉的高效图像压缩方法,通过优先处理对任务精度关键的兴趣区域并高效打包,同时丢弃不相关数据,无需重新训练或微调任务模型即可实现显著压缩效率。
- Motivation: 传统图像压缩方法主要针对人类视觉优化,而机器视觉任务(如目标检测和实例分割)对图像内容的需求不同。现有方法要么需要重新训练模型,要么压缩效率有限。需要一种无需模型修改就能为机器视觉任务提供高效压缩的方法。
- Method: ROI-Packing方法识别对终端任务精度至关重要的兴趣区域(ROI),优先高效打包这些区域,同时丢弃对任务不重要的数据。该方法不需要重新训练或微调终端任务模型,直接对图像进行压缩处理。
- Result: 在五个数据集和两个流行任务(目标检测和实例分割)上的综合评估显示:与MPEG标准化的最新VVC编解码器相比,ROI-Packing在不影响终端任务精度的情况下实现了高达44.10%的比特率降低,同时在相同比特率下精度提高了8.88%。
- Conclusion: ROI-Packing为机器视觉任务提供了一种高效且实用的图像压缩解决方案,通过智能选择和处理兴趣区域,在保持任务精度的同时显著降低比特率,且无需修改现有任务模型,具有重要的实际应用价值。
[40] MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification
Sangwoon Kwak,Weeyoung Kwon,Jun Young Jeong,Geonho Kim,Won-Sik Cheong,Jihyong Oh
Main category: cs.CV
TL;DR: MoRel提出基于锚点中继双向混合的4D高斯溅射框架,解决长时动态场景建模中的内存爆炸、时间闪烁和遮挡处理问题,在保持内存效率的同时实现时间一致的无闪烁渲染。
- Motivation: 现有4D高斯溅射方法在处理长时动态视频时面临内存爆炸、时间闪烁和遮挡处理失败等挑战,需要一种能高效建模长时动态场景且保持时间一致性的新方法。
- Method: 提出锚点中继双向混合机制,在关键帧时间索引处渐进构建局部规范锚点空间,在锚点级别建模帧间变形;通过可学习不透明度控制双向变形混合;引入特征方差引导的分层致密化方案。
- Result: MoRel实现了时间一致且无闪烁的长时4D重建,同时保持有界内存使用;在新构建的SelfCap_LR数据集上验证了处理真实世界长时4D运动的能力。
- Conclusion: 该方法在动态高斯表示中展示了可扩展性和效率,为长时动态场景建模提供了有效的解决方案,解决了现有方法在内存、时间一致性和遮挡处理方面的局限性。
[41] LongT2IBench: A Benchmark for Evaluating Long Text-to-Image Generation with Graph-structured Annotations
Zhichao Yang,Tianjiao Gu,Jianjie Wang,Feiyu Lin,Xiangfei Sheng,Pengfei Chen,Leida Li
Main category: cs.CV
TL;DR: 提出了LongT2IBench数据集和LongT2IExpert评估器,用于长文本到图像生成的对齐评估,通过图结构标注和层次化对齐思维链实现可解释的评估。
- Motivation: 长文本到图像生成日益流行,但现有评估基准主要针对短提示场景且缺乏可解释性,阻碍了长T2I评估器的发展。
- Method: 1) 构建LongT2IBench数据集:包含14K长文本-图像对,采用Generate-Refine-Qualify标注协议将长提示转换为包含实体、属性和关系的图结构;2) 提出LongT2IExpert评估器:通过指令调教和多模态大语言模型,结合层次化对齐思维链提供量化分数和结构化解释。
- Result: LongT2IExpert在长文本到图像对齐评估和解释方面表现出优越性,实验和比较证明了其有效性。
- Conclusion: 该研究填补了长文本到图像生成评估的空白,通过图结构标注和层次化对齐思维链实现了可解释的评估,为长T2I评估器的发展提供了重要基准和方法。
[42] Dynamic Facial Expressions Analysis Based Parkinson's Disease Auxiliary Diagnosis
Xiaochen Huang,Xiaochen Bi,Cuihua Lv,Xin Wang,Haoyan Zhang,Wenjing Jiang,Xin Ma,Yibin Li
Main category: cs.CV
TL;DR: 提出基于动态面部表情分析的帕金森病辅助诊断方法,通过分析面部表情减少和僵硬特征,达到93.1%的诊断准确率
- Motivation: 帕金森病严重影响患者日常生活和社交互动,需要更高效、便捷的诊断方法。针对PD的特征性临床症状——面部表情减少(hypomimia),开发基于面部表情分析的辅助诊断技术
- Method: 开发多模态面部表情分析网络,利用CLIP架构整合视觉和文本特征,保留面部表情的时间动态特征,然后通过LSTM分类网络进行PD诊断
- Result: 该方法达到93.1%的诊断准确率,优于其他体外PD诊断方法
- Conclusion: 该方法为潜在PD患者提供了更便捷的检测方式,改善了诊断体验,有望成为帕金森病辅助诊断的有效工具
[43] LoGoColor: Local-Global 3D Colorization for 360° Scenes
Yeonjin Chang,Juhwan Cho,Seunghyeon Seo,Wonsik Shin,Nojun Kwak
Main category: cs.CV
TL;DR: LoGoColor提出了一种新的3D着色方法,通过消除指导平均过程,采用"局部-全局"方法在复杂360°场景中保持颜色多样性,解决了现有方法因2D图像模型不一致导致的颜色单调问题。
- Motivation: 单通道3D重建在机器人和医学成像等领域广泛应用,但现有方法只能重建几何结构而无法生成彩色3D模型。最近的3D着色方法通过蒸馏2D图像着色模型,但存在2D模型固有的不一致性问题,导致颜色在训练过程中被平均化,产生单调和过度简化的结果,特别是在复杂的360°场景中。
- Method: 提出LoGoColor管道,采用"局部-全局"方法:将场景划分为子场景,使用微调的多视图扩散模型显式处理子场景间和子场景内的一致性。通过生成一组新的、一致着色的训练视图来绕过平均化过程,从而保持颜色多样性。
- Result: 该方法在复杂360°场景中实现了定量和定性上更一致、更合理的3D着色效果,并通过新的颜色多样性指数验证了其优越的颜色多样性。
- Conclusion: LoGoColor通过消除指导平均过程并采用局部-全局一致性方法,成功解决了现有3D着色方法在复杂场景中的颜色单调问题,实现了更好的颜色多样性和一致性。
[44] FoundIR-v2: Optimizing Pre-Training Data Mixtures for Image Restoration Foundation Model
Xiang Chen,Jinshan Pan,Jiangxin Dong,Jian Yang,Jinhui Tang
Main category: cs.CV
TL;DR: FoundIR-v2是一个基于扩散的图像修复基础模型,通过数据均衡调度和MoE驱动的调度器,实现了在50多个子任务上的全面性能提升。
- Motivation: 现有图像修复基础模型主要关注预训练数据的规模和质量,但研究发现不同修复任务的数据混合比例也是决定模型整体性能的关键因素,需要优化数据组合以实现更好的泛化能力。
- Method: 提出数据均衡调度范式动态优化不同任务训练数据的混合比例,并引入MoE驱动的调度器为每个修复任务灵活分配任务自适应的扩散先验,以处理不同任务的退化形式和程度差异。
- Result: 方法能够处理超过50个子任务,覆盖更广泛的真实场景,并在与最先进方法的比较中取得了优越的性能表现。
- Conclusion: 数据混合比例对图像修复基础模型的性能至关重要,通过数据均衡调度和MoE驱动的任务自适应先验分配,可以显著提升模型在多样化任务上的泛化能力和综合性能。
[45] MelanomaNet: Explainable Deep Learning for Skin Lesion Classification
Sukhrobbek Ilyosbekov
Main category: cs.CV
TL;DR: 提出MelanomaNet,一個可解釋的深度學習系統,用於多類皮膚病變分類,結合四種互補的可解釋性機制,在保持高準確率的同時提供臨床意義的解釋。
- Motivation: 儘管深度學習在皮膚病變分類上表現出色,但由於模型的"黑箱"特性,臨床應用仍然有限。需要開發可解釋的系統來促進臨床信任和採用。
- Method: 結合EfficientNet V2骨幹網絡,並整合四種可解釋性機制:GradCAM++注意力可視化、自動ABCDE臨床標準提取、Fast Concept Activation Vectors概念解釋、以及蒙特卡羅Dropout不確定性量化。
- Result: 在ISIC 2019數據集(25,331張皮膚鏡圖像,9個診斷類別)上達到85.61%準確率和0.8564加權F1分數,同時提供與皮膚科評估標準一致的臨床意義解釋。
- Conclusion: 高分類性能可以與全面的可解釋性相結合,這可能促進臨床皮膚科工作流程中更大的信任和採用。不確定性量化模組能夠自動標記不可靠預測供臨床審查。
[46] Traffic Scene Small Target Detection Method Based on YOLOv8n-SPTS Model for Autonomous Driving
Songhan Wu
Main category: cs.CV
TL;DR: 提出改进的YOLOv8n-SPTS模型,通过SPD-Conv、SPPFCSPC和TSFP三个创新,提升自动驾驶中动态感知的小目标识别性能,在VisDrone2019-DET数据集上取得最佳检测精度。
- Motivation: 自动驾驶中的动态感知面临小目标识别难题,现有算法因小目标信息缺失、尺度不平衡和遮挡等问题导致检测性能不佳。
- Method: 改进YOLOv8n模型:1) 用SPD-Conv模块替换传统卷积,保留细粒度信息;2) 引入SPPFCSPC模块增强特征融合;3) 设计TSFP结构,增加160*160小目标检测头,移除冗余大目标检测头。
- Result: 在VisDrone2019-DET数据集上,YOLOv8n-SPTS模型在精度(61.9%)、召回率(48.3%)、mAP@0.5(52.6%)和mAP@0.5:0.95(32.6%)均排名第一,显著降低了遮挡和密集场景中小目标的漏检率。
- Conclusion: 提出的YOLOv8n-SPTS模型通过三个关键创新有效解决了自动驾驶中小目标检测的挑战,在复杂场景中表现出优越性能。
[47] VABench: A Comprehensive Benchmark for Audio-Video Generation
Daili Hua,Xizhi Wang,Bohan Zeng,Xinyi Huang,Hao Liang,Junbo Niu,Xinlong Chen,Quanqing Xu,Wentao Zhang
Main category: cs.CV
TL;DR: VABench:首个系统评估同步音视频生成能力的多维度基准框架,涵盖文本/图像到音视频、立体音视频生成任务,包含15个评估维度,覆盖7大内容类别。
- Motivation: 当前视频生成基准主要关注视觉质量评估,缺乏对音视频同步生成模型的系统性评估,特别是针对同步音视频输出的模型评估不足。
- Method: 构建VABench基准框架,包含三种主要任务类型:文本到音视频(T2AV)、图像到音视频(I2AV)、立体音视频生成;建立两个主要评估模块,涵盖15个评估维度,包括成对相似性(文本-视频、文本-音频、视频-音频)、音视频同步、唇语一致性、精心设计的音视频问答对等;覆盖7大内容类别。
- Result: 提供了系统性的评估结果分析和可视化,旨在为评估具有同步音频能力的视频生成模型建立新标准。
- Conclusion: VABench填补了音视频生成评估的空白,为评估同步音视频生成能力提供了全面框架,将推动该领域的综合发展。
[48] From SAM to DINOv2: Towards Distilling Foundation Models to Lightweight Baselines for Generalized Polyp Segmentation
Shivanshu Agnihotri,Snehashis Majhi,Deepak Ranjan Nayak,Debesh Jha
Main category: cs.CV
TL;DR: 提出Polyp-DiFoM蒸馏框架,将大规模视觉基础模型的丰富表示迁移到轻量级分割基线,用于结肠镜息肉分割,在显著降低计算开销的同时提升性能。
- Motivation: 轻量级基线模型(如U-Net、U-Net++)虽然易于部署且计算成本低,但难以处理息肉的大小、形状、颜色变化和伪装特性;而大规模视觉基础模型(如SAM、DINOv2)在自然图像领域表现出色,但直接迁移到医学图像任务存在数据集稀缺和领域知识缺乏的问题。
- Method: 提出Polyp-DiFoM蒸馏框架:1)将基础模型的语义先验注入到U-Net、U-Net++等规范架构中;2)采用频域编码增强蒸馏效果;3)通过知识蒸馏将基础模型的丰富表示迁移到轻量级分割基线。
- Result: 在Kvasir-SEG、CVC-ClinicDB、ETIS、ColonDB、CVC-300五个基准数据集上,Polyp-DiFoM显著优于相应基线模型和当前最先进模型,同时计算开销减少近9倍。
- Conclusion: Polyp-DiFoM成功地将大规模视觉基础模型的表示能力迁移到轻量级分割模型,实现了在临床环境中高效准确的息肉分割部署,为解决医学图像分割中的领域适应问题提供了有效方案。
[49] Transformer-Driven Multimodal Fusion for Explainable Suspiciousness Estimation in Visual Surveillance
Kuldeep Singh Yadav,Lalan Kumar
Main category: cs.CV
TL;DR: 提出了一个大规模可疑行为分析数据集USE50k和轻量级视觉框架DeepUSEvision,用于实时可疑性评估,包含目标检测、表情/姿态识别和多模态融合模块。
- Motivation: 复杂环境中可疑性评估对于主动威胁检测和公共安全至关重要,需要大规模数据集和实时分析框架来应对多样化、非受控的公共场景。
- Method: 1) 构建USE50k数据集(65,500张图像,涵盖机场、车站等多样化场景);2) 开发DeepUSEvision框架:增强YOLOv12的目标检测器、双DCNN的表情/姿态识别、基于transformer的多模态融合判别器。
- Result: 实验证明该框架在准确性、鲁棒性和可解释性方面优于现有方法,为智能监控和实时风险评估提供了可扩展的基础。
- Conclusion: USE50k数据集和DeepUSEvision框架为安全关键应用中的智能监控和实时风险评估建立了强大且可扩展的基础。
[50] Benchmarking Real-World Medical Image Classification with Noisy Labels: Challenges, Practice, and Outlook
Yuan Ma,Junlin Hou,Chao Zhang,Yukun Zhou,Zongyuan Ge,Haoran Xie,Lie Ju
Main category: cs.CV
TL;DR: LNMBench是一个用于医学影像标签噪声学习的综合基准,评估了10种代表性方法在7个数据集、6种成像模态和3种噪声模式下的表现,揭示了现有方法在高噪声和真实噪声下的性能下降,并提出了改进方案。
- Motivation: 医学影像标注需要专业知识且存在观察者间差异,导致标签噪声问题。尽管已有大量标签噪声学习研究,但现有方法在医学影像领域的鲁棒性尚未得到系统评估。
- Method: 提出LNMBench基准框架,系统评估10种代表性标签噪声学习方法在7个医学影像数据集、6种成像模态和3种噪声模式下的表现,建立统一可复现的评估框架。
- Result: 实验表明现有标签噪声学习方法在高噪声和真实噪声条件下性能显著下降,揭示了医学数据中类别不平衡和领域变异性的持续挑战。
- Conclusion: 基于研究发现,提出了简单有效的改进方案以增强模型鲁棒性,并公开LNMBench代码库以促进标准化评估和可复现研究,为开发噪声鲁棒算法提供实用见解。
[51] UniLS: End-to-End Audio-Driven Avatars for Unified Listening and Speaking
Xuangeng Chu,Ruicong Liu,Yifei Huang,Yun Liu,Yichen Peng,Bo Zheng
Main category: cs.CV
TL;DR: UniLS:首个端到端的统一说话-倾听表情生成框架,仅使用双轨音频驱动,通过两阶段训练解决倾听者建模难题,显著提升倾听表情的自然度和多样性。
- Motivation: 现有方法主要关注说话者生成,而倾听者建模面临根本性挑战:说话者运动由语音音频强驱动,而倾听者运动主要遵循内部运动先验,仅受外部语音松散引导。先前方法需要额外说话者运动信息,无法实现端到端实时应用。
- Method: 提出两阶段训练范式:阶段1训练无音频的自回归生成器学习内部运动先验,捕捉自然面部运动的自发动态;阶段2引入双轨音频,微调生成器基于外部语音线索调制已学习的运动先验。
- Result: UniLS在说话准确性上达到SOTA,更重要的是在倾听指标上实现高达44.1%的改进,生成显著更多样化和自然的倾听表情,有效缓解僵硬问题,为交互式数字人提供实用高保真音频驱动解决方案。
- Conclusion: UniLS是首个仅使用双轨音频驱动的端到端统一说话-倾听表情生成框架,通过创新的两阶段训练成功解决倾听者建模的根本挑战,为实时交互式数字人应用提供了可行方案。
[52] Relightable and Dynamic Gaussian Avatar Reconstruction from Monocular Video
Seonghwa Choi,Moonkyeong Choi,Mingyu Jang,Jaekyung Kim,Jianfei Cai,Wen-Huang Cheng,Sanghoon Lee
Main category: cs.CV
TL;DR: 提出RnD-Avatar框架,基于3D高斯泼溅实现可重光照和可动画的人体化身建模,通过动态蒙皮权重和新型正则化方法提升几何细节,在多个任务上达到SOTA性能。
- Motivation: 现有基于NeRF和3DGS的方法在重建人体化身时,由于缺乏与身体运动相关的几何细节(如衣物褶皱),往往无法产生令人满意的照片级真实感结果。
- Method: 提出基于3DGS的RnD-Avatar框架:1) 引入动态蒙皮权重,基于姿态定义人体关节化并学习身体运动引起的额外变形;2) 提出新颖的正则化方法,在稀疏视觉线索下捕捉精细几何细节;3) 创建了新的多视角变光照数据集用于重光照评估。
- Result: 框架能够真实渲染新姿态和新视角,支持任意光照条件下的照片级真实光照效果,在新视角合成、新姿态渲染和重光照任务上达到最先进性能。
- Conclusion: RnD-Avatar通过动态蒙皮权重和几何细节正则化,成功实现了高保真几何细节的可重光照动态人体化身建模,在多个基准任务上表现出色。
[53] TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment
Kanghyun Baek,Sangyub Lee,Jin Young Choi,Jaewoo Song,Daemin Park,Jooyoung Choi,Chaehun Shin,Bohyung Han,Sungroh Yoon
Main category: cs.CV
TL;DR: TextGuider:一种无需训练的方法,通过对齐文本内容token和图像文本区域,解决扩散模型中文本遗漏问题,实现准确完整的文本渲染。
- Motivation: 尽管现有方法在文本渲染方面有所改进,但文本遗漏问题(部分或完全缺失所需文本)仍未得到充分解决。扩散模型在准确文本渲染方面仍存在困难。
- Method: 分析MM-DiT模型中文本相关token的注意力模式,在去噪早期阶段应用基于两种新损失函数的潜在引导,对齐文本内容token和图像文本区域。
- Result: 在测试时文本渲染中达到最先进性能,在召回率方面取得显著提升,同时在OCR准确率和CLIP分数方面表现强劲。
- Conclusion: TextGuider是一种有效的无需训练方法,能够显著改善扩散模型的文本渲染质量,特别是解决文本遗漏问题,实现更准确和完整的文本生成。
[54] Video-QTR: Query-Driven Temporal Reasoning Framework for Lightweight Video Understanding
Xinkui Zhao,Zuxin Wang,Yifan Zhang,Guanjie Cheng,Yueshen Xu,Shuiguang Deng,Chang Liu,Naibo Wang,Jianwei Yin
Main category: cs.CV
TL;DR: Video-QTR是一个轻量级视频理解框架,通过查询驱动的时序推理动态分配感知资源,减少73%的帧输入,在多个基准测试中达到SOTA性能。
- Motivation: 多模态大语言模型在长视频理解中存在计算密集问题,密集帧编码产生过多视觉标记,导致高内存消耗、冗余计算和有限的可扩展性。传统"先处理再推理"范式效率低下。
- Method: 提出Video-QTR框架,将视频理解重新定义为查询引导的推理过程。基于查询的语义意图动态分配感知资源,在推理和感知之间创建自适应反馈循环,而不是编码每一帧。
- Result: 在MSVD-QA、Activity Net-QA、Movie Chat和Video MME五个基准测试中达到最先进性能,同时将输入帧消耗减少高达73%。
- Conclusion: 查询驱动的时序推理为视频理解提供了高效且可扩展的解决方案,通过动态资源分配显著提升了计算效率。
[55] StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
Ke Xing,Longfei Li,Yuyang Yin,Hanwen Liang,Guixun Luo,Chen Fang,Jue Wang,Konstantinos N. Plataniotis,Xiaojie Jin,Yao Zhao,Yunchao Wei
Main category: cs.CV
TL;DR: StereoWorld是一个端到端框架,利用预训练视频生成器实现单目到立体视频的高质量生成,通过几何感知正则化和时空分块方案确保3D结构保真度和高分辨率合成。
- Motivation: 随着XR设备的普及,对高质量立体视频的需求日益增长,但现有制作方法成本高且容易产生伪影,需要更有效的解决方案。
- Method: 1) 将预训练视频生成器重新用于单目到立体视频生成;2) 联合条件化模型于单目视频输入;3) 通过几何感知正则化进行显式监督确保3D结构保真度;4) 集成时空分块方案实现高效高分辨率合成。
- Result: 构建了包含1100万帧的高清立体视频数据集,实验表明StereoWorld显著优于现有方法,生成的立体视频具有卓越的视觉保真度和几何一致性。
- Conclusion: StereoWorld提供了一个有效的端到端框架,能够高质量地生成立体视频,解决了现有方法成本高和伪影多的问题,为XR内容创作提供了实用解决方案。
[56] ASSIST-3D: Adapted Scene Synthesis for Class-Agnostic 3D Instance Segmentation
Shengchao Zhou,Jiehong Lin,Jiahui Liu,Shizhen Zhao,Chirui Chang,Xiaojuan Qi
Main category: cs.CV
TL;DR: ASSIST-3D提出了一种针对类别无关3D实例分割的合成数据生成管道,通过异构对象选择、LLM引导的场景布局生成和逼真点云构建,显著提升了模型在真实场景中的泛化能力。
- Motivation: 当前类别无关3D实例分割方法面临标注数据稀缺和2D分割噪声问题,而现有的3D场景合成方法无法同时满足几何多样性、上下文复杂性和布局合理性的需求,限制了模型的泛化能力。
- Method: 1) 异构对象选择:从大规模3D CAD资产库中随机采样对象,最大化几何和上下文多样性;2) 场景布局生成:结合LLM引导的空间推理和深度优先搜索实现合理对象放置;3) 逼真点云构建:通过多视角RGB-D图像渲染和融合,模拟真实传感器数据采集。
- Result: 在ScanNetV2、ScanNet++和S3DIS基准测试中,使用ASSIST-3D生成数据训练的模型显著优于现有方法,证明了该合成数据生成管道的优越性。
- Conclusion: ASSIST-3D通过专门设计的3D场景合成管道,有效解决了类别无关3D实例分割的数据稀缺问题,显著提升了模型在真实场景中的泛化性能,为3D视觉任务的数据增强提供了新思路。
[57] FUSER: Feed-Forward MUltiview 3D Registration Transformer and SE(3) Diffusion Refinement
Haobo Jiang,Jin Xie,Jian Yang,Liang Yu,Jianmin Zheng
Main category: cs.CV
TL;DR: FUSER:首个前馈多视角点云配准Transformer,通过统一潜在空间直接预测全局位姿,无需成对匹配;FUSER-DF:基于SE(3)^N扩散的细化框架,进一步提升精度。
- Motivation: 传统多视角点云配准依赖大量成对匹配构建位姿图进行全局同步,计算成本高且缺乏整体几何约束导致病态问题。需要一种能够直接处理所有扫描、避免成对估计的前馈方法。
- Method: 1. FUSER:通过稀疏3D CNN将每个扫描编码为低分辨率超点特征,保留绝对平移线索;使用几何交替注意力模块进行高效的扫描内和扫描间推理;利用预训练基础模型的2D注意力先验增强3D特征交互和几何一致性。2. FUSER-DF:在SE(3)^N空间构建扩散细化框架,使用FUSER作为代理模型构建去噪器,推导先验条件SE(3)^N变分下界进行去噪监督。
- Result: 在3DMatch、ScanNet和ArkitScenes数据集上的大量实验表明,该方法实现了优越的配准精度和出色的计算效率。
- Conclusion: FUSER是首个前馈多视角配准Transformer,通过统一潜在空间直接预测全局位姿,避免了传统成对匹配的计算负担和病态问题;FUSER-DF扩散细化框架进一步提升了精度,为多视角点云配准提供了高效准确的解决方案。
[58] Log NeRF: Comparing Spaces for Learning Radiance Fields
Sihe Chen,Luv Verma,Bruce A. Maxwell
Main category: cs.CV
TL;DR: 该论文提出在log RGB色彩空间中训练NeRF,相比传统sRGB空间能获得更高质量的渲染效果,尤其在低光照条件下表现更优。
- Motivation: 现有NeRF方法通常使用sRGB图像进行监督,但忽略了色彩空间对辐射场表示学习的影响。受BIDR模型启发,对数变换能简化光照和反射的分离,因此假设log RGB空间能让NeRF学习更紧凑有效的场景外观表示。
- Method: 使用GoPro相机采集约30个视频,通过逆编码确保线性数据恢复。在不同色彩空间(线性、sRGB、GPLog、log RGB)下训练NeRF模型,将每个网络输出转换到统一色彩空间后再进行渲染和损失计算,从而在不同色彩空间中强制进行表示学习。
- Result: 定量和定性评估表明,使用log RGB色彩空间能持续提升渲染质量,在不同场景中表现出更强的鲁棒性,在低光照条件下表现尤为出色,且使用相同位深度的输入图像。在不同网络规模和NeRF变体上的进一步分析证实了对数空间优势的泛化性和稳定性。
- Conclusion: log RGB色彩空间为NeRF提供了更有效的表示学习框架,能显著提升渲染质量,特别是在具有挑战性的光照条件下,这一发现对神经辐射场表示学习具有重要意义。
[59] Perception-Inspired Color Space Design for Photo White Balance Editing
Yang Cheng,Ziteng Cui,Lin Gu,Shenghan Su,Zenghui Zhang
Main category: cs.CV
TL;DR: 论文提出了一种基于可学习HSI色彩空间的感知启发式白平衡校正框架,通过圆柱形色彩模型分离亮度和色度分量,并引入Mamba网络,在基准数据集上表现出优越性能。
- Motivation: 传统sRGB色彩空间的白平衡编辑存在局限性:固定非线性变换和纠缠的色彩通道难以适应复杂光照条件。当原始相机RAW数据不可用时,需要更有效的后ISP白平衡校正方法。
- Method: 提出感知启发的可学习HSI色彩空间框架,基于圆柱形色彩模型自然分离亮度和色度分量,引入专用参数增强解耦和可学习映射,并设计针对LHSI色彩空间特性的Mamba网络。
- Result: 在基准数据集上的实验结果表明该方法具有优越性,展示了感知启发色彩空间设计在计算摄影中的潜力。
- Conclusion: 提出的基于可学习HSI色彩空间的白平衡校正框架有效解决了传统sRGB方法的局限性,为复杂光照条件下的颜色恒常性失败问题提供了新解决方案。
[60] Detection and Localization of Subdural Hematoma Using Deep Learning on Computed Tomography
Vasiliki Stoumpou,Rohan Kumar,Bernard Burman,Diego Ojeda,Tapan Mehta,Dimitris Bertsimas
Main category: cs.CV
TL;DR: 开发了一个多模态深度学习框架,整合临床数据和CT影像,用于硬膜下血肿的检测和定位,性能优于单一模态方法。
- Motivation: 硬膜下血肿是常见的神经外科急症,现有自动化工具主要关注检测,缺乏可解释性和空间定位能力,需要透明、高性能的系统整合多模态信息支持实时决策。
- Method: 开发多模态深度学习框架,整合结构化临床变量、3D卷积神经网络(CT体积)和transformer增强的2D分割模型。使用25,315个头部CT研究(其中3,774个包含SDH),训练表格模型处理人口统计学、合并症、药物和实验室结果,影像模型用于检测SDH并生成体素级概率图,采用贪婪集成策略组合互补预测器。
- Result: 临床变量单独预测能力一般(AUC 0.75),卷积模型性能显著更高(AUC 0.922和0.926),多模态集成模型达到最佳性能(AUC 0.9407),并生成解剖学上有意义的定位图。
- Conclusion: 该多模态可解释框架提供了快速准确的SDH检测和定位,性能优异且输出透明,整合到放射学工作流程可优化分诊、缩短干预时间并提高SDH管理一致性。
[61] Wasserstein-Aligned Hyperbolic Multi-View Clustering
Rui Wang,Yuting Jiang,Xiaoqing Luo,Xiao-Jun Wu,Nicu Sebe,Ziheng Chen
Main category: cs.CV
TL;DR: 提出WAH框架,通过双曲空间表示和Wasserstein距离对齐多视图聚类中的全局语义一致性
- Motivation: 现有双曲表示方法主要关注实例级对齐,忽略了全局语义一致性,容易受到视图特定信息(如噪声和跨视图差异)的影响
- Method: 1) 为每个视图使用特定的双曲编码器将特征嵌入到Lorentz流形中进行层次语义建模;2) 引入基于双曲切片Wasserstein距离的全局语义损失来对齐跨视图的流形分布;3) 使用软聚类分配来促进跨视图语义一致性
- Result: 在多个基准数据集上的广泛实验表明,该方法能够实现最先进的聚类性能
- Conclusion: 提出的WAH框架通过双曲表示和Wasserstein对齐,有效解决了多视图聚类中的全局语义一致性问题,提升了聚类性能
[62] Generative Point Cloud Registration
Haobo Jiang,Jin Xie,Jian Yang,Liang Yu,Jianmin Zheng
Main category: cs.CV
TL;DR: 提出生成式点云配准新范式,通过生成跨视角一致图像对实现几何-颜色特征融合,提升配准性能
- Motivation: 传统点云配准方法主要依赖几何特征,缺乏颜色纹理信息。本文旨在将先进的2D生成模型与3D匹配任务结合,通过生成与点云对齐的图像对,实现几何和颜色特征的融合,从而提升配准的鲁棒性和准确性。
- Method: 提出生成式点云配准范式,核心是Match-ControlNet模型。该模型利用ControlNet的深度条件生成能力,从点云深度图生成几何对齐的图像,确保2D-3D几何一致性。通过耦合条件去噪方案和耦合提示引导,促进跨视角特征交互,实现纹理一致性生成。
- Result: 在3DMatch和ScanNet数据集上的大量实验验证了方法的有效性。该生成式配准范式具有通用性,可无缝集成到各种配准方法中提升性能。
- Conclusion: 生成式点云配准通过桥接2D生成模型与3D匹配任务,实现了几何-颜色特征的融合,为点云配准提供了新的有效范式,能够显著提升现有方法的性能。
[63] DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping
Yanan Wang,Shengcai Liao,Panwen Hu,Xin Li,Fan Yang,Xiaodan Liang
Main category: cs.CV
TL;DR: 提出了DirectSwap框架,首个无需掩码的直接视频头部交换方法,通过合成配对数据集HeadSwapBench解决训练数据缺失问题,实现了更好的运动与表情一致性。
- Motivation: 现有视频头部交换方法因缺乏真实配对数据,通常使用同人跨帧对训练和掩码修复,导致边界伪影、难以恢复被掩码遮挡的面部姿态、表情和运动动态等关键信息。
- Method: 1) 使用视频编辑模型合成新头部创建HeadSwapBench配对数据集;2) 提出DirectSwap框架,将图像U-Net扩展为视频扩散模型,加入运动模块和条件输入;3) 引入运动与表情感知重建损失(MEAR),通过帧差幅度和面部关键点距离重新加权扩散损失。
- Result: DirectSwap在多样化的真实场景视频中实现了最先进的视觉质量、身份保真度以及运动和表情一致性,超越了现有方法。
- Conclusion: 通过合成配对数据集和直接交换框架,解决了视频头部交换中的关键挑战,实现了高质量、一致性的头部交换,将开源代码和数据集以促进未来研究。
[64] Label-free Motion-Conditioned Diffusion Model for Cardiac Ultrasound Synthesis
Zhe Li,Hadrien Reynaud,Johanna P Müller,Bernhard Kainz
Main category: cs.CV
TL;DR: 提出MCDM框架,通过自监督运动特征合成超声心动图视频,无需人工标注标签
- Motivation: 超声心动图对心脏功能评估至关重要,但标注数据稀缺(隐私限制和专家标注复杂)限制了深度学习应用
- Method: 提出MCDM(运动条件扩散模型),基于自监督运动特征的标签自由潜在扩散框架。设计MAFE(运动与外观特征提取器)从视频中解耦运动和外观表示,并通过重识别损失和光流损失增强特征学习
- Result: 在EchoNet-Dynamic数据集上,MCDM实现了竞争性的视频生成性能,产生时间一致且临床真实的序列,不依赖手动标签
- Conclusion: 证明了自监督条件在可扩展超声心动图合成中的潜力
[65] InfoMotion: A Graph-Based Approach to Video Dataset Distillation for Echocardiography
Zhe Li,Hadrien Reynaud,Alberto Gomez,Bernhard Kainz
Main category: cs.CV
TL;DR: 提出一种基于运动特征提取和图构建的超声心动图视频数据集蒸馏方法,仅用25个合成视频达到69.38%的测试准确率
- Motivation: 超声心动图视频数据规模快速增长,在存储、计算和模型训练效率方面面临挑战。数据集蒸馏能够合成紧凑且信息丰富的子集,保留原始数据集的关键临床特征。
- Method: 1. 运动特征提取捕捉时间动态;2. 类内图构建;3. 使用Infomap算法选择代表性样本;4. 合成紧凑的超声心动图视频数据集。
- Result: 在EchoNet-Dynamic数据集上评估,仅使用25个合成视频就达到了69.38%的测试准确率,证明了方法的有效性和可扩展性。
- Conclusion: 该方法能够有效蒸馏医学视频数据集,保留关键临床特征,为大规模医学视频数据的高效处理提供了有前景的解决方案。
[66] FunPhase: A Periodic Functional Autoencoder for Motion Generation via Phase Manifolds
Marco Pegoraro,Evan Atherton,Bruno Roy,Aliasghar Khani,Arianna Rampini
Main category: cs.CV
TL;DR: FunPhase:一种功能性周期性自编码器,通过学习运动相位流形,实现任意时间分辨率的平滑轨迹生成,统一了运动预测和生成任务。
- Motivation: 自然身体运动学习面临空间几何与时间动态强耦合的挑战。现有基于相位流形的方法缺乏可扩展性且局限于特定场景,需要更通用的解决方案。
- Method: 提出FunPhase功能性周期性自编码器,学习运动相位流形,用函数空间公式替代离散时间解码,支持任意时间分辨率采样,实现平滑轨迹生成。
- Result: 相比现有周期性自编码器基线,FunPhase显著降低重建误差,与最先进运动生成方法性能相当,并支持超分辨率、部分身体运动补全等下游任务。
- Conclusion: FunPhase通过学习可解释的相位流形,统一了运动预测和生成,具有跨骨架和数据集泛化能力,为运动分析提供了更灵活强大的框架。
[67] UniPart: Part-Level 3D Generation with Unified 3D Geom-Seg Latents
Xufan He,Yushuang Wu,Xiaoyang Guo,Chongjie Ye,Jiaqing Zhou,Tianlei Hu,Xiaoguang Han,Dong Du
Main category: cs.CV
TL;DR: UniPart:一种用于图像引导部件级3D生成的两阶段潜在扩散框架,通过统一的几何-分割潜在表示实现可控的部件级3D合成。
- Motivation: 现有部件级3D生成方法要么依赖隐式部件分割(粒度控制有限),要么需要在大规模标注数据集上训练的外部分割器。本文观察到部件感知能力在整体对象几何学习过程中自然出现,因此提出统一的几何-分割表示来解决这些问题。
- Method: 提出Geom-Seg VecSet统一几何-分割潜在表示,联合编码对象几何和部件级结构。基于此构建UniPart两阶段潜在扩散框架:第一阶段执行联合几何生成和潜在部件分割;第二阶段基于整体对象和部件特定潜在进行部件级扩散。采用双空间生成方案(全局和规范空间)增强几何保真度。
- Result: 大量实验表明,UniPart在分割可控性和部件级几何质量方面优于现有方法,实现了更精细的部件级3D生成控制。
- Conclusion: UniPart通过统一的几何-分割表示和两阶段扩散框架,成功实现了高质量、可控的部件级3D生成,为需要可分解结构化3D合成的应用提供了有效解决方案。
[68] Representation Calibration and Uncertainty Guidance for Class-Incremental Learning based on Vision Language Model
Jiantao Tan,Peixian Ma,Tong Yu,Wentao Zhang,Ruixuan Wang
Main category: cs.CV
TL;DR: 提出基于视觉语言模型的新类别增量学习框架,通过任务特定适配器学习新知识,跨任务表示校准缓解类别混淆,不确定性引导推理提升分类准确率
- Motivation: 当前基于视觉语言模型的类别增量学习方法在区分不同学习任务中的类别时仍存在问题,需要更好的方法来缓解跨任务的类别混淆
- Method: 1) 在预训练冻结的图像编码器上添加任务特定适配器学习新知识;2) 基于轻量级投影器混合的跨任务表示校准策略,在统一特征空间中更好分离所有已学类别;3) 基于预测不确定性的推理策略,更准确选择最合适的图像特征进行类别预测
- Result: 在多个数据集和各种设置下的广泛实验表明,该方法相比现有方法具有优越性能
- Conclusion: 提出的VLM-based类别增量学习框架通过跨任务表示校准和不确定性引导推理,有效缓解了类别混淆问题,提升了持续学习性能
[69] Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation
Nadeem Nazer,Hongkuan Zhou,Lavdim Halilaj,Ylli Sadikaj,Steffen Staab
Main category: cs.CV
TL;DR: DAPO提出了一种基于渐进调优的缺陷感知提示优化方法,用于零样本多类型和二元异常检测与分割,通过混合缺陷感知提示将异常相关图像特征与对应文本语义对齐。
- Motivation: 现有视觉语言模型(如CLIP)在异常检测中忽略了细粒度异常类型信息(如"孔洞"、"切割"、"划痕"),而这些信息能提供更具体的异常性质洞察。识别细粒度异常类型能:1)用结构化语义丰富"异常"表示,缩小粗粒度异常信号与细粒度缺陷类别之间的差距;2)使制造商能理解异常根本原因并快速实施更有针对性的纠正措施。手工设计每个缺陷类型的提示既耗时又易受人为偏见影响。
- Method: DAPO(Defect-aware Prompt Optimization)是一种基于渐进调优的缺陷感知提示优化方法。该方法通过学习混合缺陷感知提示,将异常相关图像特征与对应文本语义对齐。混合提示包含固定的文本锚点和可学习的令牌嵌入。
- Result: 在公开基准(MPDD、VisA、MVTec-AD、MAD、Real-IAD)和内部数据集上的实验表明,与基线模型相比,DAPO在分布偏移下图像级AUROC和平均精度指标平均提升3.7%,在零样本设置下定位新异常类型的性能平均提升6.5%。
- Conclusion: DAPO通过缺陷感知提示优化有效提升了零样本异常检测和分割性能,特别是在分布偏移和细粒度异常识别方面,为工业缺陷检测提供了更精确和可解释的解决方案。
[70] Cytoplasmic Strings Analysis in Human Embryo Time-Lapse Videos using Deep Learning Framework
Anabia Sohail,Mohamad Alansari,Ahmed Abughali,Asmaa Chehab,Abdelfatah Ahmed,Divya Velayudhan,Sajid Javed,Hasan Al Marzouqi,Ameena Saad Al-Sumaiti,Junaid Kashir,Naoufel Werghi
Main category: cs.CV
TL;DR: 首个用于人类IVF胚胎中细胞质丝检测的计算框架,通过深度学习实现帧级分类和区域定位,解决了手动检测的局限性。
- Motivation: 不孕症是全球重大健康问题,胚胎选择是IVF治疗的关键瓶颈。细胞质丝作为新兴生物标志物与胚胎质量相关,但目前依赖人工视觉检测,存在劳动密集、主观性强、检测困难等问题。
- Method: 1) 设计人机协作标注流程构建生物验证的CS数据集(13,568帧);2) 提出两阶段深度学习框架:帧级CS存在性分类和阳性病例区域定位;3) 引入NUCE损失函数处理严重不平衡和特征不确定性问题。
- Result: NUCE损失在五种transformer骨干网络上一致提升F1分数;RF-DETR定位方法在薄层、低对比度CS结构检测上达到SOTA性能;代码已公开。
- Conclusion: 该研究首次提出用于人类IVF胚胎CS分析的计算框架,通过深度学习自动检测细胞质丝,解决了人工检测的局限性,为胚胎质量评估提供了新的自动化工具。
[71] Privacy-Preserving Computer Vision for Industry: Three Case Studies in Human-Centric Manufacturing
Sander De Coninck,Emilio Gamba,Bart Van Doninck,Abdellatif Bey-Temsamani,Sam Leroux,Pieter Simoens
Main category: cs.CV
TL;DR: 论文提出了一个隐私保护计算机视觉框架,并在工业真实场景中进行了首次全面验证,展示了在保护工人隐私的同时保持操作效用的可行性。
- Motivation: 工业中采用AI计算机视觉技术时,需要在操作效用与工人隐私保护之间取得平衡。现有技术往往难以同时满足这两个需求,限制了AI视觉在工业环境中的广泛应用。
- Method: 采用学习型视觉变换技术,通过模糊化敏感或与任务无关的信息,同时保留对任务性能至关重要的特征。在三个代表性工业用例中进行验证:木工生产监控、人感知AGV导航和多摄像头人体工程学风险评估。
- Result: 任务特定的模糊化方法能够在降低隐私风险的同时实现有效监控。定量评估显示隐私与效用之间存在良好权衡,工业合作伙伴的定性反馈证实了框架的有效性和部署可行性。
- Conclusion: 该隐私保护框架已具备实际应用条件,为工业领域负责任、以人为本的AI部署提供了跨领域建议,证明了在保护隐私的同时保持操作效用的可行性。
[72] Temporal-Spatial Tubelet Embedding for Cloud-Robust MSI Reconstruction using MSI-SAR Fusion: A Multi-Head Self-Attention Video Vision Transformer Approach
Yiqun Wang,Lujun Li,Meiru Yue,Radu State
Main category: cs.CV
TL;DR: 本文提出了一种基于视频视觉变换器(ViViT)的时空融合嵌入框架,用于重建云覆盖多光谱图像,相比现有ViT方法在作物早期制图中显著提升了重建精度。
- Motivation: 多光谱图像中的云覆盖会破坏光谱信息,严重影响早期作物制图。现有的基于视觉变换器的时间序列重建方法(如SMTS-ViT)通常使用粗粒度的时间嵌入,会聚合整个序列导致信息丢失和重建精度下降。
- Method: 提出基于视频视觉变换器(ViViT)的时空融合嵌入框架,通过3D卷积提取非重叠的管状块(tubelets),约束时间跨度(t=2)以确保局部时间一致性,同时减少跨日信息退化。考虑了纯多光谱图像和多光谱-合成孔径雷达融合两种场景。
- Result: 在2020年Traill County数据上的综合实验显示显著性能提升:MTS-ViViT相比MTS-ViT基线MSE降低了2.23%,而SMTS-ViViT通过SAR集成相比SMTS-ViT基线提升了10.33%。
- Conclusion: 所提出的框架有效提升了光谱重建质量,为稳健的农业监测提供了更好的支持。
[73] Color encoding in Latent Space of Stable Diffusion Models
Guillem Arias,Ariadna Solà,Martí Armengod,Maria Vanrell
Main category: cs.CV
TL;DR: 研究发现Stable Diffusion潜在空间中颜色信息主要通过c_3和c_4通道以圆形对立轴编码,而强度和形状信息主要在c_1和c_2通道表示,揭示了生成模型的可解释结构。
- Motivation: 尽管扩散生成模型在视觉保真度方面取得了显著进展,但对其内部如何表示特定感知属性(如颜色和形状)的理解仍然有限。本研究旨在探索生成模型中颜色的编码方式。
- Method: 通过控制合成数据集、主成分分析(PCA)和相似性度量,系统分析Stable Diffusion的潜在表示,研究颜色信息在潜在空间中的编码方式。
- Result: 颜色信息主要沿着圆形对立轴编码,集中在潜在通道c_3和c_4中,而强度和形状信息主要在c_1和c_2通道表示。Stable Diffusion的潜在空间展现出与高效编码表示一致的可解释结构。
- Conclusion: 这些发现为模型理解、编辑应用以及设计更解耦的生成框架提供了基础,揭示了生成模型中感知属性的结构化表示方式。
[74] MODA: The First Challenging Benchmark for Multispectral Object Detection in Aerial Images
Shuaihao Han,Tingfa Xu,Peifu Liu,Jianan Li
Main category: cs.CV
TL;DR: 提出了首个大规模多光谱航空目标检测数据集MODA和框架OSSDet,通过光谱-空间调制和对象感知机制提升多光谱航空目标检测性能。
- Motivation: 航空目标检测面临小目标和复杂背景干扰的挑战,RGB图像信息有限。多光谱图像提供额外光谱信息但缺乏训练数据,限制了其潜力发挥。
- Method: 1) 构建首个大规模多光谱航空目标检测数据集MODA;2) 提出OSSDet框架:采用级联光谱-空间调制结构优化目标感知,利用光谱相似性聚合光谱相关特征增强对象内部关联,通过对象感知掩码抑制无关背景,在明确对象感知指导下使用跨光谱注意力精炼对象相关表示。
- Result: OSSDet在参数和效率相当的情况下优于现有方法,MODA数据集包含14,041张多光谱图像和330,191个标注,为多光谱航空目标检测提供了全面的数据基础。
- Conclusion: MODA数据集填补了多光谱航空目标检测领域的数据空白,OSSDet框架通过有效整合光谱、空间和对象感知信息,显著提升了多光谱航空目标检测性能。
[75] StateSpace-SSL: Linear-Time Self-supervised Learning for Plant Disease Detectio
Abdullah Al Mamun,Miaohua Zhang,David Ahmedt-Aristizabal,Zeeshan Hayder,Mohammad Awrangjeb
Main category: cs.CV
TL;DR: 提出StateSpace-SSL框架,使用Vision Mamba状态空间编码器进行线性时间自监督学习,用于植物病害检测,在三个公开数据集上优于CNN和Transformer基线。
- Motivation: 现有自监督学习方法(基于CNN或Vision Transformer)不适合农业图像:CNN难以捕捉沿叶片结构连续演变的病害模式,而Transformer在高分辨率补丁上引入二次注意力成本。
- Method: 使用Vision Mamba状态空间编码器通过叶片表面的定向扫描建模长距离病变连续性;采用原型驱动的师生目标,在多个视图间对齐表示,从标记数据中鼓励稳定且病变感知的特征。
- Result: 在三个公开植物病害数据集上的实验表明,StateSpace-SSL在各种评估指标上一致优于基于CNN和Transformer的自监督学习基线。定性分析确认其学习到紧凑、病变聚焦的特征图。
- Conclusion: 线性状态空间建模为自监督植物病害表示学习提供了优势,能够有效捕捉病变连续性并降低计算成本。
[76] Gradient-Guided Learning Network for Infrared Small Target Detection
Jinmiao Zhao,Chuang Yu,Zelin Shi,Yunpeng Liu,Yingdi Zhang
Main category: cs.CV
TL;DR: 提出GGL-Net梯度引导学习网络,通过引入梯度幅值图像和双分支特征提取,解决红外小目标检测中边缘定位不准和目标易被背景淹没的问题,在两个公开数据集上达到SOTA性能。
- Motivation: 红外小目标检测面临目标尺寸小、缺乏固有特征的问题,现有方法存在边缘定位不准确和目标易被背景淹没的挑战。
- Method: 提出GGL-Net:1)首次将梯度幅值图像引入深度学习红外小目标检测;2)设计双分支特征提取网络,包含梯度补充模块(GSM)编码原始梯度信息;3)构建双向引导融合模块(TGFM)实现多尺度特征有效融合。
- Result: 在公开的真实NUAA-SIRST数据集和合成NUDT-SIRST数据集上实现了最先进的结果。
- Conclusion: GGL-Net通过梯度引导学习有效解决了红外小目标检测中的边缘定位问题,代码已开源。
[77] Masked Registration and Autoencoding of CT Images for Predictive Tibia Reconstruction
Hongyou Zhou,Cederic Aßmann,Alaa Bejaoui,Heiko Tzschätzsch,Mark Heyland,Julian Zierke,Niklas Tuttle,Sebastian Hölzl,Timo Auer,David A. Back,Marc Toussaint
Main category: cs.CV
TL;DR: 提出结合神经配准与自编码器的方法,从骨折胫骨CT预测患者特异性健康骨骼重建目标
- Motivation: 复杂胫骨骨折的手术规划具有挑战性,因为医生难以想象理想的3D骨骼对齐结构,需要从骨折CT预测患者特异性重建目标
- Method: 1) 训练改进的空间变换网络将原始CT配准到标准化坐标系;2) 训练各种自编码器架构建模健康胫骨变异;3) 使STN和AE模型对掩码输入具有鲁棒性,应用于骨折CT并解码预测健康骨骼
- Result: 开发了3D适配的STN用于全局空间配准,比较分析了不同AE对骨骼CT建模的效果,扩展了两种模型处理掩码输入以预测生成健康骨骼结构
- Conclusion: 该方法能够从骨折胫骨CT预测患者特异性健康骨骼重建目标,为复杂骨折手术规划提供辅助工具
[78] A Dual-Domain Convolutional Network for Hyperspectral Single-Image Super-Resolution
Murat Karayaka,Usman Muhammad,Jorma Laaksonen,Md Ziaul Hoque,Tapio Seppänen
Main category: cs.CV
TL;DR: 提出轻量级双域超分辨率网络DDSRNet,结合空间域网络与离散小波变换,在低计算成本下实现高竞争力的高光谱图像超分辨率性能。
- Motivation: 高光谱图像超分辨率需要同时处理空间细节和频率信息,现有方法通常计算成本较高。需要设计轻量级网络,结合空间域和频率域学习,在保持高性能的同时降低计算复杂度。
- Method: 提出DDSRNet网络,包含三个主要组件:1) Spatial-Net浅层特征提取模块,进行残差学习和双线性插值;2) 基于DWT的低频增强分支,细化粗糙图像结构;3) 共享高频细化分支,使用单一CNN同时增强LH、HL、HH小波子带。通过DWT进行子带分解,逆DWT重建最终高分辨率输出。
- Result: 在三个高光谱图像数据集上,DDSRNet实现了高度竞争力的性能,同时保持低计算成本,证明了其在高光谱图像超分辨率任务中的有效性。
- Conclusion: 空间域和频率域学习的集成使DDSRNet能够在低计算成本下实现高性能,为高光谱图像超分辨率提供了一种有效的轻量级解决方案。
[79] Building Reasonable Inference for Vision-Language Models in Blind Image Quality Assessment
Yuan Li,Zitang Sun,Yen-ju Chen,Shin'ya Nishida
Main category: cs.CV
TL;DR: 提出两阶段调优方法,通过分离视觉感知与质量推理,解决VLM在BIQA中的矛盾评估和不稳定预测问题,提升推理稳定性和可靠性。
- Motivation: 现有基于VLM的BIQA方法存在两个问题:1)生成的文本描述与最终质量预测相矛盾;2)推理过程中预测分数不稳定变化。这些行为不符合人类推理方式,需要理解其根本原因并改进。
- Method: 提出两阶段调优方法:第一阶段让模型学习视觉特征,第二阶段仅基于这些视觉特征进行质量推理。通过这种显式分离视觉感知与质量推理的方式,鼓励更接近人类的推理过程。
- Result: 在SPAQ和KONIQ数据集上,将预测不稳定性从22.00%降低到12.39%;在LIVE、CSIQ、SPAQ、KONIQ数据集上,SRCC/PLCC平均提升0.3124/0.3507。分析表明方法同时改善了稳定性和推理过程的可靠性。
- Conclusion: 通过分离视觉感知与质量推理的两阶段调优方法,能够有效解决VLM在BIQA中的矛盾评估和不稳定预测问题,使模型推理更接近人类方式,提升整体性能。
[80] From Graphs to Gates: DNS-HyXNet, A Lightweight and Deployable Sequential Model for Real-Time DNS Tunnel Detection
Faraz Ali,Muhammad Afaq,Mahmood Niazi,Muzammil Behzad
Main category: cs.CV
TL;DR: DNS-HyXNet:基于xLSTM的轻量级DNS隧道检测框架,通过序列建模替代图构建,实现99.99%准确率和0.041ms延迟,适合实时部署
- Motivation: 现有基于图的DNS隧道检测方法(如GraphTunnel)虽然准确率高,但递归解析和图构建带来显著延迟和计算开销,限制了实时部署能力。需要一种轻量高效的检测方法。
- Method: 提出DNS-HyXNet框架:1)整合词元化域名嵌入和归一化数值DNS特征;2)使用两层xLSTM网络直接从数据包序列学习时间依赖,避免图重构;3)单阶段多分类架构;4)在公开基准数据集上训练,优化超参数降低内存消耗和推理时间。
- Result: 在DNS-Tunnel-Datasets所有实验划分中:准确率最高达99.99%,宏平均精确率、召回率和F1分数均超过99.96%,单样本检测延迟仅0.041ms,证明其可扩展性和实时就绪性。
- Conclusion: 序列建模结合xLSTM可有效替代计算昂贵的递归图生成,为实时DNS隧道检测提供可部署、节能的解决方案,适用于商用硬件。
[81] Investigate the Low-level Visual Perception in Vision-Language based Image Quality Assessment
Yuan Li,Zitang Sun,Yen-Ju Chen,Shin'ya Nishida
Main category: cs.CV
TL;DR: 研究发现多模态大语言模型在图像质量评估中难以可靠检测低级失真,通过改进视觉编码器的对齐能显著提升失真识别能力。
- Motivation: 尽管多模态大语言模型在图像质量评估中能生成描述性解释,但它们往往无法可靠检测模糊、噪声和压缩等基本低级失真,并且在重复推理中可能产生不一致的评估结果。这引发了一个关键问题:基于MLLM的IQA系统是否真正感知到了重要的视觉特征?
- Method: 引入低级失真感知任务,要求模型分类特定失真类型。进行组件分析,计算视觉特征与对应语义标记之间的语义距离,并在组件级微调前后进行比较。通过改进视觉编码器的对齐来增强失真识别能力。
- Result: 分析显示MLLM虽然在结构上能够表示这些失真,但倾向于过拟合训练模板,导致质量评分偏差。改进视觉编码器的对齐后,失真识别准确率从14.92%大幅提升至84.43%。
- Conclusion: 在视觉编码器中加入专门约束可以增强文本可解释的视觉表示,使基于MLLM的流程在视觉中心任务中产生更一致和可解释的推理。
[82] Seeing Soil from Space: Towards Robust and Scalable Remote Soil Nutrient Analysis
David Seu,Nicolas Longepe,Gabriel Cioltea,Erik Maidik,Calin Andrei
Main category: cs.CV
TL;DR: 提出一个结合遥感数据和环境协变量的可扩展土壤属性建模系统,用于估算农田土壤有机碳、氮、磷、钾和pH值,通过混合建模方法在欧洲农田数据集上验证,在SOC和N上取得最佳精度。
- Motivation: 环境变量对农业决策影响日益增大,但缺乏可访问且可扩展的土壤评估工具。当前需要开发能够大规模应用的土壤属性估算方法,以支持精准农业和碳市场等应用。
- Method: 采用混合建模方法,结合间接建模(通过代理变量和驱动因子)和直接光谱建模。使用辐射传输模型(RTMs)生成物理信息协变量,并利用基础模型提取复杂非线性嵌入特征。在覆盖欧洲不同土壤气候区的农田数据集上进行验证,采用严格的空间分块、分层分割和统计独立的训练-测试集验证框架。
- Result: 模型在SOC和N上取得最高精度:SOC的MAE为5.12 g/kg,CCC为0.77;N的MAE为0.44 g/kg,CCC为0.77。通过保形校准评估不确定性,在目标置信水平下达到90%的覆盖率。模型在未见区域和独立测试集上均保持良好性能。
- Conclusion: 该研究通过应用可扩展的数据驱动土壤分析框架,为农业数字化发展做出贡献。该系统可扩展到需要定量土壤评估的相关领域,如碳市场,为大规模土壤监测和管理提供实用工具。
[83] Hands-on Evaluation of Visual Transformers for Object Recognition and Detection
Dimitrios N. Vlachogiannis,Dimitrios A. Koutsomitropoulos
Main category: cs.CV
TL;DR: 比较Vision Transformers与传统CNN在计算机视觉任务中的表现,发现ViTs在全局理解任务中表现更优,尤其在医学图像分析中
- Motivation: 传统CNN主要关注局部模式,缺乏全局图像理解能力,而ViTs通过自注意力机制能够捕捉图像全局关系,需要系统比较两者在不同视觉任务中的表现
- Method: 比较纯Transformer、分层Transformer和混合Transformer(如Swin、CvT)与传统CNN模型;在ImageNet、COCO和ChestX-ray14数据集上进行图像分类、目标检测和医学图像分类测试;对医学图像应用数据增强技术
- Result: 混合和分层Transformer(特别是Swin和CvT)在准确性和计算资源之间取得良好平衡;在医学图像上应用数据增强后,Swin Transformer性能显著提升;ViTs在需要全局视觉理解的场景中通常优于传统CNN
- Conclusion: Vision Transformers在计算机视觉任务中具有竞争力,在许多情况下优于传统CNN,特别是在需要全局图像理解的医学成像等场景中
[84] Content-Adaptive Image Retouching Guided by Attribute-Based Text Representation
Hancheng Zhu,Xinyu Liu,Rui Yao,Kunyang Sun,Leida Li,Abdulmotaleb El Saddik
Main category: cs.CV
TL;DR: CA-ATP:基于属性文本表示的内容自适应图像润色方法,通过内容自适应曲线映射和属性文本预测实现个性化风格调整
- Motivation: 现有图像润色方法主要依赖统一的像素级颜色映射,忽略了图像内容引起的固有颜色变化,无法适应多样化的颜色分布和用户定义的风格偏好
- Method: 提出内容自适应曲线映射模块,利用基础曲线建立多种颜色映射关系并学习相应的权重图;提出属性文本预测模块,从多个图像属性生成文本表示,通过多模态模型与视觉特征融合
- Result: 在多个公共数据集上的实验表明,该方法达到了最先进的性能
- Conclusion: CA-ATP方法能够捕捉图像内容的颜色多样性,实现内容感知的颜色调整,并通过属性文本表示提供用户友好的润色指导
[85] UnReflectAnything: RGB-Only Highlight Removal by Rendering Synthetic Specular Supervision
Alberto Rota,Mert Kiray,Mert Asim Karaoglu,Patrick Ruhkamp,Elena De Momi,Nassir Navabm,Benjamin Busam
Main category: cs.CV
TL;DR: UnReflectAnything是一个仅使用RGB图像的框架,通过预测高光图和反射无关的漫反射重建来从单张图像中去除高光。
- Motivation: 镜面高光会扭曲外观、掩盖纹理,并阻碍自然图像和手术图像中的几何推理。现有方法缺乏成对的监督数据,难以处理非朗伯表面和非均匀光照下的严重高光问题。
- Method: 使用冻结的视觉Transformer编码器提取多尺度特征,轻量级头部定位镜面区域,令牌级修复模块恢复损坏的特征块。通过虚拟高光合成管道生成物理上合理的镜面反射,使用单目几何、菲涅尔感知着色和随机光照,可在任意RGB图像上进行训练。
- Result: 在多个基准测试中取得了与最先进方法竞争的性能,能够泛化到自然和手术领域,有效处理非朗伯表面和非均匀光照下的严重高光。
- Conclusion: UnReflectAnything是一个有效的RGB-only高光去除框架,通过创新的虚拟高光合成和令牌级修复,在缺乏成对监督数据的情况下实现了跨领域的泛化能力。
[86] CS3D: An Efficient Facial Expression Recognition via Event Vision
Zhe Wang,Qijin Song,Yucen Peng,Weibang Bai
Main category: cs.CV
TL;DR: CS3D框架通过分解3D卷积降低计算复杂度和能耗,结合软脉冲神经元和时空注意力机制,在事件相机上进行高效准确的面部表情识别
- Motivation: 事件相机在面部表情识别中具有高时间分辨率、低延迟等优势,但现有深度学习模型能耗高,难以部署在边缘设备上,需要开发更高效的算法
- Method: 提出CS3D框架:1)分解3D卷积降低计算复杂度;2)使用软脉冲神经元增强信息保留能力;3)引入时空注意力机制提高检测精度
- Result: 在多个数据集上比RNN、Transformer和C3D等架构获得更高准确率,能耗仅为原始C3D的21.97%
- Conclusion: CS3D框架在保持高精度的同时显著降低能耗,适合在边缘设备上部署事件相机驱动的面部表情识别系统
[87] Rethinking Chain-of-Thought Reasoning for Videos
Yiwu Zhong,Zi-Yuan Hu,Yin Li,Liwei Wang
Main category: cs.CV
TL;DR: 论文提出了一种高效的视频推理框架,通过压缩视觉token和生成简洁推理轨迹,在保持竞争力的同时大幅提升推理效率。
- Motivation: 现有基于思维链的视频推理模型通常依赖冗长的推理链和大量视觉token,作者通过基准研究发现简洁推理配合少量视觉token可能足够有效,希望验证这一假设。
- Method: 设计并验证了一个高效的后训练和推理框架,让视频MLLM能够在压缩的视觉token上操作,并在回答前生成简短的推理轨迹,无需人工CoT标注或监督微调。
- Result: 模型实现了显著提升的推理效率,在多个基准测试中保持竞争力,表明简洁推理对通用视频推理既有效又高效。
- Conclusion: 人类式的冗长思维链推理对于通用视频推理可能不是必需的,简洁推理可以同时达到有效性和高效性。
[88] FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation
Hubert Kompanowski,Varun Jampani,Aaryaman Vasishta,Binh-Son Hua
Main category: cs.CV
TL;DR: 提出一种轻量级适配技术,用于多视图扩散模型的外观迁移,通过结合输入图像的对象身份和参考图像的外观线索,生成具有多视图一致性的输出,同时保持几何结构和视图连贯性。
- Motivation: 现有多视图扩散模型虽然能生成空间一致的内容,但在材质、纹理或风格等外观操控方面有限,相比网格或辐射场等显式表示缺乏外观编辑能力。
- Method: 使用三个扩散去噪过程分别处理原始对象、参考图像和目标图像,通过反向采样聚合对象和参考图像的小部分层间自注意力特征来影响目标生成,只需少量训练样本即可为预训练多视图模型引入外观感知能力。
- Result: 该方法提供了一种简单有效的多视图生成方法,能实现多样化的外观,支持在生成时明确指定外观参数,同时保持底层对象几何和视图一致性。
- Conclusion: 该方法推动了隐式生成式3D表示在实际应用中的采用,为多视图扩散模型提供了强大的外观操控能力。
[89] Beyond Sequences: A Benchmark for Atomic Hand-Object Interaction Using a Static RNN Encoder
Yousef Azizi Movahed,Fatemeh Ziaeetabar
Main category: cs.CV
TL;DR: 该研究通过结构化特征工程和创新的RNN架构调整,在细粒度手-物交互状态分类任务上取得了97.60%的准确率,成功解决了最具挑战性的"抓取"过渡类别。
- Motivation: 可靠预测手-物交互中的人类意图是计算机视觉的开放挑战。本研究专注于一个基础子问题:对原子交互状态("接近"、"抓取"、"持有")进行细粒度分类。
- Method: 引入结构化数据工程流程,将MANIAC数据集的原始视频转换为27,476个统计-运动学特征向量。比较静态分类器(MLP)与时间模型(RNN),意外发现将双向RNN序列长度设为1时,网络转变为高容量静态特征编码器,显著提升性能。
- Result: 最终准确率达到97.60%,最具挑战性的"抓取"过渡类别获得了0.90的平衡F1分数,为低层次手-物交互识别设立了新基准。
- Conclusion: 研究表明,使用结构化可解释特征和轻量级架构,结合创新的RNN架构调整,能够有效解决细粒度手-物交互状态分类问题,为意图预测提供了新思路。
[90] Benchmarking SAM2-based Trackers on FMOX
Senem Aktas,Charles Markham,John McDonald,Rozenn Dahyot
Main category: cs.CV
TL;DR: 对基于SAM2的物体跟踪器在快速移动物体数据集上的基准测试,发现DAM4SAM和SAMURAI在挑战性序列上表现最佳
- Motivation: 过去一年提出了多个基于Segment Anything Model 2 (SAM2)的物体跟踪管道,这些方法通过用户在初始化帧提供的单个示例模板来跟踪和分割物体。本研究旨在通过在专门设计用于挑战跟踪方法的快速移动物体(FMO)数据集上对这些高性能跟踪器进行基准测试,更好地理解当前最先进跟踪器的局限性
- Method: 对四种高性能跟踪器(SAM2, EfficientTAM, DAM4SAM和SAMURAI)在快速移动物体数据集上进行基准测试,这些数据集专门设计用于挑战跟踪方法
- Result: 总体而言,DAM4SAM和SAMURAI跟踪器在更具挑战性的序列上表现良好
- Conclusion: 通过基准测试揭示了当前基于SAM2的跟踪器在快速移动物体场景下的性能差异,为理解跟踪器局限性提供了详细见解,DAM4SAM和SAMURAI在挑战性场景中表现更优
[91] Kaapana: A Comprehensive Open-Source Platform for Integrating AI in Medical Imaging Research Environments
Ünal Akünal,Markus Bujotzek,Stefan Denner,Benjamin Hamm,Klaus Kades,Philipp Schader,Jonas Scherer,Marco Nolden,Peter Neher,Ralf Floca,Klaus Maier-Hein
Main category: cs.CV
TL;DR: Kaapana是一个开源医学影像研究平台,通过模块化框架统一数据管理、工作流编排和结果检查,支持多中心协作研究,同时保护敏感数据隐私。
- Motivation: 医学影像AI研究面临数据获取困难、软件基础设施碎片化、多中心研究挑战等问题,导致现有工具链难以复制、扩展和协作。
- Method: 开发Kaapana开源平台,采用模块化可扩展框架,统一数据摄取、队列管理、处理工作流和结果检查,通过"算法到数据"方法保护数据隐私。
- Result: Kaapana平台降低了技术开销,提高了可重复性,支持从本地原型开发到全国性研究网络的各种使用场景。
- Conclusion: Kaapana为医学影像研究提供了一个全面的开源解决方案,能够促进大规模、协作式、多中心研究,同时确保数据隐私和安全。
[92] VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification
Wanyue Zhang,Lin Geng Foo,Thabo Beeler,Rishabh Dabral,Christian Theobalt
Main category: cs.CV
TL;DR: VHOI是一个两阶段框架,通过将稀疏轨迹稠密化为HOI掩码序列,然后微调视频扩散模型,实现可控的人类-物体交互视频生成。
- Motivation: 现有可控视频生成方法面临权衡:稀疏控制(如关键点轨迹)易于指定但缺乏实例感知,而密集信号(如光流、深度或3D网格)信息丰富但获取成本高。需要一种既能保持可控性又能生成逼真人类-物体交互的方法。
- Method: 提出两阶段框架:1) 将稀疏轨迹稠密化为HOI掩码序列;2) 基于这些稠密掩码微调视频扩散模型。引入新颖的HOI感知运动表示,使用颜色编码区分人类和物体运动以及身体部位特定动态。
- Result: 实验展示了在可控HOI视频生成方面的最先进结果。VHOI不仅限于交互场景,还能以端到端方式生成完整的人类导航直至物体交互。
- Conclusion: VHOI通过将稀疏控制转化为稠密HOI掩码,结合HOI感知运动表示,成功实现了高质量、可控的人类-物体交互视频生成,在稀疏控制和密集信号之间取得了良好平衡。
[93] IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting
Tao Zhang,Yuyang Hong,Yang Xia,Kun Ding,Zeyu Zhang,Ying Wang,Shiming Xiang,Chunhong Pan
Main category: cs.CV
TL;DR: IF-Bench是首个评估多模态大语言模型理解红外图像能力的高质量基准,包含499张红外图像和680个视觉问答对,覆盖10个图像理解维度。研究评估了40多个MLLM,并提出无需训练的生成视觉提示方法GenViP来提升性能。
- Motivation: 尽管多模态大语言模型在各种基准测试中取得了显著进展,但它们在理解红外图像方面的能力尚未被探索。红外图像在军事、安防、医疗等领域有重要应用,但现有模型主要针对可见光图像训练,存在领域分布差异问题。
- Method: 1) 构建IF-Bench基准:包含499张来自23个红外数据集的图像和680个精心设计的视觉问答对,覆盖10个图像理解维度。2) 系统评估40多个开源和闭源MLLM,采用循环评估、双语评估和混合判断策略。3) 提出GenViP方法:利用先进的图像编辑模型将红外图像转换为语义和空间对齐的RGB对应图像,无需训练即可缓解领域分布偏移。
- Result: 1) 揭示了模型规模、架构和推理范式对红外图像理解的影响。2) GenViP方法在广泛的MLLM上都能带来显著的性能提升。3) 发现现有MLLM在红外图像理解方面仍有较大改进空间。
- Conclusion: IF-Bench填补了红外图像理解评估的空白,为研究红外图像理解提供了重要基准。提出的GenViP方法能有效提升MLLM的红外图像理解能力,无需额外训练。该工作为红外图像理解领域的发展提供了有价值的见解和工具。
[94] OxEnsemble: Fair Ensembles for Low-Data Classification
Jonathan Rystrøm,Zihao Fu,Chris Russell
Main category: cs.CV
TL;DR: 提出OxEnsemble方法,用于在数据稀缺且不平衡的医疗影像分类中高效训练集成模型并保证公平性,相比现有方法在公平性-准确性权衡上表现更好。
- Motivation: 解决医疗影像等数据稀缺领域中的公平分类问题,这些领域数据通常在不同人口群体间不平衡,且假阴性可能导致致命后果。
- Method: 提出OxEnsemble方法,通过集成多个满足公平性约束的模型成员,并聚合它们的预测。该方法数据高效(谨慎重用保留数据来可靠实施公平性)且计算高效(仅需微调或评估现有模型的计算量)。
- Result: 实验验证表明,该方法在多个具有挑战性的医疗影像分类数据集上,相比现有方法产生更一致的结果和更强的公平性-准确性权衡,并有理论保证支持。
- Conclusion: OxEnsemble为低数据机制下的公平分类提供了一种高效实用的解决方案,特别适用于医疗影像等关键领域。
[95] An Automated Tip-and-Cue Framework for Optimized Satellite Tasking and Visual Intelligence
Gil Weissman,Amir Ivry,Israel Cohen
Main category: cs.CV
TL;DR: 提出一个全自动的Tip-and-Cue框架,用于卫星成像任务调度,通过外部数据源生成提示,优化多卫星调度,利用AI模型处理图像,并在海事船舶跟踪场景中验证效果。
- Motivation: 随着卫星星座的扩展、任务延迟降低和传感器能力多样化,自动化地球观测机会增加,需要高效的任务调度框架来处理时空目标识别和优先级排序。
- Method: 开发全自动Tip-and-Cue框架:从外部数据源生成提示(时空目标识别),响应生成线索(成像任务),考虑传感器约束和时间要求;使用连续效用函数优化多卫星调度;采用基于AI的模型(目标检测器和视觉语言模型)处理图像;生成结构化视觉报告。
- Result: 在船舶跟踪场景中验证框架有效性,利用AIS数据进行轨迹预测、目标观测和生成可操作输出;系统可扩展至智慧城市监测和灾害响应等应用。
- Conclusion: 该自动化框架成功整合了卫星任务调度、AI分析和报告生成,为地球观测提供了高效解决方案,并展示了在多个应用领域的扩展潜力。
[96] Unconsciously Forget: Mitigating Memorization; Without Knowing What is being Memorized
Er Jin,Yang Zhang,Yongli Mou,Yanfei Dong,Stefan Decker,Kenji Kawaguchi,Johannes Stegmaier
Main category: cs.CV
TL;DR: UniForget提出通过模型剪枝来抑制生成版权内容的能力,而不需要针对特定概念,同时保持模型的通用生成能力
- Motivation: 生成模型容易记忆训练数据,导致版权侵权、肖像权侵犯和商标侵权等法律问题。现有方法要么计算开销大,要么只能针对特定概念,可扩展性有限。
- Method: 通过分析发现模型中特定部分负责生成版权内容,采用模型剪枝技术来抑制生成版权内容的概率,而不针对特定概念,同时保持通用生成能力。
- Result: 该方法能有效抑制生成版权内容,同时保持模型的通用生成能力,并且与现有的遗忘方法正交且互补,有潜力改进当前的遗忘和去记忆技术。
- Conclusion: UniForget从新视角理解记忆问题的根源,通过模型剪枝提供了一种可扩展的解决方案,既能解决版权问题,又能保持生成模型的实用性。
[97] LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery
Seon-Hoon Kim,Hyeji Sim,Youeyun Jung,Ok-Chul Jung,Yerin Kim
Main category: cs.CV
TL;DR: LiM-YOLO是一个专门用于卫星图像船舶检测的检测器,通过金字塔层级偏移策略和GN-CBLinear模块解决尺度差异和形态各向异性问题,在多个数据集上表现出优越性能。
- Motivation: 通用目标检测器在卫星图像船舶检测中面临挑战:船舶目标存在极端尺度差异和形态各向异性,标准架构的stride-32层无法有效检测狭窄船只,导致空间特征稀释。
- Method: 基于船舶尺度统计分析,提出金字塔层级偏移策略,将检测头重新配置为P2-P4层,满足小目标奈奎斯特采样准则;引入GN-CBLinear模块增强高分辨率输入下的训练稳定性。
- Result: 在SODA-A、DOTA-v1.5、FAIR1M-v2.0和ShipRSImageNet-V1数据集上验证,LiM-YOLO相比最先进模型展现出优越的检测精度和效率。
- Conclusion: LiM-YOLO通过领域特定的架构设计有效解决了卫星图像船舶检测中的尺度差异和形态各向异性问题,为遥感目标检测提供了高效解决方案。
[98] Stylized Meta-Album: Group-bias injection with style transfer to study robustness against distribution shifts
Romain Mussard,Aurélien Gauffre,Ihsan Ullah,Thanh Gia Hieu Khuong,Massih-Reza Amini,Isabelle Guyon,Lisheng Sun-Hosoya
Main category: cs.CV
TL;DR: SMA是一个新的图像分类元数据集,包含24个数据集(12个内容数据集和12个风格化数据集),用于研究OOD泛化和相关主题,通过风格迁移技术创建,提供4800个组,支持灵活配置以反映各种基准场景。
- Motivation: 现实世界中数据收集往往难以捕获足够的组多样性,而现有基准在评估模型公平性、鲁棒性和适应性时存在局限性。需要创建能够灵活控制组和类配置的数据集,以更好地反映真实世界的多样性场景。
- Method: 使用风格迁移技术从12个主题分类数据集创建风格化数据集,构建包含4800个组的元数据集。通过灵活控制风格、主题类别和域来配置数据集,支持多样化的基准场景配置。
- Result: 实现了两个基准:1)OOD泛化和组公平性基准,发现增加组多样性显著影响公平性评估,改变了算法的相对排名;2)无监督域适应基准,相比现有工作降低了73%和28%的误差条。提出了Top-M最差组准确率作为新的超参数调优指标。
- Conclusion: SMA通过提供大规模可配置的组结构,能够显著影响传统基准的结果,为评估模型在公平性、鲁棒性和适应性方面的性能提供了更全面的测试平台,开辟了新的方法论方向。
[99] FastPose-ViT: A Vision Transformer for Real-Time Spacecraft Pose Estimation
Pierre Ancey,Andrew Price,Saqib Javed,Mathieu Salzmann
Main category: cs.CV
TL;DR: FastPose-ViT:基于Vision Transformer的航天器6DoF姿态估计方法,无需迭代PnP算法,可直接回归姿态,适用于资源受限的边缘设备实时部署。
- Motivation: 现有航天器6DoF姿态估计方法多依赖迭代PnP算法,计算量大,不适合资源受限的边缘设备实时部署。需要一种更高效、适合实时应用的解决方案。
- Method: 提出FastPose-ViT架构,基于Vision Transformer直接回归6DoF姿态。处理裁剪后的目标边界框图像,引入新颖的数学形式将局部预测映射回全图像尺度。基于投影几何和"表观旋转"概念,模型预测表观旋转矩阵后校正得到真实方向。
- Result: 在SPEED数据集上,方法优于其他非PnP策略,性能与最先进的PnP方法相当。量化后在NVIDIA Jetson Orin Nano上部署,端到端延迟约75ms/帧,非阻塞吞吐量达33FPS。
- Conclusion: FastPose-ViT提供了一种高效、适合边缘设备部署的航天器姿态估计解决方案,在保持精度的同时显著提升计算效率,适用于实时空间任务。
[100] Modality-Specific Enhancement and Complementary Fusion for Semi-Supervised Multi-Modal Brain Tumor Segmentation
Tien-Dat Chung,Ba-Thinh Lam,Thanh-Huy Nguyen,Thien Nguyen,Nguyen Lan Vi Vu,Hoang-Loc Cao,Phat Kim Huynh,Min Xu
Main category: cs.CV
TL;DR: 提出一种新颖的半监督多模态医学图像分割框架,通过模态特定增强模块和互补信息融合模块,有效利用多模态互补信息,在有限标注数据下显著提升分割性能。
- Motivation: 现有半监督学习方法在多模态医学图像分割中难以有效利用模态间的互补信息,主要由于MRI序列间的语义差异和不对齐问题,导致模型无法充分利用多模态数据的优势。
- Method: 提出包含两个核心模块的框架:1) 模态特定增强模块(MEM),通过通道注意力机制强化每个模态特有的语义线索;2) 可学习的互补信息融合模块(CIF),自适应地在模态间交换互补知识。采用结合监督分割损失和无标签数据跨模态一致性正则化的混合目标函数进行优化。
- Result: 在BraTS 2019(HGG子集)数据集上的实验表明,在1%、5%和10%标注数据设置下,该方法均优于现有的半监督和多模态基线方法,在Dice和Sensitivity指标上取得显著提升。消融研究进一步证实了MEM和CIF模块在弥合跨模态差异和提升稀缺监督下分割鲁棒性方面的互补作用。
- Conclusion: 该研究提出的半监督多模态框架通过显式增强模态特定表示和自适应跨模态信息融合,有效解决了多模态医学图像分割中的模态差异问题,在有限标注数据下实现了更鲁棒和准确的分割性能。
[101] CHEM: Estimating and Understanding Hallucinations in Deep Learning for Image Processing
Jianfei Li,Ines Rosellon-Inclan,Gitta Kutyniok,Jean-Luc Starck
Main category: cs.CV
TL;DR: 提出CHEM方法量化图像重建模型中的幻觉伪影,利用小波和剪切波表示提取特征,使用保形分位数回归评估幻觉水平,并分析U型网络易产生幻觉的原因。
- Motivation: U-Net等U型架构在图像去卷积任务中取得显著成功,但这些方法可能产生不现实的伪影或幻觉,在安全关键场景中会干扰分析。需要量化理解幻觉伪影以确保可信的计算机视觉模型。
- Method: 提出Conformal Hallucination Estimation Metric (CHEM)方法:1) 利用小波和剪切波表示高效提取图像特征的幻觉伪影;2) 使用保形分位数回归以分布无关的方式评估幻觉水平;3) 从近似理论角度探索U型网络易产生幻觉的原因。
- Result: 在CANDELS天文图像数据集上测试了U-Net、SwinUNet和Learnlets等模型,为基于深度学习的图像处理中的幻觉问题提供了新的多角度视角。
- Conclusion: CHEM方法能够有效识别和量化任何图像重建模型中的幻觉伪影,为理解深度学习模型中的幻觉现象提供了新工具和理论分析框架。
[102] DynaIP: Dynamic Image Prompt Adapter for Scalable Zero-shot Personalized Text-to-Image Generation
Zhizhong Wang,Tianyi Chu,Zeyi Huang,Nanyang Wang,Kehan Li
Main category: cs.CV
TL;DR: DynaIP是一种创新的动态图像提示适配器,通过动态解耦策略和分层专家混合特征融合,解决了PT2I生成中的概念保持与提示跟随平衡、细粒度细节保留和多主体扩展性三大挑战。
- Motivation: 当前个性化文本到图像生成方法面临三个核心问题:1) 概念保持与提示跟随之间的平衡难以把握;2) 难以保留参考图像中的细粒度概念细节;3) 扩展到多主体个性化的能力有限。这些问题限制了零样本PT2I生成的质量和实用性。
- Method: 提出DynaIP动态图像提示适配器,包含两个关键技术:1) 动态解耦策略,基于发现MM-DiT在注入参考图像特征时表现出解耦学习行为,通过移除概念无关信息干扰来增强CP-PF平衡和多主体扩展性;2) 分层专家混合特征融合模块,充分利用CLIP编码器的分层特征来提升细粒度概念保真度,并提供视觉粒度控制。
- Result: 在单主体和多主体PT2I任务上的大量实验表明,DynaIP在概念保持、提示跟随平衡、细粒度细节保留和多主体组合方面均优于现有方法,标志着PT2I生成领域的显著进步。
- Conclusion: DynaIP通过创新的动态解耦策略和分层特征融合机制,有效解决了当前PT2I生成中的关键挑战,为个性化图像生成提供了更高质量、更灵活可控的解决方案,特别是在多主体组合场景中表现出色。
[103] Composing Concepts from Images and Videos via Concept-prompt Binding
Xianghao Kong,Zeyu Zhang,Yuwei Guo,Zhuoran Zhao,Songchun Zhang,Anyi Rao
Main category: cs.CV
TL;DR: Bind & Compose:一种一次性视觉概念组合方法,通过将视觉概念绑定到提示词标记,实现从图像和视频中灵活提取和组合复杂概念
- Motivation: 当前视觉概念组合方法在从视觉输入中准确提取复杂概念以及灵活组合图像和视频概念方面仍存在不足,需要更精确和灵活的概念分解与组合方法
- Method: 采用分层绑定器结构在Diffusion Transformers中进行交叉注意力调节,将视觉概念编码到相应提示词标记;设计多样化-吸收机制提高概念-标记绑定准确性;提出时间解耦策略增强图像和视频概念兼容性
- Result: 评估表明该方法在概念一致性、提示词保真度和运动质量方面优于现有方法,为视觉创意开辟了新可能性
- Conclusion: Bind & Compose通过创新的绑定和组合机制,成功解决了复杂视觉概念提取和跨模态概念组合的挑战,实现了高质量的视觉概念创作
[104] From Detection to Anticipation: Online Understanding of Struggles across Various Tasks and Activities
Shijia Feng,Michael Wray,Walterio Mayol-Cuevas
Main category: cs.CV
TL;DR: 该研究将挣扎识别重新定义为在线检测和预测任务,开发了实时识别用户困难的模型,用于智能辅助系统。
- Motivation: 现有研究主要关注离线挣扎分类和定位,而实时辅助应用需要能够在线检测和预测用户困难的模型。
- Method: 将挣扎定位重新定义为在线检测任务,并扩展到预测未来挣扎;采用现成模型作为基线,评估跨任务和活动的泛化能力,分析技能演变的影响。
- Result: 在线挣扎检测达到70-80%的每帧mAP,提前2秒的挣扎预测性能相当但略有下降;跨活动泛化仍优于随机基线4-20%;特征模型运行速度达143 FPS,完整流水线约20 FPS,满足实时需求。
- Conclusion: 该研究证明了在线挣扎检测和预测的可行性,模型在实时性能、泛化能力和技能演变适应性方面表现良好,适用于智能辅助系统的实时应用。
[105] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving
Hao Lu,Ziyang Liu,Guangfeng Jiang,Yuanfei Luo,Sheng Chen,Yangang Zhang,Ying-Cong Chen
Main category: cs.CV
TL;DR: 提出UniUGP框架,通过理解-生成-规划的统一架构,结合视觉语言模型和视频生成模型,提升自动驾驶系统在长尾场景下的推理和规划能力。
- Motivation: 现有自动驾驶系统在长尾场景中表现不佳,主要因为世界知识有限和视觉动态建模能力弱。现有的VLA方法无法利用未标记视频进行视觉因果学习,而世界模型方法又缺乏大语言模型的推理能力。
- Method: 构建多个专门数据集提供复杂场景的推理和规划标注;提出UniUGP统一框架,通过混合专家架构协同场景推理、未来视频生成和轨迹规划;采用四阶段训练策略,在多个现有AD数据集和专门数据集上渐进构建能力。
- Result: 实验表明在感知、推理和决策方面达到最先进性能,在具有挑战性的长尾场景中表现出优异的泛化能力。
- Conclusion: UniUGP框架通过整合视觉动态和语义推理,显著提升了自动驾驶系统在复杂长尾场景中的规划性能,实现了可解释的推理链、物理一致的轨迹和连贯的未来视频生成。
[106] MedForget: Hierarchy-Aware Multimodal Unlearning Testbed for Medical AI
Fengli Wu,Vaidehi Patil,Jaehong Yoon,Yue Zhang,Mohit Bansal
Main category: cs.CV
TL;DR: 提出了MedForget测试平台,用于评估多模态大语言模型在医疗场景下的选择性遗忘能力,通过分层结构(机构→患者→研究→部分)评估遗忘效果,发现现有方法难以实现完全的分层感知遗忘而不影响诊断性能。
- Motivation: 预训练的多模态大语言模型在医疗AI系统中部署时面临隐私和合规挑战,特别是HIPAA和GDPR规定的"被遗忘权"。选择性遗忘技术作为解决方案,在复杂医疗环境中的有效性尚未得到充分探索。
- Method: 引入MedForget测试平台,将医院数据建模为嵌套层次结构(机构→患者→研究→部分),包含3840个多模态实例(图像、问题、答案)。使用四种最先进的遗忘方法在三个任务(生成、分类、完形填空)上进行实验,并设计了重建攻击来测试遗忘是否真正删除了分层路径。
- Result: 现有遗忘方法难以实现完全的分层感知遗忘而不降低诊断性能。粗粒度遗忘的模型对重建攻击表现出较强抵抗力,而细粒度遗忘的模型则容易受到此类攻击。
- Conclusion: MedForget提供了一个符合HIPAA标准的实用测试平台,用于构建合规的医疗AI系统。研究揭示了现有遗忘方法在医疗场景中的局限性,特别是在分层数据结构的处理方面。
[107] Diffusion Posterior Sampler for Hyperspectral Unmixing with Spectral Variability Modeling
Yimin Zhu,Lincoln Linlin Xu
Main category: cs.CV
TL;DR: 提出DPS4Un方法,使用扩散后验采样器进行半盲解混,通过超像素建立端元束训练扩散模型,结合数据一致性约束,在三个真实数据集上优于现有方法
- Motivation: 线性光谱混合模型(LMM)需要解决光谱先验分布建模和光谱变异性的挑战。贝叶斯框架能结合观测数据和端元先验分布,但现有方法使用光谱库作为先验可能引入偏差
- Method: 提出DPS4Un方法:1) 将预训练的条件光谱扩散模型作为后验采样器;2) 在超像素内建立图像端元束训练端元先验学习器;3) 提出基于超像素的数据保真项;4) 端元初始化为高斯噪声,迭代更新丰度和端元
- Result: 在三个真实世界基准数据集上的实验结果表明,DPS4Un优于最先进的高光谱解混方法
- Conclusion: DPS4Un通过扩散后验采样器有效解决了光谱先验建模和光谱变异性问题,利用超像素建立端元束避免了光谱库偏差,在真实数据集上表现出优越性能
[108] Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs
Pius Horn,Janis Keuper
Main category: cs.CV
TL;DR: 提出基于合成PDF和LLM评估的数学公式解析基准框架,评估20+个PDF解析器在2000+公式上的性能
- Motivation: 现有PDF解析基准要么完全排除数学公式,要么缺乏语义感知的评估指标,而正确解析PDF中的数学公式对于训练大语言模型和构建科学知识库至关重要
- Method: 1) 使用合成生成的PDF,包含精确的LaTeX标注;2) 开创性地使用LLM作为语义公式评估的评判者;3) 采用两阶段匹配管道处理解析器输出不一致性;4) 通过250个公式对的人类验证(30名评估者750个评分)验证LLM评估效果
- Result: LLM评估与人类判断的相关性显著更高(Pearson r=0.78),远优于CDM(r=0.34)和文本相似度(r~0)。评估20+个当代PDF解析器(包括专用OCR模型、视觉语言模型和基于规则的方法)在100个合成文档的2000+公式上,发现显著性能差异
- Conclusion: 为下游应用选择解析器提供了关键见解,并建立了可扩展、可复现的PDF公式提取质量评估方法
[109] VisualActBench: Can VLMs See and Act like a Human?
Daoan Zhang,Pai Liu,Xiaofei Zhou,Yuan Ge,Guangchen Lan,Jing Bi,Christopher Brinton,Ehsan Hoque,Jiebo Luo
Main category: cs.CV
TL;DR: 提出视觉行动推理新任务和VisualActBench基准,评估29个VLM在无文本提示下基于视觉输入进行主动推理和行动的能力,发现现有模型与人类推理存在显著差距
- Motivation: 当前视觉语言模型在感知和描述视觉环境方面取得显著进展,但在仅基于视觉输入进行主动推理和行动的能力尚未充分探索,缺乏评估模型主动推理和人类对齐能力的基准
- Method: 提出视觉行动推理新任务,创建VisualActBench大规模基准,包含1,074个视频和3,733个人工标注的行动,涵盖4个真实场景,每个行动标注行动优先级和主动-反应类型
- Result: 评估29个VLM发现,GPT4o等前沿模型表现相对较好,但与人类推理水平仍有显著差距,特别是在生成主动、高优先级行动方面,模型在复杂上下文理解、结果预测和人类决策对齐方面存在局限
- Conclusion: VisualActBench为评估和改进主动、以视觉为中心的AI代理的现实世界准备度提供了全面基础,揭示了当前VLM在主动推理和人类对齐方面的不足
[110] NordFKB: a fine-grained benchmark dataset for geospatial AI in Norway
Sander Riisøen Jyhne,Aditya Gupta,Ben Worsley,Marianne Andersen,Ivar Oveland,Alexander Salveson Nossum
Main category: cs.CV
TL;DR: NordFKB是一个用于挪威地理空间AI的细粒度基准数据集,包含高分辨率正射影像和36个语义类别的详细标注,支持语义分割和目标检测任务。
- Motivation: 为挪威的地理空间AI研究提供高质量、权威的基准数据集,推动测绘、土地管理和空间规划领域的AI方法发展。
- Method: 从挪威国家权威地理数据库FKB中提取数据,包含高分辨率正射影像和36个语义类别的标注(二进制分割掩码和COCO风格边界框)。数据来自七个地理多样化区域,确保气候、地形和城市化的多样性。采用专家人工审核和质量控制确保标注准确性。
- Result: 发布了NordFKB数据集,包含训练/验证分割,以及标准化的评估协议和工具库,支持可重复和可比较的研究。
- Conclusion: NordFKB为地理空间AI提供了坚实的基础,为未来在覆盖范围、时间范围和数据模态方面的扩展铺平了道路。
[111] Splatent: Splatting Diffusion Latents for Novel View Synthesis
Or Hirschorn,Omer Sela,Inbar Huberman-Spiegelglas,Netalee Efrat,Eli Alshan,Ianir Ideses,Frederic Devernay,Yochai Zvik,Lior Fritz
Main category: cs.CV
TL;DR: Splatent是一个基于扩散的增强框架,在VAE潜在空间中操作3D高斯泼溅,通过多视图注意力机制在2D中恢复细节,而不是在3D中重建,从而保持VAE重建质量并实现准确的细节恢复。
- Motivation: 现有方法在VAE潜在空间中构建辐射场表示时面临多视图不一致的问题,导致纹理模糊和细节丢失。现有解决方案要么微调VAE牺牲重建质量,要么依赖预训练扩散模型恢复细节但可能产生幻觉。
- Method: Splatent是一个基于扩散的增强框架,在VAE潜在空间中操作3D高斯泼溅。关键洞察是从传统的3D中心视角转向:不在3D空间中重建细粒度细节,而是通过多视图注意力机制从输入视图中在2D中恢复细节。
- Result: 在多个基准测试中,Splatent为VAE潜在辐射场重建建立了新的最先进水平。与现有前馈框架集成时,能持续改善细节保留,为高质量稀疏视图3D重建开辟了新可能性。
- Conclusion: Splatent通过在2D中恢复细节而不是在3D中重建,解决了VAE潜在空间多视图一致性问题,同时保持了预训练VAE的重建质量,实现了准确的细节恢复,为高质量3D重建提供了新方法。
[112] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning
Xinyu Liu,Hangjie Yuan,Yujie Wei,Jiazheng Xing,Yujin Han,Jiahao Pan,Yanbiao Ma,Chi-Min Chan,Kang Zhao,Shiwei Zhang,Wenhan Luo,Yike Guo
Main category: cs.CV
TL;DR: 提出Reason-Informed Video Editing (RVE)任务,构建RVE-Bench基准,并提出ReViSE框架,通过自反思推理机制将视频生成与评估统一,显著提升编辑准确性和视觉保真度。
- Motivation: 现有视频统一模型虽然具备强大的理解和生成能力,但在推理感知的视频编辑方面表现不佳。这主要因为:1)现有数据集不足以训练和评估推理感知的视频编辑;2)模型的推理能力与编辑能力之间存在脱节,丰富的理解无法有效指导编辑过程。
- Method: 提出ReViSE框架,采用自反思推理(SRF)机制,将生成与评估统一在单一架构中。模型内部视觉语言模型(VLM)通过评估编辑后的视频是否逻辑上满足给定指令来提供内在反馈,这种差异反馈在训练期间优化生成器的推理行为。
- Result: 在RVE-Bench上的大量实验表明,ReViSE显著提升了编辑准确性和视觉保真度,在推理感知视频编辑子集上相比最先进方法实现了32%的整体分数提升。
- Conclusion: 通过引入RVE任务、构建RVE-Bench基准和提出ReViSE框架,成功弥合了视频模型推理能力与编辑能力之间的鸿沟,为推理感知的视频编辑提供了系统性的解决方案。
[113] GAINS: Gaussian-based Inverse Rendering from Sparse Multi-View Captures
Patrick Noras,Jun Myeong Choi,Didier Stricker,Pieter Peers,Roni Sengupta
Main category: cs.CV
TL;DR: GAINS是一个两阶段逆向渲染框架,利用学习先验在稀疏多视角捕获下稳定几何和材质估计,显著提升材质参数准确性和重光照质量。
- Motivation: 现有的基于高斯泼溅的逆向渲染方法在密集多视角捕获下表现良好,但在稀疏视角设置下性能急剧下降,因为有限的观测导致几何、反射率和光照之间的严重歧义。
- Method: 采用两阶段框架:第一阶段使用单目深度/法线和扩散先验细化几何;第二阶段使用分割、内在图像分解(IID)和扩散先验来正则化材质恢复。
- Result: 在合成和真实世界数据集上的广泛实验表明,GAINS显著提高了材质参数准确性、重光照质量和新颖视角合成效果,特别是在稀疏视角设置下优于现有最先进的高斯基逆向渲染方法。
- Conclusion: GAINS通过整合学习先验有效解决了稀疏多视角捕获下的逆向渲染歧义问题,为高质量材质恢复提供了稳健的解决方案。
cs.AI
[114] Visual Categorization Across Minds and Models: Cognitive Analysis of Human Labeling and Neuro-Symbolic Integration
Chethana Prasad Kabgere
Main category: cs.AI
TL;DR: 该论文对比了人类和AI系统在模糊视觉刺激下的图像标注表现,分析了认知策略差异,并提出了未来神经符号架构的发展方向。
- Motivation: 研究人类和AI系统如何解释模糊视觉刺激,为了解感知、推理和决策的本质提供关键见解,探索生物与人工系统在表示、推理和置信度校准方面的异同。
- Method: 结合计算认知科学、认知架构和连接主义-符号混合模型,对比人类类比推理、形状识别、置信度调节等策略与AI的特征处理;基于Marr的三层次假设、Simon的有限理性和Thagard的表示与情感框架,分析参与者响应与Grad-CAM可视化;通过ACT-R和Soar建模认知原理解释人类行为。
- Result: 揭示了人类和AI系统在模糊视觉刺激处理中的关键相似点和差异:人类采用分层启发式决策策略,AI依赖特征处理;在表示、推理和置信度校准方面存在系统差异。
- Conclusion: 未来应发展统一结构化符号推理与连接主义表示的神经符号架构,遵循具身性、可解释性和认知对齐原则,构建既高效又可解释、认知基础扎实的AI系统。
cs.GR
[115] Residual Primitive Fitting of 3D Shapes with SuperFrusta
Aditya Ganeshan,Matheus Gadelha,Thibault Groueix,Zhiqin Chen,Siddhartha Chaudhuri,Vladimir Kim,Wang Yifan,Daniel Ritchie
Main category: cs.GR
TL;DR: 提出SuperFrustum原语和ResFit算法,实现高保真且简洁的3D形状解析式分解,在保持可编辑性的同时显著提升重建质量。
- Motivation: 解决3D形状重建中保真度与简洁性之间的固有矛盾,弥合密集3D数据与人工可控设计之间的鸿沟,实现高保真且可编辑的形状程序。
- Method: 结合SuperFrustum原语(8参数可微分解析原语)和ResFit算法(基于残差拟合的迭代分解方法),通过全局形状分析和局部优化交替进行,逐步拟合未解释的形状残差。
- Result: 在多样3D基准测试中取得SOTA结果,IoU提升超过9个百分点,同时使用比先前工作少近一半的原语数量,实现高保真且可编辑的形状程序。
- Conclusion: 提出的框架成功解决了3D形状解析式分解中保真度与简洁性的权衡问题,SuperFrustum原语和ResFit算法的结合为3D形状的可编辑表示提供了有效解决方案。
cs.CL
[116] ChronusOmni: Improving Time Awareness of Omni Large Language Models
Yijing Chen,Yihan Wu,Kaisi Guan,Yuchen Ren,Yuyue Wang,Ruihua Song,Liyun Ru
Main category: cs.CL
TL;DR: ChronusOmni是一个增强时间感知的全能大语言模型,专注于视听时序定位任务,通过统一的时间建模和强化学习实现跨模态的显式和隐式时序理解。
- Motivation: 现有方法主要针对视觉-语言场景,关注显式时序定位问题,但未能充分利用音频模态,且忽视了跨模态的隐式时序关系(如视觉出现时角色说话的内容)。这些跨模态时序关系在现实场景中普遍存在,需要更好的建模方法。
- Method: 1. 在每个时间单元将基于文本的时间戳标记与视觉和音频表示交错,实现跨模态的统一时间建模;2. 通过强化学习配合专门设计的奖励函数,强制正确的时间顺序并增强细粒度时序推理;3. 构建ChronusAV数据集,这是一个时间准确、模态完整且跨模态对齐的数据集。
- Result: ChronusOmni在ChronusAV数据集上取得了超过30%的性能提升,达到了最先进的水平,并在其他时序定位基准测试的大多数指标上获得了最佳结果。模型在保持通用视频和音频理解能力的同时,展现了强大的跨模态时间感知能力。
- Conclusion: ChronusOmni通过统一的时间建模和强化学习方法,成功增强了全能大语言模型的时间感知能力,特别是在跨模态的显式和隐式时序定位任务上表现出色,为理解长视频和回答复杂问题提供了更好的支持。
cs.DC
[117] A Distributed Framework for Privacy-Enhanced Vision Transformers on the Edge
Zihao Ding,Mufeng Zhu,Zhongze Tang,Sheng Wei,Yao Liu
Main category: cs.DC
TL;DR: 提出一个分布式、分层级的卸载框架,用于Vision Transformers,通过在本地可信边缘设备上分割视觉数据并分发到多个独立云服务器,防止任何单一服务器获取完整图像,从而保护隐私。
- Motivation: 当前视觉智能工具计算需求高,超出移动和可穿戴设备能力,而将数据卸载到云端会带来传输和服务器计算过程中的隐私漏洞风险。
- Method: 使用本地可信边缘设备(如手机或Nvidia Jetson)作为边缘协调器,将用户视觉数据分割成小块并分发到多个独立云服务器,最终数据合并和聚合计算仅在用户可信边缘设备上进行。
- Result: 以Segment Anything Model (SAM)为案例研究,该方法在保持接近基线分割性能的同时,显著降低了内容重建和用户数据暴露的风险。
- Conclusion: 该框架为边缘-云连续体中的视觉任务提供了一个可扩展的、保护隐私的解决方案,通过设计防止了任何单一外部服务器获取完整图像。
[118] SynthPix: A lightspeed PIV images generator
Antonio Terpin,Alan Bonomi,Francesco Banelli,Raffaello D'Andrea
Main category: cs.DC
TL;DR: SynthPix是一个基于JAX实现的高性能并行合成图像生成器,专门用于粒子图像测速(PIV),相比现有工具实现了几个数量级的图像对生成吞吐量提升。
- Motivation: 开发SynthPix的主要动机是为了支持数据驱动的强化学习方法在流场估计中的训练,以及缩短快速流场估计方法的开发迭代时间,特别是在需要实时PIV反馈的主动流体控制研究中。
- Method: SynthPix采用JAX框架实现,专注于在加速器(如GPU)上的性能和并行化。它支持与现有工具相同的配置参数,但通过硬件加速和并行化技术大幅提升了生成效率。
- Result: SynthPix在图像对生成速度上比现有工具提高了几个数量级,实现了极高的吞吐量(每秒生成的图像对数量显著增加)。
- Conclusion: SynthPix是一个对流体动力学社区有用的软件工具,本文描述了该软件包的主要设计理念和技术实现。
eess.IV
[119] Agreement Disagreement Guided Knowledge Transfer for Cross-Scene Hyperspectral Imaging
Lu Huo,Haimin Zhang,Min Xu
Main category: eess.IV
TL;DR: 提出ADGKT框架,通过结合一致性和分歧性指导机制,解决跨场景高光谱成像中的梯度冲突和主导梯度问题,实现更稳健的知识迁移。
- Motivation: 现有跨场景高光谱成像研究忽视共享参数优化中的梯度冲突和主导梯度问题,且未能同时捕捉一致性和分歧性信息,仅依赖有限共享特征子集,导致丢失目标场景的丰富多样性模式。
- Method: 提出ADGKT框架,包含一致性组件(GradVac对齐梯度方向缓解冲突,LogitNorm调节logit幅度防止单一梯度主导)和分歧性组件(分歧限制DiR和集成策略,捕捉多样预测特征并减少关键信息丢失)。
- Result: 大量实验证明该方法在异构高光谱场景中实现稳健平衡的知识迁移,表现出有效性和优越性。
- Conclusion: ADGKT框架通过整合一致性和分歧性指导机制,有效解决了跨场景高光谱成像中的关键挑战,实现了更全面和平衡的知识迁移。
[120] Enhanced Chest Disease Classification Using an Improved CheXNet Framework with EfficientNetV2-M and Optimization-Driven Learning
Ali M. Bahram,Saman Muhammad Omer,Hardi M. Mohammed,Sirwan Abdolwahed Aula
Main category: eess.IV
TL;DR: 提出基于EfficientNetV2-M的胸片疾病分类框架,结合多种先进训练技术,在5种疾病分类上取得显著性能提升,特别是COVID-19和结核病检测接近完美准确率。
- Motivation: 胸片解读在临床实践中至关重要,尤其在资源有限环境下放射科医生短缺导致诊断延迟和患者预后不良。现有CheXNet架构基于DenseNet-121,计算效率低且单标签分类性能不佳,需要改进。
- Method: 使用EfficientNetV2-M作为骨干网络,结合自动混合精度训练、AdamW优化器、余弦退火学习率调度和指数移动平均正则化等先进训练方法。数据集包含18,080张胸片图像,涵盖5种疾病类别,进行9次独立实验确保统计可靠性。
- Result: 平均测试准确率达到96.45%(基线95.30%,p<0.001),宏平均F1分数提升至91.08%(p<0.001)。COVID-19检测准确率99.95%,结核病检测准确率99.97%。虽然参数增加6.8倍,但训练时间减少11.4%,性能稳定性提高22.7%。
- Conclusion: 该框架可作为决策支持工具,用于应对疫情、筛查结核病和常规评估胸部疾病,在各种医疗机构中具有重要应用价值。
[121] DermETAS-SNA LLM: A Dermatology Focused Evolutionary Transformer Architecture Search with StackNet Augmented LLM Assistant
Nitya Phani Santosh Oruganty,Keerthi Vemula Murali,Chun-Kit Ngan,Paulo Bandeira Pinho
Main category: eess.IV
TL;DR: 提出了DermETAS-SNA LLM助手,整合了皮肤病学进化的Transformer架构搜索和StackNet增强的LLM,用于皮肤病分类和医学解释生成,在23种皮肤病分类上F1分数达到56.30%,超越SkinGPT-4。
- Motivation: 开发一个能够动态学习皮肤病分类器并提供医学知情描述的人工智能助手,以促进临床医生与患者之间的解释和理解。
- Method: 1. 在SKINCON数据集上开发ETAS框架优化ViT用于皮肤病特征表示,在DermNet数据集上微调23种皮肤病的二元分类器;2. 设计StackNet架构整合多个微调的二元ViT分类器;3. 实现RAG管道(DERMD),利用Google Gemini 2.5 Pro LLM生成个性化诊断描述;4. 在23种皮肤病类别上进行实验评估。
- Result: 整体F1分数达到56.30%,比SkinGPT-4(48.51%)提升16.06%;领域专家评估显示92%的同意率;开发了概念验证原型。
- Conclusion: DermETAS-SNA LLM助手在皮肤病分类和解释生成方面表现出色,具有实际临床和教育应用的可行性。
[122] Causal Attribution of Model Performance Gaps in Medical Imaging Under Distribution Shifts
Pedro M. Gordaliza,Nataliia Molchanova,Jaume Banus,Thomas Sanchez,Meritxell Bach Cuadra
Main category: eess.IV
TL;DR: 该论文提出一个因果归因框架,用于量化医学图像分割中分布偏移的机制贡献,特别关注采集协议和标注变异对性能下降的影响。
- Motivation: 医学图像分割模型在分布偏移下性能显著下降,但其背后的因果机制尚不清楚。需要理解采集协议和标注变异如何独立影响性能,以指导针对性干预。
- Method: 扩展因果归因框架到高维分割任务,通过因果图建模数据生成过程,使用Shapley值公平地将性能变化归因于个体机制。处理医学影像特有的高维输出、有限样本和复杂机制交互等挑战。
- Result: 在多发性硬化病灶分割的验证中(4个中心、7个标注者),发现上下文依赖的失败模式:跨标注者时标注协议偏移主导(7.4%±8.9% DSC归因),跨成像中心时采集偏移主导(6.5%±9.1% DSC归因)。
- Conclusion: 该机制特异性量化使从业者能够根据部署上下文优先考虑针对性干预,为医学图像分割中的分布偏移问题提供因果理解框架。
[123] PathCo-LatticE: Pathology-Constrained Lattice-Of Experts Framework for Fully-supervised Few-Shot Cardiac MRI Segmentation
Mohamed Elbayumi,Mohammed S. M. Elbaz
Main category: eess.IV
TL;DR: PathCo-LatticE:一种完全监督的少样本学习框架,通过病理引导的合成监督替代无标签数据,实现零样本泛化到未见数据,无需目标域微调。
- Motivation: 传统少样本学习通常依赖半监督技术,对领域偏移和验证偏差敏感,限制了零样本泛化能力。需要一种能够克服这些限制、实现鲁棒零样本泛化的方法。
- Method: 1. 虚拟病人引擎:从稀疏临床锚点建模连续潜在疾病轨迹,生成生理合理的全标注3D队列;2. 自增强交错验证:提供无泄漏协议,用逐步挑战的合成样本在线评估模型;3. 动态专家晶格:在病理感知拓扑中组织专用网络,为每个输入激活最相关专家。
- Result: 在严格OOD设置下,仅用7个标注锚点就超越4个SOTA方法4.2-11% Dice,仅用19个锚点接近完全监督性能(相差1% Dice)。在四个厂商数据上表现出优越的协调性和对未见病理的泛化能力。
- Conclusion: PathCo-LatticE通过病理引导的合成监督和动态专家晶格架构,实现了鲁棒的零样本泛化,显著减少了对真实标注数据的需求,在心脏MRI分割中表现出优越性能。
cs.RO
[124] Development and Testing for Perception Based Autonomous Landing of a Long-Range QuadPlane
Ashik E Rasul,Humaira Tasnim,Ji Yu Kim,Young Hyun Lim,Scott Schmitz,Bruce W. Jo,Hyung-Jin Yoon
Main category: cs.RO
TL;DR: 该论文提出了一种轻量级QuadPlane系统,用于在GPS拒止环境中实现基于视觉的自主着陆和视觉惯性里程计,专门为长距离QuadPlane操作设计。
- Motivation: QuadPlane结合了固定翼飞机的航程效率和多旋翼平台的机动性,但在GPS拒止或杂乱城市环境中,基于感知的着陆对可靠操作至关重要。真实世界着陆点是非结构化和高度可变的,需要感知系统具备强大的泛化能力。虽然模拟中已展示感知驱动着陆,但实际部署面临重大挑战:有效载荷和体积限制限制了高性能边缘AI设备的使用,而准确的姿态估计在下降过程中至关重要。
- Method: 开发了一个轻量级QuadPlane系统,包括硬件平台、传感器配置和嵌入式计算架构,专门针对实时物理约束进行优化。系统结合深度神经网络进行着陆点特征学习,并在有限边缘AI资源下实现视觉惯性里程计,以支持长距离QuadPlane操作。
- Result: 建立了一个能够在动态、非结构化、GPS拒止环境中部署自主着陆的基础框架。该系统解决了大型QuadPlane的高惯性、有限推力矢量和慢响应时间等飞行特性带来的稳定着陆挑战。
- Conclusion: 该工作为长距离QuadPlane操作(如空中监测)提供了高效的基于视觉的自主着陆和视觉惯性里程计解决方案,为在具有挑战性的真实世界环境中部署自主着陆系统奠定了基础。
[125] H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos
Hai Ci,Xiaokang Liu,Pei Yang,Yiren Song,Mike Zheng Shou
Main category: cs.RO
TL;DR: 提出视频到视频转换框架,将普通人机交互视频转换为运动一致、物理真实的机器人操作视频,无需配对数据训练
- Motivation: 让机器人从日常人类视频中学习操作技能,避免繁琐的机器人数据收集,扩大学习规模
- Method: 使用可迁移表示桥接具身鸿沟:通过修复机器人手臂获取干净背景,叠加视觉提示(标记和箭头表示夹爪位置和方向),训练生成模型将机器人手臂插入场景;在人类视频上应用相同过程,生成模仿人类动作的高质量机器人视频;采用上下文学习方式微调SOTA视频扩散模型确保时间一致性
- Result: 相比基线方法,实现了更真实、更物理基础的机器人运动,为从无标签人类视频扩展机器人学习提供了有前景的方向
- Conclusion: 提出的视频到视频转换框架能够有效利用日常人类视频训练机器人操作技能,无需配对数据,具有良好扩展性
[126] Sequential Testing for Descriptor-Agnostic LiDAR Loop Closure in Repetitive Environments
Jaehyun Kim,Seungwon Choi,Tae-Wan Kim
Main category: cs.RO
TL;DR: 提出一种描述符无关的多帧闭环验证方法,将LiDAR闭环建模为截断序贯概率比检验(SPRT),通过累积短时序描述符相似度证据自适应决策,旨在抑制室内重复结构环境中的误报。
- Motivation: 传统LiDAR闭环验证方法通常基于单帧描述符比较或固定阈值配合后期ICP验证,在结构重复的室内环境中容易产生误报。需要一种能够自适应累积多帧证据、抑制误报的验证方法。
- Method: 将LiDAR闭环验证建模为截断序贯概率比检验(SPRT),累积查询帧与候选帧之间的短时序描述符相似度流,根据用户指定的I/II类错误目标自适应地做出接受/拒绝决策,采用精度优先策略。
- Result: 在五序列图书馆数据集上评估,使用固定检索前端和多种代表性LiDAR全局描述符。序贯验证器相比单帧和启发式多帧基线,在所有描述符上都一致提高了精度,减少了混淆闭环的影响。
- Conclusion: 提出的描述符无关多帧序贯验证方法能有效抑制室内重复结构环境中的误报,提高闭环验证的精度和可靠性,为LiDAR SLAM系统提供了更稳健的闭环验证方案。
[127] ViTA-Seg: Vision Transformer for Amodal Segmentation in Robotics
Donato Caramia,Florian T. Pokorny,Giuseppe Triggiani,Denis Ruffino,David Naso,Paolo Roberto Massenio
Main category: cs.RO
TL;DR: ViTA-Seg:基于Vision Transformer的实时无模态分割框架,用于机器人箱体抓取中的遮挡处理,通过全局注意力恢复完整物体掩码,包括隐藏区域
- Motivation: 机器人箱体抓取中的遮挡问题会影响抓取规划的准确性和可靠性,需要能够恢复完整物体掩码(包括被遮挡区域)的实时分割方法
- Method: 提出ViTA-Seg框架:1)单头架构用于无模态掩码预测;2)双头架构用于无模态和遮挡掩码预测。同时创建ViTA-SimData合成数据集,专门针对工业箱体抓取场景
- Result: 在COOCA和KINS两个无模态基准测试上,ViTA-Seg双头架构在无模态和遮挡分割精度方面表现优异,同时保持计算效率,支持实时机器人操作
- Conclusion: ViTA-Seg框架通过Vision Transformer的全局注意力机制有效解决了机器人箱体抓取中的遮挡问题,实现了实时、鲁棒的无模态分割,为机器人操作提供了可靠支持
[128] UrbanNav: Learning Language-Guided Urban Navigation from Web-Scale Human Trajectories
Yanghong Mei,Yirong Yang,Longteng Guo,Qunbo Wang,Ming-Ming Yu,Xingjian He,Wenjun Wu,Jing Liu
Main category: cs.RO
TL;DR: UrbanNav是一个基于大规模网络视频数据的城市导航框架,通过自然语言指令训练具身智能体在复杂城市环境中导航,显著优于现有方法。
- Motivation: 当前视觉导航方法主要局限于模拟环境或非街道环境,依赖精确的目标格式(如坐标或图像),难以应对真实城市环境中的噪声语言指令、模糊空间参考、多样化地标和动态街景等挑战,限制了自动驾驶代理(如最后一公里配送机器人)在陌生城市中的导航能力。
- Method: 利用网络规模的城市步行视频,开发可扩展的标注流程,将人类导航轨迹与基于真实世界地标的语言指令对齐。UrbanNav包含超过1500小时的导航数据和300万条指令-轨迹-地标三元组,涵盖广泛的城市场景。模型学习鲁棒的导航策略来处理复杂的城市场景。
- Result: 实验结果表明,UrbanNav显著优于现有方法,展现出卓越的空间推理能力、对噪声指令的鲁棒性以及对未见城市场景的泛化能力。
- Conclusion: UrbanNav证明了大规模网络视频数据在实现语言引导、真实世界城市导航方面的潜力,为具身智能体在复杂城市环境中的导航提供了有效解决方案。
[129] Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation
Yuyang Li,Yinghan Chen,Zihang Zhao,Puhao Li,Tengyu Liu,Siyuan Huang,Yixin Zhu
Main category: cs.RO
TL;DR: TacThru-UMI:结合同步多模态感知(视觉+触觉)与Transformer扩散策略的模仿学习框架,在5个真实世界任务中达到85.5%平均成功率,显著优于交替感知和纯视觉基线。
- Motivation: 现有透皮传感器缺乏同步多模态感知能力且触觉跟踪不可靠,同时将丰富的多模态信号整合到基于学习的操作流程中仍具挑战。需要同时具备视觉和触觉感知的传感器以及能有效利用这些信号的学习框架。
- Method: 提出TacThru传感器(全透明弹性体、持续照明、新型关键线标记、高效跟踪)实现同步视觉感知和鲁棒触觉信号提取;开发TacThru-UMI模仿学习框架,通过Transformer-based Diffusion Policy整合多模态信号。
- Result: 在5个具有挑战性的真实世界任务中,TacThru-UMI达到85.5%平均成功率,显著优于交替触觉-视觉感知(66.3%)和纯视觉(55.4%)基线。系统在薄软物体接触检测和需要多模态协调的精密操作等关键场景表现优异。
- Conclusion: 将同步多模态感知与现代学习框架相结合,能够实现更精确、适应性更强的机器人操作。这项工作展示了多模态感知与先进学习算法融合的潜力。
[130] Visual Heading Prediction for Autonomous Aerial Vehicles
Reza Ahmari,Ahmad Mohammadi,Vahid Hemmati,Mohammed Mynuddin,Parham Kebria,Mahmoud Nabil Mahmoud,Xiaohong Yuan,Abdollah Homaifar
Main category: cs.RO
TL;DR: 提出基于视觉的无人机-无人车实时集成框架,使用YOLOv5检测无人车,轻量级神经网络预测航向角,在GPS拒止环境下实现95%检测准确率和0.15°航向误差
- Motivation: 无人机和无人车集成在搜索救援、环境监测等应用中日益重要,但在GPS/GNSS不可用或降级时,平台间的精确实时协调面临重大挑战,需要不依赖外部基础设施的解决方案
- Method: 采用基于视觉的数据驱动框架:1) 使用微调YOLOv5模型检测无人车并提取边界框特征;2) 使用轻量级人工神经网络(ANN)基于边界框特征预测无人机所需航向角;3) 使用VICON运动捕捉系统生成训练用的地面真值数据,在受控实验室环境中收集超过13,000张标注图像
- Result: 系统在无人车检测上达到95%准确率,航向角预测的平均绝对误差为0.1506°,均方根误差为0.1957°,仅使用单目摄像头输入即可实现精确航向预测,在GPS拒止环境下表现出良好性能
- Conclusion: 该工作提供了一个基于视觉、不依赖基础设施的解决方案,在GPS/GNSS拒止环境中具有强大部署潜力,支持在现实动态条件下的可靠多智能体协调,通过演示视频展示了系统的实时性能
[131] YOPO-Nav: Visual Navigation using 3DGS Graphs from One-Pass Videos
Ryan Meegan,Adam D'Souza,Bryan Bo Cao,Shubham Jain,Kristin Dana
Main category: cs.RO
TL;DR: YOPO-Nav:基于视频探索轨迹的视觉导航方法,使用3D高斯泼溅模型构建紧凑空间表示,通过分层定位和姿态细化实现机器人导航
- Motivation: 传统基于详细地图和路径规划的机器人导航方法计算开销大、内存密集。本文旨在利用探索视频作为视觉参考,使机器人能够在不依赖度量地图的情况下重走探索轨迹。
- Method: 提出YOPO-Nav方法,将环境编码为相互连接的局部3D高斯泼溅模型组成的紧凑空间表示。采用分层设计:视觉地点识别模块提供粗略定位,局部3DGS模型细化目标和中间姿态以生成控制动作。
- Result: 在YOPO-Campus数据集(4小时自我中心视频,超过6公里人类遥操作轨迹)上评估,使用Clearpath Jackal机器人测试。实验结果显示YOPO-Nav在真实场景的图像目标导航中表现优异。
- Conclusion: YOPO-Nav提供了一种高效实用的视觉导航方案,利用探索视频作为参考,避免了传统地图构建的高计算开销。数据集和代码将公开以促进视觉导航和场景表示研究。
[132] LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating
Junting Chen,Yunchuan Li,Panfeng Jiang,Jiacheng Du,Zixuan Chen,Chenrui Tie,Jiajun Deng,Lin Shao
Main category: cs.RO
TL;DR: LISN-Bench是首个语言指导社交导航仿真基准,结合指令跟随和场景理解,并提出Social-Nav-Modulator分层系统,在挑战性任务中表现优异。
- Motivation: 现有社交导航研究主要关注路径效率和避障,但机器人还需遵循用户指令、任务目标和社会规范,需要更全面的评估框架。
- Method: 提出Social-Nav-Modulator分层系统:VLM智能体调制成本地图和控制器参数,解耦低级动作生成与慢速VLM循环,提升动态避障和感知适应性。
- Result: 方法平均成功率91.3%,比最强基线提升63%,在人群跟随和严格避让禁区等挑战性任务中改进显著。
- Conclusion: LISN-Bench填补了语言指导社交导航基准的空白,提出的分层方法有效平衡了指令跟随与动态导航性能。
cs.LG
[133] Rates and architectures for learning geometrically non-trivial operators
T. Mitchell Roddenberry,Leo Tzou,Ivan Dokmanić,Maarten V. de Hoop,Richard G. Baraniuk
Main category: cs.LG
TL;DR: 该论文将算子学习理论扩展到包含双纤维化变换(几何积分算子),证明这类算子不受维度灾难影响,误差衰减速度比训练样本数量的任何固定幂次更快。
- Motivation: 现有深度学习理论主要针对简单几何的椭圆算子,但科学机器学习常涉及奇异性传播问题(如波动、对流、流体动力学)。需要扩展学习理论以涵盖更广泛的几何积分算子。
- Method: 将学习理论扩展到双纤维化变换(包括广义Radon变换和测地线射线变换),研究能显式编码这些变换几何结构的架构,提出基于水平集方法的类交叉注意力架构。
- Result: 证明双纤维化变换类不受维度灾难影响,误差衰减速度超代数(比训练样本数量倒数的任何固定幂次更快)。提出的架构具有通用性、稳定性,并能从极少训练样本中学习这些变换。
- Conclusion: 该研究扩展了科学机器学习算子学习的理论框架,为处理涉及奇异性传播的问题提供了理论基础和有效架构,推动了科学机器学习理论的发展。
quant-ph
[134] LiePrune: Lie Group and Quantum Geometric Dual Representation for One-Shot Structured Pruning of Quantum Neural Networks
Haijian Shao,Bowen Yang,Wei Liu,Xing Deng,Yingtao Jiang
Main category: quant-ph
TL;DR: LiePrune:首个基于数学基础的量子神经网络一次性结构化剪枝框架,利用李群结构和量子几何信息实现超10倍压缩且性能无损甚至提升
- Motivation: 量子神经网络和参数化量子电路在近期量子机器学习中至关重要,但其可扩展性受到参数过多、梯度消失(贫瘠高原)和硬件限制的约束,需要有效的压缩方法
- Method: 提出LiePrune框架,将每个量子门在李群-李代数对偶空间和量子几何特征空间中联合表示,利用数学原理进行冗余检测和激进压缩,提供一次性结构化剪枝
- Result: 在量子分类(MNIST、FashionMNIST)、量子生成建模(Bars-and-Stripes)和量子化学(LiH VQE)实验中,实现超过10倍的压缩,任务性能无损失甚至有所提升
- Conclusion: LiePrune是首个基于数学基础的量子神经网络结构化剪枝框架,能够显著压缩模型规模,同时提供冗余检测、函数逼近和计算复杂度的可证明保证,解决了QNN可扩展性瓶颈
cs.HC
[135] ImageTalk: Designing a Multimodal AAC Text Generation System Driven by Image Recognition and Natural Language Generation
Boyin Yang,Puming Jiang,Per Ola Kristensson
Main category: cs.HC
TL;DR: ImageTalk:为运动神经元疾病患者设计的多模态文本生成系统,通过图像和文本结合的方式显著提高沟通效率,减少95.6%的击键次数
- Motivation: 运动神经元疾病患者经常面临言语和运动障碍,需要依赖辅助沟通系统。传统符号式AAC系统词汇有限,文本输入解决方案沟通速率低,需要更高效的沟通工具
- Method: 通过代理用户和最终用户两个设计阶段迭代开发ImageTalk多模态文本生成系统,结合图像和文本输入来帮助患者表达需求
- Result: 系统实现了95.6%的显著击键节省,性能稳定且用户满意度高。提炼了三条AI辅助文本生成系统设计指南和四个针对AAC的用户需求层次
- Conclusion: ImageTalk系统有效解决了运动神经元疾病患者的沟通难题,提出的设计指南和用户需求层次为未来该领域研究提供了指导框架
Powered by Deepseek & arXiv Daily AI Enhanced