Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Milestone Determination for Autonomous Railway Operation
Josh Hunter,John McDermid,Simon Burton,Poppy Fynes,Mia Dempster
Main category: cs.CV
TL;DR: 提出基于里程碑确定的方法,通过关注路线特定的上下文线索来生成丰富的序列数据集,简化铁路自动化中计算机视觉系统的训练过程。
- Motivation: 解决铁路自动化领域高质量序列数据稀缺的问题,传统数据集缺乏时空上下文,替代方案存在真实性和适用性问题。
- Method: 采用里程碑确定的概念,开发有针对性的基于规则的模型,专注于路线上的关键决策点,而非动态组件的通用识别。
- Result: 能够生成与真实世界操作逻辑更一致的丰富序列数据集,为在受控、可预测环境中训练视觉代理提供实用框架。
- Conclusion: 该方法为铁路自动化机器学习系统提供了更安全、更高效的训练途径,通过简化学习过程来提升系统性能。
[2] CML-Bench: A Framework for Evaluating and Enhancing LLM-Powered Movie Scripts Generation
Mingzhe Zheng,Dingjie Song,Guanyu Zhou,Jun You,Jiahao Zhan,Xuran Ma,Xinyuan Song,Ser-Nam Lim,Qifeng Chen,Harry Yang
Main category: cs.CV
TL;DR: 该论文提出CML-Bench基准来评估LLM生成电影剧本的质量,发现LLM在对话连贯性、角色一致性和情节合理性方面存在不足,并开发了CML-Instruction提示策略来改善剧本生成质量。
- Motivation: 虽然LLM在生成结构化文本方面表现出色,但在创作需要情感深度和微妙叙事技巧的电影剧本时存在明显不足,缺乏电影艺术的'灵魂'。
- Method: 构建CML数据集,分析真实剧本的多镜头连续性和叙事结构,提出三个关键评估维度:对话连贯性、角色一致性和情节合理性,并开发CML-Instruction提示策略指导LLM生成更好的剧本。
- Result: CML-Bench能有效区分高质量人工剧本和LLM生成剧本的弱点,使用CML-Instruction指导的LLM能生成更高质量的剧本,结果与人类偏好一致。
- Conclusion: 论文提出的评估框架和指导策略能显著提升LLM生成电影剧本的质量,填补了LLM在创作需要情感深度内容方面的能力空白。
[3] User to Video: A Model for Spammer Detection Inspired by Video Classification Technology
Haoyang Zhang,Zhou Yang,Yucai Pang
Main category: cs.CV
TL;DR: 提出了一种基于用户视频化的垃圾信息发送者检测模型UVSD,将用户行为子空间视为帧图像,连续帧构成视频,结合视频分类技术识别垃圾信息发送者。
- Motivation: 受视频分类技术启发,将用户行为子空间视为帧图像,连续帧构成视频,为垃圾信息发送者检测提供新思路。
- Method: 1. 用户像素化算法(user2piexl):将用户视为像素,立场量化为RGB值;2. 行为图像化算法(behavior2image):使用表示学习进行低秩密集向量化,结合切割和扩散算法完成帧图像化;3. 基于时间特征构建用户行为视频,结合视频分类算法识别垃圾信息发送者。
- Result: 在WEIBO和TWITTER公开数据集上的实验表明,UVSD模型优于现有最先进方法。
- Conclusion: UVSD模型通过用户视频化方法有效检测垃圾信息发送者,在公开数据集上表现出优越性能。
[4] Uncertainty Quantification In Surface Landmines and UXO Classification Using MC Dropout
Sagar Lekhak,Emmett J. Ientilucci,Dimah Dera,Susmita Ghosh
Main category: cs.CV
TL;DR: 该研究将蒙特卡洛Dropout集成到ResNet-50架构中,用于地表地雷和未爆弹药的分类,通过不确定性量化提高在对抗攻击和噪声条件下的预测可靠性。
- Motivation: 确定性神经网络在地雷探测中容易受到噪声和对抗攻击的影响,导致漏检或误分类,需要开发更可靠的模型来支持人道主义排雷行动。
- Method: 使用蒙特卡洛Dropout方法集成到微调的ResNet-50架构中,在模拟数据集上进行测试,量化认知不确定性。
- Result: 在干净、对抗扰动和噪声测试图像上的实验结果表明,该模型能够在挑战性条件下标记不可靠的预测。
- Conclusion: 这项概念验证研究强调了排雷中不确定性量化的重要性,提高了对现有神经网络在排雷中对抗威胁脆弱性的认识,并强调了为实际应用开发更稳健可靠模型的必要性。
[5] multimodars: A Rust-powered toolkit for multi-modality cardiac image fusion and registration
Anselm W. Stark,Marc Ilic,Ali Mokhtari,Pooya Mohammadi Kazaj,Christoph Graeni,Isaac Shiri
Main category: cs.CV
TL;DR: multimodars是一个用于多模态冠状动脉成像融合的开源工具包,专门针对多状态分析(静息/应激、支架植入前后)设计,提供确定性对齐算法、紧凑的NumPy数据模型和优化的Rust后端。
- Motivation: 结合互补成像模式对构建可靠的3D冠状动脉模型至关重要:血管内成像提供亚毫米分辨率但缺乏整体血管上下文,而CCTA提供3D几何但受限于空间分辨率和伪影。现有方法缺乏针对多状态分析的开放、灵活工具包。
- Method: 开发了确定性对齐算法,采用紧凑的NumPy中心数据模型,使用优化的Rust后端实现高性能,支持CSV/NumPy输入格式,兼容AIVUS-CAA软件生成的数据。
- Result: multimodars填补了现有工具包的空白,提供了确定性行为、高性能和易于管道集成的解决方案,适用于可扩展、可重复的实验。
- Conclusion: multimodars成功解决了冠状动脉多模态成像融合中的关键挑战,为多状态分析提供了可靠、高效的工具支持。
[6] Does Physics Knowledge Emerge in Frontier Models?
Ieva Bagdonaviciute,Vibhav Vineet
Main category: cs.CV
TL;DR: 前沿视觉语言模型在物理模拟任务中表现出感知与物理推理能力之间的弱相关性,揭示了当前模型在将感知与推理紧密结合方面的局限性。
- Motivation: 评估领先视觉语言模型在理解和预测物理动态方面的能力,探究其感知能力与物理推理能力之间的关系。
- Method: 在三个物理模拟数据集(CLEVRER、Physion、Physion++)上对六个前沿VLM进行基准测试,设计诊断子测试来分离感知(物体、颜色、遮挡物)与物理推理(运动预测、空间关系)。
- Result: 分析显示感知能力与物理推理能力之间存在弱相关性,擅长感知或物理推理的模型在预测性或反事实评估中表现并不一致更好。
- Conclusion: 当前VLM存在核心局限性:感知和物理技能仍然碎片化,未能结合成因果理解,需要能够更紧密绑定感知与推理的架构。
[7] Enhanced Self-Distillation Framework for Efficient Spiking Neural Network Training
Xiaochen Zhao,Chengting Yu,Kairong Yu,Lei Liu,Aili Wang
Main category: cs.CV
TL;DR: 提出了一种增强的自蒸馏框架,结合基于速率的反向传播,通过将SNN中间层的发放率投影到轻量级ANN分支上,利用高质量自生成知识优化子结构,解决了传统SNN训练方法计算内存开销大且性能落后于ANN的问题。
- Motivation: 传统SNN训练方法基于替代梯度和BPTT,不仅性能落后于ANN,还因时间维度线性增长而产生显著的计算和内存开销,限制了在有限计算资源下的高性能SNN训练。
- Method: 增强的自蒸馏框架与基于速率的反向传播联合优化,将SNN中间层的发放率投影到轻量级ANN分支,使用模型自身生成的高质量知识通过ANN路径优化子结构,并将教师信号解耦为可靠和不可靠组件以确保仅使用可靠知识指导模型优化。
- Result: 在CIFAR-10、CIFAR-100、CIFAR10-DVS和ImageNet上的广泛实验表明,该方法在降低训练复杂度的同时实现了高性能SNN训练。
- Conclusion: 所提出的增强自蒸馏框架有效解决了SNN训练的计算效率问题,在多个数据集上实现了高性能训练,为有限计算资源下的SNN应用提供了可行方案。
[8] Ensemble Deep Learning and LLM-Assisted Reporting for Automated Skin Lesion Diagnosis
Sher Khan,Raz Muhammad,Adil Hussain,Muhammad Sajjad,Muhammad Rashid
Main category: cs.CV
TL;DR: 提出一个统一的皮肤病AI诊断框架,通过异构神经网络集成和语言模型集成,提高诊断可靠性并改善医患沟通。
- Motivation: 解决当前皮肤病诊断中的观察者差异和访问不平等问题,克服现有AI系统在架构同质性、数据集偏见以及自然语言处理与诊断流程分离的局限性。
- Method: 1. 使用架构多样的卷积神经网络异构集成,提供互补诊断视角,内置不确定性机制标记不一致案例;2. 将大语言模型直接嵌入诊断工作流,将分类输出转化为临床评估报告。
- Result: 开发了一个能够生成结构化报告的系统,包含精确病变特征描述、可理解的诊断推理和可操作的监测指导,同时满足医疗文档需求和患者教育。
- Conclusion: 该框架通过同时解决诊断可靠性和沟通障碍,弥合了AI临床应用的关键转化差距,显著推进了可部署皮肤病AI的发展,提高了皮肤病变的早期干预率。
[9] Vision Transformer for Transient Noise Classification
Divyansh Srivastava,Andrzej Niedzielski
Main category: cs.CV
TL;DR: 使用Vision Transformer模型对LIGO数据中的瞬态噪声进行分类,将22个现有类别和O3a运行中的2个新类别进行分类,达到92.26%的分类效率。
- Motivation: LIGO数据中的瞬态噪声(glitches)会阻碍引力波的探测,随着O3运行增加了两个新的噪声类别,需要训练新模型进行有效分类。
- Method: 在结合Gravity Spy数据集和LIGO O3a运行中两个新类别的组合数据集上,训练预训练的Vision Transformer(ViT-B/32)模型。
- Result: 实现了92.26%的分类效率,证明了Vision Transformer在有效区分瞬态噪声方面的潜力。
- Conclusion: Vision Transformer模型能够提高引力波探测的准确性,通过有效区分瞬态噪声来改善探测效果。
[10] General and Efficient Visual Goal-Conditioned Reinforcement Learning using Object-Agnostic Masks
Fahim Shahriar,Cheryl Wang,Alireza Azimi,Gautham Vasan,Hany Hamed Elanwar,A. Rupam Mahmood,Colin Bellinger
Main category: cs.CV
TL;DR: 提出基于掩码的目标表示方法,通过对象无关的视觉线索实现高效学习和优越泛化,解决了现有目标表示方法的泛化差、收敛慢等问题。
- Motivation: 目标条件强化学习(GCRL)的成功依赖于目标表示的选择。现有方法如目标状态图像、3D坐标和one-hot向量存在泛化能力差、收敛慢、需要特殊摄像头等问题,需要更好的目标表示方法。
- Method: 使用掩码作为目标表示,提供对象无关的视觉线索。掩码可以处理生成密集奖励而无需易出错的距离计算。在仿真中使用真实掩码学习,并利用预训练的开词汇对象检测模型进行掩码生成。
- Result: 在训练和未见测试对象上达到99.9%的到达准确率。能够高精度执行拾取任务,无需使用目标的位置信息。成功实现了从零开始学习以及两种不同物理机器人的仿真到现实迁移应用。
- Conclusion: 掩码基目标表示方法在目标条件强化学习中表现出色,具有高效学习、优越泛化和实际应用价值,解决了现有方法的局限性。
[11] Improving the Spatial Resolution of GONG Solar Images to GST Quality Using Deep Learning
Chenyang Li,Qin Li,Haimin Wang,Bo Shen
Main category: cs.CV
TL;DR: 提出基于GAN的超分辨率方法,将低分辨率全日面Hα图像增强到接近高分辨率观测的质量,有效恢复太阳黑子半影区的精细细节和丝状结构。
- Motivation: 全日面Hα图像的空间分辨率有限,无法解析丝状体和纤维等小尺度动态特征,需要提升图像分辨率以捕捉这些精细结构。
- Method: 使用Real-ESRGAN模型,结合残差中的残差密集块和相对判别器,对GONG的低分辨率图像进行超分辨率重建,与BBSO/GST的高分辨率图像进行对齐训练。
- Result: 模型有效恢复了太阳黑子半影区的精细细节,解析了丝状体和纤维的细微结构,平均MSE为467.15,RMSE为21.59,交叉相关性为0.7794。
- Conclusion: 该方法成功提升了太阳图像分辨率,但图像对之间的轻微错位限制了定量性能,未来将通过数据集扩展和改进对齐方法进一步提高重建质量。
[12] ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations
Yike Wu,Yiwei Wang,Yujun Cai
Main category: cs.CV
TL;DR: ChainMPQ是一种无需训练的方法,通过多视角问题和图像文本交错链来减少大型视觉语言模型中的关系幻觉问题。
- Motivation: 大型视觉语言模型在关系推理方面存在严重幻觉问题,其中关系幻觉占比最大但研究关注最少,影响了模型的可靠性。
- Method: ChainMPQ首先从问题中提取主客体关键词以增强对应图像区域,然后构建关注关系三要素(主体、客体、关系)的多视角问题,通过图像文本交错链进行渐进式关系推理。
- Result: 在多个大型视觉语言模型和基准测试上的实验表明,ChainMPQ显著减少了关系幻觉,消融研究验证了其三个核心模块的有效性。
- Conclusion: ChainMPQ通过利用累积的文本和视觉记忆,有效改善了大型视觉语言模型的关系推理能力,为减少关系幻觉提供了有效解决方案。
[13] Efficient High-Resolution Image Editing with Hallucination-Aware Loss and Adaptive Tiling
Young D. Kwon,Abhinav Mehrotra,Malcolm Chadwick,Alberto Gil Ramos,Sourav Bhattacharya
Main category: cs.CV
TL;DR: MobilePicasso是一个高效的高分辨率图像编辑系统,通过三阶段方法在移动设备上实现4K图像编辑,显著降低计算成本和内存使用。
- Motivation: 现有扩散模型在资源受限设备上进行高分辨率图像编辑时面临内存和图像质量的重大挑战,需要开发更高效的解决方案。
- Method: 系统包含三个阶段:(1) 使用幻觉感知损失在标准分辨率下进行图像编辑;(2) 应用潜在投影避免进入像素空间;(3) 使用自适应上下文保持分块将编辑后的图像潜在表示上采样到更高分辨率。
- Result: 用户研究显示,MobilePicasso相比现有方法图像质量提升18-48%,幻觉减少14-51%,延迟降低高达55.8倍,运行时内存仅增加9%。在设备上的运行速度甚至快于在A100 GPU上运行的服务器高分辨率图像编辑模型。
- Conclusion: MobilePicasso成功实现了在移动设备上高效进行高分辨率图像编辑,在保持高质量的同时显著降低了计算成本。
[14] RGBD Gaze Tracking Using Transformer for Feature Fusion
Tobias J. Bauer
Main category: cs.CV
TL;DR: 实现基于RGBD图像的AI视线追踪系统,使用Transformer进行特征融合,创建新数据集,在三个数据集上评估模型性能。
- Motivation: 结合RGBD图像和Transformer进行视线追踪的研究尚未被探索,且现有数据集缺乏深度信息或不适合视线角度估计任务。
- Method: 基于Lian等人的GAN架构,使用Transformer模块融合RGBD特征,创建新数据集,比较不同模型配置(包括使用/不使用预训练GAN、Transformer vs MLP)。
- Result: 在ShanghaiTechGaze+数据集上,使用Transformer模块的模型平均欧几里得误差为55.3mm,不使用预训练GAN模块降至30.1mm,用MLP替换Transformer后进一步降至26.9mm。在ETH-XGaze数据集上,使用Transformer模块的平均角度误差为3.59°,不使用为3.26°。
- Conclusion: Transformer模块在视线追踪任务中表现不如预期,使用MLP和去除预训练GAN模块能获得更好的性能,但相比数据集作者的方法仍有差距。
[15] Scalable deep fusion of spaceborne lidar and synthetic aperture radar for global forest structural complexity mapping
Tiago de Conto,John Armston,Ralph Dubayah
Main category: cs.CV
TL;DR: 开发了一个融合GEDI激光雷达和SAR数据的深度学习框架,生成全球25米分辨率的森林结构复杂性连续地图,实现了高精度、可扩展的森林监测。
- Motivation: 现有的GEDI激光雷达数据采样稀疏,限制了连续高分辨率森林结构复杂性制图的需求,需要开发能够融合多源遥感数据的方法来实现全球范围的连续监测。
- Method: 采用改进的EfficientNetV2架构,融合GEDI激光雷达观测和多模态SAR数据集,使用超过1.3亿个GEDI足迹进行训练,模型参数少于40万个。
- Result: 模型在全球范围内达到R²=0.82的高性能,能够生成具有校准不确定性估计的准确预测,保留了精细空间模式,并已生成2015-2022年全球多时相森林结构复杂性数据集。
- Conclusion: 该框架支持全球森林结构动态的连续多时相监测,为生物多样性保护和生态系统管理提供工具,且可通过迁移学习以最小计算成本预测其他森林结构变量。
[16] Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
Yi Xin,Qi Qin,Siqi Luo,Kaiwen Zhu,Juncheng Yan,Yan Tai,Jiayi Lei,Yuewen Cao,Keqi Wang,Yibin Wang,Jinbin Bai,Qian Yu,Dengyang Jiang,Yuandong Pu,Haoxing Chen,Le Zhuo,Junjun He,Gen Luo,Tianbin Li,Ming Hu,Jin Ye,Shenglong Ye,Bo Zhang,Chang Xu,Wenhai Wang,Hongsheng Li,Guangtao Zhai,Tianfan Xue,Bin Fu,Xiaohong Liu,Yu Qiao,Yihao Liu
Main category: cs.CV
TL;DR: Lumina-DiMOO是一个开源的多模态基础模型,采用完全离散扩散建模方法,支持文本到图像生成、图像到图像生成和图像理解等多种任务,在多个基准测试中达到最先进性能。
- Motivation: 现有统一模型在处理多模态输入输出时存在采样效率低的问题,需要开发更高效的建模方法。
- Method: 使用完全离散扩散建模来处理各种模态的输入和输出,相比之前的自回归或混合自回归-扩散范式具有更高的采样效率。
- Result: 在多个基准测试中达到最先进性能,超越了现有的开源统一多模态模型。
- Conclusion: Lumina-DiMOO通过离散扩散建模实现了高效的多模态生成和理解,为多模态和离散扩散模型研究提供了重要贡献,并开源了代码和模型检查点。
[17] TransFIRA: Transfer Learning for Face Image Recognizability Assessment
Allen Tu,Kartik Narayan,Joshua Gleason,Jennifer Xu,Matthew Meyn,Tom Goldstein,Vishal M. Patel
Main category: cs.CV
TL;DR: TransFIRA是一个轻量级、无需标注的人脸图像可识别性评估框架,通过嵌入空间中的类中心相似性和类中心角度分离来定义可识别性,实现了最先进的验证精度和可解释性。
- Motivation: 在无约束环境中,传统视觉质量指标无法预测人脸是否可被编码器识别,现有FIQA方法依赖视觉启发式、标注或计算密集型生成流程,与编码器决策几何脱节。
- Method: 提出基于类中心相似性(CCS)和类中心角度分离(CCAS)的可识别性定义,开发可识别性感知的聚合策略,无需外部标签、启发式或骨干网络特定训练。
- Result: 在BRIAR和IJB-C上达到最先进的验证精度,与真实可识别性的相关性几乎翻倍,在人体识别上也表现出色,具有跨数据集鲁棒性。
- Conclusion: TransFIRA建立了一个统一的、几何驱动的可识别性评估框架,在准确性、可解释性和跨模态扩展性方面显著推进了FIQA领域。
[18] Road Surface Condition Detection with Machine Learning using New York State Department of Transportation Camera Images and Weather Forecast Data
Carly Sutter,Kara J. Sulia,Nick P. Bassill,Christopher D. Wirz,Christopher D. Thorncroft,Jay C. Rothenberger,Vanessa Przybylo,Mariana G. Cains,Jacob Radford,David Aaron Evans
Main category: cs.CV
TL;DR: 使用卷积神经网络和随机森林模型,结合交通摄像头图像和天气数据,自动分类纽约州道路表面状况,准确率达到81.5%。
- Motivation: 纽约州交通部需要更高效的方法来评估冬季道路状况,传统的人工巡查和实时监控方式劳动强度大,机器学习模型可以提供自动化支持。
- Method: 训练卷积神经网络和随机森林模型,使用约22,000张人工标记的摄像头图像和天气数据,将道路状况分为六类:严重积雪、积雪、潮湿、干燥、能见度差或被遮挡。
- Result: 模型在完全未见过的摄像头上达到81.5%的准确率,具有良好的泛化能力。
- Conclusion: 机器学习模型能够有效支持交通部门进行道路状况评估,为冬季天气事件中的关键运营决策提供自动化分类支持。
[19] TDiff: Thermal Plug-And-Play Prior with Patch-Based Diffusion
Piyush Dashpute,Niki Nezakati,Wolfgang Heidrich,Vishwanath Saragadam
Main category: cs.CV
TL;DR: 提出基于patch的扩散框架TDiff,通过在小热图像patch上训练来解决热图像的低分辨率、固定模式噪声等问题,实现了统一的图像恢复流程。
- Motivation: 低成本热成像相机存在低分辨率、固定模式噪声等局部退化问题,且可用数据集在规模和多样性上都很有限。
- Method: 采用基于patch的扩散框架,在小热图像patch上训练,通过去噪重叠patch并使用平滑空间窗口融合来恢复全分辨率图像。
- Result: 在去噪、超分辨率和去模糊任务上的实验表明,该方法在模拟和真实热数据上都取得了良好效果。
- Conclusion: 这是首个建模学习先验的基于patch扩散框架,用于多任务热图像恢复,建立了统一的恢复流程。
[20] SIGMA-GEN: Structure and Identity Guided Multi-subject Assembly for Image Generation
Oindrila Saha,Vojtech Krs,Radomir Mech,Subhransu Maji,Kevin Blackburn-Matzen,Matheus Gadelha
Main category: cs.CV
TL;DR: SIGMA-GEN是一个统一的多身份保持图像生成框架,支持单次多主体身份保持生成,结合结构和空间约束,并能处理从粗粒度到像素级的用户指导。
- Motivation: 现有方法在多主体身份保持图像生成方面存在局限,无法同时处理结构和空间约束,且缺乏统一的框架来支持不同精度的用户指导。
- Method: 引入SIGMA-SET27K合成数据集,提供身份、结构和空间信息;开发统一框架支持从2D/3D框到像素级分割和深度等多种用户指导方式。
- Result: SIGMA-GEN在身份保持、图像生成质量和速度方面达到最先进性能,通过广泛评估验证了其有效性。
- Conclusion: SIGMA-GEN是首个支持单次多主体身份保持生成的统一框架,能够处理多种精度级别的用户指导,在多个指标上表现优异。
[21] Superpixel Integrated Grids for Fast Image Segmentation
Jack Roberts,Jeova Farias Sales Rocha Neto
Main category: cs.CV
TL;DR: 提出SIGRID(超像素集成网格)数据结构,在分割任务中替代全分辨率图像,通过结合颜色和形状信息显著降低输入维度,在保持甚至超越像素级表示性能的同时加速模型训练。
- Motivation: 超像素在图像简化中具有计算潜力,但其不规则空间分布迫使深度学习依赖特殊训练算法和架构,违背了使用超像素的初衷。
- Method: 利用经典形状描述符,SIGRID编码超像素的颜色和形状信息,同时大幅减少输入维度。
- Result: 在四个基准数据集上使用两种流行的卷积分割架构进行评估,SIGRID不仅匹配甚至在某些情况下超越像素级表示性能,同时显著加速模型训练。
- Conclusion: SIGRID在准确性和计算效率之间实现了有利的平衡。
[22] Text2Interact: High-Fidelity and Diverse Text-to-Two-Person Interaction Generation
Qingxuan Wu,Zhiyang Dou,Chuan Guo,Yiming Huang,Qiao Feng,Bing Zhou,Jian Wang,Lingjie Liu
Main category: cs.CV
TL;DR: 提出了Text2Interact框架,通过可扩展的高保真交互数据合成器和有效的时空协调管道,生成真实且与文本对齐的人-人交互动作。
- Motivation: 当前人-人交互建模面临两大挑战:1) 有限的两人训练数据无法捕捉交互的多样性;2) 文本到交互建模不够精细,语言条件将丰富的结构化提示压缩为单一句子嵌入。
- Method: 包含两个核心组件:InterCompose(通过组合合成可扩展的交互数据)和InterActor(具有词级条件的文本到交互模型,包含自适应交互损失)。
- Result: 大量实验显示在运动多样性、保真度和泛化能力方面取得一致提升,包括分布外场景和用户研究。
- Conclusion: 提出的框架能够生成真实且与文本对齐的人-人交互,解决了现有方法的局限性,将发布代码和模型以促进可复现性。
[23] From Captions to Keyframes: Efficient Video Summarization via Caption- and Context-Aware Frame Scoring
Shih-Yao Lin,Sibendu Paul,Caren Chen
Main category: cs.CV
TL;DR: 提出了KeyScore多模态帧评分框架和STACFP空间-时间自适应聚类方法,用于从长视频中选择关键帧,实现99%的帧数减少,在多个数据集上优于标准8帧编码器。
- Motivation: 需要从长视频中选择少量保留语义和上下文信息的关键帧,以实现高效的视频-语言理解。
- Method: KeyScore联合利用字幕和视觉上下文估计帧级重要性,结合语义相似性、时间多样性和上下文丢失影响;STACFP生成紧凑多样的帧候选。
- Result: 在MSRVTT、MSVD和DiDeMo数据集上,相比全帧推理减少99%帧数,显著优于标准8帧编码器。
- Conclusion: 强调视觉和文本信号之间的多模态对齐,能够实现可扩展、高效且基于字幕的视频理解,无需显式视频摘要。
[24] LogSTOP: Temporal Scores over Prediction Sequences for Matching and Retrieval
Avishree Khare,Hideki Okamoto,Bardh Hoxha,Georgios Fainekos,Rajeev Alur
Main category: cs.CV
TL;DR: 提出了LogSTOP评分函数,用于在序列上计算时间属性的得分,基于局部属性检测器(如YOLO、HuBERT)的噪声预测结果,在视频和音频的时序逻辑查询匹配和排序检索任务中表现优异。
- Motivation: 将局部属性检测(如物体、情感)的得分提升到时序属性层面,对于下游应用如查询匹配和排序检索很有用,但现有方法在处理噪声预测和时序逻辑方面存在不足。
- Method: 提出了LogSTOP评分函数,能够高效计算线性时序逻辑表示的时间属性得分,结合YOLO、HuBERT等局部检测器。
- Result: 在视频物体和语音情感的时间属性查询匹配任务中,LogSTOP比大型视觉/音频语言模型和其他时序逻辑基线至少提升16%;在视频物体和动作的排序检索任务中,平均精度和召回率分别至少提升19%和16%。
- Conclusion: LogSTOP方法能够有效处理噪声局部预测,在时序属性评分任务中显著优于现有基线,为时序逻辑查询和检索提供了高效解决方案。
[25] Limited-Angle Tomography Reconstruction via Projector Guided 3D Diffusion
Zhantao Deng,Mériem Er-Rafik,Anna Sushko,Cécile Hébert,Pascal Fua
Main category: cs.CV
TL;DR: TEMDiff是一种基于3D扩散的迭代重建框架,用于解决有限角度电子断层扫描中的缺失楔形问题,无需清洁TEM地面实况数据即可学习结构先验。
- Motivation: 有限角度电子断层扫描存在缺失楔形问题导致重建伪影,而现有深度学习方法需要大量高质量3D地面实况数据,这在电子显微镜中难以获取。
- Method: 使用FIB-SEM体积数据通过模拟器映射到TEM倾斜序列进行训练,采用3D扩散模型直接在3D体积上操作,无需额外正则化即可强制切片间一致性。
- Result: 在模拟电子断层数据集上,TEMDiff在重建质量上优于最先进方法,且训练好的模型能泛化到不同条件下的真实TEM倾斜数据,即使倾斜范围窄至8度也能准确恢复结构。
- Conclusion: TEMDiff通过利用易获取的FIB-SEM数据和扩散模型,有效解决了有限角度电子断层扫描的重建挑战,具有优异的泛化能力。
[26] VUGEN: Visual Understanding priors for GENeration
Xiangyi Chen,Théophane Vallaeys,Maha Elbayad,John Nguyen,Jakob Verbeek
Main category: cs.CV
TL;DR: VUGEN是一个新颖的视觉语言模型框架,通过利用预训练的视觉理解先验来实现高效高质量的图像生成,无需复杂的自动编码器或桥接机制。
- Motivation: 现有的视觉语言模型在图像生成方面存在挑战,通常依赖重建导向的自动编码器或复杂的桥接机制,导致理解与生成表示之间的不对齐或架构复杂性。
- Method: 首先将VLM视觉编码器的高维潜在空间转换为低维可处理分布,然后训练VLM在该简化潜在空间中采样,最后使用专门的像素解码器将生成的潜在映射回图像空间。
- Result: VUGEN在图像生成性能上表现优异,将DPG Bench从71.17提升到74.32,COCO数据集上的FID从11.86改善到9.06,同时完全保留了VLM的原始理解能力。
- Conclusion: VUGEN框架成功地将视觉语言模型的视觉理解能力与图像生成相结合,实现了高效且高质量的图像生成,同时保持了原有的理解能力。
[27] Cluster Paths: Navigating Interpretability in Neural Networks
Nicholas M. Kroeger,Vincent Bindschaedler
Main category: cs.CV
TL;DR: 提出了一种名为cluster paths的后验可解释性方法,通过聚类激活并生成簇ID序列来表示输入,提供可解释的决策路径。
- Motivation: 现代深度神经网络在视觉任务中表现优异但决策过程不透明,存在盲目信任、未检测偏见和意外失败的风险。
- Method: 在选定层对激活进行聚类,将每个输入表示为其簇ID序列,并引入四个评估指标:路径复杂度、加权路径纯度、决策对齐忠实度和路径一致性。
- Result: 在CIFAR-10实验中识别出颜色捷径;在CelebA任务中达到90%忠实度和96%一致性;可扩展到Vision Transformer并用作有效的OOD检测器。
- Conclusion: 簇路径能够揭示多网络深度的视觉概念,为大型视觉模型生成简洁且人类可读的解释。
[28] HSNet: Heterogeneous Subgraph Network for Single Image Super-resolution
Qiongyang Hu,Wenyang Liu,Wenbin Zou,Yuejiao Su,Lap-Pui Chau,Yi Wang
Main category: cs.CV
TL;DR: 提出HSNet框架,通过构建异构子图网络来解决图像超分辨率中结构不灵活和计算复杂的问题,在保持计算可行性的同时实现高效图像重建。
- Motivation: 现有基于CNN和注意力机制的深度学习方法在图像超分辨率中存在结构不灵活问题,而基于图的方法虽然表示适应性更强但计算复杂度过高。
- Method: 提出异构子图网络(HSNet),包含构造性子图集块(CSSB)生成互补子图,子图聚合块(SAB)集成多图特征,以及节点采样策略(NSS)选择关键特征。
- Result: 大量实验表明HSNet实现了最先进的性能,有效平衡了重建质量与计算效率。
- Conclusion: HSNet通过分解全局图为可管理子组件,在保持计算可行性的同时实现了高效的图建模,为图像超分辨率提供了新的解决方案。
[29] Through the Perspective of LiDAR: A Feature-Enriched and Uncertainty-Aware Annotation Pipeline for Terrestrial Point Cloud Segmentation
Fei Zhang,Rob Chancia,Josie Clapp,Amirhossein Hassanzadeh,Dimah Dera,Richard MacKenzie,Jan van Aardt
Main category: cs.CV
TL;DR: 提出了一种半自动、不确定性感知的地面激光扫描点云语义分割流程,通过球面投影、特征增强、集成学习和针对性标注减少标注成本,构建了红树林3D数据集,并提供了数据效率和特征重要性的实证指导。
- Motivation: 解决地面激光扫描点云语义分割中手动标注成本高昂的问题,开发能够减少标注工作量同时保持高精度的自动化流程。
- Method: 将3D点云投影到2D球面网格,增强多源特征像素,训练集成分割网络生成伪标签和不确定性图,通过不确定性指导标注模糊区域,最后将2D结果反投影回3D。
- Result: 性能在约12个标注扫描后达到饱和,几何特征贡献最大,九通道特征堆叠几乎捕获所有判别能力,平均交并比稳定在0.76左右。
- Conclusion: 该流程能够实现可扩展、高质量的地面激光扫描点云分割,为生态监测等领域提供支持,特征增强策略在跨数据集测试中表现出良好的泛化能力。
[30] Improving Artifact Robustness for CT Deep Learning Models Without Labeled Artifact Images via Domain Adaptation
Justin Cheung,Samuel Savine,Calvin Nguyen,Lin Lu,Alhassan S. Yasin
Main category: cs.CV
TL;DR: 该研究评估了领域自适应方法在CT图像分类中对新伪影的鲁棒性,通过模拟环形伪影测试了领域对抗神经网络(DANN)的有效性。
- Motivation: 深度学习模型在训练分布外的图像上性能会显著下降,特别是在CT扫描中出现新伪影时。直接标注新分布图像成本高昂,因此需要更经济有效的解决方案。
- Method: 在sinogram空间模拟探测器增益误差产生的环形伪影,使用领域对抗神经网络(DANN)与基线方法和基于增强的方法进行比较,在OrganAMNIST腹部CT数据集上进行评估。
- Result: 仅使用干净图像训练的基线模型无法泛化到有环形伪影的图像,传统增强方法对未见过的伪影域也无改善。DANN方法仅使用未标记的伪影数据就能在环形伪影图像上保持高分类准确率,性能与使用标记伪影图像训练的模型相当,并意外地泛化到均匀噪声。
- Conclusion: 领域自适应能有效处理医学成像中的分布偏移,无需昂贵的新伪影分布专家标注,在可能出现新伪影的临床环境中具有应用前景。
[31] Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
Ziyuan Huang,DanDan Zheng,Cheng Zou,Rui Liu,Xiaolong Wang,Kaixiang Ji,Weilong Chai,Jianxin Sun,Libin Wang,Yongjie Lv,Taozhi Huang,Jiajia Liu,Qingpei Guo,Ming Yang,Jingdong Chen,Jun Zhou
Main category: cs.CV
TL;DR: MingTok提出了一种连续潜在空间的视觉分词器,通过三阶段架构统一视觉理解和生成任务,解决了传统离散分词器量化误差导致的语义表达限制问题。
- Motivation: 现有视觉分词方法通常在离散潜在空间中运行,与大型语言模型的token对齐,但量化误差会限制语义表达能力并降低视觉语言理解性能。
- Method: 采用三阶段顺序架构:低级编码、语义扩展和视觉重建,构建连续潜在空间的视觉分词器MingTok,并在此基础上开发Ming-UniVision统一框架。
- Result: 使用统一的连续视觉表示能够调和理解和生成任务对分词器的竞争需求,在理解和生成两个领域都达到了最先进的性能水平。
- Conclusion: 连续域的统一视觉分词方法能够有效解决理解和生成任务之间的冲突,支持多轮、上下文任务的无缝执行,为社区提供了新的解决方案。
[32] Adaptive Stain Normalization for Cross-Domain Medical Histology
Tianyue Xu,Yanlin Wu,Abhai K. Tripathi,Matthew M. Ippolito,Benjamin D. Haeffele
Main category: cs.CV
TL;DR: 提出了一种可训练的颜色归一化模型BeerLaNet,基于Beer-Lambert定律和非负矩阵分解,用于解决数字病理学中的颜色变异问题,在跨域目标检测和分类任务中表现优于现有方法。
- Motivation: 数字病理学中染色协议和成像条件的差异导致颜色变异,这会降低深度学习模型在不同数据条件下的性能(域偏移问题)。现有颜色归一化方法存在引入伪影或需要仔细选择模板图像等缺点。
- Method: 基于Beer-Lambert定律的物理成像过程,通过算法展开非负矩阵分解模型来提取染色不变的结构信息,构建可训练的颜色归一化模型,可与任何骨干网络集成用于下游任务。
- Result: 在公开病理学数据集和内部疟疾血涂片数据集上的实验表明,该方法在跨域目标检测和分类任务中优于许多最先进的染色归一化方法。
- Conclusion: 提出的BeerLaNet模型有效解决了数字病理学中的颜色变异问题,通过物理驱动的可训练归一化方法提升了模型在跨域场景下的性能。
[33] SDQM: Synthetic Data Quality Metric for Object Detection Dataset Evaluation
Ayush Zenith,Arnold Zumbrun,Neel Raut,Jing Lin
Main category: cs.CV
TL;DR: 本文提出了SDQM指标,用于评估目标检测任务中合成数据的质量,无需模型训练收敛即可评估,与YOLOv11的mAP分数强相关。
- Motivation: 机器学习模型性能严重依赖训练数据,但大规模高质量标注数据稀缺。合成数据虽能增强数据集多样性,但缺乏有效的质量评估指标。
- Method: 提出合成数据集质量指标(SDQM),通过分析数据特征直接评估合成数据质量,无需模型训练过程。
- Result: 实验显示SDQM与YOLOv11的mAP分数强相关,而现有指标仅显示中等或弱相关性。该指标还能提供改进数据集质量的可操作见解。
- Conclusion: SDQM为评估合成数据质量设立了新标准,具有可扩展性和高效性,能显著减少昂贵的迭代训练需求。
[34] AIM 2025 Challenge on Real-World RAW Image Denoising
Feiran Li,Jiacheng Li,Marcos V. Conde,Beril Besbinar,Vlad Hosu,Daisuke Iso,Radu Timofte
Main category: cs.CV
TL;DR: AIM 2025真实世界RAW图像去噪挑战赛,旨在通过数据合成推进高效去噪技术发展,基于五种不同DSLR相机拍摄的低光噪声图像建立新评估基准。
- Motivation: 推动基于合成数据的相机无关低光RAW图像去噪技术发展,促进与数字摄影快速进步相一致的鲁棒实用模型开发。
- Method: 建立包含五种不同DSLR相机拍摄的低光噪声图像的新评估基准,要求参赛者开发新颖的噪声合成流程、网络架构和训练方法。
- Result: 比赛结果将通过全参考指标(PSNR、SSIM、LPIPS)和无参考指标(ARNIQA、TOPIQ)综合评估确定优胜者。
- Conclusion: 该挑战赛有望影响从图像恢复到夜间自动驾驶等多个领域,推动真实世界RAW图像去噪技术的发展。
[35] Self-supervised Physics-guided Model with Implicit Representation Regularization for Fast MRI Reconstruction
Jingran Xu,Yuanyuan Liu,Yanjie Zhu
Main category: cs.CV
TL;DR: 提出UnrollINR框架,一种无需外部训练数据的零样本自监督MRI重建方法,结合展开迭代重建架构和隐式神经表示作为正则化先验,在10倍加速率下优于监督学习方法。
- Motivation: MRI扫描时间长限制了临床应用,深度学习重建方法能减少采集时间,但完全采样数据难以获取,需要自监督和无监督学习方法。
- Method: 采用物理引导的展开迭代重建架构,引入隐式神经表示作为正则化先验,结合深度展开结构和INR的隐式表示能力。
- Result: 在10倍加速率下,UnrollINR实现了优于监督学习方法的重建性能。
- Conclusion: 提出的方法验证了在无需外部训练数据的情况下实现高质量MRI重建的优越性。
[36] A Bridge from Audio to Video: Phoneme-Viseme Alignment Allows Every Face to Speak Multiple Languages
Zibo Su,Kun Wei,Jiahua Li,Xu Yang,Cheng Deng
Main category: cs.CV
TL;DR: 提出了MuEx框架,通过音素引导的专家混合架构,使用音素和视素作为音频和视频模态的通用中介,实现逼真的多语言语音驱动人脸合成。
- Motivation: 当前语音驱动人脸合成模型在英语上表现良好,但在非英语语言中表现不佳,产生错误的口型和僵硬的面部表情,这是由于英语主导的训练数据集和缺乏跨语言泛化能力造成的。
- Method: 使用音素和视素作为音频和视频特征的基本单元,提出音素引导的专家混合架构(PG-MoE)和音素-视素对齐机制(PV-Align)来解决视听同步问题,并构建了包含12种语言的多语言人脸合成基准数据集(MTFB)。
- Result: 实验表明MuEx在MTFB的所有语言上都取得了优越性能,并且在未见过的语言上表现出有效的零样本泛化能力,无需额外训练。
- Conclusion: MuEx框架通过音素和视素作为跨语言中介,成功解决了多语言语音驱动人脸合成的挑战,实现了逼真的面部动画生成和良好的跨语言泛化能力。
[37] MSITrack: A Challenging Benchmark for Multispectral Single Object Tracking
Tao Feng,Tingfa Xu,Haolin Qin,Tianhao Li,Shuaihao Han,Xuyang Zou,Zhan Lv,Jianan Li
Main category: cs.CV
TL;DR: MSITrack是迄今为止最大、最多样化的多光谱单目标跟踪数据集,包含300个视频、129k帧图像,涵盖55个物体类别和300个自然场景,显著提升了多光谱跟踪性能。
- Motivation: 现实世界中的视觉目标跟踪面临遮挡、相似物体干扰和复杂背景等挑战,RGB跟踪器效果有限。多光谱图像能增强目标区分能力,但现有多光谱跟踪数据集稀缺。
- Method: 构建MSITrack数据集,包含300个多光谱视频、129k帧图像,涵盖55个物体类别和300个自然场景。每个帧都经过精细处理、手动标注和多阶段验证以确保标注精度。
- Result: 使用代表性跟踪器进行的广泛评估表明,MSITrack中的多光谱数据相比仅使用RGB的基线显著提升了性能。
- Conclusion: MSITrack数据集具有推动多光谱跟踪领域未来发展的潜力,已公开可用。
[38] StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering
Zhihao Wen,Wenkang Wei,Yuan Fang,Xingtong Yu,Hui Zhang,Weicheng Zhu,Xin Zhang
Main category: cs.CV
TL;DR: StaR-KVQA通过监督结构化推理轨迹(符号关系路径+自然语言解释)来提升基于知识的视觉问答性能,无需外部知识库,仅使用多模态大语言模型作为知识源。
- Motivation: 解决IK-KVQA中MLLMs缺乏显式推理监督、产生不一致解释以及标准监督微调后泛化能力差的问题。
- Method: 构建路径接地的推理轨迹数据集,通过结构化自蒸馏进行微调,使生成与监督对齐,无需外部检索器或知识库。
- Result: 在多个基准测试中显著提升准确性和可解释性,在OK-VQA上比最强基线高出11.3%的答案准确率,并展现出强大的跨域泛化能力。
- Conclusion: StaR-KVQA通过结构化推理轨迹监督有效提升了MLLMs在知识型视觉问答中的性能和可解释性。
[39] Automated Neural Architecture Design for Industrial Defect Detection
Yuxi Liu,Yunfeng Ma,Yi Tang,Min Liu,Shuai Jiang,Yaonan Wang
Main category: cs.CV
TL;DR: AutoNAD是一个用于工业表面缺陷检测的自动化神经网络架构设计框架,通过联合搜索卷积、Transformer和多层感知机来解决类内差异和类间相似性挑战,同时引入跨权重共享策略和可搜索多级特征聚合模块来提高效率和性能。
- Motivation: 工业表面缺陷检测面临类内差异和类间相似性两大挑战,现有手动设计模型需要大量试错且难以有效解决这两个问题,因此需要自动化方法来降低网络设计成本并提升检测效果。
- Method: 提出AutoNAD框架,联合搜索卷积、Transformer和多层感知机,采用跨权重共享策略加速超网收敛,集成可搜索多级特征聚合模块增强多尺度特征学习,并引入延迟感知先验指导高效架构选择。
- Result: 在三个工业缺陷数据集上验证了AutoNAD的有效性,并在缺陷成像和检测平台中成功应用,代码将在GitHub上开源。
- Conclusion: AutoNAD能够有效解决工业表面缺陷检测中的关键挑战,通过自动化架构设计降低了人工成本,同时兼顾了检测精度和运行效率,适合工业部署。
[40] Heptapod: Language Modeling on Visual Signals
Yongxin Zhu,Jiawei Chen,Yuanzhe Chen,Zhuo Chen,Dongya Jia,Jian Cong,Xiaobin Zhuang,Yuping Wang,Yuxuan Wang
Main category: cs.CV
TL;DR: Heptapod是一种基于语言建模原理的图像自回归模型,采用因果注意力机制,消除对CFG的依赖,避免使用语义分词器,通过预测2D空间网格分布实现图像生成。
- Motivation: 重新思考视觉信号上的语言建模原理,统一自回归框架的顺序建模与掩码自编码的整体自监督学习。
- Method: 使用因果Transformer和重建导向的视觉分词器,通过预测整个2D空间网格的分布来学习图像生成。
- Result: 在ImageNet生成基准测试中达到FID 2.70,显著优于之前的因果自回归方法。
- Conclusion: 这项工作为视觉信号及其他领域的语言建模提供了原则性的重新思考方向。
[41] DreamOmni2: Multimodal Instruction-based Editing and Generation
Bin Xia,Bohao Peng,Yuechen Zhang,Junjia Huang,Jiyang Liu,Jingyao Li,Haoru Tan,Sitong Wu,Chengyao Wang,Yitong Wang,Xinglong Wu,Bei Yu,Jiaya Jia
Main category: cs.CV
TL;DR: 提出了DreamOmni2框架,解决多模态指令编辑和生成任务,支持文本和图像指令,涵盖具体和抽象概念,通过创新的数据合成流程和模型框架设计实现高效处理。
- Motivation: 现有指令图像编辑仅依赖语言指令难以捕捉具体编辑细节,而主题驱动生成仅限于具体对象,忽略了抽象概念。需要支持多模态指令并扩展概念范围来满足实际应用需求。
- Method: 采用三步数据合成流程:特征混合方法创建概念提取数据,使用编辑和提取模型生成多模态指令编辑训练数据,进一步应用提取模型创建训练数据。模型框架包含索引编码和位置编码偏移方案处理多图像输入,并与VLM联合训练处理复杂指令。
- Result: 实验表明DreamOmni2取得了令人印象深刻的结果,能够有效处理多模态指令编辑和生成任务。
- Conclusion: 提出的多模态指令编辑和生成任务扩展了现有方法的局限性,DreamOmni2通过创新的数据合成和模型设计成功解决了这些挑战,为实际应用提供了更强大的工具。
[42] Semantic Segmentation Algorithm Based on Light Field and LiDAR Fusion
Jie Luo,Yuxuan Jiang,Xin Jin,Mingyu Liu,Yihui Fan
Main category: cs.CV
TL;DR: 提出了首个融合光场数据和点云数据的多模态语义分割数据集,并开发了Mlpfseg网络,通过特征补全和深度感知模块有效融合两种模态,在遮挡条件下显著提升分割性能。
- Motivation: 解决自动驾驶场景理解中复杂条件(特别是遮挡)下的语义分割挑战,利用光场和LiDAR模态的互补视觉和空间线索,但受限于视角多样性和模态差异。
- Method: 提出Mlpfseg多模态融合分割网络,包含特征补全模块(通过点云特征图的差分重建解决密度不匹配问题)和深度感知模块(通过增强注意力分数提升遮挡感知能力)。
- Result: 相比仅图像分割提升1.71 mIoU,相比仅点云分割提升2.38 mIoU,证明方法的有效性。
- Conclusion: 提出的多模态融合方法能够同时分割相机图像和LiDAR点云,在遮挡条件下显著改善语义分割性能,为自动驾驶场景理解提供了更鲁棒的解决方案。
[43] SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis
Jipeng Lyu,Jiahua Dong,Yu-Xiong Wang
Main category: cs.CV
TL;DR: SCas4D是一个级联优化框架,利用3D高斯泼溅中的结构模式来建模动态场景,通过从粗到细的变形优化,在100次迭代内实现收敛,效果与现有方法相当但训练迭代次数仅为1/20。
- Motivation: 持久动态场景建模在跟踪和新视角合成方面仍然具有挑战性,因为需要在保持计算效率的同时捕捉准确的变形。
- Method: 提出SCas4D级联优化框架,利用3D高斯泼溅中的结构模式,通过从粗粒度部件级到细粒度点级的渐进式变形优化,利用真实世界变形通常呈现分层模式的特点。
- Result: 该方法在每时间帧100次迭代内实现收敛,结果与现有方法相当但训练迭代次数仅为1/20,在自监督关节物体分割、新视角合成和密集点跟踪任务中表现出有效性。
- Conclusion: SCas4D通过利用动态场景中的结构模式,实现了高效且准确的持久动态场景建模。
[44] Evaluating LLMs for Historical Document OCR: A Methodological Framework for Digital Humanities
Maria Levchenko
Main category: cs.CV
TL;DR: 提出了一个评估基于LLM的历史文档OCR的方法论,包含历史字符保留率和古体插入率等新指标,发现Gemini和Qwen模型表现优于传统OCR但存在过度历史化问题。
- Motivation: 数字人文学者越来越多地使用大语言模型进行历史文档数字化,但缺乏适当的评估框架来评估基于LLM的OCR,传统指标无法捕捉对历史语料库创建至关重要的时间偏见和时期特定错误。
- Method: 使用18世纪俄文民间字体文本,引入了历史字符保留率和古体插入率等新指标,以及污染控制和稳定性测试协议,评估了12个多模态LLM。
- Result: 发现Gemini和Qwen模型优于传统OCR,但表现出过度历史化:从错误的历史时期插入古体字符。OCR后校正反而降低了性能。
- Conclusion: 该方法论为数字人文学者在历史语料库数字化中提供了模型选择和质量评估的指导方针。
[45] DeRainMamba: A Frequency-Aware State Space Model with Detail Enhancement for Image Deraining
Zhiliang Zhu,Tao Zeng,Tao Yang,Guoliang Luo,Jiyong Zeng
Main category: cs.CV
TL;DR: 提出了DeRainMamba,结合频率感知状态空间模块和多向感知卷积,在图像去雨任务中实现了更好的细节保留和更低的计算成本。
- Motivation: 现有的Mamba模型在捕捉细粒度细节和频率域感知方面能力有限,限制了图像去雨效果的进一步提升。
- Method: 集成频率感知状态空间模块(FASSM)和多向感知卷积(MDPConv),FASSM利用傅里叶变换区分雨纹和图像细节,MDPConv通过捕捉各向异性梯度特征恢复局部结构。
- Result: 在四个公开基准测试中,DeRainMamba在PSNR和SSIM指标上持续优于最先进方法,同时需要更少的参数和计算成本。
- Conclusion: 在状态空间框架中结合频率域建模和空间细节增强对于单图像去雨是有效的。
[46] OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot
Junhan Zhu,Hesong Wang,Mingluo Su,Zefang Wang,Huan Wang
Main category: cs.CV
TL;DR: OBS-Diff是一个用于大规模文本到图像扩散模型的一次性剪枝框架,通过改进经典OBS算法,支持多种剪枝粒度,并提出了时间感知Hessian构建和分组顺序剪枝策略,实现高效压缩且视觉质量损失最小。
- Motivation: 大规模文本到图像扩散模型计算成本过高,现有的一次性网络剪枝方法难以直接应用于扩散模型,因为扩散模型具有迭代去噪的特性。
- Method: 1. 改进经典OBS算法,适应现代扩散模型复杂架构,支持非结构化、N:M半结构化和结构化剪枝;2. 提出时间感知Hessian构建,采用对数递减加权方案,更重视早期时间步;3. 提出计算高效的分组顺序剪枝策略。
- Result: 广泛实验表明,OBS-Diff在扩散模型一次性剪枝方面达到最先进水平,实现了推理加速且视觉质量退化最小。
- Conclusion: OBS-Diff成功解决了大规模文本到图像扩散模型的高效压缩问题,为扩散模型的实用化部署提供了有效解决方案。
[47] Transforming Noise Distributions with Histogram Matching: Towards a Single Denoiser for All
Sheng Fu,Junchao Zhang,Kailun Yang
Main category: cs.CV
TL;DR: 提出一种直方图匹配方法,将任意噪声转换为目标高斯分布,通过噪声转换与去噪的相互增强循环,使单个高斯去噪器能够处理各种分布外噪声。
- Motivation: 监督高斯去噪器在处理分布外噪声时泛化能力有限,因为不同噪声类型具有不同的分布特性。
- Method: 使用直方图匹配将任意噪声转换为已知强度的目标高斯分布,建立噪声转换与去噪的相互增强循环,采用局部直方图匹配、片内置换和频域直方图匹配等技术处理特定噪声复杂性。
- Result: 单个高斯去噪器获得了显著处理各种分布外噪声的能力,包括泊松噪声、椒盐噪声、重复模式噪声和复杂真实世界噪声。
- Conclusion: 该方法在广泛实验中展示了优越的泛化能力和有效性。
[48] A deep multiple instance learning approach based on coarse labels for high-resolution land-cover mapping
Gianmarco Perantoni,Lorenzo Bruzzone
Main category: cs.CV
TL;DR: 提出了一种基于深度多示例学习的方法,使用高分辨率遥感影像和低分辨率参考数据来训练土地覆盖分类器,通过灵活池化层连接像素语义与低分辨率标签,并在多类和多标签设置下重新构建MIL问题。
- Motivation: 解决高分辨率土地覆盖制图中训练标签数量和质量的问题,利用现有低分辨率产品获取大量弱标签数据。
- Method: 采用深度多示例学习框架,使用灵活池化层将高分辨率影像像素语义与低分辨率参考标签关联,在多类设置中低分辨率标签代表补丁中多数像素,在多标签设置中采用正未标记学习策略。
- Result: 在2020 IEEE GRSS数据融合竞赛数据集上的实验结果表明,该方法相比标准训练策略具有更好的效果。
- Conclusion: 提出的框架能够有效利用弱标签数据训练高分辨率土地覆盖分类器,为解决训练数据不足问题提供了可行方案。
[49] TTRV: Test-Time Reinforcement Learning for Vision Language Models
Akshit Singh,Shyam Marjit,Wei Lin,Paul Gavrikov,Serena Yeung-Levy,Hilde Kuehne,Rogerio Feris,Sivan Doveh,James Glass,M. Jehanzeb Mirza
Main category: cs.CV
TL;DR: 提出TTRV方法,在推理时无需标记数据即可自适应增强视觉语言理解,通过基于基础模型输出频率设计奖励,并在每个测试样本上多次推理,在物体识别和VQA任务上取得显著提升。
- Motivation: 现有强化学习奖励信号提取方法通常依赖标记数据和专用训练集,这与人类直接从环境中学习的方式形成对比。希望开发无需标记数据、在推理时自适应学习的方法。
- Method: 增强GRPO框架,基于基础模型输出频率设计奖励,在每个测试样本上多次推理,同时通过奖励输出经验分布的低熵来控制输出多样性。
- Result: 在物体识别和VQA任务上分别获得最高52.4%和29.8%的提升,平均提升24.6%和10.0%。在图像识别上,TTRV应用于InternVL 8B超越GPT-4o平均2.3%。即使在单样本场景下也能获得5.5%的提升。
- Conclusion: 测试时强化学习能够匹配或超越最强专有模型,证明了在无需标记数据情况下通过推理时自适应学习实现性能提升的可行性。
[50] Extreme Amodal Face Detection
Changlin Song,Yunzhong Hou,Michael Randall Barnes,Rahul Shome,Dylan Campbell
Main category: cs.CV
TL;DR: 提出了一种基于热图的极端非模态目标检测器,使用选择性粗到细解码器从单张图像中高效推断出视野外的人脸位置。
- Motivation: 解决极端非模态检测问题,即从输入图像推断出视野外物体的2D位置,特别是在安全和隐私相关的人脸检测应用中。
- Method: 设计热图基础的极端非模态目标检测器,采用选择性粗到细解码器,利用图像上下文线索高效推断未见面部位置。
- Result: 该方法在新任务上取得了强劲结果,甚至优于效率较低的生成功方法。
- Conclusion: 提出的样本自由方法能够高效地从单张图像中推断视野外物体位置,为极端非模态检测提供了有效解决方案。
[51] VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance
Teng Wang,Haojun Jiang,Yuxuan Wang,Zhenguo Sun,Shiji Song,Gao Huang
Main category: cs.CV
TL;DR: 该论文提出了一种参数高效的视觉-动作适配器(VA-Adapter),将超声基础模型的医学知识迁移到探头引导任务中,帮助初级超声医师实时获取高质量心脏超声图像。
- Motivation: 心脏超声操作难度极高,缺乏熟练操作人员,导致患者难以及时获得检查服务。需要为初级超声医师提供实时操作指导来获取高质量超声图像。
- Method: 设计参数高效的VA-Adapter,使预训练超声基础模型的图像编码器能够编码视觉-动作序列,通过仅微调少量参数来学习精确的探头调整策略。
- Result: 大量实验表明,VA-Adapter能够超越强大的探头引导模型性能。
- Conclusion: VA-Adapter成功将基础模型的医学知识迁移到探头引导任务,为初级超声医师提供了有效的实时操作指导。
[52] Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking
Mitchell Keren Taraday,Shahaf Wagner,Chaim Baskin
Main category: cs.CV
TL;DR: EDJE是一种高效的判别性联合编码器,通过预计算视觉token并使用轻量级注意力适配器压缩,大幅减少存储和在线计算需求,在保持检索性能的同时实现高吞吐量推理。
- Motivation: 多模态检索主要依赖CLIP等嵌入模型进行向量搜索,但缺乏类似文本检索中的联合编码器重排序器。现有联合编码器如BLIP因昂贵的视觉特征提取阶段而受限,无法在实际规模部署。
- Method: 提出EDJE方法:预计算视觉token离线,通过轻量级注意力适配器压缩,在线推理时仅运行紧凑的联合编码器处理少量视觉token和文本。
- Result: EDJE处理速度达50k图像-文本对/秒,每张图像仅需49kB磁盘存储,在Flickr(零样本)和COCO(微调)检索任务上达到先前最佳水平。
- Conclusion: EDJE通过预计算和压缩视觉token,在保持强大检索性能的同时显著降低存储和计算需求,实现了高效的多模态重排序。
[53] StyleKeeper: Prevent Content Leakage using Negative Visual Query Guidance
Jaeseok Jeong,Junho Kim,Gayoung Lee,Yunjey Choi,Youngjung Uh
Main category: cs.CV
TL;DR: 提出了一种名为负视觉查询引导(NVQG)的新方法,通过扩展无分类器引导并利用交换自注意力来减少文本到图像生成中的内容泄漏问题。
- Motivation: 解决现有视觉提示方法中存在的内容泄漏问题,即视觉风格提示中不需要的内容元素与预期风格一起被转移。
- Method: 1) 扩展无分类器引导(CFG)以利用交换自注意力;2) 提出负视觉查询引导(NVQG),通过故意模拟内容泄漏场景来交换自注意力层中的查询而不是键和值。
- Result: 该方法在各种风格和文本提示的广泛评估中表现出优于现有方法的性能,能准确反映参考图像的风格并确保生成图像与文本提示匹配。
- Conclusion: NVQG是一种简单而有效的方法,显著减少了内容泄漏,并为使用真实图像作为视觉风格提示提供了解决方案。
[54] Lattice-allocated Real-time Line Segment Feature Detection and Tracking Using Only an Event-based Camera
Mikihiro Ikura,Arren Glover,Masayoshi Mizuno,Chiara Bartolozzi
Main category: cs.CV
TL;DR: 提出了一种仅使用高分辨率事件相机进行实时线段检测和跟踪的方法,通过速度不变事件表示、基于拟合得分的线段检测和端点扰动的线段跟踪,在实时性和准确性上优于现有方法。
- Motivation: 事件相机能有效捕捉人造环境的几何特征,但现有方法要么依赖额外的帧相机,要么难以处理高事件率。本研究旨在实现仅使用现代高分辨率事件相机的实时线段检测和跟踪。
- Method: 采用晶格分配流水线,包括:(i) 速度不变事件表示;(ii) 基于拟合得分的线段检测;(iii) 通过端点扰动进行线段跟踪。
- Result: 在专门记录的数据集和公共数据集上的评估表明,该方法实现了实时性能,并且在准确性上优于最先进的仅使用事件和事件-帧混合基线方法。
- Conclusion: 该方法实现了完全独立的事件相机操作,能够在真实世界环境中实现实时线段检测和跟踪。
[55] Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization
Kanglei Zhou,Qingyi Pan,Xingxing Zhang,Hubert P. H. Shum,Frederick W. B. Li,Xiaohui Liang,Liyuan Wang
Main category: cs.CV
TL;DR: 提出了持续动作质量评估(CAQA)框架,通过自适应流形对齐图正则化(MAGR++)解决传统方法在非平稳质量分布下的泛化问题,在多个基准测试中取得最优性能。
- Motivation: 现实场景中动作质量分布具有非平稳特性,限制了传统方法的泛化能力,需要引入持续学习能力来处理演化分布并缓解灾难性遗忘。
- Method: 提出MAGR++方法,结合全参数微调进行有效表示学习,通过流形投影器将历史特征转换到当前表示空间,并使用图正则化器对齐局部和全局分布。
- Result: 在四个CAQA基准测试中,MAGR++离线平均相关性提升3.6%,在线提升12.2%,优于最强基线方法。
- Conclusion: MAGR++通过稳定的骨干网络微调和特征校正流程,有效解决了CAQA中的灾难性遗忘问题,在非平稳分布场景下表现出优异的鲁棒性和有效性。
[56] Online Generic Event Boundary Detection
Hyungrok Jung,Daneul Kim,Seunggyun Lim,Jeany Son,Jonghyun Choi
Main category: cs.CV
TL;DR: 提出了在线通用事件边界检测任务(On-GEBD),并开发了基于事件分割理论的Estimator框架,该框架通过预测未来帧和测量预测误差来实时检测事件边界。
- Motivation: 现有GEBD方法需要处理完整视频帧,而人类能够在线实时处理数据,因此需要开发能够在流媒体视频中立即检测通用事件边界的在线方法。
- Method: 提出Estimator框架,包含两个关键组件:一致性事件预测器(CEA)生成未来帧预测,在线边界判别器(OBD)测量预测误差并自适应调整阈值来捕获事件转换。
- Result: 在Kinetics-GEBD和TAPOS数据集上,Estimator优于所有从最新在线视频理解模型改编的基线方法,性能与先前的离线GEBD方法相当。
- Conclusion: 该研究成功地将事件分割理论应用于在线事件边界检测,证明了在流媒体视频中实时检测通用事件边界的可行性。
[57] Explaining raw data complexity to improve satellite onboard processing
Adrien Dorise,Marjorie Bellizzi,Adrien Girard,Benjamin Francesconi,Stéphane May
Main category: cs.CV
TL;DR: 研究探索了在卫星上直接使用原始传感器数据进行目标检测时深度学习模型的性能表现,发现原始数据训练模型在高置信度下边界识别存在困难。
- Motivation: 随着处理能力提升,在卫星上直接部署AI模型变得可行,但使用原始传感器数据而非预处理数据带来了新挑战,目前缺乏对原始数据直接利用的研究。
- Method: 引入模拟工作流程从高分辨率L1图像生成原始数据产品,在两个目标检测模型(YOLOv11s和YOLOX-S)上分别使用原始数据和L1数据进行训练,并比较性能。
- Result: 在低到中等置信度阈值下两种模型表现相似,但原始数据训练模型在高置信度水平下难以准确识别物体边界。
- Conclusion: 通过改进轮廓识别方法调整AI架构可以增强原始图像上的目标检测性能,从而改进遥感星载AI应用。
[58] HARP-NeXt: High-Speed and Accurate Range-Point Fusion Network for 3D LiDAR Semantic Segmentation
Samir Abou Haidar,Alexandre Chariot,Mehdi Darouich,Cyril Joly,Jean-Emmanuel Deschaud
Main category: cs.CV
TL;DR: HARP-NeXt是一个高速准确的LiDAR语义分割网络,通过新颖的预处理方法和多尺度特征融合,在nuScenes和SemanticKITTI基准测试中实现了优越的速度-精度平衡,比PTv3快24倍且性能相当。
- Motivation: 现有LiDAR语义分割方法在精度和速度之间存在权衡:基于点和稀疏卷积的方法准确但速度慢,基于投影的方法速度快但丢失几何信息,且多数方法依赖测试时增强进一步降低推理速度。预处理阶段在所有方法中都会增加执行时间并对嵌入式平台要求高。
- Method: 提出新颖的预处理方法显著减少计算开销;设计Conv-SE-NeXt特征提取块,无需深度层堆叠即可高效捕获表示;采用多尺度范围-点融合骨干网络,在多个抽象级别利用信息以保留关键几何细节。
- Result: 在nuScenes和SemanticKITTI基准测试中,HARP-NeXt相比所有最先进方法实现了优越的速度-精度平衡,在不依赖集成模型或测试时增强的情况下,性能与排名第一的PTv3相当,但运行速度快24倍。
- Conclusion: HARP-NeXt通过高效的预处理、特征提取和多尺度融合策略,成功解决了LiDAR语义分割中精度与速度的权衡问题,为资源受限的嵌入式系统提供了实用的解决方案。
[59] Lung Infection Severity Prediction Using Transformers with Conditional TransMix Augmentation and Cross-Attention
Bouthaina Slika,Fadi Dornaika,Fares Bougourzi,Karim Hammoudi
Main category: cs.CV
TL;DR: 提出了一种用于肺部感染严重程度评估的新方法,结合Transformer架构和自定义数据增强策略,在CT扫描和胸部X光片上均表现优异。
- Motivation: 肺部感染特别是肺炎在疫情期间可能迅速恶化,需要准确的AI严重程度预测来支持及时临床决策和优化患者预后。
- Method: QCross-Att-PVT:基于Transformer的并行编码器架构,集成交叉门控注意力机制和特征聚合器;Conditional Online TransMix:针对数据集不平衡的自定义数据增强策略。
- Result: 在两个基准数据集RALO CXR和Per-COVID-19 CT上评估,该方法持续优于多个最先进的深度学习模型。
- Conclusion: 该方法提供了可靠、适应性强的工具,支持临床诊断、疾病监测和个性化治疗规划,强调了数据增强和门控注意力在提高鲁棒性和预测准确性中的关键作用。
[60] Label-frugal satellite image change detection with generative virtual exemplar learning
Hichem Sahbi
Main category: cs.CV
TL;DR: 提出一种基于主动学习的新型变化检测算法,通过可逆图卷积网络生成虚拟样本,选择最具代表性的未标记样本进行标注,提高标注效率。
- Motivation: 现有深度学习方法依赖大量人工标注数据,但标注成本高昂且受用户主观性影响,需要更高效的标注策略。
- Method: 使用可逆图卷积网络生成虚拟样本,通过对抗性损失衡量数据的代表性、多样性和模糊性,选择最具挑战性的样本进行标注。
- Result: 大量实验表明,该方法在标签效率方面优于对比方法,能够显著减少标注需求。
- Conclusion: 该方法通过主动学习策略有效提高了变化检测的标注效率,为遥感图像分析提供了更实用的解决方案。
[61] IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction
Ran Yi,Teng Hu,Zihan Su,Lizhuang Ma
Main category: cs.CV
TL;DR: IAR2提出了一个先进的层次化自回归框架,通过语义-细节关联双码本将图像表示解耦为语义码本和细节码本,实现了从线性到多项式尺度的量化能力扩展,显著提升了生成质量和计算效率。
- Motivation: 现有的自回归模型往往忽略了视觉数据的固有结构特性,之前的IAR方法虽然通过基于嵌入相似性的视觉码本重组改进了生成鲁棒性,但受到预训练码本刚性和硬均匀聚类不准确性的限制。
- Method: 提出语义-细节关联双码本、语义-细节自回归预测方案、局部上下文增强自回归头,以及用于条件生成的渐进注意力引导自适应CFG机制。
- Result: 在ImageNet上实现了1.50的FID分数,在自回归图像生成方面达到了新的最先进水平,同时展示了优越的计算效率。
- Conclusion: IAR2通过结构化的从粗到细生成策略,不仅超越了先前方法的性能,还证明了层次化语义-细节合成过程的有效性。
[62] OBJVanish: Physically Realizable Text-to-3D Adv. Generation of LiDAR-Invisible Objects
Bing Li,Wuqi Wang,Yanan Zhang,Jingzheng Li,Haigen Min,Wei Feng,Xingyu Zhao,Jie Zhang,Qing Guo
Main category: cs.CV
TL;DR: 提出了一种基于文本到3D的对抗生成方法,能够生成对LiDAR检测器完全不可见的3D行人模型,并在物理环境中实现攻击。
- Motivation: 现有3D对抗攻击方法存在两个关键限制:很少能导致物体完全消失,且难以在物理环境中实现。需要开发物理可实现的攻击方法来充分测试LiDAR检测系统的漏洞。
- Method: 提出物理信息文本到3D对抗生成(Phy3DAdvGen),通过系统优化文本提示(动词、对象和姿态)来生成LiDAR不可见的行人。为确保物理可实现性,构建包含13个真实物体3D模型的对象池,并约束生成过程基于这些对象的组合。
- Result: 该方法生成的3D行人能够在CARLA仿真和物理环境中逃逸六种最先进的LiDAR 3D检测器,成功实现了物理可实现的对抗攻击。
- Conclusion: 该方法能够有效生成物理可实现的对抗样本,揭示了安全关键应用中的漏洞,为测试LiDAR检测系统提供了有效工具。
[63] Generating Surface for Text-to-3D using 2D Gaussian Splatting
Huanning Dong,Fan Li,Ping Kuang,Jianwen Min
Main category: cs.CV
TL;DR: DirectGaussian是一种新的文本到3D建模方法,通过使用条件文本生成模型和2D高斯泼溅技术,结合多视角法线和纹理先验来生成3D物体表面,解决了复杂几何形状的生成挑战。
- Motivation: 由于自然世界中物体几何形状复杂,当前方法要么利用2D扩散先验恢复3D几何,要么基于特定3D表示直接训练模型,存在局限性。
- Method: 提出DirectGaussian方法,使用条件文本生成模型,通过2D高斯泼溅渲染3D物体表面,结合多视角法线和纹理先验,并在优化过程中加入曲率约束以确保多视角几何一致性。
- Result: 通过大量实验证明,该框架能够实现多样化和高保真度的3D内容生成。
- Conclusion: DirectGaussian在3D内容生成方面表现出色,能够有效处理复杂几何形状的生成问题。
[64] Learning Global Representation from Queries for Vectorized HD Map Construction
Shoumeng Qiu,Xinrun Li,Yang Long,Xiangyang Xue,Varun Ojha,Jian Pu
Main category: cs.CV
TL;DR: 提出MapGR框架,通过全局表示学习改进HD地图构建,解决现有DETR方法中查询视角局部化的问题,在nuScenes和Argoverse2数据集上取得显著性能提升。
- Motivation: 现有基于DETR的HD地图构建方法依赖独立可学习对象查询,导致查询视角过于局部化,忽略了HD地图中固有的全局表示特性。
- Method: 提出MapGR架构,包含两个协同模块:全局表示学习(GRL)模块通过整体分割任务使查询分布与全局地图对齐;全局表示指导(GRG)模块为每个查询提供显式的全局上下文信息。
- Result: 在nuScenes和Argoverse2数据集上的评估表明,该方法相比领先基线在平均精度(mAP)上有显著提升。
- Conclusion: MapGR通过学习和利用全局表示,有效改进了HD地图的向量化构建性能,证明了全局表示在自动驾驶系统中的重要性。
[65] Addressing the ID-Matching Challenge in Long Video Captioning
Zhantao Yang,Huangji Wang,Ruili Feng,Han Zhang,Yuting Hu,Shangwen Zhu,Junyan Li,Yu Liu,Fan Cheng
Main category: cs.CV
TL;DR: 本文提出RICE方法,通过增强LVLMs的身份匹配能力来改进长视频字幕生成,将ID-Matching精度从50%提升到90%,召回率从15%提升到80%。
- Motivation: 长视频字幕生成面临ID-Matching问题,即准确识别不同帧中出现的同一人物。现有方法泛化能力有限且依赖点对点匹配,效果不佳。
- Method: 基于LVLMs构建RICE方法,通过增强图像信息利用和增加个体描述信息量来提升ID-Matching能力,并建立了新的评估基准。
- Result: 在GPT-4o上实现ID-Matching精度从50%到90%,召回率从15%到80%的显著提升,能够持续跟踪长视频中不同个体的身份。
- Conclusion: RICE方法有效解锁了LVLMs固有的ID-Matching能力,显著提升了长视频字幕生成中的人物身份识别性能。
[66] No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts
Girolamo Macaluso,Lorenzo Mandelli,Mirko Bicchierai,Stefano Berretti,Andrew D. Bagdanov
Main category: cs.CV
TL;DR: 提出基于强化学习的后训练框架,仅使用文本提示微调预训练运动扩散模型,无需运动真值数据,实现跨数据集和留一运动实验的适应。
- Motivation: 现有扩散模型适应新动作或风格需要额外运动捕捉数据和完整重训练,成本高且难以扩展。
- Method: 使用预训练文本-运动检索网络作为奖励信号,通过Denoising Diffusion Policy Optimization优化扩散策略,无需配对运动数据。
- Result: 在HumanML3D和KIT-ML数据集上,方法在质量和多样性上持续改进生成运动,同时保持原始分布性能。
- Conclusion: 该方法为运动适应提供了灵活、数据高效且保护隐私的解决方案。
[67] Bayesian Modelling of Multi-Year Crop Type Classification Using Deep Neural Networks and Hidden Markov Models
Gianmarco Perantoni,Giulio Weikmann,Lorenzo Bruzzone
Main category: cs.CV
TL;DR: 提出了一种结合深度学习和贝叶斯建模的新方法,使用隐马尔可夫模型与Transformer编码器深度神经网络,用于年度卫星图像时间序列分类,特别关注作物类型序列的时间一致性。
- Motivation: 年度土地覆盖图的时间一致性对于模拟多年土地覆盖演变和变化至关重要,需要捕捉年度卫星图像时间序列中的复杂时间相关性以及多年作物类型序列的特定模式。
- Method: 将隐马尔可夫模型层构建在Transformer编码器之上,利用HMM层进行级联分类,识别一致的年度作物类型序列。
- Result: 在包含47种作物类型和六年Sentinel-2采集数据的多年作物类型分类数据集上进行验证,结果显示建模时间一致性显著提升了整体性能和F1分数。
- Conclusion: 隐马尔可夫模型能够有效增强分类性能,证明了所提出方法在捕捉时间一致性方面的有效性。
[68] U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking
Fenghe Tang,Chengqi Dong,Wenxin Ma,Zikang Xu,Heqin Zhu,Zihang Jiang,Rongsheng Wang,Yuhao Wang,Chenxu Wu,Shaohua Kevin Zhou
Main category: cs.CV
TL;DR: U-Bench是首个大规模、统计严谨的基准测试,评估了100个U-Net变体在28个数据集和10种成像模态上的表现,填补了医学图像分割领域缺乏全面基准的空白。
- Motivation: 尽管U-Net在过去十年主导医学图像分割领域,产生了数千种变体,但缺乏系统性的性能评估基准,主要原因是统计验证不足以及对效率和泛化能力的考虑有限。
- Method: U-Bench从三个关键维度评估模型:统计鲁棒性、零样本泛化能力和计算效率,并引入新的U-Score指标来捕捉性能-效率权衡。
- Result: 通过大规模评估,系统分析了数据集特征和架构范式对模型性能的影响,并提出了模型顾问代理来指导研究人员选择最适合特定任务的模型。
- Conclusion: U-Bench不仅揭示了先前评估中的差距,还为未来十年基于U-Net的分割模型建立了公平、可重现且具有实际相关性的基准测试基础。
[69] Concept Retrieval -- What and How?
Ori nizan,Oren Shrout,Ayellet Tal
Main category: cs.CV
TL;DR: 提出了一种基于概念相似性的图像检索方法,通过双峰高斯分布建模嵌入空间邻域结构来识别共享概念,超越了传统的视觉或语义相似性检索。
- Motivation: 传统图像检索方法主要关注视觉或语义相似性,但无法有效捕捉图像背后的核心概念和叙事。本文旨在检索与查询图像共享中心概念的图像,即使它们在视觉上不相似。
- Method: 基于两个关键观察:(1)嵌入空间中的邻居通常与查询共享至少一个概念,但邻居之间不一定共享相同概念;(2)使用双峰高斯分布建模邻域结构有助于概念识别。
- Result: 通过定性、定量和人工评估验证了方法的有效性,能够成功检索共享核心概念的图像。
- Conclusion: 该方法在概念级图像检索方面表现出色,为理解图像背后的叙事提供了新的技术途径。
[70] DADO: A Depth-Attention framework for Object Discovery
Federico Gonzalez,Estefania Talavera,Petia Radeva
Main category: cs.CV
TL;DR: 提出DADO模型,结合注意力机制和深度模型进行无监督物体发现,通过动态权重自适应调整特征,在标准基准测试中优于现有方法
- Motivation: 解决无监督物体发现中噪声注意力图和复杂深度场景的挑战,无需人工标注即可识别和定位图像中的物体
- Method: 结合注意力机制和深度模型,使用动态权重根据图像全局特征自适应强调注意力或深度特征
- Result: 在标准基准测试中优于最先进方法,在物体发现准确性和鲁棒性方面表现更好,且无需微调
- Conclusion: DADO模型通过结合注意力与深度信息,有效解决了无监督物体发现中的关键挑战,取得了优越性能
[71] Enhancing Concept Localization in CLIP-based Concept Bottleneck Models
Rémi Kazmierczak,Steve Azzolin,Eloïse Berthier,Goran Frehse,Gianni Franchi
Main category: cs.CV
TL;DR: 本文提出CHILI方法来解决CLIP在概念瓶颈模型中产生的概念幻觉问题,通过解耦图像嵌入和定位目标概念像素来提高解释的忠实度。
- Motivation: 现有基于CLIP的概念瓶颈模型存在概念幻觉问题,即错误预测图像中概念的存在或缺失,这会削弱解释的可信度。
- Method: 提出CHILI技术,通过解耦图像嵌入和定位目标概念像素来抑制概念幻觉,同时支持生成更可解释的基于显著性的解释。
- Result: CHILI方法能够有效减少概念幻觉,提高概念预测的准确性,并生成更忠实和可解释的解释。
- Conclusion: CHILI为解决概念瓶颈模型中的概念幻觉问题提供了一种有效方法,提高了可解释AI的可靠性和实用性。
[72] MoRe: Monocular Geometry Refinement via Graph Optimization for Cross-View Consistency
Dongki Jung,Jaehoon Choi,Yonghan Lee,Sungmin Eum,Heesung Kwon,Dinesh Manocha
Main category: cs.CV
TL;DR: MoRe是一种无需训练的单目几何优化方法,通过特征匹配和图优化框架提升跨视图一致性并解决尺度模糊问题,同时改进3D重建和新视角合成。
- Motivation: 单目3D基础模型为感知任务提供了可扩展解决方案,但存在跨视图一致性和尺度对齐问题,需要改进这些方面以支持更广泛的3D视觉应用。
- Method: 使用特征匹配建立帧间对应关系,采用基于图的优化框架进行局部平面近似,利用单目基础模型估计的3D点和表面法向量,避免简单的点匹配最小二乘优化。
- Result: MoRe不仅增强了3D重建质量,还显著改善了稀疏视图渲染场景下的新视角合成效果。
- Conclusion: 提出的训练免费方法有效解决了单目几何先验中的尺度模糊问题,同时保持了底层3D结构,为单目3D感知提供了实用的几何优化方案。
[73] Validation of Various Normalization Methods for Brain Tumor Segmentation: Can Federated Learning Overcome This Heterogeneity?
Jan Fiszer,Dominika Ciupek,Maciej Malawski
Main category: cs.CV
TL;DR: 该研究探讨了联邦学习在非独立同分布医学影像数据上的表现,通过模拟不同MRI强度归一化方法创建异构数据环境,发现联邦学习在脑肿瘤分割任务中表现稳健,达到92%的3D Dice分数,与集中式训练相当。
- Motivation: 解决医学影像深度学习中数据隐私、存储和传输的挑战,特别是在处理非独立同分布数据时联邦学习效果可能下降的问题。
- Method: 通过应用不同的MRI强度归一化技术创建非独立同分布数据子集,模拟真实世界中的异构性,然后在这些子集上训练和测试脑肿瘤分割模型。
- Result: 联邦学习方法对客户端间不一致的归一化数据表现出韧性,达到92%的3D Dice分数,与使用所有数据的集中式模型性能相当。
- Conclusion: 联邦学习是训练高性能模型而不违反数据隐私的有效解决方案,在医学应用中具有重要价值。
[74] Graph Conditioned Diffusion for Controllable Histopathology Image Generation
Sarah Cechnicka,Matthew Baugh,Weitong Zhang,Mischa Dombrowski,Zhe Li,Johannes C. Paetzold,Candice Roufosse,Bernhard Kainz
Main category: cs.CV
TL;DR: 提出基于图结构的对象级表示方法Graph-Conditioned-Diffusion,用于医学图像的受控生成,通过图节点表示图像中的主要结构及其关系,实现精细控制。
- Motivation: 现有扩散概率模型在噪声潜在空间中缺乏语义结构和强先验,难以在医学图像等敏感领域实现有意义的受控生成。医学图像具有固有的结构特征,这些特征对诊断至关重要。
- Method: 使用基于图的对象级表示方法,为图像中每个主要结构生成图节点,包含个体特征和关系。通过transformer模块处理图表示,并利用文本条件机制集成到扩散模型中。
- Result: 在真实组织病理学用例中评估,生成的图像数据可以可靠地替代标注的患者数据,用于下游分割任务。
- Conclusion: 提出的图条件扩散方法能够实现医学图像的精细受控生成,生成的图像在分割任务中表现良好,代码已开源。
[75] Few-Shot Adaptation Benchmark for Remote Sensing Vision-Language Models
Karim El Khoury,Maxime Zanella,Christophe De Vleeschouwer,Benoit Macq
Main category: cs.CV
TL;DR: 该论文提出了首个用于评估遥感视觉语言模型(RSVLMs)在少样本学习场景下适应能力的结构化基准测试,通过十个遥感场景分类数据集和五种少样本适应策略对三种先进RSVLMs进行全面实验。
- Motivation: 尽管遥感视觉语言模型在大规模预训练后展现出强大的零样本性能,但它们在少样本学习等低数据场景下的泛化能力尚未得到充分探索。
- Method: 构建了包含十个遥感场景分类数据集的结构化基准,应用五种广泛使用的少样本适应策略对三种不同骨干网络的最先进RSVLMs进行综合实验。
- Result: 研究发现,具有相似零样本性能的模型在少样本适应下表现出显著不同的行为,某些RSVLMs天生更适合这种适应。现有方法中缺乏明确的优胜者,性能存在较大变异性。
- Conclusion: 需要开发专门针对遥感领域的更鲁棒的少样本适应方法。作者提供了可复现的基准测试框架和开源代码,以促进未来研究。
[76] Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods
Chenfei Liao,Wensong Wang,Zichen Wen,Xu Zheng,Yiyu Wang,Haocong He,Yuanhuiyi Lyu,Lutao Jiang,Xin Zou,Yuqian Fu,Bin Ren,Linfeng Zhang,Xuming Hu
Main category: cs.CV
TL;DR: 本文发现当前多模态大语言模型的视觉token压缩评估存在任务不匹配问题,简单下采样方法在多个基准测试中优于复杂压缩方法,作者提出了VTC-Bench评估框架来去噪现有基准。
- Motivation: 现有基准测试原本设计用于评估MLLM的感知和推理能力,而非视觉token压缩技术,导致直接应用时存在任务不匹配问题。
- Method: 通过广泛实验发现下采样可作为数据过滤器来评估样本难度,并开发了VTC-Bench框架,包含数据过滤机制来去噪现有基准。
- Result: 研究发现当前基准对视觉token压缩任务存在噪声,简单下采样方法在多个基准上持续优于先进压缩方法。
- Conclusion: 提出了VTC-Bench评估框架,能够更公平准确地评估视觉token压缩方法,所有数据和代码已开源。
[77] MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis
Yihao Zhi,Chenghong Li,Hongjie Liao,Xihe Yang,Zhengwentai Sun,Jiahao Chang,Xiaodong Cun,Wensen Feng,Xiaoguang Han
Main category: cs.CV
TL;DR: MV-Performer是一个用于从单目全身捕捉生成同步新视角视频的创新框架,专注于以人为中心的360度视角合成。
- Motivation: 当前视频生成方法主要集中于前视视角的相机轨迹重定向,难以生成360度视角变化,特别是在以人为中心的场景中。
- Method: 利用MVHumanNet数据集,使用基于定向部分点云渲染的相机相关法线图作为条件信号,提出多视角以人为中心的视频扩散模型融合参考视频、部分渲染和不同视角信息。
- Result: 在三个数据集上的广泛实验表明MV-Performer在效果和鲁棒性方面达到最先进水平。
- Conclusion: MV-Performer为以人为中心的4D新视角合成建立了一个强大的模型基准。
[78] Resolution scaling governs DINOv3 transfer performance in chest radiograph classification
Soroosh Tayebi Arasteh,Mina Shaigan,Christiane Kuhl,Jakob Nikolas Kather,Sven Nebelung,Daniel Truhn
Main category: cs.CV
TL;DR: DINOv3在512x512分辨率下在胸部X光图像分析中表现最佳,相比DINOv2和ImageNet初始化有显著改进,但更高分辨率(1024x1024)无额外收益。ConvNeXt-B架构优于ViT-B/16,微调的中等规模骨干网络在512x512分辨率下提供最优性能。
- Motivation: 评估自监督学习(SSL)在胸部X光图像分析中的价值,特别是Meta的DINOv3模型是否比DINOv2和ImageNet初始化在细粒度医学图像任务中表现更好。
- Method: 在7个数据集(n>814,000)上对DINOv3、DINOv2和ImageNet初始化进行基准测试,评估ViT-B/16和ConvNeXt-B两种骨干网络,在224x224、512x512和1024x1024三种分辨率下分析,并评估冻结的7B模型特征。
- Result: 在512x512分辨率下,DINOv3优于DINOv2和ImageNet;ConvNeXt-B始终优于ViT-B/16;冻结的DINOv3-7B特征表现不如完全微调的中等规模骨干;1024x1024分辨率无额外改进;分辨率相关收益在边界依赖和小病灶异常中最明显。
- Conclusion: 512x512是胸部X光分析的实用上限分辨率,DINOv3初始化的ConvNeXt-B网络提供最强性能,对急诊和重症监护中检测细微或边界病灶最有价值。
[79] EigenScore: OOD Detection using Covariance in Diffusion Models
Shirin Shoushtari,Yi Wang,Xiao Shi,M. Salman Asif,Ulugbek S. Kamilov
Main category: cs.CV
TL;DR: 提出了EigenScore,一种基于扩散模型后验协方差矩阵特征值谱的OOD检测方法,通过分析特征值谱来识别分布外样本,在多个数据集上达到SOTA性能。
- Motivation: OOD检测对于机器学习系统在安全敏感领域的部署至关重要,扩散模型作为强大的生成模型,能够捕捉复杂的数据分布,但其在OOD检测方面的潜力尚未充分探索。
- Method: 利用扩散模型诱导的后验协方差矩阵的特征值谱,提出特征值越大表示分布偏移越明显;采用无雅可比子空间迭代方法仅使用去噪器的前向评估来估计主要特征值。
- Result: EigenScore在多个数据集上实现了SOTA性能,AUROC比最佳基线提升高达5%;在近OOD设置(如CIFAR-10 vs CIFAR-100)中保持鲁棒性,而现有基于扩散的方法往往失效。
- Conclusion: 后验协方差为OOD检测提供了可靠的信号,EigenScore通过分析特征值谱有效识别分布外样本,特别是在具有挑战性的近OOD场景中表现优异。
[80] GenPilot: A Multi-Agent System for Test-Time Prompt Optimization in Image Generation
Wen Ye,Zhaocheng Liu,Yuwei Gui,Tingyu Yuan,Yunyue Su,Bowen Fang,Chaoyang Zhao,Qiang Liu,Liang Wang
Main category: cs.CV
TL;DR: 提出GenPilot,一种多代理系统的即插即用测试时提示优化策略,通过错误分析、聚类自适应探索和细粒度验证来提升文本到图像生成的质量和一致性。
- Motivation: 现有文本到图像合成在处理复杂长提示时存在语义不一致和细节缺失问题,现有解决方案如微调需要训练且模型特定,自动提示优化方法缺乏系统错误分析和优化策略。
- Method: 采用多代理系统,包含错误分析、基于聚类的自适应探索、细粒度验证和记忆模块,实现迭代优化,直接对输入文本进行操作。
- Result: 在DPG-bench和Geneval数据集上分别提升16.9%和5.7%,显著增强了文本与图像一致性和结构连贯性。
- Conclusion: GenPilot提供了一种模型无关、可解释的测试时提示优化方法,有效处理复杂长提示,并总结了常见错误模式和优化策略。
[81] TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation
Jiaben Chen,Zixin Wang,Ailing Zeng,Yang Fu,Xueyang Yu,Siyuan Cen,Julian Tanke,Yihang Chen,Koichi Saito,Yuki Mitsufuji,Chuang Gan
Main category: cs.CV
TL;DR: TalkCuts是一个大规模多镜头语音视频数据集,包含164k个视频片段和500+小时高质量内容,支持多模态学习。作者还提出了Orator框架,利用LLM指导生成连贯的多镜头语音视频。
- Motivation: 现有数据集主要关注单镜头静态视角,缺乏多镜头语音视频生成的研究数据。需要大规模、多样化的数据集来推动可控多镜头语音视频生成的发展。
- Method: 构建TalkCuts数据集,包含多种镜头类型和详细标注。提出Orator框架,使用语言模型作为导演,协调相机转换、手势和语音调制,通过多模态视频生成模块合成连贯长视频。
- Result: 在姿态引导和音频驱动设置下的广泛实验表明,在TalkCuts上训练显著提高了生成多镜头语音视频的电影连贯性和视觉吸引力。
- Conclusion: TalkCuts为可控多镜头语音视频生成和更广泛的多模态学习提供了坚实基础,推动了该领域的发展。
[82] Evaluating Fundus-Specific Foundation Models for Diabetic Macular Edema Detection
Franco Javier Arellano,José Ignacio Orlando
Main category: cs.CV
TL;DR: 比较基础模型(RETFound、FLAIR)与标准迁移学习方法(EfficientNet-B0)在糖尿病黄斑水肿检测任务上的表现,发现基础模型并不总是优于微调的CNN,轻量级CNN在数据稀缺环境中仍是强基线。
- Motivation: 糖尿病黄斑水肿是导致糖尿病患者视力丧失的主要原因,深度学习在自动检测方面有前景但受限于标注数据稀缺。基础模型被提出作为替代方案,但它们在DME检测任务中的有效性尚不明确。
- Method: 系统比较RETFound、FLAIR两个视网膜图像基础模型和EfficientNet-B0骨干网络,在不同训练机制和评估设置下(使用IDRiD、MESSIDOR-2和OEFI数据集)进行实验。
- Result: 基础模型在规模上并不总是优于微调的CNN。EfficientNet-B0在大多数评估设置中ROC和PR曲线下面积排名第一或第二,RETFound仅在OEFI数据集上表现良好,FLAIR在零样本设置下表现出竞争力。
- Conclusion: 基础模型可能不适合糖尿病黄斑水肿检测等细粒度眼科任务,即使在微调后也是如此,轻量级CNN在数据稀缺环境中仍然是强大的基线模型。
[83] SpecGuard: Spectral Projection-based Advanced Invisible Watermarking
Inzamamul Alam,Md Tanvir Islam,Khan Muhammad,Simon S. Woo
Main category: cs.CV
TL;DR: SpecGuard是一种新颖的图像水印方法,通过在频域隐藏卷积层中嵌入信息,使用小波投影分解的高频带进行谱投影,实现鲁棒且不可见的水印。
- Motivation: 现有水印方法缺乏对各种变换(包括失真、图像再生和对抗扰动)的鲁棒性,这在实际应用中带来了挑战。
- Method: 将空间域数据通过快速傅里叶变换近似转换为频域,在编码阶段使用强度因子增强对各种攻击的抵抗力,解码器利用Parseval定理学习和提取水印模式。
- Result: 综合实验表明,SpecGuard在嵌入水印的不可见性、容量和鲁棒性方面优于最先进模型。
- Conclusion: SpecGuard通过频域嵌入和强度因子机制,提供了一种鲁棒且不可见的图像水印解决方案,代码已在GitHub上开源。
[84] MATRIX: Mask Track Alignment for Interaction-aware Video Generation
Siyoon Jin,Seongchan Kim,Dahyun Chung,Jaeho Lee,Hyunwook Choi,Jisu Nam,Jiyoung Kim,Seungryong Kim
Main category: cs.CV
TL;DR: 该论文分析了视频DiT模型在建模多实例或主体-对象交互方面的不足,提出了MATRIX-11K数据集和MATRIX正则化方法,通过注意力对齐增强交互保真度和语义对齐。
- Motivation: 视频DiT模型在多实例或主体-对象交互建模方面存在困难,需要理解这些模型内部如何表示交互关系。
- Method: 构建MATRIX-11K数据集,包含交互感知标注和多实例掩码轨迹;提出MATRIX正则化方法,在特定层对齐注意力与掩码轨迹;设计InterGenEval评估协议。
- Result: MATRIX方法提高了交互保真度和语义对齐,减少了漂移和幻觉现象。
- Conclusion: 通过注意力对齐的简单正则化方法能有效增强视频DiT模型的交互建模能力。
[85] WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
Zezhong Qian,Xiaowei Chi,Yuming Li,Shizun Wang,Zhiyuan Qin,Xiaozhu Ju,Sirui Han,Shanghang Zhang
Main category: cs.CV
TL;DR: WristWorld是首个仅从锚点视角生成腕部视角视频的4D世界模型,通过几何重建和视频生成两阶段方法,显著提升了视觉语言动作模型的操纵性能。
- Motivation: 现有大规模数据集缺少腕部视角记录,导致锚点视角与腕部视角之间存在巨大差距,而现有世界模型无法仅从锚点视角生成腕部视角视频。
- Method: 两阶段方法:1) 重建阶段扩展VGGT并引入空间投影一致性损失,估计几何一致的腕部视角姿态和4D点云;2) 生成阶段使用视频生成模型从重建视角合成时序连贯的腕部视角视频。
- Result: 在Droid、Calvin和Franka Panda数据集上实现最先进的视频生成,具有优越的空间一致性,将Calvin任务完成长度平均提升3.81%,缩小了42.4%的锚点-腕部视角差距。
- Conclusion: WristWorld成功填补了锚点视角与腕部视角之间的差距,为视觉语言动作模型提供了重要的腕部视角观察,显著提升了操纵性能。
[86] Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers
Gangwei Xu,Haotong Lin,Hongcheng Luo,Xianqi Wang,Jingfeng Yao,Lianghui Zhu,Yuechuan Pu,Cheng Chi,Haiyang Sun,Bing Wang,Guang Chen,Hangjun Ye,Sida Peng,Xin Yang
Main category: cs.CV
TL;DR: Pixel-Perfect Depth是一种基于像素空间扩散生成的单目深度估计模型,通过直接在像素空间进行扩散生成避免VAE压缩导致的伪影,产生高质量、无飞点的点云。
- Motivation: 解决现有生成式深度估计模型因使用VAE压缩深度图到潜在空间而导致的边缘和细节处出现飞点伪影的问题。
- Method: 提出语义提示扩散变换器(SP-DiT)将视觉基础模型的语义表示融入DiT以提示扩散过程,以及级联DiT设计逐步增加token数量以提高效率和精度。
- Result: 在五个基准测试中达到所有已发布生成模型的最佳性能,在边缘感知点云评估中显著优于所有其他模型。
- Conclusion: 直接在像素空间进行扩散生成可以有效避免VAE引入的伪影,结合语义提示和级联设计能够实现高质量、无飞点的深度估计。
[87] Quantum-enhanced Computer Vision: Going Beyond Classical Algorithms
Natacha Kuete Meli,Shuteng Wang,Marcel Seelbach Benkner,Michele Sasdelli,Tat-Jun Chin,Tolga Birdal,Michael Moeller,Vladislav Golyanik
Main category: cs.CV
TL;DR: 量子增强计算机视觉(QeCV)是计算机视觉、优化理论、机器学习和量子计算交叉的新兴研究领域,旨在利用量子计算优势处理视觉信号。
- Motivation: 在传统非量子方法无法在合理时间内找到解或只能计算近似解的场景下,量子计算机可为多类问题提供更好的时间可扩展性优势。参数化量子电路有望成为传统神经网络的重要替代方案。
- Method: 采用两种主要量子计算范式:基于门的量子计算和量子退火。开发与量子硬件兼容的专用算法,提供量子计算机操作原理、可用工具和编程方法的全面介绍。
- Result: 提供了QeCV领域的整体综述,包括其特性、方法论、可用工具和学习材料,为计算机视觉社区提供量子计算参考。
- Conclusion: QeCV具有改变视觉信号处理方式的潜力,但需要开发专门的新算法来释放量子计算范式在计算机视觉中的潜力,并面临开放挑战和社会影响问题。
[88] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation
Ci-Siang Lin,Min-Hung Chen,I-Jieh Liu,Chien-Yi Wang,Sifei Liu,Yu-Chiang Frank Wang
Main category: cs.CV
TL;DR: 提出了Tenet框架,利用基础分割模型和时序提示生成与选择来解决参考视频对象分割问题,避免端到端训练需求。
- Motivation: 现有参考视频对象分割方法需要密集掩码标注的端到端训练,计算成本高且扩展性差。本文重新思考该任务,旨在探索其关键因素。
- Method: 将RVOS任务分解为参考、视频和分割三个因素,提出时序提示生成与选择框架。利用现成目标检测器和跟踪器生成与参考句子相关的时序提示,并通过提示偏好学习评估提示质量。
- Result: 在RVOS基准测试中证明了Tenet框架的有效性。
- Conclusion: 通过将基础分割模型与时序提示相结合,能够高效适应参考视频对象分割任务,生成高质量掩码。
cs.CR
[89] Unsupervised Backdoor Detection and Mitigation for Spiking Neural Networks
Jiachen Li,Bang Wu,Xiaoyu Xia,Xiaoning Liu,Xun Yi,Xiuzhen Zhang
Main category: cs.CR
TL;DR: 提出TMPBD和NDSBM框架,分别用于检测和缓解SNN中的后门攻击,无需攻击知识或数据访问即可实现100%检测准确率,并将攻击成功率从100%降至2.81%。
- Motivation: SNN因其能效优势受到关注,但其安全方面特别是后门攻击防护研究不足。现有ANN防御方法在SNN中效果不佳,因为SNN具有事件驱动和时间依赖性特征。
- Method: TMPBD利用最终脉冲层中时间膜电位的最大边际统计来检测目标标签;NDSBM通过钳制早期卷积层间的树突连接来抑制恶意神经元,同时保留良性行为。
- Result: 在多个神经形态基准测试和最先进的输入感知动态触发攻击上,TMPBD实现100%检测准确率,NDSBM将攻击成功率从100%降至8.44%,结合检测后进一步降至2.81%,且不影响清洁准确率。
- Conclusion: 该研究解决了SNN中后门防御的关键挑战,提出的无监督检测和缓解框架在保持SNN能效优势的同时显著提升了安全性。
[90] Bionetta: Efficient Client-Side Zero-Knowledge Machine Learning Proving
Dmytro Zakharov,Oleksandr Kurbatov,Artem Sdobnov,Lev Soukhanov,Yevhenii Sekhin,Vitalii Volovyk,Mykhailo Velykodnyi,Mark Cherepovskyi,Kyrylo Baibula,Lasha Antadze,Pavlo Kravchenko,Volodymyr Dubinin,Yaroslav Panasenko
Main category: cs.CR
TL;DR: Bionetta框架在零知识机器学习中显著提升了证明速度,可在移动设备上运行,是唯一能在原生EVM智能合约中部署的方案
- Motivation: 比较Bionetta与其他零知识机器学习工具的性能,解决现有方案证明时间过长、无法在移动设备和EVM智能合约中部署的问题
- Method: 基于UltraGroth的零知识机器学习框架,通过一次性预处理步骤(电路编译和可信设置)来优化证明过程
- Result: 自定义神经网络证明时间显著提升,可在移动设备上运行;虽然增加了预处理成本,但证明大小和验证开销可控
- Conclusion: Bionetta是唯一能在原生EVM智能合约中部署的零知识机器学习方案,为客户端证明应用开辟了新可能性
cs.RO
[91] Active Next-Best-View Optimization for Risk-Averse Path Planning
Amirhossein Mollaei Khass,Guangyi Liu,Vivek Pandey,Wen Jiang,Boshu Lei,Kostas Daniilidis,Nader Motee
Main category: cs.RO
TL;DR: 提出了一种统一框架,通过构建基于平均风险价值统计的尾部敏感风险地图来细化粗参考路径,同时将最优视角选择建模为SE(3)流形上的优化问题,实现风险规避路径规划与主动感知的耦合。
- Motivation: 在不确定环境中实现安全导航需要将风险规避与主动感知相结合的规划方法,以处理环境不确定性并确保局部安全可行的轨迹生成。
- Method: 使用在线更新的3D高斯泼溅辐射场构建尾部敏感风险地图,在SE(3)姿态流形上通过黎曼梯度下降最大化期望信息增益来优化最优视角选择,采用可扩展的梯度分解支持复杂环境中的高效在线更新。
- Result: 通过广泛的计算研究证明了所提出框架的有效性,能够生成局部安全可行的轨迹并有效减少对即将运动最关键的不确定性。
- Conclusion: 该框架通过耦合风险规避路径细化与最优视角规划,在复杂环境中实现了安全导航,同时引入的可扩展梯度分解支持高效的在线更新。
[92] Real-Time Glass Detection and Reprojection using Sensor Fusion Onboard Aerial Robots
Malakhi Hopkins,Varun Murali,Vijay Kumar,Camillo J Taylor
Main category: cs.RO
TL;DR: 提出了一种用于小型无人机实时检测和映射透明障碍物的轻量级框架,融合ToF相机和超声波传感器数据,能在嵌入式CPU上实时运行。
- Motivation: 透明障碍物对传统感知系统构成挑战,因为它们缺乏可识别特征且会导致深度传感器失效。现有方法通常需要大型昂贵传感器或高计算量算法,不适合低SWaP机器人。
- Method: 融合ToF相机和超声波传感器数据,使用轻量级2D卷积模型检测镜面反射并将其深度传播到深度图的对应空区域,使透明障碍物可见。
- Result: 在受控和真实环境中的实验验证了系统有效性,无人机能够成功映射包含玻璃的室内环境。整个管道在嵌入式处理器上仅使用少量CPU核心即可实时运行。
- Conclusion: 这是首个在低SWaP四旋翼无人机上仅使用CPU实现实时、机载透明障碍物映射的系统,为小型无人机在复杂环境中的安全导航提供了可行解决方案。
[93] UniFField: A Generalizable Unified Neural Feature Field for Visual, Semantic, and Spatial Uncertainties in Any Scene
Christian Maurer,Snehal Jauhri,Sophie Lueth,Georgia Chalvatzaki
Main category: cs.RO
TL;DR: UniFField是一个统一的不确定性感知神经特征场,结合了视觉、语义和几何特征,能够零样本应用于新环境,并提供各模态的不确定性预测。
- Motivation: 当前3D神经特征场方法存在两个关键限制:通常是场景特定的,且缺乏对预测不确定性的建模能力。机器人需要评估感知信息的可靠性以做出稳健决策。
- Method: 采用基于体素的统一特征表示,增量整合RGB-D图像,同时更新不确定性估计。该方法可零样本应用于新环境,结合视觉、语义和几何特征。
- Result: 不确定性估计能够准确描述场景重建和语义特征预测中的模型预测误差。在移动机械臂的主动物体搜索任务中成功利用了特征预测及其不确定性。
- Conclusion: UniFField能够实现稳健决策,展示了在复杂环境中结合多模态特征和不确定性建模的重要性。
[94] Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
Kento Kawaharazuka,Jihoon Oh,Jun Yamada,Ingmar Posner,Yuke Zhu
Main category: cs.RO
TL;DR: 这篇论文对视觉-语言-动作(VLA)模型进行了全面的综述,涵盖了从软件架构到硬件部署的完整技术栈,旨在为机器人社区提供实际应用指导。
- Motivation: 随着大型语言模型和视觉语言模型在机器人领域的应用日益增长,VLA模型通过统一视觉、语言和动作数据,旨在学习能够泛化到多样化任务、对象、环境和体现形式的策略,从而实现更灵活和可扩展的机器人部署。
- Method: 采用系统性的综述方法,涵盖VLA模型的策略和架构演进、架构构建模块、模态特定处理技术、学习范式,以及机器人平台、数据收集策略、数据集、数据增强方法和评估基准。
- Result: 提供了VLA模型的全面技术分析,包括训练方法、评估方法、模态和数据集等分类参考,所有参考资料可在项目网站上获取。
- Conclusion: 本综述为机器人社区在实际机器人系统中应用VLA模型提供了实用指导,促进了VLA技术在真实世界机器人应用中的部署。
[95] TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
Jiahang Liu,Yunpeng Qi,Jiazhao Zhang,Minghan Li,Shaoan Wang,Kui Wu,Hanjing Ye,Hong Zhang,Zhibo Chen,Fangwei Zhong,Zhizheng Zhang,He Wang
Main category: cs.RO
TL;DR: TrackVLA++是一种新颖的视觉-语言-动作模型,通过空间推理机制和目标识别记忆模块,显著提升了具身视觉跟踪性能,在遮挡和干扰场景下表现优异。
- Motivation: 现有的具身视觉跟踪方法缺乏明确的空间推理和有效的时间记忆,导致在严重遮挡或存在相似干扰物时容易失败。
- Method: 提出两个关键模块:1)空间推理机制(Polar-CoT),通过思维链范式推断目标相对位置并编码为极坐标令牌;2)目标识别记忆(TIM),采用门控更新策略保持长期目标记忆。
- Result: 在公开基准测试中达到最先进性能,在EVT-Bench DT分割上分别超过先前领先方法5.1和12个点,并展现出强大的零样本泛化能力。
- Conclusion: TrackVLA++通过结合空间推理和时间记忆,有效解决了具身视觉跟踪中的遮挡和干扰问题,在动态和遮挡场景中实现鲁棒跟踪。
[96] TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics
Yi Han,Cheng Chi,Enshen Zhou,Shanyu Rong,Jingkun An,Pengwei Wang,Zhongyuan Wang,Lu Sheng,Shanghang Zhang
Main category: cs.RO
TL;DR: TIGeR框架将视觉语言模型从感知估计器转变为几何计算机,通过外部工具生成和执行精确几何计算,实现机器人操作所需的厘米级精度。
- Motivation: 现有视觉语言模型在空间推理中仅限于定性精度,缺乏机器人应用所需的计算精度,无法利用深度传感器和相机标定的度量线索。
- Method: 采用两阶段训练管道(监督微调和强化微调),结合分层奖励设计,让模型识别几何推理需求、合成计算代码并调用专业库进行精确计算。
- Result: 在几何推理基准测试中达到最先进性能,在真实机器人操作任务中展示厘米级精度。
- Conclusion: TIGeR通过工具集成几何推理成功解决了VLMs在精确几何计算方面的局限性,为机器人应用提供了实用的解决方案。
eess.IV
[97] Stacked Regression using Off-the-shelf, Stimulus-tuned and Fine-tuned Neural Networks for Predicting fMRI Brain Responses to Movies (Algonauts 2025 Report)
Robert Scholz,Kunal Bagga,Christine Ahrends,Carlo Alberto Barbano
Main category: eess.IV
TL;DR: 该论文介绍了Algonauts 2025挑战赛的提交方案,通过整合多模态模型预测大脑对电影刺激的fMRI响应,最终获得第10名。
- Motivation: 目标是预测大脑对电影刺激的fMRI响应,这是理解大脑如何处理复杂多模态信息的重要研究。
- Method: 整合了大型语言模型、视频编码器、音频模型和视觉语言模型的多模态表示,使用现成和微调变体,通过堆叠回归组合各模型预测。
- Result: 团队Seinfeld在挑战赛中排名第10位,取得了可靠的结果。
- Conclusion: 通过多模态编码模型成功预测大脑活动,并将所有代码和资源公开,为开发大脑活动多模态编码模型做出贡献。
[98] A Total Variation Regularized Framework for Epilepsy-Related MRI Image Segmentation
Mehdi Rabiee,Sergio Greco,Reza Shahbazian,Irina Trubitsyna
Main category: eess.IV
TL;DR: 提出一种结合Dice损失和各向异性总变差(TV)损失的新框架,用于3D脑MRI中局灶性皮质发育不良(FCD)的精确分割,显著提升分割精度并减少假阳性簇。
- Motivation: FCD是药物难治性癫痫的主要原因,但由于病灶微小且对比度弱,在脑MRI中难以检测。现有方法面临标注数据有限、3D多模态输入复杂、缺乏空间平滑性和解剖一致性等问题。
- Method: 采用最先进的transformer增强编码器-解码器架构,并引入结合Dice损失和各向异性TV项的新型损失函数,无需后处理即可实现空间平滑并减少假阳性簇。
- Result: 在85名癫痫患者的公共FCD数据集上评估,与基线模型相比,Dice系数提高11.9%,精度提高13.3%,假阳性簇数量减少61.6%。
- Conclusion: 提出的TV损失函数能有效提升FCD分割性能,增强空间平滑性和解剖一致性,为癫痫手术规划提供更可靠的分割结果。
[99] SER-Diff: Synthetic Error Replay Diffusion for Incremental Brain Tumor Segmentation
Sashank Makanaboyina
Main category: eess.IV
TL;DR: SER-Diff是首个将基于扩散的细化与增量学习相统一的框架,通过冻结的教师扩散模型生成过去任务的合成错误图,在新任务训练期间重放这些错误,有效缓解灾难性遗忘。
- Motivation: 解决脑肿瘤分割模型在适应不断演变的临床数据集时的灾难性遗忘问题,现有方法依赖生成重放或辅助存储,而扩散模型在增量学习环境中尚未被探索。
- Method: 提出SER-Diff框架,利用冻结的教师扩散模型生成过去任务的合成错误图,采用结合新数据Dice损失和重放错误知识蒸馏损失的双损失公式。
- Result: 在BraTS2020、BraTS2021和BraTS2023数据集上,SER-Diff始终优于先前方法,获得最高Dice分数(95.8%、94.9%、94.6%)和最低HD95值(4.4mm、4.7mm、4.9mm)。
- Conclusion: SER-Diff不仅缓解了灾难性遗忘,还在不断演变的数据集上提供了更准确和解剖学上更一致的脑肿瘤分割结果。
[100] Conditional Denoising Diffusion Model-Based Robust MR Image Reconstruction from Highly Undersampled Data
Mohammed Alsubaie,Wenxi Liu,Linxia Gu,Ovidiu C. Andronesi,Sirani M. Perera,Xianqi Li
Main category: eess.IV
TL;DR: 提出了一种结合条件去噪扩散和迭代数据一致性校正的MRI重建框架,在每次反向扩散步骤中嵌入测量模型,显著提升了重建图像的质量和感知真实性。
- Motivation: MRI采集时间过长是临床诊断的主要限制,现有欠采样方法会导致图像伪影和降质。扩散模型虽有潜力,但现有方法要么缺乏配对监督,要么仅将数据一致性作为后处理步骤。
- Method: 提出条件去噪扩散框架,在每次反向扩散步骤中直接嵌入测量模型,并在配对欠采样-真实数据上训练模型,将生成灵活性与MRI物理约束相结合。
- Result: 在fastMRI数据集上的实验表明,该方法在SSIM、PSNR和LPIPS指标上均优于现有深度学习和扩散方法,LPIPS更能准确反映感知质量的提升。
- Conclusion: 将条件监督与迭代一致性更新相结合,在像素级保真度和感知真实性方面均取得显著改进,为稳健的加速MRI重建提供了原则性和实用的进展。
[101] FEAorta: A Fully Automated Framework for Finite Element Analysis of the Aorta From 3D CT Images
Jiasong Chen,Linchen Qian,Ruonan Gong,Christina Sun,Tongran Qin,Thuy Pham,Caitlin Martin,Mohammad Zafar,John Elefteriades,Wei Sun,Liang Liang
Main category: eess.IV
TL;DR: 开发了一个端到端的深度神经网络,能够直接从3D CT图像生成患者特定的主动脉有限元网格,以解决胸主动脉瘤破裂风险评估中的解剖建模障碍。
- Motivation: 胸主动脉瘤是美国人口前20大死因之一,目前基于有限元分析的破裂风险评估存在两个主要障碍:劳动密集型的3D重建和计算负担。团队已通过PyTorch FEA库解决了计算负担问题,现在需要解决手动分割的瓶颈。
- Method: 开发端到端深度神经网络,直接从3D CT图像生成患者特定的主动脉有限元网格,结合PyTorch FEA库和静态确定性原理,将应力计算时间从传统FEA的数小时减少到几分钟甚至几秒钟。
- Result: 通过PyTorch FEA库和静态确定性原理,将基于FEA的应力计算时间减少到约3分钟/例;通过集成DNN和FEA,进一步将计算时间减少到仅几秒钟/例。
- Conclusion: 该研究成功开发了能够直接从医学影像生成有限元网格的端到端深度神经网络,解决了胸主动脉瘤破裂风险评估中劳动密集型3D重建的主要障碍,为临床大规模应用铺平了道路。
cs.CY
[102] Surgeons Are Indian Males and Speech Therapists Are White Females: Auditing Biases in Vision-Language Models for Healthcare Professionals
Zohaib Hasan Siddiqui,Dayam Nadeem,Mohammad Masudur Rahman,Mohammad Nadeem,Shahab Saquib Sohail,Beenish Moalla Chaudhry
Main category: cs.CY
TL;DR: 该论文提出了一种评估视觉语言模型在医疗领域偏见的方法,发现CLIP等模型在医疗职业与人口属性之间存在一致的刻板印象偏见。
- Motivation: 视觉语言模型从网络规模数据中学习到的医疗职业与人口属性之间的刻板关联可能在医疗等关键领域产生负面影响,影响公平性、合规性和患者信任。
- Method: 定义了医疗职业分类法,策划了职业感知提示套件来探测模型行为,并基于平衡人脸语料库对人口偏见进行基准测试。
- Result: 实证研究发现多个医疗角色和视觉模型都存在一致的人口偏见。
- Conclusion: 在医疗等关键领域识别偏见至关重要,因为AI驱动的招聘和劳动力分析可能对公平性、合规性和患者信任产生下游影响。
cs.HC
[103] GPT-5 Model Corrected GPT-4V's Chart Reading Errors, Not Prompting
Kaichun Yang,Jian Chen
Main category: cs.HC
TL;DR: 评估零样本大语言模型和提示使用对图表阅读任务的影响,比较GPT-5和GPT-4V在困难图像实例上的推理准确率。
- Motivation: 理解零样本LLMs和提示使用在图表阅读任务中的效果,特别是在GPT-4V无法正确回答的困难图像实例上。
- Method: 使用107个可视化问题测试LLMs,比较GPT-5和GPT-4V的推理准确率,并分析不同提示变体的影响。
- Result: 模型架构主导推理准确率:GPT-5显著提高了准确率,而提示变体仅产生微小影响。
- Conclusion: 在图表阅读任务中,模型架构比提示工程对推理准确率的影响更大。
cs.GR
[104] Capture and Interact: Rapid 3D Object Acquisition and Rendering with Gaussian Splatting in Unity
Islomjon Shukhratov,Sergey Gorinsky
Main category: cs.GR
TL;DR: 提出了一个端到端流水线,利用3D高斯泼溅技术实现移动设备快速采集和交互式渲染真实世界物体,支持实时远程呈现。
- Motivation: 实时捕捉和渲染3D物体在增强现实、数字孪生系统、远程协作和原型制作等领域具有巨大潜力,但目前仍面临重大挑战。
- Method: 集成移动设备采集、基于云的3D高斯泼溅处理和Unity渲染,用户通过智能手机视频扫描物体,上传进行自动3D重建,在笔记本电脑上实现交互式可视化。
- Result: 系统在GPU上处理扫描约需10分钟,在笔记本电脑上实现平均150fps的实时渲染。
- Conclusion: 该流水线成功实现了从移动采集到云处理再到本地交互渲染的端到端实时3D物体捕捉和渲染系统。
cs.LG
[105] On knot detection via picture recognition
Anne Dranowski,Yura Kabkov,Daniel Tubbenhauer
Main category: cs.LG
TL;DR: 提出一种结合机器学习(CNN和Transformer)与传统算法(计算Jones多项式等量子不变量)的策略,从照片自动识别绳结,目标是实现从图像到平面图代码的符号重建,用于稳健的绳结分类。
- Motivation: 目标是实现通过手机拍摄绳结照片就能自动识别绳结的功能,结合现代机器学习方法和传统拓扑不变量计算的优势。
- Method: 使用轻量级CNN和Transformer架构直接从图像预测交叉数,并计划结合感知模块与符号重建为平面图代码,用于下游不变量计算。
- Result: 展示了即使是轻量级架构也能从图像中恢复有意义的绳结结构信息。
- Conclusion: 这种两阶段方法突出了机器学习处理噪声视觉数据与不变量强制执行严格拓扑区分之间的互补性。
[106] StruSR: Structure-Aware Symbolic Regression with Physics-Informed Taylor Guidance
Yunpeng Gong,Sihan Lan,Can Yang,Kunpeng Xu,Min Jiang
Main category: cs.LG
TL;DR: 提出了StruSR框架,利用训练好的PINN从时间序列数据中提取局部结构化物理先验,通过遗传编程引导符号表达式演化,提高收敛速度和结构保真度。
- Motivation: 传统符号回归方法缺乏从时间序列观测中提取结构化物理先验的机制,难以捕捉反映系统全局行为的符号表达式。
- Method: 利用训练好的PINN进行局部泰勒展开获取导数结构信息,引入基于掩码的归因机制量化子树贡献,通过混合适应度函数联合最小化物理残差和泰勒系数失配。
- Result: 在基准PDE系统上的实验表明,StruSR相比传统基线提高了收敛速度、结构保真度和表达式可解释性。
- Conclusion: StruSR为基于物理的符号发现提供了一个有原则的范式,能够更好地捕获系统的全局行为。
[107] Control-Augmented Autoregressive Diffusion for Data Assimilation
Prakhar Srivastava,Farrin Marouf Sofian,Francesco Immorlano,Kushagra Pandey,Stephan Mandt
Main category: cs.LG
TL;DR: 提出了一个摊销框架,通过轻量级控制器网络增强预训练的ARDMs,在数据同化任务中实现单次前向推理,避免昂贵的伴随计算和优化。
- Motivation: 现有方法在混沌时空偏微分方程的数据同化中计算成本高,且在稀疏观测下容易产生预测漂移,需要探索ARDMs中的引导机制。
- Method: 使用离线训练的轻量级控制器网络,通过预览未来ARDMs展开来学习逐步控制,在终端成本目标下预测即将到来的观测。
- Result: 在两个典型偏微分方程和六种观测机制下,该方法在稳定性、准确性和物理保真度方面持续优于四种最先进的基线方法。
- Conclusion: 该方法将数据同化推理简化为单次前向展开,避免了推理期间的昂贵伴随计算和优化,性能优于现有方法。
[108] The False Promise of Zero-Shot Super-Resolution in Machine-Learned Operators
Mansi Sakarvadia,Kareem Hegazy,Amin Totounferoush,Kyle Chard,Yaoqing Yang,Ian Foster,Michael W. Mahoney
Main category: cs.LG
TL;DR: 该论文评估了机器学习算子(MLOs)在零样本超分辨率任务中的表现,发现现有MLOs无法在未经训练的分辨率下进行准确推理,存在混叠问题。作者提出了一种简单的多分辨率训练协议来解决这些问题。
- Motivation: 解决科学机器学习中连续现象离散化建模的核心挑战,评估MLOs架构是否能够实现零样本超分辨率推理,即在未经训练的高分辨率数据上进行推理。
- Method: 将多分辨率推理解耦为两个关键行为:1)对不同频率信息的推断;2)在不同分辨率间的插值。通过实证评估MLOs的表现,并提出一种计算效率高、数据驱动的多分辨率训练协议。
- Result: 实证研究表明MLOs无法以零样本方式完成频率推断和分辨率插值任务,在未经训练的分辨率下推理不准确,存在脆弱性和混叠问题。提出的训练协议成功克服了混叠问题,提供了稳健的多分辨率泛化能力。
- Conclusion: MLOs架构本身不足以实现零样本超分辨率,需要专门的多分辨率训练协议来确保模型在不同分辨率下的稳健性能。
[109] SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models
Huahui Yi,Kun Wang,Qiankun Li,Miao Yu,Liang Lin,Gongli Xi,Hao Wu,Xuming Hu,Kang Li,Yang Liu
Main category: cs.LG
TL;DR: 提出了SaFeR-VLM框架,通过安全对齐的强化学习将安全直接嵌入多模态推理过程,解决了MLRMs在对抗性或不安全提示下放大安全风险的"推理税"问题。
- Motivation: 现有的多模态大推理模型在跨模态推理方面表现出色,但在对抗性或不安全提示下会放大安全风险,现有防御主要在输出层面,无法约束推理过程,存在隐性风险。
- Method: 包含四个组件:(I) QI-Safe-10K数据集,强调安全关键和推理敏感案例;(II) 安全感知的rollout,不安全生成会经过反思和修正;(III) 结构化奖励建模,包含多维加权标准和幻觉、矛盾的显式惩罚;(IV) GRPO优化,强化安全和修正的轨迹。
- Result: SaFeR-VLM-3B在六个基准测试中安全性和帮助性平均得分分别为70.13和78.97,超越了同等规模及10倍以上更大的模型。SaFeR-VLM-7B在安全指标上超越GPT-5-mini和Gemini-2.5-Flash 6.47和16.76分,且不降低帮助性性能。
- Conclusion: 该框架将安全从被动保护转变为主动驱动推理,实现了可扩展和可泛化的安全感知推理,对显性和隐性风险都具有鲁棒性,支持超越表面过滤的动态和可解释安全决策。
[110] Angular Constraint Embedding via SpherePair Loss for Constrained Clustering
Shaojie Zhang,Ke Chen
Main category: cs.LG
TL;DR: 提出SpherePair方法,通过角度约束嵌入解决深度约束聚类问题,在角度空间中实现聚类友好的嵌入表示,有效分离表示学习和聚类过程。
- Motivation: 现有深度约束聚类方法要么受限于端到端建模中的锚点问题,要么难以学习判别性欧几里得嵌入,限制了其可扩展性和实际应用性。
- Method: 使用SpherePair损失函数和几何公式,在角度空间中忠实编码成对约束,生成聚类友好的嵌入表示。
- Result: 在多样化基准测试中与最先进的深度约束聚类方法比较,验证了其优越性能、可扩展性和实际有效性。
- Conclusion: SpherePair方法能够保留成对关系而不产生冲突,无需指定确切聚类数量,泛化到未见数据,快速推断聚类数量,并具有严格的理论保证。
[111] High-Rate Mixout: Revisiting Mixout for Robust Domain Generalization
Masih Aminbeidokhti,Heitor Rapela Medeiros,Eric Granger,Marco Pedersoli
Main category: cs.LG
TL;DR: Mixout是一种替代Dropout的随机正则化技术,通过在训练过程中概率性地将微调权重与预训练权重交换来平衡适应性和先验知识保留,在领域泛化任务中表现出色。
- Motivation: 集成微调模型虽然能提高分布偏移下的鲁棒性,但计算成本高昂;Dropout在预训练模型中容易过度正则化并破坏关键表示。需要一种轻量级且能保持泛化能力的方法。
- Method: 使用Mixout技术,以高掩码概率(ViT为0.9,ResNet为0.8)在训练过程中随机将微调权重替换为预训练权重,惩罚偏离预训练参数的行为。
- Result: 在五个领域泛化基准测试中,高掩码率Mixout达到了与集成方法相当的域外准确率,同时显著降低计算开销:梯度计算减少45%,梯度内存使用减少90%。
- Conclusion: 高掩码率Mixout在领域泛化任务中既能保持与集成方法相当的性能,又能大幅降低计算成本,是一种有效的轻量级正则化方法。
[112] Revisiting Mixout: An Overlooked Path to Robust Finetuning
Masih Aminbeidokhti,Heitor Rapela Medeiros,Eric Granger,Marco Pedersoli
Main category: cs.LG
TL;DR: GMixout是一种改进的随机正则化方法,通过动态锚点和显式重采样频率控制,在微调视觉基础模型时同时提升域内精度和分布偏移下的鲁棒性。
- Motivation: 传统微调方法在提高域内准确率的同时会损害模型在分布偏移下的鲁棒性,需要一种既能保持预训练知识又能适应新任务的方法。
- Method: 引入GMixout,使用指数移动平均快照作为动态锚点替代固定锚点,通过显式重采样频率超参数调节掩码周期,采用稀疏核实现仅更新少量参数。
- Result: 在ImageNet、DomainNet、iWildCam和CIFAR100-C等基准测试中,GMixout在保持域内精度提升的同时,在分布偏移下的表现优于Model Soups和参数高效微调基线方法。
- Conclusion: GMixout通过动态锚点和可控的随机正则化,有效平衡了微调过程中的域内精度和分布偏移鲁棒性,且计算效率高。
[113] Sharpness-Aware Data Generation for Zero-shot Quantization
Dung Hoang-Anh,Cuong Pham Trung Le,Jianfei Cai,Thanh-Toan Do
Main category: cs.LG
TL;DR: 提出一种考虑量化模型锐度的零样本量化方法,通过最大化合成数据与真实验证数据之间的梯度匹配来最小化锐度,从而提高量化模型的泛化能力。
- Motivation: 现有零样本量化方法在生成合成数据时未考虑量化模型的锐度,而低锐度的深度神经网络具有更好的泛化能力。
- Method: 通过最大化合成数据与真实验证数据之间的梯度匹配来实现锐度最小化,并在没有真实验证集的情况下,通过生成样本与其邻居之间的梯度匹配来近似。
- Result: 在CIFAR-100和ImageNet数据集上的实验表明,该方法在低比特量化设置下优于现有最先进技术。
- Conclusion: 提出的考虑锐度的零样本量化方法能有效提升量化模型的泛化性能,在低比特量化场景下表现优异。
[114] Introspection in Learned Semantic Scene Graph Localisation
Manshika Charvi Bissessur,Efimia Panagiotaki,Daniele De Martini
Main category: cs.LG
TL;DR: 研究语义如何影响自监督对比语义定位框架中的定位性能和鲁棒性,通过可解释性方法分析模型是否过滤环境噪声并优先考虑显著地标。
- Motivation: 探究语义信息在自监督定位系统中的影响,验证模型是否能够区分环境噪声和显著语义特征,从而提高定位的鲁棒性和可解释性。
- Method: 训练定位网络于原始和扰动地图上,进行后验内省分析,使用多种可解释性方法(如积分梯度和注意力权重)来探测模型学习行为。
- Result: 积分梯度和注意力权重被证明是最可靠的学习行为探测方法;语义类别消融显示频繁对象往往被降权;模型学习到对噪声鲁棒的语义显著关系。
- Conclusion: 模型能够学习噪声鲁棒的语义显著关系,实现在具有挑战性的视觉和结构变化下的可解释配准。
Powered by Deepseek & arXiv Daily AI Enhanced