Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Size Matters: Reconstructing Real-Scale 3D Models from Monocular Images for Food Portion Estimation
Gautham Vinod,Bruce Coburn,Siddeshwar Raghavan,Jiangpeng He,Fengqing Zhu
Main category: cs.CV
TL;DR: 提出从单目图像恢复真实尺度3D重建的方法,用于精确营养监测中的食物摄入量估计
- Motivation: 慢性疾病(如肥胖和糖尿病)与饮食相关,需要准确监测食物摄入量。现有AI饮食评估方法在从单目图像恢复食物分量(大小)信息方面存在挑战,特别是3D重建方法虽然能实现几何重建,但无法恢复真实世界尺度,限制了在精准营养领域的应用。
- Method: 利用在大规模数据集上训练的模型提取丰富的视觉特征,估计重建对象的尺度。通过学习的尺度信息,将单视角3D重建转换为真实尺度、具有物理意义的模型。
- Result: 在两个公开数据集上的广泛实验和消融研究表明,该方法持续优于现有技术,在体积估计误差上实现了近30%的平均绝对误差减少。
- Conclusion: 该方法成功连接了3D计算机视觉和数字健康领域,通过从单目图像恢复真实尺度3D重建对象,展示了在精准营养领域增强食物摄入量监测的潜力。
[2] DiSa: Saliency-Aware Foreground-Background Disentangled Framework for Open-Vocabulary Semantic Segmentation
Zhen Yao,Xin Li,Taotao Jing,Shuai Zhang,Mooi Choo Chuah
Main category: cs.CV
TL;DR: DiSa提出了一种新颖的显著性感知前景-背景解耦框架,通过显式引入显著性线索,分别建模前景和背景特征,解决了开放词汇语义分割中CLIP等视觉语言模型的前景偏见和空间定位有限的问题。
- Motivation: 现有基于CLIP等视觉语言模型(VLMs)的开放词汇语义分割方法存在两个关键限制:1) 前景偏见 - 倾向于忽略背景区域;2) 有限的空间定位 - 导致模糊的对象边界。这些限制源于VLMs在图像-文本对预训练中偏向于显著、对象中心的区域。
- Method: 提出了DiSa框架,包含两个核心模块:1) 显著性感知解耦模块(SDM) - 通过显式引入显著性线索,以前景-背景解耦的方式分别建模前景和背景集成特征;2) 分层细化模块(HRM) - 利用像素级空间上下文,通过多级更新实现通道级特征细化。
- Result: 在六个基准测试上的广泛实验表明,DiSa在开放词汇语义分割任务上始终优于最先进的方法。
- Conclusion: 通过显式解耦前景和背景特征并利用显著性线索,DiSa有效解决了现有VLMs在密集预测中的局限性,为开放词汇语义分割提供了更准确的解决方案。
[3] Semi-Supervised Masked Autoencoders: Unlocking Vision Transformer Potential with Limited Data
Atik Faysal,Mohammad Rostami,Reihaneh Gh. Roshan,Nikhil Muralidhar,Huaxia Wang
Main category: cs.CV
TL;DR: SSMAE是一个半监督视觉Transformer训练框架,通过联合优化掩码图像重建和分类任务,利用动态选择的伪标签,在标签稀缺但无标签数据丰富的场景下显著提升性能。
- Motivation: 当标记数据稀缺但未标记数据丰富时,训练视觉Transformer面临挑战。现有的方法在伪标签生成和使用时机上存在不足,容易产生确认偏差。
- Method: 提出半监督掩码自编码器框架,联合优化掩码图像重建和分类任务。引入验证驱动的门控机制,仅在模型达到可靠的高置信度预测且在不同增强视图下一致时才激活伪标签。
- Result: 在CIFAR-10和CIFAR-100上,SSMAE始终优于监督ViT和微调MAE,在低标签率下增益最大(CIFAR-10上10%标签时比ViT提升9.24%)。
- Conclusion: 伪标签引入的时机与如何生成伪标签同样重要,验证驱动的门控机制能有效减少确认偏差,实现数据高效的Transformer训练。
[4] Sparse CLIP: Co-Optimizing Interpretability and Performance in Contrastive Learning
Chuan Qin,Constantin Venhoff,Sonia Joseph,Fanyi Xiao,Stefan Scherer
Main category: cs.CV
TL;DR: Sparse CLIP:在CLIP训练中直接集成稀疏性,实现可解释且高性能的多模态表示,挑战了可解释性必须牺牲性能的传统观念
- Motivation: CLIP虽然成功,但其密集不透明的潜在表示存在显著的可解释性挑战。传统观点认为可解释性和性能存在权衡,而现有的后处理方法(如稀疏自编码器)会降低下游性能和损失多模态能力
- Method: 提出一种简单有效的方法,直接在CLIP训练中集成稀疏性,而不是采用后处理方式。这种方法产生既具有可解释性又保持高性能的稀疏表示
- Result: 相比稀疏自编码器,稀疏CLIP表示保持了强大的下游任务性能,实现了更优的可解释性,并保留了多模态能力。多模态稀疏特征能够实现直接的语义概念对齐,并揭示跨模态知识出现的训练动态
- Conclusion: 研究挑战了可解释性需要牺牲准确性的传统观念,证明可解释性和性能可以共同优化,为未来模型提供了一个有前景的设计原则
[5] NucFuseRank: Dataset Fusion and Performance Ranking for Nuclei Instance Segmentation
Nima Torbati,Anastasia Meshcheryakova,Ramona Woitek,Sepideh Hatamikia,Diana Mechtcheriakova,Amirreza Mahbod
Main category: cs.CV
TL;DR: 该研究聚焦于H&E染色图像中细胞核实例分割的数据集标准化与评估,而非开发新算法。通过整合公开数据集、建立统一格式、评估数据集性能并创建融合数据集,为细胞核分割提供了新的基准。
- Motivation: 现有细胞核实例分割研究多集中于算法开发,并在有限数量的公开数据集上进行基准测试,缺乏对数据集本身的系统评估和标准化。本研究旨在填补这一空白,通过系统评估和整合现有数据集,为细胞核分割任务提供更可靠的数据基础。
- Method: 1. 通过文献综述识别手动标注的公开H&E染色图像数据集;2. 将数据集标准化为统一的输入和标注格式;3. 使用两种最先进的分割模型(CNN和CNN+Vision Transformer混合架构)系统评估数据集性能;4. 提出统一的测试集(NucFuse-test)用于公平的跨数据集评估;5. 创建统一的训练集(NucFuse-train)通过合并多个数据集的图像来提升分割性能。
- Result: 1. 系统评估并排名了多个细胞核分割数据集;2. 创建了NucFuse-test用于公平的跨数据集比较;3. 创建了NucFuse-train通过数据融合提升了分割性能;4. 进行了全面的分析和外部验证;5. 公开了实现代码,为细胞核分割模型训练、测试和评估提供了新的基准。
- Conclusion: 本研究通过数据集标准化、系统评估和融合,为H&E染色组织图像中的细胞核实例分割建立了新的基准框架。这有助于更公平地比较不同算法,并通过数据融合提升模型性能,推动了该领域的数据驱动研究。
[6] Look in the Middle: Structural Anchor Pruning for Scalable Visual RAG Indexing
Zhuchenyang Liu,Ziyu Hu,Yao Zhang,Yu Xiao
Main category: cs.CV
TL;DR: 提出SAP方法,无需训练即可剪枝视觉文档检索模型,实现90%以上索引向量压缩,同时保持检索性能
- Motivation: 现有视觉语言模型(如ColPali)在细粒度视觉文档检索中索引向量过大,而无需训练的剪枝方法在高压缩场景(>80%)下表现不佳,甚至不如随机选择。先前研究认为视觉token重要性是查询相关的,质疑无需训练剪枝的可行性。
- Method: 提出Structural Anchor Pruning (SAP)方法,从中间层识别关键视觉补丁来实现高性能压缩。同时引入Oracle Score Retention (OSR)协议评估层间信息对压缩效率的影响。
- Result: 在ViDoRe基准测试中,SAP将索引向量减少90%以上,同时保持稳健的检索保真度,为视觉RAG提供高度可扩展的解决方案。OSR分析显示语义结构锚点补丁存在于中间层,而非传统方法关注的结构信号已消散的最终层。
- Conclusion: SAP方法证明了无需训练剪枝在视觉文档检索中的可行性,通过从中间层提取结构锚点实现高效压缩,为大规模视觉RAG系统提供了实用的解决方案。
[7] Efficient Token Pruning for LLaDA-V
Zhewen Wan,Tianchen Song,Chen Lin,Zhiyong Zhao,Xianpeng Lang
Main category: cs.CV
TL;DR: 针对扩散式多模态模型LLaDA-V的计算效率问题,提出结构化token剪枝策略,在中间层选择性移除视觉token,减少65%计算成本的同时保持95%任务性能。
- Motivation: 扩散式多模态模型如LLaDA-V存在显著计算开销,因为其双向注意力机制和迭代去噪范式导致视觉token在所有层和去噪步骤中重复处理。研究发现LLaDA-V的跨模态信息聚合主要发生在中后层,存在语义对齐延迟。
- Method: 提出结构化token剪枝策略,受FastV启发但针对LLaDA-V特点:1)在中后层选择性移除部分视觉token以减少FLOPs;2)在第一个去噪步骤进行剪枝,减少后续所有步骤的计算;3)与LLaDA-V延迟注意力聚合特性对齐以保持输出质量。
- Result: 在多个基准测试中,最佳配置将计算成本降低高达65%,同时保持平均95%的任务性能。这是首个在扩散式大型多模态模型中研究结构化token剪枝的工作。
- Conclusion: 该框架为高效LLaDA-V推理提供了实证基础,突显了视觉感知剪枝在扩散式多模态模型中的潜力,通过结构化token剪枝策略在显著降低计算成本的同时保持了模型性能。
[8] TeleStyle: Content-Preserving Style Transfer in Images and Videos
Shiwen Zhang,Xiaoyan Yang,Bojia Zi,Haibin Huang,Chi Zhang,Xuelong Li
Main category: cs.CV
TL;DR: TeleStyle是一个基于Qwen-Image-Edit构建的轻量级图像和视频风格迁移模型,通过课程持续学习框架处理干净和噪声数据,实现内容保持和风格定制,在风格相似性、内容一致性和美学质量方面达到SOTA性能。
- Motivation: 当前基于扩散变换器(DiTs)的内容保持风格迁移面临内容与风格特征在内部表示中纠缠的问题,需要解决这一挑战以实现高质量的风格化输出。
- Method: 1. 基于Qwen-Image-Edit构建TeleStyle模型;2. 构建高质量特定风格数据集并合成多样化风格类别三元组;3. 采用课程持续学习框架训练模型处理干净和噪声数据;4. 引入视频到视频风格化模块增强时间一致性和视觉质量。
- Result: TeleStyle在风格相似性、内容一致性和美学质量三个核心评估指标上均达到最先进的性能水平,能够泛化到未见过的风格而不损害内容保真度。
- Conclusion: TeleStyle通过创新的课程持续学习框架和高质量数据集,成功解决了DiTs中内容与风格特征纠缠的问题,实现了高效的内容保持风格迁移,为图像和视频风格化任务提供了有效的解决方案。
[9] Automated Marine Biofouling Assessment: Benchmarking Computer Vision and Multimodal LLMs on the Level of Fouling Scale
Brayden Hamilton,Tim Cashmore,Peter Driscoll,Trevor Gee,Henry Williams
Main category: cs.CV
TL;DR: 本文研究使用计算机视觉模型和大型多模态语言模型自动分类船舶生物污损严重程度,在专家标注数据集上评估不同方法,发现混合方法结合分割覆盖率和LLM推理最有前景。
- Motivation: 船舶生物污损带来生态、经济和生物安全风险,传统潜水员检查方法危险且难以扩展,需要自动化解决方案。
- Method: 使用卷积神经网络、基于transformer的分割模型和零样本大型多模态语言模型,在专家标注数据集上评估生物污损严重程度分类性能。
- Result: 计算机视觉模型在极端污损等级上准确率高,但在中间等级表现不佳;LLMs无需训练即达到竞争性性能并提供可解释输出。
- Conclusion: 不同方法具有互补优势,结合分割覆盖率和LLM推理的混合方法为可扩展、可解释的生物污损评估提供了有前景的途径。
[10] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment
Haoyou Deng,Keyu Yan,Chaojie Mao,Xiang Wang,Yu Liu,Changxin Gao,Nong Sang
Main category: cs.CV
TL;DR: DenseGRPO:通过密集奖励解决GRPO方法中的稀疏奖励问题,为每个去噪步骤提供细粒度反馈,并基于奖励感知调整探索空间。
- Motivation: 现有基于流匹配模型的GRPO方法在人类偏好对齐方面取得了显著进展,但仍存在稀疏奖励问题:整个去噪轨迹的终端奖励被应用于所有中间步骤,导致全局反馈信号与中间去噪步骤的精确细粒度贡献不匹配。
- Method: 提出DenseGRPO框架,包含两个关键组件:1) 通过ODE方法在中间干净图像上应用奖励模型,预测每个去噪步骤的逐步奖励增益作为密集奖励;2) 基于估计的密集奖励,提出奖励感知方案,通过自适应调整SDE采样器中特定时间步的随机性注入来校准探索空间。
- Result: 在多个标准基准测试上的广泛实验证明了DenseGRPO的有效性,并突出了有效密集奖励在流匹配模型对齐中的关键作用。
- Conclusion: DenseGRPO通过密集奖励解决了GRPO方法中的稀疏奖励问题,实现了更好的细粒度对齐,并通过奖励感知的探索空间校准提高了训练效果。
[11] Feature Projection Learning for Better Vision-Language Reasoning
Yi Zhang,Weicheng Lin,Liang-Jie Zhang
Main category: cs.CV
TL;DR: 提出FPL方法,通过特征投影学习将分类问题转化为特征投影问题,结合CLIP原预测提升下游任务适应性能
- Motivation: 现有方法在适应CLIP模型到下游任务时存在性能有限、可学习参数过多或训练时间过长的问题,需要更高效的适应方法
- Method: 提出特征投影学习(FPL):开发投影模型将类别原型特征投影到查询图像特征空间并重建查询图像特征图,使用负平均平方重建误差作为类别分数,将分类问题转化为特征投影问题
- Result: FPL在准确性上显著优于当前最先进方法,实现了优越的性能
- Conclusion: FPL是一种简单、高效且有效的方法,通过特征投影学习成功解决了CLIP模型适应下游任务时的问题
[12] Visual Prompt-Agnostic Evolution
Junze Wang,Lei Fan,Dezheng Zhang,Weipeng Jing,Donglin Di,Yang Song,Sidong Liu,Cong Cong
Main category: cs.CV
TL;DR: PAE通过频率域初始化、共享Koopman算子和Lyapunov稳定性正则化,解决了VPT训练不稳定问题,加速收敛并提升性能
- Motivation: 现有视觉提示调优(VPT)方法存在训练不稳定问题,表现为梯度振荡。浅层提示过早停滞,深层提示高方差振荡,导致跨层不匹配,影响收敛速度和最终性能
- Method: 提出提示无关演化(PAE):1) 频率域视角初始化提示,发现并传播主干网络用于识别的频率捷径模式;2) 使用共享Koopman算子施加全局线性变换,协调跨层演化;3) 基于Lyapunov稳定性理论引入正则化器,约束演化过程中的误差放大
- Result: 在25个数据集上平均加速收敛1.41倍,准确率提升1-3%。PAE是提示无关的轻量级方法,无需修改主干网络或推理时改变,可与多种VPT变体无缝集成
- Conclusion: PAE通过显式建模提示演化动态,解决了VPT训练不稳定问题,实现了更快收敛和更好性能,同时保持与现有VPT方法的兼容性
[13] BLENDER: Blended Text Embeddings and Diffusion Residuals for Intra-Class Image Synthesis in Deep Metric Learning
Jan Niklas Kolf,Ozan Tezcan,Justin Theiss,Hyung Jun Kim,Wentao Bao,Bhargav Bhushanam,Khushi Gupta,Arun Kejariwal,Naser Damer,Fadi Boutros
Main category: cs.CV
TL;DR: BLenDeR是一种基于扩散模型的采样方法,通过集合论启发的并集和交集操作控制生成样本的类内多样性,用于提升深度度量学习性能。
- Motivation: 深度生成模型能生成高质量合成数据,用于增强深度度量学习中的真实数据,但现有方法在可控地增加类内多样性方面存在局限。
- Method: 提出BLenDeR方法,利用去噪残差的并集和交集操作:并集操作鼓励多个提示中的任何属性,交集操作通过主成分替代提取共同方向,从而可控地合成每个类内的多样化属性组合。
- Result: 在标准DML基准测试中,BLenDeR在多个数据集和骨干网络上始终优于最先进的基线方法,在CUB-200上Recall@1提升3.7%,在Cars-196上提升1.8%。
- Conclusion: BLenDeR通过可控的类内多样性增强,有效解决了现有生成方法的局限性,显著提升了深度度量学习的性能。
[14] Reversible Efficient Diffusion for Image Fusion
Xingxin Xu,Bing Cao,DongDong Li,Qinghua Hu,Pengfei Zhu
Main category: cs.CV
TL;DR: 提出可逆高效扩散模型(RED),在保持扩散模型强大生成能力的同时避免分布估计,解决多模态图像融合中的细节损失问题
- Motivation: 多模态图像融合需要将不同源图像的互补信息整合到统一表示中,但现有扩散模型在图像融合任务中常出现细节损失问题,这是由于马尔可夫过程中的噪声误差累积导致的。同时,在扩散模型中引入显式监督会带来计算效率挑战。
- Method: 提出可逆高效扩散模型(RED),这是一个显式监督的训练框架,继承了扩散模型的强大生成能力,同时避免了分布估计。该方法旨在解决噪声误差累积问题,提高融合结果的一致性和质量。
- Result: 未在摘要中明确说明具体实验结果,但暗示该方法能够解决扩散模型在图像融合中的细节损失问题,同时避免计算效率挑战。
- Conclusion: RED模型为多模态图像融合提供了一种有效的解决方案,能够在保持扩散模型生成能力的同时,克服传统扩散模型在融合任务中的局限性,提高融合图像的质量和细节保留能力。
[15] Hallucination Begins Where Saliency Drops
Xiaofeng Zhang,Yuanchao Zhu,Chaochen Gu,Xiaosong Yuan,Qiyan Zhao,Jiawei Cao,Feilong Tang,Sinan Fan,Yaomin Shen,Chen Shen,Hao Tang
Main category: cs.CV
TL;DR: 提出LVLMs-Saliency框架,通过融合注意力权重和输入梯度来检测和缓解大视觉语言模型的幻觉问题,包含SGRS和LocoRE两种机制。
- Motivation: 现有方法仅依赖前向注意力模式,无法可靠区分幻觉和事实性输出,忽略了梯度信号对token影响传播的揭示作用。
- Method: 提出梯度感知诊断框架LVLMs-Saliency,融合注意力权重和输入梯度量化输出token的视觉基础强度;基于分析发现幻觉模式,提出SGRS(基于显著性的拒绝采样)和LocoRE(局部一致性强化)两种推理时机制。
- Result: 在多个LVLM上的实验表明,该方法显著降低幻觉率,同时保持流畅性和任务性能。
- Conclusion: LVLMs-Saliency提供了一个鲁棒且可解释的解决方案,通过梯度感知分析和双重机制有效增强模型可靠性。
[16] A Source-Free Approach for Domain Adaptation via Multiview Image Transformation and Latent Space Consistency
Debopom Sutradhar,Md. Abdur Rahman,Mohaimenul Azam Khan Raiaan,Reem E. Mohamed,Sami Azam
Main category: cs.CV
TL;DR: 提出了一种无需源域数据的域适应方法,通过多视图增强和潜在空间一致性技术直接从目标域学习域不变特征,无需源-目标对齐或伪标签细化。
- Motivation: 现有域适应方法通常需要访问源域数据、对抗训练或复杂的伪标签技术,计算成本高。本文旨在解决这些挑战,提出无需源域数据的域适应方法。
- Method: 使用多视图增强和潜在空间一致性技术,直接从目标域学习域不变特征。通过生成目标域数据的多个增强视图,并最小化它们在潜在空间中特征表示的距离来确保特征一致性。采用ConvNeXt编码器,设计结合分类和一致性目标的损失函数。
- Result: 在Office-31、Office-Home和Office-Caltech数据集上分别达到90.72%、84%和97.12%的平均分类准确率。相比现有方法,在相应数据集上平均分类准确率分别提升+1.23%、+7.26%和+1.77%。
- Conclusion: 提出的方法成功实现了无需源域数据的域适应,通过多视图增强和潜在空间一致性技术有效学习域不变特征,在多个数据集上取得了优于现有方法的性能。
[17] Artifact-Aware Evaluation for High-Quality Video Generation
Chen Zhu,Jiashu Zhu,Yanxun Li,Meiqi Wu,Bingze Song,Chubin Chen,Jiahong Wu,Xiangxiang Chu,Yangang Wang
Main category: cs.CV
TL;DR: 提出GenVID数据集和DVAR框架,用于细粒度检测和分类视频生成中的伪影,提升生成视频质量评估
- Motivation: 现有视频生成评估方法通常只提供粗略的质量分数,缺乏对特定伪影的详细定位和分类,需要更精细的评估协议
- Method: 1) 提出关注外观、运动和相机三个关键方面的评估协议,定义10种常见伪影类别;2) 构建包含8万视频的GenVID数据集,由多种SOTA视频生成模型生成并精细标注;3) 开发DVAR框架进行密集视频伪影识别和分类
- Result: 实验表明该方法显著提高了伪影检测准确性,并能有效过滤低质量内容
- Conclusion: 提出的综合评估协议、大规模数据集和检测框架为视频生成质量评估提供了更精细的工具,有助于改进生成模型
[18] Towards Compact and Robust DNNs via Compression-aware Sharpness Minimization
Jialuo He,Huangxun Chen
Main category: cs.CV
TL;DR: C-SAM框架通过将锐度感知学习从参数扰动转向掩码扰动,在模型剪枝过程中同时优化紧凑性和鲁棒性,显著提升认证鲁棒性。
- Motivation: SAM能提升DNN对输入变化的鲁棒性,但现有方法在满足设备部署的紧凑性需求方面存在不足:先SAM后剪枝会破坏鲁棒性,而先剪枝后SAM又受限于早期剪枝模式。需要同时优化模型紧凑性和鲁棒性的方法。
- Method: 提出压缩感知锐度最小化(C-SAM)框架,将锐度感知学习从参数扰动转向掩码扰动。通过在训练中显式扰动剪枝掩码,促进相对于模型结构的平坦损失景观,发现同时优化紧凑性和鲁棒性的剪枝模式。
- Result: 在CelebA-HQ、Flowers-102和CIFAR-10-C数据集上,使用ResNet-18、GoogLeNet和MobileNet-V2进行实验,C-SAM相比基线方法认证鲁棒性提升高达42%,同时保持与未剪枝模型相当的任务准确率。
- Conclusion: C-SAM通过掩码扰动实现了模型剪枝过程中的锐度感知学习,有效解决了紧凑性和鲁棒性之间的权衡问题,为设备端DNN部署提供了同时优化这两个重要指标的解决方案。
[19] Bridging the Applicator Gap with Data-Doping:Dual-Domain Learning for Precise Bladder Segmentation in CT-Guided Brachytherapy
Suresh Das,Siladittya Manna,Sayantari Ghosh
Main category: cs.CV
TL;DR: 提出一种双域学习策略,将无施源器(NA)和有施源器(WA)的CT数据结合,仅需10-30%的WA数据即可达到与全WA训练相当的膀胱分割性能,有效应对协变量偏移问题。
- Motivation: 医学图像分割中协变量偏移导致性能下降是主要挑战。在CT引导的妇科近距离放疗膀胱分割中,无施源器(NA)的CT数据丰富,但有施源器(WA)的数据稀缺且存在解剖变形和成像伪影,使自动分割困难。需要研究如何有效结合分布偏移的数据来支持学习。
- Method: 提出双域学习策略,整合NA和WA CT数据。使用精心策划的混合数据集,在轴向、冠状和矢状平面上进行系统实验,采用多种深度学习架构。通过将少量WA数据(10-30%)掺杂到以NA为主的训练集中,实现有效的域适应。
- Result: 仅使用NA数据无法捕捉WA图像的特征,但引入少量WA数据(10-30%)即可显著提升性能,达到与全WA训练模型相当的分割效果。获得高达0.94的Dice相似系数和0.92的交并比,表明有效的域适应和临床可靠性提升。
- Conclusion: 该研究表明整合解剖相似但分布偏移的数据集能够克服数据稀缺问题,提升深度学习分割在近距离放疗治疗计划中的性能。双域学习策略为协变量偏移下的医学图像分割提供了有效解决方案。
[20] Physically Guided Visual Mass Estimation from a Single RGB Image
Sungjae Lee,Junhan Jeong,Yeonjoo Hong,Kwang In Kim
Main category: cs.CV
TL;DR: 提出一个物理结构化框架,通过单张RGB图像估计物体质量,结合几何体积和材料密度信息来解决视觉质量估计的模糊性问题。
- Motivation: 从视觉输入估计物体质量具有挑战性,因为质量取决于几何体积和材料密度,而这两者都不能直接从RGB外观中观察。像素级别的质量预测是不适定的,需要物理上有意义的表示来约束解空间。
- Method: 通过单目深度估计恢复物体中心三维几何来获取体积信息,使用视觉语言模型提取粗略材料语义来指导密度推理。通过实例自适应门控机制融合几何、语义和外观表示,并通过两个物理引导的潜在因子(体积相关和密度相关)在仅质量监督下进行回归预测。
- Result: 在image2mass和ABO-500数据集上的实验表明,该方法持续优于现有最先进方法。
- Conclusion: 提出的物理结构化框架通过显式建模体积和密度因子,有效解决了单图像质量估计的模糊性问题,取得了优于现有方法的性能。
[21] Structure-constrained Language-informed Diffusion Model for Unpaired Low-dose Computed Tomography Angiography Reconstruction
Genyuan Zhang,Zihao Wang,Zhifan Gao,Lei Xu,Zhen Zhou,Haijun Yu,Jianjia Zhang,Xiujian Liu,Weiwei Zhang,Shaoyu Wang,Huazhu Fu,Fenglin Liu,Weiwen Wu
Main category: cs.CV
TL;DR: 提出SLDM模型,通过结构约束和语言引导的扩散模型,从低剂量碘对比剂CT生成正常剂量图像,减少对比剂用量同时保持诊断效果。
- Motivation: 碘对比剂过量会导致肾损伤和过敏反应等严重问题。现有深度学习方法在处理不完全配对图像时难以实现准确增强,主要因为模型识别特定结构的能力有限。
- Method: 提出结构约束语言引导扩散模型(SLDM):1) 提取图像结构先验信息约束模型推理,确保增强过程的结构一致性;2) 引入具有空间智能的语义监督策略,整合视觉感知和空间推理功能;3) 应用减影血管增强模块,将对比剂区域对比度调整到适合观察的区间。
- Result: 通过视觉对比的定性分析和多个指标的定量结果,证明了该方法在低剂量对比剂CT血管造影重建中的有效性。
- Conclusion: SLDM模型能够有效从低剂量对比剂CT生成高质量的正常剂量图像,减少对比剂用量同时保持诊断能力,解决了现有方法在处理不完全配对图像时的局限性。
[22] TPGDiff: Hierarchical Triple-Prior Guided Diffusion for Image Restoration
Yanjie Tu,Qingsen Yan,Axi Niu,Jiacong Tang
Main category: cs.CV
TL;DR: TPGDiff提出了一种三重先验引导的扩散网络,通过结构先验、语义先验和退化先验的层次化互补指导,实现统一的图像恢复。
- Motivation: 现有方法依赖退化先验指导恢复,但在严重退化区域难以重建内容。虽然近期工作利用语义信息辅助内容生成,但将其整合到扩散模型的浅层会破坏空间结构。
- Method: TPGDiff在扩散轨迹中整合退化先验,同时在浅层引入结构先验(利用多源结构线索捕获细粒度细节),在深层引入语义先验(通过蒸馏驱动的语义提取器获得鲁棒语义信息),实现层次化互补的先验指导。
- Result: 在单退化和多退化基准测试上的广泛实验表明,TPGDiff在多样恢复场景中实现了优越的性能和泛化能力。
- Conclusion: TPGDiff通过三重先验的层次化互补指导,有效解决了统一图像恢复中严重退化区域的内容重建问题,在多种恢复场景中表现出色。
[23] OSDEnhancer: Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion
Shuoyan Wei,Feng Li,Chen Zhou,Runmin Cong,Yao Zhao,Huihui Bai
Main category: cs.CV
TL;DR: OSDEnhancer:首个通过高效一步扩散过程实现真实世界时空视频超分辨率的框架,结合线性预插值、TR-SE MoE专家系统和双向可变形VAE解码器,在保持时间一致性的同时提升空间细节。
- Motivation: 现有扩散模型在视频超分辨率方面表现出色,但在时空视频超分辨率(STVSR)方面潜力未充分开发。现有STVSR方法主要基于简化的退化假设,难以处理真实世界中复杂的未知退化问题,需要同时保证重建保真度和时间一致性。
- Method: 提出OSDEnhancer框架:1)通过线性预插值初始化时空结构;2)训练时间精化和空间增强混合专家(TR-SE MoE),让不同专家路径分别学习时间一致性和空间细节的专门表示;3)引入双向可变形VAE解码器进行循环时空聚合和传播,增强跨帧重建保真度。
- Result: 实验表明该方法在真实世界场景中实现了最先进的性能,同时保持了优越的泛化能力。
- Conclusion: OSDEnhancer是首个通过高效一步扩散过程实现真实世界时空视频超分辨率的方法,成功解决了复杂退化场景下的时空重建挑战,在保持时间一致性的同时提升了空间细节质量。
[24] CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting
Jiyuan Xu,Wenyu Zhang,Xin Jing,Shuai Chen,Shuai Zhang,Jiahao Nie
Main category: cs.CV
TL;DR: CPiRi是一个通道置换不变的多变量时间序列预测框架,通过解耦时空架构和置换不变正则化,从数据中推断跨通道结构而非记忆固定顺序,实现结构漂移和分布漂移下的稳定部署。
- Motivation: 现有多变量时间序列预测方法存在局限性:通道依赖模型学习跨通道特征但容易过拟合通道顺序,当通道增减或重排时难以适应;通道独立模型增加灵活性但忽略通道间依赖关系,限制性能提升。需要一种既能学习跨通道特征又不受固定通道顺序约束的方法。
- Method: CPiRi采用时空解耦架构和置换不变正则化训练策略:1)冻结预训练的时间编码器提取高质量时间特征;2)轻量级空间模块学习内容驱动的通道间关系;3)通道洗牌策略在训练中强制实现通道置换不变性。理论分析了多变量时间序列预测中的置换等变性。
- Result: 在多个基准测试中取得最先进结果。当通道顺序被打乱时保持稳定,即使仅用一半通道训练也能对未见通道表现出强归纳泛化能力,在大规模数据集上保持实际效率。
- Conclusion: CPiRi通过通道置换不变框架解决了现有方法的局限性,实现了结构漂移和分布漂移下的稳定部署,为多变量时间序列预测提供了更灵活和鲁棒的解决方案。
[25] GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction
Mai Su,Qihan Yu,Zhongtao Wang,Yilong Li,Chengwei Pan,Yisong Chen,Guoping Wang
Main category: cs.CV
TL;DR: 提出GVGS方法,通过高斯可见性感知的多视角几何一致性约束和渐进四叉树校准的单目深度约束,改进3D高斯溅射的表面重建精度
- Motivation: 3D高斯溅射虽然能高效优化和高质量渲染,但准确表面重建仍具挑战。现有方法通过多视角几何一致性或单目深度先验来改进高斯深度估计,但前者在大几何差异下不可靠,后者存在尺度模糊和局部不一致问题,导致高斯深度监督不准确。
- Method: 1. 高斯可见性感知的多视角几何一致性约束:聚合共享高斯基元在不同视角下的可见性,提供更准确稳定的几何监督。2. 渐进四叉树校准的单目深度约束:从粗到细的空间尺度进行分块仿射校准,缓解深度先验的尺度模糊,同时保留细粒度表面细节。
- Result: 在DTU和TNT数据集上的大量实验表明,该方法在几何精度上相比先前的高斯基和隐式表面重建方法有持续改进。
- Conclusion: 提出的GVGS方法通过结合可见性感知的多视角约束和渐进校准的单目深度约束,有效解决了现有高斯深度监督的局限性,实现了更准确的表面重建。
[26] Test-Time Adaptation for Anomaly Segmentation via Topology-Aware Optimal Transport Chaining
Ali Zia,Usman Ali,Umer Ramzan,Abdul Rehman,Abdelwahed Khamis,Wei Xiang
Main category: cs.CV
TL;DR: TopoOT:一种结合拓扑数据分析与最优传输的异常分割框架,通过多尺度拓扑特征和测试时适应实现鲁棒性
- Motivation: 传统基于阈值的二值化方法在分布偏移下产生脆弱的掩码,而拓扑数据分析能捕捉跨尺度的结构不变性,将异常表征为全局结构的破坏而非局部波动
- Method: 提出TopoOT框架,集成多过滤持久性图与测试时适应,核心创新是最优传输链式对齐,跨阈值和过滤序列对齐持久性图,生成测地稳定性分数识别跨尺度一致特征
- Result: 在标准2D和3D异常检测基准测试中达到最先进性能,2D数据集平均F1提升高达+24.1%,3D异常分割基准提升+10.2%
- Conclusion: TopoOT通过拓扑感知的最优传输框架,结合多尺度结构分析和测试时适应,为异常分割提供了鲁棒且有效的解决方案,显著优于现有方法
[27] MMSF: Multitask and Multimodal Supervised Framework for WSI Classification and Survival Analysis
Chengying She,Chengwei Chen,Xinran Zhang,Ben Wang,Lizhuang Liu,Chengwei Shao,Yun Bian
Main category: cs.CV
TL;DR: MMSF是一个多任务多模态监督框架,用于整合计算病理学中的全切片图像和临床数据,通过特征分解与融合提升预后预测性能。
- Motivation: 计算病理学中,千兆像素全切片图像捕捉肿瘤形态,患者级临床描述符提供互补的预后上下文,但整合这些异质信号具有挑战性,因为特征空间具有不同的统计特性和尺度。
- Method: 基于线性复杂度MIL骨干构建的多任务多模态监督框架,包含:图特征提取模块(嵌入组织拓扑)、临床数据嵌入模块(标准化患者属性)、特征融合模块(对齐模态共享和模态特定表示)、基于Mamba的MIL编码器和多任务预测头。
- Result: 在CAMELYON16和TCGA-NSCLC数据集上,相比竞争基线获得2.1-6.6%准确率和2.2-6.9% AUC提升;在五个TCGA生存队列上,相比单模态方法获得7.1-9.8% C-index提升,相比多模态替代方法获得5.6-7.1%提升。
- Conclusion: MMSF通过显式分解和融合跨模态信息,有效整合病理图像和临床数据,在多种癌症预后任务中显著优于现有方法,展示了多模态整合在计算病理学中的重要性。
[28] PalmBridge: A Plug-and-Play Feature Alignment Framework for Open-Set Palmprint Verification
Chenke Zhang,Ziyuan Yang,Licheng Yan,Shuyi Li,Andrew Beng Jin Teoh,Bob Zhang,Yi Zhang
Main category: cs.CV
TL;DR: PalmBridge:基于向量量化的特征空间对齐框架,通过将特征向量映射到代表性向量并混合,抑制领域偏移带来的干扰,提升开放集掌纹识别的性能。
- Motivation: 现有深度掌纹识别模型通常假设封闭静态分布,容易过拟合数据集特定纹理而非学习领域不变表示。数据增强方法假设增强样本能近似目标部署分布,但在显著领域不匹配时往往失效。
- Method: 提出PalmBridge框架:学习一组紧凑的代表性向量;在注册和验证时,将特征向量映射到最近的代表性向量(最小距离准则),然后将映射向量与原始向量混合;通过任务监督、特征一致性目标和正交正则化联合优化代表性向量与骨干网络。
- Result: 在多个掌纹数据集和骨干架构上的实验表明,PalmBridge在数据集内开放集评估中持续降低EER,并改善了跨数据集泛化能力,运行时开销可忽略或适度。
- Conclusion: PalmBridge通过特征空间对齐有效抑制领域偏移带来的干扰变化,同时保留判别性身份线索,为开放集掌纹验证提供了有效的即插即用解决方案。
[29] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
Zengbin Wang,Xuecai Hu,Yong Wang,Feng Xiong,Man Zhang,Xiangxiang Chu
Main category: cs.CV
TL;DR: SpatialGenEval是一个评估文本到图像模型空间智能的新基准,包含1230个信息密集的长提示,覆盖25个真实场景和10个空间子领域。研究发现高阶空间推理是主要瓶颈,并通过构建SpatialT2I数据集(15400个文本-图像对)进行微调,实现了模型性能的显著提升。
- Motivation: 当前文本到图像模型在处理复杂空间关系(如空间感知、推理和交互)方面存在明显不足,而现有基准测试由于提示设计简短或信息稀疏,未能充分评估这些关键方面。
- Method: 提出了SpatialGenEval基准,包含1230个信息密集的长提示,覆盖25个真实场景和10个空间子领域(物体位置、布局、遮挡、因果关系等)。同时构建了SpatialT2I数据集,包含15400个文本-图像对,通过重写提示确保图像一致性同时保持信息密度。
- Result: 对21个最先进模型的评估显示,高阶空间推理仍然是主要瓶颈。在基础模型(Stable Diffusion-XL、Uniworld-V1、OmniGen2)上进行微调后,获得了4.2%、5.7%、4.4%的持续性能提升,并在空间关系上产生了更真实的效果。
- Conclusion: 该研究通过信息密集的基准设计和数据中心的范式,为提升文本到图像模型的空间智能提供了有效途径,证明了高质量、信息密集的训练数据对改善模型空间推理能力的重要性。
[30] CURVE: Learning Causality-Inspired Invariant Representations for Robust Scene Understanding via Uncertainty-Guided Regularization
Yue Liang,Jiatong Du,Ziyi Yang,Yanjun Huang,Hong Chen
Main category: cs.CV
TL;DR: CURVE是一个因果启发的框架,通过变分不确定性建模和不确定性引导的结构正则化来抑制高方差、环境特定的关系,提升场景图在分布外场景下的泛化能力。
- Motivation: 场景图虽然提供了场景理解的结构化抽象,但往往过度拟合虚假相关性,严重阻碍了分布外泛化能力。需要解决场景图对虚假相关性的过拟合问题。
- Method: 提出CURVE框架,整合变分不确定性建模和不确定性引导的结构正则化,通过原型条件去偏技术解耦不变交互动态和环境依赖变化,促进稀疏且领域稳定的拓扑结构。
- Result: 在零样本迁移和低数据模拟到真实适应任务中评估CURVE,验证其能够学习领域稳定的稀疏拓扑,并提供可靠的不确定性估计以支持分布偏移下的风险预测。
- Conclusion: CURVE通过因果启发的方法有效抑制环境特定关系,提升场景图在分布外场景的泛化能力,同时提供可靠的不确定性估计。
[31] RAW-Flow: Advancing RGB-to-RAW Image Reconstruction with Deterministic Latent Flow Matching
Zhen Liu,Diedong Feng,Hai Jiang,Liaoyuan Zeng,Hao Wang,Chaoyu Feng,Lei Lei,Bing Zeng,Shuaicheng Liu
Main category: cs.CV
TL;DR: RAW-Flow:一种基于流匹配的生成式RGB-to-RAW重建框架,通过潜在空间确定性向量场学习实现高质量RAW数据恢复
- Motivation: 现有基于学习的方法将RGB-to-RAW重建视为直接回归任务,但由于逆ISP问题的病态性和量化RGB图像的信息损失,存在细节不一致和颜色偏差问题。需要新的视角来解决这些限制。
- Method: 1. 将RGB-to-RAW重建重新定义为确定性潜在传输问题;2. 提出RAW-Flow框架,利用流匹配在潜在空间学习确定性向量场;3. 引入跨尺度上下文引导模块,将分层RGB特征注入流估计过程;4. 设计具有特征对齐约束的双域潜在自编码器,联合编码RGB和RAW输入。
- Result: 大量实验表明,RAW-Flow在定量和视觉上都优于现有最先进方法,能够准确重建结构细节和颜色信息。
- Conclusion: 通过生成式视角重新定义RGB-to-RAW重建为潜在传输问题,RAW-Flow框架有效解决了现有方法的局限性,实现了高质量的RAW数据恢复。
[32] Dual-Modality IoT Framework for Integrated Access Control and Environmental Safety Monitoring with Real-Time Cloud Analytics
Abdul Hasib,A. S. M. Ahsanul Sarkar Akib,Nihal Das Ankur,Anish Giri
Main category: cs.CV
TL;DR: 提出一个双模态物联网框架,将RFID门禁控制与多传感器环境安全监控集成到统一云架构中,实现高效、低成本的安全-安全协同管理。
- Motivation: 传统物理安全系统和环境安全监控系统相互独立,导致操作效率低下、应急响应延迟和管理复杂性增加,需要集成解决方案。
- Method: 采用双子系统架构:子系统1实现RFID认证与伺服门控及Google Sheets实时日志记录;子系统2提供火焰检测、水流测量、LCD状态显示和人员识别。两个子系统均使用ESP32微控制器进行边缘处理和无线连接。
- Result: 45天实验评估显示优异性能:RFID认证准确率99.2%(平均响应时间0.82秒)、火焰检测可靠性98.5%(5米范围内)、云数据记录成功率99.8%。系统在网络中断时通过本地缓存保持运行,总成本5400 BDT(约48美元),比商业集成方案降低82%。
- Conclusion: 该研究建立了安全-安全协同集成的实用框架,证明通过精心架构设计和组件优化可实现专业级性能,同时保持卓越的成本效益和广泛适用性。
[33] RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting
Mas Nurul Achmadiah,Chi-Chia Sun,Wen-Kai Kuo,Jun-Wei Hsieh
Main category: cs.CV
TL;DR: RepSFNet:一种轻量级人群计数网络,通过重参数化大核和特征融合模块,在保持高精度的同时显著降低计算成本,适合实时边缘计算应用。
- Motivation: 解决人群计数中因尺度变化、遮挡和现有模型计算成本高而带来的挑战,特别是针对实时和边缘计算场景的需求。
- Method: 使用RepLK-ViT骨干网络进行多尺度特征提取,结合ASPP和CAN的特征融合模块实现密度自适应上下文建模,采用Concatenate Fusion模块保持空间分辨率,避免注意力机制和多分支设计以减少参数。
- Result: 在ShanghaiTech、NWPU和UCF-QNRF数据集上达到竞争性精度,推理延迟比现有方法降低高达34%,适合实时和低功耗边缘计算。
- Conclusion: RepSFNet通过轻量级架构设计,在保持准确性的同时显著提升了计算效率,为实时人群计数提供了有效的解决方案。
[34] HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation
Mengge Liu,Yan Di,Gu Wang,Yun Qu,Dekai Zhu,Yanyan Li,Xiangyang Ji
Main category: cs.CV
TL;DR: HINT是首个用于多人运动生成的自动回归扩散框架,通过分层交互建模处理变长文本和可变人数,在InterHuman数据集上FID达到3.100,显著优于之前的5.154。
- Motivation: 现有离线方法生成固定长度、固定人数的运动,无法处理变长文本和可变人数。自动回归方法虽然能逐步预测未来运动,但需要有效建模复杂的人际交互。
- Method: 1. 在规范化潜空间中使用解耦运动表示,分离局部运动语义和人际交互;2. 采用滑动窗口策略进行高效在线生成;3. 聚合窗口内局部条件和跨窗口全局条件,捕捉历史轨迹、人际依赖和文本对齐。
- Result: 在公开基准测试中,HINT与强离线模型性能相当,并超越自动回归基线。在InterHuman数据集上,FID达到3.100,显著优于之前SOTA的5.154。
- Conclusion: HINT是首个用于多人运动生成的自动回归扩散框架,通过分层交互建模有效处理变长文本和可变人数,在保持长时一致性的同时实现细粒度交互建模。
[35] Let's Roll a BiFTA: Bi-refinement for Fine-grained Text-visual Alignment in Vision-Language Models
Yuhao Sun,Chengyi Cai,Jiacheng Zhang,Zesheng Ye,Xingliang Yuan,Feng Liu
Main category: cs.CV
TL;DR: BiFTA通过视图精炼和描述精炼去除冗余信息,提升CLIP等视觉语言模型的零样本性能
- Motivation: 现有细粒度文本描述与局部图像块对齐方法存在冗余信息问题,导致文本-视觉对齐效果不佳。研究发现细粒度文本描述和局部图像块都包含冗余信息,需要去除这些冗余以提高对齐效率。
- Method: 提出BiFTA(Bi-refinement for Fine-grained Text-visual Alignment)方法,包含两个核心组件:1)视图精炼:通过高IoU比率去除冗余图像块,获得更具区分性的视觉样本;2)描述精炼:通过高余弦相似度去除冗余文本描述,确保剩余描述的多样性。
- Result: 在6个基准数据集上,BiFTA在基于ViT和ResNet的CLIP模型上都取得了优越的零样本性能,证明了去除视觉-文本对齐中冗余信息的必要性。
- Conclusion: 通过同时精炼视觉视图和文本描述,去除冗余信息,能够显著提升细粒度文本-视觉对齐的效果,从而提高预训练视觉语言模型的零样本性能。
[36] Quartet of Diffusions: Structure-Aware Point Cloud Generation through Part and Symmetry Guidance
Chenliang Zhou,Fangcheng Zhong,Weihao Xia,Albert Miao,Canberk Baykal,Cengiz Oztireli
Main category: cs.CV
TL;DR: Quartet of Diffusions:首个同时集成对称性和部件先验的3D点云生成框架,通过四个协调的扩散模型实现结构化生成
- Motivation: 现有方法要么将形状生成视为整体过程,要么仅支持部件组合,缺乏同时建模对称性和部件结构的综合框架
- Method: 使用四个协调的扩散模型:全局形状潜在变量、对称性、语义部件及其空间组装,通过结构化管道确保对称性、部件放置一致性和高质量输出
- Result: 实现了最先进的性能,首次在生成过程中完全集成并强制执行对称性和部件先验,支持细粒度属性控制
- Conclusion: 该框架通过解耦生成过程为可解释组件,实现了对称性保证、部件一致性放置和多样化高质量输出,为3D点云生成提供了新的结构化方法
[37] Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding
Kun Yin,Yunfei Wu,Bing Liu,Zhongpeng Cai,Xiaotian Li,Huang Chen,Xin Li,Haoyu Cao,Yinsong Liu,Deqiang Jiang,Xing Sun,Yunsheng Wu,Qianyu Li,Antai Guo,Yanzhen Liao,Yanqiu Qu,Haodong Lin,Chengxu He,Shuangyin Liu
Main category: cs.CV
TL;DR: Youtu-Parsing是一个高效多功能的文档解析模型,采用动态分辨率视觉编码器和提示引导语言模型,通过并行解码策略实现5-11倍加速,在多个基准测试中达到SOTA性能。
- Motivation: 解决传统文档解析模型在处理复杂文档结构时效率低下的问题,特别是针对表格识别等结构化场景,同时需要支持多种文档元素和多语言处理。
- Method: 采用解耦特征复用框架:1) 动态分辨率ViT提取共享文档特征;2) 提示引导的Youtu-LLM-2B进行布局分析;3) 并行解码策略包括令牌并行(同时生成64个候选令牌)和查询并行(同时预测多个边界框内容)。
- Result: 在OmniDocBench和olmOCR-bench基准测试中达到SOTA性能,相比传统自回归解码实现5-11倍加速,查询并行额外提供2倍加速,同时保持输出质量,对罕见字符、多语言和手写内容具有强鲁棒性。
- Conclusion: Youtu-Parsing通过创新的并行解码架构,在保持高质量输出的同时显著提升解析速度,为大规模文档智能应用提供了重要的实验价值和实用工具。
[38] MARE: Multimodal Alignment and Reinforcement for Explainable Deepfake Detection via Vision-Language Models
Wenbo Xu,Wei Lu,Xiangyang Luo,Jiantao Zhou
Main category: cs.CV
TL;DR: MARE:通过视觉语言模型进行可解释的Deepfake检测,采用多模态对齐和强化学习,结合RLHF奖励函数和伪造解耦模块,提升检测准确性和可靠性。
- Motivation: 随着生成模型的快速发展,Deepfake检测面临新需求。现有方法主要将问题建模为分类或空间定位,缺乏可解释性和可靠性。需要开发能提供解释性推理的检测方法。
- Method: 提出MARE框架:1)设计综合奖励函数,结合人类反馈强化学习(RLHF),激励生成文本-空间对齐的推理内容;2)引入伪造解耦模块,从高级面部语义中捕获内在伪造痕迹,提升真实性检测能力。
- Result: 在MARE生成的推理内容上进行全面评估。定量和定性实验结果表明,MARE在准确性和可靠性方面达到了最先进的性能。
- Conclusion: MARE通过多模态对齐和强化学习,结合RLHF和伪造解耦,成功提升了视觉语言模型在Deepfake检测中的准确性和可解释性,为对抗恶意内容传播提供了有效工具。
[39] Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection
Yanzhu Liu,Xiao Liu,Yuexuan Wang,Mondal Soumik
Main category: cs.CV
TL;DR: 提出一种通过"污染"真实图像来训练AI生成图像检测器的方法,利用图像生成器共享的最终组件结构,实现对新生成器的良好泛化能力
- Motivation: 现有深度伪造检测器对未见过的图像生成器泛化能力差。观察到尽管不同生成器(如扩散模型或自回归模型)训练范式不同,但它们共享相似的最终架构组件,这些组件负责将中间表示转换为最终图像
- Method: 使用生成器的最终组件"污染"真实图像,训练检测器区分原始真实图像和被污染的图像。基于生成器最终组件提出分类法,将21个常用生成器分类,系统研究方法的泛化能力
- Result: 仅使用三个代表性类别的各100个样本,在DINOv3骨干网络上微调的检测器,在22个未见生成器的测试集上平均准确率达到98.83%
- Conclusion: 通过利用生成器共享的最终组件结构来"污染"真实图像,可以训练出对未见生成器具有强大泛化能力的AI生成图像检测器
[40] Efficient Autoregressive Video Diffusion with Dummy Head
Hang Guo,Zhaoyang Jia,Jiahao Li,Bin Li,Yuanhao Cai,Jiangshan Wang,Yawei Li,Yan Lu
Main category: cs.CV
TL;DR: 提出Dummy Forcing方法,通过异质内存分配和动态头编程减少自注意力头对历史帧的冗余访问,实现视频扩散模型推理加速2倍,质量下降小于0.5%
- Motivation: 研究发现自回归视频扩散模型中的多头自注意力机制对历史帧利用不足,约25%的注意力头几乎只关注当前帧,丢弃它们的KV缓存对性能影响很小,这表明存在优化空间
- Method: 提出Dummy Forcing方法:1) 异质内存分配减少头间上下文冗余;2) 动态头编程自适应分类头类型;3) 上下文打包技术实现更激进的缓存压缩
- Result: 无需额外训练,相比基线实现最高2.0倍加速,支持24.3 FPS的视频生成,质量下降小于0.5%
- Conclusion: Dummy Forcing通过优化自注意力机制对历史帧的访问模式,有效减少了计算冗余,实现了视频扩散模型的高效推理加速
[41] Comparative evaluation of training strategies using partially labelled datasets for segmentation of white matter hyperintensities and stroke lesions in FLAIR MRI
Jesse Phitidis,Alison Q. Smithard,William N. Whiteley,Joanna M. Wardlaw,Miguel O. Bernabeu,Maria Valdés Hernández
Main category: cs.CV
TL;DR: 研究探讨了在部分标注数据上训练WMH和ISL联合分割模型的六种策略,发现伪标签方法效果最佳
- Motivation: 白质高信号和缺血性卒中病灶是脑小血管病的影像特征,在FLAIR序列中容易混淆且常同时出现,开发能区分这两种特征的深度学习模型具有挑战性
- Method: 研究了六种利用部分标注数据训练WMH和ISL联合分割模型的策略,结合了私有和公开数据集共2052个MRI扫描,其中1341个有WMH标注,1152个有ISL标注
- Result: 多种方法能有效利用部分标注数据提升模型性能,其中伪标签方法取得了最佳结果
- Conclusion: 伪标签策略是处理部分标注数据、提升WMH和ISL联合分割模型性能的有效方法
[42] Latent Temporal Discrepancy as Motion Prior: A Loss-Weighting Strategy for Dynamic Fidelity in T2V
Meiqi Wu,Bingze Song,Ruimin Lin,Chen Zhu,Xiaokun Feng,Jiahong Wu,Xiangxiang Chu,Kaiqi Huang
Main category: cs.CV
TL;DR: 提出Latent Temporal Discrepancy (LTD)作为运动先验来指导损失加权,解决视频生成模型在动态场景中质量下降的问题,在VBench和VMBench上分别提升3.31%和3.58%
- Motivation: 现有视频生成模型在静态场景表现良好,但在动态视频生成中质量下降,特别是剧烈动态变化时。这是因为噪声破坏了时间一致性,增加了动态区域学习的难度。现有扩散模型对所有场景使用静态损失,限制了捕捉复杂动态的能力。
- Method: 引入Latent Temporal Discrepancy (LTD)作为运动先验来指导损失加权。LTD在潜在空间中测量帧间变化,对差异较大的区域分配更大的惩罚权重,同时对稳定区域保持常规优化。这种运动感知策略稳定了训练,使模型能更好地重建高频动态。
- Result: 在通用基准VBench和运动专注的VMBench上进行广泛实验,方法在VBench上超越强基线3.31%,在VMBench上超越3.58%,在运动质量方面取得显著改进。
- Conclusion: 通过引入LTD作为运动先验来指导损失加权,有效解决了视频生成模型在动态场景中的质量下降问题,显著提升了运动视频生成的质量和一致性。
[43] Say Cheese! Detail-Preserving Portrait Collection Generation via Natural Language Edits
Zelong Sun,Jiahui Wu,Ying Ba,Dong Jing,Zhiwu Lu
Main category: cs.CV
TL;DR: 本文提出肖像集合生成任务,构建了首个大规模数据集CHEESE,并开发了SCheese框架,通过自适应特征融合和一致性网络实现高质量肖像编辑。
- Motivation: 随着社交媒体平台激增,用户需要直观方式创建多样化、高质量的肖像集合。现有方法面临两个挑战:复杂的多属性修改(姿势、空间布局、相机视角)和高保真细节保留(身份、服装、配饰)。
- Method: 提出CHEESE数据集(24K肖像集合,573K样本),使用大型视觉语言模型管道构建。提出SCheese框架,结合文本引导生成与分层身份和细节保留,采用自适应特征融合机制和ConsistencyNet注入细粒度特征。
- Result: 综合实验验证了CHEESE在推进PCG任务中的有效性,SCheese实现了最先进的性能。
- Conclusion: 本文引入了肖像集合生成新任务,提供了首个大规模数据集和有效框架,解决了复杂多属性修改和高保真细节保留的挑战。
[44] Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective
Qiyan Zhao,Xiaofeng Zhang,Shuochen Chang,Qianyu Chen,Xiaosong Yuan,Xuhang Chen,Luoqi Liu,Jiajun Zhang,Xu-Yao Zhang,Da-Han Wang
Main category: cs.CV
TL;DR: 本文提出CoTA方法解决扩散式多模态大语言模型中的重复文本生成问题,通过分析信息流发现重复诅咒的机制,并提出增强上下文注意力与解码惩罚的解决方案。
- Motivation: 现有基于扩散的多模态大语言模型(dMLLMs)使用缓存技术加速解码时,常产生重复文本生成的问题,作者称之为"重复诅咒"。需要深入分析其机制并提出解决方案。
- Method: 从信息流角度分析重复生成机制,发现三个关键发现:上下文token作为语义锚点、深层熵收敛、重复与信息流中断相关。基于此提出CoTA方法:增强上下文token注意力以保持信息流模式,并在解码时引入惩罚项避免不确定上下文驱动的输出。
- Result: CoTA在缓解重复生成方面表现出显著效果,并在通用任务上实现了一致的性能提升。代码已开源。
- Conclusion: 通过信息流分析揭示了dMLLMs中重复诅咒的机制,提出的CoTA方法能有效缓解重复问题,提升模型性能,为扩散式多模态大语言模型的优化提供了新思路。
[45] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors
Matic Fučka,Vitjan Zavrtanik,Danijel Skočaj
Main category: cs.CV
TL;DR: AnomalyVFM是一个将预训练视觉基础模型转化为零样本异常检测器的框架,通过三阶段合成数据集生成和参数高效适配机制,在9个数据集上达到94.1%的平均AUROC,超越现有方法3.3个百分点。
- Motivation: 当前基于纯视觉基础模型(VFMs)的零样本异常检测方法性能落后于基于视觉语言模型(VLMs)的方法,主要原因是现有辅助异常检测数据集多样性有限,以及VFM适配策略过于浅层。
- Method: 提出AnomalyVFM框架:1)三阶段合成数据集生成方案增强数据多样性;2)参数高效适配机制,使用低秩特征适配器和置信度加权的像素损失,将预训练VFM转化为强零样本异常检测器。
- Result: 以RADIO为骨干网络,AnomalyVFM在9个多样化数据集上平均图像级AUROC达到94.1%,显著超越先前方法3.3个百分点,证明其有效性。
- Conclusion: AnomalyVFM成功解决了VFM在零样本异常检测中的性能差距问题,通过创新的数据生成和适配策略,使现代VFM能够超越当前最先进方法,为异常检测领域提供了新思路。
[46] IOTA: Corrective Knowledge-Guided Prompt Learning via Black-White Box Framework
Shaokun Wang,Yifan Yu,Yuhang He,Weili Guan,Yihong Gong
Main category: cs.CV
TL;DR: IOTA是一个黑白盒提示学习框架,通过结合数据驱动的黑盒模块和知识驱动的白盒模块,利用纠正知识指导下游任务适应,在少样本和易到难适应设置下优于现有方法。
- Motivation: 现有参数高效调优方法将预训练模型视为不透明的黑盒,仅依赖数据驱动优化,未能充分利用其内在先验知识,限制了模型在下游任务适应中的潜力。
- Method: 提出IOTA框架,包含数据驱动的黑盒模块和知识驱动的白盒模块。白盒模块通过对比错误预测与正确认知获得纠正知识,将其转化为可解释的人类提示,并通过纠正知识引导的提示选择策略指导黑盒模块进行更准确的预测。
- Result: 在12个图像分类基准测试中,在少样本和易到难适应设置下,IOTA证明了纠正知识的有效性,并优于最先进的方法。
- Conclusion: 通过联合利用知识和数据驱动的学习信号,IOTA实现了有效的下游任务适应,为预训练模型的高效调优提供了新思路。
[47] Advancing Open-source World Models
Robbyant Team,Zelin Gao,Qiuyu Wang,Yanhong Zeng,Jiapeng Zhu,Ka Leong Cheng,Yixuan Li,Hanlin Wang,Yinghao Xu,Shuailei Ma,Yihang Chen,Jie Liu,Yansong Cheng,Yao Yao,Jiayi Zhu,Yihao Meng,Kecheng Zheng,Qingyan Bai,Jingye Chen,Zehong Shen,Yue Yu,Xing Zhu,Yujun Shen,Hao Ouyang
Main category: cs.CV
TL;DR: LingBot-World是一个基于视频生成的开源世界模拟器,具备高保真度、分钟级长时记忆和实时交互能力,旨在缩小开源与闭源技术差距。
- Motivation: 缩小开源世界模型与闭源技术之间的差距,为社区提供实用的世界模拟工具,支持内容创作、游戏和机器人学习等应用领域。
- Method: 基于视频生成技术构建世界模拟器,通过优化模型架构实现高保真度、长时记忆和低延迟交互。
- Result: 开发出具备三个核心特性的世界模型:1)多种环境下的高保真度和鲁棒动态;2)分钟级时间跨度并保持上下文一致性(长时记忆);3)实时交互能力(16帧/秒,延迟低于1秒)。
- Conclusion: LingBot-World作为顶级开源世界模拟器,通过公开代码和模型将推动社区在内容创作、游戏和机器人学习等领域的实际应用。
[48] DeepSeek-OCR 2: Visual Causal Flow
Haoran Wei,Yaofeng Sun,Yukun Li
Main category: cs.CV
TL;DR: DeepSeek-OCR 2提出了一种新颖的视觉编码器DeepEncoder V2,能够根据图像语义动态重排视觉token,打破传统视觉语言模型按固定光栅扫描顺序处理视觉token的限制,模拟人类视觉的因果推理机制。
- Motivation: 传统视觉语言模型在处理图像时采用固定的光栅扫描顺序(从上到下、从左到右)和固定的位置编码,这与人类视觉感知方式不符。人类视觉会根据图像语义和逻辑结构进行灵活而有语义连贯性的扫描,特别是对于复杂布局的图像,人类视觉表现出基于因果推理的顺序处理。这种差异限制了模型对图像的理解能力。
- Method: 提出DeepEncoder V2编码器,赋予编码器因果推理能力,使其能够在基于LLM的内容解释之前智能地重排视觉token。探索了一种新颖的范式:是否可以通过两个级联的1D因果推理结构有效实现2D图像理解,从而提供一种新的架构方法。
- Result: 开发了DeepSeek-OCR 2系统,代码和模型权重已在GitHub上公开。该工作探索了通过级联因果推理结构实现真正2D推理的新架构方法。
- Conclusion: 该研究提出了一种模拟人类视觉认知机制的视觉编码器新范式,通过动态重排视觉token和因果推理能力,有望实现更接近人类感知的图像理解,为视觉语言模型架构提供了新的研究方向。
[49] DiffVC-RT: Towards Practical Real-Time Diffusion-based Perceptual Neural Video Compression
Wenzhuo Ma,Zhenzhong Chen
Main category: cs.CV
TL;DR: DiffVC-RT是首个实现实时扩散神经视频压缩的框架,通过高效架构、一致性建模和异步并行解码,在保持高质量的同时大幅提升速度。
- Motivation: 当前基于扩散的神经视频压缩面临严重信息丢失、推理延迟过高和时间一致性差等关键挑战,阻碍了实际部署。
- Method: 1) 高效信息模型架构:通过模块替换和剪枝降低计算复杂度;2) 显式和隐式一致性建模:结合零成本在线时间移位模块和混合隐式约束;3) 异步并行解码流水线:采用混合半精度和批量维度时间移位设计。
- Result: 在HEVC数据集上,相比VTM-17.0节省80.1%的LPIPS比特率,在NVIDIA H800 GPU上实现720p视频206/30 fps的实时编码解码速度。
- Conclusion: DiffVC-RT在扩散视频压缩领域实现了重要里程碑,首次实现了实时性能,为实际部署铺平了道路。
[50] StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval
Shaokun Wang,Weili Guan,Jizhou Han,Jianlong Wu,Yupeng Hu,Liqiang Nie
Main category: cs.CV
TL;DR: 提出StructAlign方法解决持续文本-视频检索中的特征漂移问题,通过ETF几何先验和跨模态关系保持损失来缓解灾难性遗忘。
- Motivation: 持续文本-视频检索面临灾难性遗忘的严重挑战,主要源于两种特征漂移:模态内特征漂移和跨模态非协作特征漂移导致的模态不对齐。
- Method: 提出StructAlign方法:1) 引入单纯形ETF几何作为统一几何先验;2) 设计跨模态ETF对齐损失,将文本和视频特征与类别级ETF原型对齐;3) 设计跨模态关系保持损失,利用互补模态保持跨模态相似性关系。
- Result: 在基准数据集上的广泛实验表明,该方法在持续检索任务中持续优于最先进的方法。
- Conclusion: 通过联合解决跨模态非协作特征漂移和模态内特征漂移,StructAlign有效缓解了持续文本-视频检索中的灾难性遗忘问题。
[51] Person Re-ID in 2025: Supervised, Self-Supervised, and Language-Aligned. What Works?
Lakshman Balasubramanian
Main category: cs.CV
TL;DR: 本文系统评估了行人重识别(ReID)的三种训练范式(监督学习、自监督学习和语言对齐模型),发现监督模型在训练域表现优异但在跨域场景中崩溃,而语言对齐模型(如SigLIP2)即使未专门训练也展现出惊人的跨域鲁棒性。
- Motivation: 行人重识别(ReID)在计算机视觉中仍具挑战性,特别是在跨域应用场景下。本研究旨在评估现有ReID模型的鲁棒性,探索基础模型(如SigLIP2)通过更丰富、可迁移的视觉表示来提升泛化能力的作用,并回答监督模型能否在跨域场景中泛化、基础模型在ReID任务中的表现如何、以及当前模型的弱点等问题。
- Method: 研究比较了三种训练范式:监督学习、自监督学习和语言对齐模型。通过对11个模型在9个数据集上的系统性分析,评估了它们在跨域应用中的表现。特别关注了基础模型(如SigLIP2)在ReID任务中的表现,并分析了现有模型的弱点。
- Result: 结果显示明显的分化:监督模型在其训练域内表现优异,但在跨域数据上表现崩溃。相反,语言对齐模型(如SigLIP2)即使在未专门训练ReID任务的情况下,也展现出令人惊讶的跨域鲁棒性。这表明语言对齐模型通过更丰富的视觉表示获得了更好的可迁移性。
- Conclusion: 语言对齐模型为行人重识别提供了有前景的跨域解决方案,其通过语言对齐获得的丰富视觉表示显著提升了模型的泛化能力。这为未来ReID研究指出了新的方向:利用基础模型和多模态学习来克服传统监督模型在跨域场景中的局限性。
[52] CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification
Zhuonan Wang,Wenjie Yan,Wenqiao Zhang,Xiaohui Song,Jian Ma,Ke Yao,Yibo Yu,Beng Chin Ooi
Main category: cs.CV
TL;DR: 提出CLEAR-Mamba框架,通过超网络自适应条件层和可靠性感知预测方案,提升眼科血管造影图像分类的泛化性和可靠性。
- Motivation: 荧光素眼底血管造影(FFA)和吲哚青绿血管造影(ICGA)能提供传统眼底摄影无法捕捉的血流动力学和病灶结构信息,但由于单模态特性、细微病灶模式以及显著的设备间差异,现有方法在泛化性和高置信度预测方面仍存在局限。
- Method: 提出CLEAR-Mamba框架,基于MedMamba进行优化:1)架构上引入HaC(超网络自适应条件层),根据输入特征分布动态生成参数,提升跨域适应性;2)训练策略上开发RaP(可靠性感知预测方案),基于证据不确定性学习,鼓励模型关注低置信度样本,提升整体稳定性和可靠性;3)构建大规模眼科血管造影数据集,涵盖FFA和ICGA两种模态的多种视网膜疾病类别。
- Result: 实验结果表明,CLEAR-Mamba在多种指标上持续优于多个基线模型(包括原始MedMamba),在多疾病分类和可靠性感知预测方面表现出特别优势。
- Conclusion: 该研究为模态特定的医学图像分类任务提供了一个平衡泛化性和可靠性的有效解决方案。
[53] GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
Shuguang Zhang,Junhong Lian,Guoxin Yu,Baoxun Xu,Xiang Ao
Main category: cs.CV
TL;DR: GDCNet提出了一种新的多模态讽刺检测方法,通过使用MLLM生成的客观图像描述作为语义锚点,计算与原始文本的语义和情感差异,并结合视觉-文本保真度来检测跨模态冲突。
- Motivation: 现有方法在视觉和文本内容松散相关或语义间接时效果不佳,而基于LLM生成讽刺线索的方法会引入噪声。需要一种更稳定、基于事实的方法来检测跨模态语义不一致。
- Method: 提出生成差异比较网络(GDCNet),利用MLLM生成客观的图像描述作为语义锚点,计算与原始文本的语义和情感差异,测量视觉-文本保真度,并通过门控模块融合差异特征与视觉文本表示。
- Result: 在MSD基准测试中表现出优越的准确性和鲁棒性,在MMSD2.0基准上建立了新的最先进水平。
- Conclusion: GDCNet通过使用MLLM生成的客观描述作为稳定语义锚点,有效解决了现有方法在松散相关内容和噪声生成方面的限制,在多模态讽刺检测任务中取得了显著改进。
[54] OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks
Jing Wu,Daphne Barretto,Yiye Chen,Nicholas Gydé,Yanan Jian,Yuhang He,Vibhav Vineet
Main category: cs.CV
TL;DR: OS-Marathon:首个针对长时程重复性工作流程的评估基准,包含242个任务,并提出基于少量示例构建浓缩演示的有效方法
- Motivation: 专业场景中存在大量长时程重复性工作流程(如处理报销单、录入学生成绩),这些任务对人类来说繁琐耗时,但对计算机使用代理(CUAs)却很理想。目前缺乏评估这类任务的基准是主要瓶颈。
- Method: 1) 建立OS-Marathon基准,包含242个长时程重复性任务,覆盖2个领域;2) 提出成本效益高的方法,仅用少量示例构建浓缩演示,教会代理底层工作流程逻辑,使其能在更大规模未见数据上有效执行类似工作流程
- Result: 大量实验证明这些任务固有的挑战性以及所提方法的有效性。OS-Marathon基准揭示了当前最先进代理在处理长时程重复性任务时的局限性,而浓缩演示方法能显著提升代理性能
- Conclusion: OS-Marathon填补了长时程重复性工作流程评估的空白,提出的浓缩演示方法为计算机使用代理学习复杂工作流程提供了有效解决方案,有助于推动自动化代理在实际专业场景中的应用
[55] FD-MAD: Frequency-Domain Residual Analysis for Face Morphing Attack Detection
Diogo J. Paulo,Hugo Proença,João C. Neves
Main category: cs.CV
TL;DR: 提出一种基于区域感知的频率域残差建模方法,结合马尔可夫随机场进行全局-局部融合,在跨数据集和跨攻击类型的单图像人脸伪造检测中显著优于基线方法。
- Motivation: 人脸伪造攻击对电子身份认证和边境控制的人脸识别系统构成严重威胁,特别是在没有可信参考图像的单图像伪造检测场景中。现有方法在跨数据集场景中表现不佳,需要更鲁棒的检测策略。
- Method: 1) 引入残差频率域概念,将信号频率与自然频谱衰减解耦,便于区分伪造和真实数据;2) 通过马尔可夫随机场结合不同面部区域的证据,进行全局一致的决策;3) 仅使用频谱特征,在SMDD数据集上训练。
- Result: 在FRLL-Morph数据集上平均EER为1.85%,在MAD22数据集上排名第二(平均EER为6.12%),在低APCER下获得良好的BPCER,仅使用频谱特征就取得了有竞争力的性能。
- Conclusion: 基于傅里叶域残差建模和结构化区域融合的方法为深度S-MAD架构提供了有竞争力的替代方案,在跨数据集和跨攻击类型的单图像伪造检测中表现出色。
[56] ProSkill: Segment-Level Skill Assessment in Procedural Videos
Michele Mazzamuto,Daniele Di Mauro,Gianpiero Francesca,Giovanni Maria Farinella,Antonino Furnari
Main category: cs.CV
TL;DR: ProSkill是首个用于程序性任务中动作级别技能评估的基准数据集,提供绝对和相对技能评估标注,采用瑞士锦标赛方案和ELO评分系统进行高效标注,现有SOTA方法在该数据集上表现不佳,突显了其挑战性和价值。
- Motivation: 当前技能评估研究主要集中在体育领域,缺乏复杂程序性活动的大规模数据集。现有研究通常只涉及有限动作,且仅关注成对评估或二元标签,无法满足程序性视频中技能评估的需求。
- Method: 提出新颖且可扩展的标注协议:采用瑞士锦标赛方案进行高效的成对比较,然后使用基于ELO的评分系统将成对评估聚合成一致、连续的全局分数,从而创建绝对技能评估排名。
- Result: 构建了ProSkill数据集,并用其评估了当前最先进的技能评估算法(包括基于排名和成对范式的方法)。现有SOTA方法在该数据集上表现不佳,证明了该数据集的挑战性。
- Conclusion: ProSkill是程序性视频技能评估领域的首个基准数据集,其标注协议和数据集为技能评估研究提供了新标准,现有方法的不足突显了该领域的挑战和研究价值。
[57] bi-modal textual prompt learning for vision-language models in remote sensing
Pankhi Kashyap,Mainak Singha,Biplab Banerjee
Main category: cs.CV
TL;DR: BiMoRS:针对遥感图像的轻量级双模态提示学习框架,通过图像描述模型提取文本语义摘要,并与视觉特征融合,提升遥感场景下的跨域泛化能力。
- Motivation: 现有提示学习方法在自然图像上表现良好,但在遥感图像上存在挑战:遥感图像具有多标签场景、类内高变异性、多样空间分辨率等特点,现有方法难以识别主导语义线索,且在新类别上泛化能力不足。
- Method: 使用冻结的图像描述模型(如BLIP-2)从遥感图像中提取文本语义摘要,通过BERT分词器进行分词,与CLIP编码器提取的高级视觉特征融合。轻量级交叉注意力模块基于融合的文本-视觉表示条件化可学习查询提示,生成上下文感知提示,不改变CLIP主干网络。
- Result: 在四个遥感数据集上的三个域泛化任务中评估,BiMoRS表现出稳定的性能提升,平均优于强基线方法达2%。
- Conclusion: BiMoRS通过双模态提示学习有效解决了遥感图像中的独特挑战,提升了跨域泛化能力,为遥感场景下的视觉-语言模型适配提供了轻量级解决方案。
[58] Decoupling Perception and Calibration: Label-Efficient Image Quality Assessment Framework
Xinyue Li,Zhichao Zhang,Zhiming Xu,Shubo Xu,Xiongkuo Min,Yitong Chen,Guangtao Zhai
Main category: cs.CV
TL;DR: LEAF框架通过从MLLM教师模型蒸馏感知质量先验到轻量级学生回归器,仅需少量MOS标注即可实现图像质量评估,显著降低人工标注需求
- Motivation: 现有MLLM在IQA任务中表现良好,但适应大规模模型计算成本高且依赖大量MOS标注。作者认为MLLM-based IQA的核心瓶颈不在于质量感知能力,而在于MOS尺度校准
- Method: 提出LEAF框架:1) MLLM教师模型通过点级判断和配对偏好进行密集监督,并估计决策可靠性;2) 学生模型通过联合蒸馏学习教师的质量感知模式;3) 在小规模MOS子集上进行校准以对齐人类标注
- Result: 在用户生成和AI生成的IQA基准测试中,该方法显著减少了对人类标注的需求,同时保持了强大的MOS对齐相关性,使轻量级IQA在有限标注预算下变得实用
- Conclusion: LEAF框架通过有效利用MLLM的质量感知能力并最小化人工监督,解决了MLLM-based IQA中的MOS尺度校准瓶颈,为轻量级图像质量评估提供了实用解决方案
[59] LEMON: How Well Do MLLMs Perform Temporal Multimodal Understanding on Instructional Videos?
Zhuang Yu,Lei Shen,Jing Zhao,Shiliang Sun
Main category: cs.CV
TL;DR: LEMON是一个基于STEM讲座视频的多模态评估基准,专注于长时程推理和跨模态整合,包含2,277个视频片段和4,181个高质量QA对,揭示了当前MLLMs在时序推理和教学预测方面的不足。
- Motivation: 当前多模态大语言模型在视觉、音频和语言任务上取得了显著进展,但在长时程、知识密集、时序结构化的教育内容上的性能尚未充分探索。需要建立一个专门的基准来评估MLLMs在复杂教学视频中的理解能力。
- Method: 构建LEMON基准,包含2,277个STEM讲座视频片段(平均196.1秒),涵盖5个学科29门课程,生成4,181个高质量QA对(3,413个多项选择和768个开放性问题)。基准具有语义丰富性、紧密耦合的多模态、明确的时序和教学结构、上下文关联的多轮问答等特点。
- Result: 综合实验显示各任务间存在显著性能差距,即使是GPT-4o等最先进的MLLMs在时序推理和教学预测方面也表现不佳。基准包含6个主要任务和12个子任务,覆盖从感知到推理再到生成的完整认知谱系。
- Conclusion: LEMON作为一个可扩展且具有挑战性的基准,将推动多模态感知、推理和生成在长时程教学内容中的发展,揭示了当前MLLMs在复杂教育视频理解方面的局限性。
[60] Li-ViP3D++: Query-Gated Deformable Camera-LiDAR Fusion for End-to-End Perception and Trajectory Prediction
Matej Halinkovic,Nina Masarykova,Alexey Vinel,Marek Galinski
Main category: cs.CV
TL;DR: Li-ViP3D++:基于查询的多模态感知与预测框架,通过查询门控可变形融合(QGDF)在查询空间集成多视角RGB和LiDAR数据,实现端到端的检测、跟踪和轨迹预测。
- Motivation: 现有模块化流水线限制了信息流动并可能放大上游错误,而现有的基于查询的PnP模型在摄像头和LiDAR的查询空间互补性方面探索不足,融合方案常引入启发式对齐和离散选择步骤,导致信息利用不充分和偏差。
- Method: 提出查询门控可变形融合(QGDF):(i) 通过跨摄像头和特征层的掩码注意力聚合图像证据;(ii) 通过具有学习到的每查询偏移量的完全可微分BEV采样提取LiDAR上下文;(iii) 应用查询条件门控为每个智能体自适应加权视觉和几何线索。
- Result: 在nuScenes数据集上,Li-ViP3D++提高了端到端行为和检测质量,达到更高的EPA(0.335)和mAP(0.502),同时显著减少误报(FP ratio 0.147),且比之前的Li-ViP3D变体更快(139.82 ms vs. 145.91 ms)。
- Conclusion: 查询空间中的完全可微分摄像头-LiDAR融合可以提高端到端PnP的鲁棒性,而不会牺牲部署性,表明这种融合方法在自动驾驶感知与预测中的有效性。
[61] Compression Tells Intelligence: Visual Coding, Visual Token Technology, and the Unification
Xin Jin,Jinming Liu,Yuntao Wei,Junyan Lin,Zhicheng Wang,Jianguo Huang,Xudong Yang,Yanxiao Liu,Wenjun Zeng
Main category: cs.CV
TL;DR: 该论文探讨了视觉编码与视觉token技术在压缩效率与模型性能间的本质联系,提出统一框架并展望下一代技术发展
- Motivation: 传统视觉编码与新兴视觉token技术都致力于在表示学习中最大化语义保真度同时最小化计算成本,两者在压缩效率与模型性能权衡方面有本质相似性,需要建立统一的理论框架来促进两者协同发展
- Method: 首先全面综述视觉编码和视觉token技术两大技术家族,然后从优化角度统一它们,讨论压缩效率与模型性能权衡的本质,基于提出的统一公式,综合双向见解并预测下一代视觉编解码器和token技术
- Result: 实验展示了面向任务的token开发在多模态大语言模型、AI生成内容和具身AI等实际任务中的巨大潜力,并揭示了未来标准化通用token技术的可能性
- Conclusion: 压缩效率与智能模型性能密切相关,视觉编码与视觉token技术可以统一在优化框架下,未来有望发展出类似传统编解码器的高效通用token技术,为广泛的智能任务提供统一有效的解决方案
[62] FAIRT2V: Training-Free Debiasing for Text-to-Video Diffusion Models
Haonan Zhong,Wei Song,Tingxu Han,Maurice Pagnucco,Jingling Xue,Yang Song
Main category: cs.CV
TL;DR: FairT2V是一个无需训练的文本到视频生成去偏框架,通过锚点球面测地变换中和提示嵌入中的性别偏见,同时保持语义和时序一致性。
- Motivation: 文本到视频扩散模型存在未被充分探索的人口统计学偏见,特别是性别偏见,这些偏见主要来自预训练文本编码器对中性提示的隐含性别关联编码。
- Method: 1) 分析T2V模型偏见来源,发现主要来自文本编码器;2) 提出性别倾向评分量化偏见;3) 通过锚点球面测地变换中和提示嵌入;4) 使用动态去噪计划仅在早期身份形成步骤去偏以保持时序一致性;5) 提出结合VideoLLM推理和人工验证的视频级公平性评估协议。
- Result: 在Open-Sora模型上的实验表明,FairT2V显著减少了跨职业的人口统计学偏见,同时对视频质量影响最小。
- Conclusion: FairT2V是一个有效的训练免费去偏框架,能够显著减少文本到视频生成中的性别偏见,同时保持视频质量和时序一致性。
[63] Open-Vocabulary Functional 3D Human-Scene Interaction Generation
Jie Liu,Yu Sun,Alpar Cseke,Yao Feng,Nicolas Heron,Michael J. Black,Yan Zhang
Main category: cs.CV
TL;DR: FunHSI:一个无需训练的功能驱动框架,通过开放词汇任务提示生成功能正确的3D人-场景交互,包括功能感知接触推理、3D几何重建、接触图建模和阶段优化。
- Motivation: 现有方法缺乏对物体功能和相应人-场景接触的显式推理,导致生成不合理的或功能错误的交互。需要解决在3D场景中生成功能正确的人-场景交互这一开放问题。
- Method: 1) 功能感知接触推理识别功能场景元素并重建3D几何;2) 通过接触图建模高级交互;3) 利用视觉语言模型合成任务图像并估计3D身体和手部姿态;4) 通过阶段优化细化3D身体配置以确保物理合理性和功能正确性。
- Result: FunHSI不仅合成更合理的通用3D交互(如"坐在沙发上"),还支持细粒度的功能人-场景交互(如"提高室温")。在多样室内外场景中一致生成功能正确且物理合理的人-场景交互。
- Conclusion: FunHSI是一个无需训练的功能驱动框架,能够从开放词汇任务提示生成功能正确的3D人-场景交互,解决了现有方法在功能推理和接触建模方面的不足。
[64] A New Dataset and Framework for Robust Road Surface Classification via Camera-IMU Fusion
Willams de Lima Costa,Thifany Ketuli Silva de Souza,Jonas Ferreira Silva,Carlos Gabriel Bezerra Pereira,Bruno Reis Vila Nova,Leonardo Silvino Brito,Rafael Raider Leoni,Juliano Silva,Valter Ferreira,Sibele Miguel Soares Neto,Samantha Uehara,Daniel Giacomo,João Marcelo Teixeira,Veronica Teichrieb,Cristiano Coelho de Araújo
Main category: cs.CV
TL;DR: 提出一个融合图像和惯性测量的多模态道路表面分类框架,并引入包含真实、视觉和合成数据的ROAD数据集,在多个基准测试中超越现有方法。
- Motivation: 现有道路表面分类技术由于传感模态有限和数据集环境多样性不足,难以在狭窄操作条件之外泛化,需要更鲁棒的多模态解决方案。
- Method: 采用轻量级双向交叉注意力模块融合图像和惯性测量,后接自适应门控层调整模态贡献以适应域偏移;引入包含真实多模态、视觉专用和合成数据的ROAD数据集。
- Result: 在PVS基准上提升1.4个百分点,在ROAD多模态子集上提升11.6个百分点,在少数类别上获得更高的F1分数,在夜间、大雨和混合表面过渡等挑战性视觉条件下表现稳定。
- Conclusion: 结合经济型摄像头和IMU传感器与多模态注意力机制,为道路表面理解提供了可扩展、鲁棒的基础,特别适用于环境多变且成本受限的地区。
[65] FreeFix: Boosting 3D Gaussian Splatting via Fine-Tuning-Free Diffusion Models
Hongyu Zhou,Zisen Shao,Sheng Miao,Pan Wang,Dongfeng Bai,Bingbing Liu,Yiyi Liao
Main category: cs.CV
TL;DR: FreeFix提出了一种无需微调的3D场景渲染方法,通过预训练图像扩散模型增强外推视图质量,在保持泛化能力的同时达到接近微调方法的性能
- Motivation: 现有方法在泛化性和保真度之间存在权衡:基于微调的方法容易过拟合,而无微调方法保真度较低。需要一种既能保持泛化能力又能提高外推视图质量的方法
- Method: 提出FreeFix方法,采用交错的2D-3D细化策略,利用预训练图像扩散模型进行一致性细化;引入逐像素置信度掩码识别不确定区域进行针对性改进
- Result: 在多个数据集上的实验表明,FreeFix提高了多帧一致性,性能达到或超过基于微调的方法,同时保持了强大的泛化能力
- Conclusion: FreeFix通过创新的2D-3D细化策略和置信度掩码机制,成功突破了泛化性与保真度之间的权衡,无需微调即可实现高质量的外推视图渲染
cs.RO
[66] TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement
Wanjun Jia,Kang Li,Fan Yang,Mengfei Duan,Wenrui Chen,Yiming Jiang,Hui Zhang,Kailun Yang,Zhiyong Li,Yaonan Wang
Main category: cs.RO
TL;DR: TRACER框架通过纹理鲁棒的affordance链式思维和可变形物体细化,解决了机器人操作可变形物体时语义指令与物理交互点对齐的挑战。
- Motivation: 可变形物体操作的核心挑战在于复杂外观和纹理变化下,高层语义指令与物理交互点的对齐。现有视觉affordance预测方法存在边界溢出和功能区域碎片化问题。
- Method: 提出TRACER框架:1) 树状affordance链式思维(TA-CoT)将任务意图分解为层次子任务语义;2) 空间约束边界细化(SCBR)抑制预测溢出;3) 交互收敛细化流(ICRF)聚合离散像素增强空间连续性。
- Result: 在Fine-AGDDO15数据集和真实机器人平台上实验表明,TRACER显著提高了不同纹理和图案下的affordance定位精度,并提升了长时域任务的成功率。
- Conclusion: TRACER有效弥合了高层语义推理与低层物理执行之间的鸿沟,为可变形物体操作提供了鲁棒的affordance预测框架。
cs.DC
[67] StreamFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs
Jiacheng Yang,Jun Wu,Yaoyao Ding,Zhiying Xu,Yida Wang,Gennady Pekhimenko
Main category: cs.DC
TL;DR: StreamFusion是一个针对Diffusion Transformers的高效服务引擎,通过拓扑感知的序列并行、Torus Attention和单边通信技术,解决了现有并行方法的通信瓶颈,实现了1.35倍的平均性能提升。
- Motivation: 随着高分辨率图像和长视频生成需求的增长,单GPU推理效率低下。现有序列并行方法存在通信模式不优化、跨机器all-to-all操作延迟瓶颈以及GPU同步开销等问题。
- Method: StreamFusion包含三个关键技术:1) 考虑机器间和机器内带宽差异的拓扑感知序列并行;2) Torus Attention,一种新的SP技术,允许跨机器all-to-all操作与计算重叠;3) 最小化GPU同步开销的单边通信实现。
- Result: 实验表明StreamFusion平均性能优于现有最佳方法1.35倍,最高可达1.77倍。
- Conclusion: StreamFusion通过优化通信模式和减少同步开销,为大规模Diffusion Transformers推理提供了高效的服务引擎解决方案。
cs.CR
[68] SemBind: Binding Diffusion Watermarks to Semantics Against Black-Box Forgery Attacks
Xin Zhang,Zijin Yang,Kejiang Chen,Linfeng Ma,Weiming Zhang,Nenghai Yu
Main category: cs.CR
TL;DR: SemBind是首个防御潜在水印黑盒伪造攻击的框架,通过学习语义掩码器将潜在信号绑定到图像语义,在保持图像质量的同时显著降低伪造攻击的误接受率。
- Motivation: 当前基于潜在扩散模型的水印技术虽然简化了生成图像的检测和溯源,但面临黑盒伪造攻击的威胁。攻击者只需一张水印图像和黑盒访问权限,就能将提供商的水印嵌入到非提供商生成的图像中,严重威胁图像溯源和信任体系。
- Method: 提出SemBind防御框架,通过学习语义掩码器将潜在信号绑定到图像语义。使用对比学习训练掩码器,使相同提示词生成近似不变的编码,不同提示词生成近似正交的编码。这些编码经过重塑和置换后调制目标潜在表示,然后应用标准潜在水印。框架兼容现有潜在水印方案,通过掩码比率参数可调节抗伪造强度与鲁棒性的平衡。
- Result: 在四种主流潜在水印方法上,SemBind增强的抗伪造变体显著降低了黑盒伪造攻击下的误接受率,同时保持了图像质量基本不变。框架提供了可控的鲁棒性-安全性平衡。
- Conclusion: SemBind是首个有效防御潜在水印黑盒伪造攻击的框架,通过将水印信号与图像语义绑定,在保持兼容性和图像质量的同时,显著提升了水印系统的安全性。
[69] UnlearnShield: Shielding Forgotten Privacy against Unlearning Inversion
Lulu Xue,Shengshan Hu,Wei Lu,Ziqi Zhou,Yufei Song,Jianhong Cheng,Minghui Li,Yanjun Zhang,Leo Yu Zhang
Main category: cs.CR
TL;DR: 提出首个针对机器学习遗忘反转攻击的防御方法UnlearnShield,通过在余弦表示空间引入方向性扰动并约束,平衡隐私保护、模型准确性和遗忘效果
- Motivation: 机器学习遗忘技术旨在从训练模型中移除特定数据影响以增强隐私保护,但近期研究发现存在隐私漏洞,攻击者可通过遗忘反转重建本应被删除的数据,而目前缺乏专门防御措施
- Method: 提出UnlearnShield防御方法,在余弦表示空间引入方向性扰动,并通过约束模块进行调节,共同保持模型准确性和遗忘效果,降低反转风险
- Result: 实验证明该方法在隐私保护、准确性和遗忘效果之间取得了良好平衡
- Conclusion: UnlearnShield是首个专门针对遗忘反转攻击的防御方法,能有效降低隐私风险同时保持模型实用性
cs.AR
[70] Primitive-Driven Acceleration of Hyperdimensional Computing for Real-Time Image Classification
Dhruv Parikh,Jebacyril Arockiaraj,Viktor Prasanna
Main category: cs.AR
TL;DR: 该论文提出了一种基于超维计算(HDC)的图像编码算法和FPGA加速器,通过类似卷积神经网络的局部图像块映射和并行架构,在MNIST和Fashion-MNIST数据集上取得了高精度和显著的速度提升。
- Motivation: 超维计算(HDC)使用高维低精度向量表示数据,具有轻量级、抗噪声的特点,但在传统CPU/GPU上执行时存在维度高、稀疏性、数据移动频繁等问题,导致计算效率低下、内存瓶颈和实时性能受限。
- Method: 1. 开发了类似卷积神经网络的图像编码算法:将局部图像块映射到包含空间信息的超向量,然后使用HDC基本操作(绑定、置换、捆绑、相似性搜索)合并为全局表示;2. 设计了端到端FPGA加速器:通过流水线架构在超向量维度和图像块集合上同时利用并行性。
- Result: 1. 编码器在MNIST上达到95.67%准确率,在Fashion-MNIST上达到85.14%准确率,优于先前基于HDC的图像编码器;2. Alveo U280 FPGA实现提供0.09ms推理延迟,相比最先进的CPU和GPU基线分别实现1300倍和60倍加速。
- Conclusion: 该研究提出的HDC图像编码算法和FPGA加速器有效解决了传统处理器上HDC计算的效率问题,实现了高精度图像分类和显著的性能提升,为实时HDC应用提供了可行的硬件解决方案。
eess.IV
[71] SegRap2025: A Benchmark of Gross Tumor Volume and Lymph Node Clinical Target Volume Segmentation for Radiotherapy Planning of Nasopharyngeal Carcinoma
Jia Fu,Litingyu Wang,He Li,Zihao Luo,Huamin Wang,Chenyuan Bian,Zijun Gao,Chunbin Gu,Xin Weng,Jianghao Wu,Yicheng Wu,Jin Ye,Linhao Li,Yiwen Ye,Yong Xia,Elias Tappeiner,Fei He,Abdul qayyum,Moona Mazher,Steven A Niederer,Junqiang Chen,Chuanyi Huang,Lisheng Wang,Zhaohu Xing,Hongqiu Wang,Lei Zhu,Shichuan Zhang,Shaoting Zhang,Wenjun Liao,Guotai Wang
Main category: eess.IV
TL;DR: SegRap2025挑战赛旨在提升鼻咽癌放疗靶区分割模型的泛化性和鲁棒性,包含GTV分割和LN CTV分割两个任务,使用多中心多模态CT数据评估跨中心和跨模态性能。
- Motivation: 鼻咽癌放疗规划中,准确勾画GTV、LN CTV和OAR至关重要。SegRap2023仅使用单中心配对CT数据,SegRap2025旨在提升模型在不同影像中心和不同模态之间的泛化性和鲁棒性。
- Method: SegRap2025包含两个任务:Task01使用SegRap2023数据集进行GTV分割,增加外部测试集评估跨中心泛化;Task02使用多中心训练数据进行LN CTV分割,测试集包含配对CT或单模态数据,评估跨中心和跨模态鲁棒性。
- Result: GTV分割任务中,最佳模型在内部和外部测试集上的平均DSC分别为74.61%和56.79%。LN CTV分割任务中,在配对CT、仅ceCT和仅ncCT子集上的最高平均DSC分别为60.24%、60.50%和57.23%。
- Conclusion: SegRap2025建立了大规模多中心多模态基准测试,用于评估放疗靶区分割的泛化性和鲁棒性,为临床可用的自动化放疗规划系统提供了宝贵见解。
cs.LG
[72] oculomix: Hierarchical Sampling for Retinal-Based Systemic Disease Prediction
Hyunmin Kim,Yukun Zhou,Rahul A. Jonas,Lie Ju,Sunjin Hwang,Pearse A. Keane,Siegfried K. Wagner
Main category: cs.LG
TL;DR: Oculomix:一种用于视网膜图像分析的分层采样混合增强方法,通过考虑患者和检查层级关系来保留患者特定属性,在心血管事件预测中优于传统图像级增强方法。
- Motivation: 传统图像级混合增强方法(如CutMix和MixUp)在训练transformer模型时会扰动患者特定的医学属性(如共病和临床因素),因为这些方法只考虑图像和标签,而不考虑患者层级关系。
- Method: 提出Oculomix分层采样策略,基于两个临床先验:1)同一患者同一时间点采集的图像共享相同属性(检查层级);2)同一患者不同时间点采集的图像存在软时间趋势(患者层级)。该方法将混合空间约束到患者和检查层级,以更好地保留患者特定特征并利用其分层关系。
- Result: 在大型多民族人群(Alzeye)中对主要不良心血管事件(MACE)进行五年预测,使用ViT模型验证。Oculomix在AUROC上比图像级CutMix和MixUp持续提升高达3%。
- Conclusion: Oculomix通过考虑患者和检查层级关系,有效解决了传统混合增强方法在医学图像分析中扰动患者特定属性的问题,在眼科学预测任务中表现出优越性能,证明了该方法在眼科学中的必要性和价值。
[73] NCSAM Noise-Compensated Sharpness-Aware Minimization for Noisy Label Learning
Jiayu Xu,Junbiao Pang
Main category: cs.LG
TL;DR: 本文提出了一种新颖的视角,通过理论分析损失景观平坦度与标签噪声之间的关系,提出噪声补偿锐度感知最小化(NCSAM)方法,利用SAM的扰动来修复标签噪声的损害。
- Motivation: 现实世界数据集常包含错误或损坏的标注(如网络爬取数据),现有研究主要关注复杂的标签校正机制。本文从新的理论角度出发,探索损失景观平坦度与标签噪声之间的关系。
- Method: 提出噪声补偿锐度感知最小化(NCSAM)方法,利用锐度感知最小化(SAM)的扰动来修复标签噪声的损害。理论分析表明,精心模拟的标签噪声能协同提升泛化性能和噪声鲁棒性。
- Result: 在多个基准数据集上的广泛实验结果表明,该方法在多样化任务上始终优于现有的最先进方法。测试准确率表现出与干净数据集上观察到的相似行为。
- Conclusion: 通过理论分析损失平坦度与标签噪声的关系,提出的NCSAM方法有效提升了噪声标签学习中的泛化性能和鲁棒性,为噪声标签学习提供了新的理论视角和实践方法。
[74] MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference
Huanlin Gao,Ping Chen,Fuyuan Shi,Ruijia Wu,Li YanTao,Qiang Hui,Yuren You,Ting Lu,Chao Tan,Shaoan Zhao,Zhaoxiang Liu,Fang Zhao,Kai Wang,Shiguo Lian
Main category: cs.LG
TL;DR: MeanCache:基于平均速度视角的免训练缓存框架,用于高效Flow Matching推理,通过缓存JVP构建区间平均速度来减少轨迹偏差,实现3.59-4.56倍加速
- Motivation: 现有缓存方法依赖瞬时速度信息,在高加速比下会导致严重的轨迹偏差和误差累积,需要更稳定的缓存策略来提升Flow Matching推理效率
- Method: 引入平均速度视角,通过缓存Jacobian-向量乘积(JVP)从瞬时速度构建区间平均速度;开发轨迹稳定性调度策略,在预算约束下使用峰值抑制最短路径确定调度方案
- Result: 在FLUX.1、Qwen-Image和HunyuanVideo上分别实现4.12倍、4.56倍和3.59倍加速,在生成质量上持续优于最先进的缓存基线方法
- Conclusion: MeanCache为Flow Matching推理提供了新的视角,这种简单有效的方法有望激发商业规模生成模型中稳定性驱动加速的进一步探索
[75] Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability
Rohan Asthana,Vasileios Belagiannis
Main category: cs.LG
TL;DR: 提出新的扩散模型记忆化检测方法,结合各向同性范数和各向异性对齐,无需去噪步骤,比现有方法快5倍以上
- Motivation: 扩散模型存在记忆化问题,会无意中复制训练图像。现有基于分数差范数的检测方法主要适用于各向同性分布的高/中噪声水平,但在低噪声的各向异性区域效果有限
- Method: 证明范数指标在各向同性分布下有效,分析各向异性区域发现记忆化样本在低噪声下具有指导向量与无条件分数之间的强角度对齐。开发结合各向同性范数和各向异性对齐的检测指标,可直接在纯噪声输入上通过两次前向传播计算
- Result: 在Stable Diffusion v1.4和v2上的检测实验表明,该方法优于现有的免去噪检测方法,且比之前最佳方法快约5倍。通过基于该指标的适应策略有效缓解记忆化问题
- Conclusion: 提出的记忆化检测方法通过结合各向同性和各向异性特征,实现了高效准确的检测,无需计算密集的去噪步骤,为扩散模型的安全应用提供了实用工具
[76] Continual GUI Agents
Ziwei Liu,Borui Kang,Hangjie Yuan,Zixiang Zhao,Wei Li,Yifan Zhu,Tao Feng
Main category: cs.LG
TL;DR: 提出了GUI-AiF框架,通过锚点奖励和区域奖励解决GUI代理在数据分布变化时的持续学习问题
- Motivation: 数字环境(数据分布)不断变化,新的GUI数据随时间引入新域或新分辨率,在静态环境中训练的代理性能会下降。现有方法在GUI分布随时间变化时无法保持稳定的基础定位
- Method: 提出GUI-Anchoring in Flux (GUI-AiF)强化微调框架,包含两个新颖的奖励机制:Anchoring Point Reward in Flux (APR-iF)和Anchoring Region Reward in Flux (ARR-iF),引导代理对齐变化的交互点和区域
- Result: 大量实验表明GUI-AiF超越了最先进的基线方法
- Conclusion: 建立了首个GUI代理的持续学习框架,揭示了强化微调在持续GUI代理中的未开发潜力
[77] C3Box: A CLIP-based Class-Incremental Learning Toolbox
Hao Sun,Da-Wei Zhou
Main category: cs.LG
TL;DR: C3Box是一个基于CLIP的类增量学习工具箱,统一了传统、ViT和CLIP-based CIL方法,提供标准化实验流程和可复现基准平台。
- Motivation: 现有基于CLIP的类增量学习方法分散在不同代码库中,配置不一致,阻碍了公平比较、可复现性和实际应用,需要统一的工具箱来解决这些问题。
- Method: 开发模块化的Python工具箱C3Box,集成代表性CIL方法到统一的CLIP框架中,采用JSON配置和标准化执行流程,继承PyCIL的简洁设计。
- Result: C3Box提供了低工程开销的可复现实验环境,成为可靠的持续学习基准平台,支持主流操作系统和开源库,代码已开源。
- Conclusion: C3Box解决了CLIP-based CIL方法分散和配置不一致的问题,为类增量学习研究提供了标准化、可复现的基准平台,促进该领域发展。
cs.GR
[78] GRTX: Efficient Ray Tracing for 3D Gaussian-Based Rendering
Junseo Lee,Sangyun Jeon,Jungi Lee,Junyong Park,Jaewoong Sim
Main category: cs.GR
TL;DR: GRTX提出软件和硬件优化,通过射线空间变换将各向异性高斯视为单位球来简化加速结构,并引入遍历检查点硬件支持,显著提升3D高斯溅射的射线追踪性能。
- Motivation: 现有3D高斯溅射的射线追踪方法存在加速结构臃肿和节点遍历冗余的问题,导致性能低下。需要克服这些限制以实现高效的高斯射线追踪。
- Method: 1. 提出新颖的加速结构构建方法:通过射线空间变换将各向异性高斯视为单位球,大幅减少BVH大小和遍历开销。2. 设计专用硬件支持:在射线追踪单元中实现遍历检查点机制,避免多轮追踪中的冗余节点访问。
- Result: GRTX相比基线射线追踪方法显著提升了性能,硬件成本增加可忽略不计。
- Conclusion: GRTX通过软件和硬件协同优化,有效解决了3D高斯溅射射线追踪中的效率问题,为高质量实时渲染提供了高效解决方案。
Powered by Deepseek & arXiv Daily AI Enhanced