Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Understanding Virality: A Rubric based Vision-Language Model Framework for Short-Form Edutainment Evaluation
Arnav Gupta,Gurekas Singh Sahney,Hardik Rathi,Abhishek Chandwani,Ishaan Gupta,Pratik Narang,Dhruv Kumar
Main category: cs.CV
TL;DR: 提出基于视觉语言模型的无监督视听特征提取框架,通过聚类和回归分析预测短视频参与度,相比传统指标更可解释且可扩展
- Motivation: 现有视频评估框架(如VideoScore-2)主要关注视觉和语义保真度,但未能捕捉具体视听属性如何驱动真实观众参与度。需要建立更贴近人类感知、多模态推理的短视频内容评估方法。
- Method: 使用视觉语言模型提取无监督视听特征,聚类为可解释因子,训练回归评估器预测短视频参与度。构建YouTube Shorts数据集,系统分析VLM特征与人类参与行为的关系。
- Result: 实验显示预测参与度与实际参与度有强相关性,轻量级特征评估器相比传统指标(如SSIM、FID)提供更可解释和可扩展的评估。
- Conclusion: 通过将评估基于多模态特征重要性和以人为中心的参与信号,该方法推动了稳健且可解释的视频理解发展。
[2] A Tool Bottleneck Framework for Clinically-Informed and Interpretable Medical Image Understanding
Christina Liu,Alan Q. Wang,Joy Hsu,Jiajun Wu,Ehsan Adeli
Main category: cs.CV
TL;DR: 提出Tool Bottleneck Framework (TBF),通过学习的Tool Bottleneck Model (TBM)来融合视觉语言模型选择的工具输出,解决医学图像理解中文本融合的局限性。
- Motivation: 现有基于文本的工具组合方法在医学图像理解中表现不佳,因为医学图像的关键信息是空间局部特征,难以通过纯文本有效融合。
- Method: TBF框架:1) 使用现成医学VLM选择工具提取临床相关特征;2) 通过学习的TBM神经网络融合工具输出;3) 提出简单有效的策略使TBM能处理任意VLM工具选择。
- Result: 在组织病理学和皮肤病学任务上,TBF性能与深度学习分类器、VLMs和SOTA工具使用框架相当或更好,在数据有限情况下优势更明显。
- Conclusion: TBF不仅改进了医学图像中的工具使用,还产生了更可解释、临床基础更强的预测器,特别适合数据有限场景。
[3] Scalable Deep Subspace Clustering Network
Nairouz Mrabah,Mohamed Bouguessa,Sihem Sami
Main category: cs.CV
TL;DR: SDSNet是一个可扩展的深度子空间聚类框架,通过地标点近似和因子化表示将复杂度从O(n³)降低到O(n),同时保持聚类质量。
- Motivation: 传统子空间聚类方法面临可扩展性限制,因为构建完整n×n亲和度矩阵和进行谱分解需要O(n³)计算成本。即使基于深度学习的方法改进了特征提取,但仍通过穷举的成对相似性计算维持这一计算瓶颈。
- Method: 提出SDSNet(可扩展深度子空间网络),通过三个关键技术:(1)基于地标点的近似,避免完整亲和度矩阵;(2)自编码器重建与自表达目标的联合优化;(3)在因子化表示上直接进行谱聚类。该框架结合了卷积自编码器与子空间保持约束。
- Result: 实验结果表明,SDSNet在显著提高计算效率的同时,达到了与最先进方法相当的聚类质量。
- Conclusion: SDSNet通过创新的可扩展架构解决了子空间聚类中的计算瓶颈问题,为大规模数据集上的子空间聚类提供了高效的解决方案。
[4] Intelligent recognition of GPR road hidden defect images based on feature fusion and attention mechanism
Haotian Lv,Yuhui Zhang,Jiangbo Dai,Hanli Wu,Jiaji Wang,Dawei Wang
Main category: cs.CV
TL;DR: 提出MCGA-Net框架,结合DCGAN数据增强和多模态链式特征融合,用于探地雷达图像缺陷检测,在精度、召回率和mAP@50上表现优异。
- Motivation: 传统探地雷达图像解释依赖主观专家经验,效率低且不准确,需要自动化解决方案来应对数据稀缺和复杂背景下的缺陷检测挑战。
- Method: 1) DCGAN数据增强生成高质量GPR图像;2) 提出MCGA-Net网络,包含多模态链式特征融合和全局注意力机制;3) 使用MS COCO迁移学习微调骨干网络。
- Result: MCGA-Net达到精度92.8%、召回率92.5%、mAP@50 95.9%,在高斯噪声、弱信号和小目标检测中保持鲁棒性,优于其他模型。
- Conclusion: 该研究为自动化GPR缺陷检测建立了新范式,在复杂地下环境中平衡计算效率与高精度,推动了非破坏性评估技术的发展。
[5] CCAD: Compressed Global Feature Conditioned Anomaly Detection
Xiao Jin,Liang Diao,Qixin Xiao,Yifan Hu,Ziqi Zhang,Yuchen Liu,Haisong Gu
Main category: cs.CV
TL;DR: 提出CCAD方法,结合重建和表示学习优势,通过压缩全局特征作为重建条件,在异常检测中实现更好性能和更快收敛
- Motivation: 现有异常检测方法存在局限:基于无监督表示的方法在域偏移下难以提取鲁棒特征,基于重建的方法训练效率低且性能受限。需要结合两者优势解决这些问题
- Method: 提出CCAD方法,将全局特征作为新模态条件用于重建模型,设计自适应压缩机制提升泛化能力和训练效率
- Result: CCAD在AUC指标上持续优于现有方法,收敛更快。重新组织和标注DAGM 2007数据集验证方法有效性
- Conclusion: CCAD成功结合重建和表示学习范式优势,在异常检测中实现优越性能,为工业应用提供有效解决方案
[6] IMA++: ISIC Archive Multi-Annotator Dermoscopic Skin Lesion Segmentation Dataset
Kumar Abhishek,Jeremy Kawahara,Ghassan Hamarneh
Main category: cs.CV
TL;DR: ISIC MultiAnnot++是一个大规模公开的多标注者皮肤病变分割数据集,包含14,967张皮肤镜图像和17,684个分割掩码,其中2,394张图像有2-5个分割标注,是目前最大的公开SLS数据集。
- Motivation: 目前缺乏大规模公开的多标注者皮肤病变分割数据集,特别是带有标注者元数据(如技能水平和标注工具)的数据集,这限制了相关研究的发展。
- Method: 从ISIC Archive收集皮肤镜图像,组织多个标注者对图像进行分割标注,记录标注者的技能水平和使用的标注工具等元数据。
- Result: 创建了包含14,967张皮肤镜图像和17,684个分割掩码的数据集,其中2,394张图像有多个标注,提供了标注者元数据和共识分割掩码。
- Conclusion: ISIC MultiAnnot++填补了多标注者皮肤病变分割数据集的空白,为标注者特异性偏好建模和标注者元数据分析等研究提供了重要资源。
[7] GPF-Net: Gated Progressive Fusion Learning for Polyp Re-Identification
Suncheng Xiang,Xiaoyang Wang,Junjie Jiang,Hejia Wang,Dahong Qian
Main category: cs.CV
TL;DR: 提出Gated Progressive Fusion网络,通过门控机制选择性融合多层级特征,用于结肠镜息肉重识别任务
- Motivation: 结肠镜息肉重识别在计算机辅助诊断中很重要,但现有方法使用高层特征的粗粒度分辨率对小息肉识别效果不佳,因为小息肉需要更详细的信息
- Method: 提出Gated Progressive Fusion网络,使用门控机制在全连接方式下选择性融合多层级特征,采用门控渐进融合策略通过多层级特征交互实现语义信息的逐层细化
- Result: 在标准基准测试中,多模态设置相比最先进的单模态重识别模型表现更好,特别是结合专门的多模态融合策略时效果更佳
- Conclusion: 提出的门控渐进融合网络能有效解决结肠镜息肉重识别中因特征分辨率不足导致的小息肉识别困难问题,通过多层级特征融合提升了识别性能
[8] Generative Multi-Focus Image Fusion
Xinzhe Xie,Buyu Guo,Bolin Li,Shuangyan He,Yanzhen Gu,Qingyan Jiang,Peiliang Li
Main category: cs.CV
TL;DR: GMFF是一个两阶段生成式多焦点图像融合框架,首阶段用StackMFF V4进行确定性融合,次阶段用IFControlNet进行生成式修复,解决现有方法对全焦点覆盖的假设限制和边缘伪影问题。
- Motivation: 现有多焦点图像融合方法通常假设场景中每个空间位置至少在一张输入图像中是清晰的,且在实际复杂场景中常因焦点估计不确定或硬选择操作而产生边缘伪影。需要解决这些限制以提升融合质量。
- Method: 提出两阶段框架GMFF:1) 确定性融合阶段使用StackMFF V4结合可用焦平面信息生成初始融合图像;2) 生成式修复阶段通过IFControlNet利用潜在扩散模型的生成能力,重建缺失焦平面内容、恢复细节并消除边缘伪影。两阶段独立开发,级联工作。
- Result: 大量实验表明GMFF实现了最先进的融合性能,在涉及复杂多焦点内容的场景中展现出显著的实际应用潜力。
- Conclusion: GMFF通过结合确定性融合和生成式修复,有效解决了现有多焦点图像融合方法的局限性,为复杂多焦点场景提供了高质量的融合解决方案。
[9] SVBench: Evaluation of Video Generation Models on Social Reasoning
Wenshuo Peng,Gongxuan Wang,Tianmeng Yang,Chuanhao Li,Xiaojie Xu,Hui He,Kaipeng Zhang
Main category: cs.CV
TL;DR: 论文提出了首个视频生成中的社会推理基准,基于发展心理学和社会心理学,将30个经典社会认知范式组织成7个核心维度,用于评估当前文本到视频生成模型在社会行为理解方面的局限性。
- Motivation: 当前文本到视频生成模型在视觉真实感、运动保真度和文本-视频对齐方面取得了显著进展,但在生成社会一致行为方面存在根本性限制。与人类能够从简短视觉线索中轻松推断意图、信念、情感和社会规范不同,现有模型倾向于呈现字面场景而无法捕捉潜在的因果或心理逻辑。
- Method: 开发了一个完全无需训练的基于智能体的流程:(1) 提炼每个实验的推理机制,(2) 合成多样化的视频就绪场景,(3) 通过基于线索的批判来强制概念中立和难度控制,(4) 使用高容量视觉语言模型(VLM)法官在五个可解释的社会推理维度上评估生成的视频。
- Result: 对七个最先进的视频生成系统进行了首次大规模研究,结果显示显著的性能差距:现代模型在表面合理性方面表现出色,但在意图识别、信念推理、联合注意力和亲社会推理方面系统性失败。
- Conclusion: 需要开发能够理解和生成社会一致行为的视频生成模型,当前模型在社会推理方面存在系统性缺陷,需要新的方法来捕捉人类社会认知的复杂性。
[10] Fixed-Budget Parameter-Efficient Training with Frozen Encoders Improves Multimodal Chest X-Ray Classification
Md Ashik Khan,Md Nahid Siddique
Main category: cs.CV
TL;DR: 参数高效训练策略在胸部X光多标签分类中显著优于全微调,使用仅2.51%的参数实现更高AUROC,但存在校准问题
- Motivation: 传统多模态胸部X光分析通常需要微调大型视觉语言模型,计算成本高昂,因此研究参数高效训练策略以降低计算开销
- Method: 研究多种参数高效训练策略:冻结编码器、BitFit、LoRA和适配器,在印第安纳大学胸部X光数据集上进行多标签分类,通过删除病理术语避免数据泄漏
- Result: 在固定参数预算下(2.37M参数,占总参数2.51%),所有PET变体AUROC在0.892-0.908之间,优于全微调(0.770 AUROC),参数减少40倍;外部验证显示适配器性能最佳(0.7214 AUROC)
- Conclusion: 冻结编码器策略在显著降低计算成本的同时提供优越的判别性能,但需要后处理校准方法解决校准问题;改进主要来自参数分配而非跨模态协同
[11] Fixed-Threshold Evaluation of a Hybrid CNN-ViT for AI-Generated Image Detection Across Photos and Art
Md Ashik Khan,Arafat Alam Jion
Main category: cs.CV
TL;DR: 该论文提出了一种固定阈值评估协议,用于评估AI生成图像检测器在常见后处理变换下的部署鲁棒性,揭示了CNN和ViT在法证-语义谱上的不同表现,并为实际部署提供了指导。
- Motivation: 现有AI生成图像检测方法在评估鲁棒性时存在误导性,因为它们会为每个后处理条件重新调整决策阈值,这人为地夸大了鲁棒性估计并掩盖了实际部署中的失败。需要一种更真实的评估协议来反映实际部署场景。
- Method: 提出固定阈值评估协议:在干净验证数据上选择一次决策阈值,并在所有后处理变换中保持不变。使用轻量级CNN-ViT混合架构(带门控融合和可选频率增强),在三个操作点(低FPR、ROC最优、最佳F1)进行系统退化测试。
- Result: 实验揭示了法证-语义谱:频率增强的CNN在原始照片上表现出色(93.33%),但在压缩下崩溃(61.49%);而ViT通过鲁棒的语义模式识别仅轻微下降(92.86%到88.36%)。所有架构在艺术内容上的AUROC比逼真图像高15%。混合方法在跨域性能上表现平衡。
- Conclusion: 固定阈值评估消除了重新调整带来的膨胀,揭示了真正的鲁棒性差距,并提供了可操作的部署指导:对于干净照片验证首选CNN,对于压缩内容首选ViT,对于艺术/图形筛选首选混合方法。语义模式比法证伪影提供更可靠的检测线索。
[12] MuS-Polar3D: A Benchmark Dataset for Computational Polarimetric 3D Imaging under Multi-Scattering Conditions
Puyun Wang,Kaimin Yu,Huayang He,Xianyu Wu
Main category: cs.CV
TL;DR: 提出了MuS-Polar3D数据集,这是首个公开的偏振水下3D成像基准数据集,包含42个物体在7种散射条件和5个视角下的偏振图像,支持多种视觉任务评估。
- Motivation: 现有的偏振水下3D重建方法缺乏多样化的公开数据集,散射和观测条件不足,阻碍了不同方法(包括单视角和多视角偏振成像)之间的公平比较。
- Method: 构建了MuS-Polar3D基准数据集,包含42个物体在7种定量控制的散射条件和5个视角下的偏振图像,以及高精度3D模型、法线图和前景掩码。从成像链角度提出两阶段重建流程:先去散射,再进行3D重建。
- Result: 在复杂散射条件下使用多种基线方法进行广泛评估,证明了基准数据集的有效性,最佳平均角度误差达到15.49度。数据集支持正常估计、物体分割、去散射和3D重建等多种任务。
- Conclusion: MuS-Polar3D是首个公开的偏振水下3D成像基准数据集,能够在可控散射条件下实现准确重建和公平算法评估,填补了该领域的数据空白。
[13] DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO
Henglin Liu,Huijuan Huang,Jing Wang,Chang Liu,Xiu Li,Xiangyang Ji
Main category: cs.CV
TL;DR: 本文针对GRPO强化学习在图像生成后期出现同质化、缺乏多样性的问题,提出了基于语义分组的分布级创意奖励和结构感知正则化方法,在保持图像质量的同时显著提升语义多样性。
- Motivation: GRPO强化学习虽然能显著提升图像生成质量,但在训练后期模型倾向于产生同质化输出,缺乏创造性和视觉多样性,限制了其应用场景。这一问题可以从奖励建模和生成动态两个角度分析:传统GRPO依赖单样本质量作为奖励信号,导致模型收敛于少数高奖励生成模式;同时传统正则化忽略了早期去噪阶段对保持多样性的主导作用。
- Method: 从奖励建模和生成动态两个层面解决问题:1) 奖励层面:提出基于语义分组的分布级创意奖励,通过对同一标题生成的样本进行谱聚类构建分布级表示,并根据组大小自适应分配探索奖励以鼓励发现新的视觉模式;2) 生成层面:引入结构感知正则化,加强早期阶段约束以保持多样性而不损害奖励优化效率。
- Result: 实验表明,该方法在匹配质量分数下实现了13%-18%的语义多样性提升,为基于GRPO的图像生成建立了新的质量-多样性帕累托前沿。
- Conclusion: 本文通过从奖励建模和生成动态两个角度重新审视多样性退化问题,提出的分布级创意奖励和结构感知正则化方法有效解决了GRPO训练后期的同质化问题,在保持图像质量的同时显著提升了生成多样性。
[14] Hierarchy-Aware Fine-Tuning of Vision-Language Models
Jiayu Li,Rajesh Gangireddy,Samet Akcay,Wei Cheng,Juhua Hu
Main category: cs.CV
TL;DR: 提出一种高效的层次感知微调框架,通过树路径KL散度和层次兄弟平滑交叉熵损失,在共享嵌入空间中实现垂直和水平一致性,结合轻量级LoRA适配,以最小参数开销提升VLM在层次分类中的性能。
- Motivation: 视觉语言模型通过大规模图像文本预训练学习强大的多模态表示,但将其适应到层次分类任务的研究不足。标准方法将标签视为扁平类别并需要完全微调,这种方法成本高昂且在不同分类层级上产生不一致的预测。
- Method: 提出高效的层次感知微调框架,结合两个目标:树路径KL散度(TP-KL)沿真实标签路径对齐预测以实现垂直一致性,层次兄弟平滑交叉熵(HiSCE)鼓励兄弟类别间的一致预测。两种损失在VLM的共享嵌入空间中工作,并与轻量级LoRA适配集成。
- Result: 在多个基准测试中,该方法在全路径准确率和基于树的不一致性误差方面均取得一致改进,同时保持最小的参数开销。
- Conclusion: 该方法为将视觉语言模型适应到结构化分类体系提供了一种高效策略,通过层次感知的微调实现了结构一致性和预测准确性。
[15] Vision Transformers are Circulant Attention Learners
Dongchen Han,Tianyu Li,Ziyi Wang,Gao Huang
Main category: cs.CV
TL;DR: 提出循环注意力机制,利用自注意力矩阵近似块循环矩阵的特性,实现O(NlogN)计算复杂度,同时保持标准自注意力的能力。
- Motivation: 自注意力机制在视觉Transformer中至关重要,但其二次复杂度在高分辨率场景下计算负担重,限制了实际应用。现有方法引入手工设计的局部性或稀疏性模式会损害模型能力。
- Method: 提出循环注意力机制,发现视觉Transformer中的自注意力矩阵近似块循环矩阵,将注意力图显式建模为其最近的BCCB矩阵,并设计高效计算算法实现快速计算。
- Result: 在多种视觉任务上的广泛实验证明了该方法的有效性,计算复杂度降至O(NlogN),同时基本保持了标准自注意力的能力。
- Conclusion: 循环注意力机制是视觉Transformer架构中自注意力的有前景的替代方案,既降低了计算复杂度又保持了模型能力。
[16] EraseLoRA: MLLM-Driven Foreground Exclusion and Background Subtype Aggregation for Dataset-Free Object Removal
Sanghyun Jo,Donghwan Lee,Eunji Jung,Seong Je Oh,Kyungsu Kim
Main category: cs.CV
TL;DR: EraseLoRA:无需数据集的物体移除框架,通过背景感知推理和测试时适应解决现有方法的问题,避免目标物体重现并重建被遮挡背景
- Motivation: 物体移除与常规修复不同,需要防止被掩码的目标物体重现,并以结构和上下文保真度重建被遮挡背景。现有无数据集方法通过重定向自注意力存在两个问题:非目标前景常被误判为背景导致物体重现,以及直接注意力操作破坏细节并阻碍背景线索的连贯整合。
- Method: 提出EraseLoRA框架:1) 背景感知前景排除(BFE):使用多模态大语言模型从单张图像-掩码对中分离目标前景、非目标前景和干净背景,无需配对监督;2) 背景感知重建与子类型聚合(BRSA):进行测试时优化,将推断的背景子类型视为互补片段,通过重建和对齐目标强制一致整合,无需显式注意力干预。
- Result: 作为预训练扩散模型的插件,在物体移除基准测试中验证,相比无数据集基线方法有持续改进,与有数据集驱动方法相比具有竞争力。
- Conclusion: EraseLoRA通过背景感知推理和测试时适应,有效解决了物体移除中的关键挑战,避免了注意力操作带来的问题,实现了更好的背景重建效果。
[17] Toward Intelligent Scene Augmentation for Context-Aware Object Placement and Sponsor-Logo Integration
Unnati Saraswat,Tarun Rao,Namah Gupta,Shweta Swami,Shikhar Sharma,Prateek Narang,Dhruv Kumar
Main category: cs.CV
TL;DR: 提出两个新的图像编辑任务:上下文感知对象插入和赞助商产品logo增强,并构建相应数据集
- Motivation: 现有图像编辑方法很少确保插入的对象在上下文中是合适的,特别是在广告和数字媒体领域需要更智能的编辑能力
- Method: 引入两个新任务:1)上下文感知对象插入(预测合适类别、生成对象、合理放置);2)赞助商产品logo增强(检测产品并插入正确品牌logo)。为此构建了两个带类别标注、放置区域和赞助商产品标签的新数据集
- Result: 构建了两个支持新任务的数据集,包含类别标注、放置区域和赞助商产品标签,为上下文感知图像编辑提供基础
- Conclusion: 提出了广告和数字媒体领域的两个新图像编辑任务,通过构建专用数据集为开发更智能、上下文感知的图像编辑系统奠定基础
[18] Exploration of Reproducible Generated Image Detection
Yihang Duan
Main category: cs.CV
TL;DR: 该研究分析了AIGC图像检测领域的可复现性和泛化性问题,通过复现7篇关键论文和构建轻量级测试集,发现论文细节缺失和检测方法过拟合特定生成器是主要问题。
- Motivation: AIGC图像检测技术虽然发展迅速,但面临可复现性差和泛化能力不足两大核心问题,阻碍了实际应用。本研究旨在解决这些问题,为改进检测技术的可复现性提供实证依据。
- Method: 回顾了7篇AIGC检测关键论文,构建轻量级测试数据集,复现代表性检测方法,分析预处理步骤、参数设置等细节,并测试跨生成器的泛化性能。
- Result: 严格遵循论文核心流程可复现基本性能,但预处理破坏关键特征或跨生成器测试时检测性能急剧下降。发现论文常省略隐含细节,检测方法过度拟合特定生成器而非学习AIGC图像的通用内在特征。
- Conclusion: 研究为改进AIGC检测技术的可复现性提供了实证证据,建议研究者更全面地披露实验细节,并验证所提方法的泛化能力,以推动该领域的实际应用。
[19] Towards Long-window Anchoring in Vision-Language Model Distillation
Haoyi Zhou,Shuo Li,Tianyu Chen,Qi Song,Chonghan Gao,Jianxin Li
Main category: cs.CV
TL;DR: LAid:通过渐进距离加权注意力匹配和可学习RoPE响应增益调制,将大模型的长程注意力机制蒸馏到小模型,实现3.2倍有效上下文窗口扩展
- Motivation: 现有视觉语言模型的小分支因窗口大小有限,在语言-图像对齐方面表现不佳。虽然知识蒸馏能提升学生模型能力,但需要更有效的方法来转移长程注意力机制
- Method: 提出LAid方法,包含两个互补组件:1)渐进距离加权注意力匹配,在训练中动态强调更长的位置差异;2)可学习RoPE响应增益调制,选择性增强位置敏感性
- Result: LAid蒸馏的模型相比基线小模型实现高达3.2倍的有效上下文窗口扩展,在标准VL基准测试中保持或提升性能。频谱分析显示成功保留了传统方法无法转移的关键低频注意力组件
- Conclusion: LAid不仅为构建更高效的长上下文VLMs提供了实用技术,还为理解位置感知在蒸馏过程中如何出现和转移提供了理论见解
[20] LLM-Free Image Captioning Evaluation in Reference-Flexible Settings
Shinnosuke Hirano,Yuiga Wada,Kazuki Matsuda,Seitaro Otsuki,Komei Sugiura
Main category: cs.CV
TL;DR: 提出Pearl——一个无需大型语言模型的监督式图像描述评估指标,适用于有参考和无参考两种场景,通过新颖的图像-描述和描述-描述相似性表示学习机制,在多个数据集上超越现有LLM-free指标。
- Motivation: 现有基于LLM的图像描述评估指标存在偏向自身生成内容的中立性问题,而大多数LLM-free指标虽然中立但性能不够高。需要开发既保持中立性又具有高性能的评估指标。
- Method: 提出Pearl监督式指标,引入新颖机制学习图像-描述和描述-描述相似性的表示。构建大规模人工标注数据集,包含约333k个人类判断,来自2,360名标注者,覆盖超过75k张图像。
- Result: Pearl在Composite、Flickr8K-Expert、Flickr8K-CF、Nebula和FOIL数据集上,在参考和无参考两种设置下均优于其他现有LLM-free指标。
- Conclusion: Pearl成功解决了现有指标的中立性与性能权衡问题,为图像描述评估提供了既中立又高性能的解决方案,适用于多种评估场景。
[21] UltraLBM-UNet: Ultralight Bidirectional Mamba-based Model for Skin Lesion Segmentation
Linxuan Fan,Juntao Jiang,Weixuan Liu,Zhucun Xue,Jiajun Lv,Jiangning Zhang,Yong Liu
Main category: cs.CV
TL;DR: 提出UltraLBM-UNet,一种轻量级U-Net变体,结合双向Mamba全局建模与多分支局部特征感知,用于皮肤病灶分割,参数仅0.034M,在多个数据集上达到SOTA性能。
- Motivation: 现有皮肤病灶分割方法存在性能低、计算复杂度高的问题,难以在临床决策中实现准确、鲁棒且资源高效的病灶分析。
- Method: 提出UltraLBM-UNet,集成双向Mamba全局建模机制与多分支局部特征感知,结合高效局部特征注入和双向状态空间建模,实现空间维度上的丰富上下文交互,同时保持计算紧凑性。
- Result: 在ISIC 2017、ISIC 2018和PH2数据集上达到最先进的分割精度,仅0.034M参数和0.060 GFLOPs;通过混合知识蒸馏训练的UltraLBM-UNet-T仅0.011M参数和0.019 GFLOPs,仍保持竞争性性能。
- Conclusion: UltraLBM-UNet适合床旁部署,为准确、鲁棒的病灶分析提供了高效解决方案,在保持高性能的同时大幅降低了计算需求。
[22] From Shallow Humor to Metaphor: Towards Label-Free Harmful Meme Detection via LMM Agent Self-Improvement
Jian Lang,Rongpei Hong,Ting Zhong,Leiting Chen,Qiang Gao,Fan Zhou
Main category: cs.CV
TL;DR: ALARM是一个无需标签的有害表情包检测框架,利用大型多模态模型代理通过自我改进来检测有害内容,通过利用"浅层"表情包信息迭代提升处理复杂表情包的能力。
- Motivation: 现有有害表情包检测方法严重依赖大规模标注数据进行训练,需要大量人工标注工作,且难以适应有害内容不断演变的特性。需要一种无需标签、能自适应新形式有害表情包的解决方案。
- Method: ALARM包含两个核心机制:1) 基于置信度的显式表情包识别机制,从原始数据集中分离显式表情包并分配伪标签;2) 成对学习引导的代理自我改进范式,将显式表情包重组为对比对(正面vs负面)来精炼学习代理,使其自主从这些对中推导高级检测线索。
- Result: 在三个多样化数据集上的实验表明,ALARM具有优越的性能和对新演化表情包的强大适应性。值得注意的是,该方法甚至超越了标签驱动的方法。
- Conclusion: ALARM展示了无需标签框架作为可扩展解决方案的潜力,能够适应动态在线环境中新型有害表情包的形式和主题,为有害内容检测提供了有前景的方向。
[23] GaussianEM: Model compositional and conformational heterogeneity using 3D Gaussians
Bintao He,Yiran Cheng,Hongjia Li,Xiang Gao,Xin Gao,Fa Zhang,Renmin Han
Main category: cs.CV
TL;DR: GaussianEM:一种高斯伪原子框架,用于从冷冻电镜图像中同时建模组成和构象异质性
- Motivation: 理解蛋白质灵活性及其与其他分子的动态相互作用对蛋白质功能研究至关重要。冷冻电镜为直接观察大分子动力学提供了机会,但分析同时包含连续运动和离散状态的数据集仍然极具挑战性。
- Method: 提出GaussianEM,一种高斯伪原子框架,采用双编码器-单解码器架构,将图像映射到其各个高斯分量,并通过高斯参数的变化表示结构变异性。
- Result: 该方法为构象变化提供了直观可解释的描述,沿转变轨迹保持局部结构一致性,并自然弥合了基于密度的模型与相应原子模型之间的差距。在模拟和实验数据集上验证了有效性。
- Conclusion: GaussianEM能够同时从冷冻电镜图像中建模组成和构象异质性,为研究蛋白质动态相互作用提供了有效的分析工具。
[24] TAMEing Long Contexts in Personalization: Towards Training-Free and State-Aware MLLM Personalized Assistant
Rongpei Hong,Jian Lang,Ting Zhong,Yong Wang,Fan Zhou
Main category: cs.CV
TL;DR: LCMP是首个长上下文MLLM个性化评估基准,TAME作为强基线框架,通过双记忆管理和RA2G范式提升个性化对话能力。
- Motivation: 现有MLLM个性化方法主要关注简单的视觉识别和文本替换,忽略了长上下文对话能力。理想的个性化MLLM助手应能进行长上下文对话,并从历史对话中持续学习提升体验质量。
- Method: 提出LCMP评估基准,并引入TAME框架:1) 双记忆管理(区分处理个性化概念的时序变化和持久变化);2) RA2G范式(检索-对齐-增强生成),通过对齐步骤从多记忆检索知识中提取与当前问题上下文匹配的信息。
- Result: 在LCMP基准上的实验表明,TAME取得了最佳性能,在长上下文场景中展现出卓越且不断演进的交互体验。
- Conclusion: LCMP填补了长上下文MLLM个性化评估的空白,TAME框架通过无训练、状态感知的设计有效提升了MLLM在长上下文个性化对话中的能力。
[25] CausalFSFG: Rethinking Few-Shot Fine-Grained Visual Categorization from Causal Perspective
Zhiwen Yang,Jinglin Xu,Yuxin Pen
Main category: cs.CV
TL;DR: 提出基于因果推理的CausalFSFG方法,通过样本级和特征级干预消除少样本细粒度视觉分类中的虚假相关性,在多个数据集上达到SOTA性能。
- Motivation: 现有少样本细粒度视觉分类方法通常通过增强判别性局部特征来提高分类精度,但忽略了支持样本集作为混杂变量会引入有偏数据分布并误导判别特征提取,从而影响性能。
- Method: 基于结构因果模型,提出CausalFSFG方法,包含两个关键组件:(1) 干预式多尺度编码器(IMSE)进行样本级干预;(2) 干预式掩码特征重建(IMFR)进行特征级干预,共同揭示从输入到子类别的真实因果关系。
- Result: 在CUB-200-2011、Stanford Dogs和Stanford Cars等广泛使用的公共数据集上进行大量实验和深入分析,证明CausalFSFG达到了新的最先进性能。
- Conclusion: 通过因果干预方法有效解决了少样本细粒度视觉分类中的有偏数据分布问题,揭示了输入与子类别之间的真实因果关系,显著提升了分类性能。
[26] SymDrive: Realistic and Controllable Driving Simulator via Symmetric Auto-regressive Online Restoration
Zhiyuan Liu,Daocheng Fu,Pinlong Cai,Lening Wang,Ying Liu,Yilong Ren,Botian Shi,Jianqiang Wang
Main category: cs.CV
TL;DR: SymDrive:基于扩散模型的自动驾驶3D仿真框架,同时实现高质量渲染和交互式交通场景编辑
- Motivation: 自动驾驶需要高保真可控的3D仿真来解决长尾数据稀缺问题,但现有方法难以同时实现照片级真实感渲染和交互式交通编辑,存在大角度新视角合成困难以及资产操作时的几何/光照伪影问题
- Method: 提出对称自回归在线恢复范式,通过构建配对对称视图利用地面真值引导的双视图公式恢复细节,采用自回归策略生成一致的侧视图;利用恢复能力实现免训练协调机制,将车辆插入视为上下文感知的图像修复以确保光照和阴影一致性
- Result: 大量实验表明,SymDrive在新视角增强和真实3D车辆插入方面均达到最先进性能
- Conclusion: SymDrive是一个统一的扩散框架,能够同时实现高质量渲染和场景编辑,解决了自动驾驶仿真中的关键挑战
[27] Training-Free Disentangled Text-Guided Image Editing via Sparse Latent Constraints
Mutiara Shabrina,Nova Kurnia Putri,Jefri Satria Ferdiansyah,Sabita Khansa Dewi,Novanto Yudistira
Main category: cs.CV
TL;DR: 提出基于稀疏约束的PPE框架改进,解决文本驱动图像编辑中的属性纠缠问题,通过L1正则化实现更聚焦的潜在空间操作
- Motivation: 文本驱动图像编辑常面临属性纠缠问题,修改目标属性(如添加刘海)会无意中改变其他语义属性(如身份或外观)。原始PPE框架的正则化策略存在局限性,潜在更新仍然密集且容易导致语义泄漏
- Method: 在PPE框架基础上引入稀疏性约束,使用L1正则化对潜在空间操作进行约束。分析BERT-based属性预测和StyleGAN2-based图像生成架构,在CelebA-HQ数据集上进行实验
- Result: 实验结果表明,提出的稀疏约束方法能够实现更聚焦和受控的编辑,有效减少非目标属性的意外改变,同时更好地保持面部身份特征
- Conclusion: 通过引入L1正则化的稀疏约束,改进了PPE框架的潜在空间操作,解决了属性纠缠问题,实现了更精确和可控的文本驱动图像编辑
[28] TrackTeller: Temporal Multimodal 3D Grounding for Behavior-Dependent Object References
Jiahong Yu,Ziqi Wang,Hailiang Zhao,Wei Zhai,Xueqiang Yan,Shuiguang Deng
Main category: cs.CV
TL;DR: TrackTeller是一个用于动态3D驾驶场景中语言指代对象识别的时序多模态框架,通过融合LiDAR-图像数据、语言条件解码和时序推理,显著提升了语言引导的跟踪性能。
- Motivation: 许多指代表达通过最近的运动或短期交互来描述目标,仅从静态外观或几何特征无法解决,需要研究时序语言引导的3D定位问题。
- Method: 提出TrackTeller框架:构建与文本语义对齐的共享UniScene表示,生成语言感知的3D提议,利用运动历史和短期动态细化定位决策,集成LiDAR-图像融合、语言条件解码和时序推理。
- Result: 在NuPrompt基准测试中,TrackTeller持续改进语言引导跟踪性能,平均多目标跟踪准确率相对提升70%,误报频率降低3.15-3.4倍。
- Conclusion: TrackTeller通过统一的时序多模态架构有效解决了动态3D驾驶场景中的语言指代问题,为交互式自动驾驶系统提供了重要技术基础。
[29] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding
Zhiwang Zhou,Yuandong Pu,Xuming He,Yidi Liu,Yixin Chen,Junchao Gong,Xiang Zhuang,Wanghan Xu,Qinglong Cao,Shixiang Tang,Yihao Liu,Wenlong Zhang,Lei Bai
Main category: cs.CV
TL;DR: Omni-Weather是首个统一天气生成与理解的多模态基础模型,通过共享自注意力机制和因果推理数据集实现两者协同增强。
- Motivation: 现有天气建模方法将准确预测和机理解释分离处理,缺乏统一的框架同时实现天气生成和理解。
- Method: 1) 集成雷达编码器用于天气生成任务;2) 使用共享自注意力机制进行统一处理;3) 构建用于天气生成因果推理的Chain-of-Thought数据集。
- Result: 在天气生成和理解任务上都达到了最先进的性能,并证明生成和理解任务可以相互增强。
- Conclusion: Omni-Weather证明了统一天气生成和理解的可行性和价值,为天气建模提供了新的综合框架。
[30] The Deepfake Detective: Interpreting Neural Forensics Through Sparse Features and Manifolds
Subramanyam Sahoo,Jared Junkin
Main category: cs.CV
TL;DR: 提出一个用于深度伪造检测的机制可解释性框架,结合稀疏自编码器分析和新颖的法证流形分析,揭示模型内部特征如何响应不同类型的深度伪造伪影。
- Motivation: 尽管深度伪造检测模型在识别合成媒体方面取得了高准确率,但其决策过程仍然很大程度上是不透明的。需要打开深度伪造检测器的"黑盒",理解模型内部如何工作。
- Method: 结合稀疏自编码器(SAE)分析内部网络表示与新颖的法证流形分析,探究模型特征如何响应受控的法证伪影操作。分析模型特征流形的几何特性,包括内在维度、曲率和特征选择性。
- Result: 发现只有一小部分潜在特征在每一层中被主动使用,并且模型特征流形的几何特性(包括内在维度、曲率和特征选择性)随不同类型的深度伪造伪影而系统变化。
- Conclusion: 这些见解为打开深度伪造检测器的"黑盒"迈出了第一步,使我们能够识别哪些学习到的特征对应于特定的法证伪影,并指导开发更可解释和鲁棒的模型。
[31] Comparative Analysis of Deep Learning Models for Perception in Autonomous Vehicles
Jalal Khan
Main category: cs.CV
TL;DR: 比较YOLO-NAS和YOLOv8在自动驾驶感知任务中的性能,发现YOLOv8s在训练时间和检测精度方面均优于YOLO-NAS。
- Motivation: 自动驾驶车辆需要高效、安全、可靠的感知系统来检测和识别周围环境中的物体。随着机器学习和深度学习算法的快速发展,需要评估新兴模型在实际应用场景中的性能表现。
- Method: 使用自定义数据集,对YOLO-NAS和YOLOv8两种深度学习模型进行目标检测任务的性能比较实验。
- Result: YOLOv8s模型相比YOLO-NAS节省了75%的训练时间,并且在目标检测准确率方面表现更优(YOLOv8s: 83% vs YOLO-NAS: 81%)。
- Conclusion: YOLOv8s在训练效率和检测精度方面均优于YOLO-NAS,这项比较研究有助于相关研究社区了解这些新兴深度学习模型在实际应用场景中的性能表现。
[32] UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture
Shuo Cao,Jiayang Li,Xiaohui Li,Yuandong Pu,Kaiwen Zhu,Yuanting Gao,Siqi Luo,Yi Xin,Qi Qin,Yu Zhou,Xiangyu Chen,Wenlong Zhang,Bin Fu,Yu Qiao,Yihao Liu
Main category: cs.CV
TL;DR: UniPercept-Bench是一个用于感知级图像理解的统一框架,涵盖美学、质量、结构和纹理四个关键领域,通过大规模数据集和强基线模型提升多模态大语言模型的感知能力。
- Motivation: 当前多模态大语言模型在视觉理解任务上取得了显著进展,但在感知级图像特征理解方面仍然有限,需要专门的框架来评估和提升这方面的能力。
- Method: 建立了层次化定义系统,构建大规模数据集,开发了通过领域自适应预训练和任务对齐强化学习训练的UniPercept基线模型,支持视觉评分和视觉问答任务。
- Result: UniPercept在感知级图像理解方面超越了现有的多模态大语言模型,并可作为即插即用的奖励模型用于文本到图像生成任务。
- Conclusion: 这项工作在多模态大语言模型时代定义了感知级图像理解,通过引入全面的基准测试和强基线模型,为推进感知级多模态图像理解奠定了坚实基础。
[33] Contrastive Graph Modeling for Cross-Domain Few-Shot Medical Image Segmentation
Yuntian Bo,Tao Zhou,Zechao Li,Haofeng Zhang,Ling Shao
Main category: cs.CV
TL;DR: C-Graph:一种基于对比图建模的跨域少样本医学图像分割框架,利用医学图像的结构一致性作为领域可迁移先验,通过结构先验图层、子图匹配解码和混淆最小化节点对比损失,在跨域性能上显著优于现有方法。
- Motivation: 现有跨域少样本医学图像分割方法通常过滤掉领域特定信息以提高泛化能力,但这无意中限制了跨域性能并降低了源域准确性。需要一种能够同时保持跨域性能和源域准确性的方法。
- Method: 提出对比图建模(C-Graph)框架:1)将图像特征表示为图(像素为节点,语义亲和度为边);2)设计结构先验图(SPG)层捕获和传递目标类别节点依赖关系;3)引入子图匹配解码(SMD)机制利用节点间语义关系指导预测;4)设计混淆最小化节点对比(CNC)损失通过对比增强图空间中节点可区分性。
- Result: 在多个跨域基准测试中显著优于先前的CD-FSMIS方法,实现了最先进的性能,同时保持了源域上的强大分割准确性。
- Conclusion: C-Graph通过利用医学图像的结构一致性作为可靠的领域可迁移先验,有效解决了现有方法在跨域少样本医学图像分割中的局限性,在提升跨域性能的同时保持了源域准确性。
[34] SlideChain: Semantic Provenance for Lecture Understanding via Blockchain Registration
Md Motaleb Hossen Manik,Md Zabirul Islam,Ge Wang
Main category: cs.CV
TL;DR: SlideChain是一个基于区块链的多模态语义提取溯源框架,用于验证教育内容中VLMs输出的完整性,通过加密哈希和区块链技术确保可审计性和可重现性。
- Motivation: 当前视觉-语言模型(VLMs)在教育内容生成中存在语义输出难以验证、重现和审计的问题,模型间不一致性影响了AI生成教学材料的可靠性,特别是在高风险的STEM领域。
- Method: 开发了SlideChain框架,使用包含1,117个医学影像讲座幻灯片的SlideChain Slides数据集,从四个最先进的VLMs中提取概念和关系三元组,构建结构化溯源记录,并将这些记录的加密哈希锚定在本地EVM兼容区块链上。
- Result: 揭示了多模态教育内容中显著的跨模型差异,包括低概念重叠和许多幻灯片上关系三元组的接近零一致性。系统实现了完美的篡改检测和跨独立提取运行的确定性可重现性,在模拟部署条件下评估了gas使用、吞吐量和可扩展性。
- Conclusion: SlideChain为可信、可验证的多模态教育流程提供了实用且可扩展的解决方案,支持AI辅助教学系统的长期可审计性、可重现性和完整性。
[35] Analyzing the Mechanism of Attention Collapse in VGGT from a Dynamics Perspective
Huan Li,Longjun Luo,Yuling Shi,Xiaodong Gu
Main category: cs.CV
TL;DR: VGGT的全局自注意力层在输入序列超过几百帧时会出现崩溃现象,本文通过数学分析将其建模为退化扩散过程,解释了崩溃机制并验证了token合并方法的有效性。
- Motivation: VGGT在3D重建中表现出色,但其全局自注意力层在处理长序列时会出现崩溃现象:注意力矩阵迅速变为接近秩一,token几何退化到几乎一维子空间,重建误差超线性累积。需要从理论上解释这一现象。
- Method: 将全局注意力迭代视为退化扩散过程,证明token特征流以O(1/L)速率收敛到Dirac型测度,得到闭式平均场偏微分方程来预测经验观察的秩分布。
- Result: 理论定量匹配了注意力热图演化及相关实验报告的结果,解释了token合并方法通过降低有效扩散系数来延迟崩溃的机制,无需额外训练。
- Conclusion: 该分析为解释未来可扩展的3D视觉transformer提供了原则性视角,并强调了其在多模态泛化方面的潜力。
[36] ShinyNeRF: Digitizing Anisotropic Appearance in Neural Radiance Fields
Albert Barreiro,Roger Marí,Rafael Redondo,Gloria Haro,Carles Bosch
Main category: cs.CV
TL;DR: ShinyNeRF:一种能够处理各向同性和各向异性反射的新型NeRF框架,通过各向异性球面高斯分布建模,在金属等各向异性镜面表面数字化方面达到SOTA性能。
- Motivation: 现有NeRF方法难以准确建模各向异性镜面表面(如拉丝金属),限制了文化遗产数字化中高真实感3D表示的能力。
- Method: 提出ShinyNeRF框架,通过各向异性球面高斯分布联合估计表面法线、切线、镜面集中度和各向异性强度,将出射辐射度近似为各向同性von Mises-Fisher分布的编码混合。
- Result: 实验结果表明ShinyNeRF在各向异性镜面反射数字化方面达到最先进性能,相比现有方法提供更合理的物理解释和材料属性编辑能力。
- Conclusion: ShinyNeRF成功解决了现有NeRF方法在各向异性反射建模上的局限性,为文化遗产数字化提供了更准确、可编辑的3D表示工具。
[37] Prior-AttUNet: Retinal OCT Fluid Segmentation Based on Normal Anatomical Priors and Attention Gating
Li Yang,Yuting Liu
Main category: cs.CV
TL;DR: Prior-AttUNet:一种结合生成式解剖先验的OCT图像黄斑水肿分割模型,通过双路径架构和三重注意力机制,在RETOUCH基准测试中实现了高精度分割和跨设备鲁棒性。
- Motivation: 黄斑水肿是年龄相关性黄斑变性和糖尿病性黄斑水肿等致盲性疾病的关键病理特征,其准确分割对临床诊断和管理至关重要。然而,OCT图像中液体区域分割面临边界模糊和跨设备异质性等挑战。
- Method: 提出Prior-AttUNet模型,采用混合双路径架构:1)生成先验路径使用变分自编码器提供多尺度规范解剖先验;2)分割主干网络包含密集连接块和空间金字塔池化模块以捕获丰富上下文信息;3)新颖的三重注意力机制在解剖先验指导下动态调节解码阶段的特征重要性,显著增强边界描绘。
- Result: 在RETOUCH基准测试中,Prior-AttUNet在三种OCT设备(Cirrus、Spectralis、Topcon)上分别实现了93.93%、95.18%和93.47%的平均Dice相似系数,表现出优秀的跨设备性能。模型计算成本仅为0.37 TFLOPs,在分割精度和推理效率之间取得了良好平衡。
- Conclusion: Prior-AttUNet通过整合生成式解剖先验和注意力机制,有效解决了OCT图像中黄斑水肿分割的边界模糊和跨设备异质性挑战,展示了作为自动化临床分析可靠工具的潜力。
[38] BeHGAN: Bengali Handwritten Word Generation from Plain Text Using Generative Adversarial Networks
Md. Rakibul Islam,Md. Kamrozzaman Bhuiyan,Safwan Muntasir,Arifur Rahman Jawad,Most. Sharmin Sultana Samu
Main category: cs.CV
TL;DR: 提出了一种用于生成孟加拉语手写单词的方法,使用自收集数据集,包含约500名不同年龄和性别的贡献者,能够从输入文本生成多样化的手写输出。
- Motivation: 手写文本生成是一个新兴领域,但孟加拉语作为世界第五大语言,其手写文本生成研究较少。现有数据集难以收集且不易获得,需要解决孟加拉语手写生成的研究空白。
- Method: 开发并使用了自收集的孟加拉语手写样本数据集,包含约500名不同年龄和性别的贡献者。所有图像经过预处理以确保一致性和质量,提出了一种从输入纯文本生成孟加拉语手写单词的方法。
- Result: 该方法能够从输入文本生成多样化的手写输出,证明了生成孟加拉语手写文本的可行性。
- Conclusion: 这项工作有助于推进孟加拉语手写生成研究,并能为该领域的进一步研究提供支持。
[39] FUSE: Unifying Spectral and Semantic Cues for Robust AI-Generated Image Detection
Md. Zahid Hossain,Most. Sharmin Sultana Samu,Md. Kamrozzaman Bhuiyan,Farhad Uz Zaman,Md. Rakibul Islam
Main category: cs.CV
TL;DR: FUSE是一个混合系统,通过结合频谱特征(FFT提取)和语义特征(CLIP视觉编码器提取)来检测AI生成图像,在多个数据集上表现出强大的泛化能力。
- Motivation: 随着生成模型的快速发展,对AI生成图像的可靠检测需求日益增长。现有方法在处理高质量图像时表现不佳,需要一种能够跨多种生成器保持鲁棒性的检测方法。
- Method: FUSE采用混合方法:1)通过快速傅里叶变换提取频谱特征;2)通过CLIP视觉编码器提取语义特征;3)将两种特征融合为联合表示;4)采用两阶段渐进式训练策略。
- Result: 在GenImage、WildFake、DiTFake、GPT-ImgEval和Chameleon数据集上评估显示:1)FUSE(第一阶段)在Chameleon基准测试中达到最先进水平;2)在GenImage数据集上平均准确率为91.36%;3)在所有测试生成器上平均准确率为88.71%;4)平均精度为94.96%;5)第二阶段训练进一步提升了大多数生成器的性能。
- Conclusion: 结合频谱和语义特征的方法能够有效实现AI生成图像的通用检测,相比现有方法在处理高质量图像时保持更好的鲁棒性,证明了多特征融合策略的价值。
[40] Spatiotemporal-Untrammelled Mixture of Experts for Multi-Person Motion Prediction
Zheng Yin,Chengjian Li,Xiangbo Shu,Meiqi Cao,Rui Yan,Jinhui Tang
Main category: cs.CV
TL;DR: ST-MoE:一种用于多人运动预测的时空无约束专家混合模型,通过四种时空专家灵活捕捉复杂时空依赖,使用双向时空Mamba降低计算成本,在精度、参数效率和训练速度上均有显著提升。
- Motivation: 现有多人运动预测方法存在两个主要局限:1)依赖位置编码捕捉时空信息导致时空表示不灵活;2)传统注意力机制的二次时间复杂度导致计算成本高。需要一种既能灵活探索复杂时空依赖又能显著降低计算成本的方法。
- Method: 提出时空无约束专家混合模型(ST-MoE),包含四种不同类型的时空专家,专门捕捉不同的空间或时间依赖。为降低计算开销,引入双向时空Mamba作为专家,通过共享双向时间和空间Mamba的不同组合实现模型效率和参数经济。
- Result: 在四个多人基准数据集上的实验表明,该方法在精度上优于现有最优方法,同时模型参数减少41.38%,训练速度提升3.6倍。
- Conclusion: ST-MoE能够灵活探索人体运动中的复杂时空依赖,同时显著降低计算成本,在多人运动预测任务中实现了精度、参数效率和训练速度的平衡。
[41] RAPTOR: Real-Time High-Resolution UAV Video Prediction with Efficient Video Attention
Zhan Chen,Zile Guo,Enze Zhu,Peirong Zhang,Xiaoxuan Liu,Lei Wang,Yidan Zhang
Main category: cs.CV
TL;DR: RAPTOR是一种实时高分辨率视频预测架构,通过创新的Efficient Video Attention模块将时空建模分解,将复杂度从O((ST)²)降低到O(S+T),首次在边缘设备上实现512²分辨率视频超过30FPS的实时预测。
- Motivation: 视频预测面临分辨率、质量和实时性的三难困境,特别是在自主无人机等延迟敏感应用中。现有方法(扩散模型、自回归模型或二次复杂度注意力)无法在边缘硬件上满足高分辨率实时预测的需求。
- Method: RAPTOR采用单次前向设计避免迭代方法的误差累积和延迟。核心创新是Efficient Video Attention (EVA)模块,通过将时空建模分解为空间和时间轴的交替操作,将时间复杂度降至O(S+T),内存复杂度降至O(max(S,T))。配合3阶段训练课程,从粗结构逐步细化到清晰的时间连贯细节。
- Result: RAPTOR首次在Jetson AGX Orin上实现512²分辨率视频超过30FPS的实时预测,在UAVid、KTH和自定义高分辨率数据集上PSNR、SSIM和LPIPS指标达到新SOTA。在实际无人机导航任务中,任务成功率提升18%。
- Conclusion: RAPTOR打破了视频预测中长期存在的分辨率-质量-速度权衡,为更安全、更具预见性的具身智能体铺平了道路,特别是在自主无人机等延迟关键应用中。
[42] AstraNav-World: World Model for Foresight Control and Consistency
Junjun Hu,Jintao Chen,Haochen Bai,Minghua Luo,Shichao Xie,Ziyi Chen,Fei Liu,Zedong Chu,Xinda Xue,Botao Ren,Xiaolong Wu,Mu Xu,Shanghang Zhang
Main category: cs.CV
TL;DR: AstraNav-World:一个端到端世界模型,在统一概率框架中联合推理未来视觉状态和动作序列,通过扩散视频生成器和视觉语言策略的集成实现同步推演,提升具身导航性能。
- Motivation: 在开放动态环境中进行具身导航需要准确预测世界如何演化以及动作如何随时间展开。现有"先想象后规划"的解耦方法容易产生累积误差,需要更紧密的视觉-动作耦合。
- Method: 提出AstraNav-World,将扩散视频生成器与视觉语言策略集成在统一概率框架中。训练优化两个互补目标:生成动作条件多步视觉预测,以及基于预测视觉推导轨迹。这种双向约束使视觉预测可执行,决策基于物理一致的任务相关未来。
- Result: 在多个具身导航基准测试中显示出改进的轨迹准确性和更高的成功率。消融实验证实紧密视觉-动作耦合和统一训练的必要性。在真实世界测试中展示了卓越的零样本能力,无需真实世界微调即可适应未见场景。
- Conclusion: 通过将前瞻视觉和控制统一在单个生成模型中,AstraNav-World捕捉了可转移的空间理解和规划相关导航动态,而非仅仅过拟合模拟特定数据分布,向可靠、可解释、通用的具身智能体迈进。
[43] Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation
Steven Xiao,XIndi Zhang,Dechao Meng,Qi Wang,Peng Zhang,Bang Zhang
Main category: cs.CV
TL;DR: 提出Knot Forcing框架,通过分块生成、时间节点模块和"提前运行"机制,实现实时肖像动画的高保真度、时间一致性和超低延迟。
- Motivation: 实时肖像动画在虚拟助手和实时化身等交互应用中至关重要,需要高视觉保真度、时间一致性、超低延迟和响应式控制。现有扩散模型质量好但非因果性阻碍流式部署,因果自回归视频生成方法存在误差累积、块边界运动不连续和长期一致性退化问题。
- Method: 1) 分块生成策略:通过缓存参考图像的KV状态实现全局身份保持,使用滑动窗口注意力进行局部时间建模;2) 时间节点模块:重叠相邻块并通过图像到视频条件传播时空线索,平滑块间运动过渡;3) "提前运行"机制:在推理过程中动态更新参考帧的时间坐标,使其语义上下文领先于当前生成帧,支持长期一致性。
- Result: Knot Forcing能够在无限序列上实现高保真度、时间一致且交互式的肖像动画,在消费级GPU上实现实时性能和强大的视觉稳定性。
- Conclusion: Knot Forcing通过创新的流式框架解决了实时肖像动画的关键挑战,实现了高质量、低延迟且长期一致的动画生成,适用于交互式应用场景。
[44] SyncAnyone: Implicit Disentanglement via Progressive Self-Correction for Lip-Syncing in the wild
Xindi Zhang,Dechao Meng,Steven Xiao,Qi Wang,Peng Zhang,Bang Zhang
Main category: cs.CV
TL;DR: SyncAnyone是一个两阶段学习框架,用于高质量AI视频配音,通过扩散视频变换器和无掩码微调实现精确唇部同步和视觉保真度。
- Motivation: 现有基于掩码的训练方法虽然能提高唇部同步准确性,但破坏了时空上下文,导致动态面部运动性能下降、面部结构和背景一致性不稳定。需要同时实现精确运动建模和高视觉保真度。
- Method: 提出两阶段学习框架:第一阶段训练基于扩散的视频变换器进行掩码唇部修复,利用其强大的时空建模能力生成音频驱动的精确唇部运动;第二阶段开发无掩码微调管道,通过合成伪配对训练样本来解决掩码引起的伪影。
- Result: 在野外唇部同步场景下,该方法在视觉质量、时间连贯性和身份保持方面达到了最先进的结果。
- Conclusion: SyncAnyone通过创新的两阶段框架成功解决了现有方法的局限性,实现了精确唇部同步和高视觉保真度的平衡。
[45] A-QCF-Net: An Adaptive Quaternion Cross-Fusion Network for Multimodal Liver Tumor Segmentation from Unpaired Datasets
Arunkumar V,Firos V M,Senthilkumar S,Gangadharan G R
Main category: cs.CV
TL;DR: 提出自适应四元数交叉融合网络(A-QCF-Net),从完全分离且未配对的CT和MRI数据中学习统一的病灶分割模型,显著超越单模态基线
- Motivation: 多模态医学成像提供互补信息,但深度学习模型发展受限于配对且空间对齐的大规模数据集稀缺。需要解决从完全分离且未配对的CT和MRI队列中学习统一分割模型的基本限制。
- Method: 提出自适应四元数交叉融合网络(A-QCF-Net),利用四元数神经网络的参数效率和表达能力构建共享特征空间。核心是自适应四元数交叉融合(A-QCF)块,这是一个数据驱动的注意力模块,实现两个流之间的双向知识转移。
- Result: 在未配对的LiTS(CT)和ATLAS(MRI)数据集上联合训练单一模型,CT肿瘤Dice分数达76.7%,MRI达78.3%,分别显著超过单模态nnU-Net基线5.4%和4.7%。可解释性分析确认模型正确聚焦相关病理结构。
- Conclusion: 该方法为利用医疗中常见的大规模未配对成像档案提供了稳健且临床可行的范例,通过动态信息流调节实现模态间专业知识交换,丰富特征表示。
[46] BertsWin: Resolving Topological Sparsity in 3D Masked Autoencoders via Component-Balanced Structural Optimization
Evgeny Alves Limarenko,Anastasiia Studenikina
Main category: cs.CV
TL;DR: 提出BertsWin架构,结合BERT式全token掩码与Swin Transformer窗口,用于3D医学影像的自监督学习,相比标准ViT-MAE基线实现5.8倍语义收敛加速和15倍训练周期减少。
- Motivation: 当前自监督学习和Vision Transformers在2D医学影像上表现良好,但在3D体数据上应用困难。标准MAE方法在丢弃75%token时难以捕捉三维空间关系,需要改进3D空间上下文学习。
- Method: 提出BertsWin混合架构:1) 使用BERT式全token掩码(包含可见和掩码token)保持完整3D空间拓扑;2) 采用Swin Transformer单层局部窗口降低计算复杂度;3) 引入结构优先级损失函数;4) 结合GradientConductor优化器。
- Result: 1) 语义收敛速度比标准ViT-MAE基线快5.8倍;2) 达到SOTA重建保真度所需训练周期减少15倍(44 vs 660);3) 在标准输入分辨率下保持理论FLOP与稀疏ViT基线相当;4) 在TMJ分割任务上表现优异。
- Conclusion: BertsWin通过保持完整三维空间拓扑结构,显著加速3D医学影像的自监督学习收敛,同时避免密集体数据处理的计算负担,为3D医学影像分析提供了高效解决方案。
[47] Inference-based GAN Video Generation
Jingbo Yang,Adrian G. Bors
Main category: cs.CV
TL;DR: 提出一种结合VAE-GAN的对抗性视频生成模型,通过马尔可夫链框架和记忆机制生成数百至数千帧的长视频,解决现有模型在生成长视频时质量下降的问题。
- Motivation: 现有视频生成模型(如GANs、VAEs、扩散模型)通常只能生成最多16帧的短视频,当尝试生成长视频时质量会显著下降,缺乏生成具有时间连续性和一致性的长视频的能力。
- Method: 1. 提出VAE-GAN混合结构的无条件视频生成器,具有推理能力;2. 采用双分支处理(内容和运动);3. 引入马尔可夫链框架,每个状态代表一个VAE-GAN短视频生成器;4. 使用记忆机制(recall mechanism)连接生成的视频子序列,确保时间依赖性和连续性。
- Result: 能够生成数百至数千帧的长视频,确保时间连续性、一致性和动态性,克服了传统方法在生成长视频时质量下降的局限性。
- Conclusion: 通过VAE-GAN混合结构和马尔可夫链框架,成功实现了高质量长视频的生成,为视频生成领域提供了新的解决方案,特别是在保持时间连续性和一致性方面取得了显著进展。
[48] Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models
Nimrod Berman,Adam Botach,Emanuel Ben-Baruch,Shunit Haviv Hakimi,Asaf Gendler,Ilan Naiman,Erez Yosef,Igor Kviatkovsky
Main category: cs.CV
TL;DR: Scene-VLM:首个用于视频场景分割的微调视觉语言模型框架,通过多模态推理和序列处理实现最先进的性能
- Motivation: 现有基于编码器的方法存在视觉中心偏见、孤立处理每个镜头而忽略序列依赖、缺乏叙事理解和可解释性等问题,需要更先进的视频场景分割方法
- Method: 提出Scene-VLM框架,联合处理视觉和文本线索(帧、转录文本、可选元数据),采用序列预测和因果依赖,引入上下文聚焦窗口机制,从token级logits提取置信度分数,并通过最小监督生成自然语言解释
- Result: 在标准场景分割基准上达到最先进性能,在MovieNet上相比之前领先方法显著提升+6 AP和+13.7 F1分数
- Conclusion: Scene-VLM通过多模态推理、序列处理和可解释性机制,为视频场景分割提供了更有效和可解释的解决方案,超越了传统编码器方法的局限性
[49] InstructMoLE: Instruction-Guided Mixture of Low-rank Experts for Multi-Conditional Image Generation
Jinqi Xiao,Qing Yan,Liming Jiang,Zichuan Liu,Hao Kang,Shen Sang,Tiancheng Zhi,Jing Liu,Cheng Yang,Xin Lu,Bo Yuan
Main category: cs.CV
TL;DR: InstructMoLE:一种基于指令引导的低秩专家混合框架,通过全局路由信号解决多条件图像生成中的任务干扰问题,相比传统LoRA和MoLE方法有显著提升。
- Motivation: 传统参数高效微调方法(如LoRA)在多条件任务中存在任务干扰问题,而现有的MoLE架构由于基于token级别的局部路由,与用户指令的全局性产生冲突,导致生成图像出现空间碎片化和语义漂移等问题。
- Method: 提出InstructMoLE框架,包含两个核心组件:1)指令引导路由(IGR),从用户完整指令中提取全局路由信号,统一选择专家委员会应用于所有输入token;2)输出空间正交性损失,促进专家功能多样性,防止表示崩溃。
- Result: 在多个具有挑战性的多条件生成基准测试中,InstructMoLE显著优于现有的LoRA适配器和MoLE变体,实现了更好的组合控制和用户意图保真度。
- Conclusion: InstructMoLE为生成模型的指令驱动微调提供了一个鲁棒且可泛化的框架,通过全局路由机制有效解决了多条件任务中的干扰问题,提升了生成质量。
[50] AI for Mycetoma Diagnosis in Histopathological Images: The MICCAI 2024 Challenge
Hyam Omar Ali,Sahar Alhesseen,Lamis Elkhair,Adrian Galdran,Ming Feng,Zhixiang Xiong,Zengming Lin,Kele Xu,Liang Hu,Benjamin Keel,Oliver Mills,James Battye,Akshay Kumar,Asra Aslam,Prasad Dutande,Ujjwal Baid,Bhakti Baheti,Suhas Gajre,Aravind Shrenivas Murali,Eung-Joo Lee,Ahmed Fahal,Rachid Jennane
Main category: cs.CV
TL;DR: 该论文介绍了mAIcetoma挑战赛,旨在通过AI解决方案推进足菌肿诊断,包括从组织病理图像中分割足菌肿颗粒和分类足菌肿类型,多个团队参与并取得了高准确率结果。
- Motivation: 足菌肿是一种被忽视的热带疾病,对贫困农村社区造成严重影响。在资源有限地区,足菌肿诊断面临重大挑战,特别是缺乏专家病理学家。需要AI解决方案来改善诊断。
- Method: 组织mAIcetoma挑战赛,邀请全球团队开发自动化模型,使用提供的Mycetoma数据库(MyData)作为标准化数据集,采用深度学习架构进行足菌肿颗粒分割和类型分类。
- Result: 五个最终团队参与并提出了各种深度学习模型。所有模型在分割任务上都取得了高准确率,强调了颗粒检测在足菌肿诊断中的重要性。表现最佳的模型在分类足菌肿类型方面也显示出显著性能。
- Conclusion: mAIcetoma挑战赛成功推进了足菌肿诊断的AI解决方案,证明了自动化模型在资源有限环境下辅助足菌肿诊断的潜力,强调了颗粒检测作为诊断关键步骤的重要性。
[51] Diffusion Posterior Sampling for Super-Resolution under Gaussian Measurement Noise
Abu Hanif Muhammad Syarubany
Main category: cs.CV
TL;DR: 该研究探讨了在已知退化模型下,使用扩散后验采样(DPS)进行单图像超分辨率(SISR)的方法,通过似然引导采样结合无条件扩散先验和基于梯度的条件约束,在4倍超分辨率任务中取得了良好效果。
- Motivation: 研究动机在于探索如何在不重新训练扩散模型的情况下,通过后验采样方法平衡扩散先验和测量梯度强度,实现稳定且高质量的单图像超分辨率重建。
- Method: 采用扩散后验采样(DPS)方法,结合无条件扩散先验和基于梯度的条件约束来强制测量一致性。通过似然引导采样程序,在4倍超分辨率任务中处理加性高斯噪声,并评估不同指导尺度和噪声水平下的后验采样性能。
- Result: 实验表明,适度的指导能改善重建质量,最佳配置在PS尺度0.95和噪声标准差σ=0.01时获得(综合得分1.45231)。定性结果显示,所选PS设置相比下采样输入能恢复更清晰的边缘和更连贯的面部细节,而其他条件策略(如MCG和PS退火)表现出不同的纹理保真度权衡。
- Conclusion: 研究发现平衡扩散先验和测量梯度强度对于获得稳定、高质量重建至关重要,无需为每个操作符重新训练扩散模型。后验采样方法在单图像超分辨率任务中展现出良好潜力,特别是在恢复细节和边缘清晰度方面。
[52] CellMamba: Adaptive Mamba for Accurate and Efficient Cell Detection
Ruochen Liu,Yi Tian,Jiahao Wang,Hongbin Liu,Xianxu Hou,Jingxin Liu
Main category: cs.CV
TL;DR: CellMamba:一种轻量级、准确的一阶段检测器,专门用于细粒度生物医学实例检测,在细胞检测任务中优于CNN、Transformer和Mamba基线模型
- Motivation: 病理图像中的细胞检测面临独特挑战:密集排列的对象、细微的类间差异和严重的背景干扰,需要高效准确的检测方法
- Method: 基于VSSD主干网络,集成CellMamba Blocks(耦合NC-Mamba或MSA与新型TMAC模块),TMAC通过双分支通道分割和三种注意力图增强空间判别性,并设计自适应Mamba头融合多尺度特征
- Result: 在CoNSeP和CytoDArk0两个公开数据集上的实验表明,CellMamba在准确性上优于CNN、Transformer和Mamba基线模型,同时显著减小模型大小并降低推理延迟
- Conclusion: CellMamba是高分辨率细胞检测的高效有效解决方案,验证了其在生物医学实例检测中的优越性能
[53] S&P 500 Stock's Movement Prediction using CNN
Rahul Gupta
Main category: cs.CV
TL;DR: 使用卷积神经网络(CNN)处理多维原始股票数据(包括拆股/分红事件),将历史数据矩阵视为图像进行S&P 500指数股票走势预测
- Motivation: 传统数学方法已用于算法交易,但现有深度学习研究大多使用单维数据且未充分考虑金融数据的复杂性。本文旨在使用真实市场中的多维原始数据(包含拆股/分红事件)进行更准确的预测。
- Method: 将多维股票历史数据矩阵视为图像,使用卷积神经网络(CNN)进行处理。数据包括原始市场数据(含拆股/分红事件),而非人工设计的金融数据。支持单只股票、行业板块或投资组合级别的预测。
- Result: 模型取得了有希望的结果,表明CNN在处理多维股票数据方面具有潜力。
- Conclusion: CNN作为图像分类的优秀工具,可以有效地应用于多维股票数据预测,为这一新兴研究领域提供了新的方向。
[54] Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models
Mengqi He,Xinyu Tian,Xin Shen,Jinhong Ni,Shu Zou,Zhaoyuan Yang,Jing Zhang
Main category: cs.CV
TL;DR: 该论文提出了一种针对视觉语言模型的新型对抗攻击方法,通过识别并集中攻击生成过程中的关键高熵决策点,实现了用更小攻击预算达到语义破坏效果,并显著提高了有害内容转换率。
- Motivation: 现有基于熵的对抗攻击方法假设所有解码步骤对生成稳定性贡献相同,但实际上只有少数高熵令牌(约20%)对输出轨迹起决定性作用。通过集中攻击这些关键决策点,可以更有效地破坏VLM的安全性。
- Method: 提出Entropy-bank Guided Adversarial attacks (EGA)方法,识别自回归生成过程中的高熵关键决策点,并将对抗扰动集中作用于这些位置,而不是均匀分布在整个生成过程中。
- Result: EGA方法在多个代表性VLM上实现了93-95%的攻击成功率,同时将35-49%的良性输出转换为有害内容。攻击具有可转移性,在未见目标模型上达到17-26%的有害率。
- Conclusion: 研究表明VLM生成过程中的关键高熵决策点是安全脆弱点,集中攻击这些位置可以高效破坏模型安全性,揭示了当前VLM安全机制的新弱点。
[55] End-to-End 3D Spatiotemporal Perception with Multimodal Fusion and V2X Collaboration
Zhenwei Yang,Yibo Ai,Weidong Zhang
Main category: cs.CV
TL;DR: XET-V2X是一个用于V2X协作的多模态融合端到端跟踪框架,通过共享时空表示统一多视角多模态感知,在通信延迟下提升检测和跟踪性能。
- Motivation: 自动驾驶中的多视角协作感知和多模态融合对于可靠的3D时空理解至关重要,特别是在V2X场景下的遮挡、有限视角和通信延迟问题。
- Method: 提出XET-V2X框架,基于多尺度可变形注意力设计双层空间交叉注意力模块,先聚合多视角图像特征增强语义一致性,再通过更新的空间查询引导点云融合,实现高效跨模态交互。
- Result: 在真实世界V2X-Seq-SPD数据集和模拟V2X-Sim-V2V、V2X-Sim-V2I基准测试中,在不同通信延迟下均实现了检测和跟踪性能的持续提升。
- Conclusion: XET-V2X在复杂交通场景中实现了鲁棒且时间稳定的感知,定量结果和定性可视化均验证了其有效性。
[56] Scalable Class-Incremental Learning Based on Parametric Neural Collapse
Chuangxin Zhang,Guangfeng Lin,Enhui Zhao,Kaiyang Liao,Yajun Chen
Main category: cs.CV
TL;DR: 提出SCL-PNC方法,通过可扩展的类增量学习解决过拟合和灾难性遗忘问题,使用自适应层和动态参数化ETF框架来处理类别分布变化和特征漂移。
- Motivation: 现有方法在冻结旧模型参数扩展新任务时,忽略了结构效率的必要性,导致模块间特征差异和类别分布演化引起的类别错位问题。
- Method: 提出SCL-PNC方法:1) 基于需求驱动、最小成本的主干扩展的自适应层;2) 根据增量类别将静态ETF框架改进为动态参数化ETF框架;3) 并行扩展框架结合知识蒸馏算法对齐扩展模块间的特征。
- Result: 在标准基准测试中证明了该方法的有效性和效率,能够高效处理现实场景中类别数量增加时的模型扩展问题。
- Conclusion: SCL-PNC通过可扩展主干、自适应层和参数化ETF分类器的结构化组合,利用神经崩溃诱导增量扩展模型的收敛,解决了类别错位和特征一致性问题。
[57] Breaking Alignment Barriers: TPS-Driven Semantic Correlation Learning for Alignment-Free RGB-T Salient Object Detection
Lupiao Hu,Fasheng Wang,Fangmei Chen,Fuming Sun,Haojie Li
Main category: cs.CV
TL;DR: 提出TPS-SCL网络,针对未对齐RGB-T图像对进行显著目标检测,使用双流MobileViT编码器和Mamba机制,通过TPS对齐和语义约束提升真实场景性能。
- Motivation: 现有RGB-T显著目标检测方法依赖手动对齐和标注数据集,难以处理真实世界中未对齐的RGB-T图像对。实际应用中,由于跨模态差异(空间未对齐、尺度变化、视角偏移),现有方法在未对齐数据集上性能急剧下降。
- Method: 1. 使用双流MobileViT作为编码器,结合高效Mamba扫描机制建模模态间相关性;2. 设计语义相关性约束模块(SCCM)分层约束显著特征,抑制背景干扰;3. 引入薄板样条对齐模块(TPSAM)缓解模态间空间差异;4. 加入跨模态相关性模块(CMCM)充分探索和整合模态间依赖关系。
- Result: 在多个数据集上的广泛实验表明,TPS-SCL在现有轻量级SOD方法中达到最先进性能,并优于主流RGB-T SOD方法。
- Conclusion: 提出的TPS-SCL方法有效解决了真实世界未对齐RGB-T图像对的显著目标检测问题,通过创新的对齐和相关性学习机制,在保持低参数量和计算开销的同时实现了优越性能。
[58] Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees
Haodong Lei,Hongsong Wang,Xin Geng,Liang Wang,Pan Zhou
Main category: cs.CV
TL;DR: ADT-Tree通过邻接自适应动态草稿树加速视觉自回归模型推理,根据图像区域复杂度动态调整树深度和宽度,实现3倍以上加速。
- Motivation: 自回归图像模型虽然达到扩散模型质量,但需要约2000步顺序推理,推理速度慢。现有的草稿树推测解码方法在视觉AR模型上表现不佳,因为不同图像区域的token预测难度差异导致接受率不一致。
- Method: 提出邻接自适应动态草稿树(ADT-Tree),利用相邻token状态和先前接受率动态调整草稿树的深度和宽度。通过水平邻接初始化,然后通过二分法自适应细化深度/宽度,在简单区域生成更深树,在复杂区域生成更宽树。
- Result: 在MS-COCO 2017和PartiPrompts上的实验表明,ADT-Tree分别实现了3.13倍和3.05倍的加速。还能与LANTERN等松弛采样方法无缝集成,实现进一步加速。
- Conclusion: ADT-Tree通过自适应调整草稿树结构解决了视觉AR模型中区域预测难度差异问题,显著加速推理速度,同时保持生成质量。
[59] Training-free Conditional Image Embedding Framework Leveraging Large Vision Language Models
Masayuki Kawarada,Kosuke Yamada,Antonio Tejero-de-Pablos,Naoto Inoue
Main category: cs.CV
TL;DR: DIOR:一种利用大型视觉语言模型生成条件图像嵌入的训练免费方法,通过提示模型用单个词描述图像来提取特定条件的特征表示
- Motivation: 现有视觉基础模型(如CLIP)虽然能提供丰富的图像表示,但无法专注于特定文本条件(如颜色、风格等),而条件图像嵌入对于许多应用很重要
- Method: DIOR是一种无需训练的方法,通过提示大型视觉语言模型用单个词描述图像与给定条件相关的特征,然后提取模型最后一个token的隐藏状态向量作为条件图像嵌入
- Result: 在条件图像相似性任务中,DIOR优于包括CLIP在内的现有训练免费基线方法,并且在多个设置中超越了需要额外训练的方法
- Conclusion: DIOR提供了一种通用解决方案,无需额外训练或任务特定先验,即可应用于任何图像和条件,为条件图像嵌入问题提供了有效的训练免费方法
[60] Balancing Accuracy and Efficiency: CNN Fusion Models for Diabetic Retinopathy Screening
Md Rafid Islam,Rafsan Jany,Akib Ahmed,Mohammad Ashrafuzzaman Khan
Main category: cs.CV
TL;DR: 该研究通过融合多个CNN骨干网络的特征,开发了一种高效准确的糖尿病视网膜病变(DR)二分类筛查方法,在多个公开数据集上验证了特征融合策略能提升模型泛化性能,同时平衡了准确率和计算效率。
- Motivation: 糖尿病视网膜病变是导致可预防性失明的主要原因,但大规模筛查受到专科医生资源有限以及不同设备和人群图像质量差异的制约。需要开发能够在异构数据集上准确、高效地进行DR筛查的方法。
- Method: 研究使用来自5个公开数据集(APTOS、EyePACS、IDRiD、Messidor、ODIR)的11,156张眼底图像,将DR检测构建为二分类任务。比较了三种预训练模型(ResNet50、EfficientNet-B0、DenseNet121)及其两两融合和三融合变体。通过5次独立运行评估模型性能。
- Result: 特征融合模型在所有实验中均优于单一骨干网络。EfficientNet-B0 + DenseNet121(Eff+Den)融合模型获得最佳平均性能(准确率:82.89%),正常和糖尿病病例的F1分数分别为83.60%和82.60%。三融合模型虽具竞争力但计算成本显著更高。推理分析显示EfficientNet-B0最快(约1.16 ms/图像),而Eff+Den融合在准确率和延迟之间提供了良好平衡。
- Conclusion: 轻量级特征融合能够增强模型在异构数据集上的泛化能力,支持在准确率和吞吐量都至关重要的可扩展DR筛查工作流程。该方法为大规模DR筛查提供了一种实用解决方案。
[61] EasyOmnimatte: Taming Pretrained Inpainting Diffusion Models for End-to-End Video Layered Decomposition
Yihan Hu,Xuelin Chen,Xiaodong Cun
Main category: cs.CV
TL;DR: EasyOmnimatte:首个统一、端到端的视频omnimatte方法,通过双专家策略(Effect Expert和Quality Expert)从视频修复扩散模型中高效学习前景层分解及关联效果
- Motivation: 现有视频omnimatte方法通常依赖缓慢的多阶段或推理时优化流程,未能充分利用强大的生成先验,导致分解效果不理想。关键洞见是:如果视频修复模型能够微调以去除前景相关效果,那么它必然能够感知这些效果,因此也可以微调用于互补任务——前景层分解及关联效果
- Method: 提出EasyOmnimatte方法:1)微调预训练视频修复扩散模型学习双互补专家,保持原始权重不变;2)Effect Expert:仅在效果敏感的DiT块应用LoRA,捕捉前景和关联效果的粗粒度结构;3)Quality Expert:完全LoRA微调,学习细化alpha遮罩;4)采样时,Effect Expert用于早期高噪声步骤去噪,Quality Expert接管后期低噪声步骤
- Result: 实验表明EasyOmnimatte在视频omnimatte任务上达到新的最先进水平,支持各种下游任务,在质量和效率上都显著优于基线方法。消融研究验证了双专家策略的有效性
- Conclusion: EasyOmnimatte是首个统一、端到端的视频omnimatte方法,通过创新的双专家策略解决了现有方法的局限性,无需两次完整的扩散过程,显著降低了计算成本而不影响输出质量
[62] DPAR: Dynamic Patchification for Efficient Autoregressive Visual Generation
Divyansh Srivastava,Akshay Mehra,Pranav Maneriker,Debopam Sanyal,Vishnu Raj,Vijay Kamarshi,Fan Du,Joshua Kimball
Main category: cs.CV
TL;DR: DPAR提出了一种动态聚合图像token为可变数量patch的自回归模型,通过基于信息内容的token合并来减少计算量,在保持生成质量的同时显著降低训练成本。
- Motivation: 传统自回归图像生成模型使用固定长度的tokenization方案,token数量随分辨率平方增长,导致注意力的计算和内存需求大幅增加。需要一种更高效的token聚合方法来降低计算成本。
- Method: DPAR是一种解码器自回归模型,利用轻量级无监督自回归模型的下一token预测熵作为可靠标准,动态地将token聚合成可变数量的patch。该方法对标准解码器架构改动最小,确保与多模态生成框架兼容,并将更多计算资源分配给高信息量图像区域。
- Result: 在Imagenet 256和384分辨率上,DPAR分别减少了1.81倍和2.06倍的token数量,训练FLOPs降低达40%。方法表现出更快的收敛速度,FID相对基线模型提升达27.1%。
- Conclusion: DPAR通过动态patch聚合有效降低了自回归图像生成的计算成本,同时保持或提高了生成质量。基于信息内容的token合并策略是有效的,且训练得到的表示对patch边界具有鲁棒性,支持在推理时扩展到更大的patch尺寸。
[63] SLIM-Brain: A Data- and Training-Efficient Foundation Model for fMRI Data Analysis
Mo Wang,Junfeng Xia,Wenhao Ye,Enyu Liu,Kaining Peng,Jianfeng Feng,Quanying Liu,Hongkai Wen
Main category: cs.CV
TL;DR: SLIM-Brain是一个新型的fMRI基础模型,通过两阶段自适应设计解决了现有方法在数据和训练效率方面的瓶颈,在保持空间细节的同时大幅降低了计算和内存需求。
- Motivation: 当前fMRI基础模型面临双重效率瓶颈:基于图谱的方法会丢失空间细节且需要大量数据训练;无图谱方法计算和内存需求过高,难以进行大规模预训练。
- Method: 采用两阶段自适应设计:1) 轻量级时间提取器捕获全局上下文并筛选重要数据窗口;2) 4D分层编码器仅从筛选出的窗口学习细粒度体素级表征,同时掩码约70%的补丁。
- Result: 在七个公共基准测试中取得最先进性能,仅需4千个预训练会话,GPU内存使用量约为传统体素级方法的30%。
- Conclusion: SLIM-Brain成功解决了fMRI基础模型的数据和训练效率瓶颈,在保持空间细节的同时实现了高效的大规模预训练。
[64] Reloc-VGGT: Visual Re-localization with Geometry Grounded Transformer
Tianchen Deng,Wenhua Wu,Kunzhen Wu,Guangming Wang,Siting Zhu,Shenghai Yuan,Xun Chen,Guole Shen,Zhe Liu,Hesheng Wang
Main category: cs.CV
TL;DR: Reloc-VGGT:首个采用早期融合机制的多视图视觉定位框架,通过VGGT骨干网络编码多视图3D几何,引入姿态分词器和投影模块,结合稀疏掩码注意力实现实时高性能定位。
- Motivation: 传统视觉定位方法采用成对姿态回归和后期融合策略,空间信息整合不足,在复杂环境中精度下降。需要一种能有效整合多视图空间信息的早期融合机制。
- Method: 基于VGGT骨干网络编码多视图3D几何,引入姿态分词器和投影模块有效利用多数据库视图的空间关系,提出稀疏掩码注意力策略降低计算复杂度,实现实时性能。
- Result: 在约800万姿态图像对上训练,Reloc-VGGT展现出强准确性和显著泛化能力。在多个公共数据集上的广泛实验验证了方法的有效性和效率,能够实时提供高质量相机姿态估计。
- Conclusion: Reloc-VGGT是首个采用早期融合机制的多视图视觉定位框架,通过创新的架构设计在结构化与非结构化环境中均能稳健运行,实现了实时高性能定位。
[65] CrownGen: Patient-customized Crown Generation via Point Diffusion Model
Juyoung Bae,Moo Hyun Son,Jiale Peng,Wanting Qu,Wener Chen,Zelin Qiu,Kaixin Li,Xiaojuan Chen,Yifan Lin,Hao Chen
Main category: cs.CV
TL;DR: CrownGen是一个基于去噪扩散模型的牙冠生成框架,通过自动化患者定制化牙冠设计,显著减少设计时间并保持临床质量。
- Motivation: 数字牙冠设计目前仍是修复牙科中劳动密集型的瓶颈环节,需要自动化解决方案来降低成本、缩短周转时间并提高高质量牙科护理的可及性。
- Method: 使用基于新型牙齿级点云表示的生成框架,包含两个核心组件:边界预测模块建立空间先验,扩散生成模块在单次推理中合成多个牙齿的高保真形态。
- Result: 在496个外部扫描的定量基准测试和26个修复病例的临床研究中,CrownGen在几何保真度上超越现有模型,显著减少主动设计时间,临床评估显示其质量与专家技师手动工作流程无统计学差异。
- Conclusion: CrownGen通过自动化复杂的假体建模,为降低成本、缩短周转时间和提高患者获得高质量牙科护理的可及性提供了可扩展的解决方案。
[66] High-Fidelity and Long-Duration Human Image Animation with Diffusion Transformer
Shen Zheng,Jiaran Cai,Yuansheng Guan,Shenneng Huang,Xingpei Ma,Junjie Cao,Hanfeng Zhao,Qiang Zhang,Shunsi Zhang,Xiao-Ping Zhang
Main category: cs.CV
TL;DR: 提出基于扩散Transformer的框架,专注于生成高保真、长时程的人体动画视频,通过混合隐式引导信号、位置偏移自适应模块和数据增强策略,解决了现有方法在长视频生成和精细面部/手部细节合成方面的挑战。
- Motivation: 现有扩散模型在人体图像动画方面取得了进展,但在生成长时程视频方面仍面临挑战,且面部和手部细节合成不足,限制了高质量实际应用。需要解决长视频生成和精细细节合成的问题。
- Method: 1. 设计混合隐式引导信号和锐度引导因子,整合详细面部和手部特征作为引导;2. 提出时间感知位置偏移融合模块(位置偏移自适应模块),修改DiT骨干的输入格式,支持任意长度视频生成;3. 引入数据增强策略和骨架对齐模型,减少不同身份间人体形状变化的影响。
- Result: 实验结果表明,该方法在高质量和长时程人体图像动画方面优于现有最先进方法,实现了卓越性能。
- Conclusion: 提出的基于扩散Transformer的框架成功解决了长时程人体动画视频生成和精细面部/手部细节合成的挑战,为高质量实际应用提供了有效解决方案。
[67] Patch as Node: Human-Centric Graph Representation Learning for Multimodal Action Recognition
Zeyu Liang,Hailun Xia,Naichuan Zheng
Main category: cs.CV
TL;DR: PAN是一个以人为中心的图表示学习框架,用于多模态动作识别,通过将包含人体关节的RGB补丁表示为时空图,有效融合RGB和骨骼模态,减少冗余并实现语义对齐。
- Motivation: 当前多模态动作识别方法(融合RGB和骨骼模态)存在固有的异构性问题,未能充分利用两种模态之间的互补潜力,需要更有效的融合方法。
- Method: 提出PAN框架:1)将包含人体关节的RGB补丁表示为时空图;2)提出基于注意力的后校准减少对高质量骨骼数据的依赖;3)开发两个变体:PAN-Ensemble(双路径图卷积网络+后期融合)和PAN-Unified(单网络统一图表示学习)。
- Result: 在三个广泛使用的多模态动作识别数据集上,PAN-Ensemble和PAN-Unified分别在分离建模和统一建模的多模态融合设置中实现了最先进的性能。
- Conclusion: PAN框架通过以人为中心的图建模范式有效抑制了RGB帧中的冗余,并与基于骨骼的方法良好对齐,实现了更有效和语义一致的多模态特征融合。
[68] AutoPP: Towards Automated Product Poster Generation and Optimization
Jiahao Fan,Yuxin Qin,Wei Feng,Yanyin Chen,Yaoyu Li,Ao Ma,Yixiu Li,Li Zhuang,Haoyi Bian,Zheng Zhang,Jingjing Lv,Junjie Shen,Ching Law
Main category: cs.CV
TL;DR: AutoPP:自动化产品海报生成与优化系统,通过统一设计模块生成海报,利用在线反馈和IDPO算法优化点击率,基于百万级数据集实现SOTA效果。
- Motivation: 手动制作产品海报并基于在线表现进行优化既耗时又耗费资源,需要自动化解决方案来提升效率。
- Method: 1. 生成器:基于基础产品信息,使用统一设计模块整合背景、文本和布局三个关键元素,通过元素渲染模块编码为条件令牌生成海报;2. 优化器:利用在线反馈提升CTR,通过系统替换元素收集细粒度CTR比较,采用IDPO算法将CTR增益归因于独立元素。
- Result: AutoPP在离线和在线设置中都取得了最先进的结果,基于AutoPP1M数据集(包含100万高质量海报和超过100万用户的反馈)。
- Conclusion: AutoPP实现了产品海报生成和优化的全自动化,无需人工干预,显著提升了效率和效果,代码和数据集已开源。
[69] Unsupervised Anomaly Detection in Brain MRI via Disentangled Anatomy Learning
Tao Yang,Xiuying Wang,Hao Liu,Guanzhong Gong,Lian-Ming Wu,Yu-Ping Wang,Lisheng Wang
Main category: cs.CV
TL;DR: 提出新的脑MRI异常检测框架,通过解耦成像信息与解剖结构,结合边缘到图像恢复模块,显著提升多模态多中心数据的泛化能力和检测性能
- Motivation: 当前无监督学习方法在脑MRI病变检测中存在两个主要问题:1) 对多模态多中心数据的泛化能力有限,因为依赖正常训练数据中的特定成像信息;2) 性能受限,因为异常残差会从输入图像传播到重建的伪健康图像
- Method: 提出包含两个新模块的PHI重建框架:1) 解耦表示模块,通过引入脑解剖先验和可微分one-hot编码算子,将脑MRI解耦为成像信息和成像不变的解剖图像;2) 边缘到图像恢复模块,从解剖图像的高频边缘信息恢复解剖表示,然后重新耦合解耦的成像信息
- Result: 在9个公共数据集(4,443名患者的MRI,来自多个中心)上评估,方法优于17个SOTA方法,在AP和DSC上分别实现绝对提升+18.32%和+13.64%
- Conclusion: 提出的框架通过解耦成像信息与解剖结构,结合边缘引导的重建,有效解决了多模态多中心脑MRI异常检测的泛化问题和异常残差传播问题,显著提升了检测性能
[70] Data relativistic uncertainty framework for low-illumination anime scenery image enhancement
Yiquan Gao,John See
Main category: cs.CV
TL;DR: 提出DRU框架,利用数据相对论不确定性解决动漫场景图像低光照增强问题,通过量化光照不确定性动态调整目标函数,在无配对数据集上实现优于现有方法的效果。
- Motivation: 现有低光照增强研究主要针对自然图像和视频,而动漫场景图像的低光照质量退化问题未被充分探索。需要填补这一领域空白,解决数据稀缺和光照多样性带来的挑战。
- Method: 1. 从多种来源收集图像,构建无配对的动漫场景数据集;2. 提出数据相对论不确定性(DRU)框架,受相对论GAN启发,类比光的波粒二象性,定义和量化暗/亮样本的光照不确定性;3. 利用不确定性信息动态调整目标函数,重新校准模型在数据不确定性下的学习。
- Result: 通过训练多个版本的EnlightenGANs进行广泛实验,DRU框架在感知和美学质量上超越了现有最先进方法,这些方法无法从数据不确定性角度学习。代码已开源。
- Conclusion: DRU框架为数据为中心的学习提供了新范式,不仅适用于动漫场景图像增强,还可推广到其他视觉和语言领域。该工作填补了动漫场景低光照增强的研究空白,并展示了利用数据不确定性的有效性。
[71] Automated Discovery of Parsimonious Spectral Indices via Normalized Difference Polynomials
Ali Lotfi,Adam Carter,Thuan Ha,Mohammad Meysami,Kwabena Nketia,Steve Shirtliffe
Main category: cs.CV
TL;DR: 提出自动化方法寻找紧凑光谱指数用于植被分类,通过构建归一化差值的多项式组合,从Sentinel-2数据中自动选择少量高精度指数。
- Motivation: 传统植被指数通常基于专家知识设计,缺乏系统性搜索方法。需要自动化生成紧凑、可解释的光谱指数,同时保持光照不变性,便于在遥感平台部署。
- Method: 1) 从n个光谱波段生成所有成对归一化差值;2) 构建多项式组合至固定阶数;3) 使用特征选择方法(ANOVA过滤、递归消除、L1正则化SVM)筛选紧凑指数集;4) 在Sentinel-2数据上测试(10波段,2,318个样本)。
- Result: 单个2阶指数(红边波段两个归一化差值的乘积)达到96.26%准确率,8个指数提升至97.70%。所选特征均为b4-b8波段的2阶乘积,表明判别信号来自光谱交互而非单个波段比值。
- Conclusion: 该方法能自动发现紧凑、高精度的光谱指数,保持可解释性和光照不变性,可直接在Google Earth Engine等平台部署。开源实现ndindex可用于其他传感器和分类任务。
[72] Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models
Dunyuan XU,Xikai Yang,Yaoqian Li,Juzheng Miao,Jinpeng Li,Pheng-Ann Heng
Main category: cs.CV
TL;DR: 本文提出了一种无需训练的多模态校准框架IMC,通过利用医学MLLMs固有的去噪能力,增强其在真实临床场景中对图像和文本噪声的鲁棒性。
- Motivation: 医学多模态大语言模型在临床应用中面临真实世界噪声(如图像伪影和文本错误)的敏感性问题,现有研究主要关注文本模态且依赖微调,无法满足医学领域复杂噪声模式和严格安全标准的需求。
- Method: 提出训练免费的固有增强多模态校准框架IMC,包含视觉模态的扰动感知去噪校准和文本模态的自实例化多智能体系统,利用MLLMs自身的感知和校准能力进行跨模态鲁棒性增强。
- Result: 在包含11种噪声类型的基准测试中,该方法在多个模态上达到了最先进的性能,显示出增强MLLMs在真实临床场景中鲁棒性的潜力。
- Conclusion: IMC框架通过利用医学MLLMs固有的去噪能力,有效提升了模型对复杂噪声的鲁棒性,为医学多模态大语言模型在真实临床环境中的安全应用提供了可行方案。
[73] A Lightweight Multi-Scale Attention Framework for Real-Time Spinal Endoscopic Instance Segmentation
Qi Lai,JunYan Li,Qiang Cai,Lei Wang,Tao Yan,XiaoKun Liang
Main category: cs.CV
TL;DR: LMSF-A是一个轻量级多尺度注意力框架,用于脊柱内窥镜实时实例分割,在保持高精度的同时仅需180万参数和8.8 GFLOPs,并发布了PELD临床数据集。
- Motivation: 脊柱内窥镜手术中实时实例分割对识别和保护关键解剖结构至关重要,但面临视野狭窄、镜面高光、烟雾/出血、边界不清和大尺度变化等挑战。同时受限于手术硬件,模型需要在精度和速度间平衡,并能在小批量(甚至批量1)训练下保持稳定。
- Method: 提出LMSF-A框架,包含三个协同设计部分:1) 骨干网络使用C2f-Pro模块,结合RepViT风格重参数化卷积和高效多尺度注意力,支持多分支训练但推理时折叠为单一路径;2) 颈部使用尺度序列特征融合和三元特征编码来增强跨尺度一致性和边界细节;3) 头部采用轻量级多任务共享头,使用共享卷积和GroupNorm减少参数并支持批量1稳定性。
- Result: LMSF-A在所有评估指标上具有高度竞争力(甚至优于大多数方法),仅需180万参数和8.8 GFLOPs,比大多数实例分割方法轻量得多。在公开牙齿基准测试上也表现出良好的泛化能力。同时发布了包含61名患者、610张图像的PELD临床数据集,标注了脂肪组织、骨骼、黄韧带和神经的实例掩码。
- Conclusion: LMSF-A是一个高效轻量的实时实例分割框架,特别适用于脊柱内窥镜手术等资源受限环境,在保持高精度的同时实现了速度和稳定性的平衡,并提供了有价值的临床数据集促进该领域研究。
[74] LVLM-Aided Alignment of Task-Specific Vision Models
Alexander Koebler,Lukas Kuhn,Ingo Thon,Florian Buettner
Main category: cs.CV
TL;DR: 提出LVLM-VA方法,利用大型视觉语言模型帮助小型视觉模型与人类领域知识对齐,减少对虚假相关性的依赖
- Motivation: 小型视觉模型在关键领域应用广泛,但现有解释方法显示这些模型常依赖虚假相关性而非人类领域知识,导致实际部署时行为脆弱
- Method: 提出LVLM-VA方法,利用大型视觉语言模型的泛化能力,建立双向接口:将模型行为转换为自然语言,将人类类别级规范映射到图像级批评,实现领域专家与模型的有效交互
- Result: 在合成和真实数据集上验证显示,该方法显著改善了模型行为与人类规范的对齐,有效减少了模型对虚假特征和群体特定偏见的依赖,且无需细粒度反馈
- Conclusion: LVLM-VA方法为小型视觉模型与人类领域知识的对齐提供了一种新颖高效的解决方案,能提升模型在实际部署中的鲁棒性
[75] Look Closer! An Adversarial Parametric Editing Framework for Hallucination Mitigation in VLMs
Jiayu Hu,Beibei Li,Jiangwei Xia,Yanjun Qin,Bing Ji,Zhongshi He
Main category: cs.CV
TL;DR: 提出ALEAHallu框架,通过激活-定位-编辑对抗范式缓解视觉语言模型的幻觉问题
- Motivation: 视觉语言模型存在持续幻觉问题,生成与视觉输入不一致的输出。现有基于启发式解码校准的方法因不可训练性限制了优化潜力
- Method: 采用激活-定位-编辑对抗范式:1)构建包含正负样本的激活数据集;2)分析响应对的隐藏状态差异识别幻觉敏感参数簇;3)使用注入对抗前缀的提示微调这些参数簇,迫使模型优先考虑视觉证据
- Result: 在生成式和判别式VLM任务上的评估表明ALEAHallu在缓解幻觉方面具有显著效果
- Conclusion: 提出的对抗参数编辑框架有效缓解了VLM的幻觉问题,通过强制模型依赖视觉证据而非参数偏见
[76] iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception
Sarthak Mehrotra,Sairam V C Rebbapragada,Mani Hemanth Reddy Bonthu,Vineeth N Balasubramanian
Main category: cs.CV
TL;DR: iSHIFT:一种轻量级GUI代理,通过隐式思维链和感知控制模块,实现慢速(高精度)和快速(高效率)模式切换,在2.5B参数下达到SOTA性能
- Motivation: 现有MLLM在GUI交互中面临两个挑战:1)难以同时实现高效执行常规任务和精确处理需要视觉定位的细粒度交互;2)模型参数量大且无法根据任务需求调整推理深度
- Method: 提出iSHIFT框架:集成隐式思维链(latent thinking)和感知控制模块,通过特殊感知token引导注意力到相关屏幕区域,让模型自主决定推理方式和关注焦点,实现慢速模式(详细视觉定位)和快速模式(全局线索)的灵活切换
- Result: 尽管只有2.5B参数,iSHIFT在多个基准数据集上达到了最先进的性能水平
- Conclusion: iSHIFT通过隐式慢-快混合推理机制,成功解决了GUI代理在效率和精度之间的权衡问题,为轻量级但高性能的GUI交互系统提供了有效解决方案
[77] LongFly: Long-Horizon UAV Vision-and-Language Navigation with Spatiotemporal Context Integration
Wen Jiang,Li Wang,Kangyao Huang,Wei Fan,Jinyuan Liu,Shaoyu Liu,Hongwei Duan,Bin Xu,Xiangyang Ji
Main category: cs.CV
TL;DR: LongFly是一个用于无人机视觉语言导航的时空上下文建模框架,通过历史感知的时空建模策略,将碎片化的历史数据转化为结构化表示,提升长时程导航性能。
- Motivation: 无人机在灾后搜救等任务中面临高信息密度、视角快速变化和动态结构等挑战,现有视觉语言导航方法难以建模复杂环境中的长时程时空上下文,导致语义对齐不准确和路径规划不稳定。
- Method: 提出三个核心模块:1) 基于槽的历史图像压缩模块,动态蒸馏多视角历史观测为固定长度上下文表示;2) 时空轨迹编码模块,捕捉无人机轨迹的时间动态和空间结构;3) 提示引导的多模态集成模块,整合现有时空上下文与当前观测,支持基于时间的推理和稳健的航点预测。
- Result: 实验结果表明,LongFly在成功率和路径长度加权成功率上分别比最先进的无人机VLN基线方法高出7.89%和6.33%,在已见和未见环境中均表现一致。
- Conclusion: LongFly通过有效的时空上下文建模,显著提升了无人机在复杂环境中的长时程视觉语言导航性能,为解决高动态、信息密集场景下的导航挑战提供了有效方案。
[78] Patch-Discontinuity Mining for Generalized Deepfake Detection
Huanhuan Yuan,Yang Ping,Zhengqin Xu,Junyi Cao,Shuai Jia,Chao Ma
Main category: cs.CV
TL;DR: GenDF是一个简单有效的深度伪造检测框架,通过迁移大规模视觉模型,结合深度伪造特定表示学习、特征空间重分布和分类不变特征增强,在跨域和跨操作设置中实现最先进的泛化性能,仅需0.28M可训练参数。
- Motivation: 生成式AI的快速发展使得创建高度逼真的伪造人脸图像成为可能,这对个人隐私和在线信息完整性构成严重威胁。现有的深度伪造检测方法通常依赖于手工制作的取证线索和复杂架构,在域内设置中表现良好,但在面对未见过的伪造模式时性能显著下降。
- Method: GenDF框架将强大的大规模视觉模型迁移到深度伪造检测任务,采用紧凑简洁的网络设计。包含三个关键组件:1) 深度伪造特定表示学习,捕捉真实和伪造人脸图像之间的判别模式;2) 特征空间重分布,缓解分布不匹配问题;3) 分类不变特征增强策略,在不引入额外可训练参数的情况下增强泛化能力。
- Result: 大量实验表明,GenDF在跨域和跨操作设置中实现了最先进的泛化性能,同时仅需要0.28M可训练参数,验证了所提出框架的有效性和效率。
- Conclusion: GenDF是一个简单而有效的深度伪造检测框架,通过创新的表示学习、特征分布调整和增强策略,在保持参数效率的同时显著提升了跨域泛化能力,为解决深度伪造检测中的泛化挑战提供了有前景的解决方案。
[79] Backdoor Attacks on Prompt-Driven Video Segmentation Foundation Models
Zongmin Zhang,Zhen Sun,Yifan Liao,Wenhan Dong,Xinlei He,Xingshuo Han,Shengmin Xu,Xinyi Huang
Main category: cs.CV
TL;DR: 论文提出BadVSFM,首个针对提示驱动视频分割基础模型的后门攻击框架,通过两阶段策略实现高攻击成功率
- Motivation: 随着提示驱动视频分割基础模型在自动驾驶、数字病理等关键应用中的部署,后门威胁日益受到关注。研究发现传统后门攻击对这些模型几乎无效(攻击成功率低于5%),需要专门针对此类模型设计攻击方法
- Method: 提出BadVSFM两阶段攻击框架:1)引导图像编码器,使触发帧映射到指定目标嵌入,干净帧保持与参考编码器对齐;2)训练掩码解码器,使不同提示类型的触发帧-提示对产生共享目标掩码,干净输出接近参考解码器
- Result: 在两个数据集和五个VSFM模型上的实验表明,BadVSFM在不同触发器和提示下实现了强大且可控的后门效果,同时保持干净分割质量。攻击成功率显著提升,四种代表性防御方法基本无效
- Conclusion: BadVSFM揭示了当前视频分割基础模型中未被充分探索的漏洞,通过分离触发和干净表示、将注意力转移到触发区域,成功实现了高效后门攻击,现有防御方法难以应对
[80] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
Hanzhang Zhou,Xu Zhang,Panrong Tong,Jianan Zhang,Liangyu Chen,Quyu Kong,Chenglin Cai,Chen Liu,Yue Wang,Jingren Zhou,Steven Hoi
Main category: cs.CV
TL;DR: MAI-UI是一系列基础GUI智能体(2B-235B),通过自进化数据管道、设备-云协作系统和在线强化学习框架,解决了GUI智能体部署中的交互、操作、架构和环境动态性四大挑战,在GUI定位和移动导航基准上达到SOTA。
- Motivation: GUI智能体有望革新人机交互,但面临四大现实部署挑战:缺乏原生智能体-用户交互、UI-only操作限制、缺少实用部署架构、动态环境中的脆弱性。
- Method: 1. 自进化数据管道扩展导航数据,包含用户交互和MCP工具调用;2. 原生设备-云协作系统按任务状态路由执行;3. 在线RL框架采用高级优化技术,扩展并行环境和上下文长度。
- Result: 在GUI定位基准上:ScreenSpot-Pro 73.5%、MMBench GUI L2 91.3%、OSWorld-G 70.9%、UI-Vision 49.2%,超越Gemini-3-Pro和Seed1.8。移动导航:AndroidWorld 76.7%(SOTA),超越UI-Tars-2等;MobileWorld 41.7%,优于端到端GUI模型。在线RL实验显示:并行环境从32扩展到512提升5.2点,环境步数从15增加到50提升4.3点。设备-云协作系统提升设备性能33%,减少云模型调用40%+,保护用户隐私。
- Conclusion: MAI-UI通过统一方法解决了GUI智能体部署的关键挑战,在多个基准上达到SOTA性能,其设备-云协作架构在提升性能的同时保护了用户隐私,为下一代人机交互奠定了基础。
[81] StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars
Zhiyao Sun,Ziqiao Peng,Yifeng Ma,Yi Chen,Zhengguang Zhou,Zixiang Zhou,Guozhen Zhang,Youliang Zhang,Yuan Zhou,Qinglin Lu,Yong-Jin Liu
Main category: cs.CV
TL;DR: 提出两阶段自回归适应与加速框架,将高保真人类视频扩散模型适配为实时交互式流媒体,实现全身自然交谈与倾听行为的实时生成。
- Motivation: 现有扩散式人类化身生成方法存在非因果架构和高计算成本问题,不适合流媒体应用;现有交互方法通常局限于头肩区域,无法生成手势和身体动作。
- Method: 采用两阶段自回归适应与加速框架:1) 自回归蒸馏将扩散模型转换为自回归模型;2) 对抗细化提升质量。引入三个关键组件:参考汇、参考锚定位置重编码策略和一致性感知判别器。
- Result: 方法在生成质量、实时效率和交互自然度方面均超越现有方法,实现SOTA性能,能够生成具有连贯手势的自然交谈和倾听行为。
- Conclusion: 提出的框架成功解决了实时流媒体交互化身的挑战,实现了高质量、实时、全身交互的人类化身生成,为数字人研究提供了实用解决方案。
[82] Yume-1.5: A Text-Controlled Interactive World Generation Model
Xiaofeng Mao,Zhen Li,Chuanhao Li,Xiaojie Xu,Kaining Ying,Tong He,Jiangmiao Pang,Yu Qiao,Kaipeng Zhang
Main category: cs.CV
TL;DR: 提出了一种名为\method的新框架,能够从单张图像或文本提示生成逼真、交互式、连续的世界,支持键盘探索,解决了现有方法参数过大、推理步骤过长、历史上下文增长过快等问题。
- Motivation: 现有基于扩散模型生成交互式可探索世界的方法存在参数规模过大、依赖冗长推理步骤、历史上下文快速增长等关键挑战,严重限制了实时性能且缺乏文本控制生成能力。
- Method: 框架包含三个核心组件:1) 集成统一上下文压缩与线性注意力的长视频生成框架;2) 基于双向注意力蒸馏和增强文本嵌入方案的实时流加速策略;3) 生成世界事件的文本控制方法。
- Result: 该框架能够从单张图像或文本提示生成逼真、交互式、连续的世界,支持键盘探索,解决了现有方法的实时性能限制和文本控制能力缺失问题。
- Conclusion: 提出的\method框架通过创新的架构设计,成功解决了扩散模型在生成交互式世界时面临的实时性能和文本控制挑战,为创建可探索的连续世界提供了有效解决方案。
[83] Learning Association via Track-Detection Matching for Multi-Object Tracking
Momir Adžemović
Main category: cs.CV
TL;DR: TDLP是一种基于检测的跟踪方法,通过轨迹与检测之间的链接预测进行逐帧关联,结合了几何特征和可选线索,无需手工规则且计算高效,在多个基准测试中超越了现有方法。
- Motivation: 现有多目标跟踪方法存在两个主要问题:基于检测的跟踪方法依赖手工设计的关联启发式规则,而端到端方法虽然能从数据中学习关联但计算复杂度高。需要一种既能从数据中学习关联,又能保持模块化和计算效率的方法。
- Method: TDLP采用基于检测的跟踪范式,通过链接预测进行轨迹与检测的逐帧关联。主要利用边界框等几何特征,可选地整合姿态和外观等额外线索。通过预测每个轨迹在每一帧的正确延续来学习关联,无需手工规则。
- Result: 在多个基准测试上的实验表明,TDLP在基于检测的跟踪和端到端方法中都超越了最先进的性能。分析显示链接预测比基于度量学习的关联更有效,特别是在处理边界框等异构特征时。
- Conclusion: TDLP提供了一种既能从数据中学习关联,又保持模块化和计算效率的跟踪方法。链接预测在异构特征处理上优于度量学习,为多目标跟踪提供了新的有效解决方案。
[84] ProEdit: Inversion-based Editing From Prompts Done Right
Zhi Ouyang,Dian Zheng,Xiao-Ming Wu,Jian-Jian Jiang,Kun-Yu Lin,Jingke Meng,Wei-Shi Zheng
Main category: cs.CV
TL;DR: ProEdit提出KV-mix和Latents-Shift两种技术,解决基于反转的图像/视频编辑中源图像信息过度依赖问题,实现更好的编辑效果
- Motivation: 现有基于反转的视觉编辑方法在采样过程中过度依赖源图像信息,这导致编辑目标图像时无法有效改变主体属性(如姿态、数量、颜色等),影响编辑质量
- Method: 提出ProEdit方法,包含两个关键技术:1) KV-mix:在注意力层面混合源图像和目标图像的KV特征,减少源图像对编辑区域的影响;2) Latents-Shift:在潜在空间扰动源图像的编辑区域,消除反转潜在变量对采样的影响
- Result: 在多个图像和视频编辑基准测试中达到最先进的性能,并且设计为即插即用,可无缝集成到现有方法如RF-Solver、FireFlow和UniEdit中
- Conclusion: ProEdit通过注意力混合和潜在空间扰动技术,有效解决了基于反转的视觉编辑中源信息过度依赖问题,实现了更好的编辑一致性和编辑效果
[85] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning
Shuoshuo Zhang,Yizhen Zhang,Jingjing Fu,Lei Song,Jiang Bian,Yujiu Yang,Rui Wang
Main category: cs.CV
TL;DR: BiPS通过双向感知塑造,将问题条件化的掩码视图转化为双向视觉信号,在训练中塑造模型感知,提升视觉语言模型对细粒度视觉证据的依赖和跨域泛化能力。
- Motivation: 现有视觉语言模型依赖中间视觉线索的方法存在三个问题:1) 忽略细粒度视觉证据(如图表中的折线);2) 跨域泛化能力差;3) 推理成本高。需要一种更有效的方法来增强模型对视觉细节的依赖。
- Method: 提出双向感知塑造(BiPS)方法:1) KL一致性约束:在原始图像和保留证据的视图之间,确保模型对支持像素的完整覆盖;2) KL分离约束:在原始图像和证据消除的视图之间,防止模型仅依赖文本信息,强制模型依赖细粒度视觉证据。
- Result: 在8个基准测试中,BiPS将Qwen2.5-VL-7B模型的平均性能提升了8.2%,并在未见过的数据集和图像类型上展现出强大的跨域泛化能力。
- Conclusion: BiPS通过双向感知塑造有效解决了现有视觉语言模型对细粒度视觉证据依赖不足的问题,显著提升了模型性能并增强了跨域泛化能力,为视觉语言模型的训练提供了新思路。
stat.ML
[86] Residual Prior Diffusion: A Probabilistic Framework Integrating Coarse Latent Priors with Diffusion Models
Takuro Kutsuna
Main category: stat.ML
TL;DR: 提出Residual Prior Diffusion (RPD)两阶段框架:先用粗粒度先验模型捕捉数据分布的大尺度结构,再用扩散模型学习先验与目标分布之间的残差,解决了标准扩散模型中全局结构与局部细节尺度不匹配的问题。
- Motivation: 标准扩散模型使用单一网络和单一扩散计划将简单先验(如标准正态分布)转换为目标数据分布,需要同时表示分布的全局结构和细尺度局部变化。当这些尺度严重不匹配时(如自然图像中的粗粒度流形结构与精细纹理共存,或低维分布中高度集中的局部结构),模型难以有效学习。
- Method: 提出Residual Prior Diffusion (RPD)两阶段框架:1) 粗粒度先验模型捕捉数据分布的大尺度结构;2) 扩散模型学习先验与目标分布之间的残差。将RPD构建为显式概率模型,具有可处理的证据下界,优化可简化为噪声预测或速度预测目标。引入利用先验模型信息的辅助变量,理论上分析它们如何降低RPD中预测问题的难度。
- Result: 在具有细粒度局部结构的合成数据集上,标准扩散模型无法捕捉局部细节,而RPD能准确捕捉细尺度细节同时保持分布的大尺度结构。在自然图像生成任务中,RPD的生成质量达到或超过代表性扩散基线,即使使用少量推理步骤也能保持强大性能。
- Conclusion: RPD通过分离大尺度结构和细尺度细节的学习,有效解决了标准扩散模型中尺度不匹配的问题,在合成数据和自然图像生成任务中都表现出优越性能,为处理复杂多尺度数据分布提供了有前景的解决方案。
cs.CL
[87] Five Years of SciCap: What We Learned and Future Directions for Scientific Figure Captioning
Ting-Hao K. Huang,Ryan A. Rossi,Sungchul Kim,Tong Yu,Ting-Yao E. Hsu,Ho Yin,Ng,C. Lee Giles
Main category: cs.CL
TL;DR: SciCap项目回顾了2012-2025年间在科学图表标注领域的发展历程,总结了技术方法教训,并提出了未来研究方向
- Motivation: 测试领域特定训练(在文本模型中如SciBERT成功的方法)是否也能应用于图表标注任务,探索如何帮助科学家撰写更好的图表说明
- Method: 1) 从arXiv论文中收集和发布大量图表-标注对数据集;2) 进行自动和人工评估;3) 应对大语言模型的兴起;4) 举办年度挑战赛;5) 构建交互式系统帮助科学家撰写标注
- Result: 项目从宾州大学的小型种子基金项目发展成为塑造科学图表标注领域的核心努力之一,建立了多机构合作,创建了持续更新的数据集,并开发了实用工具
- Conclusion: 总结了前五年的关键技术和方法论教训,提出了五个主要的未解决挑战,并为科学图表标注的下一个研究阶段指明了方向
eess.IV
[88] A Graph-Augmented knowledge Distillation based Dual-Stream Vision Transformer with Region-Aware Attention for Gastrointestinal Disease Classification with Explainable AI
Md Assaduzzaman,Nushrat Jahan Oyshi,Eram Mahamud
Main category: eess.IV
TL;DR: 提出基于师生知识蒸馏的混合双流深度学习框架,用于胃肠道疾病的内镜和组织病理图像分类,实现高精度与高效率的平衡。
- Motivation: 胃肠道疾病的内镜和组织病理图像分类面临数据量大、类间视觉差异细微的挑战,需要开发既准确又高效的诊断方法。
- Method: 采用师生知识蒸馏框架:教师模型结合Swin Transformer的全局上下文推理和Vision Transformer的局部细粒度特征提取;学生网络采用紧凑的Tiny-ViT结构,通过软标签蒸馏继承教师的知识。
- Result: 在两个无线胶囊内镜数据集上分别达到0.9978和0.9928的准确率,平均AUC为1.0000;Tiny-ViT在保持诊断性能的同时显著降低计算复杂度,推理速度更快。
- Conclusion: 该框架为AI辅助胃肠道疾病诊断提供了鲁棒、可解释且可扩展的解决方案,适合资源受限的临床环境,推动了智能内镜筛查的临床应用。
[89] RT-Focuser: A Real-Time Lightweight Model for Edge-side Image Deblurring
Zhuoyu Wu,Wenhui Ou,Qiawei Zheng,Jiayan Yang,Quanjun Wang,Wenqi Fang,Zheng Wang,Yongkui Yang,Heshan Li
Main category: eess.IV
TL;DR: RT-Focuser:一种轻量级U形网络,用于实时图像去模糊,在GPU和移动设备上均能达到140+FPS,适用于自动驾驶、无人机感知等实时应用。
- Motivation: 相机或物体运动引起的运动模糊会严重降低图像质量,对自动驾驶、无人机感知和医学成像等实时应用构成挑战,需要高效的实时去模糊解决方案。
- Method: 设计轻量级U形网络RT-Focuser,包含三个关键组件:用于边缘感知特征提取的轻量级去模糊块(LD)、用于编码器集成的多级集成聚合模块(MLIA)、以及用于渐进解码器细化的跨源融合块(X-Fuse)。
- Result: RT-Focuser仅需5.85M参数和15.76 GMACs,在单张模糊输入上训练达到30.67 dB PSNR,在GPU和移动设备上每帧处理仅需6ms,帧率超过140 FPS。
- Conclusion: RT-Focuser在速度和精度之间取得了良好平衡,展示了在边缘设备上部署的强大潜力,为实时图像去模糊应用提供了高效解决方案。
[90] The Color-Clinical Decoupling: Why Perceptual Calibration Fails Clinical Biomarkers in Smartphone Dermatology
Sungwoo Kang
Main category: eess.IV
TL;DR: 智能手机远程皮肤病学中,尽管颜色校准能减少颜色误差,但无法保证临床生物标志物的可靠性,尤其是在不同解剖区域存在显著颜色差异的情况下。
- Motivation: 当前智能手机远程皮肤病学假设颜色校准能确保临床可靠性,但这一假设尚未在代表性不足的皮肤光型(如Fitzpatrick III-IV)中得到验证。研究旨在测试标准颜色校准是否能产生可靠的临床生物标志物。
- Method: 使用43,425张来自965名韩国受试者(Fitzpatrick III-IV)的图像,涵盖DSLR、平板电脑和智能手机设备。应用线性颜色校正矩阵(CCM)归一化,评估颜色误差减少效果,并分析个体类型角(ITA)和黑色素指数等临床生物标志物的设备间一致性。
- Result: 线性CCM归一化将颜色误差减少了67-77%,达到接近临床精度(Delta E < 2.3)。然而,这并未转化为生物标志物可靠性:ITA的设备间一致性差(ICC = 0.40),而黑色素指数一致性较好(ICC = 0.77)。研究发现"颜色-临床解耦"现象,面部区域占颜色方差的25.2%,是设备效应(7.0%)的3.6倍。
- Conclusion: 当前的颜色校准标准不足以支持临床级生物标志物提取。面部解剖区域的显著颜色差异挑战了单点校准的有效性,需要开发区域感知协议来改进移动皮肤病学实践。
cs.HC
[91] Modified TSception for Analyzing Driver Drowsiness and Mental Workload from EEG
Gourav Siddhad,Anurag Singh,Rajkumar Saini,Partha Pratim Roy
Main category: cs.HC
TL;DR: 提出改进的TSception架构,通过五层时间细化策略和自适应平均池化,提升EEG脑电信号对驾驶员疲劳检测的稳定性和泛化能力。
- Motivation: 驾驶员疲劳是交通事故的主要原因,需要开发实时可靠的检测系统来保障道路安全。现有EEG疲劳检测方法在稳定性和泛化性方面仍有改进空间。
- Method: 提出改进的TSception架构:1)五层时间细化策略捕捉多尺度脑动态;2)自适应平均池化处理不同EEG输入维度;3)两阶段融合机制优化时空特征整合。
- Result: 在SEED-VIG数据集上达到83.46%准确率(与原版83.15%相当),但置信区间显著降低(0.24 vs 0.36),稳定性大幅提升。在STEW数据集上达到SOTA结果:二分类95.93%,三分类95.35%。
- Conclusion: 改进的TSception架构在EEG疲劳检测中表现出更好的稳定性和跨任务泛化能力,为可靠的驾驶员状态监测提供了有效解决方案。
[92] SketchPlay: Intuitive Creation of Physically Realistic VR Content with Gesture-Driven Sketching
Xiangwen Zhang,Xiaowei Dai,Runnan Chen,Xiaoming Chen,Zeke Zexi Hu
Main category: cs.HC
TL;DR: SketchPlay是一个VR交互框架,通过空中绘制草图结合手势来创建动态、物理真实的场景,让非专业用户也能直观创作
- Motivation: 传统VR内容创建需要复杂建模工具或预定义3D模型、纹理和动画,对非专业用户门槛很高,需要更直观的创作方式
- Method: 结合空中绘制草图(捕捉物体结构和空间布局)和手势(传达速度、方向、力等物理线索),共同定义物体的运动和行为
- Result: 相比传统文本驱动方法,SketchPlay在表达能力和用户体验方面具有显著优势,能够生成刚体运动、弹性变形、布料动力学等复杂物理现象
- Conclusion: SketchPlay通过直观有趣的创作过程降低了非专业用户的入门门槛,在教育、艺术和沉浸式叙事应用中具有强大潜力
cs.LG
[93] Missing Pattern Tree based Decision Grouping and Ensemble for Deep Incomplete Multi-View Clustering
Wenyuan Yang,Jie Xu,Hongqing He,Jiangzhang Gan,Xiaofeng Zhu
Main category: cs.LG
TL;DR: TreeEIC:基于缺失模式树的IMVC框架,通过分组决策集、集成学习和知识蒸馏,充分利用不完整多视图对,提升聚类性能
- Motivation: 现实世界多视图数据通常存在高度不一致的缺失模式,现有IMVC方法忽略了"对利用不足"问题,即不一致的缺失模式使得不完整但可用的多视图对无法被充分利用,限制了模型性能
- Method: 1) 定义缺失模式树模型,根据不同的缺失模式将数据分组到多个决策集;2) 在每个决策集内执行多视图聚类;3) 提出多视图决策集成模块,聚合所有决策集的聚类结果,通过基于不确定性的权重抑制不可靠决策;4) 设计集成到个体的知识蒸馏模块,将集成知识转移到视图特定的聚类模型,通过优化跨视图一致性和簇间判别损失实现相互促进
- Result: 在多个基准数据集上的大量实验表明,TreeEIC实现了最先进的IMVC性能,并在高度不一致的缺失模式下表现出卓越的鲁棒性
- Conclusion: TreeEIC通过充分利用可用的多视图对,有效解决了不完整多视图聚类中的对利用不足问题,为处理高度不一致缺失模式的多视图数据提供了有效的解决方案
[94] Global-Graph Guided and Local-Graph Weighted Contrastive Learning for Unified Clustering on Incomplete and Noise Multi-View Data
Hongqing He,Jie Xu,Wenyuan Yang,Yonghua Zhu,Guoqiu Wen,Xiaofeng Zhu
Main category: cs.LG
TL;DR: 提出了一种统一的对比学习多视图聚类框架,通过全局图引导和局部图加权对比学习,解决不完整和噪声多视图数据中的样本配对不足和错误配对问题。
- Motivation: 现实世界多视图数据常存在不完整性和噪声,导致样本配对不足(rare-paired)和错误配对(mis-paired),这严重影响了基于对比学习的多视图聚类效果。配对不足限制了多视图互补信息的充分提取,而错误配对则导致对比学习优化方向错误。
- Method: 提出统一的对比学习多视图聚类框架:1)全局图引导对比学习,利用所有视图样本构建全局视图亲和力图,形成新样本对以充分探索互补信息;2)局部图加权对比学习,利用局部邻居生成配对权重,自适应地加强或减弱配对对比学习。该方法无需插补,可集成到统一的全局-局部图引导对比学习框架中。
- Result: 在不完整和噪声设置的多视图数据上进行大量实验,证明该方法相比最先进方法实现了优越性能。
- Conclusion: 提出的统一框架有效解决了不完整和噪声多视图数据中的配对问题,通过全局-局部图引导的对比学习机制,显著提升了多视图聚类效果。
[95] Robustness and Scalability Of Machine Learning for Imbalanced Clinical Data in Emergency and Critical Care
Yusuf Brima,Marcellin Atemkeng
Main category: cs.LG
TL;DR: 在急诊和重症监护的临床数据严重不平衡场景下,系统评估了传统机器学习模型与深度学习模型的鲁棒性和可扩展性,发现树模型(特别是XGBoost)在性能稳定性和计算效率上优于深度表格模型。
- Motivation: 急诊和重症监护环境需要既准确又计算高效的预测模型,但这些环境中的临床数据通常严重不平衡。这种偏斜会削弱模型可靠性,特别是对于罕见但临床关键的结果,使得鲁棒性和可扩展性对于实际应用至关重要。
- Method: 使用MIMIC-IV-ED和eICU数据集,通过互补指标量化类别不平衡,比较了树基方法、最先进的TabNet深度学习模型和自定义轻量级残差网络TabResNet。TabResNet设计为TabNet的计算高效替代方案,用简化的残差架构替换复杂的注意力机制。所有模型通过贝叶斯超参数搜索优化,并在预测性能、对不平衡增加的鲁棒性和计算可扩展性方面进行评估。
- Result: 在七个临床关键预测任务中,树基方法(特别是XGBoost)在不同不平衡水平下始终实现最稳定的性能,并能高效地随样本规模扩展。深度表格模型在不平衡情况下性能下降更明显,计算成本更高,而TabResNet虽然比TabNet更轻量,但未能超越集成基准。
- Conclusion: 在急诊和重症监护中,对不平衡的鲁棒性和计算可扩展性可能超过架构复杂性。树基集成方法目前提供了最实用和临床可行的选择,为从业者提供了适合高风险、时间敏感环境的选择框架。
[96] Dynamic Feedback Engines: Layer-Wise Control for Self-Regulating Continual Learning
Hengyi Wu,Zhenyi Wang,Heng Huang
Main category: cs.LG
TL;DR: 提出一种基于熵感知的持续学习方法,通过动态反馈机制根据各层熵值进行调节,缓解欠拟合和过拟合问题,提升泛化性能。
- Motivation: 现有持续学习方法通常对所有层进行统一处理,在稳定性和可塑性之间进行权衡。然而不同层在分类任务中自然表现出不同的不确定性(熵),高熵层容易欠拟合,低熵层容易过拟合,需要针对性的调节机制。
- Method: 提出熵感知持续学习方法,采用动态反馈机制根据每层的熵值进行调节:降低高熵层的熵以缓解欠拟合,提高过于自信层的熵以缓解过拟合。这种自适应调节促使模型收敛到更宽的局部最小值,提升泛化能力。该方法具有通用性,可无缝集成到基于回放和正则化的方法中。
- Result: 在多个数据集上的实验表明,该方法相比最先进的持续学习基线方法取得了显著的性能提升。
- Conclusion: 通过熵感知的动态层调节机制,能够有效平衡持续学习中的稳定性和可塑性,缓解欠拟合和过拟合问题,提升模型在持续学习任务中的整体性能。
Powered by Deepseek & arXiv Daily AI Enhanced