Appearance
以下论文的arXiv类型标签包含:cs.CV
Powered by Deepseek & arXiv Daily AI Enhanced
cs.CV
[1] Leveraging NTPs for Efficient Hallucination Detection in VLMs
Ofir Azachi,Kfir Eliyahu,Eyal El Ani,Rom Himelstein,Roi Reichart,Yuval Pinter,Nitay Calderon
Main category: cs.CV
TL;DR: 本文提出了一种基于下一个令牌概率(NTP)的轻量级幻觉检测方法,通过训练传统机器学习模型来检测视觉语言模型(VLM)生成的文本中的幻觉问题,该方法计算效率高且性能可与强VLM相媲美。
- Motivation: 视觉语言模型(VLM)的幻觉问题(视觉内容与生成文本之间的不匹配)严重影响了VLM的可靠性。现有的检测方法通常使用相同或不同的VLM来评估生成输出,但这种方法计算密集且增加了模型延迟。
- Method: 提出基于VLM的下一个令牌概率(NTP)的轻量级检测方法,NTP直接量化模型不确定性。使用1,400个人工标注的VLM生成语句数据集进行测试,并探索将NTP与语言NTP(仅将生成文本反馈给VLM计算)结合的方法。
- Result: 实验结果表明,基于NTP的特征是有效的幻觉预测因子,使简单ML模型达到与强VLM相当的检测性能。结合语言NTP可进一步提升检测性能,将VLM的幻觉预测分数整合到基于NTP的模型中可获得比单独使用VLM或NTP更好的性能。
- Conclusion: 这项研究为开发简单、轻量级的解决方案铺平了道路,有望显著提升VLM的可靠性,同时保持计算效率。
[2] Quasi-Synthetic Riemannian Data Generation for Writer-Independent Offline Signature Verification
Elias N. Zois,Moises Diaz,Salem Said,Miguel A. Ferrer
Main category: cs.CV
TL;DR: 该论文提出了一种基于黎曼几何的准合成数据生成框架,用于解决离线手写签名验证在独立于书写者场景下的泛化问题。
- Motivation: 离线手写签名验证在独立于书写者设置下具有挑战性,现有方法通常依赖真实签名数据集进行训练。论文旨在通过黎曼几何生成合成数据来减少对真实数据的依赖。
- Method: 利用对称正定矩阵的黎曼几何,通过Riemannian Gaussian Mixture模型识别黎曼中心作为合成书写者,并通过Riemannian Gaussian采样生成正负样本。使用度量学习框架处理相似和不相似的SPD点对。
- Result: 在两个包含西方和亚洲书写风格的流行签名数据集上的实验表明,该方法在数据集内和跨数据集评估协议下都取得了低错误率。
- Conclusion: 该方法展示了在黎曼空间中生成合成数据用于独立于书写者的签名验证系统的潜力,能够有效减少对真实签名数据集的依赖。
[3] Seedream 4.0: Toward Next-generation Multimodal Image Generation
Team Seedream,Yunpeng Chen,Yu Gao,Lixue Gong,Meng Guo,Qiushan Guo,Zhiyao Guo,Xiaoxia Hou,Weilin Huang,Yixuan Huang,Xiaowen Jian,Huafeng Kuang,Zhichao Lai,Fanshi Li,Liang Li,Xiaochen Lian,Chao Liao,Liyang Liu,Wei Liu,Yanzuo Lu,Zhengxiong Luo,Tongtong Ou,Guang Shi,Yichun Shi,Shiqi Sun,Yu Tian,Zhi Tian,Peng Wang,Rui Wang,Xun Wang,Ye Wang,Guofeng Wu,Jie Wu,Wenxu Wu,Yonghui Wu,Xin Xia,Xuefeng Xiao,Shuang Xu,Xin Yan,Ceyuan Yang,Jianchao Yang,Zhonghua Zhai,Chenlin Zhang,Heng Zhang,Qi Zhang,Xinyu Zhang,Yuwei Zhang,Shijia Zhao,Wenliang Zhao,Wenjia Zhu
Main category: cs.CV
TL;DR: Seedream 4.0是一个高效的多模态图像生成系统,统一了文本到图像合成、图像编辑和多图像组合功能,采用高效的扩散变换器和优化的VAE,能够快速生成高分辨率图像,在多项任务上达到最先进水平。
- Motivation: 传统文本到图像系统功能单一,需要开发一个统一的框架来整合多种图像生成和编辑任务,提供更交互式和多维度的创意工具。
- Method: 开发高效的扩散变换器配合强大的VAE减少图像token数量,进行大规模预训练,结合多模态后训练联合训练T2I和图像编辑任务,采用对抗蒸馏、分布匹配、量化和推测解码等技术加速推理。
- Result: 生成2K图像推理时间最快达1.8秒,在T2I和多模态图像编辑任务上达到最先进水平,在复杂任务中表现出卓越的多模态能力,支持多图像参考和批量生成。
- Conclusion: Seedream 4.0将传统T2I系统扩展为更交互式的创意工具,推动了生成AI在创意和专业应用领域的边界。
[4] A Contrastive Learning Framework for Breast Cancer Detection
Samia Saeed,Khuram Naveed
Main category: cs.CV
TL;DR: 本文提出了一种基于对比学习的半监督框架,用于乳腺癌检测,在有限标注数据下实现96.7%的准确率。
- Motivation: 乳腺癌是全球第二大癌症死因,早期检测对治疗结果至关重要。虽然深度学习在计算机辅助检测系统中表现出色,但受限于标注数据不足的问题。
- Method: 使用Resnet-50在大量未标注乳腺X光片数据上进行半监督对比学习训练,采用相似性指数和各种数据增强技术,最后在小规模标注数据上微调模型。
- Result: 在INbreast和MIAS基准数据集上实现了96.7%的乳腺癌检测准确率,超越了现有最先进方法。
- Conclusion: 对比学习框架能够有效解决标注数据不足的问题,在乳腺癌早期检测中表现出优越性能,为医疗影像分析提供了有前景的解决方案。
[5] Are Foundation Models Ready for Industrial Defect Recognition? A Reality Check on Real-World Data
Simon Baeuerle,Pratik Khanna,Nils Friederich,Angelo Jovin Yamachui Sitcheu,Damir Shakirov,Andreas Steimer,Ralf Mikut
Main category: cs.CV
TL;DR: 本文测试了多个基础模型在工业图像质量检测中的应用,发现这些模型在公开数据集上表现良好,但在真实工业数据上全部失败。
- Motivation: 利用基础模型的零样本泛化能力替代繁琐的标注任务,实现跨产品的自动化质量检测,以节省模型部署成本。
- Method: 在自定义真实工业图像数据和公开图像数据上测试多个最新基础模型,比较它们在零样本设置下的性能表现。
- Result: 所有测试的基础模型在真实工业数据上均失败,而同样的模型在公开基准数据集上表现良好。
- Conclusion: 基础模型在工业质量检测场景中的实际应用仍面临挑战,需要进一步研究其在实际工业环境中的泛化能力。
[6] Shared Neural Space: Unified Precomputed Feature Encoding for Multi-Task and Cross Domain Vision
Jing Li,Oskar Bartosz,Chengyu Wang,Michal Wnuczynski,Dilshan Godaliyadda,Michael Polley
Main category: cs.CV
TL;DR: 提出了一种通用的神经空间(NS)方法,通过编码器-解码器框架预计算跨视觉和成像任务的特征,使多个下游AI模块能够共享相同的特征空间,从而提高效率并改善跨域泛化能力。
- Motivation: 当前AI模型通常针对特定高精度任务定制,但在包含一系列模块化任务的应用中效率低下,因为每个任务都需要映射到不同的潜在域。
- Method: 使用轻量级CNN骨干网络构建编码器-解码器框架,学习具有变换感知和泛化能力的表示,使多个视觉任务可以在共享的神经空间中执行。
- Result: 该方法减少了冗余,改善了跨域泛化能力,并证明了可以在神经空间中高效执行去马赛克、去噪、深度估计和语义分割等任务。
- Conclusion: 神经空间架构为高效的多任务视觉流水线奠定了基础,相比大型transformer骨干网络更加轻量,具有更广泛的硬件适应性。
[7] Data-Efficient Stream-Based Active Distillation for Scalable Edge Model Deployment
Dani Manjah,Tim Bary,Benoît Gérin,Benoît Macq,Christophe de Vleeschouwer
Main category: cs.CV
TL;DR: 本文提出了一种结合高置信度流式策略和多样性方法的选择策略,用于在边缘设备上选择最有用的训练图像,以最大化模型质量并降低传输成本。
- Motivation: 边缘相机系统不断扩展,面临不断变化的环境,需要定期更新模型。实践中,复杂教师模型在中央服务器上运行以标注数据,然后用于训练适合计算能力有限的边缘设备的小型模型。
- Method: 采用高置信度流式策略与多样性方法相结合的选择策略,在保持训练负载(即迭代次数)相似的情况下,通过最小化数据集查询来优化模型质量。
- Result: 该方法能够产生高质量的模型,同时保持最低的数据集查询量。
- Conclusion: 结合高置信度和多样性的图像选择策略在边缘设备模型训练中具有显著优势,能够在降低传输成本的同时提升模型性能。
[8] InstructVTON: Optimal Auto-Masking and Natural-Language-Guided Interactive Style Control for Inpainting-Based Virtual Try-On
Julien Han,Shuwen Qiu,Qi Li,Xingzi Xu,Mehmet Saygin Seyfioglu,Kavosh Asadi,Karim Bouyarmane
Main category: cs.CV
TL;DR: InstructVTON是一个基于指令的交互式虚拟试穿系统,通过自然语言指导实现细粒度和复杂的样式控制,支持单件或多件服装的试穿。
- Motivation: 传统基于掩码的虚拟试穿方法存在局限性:生成理想掩码困难、需要专业知识、模型依赖性高,且无法处理某些复杂样式(如卷起袖子等)。
- Method: 利用视觉语言模型(VLMs)和图像分割模型自动生成二进制掩码,基于用户提供的图像和自由文本样式指令,无需精确绘制掩码,并自动化多轮图像生成。
- Result: InstructVTON与现有虚拟试穿模型兼容,实现了具有样式控制的最先进结果。
- Conclusion: 该系统简化了终端用户体验,解决了掩码方法无法实现的试穿场景,展示了指令驱动虚拟试穿的有效性。
[9] Innovative Deep Learning Architecture for Enhanced Altered Fingerprint Recognition
Dana A Abdullah,Dana Rasul Hamad,Bishar Rasheed Ibrahim,Sirwan Abdulwahid Aula,Aso Khaleel Ameen,Sabat Salih Hamadamin
Main category: cs.CV
TL;DR: DeepAFRNet是一个深度学习模型,用于识别被篡改的指纹,在SOCOFing数据集上针对不同难度级别取得了高准确率,但阈值选择对性能影响很大。
- Motivation: 指纹识别在边境控制、法医学和财政准入等应用中面临挑战,攻击者可能故意修改脊线模式以逃避检测,因此需要能够识别篡改指纹的鲁棒方法。
- Method: 使用VGG16主干网络提取高维特征,通过余弦相似度比较嵌入向量,在SOCOFing Real-Altered子集上评估,包含三个难度级别(简单、中等、困难)。
- Result: 在严格阈值下,DeepAFRNet在三个难度级别上的准确率分别为96.7%、98.76%和99.54%。阈值敏感性研究表明,将阈值从0.92放宽到0.72会导致准确率急剧下降至7.86%、27.05%和29.51%。
- Conclusion: DeepAFRNet通过使用真实篡改样本和报告每级指标,解决了基于合成篡改或有限验证协议的先前工作的局限性,表明其已准备好用于安全和识别弹性都至关重要的实际部署。
[10] Large Pre-Trained Models for Bimanual Manipulation in 3D
Hanna Yurchyk,Wei-Di Chang,Gregory Dudek,David Meger
Main category: cs.CV
TL;DR: 将预训练Vision Transformer的注意力图集成到体素表示中,以增强双手机器人操作性能
- Motivation: 利用自监督ViT模型的注意力图作为像素级显著性分数,为机器人操作提供语义线索
- Method: 从DINOv2提取注意力图,将其提升到3D体素网格中,并整合到行为克隆策略中
- Result: 在RLBench双手基准测试中,平均绝对提升8.2%,相对增益21.9%
- Conclusion: 注意力引导的特征化方法能显著提升体素基策略在双手操作任务中的性能
[11] A Comparative Benchmark of Real-time Detectors for Blueberry Detection towards Precision Orchard Management
Xinyang Mu,Yuzhen Lu,Boyang Deng
Main category: cs.CV
TL;DR: 本文对YOLO和RT-DETR系列共36个实时目标检测模型在蓝莓检测任务上进行了基准测试,使用包含85,879个标注实例的新数据集,并通过半监督学习进一步提升性能。
- Motivation: 自然环境中蓝莓检测面临光照变化、遮挡和运动模糊等挑战,需要开发能够在实际场景中平衡精度、速度和内存的检测模型。
- Method: 使用新构建的蓝莓数据集评估YOLO(v8-v12)和RT-DETR(v1-v2)系列模型,并采用无偏均值教师半监督学习方法在1,035张未标记图像上进行微调。
- Result: YOLOv12m达到93.3% mAP@50,RT-DETRv2-X达到93.6% mAP@50;经过半监督学习微调后,RT-DETR-v2-X达到最佳性能94.8% mAP@50。
- Conclusion: 中等规模模型在精度和速度之间提供了良好平衡,半监督学习能进一步提升性能,但需要更深入研究以更好地利用跨域未标记数据。
[12] Region-of-Interest Augmentation for Mammography Classification under Patient-Level Cross-Validation
Farbod Bigdeli,Mohsen Mohammadagha,Ali Bigdeli
Main category: cs.CV
TL;DR: 本文提出了一种轻量级的感兴趣区域(ROI)增强策略,用于改善乳腺X光片分类性能。通过在训练时概率性地用预计算的ROI裁剪替换完整图像,该方法在Mini-DDSM数据集上实现了适度的性能提升。
- Motivation: 乳腺X光筛查对早期检测和降低死亡率至关重要。深度学习在自动化乳腺X光片解读方面显示出强大潜力,但有限分辨率的数据集和小样本量限制了性能表现。
- Method: 引入轻量级ROI增强策略:在训练过程中,完整图像以概率方式被从预计算的、无标签的边界框库中随机采样的ROI裁剪替换,可选抖动以增加变异性。该方法仅在训练时使用,推理成本保持不变。
- Result: 在Mini-DDSM数据集上,ROI增强(最佳参数:p_roi = 0.10, alpha = 0.10)产生了适度的平均ROC-AUC增益,但性能在不同折叠间有变化;PR-AUC持平或略有下降。训练效率指标(吞吐量和GPU内存)得到评估。
- Conclusion: 结果表明,简单、以数据为中心的ROI策略可以在不要求额外标签或架构修改的受限设置中增强乳腺X光片分类性能。
[13] Reflect3r: Single-View 3D Stereo Reconstruction Aided by Mirror Reflections
Jing Wu,Zirui Wang,Iro Laina,Victor Adrian Prisacariu
Main category: cs.CV
TL;DR: 利用镜子反射作为辅助视图,通过物理有效的虚拟相机变换实现单图像多视角立体视觉,简化成像过程并实现可泛化的3D重建
- Motivation: 镜子反射在日常环境中常见,能提供单次拍摄中的立体信息,通过利用反射作为辅助视图可以简化3D重建过程
- Method: 设计物理有效的虚拟相机变换,直接生成像素域虚拟视图;提出对称感知损失优化姿态估计;框架可扩展到动态场景
- Result: 在真实世界和合成数据上的广泛实验证明了方法的有效性,提供了包含16个Blender场景的可定制合成数据集
- Conclusion: 该方法能够从单张包含镜子反射的图像实现稳健的3D重建,简化了成像过程并兼容前馈重建模型
[14] Recov-Vision: Linking Street View Imagery and Vision-Language Models for Post-Disaster Recovery
Yiming Xiao,Archit Gupta,Miguel Esparza,Yu-Hsuan Ho,Antonia Sebastian,Hannah Weas,Rose Houck,Ali Mostafavi
Main category: cs.CV
TL;DR: FacadeTrack是一个街景级语言引导框架,通过全景视频连接地块、校正立面视图,提取可解释属性来评估灾后建筑可居住性,采用透明的一阶段规则和两阶段设计,在飓风Helene后调查中表现出色。
- Motivation: 灾后建筑可居住性评估对分类、检查、公用事业恢复和资源分配至关重要。高空图像覆盖快但缺少立面细节,街景图像有细节但稀疏且难以与地块对齐。
- Method: 提出FacadeTrack框架:链接全景视频到地块,校正立面视图,提取可解释属性(如入口堵塞、临时覆盖物、局部碎片),采用一阶段规则和两阶段决策策略(分离感知与保守推理)。
- Result: 在两次飓风Helene后调查中,两阶段方法达到精度0.927、召回率0.781、F-1分数0.848;一阶段基线为精度0.943、召回率0.728、F-1分数0.822。中间属性和空间诊断揭示了错误来源。
- Conclusion: 该管道提供可审计、可扩展的占用评估,适合集成到地理空间和应急管理工作流程中,通过针对性质量控制提高评估准确性。
[15] Human Semantic Representations of Social Interactions from Moving Shapes
Yiling Yun,Hongjing Lu
Main category: cs.CV
TL;DR: 人类在观察简单运动形状时能够识别社会互动,研究发现语义表征(特别是基于动词的嵌入)比视觉特征更能解释人类的社会感知相似性判断。
- Motivation: 探索人类在识别社会互动时除了视觉特征外还使用哪些语义表征,以理解社会感知的认知机制。
- Method: 研究1:直接让参与者标记运动形状动画的印象;研究2:通过人类相似性判断测量27种社会互动的表征几何,并与基于视觉特征、标签和语义嵌入的模型预测进行比较。
- Result: 语义模型为解释人类判断提供了视觉特征之外的补充信息,其中从描述中提取的基于动词的嵌入最能解释人类相似性判断。
- Conclusion: 简单显示中的社会感知反映了社会互动的语义结构,在视觉和抽象表征之间建立了桥梁。
[16] Enhancing Cross-View Geo-Localization Generalization via Global-Local Consistency and Geometric Equivariance
Xiaowei Wang,Di Wang,Ke Li,Yifeng Wang,Chengjian Wang,Libin Sun,Zhihong Wu,Yiming Zhang,Quan Wang
Main category: cs.CV
TL;DR: 本文提出EGS框架,通过E(2)-Steerable CNN编码器和带虚拟超级节点的图结构,解决跨视角地理定位中的旋转鲁棒性和全局-局部一致性挑战。
- Motivation: 解决跨视角地理定位中因无人机不同方向和视场导致的严重外观变化问题,以及建立可靠的全局语义和局部细节对应关系。
- Method: 使用E(2)-Steerable CNN编码器提取旋转稳定的特征,构建带虚拟超级节点的图结构实现全局语义聚合和局部一致性。
- Result: 在University-1652和SUES-200基准测试中取得显著性能提升,建立了跨域CVGL的新最优结果。
- Conclusion: EGS框架有效提升了跨视角地理定位的跨域泛化能力,通过旋转不变特征和全局-局部一致性机制实现了state-of-the-art性能。
[17] DENet: Dual-Path Edge Network with Global-Local Attention for Infrared Small Target Detection
Jiayi Zuo,Songwei Pei,Qian Li
Main category: cs.CV
TL;DR: 提出了一种双路径边缘网络,通过解耦边缘增强和语义建模来解决红外小目标检测中高分辨率空间细节与鲁棒语义上下文之间的冲突问题
- Motivation: 红外小目标缺乏明显纹理特征,容易与复杂背景混淆。现有方法使用固定梯度算子或简单注意力机制,在低对比度和高噪声环境下难以准确提取目标边缘
- Method: 双路径网络:第一条路径使用双向交互模块(局部自注意力和全局自注意力)捕获多尺度特征依赖;第二条路径使用多边缘细化器,通过级联泰勒有限差分算子增强精细边缘细节
- Result: 该方法结合结构语义和边缘细化,为精确红外小目标检测和定位提供了有前景的解决方案
- Conclusion: 提出的统一框架有效解决了红外小目标检测中的特征对齐问题,在复杂背景下实现了精确的目标检测和定位
[18] Beyond the Individual: Introducing Group Intention Forecasting with SHOT Dataset
Ruixu Zhang,Yuran Wang,Xinyi Hu,Chaoyu Mai,Wenxuan Liu,Danni Xu,Xian Zhong,Zheng Wang
Main category: cs.CV
TL;DR: 该论文提出了群体意图预测(GIF)的新任务,构建了首个大规模篮球数据集SHOT,并开发了GIFT框架来预测群体意图的出现时机。
- Motivation: 传统意图识别主要关注个体意图,忽略了群体环境中集体意图的复杂性,需要研究群体意图的预测问题。
- Method: 提出SHOT数据集(包含1,979个篮球视频片段,5个摄像机视角,6种个体属性标注)和GIFT框架(提取细粒度个体特征并建模群体动态)。
- Result: 实验证实了SHOT数据集和GIFT框架的有效性,为群体意图预测研究建立了坚实基础。
- Conclusion: 该研究开创了群体意图预测的新方向,提供了数据集和框架支持,为未来研究奠定了基础。
[19] Neptune-X: Active X-to-Maritime Generation for Universal Maritime Object Detection
Yu Guo,Shengfeng He,Yuxu Lu,Haonan An,Yihang Tao,Huilin Zhu,Jingxian Liu,Yuguang Fang
Main category: cs.CV
TL;DR: Neptune-X是一个数据中心的生成-选择框架,通过合成数据生成和任务感知样本选择来解决海事目标检测中的数据稀缺和泛化能力差的问题。
- Motivation: 海事目标检测面临两个关键挑战:标注数据稀缺以及在不同海事属性(如目标类别、视角、位置和成像环境)上的泛化能力差。现有数据集训练的模型在代表性不足的场景(如开阔海域环境)中表现不佳。
- Method: 提出Neptune-X框架,包含两个核心组件:1)X-to-Maritime多模态条件生成模型,通过双向目标-水域注意力模块捕捉对象与水域环境的边界交互;2)属性相关主动采样方法,动态选择任务相关的合成样本。
- Result: 实验表明该方法在海事场景合成方面设立了新基准,显著提高了检测精度,特别是在具有挑战性和先前代表性不足的场景中。
- Conclusion: Neptune-X通过数据中心的生成-选择方法有效解决了海事目标检测中的数据稀缺和泛化问题,为海事视觉任务提供了新的解决方案。
[20] AI-Enabled Crater-Based Navigation for Lunar Mapping
Sofia McLeod,Chee-Kheng Chng,Matthew Rodda,Tat-Jun Chin
Main category: cs.CV
TL;DR: STELLA是首个用于长期月球测绘的端到端陨石坑导航系统,结合了Mask R-CNN陨石坑检测器、无描述符识别模块、鲁棒姿态求解器和批量轨道确定后端,在模拟一年月球任务的CRESENT-365数据集上实现了米级位置精度和亚度级姿态精度。
- Motivation: 现有陨石坑导航主要研究短时动力下降任务,而月球测绘任务涉及稀疏、倾斜图像采集,在变化光照条件下持续数月甚至一年,对姿态估计提出了更大挑战。
- Method: STELLA整合了Mask R-CNN陨石坑检测器、无描述符陨石坑识别模块、鲁棒透视n点姿态求解器和批量轨道确定后端。
- Result: 在CRESENT+和CRESENT-365数据集上的实验表明,STELLA在各种视角、光照条件和月球纬度下平均保持米级位置精度和亚度级姿态精度。
- Conclusion: 这是首次在真实月球测绘环境下对陨石坑导航进行全面评估,为未来任务的操作条件提供了参考。
[21] Seeing Through Words, Speaking Through Pixels: Deep Representational Alignment Between Vision and Language Models
Zoe Wanying He,Sean Trott,Meenakshi Khosla
Main category: cs.CV
TL;DR: 本文研究了单模态视觉和语言模型在表示空间中的对齐现象,发现这种对齐出现在模型的中后层,反映了从模态特定到概念共享表示的转变。对齐对仅外观变化具有鲁棒性,但在语义改变时会崩溃。人类在图像-文本匹配中的偏好与模型嵌入空间中的对齐一致,且通过示例聚合可以增强对齐。
- Motivation: 尽管深度视觉和语言模型在不相交的模态上训练,但它们将输入投影到部分对齐的表示空间中。然而,我们仍不清楚这种对齐在网络的哪个位置出现,支持它的视觉或语言线索是什么,它是否捕捉了人类在多对多图像-文本场景中的偏好,以及聚合同一概念的示例如何影响对齐。
- Method: 系统研究了上述问题,包括分析对齐在模型各层的出现位置、测试对齐对外观和语义变化的鲁棒性、使用强制选择的“Pick-a-Pic”任务比较人类偏好与模型嵌入空间的对齐,以及研究示例聚合对对齐的影响。
- Result: 对齐在两种模型类型的中后层达到峰值;对齐对仅外观变化具有鲁棒性,但在语义改变(如对象移除或词序打乱)时崩溃;人类对图像-文本匹配的偏好与所有视觉-语言模型对的嵌入空间中的对齐一致;平均跨示例的嵌入增强了对齐而不是模糊细节。
- Conclusion: 单模态网络收敛于一个共享的语义代码,该代码与人类判断一致,并通过示例聚合得到加强。
[22] FreeInsert: Personalized Object Insertion with Geometric and Style Control
Yuhong Zhang,Han Wang,Yiwen Wang,Rong Xie,Li Song
Main category: cs.CV
TL;DR: FreeInsert是一个无需训练的图像编辑框架,通过利用3D几何信息将对象插入任意场景,解决了现有方法在几何控制和风格一致性方面的局限性。
- Motivation: 现有图像编辑方法在个性化图像合成任务中存在三个主要问题:缺乏对插入对象的几何控制、风格一致性不足以及需要大量训练。这些问题限制了图像编辑的精确性和真实感。
- Method: 首先将2D对象转换为3D,在3D层面进行交互式编辑,然后从指定视角重新渲染为2D图像。结合扩散适配器实现风格和内容控制,通过扩散模型生成几何可控、风格一致的编辑图像。
- Result: 该方法能够实现对插入对象的精确几何控制(如形状和视角),同时保持与背景的风格一致性,无需进行大量训练即可实现高质量的个性化图像合成。
- Conclusion: FreeInsert通过引入3D几何信息有效解决了现有图像编辑方法的局限性,为个性化图像合成提供了更精确的控制和更好的真实感,是一个高效且实用的训练免费解决方案。
[23] CusEnhancer: A Zero-Shot Scene and Controllability Enhancement Method for Photo Customization via ResInversion
Maoye Ren,Praneetha Vaddamanu,Jianjin Xu,Fernando De la Torre Frade
Main category: cs.CV
TL;DR: CustomEnhancer是一个增强现有身份定制模型的零样本框架,通过三流融合生成方法统一生成和重建过程,实现训练自由的个性化控制,并引入ResInversion方法大幅降低反演时间。
- Motivation: 解决当前文本到图像扩散模型在合成真实人类照片时面临的场景退化、控制不足和感知身份不理想的问题。
- Method: 提出CustomEnhancer框架,利用人脸交换技术和预训练扩散模型获取额外表示;采用三流融合生成方法结合两个兼容的反向潜在空间;引入ResInversion方法通过预扩散机制进行噪声校正。
- Result: 实验表明CustomEnhancer在场景多样性、身份保真度和训练自由控制方面达到最先进水平,ResInversion比NTI方法快129倍。
- Conclusion: CustomEnhancer框架有效提升了身份定制模型的性能,实现了高效且可控的个性化生成。
[24] CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks
Hyomin Choi,Heeji Han,Chris Rosewarne,Fabien Racapé
Main category: cs.CV
TL;DR: CompressAI-Vision是一个为计算机视觉任务优化的视频压缩评估平台,支持远程和分割推理两种场景,旨在保持任务精度的同时高效压缩视觉网络输入数据。
- Motivation: 随着基于神经网络的计算机视觉应用日益增多,需要专门针对视觉任务优化的视频压缩技术。由于视觉任务、模型和数据集的多样性,需要一个统一的平台来评估面向下游视觉任务的压缩方法。
- Method: 开发了CompressAI-Vision作为综合评估平台,整合标准编解码器,通过比特率与任务精度的权衡来评估压缩效果,支持远程推理和分割推理两种场景。
- Result: 该平台展示了在不同数据集上的压缩增益评估,已被MPEG采纳用于开发FCM标准,并作为开源软件公开发布。
- Conclusion: CompressAI-Vision为计算机视觉任务优化的视频压缩技术提供了标准化的评估框架,促进了相关标准的发展和应用。
[25] Dual-supervised Asymmetric Co-training for Semi-supervised Medical Domain Generalization
Jincai Song,Haipeng Chen,Jun Qin,Na Zhao
Main category: cs.CV
TL;DR: 本文提出了一种针对跨域半监督领域泛化(CD-SSDG)问题的双监督非对称协同训练框架,解决了医学图像分割中标注数据有限和领域偏移的挑战。
- Motivation: 传统半监督领域泛化方法假设每个源域都有标注和未标注数据,但实际应用中标注和未标注数据之间也存在领域偏移,现有方法在这种跨域场景下性能不佳。
- Method: 提出DAC框架,基于双子模型协同训练,集成了特征级监督和非对称辅助任务,通过特征空间互补监督解决伪标签不准确问题,并增强领域不变特征学习。
- Result: 在Fundus、Polyp和SCGM等真实医学图像分割数据集上的实验表明,该框架具有强大的泛化能力。
- Conclusion: DAC框架有效解决了CD-SSDG问题,为医学图像分割中的领域偏移和标注成本挑战提供了实用解决方案。
[26] Real-Time Object Detection Meets DINOv3
Shihua Huang,Yongjie Hou,Longfei Liu,Xuanlong Yu,Xi Shen
Main category: cs.CV
TL;DR: DEIMv2是基于DEIM框架的改进版本,通过集成DINOv3特征和引入空间调谐适配器(STA),在不同规模模型上实现了优越的性能-成本平衡,在目标检测任务上建立了新的SOTA结果。
- Motivation: 扩展DEIM框架以利用DINOv3特征的强大语义表示能力,同时满足从GPU到移动设备的不同部署场景需求,实现更好的性能-成本权衡。
- Method: 1. 对于X/L/M/S模型:采用DINOv3预训练或蒸馏骨干网络,引入STA将单尺度输出转换为多尺度特征;2. 对于超轻量模型:使用HGNetv2并进行深度和宽度剪枝,配合简化解码器和升级的Dense O2O。
- Result: DEIMv2-X仅用50.3M参数达到57.8 AP,超越需要60M+参数的同类模型;DEIMv2-S成为首个突破50 AP里程碑的sub-10M模型(9.71M参数,50.9 AP);DEIMv2-Pico仅用1.5M参数实现38.5 AP,性能与YOLOv10-Nano相当但参数减少50%。
- Conclusion: DEIMv2通过统一的设计框架在不同规模模型上均实现了卓越的性能表现,特别是在参数效率方面显著优于现有方法,为目标检测任务提供了从高端到轻量级的全面解决方案。
[27] DAC-LoRA: Dynamic Adversarial Curriculum for Efficient and Robust Few-Shot Adaptation
Ved Umrajkar
Main category: cs.CV
TL;DR: 提出了DAC-LoRA框架,将对抗训练集成到参数高效微调中,通过动态对抗课程提升视觉语言模型的鲁棒性
- Motivation: 视觉语言模型在关键应用中的安全性至关重要,虽然PEFT方法如LoRA能高效适配专门任务,但这些模型仍易受对抗攻击影响,可能危及安全关键决策
- Method: 基于一阶平稳条件和TRADES启发损失,设计动态对抗课程,逐步增加攻击难度,可集成到标准PEFT流程中
- Result: 在不显著影响干净准确率的情况下,显著提升了对抗鲁棒性
- Conclusion: DAC-LoRA是轻量级、广泛适用的方法,能有效增强视觉语言模型的鲁棒性
[28] Federated Domain Generalization with Domain-specific Soft Prompts Generation
Jianhan Wu,Xiaoyang Qu,Zhangcheng Huang,Jianzong Wang
Main category: cs.CV
TL;DR: 本文提出了一种名为FedDSPG的新方法,通过生成域特定软提示来处理联邦领域泛化任务,在多个公共数据集上实现了最先进的结果。
- Motivation: 现有的基于提示学习的联邦领域泛化方法学习的提示多样性有限,且容易忽略未知领域的信息。
- Method: 在训练阶段为每个领域引入域特定软提示,将内容和领域知识整合到客户端间的生成模型中;在推理阶段利用生成器获取未见目标领域的DSPs。
- Result: 在多个公共数据集上的综合评估证实,该方法在联邦领域泛化任务中优于现有强基线方法。
- Conclusion: 从生成视角提出的FedDSPG方法能有效处理联邦领域泛化任务,实现了最先进的性能。
[29] Revolutionizing Precise Low Back Pain Diagnosis via Contrastive Learning
Thanh Binh Le,Hoang Nhat Khang Vo,Tan-Ha Mai,Trong Nhan Phan
Main category: cs.CV
TL;DR: LumbarCLIP是一个多模态框架,利用对比学习将腰椎MRI图像与放射学报告对齐,在分类任务上达到95%准确率。
- Motivation: 全球数百万人受腰痛困扰,需要能够同时分析复杂医学图像和文本报告的诊断模型。
- Method: 基于对比语言-图像预训练,整合视觉编码器(ResNet-50、ViT、Swin)和BERT文本编码器,通过可学习的投影头将特征映射到共享嵌入空间,使用软CLIP损失进行训练。
- Result: 在测试集上达到95.00%准确率和94.75% F1分数,消融研究表明线性投影头比非线性变体更有效。
- Conclusion: LumbarCLIP为自动化肌肉骨骼诊断和临床决策支持提供了有前景的基础。
[30] Poisoning Prompt-Guided Sampling in Video Large Language Models
Yuxin Cao,Wei Song,Jingling Xue,Jin Song Dong
Main category: cs.CV
TL;DR: PoisonVID是首个针对VideoLLMs中提示引导采样策略的黑盒中毒攻击,通过闭环优化策略在三个先进VideoLLMs上实现82%-99%的攻击成功率
- Motivation: 虽然早期采样策略的漏洞已被发现,但提示引导采样策略的安全性尚未被探索,需要填补这一研究空白
- Method: 采用闭环优化策略,通过从有害描述构建的描述集指导,迭代优化通用扰动来抑制有害帧相关性分数,利用影子VideoLLM和轻量级语言模型GPT-4o-mini
- Result: 在三种提示引导采样策略和三个先进VideoLLMs上全面评估,攻击成功率达到82%-99%
- Conclusion: PoisonVID攻击的成功凸显了为VideoLLMs开发未来先进采样策略的重要性
[31] Punching Above Precision: Small Quantized Model Distillation with Learnable Regularizer
Abdur Rehman,S M A Sharif,Md Abdur Rahaman,Mohamed Jismy Aashik Rasool,Seongwan Kim,Jaeho Lee
Main category: cs.CV
TL;DR: GoR是一种新颖的可学习正则化方法,通过动态损失加权自适应平衡任务特定和知识蒸馏目标,解决低比特量化下QAT-KD方法中梯度幅度异质性问题。
- Motivation: 现有QAT-KD方法在低比特量化下难以平衡任务特定损失和蒸馏损失,由于异质梯度幅度导致性能受限。
- Method: 提出Game of Regularizer (GoR)方法,仅使用两个可训练参数进行动态损失加权,减少监督信号冲突;同时引入QAT-EKD-GoR集成蒸馏框架,利用多个异构教师模型。
- Result: 在图像分类、目标检测和LLM压缩任务上,GoR持续优于最先进的QAT-KD方法,在低功耗边缘设备上实现更快推理同时保持全精度准确率。
- Conclusion: GoR为现实世界部署提供了稳健解决方案,在最优条件下EKD-GoR甚至可以超越全精度模型性能。
[32] Plant identification based on noisy web data: the amazing performance of deep learning (LifeCLEF 2017)
Herve Goeau,Pierre Bonnet,Alexis Joly
Main category: cs.CV
TL;DR: LifeCLEF 2017植物识别挑战评估了从网络收集的大型噪声训练数据集与专家验证的小型可信训练数据集在10,000种植物物种识别任务中的性能对比
- Motivation: 尽管有机构性植物图像数据库,但大多数植物物种仍缺乏图片或图片质量差。网络上有大量植物图片,但存在标签错误。研究旨在评估噪声网络数据能否替代专家验证数据
- Method: 使用两个训练数据集:大型网络收集数据集(含标签错误)和小型专家验证数据集。测试数据来自第三方Pl@ntNet移动应用。通过挑战赛形式评估不同训练策略的性能
- Result: 挑战赛评估了不同研究组的方法和系统,分析了大规模噪声训练数据与小型可信训练数据的竞争效果
- Conclusion: 该研究为大规模植物识别系统提供了重要基准,探讨了网络噪声数据在植物识别中的潜力和局限性
[33] TasselNetV4: A vision foundation model for cross-scene, cross-scale, and cross-species plant counting
Xiaonan Hu,Xuebing Li,Jinyu Xu,Abdulkadir Duran Adan,Letian Zhou,Xuhui Zhu,Yanan Li,Wei Guo,Shouyang Liu,Wenzhong Liu,Hao Lu
Main category: cs.CV
TL;DR: 本文提出TasselNetV4模型,将植物计数从物种特定计数转向跨物种计数,结合了TasselNet的局部计数思想和类无关计数的提取-匹配范式,在跨场景、跨尺度和跨物种植物计数方面表现出色。
- Motivation: 植物具有生物多样性,每年都有新品种被培育,无法穷尽所有物种建立依赖物种的计数模型。现有类无关计数模型对植物的非刚性结构和动态变化适应性差,需要重新思考植物计数的问题表述。
- Method: 基于普通视觉Transformer构建TasselNetV4,结合TasselNet的局部计数思想和类无关计数的提取-匹配范式,引入多分支框感知局部计数器以增强跨尺度鲁棒性。
- Result: 在PAC-105和PAC-Somalia两个挑战性数据集上的实验表明,TasselNetV4不仅实现了优异的计数性能,还具有高效率。
- Conclusion: TasselNetV4成为跨场景、跨尺度和跨物种植物计数的视觉基础模型,为农业应用提供了有效的解决方案。
[34] SD-RetinaNet: Topologically Constrained Semi-Supervised Retinal Lesion and Layer Segmentation in OCT
Botond Fazekas,Guilherme Aresta,Philipp Seeböck,Julia Mai,Ursula Schmidt-Erfurth,Hrvoje Bogunović
Main category: cs.CV
TL;DR: 提出了一种新颖的半监督模型,通过引入完全可微的生物标志物拓扑引擎来确保视网膜OCT图像中层和病变的解剖学正确分割,解决了现有方法产生解剖学不合理分割的问题。
- Motivation: 现有半监督学习方法在视网膜OCT图像分割中经常产生解剖学不合理的分割结果,无法有效建模层与病变之间的相互作用,且缺乏拓扑正确性保证。
- Method: 开发了包含完全可微分生物标志物拓扑引擎的半监督模型,实现层与病变的双向影响联合学习,并学习解耦的空间和风格因子表示。
- Result: 在公共和内部OCT数据集上的评估表明,该方法在病变和层分割方面均优于当前最先进方法,并能使用部分标注数据将层分割泛化到病理情况。
- Conclusion: 研究证明了在半监督学习中使用解剖约束进行准确、鲁棒和可信赖的视网膜生物标志物分割的潜力。
[35] Plant identification in an open-world (LifeCLEF 2016)
Herve Goeau,Pierre Bonnet,Alexis Joly
Main category: cs.CV
TL;DR: LifeCLEF 2016植物识别挑战赛在大规模数据集上评估植物识别方法,主要创新是将识别任务作为开放集识别问题,要求系统对未知类别具有鲁棒性。
- Motivation: 评估在接近真实生物多样性监测场景条件下的大规模植物识别方法,特别是处理未知植物类别的能力。
- Method: 使用包含11万张图像、1000种西欧植物的数据集,将识别任务构建为开放集识别问题,要求系统在分类已知类别的同时自动拒绝未知类别的误分类。
- Result: 挑战赛成功评估了多种植物识别系统在开放集识别场景下的性能,分析了不同方法处理未知类别的效果。
- Conclusion: LifeCLEF 2016挑战赛为大规模植物识别和开放集识别问题提供了重要基准,推动了相关技术的发展。
[36] SCRA-VQA: Summarized Caption-Rerank for Augmented Large Language Models in Visual Question Answering
Yan Zhang,Jiaqing Lin,Miao Zhang,Kui Xiao,Xiaoju Hou,Yue Zhao,Zhifei Li
Main category: cs.CV
TL;DR: SCRA-VQA是一种基于知识库的视觉问答方法,通过使用预训练的视觉语言模型生成图像描述,并对描述进行总结和重排序以去除无关信息,从而提升大型语言模型在VQA任务中的推理能力。
- Motivation: 现有方法使用大型语言模型作为知识引擎,但图像描述中常包含与问题无关的噪声,且LLMs通常不理解VQA任务,限制了其推理能力。
- Method: 提出SCRA-VQA框架:使用预训练视觉语言模型生成图像描述,同时为描述生成上下文示例,并对描述进行总结和重排序以排除无关信息。
- Result: 在OK-VQA和A-OKVQA两个挑战性数据集上,基于6.7B参数的LLM,分别达到38.8%和34.6%的准确率。
- Conclusion: SCRA-VQA通过描述重排序过程使LLMs更好地理解图像信息和问题,增强了模型的推理能力和任务适应性,无需昂贵的端到端训练。
[37] The Unanticipated Asymmetry Between Perceptual Optimization and Assessment
Jiabei Zhang,Qi Wang,Siyu Wu,Du Chen,Tianhe Wu
Main category: cs.CV
TL;DR: 本文揭示了感知优化与评估之间的不对称性:在图像质量评估中表现优秀的保真度指标不一定适用于感知优化,这种错位在对抗训练下更为明显。
- Motivation: 探索感知优化目标(保真度和对抗性目标)作为优化目标的有效性与作为图像质量评估指标能力之间的相关性,这一领域尚未得到充分研究。
- Method: 通过系统分析,比较不同保真度指标在感知优化和图像质量评估中的表现,并研究判别器设计对优化的影响。
- Result: 发现保真度指标在优化和评估中存在不对称性;判别器设计对优化效果起决定性作用,补丁级和卷积架构比传统或基于Transformer的替代方案提供更准确的细节重建。
- Conclusion: 这些发现推进了对损失函数设计及其与图像质量评估可迁移性联系的理解,为更原则性的感知优化方法铺平了道路。
[38] Integrating Object Interaction Self-Attention and GAN-Based Debiasing for Visual Question Answering
Zhifei Li,Feng Qiu,Yiran Wang,Yujing Xia,Kui Xiao,Miao Zhang,Yan Zhang
Main category: cs.CV
TL;DR: IOG-VQA模型通过集成对象交互自注意力和GAN去偏技术,有效解决VQA任务中的数据偏见问题,提升模型性能。
- Motivation: 现有VQA模型容易受到训练数据偏见的影响,过度依赖表面模式,难以泛化到多样化的问答场景。
- Method: 提出IOG-VQA模型,结合对象交互自注意力机制捕获图像中物体间的复杂关系,并使用GAN框架生成无偏见数据分布来学习更鲁棒的特征。
- Result: 在VQA-CP v1和v2数据集上的实验表明,该模型在处理偏见和不平衡数据分布方面表现优异,优于现有方法。
- Conclusion: 同时处理对象交互和数据集偏见对于推进VQA任务至关重要,IOG-VQA为此提供了有效解决方案。
[39] Nuclear Diffusion Models for Low-Rank Background Suppression in Videos
Tristan S. W. Stevens,Oisín Nolan,Jean-Luc Robert,Ruud J. G. van Sloun
Main category: cs.CV
TL;DR: 本文提出了一种结合低秩时间建模和扩散后验采样的混合框架(Nuclear Diffusion),用于解决视频序列中的结构化噪声和背景伪影问题,在心脏超声去雾任务中表现出优于传统RPCA方法的性能。
- Motivation: 视频序列中常存在结构化噪声和背景伪影,这些会掩盖动态内容,给准确分析和恢复带来挑战。传统的鲁棒主成分分析方法基于稀疏性假设,但这一假设往往无法捕捉真实视频数据中丰富的变异性。
- Method: 提出了一种混合框架,将低秩时间建模与扩散后验采样相结合。该方法名为Nuclear Diffusion,通过整合基于模型的时间模型和深度生成先验来实现高保真视频恢复。
- Result: 在真实世界医学成像问题(心脏超声去雾)上的评估表明,该方法在对比度增强(gCNR)和信号保持(KS统计量)方面相比传统RPCA方法表现出改进的去雾性能。
- Conclusion: 研究结果突显了将基于模型的时间模型与深度生成先验相结合在高保真视频恢复方面的潜力,为处理复杂视频噪声问题提供了新的解决方案。
[40] FerretNet: Efficient Synthetic Image Detection via Local Pixel Dependencies
Shuqiao Liang,Jian Liu,Renzhang Chen,Quanlong Guan
Main category: cs.CV
TL;DR: 该论文提出FerretNet,一种轻量级神经网络,通过分析生成过程中引入的潜在分布偏差和解码诱导平滑效应来检测合成图像,在22个生成模型的开放世界基准测试中达到97.1%的平均准确率。
- Motivation: 随着VAE、GAN和LDM等先进模型生成的合成图像越来越逼真,合成图像检测面临重大挑战。论文旨在解决这一问题。
- Method: 利用马尔可夫随机场的局部像素依赖特性,重建合成图像以暴露纹理连续性和边缘一致性的破坏。基于此提出FerretNet,一个仅有110万参数的轻量级神经网络。
- Result: FerretNet仅在4类ProGAN数据集上训练,在包含22个生成模型的开放世界基准测试中达到97.1%的平均准确率,比现有最优方法高出10.6%。
- Conclusion: FerretNet提供了一种高效且鲁棒的合成图像检测方法,在跨模型泛化能力方面表现出色,为合成图像检测提供了新的解决方案。
[41] Concepts in Motion: Temporal Bottlenecks for Interpretable Video Classification
Patrick Knab,Sascha Marton,Philipp J. Schubert,Drago Guggiana,Christian Bartelt
Main category: cs.CV
TL;DR: MoTIF是一个基于概念瓶颈模型的可解释视频分类框架,通过处理任意长度视频序列来捕捉时间依赖关系,提供全局概念重要性、局部概念相关性和时间依赖性的多视角解释。
- Motivation: 将概念瓶颈模型从静态图像扩展到视频序列时面临时间依赖性的挑战,需要捕捉视频中的动作和事件的时间动态。
- Method: 基于Transformer架构设计MoTIF框架,处理任意长度视频序列,将概念定义为跨时间重复出现的语义实体(如对象、属性、动作组件),形成描述动作的motif模式。
- Result: 概念建模范式可以有效地迁移到视频数据,在保持竞争力的性能的同时,更好地理解时间上下文中概念的贡献。
- Conclusion: MoTIF成功地将概念瓶颈框架扩展到视频分类,提供了多视角的时间可解释性,为视频理解中的概念贡献分析提供了有效工具。
[42] FSMODNet: A Closer Look at Few-Shot Detection in Multispectral Data
Manuel Nkegoum,Minh-Tan Pham,Élisa Fromont,Bruno Avignon,Sébastien Lefèvre
Main category: cs.CV
TL;DR: FSMODNet是一个用于少样本多光谱目标检测的框架,通过跨模态特征整合和可变形注意力机制,在有限标注数据下提升可见光和热成像模态的目标检测性能。
- Motivation: 解决在可见光和热成像模态下,使用少量标注数据进行目标检测的挑战,特别是在复杂光照和环境条件下的适应性需求。
- Method: 提出FSMODNet框架,利用可变形注意力机制有效整合可见光和热成像图像的特征,实现跨模态特征融合。
- Result: 在两个公开数据集上的实验结果表明,该方法在低数据量情况下实现了有效的目标检测性能,优于从最先进模型建立的多个基线方法。
- Conclusion: FSMODNet通过跨模态特征整合展示了在复杂条件下对少样本多光谱目标检测的鲁棒适应性,为解决有限标注数据下的多模态检测问题提供了有效方案。
[43] Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences
Julius Pesonen,Arno Solin,Eija Honkavaara
Main category: cs.CV
TL;DR: 提出使用粒子滤波器解决基于相机测量的3D物体定位问题,特别适用于无人机野火监测等安全关键任务
- Motivation: 在远距离物体或计算资源受限的任务中,传统的密集深度估计或3D场景重建方法不可行,需要一种更高效的定位解决方案
- Method: 使用粒子滤波器处理单目标和多目标场景,结合GNSS相机姿态估计和图像分割序列进行3D定位
- Result: 通过3D仿真和基于无人机的图像分割序列验证,粒子滤波器能在其他方法失效的情况下有效解决实际定位任务
- Conclusion: 粒子滤波器独立于检测方法,具有灵活性,可与现有图像分割模型结合用于无人机野火监测
[44] SwinMamba: A hybrid local-global mamba framework for enhancing semantic segmentation of remotely sensed images
Qinfeng Zhu,Han Li,Liang He,Lei Fan
Main category: cs.CV
TL;DR: 提出SwinMamba框架,结合局部Mamba扫描和全局感受野,解决Vision Mamba在遥感图像语义分割中忽略局部特征的问题,在LoveDA和ISPRS Potsdam数据集上表现优于现有方法。
- Motivation: 遥感图像语义分割面临高空间分辨率、复杂场景结构和多尺度对象等挑战。Vision Mamba虽然具有全局感受野和低计算复杂度,但依赖全局扫描会忽略纹理和边缘等关键局部特征,影响分割精度。
- Method: 受Swin Transformer启发,SwinMamba在移位窗口内集成局部Mamba式扫描与全局感受野。前两个阶段执行局部扫描捕获细节,后两个阶段利用全局扫描融合上下文信息。重叠移位窗口增强区域间信息交换。
- Result: 在LoveDA和ISPRS Potsdam数据集上的大量实验表明,SwinMamba优于最先进的方法。
- Conclusion: SwinMamba通过有效结合局部和全局特征感知,为遥感图像语义分割提供了优越的解决方案,展示了其有效性和潜力。
[45] Revisiting Data Challenges of Computational Pathology: A Pack-based Multiple Instance Learning Framework
Wenhao Tang,Heng Fang,Ge Wu,Xiang Li,Ming-Ming Cheng
Main category: cs.CV
TL;DR: 提出了一种基于打包的多实例学习框架,用于解决计算病理学中全切片图像序列长度极端变化、数据冗余和有限监督的问题,通过打包采样、残差分支和注意力下采样器实现高效训练。
- Motivation: 计算病理学中的全切片图像具有极长的序列长度(高达20万)、显著的长度变化和有限的监督,导致数据异构性和冗余性高,传统方法在有限监督下难以有效处理这些挑战。
- Method: 提出打包多实例学习框架:1)将采样的变长特征序列打包成固定长度序列以支持批处理训练;2)引入残差分支将多个切片丢弃的特征组合成超切片进行多切片监督;3)使用注意力驱动下采样器压缩特征减少冗余。
- Result: 在PANDA(UNI)数据集上实现了高达8%的准确率提升,同时仅使用12%的训练时间,显著提高了训练效率和性能。
- Conclusion: 通过有效解决计算病理学中的数据挑战,该方法展示了在基础模型时代处理计算病理学问题的巨大潜力,代码已开源。
[46] SimDiff: Simulator-constrained Diffusion Model for Physically Plausible Motion Generation
Akihisa Watanabe,Jiawei Ren,Li Siyao,Yichen Peng,Erwin Wu,Edgar Simo-Serra
Main category: cs.CV
TL;DR: SimDiff是一种模拟器约束的扩散模型,通过将环境参数直接集成到去噪过程中,无需在推理时重复调用模拟器即可高效生成物理合理的人类运动。
- Motivation: 现有方法通常将基于模拟器的运动投影层整合到扩散过程中以确保物理合理性,但由于模拟器的顺序性质,这些方法计算成本高昂且无法并行化。
- Method: 将基于模拟器的运动投影解释为扩散过程中的一种引导形式,提出SimDiff模型,通过条件化环境参数(如重力、风力)直接集成到去噪过程中。
- Result: SimDiff能够高效生成物理合理的运动,无需推理时的重复模拟器调用,并提供对不同物理系数的细粒度控制。
- Conclusion: SimDiff成功泛化到未见过的环境参数组合,展示了组合泛化能力,为物理合理的人类运动生成提供了高效解决方案。
[47] Unlocking Noise-Resistant Vision: Key Architectural Secrets for Robust Models
Bum Jun Kim,Makoto Kawano,Yusuke Iwasawa,Yutaka Matsuo
Main category: cs.CV
TL;DR: 本文研究了视觉架构对高斯噪声的鲁棒性,通过评估1174个预训练模型识别出四个关键设计模式,并提供了理论解释和实用设计指南。
- Motivation: 当前视觉模型的鲁棒性评估很少深入分析架构设计选择的影响,本文旨在揭示特定架构设计如何影响模型对高斯噪声的鲁棒性。
- Method: 对1174个预训练视觉模型进行广泛评估,识别出四个关键设计模式,并通过理论分析(包括低通滤波器理论、下采样分析和Lipschitz边界)解释这些发现。
- Result: 发现四个设计模式能显著提升鲁棒性:更大的stem核、更小的输入分辨率、平均池化以及监督ViT而非CLIP ViT,最高可提升506个排名和21.6%的准确率。
- Conclusion: 研究将鲁棒性分解为可解释的模块,提供了解释观察趋势的理论,并建立了实用的即插即用指南,用于设计对高斯噪声更鲁棒的视觉模型。
[48] Decoding the Surgical Scene: A Scoping Review of Scene Graphs in Surgery
Angelo Henriques,Korab Hoxha,Daniel Zapp,Peter C. Issa,Nassir Navab,M. Ali Nasseri
Main category: cs.CV
TL;DR: 这篇PRISMA-ScR指导的范围综述系统性地梳理了手术场景图研究的应用、方法进展和未来方向,揭示了数据鸿沟问题并展示了场景图作为分析生成任务基础技术的成熟过程。
- Motivation: 场景图提供结构化关系表示,对解码复杂动态手术环境至关重要。本研究旨在系统性地绘制手术场景图研究的发展图景。
- Method: 采用PRISMA-ScR指导的范围综述方法,分析手术场景图研究的应用、方法进展和未来方向。
- Result: 发现快速增长的领域存在关键'数据鸿沟':内部视图研究主要使用真实2D视频,而外部视图4D建模依赖模拟数据。方法上从基础图神经网络发展到专用基础模型,在手术环境中显著优于通用大视觉语言模型。
- Conclusion: 手术场景图正在成熟为关键语义桥梁,支持新一代智能系统提升手术安全性、效率和培训质量,尽管数据标注和实时实现挑战仍在积极解决中。
[49] A Real-Time On-Device Defect Detection Framework for Laser Power-Meter Sensors via Unsupervised Learning
Dongqi Zheng,Wenjin Fu,Guangzong Chen
Main category: cs.CV
TL;DR: 提出了一种基于视觉的自动化系统,用于激光功率计传感器涂层的缺陷检测和分类,采用无监督异常检测框架,在真实传感器图像上达到93.8%的缺陷样本准确率和89.3%的良好样本准确率。
- Motivation: 解决激光功率计传感器涂层缺陷(如热损伤和划痕)检测的关键挑战,这些缺陷会影响医疗和工业应用中激光能量测量的准确性。
- Method: 采用无监督异常检测框架,仅使用良好传感器图像进行训练,包括三个关键组件:(1) 基于拉普拉斯边缘检测和K-means聚类的预处理管道,(2) 通过StyleGAN2进行合成数据增强,(3) 基于UFlow的神经网络架构进行多尺度特征提取和异常图生成。
- Result: 在366张真实传感器图像上的实验评估显示,缺陷样本准确率为93.8%,良好样本准确率为89.3%,图像级AUROC为0.957,像素级AUROC为0.961。
- Conclusion: 该系统通过自动化质量控制实现了潜在的年成本节约,在设备端实现中每张图像处理时间为0.5秒。
[50] Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos
Sarmistha Das,R E Zera Marveen Lyngkhoi,Sriparna Saha,Alka Maurya
Main category: cs.CV
TL;DR: FASTER是一个用于金融咨询视频多模态摘要的模块化框架,通过提取模态特征、生成优化摘要和视觉关键帧对齐,解决了长视频内容分析难题。
- Motivation: 社交媒体传播扩大了金融咨询内容的覆盖面,但30-40分钟的多模态视频内容难以有效提取关键信息,需要自动化摘要工具。
- Method: 使用BLIP生成视觉语义描述,OCR提取文本模式,Whisper转录和说话人识别作为BOS特征。采用改进的DPO损失函数和基于排名的检索机制对齐关键帧与文本内容。
- Result: 在Fin-APT数据集上的跨域实验表明,FASTER相比LLMs和VLMs表现出更强的性能、鲁棒性和泛化能力。
- Conclusion: FASTER为多模态摘要设立了新标准,使金融咨询内容更易获取和操作,为相关研究开辟了新途径。
[51] An Adaptor for Triggering Semi-Supervised Learning to Out-of-Box Serve Deep Image Clustering
Yue Duan,Lei Qi,Yinghuan Shi,Yang Gao
Main category: cs.CV
TL;DR: ASD是一个适配器,能够在无需任何先决条件的情况下,让自监督学习(SSL)模型冷启动用于深度图像聚类任务。
- Motivation: 现有的将SSL技术集成到深度聚类框架中的方法都需要预训练、聚类学习或训练好的聚类模型作为先决条件,这限制了SSL学习器在图像聚类任务中的灵活性和即插即用性。
- Method: 1. 从所有未标记数据中随机采样伪标记数据,并设置实例级分类器学习语义对齐的实例级标签;2. 利用实例级分类能力跟踪未标记数据预测的类别转换,提取实例级类别的高层相似性;3. 利用这些相似性为伪标记数据分配聚类级标签;4. 使用带有聚类级标签的伪标记数据触发在未标记数据上训练的通用SSL学习器进行图像聚类。
- Result: ASD在各种基准测试中表现出优于最新深度图像聚类方法的性能,与使用真实标签的SSL方法相比仅有很小的准确率差距(例如在CIFAR-10上仅为1.33%)。此外,ASD还能进一步提升现有SSL嵌入深度图像聚类方法的性能。
- Conclusion: ASD提供了一种无需先决条件的冷启动解决方案,成功地将SSL学习器应用于深度图像聚类任务,展示了优异的性能和通用性。
[52] SiNGER: A Clearer Voice Distills Vision Transformers Further
Geunhyeok Yu,Sunjae Jeong,Yoonyoung Choi,Jaeseung Kim,Hyoseok Hwang
Main category: cs.CV
TL;DR: 提出SiNGER蒸馏框架,通过零空间引导的能量重分配来抑制Vision Transformers中的高范数伪影,同时保留信息信号,提升学生模型的性能。
- Motivation: Vision Transformers会产生高范数伪影,这些伪影在知识蒸馏过程中会主导目标函数,导致学生模型过度拟合伪影而忽视信息信号,限制了从大模型中获得的收益。
- Method: SiNGER框架采用零空间引导的扰动方法,在教师特征精炼过程中抑制伪影同时保留信息,通过LoRA适配器高效实现扰动,然后将精炼后的教师特征蒸馏给学生模型。
- Result: 实验表明SiNGER能持续提升学生模型性能,在多个下游任务中达到最先进水平,并产生更清晰、更可解释的表征。
- Conclusion: SiNGER有效解决了传统方法在伪影抑制和信息保留之间的权衡问题,为Vision Transformers的知识蒸馏提供了更优的解决方案。
[53] Fast-SEnSeI: Lightweight Sensor-Independent Cloud Masking for On-board Multispectral Sensors
Jan Kněžík,Jonáš Herec,Rado Pitoňák
Main category: cs.CV
TL;DR: Fast-SEnSeI是一个轻量级、传感器无关的编码器模块,用于实现跨多光谱传感器的灵活星上云分割
- Motivation: 现有云分割模型通常与特定传感器配置紧密耦合且依赖地面处理,需要开发更灵活、可星上部署的解决方案
- Method: 基于SEnSeI-v2改进,集成改进的光谱描述符、轻量级架构和鲁棒的填充带处理,接受任意光谱波段组合,生成固定尺寸特征图,配合基于改进U-Net的量化分割模型,在CPU-FPGA混合架构上部署
- Result: 在Sentinel-2和Landsat 8数据集上的评估显示,该方法能够在不同输入配置下实现准确的云分割
- Conclusion: Fast-SEnSeI为多光谱传感器提供了一种高效、灵活的星上云分割解决方案,适用于空间认证硬件
[54] A Single Neuron Works: Precise Concept Erasure in Text-to-Image Diffusion Models
Qinqin He,Jiaqi Weng,Jialing Tao,Hui Xue
Main category: cs.CV
TL;DR: 提出了一种基于单神经元的概念擦除方法(SNCE),通过操纵单个神经元来精确防止有害内容生成,同时最小化对图像质量的影响。
- Motivation: 文本到图像模型具有强大的图像生成能力,但也存在生成有害内容的安全风险。现有概念擦除方法的关键挑战是在精确移除目标概念的同时最小化图像质量的退化。
- Method: 训练稀疏自编码器(SAE)将文本嵌入映射到稀疏解耦的潜在空间,其中单个神经元与原子语义概念紧密对齐。设计基于调制频率评分的新神经元识别方法来准确定位负责有害概念的神经元,通过抑制有害概念特定神经元的激活来实现精确的概念擦除。
- Result: 在各种基准测试上的实验表明,SNCE在目标概念擦除方面达到了最先进的结果,同时保留了模型对非目标概念的生成能力。该方法对对抗性攻击表现出强大的鲁棒性,显著优于现有方法。
- Conclusion: SNCE方法通过单神经元操作实现了精确的概念擦除,在保持图像质量的同时有效防止有害内容生成,为解决文本到图像模型的安全问题提供了有效的解决方案。
[55] OmniPlantSeg: Species Agnostic 3D Point Cloud Organ Segmentation for High-Resolution Plant Phenotyping Across Modalities
Andreas Gilson,Lukas Meyer,Oliver Scholz,Ute Schmid
Main category: cs.CV
TL;DR: 提出KD-SS算法,用于生物点云的下采样,无需对输入数据进行下采样,实现全分辨率点云分割,适用于不同传感器和植物物种。
- Motivation: 现有植物器官点云分割方法通常针对特定植物物种或传感器,且需要大量预处理和下采样,无法处理全分辨率点云。
- Method: 提出KD-SS算法,作为轻量级的替代方案,保留分辨率,无需下采样输入数据。
- Result: 结合当前最先进的分割模型,在不同传感器(摄影测量、激光三角测量、LiDAR)和植物物种上获得满意结果。
- Conclusion: KD-SS是植物器官分割的轻量级分辨率保留替代方案,适用于不同物种和传感器模态。
[56] Background Prompt for Few-Shot Out-of-Distribution Detection
Songyue Cai,Zongqian Wu,Yujie Mo,Liang Peng,Ping Hu,Xiaoshuang Shi,Xiaofeng Zhu
Main category: cs.CV
TL;DR: Mambo是一个新的前景-背景分解框架,用于解决少样本分布外检测中现有方法因过度依赖局部类别相似性和固定背景补丁提取策略而导致的鲁棒性问题。
- Motivation: 现有的前景-背景分解方法在少样本分布外检测中存在鲁棒性低的问题,主要原因是过度依赖局部类别相似性和采用固定的背景补丁提取策略。
- Method: 提出Mambo框架:1)学习背景提示词获取包含背景和图像语义信息的局部背景相似性;2)使用局部类别相似性精炼局部背景相似性;3)结合精炼后的局部背景相似性和局部类别相似性进行背景提取;4)提出补丁自校准调优,根据样本多样性灵活选择背景补丁数量。
- Result: 在真实世界数据集上的大量实验表明,Mambo在分布外检测和近分布外检测设置方面相比最先进方法取得了最佳性能。
- Conclusion: Mambo通过改进的背景相似性学习和灵活的补丁选择策略,有效提升了少样本分布外检测的鲁棒性和性能。
[57] Stratify or Die: Rethinking Data Splits in Image Segmentation
Naga Venkata Sai Jitin Jami,Thomas Altstidl,Jonas Mueller,Jindong Li,Dario Zanca,Bjoern Eskofier,Heike Leutheuser
Main category: cs.CV
TL;DR: 本文提出了两种图像分割数据集划分方法:IPS(迭代像素分层)和WDES(Wasserstein驱动的进化分层),旨在解决随机划分导致的测试集不具代表性和模型评估偏差问题。
- Motivation: 图像分割中随机划分数据集会导致测试集不具代表性,造成评估偏差和模型泛化能力差。虽然分层采样在分类任务中有效,但由于分割数据的多标签结构和类别不平衡特性,将其扩展到分割任务具有挑战性。
- Method: 1. IPS:基于现有分层概念的简单标签感知采样方法;2. WDES:新颖的遗传算法,通过最小化Wasserstein距离来优化数据集划分的标签分布相似性,理论上证明在足够代数下具有全局最优性。
- Result: 使用新提出的统计异质性指标评估,WDES始终产生更具代表性的划分。在街景、医学影像和卫星图像等多种分割任务中应用WDES,实现了更低的性能方差和改进的模型评估效果。
- Conclusion: WDES在处理小型、不平衡和低多样性数据集时特别有价值,这些情况下传统划分策略最容易产生偏差。该方法显著提高了分割模型评估的可靠性和泛化能力。
[58] EnGraf-Net: Multiple Granularity Branch Network with Fine-Coarse Graft Grained for Classification Task
Riccardo La Grassa,Ignazio Gallo,Nicola Landro
Main category: cs.CV
TL;DR: EnGraf-Net是一种利用语义层次结构作为监督信号的细粒度分类模型,无需裁剪技术或手动标注即可在多个数据集上实现竞争性性能。
- Motivation: 现有细粒度分类模型依赖部件标注或自动裁剪方法,但这些方法存在局部特征表示不完整的问题。人类识别物体时还会形成语义关联,因此作者提出利用层次化语义关联作为监督信号。
- Method: 提出EnGraf-Net模型,将语义层次结构(分类学)作为端到端深度神经网络中的监督信号,不需要裁剪技术或手动标注。
- Result: 在CIFAR-100、CUB-200-2011和FGVC-Aircraft三个数据集上的实验表明,EnGraf-Net优于许多现有细粒度模型,与最先进的方桉相比具有竞争性性能。
- Conclusion: 利用语义层次结构作为监督信号可以有效提升细粒度分类性能,且无需依赖裁剪技术或手动标注,为细粒度分类提供了新的思路。
[59] Vision Transformers: the threat of realistic adversarial patches
Kasper Cools,Clara Maathuis,Alexander M. van Oers,Claudia S. Hübner,Nikos Deligiannis,Marijke Vandewal,Geert De Cubber
Main category: cs.CV
TL;DR: 该论文研究了对抗性补丁在Vision Transformers(ViTs)上的可迁移性,发现CNN中使用的对抗攻击技术可以成功迁移到ViT模型,不同ViT模型对对抗性补丁的脆弱性存在显著差异。
- Motivation: 随着机器学习系统的广泛应用,其安全性变得至关重要。Vision Transformers在性能上优于卷积神经网络且对对抗性扰动具有更强的鲁棒性,但仍存在被对抗性补丁攻击的漏洞,需要研究CNN对抗攻击技术在ViT上的可迁移性。
- Method: 使用Creases Transformation(CT)技术设计逼真的对抗性补丁,在人物与非人物分类任务中测试四个微调ViT模型的脆弱性,评估对抗性攻击从CNN到ViT的跨架构可迁移性。
- Result: 实验结果显示不同ViT模型的攻击成功率差异显著:google/vit-base-patch16-224-in21k为40.04%,facebook/dino-vitb16高达99.97%,其他两个模型分别为66.40%和65.17%。
- Conclusion: 证实了对抗性补丁从CNN到ViT的跨架构可迁移性,预训练数据集规模和方法论强烈影响模型对对抗性攻击的抵抗能力。
[60] UniTransfer: Video Concept Transfer via Progressive Spatial and Timestep Decomposition
Guojun Lei,Rong Zhang,Chi Wang,Tianhang Liu,Hong Li,Zhiyuan Ma,Weiwei Xu
Main category: cs.CV
TL;DR: UniTransfer是一种新颖的视频概念迁移架构,通过空间和时间步分解实现精确可控的视频概念转移。
- Motivation: 现有视频概念迁移方法缺乏对视频不同组件的细粒度控制,难以实现精确可控的生成效果。
- Method: 提出空间分解(前景主体、背景、运动流)和扩散时间步分解(Chain-of-Prompt机制),采用双到单流DiT架构和自监督预训练策略。
- Result: 在OpenAnimal数据集上的实验表明,该方法在视觉保真度和可编辑性方面优于现有基线,能够实现高质量可控的视频概念迁移。
- Conclusion: UniTransfer通过分解式架构和渐进式生成机制,为视频概念迁移任务提供了有效的解决方案,具有广泛的应用前景。
[61] VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception
Ziang Yan,Xinhao Li,Yinan He,Zhengrong Yue,Xiangyu Zeng,Yali Wang,Yu Qiao,Limin Wang,Yi Wang
Main category: cs.CV
TL;DR: 本文提出视觉测试时间缩放(VTTS)方法,通过推理阶段的迭代感知增强多模态大语言模型的推理能力,模仿人类分层注意力机制,在多个基准测试中实现平均超过5%的性能提升。
- Motivation: 现有方法主要依赖LLM推理来分析解析后的视觉内容,受到静态感知阶段的限制。需要一种能够模拟人类层次化注意力机制的方法来增强MLLMs的推理能力。
- Method: VTTS采用迭代感知机制,通过强化学习和时空监督来优化推理过程,逐步聚焦于高置信度的时空区域,并基于更新的文本预测进行引导。
- Result: 提出的Videochat-R1.5模型在超过15个基准测试中相比Qwen2.5VL-3B和-7B等基线模型实现了平均超过5%的性能提升,涵盖视频对话、视频推理和时空感知任务。
- Conclusion: VTTS通过增加感知计算有效提升了MLLMs的性能,验证了该方法的有效性和泛化能力,并为迭代感知范式提供了专门的VTTS-80K数据集支持。
[62] Mammo-CLIP Dissect: A Framework for Analysing Mammography Concepts in Vision-Language Models
Suaiba Amina Salahuddin,Teresa Dorszewski,Marit Almenning Martiniussen,Tone Hovda,Antonio Portaluri,Solveig Thrun,Michael Kampffmeyer,Elisabeth Wetzer,Kristoffer Wickstrøm,Robert Jenssen
Main category: cs.CV
TL;DR: Mammo-CLIP Dissect是一个基于概念的可解释性框架,用于系统分析乳腺X光摄影深度学习视觉模型学习的文本概念,揭示模型如何获取乳腺摄影特定知识。
- Motivation: 理解深度学习模型学习的内容对于AI在临床环境中的安全部署至关重要。以往研究主要关注基于像素的可解释性方法,而对模型学习的文本概念关注较少,这些概念可能更好地反映临床医生的推理过程。
- Method: 利用乳腺摄影专用的视觉语言模型(Mammo-CLIP)作为"解剖器",在指定层为神经元标记人类可解释的文本概念,并量化其与领域知识的对齐程度。通过比较不同训练数据和微调策略下的模型概念学习。
- Result: 在乳腺摄影数据上训练的模型比未在乳腺摄影数据上训练的模型捕获更多临床相关概念,且更符合放射科医生的工作流程。针对特定任务的微调增强了某些概念类别(如良性钙化)的捕获,但可能减少其他类别(如密度相关特征)的覆盖范围。
- Conclusion: Mammo-CLIP Dissect提供了卷积神经网络如何捕获乳腺摄影特定知识的见解,揭示了领域特定训练和任务特定适应如何塑造概念学习,表明在专业化和泛化之间存在权衡。
[63] MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning
Sicheng Tao,Jungang Li,Yibo Yan,Junyan Zhang,Yubo Gao,Hanqian Li,ShuHang Xun,Yuxuan Fan,Hong Chen,Jianxiang He,Xuming Hu
Main category: cs.CV
TL;DR: MOSS-ChatV是一个基于强化学习的框架,通过动态时间规整(DTW)的过程奖励来解决多模态大语言模型在视频推理中的过程不一致性问题,该方法在多个基准测试中表现出色。
- Motivation: 现有的多模态大语言模型在视频推理中存在过程不一致的问题,即中间推理过程与视频动态不符,即使最终答案正确,也影响了模型的可解释性和鲁棒性。
- Method: 提出了MOSS-ChatV框架,使用基于动态时间规整(DTW)的过程奖励进行强化学习,无需辅助奖励模型即可实现高效的过程监督。同时构建了MOSS-Video基准测试集,包含标注的推理轨迹。
- Result: MOSS-ChatV在MOSS-Video测试集上达到87.2%的准确率,在MVBench和MMVU等通用视频基准测试上也有性能提升。该框架在不同架构(如Qwen2.5-VL和Phi-2)上均能获得一致的性能增益。
- Conclusion: MOSS-ChatV框架能够产生更一致和稳定的推理轨迹,具有广泛的适用性,有效解决了视频推理中的过程不一致问题。
[64] MotionFlow:Learning Implicit Motion Flow for Complex Camera Trajectory Control in Video Generation
Guojun Lei,Chi Wang,Yikai Wang,Hong Li,Ying Song,Weiwei Xu
Main category: cs.CV
TL;DR: 提出了一种将相机和物体运动统一转换为像素运动的新方法,通过稳定扩散网络学习参考运动图,结合语义对象先验生成符合指定相机轨迹的视频。
- Motivation: 现有方法通常将相机和物体运动分开学习,这可能导致相机与物体之间相对运动的混淆,难以实现一致性和泛化性。
- Method: 将相机和物体运动转换为像素运动,使用稳定扩散网络学习参考运动图,结合语义对象先验,通过图像到视频网络生成视频。
- Result: 大量实验验证,该方法在性能上大幅优于现有最先进方法。
- Conclusion: 该方法能有效解决相机轨迹引导视频生成中的一致性和泛化性问题,显著提升生成质量。
[65] The Unwinnable Arms Race of AI Image Detection
Till Aczel,Lorenzo Vettor,Andreas Plesner,Roger Wattenhofer
Main category: cs.CV
TL;DR: 本文研究了图像生成AI中判别器在数据维度和复杂度影响下的劣势条件,发现简单和高度复杂的数据集都会降低合成图像的可检测性,而中等复杂度数据集最有利于检测。
- Motivation: 随着图像生成AI的快速发展,合成图像与真实图像的界限日益模糊,这引发了生成器与判别器之间的竞争。本文旨在探究判别器在何种条件下处于最不利地位。
- Method: 通过分析数据维度和数据复杂度两个关键因素,使用Kolmogorov复杂度作为数据集内在结构的度量指标,研究不同复杂度数据集对合成图像检测能力的影响。
- Result: 研究发现:维度增加通常增强判别器检测细微不一致的能力;简单数据集可被生成器几乎完美学习;高度多样化数据集掩盖了生成器的缺陷;中等复杂度数据集最有利于检测,因为生成器无法完全捕捉分布且错误仍然可见。
- Conclusion: 数据复杂度对合成图像检测具有非线性影响,简单和高度复杂的数据集都会降低可检测性,而中等复杂度数据集为检测提供了最有利条件。
[66] WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP
Moshe Kimhi,Erez Koifman,Ehud Rivlin,Eli Schwartz,Chaim Baskin
Main category: cs.CV
TL;DR: WAVECLIP是一个基于小波变换的CLIP模型,通过多级小波分解实现自适应分辨率推理,支持从粗到细的图像处理,并在推理时使用低分辨率token开始,仅在需要时进行细化,从而实现计算效率的提升。
- Motivation: 为了解决传统CLIP模型在处理不同分辨率图像时的计算效率问题,作者希望开发一个能够自适应调整分辨率的统一模型,以在保持准确性的同时显著减少计算开销。
- Method: 使用多级小波分解替代标准补丁嵌入,实现从粗到细的图像处理;在推理时采用基于置信度的门控机制实现自适应早期退出;通过轻量级蒸馏从冻结的CLIP教师模型学习。
- Result: 在零样本分类任务中,WAVECLIP实现了竞争力的准确性,同时显著节省了计算资源,用户可以通过单一部署模型动态选择计算-准确性的权衡。
- Conclusion: WAVECLIP通过小波基标记化和自适应推理机制,成功实现了高效的多分辨率图像处理,为视觉语言模型的计算效率优化提供了有效解决方案。
[67] Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization's Impact on CLIP Beyond Accuracy
Aymen Bouguerra,Daniel Montoya,Alexandra Gomez-Villa,Fabio Arnez,Chokri Mraidha
Main category: cs.CV
TL;DR: 本文对CLIP模型的量化进行了大规模评估,发现量化不仅能提高效率,还能改善模型可靠性,包括校准度和OOD检测性能,挑战了效率与性能必须权衡的传统观点。
- Motivation: 虽然CLIP等视觉语言模型在安全相关任务(如OOD检测)中展现出强大的零样本泛化能力,但量化对CLIP性能的影响尚未得到充分探索,特别是在准确性之外的可靠性指标方面。
- Method: 对CLIP模型进行大规模量化评估,不仅评估分布内准确性,还包括全面的可靠性指标套件,并研究不同预训练来源的影响。还探索了量化感知训练(QAT)方法。
- Result: 量化一致地改善了通常欠自信预训练模型的校准度,但会降低过度自信变体的校准度。有趣的是,校准度下降并不妨碍其他可靠性指标的提升,OOD检测性能仍可改善。某些QAT方法能在零样本准确性、校准度和OOD鲁棒性上同时获得增益。
- Conclusion: 量化在CLIP模型部署中具有超越传统效率提升的作用,为构建高效、可靠和鲁棒的视觉语言模型提供了重要见解,挑战了效率与性能必须权衡的固有观念。
[68] TABLET: A Large-Scale Dataset for Robust Visual Table Understanding
Iñigo Alonso,Imanol Miranda,Eneko Agirre,Mirella Lapata
Main category: cs.CV
TL;DR: TABLET是一个大规模视觉表格理解数据集,包含400万个示例和200万个独特表格,其中88%保留原始可视化,旨在解决现有基准缺乏真实世界表格复杂性和视觉多样性的问题。
- Motivation: 当前表格理解基准主要使用合成渲染,缺乏真实世界表格的复杂性和视觉多样性,且现有VTU数据集提供固定示例,无法访问底层序列化数据进行重新表述。
- Method: 引入TABLET数据集,包含配对的图像-HTML表示、全面元数据和溯源信息,基于Qwen2.5-VL-7B等视觉语言模型进行微调。
- Result: 在TABLET上微调视觉语言模型提高了在已见和未见VTU任务上的性能,同时增强了在真实世界表格可视化上的鲁棒性。
- Conclusion: 通过保留原始可视化并在统一的大规模集合中维护示例可追溯性,TABLET为未来VTU模型的鲁棒训练和可扩展评估奠定了基础。
[69] Learning Conformal Explainers for Image Classifiers
Amr Alkhatib,Stephanie Lowry
Main category: cs.CV
TL;DR: 提出一种基于共形预测的新方法,让用户能够直接控制生成解释的保真度,通过识别关键特征子集来保持模型预测,无需真实解释进行校准。
- Motivation: 现有特征归因方法在解释图像预测时存在保真度不一致的问题,不能忠实反映黑盒模型的推理过程。
- Method: 提出四种一致性函数来量化解释与模型预测的符合程度,使用共形预测框架识别能够保持模型预测的关键特征子集。
- Result: 在6个图像数据集上使用5种解释器进行实证评估,FastSHAP在保真度和信息效率方面表现最佳,基于超像素的一致性度量比像素级更有效。
- Conclusion: 该方法提供了一种可控的解释保真度框架,无需真实解释标签,在多个数据集上验证了其有效性。
[70] Sigma: Semantically Informative Pre-training for Skeleton-based Sign Language Understanding
Muxin Pu,Mei Kuan Lim,Chun Yong Chong,Chen Change Loy
Main category: cs.CV
TL;DR: Sigma是一个基于骨架的手语理解框架,通过多模态融合和分层对齐学习解决了语义基础弱、局部细节与全局上下文不平衡、跨模态学习效率低等三大挑战,在多个基准测试中取得了最先进的结果。
- Motivation: 当前基于骨架的手语理解方法存在三个关键限制:1)语义基础弱,模型难以将骨骼运动模式与语言意义关联;2)局部细节与全局上下文不平衡;3)跨模态学习效率低。
- Method: 提出Sigma框架,包含:1)手语感知早期融合机制,促进视觉和文本模态的深度交互;2)分层对齐学习策略,在不同层级上最大化跨模态特征一致性;3)统一预训练框架,结合对比学习、文本匹配和语言建模。
- Result: 在孤立手语识别、连续手语识别和无注释手语翻译等多个基准测试中取得了最先进的结果,证明了语义信息预训练的有效性和骨骼数据作为独立解决方案的可行性。
- Conclusion: Sigma框架通过语义信息丰富的预训练和有效的多模态对齐策略,显著提升了基于骨架的手语理解性能,展示了骨骼数据在手语理解任务中的独立价值。
[71] Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation
Seyed Amir Kasaei,Ali Aghayari,Arash Marioriyad,Niki Sepasian,MohammadAmin Fazli,Mahdieh Soleymani Baghshah,Mohammad Hossein Rohban
Main category: cs.CV
TL;DR: 本文对文本-图像生成评估中广泛使用的指标进行了全面研究,发现没有任何单一指标在所有任务中表现一致,性能随组合问题的类型而变化。VQA指标并非始终优越,某些基于嵌入的指标在特定情况下更强。
- Motivation: 文本-图像生成发展迅速,但评估输出是否真正捕捉提示中的对象、属性和关系仍是核心挑战。当前评估严重依赖自动化指标,但这些指标往往基于惯例或流行度采用,而非经过人类判断验证。
- Method: 进行了广泛的研究,分析多种广泛使用的组合文本-图像评估指标。研究超越了简单的相关性分析,考察了这些指标在不同组合挑战中的行为,并比较了不同指标家族与人类判断的一致性。
- Result: 结果显示,没有单一指标在所有任务中表现一致:性能随组合问题的类型而变化。VQA指标虽然流行但并非始终优越,某些基于嵌入的指标在特定情况下更强。仅基于图像的指标对组合评估贡献很小。
- Conclusion: 这些发现强调了在可信评估和作为生成奖励模型使用时,需要谨慎和透明地选择指标的重要性。
[72] SlideMamba: Entropy-Based Adaptive Fusion of GNN and Mamba for Enhanced Representation Learning in Digital Pathology
Shakib Khan,Fariba Dambandkhameneh,Nazim Shaikh,Yao Nie,Raghavan Venugopal,Xiao Li
Main category: cs.CV
TL;DR: 提出SlideMamba框架,结合Mamba架构和图神经网络,通过熵加权自适应融合策略增强全切片图像分析,在基因融合和突变预测任务中表现优异
- Motivation: 计算病理学需要从全切片图像中提取有意义的表示来支持临床任务,现有方法难以同时捕捉局部空间关系和长距离上下文依赖
- Method: 集成Mamba模块(擅长长距离全局依赖)和GNN(擅长细粒度短程空间交互),使用基于熵的置信度加权机制进行自适应融合
- Result: 在基因融合和突变预测任务中,PRAUC达到0.751±0.05,显著优于MIL、Trans-MIL、Mamba-only、GNN-only和GAT-Mamba等方法
- Conclusion: 集成架构结合自适应融合策略在计算病理学的空间解析预测建模任务中展现出巨大潜力
[73] Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
Team Hunyuan3D,:,Bowen Zhang,Chunchao Guo,Haolin Liu,Hongyu Yan,Huiwen Shi,Jingwei Huang,Junlin Yu,Kunhong Li,Linus,Penghao Wang,Qingxiang Lin,Sicong Liu,Xianghui Yang,Yixuan Tang,Yunfei Zhao,Zeqiang Lai,Zhihao Liang,Zibo Zhao
Main category: cs.CV
TL;DR: Hunyuan3D-Omni是一个统一的3D资产生成框架,通过多模态输入(点云、体素、边界框、骨骼姿态等)实现细粒度控制,解决了现有方法主要依赖图像或文本条件而缺乏精细控制的问题。
- Motivation: 现有3D生成模型主要依赖图像或文本条件,缺乏细粒度的跨模态控制,限制了可控性和实际应用。需要开发能够接受多种几何和姿态先验的统一框架。
- Method: 基于Hunyuan3D 2.1构建,采用单一跨模态架构统一处理所有输入信号。使用渐进式难度感知采样策略,每个样本选择一种控制模态,偏向更难处理的信号(如骨骼姿态),鼓励鲁棒的多模态融合。
- Result: 实验表明,额外的控制信号提高了生成准确性,实现了几何感知变换,并增强了生产工作流程的鲁棒性。
- Conclusion: Hunyuan3D-Omni通过统一的多模态控制框架,显著提升了3D资产生成的可控性和实用性,为游戏、电影和设计领域的生产工作流程提供了更强大的工具。
[74] Learning to Look: Cognitive Attention Alignment with Vision-Language Models
Ryan L. Yang,Dipkamal Bhusal,Nidhi Rastogi
Main category: cs.CV
TL;DR: 提出了一种利用视觉语言模型自动生成语义注意力图的方法,通过自然语言提示引导CNN注意力,减少对人工标注的依赖,提高模型决策的可靠性和认知合理性。
- Motivation: CNN经常利用表面相关性进行"作弊"预测,现有方法依赖人工标注的注意力监督,限制了可扩展性。
- Method: 使用视觉语言模型自动生成语义注意力图,通过辅助损失函数将CNN注意力与语言引导的注意力图对齐。
- Result: 在ColoredMNIST和DecoyMNIST数据集上达到SOTA性能,表现出更好的泛化能力、减少捷径依赖,注意力更符合人类直觉。
- Conclusion: 该方法提供了一种可扩展的解决方案,无需人工标注即可实现更可靠的模型决策。
[75] Decipher-MR: A Vision-Language Foundation Model for 3D MRI Representations
Zhijian Yang,Noel DSouza,Istvan Megyeri,Xiaojian Xu,Amin Honarmandi Shandiz,Farzin Haddadpour,Krisztian Koos,Laszlo Rusko,Emanuele Valeriano,Bharadwaj Swaninathan,Lei Wu,Parminder Bhatia,Taha Kass-Hout,Erhan Bas
Main category: cs.CV
TL;DR: Decipher-MR是一个专为3D MRI设计的视觉-语言基础模型,在大规模数据集上训练,支持多种临床任务的轻量级适配。
- Motivation: MRI的复杂性和异质性给自动化分析带来挑战,现有基础模型在MRI应用上受限,主要由于数据稀缺和解剖区域狭窄。
- Method: 整合自监督视觉学习与报告引导的文本监督,采用模块化设计,支持在冻结预训练编码器上调整轻量级任务特定解码器。
- Result: 在疾病分类、人口统计预测、解剖定位和跨模态检索等多个基准测试中,性能优于现有基础模型和任务特定方法。
- Conclusion: Decipher-MR为基于MRI的AI提供了一个可扩展且多功能的基础,促进了临床和研究领域的高效开发。
[76] Instruction-tuned Self-Questioning Framework for Multimodal Reasoning
You-Won Jang,Yu-Jung Heo,Jaeseok Kim,Minsu Lee,Du-Seong Chang,Byoung-Tak Zhang
Main category: cs.CV
TL;DR: SQ-InstructBLIP通过生成图像感知的子问题和子答案来改进视觉问答任务的推理性能,解决了传统LLMs在视觉语言理解中的多步推理问题。
- Motivation: 当前视觉语言理解领域在多步推理问题上仍面临挑战,传统LLMs无法读取视觉信息且作为黑盒模型难以复现。需要开发能够利用细粒度视觉内容并进行可解释推理的方法。
- Method: 提出SQ-InstructBLIP框架,包含共享相同架构的Questioner、Answerer和Reasoner三个组件,通过迭代生成图像感知的子问题和子答案来辅助主问题的推理。
- Result: 实验表明,SQ-InstructBLIP在VQA任务中使用生成的子问题作为额外信息时,比现有方法能够进行更准确的推理。
- Conclusion: 该方法通过自提问机制有效提升了视觉问答任务的推理性能,为多步视觉语言理解问题提供了可行的解决方案。
[77] Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation
Seyed Amir Kasaei,Mohammad Hossein Rohban
Main category: cs.CV
TL;DR: 本文提出了文本到图像生成模型中幻觉的定义和分类,将其定义为由模型偏见驱动的偏差,并提出了属性、关系和对象幻觉三个类别。
- Motivation: 现有的文本到图像模型评估主要关注对齐性,检查提示中指定的元素是否出现,但忽略了模型在提示之外生成的内容。需要明确定义文本到图像模型中的幻觉现象。
- Method: 将文本到图像模型中的幻觉定义为偏见驱动的偏差,并提出了包含属性幻觉、关系幻觉和对象幻觉的三类分类法。
- Result: 这一框架为评估设定了上限,并揭示了隐藏的偏见,为更丰富的文本到图像模型评估奠定了基础。
- Conclusion: 该研究为文本到图像生成模型的幻觉现象提供了明确的定义和分类框架,有助于更全面地评估模型性能。
[78] Every Subtlety Counts: Fine-grained Person Independence Micro-Action Recognition via Distributionally Robust Optimization
Feng-Qi Cui,Jinyang Huang,Anyang Tong,Ziyu Jia,Jie Zhang,Zhi Liu,Dan Guo,Jianwei Lu,Meng Wang
Main category: cs.CV
TL;DR: 提出了一种针对微动作识别中个体差异问题的鲁棒框架,通过特征层和时间-频率对齐模块以及损失层的组不变正则化损失,实现了对未见个体的稳定泛化。
- Motivation: 现有微动作识别方法在真实场景中因个体间差异导致泛化能力不足,无法处理同一动作在不同人身上的不同表现。
- Method: 提出了Person Independence Universal Micro-action Recognition Framework,包含特征层的Temporal-Frequency Alignment Module(双分支设计:时间分支使用Wasserstein正则化对齐,频率分支引入方差引导扰动)和损失层的Group-Invariant Regularized Loss(通过伪分组模拟未见个体分布)。
- Result: 在MA-52大规模数据集上的实验表明,该框架在准确性和鲁棒性方面均优于现有方法,在细粒度条件下实现了稳定泛化。
- Conclusion: 该框架有效解决了微动作识别中的个体差异问题,通过分布鲁棒优化原则学习到人员无关的表征,具有实际应用价值。
[79] Dense Semantic Matching with VGGT Prior
Songlin Yang,Tianyi Wei,Yushi Lan,Zeqi Xiao,Anyi Rao,Xingang Pan
Main category: cs.CV
TL;DR: 本文提出了一种基于3D几何基础模型VGGT的语义匹配方法,解决了现有方法在几何歧义和最近邻规则方面的局限性,通过特征重用、语义头部添加和循环一致性训练等策略,在几何感知和匹配可靠性方面优于现有基线。
- Motivation: 现有语义匹配方法存在几何歧义(依赖2D基础模型特征难以区分对称结构)和最近邻规则(忽略跨图像不可见性和流形保持)两大局限性,需要几何感知的像素描述符和整体密集对应机制。
- Method: 保留VGGT早期特征阶段,微调后期阶段,添加语义头部实现双向对应;在数据稀缺情况下通过循环一致性训练策略、合成数据增强和渐进式训练方法进行适配。
- Result: 大量实验表明,该方法在几何感知、匹配可靠性和流形保持方面表现优异,超越了之前的基线方法。
- Conclusion: 通过有效利用3D几何基础模型VGGT并针对语义匹配场景进行适配,成功解决了现有语义匹配方法的局限性,实现了更优的性能。
[80] MedVSR: Medical Video Super-Resolution with Cross State-Space Propagation
Xinyu Liu,Guolei Sun,Cheng Wang,Yixuan Yuan,Ender Konukoglu
Main category: cs.CV
TL;DR: 提出MedVSR框架,专门解决医学视频超分辨率中的对齐困难和伪影问题,通过跨状态空间传播和内部状态空间重建模块提升重建质量。
- Motivation: 高分辨率医学视频对准确诊断至关重要,但受硬件限制难以获取。现有VSR模型在处理医学视频时面临相机抖动、噪声、帧间突变等挑战,导致光学流误差和对齐困难,且容易产生伪影和失真特征。
- Method: MedVSR框架包含两个核心模块:1) 跨状态空间传播(CSSP)通过状态空间模型将远距离帧投影为控制矩阵,选择性传播一致特征以解决对齐问题;2) 内部状态空间重建(ISSR)结合长程空间特征学习和大核短程信息聚合,增强组织结构并减少伪影。
- Result: 在四个医学数据集(包括内窥镜和白内障手术)上的实验表明,MedVSR在重建性能和效率上显著优于现有VSR模型。
- Conclusion: MedVSR为医学视频超分辨率提供了有效的解决方案,通过创新的状态空间建模方法解决了医学视频特有的挑战,在临床应用中具有重要价值。
[81] MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources
Sicong Leng,Jing Wang,Jiaxi Li,Hao Zhang,Zhiqiang Hu,Boqiang Zhang,Yuming Jiang,Hang Zhang,Xin Li,Lidong Bing,Deli Zhao,Wei Lu,Yu Rong,Aixin Sun,Shijian Lu
Main category: cs.CV
TL;DR: 本文提出了Variance-Aware Sampling (VAS)方法来解决强化学习微调中的梯度消失问题,并发布了大规模高质量的多模态推理数据集和模型。
- Motivation: 当前多模态推理模型面临两大限制:缺乏高质量的长链思维数据,以及强化学习后训练的不稳定性。GRPO框架在奖励方差低时容易出现梯度消失问题。
- Method: 提出了基于方差促进分数(VPS)的VAS数据选择策略,结合结果方差和轨迹多样性来提升奖励方差;发布了包含160万条长链思维数据和1.5万条RL问答对的大规模数据集;开源了多尺度多模态推理模型。
- Result: 在数学推理基准测试中验证了所提出数据和VAS方法的有效性,理论分析表明奖励方差下界了期望策略梯度的大小。
- Conclusion: VAS方法通过提升奖励方差有效稳定了策略优化,大规模高质量数据集和开源模型为社区提供了标准化基准。
[82] A Sentinel-3 foundation model for ocean colour
Geoffrey Dawson,Remy Vandaele,Andrew Taylor,David Moffat,Helen Tamura-Wicks,Sarah Jackson,Rosie Lickorish,Paolo Fraccaro,Hywel Williams,Chunbo Luo,Anne Jones
Main category: cs.CV
TL;DR: 该论文提出了一种基于Prithvi-EO Vision Transformer架构的海洋科学基础模型,通过在Sentinel-3 OLCI数据上进行预训练,并在两个下游海洋观测任务上验证其性能。
- Motivation: 海洋科学中标记数据稀缺且获取成本高,而AI基础模型在大量无标记数据上预训练后,有望显著改变海洋科学中的AI应用。
- Method: 使用Prithvi-EO Vision Transformer架构,在Sentinel-3 OLCI数据上进行预训练,然后通过微调评估模型在叶绿素浓度量化和海洋初级生产力估算两个下游任务上的性能。
- Result: 模型在利用少量高质量标记数据和捕捉详细海洋颜色空间模式方面表现出色,同时与点观测数据匹配良好。
- Conclusion: 新一代地理空间AI模型有潜力为海洋生态系统及其在全球气候过程中的作用提供更稳健、数据驱动的见解。
[83] Does FLUX Already Know How to Perform Physically Plausible Image Composition?
Shilin Lu,Zhuming Lian,Zihan Zhou,Shaocong Zhang,Chen Zhao,Adams Wai-Kin Kong
Main category: cs.CV
TL;DR: SHINE是一个无需训练的框架,用于实现无缝、高保真度的图像合成,通过引导潜在空间和自适应背景融合来解决复杂光照和高分辨率输入的问题。
- Motivation: 现有图像合成模型在处理复杂光照(如准确阴影、水面反射)和多样化高分辨率输入时存在困难,而现有的文本到图像扩散模型虽然编码了物理和分辨率先验,但缺乏有效的框架来释放这些能力。
- Method: SHINE引入流形引导锚点损失,利用预训练的自定义适配器(如IP-Adapter)来指导潜在空间,实现忠实的主体表示同时保持背景完整性。还提出了退化抑制引导和自适应背景融合来消除低质量输出和可见接缝。
- Result: 在ComplexCompo和DreamEditBench上的实验显示,SHINE在标准指标(如DINOv2)和人类对齐评分(如DreamSim、ImageReward、VisionReward)上达到了最先进的性能。
- Conclusion: SHINE提供了一个有效的训练免费框架,能够处理复杂的图像合成任务,特别是在挑战性光照条件下表现出色,同时引入了新的基准测试集ComplexCompo来推动该领域的发展。
[84] Quantized Visual Geometry Grounded Transformer
Weilun Feng,Haotong Qin,Mingqiang Wu,Chuanguang Yang,Yuqi Li,Xiangqi Li,Zhulin An,Libo Huang,Yulun Zhang,Michele Magno,Yongjun Xu
Main category: cs.CV
TL;DR: 本文提出了QuantVGGT,这是首个针对VGGT(视觉几何基础变换器)的量化框架,通过双平滑细粒度量化和噪声过滤多样化采样技术,解决了十亿级VGGT量化中的重尾分布和校准样本选择不稳定问题,在4位量化下实现了3.7倍内存减少和2.5倍加速,同时保持98%以上的重建精度。
- Motivation: 基于学习的3D重建模型(如VGGT)虽然取得了显著进展,但其巨大的计算和内存成本严重阻碍了实际部署。后训练量化(PTQ)在压缩十亿级VGGT时面临独特挑战:数据无关的特殊token导致重尾激活分布,而3D数据的多视角特性使校准样本选择高度不稳定。
- Method: QuantVGGT主要包含两项技术贡献:1)双平滑细粒度量化,集成预全局Hadamard旋转和后局部通道平滑来缓解重尾分布和通道间方差;2)噪声过滤多样化采样,通过深层统计过滤异常值,构建帧感知多样化校准簇以确保稳定的量化范围。
- Result: 实验表明QuantVGGT在不同基准和位宽下均达到最先进结果,大幅超越之前的通用量化方法。4位QuantVGGT可实现3.7倍内存减少和2.5倍加速,同时保持重建精度在完整精度模型的98%以上。
- Conclusion: QuantVGGT在资源受限场景下具有巨大优势和实用性,其代码已在GitHub上开源。
[85] NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics
Yu Yuan,Xijun Wang,Tharindu Wickremasinghe,Zeeshan Nadir,Bole Ma,Stanley H. Chan
Main category: cs.CV
TL;DR: NewtonGen是一个结合数据驱动合成与可学习物理原理的框架,通过可训练的神经牛顿动力学(NND)来建模牛顿运动,为视频生成过程注入潜在动力学约束,实现物理一致性和参数可控的视频合成。
- Motivation: 当前大规模文本到视频生成的主要瓶颈是物理一致性和可控性。现有模型往往产生不真实的运动(如物体向上坠落、速度和方向的突变),且缺乏精确的参数控制,难以在不同初始条件下生成物理一致的动态效果。
- Method: 提出NewtonGen框架,核心是可训练的神经牛顿动力学(NND),能够建模和预测各种牛顿运动,将潜在动力学约束注入视频生成过程。通过联合利用数据先验和动力学指导来实现物理一致的视频合成。
- Result: 该框架能够生成物理一致性更强的视频,并提供精确的参数控制能力,解决了现有模型在物理动态建模方面的局限性。
- Conclusion: 通过将数据驱动合成与可学习物理原理相结合,NewtonGen为文本到视频生成提供了更强大的物理一致性和可控性,解决了当前模型仅从外观学习运动分布而缺乏底层动力学理解的局限性。
[86] SD3.5-Flash: Distribution-Guided Distillation of Generative Flows
Hmrishav Bandyopadhyay,Rahim Entezari,Jim Scott,Reshinth Adithyan,Yi-Zhe Song,Varun Jampani
Main category: cs.CV
TL;DR: SD3.5-Flash是一个高效的少步蒸馏框架,旨在将高质量图像生成技术普及到消费级设备上。
- Motivation: 让计算密集的整流流模型能够在资源受限的消费设备上运行,实现高质量图像生成的民主化。
- Method: 采用重新制定的分布匹配目标进行少步蒸馏,引入时间步共享减少梯度噪声和分时步微调改善提示对齐,结合文本编码器重构和专用量化等管道优化。
- Result: 通过大规模用户研究评估,SD3.5-Flash在少步方法中表现优异,实现了快速生成和内存高效部署。
- Conclusion: 该框架使高级生成AI真正适用于实际部署,从手机到桌面电脑的全设备谱系都能获得高质量图像生成能力。
cs.AI
[87] VC-Agent: An Interactive Agent for Customized Video Dataset Collection
Yidan Zhang,Mutian Xu,Yiming Hao,Kun Zhou,Jiahao Chang,Xiaoqiang Liu,Pengfei Wan,Hongbo Fu,Xiaoguang Han
Main category: cs.AI
TL;DR: VC-Agent是一个交互式智能体,能够理解用户查询和反馈,通过最小化用户输入来检索和扩展相关视频片段,加速个性化视频数据集收集过程。
- Motivation: 面对扩展法则,从互联网收集大量符合特定需求的视频数据极其耗时耗力,需要开发更高效的方法来加速这一收集过程。
- Method: 利用现有多模态大语言模型连接用户需求与视频内容,定义基于文本描述和确认的用户友好交互方式,提出两种可随用户交互持续更新的过滤策略。
- Result: 提供了个性化视频数据集收集的新基准,通过用户研究验证了该智能体在各种实际场景中的有效性,实验证明其具有高效性和有效性。
- Conclusion: VC-Agent为定制化视频数据集收集提供了一种有效的解决方案,能够显著减少用户输入需求,提高视频数据收集效率。
cs.LG
[88] Beyond Visual Similarity: Rule-Guided Multimodal Clustering with explicit domain rules
Kishor Datta Gupta,Mohd Ariful Haque,Marufa Kamal,Ahmed Rafi Hasan,Md. Mahfuzur Rahman,Roy George
Main category: cs.LG
TL;DR: DARTVAE是一种结合领域特定规则的多模态聚类框架,通过将LLM生成的规则嵌入到VAE架构中,实现约束指导的聚类,相比传统方法产生更具操作意义和可解释性的聚类结果。
- Motivation: 传统聚类方法仅依赖输入数据的相似性,无法有效捕捉许多领域中关键的结构或语义约束。需要开发能够直接融入领域特定约束的聚类框架。
- Method: 扩展VAE架构,嵌入显式规则、语义表示和数据驱动特征到统一潜在空间,通过规则一致性和违反惩罚在损失函数中强制约束合规。规则由LLM生成并构建为知识图。
- Result: 在飞机和汽车数据集上的实验表明,规则指导的聚类产生更具操作意义和可解释性的聚类(如分离无人机、统一隐形飞机、区分SUV和轿车),同时改进了传统聚类指标。
- Conclusion: DARTVAE通过结合规则编码和学习表示,比纯数据驱动模型实现更有意义和一致的聚类结果,突显了约束指导多模态聚类在复杂知识密集型场景中的实用性,但也面临LLM规则幻觉、规则冲突和可扩展性等挑战。
[89] Bispectral OT: Dataset Comparison using Symmetry-Aware Optimal Transport
Annabel Ma,Kaiying Hou,David Alvarez-Melis,Melanie Weber
Main category: cs.LG
TL;DR: 本文提出了一种对称感知的最优传输扩展方法——双谱最优传输,通过在对称丰富的数据集中使用双谱表示来改进传统最优传输方法,从而更好地保留数据的语义结构。
- Motivation: 传统最优传输方法仅基于原始特征的几何距离进行对齐,在对称丰富的设置中可能忽略数据的内在相干结构,无法有效处理由群作用引起的冗余变化。
- Method: 引入双谱最优传输,使用双谱(一种群傅里叶不变量)来表示数据元素,该表示保留了所有信号结构,同时消除了由群作用引起的变化。
- Result: 在具有视觉对称性的基准数据集上,双谱最优传输计算的传输计划比传统特征最优传输实现了更高的类别保持准确率,能够更好地捕获数据集中潜在的语义标签结构。
- Conclusion: 双谱最优传输提供了一种有效的对称感知对齐方法,能够提高对应关系的质量,同时消除不影响类别或内容的冗余变化。
[90] FERD: Fairness-Enhanced Data-Free Robustness Distillation
Zhengxiao Li,Liming Lu,Xu Zheng,Siyuan Liang,Zhenghan Chen,Yongbin Zhou,Shuchao Pang
Main category: cs.LG
TL;DR: 本文提出了FERD框架,通过调整对抗样本的比例和分布来解决数据自由鲁棒性蒸馏中的公平性问题,显著提升了最差类别鲁棒性。
- Motivation: 现有数据自由鲁棒性蒸馏方法只关注整体鲁棒性,忽视了不同类别间的鲁棒性公平问题,导致学生模型在不同类别间存在严重的鲁棒性差异。
- Method: FERD采用鲁棒性引导的类别重加权策略调整样本比例,生成公平感知样本(FAEs)和均匀目标对抗样本(UTAEs)来平衡特征表示和攻击目标分布。
- Result: 在三个公开数据集上的实验表明,FERD在所有对抗攻击下都实现了最先进的最差类别鲁棒性(如CIFAR-10上FGSM和AutoAttack攻击下最差类别鲁棒性分别提升15.1%和6.4%)。
- Conclusion: FERD框架在鲁棒性和公平性方面都表现出优越性能,有效解决了数据自由鲁棒性蒸馏中的公平性问题。
[91] CaTS-Bench: Can Language Models Describe Numeric Time Series?
Luca Zhou,Pratham Yashwante,Marshall Fisher,Alessio Sampieri,Zihao Zhou,Fabio Galasso,Rose Yu
Main category: cs.LG
TL;DR: CaTS-Bench是第一个大规模、真实世界的时间序列描述基准,包含46.5万训练和10.5万测试时间戳,结合数值序列、元数据、图表图像和描述文本,并提供了新的评估指标。
- Motivation: 现有时间序列描述基准依赖合成数据或过于简化的描述,通常忽略元数据和视觉表示,需要建立更全面的评估基准。
- Method: 从11个多样化数据集重构为描述和问答任务,使用可扩展的管道生成参考描述(大部分由oracle LLM生成并经过事实检查、人类不可区分性研究和多样性分析验证),并提供579个人工修订的测试描述。
- Result: 建立了CaTS-Bench基准,包含460个多项选择题用于深度时间序列推理,并评估了领先的视觉语言模型,揭示了其优势和局限性。
- Conclusion: CaTS-Bench及其描述管道为时间序列分析与基础模型的交叉研究提供了可靠且可扩展的基础。
[92] FHRFormer: A Self-supervised Transformer Approach for Fetal Heart Rate Inpainting and Forecasting
Kjersti Engan,Neel Kanwal,Anita Yeconia,Ladislaus Blacy,Yuda Munyaw,Estomih Mduma,Hege Ersdal
Main category: cs.LG
TL;DR: 本文提出了一种基于掩码变换器自编码器的方法,用于重建胎儿心率监测中缺失的信号数据,以支持AI风险评估算法的开发。
- Motivation: 大约10%的新生儿需要呼吸辅助,5%需要通气支持。胎儿心率监测在产前护理中至关重要,但传感器位移和信号丢失限制了AI分析的准确性。传统插值方法无法保持信号的频谱特性。
- Method: 使用掩码变换器自编码器方法,通过捕捉数据的空间和频率分量来重建缺失的胎儿心率信号。该方法对不同程度的缺失数据具有鲁棒性,可用于信号修复和预测。
- Result: 提出的方法能够有效处理胎儿心率监测中的信号丢失问题,保持信号的频谱特性,为AI风险评估算法提供更完整的数据支持。
- Conclusion: 该方法可应用于回顾性研究数据集,未来可集成到可穿戴胎儿心率监测设备中,实现更早期和更稳健的风险检测。
[93] Sparse Representations Improve Adversarial Robustness of Neural Network Classifiers
Killian Steunou,Sigurd Saue,Théo Druilhe
Main category: cs.LG
TL;DR: 该论文提出使用稀疏主成分分析(SPCA)作为对抗性攻击的防御机制,通过理论分析和实验验证表明SPCA比标准PCA在保持准确性的同时具有更好的鲁棒性。
- Motivation: 深度神经网络在图像分类任务中表现出色但容易受到精心设计的对抗性扰动攻击。作者希望找到一种简单有效的数据自适应防御方法。
- Method: 使用稀疏主成分分析(SPCA)作为前端特征提取器,与标准PCA进行对比,结合理论分析(包括鲁棒性证明和Lipschitz组合论证)和实验验证。
- Result: 实验表明,在强白盒和黑盒攻击下,SPCA比PCA表现更稳健,同时保持竞争力的清洁准确率。理论分析确认了稀疏投影减少对抗性杠杆的机制。
- Conclusion: 稀疏主成分分析(SPCA)是一种有效的对抗性防御方法,其稀疏性特性能够降低输入敏感性,在理论和实践中都表现出优于标准PCA的鲁棒性。
[94] A Unified Framework for Diffusion Model Unlearning with f-Divergence
Nicola Novello,Federico Fontana,Luigi Cinque,Deniz Gunduz,Andrea M. Tonello
Main category: cs.LG
TL;DR: 本文提出了一个基于f-散度的统一框架,用于扩散模型的机器遗忘,相比传统MSE方法具有更好的灵活性和性能权衡。
- Motivation: 现有的文本到图像模型遗忘方法主要依赖均方误差(MSE),但这种方法只是f-散度的一个特例,缺乏灵活性。
- Method: 提出统一的f-散度框架,允许使用任意f-散度进行遗忘,分析不同散度对算法收敛性和遗忘质量的影响。
- Result: 该框架提供了选择最优散度的灵活性,能够在激进遗忘和概念保留之间实现更好的权衡。
- Conclusion: f-散度统一框架为扩散模型遗忘提供了更灵活和优化的解决方案。
[95] Differential-Integral Neural Operator for Long-Term Turbulence Forecasting
Hao Wu,Yuan Gao,Fan Xu,Fan Zhang,Qingsong Wen,Kun Wang,Xiaomeng Huang,Xian Wu
Main category: cs.LG
TL;DR: 本文提出了DINO(微分-积分神经算子)框架,通过分解局部微分算子和全局积分算子来解决湍流长期预测中的误差累积问题,在2D Kolmogorov流基准测试中表现出色。
- Motivation: 现有深度学习方法在湍流长期自回归预测中容易产生灾难性误差累积和物理保真度损失,无法同时捕捉湍流动力学的局部耗散效应和全局非局部相互作用这两种不同的数学结构。
- Method: DINO框架通过并行分支分别学习局部微分算子(由约束卷积网络实现)和全局积分算子(由Transformer架构实现),基于算子分解的第一性原理方法进行设计。
- Result: 在2D Kolmogorov流基准测试中,DINO显著优于现有最先进模型,能够抑制数百个时间步的误差累积,在涡度场和能谱方面保持高保真度。
- Conclusion: DINO为物理一致的长期湍流预测建立了新的基准,展示了基于物理分解方法的卓越稳定性和鲁棒性。
cs.SI
[96] Visual Authority and the Rhetoric of Health Misinformation: A Multimodal Analysis of Social Media Videos
Mohammad Reza Zarei,Barbara Stead-Coyle,Michael Christensen,Sarah Everts,Majid Komeili
Main category: cs.SI
TL;DR: 该研究分析了短视频平台上营养和补充剂视频中可信度包装的方式,通过考察权威信号、叙事技巧和盈利模式的交叉点,发现自信的单一主持人在家庭或工作室环境中占主导地位,临床背景罕见。权威线索常与说服性元素和盈利手段结合。
- Motivation: 短视频平台已成为健康建议的重要来源,但其中混杂着有用、误导和有害的内容。研究旨在理解这些平台上营养和补充剂视频如何包装可信度,而非判断内容真伪。
- Method: 收集了152个来自TikTok、Instagram和YouTube的公开视频,对每个视频的26个特征进行标注,涵盖视觉权威、主持人属性、叙事策略和参与提示。采用透明标注流程,整合自动语音识别、原则性帧选择和多模态模型,并通过分层子样本的人类验证确保强一致性。
- Result: 描述性分析显示,自信的单一主持人在家庭或工作室环境中占主导地位,临床背景罕见。分析性发现表明,权威线索(如头衔、幻灯片和证书)常与说服性元素(如术语、引用、恐惧或紧迫感、对主流医学的批评和阴谋论)以及盈利手段(如销售链接和订阅呼吁)结合。引用和科学类视觉元素常与情感化和对立叙事结合,而非表示克制。
- Conclusion: 营养和补充剂视频中的可信度包装往往通过权威信号与说服性叙事和盈利策略的结合来实现,这可能导致观众在缺乏临床背景的情况下被误导。研究强调了多模态分析在理解健康信息传播中的重要性。
cs.CE
[97] Extrapolating Phase-Field Simulations in Space and Time with Purely Convolutional Architectures
Christophe Bonneville,Nathan Bieberdorf,Pieterjan Robbe,Mark Asta,Habib N. Najm,Laurent Capolungo,Cosmin Safta
Main category: cs.CE
TL;DR: 提出一种基于条件参数化U-Net的替代模型,用于加速液态金属脱合金相场模拟,能够大幅超越训练时空范围进行外推预测
- Motivation: 液态金属脱合金的相场模型虽然能解析丰富的微观结构动力学,但对于大尺度域和长时间尺度计算成本过高,需要开发高效的替代模型
- Method: 设计条件参数化的全卷积U-Net替代模型,集成卷积自注意力和物理感知填充,通过参数调节实现可变时间步长跳跃和对不同合金系统的适应
- Result: 替代模型相对误差在训练范围内通常低于5%,外推到更大域和更长时间时低于10%,计算加速高达16,000倍
- Conclusion: 该方法标志着向可扩展、高保真液态金属脱合金相场模型外推的重要进展,将数周的模拟时间缩短至秒级
cs.IR
[98] Provenance Analysis of Archaeological Artifacts via Multimodal RAG Systems
Tuo Zhang,Yuechun Sun,Ruiliang Liu
Main category: cs.IR
TL;DR: 本文提出了一个基于检索增强生成(RAG)的考古文物溯源分析系统,通过整合多模态检索和大规模视觉语言模型(VLMs)来支持专家推理。
- Motivation: 旨在帮助考古学者减轻在庞大比较语料库中导航的认知负担,为文物分析提供具体的起点。
- Method: 系统构建了包含参考文本和图像的双模态知识库,支持原始视觉、边缘增强和语义检索来识别风格相似的文物。检索到的候选对象通过VLM合成生成结构化推理。
- Result: 在英国博物馆的东欧亚青铜时代文物数据集上评估,专家评价显示系统能产生有意义且可解释的输出。
- Conclusion: 该系统能够有效支持考古专家的分析工作,显著减轻认知负担,为文物溯源分析提供实用工具。
cs.GR
[99] SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
Yandan Yang,Baoxiong Jia,Shujie Zhang,Siyuan Huang
Main category: cs.GR
TL;DR: SceneWeaver是一个用于室内场景合成的反射性代理框架,通过工具化迭代优化统一了多种场景生成范式,在物理合理性、视觉真实性和语义对齐方面优于现有方法。
- Motivation: 现有的室内场景合成方法通常局限于固定场景类别,缺乏足够的物体级细节和物理一致性,难以处理复杂的用户指令。Embodied AI的发展需要既视觉逼真又物理合理且功能多样的3D环境。
- Method: 基于语言模型的规划器从可扩展的场景生成工具套件中选择工具,包括数据驱动的生成模型、视觉和LLM方法,通过自评估物理合理性、视觉真实性和语义对齐来指导迭代优化。采用闭环的推理-行动-反思设计。
- Result: 在常见和开放词汇房间类型上的广泛实验表明,SceneWeaver在物理、视觉和语义指标上优于现有方法,并能有效泛化到具有复杂指令的多样化场景。
- Conclusion: SceneWeaver代表了向通用3D环境生成迈出的重要一步,展示了代理框架在统一不同场景合成范式方面的潜力。
[100] ArtUV: Artist-style UV Unwrapping
Yuguang Chen,Xinhai Liu,Yang Li,Victor Cheung,Zhuo Chen,Dongyu Zhang,Chunchao Guo
Main category: cs.GR
TL;DR: ArtUV是一种全自动端到端的艺术家风格UV展开方法,通过两阶段流程(接缝预测和参数化)生成高质量的UV贴图,解决了传统方法存在的耗时、碎片化、缺乏语义性和不规则UV岛等问题。
- Motivation: 现有UV展开方法存在耗时、碎片化、缺乏语义性和不规则UV岛等问题,限制了实际应用。艺术家风格的UV贴图不仅需要满足无重叠映射和最小失真等基本标准,还需要满足清晰边界、高效空间利用和语义一致性等更高要求。
- Method: ArtUV模拟专业UV映射过程,分为两个阶段:1)使用SeamGPT进行表面接缝预测,生成语义上有意义的切割接缝;2)将基于优化方法获得的粗略UV和网格输入自动编码器,将其细化为艺术家风格的UV贴图。
- Result: ArtUV在多个基准测试中表现出色,能够确保语义一致性和保持拓扑结构,使UV贴图可直接用于2D编辑。该方法可作为专业渲染工具的插件或独立系统,实现快速高质量的UV生成。
- Conclusion: ArtUV提供了一个多功能解决方案,能够无缝集成到专业渲染工具中或作为独立系统使用,为快速高质量的UV生成提供了有效方法。
[101] SeamCrafte: Enhancing Mesh Seam Generation for Artist UV Unwrapping via Reinforcement Learning
Duoteng Xu,Yuguang Chen,Jing Li,Xinhai Liu,Xueqi Ma,Zhuo Chen,Dongyu Zhang,Chunchao Guo
Main category: cs.GR
TL;DR: SeamCrafter是一种基于GPT的自回归接缝生成器,通过双分支点云编码器分离拓扑和几何特征,并使用DPO优化方法,显著降低了UV展开的失真和碎片化问题。
- Motivation: 现有的3D表面接缝生成方法往往在失真和碎片化之间权衡,要么产生高失真,要么产生大量分散的岛屿,这阻碍了纹理合成和艺术家工作流程。
- Method: 提出SeamCrafter模型,使用双分支点云编码器分离拓扑和几何特征,在预训练后通过基于新评估框架的DPO方法进行微调,该框架主要评估UV失真和碎片化。
- Result: 大量实验表明,SeamCrafter生成的接缝在失真和碎片化方面显著优于现有方法,同时保持了拓扑一致性和视觉保真度。
- Conclusion: SeamCrafter通过创新的自回归生成方法和偏好优化技术,有效解决了3D表面接缝生成中的关键问题,为纹理映射提供了更优的解决方案。
[102] ARMesh: Autoregressive Mesh Generation via Next-Level-of-Detail Prediction
Jiabao Lei,Kewei Shi,Zhihao Liang,Kui Jia
Main category: cs.GR
TL;DR: 提出了一种渐进式自回归网格生成方法,通过从粗到细的方式构建3D网格,而不是传统的按字典序逐面生成。
- Motivation: 现有的自回归网格生成模型按字典序逐面生成网格,无法有效捕捉符合人类感知的几何结构。受2D图像渐进式生成模型的启发,希望开发更自然的网格生成方式。
- Method: 将网格简化为单纯复形,使用基于Transformer的自回归模型模拟简化过程的逆过程,从单点开始逐步添加几何细节,通过局部重网格化改变拓扑结构。
- Result: 实验表明该方法不仅能通过早期停止控制生成质量和时间消耗,还支持网格细化和编辑等应用。
- Conclusion: 渐进式网格生成方法提供了更直观的网格生成控制,并扩展了网格处理的应用场景。
[103] ArchGPT: Understanding the World's Architectures with Large Multimodal Models
Yuze Wang,Luo Yang,Junyi Wang,Yue Qi
Main category: cs.GR
TL;DR: ArchGPT是一个多模态建筑视觉问答模型,通过创新的数据构建流程创建了Arch-300K专业数据集,解决了现有VR/MR/AR系统在建筑领域扩展性不足的问题。
- Motivation: 现有VR/MR/AR系统在建筑探索和解释方面存在扩展性问题,通常需要针对特定案例进行硬编码注释和交互设计,无法适应多样化的建筑环境。
- Method: 采用多阶段数据构建流程:首先通过粗到细策略筛选高质量建筑图像,然后使用LLM引导的文本验证和知识蒸馏生成可靠的问题-答案对,最后合成形式化分析注释。基于Arch-300K数据集对ShareGPT4V-7B进行监督微调得到ArchGPT。
- Result: 构建了包含约31.5万张图像-问题-答案三元组的Arch-300K专业数据集,并成功训练出ArchGPT多模态建筑VQA模型。
- Conclusion: ArchGPT和Arch-300K数据集为建筑领域的沉浸式探索和解释提供了可扩展的解决方案,推动了建筑教育、遗产保护和专业设计实践的发展。
[104] Marching Neurons: Accurate Surface Extraction for Neural Implicit Shapes
Christian Stippel,Felix Mujkanovic,Thomas Leimkühler,Pedro Hermosilla
Main category: cs.GR
TL;DR: 提出一种从神经隐式函数中解析提取表面的新方法,避免传统方法因空间离散化导致的精度损失
- Motivation: 显式和隐式3D表示各有优势,需要高效转换。传统方法如Marching Cubes依赖空间分解和采样,受限于固定分辨率导致不准确
- Method: 利用每个神经元对域进行划分的特性,开发深度优先遍历策略来高效追踪编码表面,无需临时空间离散化
- Result: 生成的网格忠实捕获网络中的完整几何信息,在不同形状和网络架构上实现前所未有的精度,同时保持竞争力速度
- Conclusion: 该方法能够原生并行运行,处理大型神经架构,为神经隐式函数的表面提取提供了更准确的解决方案
[105] CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling
Yuze He,Yanning Zhou,Wang Zhao,Jingwen Ye,Yushi Bai,Kaiwen Xiao,Yong-Jin Liu,Zhongqian Sun,Wei Yang
Main category: cs.GR
TL;DR: CHARM是一个用于动漫发型建模的参数化表示和生成框架,通过控制点序列表示发片,使用自回归Transformer生成高质量动漫发型。
- Motivation: 传统发型建模方法主要针对真实头发,而动漫发型具有高度风格化、分段结构化的几何特征,现有技术难以高效处理。现有方法依赖密集网格建模或手工样条曲线,编辑效率低且不适合可扩展学习。
- Method: 提出紧凑、可逆的控制点参数化表示,每个控制点仅用5个几何参数编码。基于此构建自回归生成框架,将动漫发型视为"发型语言",使用Transformer捕获局部几何和全局拓扑结构。
- Result: 构建了包含37K高质量动漫发型的AnimeHair数据集。实验表明CHARM在重建精度和生成质量方面达到最先进水平。
- Conclusion: CHARM为动漫发型建模提供了表达力强且可扩展的解决方案,支持艺术家友好设计和基于学习的生成。
eess.IV
[106] Optimal Transport Based Hyperspectral Unmixing for Highly Mixed Observations
D. Doutsas,B. Figliuzzi
Main category: eess.IV
TL;DR: 提出一种基于最优传输(OT)的新方法,用于解决盲高光谱解混中高度混合数据的问题,通过约束估计丰度矩阵分布更接近目标Dirichlet分布来提高解混精度。
- Motivation: 传统盲高光谱解混方法在处理高度混合数据时效果不佳,需要一种能够更好估计端元分布的新方法。
- Method: 使用最优传输(OT)来衡量目标分布与真实丰度分布之间的差异,并将其作为正则化项纳入优化问题中,采用无监督深度学习框架。
- Result: 实验表明该方法在高度混合数据情况下能够更好地估计端元,且对目标丰度分布的选择具有鲁棒性。
- Conclusion: 基于OT的正则化方法为盲高光谱解混提供了一种有效的解决方案,特别是在处理高度混合数据时表现出优越性能。
cs.MA
[107] RadAgents: Multimodal Agentic Reasoning for Chest X-ray Interpretation with Radiologist-like Workflows
Kai Zhang,Corey D Barrett,Jangwon Kim,Lichao Sun,Tara Taghavi,Krishnaram Kenthapadi
Main category: cs.MA
TL;DR: RadAgents是一个用于胸部X光片解读的多智能体框架,通过结合临床先验知识和任务感知的多模态推理,解决现有方法在临床可解释性、多模态证据融合和一致性验证方面的局限性。
- Motivation: 当前胸部X光片解读方法存在三个主要问题:推理过程缺乏临床可解释性且不符合指南要求;多模态证据融合不足,仅生成基于文本的解释;系统无法检测和解决工具间的不一致性,缺乏验证机制。
- Method: 提出RadAgents多智能体框架,结合临床先验知识和任务感知的多模态推理,集成基础定位和多模态检索增强技术来验证和解决上下文冲突。
- Result: 该方法能够产生更可靠、透明且符合临床实践的输出结果。
- Conclusion: RadAgents框架通过多智能体协作和验证机制,显著提升了胸部X光片解读的临床可解释性和可靠性。
cs.RO
[108] Equi-RO: A 4D mmWave Radar Odometry via Equivariant Networks
Zeyu Han,Shuocheng Yang,Minghan Zhu,Fang Zhang,Shaobing Xu,Maani Ghaffari,Jianqiang Wang
Main category: cs.RO
TL;DR: Equi-RO是一个基于等变网络的4D毫米波雷达里程计框架,通过将多普勒速度预处理为图中的不变节点和边特征,使用分离网络处理等变和不变特征,在稀疏雷达数据中提高帧间对应关系,在精度和鲁棒性上优于现有方法。
- Motivation: 在GPS缺失环境下,自动驾驶车辆和机器人需要精确的里程计估计。虽然激光雷达和相机在极端天气下表现不佳,但4D毫米波雷达具有全天候操作能力和速度测量优势,是鲁棒的替代方案。
- Method: 算法将多普勒速度预处理为图中的不变节点和边特征,采用分离网络分别处理等变和不变特征,基于图的架构增强稀疏雷达数据中的特征聚合,改善帧间对应关系。
- Result: 在开源数据集和自采集数据集上的实验表明,Equi-RO在精度和鲁棒性上优于最先进算法。在开源数据集上,与最佳基线相比,平移和旋转精度分别相对提高了10.7%和20.0%。
- Conclusion: Equi-RO框架在4D毫米波雷达里程计估计方面表现出色,特别是在GPS缺失和恶劣天气条件下,为自动驾驶系统提供了可靠的定位解决方案。
[109] Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation
Wei-Teng Chu,Tianyi Zhang,Matthew Johnson-Roberson,Weiming Zhi
Main category: cs.RO
TL;DR: FINS是一个轻量级框架,能够基于单张或少量图像快速重建高保真表面和SDF场,在收敛速度和精度上优于现有方法
- Motivation: 现有的隐式表面重建方法如NeuS需要大量多视图图像和长时间训练,限制了实际应用。本文旨在开发一个仅需单张图像就能快速重建神经表面的方法
- Method: FINS整合了多分辨率哈希网格编码器和轻量级几何/颜色头,使用近似二阶优化器实现高效训练。通过预训练基础模型估计图像中的几何信息,实现仅需单张RGB图像就能构建神经表面
- Result: 实验表明,在相同条件下,FINS在表面重建和SDF场估计的收敛速度和精度上都优于最先进的基线方法
- Conclusion: FINS方法高效且可扩展,适用于机器人表面跟随任务,并在多个基准数据集上表现出良好的性能
[110] RAM-NAS: Resource-aware Multiobjective Neural Architecture Search Method for Robot Vision Tasks
Shouren Mao,Minghao Qin,Wei Dong,Huajian Liu,Yongzhuo Gao
Main category: cs.RO
TL;DR: RAM-NAS是一种资源感知的多目标神经架构搜索方法,专注于改进超网络预训练和机器人硬件设备的资源感知能力,通过子网络相互蒸馏和延迟代理预测器来平衡模型精度和延迟的权衡。
- Motivation: 传统神经架构搜索方法在训练超网络方面不足,且很少关注实际机器人硬件资源。需要开发能够考虑硬件资源的多目标NAS方法。
- Method: 提出子网络相互蒸馏概念,使用解耦知识蒸馏损失增强蒸馏性能,利用三种机器人边缘硬件数据训练延迟代理预测器,采用统一多目标进化搜索平衡精度和延迟。
- Result: RAM-NAS模型在ImageNet上达到76.7%到81.4%的top-1准确率,在边缘硬件上显著降低推理延迟,下游任务检测和分割时间相比MobileNetv3方法有所减少。
- Conclusion: RAM-NAS填补了NAS在机器人硬件资源感知方面的空白,为机器人应用提供了高效的轻量级模型解决方案。
[111] Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations
Xiaoxiang Dong,Matthew Johnson-Roberson,Weiming Zhi
Main category: cs.RO
TL;DR: 提出了JFTO框架,通过关节流轨迹优化从人类视频演示中学习抓取姿态和物体轨迹,解决机器人操作中的本体差异和关节可行性约束问题。
- Motivation: 从人类视频演示学习为机器人操作提供了可扩展的替代方案,但由于本体差异和关节可行性约束,直接模仿人类手部运动存在挑战。
- Method: JFTO框架将演示视为物体中心指导,平衡三个目标:选择可行抓取姿态、生成与演示一致的对象轨迹、确保无碰撞执行。扩展流匹配到SE(3)空间进行概率建模,避免模式崩溃。
- Result: 在仿真和真实世界的多样化操作任务中验证了方法的有效性。
- Conclusion: 该方法通过物体中心视角和概率轨迹建模,实现了从人类视频演示到机器人操作的可靠转换。
[112] SLAM-Free Visual Navigation with Hierarchical Vision-Language Perception and Coarse-to-Fine Semantic Topological Planning
Guoyang Zhao,Yudong Li,Weiqing Qi,Kai Zhang,Bonan Liu,Kai Chen,Haoang Li,Jun Ma
Main category: cs.RO
TL;DR: 提出了一种基于视觉语言驱动的SLAM-free导航框架,用语义推理和轻量级拓扑表示替代传统SLAM的密集几何方法,实现从几何中心映射到语义驱动决策的转变。
- Motivation: 传统SLAM方法在足式机器人导航中存在快速运动下的脆弱性、校准需求高、传感器漂移等问题,且缺乏任务驱动的语义推理能力。
- Method: 采用分层视觉语言感知模块融合场景级上下文和对象级线索,构建语义概率拓扑图支持粗到细规划:基于LLM的全局推理选择子目标,基于视觉的局部规划进行避障,与强化学习运动控制器集成。
- Result: 仿真和真实环境实验显示在语义准确性、规划质量和导航成功率方面均有持续改进,消融研究验证了分层感知和精细局部规划的必要性。
- Conclusion: 这项工作为SLAM-free、视觉语言驱动的导航引入了新范式,将机器人探索从几何中心映射转向语义驱动决策。
[113] MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM
Yuxuan Zhou,Xingxing Li,Shengyu Li,Zhuohao Yan,Chunxi Xia,Shaoquan Feng
Main category: cs.RO
TL;DR: MASt3R-Fusion是一个多传感器辅助的视觉SLAM框架,将前馈点云图回归与惯性测量和GNSS数据紧密集成,通过Sim(3)视觉对齐约束和分层因子图设计实现实时姿态跟踪和全局一致映射。
- Motivation: 传统视觉SLAM系统在低纹理环境、尺度模糊和恶劣视觉条件下表现不佳,而基于神经网络的点云图回归方法虽然能恢复高保真3D几何,但往往忽略了多传感器信息融合的优势。
- Method: 提出Sim(3)视觉对齐约束集成到通用度量尺度SE(3)因子图中,采用分层因子图设计,支持实时滑动窗口优化和具有激进闭环的全局优化。
- Result: 在公开基准和自收集数据集上的评估显示,相比现有视觉中心多传感器SLAM系统,在准确性和鲁棒性方面有显著提升。
- Conclusion: MASt3R-Fusion框架有效结合了神经网络点云图回归和多传感器融合的优势,实现了更准确和鲁棒的视觉SLAM性能,代码将开源以支持可复现性研究。
[114] Autoregressive End-to-End Planning with Time-Invariant Spatial Alignment and Multi-Objective Policy Refinement
Jianbo Zhao,Taiyu Ban,Xiangjie Li,Xingtai Gui,Hangning Zhou,Lei Liu,Hongwei Zhao,Bin Li
Main category: cs.RO
TL;DR: 本文提出了一种时间不变空间对齐(TISA)模块来解决自动驾驶中自回归模型的时空不对齐问题,通过将初始环境特征投影到一致的自我中心框架中,结合运动学动作预测头和基于直接偏好优化(DPO)的多目标后训练阶段,在NAVSIM数据集上达到了89.8 PDMS的state-of-the-art性能。
- Motivation: 自回归模型在自动驾驶端到端规划中表现出强大的序列建模能力,但其性能受到时空不对齐的限制——规划器必须基于过去的感知数据来预测未来动作,这造成了世界观的不一致性,限制了这种强大方法的性能上限。
- Method: 1. 时间不变空间对齐(TISA)模块:学习将初始环境特征投影到每个未来时间步的一致自我中心框架中,无需显式的未来场景预测;2. 运动学动作预测头:预测加速度和偏航率以确保物理可行的轨迹;3. 多目标后训练阶段:使用直接偏好优化(DPO)提供针对特定驾驶行为的精细反馈,超越纯模仿学习。
- Result: 在NAVSIM数据集上,该模型在自回归模型中达到了state-of-the-art的89.8 PDMS性能。
- Conclusion: 提出的TISA模块有效解决了自回归规划器中的世界观不一致问题,结合运动学约束和精细化偏好优化,显著提升了自动驾驶端到端规划的性能上限。
[115] KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models
Sibo Li,Qianyue Hao,Yu Shang,Yong Li
Main category: cs.RO
TL;DR: KeyWorld是一个改进文本条件机器人世界模型的框架,通过将transformer计算集中在少量语义关键帧上,同时使用轻量级卷积模型填充中间帧,实现了5.68倍的加速并提高了生成视频的物理有效性。
- Motivation: 当前机器人世界模型存在推理速度慢和生成轨迹物理合理性不足的问题,主要原因是帧到帧生成方法在相似帧上进行冗余计算,且忽视了关键转换的语义重要性。
- Method: KeyWorld首先通过迭代简化机器人运动轨迹识别重要转换,获取真实关键帧;然后训练DiT模型从文本任务描述推理生成这些物理意义关键帧;最后使用轻量级插值器高效重建完整视频。
- Result: 在LIBERO基准测试中,KeyWorld相比帧到帧生成基线实现了5.68倍加速,且关注运动感知关键帧进一步提高了生成视频的物理有效性,特别是在复杂任务上。
- Conclusion: 该方法为在实时机器人控制和其他需要高效有效世界模型的领域中部署世界模型提供了一条实用路径。
[116] Cross-Modal Instructions for Robot Motion Generation
William Barron,Xiaoxiang Dong,Matthew Johnson-Roberson,Weiming Zhi
Main category: cs.RO
TL;DR: 提出了CrossInstruct框架,通过跨模态指令(如文本标签)而非物理运动演示来指导机器人学习新行为,结合基础视觉语言模型和强化学习实现高效策略学习
- Motivation: 传统机器人行为教学需要物理演示,数据收集繁琐且难以扩展。本文探索使用粗略注释(如文本标签)作为替代演示形式,解决演示数据集扩展困难的问题
- Method: CrossInstruct框架将跨模态指令作为上下文输入基础视觉语言模型,通过迭代查询小型微调模型,在多视角2D图像上合成期望运动,然后融合为3D运动轨迹分布。结合下游强化学习管道优化策略
- Result: 在基准仿真任务和真实硬件上验证了CrossInstruct的有效性,无需额外微调即可产生可执行的机器人行为,并为强化学习提供良好的策略初始化
- Conclusion: 跨模态指令学习范式为机器人行为教学提供了可扩展的替代方案,结合大模型推理能力和细粒度指向模型,实现了超越有限指令示例环境的泛化能力
[117] Human-like Navigation in a World Built for Humans
Bhargav Chandaka,Gloria X. Wang,Haozhe Chen,Henry Che,Albert J. Zhai,Shenlong Wang
Main category: cs.RO
TL;DR: ReasonNav是一个模块化导航系统,通过利用视觉语言模型的推理能力,集成类似人类的导航技能(如阅读标志和询问方向),使机器人能够在大型环境中高效导航。
- Motivation: 现有机器人导航系统缺乏执行人类导航行为(如阅读标志、询问方向)的能力,导致在大型环境中导航效率低下。人类通过这些行为可以减少搜索范围,提高导航效率。
- Method: 设计基于导航地标的紧凑输入输出抽象,让视觉语言模型专注于语言理解和推理。系统采用模块化架构,集成人类式导航技能。
- Result: 在真实和模拟导航任务上的评估表明,ReasonNav能够成功运用高阶推理在大型复杂建筑中高效导航。
- Conclusion: ReasonNav通过集成人类式导航行为,显著提高了机器人在大型环境中的导航效率,证明了视觉语言模型在复杂导航任务中的有效性。
cs.CL
[118] ShortCheck: Checkworthiness Detection of Multilingual Short-Form Videos
Henrik Vatndal,Vinay Setty
Main category: cs.CL
TL;DR: ShortCheck是一个用于检测短视频平台(如TikTok)中值得核查内容的模块化系统,通过多模态分析帮助人工事实核查员识别虚假信息。
- Motivation: TikTok等短视频平台的内容具有多模态、动态和嘈杂的特点,给虚假信息检测带来独特挑战,需要专门工具来辅助人工事实核查。
- Method: 采用模块化、仅推理的流水线,集成语音转录、OCR、物体和深度伪造检测、视频到文本摘要以及声明验证等技术。
- Result: 在两个手动标注的多语言TikTok视频数据集上验证,系统取得了有希望的结果,加权F1分数超过70%。
- Conclusion: ShortCheck系统能够有效识别值得核查的短视频内容,为事实核查工作提供了实用的自动化工具。
cs.CR
[119] BlockFUL: Enabling Unlearning in Blockchained Federated Learning
Xiao Liu,Mingyuan Li,Xu Wang,Guangsheng Yu,Wei Ni,Lixiang Li,Haipeng Peng,Renping Liu
Main category: cs.CR
TL;DR: BlockFUL是一个用于联邦学习中遗忘学习的新框架,采用双链结构(实时链和归档链),提出了并行和顺序两种遗忘范式,通过梯度上升和重训练方法实现高效遗忘。
- Motivation: 联邦学习中的遗忘学习面临挑战,特别是当使用区块链确保完整性时,编辑多个相互关联的区块链记录和更新所有继承模型使过程复杂化。
- Method: 提出BlockFUL框架,采用双链结构,引入并行和顺序两种遗忘范式,使用梯度上升和重训练方法实现高效遗忘。
- Result: 在CIFAR-10和Fashion-MNIST数据集上使用AlexNet、ResNet18和MobileNetV2模型验证,这些方法有效减少数据依赖性和操作开销。
- Conclusion: BlockFUL框架通过双链结构和新的遗忘范式,显著提升了联邦学习中继承模型的遗忘性能。
Powered by Deepseek & arXiv Daily AI Enhanced